CN113569687A - 基于双流网络的场景分类方法、系统、设备及介质 - Google Patents
基于双流网络的场景分类方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113569687A CN113569687A CN202110821917.8A CN202110821917A CN113569687A CN 113569687 A CN113569687 A CN 113569687A CN 202110821917 A CN202110821917 A CN 202110821917A CN 113569687 A CN113569687 A CN 113569687A
- Authority
- CN
- China
- Prior art keywords
- picture information
- image
- scene
- sample
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000010365 information processing Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 55
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种结合显著区域检测的场景分类方法、系统、设备及介质,场景分类方法包括:短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集;图片信息处理步骤:对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息;分类识别步骤:通过双流网络对第一图片信息及第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率;图像概率处理步骤:根据每一第一图片信息的图像场景概率计算获得短视频图像的每一场景类别的场景概率,通过本发明能够提高短视频图像的识别准确率及分类性能。
Description
技术领域
本发明涉及视频处理技术领域,特别涉及一种基于双流网络的场景分类方法、系统、设备及介质。
背景技术
随着科学技术的飞速发展,通讯技术得到了飞速的发展,目前的通讯技术已经发展到了第五代通信---5G。5G技术的飞速发展带来了互联网信息传播的新途径---短视频。短视频已经成为了目前社会生活下传播信息最丰富,最快捷,最受欢迎的途径。在这种丰富的月活人数下,各种短视频平台的数据量急剧上升,如何能够更好的使用丰富的短视频,并提取出有用的信息,进行数据分析也成为了一个新的技术课题。
与正常的场景分类不同,短视频场景分类主要面临两个问题需要进行解决:
一是与图像不同,一副图像中只会描述一种场景。如图1中,这幅图像就只是描述了室内的场景。而对于短视频而言,由于其是一个较长时间的故事,因此场景会发生切换。如图2所示,其场景由室外切换到室内,因此对于一个短视频内的场景要尽可能的将所有的场景都识别到。
二是与普通的场景识别不同,短视频场景下,周围环境信息的内容较为稀少,大部分均是人物占据主要区域,因此如何在少量信息下进行准确的场景识别也是一个非常大的挑战。如图3所示,人物占据主要区域,户外场景只在图像的右上和左上区域。
基于以上问题现有技术大都采取以下方案:
1、基于视频级的3D卷积场景分类方法
目前,最为广泛C3D是Facebook的一个工作,它主要是把2D Convolution扩展到3D。其原理如下图,我们知道2D的卷积操作是将卷积核在输入图像或特征图(feature map)上进行滑窗,得到下一层的特征图。例如,图(a)是在一个单通道的图像上做卷积,图(b)是在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的3个颜色通道,也指多张堆叠在一起的帧,即一小段视频),最终的输出都是一张二维的特征图,也就是说,多通道的信息被完全压缩了。而在3D卷积中,为了保留时序的信息,对卷积核进行了调整,增加了一维时域深度。如图(c)所示,3D卷积的输出仍是一个三维的特征图。因此通过3D卷积,C3D可以直接处理视频,同时利用表观特征和时序特征。但这种方法的缺点是:基于视频的方法,只能给出这个视频的主题场景,一般会忽略掉短视频中出现时长较为短暂的其他场景,导致其结果不满足要求。
2、基于图像级的抽帧采样场景分类方法
本技术方法是对于整个短视频先进行帧的提取操作,在提取帧的基础上使用基于图像的场景分类方法进行分类操作。直接利用现有成熟的网络架构如ResNet就可以实现图像涉及场所的识别。在对于所有的图像进行识别后,对于最终的识别结果进行聚合,这样出现频次较高的场景会有相对较高的结果,出现频次较低的场景会有相对而言较低的结果,但是会包含所有出现过的场景。但这种方法的缺点是:但由于图像级的条件下,图像中的主体被人物所遮挡因此识别的准确率可能不高。
因此亟需开发一种克服上述缺陷的基于双流网络的场景分类方法、系统、设备及介质。
发明内容
针对上述问题,本申请实施例提供了一种基于双流网络的场景分类方法、系统、设备及介质,以至少解决提高识别的准确率及分类性能的问题。
本发明提供一种基于双流网络的场景分类方法,其中,用于对短视频图像中的场景进行分类,所述场景分类方法包括:
短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集;
图片信息处理步骤:对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息;
分类识别步骤:通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率;
图像概率处理步骤:根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
上述的场景分类方法,其中,所述短视频图像处理步骤包括:将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
上述的场景分类方法,其中,所述分类识别步骤包括:
样本图像数据集获取步骤:对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集;
样本图片信息处理步骤:对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息;
特征向量提取步骤:通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量,通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量;
特征向量距离处理步骤:计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后,通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络;
图像场景概率输出步骤:通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率;
聚合步骤:对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。
上述的场景分类方法,其中,所述图像概率处理步骤包括:根据每一场景类别的所有的所述第一图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
本发明还提供一种基于双流网络的场景分类系统,其中,用于对短视频图像中的场景进行分类,所述场景分类系统包括:
短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集;
图片信息处理单元,对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息;
分类识别单元,通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率;
图像概率处理单元,根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
上述的场景分类系统,其中,所述短视频图像处理单元将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
上述的场景分类系统,其中,所述分类识别单元包括:
样本图像数据集获取模块,对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集;
样本图片信息处理模块,对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息;
特征向量提取模块,通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量,通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量;
特征向量距离处理模块,计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后,通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络;
图像场景概率输出模块,通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率;
聚合模块,对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。
上述的场景分类系统,其中,所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
本发明还提供一种设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述中任一项所述的场景分类方法。
本发明还提供一种介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述中任一项所述的场景分类方法。
本发明相对于现有技术其有益效果在于:
本发明使用基于图像级的抽帧采样分类方法,这种方法可以在短视频的训练数据较少的情况下通过抽帧获得大量的图像数据,并能够兼顾到短视频中出现多个场景的问题,为了提高识别的准确率,本发明结合了双流网络的方法,一个分支学习整体的图像特征,另一个学习图像的非中心区域特征,并使整体的网络学习到的特征与非中心区域学习到的特征相近,使得网络将注意力集中到主体区域后方,即场景的特征,以得到更高的分类性能,同时基于本发明的深度学习技术也提升了计算机视觉能力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-图3为图片信息示意图;
图4为本发明的场景分类方法的流程图;
图5为图4中步骤S3的分步骤流程图;
图6为本发明的场景分类方法的框架示意图;
图7为本发明的场景分类系统的结构示意图;
图8为本发明的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等,并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
短视频场景分类,是获取短视频有效信息的技术方法之一,通过分析大量短视频的发生场景,如居家,户外,健身房等,能够有效的获取一定的规律信息。对于推荐算法而言可以有效提高短视频的推荐质量,可以有效的增加广告视频的推送后的点击率,提高企业的利润。而对于创作者而言,可以更好的把控目前相对火爆的短视频类型,提高视频创作的质量,有更高的概率提高视频的观看数量。
双流网络,双流网络是深度学习网络设计中的一个比较火热的设计方法,双流是指网络有两个分支,每个分支有自己的任务,最后两个分支学习到的内容可以进行聚合,这种双流的思想用于很多的任务中,如孪生神经网络中,双流方法可以用于进行对比学习。如教师-学生模型中,双流网络可以用于知识蒸馏,再比如视频分类网络中双流网络一个分支可以学习RGB的图像信息,另一个网络可以学习光流的运动信息。在短视频场景分类的任务中,本发明也引入了双流网络的思想。
本发明主要是在基于图像级的场景分类的基础上,为解决主体占比太大导致算法的识别效果不好的问题上进行了发明创造,使用了显著区域检测的技术与场景识别的技术相结合,解决了主体占比大的问题,并保证了最后的分类效果,以下结合具体实施例进行说明。
请参照图4-图6,图4为本发明的场景分类方法的流程图;图5为图4中步骤S3的分步骤流程图;图6为本发明的场景分类方法的框架示意图。如图4-图6所示,本发明的场景分类方法用于对短视频图像中的场景进行分类,场景分类方法包括:
短视频图像处理步骤S1:对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集。
具体地说,在本步骤中将短视频图像进行抽帧提取,首先获取到这个视频的FPS(帧/秒),即这个视频一秒钟有多少帧,基于FPS对于视频帧进行抽样保存,每一秒钟的时间长度上保存一帧图像,生成一个针对于这个短视频图像的所有的图像数据集。
图片信息处理步骤S2:对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息。
其中,参见图6,在本实施例中,以遮挡所述第一图片信息的人物区域为较佳的实施方式,但本发明并不以此为限。
分类识别步骤S3:通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率。
其中,分类识别步骤S3包括:
样本图像数据集获取步骤S31:对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集;
样本图片信息处理步骤S32:对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息;
特征向量提取步骤S33:通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量,通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量;
特征向量距离处理步骤S34:计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后,通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络;
图像场景概率输出步骤S35:通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率;
聚合步骤S36:对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。
具体地说,单一分支的网络结构均使用的是resnet-32的网络结构进行特征的提取,对上路网络而言,其输入是完整的全部的图像,经过一个resnet-32后会生成此图像对应的特征向量,对于下路分支而言,手动进行中间区域的遮挡,并对于此图像输入到另一个不同的resnet-32的网络结构中去进行特征的提取,其依然会生成一个相对应的特征向量。为了使得网络结构能够专注于非人物区域的环境信息,我们让两路特征信息的距离越近越好,当特征越近,说明上路特征也更加关注于非人物区域的信息。对于此对比学习的分类损失我们采用了L2正则的方法,采用下述公式(1)计算两个特征向量在欧式空间下的距离,使其距离最小。
其中,x、y分别代表第一特征向量及第二特征向量,dist(X,Y)代表第一特征向量与第二特征向量间的距离。
需要说明的是,在本实施例中,本步骤还可包括训练步骤,对resnet-32网络结构进行训练。具体地说,图像的分类识别使用上下两路网络结构的特征相加进行识别。识别网络的使用过程是网络结构接受图像将图像传至上路分支中,并对于图像进行中间区域的擦除后送入下路分支中,对两路的特征进行聚合后返回最后图像属于每一个场景的概率。识别网络的训练过程是使用了所有训练视频的抽帧图像随意打乱后的数据进行训练,为了能够避免训练过程中由于训练的数据其类别不一致的问题,对于每一个类别的所占比重进行了统计,在训练的采样过程中,尽量做到均匀采样。
图像概率处理步骤S4:根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
其中,所述图像概率处理步骤S4包括:根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
具体地说,在本步骤中,对于任一短视频的所有抽帧的图片信息进行类别的预测后,会对于所有的图像概率进行直接的加和再除以所有图片信息的个数,这就会使得最后的概率上出现频次最高的内容会有最高的概率,且其概率的大小也能反应各个场景出现的频次。
请参照图7,图7为本发明的场景分类系统的结构示意图。如图7所示,本发明的基于双流网络的场景分类系统用于对短视频图像中的场景进行分类,所述场景分类系统包括:
短视频图像处理单元11,对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集;
图片信息处理单元12,对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息;
分类识别单元13,通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率;
图像概率处理单元14,根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
进一步地,所述短视频图像处理单元11将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
再进一步地,所述分类识别单元13包括:
样本图像数据集获取模块131,对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集;
样本图片信息处理模块132,对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息;
特征向量提取模块133,通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量,通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量;
特征向量距离处理模块134,计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后,通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络;
图像场景概率输出模块135,通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率;
聚合模块136,对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。
更进一步地,所述图像概率处理单元14根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
请参照图8,图8为本发明的设备的结构示意图。如图8所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种场景分类方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图8所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中处理方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种场景分类方法。
综上所述,本发明在基于图像级的场景分类的基础上,为解决主体占比太大导致算法的识别效果不好的问题,使用了双流网络的思想并使用特征对比的方法,解决了主体占比大的问题,迫使网络学习到非人物区域的地点场景特征,保证了最后的分类效果。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于双流网络的场景分类方法,其特征在于,用于对短视频图像中的场景进行分类,所述场景分类方法包括:
短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集;
图片信息处理步骤:对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息;
分类识别步骤:通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率;
图像概率处理步骤:根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
2.如权利要求1所述的场景分类方法,其特征在于,所述短视频图像处理步骤包括:将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
3.如权利要求1所述的场景分类方法,其特征在于,所述分类识别步骤包括:
样本图像数据集获取步骤:对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集;
样本图片信息处理步骤:对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息;
特征向量提取步骤:通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量,通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量;
特征向量距离处理步骤:计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后,通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络;
图像场景概率输出步骤:通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率;
聚合步骤:对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。
4.如权利要求3所述的场景分类方法,其特征在于,所述图像概率处理步骤包括:根据每一场景类别的所有的所述第一图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
5.一种基于双流网络的场景分类系统,其特征在于,用于对短视频图像中的场景进行分类,所述场景分类系统包括:
短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集;
图片信息处理单元,对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息;
分类识别单元,通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率;
图像概率处理单元,根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。
6.如权利要求5所述的场景分类系统,其特征在于,所述短视频图像处理单元将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
7.如权利要求6所述的场景分类系统,其特征在于,所述分类识别单元包括:
样本图像数据集获取模块,对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集;
样本图片信息处理模块,对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息;
特征向量提取模块,通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量,通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量;
特征向量距离处理模块,计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后,通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络;
图像场景概率输出模块,通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率;
聚合模块,对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。
8.如权利要求7所述的场景分类系统,其特征在于,所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。
9.一种设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的场景分类方法。
10.一种介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的场景分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110821917.8A CN113569687B (zh) | 2021-07-20 | 2021-07-20 | 基于双流网络的场景分类方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110821917.8A CN113569687B (zh) | 2021-07-20 | 2021-07-20 | 基于双流网络的场景分类方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569687A true CN113569687A (zh) | 2021-10-29 |
CN113569687B CN113569687B (zh) | 2023-10-24 |
Family
ID=78165848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110821917.8A Active CN113569687B (zh) | 2021-07-20 | 2021-07-20 | 基于双流网络的场景分类方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569687B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565970A (zh) * | 2022-01-27 | 2022-05-31 | 内蒙古工业大学 | 一种基于深度学习的高精度多角度行为识别方法 |
CN115828638A (zh) * | 2023-01-09 | 2023-03-21 | 西安深信科创信息技术有限公司 | 一种自动驾驶测试场景脚本生成方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777815A (zh) * | 2018-06-08 | 2018-11-09 | Oppo广东移动通信有限公司 | 视频处理方法和装置、电子设备、计算机可读存储介质 |
CN110147711A (zh) * | 2019-02-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 视频场景识别方法、装置、存储介质和电子装置 |
CN111462183A (zh) * | 2020-03-31 | 2020-07-28 | 山东大学 | 一种基于注意力机制双流网络的行为识别方法及系统 |
CN111783729A (zh) * | 2020-07-17 | 2020-10-16 | 商汤集团有限公司 | 视频分类方法、装置、设备及存储介质 |
-
2021
- 2021-07-20 CN CN202110821917.8A patent/CN113569687B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108777815A (zh) * | 2018-06-08 | 2018-11-09 | Oppo广东移动通信有限公司 | 视频处理方法和装置、电子设备、计算机可读存储介质 |
CN110147711A (zh) * | 2019-02-27 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 视频场景识别方法、装置、存储介质和电子装置 |
CN111462183A (zh) * | 2020-03-31 | 2020-07-28 | 山东大学 | 一种基于注意力机制双流网络的行为识别方法及系统 |
CN111783729A (zh) * | 2020-07-17 | 2020-10-16 | 商汤集团有限公司 | 视频分类方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114565970A (zh) * | 2022-01-27 | 2022-05-31 | 内蒙古工业大学 | 一种基于深度学习的高精度多角度行为识别方法 |
CN115828638A (zh) * | 2023-01-09 | 2023-03-21 | 西安深信科创信息技术有限公司 | 一种自动驾驶测试场景脚本生成方法、装置及电子设备 |
CN115828638B (zh) * | 2023-01-09 | 2023-05-23 | 西安深信科创信息技术有限公司 | 一种自动驾驶测试场景脚本生成方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113569687B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111050219B (zh) | 用于利用空间-时间记忆网络处理视频内容的方法和系统 | |
Li et al. | Scale-aware fast R-CNN for pedestrian detection | |
US11586664B2 (en) | Image retrieval method and apparatus, and electronic device | |
Shahrian et al. | Improving image matting using comprehensive sampling sets | |
CN111462183A (zh) | 一种基于注意力机制双流网络的行为识别方法及系统 | |
CN113569687A (zh) | 基于双流网络的场景分类方法、系统、设备及介质 | |
CN110399826B (zh) | 一种端到端人脸检测和识别方法 | |
WO2023174098A1 (zh) | 一种实时手势检测方法及装置 | |
Gao et al. | Counting dense objects in remote sensing images | |
CN111753721A (zh) | 一种人体姿态的识别方法及装置 | |
CN109035257B (zh) | 人像分割方法、装置及设备 | |
CN111488847B (zh) | 体育比赛视频进球片段获取系统及方法、终端 | |
CN113688839B (zh) | 视频处理方法及装置、电子设备、计算机可读存储介质 | |
RU2633182C1 (ru) | Определение направления строк текста | |
WO2023246921A1 (zh) | 目标属性识别方法、模型训练方法和装置 | |
CN117253054A (zh) | 一种光场显著性检测方法及其相关设备 | |
CN112949777B (zh) | 相似图像确定方法及装置、电子设备和存储介质 | |
CN111353330A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114821482A (zh) | 一种基于鱼眼探头的矢量拓扑一体化客流计算方法及系统 | |
CN113742525A (zh) | 自监督视频哈希学习方法、系统、电子设备及存储介质 | |
CN113569683B (zh) | 结合显著区域检测的场景分类方法、系统、设备及介质 | |
WO2021008026A1 (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN113569684A (zh) | 短视频场景分类方法、系统、电子设备及存储介质 | |
KR20140104789A (ko) | 정지영상의 식별자 생성 방법 및 이를 수행하는 영상 처리 장치 | |
CN112329925B (zh) | 模型生成方法、特征提取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |