CN113569683A

CN113569683A - 结合显著区域检测的场景分类方法、系统、设备及介质

Info

Publication number: CN113569683A
Application number: CN202110817151.6A
Authority: CN
Inventors: 朱彦浩; 胡郡郡; 唐大闰
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-29
Anticipated expiration: 2041-07-20
Also published as: CN113569683B

Abstract

本发明公开了一种结合显著区域检测的场景分类方法、系统、设备及介质，场景分类方法包括：短视频图像处理步骤：对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个视频帧的多个图片信息的图像数据集；非显著区域获取步骤：通过显著区域检测对每一图片信息的显著区域和非显著区域进行识别并对非显著区域进行增强处理；分类识别步骤：通过resnet‑32网络结构对每一所述图片信息的非显著区域进行分类识别获得每一图片信息的图像场景概率；图像概率处理步骤：根据每一图片信息的图像场景概率计算获得短视频图像的每一场景类别的场景概率。通过本发明能够提高短视频图像的识别准确率及分类性能。

Description

结合显著区域检测的场景分类方法、系统、设备及介质

技术领域

本发明涉及视频处理技术领域，特别涉及一种结合显著区域检测的场景分类方法、系统、设备及介质。

背景技术

随着科学技术的飞速发展，通讯技术得到了飞速的发展，目前的通讯技术已经发展到了第五代通信---5G。5G技术的飞速发展带来了互联网信息传播的新途径—短视频。短视频已经成为了目前社会生活下传播信息最丰富，最快捷，最受欢迎的途径。在这种丰富的月活人数下，各种短视频平台的数据量急剧上升，如何能够更好的使用丰富的短视频，并提取出有用的信息，进行数据分析也成为了一个新的技术课题。

与正常的场景分类不同，短视频场景分类主要面临两个问题需要进行解决：

一是与图像不同，一副图像中只会描述一种场景。如图1中，这幅图像就只是描述了室内的场景。而对于短视频而言，由于其是一个较长时间的故事，因此场景会发生切换。如图2所示。其场景由室内切换至室外，因此对于一个短视频内的场景要尽可能的将所有的场景都识别到。；

二是与普通的场景识别不同，短视频场景下，周围环境信息的内容较为稀少，大部分均是人物占据主要区域，因此如何在少量信息下进行准确的场景识别也是一个非常大的挑战。如图3所示，人物占据主要区域，室内场景只在图像的右上和左上区域。

基于以上问题现有技术大都采取以下方案：

1、基于视频级的3D卷积场景分类方法

目前，最为广泛C3D是Facebook的一个工作，它主要是把2D Convolution 扩展到3D。我们知道2D的卷积操作是将卷积核在输入图像或特征图(feature map)上进行滑窗，得到下一层的特征图。例如，在一个单通道的图像上做卷积或在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的3 个颜色通道，也指多张堆叠在一起的帧，即一小段视频)，最终的输出都是一张二维的特征图，也就是说，多通道的信息被完全压缩了。而在3D卷积中，为了保留时序的信息，对卷积核进行了调整，增加了一维时域深度。3D卷积的输出仍是一个三维的特征图。因此通过3D卷积，C3D可以直接处理视频，同时利用表观特征和时序特征。但这种方法的缺点是：基于视频的方法，只能给出这个视频的主题场景，一般会忽略掉短视频中出现时长较为短暂的其他场景，导致其结果不满足要求。

2、基于图像级的抽帧采样场景分类方法

本技术方法是对于整个短视频先进行帧的提取操作，在提取帧的基础上使用基于图像的场景分类方法进行分类操作。直接利用现有成熟的网络架构如ResNet就可以实现图像涉及场所的识别。在对于所有的图像进行识别后，对于最终的识别结果进行聚合，这样出现频次较高的场景会有相对较高的结果，出现频次较低的场景会有相对而言较低的结果，但是会包含所有出现过的场景。但这种方法的缺点是：但由于图像级的条件下，图像中的主体被人物所遮挡因此识别的准确率可能不高。

因此亟需开发一种克服上述缺陷的结合显著区域检测的场景分类方法、系统、设备及介质。

发明内容

针对上述问题，本申请实施例提供了一种结合显著区域检测的场景分类方法、系统、设备及介质，以至少解决提高识别的准确率及分类性能的问题。

本发明提供一种结合显著区域检测的场景分类方法，其中，用于对短视频图像中的场景进行分类，所述场景分类方法包括：

短视频图像处理步骤：对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集；

非显著区域获取步骤：通过显著区域检测对每一所述图片信息的显著区域和非显著区域进行识别并对所述非显著区域进行增强处理；

分类识别步骤：通过resnet-32网络结构对每一所述图片信息的所述非显著区域进行分类识别获得每一所述图片信息的图像场景概率；

图像概率处理步骤：根据每一所述图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

上述的场景分类方法，其中，所述短视频图像处理步骤包括：将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

上述的场景分类方法，其中，所述非显著区域获取步骤包括：

区域划分步骤：对所述图片信息进行显著区域获得具有所述显著区域和所述非显著区域的掩膜图片信息；

图片信息处理步骤：对所述掩膜图片信息及所述图片信息进行处理获得增强所述非显著区域后的所述图片信息。

上述的场景分类方法，其中，所述图像概率处理步骤包括：根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

本发明还提供一种结合显著区域检测的场景分类系统，其中，用于对短视频图像中的场景进行分类，所述场景分类系统包括：

短视频图像处理单元，对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集；

非显著区域获取单元，通过显著区域检测对每一所述图片信息的显著区域和非显著区域进行识别并对所述非显著区域进行增强处理；

分类识别单元，通过resnet-32网络结构对每一所述图片信息的所述非显著区域进行分类识别获得每一所述图片信息的图像场景概率；

图像概率处理单元，根据每一所述图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

上述的场景分类系统，其中，所述短视频图像处理单元将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

上述的场景分类系统，其中，所述非显著区域获取单元包括：

区域划分模块，对所述图片信息进行显著区域获得具有所述显著区域和所述非显著区域的掩膜图片信息；

图片信息处理模块，对所述掩膜图片信息及所述图片信息进行处理获得增强所述非显著区域后的所述图片信息。

上述的场景分类系统，其中，所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

本发明还提供一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述中任一项所述的场景分类方法。

本发明还提供一种介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述中任一项所述的场景分类方法。

本发明相对于现有技术其有益效果在于：

本发明使用基于图像级的抽帧采样分类方法，这种方法可以在短视频的训练数据较少的情况下通过抽帧获得大量的图像数据，并能够兼顾到短视频中出现多个场景的问题，为了提高识别的准确率，本发明结合了显著区域检测的方法，将图像中的主体区域找到，并使网络不去学习主体区域内的内容，将注意力集中到主体区域后方的非显著区域，以得到更高的分类性能，同时基于本发明的深度学习技术也提升了计算机视觉能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-图3为图片信息示意图；

图4为本发明的场景分类方法的流程图；

图5为图4中步骤S2的分步骤流程图；

图6为本发明的场景分类系统的结构示意图；

图7为本发明的电子设备的结构示意图；

图8为图片信息与显著区域图片信息示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的 “多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

短视频场景分类，是获取短视频有效信息的技术方法之一，通过分析大量短视频的发生场景，如居家，户外，健身房等，能够有效的获取一定的规律信息。对于推荐算法而言可以有效提高短视频的推荐质量，可以有效的增加广告视频的推送后的点击率，提高企业的利润。而对于创作者而言，可以更好的把控目前相对火爆的短视频类型，提高视频创作的质量，有更高的概率提高视频的观看数量。

显著区域检测技术，是图像处理中的一个研究课题。显著区域指的是面对一个场景时，人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域，这些人们感兴趣区域被称之为显著性区域。在计算机视觉领域，对于显著性区域的检测是个比较热门的问题，因为这种方法可以找到图像中最关键的部分，并去除多余的无关信息。

本发明主要是在基于图像级的场景分类的基础上，为解决主体占比太大导致算法的识别效果不好的问题上进行了发明创造，使用了显著区域检测的技术与场景识别的技术相结合，解决了主体占比大的问题，并保证了最后的分类效果，以下结合具体实施例进行说明。

请参照图4-图5，图4为本发明的场景分类方法的流程图；图5为图4 中步骤S2的分步骤流程图。如图4-图5所示，本发明的场景分类方法用于对短视频图像中的场景进行分类，场景分类方法包括：

短视频图像处理步骤S1：对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集。

具体地说，在本步骤中将短视频图像进行抽帧提取，首先获取到这个视频的FPS(帧/秒)，即这个视频一秒钟有多少帧，基于FPS对于视频帧进行抽样保存，每一秒钟的时间长度上保存一帧图像，生成一个针对于这个短视频图像的所有的图像数据集。

非显著区域获取步骤S2：通过显著区域检测对每一所述图片信息的显著区域和非显著区域进行识别并对所述非显著区域进行增强处理。

其中，所述显著区域获取步骤S2包括：

区域划分步骤S21：对所述图片信息进行显著区域获得具有所述显著区域和所述非显著区域的掩膜图片信息；

图片信息处理步骤S22：对所述掩膜图片信息及所述图片信息进行处理获得增强所述非显著区域后的所述图片信息。

具体地说，请参照图8，图8为图片信息与显著区域图片信息示意图，其中左侧为图片信息，右侧为对应该图片信息的掩膜图片信息。先对于短视频图像抽帧之后的图片信息进行显著区域提取，可以得到一张与图片信息大小相同，但是其像素点的值只有0，255两个数的显著区域图片信息，这是一张黑白图像，白色表示这个部分是显著区域，黑色表示这个部分不是显著区域。在提取完显著区域后，将提取后的mask掩膜图像，即显著区域图片信息与图片信息进行处理，使得最后的图像中显著区域部分的像素值均为0，使图像关注于非显著性区域。

分类识别步骤S3：过resnet-32网络结构对每一所述图片信息的所述非显著区域进行分类识别获得每一所述图片信息的图像场景概率。

具体地说，图像的分类识别使用resnet-32网络结构进行识别，识别网络的使用过程是网络结构接受图像并返回最后图像属于每一个场景的图像场景概率。

其中在本实施例中，本步骤还可包括训练步骤，对resnet-32网络结构进行训练，具体地说resnet-32网络结构使用了所有训练视频的抽帧图像随意打乱后的数据进行训练，为了能够避免训练过程中由于训练的数据其类别不一致的问题，对于每一个类别的所占比重进行了统计，在训练的采样过程中，尽量做到均匀采样，从而保证训练的可靠性。

图像概率处理步骤S4：根据每一所述图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

其中，所述图像概率处理步骤S4包括：根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

具体地说，在本步骤中，对于任一短视频的所有抽帧的图片信息进行类别的预测后，会对于所有的图像概率进行直接的加和再除以所有图片信息的个数，这就会使得最后的概率上出现频次最高的内容会有最高的概率，且其概率的大小也能反应各个场景出现的频次。

请参照图6，图6为本发明的场景分类系统的结构示意图。如图6所示，本发明的结合显著区域检测的场景分类系统用于对短视频图像中的场景进行分类，场景分类系统包括：

短视频图像处理单元11，对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集；

非显著区域获取单元12，通过显著区域检测对每一所述图片信息的显著区域和非显著区域进行识别并对所述非显著区域进行增强处理；

分类识别单元13，通过resnet-32网络结构对每一所述图片信息的所述非显著区域进行分类识别获得每一所述图片信息的图像场景概率；

图像概率处理单元14，根据每一所述图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

进一步地，所述短视频图像处理单元11将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

再进一步地，所述非显著区域获取单元12包括：

区域划分模块121，对所述图片信息进行显著区域获得具有所述显著区域和所述非显著区域的掩膜图片信息；

图片信息处理模块122，对所述掩膜图片信息及所述图片信息进行处理获得增强所述非显著区域后的所述图片信息。

更进一步地，所述图像概率处理单元14根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

请参照图7，图7为本发明的设备的结构示意图。如图7所示，本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81 以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB) 驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性 (Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器 (Read-Only Memory，简称为ROM)和随机存取存储器(Random Access Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM (Programmable Read-Only Memory，简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory，简称为EPROM)、电可擦除PROM (ElectricallyErasable Programmable Read-Only Memory，简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-AccessMemory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种场景分类方法。

在其中一些实施例中，电子设备还可包括通信接口83和总线80。其中，如图7所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/ 数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线 (Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA) 总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为 VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种场景分类方法。

综上所述，本发明使用基于图像级的抽帧采样分类方法，这种方法可以在短视频的训练数据较少的情况下通过抽帧获得大量的图像数据，并能够兼顾到短视频中出现多个场景的问题，本发明结合了显著区域检测的方法，将图像中的主体区域找到，并使网络不去学习主体区域内的内容，将注意力集中到主体区域后方，以提高识别的准确率，从而得到更高的分类性能。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种结合显著区域检测的场景分类方法，其特征在于，用于对短视频图像中的场景进行分类，所述场景分类方法包括：

2.如权利要求1所述的场景分类方法，其特征在于，所述短视频图像处理步骤包括：将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

3.如权利要求1所述的场景分类方法，其特征在于，所述非显著区域获取步骤包括：

4.如权利要求3所述的场景分类方法，其特征在于，所述图像概率处理步骤包括：根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

5.一种结合显著区域检测的场景分类系统，其特征在于，用于对短视频图像中的场景进行分类，所述场景分类系统包括：

6.如权利要求5所述的场景分类系统，其特征在于，所述短视频图像处理单元将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

7.如权利要求6所述的场景分类系统，其特征在于，所述非显著区域获取单元包括：

8.如权利要求7所述的场景分类系统，其特征在于，所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

9.一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的场景分类方法。

10.一种介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的场景分类方法。