CN110263215B

CN110263215B - 一种视频情感定位方法及系统

Info

Publication number: CN110263215B
Application number: CN201910386646.0A
Authority: CN
Inventors: 徐宝函; 郑莹斌; 叶浩; 王恒; 孙谷飞
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Shanghai Zhongan Information Technology Service Co ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2021-08-17
Anticipated expiration: 2039-05-09
Also published as: CN110263215A

Abstract

本发明公开一种视频情感定位方法及系统，属于计算机技术领域，该视频情感定位方法通过提取待处理视频的候选片段，并利用第一神经网络模型提取候选片段每帧的特征表示，再通过第二神经网络模型进行情感分类、边界回归、情感排序及完整性分类，最后过滤不符合要求的候选片段并输出待处理视频的情感定位片段，能实现快速准确地定位视频中体现整个视频情感的片段，且定位的片段边界清楚、完整。

Description

一种视频情感定位方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种视频情感定位方法及系统。

背景技术

随着互联网和移动设备的发展，针对视频内容的识别近年来越来越受到科研工作者的重视。视频分类、检测已经有了很多研究，然而视频情感分析由于视频内容复杂而存在很多困难。早期针对情感内容的研究主要集中在图像情感识别，除了整体的图像特征，纹理、位置、人脸等特征在图像情感识别任务中也起到了一定的效果。在视频领域，早期的工作主要针对电影进行了情感分析，底层的视觉与音频特征结合在一些电影标准数据集上取得了良好的效果。

近年来，卷积神经网络受到了越来越多的关注，并在图像分类、检测等任务上取得了较好的效果。一些研究者将神经网络应用于情感分析中，利用神经网络结合迁移学习的方法，在情感识别任务中展示了相比底层视觉特征更好的效果。

然而现实中，视频一般是非专业拍摄且缺乏质量控制，且情感的表达在视频中一般是较为稀疏的，即并不是视频的所有帧都有情感的体现，很多视频包含了背景、人物等中立的片段。现有的分类算法都只是在整体视频层面上对情感进行分类，并没有关注具体哪些片段有情感的表达。有研究者将针对整个视频的算法应用于每帧的情感分析，然而由于用户生成的情感视频数据量较小，分类器训练比较困难，仅仅针对每帧分类效果并不理想。

发明内容

为解决上述技术问题，本发明提供了一种视频情感定位方法及系统，通过该方法，能快速准确地定位视频中体现了整个视频情感的片段。

本发明实施例提供的技术方案如下：

第一方面，提供了一种视频情感定位方法，所述方法至少包括如下步骤：

将待处理视频进行片段定位，提取出若干个候选片段；

通过预先训练好的第一神经网络模型，提取所述候选片段每帧的特征表示；

基于所述候选片段每帧的特征表示，通过预先训练好的第二神经网络模型，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类；

基于所述第二神经网络模型的输出结果，过滤不符合要求的候选片段；

输出所述待处理视频的情感定位片段。

在一些实施例中，所述第二神经网络模型为金字塔网络模型，基于所述候选片段每帧的特征表示，通过预先训练好的金字塔网络模型，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类时，至少包括如下子步骤：

将所述候选片段分成开始阶段、中间阶段及结束阶段；

分别获取所述候选片段中开始阶段、中间阶段及结束阶段的特征表示，为第一特征表示、第二特征表示及第三特征表示；

将所述第一特征表示、第二特征表示及第三特征表示连接形成所述候选片段的全局特征表示；

通过所述全局特征表示，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类。

在一些实施例中，所述通过所述候选片段的全局特征表示，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类，具体包括如下子步骤：

根据所述全局特征表示，将各维度情感数据进行对比，将情感数据最高的维度作为所述候选片段的情感类别；

根据所述全局特征表示，调整片段的中间点及片段长度，进行视频边界回归；

根据所述全局特征表示，将任意两个所述候选片段进行一一对比，获取所述候选片段的情感排序；

根据所述全局特征表示，验证所述候选片段是否完整，并根据验证结果将所述候选片段分为完整候选片段与不完整候选片段两类。

在一些实施例中，所述过滤不符合要求的候选片段，至少包括如下子步骤：

过滤情感分类结果与待处理视频整体情感类型不相符的候选片段；

过滤不完整的候选片段；

过滤情感排序在设定排序阈值之外的候选片段。

在一些实施例中，所述预先训练好的第一神经网络模型为：Temporal SegmentNetwork(TSN)或I3D中的一种。

另一方面，提供了一种视频情感定位系统，所述系统至少包括：

预处理模块：用于将待处理视频进行片段定位，提取出若干个候选片段；

特征提取模块：用于通过预先训练好的第一神经网络模型，提取所述候选片段每帧的特征表示；

分类排序模块：用于基于所述候选片段每帧的特征表示，通过预先训练好的第二神经网络模型，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类；

过滤模块：用于基于所述第二神经网络模型的输出结果，过滤不符合要求的候选片段；

输出模块：用于输出所述待处理视频的情感定位片段。

在一些实施例中，所述第二神经网络模型为金字塔网络模型，所述分类排序模块至少包括如下子模块：

阶段拆分子模块：用于将所述候选片段分成开始阶段、中间阶段及结束阶段；

阶段特征获取子模块：用于分别获取所述候选片段中开始阶段、中间阶段及结束阶段的特征表示，为第一特征表示、第二特征表示及第三特征表示；

全局特征获取子模块：用于将所述第一特征表示、第二特征表示及第三特征表示连接形成所述候选片段的全局特征表示；

处理子模块：用于通过所述全局特征表示，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类。

在一些实施例中，所述处理子模块至少包括如下单元：

情感分类单元，用于根据所述全局特征表示，将各维度情感数据进行对比，将情感数据最高的维度作为所述候选片段的情感类别；

边界回归单元：用于根据所述全局特征表示，调整片段的中间点及片段长度，进行视频边界回归；

情感排序单元：用于根据所述全局特征表示，将任意两个所述候选片段进行一一对比，获取所述候选片段的情感排序；

完整性分类单元：用于根据所述全局特征表示，验证所述候选片段是否完整，并根据验证结果将所述候选片段分为完整候选片段与不完整候选片段两类。

在一些实施例中，所述过滤模块至少包括如下子模块：

第一过滤子模块：用于过滤情感分类结果与待处理视频整体情感类型不相符的候选片段；

第一过滤子模块：用于过滤不完整的候选片段；

第一过滤子模块：用于过滤情感排序在设定排序阈值之外的候选片段。

本发明相比现有技术而言的有益效果在于：

本发明提供一种视频情感定位方法，相对于现有技术中对视频片段进行的整体视频层面上进行情感分类，或者将整体视频的算法应用于每一帧进行情感分析而带来分类模型训练困难、分类效果不理想的情况，通过提取待处理视频的候选片段，并利用第一神经网络模型提取候选片段每帧的特征表示，再通过第二神经网络模型进行情感分类、边界回归、情感排序及完整性分类，最后过滤不符合要求的候选片段并输出待处理视频的情感定位片段，能实现快速准确地定位视频中体现整个视频情感的片段，且定位的片段边界清楚、完整。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一中的视频情感定位方法的流程图；

图2是本发明实施例二中的视频情感定位系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种视频情感定位方法，属于计算机技术领域，适用于视频检索、监控分析及广告投放等多种视频情感定位业务场景。

图1为本实施例一提供的一种视频情感定位方法的流程图，如图1所示，该视频情感定位方法具体包括如下步骤：

S1、将待处理视频进行片段定位，提取出若干个候选片段。

步骤S1为对待处理视频的预处理，用于提取视频候选片段。待处理视频可以是输入的视频，也可以是数据库中预先存储的视频。针对待处理视频，可采用片段筛选算法进行候选片段的筛选。

具体地，通过片段筛选算法将待处理视频定位成n个候选片段，每个候选片段用开始时间s，结束时间e，以及持续时间d＝e-s来表示。

通过步骤S1对待处理视频提取如下候选片段，假设：s₁＝0S，e₁＝30S。

其中n为不小于1的整数。

具体地，片段筛选算法可以选择滑窗算法或跳窗算法。滑窗(Moving Window)算法与跳窗(Jumping Window)算法均是通过限制各个时间窗口内所能接收的最大信元数对业务量进行控制。区别是，在跳窗法中，将时间划分为一个个连续的固定长度的时间间隔T作为时间窗口，网络在一个时间窗口内最多只能接受x个信元，其余信元被丢弃或被打上违约标志，而在滑窗算法中，每过一个信元时间向前滑动一次，滑动的长度是一个信元的时间。为了提高候选片段提取的准确性及全面性，本实施例优选滑窗算法。

故本实施例中，d₁＝d₂＝。。。＝d_n＝30s

S2、通过预先训练好的第一神经网络模型，提取候选片段每帧的特征表示。

第一神经网络模型通过对视频分类效果较好的神经网络进行预训练与微调进行构建，利用该第一神经网络模型，输出每个候选片段中每一帧的特征表示。

其中，视频分类效果较好的神经网络为Temporal Segment Network(TSN)或I3D中的一种。

其中，Temporal Segment Network(TSN)是基于长范围时间结构(long-rangtemporal structure)建模，结合了系数时间采样策略(sparse temporal samplingstrategy)和视频级监督(video-level supervision)来保证使用整段视频时学习的有效和高效。

I3D(Two-Stream Inflated 3D ConvNets)是利用了3D卷积神经网络，基于在大规模数据集上预训练的2D网络进行初始化，并沿时间维度重复将其升高为3维。这样，避免了随机初始化及数据集较小对3D网络造成的欠拟合影响。最后，该方法融合了图像和光流的两支网络的结果。

该步骤S2目的在于提取每个候选片段每帧的特征表示，需要说明的是，本实施例中的特征表示，为具有多种情感维度的数据，多种情感维度包括高兴、幸福、悲伤、后悔、沮丧等。该步骤中，通过第一神经网络，可实现候选片段的每一帧都提取到各维度情感数据。

S3、基于候选片段每帧的特征表示，通过预先训练好的第二神经网络模型，对候选片段进行情感分类、边界回归、情感排序及完整性分类。

本实施例中，第二神经网络模型优选采用金字塔网络模型，故该步骤具体为：基于步骤S2获得的候选片段每帧的特征表示，通过预先训练好的金字塔网络模型，对候选片段进行情感分类、边界回归、情感排序及完整性分类，该步骤至少包括如下子步骤：

S31、将候选片段分成开始阶段、中间阶段及结束阶段。

通过金字塔网络模型，将候选片段分成开始阶段、中间阶段及结束阶段三个阶段。

金字塔网络模型(Structured Segment Network)是通过结构化的时间金子塔对每个视频候选片段的时间结构进行建模。这种结构化的方式避免了均匀采样和随机采样的缺点，可以让分类器专注于情感内容的同时保留了片段边界信息。

金字塔网络模型能根据候选片段的情感走向特点，确定每一候选片段的开始阶段、中间阶段及结束阶段，因此不同的候选片段，每一阶段的开始时间、结束时间及持续时间并不相同。

S32、分别获取候选片段中开始阶段、中间阶段及结束阶段的特征表示，分别为第一特征表示、第二特征表示及第三特征表示。

作为优选，可通过计算每一阶段的所有视频帧中相应情感维度的平均值或加权平均值作为该阶段的特征表示。

S33、将第一特征表示、第二特征表示及第三特征表示连接形成候选片段的全局特征表示。

具体地，首先，第一层网络利用卷积操作融合了第一特征，第二特征和第三特征表示。此后，第二层网络进一步从第二特征中提取出更多中间片段的细节特征，与第一层网络的特征进行进一步的融合计算，最后，生成候选片段的全局特征表示。

S34、通过全局特征表示，对候选片段进行情感分类、边界回归、情感排序及完整性分类。

具体地，步骤S34包括如下子步骤：

S34a、根据候选片段的全局特征表示，将各维度情感数据进行对比，将情感数据最高的维度作为候选片段的情感类别。

如，某一候选片段的全局特征表示中，高兴、幸福、悲伤、后悔、沮丧维度中，高兴数值最高，则认为该候选片段的情感类别为高兴。具体分类过程可采用金字塔网络模型中设置的一个二分类的分类器实现。

S34b、根据候选片段的全局特征表示，调整候选片段的中间点及长度，进行候选片段的边界回归。

将每一帧的特征表示与全局特征表示进行对比，将各维度感情数据与全局特征表示各维度感情数据相差均较大的边界帧去掉，以去除背景介绍或者景色片段相关的帧，以进行候选片段的边界回归，调整候选片段的中间点及长度。

S34c、根据候选片段的全局特征表示，将任意两个候选片段进行一一对比，获取候选片段的情感排序。

作为一种较佳的实施方式，该步骤S34c具体包括如下子步骤：

S34c1、根据候选片段的全局特征，对候选片段进行情感评分。

具体地，每一情感维度中，情感数据为0～10，记为1分，11～20，记为2分，并以此类推。因此每一候选片段得情感评分，同样为多维度分值，如一候选片段的情感评分为：高兴维度10分、幸福维度6分、悲伤维度1分、后悔维度2分、沮丧维度1分。

S34c2、根据每个候选片段的情感评分，通过任意两个候选片段之间进行一一对比，最终获得所有取候选片段的情感排序。

任意两个候选片段之间进行的一一对比，为相同维度间的情感评分对比，由此，可获得所有候选片段的按每一维度为排序标准的情感排序。

S34d、根据候选片段全局特征表示，验证候选片段是否完整，并根据验证结果将候选片段分为完整候选片段与不完整候选片段两类。

具体地，通过全局特征表示，训练二分类的分类器。在训练过程中，与真实的情感片段对比，如果重合度大于一定的阈值(如70％)，则将该片段视为完整的情感片段。在测试时，该分类器则可以根据测试候选片段的特征自动将片段分为完整或不完整的两种。

S4、基于第二神经网络模型的输出结果，过滤不符合要求的候选片段。该步骤至少包括如下子步骤：

S41、过滤情感分类结果与待处理视频整体情感类型不相符的候选片段。

根据所有候选片段中占据较多的情感类型作为待处理视频的整体情感类型，人工标注该整体情感类型，过滤掉与整体情感类型不相符的候选片段。具体为：通过设定阈值M，将与整体情感类型不同的情感维度的前M名对应的候选片段过滤，其中M为不小于1的整数，其具体数值可根据所需定位的情感定位片段数量进行灵活调整，此处并不加以限定。

S42、过滤不完整的候选片段。根据步骤S34d的完整性分类结果，过滤类型为不完整的候选片段。

S43、过滤情感排序在设定排序阈值之外的候选片段。

根据预先标注的视频整体情感类型，确定该情感类型的情感维度，设定阈值P，过滤以该维度为排序依据的第P名之外得分对应的候选片段，并以过滤后获得的以该情感维度为排序依据的前P名得分对应的候选片段作为最终情感定位片段。

S5、输出所述待处理视频的情感定位片段。

以步骤S1中候选片段的表示方法，输出该待处理视频的情感定位片段，如：情感定位片段1(570s，600s，30s)，情感定位片段2(900s，925s，25s)。

实施例二

为执行上述实施例一的一种视频情感定位方法，本实施例提供一种视频情感定位系统。

图2为本发明实施例二提供的一种视频情感定位系统的结构示意图。如图2所示，该视频情感定位系统100至少包括：

预处理模块1：用于将待处理视频进行片段定位，提取出若干个候选片段；

特征提取模块2：用于通过预先训练好的第一神经网络模型，提取候选片段每帧的特征表示；

分类排序模块3：用于基于候选片段每帧的特征表示，通过预先训练好的第二神经网络模型，对候选片段进行情感分类、边界回归、情感排序及完整性分类；

过滤模块4：用于基于第二神经网络模型的输出结果，过滤不符合要求的候选片段；

输出模块5：用于输出待处理视频的情感定位片段。

在一些实施例中，第二神经网络模型为金字塔网络模型，分类排序模块3至少包括如下子模块：

阶段拆分子模块31：用于将候选片段分成开始阶段、中间阶段及结束阶段；

阶段特征获取子模块32：用于分别获取候选片段中开始阶段、中间阶段及结束阶段的特征表示，为第一特征表示、第二特征表示及第三特征表示；

全局特征获取子模块33：用于将第一特征表示、第二特征表示及第三特征表示连接形成候选片段的全局特征表示；

处理子模块34：用于通过全局特征表示，对候选片段进行情感分类、边界回归、情感排序及完整性分类。

在一些实施例中，处理子模块43至少包括如下单元：

情感分类单元341，用于根据全局特征表示，将各维度情感数据进行对比，将情感数据最高的维度作为候选片段的情感类别；

边界回归单元342：用于根据全局特征表示，调整片段的中间点及片段长度，进行视频边界回归；

情感排序单元343：用于根据全局特征表示，将任意两个候选片段进行一一对比，获取候选片段的情感排序；

完整性分类单元344：用于根据全局特征表示，验证候选片段是否完整，并根据验证结果将候选片段分为完整候选片段与不完整候选片段两类。

在一些实施例中，过滤模块4至少包括如下子模块：

第一过滤子模块41：用于过滤情感分类结果与待处理视频整体情感类型不相符的候选片段；

第一过滤子模块42：用于过滤不完整的候选片段；

第一过滤子模块43：用于过滤情感排序在设定排序阈值之外的候选片段。

在一些实施例中，预先训练好的第一神经网络模型为：Temporal SegmentNetwork(TSN)或I3D中的一种。

需要说明的是：上述实施例提供的视频情感定位系统在触发网络的视频定位业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频情感定位系统与视频情感定位方法的实施例属于同一构思，即该系统是基于该方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频情感定位方法，其特征在于，所述方法至少包括如下步骤：

将待处理视频进行片段定位，提取出若干个候选片段；

输出所述待处理视频的情感定位片段。

2.根据权利要求1所述的一种视频情感定位方法，其特征在于，所述第二神经网络模型为金字塔网络模型，基于所述候选片段每帧的特征表示，通过预先训练好的金字塔网络模型，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类时，至少包括如下子步骤：

将所述候选片段分成开始阶段、中间阶段及结束阶段；

3.根据权利要求2所述的一种视频情感定位方法，其特征在于，所述通过所述候选片段的全局特征表示，对所述候选片段进行情感分类、边界回归、情感排序及完整性分类，具体包括如下子步骤：

根据所述全局特征表示，调整所述候选片段的中间点及长度，进行候选片段的边界回归；

4.根据权利要求1或2所述的一种视频情感定位方法，其特征在于，所述过滤不符合要求的候选片段，至少包括如下子步骤：

过滤不完整的候选片段；

过滤情感排序在设定排序阈值之外的候选片段。

5.根据权利要求1所述的一种视频情感定位方法，其特征在于，所述预先训练好的第一神经网络模型为：Temporal Segment Network(TSN)或I3D中的一种。

6.一种视频情感定位系统，其特征在于，所述系统至少包括：

输出模块：用于输出所述待处理视频的情感定位片段。

7.根据权利要求6所述的一种视频情感定位系统，其特征在于，所述第二神经网络模型为金字塔网络模型，所述分类排序模块至少包括如下子模块：

8.根据权利要求7所述的一种视频情感定位系统，其特征在于，所述处理子模块至少包括如下单元：

边界回归单元：用于根据所述全局特征表示，调整片段的中间点及片段长度，进行候选片段的边界回归；

9.根据权利要求7所述的一种视频情感定位系统，其特征在于，所述过滤模块至少包括如下子模块：

第一过滤子模块：用于过滤不完整的候选片段；

10.根据权利要求6所述的一种视频情感定位系统，其特征在于，所述预先训练好的第一神经网络模型为：Temporal Segment Network(TSN)或I3D中的一种。