CN115761569B - 一种基于情感分类的视频情感定位方法 - Google Patents
一种基于情感分类的视频情感定位方法 Download PDFInfo
- Publication number
- CN115761569B CN115761569B CN202211288216.3A CN202211288216A CN115761569B CN 115761569 B CN115761569 B CN 115761569B CN 202211288216 A CN202211288216 A CN 202211288216A CN 115761569 B CN115761569 B CN 115761569B
- Authority
- CN
- China
- Prior art keywords
- emotion
- positioning
- video
- segment
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。
Description
技术领域
本申请涉及计算机视觉领域,尤其涉及一种基于情感分类的视频情感定位方法
背景技术
随着互联网及数字相机等科技产品的飞速发展,视频数据量得到了爆炸式增加,因此对于视频内容的分析收到了越来越多的关注,其中对人的情感分析占有较大比例,情感分析在人机交互、家居物联网、机器人等领域扮演着重要角色。目前视频情感数据获取方式(行人检测、人脸识别等技术)已经得到了较大进步,相关算法实现了高速率、高准确率的效果,在日常生活中已经随处可见。对人情感的解析有助于提升设备智能化,提升人机交互体验。
情感分类技术近几十年来一直受到广大学者的关注,早期主要注重于传统算法,例如LBP、HOG和SIFT等。近年来随着深度学习技术的发展,情感分类技术也取得了较大进步,采用CNN算法获取人脸特征,进而对特征进行划分是该技术主要思路。现有工作主要集中于基于全局特征和基于局部特征,基于全局特征主要依靠损失函数的不断改进,但是该方法容易忽视局部重要特征;基于局部特征可以借助关键点定位人脸关键部位,但是由于实际情况下图像中人脸位置多变、说话或者遮挡等因素,基于局部的方法无法准确定位人脸关键位置,从而易导致情感分类效果不佳。
目前视频情感定位算法主要集中在整体层面或者滑动窗口方式:整体层面通过将整段视频作为情感分析的输入,进而确定视频情感类别,但是在实际生活中视频数据获取并不是人为刻意设置首尾时间,此外,人类情感的变化较快,同类情感维持时间较短,在一段视频中可能存在多个情感片段;滑动窗口方式则是通过获取视频中多个片段确定情感定位,但是由于受到滑动窗大小等预先定义的影响,导致获取的片段不够灵活,起止时间不够精确。所以,在视频情感分析中快速且准确定位情感发生的首尾时间非常重要。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于情感分类的视频情感定位方法,从而快速并且准确得到视频中不同情感所涉及的片段。
本发明的一种基于情感分类的视频情感定位方法,包括:
S1.通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;
S2.建立情感定位网络,生成情感定位片段;
S201.建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征;包括:使用Resnet卷积神经网络获取图像特征,为了寻找多个重要局部特征,建立多分支图像特征同时每个分支引入1*1卷积核进行特征降维,借助注意力机制,训练模型聚焦于多个局部特征,获取重要局部特征信息。
S202.使用视觉transformer算法获取情感类别;包括:将获取的注意力特征图像进行降维操作,将2D序列转成1D序列,作为视觉transformer的输入,预测各情感类别概率,将概率最高的情感作为该图片输出;S203.判断各帧之间情感类别关系,删除误检或者异常结果;包括:将情感曲线变化阶段作为需要进行定位的情感时间段,通过各帧图片情感概率预测,存在误检或者异常结果;
S204.将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;
S205.基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;
S3.输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。
优选地,步骤S1所述人脸识别模型能处理不同场景下视频,所用检测模型包括但不限于MTCNN模型、YOLO模型;获取视频人脸图片时计算人脸检测框中心点坐标,然后按照比例进行检测框拓展,拓展框包围的人脸范围更大,能够更多地提供人脸表情特征。
优选地,步骤S201具体包括:建立多个图像特征分支后各分支通过1*1卷积核压缩特征图像,模块自动寻找重要脸部部分,对应的部位包括但不限于嘴部、眉心等等;最后,获取每个像素在各分支通道内最大值,作为最终的注意力特征输出。
优选地,步骤S202所述的情感类别包括:高兴、生气、悲伤、害怕、平静、厌恶和惊讶,每帧图片能够预测各情感概率。
优选地,步骤S203中判断序列图片中人脸表情识别误检或者异常结果时,舍弃一段序列中表情检测异常的图片。
优选地,步骤S204具体包括:借助表情特征识别结果,除去异常检测帧后获得边界清晰情感定位片段,同时得到该片段情感类别;将相同表情首尾N帧各自组合成情感定位候选片段。
进一步,考虑到后期计算时间,首尾帧数选择以间隔方式获取。
优选地,步骤S205具体包括:借助候选片段每帧的情感类别概率,通过线性插值的方式均匀采样若干个特征点得到每段候选片段对应的片段特征,使用全连接获取该片段特征置信度;通过设置置信度阈值获取最佳情感定位候选片段;
进一步,所述的获取最佳情感定位候选片段的具体方式是:对步骤S204中时序较近获取的多段候选片段特征,采用soft-nms算法获取置信度最佳片段作为视频该处情感定位片段结果。
本发明具有如下有益效果:
本发明针对视频情感定位问题,预处理便已去除背景等非必要信息,关注人脸情感信息,有效减少算法运行耗时。采用局部特征方式获取情感类别,通过注意力机制挖掘更多脸部关键局部特征,有效减少外界因素(例如说话、遮挡等)对情感类型识别的影响,提升情感识别的准确性。通过情感分类方式确定定位片段首尾时间,进而组合解决视频情感定位问题,最后提取定位片段部分特征进行有效片段筛选,有效改善时序片段预定义导致算法不够灵活的影响,提升候选情感片段定位速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种视频情感定位方法的流程图;
图2是根据一示例性实施例示出的建立情感定位网络,生成情感片段的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
图1是根据一示例性实施例示出的一种视频情感定位方法的流程图,如图1所示,可以包括以下步骤:
步骤S1:通过人脸识别模型进行视频预处理。
具体地,采用人脸检测技术获取视频中出现的人脸图片,包括如下具体步骤。
步骤S101:人脸检测算法获取视频人脸图片。
本实施例中,获取的视频来自多个场景,适用于不同场景下对人进行情感定位。对于一段视频,可以采用深度学习目标检测技术对视频进行逐帧人脸识别,获取人脸初始检测框及对应ID编号。如果某一帧图片中没有人脸信息,在后续情感定位中无需放到模型中进行训练,节约算法耗时。因为在实际场景中,例如人机交互,机器人所获取的视频图像并不会一直存在人,只需要关注视频中出现人那段时间的视频即可,情感定位建立在得到人脸识别结果的基础之上。具体地,本实例中所采用的目标检测技术包括但不限于以下模型:MTCNN模型、YOLO模型。
此外,为了提升人脸识别的准确性,可以基于初始人脸检测框按一定比例往外拓展,尽可能获取完整人脸box。然后可以直接按照ID编号截取视频中不同对象人脸图片序列。
具体地,计算人脸检测框中心点坐标,然后按照比例进行检测框拓展,拓展框包围的人脸范围更大,能够更多地提供人脸表情特征,有利于后期情感识别的准确性。
步骤S102:将人脸识别的检测结果作为情感定位网络训练集。
在一个示例性实施例中,根据ID编号获取不同对象人脸序列图片,每个ID序列对应图片便是一组训练集,作为后续网络输入。
步骤S2:建立情感定位网络,生成情感定位片段。
本实例中,具体包括3个主要模块:基于局部特征的情感分类、视频情感候选片段生成以及情感候选片段评估。
步骤S201:使用卷积神经网络提取图像局部特征,建立多分支图像特征。
具体地,本实例中,使用Resnet卷积神经网络获取图像特征,为了寻找多个重要局部特征,建立多分支图像特征同时每个分支引入1*1卷积核进行特征降维,借助注意力机制,训练模型聚焦于多个局部特征,获取重要局部特征信息。
在一个示例性实施例中,建立多个图像特征分支后各分支通过1*1卷积核压缩特征图像,模块自动寻找重要脸部部分,对应的部位包括但不限于嘴部、眉心等等。最后,获取每个像素在各分支通道内最大值,作为最终的注意力特征输出。
步骤S202:使用视觉transformer算法获取情感类别。
具体地,将获取的注意力特征图像进行降维操作,将2D序列转成1D序列,作为视觉transformer的输入,预测各情感类别概率,将概率最高的情感作为该图片输出。
具体地,本实例中情感类别主要包括:高兴、生气、悲伤、害怕、平静、厌恶和惊讶,每帧图片可以预测各情感概率,选择预测概率最高类别作为改模块输出,在一个示例性实施例中,输出图片高兴的概率为82%,其余情感概率均较小,那么该图片情感输出为高兴。
步骤S203:判断各帧之间情感类别关系,删除误检或者异常结果。
具体地,虽然情感维持的时间不会太久,但是人类情感变化依然是一个类似波浪线起伏的过程,“平静”表示情感稳定阶段,一旦情感出现变化,情感曲线将产生变化,情感曲线变化阶段就是需要进行定位的情感时间段。通过各帧图片情感概率预测,存在误检或者异常结果,例如偶尔出现的遮挡或者人脸光照变化情况。
进一步地,判断序列图片中人脸表情识别误检或者异常结果,在一个示例性实施例中,舍弃一段序列中表情检测异常的图片,例如连续序列表情均识别为高兴,但是中间某一帧识别为愤怒,该帧图片将作为异常结果进行处理。
步骤S204:将相同情感识别结果,且时序距离较近作为视频中情感定位候选片段。
借助表情特征识别结果,除去异常检测帧后获得边界清晰情感定位片段,同时得到该片段情感类别。进一步地,将相同表情首尾N帧各自组合成情感定位候选片段,例如,选择首尾3帧各自组合,最多可以得到9份候选片段,考虑到后期计算时间,首尾帧数选择也可以间隔获取。
步骤S205:基于表情识别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段。
具体地,借助候选片段每帧的情感类别概率,通过线性插值的方式均匀采样20个特征点得到每段候选片段对应的片段特征,使用全连接获取该片段特征置信度。通过设置置信度阈值获取最佳情感定位候选片段。具体地,对步骤S204中时序较近获取的多段候选片段特征,采用soft-nms算法获取置信度最佳片段作为视频该处情感定位片段结果。
步骤S3:输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。
本发明提供了一种基于情感分类的视频情感定位方法,可用于快速定位视频中不同情感片段,同时判断对应片段的情感类别。通过人脸识别方法确定视频中需要定位的人脸图像序列,建立情感定位网络,提取人脸图像图片特征,采用注意力机制获取多个人脸重要局部特征,提升因转动、说话或者遮挡等外界因素造成的情感分类准确性,借助视觉transformer算法获取情感类别概率,确定情感类型,而后将相同情感类别序列首尾组合获取情感定位片段以及对应的片段特征,最后过滤判断错误或者存在较大偏差的定位片段。采用局部特征情感分类方法和自底向上算法获取情感定位片段,有效改善事先预定候选片段导致算法不够灵活的影响,提升候选片段定位速度。
本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (4)
1.一种基于情感分类的视频情感定位方法,其特征在于,包括:
S1.通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;
S2.建立情感定位网络,生成情感定位片段;
S201.建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征;包括:使用Resnet卷积神经网络获取图像特征,为了寻找多个重要局部特征,建立多分支图像特征同时每个分支引入1*1卷积核进行特征降维,借助注意力机制,训练模型聚焦于多个局部特征,获取重要局部特征信息;建立多个图像特征分支后各分支通过1*1卷积核压缩特征图像,模块自动寻找重要脸部部分,对应的部位包括但不限于嘴部、眉心;最后,获取每个像素在各分支通道内最大值,作为最终的注意力特征输出;
S202.使用视觉transformer算法获取情感类别;包括:将获取的注意力特征图像进行降维操作,将2D序列转成1D序列,作为视觉transformer的输入,预测情感类别概率,将概率最高的情感作为图片输出;所述的情感类别包括:高兴、生气、悲伤、害怕、平静、厌恶和惊讶,每帧图片能够预测各情感概率;
S203.判断各帧之间情感类别关系,删除误检或者异常结果;包括:人类情感变化是一个类似波浪线起伏的过程,“平静”表示情感稳定阶段,一旦情感出现变化,情感曲线将产生变化,即情感曲线变化阶段;将情感曲线变化阶段作为需要进行定位的情感时间段,通过各帧图片情感概率预测,判断存在误检或者异常结果;
S204.将相同表情识别结果,且时序距离近作为视频中情感定位候选片段;借助表情特征识别结果,除去异常检测帧后获得边界清晰情感定位片段,同时得到该片段情感类别;将相同表情首尾N帧各自组合成情感定位候选片段;
S205.基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;借助候选片段每帧的情感类别概率,通过线性插值的方式均匀采样若干个特征点得到每段候选片段对应的片段特征,使用全连接获取片段特征置信度;通过设置置信度阈值获取最佳情感定位候选片段;具体地,对步骤S204中获取的多段候选片段特征,采用soft-nms算法获取置信度最佳片段作为视频该处情感定位片段结果;
S3.输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。
2.根据权利要求1所述的一种基于情感分类的视频情感定位的方法,其特征在于,步骤S1所述人脸识别模型能处理不同场景下视频,所用检测模型包括但不限于MTCNN模型、YOLO模型;获取视频人脸图片时计算人脸检测框中心点坐标,然后按照比例进行检测框拓展,拓展框包围的人脸范围更大,能够更多地提供人脸表情特征。
3.根据权利要求1所述的一种基于情感分类的视频情感定位的方法,其特征在于,步骤S203中判断序列图片中人脸表情识别误检或者异常结果时,舍弃一段序列中表情检测异常的图片。
4.根据权利要求1所述的一种基于情感分类的视频情感定位的方法,其特征在于,考虑到后期计算时间,首尾帧数选择以间隔方式获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288216.3A CN115761569B (zh) | 2022-10-20 | 2022-10-20 | 一种基于情感分类的视频情感定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288216.3A CN115761569B (zh) | 2022-10-20 | 2022-10-20 | 一种基于情感分类的视频情感定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115761569A CN115761569A (zh) | 2023-03-07 |
CN115761569B true CN115761569B (zh) | 2023-07-04 |
Family
ID=85352357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211288216.3A Active CN115761569B (zh) | 2022-10-20 | 2022-10-20 | 一种基于情感分类的视频情感定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115761569B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10529379B2 (en) * | 2016-09-09 | 2020-01-07 | Sony Corporation | System and method for processing video content based on emotional state detection |
CN109783684B (zh) * | 2019-01-25 | 2021-07-06 | 科大讯飞股份有限公司 | 一种视频的情感识别方法、装置、设备及可读存储介质 |
CN110263215B (zh) * | 2019-05-09 | 2021-08-17 | 众安信息技术服务有限公司 | 一种视频情感定位方法及系统 |
CN110852368B (zh) * | 2019-11-05 | 2022-08-26 | 南京邮电大学 | 全局与局部特征嵌入及图文融合的情感分析方法与系统 |
CN112348640B (zh) * | 2020-11-12 | 2021-08-13 | 北京科技大学 | 一种基于面部情感状态分析的在线购物系统及方法 |
CN113065460B (zh) * | 2021-03-31 | 2022-04-29 | 吉林农业大学 | 基于多任务级联的猪脸面部表情识别框架的建立方法 |
CN114626454A (zh) * | 2022-03-10 | 2022-06-14 | 华南理工大学 | 一种融合自监督学习和注意力机制的视觉情感识别方法 |
-
2022
- 2022-10-20 CN CN202211288216.3A patent/CN115761569B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115761569A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109151501B (zh) | 一种视频关键帧提取方法、装置、终端设备及存储介质 | |
Chin et al. | Adascale: Towards real-time video object detection using adaptive scaling | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN109241829B (zh) | 基于时空注意卷积神经网络的行为识别方法及装置 | |
CN110890102A (zh) | 一种基于rnn声纹识别的发动机缺陷检测算法 | |
CN108921032B (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
KR102132407B1 (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
CN111582126B (zh) | 基于多尺度行人轮廓分割融合的行人重识别方法 | |
CN110956059B (zh) | 一种动态手势识别方法、装置和电子设备 | |
CN112163490A (zh) | 一种基于场景图片的目标检测方法 | |
CN115761568A (zh) | 一种基于YOLOv7网络和Deepsort网络的猕猴检测方法 | |
CN114519880A (zh) | 基于跨模态自监督学习的主动说话人识别方法 | |
CN110147724B (zh) | 用于检测视频中的文本区域的方法、装置、设备以及介质 | |
CN111104855A (zh) | 一种基于时序行为检测的工作流识别方法 | |
CN114639136A (zh) | 一种基于浅层网络的长视频微表情检测方法 | |
CN115761569B (zh) | 一种基于情感分类的视频情感定位方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN113343773B (zh) | 基于浅层卷积神经网络的人脸表情识别系统 | |
CN115410131A (zh) | 一种用于短视频智能分类的方法 | |
CN115022711A (zh) | 一种电影场景内镜头视频排序系统及方法 | |
CN114821441A (zh) | 联合ads-b信息的基于深度学习的机场场面运动目标识别方法 | |
CN114529894A (zh) | 一种融合空洞卷积的快速场景文本检测方法 | |
CN113158720A (zh) | 一种基于双模特征和注意力机制的视频摘要方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |