CN110321825A - 一种视频情感分析方法 - Google Patents

一种视频情感分析方法 Download PDF

Info

Publication number
CN110321825A
CN110321825A CN201910556536.4A CN201910556536A CN110321825A CN 110321825 A CN110321825 A CN 110321825A CN 201910556536 A CN201910556536 A CN 201910556536A CN 110321825 A CN110321825 A CN 110321825A
Authority
CN
China
Prior art keywords
video
matrix
data
feature
study
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910556536.4A
Other languages
English (en)
Inventor
左靖东
况鹏
范振
詹佳丽
黎宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen One Pigeon Technology Co Ltd
Original Assignee
Shenzhen One Pigeon Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen One Pigeon Technology Co Ltd filed Critical Shenzhen One Pigeon Technology Co Ltd
Priority to CN201910556536.4A priority Critical patent/CN110321825A/zh
Publication of CN110321825A publication Critical patent/CN110321825A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视频情感分析方法,包括如下步骤:步骤1、进行人脸面部特征识别;步骤2、进行局部二进制模式特征识别;步骤3、视频特征提取和降维的学习;步骤4、进行序列化学习,放入序列化学习的网络模型,得到可以用来进行情感分析的各个模块,最后将用于分析的测试数据放入模块中得到最终结果。本发明可以对含有人脸的视频进行训练,得到的模型可以进行情感特征的抽取,进而对情感极性进行评判,生成正面、负面的标签或者情感评分,适用范围广、特征筛选精准、可比较性强。

Description

一种视频情感分析方法
技术领域
本发明涉及人工智能计算机视频检测技术领域,特别涉及一种视频情感分析方法。
背景技术
随着互联网上社交媒体和视频分享网站的飞速发展,越来越多的用户开始向互联网上的社交媒体上传个人视频。用户上传这些视频的原因多种多样,其中一个很重要的原因是为了表达某种感情或对某个事物发表评价。例如,人们会通过上传夸奖某化妆品的视频来推荐这款化妆品,或者通过视频形式的书评来表达自己的看法。在这种情况下,用户迫切需要一种可以提取出视频发表者的情感极性的方法,以进行对产品的评判及其他用途。然而,随之而来的问题是互联网上的视频数量爆炸式增长,使用人力进行对情感极性的分析是不现实的。更加复杂的是,这些信息有时候互相冲突,用户有时很难对这些信息进行公正的分析。因此,使用计算机进行对视频情感的分析变得非常重要。
目前已有一些技术开始尝试应用于视频情感的分析识别,在影视行业,有有利用视频帧间运动差和镜头变化率等信息来检测电影节奏和动态故事单元,也有结合电影语法规则分析了视频帧亮度分量对观众情感的影响。基于这些特征,有人设计了一套基于情感的电影索引与检索的方法并给出了初步的实验结果,通过构造声音情感特征向量,基于HMM对情景喜剧和恐怖电影中的情感事件进行检测和分析识别。
现有技术的方法从视频特征及分类模型等不同方面展开了对视频情感分类和识别的研究。视频是一种多媒体,其包括语、声、像等特征数据,但已有的研究中对视频多媒体特征的融合未有做深入研究,导致视频的情感特征判别性不明显,从而影响了视频分类和识别的准确率。
因此,针对上述现有技术方案存在的缺陷,实有必要进行开发研究,以提供一种适用范围广、特征筛选精准、可比较性强等特点的方案。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种适用范围广、特征筛选精准、可比较性强的视频情感分析方法。
为达到上述目的,本发明实施例的技术方案是这样实现的:
一种视频情感分析方法,,包括如下步骤:
步骤1、进行人脸面部特征识别;
步骤2、进行局部二进制模式特征识别;
步骤3、视频特征提取和降维的学习;
步骤4、进行序列化学习,放入序列化学习的网络模型,得到可以用来进行情感分析的各个模块,最后将用于分析的测试数据放入模块中得到最终结果。
进一步地,步骤1中包括:
步骤10、通过摄像镜头获取用户头像的彩色照片;
步骤11、通过彩色转灰度处理算法将所获取的用户头像的彩色照片(RGB图)转换为灰度图;
步骤12、使用卷积神经网络(CNN)提取面部的各类结构的轮廓特征识别出面部的特征元素;
步骤13、通过Gabor小波变换得到纹理特征,这种特征描述了在各个方向上图片是否有相应的纹理。
进一步地,步骤2中包括:
步骤20、将图像划分为很多小区域(Cell),比如16*16方块;
步骤21、针对每个小区域,循环获取每一个像素点,将其相邻的8个像素点的灰度值与其灰度值进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;
步骤22、计算每个小区域的直方图,对改直方图的LBP值进行归一化处理;
步骤23、将所有直方图顺序连接成一个向量,作为该图片的特征向量,也就是该图片的LBP纹理特征向量。
进一步地,步骤3中包括:
步骤30,假设原始样本数据集为S=n*m的矩阵数据,其中n为特征数,即维数,m为样本数量;
步骤31,计算原始样本数据的协方差矩阵D=S·ST=n·n的矩阵数据;
步骤32,计算该协方差矩阵的特征值,及其对应的特征向量,并将特征值按从大到小排序,设为F={f10,f2,f20,f4,f31,......fn},如果我们的目标是降维成k维数据,则只取F集合中的前k个特征值所对应的特征向量,设前k个特征向量以行排列的方式所构成的矩阵数据为N=k*n矩阵,该矩阵N作为一组k维基向量;
步骤33,将原始样本数据投影到新的以矩阵N作为基向量的欧式空间中,计算方式为New=N*S=(k*n)*(n*m)=k*m的矩阵数据,该数据为降维后的样本。
本发明实施例提供的技术方案的有益效果是:
相较于现有技术,本发明可以对含有人脸的视频进行训练,得到的模型可以进行情感特征的抽取,进而对情感极性进行评判,生成正面、负面的标签或者情感评分,适用范围广、特征筛选精准、可比较性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种视频情感分析方法的流程图示;
图2是本发明实施例提供的一种视频情感分析方法的人脸面部特征识别图示;
图3是本发明实施例提供的一种视频情感分析方法的降维学习图示。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种视频情感分析方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参照图1-图3所示,本发明视频情感分析方法包括如下步骤:
步骤1、进行人脸面部特征识别
首先使用代码将视频完全切成帧,每秒的视频有30帧或29.97帧图片。之后,对每一小段视频的开始的图片进行人脸检测,使用一个开源的Python人脸检测工具。一旦检测到人脸所在的矩形位置,该模块将整个视频中相同矩形位置内的图片全部剪裁下来,放入后续模块进行分析。
在视频情感分析中,面部的表情特征起到非常关键的作用,人脸蕴藏着大量情感信息。通过使用各种面部纹理特征进行情感分析,例如人们表现出情绪时,不仅面部器官等较大结构会发生移动,面部肌肉等小型结构也会发生变化。通过纹理特征进行情感分析,从而得到情感特征。具体地,包括:
步骤10、通过摄像镜头获取用户头像的彩色照片;
步骤11、通过彩色转灰度处理算法将所获取的用户头像的彩色照片(RGB图)转换为灰度图;
步骤12、使用卷积神经网络(CNN)提取面部的各类结构的轮廓特征识别出面部的特征元素;
步骤13、通过Gabor小波变换得到纹理特征,这种特征描述了在各个方向上图片是否有相应的纹理。
步骤2、进行局部二进制模式特征识别
局部二进制模式(LBP)特征识别通过把像素点和周围的点进行比较得到的大小结果进行二进制加工,得到每个点与周围点的对比情况。在这种变换下,每个点的不同取值代表了它和周围点的大小关系,进而也就代表了它附近的纹理特征。
在本发明实施例中,在基于局部二进制模式的模型之上,本发明直接对横向和纵向的点进行比对,而不是和中心点比对,计算代价相对较小,适合进行面部表情识别。具体地,包括:
步骤20、将图像划分为很多小区域(Cell),比如16*16方块;
步骤21、针对每个小区域,循环获取每一个像素点,将其相邻的8个像素点的灰度值与其灰度值进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3*3邻域内的8个点经比较可产生8位二进制数,即得到该区域中心像素点的LBP值;
步骤22、计算每个小区域的直方图,对改直方图的LBP值进行归一化处理;
步骤23、将所有直方图顺序连接成一个向量,作为该图片的特征向量,也就是该图片的LBP纹理特征向量。
步骤3、视频特征提取和降维的学习
将图片特征转移到视频上,把视频考虑成一个三维的像素块,则图片即是这个像素块在时间方向切下来的薄片。在提取出这种特征后,把三种薄片的特征进行直方图统计之后进行串联,得到了一个更长、但是更精确的LBP-TOP特征。
进行主成分分析,具体地包括步骤如下:
步骤30,假设原始样本数据集为S=n*m的矩阵数据,其中n为特征数,即维数,m为样本数量。我们目标是要降维成k*m的矩阵数据,其中k<n;
步骤31,计算原始样本数据的协方差矩阵D=S·ST=n·n的矩阵数据;
步骤32,计算该协方差矩阵的特征值,及其对应的特征向量,并将特征值按从大到小排序,设为F={f10,f2,f20,f4,f31,......fn},如果我们的目标是降维成k维数据,则只取F集合中的前k个特征值所对应的特征向量,设前k个特征向量以行排列的方式所构成的矩阵数据为N=k*n矩阵,该矩阵N作为一组k维基向量;
步骤33,将原始样本数据投影到新的以矩阵N作为基向量的欧式空间中,计算方式为New=N*S=(k*n)*(n*m)=k*m的矩阵数据,该数据为降维后的样本。
步骤4、进行序列化学习,放入序列化学习的网络模型,得到可以用来进行情感分析的各个模块,最后将用于分析的测试数据放入模块中得到最终结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明实施例提供的上述技术方案的全部或部分可以通过程序指令相关的硬件来完成,所述程序可以存储在可读取的存储介质中,该存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种视频情感分析方法,其特征在于,包括如下步骤:
步骤1、进行人脸面部特征识别;
步骤2、进行局部二进制模式特征识别;
步骤3、视频特征提取和降维的学习;
步骤4、进行序列化学习,放入序列化学习的网络模型,得到可以用来进行情感分析的各个模块,最后将用于分析的测试数据放入模块中得到最终结果。
2.根据权利要求1所述的视频情感分析方法,其特征在于,步骤1中包括:
步骤10、通过摄像镜头获取用户头像的彩色照片;
步骤11、通过彩色转灰度处理算法将所获取的用户头像的彩色照片(RGB图)转换为灰度图;
步骤12、使用卷积神经网络(CNN)提取面部的各类结构的轮廓特征识别出面部的特征元素;
步骤13、通过Gabor小波变换得到纹理特征,这种特征描述了在各个方向上图片是否有相应的纹理。
3.根据权利要求1所述的视频情感分析方法,其特征在于,步骤2中包括:
步骤20、将图像划分为很多小区域(Cell),比如16*16方块;
步骤21、针对每个小区域,循环获取每一个像素点,将其相邻的8个像素点的灰度值与其灰度值进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;
步骤22、计算每个小区域的直方图,对改直方图的LBP值进行归一化处理;
步骤23、将所有直方图顺序连接成一个向量,作为该图片的特征向量,也就是该图片的LBP纹理特征向量。
4.根据权利要求1所述的视频情感分析方法,其特征在于,步骤3中包括:
步骤30,假设原始样本数据集为S=n*m的矩阵数据,其中n为特征数,即维数,m为样本数量;
步骤31,计算原始样本数据的协方差矩阵D=S·ST=n·n的矩阵数据;
步骤32,计算该协方差矩阵的特征值,及其对应的特征向量,并将特征值按从大到小排序,设为F={f10,f2,f20,f4,f31,......fn},如果我们的目标是降维成k维数据,则只取F集合中的前k个特征值所对应的特征向量,设前k个特征向量以行排列的方式所构成的矩阵数据为N=k*n矩阵,该矩阵N作为一组k维基向量;
步骤33,将原始样本数据投影到新的以矩阵N作为基向量的欧式空间中,计算方式为New=N*S=(k*n)*(n*m)=k*m的矩阵数据,该数据为降维后的样本。
CN201910556536.4A 2019-06-25 2019-06-25 一种视频情感分析方法 Pending CN110321825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910556536.4A CN110321825A (zh) 2019-06-25 2019-06-25 一种视频情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910556536.4A CN110321825A (zh) 2019-06-25 2019-06-25 一种视频情感分析方法

Publications (1)

Publication Number Publication Date
CN110321825A true CN110321825A (zh) 2019-10-11

Family

ID=68120236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910556536.4A Pending CN110321825A (zh) 2019-06-25 2019-06-25 一种视频情感分析方法

Country Status (1)

Country Link
CN (1) CN110321825A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872424A (zh) * 2010-07-01 2010-10-27 重庆大学 基于Gabor变换最优通道模糊融合的人脸表情识别方法
CN103473537A (zh) * 2013-09-17 2013-12-25 湖北工程学院 一种目标图像轮廓特征表示方法及装置
CN106529504A (zh) * 2016-12-02 2017-03-22 合肥工业大学 一种复合时空特征的双模态视频情感识别方法
CN107045621A (zh) * 2016-10-28 2017-08-15 北京联合大学 基于lbp与lda的人脸表情识别方法
CN108268859A (zh) * 2018-02-08 2018-07-10 南京邮电大学 一种基于深度学习的人脸表情识别方法
CN109389074A (zh) * 2018-09-29 2019-02-26 东北大学 一种基于人脸特征点提取的表情识别方法
CN109508638A (zh) * 2018-10-11 2019-03-22 平安科技(深圳)有限公司 人脸情绪识别方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872424A (zh) * 2010-07-01 2010-10-27 重庆大学 基于Gabor变换最优通道模糊融合的人脸表情识别方法
CN103473537A (zh) * 2013-09-17 2013-12-25 湖北工程学院 一种目标图像轮廓特征表示方法及装置
CN107045621A (zh) * 2016-10-28 2017-08-15 北京联合大学 基于lbp与lda的人脸表情识别方法
CN106529504A (zh) * 2016-12-02 2017-03-22 合肥工业大学 一种复合时空特征的双模态视频情感识别方法
CN108268859A (zh) * 2018-02-08 2018-07-10 南京邮电大学 一种基于深度学习的人脸表情识别方法
CN109389074A (zh) * 2018-09-29 2019-02-26 东北大学 一种基于人脸特征点提取的表情识别方法
CN109508638A (zh) * 2018-10-11 2019-03-22 平安科技(深圳)有限公司 人脸情绪识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈幼: "基于 Gabor 小波与粒子群优化算法的人脸表情识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Similar Documents

Publication Publication Date Title
US10671853B2 (en) Machine learning for identification of candidate video insertion object types
CN110889672B (zh) 一种基于深度学习的学生打卡及上课状态的检测系统
Zhao et al. Dynamic texture recognition using local binary patterns with an application to facial expressions
Salman et al. Real-time fish detection in complex backgrounds using probabilistic background modelling
CN105981008B (zh) 学习深度人脸表示
Xu et al. Learning-based shadow recognition and removal from monochromatic natural images
CN105808610B (zh) 一种互联网图片过滤方法及装置
CN117095349A (zh) 外观搜索系统、方法和非暂时性计算机可读介质
CN105095884B (zh) 一种基于随机森林支持向量机的行人识别系统及处理方法
CN103988232A (zh) 使用运动流形来改进图像匹配
CN104680141A (zh) 基于运动单元分层的人脸表情识别方法及系统
CN111090763A (zh) 一种图片自动标签方法及装置
JP2017168057A (ja) 画像分類装置、画像分類システム及び画像分類方法
Rahmani et al. Action classification with locality-constrained linear coding
CN112149690A (zh) 一种基于生物图像特征识别的溯源方法和溯源系统
CN105893967B (zh) 基于时序保留性时空特征的人体行为分类检测方法及系统
CN111242114A (zh) 文字识别方法及装置
CN110321825A (zh) 一种视频情感分析方法
Khedkar et al. Exploiting spatiotemporal inconsistencies to detect deepfake videos in the wild
Saha et al. Spatio-temporal human action localisation and instance segmentation in temporally untrimmed videos
CN108197593A (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
De Souza Action Recognition in Videos: Data-efficient approaches for supervised learning of human action classification models for video
CN113409327A (zh) 一种基于排序与语义一致性约束的实例分割改进方法
Zhang Detect forgery video by performing transfer learning on deep neural network
Yang et al. Research on smoke detection based on densenet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011

RJ01 Rejection of invention patent application after publication