CN108491764B - 一种视频人脸情绪识别方法、介质及设备 - Google Patents

一种视频人脸情绪识别方法、介质及设备 Download PDF

Info

Publication number
CN108491764B
CN108491764B CN201810178039.0A CN201810178039A CN108491764B CN 108491764 B CN108491764 B CN 108491764B CN 201810178039 A CN201810178039 A CN 201810178039A CN 108491764 B CN108491764 B CN 108491764B
Authority
CN
China
Prior art keywords
scene
emotion
video
expression
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810178039.0A
Other languages
English (en)
Other versions
CN108491764A (zh
Inventor
简仁贤
杨闵淳
孙曼津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuzhi Technology (Beijing) Co.,Ltd.
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN201810178039.0A priority Critical patent/CN108491764B/zh
Publication of CN108491764A publication Critical patent/CN108491764A/zh
Application granted granted Critical
Publication of CN108491764B publication Critical patent/CN108491764B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种视频人脸情绪识别方法、介质及设备,所述方法,包括:获取指定时间段内的视频;根据所述视频中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪。通过获取指定时间段内的视频,再根据视频中的内容情景信息和人脸表情信息,识别视频中至少一个待检测人脸图像的情绪,相比于现有技术中只考虑人脸表情识别情绪,本发明同时考虑了视频场景的内容情景和人脸表情识别情绪,能够提高情绪识别的鲁棒性与准确性。

Description

一种视频人脸情绪识别方法、介质及设备
技术领域
本发明涉及视频分析领域,具体涉及一种视频人脸情绪识别方法、介质及设备。
背景技术
传统的人脸情绪识别主要利用人脸图像的特征识别,传统算法以人脸的五官与轮廓定位,提取情绪识别的特征点,再根据该特征点识别情绪。这种方式过于概括,只考虑了人脸区域信息,限制了情绪的理解边界,难以准确识别人脸情绪,情绪识别的鲁棒性较差,准确性较低。
发明内容
针对现有技术中的缺陷,本发明提供一种视频人脸情绪识别方法、介质及设备,能够提高情绪识别的鲁棒性和准确性。
第一方面,本发明提供了一种视频人脸情绪识别方法,包括:
获取指定时间段内的视频;
根据所述视频中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪。
可选的,所述根据所述视频中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪,包括:
分别定位所述视频的每帧影像的至少一个待检测人脸图像在相应单帧影像的区域位置;
根据所述区域位置中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪。
可选的,所述根据所述区域位置中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪,包括:
利用情景卷积网络,提取所述视频的每帧影像的所述区域位置的内容情景的情景卷积特征;
利用表情卷积网络,提取所述视频的每帧影像的所述区域位置的人脸表情的表情卷积特征;
根据所述情景卷积特征和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪。
可选的,所述根据所述情景卷积特征和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪,包括:
利用情景递归网络,根据所述情景卷积特征,计算所述视频的每帧影像相对应的时间节点的情景隐藏向量和情景输出向量;
根据所述情景隐藏向量、情景输出向量和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪。
可选的,所述根据所述情景隐藏向量、情景输出向量和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪,包括:
根据所述情景输出向量,利用注意机制,计算所述视频的每帧影像相对应的时间节点的内容情景的记忆向量;
利用表情递归网络,根据所述记忆向量、所述表情卷积特征和最后一个时间节点对应的所述情景隐藏向量,计算所述视频的每帧影像相对应的时间节点的表情隐藏向量和表情输出向量;
根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪。
可选的,所述根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪,包括:
根据所述每帧影像相对应的时间节点的所述表情输出向量,利用类神经网络和/或机器学习分类器,获得情绪预测向量;
根据所述情绪预测向量,识别所述视频中至少一个待检测人脸图像的情绪。
可选的,所述根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪,包括:
根据最后一帧影像相对应的时间节点的所述表情输出向量,利用类神经网络和/或机器学习分类器,获得情绪预测向量;
根据所述情绪预测向量,识别所述视频中至少一个待检测人脸图像的情绪。
可选的,所述方法,还包括:
根据识别的所述情绪和相应的真实情绪,采用反向传导方法,更新所述情景卷积网络、所述表情卷积网络、所述情景递归网络、所述注意机制和所述表情递归网络中相应的计算参数。
第二方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述一种视频人脸情绪识别方法。
第三方面,本发明提供一种视频人脸情绪识别设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述一种视频人脸情绪识别方法。
本发明提供了一种视频人脸情绪识别方法、介质及设备,所述方法通过获取指定时间段内的视频,再根据视频中的内容情景信息和人脸表情信息,识别视频中至少一个待检测人脸图像的情绪,相比于现有技术中只考虑人脸表情识别情绪,本发明同时考虑了视频场景的内容情景和人脸表情识别情绪,能够提高情绪识别的鲁棒性与准确性。
本发明提供的一种计算机可读存储介质和一种视频人脸情绪识别设备,与上述视频人脸情绪识别方法出于相同的发明构思,具有相同的有益效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明提供的一种视频人脸情绪识别方法的流程图;
图2为本发明提供的一种人脸情绪识别过程的逻辑图;
图3为本发明提供的一种视频人脸情绪识别设备的结构示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明提供了一种视频人脸情绪识别方法、介质及设备。下面结合附图对本发明的实施例进行说明。
请参考图1,图1为本发明具体实施例提供的一种视频人脸情绪识别方法的流程图,本实施例提供的视频人脸情绪识别方法,包括:
步骤S101:获取指定时间段内的视频。
步骤S102:根据所述视频中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪。
通过获取指定时间段内的视频,再根据视频中的内容情景信息和人脸表情信息,识别视频中至少一个待检测人脸图像的情绪,相比于现有技术中只考虑人脸表情识别情绪,本发明同时考虑了视频场景的内容情景和人脸表情识别情绪,能够提高情绪识别的鲁棒性与准确性。
其中,内容情景信息是指视频中包含有待检测人脸图像的每帧影像的内容情景的信息。人脸表情信息是指视频中包含有待检测人脸图像的人脸表情的信息。
在本发明中,每帧影像可以有一个人脸图像或者多个人脸图像,这都在本发明的保护范围内。采用本发明可以识别指定的其中一个人脸图像的情绪,也可以识别指定的多个人脸图像的情绪,这都在本发明的保护范围内。
其中,可以识别的情绪包括:生气、厌恶、害怕、开心、难过、惊讶、中性等。
在本发明提供的一个具体实施例中,所述根据所述视频中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪,包括:分别定位所述视频的每帧影像的至少一个待检测人脸图像在相应单帧影像的区域位置;根据所述区域位置中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪。
在对识别情绪时,首先可以对人脸区域进行定位,便于后续对人脸情绪的识别。在定位时,需要分别定位视频的每帧影像的待检测人脸图像在相应的单帧影像的区域位置,其中,可以是定位一个待检测人脸图像的区域位置,也可以是定位多个待检测人脸图像的区域位置。
然后,再根据区域位置中的内容情景信息和人脸表情信息,识别情绪。通过对人脸区域进行定位,能够使识别的内容情景信息和人脸表情信息更加准确,更加可靠。
在本发明提供的一个具体实施例中,所述根据所述区域位置中的内容情景信息和人脸表情信息,识别所述视频中至少一个待检测人脸图像的情绪,包括:利用情景卷积网络,提取所述视频的每帧影像的所述区域位置的内容情景的情景卷积特征;利用表情卷积网络,提取所述视频的每帧影像的所述区域位置的人脸表情的表情卷积特征;根据所述情景卷积特征和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪。
通过提取含有人脸图像的每帧影像的内容情景的情景卷积特征,提取含有人脸图像的每帧影像的人脸表情的表情卷积特征,能够根据视频的每帧影像来识别情绪,相较于现有技术中使用单帧影像做情绪识别,本方法能够提高人脸情绪识别的鲁棒性和准确性。
其中,情景卷积特征由情景卷积网络生成,情景卷积网络自动分析完整输入影像的场景重要资讯,得到情景卷积特征。对于不同场景下的资料集变更,情景卷积网络的权重也会不同。
表情卷积特征是表情卷积网络根据影像中人脸五官的变化决定的,表情卷积网络可以从表情的变化当中学习到不同表情的区别。
如图2所示,在提取情景卷积特征时,将包含有待检测人脸图像的每帧影像按时间顺序输入至情景卷积网络,情景卷积网络分析后,按时间顺序输出相应的每帧影像的情景卷积特征。其中,Ct、Ct-1、……、Ct+N表示按时间顺序排列的每帧影像。Xc_t、Xc_t+1、……、Xc_t+N表示按时间顺序排列的每帧影像相应的情景卷积特征。
其中,情景卷积网络的输入为每帧影像的全景影像。
在本发明中,情景卷积网络可以是经过标签训练过的卷积网络,也可以是给予情景卷积网络随机权重,并从头开始训练的起始网络。情景卷积网络的训练分两种方式,一种是通过给定随机权重,从头做训练,另一种是使用迁移式学习将其它任务训练好的模型中的权重,当作初始权重后做训练。
如图2所示,在提取表情卷积特征时,将包含有待检测人脸图像的每帧影像按时间顺序输入至表情卷积网络,表情卷积网络分析后,按时间顺序输出相应的每帧影像的表情卷积特征。其中,Ft、Ft+1、……、Ft+N表示按时间顺序排列的每帧影像。Hf_t、Hf_t+1、……、Hf_t+N表示按时间顺序排列的每帧影像相对应的表情卷积特征。
其中,表情卷积网络的输入可以为每帧影像的全景影像,也可以为只包含有人脸的部分影像。
其中,表情卷积网络可以是经过利用样本数据训练过的卷积网络,也可以是开始训练的起始网络。
在本发明中,在提取表情卷积特征之前,可以采用Haar Cascade的分类器或者深度学习检测模型(Faster RCNN,YOLO,SSD..等),检测出每帧影像的人脸区域,再将每帧影像对应的人脸区域部分的图像输入至表情卷积网络中,获得表情卷积特征。这样,能够减小计算机的计算量,提高计算效率。
在本发明提供的一个具体实施例中,所述根据所述情景卷积特征和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪,包括:利用情景递归网络,根据所述情景卷积特征,计算所述视频的每帧影像相对应的时间节点的情景隐藏向量和情景输出向量;根据所述情景隐藏向量、情景输出向量和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪。
其中,情景递归网络可以采用LSTM(Long Short-Term Memory),时间递归神经网络。
其中,情景隐藏向量是指在情景递归网络中,隐藏的记忆情景状态预测向量。也就是隐藏状态记录的每一次训练状态值,在当下时间点,记录读取的影像特征的重要性,并且当做下一个时间点的初始权重。
情景输出向量是指在情景递归网络中,输出的记忆情景状态预测向量。
通过利用情景递归网络计算每帧影像相对应的时间节点的情景隐藏向量和情景输出向量,能够获得情景卷积特征在时间轴上的变化情况,再根据情景隐藏向量和情景输出向量和表情卷积特征,识别情绪,这样,能够提高情绪识别的鲁棒性和准确性,提升情绪识别的效果。
在计算情景隐藏向量和情景输出向量时,情景递归网络中每个时间节点拥有相同的网络权重,可以根据上一个时间节点输出的情景隐藏向量与当前时间节点的情景卷积特征,计算当前时间节点的情景隐藏向量和情景输出向量。如图2所示,其中,Hc_t、Hc_t+1、……、Hc_t+N表示按时间顺序排列的每个时间节点的情景隐藏向量;Yc_t、Yc_t+1、……、Yc_t+N表示按时间顺序排列的每个时间节点的情景输出向量。可以将上一个时间节点输出的情景隐藏向量与当前时间节点的情景卷积特征输入到情景递归网络的网络块中,得到当前时间节点的情景隐藏向量和情景输出向量。
在计算第一个时间节点的情景隐藏向量和情景输出向量时,初始的情景隐藏向量可为零向量,利用第一个时间节点的情景卷积特征和零向量计算第一个时间节点的情景隐藏向量和情景输出向量。
其中,情景递归网络可以是经过利用多个样本数据训练后的时间递归神经网络。
在本发明提供的一个具体实施例中,所述根据所述情景隐藏向量、情景输出向量和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪,包括:根据所述情景输出向量,利用注意机制,计算所述视频的每帧影像相对应的时间节点的内容情景的记忆向量;利用表情递归网络,根据所述记忆向量、所述表情卷积特征和最后一个时间节点对应的所述情景隐藏向量,计算所述视频的每帧影像相对应的时间节点的表情隐藏向量和表情输出向量;根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪。
其中,注意机制是指一种权重计算网络。这里,可以是任何一种权重网络设计。
其中,记忆向量是指情景输出向量经过权重转换后的状态向量。
表情隐藏向量是指表情递归网络中记录表情变化状态时,每一个时间点隐藏的表情状态向量。表情输出向量是指表情递归网络中,输出的表情状态预测向量。
由于上述情景递归网络中每个时间节点的权重是相同的,计算得到情景输出向量有误差,利用该注意机制能够获取场景内容理解的特征权重,并能够根据特征权重对情景输出向量权重进行转换,获得较准确的内容情景的记忆向量,进而能够提高情绪识别的准确性。
在计算记忆向量时,将视频的每帧影像相对应的时间节点的内容情景的情景输出向量,按照时间顺序输入到注意机制层中,注意机制层再分析各个时间节点的权重,输出经过权重转换的每个时间节点的记忆向量。如图2所示,其中,Ac_t、Ac_t+1、……、Ac_t+N表示按时间顺序排列的每个时间节点的记忆向量。
在计算表情隐藏向量和表情输出向量时,对于初始时间节点,可以将情景递归网络输出的最后一个时间节点的情景隐藏向量、注意机制层输出的初始时间节点的记忆向量和表情卷积网络输出的初始时间节点的表情卷积特征输入到表情递归网络的网络块中,计算初始时间节点的表情隐藏向量和表情输出向量。
对于非初始时间节点,可以将当前时间节点的记忆向量和表情卷积特征,以及上一个时间节点的表情隐藏向量,输入至表情递归网络的网络块中,经过相应网络块的计算,获得当前时间节点的表情隐藏向量和表情输出向量。如图2所示,其中,Hf_t、Hf_t+1、……、Hf_t+N表示按时间顺序排列的每个时间节点的表情隐藏向量;Yt、Yt+1、……、Yt+N表示按时间顺序排列的每个时间节点的表情输出向量。
其中,表情递归网络可以采用LSTM(Long Short-Term Memory),时间递归神经网络。表情递归网络可以是经过利用多个样本数据训练后的时间递归神经网络。
最后,再根据输出的表情输出向量,识别视频中的人脸情绪。
在本发明中,情景递归网络和表情递归网络还可以采用Gated RNN,bi-directional RNN,LSTM等其它网络架构。
在根据表情输出向量识别情绪时,可以有以下两种方案:
第一种方案:
在本发明提供的一个具体实施例中,所述根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪,包括:根据所述每帧影像相对应的时间节点的所述表情输出向量,利用类神经网络和/或机器学习分类器,获得情绪预测向量;根据所述情绪预测向量,识别所述视频中至少一个待检测人脸图像的情绪。
在本发明中,可以根据表情递归网络输出的所有表情输出向量,利用类神经网络、分类器等,识别待检测人脸图像的情绪。
第二个方案:
在本发明提供的一个具体实施例中,所述根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪,包括:根据最后一帧影像相对应的时间节点的所述表情输出向量,利用类神经网络和/或机器学习分类器,获得情绪预测向量;根据所述情绪预测向量,识别所述视频中至少一个待检测人脸图像的情绪。
在本发明中,还可以根据最后一帧影像相对应的时间节点的表情输出向量,利用类神经网络、分类器等,直接识别待检测人脸图像的情绪。在本发明中,在根据表情输出向量,利用类神经网络、分类器等,能够得到情绪预测向量。其中,情绪预测向量是指情绪几率预测向量,情绪几率预测向量中最大值为目标情绪标签,用以识别视频中人脸情绪。
在本发明提供的一个具体实施例中,所述方法,还可以包括:根据识别的所述情绪和相应的真实情绪,采用反向传导方法,更新所述情景卷积网络、所述表情卷积网络、所述情景递归网络、所述注意机制和所述表情递归网络中相应的计算参数。
具体网络更新过程为:
根据识别出的情绪和真实情绪,计算识别的损失,采用反向传导方法,根据计算的损失与网络各层计算的梯度去一步步更新情景卷积网络、表情卷积网络、情景递归网络、注意机制和表情递归网络中相应的计算参数,重复上述更新过程,直到计算的损失最小。
可选的,在网络最后一层由损失倒传,网络各层做梯度更新与倒传。
在本发明中,可以设置收敛条件,利用上述更新方法更新参数,直到达到收敛条件为止,得到较佳的预测结果。
通过本发明,能够解决视频中单一影像情感预测结果不稳定的状态,在众多实验中,视频中单一影像预测的结果通常有稳定度不高的现象。一段视频在采用单侦的预测结果时,每一侦的预测结果都不太一样。即使采用投票的方式或其他统计方法,视频的临近区段的预测结果也会有预测跳动等预测鲁棒性不佳的结果。采用视频资料输入搭配时间递归的网路架构做训练与情绪预测能够适度地解决单侦预测的问题。同时,在递归网路架构当中,透过影像内容的高维卷积特征与人脸区域高维卷积特征的两阶段训练,中间搭配注意层的内容情境特征的状态记忆,能够帮助与提升单纯使用人脸区域做时间递归训练得到的视频情绪预测效果。
本发明可以应用于广告观察回馈,例如,可以以荧幕为载体,置放于公共场合或个人电脑,荧幕附近可以设置有摄像机,可以实时采集顾客观看荧幕广告时的表情,再将采集的视频发送至表情分析设备,实时分析广告内容与顾客的脸部情绪反应,了解群众对于广告之吸引度及兴趣,来预测产品反应或调整广告内容。
本发明可以应用于商场,例如,可以以摄影机为载体,置放于货架,拍摄顾客挑选物品的过程,然后对拍摄的视频进行分析,观察顾客挑选物品时的情绪反应,了解顾客喜爱的产品,进而调整货架上的物品摆放,也可以根据分析结果来做销售分析,做出更佳的销售策略。
以上,为本发明提供的一种视频人脸情绪识别方法。
第二实施例:
在上述的第一实施例中,提供了一种视频人脸情绪识别方法,结合上述第一实施例,本发明第二实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一实施例提供的一种视频人脸情绪识别方法。
第三实施例:
结合第一实施例提供的一种视频人脸情绪识别方法,本发明还提供一种视频人脸情绪识别设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一实施例提供的一种视频人脸情绪识别方法。图3示出了本发明实施例提供的一种视频人脸情绪识别设备的硬件结构示意图。
具体地,上述处理器201可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器202可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器202可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器202可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器202可在数据处理装置的内部或外部。在特定实施例中,存储器202是非易失性固态存储器。在特定实施例中,存储器202包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器201通过读取并执行存储器202中存储的计算机程序指令,以实现上述实施例中的任意一种视频人脸情绪识别方法。
在一个示例中,视频人脸情绪识别设备还可包括通信接口203和总线210。其中,如图3所示,处理器201、存储器202、通信接口203通过总线210连接并完成相互间的通信。
通信接口203,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线210包括硬件、软件或两者,将视频人脸情绪识别设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线210可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (7)

1.一种视频人脸情绪识别方法,其特征在于,包括:
获取指定时间段内的视频;
分别定位所述视频的每帧影像的至少一个待检测人脸图像在相应单帧影像的区域位置;
利用情景卷积网络,提取所述视频的每帧影像的所述区域位置的内容情景的情景卷积特征;
利用表情卷积网络,提取所述视频的每帧影像的所述区域位置的人脸表情的表情卷积特征;
利用情景递归网络,根据所述情景卷积特征,计算所述视频的每帧影像相对应的时间节点的情景隐藏向量和情景输出向量;
根据所述情景隐藏向量、情景输出向量和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪。
2.根据权利要求1所述的方法,其特征在于,所述根据所述情景隐藏向量、情景输出向量和所述表情卷积特征,识别所述视频中至少一个待检测人脸图像的情绪,包括:
根据所述情景输出向量,利用注意机制,计算所述视频的每帧影像相对应的时间节点的内容情景的记忆向量;
利用表情递归网络,根据所述记忆向量、所述表情卷积特征和最后一个时间节点对应的所述情景隐藏向量,计算所述视频的每帧影像相对应的时间节点的表情隐藏向量和表情输出向量;
根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪。
3.根据权利要求2所述的方法,其特征在于,所述根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪,包括:
根据所述每帧影像相对应的时间节点的所述表情输出向量,利用类神经网络和/或机器学习分类器,获得情绪预测向量;
根据所述情绪预测向量,识别所述视频中至少一个待检测人脸图像的情绪。
4.根据权利要求2所述的方法,其特征在于,所述根据所述表情输出向量,识别所述视频中至少一个待检测人脸图像的情绪,包括:
根据最后一帧影像相对应的时间节点的所述表情输出向量,利用类神经网络和/或机器学习分类器,获得情绪预测向量;
根据所述情绪预测向量,识别所述视频中至少一个待检测人脸图像的情绪。
5.根据权利要求2所述的方法,其特征在于,还包括:
根据识别的所述情绪和相应的真实情绪,采用反向传导方法,更新所述情景卷积网络、所述表情卷积网络、所述情景递归网络、所述注意机制和所述表情递归网络中相应的计算参数。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5之一所述的方法。
7.一种视频人脸情绪识别设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5之一所述的方法。
CN201810178039.0A 2018-03-05 2018-03-05 一种视频人脸情绪识别方法、介质及设备 Active CN108491764B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810178039.0A CN108491764B (zh) 2018-03-05 2018-03-05 一种视频人脸情绪识别方法、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810178039.0A CN108491764B (zh) 2018-03-05 2018-03-05 一种视频人脸情绪识别方法、介质及设备

Publications (2)

Publication Number Publication Date
CN108491764A CN108491764A (zh) 2018-09-04
CN108491764B true CN108491764B (zh) 2020-03-17

Family

ID=63341436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810178039.0A Active CN108491764B (zh) 2018-03-05 2018-03-05 一种视频人脸情绪识别方法、介质及设备

Country Status (1)

Country Link
CN (1) CN108491764B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508638B (zh) * 2018-10-11 2024-09-17 平安科技(深圳)有限公司 人脸情绪识别方法、装置、计算机设备及存储介质
CN109635707A (zh) * 2018-12-06 2019-04-16 安徽海豚新媒体产业发展有限公司 一种基于特征识别的视频镜头提取方法
CN109584579B (zh) * 2018-12-21 2022-03-01 平安科技(深圳)有限公司 基于人脸识别的交通信号灯控制方法及计算机设备
CN111210592A (zh) * 2020-01-07 2020-05-29 珠海爬山虎科技有限公司 视频识别监护方法、计算机装置以及计算机可读存储介质
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN112188171A (zh) * 2020-09-30 2021-01-05 重庆天智慧启科技有限公司 一种客户到访关系判断系统及方法
CN112651363A (zh) * 2020-12-31 2021-04-13 沈阳康泰电子科技股份有限公司 基于多特征点的微表情拟合方法和系统
CN112580617B (zh) 2021-03-01 2021-06-18 中国科学院自动化研究所 自然场景下的表情识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463888A (zh) * 2017-07-21 2017-12-12 竹间智能科技(上海)有限公司 基于多任务学习与深度学习的人脸情绪分析方法及系统
CN107636684A (zh) * 2015-03-18 2018-01-26 阿凡达合并第二附属有限责任公司 视频会议中的情绪识别

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636684A (zh) * 2015-03-18 2018-01-26 阿凡达合并第二附属有限责任公司 视频会议中的情绪识别
CN107463888A (zh) * 2017-07-21 2017-12-12 竹间智能科技(上海)有限公司 基于多任务学习与深度学习的人脸情绪分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Emotion Recognition in Context;Ronak Kosti等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;第1667-1675页 *
Group Emotion Recognition in the Wild by Combining Deep Neural Networks for Facial Expression Classification and Scene-Context Analysis;Asad Abbas等;《ICMI’17》;20171117;第561-563页,图1 *

Also Published As

Publication number Publication date
CN108491764A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108491764B (zh) 一种视频人脸情绪识别方法、介质及设备
CN110070067B (zh) 视频分类方法及其模型的训练方法、装置和电子设备
CN108388879B (zh) 目标的检测方法、装置和存储介质
CN109145784B (zh) 用于处理视频的方法和装置
CN110363220B (zh) 行为类别检测方法、装置、电子设备和计算机可读介质
EP3893125A1 (en) Method and apparatus for searching video segment, device, medium and computer program product
CN109086873A (zh) 递归神经网络的训练方法、识别方法、装置及处理设备
EP3923182A1 (en) Method for identifying a video frame of interest in a video sequence, method for generating highlights, associated systems
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
CN109800717B (zh) 基于强化学习的行为识别视频帧采样方法及系统
CN113642431A (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
CN107729928A (zh) 信息获取方法和装置
CN117292338B (zh) 基于视频流解析的车辆事故识别和分析方法
CN116492634B (zh) 基于图像视觉定位的立定跳远测试方法
CN112884147A (zh) 神经网络训练方法、图像处理方法、装置及电子设备
CN113792712A (zh) 动作识别方法、装置、设备及存储介质
CN115205736A (zh) 视频数据的识别方法和装置、电子设备和存储介质
US20200013408A1 (en) Symbol sequence estimation in speech
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN116580063B (zh) 目标追踪方法、装置、电子设备及存储介质
CN109101858B (zh) 动作识别方法及装置
CN111259700A (zh) 用于生成步态识别模型的方法和装置
CN116631060A (zh) 基于单帧图像的手势识别方法及装置
CN114266723A (zh) 图像处理方法、装置、存储介质以及计算机终端
CN114298054A (zh) 一种文本识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240523

Address after: Room 122, First Floor, No. 2429 Xingang East Road, Haizhu District, Guangzhou City, Guangdong Province, 510000 (for office only)

Patentee after: Zhujian Intelligent Technology (Guangzhou) Co.,Ltd.

Country or region after: China

Address before: 200120, Room 2075, 2nd Floor, Building 1, No. 146 Fute East 1st Road, Pudong New Area Free Trade Pilot Zone, Shanghai

Patentee before: ZHUJIAN INTELLIGENT TECHNOLOGY (SHANGHAI) Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240815

Address after: Room A228, 1st Floor, Building 3, No. 18 Keyuan Road, Economic Development Zone, Daxing District, Beijing 102600

Patentee after: Zhuzhi Technology (Beijing) Co.,Ltd.

Country or region after: China

Address before: Room 122, First Floor, No. 2429 Xingang East Road, Haizhu District, Guangzhou City, Guangdong Province, 510000 (for office only)

Patentee before: Zhujian Intelligent Technology (Guangzhou) Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right