CN112446306A - 一种情感强度的识别方法、装置、电子设备及存储介质 - Google Patents
一种情感强度的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112446306A CN112446306A CN202011271542.4A CN202011271542A CN112446306A CN 112446306 A CN112446306 A CN 112446306A CN 202011271542 A CN202011271542 A CN 202011271542A CN 112446306 A CN112446306 A CN 112446306A
- Authority
- CN
- China
- Prior art keywords
- emotion
- intensity
- target
- frame
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 273
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000005236 sound signal Effects 0.000 claims abstract description 69
- 238000012544 monitoring process Methods 0.000 claims abstract description 50
- 238000013145 classification model Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000002996 emotional effect Effects 0.000 claims description 40
- 238000001514 detection method Methods 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 14
- 238000009499 grossing Methods 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种情感强度的识别方法、装置、电子设备及存储介质,其中,该识别方法包括:对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。本申请提高了情感强度识别的准确度。
Description
技术领域
本申请涉及多媒体信息情感识别技术领域,具体而言,涉及一种情感强度的识别方法、装置、电子设备及存储介质。
背景技术
现阶段,随着互联网技术的快速发展,各个行业逐渐实现线上化、智能化的业务办理,比如,线上办理保险业务。
通常,在用户办理线上业务的过程中,需要采集用户的人脸图像,将采集到的人脸图像在业务系统中进行存档,或者,基于采集到人脸图像实现用户身份的验证,在用户与业务系统交互的过程中,往往还需要采集用户的语音信息,将语音信息转化为针对业务系统的交互指令,以实现业务最终的办理。
但是,用户在线上办理业务的过程中,其人脸图像和语音信息往往隐含着用户的情感倾向,获取用户的情感倾向,可以提高业务办理的效率,因此,音视频的情感识别是现阶段亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种情感强度的识别方法、装置、电子设备及存储介质,能够基于目标视频中的每一帧目标图像以及每一帧目标图像对应的音频信号的语音强度,对目标视频中目标对象的情感类别和情感强度进行识别,提高了情感强度识别的准确度。
第一方面,本申请实施例提供了一种情感强度的识别方法,所述识别方法包括:
对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号;
将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;
针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;
针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。
在一种可能的实施方式中,所述针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息,包括:
根据每一个第二情感类别下的每一帧第二目标图像对应的音频信号的语音强度,以及所述基准语音强度,确定目标对象在该第二情感类别下的该帧第二目标图像中对应的情感强度;
基于目标对象在该第二情感类别下的每帧第二目标图像中对应的情感强度,确定目标对象在该第二情感类别下对应的情感强度的变化信息。
在一种可能的实施方式中,所述识别方法还包括:
根据目标对象在每一帧第二目标图像中对应的情感强度,目标对象在与该帧第二目标图像相邻的其他帧第二目标图像中对应的情感强度,该帧第二目标图像对应的第一权重,以及所述其他帧第二目标图像对应的第二权重,生成每一帧第二目标图像中对应的平滑处理后的情感强度。
在一种可能的实施方式中,所述对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频,包括:
根据所述监控视频中每一帧图像对应的音频信号的短时能量和过零次数,从所述监控视频中截取对应有语音的监控视频;
将所述监控视频的每一帧图像输入到预先训练好的人脸检测模型中,得到所述人脸检测模型输出的检测结果,基于所述检测结果,从所述监控视频中截取包括人脸的监控视频;
基于所述对应有语音的监控视频以及所述包括人脸的监控视频,生成所述目标视频。
在一种可能的实施方式中,通过如下方式确定每一帧目标图像对应的音频信号的语音强度:
根据每一帧目标图像对应的音频信号的初始语音强度,以及与该帧目标图像相邻的多帧目标图像对应的音频信号的初始语音强度,确定该帧目标图像对应的音频信号的语音强度。
在一种可能的实施方式中,所述识别方法还包括:
根据所述目标对象在每一帧第二目标图像中对应的情感强度和情感类别,生成与所述情感强度和所述情感类别相匹配的情感标签;
将所述情感标签在该帧第二目标图像处进行标记。
在一种可能的实施方式中,所述识别方法还包括:
根据所述目标对象在每一个第二情感类别下对应的情感强度的变化信息,生成并显示与所述情感强度的变化信息相匹配的业务提示信息。
第二方面,本申请实施例提供了一种情感强度的识别装置,所述识别装置包括:
选取模块,用于对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号;
输入模块,用于将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;
第一确定模块,用于针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;
第二确定模块,用于针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的情感强度的识别方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的情感强度的识别方法的步骤。
本申请实施例提供的情感强度的识别方法、装置、电子设备及存储介质,对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号;将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。本申请实施例提高了情感强度识别的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种情感强度的识别方法的流程图;
图2示出了本申请实施例提供的另一种情感强度的识别方法的流程图;
图3示出了本申请实施例提供的另一种情感强度的识别方法的流程图;
图4示出了本申请实施例提供的另一种情感强度的识别方法的流程图;
图5示出了本申请实施例提供的一种情感强度的识别装置的结构示意图;
图6示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,随着互联网技术的快速发展,各个行业逐渐实现线上化、智能化的业务办理,比如,线上办理保险业务。通常,在用户办理线上业务的过程中,需要采集用户的人脸图像,将采集到的人脸图像在业务系统中进行存档,或者,基于采集到人脸图像实现用户身份的验证,在用户与业务系统交互的过程中,往往还需要采集用户的语音信息,将语音信息转化为针对业务系统的交互指令,以实现业务最终的办理。
但是,用户在线上办理业务的过程中,其人脸图像和语音信息往往隐含着用户的情感倾向,获取用户的情感倾向,可以提高业务办理的效率,因此,音视频的情感识别是现阶段亟待解决的技术问题。
基于上述问题,本申请实施例提供了一种情感强度的识别方法、装置、电子设备及存储介质,对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号;将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。本申请实施例提高了情感强度识别的准确度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种情感强度的识别方法进行详细介绍。
参见图1所示,图1为本申请实施例提供的情感强度的识别方法的流程图,该识别方法包括:
S101、对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号。
本申请实施例中,监控视频由多帧图像组成,并且每帧图像对应有音频信号,这里,监控视频的每帧图像中可能包括目标对象,或者不包括目标对象,监控视频的每帧图像对应的音频信号可能是语音、静音或者噪声,本申请中基于包括目标对象的目标图像,以及目标对象的语音信息,对目标对象的情感类别和情感强度进行识别,因此,需要对目标对象对应的监控视频进行预处理,选取图像中包括目标对象,且图像对应的音频信号为语音的目标视频。
可选的,监控视频的获取方式为:在目标对象办理业务的过程中,使用摄像机、智能手机等采集设备采集目标对象的监控视频。这里,目标对象为特定的用户。
S102、将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别。
本申请实施例中,根据目标对象的人脸表情确定目标对象的情感类别,预先训练好的情感分类模型用于基于目标对象的人脸表情,确定目标对象的情感类别,将目标视频中的每一帧目标图像逐帧输入到预先训练好的情感分类模型中,获取上述情感分类模型输出的情感类别,即为目标对象在当前帧目标图像中的情感类别,其中,情感类别包括生气、害怕、厌恶、开心、悲伤、惊讶以及中立,基于此,获取了目标对象在目标视频的每一帧目标图像中的情感类别。
可选的,上述情感分类模型为人脸表情识别模型(Self-Cure Network,SCN),用于确定目标图像中人脸表情所属的类别,即为情感类别。
S103、针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度。
本申请实施例中,基于目标对象的语音强度确定目标对象的情感强度,但是,不同目标对象在相同情感强度下的语音强度具有较大差异,因此,需要确定每个目标对象的基准语音强度,情感类别包括第一情感类别和第二情感类别,其中,第一情感类别为情绪起伏不明显的情感类别,比如,中立,第二情感类别为情绪起伏较为明显的情感类别,比如,生气、害怕、厌恶、开心、悲伤、惊讶,将情感类别为第一情感类别的目标图像确定为第一目标图像,将情感类别为第二情感类别的目标图像确定为第二目标图像,获取包括同一目标对象的每一帧第一目标图像的音频信号的语音强度,将上述多个语音强度的平均值,确定为该目标对象的基准语音强度。
可选的,为了简化计算,从多帧第一目标图像中选取部分第一目标图像,基于部分第一目标图像的音频信号的语音强度,确定基准语音强度。
S104、针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。
本申请实施例中,目标视频中的每一帧第二目标图像均对应有情感类别和情感强度,针对每一帧第二目标图像,根据该帧第二目标图像所属的情感类别,该帧第二目标图像对应的音频信号的语音强度,以及该目标视频中目标对象的基准语音强度,确定目标对象在每一帧第二目标图像中对应的情感强度,获取对应于每一个第二情感类别的多帧第二目标图像,根据该第二情感类别下每帧第二目标图像对应的情感强度,确定目标对象在该第二情感类别下对应的情感强度的变化信息。
可选的,根据每一个第二情感类别下的每帧第二目标图像所对应的时间点和情感强度,生成该第二情感类别对应的情感强度变化曲线。
本申请实施例提供的情感强度的识别方法,基于目标对象在目标视频的每一帧目标图像中的表情,确定目标对象在每一帧目标视频中的情感类别,进而,基于目标对象在每一帧目标图像的音频信号中体现出的语音强度,确定目标用户在每一帧目标视频中的情感强度,该种情感类别和情感强度的识别方式准确度高,识别效率高。
进一步的,参见图2所示,本申请实施例提供的情感强度的识别方法中,所述针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息,包括:
S201、根据每一个第二情感类别下的每一帧第二目标图像对应的音频信号的语音强度,以及所述基准语音强度,确定目标对象在该第二情感类别下的该帧第二目标图像中对应的情感强度。
本申请实施例中,将第二情感类别进一步分为两大类,正比情感类别和反比情感类别,其中,正比情感类别下,目标对象的语音强度越强,其情感强度越强,比如,生气、开心、惊讶,反比情感类别下,目标对象的语音强度越强,其情感强度越弱,比如,害怕、厌恶、悲伤,对于每一个第二情感类别下多帧第二目标图像,首先判断所对应的第二情感类别是正比情感类别还是反比情感类别,进而确定情感强度判断规则,然后根据该第二情感类别下的每一帧第二目标图像的音频信号的语音强度,基准语音强度,以及确定的情感强度判断规则,确定目标对象在该第二情感类别下的每一帧第二目标图像中对应的情感强度。
可选的,正比情感类别的情感强度判断规则为:Pi=a×Vi/(b+Vn);反比情感类别的情感强度判断规则为:Pi=c×Vn/(d+Vi),其中,Pi为情感强度,Vi为语音强度,Vn为基准语音强度,a、b、c、d为经验常数,可以根据用户的实际需求进行设置。
S202、基于目标对象在该第二情感类别下的每帧第二目标图像中对应的情感强度,确定目标对象在该第二情感类别下对应的情感强度的变化信息。
本申请实施例中,获取对应于每一个第二情感类别的多帧第二目标图像,根据该第二情感类别下每帧第二目标图像对应的情感强度,确定目标对象在该第二情感类别下对应的情感强度的变化信息。
可选的,根据每一个第二情感类别下的每帧第二目标图像所对应的时间点和情感强度,生成该第二情感类别对应的情感强度变化曲线。
进一步的,本申请实施例提供的情感强度的识别方法中,所述情感强度的识别方法还包括:
根据目标对象在每一帧第二目标图像中对应的情感强度,目标对象在与该帧第二目标图像相邻的其他帧第二目标图像中对应的情感强度,该帧第二目标图像对应的第一权重,以及所述其他帧第二目标图像对应的第二权重,生成每一帧第二目标图像中对应的平滑处理后的情感强度。
本申请实施例中,考虑到情感强度的变化具有连续性,为了消除音频信号中语音强度的偶然变化的影响,本申请对每一帧第二目标图像对应的情感强度进行高斯滤波平滑处理,得到平滑处理后的情感强度,基于平滑处理后的情感强度,确定目标对象在每一个第二情感类别下对应的情感强度的变化信息。
在对目标对象在每一帧第二目标图像中对应的情感强度进行平滑处理时,计算该帧第二目标图像对应的情感强度与第一权重的第一乘积,计算目标对象在与该帧第二目标图像相邻的其他帧第二目标图像(比如,该帧第二目标图像的前两帧第二目标图像和后两帧第二目标图像)中对应的情感强度与第二权重的第二乘积,将第一乘积与第二乘积的和值,确定为目标对象在该第二目标图像中对应的平滑处理后的情感强度。这里,基于一维高斯滤波器确定第一权重和第二权重。
进一步的,参见图3所示,本申请实施例提供的情感强度的识别方法中,所述对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频,包括:
S301、根据所述监控视频中每一帧图像对应的音频信号的短时能量和过零次数,从所述监控视频中截取对应有语音的监控视频。
本申请实施例中,基于语音活动检测VAD(Voice Activity Detection)对监控视频进行端点检测,端点检测就是从带有噪声的语音中准确的定位出语音的开始点和结束点,将静音的部分去掉,将噪声的部分去掉,对语音和非语音的区域进行区分,找到一段语音真正有效的部分,挑选出整个监控视频中可以标注的多个时段T=(T1……Tn)。
具体的,通过短时能量(short time energy,STE)和过零次数(zero crosscounter,ZCC)来标注多个时段T=(T1……Tn),STE即一帧语音信号的能量,音频信号为时域信号,ZCC即为一帧语音时域信号穿过0(时间轴)的次数,在信噪比不是很低的情况下,语音片段的STE相对较大,而ZCC相对较小;而非语音片段的STE相对较小,但是ZCC相对较大,因为语音信号能量绝大部分包含在低频带内,而噪音信号通常能量较小且含有较高频段的信息。故而测量监控视频中每一帧图像对应的音频信号的短时能量和过零次数,若短时能量大于预设的第一阈值,且过零次数小于预设的第二阈值,将该帧图像确定为语音帧,进而得到连续的语音片段,标注多个语音片段的开始点和结束点,即标注多个时段T=(T1……Tn),从监控视频中截取对应有语音的监控视频。
S302、将所述监控视频的每一帧图像输入到预先训练好的人脸检测模型中,得到所述人脸检测模型输出的检测结果,基于所述检测结果,从所述监控视频中截取包括人脸的监控视频。
本申请实施例中,用人脸的表情分类结果作为情感分类,因此首先要在监控视频中检测到人脸,然后对人脸的表情进行识别分类。将监控视频的每一帧图像输入到预先训练好的人脸检测模型中,得到所述人脸检测模型输出的检测结果,即得到视频中是否有人脸,以及人脸的位置。对监控视频通过人脸检测,挑选出检测到人脸的时段作为监控视频中有效的时间段S=(S1……Sm),即从监控视频中截取包括人脸的监控视频。
S303、基于所述对应有语音的监控视频以及所述包括人脸的监控视频,生成所述目标视频。
本申请实施例中,需要挑选既有人脸,又有语音的监控视频片段作为目标视频。基于语音的VAD检测得到的有效时间段T=(T1……Tn),以及人脸检测得到的有效时间段S=(S1……Sm),将两者重合的时间段作为最终的有效时间段F(F=T∩S),得到目标视频。
进一步的,本申请实施例提供的情感强度的识别方法中,通过如下方式确定每一帧目标图像对应的音频信号的语音强度:
根据每一帧目标图像对应的音频信号的初始语音强度,以及与该帧目标图像相邻的多帧目标图像对应的音频信号的初始语音强度,确定该帧目标图像对应的音频信号的语音强度。
本申请实施例中,不同的说话内容对语音强度有一定影响,为了降低话语中不同文字对语音强度的影响,采用中值滤波作为平滑函数,对语音的强度进行平滑预处理,其中,中值滤波是一种非线性平滑技术,本申请采用一维的中值滤波,具体的,获取每一帧目标图像对应的音频信号的初始语音强度,以及与该帧目标图像相邻的多帧目标图像对应的音频信号的初始语音强度,其中,与该帧目标图像相邻的多帧目标图像为偶数帧目标图像,对获取的多个初始语音强度进行排序,将上述多个初始语音强度中的中间值,作为中值滤波的输出值,也即该帧目标图像对应的音频信号的语音强度。
进一步的,参见图4所示,本申请实施例提供的情感强度的识别方法中,所述情感强度的识别方法还包括:
S401、根据所述目标对象在每一帧第二目标图像中对应的情感强度和情感类别,生成与所述情感强度和所述情感类别相匹配的情感标签。
S402、将所述情感标签在该帧第二目标图像处进行标记。
综合步骤401和步骤402,情感标签包括情感类别标签和情感强度标签,本申请中对应有每种情感类别的情感类别标签,以及对应有每种情感强度的情感强度标签,在获取每一帧第二目标图像中对应的情感强度和情感类别之后,选取分别与该帧第二目标图像中对应的情感强度和情感类别相匹配的情感强度标签和情感类别标签,将选取的标签标注在对应的第二目标图像处。
进一步的,本申请实施例提供的情感强度的识别方法中,所述情感强度的识别方法还包括:
根据所述目标对象在每一个第二情感类别下对应的情感强度的变化信息,生成并显示与所述情感强度的变化信息相匹配的业务提示信息。
本申请实施例中,在目标对象办理相关业务的过程中获取该目标对象的监控视频,可以在确定目标对象的情感强度的变化信息后,根据目标对象情感类别和情感强度的变化,引导目标对象办理其他的业务,具体的,生成与情感强度的变化信息相匹配的业务提示信息,并对生成的业务提示信息进行显示,比如,在确定目标对象开心程度逐渐升高时,生成与目标对象当前办理的业务相关的其他业务办理提示信息,或者,在确定目标对象生气程度逐渐升高时,生成与目标对象当前办理的业务相关的优惠提示信息,以提高目标对象办理相关业务的成功率。
基于同一发明构思,本申请实施例中还提供了与情感强度的识别方法对应的情感强度的识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述情感强度的识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参见图5所示,图5为本申请一实施例提供的一种情感强度的识别装置的结构示意图,该识别装置包括:
选取模块501,用于对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号;
输入模块502,用于将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;
第一确定模块503,用于针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;
第二确定模块504,用于针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。
在一种可能的实施方式中,所述第二确定模块504,在针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息时,包括:
根据每一个第二情感类别下的每一帧第二目标图像对应的音频信号的语音强度,以及所述基准语音强度,确定目标对象在该第二情感类别下的该帧第二目标图像中对应的情感强度;
基于目标对象在该第二情感类别下的每帧第二目标图像中对应的情感强度,确定目标对象在该第二情感类别下对应的情感强度的变化信息。
在一种可能的实施方式中,所述识别装置还包括:
第一生成模块,用于根据目标对象在每一帧第二目标图像中对应的情感强度,目标对象在与该帧第二目标图像相邻的其他帧第二目标图像中对应的情感强度,该帧第二目标图像对应的第一权重,以及所述其他帧第二目标图像对应的第二权重,生成每一帧第二目标图像中对应的平滑处理后的情感强度。
在一种可能的实施方式中,所述选取模块501,在对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频时,包括:
根据所述监控视频中每一帧图像对应的音频信号的短时能量和过零次数,从所述监控视频中截取对应有语音的监控视频;
将所述监控视频的每一帧图像输入到预先训练好的人脸检测模型中,得到所述人脸检测模型输出的检测结果,基于所述检测结果,从所述监控视频中截取包括人脸的监控视频;
基于所述对应有语音的监控视频以及所述包括人脸的监控视频,生成所述目标视频。
在一种可能的实施方式中,所述识别装置还包括:
第三确定模块,用于根据每一帧目标图像对应的音频信号的初始语音强度,以及与该帧目标图像相邻的多帧目标图像对应的音频信号的初始语音强度,确定该帧目标图像对应的音频信号的语音强度。
在一种可能的实施方式中,所述识别装置还包括:
第二生成模块,用于根据所述目标对象在每一帧第二目标图像中对应的情感强度和情感类别,生成与所述情感强度和所述情感类别相匹配的情感标签;
标记模块,用于将所述情感标签在该帧第二目标图像处进行标记。
在一种可能的实施方式中,所述识别装置还包括:
第三生成模块,用于根据所述目标对象在每一个第二情感类别下对应的情感强度的变化信息,生成并显示与所述情感强度的变化信息相匹配的业务提示信息。
本申请实施例提供的情感强度的识别装置,基于目标对象在目标视频的每一帧目标图像中的表情,确定目标对象在每一帧目标视频中的情感类别,进而,基于目标对象在每一帧目标图像的音频信号中体现出的语音强度,确定目标用户在每一帧目标视频中的情感强度,该种情感类别和情感强度的识别方式准确度高,识别效率高。
参见图6示,图6本申请实施例提供的一种电子设备600,该电子设备600包括:处理器601、存储器602和总线,所述存储器602存储有所述处理器601可执行的机器可读指令,当电子设备运行时,所述处理器601与所述存储器602之间通过总线通信,所述处理器601执行所述机器可读指令,以执行如上述情感强度的识别方法的步骤。
具体地,上述存储器602和处理器601能够为通用的存储器和处理器,这里不做具体限定,当处理器601运行存储器602存储的计算机程序时,能够执行上述情感强度的识别方法。
对应于上述情感强度的识别方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述情感强度的识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种情感强度的识别方法,其特征在于,所述识别方法包括:
对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号;
将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;
针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;
针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。
2.根据权利要求1所述的情感强度的识别方法,其特征在于,所述针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息,包括:
根据每一个第二情感类别下的每一帧第二目标图像对应的音频信号的语音强度,以及所述基准语音强度,确定目标对象在该第二情感类别下的该帧第二目标图像中对应的情感强度;
基于目标对象在该第二情感类别下的每帧第二目标图像中对应的情感强度,确定目标对象在该第二情感类别下对应的情感强度的变化信息。
3.根据权利要求2所述的情感强度的识别方法,其特征在于,所述识别方法还包括:
根据目标对象在每一帧第二目标图像中对应的情感强度,目标对象在与该帧第二目标图像相邻的其他帧第二目标图像中对应的情感强度,该帧第二目标图像对应的第一权重,以及所述其他帧第二目标图像对应的第二权重,生成每一帧第二目标图像中对应的平滑处理后的情感强度。
4.根据权利要求1所述的情感强度的识别方法,其特征在于,所述对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频,包括:
根据所述监控视频中每一帧图像对应的音频信号的短时能量和过零次数,从所述监控视频中截取对应有语音的监控视频;
将所述监控视频的每一帧图像输入到预先训练好的人脸检测模型中,得到所述人脸检测模型输出的检测结果,基于所述检测结果,从所述监控视频中截取包括人脸的监控视频;
基于所述对应有语音的监控视频以及所述包括人脸的监控视频,生成所述目标视频。
5.根据权利要求2所述的情感强度的识别方法,其特征在于,通过如下方式确定每一帧目标图像对应的音频信号的语音强度:
根据每一帧目标图像对应的音频信号的初始语音强度,以及与该帧目标图像相邻的多帧目标图像对应的音频信号的初始语音强度,确定该帧目标图像对应的音频信号的语音强度。
6.根据权利要求2所述的情感强度的识别方法,其特征在于,所述识别方法还包括:
根据所述目标对象在每一帧第二目标图像中对应的情感强度和情感类别,生成与所述情感强度和所述情感类别相匹配的情感标签;
将所述情感标签在该帧第二目标图像处进行标记。
7.根据权利要求1所述的情感强度的识别方法,其特征在于,所述识别方法还包括:
根据所述目标对象在每一个第二情感类别下对应的情感强度的变化信息,生成并显示与所述情感强度的变化信息相匹配的业务提示信息。
8.一种情感强度的识别装置,其特征在于,所述识别装置包括:
选取模块,用于对目标对象对应的监控视频进行处理,选取所述目标对象对应的目标视频;其中,所述目标视频中的每一帧目标图像包括所述目标对象的脸部信息,且对应有匹配的音频信号;
输入模块,用于将所述目标视频中的每一帧目标图像输入到预先训练好的情感分类模型中,得到所述情感分类模型输出的该帧目标图像的情感类别;
第一确定模块,用于针对对应于第一情感类别的多帧第一目标图像,根据该多帧第一目标图像分别对应的音频信号的语音强度,确定基准语音强度;
第二确定模块,用于针对对应于每一个第二情感类别的多帧第二目标图像,根据该多帧第二目标图像分别对应的音频信号,以及所述基准语音强度,确定所述目标对象在该第二情感类别下对应的情感强度的变化信息。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一项所述的情感强度的识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的情感强度的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271542.4A CN112446306A (zh) | 2020-11-13 | 2020-11-13 | 一种情感强度的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011271542.4A CN112446306A (zh) | 2020-11-13 | 2020-11-13 | 一种情感强度的识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112446306A true CN112446306A (zh) | 2021-03-05 |
Family
ID=74738229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011271542.4A Pending CN112446306A (zh) | 2020-11-13 | 2020-11-13 | 一种情感强度的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446306A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205949A (zh) * | 2022-09-05 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
-
2020
- 2020-11-13 CN CN202011271542.4A patent/CN112446306A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115205949A (zh) * | 2022-09-05 | 2022-10-18 | 腾讯科技(深圳)有限公司 | 图像生成方法以及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109473123B (zh) | 语音活动检测方法及装置 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN107391493B (zh) | 一种舆情信息提取方法、装置、终端设备及存储介质 | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
US20160086622A1 (en) | Speech processing device, speech processing method, and computer program product | |
CN106504768A (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
US20150206543A1 (en) | Apparatus and method for emotion recognition | |
CN109658921B (zh) | 一种语音信号处理方法、设备及计算机可读存储介质 | |
CN111914169A (zh) | 产品的推荐方法、装置、电子设备及计算机可读存储介质 | |
CN111597818A (zh) | 呼叫质检方法、装置、计算机设备和计算机可读存储介质 | |
CN109086455B (zh) | 一种语音识别库的构建方法及学习设备 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN112509561A (zh) | 情绪识别方法、装置、设备及计算机可读存储介质 | |
CN111710332B (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN113327620A (zh) | 声纹识别的方法和装置 | |
CN115860882A (zh) | 基于区块链的智慧城市商品大数据智能选购方法及系统 | |
CN112446306A (zh) | 一种情感强度的识别方法、装置、电子设备及存储介质 | |
CN111736940A (zh) | 智能柜台的业务界面展示方法及装置 | |
CN114072786A (zh) | 说话解析装置、说话解析方法以及程序 | |
JP6327252B2 (ja) | 分析対象決定装置及び分析対象決定方法 | |
CN111739537B (zh) | 语义识别方法、装置、存储介质及处理器 | |
CN111599382A (zh) | 语音分析方法、装置、计算机设备和存储介质 | |
CN114067842B (zh) | 客户满意度鉴别方法及装置、存储介质及电子设备 | |
CN115602160A (zh) | 基于语音识别的业务办理方法、装置及电子设备 | |
US11355140B2 (en) | Emotion estimation system and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |