CN112307975A - 融合语音与微表情的多模态情感识别方法及系统 - Google Patents
融合语音与微表情的多模态情感识别方法及系统 Download PDFInfo
- Publication number
- CN112307975A CN112307975A CN202011197040.1A CN202011197040A CN112307975A CN 112307975 A CN112307975 A CN 112307975A CN 202011197040 A CN202011197040 A CN 202011197040A CN 112307975 A CN112307975 A CN 112307975A
- Authority
- CN
- China
- Prior art keywords
- emotion
- micro
- emotion recognition
- voice
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 143
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000008451 emotion Effects 0.000 claims abstract description 154
- 230000014509 gene expression Effects 0.000 claims abstract description 64
- 238000005314 correlation function Methods 0.000 claims abstract description 20
- 238000009826 distribution Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000002996 emotional effect Effects 0.000 claims description 8
- 238000011161 development Methods 0.000 claims description 7
- 230000018109 developmental process Effects 0.000 claims description 7
- 206010027951 Mood swings Diseases 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims 1
- 230000004927 fusion Effects 0.000 claims 1
- 230000001815 facial effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 206010022998 Irritability Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008918 emotional behaviour Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Abstract
本发明公开了融合语音与微表情的多模态情感识别方法及系统,涉及情况识别技术领域,其技术方案要点是:建立微表情数据库;建立语音情感数据库与情感关联函数;同时获取同一目标对象的语音信息和脸部图像信息,并提取情感表征词汇和微表情数据;根据匹配结果获取情感关联函数以及对应微表情的情绪波动值;建立情感识别网,并逐级分解后得到多个情感识别线路;获取相应的情绪波动值,并建立情绪识别曲线;情感波动度计算后根据预设波动度选择合格的情感识别线路。本发明增强了语音信息、脸部图像信息表征目标对象实时情感的真实性,同时降低了同一情况体现不同情况的概率,既提高情感识别结果的准确度,又降低了情感识别结果的误差。
Description
技术领域
本发明涉及情感识别技术领域,更具体地说,它涉及融合语音与微表情的多模态情感识别方法及系统。
背景技术
情感识别作为计算机科学、认知科学、心理学、脑科学、神经科学等多学科交叉的新兴研究领域,其研究目的就是让计算机学习理解人类的情感表达,最终使其能够像人类一样具有识别、理解情感的能力。因此,作为一个极富挑战性的交叉学科,情感识别成为当前国内外模式识别、计算机视觉、大数据挖掘以及人工智能领域的一个研究热点,具有重要的研究价值和应用前景。
目前,对于情感识别有两种方式,一种是检测生理信号如呼吸、心律和体温等,另一种是检测情感行为如面部特征表情识别、语音情感识别和姿态识别。由于通过检测生理信号实现情感识别需要配备较为复杂的数据采集设备,投入成本相对较高,为此,仅能在特殊场景小范围使用,如心理分析;而对于通过情感行为检测实现情感识别,其所需要的主要设备为监控设备和语言采集设备,这两种设备是大部分场所、环境中的常规设置,如监控系统、智能终端设备,为此,通过检测情感行为相对来说更具有推广应用前景。
然而,现有的通过情感行为检测实现情感识别大部分采用单一的识别方式,对于自我控制能较强的人来说,其面部图像、语音信息和姿态行为所体现的情感信息是能够进行伪装掩饰的,导致现有情感识别结果的准确度较低,同时单一的情感识别方式也为目标对象进行伪装掩饰提供了条件;此外,对于较为单一的识别方式,不同的情感表征可能展现相同的面部图像、语音信息或姿态行为,导致现有的情感识别结果的误差较大。因此,如何研究设计一种准确度高、误差小的融合语音与微表情的多模态情感识别方法及系统是我们目前急需解决的问题。
发明内容
为解决现有情感识别技术的情感识别结果的准确度较低、误差大的问题,本发明的目的是提供融合语音与微表情的多模态情感识别方法及系统。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,提供了融合语音与微表情的多模态情感识别方法,包括以下步骤:
S101:对历史微表情数据进行分类处理,并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库;
S102:根据历史语音情感表征词汇建立语音情感数据库,并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数;
S103:同时获取同一目标对象的语音信息和脸部图像信息,并对语音信息进行预处理后提取情感表征词汇,以及对脸部图像信息进行图像处理后提取微表情数据;
S104:将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配,并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值;
S105:根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网,并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路;
S106:根据情感识别线路获取相应的情绪波动值,并根据情绪波动值、时间轴分布顺序建立情绪识别曲线;
S107:对情绪识别曲线进行情感波动度计算,并根据预设波动度选择合格的情感识别线路作为多模态情感识别结果。
进一步的,所述情感关联函数具体为:
式中,Y(a,ia),Y(b,ib),...,Y(z,iz)表示不同的微表情分类子库;a,b,...,z表示微表情;ia,ib,...,,iz表示对应微表情的情绪波动值;X(A)表示情感表征词汇,并与Y(a,ia),Y(b,ib),...,Y(z,iz)同时关联。
进一步的,所述语音信息预处理具体为:
通过对语音信息进行自然语言处理后获取语音信息中的语速信息和句义信息;
根据语速信息、句义信息从语音信息中截取语句单元,并按序将语句单元作为情感表征词汇提取的独立数据。
进一步的,所述情感表征词汇提取具体为:
对语句单元进行分词、词性标注后提取标注词组;
从标注词组中筛选出表征情绪的标注词作为情感表征词汇。
进一步的,所述情感识别网建立具体为:
根据情感表征词汇的时间轴分布顺序将对应的情感关联函数依次排序;
将N+1时间序的情感关联函数同时串联在N时间序对应情感关联函数中的微表情分类子库,得到情感识别网,情感识别网分解后的情感识别线路具体为:
Q=S1×S2×...×SN
式中,Q表示情感识别线路的总数量;SN表示N时间序的情感关联函数中微表情分类子库的数量。
进一步的,所述情绪识别曲线具体为:
根据情感识别线路中微表情分类子库的时间轴分布顺序按序获取对应的情绪波动值;
以时间轴分布顺序为横轴、情绪波动值为纵轴得到情感识别线路中各个微表情分类子库的二维坐标点,并将相邻二维坐标点以平滑线连接形成情绪识别曲线F(x),情绪识别曲线具体为:
F(N)={f1(ia),f2(ib),...,fN(iz)},且满足f1'(ia)=f2'(ib)=fN'(iz)=0,
式中,F(N)表示情绪识别曲线;fN(iz)表示N时间序的二维坐标点;fN'(iz)表示情绪识别曲线在N时间序的二维坐标点的一阶导值为0。
进一步的,所述情感波动度计算具体为:
K1=|D1'(i)+...+Dm'(i)|
K2=D1'(j)+...+Dt'(j)
式中,W表示情感波动度;Dm'(i)表示情绪识别曲线中一阶导为负值区域的相邻二维坐标点的情绪波动值差值,取值为负;K1表示负值区域中所有的情绪波动值差值之和的绝对值;Dt'(j)表示情绪识别曲线中一阶导为正值区域的相邻二维坐标点的情绪波动值差值,差值取正;K2表示负值区域中所有的情绪波动值差值之和。
第二方面,提供了融合语音与微表情的多模态情感识别系统,包括:
表情数据库构建模块,用于对历史微表情数据进行分类处理,并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库;
语音数据库构建模块,用于根据历史语音情感表征词汇建立语音情感数据库,并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数;
数据处理模块,用于同时获取同一目标对象的语音信息和脸部图像信息,并对语音信息进行预处理后提取情感表征词汇,以及对脸部图像信息进行图像处理后提取微表情数据;
匹配模块,用于将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配,并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值;
线路获取模块,用于根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网,并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路;
曲线建立模块,用于根据情感识别线路获取相应的情绪波动值,并根据情绪波动值、时间轴分布顺序建立情绪识别曲线;
识别判断模块,用于对情绪识别曲线进行情感波动度计算,并根据预设波动度选择合格的情感识别线路作为多模态情感识别结果。
第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的融合语音与微表情的多模态情感识别方法。
第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如第一方面中任意一项所述的融合语音与微表情的多模态情感识别方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过同时获取目标对象的语音信息和脸部图像信息,并结合语音识别、面部图像识别两种方式对目标对象进行关联识别,增强了语音信息、脸部图像信息表征目标对象实时情感的真实性,同时降低了同一情况体现不同情况的概率,既提高情感识别结果的准确度,又降低了情感识别结果的误差;
2、本发明通过建立情感识别网后分解得到的情感识别线路,能够获取情感识别过程存在的所有情况,扩大了情感识别类别的全面性;
3、本发明通过建立情绪识别曲线和情感波动度计算,能够从多次情感识别情况中筛选出最接近真实情况的情感识别结果,既提高了情感识别结果的精确度,又降低了情感识别计算的复杂度;
4、本发明通过对语音信息进行预处理后截取语句单元,在保障语言信息识别过程中语义完整性的情况下,降低了情感识别网构建的复杂度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的流程图;
图2是本发明实施例中的系统架构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
实施例1
融合语音与微表情的多模态情感识别方法,如图1所示,包括以下步骤:
S101:对历史微表情数据进行分类处理,并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库;其中,情绪发展趋势多种多样,可根据具体的应用场景设置,例如:兴奋-高兴-开心-微笑-平静-失望-忧虑-烦躁-愤怒;分类子库可包含一个微表情类别或多个相似度较高的微表情类别;
S102:根据历史语音情感表征词汇建立语音情感数据库,并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数;
S103:同时获取同一目标对象的语音信息和脸部图像信息,并对语音信息进行预处理后提取情感表征词汇,以及对脸部图像信息进行图像处理后提取微表情数据;
S104:将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配,并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值;
S105:根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网,并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路;
S106:根据情感识别线路获取相应的情绪波动值,并根据情绪波动值、时间轴分布顺序建立情绪识别曲线;
S107:对情绪识别曲线进行情感波动度计算,并根据预设波动度选择合格的情感识别线路作为多模态情感识别结果。
情感关联函数具体为:
式中,Y(a,ia),Y(b,ib),...,Y(z,iz)表示不同的微表情分类子库;a,b,...,z表示微表情;ia,ib,...,,iz表示对应微表情的情绪波动值;X(A)表示情感表征词汇,并与Y(a,ia),Y(b,ib),...,Y(z,iz)同时关联。
语音信息预处理具体为:通过对语音信息进行自然语言处理后获取语音信息中的语速信息和句义信息;根据语速信息、句义信息从语音信息中截取语句单元,并按序将语句单元作为情感表征词汇提取的独立数据。
情感表征词汇提取具体为:对语句单元进行分词、词性标注后提取标注词组;从标注词组中筛选出表征情绪的标注词作为情感表征词汇。
情感识别网建立具体为:根据情感表征词汇的时间轴分布顺序将对应的情感关联函数依次排序;将N+1时间序的情感关联函数同时串联在N时间序对应情感关联函数中的微表情分类子库,得到情感识别网,情感识别网分解后的情感识别线路具体为:
Q=S1×S2×...×SN
式中,Q表示情感识别线路的总数量;SN表示N时间序的情感关联函数中微表情分类子库的数量。
情绪识别曲线具体为:根据情感识别线路中微表情分类子库的时间轴分布顺序按序获取对应的情绪波动值;以时间轴分布顺序为横轴、情绪波动值为纵轴得到情感识别线路中各个微表情分类子库的二维坐标点,并将相邻二维坐标点以平滑线连接形成情绪识别曲线F(x),情绪识别曲线具体为:
F(N)={f1(ia),f2(ib),...,fN(iz)},且满足f1'(ia)=f2'(ib)=fN'(iz)=0,
式中,F(N)表示情绪识别曲线;fN(iz)表示N时间序的二维坐标点;fN'(iz)表示情绪识别曲线在N时间序的二维坐标点的一阶导值为0。
情感波动度计算具体为:
K1=|D1'(i)+...+Dm'(i)|
K2=D1'(j)+...+Dt'(j)
式中,W表示情感波动度;Dm'(i)表示情绪识别曲线中一阶导为负值区域的相邻二维坐标点的情绪波动值差值,取值为负;K1表示负值区域中所有的情绪波动值差值之和的绝对值;Dt'(j)表示情绪识别曲线中一阶导为正值区域的相邻二维坐标点的情绪波动值差值,差值取正;K2表示负值区域中所有的情绪波动值差值之和。
实施例2
融合语音与微表情的多模态情感识别系统,如图2所示,包括:
表情数据库构建模块,用于对历史微表情数据进行分类处理,并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库;语音数据库构建模块,用于根据历史语音情感表征词汇建立语音情感数据库,并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数;数据处理模块,用于同时获取同一目标对象的语音信息和脸部图像信息,并对语音信息进行预处理后提取情感表征词汇,以及对脸部图像信息进行图像处理后提取微表情数据;匹配模块,用于将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配,并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值;线路获取模块,用于根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网,并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路;曲线建立模块,用于根据情感识别线路获取相应的情绪波动值,并根据情绪波动值、时间轴分布顺序建立情绪识别曲线;识别判断模块,用于对情绪识别曲线进行情感波动度计算,并选择情感波动度低于预设波动度的合格情绪识别曲线作为基于语音和微表情的多模态情感识别结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.融合语音与微表情的多模态情感识别方法,其特征是,包括以下步骤:
S101:对历史微表情数据进行分类处理,并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库;
S102:根据历史语音情感表征词汇建立语音情感数据库,并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数;
S103:同时获取同一目标对象的语音信息和脸部图像信息,并对语音信息进行预处理后提取情感表征词汇,以及对脸部图像信息进行图像处理后提取微表情数据;
S104:将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配,并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值;
S105:根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网,并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路;
S106:根据情感识别线路获取相应的情绪波动值,并根据情绪波动值、时间轴分布顺序建立情绪识别曲线;
S107:对情绪识别曲线进行情感波动度计算,并根据预设波动度选择合格的情感识别线路作为多模态情感识别结果。
3.根据权利要求1所述的融合语音与微表情的多模态情感识别方法,其特征是,所述语音信息预处理具体为:
通过对语音信息进行自然语言处理后获取语音信息中的语速信息和句义信息;
根据语速信息、句义信息从语音信息中截取语句单元,并按序将语句单元作为情感表征词汇提取的独立数据。
4.根据权利要求3所述的融合语音与微表情的多模态情感识别方法,其特征是,所述情感表征词汇提取具体为:
对语句单元进行分词、词性标注后提取标注词组;
从标注词组中筛选出表征情绪的标注词作为情感表征词汇。
5.根据权利要求1所述的融合语音与微表情的多模态情感识别方法,其特征是,所述情感识别网建立具体为:
根据情感表征词汇的时间轴分布顺序将对应的情感关联函数依次排序;
将N+1时间序的情感关联函数同时串联在N时间序对应情感关联函数中的微表情分类子库,得到情感识别网,情感识别网分解后的情感识别线路具体为:
Q=S1×S2×...×SN
式中,Q表示情感识别线路的总数量;SN表示N时间序的情感关联函数中微表情分类子库的数量。
6.根据权利要求5所述的融合语音与微表情的多模态情感识别方法,其特征是,所述情绪识别曲线具体为:
根据情感识别线路中微表情分类子库的时间轴分布顺序按序获取对应的情绪波动值;
以时间轴分布顺序为横轴、情绪波动值为纵轴得到情感识别线路中各个微表情分类子库的二维坐标点,并将相邻二维坐标点以平滑线连接形成情绪识别曲线F(x),情绪识别曲线具体为:
F(N)={f1(ia),f2(ib),...,fN(iz)},且满足f1'(ia)=f2'(ib)=fN'(iz)=0,
式中,F(N)表示情绪识别曲线;fN(iz)表示N时间序的二维坐标点;fN'(iz)表示情绪识别曲线在N时间序的二维坐标点的一阶导值为0。
8.融合语音与微表情的多模态情感识别系统,其特征是,包括:
表情数据库构建模块,用于对历史微表情数据进行分类处理,并根据情绪发展趋势按序对每个分类子库设定情绪波动值后建立微表情数据库;
语音数据库构建模块,用于根据历史语音情感表征词汇建立语音情感数据库,并根据微表情数据库、语音情感数据库建立语音与微表情的情感关联函数;
数据处理模块,用于同时获取同一目标对象的语音信息和脸部图像信息,并对语音信息进行预处理后提取情感表征词汇,以及对脸部图像信息进行图像处理后提取微表情数据;
匹配模块,用于将相同时间轴上的情感表征词汇、微表情数据分别在语音情感数据库、微表情数据库进行相似度匹配,并根据匹配结果获取情感关联函数以及对应微表情的情绪波动值;
线路获取模块,用于根据时间轴分布顺序将获取的情感关联函数依次串联后建立情感识别网,并根据时间轴分布顺序将情感识别网逐级分解后得到多个情感识别线路;
曲线建立模块,用于根据情感识别线路获取相应的情绪波动值,并根据情绪波动值、时间轴分布顺序建立情绪识别曲线;
识别判断模块,用于对情绪识别曲线进行情感波动度计算,并根据预设波动度选择合格的情感识别线路作为多模态情感识别结果。
9.一种计算机终端,其特征是,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的融合语音与微表情的多模态情感识别方法。
10.一种计算机可读介质,其特征是,其上存储有计算机程序,所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的融合语音与微表情的多模态情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011197040.1A CN112307975A (zh) | 2020-10-30 | 2020-10-30 | 融合语音与微表情的多模态情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011197040.1A CN112307975A (zh) | 2020-10-30 | 2020-10-30 | 融合语音与微表情的多模态情感识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307975A true CN112307975A (zh) | 2021-02-02 |
Family
ID=74334086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011197040.1A Pending CN112307975A (zh) | 2020-10-30 | 2020-10-30 | 融合语音与微表情的多模态情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307975A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469153A (zh) * | 2021-09-03 | 2021-10-01 | 中国科学院自动化研究所 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
CN113723112A (zh) * | 2021-11-02 | 2021-11-30 | 天津海翼科技有限公司 | 多模态情感分析预测方法、装置、设备及存储介质 |
CN114863636A (zh) * | 2022-03-25 | 2022-08-05 | 吉林云帆智能工程有限公司 | 一种轨道车辆司机情绪识别算法 |
CN115429272A (zh) * | 2022-09-16 | 2022-12-06 | 济南大学 | 基于多模态生理信号的心理健康状态评估方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
CN110991238A (zh) * | 2019-10-30 | 2020-04-10 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于语音情感分析和微表情识别的演讲辅助系统 |
-
2020
- 2020-10-30 CN CN202011197040.1A patent/CN112307975A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
CN110991238A (zh) * | 2019-10-30 | 2020-04-10 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种基于语音情感分析和微表情识别的演讲辅助系统 |
Non-Patent Citations (4)
Title |
---|
TAKESHI UMEKI ET AL.: "PDM Signal Amplification Using PPLN-Based Polarization-Independent Phase-Sensitive Amplifier", 《JOURNAL OF LIGHTWAVE TECHNOLOGY》, vol. 33, no. 7, pages 1326 - 1332, XP011575169, DOI: 10.1109/JLT.2014.2385867 * |
VALENTINA CHAPARRO ET AL.: "Emotion Recognition from EEG and Facial Expressions: a Multimodal Approach", 《2018 40TH ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY (EMBC)》, pages 530 - 533 * |
闫静杰等: "基于人脸表情和语音的双模态情感识别", 《南 京 邮 电 大 学 学 报 ( 自 然 科 学 版 )》, vol. 38, no. 1, pages 60 - 65 * |
韩志艳等: "面向语音与面部表情信号的情感可视化方法", 《电子设计工程》, vol. 24, no. 11, pages 146 - 149 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469153A (zh) * | 2021-09-03 | 2021-10-01 | 中国科学院自动化研究所 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
CN113469153B (zh) * | 2021-09-03 | 2022-01-11 | 中国科学院自动化研究所 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
CN113723112A (zh) * | 2021-11-02 | 2021-11-30 | 天津海翼科技有限公司 | 多模态情感分析预测方法、装置、设备及存储介质 |
CN114863636A (zh) * | 2022-03-25 | 2022-08-05 | 吉林云帆智能工程有限公司 | 一种轨道车辆司机情绪识别算法 |
CN115429272A (zh) * | 2022-09-16 | 2022-12-06 | 济南大学 | 基于多模态生理信号的心理健康状态评估方法及系统 |
CN115429272B (zh) * | 2022-09-16 | 2024-04-30 | 济南大学 | 基于多模态生理信号的心理健康状态评估方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307975A (zh) | 融合语音与微表情的多模态情感识别方法及系统 | |
Filntisis et al. | Fusing body posture with facial expressions for joint recognition of affect in child–robot interaction | |
Yang et al. | Handling movement epenthesis and hand segmentation ambiguities in continuous sign language recognition using nested dynamic programming | |
Roy | Grounded spoken language acquisition: Experiments in word learning | |
CN109388700A (zh) | 一种意图识别方法及系统 | |
CN110363239B (zh) | 一种面向多模态数据的小样本机器学习方法、系统和介质 | |
CN101187990A (zh) | 一种会话机器人系统 | |
CN110188615A (zh) | 一种人脸表情识别方法、装置、介质及系统 | |
CN110781298A (zh) | 药品分类方法、装置、计算机设备及存储介质 | |
CN111126280B (zh) | 基于融合手势识别的失语症患者辅助康复训练系统及方法 | |
Alshamsi et al. | Automated facial expression and speech emotion recognition app development on smart phones using cloud computing | |
CN112418166B (zh) | 一种基于多模态信息的情感分布学习方法 | |
Cangea et al. | Xflow: Cross-modal deep neural networks for audiovisual classification | |
Praveen et al. | Audio-visual fusion for emotion recognition in the valence-arousal space using joint cross-attention | |
Zhang et al. | Intelligent Facial Action and emotion recognition for humanoid robots | |
Goncalves et al. | Robust audiovisual emotion recognition: Aligning modalities, capturing temporal information, and handling missing features | |
Mathur et al. | Unsupervised audio-visual subspace alignment for high-stakes deception detection | |
Sun et al. | Personality assessment based on multimodal attention network learning with category-based mean square error | |
CN113743250A (zh) | 一种课堂教学行为事件描述模型的构建方法及系统 | |
CN113658690A (zh) | 一种智能导医方法、装置、存储介质以及电子设备 | |
US20230098296A1 (en) | Method and system for generating data set relating to facial expressions, and non-transitory computer-readable recording medium | |
He et al. | Dual multi-task network with bridge-temporal-attention for student emotion recognition via classroom video | |
Chintalapudi et al. | Speech emotion recognition using deep learning | |
Liliana et al. | The Fuzzy Emotion Recognition Framework Using Semantic-Linguistic Facial Features | |
Nuha et al. | An Approach of Analyzing Classroom Student Engagement in Multimodal Environment by Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |