CN112083806B - 一种基于多模态识别的自学习情感交互方法 - Google Patents
一种基于多模态识别的自学习情感交互方法 Download PDFInfo
- Publication number
- CN112083806B CN112083806B CN202010973218.0A CN202010973218A CN112083806B CN 112083806 B CN112083806 B CN 112083806B CN 202010973218 A CN202010973218 A CN 202010973218A CN 112083806 B CN112083806 B CN 112083806B
- Authority
- CN
- China
- Prior art keywords
- emotion
- layer
- gesture
- information
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态识别的自学习情感交互方法,步骤如下:非接触式通道分别采集语音、人脸和手势信号;对信号进行特征提取,得到信号初步特征;特征输入到双向LSTM层,得到单模态私有信息和多模态交互信息,根据这些信息得到融合特征;基于分类学习算法,结合多模态融合特征和历史情绪状态曲线预测用户情绪,选择交互模式;在交互模式下,根据对话记忆网络给出交互应答;最后,根据交互效果对情绪状态曲线和对话记忆网络进行反馈和优化。本发明允许操作者通过非接触式人机交互接口多通道输入信息,对多模态的融合特征综合考虑,结合情绪历史状态和对话记忆网络,完成交互任务。
Description
技术领域
本发明涉及人机交互技术领域,具体涉及一种基于多模态识别的自学习情感交互方法。
背景技术
智能人机交互是人工智能发展的一个重要方向,随着移动互联网的发展,对人机交互的类人化和自然性提出了更高的要求。
目前的交互技术较为单一,多为单纯的文字或语音交互,一些所谓的多模态交互方式只是对多模态特征进行简单的加法操作,是对多个单模态信息的单独处理,没有考虑多模态信息之间的交互作用信息,使得多个模态之间存在歧义,不能实现完整的、无歧义的交互任务。同时,大多数的交互方式没有考虑用户的情绪和心理的连续性和时间累积效应,也没有考虑对话的上下文及语义的连贯性,无自适应和自学习的能力,只能对特定的场景和意图进行交互,无法满足日益增长的交互需求。人的自然交互是离不开情绪变化的,情绪的表达通常是通过语言、视觉和行为动作之间的相互作用共同完成的,同时人的情感具有时变性,对话具有连续性。目前亟待提出一种能够综合考虑多模态之间的交互作用关系,并能适应复杂多变的场景,具有自学习和自适应能力的交互新方法。
发明内容
本发明的目的在于解决交互能力不足的缺陷,提供一种基于多模态识别的自学习情感交互方法,该方法允许操作者通过非接触式人机交互接口多通道输入信息,对多模态的融合特征综合考虑,结合情绪历史状态和对话记忆网络,完成交互任务。
本发明的目的可以通过采取如下技术方案达到:
一种基于多模态识别的自学习情感交互方法,所述的自学习情感交互方法包括以下步骤:
S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手势信息;
S2、提取语音、人脸和手势信号特征,初步得到语音情感特征l、人脸特征f、手势特征h,记N={l,f,h},其中,N是语言情感特征l、人脸特征f、手势特征h信息的集合;
S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向LSTM网络层,得到单模态信息和多模态交互信息,根据单模态信息和多模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特征;
S4、基于XGBOOST学习算法,结合多模态融合特征和情绪历史状态曲线预测用户情绪,选择交互模式;
S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸和手势信号,并分别提取语音情感特征l、人脸特征f、手势特征h,得到情绪状态曲线反馈,并以此进行对话记忆网络优化;
S6、在相应交互模式下,通过优化后的对话记忆网络给出交互应答。
进一步地,所述的步骤S2过程如下:
S21、对采集的语音信息,基于隐马尔可夫模型,提取语音Mel滤波器组倒谱特征,包括短时能量、共振峰、子带能量的短时特征,得到语言情感特征l;
S22、对采集的人脸信息,输入到多层卷积神经网络,用6个5x5的卷积核过滤器进行卷积,得到人脸特征f;
S23、对采集的手势信息,基于手势的Hu矩以及指尖数,输入到BP神经网络,得到手势特征h。
进一步地,所述的步骤S3过程如下:
S32、将语音情感特征l、人脸特征f、手势特征h分别进行两两组合得到3种双模态信息,将3种双模态信息通过共享的双向LSTM网络层,获得双模态之间的动态交互作用信息,将经过共享的双向LSTM网络层向量拼接得到的双模态组合表示如下:
S33、将语音情感特征l、人脸特征f、手势特征h通过共享的双向LSTM网络层,分别获得3种模态之间的动态交互作用信息,其中,语音情感特征l经过共享的双向LSTM网络层的语音情感表示为人脸特征f经过共享的双向LSTM网络层的人脸表示为手势特征h经过共享的双向LSTM网络层的手势表示
S34、将私有的双向LSTM网络层与共享的双向LSTM网络层获得的模态信息融合到一起,通过向量拼接操作,分别获得语音情感模态信息、人脸模态信息以及手势模态信息的表示为:
S35、将语音情感模态信息、人脸模态信息以及手势模态信息进行向量拼接,获得语音情感模态、人脸模态以及手势模态的三模态融合特征表示:
进一步地,所述的步骤S4过程如下:
S41、通过随机抽样采集人对多种模态信息的情绪识别数据,通过对该数据进行标注,获得多模态情绪识别的类人化识别数据集;
其中,所述的人对多种模态信息的情绪识别数据包括多模态信息特征矩阵F和情绪结果矩阵E,其中,多模态信息特征矩阵F和情绪结果矩阵E的定义分别如下:
将多模态信息特征矩阵F和情绪结果矩阵E合并得到输入矩阵Si:
样本数据经过标注后导入输出矩阵So:
其中,Fi,i=0,1,2…n为多模态信息的完整融合特征,Ei,i=0,1,2…n为情绪状态样本数据,Ci,i=0,1,2…n为交互模式输出标注数据,下标i代表第i个样本数据,n为样本容量;
S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识别数据集训练为一系列CART树,其过程为:
设置CART树的数量和初始权重;
导入一组类人化识别数据集,根据初始权重产生一棵CART树,然后逐渐迭代,每次迭代过程中增加一棵CART树,逐渐形成众多树模型集成的强评估器,导入多组类人化识别数据集,采用boosting式集成学习算法,对权重进行优化,得到基于多模态融合特征的情绪识别网络初步框架;
S43、记录下第n次交互时的情绪识别数据Tn,结合前n-1次情绪识别的历史数据T1~Tn-1,采取非线性插值的方法,拟合出情绪历史状态曲线;
S44、对于多模态融合特征的情绪识别网络,使其结合情绪历史状态曲线上各点的情绪识别数据,再次使用XGBOOST学习算法重新训练,获得结合多模态特征和情绪历史状态的情绪识别网络;其中,所述的情绪识别网络为三层卷积神经网络,使用3个5x5的卷积核过滤器进行卷积,情绪识别网络的输入为语音情感模态、人脸模态以及手势模态的三模态融合特征,情绪识别网络的输出为情绪识别结果。
进一步地,所述的步骤S5过程如下:
将第n次交互时的情绪识别数据Tn反馈给情绪历史状态,拟合出新的情绪历史状态曲线;将对话内容反馈给对话记忆网络,对话记忆网络重新进行权重处理,实现对话记忆网络的优化,通过此次交互实现数据集更新和网络优化,实现自学习功能。
进一步地,所述的步骤S5过程如下:
S61、将多模态特征输入到经过训练的情绪识别网络,获取情绪识别数据,选择交互模式;
S62、在相应交互模式下,将对话内容输入到对话记忆网络,抽取对话记忆,获得交互应答;其中,所述的对话记忆网络包括输入编码层、记忆更新层、记忆卡、输出层、应答层,分别说明如下:
输入编码层I:输入为文本,该层的输入即整个对话记忆网络的输入,输出为网络中内在向量,该层的输出作为记忆更新层的输入;
记忆更新层G:输入为网络中内在向量,输出为根据内在向量更新后的对话记忆,该层的输出作为记忆卡的输入;
记忆卡M:用于存储对话记忆,记忆更新层可对其进行读、写操作,即数据的双向传输,该层的输出作为输出层的输入;
输出层O:输入为记忆卡中读取的对话记忆,输出为结合特定问题后给出的应答向量,该层的输出作为应答层的输入;
应答层R:输入为应答向量,输出为应答向量对应的文本格式,该层的输出即整个对话记忆网络的输出。
进一步地,所述的多模态情绪识别的类人化识别数据集包括6种不同的情绪,分别是:愤怒、恐惧、厌恶、悲伤、高兴和惊讶。
本发明相对于现有技术具有如下的优点及效果:
1、本发明能够采集非接触的三种模态信息,并综合考虑单模态的内部信息和多模态的交互作用信息,依据多模态的融合特征进行情绪识别出多种情绪。
2、本发明中交互决策根据用户的情绪产生,结合情绪识别结果和情绪历史变化调整对应的情绪交互模式,使得能够高效识别用户的情绪并针对不同情绪给予不同的响应,达到满足用户特定情感需求的目的。
3、本发明根据对话记忆网络产生交互应答,能够使交互有上下文的连贯性,提升交互体验。
4、本发明对情绪状态曲线和对话记忆网络进行实时优化和动态调整,使得能够在对话时提取对话内容和情绪向量进行反馈,具有类人化的自学习和自适应能力。
附图说明
图1是本发明中公开的基于多模态识别的自学习情感交互方法的步骤流程图;
图2是本发明实施例中技术实施路线框图;
图3是本发明实施例中XGBOOST的实施结构图;
图4是本发明实施例中多模态特征融合网络结构图;
图5是本发明实施例中对话记忆网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例具体公开了一种基于多模态识别的自学习情感交互方法,如附图1所示,包括以下步骤:
S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手势信息,如附图2左半部分所示,用到的技术有人脸识别、语音识别和手势识别。人脸识别将人脸图像信号转化为人脸图像信息,语音识别从语音信号提取出语音信息,手势识别将手势图像信号转化为手势信息。
S2、将人脸图像信息、语音信息和手势信息通过多层卷积神经网络处理,如图2右半部分所示,通过情绪分析技术、并在NLP的辅助处理下得到语音情感特征l、人脸特征f、手势特征h,记N={l,f,h},其中,N是语言情感特征l、人脸特征f、手势特征h信息的集合。
该实施例中步骤S2过程如下:
S21、对采集的语音信息,基于隐马尔可夫模型(HMM),提取语音Mel滤波器组倒谱特征(MFCC),包括短时能量、共振峰、子带能量的短时特征,得到语言情感特征l;
S22、对采集的人脸信息,输入到多层卷积神经网络,用6个5x5的卷积核过滤器进行卷积,得到人脸特征f;
S23、对采集的手势信息,基于手势的Hu矩以及指尖数,输入到BP神经网络,得到手势特征h。
S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向LSTM网络层,得到单模态信息和多模态交互信息,根据单模态信息和多模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特征,如附图4所示;
该实施例中,步骤S3过程如下:
S32、将语音情感特征l、人脸特征f、手势特征h分别进行两两组合得到3种双模态信息,将3种双模态信息通过共享的双向LSTM网络层,获得双模态之间的动态交互作用信息,将经过共享的双向LSTM网络层向量拼接得到的双模态组合表示如下:
S33、将语音情感特征l、人脸特征f、手势特征h通过共享的双向LSTM网络层,分别获得3种模态之间的动态交互作用信息,其中,语音情感特征l经过共享的双向LSTM网络层的语音情感表示为人脸特征f经过共享的双向LSTM网络层的人脸表示为手势特征h经过共享的双向LSTM网络层的手势表示
S34、将私有的双向LSTM网络层与共享的双向LSTM网络层获得的模态信息融合到一起,通过向量拼接操作,分别获得语音情感模态信息、人脸模态信息以及手势模态信息的表示为:
S35、将语音情感模态信息、人脸模态信息以及手势模态信息进行向量拼接,获得语音情感模态、人脸模态以及手势模态的三模态融合特征表示:
将多种模态信息分别通过私有的双向LSTM网络层和共享的双向LSTM网络层,能够得到单个模态的内部信息和多个模态的交互信息,综合考虑了多模态联合对交互情绪的影响,能够准确捕捉语言、视觉和声学行为对情绪表达的影响,显著提高了情绪识别的性能。
S4、基于XGBOOST分类算法,结合融合特征和历史情感曲线预测用户情绪,选择交互模式;
该实施例中,步骤S4过程如下:
S41、通过随机抽样采集人对多种模态信息的情绪识别数据,通过对该数据进行标注,获得多模态情绪识别的类人化识别数据集。
人的情绪识别数据包括多模态信息特征矩阵F和情绪结果矩阵E。其中,多模态信息特征矩阵F和情绪结果矩阵E的定义分别如下:
将多模态信息特征矩阵F和情绪结果矩阵E合并得到输入矩阵Si:
样本数据经过标注后导入输出矩阵So:
其中,Fiii=0,1,2…n)为多模态信息的完整融合特征,Eiii=0,1,2…n)为情绪状态样本数据,Ciii=0,1,2…n)为交互模式输出标注数据,下标i代表第i个样本数据,n为样本容量。
获得的多模态情绪识别的类人化识别数据集包括6种不同的情绪,分别是:愤怒、恐惧、厌恶、悲伤、高兴和惊讶。
S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识别数据集训练为一系列CART树,如附图3所示,其过程为:
设置CART树的数量和初始权重;
导入一组类人化识别数据集,根据初始权重产生一棵CART树,然后逐渐迭代,每次迭代过程中增加一棵CART树,逐渐形成众多树模型集成的强评估器。导入多组类人化识别数据集,采用boosting式集成学习算法,对权重进行优化,得到基于多模态融合特征的情绪识别网络初步框架。
其中,CART是一棵二叉树,每一次分裂会产生两个子节点。
所述的boosting式集成学习算法,过程如下:
通过加法模型将类人化识别数据集中的数据进行线性组合;
进行多轮训练,每一轮训练都提升那些错误率小的数据权重,同时降低错误率高的数据权重;
在每一轮开始时改变类人化识别数据集的权值,通过提高那些在前一轮被分类器错误分类数据的权值,减小前一轮正确分类数据的权值,来使得分类器达到较好的分类效果。
S43、依据情感学的相关理论,考虑人心理变化的时序效应和时间积累效应,记录下第n次交互时的情绪识别数据Tn,结合前n-1次情绪识别的历史数据T1~Tn-1,采取非线性插值的方法,拟合出情绪历史状态曲线。
S44、对于多模态融合特征的情绪识别网络,使其结合情绪历史状态曲线上各点的情绪识别数据,再次使用XGBOOST学习算法重新训练,获得结合多模态特征和情绪历史状态的情绪识别网络。
其中,情绪识别网络结构如下:
输入:语音情感模态、人脸模态以及手势模态的三模态融合特征
结构:三层卷积神经网络,使用3个5x5的卷积核过滤器进行卷积输出:情绪识别结果
S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸和手势信号,并分别提取语音情感特征l、人脸特征f、手势特征h,得到情绪状态曲线反馈,并以此进行对话记忆网络优化。
该实施例中,步骤S5过程如下:
将第n次交互时的情绪识别数据Tn反馈给历史情绪状态,拟合出新的情绪历史状态曲线;将对话内容反馈给对话记忆网络,I层对对话内容进行编码,G层将其插入到记忆卡M中,对M的内容进行权重处理,实现对话记忆网络的优化。
通过在真实场景下的人机对话交互中不断重复步骤S1到步骤S6,智能终端能够记录用户的交互情绪和对话内容,实现对情绪状态曲线的拟合和对话记忆网络的优化,从而使其具有自学习的能力。
通过对真实场景交互数据的自学习,该方法的情绪识别网络和对话记忆网络更接近于自然人的交互思维,使得交互过程更加自然化,能够针对不同交互场景和交互者的不同情绪实现类人化交互,从而使其具有自适应的能力。
S6、在相应交互模式下,通过对话记忆网络给出交互应答;
该实施例中,步骤S6过程如下:
S61、将多模态特征输入到训练好的情绪识别网络,获得情绪识别结果C,选择交互模式。
S62、对话记忆网络的构建如下:
记忆模型包括一系列记忆单元,由多个数组构成,每个元素保存一句话的记忆。记忆网络结构如附图5:
该网络包括输入编码层、记忆更新层、记忆卡、输出层、应答层,分别说明如下:
输入编码层I:输入为文本,该层的输入即整个对话记忆网络的输入,输出为网络中内在向量,该层的输出作为记忆更新层的输入;
记忆更新层G:输入为网络中内在向量,输出为根据内在向量更新后的对话记忆,该层的输出作为记忆卡的输入;
记忆卡M:用于存储对话记忆,记忆更新层可对其进行读、写操作,即数据的双向传输,该层的输出作为输出层的输入;
输出层O:输入为记忆卡中读取的对话记忆,输出为结合特定问题后给出的应答向量,该层的输出作为应答层的输入;
应答层R:输入为应答向量,输出为应答向量对应的文本格式,该层的输出即整个对话记忆网络的输出。
S63、在跟据情绪识别结果的交互模式C下,将用户对话内容输入到记忆网络,输入层I将其转化为一个频率的向量空间模型。G把对话文本的向量空间模型插到记忆卡M中,将最合适的k个支撑记忆挑出,返回一个长度为k的数组,R层将输出向量编码生成交互应答。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (2)
1.一种基于多模态识别的自学习情感交互方法,其特征在于,所述的自学习情感交互方法包括以下步骤:
S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手势信息;
S2、提取语音、人脸和手势信号特征,初步得到语音情感特征l、人脸特征f、手势特征h,记N={l,f,h},其中,N是语言情感特征l、人脸特征f、手势特征h信息的集合;
S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向LSTM网络层,得到单模态信息和多模态交互信息,根据单模态信息和多模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特征;
S4、基于XGBOOST学习算法,结合多模态融合特征和情绪历史状态曲线预测用户情绪,选择交互模式;
S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸和手势信号,并分别提取语音情感特征l、人脸特征f、手势特征h,得到情绪状态曲线反馈,并以此进行对话记忆网络优化;
S6、在相应交互模式下,通过优化后的对话记忆网络给出交互应答;
其中,所述的步骤S2过程如下:
S21、对采集的语音信息,基于隐马尔可夫模型,提取语音Mel滤波器组倒谱特征,包括短时能量、共振峰、子带能量的短时特征,得到语言情感特征l;
S22、对采集的人脸信息,输入到多层卷积神经网络,用6个5x5的卷积核过滤器进行卷积,得到人脸特征f;
S23、对采集的手势信息,基于手势的Hu矩以及指尖数,输入到BP神经网络,得到手势特征h;
其中,所述的步骤S3过程如下:
S32、将语音情感特征l、人脸特征f、手势特征h分别进行两两组合得到3种双模态信息,将3种双模态信息通过共享的双向LSTM网络层,获得双模态之间的动态交互作用信息,将经过共享的双向LSTM网络层向量拼接得到的双模态组合表示如下:
S33、将语音情感特征l、人脸特征f、手势特征h通过共享的双向LSTM网络层,分别获得3种模态之间的动态交互作用信息,其中,语音情感特征l经过共享的双向LSTM网络层的语音情感表示为人脸特征f经过共享的双向LSTM网络层的人脸表示为手势特征h经过共享的双向LSTM网络层的手势表示
S34、将私有的双向LSTM网络层与共享的双向LSTM网络层获得的模态信息融合到一起,通过向量拼接操作,分别获得语音情感模态信息、人脸模态信息以及手势模态信息的表示为:
S35、将语音情感模态信息、人脸模态信息以及手势模态信息进行向量拼接,获得语音情感模态、人脸模态以及手势模态的三模态融合特征表示:
其中,⊕表示向量拼接;
其中,所述的步骤S4过程如下:
S41、通过随机抽样采集人对多种模态信息的情绪识别数据,通过对该数据进行标注,获得多模态情绪识别的类人化识别数据集;
其中,所述的人对多种模态信息的情绪识别数据包括多模态信息特征矩阵F和情绪结果矩阵E,其中,多模态信息特征矩阵F和情绪结果矩阵E的定义分别如下:
将多模态信息特征矩阵F和情绪结果矩阵E合并得到输入矩阵Si:
样本数据经过标注后导入输出矩阵So:
其中,Fi,i=0,1,2…n为多模态信息的完整融合特征,Ei,i=0,1,2…n为情绪状态样本数据,Ci,i=0,1,2…n为交互模式输出标注数据,下标i代表第i个样本数据,n为样本容量;
S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识别数据集训练为一系列CART树,其过程为:
设置CART树的数量和初始权重;
导入一组类人化识别数据集,根据初始权重产生一棵CART树,然后逐渐迭代,每次迭代过程中增加一棵CART树,逐渐形成众多树模型集成的强评估器,导入多组类人化识别数据集,采用boosting式集成学习算法,对权重进行优化,得到基于多模态融合特征的情绪识别网络初步框架;
S43、记录下第n次交互时的情绪识别数据Tn,结合前n-1次情绪识别的历史数据T1~Tn-1,采取非线性插值的方法,拟合出情绪历史状态曲线;
S44、对于多模态融合特征的情绪识别网络,使其结合情绪历史状态曲线上各点的情绪识别数据,再次使用XGBOOST学习算法重新训练,获得结合多模态特征和情绪历史状态的情绪识别网络;其中,所述的情绪识别网络为三层卷积神经网络,使用3个5x5的卷积核过滤器进行卷积,情绪识别网络的输入为语音情感模态、人脸模态以及手势模态的三模态融合特征,情绪识别网络的输出为情绪识别结果;
其中,所述的步骤S5过程如下:
将第n次交互时的情绪识别数据Tn反馈给情绪历史状态,拟合出新的情绪历史状态曲线;将对话内容反馈给对话记忆网络,对话记忆网络重新进行权重处理,实现对话记忆网络的优化,通过此次交互实现数据集更新和网络优化,实现自学习功能;
其中,所述的步骤S5过程如下:
S61、将多模态特征输入到经过训练的情绪识别网络,获取情绪识别数据,选择交互模式;
S62、在相应交互模式下,将对话内容输入到对话记忆网络,抽取对话记忆,获得交互应答;其中,所述的对话记忆网络包括输入编码层、记忆更新层、记忆卡、输出层、应答层,分别说明如下:
输入编码层I:输入为文本,该层的输入即整个对话记忆网络的输入,输出为网络中内在向量,该层的输出作为记忆更新层的输入;
记忆更新层G:输入为网络中内在向量,输出为根据内在向量更新后的对话记忆,该层的输出作为记忆卡的输入;
记忆卡M:用于存储对话记忆,记忆更新层可对其进行读、写操作,即数据的双向传输,该层的输出作为输出层的输入;
输出层O:输入为记忆卡中读取的对话记忆,输出为结合特定问题后给出的应答向量,该层的输出作为应答层的输入;
应答层R:输入为应答向量,输出为应答向量对应的文本格式,该层的输出即整个对话记忆网络的输出。
2.根据权利要求1所述的一种基于多模态识别的自学习情感交互方法,其特征在于,所述的多模态情绪识别的类人化识别数据集包括6种不同的情绪,分别是:愤怒、恐惧、厌恶、悲伤、高兴和惊讶。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973218.0A CN112083806B (zh) | 2020-09-16 | 2020-09-16 | 一种基于多模态识别的自学习情感交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973218.0A CN112083806B (zh) | 2020-09-16 | 2020-09-16 | 一种基于多模态识别的自学习情感交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112083806A CN112083806A (zh) | 2020-12-15 |
CN112083806B true CN112083806B (zh) | 2021-10-26 |
Family
ID=73737139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010973218.0A Active CN112083806B (zh) | 2020-09-16 | 2020-09-16 | 一种基于多模态识别的自学习情感交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112083806B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927681B (zh) * | 2021-02-10 | 2023-07-21 | 华南师范大学 | 因人而异地识别语音的人工智能心理机器人和方法 |
WO2022234577A1 (en) * | 2021-05-04 | 2022-11-10 | Ramot At Tel-Aviv University Ltd. | Content-driven virtual agent facilitator for online group activity |
CN113642446A (zh) * | 2021-08-06 | 2021-11-12 | 湖南检信智能科技有限公司 | 一种基于人脸动态情绪识别的检测方法和装置 |
CN115429272B (zh) * | 2022-09-16 | 2024-04-30 | 济南大学 | 基于多模态生理信号的心理健康状态评估方法及系统 |
CN115545960B (zh) * | 2022-12-01 | 2023-06-30 | 江苏联弘信科技发展有限公司 | 一种电子信息数据交互系统及方法 |
CN116039653B (zh) * | 2023-03-31 | 2023-07-04 | 小米汽车科技有限公司 | 状态识别方法、装置、车辆及存储介质 |
CN117932041B (zh) * | 2024-03-21 | 2024-06-11 | 南京信息工程大学 | 基于思维链推理的情绪支持对话生成方法、系统及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832663A (zh) * | 2017-09-30 | 2018-03-23 | 天津大学 | 一种基于量子理论的多模态情感分析方法 |
CN110196930A (zh) * | 2019-05-22 | 2019-09-03 | 山东大学 | 一种多模态客服自动回复方法及系统 |
CN110909147A (zh) * | 2019-12-02 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 一种训练排序结果选择模型输出标准问法的方法和系统 |
CN111159412A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 分类方法、装置、电子设备及可读存储介质 |
CN111368609A (zh) * | 2018-12-26 | 2020-07-03 | 深圳Tcl新技术有限公司 | 基于情绪引擎技术的语音交互方法、智能终端及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9123035B2 (en) * | 2011-04-22 | 2015-09-01 | Angel A. Penilla | Electric vehicle (EV) range extending charge systems, distributed networks of charge kiosks, and charge locating mobile apps |
CN106919251A (zh) * | 2017-01-09 | 2017-07-04 | 重庆邮电大学 | 一种基于多模态情感识别的虚拟学习环境自然交互方法 |
CN106956271B (zh) * | 2017-02-27 | 2019-11-05 | 华为技术有限公司 | 预测情感状态的方法和机器人 |
US11222632B2 (en) * | 2017-12-29 | 2022-01-11 | DMAI, Inc. | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs |
CN108845986A (zh) * | 2018-05-30 | 2018-11-20 | 中兴通讯股份有限公司 | 一种情感分析方法、设备及系统、计算机可读存储介质 |
CN108899050B (zh) * | 2018-06-14 | 2020-10-02 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的语音信号分析子系统 |
CN109460752B (zh) * | 2019-01-10 | 2020-10-16 | 广东乐心医疗电子股份有限公司 | 一种情绪分析方法、装置、电子设备及存储介质 |
KR102221513B1 (ko) * | 2019-02-28 | 2021-03-03 | 전남대학교산학협력단 | 음성 감정 인식 방법 및 시스템 |
CN110363074B (zh) * | 2019-06-03 | 2021-03-30 | 华南理工大学 | 一种针对复杂抽象化事物的类人化识别交互方法 |
CN111401458A (zh) * | 2020-03-23 | 2020-07-10 | 清华大学 | 一种基于深度强化学习的多模型目标状态预测方法及系统 |
CN111651609A (zh) * | 2020-04-24 | 2020-09-11 | 中国电力科学研究院有限公司 | 一种融合知识图谱和情感监督的多轮对话方法及系统 |
-
2020
- 2020-09-16 CN CN202010973218.0A patent/CN112083806B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832663A (zh) * | 2017-09-30 | 2018-03-23 | 天津大学 | 一种基于量子理论的多模态情感分析方法 |
CN111368609A (zh) * | 2018-12-26 | 2020-07-03 | 深圳Tcl新技术有限公司 | 基于情绪引擎技术的语音交互方法、智能终端及存储介质 |
CN110196930A (zh) * | 2019-05-22 | 2019-09-03 | 山东大学 | 一种多模态客服自动回复方法及系统 |
CN110909147A (zh) * | 2019-12-02 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 一种训练排序结果选择模型输出标准问法的方法和系统 |
CN111159412A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 分类方法、装置、电子设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112083806A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112083806B (zh) | 一种基于多模态识别的自学习情感交互方法 | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
Latif et al. | Variational autoencoders for learning latent representations of speech emotion: A preliminary study | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN113408385B (zh) | 一种音视频多模态情感分类方法及系统 | |
Noda et al. | Audio-visual speech recognition using deep learning | |
CN110164476B (zh) | 一种基于多输出特征融合的blstm的语音情感识别方法 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN111898670B (zh) | 多模态情感识别方法、装置、设备及存储介质 | |
CN112466326A (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
Deng et al. | Foundations and trends in signal processing: Deep learning–methods and applications | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
KR102541660B1 (ko) | 음성 신호에 기반한 감정 인식 장치 및 방법 | |
Zhang et al. | Multi-head attention fusion networks for multi-modal speech emotion recognition | |
CN112184859B (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN112214585A (zh) | 回复消息生成方法、系统、计算机设备及存储介质 | |
Verkholyak et al. | Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification | |
Zhang et al. | Multi-modal emotion recognition based on deep learning in speech, video and text | |
Kadyrov et al. | Speaker recognition from spectrogram images | |
CN116090474A (zh) | 对话情绪分析方法、装置和计算机可读存储介质 | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN110363074B (zh) | 一种针对复杂抽象化事物的类人化识别交互方法 | |
Nanduri et al. | A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Zhuo Inventor after: Deng Xiaoyan Inventor after: Pan Wenhao Inventor after: Pan Yuecheng Inventor after: Cai Dianlun Inventor before: Pan Yuecheng Inventor before: Liu Zhuo Inventor before: Pan Wenhao Inventor before: Deng Xiaoyan Inventor before: Cai Dianlun |
|
GR01 | Patent grant | ||
GR01 | Patent grant |