CN112083806A - 一种基于多模态识别的自学习情感交互方法 - Google Patents

一种基于多模态识别的自学习情感交互方法 Download PDF

Info

Publication number
CN112083806A
CN112083806A CN202010973218.0A CN202010973218A CN112083806A CN 112083806 A CN112083806 A CN 112083806A CN 202010973218 A CN202010973218 A CN 202010973218A CN 112083806 A CN112083806 A CN 112083806A
Authority
CN
China
Prior art keywords
emotion
modal
layer
information
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010973218.0A
Other languages
English (en)
Other versions
CN112083806B (zh
Inventor
潘粤成
刘卓
潘文豪
邓晓燕
蔡典仑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010973218.0A priority Critical patent/CN112083806B/zh
Publication of CN112083806A publication Critical patent/CN112083806A/zh
Application granted granted Critical
Publication of CN112083806B publication Critical patent/CN112083806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态识别的自学习情感交互方法,步骤如下:非接触式通道分别采集语音、人脸和手势信号;对信号进行特征提取,得到信号初步特征;特征输入到双向LSTM层,得到单模态私有信息和多模态交互信息,根据这些信息得到融合特征;基于分类学习算法,结合多模态融合特征和历史情绪状态曲线预测用户情绪,选择交互模式;在交互模式下,根据对话记忆网络给出交互应答;最后,根据交互效果对情绪状态曲线和对话记忆网络进行反馈和优化。本发明允许操作者通过非接触式人机交互接口多通道输入信息,对多模态的融合特征综合考虑,结合情绪历史状态和对话记忆网络,完成交互任务。

Description

一种基于多模态识别的自学习情感交互方法
技术领域
本发明涉及人机交互技术领域,具体涉及一种基于多模态识别的自学 习情感交互方法。
背景技术
智能人机交互是人工智能发展的一个重要方向,随着移动互联网的发 展,对人机交互的类人化和自然性提出了更高的要求。
目前的交互技术较为单一,多为单纯的文字或语音交互,一些所谓的 多模态交互方式只是对多模态特征进行简单的加法操作,是对多个单模态 信息的单独处理,没有考虑多模态信息之间的交互作用信息,使得多个模 态之间存在歧义,不能实现完整的、无歧义的交互任务。同时,大多数的 交互方式没有考虑用户的情绪和心理的连续性和时间累积效应,也没有考 虑对话的上下文及语义的连贯性,无自适应和自学习的能力,只能对特定 的场景和意图进行交互,无法满足日益增长的交互需求。人的自然交互是 离不开情绪变化的,情绪的表达通常是通过语言、视觉和行为动作之间的 相互作用共同完成的,同时人的情感具有时变性,对话具有连续性。目前 亟待提出一种能够综合考虑多模态之间的交互作用关系,并能适应复杂多 变的场景,具有自学习和自适应能力的交互新方法。
发明内容
本发明的目的在于解决交互能力不足的缺陷,提供一种基于多模态识 别的自学习情感交互方法,该方法允许操作者通过非接触式人机交互接口 多通道输入信息,对多模态的融合特征综合考虑,结合情绪历史状态和对 话记忆网络,完成交互任务。
本发明的目的可以通过采取如下技术方案达到:
一种基于多模态识别的自学习情感交互方法,所述的自学习情感交互 方法包括以下步骤:
S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手 势信息;
S2、提取语音、人脸和手势信号特征,初步得到语音情感特征l、人脸 特征f、手势特征h,记N={l,f,h},其中,N是语言情感特征l、人脸 特征f、手势特征h信息的集合;
S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向 LSTM网络层,得到单模态信息和多模态交互信息,根据单模态信息和多 模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特 征;
S4、基于XGBOOST学习算法,结合多模态融合特征和情绪历史状态 曲线预测用户情绪,选择交互模式;
S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸 和手势信号,并分别提取语音情感特征l、人脸特征f、手势特征h,得到 情绪状态曲线反馈,并以此进行对话记忆网络优化;
S6、在相应交互模式下,通过优化后的对话记忆网络给出交互应答。
进一步地,所述的步骤S2过程如下:
S21、对采集的语音信息,基于隐马尔可夫模型,提取语音Mel滤波 器组倒谱特征,包括短时能量、共振峰、子带能量的短时特征,得到语言 情感特征l;
S22、对采集的人脸信息,输入到多层卷积神经网络,用6个5x5的卷 积核过滤器进行卷积,得到人脸特征f;
S23、对采集的手势信息,基于手势的Hu矩以及指尖数,输入到BP 神经网络,得到手势特征h。
进一步地,所述的步骤S3过程如下:
S31、将语音情感特征l、人脸特征f、手势特征h分别通过私有的双 向LSTM网络层进行编码,获得单个模态的内部变化信息,经过私有的双 向LSTM网络层向量拼接得到单模态的语音情感表示
Figure BDA0002684839460000031
人脸表示
Figure BDA0002684839460000032
和 手势表示
Figure BDA0002684839460000033
S32、将语音情感特征l、人脸特征f、手势特征h分别进行两两组合 得到3种双模态信息,将3种双模态信息通过共享的双向LSTM网络层, 获得双模态之间的动态交互作用信息,将经过共享的双向LSTM网络层向 量拼接得到的双模态组合表示如下:
a1为语音情感和人脸的双模态组合,经过共享的双向LSTM层得到的 语音情感表示
Figure BDA0002684839460000034
和人脸表示
Figure BDA0002684839460000035
a2为语音情感和手势的双模态组合,经过共享的双向LSTM层得到的 语音情感表示
Figure BDA0002684839460000036
和手势表示
Figure BDA0002684839460000037
a3为人脸和手势的双模态组合,经过共享的双向LSTM层得到的人脸 表示
Figure BDA0002684839460000038
和手势表示
Figure BDA0002684839460000039
S33、将语音情感特征l、人脸特征f、手势特征h通过共享的双向LSTM 网络层,分别获得3种模态之间的动态交互作用信息,其中,语音情感特 征l经过共享的双向LSTM网络层的语音情感表示为
Figure BDA00026848394600000310
人脸特征f经过 共享的双向LSTM网络层的人脸表示为
Figure BDA00026848394600000311
手势特征h经过共享的双向 LSTM网络层的手势表示
Figure BDA00026848394600000312
S34、将私有的双向LSTM网络层与共享的双向LSTM网络层获得的 模态信息融合到一起,通过向量拼接操作,分别获得语音情感模态信息、 人脸模态信息以及手势模态信息的表示为:
Figure BDA00026848394600000313
Figure BDA0002684839460000041
Figure BDA0002684839460000042
S35、将语音情感模态信息、人脸模态信息以及手势模态信息进行向 量拼接,获得语音情感模态、人脸模态以及手势模态的三模态融合特征 表示:
Figure BDA0002684839460000043
其中,
Figure BDA0002684839460000044
表示向量拼接。
进一步地,所述的步骤S4过程如下:
S41、通过随机抽样采集人对多种模态信息的情绪识别数据,通过对该 数据进行标注,获得多模态情绪识别的类人化识别数据集;
其中,所述的人对多种模态信息的情绪识别数据包括多模态信息特征 矩阵F和情绪结果矩阵E,其中,多模态信息特征矩阵F和情绪结果矩阵E的 定义分别如下:
Figure BDA0002684839460000045
将多模态信息特征矩阵F和情绪结果矩阵E合并得到输入矩阵Si
Figure BDA0002684839460000046
样本数据经过标注后导入输出矩阵So
Figure BDA0002684839460000047
其中,Fi,i=0,1,2…n为多模态信息的完整融合特征,Ei,i=0,1,2…n 为情绪状态样本数据,Ci,i=0,1,2…n为交互模式输出标注数据,下标i 代表第i个样本数据,n为样本容量;
S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识 别数据集训练为一系列CART树,其过程为:
设置CART树的数量和初始权重;
导入一组类人化识别数据集,根据初始权重产生一棵CART树,然后 逐渐迭代,每次迭代过程中增加一棵CART树,逐渐形成众多树模型集成 的强评估器,导入多组类人化识别数据集,采用boosting式集成学习算法, 对权重进行优化,得到基于多模态融合特征的情绪识别网络初步框架;
S43、记录下第n次交互时的情绪识别数据Tn,结合前n-1次情绪识别 的历史数据T1~Tn-1,采取非线性插值的方法,拟合出情绪历史状态曲线;
S44、对于多模态融合特征的情绪识别网络,使其结合情绪历史状态曲 线上各点的情绪识别数据,再次使用XGBOOST学习算法重新训练,获得 结合多模态特征和情绪历史状态的情绪识别网络;其中,所述的情绪识别 网络为三层卷积神经网络,使用3个5x5的卷积核过滤器进行卷积,情绪 识别网络的输入为语音情感模态、人脸模态以及手势模态的三模态融合特 征,情绪识别网络的输出为情绪识别结果。
进一步地,所述的步骤S5过程如下:
将第n次交互时的情绪识别数据Tn反馈给情绪历史状态,拟合出新的 情绪历史状态曲线;将对话内容反馈给对话记忆网络,对话记忆网络重新 进行权重处理,实现对话记忆网络的优化,通过此次交互实现数据集更新 和网络优化,实现自学习功能。
进一步地,所述的步骤S5过程如下:
S61、将多模态特征输入到经过训练的情绪识别网络,获取情绪识别数 据,选择交互模式;
S62、在相应交互模式下,将对话内容输入到对话记忆网络,抽取对话 记忆,获得交互应答;其中,所述的对话记忆网络包括输入编码层、记忆 更新层、记忆卡、输出层、应答层,分别说明如下:
输入编码层I:输入为文本,该层的输入即整个对话记忆网络的输入, 输出为网络中内在向量,该层的输出作为记忆更新层的输入;
记忆更新层G:输入为网络中内在向量,输出为根据内在向量更新后 的对话记忆,该层的输出作为记忆卡的输入;
记忆卡M:用于存储对话记忆,记忆更新层可对其进行读、写操作, 即数据的双向传输,该层的输出作为输出层的输入;
输出层O:输入为记忆卡中读取的对话记忆,输出为结合特定问题后 给出的应答向量,该层的输出作为应答层的输入;
应答层R:输入为应答向量,输出为应答向量对应的文本格式,该层 的输出即整个对话记忆网络的输出。
进一步地,所述的多模态情绪识别的类人化识别数据集包括6种不同 的情绪,分别是:愤怒、恐惧、厌恶、悲伤、高兴和惊讶。
本发明相对于现有技术具有如下的优点及效果:
1、本发明能够采集非接触的三种模态信息,并综合考虑单模态的内部 信息和多模态的交互作用信息,依据多模态的融合特征进行情绪识别出多 种情绪。
2、本发明中交互决策根据用户的情绪产生,结合情绪识别结果和情绪 历史变化调整对应的情绪交互模式,使得能够高效识别用户的情绪并针对 不同情绪给予不同的响应,达到满足用户特定情感需求的目的。
3、本发明根据对话记忆网络产生交互应答,能够使交互有上下文的连 贯性,提升交互体验。
4、本发明对情绪状态曲线和对话记忆网络进行实时优化和动态调整, 使得能够在对话时提取对话内容和情绪向量进行反馈,具有类人化的自学 习和自适应能力。
附图说明
图1是本发明中公开的基于多模态识别的自学习情感交互方法的步骤 流程图;
图2是本发明实施例中技术实施路线框图;
图3是本发明实施例中XGBOOST的实施结构图;
图4是本发明实施例中多模态特征融合网络结构图;
图5是本发明实施例中对话记忆网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例具体公开了一种基于多模态识别的自学习情感交互方法,如 附图1所示,包括以下步骤:
S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手 势信息,如附图2左半部分所示,用到的技术有人脸识别、语音识别和手 势识别。人脸识别将人脸图像信号转化为人脸图像信息,语音识别从语音 信号提取出语音信息,手势识别将手势图像信号转化为手势信息。
S2、将人脸图像信息、语音信息和手势信息通过多层卷积神经网络处 理,如图2右半部分所示,通过情绪分析技术、并在NLP的辅助处理下得 到语音情感特征l、人脸特征f、手势特征h,记N={l,f,h},其中,N是 语言情感特征l、人脸特征f、手势特征h信息的集合。
该实施例中步骤S2过程如下:
S21、对采集的语音信息,基于隐马尔可夫模型(HMM),提取语音Mel 滤波器组倒谱特征(MFCC),包括短时能量、共振峰、子带能量的短时特 征,得到语言情感特征l;
S22、对采集的人脸信息,输入到多层卷积神经网络,用6个5x5的卷 积核过滤器进行卷积,得到人脸特征f;
S23、对采集的手势信息,基于手势的Hu矩以及指尖数,输入到BP 神经网络,得到手势特征h。
S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向 LSTM网络层,得到单模态信息和多模态交互信息,根据单模态信息和多 模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特 征,如附图4所示;
该实施例中,步骤S3过程如下:
S31、将语音情感特征l、人脸特征f、手势特征h分别通过私有的双 向LSTM网络层进行编码,获得单个模态的内部变化信息,经过私有的双 向LSTM网络层向量拼接得到单模态的语音情感表示
Figure BDA0002684839460000081
人脸表示
Figure BDA0002684839460000082
和 手势表示
Figure BDA0002684839460000083
S32、将语音情感特征l、人脸特征f、手势特征h分别进行两两组合 得到3种双模态信息,将3种双模态信息通过共享的双向LSTM网络层, 获得双模态之间的动态交互作用信息,将经过共享的双向LSTM网络层向 量拼接得到的双模态组合表示如下:
a1为语音情感和人脸的双模态组合,经过共享的双向LSTM层得到的 语音情感表示
Figure BDA0002684839460000084
和人脸表示
Figure BDA0002684839460000085
a2为语音情感和手势的双模态组合,经过共享的双向LSTM层得到的 语音情感表示
Figure BDA0002684839460000086
和手势表示
Figure BDA0002684839460000087
a3为人脸和手势的双模态组合,经过共享的双向LSTM层得到的人脸 表示
Figure BDA0002684839460000088
和手势表示
Figure BDA0002684839460000089
S33、将语音情感特征l、人脸特征f、手势特征h通过共享的双向LSTM 网络层,分别获得3种模态之间的动态交互作用信息,其中,语音情感特 征l经过共享的双向LSTM网络层的语音情感表示为
Figure BDA0002684839460000091
人脸特征f经过 共享的双向LSTM网络层的人脸表示为
Figure BDA0002684839460000092
手势特征h经过共享的双向 LSTM网络层的手势表示
Figure BDA0002684839460000093
S34、将私有的双向LSTM网络层与共享的 双向LSTM网络层获得的模态信息融合到一起,通过向量拼接操作,分别 获得语音情感模态信息、人脸模态信息以及手势模态信息的表示为:
Figure BDA0002684839460000094
Figure BDA0002684839460000095
Figure BDA0002684839460000096
S35、将语音情感模态信息、人脸模态信息以及手势模态信息进行向 量拼接,获得语音情感模态、人脸模态以及手势模态的三模态融合特征 表示:
Figure BDA0002684839460000097
其中,
Figure BDA0002684839460000098
表示向量拼接。
将多种模态信息分别通过私有的双向LSTM网络层和共享的双向 LSTM网络层,能够得到单个模态的内部信息和多个模态的交互信息,综 合考虑了多模态联合对交互情绪的影响,能够准确捕捉语言、视觉和声学 行为对情绪表达的影响,显著提高了情绪识别的性能。
S4、基于XGBOOST分类算法,结合融合特征和历史情感曲线预测用 户情绪,选择交互模式;
该实施例中,步骤S4过程如下:
S41、通过随机抽样采集人对多种模态信息的情绪识别数据,通过对该 数据进行标注,获得多模态情绪识别的类人化识别数据集。
人的情绪识别数据包括多模态信息特征矩阵F和情绪结果矩阵E。其中, 多模态信息特征矩阵F和情绪结果矩阵E的定义分别如下:
Figure BDA0002684839460000101
将多模态信息特征矩阵F和情绪结果矩阵E合并得到输入矩阵Si
Figure BDA0002684839460000102
样本数据经过标注后导入输出矩阵So
Figure BDA0002684839460000103
其中,Fi(i=0,1,2…n)为多模态信息的完整融合特征,Ei(i=0,1,2…n)为 情绪状态样本数据,Ci(i=0,1,2…n)为交互模式输出标注数据,下标i代表 第i个样本数据,n为样本容量。
获得的多模态情绪识别的类人化识别数据集包括6种不同的情绪,分 别是:愤怒、恐惧、厌恶、悲伤、高兴和惊讶。
S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识 别数据集训练为一系列CART树,如附图3所示,其过程为:
设置CART树的数量和初始权重;
导入一组类人化识别数据集,根据初始权重产生一棵CART树,然后 逐渐迭代,每次迭代过程中增加一棵CART树,逐渐形成众多树模型集成 的强评估器。导入多组类人化识别数据集,采用boosting式集成学习算法, 对权重进行优化,得到基于多模态融合特征的情绪识别网络初步框架。
其中,CART是一棵二叉树,每一次分裂会产生两个子节点。
所述的boosting式集成学习算法,过程如下:
通过加法模型将类人化识别数据集中的数据进行线性组合;
进行多轮训练,每一轮训练都提升那些错误率小的数据权重,同时降 低错误率高的数据权重;
在每一轮开始时改变类人化识别数据集的权值,通过提高那些在前一 轮被分类器错误分类数据的权值,减小前一轮正确分类数据的权值,来使 得分类器达到较好的分类效果。
S43、依据情感学的相关理论,考虑人心理变化的时序效应和时间积累 效应,记录下第n次交互时的情绪识别数据Tn,结合前n-1次情绪识别的 历史数据T1~Tn-1,采取非线性插值的方法,拟合出情绪历史状态曲线。
S44、对于多模态融合特征的情绪识别网络,使其结合情绪历史状态曲 线上各点的情绪识别数据,再次使用XGBOOST学习算法重新训练,获得 结合多模态特征和情绪历史状态的情绪识别网络。
其中,情绪识别网络结构如下:
输入:语音情感模态、人脸模态以及手势模态的三模态融合特征
结构:三层卷积神经网络,使用3个5x5的卷积核过滤器进行卷积
输出:情绪识别结果
S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸 和手势信号,并分别提取语音情感特征l、人脸特征f、手势特征h,得到 情绪状态曲线反馈,并以此进行对话记忆网络优化。
该实施例中,步骤S5过程如下:
将第n次交互时的情绪识别数据Tn反馈给历史情绪状态,拟合出新的 情绪历史状态曲线;将对话内容反馈给对话记忆网络,I层对对话内容进行 编码,G层将其插入到记忆卡M中,对M的内容进行权重处理,实现对 话记忆网络的优化。
通过在真实场景下的人机对话交互中不断重复步骤S1到步骤S6,智 能终端能够记录用户的交互情绪和对话内容,实现对情绪状态曲线的拟合 和对话记忆网络的优化,从而使其具有自学习的能力。
通过对真实场景交互数据的自学习,该方法的情绪识别网络和对话记 忆网络更接近于自然人的交互思维,使得交互过程更加自然化,能够针对 不同交互场景和交互者的不同情绪实现类人化交互,从而使其具有自适应 的能力。
S6、在相应交互模式下,通过对话记忆网络给出交互应答;
该实施例中,步骤S6过程如下:
S61、将多模态特征输入到训练好的情绪识别网络,获得情绪识别结果 C,选择交互模式。
S62、对话记忆网络的构建如下:
记忆模型包括一系列记忆单元,由多个数组构成,每个元素保存一句 话的记忆。记忆网络结构如附图5:
该网络包括输入编码层、记忆更新层、记忆卡、输出层、应答层,分 别说明如下:
输入编码层I:输入为文本,该层的输入即整个对话记忆网络的输入, 输出为网络中内在向量,该层的输出作为记忆更新层的输入;
记忆更新层G:输入为网络中内在向量,输出为根据内在向量更新后 的对话记忆,该层的输出作为记忆卡的输入;
记忆卡M:用于存储对话记忆,记忆更新层可对其进行读、写操作, 即数据的双向传输,该层的输出作为输出层的输入;
输出层O:输入为记忆卡中读取的对话记忆,输出为结合特定问题后给 出的应答向量,该层的输出作为应答层的输入;
应答层R:输入为应答向量,输出为应答向量对应的文本格式,该层 的输出即整个对话记忆网络的输出。
S63、在跟据情绪识别结果的交互模式C下,将用户对话内容输入到 记忆网络,输入层I将其转化为一个频率的向量空间模型。G把对话文本 的向量空间模型插到记忆卡M中,将最合适的k个支撑记忆挑出,返回一 个长度为k的数组,R层将输出向量编码生成交互应答。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上 述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改 变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明 的保护范围之内。

Claims (7)

1.一种基于多模态识别的自学习情感交互方法,其特征在于,所述的自学习情感交互方法包括以下步骤:
S1、利用麦克风阵列和摄像头非接触式通道分别采集语音、人脸和手势信息;
S2、提取语音、人脸和手势信号特征,初步得到语音情感特征l、人脸特征f、手势特征h,记N={l,f,h},其中,N是语言情感特征l、人脸特征f、手势特征h信息的集合;
S3、将语音情感特征l、人脸特征f、手势特征h输入到不同的双向LSTM网络层,得到单模态信息和多模态交互信息,根据单模态信息和多模态交互信息得到语音情感模态、人脸模态以及手势模态的三模态融合特征;
S4、基于XGBOOST学习算法,结合多模态融合特征和情绪历史状态曲线预测用户情绪,选择交互模式;
S5、利用麦克风阵列和摄像头非接触式通道多次分别采集语音、人脸和手势信号,并分别提取语音情感特征l、人脸特征f、手势特征h,得到情绪状态曲线反馈,并以此进行对话记忆网络优化;
S6、在相应交互模式下,通过优化后的对话记忆网络给出交互应答。
2.根据权利要求1所述的一种基于多模态识别的自学习情感交互方法,其特征在于,所述的步骤S2过程如下:
S21、对采集的语音信息,基于隐马尔可夫模型,提取语音Mel滤波器组倒谱特征,包括短时能量、共振峰、子带能量的短时特征,得到语言情感特征l;
S22、对采集的人脸信息,输入到多层卷积神经网络,用6个5x5的卷积核过滤器进行卷积,得到人脸特征f;
S23、对采集的手势信息,基于手势的Hu矩以及指尖数,输入到BP神经网络,得到手势特征h。
3.根据权利要求1所述的一种基于多模态识别的自学习情感交互方法,其特征在于,所述的步骤S3过程如下:
S31、将语音情感特征l、人脸特征f、手势特征h分别通过私有的双向LSTM网络层进行编码,获得单个模态的内部变化信息,经过私有的双向LSTM网络层向量拼接得到单模态的语音情感表示
Figure FDA0002684839450000021
人脸表示
Figure FDA0002684839450000022
和手势表示
Figure FDA0002684839450000023
S32、将语音情感特征l、人脸特征f、手势特征h分别进行两两组合得到3种双模态信息,将3种双模态信息通过共享的双向LSTM网络层,获得双模态之间的动态交互作用信息,将经过共享的双向LSTM网络层向量拼接得到的双模态组合表示如下:
a1为语音情感和人脸的双模态组合,经过共享的双向LSTM层得到的语音情感表示
Figure FDA0002684839450000024
和人脸表示
Figure FDA0002684839450000025
a2为语音情感和手势的双模态组合,经过共享的双向LSTM层得到的语音情感表示
Figure FDA0002684839450000026
和手势表示
Figure FDA0002684839450000027
a3为人脸和手势的双模态组合,经过共享的双向LSTM层得到的人脸表示
Figure FDA0002684839450000028
和手势表示
Figure FDA0002684839450000029
S33、将语音情感特征l、人脸特征f、手势特征h通过共享的双向LSTM网络层,分别获得3种模态之间的动态交互作用信息,其中,语音情感特征l经过共享的双向LSTM网络层的语音情感表示为
Figure FDA00026848394500000210
人脸特征f经过共享的双向LSTM网络层的人脸表示为
Figure FDA00026848394500000211
手势特征h经过共享的双向LSTM网络层的手势表示
Figure FDA00026848394500000212
S34、将私有的双向LSTM网络层与共享的双向LSTM网络层获得的模态信息融合到一起,通过向量拼接操作,分别获得语音情感模态信息、人脸模态信息以及手势模态信息的表示为:
Figure FDA0002684839450000031
Figure FDA0002684839450000032
Figure FDA0002684839450000033
S35、将语音情感模态信息、人脸模态信息以及手势模态信息进行向量拼接,获得语音情感模态、人脸模态以及手势模态的三模态融合特征表示:
Figure FDA0002684839450000034
其中,
Figure FDA0002684839450000035
表示向量拼接。
4.根据权利要求3所述的一种基于多模态识别的自学习情感交互方法,其特征在于,所述的步骤S4过程如下:
S41、通过随机抽样采集人对多种模态信息的情绪识别数据,通过对该数据进行标注,获得多模态情绪识别的类人化识别数据集;
其中,所述的人对多种模态信息的情绪识别数据包括多模态信息特征矩阵F和情绪结果矩阵E,其中,多模态信息特征矩阵F和情绪结果矩阵E的定义分别如下:
Figure FDA0002684839450000036
将多模态信息特征矩阵F和情绪结果矩阵E合并得到输入矩阵Si
Figure FDA0002684839450000037
样本数据经过标注后导入输出矩阵So
Figure FDA0002684839450000038
其中,Fi,i=0,1,2…n为多模态信息的完整融合特征,Ei,i=0,1,2…n为情绪状态样本数据,Ci,i=0,1,2…n为交互模式输出标注数据,下标i代表第i个样本数据,n为样本容量;
S42、使用XGBOOST学习算法将获得的多模态情绪识别的类人化识别数据集训练为一系列CART树,其过程为:
设置CART树的数量和初始权重;
导入一组类人化识别数据集,根据初始权重产生一棵CART树,然后逐渐迭代,每次迭代过程中增加一棵CART树,逐渐形成众多树模型集成的强评估器,导入多组类人化识别数据集,采用boosting式集成学习算法,对权重进行优化,得到基于多模态融合特征的情绪识别网络初步框架;
S43、记录下第n次交互时的情绪识别数据Tn,结合前n-1次情绪识别的历史数据T1~Tn-1,采取非线性插值的方法,拟合出情绪历史状态曲线;
S44、对于多模态融合特征的情绪识别网络,使其结合情绪历史状态曲线上各点的情绪识别数据,再次使用XGBOOST学习算法重新训练,获得结合多模态特征和情绪历史状态的情绪识别网络;其中,所述的情绪识别网络为三层卷积神经网络,使用3个5x5的卷积核过滤器进行卷积,情绪识别网络的输入为语音情感模态、人脸模态以及手势模态的三模态融合特征,情绪识别网络的输出为情绪识别结果。
5.根据权利要求1所述的一种基于多模态识别的自学习情感交互方法,其特征在于,所述的步骤S5过程如下:
将第n次交互时的情绪识别数据Tn反馈给情绪历史状态,拟合出新的情绪历史状态曲线;将对话内容反馈给对话记忆网络,对话记忆网络重新进行权重处理,实现对话记忆网络的优化,通过此次交互实现数据集更新和网络优化,实现自学习功能。
6.根据权利要求1所述的一种基于多模态识别的自学习情感交互方法,其特征在于,所述的步骤S5过程如下:
S61、将多模态特征输入到经过训练的情绪识别网络,获取情绪识别数据,选择交互模式;
S62、在相应交互模式下,将对话内容输入到对话记忆网络,抽取对话记忆,获得交互应答;其中,所述的对话记忆网络包括输入编码层、记忆更新层、记忆卡、输出层、应答层,分别说明如下:
输入编码层I:输入为文本,该层的输入即整个对话记忆网络的输入,输出为网络中内在向量,该层的输出作为记忆更新层的输入;
记忆更新层G:输入为网络中内在向量,输出为根据内在向量更新后的对话记忆,该层的输出作为记忆卡的输入;
记忆卡M:用于存储对话记忆,记忆更新层可对其进行读、写操作,即数据的双向传输,该层的输出作为输出层的输入;
输出层O:输入为记忆卡中读取的对话记忆,输出为结合特定问题后给出的应答向量,该层的输出作为应答层的输入;
应答层R:输入为应答向量,输出为应答向量对应的文本格式,该层的输出即整个对话记忆网络的输出。
7.根据权利要求4所述的一种基于多模态识别的自学习情感交互方法,其特征在于,所述的多模态情绪识别的类人化识别数据集包括6种不同的情绪,分别是:愤怒、恐惧、厌恶、悲伤、高兴和惊讶。
CN202010973218.0A 2020-09-16 2020-09-16 一种基于多模态识别的自学习情感交互方法 Active CN112083806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010973218.0A CN112083806B (zh) 2020-09-16 2020-09-16 一种基于多模态识别的自学习情感交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010973218.0A CN112083806B (zh) 2020-09-16 2020-09-16 一种基于多模态识别的自学习情感交互方法

Publications (2)

Publication Number Publication Date
CN112083806A true CN112083806A (zh) 2020-12-15
CN112083806B CN112083806B (zh) 2021-10-26

Family

ID=73737139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010973218.0A Active CN112083806B (zh) 2020-09-16 2020-09-16 一种基于多模态识别的自学习情感交互方法

Country Status (1)

Country Link
CN (1) CN112083806B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861726A (zh) * 2021-02-09 2021-05-28 北京工业大学 基于规则意图表决器的d-s证据理论多模态融合人机交互方法
CN112927681A (zh) * 2021-02-10 2021-06-08 华南师范大学 因人而异地识别语音的人工智能心理机器人和方法
WO2022234577A1 (en) * 2021-05-04 2022-11-10 Ramot At Tel-Aviv University Ltd. Content-driven virtual agent facilitator for online group activity
CN115429272A (zh) * 2022-09-16 2022-12-06 济南大学 基于多模态生理信号的心理健康状态评估方法及系统
CN115545960A (zh) * 2022-12-01 2022-12-30 江苏联弘信科技发展有限公司 一种电子信息数据交互系统及方法
CN116039653A (zh) * 2023-03-31 2023-05-02 小米汽车科技有限公司 状态识别方法、装置、车辆及存储介质
CN117932041A (zh) * 2024-03-21 2024-04-26 南京信息工程大学 基于思维链推理的情绪支持对话生成方法、系统及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120271723A1 (en) * 2011-04-22 2012-10-25 Penilla Angel A Electric vehicle (ev) range extending charge systems, distributed networks of charge kiosks, and charge locating mobile apps
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN107832663A (zh) * 2017-09-30 2018-03-23 天津大学 一种基于量子理论的多模态情感分析方法
CN108845986A (zh) * 2018-05-30 2018-11-20 中兴通讯股份有限公司 一种情感分析方法、设备及系统、计算机可读存储介质
CN108899050A (zh) * 2018-06-14 2018-11-27 南京云思创智信息科技有限公司 基于多模态情绪识别系统的语音信号分析子系统
CN109460752A (zh) * 2019-01-10 2019-03-12 广东乐心医疗电子股份有限公司 一种情绪分析方法、装置、电子设备及存储介质
US20190206401A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
CN110196930A (zh) * 2019-05-22 2019-09-03 山东大学 一种多模态客服自动回复方法及系统
CN110363074A (zh) * 2019-06-03 2019-10-22 华南理工大学 一种针对复杂抽象化事物的类人化识别交互方法
US20190385066A1 (en) * 2017-02-27 2019-12-19 Huawei Technologies Co., Ltd. Method for predicting emotion status and robot
CN110909147A (zh) * 2019-12-02 2020-03-24 支付宝(杭州)信息技术有限公司 一种训练排序结果选择模型输出标准问法的方法和系统
CN111159412A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 分类方法、装置、电子设备及可读存储介质
CN111368609A (zh) * 2018-12-26 2020-07-03 深圳Tcl新技术有限公司 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN111401458A (zh) * 2020-03-23 2020-07-10 清华大学 一种基于深度强化学习的多模型目标状态预测方法及系统
KR20200105589A (ko) * 2019-02-28 2020-09-08 전남대학교산학협력단 음성 감정 인식 방법 및 시스템
CN111651609A (zh) * 2020-04-24 2020-09-11 中国电力科学研究院有限公司 一种融合知识图谱和情感监督的多轮对话方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120271723A1 (en) * 2011-04-22 2012-10-25 Penilla Angel A Electric vehicle (ev) range extending charge systems, distributed networks of charge kiosks, and charge locating mobile apps
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
US20190385066A1 (en) * 2017-02-27 2019-12-19 Huawei Technologies Co., Ltd. Method for predicting emotion status and robot
CN107832663A (zh) * 2017-09-30 2018-03-23 天津大学 一种基于量子理论的多模态情感分析方法
US20190206401A1 (en) * 2017-12-29 2019-07-04 DMAI, Inc. System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
CN108845986A (zh) * 2018-05-30 2018-11-20 中兴通讯股份有限公司 一种情感分析方法、设备及系统、计算机可读存储介质
CN108899050A (zh) * 2018-06-14 2018-11-27 南京云思创智信息科技有限公司 基于多模态情绪识别系统的语音信号分析子系统
CN111368609A (zh) * 2018-12-26 2020-07-03 深圳Tcl新技术有限公司 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN109460752A (zh) * 2019-01-10 2019-03-12 广东乐心医疗电子股份有限公司 一种情绪分析方法、装置、电子设备及存储介质
KR20200105589A (ko) * 2019-02-28 2020-09-08 전남대학교산학협력단 음성 감정 인식 방법 및 시스템
CN110196930A (zh) * 2019-05-22 2019-09-03 山东大学 一种多模态客服自动回复方法及系统
CN110363074A (zh) * 2019-06-03 2019-10-22 华南理工大学 一种针对复杂抽象化事物的类人化识别交互方法
CN110909147A (zh) * 2019-12-02 2020-03-24 支付宝(杭州)信息技术有限公司 一种训练排序结果选择模型输出标准问法的方法和系统
CN111159412A (zh) * 2019-12-31 2020-05-15 腾讯科技(深圳)有限公司 分类方法、装置、电子设备及可读存储介质
CN111401458A (zh) * 2020-03-23 2020-07-10 清华大学 一种基于深度强化学习的多模型目标状态预测方法及系统
CN111651609A (zh) * 2020-04-24 2020-09-11 中国电力科学研究院有限公司 一种融合知识图谱和情感监督的多轮对话方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Y.C.PAN 等: ""Emotion-detecting Based Model Selection for Emotional Speech Recognition"", 《IEEE COMPUTATIONAL ENGINEERING IN SYSTEMS APPLICATIONS》 *
潘粤成 等: ""一种基于CNN/CTC的端到端普通话语音识别方法"", 《现代信息科技》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861726A (zh) * 2021-02-09 2021-05-28 北京工业大学 基于规则意图表决器的d-s证据理论多模态融合人机交互方法
CN112927681A (zh) * 2021-02-10 2021-06-08 华南师范大学 因人而异地识别语音的人工智能心理机器人和方法
WO2022234577A1 (en) * 2021-05-04 2022-11-10 Ramot At Tel-Aviv University Ltd. Content-driven virtual agent facilitator for online group activity
CN115429272A (zh) * 2022-09-16 2022-12-06 济南大学 基于多模态生理信号的心理健康状态评估方法及系统
CN115429272B (zh) * 2022-09-16 2024-04-30 济南大学 基于多模态生理信号的心理健康状态评估方法及系统
CN115545960A (zh) * 2022-12-01 2022-12-30 江苏联弘信科技发展有限公司 一种电子信息数据交互系统及方法
CN115545960B (zh) * 2022-12-01 2023-06-30 江苏联弘信科技发展有限公司 一种电子信息数据交互系统及方法
CN116039653A (zh) * 2023-03-31 2023-05-02 小米汽车科技有限公司 状态识别方法、装置、车辆及存储介质
CN117932041A (zh) * 2024-03-21 2024-04-26 南京信息工程大学 基于思维链推理的情绪支持对话生成方法、系统及装置

Also Published As

Publication number Publication date
CN112083806B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN112083806B (zh) 一种基于多模态识别的自学习情感交互方法
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
Delbrouck et al. A transformer-based joint-encoding for emotion recognition and sentiment analysis
CN113408385B (zh) 一种音视频多模态情感分类方法及系统
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
Noda et al. Audio-visual speech recognition using deep learning
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN110992987B (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
CN115329779B (zh) 一种多人对话情感识别方法
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN111898670B (zh) 多模态情感识别方法、装置、设备及存储介质
Rahmani et al. Audio-visual feature fusion via deep neural networks for automatic speech recognition
Deng et al. Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications
CN113421547B (zh) 一种语音处理方法及相关设备
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
KR102541660B1 (ko) 음성 신호에 기반한 감정 인식 장치 및 방법
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
Shukla et al. Does visual self-supervision improve learning of speech representations for emotion recognition?
CN114360493A (zh) 语音合成方法、装置、介质、计算机设备和程序产品
Zhang et al. Multi-modal emotion recognition based on deep learning in speech, video and text
Kadyrov et al. Speaker recognition from spectrogram images
CN116090474A (zh) 对话情绪分析方法、装置和计算机可读存储介质
Hu et al. Multiple Enhancements to LSTM for Learning Emotion-Salient Features in Speech Emotion Recognition.
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN113408503B (zh) 一种情绪识别方法、装置、计算机可读存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Zhuo

Inventor after: Deng Xiaoyan

Inventor after: Pan Wenhao

Inventor after: Pan Yuecheng

Inventor after: Cai Dianlun

Inventor before: Pan Yuecheng

Inventor before: Liu Zhuo

Inventor before: Pan Wenhao

Inventor before: Deng Xiaoyan

Inventor before: Cai Dianlun

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant