CN114995657B - 一种智能机器人的多模态融合自然交互方法、系统及介质 - Google Patents

一种智能机器人的多模态融合自然交互方法、系统及介质 Download PDF

Info

Publication number
CN114995657B
CN114995657B CN202210838251.1A CN202210838251A CN114995657B CN 114995657 B CN114995657 B CN 114995657B CN 202210838251 A CN202210838251 A CN 202210838251A CN 114995657 B CN114995657 B CN 114995657B
Authority
CN
China
Prior art keywords
interaction
target
user
robot
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210838251.1A
Other languages
English (en)
Other versions
CN114995657A (zh
Inventor
李树涛
宋启亚
孙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210838251.1A priority Critical patent/CN114995657B/zh
Publication of CN114995657A publication Critical patent/CN114995657A/zh
Application granted granted Critical
Publication of CN114995657B publication Critical patent/CN114995657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Robotics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种智能机器人的多模态融合自然交互方法、系统及介质,本发明方法包括根据音频数据、视觉数据及距离数据等多种模态交互特征进行多模态融合意图理解以确定目标交互对象的交互意愿,并执行对目标交互对象执行交互管理,包括用户状态管理、交互状态跟踪以及情感化交互决策;基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果,并针对交互反馈结果执行交互反馈结果生成并输出。本发明能够结合多种模态的用户交互特征提升意图理解、交互决策和反馈生成等环节的交互准确度,能根据个人情况和即时状态做出因人而异的类人情感化个性化交互反馈,提升机器人自然交互的用户体验。

Description

一种智能机器人的多模态融合自然交互方法、系统及介质
技术领域
本发明涉及人工智能和人机交互技术,具体涉及一种智能机器人的多模态融合自然交互方法、系统及介质。
背景技术
机器人被誉为“制造业皇冠顶端的明珠”,是衡量一个国家科技创新和高端制造业水平的重要标志,世界各国均将发展智能机器人产业上升到国家战略层面。其中服务机器人直接参与人们的日常生活,通过与人类交互获取任务进而实现服务功能,因此,人机自然交互技术是服务机器人的核心技术之一。机器人自然交互的最终目标是实现类似人与人交流的人机自然交互,让机器人理解和学习人的交流方式,从而最大程度减少用户学习和习惯培养成本,提升用户体验和服务机器人的工作效率。近年来随着语音技术取得重要的突破,以智能语音和自然语言处理技术为核心的人机对话技术广泛应用于各类服务机器人。然而在实际人与人之间交流中的感知、决策和表达均呈现出多模态的特点。人类具有视觉、听觉、触觉、嗅觉、味觉等多种模态感知能力,综合分析对方的语音、动作、表情才能理解其真实意图进而指定交互策略,并通过语言、动作、表情等不同方式进行反馈。目前服务机器人的交互系统以语音交互为主,反应用户面部表情、手体势动作的视频和深度等数据人机交互中的作用极为有限,一般仅用于人脸识别、唤醒和手势控制等辅助功能,语音和视觉信息的协同处理效率低,无法有效利用各个模态信息之间互补性。在实际的应用场景中易出现意图理解不准确、反馈表达僵硬平淡等问题,严重影响用户体验,限制了服务机器人产业的进一步发展。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种智能机器人的多模态融合自然交互方法、系统及介质,本发明旨在基于机器人获取的语音、视频和距离等多种模态的数据,在意图理解、交互决策和反馈生成等环节融合其中包含语言、情感和动作的识别结果,做出因人而异的类人情感化个性化交互反馈,以提升机器人自然交互的用户体验。
为了解决上述技术问题,本发明采用的技术方案为:
一种用于机器人的多模态融合自然交互方法,包括:
S1,获取目标交互对象的音频数据、视觉数据以及距离数据;
S2,根据从目标交互对象的音频数据、视觉数据以及距离数据中获得的多种模态的交互特征进行多模态融合意图理解,包括说话人识别以确定目标交互对象的用户ID、语言指向识别以确定目标交互对象说话指向本机器人的概率、用户指示动作识别以确定目标交互对象的动作指示目标,以及情感化意图识别以确定目标交互对象的情感状态;
S3,基于多模态融合意图理解的结果确定目标交互对象的交互意愿,并执行对目标交互对象执行交互管理,包括用户状态管理、交互状态跟踪以及情感化交互决策;
S4,基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果,并针对交互反馈结果执行交互反馈结果生成并输出,所述交互反馈结果包括语言文本、语音、动作、表情中的部分或全部。
可选地,步骤S2中说话人识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的声纹特征F w ,基于目标交互对象的视觉数据提取得到的人脸特征F i ;所述说话人识别包括:
S201,将目标交互对象的声纹特征F w 与已登记用户库的声纹特征集合F p ={F p m |m=,1,2,3,...,n}计算声纹相似性,其中F p m 表示已登记用户库中任意第m个已登记用户的声纹特征,n为已登记用户库中包含的已登记用户数量;将目标交互对象的人脸特征Fi与已登记用户库的人脸特征集合F s ={F s m |m=,1,2,3,...,n}计算人脸相似性,其中F s m 表示已登记用户库中任意第m个已登记用户的人脸特征;其中,计算声纹相似性为利用声纹特征之间的点乘注意力计算声纹相似性,且利用声纹特征之间的点乘注意力计算声纹相似性的函数表达式为:
Figure 892569DEST_PATH_IMAGE001
上式中,S p ={S p m |m=,1,2,3,...,n}表示目标交互对象的声纹特征F w 与已登记用户库的声纹特征集合F p ={F p m |m=,1,2,3,...,n}的声纹相似性集合,softmax表示归一化指数函数,d k1为矩阵Fw(F p )的维度;其中,计算人脸相似性为利用人脸特征之间的点乘注意力计算人脸相似性,且利用人脸特征之间的点乘注意力计算人脸相似性的函数表达式为:
Figure 433403DEST_PATH_IMAGE002
上式中,S c ={S c m |m=,1,2,3,...,n}表示目标交互对象的人脸特征F i 与已登记用户库的人脸特征集合F s ={F s m |m=,1,2,3,...,n}的人脸相似性集合,softmax表示归一化指数函数,d k2为矩阵Fi(F s )的维度;
S202,在声纹相似性集合S p 中选择c个最佳的声纹相似性并进行排序得到最佳声纹相似性集合S pc ={S p m |m=,1,2,3,..., c},在人脸相似性集合S c 中选择c个最佳的人脸相似性并进行排序得到最佳人脸相似性集合S cc ={S c m |m=,1,2,3,..., c};
S203,针对最佳声纹相似性集合S pc 对应的用户集合、最佳人脸相似性集合S cc 对应的用户集合进行交集运算得到共有用户集合,若共有用户集合非空,判定该交互对象为已登记用户,并则在共有用户集合能够按照声纹相似性、人脸相似性的加权求和计算得分,将得分最高的用户作为该交互对象对应的已登记用户,并记录目标交互对象的用户ID;若共有用户集合为空,则将目标交互对象的声纹特征F w 、人脸特征F i 登记到已登记用户库,并记录为该交互对象登记的用户ID。
可选地,步骤S202中选择c个最佳的声纹相似性是指选择5个最佳的声纹相似性,选择c个最佳的人脸相似性是指选择5个最佳的人脸相似性。
可选地,步骤S2中语言指向识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的语音文本,所述语言指向识别包括:将目标交互对象的语音文本输入预先训练好的语言指向识别模型得到语音文本指向本机器人的概率;所述语言指向识别模型被预先训练建立了语音文本及其指向本机器人的概率之间的映射关系。
可选地,步骤S2中用户指示动作识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的语音文本,基于目标交互对象的视觉数据提取得到的人体动作;所述用户指示动作识别包括:将语音文本作为指示性语言,将人体动作作为指示性动作,对指示性语言和指示性动作进行语言动作时间关联评估以确定性语言和指示性动作两者之间的对应关系;然后基于指示性语言及其关联的指示性动作,在预设的场景数据库的场景地图中确定对应的动作指示目标,其中场景数据库中包含由场景地图、人员名单、场景物品构成的场景知识,以及机器人位姿、目标交互对象的位姿构成的视觉信息构成。
可选地,步骤S2中情感化意图识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的语音文本,基于目标交互对象的视觉数据和距离数据提取得到的位姿特征;所述情感化意图识别包括:
S301,针对输入的目标交互对象的音频数据、视觉数据、语音文本和位姿特征,利用长短时记忆网络对进行时序建模得到上下文特征X={Af,Vf,Wf,Zf},其中利用过长短时记忆网络对进行时序建模的函数表达式为:
Af=LSTM(A)
Vf=LSTM(V)
Wf=LSTM(W)
Zf=LSTM(Z)
上式中,LSTM表示长短时记忆网络,Af、Vf、Wf以及Zf分别为语音上下文特征、视觉上下文特征、文本上下文特征以及位姿上下文特征,A为音频数据,V为视觉数据,W为语音文本,Z为位姿特征;
S302,通过前馈神经网络FFN对上下文特征X={Af,Vf ,Wf,Zf }分别进行线性变换,将其线性变换得到的输出特征投射到对应的标签类别向量空间中,并通过归一化指数函数softmax分别将各个输出特征映射为情感类别的概率分布P(Y)={Ae, Ve, We, Ze},其中Ae、,Ve、 We以及Ze分别为语音上下文特征、视觉上下文特征、文本上下文特征以及位姿上下文特征所对应的情感类别,且情感类别包括高兴、吃惊、悲伤、愤怒、厌恶、恐惧和中性七种中的部分或全部;
S303,将目标交互对象的音频数据、视觉数据、语音文本和位姿特征输入基于预先训练好的情感化意图识别模型获得对应的情感状态Me,所述情感状态Me与情感类别所包含的类型相同,所述情感化意图识别模型被预先建立了输入的音频数据、视觉数据、语音文本和位姿特征和输出的情感状态Me之间的映射关系;根据情感类别的概率分布P(Y)={Ae,Ve, We, Ze}、情感化意图识别模型输出的情感状态Me中采用投票的方式选取状态最多的情感类别作为最终确定的目标交互对象的情感状态。
可选地,步骤S3中确定用户的交互意愿包括:多模态融合意图理解得到的目标交互对象的用户ID、目标交互对象说话指向本机器人的概率、目标交互对象的动作指示目标和目标交互对象的情感状态送入到预先训练好的多模态意图理解模型,得到用户对应的交互意图;所述多模态意图理解模型被预先训练建立了多模态融合意图理解结果和用户对应的交互意图之间的映射关系。
可选地,步骤S3中的用户状态管理包括:将目标交互对象的视觉数据和距离数据输入预先训练好的用户互动意愿推断模型获得对应的互动意愿,所述用户互动意愿推断模型被预先训练建立视觉数据和距离数据与互动意愿之间的映射关系;且机器人基于状态机进行用户状态管理,所述状态机包括激活状态和监测状态,且机器人的运动执行机构仅在激活状态下通电、在监测状态下不同点,当目标交互对象的互动意愿大于设定阈值、且机器人处于监测状态时,则机器人直接从监测状态跳到激活状态并主动唤醒机器人;当用户的互动意愿小于设定阈值、且机器人当前处于激活状态时,则暂停或退出机器人的激活状态、再次进入监测状态;步骤S2中获得的多种模态的交互特征包括:基于目标交互对象的视觉数据提取得到的表情特征,以及基于目标交互对象的视觉数据和距离数据提取得到的位姿特征;步骤S3中的交互状态跟踪包括:将目标交互对象的语音文本、表情特征和位姿特征输入预先训练好的交互状态跟踪模型得到目标交互对象的所有对话状态信息,所述交互状态跟踪模型被预先训练建立了语音文本、表情特征和位姿特征以及所有对话状态信息之间的映射关系;步骤S3中的情感化交互决策包括:将目标交互对象的情感状态、交互意愿送入预先训练好的情感化交互决策模型中得到用户个性化信息,包括目标交互对象的个人信息和即时状态,所述个人信息包括目标交互对象的个人信息和即时状态,所述即时状态包括目标交互对象的动作、情感和意图中的部分或全部;所述情感化交互决策模型被预先训练建立了情感状态、交互意愿两者和对应的用户个性化信息之间的映射关系。
可选地,步骤S4中基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果包括:将情感化交互决策的结果以及机器人的拟人属性信息送入预先训练好的双边个性化交互反馈生成模型中,得到面向目标交互对象的交互反馈结果,所述机器人的拟人属性信息为赋予机器人的拟人标签,包括个人信息和即时状态。
此外,本发明还提供一种机器人,包括机器人本体,机器人本体上设有声传感器阵列、深度相机、数据采集模块、微处理器和存储器,所述有声传感器阵列、深度相机分别通过数据此埃及模块与微处理器相连,所述微处理器和存储器相连,所述微处理器被编程或配置以执行所述用于机器人的多模态融合自然交互方法的步骤。
此外,本发明还提供一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述用于机器人的多模态融合自然交互方法的步骤。
和现有机器人交互系统相比,本发明主要具有下述优点:
1、在人与机器人的交互过程中,用户动作、表情等信息对交互过程中的意图理解、分析决策和反馈生成等重要环节具有重要作用,机器人难以仅凭语音信号或语音内容准确判断识别用户的情感状态,易造成交互意图误判,进而做出不正确或不恰当的反馈,严重影响机器人自然交互性能。另外,对交互参与者的全面感知是个性化交互的基础,在交互过程中根据交互参与者的个人情况和即时状态做出因人而异的反馈,是个性化交互的关键。本发明采用多模态融合的机器人自然交互技术,基于机器人获取的语音、视频和深度等模态的数据本身及其进一步提取的多种模态数据,在意图理解、交互决策和反馈生成等环节融合其中包含的语言、情感和动作信息,做出类人的情感化个性化交互反馈,提升机器人自然交互的用户体验。
2、考虑到在复杂的场景中会存在检索误差,本发明进行说话人识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的声纹特征Fw,基于目标交互对象的视觉数据提取得到的人脸特征Fi,通过两种模态结合实现声纹和人脸双重确定并匹配,准确性更好,效果更加鲁棒。
3、本发明进行说话人识别时,计算声纹相似性为利用声纹特征之间的点乘注意力计算声纹相似性,计算人脸相似性为利用人脸特征之间的点乘注意力计算人脸相似性,相对直接采用声纹特征、人脸特征进行波形匹配的方式而言,计算效率更高。
4、本发明进行说话人识别时,包括针对最佳声纹相似性集合S pc 对应的用户集合、最佳人脸相似性集合S cc 对应的用户集合进行交集运算得到共有用户集合,若共有用户集合非空,判定该交互对象为已登记用户,并则在共有用户集合能够按照声纹相似性、人脸相似性的加权求和计算得分,将得分最高的用户作为该交互对象对应的已登记用户,并记录目标交互对象的用户ID;若共有用户集合为空,则将目标交互对象的声纹特征Fw、人脸特征Fi登记到已登记用户库,并记录为该交互对象登记的用户ID,通过两种模态下最佳相似性集合的交集运算判断是否为已登记用户,并基于在共有用户集合能够按照声纹相似性、人脸相似性的加权求和计算得分来针对多个匹配用户的情况进行筛选,使得用户的匹配更加准确,并且可以了解已登记用户的个性化信息,提高人机交互的流畅性和自然度。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2为本发明实施例中说话人识别的流程示意图。
图3为本发明实施例中语言指向识别的流程示意图。
图4为本发明实施例中用户指示动作识别的流程示意图。
图5为本发明实施例中语言动作序列匹配的流程示意图。
图6本发明实施例中情感化意图识别的流程示意图。
图7本发明实施例中确定用户的交互意愿的流程示意图。
图8本发明实施例中用户状态管理的流程示意图。
图9本发明实施例中用户状态管理时采用的状态机切换原理示意图。
图10发明实施例中交互状态跟踪的流程示意图。
图11本发明实施例中情感化交互决策的流程示意图。
图12本发明实施例中生成交互反馈结果的流程示意图。
图13本发明实施例中系统的整体结构示意图。
具体实施方式
如图1所示,本实施例用于机器人的多模态融合自然交互方法包括:
S1,获取目标交互对象的音频数据、视觉数据以及距离数据;
S2,根据从目标交互对象的音频数据、视觉数据以及距离数据中获得的多种模态的交互特征进行多模态融合意图理解,包括说话人识别以确定目标交互对象的用户ID、语言指向识别以确定目标交互对象说话指向本机器人的概率、用户指示动作识别以确定目标交互对象的动作指示目标,和情感化意图识别以确定目标交互对象的情感状态;
S3,基于多模态融合意图理解的结果确定目标交互对象的交互意愿,并执行对目标交互对象执行交互管理,包括用户状态管理、交互状态跟踪以及情感化交互决策;
S4,基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果,并针对交互反馈结果执行交互反馈结果生成并输出,交互反馈结果包括语言文本、语音、动作、表情中的部分或全部(本实施例中为全部,可根据需要采用部分)。
本实施例中,步骤S1中获取目标交互对象的音频数据、视觉数据以及距离数据时,假定场景中仅包含单一的目标交互对象,因此步骤S1包括:对原始的音频数据通过降噪后得到目标交互对象的音频数据;对原始的视觉数据进行人体图像分割提取人体图像作为目标交互对象的视觉数据,并将所提取人体图像区域的距离数据作为目标交互对象的距离数据。需要说明的是,若需要假定场景中仅包含多个的目标交互对象,则需要对原始的音频数据通过降噪后得到目标交互对象的音频数据;基于音频数据进行声源定位确定目标交互对象对应的人体图像位置,再对原始的视觉数据进行人体图像分割提取人体图像作为目标交互对象的视觉数据,并将所提取人体图像区域的距离数据作为目标交互对象的距离数据。其中,声源定位为现有声音处理技术,用于根据说话者声音到达各麦克风阵列的时间具有不同程度的延迟,通过互相关、相位差等方法进行各阵列信号之间的相对延时估计,并通过阵列本身的几何结构既可以得到声源的方向角信息,由于本实施例中仅为生源定位技术的应用,故对其实现细节在此不再详述。
作为一种可选的实施方式,基于音频数据进行声源定位后还可以针对目标交互对象的音频数据进行前端语音增强:然后利用波速形成的方法对包括目标区域的阵列的角度进行相位补偿,然后对各声源进行加权求和,将目标声源方向赋予更大的权重,通过上述方式,可提高音频数据后续处理的抗干扰能力和精确度。
本实施例中,目标交互对象的音频数据、视觉数据以及距离数据是三种基本模态的数据,其中,音频数据为通过机器人中的麦克风阵列获得用户的原始音频数据,然后对用户的音频数据进行采样和降噪(采样频率可为16K/8K),再通过脉冲编码调制将得到的音频模拟信号转化为符号化的脉冲列,得到处理后的WAV音频文件。视觉数据为通过机器人中的高帧率相机获得的视频流。距离数据为通过机器人中的深度相机获得用的视频流。将深度相机获得的距离信息变换到高帧率相机的RGB图像坐标系下,与高帧率相机得到的视频流中的RGB图像的像素点进行对应,得到具有距离信息的彩色图像;然后通过图像坐标系变换得到彩色图像中像素相对于相机的位置;最后通过机器人操作系统(ROS)中的TF变化可得到深度相机相对于机器人的位置坐标,从而得到图像中各像素点相对于机器人的距离信息。
在音频数据、视觉数据以及距离数据三种基本模态的基础上,本实施例还需要对基本模态的数据进一步进行处理提取更多模态的数据,分别包括:
1、基于目标交互对象的音频数据提取得到的语音文本;为音频数据提取得到的语音文本采用语音识别技术,可根据需要采用可行的机器学习模型。例如,本实施例中采用的方法为将用户的原始音频或处理后的WAV语音数据送到训练好的语音识别模型中(Chen X,Wu Y, Wang Z , et al. Developing Real-time Streaming Transformer Transducerfor Speech Recognition on Large-scale Dataset[C]// International Conferenceon Acoustics, Speech, and Signal Processing. IEEE, 2021.),对语音信息进行特征提取、时序建模以及相应的解码操作得到对应的语音文本。
2、基于目标交互对象的音频数据提取得到的声纹特征;需要说明的,提取声纹特征为现有技术,可以根据需要采用语音系数(例如MFCC)或者训练好的机器学习模型提取。
3、基于目标交互对象的视觉数据提取得到的人脸特征;人脸特征可根据需要采用现有的人脸检测模型,例如本实施例中具体利用RetinaFace人脸检测模型检测图片中的人脸信息,该模型使用自监督和联合监督的多任务学习方式,在各种尺度的人脸数据中执行单阶段像素级的人脸定位,并且由于轻量级设计使得模型能够在单CPU内核上实时检测;使用人脸特征点检测框架PLFD得到人68个脸关键点作为人脸特征。此外,利用人脸关键点,还可以提取相应的唇部、注视角等感兴趣区域。
4、基于目标交互对象的视觉数据和距离数据提取得到的位姿特征;提取位姿特征所采用的方法可根据需要采用所需的位姿特征识别方法,例如本实施例中采用的方法为将目标交互对象的视觉数据(具体是采用其中的人体区域图像)利用人体关键点检测框架Lightweight OpenPose进行人体姿势估计,获得18个人体关键点,并根据步骤距离数据来确定目标交互对象的交互距离,将18个人体关键点的交互距离作为目标交互对象的位姿(姿势)特征。
5、基于目标交互对象的视觉数据提取得到的表情特征。提取表情特征所采用的方法可根据需要采用所需的机器学习模型,例如本实施例中采用的方法为对将目标交互对象的视觉数据(具体是采用其中的面部图像)送入训练好的表情识别模型(Ma F, Sun B, LiS. Facial Expression Recognition with Visual Transformers and AttentionalSelective Fusion[J]. IEEE Transactions on Affective Computing, 2021.),对面部表情进行表征和分类,获得用户说话时的神态和情绪等信息作为表情特征,输出的表情特征类别共有七种,分别是高兴、吃惊、悲伤、愤怒、厌恶、恐惧和中性。
6、基于目标交互对象的视觉数据提取得到的人体动作。从视觉数据中进行动作识别得到的人体动作可根据需要采用所需的机器学习模型,例如本实施例中,采用的机器学习模型为动作识别模型(Yan S, XiongY,Lin D. Spatial Temporal GraphConvolutional Networks for Skeleton-Based Action Recognition[J]. arXivpreprint arXiv:1801.07455,2018.),该方法在获得位姿特征的基础上,基于位姿特征可进一步构造骨架序列的时空图,用多层时空图卷积(ST-GCN),逐步在图上生成更高层次的特征图,最后用标准的Softmax分类器将其分类为相应的动作类别(本实施例中为指示性动作的类别)。
本实施例中的多模态意图理解则是针对多个模态建模,挖掘各模态间信息的互补性和时序性。通过多模态技术自适应融合不同模态信息,精准识别用户的交互意图;其中用户的交互意图被解析为4个方面的意图,分别为目标说话人的识别,语言指向识别、用户行为动作指代的意图以及情感化的交互意图。其中:
如图2所示,本实施例中说话人识别包括:
S201,将目标交互对象的声纹特征F w 与已登记用户库的声纹特征集合F p ={F p m |m=,1,2,3,...,n}计算声纹相似性,其中F p m 表示已登记用户库中任意第m个已登记用户的声纹特征,n为已登记用户库中包含的已登记用户数量;将目标交互对象的人脸特征F i 与已登记用户库的人脸特征集合F s ={F s m |m=,1,2,3,...,n}计算人脸相似性,其中F s m 表示已登记用户库中任意第m个已登记用户的人脸特征;其中,计算声纹相似性为利用声纹特征之间的点乘注意力计算声纹相似性,且利用声纹特征之间的点乘注意力计算声纹相似性的函数表达式为:
Figure 656574DEST_PATH_IMAGE001
上式中,S p ={S p m |m=,1,2,3,...,n}表示目标交互对象的声纹特征F w 与已登记用户库的声纹特征集合F p ={F p m |m=,1,2,3,...,n}的声纹相似性集合,softmax表示归一化指数函数,d k1为矩阵Fw(F p )的维度;其中,计算人脸相似性为利用人脸特征之间的点乘注意力计算人脸相似性,且利用人脸特征之间的点乘注意力计算人脸相似性的函数表达式为:
Figure 252640DEST_PATH_IMAGE002
上式中,S c ={S c m |m=,1,2,3,...,n}表示目标交互对象的人脸特征F i 与已登记用户库的人脸特征集合F s ={F s m |m=,1,2,3,...,n}的人脸相似性集合,softmax表示归一化指数函数,d k2为矩阵Fi(F s )的维度;
S202,在声纹相似性集合S p 中选择c个最佳的声纹相似性并进行排序得到最佳声纹相似性集合S pc ={S p m |m=,1,2,3,..., c},在人脸相似性集合S c 中选择c个最佳的人脸相似性并进行排序得到最佳人脸相似性集合S cc ={S c m |m=,1,2,3,..., c};
S203,针对最佳声纹相似性集合S pc 对应的用户集合、最佳人脸相似性集合S cc 对应的用户集合进行交集运算得到共有用户集合,若共有用户集合非空,判定该交互对象为已登记用户,并则在共有用户集合能够按照声纹相似性、人脸相似性的加权求和计算得分,将得分最高的用户作为该交互对象对应的已登记用户,并记录目标交互对象的用户ID;若共有用户集合为空,则将目标交互对象的声纹特征F w 、人脸特征F i 登记到已登记用户库,并记录为该交互对象登记的用户ID。用户ID是用户的身份标识,与用户的交互可通过用户ID区分。
在共有用户集合能够按照声纹相似性、人脸相似性的加权求和计算得分时,两者的权重可根据经验进行设定,例如作为一种优选的实施方式,两者的权重可以均设置为0.5。需要说明的是,参数c可根据需要进行指定,例如作为一种优选的实施方式,本实施例步骤S202中选择c个最佳的声纹相似性是指选择5个最佳的声纹相似性,选择c个最佳的人脸相似性是指选择5个最佳的人脸相似性。
如图3所示,本实施例中语言指向识别包括:将目标交互对象的语音文本输入预先训练好的语言指向识别模型得到语音文本指向本机器人的概率;所述语言指向识别模型被预先训练建立了语音文本及其指向本机器人的概率之间的映射关系。在多人交互条件下,机器人往往无法判断用户所说的话是说给其它人还是机器人自己,从而造成机器人对于接收到的任何语音都进行理解与反馈,造成多人交互无法正常进行。本实施例通过语言指向识别模型来预测语音文本指向本机器人的概率,从而可明确目的交互对象的说话和本机器人之间的相关系。语言指向识别模型可根据需要采用所需的机器学习模型,例如本实施例中利用基于语言内容的语言指向识别,在已有的大量语料库的支持下,训练一个自然语言分类/回归模型(Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deepbidirectional transformers for language understanding[J]. arXiv preprintarXiv:1810.04805, 2018.),用来评估接收到的自然语言指向机器人的概率,根据语音文本及指向本机器人的概率将用户划分为未激活、待激活和激活三种等级状态,且只对处于激活状态和待激活状态的用户语言进行反馈。
在人与机器人交互场景下,用户在交互过程中指向某一个目标时,可通过用户的指示方向,判断范围内包含的目标,从与用户确认从而完成指示动作的意图理解。在人际交往过程中,人们采用指代动作配合指示性语言来表示方位、人物和物品等,人类可以很容易理解说话人的意图。如图4所示,用户指示动作识别包括:将语音文本作为指示性语言,将人体动作作为指示性动作,对指示性语言和指示性动作进行语言动作时间关联评估以确定性语言和指示性动作两者之间的对应关系;然后基于指示性语言及其关联的指示性动作,在预设的场景数据库的场景地图中确定对应的动作指示目标,其中场景数据库中包含由场景地图、人员名单、场景物品构成的场景知识,以及机器人位姿、目标交互对象的位姿构成的视觉信息构成。
需要说明的是,对指示性语言和指示性动作进行语言动作时间关联评估以确定性语言和指示性动作两者之间的对应关系可根据需要采用所需的方法,例如动态时间规整算法DTW为一种常用的方法,当语言和动作指向同一物体时,两个时序信号之间距离相近,通过动态时间规整(Keogh E J, Pazzani M J. Derivative dynamic time warping[C]//Proceedings of the 2001 SIAM international conference on data mining. Societyfor Industrial and Applied Mathematics, 2001: 1-11.)处理不同长度的信号,并计算两信号间路径,进行语言和动作指向的匹配,确定同时间段指示性语言对应的指示性动作。如图5所示,本实施例中对指示性语言和指示性动作进行语言动作时间关联评估以确定指示性语言和指示性动作两者之间的对应关系包括:将指示性语言构成的语言时间序列、指示性动作构成的动作时间序列一起作为动态时间规整算法DTW模型的输入,通过动态时间规整算法DTW可计算确定指示性语言和指示性动作两者之间语言动作匹配度,从而确定指示性语言和指示性动作两者之间的对应关系,针对每一个指示性语言可确定对应的指示性动作。然后基于指示性语言及其关联的指示性动作,即可在预设的场景数据库的场景地图中确定对应的动作指示目标,例如当指示性语言指示场景地图中的某个场景物品,而指示性动作的指示方向(例如人体手臂关键点连线的指示方向)与场景物品所在方向匹配时,则确定该场景物品为指示性语言及其关联的指示性动作双重指代的场景物品,从而可避免单一模态的指示性语言或指示性动作指代不明确的问题。
本实施例中,情感化意图识别包括:
S301,针对输入的目标交互对象的音频数据、视觉数据、语音文本和位姿特征,利用长短时记忆网络对进行时序建模得到上下文特征X={Af,Vf,Wf,Zf},其中利用过长短时记忆网络对进行时序建模的函数表达式为:
Af=LSTM(A)
Vf=LSTM(V)
Wf=LSTM(W)
Zf=LSTM(Z)
上式中,LSTM(Long Short-Term Memory)表示长短时记忆网络,Af、Vf、Wf以及Zf分别为语音上下文特征、视觉上下文特征、文本上下文特征以及位姿上下文特征,A为音频数据,V为视觉数据,W为语音文本,Z为位姿特征;需要说明的是,长短时记忆网络为现有神经网络,因此其实现的细节在此不再详细说明;
S302,通过前馈神经网络FFN对上下文特征X={Af,Vf,Wf,Zf}分别进行线性变换,将其线性变换得到的输出特征投射到对应的标签类别向量空间中,并通过归一化指数函数softmax分别将各个输出特征映射为情感类别的概率分布P(Y)={Ae, Ve, We, Ze},其中Ae、,Ve、 We以及Ze分别为语音上下文特征、视觉上下文特征、文本上下文特征以及位姿上下文特征所对应的情感类别,且情感类别包括高兴、吃惊、悲伤、愤怒、厌恶、恐惧和中性七种(可为部分或全部)。其中,情感类别的概率分布P(Y)可表示为:
P(Y)=softmax (FFN (X))
S303,如图6示,将目标交互对象的音频数据、视觉数据、语音文本和位姿特征输入基于预先训练好的情感化意图识别模型获得对应的情感状态Me,情感状态Me包括高兴、吃惊、悲伤、愤怒、厌恶、恐惧和中性七种(可为部分或全部),所述情感化意图识别模型被预先建立了输入的音频数据、视觉数据、语音文本和位姿特征和输出的情感状态Me之间的映射关系;根据情感类别的概率分布P(Y)={Ae, Ve, We, Ze}、情感化意图识别模型输出的情感状态Me中采用投票的方式选取状态最多的情感类别作为最终确定的目标交互对象的情感状态。其中,情感化意图识别模型可根据需要采用所需的机器学习模型,例如本实施例中采用的情感化意图识别模型为文献Ming-Hao Y, Jian-Hua T A O. Data fusion methodsin multimodal human computer dialog[J]. Virtual Reality & IntelligentHardware, 2019, 1(1): 21-38所记载的情感化意图识别模型。该情感化意图识别模型通过多模态信息融合的意图理解方法,构建联合注意力与记忆机制的多模情感化意图动态识别框架,使用选择性注意力机制挖掘多模态信息关键特征,通过深度记忆模块动态预测情感变化实现意图准确识别,使机器人能够感知用户的情绪和行为。本实施例通过前文的步骤S301~步骤S303实现了一种多级动态自适应融合实现意图识别的方式,通过多级动态自适应融合,充分利用了单模态信息的时序上下文信息和不同模态间的相关性、互补性,更加精准的识别了交互用户情感状态,提高机器人情感智能化。
本实施例中S3中基于多模态融合意图理解的结果确定目标交互对象的交互意愿,并执行对目标交互对象执行交互管理,包括用户状态管理、交互状态跟踪以及情感化交互决策,是通过构建的用户后台交互管理系统实现的。
如图7示,本实施例中步骤S3中确定用户的交互意愿包括:多模态融合意图理解得到的目标交互对象的用户ID、目标交互对象说话指向本机器人的概率、目标交互对象的动作指示目标和目标交互对象的情感状态送入到预先训练好的多模态意图理解模型,得到用户对应的交互意图;所述多模态意图理解模型被预先训练建立了多模态融合意图理解结果和用户对应的交互意图之间的映射关系。
如图8示,本实施例中步骤S3中的用户状态管理包括:将目标交互对象的视觉数据和距离数据输入预先训练好的用户互动意愿推断模型获得对应的互动意愿,所述用户互动意愿推断模型被预先训练建立视觉数据和距离数据与互动意愿之间的映射关系;且机器人基于状态机进行用户状态管理。用户互动意愿推断模型可根据需要采用所需的机器学习模型,例如本实施例中具体采用了文献Li K, Sun S, Zhao X, et al. Inferring userintent to interact with a public service robot using bimodal informationanalysis[J]. Advanced Robotics, 2019, 33(7-8): 369-387.所记载的用户互动意愿推断模块,对监测视野内用户的互动意愿进行评分,从而实时进行用户状态的监测和管理。
如图9示,本实施例中状态机包括激活状态和监测状态,且机器人的运动执行机构仅在激活状态下通电、在监测状态下不同点,当目标交互对象的互动意愿大于设定阈值、且机器人处于监测状态时,则机器人直接从监测状态跳到激活状态并主动唤醒机器人;当用户的互动意愿小于设定阈值、且机器人当前处于激活状态时,则暂停或退出机器人的激活状态、再次进入监测状态;
如图10,本实施例中步骤S3中的交互状态跟踪包括:将目标交互对象的语音文本、表情特征和位姿特征输入预先训练好的交互状态跟踪模型得到目标交互对象的所有对话状态信息,所述交互状态跟踪模型被预先训练建立了语音文本、表情特征和位姿特征以及所有对话状态信息之间的映射关系;可根据需要采用所需的机器学习模型,例如本实施例中具体采用了文献Ouyang Y, Chen M, Dai X, et al. Dialogue state tracking withexplicit slot connection modeling[C]//Proceedings of the 58th Annual Meetingof the Association for Computational Linguistics. 2020: 34-40.所记载的门控注意力卷积对话状态跟踪模型。将目标交互对象的语音文本、表情特征和位姿特征输入该门控注意力卷积对话状态跟踪模型,即可利用深度学习强大的语义表征和复杂映射学习能力,可直接从当前输入和对话历史中获取对话状态的所有信息。
如图11示,本实施例中步骤S3中的情感化交互决策包括:将目标交互对象的情感状态、交互意愿送入预先训练好的情感化交互决策模型中得到用户个性化信息,包括目标交互对象的个人信息和即时状态,所述个人信息包括目标交互对象的个人信息和即时状态,所述即时状态包括目标交互对象的动作、情感和意图中的部分或全部;所述情感化交互决策模型被预先训练建立了情感状态、交互意愿两者和对应的用户个性化信息之间的映射关系。可根据需要采用所需的情感化交互决策模型,例如本实施例中具体采用了文献ShiW, Qian K, Wang X, et al. How to build user simulators to train rl-baseddialog systems[J]. arXiv preprint arXiv:1909.01388, 2019.所记载的以深度强化学习为理论基础。以当前交互对象的情感状态、交互意愿为输入给予当前交互动作的情感奖励,进行人与机器人交互的过程中动态更新交互策略,并预测该动作今后可能获取的所有奖励的期望值,建立情感化交互决策机制,得到用户的个性化信息,包括用户的个人信息(年龄、性别、兴趣)和即时状态(动作、情感、意图等)。
如图12示,本实施例中步骤S4中基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果包括:将情感化交互决策的结果以及机器人的拟人属性信息送入预先训练好的双边个性化交互反馈生成模型中,得到面向目标交互对象的交互反馈结果,机器人的拟人属性信息为赋予机器人的拟人标签,包括个人信息(年龄、性别、兴趣)和即时状态(动作、情感)。本实施例中的双边个性化交互反馈生成模型具体采用文献Li B, Sun B, LiS. Bilateral Personalized Dialogue Generation with Dynamic Persona-AwareFusion[J]. arXiv e-prints, 2021: arXiv: 2106.07857.所记载的生成模型,根据人类表达的上述特点,提出了双边个性化交互反馈生成方法,充分考虑了人际交流中人类表达往往需要交互双方的个人信息(年龄、性别、兴趣)和即时状态(动作、情感),对用户和机器人的个性化信息和即时状态进行编码嵌入,动态预测反馈生成所需的个性化信息和即时状态,从生成表达的流畅性、个性化一致性和表达多样本等多个方面优化生成模型的网络参数,通过多目标协同优化使得生成模型获得更加个性化的表达,直接提升交互体验。反馈生成数据具体包括有情感、有个性、有知识的自然语言,类人的动作和表情,以及有情感的语音。需要说明的是,赋予机器人的拟人标签中,即时状态中的动作为动作、情感)为上一次情感化交互决策得到的结果,每一次进行情感化交互决策时,机器人的动作为双边个性化交互反馈生成模型作为输出的一系列固定的动作之一,例如点头、摇头、摆手和作揖等,可根据机器人的运动能力做出合适的表达形式;同理,机器人的表情为双边个性化交互反馈生成模型作为输出的一系列固定的表情之一,例如本实施例中为高兴、吃惊、悲伤、愤怒、厌恶、恐惧和中性,且默认为中性状态,可根据机器人的表达能力做出合适的表达形式,例如表情显示,必要时还可以结合动作一起来进行表示。
综上所述,本实施实例采用多模态融合的机器人自然交互技术,基于机器人获取的语音、视频和深度等数据,在意图理解、交互决策和反馈生成等环节融合其中包含的语言、情感和动作信息,做出类人的情感化个性化交互反馈,提升机器人自然交互的用户体验。
此外,本实施例还提供一种机器人,包括机器人本体,机器人本体上设有声传感器阵列、深度相机、数据采集模块、微处理器和存储器,有声传感器阵列、深度相机分别通过数据此埃及模块与微处理器相连,微处理器和存储器相连,微处理器被编程或配置以执行前述用于机器人的多模态融合自然交互方法的步骤。如图13所示,本实施例的机器人在工作过程中,机器人通过麦克风阵列、高清相机和深度相机分别采集目标交互对象的音频数据、视频数据和距离数据(图中省略未绘出),然后针对音频数据进行声纹识别、语音识别、声源定位、语音增强,对视频数据进行人脸检测、人体检测、体脸匹配、交互距离、表情识别、动作识别等,然后进行多模态融合意图理解(包括说话人识别、语言指向识别、用户指示动作识别,和情感化意图识别),以及用户交互意图评估,基于评估结果进行交互管理,最终进行交互反馈的生成,生成有情感、有个性、有知识的自然语言,类人的动作和表情,以及有情感的语音并输出给目标交互对象。
此外,本实施例还提供一种计算机可读存储介质,其中存储有计算机程序,计算机程序用于被微处理器编程或配置以执行前述用于机器人的多模态融合自然交互方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种用于机器人的多模态融合自然交互方法,其特征在于,包括:
S1,获取目标交互对象的音频数据、视觉数据以及距离数据;
S2,根据从目标交互对象的音频数据、视觉数据以及距离数据中获得的多种模态的交互特征进行多模态融合意图理解,包括说话人识别以确定目标交互对象的用户ID、语言指向识别以确定目标交互对象说话指向本机器人的概率、用户指示动作识别以确定目标交互对象的动作指示目标,和情感化意图识别以确定目标交互对象的情感状态;
S3,基于多模态融合意图理解的结果确定目标交互对象的交互意愿,并执行对目标交互对象执行交互管理,包括用户状态管理、交互状态跟踪以及情感化交互决策;
S4,基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果,并针对交互反馈结果执行交互反馈结果生成并输出,所述交互反馈结果包括语言文本、语音、动作、表情中的部分或全部;
步骤S2中说话人识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的声纹特征F w ,基于目标交互对象的视觉数据提取得到的人脸特征F i ;所述说话人识别包括:
S201,将目标交互对象的声纹特征F w 与已登记用户库的声纹特征集合F p ={F p m |m=,1,2,3,...,n}计算声纹相似性,其中F p m 表示已登记用户库中任意第m个已登记用户的声纹特征,n为已登记用户库中包含的已登记用户数量;将目标交互对象的人脸特征F i 与已登记用户库的人脸特征集合F s ={F s m |m=,1,2,3,...,n}计算人脸相似性,其中F s m 表示已登记用户库中任意第m个已登记用户的人脸特征;其中,计算声纹相似性为利用声纹特征之间的点乘注意力计算声纹相似性,且利用声纹特征之间的点乘注意力计算声纹相似性的函数表达式为:
Figure 779049DEST_PATH_IMAGE001
上式中,S p ={S p m |m=,1,2,3,...,n}表示目标交互对象的声纹特征F w 与已登记用户库的声纹特征集合F p ={F p m |m=,1,2,3,...,n}的声纹相似性集合,softmax表示归一化指数函数,d k1为矩阵Fw(F p )的维度;其中,计算人脸相似性为利用人脸特征之间的点乘注意力计算人脸相似性,且利用人脸特征之间的点乘注意力计算人脸相似性的函数表达式为:
Figure 696190DEST_PATH_IMAGE002
上式中,S c ={S c m |m=,1,2,3,...,n}表示目标交互对象的人脸特征F i 与已登记用户库的人脸特征集合F s ={F s m |m=,1,2,3,...,n}的人脸相似性集合,softmax表示归一化指数函数,d k2为矩阵Fi(F s )的维度;
S202,在声纹相似性集合S p 中选择c个最佳的声纹相似性并进行排序得到最佳声纹相似性集合S pc ={S p m |m=,1,2,3,..., c},在人脸相似性集合S c 中选择c个最佳的人脸相似性并进行排序得到最佳人脸相似性集合S cc ={S c m |m=,1,2,3,..., c};
S203,针对最佳声纹相似性集合S pc 对应的用户集合、最佳人脸相似性集合S cc 对应的用户集合进行交集运算得到共有用户集合,若共有用户集合非空,判定该交互对象为已登记用户,并将共有用户集合按照声纹相似性、人脸相似性的加权求和计算得分,将得分最高的用户作为该交互对象对应的已登记用户,并记录目标交互对象的用户ID;若共有用户集合为空,则将目标交互对象的声纹特征Fw、人脸特征Fi登记到已登记用户库,并记录为该交互对象登记的用户ID。
2.根据权利要求1所述的用于机器人的多模态融合自然交互方法,其特征在于,步骤S202中选择c个最佳的声纹相似性是指选择5个最佳的声纹相似性,选择c个最佳的人脸相似性是指选择5个最佳的人脸相似性。
3.根据权利要求1所述的用于机器人的多模态融合自然交互方法,其特征在于,步骤S2中语言指向识别所采用的多种模态的交互特征包括基于目标交互对象的音频数据提取得到的语音文本,所述语言指向识别包括:将目标交互对象的语音文本输入预先训练好的语言指向识别模型得到语音文本指向本机器人的概率;所述语言指向识别模型被预先训练建立了语音文本及其指向本机器人的概率之间的映射关系。
4.根据权利要求1所述的用于机器人的多模态融合自然交互方法,其特征在于,步骤S2中用户指示动作识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的语音文本,基于目标交互对象的视觉数据提取得到的人体动作;所述用户指示动作识别包括:将语音文本作为指示性语言,将人体动作作为指示性动作,对指示性语言和指示性动作进行语言动作时间关联评估,以确定指示性语言和指示性动作两者之间的对应关系;然后基于指示性语言及其关联的指示性动作,在预设的场景数据库的场景地图中确定对应的动作指示目标,其中场景数据库中包含由场景地图、人员名单、场景物品构成的场景知识,以及机器人位姿、目标交互对象的位姿构成的视觉信息构成。
5.根据权利要求1所述的用于机器人的多模态融合自然交互方法,其特征在于,步骤S2中情感化意图识别所采用的多种模态的交互特征包括:基于目标交互对象的音频数据提取得到的语音文本,基于目标交互对象的视觉数据和距离数据提取得到的位姿特征;所述情感化意图识别包括:
S301,针对输入的目标交互对象的音频数据、视觉数据、语音文本和位姿特征,利用长短时记忆网络进行时序建模得到上下文特征X={Af,Vf,Wf,Zf},其中利用长短时记忆网络进行时序建模的函数表达式为:
Af=LSTM(A)
Vf=LSTM(V)
Wf=LSTM(W)
Zf=LSTM(Z)
上式中,LSTM表示长短时记忆网络,Af、Vf、Wf以及Zf分别为语音上下文特征、视觉上下文特征、文本上下文特征以及位姿上下文特征,A为音频数据,V为视觉数据,W为语音文本,Z为位姿特征;
S302,通过前馈神经网络FFN对上下文特征X={Af,Vf,Wf,Zf}分别进行线性变换,将其线性变换得到的输出特征投射到对应的标签类别向量空间中,并通过归一化指数函数softmax分别将各个输出特征映射为情感类别的概率分布P(Y)={Ae, Ve, We, Ze},其中Ae、Ve、We以及Ze分别为语音上下文特征、视觉上下文特征、文本上下文特征以及位姿上下文特征所对应的情感类别,且情感类别包括高兴、吃惊、悲伤、愤怒、厌恶、恐惧和中性七种中的部分或全部;
S303,将目标交互对象的音频数据、视觉数据、语音文本和位姿特征输入基于预先训练好的情感化意图识别模型获得对应的情感状态Me,所述情感状态Me与情感类别所包含的类型相同,所述情感化意图识别模型被预先建立了输入的音频数据、视觉数据、语音文本和位姿特征和输出的情感状态Me之间的映射关系;根据情感类别的概率分布P(Y)={Ae, Ve, We, Ze}、情感化意图识别模型输出的情感状态Me中采用投票的方式选取状态最多的情感类别作为最终确定的目标交互对象的情感状态。
6.根据权利要求1所述的用于机器人的多模态融合自然交互方法,其特征在于,步骤S3中确定用户的交互意愿包括:多模态融合意图理解得到的目标交互对象的用户ID、目标交互对象说话指向本机器人的概率、目标交互对象的动作指示目标和目标交互对象的情感状态送入到预先训练好的多模态意图理解模型,得到用户对应的交互意图;所述多模态意图理解模型被预先训练建立了多模态融合意图理解结果和用户对应的交互意图之间的映射关系。
7.根据权利要求1所述的用于机器人的多模态融合自然交互方法,其特征在于,步骤S3中的用户状态管理包括:将目标交互对象的视觉数据和距离数据输入预先训练好的用户互动意愿推断模型获得对应的互动意愿,所述用户互动意愿推断模型被预先训练建立视觉数据和距离数据与互动意愿之间的映射关系;且机器人基于状态机进行用户状态管理,所述状态机包括激活状态和监测状态,且机器人的运动执行机构仅在激活状态下通电、在监测状态下不通电,当目标交互对象的互动意愿大于设定阈值、且机器人处于监测状态时,则机器人直接从监测状态跳到激活状态并主动唤醒机器人;当用户的互动意愿小于设定阈值、且机器人当前处于激活状态时,则暂停或退出机器人的激活状态、再次进入监测状态;
步骤S2中获得的多种模态的交互特征包括:基于目标交互对象的视觉数据提取得到的表情特征,以及基于目标交互对象的视觉数据和距离数据提取得到的位姿特征;步骤S3中的交互状态跟踪包括:将目标交互对象的语音文本、表情特征和位姿特征输入预先训练好的交互状态跟踪模型得到目标交互对象的所有对话状态信息,所述交互状态跟踪模型被预先训练建立了语音文本、表情特征和位姿特征以及所有对话状态信息之间的映射关系;
步骤S3中的情感化交互决策包括:将目标交互对象的情感状态、交互意愿送入预先训练好的情感化交互决策模型中得到用户个性化信息,包括目标交互对象的个人信息和即时状态,所述即时状态包括目标交互对象的动作、情感和意图中的部分或全部;所述情感化交互决策模型被预先训练建立了情感状态、交互意愿两者和对应的用户个性化信息之间的映射关系。
8.根据权利要求1所述的用于机器人的多模态融合自然交互方法,其特征在于,步骤S4中基于情感化交互决策的结果生成面向目标交互对象的交互反馈结果包括:将情感化交互决策的结果以及机器人的拟人属性信息送入预先训练好的双边个性化交互反馈生成模型中,得到面向目标交互对象的交互反馈结果,所述机器人的拟人属性信息为赋予机器人的拟人标签,包括个人信息和即时状态。
9.一种机器人,包括机器人本体,其特征在于,所述机器人本体上设有声传感器阵列、深度相机、数据采集模块、微处理器和存储器,所述有声传感器阵列、深度相机分别通过数据采集模块与微处理器相连,所述微处理器和存储器相连,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述用于机器人的多模态融合自然交互方法的步骤。
10.一种计算机可读存储介质,其中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述用于机器人的多模态融合自然交互方法的步骤。
CN202210838251.1A 2022-07-18 2022-07-18 一种智能机器人的多模态融合自然交互方法、系统及介质 Active CN114995657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210838251.1A CN114995657B (zh) 2022-07-18 2022-07-18 一种智能机器人的多模态融合自然交互方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210838251.1A CN114995657B (zh) 2022-07-18 2022-07-18 一种智能机器人的多模态融合自然交互方法、系统及介质

Publications (2)

Publication Number Publication Date
CN114995657A CN114995657A (zh) 2022-09-02
CN114995657B true CN114995657B (zh) 2022-10-21

Family

ID=83021515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210838251.1A Active CN114995657B (zh) 2022-07-18 2022-07-18 一种智能机器人的多模态融合自然交互方法、系统及介质

Country Status (1)

Country Link
CN (1) CN114995657B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115431288B (zh) * 2022-11-10 2023-01-31 深圳市神州云海智能科技有限公司 基于多元融合信息进行情感反馈及信息交互的导诊机器人
CN115797655B (zh) * 2022-12-13 2023-11-07 南京恩博科技有限公司 一种人物交互检测模型、方法、系统及装置
CN116821691B (zh) * 2023-08-28 2024-02-23 清华大学 基于任务融合的训练情感识别模型的方法和装置
CN116820250B (zh) * 2023-08-29 2023-11-17 小舟科技有限公司 基于元宇宙的用户互动方法、装置、终端及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009259085A (ja) * 2008-04-18 2009-11-05 Takumi Vision株式会社 生体認証システム及び認証方法
JP2013257418A (ja) * 2012-06-12 2013-12-26 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN110465947B (zh) * 2019-08-20 2021-07-02 苏州博众机器人有限公司 多模态融合人机交互方法、装置、存储介质、终端及系统
CN110866184B (zh) * 2019-11-11 2022-12-02 湖南大学 短视频数据标签推荐方法、装置、计算机设备和存储介质
CN111862990B (zh) * 2020-07-21 2022-11-11 思必驰科技股份有限公司 说话者身份验证方法及系统
CN112069484A (zh) * 2020-11-10 2020-12-11 中国科学院自动化研究所 基于多模态交互式的信息采集方法及系统
CN113971830A (zh) * 2021-10-29 2022-01-25 京东科技信息技术有限公司 一种人脸识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN114995657A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114995657B (zh) 一种智能机器人的多模态融合自然交互方法、系统及介质
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN108227932B (zh) 交互意图确定方法及装置、计算机设备及存储介质
CN108334583B (zh) 情感交互方法及装置、计算机可读存储介质、计算机设备
Wu et al. Survey on audiovisual emotion recognition: databases, features, and data fusion strategies
Mai et al. Locally confined modality fusion network with a global perspective for multimodal human affective computing
CN105843381B (zh) 用于实现多模态交互的数据处理方法及多模态交互系统
US11854540B2 (en) Utilizing machine learning models to generate automated empathetic conversations
Feng et al. Learn2smile: Learning non-verbal interaction through observation
KR102448382B1 (ko) 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법
Liang et al. Strong and simple baselines for multimodal utterance embeddings
US20230173683A1 (en) Behavior control device, behavior control method, and program
Lakomkin et al. Emorl: continuous acoustic emotion classification using deep reinforcement learning
CN115631267A (zh) 生成动画的方法及装置
KR20200059112A (ko) 로봇 상호작용 시스템 및 그를 위한 프로그램
JP6201212B2 (ja) キャラクタ生成装置およびプログラム
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
Iwahashi et al. Robots that learn to communicate: A developmental approach to personally and physically situated human-robot conversations
CN117251057A (zh) 一种基于aigc构建ai数智人的方法及系统
Zhang et al. Multi-modal emotion recognition based on deep learning in speech, video and text
Tuyen et al. Agree or disagree? generating body gestures from affective contextual cues during dyadic interactions
Gladys et al. Survey on Multimodal Approaches to Emotion Recognition
CN111177346B (zh) 人机交互方法、装置、电子设备、存储介质
Schwenker et al. Multiple classifier systems for the recogonition of human emotions
Fatima et al. Use of affect context in dyadic interactions for continuous emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20220902

Assignee: HUNAN CHAONENGROBOT TECHNOLOGY CO.,LTD.

Assignor: HUNAN University

Contract record no.: X2023980042801

Denomination of invention: A multimodal fusion natural interaction method, system, and medium for intelligent robots

Granted publication date: 20221021

License type: Common License

Record date: 20230927