CN107808145B

CN107808145B - 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统

Info

Publication number: CN107808145B
Application number: CN201711110949.7A
Authority: CN
Inventors: 刘扬; 李佩琛; 邵阳雪
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2021-03-30
Anticipated expiration: 2037-11-13
Also published as: CN107808145A

Abstract

本发明属于智能机器人领域，具体涉及用于智能对话机器人的多模态的鉴别和跟踪交互者身份的方法，尤其涉及基于多模态智能机器人的交互身份鉴别与跟踪方法及系统。基于多模态智能机器人的交互身份鉴别与跟踪方法，包括：采集交互对象的多通道信息；采用深度神经网络提取激活特征，构成多通道交互信息的多模态特征；采用跨模态概率认知的集成学习，对人脸图像特征和声纹特征进行身份鉴别；对由跨模态属性鉴别出的交互者身份进行注册和跟踪。基于多模态智能机器人的交互身份鉴别与跟踪系统，包括：多通道信息采集模块；多模态特征提取模块；跨模态身份鉴别模块；交互对象注册跟踪模块。本发明可解决单模态信息缺失，无法识别和跟踪交互身份问题。

Description

基于多模态智能机器人的交互身份鉴别与跟踪方法及系统

技术领域

本发明属于智能机器人领域，具体涉及用于智能对话机器人的多模态的鉴别和跟踪交互者身份的方法，尤其涉及基于多模态智能机器人的交互身份鉴别与跟踪方法及系统。

背景技术

随着计算机技术和人工智能的发展，智能机器人的研究已经逐步走到众多的服务领域。人机交互是智能对话机器人研究的重要技术问题，用户在与对话机器进行交互时，只有智能对话机器人识别和记忆参与交互的对话者信息，才能有效地理解对话或交互含义。同时交互参与者的历史信息记录了用户的兴趣等信息，交互者的上下文信息也为智能机器人进一步决策提供参考。

现有的智能机器人的人机对话技术一般不考虑交互者的身份信息和上下文信息，非常不利于人机的后续对话进行。现有智能机器人的交互身份识别一般采用单模态进行，当对应模态信息缺失时，无法有效地实时跟踪交互者身份信息。

发明内容

本发明的目的是为了解决智能机器人的多模态身份识别问题，提供对话智能机器人的多模态的鉴别和跟踪交互者身份的方法及系统，可解决单模态信息缺失，无法识别和跟踪交互身份问题。

为了实现上述目的，本发明采用以下技术方案：

一种基于多模态智能机器人的交互身份鉴别与跟踪方法，包括以下步骤：

步骤1：采集交互对象的多通道信息；

步骤2：采用深度神经网络提取激活特征，构成多通道交互信息的多模态特征；

步骤3：采用跨模态概率认知的集成学习，对人脸图像特征和声纹特征进行身份鉴别；

步骤4：对由跨模态属性鉴别出的交互者身份进行注册和跟踪。

优选地，所述步骤1包括以下步骤：

步骤11：采集交互者的声纹和语音信息；

步骤12：采集交互者的人脸RGB图像和肢体信息；

步骤13：采集交互者的人脸红外图像；

步骤14：采集交互者的人脸深度图像和肢体动作。

优选地，所述步骤2包括以下步骤：

步骤21：对语音信息做短时傅立叶变换生成声谱图，利用声纹深度信念网络提取声谱图的激活特征构造语音的声纹特征；

步骤22：对采集的人脸RGB图像、人脸红外图像和人脸深度图像进行配准，构成复合人脸图像，采用人脸深度卷积网络提取复合人脸的图像特征。

优选地，所述步骤3包括以下步骤：

步骤31：提取时间和空间上下文；

步骤32：检索与输入多模态属性特征相似的交互身份知识图谱；

步骤33：在交互身份的时间和空间上下文及知识图谱先验下，采用概率认知集成声纹和人脸图像特征，实现交互者的跨模态身份鉴别。

优选地，所述步骤4包括以下步骤：

步骤41：检查交互历史记录是否有当前交互者的身份信息，如无注册信息则新添加交互者记录，同时更新交互者身份的时间和空间上下文，并同步更新交互身份与多模态属性特征的知识图谱信息；

步骤42：跟踪交互者身份信息和交互意图，根据交互身份和交互意图，执行交互任务。

基于多模态智能机器人的交互身份鉴别与跟踪系统，包括：

多通道信息采集模块，用于采集交互对象的多通道信息；

多模态特征提取模块，用于采用深度神经网络提取激活特征，构成多通道交互信息的多模态特征；

跨模态身份鉴别模块，用于采用跨模态概率认知的集成学习，对人脸图像特征和声纹特征进行身份鉴别；

交互对象注册跟踪模块，用于对由跨模态属性鉴别出的交互者身份进行注册和跟踪。

优选地，所述多通道信息采集模块包括：

第一采集模块，用于采集交互者的声纹和语音信息；

第二采集模块，用于采集交互者的人脸RGB图像和肢体信息；

第三采集模块，用于采集交互者的人脸红外图像；

第四采集模块，用于采集交互者的人脸深度图像和肢体动作。

优选地，所述多模态特征提取模块包括：

第一特征提取模块，用于对语音信息做短时傅立叶变换生成声谱图，利用声纹深度信念网络提取声谱图的激活特征构造语音的声纹特征；

第二特征提取模块，用于对采集的人脸RGB图像、人脸红外图像和人脸深度图像进行配准，构成复合人脸图像，采用人脸深度卷积网络提取复合人脸的图像特征。

优选地，所述跨模态身份鉴别模块包括：

上下文提取模块，用于提取时间和空间上下文；

知识图谱检索模块，用于检索与输入多模态属性特征相似的交互身份知识图谱；

跨模态身份鉴别模块，用于在交互身份的时间和空间上下文及知识图谱先验下，采用概率认知集成声纹和人脸图像特征，实现交互者的跨模态身份鉴别。

优选地，所述交互对象注册跟踪模块包括：

注册模块，用于检查交互历史记录是否有当前交互者的身份信息，如无注册信息则新添加交互者记录，同时更新交互者身份的时间和空间上下文，并同步更新交互身份与多模态属性特征的知识图谱信息；

跟踪模块，用于跟踪交互者身份信息和交互意图，根据交互身份和交互意图，执行交互任务。

与现有技术相比，本发明具有的有益效果：

1.本发明采用多模态信息实现跨模态身份识别，可解决单模态信息缺失，无法识别和跟踪交互身份问题。

2.本发明利用交互身份知识图谱信息和交互者的身份信息，可提升智能机器人对交互身份识别精度和效率。

3.本发明可有效利用交互历史信息和上下文信息，便于智能机器人理解交互者目的和意图。

附图说明

图1为本发明基于多模态智能机器人的交互身份鉴别与跟踪方法的基本流程示意图之一。

图2为本发明基于多模态智能机器人的交互身份鉴别与跟踪方法的基本流程示意图之二。

图3为本发明基于多模态智能机器人的交互身份鉴别与跟踪系统的结构示意图之一。

图4为本发明基于多模态智能机器人的交互身份鉴别与跟踪系统的结构示意图之二。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例一：

如图1所示，本发明的一种基于多模态智能机器人的交互身份鉴别与跟踪方法，包括以下步骤：

步骤S101：采集交互对象的多通道信息；

步骤S102：采用深度神经网络提取激活特征，构成多通道交互信息的多模态特征；

步骤S103：采用跨模态概率认知的集成学习，对人脸图像特征和声纹特征进行身份鉴别；

步骤S104：对由跨模态属性鉴别出的交互者身份进行注册和跟踪。

实施例二：

如图2所示，本发明的另一种基于多模态智能机器人的交互身份鉴别与跟踪方法，包括以下步骤：

步骤S201：采集交互对象的多通道信息MI，包括：

作为一种可实施方式，智能机器人为智能对话机器人，包括：麦克风阵列、双目摄像头、红外摄像头及深度传感器；

步骤S2011：通过智能对话机器人的麦克风阵列，采集交互者的声纹和语音信息VA，为识别交互身份和理解交互意图收集信息；

步骤S2012：通过智能对话机器人的双目摄像头，采集交互者的人脸RGB图像FV和肢体信息，为鉴别交互身份和理解交互意图收集信息，其中人脸RGB图像FV包括左右两幅人脸RGB图像FvL和FvR；

步骤S2013：通过智能对话机器人的红外摄像头，采集交互者的人脸红外图像FI，为对交互者做活体检测收集信息；

步骤S2014：通过智能对话机器人的深度传感器，采集交互者的人脸深度图像FD和肢体动作，为进一步识别交互身份和理解交互意图收集信息；

上述步骤S2011、S2012、S2013及S2014，产生交互对象的交互者的四元组多通道信息MI<VA,FV,FI,FD>。

步骤S202：采用深度神经网络提取激活特征构成多通道交互信息的多模态特征MF，所述深度神经网络包括：声纹深度信念网络DBNv和人脸深度卷积网络DCNf，交互对象的多模态特征矩阵MF的提取，由以下步骤实现：

步骤S2021：对语音信息VA做短时傅立叶变换生成声谱图VF，利用声纹深度信念网络DBNv提取声谱图的激活特征，构造交互者语音的声纹特征FS；

步骤S2022：对采集的左右两幅人脸RGB图像FvL和FvR、一幅人脸深度图像FD和一幅人脸红外图像FI进行配准，构成复合人脸图像，由于一个摄像头采集的RGB图像包括红、绿、蓝3个通道，故本发明构成8通道的复合人脸图像CF<FvLr,FvLg,FvLb,FvRr,FvRg,FvRb,FD,FI>，其中，FvLr、FvLg、FvLb分别为通过智能对话机器人的左目摄像头红、绿、蓝三个通道获取的RGB图像，FvRr、FvRg、FvRb分别为通过智能对话机器人的右目摄像头红、绿、蓝三个通道获取的RGB图像，FD为人脸深度图像，FI为人脸红外图像；采用人脸深度卷积网络DCNf，提取复合人脸图像的激活特征，构造交互者复合的人脸图像特征FF。

步骤S2021及S2022提取的交互者的语音声纹特征FS和复合的人脸图像特征FF构成多模态特征矩阵MF<FF,FS>。

步骤S202可看成利用深度神经网络DNN(DCNf,DCNv)，对多通道输入MI<VA,FV,FI,FD>的一个非线性映射，即：

DNN(DCNf,DCNv):MI<VA,FV,FI,FD>→MF<FF,FS>。

步骤S203：采用跨模态概率认知的集成学习，根据人脸图像特征FF和声纹特征FS鉴别参与交互的身份ID，对多模态特征矩阵MF<FF,FS>进行身份鉴别，包括以下步骤：

步骤S2031：提取和当前时间最近的时间上下文、及和当前空间相邻的位置的空间上下文CTS<CTid,CSid>，为鉴别交互身份提供上下文判断依据，其中CTid是和当前时间最近的时间上下文，CSid是和当前空间相邻的位置的空间上下文，和当前时间最近的时间上下文、及和当前空间相邻的位置的空间上下文CTS<CTid,CSid>简称为时空上下文CTS；

步骤S2032：检索与输入多模态属性特征MF相似的关联概率Po最高的交互身份知识图谱KG<MF,ID,PS>，为鉴别交互身份提供属性特征判断依据；

步骤S2033：根据交互者多模态特征矩阵MF<FF,FS>，在交互身份的时空上下文CTS和知识图谱KG先验下，构成交互身份类型判定条件TC<MF,KG,CTS>，采用概率认知集成和推断交互者的身份ID_i。由交互者的先验概率P(ID_i)，根据贝叶斯学习规则，交互对象的身份ID_i为：

其中i是被识别出的当前交互用户身份编号，j是所有其他曾参与的交互用户身份编号，n是参与系统交互用户的总数。

步骤S204：对由跨模态属性鉴别出的交互者身份ID进行注册和跟踪，为智能机器人进一步采取对话的策略提供决策依据，包括：

步骤S2041：检查交互历史记录是否有当前交互者的身份信息ID_i，如无注册信息则新添加交互者记录，同时更新交互者身份的时间和空间上下文CTS<CTid,CSid>；在知识图谱信息KG中，并同步更新交互身份与多模态属性特征的概率置信度信息，即三元组信息KG_i<MF_i,ID_i,PS_i>，其中ID_i是当前更新的交互用户身份编号，MF_i是第i个交互用户的多模态属性特征，PS_i是第i个交互用户的概率置信度信息；

步骤S2042：跟踪交互者身份信息ID_i和交互意图，根据交互身份ID_i和交互意图，执行指定交互任务T。

实施例三：

如图3所示，本发明的一种基于多模态智能机器人的交互身份鉴别与跟踪系统，包括：

多通道信息采集模块301，用于采集交互对象的多通道信息；

多模态特征提取模块302，用于采用深度神经网络提取激活特征，构成多通道交互信息的多模态特征；

跨模态身份鉴别模块303，用于采用跨模态概率认知的集成学习，对人脸图像特征和声纹特征进行身份鉴别；

交互对象注册跟踪模块304，用于对由跨模态属性鉴别出的交互者身份进行注册和跟踪。

实施例四：

如图4所示，本发明的另一种基于多模态智能机器人的交互身份鉴别与跟踪系统，包括：

多通道信息采集模块401，用于采集交互对象的多通道信息；

多模态特征提取模块402，用于采用深度神经网络提取激活特征构成多通道交互信息的多模态特征；

跨模态身份鉴别模块403，用于采用跨模态概率认知的集成学习对人脸图像特征和声纹特征进行身份鉴别；

交互对象注册跟踪模块404，用于对由跨模态属性鉴别出的交互者身份进行注册和跟踪。

所述多通道信息采集模块401包括：

第一采集模块4011，用于采集交互者的声纹和语音信息；

第二采集模块4012，用于采集交互者的人脸RGB图像和肢体信息；

第三采集模块4013，用于采集交互者的人脸红外图像；

第四采集模块4014，用于采集交互者的人脸深度图像和肢体动作。

所述多模态特征提取模块402包括：

第一特征提取模块4021，用于对语音信息做短时傅立叶变换生成声谱图，利用声纹深度信念网络提取声谱图的激活特征构造语音的声纹特征；

第二特征提取模块4022，用于对采集的人脸RGB图像、人脸红外图像和人脸深度图像进行配准，构成复合人脸图像，采用人脸深度卷积网络提取复合人脸的图像特征。

所述跨模态身份鉴别模块403包括：

上下文提取模块4031，用于提取时间和空间上下文；

知识图谱检索模块4032，用于检索与输入多模态属性特征相似的交互身份知识图谱；

跨模态身份鉴别模块4033，用于在交互身份的时间和空间上下文及知识图谱先验下，采用概率认知集成声纹和人脸图像特征，实现交互者的跨模态身份鉴别。

所述交互对象注册跟踪模块404包括：

注册模块4041，用于检查交互历史记录是否有当前交互者的身份信息，如无注册信息则新添加交互者记录，同时更新交互者身份的时间和空间上下文，并同步更新交互身份与多模态属性特征的知识图谱信息；

跟踪模块4042，用于跟踪交互者身份信息和交互意图，根据交互身份和交互意图，执行交互任务。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多模态智能机器人的交互身份鉴别与跟踪方法，其特征在于，包括以下步骤：

步骤1：采集交互对象的多通道信息，包括：采集交互者的声纹和语音信息；采集交互者的人脸RGB图像和肢体信息；采集交互者的人脸红外图像；采集交互者的人脸深度图像和肢体动作；

步骤2：采用深度神经网络提取激活特征，构成多通道交互信息的多模态特征，包括：

步骤22：对采集的人脸RGB图像、人脸红外图像和人脸深度图像进行配准，构成复合人脸图像，采用人脸深度卷积网络提取复合人脸的图像特征；

2.根据权利要求1所述的基于多模态智能机器人的交互身份鉴别与跟踪方法，其特征在于，所述步骤3包括以下步骤：

步骤31：提取时间和空间上下文；

3.根据权利要求1所述的基于多模态智能机器人的交互身份鉴别与跟踪方法，其特征在于，所述步骤4包括以下步骤：

4.一种基于多模态智能机器人的交互身份鉴别与跟踪系统，其特征在于，包括：

多通道信息采集模块，用于采集交互对象的多通道信息，包括：

第一采集模块，用于采集交互者的声纹和语音信息；

第二采集模块，用于采集交互者的人脸RGB图像和肢体信息；

第三采集模块，用于采集交互者的人脸红外图像；

第四采集模块，用于采集交互者的人脸深度图像和肢体动作；多模态特征提取模块，用于采用深度神经网络提取激活特征，构成多通道交互信息的多模态特征，包括：

第二特征提取模块，用于对采集的人脸RGB图像、人脸红外图像和人脸深度图像进行配准，构成复合人脸图像，采用人脸深度卷积网络提取复合人脸的图像特征；

5.根据权利要求4所述的基于多模态智能机器人的交互身份鉴别与跟踪系统，其特征在于，所述跨模态身份鉴别模块包括：

上下文提取模块，用于提取时间和空间上下文；

6.根据权利要求4所述的基于多模态智能机器人的交互身份鉴别与跟踪系统，其特征在于，所述交互对象注册跟踪模块包括：