CN110109541B

CN110109541B - 一种多模态交互的方法

Info

Publication number: CN110109541B
Application number: CN201910339021.9A
Authority: CN
Inventors: 王健; 苏战; 刘卫平; 王诏坚
Original assignee: Guangzhou Zib Artificial Intelligence Technology Co ltd
Current assignee: Guangzhou Zib Artificial Intelligence Technology Co ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2022-04-05
Anticipated expiration: 2039-04-25
Also published as: CN110109541A

Abstract

本发明提供了一种多模态交互的方法，包括：机器人获取多模态交互信息，多模态交互信息包括：文字信息、语音信息、视觉信息、动作信息中任一项或多项；多模态交互信息是由用户发出的或者是由用户输入给机器人的；根据获取的多模态交互信息，确定与多模态交互信息相匹配的交互方式；按照确定出的交互方式与用户进行交互。其机器人按照多模态交互信息获取的相应的预设交互方式与用户进行交互，提高用户的体验效果。

Description

一种多模态交互的方法

技术领域

本发明涉及人机交互技术领域，特别涉及一种多模态交互的方法。

背景技术

目前，用户与机器人的交互方式较为单一，常见的交互方式为，PC式的键盘输入和点触式交互，但也只是单纯的通过文字或语音进行交互，不能充分的模拟人与人之间的交互，使得用户的体验效果差。

发明内容

本发明提供一种多模态交互的方法，用以使得机器人通过合适的交互方式来与用户进行交互，提高用户的体验效果。

本发明实施例提供一种多模态交互的方法，包括:

机器人获取多模态交互信息，所述多模态交互信息包括：文字信息、语音信息、视觉信息、动作信息中任一项或多项；所述多模态交互信息是由用户发出的或者是由用户输入给所述机器人的；

根据获取的所述多模态交互信息，确定与所述多模态交互信息相匹配的交互方式；

按照所述确定出的所述交互方式与所述用户进行交互。

在一种可能是实现的方式中，

所述按照所述调取出的所述交互方式与所述用户进行交互，包括：

确定所述多模态交互信息所包含的交互内容；

按照所述确定出的所述交互方式执行与所述交互内容相应的反馈操作。

在一种可能是实现的方式中，

所述根据获取的所述多模态交互信息，确定与所述多模态交互信息相匹配的交互方式，包括：

所述多模态交互信息包括：文字信息、语音信息、视觉信息、动作信息中任一项或多项；根据其多模态交互信息可以得到一个多模态交互信息矩阵，多模态交互信息矩阵为一个分块矩阵包括：文字信息矩阵、语音信息矩阵、视觉信息矩阵、动作信息矩阵中任一项或多项且各项矩阵均为方阵，若上述矩阵有一项不存在则用0矩阵代替，利用多模态交互信息矩阵通过如下计算与所述多模态交互信息相匹配的交互方式：

其中，X为多模态交互信息矩阵，W为文字信息矩阵，该所述文字信息矩阵为提取机器人屏幕上所输入信息，并对所输入信息进行像素点的提取，形成相应的像素矩阵，所述像素矩阵则为文字信息矩阵，Y为语音信息矩阵，该所述语音矩阵为每一帧语音中的语调、分贝、左声道值、右声道值所形成的矩阵、S为视觉信息矩阵，所述视觉信息矩阵，为机器人提取脸部信息，根据捕捉瞳仁的偏移方向，获取微表情，再根据微表情获取视觉的模糊程度，从而确定用户最终所观看的地方，并将该地方信息的像素点形成矩阵，D为动作信息矩阵，该所述动作矩阵为机器人拍摄用户动作，并将用户动作图像的像素点输入计算机，形成相应像素矩阵，w_zz为文字信息矩阵中坐标为(z,z)的元素值，y_cc为语音信息矩阵中坐标为(c,c)的元素值，s_nn为视觉信息矩阵中坐标为(n,n)的元素值,d_mm为动作信息矩阵中坐标为(m,m)的元素值，且z、c、n、m、的值相等，即为矩阵W、Y、S、D的大小相等利用如下方程组(1)求解特征值，

其中E为单位矩阵，λ₁，λ₂，λ₃，λ₄为与其对应矩阵的特征值，且特征值存在n种情况，即为λ₁、λ₂、λ₃、λ₄均为特征值的向量，每个向量中均含有n个值，而并非单一的值，所以将对应特征值构成特征矩阵，利用特征矩阵进行如下公式(2)计算，得出对应信息继续交互的概率矩阵：

其中p为每项信息继续交互的概率构成的概率矩阵，

为特征矩阵，λ_1B，λ_2B，λ_3B，λ_4B为可维持其对应信息矩阵能继续交互的最大特征值，为预先设定的值，选取p矩阵中元素最大的一项，找到所述最大一项所对应的信息矩阵，该最大一项所对应的信息矩阵所对应的交互方式即为与所述多模态交互信息相匹配的交互方式。

在一种可能是实现的方式中，

所述根据获取的所述多模态交互信息，确定与所述多模态交互信息相匹配的交互方式，按照所述确定出的所述交互方式与所述用户进行交互，包括：

交互模型中存储有多个交互方式，多个交互方式各自对应有自身的交互顺序；

按照所述多个交互方式各自对应的交互顺序与所述用户进行交互。

在一种可能是实现的方式中，

获取所述多模态交互信息中的特征信息；

确定所述特征信息对应的交互方式；

将所述特征信息对应的交互方式确定为与所述多模态交互信息相匹配的交互方式。

在一种可能是实现的方式中，

所述确定所述多模态交互信息所包含的交互内容，包括：

确定所述多模态交互信息中，交互方式与所述多模态交互信息相匹配的交互方式相一致的交互信息中所包含的交互内容；

将所确定出的所述相一致的交互信息中所包含的交互内容，确定为所述多模态交互信息所包含的交互内容。

在一种可能是实现的方式中，

机器人获取多模态交互信息后，检测并判断所述多模态交互信息中是否存在语音信息，若存在，对所述语音信息进行预设语音处理；

同时，检测并判断多模态交互信息中是否存在文字信息，

若存在，对所述文字信息进行预设文字处理；

同时，检测并判断多模态交互信息中是否存在视觉信息，

若存在，对所述视觉信息进行预设视觉处理；

同时，检测并判断多模态交互信息中是否存在动作信息，

若存在，对所述动作信息进行预设动作处理；

否则，所述机器人处于待机状态。

在一种可能是实现的方式中，

在检测并判断多模态交互信息中是否存在语音信息、文字信息、视觉信息、动作信息后，分别对不同的信息进行不同的预设处理；

对不同的信息进行不同的预设处理的处理顺序，是根据预先设定的好的优先级顺序进行相应的预设处理的；

或

根据所述机器人分别对所述语音信息、文字信息、视觉信息、动作信息所识别的识别程度，对所述识别程度进行相应的从高到低的排序，并根据排序后的识别程度进行相应顺序的预设处理。

在一个实施例中，获取用户输入的语音信息和动作信息；

对所述语音信息进行预设语音处理，获取与所述语音信息相应的语音控制指令；

根据所述动作信息确定用户的动作，并将所述动作与预先存储的动作数据库中的动作模板进行匹配，获取匹配结果；

所述动作数据库中包括多个不同的所述动作模板以及与所述动作模板一一对应的动作控制指令，根据所述匹配结果获取所述动作控制指令；

结合所述语音控制指令和动作控制指令进行对比分析，获取相应的语动控制指令；

所述机器人根据所述语动控制指令执行相应的操作。

在一个实施例中，对所述语音信息进行预设语音处理的过程中，将所述语音信息转换成一一对应的文字信息，并将所述文字信息输出，提示所述用户进行检查；

当输出的文字信息与用户输入的语音信息一致时，所述机器人输出与一致结果相应的第一提示信息；

当输出的文字信息与用户输入的语音信息不一致时，所述机器人输出与不一致结果相应的第二提示信息；

当所述机器人未能识别出所述语音信息时，所述机器人输出与未识别结果相应的第三提示信息。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种多模态交互的方法。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种多模态交互的方法，如图1所示，参见步骤101-103，包括:

步骤101：机器人获取多模态交互信息，多模态交互信息包括：文字信息、语音信息、视觉信息、动作信息中任一项或多项；所述多模态交互信息是由用户发出的或者是由用户输入给所述机器人的；

在用户实际使用机器人时，用户可能会在发出语音的同时，还会朝着机器人做一些动作、或者眼部会有一些眼球动作、或者向机器人输入一些文字等，也就是说，用户在同一时刻，可能会同时向机器人输入上述文字信息、语音信息、视觉信息、动作信息中的多个信息。

步骤102：根据获取的所述多模态交互信息，确定与所述多模态交互信息相匹配的交互方式。

其中，交互方式实施为语音交互方式(指机器人通过发出语音的形式来与用户交互)、视觉交互方式(指机器人通过控制自身所设置的显示器上的虚拟眼睛来与用户交互)、动作交互方式(指机器人控制自身的手臂、腿部、头部等部位执行动作来与用户交互)、文字交互方式(指机器人控制自身的显示器显示文字信息来与用户交互)。

步骤103：按照所述确定出的所述交互方式与所述用户进行交互。

其中，步骤102可实施为如下方式一：

其中p为每项信息继续交互的概率构成的概率矩阵，

按照前述方式一确定出与所述多模态交互信息相匹配的交互方式，可理解为是所述多模态交互信息中交互特征最明显的交互信息(或者说是起到主要交互作用的交互信息)所对应的交互方式。机器人采用通过方式一所确定出的交互方式与用户进行交互，可以提高机器人与用户进行交互的可靠性，可有效的节省交互时间，从而提高了用户与机器人进行交互的满意度，增强了用户的体验效果。

或者，步骤102可实施为如下方式二：

例如，在上一次的交互中，机器人是按照文字交互方式与用户交互的，假设交互顺序为文字交互->语音交互->视觉交互->动作交互，则接下来，机器人按照语音交互方式与用户交互。

又或者，步骤102可实施为如下方式三：

获取所述多模态交互信息中的特征信息；

确定所述特征信息对应的交互方式；

方式三可以按照多模态交互信息的特征来控制机器人进行交互，与用户输入的多模态交互信息更加匹配，而且机器人的处理效率较高。

上述机器人支持多模态人机交互，具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等能力；可配置社会属性、人格属性、人物技能等，使用户体验其并享受其的智能化及个性化。

机器人所搭载的智能设备，例如可以是：非触摸、非鼠标键盘输入的显示屏、摄像头、语音采集器等。

机器人获取用户多模态交互信息的相关数据，可在服务器的支持下完成并获取的，可以对多模态交互信息进行语义理解、视觉识别、认知计算、情感计算等，来获取用户多模态交互信息的相关数据。

在一个实施例中，前述步骤103“按照所述调取出的所述交互方式与所述用户进行交互”，可实施为：

确定所述多模态交互信息所包含的交互内容；

其中，机器人预先保存了与各种交互内容对应的交互反馈内容，并保存了每种交互反馈内容在各种交互方式下的机器人反馈操作。

例如，机器人预存了当用户输入的多模态交互信息所包含的交互内容为“你说我是好人还是坏人？”的交互反馈内容为“你是好人”时，假设所述确定出的所述交互方式为语音交互方式，则机器人会用语音发出“你是好人”的反馈操作。

其中，上述确定所述多模态交互信息所包含的交互内容，可实施为：

确定所述多模态交互信息中，交互方式与所述多模态交互信息相匹配的交互方式相一致的交互信息中所包含的交互内容；将所确定出的所述相一致的交互信息中所包含的交互内容，确定为所述多模态交互信息所包含的交互内容。其中，按照前述方式一确定出的所述多模态交互信息相匹配的交互方式，可理解为所述多模态交互信息中交互特征最明显的交互信息(或者说是起到主要交互作用的交互信息)所对应的交互方式；例如用户输入的多模态交互信息包括文字信息和语音信息时，按照前述方式一可确定出文字信息的交互特征最明显，则可从文字信息中提取出其交互内容，将该交互内容作为所述多模态交互信息所包含的交互内容，后续机器人是对该交互内容执行相应的反馈操作，从而可以提高反馈的准确性，提高用户体验度。

在一个实施例中，上述方法还包括：

机器人获取多模态交互信息后，检测并判断多模态交互信息中是否存在语音信息，若存在，对语音信息进行预设语音处理；

同时，检测并判断多模态交互信息中是否存在文字信息，

若存在，对文字信息进行预设文字处理；

同时，检测并判断多模态交互信息中是否存在视觉信息，

若存在，对视觉信息进行预设视觉处理；

同时，检测并判断多模态交互信息中是否存在动作信息，

若存在，对动作信息进行预设动作处理；

否则，机器人处于待机状态。

上述检测并判断多模态交互信息中是否存在语音信息、是否存在文字信息、是否存在视觉信息、是否存在动作信息，对其四者是同时判断的，且其判断行为属于并行关系，其好处是，节省判断时间，提高判断效率。

对于上述预设语音处理、预设文字处理、预设视觉处理、预设动作处理，是按照预先设定并存储好的相关算法进行处理的，其好处是为了使得获取的用户所输入的多模态交互信息更加准确。

其中，以预设语音处理为例，参见步骤201-203：

步骤201：获取语音信息对应的电压值，并将压值转换成相应的十六进制数；

步骤202：根据所转换的十六进制数，获得相应时间内语音信息对应的音量等级；

其中，对于步骤202来说，获得相应时间内语音信息对应的音量等级，包括：

对所获取的语音信息进行b个等间隔帧区域划分；

确定每个帧区域，并对b个帧区域中的语音信息所对应的电压数据进行采集,找出b个帧区域内所采集的语音信息分别对应的电压值所处的音量等级转换区,根据其音量等级转换区,确定b个帧区域中的语音信息分别对应的音量等级。

步骤203：根据所确定的音量等级对机器人向外输出的语音音量进行相应的调节。

其好处是，通过对语音信息对应的音量等级进行调节，使得机器人输出的音量，符合用户的听觉。

需要说明的是，音量等级转换区，是语音信息对应的电压值所处的某个电压范围。

需要说明的是，对于上述视觉信息的获取，例如可以是通过安装在机器人上的摄像头所采集获取的。

预设语音处理、预设文字处理、预设视觉处理、预设动作处理是并行处理的关系，且其的处理目的都是为了使得获取的用户所输入的多模态交互信息更加准确。

机器人处于待机状态的好处是，可以节省部分电能。

上述技术方案的有益效果是：通过对语音信息、文字信息、视觉信息、动作信息进行同时处理，可以节省机器人的运转时间，提高其的工作效率。

本发明实施例提供一种多模态交互的方法，

或

根据机器人分别对语音信息、文字信息、视觉信息、动作信息所识别的识别程度，对识别程度进行相应的从高到低的排序，并根据排序后的识别程度进行相应顺序的预设处理。

上述技术方案包括两种实施例：

实施例一：对不同的信息进行不同的预设处理的处理顺序，是根据预先设定的好的优先级顺序进行相应的预设处理的。对于预先设定的好的优先级顺序例如可以是，预设语音处理、预设动作处理、预设文字处理、预设视觉处理，当检测并判断出多模态交互信息中存在动作信息和语音信息时，按照上述的优先级顺序对其进行预设处理，先对语音信息进行预设语音处理，在对动作信息进行预设动作处理。

实施例二：根据识别程度进行相应的从高到低的排序，并根据排序后的识别程度进行相应顺序的预设处理。当机器人对多模态交互信息所识别的识别程度为，视觉识别程度≧语音识别程度≧文字识别程度≧动作识别程度时，此时按照预设视觉处理、预设语音处理、预设文字处理、预设动作处理的预设处理顺序进行一级一级处理。

需要说明的是，实施例二中的识别程度，是机器人根据所获取的不同的信息与对应的用户所要表达的意思，进行匹配分析，根据两者的匹配程度而获得的。

上述技术方案的有益效果是：通过对预设处理的顺序进行排序，使得更加智能化。

本发明实施例提供一种多模态交互的方法，

预设交互模型中存储有预先设定好的预设交互方式：

预设交互方式，是预先设定好的交互顺序；

机器人按照交互顺序与用户进行交互。

上述设定好的交互顺序，例如可以是语音交互和动作交互，当用户无论采用语音交互、文字交互、视觉交互、动作交互中任一种或多种交互方式，其机器人都按照预先设定好的交互顺序和交互方式完成与用户的交互。

上述技术方案的有益效果是：设定好交互方式和交互顺序，使得交互更加方便。

本发明实施例提供一种多模态交互的方法，

预设交互模型中存储有预先设定好的预设交互方式：

预设交互方式，是根据获取的用户的多模态交互信息的特征信息所设定的；

机器人按照与特征信息相应的预设交互方式与用户进行交互。

上述多模态交互信息的特征信息，例如可以是，根据获取用户输入的多模态信息，获取可以将用户的用意表达的最为清晰的信息，作为其特征信息。

机器人采用预设交互方式中，与特征信息最为贴切的交互方式，进行交互，例如，获取的多模态交互信息中，动作信息最能将用户的用意表达清楚，此时机器人就采用动作和语音的交互方式进行交互。

上述技术方案的有益效果是：通过获取相关的特征信息，使得机器人与用户的交互方式更为灵活。

本发明实施例提供一种多模态交互的方法，

获取用户输入的文字信息；

对文字信息进行预设文字处理，来确定用户所输入的文字，并将文字与预先存储的文字数据库中的文字模板进行匹配，获取匹配结果；

文字数据库中包括多个不同的文字模板以及与文字模板一一对应的文字控制指令，根据匹配结果获取文字控制指令；

机器人根据文字控制指令执行相应的操作。

对于上述文字控制指令，例如可以是，用户输入“想听音乐一个人去巴黎”，对输入的文字信息进行处理后，获得文字控制指令“一个人去巴黎”，同时，根据文字控制指令“一个人去巴黎”控制机器人播放该音乐。

需要说明的是，当用户只是单独的输入某种交互信息时，其采用与上述相同的处理方式进行交互。

上述技术方案的有益效果是：有益于对单独的交互信息进行处理。

本发明实施例提供一种多模态交互的方法，

获取用户输入的语音信息和动作信息；

对语音信息进行预设语音处理，获取与语音信息相应的语音控制指令；

根据动作信息确定用户的动作，并将动作与预先存储的动作数据库中的动作模板进行匹配，获取匹配结果；

动作数据库中包括多个不同的动作模板以及与动作模板一一对应的动作控制指令，根据匹配结果获取动作控制指令；

结合语音控制指令和动作控制指令进行对比分析，获取相应的语动控制指令；

机器人根据语动控制指令执行相应的操作。

对于上述的语音控制指令，例如可以是，“比心”；动作控制指令，例如可以是，

结合语音控制指令和动作控制指令进行对比分析，当上述两者所表达的含义不同时，获取语动控制指令，并控制机器人输出提示用户重新输入的信息；

对于上述的语音控制指令，例如可以是，“耶”；动作控制指令，例如可以是，

结合语音控制指令和动作控制指令进行对比分析，当上述两者所表达的含义相同或类似时，获取语动控制指令，并控制机器人播放执行与“耶”相关的操作。

需要说明的是，当用户输入两种及以上的交互信息时，其采用与上述相同的处理方式进行交互。

上述技术方案的有益效果是：通过对两种及以上的交互信息进行综合分析，提高所获取的准确率，使得机器人所执行的操作更加准确。

本发明实施例提供一种多模态交互的方法，

对语音信息进行预设语音处理的过程中，将语音信息转换成一一对应的文字信息，并将文字信息输出，提示用户进行检查；

当输出的文字信息与用户输入的语音信息一致时，机器人输出与一致结果相应的第一提示信息；

当输出的文字信息与用户输入的语音信息不一致时，机器人输出与不一致结果相应的第二提示信息；

当机器人未能识别出语音信息时，机器人输出与未识别结果相应的第三提示信息。

上述技术方案中的文字信息，是获取到用户输入的语音信息后，将语音信息一一对应转换来的。

将文字信息输出，提示用户进行检查，是由用户判断其文字信息与所输入的语音信息是否一致。例如在对文字信息与所输入的语音信息是否一致的判断过程中，无论两者是否一致，都会直接跳转出一个界面“用户是否重新输入”，此时用户通过判断两者是否一致，来点击“是/否”，当是时，对应的第一提示信息例如可以是，“匹配成功”；当否时，对应的第二提示信息例如可以是，“匹配不成功，用户重新输入”；当为识别出语音信息时，对应的第三提示信息例如可以是，“用户重新输入”。

上述技术方案的有益效果是：基于对语音信息的判断，方便及时纠正出现的错误，节省时间。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多模态交互的方法，用于机器人，其特征在于，包括:

按照所述确定出的所述交互方式与所述用户进行交互；

其中，X为多模态交互信息矩阵，W为文字信息矩阵，该所述文字信息矩阵为提取机器人屏幕上所输入信息，并对所输入信息进行像素点的提取，形成相应的像素矩阵，所述像素矩阵则为文字信息矩阵，Y为语音信息矩阵，该所述语音信息矩阵为每一帧语音中的语调、分贝、左声道值、右声道值所形成的矩阵、S为视觉信息矩阵，所述视觉信息矩阵，为机器人提取脸部信息，根据捕捉瞳仁的偏移方向，获取微表情，再根据微表情获取视觉的模糊程度，从而确定用户最终所观看的地方，并将地方信息的像素点形成矩阵，D为动作信息矩阵，该所述动作信息矩阵为机器人拍摄用户动作，并将用户动作图像的像素点输入计算机，形成相应像素矩阵，w_zz为文字信息矩阵中坐标为(z,z)的元素值，y_cc为语音信息矩阵中坐标为(c,c)的元素值，s_nn为视觉信息矩阵中坐标为(n,n)的元素值,d_mm为动作信息矩阵中坐标为(m,m)的元素值，且z、c、n、m、的值相等，即为矩阵W、Y、S、D的大小相等，利用如下方程组(1)求解特征值，

其中p为每项信息继续交互的概率构成的概率矩阵，

2.如权利要求1所述的方法，其特征在于，

所述按照所述确定出的所述交互方式与所述用户进行交互，包括：

确定所述多模态交互信息所包含的交互内容；

3.如权利要求1所述的方法，其特征在于，所述根据获取的所述多模态交互信息，确定与所述多模态交互信息相匹配的交互方式，按照所述确定出的所述交互方式与所述用户进行交互，包括：

4.如权利要求1所述的方法，其特征在于，所述根据获取的所述多模态交互信息，确定与所述多模态交互信息相匹配的交互方式，包括：

获取所述多模态交互信息中的特征信息；

确定所述特征信息对应的交互方式；

5.如权利要求2所述的方法，其特征在于，所述确定所述多模态交互信息所包含的交互内容，包括：

6.如权利要求1所述的方法，其特征在于，

同时，检测并判断多模态交互信息中是否存在文字信息，

若存在，对所述文字信息进行预设文字处理；

同时，检测并判断多模态交互信息中是否存在视觉信息，

若存在，对所述视觉信息进行预设视觉处理；

同时，检测并判断多模态交互信息中是否存在动作信息，

若存在，对所述动作信息进行预设动作处理；

否则，所述机器人处于待机状态。

7.如权利要求6所述的方法，其特征在于，

对不同的信息进行不同的预设处理的处理顺序，是根据预先设定好的优先级顺序进行相应的预设处理；

或

8.如权利要求1所述的方法，其特征在于，

获取用户输入的语音信息和动作信息；

所述机器人根据所述语动控制指令执行相应的操作。

9.如权利要求8所述的方法，其特征在于，

对所述语音信息进行预设语音处理的过程中，将所述语音信息转换成一一对应的文字信息，并将所述文字信息输出，提示所述用户进行检查；