CN106557164A

CN106557164A - 应用于智能机器人的多模态输出方法和装置

Info

Publication number: CN106557164A
Application number: CN201611025343.9A
Authority: CN
Inventors: 石琰; 郭家
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-11-18
Filing date: 2016-11-18
Publication date: 2017-04-05

Abstract

本发明公开了一种应用于智能机器人的多模态输出方法及装置。该方法包括：接收多模态输入信息；对所述多模态输入信息进行解析，并根据解析结果生成与之对应的语音文本信息；提取所述语音文本信息中的特定词汇，并生成与所述特定词汇相匹配的动作指令；以及根据所述语音文本信息和动作指令完成语音输出和智能机器人的动作输出。本发明能够提高机器人的智能化和拟人化，提高用户与机器人交流的交互体验。

Description

应用于智能机器人的多模态输出方法和装置

技术领域

本发明涉及智能机器人领域，尤其涉及一种应用于智能机器人的多模态输出方法和装置。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

目前市面上的机器人，在与用户进行聊天时产生的动作往往是与语言表达的意思并不相关的固定模式动作或是随机动作，带来了一定程度上的趣味性，但是，这种设置在机器人内部系统处理中仅是将语音系统和动作系统进行简单的叠加处理，语音输出和动作输出并不匹配，导致机器人的智能性和拟人性较差。这导致用户在与机器人聊天的过程中，会很快因为无意义的重复而感到厌烦，从而失去继续聊天交互的兴趣。

因此，亟需提供一种能够提高机器人智能性和拟人性的解决方案。

发明内容

本发明所要解决的技术问题之一是需要提供一种在提高智能机器人的智能性和拟人性的技术方案。

为了解决上述技术问题，本申请的实施例首先提供了一种应用于智能机器人的多模态输出方法，该方法包括：接收多模态输入信息；对所述多模态输入信息进行解析，并根据解析结果生成与之对应的语音文本信息；提取所述语音文本信息中的特定词汇，并生成与所述特定词汇相匹配的动作指令；以及根据所述语音文本信息和动作指令完成语音输出和智能机器人的动作输出。

优选地，所述特定词汇为如下之一或组合：设定名词、设定动词和设定形容词。

优选地，当提取到多个特定词汇时，按照所述多个特定词汇匹配的动作指令对应的优先级和权重，输出一个或多个动作指令。

优选地，一个动作指令对应一个或多个特定词汇。

优选地，动作在对应词汇的语音输出时刻输出，实现动作输出与语音输出相匹配。

根据本发明另一方面，还提供了一种应用于智能机器人的多模态输出装置，该装置包括：模态信息接收模块，其设置为接收多模态输入信息；文本信息生成模块，其设置为对所述多模态输入信息进行解析，并根据解析结果生成与之对应的语音文本信息；动作指令生成模块，其设置为提取所述语音文本信息中的特定词汇，并生成与所述特定词汇相匹配的动作指令；以及多模态输出模块，其设置为根据所述语音文本信息和动作指令完成语音输出和智能机器人的动作输出。

优选地，所述动作指令生成模块进一步设置为当提取到多个特定词汇时，按照所述多个特定词汇匹配的动作指令对应的优先级和权重，输出一个或多个动作指令。

优选地，一个动作指令对应一个或多个特定词汇。

优选地，所述多模态输出模块进一步设置为在对应词汇的语音输出时刻执行所述动作输出，实现动作输出与语音输出相匹配。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

在本发明实施例，通过对接收到的多模态输入信息进行解析，根据解析结果生成与之对应的语音文本信息，在获取语音文本信息后提取语音文本信息中的特定词汇，并生成与特定词汇相匹配的动作指令，这样在通过二次信息数据解析后，能够输出与语音信息相协同的智能机器人的动作输出，从而能够提高机器人的智能性和拟人性，满足用户与机器人交互的需求。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为涉及本发明的应用于智能机器人的多模态输出方法的示例一的流程示意图。

图2为涉及本发明的应用于智能机器人的多模态输出方法的示例二的流程示意图。

图3为涉及本发明的应用于智能机器人的多模态输出装置300的示例的结构框图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

随着智能机器人产品的普及，越来越多的家庭和商家都需要机器人为其服务。现有技术中，机器人在与用户进行聊天时会做出一些有趣的动作以使用户感到趣味性。然而，这些动作一般与输出的语音并无相关性，导致机器人的智能性和拟人性较差。而且，在随机触发的模式下，动作输出与语音输出的内容很不相关，且输出的时间也存在差异性。

本发明的应用于智能机器人的多模态输出方法，主要为了提高机器人的智能性和拟人性，实现语音输出与动作输出的协调。通过对接收到的多模态输入信息进行一次解析，就可以根据解析结果判断是否存在与该解析结果对应的语音文本信息。再对语音文本信息进行二次解析，判断该语义文本信息中是否存在特定词汇。在存在具有特定词汇时，按照设定好的规则，查找到与该特定词汇对应的动作，然后完成语音和动作的协同输出。在机器人通过执行上述操作完成多模态输出，一般只需占用一个线程来处理，没有占用较多资源。而且，语音和动作的协同输出提高了用户体验值。

本发明的实施例中，“特定词汇”可以是设定的名词、设定的动词和设定的形容词以及这些词汇的组合，还可以是特定的片段短语，例如“你真厉害”、“你真棒”、“我好开心”等，并非仅仅是一个词语。

由于在一句完整句中，一般会包含多种词性的词汇，在提取出多个特定词汇时，机器人则会查找到与每个特定词汇对应的动作指令，然后识别这些动作指令对应的优先级和权重，再根据优先级和权重输出一个或多个彼此没有冲突的动作指令。而且，在查找每个特定词汇对应的动作指令时会发现一个动作指令可能对应多个特定词汇，例如“抱着”、“小宝宝”这两个特定词汇都会对应一个“抱”的动作指令，为了实现动作输出与语音输出相匹配，则选择在某一词汇的语音输出时刻执行动作输出。

实施例一

图1为涉及本发明的应用于智能机器人的多模态输出方法的示例一的流程示意图，该实施例的方法主要包括以下步骤。

在步骤S110中，机器人接收多模态输入信息。

具体地，在用户与机器人进行交互的过程中，机器人可以通过视频采集单元、语音采集单元、人机交互单元等来接收多模态输入信息。其中，视频采集单元可以采用RGBD摄像头来构成，语音采集单元需要提供完整的语音录制和播放功能，人机交互单元可以为一个触摸输入显示屏，用户通过该显示屏输入多模态信息。

需要说明的是，多模态输入信息主要包括音频数据、视频数据、图像数据以及用于使机器人能够输出一定动作或执行软件或硬件的程序指令。多模态输入数据的组合比较复杂，通过对多模态输入数据进行分析能够得到可靠或是有意义的结果，确定多模态数据发出者的真实意图。例如，在用户与机器人进行语音交互时，用户向机器人发出语音信息，未知语音信号经麦克风、话筒之类的语音信号采集设备变换成电信号后输入到识别系统的输入端再进行处理。

在步骤S120中，对多模态输入信息进行解析，根据解析结果判断是否存在对应的语音文本信息，若判断结果为“是”，则执行步骤S130，否则执行步骤S160根据解析结果进行处理。

在接收到多模态输入信息后，响应该多模态输入数据生成对应的文本信息。由于本实施例中用户采用语音模式与机器人进行交互，因此重点以语音输入数据为例，说明该步骤。

首先，对多模态输入数据进行例如去噪之类的预处理，然后将预处理后的语音信息进行语音识别的综合分析，生成与语音信息对应的文本信息。需要说明的是，语音识别，对于人来说接收到的语音可以立马转换为文字信息，但是对于机器人来说接收到的则是数字信号而已。当有人提问“你好吗？”时，“Ni”这个发音可以是“泥”也可以是“逆”，所以最终要确定是哪个字还需要语音识别技术来实现计算概率的最大化。在本步骤中，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。在识别过程中要根据语音识别的模型，将预先存储的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出识别结果。

当然，在其他特殊情况下，多模态输入数据可以是用户输入的图像数据，在本步骤中，可以利用光学字符识别技术，即OCR，对用户输入的图像数据进行扫描，转换得到与图像中的文字内容对应的文本信息。也可以对用户的手势和肢体动作识别，得到对应的指令信息。

接着，对文本信息进行文本分析，并根据分析结果查询相应的语音文本信息(也可以称为应答信息)。具体地，在获取识别结果之后，利用自然语言处理技术对识别结果进行语义解析。语义分析，指的是将给定的自然语言转化为反映其意义的某种形式化表示，也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言，做到人与机器的互相沟通。

在获得解析结果后，计算该解析结果与已设定的知识库中的内容的语义相似度(问题和问题的相似度)，从而在知识库中搜索与解析结果相匹配的数据。然后，根据匹配结果，在语音交互应答数据库中查找与该文本信息相应的应答信息。语音交互应答数据库中存储了对应各种主题的信息内容，通过将文本分析结果中的特定词汇与数据库中的内容进行比对，能够找到相应的应答信息。

例如，在对文本信息进行解析后得到“你长大要做什么”，从语音交互应答数据库中查找到与之对应的应答信息，例如“我长大要做一名司机”，并将该信息作为语音文本信息。

在步骤S130中，判断得到的语音文本信息中是否存在特定词汇，若存在则执行步骤S140，否则执行步骤S170输出与语音文本信息对应的语音输出。

“特定词汇”为事先已被设定好的词汇或短语，且与动作指令关联地被存储在规则数据列表或数据库中。可以根据当前网络技术用语或用户需求更新或添加“特定词汇”，使数据库的内容更加丰富，提高用户体验。

在该步骤中，可以遍历数据库中的特定词汇，将得到的语音文本信息与每个特定词汇进行词形相似度和/或语义相似度计算，判断语音文本信息中是否存在对应的特定词汇。当词形相似度大于阈值，且数值极大，则无需计算语义相似度即可判断语音文本存在特定词汇，否则，计算语义相似度和词形相似度的加权和来判断是否存在特定词汇。关于判断得到的语音文本信息中是否存在特定词汇的方法，还可以通过其他技术来实现，此处不做限定。

在步骤S140中，判断特定词汇的个数是否大于1，若否，则执行步骤S150查找与该特定词汇对应的动作指令，完成语音输出和动作输出，否则，随机确定一个特定词汇再执行步骤S150。有时会在一个待输出的语音文本信息中查找到多个特定词汇，为了加快机器人内部处理，采用随机模式选择一个特定词汇，并以此为准来完成动作输出。

在步骤S150中，查找与该特定词汇对应的动作指令，根据语音文本信息和动作指令完成语音输出和智能机器人的动作输出。

具体地，从预先存储在规则数据列表或数据库中查找与该特定词汇对应的动作指令。动作输出在对应词汇的语音输出时刻输出，实现动作输出与语音输出相匹配。也就是说，在进行多模态输出时，保证语音输出和动作输出处于协同状态，因此在语音输出对应词汇的同时发出动作指令，再根据动作指令做出相应动作。例如，在机器人发出语音“我长大要做一个司机”时，在发出“司机”的语音的同时进行“转方向盘”的动作。

更具体地时，动作指令一般可以包括完成相应动作的具体硬件控制、硬件自由度对应数值等指令数据的完整信息。例如，自由度1：以手臂自由垂直时的状态为基准，侧举90°。机器人在实现上面自由度1的动作时，具体为用于驱动机器人手臂的驱动电机控制器接收控制数据，电机驱动模块执行该控制数据驱动机器人的臂部做出动作。

在步骤160中，若多模态输入信息不存在对应的语音文本，则机器人根据解析结果进行相应的处理。该多模态输入信息有可能是用户发出的待执行任务，例如，“跳舞”或者“播放音乐”等执行指令，机器人根据指令调用相应的应用程序/硬件装置来执行这些任务。

在步骤S170中，若语音文本信息中不存在特定词汇，则直接通过语音输出设备例如麦克风发出与语音文本信息对应的语音。

实施例二

图2为涉及本发明的应用于智能机器人的多模态输出方法的示例二的流程示意图，该实施例的方法主要包括以下步骤，其中，将与实施例一相似的步骤以相同的标号标注，且不再赘述其具体内容，仅对区别步骤进行具体描述。

在步骤S110中，机器人接收多模态输入信息。

在步骤S120中，对多模态输入信息进行解析，根据解析结果判断是否存在对应的语音文本信息，若判断结果为“是”，则执行步骤S130’，否则执行步骤S160根据解析结果进行处理。

在步骤S130’中，判断得到的语音文本信息中是否存在特定词汇，若存在则执行步骤S140，否则执行步骤S170输出与语音文本信息对应的语音输出。

需要说明的是，该步骤S130’与实施例一的步骤S130存在不同，具体判断方式如下。

在本例中，“特定词汇”也是为事先被设定好的词汇或短语，且与动作指令关联地被存储在规则数据列表或数据库中。本步骤为了更加快速查找与特定词汇对应的动作指令，按照这些特定词汇的不同的词性分类存储了多个数据列表或数据库。例如，这些数据列表中包括名词列表、动词列表、形容词列表、名词动组合列表、名词形容词组合列表、动词形容词组合列表等。另外，机器人内部还存储了不同动作指令对应的优先级别和权重值。当然，按照其他规则来分类存储数据列表也是可行的，本发明不作限定。

在该步骤中，首先，对语音文本信息中的词汇进行词性标注，可以采用HMM模型来实现。在确定不同词汇的词性后，找到相应词性列表，遍历该词性列表中的特定词汇，计算词形相似度和/或语义相似度，判断该词汇是否是对应的特定词汇。当词形相似度大于阈值，且数值较大，则无需计算语义相似度即可判断该词汇为特定词汇，否则，计算语义相似度和词形相似度的加权和再来判断。

例如，语音文本信息为“我长大要做一个司机”，对该文本进行词性标注时，“司机”一词被标注成名词词性，则查找名词列表中是否存在该词，若存在，则确定“司机”为特定词汇。

在步骤S140中，判断特定词汇的个数是否大于1，若否，则执行步骤S150查找与该特定词汇对应的动作指令，完成语音输出和动作输出，否则，执行步骤S180。

在步骤S180中，若特定词汇的个数大于1，则按照多个特定词汇匹配的动作指令对应的优先级和权重，输出一个或多个动作指令，完成语音输出和动作输出。

为了防止执行多个特定词汇对应的动作指令产生冲突，因此按照动作指令的优先级和权重确定要输出的动作指令。例如，预先将涉及手部的动作的优先级别和权重设置较高，当出现需要执行手部动作和腿部动作时，可以只输出手部动作指令；又如，预先将涉及手部的多个动作设置不同的优先级别和权重，当出现需要执行多个手部动作时，选择优先级高的动作指令输出；再如，在出现需要执行多个手部动作和腿部动作时，由于手部动作和腿部动作一般不出现操作冲突，可以输出优先级别和权重高的手部动作和腿部动作。

实施例三

图3为本申请实施例的应用于智能机器人的多模态输出装置300的结构框图。如图3所示，本申请实施例的多模态输出装置300，主要包括：多模态信息接收模块310、文本信息生成模块320、动作指令生成模块330以及多模态输出模块340。

多模态信息接收模块310，其接收多模态输入信息。

文本信息生成模块320，其与多模态信息接收模块310连接，对多模态输入信息进行解析，并根据解析结果生成与之对应的语音文本信息。

动作指令生成模块330，其与文本信息生成模块320连接，提取语音文本信息中的特定词汇，并生成与特定词汇相匹配的动作指令。特定词汇为如下之一或组合：设定名词、设定动词和设定形容词。动作指令生成模块330进一步当提取到多个特定词汇时，按照多个特定词汇匹配的动作指令对应的优先级和权重，输出一个或多个动作指令。

多模态输出模块340，其与动作指令生成模块330连接，根据语音文本信息和动作指令完成语音输出和智能机器人的动作输出。多模态输出模块340进一步在对应词汇的语音输出时刻执行所述动作输出，实现动作输出与语音输出相匹配。

通过合理设置，本实施例的多模态输出装置300可以执行实施例一和实施例二的各个步骤，此处不再赘述。

本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括以上全部或部分步骤，所述的存储介质，如：ROM/RAM、磁碟、光盘等。

Claims

1.一种应用于智能机器人的多模态输出方法，该方法包括：

接收多模态输入信息；

对所述多模态输入信息进行解析，并根据解析结果生成与之对应的语音文本信息；

提取所述语音文本信息中的特定词汇，并生成与所述特定词汇相匹配的动作指令；以及

根据所述语音文本信息和动作指令完成语音输出和智能机器人的动作输出。

2.根据权利要求1所述的多模态输出方法，其特征在于，所述特定词汇为如下之一或组合：

设定名词、设定动词和设定形容词。

3.根据权利要求1或2所述的多模态输出方法，其特征在于，

当提取到多个特定词汇时，按照所述多个特定词汇匹配的动作指令对应的优先级和权重，输出一个或多个动作指令。

4.根据权利要求1所述的多模态输出方法，其特征在于，

一个动作指令对应一个或多个特定词汇。

5.根据权利要求1～4中任一项所述的多模态输出方法，其特征在于，

动作在对应词汇的语音输出时刻输出，实现动作输出与语音输出相匹配。

6.一种应用于智能机器人的多模态输出装置，该装置包括：

多模态信息接收模块，其设置为接收多模态输入信息；

文本信息生成模块，其设置为对所述多模态输入信息进行解析，并根据解析结果生成与之对应的语音文本信息；

动作指令生成模块，其设置为提取所述语音文本信息中的特定词汇，并生成与所述特定词汇相匹配的动作指令；以及

多模态输出模块，其设置为根据所述语音文本信息和动作指令完成语音输出和智能机器人的动作输出。

7.根据权利要求6所述的多模态输出装置，其特征在于，所述特定词汇为如下之一或组合：

设定名词、设定动词和设定形容词。

8.根据权利要求6或7所述的多模态输出装置，其特征在于，

所述动作指令生成模块进一步设置为当提取到多个特定词汇时，按照所述多个特定词汇匹配的动作指令对应的优先级和权重，输出一个或多个动作指令。

9.根据权利要求7所述的多模态输出装置，其特征在于，

一个动作指令对应一个或多个特定词汇。

10.根据权利要求6～9中任一项所述的多模态输出装置，其特征在于，

所述多模态输出模块进一步设置为在对应词汇的语音输出时刻执行所述动作输出，实现动作输出与语音输出相匹配。