CN106847274A

CN106847274A - 一种用于智能机器人的人机交互方法及装置

Info

Publication number: CN106847274A
Application number: CN201611218151.XA
Authority: CN
Inventors: 王合心
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2017-06-13
Anticipated expiration: 2036-12-26
Also published as: CN106847274B

Abstract

一种用于智能机器人的人机交互方法及装置，其中，该方法包括：获取用户输入的交互语音信息；将交互语音信息上传至云端服务器，由云端服务器对交互语音信息进行识别，并接收云端服务器发送的云端语音识别结果；其中，将语音信息上传至云端服务器之后，至收到云端服务器发送的云端语音识别结果之前，若接收到用户输入的新的语音信息，则调用离线语音识别模块对用户输入的新的语音信息进行识别得到离线语音识别结果，并根据离线语音识别结果生成相应的多模态反馈信息并输出。本方法避免了在等待云端服务器的语音识别结果的过程中无法对用户所输入的新的语音交互信息进行响应的问题，使得机器人能够更加合理地对用户所输入的语音交互信息进行反馈。

Description

一种用于智能机器人的人机交互方法及装置

技术领域

本发明涉及机器人技术领域，具体地说，涉及一种用于智能机器人的人机交互方法及装置。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

发明内容

为解决上述问题，本发明提供了一种用于智能机器人的人机交互方法，其包括：

步骤一，获取用户输入的交互语音信息；

步骤二，将所述交互语音信息上传至云端服务器，由所述云端服务器对所述交互语音信息进行识别，并接收所述云端服务器发送的云端语音识别结果；

其中，在所述步骤二中，将所述语音信息上传至云端服务器之后，至收到所述云端服务器发送的云端语音识别结果之前，若接收到用户输入的新的语音信息，则调用离线语音识别模块对用户输入的新的语音信息进行识别得到离线语音识别结果，并根据所述离线语音识别结果生成相应的多模态反馈信息并输出。

根据本发明的一个实施例，在所述步骤二中，调用离线语音识别模块，确定所述用户输入的新的语音信息与所述离线语音识别模块中的预置命令词是否匹配，若匹配，则获得离线语音识别结果。

根据本发明的一个实施例，在所述步骤二中，在调用离线语音识别模块时，如果所述离线语音识别模块识别出预设指令信息，则生成忽略云端语音识别指令，以在接收到所述云端服务器反馈的云端语音识别结果时根据所述忽略云端语音识别指令忽略所述云端语音识别结果。

根据本发明的一个实施例，在所述步骤二中，如果调用离线语音识别模块对用户输入的新的语音信息识别失败，则将所述新的语音信息发送到云端服务器进行识别，并输出指示用户等待的多模态指示数据。

本发明还提供了一种用于智能机器人的人机交互装置，其包括：

交互语音信息获取模块，其用于获取用户输入的交互语音信息；

语音识别模块，其用于将所述交互语音信息上传至云端服务器，由所述云端服务器对所述交互语音信息进行识别，并接收所述云端服务器发送的云端语音识别结果；

其中，所述语音识别模块配置为将所述语音信息上传至云端服务器之后，至收到所述云端服务器发送的云端语音识别结果之前，若接收到用户输入的新的语音信息，则调用离线语音识别模块对用户输入的新的语音信息进行识别得到离线语音识别结果，并根据所述离线语音识别结果生成相应的多模态反馈信息并输出。

根据本发明的一个实施例，所述语音识别模块配置为调用离线语音识别模块，确定所述用户输入的新的语音信息与所述离线语音识别模块中的预置命令词是否匹配，若匹配，则获得离线语音识别结果。

根据本发明的一个实施例，所述语音识别模块配置为在调用离线语音识别模块时，如果所述离线语音识别模块识别出预设指令信息，则生成忽略云端语音识别指令，以在接收到所述云端服务器反馈的云端语音识别结果时根据所述忽略云端语音识别指令忽略所述云端语音识别结果。

根据本发明的一个实施例，所述语音识别模块配置为如果调用离线语音识别模块对用户输入的新的语音信息识别失败，则将所述新的语音信息发送到云端服务器进行识别，并输出指示用户等待的多模态指示数据。

相较于现有的用于机器人的人机交互方法，本发明所提供的人机交互方法避免了在等待云端服务器的语音识别结果的过程中无法对用户所输入的新的语音交互信息进行响应的问题，该方法使得智能机器人能够更加合理地对用户所输入的语音交互信息进行反馈，从而使得智能智能机器人能够表现得更加人性化，提高了智能机器人的用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的用于智能机器人的人机交互方法的实现流程示意图；

图2是根据本发明另一个实施例的用于智能机器人的人机交互方法的实现流程示意图；

图3是根据本发明又一个实施例的用于智能机器人的人机交互方法的实现流程示意图；

图4是根据本发明一个实施例的用于智能机器人的人机交互装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

对于现有的智能机器人来说，其与用户进行语音交互的时候，会将获取到的用户输入的语音交互信息传输到云端服务器，由云端服务器来对上述语音交互信息进行识别并将相应的识别结果推送至智能机器人，这样智能机器人也就可以根据云端服务器所推送来的语音识别结果来生成相应的反馈信息。

然而，对于上述过程来说，从用户输入语音交互信息到智能机器人输出相应的反馈信息往往需要一段长度不等的时长，在该时段内，智能机器人会处于静默状态。这也就使得在现有的人机交互过程中，用户在向智能机器人输入一段语音后，往往需要静静地等待智能机器人的反馈。如果用户在这段等待时长内继续输入新的语音信息的话，智能机器人则不会对用户所输入的信息的语音信息进行响应，从而影响了智能机器人的交互体验。

针对现有技术所存在的上述问题，本发明提供了一种新的用于智能机器人的人机交互方法，该方法利用云端服务器和离线服务器配合地实现对用户输入的语音交互信息的识别与反馈。

为了更加清楚地阐述本发明所提供的用于智能机器人的人机交互方法的实现原理、实现过程以及优点，以下分别结合不同的实施例来对该人机交互方法作进一步地说明。

实施例一：

图1示出了本实施例所提供的用于智能机器人的人机交互方法的实现流程示意图。

如图1所示，本实施例所提供的人机交互方法首先在步骤S101中获取用户输入的交互语音信息。本实施例中，该方法在步骤S101中优选地通过智能机器人所配置的音频采集设备(例如麦克风)来获取用户输入的交互语音信息。

在得到用户的交互语音信息后，该方法会在步骤S102中将上述交互语音信息传输至云端服务器，以由云端服务器对上述交互语音信息进行识别。需要指出的是，在本发明的不同实施例中，根据智能机器人与云端服务器之间所采用的数据传输方式的不同，该方法在步骤S102可以相应地采用不同的合理方式来实现交互语音信息的上传，本发明不限于此。例如，在本发明的一个实施例中，该方法在步骤S102中可以通过WiFi、移动通讯网络或有线网络的方式来将用户输入的交互语音信息上传至云端服务器。

由于云端服务器在对智能机器人上传来的交互语音信息进行语音识别的过程需要耗费一定时长，因此该方法会持续监听云端服务器所反馈的识别结果(即云端语音识别结果)。本实施例中，该方法还会在监听云端服务器所反馈的识别结果的过程监听用户是否输入了新的语音信息。

其中，如果该方法在等待云端服务器反馈云端语音识别结果时接收到用户输入的信息的语音信息，那么如图1所示，该方法则会在步骤S103中调用离线语音识别模块来对获取到的新的语音信息进行识别，从而得到离线语音识别结果。

需要指出的是，在本发明的其他实施例中，该方法所使用的离线语音识别模块还可以采用其他合理的识别基元来对汉语语音进行识别，同时，根据实际需要，该方法还可以利用上述离线识别模块对其他语种的语言进行语音识别，本发明不限于此。

如图1所示，在得到离线语音识别结果后，该方法会在步骤S104中根据步骤S103中所得到的上述离线语音识别结果来生成相应的多模态反馈信息并输出。需要指出的是，在本发明的不同实施例中，根据实际需要，该方法在步骤S104中所生成并输出的多模态反馈信息中所包含的信息形式既可以为某一种，也可以为某一种的组合，本发明不限于此。

例如，用户向智能机器人输入了诸如“明天的天气怎么样”的交互语音信息，该方法在步骤S101中也就会通过智能机器人所配置的语音采集设备获取到上述语音交互信息，并且在步骤S102中将上述语音交互信息上传至云端服务器。在智能机器人输出相应的反馈信息前，该用户又向智能机器人输入了诸如“你看我今天穿这套衣服怎么样”的新的语音信息，此时该方法则会在步骤S103中调用离线语音识别模块对“你看我今天传这套衣服怎么样”这一语音信息进行识别，从而得到相应的离线语音识别结果。在步骤S104中，该方法将根据上述离线语义识别模块所得到的离线语义识别结果来生成诸如“你穿这套衣服太帅啦”的反馈信息。

实施例二：

图2示出了本实施例所提供的用于智能机器人的人机交互方法的实现流程示意图。

如图2所示，本实施例所提供的人机交互方法首先在步骤S201中获取用户输入的交互语音信息，并在步骤S202中将步骤S201中所获取到的交互语音信息上传至云端服务器。其中，如果该方法在等待云端服务器反馈云端语音识别结果时接收到用户输入的信息的语音信息，那么该方法则会在步骤S203中调用离线语音识别模块来对获取到的新的语音信息进行识别，从而得到离线语音识别结果。

需要指出的是，本实施例中，上述步骤S201至步骤S203的实现原理以及实现过程与上述实施例一中步骤S101至步骤S103所阐述的内容类似，故在此不再对步骤S201至步骤S203的相关内容进行赘述。

如图2所示，本实施例中，该方法在利用离线语音识别模块对用户所输入的新的语音信息进行识别的过程中，会在步骤S204中判断上述新的语音信息与离线语音识别模块中的预置命令词是否匹配。其中，如果上述新的语音信息能够与离线语音识别模块中的预置命令词相匹配，该方法则会在步骤S205中生成忽略云端语音识别指令。这样，当接收到云端服务器反馈的云端语音识别结果后，该方法则可以根据上述忽略云端语音识别指令来忽略上述云端语义识别结果，而在步骤S206中只是根据离线语音识别结果生成相应的多模态反馈信息并输出给用户。

需要指出的是，本实施例中，步骤S206的实现原理以及实现过程与上述实施例一中步骤S104所阐述的内容类似，故在此不再对步骤S206进行赘述。

例如，用户向智能机器人输入了诸如“好无聊，给我讲一个XX的故事吧”的交互语音信息，该方法在步骤S201中也就会通过智能机器人所配置的语音采集设备获取到上述语音交互信息，并且在步骤SS02中将上述语音交互信息上传至云端服务器。在智能机器人输出相应的反馈信息前，该用户又向智能机器人输入了诸如“还是给我跳支舞吧”的新的语音信息，此时该方法则会在步骤S203中调用离线语音识别模块对“还是给我跳支舞吧”这一语音信息进行识别，从而得到相应的离线语音识别结果。根据“还是给我跳支舞吧”这一语音信息，该方法会生成忽略云端语音识别指令，这样即使接收到云端服务器所反馈的云端语音识别结果，该方法也不会对该云端语音识别结果进行任何处理，而是在步骤S206中根据离线语音识别模块对“还是给我跳支舞吧”这一语音信息的识别结果来生成相应的机器人动作指令，从而控制智能机器人跳舞。

实施例三：

图3示出了本实施例所提供的用于智能机器人的人机交互方法的实现流程示意图。

如图3所示，本实施例所提供的人机交互方法首先在步骤S301中获取用户输入的交换语音信息，并在步骤S302中将步骤S301中所获取到的交互语音信息上传至云端服务器。其中，如果该方法在等待云端服务器反馈云端语音识别结果时接收到用户输入的信息的语音信息，那么该方法则会在步骤S303中调用离线语音识别模块来对获取到的新的语音信息进行识别，从而得到离线语音识别结果。

需要指出的是，本实施例中，上述步骤S301至步骤S303的实现原理以及实现过程与上述实施例一中步骤S101至步骤S103所阐述的内容类似，故在此不再对步骤S301至步骤S303的相关内容进行赘述。

本实施例中，如图3所示，该方法会在步骤S304中判断离线语音识别模块是否能够对用户所输入的新的语音信息进行正常识别。如果离线语音识别模块无法对用户所输入的新的语音信息进行识别，那么该方法则会在步骤S305中将上述新的语音信息上传至云端服务器，以由云端服务器来对上述新的语音信息进行识别。此外，本实施例中，如果离线语音识别模块无法对用户所输入的信息语音信息进行识别，该方法还会在步骤S306中生成用于指示用户等待的多模态指示数据并输出给当前用户，以提示用户当前无法利用离线语音识别模块对新的语音信息进行识别。当接收到云端服务器所反馈的云端语音识别结果后，该方法会在步骤S307中根据上述云端语音识别结果来生成相应的反馈信息并输出给当前用户，此时该云端语音识别结果既可以是云端服务器通过对用户输入的新的语音信息进行解析所得到的，也可以是云端服务器通过对步骤S302所接收到的交互语音信息以及用户所输入的新的语音信息进行解析所得到的。

而如果离线语音识别模块能够对用户所输入的新的语音信息进行识别，那么该方法则会根据离线语音识别模块所得到的离线语音识别结果来生成相应的多模态反馈信息。

如图3所示，本实施例中，如果该方法在等待云端服务器反馈相应的语音识别结果(即云端语音识别结果)的过程中没有接收到新的语音信息，那么该方法则会在步骤S307中根据上述云端语音识别结果来生成相应的反馈信息并输出给当前用户。此时该云端语音识别结果则是云端服务器通过对步骤S302所接收到的交互语音信息进行解析所得到的。

从上述描述中可以看出，相较于现有的用于机器人的人机交互方法，本发明所提供的人机交互方法避免了在等待云端服务器的语音识别结果的过程中无法对用户所输入的新的语音交互信息进行响应的问题，该方法使得智能机器人能够更加合理地对用户所输入的语音交互信息进行反馈，从而使得智能智能机器人能够表现得更加人性化，提高了智能机器人的用户体验。

本发明还提供了一种用于智能机器人的人机交互装置，图4示出了本实施例中该人机交互装置的结构示意图。

如图4所示，本实施例所提供的人机交互装置优选地包括交互语音信息获取模块401以及语音识别模块。其中，交互语音信息获取模块401用于获取用户输入的交互语音信息。本实施例中，交互语音信息获取模块401优选地通过智能机器人所配置的音频采集设备(例如麦克风)来获取用户输入的交互语音信息。

本实施例中，语音识别模块优选地包括离线语音识别模块402、云端服务器403以及和指令执行机构404。其中，交互语音信息获取模块401在获取到用户所输入的交互语音信息后，会将该交互语音信息上传至云端服务器403，以由云端服务器对上述交互语音信息进行识别。

本实施例中，交互语音信息获取模块401在将获取到的上述交互语音信息上传至云端服务器后，还会持续监听用户是否输入了新的语音信息。如果该人机交互装置尚未接收到云端服务器所推送来的反馈信息(即云端语音识别结果)却通过交互语音信息获取模块401获取到用户输入了新的语音信息。那么此时交互语音信息获取模块401则会将所获取到的上述新的语音信息传输至离线语音识别模块402。离线语音识别模块402会对上述新的语音信息进行识别，从而得到离线语音识别结果。

在得到离线语音识别结果后，离线语音识别模块402可以根据上述离线语音识别结果生成相应的执行指令，并将该执行指令发送至指令执行机构404，从而由指令执行机构404根据上述执行指令来生成相应的多模态反馈信息并输出给用户。

需要指出的是，在本发明的不同实施例中，语音识别模块实现其功能的具体原理以及过程既可以与上述实施例一中步骤S103和步骤S104所阐述的内容相同，也可以与上述实施例二中步骤S203至步骤S206所阐述的内容相同，还可以与上述实施例三中步骤S303至步骤S307所阐述的内容相同，故在此不再对语音识别模块的相关内容进行赘述。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

Claims

1.一种用于智能机器人的人机交互方法，其特征在于，包括：

步骤一，获取用户输入的交互语音信息；

2.如权利要求1所述的方法，其特征在于，在所述步骤二中，调用离线语音识别模块，确定所述用户输入的新的语音信息与所述离线语音识别模块中的预置命令词是否匹配，若匹配，则获得离线语音识别结果。

3.如权利要求2所述的方法，其特征在于，在所述步骤二中，在调用离线语音识别模块时，如果所述离线语音识别模块识别出预设指令信息，则生成忽略云端语音识别指令，以在接收到所述云端服务器反馈的云端语音识别结果时根据所述忽略云端语音识别指令忽略所述云端语音识别结果。

4.如权利要求2或3所述的方法，其特征在于，在所述步骤二中，如果调用离线语音识别模块对用户输入的新的语音信息识别失败，则将所述新的语音信息发送到云端服务器进行识别，并输出指示用户等待的多模态指示数据。

5.一种用于智能机器人的人机交互装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述语音识别模块配置为调用离线语音识别模块，确定所述用户输入的新的语音信息与所述离线语音识别模块中的预置命令词是否匹配，若匹配，则获得离线语音识别结果。

7.如权利要求6所述的装置，其特征在于，所述语音识别模块配置为在调用离线语音识别模块时，如果所述离线语音识别模块识别出预设指令信息，则生成忽略云端语音识别指令，以在接收到所述云端服务器反馈的云端语音识别结果时根据所述忽略云端语音识别指令忽略所述云端语音识别结果。

8.如权利要求6或7所述的装置，其特征在于，所述语音识别模块配置为如果调用离线语音识别模块对用户输入的新的语音信息识别失败，则将所述新的语音信息发送到云端服务器进行识别，并输出指示用户等待的多模态指示数据。