CN107016070A

CN107016070A - 一种用于智能机器人的人机对话方法及装置

Info

Publication number: CN107016070A
Application number: CN201710174002.6A
Authority: CN
Inventors: 赵杰
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Guangnian Wuxian Technology Co Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2017-08-04
Anticipated expiration: 2037-03-22
Also published as: CN107016070B

Abstract

一种用于智能机器人的人机对话方法及装置，其中，该方法包括：ASR解析步骤，在TTS引擎为空闲状态时，对接收到的用户语音信息进行解析，得到ASR解析结果；待播放文本信息生成步骤，对ASR解析结果进行语义解析，得到语义解析结果，并根据语义解析结果生成待播放文本信息；TTS语音输出步骤，利用TTS引擎根据待播放文本信息生成相应的反馈语音信息并输出。该方法能够避免由于语义解析结果与正在运行的应用存在冲突而导致的对话系统运行紊乱的问题，还能够控制机器人基于语义解析结果进行动作响应或应用开启/关闭响应，这样也就使得智能机器人表现地更加智能化。

Description

一种用于智能机器人的人机对话方法及装置

技术领域

本发明涉及机器人技术领域，具体地说，涉及一种用于智能机器人的人机对话方法及装置。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。

发明内容

为解决上述问题，本发明提供了一种用于智能机器人的人机对话方法，其包括：

ASR解析步骤，在TTS引擎为空闲状态时，对接收到的用户语音信息进行解析，得到ASR解析结果；

待播放文本信息生成步骤，对所述ASR解析结果进行语义解析，得到语义解析结果，并根据所述语义解析结果生成待播放文本信息；

TTS语音输出步骤，利用所述TTS引擎根据所述待播放文本信息生成相应的反馈语音信息并输出。

根据本发明的一个实施例，在所述待播放文本信息生成步骤中，根据所述语义解析结果判断所述用户语音的语义类别，其中，如果所述语义类别为聊天交互类别，那么则根据所述语义解析结果和智能机器人的当前状态生成所述待播放文本信息。

根据本发明的一个实施例，如果所述智能机器人的当前状态为休眠状态，则根据所述语义解析结果生成系统提示信息。

根据本发明的一个实施例，如果所述智能机器人的当前状态为应用运行状态，那么进一步判断所述语义解析结果与正在运行的应用是否匹配，并基于匹配结果根据所述语义解析结果生成所述待播放文本信息。

根据本发明的一个实施例，如果所述语义解析结果与正在运行的应用匹配，那么则利用所述正在运行的应用根据所述语义解析结果生成所述待播放文本信息；

如果所述语义解析结果与正在运行的应用不匹配，那么则结束本轮对话交互过程。

根据本发明的一个实施例，如果所述语义类别为动作交互类别，那么则根据所述语义解析结果生成相应的动作交互指令。

根据本发明的一个实施例，如果所述语义类别为应用启动交互类别，那么则根据所述语义解析结果生成相应的应用启动指令，以开启相应应用。

本发明还提供了一种用于智能机器人的人机对话装置，其包括：

ASR解析模块，其用于在TTS引擎为空闲状态时，对接收到的用户语音信息进行解析，得到ASR解析结果；

待播放文本信息生成模块，其用于对所述ASR解析结果进行语义解析，得到语义解析结果，并根据所述语义解析结果生成待播放文本信息；

TTS语音输出模块，其用于利用所述TTS引擎根据所述待播放文本信息生成相应的反馈语音信息并输出。

根据本发明的一个实施例，所述待播放文本信息生成模块配置为根据所述语义解析结果判断所述用户语音的语义类别，其中，如果所述语义类别为聊天交互类别，那么则根据所述语义解析结果和智能机器人的当前状态生成所述待播放文本信息。

根据本发明的一个实施例，如果所述智能机器人的当前状态为休眠状态，所述待播放文本信息生成模块则配置为根据所述语义解析结果生成系统提示信息；

如果所述智能机器人的当前状态为应用运行状态，所述待播放文本信息生成模块则配置为进一步判断所述语义解析结果与正在运行的应用是否匹配，并基于匹配结果根据所述语义解析结果生成所述待播放文本信息。

根据本发明的一个实施例，如果所述语义解析结果与正在运行的应用匹配，那么所述待播放文本信息生成模块则配置为利用所述正在运行的应用根据所述语义解析结果生成所述待播放文本信息；

如果所述语义解析结果与正在运行的应用不匹配，那么所述待播放文本信息生成模块则配置为结束本轮对话交互过程。

根据本发明的一个实施例，如果所述语义类别为动作交互类别，那么所述待播放文本信息生成模块则配置为根据所述语义解析结果生成相应的动作交互指令；

如果所述语义类别为应用启动交互类别，那么所述待播放文本信息生成模块则配置为根据所述语义解析结果生成相应的应用启动指令，以开启相应应用。

本发明所提供的人机对话方法采用单工机制来控制机器人对话系统的运行，其区别于人类的双工对话机制(例如可以一边说一边听)。该方法能够根据智能机器人的当前状态来生成不同的待播放文本信息并利用TTS引擎来播放相应的反馈语音，其能够避免由于语义解析结果与正在运行的应用存在冲突而导致的对话系统运行紊乱的问题。同时，该方法还能够控制机器人基于语义解析结果进行动作响应或应用开启/关闭响应，这样也就使得智能机器人表现地更加智能化。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要的附图做简单的介绍：

图1是根据本发明一个实施例的用于智能机器人的人机对话方法的实现流程示意图；

图2是根据本发明另一个实施例的用于智能机器人的人机对话方法的实现流程示意图；

图3是根据本发明一个实施例的聊天交互类别下的人机对话方法的实现流程示意图；

图4是根据本发明一个实施例的用于智能机器人的人机对话装置的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

同时，在以下说明中，出于解释的目的而阐述了许多具体细节，以提供对本发明实施例的彻底理解。然而，对本领域的技术人员来说显而易见的是，本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明提供了一种新的用于智能机器人的人机对话方法，该方法根据智能机器人的不同状态来采用不同的方式来生成待播放文本信息并利用TTS引擎来播放相应的反馈语音，其能够避免由于语义解析结果与正在运行的应用存在冲突而导致的对话系统运行紊乱的问题。

为了更加清楚地阐述本发明所提供的用于智能机器人的人机对话方法的实现原理、实现过程以及优点，以下分别结合不同的实施例来对该人机对话方法作进一步地说明。

实施例一：

图1示出了本实施例所提供的用于智能机器人的人机对话方法的实现流程示意图。

如图1所示，本实施例所提供的人机对话方法首先在步骤S101中判断TTS引擎当前是否为空闲状态。具体地，本实施例中，该方法通过判断TTS队列中是否存在未播放的数据来判断TTS引擎当前是否为空闲状态。其中，如果TTS队列中存在未播放的数据，那么TTS引擎则就需要将这些未播放的数据转换为语音信息，因此TTS引擎也就处于非空闲状态，此时该方法就会在步骤S102中播放TTS队列中的相关数据，并返回步骤S101重新判断TTS引擎是否为空闲状态。而如果TTS队列中不存在未播放的数据，那么也就表示此时TTS引擎不存在需要播放的数据。

需要指出的是，在本发明的其他实施例中，该方法在步骤S101中还可以采用其他合理的方式来判断TTS引擎是否处于空闲状态，本发明不限于此。

本实施例中，如果TTS引擎处于空闲状态，那么该方法则会在步骤S103中开启ASR进程来获取用户语音信息，并对所获取到的用户语音信息进行解析，从而得到ASR解析结果。

本实施例所提供的用于智能机器人的人机对话方法采用的单工机制，其区别与人类的双工对话机制。如果TTS引擎为非空闲状态，那么该方法将会等待TTS引擎转换为空闲状态后再开启ASR进程，这样将使得智能机器人在输出相关语音反馈信息的时候并不会获取用户语音信息，即智能机器人说的时候不听、听的时候不说。

该方法在步骤S103中通过对获取到的用户语音信息进行自动语音识别(Automatic Speech Recognition，简称ASR)，得到相应的文本信息。本实施例中，根据实际需要，该方法在对用户语音信息进行语音识别后，还会对得到的文本信息进行相关处理，从而过滤掉上述文本信息中的部分内容。例如，该方法通过对文本信息进行过滤，可以去除诸如空字符串等无意义的内容。

如图1所示，在得到ASR解析结果后，该方法会在步骤S104中对上述ASR解析结果进行语义解析，从而得到语义解析结果。具体地，本实施例中，在得到ASR解析结果后，该方法会进一步判断该ASR解析结果是否正常。例如，如果ASR解析结果为纯字符字符串，那么该方法将会判定该ASR解析结果不正常。其中，如果步骤S103中所得到的ASR解析结果正常，那么该方法会将上述ASR解析结果传输至云端服务器，以由云端服务器来对ASR解析结果进行语义解析，从而得到语义解析结果。

需要指出的是，在本发明的其他实施例中，该方法还可以采用其他合理的方式来对ASR解析结果进行语音解析以得到语义解析结果，本发明不限于此。例如，在本发明的一个实施例中，该方法还可以利用智能机器人来对ASR解析结果进行语义解析。

该方法在步骤S105中会根据步骤S104中所得到的语义解析结果来生成待播放文本信息，并在步骤S106中利用TTS引擎根据上述步骤S105中所得到的待播放文本信息生成相应的反馈语音信息并输出。

实施例二：

图2示出了本实施例所提供的用于智能机器人的人机对话方法的实现流程示意图。

如图2所示，本实施例所提供的人机对话方法首先在步骤S201中在TTS引擎为空闲状态时对接收到的用户语音信息进行解析，从而得到ASR解析结果。随后，该方法会在步骤S202中对上述步骤S201中所得到的ASR解析结果进行语义解析，从而得到语义解析结果。

需要指出的是，本实施例中，上述步骤S201以及步骤S202的实现原理以及实现过程与上述实施例一中步骤S105和步骤S106所涉及的内容类似，故在此不再对步骤S201以及步骤S202的具体实现原理以及过程进行赘述。

如图2所示，在得到语义解析结果后，该方法会在步骤S203中根据语义解析结果判断用户语音的语义类别。本实施例中，用户语音的语义类别优选地包括聊天交互类别、动作交互类别以及应用启动交互类别。具体地，在得到用户语音的语义类别后，该方法会在步骤S204中判断用户语音的语义类别是否为聊天交互类别。

其中，如果用户语音的语义类别为聊天交互类别，那么该方法则会在步骤S205中根据语义解析结果和智能机器人的当前状态来生成待播放文本信息。在得到待播放文本信息后，该方法会在步骤S206中利用TTS引擎根据步骤S205中所得到的上述待播放文本信息生成相应的反馈语音信息并输出。

图3示出本实施例中聊天交互类别下的人机对话方法的实现流程示意图。

如图3所示，本实施例中，如果用户语音的语义类别为聊天交互类别，那么该方法将在步骤S301中判断智能机器人的当前状态是否为休眠状态。具体地，本实施例中，该方法在步骤S301中可以通过读取智能机器人的相关状态参数来确定智能机器人的当前状态。当然，在本发明的其他实施例中，该方法还可以采用其他合理方式来确定智能机器人的当前状态，本发明不限于此。

如果智能机器人的当前状态为休眠状态，那么该方法则会在步骤S302中将会根据上述语义解析结果来生成相应的系统提示信息，该系统提示信息能够表征智能机器人当前处于休眠状态并且无法对用户输入的语音交互信息进行快速响应。

而如果智能机器人的当前状态为非休眠状态，那么如图3所示，本实施例中，该方法则会在步骤S303中进一步判断上述语义解析结果与正在运行的应用是否匹配。其中，如果上述语义解析结果与正在运行的应用匹配，那么该方法则会在步骤S304中利用正在运行的应用根据上述语义解析结果生成相应的待播放文本信息；而如果上述语义解析结果与正在运行的应用不匹配，那么该方法则会在步骤S305中结束本轮对话交互过程。

例如，智能机器人当前运行的应用为猜谜应用，而用户所输入的语音交互信息为“唱首歌给我听吧”，那么该方法所得到的上述语音交互信息的语义解析结果是对应于唱歌应用的，该语义解析结果显然与当前运行的猜谜应用不匹配，因此该方法将当前交互过程中所得到的语义解析结果丢弃并结束本轮对话交互过程。

需要指出的是，在本申请的其他实施例中，该方法在步骤S205中生成待播放文本信息以及在步骤S206中生成反馈语音信息的具体原理以及实现过程还可以与上述实施例一中步骤S103以及步骤S104所阐述的内容类似，故在此不再对步骤S205以及步骤S206的相关内容进行赘述。

如果在步骤S204中判断出用户语音的语义类别不为聊天交互类别，那么如图2所示，本实施例中，该方法则会在步骤S207中进一步判断用户语音的语义类别是否为动作交互类别，并在步骤S208中根据语义解析结果生成相应的动作交互指令。

例如，如果该方法在步骤S201中所获取到的用户语音信息为诸如“来拥抱一下”的语音信息，那么该方法在步骤S207中也就会判断出此时上述用户语音信息的语义类别为动作交互类别，此时该方法也就会在步骤S208中根据上述语义解析结果来生成诸如“做拥抱动作”的动作交互指令，以控制智能机器人做出“拥抱”的动作，从而实现与用户之间的动作交互。

而如果该方法在步骤S207中判断出用户语音的语义类别不为动作交互类别，那么该方法则会在步骤S209中进一步判断上述用户语音的语义类别是否为应用启动交互类别。

其中，如果用户语音的语义类别为应用启动交互类别，那么该方法则会在步骤S201中根据步骤S202中所得到的语义解析结果来生成相应的应用启动指令。例如，如果该方法在步骤S201中所获取到的用户语音信息为诸如“来给我拍个照片”的语音信息，那么该方法在步骤S209中也就会判断出此时上述用户语音信息的语义类别为应用启动交互类别，此时该方法会在步骤S210中根据上述语义解析结果来生成诸如“启动照相应用”的应用启动指令，从而启动智能机器人操作系统中的照相应用。

从上述描述中可以看出，本发明所提供的人机对话方法采用单工机制来控制机器人对话系统的运行，其区别于人类的双工对话机制(例如可以一边说一边听)。该方法能够根据智能机器人的当前状态来生成不同的待播放文本信息并利用TTS引擎来播放相应的反馈语音，其能够避免由于语义解析结果与正在运行的应用存在冲突而导致的对话系统运行紊乱的问题。同时，该方法还能够控制机器人基于语义解析结果进行动作响应或应用开启/关闭响应，这样也就使得智能机器人表现地更加智能化。

本发明还提供了一种用于智能机器人的人机对话装置，图4示出了本实施例中该人机对话装置的实现流程示意图。

如图4所示，本实施例所提供的用于智能机器人的人机对话装置优选地包括：ASR解析模块401、待播放文本信息生成模块402以及TTS语音输出模块403。其中，ASR解析模块401用于在TTS引擎为空闲状态时，对接收到的用户语音信息进行解析，从而得到ASR解析结果。

在得到ASR解析结果后，ASR解析模块401会将上述ASR解析结果传输至待播放文本信息生成模块402，以由待播放文本信息生成模块402对上述ASR解析结果进行语义解析得到语义解析结果，并根据上述语义解析结果生成待播放文本信息。

需要指出的是，在本发明的不同实施例中，根据实际需要，上述待播放文本信息生成模块402既可以配置在云端服务器中，也可以配置在智能机器人内部，本发明不限于此。

待播放文本信息生成模块402与TTS语音输出模块403连接，其能够将自身生成的待播放文本信息传输至TTS语音输出模块403。本实施例中，TTS语音输出模块403会利用TTS引擎来根据接收到的待播放文本信息生成相应的反馈语音信息并输出。

本实施例中，上述ASR解析模块401、待播放文本信息生成模块402以及TTS语音输出模块403实现各自功能的原理以及过程既可以与上述实施例一中步骤S101至步骤S106所阐述的内容类似，也可以与上述实施例二中步骤S201至步骤S210所产生的内容类似，故在此不再对上述ASR解析模块401、待播放文本信息生成模块402以及TTS语音输出模块403的相关内容进行赘述。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构或处理步骤，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理，但对于本领域的技术人员来说，在不背离本发明的原理和思想的情况下，明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此，本发明由所附的权利要求书来限定。

Claims

1.一种用于智能机器人的人机对话方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在所述待播放文本信息生成步骤中，根据所述语义解析结果判断所述用户语音的语义类别，其中，如果所述语义类别为聊天交互类别，那么则根据所述语义解析结果和智能机器人的当前状态生成所述待播放文本信息。

3.如权利要求2所述的方法，其特征在于，如果所述智能机器人的当前状态为休眠状态，则根据所述语义解析结果生成系统提示信息。

4.如权利要求2或3所述的方法，其特征在于，如果所述智能机器人的当前状态为应用运行状态，那么进一步判断所述语义解析结果与正在运行的应用是否匹配，并基于匹配结果根据所述语义解析结果生成所述待播放文本信息。

5.如权利要求4所述的方法，其特征在于，如果所述语义解析结果与正在运行的应用匹配，那么则利用所述正在运行的应用根据所述语义解析结果生成所述待播放文本信息；

6.如权利要求2～5中任一项所述的方法，其特征在于，如果所述语义类别为动作交互类别，那么则根据所述语义解析结果生成相应的动作交互指令。

7.如权利要求2～6中任一项所述的方法，其特征在于，如果所述语义类别为应用启动交互类别，那么则根据所述语义解析结果生成相应的应用启动指令，以开启相应应用。

8.一种用于智能机器人的人机对话装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述待播放文本信息生成模块配置为根据所述语义解析结果判断所述用户语音的语义类别，其中，如果所述语义类别为聊天交互类别，那么则根据所述语义解析结果和智能机器人的当前状态生成所述待播放文本信息。

10.如权利要求9所述的装置，其特征在于，如果所述智能机器人的当前状态为休眠状态，所述待播放文本信息生成模块则配置为根据所述语义解析结果生成系统提示信息；

11.如权利要求10所述的装置，其特征在于，如果所述语义解析结果与正在运行的应用匹配，那么所述待播放文本信息生成模块则配置为利用所述正在运行的应用根据所述语义解析结果生成所述待播放文本信息；

12.如权利要求9～11中任一项所述的装置，其特征在于，如果所述语义类别为动作交互类别，那么所述待播放文本信息生成模块则配置为根据所述语义解析结果生成相应的动作交互指令；