CN108942926A

CN108942926A - 一种人机交互的方法、装置和系统

Info

Publication number: CN108942926A
Application number: CN201810689988.5A
Authority: CN
Inventors: 骆磊
Original assignee: As Science And Technology (beijing) Co Ltd
Current assignee: As Science And Technology (beijing) Co Ltd; Cloudminds Beijing Technologies Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2018-12-07
Anticipated expiration: 2038-06-28
Also published as: CN108942926B

Abstract

本发明实施方式涉及人机交互技术领域，特别是涉及一种人机交互的方法、装置和系统。该方法包括：与移动终端建立对话连接；接收所述移动终端获取到的第一语音信息，同时通过所述机器人自身配置的语音采集装置收集第二语音信息；根据所述第一语音信息和第二语音信息,控制所述机器人执行操作。所以，所述方法可实现机器人与移动终端建立对话连接；机器人通过移动终端获取用户的语音信息，由此即便机器人处于嘈杂环境下，用户也可以通过移动终端的麦克风向机器人传输高质量的语音信息，解决了当机器人在特定条件下无法获取用户的高质量语音信息的问题。

Description

一种人机交互的方法、装置和系统

技术领域

本发明实施方式涉及人机交互技术领域，特别是涉及一种人机交互的方法、装置和系统。

背景技术

随着科学技术和国民经济的快速发展，以及网络传输、大数据科技的发展和硬件处理能力的提升，越来越多的机器人走进了人们的家庭生活。当前人和机器人的沟通主要通过语音的方式，机器人通过自身的麦克风(一般为多个，或者阵列形式)捕获到人的声波，通过本地或云端的能力进行前处理、语音识别和语义理解，得到应答文本，再通过文本转语音将应答通过声音的方式反馈给用户，达到一个交流过程的闭环。

但是本发明的发明人在实现本发明的过程中，发现现有技术中存在以下问题：在实际场景中，机器人所处的环境并不总是能安静到足以保证语音识别的正确率，比如在一些非常嘈杂的地方，以当前的技术水平，机器人很难将发声人的语音从噪声中剥离出来，由于得到的原始数据的质量太低，也就造成了机器人进行后续一系列处理的错误率将极大提升，机器人可能往往无法进行有效应答或者做出错误的理解、错误的应答。多次这样的对话，就会给用户非常不好的印象，尤其是在面对众多观众的实时演示时，因环境噪声的不可预测，实际演示效果往往不是太好。因此，在当前技术前提下，能够提供一种方法在特定条件下能够让用户的语音更高质量的传输给机器人将会变得非常有意义。

发明内容

本发明实施方式主要解决的技术问题是提供一种人机交互的方法、装置和系统，所述方法可实现机器人与移动终端建立对话连接；机器人通过移动终端获取用户的语音信息，由此即便机器人处于嘈杂环境下，用户也可以通过移动终端的麦克风向机器人传输高质量的语音信息，解决了当机器人在特定条件下无法获取用户的高质量语音信息的问题。

第一方面，为解决上述技术问题，本发明实施方式采用的一个技术方案是：提供一种人机交互的方法，应用于机器人，所述方法包括：

与移动终端建立对话连接；

接收所述移动终端获取到的第一语音信息，同时通过所述机器人自身配置的语音采集装置收集第二语音信息；

根据所述第一语音信息和第二语音信息,控制所述机器人执行操作。

可选的，所述与移动终端建立对话连接的步骤，包括：

接收请求对话连接的请求信息；

判断是否存在已经建立的对话连接；

若否，与所述移动终端建立对话连接，并向所述移动终端返回连接建立成功的信息。

可选的，所述与移动终端建立对话连接的步骤，还包括：

若存在已经建立的对话连接，判断是否支持多个对话连接；

若是，向所述移动终端返回已经建立对话连接的对象信息并询问是否加入已经建立的对话连接；

接收所述移动终端获取的加入对话指令；

根据所述加入对话指令与所述移动终端建立对话连接，并向所述移动终端返回连接建立成功的信息。

可选的，所述与移动终端建立对话连接的步骤，还包括：

若不支持多个对话连接，则向所述移动终端返回已经建立对话连接的对象信息并询问是否断开已经建立的对话连接；

接收所述移动终端获取的断开对话指令；

根据所述断开对话指令断开所述已经建立的对话连接；

与所述移动终端建立对话连接，并向所述移动终端返回连接建立成功的信息。

可选的，在所述根据所述第一语音信息和第二语音信息,控制所述机器人执行操作,包括：

若所述第二语音信息的内容和所述第一语音信息的内容一致且所述第二语音信息的音量大于或者等于预设的语音阈值，则根据所述第一语音信息控制扬声器发声；

若所述第二语音信息的内容和所述第一语音信息的内容一致且所述第二语音信息的音量小于预设的语音阈值，则根据所述第一语音信息获取第一执行命令的步骤；

若所述第二语音信息的内容和所述第一语音信息的内容不一致但所述第二语音信息的音量大于或者等于预设的语音阈值，则分别根据所述第一语音信息和所述第二语音信息执行操作。

可选的，所述第一语音信息包括语音或者文字。

第二方面，为解决上述技术问题，本发明实施方式采用的另一个技术方案是：提供一种人机交互的装置，其应用于机器人，所述装置包括：

连接模块，其用于与移动终端建立对话连接；

第一接收模块，其用于接收所述移动终端获取到的第一语音信息，同时通过所述机器人自身配置的语音采集装置收集第二语音信息；

执行模块，用于根据所述第一语音信息和第二语音信息,控制所述机器人执行操作。

可选的，所述连接模块包括：

第一接收单元，其用于接收请求对话连接的请求信息；

第一判断单元，其用于判断是否存在已经建立的对话连接；

第一连接单元，其用于若不存在已经建立的对话连接，与所述移动终端建立对话连接，并向所述移动终端返回连接建立成功的信息。

可选的，所述连接模块还包括：

第二判断单元，其用于若存在已经建立的对话连接，判断是否支持多个对话连接；

第一询问单元，其用于若支持多个对话连接，向所述移动终端返回已经建立对话连接的对象信息并询问是否加入已经建立的对话连接；

第一接收单元，其用于接收所述移动终端获取的加入对话指令；

第二连接单元，其用于根据所述加入对话指令与所述移动终端建立对话连接，并向所述移动终端返回连接建立成功的信息。

可选的，所述连接模块还包括：

第一询问单元，其用于若不支持多个对话连接，则向所述移动终端返回已经建立对话连接的对象信息并询问是否断开已经建立的对话连接；

第二接收单元，其用于接收所述移动终端获取的断开对话指令；

断开单元，其用于根据所述断开对话指令断开所述已经建立的对话连接；

第三连接单元，其用于与所述移动终端建立对话连接，并向所述移动终端返回连接建立成功的信息。

可选的，所述执行模块包括：

判断模块，其用于判断所述第二语音信息的内容是否和所述第一语音信息一致；若是，则进入执行所述根据所述第一语音信息获取第一执行命令的步骤；

第二获取模块，其用于若所述第二语音信息的内容和所述第一语音信息不一致，则进入执行所述根据所述第一语音信息获取第一执行命令的步骤，且根据所述第二语音信息获取第二执行命令；

第二执行模块，其用于根据所述第二执行命令执行操作。

可选的，所述第一语音信息包括语音或者文字。

第三方面，为解决上述技术问题，本发明实施方式采用的又一个技术方案是：提供一种机器人，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器、通信组件和音频数据采集器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时调用音频数据采集器的数据，通过通信组件与移动终端建立连接，以使所述至少一个处理器能够执行上述第一方面所述的方法。

第四方面，为解决上述技术问题，本发明实施方式采用的又一个技术方案是：提供一种人机交互的系统，包括：

上述第三方面所述的机器人和移动终端，所述机器人和所述移动终端可建立对话连接。

本发明实施方式的有益效果是：区别于现有技术的情况，在本发明实施方式中，所述方法包括：与移动终端建立对话连接；接收所述移动终端获取到的第一语音信息，同时通过所述机器人自身配置的语音采集装置收集第二语音信息；根据所述第一语音信息和第二语音信息,控制所述机器人执行操作。所以，所述方法可实现机器人与移动终端建立对话连接；机器人通过移动终端获取用户的语音信息，由此即便机器人处于嘈杂环境下，用户也可以通过移动终端的麦克风向机器人传输高质量的语音信息，解决了当机器人在特定条件下无法获取用户的高质量语音信息的问题。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明实施方式中人机交互的应用环境的示意图；

图2是本发明实施方式一中的一种人机交互的方法的流程图；

图3是本发明实施方式一人机交互的方法中与移动终端建立对话连接的具体步骤的流程示意图；

图4是本发明实施方式一中的一种人机交互的方法的另一流程图；

图5是本发明实施方式二中的一种人机交互的方法的流程图；

图6是本发明实施方式二人机交互的方法中与机器人建立对话连接的第一种情况的流程示意图；

图7是本发明实施方式二人机交互的方法中与机器人建立对话连接的第二种情况的流程示意图；

图8是本发明实施方式二人机交互的方法中与机器人建立对话连接的第三种情况的流程示意图；

图9是本发明实施方式三中的一种人机交互的装置的示意图；

图10是本发明实施方式三人机交互的装置中连接模块的示意图；

图11是本发明实施方式四中的一种人机交互的装置的示意图；

图12是本发明实施方式五提供的一种机器人的硬件结构示意图；

图13是本发明实施方式六提供的一种移动终端的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。

为了便于阅读理解，首先请参阅图1，图1为本发明实施方式中的一种人机交互的应用环境的示意图，其中包括：机器人10、移动终端20和用户30。机器人10为各种可自动执行工作的机器装置，它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动，例如，机器人10包括服务机器人、水下机器人、娱乐机器人、军用机器人和农业机器人等等，机器人10上设置有自身麦克风，自身麦克风用于获取用户语音信息，机器人10上还设置有扬声器和显示屏幕的辅助设备，机器人10可以通过扬声器进行发声或者通过显示屏幕显示信息。移动终端20为可以在移动中使用的计算机设备，例如，移动终端20包括手机、笔记本、平板电脑、POS机和车载电脑等等，移动终端20上设置有耳麦或者麦克风，耳麦或者麦克风用于获取用户语音信息，移动终端20上还设置有操作屏幕或者操作键盘等，操作屏幕或者操作键盘用于获取用户操作，移动终端20上还可设置有显示屏幕的扬声器等辅助设备。其中，在本发明实施方式中，机器人10在本地执行一个host端，移动终端20上安装有一个client端，host端与client端当处于同一个WiFi网络下或其他小范围局域网下或可建立点对点连接时，也就是确保移动终端20与机器人10的范围处于一定范围内时，处于常连接状态，其中，移动终端20与机器人10处于常连接状态但非对话模式。当移动终端20与机器人10处于常连接的状态下时，用户30可以通过移动终端20的耳麦尝试建立和机器人10的对话连接，例如，用户可以向移动终端20发出“Pepper,建立对话连接”的语音，其中，“Pepper”作为Client端的关键词，该关键词可用户自定义，一旦移动终端20监测到关键词，则client端等待后续命令；当然，也可通过在移动终端20上通过触摸屏操作实现该对话连接请求，此处不做限定，该对话连接请求的信息协同移动终端20和用户30的唯一识别号发送给Host端，唯一识别号包括用户ID、手机号等等。

当用户30通过移动终端20与机器人10建立起对话连接后，用户30便可以通过移动终端20向机器人10发送语音，机器人10将根据用户30的语音执行操作。由于用户30通过移动终端20的耳麦与机器人10进行对话，因为麦克风就在用户30的嘴边，且部分耳麦还有降噪功能，所以用户30的语音得以最高信噪比通过网络传递给机器人10，由此，即便机器人10处于嘈杂环境下，用户30也可以通过移动终端20的麦克风向机器人10传输高质量的语音信息，解决了当机器人10在特定条件下无法获取用户30的高质量语音信息的问题，此外，机器人10接收到网络传输过来的用户30清晰语音或者已经经过语音识别的文字信息，再通过与自身麦克风接收到语音的情况智能进行比较，即可判定当前为语音对话还是命令，或者两者同时，并做出相应的处理。

实施方式一

请参阅图2，图2为本发明实施方式一中的一种人机交互的方法的流程图，应用于机器人，方法包括：

步骤101：与移动终端建立对话连接；

机器人的host端接收到请求信息后，会根据自身当前状态进行回复，自身当前状态可分为当前没有已经建立的对话，当前已有一个已建立的对话且机器人不支持多连接的对话，当前已有一个或多个已建立的对话且机器人还可支持更多连接的对话，具体的，请参阅图3，步骤101包括以下步骤1011至步骤1021：

步骤1011：接收请求对话连接的请求信息；

机器人接收移动终端发送过来的请求对话连接的请求信息，其中，请求信息时移动终端获取用户的请求操作后产生的，例如，用户可以向移动终端发出“Pepper,建立对话连接”的语音，其中，“Pepper”作为Client端的关键词，该关键词可用户自定义，一旦移动终端20监测到关键词，则client端等待后续命令并产生请求信息发送至机器人；当然，用户也可在移动终端上通过触摸屏操作实现该请求操作，移动终端再产生请求信息发送至机器人，此处不做限定。

步骤1012：判断是否存在已经建立的对话连接；

获取自身当前的对话连接状态，判断是否存在已经建立的对话连接，若有，还将获取已经建立对话连接的对象信息，对象信息包括对象的唯一识别号，唯一识别号包括用户ID、手机号等等。

步骤1013：若否，即不存在已经建立的对话连接时，则与移动终端建立对话连接，并向移动终端返回连接建立成功的信息。

建立对话连接后，便可以和移动终端进行对话，并通过语音和/或屏幕显示的方式告知用户连接建立成功。

步骤1014：若存在已经建立的对话连接，判断是否支持多个对话连接；

步骤1015：若是，向移动终端返回已经建立对话连接的对象信息并询问是否加入已经建立的对话连接；

其中，询问是否加入已经建立的对话连接的方式包括通过语音和/或屏幕显示的方式告知该用户，并反馈当前已经建立对话连接的对象信息，并提示是否建立此对话连接，如询问内容包括“当前已经和Mike、Tom建立了对话连接，是否加入此对话连接？”，该过程并不影响当前机器人与连接方的对话，机器人可并行处理。

步骤1016：接收移动终端获取的加入对话指令；

执行步骤1015后可接收移动终端反馈回来的加入对话指令，例如，假设步骤1015的询问内容为“当前已经和Mike、Tom建立了对话连接，是否加入此对话连接？”，若收到移动终端反馈回来的信息为“是”，则该信息为加入对话指令。

步骤1017：根据加入对话指令与移动终端建立对话连接，并向移动终端返回连接建立成功的信息。

当接收到加入对话指令后建立对话连接，便可以和移动终端进行对话，并通过语音和/或屏幕显示的方式告知用户连接建立成功。

步骤1018：若不支持多个对话连接，则向移动终端返回已经建立对话连接的对象信息并询问是否断开已经建立的对话连接；

其中，询问是否断开已经建立的对话连接的方式包括通过语音和/或屏幕显示的方式告知该用户，并反馈当前已经建立对话连接的对象信息，并提示是否强制断开当前已经建立对话连接来建立此方对话连接，是否可以强制断开别人的对话连接取决于具体需求和实现，此处不做限定，如询问内容包括“当前已经和Mike建立了对话连接，是否断开对方连接？”，该过程并不影响当前机器人与连接方的对话，机器人可并行处理。

步骤1019：接收移动终端获取的断开对话指令；

执行步骤1018后可接收移动终端反馈回来的断开对话指令，例如，假设步骤1018的询问内容为“当前已经和Mike建立了对话连接，是否断开对方连接？”，若收到移动终端反馈回来的信息为“是”，则该信息为断开对话指令。

步骤1020：根据断开对话指令断开已经建立的对话连接；

当接收到断开对话指令后断开已经建立的对话连接。

步骤1021：与移动终端建立对话连接，并向移动终端返回连接建立成功的信息。

步骤102：接收移动终端获取到的第一语音信息，同时通过所述机器人自身配置的语音采集装置收集第二语音信息；

其中，第一语音信息是由移动终端获取用户的语音后处理得到的，第一语音信息包括语音或者文字等；第二语音信息是由机器人自身麦克风获取用户的语音后处理得到的。

步骤103：根据所述第一语音信息和第二语音信息,控制所述机器人执行操作。

可选的，从第一语音信息获取命令关键字得到第一执行命令，例如，第一语音信息为“Pepper，向前移动一米”，则第一执行命令为“向前移动一米”；同样的，从第二语音信息获取命令关键字得到第二执行命令，再根据第一执行命令和第二执行命令进行操作。可选的，当第二语音信息太嘈杂无法获取第二执行命令时，可以单独执行第一执行命令，实现即便机器人处于嘈杂环境下，用户也可以通过移动终端的麦克风向机器人传输高质量的语音信息，解决了当机器人在特定条件下无法获取用户的高质量语音信息的问题。

进一步的，由于机器人带有自身麦克风，其自身麦克风也可以获取用户的语音，因此可能会出现用户直接通过机器人的自身麦克风向机器人发送控制语音，例如，在实际展示场景中，用户可能拿着一个移动终端与机器人交流，且通过大扬声器让全场包括机器人都可以听到，或者，在实际展示场景中，一用户可能拿着一个移动终端与机器人交流，另一用户站在机器人旁边和机器人交流。为了更好的满足上述多种情况，因此，请进一步参阅图4，在本发明实施方式一中的步骤103包括以下步骤1031至步骤1033：

步骤1031：若第二语音信息的内容和第一语音信息的内容一致且第二语音信息的音量大于或者等于预设的语音阈值，则根据第一语音信息控制扬声器发声；

可选的，此步骤中机器人获取到的第一语音信息和第二语音信息为同一时间段或者时刻获取的，机器人预设有语音阈值，机器人通过自身麦克风获取用户语音的同时也会记录用户的第二语音信息的音量，当第二语音信息的音量大于或者等于预设的语音阈值时，说明该第二语音信息是让全场人以及机器人听到的语音信息，此时用户和移动终端的对话是为了让全场都能听见，且第二语音信息的内容和第一语音信息的内容一致，因此，机器人将根据第一语音信息控制扬声器发声，让全场人都可以听到。

步骤1032：若第二语音信息的内容和第一语音信息的内容一致且第二语音信息的音量小于预设的语音阈值，则根据第一语音信息执行操作；

当第二语音信息的音量小于预设的语音阈值时，说明该第二语音信息是让单独给机器人下的命令且不希望观众听到，且第二语音信息的内容和第一语音信息的内容一致，因此，机器人将根据第一语音信息执行操作，例如，假设此时的第一语音信息的内容为“Pepper，断开对话连接”，机器人将断开与该用户的对话连接，流程结束；假设此时的第一语音信息的内容为“Pepper，向前移动一米”，则机器人执行向前移动一米的动作。

步骤1033：若第二语音信息的内容和第一语音信息的内容不一致但第二语音信息的音量大于或者等于预设的语音阈值，则分别根据第一语音信息和第二语音信息执行操作。

当第二语音信息的内容和第一语音信息的内容不一致但第二语音信息的音量大于或者等于预设的语音阈值时，说明一用户单独通过机器人的自身麦克风向机器人传输语音，另一用户通过移动终端向机器人传输的语音是让全场人以及机器人听到的语音信息，此时用户和移动终端的对话是为了让全场都能听见，则此时分别根据第一语音信息和第二语音信息执行操作。

在本发明实施方式一中，机器人可以与移动终端建立对话连接；接收移动终端获取到的第一语音信息；接收所述移动终端获取到的第一语音信息，同时通过所述机器人自身配置的语音采集装置收集第二语音信息；根据所述第一语音信息和第二语音信息,控制所述机器人执行操作。所以，方法可实现机器人与移动终端建立对话连接；机器人通过移动终端获取用户的语音信息，由此即便机器人处于嘈杂环境下，用户也可以通过移动终端的麦克风向机器人传输高质量的语音信息，解决了当机器人在特定条件下无法获取用户的高质量语音信息的问题。进一步的，机器人还可以根据自身配置的语音采集装置收集第二语音信息并根据所述第一语音信息和第二语音信息，控制所述机器人执行操作，满足用户更多的使用需求，确保用户可以采用多种方式控制机器人。

实施方式二

请参阅图5，图5为本发明实施方式二中的一种人机交互的方法的示意图，其应用于移动终端，包括：

步骤201：与机器人建立对话连接；

移动终端在向机器人发送对话连接的请求信息后，将机器人的host端会根据自身当前状态进行回复，自身当前状态可分为当前没有已经建立的对话，当前已有一个已建立的对话且机器人不支持多连接的对话，当前已有一个或多个已建立的对话且机器人还可支持更多连接的对话，因此，步骤201将具体包括以下三种情况，第一种情况包括以下步骤2011至步骤2014，第二种情况包括以下步骤2011至步骤2013以及步骤2015至步骤2017，第三种情况包括以下步骤2011至步骤2013以及步骤2018至步骤2020：

请参阅图6，图6为第一种情况的流程图：

步骤2011：接收请求对话连接的请求操作；

移动终端可获取用户的请求操作，例如，用户可以向移动终端发出“Pepper,建立对话连接”的语音；当然，用户也可在移动终端上通过触摸屏操作实现该请求操作，此处不做限定。

步骤2012：判断请求操作是否与预设的请求指令相匹配；

其中，移动终端中预存有预设的请求指令，在获取到请求操作将会把请求操作与预设的请求指令进行匹配，例如，假设获取的请求操作为语音信息“Pepper,建立对话连接”，且预设的请求指令中包括将“Pepper”作为Client端的关键词，该关键词可用户自定义，因此当移动终端监测到关键词，则确认请求操作是否与预设的请求指令相匹配。即在本发明实施方式二中，接收请求对话连接的请求操作的步骤，包括：接收用户的请求语音。判断请求操作是否与预设的请求指令相匹配的步骤，包括：判断请求语音中是否包括预设的关键字信息，若是，则请求操作与预设的请求指令相匹配。

步骤2013：若是，形成请求信息并发送至机器人；

执行步骤2012之后，若确认请求操作与预设的请求指令相匹配则形成请求信息并发送至机器人。

步骤2014：接收机器人反馈的连接建立成功的信息。

连接建立成功之后将接收机器人反馈的连接建立成功的信息，并通过语音和/或屏幕显示的方式告知用户连接建立成功。

请参阅图7，图7为第二种情况的流程图：

步骤2011：接收请求对话连接的请求操作；

步骤2012：判断请求操作是否与预设的请求指令相匹配；

步骤2013：若是，形成请求信息并发送至机器人；

步骤2015：接收机器人反馈的是否加入已经建立的对话连接的信息；

此步骤接收机器人的询问，询问包括是否加入已经建立的对话连接，询问的方式包括通过语音和/或屏幕显示的方式告知该用户，并反馈当前已经建立对话连接的对象信息，并提示是否建立此对话连接，如询问内容包括“当前已经和Mike、Tom建立了对话连接，是否加入此对话连接？”。

步骤2016：接收加入对话指令并传输至机器人；

执行步骤2015后可接收用户的加入对话指令，例如，假设步骤2015的询问内容为“当前已经和Mike、Tom建立了对话连接，是否加入此对话连接？”，若收到用户语音为“是”，则该信息为加入对话指令。

步骤2017：接收机器人反馈的连接建立成功的信息。

请参阅图8，图8为第三种情况的流程图：

步骤2011：接收请求对话连接的请求操作；

步骤2012：判断请求操作是否与预设的请求指令相匹配；

步骤2013：若是，形成请求信息并发送至机器人；

步骤2018：接收机器人反馈的是否断开已经建立的对话连接的信息；

此步骤接收机器人的询问，询问包括是否断开已经建立的对话连接，询问的方式包括通过语音和/或屏幕显示的方式告知该用户，并反馈当前已经建立对话连接的对象信息，并提示是否强制断开当前已经建立对话连接来建立此方对话连接，是否可以强制断开别人的对话连接取决于具体需求和实现，此处不做限定，如询问内容包括“当前已经和Mike建立了对话连接，是否断开对方连接？”。

步骤2019：接收断开对话指令并传输至机器人；

执行步骤2018后可接收用户的断开对话指令，例如，假设步骤2018的询问内容为“当前已经和Mike建立了对话连接，是否断开对方连接？”，若收到用户语音为“是”，则该信息为断开对话指令。

步骤2020：接收机器人反馈的连接建立成功的信息。

步骤202：获取用户语音；

通过耳麦或者麦克风获取用户语音。

进一步的，在本发明实施方式二中，为了确保只有移动终端的授权使用者才可以通过该移动终端和机器人建立通话，因此步骤202还包括以下步骤2021和步骤2022：

步骤2021：判断用户语音的声纹与预设的授权声纹是否匹配；

移动终端中预存有预设的授权声纹，该预设的授权声纹为该移动终端的授权使用者。

步骤2022：若是，则进入将用户语音转换为第一语音信息并传输至机器人的步骤。

步骤203：将用户语音转换为第一语音信息并传输至机器人。

第一语音信息包括语音和文字，此步骤可将所获取的用户语音转换为文字再传输至机器人。

在本发明实施方式二中，移动终端可与机器人建立对话连接；获取用户语音；将用户语音转换为第一语音信息并传输至机器人。由此，方法可实现机器人与移动终端建立对话连接；机器人通过移动终端获取用户的语音信息，由此即便机器人处于嘈杂环境下，用户也可以通过移动终端的麦克风向机器人传输高质量的语音信息，解决了当机器人在特定条件下无法获取用户的高质量语音信息的问题。

实施方式三

请参阅图9，图9为本发明实施方式三中的一种人机交互的装置的示意图，其应用于机器人，装置300包括：连接模块301、第一接收模块302、执行模块303、第二接收模块305、判断模块306、第二获取模块307和第二执行模块308。

连接模块301，其用于与移动终端建立对话连接；

第一接收模块302，其用于接收移动终端获取到的第一语音信息，同时通过所述机器人自身配置的语音采集装置收集第二语音信息；

执行模块303，用于根据所述第一语音信息和第二语音信息,控制所述机器人执行操作；

可选的，请参阅图10，连接模块301包括：

第一接收单元3011，其用于接收请求对话连接的请求信息；

第一判断单元3012，其用于判断是否存在已经建立的对话连接；

第一连接单元3013，其用于若不存在已经建立的对话连接，与移动终端建立对话连接，并向移动终端返回连接建立成功的信息。

可选的，连接模块301还包括：

第二判断单元3014，其用于若存在已经建立的对话连接，判断是否支持多个对话连接；

第一询问单元3015，其用于若支持多个对话连接，向移动终端返回已经建立对话连接的对象信息并询问是否加入已经建立的对话连接；

第一接收单元3016，其用于接收移动终端获取的加入对话指令；

第二连接单元3017，其用于根据加入对话指令与移动终端建立对话连接，并向移动终端返回连接建立成功的信息。

可选的，连接模块301还包括：

第一询问单元3018，其用于若不支持多个对话连接，则向移动终端返回已经建立对话连接的对象信息并询问是否断开已经建立的对话连接；

第二接收单元3019，其用于接收移动终端获取的断开对话指令；

断开单元3020，其用于根据断开对话指令断开已经建立的对话连接；

第三连接单元3021，其用于与移动终端建立对话连接，并向移动终端返回连接建立成功的信息。

第二接收模块305，其用于接收第二语音信息；

判断模块306，其用于判断第二语音信息的内容是否和第一语音信息一致；若是，则进入执行根据第一语音信息获取第一执行命令的步骤；

第二获取模块307，其用于若第二语音信息的内容和第一语音信息不一致，则进入执行根据第一语音信息获取第一执行命令的步骤，且根据第二语音信息获取第二执行命令；

第二执行模块308，其用于根据第二执行命令执行操作。

可选的，第一语音信息包括语音或者文字。

需要说明的是：由于本发明实施方式三的装置实施方式与实施方式一基于相同的发明构思，方法的实施方式一的技术内容同样适用于装置的实施方式三，因此，装置的实施方式三中与方法的实施方式一相同的技术内容和有益效果在此不再一一赘述。

实施方式四

请参阅图11，图11为本发明实施方式四中的一种人机交互的装置的示意图，其应用于移动终端，装置400包括：连接模块401、获取模块402、转换模块403和判断模块404。

连接模块401，其用于与机器人建立对话连接；

获取模块402，其用于获取用户语音；

转换模块403，其用于将用户语音转换为第一语音信息并传输至机器人。

可选的，连接模块401包括：

第一接收单元，其用于接收请求对话连接的请求操作；

判断单元，其用于判断请求操作是否与预设的请求指令相匹配；

发送单元，其用于若请求操作与预设的请求指令相匹配，形成请求信息并发送至机器人；

第二接收单元，其用于接收机器人反馈的连接建立成功的信息。

可选的，连接模块401包括：

第一接收单元，其用于接收请求对话连接的请求操作；

第三接收单元，其用于接收机器人反馈的是否加入已经建立的对话连接的信息；

第四接收单元，其用于接收加入对话指令并传输至机器人；

可选的，连接模块401包括：

第一接收单元，其用于接收请求对话连接的请求操作；

第五接收单元，其用于接收机器人反馈的是否断开已经建立的对话连接的信息；

第六接收单元，其用于接收断开对话指令并传输至机器人；

可选的，第一接收单元用于接收用户的请求语音；

判断单元用于判断请求语音中是否包括预设的关键字信息，若是，则请求操作与预设的请求指令相匹配。

判断模块404，其用于判断用户语音的声纹与预设的授权声纹是否匹配；若是，则进入将用户语音转换为第一语音信息并传输至机器人的步骤。

可选的，第一语音信息包括语音或者文字。

需要说明的是：由于本发明实施方式四的装置实施方式与实施方式二基于相同的发明构思，方法的实施方式二的技术内容同样适用于装置的实施方式四，因此，装置的实施方式四中与方法的实施方式二相同的技术内容和有益效果在此不再一一赘述。

实施方式五

请参考图12，图12是本发明实施方式五提供的一种机器人的硬件结构示意图，如图12所示，该机器人10包括：

至少一个处理器11；以及，

与至少一个处理器11通信连接的存储器12、通信组件13和音频数据采集器14；其中，

存储器12存储有可被至少一个处理器执行的指令，指令被至少一个处理器11执行时调用音频数据采集器14的数据，通过通信组件13与移动终端建立连接，以使至少一个处理器11能够执行上述实施方式一中的方法，图12中以一个处理器11为例。

存储器12作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施方式中的人机交互的方法对应的程序指令/模块(例如，附图9所示的连接模块301、第一接收模块302、执行模块303、第二接收模块305、判断模块306、第二获取模块307和第二执行模块308)。处理器11通过运行存储在存储器12中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施方式一中的方法。

存储器12可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据人机交互的装置的使用所创建的数据等。此外，存储器12可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器12可选包括相对于处理器11远程设置的存储器，这些远程存储器可以通过网络连接至人机交互的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器12中，当被一个或者多个处理器11执行时，执行上述方法实施方式一中的人机交互的方法，例如，执行以上描述的图2中的方法步骤101至步骤103，图3中的方法步骤1011至步骤1021，图4中的方法步骤1031至步骤1033的功能。

本发明实施方式还提供了一种计算机程序产品，包括存储在非暂态计算机可读存储介质上的计算程序，计算机程序包括程序指令，当程序指令被计算机执行时时，使计算机执行上述任意方法实施方式的人机交互的方法，例如，执行以上描述的图2中的方法步骤101至步骤103，图3中的方法步骤1011至步骤1021，图4中的方法步骤1031至步骤1033的功能。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

实施方式六

请参考图13，图13是本发明实施方式六提供的一种移动终端的硬件结构示意图，如图13所示，该移动终端20包括：

至少一个处理器21；以及，

与至少一个处理器21通信连接的存储器22、通信组件23和音频数据采集器24；其中，

存储器22存储有可被至少一个处理器21执行的指令，指令被至少一个处理器21执行时调用音频数据采集器24的数据，通过通信组件24与机器人10建立连接，以使至少一个处理器21能够执行上述实施方式二中的方法，图13中以一个处理器21为例。

存储器22作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施方式中的人机交互的方法对应的程序指令/模块(例如，附图11所示的连接模块401、获取模块402、转换模块403和判断模块404)。处理器21通过运行存储在存储器22中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施方式二中的方法。

存储器22可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据人机交互的装置的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至人机交互的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器22中，当被一个或者多个处理器21执行时，执行上述方法实施方式二中的人机交互的方法，例如，执行以上描述的图5中的方法步骤201至步骤203，图6至图8中的方法步骤2011至步骤2020的功能。

本发明实施方式还提供了一种计算机程序产品，包括存储在非暂态计算机可读存储介质上的计算程序，计算机程序包括程序指令，当程序指令被计算机执行时时，使计算机执行上述任意方法实施方式的人机交互的方法，例如，执行以上描述的图5中的方法步骤201至步骤203，图6至图8中的方法步骤2011至步骤2020的功能。

实施方式七

请再参考图1，人机交互的系统100包括：

上述实施方式五的机器人10和上述实施方式六的移动终端20，机器人10和移动终端20可建立对话连接。

需要说明的是：本发明实施方式七的具体技术内容和有益效果请参照上述实施方式一至六的内容，在此不再一一赘述。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种人机交互的方法，应用于机器人，其特征在于，包括：

与移动终端建立对话连接；

2.根据权利要求1所述的方法，其特征在于，

所述与移动终端建立对话连接的步骤，包括：

接收请求对话连接的请求信息；

判断是否存在已经建立的对话连接；

3.根据权利要求2所述的方法，其特征在于，

所述与移动终端建立对话连接的步骤，还包括：

若存在已经建立的对话连接，判断是否支持多个对话连接；

接收所述移动终端获取的加入对话指令；

4.根据权利要求3所述的方法，其特征在于，

所述与移动终端建立对话连接的步骤，还包括：

接收所述移动终端获取的断开对话指令；

根据所述断开对话指令断开所述已经建立的对话连接；

5.根据权利要求1至4任一项所述的方法，其特征在于，

在所述根据所述第一语音信息和第二语音信息,控制所述机器人执行操作,包括：

6.根据权利要求1至4任一项所述的方法，其特征在于，

所述第一语音信息包括语音或者文字。

7.一种人机交互的装置，应用于机器人，其特征在于，包括：

连接模块，其用于与移动终端建立对话连接；

8.根据权利要求7所述的装置，其特征在于，

所述连接模块包括：

第一接收单元，其用于接收请求对话连接的请求信息；

第一判断单元，其用于判断是否存在已经建立的对话连接；

9.根据权利要求8所述的装置，其特征在于，

所述连接模块还包括：

10.根据权利要求9所述的装置，其特征在于，

所述连接模块还包括：

11.根据权利要求7至10任一项所述的装置，其特征在于，所述执行模块包括：

第二执行模块，其用于根据所述第二执行命令执行操作。

12.根据权利要求7至10任一项所述的装置，其特征在于，

所述第一语音信息包括语音或者文字。

13.一种机器人，其特征在于，包括：

至少一个处理器；以及，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时调用音频数据采集器的数据，通过通信组件与移动终端建立连接，以使所述至少一个处理器能够执行权利要求1-6任一项所述的方法。

14.一种人机交互的系统，其特征在于，包括：

移动终端和上述权利要求13所述的机器人，所述机器人和所述移动终端可建立对话连接。