CN106057205B

CN106057205B - 一种智能机器人自动语音交互方法

Info

Publication number: CN106057205B
Application number: CN201610298990.0A
Authority: CN
Inventors: 张伟
Original assignee: Beijing Yunji Technology Co Ltd
Current assignee: Beijing Yunji Technology Co Ltd
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2020-01-14
Anticipated expiration: 2036-05-06
Also published as: CN106057205A

Abstract

本发明提出了一种智能机器人自动语音交互方法，包括以下步骤：智能机器人接收交流对象的语音；将语音转换成文字；将转换的文字上传至服务器；在服务器进行语义解析，根据解析的语义在数据库中查找文字对话内容；将找到的文字对话内容发送至智能机器人；智能机器人将文字对话内容转换成语音播放。智能机器人能够根据声音找到交流对象的位置，实现了智能机器人与交流对象明对面交流。而且还能够根据交流对象的面部特征，自动增加称呼，形成良好的沟通氛围。

Description

一种智能机器人自动语音交互方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种智能机器人自动语音交互方法。

背景技术

随着智能化时代的到来，机器人已经越来越走进人们的生活，生活中的服务机器人应用领域越来越广，我们的社会即将进入智能机器人的时代。例如，常见的服务机器人有送餐机器人、聊天机器人、导购机器人等等。这些机器人都需要与人进行互动交流。自然语言作为人类表达自己思想最方便、最自然的方式，已逐渐成为智能服务领域最主流的人机交互方式。由于自然语言具有开放性、随意性，表达方式多样，对自然语言进行语义解析，从而识别其真实含义，对于智能服务提供而言显得尤为重要。

在机器人与人进行沟通的过程中，为了提高人机交互的体验性，需要机器人能够识别出交流对象表达的含义，并且迅速做出快速应答。现有的机器人通常是将一些常见的语段存储在机器人存储装置中，在收到交流对象的语音后，根据语义解析结果在存储装置中寻找应答语段进行播放。但是，现实生活中，交流对象提出的很多问题是无法预先预料的，经常会遇到找不到合适答复语段，因此无法顺畅地进行交流。而且，针对不同交流对象千篇一律的采用同一个对话模式，也不能形成良好的沟通氛围。因此，如何让机器人与交流对象之间充分友好地交流成为机器人领域一个亟待解决的问题。

发明内容

为了解决现有技术中存在的问题，本发明提供了一种智能机器人自动语音交互方法，包括以下步骤：智能机器人接收交流对象的语音；将语音转换成文字；将转换的文字上传至服务器；在服务器进行语义解析，根据解析的语义在数据库中查找文字对话内容；将找到的文字对话内容发送至智能机器人；智能机器人将文字对话内容转换成语音播放。

进一步地，所述服务器预先根据语义场景对文字对话内容进行分类存储。

进一步地，智能机器人在将转换的文字上传至服务器的同时，上传智能机器人的身份信息。

进一步地，服务器根据智能机器人的身份信息，获得智能机器人的语义场景，根据该语义场景进行语义解析。

进一步地，服务器在每种语义场景模式下，设置该语义场景的关键词。

进一步地，服务器根据语义场景进行语义解析，得到多个语义解析结果，并根据该语义场景的解析结果的历史选择频次进行排序。

进一步地，从所述排序中选择预设数量的语义解析结果作为最终语义解析结果，并针对所述最终语义解析结果作出响应。

进一步地，智能机器人通过多个传感器获取交流对象的声音，通过定位函数确定交流对象的位置；根据确定的交流对象的位置，调整智能机器人的正面方向，使得智能机器人的正面对准交流对象。

进一步地，智能机器人通过摄像头捕捉交流对象的头像，根据面部识别结果，在对话中增加称呼内容。

进一步地，智能机器人记录交流对象的完整对话，上传至服务器，由服务器分析判断交流对象真正想表达的含义。

本发明的方法通过在服务器端建立数据库，能够存储和管理庞大的数据，对于绝大部分的对话都能够给出合适的回答。通过在线传送文字对话内容数据包，能够有效提高传输速率，缩短机器人交流的反应时间。

此外，智能机器人能够根据声音找到交流对象的位置，实现了智能机器人与交流对象明对面交流。而且还能够根据交流对象的面部特征，自动增加称呼，形成良好的沟通氛围。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1为根据本发明实施例的智能机器人自动语音交互方法的流程图。

图2是根据本发明一种实施方式的智能机器人寻声定位的示意图。

图3是根据本发明一种实施方式的智能机器人寻声定位后转动的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如图1所示，本发明提供一种智能机器人自动语音交互方法，包括以下步骤：

智能机器人接收交流对象的语音；

将语音转换成文字；

将转换的文字上传至服务器；

在服务器进行语义解析，根据解析的语义在数据库中查找文字对话内容；

将找到的文字对话内容发送至智能机器人；

智能机器人将文字对话内容转换成语音播放。

本发明的方法通过在服务器端建立数据库，能够存储和管理庞大的数据，对于绝大部分的对话都能够给出合适的回答。通过在线传送文字对话内容数据包，能够有效提高传输速率，缩短机器人交流的反应时间。语音与文字相互转换的技术为现有技术，在次不再赘述。

优选地，服务器预先根据语义场景对文字对话内容进行分类存储。服务器可以根据智能机器人的工作环境设置不同的语义场景。并且很据不同的语义场景中可能出现的对话内容分类进行存储。例如，在酒店提供送物品服务的智能机器人，可以根据其工作环境设置多个语义场景。例如，领取物品、搭乘电梯、遇到问路、到达客人房间等多个场景。根据这些场景中高频出现的对话内容，设置关键词，便于检索。

优选地，智能机器人在将转换的文字上传至服务器的同时，上传智能机器人的身份信息。每个智能机器人具有单独的身份标识符。服务器根据该身份标识符能够判断该智能机器人的服务场所，从而能够获得机器人的工作环境，快速调取针对该工作环境预设的语义场景，根据该语义场景进行语义解析，能够有效提高语义解析结果的正确率。此外，也能够根据语义场景实现快速准确的查找对话内容。

优选地，由于客人的发音不标准或者语音转换的准确性不够等因素，将可能导致服务器语义解析的准确性不高。为了解决该问题，服务器首先根据语义场景进行语义解析，而且将得到多个语义解析结果。针对获得多个解析结果，服务器将根据该语义场景中的类似解析结果的历史选择频次进行排序。通常，在某一语义场景中会出现大量重复的类似对话内容。服务器激动记录历史解析结果及选择结果。根据最终选择的频次对多个解析结果排序，从而提高了解析结果的准确率。

服务器从所述排序中选择预设数量的语义解析结果作为最终语义解析结果，并针对所述最终语义解析结果作出响应。服务器通常选择排序中的前几个解析结果做出响应，在数据库中查找对话内容，并且将对话内容按照排序发给智能机器人。智能机器人收到对话内容后，将其转换成语音播放。智能机器人根据交流对象的反应做出判断，如果交流对象没有反应，则智能机器人播放对话内容排序中的下一条内容。或者，智能机器人播放预设内容，例如“谢谢，请问还有什么问题么？”等。

优选地，智能机器人通过多个传感器获取交流对象的声音，通过定位函数确定交流对象的位置；根据确定的交流对象的位置，调整智能机器人的正面方向，使得智能机器人的正面对准交流对象。

例如，智能机器人通过三个以上的传感器(麦克风)接收交流对象的声音，通过测量声音到达不同传感器的时间差，利用定位函数确定交流对象的位置。

智能机器人预先设置正面的方向，例如垂直于某两个传感器连线中心的方向为正面方向。当确定了交流对象的位置后，将智能机器人的正面方向对准该交流对象，这样交流对象就会有面对面交流的感觉，提高了用户体验。

作为一个实施例，如图2所示，给出了根据本发明一种实施方式的智能机器人寻声定位的示意图。

在本实施例中，传感器阵列采用正方形，传感器1、2、3、4的位置坐标分别为(-L，-L)、(L，-L)、(L，L)，(-L，L)，其中2L为正方阵的边长。则声源位置(x，y)可由下式算出：

其中Δt1，Δt2，Δt3分别为传感器2、传感器3、传感器4相对于传感器1的时差，c是传播速度。

根据声源位置(x，y)，可以知道声源在平面的哪个方向。从而能够计算出与智能机器人正面方向之间的矢量方向。在本实施例中，智能机器人的正面方向是预先设定的，例如穿过坐标系的原点。将第一传感器和第二传感器之间的中点以及第三传感器和第四传感器之间的中点连线的方向确定为智能机器人的正面方向，也就是坐标系的Y轴方向。智能机器人就朝声源位置(x，y)的方向转动。

本实施例给出了设置4个传感器组成正方形阵的情况，但是本发明的保护范围不限于此。也可以设置其他形状的传感器阵，基于上述原理推导出其他形状的计算方式，都在本发明的保护范围内。

下面参照图3描述本发明一种实施方式的智能机器人寻声定位后转动的示意图。

在本实施例中，设置4个传感器，传感器阵列采用正方形。传感器为拾音器，设置在机器人头部顶端，便于接收来自各个方向的声音。

传感器1、2、3、4的位置坐标分别为(-L，-L)、(L，-L)、(L，L)，(-L，L)，其中2L为正方阵的边长。

传感器与定位模块连接，定位模块可以测量声音到达每个传感器的时间，从而计算出到各个达传感器的时间差。本实施例中计算传感器2、传感器3、传感器4相对于传感器1的时差。声源位置(x，y)可由下式算出：

根据声源位置(x，y)，可以知道声源在平面的哪个方向，从而能够计算出与智能机器人正面方向之间的矢量方向。

在本实施例中，智能机器人的正面方向是预先设定的，例如穿过坐标系的原点。将第一传感器和第二传感器之间的中点以及第三传感器和第四传感器之间的中点连线的方向确定为智能机器人的正面方向，也就是坐标系的Y轴方向。

定位模块与驱动装置连接，向驱动装置发出驱动信号转动智能机器人，智能机器人就朝声源位置(x，y)的方向转动，使得智能机器人正面方向指向交流对象。当智能机器人的正面方向指向声源位置(x，y)的方向时，定位模块控制驱动装置停止转动。

此外，交流对象可能处于运动状态，此时与智能机器人之间的相对位置是不断变化的。本发明可以设定时间重复执行寻声定位的方法，如果发现交流对象与智能机器人的正面方向存在偏差，则不断地调整智能机器人的正面方向，指向交流对象。

例如，可以设定间隔几秒钟重复执行一次寻声定位的方法，或者每接收到交流对象的声音，就判断一次交流对象的位置，从而进行实时调整。通过调整相对位置，始终给人面对面交流的感觉，提高了亲和度。

此外优选地，智能机器人通过摄像头捕捉交流对象的头像，根据面部识别结果，在对话中增加称呼内容。机器人可以预先存储或者在服务器中存储经常打交道人或者以往打过招呼的人的头像。当再次遇到该人时，通过摄像头进行头像捕捉，然后在图片库中进行比对，返回最像的结果。例如，酒店服务的机器人每天会见到大堂经理，当与大堂经理面对面时，通过获取头像和比对，确认该人为王经理，智能机器人就会主动打招呼“王经理好”等。或者，当有人问机器人“我是谁”，智能机器人打开摄像头进行头像捕捉，然后在图片库中进行比对，返回最像的结果，打招呼，如果没有匹配，则返回“对不起，我不认识你”等。或者对于第一次交流的陌生人，机器人通过获取客人头像，判断客人性别或者年龄，在对话中主动增加称呼，例如“先生好”、“女士好”等，从而提高了客人对机器人的好感。

优选地，智能机器人记录交流对象的完整对话，上传至服务器，由服务器分析判断交流对象真正想表达的含义。智能机器人记录下每次对话的录音和/或影像，在机器人空闲时间上传至服务器，作为语义解析训练资料。服务器会根据对话的顺畅成度以及客人对话的内容，挑选出一些疑似交流不畅的对话，提供给工程师分析。例如，对话中逻辑关系混乱、中间停顿较长或者客人反复重复提问等情况，可以判断为交流不畅。服务器会对这些对话做出标记，提供给工程师。工程师通过机器人上传的录音或影像资料，校对服务器的语义解析结果，并对解析结果排序中的选择频次做出调整，从而实现自学习功能。

而且，通过不断修正语义解析结果，能够提高准确性。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种智能机器人自动语音交互方法，其特征在于，包括以下步骤：

智能机器人接收交流对象的语音；

将语音转换成文字；

将转换的文字上传至服务器；

将找到的文字对话内容发送至智能机器人；

智能机器人将文字对话内容转换成语音播放；

智能机器人在将转换的文字上传至服务器的同时，上传智能机器人的身份信息；

服务器根据智能机器人的身份信息，获得智能机器人的语义场景，根据该语义场景进行语义解析；

服务器根据语义场景进行语义解析，得到多个语义解析结果，并根据该语义场景的解析结果的历史选择频次进行排序；

智能机器人记录交流对象的完整对话，上传至服务器，由服务器分析判断交流对象真正想表达的含义；

所述服务器根据所述完整对话的顺畅程度以及客人对话的内容，对交流不畅的完整对话进行标记。

2.根据权利要求1所述的方法，其特征在于，所述服务器预先根据语义场景对文字对话内容进行分类存储。

3.根据权利要求2所述的方法，其特征在于，服务器在每种语义场景模式下，设置该语义场景的关键词。

4.根据权利要求1所述的方法，其特征在于，从所述排序中选择预设数量的语义解析结果作为最终语义解析结果，并针对所述最终语义解析结果作出响应。

5.根据权利要求1所述的方法，其特征在于，智能机器人通过多个传感器获取交流对象的声音，通过定位函数确定交流对象的位置；

根据确定的交流对象的位置，调整智能机器人的正面方向，使得智能机器人的正面对准交流对象。

6.根据权利要求1所述的方法，其特征在于，智能机器人通过摄像头捕捉交流对象的头像，根据面部识别结果，在对话中增加称呼内容。