CN108364636A

CN108364636A - 一种双人形机器人语音沟通的交互方法

Info

Publication number: CN108364636A
Application number: CN201810135081.4A
Authority: CN
Inventors: 庄礼鸿; 赵画; 赵一画
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-03

Abstract

本发明提供一种双人形机器人语音沟通的交互方法，包括：第一NAO机器人播放需要沟通的语音；第二NAO机器人通过自身配置的音频设备的通道获取所述第一NAO机器人播放的语音并转换成wav格式的音频文件；与所述第二NAO机器人相连接的终端设备调用百度语音识别REST API对所述第二NAO机器人收集到的音频文件进行语音识别，根据语音识别结果进行处理，将处理结果发送给所述第二NAO机器人；所述第二NAO机器人对处理结果进行语音反馈以实现互动。本发明通过NAO机器人的控制平台Choregraphe软件调用百度语音识别REST API在远程服务器上实现语音识别，从而使得语音识别更加有效、快速和准确；再针对识别后的语音在与人形机器人相连的电脑上进行对话处理，从而实现双人形机器人语音沟通。

Description

一种双人形机器人语音沟通的交互方法

技术领域

本发明涉及智能机器人技术领域，特别涉及一种双人形机器人语音沟通的交互方法。

背景技术

语音是人类进行信息交换的一种最便捷的形式，让机器人能够听懂人类的语言，机器人之间可以通过人类的语言互相沟通，实现人机互交、类人机器人互交，这一直是人类的一个研究目标。人形机器人指的是拥有和人类一样外形的机器人，它有头部、四肢和躯干，可以像人类那样行动和交流，属于智能机器人一类。目前，语音在智能机器人上面的应用还比较少。在机器人系统上面增加语音识别接口，用语音交流的方式来替代键盘输入，再通过网络接口，将机器人连接到云端，实现人机互交，让机器人不仅能听懂语言，更能做出回答是当前研究的重点。但在人形机器人上，嵌入式处理器的运算能力往往很有限，因此有必要在电脑或服务器上进行某些远程运算。这一点在处理音频信号时尤其重要，在一个远程处理器上进行语音识别往往会更加有效、快速和准确。

发明内容

本发明提出一种双人形机器人语音沟通的交互方法，通过NAO机器人的控制平台Choregraphe软件调用百度语音识别REST API在远程服务器上实现语音识别，从而使得语音识别更加有效、快速和准确；再针对识别后的语音在与人形机器人相连的电脑上进行对话处理，从而实现双人形机器人语音沟通。

本发明解决其技术问题所采用的技术方案是：

一种双人形机器人语音沟通的交互方法，包括：

步骤101，第一NAO机器人播放需要沟通的语音；

步骤102，第二NAO机器人通过自身配置的音频设备的通道获取所述第一NAO机器人播放的语音并转换成wav格式的音频文件；

步骤103，与所述第二NAO机器人相连接的终端设备调用百度语音识别REST API对所述第二NAO机器人收集到的音频文件进行语音识别，根据语音识别结果进行处理，将处理结果发送给所述第二NAO机器人；

步骤104，所述第二NAO机器人对处理结果进行语音反馈以实现互动。

优选的，所述第二NAO机器人通过自身配置的音频设备的通道获取所述第一NAO机器人播放的语音并转换成wav格式的音频文件，包括：

所述第二NAO机器人通过前、后、左、右四个通道获取所述第一NAO机器人播放的语音；

所述第二NAO机器人进行声源定位判断出声源方向以根据离声源最近的通道获取的语音生成wav格式的音频文件。

优选的，进行声源定位的方法为声波到达的时间差；声波最先到达的通道判定为离声源最近的通道。

优选的，步骤102之后，还包括：

终端设备使用梅尔倒谱系数MFCC和隐马尔可夫模型对收集的音频文件进行处理，提取语音特征及建立训练模型；

所述步骤103包括：

与所述第二NAO机器人相连接的终端设备调用百度语音识别REST API对处理后的音频文件进行语音识别，根据语音识别结果进行处理，将处理结果发送给所述第二NAO机器人。

优选的，所述终端设备使用梅尔倒谱系数MFCC和隐马尔可夫模型对收集的音频文件进行处理，提取语音特征及建立训练模型，包括：

语音特征提取：对语料库中的语音数据进行分帧、加窗和预加重预处理，提取所需频谱特征和基频特征；对于每一个语音帧，所述基频特征至少包括：当前语音帧的基频值，当前连续基频段的长度，以及当前帧基频值与前一个连续基频段的后N帧基频平均值的差值；所述频谱特征是MFCC特征；

准备语音数据的标注文本：对所提取出的多个语音帧的基频特征所组成的基频特征流，采用多空间概率分布隐马尔可夫模型来进行建模，对所提取出的多个语音帧的频谱特征所组成的频谱特征流，采用普通隐马尔可夫模型建立训练模型。

优选的，与所述第二NAO机器人相连接的终端设备通过Choregraphe编程软件调用百度语音识别REST API进行语音识别。

优选的，所述第二NAO机器人通过以太网或WIFI无线网与所述终端设备相连接。

优选的，所述音频设备为麦克风，所述麦克风包括四个。

优选的，所述终端设备为电脑。

与现有技术相比，本发明具有如下有益效果：

(1)本发明一种双人形机器人语音沟通的交互方法，通过NAO机器人的控制平台Choregraphe软件调用百度语音识别REST API在远程服务器上实现语音识别，从而使得语音识别更加有效、快速和准确；再针对识别后的语音在与人形机器人相连的电脑上进行对话处理，从而实现双人形机器人语音沟通；

(2)本发明一种双人形机器人语音沟通的交互方法，还可以通过梅尔倒谱系数MFCC和隐马尔可夫模型对收集的音频文件进行处理，提取语音特征及建立训练模型；再调用百度语音识别REST API对处理后的音频文件进行识别以实现双人形机器人沟通。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种双人形机器人语音沟通的交互方法不局限于实施例。

附图说明

图1是本实施例的方法流程图；

图2是本实施例的NAO机器人结构图；

图3是本实施例的语音识别接口调用图；

图4是本实施例的信号处理调用图；

图5是本实施例的双人形机器人进行日常情景交流互动图；

图6是本实施例的双人形机器人进行加减乘除计算互动图；

图7是本实施例的双人形机器人进行肢体动作的互动图；

图8是本实施例的双人形机器人唱歌并给出评价的互动图；

图9是本实施例的双人形机器人进行反问形式的互动图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细的描述。

参见图1所示，本发明一种双人形机器人语音沟通的交互方法，包括：

步骤101，第一NAO机器人播放需要沟通的语音；

类人机器人NAO是由Aldebaran Robotics公司设计开发的，这款机器人具有良好广泛的接口因此非常适合应用于市面上的各种应用。Aldebaran Robotics公司提供了很全面的编程环境，通过python、C++都可以进行编程，公司还推出了Choregraphe这一款可视编程软件，适合于大部分人群，简单直观。对于有语音基础的人群，他很好的开源构架也可以进行更深层次的开发。

NAO机器人不仅能够使用有线网络，还可以使用无线网络。除此之外，机器人之间可以通过红外线，无线网，麦克风等进行交流互动。

NAO机器人重4.3KG，高57.3CM，宽27.3CM。NAO机器人全身都是由高科技特殊塑料制作的，NAO机器人内部放置了一个21.6V的电池，充满电大概可以使用一个半小时。大部分时候都是一边充电一边使用，NAO机器人身体上安装了很多传感器，几乎到处都是，比如说超声波传感器、重力传感器、光强传感器，身上还装有麦克风、摄像头等多媒体。

NAO机器人所使用的系统是Gentoo Linux操作系统。NAO机器人所有的操作都可以编程，用到了NAOqi架构作为系统用户互交的管理。NAOqi架构通过让Choregraphe、Monitor、Motion Module、Audio module互相传递信息来进行工作。NAOqi的执行是让Broker传递信息和命令。

NAO机器人的头部装有一个嵌入式系统，可以控制整个机器人。在它的胸部还有一个微控制器可以对电源和发动机进行控制。头部的嵌入式系统使用了嵌入式的Linux(32bits x86ELF)，并且它的H/W是由x86 AMD GEODE 500MHz CPU，256MB SDRAM和闪存组成。NAO机器人也支持Ethernet(cable)和Wi-Fi(wireless，IEEE802.11g)的网络连接。

参见图2所示，NAO机器人是身高57cm的可编程人形机器人，主要包括：

具有机身25度自由度(DOF)，电机和执行器的关键部件；

一系列传感器：2个摄像头，4个麦克风，1个超声波距离传感器，2个红外发射器和接收器，1个惯性板，9个触觉传感器和8个压力传感器；

用于自我表达的设备：语音合成器，LED灯和2个高品质扬声器；

一个CPU(位于机器人头部)，运行Linux内核，并支持ALDEBARAN自己的专有中间件(NAOqi)；

第二个CPU(位于机器人躯干内部)。

在NAO机器人身上，一般会给它安装四个麦克风，前头部有一个、后头部有一个、两边耳部都分别有一个。NAO机器人通过扬声器播放音乐、还可以读出写入NAO中的文字。麦克风可以捕获音频，还可以对声源进行定位。

所述第二NAO机器人捕获的wav格式文件的音频是通过前、后、左、右四个通道获取的。如果把四个音轨通道上的文件都处理的话，会使计算机的处理工作量大大加大，耗费时间更长。事实上，NAO机器人上的四个麦克风上录制的四个音频文件总有一个是声源最近的。所述第二NAO机器人进行声源定位判断出声源方向以根据离声源最近的通道获取的语音生成wav格式的音频文件。进行声源定位的方法为声波到达的时间差；声波最先到达的通道判定为离声源最近的通道。

本发明中，一方面与所述第二NAO机器人相连接的终端设备调用百度语音识别REST API在远程服务器上对所述第二NAO机器人收集到的音频文件进行语音识别；另一方面终端设备也可以先使用梅尔倒谱系数MFCC和隐马尔可夫模型对收集的音频文件进行处理，提取语音特征及建立训练模型，再调用百度语音识别REST API对处理后的音频文件进行语音识别。

本实施例中，调用了现有的语音识别API，通过SFTP传输协议的模式，将机器人收集的到的语音信号传输到服务端进行识别处理并反馈给机器人，再通过机器人的麦克风播放，实现语音沟通。

语音识别的调用参见图3所示。将需要对语音信号进行相应处理的函数放入程序中编译，比如要对识别的结果进行一个加法运算，调用函数进行信号处理参见图4所示。

如下将通过几个具体的实验说明双人形机器人语音沟通的过程。

参见图5所示，双人形机器人日常情景交流的互动，在第一NAO机器人中导入想要沟通的内容，再给第二NAO机器人写入事先调试好的程序完成对话，程序内容包含了通过SFTP传输将机器人收集的到的语音信号传输到服务端进行识别处理并反馈给第二NAO机器人，再通过第二NAO机器人的麦克风播放。

参见图6所示，为进行加减乘除计算的对话。在第一NAO机器人中导入想要进行计算的内容，再给第二NAO机器人写入事先调试好的程序完成对答，程序内容通过百度语音API语音识别然后进过处理得到的字符串再经过计算程序得到结果然后反馈给第二NAO机器人，输出的结果通过第二NAO机器人的麦克风播放。

参见图7所示，为肢体动作的互动，在第二NAO机器人上写入想要第一NAO机器人做的动作，设定一个延时程序，在第一NAO机器人写入执行动作的代码，在听到第二NAO机器人发出声音信号时，第一NAO机器人作出对应的动作。

参见图8所示，为命令对方唱歌并给出评价的互动，这个实验是通过Choregraphe软件中的指令盒进行可视化编程得到的。

参见图9所示，为通过SFTP传输协议的模式进行反问形式的互动。将第二NAO机器人收集的到的语音信号传输到服务端通过百度语音进行识别处理然后在图灵机器上进行语义辨识，并输出给第二机器人，再通过第二机器人的麦克风播放，使其实现语音沟通功能。

上述实验主要完成了对双人形机器人语音沟通互动的控制，首先在电脑上配置了NAO机器人的控制环境NAOqi和Choregraphe软件。针对要实现的模式(日常对话交流、加减乘除计算、唱歌、动作、反问模式对话)进行了编程设计，在调试代码的过程中安装了一些python的头文件包，在识别模块主要还是调用了百度语音识别的API。注册百度语音识别之后会得到App ID，API Key和Secret Key，这些将会在代码里面调用的时候用到。通过这些开源的语音识别平台，省去了自己训练模板构建语音库的过程，并且他们的识别效果已经非常成熟，还有与图灵机器连接的接口函数，对语义进行理解，从而达到真正的智能化。

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种双人形机器人语音沟通的交互方法，其特征在于，包括：

步骤101，第一NAO机器人播放需要沟通的语音；

2.根据权利要求1所述的双人形机器人语音沟通的交互方法，其特征在于，所述第二NAO机器人通过自身配置的音频设备的通道获取所述第一NAO机器人播放的语音并转换成wav格式的音频文件，包括：

3.根据权利要求2所述的双人形机器人语音沟通的交互方法，其特征在于，进行声源定位的方法为声波到达的时间差；声波最先到达的通道判定为离声源最近的通道。

4.根据权利要求1所述的双人形机器人语音沟通的交互方法，其特征在于，步骤102之后，还包括：

所述步骤103包括：

5.根据权利要求4所述的双人形机器人语音沟通的交互方法，其特征在于，所述终端设备使用梅尔倒谱系数MFCC和隐马尔可夫模型对收集的音频文件进行处理，提取语音特征及建立训练模型，包括：

6.根据权利要求1所述的双人形机器人语音沟通的交互方法，其特征在于，与所述第二NAO机器人相连接的终端设备调用百度语音识别REST API在远程服务器上对所述第二NAO机器人收集到的音频文件进行语音识别。

7.根据权利要求1所述的双人形机器人语音沟通的交互方法，其特征在于，与所述第二NAO机器人相连接的终端设备通过Choregraphe编程软件调用百度语音识别REST API进行语音识别。

8.根据权利要求1所述的双人形机器人语音沟通的交互方法，其特征在于，所述第二NAO机器人通过以太网或WIFI无线网与所述终端设备相连接。

9.根据权利要求1所述的双人形机器人语音沟通的交互方法，其特征在于，所述音频设备为麦克风，所述麦克风包括四个。

10.根据权利要求1所述的双人形机器人语音沟通的交互方法，其特征在于，所述终端设备为电脑。