CN112863522A

CN112863522A - 一种基于ros的智能机器人语音交互系统及交互方法

Info

Publication number: CN112863522A
Application number: CN202110035380.2A
Authority: CN
Inventors: 蒋畅江; 刘俊良
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-28

Abstract

本发明请求保护一种基于ROS的智能机器人语音交互系统及交互方法。此语音交互系统主要包括语音唤醒、语音识别、语义理解、语音合成四个模块。各模块通过ROS分布式架构进行通信和控制并协同合作，同时实现离线和在线的语音交互，并且通过此系统可以完成语音控制机器人的移动、在线天气查询、讲笑话、人机聊天、以及通过此方式拓展的其他功能。优点是方便、灵活、可靠、实用性强，解决了现有的机器人交互功能单一，在网络质量不好或者无网络情况下使用范围受限的问题。

Description

一种基于ROS的智能机器人语音交互系统及交互方法

技术领域

本发明属于机器人技术领域，更具体地涉及一种基于ROS的智能机器人语音交互系统。

背景技术

近些年，人工智能、物联网和大数据等技术的快速发展，推动了智能机器人迎来高速发展阶段。虽然机器人已经渗透到了生活中的很多领域，但是人们期望机器人能在更多领域更加方便灵活的为人类服务。而且机器人想要进一步发挥自身的智能作用，除了拥有基础的自主定位导航技术外，还需要拥有超强的人机交互能力；基于语音的人机交互是当前人机交互技术中最为主要的表现形式，也是最便捷的交互方式。目前，绝大多数的机器人所处工作环境网络质量很差或者没有网络信号的时候，会导致语音交互存在很大的时延，甚至语音交互功能都不能使用，为了解决交互功能比较单一、不能同时实现离线和在线的语音交互、使用范围受限，人机交互困难等问题，因此提出一种基于ROS的智能机器人语音交互系统具有很大的意义。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于ROS的智能机器人语音交互系统及方法。本发明的技术方案如下：

一种基于ROS的智能机器人语音交互系统，其用于同时实现离线和在线的语音交互，包括：语音唤醒模块、语音识别模块、语义理解模块及语音合成模块，其中语音唤醒模块通过识别唤醒词的方式，对机器人进行唤醒，使机器人从休眠状态进入工作状态。语音识别模块是将接收到的语音信号解析成语音字符串，语义理解模块将语音识别解析出的语音字符串进行语义理解，并将结果同样以字符串的方式返回，语音合成模块将之前得到的语音字符串合成为语音。

一种基于所述系统的交互方法，其包括以下步骤：

离线状态下：

S1：语音唤醒模块利用PocketSphinx语音识别系统进行本地处理：首先在代码中，添加需要的ROS接口，此接口包括自己设备的用户名，密码和登录参数等，使得自己的设备和代码相匹配。并且在代码中添加订阅唤醒语音识别的信号，从而实现语音唤醒功能；

S2：由科大讯飞离线命令词识别SDK软件开发工具包进行本地处理：将科大讯飞离线命令词识别SDK软件开发工具包集成到自己的机器人，此过程是将接收到的操作指令与创建的标签中的“命令词”进行匹配，并做出相应反馈；

S3：利用科大讯飞离线TTS(文本到语音)语音包实现离线语音合成，从而实现离线的语音交互。

进一步的，所述步骤S1具体包括以下步骤：首先在代码中，添加需要的ROS 接口，并在代码中添加订阅唤醒语音识别的信号，即唤醒词；然后调用 PocketSphinx语音识别系统中的节点recognizer.py文件，然后该文件通过机器人上的麦克风收集唤醒机器人的语音指令，接着调用ROS系统中自带的语音识别库进行识别，并得出相应的文本信息，通过/recognizer/output消息进行发布，语音唤醒节点通过订阅该消息获取识别结果，与设置的唤醒词进行比对，基于此判断是否唤醒机器人,机器人被唤醒以后，将设备从休眠状态激活至运行状态。

进一步的，在线状态下包括以下步骤：

A1：语音唤醒模块利用PocketSphinx语音识别系统进行本地处理：首先在代码中，添加需要的ROS接口，并在代码中添加订阅唤醒语音识别的信号，从而实现语音唤醒功能；

A2：语音识别模块由科大讯飞在线语音识别SDK软件开发工具包进行本地处理：将科大讯飞在线语音识别SDK软件开发工具包集成到自己的机器人上，此过程将接收到的语音信号解析成语音字符串；

A3：语音理解由图灵服务器在线语义理解进行在线处理：首先在图灵服务器上添加自己机器人的接口地址，然后将语音识别出的字符串发送到图灵服务器，通过服务器进行语义理解，并且将结果同样以字符串的方式返回；

A4：语音合成模块由科大讯飞在线语音合成SDK软件开发工具包进行在线合成，操作流程就是将科大讯飞在线语音识别SDK软件开发工具包集成到自己的机器人上，此过程是将接收到的语音字符串转换成语音。

进一步的，所述步骤A4将语音指令识别生成的对应的字符串，通过语音控制节点订阅语音识别发布的消息，然后根据消息中的具体指令发布速度控制指令、转向指令，机器人接收到具体的指令以后，就实现了通过语音来控制机器人移动的目的。

本发明的优点及有益效果如下：

本发明主要从在线语音交互和离线语音交互两方面入手，对机器人智能语音交互系统进行设计和实现。通过模块化的思想，将语音交互系统划分为多个模块，分别为语音唤醒、语音识别、语义理解、语音合成等，并且将这些模块通过ROS集合在一起。ROS的分布式架构和模块化设计的思想完美契合，不仅使模块的通信很便捷，还可以灵活添加各个功能模块，并且ROS含有丰富的软件包，从而大大提高了开发与测试的工作效率。在此交互系统的基础上为以后的研究提供了很大的便利。

此智能语音交互系统同时实现了在线语音交互和离线语音交互，并且利用此交互系统可以完成在线天气查询、讲笑话、人机聊天、通过语音控制机器人的移动等功能，以及通过此方式拓展其他功能以使得人机语音交互功能更加丰富的操作。解决了绝大多数的机器人所处工作环境网络质量很差或者没有网络信号的时候，语音交互无法使用的情况，在比现有机器人的语音交互更加便捷和可靠性强。

附图说明

图1是本发明提供优选实施例语音交互系统流程图；

图2为本发明提供的语音交互系统通信架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不局限于本发明，且其中依赖的第三方开放服务，仅作为优选。

离线状态下：

1)首先在代码中，添加需要的ROS接口，并在代码中添加订阅唤醒语音识别的信号，即唤醒词。然后调用PocketSphinx语音识别系统中的节点 recognizer.py文件，然后该文件通过机器人上的麦克风收集唤醒机器人的语音指令，接着调用ROS系统中自带的语音识别库进行识别，并得出相应的文本信息，通过/recognizer/output消息进行发布，语音唤醒节点通过订阅该消息获取识别结果，与设置的唤醒词进行比对，基于此判断是否唤醒机器人。机器人被唤醒以后，将设备从休眠状态激活至运行状态。

2)首先在科大讯飞官网上下载离线命令词识别SDK(软件开发工具包)，将所需要的代码拷贝到功能包中，然后修改主代码文件，添加相应的ROS接口，并将其集成在自己的机器人上，通过程序对其进行调用。然后在自己的机器人上利用AIML(人工智能标记语言)创建开始结束标签，添加自定义对话，然后利用ABNF(巴科斯范式)语法在其中添加自定义命令词与标签中的自定义对话形成呼应，从而实现离线命令词识别。

3)首先在科大讯飞官网上下载离线TTS(文本转语音)语音包将所需要的代码拷贝到功能包中，然后修改主代码文件，添加相应的ROS接口，并将其集成在自己的机器人上，通过程序对其进行调用。当通过命令词识别将相应的对话标签识别出来以后，此时将其结果进行文本转语音的操作，进而实现离线的语音交互。

在线状态下，本发明实施例提供的语音交互系统流程，包括以下步骤：

2)首先在科大讯飞官网上下载在线语音识别SDK(软件开发工具包)，将所需要的代码拷贝到功能包中，然后修改主代码文件，添加相应的ROS接口，并将其集成在自己的机器人上，通过程序对其进行调用。概括来说就是利用科大讯飞在线语音识别SDK(软件开发工具包)对语音信号进行本地处理，在此过程中将接收到的语音信号解析成语音字符串。

3)语音理解由图灵服务器在线语义理解进行在线处理。首先在图灵服务器上注册，添加机器人的接口地址，导入需要依赖的第三方库，将其集成在自己的机器人上，通过程序对其进行调用。接下来将语音识别解析出的语音字符串发送到图灵服务器，通过服务器进行语义理解，并且将结果同样以字符串的方式进行返回。

4)先在科大讯飞官网上下载在线语音合成SDK(软件开发工具包)进行语音在线合成。操作流程就是基于科大讯飞在线语音识别SDK(软件开发工具包)，也是将所需要的代码拷贝到功能包中，然后修改主代码文件，添加ROS接口，将其集成在自己的机器人上，通过程序对其进行调用。接着就可将接收到的语音字符串合成为语音。

在语音识别的基础上，将语音指令识别生成的对应的字符串，通过语音控制节点订阅语音识别发布的消息，然后根据消息中的具体指令发布速度控制指令、转向指令。机器人接收到具体的指令以后，就实现了通过语音来控制机器人移动的目的。

同理，通过语音控制节点订阅语音识别发布消息的方式，可以在自己机器人上通过添加指令的方式拓展一些其他功能，以使得人机语音交互功能更加丰富。

为本发明实施例提供的语音交互系统通信架构：语音交互系统的四个主要部分：语音唤醒、语音识别、语义理解、语音合成。各个部分相互独立，他们只与ROS Master连接，模块间的通信由Master控制。利用ROS的分布式架构通信机制来进行通信。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于ROS的智能机器人语音交互系统，其特征在于，用于同时实现离线和在线的语音交互，包括：语音唤醒模块、语音识别模块、语义理解模块及语音合成模块，其中语音唤醒模块通过识别唤醒词的方式，对机器人进行唤醒，使机器人从休眠状态进入工作状态。语音识别模块是将接收到的语音信号解析成语音字符串，语义理解模块将语音识别解析出的语音字符串进行语义理解，并将结果同样以字符串的方式返回，语音合成模块将之前得到的语音字符串合成为语音。

2.一种基于权利要求1所述系统的交互方法，其特征在于，包括以下步骤：

离线状态下：

S1：语音唤醒模块利用PocketSphinx语音识别系统进行本地处理：首先在代码中，添加需要的ROS机器人操作系统接口，此接口包括自己设备的用户名，密码和登录参数等，使得自己的设备和代码相匹配，并在代码中添加订阅唤醒语音识别的信号，即唤醒词，通过识别结果与唤醒词的匹配，从而实现语音唤醒功能；

3.根据权利要求2所述的交互方法，其特征在于，所述步骤S1具体包括以下步骤：首先在代码中，添加需要的ROS(机器人操作系统)接口。并在代码中添加订阅唤醒语音识别的信号，即唤醒词；然后调用PocketSphinx语音识别系统中的节点recognizer.py文件，然后该文件通过机器人上的麦克风收集唤醒机器人的语音指令，接着调用ROS系统中自带的语音识别库进行识别，并得出相应的文本信息，通过/recognizer/output消息进行发布，语音唤醒节点通过订阅该消息获取识别结果，与设置的唤醒词进行比对，基于此判断是否唤醒机器人,机器人被唤醒以后，将设备从休眠状态激活至运行状态。

4.根据权利要求2所述的交互方法，其特征在于，在线状态下包括以下步骤：

A1：语音唤醒模块利用PocketSphinx语音识别系统进行本地处理：首先在代码中，添加需要的ROS机器人操作系统接口，并在代码中添加订阅唤醒语音识别的信号，从而实现语音唤醒功能；

5.根据权利要求4所述的交互方法，其特征在于，所述步骤A4将语音指令识别生成的对应的字符串，通过语音控制节点订阅语音识别发布的消息，然后根据消息中的具体指令发布速度控制指令、转向指令，机器人接收到具体的指令以后，就实现了通过语音来控制机器人移动的目的。