CN108615529A

CN108615529A - 一种基于语义识别的操控方法、装置和家用机器人

Info

Publication number: CN108615529A
Application number: CN201810333098.0A
Authority: CN
Inventors: 朱艳影
Original assignee: Shanghai Siyixuan Robot Technology Co Ltd
Current assignee: Shanghai Siyixuan Robot Technology Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-10-02

Abstract

本申请公开了一种基于语义识别的操控方法、装置和家用机器人，该方法和装置应用于家用机器人，具体为与云服务器建立连接关系，云服务器用于为家用机器人提供数据支持服务；接收用户发出的语音指令，并将语音指令转化为音频数据；将音频数据通上传到云服务器，以使云服务器利用预先训练的语义识别模型对音频数据进行识别，并将得到的语义信息返回家用机器人；根据语义信息与用户进行互动。通过上述方案，用户仅需要利用语音方式发出语音指令即可对家用机器人实现操控，从而有效降低了操控难度，无论老人还是孩子都能够方便地使用，从而避免了部分能力较低的家庭成员无法使用家用机器人的问题。

Description

一种基于语义识别的操控方法、装置和家用机器人

技术领域

本申请涉及人工智能技术领域，更具体地说，涉及一种基于语义识别的操控方法、装置和家用机器人。

背景技术

随着社会的进步和科技的发展，家用机器人作为一种家用智能终端越来越多地进入到普通家庭中，其能够为家庭成员提供较多的服务和帮助，从而使家庭的生活环境更为美好。

对于家用机器人来说，其服务是面向家庭内所有成员的，家庭成员一般会有老人和孩子，他们的操作技能相对较低，因此，家用机器人的操作方法如果类似智能手机这类移动终端的话，就会给他们的使用造成较大的困难。

发明内容

有鉴于此，本申请提供一种基于语义识别的操控方法、装置和家用机器人，用于使家庭内成员能够以语音方式对家用机器人进行操控，以避免部分能力较低的家庭成员无法使用家用机器人的问题。

为了实现上述目的，现提出的方案如下：

一种基于语义识别的操控方法，应用于家用机器人，所述操控方法包括步骤：

与云服务器建立连接关系，所述云服务器用于为所述家用机器人提供数据支持服务；

接收用户发出的语音指令，并将所述语音指令转化为音频数据；

将音频数据通上传到所述云服务器，以使所述云服务器利用预先训练的语义识别模型对所述音频数据进行识别，并将得到的语义信息返回所述家用机器人；

根据所述语义信息与用户进行互动。

可选的，所述与云服务器建立连接关系，包括：

与所述云服务器建立通信；

定义通信格式；

以所述通信格式与所述云服务器建立所述连接关系。

可选的，所述根据所述语义信息与用户进行互动，包括：

向用户输出与所述语音信息相配的反馈信息；

或，控制所述家用机器人作出与所述语音信息相匹配的动作。

可选的，所述所述反馈信息包括页面信息、音频、视频和表情反馈中的部分或全部。

可选的，还包括步骤：

在本地记录所述音频数据和对应的语义信息；

当接收到与本地记录的音频数据相对应的语音指令时，直接读取与所述音频数据对应的所述语义信息；

根据所述语义信息与用户进行互动。

一种基于语义识别的操控装置，应用于家用机器人，所述操控装置包括：

连接建立模块，用于与云服务器建立连接关系，所述云服务器用于为所述家用机器人提供数据支持服务；

语音接收模块，用于接收用户发出的语音指令，并将所述语音指令转化为音频数据；

数据上传模块，用于将音频数据通上传到所述云服务器，以使所述云服务器利用预先训练的语义识别模型对所述音频数据进行识别，并将得到的语义信息返回所述家用机器人；

第一互动模块，用于根据所述语义信息与用户进行互动。

可选的，所述连接建立模块包括：

通信建立单元，用于与所述云服务器建立通信；

通信定义单元，用于定义通信格式；

连接建立单元，用于以所述通信格式与所述云服务器建立所述连接关系。

可选的，所述第一互动模块包括：

第一执行单元，用于向用户输出与所述语音信息相配的反馈信息；

第二执行单元，用于控制所述家用机器人作出与所述语音信息相匹配的动作。

可选的，还包括：

信息记录模块，用于在本地记录所述音频数据和对应的语义信息；

信息读取模块，用于当接收到与本地记录的音频数据相对应的语音指令时，直接读取与所述音频数据对应的所述语义信息；

第二互动模块，用于根据所述语义信息与用户进行互动。

一种家用机器人，设置有如上所述的操控装置。

一种家用机器人，包括至少一个处理器和与其相连接的存储器，所述存储器用于存储计算机程序或指令，所述处理器用户执行所述计算机程序或指令，以使所述家用机器人执行如下操作：

根据所述语义信息与用户进行互动。

可选的，所述处理器在执行所述计算机程序或指令时，还用于执行如下操作：

在本地记录所述音频数据和对应的语义信息；

根据所述语义信息与用户进行互动。

从上述的技术方案可以看出，本申请公开了一种基于语义识别的操控方法、装置和家用机器人，该方法和装置应用于家用机器人，具体为与云服务器建立连接关系，云服务器用于为家用机器人提供数据支持服务；接收用户发出的语音指令，并将语音指令转化为音频数据；将音频数据通上传到云服务器，以使云服务器利用预先训练的语义识别模型对音频数据进行识别，并将得到的语义信息返回家用机器人；根据语义信息与用户进行互动。通过上述方案，用户仅需要利用语音方式发出语音指令即可对家用机器人实现操控，从而有效降低了操控难度，无论老人还是孩子都能够方便地使用，从而避免了部分能力较低的家庭成员无法使用家用机器人的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于语义识别的操控方法的步骤流程图；

图2为本发明实施例提供的另一种基于语义识别的操控方法的步骤流程图；

图3为本发明实施例提供的一种基于语义识别的操控装置的结构框图；

图4为本发明实施例提供的另一种基于语义识别的操控装置的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

图1为本发明实施例提供的一种基于语义识别的操控方法的步骤流程图。

如图1所示，本实施例提供的操控方法应用于家用机器人，该操控方法具体包括如下步骤：

S1、与云服务器建立连接关系。

家用机器人其实是可以单独离线运行的，当需要为用户提供更为高级的内容或者其本身功能不能满足用户需要时，可以在用户通过其触摸屏或者通过语音方式发出的指令的控制下向云服务器发出连接请求，此时云服务器根据机器人发出的连接请求与其建立连接关系，以便为进一步的信息交互建立基础。该连接关系的建立可以通过如下步骤实现：

首先，根据家用机器人的连接请求在两者之间建立通信；然后，为了保证两者之间进行良好的通信，对通信的格式进行定义，即定义进行通信的数据格式；最后，利用定义的通信格式建立两者之间的连接关系。

S2、接收用户发出的语音指令，并转换为音频数据。

这里的语音指令是指提前为用户规定好的用于对家用机器人进行操控的字、词或句子，当用户读出该相应的字、词或句子时可以认为用户发出了相应的语音指令，当然本地也可以直接对语音指令做出相应的反馈。但是当语音指令较为复杂时有可能会导致本地处理负担较重，或者本地功能无法满足要求，这也是本发明的发明目的所在，即将语音指令上传云服务器进行处理。

在接收到语音指令后，将语音指令转换为音频数据，即语音的电子数据格式，以便为进一步的处理打下基础。

S3、将音频数据上传云服务器。

这里需要强调的是，本方案的云服务器提前部署有预先训练好的语义识别模型，该语义识别模型来自于利用部署的语料数据库对语义引擎算法进行训练所得。

在接收到相应的音频数据后，云服务器利用该语义识别对音频数据进行处理，从而得到与音频数据相匹配的语义信息，该语义信息以文本或其他形式存在；云服务器在识别得到该语义信息后反馈回该家用机器人。

下面列出了目前较为常用的语料数据库：

国家语委现代汉语语料库

现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快，功能更强，同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字，为分词和词性标注语料。

古代汉语语料库

现在还增加了一亿字的古代汉语生语料，研究古代汉语的也可以去查询和下载。同时，还提供了分词、词性标注软件、词频统计、字频统计软件，基于国家语委语料库的字频词频统计结果和发布的词表等，以供学习研究语言文字的老师同学使用。

《人民日报》标注语料库

《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998 年1月)近200万字在互联网上公布，供自由下载。

HSK动态作文语料库

中研院语料库

所有功能均开放使用，但为防主机资源耗用过剧及顾及数据传输之实际限制，暂以检索结果为限制的条件：院内检索限两万行数据，院外检索限两千行数据。

现代汉语平衡语料库

专门针对语言分析而设计的，每个文句都依词断开，并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上，是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计，由中央研究院信息所、语言所词库小组完成，内含有简介、使用说明，现行的语料库是4.0的版本。

古汉语语料库

古汉语语料库包含以下五个语料库:上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库，故两者间略有重迭。此语料库之出土文献语料库，全部取自史语所汉简小组所制作的数据库。

近代汉语标记语料库

为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料，并己陆续开放使用；在标记语料库方面，上古汉语及近代汉语都已有部分语料完成标注的工作，并视结果逐步提供上线检索。

树图数据库

搜文解字

包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元，可由部件、部首、字、音、词互查，并可查询在四书、老、庄、唐诗中的出处，及直接连结到出处，阅读原文。

文国寻宝记

在搜文解字的基础之上，以华语文学习者为对象，进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合，与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合，提供网络上国语文学习的素材。

唐诗三百首

以中、小学学生为主要使用对象，提供吟唱、绘画、书法等多媒体数据，文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料；检索点包含作者、诗题、诗句、综合资料、体裁分类等；检索结果可以列出全文，并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入诗格律自动检测索引教学系统」，协助孩子们依韵作诗，协助教师批改习作。

汉籍电子文献

包含整部25史整部阮刻13经、超过2000万字的中国台湾史料、1000万字的大正藏以及其他典籍。

红楼梦网络教学研究数据中心

元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」，为研究中心负责人罗凤珠老师主持，红楼梦是其中一个子系统，其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet 最大中国文学研究数据库，提供用户最完整的中国文学研究数据。

S4、根据语义信息驱使家用机器人与用户进行互动。

在接收到云服务器反馈的语义信息后，根据预先规定的规则向用户做出与该语义信息匹配的互动，这里的互动包括信息互动和动作互动。

具体来说，可以向用户输出与语音信息向匹配的反馈信息，例如向用户显示页面、输出音频和/或视频，或者利用显示界面做出生动的互动表情。

另外，还可以根据语义信息驱动家用机器人的动作机构进行动作，以使家用机器人做出与语音信息相匹配的互动动作，如点头、摇头、移动等动作。

从上述技术方案可以看出，本实施例提供了一种基于语义识别的操控方法，该方法应用于家用机器人，具体为与云服务器建立连接关系，云服务器用于为家用机器人提供数据支持服务；接收用户发出的语音指令，并将语音指令转化为音频数据；将音频数据通上传到云服务器，以使云服务器利用预先训练的语义识别模型对音频数据进行识别，并将得到的语义信息返回家用机器人；根据语义信息与用户进行互动。通过上述方案，用户仅需要利用语音方式发出语音指令即可对家用机器人实现操控，从而有效降低了操控难度，无论老人还是孩子都能够方便地使用，从而避免了部分能力较低的家庭成员无法使用家用机器人的问题。

上述方案每次都将用户发出的语音指令的音频数据进行上传，这在一定程度上加重了通信负担，为此我们提出了如下的技术补充，即在原操控方案的基础上还具有如下步骤，如图2所示：

S5、记录音频数据和对应的语义信息。

在接收到云服务器反馈的语义信息后，在本地将语义信息和与其对应的音频数据进行记录。

S6、读取与音频数据对应的语义信息。

在接收到用户发出的语音指令后，还是将其转换为音频数据，但并不是将其直接上传，而是将其从本地记录的多个音频数据中进行查找，如果能够找到相同的音频数据，即用户以前所发出且与本次发出的相同的语音指令所转换的音频数据，此时，将该音频数据所对应记录的语义信息进行提取。

S7、根据提取的语义信息与用户进行互动。

即利用直接提取的语义信息控制家用机器人实现与用户的互动，这里的互动还是指信息互动和动作互动。

通过上述操作，可以避免每次都上传音频数据，从而降低了通信压力。

实施例二

图3为本发明实施例提供的一种基于语义识别的操控装置的结构框图。

如图3所示，本实施例提供的操控装置应用于家用机器人，该操控方法具体包括连接建立模块10、语音接收模块20、数据上传模块30和第一互动模块40。

连接建立模块用于与云服务器建立连接关系。

家用机器人其实是可以单独离线运行的，当需要为用户提供更为高级的内容或者其本身功能不能满足用户需要时，可以在用户通过其触摸屏或者通过语音方式发出的指令的控制下向云服务器发出连接请求，此时云服务器根据机器人发出的连接请求与其建立连接关系，以便为进一步的信息交互建立基础。该模块具体包括通信建立单元、通信定义单元和连接建立单。

通信建立单元用于根据家用机器人的连接请求在两者之间建立通信；通信定义单元则用于为了保证两者之间进行良好的通信，对通信的格式进行定义，即定义进行通信的数据格式；连接建立单元用于利用定义的通信格式建立两者之间的连接关系。

语音接收模块用于接收用户发出的语音指令，并转换为音频数据。

数据上传模块用于将音频数据上传云服务器。

第一互动模块用于根据语义信息驱使家用机器人与用户进行互动。

该模块包括第一执行单元和第二执行单元，第一执行单元用于向用户输出与语音信息向匹配的反馈信息，例如向用户显示页面、输出音频和/或视频，或者利用显示界面做出生动的互动表情。第二执行单元则用于根据语义信息驱动家用机器人的动作机构进行动作，以使家用机器人做出与语音信息相匹配的互动动作，如点头、摇头、移动等动作。

从上述技术方案可以看出，本实施例提供了一种基于语义识别的操控装置，该装置应用于家用机器人，具体为与云服务器建立连接关系，云服务器用于为家用机器人提供数据支持服务；接收用户发出的语音指令，并将语音指令转化为音频数据；将音频数据通上传到云服务器，以使云服务器利用预先训练的语义识别模型对音频数据进行识别，并将得到的语义信息返回家用机器人；根据语义信息与用户进行互动。通过上述方案，用户仅需要利用语音方式发出语音指令即可对家用机器人实现操控，从而有效降低了操控难度，无论老人还是孩子都能够方便地使用，从而避免了部分能力较低的家庭成员无法使用家用机器人的问题。

上述方案每次都将用户发出的语音指令的音频数据进行上传，这在一定程度上加重了通信负担，为此我们提出了如下的技术补充，即在原操控方案的基础上还增加了信息记录模块50、信息读取模块60和第二互动模块70，如图4所示：

信息记录模块用于记录音频数据和对应的语义信息。

信息读取模块用于读取与音频数据对应的语义信息。

第二互动模块用于根据提取的语义信息与用户进行互动。

实施例三

本实施例提供了一种家用机器人，该家用机器人设置有上一实施例所提供的操控装置。该装置用于与云服务器建立连接关系，云服务器用于为家用机器人提供数据支持服务；接收用户发出的语音指令，并将语音指令转化为音频数据；将音频数据通上传到云服务器，以使云服务器利用预先训练的语义识别模型对音频数据进行识别，并将得到的语义信息返回家用机器人；根据语义信息与用户进行互动。通过上述方案，用户仅需要利用语音方式发出语音指令即可对家用机器人实现操控，从而有效降低了操控难度，无论老人还是孩子都能够方便地使用，从而避免了部分能力较低的家庭成员无法使用家用机器人的问题。

实施例四

本实施例提供了一种家用机器人，该家用机器人设置有至少一个处理器和存储器，该存储器用于存储相应的计算机程序或指令，处理器用于执行该计算机程序或指令，从而使该云服务器实现如下的步骤：

与云服务器建立连接关系，云服务器用于为家用机器人提供数据支持服务；

接收用户发出的语音指令，并将语音指令转化为音频数据；

将音频数据通上传到云服务器，以使云服务器利用预先训练的语义识别模型对音频数据进行识别，并将得到的语义信息返回家用机器人；

根据语义信息与用户进行互动。

另外，还可以执行如下步骤：

在本地记录音频数据和对应的语义信息；

当接收到与本地记录的音频数据相对应的语音指令时，直接读取与音频数据对应的语义信息；

根据语义信息与用户进行互动。

通过上述方案，用户仅需要利用语音方式发出语音指令即可对家用机器人实现操控，从而有效降低了操控难度，无论老人还是孩子都能够方便地使用，从而避免了部分能力较低的家庭成员无法使用家用机器人的问题。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于语义识别的操控方法，应用于家用机器人，其特征在于，所述操控方法包括步骤：

根据所述语义信息与用户进行互动。

2.如权利要求1所述的操控方法，其特征在于，所述与云服务器建立连接关系，包括：

与所述云服务器建立通信；

定义通信格式；

以所述通信格式与所述云服务器建立所述连接关系。

3.如权利要求1所述的操控方法，其特征在于，所述根据所述语义信息与用户进行互动，包括：

向用户输出与所述语音信息相配的反馈信息；

4.如权利要求3所述的操控方法，其特征在于，所述所述反馈信息包括页面信息、音频、视频和表情反馈中的部分或全部。

5.如权利要求1所述的操控方法，其特征在于，还包括步骤：

在本地记录所述音频数据和对应的语义信息；

根据所述语义信息与用户进行互动。

6.一种基于语义识别的操控装置，应用于家用机器人，其特征在于，所述操控装置包括：

第一互动模块，用于根据所述语义信息与用户进行互动。

7.如权利要求6所述的操控方法，其特征在于，所述连接建立模块包括：

通信建立单元，用于与所述云服务器建立通信；

通信定义单元，用于定义通信格式；

8.如权利要求6所述的操控装置，其特征在于，所述第一互动模块包括：

9.如权利要求8所述的操控装置，其特征在于，所述所述反馈信息包括页面信息、音频、视频和表情反馈中的部分或全部。

10.如权利要求6所述的操控装置，其特征在于，还包括：

第二互动模块，用于根据所述语义信息与用户进行互动。

11.一种家用机器人，其特征在于，设置有如权利要求6～10任一项所述的操控装置。

12.一种家用机器人，其特征在于，包括至少一个处理器和与其相连接的存储器，所述存储器用于存储计算机程序或指令，所述处理器用户执行所述计算机程序或指令，以使所述家用机器人执行如下操作：

根据所述语义信息与用户进行互动。

13.如权利要求12所述的家用机器人，其特征在于，所述处理器在执行所述计算机程序或指令时，还用于执行如下操作：

在本地记录所述音频数据和对应的语义信息；

根据所述语义信息与用户进行互动。