CN112786035A

CN112786035A - 清洁机器人的语音识别方法、系统和芯片

Info

Publication number: CN112786035A
Application number: CN201911085022.1A
Authority: CN
Inventors: 肖刚军
Original assignee: Zhuhai Amicro Semiconductor Co Ltd
Current assignee: Zhuhai Amicro Semiconductor Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2021-05-11

Abstract

本发明公开了一种清洁机器人的语音识别方法、系统和芯片，所述方法基于存储库中的音素预设相对应的控制操作，执行与相似度较高的音素对应的清洁机器人的清洁动作，使清洁机器人自主实现语音识别功能，增加清洁机器人的智能化控制，且增强语音识别的准确性，增加清洁机器人的智能化水平，使清洁机器人更加多元化。

Description

清洁机器人的语音识别方法、系统和芯片

技术领域

本发明涉及智能机器人技术领域，尤其涉及一种清洁机器人的语音识别方法、系统和芯片。

背景技术

清洁机器人主要为替代人工，从事家庭环境的清洁工作。清洁机器人，集自动清洁技术和人性智能设计于一体，一般采用刷扫、吸尘、拖擦等方式，将待清洁面污物吸纳进入自身的收纳盒，从而完成待清洁面清洁。

现有技术中，对于清洁机器人的语音控制，人们需要将利用外设控制装置（手机、平板等智能终端）通过接收语音进而通知用户控制清洁机器人移动，一旦人们的身边没有手机、平板等智能终端，便无法实现对清洁机器人的语音控制，以使清洁机器人的语音控制受到限制。

发明内容

本发明提供一种清洁机器人的语音识别方法、系统和芯片，其主要目的在于解决清洁机器人无法自身实现语音控制功能的技术问题。

为实现上述目的，本发明提供一种清洁机器人的语音识别方法，所述清洁机器人的语音识别方法包括：在清洁过程中，获取预设时间段的语音信息；处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠；处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络；获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径；计算所述第一语音路径转换至所述第二语音路径的变化概率；若变化概率大于预设概率，则获取所述第二语音路径对应的音素；获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。

可选地，所述获取所述音素对应的运行参数的步骤还包括：提取所述第二语音路径的音素；获取存储数据库中与所述音素匹配度最高的预设音素；获取所述预设音素对应运行参数，并控制所述清洁机器人根据所述清洁运行参数运行。

可选地，所述处理所述语音信息的步骤包括：预处理所述语音信息，并对所述语音信息进行特征提取；根据预处理的所述语音信息及所述语音信息的特征得到音素。

可选地，所述预处理所述语音信息的步骤包括：对语音信息进行采样，并去除个体发音差异及噪音；获取预处理的所述语音信息。

可选地，所述对语音信息进行采样，并去除个体发音差异及噪音的步骤之后还包括：确定语音信息中语音的起点与终点；根据所述起点与所述终点开始对所述语音信息进行处理。

可选地，所述获取预设时间段的语音信息的步骤之后还包括：纠正预处理的所述语音信息。

可选地，所述获取预设时间段的语音信息的步骤之前包括：控制所述语音采集模块采集语音信息，并获取语音信息。

可选地，所述提取所述第一语音帧及所述第二语音帧的音素的步骤之后还包括：无法获取存储数据库中与所述音素匹配度最高的预设音素；更新存储数据库中的预设音素；重新执行所述处理所述语音信息的步骤。

此外，为实现上述目的，本发明还提出一种清洁机器人的语音识别系统，所述清洁机器人的语音识别系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的清洁机器人的语音识别程序，所述清洁机器人的语音识别程序被所述处理器执行时实现如上所述的清洁机器人的语音识别方法的步骤。

此外，为实现上述目的，本发明还提出一种具有存储功能的装置，其上存储有程序数据，所述程序数据被处理器执行时实现如上所述清洁机器人的语音识别方法中的步骤。

本发明提出的清洁机器人及其语音识别方法、系统和芯片，通过在清洁过程中，获取预设时间段的语音信息，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络，获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径，计算所述第一语音路径转换至所述第二语音路径的变化概率，若变化概率大于预设概率，则获取所述第二语音路径对应的音素，获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。基于存储库中的音素预设相对应的控制操作，执行与相似度较高的音素对应的清洁机器人的清洁动作，使清洁机器人自主实现语音识别功能，增加清洁机器人的智能化控制，且增强语音识别的准确性，增加清洁机器人的智能化水平，使清洁机器人更加多元化。

附图说明

为了更清楚地说明本发明实施例或示例性中的技术方案，下面将对实施例或示例性描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以按照这些附图示出的获得其他的附图。

图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明清洁机器人的语音识别方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：通过在清洁过程中，获取预设时间段的语音信息，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络，获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径，计算所述第一语音路径转换至所述第二语音路径的变化概率，若变化概率大于预设概率，则获取所述第二语音路径对应的音素，获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。基于存储库中的音素预设相对应的控制操作，执行与相似度较高的音素对应的清洁机器人的清洁动作，使清洁机器人自主实现语音识别功能，增加清洁机器人的智能化控制，且增强语音识别的准确性，增加清洁机器人的智能化水平，使清洁机器人更加多元化。

由于现有技术中清洁机器人在工作过程中，对于清洁机器人的语音控制，人们需要将利用外设控制装置（手机、平板等智能终端）通过接收语音进而通知用户控制清洁机器人移动，一旦人们的身边没有手机、平板等智能终端，便无法实现对清洁机器人的语音控制，以使清洁机器人的语音控制受到限制。

本发明提供一种解决方案，在清洁过程中，获取预设时间段的语音信息；处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠；处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络；获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径；计算所述第一语音路径转换至所述第二语音路径的变化概率；若变化概率大于预设概率，则获取所述第二语音路径对应的音素；获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。

如图1所示，图1是本发明实施例方案涉及的终端的硬件运行环境示意图。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard）、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端的结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及清洁机器人的语音识别程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端（用户端），与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的清洁机器人的语音识别程序，并执行以下操作：在清洁过程中，获取预设时间段的语音信息；处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠；处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络；获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径；计算所述第一语音路径转换至所述第二语音路径的变化概率；若变化概率大于预设概率，则获取所述第二语音路径对应的音素；获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。

进一步地，处理器1001可以调用存储器1005中存储的清洁机器人的语音识别程序，还执行以下操作：所述获取所述音素对应的运行参数的步骤还包括：提取所述第二语音路径的音素；获取存储数据库中与所述音素匹配度最高的预设音素；获取所述预设音素对应运行参数，并控制所述清洁机器人根据所述清洁运行参数运行。

进一步地，处理器1001可以调用存储器1005中存储的清洁机器人的语音识别程序，还执行以下操作：预处理所述语音信息，并对所述语音信息进行特征提取；根据预处理的所述语音信息及所述语音信息的特征得到音素。

进一步地，处理器1001可以调用存储器1005中存储的清洁机器人的语音识别程序，还执行以下操作：对语音信息进行采样，并去除个体发音差异及噪音；获取预处理的所述语音信息。

进一步地，处理器1001可以调用存储器1005中存储的清洁机器人的语音识别程序，还执行以下操作：确定语音信息中语音的起点与终点。

进一步地，处理器1001可以调用存储器1005中存储的清洁机器人的语音识别程序，还执行以下操作：纠正预处理的所述语音信息。

进一步地，处理器1001可以调用存储器1005中存储的清洁机器人的语音识别程序，还执行以下操作：控制所述语音采集模块采集语音信息，并获取语音信息。

进一步地，处理器1001可以调用存储器1005中存储的清洁机器人的语音识别程序，还执行以下操作：无法获取存储数据库中与所述音素匹配度最高的预设音素；更新存储数据库中的预设音素；重新执行所述处理所述语音信息的步骤。

本发明提供一种清洁机器人的语音识别方法。

参照图2，图2为本发明清洁机器人的语音识别方法第一实施例的流程示意图。

本实施例提出一种清洁机器人的语音识别方法，该清洁机器人的语音识别方法包括：步骤S10，在清洁过程中，获取预设时间段的语音信息；步骤S20，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧重叠；步骤S30，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络；步骤S40，获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径；步骤S50，计算所述第一语音路径转换至所述第二语音路径的变化概率；步骤S60，若变化概率大于预设概率，则获取所述第二语音路径对应的音素；步骤S70，获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。

语音识别模块是在一种基于嵌入式的语音识别技术的模块，主要包括语音识别芯片和一些其他的附属电路，能够方便的与主控芯片进行通讯，开发者可以方便的将该模块嵌入到自己的产品中使用，实现语音交互的目的。

语音识别需要对输入语音预处理和特征提取；其中，语音识别包括两个阶段：训练和识别训练阶段，训练阶段所做的具体工作是收集大量的语音语料，经过预处理和特征提取后得到音素，最后通过特征建模达到建立训练语音的参考模型库的目的，而识别阶段所做的主要工作是将输入语音的音素和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入音素作为识别结果输出，最终就达到了语音识别的目的。

在处理语音信息的过程中，都需先对语音信息进行分帧处理，且在分帧处理后执行两种操作：其一操作为获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠；另一操作为获取每一帧的状态，并将每一帧的状态构建成状态网络。

通过构建的状态网络为所述语音信息的语音数据库，所述第一语音帧及所述第二语音帧可以从所述语音数据库中寻找出匹配度较高的音素。

计算所述第一语音路径转换至所述第二语音路径的变化概率，若变化概率大于预设概率，则说明该语音路径为正确的语音路径，则获取所述第二语音路径对应的音素；若变化概率小于预设概率，则说明该语音路径为错误的语音路径，并重新获取所述第一语音帧与所述第二语音帧。

特征提取，从原始语音信号中抽取出能反映语音本质的音素，形成特征矢量序列。

模式匹配，按照一定的相似度量法则，使未知模型与模型库中的某一模型获得最佳的匹配。

本实施例中通过在清洁过程中，获取预设时间段的语音信息，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠，处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络，获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径，计算所述第一语音路径转换至所述第二语音路径的变化概率，若变化概率大于预设概率，则获取所述第二语音路径对应的音素，获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。基于存储库中的音素预设相对应的控制操作，执行与相似度较高的音素对应的清洁机器人的清洁动作，使清洁机器人自主实现语音识别功能，增加清洁机器人的智能化控制，且增强语音识别的准确性，增加清洁机器人的智能化水平，使清洁机器人更加多元化。

所述获取所述音素对应的运行参数的步骤还包括：提取所述第二语音路径的音素；获取存储数据库中与所述音素匹配度最高的预设音素；获取所述预设音素对应运行参数，并控制所述清洁机器人根据所述清洁运行参数运行。

所述处理所述语音信息的步骤包括：预处理所述语音信息，并对所述语音信息进行特征提取；根据预处理的所述语音信息及所述语音信息的特征得到音素。

通过增加清洁机器人的语音识别功能，增加清洁机器人的智能化水平，使清洁机器人更加多元化。

预处理包括语音信号的采样，反混叠带通滤波去除个体发音差异和设备/环境引起的噪音影响等，并设计到语音识别的基元选取和端点检测，端点检测是指从语音信号中确定出的语音的起点和终点。

所述预处理所述语音信息的步骤包括：对语音指令信号进行采样，并进行带通滤波去除个体发音差异及噪音；获取预处理的所述语音信息。

反混叠带通滤波又称之为预滤波，是指滤波除高于1/2采样频率的信号成分或噪音，使信号带宽限制在某个范围内；否则，如果采样率不满足采样定理，则会产生频谱混叠，此时信号中的高频成分将产生失真；而工频干扰指50HZ的电源干扰。

所述对语音信息进行采样，并去除个体发音差异及噪音的步骤之后还包括：确定语音信息中语音的起点与终点。

端点检测是指从背景噪音中找出语音的开始和终止点，在孤立词语音识别中，找出每个单字的语音信号范围是很重要的，确定语音信号的开始和终止可以减少系统的大量计算。

所述获取预处理的所述语音信息的步骤之后还包括：纠正预处理的所述语音信息。通过增加清洁机器人的语音识别功能，增加清洁机器人的智能化水平，使清洁机器人更加多元化。

所述获取预设时间段的语音信息的步骤之前包括：控制所述语音采集模块采集语音信息，并获取语音信息。

在语音识别过程中还包括后处理，对语音进行语法及语义分析，对语音识别后得到的文本进行处理，发现和纠正原来结果中的各种错误，使得输出结果更加准确。

本实施例中增加清洁机器人的语音识别功能，增加清洁机器人的智能化水平，使清洁机器人更加多元化。

基于上述实施例提出本发明第二实施例，在本实施例中，所述提取所述第一语音帧及所述第二语音帧的音素的步骤之后还包括：无法获取存储数据库中与所述音素匹配度最高的预设音素；更新存储数据库中的预设音素；重新执行所述处理所述语音信息的步骤。

本发明还提出一种清洁机器人的语音识别系统，所述清洁机器人的语音识别系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的清洁机器人的语音识别程序，所述清洁机器人的语音识别程序被所述处理器执行时实现如上所述的清洁机器人的语音识别方法的步骤。

本发明还提出一种具有存储功能的装置，其上存储有程序数据，所述程序数据被处理器执行时实现如上所述清洁机器人的语音识别方法中的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，云端服务器，空调，或者网络设备等）执行本发明各个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种清洁机器人的语音识别方法，其特征在于，所述清洁机器人的语音识别方法包括：

在清洁过程中，获取预设时间段的语音信息；

处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取预设时间范围内的第一语音帧与第二语音帧，确定所述第一语音帧至所述第二语音帧的语音信息发生变化，其中所述第一语音帧与所述第二语音帧交叠；

处理所述语音信息并将所述语音信息按照预设语音长度进行分帧，获取每一帧的状态，并将每一帧的状态构建成状态网络；

获取所述第一语音帧在所述状态网络内匹配的第一语音路径，及获取所述第二语音帧在所述状态网络内匹配的第二语音路径；

计算所述第一语音路径转换至所述第二语音路径的变化概率；

若变化概率大于预设概率，则获取所述第二语音路径对应的音素；

获取所述音素对应的运行参数，并控制所述清洁机器人根据所述清洁运行参数进行转向运动或避让运动或清洁运动。

2.如权利要求1所述的清洁机器人的语音识别方法，其特征在于，所述获取所述音素对应的运行参数的步骤还包括：

提取所述第二语音路径的音素；

获取存储数据库中与所述音素匹配度最高的预设音素；

获取所述预设音素对应运行参数，并控制所述清洁机器人根据所述清洁运行参数运行。

3.如权利要求1所述的清洁机器人的语音识别方法，其特征在于，所述处理所述语音信息的步骤包括：

预处理所述语音信息，并对所述语音信息进行特征提取；

根据预处理的所述语音信息及所述语音信息的特征得到音素。

4.如权利要求3所述的清洁机器人的语音识别方法，其特征在于，所述预处理所述语音信息的步骤包括：

对语音信息进行采样，并去除个体发音差异及噪音；

获取预处理的所述语音信息。

5.如权利要求4所述的清洁机器人的语音识别方法，其特征在于，所述对语音信息进行采样，并去除个体发音差异及噪音的步骤之后还包括：

确定语音信息中语音的起点与终点；

根据所述起点与所述终点开始对所述语音信息进行处理。

6.如权利要求1所述的清洁机器人的语音识别方法，其特征在于，所述获取预设时间段的语音信息的步骤之后还包括：

纠正预处理的所述语音信息。

7.如权利要求1所述的清洁机器人的语音识别方法，其特征在于，所述获取预设时间段的语音信息的步骤之前包括：

控制所述语音采集模块采集语音信息，并获取语音信息。

8.如权利要求2所述的清洁机器人的语音识别方法，其特征在于，所述提取所述第一语音帧及所述第二语音帧的音素的步骤之后还包括：

无法获取存储数据库中与所述音素匹配度最高的预设音素；

更新存储数据库中的预设音素；

重新执行所述处理所述语音信息的步骤。

9.一种清洁机器人的语音识别系统，其特征在于，所述清洁机器人的语音识别系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的清洁机器人的语音识别程序，所述清洁机器人的语音识别程序被所述处理器执行时实现如权利要求1至8中任一项所述的清洁机器人的语音识别方法的步骤。

10.一种芯片，其上存储有程序数据，其特征在于，所述程序数据被处理器执行时实现如权利要求1至8任一项所述清洁机器人的语音识别方法中的步骤。