CN108520751A

CN108520751A - 一种语音智能识别设备及语音智能识别方法

Info

Publication number: CN108520751A
Application number: CN201810293039.5A
Authority: CN
Inventors: 薛彬
Original assignee: Sichuan Feixun Information Technology Co Ltd
Current assignee: Sichuan Feixun Information Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-11

Abstract

本发明公开了一种语音智能识别设备及语音智能识别方法，包括设备本体，包括：语音采集模块，在语音智能识别设备所处环境中采集初始语音数据；语音处理器，存储有预存语音识别算法、预存语音特征信息，对所述初始语音数据进行语音识别，从所述初始语音数据中识别出目标语音数据；第一微处理器，当从所述初始语音数据中识别出目标语音数据时，通过所述通信模块发送所述目标语音数据；提示模块，当从所述初始语音数据中未识别出目标语音数据时，发出相应的提示信息。本发明会对初始语音数据进行初步语音识别，从而及时有效地识别出采集到的语音数据是否为有效语音数据，并拦截掉非目标语音数据，只会发送目标语音数据。

Description

一种语音智能识别设备及语音智能识别方法

技术领域

本发明属于人工智能技术领域，特别涉及一种语音智能识别设备及语音智能识别方法。

背景技术

语音识别技术是让机器通过语音识别和语义理解等，识别出目标对象发出语音时所要表达的含义，以及找到相应的回应内容。目前，语音识别技术被广泛应用于智能机器人、智能手机、智能耳机等设备领域中。

目前，基于人工智能的语音识别主要是在服务器中进行，其智能耳机、智能机器人主要是采集环境中存在的语音数据后，将语音数据传输到服务器中，服务器对采集到的语音数据进行语音识别和语义理解等；采集到的语音数据既包括目标对象的语音数据，还包括环境噪音、非目标对象的语音数据。

由于智能机器人、智能耳机直接将采集到的语音数据传输到服务器中进行语音识别和语义理解时，完全依靠服务器对语音数据进行处理和识别等，从而会存在由于传输距离长，存在较大延时，无法及时有效地识别出采集到的语音数据是否为有效语音数据等缺陷。

因此，本领域亟需实现及时有效地识别出采集到的语音数据是否为有效语音数据。

发明内容

本发明的目的是提供一种语音智能识别设备及语音智能识别方法，会对初始语音数据进行初步语音识别，从而及时有效地识别出采集到的语音数据是否为有效语音数据，并拦截掉非目标语音数据，只会将目标语音数据发送给智能终端或服务器。

本发明提供的技术方案如下：

一种语音智能识别设备，包括设备本体，包括：语音采集模块，在语音智能识别设备所处环境中采集初始语音数据；语音处理器，与所述语音采集模块电连接，在所述语音处理器中存储有预存语音识别算法、预存语音特征信息，对所述初始语音数据进行语音识别，从所述初始语音数据中识别出目标语音数据；第一微处理器，分别与所述语音处理器、通信模块电连接，当从所述初始语音数据中识别出目标语音数据时，通过所述通信模块发送所述目标语音数据；提示模块，与所述第一微处理器电连接，当从所述初始语音数据中未识别出目标语音数据时，发出相应的提示信息。

优选的，本语音智能识别设备还包括：第二微处理器，与所述语音处理器电连接，所述第二微处理器中存储有所述预存语音识别算法、预存语音特征信息；根据所述目标语音数据对所述预存语音识别算法和/或预存语音特征信息进行优化后，更新所述语音处理器中存储的预存语音识别算法、预存语音特征信息。

进一步优选的，所述第二微处理器将所述目标语音数据作为语音数据样本，利用所述语音数据样本将所述预存语音识别算法训练成目标语音识别算法；所述第二微处理器将所述目标语音识别算法发送给所述语音处理器，利用所述目标语音识别算法更替所述语音处理器中的预存语音识别算法。

进一步优选的，所述第二微处理器利用所述目标语音识别算法从所述目标语音数据中提取目标语音特征信息；所述第二微处理器将所述目标语音特征信息发送给所述语音处理器，利用所述目标语音特征信息更替所述语音处理器中的预存语音特征信息。

进一步优选的，所述语音处理器滤除所述初始语音数据中的环境噪音数据后形成备用语音数据；

所述语音处理器利用预存语音识别算法从所述备用语音数据中滤除与预存语音特征信息不符合的语音数据后形成目标语音数据。

本发明还提供一种语音智能识别方法，包括：S10、在语音智能识别设备所处环境中采集初始语音数据；S20、根据预存语音识别算法、预存语音特征信息，对所述初始语音数据进行语音识别，从所述初始语音数据中识别出目标语音数据；S30、当从所述初始语音数据中识别出目标语音数据时，发送所述目标语音数据；S40、当从所述初始语音数据中未识别出目标语音数据时，发出相应的提示信息。

优选的，一种语音智能识别方法，还包括：S50、根据所述目标语音数据对步骤S20中所述的预存语音识别算法和/或预存语音特征信息进行优化更新。

进一步优选的，步骤S50进一步包括：S51、将所述目标语音数据作为语音数据样本，利用所述语音数据样本将所述预存语音识别算法训练成目标语音识别算法；S52、利用所述目标语音识别算法更替步骤S20中所述的预存语音识别算法。

进一步优选的，步骤S50进一步包括：S53、利用所述目标语音识别算法从所述目标语音数据中提取目标语音特征信息；S54、利用所述目标语音特征信息更替步骤S20中所述的预存语音特征信息。

进一步优选的，步骤S20进一步包括：S21、滤除所述初始语音数据中的环境噪音数据后形成备用语音数据；S22、利用预存语音识别算法从所述备用语音数据中滤除与预存语音特征信息不符合的语音数据后形成目标语音数据。

与现有技术相比，本发明提供的一种语音智能识别设备及语音智能识别方法具有以下有益效果：

1、本发明在采集到初始语音数据后，结合语音智能识别设备中存储的预存语音识别算法、预存语音特征信息，对初始语音数据进行语音识别，在初始语音数据中识别出目标语音数据后，发送目标语音数据；在初始语音数据中未识别出目标语音数据后，发出相应的提示信息。

语音智能识别设备会对初始语音数据进行初步语音识别，拦截掉非目标语音数据，只会将目标语音数据发送给智能终端或服务器，不仅让智能终端或服务器更准确、快速地将目标语音数据转换成目标语音文本数据，以及对目标语音文本数据进行语义理解等；还能避免将无效语音数据发送给智能终端或服务器进行后续处理。

2、本发明中语音智能识别设备在每次识别出目标语音数据后，都会将目标语音数据作为语音数据样本，对预存语音识别算法进行训练，让预存语音识别算法不断学习，以及让预存语音特征信息不断更新，从而使得语音智能识别设备更容易识别出用户的用户语音数据或经常与用户交互的交互对象的交互语音数据；随着用户对语音智能识别设备的使用时间变长，语音智能识别设备更能满足用户体验。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种语音智能识别设备及语音智能识别方法的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种语音智能识别方法的流程示意图；

图2是本发明又一种语音智能识别方法的流程示意图；

图3是本发明中步骤S50的流程示意图；

图4是本发明中步骤S20的流程示意图；

图5是本发明一种语音智能识别设备的结构示意框图；

附图标号说明：

10—语音采集模块 20—语音处理器 30—第一微处理器

40—提示模块 50—第二微处理器 60—通信模块

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

根据本发明提供的一种实施例，如图1所示，一种语音智能识别方法，包括：

S10、在语音智能识别设备所处环境中采集初始语音数据；

S20、根据预存语音识别算法、预存语音特征信息，对所述初始语音数据进行语音识别，从所述初始语音数据中识别出目标语音数据；

S30、当从所述初始语音数据中识别出目标语音数据时，发送所述目标语音数据；

S40、当从所述初始语音数据中未识别出目标语音数据时，发出相应的提示信息。

具体的，语音智能识别设备可以为耳机、手环等，当用户佩戴上语音智能识别设备时，在语音智能识别设备上通过机械开关或上电等方式开启语音采集功能，或者通过智能终端(例如手机等)向语音智能识别设备发送语音采集开启控制命令，语音智能识别设备接收到语音采集开启控制命令后，开启语音采集功能。

语音智能识别设备采集周围环境中的初始语音数据，初始语音数据包括用户语音数据、交互对象语音数据、环境声音数据；例如当用户佩戴语音智能识别设备身处商场时，会采集到用户自己发出的用户语音数据，还会采集到其他顾客、推销人员、店员等发出的语音数据；甚至会采集到其他东西发出的碰撞声等环境声音数据。

如果预存语音特征信息为用户自己的用户语音特征信息，利用预存语音识别算法从初始语音数据中识别出用户自己发出的语音数据作为目标语音数据；当识别出用户自己发出的用户语音数据时，向智能终端(手机)或服务器发送用户语音数据，智能终端或服务器将用户语音数据转换成用户语音文本数据后进行语义理解；当未识别出用户自己发出的用户语音数据时，放弃发送用户语音数据，并发出相应的提示信息，提示用户再次发出语音数据。

根据本发明提供的另一种实施例，如图2、3所示，一种语音智能识别方法，包括：

S10、在语音智能识别设备所处环境中采集初始语音数据；

S50、根据所述目标语音数据对步骤S20中所述的预存语音识别算法和/或预存语音特征信息进行优化更新。

具体的，步骤S50进一步包括：S51、将所述目标语音数据作为语音数据样本，利用所述语音数据样本将所述预存语音识别算法训练成目标语音识别算法；

S52、利用所述目标语音识别算法更替步骤S20中所述的预存语音识别算法；

S53、利用所述目标语音识别算法从所述目标语音数据中提取目标语音特征信息；

S54、利用所述目标语音特征信息更替步骤S20中所述的预存语音特征信息。

具体的，在利用语音智能识别设备每次采集并识别出目标语音数据后，除了向智能终端或服务器发送目标语音数据外，还会将目标语音数据作为语音数据样本，对预存语音识别算法进行模型训练，预存语音识别算法训练后形成目标语音识别算法；将目标语音识别算法将预存语音识别算法替换掉，使得预存语音识别算法更容易识别出用户的用户语音数据。

在预存语音识别算法训练成目标语音识别算法后，或者在将目标语音识别算法替换步骤S20中预存语音识别算法后，利用目标语音识别算法或替换后的预存语音识别算法从用户语音数据中提取用户语音特征信息，并将用户语音特征信息替换步骤S20中预存语音特征信息，使得预存语音特征信息更接近用户的语音特征信息。

根据本发明提供的又一种实施例，如图2、3、4所示，一种语音智能识别方法，包括：

S10、在语音智能识别设备所处环境中采集初始语音数据；

具体的，步骤S20进一步包括：S21、滤除所述初始语音数据中的环境噪音数据后形成备用语音数据；S22、利用预存语音识别算法从所述备用语音数据中滤除与预存语音特征信息不符合的语音数据后形成目标语音数据。

具体的，在语音智能识别设备采集到初始语音数据后，先将初始语音数据中的环境噪音数据(其他东西发出的碰撞声等)滤除掉后形成备用语音数据，备用语音数据为人类发出的语音数据；此时，备用语音数据可能是用户自己发出的用户语音数据，还有可能是其他顾客、推销人员、店员等发出的语音数据。

预存语音特征信息为用户的用户语音特征信息时，利用预存语音识别算法从备用语音数据中滤除其他顾客、推销人员、店员等发出的语音数据，只剩用户自己发出的用户语音数据。

预存语音特征信息可以是一个，也可也是多个，在语音智能识别设备上开启预存语音特征信息的预设功能后，采集一个目标对象的目标语音数据，利用语音识别算法从目标语音数据中提取目标语音特征信息作为预存语音特征信息。当需要预存多个预存语音特征信息时，重复上述步骤。

根据本发明提供的一种实施例，一种语音智能识别设备，包括设备本体，包括：

语音采集模块10，在语音智能识别设备所处环境中采集初始语音数据；

语音处理器20，与所述语音采集模块10电连接，在所述语音处理器20中存储有预存语音识别算法、预存语音特征信息，对所述初始语音数据进行语音识别，从所述初始语音数据中识别出目标语音数据；

第一微处理器30，分别与所述语音处理器20、通信模块60电连接，当从所述初始语音数据中识别出目标语音数据时，通过所述通信模块60发送所述目标语音数据；

提示模块40，与所述第一微处理器30电连接，当从所述初始语音数据中未识别出目标语音数据时，发出相应的提示信息。

第二微处理器50，与所述语音处理器20电连接，所述第二微处理器50中存储有所述预存语音识别算法、预存语音特征信息；根据所述目标语音数据对所述预存语音识别算法和/或预存语音特征信息进行优化后，更新所述第二微处理器50和语音处理器20中存储的预存语音识别算法、预存语音特征信息。

具体的，语音采集模块10包括主麦克风，安装在所述设备本体上朝向用户发音的一侧，主要用于采集用户语音数据；副麦克风，安装在所述设备本体上背离用户发音的一侧，主要用于采集环境声音。

语音智能识别设备采用双核处理器，第一微处理器30(主控MCU)、第二微处理器50(人工智能MCU)，第一微处理器30负责各种任务的调度等，第二微处理器50负责预存语音识别算法的在线学习，第一微处理器30、第二微处理器50、数字信号处理器之间相互协调，共同完成目标语音数据的识别。

语音处理器20从初始语音数据中识别出目标语音数据，例如在多人讲话的场景下，识别出用户本人的语音数据，可以有效地避免其他人说话的干扰，有利于手机或服务器更容易对语音数据的语义理解，有效地过滤其他人的语言，有效提高语义理解的效率。

根据本发明提供的另一种实施例，如图5所示，一种语音智能识别设备，包括设备本体，包括：

语音处理器20，与所述语音采集模块10电连接，在所述语音处理器20中存储有预存语音识别算法、预存语音特征信息，对所述初始语音数据进行语音识别，从所述初始语音数据中识别出目标语音数据；所述语音处理器20为数字信号处理器。

具体的，所述语音处理器20滤除所述初始语音数据中的环境噪音数据后形成备用语音数据；

所述语音处理器20利用预存语音识别算法从所述备用语音数据中滤除与预存语音特征信息不符合的语音数据后形成目标语音数据；预存语音识别算法为神经网络/机器学习算法。

具体的，所述第二微处理器50将所述目标语音数据作为语音数据样本，利用所述语音数据样本将所述预存语音识别算法训练成目标语音识别算法；

所述第二微处理器50将所述目标语音识别算法发送给所述语音处理器20，利用所述目标语音识别算法更替所述语音处理器20中的预存语音识别算法。

所述第二微处理器50利用所述目标语音识别算法从所述目标语音数据中提取目标语音特征信息；

所述第二微处理器50将所述目标语音特征信息发送给所述语音处理器20，利用所述目标语音特征信息更替所述语音处理器20中的预存语音特征信息。

具体的，主麦克风、副麦克风采集到的语音数据作为初始语音数据，并将初始语音数据传输给数字信号处理器，数字信号处理器将主麦克风采集到的语音数据减去副麦克风采集到的语音数据，相当于从初始语音数据中滤除了环境噪音(例如车鸣笛声等)，形成备用语音数据；备用语音数据为至少一个人发出的人类语音数据。

数字信号处理器再结合预存语音识别算法、预存语音特征信息，从备用语音数据中剔除非目标对象的语音数据，只剩一个目标对象发出的语音数据；可以有效地避免其他人说话的干扰，有利于手机或服务器更容易对语音数据的语义理解；有效地过滤其他人的语言后，可以有效提高语义理解的效率。

例如：甲、乙、丙、丁四人在马路上谈话，语音智能识别设备上主麦克风、副麦克风共同采集甲、乙、丙、丁四人在马路上谈话时的初始语音数据，既包括甲和/或乙和/或丙和/或丁发出的语音数据，还包括车鸣笛声等环境噪音。

数字信号处理器先从初始语音数据中滤除环境噪音后，得到甲和/或乙和/或丙和/或丁发出的语音数据。

若甲是目标对象，预存语音特征信息为甲的语音特征信息，数字信号处理器结合预存语音识别算法、预存语音特征信息，从备用语音数据中剔除乙和/或丙和/或丁的语音数据，只剩一个甲发出的语音数据；可以有效地避免其他人说话的干扰。

若甲和乙均是目标对象，预存语音特征信息为甲和乙各自的语音特征信息，数字信号处理器结合预存语音识别算法、预存语音特征信息，以及目标对象选择规则，例如，先采集到谁的语音，就将谁作为目标对象；或者，谁的声音较大，就将谁作为目标对象；从备用语音数据中剔除甲和/ 或乙和/或丙和/或丁的语音数据，只剩一个目标对象发出的语音数据；可以有效地避免其他人说话的干扰。

或者，在多个目标对象同时发声时，语音智能识别设备会发出无法识别的提示信息。

数字信号处理器在识别出目标语音数据后，将目标语音数据发送给第一微处理器30，第一微处理器30通过通信模块60(例如蓝牙模块、WIFI 模块等)发送给手机或服务器；不仅方便手机或服务器对目标语音数据快速、准确地进行语义理解；还能减轻手机或服务器对语音数据的处理工作。

在数字信号处理器识别出目标语音数据后，还会将目标语音数据传输给第二微处理器50，第二微处理器50结合目标语音数据对预存语音识别算法进行训练，使得预存语音识别算法不断学习，并在预存语音识别算法完成训练后，同步更新第一微处理器30中的预存语音识别算法。并利用完成训练后的预存语音识别算法从目标语音数据中提取目标语音特征信息，同步更新第一微处理器30中的预存语音特征信息。

数字信号处理器中的预存语音识别算法不断在线学习后，以及预存语音特征信息不断更新后，使得本适于大众群众的语音识别基础算法，只能识别出比较常见的语音数据；使预存语音识别算法更具有独特性，更容易识别出一些独特的语音数据，更适于语音智能识别设备的用户本身。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音智能识别设备，包括设备本体，其特征在于，包括：

语音采集模块，在语音智能识别设备所处环境中采集初始语音数据；

语音处理器，与所述语音采集模块电连接，在所述语音处理器中存储有预存语音识别算法、预存语音特征信息，对所述初始语音数据进行语音识别，从所述初始语音数据中识别出目标语音数据；

第一微处理器，分别与所述语音处理器、通信模块电连接，当从所述初始语音数据中识别出目标语音数据时，通过所述通信模块发送所述目标语音数据；

提示模块，与所述第一微处理器电连接，当从所述初始语音数据中未识别出目标语音数据时，发出相应的提示信息。

2.根据权利要求1所述的一种语音智能识别设备，其特征在于，还包括：

第二微处理器，与所述语音处理器电连接，所述第二微处理器中存储有所述预存语音识别算法、预存语音特征信息；根据所述目标语音数据对所述预存语音识别算法和/或预存语音特征信息进行优化后，更新所述第二微处理器和语音处理器中存储的预存语音识别算法、预存语音特征信息。

3.根据权利要求2所述的一种语音智能识别设备，其特征在于：

所述第二微处理器将所述目标语音数据作为语音数据样本，利用所述语音数据样本将所述预存语音识别算法训练成目标语音识别算法；

所述第二微处理器将所述目标语音识别算法发送给所述语音处理器，利用所述目标语音识别算法更替所述语音处理器中的预存语音识别算法。

4.根据权利要求3所述的一种语音智能识别设备，其特征在于：

所述第二微处理器利用所述目标语音识别算法从所述目标语音数据中提取目标语音特征信息；

所述第二微处理器将所述目标语音特征信息发送给所述语音处理器，利用所述目标语音特征信息更替所述语音处理器中的预存语音特征信息。

5.根据权利要求1～4中任意一项所述的一种语音智能识别设备，其特征在于：

所述语音处理器滤除所述初始语音数据中的环境噪音数据后形成备用语音数据；

6.一种语音智能识别方法，其特征在于，包括：

S10、在语音智能识别设备所处环境中采集初始语音数据；

7.根据权利要求6所述的一种语音智能识别方法，其特征在于，还包括：

8.根据权利要求7所述的一种语音智能识别方法，其特征在于，步骤S50进一步包括：

S51、将所述目标语音数据作为语音数据样本，利用所述语音数据样本将所述预存语音识别算法训练成目标语音识别算法；

S52、利用所述目标语音识别算法更替步骤S20中所述的预存语音识别算法。

9.根据权利要求8所述的一种语音智能识别方法，其特征在于，步骤S50进一步包括：

10.根据权利要求1～9中任意一项所述的一种语音智能识别方法，其特征在于，步骤S20进一步包括：

S21、滤除所述初始语音数据中的环境噪音数据后形成备用语音数据；

S22、利用预存语音识别算法从所述备用语音数据中滤除与预存语音特征信息不符合的语音数据后形成目标语音数据。