CN109461439A

CN109461439A - 一种语音信息指令的采集方法

Info

Publication number: CN109461439A
Application number: CN201910017314.5A
Authority: CN
Inventors: 詹敏宏; 刘学军
Original assignee: Shenzhen Gaojue Technology Co Ltd
Current assignee: Shenzhen Gaojue Technology Co Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-03-12

Abstract

本发明提供了一种语音信息指令的采集方法，应用于智能设备中以供特定使用者进行操作，特定使用者对输入平台进行操作，发送操作指令触发保存模块中的提示声音文件；提示声音文件通过播放单元进行播放，特定使用者根据提示声音文件的提示语音进行跟读；特定使用者跟读的语音通过收录单元进入采集模块，将采集到跟读的语音传递至转换模块进行运算处理，进而形成语音特征值和声纹特征值并分别保存在语音特征存储模块和声纹特征存储模块中；采集任务完成，简单、方便、无成本，还具抗干扰、可操作性更强、识别度增强、开发时间短、价格低和安全性能高的好处。

Description

一种语音信息指令的采集方法

技术领域

本发明涉及人工智能领域，具体涉及到一种语音信息指令的采集方法。

背景技术

目前业界声纹识别系统需要采用录音的方式解决录入声纹，录音成功或失败后需要提示，常用方法就是屏幕提示、LED灯提示、语音提示和连接外部设备来进行提示。

但是存在的缺点是：屏幕提示的成本高且有些设备，如：蓝牙耳机，由于空间问题不能提供屏幕。LED灯提示，同样存在空间限制的问题，且提示难以让使用者理解，常常录音失败。语声提示则需要外接播放设备，有成本和空间的限制。而连接外部设备来进行提示，如手机控制软件(APP)有版本兼容性问题。

申请号为CN201510835844.2，名称为语音操控系统，系统自定义命令和系统截取屏幕并识别图片中可操作区域，可操作区域包括图标、按钮、文本标签等界面控件，然后生成对应的命令集库；系统采集语音，通过在线或离线的方式对语音进行识别为文字；系统匹配文字与命令集库，识别语音控制命令；系统模拟控制命令对应的操控动作或通知应用进行操作，实现语音操控目标。该方式同样存在屏幕提示和语声提示上述的缺点。

发明内容

为了解决上述不足的缺陷，本发明提供了一种语音信息指令的采集方法，利用在智能设备中集合语音系统和蓝牙系统，来实现语音特征值和声纹特征值的采集任务。此方法简单、方便、无成本，使用者很轻易就上手，以及可以识别语音以及声纹信息，而且可以识别不同的方言以及不同的语种，可操作性更强，抗干扰，识别度增强，安全性能高，并且开发时间短且价格低。

一种语音信息指令的采集方法，应用于一智能设备中以供一特定使用者进行操作，其包括以下步骤：

步骤(1)：提供一输入平台、一保存模块、一语音系统、一收录单元和一播放单元设于所述智能设备中，所述输入平台电性连接所述保存模块，所述语音系统具有一采集模块、一转换模块、一语音特征存储模块和一声纹特征存储模块，所述转换模块电性连接所述采集模块，且所述语音特征存储模块和所述声纹特征存储模块均电性连接所述转换模块，所述收录单元电性连接所述语音系统，所述播放单元电性连接所述保存模块，所述保存模块中具有提示声音文件；

步骤(2)：特定使用者对所述输入平台进行操作，发送一操作指令触发所述保存模块中的提示声音文件；

步骤(3)：所述提示声音文件通过所述播放单元进行播放，特定使用者根据所述提示声音文件的提示语音进行跟读；

步骤(4)：特定使用者跟读的语音通过所述收录单元进入所述采集模块，将采集到所述跟读的语音传递至所述转换模块进行运算处理，进而形成语音特征值和声纹特征值并分别保存在所述语音特征存储模块和所述声纹特征存储模块中；

步骤(5)：至此，特定使用者的专属语音特征值和声纹特征值的语音信息指令采集完成，并保存于所述智能设备中，所述智能设备仅供前述特定使用者进行操作。

步骤(1)进一步包括：所述语音系统具有一语音输入端和一语音输出端，所述收录单元连接所述语音输入端，所述语音输出端电性连接设于所述智能设备中的一蓝牙系统，步骤(4)中特定使用者跟读的语音通过所述收录单元进入所述语音输入端，步骤(5)中特定使用者的语音指令通过所述语音输出端对所述蓝牙系统进行操作控制。

进一步地，步骤(4)中进入所述语音输入端的为模拟信号，步骤(5)中从所述语音输出端发送的为数字信号。

步骤(1)进一步包括：所述蓝牙系统具有一蓝牙输入端和一蓝牙输出端，步骤(5)中所述语音输出端电性连接所述蓝牙输入端，进入所述蓝牙输入端的为数字信号，由所述蓝牙输出端发送的为模拟信号。

进一步地，步骤(4)中所述采集模块对所述收录单元的特定使用者跟读的语音进行筛选和过滤后，再进入所述转换模块，由所述转换模块将模拟信号转换为数字信号，语音特征值和声纹特征值均为数字信号。

进一步地，所述智能设备为基于蓝牙的智能设备或者基于wifi的智能设备，智能设备包括蓝牙耳机或蓝牙音箱。

进一步地，步骤(1)中所述保存模块中的提示声音文件具有引导功能和提示功能，步骤(2)中所述操作指令触发引导功能和提示功能，步骤(3)中特定使用者根据引导功能和提示功能进行跟读，引导功能和提示功能为三次，对应地跟读也为三次，且跟读的语音与引导功能和提示功能的信息全部相符。

进一步地，步骤(1)中所述保存模块的提示声音文件为语音文件，其具有触发条件和环境，步骤(1)中进一步具有一蓝牙系统设于所述智能设备中，且与所述语音系统电性连接，所述蓝牙系统具有一触发模块，所述触发模块的触发条件和环境与所述保存模块的语音文件的触发条件和环境均相同。

进一步地，步骤(1)中所述语音系统具有相互电性连接的一识别模块和一发送模块，步骤(6)中特定使用者提供一指令语音，所述指令语音由所述收录单元传输至所述语音系统中，所述识别模块将所述指令语音与专属的所述语音特征值进行识别对比处理，并且，所述识别模块将所述指令语音与专属的所述声纹特征值进行识别对比处理，如果所述指令语音与专属的所述语音特征值和专属的所述声纹特征值的对比结果均相符，所述指令语音则通过所述发送模块传输至所述蓝牙系统，并触发所述触发模块，如果所述指令语音与任一专属的所述语音特征值和专属的所述声纹特征值的对比结果不相符，所述指令语音则不会传输至所述发送模块。

进一步地，步骤(4)中的声纹特征值包括的类别有声学特性；词法特性；韵律特性；语种、方言和口音信息；通道信息。

本发明具有以下有益效果：

一种语音信息指令的采集方法，应用于智能设备中以供特定使用者进行操作，由于所述语音系统具有所述采集模块、所述转换模块、所述语音特征存储模块和所述声纹特征存储模块，所述保存模块中具有提示声音文件，特定使用者对所述输入平台进行操作，发送所述操作指令触发所述保存模块中的提示声音文件；所述提示声音文件通过所述播放单元进行播放，特定使用者根据所述提示声音文件的提示语音进行跟读；特定使用者跟读的语音通过所述收录单元进入所述采集模块，将采集到所述跟读的语音传递至所述转换模块进行运算处理，进而形成语音特征值和声纹特征值并分别保存在所述语音特征存储模块和所述声纹特征存储模块中；至此，特定使用者的专属语音特征值和声纹特征值的语音信息指令采集完成，并保存于所述智能设备中，所述智能设备仅供前述特定使用者进行操作，此方法简单、方便、无成本，使用者很轻易就上手。

并且，由于特定使用者的语音特征值和声纹特征值均有得到保存，这样就可以根据识别的要求进行个性化设置，后续使用所述智能设备时，通过识别语音信息和声纹信息，可以准确识别特定使用者的指令语音，不会受语种、口音、声音频率以及使用环境等因素的干扰，可操作性更强，识别度增强，并且开发时间短且价格低，自然安全性能就高。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明及其特征、外形和优点将会变得更明显。在全部附图中相同的标记指示相同的部分。并未刻意按照比例绘制附图，重点在于示出本发明的主旨。

图1为本发明一种语音信息指令的采集方法应用于智能设备中并与其它元件相配合，以供特定使用者操作的示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

为了彻底理解本发明，将在下列的描述中提出详细的步骤以及详细的结构，以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

参照图1所示，本发明提供的一种语音信息指令的采集方法，包括以下步骤：

一种语音信息指令的采集方法，应用于一智能设备100中以供一特定使用者200进行操作，通过这样采集方法完成后的智能设备100，可以便携式控制，所述智能设备100为基于蓝牙的智能设备100或者基于wifi的智能设备100，智能设备100包括蓝牙耳机或蓝牙音箱，所述智能设备100与一外界通讯体300实现网络连接，所述外界通讯体300为手机、电脑等通讯设备，其包括以下步骤：

步骤(1)：提供一输入平台1、一保存模块2、一语音系统3、一收录单元4和一播放单元5设于所述智能设备100中，所述输入平台1电性连接所述保存模块2，所述收录单元4为麦克风，且提供一蓝牙系统6于所述智能设备100中与所述语音系统3进行电性连接，所述语音系统3是控制端，所述蓝牙系统6是受控端，用来接受所述语音系统3的指令语音9，并做出相应的动作。

所述语音系统3具有一语音输入端31和一语音输出端32，于所述语音输入端31和所述语音输出端32之间具有一采集模块33、一转换模块34、一语音特征存储模块35、一声纹特征存储模块36、以及具有相互电性连接的一识别模块37和一发送模块38。所述收录单元4连接所述语音输入端31，所述语音输出端32电性连接所述蓝牙系统6。所述转换模块34电性连接所述采集模块33，且所述语音特征存储模块35和所述声纹特征存储模块36均电性连接所述转换模块34，所述收录单元4电性连接所述语音系统3，所述播放单元5电性连接所述保存模块2，所述保存模块2中具有提示声音文件21，所述保存模块2中的提示声音文件21具有引导功能和提示功能。

所述蓝牙系统6具有一蓝牙输入端61和一蓝牙输出端62，所述蓝牙输入端61和所述蓝牙输出端62之间具有一触发模块63和一执行模块64，所述语音输出端32电性连接所述蓝牙输入端61，所述蓝牙输入端61连接所述触发模块63，所述蓝牙输出端62连接所述执行模块64。所述蓝牙输入端61和所述蓝牙输出端62配制为强下拉模式(Strong pull down)或弱下拉模式(Weak pull down)，此目的是为了配合防止所述语音系统3的所述语音输入端31、所述语音输出端32与所述蓝牙系统6在通讯时，产生电平的冲突问题。

所述保存模块2的提示声音文件21为语音文件，其具有触发条件和环境，所述触发模块63的触发条件和环境与所述保存模块2的语音文件的触发条件和环境均相同，如此实现对应的命令执行。

所述语音系统3的所述语音输入端31和所述语音输出端32，以及，所述蓝牙系统6的所述蓝牙输入端61和所述蓝牙输出端62，可以用串口协议(UART)、串行总线协议(I2C)、通用总线协议(USB)或普通接口协议(GPIO)。所述语音系统3通过接收所述指令语音9，通过上述协议可改写所述蓝牙系统6的寄存器指令，从而改变所述蓝牙系统6的运行状态，以此来实现控制所述蓝牙系统6的目的，可以做物理按键，也可以做虚拟按键，即可以增加其他虚拟的功能按键，通过虚拟的按键实现跟物理按键一样的效果，可选择的方式增加，便于应用。

这些物理按键或者是虚拟按键都是用作所述智能设备100中所述语音输入端31、所述语音输出端32、所述蓝牙输入端61和所述蓝牙输出端62，例如：通过特定使用者200压下所述蓝牙系统6的所述蓝牙输入端61对应的物理按键，并将该信息输入到所述语音系统3，然后所述语音系统3输出到所述蓝牙系统6，所述蓝牙系统6接收到所述语音系统3的输出后，启动指令语音9，所述指令语音9跟上述的物理按键相对应，不同的物理按键对应不同的所述指令语音9。

步骤(2)：特定使用者200对所述输入平台1进行操作，发送一操作指令7触发所述保存模块2中的提示声音文件21，所述操作指令7触发引导功能和提示功能。

步骤(3)：所述提示声音文件21通过所述播放单元5进行播放，特定使用者200根据所述提示声音文件21的提示语音进行跟读，本实施例中特定使用者200根据引导功能和提示功能进行跟读，引导功能和提示功能为三次，对应地跟读也为三次，且跟读的语音8与引导功能和提示功能的信息全部相符。

步骤(4)：特定使用者200跟读的语音8通过所述收录单元4进入所述语音输入端31，再进入所述采集模块33，由所述收录单元4通过所述语音输入端31传输至所述语音系统3中，进入所述语音输入端31的为模拟信号，将采集到所述跟读的语音8传递至所述转换模块34进行运算处理，进而形成语音特征值351和声纹特征值361并分别保存在所述语音特征存储模块35和所述声纹特征存储模块36中，所述采集模块33对所述收录单元4的特定使用者200跟读的语音8进行筛选和过滤后，再进入所述转换模块34，由所述转换模块34将模拟信号转换为数字信号，语音特征值351和声纹特征值361均为数字信号。声纹特征值361包括的类别有声学特性；词法特性；韵律特性；语种、方言和口音信息；通道信息。语音特征值351和声纹特征值361均属于数据，而不是语音文件，不会受干扰，并且识别度高。

步骤(5)：至此，特定使用者200的专属语音特征值351和声纹特征值361的语音信息指令采集完成，并保存于所述智能设备100中，所述智能设备100仅供前述特定使用者200进行操作，特定使用者200的语音指令通过所述语音输出端32对所述蓝牙系统6进行操作控制，从所述语音输出端32发送的为数字信号，进入所述蓝牙输入端61的为数字信号，由所述蓝牙输出端62发送的为模拟信号。

步骤(6)：特定使用者200提供一指令语音9，所述指令语音9由所述收录单元4传输至所述语音系统3中，所述识别模块37将所述指令语音9与专属的所述语音特征值351进行识别对比处理，并且，所述识别模块37将所述指令语音9与专属的所述声纹特征值361进行识别对比处理，如果所述指令语音9与专属的所述语音特征值351和专属的所述声纹特征值361的对比结果均相符，所述指令语音9则通过所述发送模块38传输至所述蓝牙系统6，并触发所述触发模块63，如果所述指令语音9与任一专属的所述语音特征值351和专属的所述声纹特征值361的对比结果不相符，所述指令语音9则不会传输至所述发送模块38。

所述识别模块37对所述指令语音9与专属的所述语音特征值351进行识别对比处理，和所述指令语音9与专属的所述声纹特征值361进行识别对比处理，两个对比处理方式为可能性交叉验证，这样的交叉验证，安全性能高，不会被别人轻易攻破。

举例：保存在所述语音特征存储模块35中特定使用者200专属的语音特征值351为aa值，以及保存在所述声纹特征存储模块36中特定使用者200专属的声纹特征值361为bb值，aa值和bb值分别为“您好”的语音特征值351和声纹特征值361。当特定使用者200发出的所述指令语音9为“您好”的时候，如果均通过所述识别模块37的对比分析，即语音特征值351的aa值和声纹特征值361的bb值对比结果均相符，则证明是特定使用者200发出的正确指令语音9，就可以进行下一个工作程序。只要语音特征值351的aa值和声纹特征值361的bb值任一一个对比结果不相符，则不能证明所述指令语音9是特定使用者200发出的正确指令语音9，就不可以进行下一个工作程序。

参照图1所示，一种语音信息指令的采集方法，应用于智能设备100中以供特定使用者200进行操作，由于所述语音系统3具有所述采集模块33、所述转换模块34、所述语音特征存储模块35和所述声纹特征存储模块36，所述保存模块2中具有提示声音文件21，特定使用者200对所述输入平台1进行操作，发送所述操作指令7触发所述保存模块2中的提示声音文件21；所述提示声音文件21通过所述播放单元5进行播放，特定使用者200根据所述提示声音文件21的提示语音进行跟读；特定使用者200跟读的语音8通过所述收录单元4进入所述采集模块33，将采集到所述跟读的语音8传递至所述转换模块34进行运算处理，进而形成语音特征值351和声纹特征值361并分别保存在所述语音特征存储模块35和所述声纹特征存储模块36中；至此，特定使用者200的专属语音特征值351和声纹特征值361的语音信息指令采集完成，并保存于所述智能设备100中，所述智能设备100仅供前述特定使用者200进行操作，此方法简单、方便、无成本，使用者很轻易就上手。

并且，由于特定使用者200的语音特征值351和声纹特征值361均有得到保存，这样就可以根据识别的要求进行个性化设置，后续使用所述智能设备100时，通过识别语音信息和声纹信息，可以准确识别特定使用者200的指令语音，不会受语种、口音、声音频率以及使用环境等因素的干扰，可操作性更强，识别度增强，并且开发时间短且价格低，自然安全性能就高。

以上对本发明的较佳实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例，这并不影响本发明的实质内容。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种语音信息指令的采集方法，应用于一智能设备中以供一特定使用者进行操作，其特征在于，包括以下步骤：

2.如权利要求1所述的一种语音信息指令的采集方法，其特征在于，步骤(1)进一步包括：所述语音系统具有一语音输入端和一语音输出端，所述收录单元连接所述语音输入端，所述语音输出端电性连接设于所述智能设备中的一蓝牙系统，步骤(4)中特定使用者跟读的语音通过所述收录单元进入所述语音输入端，步骤(5)中特定使用者的语音指令通过所述语音输出端对所述蓝牙系统进行操作控制。

3.如权利要求2所述的一种语音信息指令的采集方法，其特征在于，步骤(4)中进入所述语音输入端的为模拟信号，步骤(5)中从所述语音输出端发送的为数字信号。

4.如权利要求3所述的一种语音信息指令的采集方法，其特征在于，步骤(1)进一步包括：所述蓝牙系统具有一蓝牙输入端和一蓝牙输出端，步骤(5)中所述语音输出端电性连接所述蓝牙输入端，进入所述蓝牙输入端的为数字信号，由所述蓝牙输出端发送的为模拟信号。

5.如权利要求1所述的一种语音信息指令的采集方法，其特征在于，步骤(4)中所述采集模块对所述收录单元的特定使用者跟读的语音进行筛选和过滤后，再进入所述转换模块，由所述转换模块将模拟信号转换为数字信号，语音特征值和声纹特征值均为数字信号。

6.如权利要求1所述的一种语音信息指令的采集方法，其特征在于，所述智能设备为基于蓝牙的智能设备或者基于wifi的智能设备，智能设备包括蓝牙耳机或蓝牙音箱。

7.如权利要求1所述的一种语音信息指令的采集方法，其特征在于，步骤(1)中所述保存模块中的提示声音文件具有引导功能和提示功能，步骤(2)中所述操作指令触发引导功能和提示功能，步骤(3)中特定使用者根据引导功能和提示功能进行跟读，引导功能和提示功能为三次，对应地跟读也为三次，且跟读的语音与引导功能和提示功能的信息全部相符。

8.如权利要求1所述的一种语音信息指令的采集方法，其特征在于，步骤(1)中所述保存模块的提示声音文件为语音文件，其具有触发条件和环境，步骤(1)中进一步具有一蓝牙系统设于所述智能设备中，且与所述语音系统电性连接，所述蓝牙系统具有一触发模块，所述触发模块的触发条件和环境与所述保存模块的语音文件的触发条件和环境均相同。

9.如权利要求8所述的一种语音信息指令的采集方法，其特征在于，步骤(1)中所述语音系统具有相互电性连接的一识别模块和一发送模块，步骤(6)中特定使用者提供一指令语音，所述指令语音由所述收录单元传输至所述语音系统中，所述识别模块将所述指令语音与专属的所述语音特征值进行识别对比处理，并且，所述识别模块将所述指令语音与专属的所述声纹特征值进行识别对比处理，如果所述指令语音与专属的所述语音特征值和专属的所述声纹特征值的对比结果均相符，所述指令语音则通过所述发送模块传输至所述蓝牙系统，并触发所述触发模块，如果所述指令语音与任一专属的所述语音特征值和专属的所述声纹特征值的对比结果不相符，所述指令语音则不会传输至所述发送模块。

10.如权利要求1所述的一种语音信息指令的采集方法，其特征在于，步骤(4)中的声纹特征值包括的类别有声学特性；词法特性；韵律特性；语种、方言和口音信息；通道信息。