CN111916083B

CN111916083B - 一种通过大数据采集的智能设备语音指令识别算法

Info

Publication number: CN111916083B
Application number: CN202010842396.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Jizhi Technology Co ltd
Current assignee: Zhongguancun Technology Leasing Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2023-08-22
Anticipated expiration: 2040-08-20
Also published as: CN111916083A

Abstract

本发明涉及一种通过大数据采集的智能设备语音指令识别算法。语音指令识别算法分为三大块：第一块为语音的大数据学习，通过互联网平台资源摄取或者采用大量人工录入的方式将口语大数据整合，所述的口语大数据被存储成音频，且此音频需要经过音频预处理，本发明的有益效果：在技术层面的算法上解决了问题，通过标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端设计提高了比对的反应速率，通过语音数据库是基于服务器存储的设计，满足了庞大数据库的安放问题；通过第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比，实现了语音指令对智能设备的识别。

Description

一种通过大数据采集的智能设备语音指令识别算法

技术领域

本发明涉及一种通过大数据采集的智能设备语音指令识别算法。

背景技术

目前来讲智能设备的一些语音识别的原理其实并不难理解，原理上和指纹识别的原理相同：设备收集目标语音，然后对收集到的语音进行一系列处理，得到目标语音的特征信息，然后让特征信息与数据库中已存数据进行相似度搜索比对，评分高者即为识别结果。然后通过其他系统的接入来完成设备的语音识别功能。事实上，语音识别的过程是相当复杂的。最直接的原因就在于语音的复杂性。指纹识别只要录入的指纹信息与数据库中的已存信息匹配就可以完成识别，这个数据库包含的数据只有几个指纹信息而已。但语音就完全不同了。目前智能设备的语音识别算法系统上还有很多方案不具备完善，因此在人体发出指令方面与最终的命名实施的正确率上还存在的着很差的差距，因此需要开发针对语音指令设备算法正确率与大数据采集相互匹配的系统才是核心技术。

发明内容

本发明的目的是提供一种通过大数据采集的智能设备语音指令识别算法。

本发明解决其上述的技术问题所采用以下的技术方案：一种通过大数据采集的智能设备语音指令识别算法，语音指令识别算法分为三大块：第一块为语音的大数据学习，通过互联网平台资源摄取或者采用大量人工录入的方式将口语大数据整合，所述的口语大数据被存储成音频，且此音频需要经过音频预处理，所述的音频预处理的过程分为音频的转换成波形、波形去噪、波形图梳理三个步骤，其中波形去噪采用声道多次叠合的方式去除音频的噪点；而波形图梳理则是去除同比同类波形图异常部分的波形图；波形图归类采用多张类似正确波形被一个词汇代号记录的方式存储；多个所述波形图归类后的词汇链接波形图被语音数据库所存储。

第二块为语音指令的表达输入，人体声带发声的声波经过音频预处理；所述的音频预处理过程与上述第一块中的音频预处理步骤及方式相同；音频预处理后得到语音指令的波形图，此波形图命名为第一波形图；语音指令所述的波形图与语音数据库进行数据运算的对比，从语音数据库中比对到与本次语音指令所述的波形图相近似的波形图，此波形图命名为第二波形图；

第三块为标准语音大数据的匹配，所述的标准语音大数据由计算机系统读取文本信息后形成的标准波形大数据；所述的标准波形大数据中抽取与第二块算法中的相类似的波形图，此波形图命名为第三波形图；

将第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比，在叠加对比其重叠阴影部分区域占据全部面域的75%以上时，波形图叠加对比算法成立；每个所述的标准波形大数据对应每个所述的文本数据库，文本数据库通过文本指令转码进行指令输出。

进一步地，所述的异常部分的波形图是指雷同波形图超过85%部分为主体，剩下部分波形图全部判定为异常。

进一步地，所述的语音数据库是基于服务器存储，其智能设备使用时通过互联网进行数据的交换。

进一步地，所述的标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端。

进一步地，所述的算法指令输出与智能设备命令接收端连接。

本发明的有益效果：在技术层面的算法上解决了问题，通过标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端设计提高了比对的反应速率，通过语音数据库是基于服务器存储的设计，满足了庞大数据库的安放问题；通过第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比，实现了语音指令对智能设备的识别。

附图说明

图1为本发明一种通过大数据采集的智能设备语音指令识别算法整体结构图。

图2为本发明具体实施例中口语大数据的口语“张三”与各种波形的关联示意图。

图3为本发明具体实施例中口语音指令的口语“张三”与某个波形的关联示意图。

图4为本发明具体实施例中标准语音大数据的口语“张三”与标准波形的关联示意图。

图5为本发明具体实施例中人工甲某录入词汇“张三”的波形图。

图6为本发明具体实施例中人工乙某录入词汇“张三”的波形图。

图7为本发明具体实施例中人工丙某录入词汇“张三”的波形图。

图8为本发明具体实施例中人工甲乙丙某三者的录入词汇“张三”的波形图的叠合图。

图9为本发明具体实施例中语音指令输入者“张三”发音的波形图。

图10为本发明具体实施例中标准语音大数据“张三”发音的波形图。

具体实施方式

下面结合附图1-10对本发明的具体实施方式做一个详细的说明。

实施例：一种通过大数据采集的智能设备语音指令识别算法，语音指令识别算法分为三大块：第一块为语音的大数据学习，通过互联网平台资源摄取或者采用大量人工录入的方式，申请人考虑到版权的问题，初期第一代算法中采用了大量人工录入的方式，将通用的、常用的口语通过对着麦克风朗读的方式，将词汇、词组进行录入。

每个人工朗读者的口语大数据被存储成音频，且此音频需要经过音频预处理，所述的音频预处理的过程分为音频的转换成波形、波形去噪、波形图梳理三个步骤，其中波形去噪采用声道多次叠合的方式去除音频的噪点；此步骤中所述的采用声道多次叠合的方式去除音频的噪点原理是，将8-24组相同类的波形图叠加，未被重叠部分视为噪点则被去除，实现去噪点的算法；而波形图梳理则是去除同比同类波形图异常部分的波形图；此考虑到人工朗读录入的过程不可能是一人完成，或者在完成的过程中有部分词组是错误的，因此需要各个波普的校对梳理；波形图归类采用多张类似且正确波形被一个词汇代号记录的方式存储；如图2中词汇“张三”，由于其录入的朗读的发音以及其他外环境的不同，其可能产生多个不同的波形图，但是其产生的波形图在整体上类似；故多个所述波形图归类后的词汇链接波形图被语音数据库所存储。在上述的音频预处理中很多情况下可以省略，一般人工录入口语大数据均在录音棚中完成，因此外界噪音干扰几乎没有。

第二块为语音指令的表达输入，人体声带发声的声波经过音频预处理；所述的音频预处理过程与上述第一块中的音频预处理步骤及方式相同；音频预处理后得到语音指令的波形图，此波形图命名为第一波形图；语音指令所述的波形图与语音数据库进行数据运算的对比，从语音数据库中比对到与本次语音指令所述的波形图相近似的波形图，此波形图命名为第二波形图；这个过程为波形图数据提取识别的过程；

第三块为标准语音大数据的匹配，所述的标准语音大数据由计算机系统读取文本信息后形成的标准波形大数据；所述的标准波形大数据中抽取与第二块算法中的相类似的波形图，此波形图命名为第三波形图；在实际的操作中，申请人处于内测阶段时，采用了百度公司出品的AI百度语音识别系统，网址为https://ai.baidu.com/tech/speech，通过此百度网站将标准语音大数据进行了数据库的集成，并且准运营大数据、标准波形大数据、文本数据库三者形成一条链的配对。

最后申请人将第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比，在叠加对比其重叠阴影部分区域占据全部面域的75%以上时，波形图叠加对比算法成立；在实施的算法中我们以简单的：“张三”进行测试。

每个所述的标准波形大数据对应每个所述的文本数据库，文本数据库通过文本指令转码进行指令输出。形成的指令输出可以搭载到一部分的智能设备上，在算法测试上我们将其运用到了智能分类的垃圾桶上，其“张三”默认为智能垃圾桶的本名，因此在智能垃圾桶的内部芯片上，默认收到“张三”指令时候，其系统应该予以应答：“我在，有什么可以帮忙”等。

所述的异常部分的波形图是指雷同波形图超过85%部分为主体，剩下部分波形图全部判定为异常。在波形图叠加整合对比的过程中，存在了一部分错误的波形图，而产生错误的原因有：1.语音指令的怪异，比如某使用者阴阳怪气的叫了声“张三”。2.外界干扰的声音大于发出的主体的声音，比如在马路上车流噪音大。通过异常波形图剔除，实现去噪后的正确命令的识别。

所述的语音数据库是基于服务器存储，其智能设备使用时通过互联网进行数据的交换。此设有由于语音数据库是一种自我学习与自我扩充词汇量的过程，因此其数据库量比较庞大，而且此数据库为本案研究的核心点，因此还需要考虑保密性的问题。

所述的标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端，这点设计是了提高智能设备的比对的反应速度。

所述的算法指令输出与智能设备命令接收端连接，此过程是算法与智能设备结合的过程，本算法可搭载于多个不同智能设备，而且可能根据不同需要的智能设备进行各种的调试，使得设备与算法协同工作。

下面针对发音“张三”的6张波形图进行解说：

图5中显示的是人工录入员甲某针对“张三”的发音波形图，图5中显示的是人工录入员乙某针对“张三”的发音波形图，图7中显示的是人工录入员丙某针对“张三”的发音波形图，从三张波形中可以看出其噪音基本为一条直线，有音但是不杂；然后将三张波形图叠加，从图8中几何计算可能叠加的重叠百分比为87.8%，符合75%重叠要求，算法成立。

图9中是智能设备使用者，说出了一句“张三”的发音波形图，从图中看出因为处于使用的外界环境中，因此在整个过程中均有噪音，算法中需要将其去噪。

图10中，是计算机系统针对文本发音与波形图的转换图形，因为文本到图形均是由计算机产生，因此其发音就显得刚硬一些，而且毫无噪音波段。

本算法理论在可以搭载于一些智能设备上，并且在匹配的智能设备上进行调试使用。

Claims

1.一种通过大数据采集的智能设备语音指令识别方法，语音指令识别方法分为三大块：第一块为语音的大数据学习，通过互联网平台资源摄取或者采用大量人工录入的方式将口语大数据整合，所述的口语大数据被存储成音频，且此音频需要经过音频预处理，所述的音频预处理的过程分为音频的转换成波形、波形去噪、波形图梳理三个步骤，其中波形去噪采用声道多次叠合的方式去除音频的噪点；而波形图梳理则是去除同比同类波形图异常部分的波形图；波形图归类采用多张类似正确波形被一个词汇代号记录的方式存储；多个所述波形图归类后的词汇链接波形图被语音数据库所存储；

将第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比，在叠加对比其重叠阴影部分区域占据全部面域的75%以上时，波形图叠加对比算法成立；每个所述的标准波形大数据对应每个的文本数据库，文本数据库通过文本指令转码进行指令输出。

2.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法，其特征在于所述的异常部分的波形图是指雷同波形图超过85%部分为主体，剩下部分波形图全部判定为异常。

3.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法，其特征在于所述的语音数据库是基于服务器存储，其智能设备使用时通过互联网进行数据的交换。

4.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法，其特征在于：标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端。

5.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法，其特征在于：算法指令输出与智能设备命令接收端连接。