CN111916083B - 一种通过大数据采集的智能设备语音指令识别算法 - Google Patents

一种通过大数据采集的智能设备语音指令识别算法 Download PDF

Info

Publication number
CN111916083B
CN111916083B CN202010842396.XA CN202010842396A CN111916083B CN 111916083 B CN111916083 B CN 111916083B CN 202010842396 A CN202010842396 A CN 202010842396A CN 111916083 B CN111916083 B CN 111916083B
Authority
CN
China
Prior art keywords
waveform diagram
big data
voice
waveform
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010842396.XA
Other languages
English (en)
Other versions
CN111916083A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguancun Technology Leasing Co ltd
Original Assignee
Beijing Jizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jizhi Technology Co ltd filed Critical Beijing Jizhi Technology Co ltd
Priority to CN202010842396.XA priority Critical patent/CN111916083B/zh
Publication of CN111916083A publication Critical patent/CN111916083A/zh
Application granted granted Critical
Publication of CN111916083B publication Critical patent/CN111916083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种通过大数据采集的智能设备语音指令识别算法。语音指令识别算法分为三大块:第一块为语音的大数据学习,通过互联网平台资源摄取或者采用大量人工录入的方式将口语大数据整合,所述的口语大数据被存储成音频,且此音频需要经过音频预处理,本发明的有益效果:在技术层面的算法上解决了问题,通过标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端设计提高了比对的反应速率,通过语音数据库是基于服务器存储的设计,满足了庞大数据库的安放问题;通过第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比,实现了语音指令对智能设备的识别。

Description

一种通过大数据采集的智能设备语音指令识别算法
技术领域
本发明涉及一种通过大数据采集的智能设备语音指令识别算法。
背景技术
目前来讲智能设备的一些语音识别的原理其实并不难理解,原理上和指纹识别的原理相同:设备收集目标语音,然后对收集到的语音进行一系列处理,得到目标语音的特征信息,然后让特征信息与数据库中已存数据进行相似度搜索比对,评分高者即为识别结果。然后通过其他系统的接入来完成设备的语音识别功能。事实上,语音识别的过程是相当复杂的。最直接的原因就在于语音的复杂性。指纹识别只要录入的指纹信息与数据库中的已存信息匹配就可以完成识别,这个数据库包含的数据只有几个指纹信息而已。但语音就完全不同了。目前智能设备的语音识别算法系统上还有很多方案不具备完善,因此在人体发出指令方面与最终的命名实施的正确率上还存在的着很差的差距,因此需要开发针对语音指令设备算法正确率与大数据采集相互匹配的系统才是核心技术。
发明内容
本发明的目的是提供一种通过大数据采集的智能设备语音指令识别算法。
本发明解决其上述的技术问题所采用以下的技术方案:一种通过大数据采集的智能设备语音指令识别算法,语音指令识别算法分为三大块:第一块为语音的大数据学习,通过互联网平台资源摄取或者采用大量人工录入的方式将口语大数据整合,所述的口语大数据被存储成音频,且此音频需要经过音频预处理,所述的音频预处理的过程分为音频的转换成波形、波形去噪、波形图梳理三个步骤,其中波形去噪采用声道多次叠合的方式去除音频的噪点;而波形图梳理则是去除同比同类波形图异常部分的波形图;波形图归类采用多张类似正确波形被一个词汇代号记录的方式存储;多个所述波形图归类后的词汇链接波形图被语音数据库所存储。
第二块为语音指令的表达输入,人体声带发声的声波经过音频预处理;所述的音频预处理过程与上述第一块中的音频预处理步骤及方式相同;音频预处理后得到语音指令的波形图,此波形图命名为第一波形图;语音指令所述的波形图与语音数据库进行数据运算的对比,从语音数据库中比对到与本次语音指令所述的波形图相近似的波形图,此波形图命名为第二波形图;
第三块为标准语音大数据的匹配,所述的标准语音大数据由计算机系统读取文本信息后形成的标准波形大数据;所述的标准波形大数据中抽取与第二块算法中的相类似的波形图,此波形图命名为第三波形图;
将第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比,在叠加对比其重叠阴影部分区域占据全部面域的75%以上时,波形图叠加对比算法成立;每个所述的标准波形大数据对应每个所述的文本数据库,文本数据库通过文本指令转码进行指令输出。
进一步地,所述的异常部分的波形图是指雷同波形图超过85%部分为主体,剩下部分波形图全部判定为异常。
进一步地,所述的语音数据库是基于服务器存储,其智能设备使用时通过互联网进行数据的交换。
进一步地,所述的标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端。
进一步地,所述的算法指令输出与智能设备命令接收端连接。
本发明的有益效果:在技术层面的算法上解决了问题,通过标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端设计提高了比对的反应速率,通过语音数据库是基于服务器存储的设计,满足了庞大数据库的安放问题;通过第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比,实现了语音指令对智能设备的识别。
附图说明
图1为本发明一种通过大数据采集的智能设备语音指令识别算法整体结构图。
图2为本发明具体实施例中口语大数据的口语“张三”与各种波形的关联示意图。
图3为本发明具体实施例中口语音指令的口语“张三”与某个波形的关联示意图。
图4为本发明具体实施例中标准语音大数据的口语“张三”与标准波形的关联示意图。
图5为本发明具体实施例中人工甲某录入词汇“张三”的波形图。
图6为本发明具体实施例中人工乙某录入词汇“张三”的波形图。
图7为本发明具体实施例中人工丙某录入词汇“张三”的波形图。
图8为本发明具体实施例中人工甲乙丙某三者的录入词汇“张三”的波形图的叠合图。
图9为本发明具体实施例中语音指令输入者“张三”发音的波形图。
图10为本发明具体实施例中标准语音大数据“张三”发音的波形图。
具体实施方式
下面结合附图1-10对本发明的具体实施方式做一个详细的说明。
实施例:一种通过大数据采集的智能设备语音指令识别算法,语音指令识别算法分为三大块:第一块为语音的大数据学习,通过互联网平台资源摄取或者采用大量人工录入的方式,申请人考虑到版权的问题,初期第一代算法中采用了大量人工录入的方式,将通用的、常用的口语通过对着麦克风朗读的方式,将词汇、词组进行录入。
每个人工朗读者的口语大数据被存储成音频,且此音频需要经过音频预处理,所述的音频预处理的过程分为音频的转换成波形、波形去噪、波形图梳理三个步骤,其中波形去噪采用声道多次叠合的方式去除音频的噪点;此步骤中所述的采用声道多次叠合的方式去除音频的噪点原理是,将8-24组相同类的波形图叠加,未被重叠部分视为噪点则被去除,实现去噪点的算法;而波形图梳理则是去除同比同类波形图异常部分的波形图;此考虑到人工朗读录入的过程不可能是一人完成,或者在完成的过程中有部分词组是错误的,因此需要各个波普的校对梳理;波形图归类采用多张类似且正确波形被一个词汇代号记录的方式存储;如图2中词汇“张三”,由于其录入的朗读的发音以及其他外环境的不同,其可能产生多个不同的波形图,但是其产生的波形图在整体上类似;故多个所述波形图归类后的词汇链接波形图被语音数据库所存储。在上述的音频预处理中很多情况下可以省略,一般人工录入口语大数据均在录音棚中完成,因此外界噪音干扰几乎没有。
第二块为语音指令的表达输入,人体声带发声的声波经过音频预处理;所述的音频预处理过程与上述第一块中的音频预处理步骤及方式相同;音频预处理后得到语音指令的波形图,此波形图命名为第一波形图;语音指令所述的波形图与语音数据库进行数据运算的对比,从语音数据库中比对到与本次语音指令所述的波形图相近似的波形图,此波形图命名为第二波形图;这个过程为波形图数据提取识别的过程;
第三块为标准语音大数据的匹配,所述的标准语音大数据由计算机系统读取文本信息后形成的标准波形大数据;所述的标准波形大数据中抽取与第二块算法中的相类似的波形图,此波形图命名为第三波形图;在实际的操作中,申请人处于内测阶段时,采用了百度公司出品的AI百度语音识别系统,网址为https://ai.baidu.com/tech/speech,通过此百度网站将标准语音大数据进行了数据库的集成,并且准运营大数据、标准波形大数据、文本数据库三者形成一条链的配对。
最后申请人将第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比,在叠加对比其重叠阴影部分区域占据全部面域的75%以上时,波形图叠加对比算法成立;在实施的算法中我们以简单的:“张三”进行测试。
每个所述的标准波形大数据对应每个所述的文本数据库,文本数据库通过文本指令转码进行指令输出。形成的指令输出可以搭载到一部分的智能设备上,在算法测试上我们将其运用到了智能分类的垃圾桶上,其“张三”默认为智能垃圾桶的本名,因此在智能垃圾桶的内部芯片上,默认收到“张三”指令时候,其系统应该予以应答:“我在,有什么可以帮忙”等。
所述的异常部分的波形图是指雷同波形图超过85%部分为主体,剩下部分波形图全部判定为异常。在波形图叠加整合对比的过程中,存在了一部分错误的波形图,而产生错误的原因有:1.语音指令的怪异,比如某使用者阴阳怪气的叫了声“张三”。2.外界干扰的声音大于发出的主体的声音,比如在马路上车流噪音大。通过异常波形图剔除,实现去噪后的正确命令的识别。
所述的语音数据库是基于服务器存储,其智能设备使用时通过互联网进行数据的交换。此设有由于语音数据库是一种自我学习与自我扩充词汇量的过程,因此其数据库量比较庞大,而且此数据库为本案研究的核心点,因此还需要考虑保密性的问题。
所述的标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端,这点设计是了提高智能设备的比对的反应速度。
所述的算法指令输出与智能设备命令接收端连接,此过程是算法与智能设备结合的过程,本算法可搭载于多个不同智能设备,而且可能根据不同需要的智能设备进行各种的调试,使得设备与算法协同工作。
下面针对发音“张三”的6张波形图进行解说:
图5中显示的是人工录入员甲某针对“张三”的发音波形图,图5中显示的是人工录入员乙某针对“张三”的发音波形图,图7中显示的是人工录入员丙某针对“张三”的发音波形图,从三张波形中可以看出其噪音基本为一条直线,有音但是不杂;然后将三张波形图叠加,从图8中几何计算可能叠加的重叠百分比为87.8%,符合75%重叠要求,算法成立。
图9中是智能设备使用者,说出了一句“张三”的发音波形图,从图中看出因为处于使用的外界环境中,因此在整个过程中均有噪音,算法中需要将其去噪。
图10中,是计算机系统针对文本发音与波形图的转换图形,因为文本到图形均是由计算机产生,因此其发音就显得刚硬一些,而且毫无噪音波段。
本算法理论在可以搭载于一些智能设备上,并且在匹配的智能设备上进行调试使用。

Claims (5)

1.一种通过大数据采集的智能设备语音指令识别方法,语音指令识别方法分为三大块:第一块为语音的大数据学习,通过互联网平台资源摄取或者采用大量人工录入的方式将口语大数据整合,所述的口语大数据被存储成音频,且此音频需要经过音频预处理,所述的音频预处理的过程分为音频的转换成波形、波形去噪、波形图梳理三个步骤,其中波形去噪采用声道多次叠合的方式去除音频的噪点;而波形图梳理则是去除同比同类波形图异常部分的波形图;波形图归类采用多张类似正确波形被一个词汇代号记录的方式存储;多个所述波形图归类后的词汇链接波形图被语音数据库所存储;
第二块为语音指令的表达输入,人体声带发声的声波经过音频预处理;所述的音频预处理过程与上述第一块中的音频预处理步骤及方式相同;音频预处理后得到语音指令的波形图,此波形图命名为第一波形图;语音指令所述的波形图与语音数据库进行数据运算的对比,从语音数据库中比对到与本次语音指令所述的波形图相近似的波形图,此波形图命名为第二波形图;
第三块为标准语音大数据的匹配,所述的标准语音大数据由计算机系统读取文本信息后形成的标准波形大数据;所述的标准波形大数据中抽取与第二块算法中的相类似的波形图,此波形图命名为第三波形图;
将第一波形图、第二波形图、第三波形图的三张波形图依次叠加形成波形图叠加对比,在叠加对比其重叠阴影部分区域占据全部面域的75%以上时,波形图叠加对比算法成立;每个所述的标准波形大数据对应每个的文本数据库,文本数据库通过文本指令转码进行指令输出。
2.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法,其特征在于所述的异常部分的波形图是指雷同波形图超过85%部分为主体,剩下部分波形图全部判定为异常。
3.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法,其特征在于所述的语音数据库是基于服务器存储,其智能设备使用时通过互联网进行数据的交换。
4.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法,其特征在于:标准运营大数据、标准波形大数据、文本数据库均存储于本地智能设备端。
5.根据权利要求1所述的一种通过大数据采集的智能设备语音指令识别方法,其特征在于:算法指令输出与智能设备命令接收端连接。
CN202010842396.XA 2020-08-20 2020-08-20 一种通过大数据采集的智能设备语音指令识别算法 Active CN111916083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010842396.XA CN111916083B (zh) 2020-08-20 2020-08-20 一种通过大数据采集的智能设备语音指令识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010842396.XA CN111916083B (zh) 2020-08-20 2020-08-20 一种通过大数据采集的智能设备语音指令识别算法

Publications (2)

Publication Number Publication Date
CN111916083A CN111916083A (zh) 2020-11-10
CN111916083B true CN111916083B (zh) 2023-08-22

Family

ID=73279214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010842396.XA Active CN111916083B (zh) 2020-08-20 2020-08-20 一种通过大数据采集的智能设备语音指令识别算法

Country Status (1)

Country Link
CN (1) CN111916083B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067928A (zh) * 2007-07-10 2007-11-07 章森 测量语音波形相似度的一种新方法
KR20090063566A (ko) * 2007-12-14 2009-06-18 송옥기 음성인식 게임장치
CN106251868A (zh) * 2016-08-09 2016-12-21 江门雷斯诺照明有限公司 一种具有智能降噪功能的灯具语音识别控制方法
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN107825433A (zh) * 2017-10-27 2018-03-23 安徽硕威智能科技有限公司 一种儿童语音指令识别的卡片机器人
CN109285556A (zh) * 2018-09-29 2019-01-29 百度在线网络技术(北京)有限公司 音频处理方法、装置、设备以及存储介质
GB201909950D0 (en) * 2018-07-11 2019-08-28 Premium Loudspeakers Hui Zhou Co Ltd Method for providing vui particular response and application thereof to intelligent sound box

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067928A (zh) * 2007-07-10 2007-11-07 章森 测量语音波形相似度的一种新方法
KR20090063566A (ko) * 2007-12-14 2009-06-18 송옥기 음성인식 게임장치
CN106251868A (zh) * 2016-08-09 2016-12-21 江门雷斯诺照明有限公司 一种具有智能降噪功能的灯具语音识别控制方法
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
CN107825433A (zh) * 2017-10-27 2018-03-23 安徽硕威智能科技有限公司 一种儿童语音指令识别的卡片机器人
GB201909950D0 (en) * 2018-07-11 2019-08-28 Premium Loudspeakers Hui Zhou Co Ltd Method for providing vui particular response and application thereof to intelligent sound box
CN109285556A (zh) * 2018-09-29 2019-01-29 百度在线网络技术(北京)有限公司 音频处理方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111916083A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
US10515292B2 (en) Joint acoustic and visual processing
Versteegh et al. The zero resource speech challenge 2015: Proposed approaches and results
WO2021000408A1 (zh) 面试评分方法、装置、设备及存储介质
US8195459B1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
US6836760B1 (en) Use of semantic inference and context-free grammar with speech recognition system
CN106297776A (zh) 一种基于音频模板的语音关键词检索方法
CN109192194A (zh) 语音数据标注方法、装置、计算机设备及存储介质
CN112397054B (zh) 一种电力调度语音识别方法
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
JP2016099507A (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
KR20090060631A (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN112015874A (zh) 学生心理健康陪伴对话系统
Elakkiya et al. Implementation of speech to text conversion using hidden markov model
Ballard et al. A multimodal learning interface for word acquisition
CN111916083B (zh) 一种通过大数据采集的智能设备语音指令识别算法
Mohanty et al. Isolated Odia digit recognition using HTK: an implementation view
JP2010277036A (ja) 音声データ検索装置
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Mukherjee et al. Identification of top-3 spoken Indian languages: an ensemble learning-based approach
Liu et al. Supra-Segmental Feature Based Speaker Trait Detection.
Hussein et al. Arabic speaker recognition using HMM
Alashban et al. Language effect on speaker gender classification using deep learning
Liao et al. Towards the Development of Automatic Speech Recognition for Bikol and Kapampangan
Therese et al. Optimisation of training samples in recognition of overlapping speech and identification of speaker in a two speakers situation
Hacine-Gharbi et al. Automatic Classification of French Spontaneous Oral Speech into Injunction and No-injunction Classes.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230721

Address after: 100000 No. 10, 1st floor, building 6, No. 108 Beiyuan Road B, Chaoyang District, Beijing

Applicant after: Beijing Jizhi Technology Co.,Ltd.

Address before: No. 287, Baiyang village, Anchang street, Keqiao District, Shaoxing City, Zhejiang Province

Applicant before: Shaoxing maimang Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230911

Address after: 610, 6th Floor, Building A, No. 2 Lize Zhong'er Road, Chaoyang District, Beijing, 100000

Patentee after: Zhongguancun Technology Leasing Co.,Ltd.

Address before: 100000 No. 10, 1st floor, building 6, No. 108 Beiyuan Road B, Chaoyang District, Beijing

Patentee before: Beijing Jizhi Technology Co.,Ltd.