CN110738983A - 基于设备工作状态切换的多神经网络模型语音识别方法 - Google Patents
基于设备工作状态切换的多神经网络模型语音识别方法 Download PDFInfo
- Publication number
- CN110738983A CN110738983A CN201810705470.6A CN201810705470A CN110738983A CN 110738983 A CN110738983 A CN 110738983A CN 201810705470 A CN201810705470 A CN 201810705470A CN 110738983 A CN110738983 A CN 110738983A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- equipment
- working state
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003062 neural network model Methods 0.000 title claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 19
- 210000002569 neuron Anatomy 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
基于设备工作状态切换的多神经网络模型语音识别方法,包括专用神经网络模型训练过程,所述专用神经网络模型训练过程针对设备的特定工作状态进行训练;所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤,语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。本发明在设备的不同工作状态下,导入其对应的不同的神经网模型参数进行计算,在关机状态或设备噪声不强的情况下采用通用网络模型,在其他工作状态下采用该状态适应的神经网络模型进行识别过程计算,大幅提升了终端语音识别性能。
Description
技术领域
本发明属于人工智能技术领域,涉及语音识别技术,具体涉及一种基于设备工作状态切换的多神经网络模型语音识别方法。
背景技术
近年来,以人工神经网络(ANN)为核心的人工智能算法在各行业,各设备上应用已经成为趋势。其中人类的语言语音以其自然方便的特性必将成为人与设备终端最主流的交互方式。随着人工智能语音识别算法应用推广的深入进行,人们发现仅仅云端智能存在着响应慢,依赖网络,以及隐私安全隐患,因此在设备端的人工智能边缘计算的重要性成为共识。以启英泰伦为代表的企业率先在行业推出集成人工神经网络处理器(NPU)核的智能语音芯片,有效提高了设备终端语音识别的准确率,响应速度,降低了功耗,摆脱了网络依赖,为人工智能语音识别在本地终端上普及应用打开了方便之门。
目前最通常的几种人工神经网络模型为深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)及长短时记忆模型神经网络(LSTM) 等。尤其是是DNN和CNN已经广泛应用在语音识别和图像识别中。各种神经网络尽管有细节不同,但主要结构和运算单元基本相同,主要结构包括输入层,中间层(或称隐含层)及输出层。每层包含数百到数千以上的神经元计算,每个神经元节点的计算主要以上一层神经元输出或同一层神经元上一周期的输出作为输入,并和相对应的神经网络参数相乘并累加为主。不失一般性,以全连接的深度神经网络为例来说明神经网络模型参数,其主要计算过程可以表述为以下公式:
其中,Yi是输入层第i个语音特征信号输入;代表输入层第j1个神经元节点的计算输出;表示输入层第j1个神经元节点乘累加计算过程中Yi输入的权重参数,是输入层第j1个神经元节点计算过程中的偏置参数; f()是激活函数;所有上一层(k-1层)神经元输出节点是下一层(k层) 神经元节点输出的输入; 分别是第k层第jk神经元的神经元权重参数利偏置参数。这里以及就是所述的深度神经网络模型参数,简称神经网络模型,神经网络模型是通过大数据训练得到。
完整的人工智能语音识别算法分为两个过程,一是离线的训练过程,一是实时的识别过程。离线训练具体的过程描述如图1所示。
图1是一个完整通用的离线语音训练过程。包含了语料库及标注,语音特征提取过程,神经网络的前向计算,其计算结果与标注进行比对计算出误差损失函数,根据误差损失进行反向传播(BP)计算,修正各层神经网络模型参数,并重复进行神经网络的前向计算和损失函数计算,及参数修正计算过程,直到误差损失函数小于一个给定值,此时训练结束,得到的网络模型参数即为训练的结果。
实时识别过程如图2所示,设备终端的识别过程通常是一个实时识别过程,输入语音为麦克风实时录入,并进行实时的语音特征提取,ANN前向计算,ANN计算所用的网络模型输入为训练过程中训练好的网络模型,最后进行语音搜索解码,得到最终的语音识别识别的文本结果。其中语言模型是一个预存放的语言网络模型库软件。离线训练好的网络模型以及与设备功能交互相关的语言模型库软件往往预先存放在终端设备的存储器件中。
由于终端应用场景的广泛性以及工作模式状态的多样性,通常需要采用一个泛化性非常强的通用模型,这样用于训练的语料库需包含各种场景下的语料大数据。实践表明通用模型虽然具有较高的场景适应性,但对于一种具体的终端设备的特定工作状态而言,通用模型通常并不能达到最佳的效果,尤其是有些设备工作时产生较大的特定噪声。即使训练语料集中包含了该种终端的特定状态下的含噪语料,由于其占比相对于大语料集而言非常小,还是不能取得很好识别效果。
发明内容
为克服特定设备(尤其是工作时发出强噪声的设备)使用单一神经网络模型语音识别算法难以满足各种状态下的识别精度要求,本发明公开了一种基于设备工作状态切换的多神经网络模型语音识别方法。
本发明所述基于设备工作状态切换的多神经网络模型语音识别方法,其特征在于,包括专用神经网络模型训练过程,所述专用神经网络模型训练过程针对设备的特定工作状态进行训练;所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤,语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。
优选的,所述专用神经网络模型训练过程包括如下步骤,语料采集装置采集设备特定工作状态下的语音特征;根据语音特征进行ANN前向运算,计算结果与标注进行比对计算出误差损失,根据误差损失修正各层神经网络模型参数;
重复进行上述前向计算、误差损失及及参数修正过程,直到误差损失低于预先设定的给定值,得到特定状态下的神经网络模型。
优选的,所述工作状态检测步骤为检测设备发出的工作状态标识信息;或检测语音背景噪声并根据背景噪声的特征判定当前设备处于哪种工作状态。
优选的,工作状态检测步骤中,检测出设备的工作状态后,根据工作状态选择对输入的实时语音进行不同的处理计算,所述处理计算方式包含 BYPASS方式及降噪方式。
本发明在设备的不同工作状态下,导入其对应的不同的神经网模型参数进行计算,在待机或关机状态或设备噪声不强的情况下采用通用网络模型,在其他工作状态下采用该状态适应的神经网络模型进行识别过程计算,大幅提升了终端语音识别性能。
附图说明
图1为现有技术下离线语音训练过程的流程示意图;
图2为现有技术下的终端实时识别过程示意图;
图3为本发明的一种具体实施方式流程示意图;
图4为本发明所述专用神经网络模型训练过程的一个具体实施方式示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述基于设备工作状态切换的多神经网络模型语音识别方法,包括专用神经网络模型训练过程,所述专用神经网络模型训练过程针对设备的特定工作状态进行训练;所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤,语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。
对于电视机、洗衣机、油烟机等设备,开机前与开机后的噪声环境明显不同,电视机开机后电视节目声音,洗衣机和油烟机开机后电机旋转产生的噪声都会显著影响语音识别。
以上述设备的开机状态为例作为本发明所述的特定工作状态,为识别出设备的特定工作状态及在特定工作状态下保持语音识别的准确性,首先需要进行针对该特定工作状态的专用神经网络模型训练。
在特定工作状态进行语料采集以得到语音特征,特定工作状态通常是设备工作在大噪声状态下,也可以是将该工作状态下的背景噪声采集后混合添加到安静环境下采集到的通用语料集,生成该特定工作状态下的专用语料集。
如图4所示给出了所述专用神经网络模型训练过程的一个具体实施方式,包括如下步骤,识别装置采集设备特定工作状态下的语音特征;根据语音特征进行ANN(人工神经网络)前向运算,计算结果与标注进行比对计算出误差损失,根据误差损失修正各层神经网络模型参数;
重复进行上述前向计算、误差损失及参数修正过程,直到误差损失低于预先设定的给定值,得到特定状态下的神经网络模型。
所谓特定状态下的神经网络模型,就是得到一组应用于特定状态下的多层神经网络模型各层的权重参数和偏置参数,用该组参数对多层神经网络模型进行定义,从而得到针对特定状态的神经网络模型。该模型可以一次训练得到,也可以在使用过程中不断反复训练,不断对神经网络模型的参数进行修正。
多种神经网络模型的库通常存放在语音识别终端的Norflash/nandflash,或DDR/SDRAM等存储设备中。
本发明的一个完整工作过程如图3所示,开启语音识别功能后,系统首先识别设备的工作状态,所述工作状态检测的实现可以是由设备发出设备工作状态输入消息,例如油烟机的电机开始旋转工作时,设备同步发送一个信号到语音识别终端,该终端判断出油烟机进入大噪声工作状态。
如果设备不方便发出该消息,即针对各种即时监测并未实现信号互联的设备,语音识别终端也可以根据输入的语音检测其语音背景噪声,根据背景噪声的能量大小及特征判定当前设备处于哪种工作状态。
工作状态检测后,根据工作状态选择可以对输入的实时语音进行不同的处理对输入的实时语音进行不同的处理计算,所述处理计算方式包含BYPASS 方式及降噪方式。BYPASS方式即不处理的直通方式,适用于中等强度噪声依靠带噪训练就可以适应的情况,降噪方式适用于噪声特别强的工作状态,可以针对噪声特点采用相应的自适应降噪或者其他降噪方式如定向波束成形等。
检测出工作状态后,系统调用对应的神经网络模型进行后续处理,继续进行语音特征提取、ANN前向计算、及语音搜索解码得到文本识别结果;其中 ANN前向计算中调用已经选择好的对应的神经网络模型和语音搜索解码时,调用预存的语言模型。
本发明在设备的不同工作状态下,导入其对应的不同的神经网模型参数进行计算,在待机、关机状态或设备噪声不强的情况下采用通用网络模型,在其他工作状态下采用该状态适应的神经网络模型进行识别过程计算,大幅提升了终端语音识别性能。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.基于设备工作状态切换的多神经网络模型语音识别方法,其特征在于,包括专用神经网络模型训练过程,所述专用神经网络模型训练过程针对设备的特定工作状态进行训练;所述识别方法还包括识别装置的工作状态检测步骤和语音识别步骤,语音识别步骤中根据检测步骤的结果选择不同的神经网络模型。
2.如权利要求1所述的识别方法,其特征在于,所述专用神经网络模型训练过程包括如下步骤,语料采集装置采集设备特定工作状态下的语音特征;根据语音特征进行ANN前向运算,计算结果与标注进行比对计算出误差损失,根据误差损失修正各层神经网络模型参数;
重复进行上述前向计算、误差损失及及参数修正过程,直到误差损失低于预先设定的给定值,得到特定状态下的神经网络模型。
3.如权利要求1所述的识别方法,其特征在于,所述工作状态检测步骤为检测设备发出的工作状态标识信息;或检测语音背景噪声并根据背景噪声的特征判定当前设备处于哪种工作状态。
4.如权利要求1所述的识别方法,其特征在于,工作状态检测步骤中,检测出设备的工作状态后,根据工作状态选择对输入的实时语音进行不同的处理计算,所述处理计算方式包含BYPASS方式及降噪方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810705470.6A CN110738983A (zh) | 2018-07-02 | 2018-07-02 | 基于设备工作状态切换的多神经网络模型语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810705470.6A CN110738983A (zh) | 2018-07-02 | 2018-07-02 | 基于设备工作状态切换的多神经网络模型语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110738983A true CN110738983A (zh) | 2020-01-31 |
Family
ID=69233452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810705470.6A Pending CN110738983A (zh) | 2018-07-02 | 2018-07-02 | 基于设备工作状态切换的多神经网络模型语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738983A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933123A (zh) * | 2020-09-15 | 2020-11-13 | 成都启英泰伦科技有限公司 | 一种基于门控循环单元的声学建模方法 |
CN112164397A (zh) * | 2020-09-30 | 2021-01-01 | 广东美的厨房电器制造有限公司 | 噪声降低控制方法、烹饪器具和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
CN107277672A (zh) * | 2017-06-07 | 2017-10-20 | 福州瑞芯微电子股份有限公司 | 一种支持唤醒模式自动切换的方法和装置 |
US20180061409A1 (en) * | 2016-08-29 | 2018-03-01 | Garmin Switzerland Gmbh | Automatic speech recognition (asr) utilizing gps and sensor data |
CN108172220A (zh) * | 2018-02-22 | 2018-06-15 | 成都启英泰伦科技有限公司 | 一种新型语音除噪方法 |
-
2018
- 2018-07-02 CN CN201810705470.6A patent/CN110738983A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
US20180061409A1 (en) * | 2016-08-29 | 2018-03-01 | Garmin Switzerland Gmbh | Automatic speech recognition (asr) utilizing gps and sensor data |
CN107277672A (zh) * | 2017-06-07 | 2017-10-20 | 福州瑞芯微电子股份有限公司 | 一种支持唤醒模式自动切换的方法和装置 |
CN108172220A (zh) * | 2018-02-22 | 2018-06-15 | 成都启英泰伦科技有限公司 | 一种新型语音除噪方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933123A (zh) * | 2020-09-15 | 2020-11-13 | 成都启英泰伦科技有限公司 | 一种基于门控循环单元的声学建模方法 |
CN112164397A (zh) * | 2020-09-30 | 2021-01-01 | 广东美的厨房电器制造有限公司 | 噪声降低控制方法、烹饪器具和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107767863B (zh) | 语音唤醒方法、系统及智能终端 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
EP3605537A1 (en) | Speech emotion detection method and apparatus, computer device, and storage medium | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN107644638B (zh) | 语音识别方法、装置、终端和计算机可读存储介质 | |
EP3923273B1 (en) | Voice recognition method and device, storage medium, and air conditioner | |
CN105529028B (zh) | 语音解析方法和装置 | |
CN107919116A (zh) | 一种语音激活检测方法及装置 | |
CN111599371B (zh) | 语音增加方法、系统、装置及存储介质 | |
CN108182937A (zh) | 关键词识别方法、装置、设备及存储介质 | |
CN111833902B (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
CN105096939A (zh) | 语音唤醒方法和装置 | |
CN107450390A (zh) | 一种智能家电控制装置、控制方法及控制系统 | |
CN109065046A (zh) | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 | |
CN112967739A (zh) | 一种基于长短期记忆网络的语音端点检测方法及系统 | |
CN110738983A (zh) | 基于设备工作状态切换的多神经网络模型语音识别方法 | |
CN112002349B (zh) | 一种语音端点检测方法及装置 | |
CN113782009A (zh) | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 | |
CN112207811B (zh) | 一种机器人控制方法、装置、机器人及存储介质 | |
CN118133225A (zh) | 人工智能驱动的多模态检测系统及方法 | |
CN112669836B (zh) | 命令的识别方法、装置及计算机可读存储介质 | |
CN111833852A (zh) | 一种声学模型的训练方法、装置以及计算机可读存储介质 | |
Wang et al. | A fusion model for robust voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200131 |