CN112668310A - 一种语音深度神经网络模型输出音素概率的方法 - Google Patents
一种语音深度神经网络模型输出音素概率的方法 Download PDFInfo
- Publication number
- CN112668310A CN112668310A CN202011495085.7A CN202011495085A CN112668310A CN 112668310 A CN112668310 A CN 112668310A CN 202011495085 A CN202011495085 A CN 202011495085A CN 112668310 A CN112668310 A CN 112668310A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- probability
- original
- neural network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000003062 neural network model Methods 0.000 title claims abstract description 9
- 238000012937 correction Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000004913 activation Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音深度神经网络模型输出音素概率的方法。现有低信噪比的实际使用场景里,语音深度神经网络模型的输出音素的概率的可信度不高。本发明方法首先将每个原始音素分别根据音素类别增加一个置信度信息,然后将置信度信息与设定阈值比较:大于等于阈值时,则该原始音素对应的概率保持不变;小于阈值时,在修正前原始音素的概率基础上加修正值,作为输出音素概率。最后深度神经网络输出音素概率,作为解码依据。采用本发明方法,经过音素置信度修正后,修正音素概率中辅音的语音概率提高,增加了文字识别的能力,音素置信度修正保持了元音的语音概率,减小误激活的情况发生。
Description
技术领域
本发明属于计算技术领域,尤其是语音深度神经网络处理技术领域,涉及一种语音深度神经网络模型输出音素概率的方法。
技术背景
深度神经网络(DNN)在语音处理上得到了广泛的使用。语音DNN的输入是语音特征, DNN的输出是音素的概率。每个时间间隔DNN输出一次所有音素的概率,解码算法根据输出的音素概率进行解码。解码方法是将音素的概率转换成文字的方法。目前常用的解码算法有Beamsearch(集束搜索)和CTC(连接时序分类器)等。Beamsearch是一种启发式图搜索算法,为了减少搜索所用的空间和时间,在每一步深度扩展的时候,去除一些概率比较低的结点,保留下一些概率较高的结点。这样减少了空间消耗,并提高了时间效率,缺点就是有可能存在潜在的最佳方案被丢弃。CTC是不需要预先对数据做对齐,计算出输出序列的预测概率。输出序列,其关于输入语音的后验概率可以表示为所有映射为输出序列的路径之和。
不管Beamsearch或CTC等解码算法都假设DNN的输出音素的准确率高且可信,但是在低信噪比的实际使用场景里,DNN的输出音素的概率的可信度不高,这就影响了Beamsearch 或CTC解码输出序列的概率计算。
发明内容
本发明的目的就是针对现有低信噪比的实际使用场景里,DNN的输出音素的概率的可信度不高的缺点,提供一种语音深度神经网络模型输出音素概率的方法。
每个时间间隔深度神经网络输出一次每个原始音素的概率。
本发明方法首先将每个原始音素分别增加一个置信度信息Zi,置信度信息为0~1的数字,K为音素类别参数,如果原始音素为元音,则K=1,如果原始音素为辅音,则K=0;Ts为当前时刻所有原始音素的概率的熵, pi为修正前第i个原始音素的概率,i=1,2,…,N,N为当前时刻原始音素的数量;函数
由于辅音的时间短、能量低,在相同噪声的情况下,DNN输出的原始音素概率中辅音的音素概率的置信度比元音的音素概率的置信度低。因此辅音的原始语音概率与元音的原始语音概率更加不可信。经过音素置信度修正后,修正音素概率中辅音的语音概率提高,增加了文字识别的能力。音素置信度修正保持了元音的语音概率,减小误激活的情况发生。
具体实施方式
下面结合实施例对本发明进行进一步描述。以下实施例仅为本发明的具体实施例,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于本发明的保护范围。
每个时间间隔深度神经网络(DNN)输出一次每个原始音素的概率。音素为最小发音单元,每个字的读音由多个音素构成。
语音深度神经网络模型输出音素概率的方法,首先将每个原始音素分别增加一个置信度信息Zi,置信度信息为0~1的数字,K为音素类别参数,如果原始音素为元音,则K=1,如果原始音素为辅音,则K=0,音素类别参数为0时,表示此音素的置信度高,音素类别参数为1时,表示此音素的置信度低;Ts为当前时刻所有原始音素的概率的熵,pi为第i个原始音素的概率,i=1,2,…,N,N为当前时刻原始音素的数量。函数
然后将置信度信息Zi与设定的阈值τ比较:Zi≥τ时,该原始音素对应的概率 Zi<τ时,该原始音素对应的概率0<x<1,为设定的修正值;阈值τ根据解码效果进行调整,如采用n=2~5,或者将x设定为常数,如0.2、0.5或0.8。即当某一个音素的置信度高时,音素置信度修正的算法令此音素的修正音素概率等于原始音素概率;当某一个音素的置信度低时,音素置信度修正的算法令此音素的修正音素概率等于原始音素概率加修正值,即修正音素概率大于原始音素概率。
最后DNN输出修正后的音素概率,再进行文字解码。文字解码采用现有的解码方案。
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011495085.7A CN112668310B (zh) | 2020-12-17 | 2020-12-17 | 一种语音深度神经网络模型输出音素概率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011495085.7A CN112668310B (zh) | 2020-12-17 | 2020-12-17 | 一种语音深度神经网络模型输出音素概率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112668310A true CN112668310A (zh) | 2021-04-16 |
CN112668310B CN112668310B (zh) | 2023-07-04 |
Family
ID=75404696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011495085.7A Active CN112668310B (zh) | 2020-12-17 | 2020-12-17 | 一种语音深度神经网络模型输出音素概率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112668310B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US8744856B1 (en) * | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
US20150058006A1 (en) * | 2013-08-23 | 2015-02-26 | Xerox Corporation | Phonetic alignment for user-agent dialogue recognition |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
WO2017114201A1 (zh) * | 2015-12-31 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
CN111145748A (zh) * | 2019-12-30 | 2020-05-12 | 广州视源电子科技股份有限公司 | 音频识别置信度确定方法、装置、设备及存储介质 |
-
2020
- 2020-12-17 CN CN202011495085.7A patent/CN112668310B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US8744856B1 (en) * | 2011-02-22 | 2014-06-03 | Carnegie Speech Company | Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language |
US20150058006A1 (en) * | 2013-08-23 | 2015-02-26 | Xerox Corporation | Phonetic alignment for user-agent dialogue recognition |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
WO2017114201A1 (zh) * | 2015-12-31 | 2017-07-06 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
CN111145748A (zh) * | 2019-12-30 | 2020-05-12 | 广州视源电子科技股份有限公司 | 音频识别置信度确定方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
马啸空;郭武;: "采用音素分类的因子分析说话人识别方法", 小型微型计算机系统, no. 09 * |
黄晓辉;李京;: "基于循环神经网络的藏语语音识别声学模型", 中文信息学报, no. 05 * |
Also Published As
Publication number | Publication date |
---|---|
CN112668310B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4068280A1 (en) | Speech recognition error correction method, related devices, and readable storage medium | |
Hwang et al. | Character-level incremental speech recognition with recurrent neural networks | |
WO2021205746A1 (en) | System and method for detecting adversarial attacks | |
EP1618498B1 (en) | Low memory decision tree | |
CN111310443A (zh) | 一种文本纠错方法和系统 | |
JP4885160B2 (ja) | 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体 | |
CN102063900A (zh) | 克服混淆发音的语音识别方法及系统 | |
CN111539199A (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
US20230104228A1 (en) | Joint Unsupervised and Supervised Training for Multilingual ASR | |
Fusayasu et al. | Word-error correction of continuous speech recognition based on normalized relevance distance | |
CN117043859A (zh) | 查找表循环语言模型 | |
Dufraux et al. | Lead2Gold: Towards exploiting the full potential of noisy transcriptions for speech recognition | |
CN112668310B (zh) | 一种语音深度神经网络模型输出音素概率的方法 | |
CN111862963B (zh) | 语音唤醒方法、装置和设备 | |
Miao et al. | Low‐latency transformer model for streaming automatic speech recognition | |
WO2023183680A1 (en) | Alignment prediction to inject text into automatic speech recognition training | |
US20220310097A1 (en) | Reducing Streaming ASR Model Delay With Self Alignment | |
Byambakhishig et al. | Error correction of automatic speech recognition based on normalized web distance. | |
Ito et al. | End-to-end speech recognition for languages with ideographic characters | |
CN112133304B (zh) | 基于前馈神经网络的低延时语音识别模型及训练方法 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Lin et al. | Spoken keyword spotting via multi-lattice alignment. | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2000356997A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
CN113327581B (zh) | 一种提升语音识别准确率的识别模型优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 310012 5-6 / F, block a, East Software Park Innovation Building, 90 Wensan Road, Hangzhou City, Zhejiang Province Patentee after: Hangzhou Guoxin Microelectronics Co.,Ltd. Country or region after: China Address before: 310012 5-6 / F, block a, East Software Park Innovation Building, 90 Wensan Road, Hangzhou City, Zhejiang Province Patentee before: HANGZHOU NATIONALCHIP SCIENCE & TECHNOLOGY Co.,Ltd. Country or region before: China |