CN112668310A - 一种语音深度神经网络模型输出音素概率的方法 - Google Patents

一种语音深度神经网络模型输出音素概率的方法 Download PDF

Info

Publication number
CN112668310A
CN112668310A CN202011495085.7A CN202011495085A CN112668310A CN 112668310 A CN112668310 A CN 112668310A CN 202011495085 A CN202011495085 A CN 202011495085A CN 112668310 A CN112668310 A CN 112668310A
Authority
CN
China
Prior art keywords
phoneme
probability
original
neural network
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011495085.7A
Other languages
English (en)
Other versions
CN112668310B (zh
Inventor
梁骏
汪文轩
王坤鹏
陈谢
姚欢
卢燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Guoxin Microelectronics Co.,Ltd.
Original Assignee
Hangzhou Nationalchip Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Nationalchip Science & Technology Co ltd filed Critical Hangzhou Nationalchip Science & Technology Co ltd
Priority to CN202011495085.7A priority Critical patent/CN112668310B/zh
Publication of CN112668310A publication Critical patent/CN112668310A/zh
Application granted granted Critical
Publication of CN112668310B publication Critical patent/CN112668310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音深度神经网络模型输出音素概率的方法。现有低信噪比的实际使用场景里,语音深度神经网络模型的输出音素的概率的可信度不高。本发明方法首先将每个原始音素分别根据音素类别增加一个置信度信息,然后将置信度信息与设定阈值比较:大于等于阈值时,则该原始音素对应的概率保持不变;小于阈值时,在修正前原始音素的概率基础上加修正值,作为输出音素概率。最后深度神经网络输出音素概率,作为解码依据。采用本发明方法,经过音素置信度修正后,修正音素概率中辅音的语音概率提高,增加了文字识别的能力,音素置信度修正保持了元音的语音概率,减小误激活的情况发生。

Description

一种语音深度神经网络模型输出音素概率的方法
技术领域
本发明属于计算技术领域,尤其是语音深度神经网络处理技术领域,涉及一种语音深度神经网络模型输出音素概率的方法。
技术背景
深度神经网络(DNN)在语音处理上得到了广泛的使用。语音DNN的输入是语音特征, DNN的输出是音素的概率。每个时间间隔DNN输出一次所有音素的概率,解码算法根据输出的音素概率进行解码。解码方法是将音素的概率转换成文字的方法。目前常用的解码算法有Beamsearch(集束搜索)和CTC(连接时序分类器)等。Beamsearch是一种启发式图搜索算法,为了减少搜索所用的空间和时间,在每一步深度扩展的时候,去除一些概率比较低的结点,保留下一些概率较高的结点。这样减少了空间消耗,并提高了时间效率,缺点就是有可能存在潜在的最佳方案被丢弃。CTC是不需要预先对数据做对齐,计算出输出序列的预测概率。输出序列,其关于输入语音的后验概率可以表示为所有映射为输出序列的路径之和。
不管Beamsearch或CTC等解码算法都假设DNN的输出音素的准确率高且可信,但是在低信噪比的实际使用场景里,DNN的输出音素的概率的可信度不高,这就影响了Beamsearch 或CTC解码输出序列的概率计算。
发明内容
本发明的目的就是针对现有低信噪比的实际使用场景里,DNN的输出音素的概率的可信度不高的缺点,提供一种语音深度神经网络模型输出音素概率的方法。
每个时间间隔深度神经网络输出一次每个原始音素的概率。
本发明方法首先将每个原始音素分别增加一个置信度信息Zi,置信度信息为0~1的数字,
Figure BDA0002841911860000011
K为音素类别参数,如果原始音素为元音,则K=1,如果原始音素为辅音,则K=0;Ts为当前时刻所有原始音素的概率的熵,
Figure BDA0002841911860000012
pi为修正前第i个原始音素的概率,i=1,2,…,N,N为当前时刻原始音素的数量;函数
Figure BDA0002841911860000021
然后将置信度信息Zi与设定的阈值τ比较:Zi≥τ时,则该原始音素对应的概率
Figure BDA0002841911860000022
Zi<τ时,该原始音素对应的概率
Figure BDA0002841911860000023
0<x<1,为设定的修正值;
最后深度神经网络输出修正后的原始音素对应的概率
Figure BDA0002841911860000024
作为解码依据。
由于辅音的时间短、能量低,在相同噪声的情况下,DNN输出的原始音素概率中辅音的音素概率的置信度比元音的音素概率的置信度低。因此辅音的原始语音概率与元音的原始语音概率更加不可信。经过音素置信度修正后,修正音素概率中辅音的语音概率提高,增加了文字识别的能力。音素置信度修正保持了元音的语音概率,减小误激活的情况发生。
具体实施方式
下面结合实施例对本发明进行进一步描述。以下实施例仅为本发明的具体实施例,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于本发明的保护范围。
每个时间间隔深度神经网络(DNN)输出一次每个原始音素的概率。音素为最小发音单元,每个字的读音由多个音素构成。
语音深度神经网络模型输出音素概率的方法,首先将每个原始音素分别增加一个置信度信息Zi,置信度信息为0~1的数字,
Figure BDA0002841911860000025
K为音素类别参数,如果原始音素为元音,则K=1,如果原始音素为辅音,则K=0,音素类别参数为0时,表示此音素的置信度高,音素类别参数为1时,表示此音素的置信度低;Ts为当前时刻所有原始音素的概率的熵,
Figure BDA0002841911860000026
pi为第i个原始音素的概率,i=1,2,…,N,N为当前时刻原始音素的数量。函数
Figure BDA0002841911860000027
然后将置信度信息Zi与设定的阈值τ比较:Zi≥τ时,该原始音素对应的概率
Figure BDA0002841911860000028
Zi<τ时,该原始音素对应的概率
Figure BDA0002841911860000029
0<x<1,为设定的修正值;阈值τ根据解码效果进行调整,如采用
Figure BDA00028419118600000210
n=2~5,或者将x设定为常数,如0.2、0.5或0.8。即当某一个音素的置信度高时,音素置信度修正的算法令此音素的修正音素概率等于原始音素概率;当某一个音素的置信度低时,音素置信度修正的算法令此音素的修正音素概率等于原始音素概率加修正值,即修正音素概率大于原始音素概率。
最后DNN输出修正后的音素概率,再进行文字解码。文字解码采用现有的解码方案。

Claims (2)

1.一种语音深度神经网络模型输出音素概率的方法,每个时间间隔深度神经网络输出一次每个原始音素的概率,其特征在于:
该方法首先将每个原始音素分别增加一个置信度信息Zi,置信度信息为0~1的数字,
Figure FDA0002841911850000011
K为音素类别参数,如果原始音素为元音,则K=1,如果原始音素为辅音,则K=0;Ts为当前时刻所有原始音素的概率的熵,
Figure FDA0002841911850000012
pi为修正前第i个原始音素的概率,i=1,2,…,N,N为当前时刻原始音素的数量;
然后将置信度信息Zi与设定的阈值τ比较:Zi≥τ时,则该原始音素对应的概率
Figure FDA0002841911850000013
Zi<τ时,该原始音素对应的概率
Figure FDA0002841911850000014
为设定的修正值;
最后深度神经网络输出修正后的原始音素对应的概率
Figure FDA0002841911850000015
作为解码依据。
2.如权利要求1所述的一种语音深度神经网络模型输出音素概率的方法,其特征在于:修正值
Figure FDA0002841911850000016
n=2~5。
CN202011495085.7A 2020-12-17 2020-12-17 一种语音深度神经网络模型输出音素概率的方法 Active CN112668310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011495085.7A CN112668310B (zh) 2020-12-17 2020-12-17 一种语音深度神经网络模型输出音素概率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011495085.7A CN112668310B (zh) 2020-12-17 2020-12-17 一种语音深度神经网络模型输出音素概率的方法

Publications (2)

Publication Number Publication Date
CN112668310A true CN112668310A (zh) 2021-04-16
CN112668310B CN112668310B (zh) 2023-07-04

Family

ID=75404696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011495085.7A Active CN112668310B (zh) 2020-12-17 2020-12-17 一种语音深度神经网络模型输出音素概率的方法

Country Status (1)

Country Link
CN (1) CN112668310B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US8744856B1 (en) * 2011-02-22 2014-06-03 Carnegie Speech Company Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
WO2017114201A1 (zh) * 2015-12-31 2017-07-06 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN108281137A (zh) * 2017-01-03 2018-07-13 中国科学院声学研究所 一种全音素框架下的通用语音唤醒识别方法及系统
CN111145748A (zh) * 2019-12-30 2020-05-12 广州视源电子科技股份有限公司 音频识别置信度确定方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US8744856B1 (en) * 2011-02-22 2014-06-03 Carnegie Speech Company Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
WO2017114201A1 (zh) * 2015-12-31 2017-07-06 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN108281137A (zh) * 2017-01-03 2018-07-13 中国科学院声学研究所 一种全音素框架下的通用语音唤醒识别方法及系统
CN111145748A (zh) * 2019-12-30 2020-05-12 广州视源电子科技股份有限公司 音频识别置信度确定方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
马啸空;郭武;: "采用音素分类的因子分析说话人识别方法", 小型微型计算机系统, no. 09 *
黄晓辉;李京;: "基于循环神经网络的藏语语音识别声学模型", 中文信息学报, no. 05 *

Also Published As

Publication number Publication date
CN112668310B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
EP4068280A1 (en) Speech recognition error correction method, related devices, and readable storage medium
Hwang et al. Character-level incremental speech recognition with recurrent neural networks
WO2021205746A1 (en) System and method for detecting adversarial attacks
EP1618498B1 (en) Low memory decision tree
CN111310443A (zh) 一种文本纠错方法和系统
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN111539199A (zh) 文本的纠错方法、装置、终端、及存储介质
US20230104228A1 (en) Joint Unsupervised and Supervised Training for Multilingual ASR
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
CN117043859A (zh) 查找表循环语言模型
Dufraux et al. Lead2Gold: Towards exploiting the full potential of noisy transcriptions for speech recognition
CN112668310B (zh) 一种语音深度神经网络模型输出音素概率的方法
CN111862963B (zh) 语音唤醒方法、装置和设备
Miao et al. Low‐latency transformer model for streaming automatic speech recognition
WO2023183680A1 (en) Alignment prediction to inject text into automatic speech recognition training
US20220310097A1 (en) Reducing Streaming ASR Model Delay With Self Alignment
Byambakhishig et al. Error correction of automatic speech recognition based on normalized web distance.
Ito et al. End-to-end speech recognition for languages with ideographic characters
CN112133304B (zh) 基于前馈神经网络的低延时语音识别模型及训练方法
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
Lin et al. Spoken keyword spotting via multi-lattice alignment.
JP2938865B1 (ja) 音声認識装置
JP2000356997A (ja) 統計的言語モデル生成装置及び音声認識装置
CN113327581B (zh) 一种提升语音识别准确率的识别模型优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 310012 5-6 / F, block a, East Software Park Innovation Building, 90 Wensan Road, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Guoxin Microelectronics Co.,Ltd.

Country or region after: China

Address before: 310012 5-6 / F, block a, East Software Park Innovation Building, 90 Wensan Road, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU NATIONALCHIP SCIENCE & TECHNOLOGY Co.,Ltd.

Country or region before: China