CN112668310A

CN112668310A - 一种语音深度神经网络模型输出音素概率的方法

Info

Publication number: CN112668310A
Application number: CN202011495085.7A
Authority: CN
Inventors: 梁骏; 汪文轩; 王坤鹏; 陈谢; 姚欢; 卢燕
Original assignee: Hangzhou Nationalchip Science & Technology Co ltd
Current assignee: Hangzhou Guoxin Microelectronics Co.,Ltd.
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-16
Anticipated expiration: 2040-12-17
Also published as: CN112668310B

Abstract

本发明公开了一种语音深度神经网络模型输出音素概率的方法。现有低信噪比的实际使用场景里，语音深度神经网络模型的输出音素的概率的可信度不高。本发明方法首先将每个原始音素分别根据音素类别增加一个置信度信息，然后将置信度信息与设定阈值比较：大于等于阈值时，则该原始音素对应的概率保持不变；小于阈值时，在修正前原始音素的概率基础上加修正值，作为输出音素概率。最后深度神经网络输出音素概率，作为解码依据。采用本发明方法，经过音素置信度修正后，修正音素概率中辅音的语音概率提高，增加了文字识别的能力，音素置信度修正保持了元音的语音概率，减小误激活的情况发生。

Description

一种语音深度神经网络模型输出音素概率的方法

技术领域

本发明属于计算技术领域，尤其是语音深度神经网络处理技术领域，涉及一种语音深度神经网络模型输出音素概率的方法。

技术背景

深度神经网络(DNN)在语音处理上得到了广泛的使用。语音DNN的输入是语音特征， DNN的输出是音素的概率。每个时间间隔DNN输出一次所有音素的概率，解码算法根据输出的音素概率进行解码。解码方法是将音素的概率转换成文字的方法。目前常用的解码算法有Beamsearch(集束搜索)和CTC(连接时序分类器)等。Beamsearch是一种启发式图搜索算法，为了减少搜索所用的空间和时间，在每一步深度扩展的时候，去除一些概率比较低的结点，保留下一些概率较高的结点。这样减少了空间消耗，并提高了时间效率，缺点就是有可能存在潜在的最佳方案被丢弃。CTC是不需要预先对数据做对齐，计算出输出序列的预测概率。输出序列，其关于输入语音的后验概率可以表示为所有映射为输出序列的路径之和。

不管Beamsearch或CTC等解码算法都假设DNN的输出音素的准确率高且可信，但是在低信噪比的实际使用场景里，DNN的输出音素的概率的可信度不高，这就影响了Beamsearch 或CTC解码输出序列的概率计算。

发明内容

本发明的目的就是针对现有低信噪比的实际使用场景里，DNN的输出音素的概率的可信度不高的缺点，提供一种语音深度神经网络模型输出音素概率的方法。

每个时间间隔深度神经网络输出一次每个原始音素的概率。

本发明方法首先将每个原始音素分别增加一个置信度信息Z_i，置信度信息为0～1的数字，

K为音素类别参数，如果原始音素为元音，则K＝1，如果原始音素为辅音，则K＝0；Ts为当前时刻所有原始音素的概率的熵，

p_i为修正前第i个原始音素的概率，i＝1,2,…,N，N为当前时刻原始音素的数量；函数

然后将置信度信息Z_i与设定的阈值τ比较：Z_i≥τ时，则该原始音素对应的概率

Z_i＜τ时，该原始音素对应的概率

0＜x＜1，为设定的修正值；

最后深度神经网络输出修正后的原始音素对应的概率

作为解码依据。

由于辅音的时间短、能量低，在相同噪声的情况下，DNN输出的原始音素概率中辅音的音素概率的置信度比元音的音素概率的置信度低。因此辅音的原始语音概率与元音的原始语音概率更加不可信。经过音素置信度修正后，修正音素概率中辅音的语音概率提高，增加了文字识别的能力。音素置信度修正保持了元音的语音概率，减小误激活的情况发生。

具体实施方式

下面结合实施例对本发明进行进一步描述。以下实施例仅为本发明的具体实施例，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于本发明的保护范围。

每个时间间隔深度神经网络(DNN)输出一次每个原始音素的概率。音素为最小发音单元，每个字的读音由多个音素构成。

语音深度神经网络模型输出音素概率的方法，首先将每个原始音素分别增加一个置信度信息Z_i，置信度信息为0～1的数字，

K为音素类别参数，如果原始音素为元音，则K＝1，如果原始音素为辅音，则K＝0，音素类别参数为0时，表示此音素的置信度高，音素类别参数为1时，表示此音素的置信度低；Ts为当前时刻所有原始音素的概率的熵，

p_i为第i个原始音素的概率，i＝1,2,…,N，N为当前时刻原始音素的数量。函数

然后将置信度信息Z_i与设定的阈值τ比较：Z_i≥τ时，该原始音素对应的概率

Z_i＜τ时，该原始音素对应的概率

0＜x＜1，为设定的修正值；阈值τ根据解码效果进行调整，如采用

n＝2～5，或者将x设定为常数，如0.2、0.5或0.8。即当某一个音素的置信度高时，音素置信度修正的算法令此音素的修正音素概率等于原始音素概率；当某一个音素的置信度低时，音素置信度修正的算法令此音素的修正音素概率等于原始音素概率加修正值，即修正音素概率大于原始音素概率。

最后DNN输出修正后的音素概率，再进行文字解码。文字解码采用现有的解码方案。