CN104575490B - 基于深度神经网络后验概率算法的口语发音评测方法 - Google Patents
基于深度神经网络后验概率算法的口语发音评测方法 Download PDFInfo
- Publication number
- CN104575490B CN104575490B CN201410840991.4A CN201410840991A CN104575490B CN 104575490 B CN104575490 B CN 104575490B CN 201410840991 A CN201410840991 A CN 201410840991A CN 104575490 B CN104575490 B CN 104575490B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- posterior probability
- mrow
- state
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于深度神经网络后验概率算法的口语发音评测方法,包括:步骤一:将语音按帧提取为音频特征向量序列;步骤二:将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典,确定音素状态的时间边界,该模型为DNN+HMM模型;步骤三:在确定时间边界后,提取时间边界内所有帧,按语音帧的帧长取平均值,作为该音素状态的后验概率,并得到基于音素状态后验的单词后验得分,单词的后验得分则为其所含的音素状态后验得分的平均值。
Description
技术领域
本发明属于语言识别领域,涉及一种基于深度神经网络算法的口语发音评测方法。
背景技术
在不同语言的地区的人们当前的全球化加速了对外语水平的要求,对于英语作为第二语言的学习者,电脑辅助语言学习是非常有帮助的。计算机辅助发音训练,旨在评估学生的语音水平和检测或识别一个高精度的发音错误或不足,其仍然是一个具有挑战性的研究领域。
传统口语评测方案,目的是给出一个以音素为基本单位的分数。在计算这个分数时,假设有一GMM+HMM模型能够很好地根据某些声学片段确定这些片段所对应音素的似然概率,然后通过似然差来衡量对应音素的发音质量,其计算复杂度消耗主要在
(1)强制对齐(FA):受约束的音素序列的Viterbi解码过程。
(2)识别(REC):不受约束的音素序列的Viterbi解码过程。
由于REC是不受约束的音素序列的Viterbi解码过程,相对于FA音素解码网络更大,更耗时。
同时,传统口语评测方案,质量主要依赖于声学模型的质量,因为基于的假设是一些GMM+HMM模型能够很好地根据某些声学片段确定这些片段所对应音素的似然概率。
发明内容
本发明所要解决的技术问题是提供一种基于深度神经网络算法的口语发音评测方法和系统,用以提高语音识别的性能,且基于深读神经网络算法的口语发音评测方法,其计算复杂度相对较低。
本发明解决上述技术问题所采取的技术方案如下:
一种基于深度神经网络后验概率算法的口语发音评测方法,包括:
步骤一:将语音按帧提取为音频特征向量序列;
步骤二:将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典,确定音素状态的时间边界,该模型为DNN+HMM模型;
步骤三:在确定时间边界后,提取时间边界内所有帧,按语音帧的帧长取平均值,作为该音素状态的后验概率,并按照以下公式得到基于音素状态后验的单词后验得分:
其中,P(word)为单词的后验得分,为该单词的第j个音素状态的第i帧,为的后验概率,k为音素状态所占的帧长,n为该单词所包含的音素状态个数,即音素状态的后验得分为其每一帧的后验概率累加按所占帧长取平均,单词的后验得分则为其所含的音素状态后验得分的平均值。
所述音频特征包括选取感知线性预测特征PLP或者梅尔倒谱系数MFCC特征。
还包括步骤四:按照以下公式得到基于音素状态后验的句子级后验得分,计算如下:
其中,P(sent)为句子的后验得分,P(Si)为该句中第i帧的对应音素状态后验概率,句子的后验得分便为其所有帧对应音素状态的后验概率平均;
步骤五:通过预先设定的映射函数,将单词级和句子级的后验得分映射到所需要的分数段。
进一步包括:
将拥有相同上下文的音素状态的后验概率进行累加,作为当前音素状态的后验概率。
进一步包括:
根据训练数据确定好的各个音素状态后验概率分布,对音素状态的后验概率进行归一化;
由训练数据统计出当前音素状态后验概率在训练集上的均值与标准差,将当前音素状态的后验概率减去其均值除以标准差,使其后验概率归一化到标准正太分布,用这归一化后的值作为它最终计算评分的后验概率值。
进一步包括:
将每个音素的所有上下文不同的音素状态累加起来,作为该音素后验概率,以加强该音素与其它音素的区分性。
进一步包括:
将拥有相同中心音素的音素状态后验概率进行累加,来代表该输出结点状态的后验概率。
进一步包括:
通过训练数据估计各个音素状态的在训练集上的后验概率分布,将所有输出音素状态的后验概率进行归一化。
本发明采取了上述方案以后,具有以下的优点:
即把训练好的多层神经网络作为一个非线性方程来表示语音信号,网络的顶层能区分性地被训练成能够很好地表示音素后验概率的输出。然后我们利用这些输出来评估其对应音素的发音质量。我们认为这种直接利用DNN后验来评估音素发音质量的方法,相对传统基于最大似然间接计算后验概率的传统口语评测方案,区分性更强,计算复杂度更低。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明基于深度神经网络DNN后验概率算法的口语发音评测方法的流程示意图;
图2是本发明基于深度神经网络DNN后验概率算法的centralphone(中心音素)后验计算方案的流程示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一:
深度神经网络算法(DNN)是近几年在工业界和学术界新型的一个机器学习领域的热点话题。DNN算法成功的将以往的识别率提高了一个显著的档次。并且,当前大多数语音识别系统使用隐马尔可夫模型(HMM)来处理语音的实时变化,用高斯混合模型来确定每个HMM模型的每个状态对声学观察的匹配度,另一种评估匹配度的方法是使用一个前馈神经网络(NN),而深层神经网络(DNN)是拥更多隐层的神经网络,DNN的方法已被证明相对于高斯混合模型,其在语音识别的各种基准性能上都有大幅度的提升。
从传统的传统口语发音评测方法中我们可以看出,要提高口语评测算法的质量,我们需要一个高质量的声学模型;要减少口语评测算法的时间复杂度,则要改变算法的固定框架。于是我们结合DNN,对传统口语评测算法做出了改进。
为此,本发明中,将传统的GMM+HMM模型改为DNN+HMM模型,从而提升声学模型的性能。同时,算法的框架调整为只做FA,利用DNN输出的状态后验来评估声学匹配度。流程如下图1,所示,具体来说,其主要步骤包括以下:
步骤一:将语音按帧提取为音频特征向量序列;
所述音频特征包括选取感知线性预测特征PLP或者梅尔倒谱系数MFCC特征,即通常的音频特征即可。
步骤二:将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典,确定音素状态的时间边界,该模型为DNN+HMM模型;
步骤三:在确定时间边界后,提取时间边界内所有帧,按语音帧的帧长取平均值,作为该音素状态的后验概率,并按照以下公式得到基于音素状态后验的单词后验得分:
其中,P(word)为单词的后验得分,为该单词的第j个音素状态的第i帧,为的后验概率,k为音素状态所占的帧长,n为该单词所包含的音素状态个数,即音素状态的后验得分为其每一帧的后验概率累加按所占帧长取平均,单词的后验得分则为其所含的音素状态后验得分的平均值。
此外,根据如上实施例,还包括步骤四:按照以下公式得到基于音素状态后验的句子级后验得分,计算如下:
其中,P(sent)为句子的后验得分,P(Si)为该句中第i帧的对应音素状态后验概率,句子的后验得分便为其所有帧对应音素状态的后验概率平均;
步骤五:通过预先设定的映射函数,将单词级和句子级的后验得分映射到所需要的分数段。
本发明采取了上述方案以后,这种直接利用DNN后验来评估音素发音质量的方法,相对传统基于最大似然间接计算后验概率的传统口语评测方案,区分性更强,计算复杂度更低。
实施例二:
根据本实施例对以上实施例的具体方案进行更详细的说明。
首先,将语音按帧提取为特征向量序列。
通用的语音特征有感知线性预测特征(PLP)和梅尔倒谱系数(MFCC)特征。然后按已经训练好的声学模型DNN+HMM和给定的口语评测文本、相应单词发音字典,通过Viterbi算法确定音素状态的时间边界。
在确定时间边界后,提取时间边界内所有帧对应的DNN后验概率,按帧长取平均值,作为该音素状态的后验概率,从而我们有了基于音素状态后验的单词后验得分计算方案:
其中,P(word)为单词的后验得分,为该单词的第j个音素状态的第i帧,为的后验概率,k为音素状态所占的帧长,n为该单词所包含的音素状态个数,即音素状态的后验得分为其每一帧的后验概率累加按所占帧长取平均,单词的后验得分则为其所含的音素状态后验得分的平均值。
而句子级后验得分计算如下:
其中,P(sent)为句子的后验得分,P(Si)为该句中第i帧的对应音素状态后验概率。则句子的后验得分便为其所有帧对应音素状态的后验概率平均。
由于一般DNN的输出音素状态是基于triphone(三元音素模型)的(上下文相关的音素状态),所以每个音素的后验概率容易分散到其上下文不同的各个输出因素状态上去,导致在某个特定上下文下的音素后验概率过低,降低了其与其它音素的区分性。
针对这一问题,我们的方案是将每个音素的所有上下文不同的音素状态累加起来,作为该音素后验概率,从而进一步加强该音素与其它音素的区分性,具体如下图2所示,其示出了一种基于centralphone后验计算方案。
具体来说,通常情况下,DNN输出层每个结点的输出值即为所对应的音素状态的后验概率,而在centralphone后验计算方案中,我们为避免音素的后验概率过于分散。
我们将拥有相同centralphone的音素状态后验概率进行累加,来代表该输出结点状态的后验概率。
如图2,假设输出层有三个结点,它门所代表的音素状态分别为b-a+c、d-a+e、e-a+f。它门拥有相同的centralphone:a,则音素状态d-a+e的后验概率由这三个音素状态输出概率的累加和表示。当然我们也可以有选择地进行累加。
由于训练数据的不均匀,说话人口音不同,环境噪声等各种原因。每个音素状态的后验概率分布可能各不相同。所以简单地利用后验来衡量音素发音质量可能会存在问题,于是我们又做了进一步改进。
我们首先通过训练数据估计各个音素状态的在训练集上的后验概率分布,然后假设测试数据也满足这样的分布。从而将所有输出音素状态的后验概率进行归一化,使得对每一个音素状态发音的评估尽量在同一标准下。这样,每个音素状态的后验概率更有可比性。
实施例三:
综上所述,我们的基于DNN后验的口语评测算法具体如下:
步骤一:提取音频特征。
步骤二:将音频特征输入事先训练好的DNN+HMM模型,按照给定的文本和发音字典,通过Viterbi算法来确定说话人所读句子的phone边界和相应的DNN后验概率。
步骤三:利用公式(1)计算单词级评分
步骤四:利用公式(2)计算句子级评分
步骤五:最后通过预先设定的映射函数,将单词级和句子级的后验得分映射到所需要的分数段。
此外,在上述步骤中,步骤三和步骤四中,音素状态的后验概率可以采用如下优选的计算方案:
按照centralphone后验概率计算方案,调整每个音素状态的后验概率。
将拥有相同上下文的音素状态的后验概率进行累加,作为当前音素状态的后验概率。
实施例四:
与实施例三相同,区别在于,步骤三和步骤四中,音素状态的后验概率还可以采用如下优选的计算方案进行归一化:
根据训练数据确定好的各个音素状态后验概率分布,对音素状态的后验概率进行归一化。
由训练数据统计出当前音素状态后验概率在训练集上的均值与标准差,将当前音素状态的后验概率减去其均值除以标准差,使其后验概率归一化到标准正太分布。用这归一化后的值作为它最终计算评分的后验概率值。
本发明采取了上述方案以后,相比于传统的口语评测算法,我们将通过该音素的似然概率乘以其先验概率去间接计算该音素的后验概率,变为利用DNN直接估计该音素的后验概率。
主要优点有:
(1)DNN的训练过程本身是一个具有一定区分性的训练过程。其估计的后验概率,能够更好地区分音素的发音质量。
(2)直接利用DNN估计该音素的后验概率,能够避免间接计算中可能存在的一些计算误差,更精确。
(3)传统的口语评测方案需要两次解码过程,而直接利用DNN估计该音素的后验概率只需一次受约束的音素序列解码(FA),降低了口语评测算法的计算复杂度。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度神经网络后验概率算法的口语发音评测方法,包括:
步骤一:将语音按帧提取为音频特征向量序列;
步骤二:将音频特征输入事先训练好的模型和口语评测文本、相应单词发音字典,确定音素状态的时间边界,该模型为DNN+HMM;
步骤三:在确定时间边界后,提取时间边界内所有帧,按语音帧的帧长取平均值,作为该音素状态的后验概率,并按照以下公式得到基于音素状态后验的单词后验得分:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mi>o</mi>
<mi>r</mi>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>n</mi>
</msubsup>
<mfrac>
<mn>1</mn>
<mi>k</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>k</mi>
</msubsup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>S</mi>
<mi>i</mi>
<mi>j</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,P(word)为单词的后验得分,为该单词的第j个音素状态的第i帧,为的后验概率,k为音素状态所占的帧长,n为该单词所包含的音素状态个数,即音素状态的后验得分为其每一帧的后验概率累加按所占帧长取平均,单词的后验得分则为其所含的音素状态后验得分的平均值。
2.根据权利要求1所述的口语发音评测方法,其特征在于,还包括步骤四:按照以下公式得到基于音素状态后验的句子级后验得分,计算如下:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>t</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>N</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,P(sent)为句子的后验得分,P(Si)为该句中第i帧的对应音素状态后验概率,句子的后验得分便为其所有帧对应音素状态的后验概率平均;
步骤五:通过预先设定的映射函数,将单词级和句子级的后验得分映射到所需要的分数段。
3.根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括:
将拥有相同上下文的音素状态的后验概率进行累加,作为当前音素状态的后验概率。
4.根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括:
根据训练数据确定好的各个音素状态后验概率分布,对音素状态的后验概率进行归一化;
由训练数据统计出当前音素状态后验概率在训练集上的均值与标准差,将当前音素状态的后验概率减去其均值除以标准差,使其后验概率归一化到标准正太分布,用这归一化后的值作为它最终计算评分的后验概率值。
5.根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括:
将每个音素的所有上下文不同的音素状态累加起来,作为该音素后验概率,以加强该音素与其它音素的区分性。
6.根据权利要求1所述的口语发音评测方法,其特征在于,进一步包括:
将拥有相同中心音素的状态后验概率进行累加,来代表输出结点状态的后验概率。
7.根据权利要求2或3所述的口语发音评测方法,其特征在于,进一步包括:
通过训练数据估计各个音素状态的在训练集上的后验概率分布,将所有输出音素状态的后验概率进行归一化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410840991.4A CN104575490B (zh) | 2014-12-30 | 2014-12-30 | 基于深度神经网络后验概率算法的口语发音评测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410840991.4A CN104575490B (zh) | 2014-12-30 | 2014-12-30 | 基于深度神经网络后验概率算法的口语发音评测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104575490A CN104575490A (zh) | 2015-04-29 |
CN104575490B true CN104575490B (zh) | 2017-11-07 |
Family
ID=53091394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410840991.4A Active CN104575490B (zh) | 2014-12-30 | 2014-12-30 | 基于深度神经网络后验概率算法的口语发音评测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104575490B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648766A (zh) * | 2018-08-01 | 2018-10-12 | 云知声(上海)智能科技有限公司 | 语音评测方法及系统 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6614639B2 (ja) * | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
EP3353766A4 (en) * | 2015-09-22 | 2019-03-20 | Vendome Consulting Pty Ltd | METHODS FOR AUTOMATED GENERATION OF VOICE SAMPLE ASSET PRODUCTION NOTES FOR USERS OF DISTRIBUTED LANGUAGE LEARNING SYSTEM, AUTOMATED RECOGNITION AND QUANTIFICATION OF ACCENT AND ENHANCED SPEECH RECOGNITION |
CN106683661B (zh) * | 2015-11-05 | 2021-02-05 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN106910497B (zh) * | 2015-12-22 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN105632501B (zh) * | 2015-12-30 | 2019-09-03 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN106940998B (zh) * | 2015-12-31 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种设定操作的执行方法及装置 |
CN106297828B (zh) * | 2016-08-12 | 2020-03-24 | 苏州驰声信息科技有限公司 | 一种基于深度学习的误发音检测的检测方法和装置 |
CN106504741B (zh) * | 2016-09-18 | 2019-10-25 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度神经网络音素信息的语音转换方法 |
CN106448660B (zh) * | 2016-10-31 | 2019-09-17 | 闽江学院 | 一种引入大数据分析的自然语言模糊边界确定方法 |
CN108172218B (zh) * | 2016-12-05 | 2021-01-12 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
CN106782603B (zh) * | 2016-12-22 | 2020-08-11 | 云知声(上海)智能科技有限公司 | 智能语音评测方法及系统 |
CN106847273B (zh) * | 2016-12-23 | 2020-05-05 | 北京云知声信息技术有限公司 | 语音识别的唤醒词选择方法及装置 |
WO2018209608A1 (en) * | 2017-05-17 | 2018-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | Method and system for robust language identification |
CN107958673B (zh) * | 2017-11-28 | 2021-05-11 | 北京先声教育科技有限公司 | 一种口语评分方法及装置 |
CN108364634A (zh) * | 2018-03-05 | 2018-08-03 | 苏州声通信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN109559735B (zh) * | 2018-10-11 | 2023-10-27 | 平安科技(深圳)有限公司 | 一种基于神经网络的语音识别方法、终端设备及介质 |
CN109493846B (zh) * | 2018-11-18 | 2021-06-08 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
CN109119067B (zh) * | 2018-11-19 | 2020-11-27 | 苏州思必驰信息科技有限公司 | 语音合成方法及装置 |
CN109377981B (zh) * | 2018-11-22 | 2021-07-23 | 四川长虹电器股份有限公司 | 音素对齐的方法及装置 |
CN111354352B (zh) * | 2018-12-24 | 2023-07-14 | 中国科学院声学研究所 | 一种用于音频检索的模板自动清洗方法及系统 |
CN110782921B (zh) * | 2019-09-19 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 语音测评方法和装置、存储介质及电子装置 |
CN112951277B (zh) * | 2019-11-26 | 2023-01-13 | 新东方教育科技集团有限公司 | 评测语音的方法和装置 |
CN113053414B (zh) * | 2019-12-26 | 2024-05-28 | 航天信息股份有限公司 | 一种发音评测方法及装置 |
CN111862960B (zh) * | 2020-08-07 | 2024-04-30 | 广州视琨电子科技有限公司 | 发音错误检测方法、装置、电子设备及存储介质 |
CN112700795A (zh) * | 2020-12-15 | 2021-04-23 | 深圳市声希科技有限公司 | 口语发音质量评价方法、装置、设备及存储介质 |
CN112668310B (zh) * | 2020-12-17 | 2023-07-04 | 杭州国芯科技股份有限公司 | 一种语音深度神经网络模型输出音素概率的方法 |
CN112767919A (zh) * | 2021-01-22 | 2021-05-07 | 北京读我科技有限公司 | 一种语音测评方法及装置 |
CN112908358B (zh) * | 2021-01-31 | 2022-10-18 | 云知声智能科技股份有限公司 | 一种开放式的语音评测方法和设备 |
CN113077820B (zh) * | 2021-03-22 | 2023-01-13 | 北京如布科技有限公司 | 一种语音评测方法、装置、设备及存储介质 |
CN113450805B (zh) * | 2021-06-24 | 2022-05-17 | 平安科技(深圳)有限公司 | 基于神经网络的自动语音识别方法、设备及可读存储介质 |
CN113689882A (zh) * | 2021-08-24 | 2021-11-23 | 上海喜马拉雅科技有限公司 | 发音评测方法、装置、电子设备及可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1750121A (zh) * | 2004-09-16 | 2006-03-22 | 北京中科信利技术有限公司 | 一种基于语音识别及语音分析的发音评估方法 |
CN1790481A (zh) * | 2004-12-17 | 2006-06-21 | 财团法人工业技术研究院 | 基于辨音成分的发音评估方法与系统 |
CN101315733A (zh) * | 2008-07-17 | 2008-12-03 | 安徽科大讯飞信息科技股份有限公司 | 一种针对计算机语言学习系统发音评测的自适应方法 |
CN101383103A (zh) * | 2006-02-28 | 2009-03-11 | 安徽中科大讯飞信息科技有限公司 | 口语发音水平自动测试方法 |
CN101419796A (zh) * | 2008-12-02 | 2009-04-29 | 无敌科技(西安)有限公司 | 自动分割单字语音信号的装置与方法 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN101840699A (zh) * | 2010-04-30 | 2010-09-22 | 中国科学院声学研究所 | 一种基于发音模型的语音质量评测方法 |
CN102509483A (zh) * | 2011-10-31 | 2012-06-20 | 苏州思必驰信息科技有限公司 | 一种口语考试的分布式自动评分系统及其方法 |
CN103559892A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及系统 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN103745723A (zh) * | 2014-01-13 | 2014-04-23 | 苏州思必驰信息科技有限公司 | 一种音频信号识别方法及装置 |
CN103761975A (zh) * | 2014-01-07 | 2014-04-30 | 苏州思必驰信息科技有限公司 | 一种口语评测方法及装置 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8700552B2 (en) * | 2011-11-28 | 2014-04-15 | Microsoft Corporation | Exploiting sparseness in training deep neural networks |
US9672811B2 (en) * | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
-
2014
- 2014-12-30 CN CN201410840991.4A patent/CN104575490B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1750121A (zh) * | 2004-09-16 | 2006-03-22 | 北京中科信利技术有限公司 | 一种基于语音识别及语音分析的发音评估方法 |
CN1790481A (zh) * | 2004-12-17 | 2006-06-21 | 财团法人工业技术研究院 | 基于辨音成分的发音评估方法与系统 |
CN101383103A (zh) * | 2006-02-28 | 2009-03-11 | 安徽中科大讯飞信息科技有限公司 | 口语发音水平自动测试方法 |
CN101315733A (zh) * | 2008-07-17 | 2008-12-03 | 安徽科大讯飞信息科技股份有限公司 | 一种针对计算机语言学习系统发音评测的自适应方法 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN101419796A (zh) * | 2008-12-02 | 2009-04-29 | 无敌科技(西安)有限公司 | 自动分割单字语音信号的装置与方法 |
CN101840699A (zh) * | 2010-04-30 | 2010-09-22 | 中国科学院声学研究所 | 一种基于发音模型的语音质量评测方法 |
CN102509483A (zh) * | 2011-10-31 | 2012-06-20 | 苏州思必驰信息科技有限公司 | 一种口语考试的分布式自动评分系统及其方法 |
CN104143327A (zh) * | 2013-07-10 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种声学模型训练方法和装置 |
CN103559892A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及系统 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN103761975A (zh) * | 2014-01-07 | 2014-04-30 | 苏州思必驰信息科技有限公司 | 一种口语评测方法及装置 |
CN103745723A (zh) * | 2014-01-13 | 2014-04-23 | 苏州思必驰信息科技有限公司 | 一种音频信号识别方法及装置 |
Non-Patent Citations (10)
Title |
---|
"A New DNN-based High Quality Pronunciation Evaluation for Computer-Aided Language Learning (CALL)";Wenping Hu ET AL;《INTERSPEECH》;20130829;全文 * |
"Automatic Assessment of Oral Mandarin Proficiency based on Speech Recognition and Evaluation";Yue Ming ET AL;《2010 International Conference on Educational and Information Technology》;20101025;第3卷;全文 * |
"Automatic scoring of pronunciation quality";Leonardo Neumeyer ET AL;《Speech Communication》;20001231;全文 * |
"Deep Neural networks for Acoustic Modeling in Speech Recognition";Geoffrey Hinton ET AL;《IEEE Signal Processing Magazine》;20121015;全文 * |
"基于口语学习的语言平台设计与实现";谢异 等;《计算机工程与设计》;20060606;第27卷(第9期);全文 * |
"基于语音识别技术口语自动评测的专利分析";万济萍 等;《电声技术》;20130121(第36期);全文 * |
"基于语音识别的发音学习技术";韩纪庆,王欢良 等;《电声技术》;20041231(第9期);全文 * |
"基于音素相关后验概率变换的发音质量评价";严可 等;《清华大学学报(自然科学版)》;20111231;第51卷(第9期);全文 * |
"文本无关自动评分系统中声学模型的若干研究和改进";齐耀辉 等;《中国科学院声学研究所第4届青年学术交流会论文集》;20131121;全文 * |
"汉语发音质量评估的实验研究";葛凤培 等;《声学学报》;20100331(第2期);全文 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648766A (zh) * | 2018-08-01 | 2018-10-12 | 云知声(上海)智能科技有限公司 | 语音评测方法及系统 |
CN108648766B (zh) * | 2018-08-01 | 2021-03-19 | 云知声(上海)智能科技有限公司 | 语音评测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104575490A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104575490B (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
Shor et al. | Personalizing ASR for dysarthric and accented speech with limited data | |
Sun et al. | Phonetic posteriorgrams for many-to-one voice conversion without parallel data training | |
CN105741832B (zh) | 一种基于深度学习的口语评测方法和系统 | |
Qian et al. | On the training aspects of deep neural network (DNN) for parametric TTS synthesis | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN107221318B (zh) | 英语口语发音评分方法和系统 | |
US10540956B2 (en) | Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus | |
Wang et al. | Towards automatic assessment of spontaneous spoken English | |
CN104765996B (zh) | 声纹密码认证方法及系统 | |
CN104681036A (zh) | 一种语言音频的检测系统及方法 | |
CN101246685A (zh) | 计算机辅助语言学习系统中的发音质量评价方法 | |
Inoue et al. | An investigation to transplant emotional expressions in DNN-based TTS synthesis | |
US9798653B1 (en) | Methods, apparatus and data structure for cross-language speech adaptation | |
CN108109615A (zh) | 一种基于dnn的蒙古语声学模型的构造和使用方法 | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
Agrawal et al. | Analysis and modeling of acoustic information for automatic dialect classification | |
CN109300339A (zh) | 一种英语口语的练习方法及系统 | |
Goyal et al. | A comparison of Laryngeal effect in the dialects of Punjabi language | |
Fan et al. | Sequence generation error (SGE) minimization based deep neural networks training for text-to-speech synthesis | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
Trabelsi et al. | A multi level data fusion approach for speaker identification on telephone speech | |
CN113705671B (zh) | 一种基于文本相关信息感知的说话人识别方法与系统 | |
Laskar et al. | HiLAM-state discriminative multi-task deep neural network in dynamic time warping framework for text-dependent speaker verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |