CN106297828B - 一种基于深度学习的误发音检测的检测方法和装置 - Google Patents

一种基于深度学习的误发音检测的检测方法和装置 Download PDF

Info

Publication number
CN106297828B
CN106297828B CN201610662367.9A CN201610662367A CN106297828B CN 106297828 B CN106297828 B CN 106297828B CN 201610662367 A CN201610662367 A CN 201610662367A CN 106297828 B CN106297828 B CN 106297828B
Authority
CN
China
Prior art keywords
phoneme
pronunciation
level
deep
phonemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610662367.9A
Other languages
English (en)
Other versions
CN106297828A (zh
Inventor
惠寅华
王欢良
杨嵩
黄正伟
方敏
袁军峰
戚自力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chivox Information Technology Co ltd
Original Assignee
Suzhou Chivox Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chivox Information Technology Co ltd filed Critical Suzhou Chivox Information Technology Co ltd
Priority to CN201610662367.9A priority Critical patent/CN106297828B/zh
Publication of CN106297828A publication Critical patent/CN106297828A/zh
Application granted granted Critical
Publication of CN106297828B publication Critical patent/CN106297828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的误发音检测方法和装置,方法包括:步骤1)通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络;步骤2)结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界;基于由深度神经网络构成的深度自动编码器,根据音素的边界和边界内的声学特征提取音素级特征,所述深度神经网络为一深度贝叶斯置信网络;将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误。

Description

一种基于深度学习的误发音检测的检测方法和装置
技术领域
本发明属于一种基于深度学习的误发音检测的检测方法和装置。
背景技术
英语口语发音音误包括音素错误和韵律错误两个方面。
音素错误包括:音素发音不标准、多发音(插入错误)、少发音(删除错误)、错发成别的音(替换错误)。
我们提出的检测方案主要是为了找出发音不标准和错发成别的音的音素,统称为误发音检测。
传统方案主要分为基于似然差的GOP方案和基于提取音素级特征的分类方案。
基于似然差的GOP方案:通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络,结合声学特征和预先训练好的声学模型对音素级解码网络进行解码并计算出待检测音素的GOP得分,然后通过人为设定的阈值判断待检测音素的发音正误。
传统GOP方案优点是计算简单,但很难确定一个适合的判别阈值。
基于音素级特征提取的分类方案:通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络,结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界,然后根据音素的边界和边界内的声学特征提取音素级特征,最后将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误。基于音素级特征提取的分类方可以通过学习的手段确定参数,避免了GOP方案人为设定的阈值的问题。但在一些训练样本较少的稀缺音素的正误判断上较训练样本充足的音素性能较差。
发明内容
本发明所要解决的技术问题是提供一种基于深度学习的误发音检测的检测方法和装置。
本发明解决上述技术问题所采取的技术方案如下:
一种基于深度学习的误发音检测方法,包括:
步骤1)通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络;
步骤2)结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界;
基于由深度神经网络构成的深度自动编码器,根据音素的边界和边界内的声学特征提取音素级特征,所述深度神经网络为一深度贝叶斯置信网络;
将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误。
优选的是,在音素级特征提取过程中,具体包括:
通过深度贝叶斯网络结点与结点的因果关系,计算出的一组结点的概率值,构成一个向量,并将其作为音素级特征。
优选的是,所述深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。
优选的是,步骤2)中,还包括:
用深度神经网络作为分类器,使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层;
其中,所述隐藏层为深度神经网络多层图结构中,出入层和输出层的剩余层。
优选的是,步骤2)中,具体包括以下子步骤:
子步骤21)通过给定的朗读文本通过强制对齐操作,输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界,确定音素序列的边界;
子步骤22)通过声学模型的前三层输出帧级特征;
通过统计的方法,根据音素的边界信息将帧级特征转化为音素级特征来表示音素,将音素级特征向量通过DAE降维至较低维度,减少最后深度神经网络分类模型的空间复杂度和时间复杂度;
子步骤23)结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率,取概率大者作为最后检测的结果;
如果正确的输出概率大于错误的输出概率,则待检测音素发音正确;如果正确的输出概率小于错误的输出概率,则待检测音素发音错误。
一种基于深度学习的误发音检测装置,包括:
声学特征提取模块,用于通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络;
深度提取模块,用于结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界;
用于基于由深度神经网络构成的深度自动编码器,根据音素的边界和边界内的声学特征提取音素级特征,所述深度神经网络为一深度贝叶斯置信网络;
发音正误判断模块,用于将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误。
优选的是,所述深度提取模块,在音素级特征提取过程中,具体包括:
通过深度贝叶斯网络结点与结点的因果关系,计算出的一组结点的概率值,构成一个向量,并将其作为音素级特征。
优选的是,其中深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。
优选的是,所述深度提取模块,还用于用深度神经网络作为分类器,使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层;
其中,所述隐藏层为深度神经网络多层图结构中,出入层和输出层的剩余层。
优选的是,所述深度提取模块,具体包括以下子模块:
对齐子模块,用于通过给定的朗读文本通过强制对齐操作,输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界,确定音素序列的边界;
提取特征子模块,用于通过声学模型的前三层输出帧级特征;
通过统计的方法,根据音素的边界信息将帧级特征转化为音素级特征来表示音素,将音素级特征向量通过DAE降维至较低维度,减少最后深度神经网络分类模型的空间复杂度和时间复杂度;
概率判断子模块,用于结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率,取概率大者作为最后检测的结果;
如果正确的输出概率大于错误的输出概率,则待检测音素发音正确;如果正确的输出概率小于错误的输出概率,则待检测音素发音错误。
本发明采取上述方案以后,具有以下的技术效果:
1、利用深度学习的框架提取出了更抽象更通用的特征来表示音素。
2、检测中的分类器,使各因素共享深度神经网络中的隐藏层信息,避免了稀缺音素检测性能不佳的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明基于深度学习的误发音检测方法的流程示意图;
图2是本发明基于深度学习的误发音检测方法的实施例的示意图;
图3是本发明基于深度学习的误发音检测装置的结构示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一:
如图1所示,一种基于深度学习的误发音检测方法,包括:
步骤1)通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络;
步骤2)结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界;
基于由深度神经网络构成的深度自动编码器,根据音素的边界和边界内的声学特征提取音素级特征,所述深度神经网络为一深度贝叶斯置信网络;
将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误。
本发明采取上述方案以后,具有以下的技术效果:
1、利用深度学习的框架提取出了更抽象更通用的特征来表示音素。
2、检测中的分类器,使各因素共享深度神经网络中的隐藏层信息,避免了稀缺音素检测性能不佳的问题。
实施例二:
结合以下实施例对上述实施例进行详细说明,其中,在音素级特征提取过程中,具体包括:
通过深度贝叶斯网络结点与结点的因果关系,计算出的一组结点的概率值,构成一个向量,并将其作为音素级特征。
优选的是,所述深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。
优选的是,步骤2)中,还包括:
用深度神经网络作为分类器,使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层;
其中,所述隐藏层为深度神经网络多层图结构中,出入层和输出层的剩余层。
优选的是,步骤2)中,具体包括以下子步骤:
子步骤21)通过给定的朗读文本通过强制对齐操作,输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界,确定音素序列的边界;
子步骤22)通过声学模型的前三层输出帧级特征;
通过统计的方法,根据音素的边界信息将帧级特征转化为音素级特征来表示音素,将音素级特征向量通过DAE降维至较低维度,减少最后深度神经网络分类模型的空间复杂度和时间复杂度;
子步骤23)结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率,取概率大者作为最后检测的结果;
如果正确的输出概率大于错误的输出概率,则待检测音素发音正确;如果正确的输出概率小于错误的输出概率,则待检测音素发音错误。
实施例三:
如图2所示,一个实施例中,本发明采取了基于深度学习技术的深度自动编码(DAE)方法,提取出了更抽象更通用的特征来表示音素。
同时用深度神经网络作为分类器,使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层,从而避免了稀缺音素检测性能不佳的问题。
具体来说,通过给定的朗读文本通过强制对齐操作,确定音素序列序列的边界。再通过声学模型的前三层输出帧级特征,然后通过统计的方法,根据音素的边界信息将帧级特征转化为音素级特征来表示音素,将音素级特征向量通过DAE降维至较低维度,减少最后DNN分类模型模型的空间复杂度和时间复杂度。结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率,取概率大者作为最后检测的结果。
实施例四:
与以上方法实施例相对应,本发明还提供一种装置,如图3所示,一种基于深度学习的误发音检测装置,包括:
声学特征提取模块,用于通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络;
深度提取模块,用于结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界;
用于基于由深度神经网络构成的深度自动编码器,根据音素的边界和边界内的声学特征提取音素级特征,所述深度神经网络为一深度贝叶斯置信网络;
发音正误判断模块,用于将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误。
优选的是,所述深度提取模块,在音素级特征提取过程中,具体包括:
通过深度贝叶斯网络结点与结点的因果关系,计算出的一组结点的概率值,构成一个向量,并将其作为音素级特征。
优选的是,其中深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。
优选的是,所述深度提取模块,还用于用深度神经网络作为分类器,使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层;
其中,所述隐藏层为深度神经网络多层图结构中,出入层和输出层的剩余层。
优选的是,所述深度提取模块,具体包括以下子模块:
对齐子模块,用于通过给定的朗读文本通过强制对齐操作,输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界,确定音素序列的边界;
提取特征子模块,用于通过声学模型的前三层输出帧级特征;
通过统计的方法,根据音素的边界信息将帧级特征转化为音素级特征来表示音素,将音素级特征向量通过DAE降维至较低维度,减少最后深度神经网络分类模型的空间复杂度和时间复杂度;
概率判断子模块,用于结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率,取概率大者作为最后检测的结果;
如果正确的输出概率大于错误的输出概率,则待检测音素发音正确;如果正确的输出概率小于错误的输出概率,则待检测音素发音错误。
本发明采取上述方案以后,具有以下的技术效果:
1、利用深度学习的框架提取出了更抽象更通用的特征来表示音素。
2、检测中的分类器,使各因素共享深度神经网络中的隐藏层信息,避免了稀缺音素检测性能不佳的问题。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度学习的误发音检测方法,其特征在于,包括:
步骤1)通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络;
步骤2)结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界;
基于由深度神经网络构成的深度自动编码器,根据音素的边界和边界内的声学特征提取音素级特征,所述深度神经网络为一深度贝叶斯置信网络;
将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误;其中,在音素级特征提取过程中,具体包括:
通过深度贝叶斯网络结点与结点的因果关系,计算出的一组结点的概率值,构成一个向量,并将其作为音素级特征;
步骤2)中,具体包括以下子步骤:
子步骤21)通过给定的朗读文本通过强制对齐操作,输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界,确定音素序列的边界;
子步骤22)通过声学模型的前三层输出帧级特征;
通过统计的方法,根据音素的边界信息将帧级特征转化为音素级特征来表示音素,将音素级特征向量通过DAE降维至较低维度,减少最后深度神经网络分类模型的空间复杂度和时间复杂度;
子步骤23)结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率,取概率大者作为最后检测的结果;
如果正确的输出概率大于错误的输出概率,则待检测音素发音正确;如果正确的输出概率小于错误的输出概率,则待检测音素发音错误。
2.根据权利要求1所述的基于深度学习的误发音检测方法,其特征在于,其中深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。
3.根据权利要求1所述的基于深度学习的误发音检测方法,其特征在于,步骤2)中,还包括:
用深度神经网络作为分类器,使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层;
其中,所述隐藏层为深度神经网络多层图结构中,出入层和输出层的剩余层。
4.一种基于深度学习的误发音检测装置,其特征在于,包括:
声学特征提取模块,用于通过朗读音频提取声学特征,通过朗读文本和相应的单词发音字典构建音素级解码网络;
深度提取模块,用于结合声学特征和预先训练好的声学模型对音素级解码网络进行解码确定待检测音素的边界;
用于基于由深度神经网络构成的深度自动编码器,根据音素的边界和边界内的声学特征提取音素级特征,所述深度神经网络为一深度贝叶斯置信网络;
发音正误判断模块,用于将待检测音素的音素级特征送入事先训练好的发音正误分类器,判断待检测音素的发音正误;所述深度提取模块,在音素级特征提取过程中,具体包括:
通过深度贝叶斯网络结点与结点的因果关系,计算出的一组结点的概率值,构成一个向量,并将其作为音素级特征;
所述深度提取模块,具体包括以下子模块:
对齐子模块,用于通过给定的朗读文本通过强制对齐操作,输入音频和发音标注文本通过viterbi算法去确定单词或音素在音频中的时间边界,确定音素序列的边界;
提取特征子模块,用于通过声学模型的前三层输出帧级特征;
通过统计的方法,根据音素的边界信息将帧级特征转化为音素级特征来表示音素,将音素级特征向量通过DAE降维至较低维度,减少最后深度神经网络分类模型的空间复杂度和时间复杂度;
概率判断子模块,用于结合音素名称信息在DNN分类模型的两个输出结点上给出该音素发音正确或错误的概率,取概率大者作为最后检测的结果;
如果正确的输出概率大于错误的输出概率,则待检测音素发音正确;如果正确的输出概率小于错误的输出概率,则待检测音素发音错误。
5.根据权利要求4所述的基于深度学习的误发音检测装置,其特征在于,其中深度贝叶斯网络结点与结点的因果关系的条件概率值是由大量数据统计得来的。
6.根据权利要求4所述的基于深度学习的误发音检测装置,其特征在于,所述深度提取模块,还用于用深度神经网络作为分类器,使所有音素在训练分类器时都能够共享深度神经网络中的隐藏层;
其中,所述隐藏层为深度神经网络多层图结构中,出入层和输出层的剩余层。
CN201610662367.9A 2016-08-12 2016-08-12 一种基于深度学习的误发音检测的检测方法和装置 Active CN106297828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610662367.9A CN106297828B (zh) 2016-08-12 2016-08-12 一种基于深度学习的误发音检测的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610662367.9A CN106297828B (zh) 2016-08-12 2016-08-12 一种基于深度学习的误发音检测的检测方法和装置

Publications (2)

Publication Number Publication Date
CN106297828A CN106297828A (zh) 2017-01-04
CN106297828B true CN106297828B (zh) 2020-03-24

Family

ID=57669717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610662367.9A Active CN106297828B (zh) 2016-08-12 2016-08-12 一种基于深度学习的误发音检测的检测方法和装置

Country Status (1)

Country Link
CN (1) CN106297828B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109686383B (zh) * 2017-10-18 2021-03-23 腾讯科技(深圳)有限公司 一种语音分析方法、装置及存储介质
CN107886968B (zh) * 2017-12-28 2021-08-24 广州讯飞易听说网络科技有限公司 语音评测方法及系统
CN108932943A (zh) * 2018-07-12 2018-12-04 广州视源电子科技股份有限公司 命令词语音检测方法、装置、设备和存储介质
CN109036464B (zh) * 2018-09-17 2022-02-22 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN109545189A (zh) * 2018-12-14 2019-03-29 东华大学 一种基于机器学习的口语发音检错与纠正系统
CN111951825A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音测评方法、介质、装置和计算设备
CN112309429A (zh) * 2019-07-30 2021-02-02 上海流利说信息技术有限公司 一种失爆检测方法、装置、设备及计算机可读存储介质
CN112951277B (zh) * 2019-11-26 2023-01-13 新东方教育科技集团有限公司 评测语音的方法和装置
CN111292769A (zh) * 2020-03-04 2020-06-16 苏州驰声信息科技有限公司 一种口语发音的纠音方法、系统、装置、存储介质
CN111276127B (zh) * 2020-03-31 2023-02-24 北京字节跳动网络技术有限公司 语音唤醒方法、装置、存储介质及电子设备
CN113744717A (zh) * 2020-05-15 2021-12-03 阿里巴巴集团控股有限公司 一种语种识别方法及装置
CN112133325B (zh) * 2020-10-14 2024-05-07 北京猿力未来科技有限公司 错误音素识别方法及装置
CN113345467B (zh) * 2021-05-19 2023-10-20 苏州奇梦者网络科技有限公司 一种口语发音评测方法、装置、介质以及设备
CN114420111B (zh) * 2022-03-31 2022-06-17 成都启英泰伦科技有限公司 一种基于一维假设的语音向量距离计算方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010139745A (ja) * 2008-12-11 2010-06-24 National Institute Of Information & Communication Technology 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN101763855A (zh) * 2009-11-20 2010-06-30 安徽科大讯飞信息科技股份有限公司 语音识别的置信度判决方法及装置
CN101826263A (zh) * 2009-03-04 2010-09-08 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
CN103559892A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及系统
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法
CN104541324A (zh) * 2013-05-01 2015-04-22 克拉科夫大学 一种使用动态贝叶斯网络模型的语音识别系统和方法
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和系统
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010139745A (ja) * 2008-12-11 2010-06-24 National Institute Of Information & Communication Technology 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN101826263A (zh) * 2009-03-04 2010-09-08 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
CN101763855A (zh) * 2009-11-20 2010-06-30 安徽科大讯飞信息科技股份有限公司 语音识别的置信度判决方法及装置
CN104541324A (zh) * 2013-05-01 2015-04-22 克拉科夫大学 一种使用动态贝叶斯网络模型的语音识别系统和方法
CN103559892A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及系统
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和系统
CN105845134A (zh) * 2016-06-14 2016-08-10 科大讯飞股份有限公司 自由朗读题型的口语评测方法及系统

Also Published As

Publication number Publication date
CN106297828A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106297828B (zh) 一种基于深度学习的误发音检测的检测方法和装置
EP2943951B1 (en) Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
CN108962227B (zh) 语音起点和终点检测方法、装置、计算机设备及存储介质
CN111429889A (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
US10140976B2 (en) Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
Alon et al. Contextual speech recognition with difficult negative training examples
KR20230147685A (ko) 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습
CN111640456B (zh) 叠音检测方法、装置和设备
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN112397056B (zh) 语音评测方法及计算机存储介质
US11620992B2 (en) Automated speech recognition confidence classifier
CN112259083B (zh) 音频处理方法及装置
CN112927679A (zh) 一种语音识别中添加标点符号的方法及语音识别装置
Lakomkin et al. KT-speech-crawler: Automatic dataset construction for speech recognition from YouTube videos
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN114254587A (zh) 主题段落划分方法、装置、电子设备及存储介质
CN115985342A (zh) 发音检错方法、装置、电子设备和存储介质
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN114999463A (zh) 语音识别方法、装置、设备及介质
CN113239903B (zh) 一种跨模态唇读的对抗性双重对比自监督学习方法
Du et al. Cross-modal asr post-processing system for error correction and utterance rejection
Li et al. Integrating knowledge in end-to-end automatic speech recognition for Mandarin-English code-switching
CN118076997A (zh) 用于罕见词语音辨识的大规模语言模型数据选择
CN111914803B (zh) 一种唇语关键词检测方法、装置、设备及存储介质
US8438029B1 (en) Confidence tying for unsupervised synthetic speech adaptation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant