CN111986650A - 借助语种识别辅助语音评测的方法及系统 - Google Patents

借助语种识别辅助语音评测的方法及系统 Download PDF

Info

Publication number
CN111986650A
CN111986650A CN202010785964.7A CN202010785964A CN111986650A CN 111986650 A CN111986650 A CN 111986650A CN 202010785964 A CN202010785964 A CN 202010785964A CN 111986650 A CN111986650 A CN 111986650A
Authority
CN
China
Prior art keywords
score
level
language
evaluation
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010785964.7A
Other languages
English (en)
Other versions
CN111986650B (zh
Inventor
牛传迎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010785964.7A priority Critical patent/CN111986650B/zh
Publication of CN111986650A publication Critical patent/CN111986650A/zh
Application granted granted Critical
Publication of CN111986650B publication Critical patent/CN111986650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种借助语种识别辅助语音评测的方法及系统,所述方法执行以下步骤:步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果。根据本发明的方法,基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学习者实际发音水平;同时,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测系统要求的语种发音时又不影响评测打分。

Description

借助语种识别辅助语音评测的方法及系统
技术领域
本发明涉及语音评测技术领域,特别涉及一种借助语种识别辅助语音评测的方法及系统。
背景技术
目前的语音评测技术常针对特定语种搜集大量发音质量较高的语音数据来训练声学模型,然后通过参考文本、发音词典以及声学模型构建识别网络,最后通过GOP(Goodness Of Pronunciation)算法给出后验概率作为衡量学习者对某个音素的发音好坏。若希望得到更多层级音段的分数,则需要组合多种特征按照至底向上的顺序,通过平均或加权平均依次得到音素、单词、句子、段落、篇章的分数。
这种方法的弊端在于,一方面,目前的语音评测技术通常要求学习者按照事先提供好的某一类语种的参考文本发音,由于识别网络只有一条路径,当学习者按照给定语种的参考文本发音时,评测系统通常能计算当前学习者的发音与模型的匹配程度,给出接近学习者发音水平的分数;而当学习者按照给定语种乱说(例如多读、乱读)时,评测系统常难以对齐当前语音与参考文本给出符合学习者真实发音水平的分数,例如给定文本为“中国人”,当学习者读“一块五毛钱”时,系统识别结果还是“中国人”;另一方面,由于解码路径仅有一条,当学习者不按照给定语种的文本发音时,即按照另外一个语种发音时,评测系统很难打零分。例如,参考文本为“你好”,学习者发成“hello”,识别结果还是“你好”,系统机器得分通常大于零分;再一方面,基于多语种融合的语音评测系统当前还没有实际落地场景。
发明内容
本发明提供一种借助语种识别辅助语音评测的方法及系统,用以解决语音评测在学习者乱说情况下不能打零分的问题。
本发明提供了一种借助语种识别辅助语音评测的方法,所述方法执行以下步骤:
步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;
步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
进一步地,在所述步骤1中,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
进一步地,所述步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分执行以下步骤:
步骤S11:提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
步骤S12:根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
步骤S13:根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
步骤S14:根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
进一步地,在所述步骤S11中,根据以下公式确定所述音素层级的GOP后验概率:
Figure BDA0002621986060000021
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合;
在所述步骤S11中,基于语音识别网络,通过前后向算法获得所述音素层级的置信分数picm,picm表示第i个音素的置信分数;
在所述步骤S12中,根据以下公式确定所述单词层级的后验概率,
Figure BDA0002621986060000031
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
在所述步骤S12中,根据以下公式确定所述单词层级的置信分数,
Figure BDA0002621986060000032
其中,Wkcm表示第k个单词的置信分数;
在所述步骤S13中,根据以下公式确定所述句子层级的分数,
Figure BDA0002621986060000033
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,
Figure BDA0002621986060000036
β分别为加权系数,满足M>0,
Figure BDA0002621986060000037
0≤β≤1,且
Figure BDA0002621986060000038
在所述步骤S13中,根据以下公式统计句子中单词后验概率打零分的比例,
Figure BDA0002621986060000034
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数;
在所述步骤S14中,根据以下公式确定句子的初始评测得分,
Figure BDA0002621986060000035
其中,t1表示zmatch阈值,t2表示Sr阈值。
进一步地,所述步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果执行以下步骤:
步骤S21:将待检测语音转化为语种向量,其中所述语种向量代表语种信息;
步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果。
进一步地,所述步骤S21:将待检测语音转化为语种向量执行以下步骤:
步骤S211:将所述待检测语音经过语音活动检测处理,以剔除所述待检测语音中的静音部分;
步骤S212:提取经过语音活动检测处理的所述待检测语音中的声学特征序列;
步骤S213:采用x-vector提取器,从所述声学特征序列中提取固定长度的向量,得到所述语种向量。
进一步地,所述步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果执行以下步骤:
步骤S221:分别对所述语种向量和所述模型语种向量进行降维处理和规整处理;
步骤S222:将经过降维处理和规整处理的所述语种向量和所述模型语种向量,经过训练好的概率线性判别分析模型进行打分处理,得到与各语种对应的得分;
步骤S223:选择得分最高并且大于语种阈值的语种,作为所述语种识别结果。
进一步地,所述步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果执行以下步骤:
步骤S31:对所述初始评测得分和评测总分阈值进行比较,若所述初始评测得分小于所述评测总分阈值,则执行步骤S32,若所述初始评测得分大于等于所述评测总分阈值,则执行步骤S34;
步骤S32:若所述语种识别结果和评测要求的语种不一致,则执行步骤S33,若所述语种识别结果和评测要求的语种一致,则执行步骤S34;
步骤S33:将所述初始评测得分重置为零分,作为所述语音评测结果;
步骤S34:将所述初始评测得分作为所述语音评测结果。
本发明实施例提供的一种借助语种识别辅助语音评测的方法,具有以下有益效果:基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学习者实际发音水平;同时,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测系统要求的语种发音时又不影响评测打分。
本发明还提供一种借助语种识别辅助语音评测的系统,包括:
初始评测得分计算模块,用于根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
语种识别模块,用于对所述待检测语音数据进行语种识别,得到语种识别结果;
语音评测模块,用于根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
进一步地,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
对应地,所述初始评测得分计算模块包括:
音素层级计算单元,用于提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
单词层级计算单元,用于根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
句子层级计算单元,用于根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
初始评测得分计算单元,用于根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
本发明实施例提供的一种借助语种识别辅助语音评测的系统,具有以下有益效果:初始评测得分计算模块基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学习者实际发音水平;同时,语音评测模块基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测系统要求的语种发音时又不影响评测打分。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种借助语种识别辅助语音评测的方法的流程示意图;
图2为本发明实施例中一种借助语种识别辅助语音评测的方法的语种识别的流程示意图;
图3为本发明实施例中一种借助语种识别辅助语音评测的方法中进行语种识别所采用的x-vector提取器的结构图;
图4为本发明实施例中一种借助语种识别辅助语音评测的方法中根据初始评测得分和语种识别结果,得到语音评测结果的语种识别的流程示意图;
图5为本发明实施例中一种借助语种识别辅助语音评测的系统的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种借助语种识别辅助语音评测的方法,如图1所示,所述方法执行以下步骤:
步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;
步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
上述技术方案的工作原理为:在所述步骤1中,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
具体地,本发明采用基于多层级分数映射的方法,首先根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;然后对待检测语音数据进行语种识别,得到语种识别结果;最后根据初始评测得分和语种识别结果,得到语音评测结果。
上述技术方案的有益效果为:基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学习者实际发音水平;同时,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测系统要求的语种发音时又不影响评测打分。
在一个实施例中,所述步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分执行以下步骤:
步骤S11:提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
步骤S12:根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
步骤S13:根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
步骤S14:根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
上述技术方案的工作原理为:在所述步骤S11中,根据以下公式确定所述音素层级的GOP后验概率:
Figure BDA0002621986060000081
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合;
在所述步骤S11中,基于语音识别网络,通过前后向算法获得所述音素层级的置信分数picm,picm表示第i个音素的置信分数;
在所述步骤S12中,根据以下公式确定所述单词层级的后验概率,
Figure BDA0002621986060000082
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
在所述步骤S12中,根据以下公式确定所述单词层级的置信分数,
Figure BDA0002621986060000083
其中,Wkcm表示第k个单词的置信分数;
在所述步骤S13中,根据以下公式确定所述句子层级的分数,
Figure BDA0002621986060000091
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,
Figure BDA0002621986060000097
β分别为加权系数,满足M>0,
Figure BDA0002621986060000099
0≤β≤1,且
Figure BDA0002621986060000098
在所述步骤S13中,根据以下公式统计句子中单词后验概率打零分的比例,
Figure BDA0002621986060000092
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数;
在所述步骤S14中,根据以下公式确定句子的初始评测得分,
Figure BDA0002621986060000093
其中,t1表示zmatch阈值,t2表示Sr阈值。
上述技术方案的有益效果为:提供了根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分的具体步骤,基于多层级分数映射的方法,分别计算了后验概率和置信分数两个特征,通过加权和的方式更能精确的描述学习者实际发音水平;更进一步结合了打零分单词比例这一特征,一定程度上可以覆盖按照规定语种乱说的情况。
在一个实施例中,所述步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果执行以下步骤:
步骤S21:将待检测语音转化为语种向量,其中所述语种向量代表语种信息;
步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果。
上述技术方案的工作原理为:其中,所述步骤S21:将待检测语音转化为语种向量执行以下步骤:
步骤S211:将所述待检测语音经过语音活动检测处理,以剔除所述待检测语音中的静音部分;
步骤S212:提取经过语音活动检测处理的所述待检测语音中的声学特征序列;
步骤S213:采用x-vector提取器,从所述声学特征序列中提取固定长度的向量,得到所述语种向量。
进一步地,所述步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果执行以下步骤:
步骤S221:分别对所述语种向量和所述模型语种向量进行降维处理和规整处理;
步骤S222:将经过降维处理和规整处理的所述语种向量和所述模型语种向量,经过训练好的概率线性判别分析模型进行打分处理,得到与各语种对应的得分;
步骤S223:选择得分最高并且大于语种阈值的语种,作为所述语种识别结果。
具体地,图2示出了语种识别的流程示意图,如上图2所示,语种识别分两个模块,前端模块和后端模块。前端模块主要将一段待检测语音转化为代表语种信息的特殊向量,这里表示为x-vector,具体地,首先一段待检测语音经VAD(Voice Activity Detection,语音活动检测)处理后剔除静音部分,然后提取声学特征序列。提取的声学特征序列经x-vector提取器提取固定长度的向量即为x-vector。其中x-vector提取器的结构如图3所示,整个结构是一个前馈神经网络,由输入层、隐藏层、池化层和输出层组成,又可以按输入特征分为两个层级,在池化层之前是时延神经网络(Time Delay Neural Network,TDNN)。TDNN每次取一段待检测语音的声学特征序列中的固定帧数逐层向上传递,池化层将TDNN的输出进行累计,计算均值和方差,池化层之后是两层全连接层,x-vector可以从这两层中任一层的输出提取,最后是softmax输出层,输出层节点个数为语种个数。后端为打分模块,前端模块得到的各语种模型的x-vector和一段待检测语音的x-vector,分别经过降维和规整,然后经过训练好的概率线性判别分析(Probabilistic Linear DiscriminantAnalysis,PLDA)模型进行打分处理,选择得分最高并且大于阈值的语种作为最终识别语种。
上述技术方案的有益效果为:提供了对待检测语音数据进行语种识别,得到语种识别结果的具体步骤。
在一个实施例中,所述步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果执行以下步骤:
步骤S31:对所述初始评测得分和评测总分阈值进行比较,若所述初始评测得分小于所述评测总分阈值,则执行步骤S32,若所述初始评测得分大于等于所述评测总分阈值,则执行步骤S34;
步骤S32:若所述语种识别结果和评测要求的语种不一致,则执行步骤S33,若所述语种识别结果和评测要求的语种一致,则执行步骤S34;
步骤S33:将所述初始评测得分重置为零分,作为所述语音评测结果;
步骤S34:将所述初始评测得分作为所述语音评测结果。
上述技术方案的工作原理为:图4示出了根据初始评测得分和语种识别结果,得到语音评测结果的语种识别的流程示意图,若经过步骤1得到的初始评测得分小于评测总分阈值,则触发第二步语种识别,若语种识别结果不是当前语音评测所规定的语种,则将该句的初始评测得分重置为0分,作为语音评测结果,并且将该句中所有单词层级的置信分数和所有音素层级的置信分数都重置为0分;若语种识别结果为语音评测所要求语种则保持原来句子的初始评测得分;若第一步句子总分大于等于阈值则不触发语种识别,保持原来句子得分。
综上,可以通过以下公式确定语音评测结果,
Figure BDA0002621986060000111
其中,score表示语音评测总分,Sthreshold表示评测总分阈值。
上述技术方案的有益效果为:提供了根据初始评测得分和语种识别结果,得到语音评测结果的具体步骤,基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测系统要求的语种发音时又不影响评测打分。
如图2所示,本发明实施例提供了一种借助语种识别辅助语音评测的系统,包括:
初始评测得分计算模块201,用于根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
语种识别模块202,用于对所述待检测语音数据进行语种识别,得到语种识别结果;
语音评测模块203,用于根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
上述技术方案的工作原理为:所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
具体地,本发明采用基于多层级分数映射的技术,利用初始评测得分计算模块201根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;利用语种识别模块202对待检测语音数据进行语种识别,得到语种识别结果;利用语音评测模块203根据初始评测得分和语种识别结果,得到语音评测结果。
上述技术方案的有益效果为:初始评测得分计算模块基于多层级分数映射的方法,得到初始评测得分,更能精确地描述学习者实际发音水平;同时,语音评测模块基于语种识别和评测融合的方法,可以覆盖学习者说另一语种不能打零分的情况,而当学习者按照评测系统要求的语种发音时又不影响评测打分。
在一个实施例中,所述初始评测得分计算模块201包括:
音素层级计算单元,用于提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
单词层级计算单元,用于根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
句子层级计算单元,用于根据所述单词层级的置信分数和所述单词层级后验概率打零分的后验概率的加权平均,得到句子层级的分数,并统计句子中单词比例;
初始评测得分计算单元,用于根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
上述技术方案的工作原理为:音素层级计算单元根据以下公式确定所述音素层级的GOP后验概率:
Figure BDA0002621986060000131
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合;
音素层级计算单元基于语音识别网络,通过前后向算法获得所述音素层级的置信分数picm,picm表示第i个音素的置信分数;
单词层级计算单元根据以下公式确定所述单词层级的后验概率,
Figure BDA0002621986060000132
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
单词层级计算单元根据以下公式确定所述单词层级的置信分数,
Figure BDA0002621986060000141
其中,Wkcm表示第k个单词的置信分数;
句子层级计算单元根据以下公式确定所述句子层级的分数,
Figure BDA0002621986060000142
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,
Figure BDA0002621986060000148
β分别为加权系数,满足M>0,
Figure BDA0002621986060000149
0≤β≤1,且
Figure BDA00026219860600001410
句子层级计算单元根据以下公式统计句子中单词后验概率打零分的比例,
Figure BDA0002621986060000143
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数;
初始评测得分计算单元根据以下公式确定句子的初始评测得分,
Figure BDA0002621986060000144
其中,t1表示zmatch阈值,t2表示Sr阈值。
上述技术方案的有益效果为:借助于音素层级计算单元、单词层级计算单元、句子层级计算单元和初始评测得分计算单元,可以得到初始评测得分,基于多层级分数映射的方法,分别计算了后验概率和置信分数两个特征,通过加权和的方式更能精确的描述学习者实际发音水平;更进一步结合了打零分单词比例这一特征,一定程度上可以覆盖按照规定语种乱说的情况。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种借助语种识别辅助语音评测的方法,其特征在于,所述方法执行以下步骤:
步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果;
步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
2.如权利要求1所述的方法,其特征在于,在所述步骤1中,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元。
3.如权利要求2所述的方法,其特征在于,所述步骤1:根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分执行以下步骤:
步骤S11:提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
步骤S12:根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
步骤S13:根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
步骤S14:根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
4.如权利要求3所述的方法,其特征在于,在所述步骤S11中,根据以下公式确定所述音素层级的GOP后验概率:
Figure FDA0002621986050000011
其中,GOP(pi)表示第i个音素的GOP后验概率,ts表示音素的起始时间,te表示音素的结束时间,P(Oi|pi;ts,te)表示第i个观测矢量Oi在模型pi下的似然分数,按照强制对齐从解码路径中获得,maxq∈QP(Oi|q;ts,te)按照文本相关的音素循环网络近似获得,Q表示参考文本中所有音素模型的集合;
在所述步骤S11中,基于语音识别网络,通过前后向算法获得所述音素层级的置信分数picm,picm表示第i个音素的置信分数;
在所述步骤S12中,根据以下公式确定所述单词层级的后验概率,
Figure FDA0002621986050000021
其中,Wk表示第k个单词的后验概率,N表示单词所含音素个数;
在所述步骤S12中,根据以下公式确定所述单词层级的置信分数,
Figure FDA0002621986050000022
其中,Wkcm表示第k个单词的置信分数;
在所述步骤S13中,根据以下公式确定所述句子层级的分数,
Figure FDA0002621986050000023
其中,Sr表示第r个句子的置信分数;M表示句子中的单词个数,
Figure FDA0002621986050000024
β分别为加权系数,满足M>0,
Figure FDA0002621986050000028
0≤β≤1,且
Figure FDA0002621986050000025
在所述步骤S13中,根据以下公式统计句子中单词后验概率打零分的比例,
Figure FDA0002621986050000026
其中,zmatch表示句子中单词后验概率打零分的比例,IntegrityAll=Count(Wmatch+Wdel+Wsub),IntegrityAll表示依据DTW算法计算识别结果和参考文本中匹配的、删除的和替换的单词总个数;
在所述步骤S14中,根据以下公式确定句子的初始评测得分,
Figure FDA0002621986050000027
其中,t1表示zmatch阈值,t2表示Sr阈值。
5.如权利要求1所述的方法,其特征在于,所述步骤2:对所述待检测语音数据进行语种识别,得到语种识别结果执行以下步骤:
步骤S21:将待检测语音转化为语种向量,其中所述语种向量代表语种信息;
步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量对比,得到语种识别结果。
6.如权利要求5所述的方法,其特征在于,所述步骤S21:将待检测语音转化为语种向量执行以下步骤:
步骤S211:将所述待检测语音经过语音活动检测处理,以剔除所述待检测语音中的静音部分;
步骤S212:提取经过语音活动检测处理的所述待检测语音中的声学特征序列;
步骤S213:采用x-vector提取器,从所述声学特征序列中提取固定长度的向量,得到所述语种向量。
7.如权利要求5所述的方法,其特征在于,所述步骤S22:根据所述语种向量和与各语种模型对应的模型语种向量,得到语种识别结果执行以下步骤:
步骤S221:分别对所述语种向量和所述模型语种向量进行降维处理和规整处理;
步骤S222:将经过降维处理和规整处理的所述语种向量和所述模型语种向量,经过训练好的概率线性判别分析模型进行打分处理,得到与各语种对应的得分;
步骤S223:选择得分最高并且大于语种阈值的语种,作为所述语种识别结果。
8.如权利要求1所述的方法,其特征在于,所述步骤3:根据所述初始评测得分和所述语种识别结果,得到语音评测结果执行以下步骤:
步骤S31:对所述初始评测得分和评测总分阈值进行比较,若所述初始评测得分小于所述评测总分阈值,则执行步骤S32,若所述初始评测得分大于等于所述评测总分阈值,则执行步骤S34;
步骤S32:若所述语种识别结果和评测要求的语种不一致,则执行步骤S33,若所述语种识别结果和评测要求的语种一致,则执行步骤S34;
步骤S33:将所述初始评测得分重置为零分,作为所述语音评测结果;
步骤S34:将所述初始评测得分作为所述语音评测结果。
9.一种借助语种识别辅助语音评测的系统,其特征在于,包括:
初始评测得分计算模块,用于根据基于待检测语音数据所建立的多层级声学建模单元的分数映射,得到初始评测得分;
语种识别模块,用于对所述待检测语音数据进行语种识别,得到语种识别结果;
语音评测模块,用于根据所述初始评测得分和所述语种识别结果,得到语音评测结果。
10.如权利要求9所述的系统,其特征在于,所述多层级声学建模单元包括:音素层级建模单元、单词层级建模单元和句子层级建模单元;
对应地,所述初始评测得分计算模块包括:
音素层级计算单元,用于提取所述待检测语音数据中的声学特征,经过语音识别网络计算,得到音素层级的GOP后验概率和音素层级的置信分数;
单词层级计算单元,用于根据所述音素层级的GOP后验概率的平均值,得到单词层级的后验概率,根据所述音素层级的置信分数的平均值,得到单词层级的置信分数;
句子层级计算单元,用于根据所述单词层级的置信分数和所述单词层级的后验概率的加权平均,得到句子层级的分数,并统计句子中单词后验概率打零分的比例;
初始评测得分计算单元,用于根据所述句子层级的分数和所述句子中单词后验概率打零分的比例,得到句子的初始评测得分。
CN202010785964.7A 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及系统 Active CN111986650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010785964.7A CN111986650B (zh) 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010785964.7A CN111986650B (zh) 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及系统

Publications (2)

Publication Number Publication Date
CN111986650A true CN111986650A (zh) 2020-11-24
CN111986650B CN111986650B (zh) 2024-02-27

Family

ID=73444525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010785964.7A Active CN111986650B (zh) 2020-08-07 2020-08-07 借助语种识别辅助语音评测的方法及系统

Country Status (1)

Country Link
CN (1) CN111986650B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035237A (zh) * 2021-03-12 2021-06-25 平安科技(深圳)有限公司 语音测评方法、装置和计算机设备
CN113096690A (zh) * 2021-03-25 2021-07-09 北京儒博科技有限公司 一种发音评测方法、装置、设备及存储介质
CN115188366A (zh) * 2022-05-12 2022-10-14 广州云趣信息科技有限公司 基于深度学习的语种识别方法、装置、可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090258333A1 (en) * 2008-03-17 2009-10-15 Kai Yu Spoken language learning systems
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
US20110123965A1 (en) * 2009-11-24 2011-05-26 Kai Yu Speech Processing and Learning
CN102214462A (zh) * 2011-06-08 2011-10-12 北京爱说吧科技有限公司 用于发音评估的方法和系统
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及系统
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及系统、口语评测方法及系统
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN108648766A (zh) * 2018-08-01 2018-10-12 云知声(上海)智能科技有限公司 语音评测方法及系统
CN110648690A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器
WO2020027394A1 (ko) * 2018-08-02 2020-02-06 미디어젠 주식회사 음소 단위 발음 정확성 평가 장치 및 평가 방법
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
US20200219413A1 (en) * 2017-09-26 2020-07-09 Nippon Telegraph And Telephone Corporation Pronunciation error detection apparatus, pronunciation error detection method and program
CN111462729A (zh) * 2020-03-31 2020-07-28 因诺微科技(天津)有限公司 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090258333A1 (en) * 2008-03-17 2009-10-15 Kai Yu Spoken language learning systems
US20110123965A1 (en) * 2009-11-24 2011-05-26 Kai Yu Speech Processing and Learning
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
CN102214462A (zh) * 2011-06-08 2011-10-12 北京爱说吧科技有限公司 用于发音评估的方法和系统
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及系统
CN103761975A (zh) * 2014-01-07 2014-04-30 苏州思必驰信息科技有限公司 一种口语评测方法及装置
CN104464757A (zh) * 2014-10-28 2015-03-25 科大讯飞股份有限公司 语音评测方法和语音评测装置
CN104318921A (zh) * 2014-11-06 2015-01-28 科大讯飞股份有限公司 音段切分检测方法及系统、口语评测方法及系统
US20200219413A1 (en) * 2017-09-26 2020-07-09 Nippon Telegraph And Telephone Corporation Pronunciation error detection apparatus, pronunciation error detection method and program
CN108648766A (zh) * 2018-08-01 2018-10-12 云知声(上海)智能科技有限公司 语音评测方法及系统
WO2020027394A1 (ko) * 2018-08-02 2020-02-06 미디어젠 주식회사 음소 단위 발음 정확성 평가 장치 및 평가 방법
CN110895932A (zh) * 2018-08-24 2020-03-20 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
CN110648690A (zh) * 2019-09-26 2020-01-03 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器
CN111462729A (zh) * 2020-03-31 2020-07-28 因诺微科技(天津)有限公司 基于音素对数似然比和稀疏表征的快速语种识别方法
CN111462735A (zh) * 2020-04-10 2020-07-28 网易(杭州)网络有限公司 语音检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈灏: "基于语音识别的语种识别研究", 设备管理与维修, no. 17, pages 15 - 16 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113035237A (zh) * 2021-03-12 2021-06-25 平安科技(深圳)有限公司 语音测评方法、装置和计算机设备
CN113096690A (zh) * 2021-03-25 2021-07-09 北京儒博科技有限公司 一种发音评测方法、装置、设备及存储介质
CN115188366A (zh) * 2022-05-12 2022-10-14 广州云趣信息科技有限公司 基于深度学习的语种识别方法、装置、可读存储介质

Also Published As

Publication number Publication date
CN111986650B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN105845134B (zh) 自由朗读题型的口语评测方法及系统
CN109545243B (zh) 发音质量评价方法、装置、电子设备及存储介质
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
Hu et al. A new DNN-based high quality pronunciation evaluation for computer-aided language learning (CALL).
CN111986650B (zh) 借助语种识别辅助语音评测的方法及系统
Witt et al. Language learning based on non-native speech recognition.
CN108766415B (zh) 一种语音测评方法
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN102122507A (zh) 一种运用人工神经网络进行前端处理的语音检错方法
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Xiao et al. Paired phone-posteriors approach to ESL pronunciation quality assessment
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Hori NTT Speech recognizer with OutLook On the Next generation: SOLON
Abdou et al. Enhancing the confidence measure for an Arabic pronunciation verification system
KR100327486B1 (ko) 스테이트별 가중치를 적용한 음성 인식 장치 및 방법
Cordoba et al. Language Identification based on n-gram Frequency Ranking
Aşlyan Syllable Based Speech Recognition
Tan et al. Integration of articulatory knowledge and voicing features based on DNN/HMM for Mandarin speech recognition
Lin et al. Gated fusion of handcrafted and deep features for robust automatic pronunciation assessment
KR100586045B1 (ko) 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법
Taguchi et al. Learning lexicons from spoken utterances based on statistical model selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant