CN115985342A - 发音检错方法、装置、电子设备和存储介质 - Google Patents
发音检错方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115985342A CN115985342A CN202211714461.6A CN202211714461A CN115985342A CN 115985342 A CN115985342 A CN 115985342A CN 202211714461 A CN202211714461 A CN 202211714461A CN 115985342 A CN115985342 A CN 115985342A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- text
- phoneme sequence
- speech
- error detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种发音检错方法、装置、电子设备和存储介质,该方法包括:获取朗读文本和朗读语音;对所述朗读语音进行音素序列识别,得到语音音素序列;将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。本发明提供的方法、装置、电子设备和存储介质,通过对齐语音音素序列和朗读文本的文本音素序列,获取文本音素序列中各音素的错读类型概率分布,并结合文本音素序列、语音特征和错读类型概率分布进行发音检错,能够有效提高检错性能,避免漏检问题。
Description
技术领域
本发明涉及计算机辅助发音训练技术领域,尤其涉及一种发音检错方法、装置、电子设备和存储介质。
背景技术
在发音训练过程中,学习者被要求朗读准备好的朗读文本,CAPT(Computer-Assisted Pronunciation Training,计算机辅助发音训练)系统可以根据朗读语音和朗读文本,来检测朗读语音中存在的发音错误并给出适当的反馈。
目前,主流的发音检错方法是基于强制对齐(Force alignment)技术的方法,该方法需要预先搭建可能的错误解码路径,但是由于错误解码路径难以穷举,存在检错效果差、诊断不完备的问题。
发明内容
本发明提供一种发音检错方法、装置、电子设备和存储介质,用以解决现有技术中发音检错效果不佳的缺陷。
本发明提供一种发音检错方法,包括:
获取朗读文本和朗读语音;
对所述朗读语音进行音素序列识别,得到语音音素序列;
将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;
基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
根据本发明提供的一种发音检错方法,所述基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错,包括:
基于所述文本音素序列中各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定文本特征;
基于所述文本特征和所述语音特征之间的相关度,确定融合特征;
基于所述融合特征,进行发音检错。
根据本发明提供的一种发音检错方法,所述基于所述文本音素序列中各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定文本特征,包括:
基于所述各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定所述各音素的音素特征;
基于所述各音素的音素特征之间的相关度,进行音素特征交互,得到所述各音素的交互音素特征作为所述文本特征。
根据本发明提供的一种发音检错方法,所述对所述朗读语音进行音素序列识别,得到语音音素序列,包括:
基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述朗读语音的语音特征;
对所述朗读语音的语音特征进行音素识别和序列解码,得到所述语音音素序列。
根据本发明提供的一种发音检错方法,所述基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述朗读语音的语音特征,包括:
基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述各帧的基础特征;
基于所述各帧的基础特征之间的相关度,进行基础特征交互,得到所述各帧的高阶特征作为所述语音特征。
根据本发明提供的一种发音检错方法,所述将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布,包括:
将各语音音素序列分别与所述文本音素序列对齐,得到分别对应各语音音素序列的音素检错结果;
基于所述分别对应各语音音素序列的音素检错结果中各音素的错读类型,统计得到所述文本音素序列中各音素的错读类型概率分布。
根据本发明提供的一种发音检错方法,所述进行发音检错,包括:
进行发音对错分类、发音错误类型识别,以及错读内容诊断中的至少一种。
本发明还提供一种发音检错装置,包括:
获取单元,用于获取朗读文本和朗读语音;
识别单元,用于对所述朗读语音进行音素序列识别,得到语音音素序列;
对齐单元,用于将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;
检错单元,用于基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述发音检错方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述发音检错方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述发音检错方法。
本发明提供的发音检错方法、装置、电子设备和存储介质,通过对齐语音音素序列和朗读文本的文本音素序列,获取文本音素序列中各音素的错读类型概率分布,并结合文本音素序列、语音特征和错读类型概率分布进行发音检错,能够有效提高检错性能,避免漏检问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的发音检错方法的流程示意图之一;
图2是本发明提供的发音检错方法中步骤140的流程示意图;
图3是本发明提供的发音检错方法中步骤120的流程示意图;
图4是本发明提供的发音检错方法的流程示意图之二;
图5是本发明提供的发音检错和诊断模型的结构示意图;
图6是本发明提供的发音检错装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,用于发音检错的方法主要分为两类:
第一类,基于强制对齐技术的方法,该方法首先根据朗读文本生成可能的发音路径,然后根据声学模型解码出得分最高的路径,在此路径上结合声学模型输出,计算音素似然度、似然度比或者GOP(Goodness of Pronunciation,发音优度)等音素置信度,从而得到音段级的发音检测结果。然而,该方法的实现,需要预先搭建可能的错误解码路径,由于错误解码路径难以穷举,存在检错效果差、诊断不完备的问题。
第二类,基于深度神经网络训练音素识别网络,根据得到的音素识别结果与目标音素序列对齐来检测发音情况。其中,音素识别网络的实现需要建模细粒度的音素信息,受限于音段级建模复杂度高的问题,该方法在音段级的检错和诊断效果并不好。
为了优化发音检错效果,本发明提供一种发音检错方法。图1是本发明提供的发音检错方法的流程示意图之一,如图1所示,该方法包括:
步骤110,获取朗读文本和朗读语音。
此处,朗读文本为待检错的朗读语音对应的文本。朗读语音是针对用户基于朗读文本进行朗读发音进行采集录制所得的语音数据,即需要进行发音检错的语音。
步骤120,对所述朗读语音进行音素序列识别,得到语音音素序列。
具体地,针对获取到的用于发音检错的朗读语音,可以通过音素序列识别,获取朗读语音所对应的音素序列。此处,为了与朗读文本所对应的音素序列作区分,将朗读语音所对应的音素序列记为语音音素序列,将朗读文本所对应的音素序列记为文本音素序列。
语音音素序列的获取,可以通过音素识别算法,例如常规的语音识别算法实现。在对朗读语音进行语音识别的过程中,通常可以先获取朗读语音的语音音素序列,随即基于语音音素序列确定识别文本,即语音音素序列可以视为对朗读语音进行语音识别的中间结果。例如,可以通过常见的语音识别算法CTC(Connectionist Temporal Classification)获取朗读语音的语音音素序列。可以理解的是,针对朗读语音进行音素序列识别,可能得到多个音素序列,此时可以选取按照置信度排序的前预设数量个音素序列,作为语音音素序列,例如可以选取top5或者top3的音素序列作为语音音素序列。
步骤130,将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布。
具体地,语音音素序列和文本音素序列分别来源于朗读语音和朗读文本,语音音素序列能够反映实际朗读时的发音情况,文本音素序列则反映标准的发音情况。通过对齐语音音素序列和文本音素序列,能够实现实际朗读的发音情况与标准的发音情况之间的比对,从而确定出文本音素序列中的各音素的错读类型概率分布。
可以理解的是,针对音素序列识别得到的多个语音音素序列,可以分别与文本音素序列进行对齐比对,通过统计每个语音音素序列与文本音素序列进行对齐比对中存在的错读类型,即可确定文本音素序列中的各音素的错读类型概率分布。此处,文本音素序列中的各音素的错读类型概率分布,用于反映文本音素序列中的各音素是否存在发音错误,具体存在何种发音错误,以及存在各种发音错误的概率。
步骤140,基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
具体地,朗读语音的语音特征,可以是在对朗读语音进行音素序列识别过程中提取的中间特征,可以理解的是,语音特征同样涵盖了朗读语音的发音情况。
在得到错读类型概率分布之后,即可结合能够反映标准发音情况的文本音素序列,反映实际发音情况的朗读语音的语音特征,以及反映可能存在的发音错误的错误类型概率分布,进行发音检错。在此过程中,可以将上述文本音素序列、语音特征和错读类型概率分布进行融合编码后送入分类器,以获取分类结果,例如是否存在错读、错读类型、错读诊断内容等。
本发明实施例提供的方法,通过对齐语音音素序列和朗读文本的文本音素序列,获取文本音素序列中各音素的错读类型概率分布,并结合文本音素序列、语音特征和错读类型概率分布进行发音检错,能够有效提高检错性能,避免漏检问题。
可以理解的是,本发明实施例提供的方法,无需枚举可能的错误解码路径,因此能够规避漏检问题,并且也无需进行音段级建模,因此不受音段级建模的复杂度限制,由此能够保证检错效果。
基于上述实施例,图2是本发明提供的发音检错方法中步骤140的流程示意图,如图2所示,步骤140包括:
步骤141,基于所述文本音素序列中各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定文本特征。
具体地,文本音素序列中的各音素本身,能够反映标准发音情况,对文本音素序列中的各音素进行编码,并与各音素的错读类型概率分布以及各音素在文本音素序列中的位置的编码进行融合,可以为发音检错提供丰富的先验信息,从而提高发音检错的准确率。
此处的文本特征,可以是将文本音素序列中的各音素的音素编码与各音素的错读类型概率分布和位置编码进行叠加得到,也可以是在叠加各音素的音素编码、错读类型概率分布和位置编码的基础上,针对各音素的叠加特征做进一步的特征提取得到,本发明实施例对此不具体限定。
步骤142,基于所述文本特征和所述语音特征之间的相关度,确定融合特征。
步骤143,基于所述融合特征,进行发音检错。
具体地,在得到文本特征之后,可以计算文本特征与语音特征之间的相关度。可以理解的是,此处的相关度能够反映出针对各音素,标准发音和实际发音之间的关联性。基于相关度对文本特征和语音特征融合,即可得到能够反映标准发音和实际发音之间差异的融合特征。此处,文本特征和语音特征之间的相关度,可以通过注意力机制进行特征交互得到。
在得到融合特征之后,即可基于融合特征进行发音检错。例如可以将融合特征输入到分类器中,以获取分类器针对融合特征进行发音检错分类的分类结果。
本发明实施例提供的方法,通过融合文本音素序列中各音素本身,以及各音素的错读类型概率分布和各音素在文本音素序列中的位置,得到包含了丰富的先验信息的文本特征,基于此进行发音检错,能够有效提高发音检错的可靠性。
基于上述任一实施例,步骤141包括:
基于所述各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定所述各音素的音素特征;
基于所述各音素的音素特征之间的相关度,进行音素特征交互,得到所述各音素的交互音素特征作为所述文本特征。
具体地,针对文本音素序列中各音素的音素编码与各音素的错读类型概率分布和位置编码的融合,可以先以音素为单位,针对单一音素,将单一音素的音素编码、错读类型概率分布和位置编码进行融合,从而得到单一音素的音素特征。此处,将单一音素的音素编码、错读类型概率分布和位置编码进行融合,可以是对单一音素的音素编码、错读类型概率分布和位置编码进行特征累加,或者对单一音素的音素编码、错读类型概率分布和位置编码进行特征拼接,再或者在特征累加或者拼接的基础上做进一步的特征提取,本发明实施例对此不作具体限定。
在得到各音素的音素特征之后,可以计算各音素的音素特征之间的相关度。基于各音素的音素特征之间的相关度,进行音素特征交互,能够提升视野,使得不同位置的音素特征能够相互关注,由此得到的各音素的交互音素特征,相较于原先的音素特征,还涵盖了其他位置的音素的相关信息。在得到各音素的交互音素特征之后,即可将文本音素序列中各音素的交互音素特征整体作为文本特征。
基于上述任一实施例,图3是本发明提供的发音检错方法中步骤120的流程示意图,如图3所示,步骤120包括:
步骤121,基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述朗读语音的语音特征。
步骤122,对所述朗读语音的语音特征进行音素识别和序列解码,得到所述语音音素序列。
具体地,朗读语音中各帧的声学特征,可以通过信号处理工具获取得到,此处的声学特征可以是Filterbank特征,也可以是梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)特征或感知线性预测(Perceptual Linear Predictive,PLP)特征等。
通过各帧的声学特征和各帧在朗读语音中的位置的联合编码,可以提取到高阶的声学信息及语言信息,即得到朗读语音的语音特征。
在得到朗读语音的语音特征之后,即可应用语音特征进行音素识别,即应用语音特征进行音素分类,并且在此之后,基于音素识别的结果进行序列解码,以获取语音音素序列。此处,序列解码可以采用Beam search或者其他解码方式实现,通过音素解码所得的多个音素序列中,可以选取按照置信度排序的前预设数量个音素序列,作为语音音素序列,例如可以选取top5或者top3的音素序列作为语音音素序列,由此获取丰富的语音和语义信息。
基于上述任一实施例,步骤121包括∶
基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述各帧的基础特征;
基于所述各帧的基础特征之间的相关度,进行基础特征交互,得到所述各帧的高阶特征作为所述语音特征。
具体地,针对朗读语音中各帧的声学特征和位置的融合,可以先以帧为单位,针对单一帧,将单一帧的声学特征和位置的编码进行融合,从而得到单一帧的基础特征。在此过程中,可以将对单一帧的声学特征做特征提取,以降低特征维度,从而降低后续计算的复杂度,随后将对声学特征提取的特征与单一帧的位置编码进行叠加或者拼接,从而得到单一帧的基础特征。
在得到各帧的基础特征之后,可以计算各帧的基础特征之间的相关度,进而基于各帧的基础特征之间的相关度,进行基础特征交互,从而提取高阶的声学及语言信息,即,得到各帧的高阶特征,并且将各帧的高阶特征的整体作为语音特征。此处,基础特征交互可以通过注意力机制实现,例如可以通过多层级联的注意力模块实现,此处的注意力模块可以包含注意力层、卷积层和反卷积层。
基于上述任一实施例,步骤130包括:
将各语音音素序列分别与所述文本音素序列对齐,得到分别对应各语音音素序列的音素检错结果;
基于所述分别对应各语音音素序列的音素检错结果中各音素的错读类型,统计得到所述文本音素序列中各音素的错读类型概率分布。
具体地,针对音素序列识别所得的多个语音音素序列,可以分别将各语音音素序列与文本音素序列进行编辑对齐,从而得到与各语音音素序列分别对应的音素检测结果。针对任一语音音素序列而言,阈值对应的音素检测结果,可以体现为文本语音序列中的每个音素是否被错读,以及错读类型。
在得到与各语音音素序列分别对应的音素检测结果之后,即可统计与各语音音素序列分别对应的音素检错结果中各音素的错读类型,从而得到文本音素序列中的各音素的错读类型概率分布。
例如,假设存在5个语音音素序列,5个语音音素序列分别与文本音素序列进行对齐,即可得到下表示出的5个语音音素序列分别对应的音素检测结果。
表中,音素检测结果中的编码,0表示正确朗读、1表示错读为非相似发音、2表示错读为相似发音、3表示漏读、4表示词尾吞音、5表示前增读、6表示后增读。以语音音素序列3与文本音素序列对齐来看,相较于语音音素序列3,文本音素序列中的第一个和第三个音素h、l均正确朗读,第二个音素被错读为非相似发音,第四个音素未读出,即存在词尾吞音,由此可以将语音音素序列3对应的音素检测结果编码为0104。
在得到语音音素序列1-5分别对应的音素检测结果之后,即可对文本音素序列中每个音素在音素检测结果中对应的错读类型进行统计,从而得到每个音素的错读类型概率分布。以文本音素序列中最后一个音素为例,在5个语音音素序列分别对应的音素检测结果中的错误类型分别为0、0、4、1、0,统计可知,存在0.6的概率对应错误类型0,即正确朗读,存在0.2的概率对应错误类型1,即错读为非相似发音,还存在0.2的概率对应错误类型4,即词尾吞音,由此可以得到的错读类型概率分布,即分别对应错误类型编码0-6的概率,[0.6 0.2 0 0 0.2 0 0]T。
基于上述任一实施例,步骤140中,所述进行发音检错,包括:
进行发音对错分类、发音错误类型识别,以及错读内容诊断中的至少一种。
具体地,在基于文本音素序列、错读类型概率分布以及朗读语音的语音特征进行发音检错时,可以有选择地进行发音对错分类、发音错误类型识别,以及错读内容诊断中的至少一种。其中,发音对错分类用于预测每个音素的发音正确与否,可以通过二分类实现;发音错误类型识别用于预测每个音素的发音错误类型,例如可以通过七分类输出,此处的七分类分别对应正确朗读、错读为非相似发音、错读为相似发音、漏读、词尾吞音、前增读、后增读;错读内容诊断用于在预测某个音素存在错读的情况下,预测该音素的真实朗读音素,还可以预测该音素的真实朗读音素的类型,例如前元音、中元音、后元音、开合双元音、集中双元音、爆破音、摩擦音、破擦音、鼻音、舌侧音和半元音11种类型中的一种。
可以理解的是,本发明实施例在发音检错时进行发音对错分类、发音错误类型识别,以及错读内容诊断中的至少一种,可以获取到不同粒度的检错信息,由此为用户提供更加丰富、更加全面的检错信息。
基于上述任一实施例,图4是本发明提供的发音检错方法的流程示意图之二,如图4所示,首先获取朗读文本和朗读语音,针对朗读文本,可以对朗读文本进行文本预处理,从而将朗读文本的单词序列转换为文本音素序列,用于输入到后面的发音检错和诊断模型。具体可以清洗朗读文本,去掉标点保留单词序列,然后根据发音词典将单词序列转换为音素序列,根据音素映射词典将音素序列转换为数字编码序列,作为文本音素序列。
针对朗读语音,可以提取朗读语音的声学特征,用于输入到后面的发音检错和诊断模型。
在得到朗读文本的文本音素序列和朗读语音的声学特征之后,可以将此两者输入到发音检错和诊断模型,由发音检错和诊断模型基于声学特征进行音素序列识别,得到语音音素序列,并将语音音素序列和文本音素序列对齐,以获取文本音素序列中各音素的错读类型概率分布,最后基于文本音素序列、错读类型概率分布以及基于声学特征确定的语音特征,进行发音检错。
图5是本发明提供的发音检错和诊断模型的结构示意图,如图5所示,针对输入的朗读语音的声学特征,可以先通过卷积神经网络CNN提取基础声学信息并且降低特征维度以降低计算复杂度,然后将CNN提取的特征叠加位置编码后,输入到编码器Encoder中提取高阶的声学及语言信息,由此得到语音特征。此处,编码器Encoder可以包含多层级联的attention子模块,该attention子模块主要由attention、卷积和反卷积组成。语音特征经过一层线性层linear和softmax做音素分类,并在前向推理阶段采用Beam search做解码,以获取语音音素序列识别的top5种音素识别序列,作为语音音素序列。
针对输入的朗读文本的文本音素序列,可以与语音音素序列进行编码操作对齐,以获取文本音素序列中各音素的错读类型概率分布,通过Error Prob Embedding将错读类型概率分布映射到512维,并与音素Embedding和位置编码Position Embedding累加在一起输入到解码器Decoder。此处,音素Embeding指每种音素的矢量表示,Position Embeding表示位置矢量表示,三者累加在一起可以为模型提供更多先验信息,例如检错信息和音素的位置信息,有利于模型进行准确的检错及诊断判断。在解码器Decoder中,可以先经过两层多头自注意力模块Masked Multi-head attention,该模块作用是提升模型的视野,让不同位置的输入信息相关关注。随后多头自注意力模块的输出与Encoder提取的语音特征进行交互,去关注每个音素的相应的声学信息以及提取有利于检错和诊断的信息,最终经过PostionwiseFFN后分别接三个分类器来进行检错和诊断信息预测。其中,第一个分类器用于实现发音对错分类,输出为二分类,可以通过一层DNN实现。第二个分类器用于实现发音错误类型识别,输出为7分类,目的是预测更细粒度的检错信息,例如正确朗读、错读为相似发音、漏读等,可以通过1层DNN实现。第三个分类器用于实现错读内容诊断,输出为11分类的诊断输出,即当模型预测该音素为错读时,预测其真实的发音音素类型,可以通过1层DNN实现。
本发明实施例提供的方法,可获取不同粒度的检错信息,例如正确、错读为非相似音、错读为相似音、漏读、词尾吞音、前增读和后增读。并且,该方法不仅可以实现多错读类型的判断,还可以对错读音素内容做进一步诊断,可以获取真实的朗读音素类型,例如前元音、中元音、后元音、开合双元音、集中双元音、爆破音、摩擦音、破擦音、鼻音、舌侧音和半元音11种类型。该方法不仅限于英文口语朗读检错,对于中文口语朗读检错也同样适用。
基于上述任一实施例,图6是本发明提供的发音检错装置的结构示意图,如图6所示,该装置包括:
获取单元610,用于获取朗读文本和朗读语音;
识别单元620,用于对所述朗读语音进行音素序列识别,得到语音音素序列;
对齐单元630,用于将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;
检错单元640,用于基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
本发明实施例提供的装置,通过对齐语音音素序列和朗读文本的文本音素序列,获取文本音素序列中各音素的错读类型概率分布,并结合文本音素序列、语音特征和错读类型概率分布进行发音检错,能够有效提高检错性能,避免漏检问题。
基于上述任一实施例,检错单元用于:
基于所述文本音素序列中各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定文本特征;
基于所述文本特征和所述语音特征之间的相关度,确定融合特征;
基于所述融合特征,进行发音检错。
基于上述任一实施例,检错单元用于:
基于所述各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定所述各音素的音素特征;
基于所述各音素的音素特征之间的相关度,进行音素特征交互,得到所述各音素的交互音素特征作为所述文本特征。
基于上述任一实施例,识别单元用于:
基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述朗读语音的语音特征;
对所述朗读语音的语音特征进行音素识别和序列解码,得到所述语音音素序列。
基于上述任一实施例,识别单元用于:
基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述各帧的基础特征;
基于所述各帧的基础特征之间的相关度,进行基础特征交互,得到所述各帧的高阶特征作为所述语音特征。
基于上述任一实施例,对齐单元用于:
将各语音音素序列分别与所述文本音素序列对齐,得到分别对应各语音音素序列的音素检错结果;
基于所述分别对应各语音音素序列的音素检错结果中各音素的错读类型,统计得到所述文本音素序列中各音素的错读类型概率分布。
基于上述任一实施例,检错单元用于:
进行发音对错分类、发音错误类型识别,以及错读内容诊断中的至少一种。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行发音检错方法,该方法包括:获取朗读文本和朗读语音;对所述朗读语音进行音素序列识别,得到语音音素序列;将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的发音检错方法,该方法包括:获取朗读文本和朗读语音;对所述朗读语音进行音素序列识别,得到语音音素序列;将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的发音检错方法,该方法包括:获取朗读文本和朗读语音;对所述朗读语音进行音素序列识别,得到语音音素序列;将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种发音检错方法,其特征在于,包括:
获取朗读文本和朗读语音;
对所述朗读语音进行音素序列识别,得到语音音素序列;
将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;
基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
2.根据权利要求1所述的发音检错方法,其特征在于,所述基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错,包括:
基于所述文本音素序列中各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定文本特征;
基于所述文本特征和所述语音特征之间的相关度,确定融合特征;
基于所述融合特征,进行发音检错。
3.根据权利要求2所述的发音检错方法,其特征在于,所述基于所述文本音素序列中各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定文本特征,包括:
基于所述各音素本身,以及所述各音素的错读类型概率分布和所述各音素在所述文本音素序列中的位置,确定所述各音素的音素特征;
基于所述各音素的音素特征之间的相关度,进行音素特征交互,得到所述各音素的交互音素特征作为所述文本特征。
4.根据权利要求1所述的发音检错方法,其特征在于,所述对所述朗读语音进行音素序列识别,得到语音音素序列,包括:
基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述朗读语音的语音特征;
对所述朗读语音的语音特征进行音素识别和序列解码,得到所述语音音素序列。
5.根据权利要求4所述的发音检错方法,其特征在于,所述基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述朗读语音的语音特征,包括:
基于所述朗读语音中各帧的声学特征,以及所述各帧在所述朗读语音中的位置,确定所述各帧的基础特征;
基于所述各帧的基础特征之间的相关度,进行基础特征交互,得到所述各帧的高阶特征作为所述语音特征。
6.根据权利要求1所述的发音检错方法,其特征在于,所述将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布,包括:
将各语音音素序列分别与所述文本音素序列对齐,得到分别对应各语音音素序列的音素检错结果;
基于所述分别对应各语音音素序列的音素检错结果中各音素的错读类型,统计得到所述文本音素序列中各音素的错读类型概率分布。
7.根据权利要求1至6中任一项所述的发音检错方法,其特征在于,所述进行发音检错,包括:
进行发音对错分类、发音错误类型识别,以及错读内容诊断中的至少一种。
8.一种发音检错装置,其特征在于,包括:
获取单元,用于获取朗读文本和朗读语音;
识别单元,用于对所述朗读语音进行音素序列识别,得到语音音素序列;
对齐单元,用于将所述语音音素序列与所述朗读文本的文本音素序列对齐,得到所述文本音素序列中各音素的错读类型概率分布;
检错单元,用于基于所述文本音素序列、所述错读类型概率分布以及所述朗读语音的语音特征,进行发音检错。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述发音检错方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述发音检错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211714461.6A CN115985342A (zh) | 2022-12-29 | 2022-12-29 | 发音检错方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211714461.6A CN115985342A (zh) | 2022-12-29 | 2022-12-29 | 发音检错方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115985342A true CN115985342A (zh) | 2023-04-18 |
Family
ID=85973759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211714461.6A Pending CN115985342A (zh) | 2022-12-29 | 2022-12-29 | 发音检错方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115985342A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805495A (zh) * | 2023-08-17 | 2023-09-26 | 北京语言大学 | 基于大语言模型的发音偏误检测及动作反馈方法及系统 |
CN117393002A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市妙语教育科技有限公司 | 基于人工智能的朗读质量测评方法及相关装置 |
-
2022
- 2022-12-29 CN CN202211714461.6A patent/CN115985342A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116805495A (zh) * | 2023-08-17 | 2023-09-26 | 北京语言大学 | 基于大语言模型的发音偏误检测及动作反馈方法及系统 |
CN116805495B (zh) * | 2023-08-17 | 2023-11-21 | 北京语言大学 | 基于大语言模型的发音偏误检测及动作反馈方法及系统 |
CN117393002A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市妙语教育科技有限公司 | 基于人工智能的朗读质量测评方法及相关装置 |
CN117393002B (zh) * | 2023-12-11 | 2024-03-05 | 深圳市妙语教育科技有限公司 | 基于人工智能的朗读质量测评方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
JP5255769B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
CN106297828B (zh) | 一种基于深度学习的误发音检测的检测方法和装置 | |
CN115985342A (zh) | 发音检错方法、装置、电子设备和存储介质 | |
CN112257437B (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
KR20230147685A (ko) | 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습 | |
CN112599128A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
US11735166B2 (en) | Method and system for automatic speech recognition in resource constrained devices | |
KR20230158608A (ko) | 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습 | |
Tran et al. | Joint modeling of text and acoustic-prosodic cues for neural parsing | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 | |
US20230096821A1 (en) | Large-Scale Language Model Data Selection for Rare-Word Speech Recognition | |
CN113505611B (zh) | 在生成对抗中获得更好的语音翻译模型的训练方法和系统 | |
Barnard et al. | Real-world speech recognition with neural networks | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
CN114121018A (zh) | 语音文档分类方法、系统、设备及存储介质 | |
WO2010024052A1 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
Qiu et al. | Context-aware neural confidence estimation for rare word speech recognition | |
Bijwadia et al. | Text Injection for Capitalization and Turn-Taking Prediction in Speech Models | |
EP4325482A1 (en) | Method and system for visual context aware automatic speech recognition | |
US20230343332A1 (en) | Joint Segmenting and Automatic Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |