CN113327595B - 发音偏误检测方法、装置及存储介质 - Google Patents
发音偏误检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113327595B CN113327595B CN202110667154.6A CN202110667154A CN113327595B CN 113327595 B CN113327595 B CN 113327595B CN 202110667154 A CN202110667154 A CN 202110667154A CN 113327595 B CN113327595 B CN 113327595B
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- training
- voice
- model
- training model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 claims abstract description 125
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 23
- 238000002864 sequence alignment Methods 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 241000721047 Danaus plexippus Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种发音偏误检测方法、装置及存储介质,所述方法包括构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练;在所述语音预训练模型上添加一层随机初始化的全连接层,得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练,得到发音偏误检测模型;利用所述发音偏误检测模型对学习者的语音进行检测,以获得发音偏误信息。本发明所述发音偏误检测方法、装置及存储介质,通过构建语音预训练模型、微调预训练模型,利用发音偏误检测模型对学习者的语音进行检测以获得发音偏误信息的方式,使得在缺少发音训练数据情况下,依然可以有效提升发音偏误检测系统的性能。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种发音偏误检测方法、装置及存储介质。
背景技术
随着语音技术的发展和在线学习的推广,计算机辅助发音教学(Computer-AidedPronunciation Training,CAPT)在语言教学中得到越来越多的应用。其中,自动发音偏误检测作为计算机辅助发音教学的一个重要环节,主要用于检测学习者的发音错误问题,以帮助学习者在二语学习过程中及时发现其发音问题并改正。
发音偏误检测技术的主要原理是通过大量的目的语L2(Second/Targetlanguage,L2)语音语料库训练获得一个包含目的语L2中所有音素集的发音偏误检测系统。在检测时,通过解码输出的概率图来得到对应的音素序列,进而与参考文本比较得到偏误情况。或者通过发音偏误检测系统得到发音的置信分数(GOP方法)来判断发音是否偏误。
图1为现有技术中发音偏误检测交互过程,包括客户端和服务器端,其发音偏误检测系统包括:由CNN(Convolutional Neural Networks,卷积神经网络)组成的编码器、由Transformer(转换模型)组成的上下文处理器、以及一个FC Layer(全连接层)。当用户通过客户端进行发音练习时,客户端记录下用户的练习音频并上传至服务器端,服务器端进行发音偏误检测后,将偏误检测结果回传至客户端,并提示用户修改意见。
但是,上述发音偏误检测常因缺少发音训练数据,即缺少目的语L2的语料而难以构建一个鲁棒性良好的发音偏误检测系统。
针对目的语L2语料短缺的问题,一些研究,例如参考文献A.Baevski,Y.Zhou,A.Mohamed,and M.Auli,“wav2vec 2.0:A framework for self-supervised learning ofspeech representations,”Advances in Neural Information Processing Systems,vol.33,2020.中探索了利用来自无标注语音语料库的信息来提升偏误检测性能的方法,该方法相较于带标注的语音语料库,无标注的语音语料库的获取相对容易,即,利用大规模的无标注语音数据进行预训练的模型能够得到关于语音信号的通用表示,其对应的模型参数可作为发音偏误检测任务的良好起点。例如参考文献L.Yang,K.Fu,J.Zhang,andT.Shinozaki,“Pronunciation erroneous tendency detection with languageadversarial represent learning,”Proc.Interspeech 2020,pp.3042–3046,2020.中首先尝试在日本成人普通话学习者的发音偏误检测任务上使用无标注的一语和二语数据进行预训练。
但是,上述参考文献中提到的偏误检测方法,在缺少发音训练数据的条件下,虽然通过小规模语音语料,例如150小时左右的预训练获得了目的语L2语料库,提升了偏误检测性能,但对于像中国人学习外语,语音水平跨度大、声学差异显著的发音特征来说,然存在难以构建一个鲁棒性好的发音偏误检测系统。
发明内容
为此,本发明所要解决的技术问题是:提供一种发音偏误检测方法、装置及存储介质,使得在缺少发音训练数据情况下,依然可以有效提升发音偏误检测系统的性能。
于是,本发明提供了一种基于语音预训练模型的发音偏误检测方法,包括:
构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练;
在所述语音预训练模型上添加一层随机初始化的全连接层,得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练,得到发音偏误检测模型;
利用所述发音偏误检测模型对学习者的语音进行检测,以获得发音偏误信息。
其中,所述利用所述发音偏误检测模型对学习者的语音进行检测包括:
输出一个关于所述学习者的语音的音素概率序列;
将所述音素概率序列解码成音素序列,并将所述音素序列和相应的参考文本进行对比,以获得发音偏误信息;或者,基于所述音素概率序列通过发音置信分数方法获得发音偏误信息。
其中,所述构建语音预训练模型,包括:
构建语音识别模块,该模块包括编码器、上下文处理器和量化器,所述编码器用于将语音信号编码成隐向量,所述上下文处理器用于在当前音段上重新考虑整条语音上来自其他音段的信息以生成上下文相关的音段表示,所述量化器用于将生成的所述音段表示规范到有限的空间内。
所述在语音预训练模型上添加一层随机初始化的全连接层包括:将一个全连接层添加到所述上下文处理器中的Transformer模块上以构建微调预训练模型。
所述使用带标注的发音偏误数据对所述微调预训练模型进行训练包括:
在训练最初的预置次数中,只更新所述全连接层,编码器和上下文处理器不进行参数更新;
在所述预置次数之后的训练中,进行全模型参数更新。
上述发音偏误检测方法,采用adam优化器,训练时长为48小时。
其对应的相似度函数sim为:
sim(a,b)=aTb/||a||||b||
基于上述发音偏误检测方法,本发明还提供了一种基于语音预训练模型的发音偏误检测装置,该装置包括语音识别模块和序列对齐模块,其中,所述语音识别模块包括编码器、上下文处理器、量化器以及全连接层,所述编码器、上下文处理器和量化器用于构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练,在预训练后的所述语音预训练模型上添加一层随机初始化的全连接层,以得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练以得到发音偏误检测模型,利用所述发音偏误检测模型对学习者的语音进行检测,输出一个关于所述学习者的语音的音素概率序列,并将所述音素概率序列解码成音素序列;所述序列对齐模块将所述音素序列和相应的参考文本进行对比,获得发音偏误信息。
基于上述发音偏误检测方法,本发明还提供了一种基于语音预训练模型的发音偏误检测装置,包括语音识别模块和发音置信分数模块,其中,所述语音识别模块包括编码器、上下文处理器、量化器以及全连接层,所述编码器、上下文处理器和量化器用于构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练,在预训练后的所述语音预训练模型上添加一层随机初始化的全连接层,以得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练以得到发音偏误检测模型,利用所述发音偏误检测模型对学习者的语音进行检测,输出一个关于所述学习者的语音的音素概率序列;所述发音置信分数模块基于所述音素概率序列通过发音置信分数方法获得发音偏误信息。
基于上述发音偏误检测方法,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至7任意一项所述的发音偏误检测方法。
本发明所述发音偏误检测方法、装置及存储介质,通过构建语音预训练模型、微调预训练模型,利用发音偏误检测模型对学习者的语音进行检测以获得发音偏误信息的方式,使得在缺少发音训练数据情况下,依然可以有效提升发音偏误检测系统的性能。
附图说明
图1为现有技术中发音偏误检测系统的交互过程示意图;
图2为本发明实施例所述发音偏误检测方法的流程示意图;
图3为本发明实施例所述发音偏误检测系统的交互过程示意图;
图4为本发明实施例所述一种发音偏误检测装置的结构示意图;
图5为本发明实施例所述又一种发音偏误检测装置的结构示意图。
具体实施方式
下面,结合附图对本发明进行详细描述。
在深度学习的迁移学习理论中,对于某一种信号,例如图像文本语音,希望通过预训练使模型能够抽取出反映其信号内在结构的通用表示。这样,同一个领域内的不同任务都能够从这个通用的表示中获益。具体到特定的任务上,直接使用这种通用表示作为特征,或者添加任务特定的模块在预训练模型上进行整体的微调都是可行的方案。预训练模型是指从大规模语料中学习得到通用的表示,并用于下游任务。
预训练模型wav2vec2.0是一个开源的预训练模型,属于wav2vec系列。预训练模型wav2vec2.0在多个语音相关任务上实现了SOTA(stata-of-the-art,前沿水平或者最高水平)的性能,包括音素识别,说话人/语种识别,极低资源的语音识别等。在本实施例中,我们提出应用预训练模型wav2vec2.0到发音偏误检测的任务中去。由于模型采用的是端到端的建模方式,因此服务器端的整个检测系统仅由两个模块组成,分别为:语音识别模块、序列对齐模块。可选的方案是把模型的概率输出送以GOP的方式来判断偏误。当用户语音到达后,会被首先送入语音识别模块得到相应的发音音素序列。
在本实施例中,使用大规模语音语料,例如超过50000个小时的本地L2语音进行预训练。通过在预训练完成的模型上添加一层随机初始化的全连接层来构建整体的偏误检测模型。随后模型在带标注的目的语数据上进行微调并在推断时输出待测语音所对应的音素序列。通过这个音素序列可以得到发音者的发音偏误情况。本实施例提供的技术方案及技术思想适用于任何语言的发音偏误检测,能有效缓解任务相关数据不足的问题,从而进一步提高其检测性能。具体描述如下:
如图2所示,本实施例提供了一种基于语音预训练模型的发音偏误检测方法,包括:
步骤S1,构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练;
步骤S2,在所述语音预训练模型上添加一层随机初始化的全连接层,得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练,得到发音偏误检测模型;
步骤S3,利用所述发音偏误检测模型对学习者的语音进行检测,以获得发音偏误信息。
其中,步骤S3中所述利用所述发音偏误检测模型对学习者的语音进行检测包括:
输出一个关于所述学习者的语音的音素概率序列;
将所述音素概率序列解码成音素序列,并将所述音素序列和相应的参考文本进行对比,以获得发音偏误信息;或者,基于所述音素概率序列通过发音置信分数方法获得发音偏误信息。
在构建发音偏误检测模型时采用端到端建模方式,因此服务器端的整个检测系统仅由两个模块组成,分别为:语音识别模块、序列对齐模块。其中,序列对齐模块可以采用基于所述音素概率序列通过发音置信分数方法获得发音偏误信息的方式替代。具体方式如下:
如图3所示,在构建语音识别模块时,该模块包括编码器、上下文处理器和量化器,编码器包含有卷积神经网络层,用于将语音信号编码成隐向量,上下文处理器包含有transformer模块,用于在当前音段上重新考虑整条语音上来自其他音段的信息生成上下文相关的音段表示;给定一个被遮蔽的隐向量对应的上下文表示、以及多个来自未被遮蔽的隐向量对应的量化表示,在多个干扰项中找到当前的上下文表示所对应量化表示。所述量化器用于将生成的所述音段表示规范到有限的空间内,量化器是将上下文表示量化一下,来得到量化表示。
其中,量化器仅在模型预训练时使用,用于从语音得到的通用表示规范到有限的空间内Q。编码器能够将采样率为16kHz的语音信号每隔20ms将25ms的音段编码成一个隐向量Z。上下文处理器能够在当前音段上重新考虑整条语音上来自其他音段的信息,生成上下文相关的音段表示C。
语音预训练模型具体结构为:编码器(X->Z)由多个block代码块组成,每个代码块包括卷积层、layer normalization(层规范化)层+GELU(Gaussian Error Linerar Units,激活函数)激活层。每一个block代码块中的卷积层拥有512个通道。它们的步长分别为(5,2,2,2,2,2,2),kernel卷积核的大小为(10,3,3,3,3,2,2)。上下文处理器(Z->C)包含24层的transformer模块,其模型的维度为1024,内维度为4096以及16个多头注意力。量化器(Z->Q)用于离散化隐向量,其包含两个码本,每个码本拥有320个实体。函数可导的Gumbelsoftmax将被使用,用于选择与隐向量最近的那个码本实体,完成量化的过程。来自两个码本的实体向量将被连接起来作为输出Q。
图3所示L-contrast预训练过程中,预训练的目的是在无标注的数据中习得语音信号的内在结构。给定一个被遮蔽的隐向量Z对应的上下文表示C,多个来自未被遮蔽的隐向量Z对应的量化表示Q,预训练模型的任务就是在多个干扰项中找到当前的上下文表示C所对应量化表示Q。
sim(a,b)=aTb/||a||||b|| (2)
其对应的相似度函数sim为:
sim(a,b)=aTb/||a||||b||
当预训练完成后,语音预训练模型就已经拥有对语音信号的通用的区分能力,图3所示L-CTC发音偏误任务训练过程中,此时,使用带标注的发音偏误数据对模型进行微调,使模型具有发音偏误检测的能力。模型上,一个FC layer全连接层会被添加到Transformer转换模块的上面。具体地,使用人工标注好的音素序列作为目标,这个序列反映了说话人的真实产出,在微调预训练模型中,使用CTC作为损失函数L-CTC:
L-CTC:
其中X为模型的输入语音,W为该条语音对应的文本序列。C是这个文本对应的字符序列。比如语音X对应的文本为“hi”,时间步长T=3,可能的C的集合为{“hhi”,”hii”,”_hi”,”h_i”,”hi_”},其中_代表空,K(C)则是将这些C通过合并相同字符来得到W(也就是“hi”)。P是概率的意思。也就是P(C|X)代表输入语音X,字符序列C的概率。比如P(“hhi”|X)就是给定语音X,输出“hhi”的概率。
步骤S2中,所述使用带标注的发音偏误数据对所述微调预训练模型进行训练包括:
在训练最初的预置次数中,只更新所述全连接层,编码器和上下文处理器不进行参数更新;
在所述预置次数之后的训练中,进行全模型参数更新。
具体的,例如,预置次数为10000次,在前面的10000次中,模型只更新新增的FClayer全连接层,前面的编码器和上下文并不进行参数更新。在之后的训练迭代时才进行全模型的参数更新。训练时采用adam优化器。训练时长为48小时。当训练完成语音预训练模型就具有了识别目的语,即目的语学习者真实发音的能力。
当上述训练完毕后,由客户端给定学习者的话语,发音偏误检测模型将对其进行处理,输出一个关于音素的概率序列。维特比解码用于将这些概率序列解码成音素序列,而这个音素序列反映了说话人的真实发音。
在基于上述的语音识别,发音偏误检测时,在上述步骤S3中,将给定语音所识别出的音素序列和相应的参考文本进行字符串之间的对齐操作,例如编辑距离backtrace,这样就可以获得模型检测出的偏误信息。比如,如果参考文本为ABA,而微调语音预训练模型对学习者的发音输出了BBA的序列,那么微调语音预训练模型就认为是这位学习者第一个音发错了,其余两个音发对了。或者,也可以将所述音素概率序列通过发音置信分数方法获得发音偏误信息。其中,语音识别模块包含微调预训练模型,但是微调预训练模型不完全等同于语音识别模块。
基于上述发音偏误检测方法,如图4所示,本实施例还提供了一种发音偏误检测装置,该装置包括:语音识别模块40和序列对齐模块50,所述语音识别模块40包括:编码器41、上下文处理器42、量化器43、以及全连接层44,编码器41、上下文处理器42和量化器43用于构建语音信号的通用区分能力的语音预训练模型,在所述语音预训练模型上添加一层随机初始化的全连接层44,以构建具备目的语学习者真实发音数据库的微调预训练模型,该微调预训练模型在接收到来自客户端学习者语音时输出一个关于所述学习者语音的音素概率序列,并将所述音素概率序列解码成音素序列,序列对齐模块50将所述音素序列和相应的参考文本进行对比,获得发音偏误信息。
基于上述发音偏误检测方法,如图5所示,本实施例还提供了一种发音偏误检测装置,其与图4所示发音偏误检测装置的区别在于用发音置信分数模块60替代图4所示序列对齐模块50。微调预训练模型在接收到来自客户端学习者语音时,输出一个关于所述学习者语音的音素概率序列,发音置信分数模块30将所述音素概率序列以发音置信分数方法获得发音偏误信息。
基于上述发音偏误检测方法,本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述程序被处理器执行时实现如上述任意一项所述的发音偏误检测方法。
发音偏误检测方法、装置及存储介质,可以使用在包括但不限于计算机终端、手机、平板电脑、车载设备中。
上述发音偏误检测方法、装置及存储介质在检测多母语背景的成人二语偏误任务上,相较于现有技术中使用非预训练方案的系统在f1-score性能指标上相对改善7.8%,达到60.44%。此外在数据量较少的情况下,依然能够实现55.6%f1-score性能指标。这表明本实施例所述技术方案可以有效在目的语发音偏误检测系统中利用来自大量无标注数据抽取出的通用表示来提高发音偏误检测模型的性能以及泛化性。
本实施例所述发音偏误检测方法、装置及存储介质在和具体产品,例如英语君产品结合后,因为学习者往往对于相似的发音很容易发错,英语君能更精确地检测出来学习者发音中和母语相似的发音,让基于发音质量的打分更有据可循。从而让学习者把有限的注意力集中在最重要的偏误改正上,有利于学习者可以更为高效地更有信心地改善目的语口语能力。此外,由于上述发音偏误检测技术方案在极少数据上的表现尚可,这为提供个性化的发音偏误检测服务提供了可行性。
综上所述,本实施例所述发音偏误检测方法、装置及存储介质,通过构建语音预训练模型、微调预训练模型,利用发音偏误检测模型对学习者的语音进行检测以获得发音偏误信息的方式,使得在缺少发音训练数据情况下,依然可以有效提升发音偏误检测系统的性能。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于语音预训练模型的发音偏误检测方法,其特征在于,包括:
构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练;
在所述语音预训练模型上添加一层随机初始化的全连接层,得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练,得到发音偏误检测模型;
利用所述发音偏误检测模型对学习者的语音进行检测,以获得发音偏误信息;
其中,所述构建语音预训练模型,包括:
构建语音识别模块,该模块包括编码器、上下文处理器和量化器,所述编码器用于将语音信号编码成隐向量,所述上下文处理器用于在当前音段上重新考虑整条语音上来自其他音段的信息以生成上下文相关的音段表示,所述量化器用于将生成的所述音段表示规范到有限的空间内。
2.根据权利要求1所述的发音偏误检测方法,其特征在于,所述利用所述发音偏误检测模型对学习者的语音进行检测包括:
输出一个关于所述学习者的语音的音素概率序列;
将所述音素概率序列解码成音素序列,并将所述音素序列和相应的参考文本进行对比,以获得发音偏误信息;或者,基于所述音素概率序列通过发音置信分数方法获得发音偏误信息。
3.根据权利要求1所述的发音偏误检测方法,其特征在于,所述在语音预训练模型上添加一层随机初始化的全连接层包括:将一个全连接层添加到所述上下文处理器中的Transformer模块上以构建微调预训练模型。
4.根据权利要求3所述的发音偏误检测方法,其特征在于,所述使用带标注的发音偏误数据对所述微调预训练模型进行训练包括:
在训练最初的预置次数中,只更新所述全连接层,编码器和上下文处理器不进行参数更新;
在所述预置次数之后的训练中,进行全模型参数更新。
5.根据权利要求4所述的发音偏误检测方法,其特征在于,采用adam优化器,训练时长为48小时。
7.一种基于语音预训练模型的发音偏误检测装置,其特征在于,包括语音识别模块和序列对齐模块,
所述语音识别模块包括编码器、上下文处理器、量化器以及全连接层,所述编码器、上下文处理器和量化器用于构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练,在预训练后的所述语音预训练模型上添加一层随机初始化的全连接层,以得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练以得到发音偏误检测模型,利用所述发音偏误检测模型对学习者的语音进行检测,输出一个关于所述学习者的语音的音素概率序列,并将所述音素概率序列解码成音素序列;
所述序列对齐模块将所述音素序列和相应的参考文本进行对比,获得发音偏误信息。
8.一种基于语音预训练模型的发音偏误检测装置,其特征在于,包括语音识别模块和发音置信分数模块,
所述语音识别模块包括编码器、上下文处理器、量化器以及全连接层,所述编码器、上下文处理器和量化器用于构建语音预训练模型,并基于无标注语音语料库对所述语音预训练模型进行预训练,在预训练后的所述语音预训练模型上添加一层随机初始化的全连接层,以得到微调预训练模型,并使用带标注的发音偏误数据对所述微调预训练模型进行训练以得到发音偏误检测模型,利用所述发音偏误检测模型对学习者的语音进行检测,输出一个关于所述学习者的语音的音素概率序列;
所述发音置信分数模块基于所述音素概率序列通过发音置信分数方法获得发音偏误信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至6任意一项所述的发音偏误检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667154.6A CN113327595B (zh) | 2021-06-16 | 2021-06-16 | 发音偏误检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667154.6A CN113327595B (zh) | 2021-06-16 | 2021-06-16 | 发音偏误检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113327595A CN113327595A (zh) | 2021-08-31 |
CN113327595B true CN113327595B (zh) | 2022-08-02 |
Family
ID=77421080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667154.6A Active CN113327595B (zh) | 2021-06-16 | 2021-06-16 | 发音偏误检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113327595B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399465B (zh) * | 2021-12-08 | 2022-11-25 | 紫东信息科技(苏州)有限公司 | 良恶性溃疡识别方法及系统 |
WO2024023946A1 (ja) * | 2022-07-26 | 2024-02-01 | 日本電信電話株式会社 | 音声処理装置、音声処理方法及び音声処理プログラム |
CN117409778B (zh) * | 2023-12-14 | 2024-03-19 | 深圳市友杰智新科技有限公司 | 解码处理方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014005142A2 (en) * | 2012-06-29 | 2014-01-03 | Rosetta Stone Ltd | Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system |
US11568761B2 (en) * | 2017-09-26 | 2023-01-31 | Nippon Telegraph And Telephone Corporation | Pronunciation error detection apparatus, pronunciation error detection method and program |
CN107610720B (zh) * | 2017-09-28 | 2020-08-04 | 北京语言大学 | 发音偏误检测方法、装置、存储介质及设备 |
CN111402927A (zh) * | 2019-08-23 | 2020-07-10 | 南京邮电大学 | 基于分段语谱图和双重Attention的语音情感识别方法 |
CN112489635B (zh) * | 2020-12-03 | 2022-11-11 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
CN112951213B (zh) * | 2021-02-09 | 2022-05-24 | 中国科学院自动化研究所 | 端到端的在线语音检测与识别方法、系统及设备 |
-
2021
- 2021-06-16 CN CN202110667154.6A patent/CN113327595B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113327595A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10559299B1 (en) | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping | |
US10854193B2 (en) | Methods, devices and computer-readable storage media for real-time speech recognition | |
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
CN113327595B (zh) | 发音偏误检测方法、装置及存储介质 | |
CN110534095B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
Le et al. | Deep shallow fusion for RNN-T personalization | |
KR102386854B1 (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
Gupta et al. | Clsril-23: Cross lingual speech representations for indic languages | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
CN104199825A (zh) | 一种信息查询方法和系统 | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
CN115762489A (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
Kim et al. | Transduce and speak: Neural transducer for text-to-speech with semantic token prediction | |
Chan et al. | Domain adaptation with external off-policy acoustic catalogs for scalable contextual end-to-end automated speech recognition | |
Tanaka et al. | Cross-modal transformer-based neural correction models for automatic speech recognition | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Thangthai | Computer lipreading via hybrid deep neural network hidden Markov models | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
Getman | End-to-end low-resource automatic speech recognition for second language learners | |
Vidal et al. | Mispronunciation detection using self-supervised speech representations | |
Kumar et al. | Spoken Language Translation using Conformer model | |
Rasipuram et al. | Probabilistic lexical modeling and unsupervised training for zero-resourced ASR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |