CN114999526B

CN114999526B - 一种利用发音属性和参考文本的发音偏误检测方法及装置

Info

Publication number: CN114999526B
Application number: CN202210466983.2A
Authority: CN
Inventors: 解焱陆; 陈琪
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-03-21
Anticipated expiration: 2042-04-29
Also published as: CN114999526A

Abstract

本发明公开了一种利用发音属性和参考文本的发音偏误检测方法及装置，所述方法包括：提取二语学习者语音帧的发音属性，得到第一发音属性序列；将参考文本中的标准音素序列映射到发音属性，得到第二发音属性序列；采用逐块注意力机制，将第一发音属性序列和第二发音属性序列进行分块对齐；对齐后提取音素向量，并与声学特征和发音特征拼接后作为检测模型的输入，进行发音偏误检测。本发明在发音偏误检测任务中加入参考文本信息，采用逐块注意力机制，利用发音属性作为约束条件将参考文本和二语学习者的语音分块对齐，利用参考文本中有效信息的同时避免了引入误导性信息和造成对误发音的错误接受，提升了系统音素识别能力和发音偏误检测能力。

Description

一种利用发音属性和参考文本的发音偏误检测方法及装置

技术领域

本发明涉及发音偏误检测技术领域，特别涉及一种利用发音属性和参考文本的发音偏误检测方法及装置。

背景技术

计算机辅助发音训练(CAPT)为二语学习者提供个性化的发音反馈，使二语学习者在缺少语言教师的情况下也能学习外语。发音偏误检测(MD&D)是计算机辅助发音教学的重要组成部分，它为二语学习者指出发音中的错误并提供音素级反馈，以提高二语学习者的学习效率。发音偏误检测为第二语言学习者提供了自主语言学习的机会，可以作为教师指导的补充，提供个性化的反馈，也可以缓解教师短缺的问题。

到目前为止，已有的发音偏误检测方法可以大致分为两类。第一类是基于语音评分的方法，它基于自动语音识别的置信度计算音素级的语音评分。基于对数似然比检验的发音良好度评价方法(GOP)及其变体[S.M.Witt and S.J.Young,“Phone-levelpronunciation scoring and assessment for interactive language learning,”Speech communication,vol.30,no.2-3,pp.95–108,2000]，是该类别中最具代表性的方法。第二类方法旨在评估发音错误的细节，对特定错误提供诊断反馈，如音素的替换、删除和插入错误[W.Lo,S.Zhang,and H.Meng,“Automatic derivation of phonologicalrules for mispronunciation detection in a computer assisted pronunciationtraining system,”Proceedings of the INTERSPEECH,pp.765–768,2010]，[X.Qian,F.K.Soong,and H.Meng,“Discriminative acoustic model for improvingmispronunciation detection and diagnosis in computer-aided pronunciationtraining(CAPT),”in International Speech Communication Association,2010]。这类方法中一个著名的方法是扩展识别网络(ERN)[Alissa M Harrison,Wai-Kit Lo,Xiao-junQian,and Helen Meng,“Implementation of an extended recognition network formispronunciation detection and diagnosis in computer-assisted pronunciationtraining,”in International Workshop on Speech and Language Technology inEducation,2009]，它利用语音规则扩展自动语音识别的解码网络，从而可以很容易地根据语音识别输出与相应的文本提示的比较提供诊断反馈。另外，基于深度神经网络的端到端(End-to-End，E2E)自动语音识别方法也被引入到发音偏误检测任务中。

发音偏误检测的过程是首先给学习者一个预定的参考文本和一个发音示范，学习者尝试模仿参考文本的标准发音。系统进行音素识别，然后将识别到的音素序列与参考文本的标准音素序列进行比对，以检测错误的发音。由于参考文本是已知的，上述现有技术在音素识别过程中忽略这些先验知识是一种浪费。因此，除了声学特征外，参考文本信息可以作为模型的另一个输入。如何合理地引入参考文本信息成为发音偏误检测任务中的一个亟待解决的问题。

发明内容

针对上述问题，本发明的目的在于提供一种利用发音属性和参考文本的发音偏误检测方法及装置，将参考文本的音素序列与二语学习者的语音对齐，对齐后将相应的音素向量和每个语音帧的声学特征拼接起来作为模型的输入，有助于模型音素识别和发音偏误检测性能提高。

为解决上述技术问题，本发明的实施例提供如下方案：

一方面，提供一种利用发音属性和参考文本的发音偏误检测方法，包括以下步骤：

S1、提取二语学习者语音帧的发音属性，得到第一发音属性序列；

S2、将参考文本中的标准音素序列映射到发音属性，得到第二发音属性序列；

S3、采用逐块注意力机制，将所述第一发音属性序列和所述第二发音属性序列进行分块对齐；

S4、对齐后提取音素向量，并与声学特征和发音特征拼接后作为检测模型的输入，进行发音偏误检测。

优选地，所述发音属性基于发音特征空间，从下巴、唇分离、唇圆、舌前部、舌高度、舌尖软腭、发声八个维度进行描述，每个维度根据程度不同划分为多个等级。

优选地，所述步骤S1中，通过预训练模型Wav2vec 2.0作为提取器来提取发音属性。

优选地，所述步骤S2中，通过预设的映射表将参考文本中的标准音素序列映射到发音属性。

优选地，所述步骤S3中，采用逐块注意力机制将所述第二发音属性序列分割成块，将所述第一发音属性序列与所述第二发音属性进行分块对齐；

其中，所述第一发音属性序列为[d₁，...，d_t]，d_i代表第i个语音帧的发音属性，所述第二发音属性序列为[h₁，...，h_n]，h_j代表第j个标准音素的发音属性，块的大小设定为3，包括h_j、h_j+1、h_j+2。

优选地，所述步骤S4中，在每个块中，d_i分别与h_j、h_j+1、h_j+2计算相似度；如果三个相似度中有任一个大于预设阈值，则提取块中三个标准音素对应的发音属性的向量表征作为音素向量，并与声学特征和发音特征拼接后作为检测模型的输入；如果三个相似度都小于预设阈值，则认为d_i代表的语音帧在标准音素序列中不存在，此时提取全零向量与声学特征和发音特征拼接后作为检测模型的输入。

优选地，以块内三个相似度为权重加权三个音素向量，之后将加权后的音素向量在通道维度与声学特征和发音特征进行拼接，形成一个二通道特征，作为检测模型的输入。

优选地，采用文本编码器提取音素向量。

优选地，所述预设阈值为0.8。

另一方面，提供一种利用发音属性和参考文本的发音偏误检测装置，包括：

提取模块，用于提取二语学习者语音帧的发音属性，得到第一发音属性序列；

映射模块，用于将参考文本中的标准音素序列映射到发音属性，得到第二发音属性序列；

对齐模块，用于采用逐块注意力机制，将所述第一发音属性序列和所述第二发音属性序列进行分块对齐；

输入模块，用于对齐后提取音素向量，并与声学特征和发音特征拼接后作为检测模型的输入，进行发音偏误检测。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，在发音偏误检测任务中加入参考文本信息，采用逐块注意力机制，利用发音属性作为约束条件将参考文本和二语学习者的语音分块对齐，在发音属性的约束下，利用参考文本中有效信息的同时避免了引入误导性信息和造成对误发音的错误接受，提升了系统音素识别能力和发音偏误检测能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种利用发音属性和参考文本的发音偏误检测方法的流程图；

图2a和图2b分别是现有基于注意力的软对齐方式和本发明实施例提供的利用发音属性的逐块对齐方式的示意图；

图3是本发明实施例提供的模型结构与输入特征使用示意图。

如图所示，为了能明确实现本发明的实施例的结构，在图中标注了特定的结构和器件，但这仅为示意需要，并非意图将本发明限定在该特定结构、器件和环境中，根据具体需要，本领域的普通技术人员可以将这些器件和环境进行调整或者修改，所进行的调整或者修改仍然包括在本发明的保护范围中。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例首先提供了一种利用发音属性和参考文本的发音偏误检测方法，如图1所示，所述方法包括以下步骤：

S1、提取二语学习者语音帧的发音属性，得到第一发音属性序列。

发音属性可以用来衡量发音质量，并根据发音的方式和位置，如舌位的高度，给出纠正性反馈。本步骤中，发音属性基于文献[J.Tepperman and S.S.Narayanan,“Usingarticulatory representations to detect segmental errors in nonnativepronunciation,”IEEE Transactions on Audio,Speech,and Language Processing,vol.16,pp.8–22,2008]提出的发音特征空间，从下巴、唇分离、唇圆、舌前部、舌高度、舌尖软腭、发声八个维度进行描述，每个维度根据程度不同划分为多个等级，如表1所示。

表1：发音属性空间

本发明实施例中，可以通过预训练模型Wav2vec 2.0作为提取器来提取发音属性。

S2、将参考文本中的标准音素序列映射到发音属性，得到第二发音属性序列。

本步骤中，通过预设的映射表将参考文本中的标准音素序列映射到发音属性。所述映射表可以采用文献[J.Tepperman and S.S.Narayanan,“Using articulatoryrepresentations to detect segmental errors in nonnative pronunciation,”IEEETransactions on Audio,Speech,and Language Processing,vol.16,pp.8–22,2008]提出的映射表。

S3、采用逐块注意力机制，将所述第一发音属性序列和所述第二发音属性序列进行分块对齐。

本步骤中，首先采用逐块注意力机制将所述第二发音属性序列分割成块，之后将所述第一发音属性序列与所述第二发音属性进行分块对齐。图2a和图2b分别是现有基于注意力的软对齐方式和本发明实施例提供的利用发音属性的逐块对齐方式的示意图，虚线为设置的块，每个语音帧只与块内三个音素做软对齐，而块的位置会自适应地移动。

在每个块中，d_i分别与h_j、h_j+1、h_j+2计算相似度；如果三个相似度中有任一个大于预设阈值(例如：设置为0.8)，则采用文本编码器提取块中三个标准音素对应的发音属性的向量表征作为音素向量，并与声学特征和发音特征拼接后作为检测模型的输入；如果三个相似度都小于预设阈值，则认为d_i代表的语音帧在标准音素序列中不存在，此时提取全零向量与声学特征和发音特征拼接后作为检测模型的输入。

提取的音素向量与声学特征和发音特征拼接后的尺寸大小相同。以块内三个相似度为权重加权三个音素向量，之后将加权后的音素向量在通道维度与声学特征和发音特征进行拼接，形成一个二通道特征，作为检测模型的输入，如图3所示。

相应地，本发明的实施例还提供了一种利用发音属性和参考文本的发音偏误检测装置，包括：

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

需要说明的是，在说明书中提到“一个实施例”、“实施例”、“示例性实施例”、“一些实施例”等指示所述的实施例可以包括特定特征、结构或特性，但未必每个实施例都包括该特定特征、结构或特性。另外，在结合实施例描述特定特征、结构或特性时，结合其它实施例(无论是否明确描述)实现这种特征、结构或特性应在相关领域技术人员的知识范围内。

通常，可以至少部分从上下文中的使用来理解术语。例如，至少部分取决于上下文，本文中使用的术语“一个或多个”可以用于描述单数意义的任何特征、结构或特性，或者可以用于描述复数意义的特征、结构或特性的组合。另外，术语“基于”可以被理解为不一定旨在传达一组排他性的因素，而是可以替代地，至少部分地取决于上下文，允许存在不一定明确描述的其他因素。

如本文使用的，术语“标称/标称地”是指在生产或制造过程的设计阶段期间设置的针对部件或过程操作的特性或参数的期望或目标值，以及高于和/或低于期望值的值的范围。值的范围可能是由于制造过程或容限中的轻微变化导致的。如本文使用的，术语“大约”指示可以基于与主题半导体器件相关联的特定技术节点而变化的给定量的值。基于特定技术节点，术语“大约”可以指示给定量的值，其例如在值的5％-15％(例如，值的±5％、±10％或±15％)内变化。

可以理解的是，本公开中的“在……上”、“在……之上”和“在……上方”的含义应当以最宽方式被解读，以使得“在……上”不仅表示“直接在”某物“上”而且还包括在某物“上”且其间有居间特征或层的含义，并且“在……之上”或“在……上方”不仅表示“在”某物“之上”或“上方”的含义，而且还可以包括其“在”某物“之上”或“上方”且其间没有居间特征或层的含义。

此外，诸如“在…之下”、“在…下方”、“下部”、“在…之上”、“上部”等空间相关术语在本文中为了描述方便可以用于描述一个元件或特征与另一个或多个元件或特征的关系，如在附图中示出的。空间相关术语旨在涵盖除了在附图所描绘的取向之外的在设备使用或操作中的不同取向。设备可以以另外的方式被定向，并且本文中使用的空间相关描述词可以类似地被相应解释。

本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。另外，为了避免对本发明的实质造成不必要的混淆，并没有详细说明众所周知的方法、过程、流程、元件和电路等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读取存储介质中，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种利用发音属性和参考文本的发音偏误检测方法，其特征在于，包括以下步骤：

所述步骤S3中，采用逐块注意力机制将所述第二发音属性序列分割成块，将所述第一发音属性序列与所述第二发音属性进行分块对齐；

其中，所述第一发音属性序列为[d₁，...，d_t]，d_i代表第i个语音帧的发音属性，所述第二发音属性序列为[h₁，...，h_n]，h_j代表第j个标准音素的发音属性，块的大小设定为3，包括h_j、h_j+1、h_j+2；

S4、对齐后提取音素向量，并与声学特征和发音特征拼接后作为检测模型的输入，进行发音偏误检测；

所述步骤S4中，在每个块中，d_i分别与h_j、h_j+1、h_j+2计算相似度；如果三个相似度中有任一个大于预设阈值，则提取块中三个标准音素对应的发音属性的向量表征作为音素向量，并与声学特征和发音特征拼接后作为检测模型的输入；如果三个相似度都小于预设阈值，则认为d_i代表的语音帧在标准音素序列中不存在，此时提取全零向量与声学特征和发音特征拼接后作为检测模型的输入。

2.根据权利要求1所述的利用发音属性和参考文本的发音偏误检测方法，其特征在于，所述发音属性基于发音特征空间，从下巴、唇分离、唇圆、舌前部、舌高度、舌尖软腭、发声八个维度进行描述，每个维度根据程度不同划分为多个等级。

3.根据权利要求1所述的利用发音属性和参考文本的发音偏误检测方法，其特征在于，所述步骤S1中，通过预训练模型Wav2vec2.0作为提取器来提取发音属性。

4.根据权利要求1所述的利用发音属性和参考文本的发音偏误检测方法，其特征在于，所述步骤S2中，通过预设的映射表将参考文本中的标准音素序列映射到发音属性。

5.根据权利要求1所述的利用发音属性和参考文本的发音偏误检测方法，其特征在于，以块内三个相似度为权重加权三个音素向量，之后将加权后的音素向量在通道维度与声学特征和发音特征进行拼接，形成一个二通道特征，作为检测模型的输入。

6.根据权利要求1所述的利用发音属性和参考文本的发音偏误检测方法，其特征在于，采用文本编码器提取音素向量。

7.根据权利要求1所述的利用发音属性和参考文本的发音偏误检测方法，其特征在于，所述预设阈值为0.8。

8.一种利用发音属性和参考文本的发音偏误检测装置，其特征在于，包括：

所述对齐模块中，采用逐块注意力机制将所述第二发音属性序列分割成块，将所述第一发音属性序列与所述第二发音属性进行分块对齐；

输入模块，用于对齐后提取音素向量，并与声学特征和发音特征拼接后作为检测模型的输入，进行发音偏误检测；

所述输入模块中，在每个块中，d_i分别与h_j、h_j+1、h_j+2计算相似度；如果三个相似度中有任一个大于预设阈值，则提取块中三个标准音素对应的发音属性的向量表征作为音素向量，并与声学特征和发音特征拼接后作为检测模型的输入；如果三个相似度都小于预设阈值，则认为d_i代表的语音帧在标准音素序列中不存在，此时提取全零向量与声学特征和发音特征拼接后作为检测模型的输入。