CN113066510B

CN113066510B - 一种元音弱读检测方法及装置

Info

Publication number: CN113066510B
Application number: CN202110455748.0A
Authority: CN
Inventors: 王丽; 柳宗铭; 张鹏远; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-08-12
Anticipated expiration: 2041-04-26
Also published as: CN113066510A

Abstract

本申请提供了一种元音弱读检测方法及装置。该方法包括：提取用户朗读目标文本的语音信号的声学特征，并对声学特征进行编码，获得的声学编码向量序列；然后，将目标文本对应的带重音标签的音素序列作为发音先验信息，采用联结主义时间分类(Connectionisttemporal classification，CTC)和注意力相结合的解码方法进行解码，最后采用波束搜索方法获得最终的带元音弱读标签的音素序列。本申请将带重音标签的音素序列作为发音先验信息，辅助元音弱读检测，可提高检测的准确度；解码时采用CTC和注意力联合解码方法，解决了元音弱读情况下，采用强制对齐会导致检测的准确率下降的问题。

Description

一种元音弱读检测方法及装置

技术领域

本申请涉及语言发音评估技术领域，尤其涉及一种元音弱读检测方法及装置。

背景技术

计算机辅助语言学习系统期望运用计算机替代或辅助人工进行语言教学，对用户的发音进行评估的自动口语评估技术是该系统的重要组成部分。元音弱读是重音计时语言中广泛存在的口语现象，例如，在英语的使用过程中，熟练的使用者往往将一些位置的元音弱化为类似中央元音schwa的发音。以非重音计时语言(如汉语)作为母语的第二语言学习者难以掌握元音弱读，这很大程度上导致非自然口音的产生。采用自动口语评估中实现元音弱读检测，可以帮助学习者掌握元音弱读。

传统方法使用基于隐马尔科夫模型的语音识别框架进行音素识别，这种方法依赖强制对齐，但在元音弱读情况下，强制对齐的准确率会下降；同时，独立性假设的引入使得模型对上下文的利用受限，而元音弱读现象很受上下文影响。

发明内容

本申请实施例提供了一种元音弱读检测方法及装置，利用语音中的上下文发音关系，将重音音素作为元音弱读音素检测的先验信息，解决强制对齐的方法在元音弱读音素检测中准确率低的问题。

第一方面，本申请实施例提供了一种元音弱读检测方法，该方法包括：

对用户朗读目标文本的语音信号进行特征提取，获得声学特征向量序列；

利用编码器网络对所述声学特征向量序列进行编码，获得声学编码向量序列；

采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合；所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得；

利用解码器网络对每次迭代获得的融合编码向量进行解码，获得每次迭代对应的第三音素概率序列；

采用波束搜索方法对第四音素概率序列进行波束搜索，获得所述语音信号对应的带元音弱读标签的音素序列；所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得，所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得，所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。

本实施例中，将带重音标签的音素序列作为发音先验信息，辅助元音弱读检测，可提高检测的准确度；解码时采用CTC和注意力联合解码方法，解决了元音弱读情况下，采用强制对齐会导致检测的准确率下降的问题。采用波束搜索方法进行波束搜索，进一步提高了检测的准确率。

在一种可能的实施方式中，所述采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合包括：

将所述声学编码向量序列对应的当前迭代的句子级声学编码向量、所述先验编码向量序列对应的当前迭代的句子级先验编码向量、所述解码器网络在上一次迭代中解码中解码输出的隐状态向量输入层级注意力网络，获得当前迭代的第三加权向量；其中，所述当前迭代的句子级声学编码向量根据第一注意力网络获得的当前迭代的第一权值向量对所述声学编码向量序列加权求和获得，所述当前迭代的句子级先验编码向量根据第二注意力网络获得的当前迭代的第二权值向量对所述先验编码向量序列加权求和获得；

基于所述当前迭代的第三加权向量，对所述当前迭代次数的句子级声学编码向量和句子级先验编码向量加权求和，获得当前迭代次数的融合编码向量。

在一种可能的实施方式中，所述方法还包括：

将所述声学编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量，输入所述第一注意力网络，获得所述当前迭代次数的第一权值向量，以及将所述先验编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量，输入所述第二注意力网络，获得所述当前迭代次数的第二权值向量。

在一种可能的实施方式中，所述利用解码器网络对每次迭代获得的融合编码向量进行解码，获得每次迭代对应的第三音素概率序列包括：

将当前迭代获得的融合编码向量和所述解码器网络在上一次迭代中解码输出的隐状态向量，输入所述解码器网络进行解码，获得所述第三音素概率序列。

在一种可能的实施方式中，所述方法还包括：

获取训练样本；所述训练样本包括：语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本；

根据所述训练样本和损失函数，采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络；所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。

第二方面，本申请实施例提供了一种元音弱读检测装置，所述装置包括：

提取模块，用于对用户朗读目标文本的语音信号进行特征提取，获得声学特征向量序列；

编码模块，利用编码器网络对所述声学特征向量序列进行编码，获得声学编码向量序列；

融合模块，用于采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合；所述先验编码向量序列利用辅助编码器网络对所述目标文本对应的带重音标签的音素序列进行编码获得；

解码模块，用于利用解码器网络对每次迭代获得的融合编码向量进行解码，获得每次迭代对应的第三音素概率序列；

波束搜索模块，用于采用波束搜索方法对第四音素概率序列进行波束搜索，获得所述语音信号对应的带元音弱读标签的音素序列；所述第四音素概率序列根据所述第三音素概率序列、第一音素概率序列和第二音素概率序列加权求和获得，所述第一音素概率序列利用第一CTC模块对所述声学编码向量序列进行解码获得，所述第二音素概率序列利用第二CTC模块对所述先验编码向量序列进行解码获得。

在一种可能的实施方式中，所述融合模块具体用于：将所述声学编码向量序列对应的当前迭代的句子级声学编码向量、所述先验编码向量序列对应的当前迭代的句子级先验编码向量、所述解码器网络在上一次迭代中解码中解码输出的隐状态向量输入层级注意力网络，获得当前迭代的第三加权向量；其中，所述当前迭代的句子级声学编码向量根据第一注意力网络获得的当前迭代的第一权值向量对所述声学编码向量序列加权求和获得，所述当前迭代的句子级先验编码向量根据第二注意力网络获得的当前迭代的第二权值向量对所述先验编码向量序列加权求和获得；基于所述当前迭代的第三加权向量，对所述当前迭代次数的句子级声学编码向量和句子级先验编码向量加权求和，获得当前迭代次数的融合编码向量。

在一种可能的实施方式中，所述融合模块还具体用于：将所述声学编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量，输入所述第一注意力网络，获得所述当前迭代次数的第一权值向量，以及将所述先验编码向量序列和所述解码器网络在上一次迭代中解码中解码输出的隐状态向量，输入所述第二注意力网络，获得所述当前迭代次数的第二权值向量。

在一种可能的实施方式中，所述解码模块具体用于：将当前迭代获得的融合编码向量和所述解码器网络在上一次迭代中解码输出的隐状态向量，输入所述解码器网络进行解码，获得所述第三音素概率序列。

在一种可能的实施方式中，所述装置还包括训练模块，所述训练模块具体用于：获取训练样本；所述训练样本包括：语音信号样本、所述语音信号样本对应的带重音标签的音素序列样本和所述语音信号样本对应的带元音弱读标签的音素序列样本；根据所述训练样本和损失函数，采用梯度下降法训练所述编码器网络、所述辅助编码器网络、所述解码器网络、所述第一注意力网络和所述第二注意力网络和所述层级注意力网络；所述损失函数根据所述编码器网络和所述辅助编码器网络对应的CTC损失函数和所述解码器网络对应的注意力损失函数确定。

附图说明

图1是本申请实施例提供的一种元音弱读检测方法的流程图；

图2是本申请实施例提供的一种采用注意力机制进行向量融合的方法流程图；

图3是本申请实施例提供的一种元音弱读检测装置的结构示意图；

图4是本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1是本申请实施例提供的一种元音弱读检测方法的流程图。如图1所示，该方法包括如下的步骤S1-S5。

在步骤S1中，获取用户朗读目标文本的语音信号，对其进行特征提取，获得声学特征向量序列。

本实施例中，对语音信号进行特征提取时，先对其进行分帧处理和加窗处理，然后转换到频域中，提取每帧频域信号的声学特征向量并归一化处理，归一化后的各帧对应的声学特征向量即为声学特征向量序列。可选的，声学特征可以包括：23维梅尔滤波器组特征和3维基频特征。

在步骤S2中，将声学特征向量序列输入编码器网络进行编码，获得编码器网络输出的声学编码向量序列，以及目标文本对应的带重音标签的音素序列输入辅助编码器网络进行编码，获得辅助编码器网络输出的先验编码向量序列。

本实施例中，编码器网络采用第一双向长短时记忆网络(BLSTM)构建。可选地，编码器网络可以是包含4层BLSTM结构，每层设有320个节点。

辅助编码器网络采用词嵌入网络和第二双向长短时记忆网络组成。可选地，词嵌入网络为全连接神经网络，包括20个输出节点，即带重音标签的音素序列输入词嵌入网络，可以得到20维的词向量序列；第二双向长短时记忆网络包括2层BLSTM结构，每层有80个节点，即词向量序列输入第二双向长短时记忆网络，可得到80维的先验编码向量序列。

在步骤S3中，使用CTC和注意力一次性联合解码方法，对声学编码向量序列和先验编码向量序列进行解码。

本实施例中，采用注意力机制对声学编码向量序列和先验编码向量序列进行多次迭代融合，获得多次迭代融合获得的融合编码向量，并采用解码器网络对每次迭代融合后的融合编码向量进行解码，获得每次迭代对应的第三音素概率序列。其中，采用注意力网络和解码器网络的隐状态向量相结合的方法对声学编码向量序列和先验编码向量序列进行融合，融合的次数根据原始语音信号经分帧处理后的帧数确定。在每次融合时，先在时间维度上分别对声学编码向量序列和先验编码向量序列进行加权求和获得各自的句子级编码向量，然后在对两个句子级编码向量进行加权求和。

具体地，如图2所示，将声学编码向量序列

和解码器网络在l-1次解码输出的隐状态向量q_l-1，输入第一注意力网络，获得第一注意力网络输出的当前迭代次数l的第一权值向量

基于

按照公式(1)在时间维度上对声学编码向量序列

进行加权求和，获得当前迭代次数l的句子级声学编码向量

同样地，将先验编码向量序列

和解码器网络在l-1次迭代中解码输出的隐状态向量q_l-1，输入第二注意力网络，获得第一注意力网络输出的当前迭代次数l的第一权值向量

基于

按照公式(1)在时间维度上对先验编码向量序列

进行加权求和，获得当前迭代次数l的句子级先验编码向量

公式(1)中，i∈{1,2}，t表示声学编码向量序列中向量的个数，l表示当前迭代次数，其中，每次迭代中均进行向量融合和解码。

继续参阅图2，在获得当前迭代次数l的句子级声学编码向量

和当前迭代次数l的句子级先验编码向量

后，将其同解码器网络在l-1次迭代中解码输出的隐状态向量q_l-1输入层级注意力网络，获得层级注意力网络输出的当前迭代次数l的第三权值向量

基于

按照公式(2)对

和

进行加权求和，获得当前迭代次数l的融合编码向量r_l。

其中，上述的第一注意力网络和第二注意力网络均采用local attention类型，包含320个节点；层级注意力网络也采用local attention类型，包括320个节点。

然后，利用解码器网络进行解码时，将当前迭代次数l的融合编码向量r_l和解码器网络在l-1次迭代中解码输出的隐状态向量q_l-1均输入解码器网络进行解码，解码器网络对输入的向量进行部分解码，获得当前迭代次数l对应的第三音素序列。其中，解码器器网络采用1层320节点的BLSTM层构建。

上述的编码器网络、辅助编码器网络、第一注意力网络、第二注意力网络和解码器网络均采用训练样本进行训练，训练样本包括：已知的语音信号及其带重音标签的音素序列和带元音弱读标签的音素序列。训练各个网络时，计算编码器和辅助编码器网络的CTC损失函数p_ctc(C|X)，以及计算解码器网络的损失函数作为注意力损失函数p_att(C|X)，并按公式(3)确定总体损失函数L。接着，采用梯度下降法计算损失函数L的梯度值，并回传梯度更新所有网络的参数。然后，根据公式(4)确定预测出的最接近带元音弱读标签的音素序列样本的预测序列

L＝λlogp_ctc(C|X)+(1-λ)logp_att(C|X) (3)

公式(3)中，X为语音信号样本的声学特向量序列，C为语音信号样本的带元音弱读标签的音素预测序列，λ为权重，平衡两种损失函数。

公式(4)中，U为多次解码获得的语音信号样本的带元音弱读标签的音素预测序列的集合。

在步骤S4中，对解码获得的第三音素概率序列、第一CTC模块获得的第一音素概率序列和第二CTC模块获得的第二音素概率序列进行加权融合，获得第四音素概率序列，采用波束搜索方法对第四音素概率序列进行波束搜索，获得所述语音信号对应的带元音弱读标签的音素序列。

本实施例中，将波束大小(Beam Size)设定为10，在步骤S3获得的每次迭代对应的第三音素概率序列中保留总体概率最大的10个音素序列，将其作为下一次计算使用的部分序列，进行下一次迭代，直至生成整个序列，完成解码，该序列即为带元音弱读标签的音素序列。

本申请实施例提供了一种元音弱读检测装置，如图3所示，该装置包括：

本实施例中，该装置还包括训练模块，所述训练模块具体用于：

其中，各模块的具体功能参见发明内容和前述方法实施例中的介绍，此处不再赘述。

基于上述方法实施例，本申请还提供一种计算设备，如图4所示，该计算设备包括存储器、处理器、通信接口以及总线。其中，存储器、处理器、通信接口通过总线实现彼此之间的通信连接。

存储器可以是只读存储器(read only memory，ROM)、随机存取存储器(randomaccess memory，RAM)、硬盘和快闪存储器中一个或其任意组合。存储器可以存储程序，当存储器中存储的程序被处理器执行时，处理器和通信接口用于执行计算设备为用户提供元音弱读检测方法。

处理器可以采用中央处理器(central processing unit，CPU)，应用专用集成电路(application specific integrated circuit，ASIC)，GPU或其任意组合。处理器可以包括一个或多个芯片。处理器可以包括AI加速器，例如神经网络处理器(neural processingunit，NPU)。

通信接口使用例如收发器一类的收发模块，来实现计算设备与其他设备或通信网络之间的通信。

总线可包括在计算设备各个部件(例如，存储器、处理器、通信接口)之间传送信息的通路。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

1.一种元音弱读检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采用注意力机制对所述声学特征向量序列和所述目标文本对应的先验编码向量序列依次进行迭代融合包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述利用解码器网络对每次迭代获得的融合编码向量进行解码，获得每次迭代对应的第三音素概率序列包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.一种元音弱读检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述融合模块具体用于：

8.根据权利要求7所述的装置，其特征在于，所述融合模块还具体用于：

9.根据权利要求6所述的装置，其特征在于，所述解码模块具体用于：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块具体用于：