CN112183086A

CN112183086A - 基于意群标注的英语发音连读标记模型

Info

Publication number: CN112183086A
Application number: CN202011011686.6A
Authority: CN
Inventors: 徐书尧; 秦龙; 陈进; 陆勇毅
Original assignee: Beijing Singsound Intelligent Technology Co ltd
Current assignee: Beijing Singsound Intelligent Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-05

Abstract

本发明涉及英语发音标注模型技术领域，尤其是一种基于意群标注的英语发音连读标记模型，包括文本预处理、意群标注模型以及连读标注模块，所述的文本预处理为将输入的文本进行分句与分词预处理，将预处理后的文本输入意群标注模型，意群标注模型输出意群信息与文本至连读标注模块进行连读分析，连读标注模块完成连读标注后输出标记结果，本发明能够高效地并行运算。

Description

基于意群标注的英语发音连读标记模型

技术领域

本发明涉及英语发音标注模型技术领域，具体领域为一种基于意群标注的英语发音连读标记模型。

背景技术

单词间的连读、变音是英语口语中的一种常见现象。口语学习中，在文本上显式地标出需要连读变音的位置能够帮助学生更好地掌握地道的发音，并且可以提高学生对于连读的听力理解能力。因此，连读、变音的标注对于英语口语的学习具有促进作用。

常见的连读、变音包括：失去爆破音、相同或相似音的失去、轻辅音[h]连读、连读发生音变成为复合辅音等。以上连读与变音应当发生在语义紧密的词之间，也就是同一个意群内，不同的意群间的连读显得不自然，如Is it a hat or a cat中ora间的连读。因此语句中意群的划分是标注连读发音的前提。

常规的序列标注模型，如条件随机场(CRF)、循环神经网络RNN以及变体如GRU、LSTM等被成功地运用于意群的标注。然而常规的循环神经网络序列标注模型，在计算t时刻时需要依赖t-1时刻的运算结果，也就是需要依次计算，这样的按序列依次运算的方式不利于并行化计算。基于Self-attention的Transformer结构虽然可以并行化，但却需要序列长度平方级的计算与空间复杂度。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于意群标注的英语发音连读标记模型。

为实现上述目的，本发明提供如下技术方案：一种基于意群标注的英语发音连读标记模型，包括文本预处理、意群标注模型以及连读标注模块，所述的文本预处理为将输入的文本进行分句与分词预处理，将预处理后的文本输入意群标注模型，意群标注模型输出意群信息与文本至连读标注模块进行连读分析，连读标注模块完成连读标注后输出标记结果，

所述的意群标注模型包括字母级别的卷积神经网络编码器、词嵌入层、序列标注模型和CRF层，预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理，并将运算结果输入到CRF层中解码得到意群标注序列，

所述的连读标注模块以句子与意群信息作为输入，根据连读规则在意群内标注连读与变音。

优选的，所述的意群标注模型还包括词嵌入层，字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理，并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块。

优选的，字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层，对字母嵌入表示进行卷积运算，运算的结果做最大池化后输出。

优选的，所述的序列标注模型由分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构构成，分组卷积神经网络与Position-Wise Feed-ForwardNetworks两个子结构间以残差连接并插入Layer-Normalization。

优选的，所述的分组卷积神经网络由两层分组卷积层构成，两层间使用的激活函数为ReLU，

设定第一层分组卷积层的分组数G等于输入通道数C₁，中间通道数C₂为4C₁，输出通道数为C₁，即，

输入

输入到第一层分组卷积层，其中L为序列长度，d_model为模型隐状态大小，

y＝max(GroupedConv(x，K₁，C₁，C₂，G)，0)

其中

C₁＝G＝d_model，K₁为卷积核的大小。

第二层分组卷积层的输入通道数为C₂，输出通道数为C₁，卷积核大小为K₂，分组数G；

z＝GroupedConv(y，K₂，C₂，C₁，G)

其中

优选的，Position-Wise Feed-Forward Networks的计算公式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中

优选的，定义CRF层的目标函数为

其中A为标签转移矩阵，A_i,j表示标签i转移到标签j的分数，θ为模型中所有的参数，输入的句子x，句子长度为T，[f_θ]_i，t表示神经网络在t个词输出标签i的分数；

令

是句子x的真实标签序列，需要优化的目标函数为：

在推理时，采用Viterbi算法求解最大化

的标签序列

优选的，所述的连读标注模块设定规则为：

a.失去爆破音，当前一词以爆破音[p]、[b]、[t]、[d]、[k]、[g]结尾，后一词以辅音开头，则爆破音失爆；

b.相同或相似音的失去,相同或相似的两个音素以及发音部位相同的音素相邻时，前一个音素不读出声；

c.轻辅音[h]的连读，如果前一个单词以辅音音素结尾，后一个单词的读音以轻辅音音素[h]开头，语速较快时，直接穿透[h]与后面的元音音素发生连读，即辅音[h]不发音；

d.连读发生音变成为复合辅音；

e.词末连接音[r]+元音，单词末尾的r或re，在英式读音中，不发音；在美式读音中，发[r]，在连贯话语中，如果后面紧跟一个以元音开头的词，而且两个词属于同一个意群时，发生连读，英音中原本不发音的r或re，此时发[r]音；

f.前一个词是以辅音结尾，后一个词是以/w/或/j/，应当连读。

优选的，输入文本经过字母级别编码后与相应的词嵌入表示拼接，输入到序列标注层，经过N次计算后输出，再经过一次线性变化后投影到标签空间中作为CRF层的发射分数，结合CRF层的转移分数解码出最优的标签序列。

与现有技术相比，本发明的有益效果是：采用了一种基于分组卷积神经网络与Position-Wise Feed-Forward Networks作为基本建模单元的模型结构。该结构在意群标注任务上不止性能优秀，并且能够高效地并行运算。本发明的另一个关键技术点是基于意群标注模型的连读标记，即先利用序列标注模型对输入文本的意群划分进行预测，然后在意群内进行连读标记。

附图说明

图1为本发明的整体流程图；

图2为本发明的意群标注模型结构；

图3为本发明的分组卷积神经网络；

图4为本发明的字母级编码器结构。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于意群标注的英语发音连读标记模型，包括文本预处理、意群标注模型以及连读标注模块，所述的文本预处理为将输入的文本进行分句与分词预处理，将预处理后的文本输入意群标注模型，意群标注模型输出意群信息与文本至连读标注模块进行连读分析，连读标注模块完成连读标注后输出标记结果，

所述的意群标注模型包括字母级别的卷积神经网络编码器、序列标注模型和CRF层，预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理，并将运算结果输入到CRF层中解码得到意群标注序列，

如同2所示，所述的意群标注模型还包括词嵌入层，字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理，并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块，序列标注模块对输入进行N次计算后输出，经过一次线性变化后投影到标签空间中作为CRF层的发射分数，结合CRF层的转移分数解码出最优的标签序列。

如图4所示，字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层，对字母嵌入表示进行卷积运算，运算的结果做最大池化后输出。

所述的序列标注模型由分组卷积神经网络与Position-Wise Feed-ForwardNetworks两个子结构构成，分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构间以残差连接并插入Layer-Normalization。

如图3所示，卷积核大小为3，其中图3中不同的灰度代表不同的分组，所述的分组卷积神经网络由两层分组卷积层构成，两层间使用的激活函数为ReLU，

输入

y＝max(GroupedConv(x，K₁，C₁，C₂，G)，0)

其中

C₁＝G＝d_model，K₁为卷积核的大小。

z＝GroupedConv(y，K₂，C₂，C₁，G)

其中

Position-Wise Feed-Forward Networks的计算公式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中

定义CRF层的目标函数为

令

是句子x的真实标签序列，需要优化的目标函数为：

在推理时，采用Viterbi算法求解最大化

的标签序列

所述的连读标注模块设定规则为：

d.连读发生音变成为复合辅音；

通过本技术方案，实验中采用大小100的GloveWordVector作为词嵌入层的初始化，字母的嵌入表示大小为30，字母级别的CNN通道数为30，卷积核大小为3。可调节的超参数包括d_model,K₁,K₂,G,C₁,C₂,N,实验中优化的最优参数为d_model＝G＝C₁＝200,K₁＝K₂＝5,C₂＝800,N＝3。采用了Dropout作为正则化策略，Dropout概率为0.3。SGD作为优化算法，学习率为0.01，momentum＝0.9，学习率每3epoch乘以0.9。一共训练100epochs，最佳模型根据在开发集上的综合F₁选择。

在标准语义分割数据集上的结果如下表1所示；

表1.实验结果

在标准语义分割数据集上的结果如下表1所示：

CNN-BiLSTM-CRF表示基于LSTM的模型，该模型除了用双向的LSTM代替ConvFFN外与CNN-ConvFFN-CRF的设置相同。如表1所示，提出的CNN-ConvFFN-CRF的F1优于基于LSTM的模型。ConvFFN-CRF表示去除字母级别编码器的模型，同CNN-ConvFFN-CRF相比，F1降低了0.5。CNN-ConvFFN为去除CRF的模型，F1显著低于CNN-ConvFFN-CRF。因此字母级别编码器与CRF都能显著提升意群标注的性能。

方案中的超参数如N,G,K₁,K₂,d_model,C₁,C₂,Dropout的概率，学习率，学习率衰减策略、优化算法、激活函数的选择等都可调节；

方案中的嵌入层初始化可以替换为Word2Vector,FastText等静态的预训练策略也可以替换为ELMo、BERT等动态的预训练策略；

字母级别编码器除了可以采用卷积神经网络，也可以采用循环神经网络以及变体代替。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于意群标注的英语发音连读标记模型，其特征在于：包括文本预处理、意群标注模型以及连读标注模块，所述的文本预处理为将输入的文本进行分句与分词预处理，将预处理后的文本输入意群标注模型，意群标注模型输出意群信息与文本至连读标注模块进行连读分析，连读标注模块完成连读标注后输出标记结果，

所述的意群标注模型包括字母级别的卷积神经网络编码器、词嵌入层、序列标注模型和条件随机场层(CRF层)，预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理，并将运算结果输入到条件随机场层中解码得到意群标注序列，

2.根据权利要求1所述的基于意群标注的英语发音连读标记模型，其特征在于：所述的意群标注模型还包括词嵌入层，字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理，并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块。

3.根据权利要求2所述的基于意群标注的英语发音连读标记模型，其特征在于：字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层，对字母嵌入表示进行卷积运算，运算的结果做最大池化后输出。

4.根据权利要求2所述的基于意群标注的英语发音连读标记模型，其特征在于：所述的序列标注模型由分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构构成，分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构间以残差连接并插入Layer-Normalization。

5.根据权利要求4所述的基于意群标注的英语发音连读标记模型，其特征在于：所述的分组卷积神经网络由两层分组卷积层构成，两层卷积层间插入ReLU作为激活函数，

输入