CN111145718A

CN111145718A - 一种基于自注意力机制的中文普通话字音转换方法

Info

Publication number: CN111145718A
Application number: CN201911395278.2A
Authority: CN
Inventors: 张鹏远; 尚增强; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-12
Anticipated expiration: 2039-12-30
Also published as: CN111145718B

Abstract

本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法，进行中文句子到变调后发音的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合，其中自注意力机制用来捕捉输入句子中字符的依赖关系，多任务学习引入额外的词性和三个拼音属性作为子任务；并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息；最后发音可以由主任务预测结果得出，也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。

Description

一种基于自注意力机制的中文普通话字音转换方法

技术领域

本发明涉及语音合成领域，尤其涉及一种基于自注意力机制的中文普通话字音转换方法。

背景技术

TTS技术广泛应用于电子图书、语音助手、车载导航、语音客服等产品中。中文语音合成中，无论是参数式还是序列到序列的模型，音素级别的建模单元足够紧凑进而能够得到有效的训练。而字音转换的作用就是将汉字到发音的映射。

字音转换的核心在于多音字消歧和变调，在一些情况中，发音由语义所决定。比如”还”表示归换时读“huan2”如“归还”，表示仍然时读“hai2”如“还是”。还有一部分的变调声调环境所造成的，比如两个连续的三声连读时，前一个通常读作2声，例如“美好”读作“mei2 hao3”；“一、不”在不同的声调环境中读不同的声调。最早的多音字消歧时基于手工规则的方法，由语言专家总结多音字消岐的规律，并将这些规律写成计算机形式。然而，随着规则的增加，难以避免出现相互冲突的情况。随着语料库积累，很多研究者尝试使用统计的方法，决策树和最大熵模型都曾用来进行多音字消岐的任务。然而，统计的方法需要手动设计特征，这些特征工程需要专业的语言学知识。

深度神经网络常用来提取高维特征表示，简化了特征工程的难度。RNN结构的模型已经在字音转换任务中体现出比较好的性能，然而因其序列化的结构导致计算复杂度提高，并且难以并行计算。而且，传统的字音转换系统时多音字消岐和变调分别属于不同功能模块，需要进行的两种模块的级联。

发明内容

本发明的目的旨在利用自注意力模型高度并行的特点解决计算困难的问题，同时实现字符串到变调后发音的端到端的直接预测。通过引入一个结合多任务学习和CRF的相对位置编码自注意力模型框架，包括词性、发音属性(声母、韵母、声调)的子任务，将传统字音转换中多音字消岐和变调模块融为一体。

本发明为解决上述技术问题采用的技术方案为，一方面提供一种中文普通话字音转换方法，所述字音转换通过神经网络模型，所述神经网络模型包括嵌入层、自注意力层、分类层，所述方法包括：

将中文普通话语句输入所述神经网络模型的嵌入层，所述嵌入层将所述中文普通话语句中的汉字映射为字嵌入向量；

所述自注意力层利用自注意机制将所述字嵌入向量映射为高维向量；

所述分类层根据所述高维向量，确定所述汉字的普通话发音，并将其输出；或者，

所述分类层根据所述高维向量，对所述汉字的声母、韵母、声调分别进行分类且结合所述分类结果，确定所述汉字的普通话发音，并将其输出；

所述神经网络模型由训练得到。

优选地，采用条件随机场对所述声调进行分类。

具体地，所述采用条件随机场对所述声调进行分类，通过在分类层中添加CRF层进行，所述分类的数学表示式为：

其中，X为声调后验概率序列，

表示第t个字符在第i个标签上的后验概率，A_ij为转移权重(CRF层引入转移权重A_ij来建模相邻时间步长的标签转移概率)，X^T为句子在所有可能路径上的打分(式子中考虑转移概率和后验概率的和)，P是后验概率。

优选地，所述利用自注意机制还包括，根据汉字在语句的相对位置信息计算自注意力权重。

优选地，所述自注意力层由6个相同的自注意力子层和一个前馈子层串联构成；

所述自注意力子层采用多头注意力机制，使用八个注意力头，其数学表达式为：

MultiHead(Q，K，V)＝Concat(H_i，...，H_h)W

其中，Q、K、V为查询、键和值矩阵，Concat为连接函数，W为线性映射矩阵，

为将查询、键和值(Query、Key和Value)映射到相同的维度的映射矩阵，d_model、d_q、d_k、d_v、为模型、查询、键和值的纬度，V为值矩阵，softmax为计算权重函数；

所述前馈子层由两个线性变换组成，并在两个线性变换之间是使用ReLU激活函数，其数学表达式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中W1和W2为权重矩阵，b1和b2为偏置向量，x为MultiHead()的计算结果。

具体地，在所述注意力头的计算中添加基于嵌入的相对位置编码计算，其中，考虑的最大相对距离为K，仅考虑2K+1相对位置标签，其数学表达式为：

clip(x,k)＝max(-k,min(k,x))

其中，w^K，w^V为相对位置表示映射，i、j为比较位置，k为窗口大小，x为相对位置。

优选地，所述声母的种类包括empty、b、p、m、f、d、t、n、l、g、k、hj、q、x、zh、ch、sh、r、z、c、s、y、w，其中empty表示零声母；所述韵母的种类包括a、o、e、i、u、u:、ai、ei、ui、ao、ou、iu、ie、u:、e、er、iao、uai、uo、ia、ua、ue、an、en、in、un、u:n、ian、uan、ang、eng、ing、ong、iang、iong、uang、r；所述音调的种类包括1、2、3、4、5。

另一方面，提供一种中文普通话字音转换神经网络模型的训练方法，所述神经网络模型包括嵌入层、自注意力层、分类层，所述训练方法包括：

统计中文普通话语料中的汉字及其拼音，建立汉字和拼音的映射表；

将所述中文普通话语料中的语句输入所述神经网络模型的嵌入层，根据所述映射表，所述嵌入层将所述语句中的汉字映射为字嵌入向量；

根据所述高维向量，确认所述语句中的词的词性种类，并给所述词打上所述词性种类的标签；

所述分类层根据所述高维向量以及所述标签，确定所述汉字的普通话发音，并将其输出；或者，

比较所述普通话发音和所述中文普通话语料的语句中所述汉字的标签发音，判断所述普通话发音的发音准确性，其中，若所述普通话发音根据对所述汉字的声母、韵母、声调分别进行分类得到，当且仅当声母、韵母、声调三者分类的结果均符合所述标签发音，判定所述普通话发音的发音准确性为准确；根据多个所述汉字的普通话发音的发音准确性确定所述神经网络模型的准确率，根据所述准确率是否达到期望标准，确定是否完成所述神经网络模型的训练；若结果为未达到，

则继续进行所述将所述中文普通话语料中的语句输入所述神经网络模型的嵌入层，至所述确定是否完成所述神经网络模型的训练的过程；

若结果为达到，则完成所述神经网络模型的训练。

优选地，所述映射表，由字嵌入向量构成，所述字嵌入向量的维度设为256，所述中文普通话语料统计中汉字总数为C个，总发音数由P个，所述映射表由C个字嵌入向量构成，所述确定所述汉字发音为确认P个总发音中的一个。

优选地，所述词性的种类为34种。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种中文普通话字音转换神经网络模型的模块图；

图2为本发明实施例提供的一种基于自注意力机制的中文普通话字音转换方法的流程图；

图3为本发明实施例提供的一种中文普通话字音转换神经网络模型的训练方法的流程图；

图4为本发明实施例提供的一种基于自注意力机制的中文普通话字音转换方法的实验结果对比图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一、所述神经网络模型的结构：

图1为本发明实施例提供的一种中文普通话字音转换神经网络模型的层次图：如图所示，其包括嵌入层(Embedding Layer)、自注意力层(图中为，Self Attention Sub-Layer和Feed-forward Sub-Layer)、分类层(图中为，Outpus)。

嵌入层，将输入的中文语句中的汉字映射为对应的字嵌入向量，嵌入层参数在模型训练过程中更新。

其中，使用字嵌入向量是由于汉字字符数量大，直接使用one-hot(一个发音对于一个向量维度)向量会导致输入空间过于稀疏，所以本发明中使用字嵌入向量表示汉字，将汉字字符用连续向量空间上的点来表示。由于任务目标是发音的预测，所以空间上越相近的点其发音越相似。

在一个实施例中，统计语料中所有的汉字和所有可能出现的发音，然后分别建立字符和拼音的字嵌入向量映射表，模型的输入是字符嵌入序列，输出是拼音后验概率。

在另一个实施例中，字嵌入向量的维度大小设为256，统计语料得到所用汉字总数为15342个，所有可能的发音由2378个。创建大小15342*256的字嵌入向量映射表，训练开始时字嵌入向量映射表随机初始化，并在训练过程中跟新参数。该实施例中，模型的任务是直接预测发音，即模型输出对2378类的softmax分类。

自注意力层，由N个相同的自注意力子层(重复叠加)和一个前向子层组成。自注意力层将字嵌入向量映射为高维特征。

在一个实施例中，N为6。

具体的，神经网络多头注意力机制自从提出以来，便在自然语言处理领域成功应用，刷新多项任务记录。Transformer的框架在Transformer TTS端到端系统也展现了不错的性能。采用多头注意力机制的优点是，多头注意力允许模型联合关注在不同位置不同表示子空间的信息，对每一个单独的头，点乘注意力同来计算全局向量。

在一个实施例中，在注意力子层中使用了八个注意力头，其公式为，

MultiHead(Q,K,V)＝Concat(H_i,...，H_h)W

其运行为，

作为映射矩阵。分别将Query、key和value映射到相同的维度。除以根号d是指对维度归一化操作。使用softmax函数计算权重，并对映射后的value加权求和的得到最终的注意向量。每个注意力模块的结果连接在一起乘以线性映射w矩阵得到多头注意力的结果。八个注意力允许模型能够同时关注不同位置的表示，相同的自注意力模块的串接允许模型的学习到更加抽象的高维子空间表示。

前馈子层，由两个线性变换组成，并在两个线性变换之间是使用ReLU激活函数，其数学表达式为：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中W1和W2为权重矩阵，b1和b2为偏置向量，x为前述MultiHead()的计算结果。

在一个实施例中，为了加速训练，对于每一个子层使用残差连接和层归一化。

由于在传统的多头注意力模块的计算中，结构上并没有考虑到位置信息，所以需要在输入部分额外的添加位置编码，传统的位置编码基于sinusoid函数，对输入每个维度加上不同的周期，如下列公式所示，

PE(t，2i)＝sin(t/10000^2i/d)

PE(t，2i+1)＝cos(t/1000^2i/d)

其中t是输入的时序长度，i是输入嵌入维度，d为输入嵌入特征的总维度

但由于当测试数据长度远大于训练数据长度时，会导致模型推理失败，为解决这个问题，

在一个实施例中，添加基于嵌入的相对位置编码来克服训练和测试不一致的问题。考虑的最大相对距离为K，因为假设在某个距离处的精确相对位置信息不再适用。剪切最大距离还可以使模型推广到训练期间看不到的序列长度。因此，仅考虑2K+1相对位置标签。修改了上述注意力公式，以考虑相对位置编码。由于字音转换任务对最接近的上下文影响最大，因此相对位置编码更为有效。修改后的注意力公式为，

clip(x,k)＝max(-k,min(k,x))

其运行为，相对位置嵌入表示矩阵w^k，w^V在训练过程中更新学习，由于最大相对距离为k，则总共需要维护两个(2k+1)*d大小的相对嵌入矩阵，加入相对位置编码后，点乘注意力公式中key在原来基础上加上想位置嵌入key，同理，value也在其基础上相对位置嵌入value。

分类层，对所述高维特征进行分类得到所述汉字的普通话发音。

在一个实施例中，分类层中使用Softmax方法得到分类后验概率，即得到发音的分类结果。

在另一个实施例中，将汉字拼音拆分成声韵母结构，分类层对声母(initial)、韵母(final)、声调分别进行分类，结合三种分类结果确认所述汉字的普通话发音。在又一个实施例中，将每个汉字的发音根据声韵母结构拆分成三个子任务，包括声母、韵母和声调。其中对于零声母的读音，其声母标签设为“empty”。这样使得预测维度从原来的1300下降到100以内，任务拆分如下表所示，

在又一个实施例中，声调分类时引入CRF层来建模声调转移概率，能够提高模型变调的能力。具体的，在中文普通话中，除了不同语义环境的变调，还由很多不同语调情况下的变调，这种变调，常常是由后一个音节声调的影响引起的。为解决这一情况的变调，我们声调预测时引入了CRF层。在普通的分类任务中，经过softmax层后获得每类的后验概率，直接选择后验概率最大的最为输出，而CRF中考虑了输出标签(此标签非彼标签)的顺序，综合标签的转移概率和后验概率的结果综合打分。

对于声调后验概率序列X，

表示第t个字符在第i个标签上的后验概率，CRF层引入转移权重A_ij来建模相邻时间步长的标签转移概率，一个句子在所有可能路径上的打分X^T是考虑转移概率和后验概率的和。采用引入CRF层声调分类的数学表示式为：

其中，X为声调后验概率序列，

表示第t个字符在第i个标签上的后验概率，A_ij为转移权重，X^T为句子在所有可能路径上的打分，P是后验概率。在又一个实施例中，推理测试时使用动态规划来计算其中的最优声调序列。

在另一个实施例中，分类层中引入词性预测子任务，进一步提高分类准确性。具体地，在中文多音字消岐任务中，一般认为多音字的读音是跟语义和上下文有关。词性任务可以解决一部分语音混淆问题，从而确定多音字的发音。例如，“好”作为形容词念作“hao3”，意为好的，作为动词时念作“hao4”，意为喜好。很难直接从汉字来预测发音因为缺少语义信息。我们引入词性预测的辅助任务，这样发音预测任务能够获得部分语音信息通过共享隐层的高维特征。

二、本发明实施例：

图2为本发明实施例提供的一种基于自注意力机制的中文普通话字音转换方法的流程图，如图所示，包括下列步骤：

步骤S110，将中文普通话语句输入中文普通话字音转换神经网络模型的嵌入层，所述嵌入层将该中文普通话语句中的汉字映射为字嵌入向量。

步骤S120，神经网络模型的自注意力层利用自注意机制将步骤S110得到的字嵌入向量映射为高维向量。

选择进行，

步骤S130，神经网络模型分类层根据步骤S120得到的高维向量，

确定中文普通话语句中的汉字发音，并输出结果。

或进行，

步骤S140，神经网络模型分类层根据步骤S120得到的高维向量，

对声母、韵母、声调分别进行分类并结合其结果，确定中文普通话语句中的汉字发音，并输出结果。

图3为本发明实施例提供的一种中文普通话字音转换神经网络模型的训练方法的流程图，如图所示，包括下列步骤：

步骤S210，统计中文普通话语料中的汉字及其拼音，建立汉字和拼音的映射表；

步骤S220，将中文普通话语料中的语句输入中文普通话字音转换神经网络模型的嵌入层，根据所述映射表，嵌入层将所述语句中的汉字映射为字嵌入向量；

步骤S230，神经网络模型的自注意力层利用自注意机制将步骤S220得到的字嵌入向量映射为高维向量；

步骤S240，根据步骤S230得到的高维向量，确认所述语句中的词的词性种类，并给所述词打上所述词性种类的标签；

步骤S250，神经网络模型的分类层根据步骤S230得到的高维向量以及步骤S240得到的标签，确定所述语句中的汉字的发音，并输出确定后的结果；或者，

步骤S260，神经网络模型分类层根据所述根据步骤S230得到的高维向量以及步骤S240得到的标签，对声母、韵母、声调分别进行分类并结合其结果，确定所述语句中的汉字发音，并输出确定后的结果。

步骤S270，比较所述汉字发音和中文普通话语料中的语句中汉字的标签发音，根据比较结果评价所述汉字发音的发音准确性，其中，若所述汉字发音根据其声母、韵母、声调分别进行分类得到，当且仅当其声母、韵母、声调三者分类的结果均符合所述标签发音，判定所述汉字发音的准确性为准确；根据多个所述汉字发明的发音准确性确定神经网络模型的准确率，根据准确率是否达到期望标准，确定是否完成所述神经网络模型的训练；

若结果为未达到，则回到，

步骤S220，继续执行该步骤至步骤S270的过程；

若结果为达到，则进行，

步骤S280，结束神经网络模型的训练。

在另一个实施例中，使用中文普通话验证语料集验证上述训练过程后神经模型的是否存在过拟合或欠拟合。

三、本发明提供的中文普通话转音方法的实验数据：

根据本发明提供的中文普通话转音方法的实验所需要的文本及其对应发音来源于一个开源高质量的中文普通话数据。文本覆盖了多个领域，包括新闻、小说、对话、休闲、科技等方面。文本共有10000句话，平均每句话包括16个汉字。90％的语句用来训练，10％当作验证集，剩下的10％用作测试。虽然统计得出单音字的个数是多音字的五倍，但多音字占整个语料的三分之二。我们使用北京大学的多领域中文分词工具包pkuseg来获取训练数据的词性标签。一共定义了34种不同词性。

为了调研词性的辅助任务对不同语义环境下的作用，以及CRF层对不同声调环境下变调的作用，有必要引入对比实验组。另外，为了验证在字音转换任务中相对位置编码的作用，对照实验使用传统的sinusoid位置编码，来对比其对性能的影响。对比实验组各个模型的定义如下：

1、SA-Char仅有中文字符串输入的自注意力模型。

2、SA-POSInpt输入端结合中文字符串及其词性标注信息，在字符嵌入的基础上拼接词性嵌入来弥补语义信息的缺失。

3、SA-POSTask在SA-Char的基础上引入词性预测的子任务

4、SA-3SubTasks将任务根据属性拆分成三个子任务预测

5、SA-AllTasks在SA-3SubTasks基础上加入词性预测子任务

6、SA-AllTasks-ToneCRF在SA-AllTasks基础上加入CRF层建模声调转移概率

实验配置：字嵌入向量的维度大小一致设为256，自注意力层中注意力头个数设为8，共有6个多头注意力子层串联。为了缓解模型的过拟合，在注意力Softmax层中加入了dropout层，保持概率设为0.8。

联合准确率joint-acc，为评价三个拆分任务联合判断时的准确率，在这里我们引入联合准确率，其中当且仅当三个任务同时判断正确时，所对应的拼音是正确的，反之是错误的。

同时,实验也验证了G2PC(使用传统CRF消岐多音字，采用规则变调的开源系统)在我们测试集上的性能作为对比，该模型使用CRF进行多音字消岐，并使用手写规则变调。

实验结果数据如图4所示：

对比其中SA-POSTask、SA-POSInpt和SA-Char，从实验结果可以初步得出，词性作为系统输入时，由于词性预测错误的积累，不利于字音转换任务的性能。当词性以多任务的形式引入系统后，通过高层信息的共享，能够捕捉字音与词性的关联，反而能提高性能。对比SA-3Subtasks和SA-Char，根据属性添加子任务后，性能由明显提升，主要是因为显示引人声调后，由于声调环境所造成的变调能力会有所改善。

此外，先前工作显示了在序列标注的任务中，加入CRF层后使得模型能够建模标签间的转移概率并生成最优序列标注。然而实验显示，在绝对位置编码的自注意力模型SA-ALLTasks+ToneCRF中引入CRF层阻碍了模型的性能，而在相对位置编码中，CRF层发挥了正向作用，CRF层提升了声调的识别准确率进而联合准确率也得到了提升,这说明位置编码的选择直接影响了CRF在模型中的表达，且自注意力模型本身部分考虑了标签之间的转移关系。

对比相对位置和绝对位置编码两组实验，模型性能整体得到提升，词性分类的子任务也有5％的绝对提高。相对位置编码能更好的与额外多任务融合，在不改变整体模型的配置下，提高识别准确率。在相对位置编码中，CRF层也发挥了作用，提高了联合准确率。

从以上实施例可以看出，采用本发明实施例提供了一种基于自注意力机制的中文普通话字音转换方法，进行中文句子到变调后声调的直接预测。该方法将多任务学习和相对位置编码与自注意力模型相结合，其中自注意力机制用来捕捉输入句子中字符的依赖关系，多任务学习引入额外的词性和三个拼音属性作为子任务；并且使用CRF来建模声调转移关系,相对位置编码来有效建模序列的位置信息；最后发音可以由主任务预测结果得出，也可以是三个拼音属性子任务联合判决的结果。该方法很大程度提升中文普通话字音转换的性能。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文普通话字音转换方法，所述字音转换通过神经网络模型，所述神经网络模型包括嵌入层、自注意力层、分类层，所述方法包括：

所述神经网络模型由训练得到。

2.根据权利要求1所述的方法，其特征在于，对所述汉字的声调进行分类中,采用条件随机场估计发音习惯声调转移概率。

3.根据权利要求1所述的方法，所述利用自注意机制还包括，根据汉字在语句的相对位置信息计算自注意力权重。

4.根据权利要求1所述的方法，其特征在于，所述自注意力层由6个相同的自注意力子层和一个前馈子层串联构成；

MultiHead(Q,K,V)＝Concat(H_i,...，H_h)W

为将查询、键和值(Query、Key和Value)映射到相同的维度的映射矩阵，

d_model、d_q、d_k、d_v、为模型、查询、键和值的纬度，V为值矩阵，softmax为计算权重函数；

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

5.根据权利要求4所述的方法，其特征在于，在所述注意力头的计算中增加基于嵌入的相对位置编码计算，其中，考虑的最大相对距离为K，仅考虑2K+1相对位置标签，其数学表达式为：

cliip(x，k)＝max(-k，min(k，x))

6.根据权利要求1所述的方法，其特征在于，所述声母的类别包括empty、b、p、m、f、d、t、n、l、g、k、h j、q、x、zh、ch、sh、r、z、c、s、y、w，其中empty表示零声母；所述韵母的类别包括a、o、e、i、u、u:、ai、ei、ui、ao、ou、iu、ie、u:、e、er、iao、uai、uo、ia、ua、ue、an、en、in、un、u:n、ian、uan、ang、eng、ing、ong、iang、iong、uang、r；所述音调的类别包括1、2、3、4、5。

7.根据权利要求2所述的方法，其特征在于，所述采用条件随机场估计发音习惯声调转移概率，通过在分类层中添加CRF层进行，所述声调分类的数学表示式为：

其中，X为声调后验概率序列，

8.一种中文普通话字音转换神经网络模型的训练方法，所述神经网络模型包括嵌入层、自注意力层、分类层，所述训练方法包括：

若结果为达到，则完成所述神经网络模型的训练。

9.根据权利要求8所述的训练方法，其特征在于，所述映射表，由字嵌入向量构成，所述字嵌入向量的维度设为256，所述中文普通话语料统计中汉字总数为C个，总发音数由P个，所述映射表由C个字嵌入向量构成，所述确定所述汉字发音为确认P个总发音中的一个。

10.根据权利要求8所述的训练方法，其特征在于，所述词性的种类为34种。