CN107515850A

CN107515850A - 确定多音字发音的方法、装置和系统

Info

Publication number: CN107515850A
Application number: CN201610424566.6A
Authority: CN
Inventors: 孟泽豫; 雷鸣; 薜少飞
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-15
Filing date: 2016-06-15
Publication date: 2017-12-26

Abstract

本发明公开了一种确定多音字发音的方法、装置和系统。其中，该方法包括：获取包含了多音字的文本；使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型；根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。本发明解决了现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的技术问题。

Description

确定多音字发音的方法、装置和系统

技术领域

本发明涉及语音通信领域，具体而言，涉及一种确定多音字发音的方法、装置和系统。

背景技术

语音合成服务(text to speech，TTS)中很重要的一个模块是对用户输入的文本做准确分析后得到其对应的发音序列(字音转换)，之后由此合成出声音文件。汉字中的多音字约有1千个，常见多音字约200-300字，对于这些多音字的发音预测是否准确直接影响了语音合成系统的准确性与可懂度。

多音字的发音预测是一个典型的分类问题，即针对某个多音字及其对应的上下文找出其最有可能的发音。分类问题通常由特征选择和模型建模两个部分组成。多音字消歧任务的特征选择需要较高程度地依赖经验，常用的特征包括多音字的前后字、前后词、前后词的词长、前后词的词性、前后关键字、多音字在句中的相对位置等。模型建模已有的比较成熟的方案有最大熵模型(ME)、条件随机场(CRF)等。这两种模型都是近年来在自然语言处理中广泛使用的统计模型，并且有比较成熟的开源工具包。最大熵模型是从满足所有约束的概率分布中选取条件熵最大的概率分布；CRF模型主要是用于处理序列标注问题，在给定观测序列的情况下，对整个序列的联合概率建立一个统一的概率模型，应用于多音字消歧问题也取得了较好的成果，即将输入文本作为观测序列，着重关注目标多音字发音的预测。

但是，现有的最大熵模型、条件随机场模型需要高度依赖特征工程和建模人员的经验，并且当特征不断增多时训练过程会变的非常耗时，模型也会变得非常大。应用于离线的环境(比如手机在无网络连接的状态下)时还需大幅剪裁模型尺寸，这在一定程度上又会影响到模型的性能。并且，在很多场景下，多音字的发音可能会依赖于距离较远的字，如“项目负责人为伊万诺夫娜”(为读2声)，“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”(为读4声)。这两个例子中，在前半句完全相同的情况下，“为”字的发音很大程度上是由后面是否有“举行”这样的词来决定的，中间的人名可以被替换成任何可能的情况，对“为”字的发音几乎起不到决定性作用。而现有的模型考虑到训练开销和模型尺寸，一般只会向前后看1-2个字，很难利用到如此长距离的上下文信息。同时，现有方法可预测标签(即多音字可能的发音)的数量不可过多(通常只有3-5个)，标签数量过多不仅增加训练开销，还会影响到模型性能。因此这些方法需要对每个字单独训练相应的模型。TTS服务通常会对容易产生歧义的多音字用多音字消歧模型来完成消歧任务，这样的多音字一般会有30-50个之多，这也意味着，现有方法需要单独训练数十个模型，并在服务端应用这数十个模型进行多音字的读音预测，这给TTS服务引擎带来一定复杂度。

针对现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种确定多音字发音的方法、装置和系统，以至少解决现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的技术问题。

根据本发明实施例的一个方面，提供了一种确定多音字发音的方法，包括：获取包含了多音字的文本；使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型；根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

根据本发明实施例的另一方面，还提供了一种确定多音字发音的装置，包括：获取模块，用于获取包含了多音字的文本；解码模块，用于使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型；预测模块，用于根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

根据本发明实施例的另一方面，还提供了一种确定多音字发音的系统，包括：输入装置，用于发送包含了多音字的文本；处理器，与输入装置连接，用于使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，并根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音，其中，通过神经网络模型进行特征训练得到多音字消歧模型；输出装置，与处理器连接，用于显示或播放多音字在文本的上下文中的读音。

在本发明实施例中，获取包含了多音字的文本，使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

容易注意到，由于在获取到包含了多音字的文本之后，可以通过神经网络模型进行特征训练得到多音字消歧模型，并使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率。因此，通过本申请实施例所提供的方案，可以通过神经网络进行训练得到多音字消歧模型，不但减小了模型规模和解码复杂度，同时由于多个多音字在同一个模型中可以共享模型底层的网络所学习到的知识，可以提高模型的鲁棒性以及达到相比于单字模型更优的效果。

由此，本发明提供的上述实施例解决了现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本申请实施例一的一种确定多音字发音的系统的示意图；

图2是本申请实施例的一种确定多音字发音的方法的计算机终端的硬件结构框图；

图3是根据本申请实施例二的一种确定多音字发音的方法的流程图；

图4是根据本申请实施例二的一种可选的确定多音字发音的方法的示意图；

图5是根据本申请实施例二的一种可选的特征准备模块构建特征数据的示意图；

图6是根据本申请实施例二的一种可选的神经网络的拓扑结构的示意图；

图7是根据本申请实施例二的一种可选的确定多音字发音的方法的交互图；

图8是根据本申请实施例三的一种确定多音字发音的装置的示意图；

图9是根据本申请实施例三的一种可选的确定多音字发音的装置的示意图；

图10是根据本申请实施例三的一种可选的确定多音字发音的装置的示意图；

图11是根据本申请实施例三的一种可选的确定多音字发音的装置的示意图；

图12是根据本申请实施例三的一种可选的确定多音字发音的装置的示意图；

图13是根据本申请实施例三的一种可选的确定多音字发音的装置的示意图；以及

图14是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

语音合成：text to speech，从文本到语言，TTS文语转换用途很广，包括电子邮件的阅读、IVR系统的语音提示等等，关键技术是语音合成，可以进行文本分析，语音合成，以及韵律处理等。

多音字：可以是一个汉字或者一个英文单词有两个或两个以上的读音，不同的读音表义不同，用法不同，词性也往往不同，例如，汉字“为”可以读2声，此时可以表示“当”，“是”的含义；“为”还可以读4声，此时可以表示“行为的对象”，“给”等含义。英文单词“desert”的发音可以是此时可以表示名词词性的“沙漠”，或者形容词词性的“像沙漠的”等含义；英文单词“desert”的发音还可以是此时可以表示动词词性的“抛弃”等含义。

多音字的文本：包含一个或多个多音字的文本，例如，项目负责人为伊万诺夫娜举行了隆重的欢迎仪式，包含了一个多音字“为”。

多音字消歧模型：用于多音字消歧任务的统计模型，例如，最大熵模型、条件随机场模型，主要是基于经验选择特征，常用的特征包括多音字的前后字、前后词、前后词的词长、前后词的词性、前后关键字、多音字在句中的相对位置等。

神经网络：人工神经网络，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型，是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

注音文本：即文本中的每一个文字都标注相应的拼音，因此，可以作为神经网络的训练文本。

独热编码：即one-hot编码，又称一位有效编码，使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候，其中只有一位有效。

实施例1

根据本申请实施例，提供了一种确定多音字发音的系统。

图1是根据本申请实施例一的一种确定多音字发音的系统的示意图，如图1所示，该来去电界面的内容显示系统可以包括输入装置11，处理器13和输出装置15。

其中，输入装置11用于发送包含了多音字的文本。

具体的，上述输入装置可以是手持设备，例如，智能手机、平板等移动设备，也可以是鼠标、键盘等输入设备。

在一种可选的方案中，用户可以通过文本形式输入需要进行语音合成的文本，文本中可以包含有一个或多个多音字，从而得到包含多音字的文本，输入装置可以将用户输入的包含了多音字的文本发送给处理器。例如，用户可以输入文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”，文本中“为”是多音字，从而得到包含多音字的文本。又例如，用户可以输入文本“We traverse the desert by truck”，文本中“desert”是多音字，从而得到包含多音字的文本。

处理器13，与输入装置11连接，用于使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，并根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音，其中，通过神经网络模型进行特征训练得到多音字消歧模型。

此处需要说明的是，为了得到包含了多音字的文本中每个多音字的读音，需要构建多音字消歧模型。神经网络可以利用大量数据学习到输入特征自身的信息，不再需要设计庞杂繁复的特征；神经网络可以更好的利用长距离的上下文信息，不再局限于多音字前后的1-2个字；神经网络的输出节点可以由几百上千个，并且不会给训练过程带来多付的开销，通过大量数据训练一个综合模型即可涵盖包含数十个多音字的。因此，为了降低多音字消歧模型的模型规模，以及复杂度，可以采用神经网络进行特征训练得到多音字消歧模型。

在一种可选的方案中，处理器接收输入装置发送的包含了多音字的文本，可以通过解码模块对包含了多音字的文本进行解码，解码模块可以利用已经训练好的多音字消歧模型对包含了多音字的文本中出现的多音字进行预测，预测每个多音字可能的读音，得到文本中每个多音字的每种读音的发音概率。可以根据预测得到的多音字的每种读音的发音概率，选择发音概率最大的发音，得到多音字的发音；或者，可以根据预测得到的多音字的每种读音的发音概率，结合语言学发音规则做进一步判断，从而确定多音字的发音。

例如，以包含了多音字的文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。“为”字包含两个发音，分别是2声和4声，在获取到包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”之后，可以通过解码模块对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行解码，利用多音字消歧模型对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行解码，使用多音字消歧模型对多音字“为”进行预测，可以得到2声的概率为0.4，4声的概率为0.6。可以根据得到的两个概率，选择概率较大的发音，即选择概率为0.6的4声作为多音字“为”在文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”中的读音。

又例如，以包含了多音字的文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。单词“desert”包含两个读音，分别是和在获取到包含了多音字的文本“We traverse the desert by truck”之后，可以通过解码模块对包含了多音字的文本“We traverse the desert by truck”进行解码，利用多音字消歧模型对包含了多音字的文本“We traverse the desert by truck”进行解码，使用多音字消歧模型对多音字“desert”进行预测，可以得到发音的概率为0.7，发音的概率为0.3。可以根据得到的两个概率，选择概率较大的发音，即选择概率为0.7的发音作为多音字“desert”在文本“We traverse the desert bytruck”中的读音。

输出装置15，与处理器13连接，用于显示或播放多音字在文本的上下文中的读音。

具体的，上述输出装置可以是显示器、显示屏等用于显示多音字的读音的显示装置，也可以是扬声器等可以播放多音字的读音的播放装置。

在一种可选的方案中，处理器在通过解码模块对包含了多音字的文本进行解码，得到文本中每个多音字的每种读音的发音概率，并根据预测得到的多音字的每种读音的发音概率，确定多音字的发音之后，显示器等显示装置可以将多音字以及在上下文中的读音显示在显示器中，还可以将多音字的每种读音，以及对应的发音概率显示在显示器中。

在另一种可选的方案中，处理器在通过解码模块对包含了多音字的文本进行解码，得到文本中每个多音字的每种读音的发音概率，并根据预测得到的多音字的每种读音的发音概率，确定多音字的发音之后，扬声器可以播放确定后的多音字的发音，还可以播放整个包含多音字的文本的发音。

例如，仍以包含了多音字的文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。“为”字包含两个发音，分别是2声和4声，利用多音字消歧模型对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行解码，得到2声的概率为0.4，4声的概率为0.6，确定概率为0.6的4声作为多音字“为”在文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”中的读音，进一步可以显示“为”字两个发音和对应的概率，以及最后确定的读音。

又例如，仍以包含了多音字的文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。单词“desert”包含两个读音，分别是和利用多音字消歧模型对包含了多音字的文本“We traverse the desert bytruck”进行解码，得到发音的概率为0.7，发音的概率为0.3，确定概率为0.7的发音作为多音字“desert”在文本“We traverse the desert by truck”中的读音，进一步可以显示“desert”两个发音和对应的概率，以及最后确定的读音。

由上可知，本申请上述实施例一公开的方案中，获取包含了多音字的文本，使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

由此，本申请提供的上述实施例一的方案解决了现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的技术问题。

本发明实施例中由输入装置11，处理器13和输出装置15构成的确定多音字发音的系统可以至少实现以下功能：

处理器将包含了多音字的文本进行转换，得到多音字的向量；将多音字的向量输入至多音字消歧模型，计算得到多音字的每种读音的发音概率；其中，将发音概率大的一个发音作为多音字的读音。

在获取包含了多音字的文本之前，处理器采样注音文本，其中，注音文本包括用于估计模型的训练集；根据训练集中的训练文本构建特征数据，特征数据包括至少一个特征向量；将特征数据输入至神经网络模型进行模型训练，得到多音字消歧模型。

处理器将训练文本中包含的词或字转换为如下任意一个或多个特征向量：以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量；其中，在获取到多个特征向量到情况下，将多个特征向量进行拼接得到特征数据。

可选的，词向量为n维词向量，字向量为独热编码形式的向量。

神经网络模型包括：DNN层集合和/或RNN层集合，DNN层集合包括：一层或多层DNN层，RNN层包括：一层或多层RNN层，其中，在神经网络模型中包括DNN层集合和RNN层集合的情况下，DNN层集合和RNN层集合在构成的网络结构中的排列顺序允许更换；其中，处理器将特征数据输入至DNN层集合和/或RNN层集合，在DNN层集合和/或RNN层集合对特征数据进行维度处理之后，生成多音字消歧模型。

注音文本还包括：用于检测训练模型的结果的测试集，测试集中包括：包含了预设的多音字的测试文本，其中，在对特征数据进行模型训练得到多个多音字消歧模型之后，处理器将测试文本输入至多个多音字消歧模型中进行测试，得到多个预测结果；确定与测试文本中包含的多音字读音的匹配度最高的预测结果。

在文本包含多个多音字的情况下，处理器预测得到每个多音字在文本的上下文中的读音，其中，文本的拼音序列中包含预测得到的每个多音字的读音的序列。

在文本包括多条语句，且每条语句都包含多音字的情况下，处理器在使用多音字消歧模型对包含了多音字的文本进行解码的过程中，对每条语句插入起始标签和/或结束标签以使得多音字消歧模型对每条语句分别进行解码，得到每条语句中的多音字的每种读音的发音概率。

实施例2

根据本申请实施例，还提供了一种确定多音字发音的方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例二所提供的方法实施例可以在通信设备、计算机终端或者类似的运算装置中执行。以运行在移动设备为例，图2是本申请实施例的一种确定多音字发音的方法的计算机终端的硬件结构框图。如图2所示，计算机终端20可以包括一个或多个(图中仅示出一个)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器204、以及用于通信功能的传输模块206。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端20还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

存储器204可用于存储应用软件的软件程序以及模块，如本申请实施例中的确定多音字发音的方法对应的程序指令/模块，处理器202通过运行存储在存储器204内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的确定多音字发音的方法。存储器204可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器204可进一步包括相对于处理器202远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端20。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置206用于经由一个网络输入或者发送数据。上述的网络具体实例可包括计算机终端20的通信供应商提供的无线网络。在一个实例中，传输装置206包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置206可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图3所示的确定多音字发音的方法。图3是根据本申请实施例二的一种确定多音字发音的方法的流程图，如图3所示，上述方法可以包括如下步骤：

步骤S32，获取包含了多音字的文本。

在一种可选的方案中，用户可以通过文本形式输入需要进行语音合成的文本，文本中可以包含有一个或多个多音字，从而获取到包含多音字的文本。例如，用户可以输入文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”，文本中“为”是多音字，从而得到包含多音字的文本。又例如，用户可以输入文本“We traverse the desert by truck”，文本中“desert”是多音字，从而得到包含多音字的文本。

步骤S34，使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型。

在一种可选的方案中，可以通过解码模块对包含了多音字的文本进行解码，解码模块可以利用已经训练好的多音字消歧模型对包含了多音字的文本中出现的多音字进行预测，预测每个多音字可能的读音，得到文本中每个多音字的每种读音的发音概率。

例如，以包含了多音字的文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。“为”字包含两个发音，分别是2声和4声，在获取到包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”之后，可以通过解码模块对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行解码，利用多音字消歧模型对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行解码，使用多音字消歧模型对多音字“为”进行预测，可以得到2声的概率为0.4，4声的概率为0.6。

又例如，以包含了多音字的文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。单词“desert”包含两个读音，分别是和在获取到包含了多音字的文本“We traverse the desert by truck”之后，可以通过解码模块对包含了多音字的文本“We traverse the desert by truck”进行解码，利用多音字消歧模型对包含了多音字的文本“We traverse the desert by truck”进行解码，使用多音字消歧模型对多音字“desert”进行预测，可以得到发音的概率为0.7，发音的概率为0.3。

步骤S36，根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

在一种可选的方案中，可以根据预测得到的多音字的每种读音的发音概率，选择发音概率最大的发音，得到多音字的发音；或者，可以根据预测得到的多音字的每种读音的发音概率，结合语言学发音规则做进一步判断，从而确定多音字的发音。

例如，仍以包含了多音字的文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。在通过解码模块对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行解码，得到文本中多音字“为”读2声的概率为0.4，读4声的概率为0.6，可以根据得到的两个概率，选择概率较大的发音，即选择概率为0.6的4声作为多音字“为”在文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”中的读音。

又例如，仍以包含了多音字的文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。单词“desert”包含两个读音，分别是和在获取到包含了多音字的文本“We traverse the desert by truck”之后，可以通过解码模块对包含了多音字的文本“We traverse the desert by truck”进行解码，利用多音字消歧模型对包含了多音字的文本“We traverse the desert by truck”进行解码，使用多音字消歧模型对多音字“desert”进行预测，可以得到发音的概率为0.7，发音的概率为0.3。可以根据得到的两个概率，选择概率较大的发音，即选择概率为0.7的发音作为多音字“desert”在文本“We traverse the desert bytruck”中的读音。

由上可知，本申请上述实施例二公开的方案中，获取包含了多音字的文本，使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

由此，本申请提供的上述实施例二的方案解决了现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的技术问题。

根据本申请上述实施例，步骤S34，使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，可以包括如下步骤：

步骤S342，将包含了多音字的文本进行转换，得到多音字的向量。

在一种可选的方案中，可以通过特征构建模块，对获取到的包含了多音字的文本进行构建特征，可以采用多音字消歧模型中特征构建方法，将包含了多音字的文本进行转换，得到以字或词为单位的词向量或者字向量。

此处需要说明的是，包含了多音字的文本中的每个字或者词都会转换为一个特征向量，特征向量可以是任意形式的词或者字的向量表征，即每个词或者字都有一个固定维数(例如，可以是N维)的向量表示。

例如，仍以包含了多音字的文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。在获取到包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”之后，可以通过特征构建模块对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行转换，得到以字为单位的21个特征向量。

又例如，仍以包含了多音字的文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。在获取到包含了多音字的文本“We traverse thedesert by truck”之后，可以通过特征构建模块对包含了多音字的文本“We traverse thedesert by truck”进行转换，得到以字为单位(即以单词为单位)的6个特征向量。

步骤S344，将多音字的向量输入至多音字消歧模型，计算得到多音字的每种读音的发音概率；其中，将发音概率大的一个发音作为多音字的读音。

在一种可选的方案中，在通过特征构建模块得到词向量或者字向量之后，可以将词向量或者字向量输入到多音字消歧模型，通过多音字消歧模型对多音字的读音进行预测，输出多音字的每种读音的发音概率。

例如，仍以包含了多音字的文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。在获取到包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”之后，可以通过特征构建模块对包含了多音字的文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”进行转换，得到以字为单位的21个特征向量。将21个特征向量输入到多音字消歧模型中，多音字预测模型在“为”字对应的输出应该包含两维，分别对应两种发音的可能性打分。若输出是概率形式的，则可以是2声的概率为0.4，4声的概率为0.6。

又例如，仍以包含了多音字的文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。在获取到包含了多音字的文本“We traverse thedesert by truck”之后，可以通过特征构建模块对包含了多音字的文本“We traverse thedesert by truck”进行转换，得到以字为单位的6个特征向量。将6个特征向量输入到多音字消歧模型中，多音字预测模型在“desert”对应的输出应该包含两维，分别对应两种发音的可能性打分。若输出是概率形式的，则可以是发音的概率为0.7，发音的概率为0.3。

根据本申请上述实施例，在步骤S32，获取包含了多音字的文本之前，上述方法还可以包括如下步骤：步骤S30，构建多音字消歧模型，该步骤可以包括如下步骤：

步骤S302，采样注音文本，其中，注音文本包括用于估计模型的训练集。

在一种可选的方案中，如图4所示，可以通过数据准备模块收集大量高质量的注音文本，并以语句为单位，按照一定比例，例如，可以是8:1:1，也可以根据实际需要适当调整，将注音文本划分训练集(train set)、验证集(validation set)和测试集(test set)。其中,训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数(比如神经网络层数或者学习率等参数)，测试集检验最终的模型的性能如何。

例如，以训练文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。可以通过数据准备模块收集大量包含“为”字的文本语句以及对应的正确读音，例如，已有100万句多音字标音语料，可以从中抽取10％作为验证集，10％作为测试集，剩下的80％作为训练集，训练集的训练文本可以包括“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”，“项目负责人为伊万诺夫娜”，“为国捐躯”，“十两为一斤”等文本语句。

例如，以训练文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。可以通过数据准备模块收集大量包含“desert”单词的文本语句以及对应的正确读音，例如，已有100万句多音字标音语料，可以从中抽取10％作为验证集，10％作为测试集，剩下的80％作为训练集，训练集的训练文本可以包括“We traverse the desertby truck”，“Jack deserted his wife”，“The officer deserted his post”，“She ledthem into a deserted sidestreet”等文本语句。

步骤S304，根据训练集中的训练文本构建特征数据，特征数据包括至少一个特征向量。

在一种可选的方案中，如图4所示，可以通过特征准备模块将训练集中训练文本，验证集中的训练文本，按照特定的格式构建特征数据，如图5所示，可以将普通文本转换为可用于模型训练的特征向量。

例如，仍以训练文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。在通过数据准备模块收集到大量包含“为”字的文本语句以及对应的正确读音之后，可以以字或者词为单位，通过特征准备模块将训练文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”转换为词向量或者字向量。例如，以字为单位，训练文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”可以转换为21个特征向量。

又例如，仍以训练文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。在通过数据准备模块收集到大量包含“desert”单词的文本语句以及对应的正确读音之后，可以以单词或者短语为单位，通过特征准备模块将训练文本“Wetraverse the desert by truck”转换为短语向量或者单词向量。例如，以单词为单位，训练文本“We traverse the desert by truck”可以转换为6个特征向量。

步骤S306，将特征数据输入至神经网络模型进行模型训练，得到多音字消歧模型。

在一种可选的方案中，如图4所示，在通过特征准备模块构建得到特征向量之后，可以根据分类准则，通过模型训练模块以语句为单位，结合语句中包含的多音字的正确发音，将特征向量和正确发音一起输入到神经网络模型中进行训练，得到多音字消歧模型。

此处需要说明的是，在模型训练过程中，由于在迭代进行到一定轮数之后，训练集的准确率的增长已经不能用于表征模型性能的提高，此时如果继续进行模型训练，会使模型对训练样本过拟合。因此，验证集的验证样本并不用于进行模型训练，可以通过验证集的准确率确定是否停止模型训练，从而避免训练过拟合(overfitting)。在模型的每一轮迭代中，每个训练样本都可以通过误差回传的方式调整神经网络参数，并且在每一轮迭代结束之后，可以计算训练集和验证集的准确率，如果验证集的准确率的增长小于等于某一预设的阈值，则训练结束，否则，继续进行下一轮的迭代。

此处还需要说明的是，神经网络模型的训练过程可以看作是从大量原始文本中学习汉字语义信息的过程，例如，在三层的神经网络中，第一层网络可以学到语法层面的知识，例如词边界，词性等，第二层网络可以进一步学习到浅层语义层面的知识，例如主谓关系，动宾关系等，第三层网络可以学习到针对多音字的所特有的特性，例如专有名词，固定搭配等，输出层则可以通过前面三层传来的信息进行综合判断，从而给出所有可能的预测结果的概率。

例如，仍以训练文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。在通过特征准备模块将训练文本构建得到21个特征向量之后，可以将21个特征向量和对应的“为”字的正确发音，即“为”字的读音为4声，一起输入到神经网络模型中进行训练，得到多音字“为”的多音字消歧模型。

又例如，仍以训练文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。在通过特征准备模块将训练文本构建得到6个特征向量之后，可以将6个特征向量和对应的“desert”单词的正确发音，即“desert”单词的读音为一起输入到神经网络模型中进行训练，得到多音字“desert”的多音字消歧模型。

根据本申请上述实施例，步骤S304，根据训练集中的训练文本构建特征数据，可以包括如下步骤：

步骤S3042，将训练文本中包含的词或字转换为如下任意一个或多个特征向量：以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量；其中，在获取到多个特征向量到情况下，将多个特征向量进行拼接得到特征数据。

具体的，当训练文本为汉字文本时，粒度可以是词组或者单字；当训练文本为英文文本时，上述粒度可以是短语或者单词。

可选的，根据本申请上述实施例，词向量可以为n维词向量，字向量可以为独热编码形式的向量。

此处需要说明的是，独热编码的构造方法可以是，如果词典的规模为m，每个词或者字对应的向量表示为m维，词典中第i个词对应的向量表示为第i维为1，其他所有维为0的向量。

在一种可选的方案中，如图5所示，可以以字或者词为单位，通过特征准备模块将训练文本中的字或者词转换为字向量、词向量、词性向量、词边界向量，以及其他有价值的特征向量，在将训练文本中包含的词或者字转换得到多个特征向量的情况下，例如，将训练文本中包含的词转换为词向量、词性特征向量和词边界特征向量，可以将各个向量拼接到一起，从而得到每个字或者词最终用于模型训练的特征数据。

例如，仍以训练文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。若只以字的one-hot向量作为输入特征时，则该句的特征数据包括一共21个特征向量，其中每个特征向量的维数一致，都是字表的大小，每个字按照在字表中的位置对应维为1其他所有维为0。例如，上述训练文本“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”中，“为”转换的字向量可以是“000001000000000000000”，“举”转换的字向量可以是“000000000001000000000”，“欢”转换的字向量可以是“000000000000000001000”。

又例如，仍以训练文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。若只以字的one-hot向量作为输入特征时，则该句的特征数据包括一共6个特征向量，其中每个特征向量的维数一致，都是字表的大小，每个字按照在字表中的位置对应维为1其他所有维为0。例如，上述训练文本“We traverse the desert bytruck”中，“We”转换的字向量可以是“100000”，“desert”转换的字向量可以是“000100”，“truck”转换的字向量可以是“000001”。

根据本申请上述实施例，上述神经网络模型可以包括：DNN层集合和/或RNN层集合，上述DNN层集合可以包括：一层或多层DNN层，上述RNN层可以包括：一层或多层RNN层，其中，在神经网络模型中包括DNN层集合和RNN层集合的情况下，DNN层集合和RNN层集合在构成的网络结构中的排列顺序允许更换；其中，步骤S306，将特征数据输入至神经网络模型进行模型训练，得到多音字消歧模型，可以包括如下步骤：步骤S3062，将特征数据输入至DNN层集合和/或RNN层集合，在DNN层集合和/或RNN层集合对特征数据进行维度处理之后，生成多音字消歧模型。

此处需要说明的是，如图6所示，神经网络模型的输入层可以是通过特征准备模块得到的特征数据，首先连接一层或多层全连接层(Fully Connected DNN layer)，然后连接一层或多层RNN层(Recurrent Neural Networks layer)，之后再通过一层或多层全连接层连接到最终输出层。神经网络模型可以是单个多音字对应单个多音字预测模型，也可以是多个多音字对应唯一一个多音字预测模型，即多个多音字的发音由一个模型预测得到。对输出层而言，如果最终的模型是多个多音字的预测模型，则输出层包含多个多音字所有发音的预测；如果最终的模型是单个多音字的预测模型，则输出层是单个多音字的所有发音预测。

此处还需要说明的是，这里的网络结构不是必须的，最终的形式也可以是单独的多层全连接层，或者单独的多层RNN层，即图6中的多层全连接层和多层RNN层可以根据需要进行组合，组合的方式也不局限于串联，最优的网络结构可以根据具体消歧任务以及训练语料的质量和规模来确定，例如，如果是针对单个或少量多音字的预测模型，则可以选用一层DNN+一层RNN+一层DNN的形式实现，并且每层只需要128或256维即可达到预测单个或少量多音字的效果。如果是大量多音字的混合预测模型，则需要相应的增加预测模型的深度和宽度，例如，可以采用一层DNN+三层RNN+一层DNN的模型，每层的维度也可以相应增加至512维甚至1024维。

在一种可选的方案中，神经网络模型可以包括DNN层集合，可以将通过特征准备模块得到的特征数据输入神经网络模型，即输入至DNN层集合，通过DNN层集合可以对特征数据进行维度处理，将相邻的多个特征向量进行合并降维，得到每个多音字的每种读音的可能性，从而生成多音字消歧模型。

在另一种可选的方案中，神经网络模型可以包括RNN层集合，可以将通过特征准备模块得到的特征数据输入神经网络模型，即输入至RNN层集合，通过RNN层集合可以对特征数据进行维度处理，可以将长距离上下文对应的多个特征向量进行合并降维，得到每个多音字的每种读音的可能性，从而生成多音字消歧模型。

在又一种可选的方案中，神经网络模型可以包括DNN层集合，RNN层集合和DNN层集合，可以将通过特征准备模块得到的特征数据输入神经网络模型，即将特征数据输入DNN层集合进行维度处理，将相邻的多个特征向量进行合并降维，预测得到每个多音字的每种读音的可能性，然后将第一次维度处理后的特征数据输入RNN层集合，将长距离上下文对应的多个特征向量进行合并降维，对第一次预测得到的每个多音字的每种读音的可能性进行第二次预测，得到每个多音字的每种读音的可能性，然后将第二次维度处理后的特征数据输入DNN层集合，再将相邻的多个特征向量进行合并降维，对第二次预测得到的每个多音字的每种读音的可能性进行第三次预测，得到每个多音字的每种读音的可能性，从而得到多音字消歧模型。

根据本申请上述实施例，上述注音文本还可以包括：用于检测训练模型的结果的测试集，上述测试集中可以包括：包含了预设的多音字的测试文本，其中，在步骤S306，对特征数据进行模型训练得到多个多音字消歧模型的情况下，上述方法还可以包括如下步骤：

步骤S3082，将测试文本输入至多个多音字消歧模型中进行测试，得到多个预测结果。

在一种可选的方案中，如图4所示，在通过训练集和验证集训练得到多个多音字消歧模型之后，可以根据数据准备模块划分好的测试集中的测试文本，对多音字消歧模型进行校验。可以通过特征准备模块对测试集中的测试文本进行转换，得到以字或者以词为单位的特征向量，通过解码模块将特征向量输入至多个多音字消歧模型中进行预测，得到对应的预测结果。

例如，以测试文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。可以通过特征准备模块，以字的one-hot向量作为输入特征，得到21个特征向量，将21个特征向量输入至多个多音字消歧模型，对多音字“为”进行预测，得到预测结果，即多音字“为”的两个读音，2声的可能性和4声的可能性。

又例如，以测试文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。可以通过特征准备模块，以字的one-hot向量作为输入特征，得到6个特征向量，将6个特征向量输入至多个多音字消歧模型，对多音字“desert”进行预测，得到预测结果，即多音字“desert”的两个读音，的可能性和的可能性。

步骤S3084，确定与测试文本中包含的多音字读音的匹配度最高的预测结果。

在一种可选的方案中，在将测试文本输入至多音字消歧模型中进行预测之后，可以将得到的预测结果，与测试文本中的多音字的正确读音进行匹配，得到匹配度最高的预测结果，即为该多音字的预测读音。进一步可以确定得到该预测结果的多音字消歧模型为满足预测要求的多音字消歧模型。

例如，仍以测试文本为“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。在将21个特征向量输入至多音字消歧模型，得到多音字“为”的两个预测结果之后，可以将两个结果与多音字“为”的正确读音2声进行匹配，得到匹配度最高的预测结果，即读2声的可能性。

又例如，仍以测试文本为“We traverse the desert by truck”为例，对本申请上述实施例进行详细说明。在将6个特征向量输入至多音字消歧模型，得到多音字“desert”的两个预测结果之后，可以将两个结果与多音字“desert”的正确读音进行匹配，得到匹配度最高的预测结果，即读2声的可能性。

此处需要说明的是，通过测试集中的测试文本，对多音字消歧模型进行测试，从而检验最终的多音字消歧模型的性能，是否可以满足实际需求，如果无法满足，则可以根据测试集中的测试文本对多音字消歧模型进行调整，直到最终的多音字消歧模型的性能满足预测需求。

根据本申请上述实施例，在文本包含多个多音字的情况下，预测得到每个多音字在文本的上下文中的读音，其中，文本的拼音序列中包含预测得到的每个多音字的读音的序列。

在一种可选的方案中，在获取到的文本包含多个多音字的情况下，可以通过解码模块，使用多个多音字的多音字消歧模型对文本进行解码，对本文中包含的每个多音字的每种读音进行预测，得到每个多音字的每种读音的发音概率，并根据预测得到的每个多音字的每种读音的发音概率，选择发音概率最大的发音，得到每个多音字的发音，进一步得到文本的拼音序列，拼音序列包括每个多音字的发音。

根据本申请上述实施例，在文本包括多条语句，且每条语句都包含多音字的情况下，在使用多音字消歧模型对包含了多音字的文本进行解码的过程中，对每条语句插入起始标签和/或结束标签以使得多音字消歧模型对每条语句分别进行解码，得到每条语句中的多音字的每种读音的发音概率。

在一种可选的方案中，获取到的文本可以包括多条语句，每条语句都可以包含一个或多个多音字，在通过解码模块使用多音字消歧模型对获取到的文本进行解码时，可以根据插入的起始标签，结束标签确定每条语句，例如，可以在多条语句中插入“/”，位于两个“/”之间的为一条语句。并通过解码模块对每条语句分别进行解码预测，从而得到每条语句中的多音字的每种读音的发音概率，进一步得到每条语句中的多音字在上下文中的读音，即得到文本的拼音序列。

例如，以文本为“项目负责人为李雷，项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”为例，对本申请上述实施例进行详细说明。在通过解码模块使用多音字消歧模型对文本进行解码预测之前，可以在文本中插入标签“/”，例如，“/项目负责人为李雷/，/项目负责人为伊万诺夫娜举行了隆重的欢迎仪式/”，可以通过解码模块使用多音字消歧模型对语句“项目负责人为李雷”和“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”分别进行解码预测，得到第一条语句“项目负责人为李雷”中多音字“为”读2声的概率为0.8，读4声的概率为0.2；第二条语句“项目负责人为伊万诺夫娜举行了隆重的欢迎仪式”中多音字“为”读2声的概率为0.4，读4声的概率为0.6，进一步可以得到，第一条语句中的多音字的读音为2声，第二条语句中的多音字的读音为4声，对应的拼音序列可以为2声，4声。

例如，以文本为“We traverse the desert by truck,and Jack deserted hiswife”为例，对本申请上述实施例进行详细说明。在通过解码模块使用多音字消歧模型对文本进行解码预测之前，可以在文本中插入标签“/”，例如，“/We traverse the desert bytruck/,and/Jack deserted his wife/”，可以通过解码模块使用多音字消歧模型对语句“We traverse the desert by truck”和“Jack deserted his wife”分别进行解码预测，得到第一条语句“We traverse the desert by truck”中多音字“desert”读的概率为0.7，读的概率为0.3；第二条语句“Jack deserted his wife”中多音字“desert”读的概率为0.4，读的概率为0.6，进一步可以得到，第一条语句中的多音字的读音为第二条语句中的多音字的读音为对应的拼音序列可以为

此处需要说明的是，在通过模型训练模块进行神经网络训练的过程中，可以使用GPU对神经网络进行训练，从而加快训练时间。

下面结合图7对本申请一种优选的实施例进行详细说明。

如图7所示，提供了一种可选的，确定多音字发音的方法，该方法可以包括如下步骤S71至步骤S77：

步骤S71，输入装置11将注音文本发送给处理器13。

可选的，输入装置可以包括数据准备模块，可以收集整理大量高质量的注音文本，并以句子为单位按照一定比例(通常为8：1：1，也可根据实际需要适当调整)划分为训练集(train set)、验证集(validation set)和测试集(test set)。其中,训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数(比如神经网络层数或者学习率等参数)，测试集检验最终的模型的性能如何。

步骤S72，处理器13根据注音文本中的训练文本构建特征数据。

可选的，处理器13可以包括特征准备模块，特征准备模块可以将收集的数据按照特定的格式构建训练特征，即将普通文本转换为可用于模型训练的向量。粒度根据数据的规模可以以字或词为单位。特征向量中可以包含从海量语料中学习到的词向量(或者字向量)作为特征的一部分(此处的词向量可以是任意形式的词或者字的向量表征，即每个词或者字都由一个固定维数的向量表示)，这里即可以直接用n维词向量作为输入特征，也可以采取one-hot的形式(也称独热编码，或一位有效编码，其构造方法是，如果词典的规模为m，每个词或者字对应的向量表示为m维，词典中第i个词对应的向量表示是第i维为1其他所有维为0的向量)作为输入。特征向量还可以包括但不限于词性、词边界等文本浅层分析特征。将各部分特征拼接到一起，得到每个字或词最终用于模型训练的特征数据。数据中的每个字或者词都会转换为一个特征向量，按照句子为单位，结合本句子中包含多音字的正确发音一起输入到模型中，进行模型训练。

步骤S73，处理器13将构建的特征数据输入至神经网络模型进行模型训练，得到多音字消歧模型。

可选的，处理器13还可以包括特征训练模块，特征训练模块可以利用训练集和验证集的特征数据训练得到模型，这个过程不断迭代更新调整参数直至模型性能最优。

步骤S74，输入装置11将包含多音字的文本发送给处理器13。

可选的，用户可以通过输入装置11输入需要进行语音合成的文本，文本中可以包含有一个或多个多音字。

步骤S75，处理器13使用多音字消歧模型对包含了多音字的文本进行解码，预测得到多音字在文本的上下文中的读音。

可选的，处理器13还可以包括解码模块，解码模块可以将文字序列按照与模型训练过程相同的特征准备方式构建特征，之后使用训练得到的多音字模型对多音字解码预测，得到多音字每个发音的可能性(概率或者打分)，预测的发音可能性可以直接用来判断多音字的发音(选出可能性最大的发音)，也可以结合一定的发音规则进行最终的发音判断，得到输入文本对应的拼音序列。完成了实际情况下多音字的发音解码预测。

步骤S76，处理器13将多音字在文本的上下文中的读音发送给输出装置15。

步骤S77，输出装置15显示或播放多音字在文本的上下文中的读音。

可选的，输出装置在得到多音字在文本的上下文中的读音之后，可以显示多音字以及在上下文中的读音，还可以显示多音字的每种读音，以及对应的发音概率；或者，可以播放确定后的多音字的发音，还可以播放整个包含多音字的文本的发音。

通过本申请上述实施例，可以采用神经网络作为消歧模型可以很好的利用大量数据学习到输入特征自身的信息，把工程师从特征工程中解放出来，即不再需要设计庞杂繁复的特征；可以利用递归神经网络(RNN，Recurrent Neural Network)(包括LSTM，LongShort Term Memory，以及BLSTM，Bidirectional Long Short Term Memory等变体)结构，更好的利用长距离的上下文信息；神经网络的输出节点可以有几百上千，而且并不会给训练带来不可接受的开销。因此，在需要的情况下只需要训练一个综合模型就可以含盖数十个重点多音字，这不但减小了模型规模和解码复杂度，同时由于多个多音字在同一个模型中可以共享模型底层的网络所学习到的知识，可以提高模型的鲁棒性以及达到相比于单字模型更优的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例3

根据本申请实施例，还提供了一种用于实施上述确定多音字发音的方法的确定多音字发音的装置，如图8所示，该装置包括：获取模块81，解码模块83和预测模块85。

其中，获取模块81用于获取包含了多音字的文本；解码模块83用于使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型；预测模块85用于根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

此处还需要说明的是，上述获取模块81，解码模块83和预测模块85对应于实施例二中的步骤S32至步骤S36，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例二所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例二提供的计算机终端20中。

由上可知，本申请上述实施例三公开的方案中，通过获取模块获取包含了多音字的文本，通过解码模块使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，通过预测模块根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

由此，本申请提供的上述实施例三的方案解决了现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的技术问题。

根据本申请上述实施例，如图9所示，上述解码模块83可以包括：第一转换模块91和计算模块93。

其中，第一转换模块91用于将包含了多音字的文本进行转换，得到多音字的向量；计算模块93用于将多音字的向量输入至多音字消歧模型，计算得到多音字的每种读音的发音概率；其中，将发音概率大的一个发音作为多音字的读音。

此处还需要说明的是，上述第一转换模块91和计算模块93对应于实施例二中的步骤S342至步骤S344，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例二所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例二提供的计算机终端20中。

根据本申请上述实施例，如图10所示，上述装置还包括：第一构建模块101，用于构建所述多音字消歧模型，上述第一构建模块101可以包括：采样模块1011，第二构建模块1013和训练模块1015。

其中，采样模块1011用于采样注音文本，其中，注音文本包括用于估计模型的训练集；第二构建模块1013用于根据训练集中的训练文本构建特征数据，特征数据包括至少一个特征向量；训练模块1015用于将特征数据输入至神经网络模型进行模型训练，得到多音字消歧模型。

此处还需要说明的是，上述采样模块1011，第二构建模块1013和训练模块1015对应于实施例二中的步骤S302至步骤S306，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例二所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例二提供的计算机终端20中。

根据本申请上述实施例，如图11所示，上述第二构建模块1013可以包括：第二转换模块111。

其中，第二转换模块111用于将训练文本中包含的词或字转换为如下任意一个或多个特征向量：以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量；其中，在获取到多个特征向量到情况下，将多个特征向量进行拼接得到特征数据。

此处还需要说明的是，上述第二转换模块111对应于实施例二中的步骤S3042，该模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例二所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例二提供的计算机终端20中。

根据本申请上述实施例，如图12所示，上述神经网络模型可以包括：DNN层集合和/或RNN层集合，上述DNN层集合可以包括：一层或多层DNN层，上述RNN层可以包括：一层或多层RNN层，其中，在神经网络模型中包括DNN层集合和RNN层集合的情况下，DNN层集合和RNN层集合在构成的网络结构中的排列顺序允许更换；其中，上述训练模块1015可以包括：生成模块121。

其中，生成模块121用于将特征数据输入至DNN层集合和/或RNN层集合，在DNN层集合和/或RNN层集合对特征数据进行维度处理之后，生成多音字消歧模型。

此处还需要说明的是，这里的网络结构不是必须的，最终的形式也可以是单独的多层全连接层，或者单独的多层RNN层，即图5中的多层全连接层和多层RNN层可以根据需要进行组合，组合的方式也不局限于串联，最优的网络结构可以根据具体消歧任务以及训练语料的质量和规模来确定，例如，如果是针对单个或少量多音字的预测模型，则可以选用一层DNN+一层RNN+一层DNN的形式实现，并且每层只需要128或256维即可达到预测单个或少量多音字的效果。如果是大量多音字的混合预测模型，则需要相应的增加预测模型的深度和宽度，例如，可以采用一层DNN+三层RNN+一层DNN的模型，每层的维度也可以相应增加至512维甚至1024维。

此处还需要说明的是，上述生成模块121对应于实施例二中的步骤S3062，该模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例二所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例二提供的计算机终端20中。

根据本申请上述实施例，如图13所示，上述注音文本还可以包括：用于检测训练模型的结果的测试集，上述测试集中可以包括：包含了预设的多音字的测试文本，其中，在对特征数据进行模型训练得到多个多音字消歧模型的情况下，上述装置还可以包括：测试模块131和确定模块133。

其中，测试模块131用于将测试文本输入至多个多音字消歧模型中进行测试，得到多个预测结果；确定模块133用于确定与测试文本中包含的多音字读音的匹配度最高的预测结果。

此处还需要说明的是，上述测试模块131和确定模块133对应于实施例二中的步骤S3082至步骤S3084，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例二所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例二提供的计算机终端20中。

根据本申请上述实施例，在文本包含多个多音字的情况下，上述预测模块85还用于预测得到每个多音字在文本的上下文中的读音，其中，文本的拼音序列中包含预测得到的每个多音字的读音的序列。

根据本申请上述实施例，在文本包括多条语句，且每条语句都包含多音字的情况下，上述解码模块83还用于在使用多音字消歧模型对包含了多音字的文本进行解码的过程中，对每条语句插入起始标签和/或结束标签以使得多音字消歧模型对每条语句分别进行解码，得到每条语句中的多音字的每种读音的发音概率。

实施例4

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为通信设备等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行确定多音字发音的方法中以下步骤的程序代码：获取包含了多音字的文本；使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型；根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

可选地，图14是根据本申请实施例的一种计算机终端的结构框图。如图14所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器141、存储器143、以及传输装置145。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的确定多音字发音的方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的确定多音字发音的方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取包含了多音字的文本；使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型；根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

可选的，上述处理器还可以执行如下步骤的程序代码：将包含了多音字的文本进行转换，得到多音字的向量；将多音字的向量输入至多音字消歧模型，计算得到多音字的每种读音的发音概率；其中，将发音概率大的一个发音作为多音字的读音。

可选的，上述处理器还可以执行如下步骤的程序代码：采样注音文本，其中，注音文本包括用于估计模型的训练集；根据训练集中的训练文本构建特征数据，特征数据包括至少一个特征向量；将特征数据输入至神经网络模型进行模型训练，得到多音字消歧模型。

可选的，上述处理器还可以执行如下步骤的程序代码：将训练文本中包含的词或字转换为如下任意一个或多个特征向量：以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量；其中，在获取到多个特征向量到情况下，将多个特征向量进行拼接得到特征数据。

可选的，上述处理器还可以执行如下步骤的程序代码：词向量为n维词向量，字向量为独热编码形式的向量。

可选的，上述处理器还可以执行如下步骤的程序代码：神经网络模型包括：DNN层集合和/或RNN层集合，DNN层集合包括：一层或多层DNN层，RNN层包括：一层或多层RNN层，其中，在神经网络模型中包括DNN层集合和RNN层集合的情况下，DNN层集合和RNN层集合在构成的网络结构中的排列顺序允许更换；其中，将特征数据输入至DNN层集合和/或RNN层集合，在DNN层集合和/或RNN层集合对特征数据进行维度处理之后，生成多音字消歧模型。

可选的，上述处理器还可以执行如下步骤的程序代码：注音文本还包括：用于检测训练模型的结果的测试集，测试集中包括：包含了预设的多音字的测试文本，其中，在对特征数据进行模型训练得到多个多音字消歧模型之后，将测试文本输入至多个多音字消歧模型中进行测试，得到多个预测结果；确定与测试文本中包含的多音字读音的匹配度最高的预测结果。

可选的，上述处理器还可以执行如下步骤的程序代码：在文本包含多个多音字的情况下，预测得到每个多音字在文本的上下文中的读音，其中，文本的拼音序列中包含预测得到的每个多音字的读音的序列。

可选的，上述处理器还可以执行如下步骤的程序代码：在文本包括多条语句，且每条语句都包含多音字的情况下，在使用多音字消歧模型对包含了多音字的文本进行解码的过程中，对每条语句插入起始标签和/或结束标签以使得多音字消歧模型对每条语句分别进行解码，得到每条语句中的多音字的每种读音的发音概率。

采用本申请实施例，获取包含了多音字的文本，使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

由此，本申请提供的上述实施例解决了现有技术中的确定多音字发音的方法需要对每个字单独训练相应的模型，导致模型规模庞大，解码复杂度高的技术问题。

本领域普通技术人员可以理解，图14所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图14中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图14所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例二所提供的来去电界面的内容显示方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于通信设备群中的任意一个通信设备中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取包含了多音字的文本；使用多音字消歧模型对包含了多音字的文本进行解码，得到文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到多音字消歧模型；根据多音字的每种读音的发音概率预测多音字在文本的上下文中的读音。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将包含了多音字的文本进行转换，得到多音字的向量；将多音字的向量输入至多音字消歧模型，计算得到多音字的每种读音的发音概率；其中，将发音概率大的一个发音作为多音字的读音。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：电话号码的类型包括如下任意一种或多种：陌生号码、通讯录中的号码和隶属于分类后的一组电话号码。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：采样注音文本，其中，注音文本包括用于估计模型的训练集；根据训练集中的训练文本构建特征数据，特征数据包括至少一个特征向量；将特征数据输入至神经网络模型进行模型训练，得到多音字消歧模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：将训练文本中包含的词或字转换为如下任意一个或多个特征向量：以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量；其中，在获取到多个特征向量到情况下，将多个特征向量进行拼接得到特征数据。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：词向量为n维词向量，字向量为独热编码形式的向量。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：神经网络模型包括：DNN层集合和/或RNN层集合，DNN层集合包括：一层或多层DNN层，RNN层包括：一层或多层RNN层，其中，在神经网络模型中包括DNN层集合和RNN层集合的情况下，DNN层集合和RNN层集合在构成的网络结构中的排列顺序允许更换；其中，将特征数据输入至DNN层集合和/或RNN层集合，在DNN层集合和/或RNN层集合对特征数据进行维度处理之后，生成多音字消歧模型。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：注音文本还包括：用于检测训练模型的结果的测试集，测试集中包括：包含了预设的多音字的测试文本，其中，在对特征数据进行模型训练得到多个多音字消歧模型之后，将测试文本输入至多个多音字消歧模型中进行测试，得到多个预测结果；确定与测试文本中包含的多音字读音的匹配度最高的预测结果。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在文本包含多个多音字的情况下，预测得到每个多音字在文本的上下文中的读音，其中，文本的拼音序列中包含预测得到的每个多音字的读音的序列。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：在文本包括多条语句，且每条语句都包含多音字的情况下，在使用多音字消歧模型对包含了多音字的文本进行解码的过程中，对每条语句插入起始标签和/或结束标签以使得多音字消歧模型对每条语句分别进行解码，得到每条语句中的多音字的每种读音的发音概率。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种确定多音字发音的方法，其特征在于，包括：

获取包含了多音字的文本；

使用多音字消歧模型对所述包含了多音字的文本进行解码，得到所述文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到所述多音字消歧模型；

根据所述多音字的每种读音的发音概率预测所述多音字在所述文本的上下文中的读音。

2.根据权利要求1所述的方法，其特征在于，使用多音字消歧模型对所述包含了多音字的文本进行解码，得到所述文本中的多音字的每种读音的发音概率，包括：

将包含了所述多音字的文本进行转换，得到多音字的向量；

将所述多音字的向量输入至所述多音字消歧模型，计算得到所述多音字的每种读音的发音概率；

其中，将发音概率大的一个发音作为所述多音字的读音。

3.根据权利要求1所述的方法，其特征在于，在获取包含了多音字的文本之前，所述方法还包括：构建所述多音字消歧模型，该步骤包括：

采样注音文本，其中，所述注音文本包括用于估计模型的训练集；

根据所述训练集中的训练文本构建特征数据，所述特征数据包括至少一个特征向量；

将所述特征数据输入至所述神经网络模型进行模型训练，得到所述多音字消歧模型。

4.根据权利要求3所述的方法，其特征在于，根据所述训练集中的训练文本构建特征数据，包括：

将所述训练文本中包含的词或字转换为如下任意一个或多个特征向量：以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量；

其中，在获取到多个特征向量到情况下，将所述多个特征向量进行拼接得到所述特征数据。

5.根据权利要求4所述的方法，其特征在于，所述词向量为n维词向量，所述字向量为独热编码形式的向量。

6.根据权利要求3所述的方法，其特征在于，所述神经网络模型包括：DNN层集合和/或RNN层集合，所述DNN层集合包括：一层或多层DNN层，所述RNN层包括：一层或多层RNN层，其中，在所述神经网络模型中包括DNN层集合和RNN层集合的情况下，所述DNN层集合和所述RNN层集合在构成的网络结构中的排列顺序允许更换；

其中，将所述特征数据输入至所述神经网络模型进行模型训练，得到所述多音字消歧模型，包括：将所述特征数据输入至所述DNN层集合和/或RNN层集合，在DNN层集合和/或RNN层集合对所述特征数据进行维度处理之后，生成所述多音字消歧模型。

7.根据权利要求3所述的方法，其特征在于，所述注音文本还包括：用于检测训练模型的结果的测试集，所述测试集中包括：包含了预设的多音字的测试文本，其中，在对所述特征数据进行所述模型训练得到多个多音字消歧模型的情况下，所述方法还包括：

将所述测试文本输入至所述多个多音字消歧模型中进行测试，得到多个预测结果；

确定与所述测试文本中包含的多音字读音的匹配度最高的预测结果。

8.根据权利要求1至7中任意一项述的方法，其特征在于，在所述文本包含多个多音字的情况下，预测得到每个多音字在所述文本的上下文中的读音，其中，所述文本的拼音序列中包含预测得到的所述每个多音字的读音的序列。

9.根据权利要求1至7中任意一项所述的方法，其特征在于，在所述文本包括多条语句，且每条语句都包含多音字的情况下，在使用所述多音字消歧模型对所述包含了多音字的文本进行解码的过程中，对每条语句插入起始标签和/或结束标签以使得所述多音字消歧模型对每条语句分别进行解码，得到每条语句中的多音字的每种读音的发音概率。

10.一种确定多音字发音的装置，其特征在于，包括：

获取模块，用于获取包含了多音字的文本；

解码模块，用于使用多音字消歧模型对所述包含了多音字的文本进行解码，得到所述文本中的多音字的每种读音的发音概率，其中，通过神经网络模型进行特征训练得到所述多音字消歧模型；

预测模块，用于根据所述多音字的每种读音的发音概率预测所述多音字在所述文本的上下文中的读音。

11.根据权利要求10所述的装置，其特征在于，所述解码模块包括：

第一转换模块，用于将包含了所述多音字的文本进行转换，得到多音字的向量；

计算模块，用于将所述多音字的向量输入至所述多音字消歧模型，计算得到所述多音字的每种读音的发音概率；

其中，将发音概率大的一个发音作为所述多音字的读音。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：第一构建模块，用于构建所述多音字消歧模型，所述第一构建模块包括：

采样模块，用于采样注音文本，其中，所述注音文本包括用于估计模型的训练集；

第二构建模块，用于根据所述训练集中的训练文本构建特征数据，所述特征数据包括至少一个特征向量；

训练模块，用于将所述特征数据输入至所述神经网络模型进行模型训练，得到所述多音字消歧模型。

13.根据权利要求12所述的装置，其特征在于，所述第二构建模块包括：

第二转换模块，用于将所述训练文本中包含的词或字转换为如下任意一个或多个特征向量：以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量；

14.根据权利要求13所述的装置，其特征在于，所述词向量为n维词向量，所述字向量为独热编码形式的向量。

15.根据权利要求12所述的装置，其特征在于，所述神经网络模型包括：DNN层集合和/或RNN层集合，所述DNN层集合包括：一层或多层DNN层，所述RNN层包括：一层或多层RNN层，其中，在所述神经网络模型中包括DNN层集合和RNN层集合的情况下，所述DNN层集合和所述RNN层集合在构成的网络结构中的排列顺序允许更换；

其中，所述训练模块包括：生成模块，用于将所述特征数据输入至所述DNN层集合和/或RNN层集合，在DNN层集合和/或RNN层集合对所述特征数据进行维度处理之后，生成所述多音字消歧模型。

16.根据权利要求12所述的装置，其特征在于，所述注音文本还包括：用于检测训练模型的结果的测试集，所述测试集中包括：包含了预设的多音字的测试文本，其中，在对所述特征数据进行所述模型训练得到多个多音字消歧模型的情况下，所述装置还包括：

测试模块，用于将所述测试文本输入至所述多个多音字消歧模型中进行测试，得到多个预测结果；

确定模块，用于确定与所述测试文本中包含的多音字读音的匹配度最高的预测结果。

17.根据权利要求10至16中任意一项述的装置，其特征在于，在所述文本包含多个多音字的情况下，所述预测模块还用于预测得到每个多音字在所述文本的上下文中的读音，其中，所述文本的拼音序列中包含预测得到的所述每个多音字的读音的序列。

18.根据权利要求10至16中任意一项所述的装置，其特征在于，在所述文本包括多条语句，且每条语句都包含多音字的情况下，所述解码模块还用于在使用所述多音字消歧模型对所述包含了多音字的文本进行解码的过程中，对每条语句插入起始标签和/或结束标签以使得所述多音字消歧模型对每条语句分别进行解码，得到每条语句中的多音字的每种读音的发音概率。

19.一种确定多音字发音的系统，其特征在于，包括：

输入装置，用于发送包含了多音字的文本；

处理器，与所述输入装置连接，用于使用多音字消歧模型对所述包含了多音字的文本进行解码，得到所述文本中的多音字的每种读音的发音概率，并根据所述多音字的每种读音的发音概率预测所述多音字在所述文本的上下文中的读音，其中，通过神经网络模型进行特征训练得到所述多音字消歧模型；

输出装置，与所述处理器连接，用于显示或播放所述多音字在所述文本的上下文中的读音。