CN112289302B

CN112289302B - 音频数据的合成方法、装置、计算机设备及可读存储介质

Info

Publication number: CN112289302B
Application number: CN202011506832.2A
Authority: CN
Inventors: 陈孝良; 冯大航; 孔德威; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-26
Anticipated expiration: 2040-12-18
Also published as: CN112289302A

Abstract

本申请提供了一种音频数据的合成方法、装置、计算机设备及可读存储介质，属于语音技术领域。本申请通过在第一文本中存在读音未知的第一单词时，基于与第一单词最相似的候选单词，来对第一文本中的第一单词进行替换，进而确定多个候选单词在替换得到的第二文本中的第二分值和第三分值，第二分值能够指示候选单词的词性与对应第二文本中其他单词的语法匹配程度，第三分值能够指示候选单词与对应第二文本中其他单词的相关程度，再结合这多个候选单词本身与第一单词的相似度对应的第一分值，综合对这多个候选单词进行评估，以确定目标单词，进而对目标单词对应的第二文本进行语音合成，实现了在第一文本中存在读音未知的单词时的语音合成。

Description

音频数据的合成方法、装置、计算机设备及可读存储介质

技术领域

本申请涉及语音技术领域，特别涉及一种音频数据的合成方法、装置、计算机设备及可读存储介质。

背景技术

随着计算机技术和数字信号处理技术的不断发展，语音合成技术不断成熟，多种语言对应的语音合成技术都得到了较大的发展。

以基于英文文本进行语音合成为例，目前在英文语音合成过程中，主要是通过在英文词表中查阅单词的读音，进而基于查阅到的读音进行语音合成的。但在英文语音合成过程中，由于输入错误或英文词表容量有限等原因，很容易碰到不在英文词表中的英文单词，这类英文单词的读音是无法获取到的，从而导致无法进行语音合成。

发明内容

本申请实施例提供了一种音频数据的合成方法、装置、计算机设备及可读存储介质，可以在待进行语音合成的第一文本中存在读音未知的单词时，仍能对第一文本进行语音合成。下面对该技术方案涉及的内容进行介绍。

一方面，提供了一种音频数据的合成方法，该方法包括：

确定第一文本中第一单词的多个候选单词和各个该候选单词的第一分值，该第一文本中的字母为表音文字，该第一单词的读音未知，该第一单词与该候选单词之间的相似度满足目标条件，该第一分值用于指示该第一单词与对应候选单词的相似度；

基于该多个候选单词分别对该第一文本中的该第一单词进行替换，得到多个第二文本；

确定各个该候选单词在对应的第二文本中的第二分值和第三分值，该第二分值用于指示对应候选单词在对应第二文本中的语法匹配程度，该第三分值用于指示对应候选单词与对应第二文本中的单词的相关程度；

基于该第一分值、该第二分值和该第三分值，从该多个候选单词中确定目标单词；

对该目标单词对应的第二文本进行语音合成，得到目标音频数据。

在一种可能的实现方式中，该确定第一文本中第一单词的多个候选单词和各个该候选单词的第一分值包括：

确定词表所包括的多个单词中各个单词相对于该第一单词的第一分值；

将该各个单词中第一分值大于目标阈值的多个单词，确定为该多个候选单词；

获取该多个候选单词的第一分值。

在一种可能的实现方式中，该确定词表所包括的多个单词中各个单词相对于该第一单词的第一分值包括：

对于该多个单词中任一单词，确定该任一单词中目标字母的数量，该目标字母为该任一单词所包括的字母中，相对于该第一单词所包括的字母中，被增加、替换或删除的字母；

基于该目标字母的数量，以及该目标字母的权重，确定该任一单词的第一分值。

在一种可能的实现方式中，该第二分值的确定过程包括：

对于该多个候选单词中任一候选单词，确定该任一候选单词对应的第二文本的多个可能句法结构和各个该可能句法结构对应的第一概率，该第一概率用于指示可能句法结构为第二文本的句法结构的概率；

将各个该可能句法结构对应的第一概率中最大的第一概率，确定为该任一候选单词在对应的第二文本中的第二分值。

在一种可能的实现方式中，该第三分值的确定过程包括：

对于该多个候选单词中任一候选单词，确定该任一候选单词与对应的第二文本中的第二单词相关的第二概率，该第二单词为在第二文本中的位置在该第一单词的位置之前的单词，该第二概率用于指示候选单词与第二单词相关的概率；

将该第二概率确定为该任一候选单词在对应的第二文本中的第三分值。

在一种可能的实现方式中，该基于该第一分值、该第二分值和该第三分值，从该多个候选单词中确定目标单词包括：

基于该第一分值、该第二分值和该第三分值，确定目标分值；

将该多个候选单词中目标分值最大的候选单词，确定为该目标单词。

在一种可能的实现方式中，该基于该第一分值、该第二分值和该第三分值，确定目标分值包括：

将该第一分值、该第二分值和该第三分值的和，确定为该目标分值；或者，

对该第一分值、该第二分值和该第三分值进行加权求和，得到该目标分值。

在一种可能的实现方式中，该对该目标单词对应的第二文本进行语音合成，得到目标音频数据包括：

确定该目标单词对应的第二文本对应的音素序列；

确定该音素序列中多个音素的发音持续时间和基频；

基于该音素序列、该音素序列中多个音素的发音持续时间和基频，生成该目标音频数据。

一方面，提供了一种音频数据的合成装置，该装置包括：

确定模块，用于确定第一文本中第一单词的多个候选单词和各个该候选单词的第一分值，该第一文本中的字母为表音文字，该第一单词的读音未知，该第一单词与该候选单词之间的相似度满足目标条件，该第一分值用于指示该第一单词与对应候选单词的相似度；

替换模块，用于基于该多个候选单词分别对该第一文本中的该第一单词进行替换，得到多个第二文本；

该确定模块，还用于确定各个该候选单词在对应的第二文本中的第二分值和第三分值，该第二分值用于指示对应候选单词在对应第二文本中的语法匹配程度，该第三分值用于指示对应候选单词与对应第二文本中的单词的相关程度；

该确定模块，还用于基于该第一分值、该第二分值和该第三分值，从该多个候选单词中确定目标单词；

合成模块，用于对该目标单词对应的第二文本进行语音合成，得到目标音频数据。

在一种可能的实现方式中，该确定模块包括第一确定单元、第二确定单元和获取单元；

该第一确定单元，用于确定词表所包括的多个单词中各个单词相对于该第一单词的第一分值；

该第二确定单元，用于将该各个单词中第一分值大于目标阈值的多个单词，确定为该多个候选单词；

该获取单元，用于获取该多个候选单词的第一分值。

在一种可能的实现方式中，该第一确定单元，用于对于该多个单词中任一单词，确定该任一单词中目标字母的数量，该目标字母为该任一单词所包括的字母中，相对于该第一单词所包括的字母中，被增加、替换或删除的字母；基于该目标字母的数量，以及该目标字母的权重，确定该任一单词的第一分值。

在一种可能的实现方式中，该第二分值的确定过程包括：

在一种可能的实现方式中，该第三分值的确定过程包括：

在一种可能的实现方式中，该确定模块还包括第三确定单元和第四确定单元；

该第三确定单元，用于基于该第一分值、该第二分值和该第三分值，确定目标分值；

该第四确定单元，用于将该多个候选单词中目标分值最大的候选单词，确定为该目标单词。

在一种可能的实现方式中，该第三确定单元，将该第一分值、该第二分值和该第三分值的和，确定为该目标分值；或者，对该第一分值、该第二分值和该第三分值进行加权求和，得到该目标分值。

在一种可能的实现方式中，该合成模块，用于确定该目标单词对应的第二文本对应的音素序列；确定该音素序列中多个音素的发音持续时间和基频；基于该音素序列、该音素序列中多个音素的发音持续时间和基频，生成该目标音频数据。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该音频数据的合成方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该音频数据的合成方法所执行的操作。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，以实现该音频数据的合成方法所执行的操作。

本申请提供的方案，通过在第一文本中存在读音未知的第一单词时，基于与第一单词最相似的候选单词，来对第一文本中的第一单词进行替换，进而确定多个候选单词在替换得到的第二文本中的第二分值和第三分值，第二分值能够指示候选单词的词性与对应第二文本中其他单词的语法匹配程度，第三分值能够指示候选单词与对应第二文本中其他单词的相关程度，再结合这多个候选单词本身与第一单词的相似度对应的第一分值，综合对这多个候选单词进行评估，以确定目标单词，进而对目标单词对应的第二文本进行语音合成，实现了在第一文本中存在读音未知的单词时的语音合成。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频数据的合成方法的实施环境示意图；

图2是本申请实施例提供的一种音频数据的合成方法的流程图；

图3是本申请实施例提供的一种音频数据的合成方法的流程图；

图4是本申请实施例提供的一种语法解析的结果示意图；

图5是本申请实施例提供的一种语法解析的结果示意图；

图6是本申请实施例提供的一种树状结构图的示意图；

图7是本申请实施例提供的一种语法子集的示意图；

图8是本申请实施例提供的一种同一文本的两种可能句法结构的示意图；

图9是本申请实施例提供的一种语法规则及对应概率的示意图；

图10是本申请实施例提供的一种语法解析过程的示意图；

图11是本申请实施例提供的一种语义依存分析的结果示意图；

图12是本申请实施例提供的一种语义依存分析的结果示意图；

图13是本申请实施例提供的一种目标音频数据的合成过程的示意图；

图14是本申请实施例提供的一种音频数据的合成装置的结构示意图；

图15是本申请实施例提供的一种终端的结构示意图；

图16是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种音频数据的合成方法的实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

终端101可以为智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）播放器、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器和膝上型便携计算机中的至少一种。终端101通过有线或无线通信方式与服务器102进行连接，本申请实施例对此不加以限定。终端101从服务器102获取文本资源，进而在可视化界面上，基于获取到的文本资源对文本内容进行显示，该可视化界面包括语音播放控件，用户触发该语音播放控件，终端101响应于用户的触发操作，向服务器102发送数据获取请求，该数据获取请求携带待进行语音合成的文本资源的资源标识，进而接收服务器102基于该数据获取请求返回的音频数据，以便基于接收到的音频数据进行播放。或者，终端101的可视化界面包括输入控件，用户通过该输入控件输入待进行语音合成的文本内容，终端101响应于用户的输入操作，获取用户输入的文本内容，进而向服务器102发送数据获取请求，该数据获取请求携带获取到的文本内容，并接收服务器102基于该数据获取请求返回的音频数据，以便基于接收到的音频数据进行播放。

终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端的数量和设备类型不加以限定。

服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102通过有线或无线通信方式与终端101进行连接，本申请实施例对此不加以限定。服务器102关联有一个资源数据库，用于存储多种文本资源，服务器102可以将文本资源发送给终端101，以便终端101基于获取到的文本资源对文本内容进行显示。服务器102接收终端101发送的数据获取请求，若数据获取请求中携带的是资源标识，则基于该资源标识，从资源数据库中获取该资源标识对应的文本资源，进而对获取到的文本资源进行语音合成，得到目标音频数据；若数据获取请求中携带的是文本内容，则基于接收到的文本内容进行语音合成，得到目标音频数据。服务器102通过语音合成得到该目标音频数据后，将该目标音频数据发送给终端101，以便终端101基于接收到的目标音频数据进行播放。可选地，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是本申请实施例提供的一种音频数据的合成方法的流程图，参见图2，该方法包括以下步骤。

201、计算机设备确定第一文本中第一单词的多个候选单词和各个该候选单词的第一分值，该第一文本中的字母为表音文字，该第一单词的读音未知，该第一单词与该候选单词之间的相似度满足目标条件，该第一分值用于指示该第一单词与对应候选单词的相似度。

202、计算机设备基于该多个候选单词分别对该第一文本中的该第一单词进行替换，得到多个第二文本。

203、计算机设备确定各个该候选单词在对应的第二文本中的第二分值和第三分值，该第二分值用于指示对应候选单词在对应第二文本中的语法匹配程度，该第三分值用于指示对应候选单词与对应第二文本中的单词的相关程度。

204、计算机设备基于该第一分值、该第二分值和该第三分值，从该多个候选单词中确定目标单词。

205、计算机设备对该目标单词对应的第二文本进行语音合成，得到目标音频数据。

本申请实施例提供的方案，通过在第一文本中存在读音未知的第一单词时，基于与第一单词最相似的候选单词，来对第一文本中的第一单词进行替换，进而确定多个候选单词在替换得到的第二文本中的第二分值和第三分值，第二分值能够指示候选单词的词性与对应第二文本中其他单词的语法匹配程度，第三分值能够指示候选单词与对应第二文本中其他单词的相关程度，再结合这多个候选单词本身与第一单词的相似度对应的第一分值，综合对这多个候选单词进行评估，以确定目标单词，进而对目标单词对应的第二文本进行语音合成，实现了在第一文本中存在读音未知的单词时的语音合成。

获取该多个候选单词的第一分值。

在一种可能的实现方式中，该第二分值的确定过程包括：

在一种可能的实现方式中，该第三分值的确定过程包括：

确定该目标单词对应的第二文本对应的音素序列；

确定该音素序列中多个音素的发音持续时间和基频；

图3是本申请实施例提供的一种音频数据的合成方法的流程图，参见图3，该方法包括以下步骤。

301、计算机设备确定词表所包括的多个单词中，各个单词相对于第一文本中第一单词的第一分值，该第一文本中的字母为表音文字，该第一单词的读音未知，该第一分值用于指示该第一单词与对应候选单词的相似度。

需要说明的是，该第一文本为包括任意类型的表音文字的文本，例如，该第一文本为包括英文字母的文本，也即是，该第一文本为英文文本，可选地，该第一文本为其他类型的文本，本申请实施例对此不加以限定。

在确定词表所包括的多个单词中各个单词相对于该第一单词的第一分值时，以多个单词中任一单词为例，在一种可能的实现方式中，计算机设备确定该任一单词中目标字母的数量，基于该目标字母的数量，以及在该目标字母的权重，确定该任一单词的第一分值，该目标字母为该任一单词所包括的字母中，相对于该第一单词所包括的字母中，被增加、替换或删除的字母。以此类推，得到这多个单词相对于第一单词的第一分值。

其中，在确定目标字母时，通过遍历的方式进行确定。也即是，对于任一单词中的第一个字母，先确定第一个字母与第一单词中的第一个字母是否相同，若相同，则对任一单词的第二个字母进行处理，若不相同，则确定第一个字母与第一单词中的第二个字母是否相同，以此类推，确定该第一个字母是否为目标字母，其他各个字母是否为目标字母的确定过程与之同理，此处不再赘述。例如，若第一单词为look，任一单词为lok，则该目标字母为o；若第一单词为look，任一单词为louk，则该目标字母为u；若第一单词为look，任一单词为loook，则该目标字母为o。

其中，目标字母的权重基于字母的发音确定，若目标字母在单词中发音，则目标字母的权重大于预设阈值，若目标字母在单词中不发音，则目标字母的权重小于预设阈值，该预设阈值为任意正数值，本申请实施例对此不加以限定。例如，以第一文本为英文文本，单词为listen为例，字母l、字母i、字母s、字母e、字母n在listen中发音，而字母t在listen中不发音，则字母l、字母i、字母s、字母e、字母n对应的权重为1，字母t对应的权重为0.5；以单词为quiet为例，字母q、字母u、字母i、字母e、字母t在quiet中均发音，则字母q、字母u、字母i、字母e、字母t对应的权重均为1；以单词为quite为例，字母q、字母u、字母i、字母t在quite中发音，而字母e在quite中不发音，则字母q、字母u、字母i、字母t对应的权重为1，字母e对应的权重为0.5。可选地，各个字母的权重为其他取值，本申请实施例对此不加以限定。

需要说明的是，在基于目标字母的数量和权重确定第一分值时，通过如下方式来进行第一分值的确定：第一分值=改变的字母1*字母1的权重+改变的字母2*字母2的权重+...+改变的字母n*字母n的权重。

其中，n为任意正整数值，本申请实施例对n的具体取值不加以限定。

以第一单词为qutie，候选单词为和quiet和quite为例，通过上述方式确定出， quiet的第一分值为

，quite的第一分值为

。

需要说明的是，在确定第一单词中的目标字母时，通过编辑距离（LevenshteinDistance）算法进行确定，可选地，采用其他方式来进行确定，本申请实施例对此不加以限定。

302、计算机设备将该多个单词中第一分值大于目标阈值的多个单词，确定为该多个候选单词。

需要说明的是，该目标阈值为任意正数值，本申请实施例对目标阈值的具体取值不加以限定。

可选地，在进行候选单词的确定时，计算机设备按照该多个单词的第一分值由高到低的顺序，对这多个单词进行排序，进而将排序位于目标位置之前的多个单词，确定为该多个候选单词，本申请实施例对具体采用哪种方式来进行候选单词的确定不加以限定。

303、计算机设备获取该多个候选单词的第一分值。

304、计算机设备基于该多个候选单词分别对该第一文本中的该第一单词进行替换，得到多个第二文本。

305、计算机和设备确定各个该候选单词在对应的第二文本中的第二分值，该第二分值用于指示对应候选单词在对应第二文本中的语法匹配程度。

需要说明的是，该语法匹配程度用于表示候选单词的词性在对应第二文本中的匹配程度，以及候选单词的位置在对应第二文本中的匹配程度。

以该多个候选单词中任一候选单词为例，在一种可能的实现方式中，对于该多个候选单词中任一候选单词，计算机设备确定该任一候选单词对应的第二文本的多个可能句法结构和各个该可能句法结构对应的第一概率，将各个该可能句法结构对应的第一概率中最大的第一概率，确定为该任一候选单词在对应的第二文本中的第二分值，该第一概率用于指示可能句法结构为第二文本的句法结构的概率。

以第一单词为qutie，第一文本为“The news is quite amazing”，确定出的候选单词为quite（相当）和quiet（安静的）为例，基于quite对第一文本中的qutie进行替换得到的第二文本为“The news is quite amazing”，对该第二文本进行语法解析的结果参见图4，图4是本申请实施例提供的一种语法解析的结果示意图，基于图4所示的语法解析结果，确出quite在对应第二文本中的第二分值为0.8。基于quiet对第一文本中的qutie进行替换得到的第二文本为“The news is quiet amazing”，对该第二文本进行语法解析的结果参见图5，图5是本申请实施例提供的一种语法解析的结果示意图，基于图5所示的语法解析结果，确出quiet在对应第二文本中的第二分值为0.2。

其中，每个第二文本都对应有多种语法解析方式，一种语法解析方式能够得到一种或多种可能句法结构，使得每个第二文本都对应有多个可能句法结构，每种可能句法结构有相应的第一概率，用于表示每种结果的可能性大小。语法解析有两个主要的问题，其一是语法在计算机设备中的表达与存储方式，以及语料数据集；其二是语法解析的算法，下面分别对这两部分内容进行介绍。

对于第一个问题，句法结构通常用树状结构图表示，也即是，用句法结构树表示，参见图6，图6是本申请实施例提供的一种树状结构图的示意图，该树状结构图即为“Boeingis located in Seattle”的句法结构，其中，S表示句子，NP表示名词，VP表示动词，PP表示介词短语，NP、VP、PP均为短语级别，N表示名词，V表示动词，P表示介词。计算机设备在对句法结构进行存储时，会将句法结构树存储成计算机设备可读的形式，以图6所示的句法结构树为例，计算机设备在对图6所示的句法结构树进行存储时，将该句法结构树表示为（S（NP（N Boeing））（VP（V is）（VP（V located）（PP（P in）（NP（N Seattle））））））。而对于语料数据集，是用来对语法解析的算法进行训练的，较为成熟的、手工标注的语料数据集有很多，例如，标签类型查询表（ThePenn Treebank Project）、标签类型查询表组成标签（PennTreebank ⅡConstituent Tags）等。

对于第二个问题，在进行语法解析时，采用概率分布的上下文无关文法（Probabilistic Context-Free Grammar，PCFG）算法，也即是，PCFG模型，可选地，采用其他算法，本申请实施例对此不加以限定。以采用PCFG模型为例，在PCFG模型中，定义有多种规则，每种规则对应有一种词性标注和这种词性标注对应的概率，而第二文本的可能句法结构对应的第一概率，也即是各个词性标注对应的概率的乘积。下面对PCFG模型，也即是PCFG算法的相关内容进行介绍。

先对作为PCFG算法的基础的上下文无关文法（Context-Free Grammar，CFG）算法进行介绍，仍以图6所示的句法结构树为例，该句法结构树对应的上下文无关语法为：

（1）N表示一组非叶子节点的标注，例如{S、NP、VP、N...}；

（2）∑表示一组叶子节点的标注，例如{Boeing、is...}；

（3）R表示一组规则，每条规则可以表示为X->Y1Y2...Yn，X∈N，Yi∈（N∪∑）；

（4）S表示句法结构树开始的标注。

举例来说，句法结构解析的一个语法子集参见图7，图7是本申请实施例提供的一种语法子集的示意图，当给定一个文本时，即可基于图7中所示的规则，按照从左到右的顺序对文本进行语法解析。例如，待解析的文本为“The man sleeps”，则该文本的句法结构解析为（S（NP（DT the）（NN man））（VP sleeps））。

其中，该文本对应的上下文无关语法为：

N={S，NP，VP，PP，DT，Vi，Vt，NN，IN}；

S=S；

∑={sleeps，saw，man，woman，telescope，the，with，in}。

其中，S表示句子，NP表示名字短语，VP表示动词短语，PP表示介词短语，DT表示限定词，Vi表示不及物动词，Vt表示及物动词，NN表示名词短语，IN表示介词或从属连词。

而由于同一个单词的不同词性，如can一般表示“可以”这个情态动词，有时表示罐子，或者，由于介词短语的作用范围，如VP PP PP这样的结构，第二个介词短语PP可能形容VP，也可能形容第一个介词短语PP，或者，名词的连续出现，如NN NN NN等，都可能导致同一个文本推导出的句法结构存在二义性。例如，参见图8，图8是本申请实施例提供的一种同一文本的两种可能句法结构的示意图，该图中展示出了“He drove down the street in thecar”的两种句法结构。

为了克服CFG算法的二义性问题，PCFG算法由此产生。参见图9，图9是本申请实施例提供的一种语法规则及对应概率的示意图，基于图7所示的规则，图9展示出了各个规则对应的概率。

需要说明的是，图9仅为一种示例性的语法规则，在更多可能的实现规则中，语法规则的数量更多。

通过PCFG算法，计算机设备在确定出第二文本对应的多个可能句法结构后，基于该语法规则，确定各个语法结构出现的概率，作为多个可能句法结构对应的多个第一概率，以便将对应第一概率最大的可能句法结构，确定为该第二文本的句法结构，并将最大的第一概率，确定为各个候选单词对应的第二分值。

需要说明的是，在确定第二文本对应的多个可能句法结构时，采用动态规划的方式。可选地，采用其他方法来确定第二文本对应的多个可能句法结构，本申请实施例对具体采用哪种方式不加以限定。

其中，动态规划的实现方式参见如下公式（1）：

（1）

其中，w[i，j，X]表示第i个单词至第j个单词由标注X来表示的最大概率，X->Y Z表示一种语法规则，w（i，s，Y）表示是第i个单词至第s个单词由标注Y来表示的概率，w（s+1，j，Z）表示是第s+1个单词至第j个单词由标注Z来表示的概率。

参见图10，图10是本申请实施例提供的一种语法解析过程的示意图，多种语法规则集成在一个语法分析器中，待解析文本以记号流的方式输入该语法分析器，该语法分析器采用动态规划的方式，通过PCFG算法，来对待解析文本进行处理，得到该待解析文本对应的句法结构树。

其中，该PCFG算法，也即是PCFG模型由预先训练得到。在对PCFG模型进行训练时，通过语料数据集对PCFG模型的参数进行训练，需要训练的参数包括语法规则、每个语法规则的概率等。

在一种可能的实现方式中，计算机设备统计出语料库中所有的非叶子结点的标注和叶子节点的标注，并将语料库中的所有规则作为待训练的规则，针对每个语法规则A->B，确定每个语法规则对应的概率，也即是，P（x）。其中，P（x）的确定通过如下公式（2）实现：

（2）

其中，P（x）表示待确定的语法规则对应的概率，P（A->B）表示语法规则A->B对应的概率，P（A）表示语法规则A对应的概率。

306、计算机和设备确定各个该候选单词在对应的第二文本中的第三分值，该第三分值用于指示对应候选单词与对应第二文本中的单词的相关程度。

以该多个候选单词中任一候选单词为例，在一种可能的实现方式中，对于该多个候选单词中任一候选单词，计算机设备确定该任一候选单词与对应的第二文本中的第二单词相关的第二概率，该第二单词为在第二文本中的位置在该第一单词的位置之前的单词，将该第二概率确定为该任一候选单词在对应的第二文本中的第三分值，该第二概率用于指示候选单词与第二单词相关的概率。

可选地，上述过程相当于对第二文本中的单词进行语义依存分析的过程，上述过程通过n-gram语言模型实现，或者，上述过程通过bert语言模型实现，或者，上述过程通过gpt-2语言模型实现，本申请实施例对此不加以限定。下面以上述过程通过n-gram语言模型实现为例来进行说明。

对于以英文单词为单位的n-gram语言模型，该n-gram语言模型的计算规则参见如下公式（3）：

（3）

其中，

为文本中的各个单词。

对于文本中的第k个单词，确定这第k个单词在前面k-1个单词后面出现的概率时，采用的方式参见如下公式（4）：

（4）

其中，K表示文本中的单词总数，

为文本中在第k个单词前面的各个单词，k和K为任意正整数值，k的取值小于K的取值。

对于文本中的第k个单词，确定这第k个单词与前面N个单词相关的概率时，采用的方式参见如下公式（5）：

（5）

其中，K表示文本中的单词总数，

为文本中在第k个单词前面的N个单词，k、N和K为任意正整数值，k的取值大于N的取值小于K的取值，N的取值小于K的取值。

通过上述公式（5）确定出的概率值，即为第二概率，也即是候选单词的第三分值。

以第一单词为qutie，第一文本为“The news is quite amazing”，确定出的候选单词为quite和quiet为例，基于quite对第一文本中的qutie进行替换得到的第二文本为“The news is quite amazing”，对该第二文本进行语义依存分析的结果参见图11，图11是本申请实施例提供的一种语义依存分析的结果示意图，基于图11所示的语义依存分析结果，确出quite在对应第二文本中的第三分值为0.9。基于quiet对第一文本中的qutie进行替换得到的第二文本为“The news is quiet amazing”，对该第二文本进行语义依存分析的结果参见图12，图12是本申请实施例提供的一种语义依存分析的结果示意图，基于图12所示的语义依存分析结果，确出quiet在对应第二文本中的第三分值为0.3。

需要说明的是，上述步骤305至步骤306仅为一种示例性的说明方式，并不构成对步骤305至步骤306的执行顺序的限定，可选地，计算机设备先执行步骤305，再执行步骤306，或者计算机设备先执行步骤306，再执行步骤305，或者，计算机设备同时执行该步骤305和该步骤306，本申请实施例对此不加以限定。

307、计算机设备基于该第一分值、该第二分值和该第三分值，确定目标分值。

在一种可能的实现方式中，计算机设备将该第一分值、该第二分值和该第三分值的和，确定为该目标分值。

在另一种可能的实现方式中，计算机设备对该第一分值、该第二分值和该第三分值进行加权求和，得到该目标分值。其中，该第一分值对应的权重、该第二分值对应的权重、该第三分值对应的权重均为任意正数值，本申请实施例对此不加以限定。

可选地，采用其他方式来进行目标分值的确定，本申请实施例对此不加以限定。

仍以第一单词为qutie，候选单词为和quiet和quite为例，假定第一分值、第二分值和第三分值的权重均为1，则quiet对应的目标分值为

，quite对应的目标分值为

。

308、计算机设备将该多个候选单词中目标分值最大的候选单词，确定为目标单词。

309、计算机设备对该目标单词对应的第二文本进行语音合成，得到目标音频数据。

在一种可能的实现方式中，计算机设备确定该目标单词对应的第二文本对应的音素序列，确定该音素序列中多个音素的发音持续时间和基频，基于该音素序列、该音素序列中多个音素的发音持续时间和基频，生成该目标音频数据。

以第一文本为英文文本为例，上述步骤301至步骤309的过程参见图13，图13是本申请实施例提供的一种目标音频数据的合成过程的示意图，在待进行语音合成的文本中包括读音未知的单词时，计算机设备从词表中查找与读音未知的单词的相似度最大的多个单词，并获取这多个单词的第一分值，进而基于这多个单词，对待进行语音合成的文本中读音未知的单词进行替换，进而基于替换后得到的文本来进行语法解析打分，得到第二分值，基于替换后得到的文本来进行语言模型打分，得到第三分值，从而综合加权这3种得分，计算各个单词的最终得分，以便输出最终得分最高的单词，基于得分最高的单词进行语音合成，得到目标音频数据。

本申请实施例提供的方案，通过在第一文本中存在读音未知的第一单词时，基于与第一单词最相似的候选单词，来对第一文本中的第一单词进行替换，进而确定多个候选单词在替换得到的第二文本中的第二分值和第三分值，第二分值能够指示候选单词的词性与对应第二文本中其他单词的语法匹配程度，第三分值能够指示候选单词与对应第二文本中其他单词的相关程度，再结合这多个候选单词本身与第一单词的相似度对应的第一分值，综合对这多个候选单词进行评估，以确定目标单词，进而对目标单词对应的第二文本进行语音合成，实现了在第一文本中存在读音未知的单词时的语音合成。通过基于读音未知的第一单词，对词表中的单词进行相似度计算，以确定与第一单词相似的候选单词以及各个候选单词的第一分值，进而对各个候选单词进行句法分析打分和语义打分，根据三个分值，最终确定与第一单词最相似的目标单词，以便基于目标单词来进行语音合成，解决文本中存在读音未知的第一单词，导致无法进行语音合成的问题。而且，目标单词是综合三个分值的结果确定出来的，使得目标单词与第一单词在单词本身、词性以及语义等方面，都与第一单词最为相似，使得基于目标单词合成出的音频数据更加连贯，读音更加自然。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图14是本申请实施例提供的一种音频数据的合成装置的结构示意图，参见图14，该装置包括：

确定模块1401，用于确定第一文本中第一单词的多个候选单词和各个该候选单词的第一分值，该第一文本中的字母为表音文字，该第一单词的读音未知，该第一单词与该候选单词之间的相似度满足目标条件，该第一分值用于指示该第一单词与对应候选单词的相似度；

替换模块1402，用于基于该多个候选单词分别对该第一文本中的该第一单词进行替换，得到多个第二文本；

该确定模块1401，还用于确定各个该候选单词在对应的第二文本中的第二分值和第三分值，该第二分值用于指示对应候选单词在对应第二文本中的语法匹配程度，该第三分值用于指示对应候选单词与对应第二文本中的单词的相关程度；

该确定模块1401，还用于基于该第一分值、该第二分值和该第三分值，从该多个候选单词中确定目标单词；

合成模块1403，用于对该目标单词对应的第二文本进行语音合成，得到目标音频数据。

本申请提供的装置，通过在第一文本中存在读音未知的第一单词时，基于与第一单词最相似的候选单词，来对第一文本中的第一单词进行替换，进而确定多个候选单词在替换得到的第二文本中的第二分值和第三分值，第二分值能够指示候选单词的词性与对应第二文本中其他单词的语法匹配程度，第三分值能够指示候选单词与对应第二文本中其他单词的相关程度，再结合这多个候选单词本身与第一单词的相似度对应的第一分值，综合对这多个候选单词进行评估，以确定目标单词，进而对目标单词对应的第二文本进行语音合成，实现了在第一文本中存在读音未知的单词时的语音合成。

在一种可能的实现方式中，该确定模块1401包括第一确定单元、第二确定单元和获取单元；

该获取单元，用于获取该多个候选单词的第一分值。

在一种可能的实现方式中，该第二分值的确定过程包括：

在一种可能的实现方式中，该第三分值的确定过程包括：

在一种可能的实现方式中，该确定模块1401还包括第三确定单元和第四确定单元；

在一种可能的实现方式中，该合成模块1403，用于确定该目标单词对应的第二文本对应的音素序列；确定该音素序列中多个音素的发音持续时间和基频；基于该音素序列、该音素序列中多个音素的发音持续时间和基频，生成该目标音频数据。

需要说明的是：上述实施例提供的音频数据的合成装置在合成目标音频数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频数据的合成装置与音频数据的合成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

可选地，该计算机设备提供为一种终端，或者，该计算机设备提供为一种服务器，下面对终端和服务器的结构分别进行介绍。

图15是本申请实施例提供的一种终端的结构示意图。该终端1500可以是：智能手机、平板电脑、MP3播放器（Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1500包括有：一个或多个处理器1501和一个或多个存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1501所执行以实现本申请中方法实施例提供的音频数据的合成方法。

在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备包括：射频电路1504、显示屏1505、摄像头组件1506、音频电路1507、定位组件1508和电源1509中的至少一种。

外围设备接口1503可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中，处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上；在一些其他实施例中，处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1504用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1504还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1505用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时，显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时，显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1505可以为一个，设置在终端1500的前面板；在另一些实施例中，显示屏1505可以为至少两个，分别设置在终端1500的不同表面或呈折叠设计；在另一些实施例中，显示屏1505可以是柔性显示屏，设置在终端1500的弯曲表面上或折叠面上。甚至，显示屏1505还可以设置成非矩形的不规则图形，也即异形屏。显示屏1505可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-EmittingDiode，有机发光二极管）等材质制备。

摄像头组件1506用于采集图像或视频。可选地，摄像头组件1506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1501进行处理，或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1507还可以包括耳机插孔。

定位组件1508用于定位终端1500的当前地理位置，以实现导航或LBS（LocationBased Service，基于位置的服务）。定位组件1508可以是基于美国的GPS（GlobalPositioning System，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1509用于为终端1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1500还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于：加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。

加速度传感器1511可以检测以终端1500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号，控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1512可以检测终端1500的机体方向及转动角度，陀螺仪传感器1512可以与加速度传感器1511协同采集用户对终端1500的3D动作。处理器1501根据陀螺仪传感器1512采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1513可以设置在终端1500的侧边框和/或显示屏1505的下层。当压力传感器1513设置在终端1500的侧边框时，可以检测用户对终端1500的握持信号，由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在显示屏1505的下层时，由处理器1501根据用户对显示屏1505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1514用于采集用户的指纹，由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份，或者，由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置在终端1500的正面、背面或侧面。当终端1500上设置有物理按键或厂商Logo时，指纹传感器1514可以与物理按键或厂商Logo集成在一起。

光学传感器1515用于采集环境光强度。在一个实施例中，处理器1501可以根据光学传感器1515采集的环境光强度，控制显示屏1505的显示亮度。具体地，当环境光强度较高时，调高显示屏1505的显示亮度；当环境光强度较低时，调低显示屏1505的显示亮度。在另一个实施例中，处理器1501还可以根据光学传感器1515采集的环境光强度，动态调整摄像头组件1506的拍摄参数。

接近传感器1516，也称距离传感器，通常设置在终端1500的前面板。接近传感器1516用于采集用户与终端1500的正面之间的距离。在一个实施例中，当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变小时，由处理器1501控制显示屏1505从亮屏状态切换为息屏状态；当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变大时，由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图16是本申请实施例提供的一种服务器的结构示意图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（Central Processing Units，CPU）1601和一个或多个的存储器1602，其中，该一个或多个存储器1602中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1600还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的音频数据的合成方法。例如，该计算机可读存储介质可以是只读存储器（Read-Only Memory, ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述实施例中提供的音频数据的合成方法的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频数据的合成方法，其特征在于，所述方法包括：

确定第一文本中第一单词的多个候选单词和各个所述候选单词的第一分值，所述第一文本中的字母为表音文字，所述第一单词的读音未知，所述第一单词与所述候选单词之间的相似度满足目标条件，所述第一分值用于指示所述第一单词与对应候选单词的相似度；

基于所述多个候选单词分别对所述第一文本中的所述第一单词进行替换，得到多个第二文本；

确定各个所述候选单词在对应的第二文本中的第二分值和第三分值，所述第二分值用于指示对应候选单词在对应第二文本中的语法匹配程度，所述第三分值用于指示对应候选单词与对应第二文本中的第二单词的相关程度，所述第二单词为在第二文本中的位置在所述第一单词的位置之前的单词；

基于所述第一分值、所述第二分值和所述第三分值，从所述多个候选单词中确定目标单词；

对所述目标单词对应的第二文本进行语音合成，得到目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述确定第一文本中第一单词的多个候选单词和各个所述候选单词的第一分值包括：

确定词表所包括的多个单词中各个单词相对于所述第一单词的第一分值；

将所述各个单词中第一分值大于目标阈值的多个单词，确定为所述多个候选单词；

获取所述多个候选单词的第一分值。

3.根据权利要求2所述的方法，其特征在于，所述确定词表所包括的多个单词中各个单词相对于所述第一单词的第一分值包括：

对于所述多个单词中任一单词，确定所述任一单词中目标字母的数量，所述目标字母为所述任一单词所包括的字母中，相对于所述第一单词所包括的字母中，被增加、替换或删除的字母；

基于所述目标字母的数量，以及所述目标字母的权重，确定所述任一单词的第一分值。

4.根据权利要求1所述的方法，其特征在于，所述第二分值的确定过程包括：

对于所述多个候选单词中任一候选单词，确定所述任一候选单词对应的第二文本的多个可能句法结构和各个所述可能句法结构对应的第一概率，所述第一概率用于指示可能句法结构为第二文本的句法结构的概率；

将各个所述可能句法结构对应的第一概率中最大的第一概率，确定为所述任一候选单词在对应的第二文本中的第二分值。

5.根据权利要求1所述的方法，其特征在于，所述第三分值的确定过程包括：

对于所述多个候选单词中任一候选单词，确定所述任一候选单词与对应的第二文本中的第二单词相关的第二概率，所述第二概率用于指示候选单词与第二单词相关的概率；

将所述第二概率确定为所述任一候选单词在对应的第二文本中的第三分值。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第一分值、所述第二分值和所述第三分值，从所述多个候选单词中确定目标单词包括：

基于所述第一分值、所述第二分值和所述第三分值，确定目标分值；

将所述多个候选单词中目标分值最大的候选单词，确定为所述目标单词。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一分值、所述第二分值和所述第三分值，确定目标分值包括：

将所述第一分值、所述第二分值和所述第三分值的和，确定为所述目标分值；或者，

对所述第一分值、所述第二分值和所述第三分值进行加权求和，得到所述目标分值。

8.一种音频数据的合成装置，其特征在于，所述装置包括：

确定模块，用于确定第一文本中第一单词的多个候选单词和各个所述候选单词的第一分值，所述第一文本中的字母为表音文字，所述第一单词的读音未知，所述第一单词与所述候选单词之间的相似度满足目标条件，所述第一分值用于指示所述第一单词与对应候选单词的相似度；

替换模块，用于基于所述多个候选单词分别对所述第一文本中的所述第一单词进行替换，得到多个第二文本；

所述确定模块，还用于确定各个所述候选单词在对应的第二文本中的第二分值和第三分值，所述第二分值用于指示对应候选单词在对应第二文本中的语法匹配程度，所述第三分值用于指示对应候选单词与对应第二文本中的第二单词的相关程度，所述第二单词为在第二文本中的位置在所述第一单词的位置之前的单词；

所述确定模块，还用于基于所述第一分值、所述第二分值和所述第三分值，从所述多个候选单词中确定目标单词；

合成模块，用于对所述目标单词对应的第二文本进行语音合成，得到目标音频数据。

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音频数据的合成方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的音频数据的合成方法所执行的操作。