CN114842828A

CN114842828A - 一种合成语音的音量控制方法及装置

Info

Publication number: CN114842828A
Application number: CN202210382546.2A
Authority: CN
Inventors: 韩笑天; 张永超; 虞国桥
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-02

Abstract

本说明书公开了一种合成语音的音量控制方法及装置，先获取包含由语音合成标记语言标注出的目标文本的待处理文本，然后将该待处理文本输入预设的语音合成模型中，确定该待处理文本对应的合成语音的第一采样点序列，以及从该第一采样点序列中确定目标文本对应的第二采样点序列。最后根据预设的自动增益控制算法，确定该第二采样点序列对应的增益，并对该第二采样点序列的音量进行控制。通过针对合成语音中目标文本对应的采样点序列各帧的音量进行非线性调节，对音量进行极大的增强时，降低了经音量控制后得到的合成语音的失真度，提高了合成语音的播放质量。

Description

一种合成语音的音量控制方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种合成语音的音量控制方法及装置。

背景技术

目前，随着计算机技术的发展，语音合成技术也在不断进步，对合成语音的应用也在不断兴起。例如，配送应用可通过合成语音播放订单信息，还可通过合成语音为配送员提供导航服务。

一类常见的语音合成的方法，是先根据文本内容进行文本分析，确定文本特征，然后通过声学模型建模，根据文本特征确定对应的梅尔谱，再由声码器根据梅尔谱生成语音采样点序列，最后通过后处理对语音采样点序列的采样率、语速、音量以及音调等进行调节得到合成语音数据。

现有技术在后处理的音量调节中，通常基于固定的增益值，对合成语音进行线性调节，容易导致语音的失真，造成语音质量的降低。

发明内容

本说明书实施例提供的一种合成语音的音量控制方法及装置，用于至少部分的解决现有技术中存在的问题。

本说明书采用下述技术方案：

获取包含由语音合成标记语言标注出的目标文本的待处理文本；

将所述待处理文本输入预设语音合成模型中，确定所述待处理文本对应的合成语音的第一采样点序列，以及从所述第一采样点序列中确定所述目标文本对应的第二采样点序列；

根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制。

可选地，获取包含由语音合成标记语言标注出的目标文本的待处理文本，具体包括：

获取待处理文本，对所述待处理文本进行命名实体识别；

根据识别结果确定需进行音量调节的目标文本，并通过语音合成标记语言标注出所述目标文本。

可选地，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制，具体包括：

根据预设的语音活动检测算法，从所述第二采样点序列中确定有效语音采样点序列；

确定所述有效语音采样点序列各帧对应的增益，并对所述有效语音采样点序列各帧的音量进行控制。

可选地，从所述第一采样点序列中确定所述目标文本对应的第二采样点序列，具体包括：

根据所述目标文本处于所述待处理文本中的位置，从所述待处理文本对应的文本特征中确定所述目标文本对应的文本特征所处的位置；

根据所述目标文本对应的文本特征的位置，从所述待处理文本对应的梅尔谱中确定所述目标文本对应的梅尔谱所处的时段；

根据所述目标文本对应的梅尔谱所处的时段，从所述第一采样点序列中确定所述目标文本对应的第二采样点序列。

可选地，根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制，具体包括：

判断是否接收到音量增强控制请求；

若是，则根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行非线性增强控制；

若否，则根据预设增益，对所述第二采样点序列的音量进行线性增强控制。

可选地，所述方法还包括：

根据所述目标文本处于所述待处理文本中的位置，从所述待处理文本中确定至少一个与所述目标文本相邻的字符；

根据所述字符处于所述待处理文本的位置，从所述第一采样点序列中确定所述字符对应的相邻采样点序列；

根据预设的中间增益，对所述相邻采样点序列的音量进行控制；

其中，所述中间增益小于与所述相邻采样点序列相邻的第二采样点序列对应的增益。

确定所述目标文本中各字符的类型以及各字符对应的子采样点序列；

针对每种字符类型，根据预设的对应该种字符类型的自动增益控制算法，确定该种字符类型对应的子采样点序列各帧对应的增益，并对该种字符类型对应的子采样点序列各帧的音量进行控制。

本说明书提供了一种合成语音的音量控制装置，包括：

获取模块，用于获取包含由语音合成标记语言标注出的目标文本的待处理文本；

采样点确定模块，用于将所述待处理文本输入预设语音合成模型中，确定所述待处理文本对应的合成语音的第一采样点序列，以及从所述第一采样点序列中确定所述目标文本对应的第二采样点序列；

音量控制模块，用于根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述合成语音的音量控制方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述合成语音的音量控制方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的合成语音的音量控制方法，先获取包含由语音合成标记语言标注出的目标文本的待处理文本，然后将该待处理文本输入预设的语音合成模型中，确定该待处理文本对应的合成语音的第一采样点序列，以及从该第一采样点序列中确定目标文本对应的第二采样点序列。最后根据预设的自动增益控制算法，确定该第二采样点序列对应的增益，并对该第二采样点序列的音量进行控制。通过针对合成语音中目标文本对应的采样点序列各帧的音量进行非线性调节，降低了经音量控制后得到的合成语音的失真度，提高了合成语音的播放质量。尤其在对音量进行极大的增强的情况下，降低了音量增强后合成语音的失真度，提高了合成语音的播放质量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书提供的一种合成语音的音量控制的流程示意图；

图2为本说明书提供的一种文本特征到合成语音的对应关系示意图；

图3为本说明书提供的一种交互流程示意图；

图4为本说明书提供的一种音量过渡示意图；

图5为本说明书提供的一种合成语音的音量控制装置的示意图；

图6为本说明书提供的一种实现合成语音的音量控制方法的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术在对合成语音的音量进行调节时，通常将固定的增益值作用在合成语音的音量上，即，在合成语音的各采样点的幅度值上乘以一个固定的值，线性调节合成语音的音量。

但是，通过线性调节的方式合成语音的音量只能适用于一定的音量调节范围。例如，以16位2进制数表示合成语音的采样点的幅度值时，除去表示幅度值正负的一位符号位，幅度值的最大绝对值为2¹⁵-1＝32767。因此，在上述情况下，当合成语音的各采样点的幅度值上乘以预设固定增益不大于32767时，线性调节的方式可用于对合成语音的音量进行调节，而当合成语音存在采样点的幅度值上乘以预设固定增益大于32767时会出现爆音的情况，严重降低合成语音的播放质量。

而对于即时配送领域，在配送员配送的过程中应用合成语音时，当配送员处于户外嘈杂的环境中时，通常需要对合成语音的音量进行极大的增强，使得配送员容易辨识合成语音的内容，然而通过线性增强的方法对合成语音的音量进行极大的增强时，所采用的固定增益值通常较大，使得合成语音的各采样点的幅度值上乘以预设固定增益容易大于幅度值的最大绝对值，即容易出现爆音的情况。导致经音量增强后得到的合成语音失真，合成语音的播放质量降低，用户体验较差。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书中一种合成语音的音量控制方法的流程示意图，具体包括以下步骤：

S100：获取包含由语音合成标记语言标注出的目标文本的待处理文本。

目前，在进行语音合成时，通常先获取需要转换为语音的文本。其次对该文本进行处理，确定文本特征。然后再通过声学模型确定该文本特征对应的梅尔谱。最后声码器可根据梅尔谱生成合成语音的采样点序列。基于此，在本说明书一个或多个实施例中，业务平台的服务器可先获取包含由语音合成标记语言标注出的目标文本的待处理文本，然后在对待处理文本的处理过程中，确定目标文本对应的采样点序列。

其中，所说的待处理文本可通过语音合成标记语言(Speech Synthesis MarkupLanguage，SSML)来表示。则目标文本可通过SSML标签中的控制符来标注。目标文本为需进行音量调节的文本，可包含至少一个文本片段，本说明书对目标文本的具体内容不做限制。例如，可将待处理文本中对应地理位置、时间、金额、订单号等信息的文本作为目标文本。

例如，待处理文本为“您有新订单，始发地址为X地址，终点地址为Y地址”，目标文本为“X地址”以及“Y地址”。则通过SSML可表示为：

<speak>

您有新订单，始发地址为<prosody volume＝98 use_agc＝"1">X地址</prosody>，终点地址为<prosody use_agc＝"1">Y地址</prosody>

</speak>

示例中，<speak>以及<prosody>皆为SSML中的标签，volume为根据SSML的语言规则设置的音量控制符，后续可根据该控制符的值“98”确定合成语音中目标文本对应语音片段的调节音量，use_agc为根据SSML的语言规则设置的标注控制符，用以标注需进行音量调节的目标文本，即用SSML表示的待处理文本中，携带预设标注控制符的标签包围的文本为目标文本。

当然了，服务器也可以将获取的待处理文本发送至用户的终端，由终端执行后续步骤，确定合成语音中目标文本对应的采样点序列，并实现对目标文本对应的采样点序列的音量进行非线性增益。

本说明书中提到的服务器可以是设置于业务平台的服务器，或能够执行本说明书方案的诸如台式机、笔记本电脑等设备。终端可以是用户的终端，如用户的手机、平板电脑等。为了方便说明，下面仅以服务器为执行主体进行说明。

S102：将所述待处理文本输入预设语音合成模型中，确定所述待处理文本对应的合成语音的第一采样点序列，以及从所述第一采样点序列中确定所述目标文本对应的第二采样点序列。

通过上述确定待处理文本以及目标文本后，在本说明书一个或多个实施例中，服务器可将该待处理文本输入至预设的语音合成模型中，以确定该待处理文本对应的合成语音的第一采样点序列，以及从该第一采样点序列中确定该目标文本对应的第二采样点序列。

其中，所说的语音合成模型已有较为成熟的技术，具体采用何种语音合成模型可以根据需要确定，本说明书对此不做限制。采样点至少包含在采样点序列中的位置信息(时序)以及幅度值(幅度值决定合成语音的音量)。采样序列的采样率可根据需要确定，本说明书对此不做限制。

在本说明书一个或多个实施例中，服务器通过语音合成模型，可对输入的SSML表示的文本，进行文本归一化、分词、注音以及韵律预测等等，确定待处理文本对应的文本特征。在此过程中，服务器可根据目标文本处于待处理文本中的起止位置，从该文本特征中确定目标文本对应的文本特征所处的位置。

例如，以汉语为例，一个汉字的读音为一个音节，一个音节通常包含一个或多个音素，则在确定待处理文本对应的音素序列后，即可根据目标文本在待处理文本中的起止位置，确定目标文本对应的音素序列。当然了，这里所说的音素仅为一种文本特征示例，对于其他的文本特征，可采用类似的方法。

服务器通过语音合成模型确定待处理文本对应的文本特征后，可进一步通过语音合成模型，根据文本特征，确定该待处理文本对应的梅尔谱，从而根据该梅尔谱确定该待处理文本对应的合成语音的采样点序列。当然在此过程中，服务器可根据目标文本对应的文本特征的位置，从该梅尔谱中确定该目标文本对应的梅尔谱所处的时段，以及根据该目标文本对应的梅尔谱所处的时段，从该第一采样点序列中确定该目标文本对应的第二采样点序列，显然，第一采样点序列包含第二采样点序列，即第二采样点序列为第一采样点序列的部分采样点序列。

图2为本说明书提供的一种文本特征到合成语音的对应关系示意图。图2中“中国投资”为待处理文本，“中国”为目标文本，“中国投资”下方为待处理文本对应的音素序列，则待处理文本对应的音素序列为“zh ong1 g uo2 t ou2 z i1”，目标文本对应的音素序列为“zh ong1 g uo2”，韵母之后的数字表示声调。音素序列下方为对应于该音素序列的梅尔谱图，该梅尔谱图横坐标表示时间，纵坐标表示频率，当然了，为了方便描述，该梅尔谱图只是简单的示例性表示，部分细节未具体给出。梅尔谱图下方为对应于该梅尔谱图的合成语音的波形图，该波形图横坐标表示时间，纵坐标表示幅度，可以理解的是，语音合成模型根据该梅尔谱图可确定对应的合成语音的采样点序列，由于采样序列的采样率通常较高，难以在图中清楚地展示出合成语音的采样点序列，因此，为了方便描述，以该波形图作为示例进行描述。则该波形图可以理解为合成语音的各采样点连接后形成的合成语音的波形图。

在通过语音合成模型确定待处理文本对应的梅尔谱时，可根据音素位置与各帧梅尔谱所处时段的对应关系，确定目标文本对应的梅尔谱所处的时段，以图2中音素序列下方的梅尔谱为例，以该梅尔谱中每一竖着的小长方形为一帧，则目标文本对应的梅尔谱为前17帧。同理，在根据梅尔谱确定待处理文本对应的合成语音的采样点序列时，可根据目标文本对应的梅尔谱所处的时段，确定目标文本对应的合成语音的采样点序列，图2梅尔谱下方的波形图中，第四条粗竖实线之前的合成语音波形图片段中包含的采样点即为目标文本对应的第二采样点序列。

具体如何从第一采样点序列中确定目标文本对应的第二采样点序列，可根据需要确定，本说明书对此不做限制。

S104：根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制。

通过上述确定目标文本对应的第二采样点序列后，在本说明书一个或多个实施例中，服务器可根据预设的自动增益控制算法，确定该第二采样点序列各帧对应的增益，并对该第二采样点序列各帧的音量进行控制。

其中，自动增益控制算法已有较为成熟的技术，具体可根据需要确定采用何种自动增益控制算法，本说明书对此不做限制。所说的增益大于零，对于某帧合成语音，若确定出的增益大于1，则对该帧合成语音的音量进行增强，若确定出的增益小于1，则对该帧合成语音的音量进行减弱。增强和减弱的具体程度可根据增益值确定。对语音来说，其音量的大小主要取决于幅度值的大小，则针对该帧合成语音对应的各采样点，可将确定出的增益乘以各采样点的幅度值，以此实现音量控制。

基于图1所示的合成语音的音量控制方法，先获取包含由语音合成标记语言标注出的目标文本的待处理文本，然后将该待处理文本输入预设的语音合成模型中，确定该待处理文本对应的合成语音的第一采样点序列，以及从该第一采样点序列中确定目标文本对应的第二采样点序列。最后根据预设的自动增益控制算法，确定该第二采样点序列对应的增益，并对该第二采样点序列的音量进行控制。通过针对合成语音中目标文本对应的采样点序列各帧的音量进行非线性调节，降低了经音量控制后得到的合成语音的失真度，提高了合成语音的播放质量。尤其在对音量进行极大的增强的情况下，降低了音量增强后合成语音的失真度，提高了合成语音的播放质量。

此外，在本说明书一个或多个实施例中，步骤S100中，服务器在获取包含由语音合成标记语言标注出的目标文本的待处理文本时，服务器可先获取待处理文本，然后对该待处理文本进行命名实体识别(Named Entity Recognition，NER)，以确定需进行音量调节的目标文本，并通过语音合成标记语言标注出经识别得到的目标文本。其中，命名实体识别已有较为成熟的技术，具体采用何种方法可根据需要确定，本说明书对此不做限制。通常，需进行音量调节的目标文本为待处理文本中对应地理位置、时间、金额、订单号等信息的文本。通过语音合成标记语言标注出经识别得到的目标文本的内容可参考步骤S100中的相应描述，此处不再赘述。

进一步地，在本说明书一个或多个实施例中，对待处理文本进行命名实体识别后，可能会得到较多的命名实体，但并非所有的命名实体都需要作为目标文本需进行音量控制。因此，服务器也可根据需要，将常见的命名实体识别算法会识别出来的但无需作为目标文本的命名实体预设为黑名单，然后通过预设的黑名单对命名实体识别算法识别得到的命名实体进行筛选，最后根据筛选得到的命名实体，确定需进行音量调节的目标文本。

另外，在本说明书一个或多个实施例中，步骤S104之前，服务器还可通过对确定出的第二采样点序列进行语音活动检测(Voice Activity Detection，VAD)，只对检测得到的有效语音部分对应的采样点序列进行音量控制，避免对背景噪声进行音量放大。具体地，服务器可根据预设的语音活动检测算法，从第二采样点序列中确定有效语音采样点序列。然后进一步地，服务器可再根据预设的自动增益控制算法，确定该有效语音采样点序列各帧对应的增益，并对该有效语音采样点序列各帧的音量进行控制。其中，语音活动检测算法已有较为成熟的技术，具体采用何种方法可根据需要确定，本说明书对此不做限制。这里所说的有效语音是指合成语音中对应于文本的语音，即合成语音中排除了背景噪音的剩余部分。

此外，在本说明书一个或多个实施例中，步骤S104中，服务器对合成语音的音量进行控制时，服务器还可判断是否接收到音量增强控制请求，若是，则根据预设的自动增益控制算法，确定第二采样点序列各帧对应的增益，并对第二采样点序列各帧的音量进行非线性增强控制，若否，则根据预设增益，对第二采样点序列的音量进行线性增强控制。其中，音量增强控制请求可为终端响应于用户的操作向服务器发起的音量增强控制请求。对合成语音的音量进行线性增强控制已有较为成熟的技术，本说明书对此不再赘述。

当服务器接收到音量增强控制请求时，可以理解为用户选择使用超大音量模式，并通过终端向服务器发送音量增强控制请求。此时，服务器可通过自动增益控制算法，对第二采样点序列各帧的音量进行非线性增强控制，以此在对第二采样点序列各帧的音量进行极大增强的同时，可避免爆音。如果服务器未接到音量增强控制请求时，即用户不使用超大音量模式，此时，仅根据预设增益，对第二采样点序列的音量进行线性增强控制即可，当然了，该预设增益不会使得合成语音的各采样点的幅度值上乘以预设增益大于幅度值的最大绝对值，即不会产生爆音的现象。具体该预设增益可根据需要确定，本说明书对此不做限制。可以理解的是，通过线性调节的方式相比于非线性调节的方式，线性调节的方式对合成语音的音量调节的范围较小，非线性调节的方式对合成语音的音量调节的范围较大。

例如，终端可通过“是否使用超大音量模式？”提示用户进行选择操作，若用户选择是，则响应于用户的操作，终端可向服务器发起音量增强控制请求，当服务器检测到该请求，则根据预设的自动增益控制算法，对合成语音中第二采样点序列各帧的音量进行非线性音量控制。若用户选择否，则响应于用户的操作，终端不会向服务器发起音量增强控制请求，服务器未检测到该请求，则根据预设增益，对合成语音中第二采样点序列各帧的音量进行线性音量控制。

当然了，在本说明书一个或多个实施例中，终端也可提示用户进行模式选择，并响应于该用户的操作，将该用户选择结果直接发送至服务器，如图3所示。

图3为本说明书提供的一种交互流程示意图。由图可知，终端可先提示用户对是否使用超大音量模式进行选择，然后响应于用户的操作，将用户的选择结果发送至服务器。其次服务器可根据接收到的用户的选择结果，判断是否使用自动增益控制算法对合成语音中第二采样点序列各帧的音量进行控制。若用户选择使用超大音量模式，则根据预设的自动增益控制算法，对合成语音中第二采样点序列各帧的音量进行非线性音量控制。若用户选择不使用超大音量模式，则根据预设增益，对合成语音中第二采样点序列各帧的音量进行线性音量控制。最后，可将经音量控制后得到的合成语音的采样点序列返回给终端，由终端进行播放为用户提供对应的语音服务。

进一步地，在本说明书一个或多个实施例中，终端提示用户对是否使用超大音量模式进行选择时，若用户选择使用超大音量模式，则可继续提示用户对超大音量模式下目标文本的音量进行确定，然后将用户的选择结果以及用户确定的音量一起发送至服务器。

对应的，服务器在获取待处理文本后，对该待处理文本进行命名实体识别，确定需进行音量调节的目标文本时，可同时根据接收到的用户确定的音量，确定目标文本的音量，并在通过语音合成标记语言标注目标文本的同时，标注目标文本的音量。具体如何标注可参考步骤S100中的示例，此处不再赘述。

例如，当用户选择使用超大音量模式，且用户确定超大音量模式下目标文本的音量为音量最大值的98％，则对于步骤S100中示例的待处理文本，“您有新订单，始发地址为X地址，终点地址为Y地址”，通过命名实体识别得到的目标文本为“X地址”以及“Y地址”。可通过SSML可表示为：

<speak>

</speak>

其中，use_agc为根据SSML的语言规则设置的标注控制符，用以标注需进行音量调节的目标文本，volume＝98即为根据用户确定的音量，对目标文本的音量的标注，后续自动增益控制算法可根据该标注，对合成语音中目标文本对应的第二采样点序列进行音量调节。

进一步地，在本说明书一个或多个实施例中，步骤S104中只对合成语音中目标文本对应的第二采样点序列各帧的音量进行了控制，因此，当合成语音从非目标文本播放到目标文本，或由目标文本播放至非目标文本时，会出现音量上的突变，降低了用户体验。基于此，服务器还可根据目标文本处于待处理文本中的位置，从待处理文本中确定至少一个与目标文本相邻的字符，然后根据该字符处于所述待处理文本的位置，从第一采样点序列中确定该字符对应的相邻采样点序列，最后根据预设的中间增益，对相邻采样点序列的音量进行控制。

其中，从待处理文本中确定至少一个与目标文本相邻的字符时，该字符应为汉字，英文或数字等可读字符，即该字符不为标点符号等在正常语音播放中会省略的字符。然后以确定出的字符作为进行音量过渡的过渡字符，所说的相邻采样点序列即确定出的字符在合成语音中对应的采样点序列。最后可根据确定出的过渡字符前后文本的音量变化趋势，确定中间增益，并对相邻采样点序列的音量进行控制。该中间增益应对应于过渡字符由前到后文本的音量变化趋势来确定，使得合成语音在播放时，目标文本与非目标文本中存在音量过渡，提高用户体验，如图4所示。

图4为本说明书提供的一种音量控制中音量过渡示意图。图4中，点虚线表示合成语音的第一采样点序列，每个点即为一个采样点。在对合成语音的音量进行控制时，通常逐帧进行，对应于图4中，每两条竖线中的采样点序列视为一帧合成语音对应的采样点序列。图4中，后4帧为目标文本对应的第二采样点序列，第二采样点序列之前的两帧为确定出的相邻采样点序列。每两条竖线之间的横线，表示该帧合成语音的采样点序列对应的增益。

假设对目标文本对应的各帧合成语音的音量进行增强，第二采样点序列中第一帧合成语音的子采样点序列确定出的增益为4。则非目标文本对应的采样点序列可视为增益为1，因此相邻采样点序列对应的中间增益可为大于1小于4的任意值，即中间增益小于与相邻采样点序列相邻的第二采样点序列中第一帧合成语音的子采样点序列对应的增益。中间增益的具体数值可根据需要确定，本说明书对此不做限制。以图4中为例，相邻采样点序列中包含两帧合成语音，则第一帧对应的增益可为2，第二帧对应的增益可为3。从而使得目标文本与非目标文本中存在音量过渡，提高用户体验。

更进一步地，在本说明书一个或多个实施例中，考虑到用户的听觉感受与字符的类型相关，用户对相同音量下不同类型的字符的听觉感受往往不同。因此，在步骤S104中，服务器在根据预设的自动增益控制算法，确定第二采样点序列各帧对应的增益，并对第二采样点序列各帧的音量进行控制时，服务器可确定目标文本中各字符的类型以及各字符对应的子采样点序列，然后针对每种字符类型，根据预设的对应该种字符类型的自动增益控制算法，确定该种字符类型对应的子采样点序列各帧对应的增益，并对该种字符类型对应的子采样点序列各帧的音量进行控制。其中，所说的不同的自动增益控制算法可仅为算法中的参数不同，也可采用过程不同的自动增益控制算法。以此提升用户的听觉感受，使得合成语音更加自然。

此外，在本说明书一个或多个实施例中，步骤S102中，从第一采样点序列中确定目标文本对应的第二采样点序列时，服务器还可以根据待处理文本，通过语音合成模型确定合成语音的第一采样点序列，然后根据目标文本，通过语音合成模型确定合成语音的第二采样点序列，其次根据该第二采样点序列，通过匹配算法，与该第一采样点序列进行匹配，确定在该第一采样点序列中该第二采样点序列所处的位置。

本说明书提供的合成语音的音量控制方法，可应用于配送业务中，如，通过配送员进行快递、外卖等配送的场景中。在配送领域中，可在嘈杂的配送环境中，通过本说明书提供的合成语音的音量控制方法，对合成语音的音量进行非线性的极大的增强，降低了经音量增强后得到的合成语音的失真度，提高了合成语音的播放质量，尤其在对音量进行极大的增强的情况下，降低了音量增强后合成语音的失真度，提高了合成语音的播放质量。便于通过合成语音为配送员提供相应服务。

需要说明的是，本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

以上为本说明书的一个或多个实施例提供的合成语音的音量控制方法，基于同样的思路，本说明书还提供了相应的合成语音的音量控制装置，如图5所示。

图5为本说明书提供的一种合成语音的音量控制装置示意图，包括：

获取模块200，用于获取包含由语音合成标记语言标注出的目标文本的待处理文本；

采样点确定模块202，用于将所述待处理文本输入预设语音合成模型中，确定所述待处理文本对应的合成语音的第一采样点序列，以及从所述第一采样点序列中确定所述目标文本对应的第二采样点序列；

音量控制模块204，用于根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制。

可选地，所述获取模块200，获取待处理文本，对所述待处理文本进行命名实体识别，根据识别结果确定需进行音量调节的目标文本，并通过语音合成标记语言标注出所述目标文本。

可选地，所述音量控制模块204，用于根据预设的语音活动检测算法，从所述第二采样点序列中确定有效语音采样点序列，确定所述有效语音采样点序列各帧对应的增益，并对所述有效语音采样点序列各帧的音量进行控制。

可选地，所述采样点确定模块202，根据所述目标文本处于所述待处理文本中的位置，从所述待处理文本对应的文本特征中确定所述目标文本对应的文本特征所处的位置，根据所述目标文本对应的文本特征的位置，从所述待处理文本对应的梅尔谱中确定所述目标文本对应的梅尔谱所处的时段，根据所述目标文本对应的梅尔谱所处的时段，从所述第一采样点序列中确定所述目标文本对应的第二采样点序列。

可选地，所述音量控制模块204，判断是否接收到音量增强控制请求，若是，则根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行非线性增强控制，若否，则根据预设增益，对所述第二采样点序列的音量进行线性增强控制。

可选地，所述装置还包括：音量渐变控制模块206，用于根据所述目标文本处于所述待处理文本中的位置，从所述待处理文本中确定若干与所述目标文本相邻的字符，根据所述字符处于所述待处理文本的位置，从所述第一采样点序列中确定所述字符对应的相邻采样点序列，根据预设的中间增益，对所述相邻采样点序列的音量进行控制，其中，所述中间增益小于与所述相邻采样点序列相邻的第二采样点序列对应的增益。

可选地，所述音量控制模块204，确定所述目标文本中各字符的类型以及各字符对应的子采样点序列，针对每种字符类型，根据预设的对应该种字符类型的自动增益控制算法，确定该种字符类型对应的子采样点序列各帧对应的增益，并对该种字符类型对应的子采样点序列各帧的音量进行控制。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的合成语音的音量控制方法。

本说明书还提供了图6所示的电子设备的结构示意图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的合成语音的音量控制方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件异或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种合成语音的音量控制方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，获取包含由语音合成标记语言标注出的目标文本的待处理文本，具体包括：

获取待处理文本，对所述待处理文本进行命名实体识别；

3.如权利要求1所述的方法，其特征在于，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制，具体包括：

4.如权利要求1所述的方法，其特征在于，从所述第一采样点序列中确定所述目标文本对应的第二采样点序列，具体包括：

5.如权利要求1所述的方法，其特征在于，根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制，具体包括：

判断是否接收到音量增强控制请求；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标文本处于所述待处理文本中的位置，从所述待处理文本中确定若干与所述目标文本相邻的字符；

7.如权利要求1所述的方法，其特征在于，根据预设的自动增益控制算法，确定所述第二采样点序列各帧对应的增益，并对所述第二采样点序列各帧的音量进行控制，具体包括：

8.一种合成语音的音量控制装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～7任一所述的方法。