CN115171646B

CN115171646B - 一种音频生成方法及装置

Info

Publication number: CN115171646B
Application number: CN202210792253.1A
Authority: CN
Inventors: 赵言; 樊冯飞; 姚树杰
Original assignee: Dingfu New Power Beijing Intelligent Technology Co ltd
Current assignee: Dingfu New Power Beijing Intelligent Technology Co ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2025-05-13
Anticipated expiration: 2042-07-05
Also published as: CN115171646A

Abstract

本申请实施例提供一种音频生成方法及装置，方法包括获取第一话术集，基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，在预设的录制环境下对第二话术集进行录制，得到初始音频数据集。将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集。本申请能够基于目标业务场景生成第二话术集，使得第二话术集中的话术语料与目标业务场景相贴合。还可以在预设的录制环境下对第二话术集进行录制，可以保证录制效果。此外，能够基于初始音频数据集和公开数据集共同生成目标音频数据集，该目标音频数据集应用至语音合成模型训练过程中可以保证训练的准确性。

Description

一种音频生成方法及装置

技术领域

本申请涉及语音合成技术领域，尤其涉及一种音频生成方法及装置。

背景技术

语音合成是一种产生人造语音的技术，例如基于语音合成得到用于营销的语音。随着人工智能的飞速发展，对语音合成(speech synthesis)技术提出了更高的要求。

目前，语音合成任务一般通过已知语音数据集对语音合成模型进行训练，已知语音数据集是一种公开的数据集，例如aishell-3、标贝数据的等。已知语音数据集的生成过程包括确定话术，发声者基于话术发出声音，以及录制发声者发出的声音等。

然而，用于生成已知语音数据集的话术具有一定的随机性，且话术内容单一，与真实的业务场景相关度较低，因此，基于已知语音数据集训练而得的语音合成模型，通常质量不高，并且不能针对实际业务场景生成特定的话术。

发明内容

本申请实施例提供一种音频生成方法及装置，以解决传统音频数据用于训练语音合成模型时，语音合成模型不能针对实际的业务场景生成特定的话术的问题。

第一方面，本申请实施例提供一种音频生成方法，该方法包括：获取第一话术集，第一话术集包括多个话术语料，话术语料包括第一话术语料和第二话术语料，第一话术语料是从目标业务场景中采集得到的，第二话术语料是由句子成分不同的多个语言要素组合而成的；基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，目标语料的顺滑度大于预设阈值；在预设的录制环境下对第二话术集进行录制，得到初始音频数据集，初始音频数据集中包括第二话术集中每个话术语料对应的音频数据；将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集；归一化处理用于将初始音频数据集与公开数据集的振幅调整至预设范围内。

在一种可实现的方式中，将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集，包括：将初始音频数据集和公开数据集转换为矩阵形式，得到第一矩阵；确定第一矩阵的多个矩阵参数，矩阵参数包括第一矩阵的中位值、平均值和/或众数；利用每个矩阵参数，分别对第一部分音频数据进行归一化处理，得到每个矩阵参数对应的归一化结果；第一部分音频数据包括初始音频数据集中的部分数据和公开数据集中的部分数据；基于各个矩阵参数对应的归一化结果的试听效果，从多个矩阵参数中确定归一化参数，归一化参数为最优的试听效果对应的矩阵参数；利用归一化参数对初始音频数据集和公开数据集进行归一化处理，得到目标音频数据集。

在一种可实现的方式中，基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，包括：将第一话术集中的话术语料输入至预设的语言模型，得到各个话术语料的概率值，概率值用于表示话术语料的顺滑程度；将概率值大于预设阈值的话术语料确定为目标语料。

在一种可实现的方式中，还包括：按照预设抽查比例，对第二话术集中的目标语料进行随机抽取；如果抽取到的目标语料包含预设语法缺陷，将抽取到的目标语料从第二话术集中去除，并再次进行随机抽取；如果连续N次抽取到的目标语料均不包含预设语法缺陷，则结束抽取。

在一种可实现的方式中，第二话术语料通过以下步骤得到：确定多个第一候选集，第一候选集包括句子成分对应的多个语言要素，不同第一候选集中的语言要素的句子成分不同，语言要素是基于从目标业务场景中采集的话术语料确定的；从多个第一候选集中抽取一个或多个句子成分对应的语言要素；将抽取到的语言要素进行组合，得到第二话术语料。

在一种可实现的方式中，第二话术语料通过以下步骤得到：获取第二候选集，第二候选集包括预先设置的多个第一话术样本，以及基于业务场景采集的话术语料确定的多个第二话术样本；从第二候选集中抽取至少一个第一话术样本和至少一个第二话术样本；将抽取到的至少一个第一话术样本和至少一个第二话术样本进行组合，得到第二话术语料。

在一种可实现的方式中，还包括：在对第二话术集进行录制之前，确定初始音频数据集的录制格式，录制格式包括声道个数和/或采样率。

在一种可实现的方式中，预设的语言模型为n-gram模型。

在一种可实现的方式中，在预设的录制环境下对第二话术集进行录制，包括：由特定发声者在预设的录制环境下对第二话术集进行录制。

第二方面，本申请实施例提供一种音频生成装置，该装置包括：获取模块，用于获取第一话术集，第一话术集包括多个话术语料，话术语料包括第一话术语料和第二话术语料，第一话术语料是从目标业务场景中采集的，第二话术语料是由句子成分不同的多个语言要素组合而成的；顺滑度检查模块，用于基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，目标语料的顺滑度大于预设阈值；录制模块，用于在预设的录制环境下对第二话术集进行录制，得到初始音频数据集，初始音频数据集中包括第二话术集中每个话术语料对应的音频数据；归一化模块，用于将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集；归一化处理用于将初始音频数据集与公开数据集的振幅调整至预设范围内。

由以上技术方案可知，本申请实施例提供一种音频生成方法及装置，方法包括获取第一话术集，基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，在预设的录制环境下对第二话术集进行录制，得到初始音频数据集。将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集。本申请能够基于目标业务场景生成第二话术集，使得第二话术集中的话术语料与目标业务场景相贴合。还可以在预设的录制环境下对第二话术集进行录制，可以保证录制效果。此外，能够基于初始音频数据集和公开数据集共同生成目标音频数据集，该目标音频数据集应用至语音合成模型训练过程中可以保证训练的准确性。

附图说明

图1为本申请实施例提供的音频生成方法的流程示意图；

图2为本申请实施例提供的确定第二话术语料的流程示意图；

图3为本申请实施例提供的确定第二话术语料的又一流程示意图；

图4为本申请实施例提供的顺滑度检查的流程示意图；

图5为本申请实施例提供的对第二话术集随机抽取的流程示意图；

图6为本申请实施例提供的进行归一化处理的流程示意图；

图7为本申请实施例提供的音频生成装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

目前，语音合成任务一般通过已知语音数据集对语音合成模型进行训练，已知语音数据集是一种公开的数据集，例如aishell-3、标贝数据等。已知语音数据集的生成过程包括确定话术，发声者基于话术发出声音，以及录制发声者发出的声音等。

本申请实施例提供一种音频生成方法，该方法可以基于特定的业务场景生成音频数据集，该音频数据集包括的音频数据与业务场景相关度较高，可以解决语音合成模型不能针对实际业务场景生成特定的话术的问题。

基于本申请实施例音频生成方法生成的音频数据，可以用于训练语音合成模型，具体可以用于训练TTS(Text To Speech，从文本到语音)模型。此外，还可以用于训练其他语音合成模型，本申请对此不做具体限定。

图1为本申请实施例提供的音频生成方法的流程示意图。如图1所示，本申请实施例提供的音频生成方法包括以下步骤：

S101：获取第一话术集，第一话术集包括多个话术语料，话术语料包括第一话术语料和第二话术语料，第一话术语料是从目标业务场景中采集得到的，第二话术语料是由句子成分不同的多个语言要素组合而成的。

本申请实施例提供的第一话术集与真实的业务场景联系密切，该业务场景可以是根据实际情况选择的场景，例如：营销场景、使用场景、售后场景等。在需要生成上述任意一种业务场景相关的音频数据时，该种业务场景即为目标业务场景。例如：在需要生成一些与营销场景相关的音频数据时，营销场景即为目标业务场景，此时可以利用基于营销场景采集的话术语料生成第一话术集，该基于营销场景采集的话术语料可以是询问用户姓名、性别及购买意向等。例如，“您好，请问您怎么称呼”、“请问您家中是否有购买空调的需求”。

本申请实施例中，第一话术集可以包括第一话术语料和第二话术语料。其中，第一话术语料可以是直接由真实的目标业务场景采集的话术语料，这样，第一话术语料与目标业务场景贴合度高。第二话术语料可以是由句子成分不同的多个语言要素组合而成的，语言要素可以由目标业务场景采集的话术语料决定，这样，第二话术语料与目标业务场景相贴合。同时，由于第二话术语料由多个语言要素随机组合而成，组合过程灵活，因此，第二话术语料包括的内容更加丰富。这样，第一话术集中的话术语料内容丰富，与目标业务场景相关度高。

S102：基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，目标语料的顺滑度大于预设阈值。

对话术语料进行顺滑度检查，可以确定话术语料是否符合语言表达习惯，是否存在语法缺陷，是否能准确的表达意思等，只有语义顺滑度满足预设条件的话术语料才可能被选取到第二话术集。

对第一话术集中的话术语料进行顺滑度检查得到第二话术集，可以提高话术语料的质量，保证话术语料的准确性。

S103：在预设的录制环境下对第二话术集进行录制，得到初始音频数据集，初始音频数据集中包括第二话术集中每个话术语料对应的音频数据，录制环境的控制参数包括噪声大小和/或混响大小。

在对第二话术语料进行录制时，录制环境会直接影响音频数据的质量。因此本申请实施例中还包括在预设的录制环境下对第二话术集进行录制。其中，录制环境的噪声大小和混响的大小都会影响录制效果，因此可以将噪声大小和混响大小作为控制录制环境的控制参数，通过调节控制参数来改变录制环境。噪声大小具体可以是小于30分贝，混响大小可以由实际业务场景的需求确定，一般不低于业务的最低需求，本实施例不对混响大小做具体限定。这样，可以避免初始音频数据集中出现背景音、杂音等，有利于提高录制而得的音频数据的清晰度，进而提高语音合成模型的训练效果。

在一些实现方式中，本申请实施例还可以在步骤S103之前增加确定初始音频数据集录制格式的步骤。具体而言，在对第二话术集进行录制之前，确定初始音频数据集的录制格式，录制格式可以包括声道个数和/或采样率。初始音频数据集的录制格式，也会影响初始音频数据集的录制效果，因此可以在录制之前，对录制格式进行设置。录制格式具体可以由音频数据具体需要体现的情景决定，例如，为了使音频数据能够体现电话沟通的情景，可以将初始音频数据的录制格式设置为单声道、采样率为8kHz。这样，可以保证初始音频数据集的录制效果。

在一些实现方式中，还可以由特定发声者在预设的录制环境下对第二话术集进行录制。这样，初始音频数据集中包括特定发声者的声音特征，在将该初始音频数据应用至语音合成模型的训练过程中后，语音合成模型也可以生成与该特定发声者声音特征相符的语音。

在一些实现方式中，还可以将初始音频数据集的格式设置为wav格式。

此外，初始音频数据集中包括第二话术集中每个话术语料对应的音频数据，这样，可以保证音频数据与话术语料的文本内容之间的一致性，使得话术语料的文本内容与音频数据应用至语音合成模型的训练过程中时，训练结果更加准确。

可以理解的是，初始音频数据集是由发声者对文本内容进行朗读得到的音频数据。因此，初始音频数据集具有与之对应的文本内容，本实施例中，该文本内容又被称作第二话术集。

S104：将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集，归一化处理用于将初始音频数据集与公开音频数据集的振幅调整至预设范围内。

其中，预设的公开数据集可以是在公开渠道能够任意获取的数据集，具体而言，可以选择部分比例的某一公开数据集，例如30％的标贝数据。利用初始音频数据集和公开数据集共同确定目标音频数据集，可以使数据集包含的内容更加丰富，同时可以增加数据集包含的话术语料的普遍性，使得数据集可以兼具目标业务场景的话术语料和具有普遍性的公开话术语料。

本申请实施例还包括对初始音频数据集和公开数据集共同进行归一化处理，最终得到目标音频数据集。这样，使得初始音频数据集和公开数据集的振幅范围更加集中，目标音频数据集更加有利于语音合成模型的训练，训练而得的语音合成模型质量更高。其中，具体的振幅预设范围可以根据实际情况进行确定，一般选择在听感上良好的振幅范围。

由以上内容可知，本申请实施例提供的音频生成方法基于第一话术语料和第二话术语料形成第一话术集，之后对第一话术集进行顺滑度检查，形成第二话术集。该方法还包括对第二话术集进行录制，得到初始音频数据集。之后对初始音频数据集和公开数据集进行归一化处理，得到目标音频数据集。这样，目标音频数据集包括对应于目标业务场景的音频，并且录制质量好，可以清楚的与第二话术集中的话术语料的文本内容相对应，可以反映目标业务场景中的真实情况，准确性高。

图2为本申请实施例提供的确定第二话术语料的流程示意图。

如图2所示，在本申请实施例中，步骤S101之前还可以包括以下步骤：

S201：确定多个第一候选集，第一候选集包括句子成分对应的多个语言要素，不同第一候选集中的语言要素的句子成分不同，语言要素是基于从目标业务场景中采集的话术语料确定的。

第一候选集是由多个语言要素组成的集合，每个第一候选集对应的语言要素之间不同，不同之处体现在语言要素对应的句子成分不同。语言要素可以包括主语、谓语和宾语，还可以包括定语、状语和补语等。

例如，在目标业务场景中采集了如下话术语料：“这里是xx健身中心”，在这一话术语料中，“这里”可以被选入主语对应的第一候选集，“xx”可以被选入定语对应第一候选集，“健身中心”可以被选入宾语对应的第一候选集。再如，“张先生您喜欢健身吗”，在这一话术语料中，“张先生”可以被选入主语对应的第一候选集，“喜欢”可以被选入谓语对应的第一候选集，“健身”可以被选入宾语对应的第一候选集。

S202：从多个第一候选集中抽取一个或多个句子成分对应的语言要素。

例如，可以从主语对应的第一候选集中抽取“这件产品”，从谓语对应的第一候选集中抽取“可以缓解”，从定语对应的第一候选集中抽取“肌肉”，从宾语对应的第一候选集中抽取“疲劳”等。再如，可以从主语对应的第一候选集中抽取“我”，从谓语对应的第一候选集中抽取“给”，从宾语对应的第一候选集中抽取“您”和“联系方式”，从定语对应的第一候选集中抽取“一个”。

可以理解的是，在抽取过程中，可以在一个句子成分的语言要素对应的候选集中抽取出多个语言要素，不限于抽取一个。

S203：将抽取到的语言要素进行组合，得到第二话术语料。

其中，可以根据构成句子的各种成分之间的顺序关系，将抽取到的语言要素组合成句子，得到第二话术语料。具体而言，基于句子的各种成分之间的顺序关系可以构成一个句式，然后，按照句式对语言要素进行组合，可以得到第二话术语料。例如，按照主语-谓语-定语-宾语这一句式，上述抽取的语言要素可以组合成“这件产品可以缓解肌肉疲劳”。再如，按照主语-谓语-宾语-定语-宾语这一句式，上述抽取的语言要素可以组合成“我给您一个联系方式”。

本申请实施例中，利用多个语言要素组合形成第二话术语料的方式组合灵活，可以得到数量众多的第二话术语料，同时该第二话术语料能够与目标业务场景的实际沟通情况相对应。因此基于第二话术语料确定的第一话术集语料丰富，与目标业务场景贴合度高。

图3为本申请实施例提供的确定第二话术语料的又一流程示意图。

如图3所示，在本申请实施例中，步骤S101之前还可以包括以下步骤：

S301：获取第二候选集，第二候选集包括预先设置的第一话术样本，以及基于业务场景采集的话术语料确定的多个第二话术样本。

其中，第一话术样本可以是固定话术，例如可以是一些通用话术，例如：“您好”，“您稍等”，“您久等了”，“再见”，“祝您生活愉快”等。第二话术样本是基于业务场景采集的话术语料确定的，该业务场景是目标业务场景，第二话术样本可以是一种变量话术，也就是说第二话术样本中的内容是可以替换的。具体而言，第二话术样本可以包括多个类别，类别可以基于目标业务场景确定。例如，会员业务可以是第二话术样本中的一个类别，会员业务可以包括会员种类和会员姓名两个内容，会员种类和会员姓名对应的文本是可以替换的。例如，会员种类对应的文本可以是营销场景采集的xxAPP会员、xx店铺会员等，会员姓名对应的文本可以是基于百家姓确定的“王先生”、“李先生”等。

S302：从第二候选集中抽取至少一个第一话术样本和至少一个第二话术样本。

本申请实施例中，可以从第二话术集中随机抽取第一话术样本和第二话术样本。例如，从第二候选集中抽取的第一话术样本可以为“您好”，抽取的第二话术样本可以为“xxAPP会员”、“王先生”。

S303：将抽取到的至少一个第一话术样本和至少一个第二话术样本进行组合，得到第二话术语料。

本申请实施例中，第一话术样本和第二话术样本可以是随机组合的，例如，上述抽取的第一话术样本和第二话术样本组合形成的第二话术语料可以是：“您好，xxAPP会员王先生”。上述抽取的第一话术样本和第二话术样本组合形成的第二话术语料还可以是：“xxAPP会员王先生，您好”。

本申请实施例中，利用第一话术样本和第二话术样本组合形成话术语料的方式，能够将通用话术和针对目标业务场景的话术结合在一起，使得话术语料更加丰富且贴合实际。因此基于第二话术语料确定的第一话术集语料丰富，与目标业务场景贴合度高。

图4为本申请实施例提供的顺滑度检查的流程示意图。

如图4所示，在本申请实施例中，步骤S102可以包括以下步骤：

S1021：将第一话术集中的话术语料输入至预设的语言模型，得到各个话术语料的概率值，概率值用于表示话术语料的顺滑程度。

其中，预设的语言模型可以是n-gram模型，n-gram模型可以用于确定话术语料的概率值，该概率值的数值大小可以反映话术语料是否符合语言表达习惯等。

具体而言，语言模型(例如n-gram模型)通过词序列的概率P(词序列)来衡量这个词序列与语言表达习惯的符合程度，P(词序列)的计算公式如下：

P(词序列word_M)＝P(word_M|word₁word₂…word_M-1)；

其中，M表示第M个词序列，可以理解的是，该词序列可以是第一话术集中的一条话术语料，或者，该词序列可以是一条话术语料中的一个或几个词语。P(word_M|word₁word₂…word_M-1)表示P(词序列word_M)的数值依赖于第M个词序列前的M-1个词序列。

在本申请实施例中，n-gram模型可以是3-gram模型，说明n＝3。n的数值决定了M的数值，具体而言，M-1＝n，在n＝3时，P(词序列word_M)的数值依赖于第M个词序列前3个词序列。

S1022：将概率值大于预设阈值的话术语料确定为目标语料。

其中，概率值越大，表示语义顺滑度越高，因此可以为概率值设置一个预设阈值，只有概率值大于预设阈值的话术语料才可以被确定为目标语料。该预设阈值的具体数值可以根据实际情况确定，例如，该预设阈值可以为0.7。

基于预设的语言模型进行语言顺滑度检查，可以避免语义不顺滑的话术语料进入第二话术集，避免后续影响语言合成模块的训练效果。

图5为本申请实施例提供的对第二话术集随机抽取的流程示意图。

如图5所示，步骤S103之前，本申请实施例的方法还可以包括以下步骤：

S401：按照预设抽查比例，对第二话术集中的目标语料进行随机抽取。

其中，预设抽查比例可以根据第二话术集中目标语料的总数量以及实际所需的抽查精度等确定，例如预设抽查比例可以为0.05，那么，在抽取时，抽取的目标语料的数量和第二话术集中目标语料的总数量的占比为0.05。

S402：判断抽取到的目标语料是否包含预设语法缺陷。

其中，预设的语法缺陷可以包括语序不当、搭配不当、成分残缺或赘余、结构混乱、表意不明、不合逻辑、前后矛盾等。例如：抽取到的目标语料可以是“由于这款产品这样好的性能，得到了众多消费者的好评”，在这一目标语料中，“得到”缺少主语，因此该目标语料存在成分残缺的语法缺陷。

S403：如果抽取到的目标语料包含预设语法缺陷，将抽取到的目标语料从第二话术集中去除，并再次执行S401。如果抽取到的目标语料不包含预设语法缺陷，则执行S404。

将存在语法缺陷的目标语料从第二话术集中去除，可以避免其影响语音合成模型的训练效果。

S404：判断连续N次抽取到的目标语料是否均不包含预设语法缺陷。

其中，次数N可以由第二话术集中目标语料的总数量以及实际所需的抽查精度等确定，优选为三次。

S405：如果连续N次抽取到的目标语料均不包含预设语法缺陷，则结束抽取。如果连续N次抽取到的目标语料中包含预设语法缺陷，则执行S401。

其中，如果连续N次抽取到的目标语料均不包含预设语法缺陷，则可以表示第二话术集中的目标语料不存在预设语法缺陷，这样的第二话术集可以保证语言合成模块训练的准确性。

此外，随机抽取检查的过程中，还可以筛选出一些存在吞音、汉语拼音声母nl不分等问题的目标语料，此时也可以将这些目标语料从第二话术集中去除。

需要补充说明的是，本申请实施例对第二话术集中目标语料的检查过程，可以首先进行顺滑度检查，之后再进行随机抽取检查，或者可以首先进行随机抽取检查，之后再进行顺滑度检查，再或者可以选择顺滑度检查或随机抽取检查中的其中一种进行检查。

图6为本申请实施例提供的进行归一化处理的流程示意图。

如图6所示，步骤S104可以包括以下步骤：

S1041：将初始音频数据集和公开数据集转换为矩阵形式，得到第一矩阵。

其中，可以利用一些处理音频数据的程序对初始音频数据集和公开数据集进行转换，例如FFmpeg。

在一些实现方式中，可以分别对初始音频数据集和公开数据集进行矩阵转换，之后将转换得到的矩阵合并，形成第一矩阵。也可以将初始音频数据集和公开数据集合并，对合并后的数据集进行矩阵转换，得到第一矩阵，本申请对此不做具体限定。

S1042：确定第一矩阵的多个矩阵参数，矩阵参数包括第一矩阵的中位值、平均值和/或众数。

由于第一矩阵是由初始音频数据集和公开数据集共同得出的，因此第一矩阵的参数可以准确的表达初始音频数据集和公开数据集的数学特性。此外，矩阵参数可以是中位值、平均值和众数中的一个或几个，本申请对此不做具体限定。

S1043：利用每个矩阵参数，分别对第一部分音频数据进行归一化处理，得到每个矩阵参数对应的归一化结果。第一部分音频数据包括初始音频数据集中的部分数据和公开数据集中的部分数据。

其中，第一部分音频数据可以是初始音频数据集中的部分数据，也可以是公开数据集中的部分数据，还可以是初始音频数据集中的部分数据以及公开数据集中的部分数据共同组成的数据。对第一部分音频数据进行归一化处理，可以减少归一化处理的时间。

S1044：基于各个矩阵参数对应的归一化结果的试听效果，从多个矩阵参数中确定归一化参数，归一化参数为最优的试听效果对应的矩阵参数。

多个归一化结果用于确定利用各个矩阵参数分别进行归一化处理时，第一部分音频数据的归一化程度。这样，可以从多个归一化结果中确定一个归一化程度最好的归一化结果。例如：可以对归一化结果进行试听，得到听感上效果较好的归一化结果。之后可以将该效果较好的归一化结果对应的参数确定为归一化参数。这样，该归一化参数可以应用至初始音频数据集和公开数据集的归一化过程中，可以使得初始音频数据集和公开数据集的归一化结果在听感上更加清晰。

S1045：利用归一化参数对初始音频数据集和公开数据集进行归一化处理，得到目标音频数据集。

本实施例中，可以采用min-max归一化的方法进行归一化处理。例如，通过步骤S1044确定归一化参数为均值，那么可以利用以下公式进行均值归一化。

其中，x为归一化结果，value为数据集中的当前值，u为归一化参数，max为数据集的最大值，min为数据集的最小值。

需要补充说明的是，对初始音频数据集和公开数据集进行归一化处理的过程，可以被称为对音频数据进行后处理的过程。经过归一化处理后，初始音频数据集和公开数据集的振幅被调整至预设范围内，得到目标音频数据集。该目标音频数据集可以作为训练语料应用至语音合成模型的训练过程中，可以提升语音合成模型的训练效果。

在一些实现方式中，在执行步骤S1041-S1045以进行归一化处理之前，本申请实施例还可以包括其他的后处理步骤，例如在步骤S1041之前增加剪辑的过程。具体而言，为初始音频数据集中的每一条音频数据的前后分别增加一定时间的静音音频，示例性的，该静音音频的时长可以为500毫秒。这样，可以增加初始音频数据集的容错性，便于各个音频数据之间的对接。

在对初始音频数据集进行剪辑的过程中，还可以消除麦克风杂音等。

此外，还可以在步骤S1041之前增加文字核对的过程。例如，可以将第二话术集中的话术语料，与初始音频数据集中的音频数据进行比对，判断话术语料和音频数据之间是否一致。此时如果出现不一致的情况，可以基于音频数据对话术语料进行修改。这样，话术语料和音频数据在应用至语音合成模型训练过程中时，可以保证训练的准确性。

可以理解的是，上述后处理过程均可以应用至预设的公开数据集中。

需要补充说明的是，目标音频数据集的格式也可以为wav格式。

图7为本申请实施例提供的音频生成装置的结构示意图，如图7所示，该装置可以包括以下模块：

获取模块501，用于获取第一话术集，第一话术集包括多个话术语料，话术语料包括第一话术语料和第二话术语料，第一话术语料是从目标业务场景中采集得到的，第二话术语料是由句子成分不同的多个语言要素组合而成的。

顺滑度检查模块502，用于基于预设的语言模型对第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含目标语料的第二话术集，目标语料的顺滑度大于预设阈值。

录制模块503，用于在预设的录制环境下对第二话术集进行录制，得到初始音频数据集，初始音频数据集中包括第二话术集中每个话术语料对应的音频数据。录制环境的控制参数包括噪声大小和/或混响大小。

归一化模块504，用于将初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集。归一化处理用于将初始音频数据集与公开数据集的振幅调整至预设范围内。

在一些实施例中，归一化模块504具体用于将初始音频数据集和公开数据集转换为矩阵形式，得到第一矩阵；确定第一矩阵的多个矩阵参数，矩阵参数包括第一矩阵的中位值、平均值和/或众数；利用每个矩阵参数，分别对第一部分音频数据进行归一化处理，得到每个矩阵参数对应的归一化结果；第一部分音频数据包括初始音频数据集中的部分数据和公开数据集中的部分数据；基于各个矩阵参数对应的归一化结果的试听效果，从多个矩阵参数中确定归一化参数，归一化参数为最优的试听效果对应的矩阵参数；利用归一化参数对初始音频数据集和公开数据集进行归一化处理，得到目标音频数据集。

在一些实施例中，顺滑度检查模块502具体用于将第一话术集中的话术语料输入至预设的语言模型，得到各个话术语料的概率值，概率值用于表示话术语料的顺滑程度；将概率值大于预设阈值的话术语料确定为目标语料。

在一些实施例中，该装置还包括抽查模块，抽查模块具体用于按照预设抽查比例，对第二话术集中的目标语料进行随机抽取；如果抽取到的目标语料包含预设语法缺陷，将抽取到的目标语料从第二话术集中去除，并再次进行随机抽取；如果连续N次抽取到的目标语料均不包含预设语法缺陷，则结束抽取。

在一些实施例中，获取模块501具体用于确定多个第一候选集，第一候选集包括句子成分对应的多个语言要素，不同第一候选集中的语言要素的句子成分不同，语言要素是基于从目标业务场景中采集的话术语料确定的；从多个第一候选集中抽取一个或多个句子成分对应的语言要素；将抽取到的语言要素进行组合，得到第二话术语料。

在一些实施例中，获取模块501具体用于获取第二候选集，第二候选集包括预先设置的多个第一话术样本，以及基于业务场景采集的话术语料确定的多个第二话术样本；从第二候选集中抽取至少一个第一话术样本和至少一个第二话术样本；将抽取到的至少一个第一话术样本和至少一个第二话术样本进行组合，得到第二话术语料。

在一些实施例中，该装置还包括录制格式确定模块，录制格式确定模块具体用于在对第二话术集进行录制之前，确定初始音频数据集的录制格式，录制格式包括声道个数和/或采样率。

在一些实施例中，预设的语言模型为n-gram模型。

在一些实施例中，录制模块503具体用于由特定发声者在预设的录制环境下对第二话术集进行录制，录制环境的控制参数包括噪声大小和/或混响大小。

由以上内容可知，本申请实施例提供的音频生成装置基于第一话术语料和第二话术语料形成第一话术集，之后对第一话术集进行顺滑度检查，形成第二话术集。该方法还包括对第二话术集进行录制，得到初始音频数据集。之后对初始音频数据集和公开数据集进行归一化处理，得到目标音频数据集。这样，目标音频数据集包括对应于目标业务场景的音频，并且录制质量好，可以清楚的与第二话术集中的话术语料的文本内容相对应，可以反映目标业务场景中的真实情况，准确性高。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的网络资源复用区域确定方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-onlymemory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

容易理解的是，本领域技术人员在本申请提供的几个实施例的基础上，可以对本申请的实施例进行结合、拆分、重组等得到其他实施例，这些实施例均没有超出本申请的保护范围。

以上的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本申请实施例的具体实施方式而已，并不用于限定本申请实施例的保护范围，凡在本申请实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请实施例的保护范围之内。

Claims

1.一种音频生成方法，其特征在于，所述方法包括：

获取第一话术集，所述第一话术集包括多个话术语料，所述话术语料包括第一话术语料和第二话术语料，所述第一话术语料是从目标业务场景中采集得到的，所述第二话术语料是由句子成分不同的多个语言要素组合而成的；

基于预设的语言模型对所述第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含所述目标语料的第二话术集，所述目标语料的顺滑度大于预设阈值；

在预设的录制环境下对所述第二话术集进行录制，得到初始音频数据集，所述初始音频数据集中包括所述第二话术集中每个话术语料对应的音频数据；

将所述初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集；所述归一化处理用于将所述初始音频数据集与所述公开数据集的振幅调整至预设范围内。

2.根据权利要求1所述的音频生成方法，其特征在于，所述将所述初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集，包括：

将所述初始音频数据集和所述公开数据集转换为矩阵形式，得到第一矩阵；

确定所述第一矩阵的多个矩阵参数，所述矩阵参数包括所述第一矩阵的中位值、平均值和/或众数；

利用每个所述矩阵参数，分别对第一部分音频数据进行归一化处理，得到每个所述矩阵参数对应的归一化结果；所述第一部分音频数据包括所述初始音频数据集中的部分数据和所述公开数据集中的部分数据；

基于各个所述矩阵参数对应的所述归一化结果的试听效果，从所述多个矩阵参数中确定归一化参数，所述归一化参数为最优的试听效果对应的所述矩阵参数；

利用所述归一化参数对所述初始音频数据集和所述公开数据集进行归一化处理，得到所述目标音频数据集。

3.根据权利要求1所述的音频生成方法，其特征在于，所述基于预设的语言模型对所述第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含所述目标语料的第二话术集，包括：

将所述第一话术集中的话术语料输入至预设的语言模型，得到各个所述话术语料的概率值，所述概率值用于表示所述话术语料的顺滑程度；

将所述概率值大于预设阈值的所述话术语料确定为所述目标语料。

4.根据权利要求1所述的音频生成方法，其特征在于，还包括：

按照预设抽查比例，对所述第二话术集中的所述目标语料进行随机抽取；

如果抽取到的所述目标语料包含预设语法缺陷，将抽取到的所述目标语料从所述第二话术集中去除，并再次进行随机抽取；

如果连续N次抽取到的所述目标语料均不包含预设语法缺陷，则结束抽取。

5.根据权利要求1所述的音频生成方法，其特征在于，所述第二话术语料通过以下步骤得到：

确定多个第一候选集，所述第一候选集包括句子成分对应的多个所述语言要素，不同所述第一候选集中的所述语言要素的句子成分不同，所述语言要素是基于从目标业务场景中采集的话术语料确定的；

从多个所述第一候选集中抽取一个或多个句子成分对应的语言要素；

将抽取到的所述语言要素进行组合，得到所述第二话术语料。

6.根据权利要求1所述的音频生成方法，其特征在于，所述第二话术语料通过以下步骤得到：

获取第二候选集，所述第二候选集包括预先设置的多个第一话术样本，以及基于业务场景采集的话术语料确定的多个第二话术样本；

从所述第二候选集中抽取至少一个所述第一话术样本和至少一个所述第二话术样本；

将抽取到的至少一个所述第一话术样本和至少一个所述第二话术样本进行组合，得到所述第二话术语料。

7.根据权利要求1所述的音频生成方法，其特征在于，还包括：

在对所述第二话术集进行录制之前，确定所述初始音频数据集的录制格式，所述录制格式包括声道个数和/或采样率。

8.根据权利要求1所述的音频生成方法，其特征在于，所述预设的语言模型为n-gram模型。

9.根据权利要求1所述的音频生成方法，其特征在于，所述在预设的录制环境下对所述第二话术集进行录制，包括：

由特定发声者在预设的录制环境下对所述第二话术集进行录制，所述录制环境的控制参数包括噪声大小和/或混响大小。

10.一种音频生成装置，其特征在于，所述装置包括：

获取模块，用于获取第一话术集，所述第一话术集包括多个话术语料，所述话术语料包括第一话术语料和第二话术语料，所述第一话术语料是从目标业务场景中采集得到的，所述第二话术语料是由句子成分不同的多个语言要素组合而成的；

顺滑度检查模块，用于基于预设的语言模型对所述第一话术集中的话术语料进行顺滑度检查，确定目标语料，并生成包含所述目标语料的第二话术集，所述目标语料的顺滑度大于预设阈值；

录制模块，用于在预设的录制环境下对所述第二话术集进行录制，得到初始音频数据集，所述初始音频数据集中包括所述第二话术集中每个话术语料对应的音频数据；

归一化模块，用于将所述初始音频数据集与预设的公开数据集进行归一化处理，得到目标音频数据集；所述归一化处理用于将所述初始音频数据集与所述公开数据集的振幅调整至预设范围内。