CN118471242A

CN118471242A - 基于重构梅尔频谱特征的个性化语音应答方法及系统

Info

Publication number: CN118471242A
Application number: CN202410597830.0A
Authority: CN
Inventors: 方静宜; 田昊宇; 林月冠; 郑渊中; 王耀宣; 杨剑; 费浩峻
Original assignee: Shanghai Qiyue Information Technology Co Ltd
Current assignee: Shanghai Qiyue Information Technology Co Ltd
Priority date: 2024-05-14
Filing date: 2024-05-14
Publication date: 2024-08-09

Abstract

本申请涉及一种基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品。该方法包括：根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。本申请能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提供定制化语音服务。

Description

基于重构梅尔频谱特征的个性化语音应答方法及系统

技术领域

本申请涉及计算机信息处理领域，具体而言，涉及一种基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品。

背景技术

随着智能技术的不断发展，语音交互已经成为许多企业与其客户进行沟通的主要方式之一。然而，传统的语音客服系统往往忽视了用户个性化需求，使用有限数量的语音音色进行服务，导致用户体验的下降和交流效果的减弱。

个性化的语音音色服务可以有效提升用户体验。每个人对声音的偏好各不相同，有些用户可能更喜欢温柔的声音，而另一些用户则更喜欢干练的声音。因此，通过为每个用户提供符合其偏好的语音音色，能够增加用户对语音客服系统的好感度，使其更愿意与系统进行交互和沟通。

此外，个性化的语音音色服务也有助于提高业务效率。通过根据用户的偏好匹配语音音色，可以更好地引导用户进行交流，并提高信息传递的准确性和有效性。例如，在销售领域，选用与目标客户匹配的语音音色可能会增加销售转化率，提升客户满意度。

在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本申请提供一种基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品，能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提供千人千音的定制化智能语音服务。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请的一方面，提出一种基于重构梅尔频谱特征的个性化语音应答方法，该方法包括：根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

可选地，还包括：获取原始训练音频的增广梅尔频谱特征；通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失；根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数；在训练满足条件时，结束对音色转换模型的参数更新。

可选地，获取原始训练音频的增广梅尔频谱特征，包括：获取带有说话人标签的原始训练音频；提取所述原始训练音频的梅尔频谱特征；在频域维度上对所述梅尔频谱特征进行多次的随机拉伸和压缩；通过多次的随机拉伸和压缩生成所述增广梅尔频谱特征。

可选地，通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失，包括：通过第一神经网络模型提取所述增广梅尔频谱特征中的增广内容特征；通过第二神经网络模型提取所述增广梅尔频谱特征中的增广音色特征；通过第三神经网络模型和所述增广内容特征、所述增广音色特征生成增广重构梅尔频谱特征；根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构原始训练音频和重构训练音色；通过所述重构原始训练音频、所述原始训练音频、所述重构训练音色、所述增广音色特征计算重构损失和音色损失。

可选地，根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构原始训练音频和重构训练音色，包括：通过声码器模型和所述增广重构梅尔频谱特征生成所述重构原始训练音频；通过第二神经网络模型和所述增广重构梅尔频谱特征生成所述重构训练音色。

可选地，根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数，包括：根据所述重构损失和所述音色损失生成整体损失函数；计算所述整体损失函数的梯度；通过所述梯度更新所述多个神经网络模型的参数，所述参数包括：权重参数和偏置参数。

可选地，在训练满足条件时，结束对音色转换模型的参数更新，包括：确定训练时长阈值；在满足训练时长阈值时，结束对音色转换模型的参数更新。

可选地，根据用户的细粒度画像特征确定音色音频，包括：对用户信息进行细粒度划分，以生成细粒度用户特征；将所述细粒度用户特征输入音色画像模型中，生成多个待选音色特征和其对应的评分；根据所述评分由所述多个待选音色特征中确定音色音频。

可选地，还包括：提取用户信息的细粒度用户特征；提取用户信息对应的语音回复音频；为所述语音回复音频确定样本标识；通过所述细粒度用户特征、所述语音回复音频，所述样本标识生成训练样本；通过所述训练样本对梯度提升决策树进行训练以生成音色画像模型。

可选地，通过所述细粒度用户特征、所述语音回复音频，所述样本标识生成训练样本，包括：提取所述语音回复音频的音色数值向量特征；通过所述细粒度用户特征、所述音色数值向量特征，所述样本标识生成所述训练样本。

根据本申请的一方面，提出一种基于重构梅尔频谱特征的个性化语音应答系统，该系统包括：音频模块，用于根据语音服务场景确定用户对应的内容音频；音色模块，用于根据用户的细粒度画像特征确定音色音频；输入模块，用于将所述内容音频和所述音色音频输入音色转换模型中；转换模块，用于音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；重构模块，用于音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；合成模块，用于利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

根据本申请的一方面，提出一种计算机设备，包括：

处理器、存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上文所述方法的步骤。

根据本申请的一方面，提出一种计算机可读存储介质，其上存储有计算机程序/指令，所述计算机程序/指令被处理器执行时实现上文所述方法的步骤。

根据本申请的一方面，提出一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时，实现如上文所述方法的步骤。

根据本申请的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本申请的基于重构梅尔频谱特征的个性化语音应答方法、系统、计算机设备、计算机可读存储介质及计算机程序产品，通过根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频的方式，能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提供千人千音的定制化智能语音服务。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参照附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答方法的流程图。

图2是根据另一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答方法的流程图。

图3是根据另一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答方法的流程图。

图4是根据另一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答方法的流程图。

图5是根据一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答系统的框图。

图6是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本申请将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

本申请涉及的技术缩略语如下：

VC(Voice Cloning)，音色克隆，也称音色转换，旨在保留声音的内容和风格的同时，只改变说话者的音色。

ASR(Automatic Speech Recognition)，自动语音识别，一种将语音信号转换成文字的技术。

PPG(Phonetic Posteriorgrams)，语音后验图特征，一个时间对音素类别的矩阵，表示对于一句话的每个特定时间帧，每个语音音素类别的后验概率。

Vocoder，声码器，一种将语音频谱特征转换为语音信号的模型。

Mel(Mel spectrogram)，梅尔频谱特征，一种将语音信号转换为(时域维度，频域维度)尺寸的特征。

本案申请人经过调研之后发现，现有的智能语音客服机器人通常使用多套人工录音来配置音色机器人，人工录制并剪辑机器人的内容音频需要投入大量的时间、金钱以及人力成本，且录音师的录音状态会影响实际话术录音的效果；同时，现有系统对于用户和音色机器人之间的匹配无法做到精细化，通常以年龄段或性别进行硬性匹配，无法结合实际客服场景下的具体业务需求进行软性匹配。

主要原因在于：1、现有的用户画像技术基本是基于各个独立业务线产出，这样做通常会导致数据孤岛的产生。2、现有的音色转换技术都是基于主流的深度学习技术框架进行设计的，主要目的是将语音中的说话人音色信息和说话内容信息进行有效的分离与聚合。

更进一步的是，现有音色转换技术主要采取两阶段训练策略，第一阶段模型将原始音色说话人的音频转换为目标音色说话人的频谱特征，第二阶段模型再使用声码器(vocoder)将目标音色说话人的音频频谱特征转换为语音信号。这两个阶段的训练通常是分开的，会出现第一阶段模型输出的频谱特征与第二阶段声码器训练使用的频谱特征分布不一致的问题，导致最终音色转换输出的重构语音质量不佳。

现有音色转换技术需要依赖文本和语音两种训练数据进行音色转换模型的训练，通常的做法是先基于大量的语音和其标注文本进行语音识别(ASR)模型的训练，使用ASR输出的语音音素后验概率(PPG)作为说原始音色说话人的说话内容信息特征，并与目标说话人的音色特征进行聚合以获得目标音色说话人的频谱特征，这类音色转换技术需要大量的包含对应文本或更细粒度的音素标注的数据，模型训练的成本较高。

有鉴于先有技术中的种种技术缺陷，本案申请人提出了一种基于重构梅尔频谱特征的个性化语音应答方法，该方法具有如下优点：

1、本申请能够基于一套机器人话术实现智能客服机器人多种音色的自动化快速复制，解决了人工录音师录制多套内容音频过程中录制效果不稳定的问题；

2、本申请中提出的音色转换技术采用了一阶段端到端的训练策略，将所有神经网络模型的参数放在一次训练过程中进行更新，解决了因两阶段训练策略带来的重构语音质量不佳的问题；而且，本申请中的音色转换技术的模型设计不依赖文本数据进行训练，可以实现仅基于语音的训练，解决了音色转换技术训练数据成本高的问题；

3、本申请中使用的音色画像模型实现了各个数据源的结合，解决了之前数据孤岛问题，可以更有效和准确的利用用户的特质属性。并且，本申请的音色画像模型采用细粒度用户特征，能够使得智能客服机器人音色与用户进行精细化匹配，解决了因粗粒度匹配导致的机器人音色匹配准确率低的问题。

下面借助于具体的实施例对本申请的内容进行详细描述。

图1是根据一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答方法的流程图。基于重构梅尔频谱特征的个性化语音应答方法10至少包括步骤S102至S112。

如图1所示，在S102中，根据智能语音服务场景确定用户对应的内容音频。可根据不同的使用场景确定内容音频，使用场景可例如为电销场景，技术支持场景、服务咨询场景等等。

在一个实施例中，还可在实时语音客服场景中，指根据用户的当前的需求、意图或者提出的问题，系统自动产生提取不同的内容音频。

在S104中，根据用户的细粒度画像特征确定音色音频。细粒度画像特征是对用户信息进行详细划分和分析后得到的特征，这有助于更准确地了解用户的偏好和特点。系统通过将这些特征输入到音色画像模型中，生成多个可能的音色特征，并根据评分从中选择最合适的音色音频。

更具体的，可首先对用户信息进行细粒度划分，以生成细粒度用户特征；之后，将所述细粒度用户特征输入音色画像模型中，生成多个待选音色特征和其对应的评分；最后，根据所述评分由所述多个待选音色特征中确定音色音频。

在一个实施例中，可例如，提取用户信息的细粒度用户特征；提取用户信息对应的语音回复音频；为所述语音回复音频确定样本标识；通过所述细粒度用户特征、所述语音回复音频，所述样本标识生成训练样本；通过所述训练样本对梯度提升决策树进行训练以生成音色画像模型。

更进一步的，提取所述语音回复音频的音色数值向量特征；通过所述细粒度用户特征、所述音色数值向量特征，所述样本标识生成所述训练样本。

本申请中的音色画像模型，解决了因粗粒度匹配导致的机器人音色匹配准确率低的问题，本申请中的用户音色画像建模技术实现了智能客服机器人音色与用户的精细化匹配。

在S106中，将所述内容音频和所述音色音频输入音色转换模型中。

在S108中，音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征。其中，内容特征可例如是关于语音内容和语调的特征，而音色特征可例如是关于声音品质和音色的特征。

更具体的，所述音色转换模型中的第一神经网络模型由所述内容音频中提取内容梅尔频谱特征，并将其转换为所述内容特征；所述音色转换模型中的第二神经网络模型由所述音色音频中提取音色梅尔频谱特征，并将其转换为所述音色特征

在S110中，音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征。其中，梅尔频谱特征是声音信号在频域上的表示，它包含了声音的频率分布和强度信息。重构梅尔频谱特征可例如利用内容特征和音色特征生成重新构建生成梅尔频谱特征。

更具体的，所述音色转换模型中的第三神经网络模型根据所述内容特征和所述音色特征生成重构梅尔频谱特征。

在S112中，利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。利用声码器模型，根据重构的梅尔频谱特征合成语音回复音频。其中，声码器模型是用来将梅尔频谱特征转换为声音波形的模型，通过它，能够生成与用户需求和选定音色匹配的智能语音回复。

在实际的应用中，可利用声码器模型和所述重构梅尔频谱特征生成重构音频；通过所述音色转换模型中的第二神经网络模型和所述重构梅尔频谱特征生成重构音色；通过所述重构音频和所述重构音色合成个性化语音应答音频。

根据本申请的基于重构梅尔频谱特征的个性化语音应答方法，通过根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频的方式，能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提供千人千音的定制化智能语音服务。

应清楚地理解，本申请描述了如何形成和使用特定示例，但本申请的原理不限于这些示例的任何细节。相反，基于本申请公开的内容的教导，这些原理能够应用于许多其它实施例。

图2是根据另一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答方法的流程图。图2所示的流程20是对图1所示的流程的补充描述。

如图2所示，在S202中，获取原始训练音频的增广梅尔频谱特征。获取用于训练的音频并对其进行增广梅尔频谱特征提取。增广梅尔频谱特征是对原始训练音频梅尔频谱特征进行随机拉伸和压缩得到的，以扩充训练数据集。

可例如，获取带有说话人标签的原始训练音频；提取所述原始训练音频的梅尔频谱特征；在频域维度上对所述梅尔频谱特征进行多次的随机拉伸和压缩；通过多次的随机拉伸和压缩生成所述增广梅尔频谱特征。

获取增广梅尔频谱特征有助于增加数据的多样性，提高模型的鲁棒性。

在S204中，通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失。通过增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，并计算重构损失和音色损失。具体来说，可使用多个神经网络模型来提取增广梅尔频谱特征中的增广内容特征和增广音色特征，然后利用这些特征生成增广重构梅尔频谱特征和重构训练音色。通过比较重构训练音频和原始训练音频以及重构训练音色和增广音色特征，计算重构损失和音色损失。

可例如，通过第一神经网络模型提取所述增广梅尔频谱特征中的增广内容特征；通过第二神经网络模型提取所述增广梅尔频谱特征中的增广音色特征；通过第三神经网络模型和所述增广内容特征、所述增广音色特征生成增广重构梅尔频谱特征；根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构训练音频和重构训练音色；通过所述重构训练音频、所述原始训练音频、所述重构训练音色、所述增广音色特征计算重构损失和音色损失。

更进一步的，通过声码器模型和所述增广重构梅尔频谱特征生成所述重构训练音频；通过第二神经网络模型和所述增广重构梅尔频谱特征生成所述重构训练音色。

在S206中，根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数。可例如，根据所述重构损失和所述音色损失生成整体损失函数；计算所述整体损失函数的梯度；通过所述梯度更新所述多个神经网络模型的参数，所述参数包括：权重参数和偏置参数。

在S208中，在训练满足条件时，结束对音色转换模型的参数更新。可例如，确定训练时长阈值；在满足训练时长阈值时，结束对音色转换模型的参数更新。

本申请中的音色转换模型，解决了人工录音师录制多套内容音频过程中录制效果不稳定的问题以及录制效率的问题，能够基于一套机器人话术实现智能客服机器人多种音色的自动化快速稳定的复制；

本申请中的音色转换模型，解决了现有技术中因两阶段训练策略带来的重构语音质量不佳的问题，本申请中的音色转换技术采用了一阶段端到端的训练策略，将所有神经网络模型的参数放在一次训练过程中进行更新；

本申请中的音色转换模型，解决了音色转换技术训练数据成本高的问题,本申请中的音色转换技术不依赖文本数据进行训练，可以实现仅基于语音的训练。

图3是根据另一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答方法的流程图。图3所示的流程30是对图2所示的流程的详细描述。

如图3所示，在S302中，获取多个带有说话人标签的原始训练音频。获取带说话人标签的原始训练音频，将第j个说话人的原始训练音频k记作A(j,k)。

在S304中，对原始训练音频的梅尔频谱特征进行增广。

首先，提取原始训练音频的梅尔频谱特征。对每一个原始训练音频做梅尔频谱特征的提取，得到Mel_k，该特征的时域维度为a，频域维度为b。

对每个原始训练音频的梅尔频谱特征在频域维度上做±Δb_max范围内的c次随机拉伸和压缩，使得梅尔频谱特征增广为多个实现了梅尔频谱特征数量的c倍增广。

进行梅尔频谱特征的增广，有助于在后续步骤中提取说话内容特征Z_k时去除说话人音色特征的影响。

在S306中，进入第t步训练，并判断t是否小于训练时长阈值。对增广梅尔频谱特征进行第t步训练。

首先判断是否满足t≤t_max，其中t_max是设定的最大训练步长，若满足则执行S308，若不满足则执行S310，结束训练。

在S308中，结束训练。

在S310中，提取增广内容特征和增广音色特征。

对增广梅尔频谱特征使用第一神经网络模型(W₁,B₁)提取增广梅尔谱中的内容特征Z_k，内容特征可认为是话术中的说话内容特征，计算公式可简写为：

其中W₁为第一神经网络模型的权重，B₁为第一神经网络模型的偏置。

对增广梅尔频谱特征使用第二神经网络模型(W₂,B₂)提取增广梅尔谱中的说话人的音色特征Se_j，该步骤的计算公式可简写为：

其中W₂为第二神经网络模型的权重，B₂为第二神经网络模型的偏置。

在S312中，生成增广重构梅尔频谱特征。

基于内容特征Z_k和说话人的音色特征Se_j，使用第三神经网络模型重构梅尔频谱特征该步骤的计算公式可简写为：

其中和为第三神经网络模型的权重，B₃为第三神经网络模型的偏置。

在S314中，生成重构训练音频和重构训练音色。

对重构梅尔频谱特征使用声码器神经网络模型(W₄,B₄)获取重构训练音频该步骤的计算公式可简写为：

其中W₄为声码器神经网络模型的权重，B₄为声码器神经网络模型的偏置；

对重构梅尔频谱特征基于第二神经网络模型(W₂,B₂)提取重构音频的说话人音色特征该步骤的计算公式可简写为：

在S316中，生成整体损失函数。

首先，通过重构训练音频、原始训练音频、重构训练音色、增广音色特征计算重构损失和音色损失。

通过原始训练音频A(j,k)和重构训练音频计算重构损失L_r，其计算公式如下：

其中STFT(·)代表计算音频的短时傅里叶变换；

通过增广梅尔谱中的说话人的音色特征Se_j和重构音频的说话人音色特征计算音色相似度损失L_s，其计算公式如下：

之后，将重构损失L_r和音色相似度损失L_s组合起来得到整体的损失函数L_all，即：

L_all＝L_s+L_r

计算损失L_all的梯度Grad_all如下：

在S318中，更新音色转换模型中多个神经网络在第t步的权重和偏置。根据梯度Grad_all做整体神经网络模型的权重和偏置的更新得到第t步的网络权重W_t和偏置B_t，并更新步长为t+1；

其中，本申请中的音色转换模型是一个能够不改变说话内容，但能够改变说话人音色的机器学习模型。

本申请中的音色转换模型还可应用在以下业务场景中，本申请不以此为限：

语音合成：在语音合成任务中，可以使用音色转换模型将合成语音的音色调整为用户喜欢的说话人的音色，从而提升合成语音的自然度和逼真度。

语音转换：在语音转换任务中，可以利用音色转换模型将输入语音信号的说话人音色进行转换，使其听起来像是由另一个说话人说出来的。

语音增强：在语音增强任务中，可以利用音色转换模型改变语音信号的音色，使其更加清晰、自然或适合特定环境的需求。

在一个实际的应用场景中，可例如，电话通知客户的某项服务的具体进展，需要通过智能语音和预设的话术与多个用户联系。在这种情况下，可以预先为多个客户进行智能语音回复的音色、话术匹配，将匹配后的结果储存在预设位置。

在实际拨打电话的过程中，可以直接调用匹配完成的音频数据直接进行拨打，这种做法可以提高智能语音电话的拨打效率。具体的过程可如图4所示。

如图4所示，在S402中，获取客群名单，确定内容音频，在实际应用中，内容音频可为智能机器人的话术音频。

在S404中，筛选出待拨打的用户名单。可从总体客群名单Cg中筛选出一部分符合业务需求的客群拨打名单作为智能语音客服机器人每日的拨打名单，并记作C＝{1,2,3,…,i,…,n}，其中i代表第i个需要拨打的用户的编号，n代表拨打名单总量。

在S406中，判断用户编号是否小于n。依次筛选出的拨打名单中的第i个需要拨打的用户。在筛选出来的用户大于到n时，停止计算。

在S408中，确定用户的细粒度特征。针对编号为i的用户，提取其细粒度的特征Xi，细粒度特征可包括性别，年龄，职业等等和业务相关的特征。

在S410中，将细粒度特征输入到音色画像模型。

在S412中，得到多个音色特征对应的评分。将细粒度用户特征Xi，输入用户画像模型F(Xi)，输出对每一个音色tj的评分Sj。

在S414中，提取评分中最大值对应的音色特征，进而确定音色音频。提取音色评分的最高值对应的音色编号tj作为用户i匹配的音色编号。确定评分最大的音色特征编号对应的音色音频。

在S416中，将内容音频和音色音频输入到音色转换模型。

在S418中，输出该用户匹配到的智能客服语音音频。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本申请提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本申请系统实施例，可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节，请参照本申请方法实施例。

图5是根据另一示例性实施例示出的一种基于重构梅尔频谱特征的个性化语音应答系统的框图。如图5所示，基于重构梅尔频谱特征的个性化语音应答系统50包括：音频模块502，音色模块504，输入模块506，转换模块508，重构模块510，合成模块512，基于重构梅尔频谱特征的个性化语音应答系统50还可以包括：音色转换模型模块514，音色画像模型模块516。

音频模块502用于根据语音服务场景确定用户对应的内容音频；

音色模块504用于根据用户的细粒度画像特征确定音色音频；

输入模块506用于将所述内容音频和所述音色音频输入音色转换模型中；

转换模块508用于音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；

重构模块510用于音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；

合成模块512用于利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

音色转换模型模块514用于获取原始训练音频的增广梅尔频谱特征；通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失；根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数；在训练满足条件时，结束对音色转换模型的参数更新。

音色画像模型模块516用于提取用户信息的细粒度用户特征；提取用户信息对应的语音回复音频；为所述语音回复音频确定样本标识；通过所述细粒度用户特征、所述语音回复音频，所述样本标识生成训练样本；通过所述训练样本对梯度提升决策树进行训练以生成音色画像模型。

根据本申请的基于重构梅尔频谱特征的个性化语音应答系统，通过根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频的方式，能够在不改变原有的智能客服机器人话术的情况下，实现智能客服机器人音色与用户的精细化匹配，从而为用户提供千人千音的定制化智能语音服务。

如图6所示，本申请实施例提供了一种计算机设备，该计算机设备600包括处理器610、存储器620，所述存储器620上存储有计算机可读指令，所述计算机可读指令被所述处理器610执行时，实现上述任一实施例的基于重构梅尔频谱特征的个性化语音应答方法。

本申请中的上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序/指令，一个或者多个程序/指令可被一个或者多个处理器执行，以实现上述任一实施例的基于重构梅尔频谱特征的个性化语音应答方法。可例如，根据语音服务场景确定用户对应的内容音频；根据用户的细粒度画像特征确定音色音频；将所述内容音频和所述音色音频输入音色转换模型中；音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，当包括计算机程序/指令被处理器执行时实现上述各个方法实施例中的步骤。

以上具体地示出和描述了本申请的示例性实施例。应可理解的是，本申请不限于这里描述的详细结构、设置方式或实现方法；相反，本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于重构梅尔频谱特征的个性化语音应答方法，其特征在于，包括：

根据语音服务场景确定用户对应的内容音频；

根据用户的细粒度画像特征确定音色音频；

将所述内容音频和所述音色音频输入音色转换模型中；

所述音色转换模型根据所述内容音频和所述音色音频分别生成内容特征和音色特征；

所述音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；

利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

2.如权利要求1所述的方法，其特征在于，所述音色转换模型根据所述内容音频和所述音色音频分别生成内容特征和音色特征，包括：

所述音色转换模型中的第一神经网络模型由所述内容音频中提取内容梅尔频谱特征，并将其转换为所述内容特征；

所述音色转换模型中的第二神经网络模型由所述音色音频中提取音色梅尔频谱特征，并将其转换为所述音色特征。

3.如权利要求1所述的方法，其特征在于，所述音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征，包括：

所述音色转换模型中的第三神经网络模型根据所述内容特征和所述音色特征生成重构梅尔频谱特征。

4.如权利要求1所述的方法，其特征在于，利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频，包括：

利用声码器模型和所述重构梅尔频谱特征生成重构音频；

通过所述音色转换模型中的第二神经网络模型和所述重构梅尔频谱特征生成重构音色；

通过所述重构音频和所述重构音色合成个性化语音应答音频。

5.如权利要求1所述的方法，其特征在于，还包括：

获取原始训练音频的增广梅尔频谱特征；

通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失；

根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数；

在训练满足条件时，结束对音色转换模型的参数更新。

6.如权利要求5所述的方法，其特征在于，获取原始训练音频的增广梅尔频谱特征，包括：

获取带有说话人标签的原始训练音频；

提取所述原始训练音频的梅尔频谱特征；

在频域维度上对所述梅尔频谱特征进行多次的随机拉伸和压缩；

通过多次的随机拉伸和压缩生成所述增广梅尔频谱特征。

7.如权利要求5所述的方法，其特征在于，通过所述增广梅尔频谱特征对音色转换模型中的多个神经网络模型进行训练，在训练的过程中计算重构损失和音色损失，包括：

通过第一神经网络模型提取所述增广梅尔频谱特征中的增广内容特征；

通过第二神经网络模型提取所述增广梅尔频谱特征中的增广音色特征；

通过第三神经网络模型、所述增广内容特征和所述增广音色特征生成增广重构梅尔频谱特征；

根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构训练音频和重构训练音色；

通过所述重构训练音频、所述原始训练音频、所述重构训练音色、所述增广音色特征计算重构损失和音色损失。

8.如权利要求7所述的方法，其特征在于，根据所述增广重构梅尔频谱特征和所述增广音色特征生成重构训练音频和重构训练音色，包括：

通过声码器模型和所述增广重构梅尔频谱特征生成所述重构训练音频；

通过第二神经网络模型和所述增广重构梅尔频谱特征生成所述重构训练音色。

9.如权利要求5所述的方法，其特征在于，根据所述重构损失和所述音色损失更新所述多个神经网络模型的参数，包括：

根据所述重构损失和所述音色损失生成整体损失函数；

计算所述整体损失函数的梯度；

通过所述梯度更新所述多个神经网络模型的参数，所述参数包括：权重参数和偏置参数。

10.如权利要求1所述的方法，其特征在于，根据用户的细粒度画像特征确定音色音频，包括：

对用户信息进行细粒度划分，以生成细粒度用户特征；

将所述细粒度用户特征输入音色画像模型中，生成多个待选音色特征和其对应的评分；

根据所述评分由所述多个待选音色特征中确定音色音频。

11.如权利要求10所述的方法，其特征在于，还包括：

提取用户信息的细粒度用户特征；

提取用户信息对应的语音回复音频；

为所述语音回复音频确定样本标识；

提取所述语音回复音频的音色数值向量特征；

通过所述细粒度用户特征、所述音色数值向量特征，所述样本标识生成所述训练样本；

通过所述训练样本对梯度提升决策树进行训练以生成所述音色画像模型。

12.一种基于重构梅尔频谱特征的个性化语音应答系统，其特征在于，包括：

音频模块，用于根据语音服务场景确定用户对应的内容音频；

音色模块，用于根据用户的细粒度画像特征确定音色音频；

输入模块，用于将所述内容音频和所述音色音频输入音色转换模型中；

转换模块，用于音色转换模型根据所述内容音频和音色音频分别生成内容特征和音色特征；

重构模块，用于音色转换模型利用所述内容特征和所述音色特征生成重构梅尔频谱特征；

合成模块，用于利用声码器模型，运用所述重构梅尔频谱特征合成个性化语音应答音频。

13.一种计算机设备，其特征在于，包括：

处理器、存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1-11中任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现如权利要求1至11中任一所述方法的步骤。

15.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如权利要求1至11任意一项所述方法的步骤。