CN117275458A

CN117275458A - 智能客服的语音生成方法、装置、设备及存储介质

Info

Publication number: CN117275458A
Application number: CN202311545556.4A
Authority: CN
Inventors: 彭超; 董新胜; 李春建
Original assignee: Shenzhen Jiatui Technology Co ltd
Current assignee: Shenzhen Jiatui Technology Co ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2023-12-22
Anticipated expiration: 2043-11-20
Also published as: CN117275458B

Abstract

本申请公开了一种智能客服的语音生成方法、装置、设备及存储介质，在该方法中，通过语音生成模型来生成语音数据，待训练的语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器，该方法包括：将偏字符数据的第一语音频谱输入音素提取器，得到第一音素序列，并将第一音素序列和基的映射集准音素序列输入音素比较器，确定纠偏音素；将训练基准音素序列和映射集输入音素编码器中，得到音素编码数据；将音素编码数据输入标签预测器，得到韵律标签；根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱，根据预测语音频谱和训练字符数据的第二语音频谱得到语音生成模型；通过语音生成模型生成语音数据。

Description

智能客服的语音生成方法、装置、设备及存储介质

技术领域

本申请涉及语音合成技术领域，尤其涉及一种智能客服的语音生成方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，人工智能技术在语音合成等领域得到了充分应用。受音素语音数据库的影响，现有的语音生成模型存在的问题：1、合成的音色和真人的音色不对等，切换为人工坐席时，会让用户感到明显差异。2、语调韵律不准确，回答过程中，可能向用户传达了错误的信息。上述缺点降低了企业的服务质量，导致了被服务的用户的体验不佳。

发明内容

本申请实施例提供一种智能客服的语音生成方法、装置、设备及存储介质，用于提高了语音生成模型的准确度。

第一方面，本申请实施例提供一种智能客服的语音生成方法，通过语音生成模型来生成所述智能客服的语音数据，待训练的所述语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器，所述方法包括：

获取纠偏字符数据和所述纠偏字符数据的第一语音频谱，所述纠偏字符数据包括基准音素序列；

将所述第一语音频谱输入音素提取器，得到第一音素序列，并将所述第一音素序列和所述标注音素序列输入所述音素比较器，确定纠偏音素的映射集；

获取训练字符数据和所述训练字符数据的第二语音频谱，所述训练字符数据包括标注音素序列；

将所述标注音素序列和所述映射集输入所述音素编码器中，得到音素编码数据；

将所述音素编码数据输入标签预测器，获取所述训练字符数据的韵律标签；

根据所述音素编码数据和所述韵律标签确定所述训练字符数据的预测语音频谱，以及根据所述预测语音频谱和所述第二语音频谱得到所述语音生成模型；

将预设文本数据输入所述语音生成模型，生成所述智能客服的语音数据。

第二方面，本申请实施例提供一种智能客服的语音生成装置，所述智能客服的语音生成装置安装有待训练的语音生成模型的应用程序，所述语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器，所述智能客服的语音生成装置包括：第一输入模块、音素纠偏模块、第二输入模块、音素编码模块、标签预测模块、模型训练模块和语音生成模块；

第一输入模块，用于获取纠偏字符数据和所述纠偏字符数据的第一语音频谱，所述纠偏字符数据包括基准音素序列；

音素纠偏模块，用于将所述第一语音频谱输入音素提取器，得到第一音素序列，并将所述第一音素序列和所述基准音素序列输入所述音素比较器，确定纠偏音素的映射集；

第二输入模块，用于获取训练字符数据和所述训练字符数据的第二语音频谱，所述训练字符数据包括标注音素序列；

音素编码模块，用于将所述标注音素序列和所述映射集输入所述音素编码器中，得到音素编码数据；

标签预测模块，用于将所述音素编码数据输入标签预测器，获取所述训练字符数据的韵律标签；

模型训练模块，用于根据所述音素编码数据和所述韵律标签确定所述训练字符数据的预测语音频谱，以及根据所述预测语音频谱和所述第二语音频谱得到所述语音生成模型；

语音生成模块，用于将预设文本数据输入所述语音生成模型，生成语音数据。

第三方面，本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现本申请实施例中提供的任一种智能客服的语音生成方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如本申请实施例中提供的任一种的智能客服的语音生成方法。

本申请实施例提供了公开了一种智能客服的语音生成方法，通过语音生成模型来生成智能客服的语音数据，待训练的语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器，该方法包括：获取纠偏字符数据和纠偏字符数据的第一语音频谱，纠偏字符数据包括基准音素序列；将第一语音频谱输入音素提取器，得到第一音素序列，并将第一音素序列和基准音素序列输入音素比较器，确定纠偏音素的映射集；获取训练字符数据和训练字符数据的第二语音频谱，训练字符数据包括标注音素序列；将标注音素序列和映射集输入音素编码器中，得到音素编码数据；将音素编码数据输入标签预测器，获取训练字符数据的韵律标签；根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱，以及根据预测语音频谱和第二语音频谱得到语音生成模型；将预设文本数据输入语音生成模型，生成智能客服的语音数据。在上述过程中，通过比较基准音素序列和通过音素提取器提取的第一音素序列，确定坐席在发音过程中需要着重关注的纠偏音素的映射集，在对训练基准音素序列进行音素编码时，通过纠偏音素序列修正标注音素序列，提高了修正后的音素序列与坐席的真实音素的相似度，减少了错误的音素在语音生成模型迭代过程中的负面反馈，不仅提高了语音生成模型的准确度，还降低了语音生成模型的回归训练次数，从而提高了语音生成模型的训练效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种智能客服的语音生成方法的应用场景图；

图2是本申请实施例提供的一种语音生成模型的示意性框图；

图3是本申请实施例提供的一种智能客服的语音生成方法的示意流程图；

图4是本申请实施例提供的一种噪音去除方法的示意流程图；

图5是本申请实施例提供的一种智能名片的示意图；

图6是本申请实施例提供的一种智能客服的语音生成装置的示意性框图；

图7是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

生成对抗网络（Generative Adversarial Network，GAN）是一种深度学习方法，它包括一个生成器和一个判别器。生成器负责从音素生成语音波形，判别器则负责判断生成的语音波形是否接近真实语音。通过训练生成器和判别器的竞争，最终生成高质量的语音波形。GAN是采用对抗的训练方式，因此生成器的训练效果的由判别器决定的。如果因为音素样本的误差较大，导致某一次生成器生成的样本与真实样本偏差很大，但是判别器还是给出了正确的评价，那么生成器就认为自己生成的结果是正确的，这样子自我欺骗下去就会导致最终生成的结果会丢失一些信息，特征不全。

现有的、公开的方言的音素语音数据库，仅能评价官方标准的方言的影响，因为地域分布等因素，每个人受到的同一种方言的语言迁移影响是不同的，这种差别在生成对抗网络的迭代运算中会被放大，从而影响语音合成结果的准确性。

请参阅图1，图1示出了本申请实施例提供的一种智能客服的语音生成方法的应用场景图。如图1所示，本申请实施例的方法可以应用于智能客服平台中，具体地应用于智能客服平台的服务端，该服务端可以运行服务器中或者其他计算设备，该服务端中安装有待训练的语音生成模型的应用程序，用于将数据库中的语音数据输入语音生成模型，生成智能客服的语音数据。客户端运行在终端设备中，用于获取服务端的语音数据，与用户进行语音交互。其中，终端设备、服务器和数据库能够通过无线网络进行通信连接。

在终端设备和服务器中安装智能客服的语音生成方法的应用程序时需要终端设备和服务器授权相应的权限。比如可以获取终端设备和服务器的基本属性信息、定位信息、设备信息和录音信息等信息的权限。

其中，服务器可以为独立的服务器，也可以为服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。该终端设备可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

还需要说明的是，本申请实施例可以基于人工智能技术对相关的数据进行获取和处理，比如通过人工智能实现将标注音素序列和纠偏音素输入音素编码器中，得到音素编码数据。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

请参阅图2，图2是本申请实施例提供的一种语音生成模型的示意性框图。如图2所示，语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器。

请参阅图3，图3是本申请实施例提供的一种智能客服的语音生成方法的示意流程图。如图3所示，该智能客服的语音生成方法的具体步骤包括：S101-S107。

S101、获取纠偏字符数据和纠偏字符数据的第一语音频谱，纠偏字符数据包括基准音素序列。

示例性的，人在学习多种语言的过程中会不自觉地受到地区方言的影响，然后根据所掌握的地区方言把学习地区方言时用到的方法技能运用到其他语言的学习中去，例如普通话，由此出现了语言迁移的现象。因此，每个人在对话过程中的韵律会受到语言迁移的影响。

由于不同方言的影响不同，针对不同方言需要设置的纠偏字符也不同，可以根据地区性的语言学研究成果，确定需要设置的纠偏字符，并根据这些纠偏编撰得到朗读材料。在对语音生成模型进行训练之前，从坐席使用普通话朗读上述的朗读材料的录音文件中提取得到第一语音频谱，并将第一语音频谱输入语音生成模型。

在语言生成模型中，通过标准普通话的语料库中的标准音素对纠偏字符数据中的每个纠偏字符进行音素标注，得到纠偏字符数据的基准音素序列。

S102、将第一语音频谱输入音素提取器，得到第一音素序列，并将第一音素序列和基准音素序列输入音素比较器，确定纠偏音素的映射集。

示例性的，根据语言的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。在中文里，常规的音素一般包括：声母、韵母和音调，如汉语音节啊a有一个音素，爱(ài)有两个音素，代(dài)有三个音素等。

在将第一语音频谱输入音素提取器之前，需要针对不同地区建立得到不同方言的素材库，素材库中包括不同地区方言的音素。通过方言的素材库对和标准普通话的语料库第一语音频谱重新进行音素提取，以扩大音素的范围，并对方言的素材库设置更高的取样权重，以使某一音素在方言的素材库和标准普通话的语料库中的对比度相同时，以方言的音素作为提取结果。

音素提取器三音素建模存在训练数据过于稀疏的问题，所以通常使用决策树模型进行聚类，将上下文相近的三音素共享HMM模型。第一次建模仅关注单音素构建和训练HMM，得到单声道声学模型和第一次对齐。第二次建模考虑音素两侧的周围音素，即字符数据中每个字符的音素都包括三音素。

在音素比较器中，由于基准音素序列和第一音素序列均为根据纠偏字符数据中的纠偏字符生成的，因此按照时序来进行音素对比，将两者相同时序上不同的音素作为映射集，映射集通过标准音素和纠偏音素的对应关系进行映射，标准音素为基准音素序列中的音素，纠偏音素为第一音素序列中相同时序上与标准音素不同的音素。

S103、获取训练字符数据和训练字符数据的第二语音频谱，训练字符数据包括标注音素序列。

示例性的，训练字符数据的第二语音频谱可以从坐席日常工作中的对话录音中提取得到。提取第二语音频谱的文本字符，通过普通话语料库中的标准音素对第二语音频谱的文本字符进行音素标注，得到标注音素序列，根据上述文本字符标注音素序列得到训练字符数据。

S104、将标注音素序列和映射集输入音素编码器中，得到音素编码数据。

示例性的，先通过纠偏音素对标注音素序列进行修正，再通过音素编码器对标注音素序列进行位置编码，得到音素编码数据，以便于后续模型能够从音素编码数据得到训练字符数据的音素中的特征。

S105、将音素编码数据输入标签预测器，获取训练字符数据的韵律标签。

示例性的，标签预测器是提前训练好的，训练过程为：通过在带有对文本信息中的自发现象进行标注的目标数据库，该目标数据库包括普通话的标签库和方言的标签库，例如中文对话式语音数据集（MagicData-RAMC），对训练字符数据嵌入字符级别的字符信息（Character Sequence）。通过卷积神经网络对频谱数据中的梅尔频谱进行信息提取，以得到频谱表征信息。再通过双向长短期记忆（BLSTM）和全连接层组成的多层神经网络，关联每个字符对应的频谱表征信息和字符信息，进而能获取对训练字符数据的韵律标签。

S106、根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱，以及根据预测语音频谱和第二语音频谱得到语音生成模型。

示例性的，生成预测语音频谱借助了GAN的生成器的机制，基于第一编码信息和韵律标签，能够分别对训练字符数据的音素时长、音素基频和音素能量的轮廓进行粗粒度的预测，再基于音素时长、音素基频和音素能量能够生成对应的预测语音频谱。最后根据预测语音频谱和第二语音频谱和损失函数进行迭代计算，迭代计算借助了GAN的判别器的机制，在达到预设的收敛条件时，得到语音生成模型。

S107、将预设文本数据输入语音生成模型，生成智能客服的语音数据。

示例性的，预设文本数据为从坐席工作中收集的高频问题的答案文本，在智能客服与用户对话的过程中，通过用户提出的目标问题，调取出与目标问题对应的目标答案文本，并将目标答案文本输入语音生成模型，得到对应的语音数据，从而可以通过该语音数据来回答用户提出的目标问题。

在上述过程中，通过比较基准音素序列和通过音素提取器提取的第一音素序列，确定坐席在发音过程中需要着重关注的纠偏音素的映射集，在对训练基准音素序列进行音素编码时，通过纠偏音素序列修正标注音素序列，提高了修正后的音素序列与坐席的真实音素的相似度，减少了错误的音素在语音生成模型迭代过程中的负面反馈，不仅提高了语音生成模型的准确度，还降低了语音生成模型的回归训练次数，从而提高了语音生成模型的训练效率。

为了更清晰地介绍本申请的技术方案，还将通过以下实施例对本申请的技术方案进行详细阐述，需要说明的是，以下实施例用于对本申请的技术方案进行补充说明，不在于限制本申请。

在一些实施例中，根据预测语音频谱和第二语音频谱得到语音生成模型，包括：根据预测语音频谱和第二语音频谱修正语音生成模型的损失函数;若损失函数达到预设收敛条件，停止训练，得到语音生成模型。

示例性的，损失函数可以采用任意损失函数，例如L1距离损失函数、均方根（MSE）误差损失函数，当损失函数满足预设收敛条件，例如迭代次数达到预设次数、损失函数值小于预设阈值，均能完成对语音生成模型的训练。这样，经过上述步骤得到的语音生成模型，在合成坐席的声音韵律中的音色、音调和节奏时，准确度能得到大幅提升。

在一些实施例中，语音生成模型还包括：差异适配器和解码器，根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱，包括：将音素编码数据和韵律标签输入差异适配器，得到训练字符数据的音素时长、音素基频和音素能量；将音素时长、音素基频和音素能量输入解码器，得到预测语音频谱。

在一些实施例中，将第一音素序列和基准音素序列输入音素比较器，确定纠偏音素的映射集，包括：基于音素比较器，确定第一音素序列和基准音素序列中所有的差异音素；根据差异音素和差异音素在纠偏字符数据中对应的字符，对差异音素进行分类，确定纠偏音素。

示例性的，一些具体的例子来分析纠偏音素对语音的影响，从而确定识别纠偏音素的策略。在音素比较器中，按照时序来进行音素对比，将两者相同时序上不同的音素作为差异音素。对差异音素还可以进行总结归类时，可以参考差异音素及其对应的字符，由此，可能出现基准音素序列中的多个标准音素对应的第一音素序列的一个纠偏音素的情况。

以下通过三个例子来列举方言对普通话的影响。一、辅音方面。一是鼻、边音声母“n”“l”的混淆，大部分地区发音合二为一，比如“lao”和“nao”，再者说无“r”声母在读的时候也会出现一些问题，比如会带上鼻音，或者卷舌音。二、是无前鼻韵尾“n”的混淆，在萍乡等地区，不管是前鼻音还是后鼻音全部读成后鼻音，比如“山”读成“shang”。再者就是双唇韵母“m”，当地的方言不区分前后鼻音，在发音的时候常会闭合双唇。三、是无后鼻韵尾“ng”，在赣方言区的大部分地区都读成前。鼻韵尾“n”，所以当地的人一般“e”。

示例性的，通过基于普通话的语料库音中的标准音素，将纠偏字符数据标注上基准音素序列，音素标注器会损失一些方言影响的关注。因此，需要通过音素比较器确定标准音素对应的纠偏音素，具体为，根据时序排序，比较纠偏字符数据的第一音素序列和基准音素序列，记录出全部的差异音素。在差异音素中，可能一个纠偏音素对多个标准音素的迁移影响是相同的，因此认为多个标准音素对应的一个纠偏音素是同类的差异音素，根据差异音素和差异音素在纠偏字符数据中对应的字符，对差异音素进行分类，确定纠偏音素。

这样，考虑了不同种类的方言的发音特征（音素序列）和音素标注的精度的影响，通过纠偏音素修正标准音素，可以提高音素标注的准确度。

在一些实施例中，将标注音素序列和映射集输入音素编码器中，得到音素编码数据，包括：根据映射集确定标注音素序列中的待替换音素，以及确定待替换音素在映射集中对应的纠偏音素；通过纠偏音素替换标注音素序列中的待替换音素，得到纠偏音素序列；通过音素编码器对纠偏音素序列进行编码，得到音素编码数据。

示例性的，标注音素序列为通过普通话的语料库中的标准音素进行标注得到的，映射集中包括了标准音素和纠偏音素的对应关系。通过这个对应关系，根据映射集中的每个纠偏音素，在标注音素序列中确定对应的待替换音素，将待替换音素替换为对应的纠偏音素，得到纠偏音素序列。由于纠偏字符数据是时序型数据，词与词之间的顺序关系往往影响整个句子的含义，通过对纠偏音素序列进行位置编码（Positional Encoding），能够调整训练样本中词与词之间的顺序关系，提升训练样本的质量。

这样，提高了修正后的音素序列与坐席的真实音素的相似度，在后续的语音生成模型迭代过程中，减少了生成器的负面反馈，提高了语音生成模型的准确度。

在一些实施例中，通过语音生成模型中还包括：声纹识别模块，声纹识别模块用于第二语音频谱中的声纹特征，并根据声纹特征判断不同的销售人员。

示例性的，用户通过电话拨打企业的热线时，根据用户的电话号码获取用户的身份信息，根据身份信息确定用户所属的坐席，后续通过语音生成模型生成该坐席的语音合成信息，以便于为用户提供通话服务。

在一些实施例中，在将第一语音频谱输入音素提取器之前，方法还包括：通过纠偏数据训练集训练残差CNN模型和多头注意力模型；根据训练好的残差CNN模型和训练好的多头注意力模型生成音素提取器。

示例性的，在语音音素识别模型中，通过现有的方言的语音音素语料库建立纠偏数据训练集，将该纠偏数据训练集输入一个残差CNN模型，以提取语音数据中抽象的局部特征，再经过一个多头自注意力模型，该多头自注意力模型能够关注到每一帧语音与其它帧的关系，然后经过一层全连接层映射到合适维度，最后经过CTC损失函数计算预测的音素序列与真实音素序列的差异，从而得到音素提取器。其中，CTC损失函数的数学公式为：

；

其中，一个待测语音段中有P个语音段预测正确，那么这些语音段就是正例；若有N个预测错误的语音段就称为负例。样本和预测都是正例就称做真阳（True Positive,简称TP）；实际为负预测为正就是假阳（False Positive，简称FP），Precision为差异指标值。

在一些实施例中，在将第一语音频谱输入音素提取器之前，方法还包括：对第一语音频谱进行噪音过滤。

示例性的，第一语音频谱从坐席的录音文件中提取的，同样的，第二语音频谱也是。在录音的过程中，即使在静音室等环境中进行采样，仍然会会存在环境噪音，进行语音识别的时候，也存在一定的错误率，因此，需要针对第一语音频谱和第二语音频谱进行降噪处理。

具体地，录音文件为默认混合信号(含噪信号)，其前几帧仅包含环境噪声。在去除噪音的过程中，利用默认混合信号的前几帧的平均幅度谱或者能量谱作为估计到一帧噪声的幅度谱或者能量谱。此外，还可以将能量谱低于预设数值的作为未录音时段的识别条件，未录音时段中的录音数据为空白内容，在检测到默认混合信号的能量谱连续低于预设数值时，删除该连续时段中的默认混合信号，以重复内容，减少音频体积。最后利用默认混合信号的幅度谱或者能量谱与估计到的幅度谱与能量谱相减，得到估计到的干净信号的幅度谱或者能量谱。请参阅图4，图4为本申请实施例展示的一种噪音去除方法的示意流程图。如图4所示，该噪音去除方法的具体步骤为：S201-S206。

S201、初始化参数，确定帧长，帧移，傅里叶变换长度，确定估计噪声谱的帧数。

S202、读入混合语音信号，根据帧长和帧移计算帧数。

S203、根据确定用于估计噪声谱的帧数，估计噪声谱。

S204、对每一帧混合信号进行stft变换，然后用含噪信号谱减去噪声谱，得到增强后的信号的幅度谱或者能量谱。

S205、若增强后的信号的幅度谱或者能量谱出现负值，则将其替换为0。

S206、利用混合信号的相位和增强后信号的幅度谱进行重构-反变换到时域。

通过去除噪音，能够降低第一语音频谱和第二语音频谱的数据中的噪音，从而提高了对坐席的声音识别的准确度。

在一些实施例中，通过本申请实施例中提供的语音生成模型，不仅能合成通话过程中所需的语音数据，还可以合成坐席的智能名片的语音数据。

请参阅图5，图5展示了本申请实施例提供的一种智能名片的示意图。图5所示的为：通过图像合成技术得到了坐席的肖像图，在该肖像图中，坐席的唇形能够根据语音数据进行变化，通过本申请实施例中提供的语音生成模型合成语音数据，能够提高该肖像图中的唇形变化的自然度，从而提高了展示效果。

请参阅图6，图6是本申请的实施例还提供一种智能客服的语音生成装置的示意性框图，该智能客服的语音生成装置300安装有待训练的语音生成模型的应用程序，所述语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器用于执行前述的智能客服的语音生成方法。其中，该智能客服的语音生成装置可以配置于服务器或终端设备中。

其中，服务器可以为独立的服务器，也可以为服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。该终端设备可以是手机、平板电脑、笔记本电脑、台式电脑、用户数字助理和穿戴式设备等电子设备。

如图6所示，智能客服的语音生成装置300包括：第一输入模块301、音素纠偏模块302、第二输入模块303、音素编码模块304、标签预测模块305、模型训练模块306和语音生成模块307。

第一输入模块301，用于获取纠偏字符数据和纠偏字符数据的第一语音频谱，纠偏字符数据包括基准音素序列。

音素纠偏模块302，用于将第一语音频谱输入音素提取器，得到第一音素序列，并将第一音素序列和基准音素序列输入音素比较器，确定纠偏音素的映射集。

在一些实施例中，音素纠偏模块302在用于实现将第一音素序列和基准音素序列输入音素比较器，确定纠偏音素的映射集时，具体用于实现：基于音素比较器，确定第一音素序列和基准音素序列中所有的差异音素；根据差异音素和差异音素在纠偏字符数据中对应的字符，对差异音素进行分类，确定纠偏音素。

在一些实施例中，音素纠偏模块302在用于实现将第一语音频谱输入音素提取器之前，还具体用于实现：通过纠偏数据训练集训练残差CNN模型和多头注意力模型；根据训练好的残差CNN模型和训练好的多头注意力模型生成音素提取器。

在一些实施例中，音素纠偏模块302在用于实现将第一语音频谱输入音素提取器之前，还具体用于实现：对第一语音频谱进行噪音过滤。

第二输入模块303，用于获取训练字符数据和训练字符数据的第二语音频谱，训练字符数据包括标注音素序列。

音素编码模块304，用于将标注音素序列和映射集输入音素编码器中，得到音素编码数据。

在一些实施例中，音素编码模块304在用于实现将标注音素序列和映射集输入音素编码器中，得到音素编码数据时，具体用于实现：根据映射集确定标注音素序列中的待替换音素，以及确定待替换音素在映射集中对应的纠偏音素；通过纠偏音素替换标注音素序列中的待替换音素，得到纠偏音素序列；通过音素编码器对纠偏音素序列进行编码，得到音素编码数据。

标签预测模块305，用于将音素编码数据输入标签预测器，获取训练字符数据的韵律标签。

模型训练模块306，用于根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱，以及根据预测语音频谱和第二语音频谱得到语音生成模型。

在一些实施例中，模型训练模块306在用于实现根据预测语音频谱和第二语音频谱得到语音生成模型时，具体用于实现：根据预测语音频谱和第二语音频谱修正语音生成模型的损失函数;若损失函数达到预设收敛条件，停止训练，得到语音生成模型。

在一些实施例中，模型训练模块306在用于实现根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱时，具体用于实现：将音素编码数据和韵律标签输入差异适配器，得到训练字符数据的音素时长、音素基频和音素能量；将音素时长、音素基频和音素能量输入解码器，得到预测语音频谱。

语音生成模块307，用于将预设文本数据输入语音生成模型，生成语音数据。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的智能客服的语音生成装置和各模块的具体工作过程，可以参考前述智能客服的语音生成方法实施例中的对应过程，在此不再赘述。

上述的智能客服的语音生成装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端设备。

参阅图7，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行本申请实施例提供的任意一种智能客服的语音生成方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种智能客服的语音生成方法。存储介质可以是非易失性的，也可以是易失性的。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元 (Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

示例性的，在一个实施例中，处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：获取纠偏字符数据和纠偏字符数据的第一语音频谱，纠偏字符数据包括基准音素序列；将第一语音频谱输入音素提取器，得到第一音素序列，并将第一音素序列和基准音素序列输入音素比较器，确定纠偏音素的映射集；获取训练字符数据和训练字符数据的第二语音频谱，训练字符数据包括标注音素序列；将标注音素序列和映射集输入音素编码器中，得到音素编码数据；将音素编码数据输入标签预测器，获取训练字符数据的韵律标签；根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱，以及根据预测语音频谱和第二语音频谱得到语音生成模型；将预设文本数据输入语音生成模型，生成智能客服的语音数据。

在一些实施例中，处理器在用于实现将第一音素序列和基准音素序列输入音素比较器，确定纠偏音素的映射集时，具体用于实现：基于音素比较器，确定第一音素序列和基准音素序列中所有的差异音素；根据差异音素和差异音素在纠偏字符数据中对应的字符，对差异音素进行分类，确定纠偏音素。

在一些实施例中，处理器在用于实现将第一语音频谱输入音素提取器之前，还具体用于实现：通过纠偏数据训练集训练残差CNN模型和多头注意力模型；根据训练好的残差CNN模型和训练好的多头注意力模型生成音素提取器。

在一些实施例中，处理器在用于实现将第一语音频谱输入音素提取器之前，还具体用于实现：对第一语音频谱进行噪音过滤。

在一些实施例中，处理器在用于实现将标注音素序列和映射集输入音素编码器中，得到音素编码数据时，具体用于实现：根据映射集确定标注音素序列中的待替换音素，以及确定待替换音素在映射集中对应的纠偏音素；通过纠偏音素替换标注音素序列中的待替换音素，得到纠偏音素序列；通过音素编码器对纠偏音素序列进行编码，得到音素编码数据。

在一些实施例中，处理器在用于实现根据预测语音频谱和第二语音频谱得到语音生成模型时，具体用于实现：根据预测语音频谱和第二语音频谱修正语音生成模型的损失函数;若损失函数达到预设收敛条件，停止训练，得到语音生成模型。

在一些实施例中，处理器在用于实现根据音素编码数据和韵律标签确定训练字符数据的预测语音频谱时，具体用于实现：将音素编码数据和韵律标签输入差异适配器，得到训练字符数据的音素时长、音素基频和音素能量；将音素时长、音素基频和音素能量输入解码器，得到预测语音频谱。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种智能客服的语音生成方法，其特征在于，通过语音生成模型来生成所述智能客服的语音数据，待训练的所述语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器，所述方法包括：

将所述第一语音频谱输入音素提取器，得到第一音素序列，并将所述第一音素序列和所述基准音素序列输入所述音素比较器，确定纠偏音素的映射集；

2.如权利要求1所述的智能客服的语音生成方法，其特征在于，所述根据所述预测语音频谱和所述第二语音频谱得到所述语音生成模型，包括：

根据所述预测语音频谱和所述第二语音频谱修正所述语音生成模型的损失函数;

若所述损失函数达到预设收敛条件，停止训练，得到所述语音生成模型。

3.如权利要求2所述的智能客服的语音生成方法，其特征在于，所述语音生成模型还包括：差异适配器和解码器，所述根据所述音素编码数据和所述韵律标签确定所述训练字符数据的预测语音频谱，包括：

将所述音素编码数据和所述韵律标签输入所述差异适配器，得到所述训练字符数据的音素时长、音素基频和音素能量；

将所述音素时长、音素基频和音素能量输入所述解码器，得到所述预测语音频谱。

4.如权利要求1所述的智能客服的语音生成方法，其特征在于，所述将所述第一音素序列和所述基准音素序列输入音素比较器，确定纠偏音素的映射集，包括：

基于所述音素比较器，确定所述第一音素序列和所述基准音素序列中所有的差异音素；

根据所述差异音素和所述差异音素在所述纠偏字符数据中对应的字符，对所述差异音素进行分类，确定所述纠偏音素。

5.如权利要求1所述的智能客服的语音生成方法，其特征在于，所述将所述标注音素序列和所述映射集输入所述音素编码器中，得到音素编码数据，包括：

根据所述映射集确定所述标注音素序列中的待替换音素，以及确定所述待替换音素在所述映射集中对应的纠偏音素；

通过所述纠偏音素替换所述标注音素序列中的待替换音素，得到纠偏音素序列；

通过所述音素编码器对所述纠偏音素序列进行编码，得到所述音素编码数据。

6.如权利要求1所述的智能客服的语音生成方法，其特征在于，在所述将所述第一语音频谱输入音素提取器之前，所述方法还包括：

通过纠偏数据训练集训练残差CNN模型和多头注意力模型；

根据训练好的残差CNN模型和训练好的多头注意力模型生成所述音素提取器。

7.如权利要求1所述的智能客服的语音生成方法，其特征在于，在所述将所述第一语音频谱输入音素提取器之前，所述方法还包括：

对所述第一语音频谱进行噪音过滤。

8.一种智能客服的语音生成装置，其特征在于，所述智能客服的语音生成装置安装有待训练的语音生成模型的应用程序，所述语音生成模型包括：音素提取器、音素比较器、音素编码器和标签预测器，所述智能客服的语音生成装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-7中任一项所述的智能客服的语音生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7中任一项所述的智能客服的语音生成方法。