CN113990288B

CN113990288B - 一种语音客服自动生成部署语音合成模型的方法

Info

Publication number: CN113990288B
Application number: CN202111585851.3A
Authority: CN
Inventors: 朱宇光
Original assignee: Jiangsu Weihao Intelligent Technology Co ltd
Current assignee: Shanghai Hangdong Technology Co ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-05-10
Anticipated expiration: 2041-12-23
Also published as: CN113990288A

Abstract

本发明公开一种语音客服自动生成部署语音合成模型的方法及系统，通过业务系统模块，能够在真实坐席的正常工作通话的同时收集音源和人工坐席音色，通过标定服务模块，按照坐席归属进行业务分类构建标准应答文字库，以文字库语音出现频次区分高频、中频及低频语句，根据同类业务的所有文字进行近似匹配及同类项合并，判断其中高频、中频录音文件的质量，使智能语音客服在人工坐席正常工作中不断积累学习用于语音合成模型训练的数据，通过语音合成服务模块，解决合成多个声音时需要加载多个模型的问题，使每个人工坐席都具有专属音色的语音机器人，提高用户服务满意度，提供操作更简单、更高效，占用坐席总耗时更短的模式。

Description

一种语音客服自动生成部署语音合成模型的方法

技术领域

本发明涉及人工智能通讯研究技术领域，尤其是涉及一种语音客服自动生成部署语音合成模型的方法。

背景技术

在目前的大数据阶段，智能语音客服大批量的运用于生活中的每一个角落，规模较大的企业几乎都采用了智能语音客服作为前期沟通解纷的途径；这种方式能够有效降低人员成本，还能提高沟通效率，减轻工作人员的工作压力。智能语音客服不仅大大缩短了人工客服实际通话过程的时间，还通过相应的人机智能融合，极速处理客户需求。但是统一化的智能语音客服语音包容易给客户厌烦感，导致客户选择直接拒绝智能语音客服，要求转为人工语音客服。因此，亟需一种自动生成部署语音合成模型的系统，做到千人千声，适应客户需求。

专利CN112885326A公开一种个性化语音合成模型创建、语音合成和测试方法及装置，具体为一种个性化语音合成模型的创建方法，展现了一种多人合成模型，但是该技术存在以下不足：该技术中多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型过程中对音源的要求高，需要真实坐席停下工作单独去录音，影响了真实坐席的工作时间。且该发明技术并不能直接用于人工智能语音客服领域；不能依照真实客服需求进行特定匹配高频语句，这将会直接影响到智能语音客服沟通的流畅程度。

专利CN111246027B公开一种实现人机协同的语音通讯系统及方法，该技术存在以下不足：该系统主要是为了实现一种人机协同的语音通讯功能，其中人机交互模块是由语音机器人按照预先编好的话术，再调用声音克隆模块使用对应话务员的声音与客户沟通。通过话务员手动输入文本后由声音克隆模块生成语音回复客户，使得人工坐席不仅要进行语音回答、识别、反应甚至还要手动输入文本，话务员工作强度过高，这将会直接影响智能语音客服和人工客服的工作效率，缺少了预先设置的中高频话术，不能达到提高坐席沟通效率的效果。

发明内容

为了解决上述问题，本发明提供一种语音客服自动生成部署语音合成模型的方法，通过业务系统模块，能够在真实坐席的正常工作通话的同时收集音源和人工坐席音色，通过标定服务模块，使智能语音客服在人工坐席正常工作中不断积累学习用于语音合成模型训练的数据，通过语音合成服务模块，解决合成多个声音时需要加载多个模型的问题，使每个人工坐席都具有专属音色的语音机器人，提高用户服务满意度，提供操作更简单、更高效，占用坐席总耗时更短的模式。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现的：

一种语音客服自动生成部署语音合成模型的方法，其特征在于，包括以下步骤：

S1、由业务系统模块收集坐席工作中的录音文件，所述的坐席工作中的语音包括客服人员在工作状态下的各种语音，而不仅限于与客户的通话；

S2、对S1中收集到的录音文件转换成文字后进行筛选，按照坐席归属进行业务分类构建标准应答文字库，以文字库语音出现频次区分高频、中频及低频语句，根据同类业务的所有文字进行近似匹配及同类项合并，判断其中高频、中频录音文件的质量，将与坐席匹配的质量合格的语句生成目标语句转入S3，将与坐席未匹配的待补充语句转入S5；

S3、将目标语句合成为试验语句，从多人语音合成模型中的多人语音内选取同类业务的坐席录音文件，根据所述坐席的训练数据和所选取的同类业务的坐席录音文件，对多人语音合成模型进行训练，合成所述坐席的试验坐席语音模型，进入S4；

S4、判断试验坐席语音模型是否符合要求，若符合，则进入S6，否则进入S5；

S5、将待补充语句进行补充，补充后进入S2；

S6、调用坐席语音模型；

其中， S2还具体包括以下步骤：

S2-1、将业务系统模块收集到的坐席中的录音文件按照不同的坐席业务归属进行分类；

S2-2、对录音文件进行去噪处理；

S2-3、采用深度神经网络建立声学模型，从录音文件中提取得到声学特征，然后经过模型训练统计得到一个声学模型，作为识别的模板，结合语言模型经过解码处理以转换为文本信息；

S2-4、处理所有文本信息，将所有文本信息的近义词匹配和同类项语句合并，建立用于应答该类业务常见情景的标准应答文字库，并将该文字库内不同语音模板应答出现的频次区分为高频、中频以及低频语句；

S2-5、对每个坐席的语音录音文件转换成文本信息，从文本信息中提取各语句与标准应答文字库进行匹配筛选，判断录音语句是否符合预设的标准应答数据库中的语音模板语句，若是，执行S2-6；若否，执行S2-7；

S2-6、提取坐席中频、高频语句对应的录音文件，将样品语句特征进行提取处理后判断语句质量是否达标，收集坐席全部质量达标文件；

S2-7：忽略对应的样品语句；

S2-8：统计所有的坐席未匹配到的标准应答文字库中的高中频语句，并推送至中间服务模块；

S2-9：重复以上步骤，使得所有业务及所有的坐席都适配质量达标的高中频样品语句。

进一步地，所述S2-6中判断语句质量是否达标的具体方法为：

利用深度网络评估语音质量，将样品语句特征进行提取处理后得到MOS分，若MOS分高于设定值，则判断该样品语句质量达标，收集坐席全部质量达标的文件。

进一步地，所述S2-6中判断语句质量是否达标的具体方法还包括：

利用QualityNet评估语音质量，判断该样品语句质量达标，收集坐席全部质量达标的文件。

进一步地，所述S3中具体包括以下步骤：

S3-1、即按照不同的坐席录音文件，将S2中收集到的高频、中频语句使用进行转换切割，并对坐席语句数据进行处理，提取出对应的语言学特征和声学特征作为该坐席的训练数据；

S3-2、将同类业务坐席录音数据在所述多人语音合成模型中的SpeakID和对应坐席表征输入到多人语音合成模型，并使用坐席的训练数据，对多人语音合成模型进行训练，从而得到对应的坐席的个性化语音合成模型，以输出目标的坐席声学特征；

S3-3：利用声码器，将目标的坐席声学特征转换成对应目标的坐席的语音；

S3-4：根据标准应答文字库中的标准语句，输出当前模型输出合同的语句小样，步骤S4。

进一步地，所述S3-1中还包括：合成语音时只要传入对应音色speakId就能合成对应的人声。

进一步地，所述S3-2中还包括：通过WaveRNN训练声码器，实现更自然的人声。

进一步地，所述S4中试验坐席语音模型是否符合要求的具体判断方法为：坐席人员对试验坐席语音模型进行试听，确认是否可用，可用的话进入S6，否则进入S5，同时业务系统模块中不间断的继续推送坐席中生成的语音流。

本发明的有益效果是：

通过业务系统模块，能够在真实坐席的正常工作通话的同时收集音源和人工坐席音色，通过标定服务模块，使智能语音客服在人工坐席正常工作中不断积累学习用于语音合成模型训练的数据，通过语音合成服务模块，解决合成多个声音时需要加载多个模型的问题，使每个人工坐席都具有专属音色的语音机器人，提高用户服务满意度，提供操作更简单、更高效，占用坐席总耗时更短的模式。

附图说明

图1是本发明方法的整体流程图；

图2是S2中具体步骤的流程图；

图3是S3中具体步骤的流程图；

图4是本发明系统模块图。

具体实施方式

下面结合附图1-4对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

基于同一发明构思，本发明实施例还提供了语音客服自动生成部署语音合成模型的系统，该系统解决问题的原理与前述语音客服自动生成部署语音合成模型的方法相似，因本实施例将将重点置于方法，重复之处不再赘述。

如图4所示，本发明提供一种语音客服自动生成部署语音合成模型的系统，包括以下模块：

一种语音客服自动生成部署语音合成模型的方法及系统，其特征在于，包括以下模块：

业务系统模块，用于收集坐席工作中的录音文件，所述坐席工作中的语音包括客服人员在工作状态下的各种语音，包括但不限于与客户的通话；

标定服务模块，包括录音转文字模块、文字近似及同类项合并模块以及语音质量评估模块，用于从业务系统模块中的录音文件中筛选出目标语句；

语音合成服务模块，包括文字转录音模块，用于将目标语句合成试验语句，形成试验坐席模型；

验证模块，包括录音文件质量评估模块，用于判断试验语句是否符合要求；

中间服务模块，用于对试验语句进行补充。

业务系统模块系用于收集坐席工作中的各种录音文件，包括但是不限于客服人员与客户对话的场景中，在后台的客服人员沟通技术人员或者沟通主管人员的对话也进行全面的收集，这样能够有助于构建客服人员沟通学习模块，获得更多场景下客服人员的语音文件，使得坐席模型的训练更加的精确。

录音转文字模块包括以下步骤：

首先将业务系统模块收集到的坐席中的录音文件按照不同坐席业务归属进行分类。每个坐席人员的工作业务一般而言都具有特定的分类，以电商领域客服为例，有的坐席人员负责售前对接，有的坐席人员负责售后处理。按照各坐席人员所属的不同业务分类进行分类，将售前客服的录音文件归属同一分类，将售后处理的录音文件归属另一分类；

然后，对上述步骤中收集到的录音文件转换成文字后进行筛选，按照坐席归属进行业务分类构建标准应答文字库。首先先将收集到的录音文件进行去噪处理获得相对清晰的语言样本文件，具体的去噪方式可以是对采集到的录音文件进行信噪比和混响检测，按照一定的阈值，将信噪比过低、混响过大的不合格录音文件丢弃，然后采用深度神经网络建立声学模型，从录音文件中提取得到声学特征，然后经过模型训练统计得到一个声学模型，作为识别的模板，结合语言模型经过解码处理以转换为文本信息。在实际使用中，可以适用第三方开发的文字转换系统（STT），利用STT系统构建语音训练模型，训练算法以转换文本信息。

文字近似及同类项合并模块包括以下步骤：

首先建立标准应答文字库：对所有的文本信息内容进行处理，将文本信息切分为与词库匹配的所有可能的词，再统计语音模型决定最优的切分结果。如“我买的U盘快递丢件了。”，按照词条进行检索，找到所有匹配的词条（我，买的，U盘，快递，丢件，l，我买的，U盘，快递丢件了……）按照不同的扫描方式，逐个查找词库进行分词，按照词网格形式表示，接着做路径搜索，基于统计语言模型找到最优路径，最终获得最优切分词条。获得最优切分后，按照其语义进行分析，将近似的文本信息或者同类文本信息进行合并，用于建立该类业务常见情景的标准应答文字库，并将该文字库内不同语音模板应答出现的频次区分为高频、中频以及低频语句。值得注意的是，作为实施例，上述的切分方式可以是深度学习、HMM等算法，也可以基于词典分词算法，上述切分方式仅作为示例，并不以此为限；

然后匹配筛选录音文件是否符合标准应答文字库：同时该模块将人工坐席语音录音文件转换的文字信息处理切分后，将该语句与标准应答文字库进行匹配筛选，判断该录音文件是否符合预设的标准应答数据库中的语音模板语句，若是，则进入到语音质量评估模块，若否则忽略该样品语句。

语音质量评估模块包括以下步骤：

首先提取人工坐席中频、高频语句对应的录音文件，利用深度网络评估语音质量，将样品语句特征进行提取处理后得到MOS分，若MOS分高于设定值，则判断该样品语句质量达标，收集该坐席全部质量达标的文件；进一步地，也可以利用QualityNet评估语音质量，判断该样品语句质量达标，收集该坐席全部质量达标的文件；然后并统计所有该坐席未匹配到的标准应答文字库中的高中频语句，并推送至中间服务模块；重复以上步骤，最后，使得所有业务及所有坐席都适配质量达标的高中频样品语句。

语音合成服务模块，包括文字转录音模块，用于将目标语句合成试验语句，形成试验坐席模型。具体包括以下步骤：

首先，即按照不同坐席录音文件，将S2中收集到的高频、中频语句使用进行转换切割，此处可使用ffmpeg或者其他类似的软件，对坐席语句数据进行处理，提取出对应的语言学特征和声学特征作为该坐席的训练数据。以电商售后服务女性人工坐席人员为例，确定待合成的语音SpeakID。将所有收集到的电商售后服务女性人工客服的录音数据与该SpeakID对应人工坐席的录音数据共同输入到多人语音合成模型，并使用该人工坐席坐席的训练数据，对多人语音合成模型进行训练，从而得到对应坐席的个性化语音合成模型，以输出目标坐席声学特征。即可以做到输入该坐席的SpeakID后，即输出与其声音对应的人工合成语音；

其次如图3所示，使用这些同类坐席的训练数据对多人语音以基于神经网络的语音合成模型进行训练，以Neural TTS为例，得到训练好的多人语音Neural TTS模型。目标坐席以标准应答文字库中的高中频语句作为需求，将目标坐席的ID和多人语音的表征特征输入到多人语音TTS模型中进行训练，就可以获得目标坐席的个性化语音合成模型，输出目标坐席对应的声学特征，利用声码器，将目标坐席声学特征转换成对应目标坐席的语音；

最后根据标准应答文字库中的标准语句，输出当前模型输出需求的的语句小样；

判断试验坐席语音模型是否符合要求，试验坐席语音模型是否符合要求的具体判断方法为：坐席人员对试验坐席语音模型进行试听，确认是否可用，可用的话挂在模型，否则推送至中间服务模块进行补充录制语音，同时业务系统模块中不间断的继续推送坐席中生成的语音流。通过人工进行核验，可用逐渐增加试验坐席语音模型的准确性，并且可以根据这些错误对模型进行及时的调整，不影响后续试验坐席语音模型的生成；

将待补充语句进行补充，补充后进入再次进入标定服务模块；若可使用则调用坐席语音模型。

可选地，还包括，语音合成服务模块提取的语言学特征和声学特征，其中获取语音学特征，是指对语音特征进行分词处理，依照分词技术词预测词性；利用现有的韵律模型预测文本语音发音停顿的位置并注拼音，按照文本信息的汉字、词性、发音停顿位置等，生成语言学特征。

其中获取到的声学特征需包括梅尔频率倒谱系数和清浊音特征；具体指将带有因素特征的录音文件作为音频数据，与标准应答文字库的需求文字作为训练数据，训练概率模型，得到样本数据中音素起止时间数据。

可选地，还包括，多人语音合成模型的训练包括，将同类业务坐席分别分配SpeakID后，将所有同类座席的语言学特征和声学特征输入到该多人语音合成模型中，进过训练后输出同类业务坐席的共同声学特征。对该训练数据进行重复学习，能够将该语言学特征和声学特征导出。此时，输入对应的SpaakID，即输出该SpaakID说话人的工作语音。

本发明通过业务系统模块，能够在真实坐席的正常工作通话的同时收集音源和人工坐席音色，通过标定服务模块，使智能语音客服在人工坐席正常工作中不断积累学习用于语音合成模型训练的数据，通过语音合成服务模块，解决合成多个声音时需要加载多个模型的问题，使每个人工坐席都具有专属音色的语音机器人，提高用户服务满意度，提供操作更简单、更高效，占用坐席总耗时更短的模式。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音客服自动生成部署语音合成模型的方法，其特征在于，包括以下步骤：

S5、将待补充语句进行补充，补充后进入S2；

S6、调用坐席语音模型；

其中， S2还具体包括以下步骤：

S2-2、对录音文件进行去噪处理；

S2-7：忽略对应的样品语句；

2.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法，其特征在于，所述S2-6中判断语句质量是否达标的具体方法为：

3.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法，其特征在于，所述S2-6中判断语句质量是否达标的具体方法还包括：

4.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法，其特征在于，所述S3中具体包括以下步骤：

S3-1、即按照不同的坐席录音文件，将S2中收集到的高频、中频语句使用进行转换切割，并对坐席语句数据进行处理，提取出对应的语言学特征和声学特征作为坐席的训练数据；

5.根据权利要求4所述的一种语音客服自动生成部署语音合成模型的方法，其特征在于，所述S3-1中还包括：合成语音时只要传入对应音色speakId就能合成对应的人声。

6.根据权利要求4所述的一种语音客服自动生成部署语音合成模型的方法，其特征在于，所述S3-2中还包括：通过WaveRNN训练声码器，实现更自然的人声。

7.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法，其特征在于，所述S4中试验坐席语音模型是否符合要求的具体判断方法为：坐席人员对试验坐席语音模型进行试听，确认是否可用，可用的话进入S6，否则进入S5，同时业务系统模块中不间断的继续推送坐席中生成的语音流。