CN115512685A

CN115512685A - 语音合成参数自适应调节方法、装置、计算机设备及存储介质

Info

Publication number: CN115512685A
Application number: CN202210918649.6A
Authority: CN
Inventors: 高鹏; 康维鹏; 袁兰; 吴飞; 周伟华; 高峰; 潘晶
Original assignee: Hangzhou Mjoys Big Data Technology Co ltd
Current assignee: Hangzhou Mjoys Big Data Technology Co ltd
Priority date: 2022-02-22
Filing date: 2022-08-01
Publication date: 2022-12-23

Abstract

本发明实施例公开了语音合成参数自适应调节方法、装置、计算机设备及存储介质。所述方法包括：整理营销话术知识；获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数；获取实际对话内容；根据所述实际对话内容分析对话场景中的调整意图；根据所述调整意图以及所述外呼语音合成初始参数生成实时语音合成参数；根据所述实时语音合成参数生成实时外呼语音。通过实施本发明实施例的方法可实现根据实际对话场景调整语音合成参数，提高最终电话营销转化率。

Description

语音合成参数自适应调节方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音合成方法，更具体地说是指语音合成参数自适应调节方法、装置、计算机设备及存储介质。

背景技术

在电话外呼营销场景中，例如在银行领域的营销业务产品主要包括信用卡、大额存贷、理财产品等，由于营销产品众多、客户群体庞大，而传统的智能外呼系统一般提前统一设置语音合成的参数信息，使得在进行产品营销时不能根据接听人以及当时的对话场景，自动调整电话外呼语速的轻重缓急，最终影响营销效果。

因此，有必要设计一种新的方法，实现根据实际对话场景调整语音合成参数，提高最终电话营销转化率。

发明内容

本发明的目的在于克服现有技术的缺陷，提供语音合成参数自适应调节方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：语音合成参数自适应调节方法，包括：

整理营销话术知识；

获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数；

获取实际对话内容；

根据所述实际对话内容分析对话场景中的调整意图；

根据所述调整意图以及所述外呼语音合成初始参数生成实时语音合成参数；

根据所述实时语音合成参数生成实时外呼语音。

其进一步技术方案为：所述整理营销话术知识，包括：

整理待营销产品图文介绍文档的图文素材，并按所述图文素材整理待营销产品的基本信息，将所述待营销产品的基本信息转化为问题与答案的形式进行存储；

整理营销推广者的基本信息，并将营销推广者的基本信息转化为问题与答案的形式进行存储；

整理对话异常话术。

其进一步技术方案为：所述获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数，包括：

获取外呼对话的客户信息以及对话信息；

根据所述客户信息以及所述对话信息采用GBDT模型进行不同语音合成参数的用户接通质量的预测，以得到不同语音合成参数的预测值；

筛选不同语音合成参数的预测值最大的语音合成参数，以得到外呼语音合成初始参数。

其进一步技术方案为：所述根据所述实际对话内容分析对话场景中的调整意图，包括：

分析所述实际对话内容内的显性语音调整意图；

分析所述实际对话内容内的隐性语音调整意图；

整合所述显性语音调整意图以及所述隐性语音调整意图，以形成对话场景中的调整意图。

其进一步技术方案为：所述分析所述实际对话内容内的显性语音调整意图，包括：

对所述实际对话内容采用TextCNN进行短文本分类，以得到显性语音调整意图；

所述对所述实际对话内容采用TextCNN进行短文本分类，以得到显性语音调整意图，包括：

对所述实际对话内容对应的话术文本进行分词，以得到词语；

将所述词语进行向量化表征，以得到词语向量；

对词语向量用N个卷积核进行卷积特征映射，以得到语义卷积特征信息；

对语义卷积特征信息进行最大池化，得到池化数值；

将所述池化数值经过全连接的softmax层进行长度压缩，以得到类别的概率；

根据类别概率确定显性语音调整意图。

其进一步技术方案为：所述分析所述实际对话内容内的隐性语音调整意图，包括：

对所述实际对话内容采用CNN模型进行分类，以得到隐性语音调整意图；

所述对所述实际对话内容采用CNN模型进行分类，以得到隐性语音调整意图，包括：

对所述实际对话内容的上下文长度在设定范围内的话术文本进行分词，以得到若干个文本分词；

依次对若干个所述文本分词进行向量化表征，以得到若干个词向量；

依次对若干个所述词向量进行卷积特征映射，得到若干个语义卷积特征信息；

对若干个所述语义卷积特征信息按照两两结合的方式，计算若干个语义卷积特征信息之间的向量差值以及向量差值比例，并对向量差值比例再次进行卷积化特征抽取，以得到向量之间的相似性卷积特征以及衔接性卷积特征；

对所述相似性卷积特征以及衔接性卷积特征进行最大池化，并经过全连接的softmax层进行长度压缩，以得到类别的概率；

根据类别概率确定隐性语音调整意图。

其进一步技术方案为：所述根据所述实时语音合成参数生成实时外呼语音，包括：

发送所述实时语音合成参数至语音合成模型，以由语音合成模型根据所述实时语音合成参数生成实时外呼语音。

本发明还提供了语音合成参数自适应调节装置，包括：

知识整理单元，用于整理营销话术知识；

初始参数生成单元，用于获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数；

对话内容获取单元，用于获取实际对话内容；

意图分析单元，用于根据所述实际对话内容分析对话场景中的调整意图；

实时参数生成单元，用于根据所述调整意图以及所述外呼语音合成初始参数生成实时语音合成参数；

语音合成单元，用于根据所述实时语音合成参数生成实时外呼语音。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过整理营销话术知识，并依据客户信息以及对话信息生成外呼语音合成初始参数，在实际对话过程中，对对话内容进行实时分析，并确定调整意图，以此调整外呼语音合成初始参数，以生成实时语音合成参数，并由实时语音合成参数生成外呼语音，实现根据实际对话场景调整语音合成参数，提高最终电话营销转化率。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音合成参数自适应调节方法的应用场景示意图；

图2为本发明实施例提供的语音合成参数自适应调节方法的流程示意图；

图3为本发明实施例提供的语音合成参数自适应调节方法的子流程示意图；

图4为本发明实施例提供的语音合成参数自适应调节方法的子流程示意图；

图5为本发明实施例提供的语音合成参数自适应调节方法的子流程示意图；

图6为本发明实施例提供的语音合成参数自适应调节方法的子流程示意图；

图7为本发明实施例提供的语音合成参数自适应调节方法的子流程示意图；

图8为本发明实施例提供的语音合成参数自适应调节方法的通话质量分值的示意图；

图9为本发明实施例提供的语音合成参数自适应调节装置的示意性框图；

图10为本发明实施例提供的语音合成参数自适应调节装置的知识整理单元的示意性框图；

图11为本发明实施例提供的语音合成参数自适应调节装置的初始参数生成单元的示意性框图；

图12为本发明实施例提供的语音合成参数自适应调节装置的意图分析单元的示意性框图；

图13为本发明实施例提供的语音合成参数自适应调节装置的显性意图分析子单元的示意性框图；

图14为本发明实施例提供的语音合成参数自适应调节装置的隐性意图分析子单元的示意性框图；

图15为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的语音合成参数自适应调节方法的应用场景示意图。图2为本发明实施例提供的语音合成参数自适应调节方法的示意性流程图。该语音合成参数自适应调节方法应用于服务器中。该服务器与智能机器人等外呼设备以及语音合成设备进行数据交互，通过整理营销话术知识、获取外呼对话的客户信息以及对话信息，以确定初始参数，在根据智能机器人等外呼设备获取实际对话内容，根据该内容确定对话过程的调整意图，再根据该调整意图实时调整音量、语速等语音合成参数，以确定最终的语音合成参数，以此由语音合成设备进行语音合成。

图2是本发明实施例提供的语音合成参数自适应调节方法的流程示意图。如图2所示，该方法包括以下步骤S110至S160。

S110、整理营销话术知识。

在本实施例中，营销话术知识包括产品基本信息、产品年限、收益性介绍、风险性介绍、面向客群、购买流程、到期或提前赎回等文档介绍、推广营销者自身的情况介绍说明等以及对话异常情况。

具体地，待营销产品是指银行营销业务产品，主要包括信用卡、大额存贷、理财产品等，需要整理各营销产品的推广文本素材，主要包括：产品基本信息、产品年限、收益性介绍、风险性介绍、面向客群、购买流程、到期或提前赎回等文档介绍。其次，整理话术还需要包括对推广营销者“自身”的情况介绍说明等。最后，由于智能电话外呼，需要对对话异常情况，例如：对话静音、说话不清晰、背景嘈杂、对话主动要求重复、寒暄客套话等情况进行准备。

在一实施例中，请参阅图3，上述的步骤S110可包括步骤S111～S113。

S111、整理待营销产品图文介绍文档的图文素材，并按所述图文素材整理待营销产品的基本信息，将所述待营销产品的基本信息转化为问题与答案的形式进行存储。

具体地，整理待营销产品图文介绍文档图文素材，按照图文文档素材整理待营销产品的基本信息，其中，待营销产品的基本信息包括产品名称、发行主体、发行范围、产品年限、收益性介绍、风险性介绍、面向客群、购买流程、到期或提前赎回等文档介绍等基本信息说明，一般而言产品基本特征信息一般存放于PDF文档或者主页产品页专栏，并且有些还是表格、图片形式展现的。因此，需要将这些信息按上述产品信息基本条目进行梳理，转化为问题与答案的形式进行存储，最终变成为营销机器人知识素材，是整个对话流程的骨干信息。

S112、整理营销推广者的基本信息，并将营销推广者的基本信息转化为问题与答案的形式进行存储。

在本实施例中，营销推广者的基本信息包括当前银行、银行地址、银行客服电话、银行网址等基本信息。

具体地，将智能外呼机器人代表的营销推广者基本信息进行整理，将这些信息转化为问题与答案的形式。

S113、整理对话异常话术。

在本实施例中，对话异常话术主要包括对方在忙、对方吐槽、对方静音、对方语音不清晰、对方重复询问、对话主动要求再说一遍、对方背景嘈杂、不是本人、寒暄客套话等情况对应的话术。

具体地，对话异常话术在整个营销场景中可能多次反复穿插，并且也是在进行对话突发的情绪安抚上等需要特别注意的地方，这些情形处理的好坏，对营销最终转化、避免客户投诉等问题都至关重要。

通过上述三个内容的整理，获取得到整个对话机器人的营销话术知识。一般地，对于产品基本文本需要准备简版、适中、详细问答三类版本，并在语音合成时，进行接听人员的情绪识别、接听状态识别，从而控制机器人选择更合适的话术内容、并控制好其语音速度、语音轻重等。

S120、获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数。

在本实施例中，外呼语音合成初始参数是指根据用户的性别、年龄、职业等信息初步选择的音色、音速、音量、音调等参数信息。

在一实施例中，请参阅图4，上述的步骤S120可包括步骤S121～S123。

S121、获取外呼对话的客户信息以及对话信息。

在本实施例中，客户信息是指客户个性化信息以及用户的性别、年龄、职业等信息；对话信息是指当前外呼时间、当前外呼营销的产品信息。

S122、根据所述客户信息以及所述对话信息采用GBDT模型进行不同语音合成参数的用户接通质量的预测，以得到不同语音合成参数的预测值。

在本实施例中，不同语音合成参数的预测值是指不同语音参数如不同的音色、音速、音量、音调等参数信息作为初始参数进行用户接通质量预测所得的分值。

S123、筛选不同语音合成参数的预测值最大的语音合成参数，以得到外呼语音合成初始参数。

具体地，在电话外呼机器人对某客户进行电话外呼之前，需要根据客户个性化信息预设对话音色、音速等参数信息，主要是根据用户的性别、年龄、职业等信息选择不同的音色、音速、音量、音调等参数信息，并且根据当前用户信选择合适的营销开场白。

在本实施例中，将音色分成标准男音、标准女音等几大类常见音色，音速按照每分钟的播报文字数量从少到多分成10个档次，音量、音调则也按照人声说话音量分贝、音调高低进行大小按照分成10个类别。如此以来，外呼语音合成初始参数信息就变成了根据用户当前信息选择最佳当参数信息的问题。

由于用户的年龄、性别、职业、工作作息等情况以及当前外呼时间、当前外呼营销的产品信息，很大程度上确定了当前外呼应该采用什么样音色、音调、语速、声音大小。因此，可以把这个问题看成是分类问题，根据上面这些特征化的信息确定最佳语音合成参数。什么是语音合成的最佳合成参数呢？选择历史上接听了通话进行预测，对于未接通、直接挂断的电话选择忽略，因为没有实际通话，并对这些接听了的通话记录进行质量等级划分，最终通话有意向分值最高，对话轮数越多分值越高。通话质量分值从低到高划分成6个等级，具体如下表1所示。

表1.通话质量分值

因此，选择最佳语音合成参数，就变成了对当前用户、当前场景和当前时间，在不同语音合成参数情形下，预测其最终通话质量分值，并选择最高预测分值的问题。如图8所示，在用户确定、外呼场景特征确定、当前外呼时间确定的条件下，选择合适的语音合成参数特征，使得最终通话质量分值最大，对于该问题，将用户年龄、性别、职业、工作作息等采用离散型标签化，然后变动调整不同音色、音调、音量、音速的等级特征，预测最终通话质量分值，并选择最大化的预测分值。

采用GBDT(梯度提升树，Gradient Boosting Decision Tree)模型来对用户接通质量进行预测，主要是由于该模型在分类和线性拟合上表现优异。GBDT是一类Boosting模型，其通过构多颗CART回归树，GBDT每轮的训练是在上一轮的训练的残差基础之上进行训练的，也是当前模型的负梯度值之上进行训练的。GBDT分类训练时，其针对样本按每个类都训练一个分类回归树。正如上面分值评估可知，用户接通质量评级有6类情况，因此在每轮训练的时候都同时训练6颗树，每棵树专门针对某类数据进行训练。由此选择确定了在电话外呼初始化阶段的最佳语音合成参数信息。

S130、获取实际对话内容。

在本实施例中，实际对话内容是指在实际外呼过程中所采集到的对话文本。

S140、根据所述实际对话内容分析对话场景中的调整意图。

在本实施例中，调整意图是指对于音量、语速等语音合成参数的调整意图。

在外呼过程中，可能由于被叫人即用户的所在场地环境、所在处理事情，或压根儿不是原客户本人、或者客户没有听清、或者主动要求说慢点、快点或声音大点、小点等情况，就需要进行通话过程中实时监测并调整音量、语速等语音合成参数。

在一实施例中，请参阅图5，上述的步骤S140可包括步骤S141～S143。

S141、分析所述实际对话内容内的显性语音调整意图。

在本实施例中，显性语音调整意图是指用户在对话过程中明确指出的关于音量、语速等语音合成参数的调整意图。

具体地，对所述实际对话内容采用TextCNN进行短文本分类，以得到显性语音调整意图。

在一实施例中，请参阅图6，上述的步骤S141可包括步骤S1411～S1416。

S1411、对所述实际对话内容对应的话术文本进行分词，以得到词语；

S1412、将所述词语进行向量化表征，以得到词语向量。

S1413、对词语向量用N个卷积核进行卷积特征映射，以得到语义卷积特征信息；

S1414、对语义卷积特征信息进行最大池化，得到池化数值；

S1415、将所述池化数值经过全连接的softmax层进行长度压缩，以得到类别的概率；

S1416、根据类别概率确定显性语音调整意图。

具体地，用户在通话过程中由于各种原因会要求调整说话语音情况，这类语音调整意图一般分为显性语音调整意图和隐性语音调整意图两种情况。显性语音调整意图就是用户明确提出把声音调整大点或小点，或者把说话速度快点或慢点这种情况。对于显性语音调整意图的识别，采用短文本分类进行识别。由于语音合成的音色在初始化阶段已经确定，这个语音合成参数是不能改动的。通话过程的显示语音调整可以分为：提高音量、降低音量、提高语速、降低语速、其他等5个类别。因此，该技术便可识别当前用户话术意图，具体采用TextCNN短文本分类进行，

先将用户的话术文本进行分词，转化为基本词语；将词语进行向量化表征，每个词语用一个256维度的Word2Vec词向量表示。从而用户的话术，就可以表示成[Sen_Length,Embedding_Dim]的二维向量，其中Sen_Length是句子长度，Embedding_Dim是每个分词的向量化表征，这里取值为256。用N个卷积核得到N个卷积特征映，得到用户话术文本中语义卷积特征信息；对卷积特征映射进行max-pooling，得到N个1x1的数值，这样不同长度句子经过pooling层之后都能变成定长的表示了，然后拼接成一个N维向量，作为文本的句子表示；最后接一层全连接的softmax层，将N维向量压缩到长度为5的1维向量(这是由于用户显示的调整共有5个类别)，输出每个类别的概率，从而，得到了用显性语音调整意图。

S142、分析所述实际对话内容内的隐性语音调整意图。

在本实施例中，隐性语音调整意图是指探测隐性的语音调整的意图。例如当用户出现“喂，喂”等试图唤起对方注意的情况出现时，或者用户再次重复前面问题时，或者说明“有点吵”之类的，对方就在隐含暗示需要调整音速或音量。对于隐性反馈，一般通过计算用户上下文话术相似性计算出重复性，或结合上下文询问与回复情况来分析用户是否听明白前面问题。

在一实施例中，请参阅图7，上述的步骤S142可包括步骤S1421～S1426。

S1421、对所述实际对话内容的上下文长度在设定范围内的话术文本进行分词，以得到若干个文本分词；

S1422、依次对若干个所述文本分词进行向量化表征，以得到若干个词向量；

S1423、依次对若干个所述词向量进行卷积特征映射，得到若干个语义卷积特征信息；

S1424、对若干个所述语义卷积特征信息按照两两结合的方式，计算若干个语义卷积特征信息之间的向量差值以及向量差值比例，并对向量差值比例再次进行卷积化特征抽取，以得到向量之间的相似性卷积特征以及衔接性卷积特征。

S1425、对所述相似性卷积特征以及衔接性卷积特征进行最大池化，并经过全连接的softmax层进行长度压缩，以得到类别的概率；

S1426、根据类别概率确定隐性语音调整意图。

具体地，一般而言，隐性语音调整是在用户没有听清的情况下进行的。类似于上面显性语音调整意图的分析，也采用CNN模型来进行分类，主要将用户前文问题、电话提问、用户当前回复上下文长度为3的文本的重叠性、衔接性进行语义建模，确定出是否存在重复询问、答非所问等情况。从而确定调整语音合成参数。具体为，先将通话上下文长度在3以内的话术文本进行分词，转化为基本词语；依次对上述3个文本分词进行向量化表征，每个词语也采用一个256维度的Word2Vec词向量表示。依次对这三个向量进行N个卷积核，得到N个卷积特征映，得到用户话术文本中语义卷积特征信息。按照两两结合的方式，计算3个文本向量卷积特征之间的向量差值、向量差值比例等特征，并对这三个差值特征再次进行卷积化特征抽取，从而得到向量之间的相似性、衔接性卷积特征。对卷积特征映射进行max-pooling，并最后接一层全连接的softmax层，将N维向量压缩到长度为5的1维向量，这是由于用户显示的调整共有5个类别，输出每个类别的概率。从而，得到了隐性语音调整意图。

S143、整合所述显性语音调整意图以及所述隐性语音调整意图，以形成对话场景中的调整意图。

S150、根据所述调整意图以及所述外呼语音合成初始参数生成实时语音合成参数。

在本实施例中，实时语音合成参数是指根据调整意图调整外呼语音合成初始参数形成的参数结果。

外呼语音合成初始参数显示了一通电话初始化的音色、音速、音调、音量参数，再通过通话中语音调整识别，确定了用户对话中对于音量、音速等参数调整意图。如果用户有调整意图，则根据调整意图并按照音量、音速、音调级进行最细粒度的等级步长进行调整，在当前最新语音合成参数上进行等级±1的等级微调操作，从而得到了最新语音合成参数。

S160、根据所述实时语音合成参数生成实时外呼语音。

具体地，发送所述实时语音合成参数至语音合成模型，以由语音合成模型根据所述实时语音合成参数生成实时外呼语音。

将实时语音合成参数作为超参，对接到语音合成模型中。由于电话外呼，一般采用百度、阿里等第三方语音开放平台，对于这类语音合成，就可以直接在开放API调用层面直接调整相关语音控制参数得到调整后的语音合成变量。

而对于自研的语音合成模型，我们需要将语音合成参数传递给语音合成模型，通过合成模型的时长模型，时长模型其主要是控制语音音符的发音时长、音符间停顿时长等信息，一般可以用于基于隐马尔可夫模型的语音合成中进行状态时长参数的生成,对于输入的上下文相关隐马尔可夫模型序列生成各模型的各个状态的时长，即各状态的驻留时间；由此形成实时外呼语音。

通过对电话语音文本素材的整理，电话外呼语音初始化参数生成、电话外呼通话中语音合成参数调整，有效确定电话外呼过程中语音合成参数，并实时自适应地调整，从而改善交互流畅程度和互动性，最终提升营销体验和转化。

上述的语音合成参数自适应调节方法，通过整理营销话术知识，并依据客户信息以及对话信息生成外呼语音合成初始参数，在实际对话过程中，对对话内容进行实时分析，并确定调整意图，以此调整外呼语音合成初始参数，以生成实时语音合成参数，并由实时语音合成参数生成外呼语音，实现根据实际对话场景调整语音合成参数，提高最终电话营销转化率。

图9是本发明实施例提供的一种语音合成参数自适应调节装置300的示意性框图。如图9所示，对应于以上语音合成参数自适应调节方法，本发明还提供一种语音合成参数自适应调节装置300。该语音合成参数自适应调节装置300包括用于执行上述语音合成参数自适应调节方法的单元，该装置可以被配置于服务器中。具体地，请参阅图9，该语音合成参数自适应调节装置300包括知识整理单元301、初始参数生成单元302、对话内容获取单元303、意图分析单元304、实时参数生成单元305以及语音合成单元306。

知识整理单元301，用于整理营销话术知识；初始参数生成单元302，用于获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数；对话内容获取单元303，用于获取实际对话内容；意图分析单元304，用于根据所述实际对话内容分析对话场景中的调整意图；实时参数生成单元305，用于根据所述调整意图以及所述外呼语音合成初始参数生成实时语音合成参数；语音合成单元306，用于根据所述实时语音合成参数生成实时外呼语音。

在一实施例中，如图10所示，所述知识整理单元301包括第一整理子单元3011、第二整理子单元3012以及第三整理子单元3013。

第一整理子单元3011，用于整理待营销产品图文介绍文档的图文素材，并按所述图文素材整理待营销产品的基本信息，将所述待营销产品的基本信息转化为问题与答案的形式进行存储；第二整理子单元3012，用于整理营销推广者的基本信息，并将营销推广者的基本信息转化为问题与答案的形式进行存储；第三整理子单元3013，用于整理对话异常话术。

在一实施例中，如图11所示，所述初始参数生成单元302包括信息获取子单元3021、预测子单元3022以及筛选子单元3023。

信息获取子单元3021，用于获取外呼对话的客户信息以及对话信息；预测子单元3022，用于根据所述客户信息以及所述对话信息采用GBDT模型进行不同语音合成参数的用户接通质量的预测，以得到不同语音合成参数的预测值；筛选子单元3023，用于筛选不同语音合成参数的预测值最大的语音合成参数，以得到外呼语音合成初始参数。

在一实施例中，如图12所示，所述意图分析单元304包括显性意图分析子单元3041、隐性意图分析子单元3042以及整合子单元3043。

显性意图分析子单元3041，用于分析所述实际对话内容内的显性语音调整意图；隐性意图分析子单元3042，用于分析所述实际对话内容内的隐性语音调整意图；整合子单元3043，用于整合所述显性语音调整意图以及所述隐性语音调整意图，以形成对话场景中的调整意图。

在一实施例中，所述显性意图分析子单元3041，用于对所述实际对话内容采用TextCNN进行短文本分类，以得到显性语音调整意图。

在一实施例中，如图13所示，所述显性意图分析子单元3041包括第一分词模块30411、第一向量化模块30412、第一映射模块30413、第一池化模块30414、第一压缩模块30415以及第一确定模块30416。

第一分词模块30411，用于对所述实际对话内容对应的话术文本进行分词，以得到词语；第一向量化模块30412，用于将所述词语进行向量化表征，以得到词语向量。第一映射模块30413，用于对词语向量用N个卷积核进行卷积特征映射，以得到语义卷积特征信息；第一池化模块30414，用于对语义卷积特征信息进行最大池化，得到池化数值；第一压缩模块30415，用于将所述池化数值经过全连接的softmax层进行长度压缩，以得到类别的概率；第一确定模块30416，用于根据类别概率确定显性语音调整意图。

在一实施例中，所述隐性意图分析子单元3042，用于对所述实际对话内容采用CNN模型进行分类，以得到隐性语音调整意图。

在一实施例中，如图14所示，所述隐性意图分析子单元3042包括第二分词模块30421、第二向量化模块30422、第二映射模块30423、抽取模块30424、处理模块30425以及第二确定模块30426。

第二分词模块30421，用于对所述实际对话内容的上下文长度在设定范围内的话术文本进行分词，以得到若干个文本分词；第二向量化模块30422，用于依次对若干个所述文本分词进行向量化表征，以得到若干个词向量；第二映射模块30423，用于依次对若干个所述词向量进行卷积特征映射，得到若干个语义卷积特征信息；抽取模块30424，用于对若干个所述语义卷积特征信息按照两两结合的方式，计算若干个语义卷积特征信息之间的向量差值以及向量差值比例，并对向量差值比例再次进行卷积化特征抽取，以得到向量之间的相似性卷积特征以及衔接性卷积特征；处理模块30425，用于对所述相似性卷积特征以及衔接性卷积特征进行最大池化，并经过全连接的softmax层进行长度压缩，以得到类别的概率；第二确定模块30426，用于根据类别概率确定隐性语音调整意图。

在一实施例中，所述语音合成单元306，用于发送所述实时语音合成参数至语音合成模型，以由语音合成模型根据所述实时语音合成参数生成实时外呼语音。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述语音合成参数自适应调节装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述语音合成参数自适应调节装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图15所示的计算机设备上运行。

请参阅图15，图15是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图15，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种语音合成参数自适应调节方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种语音合成参数自适应调节方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

整理营销话术知识；获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数；获取实际对话内容；根据所述实际对话内容分析对话场景中的调整意图；根据所述调整意图以及所述外呼语音合成初始参数生成实时语音合成参数；根据所述实时语音合成参数生成实时外呼语音。

在一实施例中，处理器502在实现所述整理营销话术知识步骤时，具体实现如下步骤：

整理待营销产品图文介绍文档的图文素材，并按所述图文素材整理待营销产品的基本信息，将所述待营销产品的基本信息转化为问题与答案的形式进行存储；整理营销推广者的基本信息，并将营销推广者的基本信息转化为问题与答案的形式进行存储；整理对话异常话术。

在一实施例中，处理器502在实现所述获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数步骤时，具体实现如下步骤：

获取外呼对话的客户信息以及对话信息；根据所述客户信息以及所述对话信息采用GBDT模型进行不同语音合成参数的用户接通质量的预测，以得到不同语音合成参数的预测值；筛选不同语音合成参数的预测值最大的语音合成参数，以得到外呼语音合成初始参数。

在一实施例中，处理器502在实现所述根据所述实际对话内容分析对话场景中的调整意图步骤时，具体实现如下步骤：

分析所述实际对话内容内的显性语音调整意图；分析所述实际对话内容内的隐性语音调整意图；整合所述显性语音调整意图以及所述隐性语音调整意图，以形成对话场景中的调整意图。

在一实施例中，处理器502在实现所述分析所述实际对话内容内的显性语音调整意图步骤时，具体实现如下步骤：

对所述实际对话内容采用TextCNN进行短文本分类，以得到显性语音调整意图。

在一实施例中，处理器502在实现所述对所述实际对话内容采用TextCNN进行短文本分类，以得到显性语音调整意图步骤时，具体实现如下步骤：

对所述实际对话内容对应的话术文本进行分词，以得到词语；将所述词语进行向量化表征，以得到词语向量；对词语向量用N个卷积核进行卷积特征映射，以得到语义卷积特征信息；对语义卷积特征信息进行最大池化，得到池化数值；将所述池化数值经过全连接的softmax层进行长度压缩，以得到类别的概率；根据类别概率确定显性语音调整意图。

在一实施例中，处理器502在实现所述分析所述实际对话内容内的隐性语音调整意图步骤时，具体实现如下步骤：

对所述实际对话内容采用CNN模型进行分类，以得到隐性语音调整意图。

在一实施例中，处理器502在实现所述对所述实际对话内容采用CNN模型进行分类，以得到隐性语音调整意图步骤时，具体实现如下步骤：

对所述实际对话内容的上下文长度在设定范围内的话术文本进行分词，以得到若干个文本分词；依次对若干个所述文本分词进行向量化表征，以得到若干个词向量；依次对若干个所述词向量进行卷积特征映射，得到若干个语义卷积特征信息；对若干个所述语义卷积特征信息按照两两结合的方式，计算若干个语义卷积特征信息之间的向量差值以及向量差值比例，并对向量差值比例再次进行卷积化特征抽取，以得到向量之间的相似性卷积特征以及衔接性卷积特征；对所述相似性卷积特征以及衔接性卷积特征进行最大池化，并经过全连接的softmax层进行长度压缩，以得到类别的概率；根据类别概率确定隐性语音调整意图。

在一实施例中，处理器502在实现所述根据所述实时语音合成参数生成实时外呼语音步骤时，具体实现如下步骤：

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述整理营销话术知识步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述实际对话内容分析对话场景中的调整意图步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述分析所述实际对话内容内的显性语音调整意图步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述实际对话内容采用TextCNN进行短文本分类，以得到显性语音调整意图步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述分析所述实际对话内容内的隐性语音调整意图步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述实际对话内容采用CNN模型进行分类，以得到隐性语音调整意图步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述实时语音合成参数生成实时外呼语音步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.语音合成参数自适应调节方法，其特征在于，包括：

整理营销话术知识；

获取实际对话内容；

根据所述实际对话内容分析对话场景中的调整意图；

根据所述实时语音合成参数生成实时外呼语音。

2.根据权利要求1所述的语音合成参数自适应调节方法，其特征在于，所述整理营销话术知识，包括：

整理对话异常话术。

3.根据权利要求1所述的语音合成参数自适应调节方法，其特征在于，所述获取外呼对话的客户信息以及对话信息，并根据所述客户信息以及对话信息生成外呼语音合成初始参数，包括：

获取外呼对话的客户信息以及对话信息；

4.根据权利要求1所述的语音合成参数自适应调节方法，其特征在于，所述根据所述实际对话内容分析对话场景中的调整意图，包括：

分析所述实际对话内容内的显性语音调整意图；

分析所述实际对话内容内的隐性语音调整意图；

5.根据权利要求4所述的语音合成参数自适应调节方法，其特征在于，所述分析所述实际对话内容内的显性语音调整意图，包括：

将所述词语进行向量化表征，以得到词语向量；

对语义卷积特征信息进行最大池化，得到池化数值；

根据类别概率确定显性语音调整意图。

6.根据权利要求4所述的语音合成参数自适应调节方法，其特征在于，所述分析所述实际对话内容内的隐性语音调整意图，包括：

根据类别概率确定隐性语音调整意图。

7.根据权利要求1所述的语音合成参数自适应调节方法，其特征在于，所述根据所述实时语音合成参数生成实时外呼语音，包括：

8.语音合成参数自适应调节装置，其特征在于，包括：

知识整理单元，用于整理营销话术知识；

对话内容获取单元，用于获取实际对话内容；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。