CN112967725A

CN112967725A - 语音对话数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112967725A
Application number: CN202110218920.0A
Authority: CN
Inventors: 申定潜
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-15
Also published as: WO2022178969A1

Abstract

本申请实施例属于人工智能领域，涉及一种语音对话数据处理方法、装置、计算机设备及存储介质，方法包括：根据触发的语音对话数据处理指令，获取当前通话的通话语音信息以及当前通话中用户的用户标签；将通话语音信息和用户标签转换为带有权重的向量矩阵；将带有权重的向量矩阵输入情绪判定模型，得到机器对话情绪参数；根据机器对话情绪参数对预先录制好的标准对话语音进行语音调整，得到适配对话语音，其中，语音调整包括声学调整和语气词调整；基于适配对话语音进行人机对话。此外，本申请还涉及区块链技术，标准对话语音可存储于区块链中。本申请提高了人机语音对话交互的智能性。

Description

语音对话数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音对话数据处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，人工智能(Artificial Intelligence，AI)的应用越来越广泛。人机对话是人工智能领域中的重要一环，具有丰富的应用场景，例如，在催收领域，可以引入人工智能进行AI语音催收，可以减少人力成本。

然而，当前的人机对话技术缺少对语音数据的处理，机器语音都是使用固定的一套语音库。语音库通常是由专业播音员录制，语音追求的是字正腔圆、大方得体。然而这种语音库较为刻板，面对不同的用户对象和使用场景，显得千篇一律，使得用户体验较差，人机语音对话交互不够智能。

发明内容

本申请实施例的目的在于提出一种语音对话数据处理方法、装置、计算机设备及存储介质，以解决人机语音对话交互不够智能的问题。

为了解决上述技术问题，本申请实施例提供一种语音对话数据处理方法，采用了如下所述的技术方案：

根据触发的语音对话数据处理指令，获取当前通话的通话语音信息以及所述当前通话中用户的用户标签；

将所述通话语音信息和所述用户标签转换为带有权重的向量矩阵；

将所述带有权重的向量矩阵输入情绪判定模型，得到机器对话情绪参数；

根据所述机器对话情绪参数对预先录制好的标准对话语音进行语音调整，得到适配对话语音，其中，所述语音调整包括声学调整和语气词调整；

基于所述适配对话语音进行人机对话。

进一步的，所述根据触发的语音对话数据处理指令，获取当前通话的通话语音信息以及所述当前通话中用户的用户标签的步骤之前，还包括：

根据接收到的人机对话启动指令，获取所述人机对话启动指令中的用户标识；

获取所述用户标识所对应用户标签，并将所述用户标签转换为初始向量矩阵；

将所述初始向量矩阵输入情绪判定模型，得到初始对话情绪参数；

根据所述初始对话情绪参数对预先录制好的初始标准对话语音进行语音调整，得到初始适配对话语音；

基于所述初始适配对话语音进行人机对话，并对所述人机对话进行语音监听，得到当前通话的通话语音信息。

进一步的，所述根据接收到的人机对话启动指令，获取所述人机对话启动指令中的用户标识的步骤之前，还包括：

获取训练语料，所述训练语料包括用户标签、历史对话语料和对话情绪参数；

提取所述历史对话语料的语音特征参数；

给所述语音特征参数和所述用户标签进行权重分配，以生成带有权重的向量矩阵；

将所述带有权重的向量矩阵作为模型输入，将所述对话情绪参数作为模型输出，对初始情绪判定模型进行训练，得到情绪判定模型。

在Gpipe库中，基于遗传算法，通过训练语料对初始情绪判定模型进行训练，得到情绪判定模型。

进一步的，所述根据所述机器对话情绪参数，对预先录制好的标准对话语音进行语音调整，得到适配对话语音的步骤包括：

对所述通话语音信息进行语义解析，得到语义解析结果；

从预先录制好的标准对话语音中选取与所述语义解析结果对应的标准对话语音；

基于所述机器对话情绪参数，查询所述标准对话语音的语音调整方式，所述语音调整方式包括声学调整方式和语气词调整方式；

根据所述语音调整方式，对所述标准对话语音进行语音调整，得到适配对话语音。

进一步的，在所述基于所述适配对话语音进行人机对话的步骤之后，还包括：

将所述当前通话的通话语音信息导入预先建立的意图识别模型，得到用户意图识别结果；

根据所述意图识别结果确定所述当前通话是否需要人工介入；

当所述当前通话需要人工介入时，将所述当前通话转接给人工坐席账号登录的终端。

进一步的，所述当所述当前通话需要人工介入时，将所述当前通话转接给人工坐席账号登录的终端的步骤包括：

当所述当前通话需要人工介入时，获取所述当前通话的通话语音信息以及所述当前通话中用户的用户标签；

将所述通话语音信息转换为通话文本；

将所述当前通话转接给人工坐席账号登录的终端，并将所述通话文本和所述用户标签发送至所述终端进行展示。

为了解决上述技术问题，本申请实施例还提供一种语音对话数据处理装置，采用了如下所述的技术方案：

获取模块，用于根据触发的语音对话数据处理指令，获取当前通话的通话语音信息以及所述当前通话中用户的用户标签；

转换模块，用于将所述通话语音信息和所述用户标签转换为带有权重的向量矩阵；

矩阵输入模块，用于将所述带有权重的向量矩阵输入情绪判定模型，得到机器对话情绪参数；

语音调整模块，用于根据所述机器对话情绪参数对预先录制好的标准对话语音进行语音调整，得到适配对话语音，其中，所述语音调整包括声学调整和语气词调整；

人机对话模块，用于基于所述适配对话语音进行人机对话。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

基于所述适配对话语音进行人机对话。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

基于所述适配对话语音进行人机对话。

与现有技术相比，本申请实施例主要有以下有益效果：接收到语音对话数据处理指令后，获取当前通话的通话语音信息以及当前通话中用户的用户标签，用户标签可以表征用户的个人信息；将通话语音信息和用户标签转换为带有权重的向量矩阵，向量矩阵融合了用户通话时的语音特征以及用户的个人信息，情绪判定模型对向量矩阵进行处理并映射得到机器对话情绪参数，机器对话情绪参数表征了机器所应采用的情绪类别以及强烈程度，根据机器对话情绪参数对标准对话语音进行声学调整和语气词调整，得到适配对话语音，实现了人机对话时根据用户的对话情绪和个人信息针对性地选择对话情绪，提高了人机语音对话交互的智能性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的语音对话数据处理方法的一个实施例的流程图；

图3是根据本申请的语音对话数据处理装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的语音对话数据处理方法一般由服务器执行，相应地，语音对话数据处理装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的语音对话数据处理方法的一个实施例的流程图。所述的语音对话数据处理方法，包括以下步骤：

步骤S201，根据触发的语音对话数据处理指令，获取当前通话的通话语音信息以及当前通话中用户的用户标签。

在本实施例中，语音对话数据处理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，语音对话数据处理指令可以是指示服务器对通话语音信息进行数据处理的指令。用户标签可以来源于预先建立的用户画像，用户画像中记录了用户的众多标签，刻画了用户的基本信息。在催收场景中，还可以获取用户的信用评估分值，将信用评估分值也作为一种用户标签。

具体地，在进行人机对话时，终端采集到即时的通话语音信息后，生成语音对话数据处理指令并将其发送至服务器，服务器根据语音对话数据处理指令获取当前通话的通话语音信息。终端中设置有人机对话系统，可以在服务器的控制下实现人机对话。

在开始人机对话时，服务器还会获取用户的用户标识，并根据用户标识从数据库中查询用户标签。服务器获取通话语音信息的同时，还可以获取用户标签，根据通话语音信息和用户标签进行语音对话数据处理。

步骤S202，将通话语音信息和用户标签转换为带有权重的向量矩阵。

具体地，服务器可以从通话语音信息中提取语音特征参数，得到特征参数矩阵。

语音特征参数是一种从语音中提取到的参数，用于分析语音的语气和感情。为了在人机对话时模仿真实的人声，所以需要获取训练语料的语音特征参数，语音特征参数可以反应语音的韵律特征，而韵律特征决定了语音在什么地方需要停顿，停顿多久，哪个字或者词语需要重读，哪个词需要轻读等，实现声音的高低曲折，抑扬顿挫。

可以先对通话语音信息进行预处理，首先对通话语音信息进行语音端点检测(Voice Activity Detection,VAD)，从声音信号流里识别并消除长时间的静音，然后对静音消除后的通话语音信息进行分帧，把声音切分成一小段一小段，每小段称为一帧，切分可以通过移动窗函数来实现，各帧之间可以有交叠。

然后对预处理后的通话语音信息提取特征参数，特征参数包括线性预测倒谱系数(Linear Prediction Coefficients，LPCC)和Mel倒谱系数(Mel FrequencyCepstralCoefficents，MFCC)，提取特征参数的目的是把每一帧通话语音信息转换成多维向量。服务器提取线性预测倒谱系数和Mel倒谱系数中的任意一种即可，并将线性预测倒谱系数或Mel倒谱系数作为语音特征参数。

在对用户标签进行处理时，需要按照预先设定的量化规则对用户标签进行量化，得到用户标签矩阵。

由于是同时根据通话语音信息和用户标签进行语音对话数据处理，因此可以给特征参数矩阵和用户标签矩阵分配权重。其中，权重分配的比例可以预先设定，并且可以根据实际需要灵活调整。带有权重的特征参数矩阵和用户标签矩阵组成向量矩阵。

步骤S203，将带有权重的向量矩阵输入情绪判定模型，得到机器对话情绪参数。

其中，情绪判定模型用于判定人机对话时人机对话系统所应采用的情绪及其强烈程度。机器对话情绪参数是人机对话时人机对话系统应采用的语音情绪的量化评估值。

具体地，情绪判定模型需要预先通过模型训练的到，情绪判定模型可以将对向量矩阵进行卷积和池化，并映射为机器对话情绪参数；即，情绪判定模型可以根据通话语音信息中用户语音信息和用户标签，输出机器对话情绪参数。

机器对话情绪参数是人机对话系统应采用的语音情绪的量化评估值，可以是一个数值，将对话情绪参数的全部取值范围进行区间划分，每个区间对应一种对话情绪，例如温和、谨慎、激进等。每一种情绪也可以分为多个区间，每个区间对应于情绪的强烈程度。

步骤S204，根据机器对话情绪参数对预先录制好的标准对话语音进行语音调整，得到适配对话语音，其中，语音调整包括声学调整和语气词调整。

其中，标准催收语音可以是不带有情绪的催收语音。

具体地，服务器中预先录制了标准对话语音，标准对话语音可以是对真人语音录制得到，不带有情绪。服务器根据机器对话情绪参数对标准对话语音进行语音调整，从而更改标准对话语音的情绪倾向，得到适配对话语音。其中，语音调整包括声学调整和语气词调整，声学调整可以改变标准对话语音的声学特征，语气词调整可以是在标准对话语音中拼接包含语气词的语音，语气词也可以在一定程度改变语音的情绪倾向。

例如，在语音催收场景中，当用户个人信用状况较差，且人机对话时用户态度较差时，会输出具有较强激进情绪的对话情绪参数，语音调整后得到具有激进情绪的适配对话语音，以便对用户进行警告等对话效果。

需要强调的是，为进一步保证上述标准对话语音的私密和安全性，上述标准对话语音还可以存储于一区块链的节点中。服务器可以从区块链的节点中获取标准对话语音。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S205，基于适配对话语音进行人机对话。

具体地，服务器将适配对话语音发送至终端，由终端播放适配对话语音以实现人机对话。适配对话语音是根据人机对话时用户的对话情绪和个人信息生成的，语音情绪上具有较强的针对性，提高了人机语音对话交互的智能性。

本实施例中，接收到语音对话数据处理指令后，获取当前通话的通话语音信息以及当前通话中用户的用户标签，用户标签可以表征用户的个人信息；将通话语音信息和用户标签转换为带有权重的向量矩阵，向量矩阵融合了用户通话时的语音特征以及用户的个人信息，情绪判定模型对向量矩阵进行处理并映射得到机器对话情绪参数，机器对话情绪参数表征了机器所应采用的情绪类别以及强烈程度，根据机器对话情绪参数对标准对话语音进行声学调整和语气词调整，得到适配对话语音，实现了人机对话时根据用户的对话情绪和个人信息针对性地选择对话情绪，提高了人机语音对话交互的智能性。

进一步的，上述步骤S201之前，还可以包括：根据接收到的人机对话启动指令，获取人机对话启动指令中的用户标识；获取用户标识所对应用户标签，并将用户标签转换为初始向量矩阵；将初始向量矩阵输入情绪判定模型，得到初始对话情绪参数；根据初始对话情绪参数对预先录制好的初始标准对话语音进行语音调整，得到初始适配对话语音；基于初始适配对话语音进行人机对话，并对人机对话进行语音监听，得到当前通话的通话语音信息。

其中，人机对话启动指令可以是指示服务器开始人机对话的指令。在人机对话刚开始时，用户尚未开始对话，不存在包括用户语音的通话语音信息，可以由服务器率先开始人机对话。

具体地，服务器根据接收到人机对话启动指令开始人机对话。人机对话启动指令中可以包括用户标识。服务器提取用户标识，在数据库中根据用户标识获取用户的用户标签。

服务器将获取到的用户标签转换为用户标签矩阵，由于没有通话语音信息可以将特征参数矩阵设置为零，从而得到初始向量矩阵。服务器将初始向量矩阵输入情绪判定模型，情绪判定模型根据初始向量矩阵生成初始对话情绪参数。

服务器获取初始标准对话语音，初始标准对话语音可以是人机对话启动时机器可以播放的语音，不带有情绪。服务器根据初始对话情绪参数对初始标准对话语音进行语音调整，得到初始适配对话语音。

服务器将初始适配对话语音发送至终端，终端播放初始适配对话语音从而开始人机对话，并在人机对话开始后进行语音监听，得到当前通话的通话语音信息。可以理解，初始适配对话语音是在没有通话语音信息的情况下，根据用户的个人信息得到的情绪适配语音。

在一个实施例中，服务器在接收到人机对话启动指令后，还可以获取初始标准对话语音，直接根据初始标准对话语音进行人机对话。在得到通话语音信息后，再根据通话语音信息和用户标签实时计算机器对话情绪参数。

本实施例中，在人机对话刚开始时，可以仅根据用户标签得到初始对话情绪参数，根据初始对话情绪参数对初始标准对话语音进行语音调整，得到用于人机对话的初始适配对话语音，使得在没有通话语音信息时也可以在人机对话中加入情绪倾向。

进一步的，上述根据接收到的人机对话启动指令，获取人机对话启动指令中的用户标识的步骤之前，还可以包括：获取训练语料，训练语料包括用户标签、历史对话语料和对话情绪参数；提取历史对话语料的语音特征参数；给语音特征参数和用户标签进行权重分配，以生成带有权重的向量矩阵；将带有权重的向量矩阵作为模型输入，将对话情绪参数作为模型输出，对初始情绪判定模型进行训练，得到情绪判定模型。

其中，历史对话语料可以由人工对存储的对话语料进行筛选得到，历史对话语料包括第一历史语音和第二历史语音，其中，第一历史语音可以是第一用户或者人机对话系统的语音，第二历史语音可以是第二用户在对话中的语音。筛选到的历史对话语料中，第一历史语音在情绪上与第二用户的用户信息和第二历史语音有较好的匹配性。对话情绪参数衡量了第一历史语音的情绪类别以及情绪的强烈程度。

具体地，可以从训练语料库获取训练语料，训练语料包括用户标签、历史对话语料和对话情绪参数。每份训练语料中的用户标签、历史对话语料和对话情绪参数都是匹配的。

可以先对历史对话语料进行语音端点检测，然后进行分帧处理。接着对分帧处理后的语音数据提取语音特征参数，语音特征参数包括线性预测倒谱系数LPCC和Mel倒谱系数MFCC。服务器提取线性预测倒谱系数和Mel倒谱系数中的任意一种即可。

服务器提取到的语音特征参数包括第一历史语音的语音特征参数和第二历史语音的语音特征参数。由于本申请是确定与用户对话时所需的语音情绪及其强烈程度，来自第二历史语音的语音特征参数可以着重考量，因此第二历史语音的语音特征参数可以具有较大的权重。同时，用户标签也需要分配权重，即，权重可以由第一历史语音的语音特征参数、第二历史语音的语音特征参数和用户标签共享。分配的权重可以根据实际需要灵活调整。

带有权重的语音特征参数和用户标签可以组成带有权重的向量矩阵，将带有权重的向量矩阵输入初始情绪判定模型，将对话情绪参数作为初始情绪判定模型的期望输出。由初始情绪判定模型对带有权重的向量矩阵进行处理，输出预测标签。预测标签是一种训练阶段所采用的量化评估值，用于量化评估人或者机器在与用户对话时，应采取的情绪及其强烈程度。

服务器根据预测标签和对话情绪参数计算模型损失，以减小模型损失为目标，调整初始情绪判定模型的模型参数，并在参数调整后将向量矩阵重新输入初始情绪判定模型进行迭代，直至得到的模型损失小于预设的损失阈值，服务器停止迭代，得到情绪判定模型。

本实施例中，获取到训练语料后，从训练语料的历史对话语料中提取语音特征参数，给语音特征参数和用户标签分配权重，以差异化语音特征参数和用户标签对对话情绪参数的贡献；将带有权重的向量矩阵作为模型输入，将对话情绪参数作为模型输出训练初始情绪判定模型，可以得到能准确进行情绪选取的情绪判定模型。

进一步的，在一个实施例中，上述根据接收到的人机对话启动指令，获取人机对话启动指令中的用户标识的步骤之前，还包括：可以包括：在Gpipe库中，基于遗传算法，通过训练语料对初始情绪判定模型进行训练，得到情绪判定模型。

具体地，初始情绪判定模型可以为深度神经网络(Deep Neural Networks，DNN)。DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层,一般来说，第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层，层与层之间都是全连接的。

为了保证对初始情绪判定模型进行准确地训练，可以在Gpipe库中，基于进化算法，通过训练语料对初始情绪判定模型进行训练。其中，Gpipe是一个分布式机器学习、可扩展的管道并行库，可以学习巨型深度神经网络。Gpipe使用同步随机梯度下降和管道并行性进行训练，适用于由多个连续层组成的任何DNN。Gpipe通过部署更多加速器来训练更大的模型，允许对跨加速器的模型进行分区，具体是将模型分割并划分给不同的加速器，自动将小batch拆分为更小的微batch，从而实现跨多个加速器的高效训练，而梯度一致在微批次中积累，因此分区数量不会影响模型质量。Gpipe支持部署更多加速器来训练更大的模型，并在不调整超参数的情况下，使得模型输出结果更准确，达到提升性能的效果。

进化算法是一类算法的统称，是模拟自然选择和遗传等生物进化机制的一种搜索算法，其中一类就是遗传算法。各类进化算法本质上都是迭代算法。具有种群、个体和编码的概念。其中：(1)种群，可以理解为若干个模型；(2)个体，可以理解为某一个模型；(3)编码，就是将对象用计算机语言描述，比如将网络结构用固定长度的二进制字符串表示。

进化算法中，每一次产生下一代需要3个步骤，即选择，交叉，变异：

(1)选择过程，要实现的就是从群体中选择更优的对象，比如精度更高的模型。

(2)交叉过程，它就是要实现不同优秀对象的信息交换，比如两个好模型的模块交换。

(3)变异过程，它是对个体的微小改变，相对于交叉过程，能引入更多的随机性，有助于跳出局部最优解。

在模型变异之后，通过适应函数对模型进行评估，选取出更优的模型留下，直至得到最后最优的模型。适应函数可以为损失函数，用于衡量模型计算结果的准确性。

本实施例中，在Gpipe库中，基于遗传算法对初始情绪判定模型进行训练，保证了训练得到的情绪判定模型的准确性。

进一步的，上述步骤S205可以包括：对通话语音信息进行语义解析，得到语义解析结果；从预先录制好的标准对话语音中选取与语义解析结果对应的标准对话语音；基于机器对话情绪参数，查询标准对话语音的语音调整方式，语音调整方式包括声学调整方式和语气词调整方式；根据语音调整方式，对标准对话语音进行语音调整，得到适配对话语音。

具体地，服务器对通话语音信息进行语义解析，得到语义解析结果。可以先将通话语音信息换转为通话文本，通过预先训练好的意图识别模型对通话文本进行意图识别，得到用户意图，将用户意图作为语义解析结果；也可以计算通话文本与预先存储的各模板文本计算相似度，将相似度最高且相似度大于预设的相似度阈值的模板文本作为语义解析结果。

预先录制好的标准对话语音可以有多个，不同的标准对话语音具有不同的语义含义。可以从预先录制好的多个标准对话语音中，选取与语义解析结果相匹配的标准对话语音。

每个机器情绪对话参数都预设了语音调整方式。语音调整方式是指对标准对话语音进行调整的方式，包括声学调整方式和语气词调整方式。其中，声学调整方式规定了声学特征信息的调整方式，包括对表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等进行调整。语气词调整方式规定了在标准对话语音中加入语气词的方式。

服务器根据语音调整方式对预先录制好的标准对话语音进行语音调整，从而更改标准对话语音的情绪倾向，得到适配对话语音。例如，可以通过语音调整将标准对话语音的情绪倾向调整为愉快，在声学调整方式中，可以提高音调、提高平均语声功率等；在语气词调整方式中，可以在标准对话语音末尾添加“哈哈”等语气词。

在应用时，由于需要满足时效性，在进行情绪判定时可以不再使用进化算法，从而可以即时调整机器对话情绪。

本实施例中，对通话语音信息进行语义解析从而选取语义匹配的标准对话语音，保证人机对话在语义上的合理性；查询与机器对话情绪参数对应的语音调整方式，从而根据语音调整方式对标准对话语音进行声学调整和语气词调整，从而得到带有情绪的适配对话语音。

进一步的，上述步骤S205之后，还可以包括：当前通话的通话语音信息导入预先建立的意图识别模型，得到用户意图识别结果；据意图识别结果确定当前通话是否需要人工介入；当前通话需要人工介入时，将当前通话转接给人工坐席账号登录的终端。

其中，意图识别模型可以是识别用户意图的模型。

具体地，服务器还可以在通话中对用户意图进行检测与监控，通过预先训练好的意图识别模型识别用户意图。服务器将当前通话的通话语音信息导入预先建立的意图识别模型，意图识别模型可以将通话语音信息转换为通话文本，对通话文本进行语义分析，输出意图识别结果。

当意图识别结果表明当前通话需要人工介入时，将当前通话转接至人工坐席账号所登录的终端，以便人工坐席通过终端与用户进行对话。

举例说明，在AI催收场景中，选取与用户情绪匹配的语音进行人机对话，当用户在对话中明显表现出对还款明显的抗拒意愿时，可以认为需要人工介入，将人机对话转接至人工坐席账号所登录的终端，由人工坐席介入；或者当人机对话系统无法有效解答用户疑问时，将人机对话转接至人工坐席账号所登录的终端，以便更好地提供对话服务。

本实施例中，在人机对话中进行意图检测，当意图检测结果表明当前通话需要人工介入时，将当前通话转接至人工坐席账号登录的终端，将人工坐席及时引入人机对话，以提升人机对话交互的智能性。

进一步的，上述当前通话需要人工介入时，将当前通话转接给人工坐席账号登录的终端的步骤可以包括：当当前通话需要人工介入时，获取当前通话的通话语音信息以及当前通话中用户的用户标签；通话语音信息转换为通话文本；当前通话转接给人工坐席账号登录的终端，并将通话文本和用户标签发送至终端进行展示。

具体地，当服务器确定当前通话需要人工介入时，将当前通话的通话语音信息转换为通话文本，并获取用户的用户标签；在将当前通话转接给人工坐席账号登录的终端时，将通话文本和用户标签发送至终端，以便人工坐席即时了解对话的上下文信息和用户的基本信息，而不必重新进行沟通，提高对话交互的效率和智能性。

本实施例中，将通话转接给人工坐席账号登录的终端时，将对话文本和用户标签一并发送至终端，使得对话可以在之前的基础上进行，而不必重新沟通，提高了对话交互的效率和智能性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-On l y Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种语音对话数据处理装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的语音对话数据处理装置300包括：获取模块301、转换模块302、矩阵输入模块303、语音调整模块304以及人机对话模块305，其中：

获取模块301，用于根据触发的语音对话数据处理指令，获取当前通话的通话语音信息以及当前通话中用户的用户标签。

转换模块302，用于将通话语音信息和用户标签转换为带有权重的向量矩阵。

矩阵输入模块303，用于将带有权重的向量矩阵输入情绪判定模型，得到机器对话情绪参数。

语音调整模块304，用于根据机器对话情绪参数对预先录制好的标准对话语音进行语音调整，得到适配对话语音，其中，语音调整包括声学调整和语气词调整。

人机对话模块305，用于基于适配对话语音进行人机对话。

在本实施例的一些可选的实现方式中，语音对话数据处理装置300还可以包括：标识获取模块、标签获取模块、初始输入模块、初始调整模块以及初始对话模块，其中：

标识获取模块，用于根据接收到的人机对话启动指令，获取人机对话启动指令中的用户标识。

标签获取模块，用于获取用户标识所对应用户标签，并将用户标签转换为初始向量矩阵。

初始输入模块，用于将初始向量矩阵输入情绪判定模型，得到初始对话情绪参数。

初始调整模块，用于根据初始对话情绪参数对预先录制好的初始标准对话语音进行语音调整，得到初始适配对话语音。

初始对话模块，用于基于初始适配对话语音进行人机对话，并对人机对话进行语音监听，得到当前通话的通话语音信息。

在本实施例的一些可选的实现方式中，语音对话数据处理装置300还可以包括：训练获取模块、参数提取模块、权重分配模块以及初始训练模块，其中：

训练获取模块，用于获取训练语料，训练语料包括用户标签、历史对话语料和对话情绪参数。

参数提取模块，用于提取历史对话语料的语音特征参数。

权重分配模块，用于给语音特征参数和用户标签进行权重分配，以生成带有权重的向量矩阵。

初始训练模块，用于将带有权重的向量矩阵作为模型输入，将对话情绪参数作为模型输出，对初始情绪判定模型进行训练，得到情绪判定模型。

在本实施例的一些可选的实现方式中，语音对话数据处理装置300还可以包括：模型训练模块，用于：在Gpipe库中，基于遗传算法，通过训练语料对初始情绪判定模型进行训练，得到情绪判定模型。

在本实施例的一些可选的实现方式中，语音调整模块304可以包括：语义解析子模块、标准选取子模块、方式查询子模块以及语音调整子模块，其中：

语义解析子模块，用于对通话语音信息进行语义解析，得到语义解析结果。

标准选取子模块，用于从预先录制好的标准对话语音中选取与语义解析结果对应的标准对话语音。

方式查询子模块，用于基于机器对话情绪参数，查询标准对话语音的语音调整方式，语音调整方式包括声学调整方式和语气词调整方式。

语音调整子模块，用于根据语音调整方式，对标准对话语音进行语音调整，得到适配对话语音。

在本实施例的一些可选的实现方式中，语音对话数据处理装置300还可以包括：信息导入模块、通话确定模块以及通话转接模块，其中：

信息导入模块，用于将当前通话的通话语音信息导入预先建立的意图识别模型，得到用户意图识别结果。

通话确定模块，用于根据意图识别结果确定当前通话是否需要人工介入。

通话转接模块，用于当当前通话需要人工介入时，将当前通话转接给人工坐席账号登录的终端。

在本实施例的一些可选的实现方式中，通话转接模块可以包括：获取子模块、信息转换子模块以及通话转接子模块，其中：

获取子模块，用于当当前通话需要人工介入时，获取当前通话的通话语音信息以及当前通话中用户的用户标签。

信息转换子模块，用于将通话语音信息转换为通话文本。

通话转接子模块，用于将当前通话转接给人工坐席账号登录的终端，并将通话文本和用户标签发送至终端进行展示。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机语音对话交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如语音对话数据处理方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述语音对话数据处理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述语音对话数据处理方法。此处语音对话数据处理方法可以是上述各个实施例的语音对话数据处理方法。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的语音对话数据处理方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种语音对话数据处理方法，其特征在于，包括下述步骤：

基于所述适配对话语音进行人机对话。

2.根据权利要求1所述的语音对话数据处理方法，其特征在于，所述根据触发的语音对话数据处理指令，获取当前通话的通话语音信息以及所述当前通话中用户的用户标签的步骤之前，还包括：

3.根据权利要求2所述的语音对话数据处理方法，其特征在于，所述根据接收到的人机对话启动指令，获取所述人机对话启动指令中的用户标识的步骤之前，还包括：

提取所述历史对话语料的语音特征参数；

4.根据权利要求2所述的语音对话数据处理方法，其特征在于，所述根据接收到的人机对话启动指令，获取所述人机对话启动指令中的用户标识的步骤之前，还包括：

5.根据权利要求1所述的语音对话数据处理方法，其特征在于，所述根据所述机器对话情绪参数对预先录制好的标准对话语音进行语音调整，得到适配对话语音的步骤包括：

对所述通话语音信息进行语义解析，得到语义解析结果；

6.根据权利要求1所述的语音对话数据处理方法，其特征在于，在所述基于所述适配对话语音进行人机对话的步骤之后，还包括：

7.根据权利要求6所述的语音对话数据处理方法，其特征在于，所述当所述当前通话需要人工介入时，将所述当前通话转接给人工坐席账号登录的终端的步骤包括：

将所述通话语音信息转换为通话文本；

8.一种语音对话数据处理装置，其特征在于，包括：

人机对话模块，用于基于所述适配对话语音进行人机对话。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音对话数据处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音对话数据处理方法的步骤。