CN116955572A

CN116955572A - 基于人工智能的在线服务反馈交互方法及大数据系统

Info

Publication number: CN116955572A
Application number: CN202311141567.6A
Authority: CN
Inventors: 王均; 段延祥
Original assignee: Ningbo Shangxu Intelligent Technology Co ltd
Current assignee: Wang Jun
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-10-27

Abstract

本申请实施例实施例提供一种基于人工智能的在线服务反馈交互方法及大数据系统，通过基于范例基础对话音频数据以及范例情感对话音频数据，生成范例融合对话音频数据，利用对话音频特征训练网络获取范例融合对话音频数据的第一估计对话知识点数据以及第一估计情感类别数据，并且利用对话音频特征训练网络获取范例情感对话音频数据的第二估计对话知识点数据以及第二估计情感类别数据，由此生成对话音频特征提取网络，可以实现对话音频数据的音频情感特征扩展，减少网络训练过程中的标注工作量，有助于改善对话音频特征提取网络的特征提取性能，从而便于提高后续在线服务反馈的有效性。

Description

基于人工智能的在线服务反馈交互方法及大数据系统

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种基于人工智能的在线服务反馈交互方法及大数据系统。

背景技术

随着人工智能技术的快速发展，针对各类互联网信息产品的人机对话服务反馈系统受到了很多关注，并逐渐成为了人工智能领域的研究热点。人机对话系统不断发展进步，应用范围不断扩大，用户对它也有了更高的要求，希望人机对话服务反馈系统在关注内容回复与反馈的基础上，可以与用户进行更深入的交流，例如情感交流。人机对话服务反馈系统想要和用户进行有效的情感沟通，就必须具备一定的情感能力。具体来说，人机对话服务反馈系统一方面需要对用户情感进行识别和判断，另一方面也需要在其回复中融入合适的情感。因此，如何在对话中赋予机器理解情感和表达情感的能力，是人机对话服务反馈系统面临的新的机遇和挑战。

在相关技术的在线人机对话场景中，可以通过对搜集的对话音频数据进行对话知识点数据以及情感类别数据的标注，从而结合机器学习算法进行网络模型的训练，以使得训练后的网络模型可以具有对话知识点数据以及情感类别数据的输出能力。然而，如何有效改善对话音频特征提取网络的特征提取性能，从而便于提高后续在线服务反馈的有效性，是所属技术领域进一步需解决的技术问题。

发明内容

为了至少克服现有技术中的上述不足，本申请实施例的目的在于提供一种基于人工智能的在线服务反馈交互方法及大数据系统。

第一方面，本申请实施例实施例提供一种基于人工智能的在线服务反馈交互方法，应用于大数据系统，所述方法包括：

获取范例基础对话音频数据以及范例情感对话音频数据，所述范例基础对话音频数据对应携带有第一先验对话知识点数据以及携带有第一先验情感类别数据，所述范例情感对话音频数据对应携带有第二先验对话知识点数据以及携带有第二先验情感类别数据，所述第一先验情感类别数据与所述第二先验情感类别数据分别对应不同的对话情感标签；

基于所述范例基础对话音频数据以及所述范例情感对话音频数据，生成范例融合对话音频数据，所述范例融合对话音频数据具有所述第一先验对话知识点数据以及所述第二先验情感类别数据；

依据所述范例融合对话音频数据，利用对话音频特征训练网络获取所述范例融合对话音频数据的第一估计对话知识点数据以及第一估计情感类别数据；

依据所述范例情感对话音频数据，利用所述对话音频特征训练网络获取所述范例情感对话音频数据的第二估计对话知识点数据以及第二估计情感类别数据；

基于所述范例融合对话音频数据的所述第一先验对话知识点数据、所述第一估计对话知识点数据、所述范例融合对话音频数据的所述第二先验情感类别数据、所述第一估计情感类别数据、所述范例情感对话音频数据的所述第二先验对话知识点数据、所述第二估计对话知识点数据、所述范例情感对话音频数据的所述第二先验情感类别数据以及所述第二估计情感类别数据，对所述对话音频特征训练网络的网络权重信息进行优化，直至符合网络收敛安全，生成对话音频特征提取网络；

获取目标用户的目标对话音频数据，并依据所述目标对话音频数据，通过对话音频特征提取网络获取估计对话知识点数据以及估计情感类别数据，基于所述估计对话知识点数据以及估计情感类别数据，对所述目标用户进行在线服务反馈交互。

在第一方面的一种可能的实施方式中，所述获取范例基础对话音频数据以及范例情感对话音频数据，包括：

获取基础对话音频数据序列，所述基础对话音频数据序列包括W个基础对话音频数据；

将所述基础对话音频数据序列中的一个基础对话音频数据作为所述范例基础对话音频数据；

获取情感对话音频数据序列，所述情感对话音频数据序列包括Q个情感对话音频数据；

将所述情感对话音频数据序列中的一个情感对话音频数据作为所述范例情感对话音频数据。

在第一方面的一种可能的实施方式中，所述获取情感对话音频数据序列，包括：

获取候选情感对话音频数据序列，所述候选情感对话音频数据序列包括L个候选情感对话音频数据，所述L大于所述Q；

提取所述候选情感对话音频数据序列中的每个候选情感对话音频数据所对应的情感表征矢量；

基于第一分簇数量以及各所述候选情感对话音频数据所对应的情感表征矢量，对所述L个候选情感对话音频数据进行分簇，生成V个第一分簇簇心，所述第一分簇数量为所述V，所述V小于所述L；

基于第二分簇数量以及各所述候选情感对话音频数据所对应的情感表征矢量，对所述L个候选情感对话音频数据进行分簇，生成S个第二分簇簇心，所述第二分簇数量为所述S，所述S大于所述V且小于所述L；

获取与各所述第一分簇簇心的偏离度最小的情感表征矢量，生成V个情感表征矢量；

获取与各所述第二分簇簇心的偏离度最小的情感表征矢量，生成S个情感表征矢量；

基于所述V个情感表征矢量中每个情感表征矢量所对应的候选情感对话音频数据，以及所述S个情感表征矢量中每个情感表征矢量所对应的候选情感对话音频数据，生成所述情感对话音频数据序列。

基于第一分簇数量以及各所述候选情感对话音频数据所对应的情感表征矢量，对所述L个候选情感对话音频数据进行分簇，生成X个第一分簇数据，所述第一分簇数量为所述X，所述X小于所述L；

基于第二分簇数量以及各所述候选情感对话音频数据所对应的情感表征矢量，对各所述第一分簇数据中的候选情感对话音频数据进行分簇，生成Y个第二分簇数据，所述第二分簇数量为所述Y，所述Y大于1且小于所述L；

基于各所述第一分簇数据所包括的所述Y个第二分簇数据，确定(X*Y)个分簇簇心；

获取与各所述分簇簇心的偏离度最小的情感表征矢量，生成(X*Y)个情感表征矢量；

基于所述(X*Y)个情感表征矢量中每个情感表征矢量所对应的候选情感对话音频数据，生成所述情感对话音频数据序列。

在第一方面的一种可能的实施方式中，所述提取所述候选情感对话音频数据序列中的每个候选情感对话音频数据所对应的情感表征矢量，包括：

通过音频对话情感表征网络所包括的编码器提取所述候选情感对话音频数据序列中的每个候选情感对话音频数据所对应的情感编码特征；

利用所述音频对话情感表征网络所包括的特征降维参数层获取各所述候选情感对话音频数据所对应的情感表征矢量。

在第一方面的一种可能的实施方式中，所述基于所述范例基础对话音频数据以及所述范例情感对话音频数据，生成范例融合对话音频数据，包括：

依据所述范例基础对话音频数据以及所述范例情感对话音频数据，通过情感特征映射神经网络所包括的编码器，获取所述范例基础对话音频数据所对应的第一对话特征矢量，以及所述范例情感对话音频数据所对应的第二对话特征矢量；

依据所述第一对话特征矢量以及所述第二对话特征矢量，利用所述情感特征映射神经网络所包括的情感特征转换器获取目标对话特征矢量；

依据所述目标对话特征矢量，利用所述情感特征映射神经网络所包括的解码器获取所述范例融合对话音频数据。

基于所述范例情感对话音频数据所对应所述第二先验情感类别数据，确定情感特征映射神经网络；

依据所述范例基础对话音频数据，利用所述情感特征映射神经网络获取所述范例融合对话音频数据。

在第一方面的一种可能的实施方式中，所述基于所述范例融合对话音频数据的所述第一先验对话知识点数据、所述第一估计对话知识点数据、所述范例融合对话音频数据的所述第二先验情感类别数据、所述第一估计情感类别数据、所述范例情感对话音频数据的所述第二先验对话知识点数据、所述第二估计对话知识点数据、所述范例情感对话音频数据的所述第二先验情感类别数据以及所述第二估计情感类别数据，对所述对话音频特征训练网络的网络权重信息进行优化，包括：

基于所述范例融合对话音频数据的所述第一先验对话知识点数据以及所述第一估计对话知识点数据，确定第一对话知识点训练误差值；

基于所述范例融合对话音频数据的所述第二先验情感类别数据以及所述第一估计情感类别数据，确定第一情感特征训练误差值；

基于所述范例情感对话音频数据的所述第二先验对话知识点数据以及所述第二估计对话知识点数据，确定第二对话知识点训练误差值；

基于所述范例情感对话音频数据的所述第二先验情感类别数据以及所述第二估计情感类别数据，确定第二情感特征训练误差值；

对所述第一对话知识点训练误差值、所述第一情感特征训练误差值、所述第二对话知识点训练误差值以及所述第二情感特征训练误差值进行融合，生成目标训练误差值；

基于所述目标训练误差值对所述对话音频特征训练网络的网络权重信息进行优化。

在第一方面的一种可能的实施方式中，所述方法还包括：

依据所述范例基础对话音频数据，利用所述对话音频特征训练网络获取所述范例基础对话音频数据的第三估计对话知识点数据以及第三估计情感类别数据；

所述基于所述范例融合对话音频数据的所述第一先验对话知识点数据、所述第一估计对话知识点数据、所述范例融合对话音频数据的所述第二先验情感类别数据、所述第一估计情感类别数据、所述范例情感对话音频数据的所述第二先验对话知识点数据、所述第二估计对话知识点数据、所述范例情感对话音频数据的所述第二先验情感类别数据以及所述第二估计情感类别数据，对所述对话音频特征训练网络的网络权重信息进行优化，包括：

基于所述范例基础对话音频数据的所述第一先验对话知识点数据以及所述第三估计对话知识点数据，确定第三对话知识点训练误差值；

基于所述范例基础对话音频数据的所述第一先验情感类别数据以及所述第三估计情感类别数据，确定第三情感特征训练误差值；

对所述第一对话知识点训练误差值、所述第一情感特征训练误差值、所述第二对话知识点训练误差值、所述第二情感特征训练误差值、所述第三对话知识点训练误差值以及所述第三情感特征训练误差值进行融合，生成目标训练误差值；

譬如在第一方面的一种可能的实施方式中，所述基于所述估计对话知识点数据以及估计情感类别数据，对所述目标用户进行在线服务反馈交互的步骤，包括：

基于所述估计对话知识点数据生成对应的初始化在线服务反馈交互数据；

基于所述估计情感类别数据对所述初始化在线服务反馈交互数据进行情感交互特征添加，生成目标在线服务反馈交互数据；

基于所述目标在线服务反馈交互数据对所述目标用户进行在线服务反馈交互。

譬如在第一方面的一种可能的实施方式中，所述基于所述估计对话知识点数据生成对应的初始化在线服务反馈交互数据的步骤，包括：

获取所述样本对话知识点数据中的样本对话主题语义段序列；

将所述样本对话主题语义段序列中各个样本对话主题语义段分别导入训练完成的对话反馈语句生成网络和待训练的基础对话反馈语句生成网络中进行对话反馈语句生成，得到所述各个样本对话主题语义段对应的目标对话反馈语句特征和所述各个样本对话主题语义段对应的基础对话反馈语句特征，其中，所述基础对话反馈语句生成网络是将所述训练完成的对话反馈语句生成网络的网络权重参数进行还原生成的；

计算所述各个样本对话主题语义段对应的目标对话反馈语句特征之间的共享语句特征，得到目标共享语句特征分布，并确定所述各个样本对话主题语义段对应的基础对话反馈语句特征之间的共享语句特征，得到基础共享语句特征分布；

确定所述基础共享语句特征分布与所述目标共享语句特征分布之间的语义迁移特征，并依据所述语义迁移特征更新所述待训练的基础对话反馈语句生成网络，将训练完成的基础对话反馈语句生成网络作为目标对话反馈语句生成网络；

基于所述目标对话反馈语句生成网络对所述估计对话知识点数据中的估计对话主题语义段序列进行对话反馈语句生成，输出对应的初始化在线服务反馈交互数据。

第二方面，本申请实施例实施例还提供一种基于人工智能的在线服务反馈交互系统，所述基于人工智能的在线服务反馈交互系统包括大数据系统以及与所述大数据系统通信连接的多个在线服务终端；

所述大数据系统，用于：

第三方面，本申请实施例还提供一种大数据系统，所述大数据系统包括处理器和机器可读存储介质，所述机器可读存储介质中存储有计算机程序，所述计算机程序结合该处理器加载并执行以实现以上第一方面的基于人工智能的在线服务反馈交互方法。

第四方面，本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于被处理器执行时，以实现以上第一方面的基于人工智能的在线服务反馈交互方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，以实现以上第一方面的基于人工智能的在线服务反馈交互方法。

本申请实施例至少具有以下有益效果：

首先获取范例基础对话音频数据以及范例情感对话音频数据，然后基于范例基础对话音频数据以及范例情感对话音频数据，生成范例融合对话音频数据，范例融合对话音频数据具有与范例基础对话音频数据相同的第一先验对话知识点数据，以及与范例情感对话音频数据相同的第二先验情感类别数据。依据此，利用对话音频特征训练网络获取范例融合对话音频数据的第一估计对话知识点数据以及第一估计情感类别数据，并且利用对话音频特征训练网络获取范例情感对话音频数据的第二估计对话知识点数据以及第二估计情感类别数据，由此对对话音频特征训练网络的网络权重信息进行优化，直至符合网络收敛安全，生成对话音频特征提取网络。由此，当范例基础对话音频数据数量较多，而范例情感对话音频数据数量较少时，结合范例情感对话音频数据和范例基础对话音频数据训练生成新的范例融合对话音频数据，范例融合对话音频数据具有与范例情感对话音频数据相同的音频情感，并且具有与范例基础对话音频数据相同的对话知识点，由此可以实现对话音频数据的音频情感特征扩展，减少网络训练过程中的标注工作量，有助于改善对话音频特征提取网络的特征提取性能，从而便于提高后续在线服务反馈的有效性。

附图说明

图1为本申请实施例实施例提供的基于人工智能的在线服务反馈交互方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

需要说明的是，以下实施例中所获得的各类数据均是在获得用户授权许可的基础上获取的。

参见图1：

步骤S101、获取范例基础对话音频数据以及范例情感对话音频数据，范例基础对话音频数据对应携带有第一先验对话知识点数据以及携带有第一先验情感类别数据，范例情感对话音频数据对应携带有第二先验对话知识点数据以及携带有第二先验情感类别数据，第一先验情感类别数据与第二先验情感类别数据分别对应不同的对话情感标签；

一种可替代的实施方式中，获取范例基础对话音频数据以及范例情感对话音频数据，范例基础对话音频数据和范例情感对话音频数据均为经过标注的对话音频数据，范例基础对话音频数据对应携带有第一先验对话知识点数据以及携带有第一先验情感类别数据，范例情感对话音频数据对应携带有第二先验对话知识点数据以及携带有第二先验情感类别数据。

第一先验情感类别数据与第二先验情感类别数据分别对应不同的对话情感标签，由此在后续的实施例中可进行对话音频数据的情感迁移。

步骤S102、基于范例基础对话音频数据以及范例情感对话音频数据，生成范例融合对话音频数据，范例融合对话音频数据具有第一先验对话知识点数据以及第二先验情感类别数据；

一种可替代的实施方式中，可对范例基础对话音频数据以及范例情感对话音频数据进行音频情感迁移，即结合范例基础对话音频数据的对话知识点和范例情感对话音频数据的情感，生成范例融合对话音频数据。范例融合对话音频数据的对话知识点与范例基础对话音频数据的对话知识点类似，而范例融合对话音频数据的音频情感与范例情感对话音频数据的音频情感类似，这样设计，范例融合对话音频数据在未标注的条件下，可将第一先验对话知识点数据作为其对话知识点标签，并将第二先验情感类别数据作为其情感标签。

下面以一个范例基础对话音频数据以及一个范例情感对话音频数据为例进行介绍，在实际应用中，可基于多个范例基础对话音频数据以及多个范例情感对话音频数据生成多个范例融合对话音频数据。

步骤S103、依据范例融合对话音频数据，利用对话音频特征训练网络获取范例融合对话音频数据的第一估计对话知识点数据以及第一估计情感类别数据；

一种可替代的实施方式中，将范例融合对话音频数据输入至对话音频特征训练网络，利用对话音频特征训练网络输出第一估计对话知识点数据以及第一估计情感类别数据。

步骤S104、依据范例情感对话音频数据，利用对话音频特征训练网络获取范例情感对话音频数据的第二估计对话知识点数据以及第二估计情感类别数据；

一种可替代的实施方式中，将范例情感对话音频数据输入至对话音频特征训练网络，利用对话音频特征训练网络输出第二估计对话知识点数据以及第二估计情感类别数据。

步骤S105、基于范例融合对话音频数据的第一先验对话知识点数据、第一估计对话知识点数据、范例融合对话音频数据的第二先验情感类别数据、第一估计情感类别数据、范例情感对话音频数据的第二先验对话知识点数据、第二估计对话知识点数据、范例情感对话音频数据的第二先验情感类别数据以及第二估计情感类别数据，对对话音频特征训练网络的网络权重信息进行优化，直至符合网络收敛安全，生成对话音频特征提取网络。

一种可替代的实施方式中，结合范例融合对话音频数据的第一先验对话知识点数据与第一估计对话知识点数据之间的训练误差值，范例融合对话音频数据的第二先验情感类别数据与第一估计情感类别数据之间的训练误差值，范例情感对话音频数据的第二先验对话知识点数据与第二估计对话知识点数据之间的训练误差值，以及范例情感对话音频数据的第二先验情感类别数据与第二估计情感类别数据之间的训练误差值，计算得到一个总的训练误差值（即目标训练误差值），并反向传播到对话音频特征训练网络，通过SGD算法优化对话音频特征训练网络的网络权重信息

基于以上步骤，首先获取范例基础对话音频数据以及范例情感对话音频数据，然后基于范例基础对话音频数据以及范例情感对话音频数据，生成范例融合对话音频数据，范例融合对话音频数据具有与范例基础对话音频数据相同的第一先验对话知识点数据，以及与范例情感对话音频数据相同的第二先验情感类别数据。依据此，利用对话音频特征训练网络获取范例融合对话音频数据的第一估计对话知识点数据以及第一估计情感类别数据，并且利用对话音频特征训练网络获取范例情感对话音频数据的第二估计对话知识点数据以及第二估计情感类别数据，由此对对话音频特征训练网络的网络权重信息进行优化，直至符合网络收敛安全，生成对话音频特征提取网络。由此，当范例基础对话音频数据数量较多，而范例情感对话音频数据数量较少时，结合范例情感对话音频数据和范例基础对话音频数据训练生成新的范例融合对话音频数据，范例融合对话音频数据具有与范例情感对话音频数据相同的音频情感，并且具有与范例基础对话音频数据相同的对话知识点，由此可以实现对话音频数据的音频情感特征扩展，减少网络训练过程中的标注工作量，有助于改善对话音频特征提取网络的特征提取性能，从而便于提高后续在线服务反馈的有效性。

一种可替代的实施方式中，上述实施例中的获取范例基础对话音频数据以及范例情感对话音频数据，具体可以包括：

步骤S1011，获取基础对话音频数据序列，基础对话音频数据序列包括W个基础对话音频数据，W为大于1的整数；

步骤S1012，将基础对话音频数据序列中的一个基础对话音频数据作为范例基础对话音频数据；

步骤S1013，获取情感对话音频数据序列，情感对话音频数据序列包括Q个情感对话音频数据，Q为大于1的整数；

步骤S1014，将情感对话音频数据序列中的一个情感对话音频数据作为范例情感对话音频数据。

本实施例中可以构建基础对话音频数据序列和情感对话音频数据序列，然后从基础对话音频数据序列中抽取任意一个基础对话音频数据作为范例基础对话音频数据，并且从情感对话音频数据序列中抽取任意一个情感对话音频数据作为范例情感对话音频数据。

一种可替代的实施方式中，上述实施例中的获取情感对话音频数据序列，具体可以包括：

（1）获取候选情感对话音频数据序列，候选情感对话音频数据序列包括L个候选情感对话音频数据，L为大于Q的整数；

（2）针对于候选情感对话音频数据序列中的每个候选情感对话音频数据，获取每个候选情感对话音频数据所对应的情感表征矢量；

（3）基于第一分簇数量以及每个候选情感对话音频数据所对应的情感表征矢量，对L个候选情感对话音频数据进行分簇，生成V个第一分簇簇心，第一分簇数量为V，V为大于或等于1，且小于L的整数；

（4）基于第二分簇数量以及每个候选情感对话音频数据所对应的情感表征矢量，对L个候选情感对话音频数据进行分簇，生成S个第二分簇簇心，第二分簇数量为S，S为大于V的整数，且小于L的整数；

（5）获取与各所述第一分簇簇心的偏离度最小的情感表征矢量，生成V个情感表征矢量；

（6）获取与各所述第二分簇簇心的偏离度最小的情感表征矢量，生成S个情感表征矢量；

（7）基于V个情感表征矢量中每个情感表征矢量所对应的候选情感对话音频数据，以及S个情感表征矢量中每个情感表征矢量所对应的候选情感对话音频数据，生成情感对话音频数据序列。

例如，可以依据k-means分簇算法得到情感对话音频数据。示例性的，首先需要获取候选情感对话音频数据序列，候选情感对话音频数据序列包括L个候选情感对话音频数据，然后通过分簇的方式得到基础对话音频数据序列。

例如，可以通过特征降维参数层输出候选情感对话音频数据序列中的每个候选情感对话音频数据所对应的情感表征矢量。例如，假设候选情感对话音频数据序列包括30个候选情感对话音频数据，于是，基于第一分簇数量以及每个候选情感对话音频数据所对应的情感表征矢量，对L个候选情感对话音频数据进行分簇，生成V个第一分簇簇心。并且基于第二分簇数量以及每个候选情感对话音频数据所对应的情感表征矢量，对L个候选情感对话音频数据进行分簇，生成S个第二分簇簇心。

获取候选情感对话音频数据序列，候选情感对话音频数据序列包括L个候选情感对话音频数据，L为大于Q的整数；

针对于候选情感对话音频数据序列中的每个候选情感对话音频数据，获取每个候选情感对话音频数据所对应的情感表征矢量；

基于第一分簇数量以及每个候选情感对话音频数据所对应的情感表征矢量，对L个候选情感对话音频数据进行分簇，生成X个第一分簇数据，第一分簇数量为X，X为大于1，且小于L的整数；

基于第二分簇数量以及每个候选情感对话音频数据所对应的情感表征矢量，对每个第一分簇数据中的候选情感对话音频数据进行分簇，生成Y个第二分簇数据，第二分簇数量为Y，Y为大于1，且小于L的整数；

基于每个第一分簇数据所包括的Y个第二分簇数据，确定(X*Y)个分簇簇心；

获取与每个分簇簇心的偏离值最小的情感表征矢量，生成(X*Y)个情感表征矢量；

基于(X*Y)个情感表征矢量中每个情感表征矢量所对应的候选情感对话音频数据，生成情感对话音频数据序列。

需要获取候选情感对话音频数据序列，候选情感对话音频数据序列包括L个候选情感对话音频数据，然后通过分簇的方式得到基础对话音频数据序列。

针对于候选情感对话音频数据序列中的每个候选情感对话音频数据，获取每个候选情感对话音频数据所对应的情感表征矢量，具体可以包括：

针对于候选情感对话音频数据序列中的每个候选情感对话音频数据，通过音频对话情感表征网络所包括的编码器获取每个候选情感对话音频数据所对应的情感编码特征；

通过音频对话情感表征网络所包括的特征降维参数层获取每个候选情感对话音频数据所对应的情感表征矢量。

一种可替代的实施方式中，上述实施例中的基于范例基础对话音频数据以及范例情感对话音频数据，生成范例融合对话音频数据，具体可以包括：

依据范例基础对话音频数据以及范例情感对话音频数据，通过情感特征映射神经网络所包括的编码器，获取范例基础对话音频数据所对应的第一对话特征矢量，以及范例情感对话音频数据所对应的第二对话特征矢量；

依据第一对话特征矢量以及第二对话特征矢量，通过情感特征映射神经网络所包括的情感特征转换器获取目标对话特征矢量；

依据目标对话特征矢量，通过情感特征映射神经网络所包括的解码器获取范例融合对话音频数据。

基于范例情感对话音频数据所对应第二先验情感类别数据，确定情感特征映射神经网络；

依据范例基础对话音频数据，通过情感特征映射神经网络获取范例融合对话音频数据。

音频情感迁移具体可以是，基于范例情感对话音频数据的第二先验情感类别数据，选择相应的情感特征映射神经网络，将范例基础对话音频数据输入至情感特征映射神经网络，由此生成范例融合对话音频数据。

一种可替代的实施方式中，上述实施例中的基于范例融合对话音频数据的第一先验对话知识点数据、第一估计对话知识点数据、范例融合对话音频数据的第二先验情感类别数据、第一估计情感类别数据、范例情感对话音频数据的第二先验对话知识点数据、第二估计对话知识点数据、范例情感对话音频数据的第二先验情感类别数据以及第二估计情感类别数据，对对话音频特征训练网络的网络权重信息进行优化，具体可以包括：

基于范例融合对话音频数据的第一先验对话知识点数据以及第一估计对话知识点数据，确定第一对话知识点训练误差值；

基于范例融合对话音频数据的第二先验情感类别数据以及第一估计情感类别数据，确定第一情感特征训练误差值；

基于范例情感对话音频数据的第二先验对话知识点数据以及第二估计对话知识点数据，确定第二对话知识点训练误差值；

基于范例情感对话音频数据的第二先验情感类别数据以及第二估计情感类别数据，确定第二情感特征训练误差值；

对第一对话知识点训练误差值、第一情感特征训练误差值、第二对话知识点训练误差值以及第二情感特征训练误差值进行融合，生成目标训练误差值；

采用目标训练误差值对对话音频特征训练网络的网络权重信息进行优化。

一种可替代的实施方式中，在进一步的实施例中，还可以包括：

依据范例基础对话音频数据，利用对话音频特征训练网络获取范例基础对话音频数据的第三估计对话知识点数据以及第三估计情感类别数据；

基于范例融合对话音频数据的第一先验对话知识点数据、第一估计对话知识点数据、范例融合对话音频数据的第二先验情感类别数据、第一估计情感类别数据、范例情感对话音频数据的第二先验对话知识点数据、第二估计对话知识点数据、范例情感对话音频数据的第二先验情感类别数据以及第二估计情感类别数据，对对话音频特征训练网络的网络权重信息进行优化，具体可以包括：

基于范例融合对话音频数据的第一先验对话知识点数据、第一估计对话知识点数据、范例融合对话音频数据的第二先验情感类别数据、第一估计情感类别数据、范例情感对话音频数据的第二先验对话知识点数据、第二估计对话知识点数据、范例情感对话音频数据的第二先验情感类别数据、第二估计情感类别数据、范例基础对话音频数据的第一先验对话知识点数据、第三估计对话知识点数据、范例基础对话音频数据的第一先验情感类别数据以及第三估计情感类别数据，对对话音频特征训练网络的网络权重信息进行优化。

例如，对话音频特征提取网络将范例基础对话音频数据输入至对话音频特征训练网络，利用对话音频特征训练网络输出第三估计对话知识点数据以及第三估计情感类别数据，于是结合范例融合对话音频数据的第一先验对话知识点数据与第一估计对话知识点数据之间的训练误差值，范例融合对话音频数据的第二先验情感类别数据与第一估计情感类别数据之间的训练误差值，范例情感对话音频数据的第二先验对话知识点数据与第二估计对话知识点数据之间的训练误差值，范例情感对话音频数据的第二先验情感类别数据与第二估计情感类别数据之间的训练误差值，以及范例基础对话音频数据的第三先验情感类别数据与第三估计情感类别数据之间的训练误差值，计算得到一个总的训练误差值（即目标训练误差值），并反向传播到对话音频特征训练网络，通过SGD法更新对话音频特征训练网络的网络权重信息，从而实现网络权重信息优化。经过多轮迭代训练后，即可得到符合网络收敛安全的对话音频特征提取网络。

一种可替代的实施方式中，上述实施例中的基于范例融合对话音频数据的第一先验对话知识点数据、第一估计对话知识点数据、范例融合对话音频数据的第二先验情感类别数据、第一估计情感类别数据、范例情感对话音频数据的第二先验对话知识点数据、第二估计对话知识点数据、范例情感对话音频数据的第二先验情感类别数据、第二估计情感类别数据、范例基础对话音频数据的第一先验对话知识点数据、第三估计对话知识点数据、范例基础对话音频数据的第一先验情感类别数据以及第三估计情感类别数据，对对话音频特征训练网络的网络权重信息进行优化，包括：

基于范例基础对话音频数据的第一先验对话知识点数据以及第三估计对话知识点数据，确定第三对话知识点训练误差值；

基于范例基础对话音频数据的第一先验情感类别数据以及第三估计情感类别数据，确定第三情感特征训练误差值；

对第一对话知识点训练误差值、第一情感特征训练误差值、第二对话知识点训练误差值、第二情感特征训练误差值、第三对话知识点训练误差值以及第三情感特征训练误差值进行融合，生成目标训练误差值；

通过以上步骤得到第一对话知识点训练误差值、第一情感特征训练误差值、第二对话知识点训练误差值、第二情感特征训练误差值、第三对话知识点训练误差值以及第三情感特征训练误差值，再对第一对话知识点训练误差值、第一情感特征训练误差值、第二对话知识点训练误差值、第二情感特征训练误差值第三对话知识点训练误差值以及第三情感特征训练误差值进行融合之后，即可得到目标训练误差值，由此，可采用目标训练误差值对对话音频特征训练网络的网络权重信息进行优化。

步骤S106、获取目标用户的目标对话音频数据，并依据所述目标对话音频数据，通过对话音频特征提取网络获取估计对话知识点数据以及估计情感类别数据，基于所述估计对话知识点数据以及估计情感类别数据，对所述目标用户进行在线服务反馈交互。

譬如，一种可能的实施方式中，本申请实施例可以基于所述估计对话知识点数据生成对应的初始化在线服务反馈交互数据，基于所述估计情感类别数据对所述初始化在线服务反馈交互数据进行情感交互特征添加，生成目标在线服务反馈交互数据，基于所述目标在线服务反馈交互数据对所述目标用户进行在线服务反馈交互。

譬如，一种可能的实施方式中，基于所述估计对话知识点数据生成对应的初始化在线服务反馈交互数据的步骤，包括：获取所述样本对话知识点数据中的样本对话主题语义段序列；将所述样本对话主题语义段序列中各个样本对话主题语义段分别导入训练完成的对话反馈语句生成网络和待训练的基础对话反馈语句生成网络中进行对话反馈语句生成，得到所述各个样本对话主题语义段对应的目标对话反馈语句特征和所述各个样本对话主题语义段对应的基础对话反馈语句特征，其中，所述基础对话反馈语句生成网络是将所述训练完成的对话反馈语句生成网络的网络权重参数进行还原生成的；计算所述各个样本对话主题语义段对应的目标对话反馈语句特征之间的共享语句特征，得到目标共享语句特征分布，并确定所述各个样本对话主题语义段对应的基础对话反馈语句特征之间的共享语句特征，得到基础共享语句特征分布；确定所述基础共享语句特征分布与所述目标共享语句特征分布之间的语义迁移特征，并依据所述语义迁移特征更新所述待训练的基础对话反馈语句生成网络，将训练完成的基础对话反馈语句生成网络作为目标对话反馈语句生成网络；基于所述目标对话反馈语句生成网络对所述估计对话知识点数据中的估计对话主题语义段序列进行对话反馈语句生成，输出对应的初始化在线服务反馈交互数据。

一种可能的实施方式中，提供了一种大数据系统，该大数据系统可以是服务器，该大数据系统包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该大数据系统的处理器用于提供计算和控制能力。该大数据系统的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该大数据系统的数据库用于存储上述方法所涉及的数据。该大数据系统的模型加载数据/输出接口用于处理器与外部设备之间交换信息。该大数据系统的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的在线服务反馈交互方法。

一些设计思路中，提供了一种大数据系统，该大数据系统可以是终端。该大数据系统包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该大数据系统的处理器用于提供计算和控制能力。该大数据系统的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该大数据系统的模型加载数据/输出接口用于处理器与外部设备之间交换信息。该大数据系统的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其它技术实现。该计算机程序被处理器执行时以实现一种基于人工智能的在线服务反馈交互方法。该大数据系统的显示单元用于形成视觉可见的画面。

一些设计思路中，提供了一种大数据系统，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

一些设计思路中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

一些设计思路中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于人工智能的在线服务反馈交互方法，其特征在于，所述方法包括：

获取所述目标用户的目标对话音频数据，并依据所述目标对话音频数据，通过对话音频特征提取网络获取估计对话知识点数据以及估计情感类别数据，基于所述估计对话知识点数据以及估计情感类别数据，对所述目标用户进行在线服务反馈交互。

2.根据权利要求1所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述获取范例基础对话音频数据以及范例情感对话音频数据，包括：

3.根据权利要求2所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述获取情感对话音频数据序列，包括：

4.根据权利要求2所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述获取情感对话音频数据序列，包括：

5.根据权利要求3或4所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述提取所述候选情感对话音频数据序列中的每个候选情感对话音频数据所对应的情感表征矢量，包括：

6.根据权利要求1所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述基于所述范例基础对话音频数据以及所述范例情感对话音频数据，生成范例融合对话音频数据，包括：

7.根据权利要求1所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述基于所述范例基础对话音频数据以及所述范例情感对话音频数据，生成范例融合对话音频数据，包括：

8.根据权利要求1所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述基于所述范例融合对话音频数据的所述第一先验对话知识点数据、所述第一估计对话知识点数据、所述范例融合对话音频数据的所述第二先验情感类别数据、所述第一估计情感类别数据、所述范例情感对话音频数据的所述第二先验对话知识点数据、所述第二估计对话知识点数据、所述范例情感对话音频数据的所述第二先验情感类别数据以及所述第二估计情感类别数据，对所述对话音频特征训练网络的网络权重信息进行优化，包括：

9.根据权利要求1所述的基于人工智能的在线服务反馈交互方法，其特征在于，所述方法还包括：

10.一种大数据系统，其特征在于，所述大数据系统包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时，执行权利要求1-9中任意一项所述的基于人工智能的在线服务反馈交互方法。