CN115643341A

CN115643341A - 人工智能客服应答系统

Info

Publication number: CN115643341A
Application number: CN202211261346.8A
Authority: CN
Inventors: 宋小波; 徐翔; 郭静
Original assignee: Hangzhou Half Cloud Technology Co ltd
Current assignee: Hangzhou Half Cloud Technology Co ltd
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-24

Abstract

本发明公开了人工智能客服应答系统，包括有服务器、客户端与情绪识别模块。本发明中，首先利用智能机器人对客户咨询进行自动应答；判断是否可以自动给出答复，若可以，则自动答复；若不可以，则将客户咨询转接至人工服务，从而实现了根据智能机器人自主判断的主动人工服务转接流程，在更好地实现自动智能回复的情况下，更快将无法应答的咨询转至人工服务，免去客户的多余操作，提升用户体验，进一步的，智能机器人还可以获取客户的情绪信息，并根据情绪信息设定该客户咨询接入人工服务的优先级，从而实现更为有效的人工服务转接排序方式，减少迫切客户的等待时间，保证服务质量。

Description

人工智能客服应答系统

技术领域

本发明涉及互联网技术领域，尤其涉及人工智能客服应答系统。

背景技术

客服是非常常见商业服务人员，主要工作是接受客户咨询，回答客户疑问。

目前，客服基本可分为人工客服和电子客服。随着电子信息技术和互联网技术的不断进步，大部分的常规客服咨询都可以采用电子客服进行回复。但电子客服的缺陷也十分明显，主要问题在于，传统的电子客服需要用户听或看很复杂的选项菜单并给出回复，步骤繁琐，非常费时，一旦用户理解或操作有误，往往需要从头开始，用户体验不佳。

随着人工智能技术的发展，更为贴近人工客服的对话式语音客服也开始在部分电商投入使用。其能够提取客户咨询的问题，并给予相应的答复，用户体验有所提升。但问题也十分明显。由于不采用预设的选项菜单，用户的提问就接近人工对话，问题五花八门，如何有效准确的获取问题的主要信息成为关键。另一方面，由于自动答复仍然依靠于既有的答复内容数据库，难免存在无法自动答复的问题，这就要求可以及时将客户咨询转至人工服务。然而现有的转接方式较为简单，无法实现转人工服务的智能排序，使得用户等候时间更长，效果不佳。

因此，如何提供一种能够更好地实现自动的智能回复，并且提供更为有效的人工服务转接方式，成为智能应答领域亟待解决的问题。

发明内容

本发明的目的是为了解决上述问题，而提出的人工智能客服应答系统。

为了实现上述目的，本发明采用了如下技术方案：

人工智能客服应答系统，包括有服务器、客户端与情绪识别模块，所述人工智能客服应答所采用的方法为：

S1、利用智能机器人对客户咨询进行自动应答，并获取客户的情绪信息，且所述客户的情绪信息获取步骤为：

S11、通过声音采集器采集人机对话过程中用户的当前对话语句，将所采集到的当前对话语句所对应的语音信息转换成相应的第一音频嵌入向量；

S12、将当前对话语句相关的语音信息转换成对应的文字信息后，对转换后的文字信息进行向量化，获取到对应的第一词嵌入向量；

S13、获取在采集当前对话语句时用户的第一面部图像，将第一面部图像输入至图像识别子模型，以根据图像识别子模型的输出，确定第一图像嵌入向量；

S14、融合第一音频嵌入向量、第一词嵌入向量与第一图像嵌入向量，并输入至一个拼接层中，最终融合成第一融合特征向量；

S15、将第一融合特征向量通过另一全连接层后，再经过分类器分类，取概率最大节点对应的类别，作为对话机器人对当前对话语句进行分析后所获取到的当前情绪识别结果；

S2、智能机器人判断所述的客户咨询内容是否可以自动给出答复，若可以，则进入S3，若不可以，则进入S4；

S3、智能机器人自动答复客户咨询，智能机器人会询问客户对应答信息是否满意，同时智能机器人根据客户对于是否满意的回答进行训练；

S4、智能机器人将客户咨询转接至人工服务，并在转接至人工服务的过程中，会根据情绪信息设定该客户咨询接入人工服务的优先级。

作为上述技术方案的进一步描述：

所述客户的情绪信息获取方法还包括有：采集不同用户的对话语句样本，以及与每个对话语句样本相关的面部图像样本，分别为每个对话语句样本和所述面部图像样本标注一个情绪识别标签，以构建样本训练集，将样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练。

作为上述技术方案的进一步描述：

所述情绪识别模块包括有：

第一处理单元(41)，包括声音采集器与音频识别子模型，声音采集器将采集到第一音频特征向量输入至音频识别子模型，在通过音频识别子模型确定第一音频嵌入向量；

第二处理单元(42)，包括音频采集器与文字识别子模型，音频采集器将采集到的第一词向量输入至文字识别子模型，在通过文字识别子模型确定第一词嵌入向量；

向量融合单元(43)，包括有非暂态计算机可读存储介质,非暂态计算机可读存储介质上存储有计算机程序，并融合第一音频嵌入向量和第一词嵌入向量生成第一融合特征向量；

情绪识别单元(44)，包括有情绪识别处理器，用于接受第一融合特征向量，并确定用户的当前情绪识别结果。

作为上述技术方案的进一步描述：

所述第一处理单元(41)与第二识别单元(42)并联在向量融合单元(43)上，服务器与客户端通过网络链路连接，客户端与智能机器人相交互达到智能客服应答。

作为上述技术方案的进一步描述：

所述智能机器人判断所述的客户咨询内容是否可以自动给出答复的过程为：对文字信息进行语义分析，获取与所述的文字信息对应的关键词，智能机器人利用所述的关键词查找应答数据库，判断是否获得与关键词对应的应答信息。

作为上述技术方案的进一步描述：

所述语音信息转换成相应的第一音频特征向量的过程为提取出语音信息中的声调、基频、MFCC与FBANK语音特征：

声调由调值和调型组成,调值由基频数值决定，调型由调值的走向决定，基频的提取可以采用自相关算法、平行处理法、倒谱法和简化逆滤波法中的任一种来实现；

MFCC特征的提取是在Mel标度频率域提取出来的倒谱参数，每个倒谱向量就是每帧的MFCC特征对应的第一音频特征向量；

fbank特征的提取步骤包括有：预加重、分帧、加窗、短时傅里叶变换(STFT)、MEL滤波器组滤波、去均值，最后将fbank特征利用倒谱向量进行表示，获取到第一音频特征向量。

作为上述技术方案的进一步描述：

对转换后的文字信息进行向量化的方式为离散表示和分布式表示中的任意一种。

作为上述技术方案的进一步描述：

所有样本训练集中的对话语句样本、面部图像样本以及文字样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练之后，重新排布所述样本训练集中的对话语句样本以及面部图像样本的顺序，并利用重新排布后的样本训练集，重新对音频识别子模型、文字识别子模型和图像识别子模型进行训练，且在实际训练时，会打乱各个样本的前后关系。

作为上述技术方案的进一步描述：

MFCC特征的提取具体采用以下步骤：

(1)在对语音信息进行预加重的基础上，对处理后的语音信息的信号帧进行分帧处理，将其转化为短帧；

(2)对于转化后的每一短帧进行加窗后，进行快速傅里叶变换，以获取到其在频谱上的能量分布，即得到各短帧的频谱；

(3)将MEL滤波器组应用于对频谱进行平滑化处理，并同时起到消除谐波的作用，以突显原先的语音信息的共振峰；

(4)计算每个滤波器组输出的对数能量；

(5)取对数滤波器组能量的离散余弦变换，得到对应的MFCC特征；

(6)进一步地，可以保持DCT系数2-13，其余部分丢弃。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明中，首先利用智能机器人对客户咨询进行自动应答；判断是否可以自动给出答复，若可以，则自动答复；若不可以，则将客户咨询转接至人工服务，从而实现了根据智能机器人自主判断的主动人工服务转接流程，在更好地实现自动智能回复的情况下，更快将无法应答的咨询转至人工服务，免去客户的多余操作，提升用户体验，进一步的，智能机器人还可以获取客户的情绪信息，并根据情绪信息设定该客户咨询接入人工服务的优先级，从而实现更为有效的人工服务转接排序方式，减少迫切客户的等待时间，保证服务质量。

附图说明

图1为本发明中智能客服应答方法结构示意图；

图2为本发明中智能客服应答方法中用于情绪识别方法的流程框图；

图3为本发明中智能客服应答方法中用于实现情绪识别方法的模型结构示意图；

图4是本发明中智能客服应答方法中提供的情绪识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一：

请参阅图1-4，人工智能客服应答系统，系统包括有服务器与客户端，服务器运行有智能机器人，客户端上配置有情绪识别模块，情绪识别模块包括有第一处理单元41、第二处理单元42、向量融合单元43与情绪识别单元44，其中：

第一处理单元41，包括声音采集器与音频识别子模型，声音采集器将采集到第一音频特征向量输入至音频识别子模型，在通过音频识别子模型确定第一音频嵌入向量；

第二处理单元42，包括音频采集器与文字识别子模型，音频采集器将采集到的第一词向量输入至文字识别子模型，在通过文字识别子模型确定第一词嵌入向量；

向量融合单元43，包括有非暂态计算机可读存储介质,非暂态计算机可读存储介质上存储有计算机程序，并融合第一音频嵌入向量和第一词嵌入向量生成第一融合特征向量；

情绪识别单元44，包括有情绪识别处理器，用于接受第一融合特征向量，并确定用户的当前情绪识别结果；

第一处理单元41与第二识别单元42并联在向量融合单元43上，服务器与客户端通过网络链路连接，客户端与智能机器人相交互达到智能客服应答，客户端设置有智能客服知识库的搭建，该知识库的搭建包括有问题管理、智能学习与未知问题学习；

智能客服知识库搭建的核心在于信息同步和共享，也就是说对于企业而言，智能知识库不是独立于企业知识库而存在的，分别搭建PC和移动知识库成本高，而且后期维护也需要大量的人力和时间成本，但并不是说移动知识库可以完全采用原有知识库的内容，毕竟移动和PC场景下，用户需求是会有很大的不同的。

从用户的角度看，移动的咨询场景决定了用户对信息的呈现形式、信息深度的预期与PC场景是不同的，移动场景下用户希望获得更简洁更明确的回复，对于语音识别的需求会明显高于PC，虽然移动和PC知识库在信息上是共享的，但是在知识库的问题管理上有必要建设单独的移动客服知识库分类，从而实现更有针对性的问答匹配。

从客服人员角度而言，移动场景更加碎片化，除了回复必要的用户咨询外，基于移动知识库进行自主学习也是一种常见的需求，因此客服端的知识库需要开发面向客服人员自主学习的知识库模块。

智能客服应答所采用的方法包括以下步骤：

S1、利用智能机器人对客户咨询进行自动应答；

S2、智能机器人判断的客户咨询内容是否可以自动给出答复，若可以，则进入步骤(3)，若不可以，则进入步骤(4)；

S3、智能机器人自动答复的客户咨询；

当智能客服完成应答后，会询问客户对于回答是否满意，优选为“您对于答复是否满意”，进而获得客户的回答，如果客户满意，则应答正确，智能机器人记录语音信息及相关答复的映射关系，便于此后答复时使用，如果客户不满意，表示应答有误，则记录语音信息及相关答复之间的对应关系是错误的，可以在此后的答复中避免该答复方式，从而完成智能机器人的自助训练，提升系统整体的用户体验。

S4、智能机器人将客户咨询转接至人工服务；

步骤S1中还包括智能机器人根据客户咨询的语调、语气、语速以及客户开始说话的时间与智能机器人的语音反馈之间的间隔获取客户的情绪信息，情绪信息分为1至10的评分，其中1对应情绪为最耐心，10对应情绪为最急切；

客户语音语调比较高，语速较快，可判断该客户较为急切，又比如，智能机器人在语音播放应答信息时，用户没有听完相关信息就已经对该答案不满意，并开始说话，则可以认为该客户相当急切，另外还可以根据语义分析客户语音中是否有相应的，语气词，如“哎”、“不行”、“不好”，甚至于粗口来判断用户的情绪，并产生情绪信息，利用该情绪信息进行人工服务排序，例如情绪较为急切，评分较高的优先，另一方面，情绪信息也可以给人工客服进行提示，标注该客服情绪较为激动较为迫切，其实人工客服优先接听，或提示人工客服注意客户的情绪。从而可以进一步提升客服质量。

步骤S4中还包括有将客户咨询转接至人工服务的过程中，会根据情绪信息设定该客户咨询接入人工服务的优先级。

客户的情绪信息获取方法包括有以下步骤：

步骤一、获取当前对话语句相关的第一音频特征向量，将第一音频特征向量输入至音频识别子模型，以根据音频识别子模型的输出，确定第一音频嵌入向量，在用于人机对话的机器人上配置声音采集器，采集人机对话过程中用户的当前对话语句，即实时对话的语音信息。将所采集到的当前对话语句所对应的语音信息转换成相应的第一音频特征向量；

步骤二、获取当前对话语句相关的第一词向量，将第一词向量输入至文字识别子模型，以根据文字识别子模型的输出，确定第一词嵌入向量，对当前对话语句相关的语音信息进行特征提取，以获取第一音频嵌入向量的同时，通过采用自然语言处理，将当前对话语句相关的语音信息转换成对应的文字信息后，对转换后的文字信息进行向量化，获取到对应的第一词向量，将第一词向量输入至预先构建并训练好的文字识别子模型，然后将NET2的输出也经过做句子级的Attention后，再经过全连接层，也获取到一个嵌入向量，并将该嵌入向量作为当前对话语句的第一词嵌入向量；

步骤三、融合第一音频嵌入向量和第一词嵌入向量，生成第一融合特征向量，通过将第一音频嵌入向量和第一词嵌入向量同时输入至一个拼接层中，以将第一音频嵌入向量和第一词嵌入向量融合成一个第一融合特征向量；

需要说明的是，可以适当的调整第一音频嵌入向量与第一词嵌入向量的维度，使得两者的维度相同，例如均调整至1*200，不对两个向量的融合方式作具体地限定，可以是将1*200的第一音频嵌入向量和第一词嵌入向量，简单融合成一个1*400的第一融合特征向量。

步骤4、基于第一融合特征向量，确定用户的当前情绪识别结果，将第一融合特征向量通过另一全连接层后，再经过分类器分类，取概率最大节点对应的类别，作为分类结果，即输出第一融合特征向量所对应的识别结果，该识别结果就是对话机器人对当前对话语句进行分析后所获取到的当前情绪识别结果；

在融合第一音频嵌入向量和第一词嵌入向量，生成第一融合特征向量之前，还包括：获取在采集当前对话语句时用户的第一面部图像，将第一面部图像输入至图像识别子模型，以根据图像识别子模型的输出，确定第一图像嵌入向量；融合第一音频嵌入向量、第一词嵌入向量和第一图像嵌入向量，生成第一融合特征向量，基于第一融合特征向量，确定用户的当前情绪识别结果；

在对第一面部图像进行预处理之后，将其输入至预先构建并训练好的图像识别子模型，然后将NET3的输出也经过做句子级的Attention后，再经过全连接层，获取到一个嵌入向量，并将该嵌入向量作为当前对话语句的第一图像嵌入向量。

进一步地，将对第一音频特征向量的处理结果第一音频嵌入向量，对第一词向量的处理结果第一词嵌入向量，以及对第一面部图像的处理结果第一图像嵌入向量，一起输入至拼接层中，以由第一音频嵌入向量、第一词嵌入向量和第一图像嵌入向量，融合成第一融合特征向量。

最后，通过全连接层(如图3中的FC2)对第一融合特征向量进行特征提取，并经过Softmax分类器分类，获取到用户的当前情绪识别结果；

结合人机对话相关的语音和文字相关的音频特征以及词向量特征，进行用户情绪分类识别，克服了单一的基于语音或人脸图像进行情绪分类识别存在的信息损失的弊端，能够显著地提升情绪分类识别的精度。

情绪信息获取方法还包括有：采集不同用户的对话语句样本，以及与每个对话语句样本相关的面部图像样本，分别为每个对话语句样本和面部图像样本标注一个情绪识别标签，以构建样本训练集；将样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练，预先采集不同用户在不同情绪下的对话语句样本，并在采集每个对话语句样本时，获取该用户的面部图像作为面部图像样本，然后，手动为每个对话语句样本以及面部图像样本标注一个情绪识别标签。

对话机器人可以通过对当前对话语句相关的第一音频特征向量以及第一词向量进行综合分析确定出用户的当前情绪识别结果。但是，在某些机器人应用场合下，例如大堂引导机器人等，除了可以收集到用户的语音信息，同时也可以采集到用户实时的面部图像，因此可以综合利用语音、文字和图像等信息，进行更加准确的用户情绪识别。

可以将所有的对话语句样本及其对应的情绪识别标签构建成第一样本训练子集，将所有的面部图像样本及其对应的情绪识别标签构建成第二样本训练子集，将所有的文字样本及其对应的情绪识别标签构建成第三样本训练子集，最后，利用第一样本训练子集对NET1进行训练，利用第三样本训练子集对NET2进行训练，利用第二样本训练子集对NET3进行训练，直至上述3个网络模型的训练结果收敛为止。

作为另一种可选地模型预训练方法，在获取到对话语句样本集和面部图像样本集之后，手动为对话语句样本集中的每个对话语句样本以及面部图像样本集中的每一个面部图像样本，标注一个情绪识别标签。其中，将同一用户在同一采样时刻所采集的对话语句样本和面部图像样本标注同一情绪识别标签，并组成一个新的训练样本。

然后，直接利用所有新的训练样本所构成的样本集合，对由上述NET1、NET2和NET3所构成的模型集合进行预训练，直至模型集合的输出结果收敛为止。

将所采集到的当前对话语句所对应的语音信息转换成相应的第一音频特征向量，可以采用以下方式实现：

首先，提取出语音信息中的声调、基频、MFCC、FBANK语音特征；

声调是重要的声学参数，而声调是由调值和调型组成的,调值由基频数值决定，调型由调值的走向决定，因此，基频是当前对话语句的一个重要参数，对于基频的提取可以采用自相关算法、平行处理法、倒谱法和简化逆滤波法中的任一种来实现；

MFCC特征是在Mel标度频率域提取出来的倒谱参数，在进行语音信息的MFCC特征的提取，可以采用以下步骤：

(4)计算每个滤波器组输出的对数能量；

(5)取对数滤波器组能量的离散余弦变换(DCT)，得到对应的MFCC特征；

(6)进一步地，可以保持DCT系数2-13，其余部分丢弃；

语音信息就可以通过一系列的倒谱向量来描述，每个倒谱向量就是每帧的MFCC特征对应的第一音频特征向量，获得语音信号的fbank特征的一般步骤可以是：预加重、分帧、加窗、短时傅里叶变换(STFT)、MEL滤波器组滤波、去均值，最后将fbank特征利用倒谱向量进行表示，获取到第一音频特征向量；

将文字信息转换成第一词向量的方式可以采用多种编码方式，大致分为两类，即离散表示和分布式表示；

NET1、NET2、NET3的网络构建不做具体地限定，可以采用LSTM、CNN、Attention中的一种或多种方案进行搭建并训练后获取。

人工智能客服应答系统，包括有服务器、客户端与情绪识别模块，人工智能客服应答所采用的方法为：

S1、利用智能机器人对客户咨询进行自动应答，并获取客户的情绪信息，情绪信息分为1至10的评分，其中1对应情绪为最耐心，10对应情绪为最急切；

且客户的情绪信息获取步骤为：

S12、将当前对话语句相关的语音信息转换成对应的文字信息后，对转换后的文字信息进行向量化，获取到对应的第一词嵌入向量，将文字信息转换成第一词向量的方式可以采用多种编码方式，大致分为两类，即离散表示和分布式表示，对此本发明不作具体地限定。

结合图3所示，将第一词向量输入至预先构建并训练好的文字识别子模型(即图3中的NET2)，然后将NET2的输出也经过做句子级的Attention后，再经过全连接层(fullyconnected layers，FC)，可获取到一个嵌入向量，并将该嵌入向量作为当前对话语句的第一词嵌入向量；

结合图3所示，在对第一面部图像进行预处理之后(如将尺寸转换成统一尺寸、去噪等)，将其输入至预先构建并训练好的图像识别子模型(如图2中的NET3)，然后将NET3的输出也经过做句子级的Attention后，再经过全连接层(fully connected layers，FC)，获取到一个嵌入向量，并将该嵌入向量作为当前对话语句的第一图像嵌入向量；

利用Concat2对三个向量(第一音频嵌入向量、第一词嵌入向量和第一图像嵌入向量)进行融合的方式，可以采用向量拼接的方式实现。例如，在第一音频嵌入向量、第一词嵌入向量均为1*200、第一图像嵌入向量的维度为200*200的情况下，所生成的第一融合特征向量的维度为200*202；

通过将当前对话语句转换为文字，如果能同时采集到语音和图像数据，则分别将语音、文字、图像输入到如图3所示的模型结构中，各自的嵌入向量做Concat2拼接并经FC2作特征提取之后，由Softmax分类取概率最大节点对应的类别作为当前情绪识别结果，有效地融合用户在当前对话时的语音、语义以及形体等特征，能够有效地提升情绪识别结果的准确性；

S2、智能机器人判断的客户咨询内容是否可以自动给出答复，若可以，则进入S3，若不可以，则进入S4；

客户的情绪信息获取方法还包括有：采集不同用户的对话语句样本，以及与每个对话语句样本相关的面部图像样本，分别为每个对话语句样本和面部图像样本标注一个情绪识别标签，以构建样本训练集，将样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练；

作为另一种可选地模型预训练方法，在获取到对话语句样本集和面部图像样本集之后，手动为对话语句样本集中的每个对话语句样本以及面部图像样本集中的每一个面部图像样本，标注一个情绪识别标签。其中，将同一用户在同一采样时刻所采集的对话语句样本和面部图像样本标注同一情绪识别标签，并组成一个新的训练样本；

所有样本训练集中的对话语句样本、面部图像样本以及文字样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练之后，会重新排布样本训练集中的对话语句样本以及面部图像样本的顺序，并利用重新排布后的样本训练集，重新对音频识别子模型、文字识别子模型和图像识别子模型进行训练，且在实际训练时，会打乱各个样本的前后关系，有效提高网络模型训练的效果，增强训练后的NET1、NET2和NET3的泛化能力以及鲁棒性。

情绪识别模块包括有：

第一处理单元(41)与第二识别单元(42)并联在向量融合单元(43)上，服务器与客户端通过网络链路连接，客户端与智能机器人相交互达到智能客服应答；

从客服人员角度而言，移动场景更加碎片化，除了回复必要的用户咨询外，基于移动知识库进行自主学习也是一种常见的需求，因此客服端的知识库需要开发面向客服人员自主学习的知识库模块；

智能机器人判断的客户咨询内容是否可以自动给出答复的过程为：对文字信息进行语义分析，获取与的文字信息对应的关键词，智能机器人利用的关键词查找应答数据库，判断是否获得与关键词对应的应答信息。

语音信息转换成相应的第一音频特征向量的过程为提取出语音信息中的声调、基频、MFCC与FBANK语音特征：

语音信息就可以通过一系列的倒谱向量来描述，每个倒谱向量就是每帧的MFCC特征对应的第一音频特征向量；

fbank特征的提取步骤包括有：预加重、分帧、加窗、短时傅里叶变换(STFT)、MEL滤波器组滤波、去均值，最后将fbank特征利用倒谱向量进行表示，获取到第一音频特征向量，MFCC特征的提取具体采用以下步骤：

(4)计算每个滤波器组输出的对数能量；

(6)进一步地，可以保持DCT系数2-13，其余部分丢弃。

所有样本训练集中的对话语句样本、面部图像样本以及文字样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练之后，重新排布样本训练集中的对话语句样本以及面部图像样本的顺序，并利用重新排布后的样本训练集，重新对音频识别子模型、文字识别子模型和图像识别子模型进行训练，且在实际训练时，会打乱各个样本的前后关系。

实施例二：

基于实施例一

用于电话或网络语音自动答复。

当客户打进客服电话，或通过网络平台进行语音咨询时，会由智能机器人进行应答。网络平台可以是电商平台也可以是常用的聊天工具等。通常可以提问客户“这里是XXX客服平台，请问有什么可以帮您？”，从而开启智能机器人与客户之间的语音交互。如果是客服电话，通常需要首先进行客户身份验证，验证方式与常规电话客服大致相同。如果是网络平台，可以利用客户的平台登录信息完成验证，或提示客户先行登录，客户此时可以说出想咨询的问题，如“我想知道我上个月的账单是否已经寄出？”，此时，智能机器人将该语音转换为文字信息，获取其中的关键词，例如获取了“上个月”、“账单”、“寄出”等等。智能机器人利用客户的身份信息及关键词查找应答数据库，获取该客户上个月的账单寄出时间后，即可自动语音回复，例如“您10月的账单于11月5日寄出，地址是……，请注意查收，谢谢”，从而完成了智能语音的客服应答。但有时候，客户的问题比较复杂，或所需的服务智能机器人无法完成，就需要及时转接人工服务。继续以上述的应答过程为例。如果此时客户说“那个地址我换了，我收不到账单，我要改收件地址”。智能机器人同样将该语音转换为文字信息，获取其中的关键词，例如获取了“地址”、“账单”、“改收件地址”等等。此时智能机器人判断该服务是否可以自动完成。在可以自助完成的情况下，可以提示用户“请说新的收件地址”，若无法自助完成，即可将客户电话主动转接到人工客服，并提示用户“已转接人工服务”，以上以电话或网络语音的自动答复为例，如果是网络平台的文字咨询，则相应的智能客服应答方式类似。

实施例三：

基于实施例一

用于智能客服SAAS化

在智能客服系统普及的过程中也遇到了因智能客服系统部署周期长、系统需要定制化等诸多原因，而造成难以满足市场对智能客服系统日益增长需求的状况，究其原因。

主要是智能客服系统多为服务于各种大型应用系统，具备“伴生”的典型特点，因此需要智能客服系统供应商同时与系统集成商、甲方沟通协调来完成系统的部署实施，也因此在整体项目实施时产生大量的不同系统之间的磨合与协调工作，导致实施周期延长，这在一定程度上制约了智能客服系统在企业服务市场中的快速普及与应用。

而现在，随着云产品的日益发展，智能客服也逐渐SAAS化发展，不需要落地化部署，不需要研发对接能力，可直接嵌入到企业的官网、APP、公众号、H5等各个渠道。

对于中小型企业来说，这个无疑是提高客户服务效率，降低客服成本的好消息；对于智能客服系统来说，能够打开中小型企业的大门，未来的市场将会是更加巨大。

实施例四：

基于实施例一

用于在线智能客服

随着互联网、移动互联网、社交应用等媒介的进一步发展和自然语言处理(NLP)等人工智能技术的跨越式进步，网络端在线智能客服系统得到了更加全面快速的发展，逐渐形成了微信、微博、APP、Web、短信等多媒体、多渠道的网络端在线智能客服，并实现知识库的“统一管理，多渠道应用”。

服务内容也从最初的简单业务问答发展到自助化业务咨询、业务办理、营销推广等更全面的功能，交互形式也从最初单纯的一对一文字应答发展到支持相关问题联想、关联问题推荐、同音字纠错、上下文语义分析、多轮对话、图文消息回复、LBS位置服务、H5网页展现等更便捷、更智能的交互形式，并在金融、电信、互联网、交通、教育、医疗、政府公用事业、餐饮、汽车、房地产等众多领城得到了广泛应用，网络端在线智能客服也从最初的成长期快速发展到成熟期。

工作原理：使用时，首先利用智能机器人对客户咨询进行自动应答；判断是否可以自动给出答复，若可以，则自动答复；若不可以，则将客户咨询转接至人工服务。从而实现了根据智能机器人自主判断的主动人工服务转接流程，在更好地实现自动智能回复的情况下，更快将无法应答的咨询转至人工服务，免去客户的多余操作，提升用户体验，进一步的，智能机器人还可以获取客户的情绪信息，并根据情绪信息设定该客户咨询接入人工服务的优先级，从而实现更为有效的人工服务转接排序方式，减少迫切客户的等待时间，保证服务质量。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.人工智能客服应答系统，其特征在于，包括有服务器、客户端与情绪识别模块，所述人工智能客服应答所采用的方法为：

2.根据权利要求1所述的人工智能客服应答系统，其特征在于，所述客户的情绪信息获取方法还包括有：采集不同用户的对话语句样本，以及与每个对话语句样本相关的面部图像样本，分别为每个对话语句样本和所述面部图像样本标注一个情绪识别标签，以构建样本训练集，将样本训练集中的对话语句样本或面部图像样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练。

3.根据权利要求1所述的人工智能客服应答系统，其特征在于，所述情绪识别模块包括有：

4.根据权利要求3所述的人工智能客服应答系统，其特征在于，所述第一处理单元(41)与第二识别单元(42)并联在向量融合单元(43)上，服务器与客户端通过网络链路连接，客户端与智能机器人相交互达到智能客服应答。

5.根据权利要求1所述的人工智能客服应答系统，其特征在于，所述智能机器人判断所述的客户咨询内容是否可以自动给出答复的过程为：对文字信息进行语义分析，获取与所述的文字信息对应的关键词，智能机器人利用所述的关键词查找应答数据库，判断是否获得与关键词对应的应答信息。

6.根据权利要求1所述的人工智能客服应答系统，其特征在于，所述语音信息转换成相应的第一音频特征向量的过程为提取出语音信息中的声调、基频、MFCC与FBANK语音特征：

MFCC特征的提取是在Mel标度频率域提取出来的倒谱参数，每个倒谱向量就是每帧的MFCC特征对应的第一音频特征向量。

7.根据权利要求1所述的人工智能客服应答系统，其特征在于，对转换后的文字信息进行向量化的方式为离散表示和分布式表示中的任意一种。

8.根据权利要求1所述的人工智能客服应答系统，其特征在于，所有样本训练集中的对话语句样本、面部图像样本以及文字样本，按照预设顺序逐次对音频识别子模型、文字识别子模型和图像识别子模型进行训练之后，重新排布所述样本训练集中的对话语句样本以及面部图像样本的顺序，并利用重新排布后的样本训练集，重新对音频识别子模型、文字识别子模型和图像识别子模型进行训练，且在实际训练时，会打乱各个样本的前后关系。

9.根据权利要求6所述的人工智能客服应答系统，其特征在于，MFCC特征的提取具体采用以下步骤：

(4)计算每个滤波器组输出的对数能量；

(6)进一步地，可以保持DCT系数2-13，其余部分丢弃。