CN110377709A

CN110377709A - 一种减少机器人客服运维复杂度的方法及装置

Info

Publication number: CN110377709A
Application number: CN201910477065.8A
Authority: CN
Inventors: 杜剑文; 李辉权
Original assignee: Guangdong Youlan Robot Technology Co Ltd
Current assignee: Guangdong Youlan Robot Technology Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-10-25
Anticipated expiration: 2039-06-03
Also published as: CN110377709B

Abstract

本发明公开了一种减少机器人客服运维复杂度的方法及装置，为了解决占用了人工客服大量的时间成本，人工运维的复杂度很高的问题，通过计算会话消息数据与知识库中的各应答消息数据的应答相似度，读取应答相似度最大的应答消息数据作为第一应答消息数据，最终得到有效答案用户客户端并记录到知识库中，不仅解决了知识库快速的更新的问题，而且缩短了人工客服确认的响应时间，在会话过程中回答自然流畅，在人工客服繁忙的时间段，答案有效性自动确认，减少了人工客服大量的时间成本，降低了人工运维的复杂度。

Description

一种减少机器人客服运维复杂度的方法及装置

技术领域

本公开涉及机器人智能交互技术领域，具体涉及一种减少机器人客服运维复杂度的方法及装置。

背景技术

客服机器人的智能客服服务提供给用户服务一般来说是单向的，即在知识库中预先存有应答消息，根据用户提出的问题检索到相应的应答消息，推送给用户的客户端，这样的传统的方式由于知识库不会更新，因此，在客户问出题外的问题后，准确率不高，客服体验不佳，尤其是客服机器人部署的初级阶段，在知识库没有累积知识的情况下，只能简易的恢复常见问题，而目前的智能机器人客服针对这个问题的解决方案为，中国专利申请号CN201510917566.5公开的一种智能机器人与人混合客服的方法及系统，通过智能机器人答复问题，并通过置信度阈值智能判断出是否需要将问题转交给人工客服，人工客服处理后，智能机器人将问题和答案自动记录到知识库中；这样虽然能够处理知识库不会更新的问题，但是由于在通过置信度阈值智能判断出是否需要将问题转交给人工客服，需要等待人工客服响应的时间，这样实际上会使得在会话过程中无法回答自然流畅，尤其是在人工客服繁忙的时间段，确认答案有效性，占用了人工客服大量的时间成本，人工运维的复杂度很高，因此这种现象尤其突出。

发明内容

本公开提供一种减少机器人客服运维复杂度的方法及装置，为了解决占用了人工客服大量的时间成本，人工运维的复杂度很高的问题，通过计算会话消息数据与知识库中的各应答消息数据的应答相似度，读取应答相似度最大的应答消息数据作为第一应答消息数据，最终得到有效答案用户客户端并记录到知识库中。

为了实现上述目的，根据本公开的一方面，提供一种减少机器人客服运维复杂度的方法，所述方法包括以下步骤：

步骤1，机器人客服接收来自用户客户端的会话消息数据；

步骤2，抽取会话消息数据的主题词并划分场景类别；

步骤3，计算会话消息数据与知识库中的各个问题消息数据的问题相似度，读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据；

步骤4，如果最大的问题相似度小于问题相似度阈值则转人工客服，如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端；

步骤5，人工客服根据会话消息数据进行答复得到第二应答消息数据后，计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度；

步骤6，如果各个应答相似度的最大值大于应答相似度阈值，则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。

进一步地，在步骤1中，所述会话消息数据的形式包括以下至少一种：自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据，所述机器人客服包括用户客户端、知识库，知识库包括多个场景分类，每个场景分类包括多个问题消息数据，每个问题消息数据都有至少一个对应的应答消息数据。

进一步地，在步骤2中，抽取主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法，并在将预进行意图识别的会话消息数据中删除不同类别中重复的主题词，最后得到的主题词作为最终主题词抽取的结果，在知识库中分类得到场景类别的方法为，若会话消息数据中包含某个主题词，则把该主题词对应的场景类别的概率标记为1，其他场景类别的概率都标记为0，得到会话消息数据对应所有场景类别的概率分布PA＝[p₁,p₂,p₃,…p_d]，d表示知识库中总共的场景类别数目，p₁,p₂,p₃,…p_d分别为第1～第d场景类别的概率。

例如，如果“萝卜”一词为果蔬场景类别的主题词，当对话语句会话消息数据为“你喜不喜欢吃萝卜”这句话时，会话消息数据中包含“萝卜”这个主题词，则判断会话消息数据的果蔬场景类别概率为1，其他场景类别概率为0。

进一步地，在步骤3中，计算会话消息数据与知识库中的各个问题消息数据的问题相似度的方法包括以下步骤：

步骤3.1，计算会话消息数据的主题词的交叉熵值：令会话消息数据的主题词为先验条件W，知识库的每个场景类别中的各个问题消息数据的主题词W与场景类别C_i，会话消息数据的主题词W的期望交叉熵为：

交叉熵反应了场景类别的概率分布与出现了会话消息数据的主题词后场景类别概率分布之间的距离，该距离越大说明会话消息数据的主题词对类别判断的影响越大，同样，知识库中的各个问题消息数据的主题词抽取方法为步骤2中的方法；

其中，p(C_i)表示属于场景类别C_i的知识库中的各个问题消息数据占所有消息数目的比重，p(W)表示包含主题词W的问题消息数据占所有问题消息数据数目的比重，p(C_i|W)表示在包含主题词W的消息中属于类别C_i的消息所占的比重，n为知识库中场景类别的总数量；

交叉熵值表示根据会话消息数据的主题词W写入知识库中与消息的场景类别相关性，该值越大说明会话消息数据的主题词W可能属于知识库中的场景类别的可能性越大，消息分为会话消息数据与知识库中的问题消息数据；

步骤3.2，计算卡方值：在会话消息数据与知识库中由会话消息数据的主题词和知识库中的问题消息数据出现主题词的频数构成卡方频数矩阵，令O_r,c表示会话消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值，第r行的和记为n_r，第c列的和记为n_c，所有元素的和记为n，计算矩阵中的每一个值的期望值E_r,c，

卡方值χ²越大说明X与Y的相关性越大，消息包括会话消息数据与知识库中的问题消息数据；

步骤3.3，计算会话消息数据与知识库中的各问题消息数据的问题相似度W_i：

其中TF_i是交叉熵值大于交叉阈值的消息i中出现的次数，DF_i是卡方值χ²大于卡方阈值的消息i中出现的次数，i取值范围为1到N，N是知识库中所有消息的总数，其中，交叉阈值和卡方阈值取值范围为0到1，交叉阈值为0.8，卡方阈值为0.8。

其中，所述知识库包括多个场景分类，每个场景分类包括多个问题消息数据，每个问题消息数据都有至少一个对应的应答消息数据。

进一步地，在步骤4中，问题相似度阈值取值范围为0到1，根据二八定律，相似度阈值默认值为0.8。

进一步地，在步骤5中，计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度的方法包括以下步骤：

步骤5.1，抽取第二应答消息数据的主题词并划分场景类别，抽取第二应答消息数据的主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法，并在将预进行意图识别的第二应答消息数据中删除不同类别中重复的主题词，最后得到的主题词作为最终主题词抽取的结果，在知识库中分类得到场景类别的方法为，若第二应答消息数据中包含某个主题词，则把该主题词对应的场景类别的概率标记为1，其他场景类别的概率都标记为0，得到第二应答消息数据对应所有场景类别的概率分布PA＝[p₁,p₂,p₃,…p_d]，d表示知识库中总共的场景类别数目，p₁,p₂,p₃,…p_d分别为第1～第d场景类别的概率，同样，知识库中的各个应答消息数据也是用本步骤中的方法；

步骤5.2，计算第二应答消息数据的主题词的交叉熵值：令每个主题词为先验条件W，知识库的每个场景类别中的各个应答消息数据的主题词W与类别C_i，主题词W的期望交叉熵为：

交叉熵反应了第二应答消息数据的主题词在知识库中场景类别出现的概率分布与知识库中的各个应答消息数据出现了第二应答消息数据的主题词后场景类别概率分布之间的距离，该距离越大说明第二应答消息数据的主题词对场景类别判断的影响越大。

其中，p(C_i)表示属于场景类别C_i的应答消息数据占所有应答消息数据数目的比重，p(W)表示包含第二应答消息数据的主题词W的应答消息数据占所有知识库的应答消息数据数目的比重，p(C_i|W)表示在包含第二应答消息数据的主题词W的应答消息数据中属于类别C_i的应答消息数据所占的比重，n为知识库中场景类别的总数量；

交叉熵值表示根据第二应答消息数据的主题词W写入知识库中与消息的场景类别相关性，该值越大说明第二应答消息数据的主题词W可能属于知识库中的场景类别的可能性越大，消息分为第二应答消息数据与知识库中的应答消息数据；

步骤5.3，计算卡方值：在第二应答消息数据与知识库中由第二应答消息数据的主题词和知识库中的应答消息数据出现主题词的频数构成卡方频数矩阵，令O_r,c表示第二应答消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值，第r行的和记为n_r，第c列的和记为n_c，所有元素的和记为n，计算矩阵中的每一个值的期望值E_r,c，

卡方值χ²越大说明X与Y的相关性越大，消息包括第二应答消息数据与知识库中的应答消息数据；

步骤5.4，计算第二应答消息数据与知识库中的各应答消息数据的应答相似度Y_i：

其中TF_i是交叉熵值大于交叉阈值的应答消息数据i中出现的次数，DF_i是卡方值χ²大于卡方阈值的应答消息数据i中出现的次数，i取值范围为1到N，N是知识库中所有的应答消息数据的总数，其中，交叉阈值和卡方阈值取值范围为0到1，交叉阈值为0.8，卡方阈值为0.8。

本发明还提供了一种减少机器人客服运维复杂度的装置，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

客户消息读取单元，用于机器人客服接收来自用户客户端的会话消息数据；

主题词抽取单元，用于抽取会话消息数据的主题词并划分场景类别；

应答相似度计算单元，用于计算会话消息数据与知识库中的各个问题消息数据的问题相似度，读取知识库中的各个问题消息数据的问题相似度最大的问题消息数据对应的应答消息数据作为第一应答消息数据；

应答相似度判断单元，用于在如果最大的问题相似度小于问题相似度阈值则转人工客服，如果最大的问题相似度大于问题相似度阈值则将第一应答消息数据作为有效答案推送给用户客户端；

人工客服答复单元，用于人工客服根据会话消息数据进行答复得到第二应答消息数据后，计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度；

知识库更新单元，用于在如果各个应答相似度的最大值大于应答相似度阈值，则将第二应答消息数据作为有效答案推送给用户客户端并记录到知识库中。

本公开的有益效果为：本发明提供一种减少机器人客服运维复杂度的方法及装置，不仅解决了知识库快速的更新的问题，而且缩短了人工客服确认的响应时间，在会话过程中回答自然流畅，在人工客服繁忙的时间段，答案有效性自动确认，减少了人工客服大量的时间成本，降低了人工运维的复杂度。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种减少机器人客服运维复杂度的方法的流程图；

图2所示为一种减少机器人客服运维复杂度的装置图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种减少机器人客服运维复杂度的方法的流程图，下面结合图1来阐述根据本公开的实施方式的一种减少机器人客服运维复杂度的方法。

本公开提出一种减少机器人客服运维复杂度的方法，具体包括以下步骤：

步骤1，机器人客服接收来自用户客户端的会话消息数据；

步骤2，抽取会话消息数据的主题词并划分场景类别；

步骤3.2，计算卡方值：

卡方χ²独立性检验是一种无参数的假设检验，评估的是会话消息数据X与知识库中的各个应答消息数据Y之间是否独立，亦即不相关。X和Y的可能取值都是离散的，首先要由X的任意一个取值与Y的任意一个取值同时出现的频数，构成表1：

表1卡方频数表

我	要	坐	火	车	去	…	上	海	…
										I	24	98	0	7	12	…	7	58	…
M	36	34	4	67	83	…	75	4	…
										S	57	32	51	2	15	…	29	64	…
H	0	18	94	49	57	…	67	18	…

表1为由会话消息数据的主题词和知识库中出现主题词的频数构成卡方频数矩阵，令O_r,c表示会话消息数据在知识库中出现的卡方频数矩阵中第r行第c列的值，第r行的和记为n_r，第c列的和记为n_c，所有元素的和记为n，计算矩阵中的每一个值的期望值E_r,c，

本公开的实施例提供的一种减少机器人客服运维复杂度的装置，如图2所示为本公开的一种减少机器人客服运维复杂度的装置图，该实施例的一种减少机器人客服运维复杂度的装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种减少机器人客服运维复杂度的装置实施例中的步骤。

所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

所述一种减少机器人客服运维复杂度的装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种减少机器人客服运维复杂度的装置，可运行的装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种减少机器人客服运维复杂度的装置的示例，并不构成对一种减少机器人客服运维复杂度的装置的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种减少机器人客服运维复杂度的装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种减少机器人客服运维复杂度的装置运行装置的控制中心，利用各种接口和线路连接整个一种减少机器人客服运维复杂度的装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种减少机器人客服运维复杂度的装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种减少机器人客服运维复杂度的方法，其特征在于，所述方法包括以下步骤：

步骤1，机器人客服接收来自用户客户端的会话消息数据；

步骤2，抽取会话消息数据的主题词并划分场景类别；

2.根据权利要求1所述的一种减少机器人客服运维复杂度的方法，其特征在于，在步骤1中，所述会话消息数据的形式包括以下至少一种：自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据。

3.根据权利要求1所述的一种减少机器人客服运维复杂度的方法，其特征在于，在步骤2中，抽取主题词的方法为LDA、TextRank、GibbsLDA任意一种主题词抽取方法。

4.根据权利要求3所述的一种减少机器人客服运维复杂度的方法，其特征在于，在步骤3中，计算会话消息数据与知识库中的各个问题消息数据的问题相似度的方法包括以下步骤：

其中，消息包括会话消息数据与知识库中的问题消息数据；

其中TF_i是交叉熵值大于交叉阈值的消息i中出现的次数，DF_i是卡方值χ²大于卡方阈值的消息i中出现的次数，i取值范围为1到N，N是知识库中所有消息的总数。

5.根据权利要求4所述的一种减少机器人客服运维复杂度的方法，其特征在于，在步骤4中，相似度阈值默认值为0.8。

6.根据权利要求1所述的一种减少机器人客服运维复杂度的方法，其特征在于，在步骤5中，计算第二应答消息数据与知识库中的各个应答消息数据的应答相似度的方法包括以下步骤：

其中，消息包括第二应答消息数据与知识库中的应答消息数据；

7.一种减少机器人客服运维复杂度的装置，其特征在于，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：