CN112287082A

CN112287082A - 结合rpa与ai的数据的处理方法、装置、设备及存储介质

Info

Publication number: CN112287082A
Application number: CN202011173378.3A
Authority: CN
Inventors: 李明超; 徐宁; 胡一川; 汪冠春
Original assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Current assignee: Beijing Benying Network Technology Co Ltd; Beijing Laiye Network Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2020-10-28
Publication date: 2021-01-29

Abstract

本申请提供一种结合RPA与AI的数据的处理方法、装置、设备及存储介质，该方法包括：获取语料数据；对所述语料数据进行提问抽取，获得提问数据；基于所述提问数据进行聚类，确定知识点，所述知识点包括至少一个问题；获取所述知识点的答案数据；接收到用户的对话数据时，基于NLP技术输出与所述对话数据匹配的问题所对应的答案数据。有效提高了知识库的构建效率。

Description

结合RPA与AI的数据的处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种结合RPA与AI的数据的处理方法、装置、设备及存储介质。

背景技术

机器人流程自动化(Robotic Process Automation，简称：RPA)是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

人工智能(Artificial Intelligence，简称AI)是研究、开发用于模拟、延伸和扩展人智能的理论、方法、技术及应用系统的一门新技术科学。人工智能领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

随着科学技术的飞速发展，基于机器人的服务模式逐渐走进人们生活。比如，机器人可以为用户解答问题。但是，现有技术中，机器人提供服务所基于的知识库需要人工确认知识点来构建知识库，依据大量数据(通常为上万或上亿句语料)构建知识库的构建效率较低。

发明内容

本申请提供一种结合RPA与AI的数据的处理方法、装置、设备及存储介质，以解决现有技术知识库构建效率低等缺陷。

本申请第一个方面提供一种结合RPA与AI的数据的处理方法，包括：

获取语料数据；

对所述语料数据进行提问抽取，获得提问数据；

基于所述提问数据进行聚类，确定知识点，所述知识点包括至少一个问题；

获取所述知识点的答案数据；

接收到用户的对话数据时，基于NLP技术输出与所述对话数据匹配的问题所对应的答案数据。

可选地，所述获取语料数据，包括：

获取原始数据；

基于预设清洗规则对所述原始数据进行清洗，获得所述语料数据。

可选地，所述基于预设清洗规则对所述原始数据进行清洗，获得所述语料数据，包括以下方式中的至少一种：

基于预设问候关键词，清洗掉用户的问候话语；

对于用户的每句话语，根据所述话语的字数确定所述话语所属的处理类型，并清洗掉删除类型的话语，所述处理类型包括删除类型、匹配类型及聚类类型；

基于预设代码判断规则，清洗掉代码类话语；

基于预设客服会话判断规则，清洗掉客服会话话语；

基于预设领域关键词，清洗掉预设领域相关会话的话语。

可选地，所述基于预设清洗规则对所述原始数据进行清洗，获得所述语料数据，包括：

基于预设代码判断规则，清洗掉所述原始数据中的代码类话语，获得第一数据；

基于预设客服会话判断规则，清洗掉所述第一数据中的客服会话话语，获得第二数据；

基于预设问候关键词，清洗掉所述第二数据中用户的问候话语，获得第三数据；

基于预设领域关键词，清洗掉所述第三数据中的领域相关会话的话语，获得第四数据；

对于所述第四数据中用户的每句话语，根据所述话语的字数确定所述话语所属的处理类型，并清洗掉删除类型的话语，获得所述语料数据，所述处理类型包括删除类型、匹配类型及聚类类型。

可选地，所述基于所述提问数据进行聚类，确定知识点，包括：

基于所述提问数据，采用预设聚类算法，按问题进行聚类，确定第一知识点；和/或，

基于所述提问数据，按关键词进行聚类，确定第二知识点。

可选地，在获取语料数据后，所述方法还包括：

基于所述语料数据，采用无监督学习算法，确定所述语料数据中包括的新词；

根据所述新词，获取所述新词的同义词，将所述新词及其同义词作为用于聚类的关键词。

可选地，所述方法还包括：

对确定的所述知识点进行验证，获得验证结果；

根据所述验证结果，对所述知识点进行相应的处理。

本申请第二个方面提供一种结合RPA与AI数据的处理装置，包括：

第一获取模块，用于获取语料数据；

提取模块，用于对所述语料数据进行提问抽取，获得提问数据；

聚类模块，用于基于所述提问数据进行聚类，确定知识点，所述知识点包括至少一个问题；

第二获取模块，用于获取所述知识点的答案数据；

处理模块，用于接收到用户的对话数据时，基于NLP技术输出与所述对话数据匹配的所述问题对应的答案数据。

可选地，所述第一获取模块，具体用于：

获取原始数据；

可选地，所述第一获取模块，具体用于执行以下步骤中的至少一个：

基于预设问候关键词，清洗掉用户的问候话语；

基于预设代码判断规则，清洗掉代码类话语；

基于预设客服会话判断规则，清洗掉客服会话话语；

基于预设领域关键词，清洗掉预设领域相关会话的话语。

可选地，所述第一获取模块，具体用于：

可选地，所述聚类模块，具体用于：

基于所述提问数据，按关键词进行聚类，确定第二知识点。

可选地，所述提取模块，还用于：

可选地，所述处理模块，还用于：

对确定的所述知识点进行验证，获得验证结果；

根据所述验证结果，对所述知识点进行相应的处理。

本申请第三个方面提供一种结合RPA与AI的电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一个方面中任意一种结合RPA与AI的数据的处理方法。

本申请第四个方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一个方面中任意一种结合RPA与AI的数据的处理方法。

本申请提供的结合RPA与AI的数据的处理方法、装置、设备及存储介质，通过获取语料数据，对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库，在接收到用户的对话数据时，可以基于NLP技术将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例通过根据语料数据自动构建知识库，为用户提供服务，有效提高了知识库的构建效率，并且，基于NLP技术确定与用户的对话数据匹配的问题，有利于向用户提供更加准确的答案数据，提高了为用户提供服务的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例基于的处理系统的架构示意图；

图2为本申请一实施例提供的结合RPA与AI的数据的处理方法的流程示意图；

图3为本申请另一实施例提供的结合RPA与AI的数据的处理方法的流程示意图；

图4为本申请一实施例提供的清洗流程示意图；

图5为本申请一实施例提供的知识库构建流程示意图；

图6为本申请一实施例提供的结合RPA与AI的数据的处理装置的结构示意图；

图7为本申请一实施例提供的结合RPA与AI的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的结合RPA与AI的数据的处理方法，适用于知识库的自动化构建及基于构建的知识库为用户提供服务的应用场景。如图1所示，为本申请实施例基于的处理系统的架构示意图。该处理系统可以包括电子设备及用户终端。其中电子设备可以是机器人，也可以是服务器、台式电脑等设备。用户终端可以是用户的移动终端，比如手机、平板电脑等等。用户可以通过用户终端输入对话数据，比如用户要问的问题，用户终端将用户的对话数据发送给电子设备，电子设备则可以接收到用户的对话数据。电子设备可以预先获取大量语料数据，根据语料数据确定知识点，来构建知识库，在接收到用户的对话数据时，可以根据构建的知识库向用户输出与用户对话数据匹配的问题所对应的答案数据。具体来说，可以对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，每个知识点包括至少一个问题，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库。在接收到用户的对话数据时，先通过NLP技术先对对话数据进行语音识别确定用户输入的语音信息，然后通过词法分析、句法分析和语义分析等自然语言理解的流程，识别用户的对话数据的语义以确定用户提出的具体问题，进而，可以将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例通过根据语料数据自动构建知识库，为用户提供服务，有效提高了知识库的构建效率。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本申请一实施例提供一种结合RPA与AI的数据的处理方法，用于知识库的构建及为用户提供服务。本实施例的执行主体为结合RPA与AI的数据的处理装置，该装置可以设置在电子设备中，该电子设备可以是机器人、服务器等设备，本申请实施例中以机器人为例。

如图2所示，为本实施例提供的结合RPA与AI的数据的处理方法的流程示意图，该方法包括：

步骤101，获取语料数据。

具体的，为了构建知识库，可以预先获取大量语料数据，语料数据中可以包括历史用户话语、对每句历史用户话语进行答复的历史答案数据、每句话语(包括历史用户话语和历史答复话语)产生的时间、用户标识(比如用户名称、用户ID)、机器人标识(比如机器人ID、机器人名称)等等。

可选地，对于语料数据的获取，可以是预先获取原始数据，原始数据可以是从使用机器人为用户提供服务的企业获得的，是在为用户提供服务的过程中实际产生的历史对话数据，作为其中一种可能的实现方式，可以预先通过RPA系统自动记录并存储服务过程中产生的历史对话数据，以获取原始数据。需要说明的是，原始数据中可能包括很多无效数据，比如包括了人工客服答复用户的话语，因此，可以对原始数据进行清洗，清洗掉原始数据中的无效数据后获得上述的语料数据。

可选地，由于不同企业不同场景下为用户提供服务时产生的原始数据格式可能不同，因此，还可以对不同来源的原始数据进行格式转换，转换成统一格式的数据，再对统一格式的数据进行清洗，来获得上述的语料数据。

步骤102，对语料数据进行提问抽取，获得提问数据。

具体的，在获取到语料数据后，则可以对语料数据进行提问抽取，获得提问数据，提问数据包括历史用户话语中提出的问题。具体来说，可以预先设置提问术语关键词，根据提问术语关键词及预设查询规则，从语料数据中查询并提取符合预设查询规则的话语。预设查询规则可以是正则表达式。将查询到的符合预设查询规则的话语作为提问数据。

步骤103，基于提问数据进行聚类，确定知识点，知识点包括至少一个问题。

具体的，在获得提问数据后，则可以基于提问数据进行聚类，确定知识点，即将提问数据中的话语进行归类，每一类对应一个知识点，也即每个知识点可以包括至少一个问题。

示例性的，对于语料数据中的用户话语“怎么看不到了”、“现在怎么看不到了”、“我怎么看不到呢”这三个问题，可以归类为一个知识点，该知识点则包括了3个问题。

可以为每个知识点设置知识点标识，用于唯一识别各知识点。

可选地，对于聚类的方式，可以采用现有技术中任意可实施的聚类算法进行聚类，比如simhash算法、k-means(k均值)算法、GSDMM(a collapsed Gibbs Sampling algorithmfor the Dirichlet Multinomial Mixture model，基于狄利克雷多项式混合模型的收缩型吉布斯采样算法)等，具体可以根据实际需求设置。

可选地，对于每个知识点所包括的问题，可以设置该知识点的一个标准问题及多个相似问题，即每个知识点包括一个标准问题和多个相似问题。比如上述的三个问题，可以将“怎么看不到了”设置为该知识点的标准问题，其他问题作为该知识点中的相似问题。

对于每个知识点中的标准问题和相似问题，可以设置对应的问题类型标识，用于识别各问题是属于标准问题还是属于相似问题。还可以为每个问题设置问题标识，用于识别各问题。具体可以根据实际需求设置。

步骤104，获取知识点的答案数据。

在确定了知识点后，则可以获取各知识点中问题的答案数据，获取答案数据的方式可以是人工输入，也可以是从语料数据中提取。

在获取到各知识点的答案数据后，各知识点包括的问题和该知识点对应的答案数据可以作为一个完整的知识点，即每个知识点包括一个标准问题、多个相似问题以及对应的答案数据，可以将这些知识点进行存储，完成知识库的构建。

可选地，可以随着时间的推移，实时或定时地获取新的语料数据，按照上述方式扩展新的知识点，来不断扩充知识库，具体不再赘述。

步骤105，接收到用户的对话数据时，基于NLP技术输出与对话数据匹配的问题所对应的答案数据。

具体的，在知识库构建后，即确定了完整的知识点(包括至少一个问题和答案数据)，可以基于构建的知识库为用户提供服务，在接收到用户的对话数据时，可以输出与该对话数据匹配的问题所对应的答案数据。具体来说，在接收到用户的对话数据时，先通过NLP技术先对对话数据进行语音识别确定用户输入的语音信息，然后通过词法分析、句法分析和语义分析等自然语言理解的流程，识别用户的对话数据的语义以确定用户提出的具体问题，进而可以将用户的对话数据与知识库中各知识点中的问题进行匹配，根据匹配程度(或者称为置信度)确定与对话数据匹配的问题(可以称为目标问题)，并获取与目标问题对应的答案数据，将目标问题对应的答案数据输出给用户。

可选地，输出的答案数据可以包括一个答案或者多个答案，具体可以根据实际需求设置。比如，可以获取与对话数据匹配程度最高的两个知识点对应的答案数据输出。

本实施例提供的数据的处理方法，通过获取语料数据，对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库，在接收到用户的对话数据时，可以将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例根据语料数据自动构建知识库，通过NLP技术识别用户对话数据，进而根据用户的问题为用户提供服务，有效提高了知识库的构建效率和为用户提供服务的准确度。

本申请另一实施例对上述实施例提供的方法做进一步补充说明。

如图3所示，为本实施例提供的结合RPA与AI的数据的处理方法的流程示意图

作为一种可实施的方式，在上述实施例的基础上，可选地，步骤101具体包括：

步骤1011，获取原始数据。

步骤1012，基于预设清洗规则对原始数据进行清洗，获得语料数据。

具体的，原始数据可以是从使用机器人为用户提供服务的企业获得的，是在为用户提供服务的过程中实际产生的历史对话数据，原始数据中可能包括很多无效数据，比如包括了人工客服答复用户的话语，因此，可以对原始数据进行清洗，清洗掉原始数据中的无效数据后获得上述的语料数据。具体来说，可以预先设置清洗规则，基于预设清洗规则对原始数据进行清洗，来获得语料数据。

示例性的，若用户首轮为问候话语，比如“你好”、“您好”、“在不在”、“在吗”等，是无效数据，则可以设置预设问候关键词，基于预设问题关键词，清洗掉原始数据中的用户的这些问候话语。

预设清洗规则还可以包括其他一些规则，具体可以根据实际需求设置。

可选地，基于预设清洗规则对原始数据进行清洗，获得语料数据，包括以下方式中的至少一种：

a、基于预设问候关键词，清洗掉用户的问候话语；

b、对于用户的每句话语，根据话语的字数确定话语所属的处理类型，并清洗掉删除类型的话语，处理类型包括删除类型、匹配类型及聚类类型；

c、基于预设代码判断规则，清洗掉代码类话语；

d、基于预设客服会话判断规则，清洗掉客服会话话语；

e、基于预设领域关键词，清洗掉预设领域相关会话的话语。

具体的，可以根据实际需求设置各种预设清洗规则，对原始数据进行清洗，具体可以根据上述a-e这5种清洗方式中的至少一种方式对原始数据进行清洗。

示例性的，可以采用其中任一种方式清洗，也可以采用其中任意两种、任意三种或任意四种方式进行清洗，还可以采用五种方式进行清洗。具体可以根据实际需求设置。

具体来说，预设问候关键词可以是“你好”、“您好”、“在不在”、“在吗”等，基于预设问候关键词，可以清洗掉用户的问候话语，比如，可以遍历原始数据中的用户首轮话语，若用户首轮话语为问候话语，则该话语需要清洗掉。

对于用户的每句话语，字数不同需要分开考虑，可以根据话语的字数来确定话语所属的处理类型，比如，一句话语若只有一个字，则需要删除，可以确定该话语所属的处理类型为删除类型；若一句话语有2个字，则可以作为匹配数据(即作为匹配对话机器人的匹配关键词，匹配对话机器人将关键词设为触发词，当用户输入的消息与关键词完全一致时，输出预设的答复数据)，可以确定该话语所属的处理类型为匹配类型；若一句话语有3个字及以上，则可以作为提问数据进入聚类环境，可以确定该话语所属的处理类型为聚类类型。在清洗时，需要清洗掉属于删除类型的话语。对于匹配类型和聚类类型的话语则可以进行标记并保留，用于后续的处理。

原始数据中还可能包括代码类话语，因此可以设置预设代码判断规则，基于预设代码判断规则，清洗掉代码类话语。具体来说，代码类话语通常有固定的关键字及开始和结束标志，可以基于此设置预设代码判断规则，判断出哪些话语属于代码类话语，并进行清洗。

示例性的，如下话语可以清除：

{"operator_hint":0,"operator_hint_desc":"","answer_type":2,"cmd":60,"

answer_label":"您是想问？

","answer_flag":0,"answer_list":"[{\"groupId\":866504,\"question\":\"精英贷额度\",\"answer_flag\":0},{\"groupId\":866524,\"question\":\"分期乐不显示额度\",\"answer_flag\":0},{\"groupId\":866490,\"question\":\"51公积金申请额度\",\"answer_flag\":0}]","answer_cnt":3}

原始数据中还可能包括人工客服答复用户产生的客服会话话语，如果不需要客服回答部分的分析和聚类，可以设置预设客服会话判断规则，来判断出哪些话语属于客服会话话语，并清洗掉这些客服会话话语。具体来说，在对话产生并记录时，会记录各方会话的标识信息，可以根据标识信息来判断是用户、机器人还是客服。而且客服答复内容往往比较一致，可能会有固定的话术模板和营销话术，在客服答复内容中多次出现，还可以基于此来判断客服会话，具体可以根据实际需求设置。比如“请问有什么可以帮您”为客服会话话语，可以清洗掉。

对于一些专业性的领域，可能存在一些专业上的知识库构建过程中不需要的专业领域话语，比如用户询问XX股票能不能买入，这种带指向性的问题可以全部设置成一个分类处理，可以将所有含基金或股票代码、全称、简称的话语提取出来，单独处理。并将这些话语从原始数据中清洗掉。具体可以根据实际需求设置。

可选地，对于清洗方式，还可以包括其他一些方式，具体可以根据实际需求设置，比如还可以判断用户话语中重复的话语，将多次重复的话语删除仅保留一句即可。

可选地，在清洗掉用户的重复话语前，还可以根据重复情况，提取出用户的高频问题，并进行记录。

如图4所示，为本实施例提供的清洗流程示意图。

可选地，基于预设清洗规则对原始数据进行清洗，获得语料数据，包括：

步骤2011，基于预设代码判断规则，清洗掉原始数据中的代码类话语，获得第一数据。

步骤2012，基于预设客服会话判断规则，清洗掉第一数据中的客服会话话语，获得第二数据。

步骤2013，基于预设问候关键词，清洗掉第二数据中用户的问候话语，获得第三数据。

步骤2014，基于预设领域关键词，清洗掉第三数据中的领域相关会话的话语，获得第四数据。

步骤2015，对于第四数据中用户的每句话语，根据话语的字数确定话语所属的处理类型，并清洗掉删除类型的话语，获得语料数据，处理类型包括删除类型、匹配类型及聚类类型。

具体来说，还可以按照上述步骤2011-2015顺序执行进行清洗，提高获得的语料数据的准确性。各步骤的具体操作已在前面进行了详细说明，在此不再赘述。

作为另一种可实施的方式，在上述实施例的基础上，可选地，基于提问数据进行聚类，确定知识点，具体可以包括：

步骤2021，基于提问数据，采用预设聚类算法，按问题进行聚类，确定第一知识点。

具体的，在获得提问数据后，则可以基于提问数据，采用预设聚类算法，按照问题进行聚类，来确定第一知识点。

示例性的，如表1所示，为按问题进行聚类获得的第一知识点的示例：

表1

步骤2031，基于提问数据，按关键词进行聚类，确定第二知识点。

具体的，按关键词进行聚类，这里的关键词可以包括预设的专业词语、专业词语的同义词等等。比如专业词语“中国农业银行”，其同义词可以有“农行”、“农业银行”、“农行卡”等。

可选地，用于聚类的关键词还可以包括基于获取的语料数据，挖掘出的新词以及新词的同义词。

示例性的，如表2所示，为按关键词聚类获得的第二知识点的示例：

表2

作为另一种可实施的方式，在上述实施例的基础上，可选地，基于提问数据进行聚类，确定知识点，具体可以包括上述步骤2021和步骤2031。

作为另一种可实施的方式，在上述实施例的基础上，可选地，在获取语料数据后，该方法还可以包括：

步骤2041，基于语料数据，采用无监督学习算法，确定语料数据中包括的新词。

具体的，新词是指对于机器人来说比较陌生、没有办法很好的明白如何处理的词，主要的新词是指日常对话中可能不会涉及到的词汇，比如中国农业银行、北京大学、莱姆病等。

对于具体的业务来说，新词可以是某一产品线的名称、营销活动名称、业务系统名称等。

具体来说，可以基于预设统计算法(比如无监督学习算法)，基于已有的大量语料数据，来确定出现的新词。可以计算预设统计指标，比如凝固度、自由度，进行过滤，提高筛选出的新词的准确性。

步骤2042，根据新词，获取新词的同义词，将新词及其同义词作为用于聚类的关键词。

具体的，在确定新词后，还可以获取这些新词的同义词，将这些新词及这些新词的同义词添加到用于聚类的关键词中，作为聚类的关键词，以扩充用于聚类的关键词。

示例性的，在具体业务场景中，“中国农业银行”也常被称作“农行”、“农业银行”，因此，“农行”、“农业银行”作为“中国农业银行”的同义词。

可选地，可以采用分词工具来确定新词的同义词。

示例性的，如表3所示，为同义词结果文件格式：

表3

词汇	可能的同义词
		词汇1	同义词1\|同义词2\|同义词3\|同义词4
天弘	天鸿\|天宏\|天虹

可选地，对于确定出的同义词，可以由相关业务人员进行审核确认，对于不正确的词汇可以进行删除或纠正。

可选地，在基于提问数据进行聚类确定知识点后，可能有些知识点获取不到答案数据，对于这种情况，可以预先设置默认答案，作为该知识点的答案数据。比如默认答案可以设置为该知识点的标准问题，或者可以设置为其他答案，具体可以根据实际需求设置。

作为另一种可实施的方式，在上述实施例的基础上，可选地，该方法还可以包括：

步骤2051，对确定的知识点进行验证，获得验证结果。

步骤2052，根据验证结果，对知识点进行相应的处理。

具体的，在确定了完整的知识点(即构建知识库)后，还可以对这些知识点进行验证，也即对知识库进行验证，根据验证结果对知识点进行相应的处理。具体来说，可以采用留一法(LOO，Leave-One-Out)对知识点进行验证，验证知识点中的相似问题是否放错了知识点。基于验证结果，对放错了知识点的相似问题进行纠正，以及对于结构缺失的知识点进行补充等。比如，可以基于某相似问题的召回准确率来确定相似问题是否放错了知识点，可以基于某相似问题的召回率来确定知识点是否结构缺失等。知识点结构缺失是指该知识点中相似问题数量偏少。

本申请实施例中，采用留一法是指，遍历知识库中的相似问题，即每次从知识库中抽取一个相似问题作为测试问题，并将该测试问题从知识库中删除，将知识库中剩余的相似问题作为训练数据，通过基于测试问题对训练数据进行召回，确定测试问题的召回率和准确率。

当对知识点的验证结果达到预期要求，则可以将这些知识点构建成的知识库上线，用于为用户提供服务。

作为另一种可实施的方式，在上述实施例的基础上，可选地，在接收到用户的对话数据后，该方法还可以包括：

步骤2061，若根据对话数据及预设转换规则确定需要转人工服务，则进行相应的人工转换处理。

具体的，为了提高用户体验，还可以人机协作来为用户提供服务。比如对于一些不能让机器人答复的用户问题，或者不想让机器人答复的用户问题，可以转换到人工服务。可以根据实际需求设置预设转换规则，在接收到用户的对话数据后，可以根据对话数据及预设转换规则，来判断是否需要转人工服务，若需要则进行人工转换处理。

预设转换规则可以是但不限于是以下规则中的至少一项：

1、定时转人工。即每天固定时间段进行机器人-人工的转换。

2、固定知识点转人工。即如果用户问题匹配到的知识点属于预先设置的需要转人工的固定知识点，则进行机器人-人工的转换。

3、兜底转人工。即若对于用户问题，匹配不到置信度高于预设阈值(比如0.6)的问题，则进行机器人-人工的转换。

本申请实施例中，对于置信度，可以根据词向量之间的距离来确定，为现有技术，在此不再赘述。

可选地，还可以设置相似知识点功能，比如在给出置信度最高(TOP1)的知识点答案后，还可以给出置信度次高(TOP2)的知识点标题，可以以链接的形式提供给用户，用户可以点击链接查看相应的知识点对应的答案数据，以提高答案数据能够正确的命中率。

作为一种示例性的实施方式，如图5所示，为本实施例提供的知识库构建流程示意图。该流程具体包括：

1、获取原始数据。

2、数据清洗。

3、提问抽取。

4、新词发现及同义词推荐。

5、新词审核及同义词审核。

6、提问数据聚类。

7、数据标注知识点审核。

8、算法和知识库优化。算法即是指配合知识库的算法。

9、留一法测评。

10、召回率和准确率是否达到要求，若是，算法和知识库上线，若否返回步骤7。

上述步骤1-10的具体操作在前述内容中已分别进行了详细说明，在此不再赘述。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

本实施例提供的结合RPA与AI的数据的处理方法，通过获取语料数据，对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库，在接收到用户的对话数据时，可以基于NLP技术将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例通过根据语料数据自动构建知识库，为用户提供服务，有效提高了知识库的构建效率。还通过对原始数据的清洗获得语料数据，提高语料数据的有效性，进一步提高知识库构建的效率。还可以通过语料数据挖掘新词并扩展新词的同义词，进一步扩充用于聚类的关键词，提高知识库的丰富性，从而提高为用户提供服务的准确性。还可以对构建的知识库进行验证，基于验证结果进行纠正或补充，进一步提高知识库中知识点的准确性。还可以根据实际需求设置人机协作功能，进一步提高用户体验。

本申请再一实施例提供一种结合RPA与AI的数据的处理装置，用于执行上述实施例提供的方法。

如图6所示，为本实施例提供的数据的处理装置的结构示意图。该数据的处理装置30包括第一获取模块31、提取模块32、聚类模块33、第二获取模块34和处理模块35。

其中，第一获取模块，用于获取语料数据；提取模块，用于对语料数据进行提问抽取，获得提问数据；聚类模块，用于基于提问数据进行聚类，确定知识点，知识点包括至少一个问题；第二获取模块，用于获取知识点的答案数据；处理模块，用于接收到用户的对话数据时，基于NLP技术输出与对话数据匹配的问题对应的答案数据。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本实施例提供的结合RPA与AI的数据的处理装置，通过获取语料数据，对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库，在接收到用户的对话数据时，可以基于NLP技术将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例通过根据语料数据自动构建知识库，为用户提供服务，有效提高了知识库的构建效率。

本申请又一实施例对上述实施例提供的装置做进一步补充说明。

作为一种可实施的方式，在上述实施例的基础上，可选地，第一获取模块，具体用于：

获取原始数据；基于预设清洗规则对原始数据进行清洗，获得语料数据。

可选地，第一获取模块，具体用于执行以下步骤中的至少一个：

基于预设问候关键词，清洗掉用户的问候话语；

对于用户的每句话语，根据话语的字数确定话语所属的处理类型，并清洗掉删除类型的话语，处理类型包括删除类型、匹配类型及聚类类型；

基于预设代码判断规则，清洗掉代码类话语；

基于预设客服会话判断规则，清洗掉客服会话话语；

基于预设领域关键词，清洗掉预设领域相关会话的话语。

可选地，第一获取模块，具体用于：

基于预设代码判断规则，清洗掉原始数据中的代码类话语，获得第一数据；

基于预设客服会话判断规则，清洗掉第一数据中的客服会话话语，获得第二数据；

基于预设问候关键词，清洗掉第二数据中用户的问候话语，获得第三数据；

基于预设领域关键词，清洗掉第三数据中的领域相关会话的话语，获得第四数据；

对于第四数据中用户的每句话语，根据话语的字数确定话语所属的处理类型，并清洗掉删除类型的话语，获得语料数据，处理类型包括删除类型、匹配类型及聚类类型。

作为另一种可实施的方式，在上述实施例的基础上，可选地，聚类模块，具体用于：

基于提问数据，采用预设聚类算法，按问题进行聚类，确定第一知识点；和/或，

基于提问数据，按关键词进行聚类，确定第二知识点。

作为另一种可实施的方式，在上述实施例的基础上，可选地，提取模块，还用于：

基于语料数据，采用无监督学习算法，确定语料数据中包括的新词；根据新词，获取新词的同义词，将新词及其同义词作为用于聚类的关键词。

作为另一种可实施的方式，在上述实施例的基础上，可选地，处理模块，还用于：

对确定的知识点进行验证，获得验证结果；根据验证结果，对知识点进行相应的处理。

根据本实施例的结合RPA与AI的数据的处理装置，通过获取语料数据，对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库，在接收到用户的对话数据时，可以基于NLP技术，将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例通过根据语料数据自动构建知识库，为用户提供服务，有效提高了知识库的构建效率。还通过对原始数据的清洗获得语料数据，提高语料数据的有效性，进一步提高知识库构建的效率。还可以通过语料数据挖掘新词并扩展新词的同义词，进一步扩充用于聚类的关键词，提高知识库的丰富性，从而提高为用户提供服务的准确性。还可以对构建的知识库进行验证，基于验证结果进行纠正或补充，进一步提高知识库中知识点的准确性。还可以根据实际需求设置人机协作功能，进一步提高用户体验。

本申请再一实施例提供一种结合RPA与AI的电子设备，用于执行上述实施例提供的方法。

如图7所示，为本实施例提供的结合RPA与AI的电子设备的结构示意图。该电子设备50包括：至少一个处理器51和存储器52；

存储器存储计算机执行指令；至少一个处理器执行存储器存储的计算机执行指令，使得至少一个处理器执行如上任一实施例提供的结合RPA与AI的数据的处理方法。

根据本实施例的结合RPA与AI的电子设备，通过获取语料数据，对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库，在接收到用户的对话数据时，可以基于NLP技术，将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例通过根据语料数据自动构建知识库，为用户提供服务，有效提高了知识库的构建效率。还通过对原始数据的清洗获得语料数据，提高语料数据的有效性，进一步提高知识库构建的效率。还可以通过语料数据挖掘新词并扩展新词的同义词，进一步扩充用于聚类的关键词，提高知识库的丰富性，从而提高为用户提供服务的准确性。还可以对构建的知识库进行验证，基于验证结果进行纠正或补充，进一步提高知识库中知识点的准确性。还可以根据实际需求设置人机协作功能，进一步提高用户体验。

本申请又一实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上任一实施例提供的结合RPA与AI的数据的处理方法。

根据本实施例的计算机可读存储介质，通过获取语料数据，对语料数据进行提问抽取，来获得提问数据，基于提问数据进行聚类，来确定知识点，并可以获取各知识点的答案数据，每个知识点所包括的问题及对应的答案数据构成了一个完整的知识点，大量的知识点构建成知识库，在接收到用户的对话数据时，可以基于NLP技术将用户的对话数据与各知识点中的问题进行匹配，获取与用户对话数据匹配的问题，并获取该问题对应的答案数据，将该答案数据输出给用户，完成了一次服务。本申请实施例通过根据语料数据自动构建知识库，为用户提供服务，有效提高了知识库的构建效率。还通过对原始数据的清洗获得语料数据，提高语料数据的有效性，进一步提高知识库构建的效率。还可以通过语料数据挖掘新词并扩展新词的同义词，进一步扩充用于聚类的关键词，提高知识库的丰富性，从而提高为用户提供服务的准确性。还可以对构建的知识库进行验证，基于验证结果进行纠正或补充，进一步提高知识库中知识点的准确性。还可以根据实际需求设置人机协作功能，进一步提高用户体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种结合RPA与AI的数据的处理方法，其特征在于，包括：

S1、获取语料数据；

S2、对所述语料数据进行提问抽取，获得提问数据；

S3、基于所述提问数据进行聚类，确定知识点，所述知识点包括至少一个问题；

S4、获取所述知识点的答案数据；

S5、接收到用户的对话数据时，基于自然语言处理(Natural Language Processing，简称NLP)技术输出与所述对话数据匹配的问题所对应的答案数据。

2.根据权利要求1所述的方法，其特征在于，所述获取语料数据，包括：

S11、获取原始数据；

S12、基于预设清洗规则对所述原始数据进行清洗，获得所述语料数据。

3.根据权利要求2所述的方法，其特征在于，所述基于预设清洗规则对所述原始数据进行清洗，获得所述语料数据，包括以下方式中的至少一种：

S121、基于预设问候关键词，清洗掉用户的问候话语；

S122、对于用户的每句话语，根据所述话语的字数确定所述话语所属的处理类型，并清洗掉删除类型的话语，所述处理类型包括删除类型、匹配类型及聚类类型；

S123、基于预设代码判断规则，清洗掉代码类话语；

S124、基于预设客服会话判断规则，清洗掉客服会话话语；

S125、基于预设领域关键词，清洗掉预设领域相关会话的话语。

4.根据权利要求2所述的方法，其特征在于，所述基于预设清洗规则对所述原始数据进行清洗，获得所述语料数据，包括：

S126、基于预设代码判断规则，清洗掉所述原始数据中的代码类话语，获得第一数据；

S127、基于预设客服会话判断规则，清洗掉所述第一数据中的客服会话话语，获得第二数据；

S128、基于预设问候关键词，清洗掉所述第二数据中用户的问候话语，获得第三数据；

S129、基于预设领域关键词，清洗掉所述第三数据中的领域相关会话的话语，获得第四数据；

S130、对于所述第四数据中用户的每句话语，根据所述话语的字数确定所述话语所属的处理类型，并清洗掉删除类型的话语，获得所述语料数据，所述处理类型包括删除类型、匹配类型及聚类类型。

5.根据权利要求1所述的方法，其特征在于，所述基于所述提问数据进行聚类，确定知识点，包括：

S31、基于所述提问数据，采用预设聚类算法，按问题进行聚类，确定第一知识点；和/或，

S32、基于所述提问数据，按关键词进行聚类，确定第二知识点。

6.根据权利要求1或5所述的方法，其特征在于，在获取语料数据后，所述方法还包括：

S6、基于所述语料数据，采用无监督学习算法，确定所述语料数据中包括的新词；

S7、根据所述新词，获取所述新词的同义词，将所述新词及其同义词作为用于聚类的关键词。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

S8、对确定的所述知识点进行验证，获得验证结果；

S9、根据所述验证结果，对所述知识点进行相应的处理。

8.一种结合RPA与AI的数据的处理装置，其特征在于，包括：

第一获取模块，用于获取语料数据；

第二获取模块，用于获取所述知识点的答案数据；

9.一种结合RPA与AI的电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-7任一项所述的结合RPA与AI的数据的处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-7任一项所述的结合RPA与AI的数据的处理方法。