CN108491388B

CN108491388B - 数据集获取方法、分类方法、装置、设备及存储介质

Info

Publication number: CN108491388B
Application number: CN201810241227.3A
Authority: CN
Inventors: 张雨嘉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2021-02-23
Anticipated expiration: 2038-03-22
Also published as: WO2019179010A1; CN108491388A

Abstract

本发明实施例提供一种数据集获取方法、一种利用数据集分类的方法、装置、计算机设备及存储介质。其中，所述一种数据集获取方法包括：获取消息级别的对话文本数据并进行预处理；根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记以得到质检结果；将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据；根据用户对所述会话文本数据中质检点的修改请求来更新质检结果；按照预设格式从更新后的数据中提取出数据集。本发明实施例可提取出准确的数据集，利用提取出准确的数据集进行分类，可提高分类模型分类的准确率。

Description

数据集获取方法、分类方法、装置、设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据集获取方法、利用数据集分类的方法、装置、计算机设备及存储介质。

背景技术

在坐席销售的过程中，可能会与客户产生大量的对话文本，这些对话文本会保存在坐席销售的平台中。目前采用的方法是先随机抽取一定条数的文本内容，再通过人工的方法进行分析，如找出对话文本中不合规的地方(也称为违规的地方，即存在错误的地方)，以改进不合规的地方或者来对坐席进行培训等。利用随机抽取再人工分析的方法显然效率不高，一方面，若对话文本中的数据非常大，为了能尽量多的检测到对话文本中不合规的地方，那么抽取的文本内容也会增多，人工质检的内容也会增加，而人工质检效率非常低；另一方面，由于机器是随机抽取一部分的文本内容，这样会遗漏大量的文本内容，而大量的文本内容中可能包括很多不合规的地方。若想用人工智能的算法或者模型来对文本内容进行处理，提高处理的效率，那么需要大量准确的数据作为支撑，如利用大量的数据训练模型，从而得到一个泛化能力较强的人工智能学习模型。因此若想用人工智能的算法或者模型来对文本内容进行处理，大量准确的数据是关键。

发明内容

本发明实施例提供一种数据集获取方法、一种利用数据集分类的方法、装置、计算机设备及存储介质，可提取出准确率较高的数据集，能提高数据分类的准确率。

第一方面，本发明实施例提供了一种数据集获取方法，该方法包括：

获取消息级别的对话文本数据；对消息级别的对话文本数据进行预处理；根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记以得到质检结果；将标记后的包括质检点的对话文本数据加工整理成包括质检点的会话级别的会话文本数据；根据用户对所述会话文本数据中质检点的修改请求来更新质检结果；按照预设格式从更新后的数据中提取出数据集。

本发明实施例还提供了一种利用数据集分类的方法，该方法包括：

利用上述第一方面所述的数据集获取方法提取出的数据集训练分类模型，并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果；根据用户对所述对话文本数据中质检点的修改请求来更新质检结果；根据更新后的数据更新分类模型；利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果。

第二方面，本发明实施例提供了一种数据集获取装置，该装置包括用于执行上述第一方面所述一种数据集获取方法的单元。

本发明实施例还提供了一种利用数据集分类的装置，该装置包括用于执行上述第一方面所述一种利用数据集分类的方法的单元。

第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括存储器，以及与所述存储器相连的处理器；所述存储器用于存储计算机程序，所述处理器用于运行所述存储器中存储的计算机程序，以执行上述第一方面所述的数据集获取方法或者执行上述第一方面所述的利用数据集分类的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现上述第一方面所述的数据集获取的方法或者上述第一方面所述的利用数据集分类的方法。

本发明实施例通过利用全文搜索引擎标记出质检结果，结合用户对全文搜索引擎标记出的质检结果的更新，得到较为准确的数据源，再按照预设格式从数据源中提取出数据集，如此，提取出较为准确的数据集。通过利用数据集对分类模型进行训练，再利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类以得到质检结果，结合用户对分类模型分类出的质检结果的更新，得到较为准确的质检结果，再利用更新后的数据更新分类模型，并利用更新后的分类模型进行质检点分类，如此可提高分类模型分类的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据集获取方法的流程示意图；

图2是本发明实施例提供的一种数据集获取方法的子流程示意图；

图3是本发明实施例提供的一种数据集获取方法的另一子流程示意图；

图4是本发明实施例提供的一种利用数据集分类的方法的流程示意图；

图5是本发明实施例提供的一种数据集获取装置的示意性框图；

图6是本发明施例提供的标记单元的示意性框图；

图7是本发明实施例提供的提取单元的示意性框图；

图8是本发明实施例提供的一种利用数据集分类的装置的示意性框图；

图9本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。也应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。也应当理解，尽管术语第一、第二等可以在此用来描述各种元素，但这些元素不应该受限于这些术语。这些术语仅用来将这些元素彼此区分开。例如，在不脱离本发明范围的前提下，第一获取单元可以被称为第二获取单元，并且类似地，第二获取单元可以被称为第一获取单元。第一获取单元和第二获取单元均为获取单元，但它们并非同一获取单元。

图1为本发明实施例提供的一种数据集获取方法的流程示意图。该方法包括以下步骤S101-S106。

S101，获取消息级别的对话文本数据。

其中，消息级别的对话文本数据从坐席销售的平台中得到，该对话文本数据中保存的是坐席与客户之间的对话文本。该对话文本数据属于消息级别，可以理解为对话文本数据是以坐席与客户之间发送的消息为单位保存的数据，该对话文本数据由众多的消息文本数据组成，每一条消息文本数据包括消息编号、发送人、接收人、具体消息内容、发送消息的时间等。

S102，对消息级别的对话文本数据进行预处理。

其中，预处理的方法包括替换，过滤等。替换包括将对话文本数据中对应消息文本数据中的英文替换为中文等；过滤包括将对话文本数据中对应消息文本数据中的数字、标点符号、表情、乱码过滤掉。将对话文本数据中的消息文本数据进行预处理，以保留消息文本数据中的具体消息内容中的纯文本消息，方便后续的处理。

S103，根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与对应的规则匹配的质检点并进行标记，以得到质检结果。

其中，质检点可以理解为不合规或者违规的地方，也就是存在错误的地方。每个质检点有质检点标识，如A47，表示A类中第47个质检点，质检点对应的规则包括关键词和逻辑运算。质检点和质检点对应的规则，举例如：A47，基金and分红。其中，关键词包括：基金、分红，逻辑运算包括and。A47质检点表示，若一条消息中同时出现了基金和分红，那么认为该条消息违规了。可以理解为，基金这个产品不涉及分红，也可以理解为，当说到基金这个产品时不会想到会说分红，若一条消息中同时出现基金和分红，那么这条消息违规，也就是出现错误。全文搜索引擎，指的是ElasticSearch(简写为ES)搜索引擎。ES使用关键词，并利用ES的API接口中提供的must，should，must not等组合分装实现质检点对应的规则，并根据对应的规则(查询条件)从预处理后的对话文本数据中进行查询搜索，找出匹配的质检点并标记，以得到ES质检点结果，将ES质检点结果作为质检结果。其中，标记用质检点标识来标记，ES质检点结果表示用ES查询匹配得到的质检点结果。

在一实施例中，如图2所示，所述步骤S103包括以下步骤S201-S203。

S201，将预处理后的对话文本数据进行分词。通过全文搜索引擎中的分词将预处理后的对话文本数据中每个消息文本数据中的具体消息内容分成多个单词，如消息“我来到北京清华大学”，分词的结果为“我来到北京清华大学”。

S202，对分词后的数据建立倒排索引。具体地，统计分成的词在对对话文本数据中出现的次数和位置；根据出现的次数和位置对分成的词进行倒排索引。如统计词“分红”在对话文本数据中出现的次数和位置，其中，在对话文本数据中的位置包括在哪个对话文本数据表、哪个消息文本数据(可以用消息编号来表示)等。其中，倒排索引是实现“单词-文档矩阵”的一种存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的“文档列表”。如在对话文本数据中，通过该倒排索引可以根据分成的词快速获取包含这个词的消息文本数据，即哪些消息文本数据中出现了该词。

S203，根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从预处理后的对话文本数据中查询出与对应的规则匹配的质检点并进行标记。根据质检点对应的规则查询搜索到匹配的质检点后，进行质检点标记。如对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记。建立倒排索引后，可以加快查询匹配的速度。在数据量很大的情况下，仍能快速的完成质检点的查询匹配和标记。

S104，将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据。

由于消息级别的对话文本数据是以消息为单位保存的数据，所以会存在散乱无序、无上下文关系、无人员关系等，不便于用户查看，因此需要将对话文本数据整合成会话级别的会话文本数据。其中，会话级别的会话文本数据理解为以坐席与客户之间的一个对话(会话)为单位保存的数据，即会话文本数据中保存的是坐席与客户之间的多个对话数据，如每个对话数据中可以包括对话编号、对话内容。每个对话内容中对应有多条消息文本数据。

将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据，具体整合流程包括：从标记后的包括质检点的对话文本数据中查找每条消息文本数据中的发送人和接收人，将发送人和接收人作为一个集合；按照集合对对话文本数据中的消息文本数据进行分组；将每组的数据按照按照发送消息的时间进行排序并按照预定格式显示，以形成包括质检点的会话级别的会话文本数据。如此就分成了多组的数据，这意味分成一组的发送人和接收人是同一个对话中的两个人，不同对话分成了不同的组；将每组的数据按照预定格式显示，其中，每组的数据即为对话内容。如预定格式可以为：发送人；接收人；对话内容；ES质检点结果。其中，对话内容中的多个消息文本数据可以按照格式：发送消息的时间[空格]具体消息内容进行显示。如2017-01-0112:01:02李老师，在吗？每个消息文本数据都对应有ES质检点结果。预定格式中还可以包括日期，即质检日期。可以简单理解为，包括质检点的会话级别的会话文本数据是将标记后的包括质检点的消息级别的对话文本数据中的消息文本数据按照时间的先后顺序和发送人接收人信息整理后的以对话为单位的多个对话数据。其中，标记后的包括质检点的消息级别的对话文本数据和包括质检点的会话级别的会话文本数据是以数据表的形式保存在数据库中，如Oracle数据库等。标记后的包括质检点的消息级别的对话文本数据和包括质检点的会话级别的会话文本数据根据数据量的多少，可以分别保存为多个数据表，也可以保存为一个数据表。

整合后的包括质检点的会话文本数据如表1所示。需要注意的是，表1中所示仅仅是一个示例。表1中可以包括多个会话文本数据，其中，每个会话文本数据中包括日期(指的是质检日期)、发送人、接收人、对话内容、ES质检点结果，其中，对话内容中包括多条消息文本数据，每条消息文本数据对应的有ES质检点结果。如消息文本数据对应的具体消息内容：在呢，又有什么好产品了吗？该条消息文本数据对应的具体消息内容的ES质检点结果为空，表示该条消息文本数据对应的具体消息内容的合格/合规。消息文本数据对应的具体消息内容：是呀，这款产品叫xxx，该产品利率为百分之5到百分之7，六个月后可以贷款年攒钱总额的10倍。该条消息文本数据对应的具体消息内容的ES质检点结果为A45，表示该条消息消息文本数据对应的具体消息内容违规了，具体对应的是A45质检点的内容。

表1 整合后的包括质检点的会话文本数据示例

S105，根据用户对所述会话文本数据中质检点的修改请求来更新质检结果。

具体地，获取用户的权限，如根据用户的账号和密码来获取用户的权限；判断当前用户的权限是否为预设权限，其中，有预设权限的用户可以更新质检结果；若为预设权限，根据预设权限的用户对所述会话文本数据中质检点的修改请求来更新质检结果。

在本发明实施例中，符合预设权限的用户可以查看到会话文本消息的具体内容、发送人、接收人、日期、ES质检点结果以及用户可以修改的选项。当用户打开含有会话文本消息的具体内容、发送人、接收人、日期、ES质检点结果以及用户可以修改的选项的页面，可以理解为接收到用户对会话文本数据质检点的修改请求。其中，用户可以修改的选项包括人工质检点结果、质检违规备注、是否合规，这几项在用户没有修改之前是空的，用户可以根据实际情况来编辑修改，以更新质检结果。其中，人工质检点结果用质检点标识表示，质检违规备注中有质检点(违规点)对应的具体文本内容以及该质检点的违规原因，该质检点的违规原因写在小括号中，放在质检点对应的具体文本内容之后。符合预设权限的用户也可以将当前的质检点改为合格/合规(不存在错误)。

需要注意的是，将人工质检点结果作为更新后的质检点结果，最终的质检点结果以更新后的质检点结果为准。其中，若人工质检点结果值与ES质检点结果值一致，那么仍然需要在人工质检点结果中填写与ES质检点结果一致的内容。若人工质检点结果为空，那么意味着该条消息的质检点结果为合格/合规。

表2符合预设权限的用户更新后的质检结果示例

符合预设权限的用户修改后的内容如表2所示。需要注意的是，表2中所示仅仅是一个示例。从表2中可以看出，每个会话文本数据表中多了人工点质检结果、质检违规备注、是否合规这几个选项。需要注意的是，这几个选项是符合预设权限的用户打开相应表后可以看得到的。其中，对于消息文本数据的具体消息内容：是呀，这款产品叫xxx，该产品利率为百分之5到百分之7，六个月后可以贷款年攒钱总额的10倍，这条具体消息内容的ES质检点结果为：A45，人工质检点结果为：A42，A45，表示该条消息文本数据对应的具体消息内容有两处违规，对应的质检违规备注为：是呀，这款产品叫xxx，这款产品利率为百分之5到百分之7(产品利率信息不对，是百分之4到百分之8)；六个月后可以贷款年攒钱总额的10倍(贷款额度没有限定)，分别对应A42，A45的质检违规备注。

需要注意的是，在修改某个质检点时，根据ES质检点结果和接收到的查看指令可以在预存的文件中查看与该质检点相关的质检内容和数据完全正确的文本内容消息。其中，查看指令可通过点击查看按钮产生。预存的文件中存储的是所有质检点的内容，以及与质检点相关的数据完全正确的文本内容消息。当接收到查看指令后，根据ES质检点结果从预存的文件中找出该质检点结果对应的质检点内容以及与该质检点相关的数据完全正确的文本内容消息。如此以提高人工质检的效率和准确率，同时方便进行质检违规备注。

S106，按照预设格式从更新后的数据中提取出数据集。其中，数据集是为了训练模型，因此数据集中至少需要有质检点结果，消息文本数据对应的具体消息内容。其中，预设格式包括：消息文本数据对应的具体消息内容、每条消息文本数据对应的具体消息内容的质检点结果、质检违规备注。每条消息文本数据对应的具体消息内容的质检点结果也即消息文本数据对应的具体消息内容更新后的质检点结果。

具体地，如图3所示，步骤S106包括以下步骤S301-S304。

S301，对于每条消息文本数据，判断消息文本数据对应的具体消息内容的质检点结果是否有多个或者质检点结果是否为空。

若质检点结果有多个，即两个及以上质检点，意味着该条消息文本数据对应的具体消息内容有两个及以上的违规点。那么需要将每个违规点都分隔开来，以方便后续对每个质检点的进一步分析，如利用提取出的数据集进行分类等。

S302，若所述质检点结果为多个，根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应，形成以单个质检点为质检点结果且符合预设格式的数据。

具体地，检测消息文本数据对应的质检违规备注中的小括号对；将第一个小括号对之前的内容作为一条消息文本数据的具体消息内容、将第一个小括号对中间的内容作为该条消息文本数据对应的质检违规备注、将人工质检点结果中的第一个质检点作为该条消息文本数据对应具体消息内容的质检点结果；将下一个小括号对与前一个小括号对之间的内容作为另一条消息文本数据的具体消息内容、将下一个小括号对中间的内容作为该另一条消息文本数据的质检违规备注，将人工质检点结果中下一个质检点作为该另一条消息文本数据对应的具体消息内容的质检点结果。如此，根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应，形成以单个质检点为质检点结果且符合预设格式的数据。

S303，若质检点结果为空，将消息文本数据对应的具体消息内容的质检点结果标记为合规标识。其中，合规可以用标识good表示，也可以使用其他的标识表示。

S304，提取消息文本数据对应的具体消息内容、消息文本数据对应具体消息内容的质检点结果以及质检违规备注作为数据集。提取的数据包括了将多个质检点分隔开来对应的数据，质检点结果为合规的数据，以及质检点结果为一个时对应的数据。

表3为提取出的数据集的显示实例。需要注意的是，表3仅仅是一个示例。从表3中可以看出，数据集中包括多条数据，每条数据中包括消息文本数据对应的具体消息内容、具体消息内容对应的质检点结果(质检标识)、质检违规备注。其中，如第一条数据，具体消息内容为：是呀，这款产品叫xxx，这款产品利率为百分之5到百分之7，该条消息内容对应的质检点标识为：A42，质检违规备注为：产品利率信息不对，是百分之4到百分之8。第二条数据，具体消息内容为：六个月后可以贷款年攒钱总额的10倍，该条消息内容对应的质检点标识为：A45，质检违规备注为：贷款额度没有限定。第三条数据，具体消息内容为：有一个好的产品，是否想看看，该条消息内容对应的质检点标识为：good，标识该条消息合规。

表3 提取出的数据集示例

图4是本发明实施例提供的一种利用数据集分类的方法的流程示意图。如图4所示，该方法包括S401-S410。其中，步骤S401-S406与图1所示实施例的步骤对应，在此不再赘述。下面仅描述步骤S407-S410。

S407，利用提取出的数据集训练分类模型，并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检点结果。其中，分类模型可以为任一个多分类模型，如长短时神经网络模型、随机森林分类模型等。其中，若分类模型为神经网络模型，那么训练分类模型的过程包括：获取数据集；利用分词工具对数据集中的文本信息进行分词；利用预设词向量模型对分词后的数据进行处理，得到对应的词向量；根据词向量和数据集中对应的质检点，训练神经网络模型。其中，分词工具可以为结巴分词，选用结巴分词的精确模式对数据集中的文本信息进行分词，通过分词将对数据集中的文本信息分成多个单词，如消息“我来到北京清华大学”，分词的结果为“我来到北京清华大学”。其中，词向量(word embedding)模型指的是gensim的word2vec词向量模型。word2vec实际上是个浅层的神经网络，word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练，训练得到的训练结果为词向量，可以很好地度量词与词之间的相似性。预设词向量模型可以通过预先训练得到，训练词向量模型的过程包括：获取训练集，对训练集中的文本信息进行分词；设置训练word2vec词向量模型的参数，如最小次数min_count＝5，该最小次数表示小于5次的单词会被丢弃，神经网络隐藏层的单元数size＝128，迭代的次数iterator＝5等；将分词后的数据作为训练数据集，训练word2vec词向量模型得到预设词向量模型。根据词向量和数据集中对应的质检点，训练神经网络模型。包括：将词向量和对应的质检点输入，训练神经网络，如若神经网络模型是长短时神经网络模型，那么训练长短时神经网络；将神经网络各个节点输出的数据输入到平均池化层，以融合神经网络各个节点的结果；再将经过平均池化层后的数据输入到softmax函数，以得到分类结果，最终使得到的分类结果和标记的质检点结果尽可能多的相同。训练好分类模型后，利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检点结果。

S408，根据用户对所述会话文本数据中质检点的修改请求来更新质检结果。

S409，根据更新后的数据更新分类模型。

S410，利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果。

该实施例将提取出的数据集用于训练分类模型，并利用分类模型对对话文本数据进行分类得到质检点，根据用户对所述会话文本数据中质检点的修改请求来更新质检结果，根据更新后的数据更新分类模型，并利用更新后的模型对对话文本数据进行分类得到质检点。该实施例根据用户对质检点结果的更新，得到较为准确的质检结果，再利用更新后的数据更新分类模型，并利用更新后的分类模型进行质检点分类，以使更新后的分类模型能更准确的进行分类，如此提高了分类模型分类的准确率。该实施例结合了人类智能，形成人在回路的混合智能范式，提升了机器智能水平。

图5是本发明实施例提供的一种数据集获取装置的示意性框图。如图5所示，该装置50包括获取单元501、预处理单元502、标记单元503、整合单元504、质检更新单元505、提取单元506。

获取单元501，用于获取消息级别的对话文本数据。

预处理单元502，用于对消息级别的对话文本数据进行预处理。

标记单元503，用于根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与对应的规则匹配的质检点并进行标记，以得到质检结果。

其中，质检点可以理解为不合规或者违规的地方，也就是存在错误的地方。每个质检点有质检点标识，如A47，表示A类中第47个质检点，质检点对应的规则包括关键词和逻辑运算。质检点和质检点对应的规则，举例如：A47，基金and分红。其中，关键词包括：基金、分红，逻辑运算包括and。A47质检点表示，若一条消息中同时出现了基金和分红，那么认为该条消息违规了。可以理解为，基金这个产品不涉及分红，也可以理解为，当说到基金这个产品时不会想到会说分红，若一条消息中同时出现基金和分红，那么这条消息违规，也就是出现错误。全文搜索引擎，指的是ElasticSearch(简写为ES)搜索引擎。ES使用关键词，并利用ES的API接口中提供的must，should，must not等组合分装实现质检点对应的规则，并根据对应的规则(查询条件)从预处理后的对话文本数据中进行查询搜索，找出匹配的质检点并标记，以得到ES质检点结果，将ES质检点结果作为质检结果。其中标记用质检点标识来标记，ES质检点结果表示用ES查询匹配得到的质检点结果。

在一实施例中，如图6所示，标记单元503包括分词单元601、索引单元602、匹配标记单元603。

分词单元601，用于将预处理后的对话文本数据进行分词。通过全文搜索引擎中的分词将预处理后的对话文本数据中每个消息文本数据中的具体消息内容分成多个单词，如消息“我来到北京清华大学”，分词的结果为“我来到北京清华大学”。

索引单元602，用于对分词后的数据建立倒排索引。具体地，统计分成的词在对对话文本数据中出现的次数和位置；根据出现的次数和位置对分成的词进行倒排索引。如统计词“分红”在对话文本数据中出现的次数和位置，其中，在对话文本数据中的位置包括在哪个对话文本数据表、哪个消息文本数据(可以用消息编号来表示)等。其中，倒排索引是实现“单词-文档矩阵”的一种存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的“文档列表”。如在对话文本数据中，通过该倒排索引可以根据分成的词快速获取包含这个词的消息文本数据，即哪些消息文本数据中出现了该词。

匹配标记单元603，根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从预处理后的对话文本数据中查询出与对应的规则匹配的质检点并进行标记。根据质检点对应的规则查询搜索到匹配的质检点后，进行质检点标记。如在预处理后的对话文本数据中标记可以理解为在对话文本数据中的每一个消息文本数据后进行相应的质检点标记。建立倒排索引后，可以加快查询匹配的速度。在数据量很大的情况下，仍能快速的完成质检点的查询匹配和标记。

整合单元504，用于将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据。

将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据，即整合单元504，包括集合查找单元、分组单元、排序显示单元。其中，集合查找单元，用于从标记后的包括质检点的对话文本数据中查找每条消息文本数据中的发送人和接收人，将发送人和接收人作为一个集合。分组单元，用于按照集合对对话文本数据中的消息文本数据进行分组。排序显示单元，用于将每组的数据按照按照发送消息的时间进行排序并按照预定格式显示，以形成包括质检点的会话级别的会话文本数据。如此就分成了多组的数据，这意味分成一组的发送人和接收人是同一个对话中的两个人，不同对话分成了不同的组；将每组的数据按照预定格式显示，其中，每组的数据即为对话内容。如预定格式可以为：发送人；接收人；对话内容；ES质检点结果。其中，对话内容中的多个消息文本数据可以按照格式：发送消息的时间[空格]具体消息内容显示。如2017-01-0112:01:02李老师，在吗？每个消息文本数据都对应有ES质检点结果。预定格式中还可以包括日期，即质检日期。可以简单理解为，包括质检点的会话级别的会话文本数据是将标记后的包括质检点的消息级别的对话文本数据中的消息文本数据按照时间的先后顺序和发送人接收人信息整理后的以对话为单位的多个对话数据。其中，标记后的包括质检点的消息级别的对话文本数据和包括质检点的会话级别的会话文本数据是以数据表的形式保存在数据库中，如Oracle数据库等。标记后的包括质检点的消息级别的对话文本数据和包括质检点的会话级别的会话文本数据根据数据量的多少，可以分别保存为多个数据表，也可以保存为一个数据表。整合后的包括质检点的会话文本数据可参看表1。

质检更新单元505，用于根据用户对所述会话文本数据中质检点的修改请求来更新质检结果。

具体地，获取用户的权限，如根据用户的账号和密码来获取用户的权限；判断当前用户的权限是否为为预设权限，其中，有预设权限的用户可以更新质检结果；若为预设权限，根据预设权限的用户对所述会话文本数据中质检点的修改请求来更新质检结果。

在本发明实施例中，符合预设权限的用户可以查看到会话文本消息的具体内容、发送人、接收人、日期、ES质检点结果以及用户可以修改的选项。其中，用户可以修改的选项包括人工质检点结果、质检违规备注、是否合规，这几项在用户没有修改之前是空的，用户可以根据实际情况来编辑修改，以更新质检结果。其中，人工质检点结果用质检点标识表示，质检违规备注中有质检点(违规点)对应的具体文本内容以及该质检点的违规原因，该质检点的违规原因写在小括号中，放在质检点对应的具体文本内容之后。符合预设权限的用户也可以将当前的质检点改为合格/合规(不存在错误)。

需要注意的是，将人工质检点结果作为更新后的质检点结果，最终的质检点结果以更新后的质检点结果为准。其中，若人工质检点结果值与ES质检点结果值一致，那么仍然需要在人工质检点结果中填写与ES质检点结果一致的内容。若人工质检点结果为空，那么意味着该条消息的质检点结果为合规。符合预设权限的用户更新后的质检结果可参看图2。

提取单元506，按照预设格式从更新后的数据中提取出数据集。其中，数据集是为了训练模型，因此数据集中至少需要有质检点结果，消息文本数据对应的具体消息内容。其中，预设格式包括：消息文本数据对应的具体消息内容、每条消息文本数据对应的修改后的质检点结果、质检违规备注。每条消息文本数据对应的具体消息内容的质检点结果也即消息文本数据对应的具体消息内容更新后的质检点结果。

在一实施例中，如图7所示，提取单元506包括数据判断单元701、分隔单元702、添加标记单元703、数据集提取单元704。

判断单元701，用于对于每条消息文本数据，判断消息文本数据对应的具体消息内容的质检点结果是否有多个或者质检点结果是否为空。

分隔单元702，用于若所述质检点结果为多个，根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应，形成以单个质检点为质检点结果且符合预设格式的数据。

具体地，检测消息文本数据对应的质检违规备注中的小括号对；将第一个小括号对之前的内容作为一条消息文本数据的具体消息内容、将第一个小括号对中间的内容作为该条消息文本数据对应的质检违规备注、将人工质检点结果中的第一个质检点作为该条消息文本数据对应具体消息内容的质检点结果；将下一个小括号对与前一个小括号对之间的内容作为另一条消息文本数据的具体消息内容、将下一个小括号对中间的内容作为该另一条消息文本数据的质检违规备注，将人工质检点结果中下一个质检点作为该另一条消息文本数据的质检结果。如此，将多个质检点和多个质检点对应的消息文本数据的具体消息内容和对应的质检违规备注分隔开来且分别对应，形成以单个质检点为质检点结果且符合预设格式的数据。

添加标记单元703，若质检点结果为空，将消息文本数据对应的具体消息内容的质检点结果标记为合规标识。其中，合规可以用标识good表示，也可以使用其他的标识表示。

数据集提取单元704，用于提取消息文本数据对应的具体消息内容、消息文本数据对应具体消息内容的质检点结果以及质检违规备注作为数据集。提取的数据包括了将多个质检点分隔开来对应的数据，质检点结果为合规的数据，以及质检点结果为一个时对应的数据。提取出的数据集可参看图3示例。

图8是本发明实施例提供的一种利用数据集分类的装置的示意性框图。该装置80包括获取单元801、预处理单元802、标记单元803、整合单元804、质检更新单元805、提取单元806、分类单元807、模型更新单元808。其中，该实施例与图5所示实施例的区别在于：增加了分类单元807，模型更新单元808。其他如获取单元801、预处理单元802、标记单元803、整合单元804、质检更新单元805、提取单元806可参看图5实施例的描述，在此不再赘述。下面将介绍分类单元807、模型更新单元808。

分类单元807，用于利用提取出的数据集训练分类模型，并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检点结果。其中，分类模型可以为任一个多分类模型，如长短时神经网络模型、随机森林分类模型等。若分类模型为神经网络模型时，训练神经网络模型的过程请参看对应方法实施例的描述。

质检更新单元805，还用于根据用户对所述会话文本数据中质检点的修改请求来更新质检结果。

模型更新单元808，用于根据更新后的数据更新分类模型。

分类单元807，还用于利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，

在其他实施例中，一种利用数据集分类的装置还包括上述对应方法实施例对应的单元。

上述装置可以实现为一种计算机程序的形式，计算机程序可以在如图9所示的计算机设备上运行。

图9为本发明实施例提供的一种计算机设备的示意性框图。该计算机设备90可以是手机、pad等便携式设备，也可以是台式机等非便携式设备。该设备90包括通过系统总线901连接的处理器902、存储器和网络接口903，其中，存储器可以包括非易失性存储介质904和内存储器905。

该非易失性存储介质904可存储操作系统9041和计算机程序9042。该计算机程序9042被执行时，可使得处理器902执行一种数据集获取方法。该处理器902用于提供计算和控制能力，支撑整个设备90的运行。该内存储器905为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器902执行时，可使得处理器902执行一种数据集获取方法。该网络接口903用于进行网络通信，如获取数据等。本领域技术人员可以理解，图90中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备90的限定，具体的设备90可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器902用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一实施例中，处理器902在执行所述根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记时，具体执行：

将所述对话文本数据进行分词；对分词后的数据建立倒排索引；根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记。

在一实施例中，处理器902在执行所述将标记后的包括质检点的对话文本数据加工整理成包括质检点的会话级别的会话文本数据时，具体执行：

从标记后的包括质检点的对话文本数据中查找每条消息文本数据中的发送人和接收人，将发送人和接收人作为一个集合；按照集合对消息文本数据进行分组；将每组的数据按照按照发送消息的时间进行排序并按照预定格式显示，以形成包括质检点的会话级别的会话文本数据。

在一实施例中，更新后的数据中包括多条消息文本数据、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注，所述预设格式包括：消息文本数据对应的具体消息内容、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注；处理器902在执行所述按照预设格式从更新后的数据中提取出数据集时，具体执行：

对于每条消息文本数据，判断消息文本数据对应具体消息内容的质检点结果是否有多个；若所述消息文本数据对应具体消息内容的质检点结果为多个，根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应，形成以单个质检点为质检点结果且符合预设格式的数据；提取消息文本数据对应的具体消息内容、消息文本数据对应具体消息内容的质检点结果以及质检违规备注作为数据集。

在另一实施例中，计算机程序9042被执行时，可使得处理器902执行一种利用数据集分类的方法。该处理器902用于提供计算和控制能力，支撑整个设备90的运行。该内存储器905为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器902执行时，可使得处理器902执行一种利用数据集分类的方法。该网络接口903用于进行网络通信。

利用提取出的数据集训练分类模型，并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果；根据用户对所述会话文本数据中质检点的修改请求来更新质检结果；根据更新后的数据更新分类模型；利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果；其中，计算机设备90中存储器903所存储的相关程序数据还包括实现提取数据集的程序数据。

应当理解，在本发明实施例中，所称处理器902或者102可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时实现以下步骤：

在一实施例中，所述处理器在执行所述根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记时，具体实现：

在一实施例中，所述处理器在执行所述将标记后的包括质检点的对话文本数据加工整理成包括质检点的会话级别的会话文本数据时，具体实现：

在一实施例中，更新后的数据中包括多条消息文本数据、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注，所述预设格式包括：消息文本数据对应的具体消息内容、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注；所述处理器在执行所述按照预设格式从更新后的数据中提取出数据集时，具体实现：

利用提取出的数据集训练分类模型，并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果；根据用户对所述会话文本数据中质检点的修改请求来更新质检结果；根据更新后的数据更新分类模型；利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果；其中，将前述计算机可读存储介质所存储的相关程序数据存储到该计算机可读存储介质中，以实现提取数据集。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据集获取方法，其特征在于，所述方法包括：

获取消息级别的对话文本数据；

对消息级别的对话文本数据进行预处理；其中所述预处理包括将所述对话文本数据中对应消息文本数据中的英文替换为中文和将所述消息文本数据中的数字、标点符号、表情及乱码过滤掉；

根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记以得到质检结果；

将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据；

根据用户对所述会话文本数据中质检点的修改请求来更新质检结果；

按照预设格式从更新后的数据中提取出数据集；

更新后的数据中包括多条消息文本数据、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注，所述预设格式包括：消息文本数据对应的具体消息内容、每条消息文本数据对应具体消息内容的质检点结果、质检违规备注；

所述按照预设格式从更新后的数据中提取出数据集，包括：

对于每条消息文本数据，判断消息文本数据对应具体消息内容的质检点结果是否有多个或者质检点结果是否为空；

若所述消息文本数据对应具体消息内容的质检点结果为多个，根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应，形成以单个质检点为质检点结果且符合预设格式的数据；

若质检点结果为空，将消息文本数据对应的具体消息内容的质检点结果标记为合规标识；

提取消息文本数据对应的具体消息内容、消息文本数据对应具体消息内容的质检点结果以及质检违规备注作为数据集。

2.根据权利要求1所述的方法，其特征在于，所述根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记，包括：

将所述对话文本数据进行分词；

对分词后的数据建立倒排索引；

根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记。

3.根据权利要求1所述的方法，其特征在于，所述将标记后的包括质检点的对话文本数据加工整理成包括质检点的会话级别的会话文本数据，包括：

从标记后的包括质检点的对话文本数据中查找每条消息文本数据中的发送人和接收人，将发送人和接收人作为一个集合；

按照集合对消息文本数据进行分组；

将每组的数据按照发送消息的时间进行排序并按照预定格式显示，以形成包括质检点的会话级别的会话文本数据。

4.一种利用数据集分类的方法，其特征在于，所述方法包括：

利用如权利要求1-3任一项所述的方法提取出的数据集训练分类模型，并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果；

根据用户对所述对话文本数据中质检点的修改请求来更新质检结果；

根据更新后的数据更新分类模型；

利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果。

5.一种数据集获取装置，其特征在于，所述装置包括：

获取单元，用于获取消息级别的对话文本数据；

预处理单元，用于对消息级别的对话文本数据进行预处理；其中所述预处理包括将所述对话文本数据中对应消息文本数据中的英文替换为中文和将所述消息文本数据中的数字、标点符号、表情及乱码过滤掉；

标记单元，用于根据预先设定的质检点和质检点对应的规则，利用全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记以得到质检结果；

整合单元，用于将标记后的包括质检点的对话文本数据整合成包括质检点的会话级别的会话文本数据；

质检更新单元，用于根据用户对所述会话文本数据中质检点的修改请求来更新质检结果；

提取单元，用于按照预设格式从更新后的数据中提取出数据集；

所述提取单元包括：

判断单元，用于对于每条消息文本数据，判断消息文本数据对应的具体消息内容的质检点结果是否有多个或者质检点结果是否为空；

分隔单元，用于若所述质检点结果为多个，根据多个质检点将多个质检点和多个质检点对应的消息文本数据具体消息内容和对应的质检违规备注分隔开来且分别对应，形成以单个质检点为质检点结果且符合预设格式的数据；

添加标记单元，用于若质检点结果为空，将消息文本数据对应的具体消息内容的质检点结果标记为合规标识；

数据集提取单元，用于提取消息文本数据对应的具体消息内容、消息文本数据对应具体消息内容的质检点结果以及质检违规备注作为数据集。

6.根据权利要求5所述的装置，其特征在于，所述标记单元，包括：

分词单元，用于将所述对话文本数据进行分词；

索引单元，用于对分词后的数据建立倒排索引；

匹配标记单元，用于根据预先设定的质检点和质检点对应的规则，利用建立的倒排索引和全文搜索引擎，从预处理后的对话文本数据中查询出与所述规则匹配的质检点并进行标记。

7.一种利用数据集分类的装置，其特征在于，所述装置包括：

分类单元，用于利用包括如权利要求5-6任一项所述的装置对应的单元提取出的数据集训练分类模型，并利用训练好的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果；

质检更新单元，还用于根据用户对所述会话文本数据中质检点的修改请求来更新质检结果；

模型更新单元，用于根据更新后的数据更新分类模型；

分类单元，还用于利用更新后的分类模型对未质检的消息级别的对话文本数据进行分类得到质检点并进行标记，以得到质检结果。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器，以及与所述存储器相连的处理器；

所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1-3任一项所述的数据集获取方法或者以执行如权利要求4所述的利用数据集分类的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，实现如权利要求1-3任一项所述的数据集获取方法或者实现如权利要求4所述的利用数据集分类的方法。