CN111339304A

CN111339304A - 一种基于机器学习的文本数据自动分类方法

Info

Publication number: CN111339304A
Application number: CN202010180834.0A
Authority: CN
Inventors: 陈广辉; 李蓓蓓; 蔡翀; 陈焰华; 苏伟华
Original assignee: Flash It Co ltd
Current assignee: Flash It Co ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-06-26

Abstract

本发明提供一种基于机器学习的文本数据自动分类方法，涉及数据处理技术领域，包括以下步骤：S1：接收待处理的文本数据；S2：判断文本数据的类型是否为已知类型，若是则直接执行步骤S4；反之则执行步骤S3；S3：将数据进行聚类学习，形成至少一个聚类结果；S4：对聚类结果进行人工干预修正，形成至少一个分类结果及其分类模型；S5：获取文本数据分类结果。本发明一种基于机器学习的文本数据自动分类方法通过结合机器学习中的聚类和分类技术，再加以适当的人工干预，实现文本数据的自动分类，为数据资产管理和数据保护搭起坚实的基础工作。

Description

一种基于机器学习的文本数据自动分类方法

技术领域

本发明涉及数据处理技术领域，

尤其是，本发明涉及一种基于机器学习的文本数据自动分类方法。

背景技术

近年来，全球数据泄漏事件频发。

面对频发的数据安全事件和愈来愈严格的数据安全保护要求，企业都已认识到数据安全保护的重要性，安全的首要前提必然是明确我要保护什么。但企业首先面临的是不知道自己有哪些敏感数据、都是什么类型的等等难题，为了解决这些问题，我们必须对数据进行分类。做好数据的分类，企业才能够清晰地认识自身的数据，是企业管理并保护数据的前提。

因此为了解决上述问题，设计一种合理的基于机器学习的文本数据自动分类方法对我们来说是很有必要的。

发明内容

本发明的目的在于提供一种通过结合机器学习中的聚类和分类技术，再加以适当的人工干预，实现文本数据的自动分类，为数据资产管理和数据保护搭起坚实的基础工作的基于机器学习的文本数据自动分类方法。

为达到上述目的，本发明采用如下技术方案得以实现的：

一种基于机器学习的文本数据自动分类方法，包括以下步骤：

S1：接收待处理的文本数据；

S2：判断文本数据的类型是否为已知类型，若是则直接执行步骤S4；反之则执行步骤S3；

S3：将数据进行聚类学习，形成至少一个聚类结果；

S4：对聚类结果进行人工干预修正，形成至少一个分类结果及其分类模型（分类器）；

S5：获取文本数据分类结果。

作为本发明的优选，执行步骤S1时，文本数据包括纯文本（txt）数据，doc(x) 、xls(x)、ppt(x)文件中的文本数据以及pdf文件中文本数据。。

作为本发明的优选，执行步骤S2之前，将接收的文本数据转换成响应的文本类型。

作为本发明的优选，步骤S3具体包括：

S31：抽取文本数据中的文本内容；

S32：对抽取的文本内容进行中文分词，剔除无用的停用词；

S33：使用K-Means聚类方法进行聚类。

作为本发明的优选，执行步骤S3时，聚类的参数设置包括聚类个数。

作为本发明的优选，执行步骤S33时，聚类个数为系统自适应生成。

作为本发明的优选，步骤S4具体包括：

S41：获取聚合结果保存为文档，并对聚合结果设置标签名；

S42：对文档进行类别修正，增加关键词，调整权重；

S43：对调整修正后的结果进行监督学习分类，生成分类模型。

作为本发明的优选，执行步骤S4之后，加入新的文档，进行验证分类结果的正确性。

作为本发明的优选，在执行步骤S41时，将步骤S3获取的聚类结果经过人工调整，包括分类标签的修正以及特征词的修正。

作为本发明的优选，执行步骤S5之后，将分类模型更新至已知模型库内，用于方便步骤S2中进行文本数据分类判断。

本发明一种基于机器学习的文本数据自动分类方法有益效果在于：通过结合机器学习中的聚类和分类技术，再加以适当的人工干预，实现文本数据的自动分类，为数据资产管理和数据保护搭起坚实的基础工作。

附图说明

图1为本发明一种基于机器学习的文本数据自动分类方法的流程示意图；

图2为本发明一种基于机器学习的文本数据自动分类方法中步骤S3的具体流程示意图；

图3为本发明一种基于机器学习的文本数据自动分类方法中步骤S4的具体流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

实施例：如图1至3所示，仅仅为本发明的其中一个的实施例，一种基于机器学习的文本数据自动分类方法，包括以下步骤：

S1：接收待处理的文本数据；

数据分类的第一步是需要获取数据，准备好待处理的文本类型数据，包括但不限于纯文本数据。

在执行步骤S1时，文本数据包括常见的办公文档类型例如文本文档类型的（.txt）文本数据、Word 类型的（.doc(x)）文本数据、Excel类型的（.xls(x)）文本数据以及PDF类型的（.pdf）文本数据。

当然的，执行步骤S2之前，将接收的文本数据转换成响应的文本类型，只有是响应的文本类型才能进行判断，若是不可响应的数据，则需要重新输入才可以进行判断以及后续分类。

S3：将数据进行聚类学习，形成至少一个聚类结果；

步骤S3具体包括：

S31：抽取文本数据中的文本内容；

S32：对抽取的文本内容进行中文分词，剔除无用的停用词；

S33：使用K-Means聚类方法进行聚类。

执行步骤S3时，聚类的参数设置包括聚类个数。实际上，聚类的参数设置不限于聚类个数和其他参数

另外，执行步骤S33时，使用K-Means聚类方法进行聚类，也可以不指定聚类个数，聚类个数为系统自适应生成。

需要注意的是，聚类方法包括且不限于K-Means聚类方法。

再然后，聚类生成的结果，可以进行适当人工干预进行修正，人工进行修正剔除机器错误数据，提高准确率。

S4：对聚类结果进行人工干预修正，形成至少一个分类结果及其分类模型；

需要注意的是，步骤S4具体包括：

S41：获取聚合结果保存为文档，并对聚合结果设置标签名；当然也可以重命名或者删除某个标签；

在执行步骤S41时，可以将步骤S3获取的聚类结果经过人工调整，分类标签的修正以及特征词的修正，在这里分类标签的修正以及特征词的修正包括分类标签以及特征词的删除或者添加。

S42：对文档进行类别修正，增加关键词，调整权重；

S43：对调整修正后的结果进行监督学习分类，最终生成分类器也就是分类模型。

若是步骤S2中判断文本数据为已知分类数据，则直接使用已知分类的数据进行人工干预，可以省去了步骤S3的聚类过程。

当然还在执行步骤S4之后，加入新的文档，进行验证分类结果的正确性。若验证成功则直接进行步骤S5，反之若是验证不成功，也可以从S1开始重新学习。

S5：获取文本数据分类结果。

生成的分类器和分类模型，可以供数据资产管理或者数据防泄漏系统中进行使用。

若是为了本方法更加的准确率高，执行步骤S5之后，将分类模型更新至已知模型库内，用于方便步骤S2中进行文本数据分类判断，每分类一批数据之后，分类模型库将得到更新，执行数据分类足够久之后，得到的新的文本数据几乎都在分类模型库中，可以直接执行步骤S4进行获取分类模型，节省分类时间，增加分类效率，分类的准确率也越高。

本发明不局限于上述具体的实施方式，本发明可以有各种更改和变化。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于机器学习的文本数据自动分类方法，其特征在于，包括以下步骤：

S1：接收待处理的文本数据；

S3：将数据进行聚类学习，形成至少一个聚类结果；

S5：获取文本数据分类结果。

2.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于：

执行步骤S1时，文本数据包括txt文本数据、doc(x) 文本数据、xls(x) 文本数据以及pdf文本数据。

3.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于：

执行步骤S2之前，将接收的文本数据转换成响应的文本类型。

4.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于，步骤S3具体包括：

S31：抽取文本数据中的文本内容；

S32：对抽取的文本内容进行中文分词，剔除无用的停用词；

S33：使用K-Means聚类方法进行聚类。

5.根据权利要求4所述的一种基于机器学习的文本数据自动分类方法，其特征在于：

执行步骤S3时，聚类的参数设置包括聚类个数。

6.根据权利要求5所述的一种基于机器学习的文本数据自动分类方法，其特征在于：

执行步骤S33时，聚类个数为系统自适应生成。

7.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于，步骤S4具体包括：

S41：获取聚合结果保存为文档，并对聚合结果设置标签名；

S42：对文档进行类别修正，增加关键词，调整权重；

8.根据权利要求7所述的一种基于机器学习的文本数据自动分类方法，其特征在于：

执行步骤S4之后，加入新的文档，进行验证分类结果的正确性。

9.根据权利要求7所述的一种基于机器学习的文本数据自动分类方法，其特征在于：

在执行步骤S41时，将步骤S3获取的聚类结果经过人工调整，包括分类标签的修正以及特征词的修正。

10.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法，其特征在于：

执行步骤S5之后，将分类模型更新至已知模型库内，用于方便步骤S2中进行文本数据分类判断。