CN111339304A - 一种基于机器学习的文本数据自动分类方法 - Google Patents

一种基于机器学习的文本数据自动分类方法 Download PDF

Info

Publication number
CN111339304A
CN111339304A CN202010180834.0A CN202010180834A CN111339304A CN 111339304 A CN111339304 A CN 111339304A CN 202010180834 A CN202010180834 A CN 202010180834A CN 111339304 A CN111339304 A CN 111339304A
Authority
CN
China
Prior art keywords
text data
classification
machine learning
data
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010180834.0A
Other languages
English (en)
Inventor
陈广辉
李蓓蓓
蔡翀
陈焰华
苏伟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Flash It Co ltd
Original Assignee
Flash It Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Flash It Co ltd filed Critical Flash It Co ltd
Priority to CN202010180834.0A priority Critical patent/CN111339304A/zh
Publication of CN111339304A publication Critical patent/CN111339304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于机器学习的文本数据自动分类方法,涉及数据处理技术领域,包括以下步骤:S1:接收待处理的文本数据;S2:判断文本数据的类型是否为已知类型,若是则直接执行步骤S4;反之则执行步骤S3;S3:将数据进行聚类学习,形成至少一个聚类结果;S4:对聚类结果进行人工干预修正,形成至少一个分类结果及其分类模型;S5:获取文本数据分类结果。本发明一种基于机器学习的文本数据自动分类方法通过结合机器学习中的聚类和分类技术,再加以适当的人工干预,实现文本数据的自动分类,为数据资产管理和数据保护搭起坚实的基础工作。

Description

一种基于机器学习的文本数据自动分类方法
技术领域
本发明涉及数据处理技术领域,
尤其是,本发明涉及一种基于机器学习的文本数据自动分类方法。
背景技术
近年来,全球数据泄漏事件频发。
面对频发的数据安全事件和愈来愈严格的数据安全保护要求,企业都已认识到数据安全保护的重要性,安全的首要前提必然是明确我要保护什么。但企业首先面临的是不知道自己有哪些敏感数据、都是什么类型的等等难题,为了解决这些问题,我们必须对数据进行分类。做好数据的分类,企业才能够清晰地认识自身的数据,是企业管理并保护数据的前提。
因此为了解决上述问题,设计一种合理的基于机器学习的文本数据自动分类方法对我们来说是很有必要的。
发明内容
本发明的目的在于提供一种通过结合机器学习中的聚类和分类技术,再加以适当的人工干预,实现文本数据的自动分类,为数据资产管理和数据保护搭起坚实的基础工作的基于机器学习的文本数据自动分类方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于机器学习的文本数据自动分类方法,包括以下步骤:
S1:接收待处理的文本数据;
S2:判断文本数据的类型是否为已知类型,若是则直接执行步骤S4;反之则执行步骤S3;
S3:将数据进行聚类学习,形成至少一个聚类结果;
S4:对聚类结果进行人工干预修正,形成至少一个分类结果及其分类模型(分类器);
S5:获取文本数据分类结果。
作为本发明的优选,执行步骤S1时,文本数据包括纯文本(txt)数据,doc(x) 、xls(x)、ppt(x)文件中的文本数据以及pdf文件中文本数据。。
作为本发明的优选,执行步骤S2之前,将接收的文本数据转换成响应的文本类型。
作为本发明的优选,步骤S3具体包括:
S31:抽取文本数据中的文本内容;
S32:对抽取的文本内容进行中文分词,剔除无用的停用词;
S33:使用K-Means聚类方法进行聚类。
作为本发明的优选,执行步骤S3时,聚类的参数设置包括聚类个数。
作为本发明的优选,执行步骤S33时,聚类个数为系统自适应生成。
作为本发明的优选,步骤S4具体包括:
S41:获取聚合结果保存为文档,并对聚合结果设置标签名;
S42:对文档进行类别修正,增加关键词,调整权重;
S43:对调整修正后的结果进行监督学习分类,生成分类模型。
作为本发明的优选,执行步骤S4之后,加入新的文档,进行验证分类结果的正确性。
作为本发明的优选,在执行步骤S41时,将步骤S3获取的聚类结果经过人工调整,包括分类标签的修正以及特征词的修正。
作为本发明的优选,执行步骤S5之后,将分类模型更新至已知模型库内,用于方便步骤S2中进行文本数据分类判断。
本发明一种基于机器学习的文本数据自动分类方法有益效果在于:通过结合机器学习中的聚类和分类技术,再加以适当的人工干预,实现文本数据的自动分类,为数据资产管理和数据保护搭起坚实的基础工作。
附图说明
图1为本发明一种基于机器学习的文本数据自动分类方法的流程示意图;
图2为本发明一种基于机器学习的文本数据自动分类方法中步骤S3的具体流程示意图;
图3为本发明一种基于机器学习的文本数据自动分类方法中步骤S4的具体流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
面对频发的数据安全事件和愈来愈严格的数据安全保护要求,企业都已认识到数据安全保护的重要性,安全的首要前提必然是明确我要保护什么。但企业首先面临的是不知道自己有哪些敏感数据、都是什么类型的等等难题,为了解决这些问题,我们必须对数据进行分类。做好数据的分类,企业才能够清晰地认识自身的数据,是企业管理并保护数据的前提。
实施例:如图1至3所示,仅仅为本发明的其中一个的实施例,一种基于机器学习的文本数据自动分类方法,包括以下步骤:
S1:接收待处理的文本数据;
数据分类的第一步是需要获取数据,准备好待处理的文本类型数据,包括但不限于纯文本数据。
在执行步骤S1时,文本数据包括常见的办公文档类型例如文本文档类型的(.txt)文本数据、Word 类型的(.doc(x))文本数据、Excel类型的(.xls(x))文本数据以及PDF类型的(.pdf)文本数据。
S2:判断文本数据的类型是否为已知类型,若是则直接执行步骤S4;反之则执行步骤S3;
当然的,执行步骤S2之前,将接收的文本数据转换成响应的文本类型,只有是响应的文本类型才能进行判断,若是不可响应的数据,则需要重新输入才可以进行判断以及后续分类。
S3:将数据进行聚类学习,形成至少一个聚类结果;
步骤S3具体包括:
S31:抽取文本数据中的文本内容;
S32:对抽取的文本内容进行中文分词,剔除无用的停用词;
S33:使用K-Means聚类方法进行聚类。
执行步骤S3时,聚类的参数设置包括聚类个数。实际上,聚类的参数设置不限于聚类个数和其他参数
另外,执行步骤S33时,使用K-Means聚类方法进行聚类,也可以不指定聚类个数,聚类个数为系统自适应生成。
需要注意的是,聚类方法包括且不限于K-Means聚类方法。
再然后,聚类生成的结果,可以进行适当人工干预进行修正,人工进行修正剔除机器错误数据,提高准确率。
S4:对聚类结果进行人工干预修正,形成至少一个分类结果及其分类模型;
需要注意的是,步骤S4具体包括:
S41:获取聚合结果保存为文档,并对聚合结果设置标签名;当然也可以重命名或者删除某个标签;
在执行步骤S41时,可以将步骤S3获取的聚类结果经过人工调整,分类标签的修正以及特征词的修正,在这里分类标签的修正以及特征词的修正包括分类标签以及特征词的删除或者添加。
S42:对文档进行类别修正,增加关键词,调整权重;
S43:对调整修正后的结果进行监督学习分类,最终生成分类器也就是分类模型。
若是步骤S2中判断文本数据为已知分类数据,则直接使用已知分类的数据进行人工干预,可以省去了步骤S3的聚类过程。
当然还在执行步骤S4之后,加入新的文档,进行验证分类结果的正确性。若验证成功则直接进行步骤S5,反之若是验证不成功,也可以从S1开始重新学习。
S5:获取文本数据分类结果。
生成的分类器和分类模型,可以供数据资产管理或者数据防泄漏系统中进行使用。
若是为了本方法更加的准确率高,执行步骤S5之后,将分类模型更新至已知模型库内,用于方便步骤S2中进行文本数据分类判断,每分类一批数据之后,分类模型库将得到更新,执行数据分类足够久之后,得到的新的文本数据几乎都在分类模型库中,可以直接执行步骤S4进行获取分类模型,节省分类时间,增加分类效率,分类的准确率也越高。
本发明一种基于机器学习的文本数据自动分类方法有益效果在于:通过结合机器学习中的聚类和分类技术,再加以适当的人工干预,实现文本数据的自动分类,为数据资产管理和数据保护搭起坚实的基础工作。
本发明不局限于上述具体的实施方式,本发明可以有各种更改和变化。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

Claims (10)

1.一种基于机器学习的文本数据自动分类方法,其特征在于,包括以下步骤:
S1:接收待处理的文本数据;
S2:判断文本数据的类型是否为已知类型,若是则直接执行步骤S4;反之则执行步骤S3;
S3:将数据进行聚类学习,形成至少一个聚类结果;
S4:对聚类结果进行人工干预修正,形成至少一个分类结果及其分类模型;
S5:获取文本数据分类结果。
2.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法,其特征在于:
执行步骤S1时,文本数据包括txt文本数据、doc(x) 文本数据、xls(x) 文本数据以及pdf文本数据。
3.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法,其特征在于:
执行步骤S2之前,将接收的文本数据转换成响应的文本类型。
4.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法,其特征在于,步骤S3具体包括:
S31:抽取文本数据中的文本内容;
S32:对抽取的文本内容进行中文分词,剔除无用的停用词;
S33:使用K-Means聚类方法进行聚类。
5.根据权利要求4所述的一种基于机器学习的文本数据自动分类方法,其特征在于:
执行步骤S3时,聚类的参数设置包括聚类个数。
6.根据权利要求5所述的一种基于机器学习的文本数据自动分类方法,其特征在于:
执行步骤S33时,聚类个数为系统自适应生成。
7.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法,其特征在于,步骤S4具体包括:
S41:获取聚合结果保存为文档,并对聚合结果设置标签名;
S42:对文档进行类别修正,增加关键词,调整权重;
S43:对调整修正后的结果进行监督学习分类,生成分类模型。
8.根据权利要求7所述的一种基于机器学习的文本数据自动分类方法,其特征在于:
执行步骤S4之后,加入新的文档,进行验证分类结果的正确性。
9.根据权利要求7所述的一种基于机器学习的文本数据自动分类方法,其特征在于:
在执行步骤S41时,将步骤S3获取的聚类结果经过人工调整,包括分类标签的修正以及特征词的修正。
10.根据权利要求1所述的一种基于机器学习的文本数据自动分类方法,其特征在于:
执行步骤S5之后,将分类模型更新至已知模型库内,用于方便步骤S2中进行文本数据分类判断。
CN202010180834.0A 2020-03-16 2020-03-16 一种基于机器学习的文本数据自动分类方法 Pending CN111339304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010180834.0A CN111339304A (zh) 2020-03-16 2020-03-16 一种基于机器学习的文本数据自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010180834.0A CN111339304A (zh) 2020-03-16 2020-03-16 一种基于机器学习的文本数据自动分类方法

Publications (1)

Publication Number Publication Date
CN111339304A true CN111339304A (zh) 2020-06-26

Family

ID=71182383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010180834.0A Pending CN111339304A (zh) 2020-03-16 2020-03-16 一种基于机器学习的文本数据自动分类方法

Country Status (1)

Country Link
CN (1) CN111339304A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089613A1 (zh) * 2020-10-30 2022-05-05 第四范式(北京)技术有限公司 应用机器学习的文本分类方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097678A1 (ja) * 2003-04-30 2004-11-11 Fujitsu Limited 文書の自動分類プログラム、その方法、及び装置
CN106815605A (zh) * 2017-01-23 2017-06-09 上海上讯信息技术股份有限公司 一种基于机器学习的数据分类方法及设备
CN107292193A (zh) * 2017-05-25 2017-10-24 北京北信源软件股份有限公司 一种实现数据泄露防护的方法和系统
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097678A1 (ja) * 2003-04-30 2004-11-11 Fujitsu Limited 文書の自動分類プログラム、その方法、及び装置
CN106815605A (zh) * 2017-01-23 2017-06-09 上海上讯信息技术股份有限公司 一种基于机器学习的数据分类方法及设备
CN107292193A (zh) * 2017-05-25 2017-10-24 北京北信源软件股份有限公司 一种实现数据泄露防护的方法和系统
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089613A1 (zh) * 2020-10-30 2022-05-05 第四范式(北京)技术有限公司 应用机器学习的文本分类方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN110704633B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN111309912A (zh) 文本分类方法、装置、计算机设备及存储介质
US20060036649A1 (en) Index extraction from documents
JP2010055142A (ja) 文書処理装置およびプログラム
CN110674250A (zh) 一种文本匹配方法、装置、计算机系统及可读存储介质
CN111339304A (zh) 一种基于机器学习的文本数据自动分类方法
US20060036614A1 (en) Index extraction from documents
CN113269101A (zh) 一种票据识别方法、装置和设备
WO2019041529A1 (zh) 新闻主体企业识别方法、电子设备及计算机可读存储介质
CN112487808A (zh) 基于大数据的新闻消息推送方法、装置、设备及存储介质
CN110399485B (zh) 基于词向量和机器学习的数据溯源方法和系统
CN108845985B (zh) 一种信息匹配方法和信息匹配装置
CN110941957A (zh) 交通科技数据标引方法及系统
CN115658976A (zh) 基于局部敏感哈希的设备指纹分析方法及系统
CN114170451A (zh) 一种文本识别方法和装置
CN109145308B (zh) 一种基于改进朴素贝叶斯的涉密文本识别方法
WO2014036788A1 (zh) 一种电子邮件收集分类方法
CN109977992B (zh) 电子装置、批量注册行为的识别方法和存储介质
CN111858499A (zh) 基于黑白名单的档案鉴定方法、系统及装置
CN107656909B (zh) 一种基于文档混合特征的文档相似度判定方法和装置
CN106445898B (zh) 一种邮封数据处理方法及系统
US20060036566A1 (en) Index extraction from documents
CN115983956B (zh) 一种投标文件检测方法及系统
CN116150723B (zh) 一种行政审批流程权限的识别方法
US20240176949A1 (en) Systems and methods for generating document templates from a mixed set of document types

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination