CN112612888B

CN112612888B - 一种用于对文本文件进行智能聚类的方法及系统

Info

Publication number: CN112612888B
Application number: CN202011572805.5A
Authority: CN
Inventors: 李文艺; 刘丹; 刘硕; 吴伟刚; 潘竞旭; 鲁龙; 宋颖
Original assignee: Aisino Corp
Current assignee: Aisino Corp
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-06-16
Anticipated expiration: 2040-12-25
Also published as: CN112612888A

Abstract

本发明涉及一种用于对文本文件进行智能聚类的方法及系统，方法包括：确定符合预设文件类型的每个文本文件的至少一个语言种类，将每个文本文件中不符合至少一个语言种类的符号块组进行删除；对去除了符号块组的每个文本文件中的内容进行分词，对分词所获得的所有词语进行停用词过滤，以去掉去除了符号块组的每个文本文件中的所有的停用词；为去除了停用词的每个文本文件构建文本向量，将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内；将所上传的每个文本文件封装成报文，利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类，以生成初始的分类类型，根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

Description

一种用于对文本文件进行智能聚类的方法及系统

技术领域

本发明涉及文本处理技术领域，并且更具体地涉及，一种用于对文本文件进行智能聚类的方法及系统。

背景技术

对于一些大型企事业单位，由于需要处理的文件数量大、种类多、内容广泛，仅由人工进行分类，工作量特别繁琐。如果对每个文件附加作者、标签、分类等属性，会大大增加人工的作业量。所以我们需要一个智能聚类的功能来实现上传文件、添加属性、智能聚类、自动标签的需求。

文档聚类主要是依据著名的聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。作为一种有监督的机器学习方法，智能聚类需要训练过程，需要预先对文档手工标注类别，因此具有一定的监督性和较高的自动化处理能力，已经成为对文本信息进行有效地组织、摘要和导航的重要手段，为越来越多的研究人员所关注。

发明内容

根据本发明的一个方面，提供一种用于对文本文件进行智能聚类的方法，所述方法包括：

获取待聚类的多个文本文件，确定多个文本文件中每个文本文件的文件类型，确定每个文本文件的文件类型是否符合预设的文件类型，将不符合预设文件类型的文本文件删除；

确定符合预设文件类型的每个文本文件的至少一个语言种类，将每个文本文件中不符合至少一个语言种类的符号块组进行删除；

对去除了符号块组的每个文本文件中的内容进行分词，对分词所获得的所有词语进行停用词过滤，以去掉去除了符号块组的每个文本文件中的所有的停用词；

为去除了停用词的每个文本文件构建文本向量，将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内；

将所上传的每个文本文件封装成报文，利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类，以生成初始的分类类型；

若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值，则将匹配值最高的分类类型作为文本文件的目标分类类型；

若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值，则根据聚类规则生成多个候选的分类类型，并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

还包括，获取具有分类类型的多个文本文件，利用具有分类类型的多个文本文件对智能聚类模型进行训练，以生成经过训练的智能聚类模型。

利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括：

基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。

将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。

根据目标分类类型对经过聚类的文本文件进行查询。

根据本发明的另一方面，提供一种用于对文本文件进行智能聚类的系统，所述系统包括：

获取单元，获取待聚类的多个文本文件，确定多个文本文件中每个文本文件的文件类型，确定每个文本文件的文件类型是否符合预设的文件类型，将不符合预设文件类型的文本文件删除；

删除单元，确定符合预设文件类型的每个文本文件的至少一个语言种类，将每个文本文件中不符合至少一个语言种类的符号块组进行删除；

分词单元，对去除了符号块组的每个文本文件中的内容进行分词，对分词所获得的所有词语进行停用词过滤，以去掉去除了符号块组的每个文本文件中的所有的停用词；

构建单元，为去除了停用词的每个文本文件构建文本向量，将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内；

处理单元，将所上传的每个文本文件封装成报文，利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类，以生成初始的分类类型；若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值，则将匹配值最高的分类类型作为文本文件的目标分类类型；若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值，则根据聚类规则生成多个候选的分类类型，并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

根据目标分类类型对经过聚类的文本文件进行查询。

本发明的关键点包括：1.使用Xgboost分类模型进行文本类别智能匹配的模型训练。2.对匹配值低于阈值的文档，可以由聚类算法自动生成两个最接近的分类，由用户进行人工确认，实现有监督的分类推荐。

本发明的有益效果包括：一、在海量文件数据的基础上，可以实现快速对文件进行智能分类。二、文档分类不需要人工过多干涉，大大节约了人力成本。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的对文本文件进行智能聚类的方法的流程图；

图2为根据本发明实施方式的对文本文件进行智能聚类的系统的结构示意图。

具体实施方式

图1为根据本发明实施方式的对文本文件进行智能聚类的方法的流程图。方法100包括：

步骤101，获取待聚类的多个文本文件，确定多个文本文件中每个文本文件的文件类型，确定每个文本文件的文件类型是否符合预设的文件类型，将不符合预设文件类型的文本文件删除。

步骤102，确定符合预设文件类型的每个文本文件的至少一个语言种类，将每个文本文件中不符合至少一个语言种类的符号块组进行删除。

步骤103，对去除了符号块组的每个文本文件中的内容进行分词，对分词所获得的所有词语进行停用词过滤，以去掉去除了符号块组的每个文本文件中的所有的停用词。

步骤104，为去除了停用词的每个文本文件构建文本向量，将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内。

步骤105，将所上传的每个文本文件封装成报文，利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类，以生成初始的分类类型。

步骤106，若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值，则将匹配值最高的分类类型作为文本文件的目标分类类型。

步骤107，若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值，则根据聚类规则生成多个候选的分类类型，并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

还包括，获取具有分类类型的多个文本文件，利用具有分类类型的多个文本文件对智能聚类模型进行训练，以生成经过训练的智能聚类模型。利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括：基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。根据目标分类类型对经过聚类的文本文件进行查询。

图2为根据本发明实施方式的对文本文件进行智能聚类的系统的结构示意图。系统200包括：获取单元201、删除单元202、分词单元203、构建单元204以及处理单元205。

获取单元201，获取待聚类的多个文本文件，确定多个文本文件中每个文本文件的文件类型，确定每个文本文件的文件类型是否符合预设的文件类型，将不符合预设文件类型的文本文件删除。

删除单元202，确定符合预设文件类型的每个文本文件的至少一个语言种类，将每个文本文件中不符合至少一个语言种类的符号块组进行删除。

分词单元203，对去除了符号块组的每个文本文件中的内容进行分词，对分词所获得的所有词语进行停用词过滤，以去掉去除了符号块组的每个文本文件中的所有的停用词。

构建单元204，为去除了停用词的每个文本文件构建文本向量，将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内。

处理单元205，将所上传的每个文本文件封装成报文，利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类，以生成初始的分类类型；若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值，则将匹配值最高的分类类型作为文本文件的目标分类类型；若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值，则根据聚类规则生成多个候选的分类类型，并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

此外，根据本发明的另一实施方式，本申请的系统包括：

模型训练单元，将已有文档类型与已经确定分类的文档文本进行匹配，训练智能匹配模型，模型中保存文档分类对应的文本特征。

1)文本预处理，首先是读训练文本的内容，其中文本格式包含PDF,Excell，WORD和txt四种格式；然后针对文本中出现的大段非中文符号进行过滤；接着使用Jieba分词，去停用词；最后使用sklearn库中的TFIDF模型进行文本的向量表示，作为后续分类和聚类模型的输入。

2)训练测试分类模型。对收集的带类别标注的文本数据，使用Xgboost分类模型进行文本类别的训练测试。

文档上传单元

将待分类的文档上传到文件服务器临时文件夹内。

文档智能分类单元

1)将已上传的需要智能聚类的文本数据封装成报文，并调用智能聚类接口。

2)执行智能匹配模型，生成文档分类结果。

3)若文档与智能匹配模型中已有分类匹配值高于设定阈值，则直接保存分类。

4)若文档与智能匹配模型中已有分类匹配值低于设定阈值，则按照聚类算法自动生成2-3个最为接近的分类供用户选择，并保存用户选择结果。

文档查询单元

1)将已分类文档的最终分类路径存储到数据库。

2)前端刷新页面，可以根据文件类别查询到智能聚类后的文档。。

Claims

1.一种用于对文本文件进行智能聚类的方法，所述方法包括：

2.根据权利要求1所述的方法，还包括，获取具有分类类型的多个文本文件，利用具有分类类型的多个文本文件对智能聚类模型进行训练，以生成经过训练的智能聚类模型。

3.根据权利要求2所述的方法，利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括：

4.根据权利要求1所述的方法，将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。

5.根据权利要求1所述的方法，根据目标分类类型对经过聚类的文本文件进行查询。

6.一种用于对文本文件进行智能聚类的系统，所述系统包括：

7.根据权利要求6所述的系统，还包括，获取具有分类类型的多个文本文件，利用具有分类类型的多个文本文件对智能聚类模型进行训练，以生成经过训练的智能聚类模型。

8.根据权利要求7所述的系统，利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括：

9.根据权利要求6所述的系统，将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。

10.根据权利要求6所述的系统，根据目标分类类型对经过聚类的文本文件进行查询。