CN112612888B - 一种用于对文本文件进行智能聚类的方法及系统 - Google Patents

一种用于对文本文件进行智能聚类的方法及系统 Download PDF

Info

Publication number
CN112612888B
CN112612888B CN202011572805.5A CN202011572805A CN112612888B CN 112612888 B CN112612888 B CN 112612888B CN 202011572805 A CN202011572805 A CN 202011572805A CN 112612888 B CN112612888 B CN 112612888B
Authority
CN
China
Prior art keywords
text
text file
file
type
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011572805.5A
Other languages
English (en)
Other versions
CN112612888A (zh
Inventor
李文艺
刘丹
刘硕
吴伟刚
潘竞旭
鲁龙
宋颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202011572805.5A priority Critical patent/CN112612888B/zh
Publication of CN112612888A publication Critical patent/CN112612888A/zh
Application granted granted Critical
Publication of CN112612888B publication Critical patent/CN112612888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于对文本文件进行智能聚类的方法及系统,方法包括:确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型,根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。

Description

一种用于对文本文件进行智能聚类的方法及系统
技术领域
本发明涉及文本处理技术领域,并且更具体地涉及,一种用于对文本文件进行智能聚类的方法及系统。
背景技术
对于一些大型企事业单位,由于需要处理的文件数量大、种类多、内容广泛,仅由人工进行分类,工作量特别繁琐。如果对每个文件附加作者、标签、分类等属性,会大大增加人工的作业量。所以我们需要一个智能聚类的功能来实现上传文件、添加属性、智能聚类、自动标签的需求。
文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种有监督的机器学习方法,智能聚类需要训练过程,需要预先对文档手工标注类别,因此具有一定的监督性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
发明内容
根据本发明的一个方面,提供一种用于对文本文件进行智能聚类的方法,所述方法包括:
获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;
确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;
对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;
为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;
将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;
若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;
若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。
还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。
利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:
基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。
将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。
根据目标分类类型对经过聚类的文本文件进行查询。
根据本发明的另一方面,提供一种用于对文本文件进行智能聚类的系统,所述系统包括:
获取单元,获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;
删除单元,确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;
分词单元,对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;
构建单元,为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;
处理单元,将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。
还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。
利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:
基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。
将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。
根据目标分类类型对经过聚类的文本文件进行查询。
本发明的关键点包括:1.使用Xgboost分类模型进行文本类别智能匹配的模型训练。2.对匹配值低于阈值的文档,可以由聚类算法自动生成两个最接近的分类,由用户进行人工确认,实现有监督的分类推荐。
本发明的有益效果包括:一、在海量文件数据的基础上,可以实现快速对文件进行智能分类。二、文档分类不需要人工过多干涉,大大节约了人力成本。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的对文本文件进行智能聚类的方法的流程图;
图2为根据本发明实施方式的对文本文件进行智能聚类的系统的结构示意图。
具体实施方式
图1为根据本发明实施方式的对文本文件进行智能聚类的方法的流程图。方法100包括:
步骤101,获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除。
步骤102,确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除。
步骤103,对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词。
步骤104,为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内。
步骤105,将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型。
步骤106,若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型。
步骤107,若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。
还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。根据目标分类类型对经过聚类的文本文件进行查询。
图2为根据本发明实施方式的对文本文件进行智能聚类的系统的结构示意图。系统200包括:获取单元201、删除单元202、分词单元203、构建单元204以及处理单元205。
获取单元201,获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除。
删除单元202,确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除。
分词单元203,对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词。
构建单元204,为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内。
处理单元205,将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。
还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。根据目标分类类型对经过聚类的文本文件进行查询。
此外,根据本发明的另一实施方式,本申请的系统包括:
模型训练单元,将已有文档类型与已经确定分类的文档文本进行匹配,训练智能匹配模型,模型中保存文档分类对应的文本特征。
1)文本预处理,首先是读训练文本的内容,其中文本格式包含PDF,Excell,WORD和txt四种格式;然后针对文本中出现的大段非中文符号进行过滤;接着使用Jieba分词,去停用词;最后使用sklearn库中的TFIDF模型进行文本的向量表示,作为后续分类和聚类模型的输入。
2)训练测试分类模型。对收集的带类别标注的文本数据,使用Xgboost分类模型进行文本类别的训练测试。
文档上传单元
将待分类的文档上传到文件服务器临时文件夹内。
文档智能分类单元
1)将已上传的需要智能聚类的文本数据封装成报文,并调用智能聚类接口。
2)执行智能匹配模型,生成文档分类结果。
3)若文档与智能匹配模型中已有分类匹配值高于设定阈值,则直接保存分类。
4)若文档与智能匹配模型中已有分类匹配值低于设定阈值,则按照聚类算法自动生成2-3个最为接近的分类供用户选择,并保存用户选择结果。
文档查询单元
1)将已分类文档的最终分类路径存储到数据库。
2)前端刷新页面,可以根据文件类别查询到智能聚类后的文档。。

Claims (10)

1.一种用于对文本文件进行智能聚类的方法,所述方法包括:
获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;
确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;
对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;
为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;
将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;
若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;
若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。
2.根据权利要求1所述的方法,还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。
3.根据权利要求2所述的方法,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:
基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。
4.根据权利要求1所述的方法,将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。
5.根据权利要求1所述的方法,根据目标分类类型对经过聚类的文本文件进行查询。
6.一种用于对文本文件进行智能聚类的系统,所述系统包括:
获取单元,获取待聚类的多个文本文件,确定多个文本文件中每个文本文件的文件类型,确定每个文本文件的文件类型是否符合预设的文件类型,将不符合预设文件类型的文本文件删除;
删除单元,确定符合预设文件类型的每个文本文件的至少一个语言种类,将每个文本文件中不符合至少一个语言种类的符号块组进行删除;
分词单元,对去除了符号块组的每个文本文件中的内容进行分词,对分词所获得的所有词语进行停用词过滤,以去掉去除了符号块组的每个文本文件中的所有的停用词;
构建单元,为去除了停用词的每个文本文件构建文本向量,将去除了停用词的每个文本文件上传到文件服务器的临时文件夹内;
处理单元,将所上传的每个文本文件封装成报文,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类,以生成初始的分类类型;若文本文件的初始分类类型与已有的任意分类类型的匹配值高于设定阈值,则将匹配值最高的分类类型作为文本文件的目标分类类型;若文本文件的初始分类类型与已有的每个分类类型的匹配值均低于设定阈值,则根据聚类规则生成多个候选的分类类型,并根据用户输入从多个候选的分类类型中确定文本文件的目标分类类型。
7.根据权利要求6所述的系统,还包括,获取具有分类类型的多个文本文件,利用具有分类类型的多个文本文件对智能聚类模型进行训练,以生成经过训练的智能聚类模型。
8.根据权利要求7所述的系统,利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类包括:
基于经过训练的智能聚类模型并利用所述每个文本文件对应的文本向量对每个文本文件进行智能聚类。
9.根据权利要求6所述的系统,将确定了目标分类类型的每个文本文件的分类路径存储到数据库中。
10.根据权利要求6所述的系统,根据目标分类类型对经过聚类的文本文件进行查询。
CN202011572805.5A 2020-12-25 2020-12-25 一种用于对文本文件进行智能聚类的方法及系统 Active CN112612888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011572805.5A CN112612888B (zh) 2020-12-25 2020-12-25 一种用于对文本文件进行智能聚类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011572805.5A CN112612888B (zh) 2020-12-25 2020-12-25 一种用于对文本文件进行智能聚类的方法及系统

Publications (2)

Publication Number Publication Date
CN112612888A CN112612888A (zh) 2021-04-06
CN112612888B true CN112612888B (zh) 2023-06-16

Family

ID=75247992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011572805.5A Active CN112612888B (zh) 2020-12-25 2020-12-25 一种用于对文本文件进行智能聚类的方法及系统

Country Status (1)

Country Link
CN (1) CN112612888B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729520A (zh) * 2017-10-27 2018-02-23 北京锐安科技有限公司 文件分类方法、装置、计算机设备及计算机可读介质
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10404274B2 (en) * 2017-01-15 2019-09-03 International Business Machines Corporation Space compression for file size reduction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729520A (zh) * 2017-10-27 2018-02-23 北京锐安科技有限公司 文件分类方法、装置、计算机设备及计算机可读介质
CN108009228A (zh) * 2017-11-27 2018-05-08 咪咕互动娱乐有限公司 一种内容标签的设置方法、装置及存储介质
CN109739978A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于fasttext模型的中文专利快速分类;陈子豪;谢从华;时敏;唐晓娜;;常熟理工学院学报(第05期);全文 *

Also Published As

Publication number Publication date
CN112612888A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112463926A (zh) 一种数据检索/智能问答方法、装置、存储介质
CN101620608A (zh) 信息采集方法及系统
CN113961685A (zh) 信息抽取方法及装置
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN107862051A (zh) 一种文件分类方法、系统及一种文件分类设备
US20240054281A1 (en) Document processing
CN115827862A (zh) 一种多元费用凭证数据关联采集方法
CN117150050A (zh) 一种基于大语言模型的知识图谱构建方法及系统
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN112632282B (zh) 一种中英文论文数据分类与查询方法
CN118013364A (zh) 一种多维数据智能标识方法
CN112612888B (zh) 一种用于对文本文件进行智能聚类的方法及系统
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN115496830A (zh) 产品需求流程图的生成方法及装置
CN115526601A (zh) 文件管理方法及装置
CN111090743B (zh) 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN114021555A (zh) 知识点自动标注的方法、装置、设备及可读存储介质
Errico et al. Dematerialization, Archiving and Recovery of Documents: A Proposed Tool Based on a Semantic Classifier and a Semantic Search Engine
CN112417220A (zh) 一种异构数据的整合方法
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
CN113268616B (zh) 参考文献内容提取方法和装置
CN113688607B (zh) 在线文档作者的画像更新方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant