CN112948574A - 批量文件上传分类的系统及方法 - Google Patents

批量文件上传分类的系统及方法 Download PDF

Info

Publication number
CN112948574A
CN112948574A CN201911262682.2A CN201911262682A CN112948574A CN 112948574 A CN112948574 A CN 112948574A CN 201911262682 A CN201911262682 A CN 201911262682A CN 112948574 A CN112948574 A CN 112948574A
Authority
CN
China
Prior art keywords
file
classification
module
files
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911262682.2A
Other languages
English (en)
Inventor
李爽爽
吴刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201911262682.2A priority Critical patent/CN112948574A/zh
Publication of CN112948574A publication Critical patent/CN112948574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种批量文件上传分类的系统及方法,通过获取待分类文件,并获取文件属性信息,根据文件属性信息以及文件分类规则对待分类文件进行分类,将分类成功的目标文件放入对应的文件夹下并存储。所述的系统包括:文件类型规则接收模块、获取模块、分类模块和存储模块。本发明实现了文件的自动分类,减少了用户操作,提高了分类效率,也提高了用户体验。

Description

批量文件上传分类的系统及方法
技术领域
本发明涉及的是一种批量文件上传和自动分类领域的技术,具体是一种批量文件上传分类的系统及方法。
背景技术
当前,各行业对文档的管理越来越重视。在工业园区管理系统中,要定期对园区内各个企业的电子文档以及纸质文档扫描后上传服务器进行分类归档,以供管理部门审查评估。传统的文件分类方法通过人工把电子文档或者文件扫描件保存到本地计算机中,然后手工选取相应的文件上传到文件服务器,并手工确定文件的类型和文件的分类目录。但是工业园区内企业众多,每个企业的文件数量繁多、且类型不同,采用传统的文件分类方法处理这种大批量的档案归档管理工作效率不高,且容易出现人为错误。
发明内容
本发明针对现有技术存在的上述不足,提出一种批量文件上传分类的系统及方法,通过获取待分类文件,并获取文件属性信息,根据文件属性信息以及文件分类规则对待分类文件进行分类,将分类成功的目标文件放入对应的文件夹下并存储,实现了文件的自动分类,减少了用户操作,提高了分类效率,也提高了用户体验。
本发明是通过以下技术方案实现的:
本发明涉及一种批量文件上传分类的系统,包括:文件类型规则接收模块、获取模块、分类模块和存储模块,其中:文件类型规则接收模块与获取模块相连并接收文件类型以及文件分类规则输出至获取模块,获取模块与分类模块相连并获取待分类文件,并接收文件的属性信息输出至分类模块,分类模块与存储模块相连并根据分类规则和文件属性信息对文件进行语义分析分类后输出至存储模块,存储模块将分类成功的文件加入到对应的文件夹下进行存储。
本发明涉及上述系统的控制方法,通过预先确定文件类型以及文件分类规则并存储,当用户触发的分类请求时获取目标文件,然后根据预设分类规则获取目标文件的属性信息,再根据属性信息进行语义分析结合预设分类规则确定目标文件的目标分类,最后将目标文件加入目标分类对应的目标文件夹。
所述的属性信息包括:任一单个或者多种组合的名称信息、时间信息和文件类型信息。
技术效果
与现有技术相比,本发明通过获取待分类文件,并获取文件属性信息,根据文件属性信息以及文件分类规则对待分类文件进行分类,将分类成功的目标文件放入对应的文件夹下并存储,实现了文件的自动分类,减少了用户操作,提高了分类效率,也提高了用户体验。
附图说明
图1为本发明系统结构图;
图2为本发明方法流程图;
图中:文件类型规则接收模块1、获取模块2、分类模块3、存储模块4。
具体实施方式
如图1所示,为本实施例涉及的一种基于上述分类方法的系统,包括:文件类型规则接收模块1、获取模块2、分类模块3和存储模块4,其中:文件类型规则接收模块1与获取模块2相连,用以接收文件类型以及文件分类规则输出至获取模块2,获取模块2与分类模块3相连,用以获取待分类文件,并接收文件的属性信息输出至分类模块3,分类模块3与存储模块4相连,用以根据分类规则和文件属性信息对文件进行语义分析分类并输出至存储模块5,存储模块将分类成功的文件加入到对应的文件夹下进行存储。
所述的文件类型规则接收模块1内置用户自定义的文件类型以及对应的文件分类规则。
所述的获取模块2包括:文件名提取单元和信息传输单元,其中:文件名提取单元获取用户一键上传的所有文件,并提取文件的文件名信息;信息传输单元通过HTTP请求将文件名信息传给后台服务端,服务端获取到文件名信息。
所述的分类模块3根据处理文件分类规则的业务逻辑代码,按照规定的文件分类规则,应用最长公共子序列算法实现文件分类。
所述的存储模块4包括:类型匹配单元和位置匹配单元,其中:类型匹配单元将完成分类的文件名称以及对应的文件类型保存在表格中,位置匹配单元将完成分类的文件名称放在对应的文件类型文件夹下,并展示在前端页面中。
本实施例涉及上述系统的一种批量文件上传分类的方法,包含以下步骤:
S101、确定文件类型以及文件分类规则并存储,其中:文件分类规则是指某种文件类型所对应的关键字,如表1所示;
S102、对纸质文档进行扫描,得到扫描文件;
表1七种文件类型以及对应的分类规则
Figure BDA0002311989040000021
Figure BDA0002311989040000031
S103、响应用户触发的分类请求,获取目标文件;
所述的待分类文件包括:至少其中一种的word、txt、pdf文件。
S104、根据预设分类规则,获取目标文件的属性信息,即文件名称信息,具体为:采用LCS最长公共子序列的算法来作匹配,分别计算文件属性信息与各文件分类规则中的最长公共子序列,当最长公共子序列长度大于某个数时,为匹配成功;
S105、根据属性信息进行语义分析,结合预设分类规则,确定目标文件的目标分类,具体为:首先结合每个园区规定的分类规则,确定最长公共子序列的长度最小值,然后使用LCS算法将文件属性信息分别与各文件分类规则作匹配,当最长公共子序列长度大于确定的最长公共子序列长度最小值时,即可匹配成功,最后实现文件的自动分类;
本实施例文件分类规则最短的长度为4,当最长公共子序列的长度大于3时,表示匹配成功;例如:文件名“LG-008-1-3厂区环保信息平面图.png”的目标文件,与各分类规则匹配得到的最长公共子序列为“信息平面图”,长度为5,与企业基本信息文件类型匹配,分类成功。
如表2所示,为获取的目标文件、及对应的分类规则和文件类型举例;
表2目标文件及对应的分类规则和文件类型案例
Figure BDA0002311989040000032
S106、将目标文件加入目标分类对应的目标文件夹。
所述的属性信息包括:任一单个或者多种组合的名称信息、时间信息和文件类型信息。
所述的步骤5中目标文件加入到目标文件夹后,可手动移动所述目标文件所处的文件夹位置。
将本方法应用具体应用时,选取两个公司的档案文件夹。然后,分别一键上传,最后实验结果是:公司A档案文件夹下的20个文件有19个文件实现了正确的分类,正确分类率为95%,耗时16s,公司B档案文件夹下的25个文件有22个文件实现了正确的分类,正确分类率为88%,耗时22s。
本发明实现了批量文件上传分类的功能,并且文件自动分类完成后,若存在分类不正确的情况,可手动完成二次分类。在分类规则以及上传的文件名称较准确的情况下,文件正确分类率平均有90%。相比传统的文件分类方法,提高了文件分类的效率;并且本发明方法相比基于文本识别从而实现文件自动分类方法,在实际的实践开发过程中,更简洁易用,且耗时较短,每个文件的分类时间不超过1s。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (5)

1.一种批量文件上传分类系统,其特征在于,包括:文件类型规则接收模块、获取模块、分类模块和存储模块,其中:文件类型规则接收模块与获取模块相连并接收文件类型以及文件分类规则输出至获取模块,获取模块与分类模块相连并获取待分类文件,并接收文件的属性信息输出至分类模块,分类模块与存储模块相连并根据分类规则和文件属性信息对文件进行语义分析分类后输出至存储模块,存储模块将分类成功的文件加入到对应的文件夹下进行存储;
所述的文件类型规则接收模块内置用户自定义的文件类型以及对应的文件分类规则;
所述的分类模块根据处理文件分类规则的业务逻辑代码,按照规定的文件分类规则,应用最长公共子序列算法实现文件分类。
2.根据权利要求1所述的批量文件上传分类系统,其特征是,所述的获取模块包括:文件名提取单元和信息传输单元,其中:文件名提取单元获取用户一键上传的所有文件,并提取文件的文件名信息;信息传输单元通过HTTP请求将文件名信息传给后台服务端,服务端获取到文件名信息。
3.根据权利要求1所述的批量文件上传分类系统,其特征是,所述的存储模块包括:类型匹配单元和位置匹配单元,其中:类型匹配单元将完成分类的文件名称以及对应的文件类型保存在表格中,位置匹配单元将完成分类的文件名称放在对应的文件类型文件夹下,并展示在前端页面中。
4.根据上述任一权利要求所述系统的控制方法,其特征在于,通过预先确定文件类型以及文件分类规则并存储,当用户触发的分类请求时获取目标文件,然后根据预设分类规则获取目标文件的属性信息,再根据属性信息进行语义分析结合预设分类规则确定目标文件的目标分类,最后将目标文件加入目标分类对应的目标文件夹;
所述的确定目标文件的目标分类,具体为:采用LCS最长公共子序列的算法来作匹配,分别计算文件属性信息与各文件分类规则中的最长公共子序列,当最长公共子序列长度大于某个数时,为匹配成功;
所述的属性信息包括:任一单个或者多种组合的名称信息、时间信息和文件类型信息。
5.根据权利要求4所述的方法,其特征是,具体包括:
1)确定文件类型以及文件分类规则并存储,其中:文件分类规则是指某种文件类型所对应的关键字;
2)对纸质文档进行扫描,得到扫描文件;
3)响应用户触发的分类请求,获取目标文件;
4)根据预设分类规则,获取目标文件的属性信息,即文件名称信息,具体为:采用LCS最长公共子序列的算法来作匹配,分别计算文件属性信息与各文件分类规则中的最长公共子序列,当最长公共子序列长度大于某个数时,为匹配成功;
5)根据属性信息进行语义分析,结合预设分类规则,确定目标文件的目标分类,具体为:首先结合每个园区规定的分类规则,确定最长公共子序列的长度最小值,然后使用LCS算法将文件属性信息分别与各文件分类规则作匹配,当最长公共子序列长度大于确定的最长公共子序列长度最小值时,即可匹配成功,最后实现文件的自动分类。
CN201911262682.2A 2019-12-11 2019-12-11 批量文件上传分类的系统及方法 Pending CN112948574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911262682.2A CN112948574A (zh) 2019-12-11 2019-12-11 批量文件上传分类的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911262682.2A CN112948574A (zh) 2019-12-11 2019-12-11 批量文件上传分类的系统及方法

Publications (1)

Publication Number Publication Date
CN112948574A true CN112948574A (zh) 2021-06-11

Family

ID=76225957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911262682.2A Pending CN112948574A (zh) 2019-12-11 2019-12-11 批量文件上传分类的系统及方法

Country Status (1)

Country Link
CN (1) CN112948574A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890872A (zh) * 2021-09-07 2022-01-04 深圳Tcl新技术有限公司 一种数据集合上传方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733830A (zh) * 2018-05-24 2018-11-02 北京邦邦共赢网络科技有限公司 一种智能化文件分类方法和装置
CN108804624A (zh) * 2013-12-18 2018-11-13 国网江苏省电力有限公司常州供电分公司 文挡录入并比对的方法
CN109522405A (zh) * 2018-09-29 2019-03-26 南昌与德软件技术有限公司 文件信息处理方法、电子设备以及计算机可读存介质
US20190095439A1 (en) * 2017-09-22 2019-03-28 Microsoft Technology Licensing, Llc Content pattern based automatic document classification
CN109543023A (zh) * 2018-09-29 2019-03-29 中国石油化工股份有限公司石油勘探开发研究院 基于trie和LCS算法的文献分类方法和系统
CN109992645A (zh) * 2019-03-29 2019-07-09 国家计算机网络与信息安全管理中心 一种基于文本数据的资料管理系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804624A (zh) * 2013-12-18 2018-11-13 国网江苏省电力有限公司常州供电分公司 文挡录入并比对的方法
US20190095439A1 (en) * 2017-09-22 2019-03-28 Microsoft Technology Licensing, Llc Content pattern based automatic document classification
CN108733830A (zh) * 2018-05-24 2018-11-02 北京邦邦共赢网络科技有限公司 一种智能化文件分类方法和装置
CN109522405A (zh) * 2018-09-29 2019-03-26 南昌与德软件技术有限公司 文件信息处理方法、电子设备以及计算机可读存介质
CN109543023A (zh) * 2018-09-29 2019-03-29 中国石油化工股份有限公司石油勘探开发研究院 基于trie和LCS算法的文献分类方法和系统
CN109992645A (zh) * 2019-03-29 2019-07-09 国家计算机网络与信息安全管理中心 一种基于文本数据的资料管理系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890872A (zh) * 2021-09-07 2022-01-04 深圳Tcl新技术有限公司 一种数据集合上传方法、装置、电子设备和存储介质
CN113890872B (zh) * 2021-09-07 2024-03-12 深圳Tcl新技术有限公司 一种数据集合上传方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN104636469B (zh) 文件自动分类管理方法和系统
US9753951B1 (en) Presenting image search results
KR101462289B1 (ko) 모바일 장치 시스템을 이용한 디지털 이미지 아카이빙 및 검색
US8315997B1 (en) Automatic identification of document versions
CA3004599C (en) System and method for automated address verification
CN110188077B (zh) 一种电子卷宗智能分类方法、装置、电子设备和存储介质
AU2015203150A1 (en) System and method for data extraction and searching
CN105335453B (zh) 图像分文档方法
CN112132710B (zh) 法律要素处理方法、装置、电子设备及存储介质
CN104346415A (zh) 图像文档命名的方法
CN110705235A (zh) 业务办理的信息录入方法、装置、存储介质及电子设备
CN111782595A (zh) 海量文件管理方法、装置、计算机设备和可读存储介质
CN107704520B (zh) 基于人脸识别的多文件检索方法和装置
CN117077628A (zh) 舆情应对预案生成方法、装置、服务器及存储介质
US10579653B2 (en) Apparatus, method, and computer-readable medium for recognition of a digital document
CN112948574A (zh) 批量文件上传分类的系统及方法
US8787681B1 (en) System and method for classifying documents
US20200219481A1 (en) System and method for discriminating removing boilerplate text in documents comprising structured labelled text elements
CN116244421A (zh) 项目名称匹配的方法、装置、设备及可读存储介质
CN112149679B (zh) 一种基于ocr文字识别提取公文要素的方法及装置
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
CN109710570B (zh) 一种核电厂生产准备文件管理方法及系统
CN112395291A (zh) 一种根据数据资产动态生成宽表的方法及系统
US9842104B2 (en) Textual geographic location processing
CN117493712B (zh) Pdf文档可导航目录提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611