CN116701306B - 一种用于档案的智能分拣与归档管理方法与系统 - Google Patents

一种用于档案的智能分拣与归档管理方法与系统 Download PDF

Info

Publication number
CN116701306B
CN116701306B CN202310983668.1A CN202310983668A CN116701306B CN 116701306 B CN116701306 B CN 116701306B CN 202310983668 A CN202310983668 A CN 202310983668A CN 116701306 B CN116701306 B CN 116701306B
Authority
CN
China
Prior art keywords
files
processed
similarity
determining
archiving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310983668.1A
Other languages
English (en)
Other versions
CN116701306A (zh
Inventor
梁尔真
郑望献
吴存锋
王园
楼新园
曹军
留巍
张嘉琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Original Assignee
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xinghan Information Technology Ltd By Share Ltd filed Critical Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority to CN202310983668.1A priority Critical patent/CN116701306B/zh
Publication of CN116701306A publication Critical patent/CN116701306A/zh
Application granted granted Critical
Publication of CN116701306B publication Critical patent/CN116701306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于档案的智能分拣与归档管理方法与系统,属于档案管理技术领域,具体包括:将待存档处理的电子档案作为待处理档案,根据待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,根据存档复杂度、存储处理优先值、相似度处理优先值确定优先处理档案的存档优先度以及存档处理顺序,从而提升了档案的自动智能分检和差异化归档管理。

Description

一种用于档案的智能分拣与归档管理方法与系统
技术领域
本发明属于档案管理技术领域,尤其涉及一种用于档案的智能分拣与归档管理方法与系统。
背景技术
为了实现对电子档案的分拣以及自动归档操作,在CN115455266B《一种电子档案自动采集归档方法及系统》中根据电子档案的特征数据与数据归档属性进行匹配,确定档案归档位置,根据档案归档位置对所述电子档案进行归档,但是却存在以下技术问题:
1、在需要进行待存档处理的电子档案较多时,未考虑结合待存档处理的电子档案与已存档的电子档案的相似度以及待存档处理的电子档案的分档难度进行待存档处理的电子档案的处理顺序的确定,具体的,当待存档处理的电子档案与已存档的电子档案的相似度过高或者疑似相似度较高的已存档的电子档案的数量较多时,或者待存档处理的电子档案的分档难度较大时,此时若不能结合上述因素,则会导致存档处理的效率变差。
2、在进行分档处理之前,未考虑待存档处理的电子档案之间的相似情况进行分拣处理,具体的,若存在多个疑似类似的待存档处理的电子档案时,若不能进行差异化的分拣及分类,则同样会使得存档处理的效率变差。
针对上述技术问题,本发明提供了一种用于档案的智能分拣与归档管理方法与系统。
发明内容
为实现本发明目的,本发明采用如下技术方案:
根据本发明的一个方面,提供了一种用于档案的智能分拣与归档管理方法。
一种用于档案的智能分拣与归档管理方法,其特征在于,具体包括:
S11将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,并通过所述相似度处理优先值进行筛选档案的确定,将不属于筛选档案的待处理档案的处理优先级设置为第三处理优先级;
S12至少根据所述筛选档案的标题和页数确定与已存档档案的初始相似度以及已存档类似方案,并通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,并通过所述存档处理优先值进行二次筛选档案的确定,将不属于二次筛选档案的筛选档案的处理优先级设置为第二处理优先级;
S13至少根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,将不属于优先处理档案的二次筛选档案的处理优先级设置为第一处理优先级;
S14根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
进一步的技术方案在于,在进行所述待处理档案之间的相似度的评估之前,还需要对所述待处理档案的档案质量进行评估,并将所述档案质量不满足要求的待处理档案的处理优先级设置为第四处理优先级,将所述档案质量不满足要求的待处理档案排除后再进行所述待处理档案之间的相似度的评估。
进一步的技术方案在于,所述第一处理优先级大于第二处理优先级,所述第二处理优先级大于第三处理优先级,所述第三处理优先级大于第四处理优先级。
进一步的技术方案在于,所述存档处理顺序的确定的方法为:
当所述优先处理档案的存档优先度大于优先度设定值时,则通过所述优先处理档案的存档优先度进行所述优先处理档案的存档处理顺序的确定;
当所述优先处理档案的存档优先度不大于优先度设定值时,则通过所述优先处理档案的存档复杂度进行所述优先处理档案的存档处理顺序的确定。
第二方面,本发明提供了一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种用于档案的智能分拣与归档管理方法。
第三方面,本申请实施例中提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种用于档案的智能分拣与归档管理方法。
本发明的有益效果在于:
通过待处理档案之间的相似度的评估,实现待处理档案与其它的待处理档案之间的相似度的确定,从而保证了相似度较大的类似档案的数量较多的待处理档案的确定,考虑到类似档案过多,需要首先确定不同的类似档案之间的相似情况,其处理难度较大,因此需要将存档处理顺序延后,保证存档处理的效率。
通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,从而实现了待处理档案与已存档档案的相似情况实现了对重复可能性较高的待处理档案的确定,避免了由于与已存档档案的重复可能性较高导致的存档处理效率较低的技术问题,并且保证了存档处理的效率。
根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,实现了从二次筛选档案的存档的复杂程度实现了对档案的区分管理,进一步保证了档案的存档处理的效率。
根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序,从而实现了从多个角度对优先处理档案的存档优先度以及处理顺序的确定,既保证了存档处理的效率,同时也实现了对不同的档案的差异化分类和处理。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显;
图1是一种用于档案的智能分拣与归档管理方法的流程图;
图2是待处理档案的档案质量的评估的方法的流程图;
图3是相似度的评估的方法的流程图;
图4是相似度处理优先值的确定的方法的流程图;
图5是存档处理优先值的确定的方法的流程图;
图6是存档复杂度的确定的方法的流程图;
图7是一种计算机系统的框架图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
为解决上述问题,根据本发明的一个方面,如图1所示,提供了根据本发明的一个方面,提供了一种用于档案的智能分拣与归档管理方法,其特征在于,具体包括:
S11将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,并通过所述相似度处理优先值进行筛选档案的确定,将不属于筛选档案的待处理档案的处理优先级设置为第三处理优先级;
在本实施例中,通过待处理档案之间的相似度的评估,实现待处理档案与其它的待处理档案之间的相似度的确定,从而保证了相似度较大的类似档案的数量较多的待处理档案的确定,考虑到类似档案过多,需要首先确定不同的类似档案之间的相似情况,其处理难度较大,因此需要将存档处理顺序延后,保证存档处理的效率。
需要说明的是,在进行所述待处理档案之间的相似度的评估之前,还需要对所述待处理档案的档案质量进行评估,并将所述档案质量不满足要求的待处理档案的处理优先级设置为第四处理优先级,将所述档案质量不满足要求的待处理档案排除后再进行所述待处理档案之间的相似度的评估。
可以理解的是,对于待处理档案存在空白页或者存在空白部分的页面的数量较多的档案,由于存在质量不佳的可能性,因此也必须进行进一步的评估,需要将其存档处理的顺序延后。
可以理解的是,所述第一处理优先级大于第二处理优先级,所述第二处理优先级大于第三处理优先级,所述第三处理优先级大于第四处理优先级。
具体的举例说明,如图2所示,所述待处理档案的档案质量的评估的方法为:
S21根据所述待处理档案的存储空间对所述待处理档案进行筛选得到存储异常的待处理档案,并判断所述待处理档案是否属于存储异常的待处理档案,若是,则进入下一步骤,若否,则进入步骤S23;
当档案的存储空间明显较小时,此时有可能属于空白档案,因此必须对空白档案类似的异常质量档案进行筛选,从而提升档案处理的效率。
S22根据所述待处理档案的字符数量进行空白档案的识别,并判断所述待处理档案是否属于空白档案,若是,则确定所述待处理档案的档案质量不满足要求,若否,则进入下一步骤;
S23根据所述待处理档案的字符数量以及页数进行异常待处理档案的识别,并判断所述待处理档案是否属于异常待处理档案,若是,则进入步骤S24,若否,则确定所述代理档案的档案质量满足要求;
当待处理档案的字符数量较少,但是页数较多时,此时存在空白页的可能性大大增加,因此通过该步骤的识别,提升了档案的识别和处理效率。
S24对所述异常待处理档案中的空白页进行识别得到所述异常待处理档案中的空白页的数量以及所述空白页的数量与所述异常待处理档案的页数的比例,并结合所述异常待处理档案的页面中的空白比例大于预设比例的页面数量进行所述异常待处理档案的档案质量的确定。
具体的举例说明,如图3所示,所述相似度的评估的方法为:
根据所述待处理档案的标题进行分词处理得到所述待处理档案的题目关键词,并根据所述题目关键词确定所述待处理档案与所述其它的待处理档案的题目相似度;
根据所述待处理档案的页数与所述其它的待处理档案的页数的偏差量进行所述待处理档案与所述其它的待处理档案的页面相似度;
根据所述待处理档案与所述其它的待处理档案的题目相似度和页面相似度进行所述待处理档案之间的相似度的评估。
可以理解的是,所述相似档案的确定,具体包括:
当所述其它的待处理档案与所述待处理档案的相似度大于相似度预设值时,则确定所述其它的待处理档案为相似档案。
需要说明的是,当其它的待处理档案与所述待处理档案的相似度大于0.7及以上时,则确定所述其它的待处理档案为相似档案。
具体的举例说明,如图4所示,所述相似度处理优先值的确定的方法为:
S31获取所述待处理档案的类似档案的相似度,并根据所述类似档案的相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
当相似度特别高时,则将相似度特别高的类似档案作为疑似重复档案,对于存在疑似重复档案的待处理档案处理优先级设置为第三处理优先级。
S32获取所述待处理档案的类似档案的数量,并根据所述待处理档案的类似档案的数量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
当类似档案的数量较多时,此时存在重复档案的可能性也比较大,因此需要将待处理档案的处理优先级设置为第三处理优先级。
S33根据所述类似档案的相似度的最大值以及所述类似档案的数量,并结合所述类似档案的相似度的均值进行所述类似档案的相似度评估量的确定,并根据所述类似档案的相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
相似度评估量反应的是类似档案与待处理档案的综合的相似度,实现了对重复档案的存在概率的准确评估。
S34 根据所述类似档案与所述待处理档案的字符数量进行所述类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、相似度进行所述类似档案的综合相似度的确定,通过所述类似档案的综合相似度、数量以及所述类似档案的综合相似度的最大值进行所述待处理档案的相似度处理优先值的确定。
需要说明的是,通过所述相似度处理优先值进行筛选档案的确定,具体包括:
当所述待处理档案的相似度处理优先值大于预设优先处理量时,则将所述待处理档案作为筛选档案。
在本实施例中,通过根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值进行相似度处理优先值的确定,从而实现了从待处理档案中的类似档案的情况实现了对重复可能性较高的待处理档案的确定,避免了由于重复可能性较高导致的存档处理效率较低的技术问题的出现。
S12至少根据所述筛选档案的标题和页数确定与已存档档案的初始相似度以及已存档类似方案,并通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,并通过所述存档处理优先值进行二次筛选档案的确定,将不属于二次筛选档案的筛选档案的处理优先级设置为第二处理优先级;
具体的举例说明,如图5所示,所述存档处理优先值的确定的方法为:
S41获取所述待处理档案的已存档类似档案的相似度,并根据所述已存档类似档案的初始相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;
S42获取所述待处理档案的已存档类似档案的数量,并根据所述待处理档案的已存档类似档案的数量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;
S43根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定,并根据所述已存档类似档案的存档相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
S44 根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定。
在本实施例中,通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,从而实现了待处理档案与已存档档案的相似情况实现了对重复可能性较高的待处理档案的确定,避免了由于与已存档档案的重复可能性较高导致的存档处理效率较低的技术问题,并且保证了存档处理的效率。
S13至少根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,将不属于优先处理档案的二次筛选档案的处理优先级设置为第一处理优先级;
具体的,如图6所示,所述存档复杂度的确定的方法为:
S51根据所述二次筛选档案与所述已存档档案的初始相似度确定是否存在已存档类似档案,若是,则进入步骤S52,若否,则将所述二次筛选档案的存档复杂度设置为0;
S52通过所述二次筛选档案的页数、字符数量以及图片数量进行所述二次筛选档案的相似度评估难度的确定,并根据所述相似度评估难度进行所述二次筛选档案的存档基础复杂度的确定;
S53根据所述二次筛选档案的单页的字符数量进行所述二次筛选档案的单页的字符相似度评估复杂度的确定,并根据所述字符相似度评估复杂度进行复杂页面的确定,根据所述复杂页面的数量、比例、所述二次筛选档案的页数以及字符相似度评估复杂度的平均值进行所述二次筛选档案的字符评估复杂度的确定,并通过所述二次筛选档案的字符评估复杂度确定所述存档基础复杂度是否准确,若是,则进入下一步骤,若否,则进入步骤S55;
S54通过所述二次筛选档案的单页的图片数量进行复杂图片页面的确定,并根据所述复杂图片页面的数量以及比例、存在图片的页面的数量以及比例进行所述二次筛选档案的图片评估复杂度的评估,并根据所述二次筛选档案的图片评估复杂度确定所述存档基础复杂度是否准确,若是,则通过所述存档基础复杂度进行所述二次筛选档案的存档复杂度的确定,若否,则进入步骤S55;
S55根据所述二次筛选档案的存档基础复杂度、字符评估复杂度、图片评估复杂度进行所述二次筛选档案的存档复杂度的确定。
在本实施例中,根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,实现了从二次筛选档案的存档的复杂程度实现了对档案的区分管理,进一步保证了档案的存档处理的效率。
S14根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
具体的,所述存档处理顺序的确定的方法为:
当所述优先处理档案的存档优先度大于优先度设定值时,则通过所述优先处理档案的存档优先度进行所述优先处理档案的存档处理顺序的确定;
当所述优先处理档案的存档优先度不大于优先度设定值时,则通过所述优先处理档案的存档复杂度进行所述优先处理档案的存档处理顺序的确定。
在本实施例中,根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序,从而实现了从多个角度对优先处理档案的存档优先度以及处理顺序的确定,既保证了存档处理的效率,同时也实现了对不同的档案的差异化分类和处理。
另一方面,如图7所示,本发明提供了一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种用于档案的智能分拣与归档管理方法。
其中上述的一种用于档案的智能分拣与归档管理方法,具体包括:
将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值;
获取所述待处理档案的已存档类似档案的数量,根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定;
根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定;
根据所述二次筛选档案与所述已存档档案的初始相似度确定存在已存档类似档案时,进入下一步骤;
通过所述二次筛选档案的页数、字符数量以及图片数量进行所述二次筛选档案的相似度评估难度的确定,并根据所述相似度评估难度进行所述二次筛选档案的存档基础复杂度的确定;
根据所述二次筛选档案的单页的字符数量进行所述二次筛选档案的单页的字符相似度评估复杂度的确定,并根据所述字符相似度评估复杂度进行复杂页面的确定,根据所述复杂页面的数量、比例、所述二次筛选档案的页数以及字符相似度评估复杂度的平均值进行所述二次筛选档案的字符评估复杂度的确定;
通过所述二次筛选档案的单页的图片数量进行复杂图片页面的确定,并根据所述复杂图片页面的数量以及比例、存在图片的页面的数量以及比例进行所述二次筛选档案的图片评估复杂度的评估;
根据所述二次筛选档案的存档基础复杂度、字符评估复杂度、图片评估复杂度进行所述二次筛选档案的存档复杂度的确定,根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
另一方面,本申请实施例中提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种用于档案的智能分拣与归档管理方法。
其中上述的一种用于档案的智能分拣与归档管理方法,具体包括:
将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值;
获取所述待处理档案的已存档类似档案的相似度,并根据所述已存档类似档案的初始相似度确定不存在疑似重复档案时,则进入下一步骤;
获取所述待处理档案的已存档类似档案的数量,根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定,并根据所述已存档类似档案的存档相似度评估量确定不需要将所述待处理档案的处理优先级设置为第二处理优先级时,进入下一步骤;
根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定;
根据所述二次筛选档案与所述已存档档案的初始相似度确定存在已存档类似档案时,进入下一步骤;
通过所述二次筛选档案的页数、字符数量以及图片数量进行所述二次筛选档案的相似度评估难度的确定,并根据所述相似度评估难度进行所述二次筛选档案的存档基础复杂度的确定;
根据所述二次筛选档案的单页的字符数量进行所述二次筛选档案的单页的字符相似度评估复杂度的确定,并根据所述字符相似度评估复杂度进行复杂页面的确定,根据所述复杂页面的数量、比例、所述二次筛选档案的页数以及字符相似度评估复杂度的平均值进行所述二次筛选档案的字符评估复杂度的确定;
通过所述二次筛选档案的单页的图片数量进行复杂图片页面的确定,并根据所述复杂图片页面的数量以及比例、存在图片的页面的数量以及比例进行所述二次筛选档案的图片评估复杂度的评估;
根据所述二次筛选档案的存档基础复杂度、字符评估复杂度、图片评估复杂度进行所述二次筛选档案的存档复杂度的确定,根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (12)

1.一种用于档案的智能分拣与归档管理方法,其特征在于,具体包括:
将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,并通过所述相似度处理优先值进行筛选档案的确定,将不属于筛选档案的待处理档案的处理优先级设置为第三处理优先级;
至少根据所述筛选档案的标题和页数确定与已存档档案的初始相似度以及已存档类似方案,并通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,并通过所述存档处理优先值进行二次筛选档案的确定,将不属于二次筛选档案的筛选档案的处理优先级设置为第二处理优先级;
至少根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,将不属于优先处理档案的二次筛选档案的处理优先级设置为第一处理优先级;
根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
2.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,在进行所述待处理档案之间的相似度的评估之前,还需要对所述待处理档案的档案质量进行评估,并将所述档案质量不满足要求的待处理档案的处理优先级设置为第四处理优先级,将所述档案质量不满足要求的待处理档案排除后再进行所述待处理档案之间的相似度的评估。
3.如权利要求2所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述第一处理优先级大于第二处理优先级,所述第二处理优先级大于第三处理优先级,所述第三处理优先级大于第四处理优先级。
4.如权利要求2所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述待处理档案的档案质量的评估的方法为:
S21根据所述待处理档案的存储空间对所述待处理档案进行筛选得到存储异常的待处理档案,并判断所述待处理档案是否属于存储异常的待处理档案,若是,则进入下一步骤,若否,则进入步骤S23;
S22根据所述待处理档案的字符数量进行空白档案的识别,并判断所述待处理档案是否属于空白档案,若是,则确定所述待处理档案的档案质量不满足要求,若否,则进入下一步骤;
S23根据所述待处理档案的字符数量以及页数进行异常待处理档案的识别,并判断所述待处理档案是否属于异常待处理档案,若是,则进入步骤S24,若否,则确定所述待处理档案的档案质量满足要求;
S24对所述异常待处理档案中的空白页进行识别得到所述异常待处理档案中的空白页的数量以及所述空白页的数量与所述异常待处理档案的页数的比例,并结合所述异常待处理档案的页面中的空白比例大于预设比例的页面数量进行所述异常待处理档案的档案质量的确定。
5.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述相似度的评估的方法为:
根据所述待处理档案的标题进行分词处理得到所述待处理档案的题目关键词,并根据所述题目关键词确定所述待处理档案与所述其它的待处理档案的题目相似度;
根据所述待处理档案的页数与所述其它的待处理档案的页数的偏差量进行所述待处理档案与所述其它的待处理档案的页面相似度;
根据所述待处理档案与所述其它的待处理档案的题目相似度和页面相似度进行所述待处理档案之间的相似度的评估。
6.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述类似档案的确定,具体包括:
当所述其它的待处理档案与所述待处理档案的相似度大于相似度预设值时,则确定所述其它的待处理档案为类似档案。
7.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述相似度处理优先值的确定的方法为:
获取所述待处理档案的类似档案的相似度,并根据所述类似档案的相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
获取所述待处理档案的类似档案的数量,并根据所述待处理档案的类似档案的数量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
根据所述类似档案的相似度的最大值以及所述类似档案的数量,并结合所述类似档案的相似度的均值进行所述类似档案的相似度评估量的确定,并根据所述类似档案的相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
根据所述类似档案与所述待处理档案的字符数量进行所述类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、相似度进行所述类似档案的综合相似度的确定,通过所述类似档案的综合相似度、数量以及所述类似档案的综合相似度的最大值进行所述待处理档案的相似度处理优先值的确定。
8.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,通过所述相似度处理优先值进行筛选档案的确定,具体包括:
当所述待处理档案的相似度处理优先值大于预设优先处理量时,则将所述待处理档案作为筛选档案。
9.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述存档处理优先值的确定的方法为:
获取所述待处理档案的已存档类似档案的相似度,并根据所述已存档类似档案的初始相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;
获取所述待处理档案的已存档类似档案的数量,并根据所述待处理档案的已存档类似档案的数量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;
根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定,并根据所述已存档类似档案的存档相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;
根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定。
10.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述存档处理顺序的确定的方法为:
当所述优先处理档案的存档优先度大于优先度设定值时,则通过所述优先处理档案的存档优先度进行所述优先处理档案的存档处理顺序的确定;
当所述优先处理档案的存档优先度不大于优先度设定值时,则通过所述优先处理档案的存档复杂度进行所述优先处理档案的存档处理顺序的确定。
11.一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行权利要求1-10任一项所述的一种用于档案的智能分拣与归档管理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10任一项所述的一种用于档案的智能分拣与归档管理方法。
CN202310983668.1A 2023-08-07 2023-08-07 一种用于档案的智能分拣与归档管理方法与系统 Active CN116701306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310983668.1A CN116701306B (zh) 2023-08-07 2023-08-07 一种用于档案的智能分拣与归档管理方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310983668.1A CN116701306B (zh) 2023-08-07 2023-08-07 一种用于档案的智能分拣与归档管理方法与系统

Publications (2)

Publication Number Publication Date
CN116701306A CN116701306A (zh) 2023-09-05
CN116701306B true CN116701306B (zh) 2023-10-24

Family

ID=87826143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310983668.1A Active CN116701306B (zh) 2023-08-07 2023-08-07 一种用于档案的智能分拣与归档管理方法与系统

Country Status (1)

Country Link
CN (1) CN116701306B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975314B (zh) * 2023-09-25 2023-12-22 浙江星汉信息技术股份有限公司 一种电子档案智能查询方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2799877A1 (en) * 2011-12-29 2013-06-29 Tata Consultancy Services Limited Data archiving and de-archiving in a business environment
CN106294009A (zh) * 2016-08-05 2017-01-04 北京小米移动软件有限公司 数据库归档方法及系统
CN107766480A (zh) * 2017-10-13 2018-03-06 西安科怡信息技术有限公司 一种综合档案信息系统
CN113111206A (zh) * 2021-04-19 2021-07-13 浙江商汤科技开发有限公司 图搜方法、装置、电子设备以及存储介质
CN113515610A (zh) * 2021-06-21 2021-10-19 中盾创新档案管理(北京)有限公司 一种基于面向对象语言处理的档案管理方法
CN113515597A (zh) * 2021-06-21 2021-10-19 中盾创新档案管理(北京)有限公司 一种基于关联规则挖掘的档案处理方法
CN116168222A (zh) * 2023-03-15 2023-05-26 浙江大华技术股份有限公司 轨迹识别方法和装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9823978B2 (en) * 2014-04-16 2017-11-21 Commvault Systems, Inc. User-level quota management of data objects stored in information management systems

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2799877A1 (en) * 2011-12-29 2013-06-29 Tata Consultancy Services Limited Data archiving and de-archiving in a business environment
CN106294009A (zh) * 2016-08-05 2017-01-04 北京小米移动软件有限公司 数据库归档方法及系统
CN107766480A (zh) * 2017-10-13 2018-03-06 西安科怡信息技术有限公司 一种综合档案信息系统
CN113111206A (zh) * 2021-04-19 2021-07-13 浙江商汤科技开发有限公司 图搜方法、装置、电子设备以及存储介质
CN113515610A (zh) * 2021-06-21 2021-10-19 中盾创新档案管理(北京)有限公司 一种基于面向对象语言处理的档案管理方法
CN113515597A (zh) * 2021-06-21 2021-10-19 中盾创新档案管理(北京)有限公司 一种基于关联规则挖掘的档案处理方法
CN116168222A (zh) * 2023-03-15 2023-05-26 浙江大华技术股份有限公司 轨迹识别方法和装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于工作流的自动化办公系统设计与应用;平凡;;天津电大学报(第01期);全文 *
考虑人因的多目标拆卸线平衡问题及改进风驱动算法求解;张颖;张则强;曾艳清;蔡宁;;计算机集成制造系统(第05期);全文 *

Also Published As

Publication number Publication date
CN116701306A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN116701306B (zh) 一种用于档案的智能分拣与归档管理方法与系统
US20180373722A1 (en) System and method for data classification using machine learning during archiving
US10095957B2 (en) Method and system for unsupervised word image clustering
CN109213817B (zh) 增量数据抽取方法、装置及服务器
CN110471945B (zh) 活跃数据的处理方法、系统、计算机设备和存储介质
CN111368867B (zh) 档案归类方法及系统、计算机可读存储介质
CN104750791A (zh) 一种图像检索方法及装置
CN113269101A (zh) 一种票据识别方法、装置和设备
CN114048318A (zh) 基于密度半径的聚类方法、系统、设备及存储介质
CN115631494A (zh) 财务数据处理方法、系统、电子设备及存储介质
CN115795021A (zh) 一种大数据风险监测识别预警装置及系统
CN115421672A (zh) 一种基于芯片的数据存储方法、系统及存储介质
US20190050298A1 (en) Method and apparatus for improving database recovery speed using log data analysis
CN115171125A (zh) 数据异常的检测方法
US11392510B2 (en) Management method of cache files in storage space and recording device for storing cache files
US20150278656A1 (en) Job discrimination method and device
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN116089858A (zh) 一种诊断螺栓拧紧异常的方法与设备
CN108228101B (zh) 一种管理数据的方法和系统
CN113868121A (zh) 一种自动化测试方法
CN111258788B (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN114185785A (zh) 面向深度神经网络的自然语言处理模型测试用例约简方法
US10318371B2 (en) Apparatus and method to determine a setting item causing an incident based on action records therefor
CN110991296B (zh) 视频标注方法、装置、电子设备及计算机可读存储介质
CN115658513A (zh) 页面异常检测方法及其系统、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant