CN111858499A - 基于黑白名单的档案鉴定方法、系统及装置 - Google Patents
基于黑白名单的档案鉴定方法、系统及装置 Download PDFInfo
- Publication number
- CN111858499A CN111858499A CN202010766260.5A CN202010766260A CN111858499A CN 111858499 A CN111858499 A CN 111858499A CN 202010766260 A CN202010766260 A CN 202010766260A CN 111858499 A CN111858499 A CN 111858499A
- Authority
- CN
- China
- Prior art keywords
- file
- electronic
- black
- keywords
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/101—Access control lists [ACL]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于黑白名单的档案鉴定方法、系统及装置,方法包括:将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除待鉴定电子文件属于特定保存期限的关键词;提取待鉴定电子文件的元数据,或者提取待鉴定电子文件的元数据和关键词,根据获取的鉴定规则,将从元数据中提取的关键词,或者从元数据和待鉴定电子文件中提取的关键词与黑名单和/或白名单中的关键词进行对比,最终确定待鉴定电子文件的保存期限。本发明使得归档电子文件鉴定的准确率进一步提高。
Description
技术领域
本发明涉及档案鉴定技术领域,尤其是涉及一种基于黑白名单的档案鉴定方法、系统及装置。
背景技术
鉴定是档案管理工作的重要环节。多年来,档案鉴定工作完全依靠人工完成,工作量较大。特别是归档鉴定,在当前数字经济快速发展的形势下,电子文件大量产生,电子文件归档鉴定工作量在原有基础上明显增加。在电子档案管理系统(以下简称档案系统)中,通过一定方式实现档案鉴定智能化,对于提高工作效率,实现电子档案全流程自动化管理具有重要意义。
在现有技术中,主要探索出以下三种档案鉴定方法:
(一)人工分类鉴定法:即将档案保管期限表嵌入办公自动化系统或档案系统,在文件形成或归档页面的基本信息中设定“文件分类”或“文件归档”,然后由各业务部门的文件形成人员或归档整理人员在下拉菜单中点选此文件所属类别,具体如图1所示,系统相应生成保管期限,具体如图2所示。对于无需归档的电子文件,则不进行此分类。
人工分类鉴定法的缺点在于:此种做法虽然在办公自动化系统或档案系统中嵌入了档案保管期限表,但通过下拉菜单选择分类的方式,比人工直接对电子文件进行鉴定增加了更多的工作量。传统的做法可在保管期限一栏直接点选“永久”“30年”或“10年”,点击一次即可生成保管期限。而这种人工选择分类的方式除在一定程度上可提高鉴定的准确性外,并未通过计算机的智能鉴定而赋予保管期限,反而因分类目录的层层细化,文件形成人员或归档整理人员需要一级一级点选,降低了工作效率。
(二)信息匹配鉴定法:即在建设档案系统时,大量应用了信息雷达、文本挖掘等人工智能技术。一般先依据档案保管期限表建立规则库,利用档案信息雷达捕获业务系统中新创建的电子文件,然后利用信息挖掘技术提取捕获到的电子文件的文本信息,再利用规则引擎将提取出的信息与规则库中的规则进行匹配,产生初步判定结果(不需归档,或者保管期限为10年、30年、永久),对于不能自动判定的电子文件,转入人工鉴定程序。
上述方法的关键在于规则库的建立,可以说建立规则库是应用信息匹配鉴定法实现智能鉴定的先决条件,规则库质量的优劣直接影响着鉴定的成败。虽然规则来源于档案保管期限表,但要想让计算机自动为归档电子文件赋予保管期限,则须对档案保管期限表条目的表述更加细化,不但不能出现“重要”“一般”这样笼统概括的词汇,还要将自然语言中常用表示“一类”的意思相近或相似的词汇分别表述出来。例如,人事任免类,需将“任职”“任免”“聘任”等近义词表述完整,以便分别进行匹配,这项工作对于每个企业来说都是一大难点。有的企业为解决这一难点,选择了外购词库,但由于档案保管期限表是企业紧密结合了自身业务和管理实际制定,外购词库对单个企业的适用性极为有限,虽然可在规则库范围内保证一定的准确率,但真正能够实现自动鉴定的文件比例还亟待提高。此外,由于信息雷达、文本挖掘、规则引擎的使用,还使系统和网络负担加重,系统运行速度变慢。
(三)文件来源鉴定法:为了避免上述建设规则库的麻烦,将保管期限设定为“永久”“30年”两级,提高原“10年”电子文件的保管期限为“30年”。同时结合企业大数据的建设思路,将办公自动化系统形成的电子文件按照文件类型进行划分,如“发文”“收文”“签报”等,然后按照文件来源进行鉴定,由计算机自动赋予保管期限。例如,集团发文“永久”、部门发文“30年”,集团外收文“永久”、集团内收文“30年”,签报“永久”等。
上述方法虽然在自动鉴定电子文件的比例方面是有优势的,全部电子文件均可由计算机赋予保管期限,但鉴定的准确率不尽如人意。例如,集团外收文可能是一个平级单位发来的简单写有时间、地点等信息的拜访函,按照10号令要求应归档10年,系统却自动赋予了“永久”的保管期限。又如,集团内收文可能是下级企业报送了一份关于本企业重大改革发展的请示,集团领导给予了重要批示并由办理部门回文批复,系统却自动赋予了“30年”的保管期限。显然,这种过于粗犷笼统的鉴定方式,虽然提高了能够实现自动鉴定的文件比例,但鉴定的准确率得不到保证,实为与基于规则库的信息匹配鉴定法的另一极端做法。
因此,目前急需一种解决上述问题的档案智能鉴定方法。
发明内容
本发明的目的在于提供一种基于黑白名单的档案鉴定方法、系统及装置,旨在解决现有技术中的上述问题。
本发明提供一种基于黑白名单的档案鉴定方法,包括:
将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除待鉴定电子文件属于特定保存期限的关键词;
提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
本发明提供一种基于黑白名单的档案鉴定系统,包括:
分类获取模块,用于将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除待鉴定电子文件属于特定保存期限的关键词;
提取鉴定模块,用于提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
本发明实施例还提供一种基于黑白名单的档案鉴定装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于黑白名单的档案鉴定方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于黑白名单的档案鉴定方法的步骤。
采用本发明实施例,使得归档电子文件鉴定的准确率进一步提高,容易实现,黑白名单可根据纳入归档电子文件范围的扩大而增加,使得在实际应用时具有较好的扩展性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中的人工选择分类的示意图;
图2是现有技术中的系统生成保管期限的示意图;
图3是本发明实施例的基于黑白名单的档案鉴定方法的流程图;
图4是本发明实施例的发文档案鉴定的流程图;
图5是本发明实施例的收文档案鉴定的流程图;
图6是本发明实施例的签报档案鉴定的流程图;
图7是本发明实施例的基于黑白名单的档案鉴定执行顺序的示意图;
图8是本发明实施例的基于黑白名单的档案鉴定系统的示意图;
图9是本发明实施例的基于黑白名单的档案鉴定装置的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
根据本发明实施例,提供了一种基于黑白名单的档案鉴定方法,图3是本发明实施例的基于黑白名单的档案鉴定方法的流程图,在对本发明实施例的技术方案进行详细说明之前,首先,对本发明实施例中涉及到的黑白名单技术进行说明。黑白名单的过滤技术是最早出现于IT领域中的一门技术,目前越来越流行于多个领域。黑名单是设置了不能通过的用户,黑名单以外的都能通过。白名单是设置了能通过的用户,白名单以外的都不能通过。在计算机系统里,像操作系统、防火墙、杀毒软件、邮件系统等凡是涉及到控制方面的软件或系统几乎都应用了黑白名单技术。当黑名单启用时,黑名单中的用户(或IP、MAC等)会被认定为“不合法”而拒绝通过。如果设立了白名单,则只有白名单中的用户(或IP、MAC等)会被认定为“合法”而允许通过。黑白名单技术常与其他方法结合使用,目前在信用征信、客户管理等多方面得到广泛应用。
如图3所示,根据本发明实施例的基于黑白名单的档案鉴定方法具体包括:
步骤301,将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与所述待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有所述待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除所述待鉴定电子文件属于特定保存期限的关键词;在本发明的一个实施例中,根据需要,可以首先将办公自动化系统中待鉴定电子文件按照预先设置的大类文件类型进行大类的划分,例如,管理类、和同类等,再按照预先设置的小类文件类型进行小类的划分。例如,管理类下面可以分为发文、收文和签报三个小类。
在步骤301中,所述鉴定规则具体包括:对特定文件类型的待鉴定电子文件进行保存期限确定的鉴定逻辑、以及执行所述鉴定逻辑所必须的数据支持;该数据支持可以是名点列表等,需要和鉴定逻辑相配合。
步骤302,提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
在本发明实施例中,如果元数据中包括了对于待鉴定电子文件的摘要描述,则仅仅提取待鉴定电子文件的元数据即可,就不需要再提取待鉴定电子文件的关键词。但是,如果元数据中不包括对于待鉴定电子文件的摘要描述,则根据鉴定规则,还需要提取待鉴定电子文件的关键词,后续,需要将从元数据中提取的关键词和待鉴定电子文件中提取的关键词均与所述黑名单和/或白名单中的关键词进行对比。
此外,在本发明实施例中,为了能够更加准确的完成档案鉴定,在执行步骤301之前,需要完成对所述待鉴定电子文件的真实性、完整性、可用性、以及安全性检测,即四性检测;此外,还可以根据需要对所述鉴定规则和黑/白名单进行优化和更新。
以下结合附图和具体实例,对本发明上述技术方案进行举例说明。
在本实例中,将办公自动化系统形成的电子文件按照文件类型进行划分,以“发文”“收文”“签报”三类为例。对每一类电子文件的元数据值设定规则并判断是否属于某名单来确定其保管期限。对于根据规定“可”不归档的情形,本实例按照归档并保管期限“10年”处理。
一、设置黑名单和白名单
根据黑白名单技术原理,确定发文、收文、和签报在执行鉴定逻辑时所需要用到的黑名单和白名单,如表1所示。此外,需要进一步确定黑名单和白名单的名单值域及关系,如表2所示。
表1
永久 | 30年 | 10年 | |
发文 | 白名单1 | 黑名单2、黑名单3 | 黑名单1 |
收文 | 白名单2 | ||
签报 | 白名单3 |
表2
在建立了黑白名单后,就可以根据文件类型对应的鉴定逻辑和相应的黑白名单,进行档案的鉴定。
二、发文
图4是本发明实施例的发文档案鉴定的流程图,如图4所示,在本实例中,按照规定要求和档案管理“以我为主”的原则,本企业形成文件材料的价值应普遍高于外来文件材料的价值。因此,本企业形成文件材料的保管期限应主要集中在“永久”和“30年”。发文档案鉴定的鉴定逻辑如下:
第一步,鉴定保管期限为“10年”的电子文件。先通过分词系统提取文件题名关键词,与黑名单1中的词汇进行匹配,如匹配结果符合,则直接赋予该文件保管期限为“10年”;如匹配结果不符合,继续进行第二步。
第二步,判断电子文件内容是否与人、与资本(资产)等有关。与人、与资本(资产)有关的文件材料应保存为“永久”。此类文件材料需要判断发文部门是否为“人力资源部”“资金管理部”“财务管理部”等部门。这些部门大部分职能形成的文件材料应为“永久”,部分非永久的文件材料通过黑名单2排除。
第三步,对于非与人、与资本(资产)等有关的文件材料,即由其他部门形成的文件材料,先进行文件级别判定。一般在办公自动化系统发文时,使用公司发文流程的文件内容普遍重要于部门发文流程的文件内容。因此,大部分公司级文件可鉴定为“永久”,个别应30年的文件材料通过黑名单3排除;同时大部分部门级文件可鉴定为“30年”,个别应鉴定为“永久”的文件材料通过白名单1调整保管期限为“永久”。
三、收文
与发文相反,外来文件材料的价值相比本企业形成文件材料的价值普遍偏低。因此,外来文件材料的保管期限应主要集中在“30年”和“10年”。图5是本发明实施例的收文档案鉴定的流程图,如图5所示,收文对应的鉴定逻辑如下:
第一步,判断来源。先判断外来文件是本企业下属单位来文还是外单位来文。此时,需要设置一个下属单位名单来支持该鉴定逻辑,因此,下属单位名单即为执行所述鉴定逻辑所必须的数据支持。本企业下属单位来文在一定程度上可视同为本企业内部产生。下属单位来文应主要鉴定为“30年”。
第二步,判断下属单位来文文种是否为“请示”。下属单位来文中,应将有批复的请示件的保管期限调整为“永久”。对于个别没有批复的请示文件,可能有重要批示或口头回复,也可鉴定保管期限为“永久”。报告、通知(抄送)等其他来文可一律鉴定为“30年”。
第三步,对于外单位来文可通过提取领导批示“办理”“阅办”等关键词来判断此文件是需办理还是传阅。一般办理的外单位来文可鉴定为“30年”,无需办理的可鉴定为“10年”。但其中不排除个别外单位来文是针对本企业的批复,或普发的表彰本企业及有关人员的决定、通报、通知等,此部分文件通过白名单2并全文分词匹配本企业和下属单位名称,调整保管期限为“永久”。
四、签报
签报主要用于公司内部向领导请示或报告事项,一般由部门产生,经领导批示后办理或请领导阅知。因此,签报的鉴定方法可与部门级发文的鉴定方法类似。图6是本发明实施例的签报档案鉴定的流程图,如图6所示:可将绝大部分内部签报鉴定为“30年”,个别签报可通过白名单3调整保管期限为“永久”。如果有企业认为部门签报因由企业内部产生,并经高层领导签批而具有更高保存价值的话,那么可以将此部分文件全部鉴定为“永久”。
在本发明实施例中,图7是本发明实施例的基于黑白名单的档案鉴定执行顺序的示意图,如图7所示,黑白名单鉴定法作为一种计算机智能鉴定方法,可以通过软件模块嵌入档案系统实现。黑白名单鉴定法比较适用于归档鉴定,宜实施在档案系统的收集模块,具体流程应在四性检测通过后,置于电子文件归档整理的第一步,即分类前。
根据电子文件归档整理工作流程,电子文件归档鉴定应在完成四性检测之后进行,未完成四性检测的电子文件元数据可能会发生改变。因此,黑白名单鉴定应以四性检测的完成作为触发条件。
在本发明实施例中,为保证黑白名单鉴定的准确率,当遇有名单中的信息发生变化时,企业应对名单予以维护。特别是发生以下情况时,企业要及时更新有关信息。
1.企业组织机构调整,包括部门名称变化、职能调整等,以及上级主管部门和有关单位名称变化,均应在黑白名单中及时反映出来。
2.国家关于档案鉴定要求发生变化,特别是国家关于档案鉴定的原则变化时,也应对名单进行维护和调整。假如国家要求将年度工作计划类文件材料一律划分为“永久”,那么就需要把“年度”并“计划”这两个关系词调整至“永久”的白名单中。
3.其他可能影响档案价值变化的情况,如行文规则的变化,也应及时对名单进行维护。
此外,在本发明实施例中,黑白名单鉴定法依据黑白名单设置参数,在首次运行该功能时,需要进行首次鉴定前的初始化设置。此外,参数初始化时还需考虑名单中使用的信息词汇需与业务系统(即来源系统)中的电子文件元数据相统一。如在管理类电子文件的归档鉴定中,黑白名单中有部门名称、文种、关键词等,而归档电子文件中的这些内容均在业务系统形成,这就要求黑白名单鉴定法所用名单中的部门名称、文种、关键词等与业务系统中的元数据一致。
下面通过伪代码的方式,详细描述对上述三种文档类型的鉴定逻辑的实现。
以全宗名称为“*集团公司”总部为例,上述鉴定逻辑可用伪代码示意如下(非代码实现逻辑):
本发明实施例的上述技术方案具体有如下有益效果:
(一)鉴定准确率高
经实验,采用黑白名单鉴定法开发鉴定程序,与人工分类鉴定法、信息匹配鉴定法、文件来源鉴定法相比,归档电子文件鉴定的准确率进一步提高。这是因为,与现有的几种智能鉴定方法相比,黑白名单鉴定法考虑了更多的因素。比如人工分类鉴定法和信息匹配鉴定法仅考虑了文件题名关键词,文件来源鉴定法仅考虑了文件来源。尽管人工分类鉴定法也考虑了其他要素,但鉴定效率较低。而黑白名单鉴定法则综合考虑了文件级别、来源、文种、关键词、办理过程等诸多要素,还充分利用了企业实施10号令的成果,将10号令中提出的档案保管期限划分原则体现在了该鉴定方法中。由于诸多因素的综合考虑,黑白名单鉴定法使电子文件的鉴定比例和准确率都得以大幅提高。
(二)软件易实现易维护
经编程比较,黑白名单鉴定法程序简单,编程量小,所需参数少,软件容易实现。这种方法改变了信息匹配鉴定法需建立和访问大量词库,不易维护的缺点。它需维护的参数只有黑白名单中的信息,参数个数相对少很多,完全可由用户自行定制,可维护性好。
(三)具有较好的扩展性
黑白名单鉴定法的参数是黑白名单,该参数可随时根据归档电子文件内容的变化而变化,特别是可根据纳入归档电子文件范围的扩大而增加,使得黑白名单鉴定法在实际应用时具有较好的扩展性。
需要说明的是,本发明实施例的技术方案在应用范围上,除横向可用于企业外,还可用于机关档案鉴定工作,在纵向上,立足于电子文件自形成到永久保存或销毁的全生命周期,本发明实施例的技术方案除可用于电子文件的归档鉴定外,还可用于档案到期鉴定、开放鉴定等环节,需要在此基础上,结合实际设定鉴定逻辑,并将黑白名单做适当调整即可。
系统实施例
根据本发明实施例,提供了一种基于黑白名单的档案鉴定系统,图8是本发明实施例的基于黑白名单的档案鉴定系统的示意图,如图8所示,根据本发明实施例的基于黑白名单的档案鉴定系统具体包括:
分类获取模块80,用于将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除待鉴定电子文件属于特定保存期限的关键词;
分类获取模块80具体用于:
将办公自动化系统中待鉴定电子文件按照预先设置的大类文件类型进行大类的划分,再按照预先设置的小类文件类型进行小类的划分。
需要说明的是,上述鉴定规则具体包括:对特定文件类型的待鉴定电子文件进行保存期限确定的鉴定逻辑、以及执行鉴定逻辑所必须的数据支持;
提取鉴定模块82,用于提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
在本发明实施例中,如果元数据中包括了对于待鉴定电子文件的摘要描述,则仅仅提取待鉴定电子文件的元数据即可,就不需要再提取待鉴定电子文件的关键词。但是,如果元数据中不包括对于待鉴定电子文件的摘要描述,则根据鉴定规则,还需要提取待鉴定电子文件的关键词,后续,需要将从元数据中提取的关键词和待鉴定电子文件中提取的关键词均与所述黑名单和/或白名单中的关键词进行对比。
在本发明实施例中,为了更加准确的进行文档鉴定,上述系统还可以进一步包括:
触发模块,用于在完成对待鉴定电子文件的真实性、完整性、可用性、以及安全性检测,即四性检测后,触发分类获取模块;
优化更新模块,用于根据需要对鉴定规则和黑/白名单进行优化和更新。
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种基于黑白名单的档案鉴定装置,如图9所示,包括:存储器90、处理器92及存储在所述存储器90上并可在所述处理器92上运行的计算机程序,所述计算机程序被所述处理器92执行时实现如下方法步骤:
步骤301,将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与所述待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有所述待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除所述待鉴定电子文件属于特定保存期限的关键词;在本发明的一个实施例中,根据需要,可以首先将办公自动化系统中待鉴定电子文件按照预先设置的大类文件类型进行大类的划分,例如,管理类、和同类等,再按照预先设置的小类文件类型进行小类的划分。例如,管理类下面可以分为发文、收文和签报三个小类。
在步骤301中,所述鉴定规则具体包括:对特定文件类型的待鉴定电子文件进行保存期限确定的鉴定逻辑、以及执行所述鉴定逻辑所必须的数据支持;该数据支持可以是名点列表等,需要和鉴定逻辑相配合。
步骤302,提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
在本发明实施例中,如果元数据中包括了对于待鉴定电子文件的摘要描述,则仅仅提取待鉴定电子文件的元数据即可,就不需要再提取待鉴定电子文件的关键词。但是,如果元数据中不包括对于待鉴定电子文件的摘要描述,则根据鉴定规则,还需要提取待鉴定电子文件的关键词,后续,需要将从元数据中提取的关键词和待鉴定电子文件中提取的关键词均与所述黑名单和/或白名单中的关键词进行对比。
此外,在本发明实施例中,为了能够更加准确的完成档案鉴定,在执行步骤301之前,需要完成对所述待鉴定电子文件的四性检测;此外,还可以根据需要对所述鉴定规则和黑/白名单进行优化和更新。
装置实施例二
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器92执行时实现如下方法步骤:
步骤301,将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与所述待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有所述待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除所述待鉴定电子文件属于特定保存期限的关键词;在本发明的一个实施例中,根据需要,可以首先将办公自动化系统中待鉴定电子文件按照预先设置的大类文件类型进行大类的划分,例如,管理类、和同类等,再按照预先设置的小类文件类型进行小类的划分。例如,管理类下面可以分为发文、收文和签报三个小类。
在步骤301中,所述鉴定规则具体包括:对特定文件类型的待鉴定电子文件进行保存期限确定的鉴定逻辑、以及执行所述鉴定逻辑所必须的数据支持;该数据支持可以是名点列表等,需要和鉴定逻辑相配合。
步骤302,提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
在本发明实施例中,如果元数据中包括了对于待鉴定电子文件的摘要描述,则仅仅提取待鉴定电子文件的元数据即可,就不需要再提取待鉴定电子文件的关键词。但是,如果元数据中不包括对于待鉴定电子文件的摘要描述,则根据鉴定规则,还需要提取待鉴定电子文件的关键词,后续,需要将从元数据中提取的关键词和待鉴定电子文件中提取的关键词均与所述黑名单和/或白名单中的关键词进行对比。
此外,在本发明实施例中,为了能够更加准确的完成档案鉴定,在执行步骤301之前,需要完成对所述待鉴定电子文件的四性检测;此外,还可以根据需要对所述鉴定规则和黑/白名单进行优化和更新。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
综上所述,采用本发明实施例,使得归档电子文件鉴定的准确率进一步提高,容易实现,黑白名单可根据纳入归档电子文件范围的扩大而增加,使得在实际应用时具有较好的扩展性。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于黑白名单的档案鉴定方法,其特征在于,包括:
将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与所述待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有所述待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除所述待鉴定电子文件属于特定保存期限的关键词;
提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
2.根据权利要求1所述的方法,其特征在于,将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类具体包括:
将办公自动化系统中待鉴定电子文件按照预先设置的大类文件类型进行大类的划分,再按照预先设置的小类文件类型进行小类的划分。
3.根据权利要求1所述的方法,其特征在于,
所述鉴定规则具体包括:对特定文件类型的待鉴定电子文件进行保存期限确定的鉴定逻辑、以及执行所述鉴定逻辑所必须的数据支持;
所述保存期限具体包括:10年、30年和永久。
4.根据权利要求1所述的方法,其特征在于,将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类之前,所述方法进一步包括:
完成对所述待鉴定电子文件的真实性、完整性、可用性、以及安全性检测;
根据需要对所述鉴定规则和黑/白名单进行优化和更新。
5.一种基于黑白名单的档案鉴定系统,其特征在于,包括:
分类获取模块,用于将办公自动化系统中待鉴定电子文件按照预先设置的文件类型进行分类,并获取预先设置的与所述待鉴定电子文件的文件类型相对应的鉴定规则和黑/白名单,其中,白名单中保存有所述待鉴定电子文件属于特定保存期限的关键词,黑名单中保存有排除所述待鉴定电子文件属于特定保存期限的关键词;
提取鉴定模块,用于提取所述待鉴定电子文件的元数据,或者提取所述待鉴定电子文件的元数据和关键词,根据获取的所述鉴定规则,将从所述元数据中提取的关键词,或者从所述元数据和所述待鉴定电子文件中提取的关键词与所述黑名单和/或白名单中的关键词进行对比,最终确定所述待鉴定电子文件的保存期限。
6.根据权利要求5所述的系统,其特征在于,所述分类获取模块具体用于:
将办公自动化系统中待鉴定电子文件按照预先设置的大类文件类型进行大类的划分,再按照预先设置的小类文件类型进行小类的划分。
7.根据权利要求5所述的系统,其特征在于,
所述鉴定规则具体包括:对特定文件类型的待鉴定电子文件进行保存期限确定的鉴定逻辑、以及执行所述鉴定逻辑所必须的数据支持;
所述保存期限具体包括:10年、30年和永久。
8.根据权利要求5所述的系统,其特征在于,所述系统进一步包括:
触发模块,用于在完成对所述待鉴定电子文件的真实性、完整性、可用性、以及安全性检测后,触发所述分类获取模块;
优化更新模块,用于根据需要对所述鉴定规则和黑/白名单进行优化和更新。
9.一种基于黑白名单的档案鉴定装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于黑白名单的档案鉴定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至4中任一项所述的基于黑白名单的档案鉴定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010766260.5A CN111858499A (zh) | 2020-08-03 | 2020-08-03 | 基于黑白名单的档案鉴定方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010766260.5A CN111858499A (zh) | 2020-08-03 | 2020-08-03 | 基于黑白名单的档案鉴定方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858499A true CN111858499A (zh) | 2020-10-30 |
Family
ID=72952774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010766260.5A Pending CN111858499A (zh) | 2020-08-03 | 2020-08-03 | 基于黑白名单的档案鉴定方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858499A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361111A (zh) * | 2014-11-28 | 2015-02-18 | 青岛大学 | 一种档案自动编研方法 |
CN104361018A (zh) * | 2014-10-17 | 2015-02-18 | 李名选 | 电子档案信息整编方法及装置 |
CN106776695A (zh) * | 2016-11-11 | 2017-05-31 | 上海中信信息发展股份有限公司 | 实现文书档案价值自动鉴定的方法 |
US20200028990A1 (en) * | 2018-07-18 | 2020-01-23 | Kyocera Document Solutions Inc. | Document management system that performs management when documents are stored in paper document form |
-
2020
- 2020-08-03 CN CN202010766260.5A patent/CN111858499A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361018A (zh) * | 2014-10-17 | 2015-02-18 | 李名选 | 电子档案信息整编方法及装置 |
CN104361111A (zh) * | 2014-11-28 | 2015-02-18 | 青岛大学 | 一种档案自动编研方法 |
CN106776695A (zh) * | 2016-11-11 | 2017-05-31 | 上海中信信息发展股份有限公司 | 实现文书档案价值自动鉴定的方法 |
US20200028990A1 (en) * | 2018-07-18 | 2020-01-23 | Kyocera Document Solutions Inc. | Document management system that performs management when documents are stored in paper document form |
Non-Patent Citations (1)
Title |
---|
王勇 等: "《工业控制系统网络安全防护》", 31 August 2017, 山东大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11558429B2 (en) | Data processing and scanning systems for generating and populating a data inventory | |
US20180075138A1 (en) | Electronic document management using classification taxonomy | |
US11347889B2 (en) | Data processing systems for generating and populating a data inventory | |
US11816165B2 (en) | Identification of fields in documents with neural networks without templates | |
US10565236B1 (en) | Data processing systems for generating and populating a data inventory | |
US10282370B1 (en) | Data processing systems for generating and populating a data inventory | |
WO2020000688A1 (zh) | 财务风险验证处理方法、装置、计算机设备及存储介质 | |
US20180349640A1 (en) | Data processing systems for generating and populating a data inventory | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
US11410448B2 (en) | Predictive analysis systems and methods using machine learning | |
US20130332374A1 (en) | Fraud prevention for real estate transactions | |
US20120278251A1 (en) | System and method for compliant integrated paperless workflow | |
CN115409466A (zh) | 基于大数据的数据采集管理系统 | |
US20220237398A1 (en) | Document identification and splitting in an online document system | |
US20240127379A1 (en) | Generating actionable information from documents | |
US11314887B2 (en) | Automated document access regulation system | |
CN111858499A (zh) | 基于黑白名单的档案鉴定方法、系统及装置 | |
Gupta et al. | Robotic process automation use cases in academia and early implementation experiences | |
EP4165564A1 (en) | Methods and systems for matching and optimizing technology solutions to requested enterprise products | |
CN113610504A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
Petkov et al. | Identifying emerging challenges for ICT Industry in Ireland: multiple case study analysis of data privacy breaches | |
CN112819347B (zh) | 一种行业主体审核方法、装置、电子设备及存储介质 | |
Kotyla | Electronic Document Management Systems as an IT tool for processing accounting e-documents in Polish local government | |
Gupta et al. | Retracted: Robotic Process Automation use cases in academia and early implementation experiences | |
CN110942274B (zh) | 一种法院立案报告的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201030 |