CN114117171B

CN114117171B - 一种基于赋能思维的工程档案智能收整方法及系统

Info

Publication number: CN114117171B
Application number: CN202111356161.0A
Authority: CN
Inventors: 陈慧; 张凯; 南梦洁; 罗慧玉
Original assignee: Beijing Dark Energy Software Co ltd; Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-03-07
Anticipated expiration: 2041-11-16
Also published as: CN114117171A

Abstract

本发明公开了一种基于赋能思维的工程档案智能收整方法及系统，包括智能收集、智能分类、智能鉴定、智能组卷、智能编目及智能签证六个步骤，智能收集步骤包括自动接收、智能审核及自动登记；智能分类步骤包括归属类目划分和分类号确定；智能鉴定步骤包括保管期限划分与密级鉴定；智能组卷步骤包括智能辅助组卷、案卷排序与卷内文件排序；智能编目步骤包括自动生成页码和档号；智能签证步骤包括签证智能办理与签字智能鉴定。该方法主要面向工程档案收整工作的智能化，通过对实际问题进行挖掘，分析重点需求，主要融合数据、技术与知识等赋能要素，确保工程档案收整规范性，并有效提升工程档案的收整效率。

Description

一种基于赋能思维的工程档案智能收整方法及系统

技术领域

本发明涉及档案管理技术领域，具体涉及一种基于赋能思维的工程档案智能收整方法及系统。

背景技术

工程档案作为支撑工程建设的重要信息资源，是整个项目管理过程中的关键组成部分，涉及招投标管理、监理、设计及改扩建等多个环节，文件种类复杂，参建单位较多。数字环境下，工程档案数量急剧增加、工程档案资源类型更为多样，手工的档案收整方式显露出程序繁琐、效率低下、重复性劳动多且极易出现疏漏等内生性问题。

随着这些问题的日益突显，采用智能化手段突破传统收整方式的困境，确保收整程序化、精准化和高效化的需求更为迫切，因此，各类智能管理系统或平台也被愈发广泛地用作档案收整的有效工具，例如基于大数据的智能收集系统、基于黑白名单的智能鉴定系统等。基于大数据的智能收集系统：由档案信息采集端、通讯模块、服务器、客户端和云存储器等组成，将嵌入式处理器置入档案信息采集端，并以大数据为背景，使得档案信息的采集端移动性较佳，且覆盖范围极广，方便用户档案信息的上传。基于黑白名单的智能鉴定系统：设定黑白名单(白名单中保存有所述待鉴定电子文件属于特定保存期限的关键词，黑名单中保存有排除所述待鉴定电子文件属于特定保存期限的关键词)，提取待鉴定电子文件的元数据，运用模式匹配自动生成待鉴定电子文件的保存期限。

上述系统为档案智能采集和鉴定提供了新的方法，但上述系统由于功能单一，既无法挖掘多功能间的集成效应，也无法实现档案收整全流程智能化。

从系统平台构建来看，现有实现方案大多只应用了传统的技术手段，很大程度上仍依赖于人工处理，如“一种智能化档案管理系统”(公开号：CN108577225A)、“一种智能档案管理系统及应用”(公开号：CN106529812A)、“一种工商数字档案管理系统”(公开号：CN112052216A)、“一种用于会计电子档案管理的系统及方法”(公开号：CN109902211A)、“一种档案管理方法”(公开号：CN109491963A)等，这些档案管理系统或方法主要应用了扫描技术、传感技术、加密技术和RFID技术，自动化、智能化水平相对较低。

从智能化技术应用及技术赋能角度来看，现有智能化方案仅针对档案管理的某一环节进行方案构建，并未实现档案收整全流程的智能化方案设计，如“基于云计算的智能档案检索处理系统”(公开号：CN111651619A)、“一种基于深度学习的电子档案智能处理方法”(公开号：CN109658062A)、“一种基于OCR文字识别的医院纸质档案归档方法及系统”(公开号：CN110705515A)、“基于神经网络的电子图像文件自动分类方法”(公开号：CN111767418A)，这些实现方案虽应用到了云计算、深度学习、OCR文字识别等技术，但每个方案仅分别针对档案检索、处理、归档、分类的单一功能，未能实现档案全流程智能化管理。

从行业领域来看，应用技术手段开展档案管理的方案涉及了工商数字档案、会计电子档案、城建档案等领域，这些不能很好地适应工程项目档案体量大、类型多、主体广的特点，不能满足工程项目档案现实收整需求，因此在工程档案智能收整领域的实现方案存在一定空白。

目前的系统设计多侧重于解决某一环节所涉及的问题，智能化水平较低，应用范围较为局限，大多只涵盖一种或几种特定的业务，例如，基于大数据的智能收集系统仅针对档案图像的采集和云存储，功能和对象均呈现单一化，且图像识别等智能化手段未能得到很好地运用；基于黑白名单的智能鉴定系统虽运用元数据和模式匹配等智能方式完成智能鉴定，但生成的信息仅限于保存期限，属于鉴定范畴的密级鉴定并未涉及。

而工程档案工作作为一个完整的流程，数据来源于不同的业务系统，因此在协同合作中容易产生数据异构问题；并且现有的各业务系统对于人工智能技术的应用处于初级阶段，智能化水平依旧有待提升。

发明内容

本发明的目的就是要提供一种基于赋能思维的工程档案智能收整方法及系统，该方法主要面向工程档案收整工作的智能化，通过对实际问题进行挖掘，分析重点需求，主要融合数据、技术与知识等赋能要素，确保工程档案收整规范性，并有效提升工程档案的收整效率。

为实现上述目的，本发明所设计的一种基于赋能思维的工程档案智能收整方法，其特征在于，该方法包括以下步骤：

步骤1：智能收集，通过应用人工智能算法，以智能化方式完成其他业务系统接口归档文件的自动接收、审核和登记；

步骤2：智能分类，借助人工智能算法处理与分析工程档案文本内容，从而自动划分归属类目和确定分类号；

步骤3：智能鉴定，借助人工智能算法提取智能分类结果与形成规则集，再通过规则引擎对其进行调用，从而自动划分归属类目和确定分类号；

步骤4：智能组卷，模拟现实中实体档案组卷、排列的过程，完成智能辅助组卷、案卷排序与卷内文件排序；

步骤5：智能编目，通过集成深度学习和自然语言处理算法，实现页码自动编写和档号自动生成两项独立功能；

步骤6：智能签证，引入人工智能算法实现竣工档案签证流程智能化。

进一步地，所述步骤1中还包括以下步骤：

步骤1.1：添加自动化接收程序，实现对其他业务系统接口归档文件的批量智能化自动接收，并进行预处理；

步骤1.2：通过算法识别PDF、ODF格式的文本档案、照片档案及其他多媒体类档案，再借助信息抽取算法对所识别信息的词法、句法进行分析，实现文本内容、文本结构及元数据的全面提取，实现智能算法与档案数据资源的赋能作用；

步骤1.3：进入智能审核环节，审查电子档案是否符合归档范围，是否存在质量问题，对于不符合要求的档案进行剔除；

步骤1.4：启动登记进程，自动赋予电子档案唯一的标识符，并借助自然语言处理算法提取表单著录项，采用特征匹配算法将文件内容和信息著录项进行字段匹配，实现登记表信息的自动填充。

进一步地，所述步骤2中还包括以下步骤：

步骤2.1：应用识别算法对已登记的工程项目文档类和多媒体类电子档案进行识别；

步骤2.2：采用自然语言处理算法对识别后的工程档案进行基础分析、属性分析、语义分析、结构分析，根据预先设定的归档模板找到档案文本属性和档案归档类别之间的关系模型；

步骤2.3：在现有工程档案集合中抽样扫描件，根据学习算法的输入要求清洗数据，构造训练集和测试集，并通过不断完善模型取得预期的学习效果；

步骤2.4：将已登记的工程档案输入关系模型中，匹配至归档模块中的归档范围，并进一步细化归档类目实现全宗内档案归属类目智能划分；

步骤2.5：在档案类目准确划分的基础之上，依据二级类目名称匹配到归档模板所设定的分类号，并支持由授权用户为新创建的案卷设置分类代码。

更进一步地，所述步骤3中还包括以下步骤：

步骤3.1：创建规则引擎，确定调用规则集的接口；

步骤3.2：将外部的业务规则经编译后加载到规则集中，供规则引擎调用执行；

步骤3.3：提取智能分类的结果作为规则集处理的数据对象集合，并加入工作存储器中；

步骤3.4：引擎执行规则匹配命令，将工作存储器中的应用对象与规则集容器中规则的条件部分进行匹配，返回分类号在归档模板和保管期限表中所对应的值，导出初步判定结果，对于事先带有保管期限和密级的档案，将智能鉴定结果与原有记录进行比对，若比对结果不一致，则将对原有保管期限和密级鉴定结果进行标记。

作为优选项，所述步骤4中还包括以下步骤：

步骤4.1：将鉴定完毕的文件输入机器学习的模型之中；

步骤4.2：将所设定的卷内文件排列与组卷规则、排列与组卷实践中的操作规范和经验总结纳入深度学习的规则库，用以支撑深度学习模型；

步骤4.3：应用已排序和组卷的文件集合对系统进行训练建模，形成计算机可读取的排序与组卷规律；

步骤4.4：通过卷内文件排序规律识别文件的性质，并按照相同特性进行聚类，进行辅助组卷；通过深度学习算法，自动对主题关键词进行提取，结合所提供的题名生成规则生成案卷题名及案卷关键信息；

步骤4.5：依据文件排序规则对案卷及卷内文件进行排序，并自动生成案卷目录案卷及卷内文件的管理。

作为优选项，所述步骤5中还包括以下步骤：

步骤5.1：通过自然语言处理算法自动编写页码；

所述自动编写页码的步骤为：

步骤5.1.1：将所设定的页码编写规则获取到规则库中；

步骤5.1.2：通过自然语言处理算法将其转化为计算机语言，以此作为页码编写模型运作的基础；

步骤5.1.3：基于深度学习算法，根据规则自动识别文件是否需要页号以及页号编写的具体位置，由此自动生页号并完成填充；

步骤5.2：通过命名实体识别算法自动生成档号；

所述自动生成档号的步骤为：

步骤5.2.1：通过命名实体识别算法从档案文本中提取档号构成所需的代号；

步骤5.2.2：将所设定的档号编制规则获取到规则库中；

步骤5.2.3：通过自然语言处理算法将其转化为计算机语言，以此作为档号生成模型运作的基础；

步骤5.2.4：基于深度学习算法，根据档号编制规则将各代号有序组合并自动生成档号。

作为优选项，所述步骤6中还包括以下步骤：

步骤6.1：各方人员根据签证办理要求将需要审核的档案资料集中上传；

步骤6.2：系统自动接收签证信息，并通过智能审核算法对签证的各项信息及上传资料进行智能审核；

步骤6.3：引入图像识别算法提取档案签证中所涉及的签字，并通过数据预处理规范化录入签字数据；

步骤6.4：提取预处理后签字数据的全局特征和局部特征，并将其与注册签字和验证签字的特征进行对比，计算特征相似度，并根据设定的特征相似度预设值输出签字鉴定结果；

步骤6.5：将智能审核的最终结果传输至对应审核单位及部门的接口，若审核通过各部门直接办理签证手续，并将结果保存至本地数据库；若未通过，向审核单位发出相应的提示信息。

作为优选项，所述步骤1.3中，所述智能审核环节还包括归档范围判定、质量审核和批量校核：

针对归档范围判定，将已提取的关键文本信息与指定的工程档案归档模板进行匹配，归档范围匹配成功的文件再进行相似度计算，剔除相似度过高的文件后即留下符合归档范围的文件；

针对质量审核，利用规则引擎将抽取的文本信息与指定的工程档案验收检查标准、审核要点和归档模板进行智能化的批量校核，对档案编制规范性、内容准确性、数量齐全性进行质量检查；

批量校核过程中，将标准与规则拆解为固定数量的过滤规则，制作校核模板，通过校核模板与信息的匹配实现批量校核。

本发明还提出一种基于赋能思维的工程档案智能收整系统，其特征在于：所述系统包括智能收集模块、智能分类模块、智能鉴定模块、智能组卷模块、智能编目模块和智能签证模块；

所述智能收集模块：用于完成其他业务系统接口归档文件的自动接收、审核和登记；

所述智能分类模块：用于自动划分归属类目和确定分类号；

所述智能鉴定模块：用于提取智能分类结果与形成规则集，再通过规则引擎对其进行调用，从而自动划分归属类目和确定分类号；

所述智能组卷模块：用于模拟现实中实体档案组卷、排列的过程，完成智能辅助组卷、案卷排序与卷内文件排序；

所述智能编目模块：用于通过集成深度学习和自然语言处理算法，实现页码自动编写和档号自动生成两项独立功能；

所述智能签证模块：用于实现竣工档案签证流程智能化。

本发明另外提出一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法。

本发明的优点在于：其实现了将人工智能的技术能力与数字平台的资源整合能力相融合，便于将人工智能技术应用于解决程式化、重复性的档案收集与整理业务，以实现工程档案收整工作智能一体化，提升档案收整的效率与水平。

本发明则综合考量了档案从收集到签证全收整流程中的六个步骤，将新技术应用到档案的整体业务流程，注重功能的多元性与系统性，利于多功能相互作用，发挥“1+1>2”的正协同效应。

本发明注重模式识别、自然语言处理和深度学习等多种先进智能技术在工程档案收整工作流程中的深入运用，将各技术特点与工程项目档案特征匹配结合，能够更好地提升工程档案智能化收整的效率和水平。

附图说明

图1为本发明的方法流程图；

图2为步骤1的收集流程图；

图3为步骤2的分类流程图；

图4为步骤3的鉴定流程图；

图5为步骤4的组卷流程图；

图6为步骤6的签证流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述：

如图1所示的一种基于赋能思维的工程档案智能收整方法及系统，所述方法能够被计算机程序被处理器执行，具体包括以下步骤：

步骤1：智能收集，通过模式识别、信息抽取以及特征匹配等应用人工智能算法，以智能化方式完成其他业务系统接口归档文件的自动接收、审核和登记，如图2所示：

步骤1.1：添加自动化接收程序，实现对其他业务系统接口归档文件的批量智能化自动接收，并进行预处理(处理缺失值、数据格式不一致等)；此时，采用视图的方式，用于控制使用者的权限，使得部门兼职档案人员只能看到本部门的归档文件；档案管理人员则可以看到所有部门的归档文件，监控所有部门的归档文件整理工作，并接收或打回部门整理好的归档文件。收集模块是提供给档案管理人员、部门兼职档案员进行归档文件整理的公共模块。

步骤1.2：通过OCR识别、语音识别、图像识别等模式算法识别PDF、ODF格式的文本档案、照片档案及其他多媒体类档案，再借助信息抽取算法对所识别信息的词法、句法进行分析，实现文本内容、文本结构及元数据的全面提取，实现智能算法与档案数据资源的赋能作用；以文本档案为例，OCR识别算法将扫描文件自动识别，并提取“题名”“副题名”“主题词”“关键词”“责任者”“日期”“文种”“主送”“抄送”“件数”“页数”等文本内容、结构及元数据，实现信息初步提取。在扫描电子文档的识别中，通过其版面分析功能，不仅可以快速实现文档的扫描识别，同时还可以自动提取当中的档案关键信息，自动识别后填入档案的目录信息当中，大大减轻了录入工作量，而且为文书档案的批量录入提供了可能。

步骤1.3：进入智能审核环节，审查电子档案是否符合归档范围，是否存在质量问题，对于不符合要求的档案进行剔除；所述智能审核环节还包括归档范围判定、质量审核和批量校核：

如表1所示的工程项目档案归档模板，针对归档范围判定，需将已提取的关键文本信息与指定的工程档案归档模板进行匹配，归档范围匹配成功的文件再依据前面提取的信息项进行相似度计算，剔除相似度过高的文件后即留下符合归档范围的文件；

针对质量审核，利用规则引擎将抽取的文本信息与指定的工程档案验收检查标准、审核要点和归档模板进行智能化的批量校核，对档案编制规范性、内容准确性、数量齐全性等方面进行质量检查；

批量校核过程中，上述标准与规则被计算机系统拆解为固定数量的过滤规则，做成计算机可以识别的校核模板，通过模板与信息的匹配实现批量校核；

步骤2：智能分类，借助自然语言处理与深度学习等人工智能算法处理与分析工程档案文本内容，从而自动划分归属类目和确定分类号，如图3所示：

步骤2.1：应用OCR、图像与语音识别等模式识别算法对已登记的工程项目文档类和多媒体类电子档案，例如施工照片、竣工图纸等，进行识别；

步骤2.2：采用自然语言处理算法对识别后的工程档案进行基础分析、属性分析、语义分析、结构分析等，根据预先设定的归档模板找到档案文本属性和档案归档类别之间的关系模型；如将一份文本档案进行识别后，将其连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列，并将其语言中的词语进行词性标注，即属性分析，标明动词、名词及副词等，并针对专有名词进行识别，包含人名、机构名与地名，以便区分主题。对大量的非结构化文本进行依存句法分析，从中抽取实体、概念、语义关系等信息，构建领域知识。在此基础上，采用关系分析，对文本档案中的核心概念进行同义词关联、语义网关联等，匹配与之相类的的档案类型，实现档案分类。

步骤2.3：在现有工程档案集合中抽样的扫描件，根据学习算法的输入要求清洗数据，构造训练集和测试集，并通过不断完善模型取得预期的学习效果；

步骤2.4：将已登记的工程档案输入关系模型中，匹配至归档模块中的归档范围，并进一步细化归档类目实现全宗内档案归属类目，含一级类目和二级类目的智能划分，即来源于一个特定机构(包括行政机关、公司、机构、个人等)的所有档案；

步骤3：智能鉴定，借助特征匹配与自然语言处理等人工智能算法提取智能分类结果与形成规则集，再通过规则引擎对其进行调用，从而自动划分归属类目和确定分类号，如图4所示：

步骤3.1：创建规则引擎，确定调用规则集的接口；如一份文书档案的保管期限为25年，且需归档的文书档案包含招标公告、招标申请书等。

步骤3.2：将如表1所示的工程档案归档模板及保管期限表等外部的业务规则经编译后加载到规则集中，供规则引擎调用执行；

步骤3.3：提取智能分类的结果作为规则集处理的数据对象集合，并加入工作存储器中；即将上述的档案分类的结果作为鉴定的数据对象，放入存储器中。

步骤3.4：引擎执行规则匹配命令，将工作存储器中的应用对象与规则集容器中规则的条件部分进行匹配，在匹配时选取特征匹配算法，第一步是找出文件中特征性比较强的内容，通过提取其关键内容与规则器中的内容进行匹配。在此过程中，可依据不同的匹配对象，采用不同的特征相似度计算方法。采用余弦距离计算式：

如两次机器依据规则集对源文本和应鉴定文本两个文件的符合度分别为(X₁，Y₁)(X₂，Y₂)，利用提取对象的X、Y对应向量进行计算，以判断其相似度。余弦越小，则二者越不相关。

欧式距离则是将一个对象提取三维空间特征，对其特征进行匹配，以分析个体数值特征的差异。

杰卡德相似度多用于判断该对象是否具有某一特征元素，通过分析不同样本对象在元素上的匹配程度，以分析二者的相似度。设样本A和样本B是两个n维向量，而且所有维度的取值都是0或1。例如，A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合，1表示集合包含该元素，0表示集合不包含该元素。最后，经过相似度计算后，返回分类号在归档模板和保管期限表中所对应的值，导出初步判定结果，例如保管期限为10年、25年、永久；密级为绝密、机密、秘密、无。

对于事先带有保管期限和密级的档案，将智能鉴定结果与原有记录进行比对，若比对结果不一致，则将对原有保管期限和密级鉴定结果进行标记。

步骤4：智能组卷，模拟现实中实体档案组卷、排列的过程，由计算机完成智能辅助组卷、案卷排序与卷内文件排序，如图5所示，该模块三项功能均借助深度学习算法，需要通过模型予以实现：

步骤4.1：将鉴定完毕的文件输入机器学习的模型之中；

步骤4.2：将所设定的卷内文件排列与组卷规则、排列与组卷实践中的操作规范和经验总结纳入深度学习的规则库，用以支撑深度学习模型；在组卷过程中，结合国家颁布的《归档文件整理规则》(DA/T 22-2015)实施的组卷方法，主要分为两种，一种是以卷为单位，即“同一问题、同一事件、同一会议、同一类别的文件要一起立卷；文件的正本与原稿、请示与批复、证件与附件、来文与复文、转发文件与原件、文电要放在一起立卷”；第二种是以件(份)为单位装订，不用拟写案卷题名，跨盒编流水件号，不编页号，只记页数。其主要采用以卷为单位的方法。

步骤4.3：应用大量已排序和组卷的文件集合对系统进行训练建模，形成计算机可读取的排序与组卷规律；

步骤4.4：计算机系统通过卷内文件排序规律直接识别文件的性质，例如管理性文工程算法性文件等，并按照相同特性，例如相同主题、相同保管期限等进行聚类，进行辅助组卷，通过机器的深度学习，自动对主题关键词进行提取，结合所提供的题名生成规则生成案卷题名及案卷关键信息；

步骤5：智能编目，通过集成深度学习和自然语言处理算法，实现页码自动编写和档号自动生成两项独立功能，具体流程与智能组卷相近，主要区别体现在业务规则上；

步骤5.1：自动编写页码；

步骤5.1.1：将所设定的页码编写规则获取到规则库中，即每件纸质文件都应逐页编制页码。在编制页码时，有图文的页面算为一页，页码标注在文件正面又上角或背面左上角的空白处；

步骤5.1.2：通过自然语言处理算法将上述规则转化为计算机的语言，以此作为页码编写模型运作的基础；

步骤5.2：自动生成档号。

步骤5.2.1：通过命名实体识别算法从档案文本中提取项目代号、分类号、案卷号(标段号与案卷流水号合并)等档号构成所需的代号；

步骤5.2.2：将所设定的档号编制规则获取到规则库中；

步骤6：智能签证，基于算法图像识别算法实现竣工档案签证流程智能化；用于签证智能办理和签字智能鉴定，具体步骤如图6所示。

步骤6.2：系统自动接收签证信息，并通过智能审核算法对签证的各项信息及上传资料进行智能审核，审核内容侧重于签审页、报审表以及最终形成档案的完整性、真实性审查，不同于收集阶段，收集阶段的审核侧重于对档案收集范围、档案编制规范性等方面；

步骤6.3：引入图像识别算算法提取档案签证中所涉及的签字，并通过数据预处理规范化录入签字数据。

提取的档案签证分为离线签字和在线签字两种，离线签字通常需要对图像进行去燥、矫正、平滑等操作；在线签字通常需要进行数据点格式转换、规范数据小数点精度、规范采样频率、数据对齐等操作。

步骤6.4：提取预处理后签字数据的全局特征和局部特征，并将其与注册签字和验证签字的特征进行对比，计算特征相似度，并根据设定的特征相似度预设值输出签字鉴定结果。

基于上述方法，本发明提出的一种基于赋能思维的工程档案智能收整系统如图1所示，包括智能收集模块、智能分类模块、智能鉴定模块、智能组卷模块、智能编目模块和智能签证模块；

所述智能分类模块：用于自动划分归属类目和确定分类号；

所述智能签证模块：用于实现竣工档案签证流程智能化。工程档案分布广、数量大、类型多、时间跨度长、涉及主体多样，现有技术仅针对档案图像采集、存储或档案保管期限鉴定等某一收整阶段单一的内容或功能，不能很好地保证工程档案收整的全流程智能化管理。本发明综合考量了档案从收集到签证全收整流程中的六个步骤，把新技术应用到档案的整体业务流程，注重功能的多元性与系统性，利于多功能相互作用，发挥“1+1>2”的正协同效应。

现有技术主要应用到模式匹配、大数据技术等智能化手段，技术手段传统单一，智能水平相对低下。本发明注重模式识别、自然语言处理和深度学习等多种先进智能技术在工程档案收整工作流程中的深入运用，将各技术特点与工程项目档案特征匹配结合，能够更好地提升工程档案智能化收整的效率和水平。

本发明的关键保护点在于档案业务工作与人工智能技术深度融合所产生的六大实际功能及其具体实现流程。

本发明涉及一种智能化的工程档案收整方法，包括智能收集、智能分类、智能鉴定、智能组卷、智能编目及智能签证六个步骤，智能收集步骤包括自动接收、智能审核及自动登记；智能分类步骤包括归属类目划分和分类号确定；智能鉴定步骤包括保管期限划分与密级鉴定；智能组卷步骤包括智能辅助组卷、案卷排序与卷内文件排序；智能编目步骤包括自动生成页码和档号；智能签证步骤包括签证智能办理与签字智能鉴定。

本发明主要面向工程档案收整工作的智能化，通过对实际问题进行挖掘，分析重点需求，主要融合数据、技术与知识等赋能要素，针对工程档案收集、分类、鉴定、组卷、编目及签证业务中存在的多发质量问题，形成六个步骤，以确保工程档案收整规范性，并有效提升工程档案的收整效率。数据赋能由工程档案数字平台资源本身体现；技术赋能贯穿智能收整工作始终，以模式识别、机器学习、自然语言处理等人工智能算法为主，提升整个系统的智能性，是本发明实现的核心手段；知识赋能具有较强的隐含性，以归档模板等可通过工作经验和专业技能加以完善的知识产物为载体，蕴含于智能收集和智能分类等涉及档案内容分析的环节。通过整合企业工程项目档案中的知识要素，以智慧档案作为赋能要素的数据资源，运用模式识别、自然语言处理与深度学习等技术赋能，结合人工智能具备的用户思维及知识迁移能力，优化工程档案智能收整系统，充分利用已掌握的工程档案管理方法来解决流程问题，以实现“人工智能”与“数字平台”对档案的双向赋能。

表1：工程项目档案归档模板

最后，应当指出，以上实施例仅是本发明较有代表性的例子。显然，本发明不限于上述实施例，还可以有许多变形。凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应认为属于本发明的保护范围。

Claims

1.一种基于赋能思维的工程档案智能收整方法，其特征在于，该方法包括以下步骤：

所述步骤1中还包括以下步骤：

步骤1.3：进入智能审核环节，审查电子档案是否符合归档范围，是否存在质量问题，对于不符合要求的电子档案进行剔除；

步骤1.4：启动登记进程，自动赋予电子档案唯一的标识符，并借助自然语言处理算法提取表单著录项，采用特征匹配算法将文件内容和信息著录项进行字段匹配，实现登记表信息的自动填充；

所述步骤2中还包括以下步骤：

步骤2.3：在现有工程档案集合中抽样扫描件，根据学习算法的输入要求清洗数据，构造训练集和测试集，并通过不断完善关系模型取得预期的学习效果；

步骤2.4：将已登记的工程档案输入关系模型中，匹配至归档模板中的归档范围，并进一步细化归档类目实现全宗内档案归属类目智能划分；

步骤2.5：在归档类目准确划分的基础之上，依据二级类目名称匹配到归档模板所设定的分类号，并支持由授权用户为新创建的案卷设置分类代码；

所述步骤3中还包括以下步骤：

步骤3.1：创建规则引擎，确定调用规则集的接口；

步骤3.4：规则引擎执行规则匹配命令，将工作存储器中的应用对象与规则集容器中规则的条件部分进行匹配，返回分类号在归档模板和保管期限表中所对应的值，导出初步判定结果，对于事先带有保管期限和密级的档案，将智能鉴定结果与原有记录进行比对，若比对结果不一致，则将对原有保管期限和密级鉴定结果进行标记；

步骤6：智能签证，引入人工智能算法实现竣工档案签证流程智能化；

所述步骤6中还包括以下步骤：

步骤6.5：将智能审核的最终结果传输至对应审核单位及部门的接口，若审核通过，各部门直接办理签证手续，并将结果保存至本地数据库；若未通过，向审核单位发出相应的提示信息。

2.根据权利要求1所述的一种基于赋能思维的工程档案智能收整方法，其特征在于：所述步骤4中还包括以下步骤：

步骤4.1：将鉴定完毕的文件输入机器学习的模型之中；

步骤4.5：依据文件排序规则对案卷及卷内文件进行排序，并自动生成案卷目录，对案卷及卷内文件进行管理。

3.根据权利要求1所述的一种基于赋能思维的工程档案智能收整方法，其特征在于：所述步骤5中还包括以下步骤：

步骤5.1：通过自然语言处理算法自动编写页码；

所述自动编写页码的步骤为：

步骤5.1.1：将所设定的页码编写规则获取到规则库中；

步骤5.2：通过命名实体识别算法自动生成档号；

所述自动生成档号的步骤为：

步骤5.2.2：将所设定的档号编制规则获取到规则库中；

4.根据权利要求1所述的一种基于赋能思维的工程档案智能收整方法，其特征在于：所述步骤1.3中，所述智能审核环节还包括归档范围判定、质量审核和批量校核：

5.一种基于赋能思维的工程档案智能收整系统，其特征在于：所述系统包括智能收集模块、智能分类模块、智能鉴定模块、智能组卷模块、智能编目模块和智能签证模块；

所述智能收集模块还用于添加自动化接收程序，实现对其他业务系统接口归档文件的批量智能化自动接收，并进行预处理；通过算法识别PDF、ODF格式的文本档案、照片档案及其他多媒体类档案，再借助信息抽取算法对所识别信息的词法、句法进行分析，实现文本内容、文本结构及元数据的全面提取，实现智能算法与档案数据资源的赋能作用；进入智能审核环节，审查电子档案是否符合归档范围，是否存在质量问题，对于不符合要求的电子档案进行剔除；启动登记进程，自动赋予电子档案唯一的标识符，并借助自然语言处理算法提取表单著录项，采用特征匹配算法将文件内容和信息著录项进行字段匹配，实现登记表信息的自动填充；

所述智能分类模块：用于自动划分归属类目和确定分类号；

所述智能分类模块还用于应用识别算法对已登记的工程项目文档类和多媒体类电子档案进行识别；采用自然语言处理算法对识别后的工程档案进行基础分析、属性分析、语义分析、结构分析，根据预先设定的归档模板找到档案文本属性和档案归档类别之间的关系模型；在现有工程档案集合中抽样扫描件，根据学习算法的输入要求清洗数据，构造训练集和测试集，并通过不断完善关系模型取得预期的学习效果；将已登记的工程档案输入关系模型中，匹配至归档模板中的归档范围，并进一步细化归档类目实现全宗内档案归属类目智能划分；在归档类目准确划分的基础之上，依据二级类目名称匹配到归档模板所设定的分类号，并支持由授权用户为新创建的案卷设置分类代码；

所述智能鉴定模块还用于创建规则引擎，确定调用规则集的接口；将外部的业务规则经编译后加载到规则集中，供规则引擎调用执行；提取智能分类的结果作为规则集处理的数据对象集合，并加入工作存储器中；规则引擎执行规则匹配命令，将工作存储器中的应用对象与规则集容器中规则的条件部分进行匹配，返回分类号在归档模板和保管期限表中所对应的值，导出初步判定结果，对于事先带有保管期限和密级的档案，将智能鉴定结果与原有记录进行比对，若比对结果不一致，则将对原有保管期限和密级鉴定结果进行标记；

所述智能签证模块：用于实现竣工档案签证流程智能化；

所述智能签证还用于各方人员根据签证办理要求将需要审核的档案资料集中上传；系统自动接收签证信息，并通过智能审核算法对签证的各项信息及上传资料进行智能审核；引入图像识别算法提取档案签证中所涉及的签字，并通过数据预处理规范化录入签字数据；提取预处理后签字数据的全局特征和局部特征，并将其与注册签字和验证签字的特征进行对比，计算特征相似度，并根据设定的特征相似度预设值输出签字鉴定结果；将智能审核的最终结果传输至对应审核单位及部门的接口，若审核通过，各部门直接办理签证手续，并将结果保存至本地数据库；若未通过，向审核单位发出相应的提示信息。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法。