CN115129959A

CN115129959A - 一种档案智能鉴定方法、装置及系统

Info

Publication number: CN115129959A
Application number: CN202211022159.4A
Authority: CN
Inventors: 黄春鹏; 季雪岗; 王磊
Original assignee: Beijing Meiluokesi Technology Co ltd
Current assignee: Beijing Meiluokesi Technology Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-09-30

Abstract

本发明属于档案鉴定技术领域，具体涉及一种档案智能鉴定方法、装置及系统，通过获取档案的电子数据，对所述档案的电子数据进行数据处理，得到待鉴定档案数据；将待鉴定档案数据输入到机器学习模型中，其中，机器学习模型为使用多组训练数据训练出来的，多组训练数据均包括档案的密级标签和档案的保管期限标签；获取机器学习模型的输出信息结果，其中，输出信息结果包括所述档案的密级标签和档案的保管期限标签。本申请技术方案可快速实现电子档案的智能鉴定，解决了现有档案管理系统中，依赖于人工进行档案密级、保管期限和分类等标签的鉴定，给档案的管理和利用带来极大便利。

Description

一种档案智能鉴定方法、装置及系统

技术领域

本发明属于档案鉴定领域，特别地，涉及一种档案智能鉴定方法、装置及系统。

背景技术

目前档案系统的电子文档的管理利用流程中，采用比较多的是文档的文本信息提取和元数据提取技术。使用文本信息提取技术，进行文档的搜索利用；提取文档的元数据信息进行文档的辅助著录和管理。

而对于归档的文档的档案鉴定过程，目前都是依赖档案专家和从业人员进行人工鉴定。而档案从业人员的素质水平参差不齐，造成档案鉴定的错误率比较高；而且档案的鉴定工作是一份人力消耗比较大的工作，在人工智能技术发展的今天，是可以依赖人工智能技术进行档案鉴定工作变革的比较好的时机。

由于档案的鉴定，如对于档案的密级、保管期限和分类等标签的鉴定，目前都是依赖档案专家的人工鉴定，档案鉴定效率低。

基于此，如何提供一种档案智能鉴定方法，有利于节省大量的人力，并减少对档案专家的依赖是亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种档案智能鉴定方法、装置及系统。

为实现以上目的，本申请采用如下技术方案：

第一方面，本申请提供一种档案智能鉴定方法，包括以下步骤：

获取档案的电子数据；

对所述档案的电子数据进行数据处理，得到待鉴定档案数据；

将所述待鉴定档案数据输入到机器学习模型中，其中，所述机器学习模型为使用多组训练数据训练出来的，所述多组训练数据均包括档案的密级标签和档案的保管期限标签；

获取所述机器学习模型的输出信息结果，其中，所述输出信息结果包括所述档案的密级标签和档案的保管期限标签。

进一步地，对所述档案的电子数据进行数据处理，得到待鉴定档案数据，包括：

对每一个文档进行知识内容提取，将提取的知识内容作为待鉴定档案数据。

进一步地，所述对每一个文档进行知识内容提取，将提取的知识内容作为待鉴定档案数据，包括：

对电子文档的原始视觉信息进行统计，统计内容包括文本内容的字体类型、字体大小和线条信息；

根据所述统计内容，确定正文字体类型、字体大小和表格区域，输出统计结果；

根据所述统计结果，按照文章阅读的视觉处理逻辑，确定文档的标题、段落和表格元素。

进一步地，所述机器学习模型为Text-CNN模型，用于档案标签分类。

进一步地，在获取所述机器学习模型的输出信息结果之后，还包括：

将所述输出信息结果与预测结果进行比较，得到机器学习的测试成功率；

若所述测试成功率超过预设阈值，则将所述输出信息结果输入至档案智能鉴定系统。

第二方面，本申请提供一种档案智能鉴定装置，包括：

获取模块，用于获取档案的电子数据，所述档案的电子数据为档案专家已经鉴定的档案；

数据处理模块，用于对所述档案的电子数据进行数据处理，得到待鉴定档案数据；

机器学习模块，用于将所述待鉴定档案数据输入到机器学习模型中，其中，所述机器学习模型为使用多组训练数据训练出来的，所述多组训练数据均包括档案的密级标签和档案的保管期限标签；

结果输出模块，获取所述机器学习模型的输出信息结果，其中，所述输出信息结果包括所述档案的密级标签和档案的保管期限标签。

进一步地，还包括：

知识内容提取模块，用于对每一个文档进行知识内容提取，将提取的知识内容作为待鉴定档案数据。

第三方面，本申请提供一种档案智能鉴定系统，包括：

存储器和处理器；

所述存储器用于存储所述处理器可执行指令；

所述处理器被配置为用于执行第一方面任一项所述的方法。

本申请采用以上技术方案，至少具备以下有益效果：

本申请技术方案提供的一种档案智能鉴定方法、装置及系统，通过获取档案的电子数据，对所述档案的电子数据进行数据处理，得到待鉴定档案数据；将待鉴定档案数据输入到机器学习模型中，其中，机器学习模型为使用多组训练数据训练出来的，多组训练数据均包括档案的密级标签和档案的保管期限标签；获取机器学习模型的输出信息结果，其中，输出信息结果包括所述档案的密级标签和档案的保管期限标签。本申请技术方案可快速实现电子档案的智能鉴定，解决了现有档案管理系统中，依赖于人工进行档案密级、保管期限和分类等标签的鉴定，给档案的管理和利用带来极大便利。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种档案智能鉴定方法流程图；

图2是本发明另一个实施例提供的一种档案智能鉴定方法流程图；

图3是本发明一个实施例提供的一种档案智能鉴定装置结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

参照图1，本发明实施例提供了一种档案智能鉴定方法，包括以下相关步骤：

步骤101、获取档案的电子数据；

步骤102、对所述档案的电子数据进行数据处理，得到待鉴定档案数据；

步骤103、将所述待鉴定档案数据输入到机器学习模型中，其中，所述机器学习模型为使用多组训练数据训练出来的，所述多组训练数据均包括档案的密级标签和档案的保管期限标签；

步骤104、获取所述机器学习模型的输出信息结果，其中，所述输出信息结果包括所述档案的密级标签和档案的保管期限标签。

本发明实施例提供一种档案智能鉴定方法，通过获取档案的电子数据，对档案的电子数据进行数据处理，得到待鉴定档案数据；将待鉴定档案数据输入到机器学习模型中，其中，机器学习模型为使用多组训练数据训练出来的，多组训练数据均包括档案的密级标签和档案的保管期限标签；获取机器学习模型的输出信息结果，其中，输出信息结果包括档案的密级标签和档案的保管期限标签。本申请技术方案可快速实现电子档案的智能鉴定，解决了现有档案管理系统中，依赖于人工进行档案密级、保管期限和分类等标签的鉴定，给档案的管理和利用带来极大便利。

为进一步说明本申请的技术方案，如图2所示，本发明另一个实施例提供一种档案智能鉴定方法，包括如下相关步骤：

步骤S201:将档案专家已经鉴定的档案进行数据收集；

步骤S202：将收集到的已鉴定数据集划分为两个集合：训练数据集和测试数据集；

步骤S203：对于已鉴定数据集的鉴定分类标准进行梳理划分，确定分类schema，如档案密级维度的schema、档案保管期限维度的schema等。同时，对已鉴定数据集的每一个文档进行人工标签；

Schema，即XML Schema，XSD (XML Schema Definition)是W3C于2001年5月发布的推荐标准，指出如何形式描述XML文档的元素。XSD是许多XML Schema 语言中的一支。XSD是首先分离于XML本身的schema语言，故获取W3C的推荐地位。

步骤S204：使用计算机视觉技术对每一个文档进行知识内容提取，将提取的知识内容作为待鉴定档案数据；

需要说明的是，本申请中每一个需要进行知识提取的文档都是版式文档格式，版式文档格式是版面呈现效果固定的电子文档格式，版式文档的呈现与设备无关，在各种设备上阅读、打印或印刷时，其版面的呈现结果都是一致的。版式文档格式定义了多个页面的版面呈现数据、各个页面内部对象（文字、图像、图形等）在版面内的呈现位置、颜色、字体字号等信息，从而使得解析器、阅读器能够逐页按版式来呈现文档内容，便于人的阅读。版式文档中存储的是非结构化的数据，没有记录文档的逻辑结构，没有段落、大纲、表格等元素，不利于信息再利用。

计算机视觉（Computer vision）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉.作为一门科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。这里所指的信息指香农定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

计算机视觉技术为现有技术，本申请未对计算机视觉技术进行改进。

本发明使用计算机视觉技术，对版式文档进行结构化处理，解析、提取文章的大纲信息、形成段落、提取表格和各种知识数据信息等，详细步骤如下：

S1.对文档的原始视觉信息进行统计，统计内容包括所有文本内容的字体类型、字体大小和线条等信息；

S2.根据统计信息，确定正文字体类型、字体大小和表格区域等内容；

S3.按照文章阅读的视觉处理逻辑，确定文档的标题、段落和表格元素；

如前部大字体居中的内容提取为标题；相同字体，间隔出现的内容，提取为大纲；闭合的线条区域，提取为表格；正文字体区域，处理分栏等情况，进行段落、句子的处理，形成正文。

还可以，引入领域知识，结合预设处理规则，完成电子文档的信息提取，提取文档的题名、文号和章节目录，章节名称，每一个章节内容，文档形成部门等；

步骤S205：对训练数据集中的文档，按照提取的知识内容信息，依据档案专家标签出的具体档案鉴定标签，进行机器学习过程的算法训练；机器学习使用的算法为卷积神经网络。

卷积神经网络：卷积神经网络（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。

训练数据集中的每个文档，都有具体的标签。例如一个公文档案文档的保管期限标签为长期。其训练过程为：

1.先对文档提取的信息进行数值化，如对文档的正文信息映射到一个数值化的语义空间，称为词向量空间；

2.机器学习模型为使用Text-CNN模型，用于档案标签分类；

3.通过分析语料集样本的长度指定一个输入序列的长度L，比L短的样本序列需要填充(自己定义填充符)，比L长的序列需要截取。最终输入层输入的是文本序列中各个词汇对应的分布式表示；

4.进行滑动卷积；

5.使用了Max-pool（最大值池化），减少模型的参数，保证了在不定长的卷基层的输出上获得一个定长的全连接层的输入。

6.全连接层处理，全连接层的作用就是分类器，相当于把卷积与池化层提取的特征输入到一个分类器中进行档案标签分类（预测目标）。

7.使用准确率、召回率等指标，进行多批次的数据训练，得到训练模型。

步骤S206：使用步骤S205产生的训练模型，对测试数据集进行档案智能鉴定测试，测试成功率，则将此训练结果放入档案智能鉴定的专家系统进行使用；如果测试成功率没有达到设定条件，则继续执行步骤S205。

具体地，将输出信息结果与预测结果进行比较，得到机器学习的测试成功率；

通过使用上述步骤，构建档案智能鉴定的训练结果，并使用训练结果构建档案智能鉴定的专家系统。在专家系统的使用过程中，对自动鉴定结果可以重新标记。并可以定时的进行重新训练，结合重新标记结果对重新训练的结果进行测试，测试结果在满足预期效果的基础上，可以更新训练结果。

本方法的基本构思是：

首先将档案系统中的历史已鉴定数据作为专家系统算法的数据训练集和测试集；

然后使用计算机视觉技术，对电子文档进行信息提取，结合规则模式、机器学习技术，提取电子文档的具体内容数据；

再使用机器学习中的卷积神经网络算法，对训练数据集中的文档内容数据及对应的专家标签，进行大数据量的训练；

训练结果在测试数据集上进行验证，满足预设条件后可以投入专家系统使用；在专家系统的后续使用中，可以适时进行重新训练。

在一个实施例中，如图3所示，本发明还提供了一种档案智能鉴定装置结构示意图，该档案智能鉴定装置包括：

获取模块301，用于获取档案的电子数据，所述档案的电子数据为档案专家已经鉴定的档案；

数据处理模块302，用于对所述档案的电子数据进行数据处理，得到待鉴定档案数据；

机器学习模块303，用于将所述待鉴定档案数据输入到机器学习模型中，其中，所述机器学习模型为使用多组训练数据训练出来的，所述多组训练数据均包括档案的密级标签和档案的保管期限标签；

结果输出模块304，获取所述机器学习模型的输出信息结果，其中，所述输出信息结果包括所述档案的密级标签和档案的保管期限标签。

由于该档案智能鉴定装置的相关实施步骤已在上文详细记载，在此不再赘述。

本发明实施例提供的一种档案智能鉴定装置，通过获取模块获取档案的电子数据，所述档案的电子数据为档案专家已经鉴定的档案；通过数据处理模块对所述档案的电子数据进行数据处理，得到待鉴定档案数据；通过机器学习模块将所述待鉴定档案数据输入到机器学习模型中，其中，所述机器学习模型为使用多组训练数据训练出来的，所述多组训练数据均包括档案的密级标签和档案的保管期限标签；通过结果输出模块获取所述机器学习模型的输出信息结果，其中，所述输出信息结果包括所述档案的密级标签和档案的保管期限标签。快速实现电子档案的智能鉴定，解决了现有档案管理系统中，依赖于人工进行档案密级、保管期限和分类等标签的鉴定，给档案的管理和利用带来极大便利。

在一个实施例中，本发明实施例提供一种档案智能鉴定系统，包括：

存储器和处理器；

所述存储器用于存储所述处理器可执行指令；

所述处理器被配置为用于执行上述所述的档案智能鉴定方法。

由于该档案智能鉴定系统的相关实施步骤已在上文详细记载，在此不再赘述。

本发明实施例提供的档案智能鉴定系统，通过获取档案的电子数据，对档案的电子数据进行数据处理，得到待鉴定档案数据；将待鉴定档案数据输入到机器学习模型中，其中，机器学习模型为使用多组训练数据训练出来的，多组训练数据均包括档案的密级标签和档案的保管期限标签；获取机器学习模型的输出信息结果，其中，输出信息结果包括档案的密级标签和档案的保管期限标签。可快速实现电子档案的智能鉴定，解决了现有档案管理系统中，依赖于人工进行档案密级、保管期限和分类等标签的鉴定，给档案的管理和利用带来极大便利。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”、“多”的含义是指至少两个。

应该理解，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者可能同时存在居中元件；当一个元件被称为“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件，此外，这里使用的“连接”可以包括无线连接；使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为：表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种档案智能鉴定方法，其特征在于，包括以下步骤：

获取档案的电子数据；

2.根据权利要求1所述的方法，其特征在于，对所述档案的电子数据进行数据处理，得到待鉴定档案数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述对每一个文档进行知识内容提取，将提取的知识内容作为待鉴定档案数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述机器学习模型为Text-CNN模型，用于档案标签分类。

5.根据权利要求1所述的方法，其特征在于，在获取所述机器学习模型的输出信息结果之后，还包括：

6.一种档案智能鉴定装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.一种档案智能鉴定系统，其特征在于，包括：

存储器和处理器；

所述存储器用于存储所述处理器可执行指令；

所述处理器被配置为用于执行权利要求1-5任一项所述的方法。