CN115329169B

CN115329169B - 一种基于深度神经模型的档案归档计算方法

Info

Publication number: CN115329169B
Application number: CN202210733037.XA
Authority: CN
Inventors: 李金讯; 王庭军; 林树鸿; 颜清
Original assignee: Information Communication Branch of Hainan Power Grid Co Ltd
Current assignee: Information Communication Branch of Hainan Power Grid Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2023-10-20
Anticipated expiration: 2042-06-27
Also published as: CN115329169A

Abstract

本发明提供一种基于深度神经模型的档案归档计算方法，包括下列步骤：依次提取项目文档集合中任一文档的名称信息，获得文档名称信息，根据文档名称信息进行分类，输出与文档名称信息对应的标准名称，将文档名称信息与标准名称进行对比检验，若对比校验通过，使用文档名称信息对前述文档进行标记；若对比检验不通过，提取前述文档中的内容信息，根据所述内容信息进行分类，输出与内容信息对应的标准名称，并使用与内容信息对应的标准名称对前述文档进行标记；对项目文档集合中的所有文档依次进行标记，获得多个标准名称，根据标准名称的数量以及含义，对项目文档集合进行完整性检查，对通过完整性检查的项目文档集合进行存储，并生成归档信息。

Description

一种基于深度神经模型的档案归档计算方法

技术领域

本发明涉及大数据档案管理技术领域，尤其涉及一种基于深度神经模型的档案归档计算方法。

背景技术

企业档案是企业研发、生产、经营和管理活动中产生的真实记录，是企业有形资产记录、凭证和无形资产的承载和组成，是维护企业合法权益的重要凭证，其科学的管理工作将会对企业经营发展具有特殊的推动作用：企业在做出重大决策时可以借助过去发展中积累的档案资料分析总结不足，使决策更为科学和及时，同时企业在日常的工作中可以借助以往档案资料反映出来的有效经验财富，促进企业的科学发展，在保障企业生产、经营和管理持续开展，以及企业资产保值增值和延续企业历史等方面具有不可或缺的地位和作用。

近年来，随着大数据的快速发展，人工智能技术已经被广泛应用于人们的生活生产中，其应用也为档案管理工作带来了一系列历史性变革与发展。人工智能技术应用于档案管理中可以替代人做一些重复的人工劳动，实现智能分类检索与智能安全管理。人工智能将推动档案资源数字化、管理网络化、智能化、用户使用便利化。人工智能全面融入各类档案管理，将告别传统意义上的纸质资源搜集，转向各应用系统或公司大数据平台海量搜集有价值信息，扩大信息内存，节省时间成本，提高工作效率。人工智能带给档案管理的创新与探索可大致归类如下：数字档案信息资源智能检索与分类。互联网时代的信息浩如烟海，如何从广阔海洋中准确获取正确的信息加以利用，成为信息检索与分类的首要目标。智能化档案价值鉴定。通过智能扫描设定信息范围和关键词，搜寻有价值信息，并对搜集到的信息资源进行进一步的分析和应用。智能化档案安全管理。智能应用中对外开放的网络安全设定、信息资源管理中的安全防护、信息利用过程中的安全保障。智能化档案提供利用服务。多元化档案利用模式和途径，扩大信息对外传导路径，在可控范围内无限放大信息界面，为各种需求和命令提供精准信息资源的利用与服务。

目前档案完整性审核工作大部分单位均有人工来完成，即按照归档案人提交的档案资料，结合本单位档案管理标准，对不同档案类型的文件关键信息逐一进行核对，这需要档案管理人员对档案归档标准及档案内容有较高的要求，需要花费大量的工作去进行重复性工作，且由于工作量大及人为审核存在遗漏风险，甚至出现相同问题出现在同类档案资料在而不能全部发现，导致档案合规性校验工作效率低。部分大型企业由于档案审核工作量大，加之档案管理人员缺口大，每年都花费大量的财力寻找第三方为本单位档案资料进行审核。这大大降低档案合规性校验的工作效率，同时浪费了大量的人力及财力。

发明内容

本发明的目的在于提供一种基于深度神经模型的档案归档计算方法，以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的：一种基于深度神经模型的档案归档计算方法，包括下列步骤：

针对所收到的项目文档集合，依次提取所述项目文档集合中任一文档的名称信息，获得文档名称信息，根据所述文档名称信息进行分类，输出与所述文档名称信息对应的标准名称，将文档名称信息与标准名称进行对比检验，若对比校验通过，使用所述文档名称信息对前述文档进行标记；

若对比检验不通过，提取前述文档中的内容信息，根据所述内容信息进行分类，输出与内容信息对应的标准名称，并使用与内容信息对应的标准名称对前述文档进行标记；

对所述项目文档集合中的所有文档依次进行标记，获得多个标准名称，根据所述标准名称的数量以及含义，对项目文档集合进行完整性检查，对通过完整性检查的项目文档集合进行存储，并生成归档信息。

可选的，通过第一BiLSTM+CNN组合模型对所述文档名称信息进行分类，通过第二BiLSTM+CNN组合模型对所述内容信息进行分类。

可选的，在使用第一BiLSTM+CNN组合模型以及第二BiLSTM+CNN组合模型进行分类前，还分别对所述第一BiLSTM+CNN组合模型以及第二BiLSTM+CNN组合模型进行训练，其训练的具体过程为：

随机初始化模型的参数，设置模型批处理数据量batchsize大小和迭代次数epochs；

将字向量表示的句子输入到BiLSTM网络中，获得经BiLSTM提取的句子特征矩阵；

将所述句子特征矩阵输入到TextCNN模型中，进行文本特征的二次提取；

将所述TextCNN模型的文本特征的二次提取结果输入到全连接网络层和SoftMax层中获得文本的分类结果；

经由代价函数计算模型中参数的梯度，进行反向传播，更新参数值。直至满足设定的epochs次数止。

可选的，将文档名称信息与标准名称进行对比检验，若对比校验通过，使用所述文档名称信息对前述文档进行标记，具体包括：将文档名称信息表示成连续的第一数值向量，将对应的标准名称表示成连续的第二数值向量，计算第一数值向量与所述第二数值向量之间的余弦距离或者欧式距离，根据余弦距离或者欧式距离判断所述文档名称信息是否与对应的标准名称存在差异，若不存在差异，则使用文档名称信息对前述文档进行标记。

可选的，提取前述文档中的内容信息，根据所述内容信息进行分类，输出与内容信息对应的标准名称，具体包括：提取前述文档中的标题信息，所述标题信息包括主标题、一级标题、二级标题以及三级标题；将所述标题信息输入第二BiLSTM+CNN组合模型，根据标题信息的语义特征进行分类，获得对应的标准名称。

可选的，将所述主标题表示成连续的第三数值向量，将与内容信息对应的标准名称表示成连续的第四数值向量，计算第三数值向量与所述第四数值向量之间的余弦距离或者欧式距离，根据余弦距离或者欧式距离判断所述主标题是否与内容信息对应的标准名称存在差异，若不存在差异，则使用与内容信息对应的标准名称对前述文档进行标记。

可选的，根据所述标准名称的数量以及含义，对项目文档集合进行完整性检查，具体包括：建立校验库，所述校验库中设有科技项目子库、信息化项目子库以及工程项目子库，所述科技项目子库、信息化项目子库以及工程项目子库中均包含多个校验名称，将所述校验库中的校验名称与通过所述项目文档集合获得的标准名称依次与进行字符对比，若校验名称与通过所述项目文档集合获得的所有标准名称均能一一对应，则所述项目文档集合通过完整性校验。

可选的，所述归档信息包括所述项目文档集合的存储地址。

与现有技术相比，本发明达到的有益效果如下：

本发明提供的一种基于深度神经模型的档案归档计算方法，为档案完整性校验提供了一种智能化的手段，打破传统的档案审核方式，解决档案审核工作需花费大量人工审核及批准的时间，为档案的快速、准确归档提供了便捷的窗口，彻底释放档案管理人员的工作压力，使得档案管理工作更加智能化、可视化。同时节约了大量人力、物力成本，加速了网公司的精益化管理工作的进程。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于深度神经模型的档案归档计算方法的流程图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的结构，以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

参见图1，一种基于深度神经模型的档案归档计算方法，包括下列步骤：

S1、针对所收到的项目文档集合，依次提取所述项目文档集合中任一文档的名称信息，获得文档名称信息，根据所述文档名称信息进行分类，输出与所述文档名称信息对应的标准名称，将文档名称信息与标准名称进行对比检验，若对比校验通过，使用所述文档名称信息对前述文档进行标记；

S2、若对比检验不通过，提取前述文档中的内容信息，根据所述内容信息进行分类，输出与内容信息对应的标准名称，并使用与内容信息对应的标准名称对前述文档进行标记；

S3、对所述项目文档集合中的所有文档依次进行标记，获得多个标准名称，根据所述标准名称的数量以及含义，对项目文档集合进行完整性检查，对通过完整性检查的项目文档集合进行存储，并生成归档信息。

项目文档集合由电子文件夹构成，每个电子文件夹中均包含多个项目文档，并且所述电子文件夹均以特定的字符串进行命名。

具体的，所述归档信息包括所述项目文档集合的存储地址，方便档案维护人员能根据存储地址快速找到对应的项目文件。

在步骤S1与S2中，通过第一BiLSTM+CNN组合模型对所述文档名称信息进行分类，通过第二BiLSTM+CNN组合模型对所述内容信息进行分类，其中第一BiLSTM+CNN组合模型的输入特征量为一个，其输出结果可为一个或多个，第二BiLSTM+CNN组合模型的输入特征量为多个，其输出结果仅为一个。

BiLSTM+CNN组合模型的思想是，将BiLSTM的每一个神经元输出的特征连结成句子的特征矩阵，用作卷积神经网络的输入，进行特征的二次提取。具体的，句子中的字组成的字向量序列，经过BiLSTM模型编码成二维矩阵，编码的过程即递归模型学习的过程，该过程将句子的字向量特征过滤、融合成句子的特征矩阵。递归模型的特点在于捕获长距离的文本语义特征，对长距离的语义进行关联特征提取，而BiLSTM模型保证了句子的前后向语义信息都可以被捕获。经过BiLSTM模型输出的句子特征矩阵包含了句子中字与字之间长距离的语义信息，使用TextCNN对句子的特征矩阵做卷积操作，并通过池化进行特征筛选，继而提取句子特征矩阵中相邻文字的关联特征，这样相互结合，使得句子的语义特征得以全面且深度的提取，从而可以获得更准确的分类结果。

示例性的，例如当文档名称为开题报告时，将“开题报告”所组成的字向量序列输入第一BiLSTM+CNN组合模型中，根据分类结果，获得分类结果为“开题报告”的标准名称，此时将文档名称信息，例如“开题报告”，表示成连续的第一数值向量，将分类结果为“开题报告”的标准名称表示成连续的第二数值向量，计算第一数值向量与所述第二数值向量之间的余弦距离或者欧式距离，根据余弦距离或者欧式距离判断所述文档名称信息是否与对应的标准名称存在差异，若不存在差异，则使用文档名称作为标准名称来对文档进行标记，若存在差异则需要根据文档的内容信息进行进一步分类。

作为示例性的，例如当文档名称为预估书时，将“预估书”所组成的字向量序列输入第一BiLSTM+CNN组合模型中，根据分类结果，能获得“财务预估书”、“项目预估书”等多个标准名称，此时需要根据文档的内容信息进行进一步分类。

进一步的，提取前述文档中的内容信息，根据所述内容信息进行分类，输出与内容信息对应的标准名称，具体包括：提取前述文档中的标题信息，所述标题信息包括主标题、一级标题、二级标题以及三级标题，例如“预估书”中的各级标题，在文档中，其各级标题一般包含了文档的关键信息，因此分别将所述主标题、一级标题、二级标题以及三级标题构成所组成的字向量序列，输入第二BiLSTM+CNN组合模型进行分类识别，获得唯一的标准名称，例如获得的标准名称为“财务预估书”，使用“财务预估书”对前述文档进行标记。

在获得了与文档内容相关的标准名称后，还需要进行校验，具体为：将所述主标题表示成连续的第三数值向量，将与内容信息对应的标准名称表示成连续的第四数值向量，由于主标题一般为最接近文档主旨的关键词，因此计算第三数值向量与所述第四数值向量之间的余弦距离或者欧式距离，若余弦距离或者欧式距离小于阈值，则说明与内容信息对应的标准名称与主标题的相似度高，则使用与内容信息对应的标准名称对前述文档进行标记。

进一步的，在使用第一BiLSTM+CNN组合模型以及第二BiLSTM+CNN组合模型进行分类前，还需要分别对所述第一BiLSTM+CNN组合模型以及第二BiLSTM+CNN组合模型进行训练，其训练的具体过程为：

具体的，将文档名称信息与标准名称进行对比检验，若对比校验通过，使用所述文档名称信息对前述文档进行标记，具体包括：将文档名称信息表示成连续的第一数值向量，将对应的标准名称表示成连续的第二数值向量，计算第一数值向量与所述第二数值向量之间的余弦距离或者欧式距离，根据余弦距离或者欧式距离判断所述文档名称信息是否与对应的标准名称存在差异，若不存在差异，则使用文档名称信息对前述文档进行标记。

进一步的，根据所述标准名称的数量以及含义，对项目文档集合进行完整性检查，具体包括：建立校验库，所述校验库中设有科技项目子库、信息化项目子库以及工程项目子库，所述科技项目子库、信息化项目子库以及工程项目子库中均包含多个校验名称，将所述校验库中的校验名称与通过所述项目文档集合获得的标准名称依次与进行字符对比，若校验名称与通过所述项目文档集合获得的所有标准名称均能一一对应，则所述项目文档集合通过完整性校验。

其中多个校验名称包括但不限于以下内容：项目可研报告、入库评审意见、下达计划、工程计划表、计划任务书、开题报告、出库评审意见、招标文件、投标文件、合同、项目实施资料、中期检查报告、验收证书、研究成果等，其中科技项目子库、信息化项目子库以及工程项目子库中均存在特定的校验名称，例如“开题报告”、“入库评审意见”仅为科技项目子库中存在，而“项目可研报告”、“系统测试报告”、“部署方案”等校验名称仅为信息化项目子库中存在，“工程计划表”等校验名称仅为工程项目子库中存在，在需要进行完整性校验时，通过电子文件夹名字中特定的字符串上的特定编号确定项目类别，例如电子文件夹的命名规则为，特定字符串上的第五位字符为“7”即表示该项目为科技项目，为“8”即表示该项目为信息化项目，为“9即表示该项目为工程项目，在确定项目类别后，选定对应的校验子库，将校验子库中的校验名称与项目文档集合中文档的标记名称进行一一对比，若均对比成功，则说明项目文档集合中的文档数量以及文档名称均符合要求，不存在缺漏的情况，若存在对比失败的情况，则说明项目文档集合中的文档数量缺失，项目文档集合不符合完整性的要求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于深度神经模型的档案归档计算方法，其特征在于，包括下列步骤：

对所述项目文档集合中的所有文档依次进行标记，获得多个标准名称，根据所述标准名称的数量以及含义，对项目文档集合进行完整性检查，对通过完整性检查的项目文档集合进行存储，并生成归档信息；

通过第一BiLSTM+CNN组合模型对所述文档名称信息进行分类，通过第二BiLSTM+CNN组合模型对所述内容信息进行分类；

在使用第一BiLSTM+CNN组合模型以及第二BiLSTM+CNN组合模型进行分类前，还分别对所述第一BiLSTM+CNN组合模型以及第二BiLSTM+CNN组合模型进行训练，其训练的具体过程为：

经由代价函数计算模型中参数的梯度，进行反向传播，更新参数值，直至满足设定的epochs次数止。

2.根据权利要求1所述的一种基于深度神经模型的档案归档计算方法，其特征在于，将文档名称信息与标准名称进行对比检验，若对比校验通过，使用所述文档名称信息对前述文档进行标记，具体包括：将文档名称信息表示成连续的第一数值向量，将对应的标准名称表示成连续的第二数值向量，计算第一数值向量与所述第二数值向量之间的余弦距离或者欧式距离，根据余弦距离或者欧式距离判断所述文档名称信息是否与对应的标准名称存在差异，若不存在差异，则使用文档名称信息对前述文档进行标记。

3.根据权利要求2所述的一种基于深度神经模型的档案归档计算方法，其特征在于，提取前述文档中的内容信息，根据所述内容信息进行分类，输出与内容信息对应的标准名称，具体包括：提取前述文档中的标题信息，所述标题信息包括主标题、一级标题、二级标题以及三级标题；将所述标题信息输入第二BiLSTM+CNN组合模型，根据标题信息的语义特征进行分类，获得对应的标准名称。

4.根据权利要求3所述的一种基于深度神经模型的档案归档计算方法，其特征在于，将所述主标题表示成连续的第三数值向量，将与内容信息对应的标准名称表示成连续的第四数值向量，计算第三数值向量与所述第四数值向量之间的余弦距离或者欧式距离，若余弦距离或者欧式距离小于阈值，则使用与内容信息对应的标准名称对前述文档进行标记。

5.根据权利要求1-4任一项所述的一种基于深度神经模型的档案归档计算方法，其特征在于，根据所述标准名称的数量以及含义，对项目文档集合进行完整性检查，具体包括：建立校验库，所述校验库中设有科技项目子库、信息化项目子库以及工程项目子库，所述科技项目子库、信息化项目子库以及工程项目子库中均包含多个校验名称，将所述校验库中的校验名称与通过所述项目文档集合获得的标准名称依次与进行字符对比，若校验名称与通过所述项目文档集合获得的所有标准名称均能一一对应，则所述项目文档集合通过完整性校验。

6.根据权利要求1所述的一种基于深度神经模型的档案归档计算方法，其特征在于，所述归档信息包括所述项目文档集合的存储地址。