CN115827939A

CN115827939A - 数字化档案管理系统

Info

Publication number: CN115827939A
Application number: CN202211501628.0A
Authority: CN
Inventors: 付玲玲
Original assignee: August 15th Geological Team Of East China Metallurgical Geological Exploration Bureau
Current assignee: August 15th Geological Team Of East China Metallurgical Geological Exploration Bureau
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-03-21

Abstract

公开了一种数字化档案管理系统，其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征；然后，通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征，并以此对所述文本描述对应的主题标签进行分类判断，进而将所述电子扫描文档进行自动归档。这样，可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理。

Description

数字化档案管理系统

技术领域

本申请涉及智能化管理技术领域，且更为具体地，涉及一种数字化档案管理系统。

背景技术

随着国家治理体系和治理能力现代化的深入推进，档案工作发挥作用的空间越来越大，而档案信息化水平的提升，更有利于进一步提高档案工作制度化、规范化、科学化水平，突破档案属地利用限制，打破档案“信息孤岛”，实现馆际档案资源的共建共享。

近年来，档案信息化、数字化工作也乘机发展迅速，各类辅助设备、软件层次不穷。在实际工作中，档案数字化各项流程基于各类业务软件的支持，已基本实现半自动化处理。但数字化分件环节仍处于人工识别处理的原始状态，特别是在数字化量大、件数多的情况下，需人工反复进行复制粘贴、核验校对，往往需要耗费大量人力和时间，并且极易出现错误。

因此，期待一种优化的数字化档案管理系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种数字化档案管理系统，其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征；然后，通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征，并以此对所述文本描述对应的主题标签进行分类判断，进而将所述电子扫描文档进行自动归档。这样，可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理。

根据本申请的一个方面，提供了一种数字化档案管理系统，其包括：电子文档提取模块，用于获取纸质文档的电子扫描文档；文本识别模块，用于对所述电子扫描文档进行OCR文本识别以得到文本描述；语义编码模块，用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量；第一尺度语义关联编码模块，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量；第二尺度语义关联编码模块，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量；语义特征融合模块，用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量；主题标注模块，用于将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签；以及自动归档模块，用于基于所述主题标签，将所述电子扫描文档进行自动归档。

在上述数字化档案管理系统中，所述语义编码模块，包括：分词单元，用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列；词嵌入单元，用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及，上下文理解单元，用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。

在上述数字化档案管理系统中，所述上下文理解单元，包括：查询向量构造子单元，用于将所述词向量的序列进行一维排列以得到全局词特征向量；自注意子单元，用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，注意力施加子单元，用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。

在上述数字化档案管理系统中，所述第一尺度语义关联编码模块，用于：使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量，其中，所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。

在上述数字化档案管理系统中，所述第二尺度语义关联编码模块，用于：使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量，其中，所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。

在上述数字化档案管理系统中，所述语义特征融合模块，包括：第一校正单元，用于基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量；第二校正单元，用于基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量；以及，融合单元，用于计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。

在上述数字化档案管理系统中，所述第一校正单元，进一步用于：基于所述第二尺度上下文特征向量，以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量；其中，所述公式为：

其中V₁表示所述第一尺度上下文特征向量，V₂表示所述第二尺度上下文特征向量，

和

分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值，且

和

分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值，

表示所述校正后第一尺度上下文特征向量的第i个特征值，log表示以2为底的对数函数。

在上述数字化档案管理系统中，所述第二校正单元，进一步用于：基于所述第二尺度上下文特征向量，以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量；其中，所述公式为：

和

和

表示所述校正后第二尺度上下文特征向量的第i个特征值，log表示以2为底的对数函数。

在上述数字化档案管理系统中，所述主题标注模块，包括：全连接编码单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

与现有技术相比，本申请提供的数字化档案管理系统，其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征；然后，通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征，并以此对所述文本描述对应的主题标签进行分类判断，进而将所述电子扫描文档进行自动归档。这样，可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的数字化档案管理系统的应用场景图。

图2为根据本申请实施例的数字化档案管理系统的框图。

图3为根据本申请实施例的数字化档案管理系统中所述语义编码模块的框图。

图4为根据本申请实施例的数字化档案管理系统中所述上下文理解单元的框图。

图5为根据本申请实施例的数字化档案管理系统中所述语义特征融合模块的框图。

图6为根据本申请实施例的数字化档案管理系统中所述主题标注模块的框图。

图7为根据本申请实施例的数字化档案管理系统的操作方法的流程图。

图8为根据本申请实施例的数字化档案管理系统的操作方法的系统架构的示意图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

场景概述

如上所述，随着国家治理体系和治理能力现代化的深入推进，档案工作发挥作用的空间越来越大，而档案信息化水平的提升，更有利于进一步提高档案工作制度化、规范化、科学化水平，突破档案属地利用限制，打破档案“信息孤岛”，实现馆际档案资源的共建共享。

近年来，档案信息化、数字化工作也乘机发展迅速，各类辅助设备、软件层次不穷。在实际工作中，档案数字化各项流程基于各类业务软件的支持，已基本实现半自动化处理。但数字化分件环节仍处于人工识别处理的原始状态，特别是在数字化量大、件数多的情况下，需人工反复进行复制粘贴、核验校对，往往需要耗费大量人力和时间，并且极易出现错误。因此，期待一种优化的数字化档案管理系统。

目前，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

近年来，深度学习以及神经网络的发展为数字化的档案管理提供了新的解决思路和方案。

相应地，考虑到在档案信息化、数字化的工作过程中，数字化分件环节仍有待提升，特别是在数字化量大、件数多的情况下，需人工反复进行复制粘贴、核验校对，往往需要耗费大量人力和时间，并且极易出现错误。基于此，在本申请的技术方案中，期望利用基于深度学习的智能化语义识别技术来进行纸质文档的扫描，并对扫描之后的文本进行文本识别，再基于所识别的文本进行文本主题识别，进而基于所得到的主题标签进行文件归档。也就是，将基于深度学习的人工智能技术应用于文档文本描述的语义理解中，以对其所对应的主题标签进行分类判断，进而基于所述主题标签将所述电子扫描文档进行自动归档，以此来构建数字化档案管理方案。这样，能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理，以在确保归档准确性的同时避免消耗大量的人力和时间。

具体地，在本申请的技术方案中，首先，获取纸质文档的电子扫描文档。应可以理解，OCR(optical character recognition)文本识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。因此，进一步对所述电子扫描文档进行OCR文本识别以得到文本描述。

接着，考虑到所述文本描述是由多个词或词组组成的语句，因此，为了能够对其进行准确地语义理解来得到所述文本描述的语义信息，进一步对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器中进行编码，以提取出所述文本描述中各个词基于全局的高维语义特征，从而得到多个词语义特征向量。也就是，具体地，首先，对于所述文本描述进行分词处理以避免后续进行语义特征提取时发生语义混乱；接着，再将使用词嵌入层将分词处理后的各个词进行词嵌入化来映射为词嵌入向量来得到词嵌入向量的序列；然后，使用所述上下文编码器的转换器对所获得所述词嵌入向量的序列进行基于全局的上下文语义编码以生成所述多个词语义特征向量。

进一步地，考虑到在对于所述文本描述进行语义理解时，由于所述文本描述是由多个词或词组组成的语句，因此各个词组成的词组以及各个词组组成的语句具有不同的语义理解特征，也就是说，在所述文本描述中各个词所组成的不同尺度的词组和语句具有不同的语义理解。因此，在本申请的技术方案中，进一步对于具有所述文本描述中各个词基于全局的高维语义特征的所述多个词语义特征向量，将其排列为一维特征向量后通过使用具有不同尺度的一维卷积核的文本卷积神经网络中进行处理，以分别提取出所述文本描述在不同尺度词特征下的多尺度语义理解关联特征。也就是，具体地，将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量，并将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量。

然后，再融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量中的特征分布信息，以融合所述文本描述在不同尺度词特征下的多尺度语义理解关联特征，从而得到具有多尺度语义理解特征的分类特征向量。进一步地，再将所述分类特征向量通过分类器以得到用于表示所述文本描述对应的主题标签的分类结果。进而，基于所述主题标签，将所述电子扫描文档进行自动归档。这样，能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理。

特别地，在本申请的技术方案中，这里，融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量得到所述分类特征向量时，由于所述第一尺度上下文特征向量和所述第二尺度上下文特征向量分别表达不同尺度下的词语义上下文特征之间的关联，因此其特征分布在高维特征空间内会存在空间位置误差，这样，如果直接通过点加的方式来融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量会影响所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的融合效果。

本申请的申请人考虑到所述第一尺度上下文特征向量和所述第二尺度上下文特征向量都是从所述多个词语义特征向量的序列获得的，因此其作为同源特征表达在特征分布上存在一定的对应性，因此，可以对所述第一尺度上下文特征向量和所述第二尺度上下文特征向量分别进行相对类角度概率信息表示校正，表示为：

其中

和

分别是所述第一尺度上下文特征向量V₁和所述第二尺度上下文特征向量V₂的第i个特征值，且

和

是所述第一尺度上下文特征向量V₁和所述第二尺度上下文特征向量V₂的全部特征值的均值。

这里，所述相对类角度概率信息表示校正通过所述第一尺度上下文特征向量V₁和所述第二尺度上下文特征向量V₂之间的相对类角度概率信息表示，来进行所述第一尺度上下文特征向量V₁和所述第二尺度上下文特征向量V₂在高维特征空间内的特征分布的空间位置误差的几何精度稀释，从而在所述第一尺度上下文特征向量V₁和所述第二尺度上下文特征向量V₂间具有一定对应性的情况下，基于所述第一尺度上下文特征向量V₁和所述第二尺度上下文特征向量V₂各自的各位置的特征值分布相较于彼此整体的分布约束性，来通过按位置的逐点回归来进行特征的隐式上下文对应性校正，从而提高所述第一尺度上下文特征向量V₁和所述第二尺度上下文特征向量V₂的融合效果。这样，能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理，以在确保归档准确性的同时避免消耗大量的人力和时间。

基于此，本申请提供了一种数字化档案管理系统，其包括：电子文档提取模块，用于获取纸质文档的电子扫描文档；文本识别模块，用于对所述电子扫描文档进行OCR文本识别以得到文本描述；语义编码模块，用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量；第一尺度语义关联编码模块，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量；第二尺度语义关联编码模块，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量；语义特征融合模块，用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量；主题标注模块，用于将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签；以及，自动归档模块，用于基于所述主题标签，将所述电子扫描文档进行自动归档。

图1为根据本申请实施例的数字化档案管理系统的应用场景图。如图1所示，在该应用场景中，首先，获取纸质文档的电子扫描文档(例如，图1中所示意的C)；然后，将获取的电子扫描文档输入至部署有数字化档案管理系统的算法的服务器中(例如，图1中所示意的S)，其中，所述服务器能够使用数字化档案管理系统的算法对所述电子扫描文档进行处理，以生成用于表示所述文本描述对应的主题标签的分类结果，并基于所述主题标签，将所述电子扫描文档进行自动归档。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图2为根据本申请实施例的数字化档案管理系统的框图。如图2所示，根据本申请实施例的数字化档案管理系统100，包括：电子文档提取模块110，用于获取纸质文档的电子扫描文档；文本识别模块120，用于对所述电子扫描文档进行OCR文本识别以得到文本描述；语义编码模块130，用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量；第一尺度语义关联编码模块140，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量；第二尺度语义关联编码模块150，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量；语义特征融合模块160，用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量；主题标注模块170，用于将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签；以及，自动归档模块180，用于基于所述主题标签，将所述电子扫描文档进行自动归档。

具体地，在本申请实施例中，所述电子文档提取模块110和所述文本识别模块120，用于获取纸质文档的电子扫描文档；以及，用于对所述电子扫描文档进行OCR文本识别以得到文本描述。如前所述，随着国家治理体系和治理能力现代化的深入推进，档案工作发挥作用的空间越来越大，而档案信息化水平的提升，更有利于进一步提高档案工作制度化、规范化、科学化水平，突破档案属地利用限制，打破档案“信息孤岛”，实现馆际档案资源的共建共享。

具体地，在本申请实施例中，所述语义编码模块130，用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量。接着，考虑到所述文本描述是由多个词或词组组成的语句，因此，为了能够对其进行准确地语义理解来得到所述文本描述的语义信息，进一步对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器中进行编码，以提取出所述文本描述中各个词基于全局的高维语义特征，从而得到多个词语义特征向量。

也就是，具体地，首先，对于所述文本描述进行分词处理以避免后续进行语义特征提取时发生语义混乱；接着，再将使用词嵌入层将分词处理后的各个词进行词嵌入化来映射为词嵌入向量来得到词嵌入向量的序列；然后，使用所述上下文编码器的转换器对所获得所述词嵌入向量的序列进行基于全局的上下文语义编码以生成所述多个词语义特征向量。

更具体地，在本申请实施例中，图3为根据本申请实施例的数字化档案管理系统中所述语义编码模块的框图，如图3所示，所述语义编码模块，包括：分词单元210，用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列；词嵌入单元220，用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及，上下文理解单元230，用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。

进一步地，图4为根据本申请实施例的数字化档案管理系统中所述上下文理解单元的框图，如图4所示，所述上下文理解单元，包括：查询向量构造子单元310，用于将所述词向量的序列进行一维排列以得到全局词特征向量；自注意子单元320，用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元330，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元340，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，注意力施加子单元350，用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。

这样，可以提取出所述文本描述中各个词基于全局的高维语义特征，从而得到多个词语义特征向量。

具体地，在本申请实施例中，所述第一尺度语义关联编码模块140和所述第二尺度语义关联编码模块150，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量；以及，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量。

进一步地，考虑到在对于所述文本描述进行语义理解时，由于所述文本描述是由多个词或词组组成的语句，因此各个词组成的词组以及各个词组组成的语句具有不同的语义理解特征，也就是说，在所述文本描述中各个词所组成的不同尺度的词组和语句具有不同的语义理解。因此，在本申请的技术方案中，进一步对于具有所述文本描述中各个词基于全局的高维语义特征的所述多个词语义特征向量，将其排列为一维特征向量后通过使用具有不同尺度的一维卷积核的文本卷积神经网络中进行处理，以分别提取出所述文本描述在不同尺度词特征下的多尺度语义理解关联特征。

也就是，具体地，将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量，并将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量。

进一步地，在本申请实施例中，使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量，其中，所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。

更进一步地，在本申请实施例中，使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量，其中，所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。

具体地，在本申请实施例中，所述语义特征融合模块160，用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量。然后，再融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量中的特征分布信息，以融合所述文本描述在不同尺度词特征下的多尺度语义理解关联特征，从而得到具有多尺度语义理解特征的分类特征向量。

图5为根据本申请实施例的数字化档案管理系统中所述语义特征融合模块的框图，如图5所示，所述语义特征融合模块，包括：第一校正单元410，用于基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量；第二校正单元420，用于基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量；以及，融合单元430，用于计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。

本申请的申请人考虑到所述第一尺度上下文特征向量和所述第二尺度上下文特征向量都是从所述多个词语义特征向量的序列获得的，因此其作为同源特征表达在特征分布上存在一定的对应性，因此，可以对所述第一尺度上下文特征向量和所述第二尺度上下文特征向量分别进行相对类角度概率信息表示校正。

进一步地，在本申请实施例中，所述第一校正单元，进一步用于：基于所述第二尺度上下文特征向量，以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量；其中，所述公式为：

和

和

更进一步地，在本申请实施例中，所述第二校正单元，进一步用于：基于所述第二尺度上下文特征向量，以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量；其中，所述公式为：

和

和

具体地，在本申请实施例中，所述主题标注模块170和所述自动归档模块180，用于将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签；以及，用于基于所述主题标签，将所述电子扫描文档进行自动归档。

进一步地，再将所述分类特征向量通过分类器以得到用于表示所述文本描述对应的主题标签的分类结果。进而，基于所述主题标签，将所述电子扫描文档进行自动归档。这样，能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理。

图6为根据本申请实施例的数字化档案管理系统中所述主题标注模块的框图，如图6所示，所述主题标注模块，包括：全连接编码单元510，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类单元520，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

这样，能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理，以在确保归档准确性的同时避免消耗大量的人力和时间。

在本申请一具体示例中，使用所述分类器以如下公式对所述分类特征向量进行处理以获得所述分类结果，其中，所述公式为：

softmax{(W_n,B_n):…:(W₁,B₁)|X}，其中，W₁到W_n为权重矩阵，B₁到B_n为偏置向量，X为所述分类特征向量。

综上，基于本申请实施例的数字化档案管理系统100被阐明，其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征；然后，通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征，并以此对所述文本描述对应的主题标签进行分类判断，进而将所述电子扫描文档进行自动归档。这样，可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理，进而实现数字化的档案管理。

示例性方法

图7为根据本申请实施例的数字化档案管理系统的操作方法的流程图。如图7所示，根据本申请实施例的数字化档案管理系统的操作方法，其包括：S110，获取纸质文档的电子扫描文档；S120，对所述电子扫描文档进行OCR文本识别以得到文本描述；S130，对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量；S140，将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量；S150，将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量；S160，融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量；S170，将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签；以及,S180，基于所述主题标签，将所述电子扫描文档进行自动归档。

图8为根据本申请实施例的数字化档案管理系统的操作方法的系统架构的示意图。如图8所示，在所述数字化档案管理系统的操作方法的系统架构中，首先，获取纸质文档的电子扫描文档；然后，对所述电子扫描文档进行OCR文本识别以得到文本描述；接着，对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量；然后，将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量；接着，将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量；然后，融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量；接着，将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签；以及,最后，基于所述主题标签，将所述电子扫描文档进行自动归档。

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量，包括：对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列；使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及，使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量，包括：将所述词向量的序列进行一维排列以得到全局词特征向量；计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及，分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量，包括：使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量，其中，所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量，包括：使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量，其中，所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量，包括：基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量；基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量；以及，计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量，进一步包括：基于所述第二尺度上下文特征向量，以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量；其中，所述公式为：

和

和

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量，进一步包括：基于所述第二尺度上下文特征向量，以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量；其中，所述公式为：

和

和

在一个具体示例中，在上述数字化档案管理系统的操作方法中，所述将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签，包括：使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

这里，本领域技术人员可以理解，上述数字化档案管理系统的操作方法中的各个步骤的具体操作已经在上面参考图1到图6的数字化档案管理系统的描述中得到了详细介绍，并因此，将省略其重复描述。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims

1.一种数字化档案管理系统，其特征在于，包括：电子文档提取模块，用于获取纸质文档的电子扫描文档；文本识别模块，用于对所述电子扫描文档进行OCR文本识别以得到文本描述；语义编码模块，用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量；第一尺度语义关联编码模块，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量；第二尺度语义关联编码模块，用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量；语义特征融合模块，用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量；主题标注模块，用于将所述分类特征向量通过分类器以得到分类结果，所述分类结果用于表示所述文本描述对应的主题标签；以及自动归档模块，用于基于所述主题标签，将所述电子扫描文档进行自动归档。

2.根据权利要求1所述的数字化档案管理系统，其特征在于，所述语义编码模块，包括：分词单元，用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列；词嵌入单元，用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列；以及上下文理解单元，用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。

3.根据权利要求2所述的数字化档案管理系统，其特征在于，所述上下文理解单元，包括：查询向量构造子单元，用于将所述词向量的序列进行一维排列以得到全局词特征向量；自注意子单元，用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵；标准化子单元，用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵；关注度计算子单元，用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值；以及注意力施加子单元，用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。

4.根据权利要求3所述的数字化档案管理系统，其特征在于，所述第一尺度语义关联编码模块，进一步用于：使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量，其中，所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。

5.根据权利要求4所述的数字化档案管理系统，其特征在于，所述第二尺度语义关联编码模块，进一步用于：使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量，其中，所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。

6.根据权利要求5所述的数字化档案管理系统，其特征在于，所述语义特征融合模块，包括：第一校正单元，用于基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量；第二校正单元，用于基于所述第二尺度上下文特征向量，对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量；以及融合单元，用于计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。

7.根据权利要求6所述的数字化档案管理系统，其特征在于，所述第一校正单元，进一步用于：基于所述第二尺度上下文特征向量，以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量；其中，所述公式为：