CN115827939A - 数字化档案管理系统 - Google Patents

数字化档案管理系统 Download PDF

Info

Publication number
CN115827939A
CN115827939A CN202211501628.0A CN202211501628A CN115827939A CN 115827939 A CN115827939 A CN 115827939A CN 202211501628 A CN202211501628 A CN 202211501628A CN 115827939 A CN115827939 A CN 115827939A
Authority
CN
China
Prior art keywords
scale
feature vector
word
context
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211501628.0A
Other languages
English (en)
Inventor
付玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
August 15th Geological Team Of East China Metallurgical Geological Exploration Bureau
Original Assignee
August 15th Geological Team Of East China Metallurgical Geological Exploration Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by August 15th Geological Team Of East China Metallurgical Geological Exploration Bureau filed Critical August 15th Geological Team Of East China Metallurgical Geological Exploration Bureau
Priority to CN202211501628.0A priority Critical patent/CN115827939A/zh
Publication of CN115827939A publication Critical patent/CN115827939A/zh
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种数字化档案管理系统,其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征;然后,通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,并以此对所述文本描述对应的主题标签进行分类判断,进而将所述电子扫描文档进行自动归档。这样,可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。

Description

数字化档案管理系统
技术领域
本申请涉及智能化管理技术领域,且更为具体地,涉及一种数字化档案管理系统。
背景技术
随着国家治理体系和治理能力现代化的深入推进,档案工作发挥作用的空间越来越大,而档案信息化水平的提升,更有利于进一步提高档案工作制度化、规范化、科学化水平,突破档案属地利用限制,打破档案“信息孤岛”,实现馆际档案资源的共建共享。
近年来,档案信息化、数字化工作也乘机发展迅速,各类辅助设备、软件层次不穷。在实际工作中,档案数字化各项流程基于各类业务软件的支持,已基本实现半自动化处理。但数字化分件环节仍处于人工识别处理的原始状态,特别是在数字化量大、件数多的情况下,需人工反复进行复制粘贴、核验校对,往往需要耗费大量人力和时间,并且极易出现错误。
因此,期待一种优化的数字化档案管理系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种数字化档案管理系统,其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征;然后,通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,并以此对所述文本描述对应的主题标签进行分类判断,进而将所述电子扫描文档进行自动归档。这样,可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。
根据本申请的一个方面,提供了一种数字化档案管理系统,其包括:电子文档提取模块,用于获取纸质文档的电子扫描文档;文本识别模块,用于对所述电子扫描文档进行OCR文本识别以得到文本描述;语义编码模块,用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;第一尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;第二尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;语义特征融合模块,用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;主题标注模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及自动归档模块,用于基于所述主题标签,将所述电子扫描文档进行自动归档。
在上述数字化档案管理系统中,所述语义编码模块,包括:分词单元,用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列;词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,上下文理解单元,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。
在上述数字化档案管理系统中,所述上下文理解单元,包括:查询向量构造子单元,用于将所述词向量的序列进行一维排列以得到全局词特征向量;自注意子单元,用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。
在上述数字化档案管理系统中,所述第一尺度语义关联编码模块,用于:使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量,其中,所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。
在上述数字化档案管理系统中,所述第二尺度语义关联编码模块,用于:使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量,其中,所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。
在上述数字化档案管理系统中,所述语义特征融合模块,包括:第一校正单元,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量;第二校正单元,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;以及,融合单元,用于计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。
在上述数字化档案管理系统中,所述第一校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量;其中,所述公式为:
Figure BDA0003966556190000031
Figure BDA0003966556190000037
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure BDA0003966556190000032
Figure BDA0003966556190000033
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure BDA0003966556190000034
Figure BDA0003966556190000035
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure BDA0003966556190000036
表示所述校正后第一尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
在上述数字化档案管理系统中,所述第二校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;其中,所述公式为:
Figure BDA0003966556190000041
Figure BDA0003966556190000042
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure BDA0003966556190000043
Figure BDA0003966556190000044
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure BDA0003966556190000045
Figure BDA0003966556190000046
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure BDA0003966556190000047
表示所述校正后第二尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
在上述数字化档案管理系统中,所述主题标注模块,包括:全连接编码单元,用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
与现有技术相比,本申请提供的数字化档案管理系统,其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征;然后,通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,并以此对所述文本描述对应的主题标签进行分类判断,进而将所述电子扫描文档进行自动归档。这样,可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的数字化档案管理系统的应用场景图。
图2为根据本申请实施例的数字化档案管理系统的框图。
图3为根据本申请实施例的数字化档案管理系统中所述语义编码模块的框图。
图4为根据本申请实施例的数字化档案管理系统中所述上下文理解单元的框图。
图5为根据本申请实施例的数字化档案管理系统中所述语义特征融合模块的框图。
图6为根据本申请实施例的数字化档案管理系统中所述主题标注模块的框图。
图7为根据本申请实施例的数字化档案管理系统的操作方法的流程图。
图8为根据本申请实施例的数字化档案管理系统的操作方法的系统架构的示意图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如上所述,随着国家治理体系和治理能力现代化的深入推进,档案工作发挥作用的空间越来越大,而档案信息化水平的提升,更有利于进一步提高档案工作制度化、规范化、科学化水平,突破档案属地利用限制,打破档案“信息孤岛”,实现馆际档案资源的共建共享。
近年来,档案信息化、数字化工作也乘机发展迅速,各类辅助设备、软件层次不穷。在实际工作中,档案数字化各项流程基于各类业务软件的支持,已基本实现半自动化处理。但数字化分件环节仍处于人工识别处理的原始状态,特别是在数字化量大、件数多的情况下,需人工反复进行复制粘贴、核验校对,往往需要耗费大量人力和时间,并且极易出现错误。因此,期待一种优化的数字化档案管理系统。
目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
近年来,深度学习以及神经网络的发展为数字化的档案管理提供了新的解决思路和方案。
相应地,考虑到在档案信息化、数字化的工作过程中,数字化分件环节仍有待提升,特别是在数字化量大、件数多的情况下,需人工反复进行复制粘贴、核验校对,往往需要耗费大量人力和时间,并且极易出现错误。基于此,在本申请的技术方案中,期望利用基于深度学习的智能化语义识别技术来进行纸质文档的扫描,并对扫描之后的文本进行文本识别,再基于所识别的文本进行文本主题识别,进而基于所得到的主题标签进行文件归档。也就是,将基于深度学习的人工智能技术应用于文档文本描述的语义理解中,以对其所对应的主题标签进行分类判断,进而基于所述主题标签将所述电子扫描文档进行自动归档,以此来构建数字化档案管理方案。这样,能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理,以在确保归档准确性的同时避免消耗大量的人力和时间。
具体地,在本申请的技术方案中,首先,获取纸质文档的电子扫描文档。应可以理解,OCR(optical character recognition)文本识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。因此,进一步对所述电子扫描文档进行OCR文本识别以得到文本描述。
接着,考虑到所述文本描述是由多个词或词组组成的语句,因此,为了能够对其进行准确地语义理解来得到所述文本描述的语义信息,进一步对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器中进行编码,以提取出所述文本描述中各个词基于全局的高维语义特征,从而得到多个词语义特征向量。也就是,具体地,首先,对于所述文本描述进行分词处理以避免后续进行语义特征提取时发生语义混乱;接着,再将使用词嵌入层将分词处理后的各个词进行词嵌入化来映射为词嵌入向量来得到词嵌入向量的序列;然后,使用所述上下文编码器的转换器对所获得所述词嵌入向量的序列进行基于全局的上下文语义编码以生成所述多个词语义特征向量。
进一步地,考虑到在对于所述文本描述进行语义理解时,由于所述文本描述是由多个词或词组组成的语句,因此各个词组成的词组以及各个词组组成的语句具有不同的语义理解特征,也就是说,在所述文本描述中各个词所组成的不同尺度的词组和语句具有不同的语义理解。因此,在本申请的技术方案中,进一步对于具有所述文本描述中各个词基于全局的高维语义特征的所述多个词语义特征向量,将其排列为一维特征向量后通过使用具有不同尺度的一维卷积核的文本卷积神经网络中进行处理,以分别提取出所述文本描述在不同尺度词特征下的多尺度语义理解关联特征。也就是,具体地,将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量,并将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量。
然后,再融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量中的特征分布信息,以融合所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,从而得到具有多尺度语义理解特征的分类特征向量。进一步地,再将所述分类特征向量通过分类器以得到用于表示所述文本描述对应的主题标签的分类结果。进而,基于所述主题标签,将所述电子扫描文档进行自动归档。这样,能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。
特别地,在本申请的技术方案中,这里,融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量得到所述分类特征向量时,由于所述第一尺度上下文特征向量和所述第二尺度上下文特征向量分别表达不同尺度下的词语义上下文特征之间的关联,因此其特征分布在高维特征空间内会存在空间位置误差,这样,如果直接通过点加的方式来融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量会影响所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的融合效果。
本申请的申请人考虑到所述第一尺度上下文特征向量和所述第二尺度上下文特征向量都是从所述多个词语义特征向量的序列获得的,因此其作为同源特征表达在特征分布上存在一定的对应性,因此,可以对所述第一尺度上下文特征向量和所述第二尺度上下文特征向量分别进行相对类角度概率信息表示校正,表示为:
Figure BDA0003966556190000071
Figure BDA0003966556190000072
Figure BDA0003966556190000073
其中
Figure BDA0003966556190000074
Figure BDA0003966556190000075
分别是所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2的第i个特征值,且
Figure BDA0003966556190000076
Figure BDA0003966556190000077
是所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2的全部特征值的均值。
这里,所述相对类角度概率信息表示校正通过所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2之间的相对类角度概率信息表示,来进行所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2在高维特征空间内的特征分布的空间位置误差的几何精度稀释,从而在所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2间具有一定对应性的情况下,基于所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2各自的各位置的特征值分布相较于彼此整体的分布约束性,来通过按位置的逐点回归来进行特征的隐式上下文对应性校正,从而提高所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2的融合效果。这样,能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理,以在确保归档准确性的同时避免消耗大量的人力和时间。
基于此,本申请提供了一种数字化档案管理系统,其包括:电子文档提取模块,用于获取纸质文档的电子扫描文档;文本识别模块,用于对所述电子扫描文档进行OCR文本识别以得到文本描述;语义编码模块,用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;第一尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;第二尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;语义特征融合模块,用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;主题标注模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及,自动归档模块,用于基于所述主题标签,将所述电子扫描文档进行自动归档。
图1为根据本申请实施例的数字化档案管理系统的应用场景图。如图1所示,在该应用场景中,首先,获取纸质文档的电子扫描文档(例如,图1中所示意的C);然后,将获取的电子扫描文档输入至部署有数字化档案管理系统的算法的服务器中(例如,图1中所示意的S),其中,所述服务器能够使用数字化档案管理系统的算法对所述电子扫描文档进行处理,以生成用于表示所述文本描述对应的主题标签的分类结果,并基于所述主题标签,将所述电子扫描文档进行自动归档。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图2为根据本申请实施例的数字化档案管理系统的框图。如图2所示,根据本申请实施例的数字化档案管理系统100,包括:电子文档提取模块110,用于获取纸质文档的电子扫描文档;文本识别模块120,用于对所述电子扫描文档进行OCR文本识别以得到文本描述;语义编码模块130,用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;第一尺度语义关联编码模块140,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;第二尺度语义关联编码模块150,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;语义特征融合模块160,用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;主题标注模块170,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及,自动归档模块180,用于基于所述主题标签,将所述电子扫描文档进行自动归档。
具体地,在本申请实施例中,所述电子文档提取模块110和所述文本识别模块120,用于获取纸质文档的电子扫描文档;以及,用于对所述电子扫描文档进行OCR文本识别以得到文本描述。如前所述,随着国家治理体系和治理能力现代化的深入推进,档案工作发挥作用的空间越来越大,而档案信息化水平的提升,更有利于进一步提高档案工作制度化、规范化、科学化水平,突破档案属地利用限制,打破档案“信息孤岛”,实现馆际档案资源的共建共享。
近年来,档案信息化、数字化工作也乘机发展迅速,各类辅助设备、软件层次不穷。在实际工作中,档案数字化各项流程基于各类业务软件的支持,已基本实现半自动化处理。但数字化分件环节仍处于人工识别处理的原始状态,特别是在数字化量大、件数多的情况下,需人工反复进行复制粘贴、核验校对,往往需要耗费大量人力和时间,并且极易出现错误。因此,期待一种优化的数字化档案管理系统。
目前,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、语音信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。
近年来,深度学习以及神经网络的发展为数字化的档案管理提供了新的解决思路和方案。
相应地,考虑到在档案信息化、数字化的工作过程中,数字化分件环节仍有待提升,特别是在数字化量大、件数多的情况下,需人工反复进行复制粘贴、核验校对,往往需要耗费大量人力和时间,并且极易出现错误。基于此,在本申请的技术方案中,期望利用基于深度学习的智能化语义识别技术来进行纸质文档的扫描,并对扫描之后的文本进行文本识别,再基于所识别的文本进行文本主题识别,进而基于所得到的主题标签进行文件归档。也就是,将基于深度学习的人工智能技术应用于文档文本描述的语义理解中,以对其所对应的主题标签进行分类判断,进而基于所述主题标签将所述电子扫描文档进行自动归档,以此来构建数字化档案管理方案。这样,能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理,以在确保归档准确性的同时避免消耗大量的人力和时间。
具体地,在本申请的技术方案中,首先,获取纸质文档的电子扫描文档。应可以理解,OCR(optical character recognition)文本识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。因此,进一步对所述电子扫描文档进行OCR文本识别以得到文本描述。
具体地,在本申请实施例中,所述语义编码模块130,用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量。接着,考虑到所述文本描述是由多个词或词组组成的语句,因此,为了能够对其进行准确地语义理解来得到所述文本描述的语义信息,进一步对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器中进行编码,以提取出所述文本描述中各个词基于全局的高维语义特征,从而得到多个词语义特征向量。
也就是,具体地,首先,对于所述文本描述进行分词处理以避免后续进行语义特征提取时发生语义混乱;接着,再将使用词嵌入层将分词处理后的各个词进行词嵌入化来映射为词嵌入向量来得到词嵌入向量的序列;然后,使用所述上下文编码器的转换器对所获得所述词嵌入向量的序列进行基于全局的上下文语义编码以生成所述多个词语义特征向量。
更具体地,在本申请实施例中,图3为根据本申请实施例的数字化档案管理系统中所述语义编码模块的框图,如图3所示,所述语义编码模块,包括:分词单元210,用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列;词嵌入单元220,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,上下文理解单元230,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。
进一步地,图4为根据本申请实施例的数字化档案管理系统中所述上下文理解单元的框图,如图4所示,所述上下文理解单元,包括:查询向量构造子单元310,用于将所述词向量的序列进行一维排列以得到全局词特征向量;自注意子单元320,用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元330,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元340,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,注意力施加子单元350,用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。
这样,可以提取出所述文本描述中各个词基于全局的高维语义特征,从而得到多个词语义特征向量。
具体地,在本申请实施例中,所述第一尺度语义关联编码模块140和所述第二尺度语义关联编码模块150,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;以及,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量。
进一步地,考虑到在对于所述文本描述进行语义理解时,由于所述文本描述是由多个词或词组组成的语句,因此各个词组成的词组以及各个词组组成的语句具有不同的语义理解特征,也就是说,在所述文本描述中各个词所组成的不同尺度的词组和语句具有不同的语义理解。因此,在本申请的技术方案中,进一步对于具有所述文本描述中各个词基于全局的高维语义特征的所述多个词语义特征向量,将其排列为一维特征向量后通过使用具有不同尺度的一维卷积核的文本卷积神经网络中进行处理,以分别提取出所述文本描述在不同尺度词特征下的多尺度语义理解关联特征。
也就是,具体地,将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量,并将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量。
进一步地,在本申请实施例中,使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量,其中,所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。
更进一步地,在本申请实施例中,使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量,其中,所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。
具体地,在本申请实施例中,所述语义特征融合模块160,用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量。然后,再融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量中的特征分布信息,以融合所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,从而得到具有多尺度语义理解特征的分类特征向量。
图5为根据本申请实施例的数字化档案管理系统中所述语义特征融合模块的框图,如图5所示,所述语义特征融合模块,包括:第一校正单元410,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量;第二校正单元420,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;以及,融合单元430,用于计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。
特别地,在本申请的技术方案中,这里,融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量得到所述分类特征向量时,由于所述第一尺度上下文特征向量和所述第二尺度上下文特征向量分别表达不同尺度下的词语义上下文特征之间的关联,因此其特征分布在高维特征空间内会存在空间位置误差,这样,如果直接通过点加的方式来融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量会影响所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的融合效果。
本申请的申请人考虑到所述第一尺度上下文特征向量和所述第二尺度上下文特征向量都是从所述多个词语义特征向量的序列获得的,因此其作为同源特征表达在特征分布上存在一定的对应性,因此,可以对所述第一尺度上下文特征向量和所述第二尺度上下文特征向量分别进行相对类角度概率信息表示校正。
进一步地,在本申请实施例中,所述第一校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量;其中,所述公式为:
Figure BDA0003966556190000131
Figure BDA0003966556190000132
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure BDA0003966556190000133
Figure BDA0003966556190000134
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure BDA0003966556190000135
Figure BDA0003966556190000136
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure BDA0003966556190000137
表示所述校正后第一尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
更进一步地,在本申请实施例中,所述第二校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;其中,所述公式为:
Figure BDA0003966556190000141
Figure BDA0003966556190000142
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure BDA0003966556190000143
Figure BDA0003966556190000144
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure BDA0003966556190000145
Figure BDA0003966556190000146
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure BDA0003966556190000147
表示所述校正后第二尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
这里,所述相对类角度概率信息表示校正通过所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2之间的相对类角度概率信息表示,来进行所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2在高维特征空间内的特征分布的空间位置误差的几何精度稀释,从而在所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2间具有一定对应性的情况下,基于所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2各自的各位置的特征值分布相较于彼此整体的分布约束性,来通过按位置的逐点回归来进行特征的隐式上下文对应性校正,从而提高所述第一尺度上下文特征向量V1和所述第二尺度上下文特征向量V2的融合效果。这样,能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理,以在确保归档准确性的同时避免消耗大量的人力和时间。
具体地,在本申请实施例中,所述主题标注模块170和所述自动归档模块180,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及,用于基于所述主题标签,将所述电子扫描文档进行自动归档。
进一步地,再将所述分类特征向量通过分类器以得到用于表示所述文本描述对应的主题标签的分类结果。进而,基于所述主题标签,将所述电子扫描文档进行自动归档。这样,能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。
图6为根据本申请实施例的数字化档案管理系统中所述主题标注模块的框图,如图6所示,所述主题标注模块,包括:全连接编码单元510,用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类单元520,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
这样,能够基于对电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理,以在确保归档准确性的同时避免消耗大量的人力和时间。
在本申请一具体示例中,使用所述分类器以如下公式对所述分类特征向量进行处理以获得所述分类结果,其中,所述公式为:
softmax{(Wn,Bn):…:(W1,B1)|X},其中,W1到Wn为权重矩阵,B1到Bn为偏置向量,X为所述分类特征向量。
综上,基于本申请实施例的数字化档案管理系统100被阐明,其通过包含嵌入层的上下文编码器提取电子扫描文档的文本描述中各个词基于全局的高维语义特征;然后,通过使用具有不同尺度的一维卷积核的文本卷积神经网络提取所述文本描述在不同尺度词特征下的多尺度语义理解关联特征,并以此对所述文本描述对应的主题标签进行分类判断,进而将所述电子扫描文档进行自动归档。这样,可以基于对所述电子扫描文档的文本语义理解来进行智能且准确地档案归档处理,进而实现数字化的档案管理。
示例性方法
图7为根据本申请实施例的数字化档案管理系统的操作方法的流程图。如图7所示,根据本申请实施例的数字化档案管理系统的操作方法,其包括:S110,获取纸质文档的电子扫描文档;S120,对所述电子扫描文档进行OCR文本识别以得到文本描述;S130,对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;S140,将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;S150,将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;S160,融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;S170,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及,S180,基于所述主题标签,将所述电子扫描文档进行自动归档。
图8为根据本申请实施例的数字化档案管理系统的操作方法的系统架构的示意图。如图8所示,在所述数字化档案管理系统的操作方法的系统架构中,首先,获取纸质文档的电子扫描文档;然后,对所述电子扫描文档进行OCR文本识别以得到文本描述;接着,对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;然后,将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;接着,将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;然后,融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;接着,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及,最后,基于所述主题标签,将所述电子扫描文档进行自动归档。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量,包括:对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及,使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量,包括:将所述词向量的序列进行一维排列以得到全局词特征向量;计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量,包括:使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量,其中,所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量,包括:使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量,其中,所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量,包括:基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量;基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;以及,计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量,进一步包括:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量;其中,所述公式为:
Figure BDA0003966556190000181
Figure BDA0003966556190000182
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure BDA0003966556190000183
Figure BDA0003966556190000184
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure BDA0003966556190000185
Figure BDA0003966556190000186
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure BDA00039665561900001814
表示所述校正后第一尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量,进一步包括:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;其中,所述公式为:
Figure BDA0003966556190000187
Figure BDA0003966556190000188
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure BDA0003966556190000189
Figure BDA00039665561900001810
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure BDA00039665561900001811
Figure BDA00039665561900001812
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure BDA00039665561900001813
表示所述校正后第二尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
在一个具体示例中,在上述数字化档案管理系统的操作方法中,所述将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签,包括:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
这里,本领域技术人员可以理解,上述数字化档案管理系统的操作方法中的各个步骤的具体操作已经在上面参考图1到图6的数字化档案管理系统的描述中得到了详细介绍,并因此,将省略其重复描述。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims (9)

1.一种数字化档案管理系统,其特征在于,包括:电子文档提取模块,用于获取纸质文档的电子扫描文档;文本识别模块,用于对所述电子扫描文档进行OCR文本识别以得到文本描述;语义编码模块,用于对所述文本描述进行分词处理后通过包含嵌入层的上下文编码器以得到多个词语义特征向量;第一尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第一尺度的一维卷积核的第一文本卷积神经网络以得到第一尺度上下文特征向量;第二尺度语义关联编码模块,用于将所述多个词语义特征向量排列为一维特征向量后通过使用具有第二尺度的一维卷积核的第二文本卷积神经网络以得到第二尺度上下文特征向量;语义特征融合模块,用于融合所述第一尺度上下文特征向量和所述第二尺度上下文特征向量以得到分类特征向量;主题标注模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述文本描述对应的主题标签;以及自动归档模块,用于基于所述主题标签,将所述电子扫描文档进行自动归档。
2.根据权利要求1所述的数字化档案管理系统,其特征在于,所述语义编码模块,包括:分词单元,用于对所述文本描述进行分词处理以将所述文本描述转化为由多个词组成的词序列;词嵌入单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;以及上下文理解单元,用于使用所述包含嵌入层的上下文编码器的转化器对所述词向量的序列进行基于全局的上下文语义编码以得到所述多个词语义特征向量。
3.根据权利要求2所述的数字化档案管理系统,其特征在于,所述上下文理解单元,包括:查询向量构造子单元,用于将所述词向量的序列进行一维排列以得到全局词特征向量;自注意子单元,用于计算所述全局词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;关注度计算子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及注意力施加子单元,用于分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个词语义特征向量。
4.根据权利要求3所述的数字化档案管理系统,其特征在于,所述第一尺度语义关联编码模块,进一步用于:使用具有第一尺度的一维卷积核的第一文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的最后一层的输出为所述第一尺度上下文特征向量,其中,所述使用具有第一尺度的一维卷积核的第一文本卷积神经网络的第一层的输入为所述一维特征向量。
5.根据权利要求4所述的数字化档案管理系统,其特征在于,所述第二尺度语义关联编码模块,进一步用于:使用具有第二尺度的一维卷积核的第二文本卷积神经网络的各层在层的正向传递中分别对输入数据进行基于一维卷积核的卷积处理、基于特征矩阵的均值池化处理和激活处理以由所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的最后一层的输出为所述第二尺度上下文特征向量,其中,所述使用具有第二尺度的一维卷积核的第二文本卷积神经网络的第一层的输入为所述一维特征向量。
6.根据权利要求5所述的数字化档案管理系统,其特征在于,所述语义特征融合模块,包括:第一校正单元,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第一尺度上下文特征向量;第二校正单元,用于基于所述第二尺度上下文特征向量,对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;以及融合单元,用于计算所述校正后第一尺度上下文特征向量和所述校正后第二尺度上下文特征向量的按位置加权和以得到所述分类特征向量。
7.根据权利要求6所述的数字化档案管理系统,其特征在于,所述第一校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到所述校正后第一尺度上下文特征向量;其中,所述公式为:
Figure FDA0003966556180000021
Figure FDA0003966556180000022
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure FDA0003966556180000031
Figure FDA0003966556180000032
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure FDA0003966556180000033
Figure FDA0003966556180000034
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure FDA0003966556180000035
表示所述校正后第一尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
8.根据权利要求7所述的数字化档案管理系统,其特征在于,所述第二校正单元,进一步用于:基于所述第二尺度上下文特征向量,以如下公式对所述第一尺度上下文特征向量进行特征分布校正以得到校正后第二尺度上下文特征向量;其中,所述公式为:
Figure FDA0003966556180000036
Figure FDA0003966556180000037
其中V1表示所述第一尺度上下文特征向量,V2表示所述第二尺度上下文特征向量,
Figure FDA0003966556180000038
Figure FDA0003966556180000039
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的第i个特征值,且
Figure FDA00039665561800000310
Figure FDA00039665561800000311
分别是所述第一尺度上下文特征向量和所述第二尺度上下文特征向量的全部特征值的均值,
Figure FDA00039665561800000312
表示所述校正后第二尺度上下文特征向量的第i个特征值,log表示以2为底的对数函数。
9.根据权利要求8所述的数字化档案管理系统,其特征在于,所述主题标注模块,包括:全连接编码单元,用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及分类单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
CN202211501628.0A 2022-11-28 2022-11-28 数字化档案管理系统 Withdrawn CN115827939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211501628.0A CN115827939A (zh) 2022-11-28 2022-11-28 数字化档案管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211501628.0A CN115827939A (zh) 2022-11-28 2022-11-28 数字化档案管理系统

Publications (1)

Publication Number Publication Date
CN115827939A true CN115827939A (zh) 2023-03-21

Family

ID=85532176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211501628.0A Withdrawn CN115827939A (zh) 2022-11-28 2022-11-28 数字化档案管理系统

Country Status (1)

Country Link
CN (1) CN115827939A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108143A (zh) * 2023-04-10 2023-05-12 长春财经学院 基于区块链技术的数字经济监测方法及其系统
CN116597163A (zh) * 2023-05-18 2023-08-15 广东省旭晟半导体股份有限公司 红外光学透镜及其制备方法
CN117112872A (zh) * 2023-10-20 2023-11-24 浪潮软件股份有限公司 一种基于半监督学习的政务文本归档方法及系统
CN117113987A (zh) * 2023-04-19 2023-11-24 杭州达西信息技术有限公司 一种基于用户行为特征的关键词智能分辨方法及系统
CN117235630A (zh) * 2023-11-15 2023-12-15 吉林大学 智慧病区可视化管理系统及其方法
CN117828007A (zh) * 2024-01-02 2024-04-05 长江勘测规划设计研究有限责任公司 基于自然语言处理的建设征地移民档案管理方法及系统
CN118053168A (zh) * 2024-02-05 2024-05-17 杭州京胜航星科技有限公司 具有自动存取功能的智能档案柜及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108143A (zh) * 2023-04-10 2023-05-12 长春财经学院 基于区块链技术的数字经济监测方法及其系统
CN116108143B (zh) * 2023-04-10 2023-07-04 长春财经学院 基于区块链技术的数字经济监测方法及其系统
CN117113987A (zh) * 2023-04-19 2023-11-24 杭州达西信息技术有限公司 一种基于用户行为特征的关键词智能分辨方法及系统
CN116597163A (zh) * 2023-05-18 2023-08-15 广东省旭晟半导体股份有限公司 红外光学透镜及其制备方法
CN117112872A (zh) * 2023-10-20 2023-11-24 浪潮软件股份有限公司 一种基于半监督学习的政务文本归档方法及系统
CN117235630A (zh) * 2023-11-15 2023-12-15 吉林大学 智慧病区可视化管理系统及其方法
CN117235630B (zh) * 2023-11-15 2024-03-05 吉林大学 智慧病区可视化管理系统及其方法
CN117828007A (zh) * 2024-01-02 2024-04-05 长江勘测规划设计研究有限责任公司 基于自然语言处理的建设征地移民档案管理方法及系统
CN118053168A (zh) * 2024-02-05 2024-05-17 杭州京胜航星科技有限公司 具有自动存取功能的智能档案柜及方法
CN118053168B (zh) * 2024-02-05 2024-08-23 杭州京胜航星科技有限公司 具有自动存取功能的智能档案柜及方法

Similar Documents

Publication Publication Date Title
CN115827939A (zh) 数字化档案管理系统
CN115203380B (zh) 基于多模态数据融合的文本处理系统及其方法
US10956673B1 (en) Method and system for identifying citations within regulatory content
US7171061B2 (en) Systems and methods for triage of passages of text output from an OCR system
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN113762050B (zh) 图像数据处理方法、装置、设备以及介质
CN113778894B (zh) 测试用例的构建方法、装置、设备及存储介质
CN116089648B (zh) 基于人工智能的档案管理系统及方法
CN115186673A (zh) 科技信息管理系统及其管理方法
CN116245513A (zh) 基于规则库的自动化运维系统及其方法
CN112651392A (zh) 证件信息的获取方法及装置、存储介质、计算机设备
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN113362083B (zh) 报修方法、装置、电子设备及存储介质
CN117812381B (zh) 基于人工智能的视频内容制作方法
CN116993446A (zh) 电子商务用物流配送管理系统及其方法
CN113971750A (zh) 银行回单的关键信息提取方法、装置、设备及存储介质
CN117709317A (zh) 报表文件的处理方法、装置及电子设备
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
CN117474498A (zh) 专利年费自动提醒系统及其方法
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN114970775B (zh) 基于聚类的军工集团人员信息标签化方法
CN116311276A (zh) 文档图像矫正方法、装置、电子设备及可读介质
CN115690816A (zh) 一种文本要素提取方法、装置、设备和介质
CN117831075B (zh) 视频流分析训练的人体骨骼关键点推理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230321

WW01 Invention patent application withdrawn after publication