CN117542063A - 一种多语言多模态多分支文档视觉信息抽取方法 - Google Patents
一种多语言多模态多分支文档视觉信息抽取方法 Download PDFInfo
- Publication number
- CN117542063A CN117542063A CN202410033225.0A CN202410033225A CN117542063A CN 117542063 A CN117542063 A CN 117542063A CN 202410033225 A CN202410033225 A CN 202410033225A CN 117542063 A CN117542063 A CN 117542063A
- Authority
- CN
- China
- Prior art keywords
- modal
- text
- module
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012163 sequencing technique Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 238000013461 design Methods 0.000 description 9
- 230000000737 periodic effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19127—Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多语言多模态多分支文档视觉信息抽取方法,本发明属于模式识别与人工智能领域,包括:获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;对所述文本检测识别结果进行排序,得到已排序检测识别结果;对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练;基于预训练好的多模态特征,分别进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能,显著超越同类具有竞争力的其他现有方法。
Description
技术领域
本发明属于模式识别与人工智能技术领域,尤其涉及一种多语言多模态多分支文档视觉信息抽取方法。
背景技术
深度神经网络以及多模态大模型技术的飞速发展,大大推动了人工智能技术的创新应用。随着新的多模态大模型的不断提出,神经网络的性能有了极大的提升,为诸多实际应用提供了技术基础。
证件、票据、表单等版面内容丰富、结构复杂的视觉文档在实际生产生活中被广泛使用。诸多应用场景例如公安部门的证件识别、财务领域的票据分析、教育领域的智能阅卷等,都需要提取这些视觉文档中的关键信息。设计自动化的视觉信息抽取算法,是目前社会的迫切需求,其对应的视觉信息抽取技术也成为了业界的研究热点之一。
已有的文档视觉信息抽取方法,存在的不足为:(1)现有的文档视觉信息抽取方法往往缺乏对输入的文本检测与识别结果的排列顺序的考虑。相关工作缺乏面向轻量化的快速高效的排序模块的设计;(2)现有的文档视觉信息抽取方法缺乏对不同模态信息的显式多分支设计和显式分支间多模态信息交互的设计;(3)现有的文档视觉信息抽取方法对模型的预训练任务的设计仍不够全面和充分。
发明内容
本发明提出了一种多语言多模态多分支文档视觉信息抽取方法,以解决上述现有技术中存在的技术问题。
为实现上述目的,本发明提供了一种多语言多模态多分支文档视觉信息抽取方法,包括:
获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;
对所述文本检测识别结果进行排序,得到已排序检测识别结果;
对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征;
将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练,得到预训练好的多模态特征;
分别对预训练好的多模态特征进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。
优选地,对所述文档图像进行检测识别的过程包括:
基于文本检测模型对所述文档图像进行检测,得到文本检测结果;
基于文本识别模型对所述文档图像进行识别,得到文本识别结果。
优选地,对所述文本检测识别结果进行排序的过程包括:
构建单阶段文本框排序模块,所述单阶段文本框排序模块包括:第一线性变换层、位置编码层、特征计算提取层、第二线性变换层、排序层,其中所述特征计算提取层为若干个循环层,循环层为自注意力层-非线性层-线性层-非线性层;
基于所述单阶段文本框排序模块,对所述文本检测识别结果进行排序,得到已排序检测识别结果。
优选地,所述已排序检测识别结果包括:文本信息和位置信息。
优选地,所述多模态特征包括:文本高维特征、位置高维特征、图像高维特征。
优选地,对所述已排序检测识别结果和所述文档图像进行特征提取的过程包括:
将所述文本信息的字符串输入字符拆分器中,得到字符序列,将所述字符序列送入文本映射层中,得到文本高维特征;
将所述位置信息的坐标值进行归一化处理,得到归一化坐标值,对所述归一化坐标值进行位置特征映射,得到位置高维特征;
将所述文档图像进行缩放和切分操作,得到图像块,基于图像线性层对所述图像块进行图像特征映射,得到图像高维特征。
优选地,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练之前还包括:
基于所述多模态特征构建若干个分支模块,若干个分支模块包括:文本信息分支模块、位置信息分支模块和图像信息分支模块;
基于若干个分支模块,引入多模态信息交互模块,基于所述多模态信息交互模块实现若干个分支模块的不同模态信息的交互融合。
优选地,所述文本信息分支模块中的模块权重参数,用于替换不同语言版本,实现对不同语言的适配;在所述图像信息分支模块的自注意力层计算中,设计了细粒度图像信息模块,基于所述细粒度图像信息模块对所述文档图像的细粒度视觉特征进行整合。
优选地,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练的过程包括:
构建预训练任务,设定训练参数;
将所述多模态特征进行拼接,基于所述训练参数,将拼接后的多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练。。
优选地,分别对预训练好的多模态特征进行实体类别预测、实体链接预测的过程包括:
所述实体分类与实体链接模块包括:线性层和双线性映射层
基于所述线性层对预训练好的多模态特征进行实体类别预测,公式为:
其中,⊕是指特征拼接操作,/>是指线性层,为输出的实体类别预测分数;
基于所述双线性映射层和所述线性层对预训练好的多模态特征进行实体链接预测,公式为:
其中,⊕是指特征拼接操作,是第p个多模态特征,/>是第q个多模态特征,/>是指线性层,/>是指双线性映射层,/>为输出的实体链接预测分数。
与现有技术相比,本发明具有如下优点和技术效果:
本发明对输入的文本检测与识别结果进行轻量化的快速且高效的排序过程,排序过程对整个系统性能的提升起到显著的作用;本发明设计的多模态多分支特征计算模块能有效地对各模态的信息进行提取并实现模态间信息的交互;本发明设计的多模态多分支特征计算模块中对文本信息分支实现了语言可替换性的设计,也引入了细粒度图像信息特征;本发明设计的多任务预训练模块能够使用多个预训练任务让模型学习到有效的且鲁棒的多模态特征表示;本发明设计的实体分类与实体链接模块能够让模型较好的完成实体分类和实体链接任务。
本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能,显著超越同类具有竞争力的其他现有方法。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例的流程示意图;
图2为本发明实施例的模型示意图;
图3为本发明实施例的中文文档示意图;
图4为本发明实施例的中文文档的文本检测与识别结果示意图;
图5为本发明实施例的中文文档的实体分类与实体链接结果示意图;
图6为本发明实施例的英文文档示意图;
图7为本发明实施例的英文文档的文本检测与识别结果示意图;
图8为本发明实施例的英文文档的实体分类与实体链接结果示意图;
图9为本发明实施例的德文文档示意图;
图10为本发明实施例的德文文档的文本检测与识别结果示意图;
图11为本发明实施例的德文文档的实体分类与实体链接结果示意图;
其中,H代表“标题”实体,Q代表键值对中的“键”实体,A代表键值对中的“值”实体,黑色虚线代表实体之间具有的链接关系。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1所示,本实施例中提供一种多语言多模态多分支文档视觉信息抽取方法,包括:
S1.输入获取:获取输入文档图像,以及其对应的文本检测和识别结果。输入文档图像可以是通过拍摄设备得到的照片,可以是通过扫描工具得到的扫描件,也可以是数字化的文档图像如JPG,PNG,PDF格式等等。对于输入文档图像,使用文本检测与识别模型对其进行文本检测和识别任务,得到文本检测和识别结果。为了方便表示,设输入文档图像为X,设文本检测结果为D={d1,d2,...,dn}和文本识别结果为S={s1,s2,...,sn}。d代表每个检测出的文本框,s代表对应文本框中的文本识别结果,n代表文本框的个数。
S2.文本排序:将文本检测结果送入单阶段文本框排序模块,以此对文本检测和识别结果按照从左上到右下的阅读顺序排序。其具体步骤如下:
S21.构建单阶段文本框排序模块:
所采用的单阶段文本框排序模块结构,如表1所示。
表1
在该单阶段文本框排序模块中,首先将输入文本框通过线性变换得到384维的高维特征。然后使用位置编码层给每个文本框赋予其在整个文本框序列中所处的顺序信息。接着,本发明使用4个堆叠的“自注意力层-非线性层-线性层-非线性层”对特征进行进一步的计算和提取。最后再经过线性变换将384维的特征变为一个输出值,即为每个输入文本框得到了一个输出值。通过对该值进行从小到大的排序,就可以得到重新排序后的文本检测结果D*={d* 1,d* 2,...,d* n}和文本识别结果为S*={s* 1,s* 2,...,s* n}。
S22.训练参数的设定:
迭代次数:50000
训练批量大小:64
优化器:AdamW
学习率:0.0001
学习率更新策略:周期性余弦衰减
Weight decay:0.0005
S23.使用领域内现有开源数据集进行训练。此处使用ReadingBank数据集对单阶段文本框排序模块进行训练。
S3.特征提取:将排序后的文本检测与识别结果和文档图像送入多模态多分支特征计算模块,计算多模态特征。对于不同模态的信息,本发明使用各自不同的方式对其进行输入特征的映射。
对于文本信息即文本识别结果,将文本识别结果字符串送入字符拆分器中,将其拆分成单个字符级别的序列,然后使用文本映射层对字符进行文本特征映射:
T = Emb_T(Tokenizer(s*))
此处,Tokenizer是指字符拆分器,Emb_T是指文本映射层,T是得到的文本高维特征。通过这种方式,输入文本信息被映射成高维特征向量。
对于位置信息即文本检测结果,也就是d*={x* 1,y* 1,x* 2,y* 2},其中x* 1是文本框左上角点的横坐标,y* 1是文本框左上角点的纵坐标,x* 2是文本框右下角点的横坐标,y* 2是文本框右下角点的纵坐标。将文本检测结果中的每个坐标值根据输入文档图像的原始尺寸归一化成0到1000范围内的整数,再使用位置映射层对每个坐标值进行位置特征映射。最后,使用一个位置线性层将映射后的位置特征进行线性变换:
L = Linear_L(Emb_L(Norm(x* 1))⊕Emb_L(Norm(y* 1))⊕Emb_L(Norm(x* 2))⊕Emb_L(Norm(y* 2)))
此处,Norm是指坐标值归一化操作,Emb_L是指位置映射层,⊕是指特征拼接操作,Linear_L是指位置线性层,L是得到的位置高维特征。通过这种方式,输入位置信息被映射成高维特征向量。
对于图像信息即原始输入文档,先将图像通过缩放操作转变为高和宽都为224的图像。然后将其平均切分成14×14个图像块,每个图像块的大小是16×16。接着,将每个图像块的元素展平,然后使用一个图像线性层对图像块进行图像特征映射:
I = Linear_I(Flatten(Split(Reize(X))))
此处,Reize是指图像缩放操作,Split是指图像切分操作,Flatten是指图像块展平操作,Linear_I是指图像线性层,I是得到的图像高维特征。通过这种方式,输入图像信息被映射成高维特征向量。
至此,已经获得了文本高维特征T,位置高维特征L,图像高维特征I。接着,本发明为每个模态的信息设计各自的分支模块,即文本信息分支模块、位置信息分支模块和图像信息分支模块。各个分支模块基本享有相同的分支结构,如表2所示。
表2
通过各个模态信息分支模块的计算和提取,可以得到最终的多模态的高维特征向量。值得注意的是,对于文本信息分支,可以替换成不同语言版本的模块参数权重,以适配不同语言或者多语言的应用场景。同时,在各个模态信息分支模块计算的过程中,本发明还引入了多模态信息交互模块,来实现不同模态信息之间的交互和融合。该多模态信息交互模块的具体细节如下:
在每个模态信息分支模块中,自注意力层会通过输入的高维特征向量计算得到查询向量Q∈RN*c、键向量K∈RN*c和值向量V∈RN*c。此处,R是指实数域,N是指当前输入序列的长度,c是当前输入序列变换后的维度。然后,多头注意力机制会将这些向量按照通道方向平均分成12份,那么此时每个注意力头所对应的通道数变为c/12=ck。接着,在本发明的多模态信息交互模块中,对于文本信息分支,为每个注意力头设计如下的输出计算过程:
其中,右下角的下标t代表文本信息分支,l代表位置信息分支,i代表图像信息分支。右上角的上标代表矩阵转置操作。/>是指从位置查询向量维度到文本查询向量维度的线性变换层,/>是指从图像查询向量维度到文本查询向量维度的线性变换层。是指归一化指数函数。O是指输出向量。另外,/>的计算方式为:
其中,通过计算文本框之间的相对位置信息得到。例如,/>是指第N个文本框与第1个文本框之间的相对位置信息特征向量。/>和/>是线性变换层,/>是非线性激活层。
与文本信息分支类似的,位置信息分支每个注意力头相应的输出计算过程为:
图像信息分支每个注意力头相应的输出计算过程为:
通过这种方式,不同模态的信息得以在不同模态的分支模块中交互和融合。除此之外,在图像信息分支模块中,本发明额外设计了一个细粒度图像信息模块。对于每一个切分后的大小为16×16的图像块,先将其缩放到80×80的大小,然后使用已有的轻量化的ViT-tiny模型为每个图像块得到长度为5×5=25的细粒度的图像特征。接着,在图像信息分支模块的自注意力层计算中,使用额外的注意力计算操作对细粒度的图像特征进行整合:
这里,和/>是指细粒度的图像特征,/>是指线性层。通过这种方式,模型能够对图像中的细粒度特征进行自适应的学习和整合。
S4.预训练:把得到的多模态特征送入多任务预训练模块,对模型系统进行充分的预训练。在上一步骤中得到的各个模态的特征,在这一步骤中被拼接起来,送入不同的预训练任务中进行训练。其具体步骤如下:
S41.预训练任务的构建
S411.掩码语言建模
该任务随机将15%的输入文本信息选中,对它们进行随机的置换或者打乱,然后让模型在输出端预测这些被选中的文本信息是什么。
S412.掩码文本位置建模
该任务随机将15%的输入位置信息选中,对它们进行随机的置换或者打乱,然后让模型在输出端预测这些被选中的位置信息是什么。
S413.相对位置建模
选择成对的序列中的位置信息,让模型在输出端预测这两个位置的文本框之间的相对方位和相对距离。
S414.掩码图像块判定
该任务随机将15%的输入图像信息选中,对它们进行遮盖,然后让模型在输出端预测当前位置的信息所对应的图像区域是否被遮盖。
S42.训练参数的设定:
迭代次数:500000
训练批量大小:256
优化器:AdamW
学习率:0.0001
学习率更新策略:周期性余弦衰减
Weight decay:0.0005
S43.使用领域内现有开源数据集进行训练。此处使用RVL-CDIP数据集通过多任务预训练模块进行训练。
S5.实体分类与链接:预训练结束后,基于得到的多模态特征,使用额外的实体分类模块和实体链接模块进行训练和预测。其具体步骤如下:
S51.实体分类模块和实体链接模块的构建:
对于多模态多分支特征计算模块输出的各模态特征向量T*、L*、I*,实体分类模块将它们拼接在一起,然后使用线性层进行实体类别的预测:
这里,⊕是指特征拼接操作,是指线性层。输出的实体类别预测分数/>的维度即为所有实体类别的总个数。
此外,实体链接模块同样将多模态多分支特征计算模块输出的各模态特征向量拼接在一起,然后使用双线性映射层和线性层进行实体链接的预测:
这里,⊕是指特征拼接操作,是第p个多模态特征,/>是第q个多模态特征,/>是指线性层,/>是指双线性映射层。输出的实体链接预测分数/>的维度为2,即具有链接关系或者没有。
S52.训练参数的设定:
迭代次数:2000
训练批量大小:32
优化器:AdamW
学习率:0.00005
学习率更新策略:周期性余弦衰减
Weight decay:0.0005
S53.使用领域内现有开源数据集进行训练。此处使用FUNSD、XFUND、SROIE、EPHOIE、CORD数据集通过实体分类模块和实体链接进行训练。
本实施例的模型示意图,如图2所示。
本实例中,图3为中文文档示意图,图4显示了输入文档图像和其对应的文本检测与识别结果,在送入本实施例提出的多语言多模态多分支的文档视觉信息抽取方法后,得到的实体分类与实体链接结果,如图5所示;
本实例中,图6为英文文档示意图,图7显示了输入文档图像和其对应的文本检测与识别结果,在送入本实施例提出的多语言多模态多分支的文档视觉信息抽取方法后,得到的实体分类与实体链接结果,如图8所示;
本实例中,图9为德文文档示意图,图10显示了输入文档图像和其对应的文本检测与识别结果,在送入本实施例提出的多语言多模态多分支的文档视觉信息抽取方法后,得到的实体分类与实体链接结果,如图11所示。
本实施例有益效果:
本实施例设计的单阶段文本框排序模块能够对输入的文本检测与识别结果进行轻量化的快速且高效的排序过程,这个排序过程对整个系统性能的提升起到显著的作用。
在本实施例设计的多模态多分支特征计算模块中,各模态信息分支模块能够对各个模态的信息进行充分且高效的提取,多模态信息交互模块能够让不同模态的信息之间进行自适应的交互和融合。
在本实施例设计的多模态多分支特征计算模块中,文本信息分支模块的参数权重可以进行不同语言版本的替换,从而实现不同语言或者多语言的文档视觉信息抽取任务。而图像信息分支模块中的细粒度图像信息模块能够对原始文档图像中的细粒度视觉特征进行较好的整合。
本实施例设计的多任务预训练模块能够使用多个预训练任务让模型学习到有效的且鲁棒的多模态特征表示。
本实施例设计的实体分类与实体链接模块能够让模型较好的完成实体分类和实体链接任务。
本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能,显著超越同类具有竞争力的其他现有方法。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种多语言多模态多分支文档视觉信息抽取方法,其特征在于,包括:
获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;
对所述文本检测识别结果进行排序,得到已排序检测识别结果;
对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征;
将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练,得到预训练好的多模态特征;
分别对预训练好的多模态特征进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。
2.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,对所述文档图像进行检测识别的过程包括:
基于文本检测模型对所述文档图像进行检测,得到文本检测结果;
基于文本识别模型对所述文档图像进行识别,得到文本识别结果。
3.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,对所述文本检测识别结果进行排序的过程包括:
构建单阶段文本框排序模块,所述单阶段文本框排序模块包括:第一线性变换层、位置编码层、特征计算提取层、第二线性变换层、排序层,其中所述特征计算提取层为若干个循环层,循环层为自注意力层-非线性层-线性层-非线性层;
基于所述单阶段文本框排序模块,对所述文本检测识别结果进行排序,得到已排序检测识别结果。
4.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,所述已排序检测识别结果包括:文本信息和位置信息。
5.根据权利要求4所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,所述多模态特征包括:文本高维特征、位置高维特征、图像高维特征。
6.根据权利要求5所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,对所述已排序检测识别结果和所述文档图像进行特征提取的过程包括:
将所述文本信息的字符串输入字符拆分器中,得到字符序列,将所述字符序列送入文本映射层中,得到文本高维特征;
将所述位置信息的坐标值进行归一化处理,得到归一化坐标值,对所述归一化坐标值进行位置特征映射,得到位置高维特征;
将所述文档图像进行缩放和切分操作,得到图像块,基于图像线性层对所述图像块进行图像特征映射,得到图像高维特征。
7.根据权利要求5所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练之前还包括:
基于所述多模态特征构建若干个分支模块,若干个分支模块包括:文本信息分支模块、位置信息分支模块和图像信息分支模块;
基于若干个分支模块,引入多模态信息交互模块,基于所述多模态信息交互模块实现若干个分支模块的不同模态信息的交互融合。
8.根据权利要求7所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,所述文本信息分支模块中的模块权重参数,用于替换不同语言版本,实现对不同语言的适配;所述图像信息分支模块的自注意力层计算中,设计细粒度图像信息模块,基于所述细粒度图像信息模块对所述文档图像的细粒度视觉特征进行整合。
9.根据权利要求7所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练的过程包括:
构建预训练任务,设定训练参数;
将所述多模态特征进行拼接,基于所述训练参数,将拼接后的多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练。
10.根据权利要求1所述的多语言多模态多分支文档视觉信息抽取方法,其特征在于,分别对预训练好的多模态特征进行实体类别预测、实体链接预测的过程包括:
所述实体分类与实体链接模块包括:线性层和双线性映射层;
基于所述线性层对预训练好的多模态特征进行实体类别预测,公式为:
其中,⊕是指特征拼接操作,/>是指线性层,/>为输出的实体类别预测分数;
基于所述双线性映射层和所述线性层对预训练好的多模态特征进行实体链接预测,公式为:
其中,⊕是指特征拼接操作,是第p个多模态特征,/>是第q个多模态特征,/>是指线性层,/>是指双线性映射层,/>为输出的实体链接预测分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410033225.0A CN117542063B (zh) | 2024-01-10 | 2024-01-10 | 一种多语言多模态多分支文档视觉信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410033225.0A CN117542063B (zh) | 2024-01-10 | 2024-01-10 | 一种多语言多模态多分支文档视觉信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117542063A true CN117542063A (zh) | 2024-02-09 |
CN117542063B CN117542063B (zh) | 2024-04-09 |
Family
ID=89792387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410033225.0A Active CN117542063B (zh) | 2024-01-10 | 2024-01-10 | 一种多语言多模态多分支文档视觉信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117542063B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801010A (zh) * | 2021-02-07 | 2021-05-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
CN114663677A (zh) * | 2022-04-08 | 2022-06-24 | 杭州电子科技大学 | 一种基于跨模态预训练特征增强的视觉问答方法 |
CN115455970A (zh) * | 2022-09-13 | 2022-12-09 | 北方民族大学 | 一种多模态语义协同交互的图文联合命名实体识别方法 |
CN115687643A (zh) * | 2022-10-21 | 2023-02-03 | 上海弘玑信息技术有限公司 | 一种训练多模态信息抽取模型的方法及信息抽取方法 |
CN115796182A (zh) * | 2022-11-24 | 2023-03-14 | 北京邮电大学 | 一种基于实体级跨模态交互的多模态命名实体识别方法 |
CN116543404A (zh) * | 2023-05-09 | 2023-08-04 | 重庆师范大学 | 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 |
-
2024
- 2024-01-10 CN CN202410033225.0A patent/CN117542063B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801010A (zh) * | 2021-02-07 | 2021-05-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
CN114663677A (zh) * | 2022-04-08 | 2022-06-24 | 杭州电子科技大学 | 一种基于跨模态预训练特征增强的视觉问答方法 |
CN115455970A (zh) * | 2022-09-13 | 2022-12-09 | 北方民族大学 | 一种多模态语义协同交互的图文联合命名实体识别方法 |
CN115687643A (zh) * | 2022-10-21 | 2023-02-03 | 上海弘玑信息技术有限公司 | 一种训练多模态信息抽取模型的方法及信息抽取方法 |
CN115796182A (zh) * | 2022-11-24 | 2023-03-14 | 北京邮电大学 | 一种基于实体级跨模态交互的多模态命名实体识别方法 |
CN116543404A (zh) * | 2023-05-09 | 2023-08-04 | 重庆师范大学 | 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 |
Non-Patent Citations (1)
Title |
---|
林泽柠 等: "视觉信息抽取的深度学习综述", 《中国图象图形学报》, vol. 28, no. 8, 16 August 2023 (2023-08-16), pages 2276 - 2297 * |
Also Published As
Publication number | Publication date |
---|---|
CN117542063B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232149B (zh) | 一种文档多模信息和关系提取方法及系统 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN112508077B (zh) | 一种基于多模态特征融合的社交媒体情感分析方法及系统 | |
Chaudhury et al. | A novel approach to classifying breast cancer histopathology biopsy images using bilateral knowledge distillation and label smoothing regularization | |
CN110705265A (zh) | 合同条款风险识别方法以及装置 | |
CN111127385A (zh) | 基于生成式对抗网络的医学信息跨模态哈希编码学习方法 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN112149722A (zh) | 一种基于无监督域适应的图像自动标注方法 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN115761757A (zh) | 基于解耦特征引导的多模态文本页面分类方法 | |
CN110490189A (zh) | 一种基于双向消息链路卷积网络的显著性物体的检测方法 | |
CN114037699B (zh) | 一种病理图像分类方法、设备、系统及存储介质 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN117542063B (zh) | 一种多语言多模态多分支文档视觉信息抽取方法 | |
CN115471901B (zh) | 基于生成对抗网络的多姿态人脸正面化方法及系统 | |
CN116108215A (zh) | 基于深度融合的跨模态大数据检索方法及系统 | |
Garozzo et al. | Knowledge-based generative adversarial networks for scene understanding in Cultural Heritage | |
CN114170460A (zh) | 一种基于多模态融合的艺术品分类方法及系统 | |
Kothari | Automated image classification for heritage photographs using Transfer Learning of Computer Vision in Artificial Intelligence | |
CN113743497A (zh) | 基于注意力机制与多尺度特征的细粒度识别方法及系统 | |
Zhang et al. | A small target detection algorithm based on improved YOLOv5 in aerial image | |
CN114648803B (zh) | 自然场景下人脸表情识别方法、系统、设备及存储介质 | |
CN117690178B (zh) | 一种基于计算机视觉的人脸图像识别方法与系统 | |
Sari et al. | The Involvement of Local Binary Pattern to Improve the Accuracy of Multi Support Vector-Based Javanese Handwriting Character Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |