CN114419304A - 一种基于图神经网络的多模态文档信息抽取方法 - Google Patents

一种基于图神经网络的多模态文档信息抽取方法 Download PDF

Info

Publication number
CN114419304A
CN114419304A CN202210056911.0A CN202210056911A CN114419304A CN 114419304 A CN114419304 A CN 114419304A CN 202210056911 A CN202210056911 A CN 202210056911A CN 114419304 A CN114419304 A CN 114419304A
Authority
CN
China
Prior art keywords
graph
text
nodes
outputting
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210056911.0A
Other languages
English (en)
Inventor
罗伟杰
陈永红
谢翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202210056911.0A priority Critical patent/CN114419304A/zh
Publication of CN114419304A publication Critical patent/CN114419304A/zh
Priority to PCT/CN2022/108829 priority patent/WO2023138023A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于图神经网络的多模态文档信息抽取方法,包括S1:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;S2:对文本块进行文本、视觉、布局三种模态特征提取,并进行模态间的特征融合,输出图节点特征;S3:将文本块内容进行抽象化,输出初始图G=(V,E,A):S4:通过将图节点分配到不同的簇来实现对初始图进行划分,对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;S5:根据各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;S6:对图节点进行节点分类和链路预测,输出最终结果。本发明能够有效捕获文档的空间布局信息、有效提高语义准确性,通用性强。

Description

一种基于图神经网络的多模态文档信息抽取方法
技术领域
本发明涉及计算机软件领域,尤其涉及的是一种基于图神经网络的多模态文档信息抽取方法。
背景技术
随着行业数字化转型,业务数据主要以多模态文档(如PDF、扫描件、文档图片等)的非结构化格式进行存储,文档自动化处理对于提高企业生产效率至关重要。如在供应链金融领域,需要从发票、合同、税单等电子文档中提取关键有效信息,快速了解上下游企业风险状态,协助核心企业进行供应链管理。多模态文档信息抽取任务包括从文档提取特定类别实体,并输出实体间特定关系,以key-value的形式输出结构化信息。
传统的文档信息抽取主要通过人工定制规则和模板匹配、小样本统计学习,该方法对少量固定样式的文档有效,但通用性差,迁移成本高,无法适应当前多模态文档类型和样式繁多的特点。基于深度学习的方法利用大量未标注电子文档进行自监督预训练,并利用多模态技术把文本、视觉和布局信息进行融合得到文档特征,最后根据文本框位置按特定顺序(一般为从上到下、从左到右)进行序列化,通过NER技术进行实体识别,以及对三元组分类的方式进行关系抽取。该方法能够学习到不同类型文档的有效特征,在实体识别任务性能上有较大提升,但由于最后通过序列化文本进行实体识别,对于布局复杂的文档效果较差(如分栏文档中可能将实体切割),同时在进行关系抽取时没有充分利用文本块的空间关系,一般关系匹配效果较差。
目前主流的多模态文档信息抽取方法主要包括以下流程:
1)利用OCR技术识别文档中的候选文本框;
2)通过预训练模型提取候选文本框的特征,包括文本特征、视觉特征和位置坐标;
3)对2)中提取的不同维度特征,通过多模态融合技术对候选文本块进行融合编码,融合方式包括最大(平均)池化、双线性模型,注意力机制等;
4)根据候选文本框的位置坐标,按照从上到下,从左到右的顺序进行序列化,然后利用NER技术进行实体识别,通过对候选文本框两两组合形成的三元组(加入相对位置信息)分类进行关系抽取。
现有技术依赖于OCR模型的输出进行序列化,一般遵循“从上到下,从左到右”的阅读原则,但对于文档中分栏、文本图片表格混杂的复杂布局,此时获得的阅读顺序多数情况下是错误的,容易导致实体被切割以及语义混乱;同时,序列化无法捕捉文档中的结构化层次信息(如表格中表头与单元格间的关系),在关系抽取的任务中往往表现不佳。
因此,现有技术存在缺陷,需要改进。
发明内容
本发明所要解决的技术问题是:提供一种能够有效捕获文档的空间布局信息、有效提高语义准确性,通用性强的基于图神经网络的多模态文档信息抽取方法。
本发明的技术方案如下:一种基于图神经网络的多模态文档信息抽取方法,包括如下步骤:步骤S1:光学字符识别OCR:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;步骤S2:预编码:对光学字符识别OCR输出的文本块进行特征提取,包括文本、视觉、布局三种模态特征,并进行模态间的特征融合,输出图节点特征;步骤S3:图构建:将所述文本块内容进行抽象化,输出初始图G=(V,E,A):其中,V代表图节点,E代表节点间的边,A代表图的邻接矩阵;步骤S4:图划分:通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分,并对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;步骤S5:图深度编码:根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;步骤S6:信息抽取:对步骤S5中的图节点进行节点分类和链路预测,输出最终结果。
应用于上述技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S1中,对图片中的文字进行识别包括文本检测和文字识别,通过文本检测和文字识别输出所述文本块和文本块的位置坐标,其中,文本检测使用了轻量级DBNet作为骨干网络;文字识别使用CRNN来进行行文本识别,并采用CenterLoss来提升识别效果。
应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S2中,使用RoBERTa提取文本特征,使用ResNet作为骨干网络,根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征;并且,根据文本块的位置坐标、大小生成初始布局特征;最后,对提取的文本特征、视觉特征、布局特征三种模态特征,利用Block机制进行特征融合,输出图节点特征。
应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S3中,E代表节点间的边,是由各文本块间的空间关系以及语义相似度定义,边的特征通过计算文本块之间的相对位置关系,以及包含两者的视觉范围特征得出;A代表图的邻接矩阵,通过得到的边特征,利用多头自注意力机制进行计算。
应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S4中,通过将图节点分配到不同的簇来实现图划分具体包括:假设当前图节点个数为N,首先预定义衰减因子c确定下一层簇的个数N*c,利用第一图卷积网络进行信息交互和图节点分配矩阵学习N x N*c,分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互,图的邻接矩阵维度由N x N变为N*c x N*c;通过迭代多次分配实现图的分块。
应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S5中,对图节点的最终表示进行更新包括:在相同簇内的图节点按照“从左到右,从上到下”的原则进行横向位置排序编码;对图节点的依次分配结果进行纵向位置编码,同时将层次化分块信息和局部阅读顺序融入到图节点表示中。
应用于上述各个技术方案,所述的基于图神经网络的多模态文档信息抽取方法中,在所述步骤S6中,所述链路预测是通过拼接两个候选图节点的表示作为输入,最后通过一个分类器计算两者之间边的概率。
本发明的有益效果为:
本发明通过图的形式将文档内容抽象化,能够有效捕获文档的空间布局信息,在关系抽取任务中有更好的表现;并且,利用图划分对文档内容进行局部分块,符合人类层次化分块阅读的习惯,有效提高语义准确性;本发明通用性强:模型能够有效提取文档的局部结构信息,在复杂布局的文档同样适用。
并且,本发明基于图神经网络,将文档内容抽象成图,能够有效捕获文档的层次化信息,同时通过图划分的形式对文档的局部结构进行有效识别,符合人类层次化分块阅读的习惯,对于具有复杂布局的文档也能够进行准确理解。
附图说明
图1为本发明的流程示意图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明。
本实施例提供了一种基于图神经网络的多模态文档信息抽取方法,如图1所示,基于图神经网络的多模态文档信息抽取方法包括如下步骤:步骤S1:光学字符识别OCR:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;其中,对图片中的文字进行识别包括文本检测和文字识别,通过文本检测和文字识别输出所述文本块和文本块的位置坐标,其中,文本检测使用了轻量级DBNet作为骨干网络;文字识别使用CRNN来进行行文本识别,并采用CenterLoss来提升识别效果。
步骤S2:预编码:对光学字符识别OCR输出的文本块进行特征提取,包括文本、视觉、布局三种模态特征,并进行模态间的特征融合,输出图节点特征;其中,使用RoBERTa提取文本特征,使用ResNet作为骨干网络,根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征;并且,根据文本块的位置坐标、大小生成初始布局特征;最后,对提取的文本特征、视觉特征、布局特征三种模态特征,利用Block机制进行特征融合,输出图节点特征。
步骤S3:图构建:将所述文本块内容进行抽象化,输出初始图G=(V,E,A):其中,V代表图节点,E代表节点间的边,A代表图的邻接矩阵;其中,V代表图节点,为OCR输出的文本块,图节点特征步骤S2中结果表示,E代表节点间的边,是由各文本块间的空间关系以及语义相似度定义,边的特征通过计算文本块之间的相对位置关系,以及包含两者的视觉范围特征得出;A代表图的邻接矩阵,通过得到的边特征,利用多头自注意力机制进行计算。
步骤S4:图划分:通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分,并对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;通过将图节点分配到不同的簇来实现图划分具体包括:假设当前图节点个数为N,首先预定义衰减因子c确定下一层簇的个数N*c,利用第一图卷积网络进行信息交互和图节点分配矩阵学习N xN*c,分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互,图的邻接矩阵维度由N x N变为N*c x N*c;通过迭代多次分配实现图的分块。
步骤S5:图深度编码:根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;其中,对图节点的最终表示进行更新包括:在相同簇内的图节点按照“从左到右,从上到下”的原则进行横向位置排序编码;对图节点的依次分配结果进行纵向位置编码,同时将层次化分块信息和局部阅读顺序融入到图节点表示中。
步骤S6:信息抽取:对步骤S5中的图节点进行节点分类和链路预测,输出最终结果,其中,所述链路预测是通过拼接两个候选图节点的表示作为输入,最后通过一个分类器计算两者之间边的概率。
并且,本发明实施例包括,
1、光学字符识别(OCR):该模块分为文本检测和文字识别两个子模块,主要对图片中的文字进行识别,并转化成文本格式输出,同时输出文本的位置坐标。在文本检测模块,使用了轻量级DBNet作为骨干网络;在文字识别模块,使用了CRNN来进行行文本识别,并采用CenterLoss来提升识别效果。
2、预编码:该模块主要对OCR输出的文本块进行特征提取,包括文本、视觉、布局三种模态特征,并进行模态间的特征融合输出。在文本编码模块,使用了RoBERTa提取文本特征;在视觉编码模块,使用了ResNet作为骨干网络,根据文本框坐标并通过RoIAlign获得对应文本框范围内的视觉特征;在布局编码模块,利用文本框的位置坐标、大小生成初始特征。最后,对提取的三种模态特征,利用Block机制进行特征融合,输出图节点特征。
3、图构建:该模块主要将文档内容进行抽象化,输出G=(V,E,A):
a.V代表图节点,为OCR输出的文本块,节点特征由2中结果表示;
b.E代表节点间的边,由各文本块间的空间关系以及语义相似度定义,边的特征通过计算文本块之间的相对位置关系,以及包含两者的视觉范围特征得出;
c.A代表图的邻接矩阵,反应节点间边的权重大小,即存在边的概率,通过b中得到的边特征,利用多头自注意力机制进行计算。
4、图划分:该模块主要对3中的初始图进行划分,并对图进行迭代更新。图划分主要通过将节点分配到不同的簇来实现:假设当前节点个数为N,首先预定义衰减因子c确定下一层簇的个数N*c,利用图卷积网络(GAT_1)进行信息交互和节点分配矩阵学习(N x N*c),分配完成后输入到另外的图卷积网络(GAT_2)进行簇之间的信息交互,图的邻接矩阵维度由N x N变为N*c x N*c。通过迭代多次分配实现图的分块。
5、图深度编码:该模块根据4中各阶段的节点分配矩阵和簇表示对节点的最终表示进行更新。在相同簇内的节点按照“从左到右,从上到下”的原则进行横向位置排序编码;对节点的依次分配结果进行纵向位置编码,同时将层次化分块信息和局部阅读顺序融入到节点表示中。
6、信息抽取:该模块基于5中得到的隐层输出进行节点分类和链路预测,输出最终结果。其中,链路预测通过拼接两个候选节点的表示作为输入,最后通过一个分类器计算两者之间边的概率。
本发明在预训练模型和多模态技术的基础上,通过图神经网络捕捉文档的局部结构信息以及文本块间的空间依赖关系,在多模态融合阶段增强文本块的空间语义关联,并将信息抽取任务转化为图节点分类和链路预测问题,有效提高实体识别的完整性以及关系抽取任务的性能。
另外,本实施例中提及的轻量级DBNet、CRNN、CenterLoss、RoBERTa、RoIAlign、Block机制、自注意力机制、迭代更新机制等均为现有技术手段,本发明通过采用现有以上现有的技术手段应用来实现,具体本发明不再赘述。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于图神经网络的多模态文档信息抽取方法,其特征在于,包括如下步骤:
步骤S1:光学字符识别OCR:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;
步骤S2:预编码:对光学字符识别OCR输出的文本块进行特征提取,包括文本、视觉、布局三种模态特征,并进行模态间的特征融合,输出图节点特征;
步骤S3:图构建:将所述文本块内容进行抽象化,输出初始图G=(V,E,A):其中,V代表图节点,E代表节点间的边,A代表图的邻接矩阵;
步骤S4:图划分:通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分,并对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;
步骤S5:图深度编码:根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;
步骤S6:信息抽取:对步骤S5中的图节点进行节点分类和链路预测,输出最终结果。
2.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S1中,对图片中的文字进行识别包括文本检测和文字识别,通过文本检测和文字识别输出所述文本块和文本块的位置坐标,其中,文本检测使用了轻量级DBNet作为骨干网络;文字识别使用CRNN来进行行文本识别,并采用CenterLoss来提升识别效果。
3.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S2中,使用RoBERTa提取文本特征,使用ResNet作为骨干网络,根据文本块的位置坐标并通过RoIAlign获得对应文本块范围内的视觉特征;并且,根据文本块的位置坐标、大小生成初始布局特征;最后,对提取的文本特征、视觉特征、布局特征三种模态特征,利用Block机制进行特征融合,输出图节点特征。
4.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S3中,E代表节点间的边,是由各文本块间的空间关系以及语义相似度定义,边的特征通过计算文本块之间的相对位置关系,以及包含两者的视觉范围特征得出;A代表图的邻接矩阵,通过得到的边特征,利用多头自注意力机制进行计算。
5.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S4中,通过将图节点分配到不同的簇来实现图划分具体包括:假设当前图节点个数为N,首先预定义衰减因子c确定下一层簇的个数N*c,利用第一图卷积网络进行信息交互和图节点分配矩阵学习N x N*c,分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互,图的邻接矩阵维度由N x N变为N*c x N*c;通过迭代多次分配实现图的分块。
6.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S5中,对图节点的最终表示进行更新包括:在相同簇内的图节点按照“从左到右,从上到下”的原则进行横向位置排序编码;对图节点的依次分配结果进行纵向位置编码,同时将层次化分块信息和局部阅读顺序融入到图节点表示中。
7.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤S6中,所述链路预测是通过拼接两个候选图节点的表示作为输入,最后通过一个分类器计算两者之间边的概率。
CN202210056911.0A 2022-01-18 2022-01-18 一种基于图神经网络的多模态文档信息抽取方法 Pending CN114419304A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210056911.0A CN114419304A (zh) 2022-01-18 2022-01-18 一种基于图神经网络的多模态文档信息抽取方法
PCT/CN2022/108829 WO2023138023A1 (zh) 2022-01-18 2022-07-29 基于图神经网络的多模态文档信息抽取方法、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210056911.0A CN114419304A (zh) 2022-01-18 2022-01-18 一种基于图神经网络的多模态文档信息抽取方法

Publications (1)

Publication Number Publication Date
CN114419304A true CN114419304A (zh) 2022-04-29

Family

ID=81273505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210056911.0A Pending CN114419304A (zh) 2022-01-18 2022-01-18 一种基于图神经网络的多模态文档信息抽取方法

Country Status (2)

Country Link
CN (1) CN114419304A (zh)
WO (1) WO2023138023A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN116071740A (zh) * 2023-03-06 2023-05-05 深圳前海环融联易信息科技服务有限公司 发票识别方法、计算机设备及存储介质
CN116152841A (zh) * 2023-04-20 2023-05-23 中国科学院自动化研究所 文档实体及关系抽取方法、装置及存储介质
WO2023138023A1 (zh) * 2022-01-18 2023-07-27 深圳前海环融联易信息科技服务有限公司 基于图神经网络的多模态文档信息抽取方法、设备、介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117496545B (zh) * 2024-01-02 2024-03-15 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置
CN117725961A (zh) * 2024-02-18 2024-03-19 智慧眼科技股份有限公司 医疗意图识别模型训练方法、医疗意图识别方法及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195006B2 (en) * 2018-12-06 2021-12-07 International Business Machines Corporation Multi-modal document feature extraction
EP3933700A1 (en) * 2020-06-30 2022-01-05 Siemens Aktiengesellschaft A method and apparatus for performing entity linking
CN112232149B (zh) * 2020-09-28 2024-04-16 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN114419304A (zh) * 2022-01-18 2022-04-29 深圳前海环融联易信息科技服务有限公司 一种基于图神经网络的多模态文档信息抽取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN112232149B (zh) * 2020-09-28 2024-04-16 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
WO2023138023A1 (zh) * 2022-01-18 2023-07-27 深圳前海环融联易信息科技服务有限公司 基于图神经网络的多模态文档信息抽取方法、设备、介质
CN116071740A (zh) * 2023-03-06 2023-05-05 深圳前海环融联易信息科技服务有限公司 发票识别方法、计算机设备及存储介质
CN116152841A (zh) * 2023-04-20 2023-05-23 中国科学院自动化研究所 文档实体及关系抽取方法、装置及存储介质

Also Published As

Publication number Publication date
WO2023138023A1 (zh) 2023-07-27

Similar Documents

Publication Publication Date Title
CN114419304A (zh) 一种基于图神经网络的多模态文档信息抽取方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
JP2022056316A (ja) 文字構造化抽出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP4343213B2 (ja) 文書処理装置および文書処理方法
KR20180107764A (ko) 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 처리하는 방법 및 장치
CN113177124A (zh) 一种垂直领域知识图谱构建方法及系统
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN111767732A (zh) 基于图注意力模型的文档内容理解方法及系统
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN115917613A (zh) 文档中文本的语义表示
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN114443855A (zh) 一种基于图表示学习的知识图谱跨语言对齐方法
CN113822232B (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
CN114238524A (zh) 基于增强样本模型的卫星频轨数据信息抽取方法
CN112612900A (zh) 一种知识图谱指导的多张场景图像生成方法
CN117173730A (zh) 一种基于多模态信息的文档图像智能分析及处理方法
CN115130437B (zh) 一种文档智能填写方法、装置及存储介质
CN114387608B (zh) 一种联合卷积与图神经网络的表格结构识别方法
CN113536798A (zh) 一种多实例文档关键信息抽取方法和系统
CN113345053A (zh) 一种智能配色方法及系统
CN106156259A (zh) 一种用户行为信息展示方法及系统
CN115995087B (zh) 基于融合视觉信息的文档目录智能生成方法及系统
CN117079288B (zh) 一种识别场景中文字语义的关键信息提取方法及模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination