CN114817444A - 文档处理方法和装置 - Google Patents

文档处理方法和装置 Download PDF

Info

Publication number
CN114817444A
CN114817444A CN202210344851.2A CN202210344851A CN114817444A CN 114817444 A CN114817444 A CN 114817444A CN 202210344851 A CN202210344851 A CN 202210344851A CN 114817444 A CN114817444 A CN 114817444A
Authority
CN
China
Prior art keywords
node
document
nodes
obtaining
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210344851.2A
Other languages
English (en)
Inventor
施登亮
郝嘉然
祝慧佳
刘思亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210344851.2A priority Critical patent/CN114817444A/zh
Publication of CN114817444A publication Critical patent/CN114817444A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种文档处理方法及装置。该方法包括:从待处理的文档中提取出至少两个文本块;将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;根据每一个节点的至少一种特征,得到该节点的初始表征向量;根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。本说明书实施例能够更为准确地得到表征文档中的信息的向量。

Description

文档处理方法和装置
技术领域
本说明书一个或多个实施例涉及电子信息技术,尤其涉及文档处理方法和装置。
背景技术
在各种类型的文档中,会包括大量的信息。为了能对这些信息加以利用,就需要对各种类型的文档进行结构化处理,以便得到能够表征文档中的信息的向量。比如,不论在企业还是政府机关中,有大量的信息存储在纸件文档、电子邮件、图片和PDF文档等非结构化或者半结构化的文档中,需要将这些文档转化为结构化的数据,计算出用于表征文档中的信息比如姓名、年龄、身份证号等信息的各个向量,从而能够利用这些向量进行后续业务的计算机自动处理过程,比如政府机关中的档案电子化,保险公司对客户提交的理赔资料进行自动审核、互联网平台对用户提交凭证的自动验证等。
然而目前的文档处理方法无法准确地得到表征文档中的信息的向量。
发明内容
本说明书一个或多个实施例描述了文档处理方法和装置,能够更为准确地得到表征文档中的信息的向量。
根据第一方面,提供了一种文档处理方法,其中包括:
从待处理的文档中提取出至少两个文本块;
将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;
根据每一个节点的至少一种特征,得到该节点的初始表征向量;
根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。
其中,所述得到每一个节点的至少一种特征,包括如下中的至少一项:
根据每一个节点对应的文本块的文本内容,得到该节点的文本特征;
根据每一个节点对应的文本块在待处理的文档中的位置,得到该节点的布局特征;
根据每一个节点对应的文本块的图像,得到该节点的图像特征。
其中,所述根据每一个节点对应的文本块的图像得到该节点的图像特征,包括如下中的至少一项:
对所述待处理的文档的图像进行编码,获得待处理的文档对应的图像特征;根据每一个节点对应的文本块的四角坐标以及所述待处理文档对应的图像特征,利用ROI池化方法获取每一个节点的图像特征;
根据每一个节点对应的文本块的四角坐标,在所述待处理文档对应的图像中截取该节点对应的图像;对该节点对应的图像进行编码,获得该节点的图像特征。
其中,当得到了每一个节点的文本特征、布局特征以及图像特征时;
所述根据每一个节点的至少一种特征得到该节点的初始表征向量,包括:
将该节点的文本特征与布局特征拼接在一起,得到该节点的基础特征;
将该节点的基础特征与该节点的图像特征通过门机制的方式进行融合,得到该节点的初始表征向量。
其中,所述根据每一个节点的初始表征向量以及该节点与其他各节点在待处理的文档中的位置关系得到该节点的最终表征向量,包括:
针对每一个节点均执行:
利用当前节点与其他各节点在待处理的文档中的相对位置关系,生成N*N的权重矩阵;其中,N为大于1的正整数,且等于节点的数量;该权重矩阵中的每一个元素对应N个节点的N*N种两两组合的其中一种组合,元素的值为权重值,且权重值越大表示该元素对应的组合中的两个节点的相互影响越大;
利用所诉权重矩阵对图处理模型的邻接矩阵进行加权,得到加权后的邻接矩阵;
根据图处理模型的加权后的邻接矩阵,对每一个节点的初始表征向量进行聚合,得到该节点的最终表征向量。
其中,所述利用当前节点与其他各节点在待处理的文档中的位置关系生成N*N的权重矩阵,包括:
针对N*N的权重矩阵中的每一个元素,均执行:
得到该元素对应的两个节点;
在极坐标系下构建该元素对应的两个节点的位置;
根据该元素对应的两个节点在极坐标系中的径向距离,得到该元素对应的径向权重值;
根据该元素对应的两个节点在极坐标系中形成的角度,得到该元素对应的角度权重值;
将该元素对应的径向权重值及角度权重值相加,得到该元素的值;
根据得到的各个元素的值,形成N*N的权重矩阵。
其中,
所述根据该元素对应的两个节点在极坐标系中的径向距离得到该元素对应的径向权重值,包括:根据该元素对应的两个节点在极坐标系中的径向距离以及预先设置的衰减函数,得到该元素对应的径向权重值;
和/或,
所述根据该元素对应的两个节点在极坐标系中形成的角度得到该元素对应的角度权重值,包括:对该元素对应的两个节点在极坐标系中形成的角度进行离散化,得到离散角度;将离散角度映射为角度向量;将该角度向量输入预先训练的角度权重识别模型,得到该识别模型输出的该元素对应的角度权重值。
其中,所述图处理模型为:GCN网络或者GTN网络。
根据第二方面,提供了文档处理装置,其中包括:
文本块提取模块,配置为从待处理的文档中提取出至少两个文本块;
特征获取模块,配置为将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;
初始表征向量获取模块,配置为根据每一个节点的至少一种特征,得到该节点的初始表征向量;
最终表征向量获取模块,配置为根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。
根据第三方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任一实施例所述的方法。
在本说明书实施例提出的文档处理方法及装置中,首先会从待处理的文档中提取出各个文本块,并针对每一个文本块来得到其表征向量,从而实现了将文档进行结构化处理。并且,在得到每一个文本块的最终表征向量时,不是仅仅利用表示该文本块的节点的自身特征来得到该表征向量,而且还利用了该文本块与其他文本块在文档中的位置关系来共同得到表示一个文本块的节点的最终表征向量,因此,得到的最终表征向量更加准确。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例中文档处理方法的流程图。
图2是本说明书一个实施例中从待处理的文档中提取出的各个文本块的示意图。
图3是本说明书一个实施例中构建权重矩阵的流程图。
图4是本说明书一个实施例中权重矩阵的示意图。
图5是本说明书一个实施例中文档处理装置的结构示意图。
图6是本说明书一个实施例中文档处理装置的另一种结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1是本说明书一个实施例中文档处理方法的流程图。该方法的执行主体为文档处理装置。可以理解,该方法也可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图1,该方法包括:
步骤101:从待处理的文档中提取出至少两个文本块。
步骤103:将每一个文本块作为一个节点,并得到每一个节点的至少一种特征。
步骤105:根据每一个节点的至少一种特征,得到该节点的初始表征向量。
步骤107:根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。
根据图1所示的流程可以看出,在本说明书实施例中首先会从待处理的文档中提取出各个文本块,并针对每一个文本块来得到其表征向量,从而实现了将文档进行结构化处理。并且,在得到每一个文本块的最终表征向量时,不是仅仅利用表示该文本块的节点的自身特征来得到该表征向量,而且还利用了该文本块与其他文本块在文档中的位置关系来共同得到表示一个文本块的节点的最终表征向量,因此,得到的最终表征向量更加准确。
举例说明,参见图2,比如对于一个证件的扫描件,需要进行结构化处理。从该扫描件中提取出的文本块1是一串数字,那么如果只是考虑该文本块1自身的特征,即数字自身的特征,那么经常会无法准确识别该数字表征的意义,比如,无法区分该串数字是一个银行卡号还是一个员工的工号,从而无法准确的得到该文本块1的最终表征向量。而采用上述图1所示的方法,不仅考虑该串数字即文本块1自身的特征,还会考虑该串数字的文本块1与其他文本块的位置关系,比如文本块2表示工号,并且文本块2位于文本块1左边与文本块1距离很近且相邻,那么,根据文本块1的节点自身的特征(即数字特征)以及文本块2的节点表征工号,就可以准确地确定出文本块1的节点的最终表征向量(为一个工号的具体表征)。
下面结合具体实施例及附图对上述图1所示的每一个步骤分别进行详细说明。
首先对于步骤101:从待处理的文档中提取出至少两个文本块。
待处理的文档可以是多种形式,比如为纸件文档,或者为电子文档。
如果是电子文档,且该电子文档的格式是可以直接解析文本的格式,比如PDF或者word,那么,本步骤101中可以直接从待处理的文档中提取出该文档中包括的至少两个文本块。
如果是纸件文档,本步骤101中可以首先对该纸件文档进行扫描,扫描成图像;另外,如果电子文档的格式是不可以直接解析文本的格式,那么,本步骤101中首先将该电子文档转换成图像。之后,在本步骤101中,对得到的图像进行OCR识别,从而提取出至少两个文本块。
在本说明书实施例中,文本块可以是表征一个完整语义的文本单元,比如发票号、姓名、工号、年龄、一段连续的文字等。
接下来对于步骤103:将每一个文本块作为一个节点,并得到每一个节点的至少一种特征。
为了能够通过计算机对每一个文本块进行向量表示,本步骤103中,可以将每一个文本块作为一个节点。进一步地,为了能够在后续过程中利用全连接网络更好地得到节点的特征,可以在所有节点的两两节点之间连接一条边,从而形成一个全连接图。后续可以将全连接图形式的节点的信息输入全连接网络,得到每一个节点的特征。
节点的特征体现的是文本块的特征。在本说明书一个实施例中,一个节点的特征可以包括如下三种类型中的任意一种或多种:类型1:文本特征;类型2:布局特征;类型3:图像特征。其中,文本特征是该节点对应的文本块的内容特征,比如文字特征、序列特征或者数字特征等;布局特征可以是该节点对应的文本块的大小、尺寸、形状和文本序列的长度等;图像特征是该节点对应的文本块为图像格式时的图像特征。
本步骤103中,针对上述类型1:文本特征,可以根据每一个节点对应的文本块的文本内容,得到该节点的文本特征。可以采用文本编码器比如卷积神经网络(CNN,Convolutional Neural Networks)、BiLSTM、Transformer等得到每个节点的文本编码特征和文本序列编码表征。
本步骤103中,针对上述类型2:布局特征,可以根据每一个节点对应的文本块在待处理的文档中的位置,得到该节点的布局特征。比如,一个文本块大致为矩形,该矩形有4个顶点,4个顶点在待处理文档中的位置坐标可以作为表示该文本块的节点的四角坐标,利用节点的四角坐标构造8个特征分别表示节点的大小、尺寸、形状和文本序列的长度的特征,这些特征通过全连接网络进行了映射,映射到高维空间,作为节点的布局特征。
本步骤103中,针对上述类型3:图像特征,可以根据每一个节点对应的文本块的图像,得到该节点的图像特征。得到节点图像特征的方式包括至少如下两种:
方式1、对待处理的文档的图像进行编码,获得待处理的文档对应的图像特征;根据每一个节点对应的文本块的四角坐标以及所述待处理文档对应的图像特征,利用ROI池化(感兴趣区域池化,Region of interest pooling)方法获取每一个节点的图像特征。
方式2、根据每一个节点对应的文本块的四角坐标,在所述待处理文档对应的图像中截取该节点对应的图像;对该节点对应的图像进行编码,获得该节点的图像特征。
在本说明书的一个实施例中,上述池化操作可以是进行平均池化或者最大池化等操作。
接下来对于步骤105:根据每一个节点的至少一种特征,得到该节点的初始表征向量。
一个节点的初始表征向量表示的是根据该节点对应的文本块自身的特征,而不考虑其他文本块的特征的影响,所确定出的表征向量。
在本说明书一个实施例中,可以采用多模态的特征来对一个节点进行特征表示。此时,以节点的特征同时包括上述3种类型的特征(文本特征、布局特征以及图像特征)为例,因为文本特征以及布局特征相对稳定,因此两者可以直接融合,而图像特征对于节点特征的贡献不稳定,比如有时候帮助大,有时候帮助小,有时候甚至是反作用的帮助,所以要平衡图像特征的影响。可以通过门机制的方式判断图像特征的权重,从而与文本特征及布局特征进行融合。
在此种考虑下,本步骤105的一种实现过程包括:
将该节点的文本特征与布局特征拼接在一起,得到该节点的基础特征;
将该节点的基础特征与该节点的图像特征通过门机制的方式进行融合,得到该节点的初始表征向量。
接下来,对于步骤107:根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。
如前所述,一个节点的初始表征向量表示的是根据该节点对应的文本块自身的特征,而不考虑其他文本块的特征的影响,所确定出的表征向量。那么为了更加准确地对一个节点进行向量表示,不仅需要考虑节点自身的特征,还需要考虑该节点的文本块与其他节点的文本块在文档中的相对位置关系来共同得到节点的最终表征向量。
本步骤107的一种具体实现过程包括:
针对每一个节点均执行:
步骤1071:利用当前节点对应的文本块与其他各节点对应的文本块在待处理的文档中的相对位置关系,生成N*N的权重矩阵;
其中,N为大于1的正整数,且等于节点的数量;该权重矩阵中的每一个元素对应N个节点的N*N种两两组合的其中一种组合,元素的值为权重值,且权重值越大表示该元素对应的组合中的两个节点的相互影响越大。
步骤1073:利用权重矩阵对图处理模型的邻接矩阵进行加权,得到加权后的邻接矩阵。
步骤1075:根据图处理模型的加权后的邻接矩阵对每一个节点的初始表征向量进行聚合,得到该节点的最终表征向量。
通过上述步骤1071至步骤1075的处理,通过权重矩阵即邻接矩阵的权重将各节点对应的各文本块之间的位置关系作为先验知识引入图处理模型,从而提升了图处理模型对布局信息的利用率,从而能够得到更为准确的节点的最终表征向量。
下面对上述步骤1071至步骤1075中的每一个步骤分别进行说明。
在本说明书一个实施例中,因为一个文档中的两个文本块之间的位置关系更容易用极坐标来体现,因此,可以在极坐标系下构建两个节点之间的相对位置关系,进而转换为权重。此时,步骤1071中是利用每一个节点对应的文本块与其他各节点对应的文本块在待处理的文档中的相对位置关系生成N*N的权重矩阵。参见图3,步骤1071的一种具体实现过程包括:
针对N*N的权重矩阵中的每一个元素,均执行:
步骤10711:得到该元素对应的两个节点;
步骤10713:在极坐标系下构建该元素对应的两个节点的位置;
步骤10715:根据该元素对应的两个节点在极坐标系中的径向距离,得到该元素对应的径向权重值;
步骤10717:根据该元素对应的两个节点在极坐标系中形成的角度,得到该元素对应的角度权重值;
步骤10719:将该元素对应的径向权重值及角度权重值相加,得到该元素的值;
步骤107111:根据得到的各个元素的值,形成N*N的权重矩阵。
在本说明书一个实施例中,上述步骤10715的一种实现过程包括:根据该元素对应的两个节点在极坐标系中的径向距离以及预先设置的衰减函数,得到该元素对应的径向权重值。
在本说明书一个实施例中,上述步骤10717的一种实现过程包括:该元素对应的两个节点在极坐标系中形成的角度进行离散化,得到离散角度;将离散角度映射为角度向量;将该角度向量输入预先训练的角度权重识别模型,得到该识别模型输出的该元素对应的角度权重值。可见,本说明书实施例中,可以预先将各种角度进行离散化,比如0-360度离散为0-10度共10个档位,每36度对应一个档位的离散角度,比如0-36度对应离散角度1,37-72对应离散角度2,以此类推,直至360度对应离散角度10;可以预先设置10个离散角度分别对应的角度向量,从而通过网络学习角度向量和权重的映射关系。其中,角度向量和权重的映射关系可以通过两层全连接网络来体现,也可以是单层或者多层的全连接网络或者其他形式来体现。
结合具体的例子来说明上述图3所示的各个步骤。参见图4,比如从待处理的文档中提取出的文本块的数量为5,即节点的数量为5,那么,需要生成5*5的权重矩阵,其中包括25个元素,如图4中所示,权重矩阵中元素Xij的值为一个权重值,该权重值表示:根据节点j与节点i之间的位置关系得到的、节点j对节点i的影响程度。其中如果i等于j,则权重值可以为1。比如元素X12的值为一个权重值,该权重值表示根据节点2与节点1之间的位置关系得到的、节点2对节点1的影响程度;同理元素X13的值为一个权重值,该权重值表示根据节点3与节点1之间的位置关系得到的节点3对节点1的影响程度,以此类推,比如元素X43的值为一个权重值,该权重值表示根据节点3与节点4之间的位置关系得到的节点3对节点4的影响程度等。
以生成元素X23的值即表征节点3对节点2的影响程度的权重值为例说明上述步骤10711至步骤107111的过程。元素X23对应的两个节点是节点2和节点2,在极坐标系下构建节点2与节点3的位置,可以以节点2为极点,根据节点2对应的文本块的四角坐标以及节点3对应的文本块的四角坐标,得到节点3在极坐标系下的位置,从而得到节点3相对于节点2的径向距离r,根据该径向距离r以及预先设置的衰减函数,得到元素X23对应的径向权重值;其中,径向距离r越大,衰减越大,则径向权重值越小,相反,径向距离r越小,衰减越小,则径向权重值越大。节点3相对于节点2在极坐标系中形成的角度为36度,进行离散化后得到离散角度为1;将离散角度1映射为角度向量1;将该角度向量1输入预先训练的角度权重识别模型,得到该识别模型输出的该元素X23对应的角度权重值。然后将元素X23对应的径向权重值与元素X23对应的角度权重值相加,则得到了元素X23的值,即表征节点3对节点2的影响程度的权重值。以此类推,针对权重矩阵中的每一个元素都可以得到其元素值,从而形成了权重矩阵。
接下来对于步骤1073:利用权重矩阵对图处理模型的邻接矩阵进行加权,得到加权后的邻接矩阵。
接下来步骤1075:根据图处理模型的加权后的邻接矩阵对每一个节点的初始表征向量进行聚合,得到该节点的最终表征向量。
这里,图处理模型可以为:图神经网络(GCN)或者图变换网络(GTN)。
在得到了每一个节点的最终表征向量之后,则可以利用该节点的最终表征向量进行各种业务处理,比如,信息抽取或者分类。更具体来说,比如可以应用于政府机关中的档案电子化,保险公司对客户提交的理赔资料进行自动审核、互联网平台对用户提交凭证的自动验证等。
在本说明书的一个实施例中,提供了一种文档处理装置,参见图5,包括:
文本块提取模块501,配置为从待处理的文档中提取出至少两个文本块;
特征获取模块502,配置为将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;
初始表征向量获取模块503,配置为根据每一个节点的至少一种特征,得到该节点的初始表征向量;
最终表征向量获取模块504,配置为根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。
在本说明书装置的一个实施例中,特征获取模块502被配置为执行如下中的至少一项:
根据每一个节点对应的文本块的文本内容,得到该节点的文本特征;
根据每一个节点对应的文本块在待处理的文档中的位置,得到该节点的布局特征;
根据每一个节点对应的文本块的图像,得到该节点的图像特征。
在本说明书装置的一个实施例中,特征获取模块502被配置为执行如下中的至少一项:
对所述待处理的文档的图像进行编码,获得待处理的文档对应的图像特征;根据每一个节点对应的文本块的四角坐标以及所述待处理文档对应的图像特征,利用ROI池化方法获取每一个节点的图像特征;
根据每一个节点对应的文本块的四角坐标,在所述待处理文档对应的图像中截取该节点对应的图像;对该节点对应的图像进行编码,获得该节点的图像特征。
当特征获取模块502得到了每一个节点的文本特征、布局特征以及图像特征时,初始表征向量获取模块503被配置为执行如下操作:
将该节点的文本特征与布局特征拼接在一起,得到该节点的基础特征;
将该节点的基础特征与该节点的图像特征通过门机制的方式进行融合,得到该节点的初始表征向量。
在本说明书装置的一个实施例中,最终表征向量获取模块504被配置为执行:
针对每一个节点均执行:
利用当前节点与其他各节点在待处理的文档中的相对位置关系,生成N*N的权重矩阵;其中,N为大于1的正整数,且等于节点的数量;该权重矩阵中的每一个元素对应N个节点的N*N种两两组合的其中一种组合,元素的值为权重值,且权重值越大表示该元素对应的组合中的两个节点的相互影响越大;
利用所诉权重矩阵对图处理模型的邻接矩阵进行加权,得到加权后的邻接矩阵;
根据图处理模型的加权后的邻接矩阵,对每一个节点的初始表征向量进行聚合,得到该节点的最终表征向量。
在本说明书装置的一个实施例中,最终表征向量获取模块504被配置为执行:
针对N*N的权重矩阵中的每一个元素,均执行:
得到该元素对应的两个节点;
在极坐标系下构建该元素对应的两个节点的位置;
根据该元素对应的两个节点在极坐标系中的径向距离,得到该元素对应的径向权重值;
根据该元素对应的两个节点在极坐标系中形成的角度,得到该元素对应的角度权重值;
将该元素对应的径向权重值及角度权重值相加,得到该元素的值;
根据得到的各个元素的值,形成N*N的权重矩阵。
在本说明书装置的一个实施例中,最终表征向量获取模块504被配置为执行:根据该元素对应的两个节点在极坐标系中的径向距离以及预先设置的衰减函数,得到该元素对应的径向权重值。
在本说明书装置的一个实施例中,最终表征向量获取模块504被配置为执行:对该元素对应的两个节点在极坐标系中形成的角度进行离散化,得到离散角度;将离散角度映射为角度向量;将该角度向量输入预先训练的角度权重识别模型,得到该识别模型输出的该元素对应的角度权重值。
在本说明书装置的一个实施例中,图处理模型为:GCN网络或者GTN网络。
参见图6,在本说明书装置的一个实施例中,进一步包括:任务执行模块601,配置为利用每一个节点的最终表征向量进行业务处理,比如,信息抽取或者分类。
本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中,上述装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置、系统内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.文档处理方法,其中包括:
从待处理的文档中提取出至少两个文本块;
将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;
根据每一个节点的至少一种特征,得到该节点的初始表征向量;
根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。
2.根据权利要求1所述的方法,其中,所述得到每一个节点的至少一种特征,包括如下中的至少一项:
根据每一个节点对应的文本块的文本内容,得到该节点的文本特征;
根据每一个节点对应的文本块在待处理的文档中的位置,得到该节点的布局特征;
根据每一个节点对应的文本块的图像,得到该节点的图像特征。
3.根据权利要求2所述的方法,其中,所述根据每一个节点对应的文本块的图像得到该节点的图像特征,包括如下中的至少一项:
对所述待处理的文档的图像进行编码,获得待处理的文档对应的图像特征;根据每一个节点对应的文本块的四角坐标以及所述待处理文档对应的图像特征,利用ROI池化方法获取每一个节点的图像特征;
根据每一个节点对应的文本块的四角坐标,在所述待处理文档对应的图像中截取该节点对应的图像;对该节点对应的图像进行编码,获得该节点的图像特征。
4.根据权利要求2所述的方法,其中,当得到了每一个节点的文本特征、布局特征以及图像特征时;
所述根据每一个节点的至少一种特征得到该节点的初始表征向量,包括:
将该节点的文本特征与布局特征拼接在一起,得到该节点的基础特征;
将该节点的基础特征与该节点的图像特征通过门机制的方式进行融合,得到该节点的初始表征向量。
5.根据权利要求1所述的方法,其中,所述根据每一个节点的初始表征向量以及该节点与其他各节点在待处理的文档中的位置关系得到该节点的最终表征向量,包括:
针对每一个节点均执行:
利用当前节点与其他各节点在待处理的文档中的相对位置关系,生成N*N的权重矩阵;其中,N为大于1的正整数,且等于节点的数量;该权重矩阵中的每一个元素对应N个节点的N*N种两两组合的其中一种组合,元素的值为权重值,且权重值越大表示该元素对应的组合中的两个节点的相互影响越大;
利用所诉权重矩阵对图处理模型的邻接矩阵进行加权,得到加权后的邻接矩阵;
根据图处理模型的加权后的邻接矩阵,对每一个节点的初始表征向量进行聚合,得到该节点的最终表征向量。
6.根据权利要求5所述的方法,其中,所述利用当前节点与其他各节点在待处理的文档中的位置关系生成N*N的权重矩阵,包括:
针对N*N的权重矩阵中的每一个元素,均执行:
得到该元素对应的两个节点;
在极坐标系下构建该元素对应的两个节点的位置;
根据该元素对应的两个节点在极坐标系中的径向距离,得到该元素对应的径向权重值;
根据该元素对应的两个节点在极坐标系中形成的角度,得到该元素对应的角度权重值;
将该元素对应的径向权重值及角度权重值相加,得到该元素的值;
根据得到的各个元素的值,形成N*N的权重矩阵。
7.根据权利要求6所述的方法,其中,
所述根据该元素对应的两个节点在极坐标系中的径向距离得到该元素对应的径向权重值,包括:根据该元素对应的两个节点在极坐标系中的径向距离以及预先设置的衰减函数,得到该元素对应的径向权重值;
和/或,
所述根据该元素对应的两个节点在极坐标系中形成的角度得到该元素对应的角度权重值,包括:对该元素对应的两个节点在极坐标系中形成的角度进行离散化,得到离散角度;将离散角度映射为角度向量;将该角度向量输入预先训练的角度权重识别模型,得到该识别模型输出的该元素对应的角度权重值。
8.根据权利要求5所述的方法,其中,所述图处理模型为:GCN网络或者GTN网络。
9.文档处理装置,其中包括:
文本块提取模块,配置为从待处理的文档中提取出至少两个文本块;
特征获取模块,配置为将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;
初始表征向量获取模块,配置为根据每一个节点的至少一种特征,得到该节点的初始表征向量;
最终表征向量获取模块,配置为根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN202210344851.2A 2022-04-02 2022-04-02 文档处理方法和装置 Pending CN114817444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210344851.2A CN114817444A (zh) 2022-04-02 2022-04-02 文档处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210344851.2A CN114817444A (zh) 2022-04-02 2022-04-02 文档处理方法和装置

Publications (1)

Publication Number Publication Date
CN114817444A true CN114817444A (zh) 2022-07-29

Family

ID=82533221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210344851.2A Pending CN114817444A (zh) 2022-04-02 2022-04-02 文档处理方法和装置

Country Status (1)

Country Link
CN (1) CN114817444A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180322339A1 (en) * 2017-05-08 2018-11-08 Adobe Systems Incorporated Page segmentation of vector graphics documents
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN112597773A (zh) * 2020-12-08 2021-04-02 上海深杳智能科技有限公司 文档结构化方法、系统、终端及介质
US20210110527A1 (en) * 2019-08-30 2021-04-15 Sas Institute Inc. Techniques for extracting contextually structured data from document images
CN112699234A (zh) * 2020-12-08 2021-04-23 上海深杳智能科技有限公司 一种通用文档识别方法、系统、终端及存储介质
CN113283241A (zh) * 2020-02-20 2021-08-20 阿里巴巴集团控股有限公司 文本识别方法、装置、电子设备及计算机可读存储介质
US20210295101A1 (en) * 2020-03-19 2021-09-23 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and Method for Recognizing Image-Based Content Presented in a Structured Layout

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180322339A1 (en) * 2017-05-08 2018-11-08 Adobe Systems Incorporated Page segmentation of vector graphics documents
US20210110527A1 (en) * 2019-08-30 2021-04-15 Sas Institute Inc. Techniques for extracting contextually structured data from document images
CN113283241A (zh) * 2020-02-20 2021-08-20 阿里巴巴集团控股有限公司 文本识别方法、装置、电子设备及计算机可读存储介质
US20210295101A1 (en) * 2020-03-19 2021-09-23 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and Method for Recognizing Image-Based Content Presented in a Structured Layout
CN111967387A (zh) * 2020-08-17 2020-11-20 北京市商汤科技开发有限公司 表单识别方法、装置、设备及计算机可读存储介质
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统
CN112597773A (zh) * 2020-12-08 2021-04-02 上海深杳智能科技有限公司 文档结构化方法、系统、终端及介质
CN112699234A (zh) * 2020-12-08 2021-04-23 上海深杳智能科技有限公司 一种通用文档识别方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN109344884B (zh) 媒体信息分类方法、训练图片分类模型的方法及装置
US11954139B2 (en) Deep document processing with self-supervised learning
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN111967387A (zh) 表单识别方法、装置、设备及计算机可读存储介质
US11907675B2 (en) Generating training datasets for training neural networks
CN108229287B (zh) 图像识别方法和装置、电子设备和计算机存储介质
US10949664B2 (en) Optical character recognition training data generation for neural networks by parsing page description language jobs
CN113469067B (zh) 一种文档解析方法、装置、计算机设备和存储介质
CN110166522B (zh) 服务器识别方法、装置、可读存储介质和计算机设备
CN115658955B (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN111753717A (zh) 用于提取文本的结构化信息的方法、装置、设备及介质
JP2022088602A (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
CN115438215A (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN114495147B (zh) 识别方法、装置、设备以及存储介质
CN115169342A (zh) 文本相似度计算方法、装置、电子设备及存储介质
CN114724156A (zh) 表单识别方法、装置及电子设备
WO2020039075A1 (en) Code quality assessment method and apparatus, system, and storage medium
WO2016200408A1 (en) Hybrid classification system
CN116628141B (zh) 信息处理方法、装置、设备及存储介质
CN112115892A (zh) 一种关键要素抽取方法、装置、设备及存储介质
US9378466B2 (en) Data reduction in nearest neighbor classification
CN111382254A (zh) 电子名片推荐方法、装置、设备及计算机可读存储介质
CN114817444A (zh) 文档处理方法和装置
US20230186668A1 (en) Polar relative distance transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination