CN114694158A

CN114694158A - 票据的结构化信息的提取方法及电子设备

Info

Publication number: CN114694158A
Application number: CN202210334143.0A
Authority: CN
Inventors: 王雷; 张睿; 燕鹏举; 周健
Original assignee: Shanghai Hongji Information Technology Co Ltd
Current assignee: Shanghai Hongji Information Technology Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-01

Abstract

本申请提供一种票据的结构化信息的提取方法及电子设备，该方法包括：对票据图像进行光学字符识别，获得每个文本行的位置信息和文本信息；根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征；针对每个文本行，将文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到文本行的多模态融合特征；根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系；根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到票据图像的结构化信息。从而无需为每一种票据单独定制一种模板，提升了票据结构化信息提取的自动化程度。

Description

票据的结构化信息的提取方法及电子设备

技术领域

本申请涉及图像处理技术领域，特别涉及一种票据的结构化信息的提取方法及电子设备。

背景技术

近年来，随着我国医疗信息化的不断深入发展，医疗票据电子化已然成为一种趋势。但由于报销单位无法直接获取用户的医疗详细信息，导致用户在报销时需提交原始医疗单据，然后由报销人员手工录入系统，逐项核对后按照特定的报销比例和报销金额进行报销。在手工录入过程中存在很多的弊端，一方面是人工录入会不可避免的出现漏项错项问题，另一方面需配置大量人力资源进行高度重复性工作，这不仅会给医疗工作人员带来很大的压力，导致报销流程耗时费力且效率低。

对于票据结构化识别，在OCR(Optical Character Recognition，光学字符识别)技术把图像中的文字信息识别出来以后，需要考虑根据票据的结构化信息把文字识别结果进行结构化处理，形成医疗票据明细结果。但是，现有的技术中，结构化是基于模板规则实现，即使是同一种票据，如住院发票，需要定制一个模板，这无疑限制其应用。此外，这类基于模板规则实现的方法，对图片质量要求较高，具体来说，就是待结构化识别的新票据图片数据，要和模板保持尽可能的一致。因此，无法采用现有的方法完成自动的结构化处理。

发明内容

本申请实施例提供了一种票据的结构化信息的提取方法装置、存储介质及电子设备，无需为每一种票据单独定制模板，提高了票据的结构化信息提取的自动化程度。

本申请实施例提供了一种票据的结构化信息的提取方法，包括：

对票据图像进行光学字符识别，获得每个文本行的位置信息和文本信息；

根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征；

针对每个文本行，将所述文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征；

根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系；

根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息。

在一实施例中，在所述对票据图像进行光学字符识别之前，所述方法还包括：

采用渐进式训练策略，训练得到质量分类模型；

通过所述质量分类模型对所述票据图像进行模糊判断和完整性判断。

在一实施例中，所述对票据图像进行光学字符识别，包括：

当所述质量分类模型输出的模糊判断结果为不模糊以及完整性判断结果为完整时，对所述票据图像进行光学字符识别。

在一实施例中，所述根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征，包括：

针对每个文本行，根据所述文本行的位置信息以及其余文本行的位置信息，得到所述文本行相对其余文本行的相对位置特征；

针对每个文本行，根据所述文本行的文本信息，通过已训练的特征提取模型提取所述文本信息的文本语义特征；

针对每个文本行，根据所述文本行的位置信息，将所述位置信息对应的特征图进行感兴趣区域池化操作，得到所述文本行的视觉特征。

在一实施例中，所述针对每个文本行，将所述文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征，包括：

针对每个文本行，基于自注意力机制将文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征。

在一实施例中，所述根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系，包括：

以每个文本行为节点，任意两个节点之间相连，构建初始结构图；

根据每个文本行的相对位置特征和多模态融合特征，通过图卷积进行所述初始结构图中节点之间边的更新，得到优化后的几何拓扑图；

根据所述几何拓扑图中不同节点之间的连接关系，得到相应文本行之间的关联关系。

在一实施例中，所述根据每个文本行的相对位置特征和多模态融合特征，通过图卷积进行所述初始结构图中节点之间边的更新，得到优化后的几何拓扑图，包括：

根据任意两个文本行的相对位置特征和多模态融合特征，计算所述两个文本行对应的节点之间存在边的概率；

当所述概率小于阈值时，去除所述初始结构图中所述两个文本行对应的节点之间存在的边，得到优化后的几何拓扑图。

针对任一指定节点，选择与所述指定节点最近的多个邻居节点，根据所述指定节点与邻居节点之间的相对位置特征，所述指定节点的多模态融合特征和所述邻居节点的多模态融合特征进行图卷积，更新所述指定节点与所述邻居节点之间的边，得到优化后的几何拓扑图。

在一实施例中，所述根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息，包括：

对每个文本行的文本信息进行节点分类，确定每个文本行的文本信息的键值类别；其中，所述键值类别用于区分文本行是键或值；

根据不同文本行之间的关联关系以及每个文本行的键值类别，将存在关联关系的文本行的文本信息以键值对形式输出，得到所述票据图像的结构化信息。

在一实施例中，所述根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息，还包括：

当存在孤立的文本行时，对所述孤立的文本行的文本信息进行实体命名分类，确定所述孤立的文本行的实体类别；

将所述孤立的文本行的实体类别和文本信息以键值对形式输出。

另一方面，本申请实施例提供了一种票据的结构化信息的提取装置，包括：

文本识别模块，用于对票据图像进行光学字符识别，获得每个文本行的位置信息和文本信息；

特征提取模块，用于根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征；

特征融合模块，用于针对每个文本行，将所述文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征；

关系构建模块，用于根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系；

结构化输出模块，用于根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息。

本申请实施例提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述票据的结构化信息的提取方法。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述票据的结构化信息的提取方法。

本申请上述实施例提供的技术方案，通过提取每个文本行的相对位置特征、文本语义特征和视觉特征，并对文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到文本行的多模态融合特征；进而根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系，根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到票据图像的结构化信息。从而无需为每一种票据单独定制一种模板，提升了票据结构化信息提取业务场景的自动化程度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的电子设备的结构示意图；

图2是本申请实施例提供的一种票据的结构化信息的提取方法的流程示意图；

图3是本申请实施例提供的渐进式训练策略的原理示意；

图4是本申请实施例提供的特征融合的流程示意图；

图5是本申请实施例提供的结构化信息提取结果的示意图；

图6是图2对应实施例中步骤S240的细节流程图；

图7是本申请实施例提供的基于票据简图构建初始结构图的原理示意图；

图8是本申请实施例提供的几何拓扑图的示意图；

图9是本申请实施例提供的节点分类和命名实体分类的原理示意图；

图10是本申请另一实施例提供的票据的结构化信息的提取方法的流程示意图；

图11是本申请另一实施例提供的结构化信息提取结果的示意图；

图12是本申请一实施例示出的票据的结构化信息的提取装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的票据的结构化信息的提取方法。如图1所示，该电子设备100包括：一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中，所述处理器102被配置为执行本申请下述实施例提供的票据的结构化信息的提取方法。

所述处理器102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对所述电子设备100中的其它组件的数据进行处理，还可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的票据的结构化信息的提取方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

在一实施例中，图1示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备100也可以具有其他组件和结构。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像，并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地，该数据采集装置110可以为摄像头。

在一实施例中，用于实现本申请实施例的票据的结构化信息的提取方法的示例电子设备100中的各器件可以集成设置，也可以分散设置，诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体，而将数据采集装置110分离设置。

在一实施例中，用于实现本申请实施例的票据的结构化信息的提取方法的示例电子设备100可以被实现为诸如平板电脑、台式电脑、服务器、车载设备等智能终端。

图2是本申请实施例提供的一种票据的结构化信息的提取方法的流程示意图。该方法可以由上述电子设备100执行，如图2所示，该方法包括以下步骤S210-步骤S250。

步骤S210：对票据图像进行光学字符识别，获得每个文本行的位置信息和文本信息。

其中，票据图像可以由用户手持电子设备拍摄得到，也可以提前存储在电子设备中，或者由电子设备从外部设备获取得到。举例来说，票据图像可以是医院收费票据、水电费票据、购物票据等。

光学字符识别可以采用现有的OCR(光学字符识别)引擎实现，OCR引擎可以进行文本行检测以及文本行识别，文本行检测可以得到文本行的位置信息，文本行识别可以得到文本行的文本信息。文本行的位置信息是指文本行所在的位置坐标，可以是文本行的四边形坐标(x1,y1,x2,y2,x3,y3,x4,y4)，文本行的文本信息是指文本行的文本内容，例如其中一个文本行的文本内容可能是“北京第三医院住院发票”。

在一实施例中，在上述步骤S210之前，可以先对票据图像进行质量判断。如果一张票据图像本身比较模糊，其文字内容难以辨认，将会导致不可预知的错误。故可以训练一个质量分类模型，质量分类模型可以包括两个分支，第一个分支判断是否为模糊图像，第二个分支判断图像是否完整。为了提升分类的鲁棒性，可以采用渐进式训练策略训练得到质量分类模型；进而通过该质量分类模型对所述票据图像进行模糊判断和完整性判断。

相比传统的直接分类模型，渐进式训练策略可以保证模型可以捕捉到不同粒度(不同分辨率)的分类特征。如图3所示，step1(第一)阶段，通过低层网络提取训练图像的浅层特征，基于浅层特征预测训练图像的分类结果(合格或不合格)，根据预测结果以及实际结果，进行低层网络的网络参数的更新，之后进行step2(第二阶段)，在低层网络上增加网络层，提取更深一层的特征，并根据更深一层的特征预测训练图像的分类结果，进行新增网络层的网络参数的更新；step3(第三阶段)，step4(第四阶段)类似不断提取更深一层的特征，并进行新增网络层的更新。在step4结束后可以融合不同粒度的特征，基于融合后特征确定训练图像的分类结果y，根据实际结果，再次更新所有网络层的网络参数，最终得到训练完成的质量分类模型。

在一实施例中，为提高票据图像的结构化信息提取的准确性，当所述质量分类模型输出的模糊判断结果为不模糊以及完整性判断结果为完整时，才对所述票据图像进行OCR识别。当所述质量分类模型输出的模糊判断结果为模糊或者完整性判断结果为不完整时，可以输出重新获取票据图像的提示信息。

步骤S220：根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征。

因为不同图像的尺度变化多样，绝对位置特征不稳定，故可以根据每个文本行的位置信息，确定每个文本行的相对位置特征。

在一实施例中，可以针对每个文本行，根据所述文本行的位置信息以及其余文本行的位置信息，得到所述文本行相对其余文本行的相对位置特征。

举例来说，一个文本行的位置信息为(x1,y1,x2,y2,x3,y3,x4,y4)，对该位置信息进行放射变换，得到一个矩形，用(x,y,w,h)表示，其中(x，y)是中心坐标，(w,h)是宽和高。故可以用(xi,yi,wi,hi)表示第i个文本行，(xj,yj,wj,hj)表示第j个文本行，第i个文本行相对第j个文本行的相对几何位置特征可以表示为(xi-xj,yi-yj,wi/hi,hj/hi,wj/hi)。由于一个票据图像可能不止2个文本行，故一个文本行的相对位置特征可以包括该文本行相对其余所有文本行的相对几何位置特征。

在一实施例中，针对每个文本行，可以根据所述文本行的文本信息，通过已训练的特征提取模型提取所述文本信息的文本语义特征。

特征提取模型可以由LSTM(长短期记忆网络)或者BERT(Bidirectional EncoderRepresentation from Transformers，一个预训练的语言表征模型)训练得到。通过特征提取模型可以将每个文本行的文本信息转换成特征向量表示，该特征向量即为文本语义特征。

在一实施例中，针对每个文本行，可以根据所述文本行的位置信息，将所述位置信息对应的特征图进行感兴趣区域池化操作，得到所述文本行的视觉特征。

具体的，根据文本行的位置信息(x1,y1,x2,y2,x3,y3,x4,y4)，可以从票据图像中截取该位置信息对应的图像，即为特征图。之后对特征图进行感兴趣区域池化操作(ROIPooling)，即可得到文本行的视觉特征。感兴趣区域池化操作可以采用现有技术实现，举例来说，可以将特征图划分为相等大小的部分(其数量与输出的维度相同)，找到每个部分的像素最大值，将这些最大值复制到输出(max pooling)，作为文本行的视觉特征。

步骤S230：针对每个文本行，将所述文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征。

将相对位置特征、文本语义特征和视觉特征三种单一的特征融合为表达能力更强的特征，融合方式包括但不限于拼接、相加、自注意力编码等方式。为进行区分，三种特征融合后的结果可以称为多模态融合特征。从而即使OCR引擎有略微的不稳定(如文本框的漂移、文字识别错误)都可以应对。

因为对于同一个事物，不同模态的特征具有互补性，利用这种互补性是多模态融合的意义所在。但是直接拼接或者相加都无法保证充分利用了不同模态特征的互补信息，所以需要一种自学习的机制来学习到这种互补性，在一实施例中，针对每个文本行，可以基于自注意力机制将文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征。

具体的，可以将相对位置特征、文本语义特征和视觉特征分别进行特征嵌入，得到3个相同维度的特征。之后如图4所示，将3类特征输入到self-attention(自注意力模块)进行特征融合。具体的，将相对位置特征、文本语义特征、视觉特征进行add(相加)操作；相加后的特征分别与三个系数(w^q、w^k、w^v)相乘，得到Q、K、V三个矩阵；Q和K进行矩阵乘法，得到注意力矩阵M；注意力矩阵M和V进行矩阵乘法，得到融合后的特征。

步骤S240：根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系。

由于最终要获得票据图像的结构化信息，结构化信息由多个k-v对(键值对)构成。如图5所示，key(键)是“住院号”时，value(值)是“41988763”；key是“住院天数”时，value是“14”。

根据每个文本行的多模态融合特征和相对位置特征，可以确定一个文本行与另一个文本行之间是否存在关联关系。假设一个文本行i和另一个文本行j存在关联关系，则表示这两个文本行的文本信息可以构成k-v对。

在一实施例中，如图6所示，上述步骤S240具体包括：步骤S241-步骤S243。

步骤S241：以每个文本行为节点，任意两个节点之间相连，构建初始结构图。

如图7所示，左侧是票据简图，右侧是构建的初始结构图。初始结构图的一个节点代表一个文本行，所有节点之间两两连接。

步骤S242：根据每个文本行的相对位置特征和多模态融合特征，通过图卷积进行所述初始结构图中节点之间边的更新，得到优化后的几何拓扑图。

节点之间的边用于表征节点之间连接的概率，也就是存在关联关系的概率。初始结构图可以用G＝(V,E)表示，其中，V为节点的集合，用多模态融合特征表示；E为边的集合，使用相对位置特征和多模态融合特征共同表达。

具体的，可以根据任意两个文本行的相对位置特征和多模态融合特征，计算所述两个文本行对应的节点之间存在边的概率；当所述概率小于阈值时，去除所述初始结构图中所述两个文本行对应的节点之间存在的边，得到优化后的几何拓扑图。

举例来说，对于Vi(Vi节点是文本行i对应的节点)，Vj(Vj节点是文本行j对应的节点)两个节点之间存在边的概率，其表达为

其中0≤e_ij≤1。e_ij表示节点Vi与节点Vj相连的概率。v_i，v_j代表多模态融合特征，w_ew_g是训练的参数，

代表相对位置特征。通过不断输入任意两个文本行的特征，根据e_ij的表达式，可以计算得到这两个文本行对应的节点之间存在边的该概率值e_ij。

在e_ij大于等于阈值时，表示节点Vi与节点Vj相连，否则不相连，以此类推，对初始结构图中节点之间的边进行更新后，可以得到优化后的几何拓扑图，如图8所示，节点①是孤立的节点，节点②和节点③相连，节点④和节点⑤相连。

在一实施例中，针对任一指定节点，可以选择与指定节点最近的多个邻居节点，根据所述指定节点与邻居节点之间的相对位置特征，所述指定节点的多模态融合特征和所述邻居节点的多模态融合特征进行图卷积，更新所述指定节点与所述邻居节点之间的边，得到优化后的几何拓扑图。

考虑到实际中，每一个文本行的k-v对关系，只和周边相关，所以在更新过程中，根据

可以选择最近的N个节点进行图卷积(而不是全图进行)。为进行区分，选择的最近的N个节点可以称为邻居节点。根据指定节点和邻居节点之间的相对位置特征

以及指定节点的多模态融合特征v_i以及邻居节点的多模态融合特征v_j进行图卷积，优化w_ew_g，基于优化后的w_ew_g，得到更新后的e_ij。基于更新后的e_ij，即可确定指定节点与邻居节点之间是否存在边，从而初始结构图的边经过优化后得到几何拓扑图。

步骤S243：根据所述几何拓扑图中不同节点之间的连接关系，得到相应文本行之间的关联关系。

以图8为例，节点②和节点③相连，表示节点②对应的文本行与节点③对应的文本行之间存在关联关系。同理，节点④与节点⑤相连，表示节点④对应的文本行与节点⑤对应的文本行之间存在关联关系。

步骤S250：根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息。

组合输出是指将存在关联关系的文本行的文本信息一起进行输出。结构化信息可以包括所有存在关联关系的文本信息。

以图8为例，节点②对应的文本行与节点③对应的文本行之间存在关联关系，节点④对应的文本行与节点⑤对应的文本行之间存在关联关系，由此节点②对应的文本行的文本信息“日期”与节点③对应的文本行的文本信息“2022-01-01”构成k-v对。节点④对应的文本行的文本信息“金额”与节点⑤对应的文本行的文本信息“1000元整”构成k-v对。结构化信息由这些k-v对构成。

为了快速确定存在关联关系的两个文本行，哪个是key哪个是value。在一实施例中，可以对每个文本行的文本信息进行节点分类，确定每个文本行的文本信息的键值类别；其中，所述键值类别用于区分文本行是键或值；根据不同文本行之间的关联关系以及每个文本行的键值类别，将存在关联关系的文本行的文本信息以键值对形式输出，得到所述票据图像的结构化信息。

其中，节点分类可以确定文本信息是key还是value，也就是键值类别，如图9所示，节点分类可以利用训练好的CNN(Convolutional Neural Networks，卷积神经网络)分类模块进行分类。对于存在关联关系的文本行的文本信息，根据确定的键值类别，即已知哪个文本行是key，哪个文本行是value，故可以以键值对形式输出。

从图8可以看出，一些场景中会存在孤立的节点，也就是说，k-v对也可能以单一文本行的形式出现，为了提高方案的适用范围，在一实施例中，当存在孤立的文本行时，对所述孤立的文本行的文本信息进行实体命名分类，确定所述孤立的文本行的实体类别；将所述孤立的文本行的实体类别和文本信息以键值对形式输出。

实体命名分类可以确定孤立节点对应的文本信息的实体类别，可以采用已有的实体命名模块对文本信息进行实体命名。例如“北京第三医院”的实体类别为“医院名称”。而对于孤立的文本行，根据该文本行的文本信息的实体类别，可以将实体类别与该文本信息一起以键值对形式输出，实体类别为key，文本信息为value。以图8为例，孤立节点①的文本信息的实体类别为“医院名称”，故可以得到k-v对“医院名称：北京第三医院”。由此图7所示的票据简图可以提取出结构化信息为{日期：2022-01-01，金额：1000，医院名称：北京第三医院}。

图10是本申请另一实施例提供的票据的结构化信息的提取方法的流程示意图。如图10所示，包括以下步骤：

(1)对票据拍照，获得票据图像；

(2)采用渐进式细粒度分类的训练策略训练的质量判断模型，对票据图像进行了质量判断；

(3)通过OCR引擎对票据图像进行光学字符识别，得到文本行的位置信息和文本信息；

(4)根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征；

(5)将所述文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征；

(6)根据文本行的相对位置特征和多模态融合特征，构建几何拓扑结构；

(7)根据几何拓扑结构，将相连的节点对应的文本信息以k-v对形式输出。

如图11所示，采用本申请实施例提供的方法对左侧的票据进行处理，可以从票据中提取出右侧所示的结构化信息。

本申请上述实施例提供的技术方案，通过提取每个文本行的相对位置特征、文本语义特征和视觉特征，并对文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到文本行的多模态融合特征；进而根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系，根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到票据图像的结构化信息。从而无需为每一种票据单独定制一种模板，节省资金、人力和时间，利用多模态融合特征提高了结构化信息提取的准确性，提升了票据结构化信息提取业务场景的自动化程度。

下述为本申请装置实施例，可以用于执行本申请上述票据的结构化信息的提取方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请票据的结构化信息的提取方法实施例。

图12为本申请一实施例示出的票据的结构化信息的提取装置的框图。如图12所示，该装置包括：文本识别模块1110、特征提取模块1120、特征融合模块1130、关系构建模块1140以及结构化输出模块1150。

文本识别模块1110，用于对票据图像进行光学字符识别，获得每个文本行的位置信息和文本信息。

特征提取模块1120，用于根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征。

特征融合模块1130，用于针对每个文本行，将所述文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征。

关系构建模块1140，用于根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系。

结构化输出模块1150，用于根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息。

上述装置中各个模块的功能和作用的实现过程具体详见上述票据的结构化信息的提取方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种票据的结构化信息的提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述对票据图像进行光学字符识别之前，所述方法还包括：

采用渐进式训练策略，训练得到质量分类模型；

3.根据权利要求2所述的方法，其特征在于，所述对票据图像进行光学字符识别，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据每个文本行的位置信息和文本信息，获得每个文本行的相对位置特征、文本语义特征和视觉特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述针对每个文本行，将所述文本行的相对位置特征、文本语义特征和视觉特征进行特征融合，得到所述文本行的多模态融合特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据每个文本行的多模态融合特征和相对位置特征，确定不同文本行之间的关联关系，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据每个文本行的相对位置特征和多模态融合特征，通过图卷积进行所述初始结构图中节点之间边的更新，得到优化后的几何拓扑图，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据每个文本行的相对位置特征和多模态融合特征，通过图卷积进行所述初始结构图中节点之间边的更新，得到优化后的几何拓扑图，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据不同文本行之间的关联关系，将存在关联关系的文本行的文本信息进行组合输出，得到所述票据图像的结构化信息，还包括：

11.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-10任意一项所述的票据的结构化信息的提取方法。