CN111598093A

CN111598093A - 图片中文字的结构化信息生成方法、装置、设备及介质

Info

Publication number: CN111598093A
Application number: CN202010457865.6A
Authority: CN
Inventors: 张�杰; 邹雨晗; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-08-28
Anticipated expiration: 2040-05-25
Also published as: CN111598093B

Abstract

本发明公开了一种图片中文字的结构化信息生成方法、装置、设备及介质，该方法包括：将待处理图片传输到检测模型，生成多个包含文字的子图片，并基于识别模型，将多个子图片构造为图结构，其中一个子图片对应图结构中的一个图节点；根据识别模型，生成图结构中每个图节点的特征向量，并将图结构中所有图节点的特征向量生成为图结构的特征矩阵；根据图卷积神经网络，对特征矩阵和图结构的邻接矩阵进行处理，生成待处理图片中文字的结构化信息。本发明通过将包含文字的子图片构建为图结构，由图卷积神经网络模型来对图结构的特征矩阵和邻接矩阵进行处理，得到待处理图片中文件的结构化信息，确保了所生成结构化信息的准确性。

Description

图片中文字的结构化信息生成方法、装置、设备及介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种图片中文字的结构化信息生成方法、装置、设备及介质。

背景技术

随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，越来越多的技术(如人工智能、大数据、云存储、图片中文字的结构化信息生成等)应用在金融领域，但金融领域也对各类技术提出了更高的要求，如要求准确识别证件图片中的文字，形成结构化信息等。

当前证件图片的结构化常常采用一系列规则来处理实现，并且不同类型的结构化任务需要制定不同的规则集，而规则集中的一系列规则具有琐碎而繁杂的特性，在制定过程中容易因琐碎繁杂而遗漏，如此一来，导致了经规则处理得到的证件图片中文字的结构化信息不准确。

发明内容

本发明的主要目的在于提供一种图片中文字的结构化信息生成方法、装置、设备及介质，旨在解决现有技术中由一系列规则处理所得到的证件图片中文字的结构化信息不准确的技术问题。

为实现上述目的，本发明提供一种图片中文字的结构化信息生成方法，所述图片中文字的结构化信息生成方法包括以下步骤：

将待处理图片传输到检测模型，生成多个包含文字的子图片，并基于识别模型，将多个所述子图片构造为图结构，其中一个子图片对应所述图结构中的一个图节点；

根据所述识别模型，生成所述图结构中每个图节点的特征向量，并将所述图结构中所有图节点的特征向量生成为所述图结构的特征矩阵；

根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息。

可选地，所述基于识别模型，将多个所述子图片构造为图结构的步骤包括：

基于所述识别模型对每个所述子图片的位置坐标进行计算，获得每个所述子图片的中心点，并针对每个所述子图片执行以下步骤：

计算所述子图片的中心点分别与其他子图片的中心点之间的距离；

根据各所述距离之间的大小关系，从其他子图片中确定出与所述子图片具有邻近关系的目标子图片；

在确定出与各个所述子图片分别具有邻近关系的目标子图片后，对所有所述目标子图片的中心点进行连接，形成所述图结构。

可选地，所述根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息的步骤包括：

根据所述图结构中各图节点之间的邻近关系，确定所述图结构的邻接矩阵，以及所述邻接矩阵中各矩阵行的邻近权重；

调用图卷积神经网络，对所述特征矩阵和所述邻接矩阵基于所述邻近权重进行卷积处理，生成所述图结构的结果表示矩阵；

根据所述结果表示矩阵，生成所述待处理图片中文字的结构化信息。

可选地，所述对所述特征矩阵和所述邻接矩阵基于所述邻近权重进行卷积处理，生成所述图结构的结果表示矩阵的步骤包括：

根据所述邻近权重，对所述特征矩阵和所述邻接矩阵进行权重运算，生成中间矩阵；

根据所述图卷积神经网络的层权重，对所述中间矩阵进行线性降维，生成降维矩阵；

根据所述图卷积神经网络的激活函数，对所述降维矩阵进行非线性处理，生成新的特征矩阵，完成在所述图卷积神经网络中一个网络层的卷积处理；

将新的特征矩阵传输到图卷积神经网络中下一个网络层进行卷积处理，直到完成在图卷积神经网络中各网络层的卷积处理，生成卷积矩阵；

在根据图卷积神经网络的预设函数，确定所述卷积矩阵中每个矩阵行所包含数值中的最大值后，将所述卷积矩阵确定为所述图结构的结果表示矩阵。

可选地，所述根据所述结果表示矩阵，生成所述待处理图片中文字的结构化信息的步骤包括：

根据所述结果表示矩阵中每个矩阵行所包含数值中的最大值，预测与各所述图节点对应的要素标签；

获取与各所述图节点分别对应的子图片中的文字信息，并根据各所述要素标签和各所述文字信息，生成标签文字对，以得到所述待处理图片中文字的结构化信息。

可选地，所述根据所述识别模型，生成所述图结构中每个图节点的特征向量的步骤包括：

根据所述识别模型，对每个所述子图片中的文字进行识别，得到每个所述子图片的文字表示向量；

根据每个所述子图片的文字表示向量，以及每个所述子图片中的文字在所述识别模型中的隐层表示向量，生成所述图结构中每个图节点的特征向量。

可选地，所述将待处理图片传输到检测模型，生成多个包含文字的子图片的步骤包括：

基于所述检测模型，对所述待处理图片中文字的位置进行识别；

根据所述文字的位置，对所述待处理图片进行划分，得到多个划分图片；

检测多个所述划分图片在所述待处理图片中的位置坐标，并将多个所述划分图片，以及与多个所述划分图片分别对应的位置坐标形成为多个包含文字的子图片。

进一步地，为实现上述目的，本发明还提供一种图片中文字的结构化信息生成装置，所述图片中文字的结构化信息生成装置包括：

构造模块，用于将待处理图片传输到检测模型，生成多个包含文字的子图片，并基于识别模型，将多个所述子图片构造为图结构，其中一个子图片对应所述图结构中的一个图节点；

生成模块，用于根据所述识别模型，生成所述图结构中每个图节点的特征向量，并将所述图结构中所有图节点的特征向量生成为所述图结构的特征矩阵；

处理模块，用于根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息。

进一步地，为实现上述目的，本发明还提供一种图片中文字的结构化信息生成设备，所述图片中文字的结构化信息生成设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的图片中文字的结构化信息生成程序，所述图片中文字的结构化信息生成程序被所述处理器执行时实现如上述所述的图片中文字的结构化信息生成方法的步骤。

进一步地，为实现上述目的，本发明还提供一种介质，所述介质上存储有图片中文字的结构化信息生成程序，所述图片中文字的结构化信息生成程序被处理器执行时实现如上所述的图片中文字的结构化信息生成方法的步骤。

本发明的图片中文字的结构化信息生成方法、装置、设备及计算机介质，预先设置有检测模型、识别模型和图卷积神经网络，在图片中文字的结构化信息生成过程中，先将具有处理需求的待处理图片传输到检测模型，通过检测模型的处理生成多个包含文字的子图片，并由识别模型将多个子图片构造为图结构，一个子图片对应图结构中的一个图节点；再由识别模型生成图结构中每个图节点的特征向量，并将所有图节点的特征向量生成为图结构的特征矩阵；进而通过图卷积神经网络模型，对特征矩阵和图结构的邻接矩阵进行处理，得到待处理图片中文字的结构化信息。通过将包含文字的子图片构建为图结构，由图卷积神经网络模型来对图结构的特征矩阵和邻接矩阵进行处理，得到待处理图片中文件的结构化信息，避免通过一系列规则来对待处理图片中的文字进行结构化处理，确保了所生成结构化信息的准确性。

附图说明

图1为本发明图片中文字的结构化信息生成设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明图片中文字的结构化信息生成方法第一实施例的流程示意图；

图3为本发明图片中文字的结构化信息生成装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种图片中文字的结构化信息生成设备，参照图1，图1为本发明图片中文字的结构化信息生成设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，该图片中文字的结构化信息生成设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的图片中文字的结构化信息生成设备的硬件结构并不构成对图片中文字的结构化信息生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图片中文字的结构化信息生成程序。其中，操作系统是管理和控制图片中文字的结构化信息生成设备与软件资源的程序，支持网络通信模块、用户接口模块、图片中文字的结构化信息生成程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的图片中文字的结构化信息生成设备硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的图片中文字的结构化信息生成程序，并执行以下操作：

进一步地，所述基于识别模型，将多个所述子图片构造为图结构的步骤包括：

进一步地，所述根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息的步骤包括：

进一步地，所述对所述特征矩阵和所述邻接矩阵基于所述邻近权重进行卷积处理，生成所述图结构的结果表示矩阵的步骤包括：

进一步地，所述根据所述结果表示矩阵，生成所述待处理图片中文字的结构化信息的步骤包括：

进一步地，所述根据所述识别模型，生成所述图结构中每个图节点的特征向量的步骤包括：

进一步地，所述将待处理图片传输到检测模型，生成多个包含文字的子图片的步骤包括：

本发明图片中文字的结构化信息生成设备的具体实施方式与下述图片中文字的结构化信息生成方法各实施例基本相同，在此不再赘述。

本发明还提供一种图片中文字的结构化信息生成方法。

参照图2，图2为本发明图片中文字的结构化信息生成方法第一实施例的流程示意图。

本发明实施例提供了图片中文字的结构化信息生成方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例中的图片中文字的结构化信息生成方法包括：

步骤S10，将待处理图片传输到检测模型，生成多个包含文字的子图片，并基于识别模型，将多个所述子图片构造为图结构，其中一个子图片对应所述图结构中的一个图节点；

本实施例中的图片中文字的结构化信息生成方法应用于服务器，通过服务器来识别图片中的文字及其类别，并生成结构化信息，结构化信息为以“类别标签-文字”对形式存在的信息。并且，图片优选为证件图片，如身份证图片、驾驶证图片、护照图片等；通过识别其中的文字以及各项文字的类别来生成结构化信息，如姓名-张三、性别-男的结构化信息。

服务器中预先设置有经训练的检测模型，检测模型用于将一张完整的图片划分为多张子图片。将需要处理的该类图片作为待处理图片上传到服务器，由服务器传输到检测模型。检测模型对待处理图片中文字的位置进行检测，并根据文字的位置将待处理图片划分为多个子图片，划分的每个子图片中均包含有文字。

进一步地，服务器中还预先设置有经训练的识别模型，识别模型用于将多张子图片构造为图结构，并识别各张子图片中的文字，生成为特征向量。在待处理图片经检测模型处理，生成包含文字的多张子图片后，即将各个子图片传输到识别模型，由识别模型依据各个子图片在原待处理图片中的位置信息，来构造图结构。构造时，先根据各个子图片的位置信息，查找邻近的子图片，再依据子图片及其邻近的子图片，来构造图结构。一个子图片作为图结构中的一个图节点，所有的子图片及其各自对应的邻近子图片之间的连线即构造成一个完整的图结构。

步骤S20，根据所述识别模型，生成所述图结构中每个图节点的特征向量，并将所述图结构中所有图节点的特征向量生成为所述图结构的特征矩阵；

更进一步地，识别模型对构造为图结构的各子图片中的文字进行识别，识别结果以向量的形式表示，生成为图结构中各图节点的特征向量。具体地，根据识别模型，生成图结构中每个图节点的特征向量的步骤包括：

步骤S21，根据所述识别模型，对每个所述子图片中的文字进行识别，得到每个所述子图片的文字表示向量；

步骤S22，根据每个所述子图片的文字表示向量，以及每个所述子图片中的文字在所述识别模型中的隐层表示向量，生成所述图结构中每个图节点的特征向量。

进一步地，识别模型为神经网络模型，其中包含有多个网络层，靠近输出层的为隐层。识别模型中的各个网络层逐一对每个子图片中的文字进行识别，得到最终的识别结果输出。该识别结果以向量的形式存在，本实例将其作为子图片的文字表示向量，且该文字表示向量可以以word2vec的向量表示，以可以以onehot表示，对此不做限制。此外，考虑到相对于隐层，输出层所输出的最终识别结果所包含用于表征文字的信息相对较少，为了更为准确的表征所识别的文字信息，本实施例设置将隐层的处理结果和最终处理结果结合来表征文字信息的机制。

具体地，获取每个子图片中的文字在识别模型中的隐层表示向量，该隐层表示向量即为识别模型的隐藏对子图片中的文字进行处理，所得到的向量结果。将每个子图片中的文字经识别模型处理得到的文字表示向量，以及每个子图片中的文字在识别模型中的隐层表示向量进行拼接，得到图结构中每个图节点的特征向量。其中，拼接的文字表示向量和隐层表示向量来源于同一个子图片，即将一个子图片的文字表示向量和隐层表示向量连接，向量的维数增加；如某一子图片的文字表示向量为200维，其隐层表示向量为100维，则拼接后得到表征该子图片中文字的向量为200维。将子图片拼接后得到的向量作为子图片在图结构中对应图节点的特征向量，以在图结构中准确体现其文字信息。

更进一步地，在图结构中所有图节点均生成特征向量，即将每个子图片的文字转换为特征向量表示后，将所有图节点的特征向量生成为图结构的特征矩阵，表征待处理图片中所具有的文字信息。其中，特征矩阵的矩阵行表征各个图节点，即子图片；矩阵列表征图节点的各个特征值，所有特征值即形成子图片中的文字信息。如对于待处理图片划分为100个子图片，且所形成每个图节点的特征向量为200维，则所生成的特征矩阵为100*200的矩阵，矩阵的每一个对应一个子图片及其所具有的文字信息。

步骤S30，根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息。

进一步地，服务器中还预先设置有图卷积神经网络，来对文字的类别要素进行识别，即识别各子图片中文字的类别。图卷积神经网络具有邻居聚合的迭代特性，基于该特性本实施例将在构造图结构过程中所确定的与每个子图片邻近的子图片中的文字信息，作为邻近的文字信息进行相互补充，以使得文字所属要素类别识别更为准确。

更进一步地，根据每一子图片与其他子图片之间的位置关系，生成图结构的邻接矩阵，通过图卷积神经网络，对该邻接矩阵和特征矩阵进行处理，处理的内容包括邻接矩阵与特征矩阵之间的乘积运算、线性降维处理和非线性处理等。因图卷积神经网络包含有多个网络层，在除最后的输出层之外，每一层均以上述处理方式进行处理，最后由输出层输出结果。该结果以矩阵形式存在，每个矩阵行对应一个子图片，由矩阵行中的数值来表征子图片中文字的类别。进而将子图片中的文字及其类别进行结构化处理，得到子图片中文字的结构化信息，在每个子图片均经结构化处理，则得到待处理图片中文字的结构化信息。

本发明的图片中文字的结构化信息生成方法，预先设置有检测模型、识别模型和图卷积神经网络，在图片中文字的结构化信息生成过程中，先将具有处理需求的待处理图片传输到检测模型，通过检测模型的处理生成多个包含文字的子图片，并由识别模型将多个子图片构造为图结构，一个子图片对应图结构中的一个图节点；再由识别模型生成图结构中每个图节点的特征向量，并将所有图节点的特征向量生成为图结构的特征矩阵；进而通过图卷积神经网络模型，对特征矩阵和图结构的邻接矩阵进行处理，得到待处理图片中文字的结构化信息。通过将包含文字的子图片构建为图结构，由图卷积神经网络模型来对图结构的特征矩阵和邻接矩阵进行处理，得到待处理图片中文件的结构化信息，避免通过一系列规则来对待处理图片中的文字进行结构化处理，确保了所生成结构化信息的准确性。

进一步地，基于本发明图片中文字的结构化信息生成方法的第一实施例，提出本发明图片中文字的结构化信息生成方法第二实施例。

所述图片中文字的结构化信息生成方法第二实施例与所述图片中文字的结构化信息生成方法第一实施例的区别在于，所述根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息的步骤包括：

步骤S31，根据所述图结构中各图节点之间的邻近关系，确定所述图结构的邻接矩阵，以及所述邻接矩阵中各矩阵行的邻近权重；

步骤S32，调用图卷积神经网络，对所述特征矩阵和所述邻接矩阵基于所述邻近权重进行卷积处理，生成所述图结构的结果表示矩阵；

本实施例在通过图卷积神经网络，对图结构的特征矩阵和邻接矩阵处理之前，先确定图结构的邻接矩阵。具体地，根据图结构中各图节点之间的邻近关系，来构建图结构的邻接矩阵。各图节点之间的邻近关系即为各子图片之间的邻近关系，根据各子图片在待处理图片中的位置信息，以及所设定的邻近条件，来确定与每一子图片邻近的其他子图片。当子图片之间的位置信息，满足邻近条件，则判定该类子图片具有邻近关系，反之则不具有邻近关系。在构建邻接矩阵时，将矩阵行和据阵列均设定为各个子图片，每个矩阵行即为一个子图片，每个矩阵行中的数值即表征该子图片与其他子图片之间的邻近关系。

进一步地，对于每个矩阵行中表征具有邻近关系的数值，依据位置信息所表征的远近不同而具有不同的数值大小。如对于100个子图片，所形成的100*100邻接矩阵中，第五个矩阵行所对应的子图片，与第一个据阵列、第二个据阵列和第三个据阵列所对应的子图片均邻近，而与其他矩阵列对应的子图片不邻近，则可将第五个矩阵行中，第4位到第100位的数值设定为0，第1位到第3位的数值则依据位置的远近，确定表征不同远近的数值；如确定出的数据为0.6、0.8、0.3，表征第五个矩阵行对应的子图片与第二个矩阵列对应的子图片之间的距离最近，而与第三个矩阵列对应的子图片之间的距离最远。将该表征不同远近的数值作为矩阵行的邻近权重，通过各个矩阵行的各个邻近权重来体现各子图片与其他子图片之间的距离远近。其中，邻近权重越大，子图片之间的距离越近。设定距离与邻近权重值之间的函数关系，如设定邻近权重与距离之间的反比关系，或者邻近权重与距离平方之间的反比例关系等；所确定的子图片之间的距离越小，经函数关系所得到的图片之间的邻近权重越大。

更进一步地，在依据图结构中各图节点之间的邻近关系，确定图结构的邻接矩阵及其各矩阵行的邻近权重之后，则可在邻近权重的基础上，通过图卷积神经网络，来对特征矩阵和邻接矩阵进行卷积处理。在图卷积神经网络的各网络层均进行卷积处理之后，则生成图结构的结果表示矩阵。具体地，对特征矩阵和邻接矩阵基于邻近权重进行卷积处理，生成图结构的结果表示矩阵的步骤包括：

步骤S321，根据所述邻近权重，对所述特征矩阵和所述邻接矩阵进行权重运算，生成中间矩阵；

步骤S322，根据所述图卷积神经网络的层权重，对所述中间矩阵进行线性降维，生成降维矩阵；

步骤S323，根据所述图卷积神经网络的激活函数，对所述降维矩阵进行非线性处理，生成新的特征矩阵，完成在所述图卷积神经网络中一个网络层的卷积处理；

步骤S324，将新的特征矩阵传输到图卷积神经网络中下一个网络层进行卷积处理，直到完成在图卷积神经网络中各网络层的卷积处理，生成卷积矩阵；

步骤S325，在根据图卷积神经网络的预设函数，确定所述卷积矩阵中每个矩阵行所包含数值中的最大值后，将所述卷积矩阵确定为所述图结构的结果表示矩阵。

进一步地，本实施例生成图结构的结果表示矩阵的过程，可通过公式(1)进行表征，公式(1)为：

其中，Z为结果表示矩阵，softmax()为归一化指数函数，RELU()为激活函数，

为邻接矩阵，X为特征矩阵，W⁽ⁱ⁾为各网络层的权重值。

具体地，在通过公式(1)生成图结构的结果表示矩阵的过程中，先由邻近权重，对特征矩阵X和邻接矩阵

进行权重运算。以邻近矩阵中的每一矩阵行为计算单元，确定每一矩阵行中表征具有邻近关系的数值，进而根据表征具有邻近关系的数值所在的据阵列，确特征矩阵中所需要计算的目标据阵行，通过表征具有邻近关系的数值，对目标矩阵行进行加权后，再对各目标矩阵行中的数值进行加和处理，完成邻近矩阵中一个矩阵行的处理，实现对特征矩阵中与该处理矩阵行所对应矩阵行的更新。如对于上述第五个矩阵行中第1位到第3位的数值分别为0.6、0.8、0.3的情况，第五个矩阵行所对应的子图片，与第一个据阵列、第二个据阵列和第三个据阵列所对应的子图片邻近，且与三者之间的邻近权重分别为0.6、0.8和0.3。从而将特征矩阵中表征该邻近子图片的第一矩阵行、第二矩阵行和第三矩阵行，确定为目标数据行进行计算；用各自的邻近权重分别对各矩阵行中数值进行加权处理，再将加权处理后各矩阵行中的数值相加，即用0.6乘以第一矩阵行的数据、用0.8乘以第二矩阵行的数据、用0.3乘以第三矩阵行的数据，再对各自相乘后的数据进行加和，得到一组新的数据，用该数据对特征矩阵中第五矩阵行的原始数据进行替换，实现第五矩阵行的更新。

进一步地，在邻近矩阵中各矩阵行均处理完成后，即完成对特征矩阵中各矩阵行的更新，实现上述公式(1)中

的处理，将次更新后的特征矩阵作为中间矩阵，并在当前网络层进行降维处理。具体地，图卷积神经网络中的各网络层均设置有各自的层权重，上述作为网络层权重值的W⁽ⁱ⁾即为层权重，i取值的不同对应不同的网络层，具有不同的层权重。在图卷积神经网络的某一网络层对特征矩阵和邻接矩阵进行运算，得到中间矩阵后，对该网络层所具有的层权重和中间矩阵进行运算，对中间矩阵进行线性降维，实现公式(1)中

的运算，得到降维矩阵。

更进一步地，图卷积神经网络中设置有激活函数，通过该激活函数对降维矩阵进行非线性处理，所得到的结果为一个新的特征矩阵，如公式(1)中

的计算结果即为一个新的特征矩阵X，以此，完成在图卷积神经网络中一个网络层的卷积处理。

进一步地，根据图卷积神经网络中各网络层之间的连接关系，将新的特征矩阵X传输到下一个网络层，通过邻接矩阵以及下一个网络层的层权重中继续进行卷积处理，直到图卷积神经网络中的各网络层均对传输的特征矩阵进行了卷积处理，生成卷积矩阵。需要说明的是，图卷积神经网络对各网络层的卷积处理不包含最后的输出层，即输出层不进行卷积处理，而用于输出最终的结果。

更进一步地，图卷积神经网络中设置有预设函数，如公式(1)中的softmax()所示，预设函数用于确定向量行中的最大数值，当然也可以设定为其他可实现最大数值确定的函数。在得到卷积矩阵后，调用该预设函数对卷积矩阵中每个矩阵行的最大值进行确定，并在确定各矩阵行最大值后，将卷积矩阵作为图结构的结果表示矩阵，即图卷积神经网络对特征矩阵处理所得到的最终处理结果。其中最大值表征了矩阵行对应子图片中文字所归属类别的最大可能性，因而可通过各矩阵行各自的最大值，来确定各矩阵行对应文字的类别。

步骤S33，根据所述结果表示矩阵，生成所述待处理图片中文字的结构化信息。

进一步地，在得到结果表示矩阵后，即可依据该结果表示矩阵中的各矩阵行，来生成待处理图片中文字的结构化信息。具体地，根据结果表示矩阵，生成待处理图片中文字的结构化信息的步骤包括：

步骤S331，根据所述结果表示矩阵中每个矩阵行所包含数值中的最大值，预测与各所述图节点对应的要素标签；

步骤S332，获取与各所述图节点分别对应的子图片中的文字信息，并根据各所述要素标签和各所述文字信息，生成标签文字对，以得到所述待处理图片中文字的结构化信息。

可理解地，矩阵行中的各个数值排列形成结果表示矩阵的矩阵列，不同的矩阵列对应不同的类别。结果表示矩阵中每个矩阵行均对应一个子图片，矩阵行的数值不同，表征其对应子图片中文字的类别不同；数值越大，子图片中文字属于该数值所在列对应类别的可能性越大。在将卷积矩阵确定为图结构的结果表示矩阵后，卷积矩阵中每个矩阵行所包含数值中的最大值即为结果表示矩阵中每个矩阵行所包含数值中的最大值。将矩阵列对应的类别设置为以要素标签的形式存在，对每个矩阵行所包含数据中最大值对应的要素标签进行查找，该最大值对应的要素标签表征了子图片归属类别的最大可能性，故而将其预测为图节点对应的要素标签。

进一步地，对各个图节点所对应子图片的文字信息进行获取，进而依据各个图节点所对应的文字信息以及各自对应的要素标签，生成标签文字对。在所有图节点对应的文字信息以及各自对应的要素标签，均生成为标签文字对后，即形成待处理图片中文字的结构换信息，实现图片中文字的结构化信息的生成。

本实施例依据图卷积神经网络中的多个网络层，对特征矩阵和邻接矩阵进行多次迭代处理，邻接矩阵表征了各子图片之间的邻近关系，通过邻近的文字对每次迭代处理进行补充，确保经图卷积神经网络处理得到的结果表示矩阵的准确性，进而有利于依据结果表示矩阵，准确生成待处理图片中文字的结构化信息。

进一步地，基于本发明图片中文字的结构化信息生成方法的第一或第二实施例，提出本发明图片中文字的结构化信息生成方法第三实施例。

所述图片中文字的结构化信息生成方法第三实施例与所述图片中文字的结构化信息生成方法第一或第二实施例的区别在于，所述将待处理图片传输到检测模型，生成多个包含文字的子图片的步骤包括：

步骤S11，基于所述检测模型，对所述待处理图片中文字的位置进行识别；

步骤S12，根据所述文字的位置，对所述待处理图片进行划分，得到多个划分图片；

步骤S13，检测多个所述划分图片在所述待处理图片中的位置坐标，并将多个所述划分图片，以及与多个所述划分图片分别对应的位置坐标形成为多个包含文字的子图片。

本实施例在将多个子图片构造为图结构的过程中，先由检测模型来得到多个子图片。具体地，将需要处理的待处理图片传输动检测模型，通过检测模型来识别其中文字的位置，该文字的位置包括文字所在的位置，以及一段文字与另一段文字之间的间隔位置。在得到文字的位置之后，则对待处理图片进行划分，将一段文字划分到一个图片中，另一段文字划分到另一个图片中，得到多个划分图片。

进一步地，在待处理图片上建立坐标系，通过检测模型检测各划分图片在坐标系中的坐标；该坐标包含划分图片四个顶点的坐标值，将其作为在待处理图片中的位置坐标。进而将各个划分图片以及各个划分图片具有的位置坐标形成为多个包含文字的子图片，各个子图片均携带有四个顶点的坐标值，以供识别模型，通过位置坐标所表征的位置信息来将多个子图片构造为图结构。其中，基于识别模型，将多个子图片构造为图结构的步骤包括：

步骤S14，基于所述识别模型对每个所述子图片的位置坐标进行计算，获得每个所述子图片的中心点，并针对每个所述子图片执行以下步骤：

步骤S15，计算所述子图片的中心点分别与其他子图片的中心点之间的距离；

步骤S16，根据各所述距离之间的大小关系，从其他子图片中确定出与所述子图片具有邻近关系的目标子图片；

步骤S17，在确定出与各个所述子图片分别具有邻近关系的目标子图片后，对所有所述目标子图片的中心点进行连接，形成所述图结构。

更进一步地，识别模型对每个子图片的位置坐标进行计算，得到每个子图片中心点的坐标，进而针对每个子图片，均计算与其他子图片的中心点之间的距离。即以一个子图为计算单位，计算该子图片的中心点分别与其他子图片的中心点之间的各个距离，进而依据各个距离之间的大小关系，从其他子图片中确定出与该子图片之间具有邻近关系的目标子图片。设定所需求的邻近数量，将各个距离按照从大到小的顺序排列，并从排列的各距离中选取出排列在前列的其他子图片作为目标子图片，所选取的数量等于邻近数量。此外，还可设置表征邻近关系的预设阈值，将各个距离分别和该预设阈值对比，以查找各距离中小于预设阈值的距离；进而将生成该小于预设阈值的距离的其他子图片作为目标子图片，表征与子图片之间具有邻近关系。

进一步地，在各个子图片均确定出与各自具有邻近关系的目标子图片后，对所有目标子图片的中心点进行连接，形成图结构。其中，一个目标子图片形成图结构中的一个图节点，以将多个目标子图片构造为图结构。

本实施例通过检测各子图片的位置坐标，并依据各自的位置坐标来确定具有邻近关系的目标子图片，进而由目标子图片构造图结构。实现将邻近的文字补充至由图结构中，使得对图结构的邻接矩阵和特征矩阵处理所得到的结果表示矩阵的更为准确，有利于依据结果表示矩阵，准确生成待处理图片中文字的结构化信息。

本发明还提供一种图片中文字的结构化信息生成装置。

参照图3，图3为本发明图片中文字的结构化信息生成装置第一实施例的功能模块示意图。所述图片中文字的结构化信息生成装置包括：

构造模块10，用于构造模块，用于将待处理图片传输到检测模型，生成多个包含文字的子图片，并基于识别模型，将多个所述子图片构造为图结构，其中一个子图片对应所述图结构中的一个图节点；

生成模块20，用于根据所述识别模型，生成所述图结构中每个图节点的特征向量，并将所述图结构中所有图节点的特征向量生成为所述图结构的特征矩阵；

处理模块30，用于根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息。

进一步地，所述构造模块10还包括：

处理单元，用于基于所述识别模型对每个所述子图片的位置坐标进行计算，获得每个所述子图片的中心点，并针对每个所述子图片执行以下步骤：

计算单元，用于计算所述子图片的中心点分别与其他子图片的中心点之间的距离；

第一确定单元，用于根据各所述距离之间的大小关系，从其他子图片中确定出与所述子图片具有邻近关系的目标子图片；

连接单元，用于在确定出与各个所述子图片分别具有邻近关系的目标子图片后，对所有所述目标子图片的中心点进行连接，形成所述图结构。

进一步地，所述处理模块30包括：

第二确定单元，用于根据所述图结构中各图节点之间的邻近关系，确定所述图结构的邻接矩阵，以及所述邻接矩阵中各矩阵行的邻近权重；

调用单元，用于调用图卷积神经网络，对所述特征矩阵和所述邻接矩阵基于所述邻近权重进行卷积处理，生成所述图结构的结果表示矩阵；

第一生成单元，用于根据所述结果表示矩阵，生成所述待处理图片中文字的结构化信息。

进一步地，所述调用单元还用于：

进一步地，所述第一生成单元还用于：

进一步地，所述生成模块20还包括：

第一识别单元，用于根据所述识别模型，对每个所述子图片中的文字进行识别，得到每个所述子图片的文字表示向量；

第二生成单元，用于根据每个所述子图片的文字表示向量，以及每个所述子图片中的文字在所述识别模型中的隐层表示向量，生成所述图结构中每个图节点的特征向量。

进一步地，所述生成模块20还包括：

第二识别单元，用于基于所述检测模型，对所述待处理图片中文字的位置进行识别；

划分单元，用于根据所述文字的位置，对所述待处理图片进行划分，得到多个划分图片；

检测单元，用于检测多个所述划分图片在所述待处理图片中的位置坐标，并将多个所述划分图片，以及与多个所述划分图片分别对应的位置坐标形成为多个包含文字的子图片。

本发明图片中文字的结构化信息生成装置具体实施方式与上述图片中文字的结构化信息生成方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种介质。

介质上存储有图片中文字的结构化信息生成程序，图片中文字的结构化信息生成程序被处理器执行时实现如上所述的图片中文字的结构化信息生成方法的步骤。

本发明介质可以是计算机可读存储介质，其具体实施方式与上述图片中文字的结构化信息生成方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种图片中文字的结构化信息生成方法，其特征在于，所述图片中文字的结构化信息生成方法包括以下步骤：

2.如权利要求1所述的图片中文字的结构化信息生成方法，其特征在于，所述基于识别模型，将多个所述子图片构造为图结构的步骤包括：

3.如权利要求1所述的图片中文字的结构化信息生成方法，其特征在于，所述根据图卷积神经网络，对所述特征矩阵和所述图结构的邻接矩阵进行处理，生成所述待处理图片中文字的结构化信息的步骤包括：

4.如权利要求3所述的图片中文字的结构化信息生成方法，其特征在于，所述对所述特征矩阵和所述邻接矩阵基于所述邻近权重进行卷积处理，生成所述图结构的结果表示矩阵的步骤包括：

5.如权利要求3所述的图片中文字的结构化信息生成方法，其特征在于，所述根据所述结果表示矩阵，生成所述待处理图片中文字的结构化信息的步骤包括：

6.如权利要求1-5任一项所述的图片中文字的结构化信息生成方法，其特征在于，所述根据所述识别模型，生成所述图结构中每个图节点的特征向量的步骤包括：

7.如权利要求1-5任一项所述的图片中文字的结构化信息生成方法，其特征在于，所述将待处理图片传输到检测模型，生成多个包含文字的子图片的步骤包括：

8.一种图片中文字的结构化信息生成装置，其特征在于，所述图片中文字的结构化信息生成装置包括：

9.一种图片中文字的结构化信息生成设备，其特征在于，所述图片中文字的结构化信息生成设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的图片中文字的结构化信息生成程序，所述图片中文字的结构化信息生成程序被所述处理器执行时实现如权利要求1-7中任一项所述的图片中文字的结构化信息生成方法的步骤。

10.一种介质，其特征在于，所述介质上存储有图片中文字的结构化信息生成程序，所述图片中文字的结构化信息生成程序被处理器执行时实现如权利要求1-7中任一项所述的图片中文字的结构化信息生成方法的步骤。