CN111615702A

CN111615702A - 一种从图像中提取结构化数据的方法、装置和设备

Info

Publication number: CN111615702A
Application number: CN201880029640.1A
Authority: CN
Inventors: 叶奕斌; 朱声高; 王晶; 杜奇; 梁辉; 涂丹丹
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2020-09-01
Anticipated expiration: 2038-12-07
Also published as: EP3869385A4; EP3869385B1; US20210295114A1; EP3869385A1; WO2020113561A1; CN111615702B

Abstract

本申请公开了一种从图像中提取结构化数据的方法，该方法包括：利用图像文字提取模型获取所述图像中的第一信息集合和第二信息集合,所述图像中包括至少一条结构化数据；根据所述第一信息集合包括的至少一个第一信息获取所述图像中的至少一个文字子图像；识别所述至少一个文字子图像中的文字信息；根据所述至少一个文字子图像中的文字信息与所述第二信息集合包括的至少一个第二信息，获得所述图像中的至少一条结构化数据。通过利用图像文字提取模型和文字识别模型，提升了结构化数据提取的效率和准确率。

Description

一种从图像中提取结构化数据的方法、装置和设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种从图像中提取结构化数据的方法、用于执行该方法的装置和计算设备。

背景技术

随着人工智能和大数据浪潮的来袭，对图像中的结构化数据进行提取成为了一大研究的热点，经提取的结构化数据便于在数据库中保存和使用。目前，结构化数据提取方案广泛地应用于各大企业的资源管理系统、账单系统，医院的医疗信息管理系统，教育一卡通系统等。

传统的结构化数据提取是对图像进行文字检测和文字识别后的一项单独的技术，因此结构化数据提取的准确率在很大程度上会受到前部分文字识别的准确率的影响，这导致对于版面较复杂的图像结构化数据提取的准确率不高。另一方面，传统从输入图像到完成结构化数据提取的过程消耗的计算资源多、时间长。

发明内容

本申请提供了一种从图像中提取结构化数据的方法，该方法通过利用图像文字提取模型和文字识别模型，提升了结构化数据提取的效率和准确率。

第一方面，本申请提供了一种从图像中提取结构化数据的方法，该方法由计算设备系统执行，所述方法包括：利用图像文字提取模型获取所述图像中的第一信息集合和第二信息集合,所述图像中包括至少一条结构化数据；根据所述第一信息集合包括的至少一个第一信息获取所述图像中的至少一个文字子图像；识别所述至少一个文字子图像中的文字信息；根据所述至少一个文字子图像中的文字信息与所述第二信息集合包括的至少一个第二信息，获得所述图像中的至少一条结构化数据。利用所述方法从图像中提取结构化数据无需依次经过文字位置检测、文字识别和结构化数据提取三个模型，只需结合图像文字提取模型输出的文字属性信息和文字识别模型输出的文字信息即可获得结构化数据，提高了结构化数据提取的效率，且避免了结构化数据提取的准确率受到多个模型误差叠加的影响，提升了结构化数据提取的准确率。

第一方面的一种可能的实现方式中，所述至少一个第一信息指示文字位置信息，所述文字位置信息表示所述至少一个文字子图像在所述图像中的位置；所述至少一个第二信息指示文字属性信息，所述文字属性信息表示所述至少一个文字子图像中文字信息的属性；每条结构化数据包括：所述文字属性信息和所述文字信息。

第一方面的一种可能的实现方式中，所述图像文字提取模型包括主干网络、至少一个特征融合子网络、至少一个分类子网络和至少一个边框回归子网络；所述利用图像文字提取模型获取所述图像中的第一信息集合和第二信息集合包括：将所述图像输入所述主干网络，通过所述主干网络对所述图像进行特征提取，输出至少一个特征张量；将所述主干网络输出的每个特征张量输入一个特征融合子网络，通过所述特征融合子网络获得所述特征张量对应的融合特征张量；将所述融合特征张量输入一个分类子网络和一个边框回归子网络；所述边框回归子网络根据所述融合特征张量对应的第一候选框执行对所述图像中文字子图像在所述图像中的位置的定位，获取所述至少一个第一信息；所述分类子网络根据所述融合特征张量对应的第二候选框执行对所述图像中文字属性的分类，获取所述至少一个第二信息。所述图像文字提取模型实质为一个多分类深度神经网络，其输出文字属性信息和文字位置信息对于提取结构化数据起到了关键作用，提升了结构化数据提取的效率。

第一方面的一种可能的实现方式中，每个特征融合子网络包括至少一个并列的卷积层和融合器；所述将所述主干网络输出的每个特征张量输入一个特征融合子网络，通过所述特征融合子网络获得所述特征张量对应的融合特征张量包括：将所述主干网络输出的所述特征张量输入所述至少一个并列的卷积层中的每一个卷积层；将所述至少一个并列的卷积层中各卷积层的输出输入所述融合器；所述融合器融合所述至少一个并列的卷积层中各卷积层的输出，输出所述特征张量对应的融合特征张量。所述特征融合子网络将主干网络输出的每一个特征张量进行了进一步的特征提取和融合，提升了整个图像文字提取模型的准确率。

第一方面的一种可能的实现方式中，边框回归子网络根据所述融合特征张量对应的第一候选框执行对所述图像中文字子图像在所述图像中的位置的定位，获取所述至少一个第一信息还包括：根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第一候选框。

第一方面的一种可能的实现方式中，分类子网络根据所述融合特征张量对应的第二候选框执行对所述图像中文字属性的分类，获取所述至少一个第二信息还包括：根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第二候选框。

根据上述方法获得的所述第一候选框和第二候选框的形状更符合文字区域的特点，提高了获取的文字位置信息和文字属性信息的准确率。

第二方面，本申请提供了一种训练图像文字提取模型的方法，所述方法包括：初始化图像文字提取模型中的参数；图像文字提取模型读取训练数据集中的训练图像；主干网络对训练图像进行特征提取，输出至少一个特征张量；将主干网络输出的每个特征张量输入特征融合子网络，所述特征融合子网络输出对应的融合特征张量；所述每个融合特征张量分别输入分类子网络和边框回归子网络，分类子网络和边框回归子网络对每个融合特征张量进行候选区域映射，对每个融合特征张量对应的候选区域进行预测；根据预测的结果与训练图像标注的结果之间的损失函数，对图像文字提取模型中的参数进行更新。

第二方面的一种可能实现方式中，所述训练数据集中的训练图像中包括至少一条结构化数据；所述训练图像的某些文字区域被带有属性信息的框进行标注。

第二方面的一种可能实现方式中，所述每个特征融合子网络包括至少一个并列的卷积层和至少一个融合器；所述将所述主干网络输出的每个特征张量输入一个特征融合子网络，通过所述特征融合子网络获得所述特征张量对应的融合特征张量包括：将所述主干网络输出的所述特征张量输入所述至少一个并列的卷积层中的每一个卷积层；将所述至少一个并列的卷积层中各卷积层的输出输入所述融合器；所述融合器融合所述至少一个并列的卷积层中各卷积层的输出，输出所述特征张量对应的融合特征张量。

第二方面的一种可能实现方式中，根据预测的结果与训练图像标注的结果之间的损失函数，对图像文字提取模型中的参数进行更新包括：根据分类子网络输出的文字属性预测结果计算所述文字属性预测结果与训练图像真实文字属性标注之间的差异，得到文字属性损失函数值，根据所述文字属性损失函数值对图像文字提取模型中的参数进行更新。

第二方面的一种可能实现方式中，根据预测的结果与训练图像标注的结果之间的损失函数，对图像文字提取模型中的参数进行更新包括：根据边框回归子网络输出的文字位置预测结果计算所述文字位置预测结果与训练图像真实文字位置标注之间的差异，得到文字位置损失函数值，根据所述文字位置损失函数值对图像文字提取模型中的参数进行更新。

第三方面，本申请提供了一种从图像中提取结构化数据的装置，所述装置包括图像文字提取模型，用于获取所述图像中的第一信息集合和第二信息集合，所述图像中包括至少一条结构化数据；文字子图像截取模块，用于根据所述第一信息集合包括的至少一个第一信息获取所述图像中的至少一个文字子图像；文字识别模型，用于识别所述至少一个文字子图像中的文字信息；结构化数据构成模块，用于根据所述至少一个文字子图像中的文字信息与所述第二信息集合中包括的至少一个第二信息结合，获得所述图像中的至少一条结构化数据。利用所述装置从图像中提取结构化数据无需依次经过文字位置检测、文字识别和结构化数据提取三个模型，只需结合图像文字提取模型输出的文字属性信息和文字识别模型输出的文字信息即可获得结构化数据，提高了结构化数据提取的效率，且避免了结构化数据提取的准确率受到多个模型误差叠加的影响，提升了结构化数据提取的准确率。

第三方面的一种可能的实现方式中，所述至少一个第一信息指示文字位置信息，所述文字位置信息表示所述至少一个文字子图像在所述图像中的位置；所述至少一个第二信息指示文字属性信息，所述文字属性信息表示所述至少一个文字子图像中文字信息的属性；每条结构化数据包括：所述文字属性信息和所述文字信息。

第三方面的一种可能的实现方式中，所述图像文字提取模型包括主干网络、至少一个特征融合子网络、至少一个分类子网络和至少一个边框回归子网络；所述图像文字提取模型用于将所述图像输入所述主干网络，所述主干网络用于对所述图像进行特征提取，输出至少一个特征张量；将所述主干网络输出的每个特征张量输入一个特征融合子网络，所述特征融合子网络用于获得所述特征张量对应的融合特征张量；将所述融合特征张量输入一个边框回归子网络和一个分类子网络；所述边框回归子网络用于根据所述融合特征张量对应的第一候选框执行对所述图像中文字子图像在所述图像中的位置的定位，获取所述至少一个第一信息；所述分类子网络用于根据所述融合特征张量对应的第二候选框执行对所述图像中文字属性的分类，获取所述至少一个第二信息。

第三方面的一种可能的实现方式中，每个特征融合子网络包括至少一个并列的卷积层和融合器；所述特征融合子网络用于将所述主干网络输出的所述特征张量输入所述至少一个并列的卷积层中的每一个卷积层；将所述至少一个并列的卷积层中各卷积层的输出输入所述融合器；其中，所述融合器用于融合所述至少一个并列的卷积层中各卷积层的输出，输出所述特征张量对应的融合特征张量。所述特征融合子网络将主干网络输出的每一个特征张量进行了进一步的特征提取和融合，提升了整个图像文字提取模型的准确率。

第三方面的一种可能的实现方式中，所述边框回归子网络还用于根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第一候选框。

第三方面的一种可能的实现方式中，所述分类子网络还用于根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第二候选框。

第四方面，本申请还提供了一种训练图像文字提取模型的装置，所述装置包括：初始化模块、图像文字提取模型、反向激励模块和存储模块，用于实现第二方面或第二方面的任意一种可能的实现方式提供的方法。

第五方面，本申请提供了一种计算设备系统，该计算设备系统包括至少一个计算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第六方面，本申请还提供了一种计算设备系统，该计算设备系统包括至少一个计算设备。每个计算设备包括存储器和处理器。至少一个计算设备的处理器用于访问所述存储器中的代码以执行第二方面或第二方面的任意一种可能的实现方式提供的方法。

第七方面，本申请提供了一种非瞬态的可读存储介质，所述非瞬态的可读存储介质被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(英文：hard disk drive，缩写：HDD)、固态硬盘(英文：solid state drive，缩写：SSD)。

第八方面，本申请还提供了一种非瞬态的可读存储介质，所述非瞬态的可读存储介质被计算设备执行时，所述计算设备执行前述第二方面或第二方面的任意可能的实现方式中提供的方法。该存储介质中存储了程序。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(英文：hard disk drive，缩写：HDD)、固态硬盘(英文：solid state drive，缩写：SSD)。

第九方面，本申请提供了一种计算设备程序产品，所述计算设备程序产品包括计算机指令，在被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

第十方面，本申请还提供了另一种计算设备程序产品，所述计算设备程序产品包括计算机指令，在被计算设备执行时，所述计算设备执行前述第二方面或第二方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第二方面或第二方面的任意可能的实现方式中提供的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的另一种系统架构示意图；

图3为本申请实施例提供的一种图像文字提取模型的结构示意图；

图4为本申请实施例提供的主干网络输出N个特征张量的示意图；

图5为本申请实施例提供的特征融合子网络的结构示意图；

图6为本申请实施例提供的图像文字提取模型训练的流程示意图；

图7为本申请实施例提供的一种结构化数据提取方法的流程示意图；

图8为本申请实施例提供的一种装置300的示意图；

图9为本申请实施例提供的另一种装置400的示意图；

图10为本申请实施例提供的一种计算设备系统中计算设备500的示意图；

图11为本申请实施例提供的另一种计算设备系统中计算设备600的示意图；

图12为本申请实施例提供的另一种计算设备系统中计算设备700的示意图。

具体实施方式

下面将结合本申请中的附图，对本申请提供的实施例中的方案进行描述。

本申请实施例中的“W”、“H”、“K”、“L”、“N”等字母之间不具有逻辑或大小上的依赖关系，仅用于举例表述“多个”的概念。

如图1所示，本申请实施例提供的从图像中提取结构化数据的方法由结构化数据提取装置执行。所述结构化数据提取装置可以运行在云计算设备系统(包括至少一个云计算设备，例如：服务器等)，也可以运行在边缘计算设备系统(包括至少一个边缘计算设备，例如：服务器、台式电脑等)，也可以运行在各种终端计算设备上，例如：智能手机、笔记本电脑、平板电脑、个人台式电脑、智能打印机等。

如图2所示，所述结构化数据提取装置包括多个部分(例如：结构化数据提取装置包括初始化模块、存储模块、图像文字提取模型、文字识别模型等)，该装置的各部分可以分别运行在云计算设备系统、边缘计算设备系统或终端计算设备这三个环境中，也可以运行在这三个环境中的任意两个中(例如：结构化数据提取装置的一部分运行在云计算设备系统，另一部分运行在终端计算设备)。云计算设备系统、边缘计算设备系统和终端计算设备之间由通信通路连接，可以互相进行通信和数据传输。本申请实施例提供的结构化数据提取方法由运行在三个环境(或三个环境中的任意两个)中的结构化数据提取装置的各部分组合执行。

结构化数据提取装置工作于两个时间状态下，这两个时间状态分别为训练态和推理态。训练态和推理态具有时序上的前后关系，训练态在推理态之前。在训练态，结构化数据提取装置执行对图像文字提取模型和文字识别模型的训练操作(或仅执行对图像文字提取模型的训练操作)，训练完成的图像文字提取模型和文字识别模型用于推理态的推理。在推理态，结构化数据提取装置执行推理操作，完成对待推理的图像中结构化数据的提取。

下面介绍图像文字提取模型的结构，如图3所示，图像文字提取模型是一种多分类深度神经网络，包括：主干网络、至少一个特征融合子网络、至少一个分类子网络和至少一个边框回归子网络。

主干网络包括至少一个卷积层，用于对输入图像进行特征张量的提取，所述特征张量包括若干个数值。主干网络可以采用业界现有的一些模型结构，例如：VGG、Resnet、Densenet、mobilenet等。主干网络中的卷积层包括若干个卷积核，每个卷积核包括若干个参数，其中不同卷积层包括的卷积核个数可以不同，每一个卷积层包括的卷积核个数决定了输入图像(或特征张量)经过与该卷积层的卷积核进行卷积操作后输出的特征张量的通道数，例如：尺度为W*H*L的特征张量(其中，W表示特征张量的宽度，H表示特征张量的高度，L表示特征张量的通道数，W、H和L均为大于0的自然数)，经过与卷积层中J个1*1的卷积核进行卷积后，该卷积层输出的特征张量尺度为W*H*J(J为大于0的自然数)。输入图像经主干网络后可输出一个特征张量，也可以输出多个特征张量。如图4所示，以Resnet作为主干网络为例，Resnet一共有S(S为大于0的自然数)个卷积层，其输出为尺寸不同的N(N为大于0且小于或等于S的自然数)个特征张量，所述N个特征张量由主干网络的第S-N+1层至第S层输出的特征张量自顶向下进行计算得到，具体是：主干网络输出的N个特征张量中的第1个特征张量为主干网络第S层的输出，主干网络输出N个特征张量中的第2个特征张量由主干网络第S-1层输出的前向特征张量经1*1卷积后与前述第1个特征张量经上采样后获得的后向特征张量对应相加得到，同理，第n个特征张量由主干网络第S-n+1层输出的前向特征张量经1*1卷积后与已得到的第n-1个特征张量经上采样后的后向特征张量对应相加得到。

每个特征融合子网络的输入是主干网络输出的N个特征张量中的一个，如图5所示，特征融合子网络包括至少一个并列的卷积层或空洞卷积层和一个融合器。所述至少一个并列的卷积层或空洞卷积层中卷积核的大小可以不同，但数量相同，且每个并列的卷积层输出的特征张量具有相同的尺寸。将所述至少一个并列的卷积层输出的特征张量输入融合器，即可得到融合后的融合特征张量。特征融合子网络将主干网络输出的每一个特征张量与至少一个卷积层中的卷积核进行卷积后再进行融合，更好地提取了输入图像中的对应特征，得到每个融合特征张量再作为图像文字提取模型中后续网络的输入，可提升整个图像文字提取模型在推理态时对图像中的文字位置信息和文字属性信息提取的准确率。例如：在特征融合子网络中可并列三个卷积层，每个卷积层分别进行3*3卷积、1*5卷积、2倍3*3空洞卷积，得到的三个特征张量可通过对应相加的方式融合成一个融合特征张量。

每个分类子网络的输入是每个特征融合子网络输出的融合特征张量。在分类子网络中，输入的融合特征张量中每一个特征点(即融合特征张量中每一个数值对应的位置)对应于图像文字提取模型的输入图像上的一个区域，以所述区域的中心点为中心，有不同宽高比和不同面积比例的候选框。分类子网络利用卷积层和全连接层计算所述每一候选框中的子图像属于某一类别的概率。

边框回归子网络的输入也是特征融合子网络输出的融合特征张量。在边框回归子网络中，输入的融合特征张量中每一个特征点(即融合特征张量中每一个数值对应的位置)对应于图像文字提取模型的输入图像上的一个区域，以所述区域的中心点为中心，有不同宽高比和不同面积比例的候选框。边界回归子网络利用卷积层和全连接层计算所述候选框与靠近于输入图像中的已标注的真实框之间的偏移量。

例如：图像文字提取模型的输入图像经过主干网络和特征融合子网络后，某一特征融合子网络输出的融合特征张量尺度为W*H*L，经分类子网络执行分类任务后，得到W*H*K*A个概率值(其中W为融合特征张量的宽，H为融合特征张量的高，K为分类子网络分类的类别数，A为融合特征张量中每一个特征点对应的候选区域的数目，W、H、K和A均为大于0的自然数)。经边框回归子网络执行边框位置定位任务后，得到W*H*4*A个值(其中4表示每个候选框与真实框对应的4个坐标值偏移量)。

图像文字提取模型在训练态训练完成后可在推理态输出图像中的文字位置信息和文字属性信息，所述文字位置信息和文字属性信息作为结构化数据提取装置其他模块的输入共同完成对图像中结构化数据的提取。

在训练态，训练数据集中包含若干个训练图像，所述训练图像包含至少一条结构化数据，且训练图像是对所述至少一条结构化数据进行标注了的图像；在推理态，需要进行结构化数据提取的图像包含至少一条结构化数据。所述结构化数据包括文字属性信息和文字信息。所述文字信息包括用来纪录特定事物、简化图像而成的书写符号，包括但不限于阿拉伯数字、中文汉字、英文、希腊字母、标点符号等。所述文字属性信息包括其对应的文字信息的类型或定义。例如文字信息包括中文汉字或英文的情况下，文字属性信息可能为姓名，地址，性别等。再例如文字信息包括阿拉伯数字的情况下，文字属性信息可能为年龄，出生日期等。

在训练态，图像文字提取模型的训练流程如图6所示，下面结合图6具体描述图像文字提取模型的训练步骤：

S101，初始化图像文字提取模型中的参数。所述参数包括：主干网络中各卷积层的参数、融合特征子网络中各卷积层的参数、分类子网络中各卷积层的参数、边框回归子网络中各卷积层的参数等。

S102，读取训练数据集中的训练图像。其中训练数据集包括若干个训练图像，所述训练图像中的某些文字区域被一个带有属性信息的框进行标注，由此训练图像中被标注的不仅是文字区域的位置还有属性。所述训练数据集可根据图像文字提取模型的应用场景不同而不同，训练数据集一般由人工构建。例如：图像文字提取模块用于对护照图像的结构化信息提取时，每张护照中的姓名、性别、护照号、签发日期等固定属性对应的文字信息分别用带有各自属性的框进行标注，如：文字区域“张三”用带有姓名属性的框进行标注；文字区域“男”用带有性别属性的框进行标注。

S103，主干网络对训练图像进行特征提取，产生N个特征张量作为整个主干网络的输出值。主干网络中各卷积层首先对前一层输出的特征张量(或训练图像)进行卷积操作，再由主干网络(共S层)的第S-N+1层至第S层自顶(第S层)向下(第S-N+1层)逐层进行计算得到第1至第N个特征张量。具体地，主干网络输出的N个特征张量中第1个特征张量为主干网络第S层的输出，主干网络输出的N个特征张量中第2个特征张量由主干网络第S-1层输出的前向特征张量经1*1卷积后与前述第1个特征张量经上采样后获得的后向特征张量对应相加得到，同理，第n个特征张量由主干网络第S-n+1层输出的前向特征张量经1*1卷积后与已得到的第n-1个特征张量经上采样后的后向特征张量对应相加得到。

S104，N个特征融合子网络分别对主干网络输出的N个特征张量进行特征融合计算，每个特征融合子网络输出一个融合特征张量。

S105，对每个特征融合子网络输出的融合特征张量进行候选区域映射。每个融合特征张量包括若干个特征点，每个数值对应输入图像中的一个区域，以输入图像中的所述区域为中心生成不同宽高比例和不同大小比例的多个候选框。所述候选框的生成方法为：根据预设定的一组高度值G(G＝[g₁,g₂,…,g_i]，g≥0，i为大于0的自然数)和预设定的一组宽高比例值R(R＝[r₁,r₂,…,r_j]，r≥0，j为大于0的自然数),两组值进行交叉相乘组合，获得一组宽度值M(M＝[g₁*r₁,g₂*r₂,…,g_i*r_j])，M的个数为i*j个，根据获得的所述一组宽度值M和所述M中每一个宽度值对应的高度值，获得一组不同宽高比例和大小比例的候选框,所述候选框的尺寸为A(A＝[(g₁*r₁,g₁),(g₂*r₂,g₂),…,(g_i*r_j,g_j)])。每个融合特征张量中的每个特征点对应的候选框数量即为i*j，遍历每个融合特征张量中的每个特征点，获得所有候选框，每个候选框对应训练图像中的一个候选区域，所述候选区域为训练图像中的一个子图像。

可选的，所述候选框的生成方法通过预设定候选框的一组固定的高度值，且预设定一组宽高比例值，其中包含较大的宽高比例值，可以使生成的候选框的宽高比例具有更符合文字区域的特点(存在较多宽高比例较大的区域)，提高图像文字提取模型的准确率。例如：预设定一组高度值为G＝[4,6,8]，预设定一组宽高比例值R＝[1,5,10，30]，由此生成了不同宽高比例、不同大小比例的12个候选框，所述12个候选框中包含了宽和高为(120,4)、(180,6)、(240,8)等条形候选框，符合图像中可能存在的文字区域的形状特点。

S106，每个分类子网络和每个边框回归子网络对每个融合特征张量对应的候选区域进行预测。所述每个分类子网络对N个融合特征张量中的每个融合特征张量对应的候选区域进行分类，得到候选区域的文字属性预测结果，通过与带标注的训练图像比较，计算所述文字属性预测结果与真实文字属性标注之间的差异，得到文字属性损失函数值；所述边框回归子网络对N个融合特征张量中的每个特征张量对应的候选区域进行位置的预测，得到文字位置预测结果，计算所述文字位置预测结果与真实文字位置标注之间的差异，得到文字位置损失函数值。

S107，根据所述文字属性损失函数值和所述文字位置损失函数值对图像文字提取模型中的参数进行更新(即反向激励)。所述图像文字提取模型中的参数包括：主干网络中各卷积层的参数、融合特征子网络中各层的参数、分类子网络中各层的参数、边框回归子网络中各层的参数等。

重复执行步骤S102-S107，图像文字提取模型中的参数不断更新，直到文字属性损失函数值和文字位置损失函数值的趋势收敛，且文字属性损失函数值小于预设定的第一阈值，文字位置损失函数值小于预设定的第二阈值，图像文字提取模型的训练完成。或者，训练数据集中的训练图像已被读取完毕，图像文字提取模型的训练完成。

本申请实施例中，文字识别模型用于对文字子图像中的文字进行识别，其中文字识别模型可以是深度神经网络、也可以是模式匹配模型等，文字识别模型可以采用业界现有的一些模型结构，例如：基于注意力机制的Seq2Seq模型、Tensorflow模型等。在本申请提供的从图像中提取结构化数据的方法中，文字识别模型可直接采用业界已训练好的模型结构，也可根据不同的应用需求，采用不同的训练数据集对文字识别模型进行训练，使文字识别模型在特定应用中识别准确率保持稳定且较高。例如：用于提取中国护照图像的结构化数据的方法中，文字识别模型的训练数据集中的文字训练图像中的文字包括：中文、阿拉伯数字、英文等。对文字识别模型的训练也在训练态完成。

在推理态，训练完成的图像文字提取模型和文字识别模型被用于对图像中结构化数据的提取。结构化数据提取的流程如图7所示，下面结合图7具体描述结构化数据提取的步骤：

S201，对图像进行预处理操作。所述预处理操作例如：图像轮廓提取、旋转矫正、去噪、图像增强等，经过预处理操作后的图像再用于后续操作可提升结构化数据提取的准确率。具体的预处理操作方法可根据结构化数据提取方法的应用场景进行选择(可选择一种预处理操作，也可选择几种预处理操作)，例如：对于护照扫描图像的结构化信息提取，由于扫描图像常常存在图像内容倾斜、有较多噪点的情况，因此选择预处理操作时，可选择首先进行图像旋转矫正(例如：仿射变换)，再对图像进行去噪处理(例如：高斯低通滤波)。

S202，利用训练好的图像文字提取模型对预处理后的图像进行图像的文字位置信息提取和文字属性信息提取。预处理后的图像作为所述图像文字提取模型的输入，经图像文字提取模型的推理后，输出所述图像的至少一个文字位置信息和至少一个文字属性信息，所述文字位置信息和文字属性信息一一对应。

具体地，利用图像文字提取模型获取预处理后的图像中的第一信息集合和第二信息集合，所述图像中包括至少一条结构化数据。

所述第一信息集合包括至少一个第一信息，所述第二信息集合包括至少一个第二信息，所述至少一个第一信息指示文字位置信息，所述文字位置信息表示文字区域所述至少一个文字子图像在所述图像中的位置。例如：文字子图像在所述图像的文字区域的边界为矩形，文字的位置为所述矩形的四条线的四个交点的坐标值。

所述至少一个第二信息指示文字属性信息，所述文字属性信息表示所述至少一个文字子图像中文字的属性。

例如：对护照图像进行结构化数据提取，对图像文字提取模型进行训练的训练护照图像中标注了属性为姓名、性别、护照号、签发日期这四个属性的文字区域，则训练完成的图像文字提取模型在进行推理时，输出的文字属性信息包含的文字属性为前述四种类型。

所述文字位置信息和所述文字属性信息的个数相等，且一一对应，即文字位置信息集合中的第一文字位置信息对应文字属性信息集合中的第一文字属性信息，文字位置信息集合中的第二文字位置信息对应文字属性信息集合中的第二文字属性信息。

预处理后的图像经过所述图像文字提取模型的推理既获得了图像中的文字属性信息，又获得了文字位置信息，充分提高了对图像进行结构化数据提取的方案的效率，节省了计算资源，且所述图像文字提取模型保证了提取文字位置信息和文字属性信息的准确率，可进一步地保证结构化数据提取的准确率。

S203，根据步骤S202获得的文字位置信息获取图像中的至少一个文字子图像。根据所述文字位置信息在图像中定位对应的区域，利用截取技术截取对应区域形成文字子图像，存储文字子图像。其中，一张图像中可以包含多个文字子图像，文字子图像的个数与文字位置信息中的文字位置个数相等。

S204，文字识别模型读取一个文字子图像，获取文字子图像中的文字信息。文字子图像作为文字识别模型的输入，由文字识别模型对文字子图像进行特征张量提取和文字识别，获得由文字子图像到计算机可读的文字的转换，文字识别模型输出文字子图像中的文字信息。

S205，将步骤S204中的文字信息与步骤S202获得的文字属性信息结合，构成一条结构化数据。具体地，根据包含所述文字信息的文字子图像在图像中的文字位置信息确定与所述文字位置信息对应的文字属性信息，将所述文字信息与所述确定的文字属性信息结合，例如：将所述文字信息与所述确定的文字属性信息写入表格同一行的相邻两列。由此构成一条结构化数据。

上述步骤S203-S205重复执行，直到一张图像中所有的文字子图像都被文字识别模型识别且识别的文字信息与对应的文字属性信息构成了结构化数据。

可选的，步骤S204的执行可不必在步骤S203执行完毕之后进行，步骤S204可在步骤S203获得了一个文字子图像后即开始执行，提高整体结构化数据提取的效率。

S206，发送一张图像中的所有结构化数据给其他计算设备或模块。已提取的一张图像中的所有结构化数据可直接被其他计算设备或模块使用，也可被存储在存储模块中作为将来可被使用的数据信息。

执行上述步骤S201-S206，即完成了对一张图像的结构化数据的提取任务，在需要提取多个图像的结构化数据时，则重复执行步骤S201-S206即可。

在本申请实施例提供的对图像进行结构化数据提取的方案中，一条结构化数据由图像文字提取模型输出的文字属性和文字识别模型输出的文字信息结合即可获得，无需引入一个新的结构化数据提取模型，大大提高了结构化数据提取的效率，节约了计算资源，避免了结构化数据提取的准确率受多个模型的影响，提高了从图像中提取出结构化数据的准确率。

可选的，完成了对图像的结构化数据提取后可进行进一步的纠错后处理，以进一步提升结构化数据提取的准确率。所述纠错后处理操作可根据提取的结构化数据之间的相关性进行互相校验。例如：在对医疗单据进行结构化数据提取后，可根据校验提取的结构化数据中的总金额是否等于各项金额之和，来判断结构化数据提取的准确性。

如图8所示，本申请实施例提供一种训练装置300，所述训练装置300包括初始化模块301、图像文字提取模型302、文字识别模型303、反向激励模块304和存储模块305。可选的，所述训练装置300也可不包括文字识别模型303。所述训练装置300执行对图像文字提取模型和文字识别模型的训练操作。可选的，所述训练装置300也可不执行对文字识别模型的训练操作。前述模块(或模型)可以为软件模块。

具体地，在训练装置300中，各模块(或模型)之间通过通信通路建立连接。初始化模块301执行前述步骤S101对图像文字提取模型的参数进行初始化；图像文字提取模型302从存储模块305中读取训练图像执行步骤S102-S105；反相激励模块304执行步骤S106。可选的，初始化模块301还执行文字识别模型的参数的初始化，文字识别模型从存储模块305读取训练文字图像执行模型的训练操作，反向激励模块304执行对文字识别模型的参数的反向激励，使模型参数得到更新。

如图9所示，本申请还提供一种推理装置400。所述装置包括：预处理模块401、图像文字提取模型402、文字子图像截取模块403、文字识别模型404、结构化数据构成模块405、存储模块406。前述模块(或模型)可以为软件模块。具体地，各模块(或模型)之间通过通信通路建立连接。预处理模块401从存储模块406中读取图像执行前述步骤S201；图像文字提取模型402执行步骤S202，产生文字位置信息和文字属性信息；文字子图像截取模块403接收从图像文字提取模型402传输的文字位置信息，执行步骤S203，将获取的文字子图像保存在存储模块406；文字识别模型404从存储模块406读取一个文字子图像，执行步骤S204；结构化数据构成模块405接收从图像文字提取模型402传输的文字位置信息，且接收从文字识别模型404传输的文字信息，执行步骤S205-S206。

前述的训练装置300和推理装置400可以结合作为一种图像的结构化数据提取服务向用户提供，例如：训练装置300(或部分)部署在云计算设备系统，用户通过边缘计算设备将预设定初始化参数和准备的训练数据集上传给云计算设备系统，放入训练装置300中的存储模块305中，训练装置300对图像文字提取模型执行训练操作。可选的，用户通过边缘计算设备将预设定的初始化参数和准备的训练文字图像集上传给云计算设备系统，放入训练装置300中的存储模块305中，训练装置300对文字识别模型执行训练操作。经训练装置300训练好的图像文字提取模型302和文字识别模型303作为推理装置400的图像文字提取模型402和文字识别模型404。可选的，推理装置400中的文字识别模型404可不从训练装置300中获得，所述文字识别模型404可从业界已训练好的开源模型库中获得或从第三方购买。推理装置400执行对图像进行结构化数据提取的操作，例如：推理装置400(或部分)部署在云计算设备系统，用户通过终端设备将需要进行结构化数据提取的图像发送给云计算设备系统的推理装置400，推理装置400执行对图像的推理操作，提取图像的结构化数据。可选的，提取完成的结构化数据存储至存储模块406，用户可以在存储模块406中下载提取完成的结构化数据。可选的，推理装置400可通过网络即时地将提取的结构化数据发送给用户。

如图2所示，训练装置300和推理装置400的各个部分可能在不同环境上的多台计算设备上执行(训练装置300和推理装置400结合为结构化数据提取装置)。因此，本申请还提供一种计算设备系统，所述计算设备系统包括至少一个如图10所示的计算设备500。所述计算设备500包括总线501、处理器502、通信接口503和存储器504。处理器502、存储器504和通信接口503之间通过总线501通信。

其中，处理器可以为中央处理器(英文：central processing unit，缩写：CPU)。存储器可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：randomaccess memory，缩写：RAM)。存储器还可以包括非易失性存储器(英文：non-volatilememory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器，HDD或SSD。存储器中存储有可执行代码，处理器执行该可执行代码以执行前述结构化数据提取方法。存储器中还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM,UNIX^TM,WINDOWS^TM等。

具体的，存储器504中存储有前述装置300中的任意一个或任意多个模块或模型。存储器504中还可以存储图像文字提取模型和文字识别模型的初始化参数、训练数据集等，存储器504中除了存储前述任意一个或任意多个模块或模型，还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM,UNIX^TM,WINDOWS^TM等。

所述计算设备系统中的至少一个计算设备500之间通过通信网络互相建立通信，每个计算设备上运行装置300中的任意一个或者任意多个模块。至少一个计算设备500共同执行前述图像文字提取模型和文字识别模型的训练操作。

本申请还提供另一种计算设备系统，所述计算设备系统包括至少一个如图11所示的计算设备600。所述计算设备600包括总线601、处理器602、通信接口603和存储器604。处理器602、存储器604和通信接口603之间通过总线601通信。

具体的，存储器604中存储有前述装置400中的任意一个或任意多个模块或模型。存储器604中还可以存储需要进行结构化数据提取的图像集等，存储器604中除了存储前述任意一个或任意多个模块或模型，还可以包括操作系统等其他运行进程所需的软件模块。操作系统可以为LINUX^TM,UNIX^TM,WINDOWS^TM等。

所述计算设备系统中的至少一个计算设备600之间通过通信网络互相建立通信，每个计算设备上运行装置400中的任意一个或者任意多个模块。至少一个计算设备600共同执行前述结构化数据提取的操作。

本申请还提供一种计算设备系统，所述计算设备系统包括如图12所示的至少一个计算设备700，所述计算设备700包括总线701、处理器702、通信接口703和存储器704。处理器702、存储器704和通信接口703之间通过总线701通信。

所述至少一个计算设备700的存储器704中存储有前述训练装置300和推理装置400中的全部模块或任意一个或多个模块，处理器702执行所述存储器704中存储的模块。

在所述计算设备系统中，执行训练装置300中的全部模块或任意一个或多个模块的至少一个计算设备700在执行完对图像文字提取模型(可能还包括文字识别模型)的训练后，训练完成的图像文字提取模型(可能还包括文字识别模型)作为计算机程序产品存储在计算设备700的可读存储介质中。之后，存储有所述计算机程序产品的计算设备700通过通信通路将所述计算机程序产品发送给所述计算设备系统中的至少一个计算设备700。或者通过所述可读存储介质将所述计算机程序产品提供给所述计算设备系统中的至少一个计算设备700。接收了所述训练完成的图像文字提取模型(和文字识别模型)的至少一个计算设备700与所述计算设备系统中存储有推理装置400中的任意一个或多个模块的计算设备700共同执行对图像的推理操作，进行结构化数据提取。

可选的，存储有训练完成的图像文字提取模型(和文字识别模型)的计算设备700与所述计算设备系统中存储有推理装置400中的任意一个或多个模块的计算设备700共同执行对图像的推理操作，进行结构化数据提取。

可选的，存储有训练完成的图像文字提取模型(和文字识别模型)的计算设备700与自身存储器704存储的推理装置400中的任意一个或多个模块共同执行对图像的推理操作，进行结构化数据提取。

可选的，接收了所述训练完成的图像文字提取模型(和文字识别模型)的至少一个计算设备700与自身存储器704存储的推理装置400中的任意一个或多个模块共同执行对图像的推理操作，进行结构化数据提取。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。模型训练的计算机程序产品包括一个或多个模型训练计算机指令，在计算机上加载和执行所述模型训练计算机程序指令时，全部或部分地产生按照本发明实施例所述的图像文字提取模型(和文字识别模型)的训练态的流程或功能。所述模型训练的计算机程序产品产生训练完成的图像文字提取模型(和文字识别模型)，所述模型可用于图像推理的计算机程序产品，所述图像推理的计算机程序产品包括一个或多个图像推理计算机指令，在计算机上加载和执行所述图像推理计算机程序指令时，全部或部分地产生按照本发明实施例所述的推理态的流程或功能。

所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质包括存储有模型训练计算机程序指令的可读存储介质和存储有图像推理计算机程序指令的可读存储介质。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)。

Claims

1.一种从图像中提取结构化数据的方法，其特征在于，包括：

利用图像文字提取模型获取所述图像中的第一信息集合和第二信息集合,所述图像中包括至少一条结构化数据；

根据所述第一信息集合包括的至少一个第一信息获取所述图像中的至少一个文字子图像；

识别所述至少一个文字子图像中的文字信息；

根据所述至少一个文字子图像中的文字信息与所述第二信息集合包括的至少一个第二信息，获得所述图像中的至少一条结构化数据。

2.根据权利要求1所述的方法，其特征在于，

所述至少一个第一信息指示文字位置信息，所述文字位置信息表示所述至少一个文字子图像在所述图像中的位置；

所述至少一个第二信息指示文字属性信息，所述文字属性信息表示所述至少一个文字子图像中文字信息的属性；

每条结构化数据包括：所述文字属性信息和所述文字信息。

3.根据权利要求1或2所述的方法，其特征在于，所述图像文字提取模型包括主干网络、至少一个特征融合子网络、至少一个分类子网络和至少一个边框回归子网络；

所述利用图像文字提取模型获取所述图像中的第一信息集合和第二信息集合包括：

将所述图像输入所述主干网络，通过所述主干网络对所述图像进行特征提取，输出至少一个特征张量；

将所述主干网络输出的每个特征张量输入一个特征融合子网络，通过所述特征融合子网络获得所述特征张量对应的融合特征张量；

将所述融合特征张量输入一个分类子网络和一个边框回归子网络；

所述边框回归子网络根据所述融合特征张量对应的第一候选框执行对所述图像中文字子图像在所述图像中的位置的定位，获取所述至少一个第一信息；

所述分类子网络根据所述融合特征张量对应的第二候选框执行对所述图像中文字属性的分类，获取所述至少一个第二信息。

4.根据权利要求3所述的方法，其特征在于，每个特征融合子网络包括至少一个并列的卷积层和融合器；

所述将所述主干网络输出的每个特征张量输入一个特征融合子网络，通过所述特征融合子网络获得所述特征张量对应的融合特征张量包括：

将所述主干网络输出的所述特征张量输入所述至少一个并列的卷积层中的每一个卷积层；

将所述至少一个并列的卷积层中各卷积层的输出输入所述融合器；

所述融合器融合所述至少一个并列的卷积层中各卷积层的输出，输出所述特征张量对应的融合特征张量。

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第一候选框。

6.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第二候选框。

7.一种从图像中提取结构化数据的装置，其特征在于，包括：

图像文字提取模型，用于获取所述图像中的第一信息集合和第二信息集合，所述图像中包括至少一条结构化数据；

文字子图像截取模块，用于根据所述第一信息集合包括的至少一个第一信息获取所述图像中的至少一个文字子图像；

文字识别模型，用于识别所述至少一个文字子图像中的文字信息；

结构化数据构成模块，用于根据所述至少一个文字子图像中的文字信息与所述第二信息集合中包括的至少一个第二信息结合，获得所述图像中的至少一条结构化数据。

8.根据权利要求7所述的装置，其特征在于，所述至少一个第一信息指示文字位置信息，所述文字位置信息表示所述至少一个文字子图像在所述图像中的位置；

每条结构化数据包括：所述文字属性信息和所述文字信息。

9.根据权利要求7或8所述的装置，其特征在于，

所述图像文字提取模型包括主干网络、至少一个特征融合子网络、至少一个分类子网络和至少一个边框回归子网络；

所述图像文字提取模型用于将所述图像输入所述主干网络，所述主干网络用于对所述图像进行特征提取，输出至少一个特征张量；将所述主干网络输出的每个特征张量输入一个特征融合子网络，所述特征融合子网络用于获得所述特征张量对应的融合特征张量；将所述融合特征张量输入一个边框回归子网络和一个分类子网络；

其中，所述边框回归子网络用于根据所述融合特征张量对应的第一候选框执行对所述图像中文字子图像在所述图像中的位置的定位，获取所述至少一个第一信息；

所述分类子网络用于根据所述融合特征张量对应的第二候选框执行对所述图像中文字属性的分类，获取所述至少一个第二信息。

10.根据权利要求9所述的装置，其特征在于，每个特征融合子网络包括至少一个并列的卷积层和融合器；

所述特征融合子网络用于将所述主干网络输出的所述特征张量输入所述至少一个并列的卷积层中的每一个卷积层；将所述至少一个并列的卷积层中各卷积层的输出输入所述融合器；其中，所述融合器用于融合所述至少一个并列的卷积层中各卷积层的输出，输出所述特征张量对应的融合特征张量。

11.根据权利要求9或10所述的装置，其特征在于，所述边框回归子网络还用于根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第一候选框。

12.根据权利要求9或10所述的装置，其特征在于，所述分类子网络还用于根据预设定的高度值和预设定的宽高比例值获得所述融合特征张量对应的第二候选框。

13.一种计算设备系统，包括至少一台计算设备，其特征在于，每台计算设备包括存储器和处理器，所述至少一台计算设备的存储器，用于存储计算机指令；

所述至少一台计算设备的处理器执行所述存储器存储的计算机指令，以执行上述权利要求1至6中任一所述的方法。

14.一种非瞬态的可读存储介质，其特征在于，所述非瞬态的可读存储介质被计算设备执行时，所述计算设备执行上述权利要求1至6中任一所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品被计算设备执行时，所述计算设备执行上述权利要求1至6中任一所述的方法。