CN116030466A

CN116030466A - 图像文本信息识别与处理方法、装置及计算机设备

Info

Publication number: CN116030466A
Application number: CN202310287581.0A
Authority: CN
Inventors: 廖嘉城; 周相如; 赵善民; 李睿宇; 沈小勇; 吕江波
Original assignee: Beijing Simou Intelligent Technology Co ltd; Shenzhen Smartmore Technology Co Ltd
Current assignee: Beijing Simou Intelligent Technology Co ltd; Shenzhen Smartmore Technology Co Ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-04-28
Anticipated expiration: 2043-03-23
Also published as: CN116030466B

Abstract

本申请涉及一种图像文本信息识别与处理方法、装置、计算机设备及计算机存储介质。方法包括：确定目标图像中多个文本图像区域各自的初始区域特征；对于多个文本图像区域中的目标文本图像区域，从多个文本图像区域中确定目标文本图像区域的至少一个关联文本图像区域；利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征；基于目标区域特征识别得到目标文本图像区域所属的类别；基于多个文本图像区域中至少一个文本图像区域所属的类别，对至少一个文本图像区域中的文本信息进行组合，得到目标图像对应的结构化信息。采用本方法能够提高信息处理的效率。

Description

图像文本信息识别与处理方法、装置及计算机设备

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像文本信息识别与处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着深度学习技术的发展，出现了针对图像的信息处理技术，用于从图像中识别得到用户所关注的关键信息，以便于进行数据分析。例如，可以从购物票据图像或证件图像中提取得到关键信息。然而，由于布局和格式的多样性、文档图像质量的不确定性以及模板结构的复杂性，理解文档并提取关键信息直到现在仍然是一项非常具有挑战性的任务。

传统技术中，通常利用现有的算法模型对目标图像进行识别，然后采用人工的方法从识别结果中得到关键信息。

然而，传统技术中现有的算法模型的结构较为复杂，推理速度较慢，且采用人工的方法从识别结果中得到关键信息，耗费时间较长，导致信息处理的效率较低。

发明内容

本申请提供一种图像文本信息识别与处理方法、装置、计算机设备及计算机可读存储介质，能够提高信息处理的效率。

第一方面，本申请提供了一种图像文本信息识别与处理方法，包括：

确定目标图像中多个文本图像区域各自的初始区域特征；

对于多个文本图像区域中的目标文本图像区域，从多个文本图像区域中确定目标文本图像区域的至少一个关联文本图像区域；

利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征；

基于目标区域特征识别得到目标文本图像区域所属的类别；

基于多个文本图像区域中至少一个文本图像区域所属的类别，对至少一个文本图像区域中的文本信息进行组合，得到目标图像对应的结构化信息。

第二方面，本申请还提供了一种图像文本信息识别与处理装置，包括：

第一确定模块，用于确定目标图像中多个文本图像区域各自的初始区域特征；

第二确定模块，用于对于多个文本图像区域中的目标文本图像区域，从多个文本图像区域中确定目标文本图像区域的至少一个关联文本图像区域；

区域特征调整模块，用于利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征；

识别模块，用于基于目标区域特征识别得到目标文本图像区域所属的类别；

信息组合模块，用于基于多个文本图像区域中至少一个文本图像区域所属的类别，对至少一个文本图像区域中的文本信息进行组合，得到目标图像对应的结构化信息。

第三方面，本申请还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述图像文本信息识别与处理方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述图像文本信息识别与处理方法中的步骤。

第五方面，本申请还提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述图像文本信息识别与处理方法中的步骤。

上述图像文本信息识别与处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，通过确定多个文本图像区域中的目标文本图像区域的至少一个关联文本图像区域，并利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征，从而能够基于目标区域特征快速的识别得到目标文本图像区域所属的类别，然后基于多个文本图像区域中至少一个文本图像区域所属的类别，得到目标图像对应的结构化信息，提高了信息处理的效率。

附图说明

图1为本申请实施例提供的一种图像文本信息识别与处理方法的应用环境图；

图2为本申请实施例提供的一种图像文本信息识别与处理方法的流程示意图；

图3为本申请实施例提供的一种多模态文档语义图模型的结构示意图；

图4A为本申请实施例提供的一种购物小票的示意图；

图4B为本申请实施例提供的一种私有证件的示意图；

图5为本申请实施例提供的另一种图像文本信息识别与处理方法的流程示意图；

图6为本申请实施例提供的一种图像文本信息识别与处理装置的结构框图；

图7为本申请实施例中一种计算机设备的内部结构图；

图8为本申请实施例中另一种计算机设备的内部结构图；

图9为本申请实施例中一种计算机可读存储介质的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像文本信息识别与处理方法，可以应用于如图1所示的应用环境中。该应用环境包括计算机设备102和服务器104，计算机设备102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。

具体地，计算机设备102可以存储有目标图像，也可以从其他设备或服务器104获取目标图像，然后确定目标图像中多个文本图像区域各自的初始区域特征。计算机设备102对于多个文本图像区域中的目标文本图像区域，从多个文本图像区域中确定目标文本图像区域的至少一个关联文本图像区域，然后利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征，然后基于目标区域特征识别得到目标文本图像区域所属的类别。计算机设备102可以基于多个文本图像区域中至少一个文本图像区域所属的类别，对至少一个文本图像区域中的文本信息进行组合，得到目标图像对应的结构化信息。计算机设备102可以保存目标图像对应的结构化信息，也可以将目标图像以及对应的结构化信息发送至服务器104。服务器104可以保存目标图像以及对应的结构化信息，以基于结构化信息进行数据分析。例如，在商场消费场景下，需要对消费者的消费情况进行统计，则可以将商场的购物小票图像作为目标图像，对目标图像进行信息处理，得到购物小票图像对应的结构化信息，然后从结构化信息中提取得到消费金额相关的信息，从而无需人工成本，快速、高效的实现信息提取。

其中，计算机设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种图像文本信息识别与处理方法，该方法可以由计算机设备或服务器执行，还可以由计算机设备和服务器共同执行，以该方法应用于图1中的计算机设备102为例进行说明，包括以下步骤：

步骤202，确定目标图像中多个文本图像区域各自的初始区域特征。

其中，目标图像是待进行信息处理的图像，例如，可以是购物小票图像或私有证件图像。文本图像区域是目标图像中包括文本信息的图像区域，初始区域特征是基于文本图像区域进行特征提取得到的。

具体地，计算机设备获取目标图像以及目标图像中的多个文本图像区域，针对每个文本图像区域，计算机设备对文本图像区域进行特征提取，得到文本图像区域的图像特征、文本特征以及位置特征，然后对文本图像区域的图像特征、文本特征以及位置特征进行特征融合，得到多个文本图像区域各自的初始区域特征。其中，图像特征表征文本图像区域中图像区域的特征，文本特征表征文本图像区域中文本信息的特征，位置特征表征文本图像区域在目标图像中的位置信息。

步骤204，对于多个文本图像区域中的目标文本图像区域，从多个文本图像区域中确定目标文本图像区域的至少一个关联文本图像区域。

其中，目标文本图像区域是从多个文本图像区域中确定的，关联文本图像区域是与目标文本图像区域具有关联关系的文本图像区域，一个目标文本图像区域可以对应有至少一个关联文本图像区域，至少一个可以是一个，也可以是多个。关联关系是指关联文本图像区域的位置与目标文本图像区域的位置之间的关系。

具体地，对于目标文本图像区域，计算机设备可以确定至少一个候选文本图像区域，候选文本图像区域是多个文本图像区域中与目标文本图像区域不同的任意一个文本图像区域。针对每个候选文本图像区域，计算机设备计算目标文本图像区域与候选文本图像区域之间的图像区域距离，然后基于图像区域距离，确定候选文本图像区域是否为目标文本图像区域的关联文本图像区域。例如，计算机设备可以在图像区域距离小于距离阈值的情况下，将候选文本图像区域确定为目标文本图像区域的关联文本图像区域。其中，图像区域距离是指两个文本图像区域之间的距离，距离阈值是预先设置的。

步骤206，利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征。

其中，关联特征表征目标文本图像区域与关联文本图像区域之间的关联关系，关联特征用于调整目标文本图像区域的初始区域特征。目标区域特征用于进行识别得到目标文本图像区域所属的类别。

具体地，针对每个关联文本图像区域，计算机设备可以计算关联文本图像区域与目标文本图像区域之间的初始关联特征，可以将初始关联特征作为当前关联特征，将初始区域特征作为当前区域特征，然后利用至少一个关联文本图像区域分别与目标文本图像区域之间的当前关联特征，调整目标文本图像区域的当前区域特征，并利用目标文本图像区域的当前区域特征，调整至少一个关联文本图像区域分别与目标文本图像区域之间的当前关联特征，得到更新后的当前区域特征以及更新后的当前关联特征，直到满足迭代停止条件，将更新后的当前区域特征确定为目标区域特征。其中，迭代停止条件是预先设置的，例如，可以是当前迭代次数大于或等于预设次数的情况下，确定为满足迭代停止条件。

在一些实施例中，目标图像中的多个文本区域图像之间的关系可以构成一张拓扑图，各文本区域图像的初始区域特征可以看作拓扑图的图节点，而两个文本区域图像之间的关联特征可以看作图节点之间的边，故初始区域特征又称为图节点的初始特征，关联特征又称为边特征。计算机设备可以利用图神经网络对节点特征和边特征进行迭代更新，即对各文本区域图像的初始区域特征以及关联特征进行迭代更新，直到当前迭代次数大于或等于预设次数，得到目标文本区域图像的目标区域特征。而图神经网络能够提高模型的推理速度，从而提高信息处理的效率。

步骤208，基于目标区域特征识别得到目标文本图像区域所属的类别。

其中，目标文本图像区域所属的类别，是指目标文本图像区域中的文本信息的信息类别，例如，图4A中展示的购物小票图像中，文本信息“某某超市”的信息类别为超市名称。

具体地，计算机设备可以利用目标区域特征计算属于不同类别的概率，然后将概率最大的类别作为目标文本图像区域所属的类别。例如，计算机设备可以将目标区域特征输入到全连接层，利用SoftMax激活函数可得到目标文本图像区域对应不同类别的概率。

步骤210，基于多个文本图像区域中至少一个文本图像区域所属的类别，对至少一个文本图像区域中的文本信息进行组合，得到目标图像对应的结构化信息。

其中，文本信息是文本图像区域中包括的文字内容，结构化信息是将至少一个文本图像区域中的文本信息进行组合后得到的。

具体地，计算机设备获取目标图像对应的结构化信息模板，结构化信息模板中包括多个预设类别分别对应的属性字段，预设类别可以是预先设置的信息类别，属性字段用于标识预设类别，例如，针对购物小票，预设类别可以是超市名称、商品名称、商品价格以及总价，超市名称对应的属性字段可以为“shop_name”。计算机设备可以针对多个文本图像区域中的每个文本图像区域，从结构化信息模板中确定文本图像区域所属的类别对应的属性字段，将查找到的属性字段与文本图像区域中的文本信息进行组合，得到文本图像区域对应的组合项；基于各个组合项得到目标图像对应的结构化信息。其中，组合项是指由文本图像区域所属的类别对应的属性字段以及文本图像区域中的文本信息组成的键值对，例如，组合项可以是：“shop_name”：“某某超市”。

上述图像文本信息识别与处理方法中，通过确定多个文本图像区域中的目标文本图像区域的至少一个关联文本图像区域，并利用至少一个关联文本图像区域分别与所述目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征，从而能够基于目标区域特征快速的识别得到目标文本图像区域所属的类别，然后基于多个文本图像区域中至少一个文本图像区域所属的类别，得到目标图像对应的结构化信息，提高了信息处理的效率。

在一些实施例中，计算机设备可以利用已训练的多模态文档语义图模型（Multimodel Document-Semantic Graph，简称MDSG）实现上述图像文本信息识别与处理方法，实验结果表明，该模型在针对购物小票进行识别的准确度为98%，且在真实应用场景中，MDSG模型部署于远程服务器的情况下，识别的准确率达90%，且识别速度在15 FPS（FramesPer Second，每秒传输帧数）左右，实现了模型精度和速度的平衡。如图3所示，展示了MDSG模型的模型结构以及使用流程，MDSG模型包括特征编码模块以及识别模块，特征编码模块用于对目标文本图像区域的图像区域、文本信息以及位置信息进行特征提取、特征融合以及特征编码，得到目标文本图像区域的初始区域特征；识别模块包括图神经网络，用于对目标文本图像区域的初始区域特征进行迭代更新，得到目标区域特征，并利用目标区域特征识别得到目标文本图像区域所属的类别。

在一些实施例中，计算机设备可以将样本图像输入待训练的MDSG模型中进行识别，得到样本图像中各文本图像区域对应的预测类别，然后基于预测类别与真实类别之间的差异，调整模型的参数，得到已训练的MDSG模型。例如，可以计算各文本图像区域对应的预测类别与真实类别的交叉熵，然后对各文本图像区域的交叉熵进行均值计算，作为模型的损失函数。其中，样本图像是样本图像数据集中的图像。目前大部分与文档相关的开源数据集都是以英语作为母语，缺少中文文档的数据集；而当前开源数据集中的图像皆在较为理想环境下进行采集，但在真实场景中，用户在拍摄文档图像时，背景、光线条件、遮挡情况等都是不确定因素，甚至部分文档中会出现手写字迹的情况，因此，通过搜集和合成的方式构建了一个在真实环境下的中英文文档的样本图像数据集，样本图像数据集包含简体中文、繁体中文以及英文的语料，可帮助模型更好理解中英文的语义信息，使得模型可以应用于国内不同区域；同时，样本图像数据集中的图像皆采集于真实场景或基于真实背景及模板进行合成得到，能够提升模型的泛化能力。

在一些实施例中，初始区域特征为当前区域特征；

利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征，包括：

针对每个关联文本图像区域，基于目标文本图像区域的位置特征与关联文本图像区域的位置特征，确定关联文本图像区域与目标文本图像区域之间的当前关联特征；

利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，得到目标文本图像区域的目标区域特征。

其中，当前区域特征是目标图像区域在当前迭代次数下对应的区域特征，例如，在当前迭代次数为0的情况下，初始区域特征为当前区域特征。位置特征用于表征文本图像区域在目标图像中的位置。

具体地，针对每个关联文本图像区域，计算机设备利用目标文本图像区域的位置特征以及关联文本图像区域的位置特征，确定关联文本图像区域与目标文本图像区域的初始关联特征，这个过程可以称之为初始化关联特征。例如，目标文本图像区域为区域i，目标文本图像区域的关联文本图像区域为区域j，可以利用如下公式计算得到目标文本图像区域与关联文本图像区域之间的当前关联特征：

其中，E_ij ⁰表示目标文本图像区域与关联文本图像区域之间的初始关联特征；W_ij ⁰是经过训练得到的矩阵参数；x_ij是目标文本图像区域与关联文本图像区域之间的水平距离，y_ij是目标文本图像区域与关联文本图像区域之间的垂直距离；w_i是目标文本图像区域的宽度，h_i是目标文本图像区域的高度，w_j是关联文本图像区域的宽度，h_j是关联文本图像区域的高度。

在一些实施例中，计算机设备可以利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，得到目标文本图像区域的目标区域特征。例如，目标文本图像区域的初始区域特征为F_i ⁰，关联文本图像区域的初始区域特征为F_j ⁰，目标文本图像区域与关联文本图像区域之间的初始关联特征为E_ij ⁰，当前迭代次数t为0，计算机设备可以将初始关联特征E_ij ⁰作为当前关联特征E_ij ^t，将初始区域特征F_i ⁰作为当前区域特征F_i ^t，然后利用当前关联特征E_ij ^t对目标文本图像区域的当前区域特征F_i ^t进行更新，并利用目标文本图像区域的当前区域特征F_i ^t以及对当前关联特征E_ij ^t进行更新，得到更新后的当前区域特征F_i ^t+1以及更新后的当前关联特征E_ij ^t+1，然后当前迭代次数递增为t+1，在当前迭代次数小于预设次数的情况下，计算机设备可以将更新后的当前区域特征F_i ^t作为当前区域特征，并将更新后的当前关联特征E_ij ^t作为当前关联特征，返回利用当前关联特征对目标文本图像区域的当前区域特征进行更新的步骤；在当前迭代次数大于或等于预设次数的情况下，将更新后的当前区域特征确定为目标区域特征。

本实施例中，由于关联文本图像区域与目标文本图像区域之间的当前关联特征，是基于目标文本图像区域的位置特征与关联文本图像区域的位置特征确定的，通过利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，得到目标文本图像区域的目标区域特征，使得目标区域特征包括的语义信息更丰富，使得识别得到的文本图像区域所属的类别更准确，提高了信息处理的准确度。

在一些实施例中，利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，得到目标文本图像区域的目标区域特征，包括：

针对每个关联文本图像区域，利用目标文本图像区域的当前区域特征，对目标文本图像区域与关联文本图像区域之间的关联特征进行调整，得到目标文本图像区域与关联文本图像区域之间的当前关联特征；

利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，基于更新后的当前区域特征得到目标文本图像区域的目标区域特征。

具体地，针对每个关联文本图像区域，计算机设备可以利用目标文本图像区域的当前区域特征以及关联文本图像区域的当前区域特征，对目标文本图像区域与关联文本图像区域之间的关联特征进行调整，得到目标文本图像区域与所述关联文本图像区域之间的当前关联特征；然后利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，得到更新后的当前区域特征，在满足迭代停止条件的情况下，将更新后的当前区域特征确定为目标文本图像区域的目标区域特征。上述对关联特征进行调整以及对当前区域特征进行调整的公式如下所示：

E_ij ^t+1= E_ij ^t+σ_r(W_ij ^t(F_i ^t+ F_i ^t+ b_ij ^t))；

F_i ^t+1= F_i ^t+σ_r(W_i ^tF_i ^t∑σ_S(E_ij) +b_i ^t)；

其中，t为图迭代更新的次数， σ_r和σ_S分别表示ReLU和SoftMax激活函数， W_ij ^t，W_i ^t表示经过训练得到的矩阵参数，b_ij ^t，b_i ^t表示经过训练得到的偏差参数。

本实施例中，通过对目标文本图像区域的当前区域特征，以及至少一个关联文本图像区域与目标文本图像区域之间的关联特征进行迭代更新，即通过利用图神经网络代替解码器进行模型解码与推理，提高了模型推理的速度，进一步提高了信息处理的效率。

在一些实施例中，确定目标文本图像区域的至少一个关联文本图像区域，包括：

确定多个文本图像区域中的候选文本图像区域；候选文本图像区域与目标文本图像区域不同；

确定候选文本图像区域与目标文本图像区域之间的图像区域距离；

在图像区域距离小于距离阈值的情况下，将候选文本图像区域确定为目标文本图像区域的关联文本图像区域。

其中，候选文本图像区域，是多个文本图像区域中与目标文本图像区域不同的任意一个文本图像区域。

具体地，针对每个候选文本图像区域，计算机设备可以利用目标文本图像区域的位置信息以及候选文本图像区域的位置信息，计算目标文本图像区域与候选文本图像区域之间的图像区域距离，例如，计算机设备可以利用目标文本图像区域的左上角像素点在目标图像中的坐标（x1，y1），以及候选文本图像区域1的左上角像素点在目标图像中的坐标（x2，y2），计算得到目标文本图像区域与候选文本图像区域之间的图像区域距离。然后将目标文本图像区域与候选文本图像区域之间的图像区域距离与距离阈值进行比较，在图像区域距离小于距离阈值的情况下，将候选文本图像区域确定为目标文本图像区域的关联文本图像区域。

在一些实施例中，在任意一个候选文本图像区域与目标文本图像区域之间的图像区域距离均大于距离阈值的情况下，计算机设备可以确定目标文本图像区域没有关联文本图像区域，在目标文本图像区域没有关联文本图像区域的情况下，可以将目标文本图像区域与其他文本图像区域之间的关联特征设置为预设常量，例如，预设常量可以为0，也可以为1。

本实施例中，由于目标图像中包括多个文本图像区域，在图像区域距离大于距离阈值的情况下，两个文本图像区域之间通常不具有关联关系，从而在图像区域距离小于距离阈值的情况下，将候选文本图像区域确定为目标文本图像区域的关联文本图像区域，提高了关联文本图像区域的准确度。

在一些实施例中，步骤202，具体包括：

针对每个文本图像区域，确定文本图像区域的图像特征、文本特征以及位置特征；

对文本图像区域的图像特征、文本特征以及位置特征进行特征融合，生成文本图像区域的初始区域特征。

具体的，计算机设备可以对文本图像区域的图像区域、文本信息以及位置信息分别进行特征提取，得到文本图像区域的图像特征、文本特征以及位置特征。然后计算机设备对文本图像区域的图像特征、文本特征以及位置特征进行特征融合，得到文本图像区域的融合特征，基于融合特征生成文本图像区域的初始区域特征。例如，计算机设备可以将文本图像区域的图像区域分割为8个尺寸为16×64的子图像区域，子图像区域也称为patch，然后对各子图像区域进行线性映射，得到图像特征I_i；然后计算机设备可以对文本图像区域的文本信息和位置信息分别进行Word2vec变换，得到文本特征T_i和位置特征P_i，然后可以将图像特征I_i、文本特征T_i以及位置特征P_i相加，得到文本图像区域的融合特征L_i。

在一些实施例中，由于融合特征是通过直接的特征相加得到的，融合特征仍然是机器难以理解的特征，因此需要将融合特征编码成为机器能够理解的特征。计算机设备可以对融合特征进行编码处理，得到文本图像区域的初始区域特征。例如，如图3所示，计算机设备可以将文本图像区域的融合特征输入到Transformer Encoder（变换编码器）中进行编码处理。

在一些实施例中，针对每个文本图像区域，计算机设备获取文本图像区域的图像区域、文本信息以及位置信息，例如，可以利用光学字符识别（Optical CharacterRecognition，简称OCR）确定文本图像区域的图像区域、文本信息以及位置信息。然后计算机设备可以基于文本图像区域的图像区域、文本信息以及位置信息，得到文本图像区域的图像特征、文本特征以及位置特征。

本实施例中，通过对文本图像区域的图像特征、文本特征以及位置特征进行特征融合，生成文本图像区域的初始区域特征，实现了多模态特征的编码和融合，能够提高初始区域特征中的语义信息的表达能力，从而提高信息处理的准确度。

在一些实施例中，步骤210，具体包括：

获取目标图像对应的结构化信息模板；结构化信息模板中包括多个预设类别分别对应的属性字段；针对多个文本图像区域中的每个文本图像区域，从结构化信息模板中确定文本图像区域所属的类别对应的属性字段；

将查找到的属性字段与文本图像区域中的文本信息进行组合，得到文本图像区域对应的组合项；

基于各个组合项得到目标图像对应的结构化信息。

其中，结构化信息模板中包括多个预设类别分别对应的属性字段，预设类别可以是预先设置的信息类别，属性字段用于标识预设类别。

具体地，计算机设备可以针对多个文本图像区域中的每个文本图像区域，从结构化信息模板中确定文本图像区域所属的类别对应的属性字段，在查找成功的情况下，将查找到的属性字段作为键值对中的键，将文本图像区域中的文本信息作为键值对中的值，然后进行组合得到文本图像区域对应的组合项，即键值对。

举例说明，如图4B所示，展示了私人证件的示意图，私人证件对应的结构化信息模板可以为：

{“Chinese name value”:

“English name value”:

“Date of Birth key”:

“Date of Birth value”:

“sex value”:

“Date of Issue key”:

“Date of Issue value”: }

则该私人证件对应的结构化信息为：

{“Chinese name value”: “何XX”,

“English name value”: “He”,

“Date of Birth key”: “出生日期Date of Birth”,

“Date of Birth value”: “15-07-1997”,

“sex value”: “女F”,

“Date of Issue key”: “签发日期Date of Issue”,

“Date of Issue value”: “02-01-19” }

本实施例中，通过获取目标图像对应的结构化信息模板，从结构化信息模板中确定文本图像区域所属的类别对应的属性字段，将查找到的属性字段与文本图像区域中的文本信息进行组合，得到文本图像区域对应的组合项；基于各个组合项得到目标图像对应的结构化信息，能够快速得到用户所关注的文本信息，提高了信息处理的效率。

在一些实施例中，基于各个组合项得到目标图像对应的结构化信息，包括：

基于各组合项分别对应的文本图像区域之间的位置相对关系，对各组合项中的至少两个组合项进行组合，得到目标图像对应的结构化信息。

其中，位置相对关系是指至少两个文本图像区域的位置之间的对应关系，例如，购物小票中，商品A的商品名称以及商品价格之间具有对应关系。具体地，计算机设备可以基于各组合项分别对应的文本图像区域在目标图像中的位置信息，确定各组合项分别对应的文本图像区域之间的位置相对关系。然后计算机设备可以利用位置相对关系对各组合项中的至少两个组合项进行组合，得到目标图像对应的结构化信息。举例说明，如图4A所示，展示了购物小票的示意图，类别为商品名称的文本图像区域对应的组合项包括：“name”:“儿童奶粉500g”、“name”:“婴儿退热贴”；类别为商品价格的文本图像区域对应的组合项包括：“total”:“270.00”、“total”:“69.00”，计算机设备可以基于“儿童奶粉500g”所在的文本图像区域与“270.00”所在的文本图像区域之间的位置相对关系，将“name”:“儿童奶粉500g”与“total”:“270.00”进行组合；基于 “婴儿退热贴”所在的文本图像区域与“69.00”所在的文本图像区域之间的位置相对关系，将“name”:“婴儿退热贴”与“total”:“69.00”进行组合，最终得到的该购物小票对应的结构化信息可以为：

{“shop _name”: “某某超市”,

“total _amount”: “339.00”,

“payment _mode”: “现金”,

“payment _amount”: “339.00”,

“date _time”: “339.00”,

Sku: [

{“name”: “儿童奶粉500g”,

“total”: “270.00”},

{ “name”: “婴儿退热贴”,

“total”: “69.00”}]}

本实施例中，通过基于各组合项分别对应的文本图像区域之间的位置相对关系，对各组合项中的至少两个组合项进行组合，使得到的结构化信息清晰、准确。

在一些实施例中，如图5所示，提供了一种图像文本信息识别与处理方法，以该方法应用于计算机设备为例进行说明，包括以下步骤：

步骤502，针对目标图像中的每个文本图像区域，确定文本图像区域的图像特征、文本特征以及位置特征。

步骤504，对文本图像区域的图像特征、文本特征以及位置特征进行特征融合，生成文本图像区域的初始区域特征。

步骤506，对于多个文本图像区域中的目标文本图像区域，确定多个文本图像中的候选文本图像区域。

步骤508，在候选文本图像区域与目标文本图像区域之间的图像区域距离小于距离阈值的情况下，将候选文本图像区域确定为目标文本图像区域的关联文本图像区域。

步骤510，针对每个关联文本图像区域，基于目标文本图像区域的位置特征与关联文本图像区域的位置特征，确定关联文本图像区域与目标文本图像区域之间的当前关联特征。

步骤512，利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，得到目标文本图像区域的目标区域特征。

步骤514，获取目标图像对应的结构化信息模板。

步骤516，针对多个文本图像区域中的每个文本图像区域，从结构化信息模板中确定文本图像区域所属的类别对应的属性字段。

步骤518，将查找到的属性字段与文本图像区域中的文本信息进行组合，得到文本图像区域对应的组合项。

步骤520，基于各个组合项得到目标图像对应的结构化信息。

本实施例中，通过对文本图像区域的图像特征、文本特征以及位置特征进行特征融合，生成文本图像区域的初始区域特征，实现了多模态特征的编码和融合，提高了信息处理的准确度；通过确定多个文本图像区域中的目标文本图像区域的至少一个关联文本图像区域，并利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征，从而能够基于目标区域特征快速的识别得到目标文本图像区域所属的类别，然后从结构化信息模板中确定各文本图像区域所属的类别对应的属性字段，将查找到的属性字段与文本图像区域中的文本信息进行组合，得到文本图像区域对应的组合项，并基于各个组合项得到目标图像对应的结构化信息，从而快速得到了目标图像中的关键信息，提高了信息处理的效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像文本信息识别与处理方法的图像文本信息识别与处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像文本信息识别与处理装置实施例中的具体限定可以参见上文中对于图像文本信息识别与处理方法的限定，在此不再赘述。

在一些实施例中，如图6所示，提供了一种图像文本信息识别与处理装置，包括：

第一确定模块602，用于确定目标图像中多个文本图像区域各自的初始区域特征；

第二确定模块604，用于对于多个文本图像区域中的目标文本图像区域，从多个文本图像区域中确定目标文本图像区域的至少一个关联文本图像区域；

区域特征调整模块606，用于利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征；

识别模块608，用于基于目标区域特征识别得到目标文本图像区域所属的类别；

信息组合模块610，用于基于多个文本图像区域中至少一个文本图像区域所属的类别，对至少一个文本图像区域中的文本信息进行组合，得到目标图像对应的结构化信息。

在一些实施例中，初始区域特征为当前区域特征；

在利用至少一个关联文本图像区域分别与目标文本图像区域之间的关联特征，调整目标文本图像区域的初始区域特征，得到目标文本图像区域的目标区域特征的方面，区域特征调整模块606具体用于：

在一些实施例中，在利用各当前关联特征对目标文本图像区域的当前区域特征进行更新，得到目标文本图像区域的目标区域特征的方面，区域特征调整模块606具体用于：

在一些实施例中，在确定目标文本图像区域的至少一个关联文本图像区域的方面，第二确定模块604具体用于：

在一些实施例中，在确定目标图像中多个文本图像区域各自的初始区域特征的方面，第一确定模块602具体用于：

在一些实施例中，在基于多个文本图像区域中至少一个文本图像区域所属的类别，对至少一个文本图像区域中的文本信息进行组合，得到目标图像对应的结构化信息的方面，信息组合模块610具体用于：

基于各个组合项得到目标图像对应的结构化信息。

在一些实施例中，在基于各个组合项得到目标图像对应的结构化信息的方面，信息组合模块610具体用于：

上述图像文本信息识别与处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像文本信息识别与处理方法所涉及的相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述的图像文本信息识别与处理方法中的步骤。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现上述的图像文本信息识别与处理方法中的步骤。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7和图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述图像文本信息识别与处理方法中的步骤。

在一些实施例中，提供了一种计算机可读存储介质900，其上存储有计算机程序902，计算机程序902被处理器执行时实现上述图像数据处理方法中的步骤，其内部结构图可以如图9所示。

在一些实施例中，提供了一种计算机程序产品，该计算机程序包括计算机程序，该计算机程序被处理器执行时实现上述图像文本信息识别与处理方法中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像文本信息识别与处理方法，其特征在于，包括：

确定目标图像中多个文本图像区域各自的初始区域特征；

对于所述多个文本图像区域中的目标文本图像区域，从所述多个文本图像区域中确定所述目标文本图像区域的至少一个关联文本图像区域；

利用所述至少一个关联文本图像区域分别与所述目标文本图像区域之间的关联特征，调整所述目标文本图像区域的初始区域特征，得到所述目标文本图像区域的目标区域特征；

基于所述目标区域特征识别得到所述目标文本图像区域所属的类别；

基于所述多个文本图像区域中至少一个文本图像区域所属的类别，对所述至少一个文本图像区域中的文本信息进行组合，得到所述目标图像对应的结构化信息。

2.根据权利要求1所述的方法，其特征在于，所述初始区域特征为当前区域特征；

所述利用所述至少一个关联文本图像区域分别与所述目标文本图像区域之间的关联特征，调整所述目标文本图像区域的初始区域特征，得到所述目标文本图像区域的目标区域特征，包括：

针对每个所述关联文本图像区域，基于所述目标文本图像区域的位置特征与所述关联文本图像区域的位置特征，确定所述关联文本图像区域与所述目标文本图像区域之间的当前关联特征；

利用各所述当前关联特征对所述目标文本图像区域的当前区域特征进行更新，得到所述目标文本图像区域的目标区域特征。

3.根据权利要求2所述的方法，其特征在于，所述利用各所述当前关联特征对所述目标文本图像区域的当前区域特征进行更新，得到所述目标文本图像区域的目标区域特征，包括：

针对每个所述关联文本图像区域，利用所述目标文本图像区域的当前区域特征，对所述目标文本图像区域与所述关联文本图像区域之间的关联特征进行调整，得到所述目标文本图像区域与所述关联文本图像区域之间的当前关联特征；

利用各所述当前关联特征对所述目标文本图像区域的当前区域特征进行更新，基于更新后的当前区域特征得到所述目标文本图像区域的目标区域特征。

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标文本图像区域的至少一个关联文本图像区域，包括：

确定所述多个文本图像区域中的候选文本图像区域；所述候选文本图像区域与所述目标文本图像区域不同；

确定所述候选文本图像区域与所述目标文本图像区域之间的图像区域距离；

在所述图像区域距离小于距离阈值的情况下，将所述候选文本图像区域确定为所述目标文本图像区域的关联文本图像区域。

5.根据权利要求1所述的方法，其特征在于，所述确定目标图像中多个文本图像区域各自的初始区域特征，包括：

针对每个所述文本图像区域，确定所述文本图像区域的图像特征、文本特征以及位置特征；

对所述文本图像区域的图像特征、文本特征以及位置特征进行特征融合，生成所述文本图像区域的初始区域特征。

6.根据权利要求1所述的方法，其特征在于，所述基于所述多个文本图像区域中至少一个文本图像区域所属的类别，对所述至少一个文本图像区域中的文本信息进行组合，得到所述目标图像对应的结构化信息，包括：

获取目标图像对应的结构化信息模板；所述结构化信息模板中包括多个预设类别分别对应的属性字段；针对所述多个文本图像区域中的每个文本图像区域，从所述结构化信息模板中确定所述文本图像区域所属的类别对应的属性字段；

将查找到的属性字段与所述文本图像区域中的文本信息进行组合，得到所述文本图像区域对应的组合项；

基于各个组合项得到所述目标图像对应的结构化信息。

7.根据权利要求6所述的方法，其特征在于，所述基于各个组合项得到所述目标图像对应的结构化信息，包括：

基于各所述组合项分别对应的文本图像区域之间的位置相对关系，对各所述组合项中的至少两个组合项进行组合，得到所述目标图像对应的结构化信息。

8.一种图像文本信息识别与处理装置，其特征在于，包括：

第二确定模块，用于对于所述多个文本图像区域中的目标文本图像区域，从所述多个文本图像区域中确定所述目标文本图像区域的至少一个关联文本图像区域；

区域特征调整模块，用于利用所述至少一个关联文本图像区域分别与所述目标文本图像区域之间的关联特征，调整所述目标文本图像区域的初始区域特征，得到所述目标文本图像区域的目标区域特征；

识别模块，用于基于所述目标区域特征识别得到所述目标文本图像区域所属的类别；

信息组合模块，用于基于所述多个文本图像区域中至少一个文本图像区域所属的类别，对所述至少一个文本图像区域中的文本信息进行组合，得到所述目标图像对应的结构化信息。

9.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。