CN115880702A

CN115880702A - 数据处理方法、装置、设备、程序产品及存储介质

Info

Publication number: CN115880702A
Application number: CN202211014152.8A
Authority: CN
Inventors: 潘宇; 陈琳; 吴伟佳
Original assignee: Weimin Insurance Agency Co Ltd
Current assignee: Weimin Insurance Agency Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2023-03-31

Abstract

本申请实施例公开了一种数据处理方法、装置、设备、程序产品及存储介质，涉及人工智能技术，其中，方法包括：对该待识别图像进行版面元素识别处理，确定该待识别图像包含的至少一个版面元素；通过目标检测模型对该待识别图像包含的各个版面元素进行版面元素类型检测处理，得到该各个版面元素的版面元素类型；针对任一版面元素，获取与该任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与该任一版面元素进行模板匹配，以从该任一版面元素中提取文本信息；将从该各个版面元素中提取的文本信息进行融合处理，得到该待识别图像的文本图像信息。采用本申请实施例，可以提高文本信息提取的准确性。

Description

数据处理方法、装置、设备、程序产品及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理方法、装置、设备、程序产品及存储介质。

背景技术

目前的数据处理方式一般是采用固定全图模板标注和固定全图模板匹配的方式提取文本信息，但是该方式对标注的固定全图模板具有较高的要求，当待识别的图像中的版面与固定全图模板中的版面存在差异时，会导致图像中的元素识别准确性降低，进而降低文本信息提取的准确性。

发明内容

本申请实施例提供一种数据处理方法、装置、设备、程序产品及存储介质，可以提高文本信息提取的准确性。

第一方面，本申请提供一种数据处理方法，包括：

对该待识别图像进行版面元素识别处理，确定该待识别图像包含的至少一个版面元素；

通过目标检测模型对该待识别图像包含的各个版面元素进行版面元素类型检测处理，得到该各个版面元素的版面元素类型；

针对任一版面元素，获取与该任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与该任一版面元素进行模板匹配，以从该任一版面元素中提取文本信息；

将从该各个版面元素中提取的文本信息进行融合处理，得到该待识别图像的文本图像信息。

第二方面，本申请提供一种数据处理装置，包括：

版面识别单元，用于对该待识别图像进行版面元素识别处理，确定该待识别图像包含的至少一个版面元素；

元素检测单元，用于通过目标检测模型对该待识别图像包含的各个版面元素进行版面元素类型检测处理，得到该各个版面元素的版面元素类型；

文本提取单元，用于针对任一版面元素，获取与该任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与该任一版面元素进行模板匹配，以从该任一版面元素中提取文本信息；

文本融合单元，用于将从该各个版面元素中提取的文本信息进行融合处理，得到该待识别图像的文本图像信息。

第三方面，本申请提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使包含该处理器的计算机设备执行上述数据处理方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行上述数据处理方法。

第五方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请第一方面中的各种可选方式中提供的数据处理方法。

本申请实施例中，通过对待识别进行版面元素识别处理，可以确定待识别图像包含的一个或者多个版面元素，由于每个版面元素的版面元素类型不同，因此通过对各个版面元素进行检测处理，可以确定各个版面元素的版面元素类型，进而可以基于每个不同的版面元素类型匹配的图像模板与对应的版面元素进行模板匹配，以从每个版面元素中提取文本信息。由于在提取版面元素中的文本信息时，是针对每个类型的版面元素进行针对性文本信息提取，因此提取到的文本信息更准确，进而使得提取到的待识别图像的文本图像信息更准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的网络架构图；

图2是本申请实施例提供的一种数据处理方法的应用场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种待识别图像中的版面元素的示意图；

图5是本申请实施例提供的一种图像旋转矫正的场景示意图；

图6a-图6n是本申请实施例提供的版面元素类型的示意图；

图7是本申请实施例提供的一种图像区域划分的场景示意图；

图8是本申请实施例提供的一种候选映射区域的示意图；

图9是本申请实施例提供的一种模板匹配方法的流程示意图；

图10是本申请实施例提供的另一种数据处理方法的流程示意图；

图11a-图11d是本申请实施例提供的图像模板标注的示意图；

图12是本申请实施例提供的一种数据处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及人工智能技术(Artificial Intelligence,AI)，为便于理解，以下将对人工智能及其相关概念进行阐述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生成出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(Computer Vision,CV)和机器学习(Machine Learning,ML)。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。例如，本申请中可以采用计算机视觉技术对待识别图像进行版面元素识别处理，确定待识别图像包含的至少一个版面元素。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如，本申请中可以采用机器学习技术通过目标检测模型对待识别图像包含的各个版面元素进行版面元素类型检测处理，得到各个版面元素的版面元素类型。

需要特别说明的是，本申请实施例中涉及到对象信息相关的数据(例如待识别图像、图像模板，等等)，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。对象可以是指终端设备或者计算机设备的使用者。

本申请技术方案适用于对图像中的文本信息进行提取，得到图像的文本信息的场景中。例如可以应用于身份信息提取的场景中，通过对身份图像进行版面元素识别，确定身份图像包含的版面元素，从而基于版面元素的元素类型进行针对性模板匹配，进而提取出版面元素中的文本信息，得到身份图像中的文本信息。或者，还可以用于如保险理赔的自动核验的场景中，通过对保险理赔图像进行版面元素识别，确定保险理赔图像包含的版面元素，从而可以基于版面元素的元素类型进行针对性模板匹配，进而提取出版面元素中的文本信息，得到保险理赔图像中的文本信息，采用本申请技术方案可以提高文本信息提取的准确性。本申请技术方案还可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

请参见图1，图1是本申请实施例提供的一种数据处理系统的网络架构图，如图1所示，计算机设备可以与终端设备进行数据交互，终端设备的数量可以为一个或者至少两个，例如，当终端设备的数量为多个时，终端设备可以包括图1中的终端设备101a、终端设备101b及终端设备101c等。其中，以终端设备101a为例，计算机设备102可以对待识别图像进行版面元素识别处理，确定待识别图像包含的至少一个版面元素。进一步地，计算机设备102可以通过目标检测模型对待识别图像包含的各个版面元素进行版面元素类型检测处理，得到各个版面元素的版面元素类型。针对任一版面元素，计算机设备102可以获取与任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与任一版面元素进行模板匹配，以从任一版面元素中提取文本信息；将从各个版面元素中提取的文本信息进行融合处理，得到待识别图像的文本图像信息。可选地，计算机设备102可以将待识别图像的文本图像信息发送至终端设备101a，以在终端设备101a的显示屏上显示待识别图像的文本图像信息。进一步可选地，终端设备101a还可以基于待识别图像的文本图像信息进行相应的业务办理。

通过对待识别进行版面元素识别处理，可以确定待识别图像包含的一个或者多个版面元素，由于每个版面元素的版面元素类型不同，因此通过对各个版面元素进行检测处理，可以确定各个版面元素的版面元素类型，进而可以基于每个不同的版面元素类型匹配的图像模板与对应的版面元素进行模板匹配，以从每个版面元素中提取文本信息。由于在提取版面元素中的文本信息时，是针对每个类型的版面元素进行针对性文本信息提取，因此提取到的文本信息更准确，进而使得提取到的待识别图像的文本图像信息更准确。

可以理解的是，本申请实施例中所提及的计算机设备包括但不限于终端设备或服务器。换句话说，计算机设备可以是服务器或终端设备，也可以是服务器和终端设备组成的系统。其中，以上所提及的终端设备可以是一种电子设备，包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、智能语音交互设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality，AR/VR)设备、头盔显示器、可穿戴设备、智能音箱、智能家电、飞行器、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobileinternet device，MID)等。其中，以上所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

进一步地，请参见图2，图2是本申请实施例提供的一种数据处理方法的应用场景示意图。如图2所示，计算机设备20可以对待识别图像21进行版面元素识别处理，确定待识别图像21包含的3个版面元素分别为221、222和223。通过目标检测模型23对待识别图像包含的3个版面元素进行版面元素类型检测处理，得到3个版面元素的版面元素类型。例如版面元素221的版面元素类型为标题类型(title)、版面元素222的版面元素类型为键值类型(kv)、版面元素223的版面元素类型为文本类型(text)。进一步地，针对于标题类型的版面元素221，获取与标题类型的版面元素221匹配的图像模板，并将该图像模板与标题类型的版面元素221进行模板匹配，以从标题类型的版面元素中提取文本信息如“XX保险股份有限公司、电子保险单”。进一步地，针对于键值类型的版面元素222，获取与键值类型的版面元素222匹配的图像模板，并将该图像模板与键值类型的版面元素222进行模板匹配，以从键值类型的版面元素中提取文本信息如“产品名称：XX保、投保单号码：XXXXXXXX、……、被保人证件号码：XXXXXXX”。进一步地，针对于文本类型的版面元素223，获取与文本类型的版面元素223匹配的图像模板，并将该图像模板与文本类型的版面元素223进行模板匹配，以从文本类型的版面元素223中提取文本信息如“1、X险种(A款)、X险种(B款)、X险种(C款)的疾病等待期均为30日，……，给付比例为80％”。最后，通过将从3个版面元素中提取的文本信息进行融合处理，得到待识别图像的文本图像信息，待识别图像的文本图像信息可以包括如21所示的所有文本信息以及文本信息的格式。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图；如图3所示，该数据处理方法可以应用于计算机设备，该数据处理方法包括但不限于以下步骤：

S101，对待识别图像进行版面元素识别处理，确定待识别图像包含的至少一个版面元素。

本申请实施例中，计算机设备可以从本地存储中获取待识别图像，或者获取终端设备发送的待识别图像，从而对待识别图像进行版面元素识别处理，确定待识别图像包含的至少一个版面元素。计算机设备可以在获取到待识别图像时，立刻触发对待识别图像进行版面元素识别处理的操作；或者在获取到待识别图像，且满足触发条件时，触发对待识别图像进行版面元素识别处理的操作，触发条件如当前时间满足预设时间，等等；或者在接收到终端设备发送的触发指令时，触发对待识别图像进行版面元素识别处理的操作。

其中，待识别图像可以是指需要进行文本信息提取的图像，待识别图像包括但不限于保单类图像、银行贷款类图像、票据类图像、费用清单类图像以及其他身份信息类图像。版面元素可以是指待识别图像中的所有元素，例如可以包括但不限于待识别图像中的文本、印章、二维码、条形码、标题、脚注等。

在进行版面元素识别处理时，计算机设备可以基于版面元素识别模型对待识别图像进行版面元素识别处理，确定待识别图像包含的至少一个版面元素。在使用版面元素识别模型进行识别处理之前，计算机设备可以预先使用大量的样本图像训练版面元素识别模型，从而使得版面元素识别模型具有识别出待识别图像中包含的至少一个版面元素的能力。具体地，计算机设备可以获取样本图像，将样本图像输入版面元素识别模型中进行版面元素识别处理，输出样本图像中包含的至少一个样本版面元素；获取样本图像包含的至少一个标记版面元素，基于至少一个样本版面元素和至少一个标记版面元素训练版面元素识别模型。例如，可以基于至少一个样本版面元素和至少一个标记版面元素确定版面元素识别模型的损失函数，基于版面元素识别模型的损失函数调整版面元素识别模型中的模型参数；当版面元素识别模型的损失函数小于识别损失阈值时，保存此时的版面元素识别模型，便于后续使用。

由于在训练版面元素识别模型时，预先知道样本图像的样本真实值，即预先知道样本图像包含的至少一个标记版面元素，而基于版面元素识别模型可以输出模型预测值，即样本图像中包含的至少一个样本版面元素，训练版面元素识别模型的目的在于使得模型预测值与样本真实值尽可能一致，因此当两者不一致时，通过调整版面元素识别模型中的模型参数，可以降低版面元素识别模型的损失函数，使得损失函数小于识别损失阈值。当损失函数小于识别损失阈值时，将此时的版面元素识别模型进行保存，后续可以直接使用。由于在使用版面元素识别模型之前对版面元素识别模型进行了训练，调整了版面元素识别模型中的模型参数，因此在后续使用版面元素识别模型对待识别图像进行版面元素识别处理时，可以提高版面元素识别的准确性。可选地，版面元素识别模型可以包括但不限于深度学习中的卷积神经网络模型(Convolutional Neural Networks，CNN)、单点多盒检测器(single shot multibox detector，SSD)。

示例性地，如图4所示，图4是本申请实施例提供的一种待识别图像中的版面元素的示意图，图4中的待识别图像包括6个版面元素，分别为版面元素41、版面元素42、版面元素43、版面元素44、版面元素45、版面元素46。通过对待识别图像进行版面元素识别处理，可以确定待识别图像包含的所有版面元素，从而进行后续的处理。

在一个实施例中，在获取待识别图像时，计算机设备可以对初始图像进行预处理得到待识别图像。具体地，计算机设备可以获取初始图像，将初始图像与预设图像进行比对，若初始图像与预设图像不匹配，则确定初始图像为不规则图像，则对初始图像进行旋转矫正处理，将旋转矫正后的初始图像确定为待识别图像。旋转矫正后的初始图像与预设图像匹配，预设图像可以是指规则图像。

其中，规则图像可以是指处于正向的图像，不规则图像可以是指处于非正向的图像，例如对规则图像旋转目标角度所得到的图像，例如目标角度可以包括90°、180°、270°，等等。如图5所示，图5是本申请实施例提供的一种图像旋转矫正的场景示意图，图5中51表示预设图像，即规则图像，图5中的52表示不规则图像，通过对不规则图像进行旋转矫正处理，可以将不规则图像矫正为规则图像。由于图像为不规则图像时，图像中的文字可能会存在扭曲、遮挡等问题，通过对图像进行旋转矫正处理，可以将图像转变为规则图像，从而实现对图像中的文字进行矫正，便于后续进行文本信息提取。

S102，通过目标检测模型对待识别图像包含的各个版面元素进行版面元素类型检测处理，得到各个版面元素的版面元素类型。

本申请实施例中，计算机设备可以预先训练目标检测模型，使得目标检测模型具有检测出待识别图像包含的各个版面元素的版面元素类型的能力，从而在确定待识别图像中包含一个或者多个版面元素时，可以通过目标检测模型对待识别图像包含的各个版面元素进行版面元素类型检测处理，得到各个版面元素的版面元素类型。其中，版面元素的版面元素类型可以包括但不限于文本类、文本为表格值类、列表类、列表为表格值类、键值对类、键值对为表格值类、非行列格式全线表类、行列结构全线表类、行列结构无线或半线表类、印章类、标题类、二维码类、条形码类、脚注类等类型。如表1所示，表1中列出了多种版面元素类型：

表1

/>

对应于表1中的多种版面元素类型，每种版面元素类型的示意图可以如图6a-图6n所示，图6a-图6n是本申请实施例提供的一种版面元素类型的示意图，图6a表示版面元素的版面元素类型为“文本类”，图6b表示版面元素的版面元素类型为“文本为表格值类”，图6c表示版面元素的版面元素类型为“列表类”，图6d表示版面元素的版面元素类型为“列表为表格值类”，图6e表示版面元素的版面元素类型为“键值对类”，图6f表示版面元素的版面元素类型为“键值对为表格值类”，图6g表示版面元素的版面元素类型为“非行列格式全线表类”，图6h表示版面元素的版面元素类型为“行列结构全线表类”，图6i表示版面元素的版面元素类型为“行列结构无线或半线表类”，图6j表示版面元素的版面元素类型为“印章类”，图6k表示版面元素的版面元素类型为“标题类”，图6l表示版面元素的版面元素类型为“二维码类”，图6m表示版面元素的版面元素类型为“条形码类”，图6n表示版面元素的版面元素类型为“脚注类”。在对各个版面元素进行版面元素类型检测处理，得到各个版面元素的版面元素类型时，可以使用表1中对应的标注类型在待识别图像中标注出每个版面元素的版面元素类型。

具体地，计算机设备可以获取样本图像包含的各个样本版面元素，通过目标检测模型对样本图像包含的各个样本版面元素进行版面元素类型检测处理，得到各个样本版面元素的样本版面元素类型；获取样本图像包含的各个样本版面元素的标记版面元素类型，基于样本图像包含的各个样本版面元素的标记版面元素类型和样本图像包含的各个样本版面元素的样本版面元素类型训练目标检测模型。例如，可以基于样本图像包含的各个样本版面元素的标记版面元素类型和样本图像包含的各个样本版面元素的样本版面元素类型确定目标检测模型的损失函数，基于目标检测模型的损失函数对目标检测模型中的模型参数进行调整，降低目标检测模型的损失函数，当目标检测模型的损失函数小于检测损失阈值时，保存此时的目标检测模型以便后续使用。可选地，目标检测模型可以包括但不限于深度学习中的Mask-rcnn(Mask-Convolutional Neural Networks，掩膜卷积神经网络模型)或YOLO(You Only Look Once，回归目标检测)。

由于在训练目标检测模型时，预先知道样本元素类型真实值，即样本图像包含的各个样本版面元素的标记版面元素类型，而基于目标检测模型可以输出模型检测值，即各个样本版面元素的样本版面元素类型，训练目标检测模型的目的在于使得样本元素类型真实值和模型检测值尽可能一致，因此当两者不一致时，可以通过调整目标检测模型中的模型参数，降低目标检测模型的损失函数，当目标检测模型的损失函数小于检测损失阈值时，则可以将此时的目标检测模型保存便于后续使用。由于在使用目标检测模型之前对目标检测模型进行了训练，调整了目标检测模型中的模型参数，因此在后续使用目标检测模型对待识别图像包含的各个版面元素进行版面元素类型检测处理时，可以提高版面元素类型检测的准确性。

示例性地，如图4中的47所示，检测出待识别图像中包含的各个版面元素的版面元素类型时，可以对待识别图像中的各个版面元素的版面类型进行标注，例如标注后的待识别图像中包括的版面元素类型分别为title(标题类)、kv(键值对类)、wirelesstable(行列结构无线/半线表类)、text(文本类)、text(文本类)、seel(印章类)。

在一种可能的实现方式中，还可以使用目标检测模型对待识别图像进行版面元素识别处理，确定待识别图像包含的至少一个版面元素，以及通过目标检测模型对待识别图像包含的各个版面元素进行版面元素类型检测处理，得到各个版面元素的版面元素类型。也就是说，识别待识别图像中的版面元素的过程和检测各个版面元素的版面元素类型的过程可以使用一个目标检测模型实现，也可以结合版面元素识别模型和目标检测模型实现，本申请实施例对此不做限定。

S103，针对任一版面元素，获取与任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与任一版面元素进行模板匹配，以从任一版面元素中提取文本信息。

本申请实施例中，由于检测到待识别图像包含的各个版面元素的版面元素类型，因此针对于待识别图像包含的任一版面元素，可以获取与任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与任一版面元素进行模板匹配，以从任一版面元素中提取文本信息。

由于待识别图像包括多个版面元素，而每个版面元素的版面元素类型不同，若针对于不同版面元素类型均采用相同的方式提取文本信息，会导致提取到的文本信息不准确，因此针对于各个版面元素类型可以采用不同的模板匹配策略，从而基于不同的模板匹配策略从各个版面元素类型中提取文本信息。

在一个实施例中，与任一版面元素的版面元素类型匹配的图像模板的数量为至少一个，则可以将获取的图像模板与任一版面元素进行模板匹配，以从任一版面元素中提取文本信息的方式可以包括：将获取到的各个图像模板与任一版面元素进行模板匹配，得到任一版面元素与各个图像模板的匹配率和匹配结果；将匹配率最大的图像模板与任一版面元素的匹配结果，作为从任一版面元素中提取的文本信息。

其中，任一版面元素与任一图像模板的匹配结果指的是：按照任一图像模板与任一版面元素进行模板匹配的方式，从任一版面元素中提取的文本信息。匹配率可以用于反映图像模板与任一版面元素之间的匹配程度，匹配率大于匹配阈值，表示图像模板与任一版面元素之间的匹配程度大于相似阈值，匹配率小于或等于匹配阈值，表示图像模板与任一版面元素之间的匹配程度小于或等于相似阈值。通过计算任一版面元素与各个图像模板之间的匹配率，可以尽可能从多个图像模板中找出与任一版面元素相同的图像模板，从而提高后续文本信息提取的准确性。

在一种实现方式中，针对于多个图像模板中的任一图像模板，当获取该任一图像模板与任一版面元素之间的匹配结果的方式时，可以基于单元格划分的模板匹配策略对任一图像模板与任一版面元素进行模板匹配，从而基于两者之间的匹配率确定匹配结果。具体地，可以按照预设单元格尺寸对任一版面元素在待识别图像中的图像区域进行划分，得到图像区域的网格，网格包括的各个单元格的单元格尺寸为预设单元格尺寸；确定任一版面元素的文本框中心点所处的单元格坐标；若单元格坐标位于任一图像模板的文本框所处的单元格坐标内，则将任一版面元素的文本框中的文本信息作为任一版面元素与任一图像模板的匹配结果。

结合图7进行说明，图7是本申请实施例提供的一种图像区域划分的场景示意图，任一版面元素在待识别图像中的图像区域如71所示，按照预设单元格尺寸对任一版面元素在待识别图像中的图像区域进行划分，得到图像区域的网格如72所示，例如预设单元格尺寸为1*1，则网格包括的各个单元格的单元格尺寸均为1*1。进一步地，确定任一版面元素的文本框中心点所处的单元格坐标，例如任一版面元素的文本框中心点所处的单元格坐标为数字“9”所在的单元格坐标，如单元格坐标为(2,3)，即文本框中心点所处的单元格为第二行第三列的单元格。进一步地，确定单元格坐标是否位于任一图像模板的文本框所处的单元格坐标内。例如任一图像模板的文本框所处的单元格如73所示包括(1,1)、(1,2)、(1,3)、(1,4)、(1,5)、(1,6)、(2,1)、(2,2)、(2,3)、(2,4)、(2,5)、(2,6)，则确定单元格坐标位于任一图像模板的文本框所处的单元格坐标内，将任一版面元素的文本框中的文本信息“123456789ABCDEFG”作为任一版面元素与任一图像模板的匹配结果。通过该种基于单元格划分的模板匹配策略可以实现从图像模板中获取任一版面元素与任一图像模板的匹配结果。

可选地，在确定单元格坐标是否位于任一图像模板的文本框所处的单元格坐标内之前，可以预先按照元格尺寸对任预设单一图像模板的文本框在该任一图像模板中的图像区域进行划分，得到任一图像模板中的图像区域的网格，从而确定任一图像模板的文本框所处的单元格。或者，可以在对任一版面元素在待识别图像中的图像区域进行划分时，再按照预设单元格尺寸对任一图像模板的文本框在该任一图像模板中的图像区域进行划分，得到任一图像模板中的图像区域的网格，从而确定任一图像模板的文本框所处的单元格。

由于在确定匹配结果之前，需要先获取任一版面元素与多个图像模板之间的匹配率，选取匹配率最大的图像模板与任一版面元素的匹配结果，作为从任一版面元素中提取的文本信息，因此需要针对于多个图像模板中的每个图像模板，需要计算每个图像模板与任一版面元素之间的匹配率，以多个图像模板中任一图像模板为例进行说明：

任一版面元素的文本框中的文本信息可以包括至少一个字符，任一图像模板的文本信息包括至少一个字符；任一版面元素与任一图像模板的匹配率的获取方式可以包括：统计任一版面元素的文本信息中与任一图像模板的至少一个字符匹配的字符数量；基于统计到的字符数量和任一图像模板的文本信息包括的字符数量，确定任一版面元素与任一图像模板的匹配率。可以理解的是，任一版面元素的文本信息中与任一图像模板的至少一个字符匹配是指字符相同或者字符表示的含义一致。字符可以是指文本框中的汉字、英文、标点符号、图像，等等。

如图7所示，任一版面元素的文本信息包括“123456789ABCDEFG”，任一图像模板包括17个字符如“123456789HICDEFG”，则匹配的字符数量为15个。由于任一图像模板的文本信息包括的字符数量为17个，统计出的字符数量为15个，则可以将统计到的字符数量和任一图像模板的文本信息包括的字符数量之间的比值确定为任一版面元素与任一图像模板的匹配率。

通过该种基于单元格划分的模板匹配策略可以确定任一版面元素与各个图像模板的匹配率和匹配结果，因此可以将多个图像模板中匹配率最大的图像模板与任一版面元素的匹配结果，作为从任一版面元素中提取的文本信息，从而可以提取到任一版面元素的文本信息。

在实际应用中，例如针对于文本类、标题类和印章类版面元素类型，在针对此类版面元素类型的版面元素进行文本提取时，主要在于一段文本的提取，且该段文本中没有特定的关键词或者是键(key)可以用来定位，确定提取该段文字中的哪些文字，因此该版面元素类型的版面元素在进行模板匹配时，主要是确定待识别图像中的该版面元素相较于整个待识别图像中的位置，以及该版面元素中需要提取的文本信息在该版面元素中的相对位置。也就是说，通过将待识别图像划分为预设单元格尺寸的网格，确定该版面元素的文本框中心点所处的单元格坐标，以及将图像模板划分为预设单元格尺寸的网格，确定图像模板中的文本框所处的单元格坐标，可以确定该版面元素在待识别图像中的位置，以及基于单元格坐标和任一图像模板的文本框所处的单元格坐标进行匹配可以确定该版面元素对应任一图像模板中的相对位置，从而可以确定对版面元素的文本框中的哪些文本信息进行提取。

在另一种实现方式中，针对于多个图像模板中的任一图像模板，当获取该任一图像模板与任一版面元素之间的匹配结果的方式时，可以基于键值对匹配的模板匹配策略对任一图像模板与任一版面元素进行模板匹配，从而基于两者之间的匹配率确定匹配结果。具体地，可以针对任一版面元素的任一文本框，将任一文本框中的文本信息与任一图像模板中的各个键值进行前缀匹配；若任一图像模板中存在与任一文本框中的文本信息前缀匹配成功的目标键值，则将任一图像模板中的目标键值对应的值在任一图像模板中的位置映射到任一文本框中，得到任一文本框中的键值对应的值的候选映射区域；若任一文本框的中心点位于候选映射区域内，则提取任一文本框中的文本信息；将提取到的任一版面元素的各个文本框中的文本信息作为任一版面元素与任一图像模板的匹配结果。

其中，任一版面元素中可以包括多个文本框，每个文本框包括键值(也叫做键值对，即key和value，一个key对应一个value)，键值可以包括键(key)和值(value)，则前缀匹配可以是指任一文本框中的文本信息中的键与任一图像模板中的各个键值中的键进行匹配，若任一文本框中的文本信息中的键与任一图像模板中的各个键值中的键相同，则表示前缀匹配成功。候选映射区域可以是指图像模板中前缀匹配成功的目标键值对应的值映射在任一版面元素中的区域。例如前缀匹配上可以是指任一图像模板中的key“姓名”与任一文本框中的key“姓名”匹配上，则将任一图像模板中的key“姓名”对应的value“张三”映射到任一版面元素中的哪个位置(文本框)，得到该文本框中的值对应的候选映射区域，如果该文本框的中心点落在该候选映射区域内，表示该文本框中的文本信息“王五”为需要提取的文本信息。

本申请实施例中，由于任一图像模板中包括多个键值，任一版面元素包括多个文本框，则需要确定任一版面元素中的多个文本框分别与任一图像模板中的哪个键值对应，由于预先知道每个图像模板中的多个键值，即每个键值为姓名或者年龄或者出生日期，但对于任一版面元素包括的多个文本框，不知道每个文本框的类型为姓名还是年龄还是出生日期，因此通过前缀匹配可以确定任一版面元素的文本框与任一图像模板中的哪个键值匹配，进一步通过将任一图像模板中的匹配成功的目标键值对应的值在任一图像模板中的位置映射到任一版面元素的任一文本框中，从而基于任一版面元素的文本框的中心点与候选映射区域之间的关系，确定应该提取任一版面元素中的哪个文本框中的文本信息。

由于针对于键值对类型(如kv、kvintable、kvtable)的版面元素，版面元素是以键值对的形式存在的，该类型的版面元素的信息提取需要使用到任一图像模板中键值对应的key相对于任一版面元素的坐标和文本值，任一图像模板中键值对应的value相对于任一版面元素的坐标区域和任一版面元素中key相对于任一图像模板的坐标和文本值。因此，通过将任一图像模板中的各个键值与任一文本框中的文本信息进行前缀匹配，若前缀匹配成功，则进行value候选映射区域，候选映射区域的确定方法可以如公式(1)所示：

其中，候选映射区域的四个角点坐标分别映射为：

其中，

为任一版面元素内匹配上的文本框key的中心点坐标，/>

和/>

为任一版面元素内匹配上的文本框key和任一图像模板文本框key的宽与高，/>

为任一图像模板value区域的角点坐标，

为任一图像模板key的中心点坐标。

进一步地，通过遍历任一版面元素中的所有文本框的中心坐标是否落在候选映射区域内，若在候选映射区域内，则将该文本框中的文本信息确定为任一版面元素与任一图像模板的匹配结果。其中，由于且该任一文本框中含有冒号，则可以从冒号处对文本框进行切分，将冒号后的文字信息作为提取的文本信息。

如图8所示，图8是本申请实施例提供的一种候选映射区域的示意图，图8中的81为任一图像模板的示意图，其中包括6个文本框。图8中的82为任一版面元素的示意图，其中包括6个文本框。通过对任一版面元素中的文本框“姓名”与任一图像模板中的各个键值进行前缀匹配，例如与任一图像模板中的“姓名”匹配成功，则将任一图像模板中目标键值“姓名”对应的值“张三”在任一图像模板中的位置映射到任一版面元素的任一文本框中，得到任一文本框中的键值对应的值“张三”的候选映射区域；若任一文本框的中心点(如姓名的中心点)位于候选映射区域内，则提取“王五”，按照上述步骤依次提取“18”、“2004年01月08”作为任一版面元素与任一图像模板的匹配结果。或者提取“姓名：王五”、“年龄：18”、“出生日期：2004年01月08”作为任一版面元素与任一图像模板的匹配结果。

提取到的文本信息包括至少一个字符，任一图像模板的文本信息包括至少一个字符；任一版面元素与任一图像模板的匹配率的获取方式可以包括：统计提取到的文本信息中与任一图像模板的至少一个字符匹配的字符数量；基于统计到的字符数量和任一图像模板的文本信息包括的字符数量，确定任一版面元素与任一图像模板的匹配率。

例如，统计提取到的文本信息中与任一图像模板的至少一个字符匹配的字符数量为11个，任一图像模板的文本信息包括的字符数量为22个，则可以将统计到的字符数量和任一图像模板的文本信息包括的字符数量之间的比值，确定为任一版面元素与任一图像模板的匹配率，即匹配率为11/22＝1/2。

在又一种实现方式中，可以基于表格结构化处理的模板匹配策略对任一图像模板与任一版面元素进行模板匹配，从而基于两者之间的匹配率确定匹配结果。具体地，对任一版面元素中的文本信息进行表格结构化处理，得到任一版面元素的表格信息；遍历任一版面元素的表格信息中的各行和各列，若任一版面元素的表格信息中当前遍历的第m行的行标题与任一图像模板的表格信息中对应行的行标题匹配，且任一版面元素的表格信息中当前遍历的第n列的列标题与任一图像模板的表格信息中对应列的列标题匹配，则提取任一版面元素的表格信息中第m行第n列的文本信息；在遍历完成后，将提取到的任一版面元素的表格信息中的各个文本信息作为任一版面元素与任一图像模板的匹配结果。

其中，m和n均为正整数。对于包括行标题且包括列标题的表格，通过该种方式可以实现获取任一版面元素与任一图像模板的匹配结果。

在一种可能的情况下，若表格只包括行标题不包括列标题时，则可以对任一版面元素中的文本信息进行表格结构化处理，得到任一版面元素的表格信息；遍历任一版面元素的表格信息中的各行，若任一版面元素的表格信息中当前遍历的第m行的行标题与任一图像模板的表格信息中对应行的行标题匹配，则提取任一版面元素的表格信息中第m行的文本信息；在遍历完成后，将提取到的任一版面元素的表格信息中的各个文本信息作为任一版面元素与任一图像模板的匹配结果。

在另一种可能的情况下，若表格只包括列标题不包括行标题时，则可以对任一版面元素中的文本信息进行表格结构化处理，得到任一版面元素的表格信息；遍历任一版面元素的表格信息中的各列，若任一版面元素的表格信息中当前遍历的第n列的列标题与任一图像模板的表格信息中对应列的列标题匹配，则提取任一版面元素的表格信息中第n列的文本信息；在遍历完成后，将提取到的任一版面元素的表格信息中的各个文本信息作为任一版面元素与任一图像模板的匹配结果。

本申请实施例中，针对于行列结构全线表类、行列结构无线或半线表类，由于该种版面类型的版面元素需要先进行表格结构化，得到表格中每个单元格内的文本信息和其上下左右的单元格之间的相邻关系，版面元素的匹配就是将版面元素内的表格的第一行的行标题与任一图像模板中的第一行的行标题进行匹配，若匹配则说明该行为需要提取的信息，通过逐行进行字段的提取，可以提取到任一版面元素与任一图像模板的匹配结果。或者将版面元素内的表格的第一列的列标题与任一图像模板中的第一列的列标题进行匹配，若匹配则说明该列为需要提取的信息，通过逐列进行字段的提取，可以提取到任一版面元素与任一图像模板的匹配结果。

任一版面元素与任一图像模板的匹配率的获取方式可以包括：基于提取到的文本信息的数量和任一图像模板的表格信息包括的文本信息的数量总和，确定任一版面元素与任一图像模板的匹配率。

具体实现中，可以将提取到的文本信息的数量与任一图像模板的表格信息包括的文本信息的数量总和之间的比值，确定为任一版面元素与任一图像模板的匹配率。例如提取到的文本信息的数量为10个，任一图像模板的表格信息包括的文本信息的数量总和为30个，则任一版面元素与任一图像模板的匹配率为10/30＝1/3。

本申请实施例是以针对待识别图像中的任一版面元素进行处理提取该任一版面元素中的文本信息进行的举例说明，针对于待识别图像包含的其他版面元素，可以参考对该任一版面元素的处理方式，从而实现从待识别图像包含的各个版面元素中提取文本信息，针对于待识别图像中的其他版面元素中的文本信息提取过程不做过多描述。

S104，将从各个版面元素中提取的文本信息进行融合处理，得到待识别图像的文本图像信息。

本申请实施例中，由于待识别图像包括至少一个版面元素，并且通过上述步骤可以从每个版面元素中提取到文本信息，因此可以将从各个版面元素中提取的文本信息进行融合处理，得到待识别图像的文本图像信息。其中，融合处理可以是指对各个版面元素中提取的文本信息进行拼接。待识别图像的文本图像信息是指从待识别图像中的每个版面元素中提取的文本信息组成的信息。例如从待识别图像中的版面元素1中提取到文本信息1、从待识别图像中的版面元素2中提取到文本信息2、从待识别图像中的版面元素3中提取到文本信息3，则待识别图像的文本图像信息是由文本信息1、文本信息2、文本信息3组成的信息。可以理解的是，待识别图像的文本图像信息中每个文本信息的位置对应于待识别图像中每个版面元素在待识别图像中的位置。例如待识别图像中的版面元素1中的文本信息1位于待识别图像的正上方位置，待识别图像中的版面元素2中的文本信息2位于待识别图像的中间位置，待识别图像中的版面元素3中的文本信息3位于待识别图像的右下角位置，则待识别图像的文本图像信息中的文本信息1位于图像的正上方位置，待识别图像的文本图像信息中的文本信息2位于图像的中间位置，待识别图像的文本图像信息中的文本信息3位于图像的右下角位置。

通过获取到待识别图像中的各个版面元素对应的文本信息，可以归纳所有版面元素的文本信息，将归纳后的所有版面元素的文本信息作为整个待识别图像的文本图像信息，从而实现对待识别图像的文本提取。

进一步地，下面针对模板匹配的过程进行说明，如图9所示，图9是本申请实施例提供的一种模板匹配方法的流程示意图，如图9所示，该模板匹配方法可以应用于计算机设备，该模板匹配方法包括但不限于以下步骤：

S201，获取待识别图像包含的至少一个版面元素的版面元素类型。

本申请实施例中，步骤S201的具体实现方式可以参考图3中步骤S101～步骤S102中的实现方式，此处不再赘述。

S202，获取多个图像模板子集。

本申请实施例中，在获取多个图像模板子集之前，可以预先获取样本集，样本集中包括大量图像模板，并对样本集中的每个图像模板进行预分类，后续可以从分类后的图像模板中获取图像模板，降低模板获取效率。具体地，可以获取样本集中每个图像模板的类别，将样本集中属于相同类别的图像模板划分至同一个图像模板集；若任一图像模板集中的图像模板数量大于数量阈值，则基于每个图像模板的属性对任一图像模板集中的图像模板进行分类，将具有相同属性的图像模板划分至同一个图像模板子集，得到多个图像模板子集。图像模板的属性包括图像模板关联的地区、机构、车辆型号中的至少一种。

通过对样本集中的大量图像模板进行分类，可以实现将不同类型的图像模板划分至不同的图像模板集，在后续获取与任一版面元素的版面元素类型相同的图像模板时，可以从对应的图像模板子集或者图像模板集中获取与任一版面元素的版面元素类型相同的图像模板，减少图像模板匹配的数量，避免图像模板匹配时需要匹配样本集中的所有图像模板导致匹配效率降低，影响整个流程的效率。例如，当存在大量样本集时，可以按照类别对大量样本集进行分类得到图像模板集，例如类别可以包括但不限于发票、费用清单、保单、诊断证明等类别，根据类别分类完之后，得到每种类别对应的图像模板集，后续只需要将待识别图像包括的各个版面元素的版面元素类型与对应类型的图像模板集中的图像模板进行匹配。无需对样本集中所有图像模板进行匹配，可以提高模板匹配效率。具体实现中，可以根据OCR结果对图像模板进行预分类，通过对图像模板进行预分类，可以减少待识别图像进与图像模板进行比对的次数，降低无效匹配频次，提高模板匹配效率。

进一步地，例如某个类型的细分图像模板的数量依旧较多，即图像模板集中图像模板的数量大于数量阈值，则可以根据该细分类结果再进行分类得到多个图像模板子集，比如根据图像模板的属性如图像模板关联的地区、机构、车辆型号等作为细分类依据，从而得到每个地区对应的图像模板或者每个公司对应的图像模板或者每种车型对应的图像模板。例如医疗发票各省的模板都不一样，因此可以对图像模板进行图像识别得到每个图像模板关联的省份，从而实现对图像模板的细分类，得到多个图像模板子集。

S203，针对任一版面元素，从多个图像模板子集中获取与任一版面元素的版面元素类型相同的图像模板子集。

由于对大量图像模板进行了分类和细分类，得到多个图像模板子集，则可以从多个图像模板子集中获取与任一版面元素的版面元素类型相同的图像模板子集，图像模板子集中可以包括一个或者多个图像模板，则后续可以使用图像模板子集中包括的多个图像模板分别与任一版面元素进行模板匹配，以提取任一图像模板中的文本信息。

S204，根据各个版面元素的版面元素类型使用不同的模板匹配策略，得到任一版面元素和图像模板子集中各个图像模板的匹配率和匹配结果。

由于待识别图像中包括多个版面元素，而每个版面元素的的版面元素类型不同，因此可以针对于每个版面元素确定对应的图像模板，从而基于不同的图像模板采用不同的模板匹配策略，得到任一版面元素和图像模板子集中各个图像模板的匹配率和匹配结果。模板匹配策略可以包括步骤S103中基于单元格划分的模板匹配策略、基于键值对匹配的模板匹配策略以及基于表格结构化处理的模板匹配策略，等等，在实际应用过程中，可以根据各个版面元素的版面元素类型选择对应的模板匹配策略，从而实现针对性文本信息提取。

S205，选取匹配率最大的图像模板与任一版面元素的匹配结果，作为从任一版面元素中提取的文本信息。

本申请实施例中，步骤S203～步骤S205的具体实现方式可以参考图3中步骤S103中的实现方式，此处不再赘述。

S206，将从各个版面元素中提取的文本信息进行融合处理，得到待识别图像的文本图像信息。

本申请实施例中，步骤S206的具体实现方式可以参考图3中步骤S104中的实现方式，此处不再赘述。

进一步地，请参见图10，图10是本申请实施例提供的另一种数据处理方法的流程示意图；如图10所示，该方法可以应用于计算机设备，该数据处理方法包括但不限于以下步骤：

S301，对待识别图像进行版面元素识别处理，确定待识别图像包含的至少一个版面元素。

S302，通过目标检测模型对待识别图像包含的各个版面元素进行版面元素类型检测处理，得到各个版面元素的版面元素类型。

S303，针对任一版面元素，获取与任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与任一版面元素进行模板匹配，确定任一版面元素中待提取的文本信息。

本申请实施例中，步骤S301～步骤S303的具体实现方式可以参考图3中步骤S101～步骤S103中的实现方式，此处不再赘述。

可选地，在获取与任一版面元素的版面元素类型匹配的图像模板之前，可以预先基于图像模板中的元素类型对图像模板进行模板标注，从而知道图像模板包括的各个版面元素的类型以及各个版面元素在图像模板中的位置，因此在后续将任一版面元素与图像模板进行模板匹配时，可以获取模板标注后的图像模板，基于标注后的图像模板与任一版面元素进行模板匹配。

具体地，可以选取大量样本集，对样本集中与预设图像不匹配的图像模板进行旋转矫正处理，得到与预设图像匹配的图像模板；获取每个图像模板的版面元素类型，基于版面元素类型对每个图像模板进行模板标注。

具体实现中，在选取样本集时，样本集的选取可以覆盖所有已知的细分类中的每个版面元素类型，每个版面元素类型的图像模板至少标注一个，若样本集中的图像模板与预设图像不匹配，则可以对样本集中的图像模板进行旋转矫正处理，将样本集中与预设图像不匹配的图像模板转换为与预设图像匹配的图像模板。若样本集中的图像模板中的文本信息不清晰完整、存在褶皱，或者存在畸形、旋转等情况，则可以基于人工修图手段对图像模板进行矫正，使得图像模板与预设图像匹配，便于后续进行模板匹配。

进一步地，由于不同版面元素类型中的文本信息的提取方式不同，因此需要根据不同的版面元素类型针对性设置模板标注方式，一下对几种版面元素类型的图像模板的模板标注方式进行举例说明：

针对于文本类(text)、标题类(title)和印章类(seel)版面元素，由于这些类型的版面元素中需要提取的文本信息一般是一段文本，例如标题中提取产品名称或者票据类别、在印章中提取机构名称等，因此这些类型的图像模板的标注方式就是将图像模板中版面元素内需要提取的文本框位置标记出，并标注上对应的版面元素类型。如图11a-图11d所示，图11a-图11d是本申请实施例提供的一种图像模板标注的示意图，其中，标注后的图像模板中的标题类版面元素如图11a所示，标注后的印章类版面元素如图11b所示。

进一步地，针对于键值对类(kv)、键值对为表格值类(kvintable)、非行列格式全线表类(kvtable)，由于这些类型的版面元素是以键值对的形式存在的，因此在进行模板标注时需要标注所需要提取字段key的文本内容和文本位置，以及value的候选区域，其中候选区域的标注框的面积可以大于面积阈值，便于后续value的文本匹配。如图11c所示，图11c展示了3个键值对类型字段的图像模板标注样例，标注的内容有保单号key的文本值为“保险合同号码”和其文本的位置框，以及其对应的value“90XXXXXX”的候选区域；缴别的key的文本值为“缴费方式”和其文本的位置框以及其对应的value“年交”的候选区域；保单生效日期的key的文本值为“合同生效日”和其文本的位置框以及其对应的value“2015年09月19日”的候选区域。

进一步地，针对于表格类如行列结构全线表类(wiredtable)和行列结构无线/半线表类(wirelesstable)，这些表格类的文本信息提取还需要进行表格结构化，得到表格中每个单元格的相对关系，因此在对图像模板进行模板标注时需要标注出表格的每行的行名和每列的列名，如图11d展示了表格的列名标注样例，标注了字段保险名称的文本内容“保险项目”与其位置、字段保障期限的文本内容“保险期间”与其位置、字段缴费期限的文本内容“交费年限”与其位置、字段保额的文本内容“基本保险金额”与其位置和字段保费的文本内容“保险费”与其位置。可以理解的是，上述的位置可以是指在图像模板中的位置，也可以是指在对应的版面元素中的位置。

本申请实施例中，由于针对图像模板进行了分类以及细分类，并对每个图像模板进行了模板标注，因此在获取到待识别图像包含的任一版面元素的版面元素类型匹配的图像模板时，可以基于图像模板中的模板标注与任一版面元素进行模板匹配，以确定任一版面元素中待提取的文本信息。由于预先对图像模板进行了模板标注，因此在后续提取待识别图像中的文本信息时，可以提升文本信息提取的准确性和效率。

S304，对任一版面元素中待提取的文本信息进行筛选及归一化处理，从筛选及归一化处理后的待提取的文本信息中提取文本信息。

本申请实施例中，由于通过上述步骤确定出待识别图像包含的任一版面元素中待提取的文本信息，可以进一步对待提取的文本信息进行筛选以及归一化处理，提高文本提取的准确率。具体地，确定待提取文本信息的信息类别，基于文本信息的信息类别确定信息筛选规则，基于信息筛选规则对待提取文本信息进行筛选处理，得到筛选文本信息；确定筛选文本信息的文本格式是否为目标文本格式，若筛选文本信息的文本格式不为目标文本格式，则对筛选文本信息进行归一化处理，将筛选文本信息的文本格式映射为目标文本格式，从任一版面元素中提取具有目标文本格式的筛选文本信息，作为任一版面元素中提取的文本信息。

其中，信息筛选规则与文本信息的信息类别对应，若文本信息的信息类别为姓名，则信息筛选规则可以为文本信息中的字符长度大于第一字符阈值且小于第二字符阈值。若文本信息的信息类别为机构，则信息筛选规则可以为文本信息中处于目标位置的文本为预设字符，例如预设字符可以是指机构、公司、单位，得到。目标文本格式可以是指预先设置的文本格式，目标文本格式可以包括目标日期格式、目标金额格式、目标表述格式。例如目标日期格式可以为“XXXX年XX月XX日”、“XXXX-XX-XX”、“XXXX/XX/XX”中的一种，目标金额格式可以为“伍拾肆万叁仟贰佰陆拾柒圆整”或“543267元”中的一种。目标表述格式可以为“年缴”、“年交”、“按年”、“按年交”中的一种。

由于在模板信息提取的过程中可能匹配到错误信息，因此可以对待提取的文本信息进行筛选，例如在提取姓名字段时，可以判断待提取的文本信息中的字符长度是否大于第一字符阈值且小于第二字符阈值，若待提取的文本信息中的字符长度小于第一字符阈值或者大于第二字符阈值，则可以过滤待提取文本信息。又例如在提取机构字段时，可以判断待提取的文本信息是否以“机构”、“公司”、“单位”等预设字符作为结束，若待提取的文本信息不是以预设字符作为结束则可以过滤待提取文本信息。从而可以实现对不符合要求的待提取文本信息进行过滤，提升文本信息提取的准确性。进一步地，在对待提取文本信息进行筛选后，可以进一步对其进行归一化处理，由于业务需要的部分字段(如日期、金额)格式可能与待识别图像中的文本信息并不完全一致，因此可以对待提取的文本信息进行归一化处理，将其映射为业务需要的目标文本格式。例如待识别图像上的日期可能表现为XXXX年XX月XX日，也可能表现为XXXX-XX-XX，又或者是XXXX/XX/XX，都可以将其归一化处理映射为目标文本格式如“XXXX年XX月XX日”。又例如待识别图像中的金额包含大写如“伍拾肆万叁仟贰佰陆拾柒圆整”，小写为543267元，可以将其归一化处理映射为目标文本格式如“543267元”。由于在某些情况下不同人群对同一物体的描述不同，因此也可以通过归一化处理映射为目标文本格式。例如保单中的缴费方式字段的“年缴”在不同机构的保单中的表述可能为“年缴”、“年交”、“按年”、“按年交”等情况，因此可以根据业务的需要定制化映射归一化配置，实现对不同描述方式的支持。

S305，将从各个版面元素中提取的文本信息进行融合处理，得到待识别图像的文本图像信息。

本申请实施例中，通过对任一版面元素中待提取的文本信息进行筛选及归一化处理，从筛选及归一化处理后的待提取的文本信息中提取文本信息，由于针对待识别图像中的各个版面元素提取到对应的文本信息，因此可以将从各个版面元素中提取的文本信息进行融合处理，得到待识别图像的文本图像信息。具体融合处理方式可参考步骤S104中的实现方式，此处不再赘述。

可以理解的是，本申请实施例中所列举的如版面元素检测、表格结构化、图像模板预分类等算法均不局限于本申请实施例中描述的方法，还可以使用任意其他可实现相同功能的方法。本申请实施例中所列举的版面元素类型也不仅仅只有本申请实施例中所叙述的14种类型，在不同的业务场景下还可以有其他版面元素类型，本申请实施例中对此不作限定。

在本申请实施例中，由于在许多需要图像识别或者图像信息抽取的场景下，需要从对象上传的图像中提取出所需的业务字段，将其应用于后续的业务办理中。例如需要从发票中提取姓名、发票金额、开票日期等字段，又或者从保单中提取被保人、保障期限、责任保额等字段。但由于目前的数据处理方法具有各种各样的缺点，例如使用固定模板匹配无法泛化用于细微排版差异的目标图片中，自然语言处理模型需要大量人工标注样例进行模型训练导致开发成本较大。然而采用本申请实施例的方法，可使用简单的模板标注实现多个业务场景下文本图像的信息抽取的落地应用。

由于本申请实施例的图像模板中包括多种类别的图像，例如发票、费用清单、保单、诊断证明等类别，因此本申请的通用性较强，可以适用于可枚举的多种文本图像领域内，并且开发代价小，只需要对模板图像进行细分类开发和模板标注即可，落地应用速度快，可以快速应用于新领域需求上线。进一步地，本申请相较于目前的模板匹配信息提取方案，引入了版面元素分析和表格结构化等操作，提高了模板匹配和信息提取的泛化性。此外，本申请相较于人工策略进行图像文本信息提取方案而言，极大地降低了开发人员的开发量，在有限的数据集中实现了较好的效果。如表2所示，表2为在保单信息提取场景下人工策略与本申请技术方案的精度对比：

表2

字段	人工策略	本申请技术方案
			保单号	86.9％	78.7％
投保人	82.8％	80.3％
			被保人	76.8％	76.4％
受益人	79.5％	80.3％
			保单生效时间	95.9％	79.5％
保单终止时间	82.8％	87.7％
			保障期限	82.0％	74.6％

从表2中可以看出，将本申请技术方案应用于保单信息提取场景下，在多个字段(如受益人、保单终止时间)达到了与人工策略相同甚至更高的精度，并且开发代价更小。

上面介绍了本申请实施例的方法，下面介绍本申请实施例的装置。

参见图12，图12是本申请实施例提供的一种数据处理装置的结构示意图，上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该数据处理装置可以用于执行本申请实施例提供的数据处理方法中的相应步骤。该数据处理装置120包括：

版面识别单元1201，用于对该待识别图像进行版面元素识别处理，确定该待识别图像包含的至少一个版面元素；

元素检测单元1202，用于通过目标检测模型对该待识别图像包含的各个版面元素进行版面元素类型检测处理，得到该各个版面元素的版面元素类型；

文本提取单元1203，用于针对任一版面元素，获取与该任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与该任一版面元素进行模板匹配，以从该任一版面元素中提取文本信息；

文本融合单元1204，用于将从该各个版面元素中提取的文本信息进行融合处理，得到该待识别图像的文本图像信息。

可选地，该与该任一版面元素的版面元素类型匹配的图像模板的数量为至少一个；该文本提取单元1203，具体用于：

将获取到的各个图像模板与该任一版面元素进行模板匹配，得到该任一版面元素与该各个图像模板的匹配率和匹配结果，该任一版面元素与任一图像模板的匹配结果指的是：按照该任一图像模板与该任一版面元素进行模板匹配的方式，从该任一版面元素中提取的文本信息；

将匹配率最大的图像模板与该任一版面元素的匹配结果，作为从该任一版面元素中提取的文本信息。

可选地，该文本提取单元1203，具体用于：

按照预设单元格尺寸对该任一版面元素在该待识别图像中的图像区域进行划分，得到该图像区域的网格，该网格包括的各个单元格的单元格尺寸为该预设单元格尺寸；

确定该任一版面元素的文本框中心点所处的单元格坐标；

若该单元格坐标位于该任一图像模板的文本框所处的单元格坐标内，则将该任一版面元素的文本框中的文本信息作为该任一版面元素与任一图像模板的匹配结果。

可选地，该任一版面元素的文本框中的文本信息包括至少一个字符，该任一图像模板的文本信息包括至少一个字符；该文本提取单元1203，具体用于：

统计该任一版面元素的文本信息中与该任一图像模板的至少一个字符匹配的字符数量；

基于统计到的字符数量和该任一图像模板的文本信息包括的字符数量，确定该任一版面元素与任一图像模板的匹配率。

可选地，该文本提取单元1203，具体用于：

针对该任一版面元素的任一文本框，将该任一文本框中的文本信息与该任一图像模板中的各个键值进行前缀匹配；

若该任一图像模板中存在与该任一文本框中的文本信息前缀匹配成功的目标键值，则将该任一图像模板中的目标键值对应的值在该任一图像模板中的位置映射到该任一文本框中，得到该任一文本框中的键值对应的值的候选映射区域；

若该任一文本框的中心点位于该候选映射区域内，则提取该任一文本框中的文本信息；

将提取到的该任一版面元素的各个文本框中的文本信息作为该任一版面元素与任一图像模板的匹配结果。

可选地，该提取到的文本信息包括至少一个字符，该任一图像模板的文本信息包括至少一个字符；该文本提取单元1203，具体用于：

统计提取到的文本信息中与该任一图像模板的至少一个字符匹配的字符数量；

可选地，该文本提取单元1203，具体用于：

对该任一版面元素中的文本信息进行表格结构化处理，得到该任一版面元素的表格信息；

遍历该任一版面元素的表格信息中的各行和各列，若该任一版面元素的表格信息中当前遍历的第m行的行标题与该任一图像模板的表格信息中对应行的行标题匹配，且该任一版面元素的表格信息中当前遍历的第n列的列标题与该任一图像模板的表格信息中对应列的列标题匹配，则提取该任一版面元素的表格信息中第m行第n列的文本信息，m和n均为正整数；

在遍历完成后，将提取到的该任一版面元素的表格信息中的各个文本信息作为该任一版面元素与任一图像模板的匹配结果。

可选地，该文本提取单元1203，具体用于：

基于提取到的文本信息的数量和该任一图像模板的表格信息包括的文本信息的数量总和，确定该任一版面元素与任一图像模板的匹配率。

需要说明的是，图12对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

参见图13，图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，上述计算机设备130可以包括：处理器1301，网络接口1304和存储器1305，此外，上述计算机设备130还可以包括：用户接口1303，和至少一个通信总线1302。其中，通信总线1302用于实现这些组件之间的连接通信。其中，用户接口1303可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1303还可以包括标准的有线接口、无线接口。网络接口1304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1305可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1305可选的还可以是至少一个位于远离前述处理器1301的存储装置。如图13所示，作为一种计算机可读存储介质的存储器1305中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图13所示的计算机设备130中，网络接口1304可提供网络通讯功能；而用户接口1303主要用于为用户提供输入的接口；而处理器1301可以用于调用存储器1305中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备130可执行前文图3、图9和图10所对应实施例中对上述方法的描述，也可执行前文图12所对应实施例中对上述数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被计算机执行时使该计算机执行如前述实施例的方法，该计算机可以为上述提到的计算机设备的一部分。例如为上述的处理器1301。作为示例，程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，该方法包括：

对待识别图像进行版面元素识别处理，确定所述待识别图像包含的至少一个版面元素；

通过目标检测模型对所述待识别图像包含的各个版面元素进行版面元素类型检测处理，得到所述各个版面元素的版面元素类型；

针对任一版面元素，获取与所述任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与所述任一版面元素进行模板匹配，以从所述任一版面元素中提取文本信息；

将从所述各个版面元素中提取的文本信息进行融合处理，得到所述待识别图像的文本图像信息。

2.根据权利要求1所述的方法，其特征在于，所述与所述任一版面元素的版面元素类型匹配的图像模板的数量为至少一个；

所述将获取的图像模板与所述任一版面元素进行模板匹配，以从所述任一版面元素中提取文本信息，包括：

将获取到的各个图像模板与所述任一版面元素进行模板匹配，得到所述任一版面元素与所述各个图像模板的匹配率和匹配结果，所述任一版面元素与任一图像模板的匹配结果指的是：按照所述任一图像模板与所述任一版面元素进行模板匹配的方式，从所述任一版面元素中提取的文本信息；

将匹配率最大的图像模板与所述任一版面元素的匹配结果，作为从所述任一版面元素中提取的文本信息。

3.根据权利要求2所述的方法，其特征在于，所述任一版面元素与任一图像模板的匹配结果的获取方式包括：

按照预设单元格尺寸对所述任一版面元素在所述待识别图像中的图像区域进行划分，得到所述图像区域的网格，所述网格包括的各个单元格的单元格尺寸为所述预设单元格尺寸；

确定所述任一版面元素的文本框中心点所处的单元格坐标；

若所述单元格坐标位于所述任一图像模板的文本框所处的单元格坐标内，则将所述任一版面元素的文本框中的文本信息作为所述任一版面元素与任一图像模板的匹配结果。

4.根据权利要求3所述的方法，其特征在于，所述任一版面元素的文本框中的文本信息包括至少一个字符，所述任一图像模板的文本信息包括至少一个字符；

所述任一版面元素与任一图像模板的匹配率的获取方式包括：

统计所述任一版面元素的文本信息中与所述任一图像模板的至少一个字符匹配的字符数量；

基于统计到的字符数量和所述任一图像模板的文本信息包括的字符数量，确定所述任一版面元素与任一图像模板的匹配率。

5.根据权利要求2所述的方法，其特征在于，所述任一版面元素与任一图像模板的匹配结果的获取方式包括：

针对所述任一版面元素的任一文本框，将所述任一文本框中的文本信息与所述任一图像模板中的各个键值进行前缀匹配；

若所述任一图像模板中存在与所述任一文本框中的文本信息前缀匹配成功的目标键值，则将所述任一图像模板中的目标键值对应的值在所述任一图像模板中的位置映射到所述任一文本框中，得到所述任一文本框中的键值对应的值的候选映射区域；

若所述任一文本框的中心点位于所述候选映射区域内，则提取所述任一文本框中的文本信息；

将提取到的所述任一版面元素的各个文本框中的文本信息作为所述任一版面元素与任一图像模板的匹配结果。

6.根据权利要求5所述的方法，其特征在于，所述提取到的文本信息包括至少一个字符，所述任一图像模板的文本信息包括至少一个字符；

统计提取到的文本信息中与所述任一图像模板的至少一个字符匹配的字符数量；

7.根据权利要求2所述的方法，其特征在于，所述任一版面元素与任一图像模板的匹配结果的获取方式包括：

对所述任一版面元素中的文本信息进行表格结构化处理，得到所述任一版面元素的表格信息；

遍历所述任一版面元素的表格信息中的各行和各列，若所述任一版面元素的表格信息中当前遍历的第m行的行标题与所述任一图像模板的表格信息中对应行的行标题匹配，且所述任一版面元素的表格信息中当前遍历的第n列的列标题与所述任一图像模板的表格信息中对应列的列标题匹配，则提取所述任一版面元素的表格信息中第m行第n列的文本信息，m和n均为正整数；

在遍历完成后，将提取到的所述任一版面元素的表格信息中的各个文本信息作为所述任一版面元素与任一图像模板的匹配结果。

8.根据权利要求7所述的方法，其特征在于，所述任一版面元素与任一图像模板的匹配率的获取方式包括：

基于提取到的文本信息的数量和所述任一图像模板的表格信息包括的文本信息的数量总和，确定所述任一版面元素与任一图像模板的匹配率。

9.一种数据处理装置，其特征在于，包括：

版面识别单元，用于对所述待识别图像进行版面元素识别处理，确定所述待识别图像包含的至少一个版面元素；

元素检测单元，用于通过目标检测模型对所述待识别图像包含的各个版面元素进行版面元素类型检测处理，得到所述各个版面元素的版面元素类型；

文本提取单元，用于针对任一版面元素，获取与所述任一版面元素的版面元素类型匹配的图像模板，并将获取的图像模板与所述任一版面元素进行模板匹配，以从所述任一版面元素中提取文本信息；

文本融合单元，用于将从所述各个版面元素中提取的文本信息进行融合处理，得到所述待识别图像的文本图像信息。

10.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以使得所述计算机设备执行权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-8任一项所述的方法。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1-8任一项所述的方法。