CN112906801A

CN112906801A - 一种图像处理的方法、装置和存储介质

Info

Publication number: CN112906801A
Application number: CN202110224205.8A
Authority: CN
Inventors: 李壮
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Beijing Fangjianghu Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-04

Abstract

本申请公开了一种图像处理的方法、装置和存储介质，具体为首先获取待处理图像，其次，利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据，进一步地，将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块，生成文本信息对应在水平矩形区域中的矩形文本图像，最后，提取矩形文本图像中的水平文本信息，并将水平文本信息输出。本申请实施例通过自适应贝塞尔曲线网络模型对待处理图像中的文本信息进行提取和矫正，获取文本信息对应的水平文本，直接对待处理图片进行处理，不再进行特征提取，提升了识别效率和准确率。

Description

一种图像处理的方法、装置和存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理的方法、装置和存储介质。

背景技术

印章在合同等常用票据中广泛存，其作用是确认文件的有效性和合法性，并通过印章的文字内容来确认盖章机构。目前，这种印章的确认工作通常人工来进行，可能导致较为昂贵的人力成本。而普通的光学字符识别(Optical Character Recognition，OCR)技术，由于印章文字弯曲和背景干扰等问题，导致识别准确率较低。

发明内容

本申请实施例提供了一种图像处理的方法，克服了对图像中的文字识别效率和识别准确率较低的问题。

该方法包括：

获取待处理图像；

利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据；

将所述待处理图像和所述控制点数据输入所述自适应贝塞尔曲线网络模型中的矫正模块，生成所述文本信息对应在水平矩形区域中的矩形文本图像；

提取所述矩形文本图像中的水平文本信息，并将所述水平文本信息输出。

可选地，获取待训练图像样本；

利用贝塞尔曲线在所述待训练图像样本中拟合化在所述待训练图像样本中识别的文本信息，确定包含所述文本信息所在区域对应的初始控制点数据；

训练各个所述初始控制点数据中的各个所述初始控制点的坐标信息与对应的所述文本信息所在区域的顶点的坐标信息之间的距离为最小值。

可选地，基于所述控制点数据，计算所述文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息；

在所述像素点中选取采样点，并根据所述采样点的所述坐标信息和像素值，通过双线性插值法确定所述文本信息对应在水平矩形区域中的所述像素点的像素值，生成所述矩形文本图像。

可选地，将所述矩形文本图像等比例缩放至预设比例后，判断缩放至预设比例的所述矩形文本图像的宽度与预设宽度值的大小；

当所述矩形文本图像的宽度小于所述预设宽度值时，在将所述矩形文本图像距离所述预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点；

当所述矩形文本图像的宽度大于所述预设宽度值时，将所述矩形文本图像的宽度缩放至所述预设宽度值；

将经过处理后的所述矩形文本图像输入预先训练的文本提取模型，获取所述矩形文本图像中的所述水平文本信息。

在本发明的另一个实施例中，提供了一种图像处理的装置，该装置包括：

获取模块，用于获取待处理图像；

检测模块，用于利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据；

生成模块，用于将所述待处理图像和所述控制点数据输入所述自适应贝塞尔曲线网络模型中的矫正模块，生成所述文本信息对应在水平矩形区域中的矩形文本图像；

提取模块，用于提取所述矩形文本图像中的水平文本信息，并将所述水平文本信息输出。

可选地，所述检测模块还包括：

获取单元，用于获取待训练图像样本；

确定单元，用于利用贝塞尔曲线在所述待训练图像样本中拟合化在所述待训练图像样本中识别的文本信息，确定包含所述文本信息所在区域对应的初始控制点数据；

训练单元，用于训练各个所述初始控制点数据中的各个所述初始控制点的坐标信息与对应的所述文本信息所在区域的顶点的坐标信息之间的距离为最小值。

可选地，所述生成模块进一步用于：

基于所述控制点数据，计算所述文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息；

可选地，所述提取模块进一步用于：

将所述矩形文本图像等比例缩放至预设比例后，判断缩放至预设比例的所述矩形文本图像的宽度与预设宽度值的大小；

在本发明的另一个实施例中，提供了一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行上述一种图像处理的方法中的各个步骤。

在本发明的另一个实施例中，提供了一种终端设备，包括处理器，所述处理器用于执行上述一种图像处理的方法中的各个步骤。

基于上述实施例，首先获取待处理图像，其次，利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据，进一步地，将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块，生成文本信息对应在水平矩形区域中的矩形文本图像，最后，提取矩形文本图像中的水平文本信息，并将水平文本信息输出。本申请实施例通过自适应贝塞尔曲线网络模型对待处理图像中的文本信息进行提取和矫正，获取文本信息对应的水平文本，直接对待处理图片进行处理，不再进行特征提取，提升了识别效率和准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了为本申请实施例100所提供的一种图像处理的方法的流程示意图；

图2示出了本申请实施例200提供的自适应贝塞尔曲线网络模型中检测模块的训练过程的示意图；

图3示出了本申请实施例300提供的待处理图像通过自适应贝塞尔曲线网络模型生成矩形文本图像的示意图；

图4示出了本申请实施例400提供的待训练图像样本中对文本信息进行贝塞尔参数表示的示意图；

图5示出了本申请实施例500还提供一种图像处理的装置的示意图；

图6示出了本申请实施例600所提供的一种终端设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″、″第四″等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语″包括″和″具有″以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

基于现有技术中的问题，本申请实施例提供了一种图像处理的方法，主要适用于计算机技术领域。通过对待处理图像基于自适应贝塞尔曲线后的文本信息进行曲线表示，获取文本信息对应的控制点数据，进一步对检测出的文本信息进行矫正，输出对应的水平文本后，对该水平文本进行文本识别，得到最终的水平文本信息，以实现一种图像处理的方法。以下几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。如图1所示，为本申请实施例100提供的一种图像处理的方法的流程示意图。其中，详细步骤如下：

步骤S11，获取待处理图像。

本步骤中，本申请实施例中获取的待处理图像主要为包含文本信息的图像，如包含印章的图像等。

步骤S12，利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据。

本步骤中，自适应贝塞尔曲线网络模型中的检测模块为主要利用贝塞尔曲线进行自适应拟合任意形状文本的网络模型。一般应用于二维图形应用程序的数学曲线，可以使用很少的控制点生成复杂平滑曲线。具体地，对自适应贝塞尔曲线网络模型中的检测模块预先进行训练，训练生成可直接输出可视化的待处理图像中的文本信息所在的区域的图像，以及对应的控制点数据。其中，文本信息所在的区域可以为曲线文本区域也可为水平文本区域。

进一步地，自适应贝塞尔曲线网络模型中的检测模块对输入的待处理图像进行检测，获取与待处理图像中文本信息所在区域对应的拟合后的曲线包络的控制点数据。如图3所示，为本申请实施例300示出的待处理图像通过自适应贝塞尔曲线网络模型生成矩形文本图像的示意图。

步骤S13，将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块，生成文本信息对应在水平矩形区域中的矩形文本图像。

本步骤中，检测模块输出待处理图像中文本信息所在的区域对应的控制点数据后，矫正模块基于该控制点数据对待处理图像中的文本信息所在的区域进行矫正。

基于控制点数据，计算文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息。以及，在像素点中选取采样点，并根据采样点的坐标信息和像素值，通过双线性插值法确定文本信息对应在水平矩形区域中的像素点的像素值，生成矩形文本图像。可选地，基于控制点数据计算出文本信息所在的区域对应的曲线包络上各个像素点的坐标，并基于该各个像素点计算文本信息对应在水平矩形区域中的像素点的像素值。

如本申请实施例中示出的包含印章的待处理图像，由于印章多为红色字体，可在RGB三通道的R通道中提取矩形文本图像并保存为灰度图像，作为后续矫正模块的输入图像。进一步地，通过前述检测模块输出的控制点数据，通过贝塞尔多项式计算出文本信息所在的曲线包络中各个像素点的坐标信息。在曲线包络上选取采样点，并将曲线包络区分为上边界和下边界。根据曲线包络的上边界和下边界，对采样点通过双线性插值法确定文本信息对应在水平矩形区域中的像素点的像素值。最后，输出计算完成的文本信息对应在水平矩形区域中的矩形文本图像，完成图像矫正。如图3所示，经过前述处理后，输出待处理图像中的文本信息矫正后的矩形文本图像。

步骤S14，提取矩形文本图像中的水平文本信息，并将水平文本信息输出。

本步骤中，将矩形文本图像等比例缩放至预设比例后，判断缩放至预设比例的矩形文本图像的宽度与预设宽度值的大小。进一步地，当矩形文本图像的宽度小于预设宽度值时，在将矩形文本图像距离预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点；当矩形文本图像的宽度大于预设宽度值时，将矩形文本图像的宽度缩放至预设宽度值。最后，将经过处理后的矩形文本图像输入预先训练的文本提取模型，获取矩形文本图像中的水平文本信息。

可选地，等比例放缩矩形文本图像，其中预设比例基于业务需要设置。如矩形文本图像的高度为h，宽度为w，可选择x/h作为预设比例ratio，用w＊ratio得到缩放后的宽度。进一步地，使用线性插值的方法，将矩形文本图像缩放至(x，w＊ratio)的比例。其中，本申请实施例中的x的数值优选32。

可选地，判断缩放至预设比例的矩形文本图像的宽度与预设宽度值的大小。若不足预设宽度值，则需要补充文字内边距；若超过预设宽度值，则需要将宽度进一步缩放至预设宽度值。具体地，若设置预设宽度值为y，当矩形文本图像的宽度大于y时，则收缩矩形文本图像到x＊y；若矩形文本图像的宽度不足y时，则将矩形文本图像置于左侧或右侧，在相对的另一侧的内边距中添加像素值为0的像素点，将矩形文本图像的比例补充至x＊y。其中，本申请实施例中的y的数值优选384。

进一步地，使用ResNet等预先训练的文本提取模型，对经过前述处理获取的矩形文本图像进行文字特征的提取，生成矩形文本图像中的水平文本信息，并输出该水平文本信息。可选地，可选择预先训练的文本提取模型如残差网络ResNet+多尺度特征提取模型(feature pyramid networks，FPN)的网络模型对经过缩放后的矩形文本图像进行文字特征的提取，将提取的文字特征拼接为一维向量特征序列。进一步地，可使用CTC算法对一维向量特征序列进行解码，输出字符串序列作为与矩形文本图像对应的水平文本信息。

如上所述，基于上述实施例，首先获取待处理图像，其次，利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据，进一步地，将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块，生成文本信息对应在水平矩形区域中的矩形文本图像，最后，提取矩形文本图像中的水平文本信息，并将水平文本信息输出。本申请实施例通过自适应贝塞尔曲线网络模型对待处理图像中的文本信息进行提取和矫正，获取文本信息对应的水平文本，直接对待处理图片进行处理，不再进行特征提取，提升了识别效率和准确率。

如图2所示，为本申请实施例200提供的自适应贝塞尔曲线网络模型中检测模块的训练过程的示意图。该检测模块的训练目标是学习控制点数据的坐标信息与对应在区域中的顶点的坐标信息的相关距离的最小值。其中，该具体流程的详细过程如下：

S201，获取待训练图像样本。

这里，本申请实施例中的待训练图像样本主要为包含文本信息的图像。

S202，将待训练图像文本中的文本信息进行贝塞尔表示。

本步骤中，利用贝塞尔曲线在待训练图像样本中拟合化在待训练图像样本中识别出的文本信息，确定包含文本信息所在区域对应的初始控制点数据。首先利用贝塞尔曲线cubic Bezier对弯曲文本进行参数化。具体地，基于cubic Bezier曲线可以将任意形状的文本信息简化到一个有N个控制点的边框回归任务中，如用四个控制点的三次贝塞尔曲线拟合弯曲的文本信息。其中，笔直的文本有四个控制点(四个顶点)，属于一种特殊的任意形状的文本信息。

对于每一个文本信息的目标，其长边也就是文本行方向上，使用贝塞尔曲线包围文本，而短边依然是使用直线段，如图4所示，为本申请实施例400示出的待训练图像样本中对文本信息进行贝塞尔参数表示的示意图。这里使用了3阶贝塞尔曲线，需要4个初始控制点可以唯一确定，因此上下边两条贝塞尔曲线共需要8个初始控制点，这8个初始控制点的坐标信息就是检测模块预测的目标。

S203，训练训练各个初始控制点数据中的各个初始控制点的坐标信息与对应的文本信息所在区域的顶点的坐标信息之间的距离为最小值。

这里，预测各个初始控制点数据中的各个初始控制点的坐标信息与对应的文本信息所在区域的顶点的坐标信息之间的距离是判断初始控制点是否超过文本信息坐在的区域。通过回归的方法学习最小值。

S204，完成训练，生成训练后的检测模块。

这里，本申请实施例中的自适应贝塞尔曲线网络模型中检测模块不需要提取图像的特征信息，直接输出可视化图像。同时，只负责图像中控制点数据的检测，与对图像中文本信息的识别解耦，样本需求量较小，检测准确率更高。

本申请实施例中的一种图像处理的方法，通过自适应贝塞尔曲线网络模型中检测模块输出的控制点数据，并使用矫正模块，对原始输入图片的弯曲文本进行矫正，使其成为直线文本，方便文本识别。同时组合利用贝塞尔曲线表示技术、自适应贝塞尔曲线网络模型和以ResNet等文本提取模型，构成弯曲本文识别的系统，保证识别效率和准确率。

基于同一发明构思，本申请实施例500还提供一种图像处理的装置，其中，如图5所示，该装置包括：

获取模块51，用于获取待处理图像；

检测模块52，用于利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据；

生成模块53，用于将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块，生成文本信息对应在水平矩形区域中的矩形文本图像；

提取模块54，用于提取矩形文本图像中的水平文本信息，并将水平文本信息输出。

本实施例中，获取模块51、检测模块52、生成模块53和提取模块54的具体功能和交互方式，可参见图1对应的实施例的记载，在此不再赘述。

可选地，检测模块52还包括：

获取单元，用于获取待训练图像样本；

确定单元，用于利用贝塞尔曲线在待训练图像样本中拟合化在待训练图像样本中识别的文本信息，确定包含文本信息所在区域对应的初始控制点数据；

训练单元，用于训练各个初始控制点数据中的各个初始控制点的坐标信息与对应的文本信息所在区域的顶点的坐标信息之间的距离为最小值。

可选地，生成模块53进一步用于：

基于控制点数据，计算文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息；

在像素点中选取采样点，并根据采样点的坐标信息和像素值，通过双线性插值法确定文本信息对应在水平矩形区域中的像素点的像素值，生成矩形文本图像。

可选地，提取模块54进一步用于：

将矩形文本图像等比例缩放至预设比例后，判断缩放至预设比例的矩形文本图像的宽度与预设宽度值的大小；

当矩形文本图像的宽度小于预设宽度值时，在将矩形文本图像距离预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点；

当矩形文本图像的宽度大于预设宽度值时，将矩形文本图像的宽度缩放至预设宽度值；

将经过处理后的矩形文本图像输入预先训练的文本提取模型，获取矩形文本图像中的水平文本信息。

如图6所示，本申请的又一实施例600还提供一种终端设备，包括处理器601，其中，处理器601用于执行上述一种图像处理的方法的步骤。从图6中还可以看出，上述实施例提供的终端设备还包括非瞬时计算机可读存储介质602，该非瞬时计算机可读存储介质602上存储有计算机程序，该计算机程序被处理器601运行时执行上述一种图像处理的方法的步骤。实际应用中，该终端设备可以是一台或多台计算机，只要包括上述计算机可读介质和处理器即可。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘和FLASH等，该存储介质上的计算机程序被运行时，能够执行上述的一种图像处理的方法中的各个步骤。实际应用中，所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，能够执行上述的一种图像处理的方法中的各个步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些变更、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像处理的方法，其特征在于，包括：

获取待处理图像；

2.根据权利要求1所述的方法，其特征在于，在所述利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据的步骤之前，所述方法还包括对所述自适应贝塞尔曲线网络模型中的所述检测模块进行训练的步骤：

获取待训练图像样本；

3.根据权利要求1所述的方法，其特征在于，所述生成所述文本信息对应在水平矩形区域中的矩形文本图像的步骤包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述矩形文本图像中的水平文本信息的步骤包括：

5.一种图像处理的装置，其特征在于，包括：

获取模块，用于获取待处理图像；

6.根据权利要求5所述的装置，其特征在于，所述检测模块还包括：

获取单元，用于获取待训练图像样本；

7.根据权利要求5所述的装置，其特征在于，所述生成模块进一步用于：

8.根据权利要求5所述的装置，其特征在于，所述提取模块进一步用于：

9.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如权利要求1至4任一项所述的一种图像处理的方法中的各个步骤。

10.一种终端设备，其特征在于，包括处理器，所述处理器用于执行如权利要求1至4中任一项所述的一种图像处理的方法中的各个步骤。