CN112906801A - 一种图像处理的方法、装置和存储介质 - Google Patents

一种图像处理的方法、装置和存储介质 Download PDF

Info

Publication number
CN112906801A
CN112906801A CN202110224205.8A CN202110224205A CN112906801A CN 112906801 A CN112906801 A CN 112906801A CN 202110224205 A CN202110224205 A CN 202110224205A CN 112906801 A CN112906801 A CN 112906801A
Authority
CN
China
Prior art keywords
image
text
rectangular
text information
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110224205.8A
Other languages
English (en)
Inventor
李壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangjianghu Technology Co Ltd
Original Assignee
Beijing Fangjianghu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fangjianghu Technology Co Ltd filed Critical Beijing Fangjianghu Technology Co Ltd
Priority to CN202110224205.8A priority Critical patent/CN112906801A/zh
Publication of CN112906801A publication Critical patent/CN112906801A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像处理的方法、装置和存储介质,具体为首先获取待处理图像,其次,利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据,进一步地,将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块,生成文本信息对应在水平矩形区域中的矩形文本图像,最后,提取矩形文本图像中的水平文本信息,并将水平文本信息输出。本申请实施例通过自适应贝塞尔曲线网络模型对待处理图像中的文本信息进行提取和矫正,获取文本信息对应的水平文本,直接对待处理图片进行处理,不再进行特征提取,提升了识别效率和准确率。

Description

一种图像处理的方法、装置和存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像处理的方法、装置和存储介质。
背景技术
印章在合同等常用票据中广泛存,其作用是确认文件的有效性和合法性,并通过印章的文字内容来确认盖章机构。目前,这种印章的确认工作通常人工来进行,可能导致较为昂贵的人力成本。而普通的光学字符识别(Optical Character Recognition,OCR)技术,由于印章文字弯曲和背景干扰等问题,导致识别准确率较低。
发明内容
本申请实施例提供了一种图像处理的方法,克服了对图像中的文字识别效率和识别准确率较低的问题。
该方法包括:
获取待处理图像;
利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据;
将所述待处理图像和所述控制点数据输入所述自适应贝塞尔曲线网络模型中的矫正模块,生成所述文本信息对应在水平矩形区域中的矩形文本图像;
提取所述矩形文本图像中的水平文本信息,并将所述水平文本信息输出。
可选地,获取待训练图像样本;
利用贝塞尔曲线在所述待训练图像样本中拟合化在所述待训练图像样本中识别的文本信息,确定包含所述文本信息所在区域对应的初始控制点数据;
训练各个所述初始控制点数据中的各个所述初始控制点的坐标信息与对应的所述文本信息所在区域的顶点的坐标信息之间的距离为最小值。
可选地,基于所述控制点数据,计算所述文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息;
在所述像素点中选取采样点,并根据所述采样点的所述坐标信息和像素值,通过双线性插值法确定所述文本信息对应在水平矩形区域中的所述像素点的像素值,生成所述矩形文本图像。
可选地,将所述矩形文本图像等比例缩放至预设比例后,判断缩放至预设比例的所述矩形文本图像的宽度与预设宽度值的大小;
当所述矩形文本图像的宽度小于所述预设宽度值时,在将所述矩形文本图像距离所述预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点;
当所述矩形文本图像的宽度大于所述预设宽度值时,将所述矩形文本图像的宽度缩放至所述预设宽度值;
将经过处理后的所述矩形文本图像输入预先训练的文本提取模型,获取所述矩形文本图像中的所述水平文本信息。
在本发明的另一个实施例中,提供了一种图像处理的装置,该装置包括:
获取模块,用于获取待处理图像;
检测模块,用于利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据;
生成模块,用于将所述待处理图像和所述控制点数据输入所述自适应贝塞尔曲线网络模型中的矫正模块,生成所述文本信息对应在水平矩形区域中的矩形文本图像;
提取模块,用于提取所述矩形文本图像中的水平文本信息,并将所述水平文本信息输出。
可选地,所述检测模块还包括:
获取单元,用于获取待训练图像样本;
确定单元,用于利用贝塞尔曲线在所述待训练图像样本中拟合化在所述待训练图像样本中识别的文本信息,确定包含所述文本信息所在区域对应的初始控制点数据;
训练单元,用于训练各个所述初始控制点数据中的各个所述初始控制点的坐标信息与对应的所述文本信息所在区域的顶点的坐标信息之间的距离为最小值。
可选地,所述生成模块进一步用于:
基于所述控制点数据,计算所述文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息;
在所述像素点中选取采样点,并根据所述采样点的所述坐标信息和像素值,通过双线性插值法确定所述文本信息对应在水平矩形区域中的所述像素点的像素值,生成所述矩形文本图像。
可选地,所述提取模块进一步用于:
将所述矩形文本图像等比例缩放至预设比例后,判断缩放至预设比例的所述矩形文本图像的宽度与预设宽度值的大小;
当所述矩形文本图像的宽度小于所述预设宽度值时,在将所述矩形文本图像距离所述预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点;
当所述矩形文本图像的宽度大于所述预设宽度值时,将所述矩形文本图像的宽度缩放至所述预设宽度值;
将经过处理后的所述矩形文本图像输入预先训练的文本提取模型,获取所述矩形文本图像中的所述水平文本信息。
在本发明的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行上述一种图像处理的方法中的各个步骤。
在本发明的另一个实施例中,提供了一种终端设备,包括处理器,所述处理器用于执行上述一种图像处理的方法中的各个步骤。
基于上述实施例,首先获取待处理图像,其次,利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据,进一步地,将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块,生成文本信息对应在水平矩形区域中的矩形文本图像,最后,提取矩形文本图像中的水平文本信息,并将水平文本信息输出。本申请实施例通过自适应贝塞尔曲线网络模型对待处理图像中的文本信息进行提取和矫正,获取文本信息对应的水平文本,直接对待处理图片进行处理,不再进行特征提取,提升了识别效率和准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了为本申请实施例100所提供的一种图像处理的方法的流程示意图;
图2示出了本申请实施例200提供的自适应贝塞尔曲线网络模型中检测模块的训练过程的示意图;
图3示出了本申请实施例300提供的待处理图像通过自适应贝塞尔曲线网络模型生成矩形文本图像的示意图;
图4示出了本申请实施例400提供的待训练图像样本中对文本信息进行贝塞尔参数表示的示意图;
图5示出了本申请实施例500还提供一种图像处理的装置的示意图;
图6示出了本申请实施例600所提供的一种终端设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″、″第四″等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语″包括″和″具有″以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
基于现有技术中的问题,本申请实施例提供了一种图像处理的方法,主要适用于计算机技术领域。通过对待处理图像基于自适应贝塞尔曲线后的文本信息进行曲线表示,获取文本信息对应的控制点数据,进一步对检测出的文本信息进行矫正,输出对应的水平文本后,对该水平文本进行文本识别,得到最终的水平文本信息,以实现一种图像处理的方法。以下几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。如图1所示,为本申请实施例100提供的一种图像处理的方法的流程示意图。其中,详细步骤如下:
步骤S11,获取待处理图像。
本步骤中,本申请实施例中获取的待处理图像主要为包含文本信息的图像,如包含印章的图像等。
步骤S12,利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据。
本步骤中,自适应贝塞尔曲线网络模型中的检测模块为主要利用贝塞尔曲线进行自适应拟合任意形状文本的网络模型。一般应用于二维图形应用程序的数学曲线,可以使用很少的控制点生成复杂平滑曲线。具体地,对自适应贝塞尔曲线网络模型中的检测模块预先进行训练,训练生成可直接输出可视化的待处理图像中的文本信息所在的区域的图像,以及对应的控制点数据。其中,文本信息所在的区域可以为曲线文本区域也可为水平文本区域。
进一步地,自适应贝塞尔曲线网络模型中的检测模块对输入的待处理图像进行检测,获取与待处理图像中文本信息所在区域对应的拟合后的曲线包络的控制点数据。如图3所示,为本申请实施例300示出的待处理图像通过自适应贝塞尔曲线网络模型生成矩形文本图像的示意图。
步骤S13,将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块,生成文本信息对应在水平矩形区域中的矩形文本图像。
本步骤中,检测模块输出待处理图像中文本信息所在的区域对应的控制点数据后,矫正模块基于该控制点数据对待处理图像中的文本信息所在的区域进行矫正。
基于控制点数据,计算文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息。以及,在像素点中选取采样点,并根据采样点的坐标信息和像素值,通过双线性插值法确定文本信息对应在水平矩形区域中的像素点的像素值,生成矩形文本图像。可选地,基于控制点数据计算出文本信息所在的区域对应的曲线包络上各个像素点的坐标,并基于该各个像素点计算文本信息对应在水平矩形区域中的像素点的像素值。
如本申请实施例中示出的包含印章的待处理图像,由于印章多为红色字体,可在RGB三通道的R通道中提取矩形文本图像并保存为灰度图像,作为后续矫正模块的输入图像。进一步地,通过前述检测模块输出的控制点数据,通过贝塞尔多项式计算出文本信息所在的曲线包络中各个像素点的坐标信息。在曲线包络上选取采样点,并将曲线包络区分为上边界和下边界。根据曲线包络的上边界和下边界,对采样点通过双线性插值法确定文本信息对应在水平矩形区域中的像素点的像素值。最后,输出计算完成的文本信息对应在水平矩形区域中的矩形文本图像,完成图像矫正。如图3所示,经过前述处理后,输出待处理图像中的文本信息矫正后的矩形文本图像。
步骤S14,提取矩形文本图像中的水平文本信息,并将水平文本信息输出。
本步骤中,将矩形文本图像等比例缩放至预设比例后,判断缩放至预设比例的矩形文本图像的宽度与预设宽度值的大小。进一步地,当矩形文本图像的宽度小于预设宽度值时,在将矩形文本图像距离预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点;当矩形文本图像的宽度大于预设宽度值时,将矩形文本图像的宽度缩放至预设宽度值。最后,将经过处理后的矩形文本图像输入预先训练的文本提取模型,获取矩形文本图像中的水平文本信息。
可选地,等比例放缩矩形文本图像,其中预设比例基于业务需要设置。如矩形文本图像的高度为h,宽度为w,可选择x/h作为预设比例ratio,用w*ratio得到缩放后的宽度。进一步地,使用线性插值的方法,将矩形文本图像缩放至(x,w*ratio)的比例。其中,本申请实施例中的x的数值优选32。
可选地,判断缩放至预设比例的矩形文本图像的宽度与预设宽度值的大小。若不足预设宽度值,则需要补充文字内边距;若超过预设宽度值,则需要将宽度进一步缩放至预设宽度值。具体地,若设置预设宽度值为y,当矩形文本图像的宽度大于y时,则收缩矩形文本图像到x*y;若矩形文本图像的宽度不足y时,则将矩形文本图像置于左侧或右侧,在相对的另一侧的内边距中添加像素值为0的像素点,将矩形文本图像的比例补充至x*y。其中,本申请实施例中的y的数值优选384。
进一步地,使用ResNet等预先训练的文本提取模型,对经过前述处理获取的矩形文本图像进行文字特征的提取,生成矩形文本图像中的水平文本信息,并输出该水平文本信息。可选地,可选择预先训练的文本提取模型如残差网络ResNet+多尺度特征提取模型(feature pyramid networks,FPN)的网络模型对经过缩放后的矩形文本图像进行文字特征的提取,将提取的文字特征拼接为一维向量特征序列。进一步地,可使用CTC算法对一维向量特征序列进行解码,输出字符串序列作为与矩形文本图像对应的水平文本信息。
如上所述,基于上述实施例,首先获取待处理图像,其次,利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据,进一步地,将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块,生成文本信息对应在水平矩形区域中的矩形文本图像,最后,提取矩形文本图像中的水平文本信息,并将水平文本信息输出。本申请实施例通过自适应贝塞尔曲线网络模型对待处理图像中的文本信息进行提取和矫正,获取文本信息对应的水平文本,直接对待处理图片进行处理,不再进行特征提取,提升了识别效率和准确率。
如图2所示,为本申请实施例200提供的自适应贝塞尔曲线网络模型中检测模块的训练过程的示意图。该检测模块的训练目标是学习控制点数据的坐标信息与对应在区域中的顶点的坐标信息的相关距离的最小值。其中,该具体流程的详细过程如下:
S201,获取待训练图像样本。
这里,本申请实施例中的待训练图像样本主要为包含文本信息的图像。
S202,将待训练图像文本中的文本信息进行贝塞尔表示。
本步骤中,利用贝塞尔曲线在待训练图像样本中拟合化在待训练图像样本中识别出的文本信息,确定包含文本信息所在区域对应的初始控制点数据。首先利用贝塞尔曲线cubic Bezier对弯曲文本进行参数化。具体地,基于cubic Bezier曲线可以将任意形状的文本信息简化到一个有N个控制点的边框回归任务中,如用四个控制点的三次贝塞尔曲线拟合弯曲的文本信息。其中,笔直的文本有四个控制点(四个顶点),属于一种特殊的任意形状的文本信息。
对于每一个文本信息的目标,其长边也就是文本行方向上,使用贝塞尔曲线包围文本,而短边依然是使用直线段,如图4所示,为本申请实施例400示出的待训练图像样本中对文本信息进行贝塞尔参数表示的示意图。这里使用了3阶贝塞尔曲线,需要4个初始控制点可以唯一确定,因此上下边两条贝塞尔曲线共需要8个初始控制点,这8个初始控制点的坐标信息就是检测模块预测的目标。
S203,训练训练各个初始控制点数据中的各个初始控制点的坐标信息与对应的文本信息所在区域的顶点的坐标信息之间的距离为最小值。
这里,预测各个初始控制点数据中的各个初始控制点的坐标信息与对应的文本信息所在区域的顶点的坐标信息之间的距离是判断初始控制点是否超过文本信息坐在的区域。通过回归的方法学习最小值。
S204,完成训练,生成训练后的检测模块。
这里,本申请实施例中的自适应贝塞尔曲线网络模型中检测模块不需要提取图像的特征信息,直接输出可视化图像。同时,只负责图像中控制点数据的检测,与对图像中文本信息的识别解耦,样本需求量较小,检测准确率更高。
本申请实施例中的一种图像处理的方法,通过自适应贝塞尔曲线网络模型中检测模块输出的控制点数据,并使用矫正模块,对原始输入图片的弯曲文本进行矫正,使其成为直线文本,方便文本识别。同时组合利用贝塞尔曲线表示技术、自适应贝塞尔曲线网络模型和以ResNet等文本提取模型,构成弯曲本文识别的系统,保证识别效率和准确率。
基于同一发明构思,本申请实施例500还提供一种图像处理的装置,其中,如图5所示,该装置包括:
获取模块51,用于获取待处理图像;
检测模块52,用于利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取待处理图像中的文本信息所在的区域对应的控制点数据;
生成模块53,用于将待处理图像和控制点数据输入自适应贝塞尔曲线网络模型中的矫正模块,生成文本信息对应在水平矩形区域中的矩形文本图像;
提取模块54,用于提取矩形文本图像中的水平文本信息,并将水平文本信息输出。
本实施例中,获取模块51、检测模块52、生成模块53和提取模块54的具体功能和交互方式,可参见图1对应的实施例的记载,在此不再赘述。
可选地,检测模块52还包括:
获取单元,用于获取待训练图像样本;
确定单元,用于利用贝塞尔曲线在待训练图像样本中拟合化在待训练图像样本中识别的文本信息,确定包含文本信息所在区域对应的初始控制点数据;
训练单元,用于训练各个初始控制点数据中的各个初始控制点的坐标信息与对应的文本信息所在区域的顶点的坐标信息之间的距离为最小值。
可选地,生成模块53进一步用于:
基于控制点数据,计算文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息;
在像素点中选取采样点,并根据采样点的坐标信息和像素值,通过双线性插值法确定文本信息对应在水平矩形区域中的像素点的像素值,生成矩形文本图像。
可选地,提取模块54进一步用于:
将矩形文本图像等比例缩放至预设比例后,判断缩放至预设比例的矩形文本图像的宽度与预设宽度值的大小;
当矩形文本图像的宽度小于预设宽度值时,在将矩形文本图像距离预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点;
当矩形文本图像的宽度大于预设宽度值时,将矩形文本图像的宽度缩放至预设宽度值;
将经过处理后的矩形文本图像输入预先训练的文本提取模型,获取矩形文本图像中的水平文本信息。
如图6所示,本申请的又一实施例600还提供一种终端设备,包括处理器601,其中,处理器601用于执行上述一种图像处理的方法的步骤。从图6中还可以看出,上述实施例提供的终端设备还包括非瞬时计算机可读存储介质602,该非瞬时计算机可读存储介质602上存储有计算机程序,该计算机程序被处理器601运行时执行上述一种图像处理的方法的步骤。实际应用中,该终端设备可以是一台或多台计算机,只要包括上述计算机可读介质和处理器即可。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘和FLASH等,该存储介质上的计算机程序被运行时,能够执行上述的一种图像处理的方法中的各个步骤。实际应用中,所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,能够执行上述的一种图像处理的方法中的各个步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些变更、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种图像处理的方法,其特征在于,包括:
获取待处理图像;
利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据;
将所述待处理图像和所述控制点数据输入所述自适应贝塞尔曲线网络模型中的矫正模块,生成所述文本信息对应在水平矩形区域中的矩形文本图像;
提取所述矩形文本图像中的水平文本信息,并将所述水平文本信息输出。
2.根据权利要求1所述的方法,其特征在于,在所述利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据的步骤之前,所述方法还包括对所述自适应贝塞尔曲线网络模型中的所述检测模块进行训练的步骤:
获取待训练图像样本;
利用贝塞尔曲线在所述待训练图像样本中拟合化在所述待训练图像样本中识别的文本信息,确定包含所述文本信息所在区域对应的初始控制点数据;
训练各个所述初始控制点数据中的各个所述初始控制点的坐标信息与对应的所述文本信息所在区域的顶点的坐标信息之间的距离为最小值。
3.根据权利要求1所述的方法,其特征在于,所述生成所述文本信息对应在水平矩形区域中的矩形文本图像的步骤包括:
基于所述控制点数据,计算所述文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息;
在所述像素点中选取采样点,并根据所述采样点的所述坐标信息和像素值,通过双线性插值法确定所述文本信息对应在水平矩形区域中的所述像素点的像素值,生成所述矩形文本图像。
4.根据权利要求1所述的方法,其特征在于,所述提取所述矩形文本图像中的水平文本信息的步骤包括:
将所述矩形文本图像等比例缩放至预设比例后,判断缩放至预设比例的所述矩形文本图像的宽度与预设宽度值的大小;
当所述矩形文本图像的宽度小于所述预设宽度值时,在将所述矩形文本图像距离所述预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点;
当所述矩形文本图像的宽度大于所述预设宽度值时,将所述矩形文本图像的宽度缩放至所述预设宽度值;
将经过处理后的所述矩形文本图像输入预先训练的文本提取模型,获取所述矩形文本图像中的所述水平文本信息。
5.一种图像处理的装置,其特征在于,包括:
获取模块,用于获取待处理图像;
检测模块,用于利用预先训练的自适应贝塞尔曲线网络模型中的检测模块提取所述待处理图像中的文本信息所在的区域对应的控制点数据;
生成模块,用于将所述待处理图像和所述控制点数据输入所述自适应贝塞尔曲线网络模型中的矫正模块,生成所述文本信息对应在水平矩形区域中的矩形文本图像;
提取模块,用于提取所述矩形文本图像中的水平文本信息,并将所述水平文本信息输出。
6.根据权利要求5所述的装置,其特征在于,所述检测模块还包括:
获取单元,用于获取待训练图像样本;
确定单元,用于利用贝塞尔曲线在所述待训练图像样本中拟合化在所述待训练图像样本中识别的文本信息,确定包含所述文本信息所在区域对应的初始控制点数据;
训练单元,用于训练各个所述初始控制点数据中的各个所述初始控制点的坐标信息与对应的所述文本信息所在区域的顶点的坐标信息之间的距离为最小值。
7.根据权利要求5所述的装置,其特征在于,所述生成模块进一步用于:
基于所述控制点数据,计算所述文本信息所在的区域对应的曲线包络中包含的各个像素点的坐标信息;
在所述像素点中选取采样点,并根据所述采样点的所述坐标信息和像素值,通过双线性插值法确定所述文本信息对应在水平矩形区域中的所述像素点的像素值,生成所述矩形文本图像。
8.根据权利要求5所述的装置,其特征在于,所述提取模块进一步用于:
将所述矩形文本图像等比例缩放至预设比例后,判断缩放至预设比例的所述矩形文本图像的宽度与预设宽度值的大小;
当所述矩形文本图像的宽度小于所述预设宽度值时,在将所述矩形文本图像距离所述预设宽度值的内边距对应的区域中添加数值为第一像素值的像素点;
当所述矩形文本图像的宽度大于所述预设宽度值时,将所述矩形文本图像的宽度缩放至所述预设宽度值;
将经过处理后的所述矩形文本图像输入预先训练的文本提取模型,获取所述矩形文本图像中的所述水平文本信息。
9.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如权利要求1至4任一项所述的一种图像处理的方法中的各个步骤。
10.一种终端设备,其特征在于,包括处理器,所述处理器用于执行如权利要求1至4中任一项所述的一种图像处理的方法中的各个步骤。
CN202110224205.8A 2021-02-26 2021-02-26 一种图像处理的方法、装置和存储介质 Pending CN112906801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110224205.8A CN112906801A (zh) 2021-02-26 2021-02-26 一种图像处理的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110224205.8A CN112906801A (zh) 2021-02-26 2021-02-26 一种图像处理的方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN112906801A true CN112906801A (zh) 2021-06-04

Family

ID=76107079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110224205.8A Pending CN112906801A (zh) 2021-02-26 2021-02-26 一种图像处理的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112906801A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920308A (zh) * 2021-12-13 2022-01-11 山东矩阵软件工程股份有限公司 一种钢卷号的识别方法和识别系统
CN114140329A (zh) * 2021-12-13 2022-03-04 广东欧谱曼迪科技有限公司 一种内窥镜图像缩放方法、系统及执行装置
CN115187978A (zh) * 2022-08-08 2022-10-14 杭州实在智能科技有限公司 一种基于深度学习的复杂背景印章识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201612847D0 (en) * 2015-09-29 2016-09-07 Adobe Systems Inc Identifying shapes in an image by comparing b�zier curves
CN110555372A (zh) * 2019-07-22 2019-12-10 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN110738602A (zh) * 2019-09-12 2020-01-31 北京三快在线科技有限公司 图像处理方法、装置、电子设备及可读存储介质
CN110969129A (zh) * 2019-12-03 2020-04-07 山东浪潮人工智能研究院有限公司 一种端到端税务票据文本检测与识别方法
CN111414915A (zh) * 2020-02-21 2020-07-14 华为技术有限公司 一种文字识别方法以及相关设备
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201612847D0 (en) * 2015-09-29 2016-09-07 Adobe Systems Inc Identifying shapes in an image by comparing b�zier curves
CN110555372A (zh) * 2019-07-22 2019-12-10 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN110738602A (zh) * 2019-09-12 2020-01-31 北京三快在线科技有限公司 图像处理方法、装置、电子设备及可读存储介质
CN110969129A (zh) * 2019-12-03 2020-04-07 山东浪潮人工智能研究院有限公司 一种端到端税务票据文本检测与识别方法
CN111414915A (zh) * 2020-02-21 2020-07-14 华为技术有限公司 一种文字识别方法以及相关设备
CN112183322A (zh) * 2020-09-27 2021-01-05 成都数之联科技有限公司 一种任意形状的文本检测和矫正方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YULIANG LIU等: ""ABCNet:Real-time Scene Text Spotting with Adaptive Bezier-Curve Network", 《ARXIV》, pages 2 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113920308A (zh) * 2021-12-13 2022-01-11 山东矩阵软件工程股份有限公司 一种钢卷号的识别方法和识别系统
CN114140329A (zh) * 2021-12-13 2022-03-04 广东欧谱曼迪科技有限公司 一种内窥镜图像缩放方法、系统及执行装置
CN114140329B (zh) * 2021-12-13 2023-03-28 广东欧谱曼迪科技有限公司 一种内窥镜图像缩放方法、系统及执行装置
CN115187978A (zh) * 2022-08-08 2022-10-14 杭州实在智能科技有限公司 一种基于深度学习的复杂背景印章识别方法

Similar Documents

Publication Publication Date Title
CN112906801A (zh) 一种图像处理的方法、装置和存储介质
CN110659647B (zh) 印章图像识别方法及装置、智能发票识别设备和存储介质
CN110956171A (zh) 铭牌自动识别方法、装置、计算机设备和存储介质
CN110647795B (zh) 一种表格识别方法
CN112801088B (zh) 一种扭曲文本行图像矫正的方法和相关装置
CN109934262B (zh) 图片差异性判断方法、装置、计算机设备和存储介质
CN111274957A (zh) 网页页面验证码识别方法、装置、终端和计算机存储介质
CN111461100A (zh) 一种票据识别方法、装置、电子设备和存储介质
CN111192190B (zh) 消除图像水印的方法、装置及电子设备
CN102930515A (zh) 数字图像的几何畸变自动校正方法
CN111046644A (zh) 一种答题卡模板生成方法、识别方法、装置及存储介质
CN110647885A (zh) 基于图片识别的试卷拆分方法、装置、设备以及介质
CN112597998A (zh) 一种基于深度学习的扭曲图像矫正方法、装置和存储介质
CN115511031A (zh) 一种扩容二维码、三维码解码方法、系统、设备和介质
CN113469148B (zh) 一种文本擦除方法及模型的训练方法、装置、存储介质
CN110796130A (zh) 用于文字识别的方法、装置及计算机存储介质
CN110766068A (zh) 一种验证码识别方法及计算设备
CN108804978B (zh) 一种版面分析方法及装置
CN109785312B (zh) 一种图像模糊检测方法、系统及电子设备
CN114998347B (zh) 一种半导体面板角点定位方法及装置
CN113807335B (zh) 一种进行数据增强的方法、装置和存储介质
CN113743360B (zh) 智能化印章解析的方法和装置
CN114612647A (zh) 图像处理方法、装置、电子设备及存储介质
EP2750103A1 (en) Ridge direction extraction device, ridge direction extraction method, and ridge direction extraction program
CN111241365B (zh) 表格图片解析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination