CN111783770B - 图像的矫正方法、装置和计算机可读存储介质 - Google Patents

图像的矫正方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN111783770B
CN111783770B CN202010047157.5A CN202010047157A CN111783770B CN 111783770 B CN111783770 B CN 111783770B CN 202010047157 A CN202010047157 A CN 202010047157A CN 111783770 B CN111783770 B CN 111783770B
Authority
CN
China
Prior art keywords
positioning
determining
image
positioning point
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010047157.5A
Other languages
English (en)
Other versions
CN111783770A (zh
Inventor
张建虎
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010047157.5A priority Critical patent/CN111783770B/zh
Publication of CN111783770A publication Critical patent/CN111783770A/zh
Application granted granted Critical
Publication of CN111783770B publication Critical patent/CN111783770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本公开涉及一种图像的矫正方法、装置和计算机可读存储介质,涉及计算机技术领域。该方法包括:确定模板图像中的字段信息及其对应的第一定位区域;对待处理图像进行文本识别,确定各文本信息;将字段信息与各文本信息进行匹配,确定与字段信息匹配的文本信息;根据匹配结果,在待处理图像中确定与第一定位区域匹配的第二定位区域;根据第一定位区域中各第一定位点与匹配的第二定位区域中各第二定位点的特征向量距离,确定各第一定位点和各第二定位点的对应关系;根据对应关系,计算透视变换矩阵用于对待处理图像进行矫正。

Description

图像的矫正方法、装置和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种图像的矫正方法、图像的矫正装置和计算机可读存储介质。
背景技术
由于图片获取的环境和条件等影响,获取的图片可能存在变形的情况。因此,需要对获取的图片进行图像矫正。
例如,OCR(Optical Character Recognition,光学字符识别)技术中的自定义模版文字识别技术,可以对各种票据、卡证中的各字段及其对应数据进行提取。这种技术需要根据模板图片与获取的待识别图片上各区域的对应关系,对待识别图片中的文字进行识别。这就需要对待识别图片进行图像矫正。
在相关技术中,在待识别图片的各定位点中,寻找模板图片的各定位点的对应点,从而完成图像矫正。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:定位点的匹配成功率低,导致图像校正的性能差。
鉴于此,本公开提出了一种图像的矫正技术方案,能够提高定位点的匹配成功率,从而提高图像矫正的性能。
根据本公开的一些实施例,提供了一种图像的矫正方法,包括:确定模板图像中的字段信息及其对应的第一定位区域;对待处理图像进行文本识别,确定各文本信息;将字段信息与各文本信息进行匹配,确定与字段信息匹配的文本信息;根据匹配结果,在待处理图像中确定与第一定位区域匹配的第二定位区域;根据第一定位区域中各第一定位点与匹配的第二定位区域中各第二定位点的特征向量距离,确定各第一定位点和各第二定位点的对应关系;根据对应关系,计算透视变换矩阵用于对待处理图像进行矫正。
在一些实施例中,对待处理图像进行文本识别,确定各文本信息及其对应的第二定位区域包括:以待处理图像中的整行文本为识别单位,利用机器学习模型进行文本识别以确定各文本信息,机器学习模型能够根据整行文本中各字符的上下文关系进行文本识别。
在一些实施例中,将字段信息与各文本信息进行匹配,确定与字段信息匹配的文本信息包括:根据字段信息与各文本信息的文本距离进行模糊匹配,确定与字段信息匹配的文本信息。
在一些实施例中,根据字段信息与各文本信息的文本距离进行模糊匹配,确定与字段信息匹配的文本信息包括:计算字段信息与各文本信息的编辑距离;在编辑距离小于编辑阈值的情况下,将相应的文本信息确定为匹配的文本信息。
在一些实施例中,确定各第一定位点和各第二定位点的对应关系包括:计算任一个第一定位点与各第二定位点之间的特征向量距离;根据各特征向量距离的排序,确定该第一定位点的对应第二定位点。
在一些实施例中,根据各特征向量距离的排序,确定该第一定位点的对应第二定位点包括:在第二小的特征向量距离与第一小的特征向量距离之间的差异大于距离阈值的情况下,将第一小的特征向量距离对应的第二定位点确定为该第一定位点的对应第二定位点。
在一些实施例中,该方法还包括:根据各第一定位点的分散程度,对透视变换矩阵进行评估;根据评估结果,确定是否重新选取各第一定位点用于重新计算透视变换矩阵。
在一些实施例中,分散程度根据下面中的至少一项确定:根据各第一定位点的共线程度,确定各第一定位点的分散程度;根据以各第一定位点为顶点的多边形面积是否大于面积阈值,确定各第一定位点的分散程度。
在一些实施例中,根据对应关系,计算透视变换矩阵包括:选取多对具有对应关系的第一定位点和第二定位点,计算透视变换矩阵。
在一些实施例中,该方法还包括:将第一定位区域中未用于计算透视变换矩阵的各第一定位点确定为第一评估定位点;根据对应关系,在矫正后的待处理图像中确定与各第一评估定位点对应的第二评估定位点;根据各第一评估定位点与对应的第二评估定位点的位置差异,对透视变换矩阵进行评估;根据评估结果,确定是否对矫正后的待处理图进行重新矫正。
根据本公开的另一些实施例,提供一种图像的矫正装置,包括:确定单元,用于确定模板图像中的字段信息及其对应的第一定位区域,对待处理图像进行文本识别,确定各文本信息,根据匹配结果,在待处理图像中确定与第一定位区域匹配的第二定位区域;匹配单元,用于将字段信息与各文本信息进行匹配,确定与字段信息匹配的文本信息;对应单元,用于根据第一定位区域中各第一定位点与匹配的第二定位区域中各第二定位点的特征向量距离,确定各第一定位点和各第二定位点的对应关系;计算单元,用于根据对应关系,计算透视变换矩阵用于对待处理图像进行矫正。
在一些实施例中,确定单元以待处理图像中的整行文本为识别单位,利用机器学习模型进行文本识别以确定各文本信息,机器学习模型能够根据整行文本中各字符的上下文关系进行文本识别。
在一些实施例中,匹配单元根据字段信息与各文本信息的文本距离进行模糊匹配,确定与字段信息匹配的文本信息。
在一些实施例中,匹配单元计算字段信息与各文本信息的编辑距离;在编辑距离小于编辑阈值的情况下,将相应的文本信息确定为匹配的文本信息。
在一些实施例中,对应单元计算任一个第一定位点与各第二定位点之间的特征向量距离;根据各特征向量距离的排序,确定该第一定位点的对应第二定位点。
在一些实施例中,对应单元在第二小的特征向量距离与第一小的特征向量距离之间的差异大于距离阈值的情况下,将第一小的特征向量距离对应的第二定位点确定为该第一定位点的对应第二定位点。
在一些实施例中,该装置还包括评估单元,用于根据各第一定位点的分散程度,对透视变换矩阵进行评估,以便根据评估结果,确定是否重新选取各第一定位点用于重新计算透视变换矩阵。
在一些实施例中,计算单元选取多对具有对应关系的第一定位点和第二定位点,计算透视变换矩阵。
在一些实施例中,评估单元,用于将第一定位区域中未用于计算透视变换矩阵的各第一定位点确定为第一评估定位点,根据对应关系,在矫正后的待处理图像中确定与各第一评估定位点对应的第二评估定位点,根据各第一评估定位点与对应的第二评估定位点的位置差异,对透视变换矩阵进行评估,以便根据评估结果,确定是否对矫正后的待处理图进行重新矫正。
根据本公开的又一些实施例,提供一种图像的矫正装置,包括:存储器;和耦接至存储器的处理器,处理器被配置为基于存储在存储器装置中的指令,执行上述任一个实施例中的图像的矫正方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的图像的矫正方法。
在上述实施例中,根据字段信息与文本信息的匹配结果,在相应的区域进行定位点匹配。这样,可以准确地缩小对应定位点的匹配范围,提升匹配成功率,从而提高图像矫正的性能。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开:
图1示出本公开的图像的矫正方法的一些实施例的流程图;
图2示出本公开的图像的矫正方法的另一些实施例的流程图;
图3示出本公开的图像的矫正方法的一些实施例的示意图;
图4示出本公开的图像的矫正装置的一些实施例的框图;
图5示出本公开的图像的矫正装置的另一些实施例的框图;
图6示出本公开的图像的矫正装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的图像的矫正方法的一些实施例的流程图。
如图1所示,该方法包括:步骤110,确定第一定位区域;步骤120,确定文本信息;步骤130,确定匹配的文本信息;步骤135,确定匹配的第二定位区域;步骤140,确定定位点对应关系;和步骤150,计算透视变换矩阵。
在步骤110中,确定模板图像中的字段信息及其对应的第一定位区域。例如,字段信息可以为证件、票据等待识别目标上的字段,如姓名、性别等。可以在模板图像中,将字段所在的区域标注为第一定位区域。字段可以为多个,可以选取其中的一个或多个进行标注。
在一些实施例中,用户需要识别某一种证件(比如身份证、房产证等),但是目前没有针对该类型证件的模版识别接口。在这种情况下,可以将一张该类型证件的图片作为模板图片,然后在模板上标注该类型证件的固定字段所在区域作为第一定位区域。
在步骤120中,对待处理图像进行文本识别,确定各文本信息。
在一些实施例中,以待处理图像中的整行文本为识别单位,利用机器学习模型进行文本识别以确定各文本信息。机器学习模型能够根据整行文本中各字符的上下文关系进行文本识别。例如,机器学习模型可以是CNN(Convolutional Neural Networks,卷积神经网络)、CNN+LSTM(Long Short-Term Memory,长短期记忆网络)模型等时间循环神经网络模型。
例如,可以对待处理图像中的一行进行字符获取,直到在该行无法获取任何字符。将获取的该行的所有字符作为整行文本进行文本识别。对待处理图像逐行进行上述处理。
在步骤130中,将字段信息与各文本信息进行匹配,确定与字段信息匹配的文本信息。
在一些实施例中,根据字段信息与各文本信息的文本距离进行模糊匹配,确定与字段信息匹配的文本信息。
例如,计算字段信息与各文本信息的编辑距离。在编辑距离小于编辑阈值的情况下,将相应的文本信息确定为匹配的文本信息。
编辑距离是针对两个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。例如,字段信息为“姓名”,文本信息为“姓名张三”,文本信息需要两次处理才能变为字段信息。在这种情况下,字段信息与文本信息的编辑距离为2。
在步骤135中,根据匹配结果,在待处理图像中确定与第一定位区域匹配的第二定位区域。例如,字段信息“姓名”的匹配的文本信息为“姓名张三”,可以确定模板图像中“姓名”所在的第一定位区域与待处理图像中“姓名张三”所在的第二定位区域的匹配关系。
在一些实施例中,第一定位区域也可以为多个,则匹配的第二定位区域也为多个。例如,模板图像中的第一定位区域包括“姓名”所在区域、“性别”所在区域,待处理图像中匹配的第二定位区域分别为“姓名张三”所在区域和“性别男”所在区域。
在步骤140中,根据第一定位区域中各第一定位点与匹配的第二定位区域中各第二定位点的特征向量距离,确定各第一定位点和各第二定位点的对应关系。
在一些实施例中,可以采用浮点型兴趣点检测描述算法确定各第一定位点和各第二定位点,并提取特征向量。并利用欧式距离计算特征向量距离。例如,浮点型兴趣点检测描述算法可以是SIFT(Scale-Invariant Feature Transform,尺度不变特征变换)、SURF(Speeded Up Robust Features,加速稳健特征)等。浮点型兴趣点检测描述算法可以提高处理的准确性。
在一些实施例中,可以采用二值型兴趣点检测描述算法确定各第一定位点和各第二定位点,并提取特征向量。并利用汉明距离计算特征向量距离。例如,浮点型兴趣点检测描述算法可以是FAST(Features From Accelerated Segment Test,基于加速分割检测特征)、BRISK(Binary Robust Invariant Scalable Keypoints,二值鲁棒不变可扩展关键点)等。二值型兴趣点检测描述算法可以提高处理的效率。
在一些实施例中,计算任一个第一定位点与各第二定位点之间的特征向量距离。根据各特征向量距离的排序,确定该第一定位点的对应第二定位点。例如,可以将与该第一定位点的特征向量距离最小的第二定位点确定为对应的第二定位点。
例如,在第二小的特征向量距离与第一小的特征向量距离之间的差异(如差值的绝对值、比值等)大于距离阈值的情况下,将第一小的特征向量距离对应的第二定位点确定为该第一定位点的对应第二定位点。
在步骤150中,根据对应关系,计算透视变换矩阵用于对待处理图像进行矫正。例如,可以利用RANSAC(Random Sample Consensus,随机抽样一致算法)选取4组具有对应关系的第一定位点与第二定位点的点对作为计算透视变换矩阵(投影矩阵)的点对,以下称为透视变换点对。
在一些实施例中,选取多对具有对应关系的第一定位点和第二定位点,计算透视变换矩阵。用于计算透视变换矩阵的第一定位点可以来源于同一个第一定位区域,也可以来源于不同的第一定位区域。
在一些实施例中,根据各第一定位点的分散程度,对透视变换矩阵进行评估。根据评估结果,确定是否重新选取各第一定位点用于重新计算透视变换矩阵。分散程度越高,计算的透视变换矩阵性能越好。
例如,分散程度根据下面中的至少一项确定:根据透视变换点对对应的第一定位点的共线程度,确定这4个第一定位点的分散程度;根据以4个第一定位点为顶点的多边形面积是否大于面积阈值,确定各第一定位点的分散程度。
共线程度可以有如下方式确定:选取各第一定位点中的任意两个第一定位点的连线作为基准线;计算其他第一定位点到该基准线的距离;根据各距离的大小(平均值、和值等)确定共线程度。例如,在各距离的平均值大于距离阈值的情况下,确定各第一定位点共线程度低,反之共线程度高。共线程度越低,计算的透视变换矩阵性能越好。
在一些实施例中,将第一定位区域中未用于计算透视变换矩阵的各第一定位点确定为第一评估定位点。根据对应关系,在矫正后的待处理图像中确定与各第一评估定位点对应的第二评估定位点。根据各第一评估定位点与对应的第二评估定位点的特征向量距离,对透视变换矩阵进行评估。根据评估结果,确定是否对矫正后的待处理图进行重新矫正。
例如,利用来源于多个第一定位区域的4个第一定位点及其在相应第二定位区域的4个第二定位点组成的定位点对计算了透视变换矩阵;利用该透视变换矩阵对待处理图像进行矫正,得到矫正图像;将多个第一定位区域中这4个第一定位点之外的其他第一定位点确定为第一矫正定位点;根据第一定位点与第二定位点的对应关系,在矫正后的待处理图中确定与各第一矫正定位点对应的第二矫正定位点;根据各第一矫正定位点在模板图像中的坐标与相应第二矫正定位点在矫正后的待处理图像中的坐标的差异,对透视变换矩阵进行评估。差异越小,透视变换矩阵的性能越好。
在一些实施例中,在模板图像中标注各字段信息及其第一定位区域对应的第一识别区域。第一识别区域中具有与相应字段信息对应的数据。例如,字段信息为“姓名”,对应的第一识别区域中的数据为“张三”。
在矫正后的图像中,根据与第一识别区域对应的第二定位区域,以及第一识别区域,确定与该第二定位区域对应的第二识别区域;对待处理图像中的第二识别区域进行文本识别,确定待处理图像中字段信息对应的数据。
在上述实施例中,根据字段信息与文本信息的匹配结果,在相应的区域进行定位点匹配。这样,可以准确地缩小对应定位点的匹配范围,提升匹配成功率,从而提高图像矫正的性能。
图2示出本公开的图像的矫正方法的另一些实施例的流程图。
如图2所示,在创建模板图的步骤中,模板图像和待识别图像需要拥有同样的排版模式,并有一些区域的位置是相对整个版面固定的。
例如,可以选择文本清晰容易辨认、无透视畸变且与待识别图像的获取场景相似的图像作为模板图像。可以在模板图像上标注定位区域(锚点区域),获取定位区域的坐标范围和字符信息(字段信息)。
在获得待识别图的步骤中,待识别图像可以是通过数码相机、扫描仪、手机等拍摄的图片。
在文本检测识别步骤中,对待识别图像进行文本检测识别。例如,可以使用行文本检测模型对待识别图像中的文本进行整行检测。行文本模型可以选择深度学习模型,如EAST(Efficient and Accurate Scene Text Detector,高效精确场景文本检测器)、CRNN(Convolutional Recurrent Neural Network,卷积循环神经网络)等。
在字符匹配步骤中,在待识别图像中检测识别的文本字段中,查找与模板图像中每一个锚点区域的字符的匹配字段。
在一些实施例中,模板图片和待处理图片可以如图3所示。
图3示出本公开的图像的矫正方法的一些实施例的示意图。
如图3所示,模板图像31的锚点区域311和312中的字段信息分别为“姓名”和“性别”。例如,模板图像可以为社保卡,还可以包含其他锚点区域,相应的字段信息可以为“民族”、“出生”、“社会保障号”、“北京市人力资源和社会保障局”、“监制”等。
可以逐行对待识别图像32进行文本检测,识别出的文本信息可以包括“姓名李四”、“姓别男”。例如,文本信息还可以包括“民族”、“出生1985年”、“社会保障号”、“北京市人力资源和社会保障局监制”、“监制”等(图中未标出)。
在待识别图像32的各文本信息中,查找模板图像31中锚点区域311对应“姓名”字段的匹配文本信息。例如,可以采用字符模糊匹配算法进行查找出与“姓名”最相似的一个或多个文本信息。通过模糊匹配算法,可以确定匹配的文本信息为“姓名李四”,从而确定其相应的定位区域321,以及锚点区域311与定位区域321的对应关系。字符模糊匹配算法可以采用基于编辑距离的模糊度评分方法。
在待识别图像32的各文本信息中,查找模板图像31中锚点区域312对应“性别”字段的匹配文本信息。例如,通过模糊匹配算法,可以确定匹配的文本信息为“性别男”,从而确定其相应的定位区域322,以及锚点区域312与定位区域322的对应关系。
进行字符匹配之后,就可以利用图2中的其余步骤继续进行图像矫正。
在定位点对抽取的步骤中,在模板图像和待识别图像中分别选择一些有代表性的点作为定位点。这些定位点可以作为透视变换需要的点对(如共需要4组点对)的备选点。例如,可以确定图3中模板图像31的定位点A1、A2、A3和A4,以及待处理图像32的定位点B1、B2、B3、B4。还可以确定图3中锚点区域312中的定位点、A5、A6、A7和A8,以及定位区域322中的定位点B5、B6、B7和B8。
在一些实施例中,可以选择SIFT作为定位点检测器和描述子,确定模板图像31和待处理图像32中的各定位点,并计算各定位点的特征向量。由于SIFT对光照、缩放和视角变化具有较好的鲁棒性,因此,选择SIFT能够提高定位点匹配的成功率。
根据字符匹配的结果,确定锚点区域和定位区域的对应关系。在具有对应关系的锚点区域和定位区域中确定具有对应关系的定位点,以形成多个定位点对。
在一些实施例中,对于图3中字段“姓名”对应的锚点区域311,可以用锚点区域311中的一个定位点去匹配定位区域321中的各定位点,选择定位区域321中相似度最高的定位点与锚点区域311中的该定位点形成定位点对。可以对锚点区域311中的每一个定位点都进行上述定位点匹配,以形成多个定位点对。
在一些实施例中,可以选取待处理图像中与模板图像中定位点相似度最大的定位点,形成定位点对;也可以选取待处理图像中与模板图像中定位点相似度最大且相似度大于预设阈值的定位点,形成定位点对;还可以选取待处理图像中与模板图像定位点相似度最大且与第二大的相似度比值大于预设值的定位点,形成定位点对。
在一些实施例中,可以选取锚点区域311作为矫正图像的依据区域。先选取定位点A1与定位点B1~B4进行匹配。例如,计算定位点A1与定位点B1~B4的特征向量距离,并按照特征向量距离从小到大的顺序对定位点B1~B4进行排序。如排在前两位的分别为定位点B1(对应第一特征向量距离)和定位点B2(对应第二特征向量距离),可以按照如下公式判断排名第一的定位点B1是否与定位点A1匹配:
第二特征向量距离/第一特征向量距离>距离阈值在大于距离阈值的情况下,定位点A1与定位点B1形成定位点对;在小于或等于距离阈值的情况下,定位点A1与定位点B1不能形成定位点对。
在一些实施例中,可以确定锚点区域311与定位区域321中的定位点对包括(A1,B1)、(A2,B2)、(A3,B3)、(A4,B4);可以确定锚点区域312与定位区域322中的定位点对包括(A5,B5)、(A6,B6)、(A7,B7)、(A8,B8)。
在计算透视变换矩阵的步骤中,需要多个定位点对。例如,可以采用在已匹配上的定位点对中,围成多边形面积最大的多个定位点形成定位点对。也可以采用RANSAC算法在模板图像和待识别图像匹配到的定位点对中选择多个定位点对,用于计算透视变换矩阵。
在一些实施例中,可以选择(A1,B1)、(A3,B3)、(A6,B6)、(A8,B8)作为矫正定位点对,计算透视变换矩阵。这4组定位点对不共线,且围成的四边形面积较大,有利于提高透视变换阵的性能。
在评估、输出矫正图的步骤中,使用上述求得的透视变换矩阵,便可将其应用于待识别图像上,将待识别图像矫正为模板图像的规格。还可以对透视变换效果预先进行评估,来确定本次矫正是否成功。
在一些实施例中,可以选取目标图像中文档(各种票据、证件等)的矩形顶点进行评估;也可以选择未用于技术透视变换的定位点进行评估。
用于计算透视变换矩阵的定位点越分散,矫正后的图像越准确。例如,可以选择如下指标中的至少一项,确定所求得透视变换矩阵是满足矫正精度:
选择透视变换用的4个定位点对是否近似在一条直线上,越接近一条直线精度越低;
选择透视变换用的4个定位点对构成的四边形的面积是否大于面积阈值,大于面积阈值则能够满足精度。
在一些实施例中,还可以根据模板图像中未用于计算透视变换矩阵的其他定位点与矫正后图像中相应定位点的偏差,对透视变换矩阵进行评估。
在一些实施例中,在图3中,利用(A1,B1)、(A3,B3)、(A6,B6)、(A8,B8)计算透视变换矩阵之后,可以利用其他各定位点(A2,B2)、(A4,B4)、(A5,B5)、(A7,B7)进行评估。
对待处理图像32进行矫正后可以得到矫正后的图像。根据(A2,B2)、(A4,B4)、(A5,B5)、(A7,B7)的对应关系,在矫正后的图像中确定A2、A4、A5和A7的各对应定位点。计算A2、A4、A5和A7与各对应定位点之间的偏差。在偏差小于预设阈值的情况下,确定透视变换矩阵性能达到标准;否则重新选取定位点计算透视变换矩阵。
在一些实例中,对待处理图像32进行矫正后,可以根据模板图像31中识别区域313对应的锚点区域311,在矫正后的图像中确定相应的识别区域,从而获取矫正后的图像中字段信息“姓名”的数据为“李四”。同样,可以通过识别区域314对应的锚点区域312,获取矫正后的图像中字段信息“性别”的数据为“男”。
上述实施例中,整行字符进行识别,可以提高字段匹配成功率。在字符识别有一定错误的情况下,通过模糊匹配仍可以匹配到较高精度的字符对。
上述实施例中,根据字符匹配的结果的对应区域,进行定位点匹配,降低了每一个模板图像定位点在待识别图像上需要查找的定位点的范围,提升匹配成功率。
图4示出本公开的图像的矫正装置的一些实施例的框图。
如图4所示,图像的矫正装置4包括确定单元41、匹配单元42、对应单元43和计算单元44。
确定单元41确定模板图像中的字段信息及其对应的第一定位区域。确定单元41对待处理图像进行文本识别,确定各文本信息。确定单元41根据匹配结果,在待处理图像中确定与第一定位区域匹配的第二定位区域。
在一些实施例中,确定单元41以待处理图像中的整行文本为识别单位,利用机器学习模型进行文本识别以确定各文本信息。机器学习模型能够根据整行文本中各字符的上下文关系进行文本识别。
匹配单元42将字段信息与各文本信息进行匹配,确定与字段信息匹配的文本信息。
在一些实施例中,匹配单元42根据字段信息与各文本信息的文本距离进行模糊匹配,确定与字段信息匹配的文本信息。
在一些实施例中,匹配单元42计算字段信息与各文本信息的编辑距离;在编辑距离小于编辑阈值的情况下,将相应的文本信息确定为匹配的文本信息。
对应单元43根据第一定位区域中各第一定位点与匹配的第二定位区域中各第二定位点的特征向量距离,确定各第一定位点和各第二定位点的对应关系。
在一些实施例中,对应单元43计算任一个第一定位点与各第二定位点之间的特征向量距离;根据各特征向量距离的排序,确定该第一定位点的对应第二定位点。
在一些实施例中,对应单元43在第二小的特征向量距离与第一小的特征向量距离之间的差异大于距离阈值的情况下,将第一小的特征向量距离对应的第二定位点确定为该第一定位点的对应第二定位点。
计算单元44根据对应关系,计算透视变换矩阵用于对待处理图像进行矫正。
在一些实施例中,矫正装置4还包括评估单元45,用于根据各第一定位点的分散程度,对透视变换矩阵进行评估。根据评估结果,确定是否重新选取各第一定位点用于重新计算透视变换矩阵。
在一些实施例中,计算单元44选取多对具有对应关系的第一定位点和第二定位点,计算透视变换矩阵。评估单元45将第一定位区域中未用于计算透视变换矩阵的各第一定位点确定为第一评估定位点。评估单元45根据对应关系,在矫正后的待处理图像中确定与各第一评估定位点对应的第二评估定位点。评估单元45根据各第一评估定位点与对应的第二评估定位点的位置差异,对透视变换矩阵进行评估,以便根据评估结果,确定是否对矫正后的待处理图进行重新矫正。
在上述实施例中,根据字段信息与文本信息的匹配结果,在相应的区域进行定位点匹配。这样,可以准确地缩小对应定位点的匹配范围,提升匹配成功率,从而提高图像矫正的性能。
图5示出本公开的图像的矫正装置的另一些实施例的框图。
如图5所示,该实施例的图像的矫正装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的图像的矫正方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序、数据库以及其他程序等。
图6示出本公开的图像的矫正装置的又一些实施例的框图。
如图6所示,该实施例的图像的矫正装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的图像的矫正方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序以及其他程序等。
图像的矫正装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的图像的矫正方法、图像的矫正装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (12)

1.一种图像的矫正方法,包括:
确定模板图像中的字段信息及其对应的第一定位区域;
对待处理图像进行文本识别,确定各文本信息;
将所述字段信息与所述各文本信息进行匹配,确定与所述字段信息匹配的文本信息;
根据匹配结果,在所述待处理图像中确定与所述第一定位区域匹配的第二定位区域;
根据所述第一定位区域中各第一定位点与所述匹配的第二定位区域中各第二定位点的特征向量距离,确定所述各第一定位点和所述各第二定位点的对应关系;
根据所述对应关系,计算透视变换矩阵用于对所述待处理图像进行矫正;
其中,所述根据所述对应关系,计算透视变换矩阵包括:
选取多对具有所述对应关系的第一定位点和第二定位点,计算所述透视变换矩阵;
所述矫正方法还包括:
将所述第一定位区域中未用于计算所述透视变换矩阵的各第一定位点确定为第一评估定位点;
根据所述对应关系,在矫正后的待处理图像中确定与各第一评估定位点对应的第二评估定位点;
根据所述各第一评估定位点与对应的第二评估定位点的位置差异,对所述透视变换矩阵进行评估;
根据评估结果,确定是否对所述矫正后的待处理图进行重新矫正。
2.根据权利要求1所述的矫正方法,其中,所述对待处理图像进行文本识别,确定各文本信息及其对应的第二定位区域包括:
以所述待处理图像中的整行文本为识别单位,利用机器学习模型进行文本识别以确定所述各文本信息,所述机器学习模型能够根据整行文本中各字符的上下文关系进行文本识别。
3.根据权利要求1所述的矫正方法,其中,所述将所述字段信息与所述各文本信息进行匹配,确定与所述字段信息匹配的文本信息包括:
根据所述字段信息与所述各文本信息的文本距离进行模糊匹配,确定与所述字段信息匹配的文本信息。
4.根据权利要求3所述的矫正方法,其中,所述根据所述字段信息与所述各文本信息的文本距离进行模糊匹配,确定与所述字段信息匹配的文本信息包括:
计算所述字段信息与所述各文本信息的编辑距离;
在编辑距离小于编辑阈值的情况下,将相应的文本信息确定为所述匹配的文本信息。
5.根据权利要求1所述的矫正方法,其中,所述确定所述各第一定位点和所述各第二定位点的对应关系包括:
计算任一个第一定位点与所述各第二定位点之间的特征向量距离;
根据各特征向量距离的排序,确定该第一定位点的对应第二定位点。
6.根据权利要求5所述的矫正方法,其中,所述根据各特征向量距离的排序,确定该第一定位点的对应第二定位点包括:
在第二小的特征向量距离与第一小的特征向量距离之间的差异大于距离阈值的情况下,将所述第一小的特征向量距离对应的第二定位点确定为该第一定位点的对应第二定位点。
7.根据权利要求1-6任一项所述的矫正方法,还包括:
根据各第一定位点的分散程度,对所述透视变换矩阵进行评估;
根据评估结果,确定是否重新选取各第一定位点用于重新计算透视变换矩阵。
8.根据权利要求7所述的矫正方法,其中,
所述分散程度根据下面中的至少一项确定:
根据所述各第一定位点的共线程度,确定所述各第一定位点的分散程度;
根据以所述各第一定位点为顶点的多边形面积是否大于面积阈值,确定所述各第一定位点的分散程度。
9.一种图像的矫正装置,包括:
确定单元,用于确定模板图像中的字段信息及其对应的第一定位区域,对待处理图像进行文本识别,确定各文本信息,根据匹配结果,在所述待处理图像中确定与所述第一定位区域匹配的第二定位区域;
匹配单元,用于将所述字段信息与所述各文本信息进行匹配,确定与所述字段信息匹配的文本信息;
对应单元,用于根据所述第一定位区域中各第一定位点与所述匹配的第二定位区域中各第二定位点的特征向量距离,确定所述各第一定位点和所述各第二定位点的对应关系;
计算单元,用于根据所述对应关系,计算透视变换矩阵用于对所述待处理图像进行矫正;
其中,所述计算单元选取多对具有所述对应关系的第一定位点和第二定位点,计算所述透视变换矩阵;
所述矫正装置还包括:
评估单元,用于将所述第一定位区域中未用于计算所述透视变换矩阵的各第一定位点确定为第一评估定位点,根据所述对应关系,在矫正后的待处理图像中确定与各第一评估定位点对应的第二评估定位点,根据所述各第一评估定位点与对应的第二评估定位点的位置差异,对所述透视变换矩阵进行评估,以便根据评估结果,确定是否对所述矫正后的待处理图进行重新矫正。
10.根据权利要求9所述的矫正装置,还包括:
评估单元,用于根据各第一定位点的分散程度,对所述透视变换矩阵进行评估,以便根据评估结果,确定是否重新选取各第一定位点用于重新计算透视变换矩阵。
11.一种图像的矫正装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-8任一项所述的图像的矫正方法。
12.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述的图像的矫正方法。
CN202010047157.5A 2020-01-16 2020-01-16 图像的矫正方法、装置和计算机可读存储介质 Active CN111783770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010047157.5A CN111783770B (zh) 2020-01-16 2020-01-16 图像的矫正方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010047157.5A CN111783770B (zh) 2020-01-16 2020-01-16 图像的矫正方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111783770A CN111783770A (zh) 2020-10-16
CN111783770B true CN111783770B (zh) 2024-05-24

Family

ID=72753126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010047157.5A Active CN111783770B (zh) 2020-01-16 2020-01-16 图像的矫正方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111783770B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257712B (zh) * 2020-10-29 2024-02-27 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质
CN112613402A (zh) * 2020-12-22 2021-04-06 金蝶软件(中国)有限公司 文本区域检测方法、装置、计算机设备和存储介质
CN112613506A (zh) * 2020-12-23 2021-04-06 金蝶软件(中国)有限公司 图像中的文本识别方法、装置、计算机设备和存储介质
CN113723347B (zh) * 2021-09-09 2023-11-07 京东科技控股股份有限公司 信息提取的方法、装置、电子设备及存储介质
CN113869313A (zh) * 2021-10-13 2021-12-31 广东金赋科技股份有限公司 一种图像背景过滤的信息识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07103715A (ja) * 1993-10-01 1995-04-18 Nippondenso Co Ltd 視覚に基く三次元位置および姿勢の認識方法ならびに視覚に基く三次元位置および姿勢の認識装置
JP2000353244A (ja) * 1999-06-10 2000-12-19 Atr Ningen Joho Tsushin Kenkyusho:Kk 基礎行列を求めるための方法、ユークリッド的な3次元情報の復元方法、および3次元情報復元装置。
CN102388392A (zh) * 2009-02-10 2012-03-21 公立大学法人大阪府立大学 模式识别设备
JP2016220129A (ja) * 2015-05-25 2016-12-22 Kddi株式会社 カメラキャリブレーション方法および装置
CN107203990A (zh) * 2017-04-02 2017-09-26 南京汇川图像视觉技术有限公司 一种基于模板匹配与图像质量评估的标贴破损检测方法
CN107845107A (zh) * 2017-11-22 2018-03-27 殷周平 一种图像透视变换的优化方法
CN108230248A (zh) * 2018-01-23 2018-06-29 深圳普捷利科技有限公司 一种基于自适应特征点配准的环视系统拼接效果评估和自动微调方法
CN108345882A (zh) * 2018-02-11 2018-07-31 北京百度网讯科技有限公司 用于图像识别的方法、装置、设备和计算机可读存储介质
CN110569850A (zh) * 2019-08-20 2019-12-13 北京旷视科技有限公司 字符识别模板匹配方法、装置和文本识别设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07103715A (ja) * 1993-10-01 1995-04-18 Nippondenso Co Ltd 視覚に基く三次元位置および姿勢の認識方法ならびに視覚に基く三次元位置および姿勢の認識装置
JP2000353244A (ja) * 1999-06-10 2000-12-19 Atr Ningen Joho Tsushin Kenkyusho:Kk 基礎行列を求めるための方法、ユークリッド的な3次元情報の復元方法、および3次元情報復元装置。
CN102388392A (zh) * 2009-02-10 2012-03-21 公立大学法人大阪府立大学 模式识别设备
JP2016220129A (ja) * 2015-05-25 2016-12-22 Kddi株式会社 カメラキャリブレーション方法および装置
CN107203990A (zh) * 2017-04-02 2017-09-26 南京汇川图像视觉技术有限公司 一种基于模板匹配与图像质量评估的标贴破损检测方法
CN107845107A (zh) * 2017-11-22 2018-03-27 殷周平 一种图像透视变换的优化方法
CN108230248A (zh) * 2018-01-23 2018-06-29 深圳普捷利科技有限公司 一种基于自适应特征点配准的环视系统拼接效果评估和自动微调方法
CN108345882A (zh) * 2018-02-11 2018-07-31 北京百度网讯科技有限公司 用于图像识别的方法、装置、设备和计算机可读存储介质
CN110569850A (zh) * 2019-08-20 2019-12-13 北京旷视科技有限公司 字符识别模板匹配方法、装置和文本识别设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种图像校正重采样效应的评估及优化方法;宋汉辰, 吴玲达, 魏迎梅;小型微型计算机系统;20050821(08);全文 *
一种快速三维重建评估算法;陈攀;李亚兰;钟泽荟;李志扬;;信息技术;20170325(03);全文 *
基于仿射迭代模型的特征点匹配算法;邓宝松;宋汉辰;杨冰;吴玲达;;中国图象图形学报;20070415(04);全文 *

Also Published As

Publication number Publication date
CN111783770A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783770B (zh) 图像的矫正方法、装置和计算机可读存储介质
US11120254B2 (en) Methods and apparatuses for determining hand three-dimensional data
US9626552B2 (en) Calculating facial image similarity
CN105009170A (zh) 物体识别设备、方法和存储介质
CN110738236B (zh) 图像匹配方法、装置、计算机设备及存储介质
KR20140102038A (ko) 영상 정합 장치 및 영상 정합 방법
Cao et al. Similarity based leaf image retrieval using multiscale R-angle description
JP5958460B2 (ja) 特徴点照合装置、特徴点照合方法、および特徴点照合プログラム
US9256802B2 (en) Object or shape information representation method
US10528844B2 (en) Method and apparatus for distance measurement
CN112613506A (zh) 图像中的文本识别方法、装置、计算机设备和存储介质
CN109947273B (zh) 一种点读定位方法及装置
US20200005078A1 (en) Content aware forensic detection of image manipulations
WO2018198500A1 (ja) 照合装置、照合方法および照合プログラム
JPWO2013122009A1 (ja) 信頼度取得装置、信頼度取得方法および信頼度取得プログラム
CN112036362A (zh) 图像处理方法、装置、计算机设备和可读存储介质
CN113095187A (zh) 一种基于图像特征匹配对齐的试卷批改方法
CN114511865A (zh) 一种结构化信息的生成方法、装置和计算机可读存储介质
JP5500404B1 (ja) 画像処理装置及びそのプログラム
CN109978829B (zh) 一种待检测对象的检测方法及其系统
JP2015007919A (ja) 異なる視点の画像間で高精度な幾何検証を実現するプログラム、装置及び方法
US20220189182A1 (en) Reading system, reading device, and storage medium
JP6218237B2 (ja) 撮影画像を平行化する画像変換プログラム、装置及び方法
JP6946912B2 (ja) 推定プログラム、推定装置、及び推定方法
JP6717769B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant