CN110532973A - 基于特殊锚点的双页文本图像识别及定位分割方法 - Google Patents

基于特殊锚点的双页文本图像识别及定位分割方法 Download PDF

Info

Publication number
CN110532973A
CN110532973A CN201910825447.5A CN201910825447A CN110532973A CN 110532973 A CN110532973 A CN 110532973A CN 201910825447 A CN201910825447 A CN 201910825447A CN 110532973 A CN110532973 A CN 110532973A
Authority
CN
China
Prior art keywords
anchor point
point
special anchor
special
text image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910825447.5A
Other languages
English (en)
Other versions
CN110532973B (zh
Inventor
徐行
张鹏飞
张东祥
陈李江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Avanti Technology Co Ltd
Original Assignee
Hainan Avanti Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Avanti Technology Co Ltd filed Critical Hainan Avanti Technology Co Ltd
Priority to CN201910825447.5A priority Critical patent/CN110532973B/zh
Publication of CN110532973A publication Critical patent/CN110532973A/zh
Application granted granted Critical
Publication of CN110532973B publication Critical patent/CN110532973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理领域,具体涉及一种基于特殊锚点的双页文本图像识别及定位分割方法、系统、装置,旨在解决现有双页文本图像识别及分割方法准确率、效率低的问题。本系统方法包括获取待识别的文本图像;提取该图像中前景区域的轮廓线;获取轮廓线对应的最小外接矩形,并获取距离最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点获取特殊锚点;判断特殊锚点是否为异常锚点,根据异常锚点的数量判断文本图像是单页还是双页文本图像;还包括获取双页文本图像;获取特殊锚点;根据特殊锚点确定分割线位置,对最小外接矩形进行分割,得到分割结果。本发明提高了双页文本图像识别及分割的准确率、效率。

Description

基于特殊锚点的双页文本图像识别及定位分割方法
技术领域
本发明属于图像处理领域,具体涉及一种基于特殊锚点的双页文本图像识别及定位分割方法、系统、装置。
背景技术
随着计算机以及计算机网络带宽的飞速发展,信息的传播方式由以往的文本格式转化为二进制即图像的形式。在图像的处理和应用中,有时往往对图像的某些部分或者目标感兴趣,此时需要利用图像识别和分割技术将感兴趣的目标同背景区分开来,以便于进一步的研究和分析。图像识别和图像分割是图像分析的第一步,同时也是图像处理中最困难的问题之一。可以说,图像识别和图像分割结果的好坏,直接影响对图像的理解。
现有的很多检测或者识别任务只对单页图像做识别和分割处理,但实际往往也有很多双页图像为了方便后续处理,需要在图像预处理阶段将图像中的矩形文本识别并分割开来,形成单页文本图像,若使用单页图像方法对双页文本图像进行识别、分割,会出现大量错误。一般双页图像传统方法都是手动分割页面,将双页切割成两个单页,但是这样消耗了很多时间,而且效率比较低。因此,本发明提出了一种基于特殊锚点的双页文本图像识别及定位分割方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有双页文本图像识别及分割方法对双页文本图像识别、分割准确率低、效率低的问题,本发明第一方面,提出了一种基于特殊锚点的双页文本图像识别方法,该方法包括:
步骤A100,获取待识别的文本图像,作为输入图像;
步骤A200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
步骤A300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积;
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
在一些优选的实施方式中,步骤A200中“提取该图像中前景区域的轮廓线”,其方法为:采用canny算法对二值化处理后的输入图像进行边缘检测,检测完成后通过findcontours函数提取所述输入图像中前景区域的轮廓线。
在一些优选的实施方式中,步骤A300中“获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点”,其方法为:
获取所述前景区域的轮廓线上的点,构建点集合;
根据所述点集合中点i与前一个点i-1、后一个点i+1的关系,将符合预设条件(i+1).x!=i.x&&(i+1).y!=i.y&&(i-1).x!=i.x&&(i-1).y!=i.y或(i-1).x==i.x&&abs((i-1).y-i.y)<3&&abs((i+1).x-i.x)==1&&(i+1).y!=i.y或(i+1).x==i.x&&abs((i+1).y-i.y)<3&&abs((i-1).x-i.x)==1&&(i-1).y!=i.y的点i作为锚点;
根据所述最小外接矩形的中心点的y坐标,将大于所述y坐标的锚点中距离所述最小外接矩形纵向中轴线最近的锚点和小于所述y坐标的锚点中距离所述最小外接矩形纵向中轴线最近的锚点作为特殊锚点。
本发明的第二方面,提出了一种基于特殊锚点的双页文本图像定位分割方法,基于上述的基于特殊锚点的双页文本图像识别方法,该方法包括以下步骤:
步骤S100,获取待分割的双页文本图像,作为输入图像;
步骤S200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
步骤S300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;
步骤S400,根据步骤S300获取的两个特殊锚点确定分割线位置,对所述最小外接矩形进行分割,得到分割结果。
在一些优选的实施方式中,步骤S400中“根据步骤S300获取的两个特殊锚点确定分割线位置”,其方法为:
步骤S410,判断两个特殊锚点为异常锚点的数量,若异常锚点的数量为1,则将为异常锚点的特殊锚点删除;基于预设数z,计算另一特殊锚点i到点i-z的距离d1、点i+z的距离d2,若d1大于d2,则将该特殊锚点进行左移补偿,若d1小于d2,则将所述特殊锚点进行右移补偿;基于所述最小外接矩形纵向边的斜率、补偿后的特殊锚点,得到补偿后的特殊锚点在所述轮廓线上对应的另一特殊锚点;
步骤S420,若异常锚点的数量为0,通过步骤S410的左移或右移补偿方法分别对两个特殊锚点进行补偿,得到补偿后的两个特殊锚点;
步骤S430,基于步骤S410或者步骤S420得到的两个特殊锚点,确定分割线的位置。
在一些优选的实施方式中,“若d1大于d2,则将该特殊锚点进行左移补偿,若d1小于d2,则将所述特殊锚点进行右移补偿”,其方法为:
设定最大补偿步数,若d1大于d2,循环判断所述特殊锚点i的y坐标与点i-2的y坐标、点i-1的y坐标的大小,若所述点i-2的y坐标大于所述特殊锚点i的y坐标、所述点i-1的y坐标大于等于所述特殊锚点i的y坐标,则将所述特殊锚点i替换为点i-1;直至达到所述最大补偿步数或所述点i-1的y坐标小于所述特殊锚点i的y坐标,跳出循环,得到补偿后的特殊锚点;
若d1小于d2,循环判断所述特殊锚点i的y坐标与点i-2的y坐标、点i-1的y坐标的大小,若所述点i-2的y坐标小于所述特殊锚点i的y坐标、所述点i-1的y坐标小于等于所述特殊锚点i的y坐标,将所述特殊锚点i替换为点i-1;直至达到所述最大补偿步数或所述点i-1的y坐标大于所述特殊锚点i的y坐标,跳出循环,得到补偿后的特殊锚点。
本发明的第三方面,提出了一种基于特殊锚点的双页文本图像识别系统,该系统包括获取图像模块、提取轮廓模块、识别图像模块;
所述获取图像模块,配置为获取待识别的文本图像,作为输入图像;
所述提取轮廓模块,配置为对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
所述识别图像模块,配置为获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积;
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
本发明的第四方面,提出了一种基于特殊锚点的双页文本图像定位分割系统,基于上述的基于特殊锚点的双页文本图像识别系统,该系统包括获取图像模块、提取轮廓模块、获取锚点模块、分割模块;
所述获取图像模块,配置为获取待分割的双页文本图像,作为输入图像;
所述提取轮廓模块,配置为对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
所述获取锚点模块,配置为获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;
所述分割模块,配置为根据所述获取锚点模块获取的两个特殊锚点确定分割线位置,对所述最小外接矩形进行分割,得到分割结果。
本发明的第五方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的基于特殊锚点的双页文本图像识别方法和/或基于特殊锚点的双页文本图像定位分割方法。
本发明的第六方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于特殊锚点的双页文本图像识别方法和/或基于特殊锚点的双页文本图像定位分割方法。
本发明的有益效果:
本发明提高了双页文本图像识别及分割的准确率、效率。本发明通过对文本图像canny边缘检测后进行膨胀处理再采用findcontours函数寻找文本图像中前景区域的轮廓线,确保找到的轮廓线是封闭的。通过特殊锚点anchor及异常锚点的处理,可以判定当前图像是否存在翻页部位,从而对文本图像是单页文本图像还是双页文本图像进行准确的识别。在找到特殊锚点之后,对特殊锚点的位置进行判断,进行左移或者右移补偿,避免由于膨胀导致锚点本身位置偏离带来的影响。根据补偿后的锚点确定分割线的位置,提高了分割线定位的精度。在分割完成后,通过四边逼近的方式,进一步去除无关的背景区域,提高分割的准确度。同时,本发明也解决了传统的手工分割效率低的问题,提高了分割的效率。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于特殊锚点的双页文本图像识别方法的流程示意图;
图2是本发明一种实施例的基于特殊锚点的双页文本图像定位分割方法的流程示意图;
图3是本发明一种实施例的基于特殊锚点的双页文本图像识别系统的框架示意图;
图4是本发明一种实施例的基于特殊锚点的双页文本图像定位分割系统的框架示意图;
图5是本发明一种实施例的用户输入的双页文本图像;
图6是本发明一种实施例的对输入图像经过二值化处理后的图像;
图7是本发明一种实施例的经过canny算法检测后并进行膨胀处理的图像;
图8是本发明一种实施例的获取输入图像中前景区域的轮廓线的图像;
图9是本发明一种实施例的第一种关系下的锚点的示例图;
图10是本发明一种实施例的第二种关系下的锚点的示例图;
图11是本发明一种实施例的特殊锚点进行左移方法的示例图;
图12是本发明一种实施例的特殊锚点进行右移补偿方法的示例图;
图13是本发明一种实施例的基于特殊锚点的双页文本图像定位分割方法获取的初步分割结果的示例图;
图14是本发明一种实施例的基于特殊锚点的双页文本图像定位分割方法获取的最终分割结果的示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于特殊锚点的双页文本图像识别方法,如图1所示,包括以下步骤:
步骤A100,获取待识别的文本图像,作为输入图像;
步骤A200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
步骤A300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积;
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
为了更清晰地对本发明基于特殊锚点的双页文本图像识别方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
步骤A100,获取待识别的文本图像,作为输入图像。
在本实施例中,我们会根据实际的应用需求,获取待识别的文本图像,作为输入图像。一般的待识别图像为用户输入的图片,如图5所示,对于输入的图片也有一定要求,不能有无关的内容和前景区域粘连在一起,这个会严重影响到轮廓的查找。
步骤A200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线。
在本实施例中,将得到的输入图像通过二值化的方式区分前景和背景区域,二值化处理后的图像如图6所示,并通过canny算子(轮廓检测算法)检测输入图像中的轮廓,检测完成后用findcontours函数来寻找前景区域的轮廓线,找到的轮廓线如图8所示。因为要找到一个闭合的轮廓线,所以对于处理后的canny图像做一定的膨胀操作,膨胀后图片如图7所示。
步骤A300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积;
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
在本实施例中,将找到的轮廓线上的点,构建一个点集合,对于一条直线来说只存储两个端点的坐标,对于一个独立的点就存储它本身。遍历点集合里的每一个点,因为点的存储方式都是顺序存储所以比较好判断,对于点i判断它的前一个点i-1和后一个点i+1与它的关系,因为轮廓外观上看起来平滑,但是在像素点级别观测时,对于双页图像来说在翻页部分非平滑情况特别严重,通常翻页处的点的第一种关系如式(1)所示::
(i+1).x!=i.x&&(i+1).y!=i.y&&(i-1).x!=i.x&&(i-1).y!=i.y (1)
将符合式(1)的点作为锚点anchor,如图9所示,其中,m代表i-1点,n代表i+1点。
实际观测轮廓的时候发现对于比较柔和的双页图像来说,往往在翻页处会出现一个很短的直线和一个孤立的点。通常翻页处的点之间的第二种关系如式(2)所示:
(i-1).x==i.x&&abs((i-1).y-i.y)<3&&abs((i+1).x-i.x)==1&&(i+1).y!=i.y (2)
第三种关系如式(3)所示:
(i+1).x==i.x&&abs((i+1).y-i.y)<3&&abs((i-1).x-i.x)==1&&(i-1).y!=i.y (3)
将符合式(2)(3)的点也作为anchor,其中式(2)为anchor位于文本图像中翻页部分左边的判断条件,式(3)为anchor位于文本图像中翻页部分右边的判断条件。根据式(2)得到点i与前后点的关系如图10所示。
对于获得的所有anchor会进行一次判断,判断其是否为特殊anchor。首先将findcontours函数找到的轮廓线使用minarearect的方法获取该轮廓线的最小外接矩形,将所有anchor的y坐标与最小外接矩形的中心点的y坐标进行对比,比其大的,说明位于上轮廓线,否则位于下轮廓线。先对上轮廓线上的anchor进行判断,计算上轮廓线上的每一个anchor到最小外接矩形左边、右边的距离,用d1、d2表示,计算d1、d2的绝对差值,统计上轮廓线上所有anchor对应的绝对差值,找到一个最小的绝对差值,将其作为特殊anchor。对于下轮廓上的所有anchor一样,通过上述方法,找到一个最小绝对差值对应的anchor,将其作为特殊anchor。
上述求解特殊anchor的方法中的绝对差值,就是寻找获取距离所述最小外接矩形纵向中轴线最近的两个锚点。
上述所述的最小外接矩形的纵向中轴线或左边或右边,是以图1中的双页图像中的书本打开的方向为例,在倾斜角度不大的情况下,能明显区分出纵向和横向。
上述的最小外接矩形,也包括与最小外界矩形同心的矩形,本质上为一致的,都认为是本实施例中的最小外界矩形。
获取到特殊anchor后,分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积。在本实施例中,设定系数优选为2.2,其他实施例可以根据情况而定。
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
对于单页图像还需要根据最小外接矩形的长宽比与预设阈值的大小进行判断,从而进一步的确定。
本发明第二实施例的一种基于特殊锚点的双页文本图像定位分割方法,基于上述的基于特殊锚点的双页文本图像识别方法,如图2所示,包括以下步骤:
步骤S100,获取待分割的双页文本图像,作为输入图像;
步骤S200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
步骤S300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;
步骤S400,根据步骤S300获取的两个特殊锚点确定分割线位置,对所述最小外接矩形进行分割,得到分割结果。
为了更清晰地对本发明基于特殊锚点的双页文本图像定位分割方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
步骤S100,获取待分割的双页文本图像,作为输入图像。
步骤S200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线。
步骤S300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点。
本实施例中的步骤S100、步骤S200、步骤S300,与上述的步骤A100、步骤A200、步骤A300获取图像、提取轮廓、获取锚点的方法一样,这里不展开详述。
步骤S40,根据步骤S300获取的两个特殊锚点确定分割线位置,对所述最小外接矩形进行分割,得到分割结果。
在本实施例中,判断两个特殊锚点为异常锚点的数量,异常锚点数量为1和0需要分别展开处理,具体步骤如下:
步骤S410,若异常锚点的数量为1,则将为异常锚点的特殊锚点删除;基于预设数z,计算另一特殊锚点i到点i-z的距离d1、点i+z的距离d2,若d1大于d2,则将该特殊锚点进行左移补偿,若d1小于d2,则将所述特殊锚点进行右移补偿;基于所述最小外接矩形纵向边的斜率、补偿后的特殊锚点,得到补偿后的特殊锚点在所述轮廓线上对应的另一特殊锚点。
这里的预设数z优选为20。
若d1大于d2,则将该特殊锚点进行左移补偿,若d1小于d2,则将所述特殊锚点进行右移补偿,优选长度短的一边,是因为此方向独立的点更多,短线段更多。假设方向是往左边即i点前面的点,得到方向之后再做一个判断,判断点i-2和i点的y坐标的大小,如果(i-2).y-i.y≥0认为往这个方向做补偿的时候判断条件是补偿后的i.y应该是一个增长的趋势,其补偿方法如图11所示,图11中,point是我用来存储anchor的一个数组,points是存储findcontours函数找到的轮廓线上的所有的点,points.size()就是表示这些点的个数,flag_t为最大补偿步数。在本实施例中,最大补偿步数优选为5。
如果满足里while给出的条件就继续往前移动,不满足while条件的时候记录此时的点i为最终补偿找到的特殊锚点。
如果(i-2).y-i.y<0认为往这个方向做贪心补偿的时候判断条件是补偿后的i.y应该是一个减小的趋势。补偿过程如图12所示。
常常完成后需要对删除的特殊锚点进行补全,其补全具体步骤如下:
计算最小外接矩形纵向边的斜率;
根据补偿后的特殊锚点、斜率,得到轮廓线上补偿后的特殊锚点对应的另一特殊锚点。
步骤S420,若异常锚点的数量为0,通过步骤S410的左移或右移补偿方法分别对两个特殊锚点进行补偿,得到补偿后的两个特殊锚点。
通过步骤S410对左移补偿或者右移补偿方法,得到两个补偿后的特殊锚点。
步骤S430,基于步骤S410或者步骤S420得到的两个特殊锚点,确定分割线的位置。
两点确定一条直线,根据两个特殊锚点,可以确定分割线的位置。并根据分割线的位置对所述最小外接矩形所进行分割,得到输入图像的分割结果。如图13所示,本实施例中,将得到的分割结果作为初步分割结果。
若在实际的运用的过程需要更精确分割结果,则对分割后的图像进行仿射变换后通过角度的调整和微小的切边操作获取。如图14所示,将其作为最终分割结果。
其中角度调整方法为:基于二值化处理的文本图像,膨胀操作后,图中的文本行变成了一个整体的连通域,然后寻找直线,使用寻找到的直线的斜率来解决图片的倾斜问题。
切边操作方法为:因为之前找轮廓的时候使用canny这个边缘检测算法,在此过程中使用了膨胀操作,找到的边界没有紧贴图片轮廓,而且会有一定偏差,边界部分黑色像素占比很高。因此,用四边逼近的方式可以确定一个较好的切边位置。四边逼近方法为现有技术,这里不再展开详述。
本发明第三实施例的一种基于特殊锚点的双页文本图像识别系统,如图3所示,包括:获取图像模块A1000、提取轮廓模块A2000、识别图像模块A3000;
所述获取图像模块A1000,配置为获取待识别的文本图像,作为输入图像;
所述提取轮廓模块A2000,配置为对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
所述识别图像模块A3000,配置为获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积;
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
本发明第四实施例的一种基于特殊锚点的双页文本图像定位分割系统,如图4所示,基于上述的基于特殊锚点的双页文本图像识别系统,包括获取图像模块S1000、提取轮廓模块S2000、获取锚点模块S3000、分割模块S4000;
所述获取图像模块S1000,配置为获取待分割的双页文本图像,作为输入图像;
所述提取轮廓模块S2000,配置为对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
所述获取锚点模块S3000,配置为获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;
所述分割模块S4000,配置为根据所述获取锚点模块S3000获取的两个特殊锚点确定分割线位置,对所述最小外接矩形进行分割,得到分割结果。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考签署方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于特殊锚点的双页文本图像识别系统和/或基于特殊锚点的双页文本图像定位分割系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第五实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于特殊锚点的双页文本图像识别方法和/或基于特殊锚点的双页文本图像定位分割方法。
本发明第六实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于特殊锚点的双页文本图像识别方法和/或基于特殊锚点的双页文本图像定位分割方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考签署方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于特殊锚点的双页文本图像识别方法,其特征在于,该识别方法包括以下步骤:
步骤A100,获取待识别的文本图像,作为输入图像;
步骤A200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
步骤A300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积;
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
2.根据权利要求1所述的基于特殊锚点的双页文本图像识别方法,其特征在于,步骤A200中“提取该图像中前景区域的轮廓线”,其方法为:采用canny算法对二值化处理后的输入图像进行边缘检测,检测完成后通过findcontours函数提取所述输入图像中前景区域的轮廓线。
3.根据权利要求1所述的基于特殊锚点的双页文本图像识别方法,步骤A300中“获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点”,其方法为:
获取所述前景区域的轮廓线上的点,构建点集合;
根据所述点集合中点i与前一个点i-1、后一个点i+1的关系,将符合预设条件(i+1).x!=i.x&&(i+1).y!=i.y&&(i-1).x!=i.x&&(i-1).y!=i.y或(i-1).x==i.x&&abs((i-1).y-i.y)<3&&abs((i+1).x-i.x)==1&&(i+1).y!=i.y或(i+1).x==i.x&&abs((i+1).y-i.y)<3&&abs((i-1).x-i.x)==1&&(i-1).y!=i.y的点i作为锚点;
根据所述最小外接矩形的中心点的y坐标,将大于所述y坐标的锚点中距离所述最小外接矩形纵向中轴线最近的锚点和小于所述y坐标的锚点中距离所述最小外接矩形纵向中轴线最近的锚点作为特殊锚点。
4.一种基于特殊锚点的双页文本图像定位分割方法,其特征在于,基于权利要求1-3任一项所述的基于特殊锚点的双页文本图像识别方法,该方法包括以下步骤:
步骤S100,获取待分割的双页文本图像,作为输入图像;
步骤S200,对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
步骤S300,获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;
步骤S400,根据步骤S300获取的两个特殊锚点确定分割线位置,对所述最小外接矩形进行分割,得到分割结果。
5.根据权利要求4所述的基于特殊锚点的双页文本图像定位分割方法,其特征在于,步骤S400中“根据步骤S300获取的两个特殊锚点确定分割线位置”,其方法为:
步骤S410,判断两个特殊锚点为异常锚点的数量,若异常锚点的数量为1,则将为异常锚点的特殊锚点删除;基于预设数z,计算另一特殊锚点i到点i-z的距离d1、点i+z的距离d2,若d1大于d2,则将该特殊锚点进行左移补偿,若d1小于d2,则将所述特殊锚点进行右移补偿;基于所述最小外接矩形纵向边的斜率、补偿后的特殊锚点,得到补偿后的特殊锚点在所述轮廓线上对应的另一特殊锚点;
步骤S420,若异常锚点的数量为0,通过步骤S410的左移或右移补偿方法分别对两个特殊锚点进行补偿,得到补偿后的两个特殊锚点;
步骤S430,基于步骤S410或者步骤S420得到的两个特殊锚点,确定分割线的位置。
6.根据权利要求5中所述的基于特殊锚点的双页文本图像定位分割方法,其特征在于,“若d1大于d2,则将该特殊锚点进行左移补偿,若d1小于d2,则将所述特殊锚点进行右移补偿”,其方法为:
设定最大补偿步数,若d1大于d2,循环判断所述特殊锚点i的y坐标与点i-2的y坐标、点i-1的y坐标的大小,若所述点i-2的y坐标大于所述特殊锚点i的y坐标、所述点i-1的y坐标大于等于所述特殊锚点i的y坐标,则将所述特殊锚点i替换为点i-1;直至达到所述最大补偿步数或所述点i-1的y坐标小于所述特殊锚点i的y坐标,跳出循环,得到补偿后的特殊锚点;
若d1小于d2,循环判断所述特殊锚点i的y坐标与点i-2的y坐标、点i-1的y坐标的大小,若所述点i-2的y坐标小于所述特殊锚点i的y坐标、所述点i-1的y坐标小于等于所述特殊锚点i的y坐标,将所述特殊锚点i替换为点i-1;直至达到所述最大补偿步数或所述点i-1的y坐标大于所述特殊锚点i的y坐标,跳出循环,得到补偿后的特殊锚点。
7.一种基于特殊锚点的双页文本图像识别系统,其特征在于,该系统包括获取图像模块、提取轮廓模块、识别图像模块;
所述获取图像模块,配置为获取待识别的文本图像,作为输入图像;
所述提取轮廓模块,配置为对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
所述识别图像模块,配置为获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;分别将两个特殊锚点与所述最小外接矩形纵向边的距离与距离阈值进行对比,将大于所述距离阈值的锚点作为异常锚点;所述距离阈值为设定系数与所述最小外接矩形纵向边的长度的乘积;
若所述异常锚点的数量为0或1,则判定所述输入图像为双页文本图像,否则所述输入图像为单页文本图像。
8.一种基于特殊锚点的双页文本图像定位分割系统,其特征在于,基于权利要求7所述的基于特殊锚点的双页文本图像识别系统,该系统包括获取图像模块、提取轮廓模块、获取锚点模块、分割模块;
所述获取图像模块,配置为获取待分割的双页文本图像,作为输入图像;
所述提取轮廓模块,配置为对所述输入图像进行二值化处理,并提取该图像中前景区域的轮廓线;
所述获取锚点模块,配置为获取所述轮廓线对应的最小外接矩形,并获取距离所述最小外接矩形纵向中轴线最近的两个锚点,将其作为特殊锚点;
所述分割模块,配置为根据所述获取锚点模块获取的两个特殊锚点确定分割线位置,对所述最小外接矩形进行分割,得到分割结果。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-3任一项所述的基于特殊锚点的双页文本图像识别方法和/或权利要求4-6任一项所述的基于特殊锚点的双页文本图像定位分割方法。
10.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于特殊锚点的双页文本图像识别方法和/或权利要求4-6任一项所述的基于特殊锚点的双页文本图像定位分割方法。
CN201910825447.5A 2019-09-03 2019-09-03 基于特殊锚点的双页文本图像识别及定位分割方法 Active CN110532973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910825447.5A CN110532973B (zh) 2019-09-03 2019-09-03 基于特殊锚点的双页文本图像识别及定位分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910825447.5A CN110532973B (zh) 2019-09-03 2019-09-03 基于特殊锚点的双页文本图像识别及定位分割方法

Publications (2)

Publication Number Publication Date
CN110532973A true CN110532973A (zh) 2019-12-03
CN110532973B CN110532973B (zh) 2022-02-01

Family

ID=68666162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910825447.5A Active CN110532973B (zh) 2019-09-03 2019-09-03 基于特殊锚点的双页文本图像识别及定位分割方法

Country Status (1)

Country Link
CN (1) CN110532973B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177541A (zh) * 2021-05-17 2021-07-27 上海云扩信息科技有限公司 一种计算机程序提取pdf文档及图片中文字内容的方法
CN114332304A (zh) * 2020-09-28 2022-04-12 广州慧睿思通人工智能技术有限公司 文本图像合成方法、文本图像合成装置和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346390A (zh) * 2013-08-01 2015-02-11 北大方正集团有限公司 一种形成字库的方法及装置
CN105894586A (zh) * 2016-03-29 2016-08-24 北方工业大学 一种三维图书模型的单侧页面提取方法
CN108335266A (zh) * 2017-04-14 2018-07-27 陈思远 一种文档图像畸变的矫正方法
CN109711406A (zh) * 2018-12-25 2019-05-03 中南大学 一种基于多尺度旋转锚点机制的多方向图像文本检测方法
CN109948101A (zh) * 2019-03-21 2019-06-28 Oppo广东移动通信有限公司 页面切换方法、装置、存储介质及电子设备
CN110096980A (zh) * 2019-04-20 2019-08-06 东莞中科蓝海智能视觉科技有限公司 字符检测识别系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346390A (zh) * 2013-08-01 2015-02-11 北大方正集团有限公司 一种形成字库的方法及装置
CN105894586A (zh) * 2016-03-29 2016-08-24 北方工业大学 一种三维图书模型的单侧页面提取方法
CN108335266A (zh) * 2017-04-14 2018-07-27 陈思远 一种文档图像畸变的矫正方法
CN109711406A (zh) * 2018-12-25 2019-05-03 中南大学 一种基于多尺度旋转锚点机制的多方向图像文本检测方法
CN109948101A (zh) * 2019-03-21 2019-06-28 Oppo广东移动通信有限公司 页面切换方法、装置、存储介质及电子设备
CN110096980A (zh) * 2019-04-20 2019-08-06 东莞中科蓝海智能视觉科技有限公司 字符检测识别系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUN CHE FUNG ET AL: "A Review of Evaluation of Optimal Binarization Technique for Character Segmentation in Historical Manuscripts", 《2010 THIRD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *
SUNGHOO CHOI ET AL: "Text localization and character segmentation algorithms for automatic recognition of slab identification numbers", 《OPTICAL ENGINEERING》 *
刘星辰 等: "朝汉混排古籍的文字切分方法", 《计算机工程与应用》 *
刘玉杰 等: "基于自动定位分割的图书识别框架", 《计算机辅助设计与图形学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114332304A (zh) * 2020-09-28 2022-04-12 广州慧睿思通人工智能技术有限公司 文本图像合成方法、文本图像合成装置和计算机设备
CN113177541A (zh) * 2021-05-17 2021-07-27 上海云扩信息科技有限公司 一种计算机程序提取pdf文档及图片中文字内容的方法
CN113177541B (zh) * 2021-05-17 2023-12-19 上海云扩信息科技有限公司 一种计算机程序提取pdf文档及图片中文字内容的方法

Also Published As

Publication number Publication date
CN110532973B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN107871124B (zh) 一种基于深度神经网络的遥感图像目标检测方法
KR100750424B1 (ko) 화상 유사도 산출 시스템, 화상 검색 시스템, 화상 유사도산출 방법 및 화상 유사도 산출용 프로그램
KR100346259B1 (ko) 다수개의 영역특징정보를 이용한 이미지 검색 방법
US6456730B1 (en) Moving object detection apparatus and method
US20140003723A1 (en) Text Detection Devices and Text Detection Methods
US20080169964A1 (en) Systems and Methods for a Terrain Contour Matching Navigation System
WO2007051963A1 (en) Image processing
CN110532973A (zh) 基于特殊锚点的双页文本图像识别及定位分割方法
CN109919144B (zh) 可行驶区域检测方法、装置、计算机存储介质及路测视觉设备
CN110210565A (zh) 归一化互相关图像模板匹配实现方法
CN110189373A (zh) 一种基于视觉语义信息的快速重定位方法及装置
Yu et al. Road tracking, lane segmentation and obstacle recognition by mathematical morphology
BR112013006124B1 (pt) aparelho de estimativa de percurso
CN114119998B (zh) 一种车载点云地面点提取方法及存储介质
CN107451156A (zh) 一种图像再识别方法及识别装置
EP2447884A1 (en) Method for detecting and recognising an object in an image, and an apparatus and a computer program therefor
CN115599119A (zh) 一种无人机的避障系统
JPH05181411A (ja) 地図情報照合更新方式
CN106033613B (zh) 目标跟踪方法及装置
CN112418193B (zh) 一种车道线识别方法及系统
CN114022760A (zh) 铁路隧道障碍物监测预警方法、系统、设备及存储介质
CN108073925A (zh) 一种车牌识别方法及装置
CN113763415B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN103337220A (zh) 摄影数据提供系统
Busch Revision of built-up areas in a GIS using satellite imagery and GIS data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant