CN108573251A - 文字区域定位方法和装置 - Google Patents

文字区域定位方法和装置 Download PDF

Info

Publication number
CN108573251A
CN108573251A CN201710152728.XA CN201710152728A CN108573251A CN 108573251 A CN108573251 A CN 108573251A CN 201710152728 A CN201710152728 A CN 201710152728A CN 108573251 A CN108573251 A CN 108573251A
Authority
CN
China
Prior art keywords
edge
character area
point
image
variogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710152728.XA
Other languages
English (en)
Other versions
CN108573251B (zh
Inventor
王永亮
王青泽
陈标龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710152728.XA priority Critical patent/CN108573251B/zh
Priority to US16/491,020 priority patent/US11017260B2/en
Priority to PCT/CN2017/119692 priority patent/WO2018166276A1/zh
Publication of CN108573251A publication Critical patent/CN108573251A/zh
Application granted granted Critical
Publication of CN108573251B publication Critical patent/CN108573251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明提出一种文字区域定位方法和装置,涉及图像处理领域。其中,本发明的一种文字区域定位方法包括:根据原始图像获取方差图;获取方差图的边缘图像;若边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内,则确定相邻两条边缘线之间的区域为文字区域。通过这样的方法,能够利用文字区域中文字高度相似的特点,根据边缘图像中边缘线之间的距离确定文字区域,不会由于文字笔画粗度变化造成影响,适用于各种不同的字体,且能够避免图像复杂的像素变化情况对定位造成影响,提高文字区域定位的准确性。

Description

文字区域定位方法和装置
技术领域
本发明涉及图像处理领域,特别是一种文字区域定位方法和装置。
背景技术
在文字识别过程中,需要先利用某些算法在图片中定位出文字区域,再在文字区域中利用相关的图像算法提取文字内容,因此文字定位是文字识别引擎的一个重要的模块。目前常用的方法有笔画宽度定位法(Stroke Width Transform)和稳定极值区域检测法(Maximally Stable Extremal Regions)。
笔画宽度定位法利用打印体文字的笔画宽度不变这一特性,在一个图片中寻找一对平行线,并将平行线判定为笔画,再把相互靠近的笔画聚集成文字区域。图1为利用笔画宽度定位法进行文字定位的示意图。图1A的灰色区域是文字的一个笔画放大数倍之后的效果,其中灰色的小格子是笔画上的像素,白色的小格子是图像背景。图1B中,利用Canny算子勾勒出了笔画的两条轮廓,大致可以看出这两条轮廓相互平行,p和q为轮廓两侧相对的点,两点之间的直线距离为W。图1C是在图1B的基础上计算轮廓上的像素到与其平行的轮廓上的像素点最小的距离,这个距离就是笔画宽度。
稳定极值区域检测法是利用图像中的文字区域会跟背景图像形成鲜明的对比这一特点进行文字区域定位。如图2所示,图像中的字体跟背景的颜色对比明显,通过不断提高二值化阈值,可以获得右边的两张图片,在右边的图片中可以清晰的看到文字信息。
但是,现有技术也有各自的缺陷。如图3A中所示,微软正黑体的文字笔画的宽度是一致的,能够采用笔画宽度定位法进行定位,但是,如图3B中所示的宋体文字其笔画宽度并不相同,如笔画撇(丿)就是上半部分宽度比较粗,下边比较细,因此不适用于采用笔画宽度定位法进行定位。而采用稳定极值区域检测法需要文字区域的像素对比度高,但在应用过程中,对比度高的区域不一定是文字,因此该算法很容易引入额外的噪声。如图4所示,矩形框所选中的位置都是稳定极值区域,但是只有不到一半的区域是文字区域。另外,这两种方法都只能先定位文字区域,还需要额外的算法将单个文字串成行,较为繁琐,降低了运算效率。
发明内容
本发明的一个目的在于提出一种文字区域定位方法,提高对不同字体的适应能力,提高文字区域定位的准确性。
根据本发明的一个实施例,提出一种文字区域定位方法,包括:根据原始图像获取方差图;获取方差图的边缘图像;若边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内,则确定相邻两条边缘线之间的区域为文字区域。
可选地,若边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内,则确定相邻两条边缘点之间的区域为文字区域包括:确定第一边缘点和位于相邻边缘线上的第二边缘点;根据第一边缘点和第二边缘点之间的距离确定行高;连接行高的差值在预定距离差范围内的相邻的第一边缘点,确定第一边缘线,连接行高的差值在预定距离差范围内的相邻的第二边缘点,确定第二边缘线,第一边缘线与第二边缘线之间的区域为文字区域。
可选地,确定第一边缘点和位于相邻边缘线上的第二边缘点包括:在边缘图像中取一点作为第一边缘点;从第一边缘点沿像素梯度的方向发射射线,直至下一边缘点;若第一边缘点与下一边缘点法向量的夹角小于预定角度阈值,则确定下一边缘点为第二边缘点。
可选地,根据原始图像获取方差图包括:获取原始图像中目标像素位置的像素值,及目标像素位置的邻近像素点的像素值,其中,邻近像素点为目标像素位置水平和/或竖直方向连续预定数量的像素点;将原始图像中目标像素位置和邻近像素点的像素值取方差值,确定方差图中目标像素位置的像素值。
可选地,获取方差图的边缘图像包括:基于方差图利用Canny算子计算图像边缘,获取边缘图像。
可选地,文字区域包括横向文字区域、纵向文字区域、倾斜文字区域和/或扇形文字区域。
通过这样的方法,能够利用文字区域中文字高度相似的特点,根据边缘图像中边缘线之间的距离确定文字区域,不会由于文字笔画粗度变化造成影响,适用于各种不同的字体,且能够避免图像复杂的像素变化情况对定位造成影响,提高文字区域定位的准确性。
根据本发明的另一个实施例,提出一种文字区域定位装置,包括:方差图确定模块,用于根据原始图像获取方差图;边缘图像获取模块,用于获取方差图的边缘图像;文字区域定位模块,用于当边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内时,确定相邻两条边缘线之间的区域为文字区域。
可选地,文字区域定位模块包括:边缘点确定单元,用于确定第一边缘点和位于相邻边缘线上的第二边缘点;行高确定单元,用于根据第一边缘点和第二边缘点之间的距离确定行高;边缘线连接单元,用于连接行高的差值在预定距离差范围内的相邻的第一边缘点,确定第一边缘线,连接行高的差值在预定距离差范围内的相邻的第二边缘点,确定第二边缘线,第一边缘线与第二边缘线之间的区域为文字区域。
可选地,边缘点确定单元包括:第一边缘点指定子单元,用于在边缘图像中取一点作为第一边缘点;下一边缘点获取子单元,用于从第一边缘点沿像素梯度的方向发射射线,直至下一边缘点;第二边缘点确定子单元,用于当第一边缘点与下一边缘点法向量的夹角小于预定角度阈值时,确定下一边缘点为第二边缘点。
可选地,方差图确定模块具体用于:获取原始图像中目标像素位置的像素值,及目标像素位置的邻近像素点的像素值,其中,邻近像素点为目标像素位置水平和/或竖直方向连续预定数量的像素点;将原始图像中目标像素位置和邻近像素点的像素值取方差值,确定方差图中目标像素位置的像素值。
可选地,边缘图像获取模块具体用于:基于方差图利用Canny算子计算图像边缘,获取边缘图像。
可选地,文字区域包括横向文字区域、纵向文字区域、倾斜文字区域和/或扇形文字区域。
这样的装置能够利用文字区域中文字高度相似的特点,根据边缘图像中边缘线之间的距离确定文字区域,不会由于文字笔画粗度变化造成影响,适用于各种不同的字体,且能够避免图像复杂的像素变化情况对定位造成影响,提高文字区域定位的准确性。
根据本发明的又一个实施例,提出一种文字区域定位装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中提到的任意一种文字区域定位方法。
这样的装置能够利用文字区域中文字高度相似的特点,根据边缘图像中边缘线之间的距离确定文字区域,不会由于文字笔画粗度变化造成影响,适用于各种不同的字体,且能够避免图像复杂的像素变化情况对定位造成影响,提高文字区域定位的准确性。
根据本发明的再一个实施例,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中提到的任意一种文字区域定位方法的步骤。
这样的计算机存储介质能够在文字区域定位装置运行过程中利用文字区域中文字高度相似的特点,根据边缘图像中边缘线之间的距离确定文字区域,适用于各种不同的字体,提高文字区域定位的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1A~图1C为现有技术中笔画宽度定位法的示意图。
图1A为笔画放大效果图。
图1B为轮廓示意图。
图1C为笔画宽度计算示意图。
图2为现有技术中稳定极值区域检测法的示意图。
图3A为文字笔画宽度一致的字体示意图。
图3B为文字笔画宽度不一致的字体示意图。
图4为不适用于稳定极值区域检测法图片的示意图。
图5为本发明的文字区域定位方法的一个实施例的流程图。
图6A为采用本发明的文字区域定位方法的一个实施例的原始图像。
图6B为对图6A采用本发明的文字区域定位方法时确定的方差图。
图6C为对图6B采用本发明的文字区域定位方法时确定的边缘图像。
图6D为对图6C采用本发明的文字区域定位方法时确定的文字区域示意图。
图7为本发明的文字区域定位方法中在边缘图像中定位文字区域的一个实施例的流程图。
图8为本发明的文字区域定位方法中确定边缘点的一个实施例的流程图。
图9为本发明的文字区域定位装置的一个实施例的示意图。
图10为本发明的文字区域定位装置中文字区域定位模块的一个实施例的示意图。
图11为本发明的文字区域定位装置中边缘点确定单元的一个实施例的示意图。
图12为本发明的文字区域定位装置的另一个实施例的示意图。
图13为本发明的文字区域定位装置的又一个实施例的示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明的文字区域定位方法的一个实施例的流程图如图5所示。
在步骤501中,根据原始图像获取方差图。在一个实施例中,可以根据原始图像中每个点的像素值获取图像中每个像素点与周围几个像素点的像素值方差,如根据水平连续几个点的像素值取方差,确定其中一个点的方差图像素。通过计算每个点与周围几个点像素值的方差,确定方差图。
在步骤502中,获取方差图的边缘图像。在一个实施例中,可以采用现有技术中任意一种边缘检测算法计算边缘图像。
在步骤503中,当边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内时,确定相邻两条边缘线之间的区域为文字区域。在一个实施例中,可以在边缘图像中得到两条近似平行的边缘线,该边缘线可以为直线、曲线,中间可以有断点等,若两条边缘线之间的距离相对稳定,距离变化范围在预定距离差范围内,则可以认为这两条边缘线之间的区域为文字区域。
通过这样的方法,能够利用文字区域中文字高度相似的特点,根据边缘图像中边缘线之间的距离确定文字区域,不会由于文字笔画粗度变化造成影响,适用于各种不同的字体,且能够避免图像复杂的像素变化情况对定位造成影响,提高文字区域定位的准确性。另外,由于无需逐字的确定文字区域再进行拼接,而是直接在复杂版面的打印体图片中直接快速的定位文字行,提高了文字区域的确定效率。
在一个实施例中,可以获取原始图像中目标像素位置的像素值,及目标像素位置的邻近像素点的像素值,将原始图像中目标像素位置和邻近像素点的像素值取方差值来确定方差图中目标像素位置的像素值,其中,邻近像素点可以为目标像素位置水平、竖直方向连续预定数量的像素点。预定数量可以根据经验或者实际需求设定。例如,假定原始图像为G,原始图像中坐标位置为(x,y)的像素点的像素值为G(x,y),如G(0,0)代表图像左上角的像素值。假定方差图为I,方差图中坐标位置为(x,y)的像素点的像素值为I(x,y)。以水平方差图为例,G(x,y)的邻近像素点包括G(x-t,y)、G(x-t+1,y)、……G(x-1,y)、G(x+1,y)、……G(x+t,y),根据公式:
I(x,y)=Var(G(x-t,y),G(x-t+1,y),..G(x,y),G(x+1,y),..G(x+t,y))
计算方差图中(x,y)点的像素值I(x,y)。其中,t的数值可以根据需要或效果设定,如设置为5。
对于位于两端的像素点,如G(0,0),可以只根据G(0,0)、G(1,0)……G(t,0)确定I(0,0)。
对于特殊的应用场合,还可以计算竖直方差图,即以竖直方向续预定数量的像素点的像素值确定方差值;还可以设定上下左右预定范围内的像素点为邻近像素点。
通过这样的方法,能够在原始图像的基础上计算其方差图,方差图能够反应图像的变化情况,从而获取图像发生剧烈变化的位置,便于将文字区域与其他图像区域区分。如图6A所示为原始图像,6B为图6A的方差图,从方差图中能够看出,文字区域呈现明显的长条状,具有突出的特点。
在一个实施例中,在方差图的基础上,可以进一步提取方差图的边缘轮廓,得到边缘图像。可以利用现有技术中任意一种边缘图像提取算法进行实现,如采用Canny算子计算图像边缘,得到边缘图像。
通过这样的方法,能够在方差图的基础上进一步得到方差图的边缘轮廓,从而便于在边缘图像的基础上进行运算,得到位于边缘点之间的文字区域。如图6C所示,在图像6B的基础上进行边缘轮廓提取,能够得到6C中的边缘图像。6C中的边缘图像线条清楚,能够便于进行边缘点提取和距离计算,得到如图6D所示的文字区域示意图。
本发明的文字区域定位方法中在边缘图像中定位文字区域的一个实施例的流程图如图7所示。
在步骤701中,确定第一边缘点和位于相邻边缘线上的第二边缘点。在一个实施例中,可以遍历边缘图像,每次取一个边缘点作为第一边缘点,直至完成整幅图像或整条边缘线上每个边缘点与相对的第二边缘点间的关联确认。在第一边缘点的基础上可以取与第一边缘点所处的边缘线相邻的边缘线上与第一边缘点位置相对的像素点作为第二边缘点。如两条水平的边缘线上下平行,第一边缘点坐标为(x,y),则第二边缘点坐标为(x,y+n),其中,n为第一、第二边缘点之间的距离。
在步骤702中,根据第一边缘点和第二边缘点之间的距离确定行高。在一个实施例中,可以遍历整幅图,得到每个第一边缘点和对应的第二边缘点之间的行高。
在步骤703中,连接行高的差值在预定距离差范围内的相邻的第一边缘点,确定第一边缘线,连接行高的差值在预定距离差范围内的相邻的第二边缘点,确定第二边缘线,第一边缘线与第二边缘线之间的区域为文字区域。在一个实施例中,若至少两个第一边缘点相邻、且第一边缘点对应的第二边缘点也相邻,且这些相邻的边缘点中,第一边缘点与第二边缘点之间的距离的差值在预定距离差范围内,则可以认为第一边缘点和第二边缘点分别为文字的上边线点、下边线点(在竖直状态下是左、右边线点),从而可以将相邻边缘点连接,得到文字的上边线、文字的下边线(在竖直状态下是左、右边线),边线之间的区域即为文字区域。
通过这样的方法,能够在边缘图像的基础上得到文字的边线,从而得到文字区域,由于无需进行单个文字的判断,降低了运算量,且不受笔画粗度不同、像素值有较大差异的不规则区域的影响,提高了文字区域定位的效率和准确度。
本发明的文字区域定位方法中确定边缘点的一个实施例的流程图如图8所示。
在步骤801中,在边缘图像中取一点作为第一边缘点。在一个实施例中,可以遍历边缘图像,每次取一个边缘点作为第一边缘点,直至确定整幅图像中每个边缘点对应的第二边缘点,或完成确定整条边缘线上每个边缘点的第二边缘点。
在步骤802中,从第一边缘点沿像素梯度的方向发射射线,直至下一边缘点,从而能够找到与第一边缘点所处的边缘线相邻的边缘线上与第一边缘点位置相对的点。
在步骤803中,若第一边缘点与下一边缘点法向量的夹角小于预定角度阈值,则确定下一边缘点为第二边缘点。在一个实施例中,预定角度阈值可以为30度。像素的法向量即像素的梯度或像素的导数,数字图像作为离散的点值谱,可以称为二维离散函数,可以通过对该二维离散函数求导确定其法向量。
通过这样的方法,能够在边缘图像的基础上确定第一边缘点和与其位置相对的第二边缘点,为计算第一边缘点与第二边缘点的距离提供了数据基础。由于采用沿像素梯度的方向发射射线的方式确定第二边缘点,得到的第二边缘点与第一边缘点的相对位置不确定,根据像素变化情况可能是上下、左右或其他位置关系,从而能够确定横向文字区域、纵向文字区域、倾斜文字区域,甚至是扇形文字区域,防止不规则排版造成的漏定位,提高文字定位的准确度。
本发明的文字区域定位装置的一个实施例示意图如图9所示。方差图确定模块901能够根据原始图像获取方差图。在一个实施例中,可以根据原始图像中每个点的像素值获取图像中每个像素点与周围几个像素点的像素值方差,如根据水平连续几个点的像素值取方差,确定其中一个点的方差图像素。通过计算每个点与周围几个点像素值的方差,确定方差图。边缘图像获取模块902能够获取方差图的边缘图像。在一个实施例中,可以采用现有技术中任意一种边缘检测算法计算边缘图像。文字区域定位模块903能够在边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内时,确定相邻两条边缘线之间的区域为文字区域。在一个实施例中,可以在边缘图像中得到两条近似平行的边缘线,该边缘线可以为直线、曲线,中间可以有断点等,若两条边缘线之间的距离相对稳定,距离变化范围在预定距离差范围内,则可以认为这两条边缘线之间的区域为文字区域。
这样的装置能够利用文字区域中文字高度相似的特点,根据边缘图像中边缘线之间的距离确定文字区域,不会由于文字笔画粗度变化造成影响,适用于各种不同的字体,且能够避免图像复杂的像素变化情况对定位造成影响,提高文字区域定位的准确性。
在一个实施例中,方差图确定模块901能够获取原始图像中目标像素位置的像素值,及目标像素位置的邻近像素点的像素值,将原始图像中目标像素位置和邻近像素点的像素值取方差值来确定方差图中目标像素位置的像素值,其中,邻近像素点可以为目标像素位置水平、竖直方向连续预定数量,或上下左右预定范围内的像素点。预定数量可以根据经验或者实际需求设定。
通过这样的方法,能够在原始图像的基础上计算其方差图,方差图能够反应图像的变化情况,从而获取图像发生剧烈变化的位置,便于将文字区域与其他图像区域区分。
在一个实施例中,边缘图像获取模块902能够在方差图的基础上进一步提取方差图的边缘轮廓,得到边缘图像。可以利用现有技术中任意一种边缘图像提取算法进行实现,如采用Canny算子计算图像边缘,得到边缘图像。
通过这样的方法,能够在方差图的基础上进一步得到方差图的边缘轮廓,从而便于在边缘图像的基础上进行运算,得到位于边缘点之间的文字区域。
本发明的文字区域定位装置中文字区域定位模块的一个实施例的示意图如图10所示。其中,边缘点确定单元1001能够确定第一边缘点和位于相邻边缘线上的第二边缘点。在一个实施例中,可以遍历边缘图像,每次取一个边缘点作为第一边缘点,直至完成整幅图像或整条边缘线上每个边缘点与相对的第二边缘点间关联关系的确认。在第一边缘点的基础上可以取与第一边缘点所处的边缘线相邻的边缘线上与第一边缘点位置相对的像素点作为第二边缘点。如两条水平的边缘线上下平行,第一边缘点坐标为(x,y),则第二边缘点坐标为(x,y+n),其中,n为第一、第二边缘点之间的距离。行高确定单元1002能够根据第一边缘点和第二边缘点之间的距离确定行高。在一个实施例中,可以遍历整幅图,得到每个第一边缘点和对应的第二边缘点之间的行高。边缘线连接单元1003连接行高的差值在预定距离差范围内的相邻的第一边缘点,确定第一边缘线,连接行高的差值在预定距离差范围内的相邻的第二边缘点,确定第二边缘线,第一边缘线与第二边缘线之间的区域为文字区域。在一个实施例中,若至少两个第一边缘点相邻、且第一边缘点对应的第二边缘点也相邻,且这些相邻的边缘点中,第一边缘点与第二边缘点之间的距离的差值在预定距离差范围内,则可以认为第一边缘点和第二边缘点分别为文字的上边线点、下边线点(在竖直状态下是左、右边线点),从而可以将相邻边缘点连接,得到文字的上边线、文字的下边线(在竖直状态下是左、右边线),边线之间的区域即为文字区域。
这样的装置能够在边缘图像的基础上得到文字的边线,从而得到文字区域,由于无需进行单个文字的判断,降低了运算量,且不受笔画粗度不同、像素值有较大差异的不规则区域的影响,提高了文字区域定位的效率和准确度。
本发明的文字区域定位装置中边缘点确定单元的一个实施例的示意图如图11所示。其中,第一边缘点指定子单元1101能够在边缘图像中取一点作为第一边缘点。在一个实施例中,可以遍历边缘图像,每次取一个边缘点作为第一边缘点,直至确定整幅图像中每个边缘点对应的第二边缘点,或完成确定整条边缘线上每个边缘点的第二边缘点。下一边缘点获取子单元1102能够从第一边缘点沿像素梯度的方向发射射线,直至下一边缘点,从而能够找到与第一边缘点所处的边缘线相邻的边缘线上与第一边缘点位置相对的点。第二边缘点确定子单元1103能够当第一边缘点与下一边缘点法向量的夹角小于预定角度阈值时,确定下一边缘点为第二边缘点。在一个实施例中,预定角度阈值可以为30度。
这样的装置能够在边缘图像的基础上确定第一边缘点和与其位置相对的第二边缘点,为计算第一边缘点与第二边缘点的距离提供了数据基础。由于采用沿像素梯度的方向发射射线的方式确定第二边缘点,得到的第二边缘点与第一边缘点的相对位置不确定,根据像素变化情况可能是上下、左右或其他位置关系,从而能够确定横向文字区域、纵向文字区域、倾斜文字区域,甚至是扇形文字区域,防止不规则排版造成的漏定位,提高文字定位的准确度。
本发明文字区域定位装置的另一个实施例的结构示意图如图12所示。文字区域定位装置包括存储器1210和处理器1220。其中:存储器1210可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储文字区域定位方法的对应实施例中的指令,包括仿真平台侧指令,也可以包括管理系统侧指令。处理器1220耦接至存储器1210,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器1220用于执行存储器中存储的指令,能够实现文字区域的定位。
在一个实施例中,还可以如图13所示,文字区域定位装置1300包括存储器1310和处理器1320。处理器1320通过BUS总线1330耦合至存储器1310。该文字区域定位装置1300还可以通过存储接口1040连接至外部存储装置1350以便调用外部数据,还可以通过网络接口1360连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够实现文字区域定位装置的运转。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现文字区域定位方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (14)

1.一种文字区域定位方法,包括:
根据原始图像获取方差图;
获取所述方差图的边缘图像;
若所述边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内,则确定所述相邻两条边缘线之间的区域为文字区域。
2.根据权利要求1所述的方法,其中,所述若所述边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内,则确定所述相邻两条边缘点之间的区域为文字区域包括:
确定第一边缘点和位于相邻边缘线上的第二边缘点;
根据所述第一边缘点和所述第二边缘点之间的距离确定行高;
连接所述行高的差值在预定距离差范围内的相邻的所述第一边缘点,确定第一边缘线,连接所述行高的差值在预定距离差范围内的相邻的所述第二边缘点,确定第二边缘线,所述第一边缘线与所述第二边缘线之间的区域为所述文字区域。
3.根据权利要求2所述的方法,所述确定第一边缘点和位于相邻边缘线上的第二边缘点包括:
在所述边缘图像中取一点作为所述第一边缘点;
从所述第一边缘点沿像素梯度的方向发射射线,直至下一边缘点;
若所述第一边缘点与所述下一边缘点法向量的夹角小于预定角度阈值,则确定所述下一边缘点为所述第二边缘点。
4.根据权利要求1所述的方法,所述根据原始图像获取方差图包括:
获取原始图像中目标像素位置的像素值,及所述目标像素位置的邻近像素点的像素值,其中,所述邻近像素点为所述目标像素位置水平和/或竖直方向连续预定数量的像素点;
将所述原始图像中所述目标像素位置和所述邻近像素点的像素值取方差值,确定所述方差图中所述目标像素位置的像素值。
5.根据权利要求1所述的方法,
所述获取所述方差图的边缘图像包括:基于所述方差图利用Canny算子计算图像边缘,获取所述边缘图像。
6.根据权利要求1所述的方法,所述文字区域包括横向文字区域、纵向文字区域、倾斜文字区域和/或扇形文字区域。
7.一种文字区域定位装置,包括:
方差图确定模块,用于根据原始图像获取方差图;
边缘图像获取模块,用于获取所述方差图的边缘图像;
文字区域定位模块,用于当所述边缘图像中相邻两条边缘线中位置相对的边缘点之间距离的差值在预定距离差范围内时,确定所述相邻两条边缘线之间的区域为文字区域。
8.根据权利要求7所述的装置,其中,所述文字区域定位模块包括:
边缘点确定单元,用于确定第一边缘点和位于相邻边缘线上的第二边缘点;
行高确定单元,用于根据所述第一边缘点和所述第二边缘点之间的距离确定行高;
边缘线连接单元,用于连接所述行高的差值在预定距离差范围内的相邻的所述第一边缘点,确定第一边缘线,连接所述行高的差值在预定距离差范围内的相邻的所述第二边缘点,确定第二边缘线,所述第一边缘线与所述第二边缘线之间的区域为所述文字区域。
9.根据权利要求8所述的装置,所述边缘点确定单元包括:
第一边缘点指定子单元,用于在所述边缘图像中取一点作为所述第一边缘点;
下一边缘点获取子单元,用于从所述第一边缘点沿像素梯度的方向发射射线,直至下一边缘点;
第二边缘点确定子单元,用于当所述第一边缘点与所述下一边缘点法向量的夹角小于预定角度阈值时,确定所述下一边缘点为所述第二边缘点。
10.根据权利要求7所述的装置,其中,
所述方差图确定模块具体用于:
获取原始图像中目标像素位置的像素值,及所述目标像素位置的邻近像素点的像素值,其中,所述邻近像素点为所述目标像素位置水平和/或竖直方向连续预定数量的像素点;
将所述原始图像中所述目标像素位置和所述邻近像素点的像素值取方差值,确定所述方差图中所述目标像素位置的像素值。
11.根据权利要求7所述的装置,其中,
所述边缘图像获取模块具体用于:基于所述方差图利用Canny算子计算图像边缘,获取所述边缘图像。
12.根据权利要求7所述的装置,其中,
所述文字区域包括横向文字区域、纵向文字区域、倾斜文字区域和/或扇形文字区域。
13.一种文字区域定位装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至6任意一项所述的方法的步骤。
CN201710152728.XA 2017-03-15 2017-03-15 文字区域定位方法和装置 Active CN108573251B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710152728.XA CN108573251B (zh) 2017-03-15 2017-03-15 文字区域定位方法和装置
US16/491,020 US11017260B2 (en) 2017-03-15 2017-12-29 Text region positioning method and device, and computer readable storage medium
PCT/CN2017/119692 WO2018166276A1 (zh) 2017-03-15 2017-12-29 文字区域定位方法和装置、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710152728.XA CN108573251B (zh) 2017-03-15 2017-03-15 文字区域定位方法和装置

Publications (2)

Publication Number Publication Date
CN108573251A true CN108573251A (zh) 2018-09-25
CN108573251B CN108573251B (zh) 2021-09-07

Family

ID=63521757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710152728.XA Active CN108573251B (zh) 2017-03-15 2017-03-15 文字区域定位方法和装置

Country Status (3)

Country Link
US (1) US11017260B2 (zh)
CN (1) CN108573251B (zh)
WO (1) WO2018166276A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652013A (zh) * 2020-05-29 2020-09-11 天津维创微智能科技有限公司 一种文字过滤方法、装置、设备和存储介质
CN113313111A (zh) * 2021-05-28 2021-08-27 北京百度网讯科技有限公司 文本识别方法、装置、设备和介质
CN113762244A (zh) * 2020-06-05 2021-12-07 北京市天元网络技术股份有限公司 文档信息的提取方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695557B (zh) * 2019-08-30 2024-04-26 新华三信息安全技术有限公司 一种图像处理方法及装置
CN111340036A (zh) * 2020-03-25 2020-06-26 上海眼控科技股份有限公司 车辆vin码的篡改检测方法、计算机设备和存储介质
CN113986152A (zh) * 2020-07-08 2022-01-28 森大(深圳)技术有限公司 图像分段转换的喷墨打印方法、装置、设备及存储介质
US11954932B2 (en) * 2020-10-16 2024-04-09 Bluebeam, Inc. Systems and methods for automatic detection of features on a sheet
CN118334492B (zh) * 2024-06-14 2024-08-16 山东科技大学 边缘检测模型训练方法、边缘检测方法、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1542697A (zh) * 2003-11-06 2004-11-03 上海交通大学 基于相邻边缘点距离统计的文字图象分割方法
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
CN103034856A (zh) * 2012-12-18 2013-04-10 深圳深讯和科技有限公司 定位图像中文字区域的方法及装置
CN103593653A (zh) * 2013-11-01 2014-02-19 浙江工业大学 基于扫描枪的字符二维条码识别方法
ES2432479B2 (es) * 2012-06-01 2014-10-21 Universidad De Las Palmas De Gran Canaria Método para la identificación y clasificación automática de especies arácnidas a través de sus telas de araña
CN104112135A (zh) * 2013-04-18 2014-10-22 富士通株式会社 文本图像提取装置以及方法
CN104361336A (zh) * 2014-11-26 2015-02-18 河海大学 一种水下视频图像的文字识别方法
CN104794479A (zh) * 2014-01-20 2015-07-22 北京大学 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN105224941A (zh) * 2014-06-18 2016-01-06 台达电子工业股份有限公司 对象辨识与定位方法
CN105868757A (zh) * 2016-03-25 2016-08-17 上海珍岛信息技术有限公司 一种图像文字中的文字定位方法及装置
CN106295648A (zh) * 2016-07-29 2017-01-04 湖北工业大学 一种基于多光谱成像技术的低质量文档图像二值化方法
CN106485710A (zh) * 2016-10-18 2017-03-08 广州视源电子科技股份有限公司 一种元件错件检测方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5826081B2 (ja) * 2012-03-19 2015-12-02 株式会社Pfu 画像処理装置、文字認識方法及びコンピュータプログラム
CN105718926A (zh) * 2014-12-03 2016-06-29 夏普株式会社 一种文本检测的方法和装置
CN106033528A (zh) * 2015-03-09 2016-10-19 富士通株式会社 从彩色文档图像中提取特定区域的方法和设备
CN104751142B (zh) * 2015-04-01 2018-04-27 电子科技大学 一种基于笔划特征的自然场景文本检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1542697A (zh) * 2003-11-06 2004-11-03 上海交通大学 基于相邻边缘点距离统计的文字图象分割方法
CN102332096A (zh) * 2011-10-17 2012-01-25 中国科学院自动化研究所 一种视频字幕文本提取和识别的方法
ES2432479B2 (es) * 2012-06-01 2014-10-21 Universidad De Las Palmas De Gran Canaria Método para la identificación y clasificación automática de especies arácnidas a través de sus telas de araña
CN103034856A (zh) * 2012-12-18 2013-04-10 深圳深讯和科技有限公司 定位图像中文字区域的方法及装置
CN104112135A (zh) * 2013-04-18 2014-10-22 富士通株式会社 文本图像提取装置以及方法
CN103593653A (zh) * 2013-11-01 2014-02-19 浙江工业大学 基于扫描枪的字符二维条码识别方法
CN104794479A (zh) * 2014-01-20 2015-07-22 北京大学 基于局部笔画宽度变换的自然场景图片中文本检测方法
CN105224941A (zh) * 2014-06-18 2016-01-06 台达电子工业股份有限公司 对象辨识与定位方法
CN104361336A (zh) * 2014-11-26 2015-02-18 河海大学 一种水下视频图像的文字识别方法
CN105868757A (zh) * 2016-03-25 2016-08-17 上海珍岛信息技术有限公司 一种图像文字中的文字定位方法及装置
CN106295648A (zh) * 2016-07-29 2017-01-04 湖北工业大学 一种基于多光谱成像技术的低质量文档图像二值化方法
CN106485710A (zh) * 2016-10-18 2017-03-08 广州视源电子科技股份有限公司 一种元件错件检测方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALI MOSLEH 等: "Image Text Detection Using a Bandlet-Based Edge Detector and Stroke Width Transform", 《HTTP://DX.DOI.ORG/10.5244/C.26.63》 *
向华: "一种基于方差的图像边缘检测算法", 《电脑知识与技术》 *
王伟良 等: "笔划宽度变换直方图在车牌识别中的应用", 《科学技术与工程》 *
闻京: "基于Matlab图像的文字区域检测新方法", 《技术应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652013A (zh) * 2020-05-29 2020-09-11 天津维创微智能科技有限公司 一种文字过滤方法、装置、设备和存储介质
CN111652013B (zh) * 2020-05-29 2023-06-02 天津维创微智能科技有限公司 一种文字过滤方法、装置、设备和存储介质
CN113762244A (zh) * 2020-06-05 2021-12-07 北京市天元网络技术股份有限公司 文档信息的提取方法及装置
CN113313111A (zh) * 2021-05-28 2021-08-27 北京百度网讯科技有限公司 文本识别方法、装置、设备和介质
CN113313111B (zh) * 2021-05-28 2024-02-13 北京百度网讯科技有限公司 文本识别方法、装置、设备和介质

Also Published As

Publication number Publication date
US11017260B2 (en) 2021-05-25
US20200012879A1 (en) 2020-01-09
CN108573251B (zh) 2021-09-07
WO2018166276A1 (zh) 2018-09-20

Similar Documents

Publication Publication Date Title
CN108573251A (zh) 文字区域定位方法和装置
TWI713366B (zh) 對影像進行目標取樣的方法及裝置
US11961325B2 (en) Image processing method and apparatus, computer-readable medium, and electronic device
EP3745339A1 (en) Method for implanting advertisements in video, and computer device
US9141873B2 (en) Apparatus for measuring three-dimensional position, method thereof, and program
CN107507216B (zh) 图像中局部区域的替换方法、装置及存储介质
US10706613B2 (en) Systems and methods for dynamic occlusion handling
KR101288971B1 (ko) 모델링 방법 및 장치
CN107564080B (zh) 一种人脸图像的替换系统
CN111754536B (zh) 图像标注方法、装置、电子设备及存储介质
CN109389121A (zh) 一种基于深度学习的铭牌识别方法及系统
KR101032446B1 (ko) 영상의 정점 검출 장치 및 방법
US20170243052A1 (en) Book detection apparatus and book detection method
CN109472786B (zh) 脑出血图像处理方法、装置、计算机设备及存储介质
KR20110105614A (ko) 문자 인식 전처리 방법 및 장치
CN104978012A (zh) 一种指向交互方法、装置及系统
JP6307873B2 (ja) 対象線検出装置、方法、及びプログラム
CN106296587B (zh) 轮胎模具图像的拼接方法
US11216905B2 (en) Automatic detection, counting, and measurement of lumber boards using a handheld device
CN115456906A (zh) 基于破损图像的人脸图像修复方法、装置、设备及介质
KR101524074B1 (ko) 영상 처리 방법
JP2015033047A (ja) 複数カメラを用いた奥行き推定装置
US8891876B2 (en) Mouth corner candidates
KR20160068311A (ko) 안면 형상 기울기 보정 방법 및 보정 시스템
EP3872707A1 (en) Automatic detection, counting, and measurement of lumber boards using a handheld device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant