CN111680692B - 一种字符偏移检测方法及系统 - Google Patents

一种字符偏移检测方法及系统 Download PDF

Info

Publication number
CN111680692B
CN111680692B CN202010431910.0A CN202010431910A CN111680692B CN 111680692 B CN111680692 B CN 111680692B CN 202010431910 A CN202010431910 A CN 202010431910A CN 111680692 B CN111680692 B CN 111680692B
Authority
CN
China
Prior art keywords
character
fitting curve
point
curve
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010431910.0A
Other languages
English (en)
Other versions
CN111680692A (zh
Inventor
李泽超
李煌
唐金辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010431910.0A priority Critical patent/CN111680692B/zh
Priority to US17/414,551 priority patent/US12033409B2/en
Priority to PCT/CN2020/092826 priority patent/WO2021232464A1/zh
Publication of CN111680692A publication Critical patent/CN111680692A/zh
Application granted granted Critical
Publication of CN111680692B publication Critical patent/CN111680692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种字符偏移检测方法及系统,所述方法包括:获取文本图像;基于所述文本图像进行字符分离,获得字符文本区域;计算所述字符文本区域中各矩形框的中心点,获得中心点集合;基于所述中心点集合确定最优拟合曲线;基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果。所述系统包括获取模块、中心点集合确定模块、最优拟合曲线确定模块和偏移结果确定模块。本发明基于曲线拟合实现对字符偏移检测,提高检测的准确性。

Description

一种字符偏移检测方法及系统
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种字符偏移检测方法及系统。
背景技术
文本是人类信息的重要载体,是人类生活中不可缺少的一部分,它广泛存在于各类生活场景中。近年来,随着数字媒体技术的发展,各类场景的图片已然成为了信息交流的主要载体。同时,根据图像中的文本信息对图像进行分析的需求越来越广泛。
对于各类文本图像研究而言,现有的检测方法主要在于文本行的分析与研究,各类场景的文本检测基本止步于文本词条,主要任务是定位出一个文本行,但并未对字符进行分析。目前对字符分析也是极为重要的,特别是在各类表单中,印章或拓本的内容对整个表单信息将会产生极大的影响。对表单中印章类图像区域内的文本分布是存在一致性的,具体包括字体大小一致性及位置分布的一致性,分析该区域内的字符可以对这类图像的鉴伪提供有效的参考,但目前还没有具体技术方案公开如何对字符偏移进行分析。
发明内容
本发明的目的在于提供一种字符偏移检测方法及系统,以实现对字符偏移进行检测。
实现本发明目的的技术解决方案为:一种字符偏移检测方法,所述方法包括:
步骤S1:获取文本图像;
步骤S2:基于所述文本图像进行字符分离,获得字符文本区域;
步骤S3:计算所述字符文本区域中各矩形框的中心点,获得中心点集合;
步骤S4:基于所述中心点集合确定最优拟合曲线;
步骤S5:基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果。
可选的,所述基于所述中心点集合确定最优拟合曲线,具体包括:
步骤S41:从所述中心点集合中选取起始点、终止点和中间某一点;
步骤S42:连接所述起始点和所述终止点获得第一直线,连接所述起始点和中间某一点获得第二直线;
步骤S43:确定所述第一直线和所述第二直线之间的夹角余弦;
步骤S44:基于所述夹角余弦寻找最优拟合曲线。
可选的,所述基于所述夹角余弦寻找最优拟合曲线,具体包括:
步骤S441:判断所述夹角余弦是否大于角度阈值;如果所述夹角余弦大于角度阈值,则说明某一字符所在位置相对整个文本区域发生了偏离,则执行“步骤S442”;如果所述夹角余弦小于或等于角度阈值,则将初始拟合曲线作为最优拟合曲线;
步骤S442:获取初始拟合曲线;
步骤S443:基于所述初始拟合曲线确定损失函数值;
步骤S444:判断所述损失函数值是否小于设定值;如果所述损失函数值小于设定值,则将所述初始拟合曲线作为最优拟合曲线;如果所述损失函数值大于或等于设定值,则更新所述初始拟合曲线中的斜率和偏移量,并将更新后的拟合曲线作为所述初始拟合曲线,并执行“步骤S443”。
可选的,所述基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果,具体包括:
步骤S51:基于所述最优拟合曲线进行字符垂直偏移分析;
步骤S52:基于所述最优拟合曲线进行字符水平偏移分析;
步骤S53:基于所述最优拟合曲线进行字符大小偏差分析。
可选的,所述基于所述最优拟合曲线进行字符垂直偏移分析,具体包括:
步骤S511:计算所述中心点集合中各中心点到所述最优拟合曲线的距离,获得第一距离;
步骤S522:计算所述第一距离与所述矩形框的高度的比值,获得第一结果;
步骤S533:如果所述第一结果大于第二设定阈值;则说明该中心点对应的字符在垂直方向上相对于所述最优拟合曲线发生了偏移。
可选的,所述基于所述最优拟合曲线进行字符水平偏移分析,具体包括:
步骤S521:将所述中心点集合中各中心点分别向所述最优拟合曲线作垂线,获得多个投影点;
步骤S522:确定所述起始投影点与所述终止投影点之间的距离,获得第二距离;
步骤S523:根据所述第二距离确定相邻两个投影点之间的预测距离;
步骤S524:确定相邻两个投影点之间的实际距离;
步骤S525:计算所述实际距离与所述预测距离的比值,获得第二结果;所述第二结果越偏离1,则该中心点对应的字符在水平方向上相对于所述最优拟合曲线发生的偏移概率越大。
可选的,所述基于所述最优拟合曲线进行字符大小偏差分析,具体包括:
步骤S531:计算所述字符文本区域中各矩形框的面积,选取最大面积和最小面积;
步骤S532:将所述最大面积和所述最小面积进行比值,获得第三结果;如果所述第三结果大于或等于1.5,则说明存在字符大小的风格差异;如果所述第三结果小于1.5,则说明不存在字符大小的风格差异。
本发明还提供一种字符偏移检测系统,所述系统包括:
获取模块,用于获取文本图像;
字符文本区域确定模块,用于基于所述文本图像进行字符分离,获得字符文本区域;
中心点集合确定模块,用于计算所述字符文本区域中各矩形框的中心点,获得中心点集合;
最优拟合曲线确定模块,用于基于所述中心点集合确定最优拟合曲线;
偏移结果确定模块,用于基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果。
可选的,所述最优拟合曲线确定模块,具体包括:
选取单元,用于从所述中心点集合中选取起始点、终止点和中间某一点;
直线确定单元,用于连接所述起始点和所述终止点获得第一直线,连接所述起始点和中间某一点获得第二直线;
夹角余弦确定单元,用于确定所述第一直线和所述第二直线之间的夹角余弦;
最优拟合曲线确定单元,用于基于所述夹角余弦寻找最优拟合曲线。
可选的,所述最优拟合曲线确定单元,具体包括:
第一判断子单元,用于判断所述夹角余弦是否大于角度阈值;如果所述夹角余弦大于角度阈值,则说明某一字符所在位置相对整个文本区域发生了偏离,则执行“获取子单元”;如果所述夹角余弦小于或等于角度阈值,则将初始拟合曲线作为最优拟合曲线;
获取子单元,用于获取初始拟合曲线;
损失函数值确定子单元,基于所述初始拟合曲线确定损失函数值;
第二判断子单元,用于判断所述损失函数值是否小于设定值;如果所述损失函数值小于设定值,则将所述初始拟合曲线作为最优拟合曲线;如果所述损失函数值大于或等于设定值,则更新所述初始拟合曲线中的斜率和偏移量,并将更新后的拟合曲线作为所述初始拟合曲线,并执行“损失函数值确定子单元”。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
相较于传统的文本行的整体分析,本发明更着重于文本内字符的相关信息的分析;通过对文本图像内的字符的定位分析,细化了文本内部的相关信息,对文本行的区分及字符的区分起到了更为有利的作用。另一方面,基于曲线拟合实现了对字符的偏移检测,提高了检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例字符偏移检测方法流程图。
图2为本发明实施例字符偏移检测系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种字符偏移检测方法及系统,以实现对字符偏移进行检测。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例字符偏移检测方法流程图,如图1所示,本发明公开一种字符偏移检测方法,所述方法包括:
步骤S1:获取文本图像。
步骤S2:基于所述文本图像进行字符分离,获得字符文本区域。
步骤S3:计算所述字符文本区域中各矩形框的中心点,获得中心点集合。
步骤S4:基于所述中心点集合确定最优拟合曲线。
步骤S5:基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果。
下面对各个步骤进行详细分析:
步骤S2:基于所述文本图像进行字符分离,获得字符文本区域,具体包括:
步骤S21:对所述文本图像进行预处理,获得多个稳定区域;所述稳定区域为满足某一设定范围的区域。
步骤S22:采用外接矩形框对多个所述稳定区域进行标记处理,获得标记集合;所述标记集合包括多个标记的矩形框。
步骤S23:对所述标记集合中各矩形框进行过滤处理,获得字符文本区域。
步骤S21:对所述文本图像进行预处理,获得多个稳定区域,具体包括:
步骤S211:将所述文本图像进行分离和转换,获得灰度图像。
步骤S212:采用局部直方图均衡化算法对所述灰度图像进行对比度增强处理,获得增强图像。
步骤S213:对所述增强图像进行二值化处理,获得二值化图像。
步骤S214:根据所述二值化图像确定多个稳定区域。
步骤S23:对所述标记集合中各矩形框进行过滤处理,获得字符文本区域,具体包括:
步骤S231:计算所述标记集合中各矩形框对应的矩形框面积和矩形框重叠面积。
步骤S232:根据所述矩形框面积和所述矩形框重叠面积确定重叠比率,具体公式为:
Figure BDA0002500890280000051
其中,Ri为重叠比率,Sij为矩形框重叠面积,Si为矩形框面积。
步骤S233:选取矩形框重叠面积中最大的矩形框和重叠比率小于第一设定阈值的矩形框作为待处理文本集合;所述第一设定阈值是根据实际需求进行设置的,本实施例中,第一设定阈值取0.3。
步骤S234:基于所述待处理文本集合计算矩形框的面积均值。
步骤S235:将小于0.2倍面积均值对应的矩形框和大于5倍面积均值对应的矩形框进行滤除,获得字符文本区域。
步骤S4:基于所述中心点集合确定最优拟合曲线,具体包括:
步骤S41:从所述中心点集合中选取起始点、终止点和中间某一点。
步骤S42:连接所述起始点和所述终止点获得第一直线,连接所述起始点和中间某一点获得第二直线。
步骤S43:确定所述第一直线和所述第二直线之间的夹角余弦,具体公式为:
Figure BDA0002500890280000061
其中,cosα为夹角余弦,P1为起始点,Pn为终止点,Pm为中间某一点,
Figure BDA0002500890280000062
为第一直线,
Figure BDA0002500890280000063
为第二直线。
步骤S44:基于所述夹角余弦寻找最优拟合曲线,具体包括:
步骤S441:判断所述夹角余弦是否大于角度阈值;如果所述夹角余弦大于角度阈值,则说明某一字符所在位置相对整个文本区域发生了偏离,则执行“步骤S442”;如果所述夹角余弦小于或等于角度阈值,则将初始拟合曲线作为最优拟合曲线;所述角度阈值为
Figure BDA0002500890280000064
步骤S442:获取初始拟合曲线,具体公式为:
h(xi)=wxi+b;
其中,h(xi)为第i个中心点的初始拟合曲线,w为斜率,b为偏移量,xi为第i个中心点的横坐标。
步骤S443:基于所述初始拟合曲线确定损失函数值,具体公式为:
loss=∑(yi-hi(xi))2
其中,h(xi)为第i个中心点的初始拟合曲线,(xi,yi)为中心点集合中第i个中心点的横坐标和纵坐标。
步骤S444:判断所述损失函数值是否小于设定值;如果所述损失函数值小于设定值,则将所述初始拟合曲线作为最优拟合曲线;如果所述损失函数值大于或等于设定值,则更新所述初始拟合曲线中的斜率和偏移量,并将更新后的拟合曲线作为所述初始拟合曲线,并执行“步骤S443”。
步骤S45:求取起始点、终止点和中间某一点分别到所述最优拟合曲线的距离,并选取距离最大值对应的点为特异点。
步骤S5:基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果,具体包括:
步骤S51:基于所述最优拟合曲线进行字符垂直偏移分析。
步骤S52:基于所述最优拟合曲线进行字符水平偏移分析。
步骤S53:基于所述最优拟合曲线进行字符大小偏差分析。
步骤S51:基于所述最优拟合曲线进行字符垂直偏移分析,具体包括:
步骤S511:计算所述中心点集合中各中心点到所述最优拟合曲线的距离,获得第一距离。
步骤S512:计算所述第一距离与所述矩形框的高度的比值,获得第一结果。
步骤S513:如果所述第一结果大于第二设定阈值;则说明该中心点对应的字符在垂直方向上相对于所述最优拟合曲线发生了偏移。本实施例中,第二设定阈值去1/4。
步骤S52:基于所述最优拟合曲线进行字符水平偏移分析,具体包括:
步骤S521:将所述中心点集合中各中心点分别向所述最优拟合曲线作垂线,获得多个投影点。
步骤S522:确定所述起始投影点与所述终止投影点之间的距离,获得第二距离。
步骤S523:根据所述第二距离确定相邻两个投影点之间的预测距离,具体公式为:
Figure BDA0002500890280000071
其中,Lave1为预测距离,Lp为第二距离,n为投影点的总个数。
步骤S524:确定相邻两个投影点之间的实际距离Δxi,i=1,2,…n-1。
步骤S525:计算所述实际距离与所述预测距离的比值,获得第二结果;所述第二结果越偏离1,则该中心点对应的字符在水平方向上相对于所述最优拟合曲线发生的偏移概率越大。
步骤S53:基于所述最优拟合曲线进行字符大小偏差分析,具体包括:
步骤S531:计算所述字符文本区域中各矩形框的面积,选取最大面积和最小面积。
步骤S532:将所述最大面积Skmax和所述最小面积Skmin进行比值,获得第三结果;如果所述第三结果大于或等于1.5,则说明存在字符大小的风格差异;如果所述第三结果小于1.5,则说明不存在字符大小的风格差异。
图2为本发明实施例字符偏移检测系统结构图,如图2所示,本发明还提供一种字符偏移检测系统,所述系统包括:
获取模块1,用于获取文本图像。
字符文本区域确定模块2,用于基于所述文本图像进行字符分离,获得字符文本区域。
中心点集合确定模块3,用于计算所述字符文本区域中各矩形框的中心点,获得中心点集合。
最优拟合曲线确定模块4,用于基于所述中心点集合确定最优拟合曲线。
偏移结果确定模块5,用于基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果。
下面对各个模块进行详细论述:
作为一种实施方式,本发明所述字符文本区域确定模块2,具体包括:
预处理单元,用于对所述文本图像进行预处理,获得多个稳定区域;所述稳定区域为满足某一设定范围的区域。
标记处理单元,用于采用外接矩形框对多个所述稳定区域进行标记处理,获得标记集合;所述标记集合包括多个标记的矩形框。
过滤处理单元,用于对所述标记集合中各矩形框进行过滤处理,获得字符文本区域。
作为一种实施方式,本发明所述预处理单元,具体包括:
分离和转换子单元,用于将所述文本图像进行分离和转换,获得灰度图像。
对比度增强处理子单元,用于采用局部直方图均衡化算法对所述灰度图像进行对比度增强处理,获得增强图像。
二值化处理子单元,用于对所述增强图像进行二值化处理,获得二值化图像。
稳定区域确定子单元,用于根据所述二值化图像确定多个稳定区域。
作为一种实施方式,本发明所述过滤处理单元,具体包括:
面积确定子单元,用于计算所述标记集合中各矩形框对应的矩形框面积和矩形框重叠面积。
重叠比率确定子单元,用于根据所述矩形框面积和所述矩形框重叠面积确定重叠比率。
待处理文本集合确定子单元,用于选取矩形框重叠面积中最大的矩形框和重叠比率小于第一设定阈值的矩形框作为待处理文本集合。
面积均值确定子单元,用于基于所述待处理文本集合计算矩形框的面积均值。
滤除子单元,用于将小于0.2倍面积均值对应的矩形框和大于5倍面积均值对应的矩形框进行滤除,获得字符文本区域。
作为一种实施方式,本发明所述最优拟合曲线确定模块,具体包括:
选取单元,用于从所述中心点集合中选取起始点、终止点和中间某一点。
直线确定单元,用于连接所述起始点和所述终止点获得第一直线,连接所述起始点和中间某一点获得第二直线。
夹角余弦确定单元,用于确定所述第一直线和所述第二直线之间的夹角余弦。
最优拟合曲线确定单元,用于基于所述夹角余弦寻找最优拟合曲线。
作为一种实施方式,本发明所述最优拟合曲线确定单元,具体包括:
第一判断子单元,用于判断所述夹角余弦是否大于角度阈值;如果所述夹角余弦大于角度阈值,则说明某一字符所在位置相对整个文本区域发生了偏离,则执行“获取子单元”;如果所述夹角余弦小于或等于角度阈值,则将初始拟合曲线作为最优拟合曲线。
获取子单元,用于获取初始拟合曲线。
损失函数值确定子单元,基于所述初始拟合曲线确定损失函数值。
第二判断子单元,用于判断所述损失函数值是否小于设定值;如果所述损失函数值小于设定值,则将所述初始拟合曲线作为最优拟合曲线;如果所述损失函数值大于或等于设定值,则更新所述初始拟合曲线中的斜率和偏移量,并将更新后的拟合曲线作为所述初始拟合曲线,并执行“损失函数值确定子单元”。
作为一种实施方式,本发明所述偏移结果确定模块5,具体包括:
字符垂直偏移分析单元,基于所述最优拟合曲线进行字符垂直偏移分析。
字符水平偏移分析单元,基于所述最优拟合曲线进行字符水平偏移分析。
字符大小偏差分析单元,基于所述最优拟合曲线进行字符大小偏差分析。
作为一种实施方式,本发明所述字符垂直偏移分析单元,具体包括:
第一距离确定子单元,用于计算所述中心点集合中各中心点到所述最优拟合曲线的距离,获得第一距离。
第一结果确定子单元,用于计算所述第一距离与所述矩形框的高度的比值,获得第一结果。
第一偏移分析子单元,用于如果所述第一结果大于第二设定阈值;则说明该中心点对应的字符在垂直方向上相对于所述最优拟合曲线发生了偏移。
作为一种实施方式,本发明所述字符水平偏移分析单元,具体包括:
投影点确定子单元,用于将所述中心点集合中各中心点分别向所述最优拟合曲线作垂线,获得多个投影点。
第二距离确定子单元,用于确定所述起始投影点与所述终止投影点之间的距离,获得第二距离。
预测距离确定子单元,用于根据所述第二距离确定相邻两个投影点之间的预测距离。
实际距离确定子单元,用于确定相邻两个投影点之间的实际距离。
第二偏移分析子单元,用于计算所述实际距离与所述预测距离的比值,获得第二结果;所述第二结果越偏离1,则该中心点对应的字符在水平方向上相对于所述最优拟合曲线发生的偏移概率越大。
作为一种实施方式,本发明所述字符大小偏差分析单元,具体包括:
选取子单元,用于计算所述字符文本区域中各矩形框的面积,选取最大面积和最小面积。
第三偏移分析子单元,用于将所述最大面积和所述最小面积进行比值,获得第三结果;如果所述第三结果大于或等于1.5,则说明存在字符大小的风格差异;如果所述第三结果小于1.5,则说明不存在字符大小的风格差异。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种字符偏移检测方法,其特征在于,所述方法包括:
步骤S1:获取文本图像;
步骤S2:基于所述文本图像进行字符分离,获得字符文本区域;
步骤S3:计算所述字符文本区域中各矩形框的中心点,获得中心点集合;
步骤S4:基于所述中心点集合确定最优拟合曲线;具体包括:
步骤S41:从所述中心点集合中选取起始点、终止点和中间某一点;
步骤S42:连接所述起始点和所述终止点获得第一直线,连接所述起始点和中间某一点获得第二直线;
步骤S43:确定所述第一直线和所述第二直线之间的夹角余弦;
步骤S44:基于所述夹角余弦寻找最优拟合曲线;
步骤S45:求取起始点、终止点和中间某一点分别到所述最优拟合曲线的距离,并选取距离最大值对应的点为特异点;
步骤S5:基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果。
2.根据权利要求1所述的字符偏移检测方法,其特征在于,所述基于所述夹角余弦寻找最优拟合曲线,具体包括:
步骤S441:判断所述夹角余弦是否大于角度阈值;如果所述夹角余弦大于角度阈值,则说明某一字符所在位置相对整个文本区域发生了偏离,则执行步骤S442;如果所述夹角余弦小于或等于角度阈值,则将初始拟合曲线作为最优拟合曲线;
步骤S442:获取初始拟合曲线;
步骤S443:基于所述初始拟合曲线确定损失函数值;
步骤S444:判断所述损失函数值是否小于设定值;如果所述损失函数值小于设定值,则将所述初始拟合曲线作为最优拟合曲线;如果所述损失函数值大于或等于设定值,则更新所述初始拟合曲线中的斜率和偏移量,并将更新后的拟合曲线作为所述初始拟合曲线,并执行步骤S443。
3.根据权利要求1所述的字符偏移检测方法,其特征在于,所述基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果,具体包括:
步骤S51:基于所述最优拟合曲线进行字符垂直偏移分析;
步骤S511:计算所述中心点集合中各中心点到所述最优拟合曲线的距离,获得第一距离;
步骤S512:计算所述第一距离与所述矩形框的高度的比值,获得第一结果;
步骤S513:如果所述第一结果大于第二设定阈值;则说明该中心点对应的字符在垂直方向上相对于所述最优拟合曲线发生了偏移;
步骤S52:基于所述最优拟合曲线进行字符水平偏移分析;
步骤S521:将所述中心点集合中各中心点分别向所述最优拟合曲线作垂线,获得多个投影点;
步骤S522:确定起始投影点与终止投影点之间的距离,获得第二距离;
步骤S523:根据所述第二距离确定相邻两个投影点之间的预测距离;
步骤S524:确定相邻两个投影点之间的实际距离;
步骤S525:计算所述实际距离与所述预测距离的比值,获得第二结果;所述第二结果越偏离1,则该中心点对应的字符在水平方向上相对于所述最优拟合曲线发生的偏移概率越大;
步骤S53:基于所述最优拟合曲线进行字符大小偏差分析;
步骤S531:计算所述字符文本区域中各矩形框的面积,选取最大面积和最小面积;
步骤S532:将所述最大面积和所述最小面积进行比值,获得第三结果;如果所述第三结果大于或等于1.5,则说明存在字符大小的风格差异;如果所述第三结果小于1.5,则说明不存在字符大小的风格差异。
4.根据权利要求1所述的字符偏移检测方法,其特征在于,所述基于所述文本图像进行字符分离,获得字符文本区域,具体包括:
步骤S21:对所述文本图像进行预处理,获得多个稳定区域;所述稳定区域为满足某一设定范围的区域;
步骤S22:采用外接矩形框对多个所述稳定区域进行标记处理,获得标记集合;所述标记集合包括多个标记的矩形框;
步骤S23:对所述标记集合中各矩形框进行过滤处理,获得字符文本区域。
5.根据权利要求4所述的字符偏移检测方法,其特征在于,所述对所述文本图像进行预处理,获得多个稳定区域,具体包括:
步骤S211:将所述文本图像进行分离和转换,获得灰度图像;
步骤S212:采用局部直方图均衡化算法对所述灰度图像进行对比度增强处理,获得增强图像;
步骤S213:对所述增强图像进行二值化处理,获得二值化图像;
步骤S214:根据所述二值化图像确定多个稳定区域。
6.根据权利要求4所述的字符偏移检测方法,其特征在于,所述对所述标记集合中各矩形框进行过滤处理,获得字符文本区域,具体包括:
步骤S231:计算所述标记集合中各矩形框对应的矩形框面积和矩形框重叠面积;
步骤S232:根据所述矩形框面积和所述矩形框重叠面积确定重叠比率;
步骤S233:选取矩形框重叠面积中最大的矩形框和重叠比率小于第一设定阈值的矩形框作为待处理文本集合;
步骤S234:基于所述待处理文本集合计算矩形框的面积均值;
步骤S235:将小于0.2倍面积均值对应的矩形框和大于5倍面积均值对应的矩形框进行滤除,获得字符文本区域。
7.一种字符偏移检测系统,其特征在于,所述系统包括:
获取模块,用于获取文本图像;
字符文本区域确定模块,用于基于所述文本图像进行字符分离,获得字符文本区域;
中心点集合确定模块,用于计算所述字符文本区域中各矩形框的中心点,获得中心点集合;
最优拟合曲线确定模块,用于基于所述中心点集合确定最优拟合曲线;具体包括:
选取单元,用于从所述中心点集合中选取起始点、终止点和中间某一点;
直线确定单元,用于连接所述起始点和所述终止点获得第一直线,连接所述起始点和中间某一点获得第二直线;
夹角余弦确定单元,用于确定所述第一直线和所述第二直线之间的夹角余弦;
最优拟合曲线确定单元,用于基于所述夹角余弦寻找最优拟合曲线;
偏移结果确定模块,用于基于所述最优拟合曲线对字符偏移进行分析,获得偏移结果。
8.根据权利要求7所述的字符偏移检测系统,其特征在于,所述最优拟合曲线确定单元,具体包括:
第一判断子单元,用于判断所述夹角余弦是否大于角度阈值;如果所述夹角余弦大于角度阈值,则说明某一字符所在位置相对整个文本区域发生了偏离,则执行“获取子单元”;如果所述夹角余弦小于或等于角度阈值,则将初始拟合曲线作为最优拟合曲线;
获取子单元,用于获取初始拟合曲线;
损失函数值确定子单元,基于所述初始拟合曲线确定损失函数值;
第二判断子单元,用于判断所述损失函数值是否小于设定值;如果所述损失函数值小于设定值,则将所述初始拟合曲线作为最优拟合曲线;如果所述损失函数值大于或等于设定值,则更新所述初始拟合曲线中的斜率和偏移量,并将更新后的拟合曲线作为所述初始拟合曲线,并执行“损失函数值确定子单元”。
CN202010431910.0A 2020-05-20 2020-05-20 一种字符偏移检测方法及系统 Active CN111680692B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010431910.0A CN111680692B (zh) 2020-05-20 2020-05-20 一种字符偏移检测方法及系统
US17/414,551 US12033409B2 (en) 2020-05-20 2020-05-28 Character offset detection method and system
PCT/CN2020/092826 WO2021232464A1 (zh) 2020-05-20 2020-05-28 一种字符偏移检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010431910.0A CN111680692B (zh) 2020-05-20 2020-05-20 一种字符偏移检测方法及系统

Publications (2)

Publication Number Publication Date
CN111680692A CN111680692A (zh) 2020-09-18
CN111680692B true CN111680692B (zh) 2022-09-13

Family

ID=72452406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010431910.0A Active CN111680692B (zh) 2020-05-20 2020-05-20 一种字符偏移检测方法及系统

Country Status (3)

Country Link
US (1) US12033409B2 (zh)
CN (1) CN111680692B (zh)
WO (1) WO2021232464A1 (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN108875744A (zh) * 2018-03-05 2018-11-23 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956409A (en) * 1996-04-29 1999-09-21 Quintet, Inc. Secure application of seals
US6067374A (en) * 1997-11-13 2000-05-23 Xerox Corporation Seal detection system and method
JP3853528B2 (ja) * 1998-11-12 2006-12-06 日本電気株式会社 認証管理システム及び認証管理方法
JP4142982B2 (ja) * 2003-05-13 2008-09-03 株式会社Pfu 画像読み取り装置
US7841533B2 (en) * 2003-11-13 2010-11-30 Metrologic Instruments, Inc. Method of capturing and processing digital images of an object within the field of view (FOV) of a hand-supportable digitial image capture and processing system
JP2008102633A (ja) * 2006-10-17 2008-05-01 Sharp Corp 画像形成装置、ユーザ認証システム、画像形成装置を作動させる制御プログラムおよびコンピュータ読取可能な記録媒体
JP4668254B2 (ja) * 2007-12-03 2011-04-13 シャープ株式会社 捺印装置、捺印システム、捺印装置の制御方法、捺印プログラム、記録媒体
US8872767B2 (en) * 2009-07-07 2014-10-28 Microsoft Corporation System and method for converting gestures into digital graffiti
EP2937818B1 (en) * 2012-12-19 2022-04-20 Denso Wave Incorporated Information code, information code generation method, information code reader device, and information code usage system
CN103473327A (zh) * 2013-09-13 2013-12-25 广东图图搜网络科技有限公司 图像检索方法与系统
FR3029673B1 (fr) * 2014-12-08 2016-12-30 Morpho Procede et dispositif de suivi de caracteres figurant sur une pluralite d'images d'un flux video d'un texte
JP6589056B2 (ja) * 2016-05-19 2019-10-09 アイシン・エィ・ダブリュ株式会社 地図表示システムおよび地図表示プログラム
US10068132B2 (en) * 2016-05-25 2018-09-04 Ebay Inc. Document optical character recognition
CN108491870B (zh) * 2018-03-14 2020-01-21 平安科技(深圳)有限公司 电子装置、物理印章识别方法和计算机可读存储介质
CN110211048B (zh) * 2019-05-28 2020-06-16 国家电网有限公司 一种基于卷积神经网络的复杂档案图像倾斜矫正方法
CN110765992B (zh) * 2019-09-23 2023-03-24 厦门大学 印章鉴别方法、介质、设备及装置
CN110837835B (zh) * 2019-10-29 2022-11-08 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN110826314B (zh) * 2019-11-07 2023-08-22 中金智汇科技有限责任公司 一种规则解析方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN108875744A (zh) * 2018-03-05 2018-11-23 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法

Also Published As

Publication number Publication date
US20230360418A1 (en) 2023-11-09
US12033409B2 (en) 2024-07-09
WO2021232464A1 (zh) 2021-11-25
CN111680692A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
Gatos et al. ICDAR2009 handwriting segmentation contest
US9245188B2 (en) Lane detection system and method
CN105069456B (zh) 一种车牌字符分割方法及装置
US9858477B2 (en) Character segmenting apparatus, character recognition apparatus, and character segmenting method
CN106778736B (zh) 一种鲁棒的车牌识别方法及其系统
CN116071763B (zh) 基于文字识别的教辅图书智能校编系统
CN109034019B (zh) 一种基于行分割线的黄色双行车牌字符分割方法
CN106951896B (zh) 一种车牌图像倾斜校正方法
CN112419260A (zh) 一种pcb文字区域缺陷检测方法
US20110200257A1 (en) Character region extracting apparatus and method using character stroke width calculation
CN112508913A (zh) 基于图像检测的电缆截面边沿检测方法
CN116993985A (zh) 一种基于CLIP实现Zero-Shot自动分割安全带的方法
CN111680692B (zh) 一种字符偏移检测方法及系统
CN110291527A (zh) 信息处理方法、系统、云处理设备以及计算机程序产品
KR19980086524A (ko) 패턴 추출 장치
CN112418199B (zh) 多模态信息提取方法、装置、电子设备及存储介质
CN111832497A (zh) 一种基于几何特征的文本检测后处理方法
JP2021149452A (ja) 画像処理装置、制御方法及び制御プログラム
CN112926568B (zh) 联锁表蓝图识别方法、装置、电子设备及存储介质
CN113989485A (zh) 基于ocr识别的文本字符分割方法及系统
JP3957471B2 (ja) 分離文字列統合装置
JP2580976B2 (ja) 文字切出し装置
CN117690004B (zh) 图文数据质量的确定方法、装置、电子设备及存储介质
CN104835128B (zh) 一种用于模糊视频文本信息增强的多光谱融合方法
Nugroho et al. Review of optical braille recognition using camera for image acquisition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant