CN112528776B - 文本行校正方法和装置 - Google Patents
文本行校正方法和装置 Download PDFInfo
- Publication number
- CN112528776B CN112528776B CN202011362992.4A CN202011362992A CN112528776B CN 112528776 B CN112528776 B CN 112528776B CN 202011362992 A CN202011362992 A CN 202011362992A CN 112528776 B CN112528776 B CN 112528776B
- Authority
- CN
- China
- Prior art keywords
- text
- deflection angle
- text line
- lines
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 12
- 230000001788 irregular Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 241001391944 Commicarpus scandens Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了一种文本行校正方法和装置,涉及文本处理领域。该方法包括:定位目标区域中多个文本行;确定多个文本行中每个文本行的边框的偏转角度;基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本平均偏转角度;以及根据目标区域的文本平均偏转角度,对多个文本行进行校正。本公开不仅适用于边界规则的文本行的校正,还适用于边界不确定或不规则的文本行的校正,提高了文本行校正的应用范围,并且提高了文本行校正的准确性。
Description
技术领域
本公开涉及文本处理领域,尤其涉及一种文本行校正方法和装置。
背景技术
在做文字识别时,如果文本行倾斜,会给文字识别带来很多困难。相关技术中,以图像分割和关键点检测的方式识别目标区域的四个角点坐标,进而利用透射变换,以对图像中的本文行进行校正。
由于透射变换需要确定四个角点坐标,对于证件等边界明确的图像,可以比较容易的确定四个角点,因此,可以实现准确校正本文行。但对于边界不明确或者不规则的场景,很难确定目标区域的四个角点坐标,利用透射变换的方式对图像中的文本行进行校正,就可能把原本正常的图像校正的更差。
发明内容
本公开要解决的一个技术问题是,提供一种文本行校正方法和装置,提高文本行校正的准确性。
根据本公开一方面,提出一种文本行校正方法,包括:定位目标区域中多个文本行;确定多个文本行中每个文本行的边框的偏转角度;基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本平均偏转角度;以及根据目标区域的文本平均偏转角度,对多个文本行进行校正。
在一些实施例中,在目标区域的文本平均偏转角度的绝对值大于第一阈值的情况下,对多个文本行进行校正。
在一些实施例中,基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本偏转角度方差,其中,在目标区域的文本平均偏转角度的绝对值大于第一阈值,且文本偏转角度方差小于第二阈值的情况下,对多个文本行进行校正。
在一些实施例中,至少部分边框为宽高比大于第三阈值的边框。
在一些实施例中,对多个文本行进行校正包括:确定每个文本行的边框的中心;以及围绕每个文本行的边框的中心,对每个文本行旋转平均偏转角度的负值。
在一些实施例中,对多个文本行进行校正包括:确定包含多个文本行的图像的中心;以及围绕图像的中心,对图像旋转平均偏转角度的负值。
在一些实施例中,对多个文本行进行校正后,对包含多个边框的文本行的边框进行拼接。
在一些实施例中,对多个文本行进行校正后,重新执行定位目标区域中多个文本行的步骤。
在一些实施例中,获取样本图像;对样本图像中的多个文本行以及每个文本行的边框进行标注;基于标注后的样本图像,训练机器学习模型,得到文本行检测器;以及基于训练好的文本行检测器,定位目标区域中多个文本行以及每个文本行的边框。
在一些实施例中,目标区域为包含文本行的图像中的至少一个区域。
根据本公开的另一方面,还提出一种文本行校正装置,包括:文本行定位模块,被配置为定位目标区域中多个文本行;偏转角度确定模块,被配置为确定多个文本行中每个文本行的边框的偏转角度;平均角度确定模块,被配置为基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本平均偏转角度;以及文本行校正模块,被配置为根据目标区域的文本平均偏转角度,对多个文本行进行校正。
在一些实施例中,文本行校正模块被配置为在目标区域的文本平均偏转角度的绝对值大于第一阈值的情况下,对多个文本行进行校正。
在一些实施例中,该文本行校正装置还包括方差确定模块,被配置为基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本偏转角度方差,其中,文本行校正模块被配置为在目标区域的文本平均偏转角度的绝对值大于第一阈值,且目标区域的文本偏转角度方差小于第二阈值的情况下,对多个文本行进行校正。
在一些实施例中,至少部分边框为宽高比大于第三阈值的边框。
根据本公开的另一方面,还提出一种文本行校正装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的文本行校正方法。
根据本公开的另一方面,还提出一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的文本行校正方法。
本公开实施例中,通过对多个文本行的偏转角度进行处理,得到目标区域的平均偏转角度,并根据目标区域的文本平均偏转角度,对多个文本行进行校正。由于不需要对目标区域的四个角点坐标进行识别,因此,本公开不仅适用于边界规则的文本行的校正,还适用于边界不确定或不规则的文本行的校正,提高了文本行校正的应用范围,并且提高了文本行校正的准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的文本行校正方法的一些实施例的流程示意图。
图2为本公开的文本行校正方法的另一些实施例的流程示意图。
图3为本公开的文本行校正方法的另一些实施例的流程示意图。
图4为校正前的包含文本的图像的示意图。
图5为校正后的包含文本的图像的示意图。
图6为本公开的文本行校正方法的另一些实施例的流程示意图。
图7为本公开的文本行校正方法的另一些实施例的流程示意图。
图8为校正后的包含文本的图像的示意图。
图9为本公开的文本行校正方法的另一些实施例的流程示意图。
图10为本公开的文本行校正方法的另一些实施例的流程示意图。
图11为本公开的文本行校正装置的一些实施例的结构示意图。
图12为本公开的文本行校正装置的另一些实施例的结构示意图。
图13为本公开的文本行校正装置的另一些实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
图1为本公开的文本行校正方法的一些实施例的流程示意图。
在步骤110,定位目标区域中多个文本行。
在一些实施例中,利用文本行检测算法对目标区域中的文本行进行定位。
在一些实施例中,在定位多个文本行后,可以为每个文本行添加边框,进而得到每个文本行的边框的边界信息。例如,每个边框的四个角点的坐标,偏转角度、高宽比等。
在一些实施例中,目标区域为包含文本行的图像中的至少一个区域。该实施例可以对图像中的文本行进行整体校正,也可以对图像中的多个区域的文本行分别进行校正。例如,一个图像中包括一个包含文本行的票据图片,则该票据图片为目标区域。或者,一个图像中包括多个包含文本含的票据图片,则每个票据图片为一个目标区域。
在步骤120,确定多个文本行中每个文本行的边框的偏转角度。
在一些实施例中,文本行的边框的偏转角度是指倾斜的文本行的边框相对于正常的文本行的边框的倾斜角度。或者,文本行的边框的偏转角度是指倾斜的文本行的边框与预定方向的夹角,该预定方向为本文行待校正到的方向。例如,对于矩形的显示器,在对显示器内的图像的文本行进行水平方向校正时,边框的偏转角度为文本行的边框的上下沿与显示器上下边沿的夹角。
在步骤130,基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本平均偏转角度。
在一些实施例中,至少部分边框为宽高比大于第三阈值的边框。第三阈值可以按照实际情况进行设定。
由于文本行高宽比较小时,文本行的边框的偏转角度的检测不准确,而高宽比越大,则文本行的边框的偏转角度的检测越准确。因此,选择宽高比大于第三阈值的边框进行后续处理。
在一些实施例中,对多个文本行的边框的偏转角度进行平均值计算,得到目标区域的文本平均偏转角度。
例如,利用公式计算文本行的平均偏转角度,其中,n为执行计算过程的边框的个数,xi为第i个边框的偏转角度,u为文本行的平均偏转角度,n、i分别为正整数。
在步骤140,根据目标区域的文本平均偏转角度,对多个文本行进行校正。
在一些实施例中,在目标区域的文本平均偏转角度的绝对值大于第一阈值的情况下,对多个文本行进行校正。
例如,第一阈值为1°,若目标区域的平均偏转角度为-0.5°,则不对该多个文本行的方向进行校正,若目标区域的平均偏转角度为-5°,则对该多个文本行的方向进行校正。避免由于文本行的边框信息的检测精度问题,导致无倾斜的正常文本行的错误校正。
在上述实施例中,通过对多个文本行的偏转角度进行处理,得到目标区域的平均偏转角度,并根据目标区域的文本平均偏转角度,对多个文本行进行校正。由于不需要对目标区域的四个角点坐标进行识别,因此,本公开不仅适用于边界规则的文本行的校正,还适用于边界不确定或不规则的文本行的校正,提高了文本行校正的应用范围,并且提高了文本行校正的准确性。
图2为本公开的文本行校正方法的另一些实施例的流程示意图。
在步骤210,定位目标区域中多个文本行。
在步骤220,确定多个文本行中每个文本行的边框的偏转角度。
在步骤230,基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本平均偏转角度和文本偏转角度方差。
在一些实施例中,利用公式计算文本偏转角度方差,其中,n为执行计算过程的边框的个数,xi为第i个边框的偏转角度,u为文本行的平均偏转角度,Dx为文本偏转角度方差,n、i分别为正整数。
文本偏转角度方差越大,则说明文本行的边框之间的偏转角度差别越大。这种情况下,可能是检测器对文本行信息识别错误,或者,文本版式本身复杂、混乱,此时进行文本行校正,容易出现错误。
在使用透射变换的方法进行文本行校正时,没有明确是否校正的标准,容易出现将一个正常数据校正倾斜的情况。而该实施例中,通过偏转角度方差判定是否旋转文本行,保证校正的稳定性,大幅度降低将正常数据校正错误的概率。
在步骤240,在目标区域的文本平均偏转角度的绝对值大于第一阈值,且文本偏转角度方差小于第二阈值的情况下,对多个文本行进行校正。
在上述实施例中,在目标区域的文本平均偏转角度的绝对值大于第一阈值,且文本偏转角度方差小于第二阈值的情况下,对多个文本行进行校正,能够保障校正的稳定性,并且降低将正常数据校正误差的概率。
图3为本公开的文本行校正方法的另一些实施例的流程示意图。
在步骤310,定位目标区域中多个文本行。
在步骤320,确定多个文本行中每个文本行的边框的偏转角度和宽高比。
在步骤330,在多个边框中选择宽高比大于第三阈值的边框。
在一些实施例中,由于在训练文本行检测器时,正常的数据样本占比较高,而倾斜样本较少,导致对倾斜的文本行检测能力偏弱。另外,在对数据进行标注时,文本长度短的文本框标注的精确略低于长本文框,因此,在文本行的边框的高宽比小于阈值时,会导致边框角度的检测准确性降低,因此,选择宽高比大于第三阈值的边框进行后续操作。
如图4所示,“显示器”,“键盘”,“鼠标”等文本行的偏转角度不够精确,故只选取宽高比足够长的文本行参与后续操作。
在步骤340,对宽高比大于第三阈值的边框的偏转角度进行平均值计算,得到目标区域的文本平均偏转角度。
在步骤350,判断文本平均偏转角度的绝对值是否大于第一阈值,若是,则执行步骤360,否则,执行步骤370。
在步骤360,对多个文本行进行校正。
在一些实施例中,确定每个文本行的边框的中心;围绕每个文本行的边框的中心,对每个文本行旋转平均偏转角度的负值。例如,相对于图像坐标系的水平轴,文本平均偏转角度为-5°,则对每个文本行旋转5°,从而使得文本行与该水平轴平行。
在一些实施例中,通过计算文本框的两条对角线的相交点,确定每个文本行的边框的中心。
在一些实施例中,确定包含多个文本行的图像的中心;围绕图像的中心,对图像旋转平均偏转角度的负值。例如,例如,相对于图像坐标系的水平轴,文本平均偏转角度为-5°,则对图像整体旋转5°,从而使得文本行与该水平轴平行。校正后的文本行如图5所示。
在一些实施例中,通过计算图像的两条对角线的相交点,确定该图像的中心。
在步骤370,不对多个文本行进行校正。
在上述实施例中,对宽高比大于第三阈值的边框的偏转角度进行平均值计算,得到目标区域的文本平均偏转角度,然后在目标区域的文本平均偏转角度的绝对值大于第一阈值的情况下,对多个文本行进行校正。该实施例通过筛选宽高比大于阈值的边框进行文本平均偏转角度的计算,并根据文本平均偏转角度确定是否对文本行进行校正,提高文本行校正的准确性。
图6为本公开的文本行校正方法的另一些实施例的流程示意图。
在步骤610,定位目标区域中多个文本行。
在步骤620,确定多个文本行中每个文本行的边框的偏转角度和宽高比。
在步骤630,在多个边框中选择宽高比大于第三阈值的边框。
在步骤640,对宽高比大于第三阈值的边框的偏转角度进行平均值和方差计算,得到目标区域的文本平均偏转角度和文本偏转角度方差。
在步骤650,目标区域的文本平均偏转角度的绝对值是否大于第一阈值,且文本偏转角度方差是否小于第二阈值,若是,则执行步骤660,否则,执行步骤670。
在步骤660,对多个文本行进行校正。
在步骤670,不对多个文本行进行校正。
在该实施例中,若文本平均偏转角度的绝对值小于第一阈值,则说明文本没有发生倾斜,无需进行校正;若文本偏转角度方差大于第二阈值,则说明检测器可能识别错误,或者,文本版式复杂、混乱。通过对目标区域的文本平均偏转角度的绝对值以及文本偏转角度方差的判断,能够保证校正的稳定性,无倾斜文本行不校正,大幅度降低将正常数据校正错误的概率。
图7为本公开的文本行校正方法的另一些实施例的流程示意图。
在步骤710,定位目标区域中多个文本行。
在步骤720,识别每个文本行的一个或多个边框。
在一些实施例中,如果文本行倾斜角度较大,则同一行的文本容易出现断裂,如图4所示,“英文名为“monitor”,显示器有大有小,有薄有厚,品种多样,其作用是把电脑处理完的结果显示出来。”对应一个边框,“它是”对应另一个边框。
在步骤730,确定多个文本行中每个文本行的边框的偏转角度和宽高比。
在步骤740,在多个边框中选择宽高比大于第三阈值的边框。
在步骤750,对宽高比大于第三阈值的边框的偏转角度进行平均值和方差计算,得到目标区域的文本平均偏转角度和文本偏转角度方差。
在步骤760,目标区域的文本平均偏转角度的绝对值是否大于第一阈值,且文本偏转角度方差是否小于第二阈值,若是,则执行步骤770,否则,执行步骤790。
在步骤770,对多个文本行进行校正。
在步骤780,对包含多个边框的文本行的边框进行拼接。
在一些实施例中,为了得到完成的文本行,如果一个文本行对应多个边框,则将多个边框进行拼接。例如,将相邻两个边框中位于左侧的边框的右侧两个角点坐标,与位于右侧的边框的左侧两个角点的坐标进行比对,若相邻的坐标距离小于阈值,则将该位于左侧的边框的左侧的两个角点坐标与该位于右侧的边框的右侧的两个角点坐标进行组合,这4个角点坐标构成的方框为文本行的边框。如果包括多个边框,则进行相应处理,如图8所示,直到对每一个文本行得到一个边框。
在步骤790,不对多个文本行进行校正。
在步骤7100,对文本中的文字进行识别。
在上述实施例中,对宽高比大于第三阈值的偏转角度进行平均值和方差计算,得到标区域的文本平均偏转角度和文本偏转角度方差,在目标区域的文本平均偏转角度的绝对值大于第一阈值,且文本偏转角度方差小于第二阈值的情况下,对多个文本行进行校正,能够保障校正的稳定性,并且降低将正常数据校正误差的概率,另外,在对文本行进行校正后,对包含多个边框的文本行的边框进行拼接,能够提高文本识别的准确性。
图9为本公开的文本行校正方法的另一些实施例的流程示意图。
在步骤910,定位目标区域中多个文本行。
在步骤920,确定多个文本行中每个文本行的边框的偏转角度和宽高比。
在步骤930,在多个边框中选择宽高比大于第三阈值的边框。
在步骤940,对宽高比大于第三阈值的边框的偏转角度进行平均值和方差计算,得到目标区域的文本平均偏转角度和文本偏转角度方差。
在步骤950,目标区域的文本平均偏转角度的绝对值是否大于第一阈值,且文本偏转角度方差是否小于第二阈值,若是,则执行步骤960,否则,执行步骤970。
在步骤960,对多个文本行进行校正。后续继续执行步骤910。执行次数可以根据实际情况进行设定。
在步骤970,不对多个文本行进行校正。
在步骤980,输出图像和文本框。
在该实施例中,对文本行进行多次校正,能够提高文本行校正的准确性,使得输出的图像和文本框更加准确。
在一些实施例中,可以基于训练好的文本行检测器,定位目标区域中多个文本行以及每个文本行的边框,该文本行检测器的训练过程如图10所示。
在步骤1010,获取样本图像。
在一些实施例中,样本图像包括具有倾斜的文本数据,也可以包括正常的文本数据。为了提高文本行检测器对倾斜文本行的检测能力,可以采集较多的具有倾斜的文本数据的样本图像。
在步骤1020,对样本图像中的多个文本行以及每个文本行的边框进行标注。
在步骤1030,基于标注后的样本图像,训练机器学习模型,得到文本行检测器。
在一些实施例中,采用EAST(Efficient and Accurate Scene Text Detector,高效准确的场景文本检测器)、PSENet(Shape Robust Text Detection with ProgressiveScale Expansion Network,基于渐进式尺寸可扩展网络的形状鲁棒文本检测)等检测算法训练该文本行检测器。
在一些实施例中,将文本行检测器输出结果与标注信息进行比较,判断比较结果是否满足构建文本行检测器的损失函数的要求,反复迭代,优化和调整文本行检测器的参数,使得比较结果最终满足构建文本行检测器的损失函数的要求,保存该文本行检测器。
在步骤1040,基于训练好的文本行检测器,定位目标区域中多个文本行以及每个文本行的边框。
该实施例中,通过对倾斜文本行检测能够较强的检测器,能够提高文本行的边框边界信息的能力,为候选判断是否需要对文本行进行校正提供基础。
图11为本公开的文本行校正装置的一些实施例的结构示意图。该文本行校正装置包括文本行定位模块1110、偏转角度确定模块1120、平均角度确定模块1130和文本行校正模块1140。
文本行定位模块1110被配置为定位目标区域中多个文本行。
在一些实施例中,利用文本行检测算法对目标区域中的文本行进行定位。
在一些实施例中,在定位多个文本行后,可以为每个文本行添加边框,进而得到每个文本行的边框的边界信息。例如,每个边框的四个角点的坐标,偏转角度、高宽比等。
在一些实施例中,目标区域为包含文本行的图像中的至少一个区域。该实施例可以对图像中的文本行进行整体校正,也可以对图像中的多个区域的文本行分别进行校正。例如,一个图像中包括一个包含文本行的票据图片,则该票据图片为目标区域。或者,一个图像中包括多个包含文本含的票据图片,则每个票据图片为一个目标区域。
偏转角度确定模块1120被配置为确定多个文本行中每个文本行的边框的偏转角度。
在一些实施例中,利用文本行检测器确定定位目标区域中多个文本行以及每个文本行的边框。例如,获取样本图像,样本图像包括具有倾斜的文本数据,也可以包括正常的文本数据。为了提高文本行检测器对倾斜文本行的检测能力,可以采集较多的具有倾斜的文本数据的样本图像。对样本图像中的多个文本行以及每个文本行的边框进行标注;基于标注后的样本图像,训练机器学习模型,得到文本行检测器;基于训练好的文本行检测器,定位目标区域中多个文本行以及每个文本行的边框。
平均角度确定模块1130被配置为基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本平均偏转角度。
在一些实施例中,至少部分边框为宽高比大于第三阈值的边框。由于文本行高宽比较小时,文本行的边框的偏转角度的检测不准确,而高宽比越大,则文本行的边框的偏转角度的检测越准确。因此,选择宽高比大于第三阈值的边框进行后续处理。
文本行校正模块1140被配置为根据目标区域的文本平均偏转角度,对多个文本行进行校正。
在一些实施例中,文本行校正模块1140被配置为在目标区域的文本平均偏转角度的绝对值大于第一阈值的情况下,对多个文本行进行校正。
例如,第一阈值为1°,若目标区域的平均偏转角度为-0.5°,则不对该多个文本行的方向进行校正,若目标区域的平均偏转角度为-5°,则对该多个文本行的方向进行校正。避免由于文本行的边框信息的检测精度问题,导致无倾斜的正常文本行的错误校正。
在一些实施例中,文本行校正模块1140还被配置为确定每个文本行的边框的中心;围绕每个文本行的边框的中心,对每个文本行旋转平均偏转角度的负值。
在一些实施例中,文本行校正模块1140还被配置为确定包含多个文本行的图像的中心;围绕图像的中心,对图像旋转平均偏转角度的负值。
在上述实施例中,通过对多个文本行的偏转角度进行处理,得到目标区域的平均偏转角度,并根据目标区域的文本平均偏转角度,对多个文本行进行校正。由于不需要对目标区域的四个角点坐标进行识别,因此,本公开不仅适用于边界规则的文本行的校正,还适用于边界不确定或不规则的文本行的校正,提高了文本行校正的应用范围,并且提高了文本行校正的准确性。
图12为本公开的文本行校正装置的另一些实施例的结构示意图。该实施例中,文本行校正装置还包括方差确定模块1210。
方差确定模块1210被配置为基于多个边框中的至少部分边框的偏转角度,得到目标区域的文本偏转角度方差,其中,文本行校正模块1140被配置为在目标区域的文本平均偏转角度的绝对值大于第一阈值,且目标区域的文本偏转角度方差小于第二阈值的情况下,对多个文本行进行校正。
文本偏转角度方差越大,则说明文本行的边框之间的偏转角度差别越大。这种情况下,可能是检测器对文本行信息识别错误,或者,文本版式本身复杂、混乱,此时进行文本行校正,容易出现错误。在上述实施例中,在目标区域的文本平均偏转角度的绝对值大于第一阈值,且文本偏转角度方差小于第二阈值的情况下,对多个文本行进行校正,能够保障校正的稳定性,并且降低将正常数据校正误差的概率。
在本公开的另一些实施例中,该文本行校正装置还包括边框拼接模块1220,被配置为对包含多个边框的文本行的边框进行拼接。
在一些实施例中,为了得到完成的文本行,如果一个文本行对应多个边框,则将多个边框进行拼接。例如,将相邻两个边框中位于左侧的边框的右侧两个角点坐标,与位于右侧的边框的左侧两个角点的坐标进行比对,若相邻的坐标距离小于阈值,则将该位于左侧的边框的左侧的两个角点坐标与该位于右侧的边框的右侧的两个角点坐标进行组合,这4个角点坐标构成的方框为文本行的边框。如果包括多个边框,则进行相应处理,如图8所示,直到对每一个文本行得到一个边框。
该实施例中,将具有断裂现象的文本行的边框进行拼接,形成该文本行的边框,能够为后续文本的识别提供更准确的基础。
图13为本公开的文本行校正装置的另一些实施例的结构示意图。该文本行校正装置1300包括存储器1310和处理器1320。其中:存储器1310可以是磁盘、闪存或其它任何非易失性存储介质。存储器1310用于存储图1-10所对应实施例中的指令。处理器1320耦接至存储器1310,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器1320用于执行存储器中存储的指令。
在一些实施例中,处理器1320通过BUS总线1330耦合至存储器1310。该文本行校正装置1300还可以通过存储接口1340连接至外部存储系统1350以便调用外部数据,还可以通过网络接口1360连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够提高文本行校正的准确性。
在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1-10所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (12)
1.一种文本行校正方法,包括:
定位目标区域中多个文本行;
确定所述多个文本行中每个文本行的边框的偏转角度;
基于多个边框中的至少部分边框的偏转角度,得到所述目标区域的文本平均偏转角度和文本偏转角度方差;以及
在所述目标区域的文本平均偏转角度的绝对值大于第一阈值,且所述文本偏转角度方差小于第二阈值的情况下,对所述多个文本行进行校正。
2.根据权利要求1所述的文本行校正方法,其中,所述至少部分边框为宽高比大于第三阈值的边框。
3.根据权利要求1或2所述的文本行校正方法,其中,对所述多个文本行进行校正包括:
确定每个文本行的边框的中心;以及
围绕每个文本行的边框的中心,对每个文本行旋转所述平均偏转角度的负值。
4.根据权利要求1或2所述的文本行校正方法,其中,对所述多个文本行进行校正包括:
确定包含所述多个文本行的图像的中心;以及
围绕所述图像的中心,对所述图像旋转所述平均偏转角度的负值。
5.根据权利要求1或2所述的文本行校正方法,还包括:
对所述多个文本行进行校正后,对包含多个边框的文本行的边框进行拼接。
6.根据权利要求1或2所述的文本行校正方法,还包括:
对所述多个文本行进行校正后,重新执行定位目标区域中多个文本行的步骤。
7.根据权利要求1或2所述的文本行校正方法,还包括:
获取样本图像;
对所述样本图像中的多个文本行以及每个文本行的边框进行标注;
基于标注后的所述样本图像,训练机器学习模型,得到文本行检测器;以及
基于训练好的文本行检测器,定位目标区域中多个文本行以及每个文本行的边框。
8.根据权利要求1或2所述的文本行校正方法,其中,
所述目标区域为包含文本行的图像中的至少一个区域。
9.一种文本行校正装置,包括:
文本行定位模块,被配置为定位目标区域中多个文本行;
偏转角度确定模块,被配置为确定所述多个文本行中每个文本行的边框的偏转角度;
平均角度确定模块,被配置为基于多个边框中的至少部分边框的偏转角度,得到所述目标区域的文本平均偏转角度;
方差确定模块,被配置为基于多个边框中的至少部分边框的偏转角度,得到所述目标区域的文本偏转角度方差;以及
文本行校正模块,被配置为根据所述目标区域的文本平均偏转角度的绝对值大于第一阈值,且所述文本偏转角度方差小于第二阈值的情况下,对所述多个文本行进行校正。
10.根据权利要求9所述的文本行校正装置,其中,所述至少部分边框为宽高比大于第三阈值的边框。
11.一种文本行校正装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的文本行校正方法。
12.一种非瞬时性计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至8任一项所述的文本行校正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011362992.4A CN112528776B (zh) | 2020-11-27 | 2020-11-27 | 文本行校正方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011362992.4A CN112528776B (zh) | 2020-11-27 | 2020-11-27 | 文本行校正方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528776A CN112528776A (zh) | 2021-03-19 |
CN112528776B true CN112528776B (zh) | 2024-04-09 |
Family
ID=74994682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011362992.4A Active CN112528776B (zh) | 2020-11-27 | 2020-11-27 | 文本行校正方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528776B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420762B (zh) * | 2021-07-01 | 2024-02-06 | 京东科技控股股份有限公司 | 一种图像处理方法、系统、电子设备及存储介质 |
CN113505741B (zh) * | 2021-07-27 | 2024-04-09 | 京东科技控股股份有限公司 | 一种文本图像处理方法、装置、电子设备及存储介质 |
CN114120323A (zh) * | 2021-11-05 | 2022-03-01 | 北京量子之歌科技有限公司 | 一种支付账单的管理方法、装置、设备和存储介质 |
CN116740740B (zh) * | 2023-08-11 | 2023-11-21 | 浙江太美医疗科技股份有限公司 | 同行文本判定方法、文档排序方法及其应用 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010271873A (ja) * | 2009-05-20 | 2010-12-02 | Hypergear:Kk | 画像の傾き角検出方法 |
CN105718872A (zh) * | 2016-01-15 | 2016-06-29 | 武汉光庭科技有限公司 | 两侧车道快速定位及检测车辆偏转角度的辅助方法及系统 |
US9621761B1 (en) * | 2015-10-08 | 2017-04-11 | International Business Machines Corporation | Automatic correction of skewing of digital images |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN109948598A (zh) * | 2019-05-15 | 2019-06-28 | 达而观信息科技(上海)有限公司 | 文档版面智能化分析方法及装置 |
CN109993161A (zh) * | 2019-02-25 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本图像旋转矫正方法及系统 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN111652205A (zh) * | 2020-06-04 | 2020-09-11 | 广东小天才科技有限公司 | 基于深度学习的文本矫正方法、装置、设备和介质 |
CN111914836A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种身份证信息提取方法、装置、设备和介质 |
-
2020
- 2020-11-27 CN CN202011362992.4A patent/CN112528776B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010271873A (ja) * | 2009-05-20 | 2010-12-02 | Hypergear:Kk | 画像の傾き角検出方法 |
US9621761B1 (en) * | 2015-10-08 | 2017-04-11 | International Business Machines Corporation | Automatic correction of skewing of digital images |
CN105718872A (zh) * | 2016-01-15 | 2016-06-29 | 武汉光庭科技有限公司 | 两侧车道快速定位及检测车辆偏转角度的辅助方法及系统 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN109993161A (zh) * | 2019-02-25 | 2019-07-09 | 众安信息技术服务有限公司 | 一种文本图像旋转矫正方法及系统 |
CN109948598A (zh) * | 2019-05-15 | 2019-06-28 | 达而观信息科技(上海)有限公司 | 文档版面智能化分析方法及装置 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN111652205A (zh) * | 2020-06-04 | 2020-09-11 | 广东小天才科技有限公司 | 基于深度学习的文本矫正方法、装置、设备和介质 |
CN111914836A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种身份证信息提取方法、装置、设备和介质 |
Non-Patent Citations (1)
Title |
---|
基于内容的文档图像倾斜校正;吕亚军;陈继荣;鹿晓亮;;计算机仿真(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528776A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528776B (zh) | 文本行校正方法和装置 | |
CN111474184B (zh) | 基于工业机器视觉的aoi字符缺陷检测方法和装置 | |
US9679217B2 (en) | Information processing apparatus, information processing system, information processing method and storage medium | |
US8340433B2 (en) | Image processing apparatus, electronic medium, and image processing method | |
CN112396122B (zh) | 基于顶点距离与交并比多重优化目标检测器的方法与系统 | |
CN113673519B (zh) | 基于文字检测模型的文字识别方法及其相关设备 | |
US10354409B2 (en) | Image processing device, image processing method, and non-transitory computer-readable recording medium | |
CN111368927A (zh) | 一种标注结果处理方法、装置、设备及存储介质 | |
CN108052869B (zh) | 车道线识别方法、装置及计算机可读存储介质 | |
EP2536123A1 (en) | Image processing method and image processing apparatus | |
CN111832558A (zh) | 文字图像矫正方法、装置、存储介质及电子设备 | |
JP3471578B2 (ja) | 行方向判定装置、画像傾き検出装置及び画像傾き補正装置 | |
CN107480710B (zh) | 特征点匹配结果处理方法和装置 | |
US20140016824A1 (en) | Device and method for detecting angle of rotation from normal position of image | |
CN115546219B (zh) | 检测板式生成方法、板卡缺陷检测方法、装置及产品 | |
CN111599080B (zh) | 拼接纸币的检测方法、装置、金融机具设备及存储介质 | |
CN114298994A (zh) | 一种基于高斯滤波利用芯片关键点的定位方法与装置 | |
CN112415015A (zh) | 一种轮胎带束层接头缺陷检测方法、装置、设备及介质 | |
CN104732188A (zh) | 文本提取方法和装置 | |
CN113420762B (zh) | 一种图像处理方法、系统、电子设备及存储介质 | |
JP5291034B2 (ja) | 楕円印検出及び楕円印自動正立処理装置 | |
US12125189B2 (en) | Method of detecting product defects, electronic device, and storage medium | |
CN115359493B (zh) | 旋转文字检测方法和装置 | |
JP5619111B2 (ja) | 画像判定装置およびプログラム | |
US20220398716A1 (en) | Method of detecting product defects, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant before: Jingdong Digital Technology Holding Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |