CN113920525A - 文本矫正方法、装置、设备及存储介质 - Google Patents

文本矫正方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113920525A
CN113920525A CN202111155032.5A CN202111155032A CN113920525A CN 113920525 A CN113920525 A CN 113920525A CN 202111155032 A CN202111155032 A CN 202111155032A CN 113920525 A CN113920525 A CN 113920525A
Authority
CN
China
Prior art keywords
text
line
mask
contour
outer contour
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111155032.5A
Other languages
English (en)
Inventor
黄达一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Wuhan Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd, Wuhan Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN202111155032.5A priority Critical patent/CN113920525A/zh
Publication of CN113920525A publication Critical patent/CN113920525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种文本矫正方法、装置、设备及存储介质,所述方法包括:获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;对每个所述文本行添加掩膜;响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。本发明可以解决原始文本图像中文本行弯曲的问题,确保矫正后的文本行不再弯曲,有利于后续基于字符分割算法或基于序列识别的深度学习算法进行文本识别,进而提高文本识别的准确性,并且相对于相关技术中基于文本页面的整体特性只能解决文本页面全局倾斜或全局弯曲的技术方案,本发明的技术方案可以实现以文本行为单位的文本矫正,可以进一步提升文本矫正的质量。

Description

文本矫正方法、装置、设备及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种文本矫正方法、装置、设备及存储介质。
背景技术
基于计算机视觉技术可以实现检测、识别图像中的文本信息并将其转换成计算机文字,目前已被广泛应用于各种企业级和消费级应用场景中,可显著提升办公效率。
在实际应用中,由于拍摄对象变形,如书本弯曲或页面褶皱等原因,或者由于图像获取设备与拍摄对象拍摄角度不完全水平等原因,会导致拍摄的文本图像中的水平文本行发生弯曲,而弯曲文本行会为后续基于字符分割算法或基于序列识别的深度学习算法进行文本识别带来困难,导致文本识别错误率上升。
发明内容
有鉴于此,本发明提出一种文本矫正方法、装置、设备及存储介质以解决上述技术问题。
为了达到上述目的,本发明所采用的技术方案为:
根据本发明实施例的第一方面,提供了一种文本矫正方法,包括:
获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
对每个所述文本行添加掩膜;
响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
在一实施例中,所述对所述第一文本行进行矫正,包括:
基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数;
基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,所述目标文本图像为基于所述原始文本图像新建的空白文本图像。
在一实施例中,所述对每个所述文本行添加掩膜,包括:
将所述原始文本图像输入至预先训练的文本检测模型中,得到掩膜文本图像,所述掩膜文本图像中的每个文本行上具有掩膜。
在一实施例中,所述方法还包括基于以下方式检测第一文本行的掩膜为弯曲的掩膜:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,所述基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,包括:
沿X轴方向从所述外部轮廓中获取预设数量的采样点,其中,所述采样点均为所述外部轮廓的上边缘点,或者,所述采样点均为所述外部轮廓的下边缘点;
基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率;
响应于所述斜率的导数大于或等于设定导数阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,所述基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,包括:
基于所述外部轮廓上的点的坐标确定所述外部轮廓的最小外接矩形;
计算所述外部轮廓所包围区域的面积与所述最小外接矩形的面积的比值;
响应于所述比值小于或等于设定比值阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,所述基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,包括:
基于所述掩膜的轮廓确定所述第一文本行的外部轮廓上每个点与坐标系原点之间的距离;
基于所述距离确定所述外部轮廓上的预设定位点;
将所述预设定位点的Y轴坐标确定为所述第一文本行的外部轮廓参数。
在一实施例中,所述基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,包括:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上下边界之间的差值;
基于所述差值确定所述外部轮廓的平均轮廓高度;
将所述平均轮廓高度确定为所述第一文本行的外部轮廓参数。
在一实施例中,所述基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,包括:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标;
将所述每个点的Y轴坐标与所述最高点的Y轴坐标之间的差值确定为所述第一文本行的外部轮廓参数。
在一实施例中,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,包括:
基于所述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数;
基于所述像素坐标调整参数和所述第一文本行的像素的坐标,将所述第一文本行的像素复制至所述目标文本图像中。
在一实施例中,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,包括:
基于所述外部轮廓参数,在所述目标文本图像中形成对应于所述弯曲文本行的矫正文本行轮廓;
基于预先确定的所述原始文本图像中第一文本行的像素与所述目标文本图像中矫正文本行的轮廓的映射关系,将所述第一文本行的像素复制至所述矫正文本行的轮廓所包围区域中。
在一实施例中,所述方法还包括:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
以所述外部轮廓的最左点的X轴坐标及最高点的Y轴坐标为基点,执行所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的操作。
在一实施例中,所述方法还包括:
基于预设的文本识别方式,获取所述第一文本行的预设行距;
基于所述预设行距确定所述矫正文本行的行距。
在一实施例中,所述外部轮廓参数包括以下至少一种:
所述第一文本行的外部轮廓上的预设定位点的Y轴坐标;
所述第一文本行的外部轮廓的平均轮廓高度;
所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标与所述边界上的最高点的Y轴坐标之间的差值。
在一实施例中,当所述外部轮廓参数包括所述预设定位点的Y轴坐标时,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,包括:
基于所述预设定位点的Y轴坐标对所述矫正文本行进行平移对齐;
当所述外部轮廓参数包括所述平均轮廓高度时,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,包括:
基于所述平均轮廓高度确定所述矫正文本行的轮廓高度;
当所述外部轮廓参数包括所述差值时,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,包括:
基于所述差值确定所述矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标。
在一实施例中,所述方法还包括:
响应于检测到第二文本行的掩膜为不弯曲的掩膜,将所述第二文本行复制到所述目标文本图像中。
根据本发明实施例的第二方面,提供了一种文本矫正装置,包括:
图像获取模块,用于获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
掩膜添加模块,用于对每个所述文本行添加掩膜;
文本矫正模块,用于响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
在一实施例中,所述文本矫正模块,包括:
参数确定单元,用于基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数;
文本矫正单元,用于基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,所述目标文本图像为基于所述原始文本图像新建的空白文本图像。
在一实施例中,所述掩膜添加模块还用于将所述原始文本图像输入至预先训练的文本检测模型中,得到掩膜文本图像,所述掩膜文本图像中的每个文本行上具有掩膜。
在一实施例中,所述装置还包括弯曲掩膜检测模块;
所述弯曲掩膜检测模块,包括:
轮廓坐标检测单元,用于基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
弯曲掩膜检测单元,用于基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,所述弯曲掩膜检测单元还用于:
沿X轴方向从所述外部轮廓中获取预设数量的采样点,其中,所述采样点均为所述外部轮廓的上边缘点,或者,所述采样点均为所述外部轮廓的下边缘点;
基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率;
响应于所述斜率的导数大于或等于设定导数阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,所述弯曲掩膜检测单元还用于:
基于所述外部轮廓上的点的坐标确定所述外部轮廓的最小外接矩形;
计算所述外部轮廓所包围区域的面积与所述最小外接矩形的面积的比值;
响应于所述比值小于或等于设定比值阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,所述参数确定单元还用于:
基于所述掩膜的轮廓确定所述第一文本行的外部轮廓上每个点与坐标系原点之间的距离;
基于所述距离确定所述外部轮廓上的预设定位点;
将所述预设定位点的Y轴坐标确定为所述第一文本行的外部轮廓参数。
在一实施例中,所述参数确定单元还用于:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上下边界之间的差值;
基于所述差值确定所述外部轮廓的平均轮廓高度;
将所述平均轮廓高度确定为所述第一文本行的外部轮廓参数。
在一实施例中,所述参数确定单元还用于:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标;
将所述每个点的Y轴坐标与所述最高点的Y轴坐标之间的差值确定为所述第一文本行的外部轮廓参数。
在一实施例中,所述文本矫正单元还用于:
基于所述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数;
基于所述像素坐标调整参数和所述第一文本行的像素的坐标,将所述第一文本行的像素复制至所述目标文本图像中。
在一实施例中,所述文本矫正单元还用于:
基于所述外部轮廓参数,在所述目标文本图像中形成对应于所述弯曲文本行的矫正文本行轮廓;
基于预先确定的所述原始文本图像中第一文本行的像素与所述目标文本图像中矫正文本行的轮廓的映射关系,将所述第一文本行的像素复制至所述矫正文本行的轮廓所包围区域中。
在一实施例中,所述文本矫正模块还包括:
轮廓坐标检测单元,用于基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
所述文本矫正单元还用于以所述外部轮廓的最左点的X轴坐标及最高点的Y轴坐标为基点,执行所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的操作。
在一实施例中,所述装置还包括:行距确定模块;
所述行距确定模块,包括:
预设行距获取单元,用于基于预设的文本识别方式,获取所述第一文本行的预设行距;
文本行距确定单元,用于基于所述预设行距确定所述矫正文本行的行距。
在一实施例中,所述外部轮廓参数包括以下至少一种:
所述第一文本行的外部轮廓上的预设定位点的Y轴坐标;
所述第一文本行的外部轮廓的平均轮廓高度;
所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标与所述边界上的最高点的Y轴坐标之间的差值。
在一实施例中,当所述外部轮廓参数包括所述预设定位点的Y轴坐标时,所述文本矫正单元还用于基于所述预设定位点的Y轴坐标对所述矫正文本行进行平移对齐;
当所述外部轮廓参数包括所述平均轮廓高度时,所述文本矫正单元还用于基于所述平均轮廓高度确定所述矫正文本行的轮廓高度;
当所述外部轮廓参数包括所述差值时,所述文本矫正单元还用于基于所述差值确定所述矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标。
在一实施例中,所述装置还包括:
文本复制模块,用于响应于检测到第二文本行的掩膜为不弯曲的掩膜,将所述第二文本行复制到所述目标文本图像中。
根据本发明实施例的第三方面,提供了一种电子设备,所述电子设备包括:
处理器,以及用于存储计算机程序的存储器;
其中,所述处理器被配置为在执行所述计算机程序时实现:
获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
对每个所述文本行添加掩膜;
响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器处理时实现:
获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
对每个所述文本行添加掩膜;
响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
与现有技术相比较,本发明通过获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据,并对每个所述文本行添加掩膜,进而响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正,可以解决原始文本图像中文本行弯曲的问题,确保矫正后的文本行不再弯曲,有利于后续基于字符分割算法或基于序列识别的深度学习算法进行文本识别,进而提高文本识别的准确性,并且相对于相关技术中基于文本页面的整体特性只能解决文本页面全局倾斜或全局弯曲的技术方案,本发明的技术方案可以实现以文本行为单位的文本矫正,可以进一步提升文本矫正的质量。
附图说明
图1A示出了根据本发明一示例性实施例的文本矫正方法的流程图;
图1B示出了根据本发明一示例性实施例的原始文本图像中每个文本行的热力图的示意图;
图2示出了根据本发明一示例性实施例的如何对所述第一文本行进行矫正的流程图;
图3示出了根据本发明一示例性实施例的如何检测第一文本行的掩膜为弯曲的掩膜的流程图;
图4A示出了根据本发明一示例性实施例的如何基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜的流程图;
图4B示出了根据本发明一示例性实施例的在外部轮廓上获取预设数量的采样点的示意图;
图5A示出了根据本发明一示例性实施例的如何基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜的流程图;
图5B示出了根据本发明一示例性实施例的外部轮廓的最小外接矩形的示意图;
图6A示出了根据本发明一示例性实施例的如何基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数的流程图;
图6B示出了根据本发明一示例性实施例的预设定位点的Y轴坐标的示意图;
图7A示出了根据本发明又一示例性实施例的如何基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数的流程图;
图7B示出了根据本发明一示例性实施例的文本行的外部轮廓的上下边界之间的差值的示意图;
图8A示出了根据本发明另一示例性实施例的如何基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数的流程图;
图8B示出了根据本发明一示例性实施例的文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标之间的差值的示意图;
图9示出了根据本发明一示例性实施例的如何基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的流程图;
图10示出了根据本发明一示例性实施例的如何基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的流程图;
图11A示出了根据本发明一示例性实施例的如何将所述第一文本行的像素复制至预先创建的目标文本图像中的流程图;
图11B示出了根据本发明一示例性实施例的将所述第一文本行的像素复制到目标文本图像中的示意图;
图12示出了根据本发明一示例性实施例的如何确定所述矫正文本行的行距的流程图;
图13示出了根据本发明一示例性实施例的文本矫正装置的结构框图;
图14示出了根据本发明另一示例性实施例的文本矫正装置的结构框图;
图15示出了根据本发明一示例性实施例的电子设备的结构框图。
具体实施方式
以下将结合附图所示的具体实施例对本发明进行详细描述。但这些实施例并不限制本发明,本领域的普通技术人员根据这些实施例所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二等来描述各种结构,但这些结构不应限于这些术语。这些术语仅用来将同一类型的结构彼此区分开。
图1A示出了根据本发明的一示例性实施例的文本矫正方法的流程图。本实施例的方法可以应用于具有文本处理功能的电子设备(如,智能手机、平板电脑、笔记本电脑或台式计算机等)。如图1A所示,该方法包括以下步骤S101-S104:
在步骤S101中,获取待矫正的原始文本图像。
本实施例中,当电子设备需要对原始文本图像中的文本行进行矫正时,可以获取待矫正的原始文本图像。
其中,该原始文本图像中包含至少一个文本行,而文本行为以行划分的文本数据。
在一实施例中,上述原始文本图像可以包括基于照相机或扫描仪等图像获取设备拍摄相关文件(如,书本、报刊等)中的文本所得到的文本图像。而由于拍摄对象变形,如书本弯曲或页面褶皱等原因,或者由于图像获取设备与拍摄对象拍摄角度不完全水平等原因,会导致拍摄的文本图像中的水平文本行发生弯曲,而弯曲文本行会为后续基于字符分割算法或基于序列识别的深度学习算法进行文本识别带来困难,导致文本识别错误率上升。因而本实施例中可以在获取待矫正的原始文本图像后,执行后续对该原始文本图像中的文本行进行矫正的流程,以使原始文本图像中的弯曲文本恢复为水平文本行。
在步骤S102中,对每个所述文本行添加掩膜。
本实施例中,当获取待矫正的原始文本图像后,可以对每个所述文本行添加掩膜。
值得说明的是,上述掩膜的类型可以基于实际业务需要进行设置。示例性地,上述掩膜可以为热力图(heat map)。
图1B示出了根据本发明一示例性实施例的原始文本图像中每个文本行的热力图的示意图;如图1B所示,当得到原始文本图像100后,可以获取文本图像200中所示的每个文本行的热力图。
该热力图可以用于以特殊高亮的形式显示在原始文本图像中的文本行上。举例来说,当获取待矫正的原始文本图像后,可以将该原始文本图像输入至预先训练的基于分割的文本检测模型(如,DBNet模型)中,进而可以基于模型中的卷积神经网络提取原始文本图像的特征,进而输出文本行所在区域的热力图,如此即可得到显示在原始文本图像中的文本行上的热力图。
在步骤S103中,响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
本实施例中,当对每个所述文本行添加掩膜后,可以检测每个所述文本行的掩膜是否为弯曲的掩膜;如果检测到其中某个文本行(以下称为第一文本行)的掩膜为弯曲的掩膜,则可以将该第一文本行视为待矫正的弯曲文本行,进而可以对该第一文本行进行矫正。
举例来说,当对每个所述文本行添加掩膜后,可以检测每个所述文本行的掩膜的轮廓是否弯曲,进而在检测到第一文本行的掩膜的轮廓为弯曲的情况下,可以将该第一文本行视为待矫正的弯曲文本行。可以理解的是,文本行的掩膜的轮廓可以反映该文本行的外部轮廓的特征,因而可以通过检测文本行的掩膜的轮廓来确定所述文本行是否为弯曲文本行。在另一实施例中,上述对所述第一文本行进行矫正的方式可以参见下述图2所示实施例;而上述检测第一文本行的掩膜是否为弯曲的掩膜的方式还可以参见下述图3所示实施例,在此先不进行详述。
由上述描述可知,本实施例的方法通过获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据,并对每个所述文本行添加掩膜,进而响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正,可以解决原始文本图像中文本行弯曲的问题,确保矫正后的文本行不再弯曲,有利于后续基于字符分割算法或基于序列识别的深度学习算法进行文本识别,进而提高文本识别的准确性,并且相对于相关技术中基于文本页面的整体特性只能解决文本页面全局倾斜或全局弯曲的技术方案,本发明的技术方案可以实现以文本行为单位的文本矫正,可以进一步提升文本矫正的质量。
图2示出了根据本发明一示例性实施例的如何对所述第一文本行进行矫正的流程图;本实施例在上述实施例的基础上以如何对所述第一文本行进行矫正为例进行示例性说明。如图2所示,上述步骤S103中所述的对所述第一文本行进行矫正,可以包括以下步骤S201-S202:
在步骤S201中,基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数。
本实施例中,当检测到第一文本行的掩膜为弯曲的掩膜后,可以基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数。
其中,上述第一文本行的外部轮廓参数可以包括该第一文本行的外部轮廓上的预设定位点在原始文本图像中的的纵坐标(即,坐标系Y轴坐标)、平均轮廓高度以及轮廓上边边界上每个点的纵坐标与轮廓上最高点的纵坐标之差中的至少一种。示例性地,上述坐标系包括互相垂直的X轴和Y轴,其中:X轴方向对应于所述原始文本图像的水平方向,坐标系的Y轴方向对应于所述原始文本图像的竖直方向,而坐标系的原点可以设置为所述原始文本图像的左上角顶点。
在步骤S202中,基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行。
本实施例中,当基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数后,可以基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行。其中,所述目标文本图像为基于所述原始文本图像新建的空白文本图像。
举例来说,当检测到第一文本行的掩膜为弯曲的掩膜后,可以基于原始文本图像新建一空白文本图像,并作为用于映射原始文本图像中第一文本行的目标文本图像。示例性地,该空白文本图像的尺寸可以与原始文本图像的尺寸相同,便于将矫正后的第一文本行的像素复制到该空白文本图像中。进一步地,可以基于上述外部轮廓参数,将所述第一文本行的像素复制至该目标文本图像中。
在另一实施例中,响应于检测到第二文本行的掩膜为不弯曲的掩膜,将所述第二文本行复制到所述目标文本图像中。
也即是说,当检测到原始文本图像中的第二文本行的掩膜为不弯曲的掩膜时,可以不对该第二文本行进行矫正,而是直接将该第二文本行复制到所述目标文本图像中的相应位置。
由上述描述可知,本实施例通过基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,并基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,可以实现对所述第一文本行进行矫正,可以解决原始文本图像中文本行弯曲的问题,确保矫正后的文本行不再弯曲,有利于后续基于字符分割算法或基于序列识别的深度学习算法进行文本识别,进而提高文本识别的准确性。
图3示出了根据本发明一示例性实施例的如何检测第一文本行的掩膜为弯曲的掩膜的流程图;如图3所示,本实施例在上述实施例的基础上,还可以包括基于以下步骤S301-S302检测第一文本行的掩膜为弯曲的掩膜:
在步骤S301中,基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标。
本实施例中,当对每个所述文本行添加掩膜后,可以基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标。
举例来说,当对第一文本行添加掩膜后,可以基于相关技术中的图像处理方法获取该掩膜中各点的坐标,进而可以从这些点的坐标中筛选出对应于第一文本行的外部轮廓上的点的坐标。示例性的,可以基于掩膜的边界(如,上边界、下边界、左边界和/或右边界等)上的点的坐标确定上述第一文本行的外部轮廓上的点的坐标。
在步骤S302中,基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜。
本实施例中,当基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标后,可以基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜。
可以理解的是,外部轮廓上的点的坐标可以反映该第一文本行的掩膜的特征,因而可以基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜。在另一实施例中,上述基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜的方式还可以参见下述图4A或图5A所示实施例,在此先不进行详述。
图4A示出了根据本发明一示例性实施例的如何基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜的示意图;本实施例在上述实施例的基础上以如何基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜为例进行示例性说明。如图4A所示,上述步骤S302中所述基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,还可以包括以下步骤S401-S403:
在步骤S401中,沿X轴方向从所述外部轮廓上的点的坐标中获取预设数量的采样点的坐标。
图4B示出了根据本发明一示例性实施例的在外部轮廓上获取预设数量的采样点的示意图;如图4B所示,当基于所述热力图轮廓检测所述文本行的外部轮廓上的点的坐标后,可以沿坐标系的X轴方向从该外部轮廓上的点的坐标中获取预设数量的采样点的坐标(即,图4B中箭头所指位置的点的坐标)。其中,该预设数量可以基于实际需要进行设置,如设置5个等,本实施例对此不进行限定。
在一实施例中,为了确保上述获取的预设数量的采样点的坐标能准确地体现文本行的外部轮廓的特点,可以从上述外部轮廓上的点中均匀地选取预设数量的采样点(即确保所选择的采样点是均匀分布在上述外部轮廓上的,而非集中分布在外部轮廓的局部区域),并获取采样点的坐标。
在一实施例中,上述坐标系的X轴方向对应于所述原始文本图像的水平方向,坐标系的Y轴方向对应于所述原始文本图像的竖直方向,而坐标系的原点可以为所述原始文本图像的左上角顶点。
在步骤S402中,基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率。
本实施例中,当沿X轴方向从所述外部轮廓上的点的坐标中获取预设数量的采样点的坐标后,可以基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率。
举例来说,当获取上述预设数量的采样点的坐标后,可以基于相关技术中的斜率计算公式确定每相邻两个采样点之间连线的斜率。例如,对于相邻两个采样点的坐标(x1,y1)和(x2,y2),该两采样点之间连线的斜率k的计算公式可以参见下式(1):
k=(y1-y2)/(x1-x2)。 (1)
在步骤S403中,响应于所述斜率的导数大于或等于设定导数阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
本实施例中,当基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率后,可以计算该斜率的导数,然后将该导数与设定的导数阈值进行比较。其中,斜率的导数体现的是斜率的变化率。该导数越大则越表示该文本行越弯曲,在此基础上,可以在该导数大于或等于设定导数阈值时,确定所述第一文本行的掩膜为弯曲的掩膜。
由上述描述可知,本实施例通过沿X轴方向从所述外部轮廓上的点的坐标中获取预设数量的采样点的坐标,并基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率,进而当所述斜率的导数大于或等于设定导数阈值时确定所述第一文本行的掩膜为弯曲的掩膜,可以实现基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,进而可以为后续响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正奠定准确的基础。
图5A示出了根据本发明又一示例性实施例的如何基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜的示意图;本实施例在上述实施例的基础上以如何基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜为例进行示例性说明。如图5A所示,上述步骤S302中所述基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,还可以包括以下步骤S501-S503:
在步骤S501中,基于所述外部轮廓上的点的坐标确定所述外部轮廓的最小外接矩形。
图5B示出了根据本发明一示例性实施例的外部轮廓的最小外接矩形的示意图;如图5B所示,当基于所述热力图轮廓检测所述文本行的外部轮廓上的点的坐标后,可以基于该外部轮廓上的点的坐标确定该外部轮廓的最小外接矩形。
其中,外部轮廓的最小外接矩形指的是可以将外部轮廓的所有坐标包围的、且面积最小的矩形。上述最小外接矩形的确定方式可以参见相关技术中的技术方案,本实施例对此不进行限定。举例来说,可以在原始文本图像中获取上述外部轮廓的最左边、上边、右边、下边四个点;然后,根据该4个点确定一个候选矩形;再将原始文本图像中的上述外部轮廓旋转预设角度,再次获取该外部轮廓的最左边、上边、右边、下边四个点,以根据该4个点再确定一个候选矩形;重复该过程,直到上述外部轮廓旋转至原来的位置,进而可以将所有候选矩形中面积最小的一个确定为外部轮廓的最小外接矩形。
在步骤S502中,计算所述外部轮廓所包围区域的面积与所述最小外接矩形的面积的比值。
本实施例中,当基于所述外部轮廓上的点的坐标确定所述外部轮廓的最小外接矩形后,可以计算上述外部轮廓所包围区域的面积以及上述确定的最小外接矩形的面积,进而可以计算二者的比值。
其中,上述外部轮廓所包围区域的面积以及最小外接矩形的面积的计算方式可以参见相关技术中的解释和说明,本实施例对此不进行限定。
在步骤S503中,响应于所述比值小于或等于设定比值阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
本实施例中,比值越小,则说明文本行越弯曲。进一步的,当计算所述外部轮廓所包围区域的面积与所述最小外接矩形的面积的比值后,可以将该比值与设定比值阈值进行比较,进而可以当该比值小于或等于设定比值阈值时,确定上述文本行为弯曲文本行。
其中,上述设定比值阈值的实际数值可以基于实际需要进行设置,如设置为0.7等,本实施例对此不进行限定。
由上述描述可知,本实施例通过基于所述外部轮廓上的点的坐标确定所述外部轮廓的最小外接矩形,并计算所述外部轮廓所包围区域的面积与所述最小外接矩形的面积的比值,进而响应于所述比值小于或等于设定比值阈值,确定所述第一文本行的掩膜为弯曲的掩膜,可以实现基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,进而可以为后续响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正奠定准确的基础。
图6A示出了根据本发明一示例性实施例的如何基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数的流程图;如图6A所示,上述步骤S201中所述的基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,可以包括以下步骤S601-S603:
在步骤S601中,基于所述掩膜的轮廓确定所述第一文本行的外部轮廓上每个点与坐标系原点之间的距离。
其中,上述距离的类型可以基于实际需要进行设置,如设置为欧式距离,本实施例对此不进行限定。
在步骤S602中,基于所述距离确定所述外部轮廓上的预设定位点。
在一实施例中,上述预设定位点可以直接选为文本行的外部轮廓的左上角顶点。
在又一实施例中,上述预设定位点也可以基于文本行的对齐方式进行确定。
举例来说,若上述对齐方式为左对齐方式,则上述预设定位点可以选为文本行的外部轮廓的左上角顶点;而若上述对齐方式为右对齐方式,则上述预设定位点可以选为文本行的外部轮廓的右上角顶点;而若上述对齐方式为居中对齐方式,则上述预设定位点可以选为文本行的外部轮廓上边的中点。
以上述预设定位点为文本行的外部轮廓的左上角顶点为例,图6B示出了根据本发明一示例性实施例的预设定位点的Y轴坐标的示意图。如图6B所示,当确定所述弯曲文本行的外部轮廓上每个点与坐标系原点之间的距离后,可以将上述外部轮廓上与坐标系原点之间的距离最小的点确定为预设定位点(即,图6B所述每个文本行轮廓的左上角顶点)。
在步骤S603中,将所述预设定位点的Y轴坐标确定为所述第一文本行的外部轮廓参数。
本实施例中,当基于所述距离确定所述外部轮廓上的预设定位点后,可以将所述预设定位点的Y轴坐标(即,图6B中箭头所示方向上的坐标)确定为所述第一文本行的外部轮廓参数。
在此基础上,对所述第一文本行进行矫正,可以包括:
基于所述预设定位点的Y轴坐标对所述矫正文本行进行平移对齐。
由上述描述可知,本实施例通过基于所述掩膜的轮廓确定所述第一文本行的外部轮廓上每个点与坐标系原点之间的距离,并基于所述距离确定所述外部轮廓上的预设定位点,进而将所述预设定位点的Y轴坐标确定为所述第一文本行的外部轮廓参数,可以实现后续基于所述预设定位点的Y轴坐标对所述矫正文本行进行平移对齐,可以实现以文本行为单位的文本矫正,提升文本矫正的质量。
图7A示出了根据本发明又一示例性实施例的如何基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数的流程图;如图7A所示,上述步骤S201中所述的基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,可以包括以下步骤S701-S703:
在步骤S701中,基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上下边界之间的差值。
图7B示出了根据本发明一示例性实施例的文本行的外部轮廓的上下边界之间的差值的示意图;本实施例中仍以掩膜为热力图为例进行说明。如图7B所示,本实施例中可以基于所述热力图轮廓检测所述第一文本行的外部轮廓上的点的坐标,进而基于该坐标确定所述外部轮廓的上边界与下边界之间的差值(即,图7B中箭头所指方向上的点的坐标差值)。
在步骤S702中,基于所述差值确定所述外部轮廓的平均轮廓高度。
本实施例中,当基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上下边界之间的差值后,可以基于所述差值确定所述外部轮廓的平均轮廓高度h_mean。
在步骤S703中,将所述平均轮廓高度确定为所述第一文本行的外部轮廓参数。
本实施例中,当基于所述差值确定所述外部轮廓的平均轮廓高度后,可以将所述平均轮廓高度确定为所述第一文本行的外部轮廓参数。
在此基础上,对所述第一文本行进行矫正,可以包括:
基于所述平均轮廓高度确定所述矫正文本行的轮廓高度。
由上述描述可知,本实施例通过基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上下边界之间的差值,并基于所述差值确定所述外部轮廓的平均轮廓高度,进而将所述平均轮廓高度确定为所述第一文本行的外部轮廓参数,可以实现后续基于所述平均轮廓高度确定所述矫正文本行的轮廓高度,可以确保在目标文本图像中形成的对应于所述弯曲文本行的矫正文本行的轮廓高度符合需求。
图8A示出了根据本发明另一示例性实施例的如何基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数的流程图;如图7A所示,上述步骤S201中所述基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,还可以包括以下步骤S801-S802:
在步骤S801中,基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标。
本实施例中,可以基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标,然后基于该坐标确定所述外部轮廓的上边界上最高点的Y轴坐标,进而可以确定所述外部轮廓的上边界上每个点的Y轴坐标与所述外部轮廓的最高点的Y轴坐标之间的差值h_diff。
在步骤S802中,将所述每个点的Y轴坐标与所述最高点的Y轴坐标之间的差值确定为所述第一文本行的外部轮廓参数。
图8B示出了根据本发明一示例性实施例的文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标之间的差值的示意图;如图8B所示,当基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标后,可以确定所述每个点的Y轴坐标与所述最高点的Y轴坐标之间的差值(即,图8B中箭头所指方向上的点的坐标差值),进而可以将该差值确定为所述第一文本行的外部轮廓参数。
在此基础上,对所述第一文本行进行矫正,可以包括:
基于所述外部轮廓的上边界上每个点的Y轴坐标以及所述差值,确定所述矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标。
举例来说,当确定外部轮廓的上边界上第i个点的Y轴坐标yi以及相应的差值h_diffi,则可以基于下式(2)确定上述矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标y’i
y’i=yi-h_diffi; (2)
由上述描述可知,本实施例通过基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标,并将所述每个点的Y轴坐标与所述最高点的Y轴坐标之间的差值确定为所述第一文本行的外部轮廓参数,进而可以基于所述差值确定所述矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标,可以实现以文本行为单位的文本矫正,提升文本矫正的质量。
图9示出了根据本发明一示例性实施例的如何基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的流程图;如图9所示,上述步骤S202中所述的基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,可以包括以下步骤S901-S902:
在步骤S901中,基于所述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数。
本实施例中,当基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数后,可以基于所述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数。
举例来说,可以基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,如以下(1)~(3)中至少一种:
(1)所述第一文本行的外部轮廓上的预设定位点的Y轴坐标;
(2)所述第一文本行的外部轮廓的平均轮廓高度;
(3)所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标与所述边界上的最高点的Y轴坐标之间的差值。
进而,可以基于上述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数。
例如,当所述外部轮廓参数包括所述预设定位点的Y轴坐标时,可以基于该参数确定用于对所述目标文本图像中的矫正文本行进行平移对齐的参数;
而当所述外部轮廓参数包括所述平均轮廓高度时,可以基于该参数确定用于计算所述目标文本图像中的矫正文本行的轮廓高度的参数;
而当所述外部轮廓参数包括所述差值时,可以基于该参数确定用于计算所述目标文本图像中的矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标的参数。
在步骤S902中,基于所述像素坐标调整参数和所述第一文本行的像素的坐标,将所述第一文本行的像素复制至所述目标文本图像中。
本实施例中,当基于所述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数后,可以基于所述像素坐标调整参数和所述第一文本行的像素的坐标,将所述第一文本行的像素复制至所述目标文本图像中。
例如,当确定上述用于对所述目标文本图像中的矫正文本行进行平移对齐的参数、用于计算所述目标文本图像中的矫正文本行的轮廓高度的参数以及用于计算所述目标文本图像中的矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标的参数后,可以基于这些参数和第一文本行的像素的坐标,将所述第一文本行的像素复制至所述目标文本图像中。
图10示出了根据本发明一示例性实施例的如何基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的流程图;如图10所示,上述步骤S202中所述的基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,可以包括以下步骤S1001-S1002:
在步骤S1001中,基于所述外部轮廓参数,在所述目标文本图像中形成对应于所述弯曲文本行的矫正文本行轮廓。
本实施例中,当基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数后,可以基于所述外部轮廓参数,在所述目标文本图像中形成对应于所述弯曲文本行的矫正文本行轮廓。其中,矫正文本行轮廓的形状为矩形。
举例来说,当基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数后,可以先对该外部轮廓参数进行矫正,以使矫正后的外部轮廓参数对应的文本行轮廓的形状为矩形,进而基于该矫正后的外部轮廓参数,在所述目标文本图像中形成矫正文本行轮廓,因而可以确保矫正文本行轮廓的形状也为矩形。
在步骤S1002中,基于预先确定的所述原始文本图像中第一文本行的像素与所述目标文本图像中矫正文本行的轮廓的映射关系,将所述第一文本行的像素复制至所述矫正文本行的轮廓所包围区域中。
本实施例中,当基于所述外部轮廓参数,在所述目标文本图像中形成对应于所述弯曲文本行的矫正文本行轮廓后,即可基于预先确定的所述原始文本图像中第一文本行的像素与所述目标文本图像中矫正文本行的轮廓的映射关系,将所述第一文本行的像素复制至所述矫正文本行的轮廓所包围区域中。
图11A示出了根据本发明一示例性实施例的如何将所述第一文本行的像素复制至预先创建的目标文本图像中的流程图;如图11A所示,本实施例在图2所示实施例的基础上,还包括基于以下步骤S1101-S1102执行所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的操作:
在步骤S1101中,基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标。
本实施例中,当对每个所述文本行添加掩膜后,可以基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标。
举例来说,当对第一文本行添加掩膜后,可以基于相关技术中的图像处理方法获取该掩膜中各点的坐标,进而可以从这些点的坐标中筛选出对应于第一文本行的外部轮廓上的点的坐标。示例性的,可以基于掩膜的边界(如,上边界、下边界、左边界和/或右边界等)上的点的坐标确定上述第一文本行的外部轮廓上的点的坐标。
在步骤S1102中,以所述外部轮廓的最左点的X轴坐标及最高点的Y轴坐标为基点,执行所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的操作。
本实施例中,当基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标后,可以以所述外部轮廓的最左点的X轴坐标及最高点的Y轴坐标为基点,执行上述步骤S202中所述的基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的操作。
图11B示出了根据本发明一示例性实施例的将所述第一文本行的像素复制到目标文本图像中的示意图;如图11B所示,当基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标后,可以以第一文本行的最左点(即,图11B中原始文本图像400的每个弯曲文本行的外部轮廓左边界上X坐标最小的点)的X坐标以及最高点(即,图11B中原始文本图像400的每个弯曲文本行的外部轮廓上边界上Y坐标最小的点)的Y轴坐标为基点,将上述第一文本行的像素复制到图11B中目标文本图像500中,例如复制到目标文本图像500中相应矫正文本行的轮廓所包围区域中。
由上述描述可知,本实施例通过基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标,并以所述外部轮廓的最左点的X轴坐标及最高点的Y轴坐标为基点,将所述第一文本行的像素映射到所述目标文本图像中,可以实现基于预先确定的所述原始文本图像与所述目标文本图像中文本行的映射关系,将所述第一文本行的像素映射至所述目标文本图像中,从而实现对弯曲文本行的矫正,可以实现以文本行为单位的文本矫正,进而提升文本矫正的质量。
图12示出了根据本发明一示例性实施例的如何确定所述矫正文本行的行距的流程图;本实施例在上述实施例的基础上,还包括基于以下步骤S1201-S1202确定所述矫正文本行的行距:
在步骤S1201中,基于预设的文本识别方式,获取所述第一文本行的预设行距。
本实施例中,在基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中时,还可以基于预设的文本识别方式,获取所述第一文本行的预设行距。
其中,上述第一文本行的预设行距的文本识别方式可以参见相关技术中的技术方案,例如可以将上述原始文本图像输入至预先训练的用于进行行距检测的卷积神经网络模型,进而可以基于该模型提取原始文本图像中上述第一文本行的特征,进而输出该第一文本行的行距。
在步骤S1202中,基于所述预设行距确定所述矫正文本行的行距。
本实施例中,当获取所述第一文本行的预设行距后,可以基于所述预设行距确定所述矫正文本行的行距。
举例来说,当获取上述第一文本行的预设行距h0后,若第j个矫正文本行的轮廓的预设定位点的Y轴坐标为yj1,且该矫正文本行的轮廓高度为hj,则第j+1个矫正文本行的轮廓的预设定位点的Y轴坐标yj+1,1的计算公式可以如下式(3)所示:
yj+1,1=yj1+hj+h0; (3)
由上述描述可知,本实施例通过获取所述第一文本行的预设行距,并基于所述预设行距确定所述矫正文本行的行距,可以实现准确的确定目标文本图像中与所述第一文本行对应的矫正文本行的行距,从而可以确保目标文本图像中文本行的行距与原始文本图像中文本行的行距相同,符合文本矫正质量的要求。
图13示出了根据本发明一示例性实施例的文本矫正装置的结构框图;本实施例的装置可以应用于具有文本处理功能的电子设备(如,智能手机、平板电脑、笔记本电脑或台式计算机等)。如图13所示,该装置包括:图像获取模块110、掩膜添加模块120以及文本矫正模块130,其中:
图像获取模块110,用于获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
掩膜添加模块120,用于对每个所述文本行添加掩膜;
文本矫正模块130,用于响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正;
由上述描述可知,本实施例的装置通过获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据,并对每个所述文本行添加掩膜,进而响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正,可以解决原始文本图像中文本行弯曲的问题,确保矫正后的文本行不再弯曲,有利于后续基于字符分割算法或基于序列识别的深度学习算法进行文本识别,进而提高文本识别的准确性,并且相对于相关技术中基于文本页面的整体特性只能解决文本页面全局倾斜或全局弯曲的技术方案,本发明的技术方案可以实现以文本行为单位的文本矫正,可以进一步提升文本矫正的质量。
图14示出了根据本发明另一示例性实施例的文本矫正装置的结构框图;本实施例的装置可以应用于具有文本处理功能的电子设备(如,智能手机、平板电脑、笔记本电脑或台式计算机等)。其中,图像获取模块210、掩膜添加模块220以及文本矫正模块230与前述图13所示实施例中的图像获取模块110、掩膜添加模块120以及文本矫正模块130的功能相同,在此不进行赘述。如图14所示,文本矫正模块230,包括:
参数确定单元231,用于基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数;
文本矫正单元232,用于基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,所述目标文本图像为基于所述原始文本图像新建的空白文本图像。
在一实施例中,掩膜添加模块220还用于将所述原始文本图像输入至预先训练的文本检测模型中,得到掩膜文本图像,所述掩膜文本图像中的每个文本行上具有掩膜。
在一实施例中,上述装置还可以包括弯曲掩膜检测模块240;
弯曲掩膜检测模块240,可以包括:
轮廓坐标检测单元241,用于基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
弯曲掩膜检测单元242,用于基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,弯曲掩膜检测单元242还用于:
沿X轴方向从所述外部轮廓中获取预设数量的采样点,其中,所述采样点均为所述外部轮廓的上边缘点,或者,所述采样点均为所述外部轮廓的下边缘点;
基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率;
响应于所述斜率的导数大于或等于设定导数阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,弯曲掩膜检测单元242还用于:
基于所述外部轮廓上的点的坐标确定所述外部轮廓的最小外接矩形;
计算所述外部轮廓所包围区域的面积与所述最小外接矩形的面积的比值;
响应于所述比值小于或等于设定比值阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
在一实施例中,参数确定单元231还用于:
基于所述掩膜的轮廓确定所述第一文本行的外部轮廓上每个点与坐标系原点之间的距离;
基于所述距离确定所述外部轮廓上的预设定位点;
将所述预设定位点的Y轴坐标确定为所述第一文本行的外部轮廓参数。
在一实施例中,参数确定单元231还用于:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上下边界之间的差值;
基于所述差值确定所述外部轮廓的平均轮廓高度;
将所述平均轮廓高度确定为所述第一文本行的外部轮廓参数。
在一实施例中,参数确定单元231还用于:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标;
将所述每个点的Y轴坐标与所述最高点的Y轴坐标之间的差值确定为所述第一文本行的外部轮廓参数。
在一实施例中,文本矫正单元232还用于:
基于所述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数;
基于所述像素坐标调整参数和所述第一文本行的像素的坐标,将所述第一文本行的像素复制至所述目标文本图像中。
在一实施例中,文本矫正单元232还用于:
基于所述外部轮廓参数,在所述目标文本图像中形成对应于所述弯曲文本行的矫正文本行轮廓;
基于预先确定的所述原始文本图像中第一文本行的像素与所述目标文本图像中矫正文本行的轮廓的映射关系,将所述第一文本行的像素复制至所述矫正文本行的轮廓所包围区域中。
在一实施例中,文本矫正模块230还包括:
轮廓坐标检测单元233,用于基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
文本矫正单元232还用于以所述外部轮廓的最左点的X轴坐标及最高点的Y轴坐标为基点,执行所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的操作。
在一实施例中,所述装置还可以包括:行距确定模块250;
行距确定模块250,可以包括:
预设行距获取单元251,用于基于预设的文本识别方式,获取所述第一文本行的预设行距;
文本行距确定单元252,用于基于所述预设行距确定所述矫正文本行的行距。
在一实施例中,上述外部轮廓参数可以包括以下至少一种:
所述第一文本行的外部轮廓上的预设定位点的Y轴坐标;
所述第一文本行的外部轮廓的平均轮廓高度;
所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标与所述边界上的最高点的Y轴坐标之间的差值。
在一实施例中,当所述外部轮廓参数包括所述预设定位点的Y轴坐标时,文本矫正单元232还用于基于所述预设定位点的Y轴坐标对所述矫正文本行进行平移对齐;
当所述外部轮廓参数包括所述平均轮廓高度时,文本矫正单元232还用于基于所述平均轮廓高度确定所述矫正文本行的轮廓高度;
当所述外部轮廓参数包括所述差值时,文本矫正单元232还用于基于所述差值确定所述矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标。
在一实施例中,所述装置还包括:
文本复制模块260,用于响应于检测到第二文本行的掩膜为不弯曲的掩膜,将所述第二文本行复制到所述目标文本图像中。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明文本矫正装置的实施例可以应用在电子设备上,装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图15所示,为本发明的文本矫正装置所在电子设备的一种硬件结构图,除了图15所示的处理器、网络接口、内存以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器处理时实现:
获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
对每个所述文本行添加掩膜;
响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由本发明的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (19)

1.一种文本矫正方法,其特征在于,包括:
获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
对每个所述文本行添加掩膜;
响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一文本行进行矫正,包括:
基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数;
基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,所述目标文本图像为基于所述原始文本图像新建的空白文本图像。
3.根据权利要求1所述的方法,其特征在于,所述对每个所述文本行添加掩膜,包括:
将所述原始文本图像输入至预先训练的文本检测模型中,得到掩膜文本图像,所述掩膜文本图像中的每个文本行上具有掩膜。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括基于以下方式检测第一文本行的掩膜为弯曲的掩膜:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜。
5.根据权利要求4所述的方法,其特征在于,所述基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,包括:
沿X轴方向从所述外部轮廓中获取预设数量的采样点,其中,所述采样点均为所述外部轮廓的上边缘点,或者,所述采样点均为所述外部轮廓的下边缘点;
基于所述采样点的坐标计算相邻两个所述采样点之间连线的斜率;
响应于所述斜率的导数大于或等于设定导数阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
6.根据权利要求4所述的方法,其特征在于,所述基于所述外部轮廓上的点的坐标确定所述第一文本行的掩膜为弯曲的掩膜,包括:
基于所述外部轮廓上的点的坐标确定所述外部轮廓的最小外接矩形;
计算所述外部轮廓所包围区域的面积与所述最小外接矩形的面积的比值;
响应于所述比值小于或等于设定比值阈值,确定所述第一文本行的掩膜为弯曲的掩膜。
7.根据权利要求2所述的方法,其特征在于,所述基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,包括:
基于所述掩膜的轮廓确定所述第一文本行的外部轮廓上每个点与坐标系原点之间的距离;
基于所述距离确定所述外部轮廓上的预设定位点;
将所述预设定位点的Y轴坐标确定为所述第一文本行的外部轮廓参数。
8.根据权利要求2所述的方法,其特征在于,所述基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,包括:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上下边界之间的差值;
基于所述差值确定所述外部轮廓的平均轮廓高度;
将所述平均轮廓高度确定为所述第一文本行的外部轮廓参数。
9.根据权利要求2所述的方法,其特征在于,所述基于所述第一文本行的掩膜确定所述第一文本行的外部轮廓参数,包括:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标及最高点的Y轴坐标;
将所述每个点的Y轴坐标与所述最高点的Y轴坐标之间的差值确定为所述第一文本行的外部轮廓参数。
10.根据权利要求2所述的方法,其特征在于,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,包括:
基于所述外部轮廓参数确定用于将所述第一文本行的像素复制至所述目标文本图像中的像素坐标调整参数;
基于所述像素坐标调整参数和所述第一文本行的像素的坐标,将所述第一文本行的像素复制至所述目标文本图像中。
11.根据权利要求2所述的方法,其特征在于,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,包括:
基于所述外部轮廓参数,在所述目标文本图像中形成对应于所述弯曲文本行的矫正文本行轮廓;
基于预先确定的所述原始文本图像中第一文本行的像素与所述目标文本图像中矫正文本行的轮廓的映射关系,将所述第一文本行的像素复制至所述矫正文本行的轮廓所包围区域中。
12.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述掩膜的轮廓检测所述第一文本行的外部轮廓上的点的坐标;
以所述外部轮廓的最左点的X轴坐标及最高点的Y轴坐标为基点,执行所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中的操作。
13.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于预设的文本识别方式,获取所述第一文本行的预设行距;
基于所述预设行距确定所述矫正文本行的行距。
14.根据权利要求2所述的方法,其特征在于,所述外部轮廓参数包括以下至少一种:
所述第一文本行的外部轮廓上的预设定位点的Y轴坐标;
所述第一文本行的外部轮廓的平均轮廓高度;
所述第一文本行的外部轮廓的上边界上每个点的Y轴坐标与所述边界上的最高点的Y轴坐标之间的差值。
15.根据权利要求14所述的方法,其特征在于,当所述外部轮廓参数包括所述预设定位点的Y轴坐标时,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,包括:
基于所述预设定位点的Y轴坐标对所述矫正文本行进行平移对齐;
当所述外部轮廓参数包括所述平均轮廓高度时,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,包括:
基于所述平均轮廓高度确定所述矫正文本行的轮廓高度;
当所述外部轮廓参数包括所述差值时,所述基于所述外部轮廓参数将所述第一文本行的像素复制至预先创建的目标文本图像中,得到与所述第一文本行对应的矫正文本行,包括:
基于所述差值确定所述矫正文本行的轮廓上对应于所述每个点的映射点的Y轴坐标。
16.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于检测到第二文本行的掩膜为不弯曲的掩膜,将所述第二文本行复制到所述目标文本图像中。
17.一种文本矫正装置,其特征在于,包括:
图像获取模块,用于获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
掩膜添加模块,用于对每个所述文本行添加掩膜;
文本矫正模块,用于响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
18.一种电子设备,其特征在于,所述电子设备包括:
处理器,以及用于存储计算机程序的存储器;
其中,所述处理器被配置为在执行所述计算机程序时实现:
获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
对每个所述文本行添加掩膜;
响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器处理时实现:
获取待矫正的原始文本图像,所述原始文本图像中包含至少一个文本行,所述文本行为以行划分的文本数据;
对每个所述文本行添加掩膜;
响应于检测到第一文本行的掩膜为弯曲的掩膜,对所述第一文本行进行矫正。
CN202111155032.5A 2021-09-29 2021-09-29 文本矫正方法、装置、设备及存储介质 Pending CN113920525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111155032.5A CN113920525A (zh) 2021-09-29 2021-09-29 文本矫正方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111155032.5A CN113920525A (zh) 2021-09-29 2021-09-29 文本矫正方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113920525A true CN113920525A (zh) 2022-01-11

Family

ID=79237104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111155032.5A Pending CN113920525A (zh) 2021-09-29 2021-09-29 文本矫正方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113920525A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030047A (zh) * 2023-03-24 2023-04-28 四川中星电子有限责任公司 一种电容器工艺过程中识别掩膜合格的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030047A (zh) * 2023-03-24 2023-04-28 四川中星电子有限责任公司 一种电容器工艺过程中识别掩膜合格的方法
CN116030047B (zh) * 2023-03-24 2023-05-30 四川中星电子有限责任公司 一种电容器工艺过程中识别掩膜合格的方法

Similar Documents

Publication Publication Date Title
EP2536122B1 (en) Image processing method, image processing device and scanner
US8285077B2 (en) Automatic correction of digital image distortion
Stamatopoulos et al. Goal-oriented rectification of camera-based document images
US7330604B2 (en) Model-based dewarping method and apparatus
US9519968B2 (en) Calibrating visual sensors using homography operators
CN106952338B (zh) 基于深度学习的三维重建的方法、系统及可读存储介质
US10909719B2 (en) Image processing method and apparatus
RU2631765C1 (ru) Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
CN105765551A (zh) 用于三维几何重建所捕获的图像数据的系统和方法
CN111401266B (zh) 绘本角点定位的方法、设备、计算机设备和可读存储介质
CN111860489A (zh) 一种证件图像校正方法、装置、设备及存储介质
CN111832371A (zh) 文本图片矫正方法、装置、电子设备及机器可读存储介质
CN112149561B (zh) 图像处理方法和装置、电子设备和存储介质
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
WO2023274090A1 (zh) 便携式电子设备的扫描方法及系统、电子设备及存储介质
JP4859061B2 (ja) 画像の補正方法、補正プログラムおよび画像歪み補正装置
CN113920525A (zh) 文本矫正方法、装置、设备及存储介质
CN111445513B (zh) 基于深度图像的植株冠层体积获取方法、装置、计算机设备和存储介质
CN108335266B (zh) 一种文档图像畸变的矫正方法
CN111832558A (zh) 文字图像矫正方法、装置、存储介质及电子设备
WO2018152710A1 (zh) 图像校正的方法及装置
JP2009146150A (ja) 特徴位置検出方法及び特徴位置検出装置
US10679049B2 (en) Identifying hand drawn tables
CN115937003A (zh) 图像处理方法、装置、终端设备和可读存储介质
CN111914764B (zh) 图像处理方法、图像处理装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination