CN110837796B

CN110837796B - 图像处理方法及装置

Info

Publication number: CN110837796B
Application number: CN201911069617.8A
Authority: CN
Inventors: 王洁; 刘设伟; 王亚领
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Online Health Technology Wuhan Co ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2022-08-19
Anticipated expiration: 2039-11-05
Also published as: CN110837796A

Abstract

本公开实施例提供了一种图像处理方法、装置、介质及电子设备，属于计算机技术领域。该图像处理方法包括：获取文本框图片及位于所述文本框图片内的文本框；延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；将所述文本框垂直投影至第二方向轴上，获得第二投影线段；对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；根据所述文本框的行号及其第二投影线段确定所述文本框的列号。本公开实施例的技术方案能够基于双向投影和行聚类的方式，确定文本框的行、列排序，提高行列排序的识别准确性。

Description

图像处理方法及装置

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种图像处理方法、装置、计算机可读介质及电子设备。

背景技术

现有的OCR(Optical Character Recognition，光学字符识别)识别系统工作流程如下：输入待识别的图像，然后进行文本行定位检测，裁剪出文本框图片，再对裁剪出的文本框图片进行字符识别，最后综合识别出的所有文本行信息，根据文本框的行、列信息进行信息结构化输出，得到最终的识别结果。

其中根据文本框的行、列信息进行信息结构化输出是整个系统处理过程中非常重要的环节。识别出所有文本行信息后，如何准确、高效地根据文本框的行、列信息进行文本信息结构化的输出，直接影响到最终的OCR信息识别结果。

对于有一定倾斜角度的OCR图片，简单根据每个文本框中心的横、纵坐标位置确定该文本框的行号、列号会引入较多误差，从而会大大降低结构化输出信息的正确率。

因此，需要一种新的图像处理方法、装置、计算机可读介质及电子设备。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种图像处理方法、装置、介质及电子设备，进而至少在一定程度上克服相关技术中存在的针对倾斜图像确定的行列号误差较大的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种图像处理方法，包括：获取文本框图片及位于所述文本框图片内的文本框；延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；将所述文本框垂直投影至第二方向轴上，获得第二投影线段；对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；根据所述文本框的行号及其第二投影线段确定所述文本框的列号。

在本公开的一种示例性实施例中，对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集，包括：根据所述文本框图片的宽度和所述文本框的顶点坐标，获得所述第一投影线段在所述第一方向轴上的第一起点坐标和第一终点坐标；根据所述第一起点坐标的大小对所述第一投影线段进行升序排列；对排列后的第一投影线段进行处理，生成所述聚类集。

在本公开的一种示例性实施例中，对排列后的第一投影线段进行处理，生成所述聚类集，包括：初始时设定所述聚类集为空，并设定一个为空的聚类列表；依次对排列后的每条第一投影线段进行如下处理：若所述聚类列表为空，则将所述第一投影线段加到所述聚类列表的末尾；若所述聚类列表不为空，且所述第一投影线段的第一起点坐标处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述第一投影线段加到所述聚类列表的末尾。

在本公开的一种示例性实施例中，依次对排列后的每条第一投影线段还进行如下处理：若所述聚类列表不为空，且所述第一投影线段的第一起点坐标不处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述聚类列表中的元素加到所述聚类集中作为一个聚类子集，并重新设定所述聚类列表为空，再将所述第一投影线段加到所述聚类列表的末尾。

在本公开的一种示例性实施例中，根据所述文本框的行号及其第二投影线段确定所述文本框的列号，包括：依次对所述聚类集中的每个聚类子集进行如下处理：获得聚类子集中各个第一投影线段对应的文本框；根据所述聚类子集的文本框的顶点坐标，获得所述聚类子集的文本框的第二投影线段在所述第二方向轴上的第二起点坐标；根据所述第二起点坐标的大小对所述聚类子集的文本框的第二投影线段进行升序排列；根据排列后的第二投影线段确定所述聚类子集的文本框的列号。

在本公开的一种示例性实施例中，获取文本框图片及位于所述文本框图片内的各个文本框，包括：获取待识别图像；定位所述待识别图像中的各个文本框；根据定位的各个文本框确定所述文本框图片。

在本公开的一种示例性实施例中，还包括：识别各个文本框中的文本信息；根据各个文本框的行号、列号及其文本信息获得所述待识别图像的识别结果。

根据本公开的一个方面，提供一种图像处理装置，包括：文本框获取模块，配置为获取文本框图片及位于所述文本框图片内的文本框；第一方向投影模块，配置为延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；第二方向投影模块，配置为将所述文本框垂直投影至第二方向轴上，获得第二投影线段；行聚类模块，配置为对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；行号确定模块，配置为根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；列号确定模块，配置为根据所述文本框的行号及其第二投影线段确定所述文本框的列号。

根据本公开的一个方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一实施例所述的图像处理方法。

根据本公开的一个方面，提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任一实施例所述的图像处理方法。

本公开实施例提供的技术方案可以包括以下有益效果：

在本公开的一些实施例所提供的技术方案中，一方面，通过获取文本框图片及位于所述文本框图片内的文本框；延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；将所述文本框垂直投影至第二方向轴上，获得第二投影线段，即采用双向投影的方式，将每个文本框的位置分别投影到第一方向轴例如纵向轴和第二方向轴例如横向轴上，其中，第一方向轴上的投影采用延长每个文本框相对两条边的方式，第二方向轴上的投影采用垂直投影的方式；另一方面，对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；根据所述第一投影线段所属的聚类子集，确定所述文本框的行号，即对第一方向轴上的第一投影线段进行聚类，确定文本框的行号；根据所述文本框的行号及其第二投影线段确定所述文本框的列号，即确定文本框的行号后，再根据其行号对其在第二方向轴上的第二投影线段进行处理，获得每个文本框的列号，最终就能够得到每个文本框对应的行号row和列号col，从而能够将本公开实施例提供的图像处理方法应用于具有一定倾斜角度的图片，对文本框进行正确的行、列编号排序，增强了文本框的行、列排序的识别准确性，可以将其应用于字符识别应用场景，增强结构化输出信息的准确性，提高识别结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的一个实施例的图像处理方法的流程图；

图2示意性示出了基于图1的步骤S110在一个实施例中的流程图；

图3示意性示出了根据本公开的一个实施例的文本框图片的示意图；

图4示意性示出了基于图1的步骤S140在一个实施例中的流程图；

图5示意性示出了应用本公开实施例提供的图像处理方法的实例示意图；

图6示意性示出了根据本公开的一个实施例的图像处理方法的流程图；

图7示意性示出了根据本公开的一个实施例的图像处理装置的框图；

图8示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示意性示出了根据本公开的一个实施例的图像处理方法的流程图，该图像处理方法的执行主体可以是具有计算处理功能的设备，如服务器和/或移动终端等，本公开对此不作限定。

如图1所示，本公开实施方式提供的图像处理方法可以包括以下步骤。

在步骤S110中，获取文本框图片及位于所述文本框图片内的文本框。

本公开实施例中，所述文本框图片是指包括定位出来的各个文本框的图片，可以是矩形图片，但本公开并不限定于此，对文本框图片的形状不进行限制。

在步骤S120中，延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段。

在下面的举例说明中，均以所述第一方向轴为纵向轴(Y轴)为例进行举例说明，但本公开并不限定于此。若所述第一方向轴为纵向轴，则所述文本框的第一边可以为所述文本框的上边，所述相对的第二边可以为所述文本框的下边，但本公开并不限定于此。

在步骤S130中，将所述文本框垂直投影至第二方向轴上，获得第二投影线段。

在下面的举例说明中，均以所述第二方向轴为横向轴(X轴)为例进行举例说明，但本公开并不限定于此。

在步骤S140中，对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集。

在步骤S150中，根据所述第一投影线段所属的聚类子集，确定所述文本框的行号。

在步骤S160中，根据所述文本框的行号及其第二投影线段确定所述文本框的列号。

本公开实施方式提供的图像处理方法，一方面，通过获取文本框图片及位于所述文本框图片内的文本框；延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；将所述文本框垂直投影至第二方向轴上，获得第二投影线段，即采用双向投影的方式，将每个文本框的位置分别投影到第一方向轴例如纵向轴和第二方向轴例如横向轴上，其中，第一方向轴上的投影采用延长每个文本框相对两条边的方式，第二方向轴上的投影采用垂直投影的方式；另一方面，对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；根据所述第一投影线段所属的聚类子集，确定所述文本框的行号，即对第一方向轴上的第一投影线段进行聚类，确定文本框的行号；根据所述文本框的行号及其第二投影线段确定所述文本框的列号，即确定文本框的行号后，再根据其行号对其在第二方向轴上的第二投影线段进行处理，获得每个文本框的列号，最终就能够得到每个文本框对应的行号row和列号col，从而能够将本公开实施例提供的图像处理方法应用于具有一定倾斜角度的图片，对文本框进行正确的行、列编号排序，增强了文本框的行、列排序的识别准确性，可以将其应用于字符识别应用场景，增强结构化输出信息的准确性，提高识别结果的准确性。

结合以下的实例对上述实施例提供的方法进行详细说明，但本公开的保护范围并不限定于例举的实例。

图2示意性示出了基于图1的步骤S110在一个实施例中的流程图。

如图2所示，上述实施例中的步骤S110可以进一步包括以下步骤。

在步骤S111中，获取待识别图像。

在示例性实施例中，所述待识别图像可以包括身份证、发票、护照、表格、费用结算单、账单、小票等任意包括待识别字符的图像，本公开对待识别图像的种类不作限定。

在步骤S112中，定位所述待识别图像中的各个文本框。

本公开实施例中，可以通过定位检测所述待识别图像中的全部文本行来确定各个文本框。当定位到各个文本框后，可以采用字符识别算法识别各个文本框中的全部文本行信息。

例如，可以采用CRNN识别算法识别各个文本框中的文本行信息，但本公开并不限定于此，其可以采用任意的可以进行文本行识别的算法。其中，CRNN由CNN(ConvolutionalNeural Network，卷积神经网络)-》RNN(Recurrent Neural Network，循环神经网络)-》CTC(Connectionist Temporal Classification，连接时序分类)三大部分架构而成，分别对应卷积层、循环层和转录层)。

在步骤S113中，根据定位的各个文本框确定所述文本框图片。

例如，可以从所述待识别图像中裁剪出包含各个文本框的所述文本框图片。

图3示意性示出了根据本公开的一个实施例的文本框图片的示意图。

如图3所示，这里以待识别图像为住院结算单为例，定位了多个文本框，例如“身份证号”、“个人性质”、“一般农户”、“年龄”、“31”、“性别”、“女性”等等。

图4示意性示出了基于图1的步骤S140在一个实施例中的流程图。

如图4所示，上述实施例中的步骤S140可以进一步包括以下步骤。

在步骤S141中，根据所述文本框图片的宽度Img_w和所述文本框的顶点坐标，获得所述第一投影线段在所述第一方向轴上的第一起点坐标和第一终点坐标。

在下面的举例说明中，以所述文本框为矩形为例，并假设其左上角顶点为第1个顶点，右上角顶点为第2个顶点，右下角顶点为第3个顶点，左下角顶点为第4个顶点为例，获得每个文本框在纵向轴Y轴上的每条第一投影线段在Y轴上的第一起点坐标和第一终点坐标，其中每条第一投影线段的第一起点坐标小于其第一终点坐标。

在步骤S142中，根据所述第一起点坐标的大小对所述第一投影线段进行升序排列。

在步骤S143中，对排列后的第一投影线段进行处理，生成所述聚类集。

在示例性实施例中，对排列后的第一投影线段进行处理，生成所述聚类集，可以包括：初始时设定所述聚类集为空，并设定一个为空的聚类列表；依次对排列后的每条第一投影线段进行如下处理：若所述聚类列表为空，则将所述第一投影线段加到所述聚类列表的末尾；若所述聚类列表不为空，且所述第一投影线段的第一起点坐标处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述第一投影线段加到所述聚类列表的末尾。

在示例性实施例中，依次对排列后的每条第一投影线段还可以进行如下处理：若所述聚类列表不为空，且所述第一投影线段的第一起点坐标不处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述聚类列表中的元素加到所述聚类集中作为一个聚类子集，并重新设定所述聚类列表为空，再将所述第一投影线段加到所述聚类列表的末尾。

在示例性实施例中，根据所述文本框的行号及其第二投影线段确定所述文本框的列号，可以包括：依次对所述聚类集中的每个聚类子集进行如下处理：获得聚类子集中各个第一投影线段对应的文本框；根据所述聚类子集的文本框的顶点坐标，获得所述聚类子集的文本框的第二投影线段在所述第二方向轴上的第二起点坐标；根据所述第二起点坐标的大小对所述聚类子集的文本框的第二投影线段进行升序排列；根据排列后的第二投影线段确定所述聚类子集的文本框的列号。

下面结合图5的实例进行说明。

图5示意性示出了应用本公开实施例提供的图像处理方法的实例示意图。这里还是以上述住院结算单识别为例，一个具体实例如下图5所示。

以矩形的文本框图片的左上角为坐标原点(0,0)，建立坐标系，包括横向轴X和纵向轴Y，假设文本框图片的宽度为Img_w，高度为Img_h。

这里以三个矩形的文本框为例进行举例说明，分别为T1、T2和T3，但本公开并不对文本框图片中包含的文本框的数量和排布形式进行限制，也不对文本框图片、文本框的形状进行限制。并假设文本框T1的左上角顶点为第1个顶点，按照顺时针方向排序，右上角顶点为第2个顶点，右下角顶点为第3个顶点，左下角顶点为第4个顶点。T2和T3的四个顶点坐标按照相应的顺序编号。

这里还假设文本框T1投影到Y轴上的第一投影线段为L1，其第一起点坐标和第一终点坐标分别为L[1].b和L[1].e；文本框T2投影到Y轴上的第一投影线段为L2，其第一起点坐标和第一终点坐标分别为L[2].b和L[2].e，L[1].b<L[2].b<L[1].e，即假设L1和L2有重叠部分；文本框T3投影到Y轴上的第一投影线段为L3，其第一起点坐标和第一终点坐标分别为L[3].b和L[3].e，L[3].b>L[1].e，即L3与L1没有重叠部分。

假设文本框T1投影到X轴上的第二投影线段的第二起点坐标和第二终点坐标分别为xb_1和xe_1；文本框T2投影到X轴上的第二投影线段的第二起点坐标和第二终点坐标分别为xb_2和xe_2，xb_1>xb_2；文本框T3投影到X轴上的第二投影线段的第二起点坐标和第二终点坐标分别为xb_3和xe_3。

如图5所示，本公开实施例提供的图像处理方法的技术原理如下：对任意两个文本框T1和T2，通过依次延长T1、T2各自的上下两边，分别得到两个文本框T1和T2在纵向轴Y轴上的第一投影线段L1和L2。

如果第一投影线段L1和L2有重合，即L1∩L2≠○，则L1和L2属于同一个聚类子集，对应的文本框T1和T2可能属于同一行(拥有相同的行号)；否则，第一投影线段L1和L2不属于同一个聚类，对应的文本框T1和T2属于不同行，拥有不相同的行号row。

对属于同一个聚类子集的T1和T2，通过垂直投影分别得到横向轴X轴上的第二投影线段(xb_1,xe_1)和(xb_2,xe_2)。

其中，如果xb_1<xb_2，则文本框T1的列号col(T1)<文本框T2的列号col(T2)；否则，文本框T1的列号col(T1)>文本框T2的列号col(T2)。

基于文本框所在文本框图片Img(文本框图片的宽和高分别为Img_w和Img_h)和定位算法得到的文本框集TS，输出文本框集TS中每个文本框T[i]的行号row和列号col。这里假设每个文本框T[i]的位置为pos[m]，其中1<＝i<＝len(TS)，len(TS)代表文本框集TS的长度，即当前文本框图片Img中包含的文本框的总个数，1<＝m<＝4，m和i均为正整数，pos[m]的类型为(x，y)，以矩形的文本框为例，则pos[1]代表当前文本框的第1个顶点的横坐标和纵坐标，pos[2]代表当前文本框的第2个顶点的横坐标和纵坐标，pos[3]代表当前文本框的第3个顶点的横坐标和纵坐标，pos[4]代表当前文本框的第4个顶点的横坐标和纵坐标，确定每个文本框的行号、列号的流程可以包括以下步骤。

第一步，依次对文本框集TS中的每个文本框T[i](1<＝i<＝len(TS))进行如下处理：

根据T[i]的上下两条边得到每个文本框T[i]在纵向轴上的第一投影线段L[i]，L[i].b和L[i].e分别表示L[i]的第一起点坐标和第一终点坐标，其中假设L[i].b<L[i].e。

令：p＝T[i].pos，T[i].pos表示第i个文本框的四个顶点坐标，即p[1].x代表第i个文本框的第1个顶点的横坐标，p[1].y代表第i个文本框的第1个顶点的纵坐标，p[2].x代表第i个文本框的第2个顶点的横坐标，p[2].y代表第i个文本框的第2个顶点的纵坐标，p[3].x代表第i个文本框的第3个顶点的横坐标，p[3].y代表第i个文本框的第3个顶点的纵坐标，p[4].x代表第i个文本框的第4个顶点的横坐标，p[4].y代表第i个文本框的第4个顶点的纵坐标；

L[i].b＝(p[2].x-p[1].x)*(Img_w-p[1].x)/(p[2].y-p[1].y)+p[1].y；

L[i].e＝(p[3].x-p[4].x)*(Img_w-p[4].x)/(p[3].y-p[4].y)+p[4].y。

即通过上述步骤可以计算获得每个文本框在纵向轴上的第一投影线段的第一起点坐标和第一终点坐标，例如图5中的L1、L2和L3的L[1].b、L[1].e；L[2].b、L[2].e；L[3].b、L[3].e。

令：L[i].idx＝i。

第二步，设定初始时聚类集CS为空，聚类列表CL为空。以L[i].b为关键字对L[i](1<＝i<＝len(TS))组成的第一投影线段的列表LL进行升序排序，依次对列表LL中的每个第一投影线段LL[i](1<＝i<＝len(TS))进行如下处理：

如果聚类列表CL为空，将LL[i]追加到CL末尾，即CL.append(LL[i])，即LL[i]作为聚类列表的最后一个元素。

否则，如果聚类列表CL不为空，且满足CL[1].b≤LL[i].b≤CL[1].e，则将LL[i]追加到CL末尾，即CL.append(LL[i])。这里的CL[1].b代表聚类列表CL中的第一个元素的第一起点坐标，CL[1].e代表聚类列表CL中的第一个元素的第一终点坐标，即这里始终是将LL[i].b与同一个聚类子集中第一起点坐标最小的即第一个第一投影线段的第一起点坐标和第一终点坐标进行比较，判断第一投影线段LL[i]是否与当前的聚类子集的第一个第一投影线段有重合。

否则，如果聚类列表CL不为空，且不满足CL[1].b<＝LL[i].b<＝CL[1].e，则将聚类列表CL中的元素全部追加到CS的末尾，即CS.append(CL)，作为聚类集CS中的最后一个聚类子集，并且重新设定聚类列表CL为空，将LL[i]追加到CL末尾。

若LL列表中无后续第一投影线段要处理，则将CL中的全部元素追加到CS的末尾，作为CS中的最后一个聚类子集。

以上步骤的目的是，利用聚类列表CL这个中间变量，聚类集CS中将会形成第一投影线段的聚类子集。

这里还是以上述图5为例，文本框集TS为{T1,T2,T3}，len(TS)＝3，对应的第一投影线段分别为L1、L2和L3。初始时，设定CS和CL均为空。根据L[1].b、L[2].b、L[3].b的大小对L1、L2和L3进行升序排序，即第一投影线段的列表LL为{L2,L1,L3}，依次对列表LL中的每个第一投影线段进行如下处理：

LL[1]＝L2，因为初始时CL为空，所以将LL[1]即L2追加到CL末尾，即此时CL＝{L2}。

LL[2]＝L1，此时CL＝{L2}不为空，且满足L[2].b＝CL[1].b≤LL[2].b＝L[1].b≤CL[1].e＝L[2].e，L1与L2至少部分重叠，L1与L2属于同一个聚类，则将LL[2]即L1追加到CL末尾，此时让CL中原本的元素均相应的往前移动一位，即CL.append(LL[2])，此时CL＝{L2,L1}。以此类推，若还有其他的第一投影线段与L2重叠，则相应的可以将其加入到CL的末尾，作为与L2的同一个聚类。

LL[3]＝L3，此时CL＝{L2,L1}不为空，且不满足L[2].b＝CL[1].b≤LL[3].b＝L[3].b≤CL[1].e＝L[2].e，L3不与L2重叠，说明L3与L2不属于同一个聚类，则将CL中的全部元素追加到CS的末尾作为一个聚类子集，即此时CS＝{(L2,L1)}。同时重新设定CL为空，将LL[3]即L3追加到CL末尾，由于此时后续没有其他第一投影线段要处理，因此，将CL中的L3追加到CS的末尾，则此时CS＝{(L2,L1),(L3)}。即上述图5中一共存在两个聚类子集。

第三步，依次对聚类集CS中的每个聚类子集CS[j](1<＝j<＝len(CS)，j为正整数，len(CS)这个值实际上就是指当前文本框图片最终一共有多少行)进行如下处理：

依次对聚类子集CS[j]中的每个第一投影线段CS[j][i](1<＝i<＝len(CS[j]))对应的文本框T[CS[j][i].idx]进行如下处理：

p＝T[CS[j][i].idx].pos；

CS[j][i].xb＝min(p[1].x,p[4].x)；

CS[j][i].xe＝max(p[2].x,p[3].x)。

即上述步骤可以求取每个文本框在横向轴上垂直投影的第二投影线段的第二起点坐标和第二终点坐标。

还是以上述图5为例，第一个聚类子集CS[1]＝(L2,L1)，则len(CS[j])＝2，CS[1][1]为L2，对应的文本框为T[2]；CS[1][2]为L1，对应的文本框为T[1]，则对T[2]进行如下处理：

p＝T[2].pos，即p[1].x为T[2]文本框的第1个顶点的横坐标，p[2].x为T[2]文本框的第2个顶点的横坐标，p[3].x为T[2]文本框的第3个顶点的横坐标，p[4].x为T[2]文本框的第4个顶点的横坐标；

xb_2＝CS[1][1].xb＝min(p[1].x,p[4].x)；

xe_2＝CS[1][1].xe＝max(p[2].x,p[3].x)。

对T[1]进行如下处理：

p＝T[1].pos，即p[1].x为T[1]文本框的第1个顶点的横坐标，p[2].x为T[1]文本框的第2个顶点的横坐标，p[3].x为T[1]文本框的第3个顶点的横坐标，p[4].x为T[1]文本框的第4个顶点的横坐标；

xb_1＝CS[1][2].xb＝min(p[1].x,p[4].x)；

xe_1＝CS[1][2].xe＝max(p[2].x,p[3].x)。

第二个聚类子集CS[2]＝(L3)，则len(CS[2])＝1，CS[2][1]为L3，对应的文本框为T[3]；则对T[3]进行如下处理：

p＝T[3].pos，即p[1].x为T[3]文本框的第1个顶点的横坐标，p[2].x为T[3]文本框的第2个顶点的横坐标，p[3].x为T[3]文本框的第3个顶点的横坐标，p[4].x为T[3]文本框的第4个顶点的横坐标；

xb_3＝CS[1][1].xb＝min(p[1].x,p[4].x)；

xe_3＝CS[1][1].xe＝max(p[2].x,p[3].x)。

接着，以CS[j][i].xb为关键字对CS[j][i]组成的聚类子集CSL进行升序排序，依次对聚类子集CSL中的每个第一投影线段CSL[m](1≤m≤len(CSL[j]))进行如下处理：

T[CSL[m].idx].row＝j；

T[CSL[m].idx].col＝m。

即对属于同一个聚类子集的各个文本框的第一投影线段，按照其第二投影线段的第二起点坐标从小到大进行升序排列。

例如，图5中L1和L2属于第一个聚类子集，CS[1][1]为L2，对应的文本框为T[2]；CS[1][2]为L1，对应的文本框为T[1]；j＝1，xb_1小于xb_2，则CSL＝(L1，L2)，对CSL中的第一投影线段CSL[1]即L1进行如下处理：

T[CSL[1].idx].row＝T[1].row＝1；

T[CSL[1].idx].col＝T[1].col＝1。

对CSL中的第一投影线段CSL[2]即L2进行如下处理：

T[CSL[2].idx].row＝T[2].row＝1；

T[CSL[2].idx].col＝T[2].col＝2。

L3属于第二个聚类子集，CS[2][1]为L3，对应的文本框为T[3]j＝2，则CSL＝(L3)，对CSL中的第一投影线段CSL[1]即L3进行如下处理：

T[CSL[3].idx].row＝T[3].row＝2；

T[CSL[3].idx].col＝T[3].col＝1。

由此可以得到图5的实例中，T[1]和T[2]的行号为1，列号分别为1和2；T[3]的行号为2，列号为1。

由上方法可以知道，在上述举例说明中，列号是针对同一行的文本框进行编号的，不同行所具有的列的数量可能是不同的。这是因为对于像住院结算单这类图像，同一行的文本框大体上是齐平的，若图像有倾斜，也会在纵向轴上投影的第一投影线段之间有至少部分重叠，但是不同行的列数是不同的，不同行的列与列的文本框之间没有对齐关系。本领域技术人员可以理解的是，若针对的待处理图像改变了，例如同一列的文本框大体上是齐平的，而不同列的行与行之间的文本框比较杂乱无章，则相应的可以对横向轴上的投影线段进行聚类，以用于确定文本框的列号，在列号确定的基础上，再对纵向轴上的投影线段进行行号的编号。或者，也可以将待处理图像旋转90度，则相应的文本框图片的横坐标和纵坐标发生改变。

图6示意性示出了根据本公开的一个实施例的图像处理方法的流程图。

如图6所示，与上述实施例相比，本公开实施例提供的图像处理方法的不同之处在于，还可以包括以下步骤。

在步骤S610中，识别各个文本框中的文本信息。

在步骤S620中，根据各个文本框的行号、列号及其文本信息获得所述待识别图像的识别结果。

根据以上方法可以输出TS中每个文本框T[i]的行号row和列号col。可以将其应用到身份证识别、票据识别等OCR识别系统，根据识别的每个文本框的行号和列号，可以对文本框中识别的全部文本行信息实现文本结构化输出。

例如，以上述图3为例，根据正确识别的每个文本框的行号、列号以及采用CRNN识别每个文本框的文本行信息，可以准确的提取到“身份证号”文本框后对应的数字是其要识别的正确数字。

本公开实施方式提供的图像处理方法，采用双向投影的方式，将每个文本框的位置分别投影到纵向轴和横向轴上：纵向轴上的投影采用延长文本框上下两条边的方式，横向轴上采用垂直投影的方式。然后先确定文本框在第一方向轴上的第一投影线段的聚类集，从而可以根据各个第一投影线段所属的聚类子集确定对应文本框的行号；然后根据文本框所属的行位置及其在第二方向轴上的第二投影线段的第二起点坐标的大小确定列位置，从而能适应具有一定倾斜角度的图片，增强文本框的行、列排序和结构化输出的准确性，提高OCR识别结果的正确率。

以下介绍本公开的装置实施例，可以用于执行本公开上述的图像处理方法。

图7示意性示出了根据本公开的一个实施例的图像处理装置的框图。

如图7所示，本公开实施方式提供的图像处理装置700可以包括文本框获取模块710、第一方向投影模块720、第二方向投影模块730、行聚类模块740、行号确定模块750以及列号确定模块760。

其中，文本框获取模块710可以配置为获取文本框图片及位于所述文本框图片内的文本框。

第一方向投影模块720可以配置为延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段。

第二方向投影模块730可以配置为将所述文本框垂直投影至第二方向轴上，获得第二投影线段。

行聚类模块740可以配置为对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集。

行号确定模块750可以配置为根据所述第一投影线段所属的聚类子集，确定所述文本框的行号。

列号确定模块760可以配置为根据所述文本框的行号及其第二投影线段确定所述文本框的列号。

在示例性实施例中，行聚类模块740可以包括：第一坐标获得单元，可以配置为根据所述文本框图片的宽度和所述文本框的顶点坐标，获得所述第一投影线段在所述第一方向轴上的第一起点坐标和第一终点坐标；第一线段排列单元，可以配置为根据所述第一起点坐标的大小对所述第一投影线段进行升序排列；第一线段聚类单元，可以配置为对排列后的第一投影线段进行处理，生成所述聚类集。

在示例性实施例中，所述第一线段聚类单元可以配置为：初始时设定所述聚类集为空，并设定一个为空的聚类列表；依次对排列后的每条第一投影线段进行如下处理：若所述聚类列表为空，则将所述第一投影线段加到所述聚类列表的末尾；若所述聚类列表不为空，且所述第一投影线段的第一起点坐标处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述第一投影线段加到所述聚类列表的末尾。

在示例性实施例中，所述第一线段聚类单元还可以配置为：依次对排列后的每条第一投影线段还进行如下处理：若所述聚类列表不为空，且所述第一投影线段的第一起点坐标不处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述聚类列表中的元素加到所述聚类集中作为一个聚类子集，并重新设定所述聚类列表为空，再将所述第一投影线段加到所述聚类列表的末尾。

在示例性实施例中，列号确定模块750可以配置为：依次对所述聚类集中的每个聚类子集进行如下处理：获得聚类子集中各个第一投影线段对应的文本框；根据所述聚类子集的文本框的顶点坐标，获得所述聚类子集的文本框的第二投影线段在所述第二方向轴上的第二起点坐标；根据所述第二起点坐标的大小对所述聚类子集的文本框的第二投影线段进行升序排列；根据排列后的第二投影线段确定所述聚类子集的文本框的列号。

在示例性实施例中，文本框获取模块710可以包括：图像获取单元，可以配置为获取待识别图像；文本框定位单元，可以配置为定位所述待识别图像中的各个文本框；文包括图片确定单元，可以配置为根据定位的各个文本框确定所述文本框图片。

在示例性实施例中，图像处理装置700还可以包括：文本信息识别模块，可以配置为识别各个文本框中的文本信息；识别结果获得模块，可以配置为根据各个文本框的行号、列号及其文本信息获得所述待识别图像的识别结果。

本公开实施方式提供的图像处理装置，一方面，通过获取文本框图片及位于所述文本框图片内的文本框；延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；将所述文本框垂直投影至第二方向轴上，获得第二投影线段，即采用双向投影的方式，将每个文本框的位置分别投影到第一方向轴例如纵向轴和第二方向轴例如横向轴上，其中，第一方向轴上的投影采用延长每个文本框相对两条边的方式，第二方向轴上的投影采用垂直投影的方式；另一方面，对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；根据所述第一投影线段所属的聚类子集，确定所述文本框的行号，即对第一方向轴上的第一投影线段进行聚类，确定文本框的行号；根据所述文本框的行号及其第二投影线段确定所述文本框的列号，即确定文本框的行号后，再根据其行号对其在第二方向轴上的第二投影线段进行处理，获得每个文本框的列号，最终就能够得到每个文本框对应的行号row和列号col，从而能够将本公开实施例提供的图像处理方法应用于具有一定倾斜角度的图片，对文本框进行正确的行、列编号排序，增强了文本框的行、列排序的识别准确性，可以将其应用于字符识别应用场景，增强结构化输出信息的准确性，提高识别结果的准确性。

由于本公开的示例实施例的图像处理装置的各个功能模块与上述图像处理方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的图像处理方法的实施例。

下面参考图8，其示出了适于用来实现本公开实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备的计算机系统800仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从储存部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的储存部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入储存部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块和/或单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块和/或单元也可以设置在处理器中。其中，这些模块和/或单元的名称在某种情况下并不构成对该模块和/或单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的图像处理方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S110，获取文本框图片及位于所述文本框图片内的文本框；步骤S120，延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；步骤S130，将所述文本框垂直投影至第二方向轴上，获得第二投影线段；步骤S140，对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；步骤S150，根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；步骤S160，根据所述文本框的行号及其第二投影线段确定所述文本框的列号。

又如，所述的电子设备可以实现如图2和图4和图6所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，包括：

获取文本框图片及位于所述文本框图片内的文本框；

延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；

将所述文本框垂直投影至第二方向轴上，获得第二投影线段；

对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；

根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；

根据所述文本框的行号及其第二投影线段确定所述文本框的列号；

对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集，包括：

根据所述文本框图片的宽度和所述文本框的顶点坐标，获得所述第一投影线段在所述第一方向轴上的第一起点坐标和第一终点坐标；

根据所述第一起点坐标的大小对所述第一投影线段进行升序排列；

对排列后的第一投影线段进行处理，生成所述聚类集。

2.根据权利要求1所述的方法，其特征在于，对排列后的第一投影线段进行处理，生成所述聚类集，包括：

初始时设定所述聚类集为空，并设定一个为空的聚类列表；

依次对排列后的每条第一投影线段进行如下处理：

若所述聚类列表为空，则将所述第一投影线段加到所述聚类列表的末尾；

若所述聚类列表不为空，且所述第一投影线段的第一起点坐标处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述第一投影线段加到所述聚类列表的末尾。

3.根据权利要求2所述的方法，其特征在于，依次对排列后的每条第一投影线段还进行如下处理：

若所述聚类列表不为空，且所述第一投影线段的第一起点坐标不处于所述聚类列表中的第一个元素的第一起点坐标和第一终点坐标之间，则将所述聚类列表中的元素加到所述聚类集中作为一个聚类子集，并重新设定所述聚类列表为空，再将所述第一投影线段加到所述聚类列表的末尾。

4.根据权利要求1所述的方法，其特征在于，根据所述文本框的行号及其第二投影线段确定所述文本框的列号，包括：

依次对所述聚类集中的每个聚类子集进行如下处理：

获得聚类子集中各个第一投影线段对应的文本框；

根据所述聚类子集的文本框的顶点坐标，获得所述聚类子集的文本框的第二投影线段在所述第二方向轴上的第二起点坐标；

根据所述第二起点坐标的大小对所述聚类子集的文本框的第二投影线段进行升序排列；

根据排列后的第二投影线段确定所述聚类子集的文本框的列号。

5.根据权利要求1所述的方法，其特征在于，获取文本框图片及位于所述文本框图片内的各个文本框，包括：

获取待识别图像；

定位所述待识别图像中的各个文本框；

根据定位的各个文本框确定所述文本框图片。

6.根据权利要求5所述的方法，其特征在于，还包括：

识别各个文本框中的文本信息；

根据各个文本框的行号、列号及其文本信息获得所述待识别图像的识别结果。

7.一种图像处理装置，其特征在于，包括：

文本框获取模块，配置为获取文本框图片及位于所述文本框图片内的文本框；

第一方向投影模块，配置为延长所述文本框的第一边和相对的第二边，获得所述文本框在第一方向轴上的第一投影线段；

第二方向投影模块，配置为将所述文本框垂直投影至第二方向轴上，获得第二投影线段；

行聚类模块，配置为对所述第一投影线段进行聚类，生成包括至少一个聚类子集的聚类集；

行号确定模块，配置为根据所述第一投影线段所属的聚类子集，确定所述文本框的行号；

列号确定模块，配置为根据所述文本框的行号及其第二投影线段确定所述文本框的列号；

所述行聚类模块包括：

第一坐标获得单元，配置为根据所述文本框图片的宽度和所述文本框的顶点坐标，获得所述第一投影线段在所述第一方向轴上的第一起点坐标和第一终点坐标；

第一线段排列单元，配置为根据所述第一起点坐标的大小对所述第一投影线段进行升序排列；

第一线段聚类单元，配置为对排列后的第一投影线段进行处理，生成所述聚类集。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至6中任一项所述的图像处理方法。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的图像处理方法。