CN113505741B

CN113505741B - 一种文本图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN113505741B
Application number: CN202110850128.7A
Authority: CN
Inventors: 唐铭蔚; 周柏村
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2024-04-09
Anticipated expiration: 2041-07-27
Also published as: CN113505741A

Abstract

本发明提供一种文本图像处理方法、装置、电子设备及存储介质，获取自然场景文本图像；对自然场景文本图像进行检测，得到自然场景文本图像中的文本行和文本行的位置坐标信息；其中，文本行为弯曲文本行，或者为非弯曲文本行；基于文本行的位置坐标信息，对文本行进行矫正变换，得到目标文本框；从目标文本框中裁剪出目标文本行，并对剪裁出的目标文本进行文字识别，得到文字识别结果。本发明，能够解决无法对弯曲文本行，或者文本行的偏转方向与文本图像的偏转方向不一致时，进行文本行矫正，导致文字识别效果差的问题。

Description

一种文本图像处理方法、装置、电子设备及存储介质

技术领域

本发明涉及文字识别技术领域，更具体地说，涉及一种文本图像处理方法、装置、电子设备及存储介质。

背景技术

随着科技技术的不断发展，文字识别技术也随之不断的发展，且被广泛应用于各个行业中。在文字识别过程中，可能会遇到文本图像中文本行存在倾斜、弯曲、倒立等的情况，当遇到这种情况时，在对该文本图像中的文本行进行文字识别之前，需要先该文本图像中文本行进行矫正后，再进行文字识别。

现有的文本行矫正方法，通过将整张文本图像进行旋转来实现该文本行的矫正。但是，当文本图像中的文本行存在弯曲，或者文本图像中文本行的偏转方向与文本图像的偏转方向不一致时，现在的文本行矫正方法则无法对这种情况下文本行进行矫正，从而导致文字识别的效果差。

发明内容

有鉴于此，本发明提供一种文本图像处理方法、装置、电子设备及存储介质，以解决现有技术中，无法对当文本图像中的文本行为弯曲文本行，或者文本图像中文本行的偏转方向与文本图像的偏转方向不一致时，进行文本行矫正，从而导致文字识别的效果差的问题。

本发明第一方面公开一种文本图像处理方法，所述方法包括：

获取自然场景文本图像；

对所述自然场景文本图像进行检测，得到所述自然场景文本图像中的文本行和所述文本行的位置坐标信息；其中，所述文本行为弯曲文本行，或者为非弯曲文本行；

基于所述文本行的位置坐标信息，对所述文本行进行矫正变换，得到目标文本框；

从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别，得到文字识别结果。

可选的，所述基于所述文本行的位置坐标信息，对所述文本行进行矫正变换，得到目标文本行，包括：

判断所述文本行是否为所述弯曲文本行；

若所述文本行为弯曲文本行，根据所述弯曲文本行的位置坐标信息，对所述自然场景文本图像中的所述弯曲文本行进行矫正变换，并从所述自然场景文本图像裁剪出目标文本框，其中，所述目标文本框包括进行矫正变换后的所述弯曲文本行；

若所述文本行为非弯曲文本行，根据所述非弯曲文本行的位置坐标信息，从所述自然场景文本图像中裁剪出包含所述非弯曲文本行的文本框，并对所述包含所述非弯曲文本行的文本框进行旋转矫正，得到所述目标文本框，其中，所述目标文本框包括进行旋转矫正后的所述非弯曲文本行。

可选的，所述位置坐标信息包括多个关键点的坐标信息，所述若所述文本行为弯曲文本行，根据所述弯曲文本行的位置坐标信息，对所述自然场景文本图像中的所述弯曲文本行进行矫正变换，并从所述自然场景文本图像裁剪出目标文本框，包括：

若所述文本行为弯曲文本行，从所述弯曲文本行的所述多个关键点的坐标信息中，获取至少一组关键点的坐标信息，其中，每组所述关键点由互相相邻的3个所述关键点组成；

根据每组所述关键点的每个所述关键点的坐标信息，计算每组所述关键点对应的变换矩阵；

利用各组所述关键点对应的变换矩阵，对所述弯曲文本行进行矫正变换，并从所述自然场景文本图像裁剪出目标文本框，其中，所述目标文本框包括进行矫正变换后的所述弯曲文本行。

可选的，所述位置坐标信息包括多个关键点的坐标信息，所述若所述文本行是非弯曲文本行，根据所述非弯曲文本行的位置坐标信息，从所述自然场景文本图像中裁剪出包含所述非弯曲文本行的文本框，并对所述包含所述非弯曲文本行的文本框进行旋转矫正，得到目标文本框，包括：

若所述文本行是非弯曲文本行，从所述非弯曲文本行的多个关键点的坐标信息中，获取所述非弯曲文本的四个顶点的坐标信息；

根据所述非弯曲文本行的四个顶点的坐标信息，计算所述非弯曲文本行的斜边距离和旋转角度；

基于所述非弯曲文本行的斜边距离，从所述自然场景文本图像中裁剪出包含所述非弯曲文本行的文本框；

基于所述旋转角度，对所述包含所述非弯曲文本行的文本框进行旋转矫正，得到目标文本框。

可选的，在从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别之前，所述方法还包括：

判断所述目标文本框中的目标文本行是否为倒立文本行；

若所述目标文本框中的目标文本行是倒立文本行，将所述目标文本框中的所述目标文本行顺时针旋转180度；

从所述目标文本框剪裁出顺时针旋转180度后的所述目标文本行，并对其进行文字识别，得到文字识别结果；

所述从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别，得到文字识别结果，包括：

若所述目标文本框中的目标文本行不是倒立文本行，从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别，得到文字识别结果。

本发明第二方面公开一种文本图像处理装置，所述装置包括：

第一获取单元，用于获取自然场景文本图像；

检测单元，用于对所述自然场景文本图像进行检测，得到所述自然场景文本图像中的文本行和所述文本行的位置坐标信息；其中，所述文本行为弯曲文本行，或者为非弯曲文本行；

第一矫正变换单元，用于基于所述文本行的位置坐标信息，对所述文本行进行矫正变换，得到目标文本框；

第一文字识别单元，用于从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别，得到文字识别结果。

可选的，所述第一矫正变换单元，包括：

第一判断单元，用于判断所述文本行是否为所述弯曲文本行；

第二矫正变换单元，用于若所述文本行为弯曲文本行，根据所述弯曲文本行的位置坐标信息，对所述自然场景文本图像中的所述弯曲文本行进行矫正变换，并从所述自然场景文本图像裁剪出目标文本框，其中，所述目标文本框包括进行矫正变换后的所述弯曲文本行；

第三矫正变换单元，用于若所述文本行为非弯曲文本行，根据所述非弯曲文本行的位置坐标信息，从所述自然场景文本图像中裁剪出包含所述非弯曲文本行的文本框，并对所述包含所述非弯曲文本行的文本框进行旋转矫正，得到所述目标文本框，其中，所述目标文本框包括进行旋转矫正后的所述非弯曲文本行。

可选的，所述位置坐标信息包括多个关键点的坐标信息，所述第二矫正变换单元，包括：

第二获取单元，用于若所述文本行为弯曲文本行，从所述弯曲文本行的所述多个关键点的坐标信息中，获取至少一组关键点的坐标信息，其中，每组所述关键点由互相相邻的3个所述关键点组成；

第一计算单元，用于根据每组所述关键点的每个所述关键点的坐标信息，计算每组所述关键点对应的变换矩阵；

第四矫正变换单元，用于利用各组所述关键点对应的变换矩阵，对所述弯曲文本行进行矫正变换，并从所述自然场景文本图像裁剪出目标文本框，其中，所述目标文本框包括进行矫正变换后的所述弯曲文本行。

本发明第三方面示出了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储文本图像处理的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如本发明第一方面示出的一种文本图像处理方法。

本发明第四方面示出了一种存储介质，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本发明第一方面示出的一种文本图像处理方法。

本发明提供一种文本图像处理方法、装置、电子设备及存储介质，对获取的自然场景文本图像进行检测，得到自然场景文本图像中的文本行和文本行的位置坐标信息；其中，所述文本行为弯曲文本行，或者为非弯曲文本行；基于所述文本行的位置坐标信息，对所述文本行进行矫正变换，得到目标文本框；从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别，得到文字识别结果。本发明提供的技术方案，不论是获取到的文本行是弯曲文本行还是非弯曲文本行，都可以对获取到的文本行进行矫正变换，无需将整张文本图像进行旋转，解决现有技术中，无法对当文本图像中的文本行为弯曲文本行，或者文本图像中文本行的偏转方向与文本图像的偏转方向不一致时，进行文本行矫正，从而导致文字识别的效果差的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种文本图像处理方法的流程示意图；

图2为发明实施例提供的一种基于文本行的位置坐标信息，对文本行进行矫正变换，得到目标文本框的方法的流程示意图；

图3为本发明实施例提供的一种预先设置的目标变换文本行的示例图；

图4为本发明实施例提供的一种根据弯曲文本行的位置坐标信息，对自然场景文本图像中的弯曲文本行进行矫正变换的示例图；

图5为本发明实时例提供的一种对非弯曲文本行进行矫正裁剪后得到文本框的示例图；

图6本发明实施例提供的一种自然场景文本图像的示例图；

图7为本发明实施例提供的一种从自然场景文本图像中裁剪出包含非弯曲文本行（内容）的文本框的示例图；

图8为本发明实施例提供的一种对包含非弯曲文本行的文本框进行旋转矫正，得到目标文本框的示例图；

图9为本发明实施例提供的一种文本图像处理装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本发明公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

参见图1，示出了本发明实施例提供的一种文本图像处理方法的流程示意图，该文本图像处理方法具体包括以下步骤：

S101：获取自然场景文本图像。

S102：对自然场景文本图像进行检测，得到自然场景文本图像中的文本行和文本行的位置坐标信息。

在具体执行步骤S102的过程中，在获取到自然场景下的自然场景文本图像后，可以通过对所获取的自然场景文本图像进行检测，得到该自然场景文本图像中的至少一个文本行和每个文本行的位置坐标信息。

其中，每个文本行的位置坐标信息包括每个文本行的多个关键点的坐标信息。

需要说明的是，得到的文本行为弯曲文本行，或者非弯曲文本行，给弯曲文本可以为形变、竖直、倾斜的文本行。

S103：基于文本行的位置坐标信息，对文本行进行矫正变换，得到目标文本框。

在具体步骤S103的过程中，在对获取到的自然场景文本图像进行检测，得到自然场景文本图像中的文本行和该文本行的坐标信息后，可以基于文本行的位置坐标信息，对文本行进行矫正变换。

参见图2，示出了发明实施例提供的一种基于文本行的位置坐标信息，对文本行进行矫正变换，得到目标文本框的方法的流程示意图，该方法具体包括以下步骤：

S201：判断文本行是否为弯曲文本行；若文本行是弯曲文本行，执行步骤S202；若文本行不是非弯曲文本行，执行步骤S105。

在具体执行步骤S201的过程中，在对所获取的自然场景文本图像进行检测，得到该自然场景文本图像中的至少一个文本行后，针对每个文本行而言，将该文本行输入分类器，利用分类器判断该文本方是否为弯曲文本行。在判断该文本行是弯曲文本行的情况下，执行步骤S202，在判断该文本行不是弯曲文本行，及该文本行是非弯曲文本行的情况下，执行步骤S203。

S202：根据弯曲文本行的位置坐标信息，对自然场景文本图像中的弯曲文本行进行矫正变换，并从自然场景文本图像裁剪出目标文本框，其中，目标文本框包括进行矫正变换后的弯曲文本行。

在步骤S202中，预先设置有目标变换文本行，和该目标文本行上对应的多个目标关键点的坐标信息，根据多个目标关键点，组成多组目标关键点，每组目标关键点由互相相邻的3个目标关键点组成。例如，预先设置的目标变换文本行由14个目标关键点组成，根据14个目标关键点可以组成12组目标关键点，如图3所示。

在具体执行步骤S202的过程中，在确定文本行为弯曲文本行的情况下，从该弯曲文本的多个关键点，分别获取与各组目标关键点对应的各组关键点，针对每组关键点而言，根据该组关键点的各个关键点的坐标信息和该组关键点对应的一组目标关键点的各个目标关键点的坐标信息，计算该组关键点对应的变换矩阵，依次利用各组关键点对应的变换矩阵，对弯曲文本行进行矫正变换，并从自然场景文本图像裁剪出目标文本框，其中，目标文本框包括进行矫正变换后的弯曲文本行，一组关键点由外弯曲文本的多个关键点中的互相相邻的3个关键点组成。

例如，如图4中的（a）所示的预设目标变换文本行，该预设目标变换文本行包括根据该预设目标变换文本行的14个目标关键点组成的12组目标关键点，对获取的自然场景文本图像进行检测，得到的弯曲文本行和该弯曲文本行的多个关键点信息如图4中的（b）所示，根据预设目标变换文本行的12组目标关键点坐标信息（p1’，p2’，p14’），（p2’，p13’，p14’），（p2’，p3’，p13’）......（p7’，p9’，p8’），从弯曲文本行的多个关键点的坐标信息中，获取相应的12组关键点（p1，p2，p14），（p2，p13，p14），（p2，p3，p13）......（p7，p9，p8）。

根据第一组关键点（p1，p2，p14）的坐标信息和第一组目标关键点（p1’，p2’，p14’）的坐标信息，计算由第一组关键点（p1，p2，p14）变换到第一组目标关键点（p1’，p2’，p14’）的变化矩阵，......，根据第十二组关键点（p7，p9，p8）的坐标信息和第十二组目标关键点（p7’，p9’，p8’）的坐标信息，计算由十二组关键点（p7，p9，p8）变换到第十二组目标关键点（p7’，p9’，p8’）的变化矩阵，依次利用各组关键点对应的变换矩阵，对弯曲文本行进行矫正变换，得到矫正变换后的弯曲文本行，如图4中的（c）所示。

S203：根据非弯曲文本行的位置坐标信息，从自然场景文本图像中裁剪出包含非弯曲文本行的文本框，并对包含非弯曲文本行的文本框进行旋转矫正，得到目标文本框，其中，目标文本框包括进行旋转矫正后的非弯曲文本行。

在具体执行步骤S203的过程中，在确定文本行不是弯曲文本行，即确定该文本行是非弯曲文本行后，可以从该非弯曲文本行的位置坐标信息中的多个关键点信息中获取该非弯曲文本行的四个顶点的坐标信息，并根据所获取的四个顶点的坐标信息，计算该非弯曲文本行的斜边距离。

以非弯曲文本行的中点坐标为中心，斜边距离为直径，确定一个该非弯曲文本行的外接圆的范围，进而可以裁剪出该圆的外接正方形作为该非弯曲文本行的文本框，如图5所示。其中，剪切出的文本框内包含有该非弯曲文本行。

根据该非弯曲文本的四个顶点的坐标信息，计算该非弯曲文本行的旋转角度，以便根据计算出的旋转角度对包含该非弯曲文本行的文本框进行旋转矫正，得到目标文本框。其中，目标文本框包括目标文本行，目标文本行为进行了旋转矫正后的非弯曲文本行。

S104：从目标文本框中裁剪出目标文本行，并对剪裁出的目标文本进行文字识别。

在具体执行步骤S104的过程中，在基于文本行的位置坐标信息，对文本行进行矫正变换，得到目标文本框后，可以从目标文本框中裁剪出目标文本行，并利用文字识别器对剪裁出的目标文本进行文字识别。其中，目标文本行为进行矫正变换后的弯曲文本行，或者进行旋转矫正后的非弯曲文本行。

在本申请实施例中，在从目标文本框中裁剪出目标文本行之前，还可以进一步判断目标文本框中的目标文本行是否为倒立文本行；若目标文本框中的目标文本行是倒立文本行，将目标文本框中的目标文本行顺时针旋转180度后，再从目标文本框剪裁出顺时针旋转180度后的目标文本行，并利用文字识别器对其进行文字识别；若目标文本框中的目标文本行不是倒立文本行，则可以直接从目标文本框中裁剪出目标文本行，并利用文字识别器对剪裁出的目标文本进行文字识别。

例如，获取自然场景文本图像，如图6，所示对获取的自然场景文本图像进行检测，得到的多个文本行和每个文本行的位置坐标信息，以得到内容非弯曲文本为例，从该非弯曲文本行的位置坐标信息中的多个关键点信息中获取该非弯曲文本行的四个顶点的坐标信息，并根据所获取的四个顶点的坐标信息，计算该非弯曲文本行的斜边距离。

以非弯曲文本行的中点为中心，斜边距离为直径，确定一个该非弯曲文本行的外接圆的范围，进而可以裁剪出该圆的外接正方形作为该非弯曲文本行的文本框，如图7所示。其中，剪切出的文本框内包含有该非弯曲文本行。

根据该非弯曲文本的四个顶点的坐标信息，计算该非弯曲文本行的旋转角度，以便根据计算出的旋转角度对包含该非弯曲文本行的文本框进行旋转矫正，得到目标文本框，如图8所示。

从得到的图7所示的目标文本框可以确定该目标文本框中的目标文本行是倒立文本行，将目标文本框中的目标文本行顺时针旋转180度后，再从目标文本框剪裁出顺时针旋转180度后的目标文本行，并利用文字识别器对其进行文字识别，得到文字识别结果（内容）。

本发明提供一种文本图像处理方法，对获取的自然场景文本图像进行检测，得到自然场景文本图像中的文本行和文本行的位置坐标信息；可以判断该文本行是否为弯曲文本行，若文本行是弯曲文本行，根据弯曲文本行的位置坐标信息对自然场景文本图像中的弯曲文本行进行矫正变换，并从自然场景文本图像裁剪出包含矫正变换后的弯曲文本行的目标文本框；从目标文本框中裁剪出矫正变换后的弯曲文本行，并对其进行文字识别，得到文字识别结果；若文本行是非弯曲文本行，根据非弯曲文本行的位置坐标信息，裁剪出包含非弯曲文本行的文本框，并对包含非弯曲文本行的文本框进行旋转矫正，得到目标文本框；从目标文本框中裁剪出目标文本行，并对剪裁出的目标文本进行文字识别，得到文字识别结果。本发明提供的技术方案，当文本行为弯曲文本行时，通过根据弯曲文本行的位置坐标信息对弯曲文本行进行矫正变换后，再进行文字识别，解决了现有技术中无法对弯曲文本行进行矫正，导致文字识别的效果差的问题，并且，在文本行不为弯曲文本行的情况下，通过根据该文本行的位置坐标信息裁剪包含该文本行的文本框，并对该文本框进行旋转矫正后，再对从旋转矫正后的文本框中裁剪出的矫正后的文本行进行文字识别，无需将整张文本图像进行旋转，避免了文本图像中文本行的偏转方向与文本图像的偏转方向不一致时，无法对文本行进行矫正，导致文字识别效果差的问题。

基于本申请实施例公开的文本图像处理方法，本发明实施例还对应公开了一种文字识别装置，如图9所示，该文本图像处理装置包括：

第一获取单元91，用于获取自然场景文本图像；

检测单元92，用于对自然场景文本图像进行检测，得到自然场景文本图像中的文本行和文本行的位置坐标信息；其中，文本行为弯曲文本行，或者为非弯曲文本行；

第一矫正变换单元93，用于基于文本行的位置坐标信息，对文本行进行矫正变换，得到目标文本框；

第一文字识别单元94，用于从目标文本框中裁剪出目标文本行，并对剪裁出的目标文本进行文字识别，得到文字识别结果。

上述本发明实施例公开的文本图像处理装置中各个单元具体的原理和执行过程，与上述本发明实施例公开的文本图像处理方法相同，可参见上述本发明实施例公开的文本图像处理方法中相应的部分，这里不再进行赘述。

本发明提供一种文本图像处理装置，对获取的自然场景文本图像进行检测，得到自然场景文本图像中的文本行和文本行的位置坐标信息；其中，所述文本行为弯曲文本行，或者非弯曲文本行；基于所述文本行的位置坐标信息，对所述文本行进行矫正变换，得到目标文本框；从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别，得到文字识别结果。本发明提供的技术方案，不论是获取到的文本行是弯曲文本行还是非弯曲文本行，都可以对获取到的文本行进行矫正变换，无需将整张文本图像进行旋转，解决现有技术中，无法对当文本图像中的文本行为弯曲文本行，或者文本图像中文本行的偏转方向与文本图像的偏转方向不一致时，进行文本行矫正，从而导致文字识别的效果差的问题。

可选的，矫正变换单元，包括：

第一判断单元，用于判断文本行是否为弯曲文本行；

第二矫正变换单元，用于若文本行为弯曲文本行，根据弯曲文本行的位置坐标信息，对自然场景文本图像中的弯曲文本行进行矫正变换，并从自然场景文本图像裁剪出目标文本框，其中，目标文本框包括进行矫正变换后的弯曲文本行；

第三矫正变换单元，用于若文本行为非弯曲文本行，根据非弯曲文本行的位置坐标信息，从自然场景文本图像中裁剪出包含非弯曲文本行的文本框，并对包含非弯曲文本行的文本框进行旋转矫正，得到目标文本框，其中，目标文本框包括进行旋转矫正后的非弯曲文本行。

可选的，位置坐标信息包括多个关键点的坐标信息，第二矫正变换单元，包括：

第二获取单元，用于若文本行为弯曲文本行，从弯曲文本行的多个关键点的坐标信息中，获取至少一组关键点的坐标信息，其中，每组关键点由互相相邻的3个关键点组成；

第一计算单元，用于根据每组关键点的每个关键点的坐标信息，计算每组关键点对应的变换矩阵；

第四矫正变换单元，用于利用各组关键点对应的变换矩阵，对弯曲文本行进行矫正变换，并从自然场景文本图像裁剪出目标文本框，其中，目标文本框包括进行矫正变换后的弯曲文本行。

可选的，位置坐标信息包括多个关键点的坐标信息，第三矫正变换单元，包括：

第二获取单元，用于若文本行是非弯曲文本行，从非弯曲文本行的多个关键点的坐标信息中，获取非弯曲文本的四个顶点的坐标信息；

第二计算单元，用于根据非弯曲文本行的四个顶点的坐标信息，计算非弯曲文本行的斜边距离和旋转角度；

第一裁剪单元，用于基于非弯曲文本行的斜边距离，从自然场景文本图像中裁剪出包含非弯曲文本行的文本框；

第五矫正变换单元，用于基于旋转角度，对包含非弯曲文本行的文本框进行旋转矫正，得到目标文本框。

进一步的，本发明提供的文本图像处理装置，还包括：

第二判断单元，用于判断目标文本框中的目标文本行是否为倒立文本行；

顺时针旋转单元，用于若目标文本框中的目标文本行是倒立文本行，将目标文本框中的目标文本行顺时针旋转180度；

第二文字识别单元，用于从目标文本框剪裁出顺时针旋转180度后的目标文本行，并对其进行文字识别，得到文字识别结果；

第一文字识别单元，还用于若目标文本框中的目标文本行不是倒立文本行，从目标文本框中裁剪出目标文本行，并对剪裁出的目标文本进行文字识别，得到文字识别结果。

本申请实施例提供了一种电子设备，如图10所示，电子设备包括处理器1001和存储器1002，存储器1002用于存储配文本图像处理的程序代码和数据，处理器1001用于调用存储器中的程序指令执行实现如上述实施例中文本图像处理所示的步骤。

本申请实施例提供了一种存储介质，存储介质包括存储程序，其中，在程序运行时控制存储介质所在设备执行上述实施例示出的文本图像处理方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本图像处理方法，其特征在于，所述方法包括：

获取自然场景文本图像；

对所述自然场景文本图像进行检测，得到所述自然场景文本图像中的文本行和所述文本行的位置坐标信息，其中，所述文本行为弯曲文本行，或者为非弯曲文本行，每个文本行的位置坐标信息包括每个文本行的多个关键点的坐标信息；

若所述文本行为弯曲文本行，基于所述文本行的位置坐标信息，确定多组目标关键点，其中，每组目标关键点由互相相邻的3个目标关键点组成；

基于所述多组目标关键点对所述文本行进行矫正变换，得到目标文本框；

2.根据权利要求1所述的方法，其特征在于，还包括：

判断所述文本行是否为所述弯曲文本行；

若所述文本行为弯曲文本行，基于所述文本行的位置坐标信息，确定多组目标关键点；基于所述多组目标关键点对所述文本行进行矫正变换，得到目标文本框；

若所述文本行为非弯曲文本行，根据所述非弯曲文本行的位置坐标信息，从所述自然场景文本图像中裁剪出包含所述非弯曲文本行的文本框，并对所述包含所述非弯曲文本行的文本框进行旋转矫正，得到所述目标文本框。

3.根据权利要求1所述的方法，其特征在于，所述基于所述多组目标关键点对所述文本行进行矫正变换，得到目标文本框，包括：

4.根据权利要求2所述的方法，其特征在于，所述位置坐标信息包括多个关键点的坐标信息，所述若所述文本行是非弯曲文本行，根据所述非弯曲文本行的位置坐标信息，从所述自然场景文本图像中裁剪出包含所述非弯曲文本行的文本框，并对所述包含所述非弯曲文本行的文本框进行旋转矫正，得到目标文本框，包括：

5.根据权利要求1所述的方法，其特征在于，在从所述目标文本框中裁剪出目标文本行，并对剪裁出的所述目标文本进行文字识别之前，所述方法还包括：

判断所述目标文本框中的目标文本行是否为倒立文本行；

6.一种文本图像处理装置，其特征在于，所述装置包括：

第一获取单元，用于获取自然场景文本图像；

检测单元，用于对所述自然场景文本图像进行检测，得到所述自然场景文本图像中的文本行和所述文本行的位置坐标信息；其中，所述文本行为弯曲文本行，或者为非弯曲文本行，每个文本行的位置坐标信息包括每个文本行的多个关键点的坐标信息；

第一矫正变换单元，用于若所述文本行为弯曲文本行，基于所述文本行的位置坐标信息，确定多组目标关键点，其中，每组目标关键点由互相相邻的3个目标关键点组成；基于所述多组目标关键点对所述文本行进行矫正变换，得到目标文本框；

7.根据权利要求6所述的装置，其特征在于，所述第一矫正变换单元，还包括：

第二矫正变换单元，用于若所述文本行为弯曲文本行，基于所述文本行的位置坐标信息，确定多组目标关键点；基于所述多组目标关键点对所述文本行进行矫正变换，得到目标文本框；

8.根据权利要求7所述的装置，其特征在于，所述基于所述多组目标关键点对所述文本行进行矫正变换，得到目标文本框的第二矫正变换单元，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储文本图像处理的程序代码和数据，所述处理器用于调用所述存储器中的程序指令执行如权利要求1-5中任一所述的一种文本图像处理方法。

10.一种存储介质，其特征在于，所述存储介质包括存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的一种文本图像处理方法。