CN110032969B

CN110032969B - 用于检测图像中的文本区域的方法、装置、设备以及介质

Info

Publication number: CN110032969B
Application number: CN201910289292.8A
Authority: CN
Inventors: 章成全; 黄祖明; 恩孟一; 韩钧宇; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-11-05
Anticipated expiration: 2039-04-11
Also published as: CN110032969A

Abstract

根据本公开的示例实施例，提供了一种用于检测图像中的文本区域的方法、装置、设备以及介质。方法包括基于图像的特征表示来检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中的一段文本的仅一部分。方法还包括基于第一文本区域的特征块来确定第一文本区域的角点的调整值，并且基于第一文本区域的角点的调整值来将第一文本区域调整为第二文本区域，其中第二文本区域比第一文本区域覆盖一段文本的更多部分。本公开的实施例在通用文本检测模块的基础上增加一个长文本检测提高模块，能够更完整地检测出图像中的长文本，从而提高图像文本检测的准确率。

Description

用于检测图像中的文本区域的方法、装置、设备以及介质

技术领域

本公开的实施例总体上涉及图像处理领域，并且更具体地涉及用于检测图像中的文本区域的方法、装置、电子设备以及计算机可读存储介质。

背景技术

图像对象检测是指在图像中定位和检测感兴趣的目标，并给出每个目标所属的区域(例如边界框)。图像对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。图像文本检测是从图像中检测出包括各种字符的文本区域，然后，可以对文本区域中的字符进行识别和其他处理，因此，图像文本检测是图像文本识别和进一步处理的基础和前提。随着卷积神经网络(CNN)在图像处理中的广泛应用，图像文本检测能够更准确地检测出一些文本对象。

通常，图像文本检测的方法可以划分为三个种类：基于组件的方法、基于检测的方法、以及基于分割的方法。基于组件的方法首先检测文本的基本组成部件，然后将属于同一文本行的部件组合在一起。基于检测的方法是从图像中检测出文本的包围盒，例如多边形文本框。基于分割的方法依靠文本的中心线或边界来分割出每个文本实例的区域，其可以进行像素级的分割。

发明内容

根据本公开的示例实施例，提供了一种用于检测图像中的文本区域的方法、装置、电子设备以及计算机可读存储介质。

在本公开的第一方面中，提供了一种用于检测图像中的文本区域的方法。该方法包括：基于图像的特征表示，检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中的一段文本的一部分；基于第一文本区域的特征块，确定第一文本区域的角点的调整值；以及基于第一文本区域的角点的调整值，将第一文本区域调整为第二文本区域，其中第二文本区域比第一文本区域覆盖一段文本的更多部分。

在本公开的第二方面中，提供了一种用于检测图像中的文本区域的装置。该装置包括：文本区域检测模块，被配置为基于图像的特征表示来检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中的一段文本的一部分；角点调整确定模块，被配置为基于第一文本区域的特征块来确定第一文本区域的角点的调整值；以及文本区域调整模块，被配置为基于第一文本区域的角点的调整值来将第一文本区域调整为第二文本区域，其中第二文本区域比第一文本区域覆盖一段文本的更多部分。

在本公开的第三方面中，提供了一种电子设备，其包括一个或多个处理器以及存储装置，其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行，使得电子设备实现根据本公开的实施例的方法或过程。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的实施例的方法或过程。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的用于检测图像中的文本区域的环境的示意图；

图2示出了根据本公开的实施例的用于检测图像中的文本区域的方法的流程图；

图3A-3C示出了根据本公开的实施例的用于调整图像中的文本框的示意图；

图4示出了根据本公开的实施例的用于实现图像中的长文本检测的示例过程的示意图；

图5示出了根据本公开的实施例的用于检测图像中的文本区域的另一方法的流程图；

图6示出了根据本公开的实施例的用于训练图像文本检测模型的示意图；

图7示出了根据本公开的实施例的用于检测图像中的文本区域的装置的框图；以及

图8示出了能够实施本公开的一些实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

传统的文本检测方法能够对输入图像进行检测，并输出图像中的一个或多个文本区域，每个文本区域可以通过四边形文本框来表示。然而，由于不同的文本行的纵横比差异可能很大，特别是非拉丁语系的文字可能存在很长的句子，而传统的通用文本检测方法由于卷积神经网络的感受野的限制，无法完整地检测出完整的长文本，而只能检测到长文本的仅一部分。因此，对于图像中的长文本，传统的通用文本检测方法由于神经网络的感受野的限制，无法完整地检测出完整的文本区域，从而导致较低的文本检测准确率。通常，如果无法检测到整个文本区域，则可能会导致后续的整个文本识别都失败。

本公开的实施例提出了一种用于检测图像中的文本区域的方案，能够实现更完整地检测出图像中的长文本区域。本公开的实施例在通用文本检测模块的基础上增加一个长文本检测提高模块，能够更完整地检测出图像中的长文本，从而提高图像文本检测的准确率。提高的文本检测准确率将更有助于例如光学字符识别(OCR)等服务，促进OCR技术在自然场景、菜单、票据等业务场景中的进一步应用。以下将参考附图1-8详细描述本公开的一些示例实施例。

图1示出了根据本公开的实施例的用于检测图像中的文本区域的示例环境100的示意图。如图1所示，在示例环境100中，输入图像110可以为包括长文本的自然场景图像115。在图1的示例中，图像115为一公司的铭牌的照片，其包括弧形的中文文本“上海某某塑料制品有限公司”以及方形的英文文本“SHANGHAI MOUMOU PLASTICS LIMITED COMPANY”。

通用文本检测模块120针对输入图像110，能够获得初步检测结果130，诸如图像135。如图1所示，图像135包括针对中文文本的文本框136和针对英文文本的文本框138，然而，文本框136和138都无法覆盖完整的中文文本和英文文本。在本公开的实施例中，术语“文本”可以表示任何语言和形式的字符，例如中文字符、英文或其他语言字符、数字、及其组合，等等。

通用文本检测模块120基于输入图像110的特征图，可以获得作为初始检测结果的文本框136和138。在一些实施例中，通用文本检测模块120可以使用ResNet50+FPN的卷积神经网络结构，ResNet50是一种深度残差网络，其可以通过残差学习来更容易地训练神经网络。在一些实施例中，可以使用8个通道来预测四边形文本框的四个角点的坐标，进而获得四边形文本框。在一些实施例中，可以使用深度回归方法(Deep Regression)来获得四边形文本框，由于端到端的设计，深度回归方法可以最大化词级标注并且获得很好的检测性能。然而，由于不同文本长宽比的巨大差异以及CNN的感受野的限制，深度回归方法难以完整地检测出整个长文本。

如图1所示，由于图像115中的中文文本“上海某某塑料制品有限公司”和英文文本“SHANGHAI MOUMOU PLASTICS LIMITED COMPANY”长度都较长，属于长文本范畴，通用文本检测模块120检测到的文本框136和文本框138无法覆盖完整的文本。在本公开的一些实施例中，长文本可以指代超过预定长度的文本、文本区域的长宽比超过一定阈值的文本，等等。

根据本公开的实施例，长文本检测提高模块140能够对初步检测结果130进行调整，并生成调整后的输出结果150，诸如图像155。如图1所示，图像155中的文本框156和文本框158能够分别覆盖完整的中文文本和英文文本。因此，本公开的实施例在通用文本检测模块120的基础上增加了一个长文本检测提高模块140，能够更完整地检测出图像中的文本区域。

应当理解，通用文本检测模块120可以为已知的或者将来开发的任何通用文本检测模块，其针对输入的图像，能够输出带有标识文本区域的多边形文本框。另外，虽然本公开的实施例以文本框作为文本区域的示例表示形式，然而，其他任何适当的标识文本区域的方式(诸如角点坐标集合等)也可以与本公开的实施例结合使用。

图2示出了根据本公开的实施例的用于检测图像中的文本区域的方法200的流程图。应当理解，方法200可以由参考图1所描述的通用文本检测模块120和长文本检测提高模块140来执行。

在框202，基于图像的特征表示，检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中的一段文本的仅仅一部分，而不是覆盖这段文本的全部。例如，参考图1所描述的通用文本检测模块120基于输入图像110的特征图来获得作为初步检测结果的多个文本区域，例如文本框136和138。例如，检测到的文本区域可以通过多边形的多个角点来表示。在一些实施例中，检测到的文本区域可以通过矩形文本框来表示。在又一些实施例中，检测到的文本区域可以通过任意的四边形文本框来表示。

在框204，基于第一文本区域的特征块，确定第一文本区域的角点的调整值。例如，参考图1所描述的长文本检测提高模块140可以提取文本框136的特征块，进而确定文本框136的各个角点的调整值。在一些实施例中，调整值可以表示初步检测到的文本框136与真实的文本框156之间的角点坐标偏差。

在框206，基于第一文本区域的角点的调整值，将第一文本区域调整为第二文本区域，其中第二文本区域比第一文本区域覆盖一段文本的更多部分。例如，参考图1所描述的长文本检测提高模块140可以根据所确定的调整值，将初始的文本框136调整为完整的文本框156。与第一区域相比，第二区域更能完整地覆盖长文本，因此，本公开的实施例能够更完整地检测出图像中的长文本，进而提高图像文本检测的准确率。

图3A-3C示出了根据本公开的实施例的用于调整图像中的文本框的示意图。如图3A的示意图310所示，图像311包括一段长文本“上海某某塑料制品有限公司”，使用通用的图像文本检测方法，能够检测出四边形文本框315作为初步检测结果。虽然在图3A的示例中，文本区域通过四边形文本框来表示，然而，其他的多边形文本框或者任何其他适当的文本区域标识方式也可以与本公开的实施例结合使用。

接下来，可以使用根据本公开的实施例的长文本检测提高模块140来确定对初步检测结果(即四边形文本框315)的调整。如图3B的示意图320所示，长文本检测提高模块140可以确定对于文本框315的各个角点的调整。例如，文本检测提高模块140基于文本框315的特征块确定文本框315的左上角点需调整到点321，文本框315的右上角点需调整到点322，文本框315的右下角点需调整到点323，文本框315的左下角点需调整到点324。由于文本框315的各个角点可以单独进行调整，因而各个角点的调整幅度可以彼此不同。

如图3C的示意图330所示，根据调整后的角点321、322、323、324，可以获得调整后的四边形文本框335。也即，本公开的实施例可以通过分别调整每个角点来调整四边形文本框。如图3C所示，调整后的四边形文本框335能够完整地覆盖这段长文本“上海某某塑料制品有限公司”。因此，本公开的实施例能够提高图像文本检测的准确率。

图4示出了根据本公开的实施例的用于实现图像中的长文本检测的示例过程400的示意图。如图4所示，可以首先对输入图像410进行预处理，然后获得图像410的特征图420，特征图420可以为图像410在机器学习模型中的隐含层特征。通用文本检测模块120基于图像410的特征图420可以获得初步检测结果，例如四边形文本框。对于较长的文本(诸如长词或长文字行)，初步的检测结果可能并不完整，因此，本公开的实施例在初步检测结果的基础上增加网络的感受野，充分利用初步检测结果的边界信息来进一步修正初步检测结果，使得长文本的检测结果能够完整且准确。

参考图4，在框430，根据通用文本检测模块120检测到的四边形文本框和特征图420，执行感兴趣区域(ROI)转换，以从特征图420中提取检测到的四边形文本框对应的特征块440。ROI转换可以将特征图420转换成固定的大小，并馈送到神经网络。在一些实施例中，可以将任意的四边形文本框转换成宽为例如64像素且高为例如8像素的矩形区域，从而获得8×64×128的特征块440，其中128表示特征块的通道数，即维度。然后，可以使用三个卷积核大小为3×3的卷积层来加强特征块以进一步提取更丰富的语义特征f_r，即特征块450。以这种方式，通过多层卷积神经网络，能够增加卷积神经网络的感受野。

本申请的发明人认识到在相同的感受野内靠近角点的位置能够感知更准确的边界信息，因而可以利用角点注意力机制来回归每个角点的坐标偏差。例如，可以使用一个卷积核大小为1×1的卷积层和激活函数sigmoid层来自适应学习获得4个角点的注意力图460，即注意力图m_a，其中每个注意力图的值表示对应角点的偏差回归的贡献权重。在465处，通过将特征块f_r和注意力图m_a进行点乘并求和来获得每个角点的回归特征470，如下式(1)所示，以这种方式，可以利用文本边界的特征来回归更准确的边界信息。

其中

表示第i个角点的回归特征，其大小为1×1×1×128，

表示学习到的第i个角点的注意力图。

继续参考图4，基于回归特征470确定每个角点的调整值480，调整值可以为检测到的四边形文本框与真实的文本框之间的坐标偏差，例如，每个角点的坐标偏差可以包括二维的坐标差值。基于坐标差值，可以获得新的文本框的角点坐标，从而获得调整后的四边形文本框作为输出结果490。

图5示出了根据本公开的实施例的用于检测图像中的文本区域的另一方法500的流程图。在一些场景中，针对一些超长的文本，使用本公开的实施例的方法200可能还是无法一次性检测出完整的文本区域。因此，可以迭代地执行方法200中的一些步骤，以获得更完整的文本区域。

如图5所示，在框502，可以使用传统的图像文本检测方法来检测图像中的文本区域作为初步检测结果。在框504，基于文本区域对应的特征块，确定文本区域的每个角点的调整值。接下来，在框506，基于文本区域的角点的调整值，更新文本区域的范围。在框508，判断是否满足迭代停止条件。如果没有满足迭代停止条件，则重复执行步骤504-508。可选地，迭代停止条件可以为已经重复执行步骤504-508预定次数，例如，可以重复执行两次文本区域的调整。备选地，迭代停止条件可以为文本区域已经收敛，也即，文本区域的范围的变化小于预定幅度。

如果在框508判断已经满足迭代停止条件，则在框510输出文本区域作为最终结果。因此，根据本公开的实施例的方法500，通过迭代地执行文本区域的调整，能够使得文本区域不断修正，从而进一步提高图像文本检测的准确率。

图6示出了根据本公开的实施例的用于训练图像文本检测模型的示图600。根据本公开的实施例，可以在已标注的数据集上使用端到端的方式训练图像文本检测模型。如图600所示，训练数据610中包括图像620及其标注的长文本框630，长文本框能够完整地覆盖长词或长文本。然后，在框640，可以将图像620和对应的标注的长文本框630用于机器学习训练，从而训练出图像文本检测模型650。根据本公开的实施例，可以以端到端的方式使用训练数据来训练通用文本检测模块120和长文本检测提高模块140，因而能够提高训练效率。

在训练阶段，可以使用通用文本检测模块的K个初步检测结果来训练长文本检测提高模块，其中训练装置的损失函数如下式(2)所示：

其中

表示第k对检测到的文本框与标注文本框之间的第j个坐标偏差，

表示对应的预测值。

图7示出了根据本公开的实施例的用于检测图像中的文本区域的装置700的框图。如图7所示，装置700包括文本区域检测模块710、角点调整确定模块720以及文本区域调整模块730。文本区域检测模块710被配置为基于图像的特征表示来检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中的一段文本的一部分。角点调整确定模块720被配置为基于第一文本区域的特征块来确定第一文本区域的角点的调整值。文本区域调整模块730被配置为基于第一文本区域的角点的调整值来将第一文本区域调整为第二文本区域，其中第二文本区域比第一文本区域覆盖一段文本的更多部分。

在一些实施例中，其中角点调整确定模块720包括：感兴趣区域转换模块，被配置为通过感兴趣区域转换，从图像的特征表示提取第一文本区域的特征块；以及特征加强模块，被配置为使用卷积神经网络中的多个卷积层来加强特征块。

在一些实施例中，其中感兴趣区域转换模块包括特征获得模块，被配置为通过将第一文本区域转换成预定数目个矩形区域来获得第一文本区域的具有预定大小的特征块。

在一些实施例中，其中角点调整确定模块720还包括：注意力图获得模块，被配置为获得第一文本区域的每个角点的注意力图；回归特征确定模块，被配置为基于特征块以及每个角点的注意力图来确定每个角点的回归特征表示；以及调整值确定模块，被配置为基于回归特征表示来确定每个角点的调整值。

在一些实施例中，其中调整值确定模块包括角点坐标偏差确定模块，被配置为确定检测到的第一文本区域与一段文本的真实文本区域之间的角点坐标偏差。

在一些实施例中，装置700还包括：重复执行模块，被配置为针对检测到的某个文本区域，重复执行以下步骤预定次数，或者重复执行以下步骤直到文本区域收敛：基于文本区域的特征块，确定文本区域的每个角点的调整值；以及基于文本区域的每个角点的调整值，更新文本区域。

在一些实施例中，装置700还包括训练模块，被配置为以端到端的方式使用训练数据来训练文本区域检测模块和文本区域调整模块，训练数据包括图像及其标注的长文本框。

在一些实施例中，其中第一文本区域通过四边形文本框来表示，四边形文本框包括四个角点，并且文本区域调整模块730包括四边形文本框调整模块，被配置为通过分别调整四个角点中的每个角点来调整四边形文本框。

应当理解，图7中所示出的文本区域检测模块710、角点调整确定模块720以及文本区域调整模块730可以被包括一个或多个电子设备中。而且，应当理解，图7中所示出的模块可以执行参考本公开的实施例的方法或过程中的步骤或动作。因此，本公开的实施例在通用文本检测模块的基础上增加一个长文本检测提高模块，能够更完整地检测出图像中的长文本，从而提高图像文本检测的准确率。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。应当理解，设备800可以用于实现本公开所描述的用于检测图像中的文本区域的装置800。如图所示，设备800包括中央处理单元(CPU)801，其可以根据被存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和过程，例如方法200和500。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法的一个或多个动作或步骤。备选地，在其他实施例中，CPU 801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)，等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各动作或步骤，但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行，或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于检测图像中的文本区域的方法，包括：

基于图像的特征表示，检测所述图像中的一个或多个文本区域，所述一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖所述图像中的一段文本的一部分；

基于所述第一文本区域的特征块，确定所述第一文本区域的角点的调整值；以及

基于所述第一文本区域的所述角点的所述调整值，将所述第一文本区域调整为第二文本区域，所述第二文本区域比所述第一文本区域覆盖所述一段文本的更多部分。

2.根据权利要求1所述的方法，其中确定所述第一文本区域的角点的调整值包括：

通过感兴趣区域转换，从所述图像的所述特征表示提取所述第一文本区域的所述特征块；以及

使用卷积神经网络中的多个卷积层来加强所述特征块。

3.根据权利要求2所述的方法，其中提取所述第一文本区域的所述特征块包括：

通过将所述第一文本区域转换成预定数目个矩形区域，获得所述第一文本区域的具有预定大小的所述特征块。

4.根据权利要求2或3所述的方法，其中确定所述第一文本区域的角点的调整值还包括：

获得所述第一文本区域的每个角点的注意力图；

基于所述特征块以及每个角点的注意力图，确定每个角点的回归特征表示；以及

基于所述回归特征表示，确定每个角点的调整值。

5.根据权利要求4所述的方法，其中确定每个角点的调整值包括：

确定检测到的所述第一文本区域与所述一段文本的真实文本区域之间的角点坐标偏差。

6.根据权利要求1所述的方法，还包括：

针对检测到的某个文本区域，重复执行以下步骤预定次数，或者重复执行以下步骤直到所述文本区域收敛：

基于所述文本区域的特征块，确定所述文本区域的每个角点的调整值；以及

基于所述文本区域的每个角点的所述调整值，更新所述文本区域。

7.根据权利要求1所述的方法，其中所述第一文本区域的检测由通用文本检测模块来执行，所述第一文本区域的调整由长文本检测提高模块来执行，并且所述方法还包括：

以端到端的方式使用训练数据来训练所述通用文本检测模块和所述长文本检测提高模块，所述训练数据包括图像以及标注的长文本框。

8.根据权利要求1所述的方法，其中所述第一文本区域通过四边形文本框来表示，所述四边形文本框包括四个角点，并且将所述第一文本区域调整为第二文本区域包括：

通过分别调整所述四个角点中的每个角点来调整所述四边形文本框。

9.一种用于检测图像中的文本区域的装置，包括：

文本区域检测模块，被配置为基于图像的特征表示来检测所述图像中的一个或多个文本区域，所述一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖所述图像中的一段文本的一部分；

角点调整确定模块，被配置为基于所述第一文本区域的特征块来确定所述第一文本区域的角点的调整值；以及

文本区域调整模块，被配置为基于所述第一文本区域的所述角点的所述调整值来将所述第一文本区域调整为第二文本区域，所述第二文本区域比所述第一文本区域覆盖所述一段文本的更多部分。

10.根据权利要求9所述的装置，其中所述角点调整确定模块包括：

感兴趣区域转换模块，被配置为通过感兴趣区域转换来从所述图像的所述特征表示提取所述第一文本区域的所述特征块；以及

特征加强模块，被配置为使用卷积神经网络中的多个卷积层来加强所述特征块。

11.根据权利要求10所述的装置，其中所述感兴趣区域转换模块包括：

特征获得模块，被配置为通过将所述第一文本区域转换成预定数目个矩形区域来获得所述第一文本区域的具有预定大小的所述特征块。

12.根据权利要求10或11所述的装置，其中所述角点调整确定模块还包括：

注意力图获得模块，被配置为获得所述第一文本区域的每个角点的注意力图；

回归特征确定模块，被配置为基于所述特征块以及每个角点的注意力图来确定每个角点的回归特征表示；以及

调整值确定模块，被配置为基于所述回归特征表示来确定每个角点的调整值。

13.根据权利要求12所述的装置，其中所述调整值确定模块包括：

角点坐标偏差确定模块，被配置为确定检测到的所述第一文本区域与所述一段文本的真实文本区域之间的角点坐标偏差。

14.根据权利要求9所述的装置，还包括：

重复执行模块，被配置为针对检测到的某个文本区域，重复执行以下步骤预定次数，或者重复执行以下步骤直到所述文本区域收敛：

15.根据权利要求9所述的装置，还包括：

训练模块，被配置为以端到端的方式使用训练数据来训练所述文本区域检测模块和所述文本区域调整模块，所述训练数据包括图像以及标注的长文本框。

16.根据权利要求9所述的装置，其中所述第一文本区域通过四边形文本框来表示，所述四边形文本框包括四个角点，并且所述文本区域调整模块包括：

四边形文本框调整模块，被配置为通过分别调整所述四个角点中的每个角点来调整所述四边形文本框。

17.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，其用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-8中任一项所述的方法。