CN117953500A

CN117953500A - 文本区域的检测方法、装置、终端设备及存储介质

Info

Publication number: CN117953500A
Application number: CN202211349875.3A
Authority: CN
Inventors: 肖志红; 彭鑫; 郭沛; 周代国
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd; Xiaomi Technology Wuhan Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2024-04-30

Abstract

本公开是关于一种文本区域的检测方法、装置、终端设备及存储介质。文本区域的检测方法应用于终端设备，包括：根据待检测图像中的多个文本检测区域确定至少一个第一文本区域，第一文本区域包括满足预设条件的至少两个文本检测区域；根据第一文本区域，确定待检测图像中的目标文本区域。本公开中的方法适用于包含各种文本类型的待检测图像，并且无需训练数据集，计算量较小，因此具有较好的鲁棒性，且能够节省开发成本，缩短文本区域的检测时间，提升用户体验。

Description

文本区域的检测方法、装置、终端设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种文本区域的检测方法、装置、终端设备及存储介质。

背景技术

随着人工智能技术的快速发展，智能手机中的相机功能不断完善，能够拍摄到较高质量的图像，在用于记录日常生活中的精彩瞬间外，还可以用于对文档进行拍摄后，通过OCR(Optical Character Recognition，光学字符识别)技术对图像中的文字信息进行提取和识别，获得文档对应的数字化副本，方便记录和分享重要文字信息。但是，在大多数情况下，用户只是想从图像中提取出感兴趣文本区域的信息，而不是提取图像中所有文字信息，因此，如何从图像中提取出感兴趣文本区域是亟待解决的技术问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种文本区域的检测方法、装置、终端设备及存储介质。

根据本公开实施例的第一方面，提供一种文本区域的检测方法，应用于终端设备，所述检测方法包括：

根据待检测图像中的多个文本检测区域确定至少一个第一文本区域，所述第一文本区域包括满足预设条件的至少两个所述文本检测区域；

根据所述第一文本区域，确定所述待检测图像中的目标文本区域。

在一示例性实施例中，所述预设条件包括第一预设条件；

所述根据待检测图像中的多个文本检测区域确定至少一个第一文本区域，包括：

根据多个所述文本检测区域中每个文本检测区域与其他文本检测区域是否满足所述第一预设条件，确定第一无向图；

确定所述第一无向图中的至少一个第一连通分量；

根据所述第一连通分量，确定至少一个第二文本区域；

将所述第二文本区域作为所述第一文本区域。

在一示例性实施例中，所述根据多个所述文本检测区域中每个文本检测区域与其他文本检测区域是否满足所述第一预设条件，确定第一无向图，包括：

将每个所述文本检测区域作为所述第一无向图中的第一节点；

当所述文本检测区域与所述其他文本检测区域满足所述第一预设条件时，确定所述文本检测区域与所述其他文本检测区域对应的第一节点相连通；

根据所述文本检测区域对应的第一节点之间的连通关系，确定所述第一无向图。

在一示例性实施例中，所述第一预设条件包括：

所述文本检测区域与所述其他文本检测区域在第一方向上的投影有重叠；

所述文本检测区域与所述其他文本检测区域之间的距离小于第一预设距离。

在一示例性实施例中，所述根据所述第一连通分量，确定至少一个第二文本区域，包括：

确定由所述第一连通分量所对应的文本检测区域形成的至少一个第一初始文本区域；

确定所述第一初始文本区域对应的第一最小旋转矩形；

将所述第一最小旋转矩形所在区域作为所述第二文本区域。

在一示例性实施例中，所述预设条件还包括第二预设条件；所述检测方法还包括：

根据所述第二文本区域是否满足第二预设条件，确定第二无向图；

确定所述第二无向图中的至少一个第二连通分量；

根据所述第二连通分量，确定至少一个第三文本区域；

将所述第三文本区域作为所述第一文本区域。

在一示例性实施例中，所述根据所述第二文本区域是否满足第二预设条件，确定第二无向图，包括：

将每个所述第二文本区域作为所述第二无向图中的第二节点；

当所述第二文本区域与其他第二文本区域满足第二预设条件时，确定所述第二文本区域与所述其他第二文本区域对应的第二节点连通；

根据所述第二文本区域对应的第二节点之间的连通关系，确定所述第二无向图。

在一示例性实施例中，所述第二预设条件包括：

所述第二文本区域的面积与所述其他第二文本区域的面积比大于预设阈值；

所述第二文本区域与所述其他第二文本区域在第二方向的投影有重叠；以及

所述第二文本区域与所述其他第二文本区域之间的距离小于第二预设距离。

在一示例性实施例中，所述根据所述第二连通分量，确定至少一个第三文本区域，包括：

确定由所述第二连通分量所对应的第二文本区域所形成的至少一个第二初始文本区域；

确定所述第二初始文本区域对应的第二最小旋转矩形；

将所述第二最小旋转矩形所在区域作为所述第三文本区域。

在一示例性实施例中，所述根据所述第一文本区域，确定所述待检测图像中的目标文本区域，包括：

根据所述第一文本区域的面积和/或所述第一文本区域与所述待检测图像中拍摄焦点之间的距离，确定所述第一文本区域的表征值；

将所述表征值最大的第一文本区域作为目标文本区域。

在一示例性实施例中，所述检测方法还包括：

确定所述待检测图像中的多个初始文本检测区域；

确定所述初始文本检测区域在所述第一方向上的角度相关参数；

根据所述角度相关参数，确定所述初始文本检测区域基于所述第一方向的调整角度；

根据所述调整角度，调整所述初始文本检测区域，形成所述文本检测区域。

在一示例性实施例中，所述确定所述初始文本检测区域在所述第一方向上的角度相关参数，包括：

确定每个所述初始文本检测区域与所述第一方向之间的夹角；

确定包括所述初始文本检测区域的数量最多的角度范围；

将所确定的角度范围作为所述角度相关参数。

在一示例性实施例中，所述检测方法还包括：

根据初始待检测图像的大小和目标图像的大小，确定缩放因子；

确定所述初始待检测图像中每个所述文本检测区域的坐标；

根据所述缩放因子，调整所述初始待检测图像和每个所述文本检测区域的坐标，形成所述待检测图像。

根据本公开实施例的第二方面，提供一种文本区域的检测装置，应用于终端设备，所述检测装置包括：

第一确定模块，被配置为根据待检测图像中的多个文本检测区域确定至少一个第一文本区域，所述第一文本区域包括满足预设条件的至少两个所述文本检测区域；

第二确定模块，被配置为根据所述第一文本区域，确定所述待检测图像中的目标文本区域。

在一示例性实施例中，所述预设条件包括第一预设条件；

所述第一确定模块还被配置为：

确定所述第一无向图中的至少一个第一连通分量；

根据所述第一连通分量，确定至少一个第二文本区域；

将所述第二文本区域作为所述第一文本区域。

在一示例性实施例中，所述第一确定模块还被配置为：

在一示例性实施例中，所述第一预设条件包括：

在一示例性实施例中，所述第一确定模块还被配置为：

确定所述第一初始文本区域对应的第一最小旋转矩形；

将所述第一最小旋转矩形所在区域作为所述第二文本区域。

在一示例性实施例中，所述预设条件还包括第二预设条件；所述第一确定模块还被配置为：

确定所述第二无向图中的至少一个第二连通分量；

根据所述第二连通分量，确定至少一个第三文本区域；

将所述第三文本区域作为所述第一文本区域。

在一示例性实施例中，所述第一确定模块还被配置为：

在一示例性实施例中，所述第二预设条件包括：

在一示例性实施例中，所述第一确定模块还被配置为：

确定所述第二初始文本区域对应的第二最小旋转矩形；

将所述第二最小旋转矩形所在区域作为所述第三文本区域。

在一示例性实施例中，所述第二确定模块还被配置为：

将所述表征值最大的第一文本区域作为目标文本区域。

在一示例性实施例中，所述检测装置还包括调整模块，被配置为：

确定所述待检测图像中的多个初始文本检测区域；

在一示例性实施例中，所述调整模块还被配置为：

确定包括所述初始文本检测区域的数量最多的角度范围；

将所确定的角度范围作为所述角度相关参数。

在一示例性实施例中，所述检测装置还包括归一化模块，被配置为：

确定所述初始待检测图像中每个所述文本检测区域的坐标；

根据本公开实施例的第三方面，提供一种终端设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如本公开实施例的第一方面中所述的文本区域的检测方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如本公开实施例的第一方面中所述的文本区域的检测方法。

采用本公开的上述方法，具有以下有益效果：

本公开中的方法适用于包含各种文本类型的待检测图像，并且无需训练数据集，计算量较小，因此具有较好的鲁棒性，且能够节省开发成本，缩短文本区域的检测时间，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种文本区域的检测方法的流程图；

图2是根据一示例性实施例示出的步骤S101中根据待检测图像中的多个文本检测区域确定至少一个第一文本区域的方法流程图；

图3是根据一示例性实施例示出的步骤S201中确定第一无向图的方法流程图；

图4是根据一示例性实施例示出的第一无向图的示意图；

图5是根据一示例性实施例示出的步骤S203中根据第一连通分量确定至少一个第二文本区域的方法流程图；

图6是根据一示例性实施例示出的步骤S101中确定至少一个第一文本区域的方法流程图；

图7是根据一示例性实施例示出的步骤S601中确定第二无向图的方法流程图；

图8是根据一示例性实施例示出的第二无向图的示意图；

图9是根据一示例性实施例示出的步骤S403中根据第二连通分量确定至少一个第三文本区域的方法流程图；

图10是根据一示例性实施例示出的一种文本区域的检测方法的流程图；

图11是根据一示例性实施例示出的步骤S1002中确定初始文本检测区域在第一方向上的角度相关参数的方法流程图；

图12是根据一示例性实施例示出的一种文本区域的检测方法的流程图；

图13是根据一示例性实施例示出的一种文本区域的检测装置框图；

图14是根据一示例性实施例示出的用于执行文本区域检测的终端设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

相关技术中，从拍摄的图像中提取文本区域时，主要是采用计算机视觉领域中目标检测相关的深度学习算法，首先需要采集大量包含文字信息的图像，并依次对图像中的文字区域进行人工标注，然后将标注后的带有标签的图像作为训练数据集，使用训练数据集对目标检测模型进行训练，再使用训练好的目标检测模型检测图像中的文本区域。使用该文本区域的检测方法，存在以下缺点：1.由于现实生活中拍摄的包含文字信息的图像大多数都是非规则的文档图像，这类非规则文档图像难以采集和标注，因此，基于深度学习的方法鲁棒性较差，只在易采集和标注的规则文档图像上表现优异，如论文、书籍等规则文档图像，在大多数非规则的文档图像场景下表现不佳；2.由于基于深度学习的文本区域检测方法需要大量有标签的训练数据，因此开发成本极大；3.由于基于深度学习的文本区域检测方法计算量很大，耗时很长，因此难以应用在计算资源有限的智能手机上。

本公开示例性的实施例中，为了克服相关技术中的问题，提供了一种文本区域的检测方法，根据待检测图像中的多个文本检测区域确定至少一个第一文本区域，第一文本区域包括满足预设条件的至少两个文本检测区域；根据第一文本区域，确定待检测图像中的目标文本区域。通过确定至少两个文本检测区域是否满足预设条件，来确定第一文本区域，预设条件为可以形成第一文本区域的任意条件，适用于各种类型的文档图像，并且无需训练数据集，计算量较小，因此，本公开中提供的方法鲁棒性较好，且能够节省开发成本，缩短文本区域的检测时间，提升用户体验。

本公开示例性的实施例中，提供一种文本区域的检测方法，应用于终端设备，终端设备包括智能手机、平板等电子设备。图1是根据一示例性实施例示出的一种文本区域的检测方法的流程图，如图1所示，文本区域的检测方法包括以下步骤：

步骤S101，根据待检测图像中的多个文本检测区域确定至少一个第一文本区域，第一文本区域包括满足预设条件的至少两个文本检测区域；

步骤S102，根据第一文本区域，确定待检测图像中的目标文本区域。

在步骤S101中，待检测图像可以是由终端设备的相机或者相机设备等图像获取设备拍摄的任意包含文字信息的图像，例如，可以是拍摄书籍、报刊、论文等获得的包含文字信息图像，也可以是拍摄自然场景中广告牌、商品标签、指示标识等获得的包含文字信息的图像。可以根据待检测图像的特点，基于待检测图像中文字信息形成多个文本检测区域。例如对于逐行文字形成的文本信息，可以以行划分得到多个文本行，可以基于划分得到的多个文本行形成为多个文本检测区域。为了保证文本行划分的准确性，可以在文本行划分之前，使用抗干扰算法对待检测图像进行背景干扰信息去除，例如干扰花纹、干扰线条、污渍等。文本检测区域可以为直接在待检测图像中划分出的初始文本检测区域，也可以为对初始文本检测区域进行旋转矫正后的文本检测区域。

在获取待检测图像中的多个文本检测区域和预设条件后，对每两个文本检测区域之间进行判断，确定是否满足预设条件，将满足预设条件的至少两个文本检测区域确定为一个第一文本区域，从而确定出至少一个文本区域。

在步骤S102中，待检测图像中的目标文本区域为感兴趣文本区域，即用户期望能够在待检测图像中提取出的文本区域。第一文本区域是由符合预设条件的文本检测区域所确定的，例如将位置上相邻且距离较近的文本检测区域确定为第一文本区域，或者满足其他期望要求的文本检测区域确定为第一文本区域。例如，当文本检测区域1与文本检测区域2上下相邻且距离较近，文本检测区域2与文本检测区域3上下相邻且距离较近，文本检测区域1与文本检测区域4左右相邻且距离较近时，可以将依次相邻的文本检测区域1、文本检测区域2和文本检测区域3与文本检测区域4共同组成的文本区域确定为第一文本区域，当第一文本区域是由较多的相邻且距离较近的文本检测区域所确定时，第一文本区域可以看作是一个文本块区域。在根据第一文本区域确定目标文本区域时，可以根据任一规则确定，例如第一文本区域的面积或者根据第一文本区域与相机拍摄焦点之间的距离来确定目标文本区域，例如可以将距离相机拍摄焦点最近且面积最大的第一文本区域确定为目标文本区域。

在本公开示例性的实施例中，通过将满足预设条件的至少两个文本检测区域确定为一个第一文本区域，根据待检测图像中的多个文本检测区域确定出至少一个第一文本区域，并根据第一文本区域，确定待检测图像中的目标文本区域。本公开中的方法适用于包含各种文本类型的待检测图像，并且无需训练数据集，计算量较小，因此具有较好的鲁棒性，且能够节省开发成本，缩短文本区域的检测时间，提升用户体验。

在一示例性实施例中，预设条件包括第一预设条件，图2是根据一示例性实施例示出的步骤S101中根据待检测图像中的多个文本检测区域确定至少一个第一文本区域的方法流程图，如图2所示，包括以下步骤：

步骤S201，根据多个文本检测区域中每个文本检测区域与其他文本检测区域是否满足第一预设条件，确定第一无向图；

步骤S202，确定第一无向图中的至少一个第一连通分量；

步骤S203，根据第一连通分量，确定至少一个第二文本区域；

步骤S204，将第二文本区域作为第一文本区域。

在步骤S201中，将待检测图像中所有文本检测区域，以及所有文本检测区域之间的关系，作为第一无向图中的元素，确定第一无向图。其中，所有文本检测区域之间的关系包括满足第一预设条件和不满足第一预设条件，对每个文本检测区域进行遍历，确定每个文本检测区域与其他文本检测区域是否满足第一预设条件，满足第一预设条件的两个文本检测区域之间具有连通特性，不满足第一预设条件的两个文本检测区域之间不具有连通特性，由此确定第一无向图。

在步骤S202中，根据第一无向图中各个文本检测区域之间的关系，确定至少一个第一连通分量，连通分量为第一无向图中的极大连通子图，连通分量的个数可以为一个也可以为多个，例如当待检测图像中包括文本检测区域A、文本检测区域B和文本检测区域C时，如果文本检测区域A和文本检测区域B之间满足第一预设条件，即具有连通特征，文本检测区域C与文本检测区域B和文本检测区域A之间均不满足第一预设条件，即不具有连通特性，则由此确定的第一无向图中的第一连通分量的个数为两个，分别为文本检测区域A与文本检测区域B组成的连通分量，以及文本检测区域C单独组成的连通分量。如果文本检测区域A和文本检测区域B之间满足第一预设条件，即具有连通特征，文本检测区域C和文本检测区域B之间满足第一预设条件，即具有连通特性，则由此确定的第一无向图中的第一连通分量的个数为1个，即为文本检测区域A、文本检测区域B和文本检测区域C组成的连通分量。

在步骤S203中，将每个第一连通分量确定为一个第二文本区域，例如将每个第一连通分量中包括的所有文本检测区域形成一个第二文本区域，即可实现将文本行形成文本块的技术效果。

在步骤S204中，将基于第一连通分量确定的第二文本区域作为第一文本区域，并在后续步骤中确定出目标文本区域。

由于预设条件为能够将有关联的文本检测区域确定为第一文本区域的条件，因此在确定第一文本区域时，将多个文本检测区域构成无向图，通过确定无向图中的连通分量，能够更加直观、方便地描述连通特性，快速确定出第一文本区域。

在一示例性实施例中，图3是根据一示例性实施例示出的步骤S201中确定第一无向图的方法流程图，如图3所示，包括以下步骤：

步骤S301，将每个文本检测区域作为第一无向图中的第一节点；

步骤S302，当文本检测区域与其他文本检测区域满足第一预设条件时，确定文本检测区域与其他文本检测区域对应的第一节点相连通；

步骤S303，根据文本检测区域对应的第一节点之间的连通关系，确定第一无向图。

例如，待检测图像中包括文本检测区域A、文本检测区域B、文本检测区域C、文本检测区域D和文本检测区域F，将每个文本检测区域作为第一无向图中的第一节点，图4是根据一示例性实施例示出的第一无向图的示意图，如图4所示，文本检测区域A为节点A，文本检测区域B为节点B，文本检测区域C为节点C，文本检测区域D为节点D，文本检测区域F为节点F，第一无向图记为G1，则第一无向图中的节点集合为V(G1)＝{A，B，C，D，F}。

当文本检测区域与其他文本检测区域满足第一预设条件时，确定文本检测区域与其他文本检测区域对应的第一节点相连通，即满足第一预设条件的文本检测区域对应的节点之间连成一条边。如果文本检测区域A与文本检测区域B之间满足第一预设条件，文本检测区域B与文本检测区域C之间满足第一预设条件，文本检测区域D与文本检测区域F之间满足第一预设条件，如图4所示，则节点A与节点B之间连成一条边，节点B与节点C之间连成一条边，节点D和节点F之间连成一条边，第一无向图记为G1，则第一无向图中的边集合为E(G1)＝{(A，B，C)，(D，F)}。

根据文本检测区域对应的第一节点之间的连通关系，即根据节点集合V(G1)＝{A，B，C，D，F}和边集合E(G1)＝{(A，B，C)，(D，F)}，确定出如图4所示的包括两个第一连通分量的第一无向图。

在一示例性实施例中，步骤S201中的第一预设条件包括：

文本检测区域与其他文本检测区域在第一方向上的投影有重叠；

文本检测区域与其他文本检测区域之间的距离小于第一预设距离。

第一方向可以根据文本检测区域的特征确定，例如，如果文本检测区域为基于文本行所形成的，第一方向可以为沿文本行方向，即第一方向可以是水平方向。当第一方向为水平方向时，第一方向上的投影有重叠的两个文本检测区域，表示两个文本检测区域为上下位置关系。两个文本检测区域之间的距离可以为两个文本检测区域中心点之间的距离，也可以为两个文本检测区域距离最近的两条边之间的距离，还可以为两个文本检测区域中文本行之间的行间距。第一预设距离为经验值，例如当两个文本检测区域之间的距离为两个文本检测区域距离最近的两条边之间的距离时，第一预设距离为30像素。当文本检测区域与其他文本检测区域同时满足以上两个条件时，即确定满足第一预设条件。

在一示例性实施例中，图5是根据一示例性实施例示出的步骤S203中根据第一连通分量确定至少一个第二文本区域的方法流程图，如图5所示，包括以下步骤：

步骤S501，确定由第一连通分量所对应的文本检测区域形成的至少一个第一初始文本区域；

步骤S502，确定第一初始文本区域对应的第一最小旋转矩形；

步骤S503，将第一最小旋转矩形所在区域作为第二文本区域。

确定第一无向图中的第一连通分量后，将每个第一连通分量中包括的所有文本检测区域形成第一初始文本区域。第一初始文本区域对应的第一最小旋转矩形为能够覆盖第一初始文本区域中所有区域的最小面积的矩形区域，该矩形区域可以为任意角度的矩形区域。将第一最小旋转矩形所在的区域作为第二文本区域，能够避免放大第一初始文本区域，导致后续判断出现误差。

在一示例性实施例中，基于上述根据待检测图像中的多个文本检测区域确定至少一个第一文本区域的方法，预设条件还包括第二预设条件，图6是根据一示例性实施例示出的步骤S101中确定至少一个第一文本区域的方法流程图，如图6所示，包括以下步骤：

步骤S601，根据第二文本区域是否满足第二预设条件，确定第二无向图；

步骤S602，确定第二无向图中的至少一个第二连通分量；

步骤S603，根据第二连通分量，确定至少一个第三文本区域；

步骤S604，将第三文本区域作为第一文本区域。

在步骤S601中，在确定第二文本区域后，将待检测图像中所有第二文本区域，以及第二文本区域之间的关系，作为第二无向图中的元素，确定第二无向图。其中，第二文本区域之间的关系包括满足第二预设条件和不满足第二预设条件，对每个第二文本区域之间进行判断，以确定每个第二文本区域与其他第二文本区域是否满足第二预设条件，满足第二预设条件的两个第二文本检测区域之间具有连通特性，不满足第二预设条件的两个第二文本区域之间不具有连通特性，由此确定第二无向图。

在步骤S602中，根据第二无向图中各个第二文本区域之间的关系，确定至少一个第二连通分量。例如当待检测图像中包括第二文本区域I、第二文本区域II和第二文本区域III时，如果第二文本区域I和第二文本区域II之间满足第二预设条件，即具有连通特征，第二文本区域III与第二文本区域II之间满足第二预设条件，即具有连通特性，则由此确定的第二无向图中的第二连通分量的个数为一个，第二连通分量为第二文本区域I与第二文本区域II以及第二文本区域III组成的连通分量；如果第二文本区域I和第二文本区域II之间满足第二预设条件，即具有连通特征，第二文本区域III与第二文本区域II和第二文本区域I之间均不满足第二预设条件，即不具有连通特性，则由此确定的第二无向图中的第二连通分量的个数为两个，即第二文本区域I和第二文本区域II组成的连通分量，第二文本区域III单独组成的连通分量。

在步骤S603中，将每个第二连通分量确定为一个第三文本区域，例如将每个第二连通分量中包括的所有第二文本区域形成一个第三文本区域，即可实现将文本块形成面积更大的文本块的技术效果。

在步骤S604中，将基于第二连通分量确定的第三文本区域作为第一文本区域，并在后续步骤中确定出目标文本区域。

在本公开示例性的实施例中，在确定第二文本区域后，再将第二文本区域构成无向图，通过确定无向图中的连通分量，能够将相邻文本块确定为面积更大的文本块，作为第一文本区域，以保证第一文本区域内的文字信息具有关联性。

在一示例性实施例中，图7是根据一示例性实施例示出的步骤S601中确定第二无向图的方法流程图，如图7所示，包括以下步骤：

步骤S701，将每个第二文本区域作为第二无向图中的第二节点；

步骤S702，当第二文本区域与其他第二文本区域满足第二预设条件时，确定第二文本区域与其他第二文本区域对应的第二节点连通；

步骤S703，根据第二文本区域对应的第二节点之间的连通关系，确定第二无向图。

例如，确定出第二文本区域后，待检测图像中包括第二文本区域I、第二文本区域II、第二文本区域III和第二文本区域Ⅳ，将每个第二文本区域作为第二无向图中的第二节点，图8是根据一示例性实施例示出的第二无向图的示意图，如图8所示，第二文本区域I为节点I，第二文本区域II为节点II，第二文本区域III为节点III，第二文本区域Ⅳ为节点Ⅳ，第二无向图记为G2，则第二无向图中的节点集合为V(G2)＝{I，II，III，Ⅳ}。

当第二文本区域与其他第二文本区域满足第二预设条件时，确定第二文本区域与其他第二文本区域对应的第二节点相连通，即满足第二预设条件的第二文本区域对应的节点之间连成一条边。如果第二文本区域I与第二文本区域II之间满足第二预设条件，第二文本区域III与第二文本区域Ⅳ之间满足第二预设条件，如图8所示，则节点I与节点II之间连成一条边，节点III与节点Ⅳ之间连成一条边，第二无向图记为G2，则第二无向图中的边集合为E(G2)＝{(I，II)，(III，Ⅳ)}。

根据第二文本区域对应的第二节点之间的连通关系，即根据节点集合V(G2)＝{I，II，III，Ⅳ}和边集合E(G2)＝{(I，II)，(III，Ⅳ)}，确定出如图8所示的包括两个第二连通分量的第二无向图。

在一示例性实施例中，步骤S401中的第二预设条件包括：

第二文本区域的面积与其他第二文本区域的面积之比大于预设阈值；

第二文本区域与其他第二文本区域在第二方向的投影有重叠；以及

第二文本区域与其他第二文本区域之间的距离小于第二预设距离。

第二文本区域的面积与其他第二文本区域的面积之比的预设阈值为经验值，为了保证两个第二文本区域中文字信息量的一致性，预设阈值可以为0.1。第二方向可以是与第一方向不同的方向，与第一方向可以呈预设角度。预设角度可以根据图像中文字的特点而定，例如预设角度可以为90度。例如，当第一方向为水平方向时，第二方向为竖直方向。当第二方向为竖直方向时，第二方向上的投影有重叠的两个第二文本区域，表示两个第二文本区域为左右位置关系。两个第二文本区域之间的距离可以为两个第二文本区域中心点之间的距离，也可以为两个第二文本区域距离最近的两条边之间的距离。第二预设距离为经验值，例如当第二方向为竖直方向，且两个第二文本区域之间的距离为两个第二文本区域距离最近的两条边之间的距离时，第二预设距离为40像素。当第二文本区域与其他第二文本区域同时满足以上三个条件时，即确定满足第二预设条件。

在一示例性实施例中，图9是根据一示例性实施例示出的步骤S403中根据第二连通分量确定至少一个第三文本区域的方法流程图，如图9所示，包括以下步骤：

步骤S901，确定由第二连通分量所对应的第二文本区域所形成的至少一个第二初始文本区域；

步骤S902，确定第二初始文本区域对应的第二最小旋转矩形；

步骤S903，将第二最小旋转矩形所在区域作为第三文本区域。

确定第二无向图中的第二连通分量后，将每个第二连通分量中包括的所有第二文本区域形成第二初始文本区域。第二初始文本区域对应的第二最小旋转矩形为能够覆盖第二初始文本区域中所有区域的最小面积的矩形区域，该矩形区域可以为任意角度的矩形区域。将第二最小旋转矩形所在的区域作为第三文本区域，能够避免放大第二初始文本区域，导致后续判断出现误差。

在一示例性实施例中，步骤S102中根据第一文本区域，确定待检测图像中的目标文本区域，包括：

根据第一文本区域的面积和/或第一文本区域与待检测图像中拍摄焦点之间的距离，确定第一文本区域的表征值；

将表征值最大的第一文本区域作为目标文本区域。

待检测图像中拍摄焦点为终端设备拍摄待检测图像时的相机焦点，也可以为终端设备拍摄待检测图像时用户的点击位置。第一文本区域与待检测图像中拍摄焦点之间的距离，可以为第一文本区域中心点与拍摄焦点之间的距离，也可以为第一文本区域距离拍摄焦点最近的一条边到拍摄焦点的最短距离。当第一文本区域与待检测图像中拍摄焦点之间的距离，为第一文本区域距离拍摄焦点最近的一条边到拍摄焦点的最短距离时，如果拍摄焦点在第一文本区域内部，则第一文本区域与待检测图像中拍摄焦点之间的距离为0。

在一示例中，根据第一文本区域的面积和第一文本区域与待检测图像中拍摄焦点之间的距离，通过以下公式确定第i个第一文本区域的表征值：

其中，S_i表示第i个第一文本区域的表征值，d_i表示第i个第一文本区域与拍摄焦点之间的距离，将每个第一文本区域与拍摄焦点之间的距离值组成距离值集合，d_max表示距离值集合中的最大距离值，d_min表示距离值集合中的最小距离值，s_i表示第i个第一文本区域的面积，s_max表示所有第一文本区域的面积中面积的最大值，s_min表示所有第一文本区域的面积中面积的最小值。

获取每个第一文本区域的表征值后，将表征值最大的第一文本区域作为目标文本区域，能够准确选择出用户期望提取的文本区域。

在一示例性实施例中，在步骤S101中根据待检测图像中的多个文本检测区域确定至少一个第一文本区域之前，图10是根据一示例性实施例示出的文本区域的检测方法的流程图，如图10所示，检测方法包括以下步骤：

步骤S1001，确定待检测图像中的多个初始文本检测区域；

步骤S1002，确定初始文本检测区域在第一方向上的角度相关参数；

步骤S1003，根据角度相关参数，确定初始文本检测区域基于第一方向的调整角度；

步骤S1004，根据调整角度，调整初始文本检测区域，形成文本检测区域。

在步骤S1001中，待检测图像中的多个初始文本检测区域为直接对待检测图像进行文本行划分后得到的文本检测区域，由于待检测图像可以为任意包含文字信息的图像，因此可能存在文字信息不规则的情况，因此初始文本检测区域的位置可能存在上下或者左右倾斜的情况。

在步骤S1002中，初始文本检测区域与第一方向上的夹角范围可以为0～180度，确定角度相关参数时，角度相关参数可以为每个初始文本区域与第一方向的夹角的角度集合，也可以将所有初始文本检测区域与第一方向上的夹角划定为多个角度范围，角度相关参数为在不同角度范围内的初始文本检测区域的数量的集合。

在步骤S1003中，确定角度相关参数后，根据角度相关参数，确定初始文本检测区域基于水平方向的调整角度。当角度相关参数为每个初始文本区域与水平方向的夹角的角度集合时，可以将集合中夹角数值的中位数作为调整角度，也可以将集合中与夹角数值的平均数相差最小的夹角数值作为调整角度；当角度相关参数为在不同角度范围内的初始文本检测区域的数量的集合时，可以将数量集合中数量值最大的角度范围内所有夹角数值的中位数作为调整角度，也可以将与平均数相差最小的夹角数值作为调整角度，平均数为数量集合中数量值最大的角度范围内夹角数值的平均数。

在步骤S1004中，根据调整角度，调整初始文本检测区域，形成文本检测区域。例如，当角度相关参数为包含初始文本检测区域最多的夹角的集合，并将集合中夹角数值的中位数α夹角作为调整角度时，说明大多数初始文本检测区域与水平方向的夹角为α，此时将所有初始文本检测区域向夹角相反的方向旋转α角度，例如当α为水平方向的水平线沿顺时针旋转形成的α角度时，则调整时将初始文本检测区域沿逆时针旋转α角度，旋转后的初始文本检测区域即为调整后形成的文本检测区域。

通过初始文本检测区域在第一方向上的角度相关参数，确定初始文本区域的调整角度，根据调整角度对初始文本区域进行调整，能够对待检测图像中的文本信息进行矫正，使得文本检测区域接近水平方向，提高文本区域检测的准确性。

在一示例性实施例中，图11是根据一示例性实施例示出的步骤S1002中确定初始文本检测区域在第一方向上的角度相关参数的方法流程图，如图11所示，包括以下步骤：

步骤S1101，确定每个初始文本检测区域与第一方向之间的夹角；

步骤S1102，确定包括初始文本检测区域的数量最多的角度范围；

步骤S1103，将所确定的的角度范围作为角度相关参数。

为了保证调整角度能够适用于大多数初始文本检测区域，可以将初始文本检测区域与第一方向上的夹角范围划分为多个角度范围，将包括初始文本检测区域的数量最多的角度范围，作为初始文本检测区域在第一方向上的角度相关参数。确定包括初始文本检测区域的数量最多的角度范围时，可以使用统计分析方法，例如mean-shift聚类算法，将每个初始文本检测区域与第一方向之间的夹角作为聚类算法的特征输入，即可得到基于夹角的多个角度分组，每个角度分组中至少包括一个夹角数值，再分别计算每个角度分组中对应的初始文本检测区域的数量，将对应的初始文本检测区域的数量最多的角度分组，确定为包括初始文本检测区域的数量最多的角度范围。

在一示例性实施例中，在步骤S101中根据待检测图像中的多个文本检测区域确定至少一个第一文本区域之前，图12是根据一示例性实施例示出的文本区域的检测方法的流程图，如图12所示，检测方法包括以下步骤：

步骤S1201，根据初始待检测图像的大小和目标图像的大小，确定缩放因子；

步骤S1202，确定初始待检测图像中每个文本检测区域的坐标；

步骤S1203，根据缩放因子，调整初始待检测图像和每个文本检测区域的坐标，形成待检测图像。

初始待检测图像为终端设备拍摄得到的图像，或者为终端设备接收到的需要进行文本区域检测的图像，目标图像为执行后续文本区域检测的图像，目标图像的大小为固定值，可以根据实际需求确定，例如可以为1000×1000像素。根据初始待检测图像和目标图像，确定缩放因子时，例如初始待检测图像的高为h1，宽为w1，则大小为h1×w1，目标图像的高为h2，宽为w2，则大小为h2×w2，因此高度方向的缩放因子为r_h＝h1/h2，宽度方向的缩放因子r_w＝w1/w2。

确定初始待检测图像中每个文本检测区域的坐标，可以将初始待检测图像的一个顶点作为坐标系的原点，水平方向的边作为x轴，竖直方向的边作为y轴，每个文本检测区域的四个顶点的坐标作为每个文本检测区域的坐标。基于缩放因子，将初始待检测图像调整至目标图像大小，同时调整每个文本检测区域的坐标，将坐标中的横坐标除以r_w，纵坐除以r_h，即可得到调整后的待检测图像。

将初始待检测图像缩放至固定大小的目标图像大小，能够在初始待检测图像较大时，即终端设备在较远距离拍摄待检测物体时，使得最终所确定的目标文本区域较大，在初始待检测图像较小时，即终端设备在较近距离拍摄待检测物体时，使得最终所确定的目标文本区域较小，能够充分满足用户对文本区域的检测需求，提升用户体验。

本公开示例性的实施例中，提供一种文本区域的检测装置，应用于终端设备。图13是根据一示例性实施例示出的一种文本区域的检测装置框图，如图13所示，文本区域的检测装置包括：

第一确定模块1301，被配置为根据待检测图像中的多个文本检测区域确定至少一个第一文本区域，所述第一文本区域包括满足预设条件的至少两个所述文本检测区域；

第二确定模块1302，被配置为根据所述第一文本区域，确定所述待检测图像中的目标文本区域。

在一示例性实施例中，所述预设条件包括第一预设条件；

所述第一确定模块1301还被配置为：

确定所述第一无向图中的至少一个第一连通分量；

根据所述第一连通分量，确定至少一个第二文本区域；

将所述第二文本区域作为所述第一文本区域。

在一示例性实施例中，所述第一确定模块1301还被配置为：

在一示例性实施例中，所述第一预设条件包括：

在一示例性实施例中，所述第一确定模块1301还被配置为：

确定所述第一初始文本区域对应的第一最小旋转矩形；

将所述第一最小旋转矩形所在区域作为所述第二文本区域。

在一示例性实施例中，所述预设条件还包括第二预设条件；所述第一确定模块1301还被配置为：

确定所述第二无向图中的至少一个第二连通分量；

根据所述第二连通分量，确定至少一个第三文本区域；

将所述第三文本区域作为所述第一文本区域。

在一示例性实施例中，所述第一确定模块1301还被配置为：

在一示例性实施例中，所述第二预设条件包括：

在一示例性实施例中，所述第一确定模块1301还被配置为：

确定所述第二初始文本区域对应的第二最小旋转矩形；

将所述第二最小旋转矩形所在区域作为所述第三文本区域。

在一示例性实施例中，所述第二确定模块1302还被配置为：

将所述表征值最大的第一文本区域作为目标文本区域。

在一示例性实施例中，所述检测装置还包括调整模块1303，被配置为：

确定所述待检测图像中的多个初始文本检测区域；

在一示例性实施例中，所述调整模块1303还被配置为：

确定包括所述初始文本检测区域的数量最多的角度范围；

将所确定的角度范围作为所述角度相关参数。

在一示例性实施例中，所述检测装置还包括归一化模块1304，被配置为：

确定所述初始待检测图像中每个所述文本检测区域的坐标；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图14是根据一示例性实施例示出的用于执行文本区域检测的终端设备1400的框图。

参照图14，终端设备1400可以包括以下一个或多个组件：处理组件1402，存储器1404，电源组件1406，多媒体组件1408，音频组件1410，输入/输出(I/O)的接口1412，传感器组件1414，以及通信组件1416。

处理组件1402通常控制终端设备1400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1402可以包括一个或多个处理器1420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1402可以包括一个或多个模块，便于处理组件1402和其他组件之间的交互。例如，处理组件1402可以包括多媒体模块，以方便多媒体组件1408和处理组件1402之间的交互。

存储器1404被配置为存储各种类型的数据以支持在终端设备1400的操作。这些数据的示例包括用于在终端设备1400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1406为终端设备1400的各种组件提供电源。电源组件1406可以包括电源管理系统，一个或多个电源，及其他与为终端设备1400生成、管理和分配电力相关联的组件。

多媒体组件1408包括在所述终端设备1400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1408包括一个前置摄像头和/或后置摄像头。当终端设备1400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1410被配置为输出和/或输入音频信号。例如，音频组件1410包括一个麦克风(MIC)，当终端设备1400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1404或经由通信组件1416发送。在一些实施例中，音频组件1410还包括一个扬声器，用于输出音频信号。

I/O接口1412为处理组件1402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1414包括一个或多个传感器，用于为终端设备1400提供各个方面的状态评估。例如，传感器组件1414可以检测到终端设备1400的打开/关闭状态，组件的相对定位，例如所述组件为终端设备1400的显示器和小键盘，传感器组件1414还可以检测终端设备1400或终端设备1400一个组件的位置改变，用户与终端设备1400接触的存在或不存在，终端设备1400方位或加速/减速和终端设备1400的温度变化。传感器组件1414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1416被配置为便于终端设备1400和其他设备之间有线或无线方式的通信。终端设备1400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端设备1400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1404，上述指令可由终端设备1400的处理器1420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行上述的文本区域的检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文本区域的检测方法，应用于终端设备，其特征在于，所述检测方法包括：

2.根据权利要求1所述的文本区域的检测方法，其特征在于，所述预设条件包括第一预设条件；

确定所述第一无向图中的至少一个第一连通分量；

根据所述第一连通分量，确定至少一个第二文本区域；

将所述第二文本区域作为所述第一文本区域。

3.根据权利要2所述的文本区域的检测方法，其特征在于，所述根据多个所述文本检测区域中每个文本检测区域与其他文本检测区域是否满足所述第一预设条件，确定第一无向图，包括：

4.根据权利要3所述的文本区域的检测方法，其特征在于，所述第一预设条件包括：

5.根据权利要2所述的文本区域的检测方法，其特征在于，所述根据所述第一连通分量，确定至少一个第二文本区域，包括：

确定所述第一初始文本区域对应的第一最小旋转矩形；

将所述第一最小旋转矩形所在区域作为所述第二文本区域。

6.根据权利要求2-5任一所述的文本区域的检测方法，其特征在于，所述预设条件还包括第二预设条件；所述检测方法还包括：

确定所述第二无向图中的至少一个第二连通分量；

根据所述第二连通分量，确定至少一个第三文本区域；

将所述第三文本区域作为所述第一文本区域。

7.根据权利要求6所述的文本区域的检测方法，其特征在于，所述根据所述第二文本区域是否满足第二预设条件，确定第二无向图，包括：

8.根据权利要求7所述的文本区域的检测方法，其特征在于，所述第二预设条件包括：

所述第二文本区域的面积与所述其他第二文本区域的面积之比大于预设阈值；

9.根据权利要求8所述的文本区域的检测方法，其特征在于，所述根据所述第二连通分量，确定至少一个第三文本区域，包括：

确定所述第二初始文本区域对应的第二最小旋转矩形；

将所述第二最小旋转矩形所在区域作为所述第三文本区域。

10.根据权利要求1所述的文本区域的检测方法，其特征在于，所述根据所述第一文本区域，确定所述待检测图像中的目标文本区域，包括：

将所述表征值最大的第一文本区域作为目标文本区域。

11.根据权利要求1-10任一所述的文本区域的检测方法，其特征在于，所述检测方法还包括：

确定所述待检测图像中的多个初始文本检测区域；

12.根据权利要求11所述的文本区域的检测方法，其特征在于，所述确定所述初始文本检测区域在所述第一方向上的角度相关参数，包括：

确定包括所述初始文本检测区域的数量最多的角度范围；

将所确定的角度范围作为所述角度相关参数。

13.根据权利要求11或12所述的文本区域的检测方法，其特征在于，所述检测方法还包括：

确定所述初始待检测图像中每个所述文本检测区域的坐标；

14.一种文本区域的检测装置，应用于终端设备，其特征在于，所述检测装置包括：

15.根据权利要求14所述的文本区域的检测装置，其特征在于，所述检测装置还包括调整模块，被配置为：

确定所述待检测图像中的多个初始文本检测区域；

16.根据权利要求15所述的文本区域的检测装置，其特征在于，所述检测装置还包括归一化模块，被配置为：

确定所述初始待检测图像中每个所述文本检测区域的坐标；

17.一种终端设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1-13中任一项所述的文本区域的检测方法。

18.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行如权利要求1-13中任一项所述的文本区域的检测方法。