CN112232341A

CN112232341A - 文本检测方法、电子设备及计算机可读介质

Info

Publication number: CN112232341A
Application number: CN202011434087.5A
Authority: CN
Inventors: 张蓓蓓; 秦勇
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-01-15
Anticipated expiration: 2040-12-10
Also published as: CN112232341B

Abstract

本发明实施例公开了一种本发明实施例提供的文本检测方法、电子设备及计算机可读介质，在进行文本检测时，使用圆形检测框代替传统的矩形检测框或带角度矩形检测框等，从而避免了由于检测框方向变化带来的识别错误的问题。利用圆形框检测每个单独的字符，然后根据单独的字符检测结果和各个字符间的位置关系组成长曲文本的检测结果，相比于直接识别一串文本字符，识别单字符难度较低，同时准确度也更高。

Description

文本检测方法、电子设备及计算机可读介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种文本检测方法、电子设备及计算机可读介质。

背景技术

文本检测是一种检测图像中的文本区域并标记其边界框的技术，文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等。

文本检测的主要目的是定位文本行或字符在图像中的位置，目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以这些锚点框为滑动窗口，在图像上或者在从图像上进行过卷积操作得到的特征图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定。

但是，对于长曲文本，上述方法往往会出现框不全或者框住大量无用背景的情况，导致文本检测不准确或者文本检测的效率较低。

发明内容

本发明提供了一种文本检测方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种文本检测方法，所述方法包括：对待检测文本图像进行特征提取，得到多通道特征图；所述多通道特征图包括：用于标示单个字符位置的圆形框的中心点概率的得分特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移特征图、用于指示所述圆形框的中心点纵向偏移量的第二偏移特征图、用于指示所述圆形框的半径大小的半径特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标特征图和所述起始点纵向坐标的纵坐标特征图、以及用于指示所述圆形框距离所述起始点的距离的距离特征图；根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系；根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果，确定所述待检测文本图像的检测结果。

根据本发明实施例的第二方面，提供了一种电子设备，所述设备包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的文本检测方法。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的文本检测方法。

本发明实施例提供的文本检测方法、电子设备及计算机可读介质，在进行文本检测时，使用圆形框（圆形检测框）代替传统的矩形检测框（或带角度矩形检测框等）；通过多通道特征图，即得分特征图（用于标示单个字符位置的圆形框的中心点概率）、第一偏移特征图（用于指示所述圆形框的中心点横向偏移量）、第二偏移特征图（用于指示所述圆形框的中心点纵向偏移量）、半径特征图（用于指示所述圆形框的半径大小）、横坐标特征图（用于指示所述圆形框对应的长曲文本框的起始点横向坐标）、纵坐标特征图（用于指示所述圆形框对应的长曲文本框的起始点纵向坐标）和距离特征图（用于指示所述圆形框距离所述起始点的距离）；基于这些特征图能够确定待检测文本图像中各个字符的位置及各个字符间的位置关系，最终得到待检测文本图像的检测结果。其中，通过使用圆形框，可以有效避免由于检测框方向变化带来的信息或者数据错误的问题；通过得分特征图、第一偏移特征图、第二偏移特征图和半径特征图可以直接且准确地框定各个字符所在位置；通过横坐标特征图、纵坐标特征图和距离特征图可以准确确定各个圆形框在长曲文本框中的位序。基于此，在获得了各个字符的文本识别结果后，即可直接确定长曲文本对应的文本检测结果。由此，对于长曲文本，可以有效避免传统方式中经常出现的长曲文本框无法框住全部字符或者可能框住大量无用背景的情况，提升了长曲文本检测的准确度和效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明实施例一的一种文本检测方法的步骤流程图；

图2为根据本发明实施例一的一种文本框示意图；

图3为根据本发明实施例二的一种文本检测模型训练方法的流程图；

图4为根据本发明实施例三的一种文本检测方法的步骤流程图；

图5为根据本发明实施例四的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一

参照图1，示出了根据本发明实施例一的一种文本检测方法的步骤流程图。

本实施例的文本检测方法包括以下步骤：

步骤101、对待检测文本图像进行特征提取，得到多通道特征图。

本发明实施例中，待检测文本图像为包含长曲文本的图像。需要说明的是，本申请实施例中的文本检测方法可适用于具有各种文本密度的文本检测，尤其是包含密集长曲文本的文本检测，应该明了，对于常规文本而言，可以采用常规文本检测和识别处理，也可以采用本申请实施例中的文本检测方法进行检测和识别处理。上述各种文本密度的文本包括但不限于常规密度文本、密集密度文本、稀疏密度文本。其中，确定某个文本是否为密集文本的具体指标可以由本领域技术人员根据实际情况适当设置，包括但不限于：根据文本之间的间距（如间距小于2磅等）、根据单位范围内的文本的数量（如每平方厘米中的文本数量多于3个等）等等，本实施例对此不作限制。

上述多通道特征图可以是7通道特征图，具体包括：用于标示单个字符位置的圆形框的中心点概率的得分特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移特征图、用于指示所述圆形框的中心点纵向偏移量的第二偏移特征图、用于指示所述圆形框的半径大小的半径特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标特征图和所述起始点纵向坐标的纵坐标特征图、以及用于指示所述圆形框距离所述起始点的距离的距离特征图。

在一个示例中，对待检测文本图像进行特征提取时，可以先将待检测文本图像输入Resnet18网络，进行图像特征的提取，得到4组特征图；然后将得到的4组特征图上采样到原始图像（待检测文本图像）1/4大小并串联在一起；接着对串联后的特征图进行卷积反卷积操作，得到与原始图像大小相同的7通道特征图。但不限于此，其它可得到所述7通道特征图的方式也同样适用于本发明实施例的方案。

步骤102、根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系。

例如，可以根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、以及所述半径特征图，确定各个字符对应的所述圆形框，得到所述待检测文本图像中各个字符的位置；然后根据所述横坐标特征图和所述纵坐标特征图，确定所述圆形框对应的长曲文本框的起始点坐标；最后根据所述起始点坐标和所述距离特征图，确定与所述长曲文本框对应的各个圆形框的位置关系，得到所述待检测文本图像中各个字符间的位置关系。

在本实施例中，得分特征图的每个像素点值在0到1之间，表示当前的像素点是圆形框中心点的概率，该圆形框是指包围单个字符的圆框线。因此，根据该得分图，可以确定像素点是否是圆形框中心点以及该像素点对应的坐标。第一偏移特征图和第二偏移特征图表示圆形框中心点对应的坐标的X轴和Y轴偏移量；半径特征图可以表示圆形框的半径大小，故，可以根据得分特征图、第一偏移特征图、第二偏移特征图、以及半径特征图，确定各个字符对应的圆形框，得到待检测文本图像中各个字符的位置。

横坐标特征图和纵坐标特征图，能够表示圆形框对应的长曲文本框的起始点的坐标（即起始点的横坐标和纵坐标）。因此，基于横坐标特征图和纵坐标特征图，能够得到圆形框对应的长曲文本框的起始点坐标。在实际应用中，所述起始点坐标可以是长曲文本框的一个侧边如左侧边或右侧边上的任意一个像素点的坐标，而不仅限于长曲文本框的顶点坐标。

距离特征图能够表示各圆形框中心点距离起始点的距离，通过该距离的大小，可以确定长曲文本框对应的圆形框的先后位置关系，由于圆形框能够标示各个字符的位置，因此，即得到了待检测文本图像中各个字符间的位置关系。在本实施例中，以起始点为长曲文本框左上顶点为例，参考图2，可见，“我”字距离起始点最近，“好”距离起始点最远。可以理解，每个圆形框都对应有一个起始点坐标，当若干个圆形框对应的起始点坐标为同一个起始点坐标时，这若干个圆形框即为同一长曲文本框中的圆形框。根据这若干个圆形框中每个圆形框与起始点的距离，得到每个圆形框之间的位置关系。

通过上述7通道特征图，能够确定各个字符对应的圆形框，得到待检测文本图像中各个字符的位置；能够确定圆形框对应的长曲文本框的起始点坐标以及长曲文本框与圆形框的对应关系；并且，能够确定各个圆形框之间的位置关系，从而得到待检测文本图像中各个字符间的位置关系。通过在对长曲文本图像进行检测时使用圆形框（圆形检测框）代替了传统的矩形检测框（或带角度矩形检测框等），避免了由于检测框方向变化带来的信息或数据错误从而导致检测错误的问题，为后续得到待检测文本图像的准确的识别结果奠定了基础。

进一步地，在根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、以及所述半径特征图，确定各个字符对应的所述圆形框，得到所述待检测文本图像中各个字符的位置时，可以根据所述得分特征图，确定所述圆形框的中心点初始坐标；接着根据所述第一偏移特征图以及所述第二偏移特征图，调整所述中心点初始坐标，得到所述圆形框的中心点目标坐标；然后通过所述半径特征图，确定所述圆形框的大小，并根据所述圆形框的中心点目标坐标和所述圆形框的大小，确定所述待检测文本图像中各个字符的位置。

在本实施例中，如图2所示，以确定1个字符“你”对应的圆形框为例。同前述，由于得分特征图的每个像素点值在0到1之间，表示当前的像素点是圆形框的中心点的概率，因此，根据该得分图，可以确定当前圆形框的中心点的中心点初始坐标。第一偏移特征图和第二偏移特征图表示当前圆形框的中心点初始坐标的X轴和Y轴偏移量，根据该X轴和Y轴偏移量，可以调整得到的中心点初始坐标，获得当前圆形框的中心点目标坐标；例如：若中心点初始坐标为（m，n），且-x表示向左偏移x个单位，+x表示向右偏移x个单位，-y表示向下偏移y个单位，+y表示向上偏移y个单位；当通过第一偏移特征图和第二偏移特征图得到的当前圆形框的中心点偏移量为（-a，+b）时，则可以将当前圆形框的中心点初始坐标中的横坐标减a，纵坐标加b，从而得到更准确的当前圆形框的中心点目标坐标（m-a，n+b）。通过半径特征图得到当前圆形框的半径大小，然后基于前述得到的中心点目标坐标，即可确定包围字符“你”的圆形框的大小和位置。同理，当确定其他字符“我”、“是”、“好”对应的圆形框时，依照上述方式循环执行即可，此处不再赘述。

上述通过第一偏移特征图以及第二偏移特征图，得到圆形框的中心点的偏移量，进而根据该偏移量对圆形框的中心点初始坐标进行调整，使得得到的圆形框的位置更加准确；再基于半径特征图获得圆形框的大小，从而得到的各个字符的准确位置。

可选地，在执行步骤103之前，可以先获取各个字符的位置对应的文本识别结果。

具体地，在一种实施方式中，在获取各个字符的位置对应的文本识别结果时：可以根据各个字符的位置进行字符识别，获得各个字符的位置对应的字符文本；然后将各个字符的位置对应的字符文本与各个字符对应的所述圆形框进行关联，根据所述各个字符间的位置关系和与各个字符对应的圆形框关联的字符文本，获得各个字符的位置对应的文本识别结果。

在本实施例中，用于进行长曲文本检测的神经网络模型还可以具有字符识别功能，可以在确定各个字符的位置，即各个字符对应的圆形框后，对圆形框中的内容进行识别，获得字符文本（可以认为是增加了一个识别头，该识别头对应整个神经网络模型的预测结果）。由于圆形框能够指示字符的位置，因此可以直接根据每个圆形框识别单个字符，得到各个圆形框即各个字符的位置对应的字符文本。然后将各个字符的位置对应的字符文本与各个字符对应的所述圆形框进行关联，最后，根据各个字符间的位置关系（圆形框位置关系），直接得到识别的字符文本序列。例如，可以通过在神经网络模型中设置一个可进行字符识别的分支分别对单个圆形框内的字符进行识别得到字符文本；然后可与圆形框对应存储。

上述通过识别单个字符，根据识别到的单个字符的结果，组成长曲文本检测结果，相比于检测或者识别一串字符，识别单字符精度更高。通过增加一个识别头，直接检测圆形框中的字符，效率更高；并且很好地实现了文本检测识别端到端的处理，极大的减少多步误差，提升了最终文本检测结果的准确性。

在另一种实施方式中，在获得各个字符的位置对应的文本识别结果时，可以根据所述各个字符间的位置关系，对所述长曲文本框对应的圆形框中、相邻的圆形框之间的中心点之间的连线做垂线；接着获取各个所述垂线与对应的所述圆形框的交点的坐标；根据所述坐标确定所述长曲文本框对应的圆形框的坐标集，并根据所述坐标集确定所述长曲文本框的边界位置；然后根据各个字符对应的圆形框，对所述边界位置所标示的所述长曲文本框中的文本图像区域进行文本识别，获得对应的文本识别结果。

在本实施例中，如图2所示，示例性的，若当前长曲文本框对应的圆形框有4个，内容为“我是你好”。首先将长曲文本框对应的4个圆形框中相邻的圆形框之间的中心点进行连线，然后对相邻的圆形框之间的连线做垂线。参考图3中字符“我”对应示出的3条垂线，可以理解，实际情况中可以根据需求或者经验设置垂线的条数，此处的3条仅是为了便于理解方案进行的一种示例，并且，所做的垂线可以位于相邻的圆形框之间的连线的任意位置；在实际应用中，我们可以只获取各个垂线与对应的圆形框的交点的坐标，无需获取垂线与相邻的圆形框之间的连线的交点坐标或者其他坐标。可见，图3中的3条垂线与圆形框形成了5个交点，在圆形框中心点坐标已知，且半径长度已知的情况下，可以确定这5个交点的坐标，若有更多的垂线与该圆形框相交，则能够得到该圆形框的坐标集。显然，通过上述方式也可以获取到后边的字符“是”“你”“好”对应的圆形框与垂线的交点坐标，然后根据获取的所有交点坐标，确定所述长曲文本框中各个圆形框的坐标集；根据得到的4个圆形框的坐标集，可以确定该4个圆形框所在的长曲文本框的边界位置；根据4个字符对应的4个圆形框，对该边界位置所标示的长曲文本框中的文本图像区域进行文本识别，获得对应的文本识别结果，即获得“我”、“是”、“你”、“好”这4个字符。需要说明的是，还可以通过另一种简单的方法获得长曲文本框的边界位置，例如，只需过圆心点作垂线，即，对上述相邻的圆形框之间的连线做过圆形框中心点的垂线，即可得到与4个圆形框的交点的8个坐标，基于这8个坐标得到长曲文本框的边界位置。

上述通过圆形框识别字符，相比于通过传统的方框识别字符，避免了方框方向变化带来的位置信息或者数据错误的问题。

步骤103、根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果，确定所述待检测文本图像的检测结果。

可以理解，各个字符间的位置关系能够表征字符的先后位置顺序，在获得各个字符的位置对应的文本识别结果后，基于各个字符的位置关系，将文本识别结果进行排序后，即可得到最终的待检测文本图像的检测结果。

本实施例的文本检测方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。

实施例二

上述实施例一的文本检测可基于预设的目标检测神经网络模型实现。例如，上述步骤101在对待检测文本图像进行特征提取，得到所述多通道特征图时，可以通过目标检测神经网络模型，对待检测文本图像进行特征提取，得到所述多通道特征图；进而，可以根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系；根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果，确定所述待检测文本图像的检测结果。其中，所述目标检测神经网络模型通过预先训练获得。

其中，目标检测神经网络模型可以是基于CenterNet的神经网络模型，在本实施例中，将CenterNet的输出通道进行修改，并对其进行训练，使得目标检测神经网络模型能够输出本发明实施例一所述的7通道特征图。

具体地，如图3所示，对所述目标检测神经网络模型的预先训练包括：

步骤311、获取训练图像样本。

其中，训练图像样本包括：包含长曲文本的文本图像，所述长曲文本对应的长曲文本框起始点坐标标注信息，所述长曲文本中各个字符对应的圆形框的中心点与所述长曲文本框起始点的距离标注信息，所述长曲文本中各个字符对应的圆形框的标注信息，所述标注信息包括所述圆形框的中心点概率信息、中心点坐标信息、所述圆形框的半径信息。长曲文本中各个字符对应的圆形框的标注信息包括：包围字符的圆形框以及圆形框的中心点、圆形框中心点坐标、圆形框的半径长度值，对应输出通道输出的得分特征图、第一偏移特征图、第二偏移特征图、半径特征图。长曲文本框起始点坐标标注信息，对应输出通道输出的横坐标特征图以及纵坐标特征图。长曲文本中各个字符对应的圆形框的中心点与所述长曲文本框起始点的距离标注信息，对应输出通道输出的距离特征图。

步骤312、使用所述训练图像样本对所述目标检测神经网络模型进行训练。

通过上述训练图像样本，使得训练后的目标检测神经网络模型输出如本发明实施例一所述的7通道特征图，使得后续基于该7通道特征图得到更加准确的文本识别结果。

具体地，在使用所述训练图像样本对所述目标检测神经网络模型进行训练时，可以对所述训练图像样本进行特征提取，将特征提取获得的样本特征图上采样至所述训练图像样本的四分之一大小并进行串联；然后对串联后的样本特征图进行卷积操作，得到多通道样本特征图，所述多通道样本特征图包括：用于标示单个字符位置的圆形框的中心点概率的得分样本特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移样本特征图、用于指示所述圆形框的中心点纵向偏移量的第二样本偏移特征图、用于指示所述圆形框的半径大小的半径样本特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标样本特征图和所述起始点纵向坐标的纵坐标样本特征图、以及用于指示所述圆形框距离所述起始点的距离的距离样本特征图；使用Focal loss损失函数，对所述得分样本特征图对应的通道输出进行损失计算，得到第一损失值，使用平滑L1损失函数对其他通道输出进行损失计算，得到第二损失值；根据所述第一损失值和所述第二损失值对所述改进的目标检测神经网络模型进行训练。

在本实施例中，使用Resnet18网络模型作为基础网络模型，Resnet18网络由4个block块串联构建，每个block块包括若干层卷积操作，第一个block块输出的特征图大小为输入图像的1/4，第二个block输出的特征图为输入图像的1/8，第三个block输出的特征图为输入图像的1/16，第四个block输出的特征图为输入图像的1/32。每个block块输出的特征映射数量可以为128，然后将四个特征图全部通过插值的方式将其大小变为输入图像1/4大小并串联，得到一组特征映射图，通道数量为512。接着对上述512通道的特征映射图做一次卷积操作，两次反卷积操作，得到与输入图像大小一致的7通道特征图，该7通道特征图分别是：用于标示单个字符位置的圆形框的中心点概率的得分样本特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移样本特征图、用于指示所述圆形框的中心点纵向偏移量的第二样本偏移特征图、用于指示所述圆形框的半径大小的半径样本特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标样本特征图和起始点纵向坐标的纵坐标样本特征图、以及用于指示所述圆形框距离所述起始点的距离的距离样本特征图。

其中，第一个通道（得分特征图对应的输出通道）使用focal loss进行训练，其他通道均使用平滑L1损失函数进行训练。

focal loss损失函数的表达式如下：

其中，N表示输入图像中的像素点个数。xyc表示当前像素点的坐标位置，x表示横坐标，y表示纵坐标，c表示通道。

表示像素点是圆形框中心点的预测概率，

表示像素点是圆形框中心点的真实概率（可根据训练数据的概率标注数据确定）。α和β为超参数，可以根据人工经验进行设置，例如将α设置为2，β设置为4。

平滑L1损失函数表达式如下：

其中，若训练的是第一偏移特征图对应的输出通道，则a表示圆形框的中心点横向偏移量。若训练的是第二偏移特征图对应的输出通道，则a表示圆形框的中心点纵向偏移量。若训练的是半径特征图对应的输出通道，则a表示圆形框的半径大小。若训练的是横坐标特征图对应的输出通道，则a表示圆形框对应的长曲文本框的起始点横向坐标。若训练的是纵坐标特征图对应的输出通道，则a表示圆形框对应的长曲文本框的起始点纵向坐标。若训练的是距离特征图对应的输出通道，则a表示圆形框中心点距离起始点的距离。

上述通过Focal loss损失函数对第一个通道进行训练，可以降低大量简单负样本在训练中所占的权重，使得训练后的目标检测神经网络模型输出的得分特征图更加准确，进而使得后续文本识别结果更加准确。

实施例三

下面是本发明实施例三提供的一种文本检测方法的步骤流程图，如图5所示，包括：

步骤401、将包含长曲文本的文本图像输入Resnet18网络，进行第一次特征提取。

步骤402、将第一次特征提取得到的4组特征映射的特征图大小全部上采样到原始图像（包含长曲文本的文本图像）1/4大小，并串联在一起。

步骤403、将串联后的特征图，做一次卷积操作，两次反卷积操作，得到与包含长曲文本的文本图像大小一致的7通道输出。

其中，第一个通道输出得分特征图，表示长曲文本的每个字符对应的圆形框的中心点概率（每个像素点值在0到1之间，表示这个点是圆形框中心点的概率，圆形框是指将包围单个字符的圆形框）；第二和第三个通道输出偏移特征图，表示圆形框中心点的x轴偏移量和y轴偏移量；第四个通道输出半径特征图，表示预测的圆形框的半径大小；第五和第六个通道输出坐标特征图，表示圆形框对应的长曲文本框的起始点坐标，第七个通道输出距离特征图，表示各个圆形框中心点距离起始点的距离。

步骤404、与CenterNet一样，通过第一个通道得到得分特征图找出每个圆形框的中心点。

步骤405、使用第二通道和第三通道输出的偏移特征图，确定中心点偏移量，并根据该偏移量调整中心点坐标位置。

步骤406、根据第四个通道输出的半径特征图，确定所述中心点坐标对应的半径；然后根据圆形框的中心点坐标，圆形框的半径得到各个圆形框的位置和大小。

步骤407、根据第五通道和第六个通道输出坐标特征图，确定圆形框对应的长曲文本框的起始点坐标以及圆形框与长曲文本框的对应关系（相同起始点坐标对应同一个长曲文本的圆形框）；根据第七个通道输出的距离特征图，确定各个圆形框中心点距离对应的长曲文本框的起始点的距离；根据所述起始点以及每个圆形框距离起始点的距离，确定圆形框的位置关系。

接着进入步骤408或者步骤409：

步骤408、根据每个圆形检测框识别单个字符，然后根据圆形框位置关系，直接得到识别序列，即得到真实文本区域。

步骤409、将同一长曲文本框对应的各个圆形框的相邻中心点连起来，得到多个线段，基于每个线段作垂线，垂线与圆形框的交点构成长曲文本区域的曲线包围框点集。

步骤410、对所述长曲文本区域的曲线包围框点集中的内容进行字符识别，获得对应的字符文本，并圆形框的位置关系，得到真实文本区域。

在模型训练阶段，第一个通道使用CenterNet中用focal loss进行训练，其他通道均使用平滑L1损失函数进行训练。

相比于识别一串字符，本发明实施例中识别单字符的难度较低，同时，识别单字符精度也更高，在保证文本检测的速度的同时，增强了检测效果。

实施例四

图5为本发明实施例三中电子设备的硬件结构；如图5所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。

其中：

处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。

通信接口302，用于与其它电子设备或服务器进行通信。

处理器301，用于执行程序305，具体可以执行上述文本检测方法实施例中的相关步骤。

具体地，程序305可以包括程序代码，该程序代码包括计算机操作指令。

处理器301可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器303，用于存放程序305。存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序305具体可以用于使得处理器301执行以下操作：对待检测文本图像进行特征提取，得到多通道特征图；所述多通道特征图包括：用于标示单个字符位置的圆形框的中心点概率的得分特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移特征图、用于指示所述圆形框的中心点纵向偏移量的第二偏移特征图、用于指示所述圆形框的半径大小的半径特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标特征图和所述起始点纵向坐标的纵坐标特征图、以及用于指示所述圆形框距离所述起始点的距离的距离特征图；根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系；根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果，确定所述待检测文本图像的检测结果。

在一种可选的实施方式中，程序305还用于使得处理器301在根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系时：根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、以及所述半径特征图，确定各个字符对应的所述圆形框，得到所述待检测文本图像中各个字符的位置；根据所述横坐标特征图和所述纵坐标特征图，确定所述圆形框对应的长曲文本框的起始点坐标；根据所述起始点坐标和所述距离特征图，确定与所述长曲文本框对应的各个圆形框的位置关系，得到所述待检测文本图像中各个字符间的位置关系。

在一种可选的实施方式中，程序305还用于使得处理器301在根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、以及所述半径特征图，确定各个字符对应的所述圆形框，得到所述待检测文本图像中各个字符的位置时：根据所述得分特征图，确定所述圆形框的中心点初始坐标；根据所述第一偏移特征图以及所述第二偏移特征图，调整所述中心点初始坐标，得到所述圆形框的中心点目标坐标；通过所述半径特征图，确定所述圆形框的大小，并根据所述圆形框的中心点目标坐标和所述圆形框的大小，确定所述待检测文本图像中各个字符的位置。

在一种可选的实施方式中，程序305还用于使得处理器301在所述根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果之前：获得各个字符的位置对应的文本识别结果。

在一种可选的实施方式中，程序305还用于使得处理器301在获得各个字符的位置对应的文本识别结果时：根据各个字符的位置进行字符识别，获得各个字符的位置对应的字符文本；将各个字符的位置对应的字符文本与各个字符对应的所述圆形框进行关联；根据所述各个字符间的位置关系和与各个字符对应的圆形框关联的字符文本，获得各个字符的位置对应的文本识别结果。

在一种可选的实施方式中，程序305还用于使得处理器301在获得各个字符的位置对应的文本识别结果时：根据所述各个字符间的位置关系，对所述长曲文本框对应的圆形框中、相邻的圆形框之间的中心点之间的连线做垂线；获取各个所述垂线与对应的所述圆形框的交点的坐标；根据所述坐标确定所述长曲文本框对应的圆形框的坐标集，并根据所述坐标集确定所述长曲文本框的边界位置；根据各个字符对应的圆形框，对所述边界位置所标示的所述长曲文本框中的文本图像区域进行文本识别，获得对应的文本识别结果。

在一种可选的实施方式中，程序305还用于使得处理器301：通过目标检测神经网络模型，对待检测文本图像进行特征提取，得到所述多通道特征图；所述目标检测神经网络模型通过预先训练获得。

在一种可选的实施方式中，程序305还用于使得处理器301在对所述目标检测神经网络模型的预先训练时：获取训练图像样本，所述训练图像样本包括：包含长曲文本的文本图像，所述长曲文本对应的长曲文本框起始点坐标标注信息，所述长曲文本中各个字符对应的圆形框的中心点与所述长曲文本框起始点的距离标注信息，所述长曲文本中各个字符对应的圆形框的标注信息，所述标注信息包括所述圆形框的中心点概率信息、中心点坐标信息、所述圆形框的半径信息；使用所述训练图像样本对所述改进的目标检测神经网络模型进行训练。

在一种可选的实施方式中，程序305还用于使得处理器301在使用所述训练图像样本对所述改进的目标检测神经网络模型进行训练时：对所述训练图像样本进行特征提取，将特征提取获得的样本特征图上采样至所述训练图像样本的四分之一大小并进行串联；对串联后的样本特征图进行卷积操作，得到多通道样本特征图，所述多通道样本特征图包括：用于标示单个字符位置的圆形框的中心点概率的得分样本特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移样本特征图、用于指示所述圆形框的中心点纵向偏移量的第二样本偏移特征图、用于指示所述圆形框的半径大小的半径样本特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标样本特征图和所述起始点纵向坐标的纵坐标样本特征图、以及用于指示所述圆形框距离所述起始点的距离的距离样本特征图；使用Focal loss损失函数，对所述得分样本特征图对应的通道输出进行损失计算，得到第一损失值，使用平滑L1损失函数对其他通道输出进行损失计算，得到第二损失值；根据所述第一损失值和所述第二损失值对所述目标检测神经网络模型进行训练。

程序305中各步骤的具体实现可以参见上述文本检测方法实施例中的相应步骤中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，在进行文本检测时，使用圆形框（圆形检测框）代替传统的矩形检测框（或带角度矩形检测框等），从而避免了由于检测框方向变化带来的识别错误的问题。通过对待检测文本图像进行特征提取，得到得分特征图（用于标示单个字符位置的圆形框的中心点概率）、第一偏移特征图（用于指示所述圆形框的中心点横向偏移量）、第二偏移特征图（用于指示所述圆形框的中心点纵向偏移量）、半径特征图（用于指示所述圆形框的半径大小）、横坐标特征图（用于指示所述圆形框对应的长曲文本框的起始点横向坐标）、纵坐标特征图（用于指示所述圆形框对应的长曲文本框的起始点纵向坐标）和距离特征图（用于指示所述圆形框距离所述起始点的距离）；基于这些特征图能够确定待检测文本图像中各个字符的位置及各个字符间的位置关系，最终得到待检测文本图像的检测结果；本发明利用圆形框检测每个单独的字符，然后根据单独的字符检测结果和各个字符间的位置关系组成长曲文本的检测结果，相比于直接识别一串文本字符，识别单字符难度较低，同时准确度也更高。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元（CPU）执行时，执行本发明实施例中的方法中限定的上述功能。需要说明的是，本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接入模块和发送模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中所描述的文本检测方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：对待检测文本图像进行特征提取，得到多通道特征图；所述多通道特征图包括：用于标示单个字符位置的圆形框的中心点概率的得分特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移特征图、用于指示所述圆形框的中心点纵向偏移量的第二偏移特征图、用于指示所述圆形框的半径大小的半径特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标特征图和所述起始点纵向坐标的纵坐标特征图、以及用于指示所述圆形框距离所述起始点的距离的距离特征图；根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系；根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果，确定所述待检测文本图像的检测结果。

在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

对待检测文本图像进行特征提取，得到多通道特征图；所述多通道特征图包括：用于标示单个字符位置的圆形框的中心点概率的得分特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移特征图、用于指示所述圆形框的中心点纵向偏移量的第二偏移特征图、用于指示所述圆形框的半径大小的半径特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标特征图和所述起始点纵向坐标的纵坐标特征图、以及用于指示所述圆形框距离所述起始点的距离的距离特征图；

根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系；

根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果，确定所述待检测文本图像的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、所述半径特征图、所述横坐标特征图、所述纵坐标特征图和所述距离特征图，确定所述待检测文本图像中各个字符的位置及各个字符间的位置关系，包括：

根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、以及所述半径特征图，确定各个字符对应的所述圆形框，得到所述待检测文本图像中各个字符的位置；

根据所述横坐标特征图和所述纵坐标特征图，确定所述圆形框对应的长曲文本框的起始点坐标；

根据所述起始点坐标和所述距离特征图，确定与所述长曲文本框对应的各个圆形框的位置关系，得到所述待检测文本图像中各个字符间的位置关系。

3.根据权利要求2所述的方法，其特征在于，所述根据所述得分特征图、所述第一偏移特征图、所述第二偏移特征图、以及所述半径特征图，确定各个字符对应的所述圆形框，得到所述待检测文本图像中各个字符的位置，包括：

根据所述得分特征图，确定所述圆形框的中心点初始坐标；

根据所述第一偏移特征图以及所述第二偏移特征图，调整所述中心点初始坐标，得到所述圆形框的中心点目标坐标；

通过所述半径特征图，确定所述圆形框的大小，并根据所述圆形框的中心点目标坐标和所述圆形框的大小，确定所述待检测文本图像中各个字符的位置。

4.根据权利要求2所述的方法，其特征在于，在所述根据所述各个字符间的位置关系和各个字符的位置对应的文本识别结果之前，所述方法还包括：

获得各个字符的位置对应的文本识别结果。

5.根据权利要求4所述的方法，其特征在于，所述获得各个字符的位置对应的文本识别结果，包括：

根据各个字符的位置进行字符识别，获得各个字符的位置对应的字符文本；

将各个字符的位置对应的字符文本与各个字符对应的所述圆形框进行关联；

根据所述各个字符间的位置关系和与各个字符对应的圆形框关联的字符文本，获得各个字符的位置对应的文本识别结果。

6.根据权利要求4所述的方法，其特征在于，所述获得各个字符的位置对应的文本识别结果，包括：

根据所述各个字符间的位置关系，对所述长曲文本框对应的圆形框中、相邻的圆形框之间的中心点之间的连线做垂线；

获取各个所述垂线与对应的所述圆形框的交点的坐标；

根据所述坐标确定所述长曲文本框对应的圆形框的坐标集，并根据所述坐标集确定所述长曲文本框的边界位置；

根据各个字符对应的圆形框，对所述边界位置所标示的所述长曲文本框中的文本图像区域进行文本识别，获得对应的文本识别结果。

7.根据权利要求1所述的方法，其特征在于，

通过目标检测神经网络模型，对待检测文本图像进行特征提取，得到所述多通道特征图；所述目标检测神经网络模型通过预先训练获得。

8.根据权利要求7所述的方法，其特征在于，对所述目标检测神经网络模型的预先训练包括：

获取训练图像样本，所述训练图像样本包括：包含长曲文本的文本图像，所述长曲文本对应的长曲文本框起始点坐标标注信息，所述长曲文本中各个字符对应的圆形框的中心点与所述长曲文本框起始点的距离标注信息，所述长曲文本中各个字符对应的圆形框的标注信息，所述标注信息包括所述圆形框的中心点概率信息、中心点坐标信息、所述圆形框的半径信息；

使用所述训练图像样本对所述目标检测神经网络模型进行训练。

9.根据权利要求8所述的方法，其特征在于，所述使用所述训练图像样本对所述目标检测神经网络模型进行训练，包括：

对所述训练图像样本进行特征提取，将特征提取获得的样本特征图上采样至所述训练图像样本的四分之一大小并进行串联；

对串联后的样本特征图进行卷积操作，得到多通道样本特征图，所述多通道样本特征图包括：用于标示单个字符位置的圆形框的中心点概率的得分样本特征图、用于指示所述圆形框的中心点横向偏移量的第一偏移样本特征图、用于指示所述圆形框的中心点纵向偏移量的第二样本偏移特征图、用于指示所述圆形框的半径大小的半径样本特征图、分别用于指示所述圆形框对应的长曲文本框的起始点横向坐标的横坐标样本特征图和所述起始点纵向坐标的纵坐标样本特征图、以及用于指示所述圆形框距离所述起始点的距离的距离样本特征图；

使用Focal loss损失函数，对所述得分样本特征图对应的通道输出进行损失计算，得到第一损失值，使用平滑L1损失函数对其他通道输出进行损失计算，得到第二损失值；

根据所述第一损失值和所述第二损失值对所述目标检测神经网络模型进行训练。

10.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一项所述的文本检测方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一项所述的文本检测方法。