CN112989995A

CN112989995A - 文本检测方法、装置及电子设备

Info

Publication number: CN112989995A
Application number: CN202110261374.9A
Authority: CN
Inventors: 吕鹏原; 章成全; 刘珊珊; 王晓燕; 张胜; 庾悦晨; 乔美娜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-18
Anticipated expiration: 2041-03-10
Also published as: CN112989995B

Abstract

本申请公开了文本检测方法、装置及电子设备，涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为：获取目标图片；对所述目标图片进行特征提取，得到所述目标图片的第一特征；基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框；基于所述第一特征进行掩膜解码，得到所述目标图片的M个掩膜图像以及所述第一文本候选框针对所述M个掩膜图像的M个权重信息，M为正整数；基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置。根据本申请的技术，解决了文本检测识别技术存在的场景文本检测精准性比较低的问题，能够实现任意形状的场景文本检测识别。

Description

文本检测方法、装置及电子设备

技术领域

本申请涉及人工智能技术领域，尤其涉及计算机视觉、深度学习技术领域，具体涉及一种文本检测方法、装置及电子设备。

背景技术

自然场景下的文本检测识别技术可以被广泛应用于社会的各行各业，如教育、医疗、金融等领域。由文本检测识别技术派生的常见卡证票据的识别、文档的自动化录入以及拍照搜题等技术极大地提升了传统行业的智能化程度和生产效率，方便了人们的日常学习与生活。

目前，对于自然场景图像中的文本信息进行检测，通常是基于区域对图像进行检测生成文本候选框，其目的是得到文本包围框的位置。

发明内容

本公开提供了一种文本检测方法、装置及电子设备。

根据本公开的第一方面，提供了一种文本检测方法，包括：

获取目标图片；

对所述目标图片进行特征提取，得到所述目标图片的第一特征；

基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框；

基于所述第一特征进行掩膜解码，得到所述目标图片的M个掩膜图像以及所述第一文本候选框针对所述M个掩膜图像的M个权重信息，M为正整数；

基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置。

根据本公开的第二方面，提供了一种文本检测装置，包括：

获取模块，用于获取目标图片；

特征提取模块，用于对所述目标图片进行特征提取，得到所述目标图片的第一特征；

文本检测模块，用于基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框；

掩膜解码模块，用于基于所述第一特征进行掩膜解码，得到所述目标图片的M个掩膜图像以及所述第一文本候选框针对所述M个掩膜图像的M个权重信息，M为正整数；

文本确定模块，用于基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面中的任一项方法。

根据本申请的技术解决了文本检测识别技术存在的场景文本检测精准性比较低的问题，能够实现任意形状的场景文本检测识别。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的文本检测方法的流程示意图；

图2是文本候选框的调优示意图；

图3是文本检测方法的实现框架示意图；

图4是根据本申请第二实施例的文本检测装置的结构示意图；

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种文本检测方法，包括如下步骤：

步骤S101：获取目标图片。

本实施例中，文本检测方法涉及人工智能技术，具体涉及计算机视觉、深度学习技术领域，其可以广泛应用于图片中文本检测识别场景中。该方法可以由本申请实施例的文本检测装置执行。而文本检测装置可以配置在任意电子设备中，以执行本申请实施例的文本检测方法，该电子设备可以服务器，也可以为终端，这里不做具体限定。

所述目标图片可以为文本图片，其中，文本图片指的是包括文本内容的图片，文本内容的文字形状可以为任意形状，比如可以为水平文字、倾斜文字或弯曲文字等，且文本内容可以为长文本，也可以为短文本，这里不做具体限定。

所述目标图片的获取方式可以有多种，可以从电子设备中获取预先存储的一张文本图片，也可以接收其他设备发送的一张文本图片，还可以从网络上下载一张文本图片，亦或是通过摄像功能拍摄一张文本图片。

步骤S102：对所述目标图片进行特征提取，得到所述目标图片的第一特征。

所述第一特征可以指的是所述目标图片的视觉特征，包括纹理、颜色、形状和空间关系等特征。

所述第一特征的提取方式可以有多种，比如，可以采用手动方式提取所述目标图片的特征，又比如，也可以使用卷积神经网络提取所述目标图片的特征。

以使用卷积神经网络提取所述目标图片的特征为例，理论上任意结构的卷积神经网络如VGG，ResNet、DenseNet或MobileNet等，以及一些可用于改善网络效果的算子如Deformconv，Se，Dilationconv或Inception等，都可以用来对所述目标图片进行特征提取，得到所述目标图片的第一特征。

步骤S103：基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框。

所述第一文本候选框可以指的是预测的所述目标图片中框定有文本的候选框，其形状可以为矩形框。

可以根据场景文本的具体情况，预测得到一或多个第一文本候选框，且所述第一文本候选框框定的文本通常可以以行或列为单位，即针对所述目标图片中文本的每一行或者每一列，都可以预测得到一个第一文本候选框。也就是说，该步骤中，基于所述第一特征对所述目标图片进行文本检测，可以得到至少一个第一文本候选框。

可以采用现有的或者新的文本检测算法，基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框。且所述第一文本候选框可以使用文本检测算法基于所述第一特征对所述目标图片进行文本检测直接得到，也可以使用文本检测算法得到一文本候选框之后，基于该文本候选框进行调整，得到更加精准的框定所述目标图片中文本的所述第一文本候选框。

在进行文本检测时，文本检测算法可以采用无锚点框的方式来得到一文本候选框。具体的，基于所述第一特征，采用无锚点框方式的文本检测算法，可以直接得到每个像素点到四个边界的距离，通过这种方式可以得到文本候选框。

另外，文本检测算法基于所述第一特征对所述目标图片进行文本检测，还可以得到每个像素点属于文本的概率，即检测所述目标图片中属于文本的像素点信息。

步骤S104：基于所述第一特征进行掩膜解码，得到所述目标图片的M个掩膜图像以及所述第一文本候选框针对所述M个掩膜图像的M个权重信息。

该步骤中，所述掩膜图像可以为所述目标图片中所有的文本区域共享的掩膜mask图像，所述mask图像不同于mask深度学习的方式得到的mask图像，mask深度学习的方式是针对每一个文本区域裁剪特征，并基于裁剪的特征得到mask图像。通过让目标图片中所有的文本区域共享一个mask图像，可以提升推断速度。

所述mask图像可以为黑色背景，白色掩膜的图像，针对目标图像中每一文本区域，所述mask图像均可以包括一个白色掩膜，如此，可以实现让目标图片中所有的文本区域共享一个mask图像。

为了检测所述目标图片中任意形状的文本，可以使用语义分割的方式基于所述第一特征进行掩膜解码，得到所述目标图片的mask图像。

为了达到共享mask图像的目的，同时让目标图片中每一个文本区域都能得到比较精准的掩膜信息，针对所述目标图片，可以同时预测M个mask图像，M为正整数。且M通常越大，文本区域得到的掩码信息越精确。

另外，为了得到文本区域比较精确的掩膜信息，在预测得到M个mask图像的同时，还可以预测所述第一文本候选框针对所述M个掩膜图像的M个权重信息，权重信息可以为权重系数。这样，可以对M个mask图像根据权重系数做线性加权，即可得到文本区域最终的掩膜信息，文本区域最终的掩膜信息可以用来确定目标图片的文本位置。

步骤S105：基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置。

所述目标图片的文本位置指的是文本包络在目标图片中的位置，其可以为任意形状，根据目标图片中文本的形状如水平、弯曲或倾斜确定。

可以针对每个第一文本候选框，得到第一文本候选框的M个权重系数，并确定每个权重系数对应的掩膜图像中所述第一文本候选框的目标mask区域，基于M个权重系数，对这些目标mask区域进行加权求和，即可得到所述目标图片中文本区域最终的mask，基于文本区域的mask，即可以确定所述目标图片的文本位置。具体可以对文本区域的mask做二值化，并求取连通区域的包络，即可得到最终文本位置。

本实施例中，通过获取目标图片；对所述目标图片进行特征提取，得到所述目标图片的第一特征；基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框；基于所述第一特征进行掩膜解码，得到所述目标图片的M个掩膜图像以及所述第一文本候选框针对所述M个掩膜图像的M个权重信息；基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置。如此，通过让文本区域共享mask图像，同时针对文本区域预测M个mask图像和M个权重信息，并基于文本区域、M个mask图像和所述M个权重信息，确定所述目标图片的文本位置，从而能够实现任意形状的场景文本检测识别，进而可以提高场景文本检测的精准性。

并且，通过让文本区域共享mask图像，相对于对每一个文本候选框计算掩膜的方式实现场景文本检测识别，可以减少处理时间，提高推断速度。而相对于需要有精准掩膜输出才能保证场景文本检测效果的方案，可以不依赖于输入图片的尺寸大小，因此可以提高检测速度。

可选的，所述步骤S103具体包括：

基于所述第一特征对所述目标图片进行文本检测，得到所述目标图片的第二文本候选框；

对所述第二文本候选框的区域内图片内容进行特征提取，得到所述第二文本候选框的区域内图片内容的第二特征；

基于所述第二特征，确定目标差值信息，所述目标差值信息用于表征所述第二文本候选框相对于所述目标图片的目标框的位置差异；

基于所述第二文本候选框和所述目标差值异信息，确定所述第一文本候选框。

本实施方式中，所述第一文本候选框可以为调优之后的文本候选框，调优指的是将文本候选框更加精确地框定文本的过程，即对文本候选框进行调整，使得调整后的文本候选框中文本与背景的比例增大。

可以采用现有的或者新的文本检测算法，基于所述第一特征对所述目标图片进行文本检测，得到所述目标图片的第二文本候选框。

在进行文本检测时，文本检测算法可以采用无锚点框的方式来得到第二文本候选框。具体的，基于所述第一特征，采用无锚点框方式的文本检测算法，可以直接得到每个像素点到四个边界的距离，通过这种方式可以得到所述第二文本候选框。

可以对所述第二文本候选框的位置进行优化，已得到更加精准的文本候选框即第一文本候选框的位置，从而可以得到更加精准的文本位置。

参见图2，图2是文本候选框的调优示意图，如图2所示，对于第二文本候选框201的位置，用坐标信息(x1，y1，x2，y2)表示，其中坐标点(x1，y1)和(x2，y2)可以分别对应第二文本候选框201的左上顶点和右上顶点，可以使用可以变形卷积Deformable Conv来提取所示第二文本候选框201的区域内图片内容的特征。

具体地，对于k*k的卷积核，可以将所述第二文本候选框201等分为k*k的格子，格子的顶点即为Deformable Conv的偏置offset，也即是采样点的位置。如图2所示，每个格子的顶点202则均为Deformable Conv的卷积核为3*3时，针对所述第二文本候选框201的Deformable Conv的采样点，通过这种方式，可以得到第二文本候选框201的区域内图片内容的特征即第二特征。

进一步的，可以基于所述第二特征，确定第二文本候选框和目标框之间的差值即目标差值信息，其中，所述目标图片的目标框可以为所述第二文本候选框对应的真实框即所述第二文本候选框的ground truth。如图2所示，箭头所表征的信息即为第二文本候选框201和所述目标图片的目标框203之间的差值即目标差值信息。

在进行目标差值信息的确定时，可以采用手动方式基于所述第二特征确定目标差值信息，也可以使用一个目标模型基于所述第二特征去预测所述目标差值信息，这里不做具体限定。其中，所述目标模型可以为机器学习模型。

基于确定的目标差值信息即可得到重构之后的新的文本候选框即第一文本候选框，具体可以通过将第二文本候选框加上该目标差值信息，得到所述第一文本候选框。

本实施方式中，通过对第二文本候选框进行优化，得到更加精准地框定文本的第一文本候选框，之后基于第一文本候选框去确定所述目标图片的文本位置，如此可以得到更加精准的文本位置，进一步提高场景文本检测的精准性。

可选的，所述基于所述第二特征，确定目标差值信息，包括：

将所述第二特征输入至目标模型进行差值预测，得到目标差值信息，所述目标模型用于基于预先训练的参数预测图片的文本候选框相对于目标框的差值信息。

本实施方式中，可以采用一个目标模型基于所述第二特征去预测所述目标差值信息。具体可以将所述第二特征输入至目标模型进行差值预测，得到所述目标差值信息。

所述目标模型可以为机器学习模型，其可以通过训练学习图片的文本候选框相对于目标框的差值信息。具体的，在训练时，可以已知训练图片的文本候选框以及真实框，提取训练图片中文本候选框的区域内图片内容的特征，并基于提取到的特征来回归文本候选框与真实框之间的差值，以训练目标模型。类似地，可以对训练图片的文本候选框进行多次迭代，以得到更精准的文本候选框的位置。在测试时，已知目标图片的第二文本候选框，通过目标模型预测第二文本候选框与目标框的差值，即可得到预测的重构之后的第一文本候选框。

举个例子来说，设第二文本候选框的第二特征为x,目标模型为f()，第二文本候选框为y1，目标框为y2。训练时通过迭代训练目标模型f(x)＝y2-y1，得到目标模型的参数。测试时，基于训练后的目标模型预测的重构之后的第一文本候选框可通过y1+f(x)得到。

本实施方式中，可以通过目标模型基于第二特征来得到更加精准地文本候选框的位置，如此可以自动化地对文本候选框的位置进行调优，实现方式简单。

可选的，M大于1，所述基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置，包括：

获取每个掩膜图像中所述第一文本候选框对应位置的目标掩膜区域，以得到所述第一文本候选框对应的M个目标掩膜区域；

基于所述M个权重信息，对所述M个目标掩膜区域进行加权操作，得到所述第一文本候选框对应的文本掩膜区域；

基于所述文本掩膜区域，确定所述目标图片的文本位置。

本实施方式中，在M大于1的情况下，可以获取每个掩膜图像中所述第一文本候选框对应位置的目标掩膜区域，具体可以从掩膜图像上面把第一文本候选框对应位置的区域裁剪下来，得到所述第一文本候选框对应的目标掩膜区域。

针对每一第一文本候选框，由于对应M个掩膜图像，因此，可以从所述M个掩膜图像上总共裁剪得到M个目标掩膜区域，每一目标掩膜区域对应一个权重信息，相应的，基于M个权重信息，对所述M个目标掩膜区域进行加权操作，最终得到所述第一文本候选框对应的文本掩膜区域。

之后，可以基于所述文本掩膜区域确定所述目标图片的文本位置，具体可以基于所述文本掩膜区域以及所述文本掩膜区域中每个像素点属于文本的概率，得到所述目标图片中的文本包络，从而最终得到所述目标图片的文本位置。

本实施方式中，通过预测多个掩膜图像且对于每一第一文本候选框，针对这多个掩膜图像预测多个权重系数，并对这多个掩膜图像根据这些权重系数进行线性加权，如此可以让每一个文本区域都能得到比较精准的掩膜信息，从而可以基于该掩膜信息得到更加精准的文本位置。

可选的，所述基于所述文本掩膜区域，确定所述目标图片的文本位置，包括：

对所述文本掩膜区域中的像素点进行二值化，得到所述目标图片的文本像素信息；

确定所述文本像素信息的连通区域的包络，以得到所述目标图片的文本位置。

本实施方式中，可以基于预测得到的所述目标图像中每个像素点属于文本的概率，对所述文本掩膜区域中的像素点进行二值化，得到所述目标图片的文本像素信息。其中，所述文本像素信息可以为所述文本掩膜区域中属于文本的像素点的信息。

具体的，可以将所述文本掩膜区域中属于文本的概率大于预设阈值的像素点确定文本，可以设定为1，而将概率小于或等于该预设阈值的像素点确定为非文本，可以设定为0。基于该种二值化方式，可以得到所述文本掩膜区域的文本像素信息，即取值为1的像素点为文本，而取值为0的像素点为非文本。

之后，基于所述文本像素信息将取值为1的像素点进行连通，并求取连通区域的包络，最终确定所述文本像素信息的连通区域的包络，得到所述目标图片中最终的文本位置。如此，可以精准地实现任意形状的场景文本检测识别。

为了更加详细地阐述本申请实施例的方案，以下详细说明整个方案的实现过程。

参见图3，图3是文本检测方法的实现框架示意图，如图3所示，为实现本申请实施例的文本检测方法，所包含的具体模块包括四个模块，分别为特征提取模块、候选框提取模块、迭代式调优模块和掩膜解码模块。

具体的，输入一幅h*w大小的目标图片，所述目标图片中包含“hello world”的文本内容，将所述目标图片输入至该实现框架中，其目的是检测得到文本内容在所述目标图片中的文本位置。

在实现过程中，可以通过特征提取模块提取所述目标图片的特征，其提取的特征大小可以为d*h/4*w/4，其中，d为特征的维度，该特征提取模块可以为神经卷积CNN特征提取模块。

提取到的特征将被分别输入到候选框提取模块和掩码解码模块，候选框提取模块会输出两个指标信息，分别可以记为score_map和geo_map，score_map是指在原图片的1/4大小的图片上，每一个像素点属于文本的概率，而geo_map可以表示在原图片的1/4大小的图片上每个像素点到其所属的文本候选框的边界的距离，通过这种方式即可以得到第二文本候选框。如图3所示，针对“hello”的文本区域和“world”的文本区域，可以分别得到一个第二文本候选框。

之后，可以经过迭代式调优模块对每一个第二文本候选框进行优化，得到更加精准的文本候选框即第一文本候选框，如图3所示。

而掩膜解码模块也可以输出两个指标信息，可以分别记为weight_map和masks，其中，masks为掩膜图像集合，其大小为m*h*w，m为掩膜图像的数量，weight_map为权重信息，其大小为m*h/4*w/4。

对于迭代式调优模块得到的每个第一文本候选框，可以得到其对应的权重信息，并从masks上面把第一文本候选框对应的区域裁剪下来，得到目标掩膜区域，基于权重信息将这些目标掩膜区域进行加权求和，即可得到最终的文本掩膜区域。该文本掩膜区域可以用来确定所述目标图片最终的文本位置。

第二实施例

如图4所示，本申请提供一种文本检测装置400，包括：

获取模块401，用于获取目标图片；

特征提取模块402，用于对所述目标图片进行特征提取，得到所述目标图片的第一特征；

文本检测模块403，用于基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框；

掩膜解码模块404，用于基于所述第一特征进行掩膜解码，得到所述目标图片的M个掩膜图像以及所述第一文本候选框针对所述M个掩膜图像的M个权重信息，M为正整数；

文本确定模块405，用于基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置。

可选的，其中，所述文本检测模块403包括：

文本检测单元，用于基于所述第一特征对所述目标图片进行文本检测，得到所述目标图片的第二文本候选框；

区域特征提取单元，用于对所述第二文本候选框的区域内图片内容进行特征提取，得到所述第二文本候选框的区域内图片内容的第二特征；

第一确定单元，用于基于所述第二特征，确定目标差值信息，所述目标差值信息用于表征所述第二文本候选框相对于所述目标图片的目标框的位置差异；

第二确定单元，用于基于所述第二文本候选框和所述目标差值异信息，确定所述第一文本候选框。

可选的，其中，所述第一确定单元，具体用于将所述第二特征输入至目标模型进行差值预测，得到目标差值信息，所述目标模型用于基于预先训练的参数预测图片的文本候选框相对于目标框的差值信息。

可选的，其中，M大于1，文本确定模块405包括：

掩膜区域获取单元，用于获取每个掩膜图像中所述第一文本候选框对应位置的目标掩膜区域，以得到所述第一文本候选框对应的M个目标掩膜区域；

加权操作单元，用于基于所述M个权重信息，对所述M个目标掩膜区域进行加权操作，得到所述第一文本候选框对应的文本掩膜区域；

第三确定单元，用于基于所述文本掩膜区域，确定所述目标图片的文本位置。

可选的，其中，所述第三确定单元，具体用于对所述文本掩膜区域中的像素点进行二值化，得到所述目标图片的文本像素信息；确定所述文本像素信息的连通区域的包络，以得到所述目标图片的文本位置。

本申请提供的文本检测装置400能够实现上述文本检测方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM503中，还可以存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调整解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如文本检测方法。例如，在一些实施例中，文本检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时，可以执行上文描述的文本检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行文本检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文本检测方法，包括：

获取目标图片；

2.根据权利要求1所述的方法，其中，所述基于所述第一特征对所述目标图片进行文本检测，以确定所述目标图片的第一文本候选框，包括：

基于所述第二文本候选框和所述目标差值信息，确定所述第一文本候选框。

3.根据权利要求2所述的方法，其中，所述基于所述第二特征，确定目标差值信息，包括：

4.根据权利要求1所述的方法，其中，M大于1，所述基于所述第一文本候选框、所述M个掩膜图像和所述M个权重信息，确定所述目标图片的文本位置，包括：

基于所述文本掩膜区域，确定所述目标图片的文本位置。

5.根据权利要求4所述的方法，所述基于所述文本掩膜区域，确定所述目标图片的文本位置，包括：

6.一种文本检测装置，包括：

获取模块，用于获取目标图片；

7.根据权利要求6所述的装置，其中，所述文本检测模块包括：

8.根据权利要求7所述的装置，其中，所述第一确定单元，具体用于将所述第二特征输入至目标模型进行差值预测，得到目标差值信息，所述目标模型用于基于预先训练的参数预测图片的文本候选框相对于目标框的差值信息。

9.根据权利要求6所述的装置，其中，M大于1，文本确定模块包括：

10.根据权利要求9所述的装置，其中，所述第三确定单元，具体用于对所述文本掩膜区域中的像素点进行二值化，得到所述目标图片的文本像素信息；确定所述文本像素信息的连通区域的包络，以得到所述目标图片的文本位置。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。