CN114724133A

CN114724133A - 文字检测和模型训练方法、装置、设备及存储介质

Info

Publication number: CN114724133A
Application number: CN202210404529.4A
Authority: CN
Inventors: 黄聚; 张晓强; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-08
Anticipated expiration: 2042-04-18
Also published as: US20230196805A1; CN114724133B

Abstract

本公开提供了一种文字检测和模型训练方法、装置、设备及存储介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：获取训练样本，训练样本中包括样本图像和标签图像，标签图像为对所述样本图像上的文本实例进行标注得到的图像；将样本图像输入至文字检测模型，得到文字检测模型输出的分割图像和分割图像的图像类别，其中，图像类别指示分割图像中包括文本实例，或者，不包括文本实例；根据分割图像、分割图像的图像类别和标注图像对文字检测模型的参数进行调整。对图像中的文字以文本实例为单元进行检测得到检测结果，文字检测的准确性较高。

Description

文字检测和模型训练方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景，尤其涉及一种文字检测和模型训练方法、装置、设备及存储介质。

背景技术

文字检测是指在包含有文字的图片中检测文本区域的过程，具体来说，文字检测的任务是输出图像中的每个目标文本的边界框，而并不关心目标文本的具体语义内容。

文字检测是文字识别、产品搜索等应用中的重要一环，文字检测的准确程度会影响后续文字识别的效果。因此，需要提供一种准确性较高的文字检测方案，提升文字检测能力，有效增强身份证识别、文档识别、票据识别等业务的准确率和鲁棒性。

发明内容

本公开提供了一种文字检测和模型训练方法、装置、设备及存储介质。

根据本公开的第一方面，提供了一种文字检测方法，包括：

获取待检测的第一图像；

将所述第一图像输入至文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

根据所述分割图像和所述图像类别，在所述第一图像上确定目标区域，所述目标区域中包括文本实例。

根据本公开的第二方面，提供了一种模型训练方法，包括：

获取训练样本，所述训练样本中包括样本图像和标签图像，所述标签图像为对所述样本图像上的文本实例进行标注得到的图像；

将所述样本图像输入至所述文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

根据所述分割图像、所述分割图像的图像类别和所述标注图像对所述文字检测模型的参数进行调整。

根据本公开的第三方面，提供了一种文字检测装置，包括：

获取单元，用于获取待检测的第一图像；

处理单元，用于将所述第一图像输入至文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

检测单元，用于根据所述分割图像和所述图像类别，在所述第一图像上确定目标区域，所述目标区域中包括文本实例。

根据本公开的第四方面，提供了一种模型训练装置，包括：

获取单元，用于获取训练样本，所述训练样本中包括样本图像和标签图像，所述标签图像为对所述样本图像上的文本实例进行标注得到的图像；

处理单元，用于将所述样本图像输入至所述文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

调整单元，用于根据所述分割图像、所述分割图像的图像类别和所述标注图像对所述文字检测模型的参数进行调整。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面或第二方面中任一项所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。

根据本公开的技术，首先获取训练样本，该训练样本中包括样本图像和标签图像，标签图像为对样本图像上的文本实例进行标注得到的图像；然后将样本图像输入至文字检测模型，得到文字检测模型输出的多个分割图像和分割图像的图像类别，该图像类别指示分割图像中包括文本实例，或者，不包括文本实例；根据多个分割图像、分割图像的图像类别和标注图像对文字检测模型的参数进行调整。由于标签图像是对样本图像上的文本实例进行标注得到的，在通过文字检测模型对样本图像中的文本实例进行检测得到分割图像和图像类别后，可以基于分割图像、图像类别和标注图像对文字检测模型的参数进行调整，从而使得文字检测模型在训练完成后具备对图像中的文本实例进行检测的能力，能够对图像中的文字以文本实例为单元进行检测得到检测结果，文字检测的准确性较高。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的应用场景示意图；

图2为本公开实施例提供的模型训练方法的流程示意图；

图3为本公开实施例提供的文字检测模型处理示意图；

图4为本公开实施例提供的文字检测模型对样本图像的处理流程示意图；

图5为本公开实施例提供的解码器模块处理示意图；

图6为本公开实施例提供的确定分割图像对应的区域的示意图一；

图7为本公开实施例提供的确定分割图像对应的区域的示意图二；

图8为本公开实施例提供的文字检测方法的流程示意图；

图9为本公开实施例提供的文字检测过程示意图；

图10为本公开实施例提供的文字检测装置的结构示意图；

图11为本公开实施例提供的模型训练装置的结构示意图；

图12为本公开实施例提供的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

文字检测是指在包含有文字的图像中检测文本区域的过程，通过文字检测能够输出图像中的目标文本的边界框，但不关心目标文本的具体语义内容。文字检测作为文字识别、产品搜索、图像与视频理解、自动驾驶等应用中的重要一环，其检测的准确程度直接影响到后续识别任务的效果。

例如可以结合图1对本公开的应用场景进行介绍。图1为本公开实施例提供的应用场景示意图，如图1所示，包括客户端11和服务器12，客户端11和服务器12之间通过有线或无线连接。

客户端11向服务器12发送待检测图像13，待检测图像13上面包括文字。服务器12在接收到待检测图像13后，可以对待检测图像13进行文字检测，得到相应的图像检测结果。例如在图1中，服务器12在对待检测图像13进行文字检测后，可以得到检测图像14，检测图像14对待检测图像13上的文字进行了矩形框标示，矩形框中的区域即为检测出的目标文本所在的区域。

相关技术中，主要是通过基于回归的方法或者基于分割的方法来进行文字检测的。基于回归的方法首先训练检测模型，在训练检测模型时，训练样本包括样本图像和标注信息，标注信息即为对样本图像上的文字进行标注的矩形框。通过训练样本对检测模型进行训练后，检测模型具有检测图像上的文字的能力，能够识别图像上的文本区域。由于基于回归的方法在进行模型训练时，在样本图像标注的都是矩形框，因此这种文字检测方法对于规则形状的文字检测的效果较好，而对于不规则形状的文字，例如弯曲文字的检测效果较差，容易将不属于文本区域的检测为文本区域，也容易将属于文本区域的检测为非文本区域。

基于分割的方法主要是对图像进行像素点级别的分类，将像素点划分为文本区域类别和非文本区域类别，然后根据划分的结果得到文字检测结果-即文本区域。这种文字检测方法由于是对图像进行像素级别的处理，因此可以适用于不规则形状的文字检测。但是这种方法需要在后续处理过程中将像素级别的预测结果通过二值化操作整合为相应文字区域，对于相隔比较近的两个文本实例，该方案容易将其划分为同一个文本实例。以身份证照片为例，身份证照片上包括文本“姓名张三”，其中，“姓名”是一个文本实例，“张三”也是一个文本实例。当这两个文本实例距离较近时，基于分割的方法容易将其划分为同一个文本实例“姓名张三”。因此，基于分割的方法存在文字检测的精度不高的问题。

基于此，本公开提供一种文字检测和模型训练方法、装置、设备及存储介质，以解决上述技术问题。下面将结合附图对本公开的方案进行介绍。

图2为本公开实施例提供的模型训练方法的流程示意图，如图2所示，该方法可以包括：

S21，获取训练样本，训练样本中包括样本图像和标签图像，标签图像为对样本图像上的文本实例进行标注得到的图像。

样本图像为进行模型训练的图像，样本图像上包括文字，而文字检测模型用于对样本图像上的文字进行检测。针对任意一个样本图像，其对应的标签图像是通过对样本图像上的文本实例进行标注得到的图像。其中，文本实例表示的是独立文本条目类别，一个文本实例中可以包括一个或多个文字。

以一个例子对文本实例进行介绍。通过对某个用户的求职简历进行扫描，得到相应的简历图像，该简历图像上包括该用户的姓名信息-“姓名张三”。则针对该简历图像而言，“姓名”为该简历图像上的一个文本实例，“张三”为该简历图像上的另一个文本实例，且“姓名”和“张三”是不同的文本实例。

在获取样本图像后，可以根据样本图像上的文字，以文本实例为单位对样本图像进行标注，标注的方式例如可以包括矩形框的形式、四角点的形式，等等。以样本图像上包括“姓名”和“张三”这两个文本实例、标注的方式为矩形框的形式为例，则可以通过第一矩形框对样本图像上的“姓名”这一文本实例进行标注，通过第二矩形框对样本图像上的“张三”这一文本实例进行标注，从而得到该样本图像对应的标注图像。

S22，将样本图像输入至文字检测模型，得到文字检测模型输出的分割图像和分割图像的图像类别，其中，图像类别指示分割图像中包括文本实例，或者，不包括文本实例。

在获取多组训练样本后，针对任意一组训练样本，可以将该训练样本中的样本图像输入至文字检测模型，通过文字检测模型对该样本图像进行处理，得到对应的多个分割图像和各个分割图像的图像类别。

本公开实施例中，同一样本图像对应的多个分割图像的尺寸是一致的，不同分割图像上的像素点的像素值不同。针对任意一个分割图像，该分割图像的图像类别指示该分割图像中包括文本实例，或者，不包括文本实例。

S23，根据分割图像、分割图像的图像类别和标注图像对文字检测模型的参数进行调整。

在得到多个分割图像和分割图像的图像类别后，可以根据多个分割图像和分割图像的图像类别，确定该文字检测模型检测出的文本实例。然后，结合标注图像中标注的文本实例，对文字检测模型的参数进行调整。

针对任意一组训练样本，均可以通过上述方案对文字检测模型进行训练，直至满足训练终止条件时，停止训练过程，得到训练好的文字检测模型。其中，训练终止条件例如可以包括训练次数达到最大设定次数，例如可以包括该文字检测模型检测出的文本实例和标注图像中标注的文本实例之间的差异值小于或等于预设差异值，等等。

本公开实施例提供的模型训练方法，首先获取训练样本，该训练样本中包括样本图像和标签图像，标签图像为对样本图像上的文本实例进行标注得到的图像；然后将样本图像输入至文字检测模型，得到文字检测模型输出的分割图像和分割图像的图像类别，该图像类别指示分割图像中包括文本实例，或者，不包括文本实例；根据多个分割图像、分割图像的图像类别和标注图像对文字检测模型的参数进行调整。由于标签图像是对样本图像上的文本实例进行标注得到的，在通过文字检测模型对样本图像中的文本实例进行检测得到分割图像和图像类别后，可以基于分割图像、图像类别和标注图像对文字检测模型的参数进行调整，从而使得文字检测模型在训练完成后具备对图像中的文本实例进行检测的能力，能够对图像中的文字以文本实例为单元进行检测得到检测结果，文字检测的准确性较高。

为使读者更深刻地理解本公开的实现原理，现结合以下图3-图6对图2所示的实施例进行进一步细化。

图3为本公开实施例提供的文字检测模型处理示意图，如图3所示，文字检测模型包括预设向量组、编码器模块和解码器模块。在将样本图像输入至文字检测模型后，首先通过编码器模块对样本图像进行特征提取处理，得到该样本图像的特征矩阵，即图3中的矩阵F_B。

本公开实施例中的编码器模块可以是任意的特征提取网络，例如可以是基于卷积神经网络(Convolutional Neural Networks，CNN)的特征提取网络，可以是基于深度自注意力变换特征提取网络(Transformer特征提取网络)而来，也可以是基于CNN和Transformer两者混合的网络结构。

在图3示例的文字检测模型的结构的基础上，下面结合图4对图2实施例中S22中文字检测模型对样本图像的处理过程进行介绍。

图4为本公开实施例提供的文字检测模型对样本图像的处理流程示意图，如图4所示，包括：

S41，获取预设向量组，预设向量组中包括N个预设向量，N大于或等于样本图像中包括的文本实例的数量，N为正整数。

需要说明的是，N为文字检测模型中预先设定的参数，N决定了文字检测模型最大能检测出的文本实例的数量，因此，N需要大于或等于样本图像中包括的文本实例的数量。例如某个样本图像中包括的文本实例的数量为100，则N需要取大于或等于100的数值，如150、200等等。由于文字检测模型的训练过程中可能需要多个样本图像共同进行训练，因此N的取值需要大于或等于任意一张样本图像中包括的文本实例的数量。

在图3的示例中，预设向量组Q₁为一个N*C的矩阵，预设向量组Q₁中包括N个预设向量，每个预设向量中包括C个元素，C即为通道数。预设向量组Q₁中的预设向量为一组可以学习的向量，初始可以对预设向量中的各个元素的取值进行初始化，即预设向量中的各个原始的取值可以任意设定，例如可以将各个预设向量中的元素的取值全部设定为0，全部设定为1，等等。在后续模型训练的过程中，预设向量会不断进行学习，从而更新自身元素的取值。

S42，对样本图像进行特征提取处理，得到样本图像的特征矩阵。

对样本图像进行特征提取处理是通过文字检测模型中的编码器模型实现的。通过编码器模块对样本图像进行处理，可以特征矩阵F_B，特征矩阵F_B是一个C*H₀*W₀的特征矩阵，C、H₀和W₀均为大于或等于1的正整数。其中C表示通道数，C的取值与编码器模块的结构相关。H₀和W₀的大小与样本图像的尺寸相关。以样本图像的尺寸为H₁*W₁为例，其中H₁表示样本图像中每列包括的像素点数，W₁表示样本图像中每行包括的像素点数，则H₁＝kH₀，W₁＝kW₀，k为正整数。k的取值由编码器模块决定，在一些实施例中，k大于或等1，例如k可以为2、4、8等等。通过编码器模块对样本图像处理，能够提取样本图像的高分辨率特征，从而提升模型的特征表达能力，进而提高模型的检测精度。

S43，根据分割图像、分割图像的图像类别和标注图像对文字检测模型的参数进行调整。

在获取预设向量组和样本图像的特征矩阵后，可以根据预设向量组和该特征矩阵得到N个分割图像和N个分割图像的图像类别。

如图3所示，首先，对该预设向量组Q₁和样本图像的特征矩阵F_B进行卷积处理，得到第1个卷积矩阵M₁，其中，M₁为一个N*H₀*W₀的矩阵。然后，将预设向量组、第1个卷积矩阵和样本图像的特征矩阵输入解码器模块，通过解码器模块对预设向量组、第1个卷积矩阵和该样本图像的特征矩阵处理，得到N个分割图像和图像类别。

图5为本公开实施例提供的解码器模块处理示意图，如图5所示，解码器模块的输入为第1个卷积矩阵、预设向量组以及样本图像的特征矩阵。

在解码器模块中包括L个子解码模块，在图5中，将这L个子解码模块从左至右依次称为第1个子解码模块、第2个子解码模块、...、第L个子解码模块。

当第1个卷积矩阵、预设向量组以及样本图像的特征矩阵输入解码器模块后，执行第一操作，第一操作包括：根据第i个子解码模块对第i个向量组、第i个卷积矩阵和样本图像的特征矩阵处理，得到第i+1个向量组和第i+1个卷积矩阵，并更新i为i+1。其中，第1个向量组为预设向量组，初始时，i为1，i为正整数。

当i小于L时，重复执行第一操作，直至i等于L时，得到第L+1个向量组和第L+1个卷积矩阵。

例如在图5中，当第1个卷积矩阵M₁、预设向量组Q₁以及样本图像的特征矩阵F_B输入解码器模块后，首先由第1个子解码模块对预设向量组Q₁、第1个卷积矩阵M₁和特征矩阵F_B处理，得到第2个向量组Q₂和第2个卷积矩阵M₂，实现了对预设向量组Q₁和第1个卷积矩阵M₁的更新；第1个子解码模块的输出以及该特征矩阵F_B共同作为第2个子解码模块的输入，由第2个子解码模块对第2个向量组Q₂、第2个卷积矩阵M₂和特征矩阵F_B进行处理，得到第3个向量组Q₃和第3个卷积矩阵M₃，等等。

当i小于L时，针对任意第i个子解码模块，第i个子解码模块的输入为第i个向量组、第i个卷积矩阵和样本图像的特征矩阵，输出为第i+1个向量组和第i+1个卷积矩阵，第i个子解码模块的输出加上样本图像的特征矩阵，共同作为第i+1个子解码模块的输入。

通过L个子解码模块依次进行处理，最终得到第L个子解码模块输出的第L+1个向量组和第L+1个卷积矩阵，第L+1个向量组(即图5中的Q_L+1)和第L+1个卷积矩阵(即图5中的M_L+1)即为解码器模块的输出。本公开实施例中，任意一个向量组均为尺寸为N*C的矩阵，任意一个卷积矩阵均为N*H₀*W₀的矩阵。

然后，根据第L+1个向量组，确定得到图像类别，根据第L+1个卷积矩阵，确定得到N个分割图像。例如在图5中，第L+1个卷积矩阵M_L+1为N*H₀*W₀的矩阵，则根据第L+1个卷积矩阵M_L+1可以得到N个H₀*W₀的图像，这N个H₀*W₀的图像即为N个分割图像。根据第L+1个卷积矩阵M_L+1可以得到这N个分割图像上各像素点的像素值。其中，针对任意一个分割图像，其像素值不为0的各像素点构成的区域为该文字检测模型通过该分割图像检测出的区域。

第L+1个向量组Q_L+1为N*C的矩阵，在解码器模块输出第L+1个向量组Q_L+1后，可以将第L+1个向量组Q_L+1与第一矩阵相乘，得到一个N*3的矩阵Q，矩阵Q中包括N个向量，每个向量指示一个分割图像的图像类别。其中，图像类别指示该分割图像中包括文本实例、包括背景或者包括其他区域，其中，包括背景或者包括其他区域均指示对应的分割图像中不包括文本实例。

本公开实施例中的任意子解码模块可以基于Transformer特征提取网络而来。目前的Transformer特征提取网络的输入是图像的特征矩阵和一组可学习的向量，本公开实施例中除样本图像的特征矩阵和可学习的预设向量组外，还添加了第1个卷积矩阵作为输入，使得最终输出的第L+1个预设向量组在经归一化以及点乘相应的矩阵后，能够聚焦于样本图像的局部，而不是在整个样本图像上进行注意力操作，这样能够加快整个解码器模块的收敛速度以及提高模型的检测精度。

在上述实施例中，结合图3-图5对图2实施例中的S22步骤进行了详细介绍。下面将结合图6和图7对图2实施例中的S23步骤进行进一步细化。

在得到多个分割图像和分割图形的图像类别后，可以根据多个分割图像和图像类别在样本图像中确定至少一个目标区域，目标区域即为文字检测模型检测出的包括文本实例的区域。

例如可以参照图6进行理解，图6为本公开实施例提供的确定分割图像对应的区域的示意图一，如图6所示，分割图像61的尺寸为3*3，即分割图像61每行包括的像素点W₀＝3，每列包括的像素点H₀＝3。在图6中，以一个小方框代表图像上的一个像素点，图6仅是对像素点的对应关系进行示意，并不表示实际的显示效果。

由于分割图像61的尺寸H₀和W₀与样本图像62的尺寸相关，即H₁＝kH₀，W₁＝kW₀，在图6中，以k＝4为例，样本图像62的尺寸为12*12，即样本图像62每行包括的像素点为12，每列包括的像素点也为12。

在图6的示例中，分割图像61上有3个像素点的像素值不为0，分别是像素点A、像素点B和像素点C，则可以根据像素点A、像素点B和像素点C在样本图像62上确定一个区域。

具体的，由于H₁＝kH₀，W₁＝kW₀，因此分割图像上的一个像素点对应于样本图像上的k²个像素点。例如图6中，分割图像61上的任意像素点对应样本图像62上的16个像素点。因此，针对像素点A而言，可以根据像素点A在分割图像61上的位置，在样本图像62上确定该像素点A对应的16个像素点，如图6中的区域63示意。类似的，可以根据像素点B在分割图像61上额位置，在样本图像62上确定该像素点B对应的16个像素点；根据像素点C在分割图像61上额位置，在样本图像62上确定该像素点C对应的16个像素点。在图6中，样本图62上的阴影部分即为像素点A、像素点B和像素点C在样本图像62上的对应像素点，图6中还示例了像素点C在样本图像62上对应的16个像素点。

在确定像素点A、像素点B和像素点C在样本图像62上对应的各像素点后，可以根据各像素点确定该分割图像61在样本图像中对应的区域。下面结合图7对该过程进行说明。

图7为本公开实施例提供的确定分割图像对应的区域的示意图二，如图7所示，在样本图像71确定了分割图像对应的各像素点。根据各像素点在样本图像71上的位置，可以确定四角点J1(x1，y1)、J2(x2，y1)、J3(x1，y2)和J4(x2，y2)，其中，针对分割图像对应的任意像素点(x，y)，均满足x1＝<x＝<x2，y1＝<y＝<y2。然后，根据四角点J1、J2、J3和J4，可以得到该分割图像对应的区域，该区域如图像72中的虚线框示意。

针对任意一个分割图像，均可以根据图7示例的方法确定该分割图像对应的区域。因此，在得到多个分割图像后，可以根据多个分割图像，在样本图像中确定多个分割图像对应的区域。然后根据各分割图像对应的图像类别，在多个分割图像对应的区域中确定至少一个目标区域。具体的，针对任意一个区域，若图像类别指示该区域对应的分割图像中包括文本实例，则可以将该区域确定为目标区域；若图像类别指示该区域对应的分割图像中不包括文本实例，则可以将该区域确定为非目标区域。

最终确定的目标区域即为通过文字检测模型检测出的文本区域，然后，根据该目标区域和标注图像上标注的区域对文字检测模型的参数进行调整。具体的，在训练阶段，可以通过二分图匹配算法将预测出的文本区域和标注图像进行匹配，并计算分类损失和分割损失，分割损失例如可以包括二分类的交叉熵损失等等。

针对任意一组训练样本，均可以通过上述实施例示例的方法对文字检测模型进行训练。在达到模型训练的终止条件后，可以停止训练过程，得到训练好的文字检测模型。其中，模型训练的终止条件例如可以为训练次数达到预设次数，例如可以为目标区域和标注图像上标签的区域之间的差异值小于或等于预设值，等等。

综上所述，本公开实施例提供了一种模型训练方法用于训练文字检测模型，在模型训练过程中，首先获取预设向量组，然后通过编码器模块提取样本图像的特征矩阵，并将特征矩阵和预设向量组进行卷积处理得到卷积矩阵，然后通过解码器模块对预设向量组、特征矩阵和卷积矩阵进行处理，由于解码器模块中包括多个子解码模块，因此可以通过多个子解码模块对预设向量组和卷积矩阵进行动态更新，最后得到多个分割图像和分割图像的图像类别。基于分割图像、图像类别和标注图像对文字检测模型的参数进行调整，从而使得文字检测模型在训练完成后具备对图像中的文本实例进行检测的能力，能够对图像中的文字以文本实例为单元进行检测得到检测结果，文字检测的准确性较高。

在上述实施例中，介绍了文字检测模型的训练过程。在文字检测模型训练完成之后，可以将文字检测模型用于文字检测，下面将对文字检测模型进行文字检测的过程进行介绍。

图8为本公开实施例提供的文字检测方法的流程示意图，如图8所示，该方法可以包括：

S81，获取待检测的第一图像。

第一图像为待检测的图像，第一图像上包括文字。例如，第一图像可以是对试卷扫描得到的图像，第一图像可以是对身份证拍照得到的图像，第一图像可以是对网页进行拍照得到的图像，等等。

S82，将第一图像输入至文字检测模型，得到文字检测模型输出的分割图像和分割图像的图像类别，其中，图像类别指示分割图像中包括文本实例，或者，不包括文本实例。

本公开实施例中的文字检测模型为已经训练好的文字检测模型，文字检测模型的训练过程可以参考图2-图7实施例的介绍，此处不再赘述。在文字检测模型训练完成后，文字检测模型具备对图像上的文字进行检测的能力。因此，在将第一图像输入文字检测模型后，通过文字检测模型对第一图像进行处理，可以得到多个分割图像和分割图像的图像类别。其中，图像类别指示对应的分割图像中包括文本实例，或者，不包括文本实例。

文本实例表示的是独立文本条目类别，一个文本实例中可以包括一个或多个文字。以一个例子对文本实例进行介绍。某个图像上包括某个车辆的相关信息，该图像上包括该车辆的车牌信息-“车牌号A12345”。则针对该图像而言，“车牌号”为该图像上的一个文本实例，“A12345”为该图像上的另一个文本实例，且“车牌号”和“A12345”是不同的文本实例。

S83，根据分割图像和图像类别，在第一图像上确定目标区域，目标区域中包括文本实例。

本公开实施例中，文字检测模型是以文本实例为单位对第一图像进行检测的，其中，每个分割图像对应第一图像上的一个区域，而该分割图像的图像类别指示对应的区域中是否包括文本实例。针对图像类别指示包括文本实例的区域，可以将其确定为目标区域。针对任意分割图像和对应的图像类别，均可以通过该方式确定该分割图像对应的区域是否为目标区域。最终，通过多个分割图像和图像类别，在第一图像上确定至少一个目标区域，目标区域中包括文本实例，从而实现了针对第一图像上以文本实例为单位的文字检测。

为使读者更深刻地理解本公开的实现原理，现结合以下图9对图8所示的实施例进行进一步细化。

首先结合图9对图8实施例的S82中文字检测模型对第一图像的处理过程进行介绍。图9为本公开实施例提供的文字检测过程示意图，如图9所示，文字检测模型包括预设向量组、编码器模块和解码器模块。第一图像为待检测的图像，第一图像的尺寸为H₁’*W₁’，即第一图像在纵向包括H₁’个像素点，在横向包括W₁’个像素点。在将第一图像输入至文字检测模型后，首先通过编码器模块对第一图像进行特征提取处理，得到该第一图像的特征矩阵，即图9中的矩阵F_B’。

通过编码器模块对第一图像进行处理，可以特征矩阵F_B’，特征矩阵F_B’是一个C*H₀’*W₀’的特征矩阵，C、H₀’和W₀’均为大于或等于1的正整数。其中C表示通道数，C的取值与编码器模块的结构相关。H₀’和W₀’的大小与第一图像的尺寸相关，H₁’＝kH₀’，W₁’＝kW₀’，k为正整数。k的取值由编码器模块决定，在一些实施例中，k大于或等1，例如k可以为2、4、8等等。通过编码器模块对第一图像处理，能够提取第一图像的高分辨率特征，从而提高模型针对第一图像的检测精度。

在得到第一图像的特征矩阵后，可以获取预设向量组，该预设向量组中包括N个预设向量，N为正整数。需要说明的是，N为文字检测模型中预先设定的参数，N决定了文字检测模型最大能检测出的文本实例的数量，因此，N需要大于或等于第一图像中包括的文本实例的数量。例如某个第一图像中包括的文本实例的数量为100，则N需要取大于或等于100的数值。

在图9的示例中，预设向量组Q₁’为一个N*C的矩阵，预设向量组Q₁’中包括N个预设向量，每个预设向量中包括C个元素，C即为通道数。预设向量组Q₁’中的预设向量为一组可以学习的向量，初始可以对预设向量中的各个元素的取值进行初始化，即预设向量中的各个原始的取值可以任意设定，在后续模型对第一图像处理的过程中，预设向量会不断进行学习，从而更新自身元素的取值。

在获取预设向量组和第一图像的特征矩阵后，可以根据预设向量组和该特征矩阵得到N个分割图像和N个分割图像的图像类别。如图9所示，首先，对该预设向量组Q₁’和第一图像的特征矩阵F_B’进行卷积处理，得到第1个卷积矩阵M₁’，其中，M₁’为一个N*H₀’*W₀’的矩阵。然后，将预设向量组、第1个卷积矩阵和第一图像的特征矩阵输入解码器模块，通过解码器模块对预设向量组、第1个卷积矩阵和该第一图像的特征矩阵处理，得到N个分割图像和图像类别。

在解码器模块中包括L个子解码模块，在图9中，将这L个子解码模块从左至右依次称为第1个子解码模块、第2个子解码模块、...、第L个子解码模块。当第1个卷积矩阵、预设向量组以及第一图像的特征矩阵输入解码器模块后，执行第一操作，第一操作包括：根据第i个子解码模块对第i个向量组、第i个卷积矩阵和第一图像的特征矩阵处理，得到第i+1个向量组和第i+1个卷积矩阵，并更新i为i+1。其中，第1个向量组为预设向量组，初始时，i为1，i为正整数。

例如在图9中，当第1个卷积矩阵M₁’、预设向量组Q₁’以及第一图像的特征矩阵F_B’输入解码器模块后，首先由第1个子解码模块对预设向量组Q₁’、第1个卷积矩阵M₁’和特征矩阵F_B’处理，得到第2个向量组Q₂’和第2个卷积矩阵M₂’，实现了对预设向量组Q₀’和第1个卷积矩阵M₁’的更新；第1个子解码模块的输出以及该特征矩阵F_B’共同作为第2个子解码模块的输入，由第2个子解码模块对第2个向量组Q₂’、第2个卷积矩阵M₂’和特征矩阵F_B’进行处理，得到第3个向量组Q₃’和第3个卷积矩阵M₃’，等等。

当i小于L时，针对任意第i个子解码模块，第i个子解码模块的输入为第i个向量组、第i个卷积矩阵和第一图像的特征矩阵，输出为第i+1个向量组和第i+1个卷积矩阵，第i个子解码模块的输出加上第一图像的特征矩阵，共同作为第i+1个子解码模块的输入。

通过L个子解码模块依次进行处理，最终得到第L个子解码模块输出的第L+1个向量组和第L+1个卷积矩阵，第L+1个向量组(即图9中的Q_L+1’)和第L+1个卷积矩阵(即图9中的M_L+1’)即为解码器模块的输出。本公开实施例中，任意一个向量组均为尺寸为N*C的矩阵，任意一个卷积矩阵均为N*H₀*W₀的矩阵。

然后，根据第L+1个向量组，确定得到图像类别，根据第L+1个卷积矩阵，确定得到N个分割图像。例如在图9中，第L+1个卷积矩阵M_L+1’为N*H₀’*W₀’的矩阵，则根据第L+1个卷积矩阵M_L+1’可以得到N个H₀’*W₀’的图像，这N个H₀’*W₀’的图像即为N个分割图像。根据第L+1个卷积矩阵M_L+1’可以得到这N个分割图像上各像素点的像素值。其中，针对任意一个分割图像，其像素值不为0的各像素点构成的区域为该文字检测模型通过该分割图像检测出的区域。

第L+1个向量组为N*C的矩阵，在解码器模块输出第L+1个向量组后，可以将第L+1个向量组与第一矩阵相乘，得到一个N*3的矩阵Q’，矩阵Q’中包括N个向量，每个向量指示一个分割图像的图像类别。其中，图像类别指示该分割图像中包括文本实例、包括背景或者包括其他区域，其中，包括背景或者包括其他区域均指示对应的分割图像中不包括文本实例。本公开实施例中除第一图像的特征矩阵和可学习的预设向量组外，还添加了第1个卷积矩阵作为输入，使得最终输出的第L+1个预设向量组在经归一化以及点乘相应的矩阵后，能够聚焦于第一图像的局部，而不是在整个第一图像上进行注意力操作，这样能够加快整个解码器模块的收敛速度以及提高模型的检测精度。

下面将对图8实施例中的S83相关内容进行介绍。

在得到多个分割图像和分割图形的图像类别后，可以根据多个分割图像和图像类别在样本图像中确定目标区域，目标区域即为文字检测模型检测出的包括文本实例的区域。

具体的，由于H₁’＝kH₀’，W₁’＝kW₀’，因此分割图像上的一个像素点对应于第一图像上的k²个像素点。针对任意分割图像，可以根据该分割图像上非0像素点在分割图像上的位置，在第一图像上确定该像素点对应的k²个像素点。然后，根据分割图像上非0像素点在第一图像上对应的多个像素点，可以确定该分割图像在第一图像上对应的区域。针对任意一个分割图像，均可以根据上述方法确定该分割图像对应的区域。因此，在得到多个分割图像后，可以根据多个分割图像，在第一图像中确定多个分割图像对应的区域。然后根据各分割图像对应的图像类别，在多个分割图像对应的区域中确定至少一个目标区域。例如，若图像类别指示该区域对应的分割图像中包括文本实例，则可以将该分割图像对应的区域确定为目标区域；若图像类别指示该区域对应的分割图像中不包括文本实例，则可以将该分割图像对应的区域确定为非目标区域。

综上所述，本公开实施例提供的文字检测方法，首先获取待检测的第一图像，然后将第一图像输入至文字检测模型，通过文字检测模型对第一图像进行处理，得到分割图像和分割图像的图像类别。文字检测模型是以文本实例为单位对第一图像进行检测的，其中，每个分割图像对应第一图像上的一个区域，而该分割图像的图像类别指示对应的区域中是否包括文本实例。针对图像类别指示包括文本实例的区域，可以将其确定为目标区域。针对任意分割图像和对应的图像类别，均可以通过该方式确定该分割图像对应的区域是否为目标区域。最终，通过多个分割图像和图像类别，在第一图像上确定至少一个目标区域，目标区域中包括文本实例，从而实现了针对第一图像上以文本实例为单位的文字检测，其文字检测的准确性较高。

图10为本公开实施例提供的文字检测装置的结构示意图，如图10所示，该文字检测装置100包括：

获取单元101，用于获取待检测的第一图像；

处理单元102，用于将所述第一图像输入至文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

检测单元103，用于根据所述分割图像和所述图像类别，在所述第一图像上确定目标区域，所述目标区域中包括文本实例。

在一种可能的实施方式中，所述处理单元包括：

获取模块，用于获取预设向量组，所述预设向量组中包括N个预设向量，所述N大于或等于所述第一图像中包括的文本实例的数量，所述N为正整数；

第一处理模块，用于对所述第一图像进行特征提取处理，得到所述第一图像的特征矩阵；

第二处理模块，用于根据所述预设向量组和所述特征矩阵，得到N个分割图像和所述N个分割图像的图像类别。

在一种可能的实施方式中，所述第二处理模块包括：

第一处理子模块，用于对所述预设向量组和所述特征矩阵进行卷积处理，得到初始的第i个卷积矩阵，所述i＝1；

第二处理子模块，用于根据解码器模块对所述预设向量组、所述第i个卷积矩阵和所述特征矩阵处理，得到所述N个分割图像和所述N个分割图像的图像类别。

在一种可能的实施方式中，所述解码器模块中包括L个子解码模块，所述L为大于或等于1的整数；所述第二处理子模块具体用于：

执行第一操作，所述第一操作包括：根据第i个子解码模块对第i个向量组、第i个卷积矩阵和所述特征矩阵处理，得到第i+1个向量组和第i+1个卷积矩阵，并更新所述i为i+1；其中，第1个向量组为所述预设向量组，初始时，所述i为1，所述i为正整数；

在所述i小于所述L时，重复执行所述第一操作，直至所述i等于所述L时，得到第L+1个向量组和第L+1个卷积矩阵；

根据所述第L+1个向量组，确定得到所述图像类别；

根据所述第L+1个卷积矩阵，确定得到所述N个分割图像。

在一种可能的实施方式中，所述检测单元包括：

第一检测模块，用于根据所述分割图像，在所述第一图像中确定所述分割图像对应的区域；

第二检测模块，用于根据所述图像类别，在所述分割图像对应的区域中确定所述目标区域。

本公开实施例提供的文字检测装置，用于执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图11为本公开实施例提供的模型训练装置的结构示意图，如图11所示，该模型训练装置110包括：

获取单元111，用于获取训练样本，所述训练样本中包括样本图像和标签图像，所述标签图像为对所述样本图像上的文本实例进行标注得到的图像；

处理单元112，用于将所述样本图像输入至所述文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

调整单元113，用于根据所述分割图像、所述分割图像的图像类别和所述标注图像对所述文字检测模型的参数进行调整。

在一种可能的实施方式中，所述处理单元112包括：

获取模块，用于获取预设向量组，所述预设向量组中包括N个预设向量，所述N大于或等于所述样本图像中包括的文本实例的数量，所述N为正整数；

第一处理模块，用于对所述样本图像进行特征提取处理，得到所述样本图像的特征矩阵；

在一种可能的实施方式中，所述第二处理模块包括：

根据所述第L+1个向量组，确定得到所述图像类别；

根据所述第L+1个卷积矩阵，确定得到所述N个分割图像。

在一种可能的实施方式中，所述调整单元113包括：

确定模块，用于根据所述分割图像和所述图像类别，在所述样本图像中确定目标区域；

调整模块，用于根据所述目标区域和所述标注图像对所述文字检测模型的参数进行调整。

在一种可能的实施方式中，所述确定模块包括：

第一确定子模块，用于根据所述分割图像，在所述样本图像中确定所述分割图像对应的区域；

第二确定子模块，用于根据所述图像类别，在所述分割图像对应的区域中确定所述目标区域。

本公开实施例提供的模型训练装置，用于执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本公开提供一种文字检测和模型训练方法、装置、设备及存储介质，应用于人工智能技术领域中的深度学习、图像处理、计算机视觉技术领域，以达到提高文字检测的准确性的目的。

需要说明的是，本实施例中的文字检测模型并不是针对某一特定用户的文字检测模型，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的样本图像来自于公开数据集。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如模型训练方法或文字检测方法。例如，在一些实施例中，模型训练方法或文字检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的模型训练方法或文字检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法或文字检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字检测方法，包括：

获取待检测的第一图像；

2.根据权利要求1所述的方法，其中，将所述第一图像输入至文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，包括：

获取预设向量组，所述预设向量组中包括N个预设向量，所述N大于或等于所述第一图像中包括的文本实例的数量，所述N为正整数；

对所述第一图像进行特征提取处理，得到所述第一图像的特征矩阵；

根据所述预设向量组和所述特征矩阵，得到N个分割图像和所述N个分割图像的图像类别。

3.根据权利要求2所述的方法，根据所述预设向量组和所述特征矩阵，得到N个分割图像和所述N个分割图像的图像类别，包括：

对所述预设向量组和所述特征矩阵进行卷积处理，得到初始的第i个卷积矩阵，所述i＝1；

根据解码器模块对所述预设向量组、所述第i个卷积矩阵和所述特征矩阵处理，得到所述N个分割图像和所述N个分割图像的图像类别。

4.根据权利要求3所述的方法，其中，所述解码器模块中包括L个子解码模块，所述L为大于或等于1的整数；根据解码器模块对所述预设向量组、所述第i个卷积矩阵和所述特征矩阵处理，得到所述N个分割图像和所述N个分割图像的图像类别，包括：

根据所述第L+1个向量组，确定得到所述图像类别；

根据所述第L+1个卷积矩阵，确定得到所述N个分割图像。

5.根据权利要求1-4任一项所述的方法，其中，根据所述分割图像和所述图像类别，在所述第一图像上确定目标区域，包括：

根据所述分割图像，在所述第一图像中确定所述分割图像对应的区域；

根据所述图像类别，在所述分割图像对应的区域中确定所述目标区域。

6.一种模型训练方法，包括：

将所述样本图像输入至文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

7.根据权利要求6所述的方法，其中，将所述样本图像输入至所述文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，包括：

获取预设向量组，所述预设向量组中包括N个预设向量，所述N大于或等于所述样本图像中包括的文本实例的数量，所述N为正整数；

对所述样本图像进行特征提取处理，得到所述样本图像的特征矩阵；

8.根据权利要求7所述的方法，其中，根据所述预设向量组和所述特征矩阵，得到N个分割图像和所述N个分割图像的图像类别，包括：

9.根据权利要求8所述的方法，其中，所述解码器模块中包括L个子解码模块，所述L为大于或等于1的整数；根据解码器模块对所述预设向量组、所述第i个卷积矩阵和所述特征矩阵处理，得到所述N个分割图像和所述N个分割图像的图像类别，包括：

根据所述第L+1个向量组，确定得到所述图像类别；

根据所述第L+1个卷积矩阵，确定得到所述N个分割图像。

10.根据权利要求6-9任一项所述的方法，其中，根据所述分割图像、所述分割图像的图像类别和所述标注图像对所述文字检测模型的参数进行调整，包括：

根据所述分割图像和所述图像类别，在所述样本图像中确定目标区域；

根据所述目标区域和所述标注图像对所述文字检测模型的参数进行调整。

11.根据权利要求10所述的方法，其中，根据所述分割图像和所述图像类别，在所述样本图像中确定目标区域，包括：

根据所述分割图像，在所述样本图像中确定所述分割图像对应的区域；

12.一种文字检测装置，包括：

获取单元，用于获取待检测的第一图像；

13.根据权利要求12所述的装置，其中，所述处理单元包括：

14.根据权利要求13所述的装置，所述第二处理模块包括：

15.根据权利要求14所述的装置，其中，所述解码器模块中包括L个子解码模块，所述L为大于或等于1的整数；所述第二处理子模块具体用于：

根据所述第L+1个向量组，确定得到所述图像类别；

根据所述第L+1个卷积矩阵，确定得到所述N个分割图像。

16.根据权利要求12-15任一项所述的装置，其中，所述检测单元包括：

17.一种模型训练装置，包括：

处理单元，用于将所述样本图像输入至文字检测模型，得到所述文字检测模型输出的分割图像和所述分割图像的图像类别，其中，所述图像类别指示所述分割图像中包括文本实例，或者，不包括文本实例；

18.根据权利要求17所述的装置，其中，所述处理单元包括：

19.根据权利要求18所述的装置，其中，所述第二处理模块包括：

20.根据权利要求19所述的装置，其中，所述解码器模块中包括L个子解码模块，所述L为大于或等于1的整数；所述第二处理子模块具体用于：

根据所述第L+1个向量组，确定得到所述图像类别；

根据所述第L+1个卷积矩阵，确定得到所述N个分割图像。

21.根据权利要求17-20任一项所述的装置，其中，所述调整单元包括：

22.根据权利要求21所述的装置，其中，所述确定模块包括：

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-11中任一项所述方法的步骤。