CN113657390B

CN113657390B - 文本检测模型的训练方法和检测文本方法、装置和设备

Info

Publication number: CN113657390B
Application number: CN202110934294.5A
Authority: CN
Inventors: 张晓强; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2022-08-12
Anticipated expiration: 2041-08-13
Also published as: JP2023541532A; WO2023015941A1; CN113657390A

Abstract

本公开提供了一种文本检测模型的训练方法和检测文本的方法，涉及人工智能领域，具体涉及计算机视觉和深度学习领域，可应用于图像处理和图像识别等场景下。训练方法包括：将样本图像输入文本检测模型的文本特征提取子模型，得到样本图像中文本的文本特征；该样本图像具有指示实际位置信息和实际类别的标签；将预定文本向量输入文本检测模型的文本编码子模型，得到文本参考特征；将文本特征和文本参考特征输入文本检测模型的解码子模型，得到文本序列向量；将文本序列向量输入文本检测模型的输出子模型，得到预测位置信息和预测类别；以及基于预测类别、实际类别、预测位置信息和实际位置信息，对文本检测模型进行训练。

Description

文本检测模型的训练方法和检测文本方法、装置和设备

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉和深度学习领域，可应用于图形处理和图像识别等场景下。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术对图像中的文本进行检测，以确定出图像中文本的位置。作为视觉主体目标的文本，其字体、大小、颜色、方向等呈现出多样化的特征，对深度学习技术的特征建模能力提出了较高的要求。

发明内容

基于此，本公开提供了一种提高文本检测效果、可应用于多种场景的文本检测模型的训练方法、采用文本检测模型检测文本的方法、装置、设备和存储介质。

根据本公开的一个方面，提供了一种文本检测模型的训练方法，其中，文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；该训练方法包括：将包括文本的样本图像输入文本特征提取子模型，得到样本图像中文本的第一文本特征；其中，该样本图像具有指示样本图像所包括文本的实际位置信息和针对实际位置信息的实际类别的标签；将预定文本向量输入文本编码子模型，得到第一文本参考特征；将第一文本特征和第一文本参考特征输入解码子模型，得到第一文本序列向量；将第一文本序列向量输入输出子模型，得到样本图像所包括文本的预测位置信息和针对预测位置信息的预测类别；以及基于预测类别、实际类别、预测位置信息和实际位置信息，对文本检测模型进行训练。

根据本公开的另一个方面，提供了一种采用文本检测模型检测文本的方法，其中，文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；该检测文本的方法包括：将包括文本的待检测图像文本特征提取子模型，得到待检测图像中文本的第二文本特征；将预定文本向量输入文本编码子模型，得到第二文本参考特征；将第二文本特征和第二文本参考特征输入解码子模型，得到第二文本序列向量；以及将第二文本序列向量输入输出子模型，获得待检测图像所包括文本的位置，其中，文本检测模型是采用前文描述的特征提取模型的训练方法。

根据本公开的另一方面，提供了一种文本检测模型的训练装置，其中，文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；训练装置包括：第一文本特征获得模块，用于将包括文本的样本图像输入文本特征提取子模型，得到样本图像中文本的第一文本特征；其中，该样本图像具有指示所述样本图像所包括文本的实际位置信息和针对实际位置信息的实际类别的标签；第一参考特征获得模块，用于将预定文本向量输入文本编码子模型，得到第一文本参考特征；第一序列向量获得模块，用于将第一文本特征和第一文本参考特征输入解码子模型，得到第一文本序列向量；第一文本信息确定模块，用于将第一文本序列向量输入输出子模型，得到样本图像所包括文本的预测位置信息和针对预测位置信息的预测类别；以及模型训练模块，用于基于预测类别、实际类别、预测位置信息和实际位置信息，对文本检测模型进行训练。

根据本公开的另一方面，提供了一种采用文本检测模型检测文本的装置，其中，文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；该检测文本的装置包括：第二文本特征获得模块，用于将包括文本的待检测图像文本特征提取子模型，得到待检测图像中文本的第二文本特征；第二参考特征获得模块，用于将预定文本向量输入文本编码子模型，得到第二文本参考特征；第二序列向量获得模块，用于将第二文本特征和第二文本参考特征输入解码子模型，得到第二文本序列向量；以及第二文本信息确定模块，用于将第二文本序列向量输入输出子模型，获得待检测图像所包括文本的位置，其中，文本检测模型是采用前文描述的文本检测模型的训练装置训练得到的。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的文本检测模型的训练方法和/或采用文本检测模型检测文本的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的文本检测模型的训练方法和/或采用文本检测模型检测文本的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的文本检测模型的训练方法和/或采用文本检测模型检测文本的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文本检测模型的训练方法和采用文本检测模型检测文本的方法、装置的应用场景示意图；

图2是根据本公开实施例的文本检测模型的训练方法的流程示意图；

图3是根据本公开实施例的文本检测模型的结构示意图；

图4是根据本公开实施例的图像特征提取网络的结构示意图；

图5是根据本公开实施例的特征处理单元的结构示意图；

图6是根据本公开实施例的确定文本检测模型的损失的原理示意图；

图7是根据本公开实施例的采用文本检测模型检测文本的方法的流程示意图；

图8是根据本公开实施例的文本检测模型的训练装置的结构框图；

图9是根据本公开实施例的采用文本检测模型检测文本的装置的结构框图；以及

图10是用来实施本公开实施例的文本检测模型的训练方法和/或采用文本检测模型检测文本的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种文本检测模型的训练方法，其中，该文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型。该训练方法包括文本特征获得阶段、参考特征获得阶段、序列向量获得阶段、文本信息确定阶段和模型训练阶段。在文本特征获得阶段中，将包括文本的样本图像输入文本特征提取子模型，得到样本图像中文本的第一文本特征。其中，该样本图像具有指示样本图像所包括文本的实际位置信息和针对实际位置信息的实际类别的标签。在参考特征获得阶段中，将预定文本向量输入文本编码子模型，得到第一文本参考特征。在序列向量获得阶段中，将第一文本特征和第一文本参考特征输入解码子模型，得到第一文本序列向量。在文本信息确定阶段中，将第一文本序列向量输入输出子模型，得到样本图像所包括文本的预测位置信息和针对预测位置信息的预测类别。在模型训练阶段中，基于预测类别、实际类别、预测位置信息和实际位置信息，对文本检测模型进行训练。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的文本检测模型的训练方法和采用文本检测模型检测文本的方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。该电子设备110例如可以对输入的图像120进行文本检测，得到检测得到的文本在图像120中的位置，即文本位置130。

根据本公开的实施例，文本在图像120中的位置例如可以通过文本的边界框的位置来表示。该电子设备110对图像中的文本的检测，可以作为文字识别或场景理解等任务的前置步骤。例如，该对图像中文本的检测可以应用于证件识别、票据识别等业务场景。通过预先对文本进行检测，可以提高后续任务的执行效率，提高各应用场景的生产率。

根据本公开的实施例，电子设备110例如可以采用目标检测或目标分割的思想来进行文本检测。目标检测是通过回归边界框来对文本进行定位的。目标检测常用的算法包括高效且精准的场景文本检测算法(Efficient and Accuracy Scene Text，EAST)、基于连接预选框网络的文本检测算法(Detecting Text in Natural Image with ConnectionistText Proposal Network，CTPN)等，该些算法对于复杂的自然场景，例如字体变化幅度大或场景干扰严重的场景，检测效果较差。目标分割采用全卷积网络对图像进行逐像素界别的分类预测，从而将图像划分为文本区域和非文本区域，再通过后续处理将像素级别的输出转化为边界框形式。其中，采用目标分割的思想进行文本检测的算法例如可以使用基于掩膜的区域卷积神经网络(Mask-RCNN)作为骨干网络产生分割图。采用该目标分割的思想进行文本检测，可以在常规水平方向的文本的检测上取得较高的精确度，但需要复杂的后处理步骤以产生相应的边界框，这无疑会消耗大量的计算资源和时间。再者，对于文本重叠导致的边界框重叠的情况，采用该目标分割的思想进行文本检测的效果较差。

基于此，在一实施例中，电子设备110可以采用后文描述的文本检测模型的训练方法训练得到的文本检测模型150来对图像120进行文本检测。例如，该文本检测模型150例如可以由服务器140训练得到。电子设备110可以通过网络与服务器140通信连接，以向服务器140发送模型获取请求。相应地，服务器140可以响应于该请求将训练好的文本检测模型150发送给电子设备110。

在一实施例中，电子设备110还可以将输入的图像120发送给服务器140，由服务器140基于训练好的文本检测模型150，对该图像120进行文本检测。

需要说明的是，本公开提供的文本检测模型的训练方法一般可以由服务器140执行，也可以由与服务器140通信连接的其他服务器执行。相应地，本公开提供的文本检测模型的训练装置可以设置在服务器140中，也可以设置在与服务器140通信连接的其他服务器中。本公开提供的采用文本检测模型检测文本的方法一般可以由电子设备110执行，也可以由服务器140执行。相应地，本公开提供的采用文本检测模型检测文本的装置可以设置在电子设备110中，也可以设置在服务器140中。

应该理解，图1中的电子设备110和服务器140的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器140。

以下将结合图1，通过以下图2～图6对本公开提供的文本检测模型的训练方法进行详细描述。

图2是根据本公开实施例的文本检测模型的训练方法的流程示意图。

如图2所示，该实施例的文本检测模型的训练方法可以包括操作S210～操作S250。其中，文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型。

在操作S210，将包括文本的样本图像输入文本特征提取子模型，得到样本图像中文本的第一文本特征。

根据本公开的实施例，该文本特征提取子模型例如可以采用残差网络或者自注意力网络来对文本的样本图像进行处理，得到该样本图像中文本的文本特征。

在一实施例中，该特征提取子模型例如可以包括图像特征提取网络和序列编码网络。其中，图像特征提取网络可以采用卷积神经网络(例如可以采用ResNet网络)，也可以采用基于注意力机制的Transformer网络的编码器。序列编码网络可以采用循环神经网络，也可以采用Transformer网络中的编码器。操作S210可以先将样本图像输入图像特征提取网络，得到样本图像的图像特征。随后将该图像特征转换为一维向量后输入序列编码网络，得到该第一文本特征。

示例性地，在图像特征提取网络采用Transformer网络的编码器时，该实施例可以先将样本图像展开成一维像素向量，将该一维像素向量作为图像特征提取模型的输入。该图像特征提取网络的输出作为序列编码网络的输入，以通过该序列编码网络从图像的整体特征中得到文本的特征信息。通过该序列编码模型，例如还可以使得得到的第一文本特征能够表征文本的上下文信息。

可以理解的是，样本图像应具有标签，该标签指示样本图像所包括文本的实际位置信息和针对实际位置信息的实际类别。例如，该标签可以由包围文本的边界框在基于样本图像建立的坐标系中的坐标位置来表示。该标签指示的针对实际位置信息的实际类别可以是包围文本的边界框的实际类别，该实际类别为具有文本的类别。如此，该标签还可以指示针对实际位置信息的实际概率，若实际类别为具有文本的类别，则具有文本的实际概率为1。

在操作S220，将预定文本向量输入文本编码子模型，得到第一文本参考特征。

根据本公开的实施例，该文本编码子模型例如可以为全连接层结构，以通过对预定文本向量处理，得到与第一文本特征的维度相同的第一文本参考特征。其中，预定文本向量可以根据实际需求进行设定，例如，若设定图像中文本的长度最长通常为25，则该预定文本向量可以为具有25个分量的向量，该25个分量的取值分别为1、2、3、...、25。

可以理解的是，该文本编码子模型得到第一文本参考特征的方法与采用学习位置编码得到位置编码的方法类似，通过该文本编码子模型，可以为文本中的每个字符学到一个独立的向量。

在操作S230，将第一文本特征和第一文本参考特征输入解码子模型，得到第一文本序列向量。

根据本公开的实施例，解码子模型可以采用Transformer模型的解码器。可以将第一文本参考特征作为输入该解码子模型的参考特征(例如可以作为object query)，将第一文本特征作为输入该解码子模型的键特征(即Key)和值特征(即Value)。经由该解码子模型处理后，得到第一文本序列向量。

根据本公开的实施例，该第一文本序列向量可以包括至少一个文本向量，每个文本向量表征样本图像中的一个文本。例如，若样本图像中包括两行文本，则该第一文本序列向量至少应包括两个文本向量。

在操作S240，将第一文本序列向量输入输出子模型，得到样本图像所包括文本的预测位置信息和针对预测位置信息的预测类别。

根据本公开的实施例，输出子模型例如可以具有两个网络分支，一个网络分支用于回归文本的预测位置，另一个网络分支用于对该预测位置进行分类，得到预测类别。其中，分类结果可以由预测概率表示，以表示该预测位置具有文本的概率，若具有文本的概率大于概率阈值，则可以确定预测类别为具有文本的类别，否则确定预测类别为不具有文本的类别。

根据本公开的实施例，该两个网络分支例如可以分别由前馈网络组成。其中，回归文本的预测位置的网络分支的输入为该第一文本序列向量，输出为预测的文本的边界框位置。进行分类的网络分支的输入为该第一文本序列向量，输出为目标类别的概率，该目标类别即为具有文本的类别。

在操作S250，基于预测类别、实际类别、预测位置信息和实际位置信息，对文本检测模型进行训练。

根据本公开的实施例，在得到预测位置信息和预测类别后，可以通过对预测位置信息和标签指示的实际位置信息进行比较，得到定位损失。通过对预测类别和标签指示的实际类别进行比较，得到分类损失。其中，定位损失例如可以由铰链损失(Hinge Loss)函数、平滑损失(Softmax Loss)函数等来表示。定位损失例如可以由平方损失函数(又称L1损失)、均方损失函数(又称L2损失)等来表示。其中，分类损失例如可以有预测概率和实际概率的差异来确定。

该实施例可以将定位损失和分类损失的加权和作为文本检测模型的损失。其中，计算加权和时采用的权重可以根据实际需求进行设定，本公开对此不做限定。在得到文本检测模型的损失后，可以采用反向传播等算法来对文本检测模型进行训练。

本公开实施例在文本检测模型中设置由文本编码子模型，则在对目标检测模型训练的过程中，可以使得该文本编码子模型关注到不同的文本实例信息，为解码子模型提供更为精准的参考信息，从而使得文本检测模型具有更强的特征建模能力，提高对自然场景下变化多样的文本的检测精度，降低对图像中文本漏检或错检的几率。

图3是根据本公开实施例的文本检测模型的结构示意图。

根据本公开的实施例，如图3所示，该实施例的文本检测模型300可以包括有图像特征提取网络310、第一位置编码子模型330、序列编码网络340、文本编码子模型350、解码子模型360和输出子模型370。其中，图像特征提取网络310和第一位置编码子模型330构成文本特征提取子模型。

本公开实施例在对样本图像中的文本进行检测时，可以先将样本图像301输入图像特征提取网络310，得到样本图像的图像特征。其中，该图像特征提取网络310可以采用图像分割模型、图像检测模型等中的骨干(Backbone)网络，例如可以为前文描述的ResNet网络或Transformer网络的编码器等。随后将预定位置向量302输入第一位置编码子模型330，得到位置编码特征。其中，第一位置编码子模型330可以与前文描述的文本编码子模型类似，可以为一个全连接层。预定位置向量302与前文描述的预定文本向量类似。该预定位置向量302可以根据实际需求进行设定。在一实施例中，该预定位置向量302可以与预定文本向量305等长或不等长，本公开对此不做限定。随后，可以通过融合网络320来对图像特征和位置编码特征进行融合。该融合网络320具体可以将位置编码特征和图像特征相加。将相加得到的特征输入序列编码网络340，得到第一文本特征304。其中，序列编码网络340可以采用Transformer模型的编码器，如此，在输入序列编码网络340之前，还需要对相加得到的特征转换为一维向量303，将该一维向量303作为序列编码网络340的输入。

同时，可以将预定文本向量305输入文本编码子模型350，由文本编码子模型350输出第一文本参考特征306。将序列编码网络340输出的第一文本特征304和第一文本参考特征306同时作为解码子模型360的输出，经由该解码子模型360输出第一文本序列向量307。其中，解码子模型360可以采用Transformer模型的解码器。

该解码子模型360输出的第一文本序列向量307输入输出子模型370后，可以由输出子模型370输出文本的边界框的位置和边界框的类别概率。由该边界框在基于样本图像构建的坐标系中的位置作为文本的预测位置信息，将边界框的类别概率中指示具有文本的概率作为预测位置具有文本的预测概率，基于该预测概率，可以得到预测类别。基于该输出子模型370的输出，即可得到如图3所示的至少一个边界框308，在边界框具有文本的概率小于概率阈值时，则将该边界框作为Null框，即没有文本的框，否则将该边界框作为Text框，即具有文本的框。其中，概率阈值可以根据实际需求进行设定，本公开对此不做限定。

该实施例通过由图像特征提取网络和序列编码网络构成文本特征提取子模型，并在将图像特征输入序列编码网络之前，为图像特征添加位置特征，可以提高得到的文本特征对文本上下文信息的表达能力，提高检测得到的文本的准确性。通过设置该第一位置编码子模型，可以使得序列编码网络采用Transformer架构，相较于循环神经网络架构，可以提高计算效率，增强对长文本的表达能力。

根据本公开的实施例，该实施例的文本检测模型例如还可以在序列编码网络与融合网络之间设置一个卷积层，该卷积层的大小例如可以为1×1，以对融合得到的向量进行降维，降低序列编码网络的计算量。这是由于对文本检测的任务中，对特征的分辨率的要求较低，因此可以通过在一定程度上牺牲分辨率来降低模型的计算量。

图4是根据本公开实施例的图像特征提取网络的结构示意图。

根据本公开的实施例，该实施例400中，前述图像特征提取网络可以包括特征转换单元410和依次连接的多个特征处理单元和依次连接的多个特征处理单元421～424。每个特征处理单元可以采用Transformer架构的解码器结构。

其中，特征转换单元410可以为嵌入层，用于基于样本图像401来得到表示样本图像的一维向量。通过该特征转换单元，可以将图像中的文字作为Token，并由向量中的元素表示。在一实施例中，该特征转换单元410例如可以用于将图像中的像素矩阵展开并转换为固定大小的一维向量。该一维向量输入多个特征处理单元中的第1个特征处理单元421，经由依次连接的多个特征处理单元依次处理后，可以得到样本图像的图像特征。具体地，一维向量经由该第1个特征处理单元421处理后可以输出一个特征图。该特征图输入第2个特征处理单元422，该第2个特征处理单元422输出的特征图输入第3个特征处理单元，依次类推，多个特征处理单元中最后一个特征处理单元424输出的特征图即为样本图像的图像特征。即，对于多个特征处理单元中除第1个特征处理单元421外的第i个特征处理单元：将第i-1个特征处理单元输出的特征图输入第i个特征处理单元，输出针对第i个特征处理单元的特征图，其中，i≥2，最后依据连接顺序，将多个特征处理单元中排在最后位置的特征处理单元输出的特征图，作为样本图像的图像特征。

通过该实施例可知，图像特征提取网络采用层次化的设计，可以一共包括多个特征提取阶段，每个特征处理单元对应一个特征提取阶段。该实施例中，依据连接顺序，多个特征处理单元输出的特征图的分辨率可以依次降低，以此与CNN类似，逐层扩大感受野。

可以理解的是，如图4所示，在除第1个特征处理单元421外的其他特征处理单元中，可以包括Token融合层(Token Merging)和Transforer架构中的编码块(即TransformerBlock)。Token融合层用于对特征进行下采样。编码块用于对特征进行编码。第1个特征处理单元421中与Token融合层对应的结构可以为前文描述的特征转换单元410，以对样本图像进行处理后得到第1个特征处理单元中编码块的输入，即得到前文描述的一维特征。

可以理解的是，每个特征处理单元可以包括至少一个以Token融合层和编码块构成的基本元素，在包括多个基本元素时，该多个基本元素依次连接。需要说明的是，若第1个特征处理单元由多个基本元素构成，则该第1个特征处理单元中排在最前面的第1个基本元素中的Token融合层作为所述特征转换单元410，除该第1个基本元素外的其他基本元素中的Token融合层与其他特征处理单元中的Token融合层类似。例如，在一实施例中，多个特征处理单元为4个，该4个特征处理单元依据连接顺序依次包括2个基本元素、2个基本元素、6个基本元素和2个基本元素，本公开对此不做限定。

在一实施例中，由于多个特征处理单元采用了Transformer架构的编码器结构，因此，该实施例在得到输入第1个特征处理单元的一维向量之前，还可以先对样本图像进行位置编码。具体地，该实施例采用的文本检测模型中还可以包括第二位置编码子模型。可以采用该第二位置编码子模型来对样本图像进行位置编码，得到样本图像的位置图。此处，对样本图像进行位置编码时，可以采用学习位置编码的方法，也可以采用绝对位置编码方法来得到位置图。该绝对位置编码方法可以包括三角函数编码方法，本公开对此不做限定。如此，在得到位置编码后，该实施例可以将样本图像与位置图进行逐像素的相加，随后将该相加得到的数据输入特征转换单元，从而得到表示样本图像的一维向量。其中，具体可以将表示样本图像的像素矩阵和表示位置图的像素矩阵相加，实现样本图像与位置图之间逐像素的相加。

相较于采用CNN的技术方案，该方案通过采用Transformer架构的编码器结构作为图像特征提取网络，并融入位置信息，可以使得得到的图像特征能够更好的表达图像长距离的上下文信息，便于提高模型的学习能力和预测效果。

图5是根据本公开实施例的特征处理单元的结构示意图。

根据本公开的实施例，如图5所示，多个特征处理单元中的每个特征处理单元500包括依次连接的偶数个编码层，对于偶数个编码层：排在奇数位的编码层510的移动窗口(shifted window)小于排在偶数位的编码层520的移动窗口。该实施例在采用多个特征处理单元中的第1个特征处理单元得到针对第1个特征处理单元的特征图时，可以将一维向量输入第1个特征处理单元包括的偶数个编码层中的第1个编码层，经由该依次连接的偶数个编码层依次处理，得到针对第1个特征处理单元的特征图。具体地，可以先将一维向量输入第1个特征处理单元包括的偶数个编码层中的第1个编码层，输出针对第1个编码层的特征图。对于1个特征处理单元包括的偶数个编码层中除第1个编码层外的第j个编码层：将第j-1个编码层输出的特征图输入第j个编码层，输出针对第j个编码层的特征图，其中，j≥2。最后依据连接顺序，将第1个特征处理单元包括的偶数个编码层中排在最后位置的编码层输出的特征图，作为针对第1个特征处理单元的特征图。

如图5所示，该特征处理单元500与相关技术中Transformer架构的编码器结构类似，每个编码层包括有注意力层和前向反馈层，且注意力层和前向反馈层均设置了线性化处理层。对于奇数位的编码层，注意力层采用设置了第一移动窗口的第一注意力，以对输入的特征向量进行分块，并将注意力的计算集中在该每个特征向量块内部。由于注意力层可以并行计算，则可以对分块得到的多个特征向量块进行并行计算，相较于对输入的整个特征向量进行计算，可以大大降低计算量。对于偶数位的编码层，注意力层采用设置了第二移动窗口的第二注意力，该第二移动窗口大于第一移动窗口。该第二移动窗口例如可以为整个特征向量，且由于偶数位的编码层的输入为奇数位编码层的输出，因此，该偶数位的编码层可以以奇数位编码层输出的特征序列中每个序列作为一个基本单元，对特征序列中的特征之间进行注意力的计算，从而保证第一移动窗口划分的多个特征向量块之间信息的交互流动。通过该两种注意力层的设置，并设置两个大小不同的移动窗口，可以提高图像特征提取模型的特征提取能力。

可以理解的是，本公开实施例中特征处理单元采用的实质上为滑窗机制的Transformer架构的编码器结构。对于除第1个特征处理单元外的第i个特征处理单元，输入的特征图经由该第i个特征处理单元中依次连接的偶数个编码层依次处理，由排在最后位置的编码层输出针对该第i个特征处理单元的特征图。

图6是根据本公开实施例的确定文本检测模型的损失的原理示意图。

根据本公开的实施例，该实施例600中，预测位置信息例如可以由四个预测位置点表示，实际位置信息可以由四个实际位置点表示。其中，四个预测位置点可以为预测边界框的左上顶点、右上顶点、右下顶点和左下顶点。四个实际位置点可以为实际边界框的左上顶点、右上顶点、右下顶点和左下顶点。相较于相关技术中采用边界框的中心点、长度和宽度表示位置的技术方案，可以允许边界框为除矩形外的其他形状。即该实施例可以将相关技术中的矩形框形式转换为四点框形式，从而可以使得该文本检测模型更加适用于执行复杂场景下的文本检测任务。

该实施例中，在确定文本检测模型的损失时，可以基于得到的预测概率610和标签指示的实际概率630，确定文本检测模型的分类损失650，并基于得到的预测位置信息620和标签指示的实际位置信息640，确定文本检测模型的定位损失660。最后基于分类损失650和定位损失660，来得到文本检测模型的损失，即模型损失670，从而基于该模型损失670对文本检测模型进行训练。

根据本公开的实施例，该实施例中的定位损失660例如可以由第一子定位损失651和第二定位损失652的加权和来表示。其中，第一子定位损失651可以基于四个实际位置点分别与四个预测位置点之间的距离计算得到。第二定位损失652可以基于四个实际位置点围成区域与四个预测位置点围成区域之间的交并比计算得到。计算第一子定位损失651和第二定位损失652的加权和时采用的权重可以根据实际需求进行设定，本公开对此不做限定。

示例性地，第一子定位损失651可以由前述的L1损失或L2损失等来表示，第二子定位损失652可以由交并比来表示。或者，该第二子定位损失652可以采用与交并比正相关的任意损失函数来表示，本公开对此不做限定。

本公开实施例通过设置第二子定位损失，可以使得得到的定位损失能够更好的反映由四个位置点表示的预测边界框和实际边界框之间的差异，提高得到的定位损失的精度。

基于前文描述的文本检测模型的训练方法，本公开还提供了一种采用训练得到的文本检测模型检测文本的方法，以下将结合图7对该方法进行详细描述。

图7是根据本公开实施例的采用文本检测模型检测文本的方法的流程示意图。

如图7所示，该实施例的方法700可以包括操作S710～操作S740。其中，文本检测模型是采用前文描述的文本检测模型的训练方法训练得到的。该文本检测模型可以包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型。

在操作S710，将包括文本的待检测图像输入文本特征提取子模型，得到待检测图像中文本的第二文本特征。可以理解的是，该第二文本特征与第一文本特征的获得方法类似，在此不再赘述。

在操作S720，将预定文本向量输入文本编码子模型，得到第二文本参考特征。可以理解的是，该第二文本参考特征与第一文本参考特征的获得方法类似，在此不再赘述。

在操作S730，将第二文本特征和第二文本参考特征输入解码子模型，得到第二文本序列向量。可以理解的是，该第二文本序列向量与第一文本序列向量的获得方法类似，在此不再赘述。

在操作S740，将第二文本序列向量输入输出子模型，获得待检测图像所包括的文本的位置。

可以理解的是，本公开实施例中，输出子模型的输出可以包括前文描述的预测位置信息和预测概率。该实施例可以将表示预测概率大于概率阈值的预测位置信息的坐标位置作为检测图像所包括的文本的位置。

基于前文描述的文本检测模型的训练方法，本公开还提供了一种文本检测模型的训练装置。以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的文本检测模型的训练装置的结构框图。

如图8所示，该实施例的装置800可以包括第一文本特征获得模块810、第一参考特征获得模块820、第一序列向量获得模块830、第一文本信息确定模块840和模型训练模块850。其中，文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型。

第一文本特征获得模块810用于将包括文本的样本图像输入文本特征提取子模型，得到样本图像中文本的第一文本特征；其中，样本图像具有指示样本图像所包括文本的实际位置信息和针对实际位置信息的实际类别的标签。在一实施例中，该第一文本特征获得模块810可以用于执行前文描述的操作S210，在此不再赘述。

第一参考特征获得模块820用于将预定文本向量输入文本编码子模型，得到第一文本参考特征。在一实施例中，该第一参考特征获得模块820可以用于执行前文描述的操作S220，在此不再赘述。

第一序列向量获得模块830用于将第一文本特征和第一文本参考特征输入解码子模型，得到第一文本序列向量。在一实施例中，该第一序列向量获得模块830可以用于执行前文描述的操作S230，在此不再赘述。

第一文本信息确定模块840用于将第一文本序列向量输入输出子模型，得到样本图像所包括文本的预测位置信息和针对预测位置信息的预测类别。在一实施例中，该第一文本信息确定模块840可以用于执行前文描述的操作S240，在此不再赘述。

模型训练模块850用于基于预测类别、实际类别、预测位置信息和实际位置信息，对文本检测模型进行训练。在一实施例中，该模型训练模块850可以用于执行前文描述的操作S250，在此不再赘述。

根据本公开的实施例，文本特征提取子模型包括图像特征提取网络和序列编码网络；文本检测模型还包括第一位置编码子模型。第一文本特征获得模块810包括图像特征获得子模块、位置特征获得子模块、文本特征获得子模块。图像特征获得子模块用于将样本图像输入图像特征提取网络，得到样本图像的图像特征。位置特征获得子模块用于将预定位置向量输入第一位置编码子模型，得到位置编码特征。文本特征获得子模块用于将位置编码特征和图像特征相加后输入序列编码网络，得到第一文本特征。

根据本公开的实施例，图像特征提取网络包括特征转换单元和依次连接的多个特征处理单元。图像特征获得子模块包括一维向量获得单元和特征图获得单元。一维向量获得单元用于基于样本图像，采用特征转换单元得到表示样本图像的一维向量。特征获得单元用于将一维向量输入多个特征处理单元中的第1个特征处理单元，经由多个特征处理单元依次处理，得到样本图像的图像特征。。其中，依据连接顺序，多个特征处理单元输出的特征图的分辨率依次降低。

根据本公开的实施例，多个特征处理单元中的每个特征处理单元包括依次连接的偶数个编码层。对于偶数个编码层：排在奇数位的编码层的移动窗口小于排在偶数位的编码层的移动窗口。特征获得单元用于通过以下方式得到针对第1个特征处理单元的特征图：将一维向量输入第1个特征处理单元包括的偶数个编码层中的第1个编码层，经由偶数个编码层依次处理，得到针对第1个特征处理单元的特征图。

根据本公开的实施例，文本检测模型还包括第二位置编码子模型。一维向量获得单元用于基于样本图像，采用第二位置编码子模型得到样本图像的位置图，以及将样本图像和位置图逐像素的相加后输入特征转换单元，得到表示样本图像的一维向量。

根据本公开的实施例，模型训练模块850包括分类损失确定子模块、定位损失确定子模块和模型训练子模块。分类损失确定子模块用于基于预测类别和实际类别，确定文本检测模型的分类损失。定位损失确定子模块用于基于预测位置信息和实际位置信息，确定文本检测模型的定位损失。模型训练子模块用于基于分类损失和定位损失，对文本检测模型进行训练。

根据本公开的实施例，实际位置信息由四个实际位置点表示；预测位置信息由四个预测位置点表示。定位损失确定子模块包括第一确定单元、第二确定单元以及第三确定单元。第一确定单元用于基于四个实际位置点分别与四个预测位置点之间的距离，确定第一子定位损失。第二确定单元用于基于四个实际位置点围成区域与四个预测位置点围成区域之间的交并比，确定第二子定位损失。第三确定单元用于将第一子定位损失与第二子定位损失的加权和作为文本检测模型的定位损失。

基于前文描述的采用文本检测模型检测文本的方法，本公开还提供了一种采用文本检测模型检测文本的装置。以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的采用文本检测模型检测文本的装置的结构框图。

如图9所示，该实施例的装置900可以包括第二文本特征获得模块910、第二参考特征获得模块920、第二序列向量获得模块930和第二文本信息确定模块940。其中，文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型。该文本检测模型可以是采用前文描述的文本检测模型的训练装置训练得到的。

第二文本特征获得模块910用于将包括文本的待检测图像所述文本特征提取子模型，得到所述待检测图像中文本的第二文本特征。在一实施例中，该第二文本特征获得模块910可以用于执行前文描述的操作S710，在此不再赘述。

第二参考特征获得模块920用于将预定文本向量输入所述文本编码子模型，得到第二文本参考特征。在一实施例中，该第二参考特征获得模块920可以用于执行前文描述的操作S720，在此不再赘述。

第二序列向量获得模块930用于将所述第二文本特征和所述第二文本参考特征输入所述解码子模型，得到第二文本序列向量。在一实施例中，该第二序列向量获得模块930可以用于执行前文描述的操作S730，在此不再赘述。

第二文本信息确定模块940用于将所述第二文本序列向量输入所述输出子模型，获得所述待检测图像所包括文本的位置。。在一实施例中，该第二文本信息确定模块940可以用于执行前文描述的操作S740，在此不再赘述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开实施例的文本检测模型的训练方法和/或采用文本检测模型检测文本的方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文本检测模型的训练方法和/或采用文本检测模型检测文本的方法。例如，在一些实施例中，文本检测模型的训练方法和/或采用文本检测模型检测文本的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文本检测模型的训练方法和/或采用文本检测模型检测文本的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本检测模型的训练方法和/或采用文本检测模型检测文本的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本检测模型的训练方法，其中，所述文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；所述方法包括：

将包括文本的样本图像输入所述文本特征提取子模型，得到所述样本图像中文本的第一文本特征；其中，所述样本图像具有指示所述样本图像所包括文本的实际位置信息和针对所述实际位置信息的实际类别的标签；

将预定文本向量输入所述文本编码子模型，得到第一文本参考特征；

将所述第一文本特征和所述第一文本参考特征输入所述解码子模型，得到第一文本序列向量；

将所述第一文本序列向量输入所述输出子模型，得到所述样本图像所包括文本的预测位置信息和针对所述预测位置信息的预测类别；以及

基于所述预测类别、所述实际类别、所述预测位置信息和所述实际位置信息，对所述文本检测模型进行训练，

其中，所述第一文本参考特征被作为输入所述解码子模型的查询特征，所述第一文本特征被作为输入所述解码子模型的键特征和值特征。

2.根据权利要求1所述的方法，其中，所述文本特征提取子模型包括图像特征提取网络和序列编码网络；所述文本检测模型还包括第一位置编码子模型；得到所述样本图像中文本的第一文本特征包括：

将所述样本图像输入所述图像特征提取网络，得到所述样本图像的图像特征；

将预定位置向量输入所述第一位置编码子模型，得到位置编码特征；以及

将所述位置编码特征和所述图像特征相加后输入所述序列编码网络，得到所述第一文本特征。

3.根据权利要求2所述的方法，其中，所述图像特征提取网络包括特征转换单元和依次连接的多个特征处理单元；得到所述样本图像的图像特征包括：

基于所述样本图像，采用所述特征转换单元得到表示所述样本图像的一维向量；以及

将所述一维向量输入所述多个特征处理单元中的第1个特征处理单元，经由所述多个特征处理单元依次处理，得到所述样本图像的图像特征，

其中，依据连接顺序，所述多个特征处理单元输出的特征图的分辨率依次降低。

4.根据权利要求3所述的方法，其中，所述多个特征处理单元中的每个特征处理单元包括依次连接的偶数个编码层，对于所述偶数个编码层：排在奇数位的编码层的移动窗口小于排在偶数位的编码层的移动窗口；采用所述多个特征处理单元中的第1个特征处理单元得到针对所述第1个特征处理单元的特征图包括：

将所述一维向量输入所述第1个特征处理单元包括的偶数个编码层中的第1个编码层，经由所述偶数个编码层依次处理，得到针对所述第1个特征处理单元的特征图。

5.根据权利要求3所述的方法，其中，所述文本检测模型还包括第二位置编码子模型；采用所述特征转换单元得到表示所述样本图像的一维向量包括：

基于所述样本图像，采用所述第二位置编码子模型得到所述样本图像的位置图；以及

将所述样本图像和所述位置图逐像素的相加后输入所述特征转换单元，得到表示所述样本图像的一维向量。

6.根据权利要求1所述的方法，其中，对所述文本检测模型进行训练包括：

基于所述预测类别和所述实际类别，确定所述文本检测模型的分类损失；

基于所述预测位置信息和所述实际位置信息，确定所述文本检测模型的定位损失；以及

基于所述分类损失和所述定位损失，对所述文本检测模型进行训练。

7.根据权利要求6所述的方法，其中，所述实际位置信息由四个实际位置点表示；所述预测位置信息由四个预测位置点表示；确定所述文本检测模型的定位损失包括：

基于所述四个实际位置点分别与所述四个预测位置点之间的距离，确定第一子定位损失；

基于所述四个实际位置点围成区域与所述四个预测位置点围成区域之间的交并比，确定第二子定位损失；以及

将所述第一子定位损失与所述第二子定位损失的加权和作为所述文本检测模型的定位损失。

8.一种采用文本检测模型检测文本的方法，其中，所述文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；所述方法包括：

将包括文本的待检测图像输入所述文本特征提取子模型，得到所述待检测图像中文本的第二文本特征；

将预定文本向量输入所述文本编码子模型，得到第二文本参考特征；

将所述第二文本特征和所述第二文本参考特征输入所述解码子模型，得到第二文本序列向量；以及

将所述第二文本序列向量输入所述输出子模型，获得所述待检测图像所包括文本的位置，

其中，所述文本检测模型是采用权利要求1～7中任一项所述的方法训练得到的，所述第二文本参考特征被作为输入所述解码子模型的查询特征，所述第二文本特征被作为输入所述解码子模型的键特征和值特征。

9.一种文本检测模型的训练装置，其中，所述文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；所述装置包括：

第一文本特征获得模块，用于将包括文本的样本图像输入所述文本特征提取子模型，得到所述样本图像中文本的第一文本特征；其中，所述样本图像具有指示所述样本图像所包括文本的实际位置信息和针对所述实际位置信息的实际类别的标签；

第一参考特征获得模块，用于将预定文本向量输入所述文本编码子模型，得到第一文本参考特征；

第一序列向量获得模块，用于将所述第一文本特征和所述第一文本参考特征输入所述解码子模型，得到第一文本序列向量；

第一文本信息确定模块，用于将所述第一文本序列向量输入所述输出子模型，得到所述样本图像所包括文本的预测位置信息和针对所述预测位置信息的预测类别；以及

模型训练模块，用于基于所述预测类别、所述实际类别、所述预测位置信息和所述实际位置信息，对所述文本检测模型进行训练，

10.根据权利要求9所述的装置，其中，所述文本特征提取子模型包括图像特征提取网络和序列编码网络；所述文本检测模型还包括第一位置编码子模型；所述第一文本特征获得模块包括：

图像特征获得子模块，用于将所述样本图像输入所述图像特征提取网络，得到所述样本图像的图像特征；

位置特征获得子模块，用于将预定位置向量输入所述第一位置编码子模型，得到位置编码特征；以及

文本特征获得子模块，用于将所述位置编码特征和所述图像特征相加后输入所述序列编码网络，得到所述第一文本特征。

11.根据权利要求10所述的装置，其中，所述图像特征提取网络包括特征转换单元和依次连接的多个特征处理单元；所述图像特征获得子模块包括：

一维向量获得单元，用于基于所述样本图像，采用所述特征转换单元得到表示所述样本图像的一维向量；

特征获得单元，用于将所述一维向量输入所述多个特征处理单元中的第1个特征处理单元，经由所述多个特征处理单元依次处理，得到所述样本图像的图像特征，

12.根据权利要求11所述的装置，其中，所述多个特征处理单元中的每个特征处理单元包括依次连接的偶数个编码层，对于所述偶数个编码层：排在奇数位的编码层的移动窗口小于排在偶数位的编码层的移动窗口；所述特征获得单元用于通过以下方式得到针对所述第1个特征处理单元的特征图：

13.根据权利要求12所述的装置，其中，所述文本检测模型还包括第二位置编码子模型；所述一维向量获得单元用于：

14.根据权利要求9所述的装置，其中，所述模型训练模块包括：

分类损失确定子模块，用于基于所述预测类别和所述实际类别，确定所述文本检测模型的分类损失；

定位损失确定子模块，用于基于所述预测位置信息和所述实际位置信息，确定所述文本检测模型的定位损失；以及

模型训练子模块，用于基于所述分类损失和所述定位损失，对所述文本检测模型进行训练。

15.根据权利要求14所述的装置，其中，所述实际位置信息由四个实际位置点表示；所述预测位置信息由四个预测位置点表示；所述定位损失确定子模块包括：

第一确定单元，用于基于所述四个实际位置点分别与所述四个预测位置点之间的距离，确定第一子定位损失；

第二确定单元，用于基于所述四个实际位置点围成区域与所述四个预测位置点围成区域之间的交并比，确定第二子定位损失；以及

第三确定单元，用于将所述第一子定位损失与所述第二子定位损失的加权和作为所述文本检测模型的定位损失。

16.一种采用文本检测模型检测文本的装置，其中，所述文本检测模型包括文本特征提取子模型、文本编码子模型、解码子模型和输出子模型；所述装置包括：

第二文本特征获得模块，用于将包括文本的待检测图像所述文本特征提取子模型，得到所述待检测图像中文本的第二文本特征；

第二参考特征获得模块，用于将预定文本向量输入所述文本编码子模型，得到第二文本参考特征；

第二序列向量获得模块，用于将所述第二文本特征和所述第二文本参考特征输入所述解码子模型，得到第二文本序列向量；以及

第二文本信息确定模块，用于将所述第二文本序列向量输入所述输出子模型，获得所述待检测图像所包括文本的位置，

其中，所述文本检测模型是采用权利要求9～15中任一项所述的装置训练得到的，所述第二文本参考特征被作为输入所述解码子模型的查询特征，所述第二文本特征被作为输入所述解码子模型的键特征和值特征。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～8中任一项所述的方法。