CN109886330A

CN109886330A - 文本检测方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN109886330A
Application number: CN201910120290.6A
Authority: CN
Inventors: 田倬韬; 李睿宇; 贾佳亚; 戴宇荣; 沈小勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-14
Anticipated expiration: 2039-02-18
Also published as: CN109886330B

Abstract

本申请涉及一种文本检测方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取待检测图片；通过神经网络模型对待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图；对文本区域分布图中的文本像素进行聚类处理，得到文本像素子集；对文本中央区域分布图中的文本像素进行聚类处理，得到和文本中央像素子集；基于嵌入特征图，将文本像素子集中不属于文本中央像素子集中的文本像素归类至相应的文本中央像素子集；根据归类后的文本中央像素子集确定待检测图片中的文本片段。本申请提供的方案可以对图片中任意形状的文本片段进行准确检测。

Description

文本检测方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本检测方法、装置、计算机可读存储介质和计算机设备。

背景技术

文本检测作为OCR技术(Optical Character Recognition，光学字符识别)的第一步，其准确性对于对后续的OCR识别的准确率至关重要，但是自然场景下的文本检测因为光照、运动模糊以及文本片段复杂多变的尺寸导致这个任务仍然具有挑战性。

目前，领域内的文本检测方法仅能检测矩形标注的文本，无法检测任意形状的文本尤其是弯曲文本，并且对较长的文本检测的准确率较低，具有一定的局限性。

发明内容

基于此，有必要针对现有的文本检测方法不能对任意形状的文本进行检测的技术问题，提供一种文本检测方法、装置、计算机可读存储介质和计算机设备。

一种文本检测方法，包括：

获取待检测图片；

通过神经网络模型对所述待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图；

对所述文本区域分布图中的文本像素进行聚类处理，得到文本像素子集；

对所述文本中央区域分布图中的文本像素进行聚类处理，得到文本中央像素子集；

基于所述嵌入特征图，将所述文本像素子集中不属于所述文本中央像素子集中的文本像素归类至相应的文本中央像素子集；

根据归类后的文本中央像素子集确定所述待检测图片中的文本片段。

一种文本检测装置，其特征在于，所述装置包括：

待检测图片获取模块，用于获取待检测图片；

预测模块，用于通过神经网络模型对所述待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图；

像素聚类模块，用于对所述文本区域分布图中的文本像素进行聚类处理，得到文本像素子集；对所述文本中央区域分布图中的文本像素进行聚类处理，得到文本中央像素子集；

像素归类模块，用于基于所述嵌入特征图，将所述文本像素子集中不属于所述文本中央像素子集中的文本像素归类至相应的文本中央像素子集；

文本片段确定模块，用于根据归类后的文本中央像素子集确定所述待检测图片中的文本片段。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述文本检测方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述文本检测方法的步骤。

上述文本检测方法、装置、计算机可读存储介质和计算机设备，嵌入特征图能够反映各个像素在嵌入空间上的距离，文本区域分布图能够表示待检测图片中原始的文本区域，文本中央区域分布图能够表示文本区域的中央部分。通过神经网络模型输出与待检测图片对应的嵌入特征图、文本区域分布图和文本中央区域分布图之后，再分别对文本区域中的文本像素、文本中央区域中的文本像素进行聚类，得到文本像素子集和文本中央像素子集，然后对每个文本中央像素子集即各个文本中央区域不断地根据文本像素在嵌入空间上的距离向外进行延伸，将文本像素子集中的文本像素归类至某个文本中央像素子集，就可以根据归类后的文本中央像素子集得到待检测图片中所有文本片段对应的检测框，不受限于待检测图片中文本片段的形状，能够对任意形状的文本片段进行准确检测。

附图说明

图1为一个实施例中文本检测方法的应用环境图；

图2为一个实施例中文本检测方法的流程示意图；

图3为一个实施例中通过预训练的神经网络模型对待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图的流程示意图；

图4为一个实施例中神经网络模型的网络结构的示意图；

图5为一个实施例中文本像素子集与文本中央像素子集的关系示意图；

图6为一个实施例中将文本像素子集中不属于文本中央像素子集中的文本像素归类的示意图；

图7为一个实施例中待检测图片中文本片段的示意图；

图8为一个实施例中对从自然环境中采集的图片进行文本检测得到弯曲文本片段的示意图；

图9为一个实施例中神经网络模型的训练步骤的流程示意图；

图10为一个具体的实施例中文本检测方法的流程示意图；

图11为一个实施例中文本检测装置的结构框图；

图12为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中文本检测方法的应用环境图。参照图1，该文本检测方法应用于文本检测系统。该文本检测系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110可以将待检测图片发送至服务器120，由服务器120在接收到该待检测图片后，通过预训练的神经网络模型对待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图；分别对文本区域分布图和文本中央区域分布图中的文本像素进行聚类处理，得到对应的文本像素子集和文本中央像素子集；基于嵌入特征图，将文本像素子集中不属于文本中央像素子集中的文本像素归类至相应的文本中央像素子集；根据归类后的文本中央像素子集确定待检测图片中的文本片段。服务器120还可继续采用OCR技术对检测出的文本片段进行文字识别，将得到的识别结果反馈至终端110。

终端110具体可以是移动终端，包括手机、个人数字助理、智能穿戴式设备、平板电脑以及笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

需要说明的是，上述的应用环境只是一个示例，在一些实施例中，也可由终端110内置的文本检测装置直接对获取的待检测图片按照上述步骤进行文本检测，并根据检测得到的文本片段进行文字识别，得到识别结果。

在一个实施例中，本申请所提供的文本检测方法还可以应用于车辆自动驾驶系统中，能够在车辆驾驶过程中检测出自然环境中任意形状的文本片段，比如路边、商家标识和海报标语等，能够增加车辆对自然环境的感知能力。

如图2所示，在一个实施例中，提供了一种文本检测方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2，该文本检测方法具体包括如下步骤：

S202，获取待检测图片。

其中，待检测图片是待进行文本检测的图片，待检测图片中可以包括至少一条文本，也可以不包括任何文本。服务器可以通过网络接收终端发送的待检测图片，也可以从本地获取待检测图片。

S204，通过神经网络模型对待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图。

其中，神经网络模型是已经训练好模型参数的基于神经网络的机器学习模型。在一个实施例中，预训练的神经网络模型采用双分支的基于FPN(Feature Pyramid Network，特征金字塔网络)的结构，其中一个分支为文本分割网络(Segmentation Branch)，也叫像素预测网络，用于对待检测图片进行像素预测得到对应的文本分布图(SegmentationMaps)，包括文本区域分布图(Full Map)和文本中央区域分布图(Center Map)。另一个分支为嵌入特征提取网络(Embedding Branch)，用于对待检测图片进行特征提取得到对应的嵌入特征图(Embedding Map)。FPN结构通过将待检测图片变换成不同的尺寸的层级特征，将高层的特征通过上采样处理与低层特征融合，得到最后的特征，基于最后的特征进行预测，能够同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果。

具体地，服务器可以将待检测图片输入至预训练的神经网络模型中，根据神经网络模型两个分支的模型参数对待检测图片进行卷积运算、上采样处理以及融合得到最后的特征图，对最后的特征图进行预测得到相应的文本分布图和嵌入特征图。

文本区域分布图(Full Map)实质上是表示待检测图片中各个像素属于文本的概率所构成的概率矩阵，也就是该矩阵中的元素的值域为(0,1)，其中，像素属于文本的概率大于预设阈值(比如0.7)的像素为文本像素，这些文本像素构成的区域为待检测图片中原始的文本区域。

文本中央区域分布图(Center Map)实质上也是表示待检测图片中各个像素属于文本的概率所构成的概率矩阵，其中，原始的文本区域的中央部分的文本像素构成待检测图片的文本中央区域。可以理解，属于文本中央区域的文本像素也属于原始的文本区域，文本中央区域是经过模型预测得到的。

在一个实施例中，在训练神经网络模型之前，需要对样本图片进行预处理，获取各个样本图片对应的标准数据(Ground Truth)，包括样本图片中文本片段对应的标注区域以及文本片段的中央部分对应的标注区域，基于这些标准数据对神经网络模型进行训练，从而训练之后得到的神经网络模型可以输出与待检测图片对应的文本区域分布图和文本中央区域分布图。

进一步地，文本片段的中央部分对应的标注区域可以是对文本片段原始的标注区域进行缩放后对应的像素区域。本实施例对缩放的方式不作限制，可以采用如下方式：将文本片段对应的标注区域缩小0.7后得到中央部分对应的标注区域，比如，原始的某个文本片段对应的标注区域为像素区域S，其尺寸为100×100(像素宽度)，则该文本片段的中央部分对应的标注区域为：S中央部分的像素区域S′，其尺寸为70×70。

嵌入特征图(Embedding Map)实质上表示待检测图片中各个像素对应的嵌入特征向量，不同像素对应的嵌入特征向量是不同的。将每个像素映射至嵌入空间，像素对应的特征越相似，则对应的嵌入特征向量之间的嵌入特征空间距离越相近。嵌入特征向量中还可以融合各个像素点的位置信息(Position information)，位置信息具体可以用该像素在待检测图片中对应的像素坐标(x,y)表示。

当输入的待检测图片的尺寸为w×h时，则通过神经网络模型输出的文本区域分布图、文本中央区域分布图均为1通道的、大小为的概率矩阵，输出的嵌入特征图为的特征矩阵，其中c代表通道数量，也代表每个像素的嵌入特征向量的维度，通常为4、8或12。

如图3所示，在一个实施例中，S204具体包括以下步骤：

S302，将待检测图片输入至预训练的神经网络模型中。

S304，通过神经网络模型中的特征变换网络，对待检测图片进行特征变换，得到不同尺度的特征图。

其中，特征变换网络是预训练的神经网络模型的主干网络，通过主干网络中不同大小的卷积核对待检测图片进行卷积操作，得到不同尺度的特征图，其中低层特征图具有高分辨率，但是携带的特征语义信息比较少，高层特征图携带的特征语义信息比较丰富，但是各文本像素的位置比较粗略。特征变换网络可以采用ResNet50网络结构，其他网络如MobileNet、ShuffleNet、DenseNet等亦可以使用。

S306，通过神经网络模型中的嵌入特征提取网络，对各特征图进行融合，得到待检测图片对应的嵌入特征图。

其中，嵌入特征提取网络对应了神经网络模型的嵌入特征提取网络分支，通过嵌入特征提取网络，不同尺寸特征图与上一层的特征图上采样后得到的特征图相加，得到不同尺寸的用于进行预测的特征图，通过这样衔接处理，每一层相加后得到的特征图都融合了不同分辨率、不同语义强度的特征。再将不同尺寸的特征图进行上采样处理、相加操作以及卷积操作，得到最后的嵌入特征图。

S308，通过神经网络模型中的像素预测网络，对各特征图进行特征融合，得到待检测图片对应的文本区域分布图和文本中央区域分布图。

其中，像素预测网络对应了神经网络模型的像素预测网络分支。同样地，通过嵌入特征提取网络，不同尺度特征图与上一层的特征图上采样后得到的特征图相加，得到不同尺寸的用于进行预测的特征图，通过这样衔接处理，每一层相加后得到的特征图都融合了不同分辨率、不同语义强度的特征。再将不同尺寸的特征图进行上采样处理、相加操作以及卷积操作，得到最后的文本区域分布图和文本中央区域分布图。像素预测网络与嵌入特征提取网络的网络参数不同，但是网络结构是相同的。

如图4所示，为一个实施例中神经网络模型的网络结构的示意图。图中的“Conv”表示卷积操作，“N×N”表示卷积核的大小，“Conv”下的数字表示输出通道数，每个特征图下的分数表示当前输出的特征图相对于原始的待检测图片的缩放比例，表示将输出的各个特征图中对应位置的元素相加。网络结构包括3个部分，中间的主干网络401为特征变换网络，用于对待检测图片进行卷积操作，得到不同尺寸的特征图；上边是嵌入特征提取网络402，用于对不同尺寸的特征图进行融合，得到待检测图片对应的嵌入特征图4021，下边为像素预测网络403，用于对不同尺寸的特征图进行融合，得到待检测图片对应的文本区域分布图4031和文本中央区域分布图4032。Position Information表示待检测图片中各个像素的位置信息，即像素坐标。

S206，对文本区域分布图中的文本像素进行聚类处理，得到文本像素子集。

S208，对文本中央区域分布图中的文本像素进行聚类处理，得到文本中央像素子集。

具体地，根据文本区域分布图仅能确定属于文本区域的文本像素，也就是文本区域分布图中概率值大于预设阈值的像素，还不能确定文本区域中的各个文本像素属于哪一个文本片段。同样地，根据文本中央区域分布图仅能确定属于文本中央区域的文本像素，还不能确定文本中央区域中的哪个文本像素属于哪一个文本片段的中央部分。因此，服务器可以分别对文本区域分布图中的文本像素、文本中央区域分布图中的文本像素进行聚类处理，得到相应的像素聚类簇，分别作为文本像素子集和文本中央像素子集。

文本像素子集是将属于文本区域的文本像素进行聚类后得到的各个像素聚类簇，文本中央像素子集是将属于文本中央区域的文本像素进行聚类后得到的各个像素聚类簇。由于文本中央区域是文本区域的中央部分，因此文本中央像素子集包含于某一个文本像素子集。

在一个实施例中，S206具体包括：根据文本区域分布图确定属于文本区域的文本像素；对文本区域的文本像素按照像素坐标进行聚类处理，得到多个文本像素子集。

在一个实施例中，S208具体包括：根据文本中央区域分布图确定属于文本中央区域的文本像素；对文本中央区域中的文本像素按照像素坐标进行聚类处理，得到多个文本中央像素子集。

具体地，根据文本区域分布图获取各个像素属于文本的概率，将概率大于预设阈值的像素作为文本区域的文本像素，同样地，根据文本中央区域分布图获取各个像素属于文本的概率，将文本中央区域中概率大于预设阈值的像素作为文本中央区域的文本像素。像素坐标是指每个像素点的二维坐标，比如，待检测图片的尺寸为w×h，左上角的像素对应的像素坐标为(0,0)，右下角的像素对应的像素坐标为(w,h)，可以用根据像素坐标计算得到的欧氏距离或者曼哈顿距离表示两个像素之间的距离。

在一个实施例中，可以采用基于密度的聚类算法对文本像素进行聚类，比如DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类算法。在对文本像素按照像素坐标进行聚类处理时，主要通过以下步骤：

1)设置邻域半径(Eps)和最小包含像素点数(MinPts)；

2)获取文本区域中当前未被处理的文本像素p；

3)按照像素坐标计算p与文本区域中其它文本像素的距离；

4)根据距离确定在文本像素p的邻域半径内的文本像素；

5)若邻域半径内的文本像素的数量≥MinPts，则创建一个以文本像素p为核心的簇C，并将文本像素p标记为已处理；否则将文本像素p标记为噪声点；

6)对文本像素p的邻域半径内的所有未被标记为已处理的文本像素q执行上述步骤1至4，若文本像素q邻域半径内的文本像素的数量≥MinPts，则将文本像素q添加至簇C，从而对簇C进行扩展；否则将文本像素q标记为噪声点；

7)重复上述步骤1-6，对未被处理的文本像素进行处理，直至每个文本像素被标记为已处理或被标记为噪声点。

由于文本区域分布图中的文本区域包含文本中央区域分布图中的文本中央区域，因此对文本区域中的文本像素进行聚类时设置的邻域半径、最小包含像素点数都相对大于对文本中央区域中的文本像素进行聚类时所设置的数值。比如，对文本区域中的文本像素进行聚类时设置的邻域半径、最小包含像素点数分别为5、8，对文本中央区域中的文本像素进行聚类时所设置邻域半径、最小包含像素点数分别为1、3。

经过聚类，得到的文本像素子集能够将待检测图片距离较远的文本片段分割开，但是相邻的文本片段仍属于同一个文本像素子集，无法被区分开。文本中央像素子集能够将待检测图片中各个文本片段的中央部分分割开，却并不包括非中央部分的文本像素。

S210，基于嵌入特征图，将文本像素子集中不属于文本中央像素子集中的文本像素归类至相应的文本中央像素子集。

具体地，为了进一步将文本区域中包含的相邻的文本片段分割开，在得到文本像素子集后，需要将文本像素子集中非中央部分的文本像素划分至不同的文本中央像素子集，也就是将文本像素子集中不属于文本中央像素子集中的文本像素归类至相应的文本中央像素子集。可以基于各个文本像素对应的嵌入特征向量从文本中央像素子集中找到与非中央部分的文本像素相近的文本像素，将非中央部分的文本像素归类至最相近的文本像素所属的文本中央像素子集。

在一个实施例中，S210具体包括：根据嵌入特征图获取各文本像素的嵌入特征向量；确定文本像素子集中不属于文本中央像素子集中的各文本像素；基于各文本像素的嵌入特征向量，依次计算确定的各文本像素与各文本中央像素子集对应的平均嵌入特征向量之间的嵌入特征空间距离；将确定的文本像素归类至对应嵌入特征空间距离最小的文本中央像素子集。

具体地，对每一个文本像素子集均进行以下处理：对于其中的每一个文本像素p(p属于文本像素子集但是不属于任何文本中央像素子集)，按照嵌入特征向量之间的嵌入特征空间距离，寻找到与之嵌入特征空间距离最近的一个文本中央像素子集，其像素平均嵌入特征为q，文本像素p与q之间的嵌入特征空间距离最近，因此将p归类至q对应的文本中央像素子集，当文本像素子集中所有不属于文本中央像素子集的文本像素完成了归类，归类后得到的新的文本中央像素子集将完成对文本像素子集的分割。

如图5所示，为一个实施例中文本像素子集与文本中央像素子集的关系示意图。参照图5，对文本区域分布图中属于文本区域C_F的文本像素进行聚类后得到3个文本像素子集，分别为和对文本中央区域分布图中属于文本区域C_C的文本像素进行聚类后得到8个文本中央像素子集，分别为c₁₁、c₁₂、c₁₃、c₁₄、c₂₁、c₂₂、c₂₃以及c₃₃，其中,可见，包含于中，包含于中，包含于中。

如图6所示，为一个实施例中将每一个文本像素子集中不属于文本中央像素子集中的文本像素归类的示意图。归类之前的文本像素子集与文本中央像素子集可以参照图5，在归类时，对于和中每个不属于的文本像素p，均找到与之嵌入特征空间距离最近的文本中央像素子集，并将p归类至该文本中央像素子集。从图6可以看出，归类后，各个文本像素子集中非中央部分的文本像素均被归类至某个文本中央像素子集，完成了对文本像素子集更细致的划分。

由于得到的文本像素子集、文本中央像素子集均是按照像素坐标进行聚类得到的，因此，文本像素子集中的文本像素所构成的区域可以是任意形状的，文本中央像素子集中的文本像素所构成的区域也可以是任意形状的，不受待检测图片中文本形状的限制。

S212，根据归类后的文本中央像素子集确定待检测图片中的文本片段。

其中，文本片段是待检测图片中的文字区域，每一个文本中央像素子集中的文本像素构成了一个文本区域，即一个文本片段。由于文本中央像素子集中的文本像素构成的文本区域可以是任意形状的，因此文本片段可以是任意形状的，比如可以是矩形的，也可以是弯曲形状的。在得到归类后的文本中央像素子集后，可以根据每个文本中央像素子集从待检测图片中确定与之对应的文本片段。

如图7所示，为一个实施例中待检测图片中文本片段的示意图。参照图7左边表示待检测图片，待检测图片中包括若干文本，图7中间表示从待检测图片中检测出的与文本对应的各个文本片段，图7右边表示各个文本片段中的文本像素对应的嵌入特征向量在嵌入空间中的分布，可以看出，属于同一文本片段中的文本像素对应的嵌入特征向量在嵌入空间中的距离相近，每一个分布簇对应了一个文本片段。

在一个实施例中，在得到待检测图片中的文本片段之后，就可以对每个文本片段进行文本识别，识别出每个文本片段中的文本内容。

如图8所示，为一个实施例中对从自然环境中采集的图片进行文本检测得到弯曲文本片段的示意图。参照图8，该图片中包括弯曲的路标文本“BUMBLE BEE RANCH”，通过本实施例提供的文本检测方法，可以检测出该图片中弯曲的文本区域，对该文本区域进行文本识别，可以得到文本内容。

上述文本检测方法，嵌入特征图能够反映各个像素在嵌入空间上的距离，文本区域分布图能够表示待检测图片中原始的文本区域，文本中央区域分布图能够表示文本区域的中央部分。通过神经网络模型输出与待检测图片对应的嵌入特征图、文本区域分布图和文本中央区域分布图之后，再分别对文本区域中的文本像素、文本中央区域中的文本像素进行聚类，得到文本像素子集和文本中央像素子集，然后对每个文本中央像素子集即各个文本中央区域不断地根据文本像素在嵌入空间上的距离向外进行延伸，将文本像素子集中的文本像素归类至某个文本中央像素子集，就可以根据归类后的文本中央像素子集得到待检测图片中所有文本片段对应的检测框，不受限于待检测图片中文本片段的形状，能够对任意形状的文本片段进行准确检测。

在一个实施例中，如图9所示，上述文本检测方法中神经网络模型的训练步骤包括：

S902，获取训练集中的样本图片。

其中，训练集是包括用于对神经网络模型进行训练的多个样本图片。通过这些样本图片对神经网络模型进行训练，可以使神经网络模型学习到对图片进行文本检测的能力。

S904，根据样本图片对应的文本区域分布标准图和文本中央区域分布标准图、通过神经网络模型对样本图片预测得到的文本区域分布预测图和文本中央区域分布预测图，构造神经网络模型中像素预测网络对应的第一损失函数。

其中，第一损失函数用于对神经网络模型的像素预测网络分支进行训练。具体地，在使用样本图片对神经网络模型进行训练之前，需要对各个样本图片进行预处理，获取各个样本图片对应的标准数据(Ground Truth)，包括样本图片对应的文本区域分布标准图和文本中央区域分布标准图。

其中，文本区域分布标准图实质上是由样本图片中各个像素属于文本的概率的标准值构成的矩阵。根据各标准值可以确定样本图片中的各个文本片段对应的文本标注区域，也就是文本像素所构成的各个文本标注区域。比如，可以将文本标注区域中文本像素对应的标准值设置为1，样本图片中其它像素对应的标准值设置为0，得到文本区域分布标准图。

相应地，文本中央区域分布标准图实质上也是由样本图片的各个像素属于文本的概率的标准值构成的矩阵。根据各标准值可以确定样本图片中各个文本片段的中央部分对应的文本中央标注区域，文本中央标注区域的尺寸大小可以根据文本区域的尺寸大小放缩后得到。可以将属于文本中央标注区域的像素对应的标准值设置为1，样本图片中其它像素对应的标准值设置为0，得到文本中央区域分布标准图。

文本区域分布预测图和文本中央区域分布预测图是在训练神经网络模型时，将样本图片输入至未训练好的神经网络模型输出得到的，也就是通过未训练好的神经网络模型中当前的模型参数对样本图片进行处理得到的。

具体地，可以通过当前的神经网络模型中像素预测网络分支对样本图片进行预测，得到预测结果，根据得到文本区域分布预测图和文本中央区域分布预测图以及真实的文本区域分布标准图和文本中央区域分布标准图，构造第一损失函数。

在一个实施例中，第一损失函数的构造步骤包括：获取样本图片对应的文本区域分布标准图和文本中央区域分布标准图；将样本图片输入至神经网络模型中，输出相应的文本区域分布预测图和文本中央区域分布预测图；基于文本区域分布标准图与文本区域分布预测图计算文本区域损失值、基于文本中央区域分布标准图与文本中央区域分布预测图计算文本中央区域损失值；融合文本区域损失值和文本中央区域损失值，得到第一损失函数。

其中，文本区域损失值是预测得到的文本区域分布预测图与文本区域分布标准图之间差异的量化表示，文本中央区域损失值是预测得到的文本中央区域分布预测图与文本中央区域分布标准图之间差异的量化表示，结合文本区域损失值和文本中央区域损失值，可以得到用于表示像素预测网络分支预测的准确性的第一损失函数。可见，在本实施例中，得到的第一损失函数是一个常量。第一损失函数的值越大，代表预测结果与标准数据越接近，像素预测网络的准确性较高；反之，第一损失函数的值越小，代表预测结果与标准数据相差甚远，像素预测网络的准确性较差。

在一个实施例中，融合文本区域损失值和文本中央区域损失值，得到第一损失函数具体可以是：分别为文本区域损失值和文本中央区域损失值分配相应的权重系数，对文本区域损失值和文本中央区域损失值在各自的权重系数下进行加权求和，得到第一损失函数。

在一个实施例中，文本区域损失值和文本中央区域损失值分别通过以下公式计算得到：

其中，L_FullMap表示文本区域损失值，表示文本区域分布预测图的文本区域中位于(x,y)的像素属于文本的概率的预测值，表示文本区域分布标准图的文本区域中位于(x,y)的像素属于文本的概率的标准值；L_CenterMap表示文本中央区域损失值，表示文本中央区域分布预测图的文本中央区域中位于(x,y)的像素属于文本的概率的预测值，表示文本中央区域分布标准图的文本中央区域中位于(x,y)的像素属于文本的概率的标准值；∑_x,y表示求和函数。通过上述公式，可以计算得到当前样本图片对应的文本区域损失值和文本中央区域损失值。可以理解，当样本图片中不包括文本片段时，对应的文本区域损失值和文本中央区域损失值均为1。

在一个实施例中，为文本区域损失值和文本中央区域损失值分配相应的权重系数可以均为0.5，则第一损失函数可以通过以下公式得到：

L_SEG＝0.5*L_CenterMap+0.5*L_FullMap。

比如，样本图片的尺寸为100*100(像素宽度)，包括10000个像素，则需要分别根据预测结果、标准数据获取这10000个像素对应的预测值和标准值，然后按照上述公式分别计算文本区域损失值和文本中央区域损失值，再按照0.5的权重系数进行加权求和，得到总的第一损失函数的值。

S906，根据样本图片中各文本片段的尺度系数和各文本片段之间的距离系数、通过神经网络模型对样本图片预测得到的各文本片段中文本像素对应的嵌入特征预测向量，构造神经网络模型中嵌入特征提取网络对应的第二损失函数。

其中，第二损失函数用于对神经网络模型的嵌入特征提取网络分支进行训练。在得到样本图片对应的文本区域分布标准图和文本中央区域分布标准图之后，就可以根据文本区域分布标准图确定样本图片中的各个文本片段。样本图片可以包括多个文本片段，也可以不包括文本片段。在对神经网络模型进行训练之前，对样本图片进行预处理得到的标准数据还包括各文本片段的尺度系数以及各文本片段之间的距离系数。文本片段的尺度系数可以用文本片段中最远距离的两个顶点以及样本图片本身的尺寸来衡量。文本片段之间的距离系数可以用两个文本片段之间的最短距离以及样本图片本身的尺寸来衡量。在本实施例中，样本图片本身的尺寸都是固定值，因此，文本片段的尺度系数与文本片段中任意两个顶点的最远距离成正相关，文本片段之间的距离系数与两个文本片段之间的最短距离成正相关。

在训练神经网络模型时，将样本图片输入至未训练好的神经网络模型，通过当前未训练好的神经网络模型对样本图片预测可以得到嵌入特征预测图，根据嵌入特征预测图获取样本图片中各个文本片段中的文本像素对应的嵌入特征预测向量。

具体地，为了将同属于一个文本片段的文本像素尽可能聚拢在一起，当文本片段的尺度系数越大时，对该文本片段中各个文本像素的嵌入特征预测向量之间的差异性要求也就更高，也就是只有嵌入特征差异性越小的文本像素才会被聚拢在一起，并归类至同一个文本片段。同时为了将不属于同一个文本片段、但又靠得相近的文本像素尽可能区分开，当两个文本片段之间的距离很近时，只有在这两个文本片段中各个文本像素之间的嵌入特征差异性越大的情况下，才能更好地将这两个靠的很近文本片段区分开。因此，在利用样本图片训练神经网络模型时，需要根据样本图片中各文本片段的尺度系数、各文本片段之间的距离系数以及各文本片段中文本像素对应的嵌入特征预测向量来构造第二损失函数，使得利用第二损失函数训练之后得到的模型对待检测图片进行预测得到的嵌入特征图中，尺度系数较大的同一文本片段中的文本像素对应的嵌入特征预测向量之间的空间距离越小，尺度系数较小的同一文本片段中的文本像素对应的嵌入特征预测向量之间的空间距离相对较大，同时，不同文本片段中文本像素对应的嵌入特征预测向量之间的空间距离越大，同一文本片段中文本像素对应的嵌入特征预测向量之间的空间距离越小。

在一个实施例中，第二损失函数的构造步骤包括：获取样本图片中各文本片段的尺度系数；获取各文本片段之间的距离系数；将样本图片输入至神经网络模型中，输出相应的嵌入特征预测图，得到各文本片段中文本像素对应的嵌入特征预测向量；根据各文本片段的尺度系数、所包括文本像素对应的嵌入特征预测向量计算各文本片段对应的片段内嵌入特征差异量；根据各文本片段对应的嵌入特征预测平均向量之间的差异、各文本片段之间的距离系数计算得到相应的片段间嵌入特征差异量；融合各片段内嵌入特征差异量和各片段间嵌入特征差异量，得到第二损失函数。

其中，片段内嵌入特征差异量表示同一个文本片段中各个文本像素对应的嵌入特征预测向量之间的差异，可以用文本片段中各个文本像素对应的嵌入特征预测向量与该文本片段对应的嵌入特征预测平均向量之间的差异来衡量，并且与该文本片段的尺度系数正相关。片段间嵌入特征差异量表示文本片段之间嵌入特征预测向量之间的差异，可以用文本片段的嵌入特征预测平均向量之间的差异来衡量，并且与文本片段之间的距离系数正相关。

在一个实施例中，获取样本图片中各文本片段的尺度系数具体包括：获取样本图片的最长边对应的像素宽度；获取样本图片中各文本片段中两个像素点之间的最远距离；根据各最远距离以及像素宽度计算各文本片段对应的尺度系数。

在一个实施例中，可以采用以下公式计算各文本片段对应的尺度系数：

其中，表示样本图片中第j个文本片段的尺度系数，maxside(j)表示第j个文本片段中两个像素点之间的最远距离；max(h,w)表示样本图片的最长边对应的像素宽度，样本图片的尺寸为h×w。

在一个实施例中，可采用以下公式计算文本片段之间的距离系数：

其中，表示样本图片中第j个文本片段与第k个文本片段之间的距离系数，min(dis tance_j,k)表示样本图片中第j个文本片段与第k个文本片段之间的最短距离，max(h,w)表示样本图片的最长边对应的像素宽度。

在一个实施例中，片段内嵌入特征差异量是文本片段对应嵌入特征差异总量与文本片段中像素总数量之商；嵌入特征差异总量是文本片段中各像素对应的嵌入特征预测向量与文本片段的嵌入特征预测平均向量之差与尺度系数相乘后与可容忍的片段内嵌入特征差异量之间的差异之和。

在一个实施例中，片段内嵌入特征差异量通过以下公式计算得到：

其中，I_j表示样本图片中I中的第j个文本片段，L_var(I_j)表示文本片段I_j对应的片段内嵌入特征差异量，N_j表示文本片段I_j中像素的总数量，表示文本片段I_j对应的尺度系数，x_i表示文本片段I_j中像素i对应的嵌入特征预测向量，μ_j表示文本片段I_j对应的嵌入特征预测平均向量，η表示可容忍的片段内嵌入特征差异量，∑表示求和函数。η的初始值可以取为0.5。max表示取较大值函数。

可以看出，上述公式中的max函数用于约束文本片段中各像素对应的嵌入特征预测向量与文本片段的嵌入特征预测平均向量之差与尺度系数相乘后与可容忍的片段内嵌入特征差异量之间的差异的最小值为0，即为非负。

在一个实施例中，片段间嵌入特征差异量是任意两个文本片段对应的嵌入特征预测平均向量与任意两个文本片段之间的距离系数相乘后与片段间嵌入特征差异量可容忍的最小值之差。

在一个实施例中，片段间嵌入特征差异量通过以下公式计算得到：

其中，I_j表示样本图片中I中的第j个文本片段，I_k表示样本图片中I中的第k个文本片段，L_dist(I_j,I_k)表示文本片段I_j与文本片段I_k之间的片段间嵌入特征差异量，μ_j表示文本片段I_j对应的嵌入特征预测平均向量，μ_k表示文本片段I_k对应的嵌入特征预测平均向量，表示文本片段I_j与文本片段I_k之间的距离系数，γ表示片段间嵌入特征差异量可容忍的最小值。γ的初始值可以取为1.5。max表示取较大值函数。

可以看出，上述公式中的max函数用于约束任意两个文本片段对应的嵌入特征预测平均向量与任意两个文本片段之间的距离系数相乘后与片段间嵌入特征差异量可容忍的最小值之差不能小于0，即为非负。

在一个实施例中，第二损失函数通过将样本图片所包括的各个文本片段对应的片段内嵌入特征差异量之和的平均值与各个文本片段之间的片段间嵌入特征差异量之和的平均值相加得到。

在一个实施例中，第二损失函数通过以下公式计算得到：

其中，L_EMB表示对样本图片中I构造的第二损失函数，M表示样本图片中I中文本片段的总数量，L_var(I_j)表示样本图片中I中的文本片段I_j对应的片段内嵌入特征差异量，L_dist(I_j,I_k)表示文本片段I_j与文本片段I_k之间的片段间嵌入特征差异量，∑表示求和函数。公式中的第一部分为样本图片中所有文本片段对应的片段内嵌入特征差异量之和的平均值，公式中的第二部分为样本图片中任意两个文本片段对应的片段间嵌入特征差异量之和的平均值。

S908，融合第一损失函数和第二损失函数，得到神经网络模型对应的网络损失函数。

具体地，虽然神经网络模型包括像素预测网络和嵌入特征提取网络两个分支，在训练时各自使用的损失函数不一样，但是神经网络模型的训练过程是对模型整体进行训练，因此，神经网络模型整体对应的网络损失函数需要融合第一损失函数和第二损失函数。在一个实施例中，网络损失函数为两个分支对应的损失函数的相加，即：

L＝L_EMB+L_SEG。

S910，将网络损失函数最小化时的模型参数作为神经网络模型的模型参数，返回至获取训练集中的样本图片的步骤继续训练，直至满足训练结束条件。

具体地，对于每个样本图片计算得到的网络损失函数，根据其最小化过程当中产生的梯度调整神经网络模型的模型参数，然后在调整之后的模型参数的基础上，执行步骤S902至步骤S910，以对下一个样本图片进行预测后构建对应的网络损失函数，以此类推，直至满足训练结束条件。训练结束条件比如可以是训练次数达到设定的次数。

在上述实施例中，通过分别构建像素预测网络和嵌入特征提取网络的损失函数，训练时结合这两个损失函数对神经网络模型进行优化，能够提高神经网络模型的准确性。尤其是在构建嵌入特征提取网络的损失函数时考虑了同一文本片段中文本像素的特征之间的差异性与文本片段的尺度系数的关系，还考虑了不同文本片段之间文本像素的特征之间的差异性与文本片段之间的距离的关系，使得训练后得到的神经网络模型能够将属于同一文本片段的文本像素均可能聚拢在一起，将靠的很近的文本片段尽可能区分开，能实现对任意形状文本片段的检测。

如图10所示，在一个具体的实施例中，文本检测方法具体包括以下步骤：

S1002，获取待检测图片；

S1004，将待检测图片输入至预训练的神经网络模型中；

S1006，通过神经网络模型中的特征变换网络，对待检测图片进行特征变换，得到不同尺度的特征图；

S1008，通过神经网络模型中的嵌入特征提取网络，对各特征图进行融合，得到待检测图片对应的嵌入特征图；

S1010，通过神经网络模型中的像素预测网络，对各特征图进行特征融合，得到待检测图片对应的文本区域分布图和文本中央区域分布图；

S1012，根据文本区域分布图确定属于文本区域的文本像素；

S1014，对文本区域的文本像素按照像素坐标进行聚类处理，得到多个文本像素子集；

S1016，根据文本中央区域分布图确定属于文本中央区域的文本像素；

S1018，对文本中央区域中的文本像素按照像素坐标进行聚类处理，得到多个文本中央像素子集；

S1020，根据嵌入特征图获取各文本像素的嵌入特征向量；

S1022，确定文本像素子集中不属于文本中央像素子集中的各文本像素；

S1024，基于各文本像素的嵌入特征向量，依次计算确定的各文本像素与文本中央像素子集对应的平均嵌入特征向量之间的嵌入特征空间距离；

S1026，将确定的文本像素归类至对应嵌入特征空间距离最小的文本像素所属的文本中央像素子集；

S1028，根据归类后的文本中央像素子集确定待检测图片中的文本片段。

图10为一个实施例中文本检测方法的流程示意图。应该理解的是，虽然图10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种文本检测装置1100，该装置包括待检测图片获取模块1102、预测模块1104、像素聚类模块1006、像素归类模块1108和文本片段确定模块1110，其中：

待检测图片获取模块1102，用于获取待检测图片；

预测模块1104，用于通过神经网络模型对待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图；

像素聚类模块1106，用于对文本区域分布图中的文本像素进行聚类处理，得到文本像素子集；对文本中央区域分布图中的文本像素进行聚类处理，得到文本中央像素子集；

像素归类模块1108，用于基于嵌入特征图，将文本像素子集中不属于文本中央像素子集中的文本像素归类至相应的文本中央像素子集；

文本片段确定模块1110，用于根据归类后的文本中央像素子集确定待检测图片中的文本片段。

在一个实施例中，预测模块1104还用于将待检测图片输入至预训练的神经网络模型中；通过神经网络模型中的特征变换网络，对待检测图片进行特征变换，得到不同尺寸的特征图；通过神经网络模型中的嵌入特征提取网络，对各特征图进行融合，得到待检测图片对应的嵌入特征图；通过神经网络模型中的像素预测网络，对各特征图进行特征融合，得到待检测图片对应的文本区域分布图和文本中央区域分布图。

在一个实施例中，像素聚类模块1106还用于根据文本区域分布图确定属于文本区域的文本像素；对文本区域的文本像素按照像素坐标进行聚类处理，得到多个文本像素子集。

在一个实施例中，像素聚类模块1106还用于根据文本中央区域分布图确定属于文本中央区域的文本像素；对文本中央区域中的文本像素按照像素坐标进行聚类处理，得到多个文本中央像素子集。

在一个实施例中，像素归类模块1108还用于根据嵌入特征图获取各文本像素的嵌入特征向量；确定文本像素子集中不属于文本中央像素子集中的各文本像素；基于各文本像素的嵌入特征向量，依次计算确定的各文本像素与文本中央像素子集对应的平均嵌入特征向量之间的嵌入特征空间距离；将确定的文本像素归类至对应嵌入特征空间距离最小的文本像素所属的文本中央像素子集。

在一个实施例中，上述文本检测装置1100还包括训练模块，用于获取训练集中的样本图片；根据样本图片对应的文本区域分布标准图和文本中央区域分布标准图、通过神经网络模型对样本图片预测得到的文本区域分布预测图和文本中央区域分布预测图，构造神经网络模型中像素预测网络对应的第一损失函数；根据样本图片中各文本片段的尺度系数和各文本片段之间的距离系数、通过神经网络模型对样本图片预测得到的各文本片段中文本像素对应的嵌入特征预测向量，构造神经网络模型中嵌入特征提取网络对应的第二损失函数；融合第一损失函数和第二损失函数，得到神经网络模型对应的网络损失函数；将网络损失函数最小化时的模型参数作为神经网络模型的模型参数，返回至获取训练集中的样本图片的步骤继续训练，直至满足训练结束条件。

在一个实施例中，训练模块还包括第一损失函数构造单元，用于获取样本图片对应的文本区域分布标准图和文本中央区域分布标准图；将样本图片输入至神经网络模型中，输出相应的文本区域分布预测图和文本中央区域分布预测图；基于文本区域分布标准图与文本区域分布预测图计算文本区域损失值、基于文本中央区域分布标准图与文本中央区域分布预测图计算文本中央区域损失值；融合文本区域损失值和文本中央区域损失值，得到第一损失函数。

在一个实施例中，第一损失函数构造单元还用于按照以下公式计算文本区域损失值和文本中央区域损失值：

其中，L_FullMap表示文本区域损失值，表示文本区域分布预测图的文本区域中位于(x,y)的像素属于文本的概率的预测值，表示文本区域分布标准图的文本区域中位于(x,y)的像素属于文本的概率的标准值；L_CenterMap表示文本中央区域损失值，表示文本中央区域分布预测图的文本中央区域中位于(x,y)的像素属于文本的概率的预测值，表示文本中央区域分布标准图的文本中央区域中位于(x,y)的像素属于文本的概率的标准值；∑_x,y表示求和函数。

在一个实施例中，训练模块还包括第二损失函数构造单元，用于获取样本图片中各文本片段的尺度系数；获取各文本片段之间的距离系数；将样本图片输入至神经网络模型中，输出相应的嵌入特征预测图，得到各文本片段中文本像素对应的嵌入特征预测向量；根据各文本片段的尺度系数、所包括文本像素对应的嵌入特征预测向量计算各文本片段对应的片段内嵌入特征差异量；根据各文本片段对应的嵌入特征预测平均向量之间的差异、各文本片段之间的距离系数计算得到相应的片段间嵌入特征差异量；融合各片段内嵌入特征差异量和各片段间嵌入特征差异量，得到第二损失函数。

在一个实施例中，第二损失函数构造单元还用于获取样本图片的最长边对应的像素宽度；获取样本图片中各文本片段中两个像素点之间的最远距离；根据各最远距离以及像素宽度计算各文本片段对应的尺度系数。

在一个实施例中，第二损失函数构造单元还用于按照以下公式计算片段内嵌入特征差异量：

其中，I_j表示样本图片中I中的第j个文本片段，L_var(I_j)表示文本片段I_j对应的片段内嵌入特征差异量，N_j表示文本片段I_j中像素的总数量，表示文本片段I_j对应的尺度系数，x_i表示文本片段I_j中像素i对应的嵌入特征预测向量，μ_j表示文本片段I_j对应的嵌入特征预测平均向量，η表示可容忍的片段内嵌入特征差异量，∑表示求和函数。

在一个实施例中，第二损失函数构造单元还用于按照以下公式计算片段间嵌入特征差异量：

其中，I_j表示样本图片中I中的第j个文本片段，I_k表示样本图片中I中的第k个文本片段，L_dist(I_j,I_k)表示文本片段I_j与文本片段I_k之间的片段间嵌入特征差异量，μ_j表示文本片段I_j对应的嵌入特征预测平均向量，μ_k表示文本片段I_k对应的嵌入特征预测平均向量，表示文本片段I_j与文本片段I_k之间的距离系数，γ表示片段间嵌入特征差异量可容忍的最小值。

在一个实施例中，第二损失函数构造单元还用于按照以下公式构造第二损失函数：

其中，L_EMB表示对样本图片中I构造的第二损失函数，M表示样本图片中I中文本片段的总数量，L_var(I_j)表示样本图片中I中的文本片段I_j对应的片段内嵌入特征差异量，L_dist(I_j,I_k)表示文本片段I_j与文本片段I_k之间的片段间嵌入特征差异量，∑表示求和函数。

上述文本检测装置1100，嵌入特征图能够反映各个像素在嵌入空间上的距离，文本区域分布图能够表示待检测图片中原始的文本区域，文本中央区域分布图能够表示文本区域的中央部分。通过神经网络模型输出与待检测图片对应的嵌入特征图、文本区域分布图和文本中央区域分布图之后，再分别对文本区域中的文本像素、文本中央区域中的文本像素进行聚类，得到文本像素子集和文本中央像素子集，然后对每个文本中央像素子集即各个文本中央区域不断地根据文本像素在嵌入空间上的距离向外进行延伸，将文本像素子集中的文本像素归类至某个文本中央像素子集，就可以根据归类后的文本中央像素子集得到待检测图片中所有文本片段对应的检测框，不受限于待检测图片中文本片段的形状，能够对任意形状的文本片段进行准确检测。

图12示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图12所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现文本检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行文本检测方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的文本检测装置1000可以实现为一种计算机程序的形式，计算机程序可在如图12所示的计算机设备上运行。计算机设备的存储器中可存储组成该文本检测装置1000各个程序模块，比如，图10所示的待检测图片获取模块1002、预测模块1004、像素聚类模块1006、像素归类模块1008和文本片段确定模块1010。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本检测方法中的步骤。

例如，图12所示的计算机设备可以通过如图11所示的文本检测装置1100中的待检测图片获取模块1102执行步骤S202。计算机设备可通过预测模块1104执行步骤S204。计算机设备可通过像素聚类模块1106执行步骤S206和步骤S208。计算机设备可通过像素归类模块1108执行步骤S210。计算机设备可通过文本片段确定模块1010执行步骤S212。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本检测方法的步骤。此处文本检测方法的步骤可以是上述各个实施例的文本检测方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述文本检测方法的步骤。此处文本检测方法的步骤可以是上述各个实施例的文本检测方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本检测方法，包括：

获取待检测图片；

2.根据权利要求1所述的方法，其特征在于，所述通过神经网络模型对所述待检测图片进行处理，得到相应的嵌入特征图、文本区域分布图和文本中央区域分布图包括：

将所述待检测图片输入至预训练的神经网络模型中；

通过所述神经网络模型中的特征变换网络，对所述待检测图片进行特征变换，得到不同尺度的特征图；

通过所述神经网络模型中的嵌入特征提取网络，对各所述特征图进行融合，得到所述待检测图片对应的嵌入特征图；

通过所述神经网络模型中的像素预测网络，对各所述特征图进行特征融合，得到所述待检测图片对应的文本区域分布图和文本中央区域分布图。

3.根据权利要求1所述的方法，其特征在于，所述对所述文本区域分布图中的文本像素进行聚类处理，得到文本像素子集包括：

根据所述文本区域分布图确定属于文本区域的文本像素；

对所述文本区域的文本像素按照像素坐标进行聚类处理，得到多个文本像素子集。

4.根据权利要求1所述的方法，其特征在于，所述对所述文本中央区域分布图中的文本像素进行聚类处理，得到文本中央像素子集包括：

根据所述文本中央区域分布图确定属于文本中央区域的文本像素；

对所述文本中央区域中的文本像素按照像素坐标进行聚类处理，得到多个文本中央像素子集。

5.根据权利要求1所述的方法，其特征在于，基于所述嵌入特征图，将所述文本像素子集中不属于所述文本中央像素子集中的文本像素归类至相应的文本中央像素子集包括：

根据所述嵌入特征图获取各所述文本像素的嵌入特征向量；

确定所述文本像素子集中不属于所述文本中央像素子集中的各文本像素；

基于各所述文本像素的嵌入特征向量，依次计算确定的各所述文本像素与各所述文本中央像素子集对应的平均嵌入特征向量之间的嵌入特征空间距离；

将确定的文本像素归类至对应所述嵌入特征空间距离最小的文本中央像素子集。

6.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练步骤包括：

获取训练集中的样本图片；

根据所述样本图片对应的文本区域分布标准图和文本中央区域分布标准图、通过所述神经网络模型对所述样本图片预测得到的文本区域分布预测图和文本中央区域分布预测图，构造所述神经网络模型中像素预测网络对应的第一损失函数；

根据所述样本图片中各文本片段的尺度系数和各所述文本片段之间的距离系数、通过所述神经网络模型对所述样本图片预测得到的各所述文本片段中文本像素对应的嵌入特征预测向量，构造所述神经网络模型中嵌入特征提取网络对应的第二损失函数；

融合所述第一损失函数和所述第二损失函数，得到所述神经网络模型对应的网络损失函数；

将所述网络损失函数最小化时的模型参数作为所述神经网络模型的模型参数，返回至所述获取训练集中的样本图片的步骤继续训练，直至满足训练结束条件。

7.根据权利要求6所述的方法，其特征在于，所述第一损失函数的构造步骤包括：

获取样本图片对应的文本区域分布标准图和文本中央区域分布标准图；

将所述样本图片输入至所述神经网络模型中，输出相应的文本区域分布预测图和文本中央区域分布预测图；

基于所述文本区域分布标准图与所述文本区域分布预测图计算文本区域损失值、基于所述文本中央区域分布标准图与所述文本中央区域分布预测图计算文本中央区域损失值；

融合所述文本区域损失值和所述文本中央区域损失值，得到第一损失函数。

8.根据权利要求7所述的方法，其特征在于，所述文本区域损失值和所述文本中央区域损失值分别通过以下公式计算得到：

其中，L_FullMap表示所述文本区域损失值，表示所述文本区域分布预测图的文本区域中位于(x,y)的像素属于文本的概率的预测值，表示所述文本区域分布标准图的文本区域中位于(x,y)的像素属于文本的概率的标准值；L_CenterMap表示文本中央区域损失值，表示所述文本中央区域分布预测图的文本中央区域中位于(x,y)的像素属于文本的概率的预测值，表示所述文本中央区域分布标准图的文本中央区域中位于(x,y)的像素属于文本的概率的标准值；∑_x,y表示求和函数。

9.根据权利要求6所述的方法，其特征在于，所述第二损失函数的构造步骤包括：

获取所述样本图片中各文本片段的尺度系数；

获取各所述文本片段之间的距离系数；

将所述样本图片输入至所述神经网络模型中，输出相应的嵌入特征预测图，得到各所述文本片段中文本像素对应的嵌入特征预测向量；

根据各所述文本片段的尺度系数、所包括文本像素对应的嵌入特征预测向量计算各所述文本片段对应的片段内嵌入特征差异量；

根据各所述文本片段对应的嵌入特征预测平均向量之间的差异、各所述文本片段之间的距离系数计算得到相应的片段间嵌入特征差异量；

融合各所述片段内嵌入特征差异量和各所述片段间嵌入特征差异量，得到第二损失函数。

10.根据权利要求9所述的方法，其特征在于，所述获取所述样本图片中各文本片段的尺度系数包括：

获取所述样本图片的最长边对应的像素宽度；

获取所述样本图片中各文本片段中两个像素点之间的最远距离；

根据各所述最远距离以及所述像素宽度计算各所述文本片段对应的尺度系数。

11.根据权利要求9所述的方法，其特征在于，所述片段内嵌入特征差异量是所述文本片段对应嵌入特征差异总量与所述文本片段中像素总数量之商；所述嵌入特征差异总量是所述文本片段中各像素对应的嵌入特征预测向量与所述文本片段的嵌入特征预测平均向量之差与尺度系数相乘后与可容忍的片段内嵌入特征差异量之间的差异之和。

12.根据权利要求9所述的方法，其特征在于，所述片段间嵌入特征差异量是任意两个文本片段对应的嵌入特征预测平均向量与所述任意两个文本片段之间的距离系数相乘后与片段间嵌入特征差异量可容忍的最小值之差。

13.根据权利要求9所述的方法，其特征在于，所述第二损失函数通过将样本图片所包括的各个文本片段对应的片段内嵌入特征差异量之和的平均值与各个文本片段之间的片段间嵌入特征差异量之和的平均值相加得到。

14.一种文本检测装置，其特征在于，所述装置包括：

待检测图片获取模块，用于获取待检测图片；

15.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。