CN111027563A

CN111027563A - 一种文本检测方法、装置及识别系统

Info

Publication number: CN111027563A
Application number: CN201911251792.9A
Authority: CN
Inventors: 刘皓
Original assignee: Tencent Cloud Computing Beijing Co Ltd
Current assignee: Tencent Cloud Computing Beijing Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-17

Abstract

本申请涉及人工智能技术领域，提供一种文本检测方法、装置及识别系统。该方法包括：获取具有文本的待检测图像；确定所述待检测图像中的各个文本子区域，以及确定所述待检测图像中每个字符对应的字符图像块；分别根据每个文本子区域的图像特征矩阵和邻接矩阵，获得文本子区域的拓扑特征图；其中，图像特征矩阵用于描述文本子区域内的各个字符图像块的图像特征，邻接矩阵用于描述文本子区域内各个字符图像块之间的相关度，所述拓扑特征图用于描述文本子区域的图特征；确定每两个拓扑特征图之间的相似度，将相似度满足预设条件的两个文本子区域划分为同一分类；将属于同一分类的文本子区域内的所有字符标注为同一检测框。

Description

一种文本检测方法、装置及识别系统

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本检测方法、装置及识别系统。

背景技术

文本检测可以用于定位图像中的文本。自然场景文本检测属于文本检测中的一种，自然场景文本检测被广泛地应用在各个领域，例如在图像检索、视频分析和自动驾驶等领域。

目前，自然场景文本检测主要通过分割方法来实现，该方法判断图像中属于文本的像素点，然后根据文本像素分布，检测出对应的文本区域。但是自然场景下的两个文本行之间的间距是不确定的，利用分割方法往往不能很好地区分距离较近的文本行，使得文本检测的准确性较差。

发明内容

本申请实施例提供一种文本检测方法、装置、识别系统及设备，用于提高文本检测的准确性。

第一方面，提供一种文本检测方法，包括：

获取具有文本的待检测图像；

确定所述待检测图像中的各个文本子区域，以及确定所述待检测图像中每个字符对应的字符图像块；

分别根据每个文本子区域的图像特征矩阵和邻接矩阵，获得文本子区域的拓扑特征图；其中，图像特征矩阵用于描述文本子区域内的各个字符图像块的图像特征，邻接矩阵用于描述文本子区域内各个字符图像块之间的相关度，所述拓扑特征图用于描述文本子区域的图特征；

确定每两个拓扑特征图之间的相似度，将相似度满足预设条件的两个文本子区域划分为同一分类；

将属于同一分类的文本子区域内的所有字符标注为同一检测框。

第二方面，提供一种文本检测装置，该装置包括：

收发模块，用于获取具有文本的待检测图像；

检测分割模块，用于确定所述待检测图像中的各个文本子区域，以及确定所述待检测图像中每个字符对应的字符图像块；

分类模块，用于分别根据每个文本子区域的图像特征矩阵和邻接矩阵，获得文本子区域的拓扑特征图；其中，图像特征矩阵用于描述文本子区域内的各个字符图像块的图像特征，邻接矩阵用于描述文本子区域内各个字符图像块之间的相关度，所述拓扑特征图用于描述文本子区域的图特征；以及确定每两个拓扑特征图之间的相似度，将相似度满足预设条件的两个文本子区域划分为同一分类；

标注模块，用于将属于同一分类的文本子区域内的所有字符标注为同一检测框。

在一种可能的设计中，所述分类模块具体用于：

针对每个文本子区域，获得文本子区域内的各个字符图像块的图像特征向量；

对文本子区域内对应的图像特征向量进行组合，获得文本子区域的图像特征矩阵，并确定文本子区域的邻接矩阵；

将邻接矩阵和图像特征矩阵输入已训练的图卷积网络模型，获得文本子区域的拓扑特征图。

在一种可能的设计中，所述分类模块具体用于：

确定文本子区域内每两个字符图像块对应的图像特征向量之间的相似度向量，并组合确定出的多个相似度向量，获得相似度矩阵；

对所述相似度矩阵进行归一化处理，获得邻接矩阵。

在一种可能的设计中，所述图卷积网络模型包括依次连接多个变换单元，每个变换单元包括依次连接的归一化层和非线性层，每个变换单元的输出表示如下：

Z＝(ReLU(LayerNorm(GXW))+X

其中，X表示上一个变换单元的输出，G为表示利用X构造的邻接矩阵，W为该变换单元的权重矩阵，LayerNorm表示归一化层，ReLU表示非线性层。

在一种可能的设计中，标注模块具体用于：

确定每一分类下的所有字符图像块中各个字符图像块的中心点，以每个中心点邻近预设数量的字符图像块的高度平均值为半径进行膨胀，获得所述每一分类下的字符图像块对应的初始检测框；

分别对每一初始检测框进行边缘平滑处理，获得每一分类下的检测框。

在一种可能的设计中，字符图像块是通过字符图像块预测模型获得的，所述多个文本子区域是通过图像分割模型获得的；

所述字符图像块预测模型、所述图像分割模型和所述图卷积网络模型是通过如下步骤共同训练得到的：

获取样本数据集；其中，所述样本数据集包括多个样本待检测图像，多个标注有字符图像块的样本待检测图像，多个标注有文本子区域的样本待检测图像，以及多个标注有检测框的样本待检测图像；

利用所述样本数据集训练字符图像块预测模型、图像分割模型和图卷积网络模型，直到总损失满足预设条件，获得已训练的字符图像块预测模型、图像分割模型和图卷积网络模型；

其中，所述总损失是对字符图像块的分类损失、字符图像块的坐标回归损失、文本子区域的分割损失以及文本子区域的分类损失进行加权得到的，所述字符图像块的分类损失用于表示预测的字符图像块分类与真实的字符图像块分类之间的损失，所述坐标回归损失用于表示预测的字符图像块坐标与真实的字符图像块坐标之间的损失，所述分割损失用于表示预测的文本子区域与真实的文本子区域之间的损失，所述文本子区域的分类损失用于表示预测的各个文本子区域的分类结果和真实的各个文本子区域的分类结果之间的损失。

第三方面，提供一种文本识别系统，包括如第二方面所述的文本检测装置和文本识别装置，其中：

所述文本识别装置根据文本检测装置输出的标注有检测框的检测结果，识别出各个检测框中的字符串。

第四方面，提供一种文本检测设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面中任一所述的方法。

第五方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面中任一所述的方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中，本申请实施例通过图卷积网络模型，基于每个文本子区域中的多个字符图像块的图像特征矩阵，以及邻接矩阵，得到每个文本子区域的拓扑特征图，得到的拓扑特征图表示文本子区域内的字符图像块之间的结构关系，因此可以更能准确地表示出各个文本子区域，使得基于拓扑特征图，确定出的各个文本子区域的分类也更加准确，从而可以避免将距离较近的但属于不同类的文本子区域分为一类，也可以避免将距离较远的但属于一类的文本子区域划分为不同类，进而提高了文本检测的准确性。且本申请实施例中将字符图像块作为文本子区域的基本组成单元，确定文本子区域的拓扑特征图，因此可以对任意形状的文本子区域进行特征提取，满足各种文本的检测需求。

附图说明

图1为现有技术的一种利用分割方式实现文本检测的过程示例图；

图2为本申请实施例提供的一种文本检测装置的结构示意图；

图3为本申请实施例提供的一种文本检测方法的应用场景示意图；

图4为本申请实施例提供的另一种文本检测方法的应用场景示意图；

图5为本申请实施例提供的另一种文本检测方法的原理示意图；

图6为本申请实施例提供的一种获得文本子区域的过程示例图；

图7为本申请实施例提供的一种变换单元的处理过程示意图；

图8为本申请实施例提供的一种训练模型的过程示例图；

图9为本申请实施例提供的一种文本检测方法的交互示意图；

图10为本申请实施例提供的一种文本检测装置的结构示意图；

图11为本申请实施例提供的一种文本检测设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

应当说明的是，本申请实施例中的多个是指两个或两个以上。

为了便于本领域技术人员更好地理解本申请实施例，下面对本申请涉及的专业术语进行解释。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

光学字符识别(Optical Character Recognition，OCR)技术：电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过一定技术手段将字符翻译成计算机文字的过程，随着人工智能的发展，越来越多的人工智能技术结合应用到OCR技术中，提高OCR识别的准确率以及效率等。

自然场景文本检测：自然场景文本检测可以理解为OCR技术中的一种应用，用于检测出自然图像中的文本。

文本：泛指使用字符形成的内容，例如英文片段，中文片段，或者英文混合的片段。

字符：类字形或字形单位或符号，例如汉字、字母、数字、运算符号、标点符号和其他符号等。

文本子区域：是指对图像中文本区域进行分割之后，获得的子区域，每个子区域均包括字符，每个子区域的形状可能是规则的，也可能是不规则的。

字符图像块：是指对应具有一个字符的图像区域，该字符图像块包括字符图像块的图像信息，也包括字符图像块对应的几何信息，例如字符图像块的大小，以及字符图像块的边界的坐标等。字符图像块可以是一个规则的区域，也可以是一个不规则的区域，例如用检测器标注出单字框，那么单字框所对应的区域即为字符图像块。

图特征：包括点的信息，以及边的信息，本申请实施例中的图特征用于表示文本子区域中的各个字符图像块之间的结构关系，这里的结构关系可以理解为每个字符图像块的特征信息(相当于点的信息)，以及该字符图像块的邻居字符图像块的特征信息(相当于边的信息)。

下面对本申请实施例的设计思想进行介绍。

下面先对现有技术中使用分割实现文本检测的方式进行介绍。

以语义分割为例，确定自然场景文本中属于文本的像素，提取同类的像素的边界，从而获得各个文本区域的边界框。但是自然场景文本的文本行之间的距离是不确定的，因此这种分割方式容易将距离较近的两个文本行分割到一个区域，距离较远的一个文本行反而被分割到两个区域，导致检测结果准确性较低。

例如，请参照图1，表示利用分割实现文本检测的方法，图1中a表示自然场景文本图像，由于图1中a中的“Para”和“dise”之间的距离较远，因此在分割过程中，会将“Para”划分为一个文本区域，“dise”划分为一个文本区域，分割结果如图1中b所示，“Para”对应第一检测框101，“dise”对应第二检测框102，如果后续基于该检测结果进行文字识别，则会单独识别“Para”和“dise”，使得最终获得的识别结果准确性差。

鉴于此，本申请发明人设计一种文本检测方法，该方法先获得待检测图像中的多个文本子区域，以及待检测图像中多个字符图像块，因为多个文本子区域以及多个字符图像块均是来源于待检测图像，所以实际上每个字符图像块均会属于对应的文本子区域。

这时，将每个文本子区域作为一个图，每个文本子区域中各个字符图像块作为该文本子区域的节点，利用图卷积网络(graph convolutional neural network，GCN)的思想，获得一个文本子区域内的多个字符图像块的图像特征，以及多个字符图像块之间的邻接矩阵，将一个文本子区域内的多个字符图像块的图像特征矩阵和邻接矩阵输入到已训练的GCN模型中，从而得到一个文本子区域的拓扑特征图，依次类推，就可以获得多个文本子区域中每个文本子区域的拓扑特征图。

基于确定出的拓扑特征图，确定任意两个拓扑特征图的相似度，如果相似度满足预设条件，那么表示这两个文本子区域中的字符图像块的分布结构以及字符图像块的特征均相近，因此将相似度满足预设条件的两个文本子区域归为一类，从而得到更准确的检测结果。

在介绍完本申请实施例的主要设计思想之后，下面对本申请实施例涉及的应用场景进行示例说明。

本申请实施例中的文本检测方法可以通过文本检测装置来实现，请参照图2，表示文本检测装置200的结构示例图，该文本检测装置200包括一个或多个输入设备201、一个或多个处理器202、一个或多个存储器203和一个或多个输出设备204。

输入设备201用于提供输入接口，以获取外界设备/用户输入的具有文本的待检测图像等。在获得待检测图像之后，输入设备201将该待检测图像发送给处理器202，处理器202利用存储器203中存储的程序指令，实现对待检测图像进行文本检测，获得文本检测结果。通过输出设备204输出文本检测结果。

其中，输入设备201可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器202可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。存储器203可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器203也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器203是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器203可以是上述存储器的组合。输出设备204例如显示器、扬声器和打印机等等。

在可能的实施例中，文本检测装置200可以是用户端设备，也可以是服务端设备。用户端设备可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，文本检测装置200能够支持任意类型的针对用户的接口(例如可穿戴设备)等。服务端设备可以是各种服务提供的服务器、大型计算设备等。服务器可以是一个或多个服务器。服务器也可以是实体服务器或虚拟服务器等。

请参照图3，表示一种文本检测装置的应用场景示例图，也可以表示为一种文本识别系统的结构图，该识别系统300中包括文本检测装置200和文本识别装置310，文本检测装置200在获得文本检测结果之后，可以将文本检测结果输出给文本识别装置310，由文本识别装置310识别出具体的文字并显示。

进一步的，文本识别装置310还可以对文字进行转换，例如翻译等，从而获得用户想要的结果。

请参照图4，表示一种文本检测装置的应用场景示例图，该应用场景中包括服务器420、终端设备410、以及安装在终端设备410中的客户端411。客户端411用于表示具有文本处理功能的客户端，例如翻译类客户端、搜索网页版客户端等。客户端411通过网络与服务器420进行通信，网络的类型有多种，本申请不限制通信方式。该应用场景中的服务器420相当于设置有实现前文中的文本识别装置200，或者设置有前文论述的文本检测装置200和文本识别装置310。本申请中的终端设备410例如手机、个人计算机、摄像机、车载终端等。服务器420的具体实现方式可以参照前文论述的内容，此处不再赘述。

用户通过终端设备410中客户端411选择待检测图像，客户端411获取待检测图像，服务器420接收该待检测图像，通过对待检测图像进行上述处理，获得文本检测结果，并将文本检测结果返回给客户端411。客户端411泛指可以实现图像风格转换的客户端411，客户端411例如拍照App、图像处理APP等，本申请不限制客户端411的具体类型。

或者，在获得文本检测结果之后，服务器420可以对文本检测结果进行文本识别，将文本识别结果反馈给客户端411，或者对文本识别结果进一步处理，再反馈给客户端411。

下面对本申请实施例中文本检测方法的原理进行介绍。

请参照图5，表示该文本检测方法的原理示意图，文本检测过程主要包括S510：确定字符图像块部分、S520：确定文本子区域部分、S530：确定分类部分和S540：确定检测框部分，下面结合图5，对各个部分进行介绍。

S510，确定字符图像块部分:

确定字符图像块部分主要用于确定出待检测图像中多个字符图像块，也就是说，标注出待检测图像中每个字符。文本检测装置200可以利用字符图像块预测模型(也可以称为单字框预测模型)，确定待检测图像中的多个字符图像块。字符图像块预测模型实质可以理解为检测器，对检测出的字符标注一个单字框，单字框的形状可以是任意的，以矩形框偏多。

在一种可能的实施例中，字符图像块预测模型例如可以采用区域生成网络(RegionProposal Network，RPN)模型来实现。

具体的，RPN模型会预定很一个尺寸或多个尺寸的锚框，对待检测图像进行滑窗处理，生成每个目标候选框内对应的是单字符的概率，将属于单字符的概率值大于预设阈值的目标候选框确定为字符图像块。

例如，RPN的网络模型例如包括依次连接的卷积层、Relu层、Reg层和Cls层。请参照图6，表示RPN模型处理过程示意图，卷积层对待检测图像进行卷积处理，获得1*1*256维的特征图610。对特征图610进行滑窗620处理，生成K个可能的目标候选框630，Reg层预测K个目标候选框的位置偏移，这里以矩形候选框为例，因此每个候选框对应4个位置偏移量，从而获得4K个位置偏移量，Cls层预测K个目标候选框630是否包括单字符，因为每个目标候选框包括两种结果的概率，一种属于单字符的概率，一种不属于单字符的概率，因此可以获得2K个概率值，从而基于2K个概率值确定出对应的字符图像块。

例如，请继续参照图5，待检测图像如图5中a所示，确定待检测图像中字符图像块之后，就可以获得如图5中b所示的图像，图5中b中的图像中各个字符被候选框标注，相当于获得各个字符图像块。

S520，确定文本子区域部分：

确定文本子区域部分主要用于确定待检测图像中的文本区域进行划分，划分方式可以利用图像分割的思想，对待检测图像进行处理。下面对确定文本子区域的具体方式进行示例说明。

在一种可能的实施例中，可以通过图像分割模型获得多个文本子区域，图像分割模型例如可以确定出待检测图像中各个像素的分类，这里的分类包括属于字符，还是不属于字符两种分类。在确定待检测图像中每个像素的分类之后，就可以确定出属于字符的所有像素集合，然后根据对属于字符的所有像素集合进行划分，从而获得多个文本子区域。图像分割模型例如可以采用实例分割模型，分割模型例如编码-解码模型等。

例如，请继续参照图5，待检测图像如图5中a所示，待检测图像中包括多个行文本。确定待检测图像中确定文本子区域之后，就可以获得如图5中c所示的图像，图5中c所示的图像，该图像中包括各个文本子区域。

S530，确定分类部分：

多个字符图像块以及多个文本子区域均是来源于待检测图像，因此，各个字符图像块必然是属于某个文本子区域的，因此，可以确定出每个文本子区域包括的所有字符图像块，这些字符图像块可以代表了该文本子区域。

在一种可能的实施例中，针对多个字符图像块中每个字符图像块，确定每个字符图像块与一文本子区域的重叠的面积与每个字符图像块的面积的比值；若比值大于预设值，则确定每个字符图像块属于一文本子区域。

具体的，在获得多个字符图像块以及多个文本子区域之后，可以确定出每个字符图像块和每个文本子区域的交叠面积，如果该交叠面积与该字符图像块的面积比值大于预设值，那么表示这个字符图像块和该文本子区域存在大面积的重复，因此确定出该字符图像块实际上属于该文本子区域。例如一种具体确定方式如下：

area(Cn)∩area(Rm)/area(Cn)>0.8 (1)

其中，Cn表示一个字符图像块，Rm表示一个文本子区域。

在确定出各个字符图像块和文本子区域之间的所属关系之后，可以提取文本子区域的特征。由于文本子区域通常是不太规则的，采用传统的卷积神经网络很难准确地提取出这些文本子区域的特征，所以本申请利用GCN模型提取文本子区域内的字符图像块进行建模提取特征，从而达到对文本子区域进行分类的目的。

具体的，GCN模型的实质是学习每个文本子区域内的所有字符图像块特征，以及各个字符图像块之间的相关度，从而确定出该文本子区域的拓扑特征图。其中涉及到如何去表达文本子区域内的所有字符图像块特征，以及该文本子区域内的各个字符图像块之间的相关度，下面进行示例说明。

表达文本子区域内的所有字符图像块特征：

可以采用该文本子区域内的图像特征矩阵表示文本子区域内的所有字符图像块特征。

具体的，由于前文中已经确定出该文本子区域内包括的所有字符图像块，因此直接对每个字符图像块进行特征提取，提取每个文本子区域内所有字符图像块中每个字符图像块的图像特征向量，例如一字符图像块的图像特征向量可以表示为：X1＝{x1，x2…，xn}。特征提取方式有很多种，例如采用感兴趣区域池化(region of interest pooling，ROIpooling)方式。在获得该文本子区域内所有字符图像块中每个字符图像块的图像特征向量之后，可以将所有字符图像块的图像特征向量组合，获得图像特征矩阵。组合方式例如可以是一个字符图像块的图像特征向量作为矩阵的一行，依次类推，从而获得图像特征矩阵，例如一文本子区域内的图像特征矩阵可以表示为

各个字符图像块之间的相关度：

可以采用邻接矩阵用于表达该文本子区域内的各个字符图像块之间的相关度。

具体的，文本检测装置200确定每个文本子区域内每两个字符图像块对应的图像特征向量的相似度向量，组合确定出的多个相似度向量，获得相似度矩阵进行归一化处理，获得邻接矩阵。归一化处理过程可以通过归一化函数(softmax)实现。

例如，采用余弦相似度确定每两个字符图像块对应的图像特征向量的相似度，获得多个相似度，将多个相似度组成相似度矩阵，对该相似度矩阵进行归一化，从而获得邻接矩阵。

或者例如，采用如下公式计算每两个字符图像块之间的相似度向量：

F(X_i,X_j)＝φ(X_i)^Tφ’(X_j) (2)

其中，X_i表示一字符图像块的图像特征向量，X_j表示另外一字符图像块的图像特征向量，φ和φ’表示两种不同的非线性变换。

例如，φ可以通过一个或多个全连接层实现，φ’也可以通过一个或多个全连接层实现，利用全连接层根据两个字符的图像特征向量映射到非线性空间。

如果不对相似度矩阵进行规范化处理，在后续处理时，各个字符更倾向于有更大的特征值，因此可以对相似度矩阵进行归一化处理，获得更为标准的邻接矩阵。

G＝Softmax(F) (3)

在获得邻接矩阵以及图像特征矩阵之后，可以将该邻接矩阵和图像特征矩阵输入GCN模型中。

作为一种实施例，GCN模型包括依次连接的至少两个变换单元，每个变换单元包括一个或多个层，每个变换单元共享相同的计算方式。

在一种可能的实施例中，每个变换单元的输出可以表示如下：

Z＝(ReLU(LayerNorm(GXW))+X (4)

其中，X表示上一个变换单元的输出，G为表示利用上一个变换单元的输出X构造的邻接矩阵，W为该变换单元的权重矩阵，LayerNorm表示归一化层，ReLU表示非线性层，Z表示该变换单元的输出。

请参照图7，表示GCN模型中的传递过程示意图。针对GCN模型中的第一变换单元的X也就是前文论述的图像特征矩阵，第一变换单元的G也就是前文论述的邻接矩阵。第一变换单元利用权重矩阵W对GX进行卷积处理，再进行归一化处理，再进行非线性变换处理，然后再基于非线性变换处理结果加上图像特征矩阵，从而获得该第一变换单元的输出结果Z。当然，实际上在对GXW进行非线性变换之后，就可以作为输出结果。但利用非线性变换之后的结果加上图像特征矩阵，就可以保留各个字符图像块的图像特征。

第一变换单元的输出结果为Z，Z实际上也是一个矩阵，可以基于Z构造第二变换单元的邻接矩阵，下面对构造第二变换单元的邻接矩阵的方式进行示例说明。

例如，第一变换单元输出的

此时的Z作为第二变换单元的输入X，将K1…Km分别作为公式(2)中的变量，确定出Z中每两个向量之间的相似度向量，依次类推，获得相似度矩阵，然后基于公式(3)对该相似度矩阵进行归一化处理，从而获得第二变换单元的邻接矩阵，然后第二变换单元再对该邻接矩阵以及Z进行处理，获得第二变换单元的输出结果，依次类推，获得GCN模型中最后一层的输出，获得该文本子区域的拓扑特征图R^G ₁。

由于GCN模型是对各个字符图像块的特征以及各个字符图像块之间的相互关系进行处理，因此最后得到的拓扑特征图实际上包括了文本子区域内各个字符图像块的图像特征，以及各个字符图像块之间的相互关系。

前文论述了针对一文本子区域的处理过程，针对其它文本子区域的处理过程可以参照前文论述的内容，此处不再赘述。在对所有文本子区域处理之后，就可以获得每个文本子区域的拓扑特征图。

在获得各个文本子区域的拓扑特征图之后，可以确定每两个文本子区域的拓扑特征图的相似度，可以将相似度满足预设条件的两个文本子区域确定为同一分类，预设条件可以是相似度大于或等于预设阈值，依次类推，就可以获得哪些文本子区域属于同一分类。分类例如可以是这些文本子区域是否属于一个文本行等。

作为一种实施例，确定每两个文本子区域的拓扑特征图的相似度可以是确定每两个文本子区域的拓扑特征图的余弦相似度。

在获得各个拓扑特征图之后，文本检测装置200在确定各个文本子区域的分类之后，也就相当于确定了各个文本子区域中字符图像块的分类。

作为一种实施例，可以为不同分类的文本子区域标注不同的标识，以区分不同的类别的文本子区域。不同的标识例如不同的颜色等。

例如，请继续参照图5，对图5中b所示的图像和图5中c所示的图像进行处理之后，就可以获得图5中e所示的图像，该图像中以不同颜色区分不同的分类，也就相当于确定出了各个字符图像块的分类，因此同时可以获得如图5中d所示的图像，d中以不同颜色的标注框示意出不同类别的字符图像块。

S540，确定检测框：

文本检测装置200在确定各个字符图像块的分类之后，就可以将属于同一分类的文本子区域划分在一起，从而获得对应分类下的检测框。

作为一种实施例，可以用一检测框将属于同一分类的字符图像块标注在一起。如前文论述的内容，已确定出各个文本子区域的分类，也就相当于获得各个字符图像块所对应的分类，然后将属于同一类的字符图像块标注在一个检测框中，从而实现对所有字符图像块的准确分类。

作为一种实施例，可以确定属于同类别的字符图像块中各个字符图像块的中心，以中心点邻近预设数量的字符图像块的高度的平均值为半径进行膨胀，或者也可以以中心点邻近预设数量的字符图像块的高度的最大值为半径进行膨胀，获得该分类对应的初始检测框。预设数量例如为3。

具体的，确定同类别的字符图像块中各个字符图像块的中心为骨架线，以每个字符图像块中心周围邻近预设数量的字符图像块的高度的平均值或最大值为半径进行膨胀，从而获得该分类对应的初始检测框。例如可以沿着骨架线的法线方向进行膨胀。

在本申请实施例中，以预设数量的字符图像块为处理单元，这样一来，每个处理单元对应的半径实际上都不完全相同，从而可以使得获得的检测框大小不完全一致，且能适应任意形状或大小的文本检测。

进一步地，由于每预设数量的字符图像块对应的半径不同，因此可能导致标注出的初始检测框的形状可能是多边形，因此可以对初始检测框进行边缘平滑处理，获得线条较为平滑的检测框。边缘平滑处理例如使用薄板样条插值法(Thin Plate Spline，TPS)，TPS是以最小曲率面控制拟合控制点，利用控制点对初始检测框中的坐标点进行变换。

前文介绍了各部分的处理过程，下面对各部分涉及到的模型的训练过程进行示例说明。

字符图像块预设模型、图像分割模型以及图卷积网络模型可以是分别单独训练得到的，如果三个模型分别训练，则只需各个模型的损失满足该模型训练过程中的损失即可。字符图像块预设模型、图像分割模型以及图卷积网络模型也可以是共同训练得到的，下结合图8中训练过程的示例图对共同训练的方式进行说明。

第一部分：

获取样本数据集810。

样本数据集810包括多个样本待检测图像，多个标注有字符图像块的样本待检测图像，多个标注有文本子区域的样本待检测图像，以及多个标注有检测框的样本待检测图像。样本数据集810可以是由用户手动标注的，也可以是从网络资源上去获取样本数据集810。

第二部分：

利用样本数据集810训练字符图像块预设模型、图像分割模型以及图卷积网络模型，直到总损失满足预设条件，完成模型训练。

具体的，总损失可以是对字符图像块的分类损失、字符图像块的坐标回归损失、文本子区域的分割损失以及文本子区域的分类损失加权得到的。预设条件可以是总损失小于或等于预设值，或者是字符图像块的分类损失、字符图像块的坐标回归损失、文本子区域的分割损失以及文本子区域的分类损失中每个损失均小于或等于对应的预设值。

其中，字符图像块的坐标回归损失用于表示预测的字符图像块的坐标和字符图像块真实坐标之间的损失，预测的字符图像块的坐标可以理解为字符图像块预设模型输出的训练结果820，真实的字符图像块坐标可以理解为标注有字符图像块的样本待检测图像对应的字符图像块的坐标。

文本子区域的分割损失用于表示预测的文本子区域与真实的文本子区域之间的损失，预测的文本子区域可以理解为图像分割模型的输出结果830，真实的文本子区域可以理解为标注的文本子区域的样本待检测图像所对应的文本子区域。

文本子区域的分类损失用于表示预测的各个文本子区域内的分类结果和真实的各个文本子区域的分类结果之间的损失，预测的各个文本子区域内的分类结果可以理解为依据图卷积网络模型的输出拓扑特征图，确定出的属于同一分类的文本子区域的分类结果840，各个文本子区域对应的真实分类结果可以理解为标注有检测框的样本待检测图像中各个文本子区域对应的分类。

字符图像块的分类损失用于表示预测的字符图像块所属分类和真实的字符图像块分类之间的损失，预测的字符图像块所属分类可以理解为依据图卷积网络模型的输出拓扑特征图，确定出的属于同一分类的各个字符图像块的分类结果840，真实的字符图像块分类可以理解为标注有检测框的样本待检测图像中各个字符图像块对应的分类。

作为一种实施例，文本子区域的分类损失可以利用交叉熵损失函数表示，本子区域的分类损失可以采用对比损失(contrastive loss)，也就是将预测的每个文本子区域的分类与真实的文本子区域的分类进行对比。

在一种可能的实施例中，图卷积网络模型中的模型参数可以选用经验值，无需提前训练。

在一种可能的实施例中，上述模型训练的过程可以是其它设备执行，在其它设备训练完成之后，文本检测装置200直接使用。

本申请实施例中的文本检测的召回、精度以及F-measure指标上表现较好，F-measure指标可以理解为精度和召回的加权调和平均，经验证，本申请实施例中的文本检测方法的精度可以达到89.7，召回可以达到85.3，F-measure指标可以达到87.9。

在前文论述的文本检测原理的基础上，下面对本申请涉及的文本检测方法进行示例说明，在本申请实施例中，文本检测装置200以服务器420为例进行说明。

请参照图9，表示本申请实施例中的一种文本检测方法。

S901，终端设备410响应于用户的输入操作，获取待检测图像。

具体的，用户可以在终端设备410的客户端411上进行界面输入操作，例如用户进行点击操作，或者用户进行语音操作，或者用户进行手势操作等，选择输入对应的待检测图像，终端设备410相当于获得待检测图像。

作为一种实施例，用户可以选择终端设备410中预存的图像作为待检测图像，比如用户拍摄了一张具有文本的图像，进行上传，以获取这些文本的翻译结果等，或者终端设备410在满足预设条件下，拍摄当前实景，作为待检测图像，预设条件例如用户下达拍摄操作指令，或者例如终端设备410当前所处的环境参数不满足预设范围值，比如终端设备410为车载终端，在环境亮度较暗，终端设备410拍摄前文的指路牌，以便于用户或车辆识别前方道路。比如车内有害气体浓度过高、或者温度过高的情况下，终端设备410可以自动拍摄实景，作为待检测图像，以便于后期查验交通事故等。

S902，终端设备410将待检测图像发送给服务器420。

具体的，终端设备410获取待检测图像之后，通过网络将待检测图像发送给服务器420。

S903，服务器420确定待检测图中多个文本子区域，以及确定待检测图像中多个字符图像块。

具体的，服务器420可以利用前文论述的图像分割模型，获得多个文本子区域。服务器420可以利用前文论述的字符图像块预测模型，获得多个字符图像块。

在一种可能的实施例中，服务器420可以对待检测图像进行特征提取，并对特征提取结果进行上采样处理，获得预处理特征图，再将该预处理特征图分别输入图像分割模型和字符图像块预测模型，从而获得多个文本子区域以及多个字符图像块。

作为一种实施例，服务器420可以通过50层残差网络(Res50)对待检测图像进行特征提取，获得特征提取结果。服务器420再通过特征金字塔网络对特征提取结果进行多次上采样处理，例如三次，从而获得预处理特征图。预处理特征图的大小可以控制为待检测图像大小的1/4。

S904，服务器420将文本子区域的图像特征矩阵、邻接矩阵输入图卷积网络模型，获得拓扑特征图。

在一种可能的实施例中，获得属于每个文本子区域内的所有字符图像块中每个字符图像块的图像特征向量；组合每个文本子区域内的所有字符图像块的特征向量，获得图像特征矩阵，并确定每个文本子区域的邻接矩阵；其中，字符图像块的图像特征矩阵是由每个文本子区域内包括的所有字符图像块的图像特征向量构成；将邻接矩阵和图像特征矩阵输入已训练的图卷积网络模型，获得每个文本子区域的拓扑特征图。

作为一种实施例，确定每个文本子区域内每两个字符图像块对应的图像特征向量的相似度向量，并组合确定出的多个相似度向量，获得相似度矩阵；对相似度矩阵进行归一化处理，获得邻接矩阵。

获得图像特征矩阵和邻接矩阵的方式还可以参照前文论述的内容，此处不再赘述。在获得图像特征矩阵和邻接矩阵，服务器420可以将每个文本子区域的图像特征矩阵和邻接矩阵输入图卷积网络模型，从而获得该文本子区域的拓扑特征图，从而获得各个文本子区域对应的拓扑特征图。

作为一种实施例，图卷积网络模型可以是服务器420提前训练得到的，也可以是由其它设备提前训练的。

S905，服务器420根据各个拓扑特征图，确定各个文本子区域的分类。

具体的，服务器420确定各个拓扑特征图之间的相似度，可以将相似度大于或等于预设阈值的两个文本子区域划分为同一类，依次类推，从而确定出各个文本子区域对应的分类结果。服务器420可以确定各个拓扑特征图之间的相似度余弦相似度，将余弦相似度大于或等于预设阈值的文本子区域划分为一类。

S906，服务器420将属于同一分类的文本子区域标注在同一检测框内。

具体的，服务器420将属于一个分类的文本子区域用一个检测框标注出来，从而就可以获得待检测图像中对应的各个检测框。

作为一种实施例，服务器420可以直接将检测框标注结果发送给终端设备410。

S907，服务器420识别检测框内的文本。

具体的，服务器420可以根据检测结果，对每个检测框内中的字符进行识别，从而待检测图像中的文本。

作为一种实施例，服务器420还可以对该文本进行翻译等，获得文本翻译结果。

S908，服务器420将识别出的文本发送给终端设备410。

终端设备410获取该文本或文本翻译结果之后，显示该文本或文本翻译结果。

作为一种实施例，S901-S902、S906、S907为可选的三部分。

基于同一发明构思，本申请实施例提供一种文本检测装置，请参照图10，该文本检测装置200包括：

收发模块1001，用于获取具有文本的待检测图像；

检测分割模块1002，用于确定待检测图像中的各个文本子区域，以及确定待检测图像中每个字符对应的字符图像块；

分类模块1003，用于分别根据每个文本子区域的图像特征矩阵和邻接矩阵，获得文本子区域的拓扑特征图；其中，图像特征矩阵用于描述文本子区域内的各个字符图像块的图像特征，邻接矩阵用于描述文本子区域内各个字符图像块之间的相关度，拓扑特征图用于描述文本子区域的图特征；以及确定每两个拓扑特征图之间的相似度，将相似度满足预设条件的两个文本子区域划分为同一分类；

标注模块1004，用于将属于同一分类的文本子区域内的所有字符标注为同一检测框。

在一种可能的实施例中，检测分割模块1002具体用于：

对待检测图像进行特征提取，并对特征提取结果进行上采样处理，获得预处理特征图；

对预处理特征图中属于文本的像素进行区域划分，获得待检测图像的各个文本子区域，以及检测预处理特征图中各个字符，确定待检测图像中每个字符对应的字符图像块。

在一种可能的实施例中，检测分割模块1002还用于：

在根据每个文本子区域的图像特征矩阵，以及每个文本子区域的邻接矩阵，获得每个文本子区域的拓扑特征图之前，针对每个字符图像块，确定第一面积和第二面积的比值大于预设值的文本子区域为字符图像块属于的文本子区域；其中，第一面积为字符图像块与文本子区域的重叠区域的面积，第二面积为字符图像块的面积。

在一种可能的设计中，分类模块1003具体用于：

对相似度矩阵进行归一化处理，获得邻接矩阵。

在一种可能的设计中，图卷积网络模型包括依次连接多个变换单元，每个变换单元包括依次连接的归一化层和非线性层，每个变换单元的输出表示如下：

Z＝(ReLU(LayerNorm(GXW))+X

在一种可能的设计中，标注模块1004具体用于：

确定每一分类下的所有字符图像块中各个字符图像块的中心点，以每个中心点邻近预设数量的字符图像块的高度平均值为半径进行膨胀，获得每一分类下的字符图像块对应的初始检测框；

在一种可能的设计中，字符图像块是通过字符图像块预测模型获得的，多个文本子区域是通过图像分割模型获得的；

字符图像块预测模型、图像分割模型和图卷积网络模型是通过如下步骤共同训练得到的：

获取样本数据集；其中，样本数据集包括多个样本待检测图像，多个标注有字符图像块的样本待检测图像，多个标注有文本子区域的样本待检测图像，以及多个标注有检测框的样本待检测图像；

利用样本数据集训练字符图像块预测模型、图像分割模型和图卷积网络模型，直到总损失满足预设条件，获得已训练的字符图像块预测模型、图像分割模型和图卷积网络模型；

其中，总损失是对字符图像块的分类损失、字符图像块的坐标回归损失、文本子区域的分割损失以及文本子区域的分类损失进行加权得到的，字符图像块的分类损失用于表示预测的字符图像块分类与真实的字符图像块分类之间的损失，坐标回归损失用于表示预测的字符图像块坐标与真实的字符图像块坐标之间的损失，分割损失用于表示预测的文本子区域与真实的文本子区域之间的损失，文本子区域的分类损失用于表示预测的各个文本子区域的分类结果和真实的各个文本子区域的分类结果之间的损失。

基于同一发明构思，本申请实施例提供一种文本识别系统，请继续参照图3，该文本识别系统300包括：

包括前文论述的文本检测装置200和文本识别装置310，其中：

文本识别装置310根据文本检测装置200输出的标注有检测框的检测结果，识别出各个检测框中的字符串。

本申请实施例中的文本检测装置200可以实现前文论述的任意一种文本检测方法。

基于同一发明构思，本申请实施例提供一种文本检测设备，请参照图11，该文本检测设备1100以通用计算设备的形式表现。文本检测设备1100的组件可以包括但不限于：至少一个处理器1110、至少一个存储器1120、连接不同系统组件(包括处理器1110和存储器1120)的总线1130。

总线1130表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1120可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。

存储器1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1126，这样的程序模块1125包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1110用于执行存储器1120存储的程序指令等实现前文论述的文本检测方法。

文本检测设备1100也可以与一个或多个外部设备1140(例如键盘、指向设备等)通信，还可与一个或者多个使得终端设备能与文本检测设备1100交互的设备通信，和/或与使得该文本检测设备1100能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，文本检测设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1160通过总线1130与用于文本检测设备11000的其它模块通信。应当理解，尽管图中未示出，可以结合文本检测设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

作为一种实施例，图11中的文本检测设备可以实现前文论述的任一的文本检测装置200的功能，或实现前文论述的文本检测方法。

作为一种实施例，图11中的文本检测设备可以用于实现前文论述的服务器420的功能。

基于同一发明构思，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当计算机指令在计算机上运行时，使得计算机执行如前文论述的文本检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本检测方法，其特征在于，包括：

获取具有文本的待检测图像；

2.如权利要求1所述的方法，其特征在于，确定所述待检测图像中的各个文本子区域，以及确定所述待检测图像中每个字符对应的字符图像块，包括：

对所述待检测图像进行特征提取，并对特征提取结果进行上采样处理，获得预处理特征图；

对所述预处理特征图中属于文本的像素进行区域划分，获得所述待检测图像的各个文本子区域，以及检测所述预处理特征图中各个字符，确定所述待检测图像中每个字符对应的字符图像块。

3.如权利要求1所述的方法，其特征在于，在根据每个文本子区域的图像特征矩阵，以及每个文本子区域的邻接矩阵，获得每个文本子区域的拓扑特征图之前，包括：

针对每个字符图像块，确定第一面积和第二面积的比值大于预设值的文本子区域为字符图像块属于的文本子区域；其中，所述第一面积为字符图像块与文本子区域的重叠区域的面积，所述第二面积为字符图像块的面积。

4.如权利要求1所述的方法，其特征在于，分别根据每个文本子区域的图像特征矩阵和邻接矩阵，获得文本子区域的拓扑特征图，包括：

5.如权利要求4所述的方法，其特征在于，确定文本子区域的邻接矩阵，包括：

对所述相似度矩阵进行归一化处理，获得邻接矩阵。

6.如权利要求4所述的方法，其特征在于，所述图卷积网络模型包括依次连接多个变换单元，每个变换单元包括依次连接的归一化层和非线性层，每个变换单元的输出表示如下：

Z＝(ReLU(LayerNorm(GXW))+X

7.如权利要求1-6任一所述的方法，其特征在于，将属于同一分类的文本子区域内的所有字符标注为同一检测框，包括：

8.如权利要求4-6任一所述的方法，其特征在于，字符图像块是通过字符图像块预测模型获得的，所述多个文本子区域是通过图像分割模型获得的；

9.一种文本检测装置，其特征在于，包括：

收发模块，用于获取具有文本的待检测图像；

分类模块，分别根据每个文本子区域的图像特征矩阵和邻接矩阵，获得文本子区域的拓扑特征图；其中，图像特征矩阵用于描述文本子区域内的各个字符图像块的图像特征，邻接矩阵用于描述文本子区域内各个字符图像块之间的相关度，所述拓扑特征图用于描述文本子区域的图特征；以及确定每两个拓扑特征图之间的相似度，将相似度满足预设条件的两个文本子区域划分为同一分类；

10.如权利要求9所述的装置，其特征在于，所述检测分割模块具体用于：

11.如权利要求9所述的装置，其特征在于，所述检测分割模块还用于：

12.一种文本识别系统，其特征在于，包括如权利要求9-11任一所述的文本检测装置和文本识别装置，其中：

13.一种文本检测设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1-8中任一所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-8中任一所述的方法。