CN112818986A - 基于深度关系推理的文本检测方法、装置、系统及介质 - Google Patents

基于深度关系推理的文本检测方法、装置、系统及介质 Download PDF

Info

Publication number
CN112818986A
CN112818986A CN202110121080.6A CN202110121080A CN112818986A CN 112818986 A CN112818986 A CN 112818986A CN 202110121080 A CN202110121080 A CN 202110121080A CN 112818986 A CN112818986 A CN 112818986A
Authority
CN
China
Prior art keywords
text
reasoning
network
rectangular
text detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110121080.6A
Other languages
English (en)
Inventor
李天驰
孙悦
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dianmao Technology Co Ltd
Original Assignee
Shenzhen Dianmao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dianmao Technology Co Ltd filed Critical Shenzhen Dianmao Technology Co Ltd
Priority to CN202110121080.6A priority Critical patent/CN112818986A/zh
Publication of CN112818986A publication Critical patent/CN112818986A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于深度关系推理的文本检测方法、装置、系统及存储介质,方法包括:获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;根据所述矩形组件的几何属性生成若干个局部图;通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。本发明实施例在估计待检测文本图像中矩形组件的几何属性后生成局部图,针对局部图进一步执行深度关系推理建立矩形组件之间的链接以得到文本检测结果,利用深度关系推理来挖掘这些组件区域之间的稳定关系能极大的提高任意形状文本检测的性能。

Description

基于深度关系推理的文本检测方法、装置、系统及介质
技术领域
本发明涉及文本检测技术领域,尤其涉及基于深度关系推理的文本检测方法、装置、系统及存储介质。
背景技术
场景文本检测已广泛应用于各种应用程序,例如在线教育、产品搜索、即时翻译和视频场景解析等等。随着深度学习的逐渐发展,文本检测算法在受控的环境下,例如文本实例具有规则的形状或长宽比能达到很好的效果,但是由于文本表示形式的限制,往往无法识别任意形状的文本。
近些年一些方法尝试采用连通域策略来解决这个问题,然而,这些方法无法获得文本组件之间的更丰富的关系,从而无助于文本实例的聚合,而且现有方法中通常使用常规卷积神经网络,随着网络的加深也容易出现梯度消失或爆炸的问题,降低了任意形状文本检测的性能。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供基于深度关系推理的文本检测方法、装置、系统及存储介质,旨在解决现有技术中的任意形状的文本检测性能不高的问题。
本发明的技术方案如下:
一种基于深度关系推理的文本检测方法,其包括如下步骤:
获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;
根据所述矩形组件的几何属性生成若干个局部图;
通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。
所述的基于深度关系推理的文本检测方法中,所述获取待检测文本,通过预先构建并训练的文本组件网络对所述待检测文本中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络,包括:
构建并训练文本组件预测网络,所述文本组件预测网络采用跨层连接的卷积神经网络;
获取待检测文本图像并将其输入至所述文本组件预测网络,对所述待检测文本图像进行图像特征提取和文本框预测后得到若干个矩形组件;
对所述矩形组件的几何属性进行估计并输出估计结果。
所述的基于深度关系推理的文本检测方法中,所述构建并训练文本组件预测网络,所述文本组件预测网络采用跨层连接的卷积神经网络,包括:
构建用于文本组件预测的跨层连接的卷积神经网络,以及用于训练所述卷积神经网络的损失函数,其中所述损失函数包括回归损失和分类损失;
获取训练样本集并将所述训练样本集输入至所述卷积神经网络,通过所述损失函数对所述卷积神经网络的输出值进行误差评价;
根据误差结果反向传播调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到期望值后得到文本组件预测网络。
所述的基于深度关系推理的文本检测方法中,所述损失函数
Figure 278757DEST_PATH_IMAGE001
,其中Lreg为平滑L1回归损失,Lcls为交叉熵分类损失。
所述的基于深度关系推理的文本检测方法中,所述根据所述矩形组件的几何属性生成若干个局部图,包括:
选择若干个矩形组件作为枢轴;
根据各个枢轴矩形组件的几何属性,选择与其邻接的若干个矩形组件生成相应的局部图。
所述的基于深度关系推理的文本检测方法中,所述通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果,包括:
预先构建并训练图卷积神经网络得到深度关系推理网络;
根据所述局部图获取相应的特征矩阵和邻接矩阵;
将所述特征矩阵和邻接矩阵输入至深度关系推理网络,推理得到局部图中各枢轴矩形组件与相应的邻接矩形组件之间的深度链接可能性;
根据所述深度链接可能性推理结果将相应的局部图链接后形成文本检测结果。
所述的基于深度关系推理的文本检测方法中,所述矩形组件的几何属性包括高度、宽度和方向。
本发明又一实施例还提供了一种基于深度关系推理的文本检测装置,所述装置包括:
文本组件预测模块,用于获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;
局部图模块,用于根据所述矩形组件的几何属性生成若干个局部图;
推理链接模块,用于通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。
本发明又一实施例还提供了一种基于深度关系推理的文本检测系统,所述系统包括至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于深度关系推理的文本检测方法。
本发明的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于深度关系推理的文本检测方法。
本发明的另一实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使所述处理器执行上述的基于深度关系推理的文本检测方法。
有益效果:本发明公开了基于深度关系推理的文本检测方法、装置、系统及存储介质,相比于现有技术,本发明实施例获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;根据所述矩形组件的几何属性生成若干个局部图;通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。本发明实施例在估计待检测文本图像中矩形组件的几何属性后生成局部图,针对局部图进一步执行深度关系推理建立矩形组件之间的链接以得到文本检测结果,利用深度关系推理来挖掘这些组件区域之间的稳定关系能极大的提高任意形状文本检测的性能。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明提供的基于深度关系推理的文本检测方法较佳实施例的流程图;
图2为本发明提供的基于深度关系推理的文本检测方法较佳实施例中步骤S100的流程图;
图3为本发明提供的基于深度关系推理的文本检测方法较佳实施例中步骤S101的流程图;
图4为本发明提供的基于深度关系推理的文本检测方法较佳实施例中步骤S200的流程图;
图5为本发明提供的基于深度关系推理的文本检测方法较佳实施例中步骤S300的流程图;
图6为本发明提供的基于深度关系推理的文本检测装置较佳实施例的功能模块示意图;
图7为本发明提供的基于深度关系推理的文本检测系统较佳实施例的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下结合附图对本发明实施例进行介绍。
请参阅图1,图1为本发明提供的基于深度关系推理的文本检测方法较佳实施例的流程图。如图1所示,其包括如下步骤:
S100、获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;
S200、根据所述矩形组件的几何属性生成若干个局部图;
S300、通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。
本实施例中,获取到待检测文本图像后,将其中的文本实例划分为一系列的矩形组件,并且通过预先构建并训练的文本组件网络对所述矩形组件进行几何属性估计,获取每个矩形组件的几何属性,具体所述矩形组件的几何属性包括高度、宽度和方向,优选地,所述文本组件预测网络采用跨层连接的卷积神经网络,以避免出现随着网络加深出现梯度消失或梯度爆炸的问题;在获取了矩形组件的几何属性后生成若干个局部图,在生成局部图时已粗略的建立了不同的矩形组件之间的链接,为进一步推理各个矩形组件之间的链接关系,通过预先构建和训练的深度关系推理网络对所述局部图进行深度推理,从而挖掘其中各组件区域之间的关系,进而根据深度关系推理结果链接组合后形成文本检测结果,通过局部图将文本组件网络和深度关系推理网络联系起来,使网络达到端对端的训练,并且通过深度关系推理来挖掘各个矩形组件之间的链接关系,能有效提高任意形状文本检测的准确性和效率。
进一步地,请参阅图2,所述步骤S100包括如下步骤:
S101、构建并训练文本组件预测网络,所述文本组件预测网络采用跨层连接的卷积神经网络;
S102、获取待检测文本图像并将其输入至所述文本组件预测网络,对所述待检测文本图像进行图像特征提取和文本框预测后得到若干个矩形组件;
S103、对所述矩形组件的几何属性进行估计并输出估计结果。
本实施例中,对文本图像进行特征提取和文本框预测采用改进的卷积神经网络,卷积使用主干网络为vga-16,由于传统的卷积神经网络在浅层网络得到的特征,经过一系列计算后到深层网络时会被忽略,因此很容易造成梯度消失或梯度爆炸的问题,本实施例中采用的卷积神经网络基于跨层连接的思想,将低层网络的信息经过一个门的选择处理后,送往高层信息,这样在全连接层,可以综合考虑所有的特征图,以避免训练的时候出现梯度消失或梯度爆炸的问题,具体提取了图像特征后对其进行文本框预测时,由于每个文本实例都是由一系列有序的矩形组件构建的,每个矩形组件D与一组几何属性相关联,即D= (x, y, h, w, cosθ和sinθ),其中x和y为文本框的轴;h和w是矩形组件的高度和宽度;cosθ和sinθ是矩形组件的方向,w对h进行线性变换得到,计算公式为:
Figure 115126DEST_PATH_IMAGE002
其中hi表示第i个矩形组件的高度,wi表示第i个矩形组件的,最小宽度wmin和最大宽度wmax可根据实际需要设置,例如优选设置wmin = 8和wmax = 24。
为了定义矩形组件的方向并高效准确的提取文本中心区域(TCR),本实施例中优选采用Textsnake光学字符识别算法来计算文本区域的头尾,其可对任意形状的文本进行检测识别,具体文本区域沿长边可分为一系列有序四边形区域,因此可以获得两组点P1 ={tp0,tp1,…,tpi,…,tpn}和P2 = {bp0,bp1,…,bpi,…,bpn}来区分文本实例的顶部和底部,优选根据以下标准明确定义每个文本实例的顶部和底部:
Figure 153489DEST_PATH_IMAGE003
其中V(V = {tp0- bp0,…,tpi-bpi,…,tpn-bpn})是一组顶点(tpi是顶线的中心,bpi是底线的中心)。如果p> = 0,则P1为顶部,P2是底部,否则P1是底部,P2是顶部,向量vi的角度表示文本组件的方向θ。
具体通过缩小文本区域(TR)获得文本中心区域(TCR),首先计算文本中心线,然后 将中心线的两端缩小0.5w末端像素,使网络更容易分离相邻的文本实例,提高后续计算效 率,最后将中心线区域扩大0.3h得到文本中心区域作为后续文本检测的共享特征Fshare,提 取共享特征Fshare后,应用两个卷积层来预测矩形组件的几何属性:
Figure 835137DEST_PATH_IMAGE004
,从而得到最终的矩形组件的几何属性估计结果,实 现对任意形状文本的组件划分与组件几何属性预测,为后续的文本实例恢复提供可靠的数 据基础。
进一步地,所述请参阅图3,所述步骤S101包括如下步骤:
S1011、构建用于文本组件预测的跨层连接的卷积神经网络,以及用于训练所述卷积神经网络的损失函数,其中所述损失函数包括回归损失和分类损失;
S1012、获取训练样本集并将所述训练样本集输入至所述卷积神经网络,通过所述损失函数对所述卷积神经网络的输出值进行误差评价;
S1013、根据误差评价结果调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到期望值后得到文本组件预测网络。
本实施例中,所述文本组件预测网络采用跨层连接的卷积神经网络结构,并通过损失函数进行训练得到最终的文本组件预测网络,具体构建了相应的卷积神经网络和损失函数后,获取训练样本集并将所述训练样本集输入至所述卷积神经网络进行训练,所述训练样本集可采用现有的文本图像数据集,例如CTW-1500、Total-Text、MSRA-TD500等等,大量的训练数据可避免了过度拟合,提高识别准确性,通过所述训练样本集对跨层连接的的卷积神经网络进行训练,以损失函数对所述卷积神经网络的输出值进行误差评价,根据误差评价结果反向传播调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到期望值,得到训练完成后的文本组件预测网络。
具体所述损失函数包括回归损失和分类损失,通过两个损失项对卷积神经网络的输出值进行误差评价,通过输入信号的前向传播计算每个节点的值,计算输出误差后进行误差的反向传播,根据误差梯度下降法调节卷积神经网络各层的权重参数,反复调节后使得卷积神经网络的最终输出至达到期望值,从而完成卷积神经网络的训练得到最终的文本组件预测网络。
具体实施时,所述损失函数
Figure 9767DEST_PATH_IMAGE001
,其中Lreg为平滑L1回归损失, Lcls为交叉熵分类损失。
分类损失的计算公式为:
Figure 751458DEST_PATH_IMAGE005
,其中Ltr代表TR的 损失; Ltcrp仅计算TR内部的像素,而Ltcrn仅计算TR外部的像素,Ltcrn用于抑制TCR中的背景 噪声,权重λ1和λ2可根据需求灵活设置,以这种方式,获得的TCR可以有益于后处理步骤,提 高文本检测识别的准确性,TR损失可采用OHEM(Online Hard Example Mining),正负比设 置为3:1进行计算。
针对回归损失,由于非TCR区域缺少高度和方向属性,因此本实施例中仅按以下公式计算TCR区域的回归损失:
Figure 214800DEST_PATH_IMAGE006
其中hki,sinθ和cosθ是真实值,
Figure 824773DEST_PATH_IMAGE007
Figure 729275DEST_PATH_IMAGE008
Figure 297660DEST_PATH_IMAGE009
是相应的预测值;Ω表示TCR中 的一组正元素;h是真值框中文本组件的高度。
进一步地,请参阅图4,所述步骤S200包括如下步骤:
S201、选择若干个矩形组件作为枢轴;
S202、根据各个枢轴矩形组件的几何属性,选择与其邻接的若干个矩形组件生成相应的局部图。
本实施例中,在对待检测文本图像划分矩形组件并预测得到矩形组件的几何属性后,将每个矩形组件作为一个节点,若根据两个节点在局部图中的上下文信息来估计它们之间的链接可能性,为每个图像构造一个完整的图形效率不高,因此本实施例中未每个待检测文本图像构造了多个局部图,这些局部图通常包含有限数量的节点,使后续的关系推理变得高效而容易。具体地,先选择若干个节点作为枢轴即轴心,并根据各个枢轴节点的几何属性,在其周围选择若干个邻接的节点合并生成局部图,以此生成若干个局部图,局部图中包含的上下文信息(节点之间的边缘)有助于估计枢轴与其他节点之间的链接可能性,即局部图可粗略的建立不同的矩形组件之间的链接关系,有利于后续的进一步深度关系挖掘推理,并且通过局部图来连接文本组件网络和深度关系推理网络使得网络达到端对端的训练,提高深度关系推理效率和准确性。
进一步地,请参阅图5,所述步骤S300包括如下步骤:
S301、预先构建并训练图卷积神经网络得到深度关系推理网络;
S302、根据所述局部图获取相应的特征矩阵和邻接矩阵;
S303、将所述特征矩阵和邻接矩阵输入至深度关系推理网络,推理得到局部图中各枢轴矩形组件与相应的邻接矩形组件之间的深度链接可能性;
S304、根据所述深度链接可能性推理结果将相应的局部图链接后形成文本检测结果。
本实施例中,根据每个图像中的矩形组件生成多个局部图,该局部图由枢轴矩形组件及其邻接矩形组件组成,为了进一步推理和推导枢轴与它的邻接之间的联系的可能性,通过构建并训练图卷积神经网络作为深度关系推理网络对局部图进行深度推理,图卷积神经网络在推论图上节点之间的关系方面具有先天优势,应用图卷积网络对局部图执行深度推理,以推断枢轴组件和对应相邻组件之间的深度链接可能性,从而进行准确的任意形状文本检测。
具体先所述局部图获取相应的特征矩阵和邻接矩阵,图卷积网络通常将特征矩阵X和邻接矩阵A作为网络的输入,因此需要提取局部图中的节点特征矩阵X以及邻接矩阵A,节点特征由两部分特征组成,即RROI特征和几何特征,为了获得RROI特征,优选采用使用RRoI-Align层进行特征提取,以提取输入矩形组件的特征块,结合之前估计得到的几何属性作为其几何特征,二者联合得到相应的节点特征矩阵,所述邻接矩阵A可采用现有的邻接矩阵,获得特征矩阵X和邻接矩阵A之后,将其输入至基于图卷积神经网络的深度关系推理网络来估计枢纽矩形组件及其邻接矩形组件之间的深度链接可能性,其中所述深度关系推理模型由一个批归一化层和四个由ReLU函数激活图卷积层组成,且采用softmax交叉熵损失作为优化的目标函数,从而实现深度挖掘不同组件之间的相似性,最后根据推理结果将相应的矩形组件汇总为整体的文字实例形成文本检测结果,具体可使用“呼吸优先搜索”(Breath First Search,BFS)对链接进行聚类和合并,获得聚类的矩形组件后,还可进一步对组件进行排序以生成边界,从而得到更加清晰明了的文本检测结果。
由以上方法实施例可知,本发明提供的基于深度关系推理的文本检测方法在估计待检测文本图像中矩形组件的几何属性后生成局部图,针对局部图进一步执行深度关系推理建立矩形组件之间的链接以得到文本检测结果,利用深度关系推理来挖掘这些组件区域之间的稳定关系能极大的提高任意形状文本检测的性能。
需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
本发明另一实施例提供一种基于深度关系推理的文本检测装置,如图6所示,装置1包括:
文本组件预测模块11,用于获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;
局部图模块12,用于根据所述矩形组件的几何属性生成若干个局部图;
推理链接模块13,用于通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。
所述文本组件预测模块11、局部图模块12和推理链接模块13依次连接,具体实施方式请参考上述对应的方法实施例,此处不再赘述。
本发明另一实施例提供一种基于深度关系推理的文本检测系统,如图7所示,系统10包括:
一个或多个处理器110以及存储器120,图7中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器110用于完成系统10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的基于深度关系推理的文本检测方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行系统10的各种功能应用以及数据处理,即实现上述方法实施例中的基于深度关系推理的文本检测方法。
存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据系统10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的基于深度关系推理的文本检测方法,例如,执行以上描述的图1中的方法步骤S100至步骤S300。
本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S300。
作为示例,非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制,RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
本发明的另一种实施例提供了一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被处理器执行时,使所述处理器执行上述方法实施例的基于深度关系推理的文本检测方法。例如,执行以上描述的图1中的方法步骤S100至步骤S300。
综上所述,本发明公开的基于深度关系推理的文本检测方法、装置、系统及存储介质中,方法获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;根据所述矩形组件的几何属性生成若干个局部图;通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。本发明实施例在估计待检测文本图像中矩形组件的几何属性后生成局部图,针对局部图进一步执行深度关系推理建立矩形组件之间的链接以得到文本检测结果,利用深度关系推理来挖掘这些组件区域之间的稳定关系能极大的提高任意形状文本检测的性能。
以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。
除了其他之外,诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
已经在本文中在本说明书和附图中描述的内容包括能够提供基于深度关系推理的文本检测方法、装置、系统及存储介质的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims (10)

1.一种基于深度关系推理的文本检测方法,其特征在于,包括如下步骤:
获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;
根据所述矩形组件的几何属性生成若干个局部图;
通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。
2.根据权利要求1所述的基于深度关系推理的文本检测方法,其特征在于,所述获取待检测文本,通过预先构建并训练的文本组件网络对所述待检测文本中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络,包括:
构建并训练文本组件预测网络,所述文本组件预测网络采用跨层连接的卷积神经网络;
获取待检测文本图像并将其输入至所述文本组件预测网络,对所述待检测文本图像进行图像特征提取和文本框预测后得到若干个矩形组件;
对所述矩形组件的几何属性进行估计并输出估计结果。
3.根据权利要求2所述的基于深度关系推理的文本检测方法,其特征在于,所述构建并训练文本组件预测网络,所述文本组件预测网络采用跨层连接的卷积神经网络,包括:
构建用于文本组件预测的跨层连接的卷积神经网络,以及用于训练所述卷积神经网络的损失函数,其中所述损失函数包括回归损失和分类损失;
获取训练样本集并将所述训练样本集输入至所述卷积神经网络,通过所述损失函数对所述卷积神经网络的输出值进行误差评价;
根据误差评价结果调节所述卷积神经网络的权重参数,直到所述卷积神经网络的输出值达到期望值后得到文本组件预测网络。
4.根据权利要求3所述的基于深度关系推理的文本检测方法,其特征在于,所述损失函 数
Figure 979615DEST_PATH_IMAGE001
,其中Lreg为平滑L1回归损失,Lcls为交叉熵分类损失。
5.根据权利要求1所述的基于深度关系推理的文本检测方法,其特征在于,所述根据所述矩形组件的几何属性生成若干个局部图,包括:
选择若干个矩形组件作为枢轴;
根据各个枢轴矩形组件的几何属性,选择与其邻接的若干个矩形组件生成相应的局部图。
6.根据权利要求5所述的基于深度关系推理的文本检测方法,其特征在于,所述通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果,包括:
预先构建并训练图卷积神经网络得到深度关系推理网络;
根据所述局部图获取相应的特征矩阵和邻接矩阵;
将所述特征矩阵和邻接矩阵输入至深度关系推理网络,推理得到局部图中各枢轴矩形组件与相应的邻接矩形组件之间的深度链接可能性;
根据所述深度链接可能性推理结果将相应的局部图链接后形成文本检测结果。
7.根据权利要求1-6任意一项所述的基于深度关系推理的文本检测方法,其特征在于,所述矩形组件的几何属性包括高度、宽度和方向。
8.一种基于深度关系推理的文本检测装置,其特征在于,所述装置包括:
文本组件预测模块,用于获取待检测文本图像,通过预先构建并训练的文本组件网络对所述待检测文本图像中的矩形组件进行几何属性估计,其中所述文本组件预测网络采用跨层连接的卷积神经网络;
局部图模块,用于根据所述矩形组件的几何属性生成若干个局部图;
推理链接模块,用于通过预先构建并训练的深度关系推理网络对所述局部图进行深度推理,并根据推理结果链接形成文本检测结果。
9.一种基于深度关系推理的文本检测系统,其特征在于,所述系统包括至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于深度关系推理的文本检测方法。
10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于深度关系推理的文本检测方法。
CN202110121080.6A 2021-01-28 2021-01-28 基于深度关系推理的文本检测方法、装置、系统及介质 Pending CN112818986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121080.6A CN112818986A (zh) 2021-01-28 2021-01-28 基于深度关系推理的文本检测方法、装置、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121080.6A CN112818986A (zh) 2021-01-28 2021-01-28 基于深度关系推理的文本检测方法、装置、系统及介质

Publications (1)

Publication Number Publication Date
CN112818986A true CN112818986A (zh) 2021-05-18

Family

ID=75859961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121080.6A Pending CN112818986A (zh) 2021-01-28 2021-01-28 基于深度关系推理的文本检测方法、装置、系统及介质

Country Status (1)

Country Link
CN (1) CN112818986A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298054A (zh) * 2021-07-27 2021-08-24 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN113780470A (zh) * 2021-09-28 2021-12-10 广西师范大学 一种基于自适应多通道交叉图卷积网络的图分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113298054A (zh) * 2021-07-27 2021-08-24 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN113298054B (zh) * 2021-07-27 2021-10-08 国际关系学院 一种基于嵌入空间像素聚类的文本区域检测方法
CN113780470A (zh) * 2021-09-28 2021-12-10 广西师范大学 一种基于自适应多通道交叉图卷积网络的图分类方法
CN113780470B (zh) * 2021-09-28 2024-03-08 西安聚全网络科技有限公司 一种基于自适应多通道交叉图卷积网络的图分类方法

Similar Documents

Publication Publication Date Title
US20230196117A1 (en) Training method for semi-supervised learning model, image processing method, and device
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
CN106415594B (zh) 用于面部验证的方法和系统
CN110765866B (zh) 人脸识别方法和人脸识别设备
KR20180057096A (ko) 표정 인식과 트레이닝을 수행하는 방법 및 장치
CN111898635A (zh) 神经网络的训练方法、数据获取方法和装置
CN111797983A (zh) 一种神经网络构建方法以及装置
US20180157892A1 (en) Eye detection method and apparatus
WO2016119076A1 (en) A method and a system for face recognition
US20230023271A1 (en) Method and apparatus for detecting face, computer device and computer-readable storage medium
US11163989B2 (en) Action localization in images and videos using relational features
CN112818986A (zh) 基于深度关系推理的文本检测方法、装置、系统及介质
CN113505797B (zh) 模型训练方法、装置、计算机设备和存储介质
EP3428878A1 (en) Image recognition system
CN113516227B (zh) 一种基于联邦学习的神经网络训练方法及设备
CN111914878A (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
JP2022117464A (ja) マルチターゲット追跡モデルのトレーニング方法及びマルチターゲット追跡方法
CN113592060A (zh) 一种神经网络优化方法以及装置
CN112633463A (zh) 用于建模序列数据中长期依赖性的双重递归神经网络架构
EP3786882A1 (en) Movement state recognition model learning device, movement state recognition device, method, and program
CN114037882A (zh) 边缘人工智能装置、电子装置及其方法
CN112348116A (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN111931901A (zh) 一种神经网络构建方法以及装置
CN116343080A (zh) 一种动态稀疏关键帧视频目标检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination