CN112926372B - 基于序列变形的场景文字检测方法及系统 - Google Patents
基于序列变形的场景文字检测方法及系统 Download PDFInfo
- Publication number
- CN112926372B CN112926372B CN202010853196.4A CN202010853196A CN112926372B CN 112926372 B CN112926372 B CN 112926372B CN 202010853196 A CN202010853196 A CN 202010853196A CN 112926372 B CN112926372 B CN 112926372B
- Authority
- CN
- China
- Prior art keywords
- sequence
- feature map
- feature
- network
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 68
- 238000005070 sampling Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000013135 deep learning Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 230000002776 aggregation Effects 0.000 claims abstract description 12
- 238000004220 aggregation Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 38
- 230000007246 mechanism Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 239000010410 layer Substances 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 239000002356 single layer Substances 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000008569 process Effects 0.000 description 13
- 238000005457 optimization Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括:特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并发送至序列变形模块;序列变形模块通过对第一特征图x进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,并发送至辅助字符计数网络;序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并发送至目标检测基准网络;目标检测基准网络通过对第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果作为场景文字检测结果。
Description
技术领域
本发明涉及信息处理技术领域,属于与图像处理、计算机视觉、机器学习相关的技术子领域,具体来讲,是一种采用深层神经网络设计实现的场景文字检测方法及系统,其中具有序列变形模块和辅助字符计数监督学习机制。
背景技术
近年来,基于深层神经网络(又称深度学习)的场景文字检测技术取得了极大的进步,卷积神经网络被广泛地应用于场景文字检测系统中。然而,由于文字在文种、尺度、方向、形状和长宽比等方面变化多样,以及卷积神经网络的感受野对几何变形建模具有内在局限性,非受控条件下的场景文字检测技术仍然是一个开放的问题,特别是对任意形状文本区域进行文字检测具有较大的难度,例如,场景图像中出现弯曲形状的文本。
已有的深度学习场景文字检测方法大致可分为两类,一类是实例层次检测方法,将文本实例(单词或者文本行)作为一类物体,采用通用物体检测框架,如Faster R-CNN、SSD,但这些方法的性能受限于卷积的固定感受野,因而对较大几何变形的建模能力尚显不足;另一类是组件层次检测方法,着眼于文本组件(例如文本段,字符,笔画或者最细颗粒度的像素)而不是整个文本实例的检测,但需要额外的组件聚合等后处理步骤,比如像素聚合或字符块连接,这些方法的性能也受组件预测错误的影响,并且由于这些方法往往需要较为繁琐的后处理步骤,不便进行端到端的一体式优化训练。
上述对背景技术的陈述仅是为了方便对本发明技术方案(使用的技术手段、解决的技术问题以及产生的技术效果等方面)的深入理解,而不应当被视为承认或以任何形式暗示该消息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明旨在至少一定程度上解决上述问题,为此提供一种基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法及系统,所述方法及系统包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络。
所述特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并将第一特征图x发送至序列变形模块;
所述序列变形模块通过对输入的第一特征图x的每一像素点通过预测偏移量进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,将第二特征图m发送至辅助字符计数网络;
所述序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并将第三特征图发送至目标检测基准网络;
所述目标检测基准网络通过对输入的第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果,作为场景文字检测结果。
优选地,在训练阶段,目标检测基准网络采用多种目标函数,利用深层神经网络误差反向传播机制,运用梯度下降法调整神经网络节点参数进行训练,所述多种目标函数包括文本区域分类和文本区域包围框回归的目标函数;在训练阶段,还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择,将与真值区域框匹配的正候选框的中心位置用于选取第二特征图m上的特征序列,并发送至辅助字符计数网络。
优选地,所述辅助字符计数网络对第二特征图m上正候选框内的选取的特征序列进行字符序列建模,预测生成内容无关字符序列;所述辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数,利用对应文本区域真实文本标签的内容无关字符信息,对内容无关字符序列预测结果构建目标函数,由此形成辅助字符计数监督学习机制;所述辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练,从而辅助引导序列变形模块适应各种文本区域的变形。
优选地,所述第一特征图x为大小H×W×C的矩阵,其中,H为特征图高度,W为特征图宽度,C为特征图通道数。
优选地,所述序列变形模块由两个单独的序列采样网络和一个卷积核大小为1×1、卷积核个数为的卷积层构成;每个序列采样网络由一个双线性采样器,一个循环神经网络和一个线性层构成;两个单独的序列采样网络从第一特征图x上的同一个起始位置p出发,沿两个不同的方向对特征进行采样;在每个时间步t,给定一个序列采样网络,当前位置为第一特征图x上的起始位置p加上当前累积偏移量pd,t,双线性采样器对当前位置p+pd,t输出采样的特征x(p+pd,t);0≤时间步t≤T,T表示预先设定的迭代次数,d表示从起始位置的方向,d=1,2;循环神经网络以采样的特征x(p+pd,t)作为输入,生成隐含状态hd,t;线性层以隐含状态hd,t作为输入,预测相对于当前位置p+pd,t的二维向量形式的偏移量Δpd,t;新的累积偏移量pd,t+1通过将预测偏移量Δpd,t加至当前累积偏移量pd,t得到;进一步地,以第一特征图x和所有采样特征图拼接得到的第二特征图m,通过在通道数为(2T+1)·C的第二特征图m上选取特定位置的特征向量,并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列,将选取位置处的特征序列作为所述辅助字符计数网络的输入;对第二特征图m的通道维度上进行特征聚合操作得到第三特征图,特征聚合操作利用一个卷积核大小为1×1、卷积核个数为的卷积层实现,卷积核个数为k设为与第二特征图通道数(2T+1)·C相同。
优选地,所述辅助字符计数网络为深度学习中的序列到序列模型所述辅助字符计数网络通过在通道数为(2T+1)·C的中间特征图m上选取特定位置的特征向量,并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列,构成所述辅助字符计数网络的特征输入。
优选地,所述辅助字符计数网络采用单层多头的自注意力解码器,其中,所述辅助字符计数网络输入特征序列,并输入起始符号<SOS>或前一时刻预测的符号,从而输出下一个预测的符号,直到网络输出终止符号<EOS>。
本发明采取以上技术方案,利用包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络的整个模型在无复杂后处理步骤的情况下,可通过基于深度学习的端到端多任务优化训练进行模型参数的学习,即训练过程中多任务目标函数包括目标检测基准网络的文本区域分类和文本区域包围框回归的目标函数,以及辅助字符计数网络的内容无关字符序列预测目标函数,最终实现可适应多种文本区域变形的场景文字检测系统。
附图说明
下文将结合附图对本发明的示例性实施例进行更为详细的说明。为清楚起见,不同附图中相同的部件以相同标号示出。需要说明的是,附图仅起到示意作用,其并不必然按照比例绘制。在这些附图中:
图1为根据本发明实施例的基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法及系统的流程示意图;
图2为现有的3×3标准卷积和根据本发明实施例的序列变形的采样位置的对比图;
图3为根据本发明实施例的序列变形模块的结构示意图;
图4为根据本发明实施例的辅助字符计数过程的示意图;
图5为具有根据本发明实施例的序列变形模块与辅助字符计数网络的目标检测基准网络的示意图,其中,目标检测基准网络采用Mask R-CNN。
具体实施方式
下面结合附图描述本发明的实施例,附图中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
根据本发明实施例的基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法及系统的流程示意图如图1所示,包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络。
对于输入的场景图像,在采用基于卷积神经网络的特征提取模块提取第一特征图之后,序列变形模块对第一特征图每一像素点通过预测偏移量进行迭代采样,得到采样位置对应的特征图,以适应文本行区域形状的变化,将第一特征图与采样得到的特征图沿通道维度进行深度学习中常规的拼接操作,得到第二特征图,将第二特征图送入辅助字符计数网络,并且对第二特征图的通道维度上进行特征聚合操作得到第三特征图,将第三特征图送入目标检测基准网络。
目标检测基准网络对输入的第三特征图进行文本区域候选框提取,并进一步通过文本区域分类和文本区域包围框的回归拟合得到文本区域预测结果作为系统输出;在训练阶段,目标检测基准网络采用文本区域分类和文本区域包围框的回归的两种目标函数,利用深层神经网络误差反向传播机制,运用梯度下降法调整神经网络节点参数进行训练;在训练阶段,还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择,将与真值区域框匹配的候选框(即正类文本区域候选框,简称正候选框)的中心位置用于选取第二特征图上的特征序列,送入辅助字符计数网络。
辅助字符计数网络对第二特征图上正候选框内选取的特征序列进行字符序列建模,预测生成内容无关字符序列,即在建模过程中只考虑字符出现与否,不考虑字符具体内容,等同于只对序列中的字符计数,也可类比于人在不认识某文种文字的情况下仅对字符进行计数;辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数,利用对应文本区域文本真值的内容无关字符序列,对内容无关字符序列预测结果构建目标函数,由此形成辅助字符计数监督学习机制。辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练,可在一定程度上辅助引导序列变形模块适应各种文本区域的变形。
包含特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络在内的整个模型在无复杂后处理步骤的情况下,可通过基于深度学习的端到端多任务优化训练进行模型参数的学习,即训练过程中多任务目标函数包括目标检测基准网络的文本区域分类和文本区域包围框回归的目标函数,以及辅助字符计数网络的内容无关字符序列预测目标函数,最终实现可适应多种文本区域变形的场景文字检测系统。
需要说明的是,图2为3×3标准卷积和本发明实施例中序列变形的采样位置的对比图,为了更清晰的可视化,采样位置被映射到了输入图像上。图2中的(a)和(b)展示了两个样本的标准卷积的采样位置。黑点表示卷积的中心位置。图2中的(c)和(d)展示了对应于图2中的(a)和(b)两个样本,采用两个不同方向序列采样网络输出结果,黑点表示序列采样起始位置,每一个灰色箭头表示一个时间步预测的偏移量。
下面将通过具体实施例对基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法进行进一步阐述。本发明实施例在一个具有NVIDIA Tesla V100 GPU并行计算支持的计算机上,使用PyTorch(https://github.com/pytorch/pytorch)深度学习框架实现,并且利用了MMDetection开源目标检测工具包(https://github.com/open-mmlab/mmdetection)中的Mask R-CNN目标检测基准框架的实现和Transformer多头自注意力网络(https://github.com/jadore801120/attention-is-all-you-need-pytorch)的技术,具体如下:
首先,如图3所示,序列变形模块先以序列的方式进行采样操作,然后序列变形模块通过在第二特征图m上进行1×1卷积实现特征聚合,其中,第二特征图m是第一特征图和所有采样特征图沿着通道维度上的拼接得到,适应性地捕捉了文本实例层次的表征。将第一特征图上每个像素p(每一个整数位置)作为起始位置,两条相对采样位置分支Sd={pd,t|t=1,…,T}(d=1,2)通过偏移量累加序列性地生成,从而构成两条采样路径:
pd,t+1=pd,t+Δpd,t,t=0,…,T-1
其中,pd,0=(0,0)(d=1,2),Δpd,t表示当前的二维偏移量,T表示预先设定的迭代次数。默认的迭代次数T=7。序列采样网络密集地运行,因此在每个时间步t,所有的Δpd,t(d=1,2)构成一个偏移量图,所有pd,t(d=1,2)构成累积偏移量图,所有采样特征x(p+pd,t)(d=1,2)构成采样特征图xd,t(xd,t(p)=x(p+pd,t))。利用双线性采样器将采样位置临近像素点的特征图进行双线性插值得到x(p+pd,t)。双线性插值是可微分的,因此序列变形模块的训练过程是完全的端到端优化训练过程。
序列采样网络在第一特征图x上密集地逐像素运行,第一特征图上每个像素(每一个整数坐标位置)均被作为起始位置p,即p包括H×W图像上的所有像素位置{(0,0),(0,1),…,(H-1,W-1)}。
序列采样过程通过序列采样网络实现。序列采样网络由一个循环神经网络(在公式中用RNN表示)和一个线性层(在公式中用Linear表示,即神经网络中的全连接层)构成,同时两条单独的采样路径由两个独立的序列采样网络生成,因此每个时刻的预测偏离量基于当前和之前的采样特征{x(p+pd,0),…,x(p+pd,t)}(即{xd,0(p),…,xd,t(p)})得到:
hd,t=RNNd(x(p+pd,t),hd,t-1)=RNNd(xd,t(p),hd,t-1),
Δpd,t=Lineard(hd,t)。
1×1卷积层在输入特征和所有采样特征的拼接而成的特征上进行特征聚合,从而输出聚合后的特征;特征聚合过程通过在第二特征图m上进行1×1卷积得到第三特征图y;第二特征图m是第一特征图x和所有采样特征图x1,t与x2,t沿着通道维度上的拼接操作得到:
xd,t(p)=x(p+pd,t)
m=Concat({x}∪{xd,t|d=1,2,t=1,…,T})
y=Conv1×1(m)
其中Concat(·)指沿通道维度上的拼接操作;第二特征图m的通道数为(2T+1)·C,其中C是输入特征图的通道数,2T+1对应于2T个采样特征图和一个原始特征图。Conv1×1(·)指1×1卷积层,即利用一个卷积核大小为1×1、卷积核个数为k的卷积层实现,卷积核个数为k设为与第二特征图通道数(2T+1)·C相同,即第三特征图y的通道数也是(2T+1)·C。
其次,辅助字符计数监督学习任务被建模为一个序列到序列问题,详细过程如图4所示。本发明实施例从第二特征图m上选取训练样本。利用目标检测基准网络中的区域候选网络得到的正候选框,在正候选框的中心区域附近选取训练样本。对于一个选定的正候选框,将其以给定的收缩系数σ向中心收缩。σ对于ResNet-18和ResNet-50主干网络分别被设置为0.1和0.3。从收缩的区域随机选取一个位置作为选定位置pc,并生成一个字符计数训练样本。对于第一特征图层次i的候选框,从对应层次i的第二特征图mi生成字符计数训练样本。
给定选取位置pc,得到通道数为(2T+1)·C的特征向量m(pc),并改变特征向量的形状,使其成为长度2T+1、通道数C的特征序列,该特征序列构成了一个字符计数训练样本。实际计算中,将选取位置pc临近像素点的特征图进行双线性插值得到m(pc)。
一个单层的Transformer网络被用于预测内容无关字符序列,该网络在每个时间步为四种符号做分类,符号包括:序列起始符号"<SOS>",序列终止符号"<EOS>",为便于数据并行计算序列长度补齐的填补符号"<PAD>"和内容无关字符符号<Char>。内容无关字符符号<Char>表示一个字符的存在,忽略其具体文本代码内容。
对于文本真值序列,可将其中的字符代码逐个替换为内容无关的<Char>符号,得到的文本真值的内容无关字符序列,即包含连续的<Char>符号,<Char>符号的个数等于对应文本真值中的字符个数;文本真值的内容无关字符序列最后包含一个序列终止符号"<EOS>";
在训练阶段,通过在多头的自注意力层上对文本真值的内容无关字符序列进行掩码操作,解码器的计算过程是迭代进行的,并且前向计算时解码器只能观察到当前时刻之前的输入符号真值。
辅助字符计数网络的目标函数为:
Lcount=-logp(s|reshape(m(pc)))。
其中,reshape表示改变通道数为(2T+1)·C的特征向量m(pc)的形状,使其成为长度2T+1、通道数C的特征序列。s为对应文本真值的内容无关字符序列,p(s|reshape(m(pc)))为Tranformer网络中输出的内容无关字符序列预测的平均softmax值,softmax值的计算方法与常规深度学习方法一致。
在训练阶段,辅助字符计数网络的目标函数Lcount与目标检测基准网络的目标函数共同发挥作用,通过神经网络常规采用的误差反向传播,运用梯度下降法调整模型参数,使目标函数极小化。
在本发明实施例中,序列变形模块中的循环神经网络使用单层普通RNN,其中隐藏状态数为64,激活函数为ReLU,网络参数初始化方式为Xavier高斯初始化。辅助字符计数网络使用单层普通Transformer,其中前馈层输出维度为128,注意力头数量为1,激活函数为GeLU,Dropout比例为0.1,网络参数初始化方式为Xavier高斯初始化。
最后,序列变形模块和辅助字符计数监督学习机制可以方便地集成至其他常用目标检测框架中,如图5所示。
本发明实施例中将序列变形模块和辅助字符计数监督学习机制集成至Mask R-CNN目标检测基准框架,但本发明的实施不限于Mask R-CNN。序列变形模块位于不同特征层次的特征金字塔网络特征图(FPN)和区域候选网络(RPN)之间,序列变形模块在不同特征层次之间共享,即不同特征层次的特征图用参数相同的序列变形模块进行处理。同时,RoIAlign层从序列变形模块输出的第三特征图y上提取区域特征。
在ICDAR 2017MLT(http://rrc.cvc.uab.es/?ch=8),ICDAR 2015(https://rrc.cvc.uab.es/?ch=4),Total-Text(https://github.com/cs-chan/Total-Text-Dataset)和SCUT-CTW1500(https://github.com/Yuliang-Liu/Curve-Text-Detector/tree/master/data)数据集上,利用数据集中的训练集进行训练,在对应的测试集上测试模型性能。在各个数据集上训练的具体方式如下:
ICDAR 2017MLT:按深度学习常规方法采用ImageNet预训练模型,在ICDAR2017MLT训练集上训练140轮(将整个训练集样本处理一遍即训练1轮),前80轮的学习率设为4×10-2,第81~125轮的学习率设为4×10-3,第126~140轮的学习率设为4×10-4。
ICDAR 2015:采用上述在ICDAR 2017MLT数据集上训练得到模型作为预训练模型。在ICDAR 2015训练集上训练120轮,前80轮的学习率设为4×10-3,第81~120轮的学习率设为4×10-4。
Total-text:采用上述在ICDAR 2017MLT数据集上训练得到模型作为预训练模型。在Total-text训练集上训练140轮,前80轮的学习率设为4×10-3,第81~140轮的学习率设为4×10-4。
SCUT-CTW1500:采用上述在ICDAR 2017MLT数据集上训练得到模型作为预训练模型。在SCUT-CTW1500训练集上训练140轮,前80轮的学习率设为4×10-3,第81~140轮的学习率设为4×10-4。
在训练过程中,GPU并行计算的批量处理大小Batch_Size设为32。其他训练超参数的设置与常规深度学习所采用的设置一致。
表1、表2和表3是本发明实施例的实验结果。表1列举了在ICDAR2017MLT多文种文本检测数据集上Mask R-CNN目标检测基准网络集成和不集成序列变形模块和辅助字符计数监督学习机制的消融实验的结果。
F1分数为准确率(又称查准率)和召回率(又称查全率)的调和平均,被用作综合评价指标。结果展示了序列变形模块和辅助字符计数监督学习机制的有效性。
表1为序列变形模块和辅助字符计数监督学习机制在ICDAR2017MLT数据集上的有效性验证。Baseline为Mask R-CNN目标检测基准模型,在本发明实施例中采用主干网络为ResNet-18和ResNet-50的两种实现。SDM指序列变形模块(sequential deformationmodule),ACC指辅助字符计数(auxiliary character counting)监督学习机制。
表1
表2列举了在ICDAR 2017MLT多文种文本和ICDAR 2015场景文本检测数据集上本发明实施例和其他最新文献公开方法的对比结果。F1分数被用作评价指标。本发明实施例在ICDAR 2017MLT和ICDAR 2015这两个数据集上取得了较高的检测性能,表明了序列变形模块和辅助字符计数监督学习机制的鲁棒性。
表2为ICDAR2017 MLT和ICDAR 2015数据集上的比较结果。SDM指序列变形模块,ACC指辅助字符计数监督学习机制,MT指对输入图像采用多尺度图像缩放的处理之后再进行文字检测的性能测试。PSENet(https://arxiv.org/abs/1903.12473)、FOTS(https://arxiv.org/abs/1801.01671)、PMTD(https://arxiv.org/abs/1903.11800)为文献公开的现有方法。
表2
表3为列举了在Total-Text和SCUT-CTW1500场景文本检测数据集上本发明实施例和其他文献公开方法的对比结果。Total-Text和SCUT-CTW1500包含较多场景弯曲文本的图像样本。表3的实验结果显示本发明实施例在Total-Text和SCUT-CTW1500这两个更具挑战性的弯曲文本数据集上也取得了很高的检测性能,表明了序列变形模块和辅助字符计数监督学习机制对弯曲文本等场景图像样本的适应能力。
表3为Total-Text和SCUT-CTW1500数据集上的比较结果。SDM指序列变形模块,ACC指辅助字符计数监督学习机制,MT指多尺度图像测试。PAN(https://arxiv.org/abs/1908.05900)为文献公开的现有方法。
根据本发明实施例的基于序列变形模块和辅助字符计数监督机制的场景文字检测方法,包含特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络在内的整个模型在无复杂后处理步骤的情况下,可通过基于深度学习的端到端多任务优化训练进行模型参数的学习,即训练过程中多任务目标函数包括目标检测基准网络的文本区域分类和文本区域包围框回归的目标函数,以及辅助字符计数网络的内容无关字符序列预测目标函数,最终实现可适应多种文本区域变形的场景文字检测系统。
表3
在本说明书的描述中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
以上示例性实施方案所呈现的描述仅用以说明本发明的技术方案,并不想要成为毫无遗漏的,也不想要把本发明限制为所描述的精确形式。显然,本领域的普通技术人员根据上述教导作出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用,从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。
Claims (6)
1.一种基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法,其特征在于,包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络;
所述特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x,并将第一特征图x发送至序列变形模块;
所述序列变形模块通过对输入的第一特征图x的每一像素点通过预测偏移量进行迭代采样,得到采样位置对应的特征图,并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m,将第二特征图m发送至辅助字符计数网络;
所述序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图,并将第三特征图发送至目标检测基准网络;
所述目标检测基准网络通过对输入的第三特征图进行文本区域候选框提取,并通过回归拟合得到文本区域预测结果,作为场景文字检测结果;
所述序列变形模块由两个单独的序列采样网络和一个卷积核大小为1×1、卷积核个数为k的卷积层构成;
每个序列采样网络由一个双线性采样器,一个循环神经网络和一个线性层构成;
两个单独的序列采样网络从第一特征图x上的同一个起始位置p出发,沿两个不同的方向对特征进行采样;
在每个时间步t,给定一个序列采样网络,当前位置为第一特征图x上的起始位置p加上当前累积偏移量pd,t,双线性采样器对当前位置p+pd,t输出采样的特征x(p+pd,t);0≤时间步t≤T,T表示预先设定的迭代次数,d表示从起始位置的方向,d=1,2;
循环神经网络以采样的特征x(p+pd,t)作为输入,生成隐含状态hd,t;线性层以隐含状态hd,t作为输入,预测相对于当前位置p+pd,t的二维向量形式的偏移量Δpd,t;新的累积偏移量pd,t+1通过将预测偏移量Δpd,t加至当前累积偏移量pd,t得到;
进一步地,以第一特征图x和所有采样特征图拼接得到的第二特征图m,通过在通道数为(2T+1)·C的第二特征图m上选取与真值区域框匹配的正候选框的中心位置的特征向量,并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列,将选取位置处的特征序列作为所述辅助字符计数网络的输入;
对第二特征图m的通道维度上进行特征聚合操作得到第三特征图,特征聚合操作利用一个卷积核大小为1×1、卷积核个数为k的卷积层实现,卷积核个数为k设为与第二特征图通道数(2T+1)·C相同。
2.根据权利要求1所述的方法,其特征在于,
在训练阶段,目标检测基准网络采用多种目标函数,利用深层神经网络误差反向传播机制,运用梯度下降法调整神经网络节点参数进行训练,所述多种目标函数包括文本区域分类和文本区域包围框回归的目标函数;
在训练阶段,还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择,将与真值区域框匹配的正候选框的中心位置用于选取第二特征图m上的特征序列,并发送至辅助字符计数网络。
3.根据权利要求1所述的方法,其特征在于,
所述辅助字符计数网络对第二特征图m上正候选框内的选取的特征序列进行字符序列建模,预测生成内容无关字符序列;
所述辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数,利用对应文本区域真实文本标签的内容无关字符信息,对内容无关字符序列预测结果构建目标函数,由此形成辅助字符计数监督学习机制;
所述辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练,从而辅助引导序列变形模块适应各种文本区域的变形。
4.根据权利要求1所述的方法,其特征在于,所述第一特征图x为大小H×W×C的矩阵,其中,H为特征图高度,W为特征图宽度,C为特征图通道数。
5.根据权利要求1所述的方法,其特征在于,所述辅助字符计数网络为深度学习中的序列到序列模型,所述辅助字符计数网络通过在通道数为(2T+1)·C的第二特征图m上选取与真值区域框匹配的正候选框的中心位置的特征向量,并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列,构成所述辅助字符计数网络的特征输入。
6.根据权利要求5所述的方法,其特征在于,所述辅助字符计数网络采用单层多头的自注意力解码器,其中,所述辅助字符计数网络输入特征序列,并输入起始符号<SOS>或前一时刻预测的符号,从而输出下一个预测的符号,直到网络输出终止符号<EOS>。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010853196.4A CN112926372B (zh) | 2020-08-22 | 2020-08-22 | 基于序列变形的场景文字检测方法及系统 |
KR1020210076536A KR20220023819A (ko) | 2020-08-22 | 2021-06-14 | 순차적 변형에 기반한 장면 텍스트 검출 방법 및 시스템 |
US17/407,549 US20220058420A1 (en) | 2020-08-22 | 2021-08-20 | Scene text detection method and system based on sequential deformation |
DE102021209201.2A DE102021209201A1 (de) | 2020-08-22 | 2021-08-20 | Szenentext-Erkennungsverfahren und -System auf Basis sequenzieller Verformung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010853196.4A CN112926372B (zh) | 2020-08-22 | 2020-08-22 | 基于序列变形的场景文字检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926372A CN112926372A (zh) | 2021-06-08 |
CN112926372B true CN112926372B (zh) | 2023-03-10 |
Family
ID=76163362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010853196.4A Active CN112926372B (zh) | 2020-08-22 | 2020-08-22 | 基于序列变形的场景文字检测方法及系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220058420A1 (zh) |
KR (1) | KR20220023819A (zh) |
CN (1) | CN112926372B (zh) |
DE (1) | DE102021209201A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127304B (zh) * | 2018-10-31 | 2024-02-20 | 微软技术许可有限责任公司 | 跨域图像转换 |
US12001958B2 (en) * | 2020-03-19 | 2024-06-04 | Nvidia Corporation | Future trajectory predictions in multi-actor environments for autonomous machine |
US20220138903A1 (en) * | 2020-11-04 | 2022-05-05 | Nvidia Corporation | Upsampling an image using one or more neural networks |
US12008821B2 (en) * | 2021-05-07 | 2024-06-11 | Google Llc | Machine-learned models for unsupervised image transformation and retrieval |
CN114494782B (zh) * | 2022-01-26 | 2023-08-08 | 北京百度网讯科技有限公司 | 图像处理方法、模型训练方法、相关装置及电子设备 |
CN115019143A (zh) * | 2022-06-16 | 2022-09-06 | 湖南大学 | 一种基于CNN和Transformer混合模型的文本检测方法 |
CN114972947B (zh) * | 2022-07-26 | 2022-12-06 | 之江实验室 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
CN116188872A (zh) * | 2023-03-09 | 2023-05-30 | 北京甲板智慧科技有限公司 | 一种林业病虫害自动识别方法及装置 |
CN116630755B (zh) * | 2023-04-10 | 2024-04-02 | 雄安创新研究院 | 一种检测场景图像中的文本位置的方法、系统和存储介质 |
CN116311280B (zh) * | 2023-05-17 | 2023-07-18 | 中国电子科技集团公司第十五研究所 | 基于图注意力网络的电子公文主题标引方法及系统 |
CN117079095A (zh) * | 2023-06-25 | 2023-11-17 | 江南大学 | 基于深度学习的高空抛物检测方法、系统、介质和设备 |
CN116665063B (zh) * | 2023-07-27 | 2023-11-03 | 南京信息工程大学 | 基于自注意力和深度卷积并行的高光谱重建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110738090A (zh) * | 2018-07-19 | 2020-01-31 | 塔塔咨询服务公司 | 使用神经网络进行端到端手写文本识别的系统和方法 |
CN111027443A (zh) * | 2019-12-04 | 2020-04-17 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200055760A (ko) * | 2017-09-19 | 2020-05-21 | 라모트 앳 텔-아비브 유니버시티 리미티드 | 이미지 컨텐츠 인식 방법 및 장치 |
CN108304761A (zh) * | 2017-09-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本检测方法、装置、存储介质和计算机设备 |
CN110147786B (zh) * | 2019-04-11 | 2021-06-29 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110751154B (zh) * | 2019-09-27 | 2022-04-08 | 西北工业大学 | 一种基于像素级分割的复杂环境多形状文本检测方法 |
CN111860506B (zh) * | 2020-07-24 | 2024-03-29 | 北京百度网讯科技有限公司 | 识别文字的方法和装置 |
-
2020
- 2020-08-22 CN CN202010853196.4A patent/CN112926372B/zh active Active
-
2021
- 2021-06-14 KR KR1020210076536A patent/KR20220023819A/ko active Search and Examination
- 2021-08-20 US US17/407,549 patent/US20220058420A1/en active Pending
- 2021-08-20 DE DE102021209201.2A patent/DE102021209201A1/de active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304835A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110738090A (zh) * | 2018-07-19 | 2020-01-31 | 塔塔咨询服务公司 | 使用神经网络进行端到端手写文本识别的系统和方法 |
CN111027443A (zh) * | 2019-12-04 | 2020-04-17 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
Non-Patent Citations (2)
Title |
---|
Curved scene text detection via transverse and longitudinal sequence connection;Yuliang Liu等;《Pattern Recognition》;20190630;全文 * |
Dynamic temporal residual network for sequence modeling;Ruijie Yan等;《IJDAR 22》;20190702;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20220058420A1 (en) | 2022-02-24 |
CN112926372A (zh) | 2021-06-08 |
DE102021209201A1 (de) | 2022-02-24 |
KR20220023819A (ko) | 2022-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926372B (zh) | 基于序列变形的场景文字检测方法及系统 | |
CN109165376B (zh) | 基于少量样本的风格字符生成方法 | |
CN109948714B (zh) | 基于残差卷积和递归神经网络的中文场景文本行识别方法 | |
EP3963516B1 (en) | Teaching gan (generative adversarial networks) to generate per-pixel annotation | |
CN110826596A (zh) | 一种基于多尺度可变形卷积的语义分割方法 | |
CN110766050B (zh) | 模型生成方法、文本识别方法、装置、设备及存储介质 | |
CN110826457B (zh) | 一种复杂场景下的车辆检测方法及装置 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
US11809519B2 (en) | Semantic input sampling for explanation (SISE) of convolutional neural networks | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
Shan et al. | Robust encoder-decoder learning framework towards offline handwritten mathematical expression recognition based on multi-scale deep neural network | |
KR20220034076A (ko) | 문자부호 생성 모델의 훈련 방법, 문자부호 생성 방법, 장치 및 설비 | |
CN111104912A (zh) | 一种书法字体类型与文字内容同步识别方法 | |
CN110503090B (zh) | 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 | |
Nakaune et al. | Skeleton-aware Text Image Super-Resolution. | |
Hemanth et al. | CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION. | |
Srivatsan et al. | Scalable font reconstruction with dual latent manifolds | |
CN113743315B (zh) | 一种基于结构增强的手写体初等数学公式识别方法 | |
CN113177599A (zh) | 一种基于gan的强化样本生成方法 | |
Bacochina et al. | Element-Wise Attention Layers: an option for optimization | |
CN111882563B (zh) | 一种基于方向性全卷积网络的语义分割方法 | |
CN115761383B (zh) | 一种图像分类方法、装置、电子设备及介质 | |
CN116091779B (zh) | 一种基于水文数据进行预测的方法及系统 | |
Khan et al. | Pashtu numerals recognition through convolutional neural networks | |
CN113392840B (zh) | 基于多尺度分割融合的实时语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |