CN113361432A - 一种基于深度学习的视频文字端到端检测与识别的方法 - Google Patents
一种基于深度学习的视频文字端到端检测与识别的方法 Download PDFInfo
- Publication number
- CN113361432A CN113361432A CN202110662868.8A CN202110662868A CN113361432A CN 113361432 A CN113361432 A CN 113361432A CN 202110662868 A CN202110662868 A CN 202110662868A CN 113361432 A CN113361432 A CN 113361432A
- Authority
- CN
- China
- Prior art keywords
- layer
- text
- feature map
- character
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000010606 normalization Methods 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims 2
- 238000009825 accumulation Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的视频文字端到端检测与识别的方法,属于视频文字处理技术领域。本发明的步骤包括:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果。本发明实现了视频文字端到端的检测与识别,规避了多模块目标不一致而导致误差累积等固有缺陷,减少了工程复杂度。还通过共享特征提取网络优化网络结构,同时由于使用了感受野较大的特征图输入到网络的识别分支中,相比于使用原图进行输入,特征图能够包含更大范围的信息,提高了识别准确率。
Description
技术领域
本发明涉及视频文字处理技术领域,尤其涉及一种基于深度学习的视频文字端到端检测与识别方法。
背景技术
年来,随着社会信息化数字化发展,多媒体信息的广泛传播使得如何从海量的视频、图像中提取信息成为了急切需要解决的问题。视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工,借助视频文字检测识别技术进行视频内容提取与审核等工作,能够大幅提高效率并降低人力成本。
其中,文字检测是指使用文字检测算法对输入的图像进行检测,判断输入图像中是否含有文字,如果图像中包含文字,则进一步地对其在图像中出现的位置进行定位。文字识别是指使用文字识别算法对输入图片中含有的文字信息进行识别,对于输入图片的要求较为严格,需要尽可能只包含含有文字的区域,因此往往是在文字检测成功的前提下进行的。
然而视频图像中的文字信息具有背景复杂、图像模糊、文字的字形字体多样性强、有时字形显示不完整等特点,这些特点注定了对视频文字进行检测与识别是一项难度较大的工作。有效地应用深度学习技术,可以提高视频文字信息提取的速度,从而大幅地减少人力成本,加快审核和内容提取的效率。在本发明的技术方案的实现过程中,发明人发现:现有的两阶段文字检测与识别方法,可能在检测的过程中引入误差,例如对文字区域误检、漏检或检测不完整,导致识别结果出错。因此需要一种基于深度学习的视频文字端到端检测与识别方法来克服现有方法存在的问题。
发明内容
本发明的目的在于,提供一种基于深度学习的视频文字端到端检测与识别的方法,通过共享特征提取网络改善现有的两阶段视频文字检测识别方法中检测结果不准确时容易干扰识别结果的问题,同时提高网络推理的效率。
本发明采用的技术方案如下:
一种基于深度学习的视频文字端到端检测与识别方法,包括如下步骤:
步骤S1:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;
步骤S2:将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果;
所述端到端的文字检测与识别网络的网络结构包括共享特征提取网络、检测分支和识别分支;
所述共享特征提取网络包括顺次连接的输入层、批归一化处理层、非线性激活层、最大池化层和至少四个大卷积层(也可称为卷积单元),并定义N表示共享特征提取网络的大卷积层数量;
其中,每个大卷积层包括若干个顺次连接的瓶颈残差结构,且每个大卷积层包括的瓶颈残差结构的数量可调,所述瓶颈残差结构的输入到输出存在一个恒等映射,且每个瓶颈残差结构的末尾设置有通道注意力机制;
在输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样,以及将第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合,得到特征图MN并作为检测分支的输入特征图,将特征图MN与第N-2至第1个大卷积层进行逐层的特征融合,得到特征图M2并作为识别分支的输入特征图;
所述检测分支包括双向长短记忆网络层、卷积层和全连接层。特征图MN为检测分支双向长短记忆网络层的输入,所述双向长短记忆网络层的输出特征图为全连接层的输入特征图;全连接层后并行两个全连接层,并分别用于获取当前输入图像的文本框位置以及文本框置信度;
所述识别分支包括顺次连接的至少三个大卷积层、至少两层双向长短记忆网络层、至少一层全连接层和一层字符类别概率输出层,其中,识别分支的每个大卷积层包括的瓶颈残差结构数量相同,该瓶颈残差结构与共享特征提取网络的瓶颈残差结构的网络结构相同;
基于非极大值抑制处理对同一图像中的文本框进行冗余剔除处理,再基于当前的各文本框位置,在特征图M2中获取对应的文本区域,并对待识别的视频序列段的所有视频帧图像中的文本区域通过双线性插值将其尺寸缩放为指定尺寸后,再采用文本行拼接法拼接成文本行并作为识别分支的第一个大卷积层的输入特征图;
待识别的视频序列段的文字识别结果为:
基于识别分支输出的各个文本区域的字符类别概率,基于最大字符类别概率得到各文本区域的字符类别的编号,并基于字符类别的编号得到文本区域的文字,从而得到按照文本行中的文本区域序列所对应文字序列;对所述文字序列一次进行去重与去占位空字符处理,得到最终的识别结果。
本发明提供的技术方案至少带来如下有益效果:本发明实现了视频文字端到端的检测与识别,规避了多模块目标不一致而导致误差累积等固有缺陷,减少了工程复杂度。还通过共享特征提取网络优化网络结构,同时由于使用了感受野较大的特征图输入到网络的识别分支中,相比于使用原图进行输入,特征图能够包含更大范围的信息,提高了识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种基于深度学习的视频文字端到端检测与识别的方法的处理过程示意图;
图2是本发明实施例中,采用的端到端的文字检测与识别网络的结构示意图;
图3是本发明实施例中,数据集的建立过程示意图;
图4是本发明实施例中,建立数据集的示意图;
图5是本发明实施例中,检测识别结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
现有的文字检测与文字识别相分离的两阶段方法容易因为检测的不准确进而导致识别的错误。因此本发明实施例中将文字检测方法和文字识别方法进行整合,通过共享特征提取网络,简化部分运算,同时由于使用了感受野较大的特征图输入到网络的识别分支中,相比于使用原图进行输入,特征图能够包含更大范围的信息,减少因为检测结果不准确,导致文本行的部分未被检出,进而使得识别结果错误的问题。
参见图1,在一种可能的实现方式中,本发明实施例提供的基于深度学习的视频文字端到端检测与识别的方法包括下列步骤:
步骤S1:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;
步骤S2:将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果;
所述端到端的文字检测与识别网络的网络结构为:
参见图2,端到端的文字检测与识别网络包括共享特征提取网络、检测分支和识别分支;
所述共享特征提取网络包括顺次连接的输入层(卷积层)、批归一化处理层(BatchNorm)、非线性激活层(如采用ReLU激活函数)、最大池化层(Max Pooling)和至少四个大卷积层(也可称为卷积单元),本发明实施例中,将共享特征提取网络的各大卷积层按照前向传播方向依次标记为:Conv_2_x、Conv_3_x、Conv_4_x、Conv_(N+1)_x,其中N表示共享特征提取网络的大卷积层数量。
其中,每个大卷积层包括若干个顺次连接的瓶颈残差结构,且每个大卷积层包括的瓶颈残差结构的数量可调,所述瓶颈残差结构的输入到输出存在一个恒等映射,且每个瓶颈残差结构的末尾设置有通道注意力机制;
以及将第N个大卷积层的输出特征图(大卷积层输出的过程特征图)与第N-1个大卷积层的输出特征图进行特征融合,得到特征图MN并作为检测分支的输入特征图,将特征图M4与第N-2至第1个大卷积层进行逐层的特征融合,得到特征图M2并作为识别分支的输入特征图;
所述检测分支包括序列特征提取网络层、卷积层和全连接层,检测分支的第一卷积层的输入特征图为特征图MN,检测分支的第一卷积层的输出特征图为序列特征提取网络层的输入特征图,所述序列特征提取网络层(可以是双向LSTM网络,也可以门控循环单元GRU)的输出特征图分别为检测分支的第二和第三卷积层的输入特征图,检测分支的第二卷积层的输出特征图为检测分支的第一全连接层的输入特征图;测分支的第三卷积层的输出特征图为检测分支的第二全连接层的输入特征图;两个全连接层并列,且分别用于获取当前输入图像的文本框位置以及文本框置信度(置信得分);
所述识别分支包括顺次连接的至少三个大卷积层、至少两层序列特征提取网络层、至少一层全连接层和一层字符类别概率输出层,其中,识别分支的每个大卷积层包括的瓶颈残差结构数量相同,该瓶颈残差结构与共享特征提取网络的瓶颈残差结构的网络结构相同;
基于非极大值抑制处理对同一图像中的文本框进行冗余剔除处理,使用文本行拼接算法将文本框拼接成文本行,再基于当前的各文本框位置,在特征图M2中获取对应的文本区域,并对待识别的视频序列段的所有视频帧图像中的文本区域通过双线性插值将其尺寸缩放为指定尺寸(例如40×8)后,再采用文本行拼接法拼接成文本行并作为识别分支的第一个大卷积层的输入特征图;
待识别的视频序列段的文字识别结果为:
基于识别分支输出的各个文本区域的字符类别概率,基于最大字符类别概率得到各文本区域的字符类别的编号,并基于字符类别的编号得到文本区域的文字,从而得到按照文本行中的文本区域序列所对应文字序列;对所述文字序列一次进行去重与去占位空字符处理,得到最终的识别结果。
优选的,在共享特征提取网络的输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样,以及在识别分支的每个大卷积层的第一个瓶颈残差结构中对其输入特征图的高度进行1/2的下采样,因此最终输出的特征图的高度将为输入特征图的1/8,宽度保持不变,。
作为一种可能的实现方式,本发明实施例中,每个瓶颈残差结构包括堆叠的三个卷积层,且第三个卷积层中卷积核的个数为前两个卷积层的4倍。参见图2,即本发明实施例中,每个瓶颈残差结构包括顺次连接的三个卷积块,每个卷积块包括顺次连接的批归一化处理层、非线性激活层和卷积层。
优选的,每个瓶颈残差结构包括的三个卷积层的卷积核大小依次为:1×1,3×3,1×1,且第三个卷积层中卷积核的个数为前两个卷积层的4倍。
在一种可能的实现方式中,所述瓶颈残差结构的通道注意力机制为:分别通过全局平均池化和全局最大池化获取每个通道的两个全局特征,即对瓶颈残差结构的卷积分支的输出特征图(瓶颈残差结构的最后一个卷积层的输出特征图)分别通过全局平均池化和全局最大池化获取每个通道的两个全局特征,在对同一通道的两个全局特征进行平铺并在首尾填充,再由两个卷积核大小为3的一维卷积分别进行局部跨信道交互,得到两个交互后的全局特征。将两个全局特征相加,得到通道权重,再和每个通道的全部像素值进行点乘计算,以实现对每个通道进行赋权,增强有效特征的表示,从而得到瓶颈残差结构的通道注意力机制的输出特征图,进而基于该输出特征图与瓶颈残差结构的输入特征图得到瓶颈残差结构的最终输出特征图。
在一种可能的实现方式中,将共享特征提取网络的第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合具体为:对第N个大卷积层的输出特征图(例如图2中Conv_5_x的输出特征图)使用1×1卷积进行降维(例如降维至512),再与第N-1个大卷积层的输出特征图逐元素相加,经过批归一化处理,得到特征图MN。例如图1中所示的网络结构,则将得到通道数1024,下采样1/16的特征图M4。
在获取特征图M2时,其具体的特征融合处理包括:对当前特征融合得到的特征图采用双线性插值算法进行2倍的上采样,再通过1×1卷积降维,在与前一个大卷积层的输出特征图逐元素相加,经过批归一化处理,得到新的融合的特征图。例如对应于图1中所示的四个大卷积层的结构,对特征图M4采用双线性插值算法进行2倍的上采样,使用通过1×1卷积降维至512维,与Conv_3_x的输出特征图逐元素相加,经过批归一化处理,得到通道数512,下采样1/8的特征图M3,接着对新的融合的特征图M3继续使用双线性插值算法进行2倍的上采样,通过1×1卷积降维至256维,与Conv2的输出特征图逐元素相加,经过批归一化处理,得到通道数256,下采样1/4的特征图M2。
在一种可能的实现方式中,所述端到端的文字检测与识别网络在训练时的损失函数包括:检测分支的损失函数和识别分支的损失函数,其中,检测分支的损失函数包括三部分:关于文本框位置的smooth L1损失函数和关于文本框置信度(置信分)的交叉损失函数;识别分支的损失函数为CTC(Connectionist Temporal Classification)损失。
在一种可能的实现方式中,在本发明实施例中,检测分支的两个全连接层输出中,具体为:第一全连接层用于对每个预设的锚点(anchor,即先验框)进行前后景的分类及高度方向上的偏移与长度的回归计算,得到每个文本框位置,第二全连基层用于基于预设的计算规则计算每个文本框的前后景置信度。
在一种可能的实现方式中,所述文本行拼接法包含如下步骤:
步骤(1):根据锚点(即检测分支获取的文本框)的水平坐标对其进行排序,沿水平正方向寻找与每个锚点i的水平距离小于指定像素值(例如50像素)的候选锚点,由于每个锚点的宽度固定(例如16像素),因此最多正向寻找一定个数的候选锚点(本实施例中对应于16像素的宽度和50像素的间隔,候选锚点的个数为3),将与当前锚点在竖直方向上的交并比大于指定值(例如0.7)且置信分最大的候选锚点j进行选定。
然后对被选定的候选锚点j进行反向寻找,沿水平负方向寻找与其水平距离小于50像素的候选锚点,同样寻找到这些候选锚点中与被选定锚点j在竖直方向上的交并比大于0.7且置信分最大的候选锚点k;
步骤(2):对比锚点i与锚点k的置信分,若锚点i的置信分不小于锚点k的置信分,说明锚点i与锚点j形成的连接是最长连接,在连接图中将G(i,j)置为True;若锚点i的置信分小于锚点k的置信分,说明锚点i与锚点j形成的连接不是最长连接,存在一个更长的连接将锚点i与锚点j包含在其中;
步骤(3):当所有的锚点都寻找到了配对后,一个N×N的连接图就构建完成了,N为锚点的数量。遍历连接图,将端点重合的配对进行组合之后即可得到文本行;
优选的,所述共享特征提取网络包含49个卷积层,除了输入层外组成4个大卷积层,每个大卷积层由若干个瓶颈残差结构组成,个数分别为3个、4个、6个、3个,每个大卷积层的下采样分别为原图大小的1/4,1/8,1/16,1/16。
优选的,本发明实施例中,检测分支中,检测分支的第二卷积层和第三卷积层的卷积核大小均设置为1×1,且第二、三卷积层的卷积核个数分别为40和20。
优选的,非线性激活层采用的ReLU激活函数,字符类别概率输出层采用的激活函数为Softmax,序列特征提取网络层包括的隐藏单元数设置为256。
在一种可能的实现方式中,本发明实施例中,对所述端到端的文字检测与识别网络的训练包括:
(1)设置识别数据集。
将将视频图像中存在的文本区域以行为单位进行标记,标注文本区域的四个角点坐标,获得文本框的左上、右上、左下、右下四个角点的坐标值以及在该区域内的文本信息,该识别数据集包括训练集与测试集。
参见图3,本发明实施例中,设置识别数据集的过程为:
(1-1):截取视频帧:采集清晰度高于720P的视频数据,从中截取画面中存在文本信息的片段,每隔一秒截取一帧画面进行保存,并且剔除含有重复文本信息的图片。
(1-2):标注文本区域:将画面中存在文本信息的区域利用矩形框以行为单位框出,需要确保矩形框覆盖该文本行的全部区域,若同一行文本中存在较大间隔,将其标注为两个文本框。
(1-3):标注文本信息:标注步骤(1-2)中得到的文本区域内存在的文本信息,如图4所示。
(2)将述训练集输入到所设置的端到端的文字检测与识别网络中进行训练,获取训练得到的最优模型后,将测试集输入最优模型获得文字检测与识别结果。
训练时,将识别分支的输出与文本标签通过CTC loss进行损失值的计算,并与检测分支的损失值相加后进行反向传播。
其中,检测分支的损失函数可以设置如下:
式中,Loss(si,vj,ok)表示检测分支的损失函数,其由三部分组成。Ns、Nv分别是用于分类和回归的锚点总数,是每个锚点是否为含有文本的正样本的分类损失,si是预测得到的锚点分类置信分数,表示真实值(即标签值),正样本(前景)为1,否则为0;是对每个锚点中心的y坐标和高度的回归损失,vj是预测得到的锚点在竖直方向上的位置信息,包含vc和vh两个值,是真实值,包含和两个值,vc、vh、的计算公式如公式(1.2)、(1.3)、(1.4)、(1.5)所示,
针对端到端的文字检测与识别网络的识别分支,可根据训练集中每张图片对应的标签文件中的文本框位置信息,在特征图M2中将每个文本框对应区域进行截取,将同一批次的所有图片中的文本框都采用双线性插值法处理,并将文本区域特征拼接成批输入到识别分支中。将识别分支的输出与文本标签通过CTC loss进行损失值的计算,公式如(1.6)所示,
其中,S表示训练数据集。p(l|x)为给定输入x时得到标签l的最高概率。
需要说明的是,本发明实施中所设置的检测分支与识别分支在训练与预测时(基于训练好的网络进行识别处理时)采用不同的连接方式。训练时,根据训练集标签中的位置信息,从特征图M2中裁剪出缩小了对应尺寸的文字区域(例如对应本实施例中所设置的缩放比例,将其缩小为1/4),通过双线性插值将其尺寸缩放至40×8像素。将训练样本中的所有文字区域特征图组合成批数据输入识别网络中继续前向传播。预测时,由于无法获取标签中的位置信息,因此需要根据检测分支的输出,使用文本行拼接法,将检测分支预测到的文本框拼接成行,得到其位置,再从特征图M2中裁剪相应位置,通过双线性插值将其尺寸缩放至40×8像素。将从检测结果得到的所有文本行区域特征图组合成批数据输入识别网络中继续前向传播。
训练时,可采用随机方式的初始化预训练网络参数(网络的权重参数),做好网络训练准备。然后分批次将构建的数据集输入到所构建的网络中进行深度学习训练。可将随机梯度下降作为优化器,对反向传播算法得到的梯度进行优化以调整更新网络参数,直至计算结果与对应标签值之间的差距损失下降到特定阈值范围内,且在一段时间内未发生剧烈震荡(在验证集上的验证精度达到期望阈值范围内),则神经网络训练完毕。保存当前的网络参数,结束网络模型训练。其中,验证精度可以通过F1 score评估检测部分验证集精度,True Positive评估参数来计算识别部分验证集精度。
采用下述网络结构对如测试集中的某幅图像进行识别处理,得到如图5所以的识别结果,图像下方所示的字符串,其中,“149,128,213,129,212,202,147,201”依次表示文本区域序列的坐标位置,即三个文本区域的坐标位置,“l3”表示该文本区域序列所对应的文字识别结果。本实施例中,所采用的网络结构具体为:
网络的共享特征提取网络包含49个卷积层,除输入层外组成4个大卷积层,每个大卷积层依次包括的瓶颈残差结构数量为:3个、4个、6个、3个,每个大卷积层的下采样分别为1/4,1/8,1/16,1/16。每个瓶颈残差结构中有三个卷积层,卷积核大小依次为1×1,3×3,1×1,第三个卷积层中卷积核的个数为前两个卷积层的4倍,同时输入到输出存在一个恒等映射,每个残差结构的卷积分支的末尾加入了通道注意力机制;并在第四个大卷积层的末尾添加特征融合结构,用于获取特征图M4、M3和M2,其中特征图M4、M3和M2各自的通道数分别设置为1024,512,256;从而得到检测分支与识别分支的输入特征图M4和M2;在检测分支的输入上使用步长为1的3×3卷积进行特征提取,调整张量形状后以每一行作为一个序列输入到隐藏单元数为256的双向LSTM层中提取序列特征,再经两个并列的卷积层(卷积核大小为1×1,卷积核个数分别为40或20)进行形状调整后输入神经元个数为512的全连接层中进行特征交互。最后由两个全连接分支对每个预设锚点进行前后景的分类及高度方向上的偏移与长度的回归计算。在识别分支中,采用18个卷积层,组成3个大卷积层,每个大卷积层均由2个残差凭借结构组成,每个大卷积层中的3×3卷积在高度方向上的步长为2,宽度方向上的步长为1,因此最后得到的特征图在宽度方向上相比于原图的下采样为1/4,在高度方向上为1/32。通过特征提取,得到高度为1像素的特征图像,将其平铺后依次输入两个隐藏单元数为256的双向LSTM层中提取序列特征。最后通过全连接层和Softmax激活函数对每种字符类别输出概率。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种基于深度学习的视频文字端到端检测与识别的方法,其特征在于,包括:
步骤S1:对待识别的视频序列段,分别对每一视频帧图像进行图像尺寸归一化处理,以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配;
步骤S2:将预处理后的图像依次输入至端到端的文字检测与识别网络,获取待识别的视频序列段的文字识别结果;
所述端到端的文字检测与识别网络的网络结构包括共享特征提取网络、检测分支和识别分支;
所述共享特征提取网络包括顺次连接的输入层、批归一化处理层、非线性激活层、最大池化层和至少四个大卷积层,并定义N表示共享特征提取网络的大卷积层数量;
其中,每个大卷积层包括若干个顺次连接的瓶颈残差结构,且每个大卷积层包括的瓶颈残差结构的数量可调,所述瓶颈残差结构的输入到输出存在一个恒等映射,且每个瓶颈残差结构的末尾设置有通道注意力机制;
在输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样,以及将第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合,得到特征图MN并作为检测分支的输入特征图,将特征图MN与第N-2至第1个大卷积层进行逐层的特征融合,得到特征图M2并作为识别分支的输入特征图;
所述检测分支包括双向长短记忆网络层、卷积层和全连接层。特征图MN为检测分支双向长短记忆网络层的输入,所述双向长短记忆网络层的输出特征图为全连接层的输入特征图;全连接层后并行两个全连接层,并分别用于获取当前输入图像的文本框位置以及文本框置信度;
所述识别分支包括顺次连接的至少三个大卷积层、至少两层双向长短记忆网络层、至少一层全连接层和一层字符类别概率输出层,其中,识别分支的每个大卷积层包括的瓶颈残差结构数量相同,该瓶颈残差结构与共享特征提取网络的瓶颈残差结构的网络结构相同;
基于非极大值抑制处理对同一图像中的文本框进行冗余剔除处理,再基于当前的各文本框位置,在特征图M2中获取对应的文本区域,并对待识别的视频序列段的所有视频帧图像中的文本区域通过双线性插值将其尺寸缩放为指定尺寸后,再采用文本行拼接法拼接成文本行并作为识别分支的第一个大卷积层的输入特征图;
待识别的视频序列段的文字识别结果为:
基于识别分支输出的各个文本区域的字符类别概率,基于最大字符类别概率得到各文本区域的字符类别的编号,并基于字符类别的编号得到文本区域的文字,从而得到按照文本行中的文本区域序列所对应文字序列;对所述文字序列一次进行去重与去占位空字符处理,得到最终的识别结果。
2.如权利要求1所述的方法,其特征在于,在共享特征提取网络的输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样,以及在识别分支的每个大卷积层的第一个瓶颈残差结构中对其输入特征图的高度进行1/2的下采样。
3.如权利要求1所述的方法,其特征在于,所述瓶颈残差结构包括顺次连接的三个卷积块,每个卷积块包括顺次连接的批归一化处理层、非线性激活层和卷积层。
4.如权利要求4所述的方法,其特征在于,每个瓶颈残差结构包括的三个卷积层的卷积核大小依次为:1×1,3×3,1×1,且第三个卷积层中卷积核的个数为前两个卷积层的4倍。
5.如权利要求1所述的方法,其特征在于,所述瓶颈残差结构的通道注意力机制为:分别通过全局平均池化和全局最大池化获取每个通道的两个全局特征,对同一通道的两个全局特征进行平铺并在首尾填充,再由两个卷积核大小为3的一维卷积分别进行局部跨信道交互,得到两个交互后的全局特征,再将两个交互后的全局特征相加,得到通道权重,再和每个通道的全部像素值进行点乘计算,得到瓶颈残差结构的通道注意力机制的输出特征图,将该输出特征图与瓶颈残差结构的输入特征图相加得到瓶颈残差结构的最终输出特征图。
6.如权利要求1所述的方法,其特征在于,将共享特征提取网络的第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合为:对第N个大卷积层的输出特征图使用1×1卷积进行降维,再与第N-1个大卷积层的输出特征图逐元素相加,经过批归一化处理,得到特征图MN;
将特征图MN与第N-2至第1个大卷积层进行逐层的特征融合为:对当前特征融合得到的特征图采用双线性插值算法进行2倍的上采样,再通过1×1卷积降维,再与前一个大卷积层的输出特征图逐元素相加,经过批归一化处理,得到新的融合的特征图。
7.如权利要求1所述的方法,其特征在于,所述端到端的文字检测与识别网络在训练时的损失函数包括:检测分支的损失函数和识别分支的损失函数,其中,检测分支的损失函数包括三部分:关于文本框位置的smooth L1损失函数和关于文本框置信度的交叉损失函数;识别分支的损失函数为CTC(Connectionist Temporal Classification)损失函数。
8.如权利要求7所述的方法,其特征在于,训练时,将smooth L1损失函数的值与CTC损失函数的值之和作为端到端的文字检测与识别网络的总损失值,并将训练结束条件设置为:总损失值下降到特定阈值范围内,且在验证集上的验证精度达到期望阈值范围内则训练结束。
9.如权利要求1所述的方法,其特征在于,所述检测分支的两个全连接层输出中,具体为:第一全连接层用于对每个预设的锚点进行前后景的分类及高度方向上的偏移与长度的回归计算,得到每个文本框位置,第二全连基层用于基于预设的计算规则计算每个文本框的前后景置信度。
10.如权利要求1所述的方法,其特征在于,所述文本行拼接法包含如下步骤:
根据检测分支获取的文本框的水平坐标对其进行排序,沿水平正方向将与每个文本框i的水平距离小于指定像素值文本框作为其候选文本框,将与当前文本框在竖直方向上的交并比大于指定值且置信分最大的候选文本框j进行选定,对被选定的候选文本框j进行反向寻找,沿水平负方向寻找与其水平距离小于指定像素值文本框作为其候选文本框,并选定候选文本框j的候选文本框k;
对比文本框i与文本框k的置信度,若文本框i的置信度不小于文本框k的置信度,则表示文本框i与文本框j形成的连接是最长连接,将文本框i与j作为一组配对;
当所有的文本框都寻找到了配对后,遍历连接图,将端点重合的配对进行组合之后得到文本行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110662868.8A CN113361432B (zh) | 2021-06-15 | 2021-06-15 | 一种基于深度学习的视频文字端到端检测与识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110662868.8A CN113361432B (zh) | 2021-06-15 | 2021-06-15 | 一种基于深度学习的视频文字端到端检测与识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361432A true CN113361432A (zh) | 2021-09-07 |
CN113361432B CN113361432B (zh) | 2022-03-15 |
Family
ID=77534383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110662868.8A Expired - Fee Related CN113361432B (zh) | 2021-06-15 | 2021-06-15 | 一种基于深度学习的视频文字端到端检测与识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361432B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155540A (zh) * | 2021-11-16 | 2022-03-08 | 深圳市联洲国际技术有限公司 | 基于深度学习的文字识别方法、装置、设备及存储介质 |
CN114724132A (zh) * | 2022-04-11 | 2022-07-08 | 深圳市星桐科技有限公司 | 文本识别模型训练方法、识别方法、装置、介质和设备 |
CN114882266A (zh) * | 2022-03-30 | 2022-08-09 | 什维新智医疗科技(上海)有限公司 | 一种基于神经网络的超声图像的标签识别方法 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN116863456A (zh) * | 2023-05-30 | 2023-10-10 | 中国科学院自动化研究所 | 视频文本识别方法、装置及存储介质 |
CN117037173A (zh) * | 2023-09-22 | 2023-11-10 | 武汉纺织大学 | 一种二阶段的英文字符检测与识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200084427A1 (en) * | 2018-09-12 | 2020-03-12 | Nvidia Corporation | Scene flow estimation using shared features |
CN111242129A (zh) * | 2020-01-03 | 2020-06-05 | 创新工场(广州)人工智能研究有限公司 | 一种用于端到端的文字检测与识别的方法和装置 |
CN112163449A (zh) * | 2020-08-21 | 2021-01-01 | 同济大学 | 一种轻量化的多分支特征跨层融合图像语义分割方法 |
CN112257708A (zh) * | 2020-10-22 | 2021-01-22 | 润联软件系统(深圳)有限公司 | 一种字符级文本检测方法、装置、计算机设备及存储介质 |
CN112883818A (zh) * | 2021-01-26 | 2021-06-01 | 上海西井信息科技有限公司 | 文本图像识别方法、系统、设备及存储介质 |
CN113688821A (zh) * | 2021-09-07 | 2021-11-23 | 四川中电启明星信息技术有限公司 | 一种基于深度学习的ocr文字识别方法 |
-
2021
- 2021-06-15 CN CN202110662868.8A patent/CN113361432B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200084427A1 (en) * | 2018-09-12 | 2020-03-12 | Nvidia Corporation | Scene flow estimation using shared features |
CN111242129A (zh) * | 2020-01-03 | 2020-06-05 | 创新工场(广州)人工智能研究有限公司 | 一种用于端到端的文字检测与识别的方法和装置 |
CN112163449A (zh) * | 2020-08-21 | 2021-01-01 | 同济大学 | 一种轻量化的多分支特征跨层融合图像语义分割方法 |
CN112257708A (zh) * | 2020-10-22 | 2021-01-22 | 润联软件系统(深圳)有限公司 | 一种字符级文本检测方法、装置、计算机设备及存储介质 |
CN112883818A (zh) * | 2021-01-26 | 2021-06-01 | 上海西井信息科技有限公司 | 文本图像识别方法、系统、设备及存储介质 |
CN113688821A (zh) * | 2021-09-07 | 2021-11-23 | 四川中电启明星信息技术有限公司 | 一种基于深度学习的ocr文字识别方法 |
Non-Patent Citations (6)
Title |
---|
BAOGUANG SHI 等: "An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition", 《ARXIV》 * |
DHANANJAY RAM 等: "MULTILINGUAL BOTTLENECK FEATURES FOR QUERY BY EXAMPLE SPOKEN TERM DETECTION", 《2019 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU)》 * |
XUEBO LIU 等: "FOTS: Fast Oriented Text Spotting with a Unified Network", 《ARXIV》 * |
ZHI TIAN 等: "Detecting Text in Natural Image with Connectionist Text Proposal Network", 《ARXIV》 * |
孙婧婧 等: "基于轻量级网络的自然场景下的文本检测", 《电子测量技术》 * |
葛希: "面向深度学习应用的GPU存储优化研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155540A (zh) * | 2021-11-16 | 2022-03-08 | 深圳市联洲国际技术有限公司 | 基于深度学习的文字识别方法、装置、设备及存储介质 |
CN114155540B (zh) * | 2021-11-16 | 2024-05-03 | 深圳市联洲国际技术有限公司 | 基于深度学习的文字识别方法、装置、设备及存储介质 |
CN114882266A (zh) * | 2022-03-30 | 2022-08-09 | 什维新智医疗科技(上海)有限公司 | 一种基于神经网络的超声图像的标签识别方法 |
CN114724132A (zh) * | 2022-04-11 | 2022-07-08 | 深圳市星桐科技有限公司 | 文本识别模型训练方法、识别方法、装置、介质和设备 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN116863456A (zh) * | 2023-05-30 | 2023-10-10 | 中国科学院自动化研究所 | 视频文本识别方法、装置及存储介质 |
CN116863456B (zh) * | 2023-05-30 | 2024-03-22 | 中国科学院自动化研究所 | 视频文本识别方法、装置及存储介质 |
CN117037173A (zh) * | 2023-09-22 | 2023-11-10 | 武汉纺织大学 | 一种二阶段的英文字符检测与识别方法及系统 |
CN117037173B (zh) * | 2023-09-22 | 2024-02-27 | 武汉纺织大学 | 一种二阶段的英文字符检测与识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113361432B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113361432B (zh) | 一种基于深度学习的视频文字端到端检测与识别的方法 | |
Wang et al. | Multiscale visual attention networks for object detection in VHR remote sensing images | |
CN106650725B (zh) | 基于全卷积神经网络的候选文本框生成和文本检测方法 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
CN106951830B (zh) | 一种基于先验条件约束的图像场景多对象标记方法 | |
CN112418236A (zh) | 一种基于多任务神经网络的汽车可行驶区域规划方法 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
CN110598703B (zh) | 一种基于深度神经网络的ocr识别方法及装置 | |
CN110929665A (zh) | 一种自然场景曲线文本检测方法 | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
US20210390410A1 (en) | Local self-attention computer vision neural networks | |
CN112365451A (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 | |
CN112101344B (zh) | 一种视频文本跟踪方法及装置 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115410059B (zh) | 基于对比损失的遥感图像部分监督变化检测方法及设备 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN114330234A (zh) | 版面结构分析方法、装置、电子设备和存储介质 | |
CN113901924A (zh) | 一种文档表格的检测方法及装置 | |
CN114494786A (zh) | 一种基于多层协调卷积神经网络的细粒度图像分类方法 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN112580624A (zh) | 基于边界预测的多方向文本区域检测方法和装置 | |
CN111553361A (zh) | 一种病理切片标签识别方法 | |
CN114708591B (zh) | 基于单字连接的文档图像中文字符检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220315 |
|
CF01 | Termination of patent right due to non-payment of annual fee |