CN109447078B

CN109447078B - 一种自然场景图像敏感文字的检测识别方法

Info

Publication number: CN109447078B
Application number: CN201811239283.XA
Authority: CN
Inventors: 苟旭; 王勇; 朱斌
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2020-11-06
Anticipated expiration: 2038-10-23
Also published as: CN109447078A

Abstract

本发明公开一种自然场景图像敏感文字的检测识别方法，包括步骤：获取训练样本，训练样本数据包括自建的自然场景敏感文字数据集和公开的文字数据集；建立基于改进DSSD网络的敏感文字直接识别模型并进行训练学习；在自然场景中获取测试样本图像，将测试样本图像输入所述敏感文字直接识别模型，对测试图像中的敏感文字进行检测和识别，实现对自然场景下多方向、变化复杂的文本区域的敏感词识别。本发明解决了基于单字符进行识别的稳定性，又解决了字符样本问题，简化识别过程，大大提高了自然场景中敏感文字的检测识别速度和精度；能够对自然场景下多方向、变化复杂的文本区域的敏感词进行识别。

Description

一种自然场景图像敏感文字的检测识别方法

技术领域

本发明属于图像检测识别技术领域，特别是涉及一种自然场景图像敏感文字的检测识别方法。

背景技术

在自然场景中，场景文本作为一种常见的视觉对象，广泛存在于各种场合中，如街边，墙壁上等。由于自然场景中文字背景复杂，方向、大小及尺度多变，又常受材质，灯光等不可控因素的影响，具有极大的多样性和明显的不确定性。如文字中包含多种语言，每种语言含有多种字符，每个字符又可以有不同的大小、字体、颜色、亮度、对比度等；文字通常以文本行的形式存在，但文本行可能有不同的排列和对齐方式，如：多行，横向、竖向、弯曲等多种情况；再有，因拍摄图像的随意性，图像中的文字区域还可能会产生变形(透视和仿射变换)、残缺、模糊断裂等现象。而中文字符常用的就有3000多个，加上不常用的，如果按照传统方法，每个字符均采集样本进行训练，势必需要海量样本和标注，所以自然场景中文字的检测与识别一直是一个技术难点。

传统的文本检测方法有很多，且通常包含多个处理步骤，为了让各模块正常工作，不同应用场合经常使用不同的参数，故这样的方法不仅需要花费大量时间和精力经常性的对参数进行调节，还会降低检测速度。

发明内容

为了解决上述问题，本发明提出了一种自然场景图像敏感文字的检测识别方法，解决了基于单字符进行识别的稳定性，又解决了字符样本问题，简化识别过程，大大提高了自然场景中敏感文字的检测识别速度和精度；能够对自然场景下多方向、变化复杂的文本区域的敏感词进行识别。

为达到上述目的，本发明采用的技术方案是：一种自然场景图像敏感文字的检测识别方法，包括步骤：

S100，获取训练样本，训练样本数据包括自建的自然场景敏感文字数据集和公开的文字数据集；

S200，建立基于改进DSSD网络的敏感文字直接识别模型并进行训练学习；

S300，在自然场景中获取测试样本图像，将测试样本图像输入所述敏感文字直接识别模型，对测试图像中的敏感文字进行检测和识别，实现对自然场景下多方向、变化复杂的文本区域的敏感词识别。

进一步的是，所述敏感文字直接识别模型为全卷积网络结构，包括文本区域预测模块、形状归一化模块和字符序列识别模块，测试图像依次经过文本区域预测模块、形状归一化模块和字符序列识别模块，获得敏感词识别结果。

进一步的是，所述文本区域预测模块为具有预测文本框的DSSD网络结构，所述形状归一化模块采用双线性采样，所述字符序列识别模块采用CRNN模型。

进一步的是，所述具有预测文本框的DSSD网络结构，在DSSD网络结构中采用目标检测SSD模型中的VGG-16结构，增加6个卷积层，同时兼顾了检测效果和速度；采用1×5滤波器，使产生的矩形感受野符合高宽大的文字区域目标检测，也避免了方形感受野带来的噪音信号，有利于提高检测准确度；在反卷积层采用6个反卷积模块，反卷积模块采用DSSD网络结构增加特征信息，通过反卷积操作得到的新层与同尺度的卷积层进行融合，根据融合结果预测是否有文本和文本框的信息，得到6个尺度的预测结果，对各尺度预测结果进行非最大值抑制算法融合得到文本的位置信息；在检测过程中除了检测分数最高的一个检测框，其余的检测框均产生假阳性结果，通过非最大抑制算法根据类别分别设定重叠阈值来排除检测文本框内产生的假阳性预测结果。

自然场景敏感文字检测与普通目标检测相比，文字区域尺度相对比较小，属于小尺度目标，同时文字区域目标属于无边界目标，因此对检测准确率要求很高；与之相反，常见的普通实例目标只需要检测到70％左右就可以识别出目标；因此敏感文字检测识别对小尺度目标的检测率要求较高，而DSSD通过特征金字塔网络能更好地匹配小目标，降低了漏检的概率；DSSD采用反卷积层将高层语意信息和低层细节信息进行融合，进一步提高了小尺度目标检测准确率。

进一步的是，在所述文本区域预测模块中采用多尺度输入，使用不同尺度的图像作为输入，每训练10个批次的样本就更换一种输入尺度进行学习训练，提升检测的准确性；在所述文本区域预测模块中，使用多类损失函数进行学习训练，解决文本区域预测的2分类问题；所述具有预测文本框的DSSD网络结构，文本框的目标检测参数包括坐标参数和方向参数，通过方向参数实现文本框的方向偏差指导，使文本框区域更加精确。

进一步的是，所述形状归一化模块：由于检测到的文本区域存在尺度和角度差异，为了有效的进行后续字符序列识别，通过双线性采样算法将检测到的文本区域映射到统一尺度和角度，作为字符序列识别模块的输入样本；

双线性采样的特征映射公式：

其中，k为双线性采样核，T为坐标变换矩阵，U为检测到的文本区域，V为映射后统一尺度和角度的文本区域。

进一步的是，所述CRNN模型包括卷积层、循环层和转录层；卷积层把输入的图像进行多次卷积得到特征图，从而得到特征向量序列；循环层预测特征向量序列每一帧的标签分布；转录层将每一帧的预测变为最终的标签序列；在所述CRNN模型通过损失函数联合训练不同类型的网络训练；

在整个所述CRNN模型网络采用随机梯度下降进行训练，梯度由反向传播算法计算；在转录层，采用误差使用前向算法进行反向传播；在循环层，应用随时间反向传播来计算误差；在DSSD网络中，使用ADADELTA自动计算每个维度的学习率。

进一步的是，在所述CRNN模型中采用CNN网络和RNN网络结合构成，通过损失函数联合训练CNN网络和RNN网络：

通过CNN网络中的卷积层和最大池化层来构造CRNN模型的卷积层组件，通过卷积层组件从输入图像中提取特征向量序列，并将特征向量序列作为循环层的输入；

在卷积层的顶部，建立RNN网络作为循环层，循环层预测特征向量序列中每一帧的标签分布；所述RNN网络的循环层通过捕获序列内上下文信息，将误差差值反向传播到卷积层；

在转录层中，将RNN网络所做的每帧预测转换成标签序列，按照每帧预测，对标签序列定义概率；使用这种概率的负对数似然作为训练网络的目标函数时，只需要图像及其相应的标签序列，避免了标注单个字符位置带来的复杂标定和计算；并通过CTC输出层动态规划方法计算所有序列概率，选出概率最大的序列作为输出。

进一步的是，所述敏感文字直接识别模型训练过程，包括步骤：

首先，对文本区域预测模块进行多次迭代训练，完成本文网络结构检测模块的参数初始化；

然后，单独训练字符序列识别模块，进行多次迭代，裁剪敏感文字区域，完成网络结构识别模块的参数初始化；

最后，联合训练不同类型网络，训练样本数据包括自建的自然场景敏感文字数据集和公开的文字数据集。

进一步的是，所述DSSD网络的训练过程包括两个阶段：第一阶段，加载SSD模型初始化DSSD网络，并冻结SSD网络的参数；然后只增加反卷积模型，训练反卷积模型，设置学习率为1e-3和1e-4再分别迭代多次；第二阶段，微调第一阶段的DSSD网络，解冻第一阶段训练时候冻结的所有参数，并添加预测模型，设置学习率为1e-3和1e-4再分别训练多次；

所述CRNN模型的训练过程中：输入裁剪好的文本区域图像；随机赋予权重初始化模型，随机赋予权重满足最终的权重值分布需要服从均值为0且标准差为0.01；训练时权重衰减系数设置为0.004，网络训练动量系数设置为0.9，每一个小批次为32个样本；采用指数衰减法获取学习率，模型在后期可以更稳定,衰减系数为0.9。

采用本技术方案的有益效果：

本发明将每个敏感词汇作为一个整体分类进行学习和训练，结合序列识别，构建了敏感词直接识别模型，既解决了基于单字符进行识别的稳定性，又解决了字符样本问题，简化识别过程，大大提高了自然场景中敏感文字的检测识别速度和精度；

本发明在检测出文本框的基础上，直接对文本序列识别的算法进行识别，避免了汉字样本数据集的问题，只需建立相对少量的敏感词数据集，可以提高识别的精度，后期扩充也较为容易；

本发明提出一个基于改进DSSD的文本识别模型，该模型集成了文本检测和识别，能够对自然场景下多方向、变化复杂的文本区域的敏感词进行识别。

本发明能很好的解决复杂自然场景中非水平文本，长文本识别问题，能够实现有效的检测；由于采用关键字作为分类，而不直接采用单个汉字作为分类，提高灵活性，后期只需加入关键字样本库就可实现扩展；该模型有效地提高了检测的精确度和识别的准确性。

附图说明

图1为本发明的一种自然场景图像敏感文字的检测识别方法流程示意图；

图2为本发明中敏感文字直接识别模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在本实施例中，参见图1所示，本发明提出了一种自然场景图像敏感文字的检测识别方法，包括步骤：

作为上述实施例的优化方案，如图2所示，所述敏感文字直接识别模型为全卷积网络结构，包括文本区域预测模块、形状归一化模块和字符序列识别模块，测试图像依次经过文本区域预测模块、形状归一化模块和字符序列识别模块，获得敏感词识别结果。

所述文本区域预测模块为具有预测文本框的DSSD网络结构，所述形状归一化模块采用双线性采样，所述字符序列识别模块采用CRNN模型。

作为上述实施例的优化方案，所述具有预测文本框的DSSD网络结构，在DSSD网络结构中采用目标检测SSD模型中的VGG-16结构，增加6个卷积层，同时兼顾了检测效果和速度；采用1×5滤波器，使产生的矩形感受野符合高宽大的文字区域目标检测，也避免了方形感受野带来的噪音信号，有利于提高检测准确度；在反卷积层采用6个反卷积模块，反卷积模块采用DSSD网络结构增加特征信息，通过反卷积操作得到的新层与同尺度的卷积层进行融合，根据融合结果预测是否有文本和文本框的信息，得到6个尺度的预测结果，对各尺度预测结果进行非最大值抑制算法融合得到文本的位置信息；在检测过程中除了检测分数最高的一个检测框，其余的检测框均产生假阳性结果，通过非最大抑制算法根据类别分别设定重叠阈值来排除检测文本框内产生的假阳性预测结果。

其中，在所述文本区域预测模块中采用多尺度输入，使用不同尺度的图像作为输入，每训练10个批次的样本就更换一种输入尺度进行学习训练，提升检测的准确性；在所述文本区域预测模块中，使用多类损失函数进行学习训练，解决文本区域预测的2分类问题；所述具有预测文本框的DSSD网络结构，文本框的目标检测参数包括坐标参数和方向参数，通过方向参数实现文本框的方向偏差指导，使文本框区域更加精确。

其中，所述形状归一化模块：由于检测到的文本区域存在尺度和角度差异，为了有效的进行后续字符序列识别，通过双线性采样算法将检测到的文本区域映射到统一尺度和角度，作为字符序列识别模块的输入样本；

双线性采样的特征映射公式：

其中，所述CRNN模型包括卷积层、循环层和转录层；卷积层把输入的图像进行多次卷积得到特征图，从而得到特征向量序列；循环层预测特征向量序列每一帧的标签分布；转录层将每一帧的预测变为最终的标签序列；在所述CRNN模型通过损失函数联合训练不同类型的网络训练；

作为上述实施例的优化方案，在所述CRNN模型中采用CNN网络和RNN网络结合构成，通过损失函数联合训练CNN网络和RNN网络：

作为上述实施例的优化方案，所述敏感文字直接识别模型训练过程，包括步骤：

所述DSSD网络的训练过程包括两个阶段：第一阶段，加载SSD模型初始化DSSD网络，并冻结SSD网络的参数；然后只增加反卷积模型，训练反卷积模型，设置学习率为1e-3和1e-4再分别迭代多次；第二阶段，微调第一阶段的DSSD网络，解冻第一阶段训练时候冻结的所有参数，并添加预测模型，设置学习率为1e-3和1e-4再分别训练多次；

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种自然场景图像敏感文字的检测识别方法，其特征在于，包括步骤：

所述敏感文字直接识别模型为全卷积网络结构，包括文本区域预测模块、形状归一化模块和字符序列识别模块，图像依次经过文本区域预测模块、形状归一化模块和字符序列识别模块，获得敏感词识别结果；所述文本区域预测模块为具有预测文本框的DSSD网络结构，所述形状归一化模块采用双线性采样，所述字符序列识别模块采用CRNN模型；

S300，在自然场景中获取测试样本图像，将测试样本图像输入所述敏感文字直接识别模型，对测试图像中的敏感文字进行检测和识别，实现对自然场景下多方向、变化复杂的文本区域的敏感词识别；

所述具有预测文本框的DSSD网络结构，在DSSD网络结构中采用目标检测SSD模型中的VGG-16结构，增加6个卷积层；采用1×5滤波器，使产生的矩形感受野符合高宽大的文字区域目标检测，也避免了方形感受野带来的噪音信号；在反卷积层采用6个反卷积模块，反卷积模块采用DSSD网络结构增加特征信息，通过反卷积操作得到的新层与同尺度的卷积层进行融合，根据融合结果预测是否有文本和文本框的信息，得到6个尺度的预测结果，对各尺度预测结果进行非最大值抑制算法融合得到文本的位置信息；通过非最大抑制算法根据类别分别设定重叠阈值来排除检测文本框内产生的假阳性预测结果。

2.根据权利要求1所述的一种自然场景图像敏感文字的检测识别方法，其特征在于，在所述文本区域预测模块中采用多尺度输入，使用不同尺度的图像作为输入，每训练10个批次的样本就更换一种输入尺度进行学习训练；在所述文本区域预测模块中，使用多类损失函数进行学习训练；所述具有预测文本框的DSSD网络结构中，文本框的目标检测参数包括坐标参数和方向参数，通过方向参数实现文本框的方向偏差指导。

3.根据权利要求1所述的一种自然场景图像敏感文字的检测识别方法，其特征在于，所述形状归一化模块：通过双线性采样算法将检测到的文本区域映射到统一尺度和角度，作为字符序列识别模块的输入样本；

双线性采样的特征映射公式：

4.根据权利要求1所述的一种自然场景图像敏感文字的检测识别方法，其特征在于，所述CRNN模型包括卷积层、循环层和转录层；卷积层把输入的图像进行多次卷积得到特征图，从而得到特征向量序列；循环层预测特征向量序列每一帧的标签分布；转录层将每一帧的预测变为最终的标签序列；在所述CRNN模型通过损失函数联合训练不同类型的网络训练；

5.根据权利要求4所述的一种自然场景图像敏感文字的检测识别方法，其特征在于，在所述CRNN模型中采用CNN网络和RNN网络结合构成，通过损失函数联合训练CNN网络和RNN网络；

在转录层中，将RNN网络所做的每帧预测转换成标签序列，按照每帧预测，对标签序列定义概率；并通过CTC输出层动态规划方法计算所有序列概率，选出概率最大的序列作为输出。

6.根据权利要求1-5中任一所述的一种自然场景图像敏感文字的检测识别方法，其特征在于，所述敏感文字直接识别模型训练过程，包括步骤：

7.根据权利要求6中所述的一种自然场景图像敏感文字的检测识别方法，其特征在于，

所述CRNN模型的训练过程中：输入裁剪好的文本区域图像；随机赋予权重初始化模型，随机赋予权重满足最终的权重值分布需要服从均值为0且标准差为0.01；训练时权重衰减系数设置为0.004，网络训练动量系数设置为0.9，每一个小批次为32个样本；采用指数衰减法获取学习率。