CN111368703A

CN111368703A - 一种基于fpn的台标检测与识别的方法

Info

Publication number: CN111368703A
Application number: CN202010132453.5A
Authority: CN
Inventors: 袁三男; 孙哲; 刘志超
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-03

Abstract

本发明提供一种基于FPN的台标检测与识别的方法，建立台标数据库，搭建神经网络，以FPN作为候选区域生成网络的特征提取器，目标检测算法Fast RCNN作为主网络，开始初始化网络，训练网络模型随后将测试数据输入已训练好的FPN网络模型，对输入的测试样本进行特征提取得到特征图送入RPN网络，此网络在输入的测试样本特征图上生成候选区域，分类回归网络对最终筛选出的候选框内的测试样本特征进行识别分类，对比两种模型的检测结果，经过改进的基于FPN的台标检测与识别的方法比传统Faster RCNN的识别检测方法准确率得到极大地提升。

Description

一种基于FPN的台标检测与识别的方法

技术领域

本发明涉及台标检测及识别技术领域，特别是，涉及一种基于FPN的台标检测与识别的方法。

背景技术

目前，台标检测识别中相似台标的识别率通常略低，如中央1-15，这些台标标识在某些视频中只有CCTV后数字不同的差别，这种典型的现象就是样本图片识别中的细粒度现象，机器学习中，普通网络结构及目标检测算法很难达到较高的正确率，并且将这些相似台标区分开来。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

因此，本发明要解决的技术问题在于克服现有技术中普通网络结构及目标检测算法很难达到较高的正确率以及将这些相似台标区分开来的缺陷，从而提供种基于FPN的台标检测与识别的方法。

为解决上述技术问题，本发明提供如下技术方案：一种基于FPN的台标检测与识别的方法，包括，

建立台标数据库；

搭建神经网络，训练网络模型；

对输入的视频信号进行取个别帧作为测试数据；

将测试数据输入已训练好的FPN网络模型，对输入的测试样本进行特征提取得到特征图送入RPN网络，此网络在输入的测试样本特征图上生成候选区域；

分类回归网络对最终筛选出的候选框内的测试样本特征进行识别分类；

若视频帧画面中除中央台台标外其余部分包含数字，此时候选区域较多且杂乱，设置阈值t，使与中央台标签框有交集且交集面积大于t的数字标签框留下其余舍弃，再标注出识别结果；

对比两种模型的检测结果

作为本发明所述基于FPN的台标检测与识别的方法的一种优选方案，其中：所述建立台标数据库需进行如下步骤的预处理：

运行图像标记工具labeling对3677张样本图片写标签，即在样本图片上框出台标所在区域并标明该台标类别，生成与图像对应的xml文件；

针对相似度较高的台标(如中央1-15)识别率通常略低的问题，对此类样本做如下处理，将中央系列的细微差别处单独作标记框记为标签(1-15)，整体的中央台台标作为另一标记框记为标签CCTV；

按照Pascal voc2007的数据格式将原始图像制作为标准的数据集，把数据分为2组，每个类别的70％用于训练，30％用于测试和验证。

作为本发明所述基于FPN的台标检测与识别的方法的一种优选方案，其中：所述搭建神经网络结构具体为：同时利用低层特征高分辨率(位置信息)和高层特征的高语义信息(特征信息)，通过融合这些不同层的特征达到预测的效果，加入FPN作为候选区域生成网络的特征提取器。

作为本发明所述基于FPN的台标检测与识别的方法的一种优选方案，其中：所述训练网络模型首先搭建训练平台环境，运行代码，当网络达到训练次数时停止训练。

作为本发明所述基于FPN的台标检测与识别的方法的一种优选方案，其中：所述分类回归网络对最终筛选出的候选框内的测试样本特征进行识别分类，其输出层通过激活函数得到对应每个类别的输出值，设定阈值r，当输出类别对应的输出值大于r时则标注出识别结果。

作为本发明所述基于FPN的台标检测与识别的方法的一种优选方案，其中：所述若视频帧画面中除中央台台标外其余部分包含数字，此时候选区域较多且杂乱，通过设定模型产生的CCTV目标窗口和数字标记窗口的交叠率判定最终的检测窗口即CCTV检测窗口(CCTV Testing window)和数字检测窗口(Number Testing window)的交集比上它们的并集，具体方程式为：

其中:设定t为0.5，即t大于等于0.5时认为检测到了最终窗口。

作为本发明所述基于FPN的台标检测与识别的方法的一种优选方案，其中：在已搭建号的训练平台环境，训练传统的Faster RCNN网络，将测试样本依次输入训练好的两个网络模型中进行验证测试，采用的评价指标的准确率具体方程式为：

P＝TP/(TP+FP)

其中TP为检测出正例，FP为未检测出或检测错误的正例；即检测为正例的样本占正例样本的比例。

本发明的有益效果：

本发明提供一种基于FPN的台标检测与识别的方法，通过使用基于FPN的识别与检测方法，能够清晰区分开相似台标，并且极大地提高了台标识别率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明基于FPN的台标检测与识别的方法流程图；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本实施例提供一种基于FPN的台标检测与识别的方法，具体步骤如下：

1)建立台标数据库，合计约五千张样本。共有15个类，包括中央1-15卫星卫视，并利用labeling进行人工标记，标记时将中央系列的细微差别处单独作标记框记为标签(1-15)，整体的中央台台标作为另一标记框记为标签CCTV；

2)搭建神经网络，FPN作为候选区域生成网络的特征提取器，目标检测算法FastRCNN作为主网络；

3)初始化网络，训练网络模型；

4)将测试数据输入已训练好的FPN网络模型，对输入的测试样本进行特征提取得到特征图送入RPN网络，此网络在输入的测试样本特征图上生成候选区域。分类回归网络对最终筛选出的候选框内的测试样本特征进行识别分类，其输出层通过激活函数得到对应每个类别的输出值，设定阈值r，当输出类别对应的输出值大于r时则标注出识别结果；

5)若视频帧画面中除中央台台标外其余部分包含数字，此时候选区域较多且杂乱，设置阈值t，使与CCTV标签框有交集且交集面积大于t的数字标签框留下其余舍弃，再标注出识别结果；

6)对比两种模型的检测结果，经过多特征提取网络改进的算法比传统FasterRCNN算法的准确率提升了1.7％左右。

进一步，所述步骤1中，通过对16个卫视的视频取帧获取样本图片转化为原始数据库，并对其作如下预处理：

预处理1:运行图像标记工具labeling对3677张样本图片写标签，即在样本图片上框出台标所在区域并标明该台标类别，生成与图像对应的xml文件。

预处理2:针对相似度较高的台标(如中央1-15)识别率通常略低的问题，对此类样本做如下处理，将中央系列的细微差别处单独作标记框记为标签(1-15)，整体的中央台台标作为另一标记框记为标签CCTV。

预处理3：按照Pascal voc2007的数据格式将原始图像制作为标准的数据集。把数据分为2组，每个类别的70％用于训练，30％用于测试和验证。

人工标记可能存在误差，但只是极少数，这种极少数误差相较于大量样本来说对神经网络的学习产生的影响可以忽略不计。

进一步，所述步骤2中，本文搭建的网络结构如下：为同时利用低层特征高分辨率(位置信息)和高层特征的高语义信息(特征信息)，通过融合这些不同层的特征达到预测的效果，加入FPN作为候选区域生成网络的特征提取器。它在提取图像特征时主要分为三个部分：自底向上的线路，自顶向下的线路，横向连接。自底向上的线路即CNN的前向卷积过程。在前向过程中，通过卷积运算来提取图像特征，通过池化操作(最大值池化、平均值池化等)构建下采样层来降低特征的尺寸和防止过拟合。这样就形成了一系列特征图(featuremap)。feature map的大小在经过某些层后会改变，而在经过其他一些层的时候不会改变，将不改变feature map大小的层归为一个stage，因此每次抽取的特征都是每个stage的最后一个层输出，这样就构成了特征金字塔。我们利用这一部分作为分类回归网络的特征提取网络。自顶向下的过程采用上采样进行，上采样一般采用内插值方法，即在原有特征图像像素的基础上在像素点之间采用合适的插值算法插入新的元素，从而将高层特征图扩大为和下一层特征图具有相同大小的尺寸，进而向下融合。横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行一维卷积后融合。

Faster R-CNN算法首先使用FPN通过卷积和池化对训练样本进行特征提取，然后将提取的特征图送入RPN网络。RPN网络即是候选区域生成网络，它首先在提取的特征图上为每一个特征点配备9种(3种比例×3种面积)矩形框(anchors)作为初始检测框；接着使用Softmax多任务分类器判断anchors里哪些是存在检测目标的positive anchors，初步选取出positive anchors作为候选区域；再利用多任务损失函数(式1)进行边界框回归修正初步选取的候选区域获得精确的预测窗口。

其中，pi是第i个anchor是否是一个目标的可能性。如果anchor为正，标签P*就是1(目标)，反之P*为0(背景)。Ti为向量，表示对预测窗口进行校准的四个参数化坐标。Lcls是分类损失，Lreg是回归损失，两者结合形成损失函数L。接着Rol池化层收集输入的featuremaps和proposals，综合这些信息后提取proposal feature maps一起送入后续的分类回归网络——全连接层(Classification)判定目标类别。全连接层利用proposal featuremaps计算proposal的类别，同时再次进行边界框回归获得检测框最终的精确位置。

进一步，所述步骤3中，首先搭建训练平台环境：使用python3.7作为编程语言，操作系统Ubuntu16.04；GPU，驱动cuda10.0，软件为pytorch1.0+pycharm。将学习率定位0.001，训练次数为100；将归一化预处理后的样本输入到该网络输入层。运行代码，当网络达到训练次数时停止训练。

进一步，所述步骤4中，所用激活函数为多分类函数Softmax(式2)

该式表示样本向量z属于第j个分类的概率，共有k个类别。该函数它的值域是[0,1]，输出的是该测试样本是某一类别的概率值，所有类别的概率值总和为1。通过几次训练根据准确率设定阈值r，当选取r为0.8时识别准确率达到97.887％，当输出类别对应的输出值大于0.8时即该样本为某类别的概率大于0.8，则标注该类别为识别结果

进一步，所述步骤5中，通过设定模型产生的CCTV目标窗口和数字标记窗口的交叠率判定最终的检测窗口即CCTV检测窗口(CCTV Testing window)和数字检测窗口(NumberTesting window)的交集比上它们的并集(式3)

设定t为0.5，即t大于等于0.5时认为检测到了最终窗口。

进一步，所述步骤6中，按照步骤3的方法训练传统的Faster RCNN网络，将测试样本依次输入训练好的两个网络模型中进行验证测试，采用的评价指标为准确率(式4)

P＝TP/(TP+FP) (4)

其中TP为检测出正例，FP为未检测出或检测错误的正例；即检测为正例的样本占正例样本的比例

基于FPN的部分检测结果：

传统Faster RCNN的部分检测结果

由上述两份表格可知，基于FPN目标检测方法，比传统Faster RCNN算法的准确率提升了1.7％左右。

重要的是，应注意，在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案，但参阅此公开内容的人员应容易理解，在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下，许多改型是可能的(例如，各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如，温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如，示出为整体成形的元件可以由多个部分或元件构成，元件的位置可被倒置或以其它方式改变，并且分立元件的性质或数目或位置可被更改或改变。因此，所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中，任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构，且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下，可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此，本发明不限制于特定的实施方案，而是扩展至仍落在所附的权利要求书的范围内的多种改型。

此外，为了提供示例性实施方案的简练描述，可以不描述实际实施方案的所有特征(即，与当前考虑的执行本发明的最佳模式不相关的那些特征，或于实现本发明不相关的那些特征)。

应理解的是，在任何实际实施方式的开发过程中，如在任何工程或设计项目中，可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的，但对于那些得益于此公开内容的普通技术人员来说，不需要过多实验，所述开发努力将是一个设计、制造和生产的常规工作。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于FPN的台标检测与识别的方法，其特征在于：包括，

建立台标数据库；

搭建神经网络，训练网络模型；

对输入的视频信号进行取个别帧作为测试数据；

对比两种模型的检测结果。

2.根据权利要求1所述基于FPN的台标检测与识别的方法，其特征在于：所述建立台标数据库需进行如下步骤的预处理：

3.根据权利要求1所述基于FPN的台标检测与识别的方法，其特征在于：所述搭建神经网络结构具体为：同时利用低层特征高分辨率(位置信息)和高层特征的高语义信息(特征信息)，通过融合这些不同层的特征达到预测的效果，加入FPN作为候选区域生成网络的特征提取器。

4.根据权利要求1所述基于FPN的台标检测与识别的方法，其特征在于：所述训练网络模型首先搭建训练平台环境，运行代码，当网络达到训练次数时停止训练。

5.根据权利要求1所述基于FPN的台标检测与识别的方法，其特征在于：所述分类回归网络对最终筛选出的候选框内的测试样本特征进行识别分类，其输出层通过激活函数得到对应每个类别的输出值，设定阈值r，当输出类别对应的输出值大于r时则标注出识别结果。

6.根据权利要求1所述基于FPN的台标检测与识别的方法，其特征在于：所述若视频帧画面中除中央台台标外其余部分包含数字，此时候选区域较多且杂乱，通过设定模型产生的CCTV目标窗口和数字标记窗口的交叠率判定最终的检测窗口即CCTV检测窗口(CCTVTesting window)和数字检测窗口(Number Testing window)的交集比上它们的并集，具体方程式为：

其中:设定t为0.5，即t大于等于0.5时认为检测到了最终窗口。

7.据权利要求4所述基于FPN的台标检测与识别的方法，其特征在于：在已搭建号的训练平台环境，训练传统的Faster RCNN网络，将测试样本依次输入训练好的两个网络模型中进行验证测试，采用的评价指标的准确率具体方程式为：

P＝TP/(TP+FP)