CN108509953A

CN108509953A - 一种电视台标检测识别方法

Info

Publication number: CN108509953A
Application number: CN201810324448.7A
Authority: CN
Inventors: 王康; 王俊涛; 刘宇; 李峰岳; 王明良; 曲宝珠; 王运侠; 邓曦
Original assignee: Nanjing Beacon World Communication Technology Co Ltd
Current assignee: Nanjing Beacon World Communication Technology Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-09-07

Abstract

本发明涉及一种电视台标检测识别方法，属于图像检测识别技术领域。该方法包括如下步骤：(1)收集台标图片样本，并标注图片相应的台标位置，将目标检测各帧图像作尺寸归一化处理；(2)设置TB‑Net网络训练的学习率、迭代次数等参数；(3)将归一化后的图像送入TB‑Net网络进行训练，提取图像的初级特征和抽象特征，并送入位置回归和分类层，训练后得到最佳台标检测模型；(4)测试程序加载台标检测模型和网络，将待检测的图片送入网络，并输出该帧图像是否包含台标及台标所在位置。本发明可以更加精确的检测视频图片中的台标，提高台标识别的准确率。

Description

一种电视台标检测识别方法

技术领域

本发明涉及一种电视台标检测识别方法，属于图像检测识别技术领域。

背景技术

随着互联网和电视广播技术的蓬勃发展，越来越多的电台、网络视频文件在互联网中传播，利用计算机视觉系统识别视频或图像中的台标，可以为广播电视监管工作带来更多的便利，因此各种台标检测识别技术应运而生。目前存在的主流台标检测算法主要包括：基于颜色直方图，空间分布直方图，普通Hu不变距，加权Hu不变距等技术。

目前基于空间直方图或不变距的传统检测算法，都存在着一定的不足之处。首先对于相似台标识别比较困难，准确率不高，图像背景的复杂多变以及噪声的存在都会对台标识别造成比较大的影响。其次台标检测识别的效率不高，在互联网中存在的大规模多媒体数据中，现有台标检测识别算法难以满足实时检测要求。

发明内容

为了更加精确的检测视频图片中的台标，提高台标识别的准确率，我们提出了一种电视台标检测识别方法，使用烽火自主研发的TB-Ne实现检测图像或视频中的电视台标。这是一种基于Deep Learing神经网络的目标检测技术，抗噪声和复杂背景的干扰能力较强，并且效率较高，最快可达100FPS。

本发明为解决其技术问题采用如下技术方案：

一种电视台标检测识别方法，包括如下步骤：

(1)收集台标图片样本，并标注图片相应的台标位置，将目标检测各帧图像作尺寸归一化处理；

(2)设置TB-Net网络训练的学习率、迭代次数相关参数；

(3)将归一化后的图像送入TB-Net网络进行训练，提取图像的初级特征和抽象特征，并送入位置回归和分类层，训练后得到最佳台标检测模型；

(4)测试程序加载台标检测模型和网络，将待检测的图片送入网络，并输出该帧图像是否包含台标及台标所在位置。

步骤(2)中所述TB-Net采用FiberNet-3网络。

所述FiberNet-3是包括基础网络和抽象特征层，所述抽象特征层为三级尺度抽象特征层。

本发明的有益效果如下：

(1)TB-Net可以提取图像的深度特征，相对传统台标检测算法，抗复杂背景和噪声干扰能力更强。

(2)对相似台标的检测效果更好。多种相似台标同时存在时，TB-Net仍然可以良好区分，并达到较高准确率。

(3)台标检测效率大幅提高，可以达到实时检测要求。TB-Net的检测速率最快可达100FPS。

附图说明

图1为TB-Net网络结构图。

图2为不同尺度feature map的感受野示意图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

1.TB-Net结构

TB-Net网络基本结构如图1所示，主要分为三个部分：特征提取网络、多尺度特征集、类别和位置回归。

a)特征提取网络：FiberNet-3

基于深度学习的台标检测算法首先提取图像的抽象特征，TB-Net使用FiberNet-3网络实现。FiberNet-3是烽火自主研发的专门用于提取台标图像特征的神经网络结构，主要包含两个部分：基础网络和抽象特征层。

1)基础网络层

FiberNet-3基础网络部分可使用比如AlexNet、VGGNet、GoogleNet等通用性网络，本发明为提升检测效率，基础网络使用AlexNet前四层，并调优相关卷积核参数，加大了每层的feature map(特征图)尺度。特征层分辨率的提高，有助于提高小目标检测效果。

2)抽象特征层

抽象特征层是连接在基础网络之后，抽取图像深层特征的卷基层，并专门为台标检测提供特征信息，抽象特征层分为三个尺度，抽象特征层的feature map越大，其感受野越小，可检测的目标尺度也越小。如图2所示：feature map越小的层，其在原图的感受视野越大。所以三级抽象特征可完成对大型目标、中等目标和小目标的分工检测。

b)多尺度台标特征集

多尺度台标特征集是指使用三种尺度的抽象特征，用于检测台标网络，多尺度台标特征集的实现包括以下两个部分：original region(原始区域)和抽象特征卷积。

1)original region定义

抽象特征层的feature map中每个特征点定义若干数量的original region，original region尺寸和宽高比可设。根据三级抽象特征层featu map以及感受野的不同，确定三组original region的区域大小和宽高比参数，来提取三级尺度特征。originalregion根据与Ground Truth(真实值)的IoU(交并比)阈值，分为正区域和负区域，模型训练时以供类别和位置回归使用。IoU是两个区域面积交集与并集的比值，反应了originalregion与Ground Truth区域的面积重合率。

2)抽象特征卷积

抽象特征层的original region确定后，使用多个filter(滤波器)分别在三个尺度的抽象特征层中滑动卷积，为损失函数层提供不同尺度的分类和位置回归信息。

c)类别和位置回归

1)类别回归

类别回归的方式包括Logic回归、Softmax回归、Lasso回归等方式，TB-Net采用了Softmax回归方式实现台标分类。Softmax回归模型容易实现，且梯度稳定，函数定义如下：

其中：x⁽ⁱ⁾为第输入特征向量，y⁽ⁱ⁾为输出类别，θ为模型参数矩阵，p为表示模型输出概率值，θ_j、θ_k为模型参数矩阵的列向量，T为矩阵和向量的转置符。

2)位置回归

位置回归是指在模型训练过程中，不断调整prediction region(预测区域)的位置(x，y，w，h)，使predictionregion不断朝GroundTruth的区域偏移，使得二者的IoU指最大化，这也是TB-Net位置回归的目的所在。

2.检测过程及原理

a)图像归一化

TB-Net首先对送入网络的图像进行尺度归一化，归一化尺度可以设置为320*320、480*480、640*640三种尺度，为提高台标检测网络的速度，TB-Net选择的归一化尺度为320*320。

b)特征提取

FiberNet-3是TB-Net专门用来提取特征的子网络，网络前四层提取图像的浅层特征，后面的三个抽象特征层是专门用来提取图像深度特征，并从三个尺度为台标检测提供类别和位置回归信息。FiberNet-3各卷基层的参数如下表所示：

FiberNet-3网络层参数(k：Kernel Size(卷积核尺寸)；p：Padding(边缘扩充)；s：Stride(步长))

c)类别和位置回归

网络提取到三个尺度的抽象特征后，将对提取到的特征进行分类和位置回归。TB-Net将根据损失值反向传播，自动调节网络参数，使模型分类和位置参数达到最优效果。TB-Net经过训练可自动拟合出最佳参数，并输出图像对应的台标类型和台标位置。

1)稀疏区域和密集区域

为加快模型训练效率，加快收敛速度，根据台标在图像中分布的规律，我们定义了台标密集分布区域台标稀疏分布区域。模型训练过程中，分别计算两种区域的损失值，并且为密集区域损失值添加惩罚因子，通过这种方式可以有效的提高模型训练效率。

将归一化为320*320后的图像分为4*4十六块区域，通过大量统计表明，绝大部分台标分布于四个角落区域，这四块区域定义为台标密集区，其他区域则是台标稀疏区。

2)损失函数

TB-Net的损失函数定义如下：

上式中，M、N别为稀疏区域和密集区域的original region数量，x为特征向量，c为分类置信度，l为预测区域坐标，g为GroundTruth(真实值)坐标。β为密集区损失值惩罚因子，β越大表明密集区域损失值权重越大。L_{sparse_conf}(x,c)和L_{dense_conf}(x,c)分别表示台标稀疏区域和密集区域的置信度损失值，是不同台标类别的Softmax损失值，此处不作详细介绍。L_{sparse_loc}(x,c)和L_{dense_loc}(x,c)分别表示台标稀疏区域和密集区域的位置损失值。

下面以密集区域位置损失值L_{dense_conf}(x,c)为例，介绍TB-Net位置回归原理。

上式中，smooth_L1为位置回归使用的损失函数，x为特征向量，l为预测区域坐标，g为GroundTruth(真实值)坐标，N为稠密区域预测区域正样本数量，w为预测区域横坐标，h为预测区域纵坐标,为转化后的预测坐标值，为为转化后的实际坐标值，为第i个预测区域匹配是否匹配第j个类别为p的GroundTruth区域，如果匹配该值为1，反之为0。

参考上文，original region根据和Ground Truth的面积重合比即IoU值分为正区域和负区域。位置损失函数中，只计算正区域坐标差值，原因在于original region位置回归过程中，计算负样本的损失值没有意义。

特征提取网络FiberNet-3的基础网络，除了AlexNet外，也可以使用VGGNet或GoogleNet替代，替代后检测速度会有所下降，具体检测效果不明。

抽象特征层的实现不仅可以使用三级尺度抽象卷积，也可以使用单尺度或更多尺度进行尝试。

台标检测网络使用Softmax实现分类，在提取到图像的抽象特征后，也可以使用其他分类器实现，比如SVM(支持向量机)分类器。

Claims

1.一种电视台标检测识别方法，其特征在于，包括如下步骤：

(2)设置TB-Net网络训练的学习率、迭代次数相关参数；

2.根据权利要求1所述的一种电视台标检测识别方法，其特征在于，步骤(2)中所述TB-Net采用FiberNet-3网络。

3.根据权利要求2所述的一种电视台标检测识别方法，其特征在于，所述FiberNet-3是包括基础网络和抽象特征层，所述抽象特征层为三级尺度抽象特征层。