CN108509953A - 一种电视台标检测识别方法 - Google Patents
一种电视台标检测识别方法 Download PDFInfo
- Publication number
- CN108509953A CN108509953A CN201810324448.7A CN201810324448A CN108509953A CN 108509953 A CN108509953 A CN 108509953A CN 201810324448 A CN201810324448 A CN 201810324448A CN 108509953 A CN108509953 A CN 108509953A
- Authority
- CN
- China
- Prior art keywords
- station symbol
- network
- image
- net
- symbol detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种电视台标检测识别方法,属于图像检测识别技术领域。该方法包括如下步骤:(1)收集台标图片样本,并标注图片相应的台标位置,将目标检测各帧图像作尺寸归一化处理;(2)设置TB‑Net网络训练的学习率、迭代次数等参数;(3)将归一化后的图像送入TB‑Net网络进行训练,提取图像的初级特征和抽象特征,并送入位置回归和分类层,训练后得到最佳台标检测模型;(4)测试程序加载台标检测模型和网络,将待检测的图片送入网络,并输出该帧图像是否包含台标及台标所在位置。本发明可以更加精确的检测视频图片中的台标,提高台标识别的准确率。
Description
技术领域
本发明涉及一种电视台标检测识别方法,属于图像检测识别技术领域。
背景技术
随着互联网和电视广播技术的蓬勃发展,越来越多的电台、网络视频文件在互联网中传播,利用计算机视觉系统识别视频或图像中的台标,可以为广播电视监管工作带来更多的便利,因此各种台标检测识别技术应运而生。目前存在的主流台标检测算法主要包括:基于颜色直方图,空间分布直方图,普通Hu不变距,加权Hu不变距等技术。
目前基于空间直方图或不变距的传统检测算法,都存在着一定的不足之处。首先对于相似台标识别比较困难,准确率不高,图像背景的复杂多变以及噪声的存在都会对台标识别造成比较大的影响。其次台标检测识别的效率不高,在互联网中存在的大规模多媒体数据中,现有台标检测识别算法难以满足实时检测要求。
发明内容
为了更加精确的检测视频图片中的台标,提高台标识别的准确率,我们提出了一种电视台标检测识别方法,使用烽火自主研发的TB-Ne实现检测图像或视频中的电视台标。这是一种基于Deep Learing神经网络的目标检测技术,抗噪声和复杂背景的干扰能力较强,并且效率较高,最快可达100FPS。
本发明为解决其技术问题采用如下技术方案:
一种电视台标检测识别方法,包括如下步骤:
(1)收集台标图片样本,并标注图片相应的台标位置,将目标检测各帧图像作尺寸归一化处理;
(2)设置TB-Net网络训练的学习率、迭代次数相关参数;
(3)将归一化后的图像送入TB-Net网络进行训练,提取图像的初级特征和抽象特征,并送入位置回归和分类层,训练后得到最佳台标检测模型;
(4)测试程序加载台标检测模型和网络,将待检测的图片送入网络,并输出该帧图像是否包含台标及台标所在位置。
步骤(2)中所述TB-Net采用FiberNet-3网络。
所述FiberNet-3是包括基础网络和抽象特征层,所述抽象特征层为三级尺度抽象特征层。
本发明的有益效果如下:
(1)TB-Net可以提取图像的深度特征,相对传统台标检测算法,抗复杂背景和噪声干扰能力更强。
(2)对相似台标的检测效果更好。多种相似台标同时存在时,TB-Net仍然可以良好区分,并达到较高准确率。
(3)台标检测效率大幅提高,可以达到实时检测要求。TB-Net的检测速率最快可达100FPS。
附图说明
图1为TB-Net网络结构图。
图2为不同尺度feature map的感受野示意图。
具体实施方式
下面结合附图对本发明创造做进一步详细说明。
1.TB-Net结构
TB-Net网络基本结构如图1所示,主要分为三个部分:特征提取网络、多尺度特征集、类别和位置回归。
a)特征提取网络:FiberNet-3
基于深度学习的台标检测算法首先提取图像的抽象特征,TB-Net使用FiberNet-3网络实现。FiberNet-3是烽火自主研发的专门用于提取台标图像特征的神经网络结构,主要包含两个部分:基础网络和抽象特征层。
1)基础网络层
FiberNet-3基础网络部分可使用比如AlexNet、VGGNet、GoogleNet等通用性网络,本发明为提升检测效率,基础网络使用AlexNet前四层,并调优相关卷积核参数,加大了每层的feature map(特征图)尺度。特征层分辨率的提高,有助于提高小目标检测效果。
2)抽象特征层
抽象特征层是连接在基础网络之后,抽取图像深层特征的卷基层,并专门为台标检测提供特征信息,抽象特征层分为三个尺度,抽象特征层的feature map越大,其感受野越小,可检测的目标尺度也越小。如图2所示:feature map越小的层,其在原图的感受视野越大。所以三级抽象特征可完成对大型目标、中等目标和小目标的分工检测。
b)多尺度台标特征集
多尺度台标特征集是指使用三种尺度的抽象特征,用于检测台标网络,多尺度台标特征集的实现包括以下两个部分:original region(原始区域)和抽象特征卷积。
1)original region定义
抽象特征层的feature map中每个特征点定义若干数量的original region,original region尺寸和宽高比可设。根据三级抽象特征层featu map以及感受野的不同,确定三组original region的区域大小和宽高比参数,来提取三级尺度特征。originalregion根据与Ground Truth(真实值)的IoU(交并比)阈值,分为正区域和负区域,模型训练时以供类别和位置回归使用。IoU是两个区域面积交集与并集的比值,反应了originalregion与Ground Truth区域的面积重合率。
2)抽象特征卷积
抽象特征层的original region确定后,使用多个filter(滤波器)分别在三个尺度的抽象特征层中滑动卷积,为损失函数层提供不同尺度的分类和位置回归信息。
c)类别和位置回归
1)类别回归
类别回归的方式包括Logic回归、Softmax回归、Lasso回归等方式,TB-Net采用了Softmax回归方式实现台标分类。Softmax回归模型容易实现,且梯度稳定,函数定义如下:
其中:x(i)为第输入特征向量,y(i)为输出类别,θ为模型参数矩阵,p为表示模型输出概率值,θj、θk为模型参数矩阵的列向量,T为矩阵和向量的转置符。
2)位置回归
位置回归是指在模型训练过程中,不断调整prediction region(预测区域)的位置(x,y,w,h),使predictionregion不断朝GroundTruth的区域偏移,使得二者的IoU指最大化,这也是TB-Net位置回归的目的所在。
2.检测过程及原理
a)图像归一化
TB-Net首先对送入网络的图像进行尺度归一化,归一化尺度可以设置为320*320、480*480、640*640三种尺度,为提高台标检测网络的速度,TB-Net选择的归一化尺度为320*320。
b)特征提取
FiberNet-3是TB-Net专门用来提取特征的子网络,网络前四层提取图像的浅层特征,后面的三个抽象特征层是专门用来提取图像深度特征,并从三个尺度为台标检测提供类别和位置回归信息。FiberNet-3各卷基层的参数如下表所示:
FiberNet-3网络层参数(k:Kernel Size(卷积核尺寸);p:Padding(边缘扩充);s:Stride(步长))
c)类别和位置回归
网络提取到三个尺度的抽象特征后,将对提取到的特征进行分类和位置回归。TB-Net将根据损失值反向传播,自动调节网络参数,使模型分类和位置参数达到最优效果。TB-Net经过训练可自动拟合出最佳参数,并输出图像对应的台标类型和台标位置。
1)稀疏区域和密集区域
为加快模型训练效率,加快收敛速度,根据台标在图像中分布的规律,我们定义了台标密集分布区域台标稀疏分布区域。模型训练过程中,分别计算两种区域的损失值,并且为密集区域损失值添加惩罚因子,通过这种方式可以有效的提高模型训练效率。
将归一化为320*320后的图像分为4*4十六块区域,通过大量统计表明,绝大部分台标分布于四个角落区域,这四块区域定义为台标密集区,其他区域则是台标稀疏区。
2)损失函数
TB-Net的损失函数定义如下:
上式中,M、N别为稀疏区域和密集区域的original region数量,x为特征向量,c为分类置信度,l为预测区域坐标,g为GroundTruth(真实值)坐标。β为密集区损失值惩罚因子,β越大表明密集区域损失值权重越大。Lsparse_conf(x,c)和Ldense_conf(x,c)分别表示台标稀疏区域和密集区域的置信度损失值,是不同台标类别的Softmax损失值,此处不作详细介绍。Lsparse_loc(x,c)和Ldense_loc(x,c)分别表示台标稀疏区域和密集区域的位置损失值。
下面以密集区域位置损失值Ldense_conf(x,c)为例,介绍TB-Net位置回归原理。
上式中,smoothL1为位置回归使用的损失函数,x为特征向量,l为预测区域坐标,g为GroundTruth(真实值)坐标,N为稠密区域预测区域正样本数量,w为预测区域横坐标,h为预测区域纵坐标,为转化后的预测坐标值,为为转化后的实际坐标值,为第i个预测区域匹配是否匹配第j个类别为p的GroundTruth区域,如果匹配该值为1,反之为0。
参考上文,original region根据和Ground Truth的面积重合比即IoU值分为正区域和负区域。位置损失函数中,只计算正区域坐标差值,原因在于original region位置回归过程中,计算负样本的损失值没有意义。
特征提取网络FiberNet-3的基础网络,除了AlexNet外,也可以使用VGGNet或GoogleNet替代,替代后检测速度会有所下降,具体检测效果不明。
抽象特征层的实现不仅可以使用三级尺度抽象卷积,也可以使用单尺度或更多尺度进行尝试。
台标检测网络使用Softmax实现分类,在提取到图像的抽象特征后,也可以使用其他分类器实现,比如SVM(支持向量机)分类器。
Claims (3)
1.一种电视台标检测识别方法,其特征在于,包括如下步骤:
(1)收集台标图片样本,并标注图片相应的台标位置,将目标检测各帧图像作尺寸归一化处理;
(2)设置TB-Net网络训练的学习率、迭代次数相关参数;
(3)将归一化后的图像送入TB-Net网络进行训练,提取图像的初级特征和抽象特征,并送入位置回归和分类层,训练后得到最佳台标检测模型;
(4)测试程序加载台标检测模型和网络,将待检测的图片送入网络,并输出该帧图像是否包含台标及台标所在位置。
2.根据权利要求1所述的一种电视台标检测识别方法,其特征在于,步骤(2)中所述TB-Net采用FiberNet-3网络。
3.根据权利要求2所述的一种电视台标检测识别方法,其特征在于,所述FiberNet-3是包括基础网络和抽象特征层,所述抽象特征层为三级尺度抽象特征层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324448.7A CN108509953A (zh) | 2018-04-12 | 2018-04-12 | 一种电视台标检测识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810324448.7A CN108509953A (zh) | 2018-04-12 | 2018-04-12 | 一种电视台标检测识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108509953A true CN108509953A (zh) | 2018-09-07 |
Family
ID=63381763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810324448.7A Pending CN108509953A (zh) | 2018-04-12 | 2018-04-12 | 一种电视台标检测识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509953A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472309A (zh) * | 2018-11-12 | 2019-03-15 | 南京烽火星空通信发展有限公司 | 一种x光安检机图片物体检测方法 |
CN111368703A (zh) * | 2020-02-29 | 2020-07-03 | 上海电力大学 | 一种基于fpn的台标检测与识别的方法 |
CN111368682A (zh) * | 2020-02-27 | 2020-07-03 | 上海电力大学 | 一种基于faster RCNN台标检测与识别的方法及系统 |
CN111444915A (zh) * | 2020-03-26 | 2020-07-24 | 山东云缦智能科技有限公司 | 一种基于边缘检测的电视台台标检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024552A (zh) * | 2012-12-07 | 2013-04-03 | 康佳集团股份有限公司 | 一种电视频道后台识别方法 |
CN106488313A (zh) * | 2016-10-31 | 2017-03-08 | Tcl集团股份有限公司 | 一种台标识别方法及系统 |
-
2018
- 2018-04-12 CN CN201810324448.7A patent/CN108509953A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024552A (zh) * | 2012-12-07 | 2013-04-03 | 康佳集团股份有限公司 | 一种电视频道后台识别方法 |
CN106488313A (zh) * | 2016-10-31 | 2017-03-08 | Tcl集团股份有限公司 | 一种台标识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
JOSEPH REDMON等: "YOLOv3: An Incremental Improvement", 《ARXIV》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472309A (zh) * | 2018-11-12 | 2019-03-15 | 南京烽火星空通信发展有限公司 | 一种x光安检机图片物体检测方法 |
CN111368682A (zh) * | 2020-02-27 | 2020-07-03 | 上海电力大学 | 一种基于faster RCNN台标检测与识别的方法及系统 |
CN111368682B (zh) * | 2020-02-27 | 2023-12-12 | 上海电力大学 | 一种基于faster RCNN台标检测与识别的方法及系统 |
CN111368703A (zh) * | 2020-02-29 | 2020-07-03 | 上海电力大学 | 一种基于fpn的台标检测与识别的方法 |
CN111444915A (zh) * | 2020-03-26 | 2020-07-24 | 山东云缦智能科技有限公司 | 一种基于边缘检测的电视台台标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
WO2021134871A1 (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN106504233B (zh) | 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及系统 | |
CN108509953A (zh) | 一种电视台标检测识别方法 | |
CN107423760A (zh) | 基于预分割和回归的深度学习目标检测方法 | |
CN110363122A (zh) | 一种基于多层特征对齐的跨域目标检测方法 | |
CN110222792A (zh) | 一种基于孪生网络的标签缺陷检测算法 | |
CN101976258B (zh) | 基于对象分割和特征加权融合的视频语义提取方法 | |
CN108288088A (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
CN105354568A (zh) | 基于卷积神经网络的车标识别方法 | |
CN107103326A (zh) | 基于超像素聚类的协同显著性检测方法 | |
CN109543688A (zh) | 一种新型的基于多层卷积神经网络的水表读数检测与识别的方法 | |
CN106529532A (zh) | 一种基于积分特征通道与灰度投影的车牌识别系统 | |
CN106557740B (zh) | 一种遥感图像中油库目标的识别方法 | |
CN105930873B (zh) | 一种基于子空间的自步跨模态匹配方法 | |
CN112949408B (zh) | 一种过鱼通道目标鱼类实时识别方法和系统 | |
CN106250909A (zh) | 一种基于改进视觉词袋模型的图像分类方法 | |
CN110472652A (zh) | 基于语义引导的少量样本分类方法 | |
CN110287952A (zh) | 一种维语图片字符的识别方法及系统 | |
CN109766752B (zh) | 一种基于深度学习的目标匹配和定位方法及系统、计算机 | |
CN112329559A (zh) | 一种基于深度卷积神经网络的宅基地目标检测方法 | |
CN105069774A (zh) | 基于多示例学习与图割优化的目标分割方法 | |
CN108509950A (zh) | 基于概率特征加权融合的铁路接触网支柱号牌检测识别法 | |
CN114663707A (zh) | 基于Faster RCNN改进的少样本目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 211161 Sheng'an Avenue 739, Binjiang Economic Development Zone, Jiangning District, Nanjing City, Jiangsu Province Applicant after: Nanjing beacon World Communication Technology Co., Ltd. Address before: 210019 No. 88 Yunlongshan Road, Jianye District, Nanjing City, Jiangsu Province Applicant before: Nanjing beacon World Communication Technology Co., Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |
|
RJ01 | Rejection of invention patent application after publication |