CN103258187A - 一种基于hog特征的电视台标识别方法 - Google Patents

一种基于hog特征的电视台标识别方法 Download PDF

Info

Publication number
CN103258187A
CN103258187A CN2013101314232A CN201310131423A CN103258187A CN 103258187 A CN103258187 A CN 103258187A CN 2013101314232 A CN2013101314232 A CN 2013101314232A CN 201310131423 A CN201310131423 A CN 201310131423A CN 103258187 A CN103258187 A CN 103258187A
Authority
CN
China
Prior art keywords
station
station symbol
size
hog
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101314232A
Other languages
English (en)
Inventor
于俊清
吴玲生
唐九飞
何云峰
管涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2013101314232A priority Critical patent/CN103258187A/zh
Publication of CN103258187A publication Critical patent/CN103258187A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于HOG特征的电视台标识别方法,包括以下步骤:获取所有电视台的台标区域SIZE,获取所有电视台的图片,截取该图片中的台标区域SIZE,并将截取的台标区域存储在各个电视台的模板文件夹中,对每一个截取的台标区域提取HOG特征描述符,使用PCA方法对生成的HOG特征描述符进行降维处理,降维后的维度不大于所有电视台的图片总和,根据降维后的HOG特征描述符训练SVM分类器,其中SVM分类器的类别数被设置为模板文件夹的总数,使用训练生成的SVM分类器识别电视台台标,本发明的电视台标识别方法能够解决现有方法中存在的当台标背景复杂多变、噪声很大时容易识别错误的问题。

Description

一种基于HOG特征的电视台标识别方法
技术领域
本发明属于计算机视觉、模式识别领域,更具体地,涉及一种基于HOG特征的电视台标识别方法。
背景技术
电视台标是区分不同电视台的唯一标识,面对每天庞大的电视节目,通过人工识别方式,不仅效率低下,也容易受到外界干扰。通过对台标的自动匹配识别,不仅能在海量的电视视频序列中正确找出目标台,还能够为电视节目的自动搜索、收录、分析和检索提供有效支持。
目前存在的台标识别算法主要分为两类:基于颜色直方图的台标识别和普通Hu不变矩的台标识别。其中,基于颜色直方图的台标识别是利用不同台标的不同色调进行识别,将待识别的台标提取颜色直方图,与库中预存的直方图采用欧式距离匹配,距离越接近的即为检测台标,该算法最大缺点在于,对相似颜色和透明台标不易识别;普通Hu不变矩算法利用了台标的形状特征进行匹配识别,由于台标背景的干扰和噪声的存在,影响了轮廓的提取,降低了识别率。鉴于此,陈科宇等提出了一种基于颜色和形状的电视台标识别方法,潘达等提出一种基于分块形状特征匹配的台标识别系统,目的是综合利用台标的颜色和形状信息,减少背景的影响,以提高识别率,然而他们没有考虑到背景与台标的相关性,因此当画面较为干净、所含噪声较少、提取的台标图较为清晰时,识别结果较好;而当台标背景复杂多变、噪声很大时容易识别错误。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于HOG特征的电视台标识别方法,旨在解决现有方法中存在的当台标背景复杂多变、噪声很大时容易识别错误的问题。
为实现上述目的,本发明提供了一种基于HOG特征的电视台标识别方法,包括以下步骤:
(1)从输入的电视截图中截取台标区域SIZE;
(2)对截取出的台标区域SIZE提取HOG描述符;
(3)使用PCA方法对提取的HOG描述符使用降维,降维后的维度与以下步骤d中的维度相同;
(4)使用SVM分类器对降维后的HOG描述符进行识别,以得到识别结果;
其中SVM分类器是通过以下步骤训练获得:
a.获取所有电视台的台标区域SIZE;
b.获取所有电视台的图片,截取该图片中的台标区域SIZE,并将截取的台标区域存储在各个电视台的模板文件夹中;
c.对每一个截取的台标区域提取HOG特征描述符;
d.使用PCA方法对生成的HOG特征描述符进行降维处理,降维后的维度不大于所有电视台的图片总和;
e.根据降维后的HOG特征描述符训练SVM分类器,其中SVM分类器的类别数被设置为模板文件夹的总数。
步骤a具体为,对所有电视台的台标区域进行统计,以确定能包含至少90%的电视台的台标范围的最小矩形,然后对该最小矩形的大小向上取整为偶数,微调的结果为台标区域SIZE。
步骤c包括以下子步骤:
(3-1)将每一个截取的台标区域划分为多个子区域,并将每个子区域划分为多个细胞单元;
(3-2)使用一维的离散微分模板计算每个细胞单元的梯度值;
(3-3)使用计算得到的梯度值构建各个细胞单元的梯度直方图;
(3-4)对各个子区域中的所有细胞单元的梯度直方图进行归一化处理,以形成各个子区域的HOG特征描述符。
子区域的大小是根据截取的台标区域的大小来确定,且能被台标区域的大小整除,细胞单元的大小与子区域的划分方式相同。
SVM训练过程和识别过程均采用线性核函数。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下的有益效果:
1、台标识别率高:由于采用了步骤a和步骤c,步骤a仅仅考虑台标区域,最大程度的减少了背景的影响;步骤c使用HOG描述符,HOG特征对图像几何的和光学的形变都能保持很好的不变性,因此本发明方法有较高的识别率;
2、计算效率高:由于采用了步骤d对HOG描述符进行降维,可以将4000维以上的HOG描述符降维到500维以内,大大减少了计算量,提高了计算速度。
附图说明
图1是本发明基于HOG特征的电视台标识别方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明基于HOG特征的电视台标识别方法包括以下步骤:
(1)获取所有电视台的台标区域SIZE;具体而言,对所有电视台的台标区域进行统计,以确定能包含至少90%的电视台的台标范围的最小矩形,然后对该最小矩形进行微调,即将大小向上取整为偶数,微调的结果为台标区域SIZE。
本步骤的优点是,获取台标区域后只考虑台标区域,最大限度的减少了背景的影响。
(2)获取所有电视台的图片,截取该图片中的台标区域SIZE,并将截取的台标区域存储在各个电视台的模板文件夹中;
(3)对每一个截取的台标区域提取HOG特征描述符;
具体包括以下子步骤:
(3-1)将每一个截取的台标区域划分为多个子区域(Block),并将每个子区域划分为多个细胞单元(Cell);具体而言,子区域的大小是根据截取的台标区域的大小来确定,且能被台标区域的大小整除(例如,若台标区域的大小为200*100像素,则子区域的大小可为20*20像素),细胞单元的大小与上述划分方式相同。
(3-2)使用一维的离散微分模板(1-D centered point discretederivative mask)计算每个细胞单元的梯度值;
(3-3)使用计算得到的梯度值构建各个细胞单元的梯度直方图;
(3-4)对各个子区域中的所有细胞单元的梯度直方图进行归一化处理,以形成各个子区域的HOG特征描述符。
(4)使用主成分分析(Principal Component Analysis,简称PCA)方法对生成的HOG特征描述符进行降维处理,降维后的维度不大于所有电视台的图片总和;
下面介绍本发明使用的PCA方法:
如果高维向量的结构比较稀疏,并且有着比较明显的结构性,一般使用降维技术将向量从高维空间转换到能量更加集中的低维空间,然后在低维空间进行后续的处理。
PCA方法是一种无监督的降维方法,首先通过训练数据学习一个全局线性投影矩阵,然后使用该线性投影矩阵将高维向量空间中的点投影到低维超平面中,使得数据点在低维空间的分布尽可能的广,投影误差尽可能的小。学习全局线性投影矩阵的方法如下:
(4-1)假设给定n维空间中的训练集X,采用以下公式从训练集中移除均值:
x ‾ = 1 | X | Σ x ∈ X x
x = x - x ‾ , ∀ x ∈ X
其中x为原始向量,x为X中任意向量,
Figure BDA00003058262300055
为训练集X的均值;
(4-2)计算训练集X经过均值调整后的协方差矩阵C:
C=XXT
(4-3)对协方差矩阵做特征值分解:
Figure BDA00003058262300054
其中λ0,...,λn-1为为从大到小排序的特征值,u0,...,un-1为特征值λ0,...,λn-1对应的特征向量,U为单位正交矩阵。由矩阵U中前p(p<n,p为降维后的维度)个特征向量组成的n×p矩阵M即为PCA投影矩阵。原始向量x在p维超平面上的投影MTx即该向量对应的低维向量。矩阵M的伪逆矩阵(即M的转置矩阵)定义了从低维超平面至高维平面的反投影,反投影的结果MMTx是低维向量在高维空间的坐标,反投影向量与原始向量的差为投影误差εp(x)=x-MMTx,投影误差位于7M的零空间。因此PCA降维可以解释为原始空间中的一种向量近似。
本步骤的优点在于,台标区域提取的HOG描述符的维度一般在4000维以上,经过PCA降维后,台标区域的HOG描述符的维度被控制在500维以内,从而大大减少了存储空间,并提高了计算效率。
(5)根据降维后的HOG特征描述符训练SVM分类器,其中SVM分类器的类别数被设置为模板文件夹的总数;
SVM是Vapnik等人根据统计学习理论提出的一种新的机器学习方法,它建立在VC维和结构风险最小化原则基础上,通过适当选择函数子集,根据有限样本在模型的负责性和学习能力之间寻求最佳折中,使学习机的实际风险达到最小。SVM保证了通过有限训练样本得到的分类器对测试集较小的测试误差;利用软间隔以解决线性不可分问题;通过引入核函数使线性可分扩展到非线性可分。
由广义线性判别函数的性质可知,如果一个问题在其定义的空间中不是线性可分的,那么可以通过构造新的特征向量,把问题转换到另外一个较高维的空间,在这个空间里可以用线性判别函数实现原空间中的非线性判别函数。对于任意高次判别函数,都可以通过适当的变换转化为另一空间中的线性判别函数来处理。所以,当要解决一个非线性问题时,可以将其通过非线性变换转化为另一个空间中的线性问题,在这个变换空间上求最优或广义最优分类面。在这个空间中,只需要进行内积运算即可。假定有l个样本的样本集(x1,y1),(x2,y2),...,(xl,yl),x∈Rn;y∈{+1,-1}是类别标号,后面公式中xi,xj,yi,yi,i,j∈(1,l)均为样本集内的点。由Hilbert-Sclllnidt原理可知,只要某种运算满足Mercer定理,它就可作为内积使用。
Mercer定理:任意的对称函数
Figure BDA00003058262300071
当它是某个特征空间中的内积运算的充分必要条件时,对于任意函数
Figure BDA00003058262300073
满足Mercer定理的内积函数称为核函数,采用适当的核函数实现非线性到线性空间的映射,不会增加计算复杂度。当选定了适当的核,优化问题可以写成:
W ( &alpha; i ) = &Sigma; i = 1 l &alpha; i - 1 2 &Sigma; i = 1 l &Sigma; j = 1 l &alpha; i &alpha; j y i y j K ( x i , x j )
分类函数变成:
f ( x ) = sgn &lsqb; &Sigma; i = 1 l &alpha; i * y i K ( x i , x ) + b * &rsqb;
其中为拉格朗日乘子
Figure BDA00003058262300078
Figure BDA00003058262300076
表示
Figure BDA00003058262300079
取得最优解时的值,
Figure BDA000030582623000711
为阈值,sgn()表示符号函数。
这就是支持向量机的一般表述。支持向量机关键思想可以概括为:首先通过非线性变换将线性不可分情况下的训练样本映射到高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。
在支持向量机理论中,不同的内积函数形成了不同的算法,典型的核函数有以下4类:
线性(Linear)核函数:
K ( x i , x j ) = x i &CenterDot; x j
多项式(Polynomial)核函数:
K ( x i , x j ) = ( x i &CenterDot; x j + 1 ) d
径向基(RBF)核函数:
K ( x i , x j ) = exp ( - | | x i &CenterDot; x j | | 2 2 &sigma; 2 )
双曲正切(Sigmoid)核函数K(xi,xj)=tanh[k(xi·xj)+δ]
核函数是支持向量机的关键部分。对于低维空间中的线性不可分问题,解决办法是将其映射到高维空间中,转变成为高维空间中的线性可分问题,但随之带来计算复杂度的增加,而核函数则能够解决这一难题。SVM无需知道非线性映射的显式表达式,只需要利用核函数进行计算。计算复杂度不再在取决于空间维数,而取决于样本数,尤其是样本中的支持向量数,所以SVM可以由训练样本集和核函数完全描述。
本发明的使用的SVM训练过程和识别过程均采用线性核函数。
本步骤的优点在于,采用SVM分类器具有分类速度快,分类结果全局最优的特点,并且SVM有较好的泛化能力。
(6)使用训练生成的SVM分类器识别电视台台标,具体包括以下子步骤:
(6-1)从输入的电视截图中截取台标区域SIZE;
(6-2)对截取出的台标区域SIZE提取HOG描述符;
(6-3)使用PCA方法对提取的HOG描述符使用降维,降维后的维度与步骤(4)中的维度相同;
(6-4)使用步骤(5)生成的SVM分类器对降维后的HOG描述符进行识别,以得到识别结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于HOG特征的电视台标识别方法,其特征在于,包括以下步骤:
(1)从输入的电视截图中截取台标区域SIZE;
(2)对截取出的台标区域SIZE提取HOG描述符;
(3)使用PCA方法对提取的HOG描述符使用降维,降维后的维度与以下步骤d中的维度相同;
(4)使用SVM分类器对降维后的HOG描述符进行识别,以得到识别结果;
其中SVM分类器是通过以下步骤训练获得:
a.获取所有电视台的台标区域SIZE;
b.获取所有电视台的图片,截取该图片中的台标区域SIZE,并将截取的台标区域存储在各个电视台的模板文件夹中;
c.对每一个截取的台标区域提取HOG特征描述符;
d.使用PCA方法对生成的HOG特征描述符进行降维处理,降维后的维度不大于所有电视台的图片总和;
e.根据降维后的HOG特征描述符训练SVM分类器,其中SVM分类器的类别数被设置为模板文件夹的总数。
2.根据权利要求1所述的电视台标识别方法,其特征在于,步骤a具体为,对所有电视台的台标区域进行统计,以确定能包含至少90%的电视台的台标范围的最小矩形,然后对该最小矩形的大小向上取整为偶数,微调的结果为台标区域SIZE。
3.根据权利要求1所述的电视台标识别方法,其特征在于,步骤c包括以下子步骤:
(3-1)将每一个截取的台标区域划分为多个子区域,并将每个子区域划分为多个细胞单元;
(3-2)使用一维的离散微分模板计算每个细胞单元的梯度值;
(3-3)使用计算得到的梯度值构建各个细胞单元的梯度直方图;
(3-4)对各个子区域中的所有细胞单元的梯度直方图进行归一化处理,以形成各个子区域的HOG特征描述符。
4.根据权利要求3所述的电视台标识别方法,其特征在于,子区域的大小是根据截取的台标区域的大小来确定,且能被台标区域的大小整除,细胞单元的大小与子区域的划分方式相同。
5.根据权利要求1所述的电视台标识别方法,其特征在于,SVM训练过程和识别过程均采用线性核函数。
CN2013101314232A 2013-04-16 2013-04-16 一种基于hog特征的电视台标识别方法 Pending CN103258187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013101314232A CN103258187A (zh) 2013-04-16 2013-04-16 一种基于hog特征的电视台标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013101314232A CN103258187A (zh) 2013-04-16 2013-04-16 一种基于hog特征的电视台标识别方法

Publications (1)

Publication Number Publication Date
CN103258187A true CN103258187A (zh) 2013-08-21

Family

ID=48962091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101314232A Pending CN103258187A (zh) 2013-04-16 2013-04-16 一种基于hog特征的电视台标识别方法

Country Status (1)

Country Link
CN (1) CN103258187A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015085637A1 (zh) * 2013-12-09 2015-06-18 清华大学深圳研究生院 一种视频中的台标区域的内容补绘方法
CN104780362A (zh) * 2015-04-24 2015-07-15 宏祐图像科技(上海)有限公司 基于局部特征描述的视频静止logo检测方法
CN105095837A (zh) * 2014-05-15 2015-11-25 Tcl集团股份有限公司 一种台标识别方法和系统
CN106709437A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种改进的针对早期专利文档扫描件中图文信息的智能处理方法
CN107220651A (zh) * 2017-06-05 2017-09-29 北京邮电大学 一种提取图像特征的方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080143880A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting caption of video
CN101739561A (zh) * 2008-11-11 2010-06-16 中国科学院计算技术研究所 一种电视台标训练方法和识别方法
CN101950366A (zh) * 2010-09-10 2011-01-19 北京大学 一种台标检测和识别的方法
CN102289663A (zh) * 2011-07-29 2011-12-21 四川长虹电器股份有限公司 一种基于颜色和形状的台标识别方法
CN102426647A (zh) * 2011-10-28 2012-04-25 Tcl集团股份有限公司 一种台标识别的方法、装置
CN102436575A (zh) * 2011-09-22 2012-05-02 Tcl集团股份有限公司 一种台标的自动检测和分类方法
CN102446272A (zh) * 2011-09-05 2012-05-09 Tcl集团股份有限公司 一种台标分割及识别的方法、装置及电视机
CN102982350A (zh) * 2012-11-13 2013-03-20 上海交通大学 一种基于颜色和梯度直方图的台标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080143880A1 (en) * 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus for detecting caption of video
CN101739561A (zh) * 2008-11-11 2010-06-16 中国科学院计算技术研究所 一种电视台标训练方法和识别方法
CN101950366A (zh) * 2010-09-10 2011-01-19 北京大学 一种台标检测和识别的方法
CN102289663A (zh) * 2011-07-29 2011-12-21 四川长虹电器股份有限公司 一种基于颜色和形状的台标识别方法
CN102446272A (zh) * 2011-09-05 2012-05-09 Tcl集团股份有限公司 一种台标分割及识别的方法、装置及电视机
CN102436575A (zh) * 2011-09-22 2012-05-02 Tcl集团股份有限公司 一种台标的自动检测和分类方法
CN102426647A (zh) * 2011-10-28 2012-04-25 Tcl集团股份有限公司 一种台标识别的方法、装置
CN102982350A (zh) * 2012-11-13 2013-03-20 上海交通大学 一种基于颜色和梯度直方图的台标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
童雯: "基于PCA和SVM的车标识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015085637A1 (zh) * 2013-12-09 2015-06-18 清华大学深圳研究生院 一种视频中的台标区域的内容补绘方法
CN105095837A (zh) * 2014-05-15 2015-11-25 Tcl集团股份有限公司 一种台标识别方法和系统
CN105095837B (zh) * 2014-05-15 2018-11-30 Tcl集团股份有限公司 一种台标识别方法和系统
CN104780362A (zh) * 2015-04-24 2015-07-15 宏祐图像科技(上海)有限公司 基于局部特征描述的视频静止logo检测方法
CN106709437A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种改进的针对早期专利文档扫描件中图文信息的智能处理方法
CN107220651A (zh) * 2017-06-05 2017-09-29 北京邮电大学 一种提取图像特征的方法及装置

Similar Documents

Publication Publication Date Title
He et al. Multi-scale FCN with cascaded instance aware segmentation for arbitrary oriented word spotting in the wild
Chaudhuri et al. Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method
He et al. Accurate text localization in natural image with cascaded convolutional text network
Wu et al. Harvesting discriminative meta objects with deep CNN features for scene classification
Kawulok et al. Self-adaptive algorithm for segmenting skin regions
CN110580699A (zh) 基于改进Faster RCNN算法的病理图像细胞核检测方法
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
Zhang et al. Road recognition from remote sensing imagery using incremental learning
Wei et al. A robust video text detection approach using SVM
Shivakumara et al. Multi-oriented scene text detection in video based on wavelet and angle projection boundary growing
CN102930300B (zh) 一种飞机目标识别方法及系统
CN103310236A (zh) 基于局部二维特征的拼接图像检测方法及系统
CN103258187A (zh) 一种基于hog特征的电视台标识别方法
Yan et al. Chinese text location under complex background using Gabor filter and SVM
CN102663401A (zh) 一种图像特征提取和描述方法
Huang et al. DropRegion training of inception font network for high-performance Chinese font recognition
Fidalgo et al. Compass radius estimation for improved image classification using Edge-SIFT
Meng et al. An extended HOG model: SCHOG for human hand detection
Bijalwan et al. Automatic text recognition in natural scene and its translation into user defined language
Ghai et al. Comparative analysis of multi-scale wavelet decomposition and k-means clustering based text extraction
Manjunath Aradhya et al. Decade research on text detection in images/videos: a review
Cholakkal et al. A classifier-guided approach for top-down salient object detection
CN107679467B (zh) 一种基于hsv和sdalf的行人重识别算法实现方法
Jubair et al. A simplified method for handwritten character recognition from document image
Shou et al. An ROIs based pedestrian detection system for single images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130821