CN107330363B - 一种快速的互联网广告牌检测方法 - Google Patents
一种快速的互联网广告牌检测方法 Download PDFInfo
- Publication number
- CN107330363B CN107330363B CN201710386466.3A CN201710386466A CN107330363B CN 107330363 B CN107330363 B CN 107330363B CN 201710386466 A CN201710386466 A CN 201710386466A CN 107330363 B CN107330363 B CN 107330363B
- Authority
- CN
- China
- Prior art keywords
- billboard
- target
- image
- training
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Abstract
本发明公开了一种快速的互联网广告牌检测方法,用于在给定视频和需检测的目标后,标出目标在视频里出现的位置。具体包括如下步骤:获取用于训练目标检测模型的互联网广告牌数据集,并定义算法目标;对广告牌目标的几何结构和表观语义进行联合建模;根据步骤S2中的建模结果预训练广告牌目标的检测模型;使用训练好的检测模型检测场景图像中的广告牌位置。本发明适用于真实互联网视频场景中的广告牌目标检测,面对各类复杂情况具有较佳的效果和鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,特别地涉及一种快速的互联网广告牌检测方法。
背景技术
20世纪末以来,随着计算机视觉的发展,智能视频处理技术得到广泛的关注和研究。互联网广告牌检测是其中一项重要和具有挑战性的任务,其目标是准确检测出场景图像中广告牌的位置。该问题在视频监控和智能机器人等领域具有很高的应用价值,是大量高级视觉任务的基础。但同样,该问题具有较大的挑战性,一是如何表达目标的几何结构信息;二是如何建模广告牌目标的几何变化,这些挑战对相应算法的性能和鲁棒性提出了较高的要求。
一般广告牌检测算法分为两部分:1、找出目标对象与输入图像中物体之间的点特征匹配集合。2、给定点特征匹配集合,估计目标对象与输入图像中物体的几何映射。为了找到点特征匹配集合,现有算法一般将该操作定位为匹配与分类问题。基于匹配的算法使用特征描述符来表征物体,特征保存在数据库上以便高效匹配。基于分类的算法将特征匹配转化为多分类问题,决定输入的特征点归属于目标模型中的哪一特征点来实现物体分类。
这些方法主要存在以下几个问题:1)基于分类的算法往往离线训练完成,这决定了特征点能够有多大的视角变化,也决定只能适应于某一特定目标检测;2)匹配集合的产生和几何映射的估计没有统一学习优化。
发明内容
为解决上述问题,本发明的目的在于提供一种快速的互联网广告牌检测方法,用于检测给定场景图像里的广告牌位置。本方法基于S-SVM对广告牌目标的几何结构和表观语义进行联合建模,并根据建模结果预训练目标模型系数,能够更好地适应真实广告视频场景中的复杂情况。
为实现上述目的,本发明的技术方案为:
一种快速的互联网广告牌检测方法,包括以下步骤:
S1、获取用于训练目标检测模型的互联网广告牌数据集,并定义算法目标;
S2、对广告牌目标的几何结构和表观语义进行联合建模;
S3、根据步骤S2中的建模结果预训练广告牌目标的检测模型;
S4、使用训练好的检测模型检测场景图像中的广告牌位置。
进一步的,步骤S1中,所述的用于训练目标检测模型的互联网广告牌数据集,包括广告牌图像Xtrain;
定义算法目标为:检测一幅场景图像X中的广告牌位置P。
进一步的,步骤S2中,对广告牌目标的几何结构和表观语义进行联合建模具体包括:
S21、根据广告牌数据集Xtrain建模几何结构:
其中,uj是广告牌数据集Xtrain上提取的角点坐标,j为广告牌目标的第j个坐标索引,vk是待检测图像中提取的角点坐标,k为待检测图像的第k个坐标索引,C是相应坐标点对集合,T(uj)是模板图像角点坐标uj经过透视变换T作用映射在待检测图像中的坐标,γ是两坐标向量间的距离阈值,I是二值化函数;
S22、根据广告牌数据集Xtrain建模目标表观语义:
s=<w,d> 公式(2)
其中,w是模板图像里角点的权重投影向量,d是待检测图像中角点的特征描述子,<.,.>是内积运算符,s表征模板图像角点特征与待检测图像角点特征的相似度;
S23、对广告牌目标的几何结构与表观语义进行联合建模:
其中,sjk表征特征点对相似度,与几何结构模型相乘一起决定目标得分;
S24、找出使得公式3函数值最大的透视变换矩阵:
T=arg maxT,∈πFw(C,T’) 公式(4)
其中T’为全部透视变换集合中取得的一个透视变换矩阵;
最终公式4计算出的T就是广告牌目标的位置映射。
进一步的,步骤S3中,根据步骤S2中的建模结果预训练广告牌目标的检测模型具体包括:
S31、建立S-SVM训练器,其输入为待检测图像里角点特征描述子和广告牌目标的透视变换映射T,输出为对应训练器的权重系数w;广告牌检测使用S-SVM建模:
其中ρi是S-SVM的松弛变量,N为训练样本总数;Ti为第i个训练样本对应广告牌目标的标注透视变换矩阵;λ为控制过拟合的超参数;Ci为第i个训练样本对应广告牌目标的坐标匹配点对集合;预训练算法依据公式4来得到最佳模型系数w;
S32、映射Δ(Ti,T)为S-SVM损失函数,表示为
z(uj,vk,T)=I(||vk-T(uj)||2<γ) 公式(6)
其中C是模板图像与待检测图像的坐标点对集合,使用随机梯度下降算法在损失函数Δ下训练S-SVM。
进一步的,步骤S4中,检测场景图像中的广告牌位置包括:将待检测的场景图像X提取若干个角点特征,并将其输入到训练好的S-SVM检测模型中,依据公式4计算得到的透视变换矩阵T即广告牌目标的位置映射,再将其作用于初始目标坐标得到最终广告牌位置P。
本发明应用于互联网广告牌检测方法,相比于现有的广告牌检测方法,具有以下有益效果:
首先,本发明假设广告牌的几何变化符合透视变换假设。如果一张图像中的目标可以由另一张图像目标经过透视变换作用得到,那么它们对应的点坐标也满足同样的映射关系。基于此,本发明用点坐标集合记录了目标的几何结构信息,同时基于坐标提取点特征来表征目标表观语义信息,从而将目标对象建模为一组关键点集合和相应点特征描述子。该种建模方式更加适应实际场景中的复杂情况。
其次,本发明将匹配集合的产生和几何映射的估计统一在同一个框架里学习优化,提高了方法的最终效果。另外检测过程中利用之前检测到的信息在线更新模型系数,从而学习出更加鲁棒的模式帮助当前广告牌检测。
最后,本发明的预训练算法会明显提高分类器对同一类点特征的辨别力,提高了整个检测方法的准确度。
本发明应用于互联网广告牌检测方法,在智能视频分析系统里具有良好的应用价值,能够有效提高广告牌检测的效率和准确度。例如,在当前互联网广告视频场景里,本发明的广告牌检测方法可以快速和准确地检测所有广告牌位置,为之后替换其它广告牌操作提供依据,极大释放了人力资源。
附图说明
图1为本发明的应用于互联网广告牌检测方法的流程示意图;
图2为利用本发明对场景图像中的广告牌进行检测的一个实例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种快速的互联网广告牌检测方法,包括以下步骤:
首先,获取用于训练目标检测模型的互联网广告牌数据集,包括广告牌图像Xtrain;
定义算法目标为:检测一幅场景图像X中的广告牌位置P。
其次,对广告牌目标的几何结构和表观语义进行联合建模。具体的,其包括如下步骤:
第一步,根据广告牌数据集Xtrain建模几何结构:
其中,uj是广告牌数据集Xtrain上提取的角点坐标,j为广告牌目标的第j个坐标索引,vk是待检测图像中提取的角点坐标,k为待检测图像的第k个坐标索引,C是相应坐标点对集合,T(uj)是模板图像角点坐标un经过透视变换T作用映射在待检测图像里的坐标,γ是两坐标向量间距离阈值,I是二值化函数。
第二步,根据广告牌数据集Xtrain建模目标表观语义:
s=<w,d> 公式(2)
其中,w是模板图像里角点的权重投影向量,d是待检测图像中角点的特征描述子,<.,.>是内积运算符,s表征模板图像角点特征与待检测图像角点特征的相似度。
第三步,对广告牌目标的几何结构和表观语义进行联合建模:
其中,sjk表征特征点对相似度,与几何结构模型相乘一起决定目标得分。
第四步,找出使得公式3函数值最大的透视变换矩阵:
T=arg maxT,∈πFw(C,T’) 公式(4)
式中T’为全部透视变换集合中取得的一个透视变换矩阵;
最终公式4计算出的T就是广告牌目标的位置映射。
之后,根据上诉建模结果预训练广告牌目标的检测模型。具体包括:
第一步,建立S-SVM训练器,其输入为待检测图像里角点特征描述子和广告牌目标的透视变换映射T,输出为对应训练器的权重系数w;从而,广告牌检测使用S-SVM建模:
其中ρi是S-SVM的松弛变量,N为训练样本总数;Ti为第i个训练样本对应广告牌目标的标注透视变换矩阵;λ为控制过拟合的超参数;Ci为第i个训练样本对应广告牌目标的坐标匹配点对集合;预训练算法依据公式4来得到最佳模型系数w。
第二步,映射Δ(Ti,T)为S-SVM损失函数,表示为
z(uj,vk,T)=I(||vk-T(uj)||2<γ) 公式(6)
其中C是模板图像与待检测图像的坐标点对集合,使用随机梯度下降算法在损失函数Δ下训练S-SVM。
最后,使用训练好的检测模型对场景图像中的广告牌进行检测。参考图2,具体包括:检测输入图像中角点,并且提取BRIEF特征。随后依据公式2计算模板图像和输入图像间的点特征的相似度,取打分最高的前200个点对得到特征匹配集合。在特征匹配集合基础上,使用RANSAC算法随机挑选出4个点对,重复若干次依据公式4计算得到最佳透视变换矩阵。最后再将其作用于初始广告牌目标坐标得到位置。
上述实施例中,本发明的互联网广告牌检测方法首先对广告牌目标的几何结构和表观语义进行联合建模。在此基础上,将原问题转化为结构化输出问题,并基于S-SVM建立目标检测模型。最后,使用训练好的检测模型检测场景图像中的广告牌位置。
通过以上技术方案,本发明实施例基于S-SVM模型发展了一种快速的互联网广告牌检测算法。本发明可以同时有效建模目标的几何结构和表观语义信息,从而检测准确的广告牌位置。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种快速的互联网广告牌检测方法,其特征在于,包括以下步骤:
S1、获取用于训练目标检测模型的互联网广告牌数据集,并定义算法目标;
S2、对广告牌目标的几何结构和表观语义进行联合建模;
S3、根据步骤S2中的建模结果预训练广告牌目标的检测模型;
S4、使用训练好的检测模型检测场景图像中的广告牌位置;
所述步骤S1中,所述的用于训练目标检测模型的互联网广告牌数据集,包括广告牌图像Xtrain;
定义算法目标为:检测一幅场景图像X中的广告牌位置P;
所述步骤S2中,对广告牌目标的几何结构和表观语义进行联合建模具体包括:
S21、根据广告牌数据集Xtrain建模几何结构:
其中,uj是广告牌数据集Xtrain上提取的角点坐标,j为广告牌目标的第j个坐标索引,vk是待检测图像中提取的角点坐标,k为待检测图像的第k个坐标索引,C是相应坐标点对集合,T(uj)是模板图像角点坐标uj经过透视变换T作用映射在待检测图像中的坐标,γ是两坐标向量间的距离阈值,I是二值化函数;
S22、根据广告牌数据集Xtrain建模目标表观语义:
s=<w,d> 公式(2)
其中,w是模板图像里角点的权重投影向量,d是待检测图像中角点的特征描述子,<.,.>是内积运算符,s表征模板图像角点特征与待检测图像角点特征的相似度;
S23、对广告牌目标的几何结构与表观语义进行联合建模:
其中,sjk表征特征点对相似度,与几何结构模型相乘一起决定目标得分;
S24、找出使得公式(3)函数值最大的透视变换矩阵:
T=argmaxT’∈πFw(C,T’) 公式(4)
其中T’为全部透视变换集合中取得的一个透视变换矩阵;
最终公式(4)计算出的T就是广告牌目标的位置映射。
2.如权利要求1所述的快速的互联网广告牌检测方法,其特征在于,步骤S3中,根据步骤S2中的建模结果预训练广告牌目标的检测模型具体包括:
S31、建立S-SVM训练器,其输入为待检测图像里角点特征描述子和广告牌目标的透视变换映射T,输出为对应训练器的权重系数w;广告牌检测使用S-SVM建模:
其中ρi是S-SVM的松弛变量,N为训练样本总数;Ti为第i个训练样本对应广告牌目标的标注透视变换矩阵;λ为控制过拟合的超参数;Ci为第i个训练样本对应广告牌目标的坐标匹配点对集合;预训练算法依据公式(4)来得到最佳模型系数w;
S32、映射Δ(Ti,T)为S-SVM损失函数,表示为
z(uj,vk,T)=I(||vk-T(uj)||2<γ) 公式(6)
其中C是模板图像与待检测图像的坐标点对集合,使用随机梯度下降算法在损失函数Δ下训练S-SVM。
3.如权利要求2所述的快速的互联网广告牌检测方法,其特征在于,步骤S4中,检测场景图像中的广告牌位置包括:将待检测的场景图像X提取若干个角点特征,并将其输入到训练好的S-SVM检测模型中,依据公式(4)计算得到的透视变换矩阵T即广告牌目标的位置映射,再将其作用于初始目标坐标得到最终广告牌位置P。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710386466.3A CN107330363B (zh) | 2017-05-26 | 2017-05-26 | 一种快速的互联网广告牌检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710386466.3A CN107330363B (zh) | 2017-05-26 | 2017-05-26 | 一种快速的互联网广告牌检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107330363A CN107330363A (zh) | 2017-11-07 |
CN107330363B true CN107330363B (zh) | 2020-08-18 |
Family
ID=60192907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710386466.3A Active CN107330363B (zh) | 2017-05-26 | 2017-05-26 | 一种快速的互联网广告牌检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107330363B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670503A (zh) * | 2018-12-19 | 2019-04-23 | 北京旷视科技有限公司 | 标识检测方法、装置和电子系统 |
CN110287950A (zh) * | 2019-06-05 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 目标检测及目标检测模型的训练方法、装置和电子设备 |
CN113362353A (zh) * | 2020-03-04 | 2021-09-07 | 上海分众软件技术有限公司 | 一种利用合成训练图片识别广告机边框的方法 |
CN116721355B (zh) * | 2023-08-09 | 2023-10-24 | 江西云眼视界科技股份有限公司 | 广告牌检测方法、系统、可读存储介质及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001046857A2 (en) * | 1999-12-22 | 2001-06-28 | National Research Council Of Canada | Method of searching 3-dimensional images |
CN102724485A (zh) * | 2012-06-26 | 2012-10-10 | 公安部第三研究所 | 采用双核处理器对输入视频进行结构化描述的装置和方法 |
US20130259372A1 (en) * | 2012-03-28 | 2013-10-03 | Canon Kabushiki Kaisha | Method and apparatus for object classifier generation, and method and apparatus for detecting object in image |
-
2017
- 2017-05-26 CN CN201710386466.3A patent/CN107330363B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001046857A2 (en) * | 1999-12-22 | 2001-06-28 | National Research Council Of Canada | Method of searching 3-dimensional images |
US20130259372A1 (en) * | 2012-03-28 | 2013-10-03 | Canon Kabushiki Kaisha | Method and apparatus for object classifier generation, and method and apparatus for detecting object in image |
CN102724485A (zh) * | 2012-06-26 | 2012-10-10 | 公安部第三研究所 | 采用双核处理器对输入视频进行结构化描述的装置和方法 |
Non-Patent Citations (2)
Title |
---|
<基于双目立体视觉的工件识别与定位技术研究>;李胜利;<硕士学位论文库>;20161231;全文 * |
I. Tsochantaridis et al;.《Support Vector Machine Learning for Interdependent and Structured output spaces》.《In Proceedings of the twenty-first international conference on Machine learning.》.2004, * |
Also Published As
Publication number | Publication date |
---|---|
CN107330363A (zh) | 2017-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Actionness estimation using hybrid fully convolutional networks | |
JP6045549B2 (ja) | 感情および行動を認識するための方法およびシステム | |
Wang et al. | Joint learning of visual attributes, object classes and visual saliency | |
CN107330363B (zh) | 一种快速的互联网广告牌检测方法 | |
Liu et al. | Depth context: a new descriptor for human activity recognition by using sole depth sequences | |
CN107301376B (zh) | 一种基于深度学习多层刺激的行人检测方法 | |
CN110210335B (zh) | 一种行人重识别学习模型的训练方法、系统和装置 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
Wang et al. | Real-time hand posture recognition based on hand dominant line using kinect | |
US10937150B2 (en) | Systems and methods of feature correspondence analysis | |
CN107479693A (zh) | 基于rgb信息的实时手部识别方法、存储介质、电子设备 | |
Teng et al. | Generative robotic grasping using depthwise separable convolution | |
Wang et al. | KTN: Knowledge transfer network for learning multiperson 2D-3D correspondences | |
CN115223239A (zh) | 一种手势识别方法、系统、计算机设备以及可读存储介质 | |
CN114170686A (zh) | 一种基于人体关键点的屈肘行为检测方法 | |
CN110909678B (zh) | 一种基于宽度学习网络特征提取的人脸识别方法及系统 | |
CN111881261A (zh) | 一种物联网多点应答互动智能机器人系统 | |
CN107563327B (zh) | 一种基于自步反馈的行人重识别方法及系统 | |
Du et al. | A method of human action recognition based on spatio-temporal interest points and PLSA | |
Axyonov et al. | Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language | |
Bhatnagar et al. | Fine-grained apparel classification and retrieval without rich annotations | |
Zhang et al. | Object detection based on deep learning and b-spline level set in color images | |
Xudong et al. | Pedestrian detection and tracking with deep mutual learning | |
CN113516118A (zh) | 一种图像与文本联合嵌入的多模态文化资源加工方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |