CN101976258B - 基于对象分割和特征加权融合的视频语义提取方法 - Google Patents
基于对象分割和特征加权融合的视频语义提取方法 Download PDFInfo
- Publication number
- CN101976258B CN101976258B CN 201010529734 CN201010529734A CN101976258B CN 101976258 B CN101976258 B CN 101976258B CN 201010529734 CN201010529734 CN 201010529734 CN 201010529734 A CN201010529734 A CN 201010529734A CN 101976258 B CN101976258 B CN 101976258B
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- semanteme
- semantic
- key frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
一种视频搜索技术领域的基于对象分割和特征加权融合的视频语义提取方法,通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算,即对于每一种语义所对应的视频对象的快速鲁棒特征、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别加权求和后与阈值比较确定镜头中是否具有测试的语义。本发明由于分离背景,去除背景噪声,提高了语义分类的精确性;同时考虑到视频对象的提取可能出现的误差以及静止的视频语义,使用传统的方法进行分类。两种方法的结合使得语义提取的正确性得以提高。
Description
技术领域
本发明涉及的是一种视频搜索技术领域的方法,具体是一种基于对象分割和特征加权融合的视频语义提取方法。
背景技术
随着互联网和多媒体技术的迅速发展,网络视频的数量日趋庞大,已经成为最为主要的互联网信息传递媒介之一。对这些海量视频数据进行预览、分析、分类和搜索成为了一个重要的研究课题。通常把视频图像表示为具有特征一致性的区域,该区域称为视频对象,对其进行压缩和搜索,可以提高压缩比和搜索效率。在基于内容的视频搜索中,语义是一个非常重要的概念。一般而言,视频中具有语言学意义的物体称为语义,以区分于普通的视频对象。如飞机、教室、行人等都是语义。用户能够通过具有语义信息的关键词对视频进行搜索以得到期望的结果,这相对于传统的文本关键词搜索方法,在速度和准确度上有相当大的提升。因此,在视频搜索领域中,视频语义提取技术具有极大的研究价值。
经对现有技术检索发现,中国专利文献号CN101650728,公开了一种“视频高层特征检索系统及其实现”,该技术提取视频关键帧图像的底层特征(诸如颜色、形状、纹理等),并利用支持向量机(Support Vector Machine,SVM)对所提取的特征进行分类,进而提取相应的视频语义;
进一步检索发现,北京邮电大学学报(2006年4月,第29卷,第2期),题为:基于支持向量机的视频关键帧语义提取,提出了一种提取视频关键帧的彩色直方图和边缘直方图特征,使用多类支持向量机对特征进行分类,从而获得关键帧的语义的方法。
上述文献在视频语义提取技术上提出了一些较好的方法,但仍存有一些缺陷,其主要问题是这些方法是对关键帧的整幅图像提取全局特征和局部特征。然而,由于关键帧一般是由背景和视频对象所组成,所以对于语义而言,提取的整幅图像的特征是含有背景噪声的特征,影响了视频语义提取的准确性。
发明内容
本发明的目的在于克服现有技术的不足并针对视频语义提取的精度要求,提供一种基于对象分割和特征加权融合的视频语义提取方法,通过分别提取镜头关键帧和视频对象的图像特征,然后使用支持向量机对特征进行分类和加权融合,最后确定视频语义的方法。
本发明是通过以下技术方案实现的,本发明通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算,即对于每一种语义所对应的视频对象的快速鲁棒特征(Speeded Up Robust Features,SURF)、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别设置为r0,r1,r2,r3和r4,其中ri的值为0或1,其权重分别为w0,w1,w2,w3和w4,其中:0≤wi≤1,wi是预先对每一种语义的每种特征进行的小样本训练和测试所得的结果;然后根据与阈值Tc进行比较确定镜头中是否具有测试的语义,当则该镜头中包含所测试的语义,反之则镜头中不包含该语义。
所述的基于背景帧构造的视频对象语义分类,通过以下方式获得:
第一步,通过检测镜头内相邻帧对应的像素点间的变化来构造背景帧,具体为:
1.1)读取待检测的镜头,将其第一帧作为初始化背景帧,设视频帧的长为m,宽为n;
1.2)设置两个的m×n矩阵,一个为计数矩阵A,一个为标志矩阵B,初始阶段两个矩阵都是零矩阵,其中:计数矩阵记录帧间变化检测中像素点连续不变的次数;标志矩阵记录像素点是否已被初始化;
1.3)将第k帧和第k+1帧转换成灰度图像并相减:当在位置(i,j)上的像素点灰度值的差为0,那么计数矩阵A的元素aij的值加1,反之aij=0;
1.4)搜索计数矩阵A的所有元素,当aij>T,则标志矩阵B相应位置的元素bij=1,同时把位置(i,j)上的像素点的值赋给背景帧的相应位置的像素点;
1.5)当标志矩阵B所有的元素都为1或者该镜头结束时,背景帧构造完毕。
第二步,提取被检测镜头中的关键帧,查找关键帧中与背景帧不同的区域,以此作为视频对象候选区域。
第三步,采用静态图像阴影检测方法消除视频对象候选区域中的阴影区域。
第四步,提取视频对象的快速鲁棒特征(Speeded Up Robust Features,SURF),然后利用支持向量机对SURF特征分类,具体为:
4.1)使用快速Hessian方法对视频对象的图像进行特征点检测。
4.2)通过计算特征点邻接圆域内x、y方向上的Haar小波响应来获得主方向,在特征点选择一块大小与尺度相应的方形区域,分成64块,统计每一块的dx,dy,|dx|,|dy|的累积和,获得64维特征向量。
4.3)预先完成对大量的样本提取SURF特征,并应用K-means算法进行聚类以获得聚类中心,形成词汇数量为n的视觉词汇(Bag of Visual Words,BOVW)库。
对于视频对象的图像,计算它的每一个特征点与BOVW中词汇的距离,由此判断这个特征点属于哪一个词汇,然后统计这个视频中每个词汇出现的频率,在此过程中,通过soft-weighting的策略,计算与某个特征点距离最近的4个词汇,分别给予权重1、0.5、0.25、0.125,统计到最后的直方图中,以此提高识别的准确率。该直方图矢量化后即为该视频的BOVW特征向量,向量的长度等于视频词汇的数量。
4.4)使用支持向量机分类器,把提取的视觉词汇特征和预先训练好的视频语义特征文件进行匹配分类,得到视频对象分类结果。预先完成训练的视频语义为飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话。
所述的基于关键帧特征的视频语义分类,通过以下方式获得:
步骤一,提取镜头关键帧图像的全局特征和局部特征。
所述的全局特征包括颜色直方图、边缘直方图、局部二进制特征和SURF特征。
步骤二,采用支持向量机对已知语义的图像的特征进行预先训练,生成训练文件。
所述的预先训练的视频关键帧中可能包括飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话等视频语义。
步骤三,使用支持向量机测试,把提取的每一种特征和预先训练好的语义的对应的特征文件进行匹配,以得到分类结果。
与现有技术相比,本发明的有益效果是:本发明利用基于背景帧构造的视频对象提取方法提取视频对象区域,然后分别利用支持向量机对视频关键帧的整幅图像和关键帧内的视频对象区域所提取的特征进行分类,把两者的结果加权计算以得出最终的分类结果。相比传统的对整幅图像提取特征进行建模并分类的方法,一方面由于分离背景,去除背景噪声,提高了语义分类的精确性;另一方面,考虑到视频对象的提取可能出现的误差以及静止的视频语义,同时使用传统的方法进行分类。最后根据小样本测试结果分别给予两种方法得出的分类结果一定的权重计算出最终结果。两种方法的结合使得语义提取的正确性得以提高。
附图说明
图1是本发明的总体流程示意图。
图2是本发明的基于背景帧构造的视频对象语义分类提取的流程图。
图3是本发明的支持向量机训练及分类流程图。
图4是本发明的视频关键帧的整幅图像的语义提取流程图。
具体实施方式
以下结合附图对本发明的方法进一步描述:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算,然后根据加权结果与与阈值进行比较确定镜头中是否具有测试的语义。
基于背景帧构造的视频对象语义分类提取的流程如图2所示,其具体步骤为:
第一步,构造待检测镜头的背景帧,具体为:
a)设B(i,j,k)为第k帧构造的背景图像,其中(i,j)为像素点位置;f(i,j,k)表示序列中第k帧图像。读取待检测的镜头,将其第一帧作为初始化背景帧,即B(i,j,1)=f(i,j,1)。设视频帧的长为m,宽为n。
b)设置两个的m×n矩阵,一个为计数矩阵A,一个为标志矩阵B,初始阶段两个矩阵都是零矩阵。其中,计数矩阵记录帧间变化检测中像素点连续不变的次数;标志矩阵记录像素点是否已被初始化。
c)将第k帧和第k+1帧转换成灰度图像并相减。当在位置(i,j)上的像素点的差值为0,那么计数矩阵A的元素aij的值加1,反之aij=0。
d)搜索计数矩阵A的所有元素,当aij>T(本实施例中阈值T设为12),那么令标志矩阵B相应位置的元素bij=1,同时把位置(i,j)上的像素点的值赋给背景帧的相应位置的像素点,即B(i,j,k)=f(i,j,k)。
e)当标志矩阵B所有的元素都为1或者该镜头结束时,背景帧构造完毕。
第二步,从上述的镜头中提取关键帧,查找关键帧中与背景帧不同的区域,以此作为视频对象候选区域。
第三步,视频对象候选区域一般是由视频对象和其阴影组成,阴影对后续的支持向量机建模分类会产生误差,因此必须消除阴影区域。E.Salvador,A.Cavallaro,T.Ebrahimi于2001年在论文:Shadow identification and classification using invariant color models中提出的基于c1c2c3模型的静态图像阴影检测方法效果优良,因此本实施例采用此方法对视频对象候选区域进行阴影区域检测和消除。
第四步,提取视频对象的SURF特征,SURF特征具有良好的尺度不变性、旋转不变性、亮度不变性和仿射不变性,而且计算效率高;然后利用支持向量机对特征分类,具体为:
a)把视频对象的图像转换成积分图,选取不同大小的箱式滤波器建立图像的尺度空间,使用快速Hessian方法检测每一层图像上的极值点,这些极值点就是图像的特征点。
b)以特征点为中心,计算它的邻接圆域内x、y方向上的Haar小波响应来获得主方向。选定特征点主方向后,以特征点为中心,将坐标轴旋转到主方向,选择一块大小与尺度相应的方形区域,分成64块,统计每一块的dx,dy,|dx|,|dy|的累积和,获得64维特征向量。
c)预先完成对大量的样本提取SURF特征,并应用K-means算法进行聚类以获得聚类中心,形成词汇数量为n的视觉词汇库,本实施例中n的值设为500。
对于视频对象的图像,计算它的每一个特征点与BOVW中词汇的距离,由此判断这个特征点属于哪一个词汇,然后统计这个视频中每个词汇出现的频率,在此过程中,通过soft-weighting的策略,计算与某个特征点距离最近的4个词汇,分别给予权重1、0.5、0.25、0.125,统计到最后的直方图中,以此提高识别的准确率。该直方图矢量化后即为该视频的BOVW特征向量,向量的长度等于视频词汇的数量,即500维。
d)预先已完成SVM分类器对已知语义的视频对象的BOVW特征的训练。本实施例中的测试语义为TRECVID 2010中语义索引轻量级比赛项目所指定的的10种语义,其分别为飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话,每一类都已生成训练文件。已知语义的训练样本是由人工选择的合适的正负样本,在本实施例中正负样本集的比例为1∶3,其正样本中包含所要测试的10种语义种的一种,而负样本则不包括该语义。
使用SVM分类器对测试的特征和预先训练好的语义特征文件进行匹配,以确定该对象属于哪一类语义。其分类流程如图3所示,若该视频对象属于某一语义,则在这语义下标记为1,否则标记为0。
基于关键帧特征的视频语义分类提取方法如图4所示,具体步骤为:
第一步,提取镜头关键帧图像的全局特征和局部特征。全局特征包括颜色、边缘和纹理特征;局部特征选用具有良好的尺度不变性的SURF特征。
选取这些特征的原因是:颜色是图像重要的视觉特征,它和图像中所包含的物体或场景十分相关。颜色特征对图像本身的尺寸、方向、视角及背景复杂度等的依赖性较小,因此较为可靠。本实施例中,颜色特征选用了颜色直方图(Color Histogram),它是最常用的表达颜色特征的方法,其优点是不受图像旋转和平移变化的影响,进一步借助归一化还可不受图像尺度变化的影响。边缘特征反映了图像中物体形状的轮廓,本实施例中边缘特征选用边缘直方图(EdgeHistogram)。纹理特征是不依赖于颜色或灰度的反映图像中同质现象的视觉特征,它是所有物体表面共有的内在特性。本实施例中纹理特征选用局部二进制特征(LBP)。
第二步,使用支持向量机预先完成对已知语义的图像四种特征的训练。语义分为飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话10种,对每一类都有已生成的训练文件。已知语义的训练样本是由人工选择的合适的正负样本,在本实施例中正负样本集的比例为1∶3,其正样本中包含所要测试的10种语义种的一种,而负样本则不包括该语义。使用支持向量机测试,把提取的每一种特征和预先训练好的语义的相对应的特征文件进行匹配,以得到分类结果。每一种特征的分类流程如图3所示,具体为:
a)输入待检测关键帧的特征向量(颜色、边缘、纹理、BOW)。
b)与生成的训练文件进行匹配。
c)当属于测试的语义标记为1,否则标记为0。
上述分类是并行的流程,提高了特征分类、语义提取的效率。
如图1所示,对上述两部分所得的结果进行加权计算以得到最终的结果。对于每一种语义,令其视频对象SURF特征、关键帧SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别为r0,r1,r2,r3和r4,其中ri的值为0或1,其权重分别为w0,w1,w2,w3和w4,其中0≤wi≤1。预先已完成每一种语义的每种特征的小样本测试,其具体权重分配如表1所示。根据与阈值Tc比较确定镜头的语义类别:若则该镜头中包含测试的语义,反之则不包含。在该实施例中Tc=3。
表1中数据的说明:在本实施例中,对50个包含飞机语义的镜头进行特征提取,然后对每一种特征进行测试,获得它的预测准确率作为权重值,其余几种语义的权重值获取方式与飞机一致。
表1
w0 | w1 | w2 | w3 | w4 | |
飞机 | 0.89 | 0.90 | 0.88 | 0.85 | 0.83 |
轮船 | 0.90 | 0.91 | 0.93 | 0.89 | 0.92 |
公共汽车 | 0.92 | 0.91 | 0.84 | 0.89 | 0.90 |
城市景观 | 0.51 | 0.95 | 0.90 | 0.93 | 0.83 |
教室 | 0.63 | 0.88 | 0.82 | 0.92 | 0.94 |
游行人群 | 0.91 | 0.89 | 0.88 | 0.93 | 0.88 |
手 | 0.89 | 0.91 | 0.83 | 0.84 | 0.90 |
夜景 | 0.48 | 0.91 | 0.89 | 0.87 | 0.81 |
唱歌 | 0.88 | 0.86 | 0.90 | 0.91 | 0.82 |
电话 | 0.52 | 0.92 | 0.84 | 0.88 | 0.89 |
本实施例,对以镜头为单元的视频进行测试。使用支持向量机对关键帧和关键帧中的视频对象进行分类,并对结果进行加权计算,一方面针对运动的视频对象分离背景,去除背景噪声;另一方面考虑到静止的视频语义,同时使用对整幅关键帧的图像特征进行分类的方法,使得语义分类的查全率和准确率相比于现有的方法有一定提高。虽然本实施例要对多种特征和多种语义进行分类,但是的决策系统是并行式的,可以同时进行测试,提高特征分类的效率。本实施例可以扩展语义的种类,形成比较完善的视频语义搜索系统。此外,还能增加正负训练样本的数量,样本数量的增加在一定程度上可以提高语义分类的准确率;增加用以权重值确定的测试样本数量,提高权重值的精确性。
本实施例的应用前景广泛,例如,在数量庞大的视频中,只要输入视频语义便能自动的找出含有该语义的视频,加快了搜索视频的效率;另外,常见的具有暴力和色情内容的不良视频中一般都含有人,使用本实施例可以精确地把具有语义为人的视频分类出来,提升了不良视频筛选的准确性。
Claims (1)
1.一种基于对象分割和特征加权融合的视频语义提取方法,其特征在于,通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算,即对于每一种语义所对应的视频对象的快速鲁棒特征、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别设置为r0,r1,r2,r3和r4,其中ri的值为0或1,其权重分别为w0,w1,w2,w3和w4,其中:0≤wi≤1,wi是预先对每一种语义的每种特征进行的小样本训练和测试所得的结果;然后根据与阈值Tc进行比较确定镜头中是否具有测试的语义,当则该镜头中包含所测试的语义,反之则镜头中不包含该语义;
所述的基于背景帧构造的视频对象语义分类,通过以下方式获得:
第一步,通过检测镜头内相邻帧对应的像素点间的变化来构造背景帧;
第二步,提取被检测镜头中的关键帧,查找关键帧中与背景帧不同的区域,以此作为视频对象候选区域;
第三步,采用静态图像阴影检测方法消除视频对象候选区域中的阴影区域;
第四步,提取视频对象的快速鲁棒特征,然后利用支持向量机对SURF特征分类;
所述的基于关键帧特征的视频语义分类,通过以下方式获得:
步骤一,提取镜头关键帧图像的全局特征和局部特征;
步骤二,采用支持向量机对已知语义的图像的特征进行预先训练,生成训练文件;
步骤三,使用支持向量机测试,把提取的每一种特征和预先训练好的语义的对应的特征文件进行匹配,以得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010529734 CN101976258B (zh) | 2010-11-03 | 2010-11-03 | 基于对象分割和特征加权融合的视频语义提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010529734 CN101976258B (zh) | 2010-11-03 | 2010-11-03 | 基于对象分割和特征加权融合的视频语义提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101976258A CN101976258A (zh) | 2011-02-16 |
CN101976258B true CN101976258B (zh) | 2013-07-10 |
Family
ID=43576144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010529734 Active CN101976258B (zh) | 2010-11-03 | 2010-11-03 | 基于对象分割和特征加权融合的视频语义提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101976258B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103164433B (zh) * | 2011-12-13 | 2016-06-15 | 阿里巴巴集团控股有限公司 | 一种图像搜索方法、装置及服务器 |
CN102799646B (zh) * | 2012-06-27 | 2015-09-30 | 浙江万里学院 | 一种面向多视点视频的语义对象分割方法 |
US8595773B1 (en) * | 2012-07-26 | 2013-11-26 | TCL Research America Inc. | Intelligent TV shopping system and method |
CN103268480B (zh) * | 2013-05-30 | 2016-07-06 | 重庆大学 | 一种视觉跟踪系统及方法 |
CN103985114B (zh) * | 2014-03-21 | 2016-08-24 | 南京大学 | 一种监控视频人物前景分割与分类的方法 |
CN104469545B (zh) * | 2014-12-22 | 2017-09-15 | 无锡天脉聚源传媒科技有限公司 | 一种检验视频片段切分效果的方法和装置 |
CN106375781B (zh) * | 2015-07-23 | 2019-09-13 | 无锡天脉聚源传媒科技有限公司 | 一种重复视频的判断方法及装置 |
CN105069811B (zh) * | 2015-09-08 | 2017-10-27 | 中国人民解放军重庆通信学院 | 一种多时相遥感图像变化检测方法 |
CN105856230B (zh) * | 2016-05-06 | 2017-11-24 | 简燕梅 | 一种可提高机器人位姿一致性的orb关键帧闭环检测slam方法 |
CN106781458B (zh) * | 2016-11-30 | 2019-10-18 | 成都通甲优博科技有限责任公司 | 一种交通事故监控方法及系统 |
CN106658169B (zh) * | 2016-12-18 | 2019-06-07 | 北京工业大学 | 一种基于深度学习多层次分割新闻视频的通用方法 |
CN107066621B (zh) * | 2017-05-11 | 2022-11-08 | 腾讯科技(深圳)有限公司 | 一种相似视频的检索方法、装置和存储介质 |
CN107784321B (zh) * | 2017-09-28 | 2021-06-25 | 深圳市快易典教育科技有限公司 | 数字绘本快速识别方法、系统及计算机可读存储介质 |
CN107767380A (zh) * | 2017-12-06 | 2018-03-06 | 电子科技大学 | 一种基于全局空洞卷积的高分辨率复合视野皮肤镜图像分割方法 |
CN110321858B (zh) * | 2019-07-08 | 2022-06-14 | 北京字节跳动网络技术有限公司 | 视频相似度确定方法、装置、电子设备及存储介质 |
US11270121B2 (en) | 2019-08-20 | 2022-03-08 | Microsoft Technology Licensing, Llc | Semi supervised animated character recognition in video |
US11366989B2 (en) | 2019-08-20 | 2022-06-21 | Microsoft Technology Licensing, Llc | Negative sampling algorithm for enhanced image classification |
CN110598576B (zh) * | 2019-08-21 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 一种手语交互方法、装置及计算机介质 |
CN112163122B (zh) * | 2020-10-30 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 确定目标视频的标签的方法、装置、计算设备及存储介质 |
CN112584062B (zh) * | 2020-12-10 | 2023-08-08 | 上海幻电信息科技有限公司 | 背景音频构建方法及装置 |
US11450107B1 (en) | 2021-03-10 | 2022-09-20 | Microsoft Technology Licensing, Llc | Dynamic detection and recognition of media subjects |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021857A (zh) * | 2006-10-20 | 2007-08-22 | 鲍东山 | 基于内容分析的视频搜索系统 |
CN101281520B (zh) * | 2007-04-05 | 2010-04-21 | 中国科学院自动化研究所 | 基于非监督学习和语义匹配特征交互式体育视频检索方法 |
CN101650728A (zh) * | 2009-08-26 | 2010-02-17 | 北京邮电大学 | 视频高层特征检索系统及其实现 |
-
2010
- 2010-11-03 CN CN 201010529734 patent/CN101976258B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101976258A (zh) | 2011-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101976258B (zh) | 基于对象分割和特征加权融合的视频语义提取方法 | |
Li et al. | Object detection in optical remote sensing images: A survey and a new benchmark | |
CN102622607B (zh) | 一种基于多特征融合的遥感图像分类方法 | |
Shahab et al. | ICDAR 2011 robust reading competition challenge 2: Reading text in scene images | |
Shalunts et al. | Architectural style classification of building facade windows | |
CN102346847B (zh) | 一种支持向量机的车牌字符识别方法 | |
Pan et al. | A robust system to detect and localize texts in natural scene images | |
CN101350069B (zh) | 从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法 | |
Sharma et al. | Recent advances in video based document processing: a review | |
CN105574505A (zh) | 一种多摄像机间人体目标再识别的方法及系统 | |
CN105718866B (zh) | 一种视觉目标检测与识别方法 | |
CN103761531A (zh) | 基于形状轮廓特征的稀疏编码车牌字符识别方法 | |
CN105574063A (zh) | 基于视觉显著性的图像检索方法 | |
CN109902618A (zh) | 一种海面船只识别方法和装置 | |
CN109033944B (zh) | 一种全天空极光图像分类与关键局部结构定位方法及系统 | |
Tian et al. | Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering | |
CN108734200B (zh) | 基于bing特征的人体目标视觉检测方法和装置 | |
CN106096658B (zh) | 基于无监督深度空间特征编码的航拍图像分类方法 | |
CN105718552A (zh) | 基于服装手绘草图的服装图像检索方法 | |
Zhu et al. | Deep residual text detection network for scene text | |
Prasad et al. | Using object information for spotting text | |
CN104598881B (zh) | 基于特征压缩与特征选择的歪斜场景文字识别方法 | |
Zambanini et al. | Improving ancient roman coin classification by fusing exemplar-based classification and legend recognition | |
Bhattacharya et al. | A survey of landmark recognition using the bag-of-words framework | |
Ramana et al. | Devanagari character recognition in the wild |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |