CN112509009A - 一种基于自然语言信息辅助的目标追踪方法 - Google Patents
一种基于自然语言信息辅助的目标追踪方法 Download PDFInfo
- Publication number
- CN112509009A CN112509009A CN202011482969.9A CN202011482969A CN112509009A CN 112509009 A CN112509009 A CN 112509009A CN 202011482969 A CN202011482969 A CN 202011482969A CN 112509009 A CN112509009 A CN 112509009A
- Authority
- CN
- China
- Prior art keywords
- target
- features
- natural language
- feature
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000000007 visual effect Effects 0.000 claims abstract description 48
- 230000004044 response Effects 0.000 claims abstract description 33
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 18
- 230000000694 effects Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 241001301648 Tradescantia ohiensis Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于自然语言信息辅助的目标追踪方法,包括对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。本方法结合自然语言信息和视觉信息优势,利用自然语言提供的高层次语义特征辅助视觉特征,使目标追踪更加稳定。
Description
技术领域
本发明涉及计算机目标追踪的技术领域,特别涉及一种基于自然语言信息辅助的目标追踪方法。
背景技术
目标追踪是计算机视觉研究的热门领域之一,是指在一段连续的视频帧中,利用人工智能技术,自动追踪视频连续帧中出现的某个固定目标。目标追踪作为一项基础技术广泛应用于各种领域,例如:自动驾驶、智慧城市以及智能监控等多个场景。
目标追踪属于一个具有挑战的计算机视觉任务,对于视频中的运动目标而言,目标的运动场景很容易发生变化,而且目标本身也在运动中不断的变化。这些变化为目标追踪带来了不少的挑战。其中,常见的挑战有以下两种:遮挡挑战,是指目标在运动过程中存在部分或完全被遮挡,形变挑战,当目标在运动过程中,目标的外观、形态有可能会发生改变,这会对追踪的效果产生影响;以及背景杂乱的挑战,是指目标在运动过程中,其背景变化多样复杂,随时也会有光照的变化,背景中也可能会出现相似的目标,这些都对追踪的效果产生干扰,尤其实在长效追踪中,目标特征的变化导致长效追踪实现存在者挑战。目前,在大多数目标追踪领域主要用到的方法是利用深度卷积网络来提取特征从而进行短效追踪。
针对目前追踪领域存在的问题,主要是因为特征不够强大,缺乏更高层的语义信息对追踪的目标进行描述。
发明内容
鉴于此,本发明提供了一种基于自然语言信息辅助的目标追踪方法,结合自然语言信息和视觉信息优势,利用自然语言提供的高层次语义特征辅助视觉特征,使目标追踪更加稳定。
本发明的技术方案如下:
本发明的基于自然语言信息辅助的目标追踪方法,包括以下步骤:S1:对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;S2:基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及S3:利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。
优选的,在上述目标追踪方法中,在步骤S1中,利用预训练好的卷积神经网络(CNN)提取目标和候选区域的视觉特征,以及利用长短记忆网络(LSTM)提取对目标进行描述的自然语言特征。
优选的,在上述目标追踪方法中,在步骤S1中,目标特征是在第一帧中,是由人进行标注,由目标中心点(x,y)和目标的宽和高(w,h)组成,获取到目标图块,将目标图块输入到训练好的卷积神经网络中,然后分别提取卷积神经网络的三个特征输出层,并对三个特征输出层输出的图像特征进行融合,生成多层特征,图像特征检测器将多层特征作为模板来进行检测。
优选的,在上述目标追踪方法中,在步骤S2中,构建自然语言的响应模型,用于寻找图片中与第一帧图片中目标描述最高的响应区域,其语言特征也被排列成一维的特征向量;构建视觉追踪模型,将从第一帧提取的目标视觉特征作为目标的模板特征,并将视觉特征向量排列成一维的特征向量。
优选的,在上述目标追踪方法中,在步骤S2中,对于新来的图像帧,利用视觉特征对图像进行检测,将目标的视觉特征与后选区域的特征进行对比,检测出前10个相似度高的图块作为输出;将输出的10个图块进行自然语言属性的检测,从10个图块中检测响应最高的作为目标的图块;输出目标在新一帧中的位置,得到新的图像;对于新来的一帧图像,重复上述操作。
优选的,在上述目标追踪方法中,通过特征融合的方式获取到目标的图像特征j,以及在新的图像中候选特征{k1,k2,k3,……,kn},从而计算目标特征j与候选特征k之间的相似度,筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10},分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测,从10个图块中检测响应最高的作为目标的图块。
根据本发明的技术方案,产生的有益效果是:
1)提供了一种先进的目标追踪方法,利用改变了单一依靠视觉信息进行目标追踪的传统模式,即提供了一种以自然语言描述为条件跟踪目标,将自然语言强大的描述效果融入到视觉特征中,提高了目标追踪的效率,减少了误跟踪或者目标漂移等情况,使得目标追踪的持续时间更长效果更好。
2)设计了一种新的互补融合模型,可以有效地将自然语言信息和计算机视觉信息进行有效的互补融合。传统的自然语言信息需要循环神经网络来进行特征提取,而传统的视觉信息需要卷积神经网络来进行特征的提取。本发明的互补模型可以有效地将循环神经网络提取的自然语言特征和卷积神经网络提取的计算机视觉特征相互结合,融合了两种特征的优点,弥补了相互存在的缺点。
3)在提取视觉特征过程中,将多个神经网络输出层进行融合,改变了以往依靠只依靠最后一层作为单一层输出的方法,将浅层特征、中间层特征和高层特征进行融合,得到的融合特征提高了特征表示的丰富度,克服了浅层特征中对目标大小敏感对语义信息不敏感而高层特征对语义信息敏感而对大小不敏感的弊端,对特征进行了一个互补。
为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
图1是本发明的一种基于自然语言信息辅助的目标追踪方法的流程图。
具体实施方式
本发明的基于自然语言信息辅助的目标追踪方法涉及的是一种视频序列中针对单目标追踪的方法,采用自然语言信息作为辅助的目标追踪的模式,在视频序列追踪目标的过程中,增加对目标的自然语言描述,这些语义的描述可以增加在追踪过程中的高层的语义信息,使得目标追踪更加的准确。
本发明的目标追踪方法利用自然语言信息作为辅助,可以将自然语言信息和视觉信息相互结合进行目标的追踪,同时,利用自然语言特征的特性以及计算机视觉信息的特性,设计了一种可以对两种特征进行融合的方法,大大扩展可检测的范围和精度。最后,利用自然语言信息提供的长期有效特征对目标特征进行修正,提高了目标追踪的有效时长,使得针对目标的长效追踪成为现实。
本发明的目标追踪方法的原理是:1)分别利用卷积神经网络(CNN)和长短记忆网络(LSTM)提取目标的图像特征和对目标进行描述的自然语言特征;2)利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应;3)利用融合了多层特征的图像特征检测器去确定图像特征的响应。
图1为本发明的一种基于自然语言信息辅助的目标追踪方法的流程图,本发明的基于自然语言信息辅助的目标追踪方法包括如下步骤:
S1:对图像进行视觉特征和自然语言特征描述,利用预训练好的卷积神经网络(CNN)提取目标和候选区域的视觉特征,即图像特征,以及利用长短记忆网络(LSTM)提取对目标进行描述的自然语言特征。
其中,利用卷积神经网络(CNN)从目标框中提出目标的初始视觉特征,即图像特征;利用长短记忆网络LSTM从目标描述中提取目标的初始自然语言特征。目标特征是在第一帧中,是由人进行标注,由目标中心点(x,y)和目标的宽和高(w,h)组成,由此,可以获取到目标图块,将目标图块输入到训练好的卷积神经网络中,然后分别提取CNN网络的三个特征输出层,对特征层FC6、特征层FC7和特征层FC8输出的图像特征进行融合,生成多层特征,图像特征检测器将多层特征作为模板来进行检测。候选区域由随机在目标中心点进行随机密集采样得到的。以同样的方法获取候选图块的特征。
如图1所示,开始时,对目标进行初始化,提取视觉特征,提取语言特征,会将需要追踪的目标利用方框框出,利用最多25个自然语言的词来对目标进行描述。
S2:基于初始的视觉特征构建视觉追踪模型(即,图1中的构建视觉模板),以及基于初始的自然语言追踪模型构建自然语言的响应模型(即,图1中的构建语言模板)。
其中,基于初始的自然语言追踪模型构建自然语言的响应模型,用于寻找图片中与第一帧图片中目标描述最高的响应区域,其语言特征也被排列成一维的特征向量,其中,初始的自然语言追踪模型基于初始的自然语言特征;构建视觉追踪模型,将从第一帧提取的目标图像特征作为目标的模板特征,并将图像特征向量排列成一维的特征向量。
S3:利用融合了多层特征的图像特征检测器确定图像特征的响应(图1中的视觉响应),以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应(图1中的语言响应)。
在该步骤S3中,具体操作为:对于新来的图像帧,利用视觉特征对图像进行检测,将目标的视觉特征与后选区域的特征进行对比,检测出前10个相似度高的图块作为输出;将输出的10个图块进行自然语言属性的检测,从10个图块中检测响应最高的作为目标的图块;输出目标在新一帧中的位置,即图1中的获取目标位置,得到新的图像;对于新来的一帧图像,重复上述操作。
具体地,利用自然语言描述确定搜索范围,例如,假设我们的追踪目标是可以被描述为:“在视频中追踪一个穿蓝色上衣,背着黑色背包的男子”,这便是目标追踪的初始描述,利用LSTM模型提取到初始帧中目标的关键信息:“蓝色上衣、背包、男子”作为目标的属性即属性(at1,at2,at3)。在随后的视频帧中,我们通过对图像进行检测,在图像检测中,同时具有“蓝色上衣、背包、男子“这三种属性的图块响应最高。
在S1中,通过特征融合的方式获取到目标的图像特征j,以及在新的图像中候选特征{k1,k2,k3,……,kn},从而计算目标特征j与候选特征k之间的相似度,筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10},分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测,从10个图块中检测响应最高的作为目标的图块。
本发明的测试效果,由于本发明提出的基于自然语言信息辅助的目标追踪方法是基于计算视觉的追踪提升方法的提升。本发明将提升前的和提升后分别进行测试对比,测试数据集为国际知名追踪数据集OTB50和OTB99,对比效果见表1。
表1中OTB51和OTB99分别是国际知名测试数据集,用来测试目标追踪算法的效果,Baseline和本发明分别表示提升前只基于计算机视觉的算法和提升后本发明的算法,IoU国际通用对追踪效果评估的方法,是指是预测和真值两个区域重叠的部分除以两个区域的集合部分得出的结果。
以上说明是依据本发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。
Claims (6)
1.一种基于自然语言信息辅助的目标追踪方法,其特征在于,包括以下步骤:
S1:对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;
S2:基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及
S3:利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。
2.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S1中,利用预训练好的卷积神经网络(CNN)提取目标和候选区域的所述视觉特征,以及利用长短记忆网络(LSTM)提取对目标进行描述的所述自然语言特征。
3.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S1中,目标特征是在第一帧中,是由人进行标注,由目标中心点(x,y)和目标的宽和高(w,h)组成,获取目标图块,将所述目标图块输入到训练好的卷积神经网络中,然后分别提取所述卷积神经网络的三个特征输出层,并对所述三个特征输出层输出的图像特征进行融合,生成多层特征,图像特征检测器将所述多层特征作为模板来进行检测。
4.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S2中,构建所述自然语言的响应模型,用于寻找图片中与第一帧图片中目标描述最高的响应区域,其语言特征也被排列成一维的特征向量;构建所述视觉追踪模型,将从第一帧提取的目标视觉特征作为目标的模板特征,并将视觉特征向量排列成一维的特征向量。
5.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S2中,对于新来的图像帧,利用视觉特征对图像进行检测,将目标的视觉特征与后选区域的特征进行对比,检测出前10个相似度高的图块作为输出;将输出的10个图块进行自然语言属性的检测,从10个图块中检测响应最高的作为目标的图块;输出目标在新一帧中的位置,得到新的图像;对于新来的一帧图像,重复上述操作。
6.根据权利要求1-5任一项所述的目标追踪方法,其特征在于,通过特征融合的方式获取到目标的图像特征j,以及在新的图像中候选特征{k1,k2,k3,……,kn},从而计算目标特征j与候选特征k之间的相似度,筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10},分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测,从10个图块中检测响应最高的作为目标的图块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482969.9A CN112509009B (zh) | 2020-12-16 | 2020-12-16 | 一种基于自然语言信息辅助的目标追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482969.9A CN112509009B (zh) | 2020-12-16 | 2020-12-16 | 一种基于自然语言信息辅助的目标追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112509009A true CN112509009A (zh) | 2021-03-16 |
CN112509009B CN112509009B (zh) | 2024-04-12 |
Family
ID=74972363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011482969.9A Active CN112509009B (zh) | 2020-12-16 | 2020-12-16 | 一种基于自然语言信息辅助的目标追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509009B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159217A (zh) * | 2021-05-12 | 2021-07-23 | 深圳龙岗智能视听研究院 | 一种基于事件相机的注意力机制目标检测的方法 |
CN113936040A (zh) * | 2021-10-15 | 2022-01-14 | 哈尔滨工业大学 | 基于胶囊网络和自然语言查询的目标跟踪方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133569A (zh) * | 2017-04-06 | 2017-09-05 | 同济大学 | 基于泛化多标记学习的监控视频多粒度标注方法 |
TW201818277A (zh) * | 2016-11-10 | 2018-05-16 | 美商高通公司 | 自然語言物件追蹤 |
CN110390289A (zh) * | 2019-07-17 | 2019-10-29 | 苏州大学 | 基于指称理解的视频安防检测方法 |
-
2020
- 2020-12-16 CN CN202011482969.9A patent/CN112509009B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201818277A (zh) * | 2016-11-10 | 2018-05-16 | 美商高通公司 | 自然語言物件追蹤 |
CN107133569A (zh) * | 2017-04-06 | 2017-09-05 | 同济大学 | 基于泛化多标记学习的监控视频多粒度标注方法 |
CN110390289A (zh) * | 2019-07-17 | 2019-10-29 | 苏州大学 | 基于指称理解的视频安防检测方法 |
Non-Patent Citations (3)
Title |
---|
QI FENG 等: "Modeling Context Between Objects for Referring Expression Understanding", 《ARXIV》 * |
ZHENYANG LI 等: "Tracking by Natural Language Specification", 《IEEE》 * |
李晨曦: "基于语言和视觉模型的目标跟踪算法研究", 《CNKI》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159217A (zh) * | 2021-05-12 | 2021-07-23 | 深圳龙岗智能视听研究院 | 一种基于事件相机的注意力机制目标检测的方法 |
CN113159217B (zh) * | 2021-05-12 | 2023-08-01 | 深圳龙岗智能视听研究院 | 一种基于事件相机的注意力机制目标检测的方法 |
CN113936040A (zh) * | 2021-10-15 | 2022-01-14 | 哈尔滨工业大学 | 基于胶囊网络和自然语言查询的目标跟踪方法 |
CN113936040B (zh) * | 2021-10-15 | 2023-09-15 | 哈尔滨工业大学 | 基于胶囊网络和自然语言查询的目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112509009B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Learning to measure change: Fully convolutional siamese metric networks for scene change detection | |
An et al. | Performance evaluation of model-based gait on multi-view very large population database with pose sequences | |
Kawewong et al. | Online and incremental appearance-based SLAM in highly dynamic environments | |
Gao et al. | Multi-perspective and multi-modality joint representation and recognition model for 3D action recognition | |
Ren et al. | Overview of object detection algorithms using convolutional neural networks | |
Xiao et al. | Deep learning for occluded and multi‐scale pedestrian detection: A review | |
CN105160649A (zh) | 基于核函数非监督聚类的多目标跟踪方法及系统 | |
CN112509009A (zh) | 一种基于自然语言信息辅助的目标追踪方法 | |
Liu et al. | A novel shot detection approach based on ORB fused with structural similarity | |
Kawewong et al. | PIRF-Nav 2.0: Fast and online incremental appearance-based loop-closure detection in an indoor environment | |
Almaadeed et al. | A novel approach for robust multi human action recognition and summarization based on 3D convolutional neural networks | |
Hao et al. | Recognition of basketball players’ action detection based on visual image and Harris corner extraction algorithm | |
Jiao et al. | Vehicle wheel weld detection based on improved YOLO v4 algorithm | |
Yang et al. | An object detection and tracking system for unmanned surface vehicles | |
Jiang et al. | A unified tree-based framework for joint action localization, recognition and segmentation | |
Jin et al. | Depth-aware gaze-following via auxiliary networks for robotics | |
Zhang et al. | Two-stream RGB-D human detection algorithm based on RFB network | |
Ahmad et al. | Embedded deep vision in smart cameras for multi-view objects representation and retrieval | |
Yun et al. | Part-level convolutional neural networks for pedestrian detection using saliency and boundary box alignment | |
Pang et al. | Analysis of computer vision applied in martial arts | |
Tang et al. | Using a selective ensemble support vector machine to fuse multimodal features for human action recognition | |
Liang et al. | Egocentric hand pose estimation and distance recovery in a single RGB image | |
Zhong et al. | Online learning 3D context for robust visual tracking | |
Li et al. | Deep fusion of multi-layers salient CNN features and similarity network for robust visual place recognition | |
CN106558065A (zh) | 基于图像颜色和纹理分析实现对目标的实时视觉跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |