CN106611030A - 基于视频的对象相似度比较方法和检索方法及其系统 - Google Patents

基于视频的对象相似度比较方法和检索方法及其系统 Download PDF

Info

Publication number
CN106611030A
CN106611030A CN201510710336.1A CN201510710336A CN106611030A CN 106611030 A CN106611030 A CN 106611030A CN 201510710336 A CN201510710336 A CN 201510710336A CN 106611030 A CN106611030 A CN 106611030A
Authority
CN
China
Prior art keywords
feature
similarity
reference point
point
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510710336.1A
Other languages
English (en)
Other versions
CN106611030B (zh
Inventor
谢迪
浦世亮
朱江
全晓臣
武晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201510710336.1A priority Critical patent/CN106611030B/zh
Publication of CN106611030A publication Critical patent/CN106611030A/zh
Application granted granted Critical
Publication of CN106611030B publication Critical patent/CN106611030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及视频监控领域,公开了基于视频的对象相似度比较方法,包括以下步骤:分别从包含第一对象和第二对象的图像组中获取第一对象和第二对象的典型参考点,并根据第一和第二对象的典型参考点计算对象的相似度;其中,通过以下方式获取对象的典型参考点:在包括一个对象的每一帧图像中提取该对象的特征,作为该对象在一个视角的特征;将每一个视角的特征作为一个参考点,根据参考点拟合出平滑的超曲线;选取多个典型参考点,其中相邻的典型参考点之间曲率改变率大于预定阈值。本发明根据参考点的曲率改变率选取视角重叠程度低的图像中的参考点作为典型参考点来计算两个对象的相似度,提高了计算效率和计算结果的准确性。

Description

基于视频的对象相似度比较方法和检索方法及其系统
技术领域
本发明涉及视频监控领域,特别涉及视屏对象相似度比较和检索。
背景技术
目前市面上与本发明相似的现有技术有很多,这些技术或多或少都提到了三维模型检索、多特征融合等关键技术流程。
CN101281545A提出了一种基于多特征相关反馈的三维模型检索方法,方法中提到了服务器端对三维模型数据库中的每个三维模型进行处理。
CN101593205A提出了一种基于视频的三维模型检索方法,方法中提到了对三维模型数据库进行预处理,生成二维轮廓数据库。
CN103116904A提出了一种三维模型的二维特征提取系统,系统包括对输入的三维模型数据文件进行三维模型的建模。
但多数现有技术具有如下的差异与缺点:
(1)现有技术需要显式地对待检索对象进行三维建模,即需要数据库存储有大量的对象三维模型,这一方面大大增加了存储量,另一方面又需要浪费大量精力搜集感兴趣对象的模型;
(2)现有技术多使用三维模型在二维平面上的投影轮廓或者梯度特征,这些人工设计的特征无法完全囊括当前视角下物体表面的所有有用信息;
(3)现有技术在计算两个对象之间的相似度时,仅计算两个对象对应视角间的度量,而没有考虑到物体各个视角间的关联性及重要性,检索正确率有待提升。
发明内容
本发明的目的在于提供一种基于视频的对象相似度比较方法和检索方法及其系统,根据参考点的曲率改变率选取视角重叠程度低的图像中的参考点作为典型参考点来计算两个对象的相似度,提高了计算效率和计算结果的准确性。
为解决上述技术问题,本发明的实施方式公开了一种基于视频的对象相似度比较方法,包括以下步骤:
从包含第一对象的第一图像组中获取第一对象的典型参考点,从包含第二对象的第二图像组中获取第二对象的典型参考点,并根据第一和第二对象的典型参考点计算第一和第二对象的相似度;其中,通过以下方式从包括一个对象的一个图像组中获取该对象的典型参考点:
在包括一个对象的一个图像组的每一帧图像中提取该对象的特征,以作为该对象在一个视角的特征;
将每一个视角的特征作为多维空间中的一个参考点,根据参考点拟合出平滑的超曲线;
计算超曲线上每个参考点的曲率,从这些参考点中选取多个参考点作为典型参考点,其中相邻的典型参考点之间的曲率改变率大于预定阈值。
本发明的实施方式还公开了一种基于视频的对象检索方法,包括以下步骤:
根据对象相似度比较的方法计算待检索对象与数据库中对象之间的相似度;
将相似度大于阈值的对象作为待检索对象的检索结果。
本发明的实施方式还公开了一种基于视频的对象相似度比较系统,包括以下模块:
典型参考点获取模块,用于从包含第一对象的第一图像组中获取第一对象的典型参考点,从包含第二对象的第二图像组中获取第二对象的典型参考点;
相似度计算模块,用于根据第一和第二对象的典型参考点计算第一和第二对象的相似度;其中,
典型参考点获取模块通过以下方式从包括一个对象的一个图像组中获取该对象的典型参考点:
对象特征提取模块,用于在包括一个对象的一个图像组的每一帧图像中提取该对象的特征,以作为该对象在一个视角的特征;
曲线拟合模块,用于将每一个视角的特征作为多维空间中的一个参考点,根据参考点拟合出平滑的超曲线;
参考点选取模块,用于计算超曲线上每个参考点的曲率,从这些参考点中选取多个参考点作为典型参考点,其中相邻的典型参考点之间的曲率改变率大于预定阈值。
本发明的实施方式还公开了一种基于视频的对象检索系统,包括以下模块:
相似度比较模块,用于根据上文的对象相似度比较系统,计算待检索对象与数据库中对象之间的相似度;
检索结果选取模块,用于将相似度大于阈值的对象作为待检索对象的检索结果。
本发明实施方式与现有技术相比,主要区别及其效果在于:
本发明在包括对象的图像组中的每一帧图像中提取对象的特征作为一个视角下的参考点,并根据参考点的曲率改变率选取视角重叠程度低的图像中的参考点作为典型参考点来计算两个对象的相似度,提高了计算效率和计算结果的准确性。
根据前述对象相似度比较的方法计算两个对象的相似度以进行检索,提高了检索效率和检索结果的准确性。
进一步地,将对象的稠密关键点特征进行降维可减少计算量;基于卷积神经网络的特征提取可以最大限度地提取囊括当前视角下物体表面的所有有价值信息,用于后续比对。
进一步地,通过初步定位和精细化定位,能够精确确定对象位置。
进一步地,可直接利用匹配的结果进行不同视角的特征融合计算相似度,而不需要任何三维模型;且在计算两个对象的相似度时,不仅关注匹配上的特征点即相同视角的特征,也考虑了未匹配上的特征点即不同视角的特征,综合同一对象各个视角间的关联性及重要性,有效提升相似度计算正确率。
附图说明
图1是本发明第一实施方式中一种基于视频的对象相似度比较方法的流程示意图;
图2是本发明第二实施方式中一种基于视频的对象相似度比较方法的流程示意图;
图3是本发明第三实施方式中一种基于视频的对象特征提取算法流程示意图;
图4是本发明第五实施方式中一种基于视频的对象相似度比较系统的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。
术语解释:
CNN—卷积神经网络。深度学习的一种常见结构,由多层神经元组成,每层神经元之间通过各种方式(卷积、池化、全连接等等)进行连接。
稠密关键点特征—在图像上以逐个像素的方式进行特征的提取,将每个像素对应的特征级联起来所形成的高维特征,其中的代表有CDVS、SIFT、SURF等。
超曲线—位于维数大于2维的空间中的曲线。
KDE—核密度估计(Kernel Density Estimation),一种用于平滑函数的技术。
FV—Fisher Vector算法。
Hashing—哈希技术,一种将特征向量通过哈希函数映射为二进制码的技术。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明第一实施方式涉及一种基于视频的对象相似度比较方法。图1是该基于视频的对象相似度比较方法的流程示意图。该基于视频的对象相似度比较方法包括以下步骤:
步骤101,从包含第一对象的第一图像组中获取第一对象的典型参考点,从包含第二对象的第二图像组中获取第二对象的典型参考点;
步骤102,根据第一和第二对象的典型参考点计算第一和第二对象的相似度。
待比较相似度的第一对象和第二对象是输入的视频序列或图像集合中所包含的对象,既可以是数据库中的也可以是新输入的。
其中,如图所示,在步骤101中,通过以下方式从包括一个对象的一个图像组中获取该对象的典型参考点:
步骤111,在包括一个对象的一个图像组的每一帧图像中提取该对象的特征,以作为该对象在一个视角的特征。
可以理解,包含对象的每一帧图像对应于对象的一个视角,因此在该帧图像中提取的特征可作为对象在对应视角下的特征。
步骤112,将每一个视角的特征作为多维空间中的一个参考点,根据参考点拟合出平滑的超曲线。
在该步骤中,根据参考点拟合出平滑的超曲线可以使用核密度估计方法进行拟合,可可以根据插值法、最小二乘法等其它方法进行拟合)。
步骤113,计算超曲线上每个参考点的曲率,从这些参考点中选取多个参考点作为典型参考点,其中相邻的典型参考点之间的曲率改变率大于预定阈值。
参考点的曲率改变率反映了视角变化程度,相邻的典型参考点之间的曲率改变率大于预定阈值则表示相邻的典型参考点所对应的图像之间的视角变化程度较大。因此,选取曲率改变率大于预定阈值的参考点作为典型参考点,舍弃其余曲率改变率较小的参考点,最后选取的图像视角重叠程度较低,一方面减少了图像冗余提高了计算效果,另一方面,对重叠视角的图像不进行重复计算,提高了计算的准确性。
举例来说,对象为人物,假设包含第一人物和第二人物的两个图像组中分别有三帧图像是背面视角,只有一帧图像是正面视角,且三个背面视角下的图像非常相似,而正面视角下的图像完全不同(第一人物和第二人物不是同一个人,而背影非常相似),如果不对重叠视角的图像进行筛选和删除,则在计算第一人物和第二人物的相似度时,三个背面视角所占的权重肯定大于一个正面视角的权重,计算结果有可能是相似度较高,而第一人物和第二人物根本就不是同一个人,因此计算结果不准确。所以,如上先从参考点中选取曲率改变率大于预定阈值的作为典型参考点,以使图像视角重叠程度较低,有利于提高计算准确度。
选取典型参考点可以有多种方法,在一个优选例中,可以将参考点按照曲率改变率进行分组,选取每组参考点中的第一个作为典型参考点,在另一优选例中,也可以在每组参考点中随机选取一个作为典型参考点。在本发明的其它实施方式中,也可以不对参考点进行分组,而直接根据曲率改变率选取典型参考点。
本实施方式在包括对象的图像组中的每一帧图像中提取对象的特征作为一个视角下的参考点,并根据参考点的曲率改变率选取视角重叠程度低的图像中的参考点作为典型参考点来计算两个对象的相似度,提高了计算效率和计算结果的准确性。
第二实施方式在第一实施方式的基础上进行了改进,主要改进之处在于如何提取对象的特征:将对象的稠密关键点特征进行降维可减少计算量;基于卷积神经网络的特征提取可以最大限度地提取囊括当前视角下物体表面的所有有价值信息,用于后续比对;通过初步定位和精细化定位,能够精确确定对象位置。具体地说:
步骤111包括以下子步骤:
对于每一帧图像,确定在该帧图像中对象的位置;
根据对象的位置对每一帧图像进行采样;
根据采样结果提取特征作为该对象在一个视角的特征。
此外,可以理解,在另一优选例中,通过对对象位置加入一个随机扰动值的方式进行采样,使得对象位置具有一定的偏移量,增加了样本分布。
优选地,上述根据采样结果提取特征作为该对象在一个视角的特征的子步骤进一步包括以下子步骤:
提取属于该对象的稠密关键点特征,对稠密关键点特征进行降维并映射为低维子空间特征;
提取属于该对象的基于卷积神经网络的特征;
将降维后的稠密关键点特征与基于卷积神经网络的特征进行级联,形成对象在一个视角的特征。
上述稠密关键点特征可以为角点的对比度和梯度,包括但不限于DDVS,SIFT等。
优选地,上述确定在该帧图像中对象的位置的步骤,包括以下子步骤:
提取出对象的候选框,对于每个候选框使用基于卷积神经网络的检测方法对感兴趣对象进行初步定位;
使用边界框回归技术进一步精细化定位对象位置。
可以理解,提取对象的候选框时可使用图像处理方法进行自动提取。
在本发明的其它实施方式中,除了基于卷积神经网络的检测方法,也可以使用其它方法对对象进行初步定位,包括可变形部件模型DPM、AdaBoost等。
另外,在本发明的其它实施方式中,除了边界框回归技术,也可以使用其它方法进一步精细化对象位置,例如非极大值抑制等。
本发明第三实施方式涉及一种基于视频的对象相似度比较方法,第三实施方式在第一实施方式的基础上进行了改进,主要改进之处在于:
直接利用匹配的结果进行不同视角的特征融合计算相似度,而不需要任何三维模型;且在计算两个对象的相似度时,不仅关注匹配上的特征点即相同视角的特征,也考虑了未匹配上的特征点即不同视角的特征,综合同一对象各个视角间的关联性及重要性,有效提升相似度计算正确率。具体地说:
步骤102包括以下子步骤:
将第一和第二对象每个典型参考点映射为二进制串,作为第一和第二对象的特征码;
将第一和第二对象的典型参考点对应的特征码看作二分图中的两组特征点集合,将两组特征点集合进行匹配得到每个特征点的最佳匹配特征点;
使用如下公式计算相似度:
其中,表示所有匹配上的特征点的集合,表示待检索对象中没有匹配上的特征点的集合,表示数据库对象中没有匹配上的特征点的集合;pu,pv表示特征码,H(pu,pv)表示pu,pv之间的Hamming距;|pu|表示集合中每个特征码的长度,|pv|表示集合中每个特征码的长度,α和β用于控制非匹配结果与匹配结果之间的重要性。
可以理解,在将两个对象不同视角的特征点进行匹配后计算相似度,而不需要显示地对对象进行三维建模,不需要在数据库中存储大量的对象三维模型。
将每个典型参考点对应的高维矢量映射为二进制串,大大降低了计算高维空间点之间距离时的复杂度。映射为二进制串时,可通过哈希技术进行映射(将任意数值映射为二进制表示的方式称为统称为哈希技术)。
此外,在本发明的其它实施方式中,将每个典型参考点映射为二进制串作为当前对象在当前视角的特征码的步骤并不是必须的,也可以直接使用高维矢量的典型参考点进行计算。
在另一优选例中,将两组特征点集合进行匹配时,可以应用匈牙利算法求解得到最佳匹配。在本发明的其它实施方式中,也可以采用其它算法对两组特征点集合进行匹配。
作为第二实施方式和第三实施方式的优选例,整个算法的流程图如图2和图3所示,如图2所示为基于视频的对象相似度比较方法的流程示意图,如图3所示为基于视频的对象特征提取算法流程示意图。
图2中,“输入对象视频序列或图像集合(待检索)”与“输入对象视频序列或图像集合(数据库)”分时输入,生成各自的二元特征码集合。
其中图2特征提取部分的操作,针对每张图片分别进行,如图3所示。
该优选例具体步骤如下:
1.对于输入的每一帧图像,我们首先提取出候选框。对于每一个候选框使用基于卷积神经网络的检测方法确定感兴趣对象的大致位置,然后使用边界框回归技术进一步精细化对象位置。
2.在确定每一帧的对象位置后,我们通过对对象位置加入一个随机扰动值的方式来进行采样。经采样后在所有样本的区域中提取属于该对象当前视角的稠密关键点特征(包括但不限于CDVS、SIFT等)以及CNN特征。对于关键点特征,我们使用Fisher Vector算法将其映射为64维的低维子空间特征。最后将关键点特征与CNN特征级联起来形成该对象当前视角的特征。
3.每一帧都进行第2步操作。将每一帧中对象对应视角的特征看作多维空间中的一个参考点,使用核密度估计(kernel density estimation)方法拟合出平滑的超曲线。
4.计算超曲线上每个参考点的曲率,通过设定阈值,来选取曲率改变率较大的参考点(以及第一个参考点)作为典型参考点,用来表示同一对象在不同视角下的特征。丢弃其余曲率改变率较小的参考点。
曲率改变率,是指当前参考点曲率与相邻参考点曲率的差的绝对值。相邻参考点曲率,可以是当前参考点的前一个参考点的曲率,也可以是当前参考点的前后两个参考点的曲率的平均值。
5.对于每个参考点,可以通过哈希技术,将其映射为一个二进制串,作为当前对象在当前视角的特征码。在计算两个不同对象之间的相似度时,我们使用了二分图匹配算法。将欲计算相似度的两个对象的每个参考点对应的特征码看成二分图(bipartite graph)中的两组节点集合,两两节点之间的权值为相应特征码的Hamming距。然后应用经典的匈牙利算法来求解,得到最佳匹配。最后相似度得分计算如下:
其中表示所有匹配上的特征点的集合,表示待检索对象中没有匹配上的特征点的集合,表示数据库对象中没有匹配上的特征点的集合。pu,pv表示特征码,H(pu,pv)表示pu,pv之间的Hamming距;|pu|表示集合中每个特征码的长度,|pv|表示集合中每个特征码的长度。α和β用于控制非匹配结果与匹配结果之间的重要性。
本发明第四实施方式涉及一种基于视频的对象检索方法。该基于视频的对象检索方法包括以下步骤:
根据第一至第三实施方式中的对象相似度比较的方法计算待检索对象与数据库中对象之间的相似度;
将相似度大于阈值的对象作为待检索对象的检索结果。
根据前述实施方式中的对象相似度比较的方法计算两个对象的相似度以进行检索,提高了检索效率和检索结果的准确性。
本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable Array Logic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
本发明第五实施方式涉及一种基于视频的对象相似度比较系统,图4是该基于视频的对象相似度比较系统的结构示意图。该基于视频的对象相似度比较系统包括以下模块:
典型参考点获取模块,用于从包含第一对象的第一图像组中获取第一对象的典型参考点,从包含第二对象的第二图像组中获取第二对象的典型参考点。
相似度计算模块,用于根据第一和第二对象的典型参考点计算第一和第二对象的相似度。其中,
典型参考点获取模块通过以下方式从包括一个对象的一个图像组中获取该对象的典型参考点:
对象特征提取模块,用于在包括一个对象的一个图像组的每一帧图像中提取该对象的特征,以作为该对象在一个视角的特征。
曲线拟合模块,用于将每一个视角的特征作为多维空间中的一个参考点,根据参考点拟合出平滑的超曲线。
参考点选取模块,用于计算超曲线上每个参考点的曲率,从这些参考点中选取多个参考点作为典型参考点,其中相邻的典型参考点之间的曲率改变率大于预定阈值。
本实施方式在包括对象的图像组中的每一帧图像中提取对象的特征作为一个视角下的参考点,并根据参考点的曲率改变率选取视角重叠程度低的图像中的参考点作为典型参考点来计算两个对象的相似度,提高了计算效率和计算结果的准确性。
第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本发明第六实施方式涉及一种基于视频的对象相似度比较系统,第六实施方式在第五实施方式的基础上进行了改进,主要改进之处在于如何提取对象特征:
将对象的稠密关键点特征进行降维可减少计算量;基于卷积神经网络的特征提取可以最大限度地提取囊括当前视角下物体表面的所有有价值信息,用于后续比对;通过初步定位和精细化定位,能够精确确定对象位置。具体地说:
对象特征提取模块包括以下子模块:
对象位置确定子模块,用于对每一帧图像确定在该帧图像中对象的位置;
采样子模块,用于根据对象的位置对每一帧图像进行采样;
提取特征子模块,用于根据采样结果提取特征作为该对象在一个视角的特征。
优选地,提取特征子模块进一步包括以下子模块:
第一特征提取子模块,用于提取属于该对象的稠密关键点特征,对稠密关键点特征进行降维并映射为低维子空间特征;
第二特征提取子模块,用于提取属于该对象的基于卷积神经网络的特征;
特征级联子模块,用于将降维后的稠密关键点特征与基于卷积神经网络的特征进行级联,形成对象在一个视角的特征。
优选地,对象位置确定子模块进一步包括以下子模块:
初步定位子模块,用于提取出对象的候选框,对于每个候选框使用基于卷积神经网络的检测方法对感兴趣对象进行初步定位;
精细定位子模块,用于使用边界框回归技术进一步精细化定位对象位置。
第二实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本发明第七实施方式涉及一种基于视频的对象相似度比较系统,第七实施方式在第五实施方式的基础上进行了改进,主要改进之处在于:
直接利用匹配的结果进行不同视角的特征融合计算相似度,而不需要任何三维模型;且在计算两个对象的相似度时,不仅关注匹配上的特征点即相同视角的特征,也考虑了未匹配上的特征点即不同视角的特征,综合同一对象各个视角间的关联性及重要性,有效提升相似度计算正确率。具体地说:
相似度计算模块包括以下子模块:
映射子模块,用于将第一和第二对象每个典型参考点映射为二进制串,作为第一和第二对象的特征码;
匹配子模块,用于将第一和第二对象的典型参考点对应的特征码看作二分图中的两组特征点集合,将两组特征点集合进行匹配得到每个特征点的最佳匹配特征点;
计算子模块,用于使用如下公式计算相似度:
其中,表示所有匹配上的特征点的集合,表示待检索对象中没有匹配上的特征点的集合,表示数据库对象中没有匹配上的特征点的集合;pu,pv表示特征码,H(pu,pv)表示pu,pv之间的Hamming距;|pu|表示集合中每个特征码的长度,|pv|表示集合中每个特征码的长度,α和β用于控制非匹配结果与匹配结果之间的重要性。
第三实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第三实施方式互相配合实施。第三实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第三实施方式中。
本发明第八实施方式涉及一种基于视频的对象检索系统,包括以下模块:
相似度比较模块,用于根据第五至第七实施方式中任一项的对象相似度比较系统,计算待检索对象与数据库中对象之间的相似度。
检索结果选取模块,用于将相似度大于阈值的对象作为待检索对象的检索结果。
根据前述实施方式中的对象相似度比较的方法计算两个对象的相似度以进行检索,提高了检索效率和检索结果的准确性。
第四实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第四实施方式互相配合实施。第四实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第四实施方式中。
本发明提出了一种基于视频的对象特征多视角融合及检索技术。
特征融合步骤:本发明以同一对象的连续时间帧或者多张多角度抓拍图像做为输入,输出对于此对象的三维特征描述的方法。对于包含该对象的每一帧图像,提取属于该对象的关键点特征(包括但不限于CDVS、SIFT等);同时使用多视角回归算法解析出每一帧所对应的视角;接着尽可能地选择视角重叠程度较低的图像,将其中每一帧图像上提取的关键点特征融合(包括但不限于CDVS、SIFT等)。
检索步骤:根据待检索对象的角度,选择对应的特征与数据库中的对象进行比较,计算相似度。
与本发明与相似的方案差异点:
CN101281545A提出了一种基于多特征相关反馈的三维模型检索方法,方法中提到了服务器端对三维模型数据库中的每个三维模型进行处理。本发明不涉及任何对象的任何三维模型,这是最本质也是最重要的区别。
CN101593205A提出了一种基于视频的三维模型检索方法,方法中提到了对三维模型数据库进行预处理,生成二维轮廓数据库。本发明不涉及任何对象的任何三维模型,这是最本质也是最重要的区别。
CN103116904A提出了一种三维模型的二维特征提取系统,系统包括对输入的三维模型数据文件进行三维模型的建模。本发明不涉及任何对象的任何三维模型,这是最本质也是最重要的区别。
本申请带来的有益效果:
(1)现有技术需要显示地对检索对象进行三维建模,即需要数据库存储有大量的对象三维模型,这一方面大大增加了存储量,另一方面又需要浪费大量精力搜集感兴趣对象的模型;而本发明无需任何三维模型,即可对不同视角的特征进行融合;
(2)现有技术多使用三维模型在二维平面上的投影轮廓或者梯度特征,这些人工设计的特征无法完全囊括当前视角下物体表面的所有有用信息;而基于卷积神经网络的方法可以最大限度地提取有价值特征用于后续比对;
(3)现有技术在计算两个对象之间的相似度时,仅计算两个对象对应视角间的度量,而没有考虑到同一物体各个视角间的关联性及重要性,检索正确率有待提升。本发明通盘考虑了物体所有视角之间的关联性,大大提升了多视角对象检索的正确率。
需要说明的是,本发明各设备实施方式中提到的各模块都是逻辑模块,在物理上,一个逻辑模块可以是一个物理模块,也可以是一个物理模块的一部分,还可以以多个物理模块的组合实现,这些逻辑模块本身的物理实现方式并不是最重要的,这些逻辑模块所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外,为了突出本发明的创新部分,本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入,这并不表明上述设备实施方式并不存在其它的模块。
需要说明的是,在本专利的权利要求和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (12)

1.一种基于视频的对象相似度比较方法,其特征在于,包括以下步骤:
从包含第一对象的第一图像组中获取第一对象的典型参考点,从包含第二对象的第二图像组中获取第二对象的典型参考点,并根据第一和第二对象的典型参考点计算第一和第二对象的相似度;其中,通过以下方式从包括一个对象的一个图像组中获取该对象的典型参考点:
在包括一个对象的一个图像组的每一帧图像中提取该对象的特征,以作为该对象在一个视角的特征;
将每一个视角的特征作为多维空间中的一个参考点,根据参考点拟合出平滑的超曲线;
计算所述超曲线上每个参考点的曲率,从这些参考点中选取多个参考点作为典型参考点,其中相邻的典型参考点之间的曲率改变率大于预定阈值。
2.根据权利要求1所述的基于视频的对象相似度比较方法,其特征在于,所述“在包括一个对象的一个图像组的每一帧图像中提取该对象的特征,以作为该对象在一个视角的特征”的步骤包括以下子步骤:
对于每一帧图像,确定在该帧图像中对象的位置;
根据对象的位置对每一帧图像进行采样;
根据采样结果提取特征作为该对象在一个视角的特征。
3.根据权利要求2所述的基于视频的对象相似度比较方法,其特征在于,所述根据采样结果提取特征作为该对象在一个视角的特征的步骤包括以下子步骤:
提取属于该对象的稠密关键点特征,对所述稠密关键点特征进行降维并映射为低维子空间特征;
提取属于该对象的基于卷积神经网络的特征;
将所述降维后的稠密关键点特征与基于卷积神经网络的特征进行级联,形成所述对象在一个视角的特征。
4.根据权利要求2所述的基于视频的对象相似度比较方法,其特征在于,所述确定在该帧图像中对象的位置的步骤,包括以下子步骤:
提取出对象的候选框,对于每个候选框使用基于卷积神经网络的检测方法对感兴趣对象进行初步定位;
使用边界框回归技术进一步精细化定位对象位置。
5.根据权利要求1所述的基于视频的对象相似度比较方法,其特征在于,所述根据第一和第二对象的典型参考点计算第一和第二对象的相似度的步骤包括以下子步骤:
将第一和第二对象每个典型参考点映射为二进制串,作为第一和第二对象的特征码;
将第一和第二对象的典型参考点对应的特征码看作二分图中的两组特征点集合,将两组特征点集合进行匹配得到每个特征点的最佳匹配特征点;
使用如下公式计算相似度:
其中,表示所有匹配上的特征点的集合,表示待检索对象中没有匹配上的特征点的集合,表示数据库对象中没有匹配上的特征点的集合;pu,pv表示特征码,H(pu,pv)表示pu,pv之间的Hamming距;|pu|表示集合中每个特征码的长度,|pv|表示集合中每个特征码的长度,α和β用于控制非匹配结果与匹配结果之间的重要性。
6.一种基于视频的对象检索方法,其特征在于,包括以下步骤:
根据权利要求1至5中任一项所述的对象相似度比较的方法计算待检索对象与数据库中对象之间的相似度;
将相似度大于阈值的对象作为所述待检索对象的检索结果。
7.一种基于视频的对象相似度比较系统,其特征在于,包括以下模块:
典型参考点获取模块,用于从包含第一对象的第一图像组中获取第一对象的典型参考点,从包含第二对象的第二图像组中获取第二对象的典型参考点;
相似度计算模块,用于根据第一和第二对象的典型参考点计算第一和第二对象的相似度;其中,
所述典型参考点获取模块通过以下方式从包括一个对象的一个图像组中获取该对象的典型参考点:
对象特征提取模块,用于在包括一个对象的一个图像组的每一帧图像中提取该对象的特征,以作为该对象在一个视角的特征;
曲线拟合模块,用于将每一个视角的特征作为多维空间中的一个参考点,根据参考点拟合出平滑的超曲线;
参考点选取模块,用于计算所述超曲线上每个参考点的曲率,从这些参考点中选取多个参考点作为典型参考点,其中相邻的典型参考点之间的曲率改变率大于预定阈值。
8.根据权利要求7所述的基于视频的对象相似度比较系统,其特征在于,所述对象特征提取模块包括以下子模块:
对象位置确定子模块,用于对每一帧图像确定在该帧图像中对象的位置;
采样子模块,用于根据对象的位置对每一帧图像进行采样;
提取特征子模块,用于根据采样结果提取特征作为该对象在一个视角的特征。
9.根据权利要求8所述的基于视频的对象相似度比较系统,其特征在于,所述提取特征子模块进一步包括以下子模块:
第一特征提取子模块,用于提取属于该对象的稠密关键点特征,对所述稠密关键点特征进行降维并映射为低维子空间特征;
第二特征提取子模块,用于提取属于该对象的基于卷积神经网络的特征;
特征级联子模块,用于将所述降维后的稠密关键点特征与基于卷积神经网络的特征进行级联,形成所述对象在一个视角的特征。
10.根据权利要求8所述的基于视频的对象相似度比较系统,其特征在于,所述对象位置确定子模块进一步包括以下子模块:
初步定位子模块,用于提取出对象的候选框,对于每个候选框使用基于卷积神经网络的检测方法对感兴趣对象进行初步定位;
精细定位子模块,用于使用边界框回归技术进一步精细化定位对象位置。
11.根据权利要求7所述的基于视频的对象相似度比较系统,其特征在于,所述相似度计算模块包括以下子模块:
映射子模块,用于将第一和第二对象每个典型参考点映射为二进制串,作为第一和第二对象的特征码;
匹配子模块,用于将第一和第二对象的典型参考点对应的特征码看作二分图中的两组特征点集合,将两组特征点集合进行匹配得到每个特征点的最佳匹配特征点;
计算子模块,用于使用如下公式计算相似度:
其中,表示所有匹配上的特征点的集合,表示待检索对象中没有匹配上的特征点的集合,表示数据库对象中没有匹配上的特征点的集合;pu,pv表示特征码,H(pu,pv)表示pu,pv之间的Hamming距;|pu|表示集合中每个特征码的长度,|pv|表示集合中每个特征码的长度,α和β用于控制非匹配结果与匹配结果之间的重要性。
12.一种基于视频的对象检索系统,其特征在于,包括以下模块:
相似度比较模块,用于根据权利要求7至11中任一项所述的对象相似度比较系统,计算待检索对象与数据库中对象之间的相似度;
检索结果选取模块,用于将相似度大于阈值的对象作为所述待检索对象的检索结果。
CN201510710336.1A 2015-10-27 2015-10-27 基于视频的对象相似度比较方法和检索方法及其系统 Active CN106611030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510710336.1A CN106611030B (zh) 2015-10-27 2015-10-27 基于视频的对象相似度比较方法和检索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510710336.1A CN106611030B (zh) 2015-10-27 2015-10-27 基于视频的对象相似度比较方法和检索方法及其系统

Publications (2)

Publication Number Publication Date
CN106611030A true CN106611030A (zh) 2017-05-03
CN106611030B CN106611030B (zh) 2020-05-19

Family

ID=58614293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510710336.1A Active CN106611030B (zh) 2015-10-27 2015-10-27 基于视频的对象相似度比较方法和检索方法及其系统

Country Status (1)

Country Link
CN (1) CN106611030B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391647A (zh) * 2017-07-12 2017-11-24 武汉大学 复合域视角下进行词嵌入扩展的专利检索方法及系统
CN107909084A (zh) * 2017-11-15 2018-04-13 电子科技大学 一种基于卷积‑线性回归网络的雾霾浓度预测方法
CN111460961A (zh) * 2020-03-27 2020-07-28 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN112434185A (zh) * 2020-10-26 2021-03-02 国家广播电视总局广播电视规划院 一种查找相似视频片段的方法、系统、服务器及存储介质
CN115081643A (zh) * 2022-07-20 2022-09-20 北京瑞莱智慧科技有限公司 对抗样本生成方法、相关装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129691A (zh) * 2011-03-22 2011-07-20 北京航空航天大学 一种采用Snake轮廓模型的视频对象跟踪分割方法
CN102663411A (zh) * 2012-02-29 2012-09-12 宁波大学 一种目标人体识别方法
CN102695056A (zh) * 2012-05-23 2012-09-26 中山大学 一种提取压缩视频关键帧的方法
CN102708583A (zh) * 2012-05-02 2012-10-03 厦门大学 二维动画角色的自动匹配方法
CN103679742A (zh) * 2012-09-06 2014-03-26 株式会社理光 对象跟踪方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129691A (zh) * 2011-03-22 2011-07-20 北京航空航天大学 一种采用Snake轮廓模型的视频对象跟踪分割方法
CN102663411A (zh) * 2012-02-29 2012-09-12 宁波大学 一种目标人体识别方法
CN102708583A (zh) * 2012-05-02 2012-10-03 厦门大学 二维动画角色的自动匹配方法
CN102695056A (zh) * 2012-05-23 2012-09-26 中山大学 一种提取压缩视频关键帧的方法
CN103679742A (zh) * 2012-09-06 2014-03-26 株式会社理光 对象跟踪方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PIERRE-ANDRÉ SAVALLE: "Deformable Part Models with CNN Features", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *
张子龙: "基于改进SURF 算法的交通视频车辆检索方法研究", 《西北工业大学学报》 *
肖永良: "基于内容的视频检索关键技术研究", 《万方学位论文》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391647A (zh) * 2017-07-12 2017-11-24 武汉大学 复合域视角下进行词嵌入扩展的专利检索方法及系统
CN107391647B (zh) * 2017-07-12 2021-05-04 武汉大学 复合域视角下进行词嵌入扩展的专利检索方法及系统
CN107909084A (zh) * 2017-11-15 2018-04-13 电子科技大学 一种基于卷积‑线性回归网络的雾霾浓度预测方法
CN111460961A (zh) * 2020-03-27 2020-07-28 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN111460961B (zh) * 2020-03-27 2023-07-18 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法
CN112434185A (zh) * 2020-10-26 2021-03-02 国家广播电视总局广播电视规划院 一种查找相似视频片段的方法、系统、服务器及存储介质
CN112434185B (zh) * 2020-10-26 2023-07-14 国家广播电视总局广播电视规划院 一种查找相似视频片段的方法、系统、服务器及存储介质
CN115081643A (zh) * 2022-07-20 2022-09-20 北京瑞莱智慧科技有限公司 对抗样本生成方法、相关装置及存储介质
CN115081643B (zh) * 2022-07-20 2022-11-08 北京瑞莱智慧科技有限公司 对抗样本生成方法、相关装置及存储介质

Also Published As

Publication number Publication date
CN106611030B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Bai et al. Deep watershed transform for instance segmentation
Esmaeili et al. Fast-at: Fast automatic thumbnail generation using deep neural networks
CN103336957B (zh) 一种基于时空特征的网络同源视频检测方法
CN111795704A (zh) 一种视觉点云地图的构建方法、装置
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN111126202A (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN106611030A (zh) 基于视频的对象相似度比较方法和检索方法及其系统
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN111091101B (zh) 基于一步法的高精度行人检测方法、系统、装置
CN112800964A (zh) 基于多模块融合的遥感影像目标检测方法及系统
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
Hu et al. Real-time Target Tracking Based on PCANet-CSK Algorithm
Yang et al. Visual tracking with long-short term based correlation filter
Li et al. Dictionary optimization and constraint neighbor embedding-based dictionary mapping for superdimension reconstruction of porous media
Liu et al. Robust RGBD tracking via weighted convolution operators
Cao et al. Multi angle rotation object detection for remote sensing image based on modified feature pyramid networks
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN116823816B (zh) 一种基于安防监控静态存储器的检测设备及检测方法
Ouyang et al. Aerial target detection based on the improved YOLOv3 algorithm
CN114913519B (zh) 一种3d目标检测方法、装置、电子设备及存储介质
Li et al. Spatial and temporal information fusion for human action recognition via Center Boundary Balancing Multimodal Classifier
Li et al. Research on YOLOv3 pedestrian detection algorithm based on channel attention mechanism
Wang et al. FPA-DNN: a forward propagation acceleration based deep neural network for ship detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant