CN107067413A - 一种时空域统计匹配局部特征的运动目标检测方法 - Google Patents
一种时空域统计匹配局部特征的运动目标检测方法 Download PDFInfo
- Publication number
- CN107067413A CN107067413A CN201611223070.9A CN201611223070A CN107067413A CN 107067413 A CN107067413 A CN 107067413A CN 201611223070 A CN201611223070 A CN 201611223070A CN 107067413 A CN107067413 A CN 107067413A
- Authority
- CN
- China
- Prior art keywords
- mtd
- mrow
- msub
- msubsup
- mtr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000001514 detection method Methods 0.000 claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 239000002131 composite material Substances 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 77
- 230000033001 locomotion Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 15
- 238000000354 decomposition reaction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000000513 principal component analysis Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012847 principal component analysis method Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012417 linear regression Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000009416 shuttering Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 23
- 230000009471 action Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种时空域统计匹配和权重分配结合的运动目标检测方法。方法为:首先,提出并研究3‑D LWR算子可区分邻域像素点的重要性,用于提取视频的更精细的时空局部特征。其次,3‑D LWR模板集特征分别去背景和多尺度缩放形成复合模板集,与待测视频的局部特征进行匹配,得到局部相似性矩阵。最后进行时空统计,得到运动目标的位置概率矩阵,并通过分析位置概率矩阵来提取运动目标。本方法将传统的LARK算子和权重分配相结合,构建了一种新的运动目标时空统计匹配检测模型。对比现有监督类方法,本发明不需要大量训练就能达到同等检测精度;对比现有的非监督类方法,本发明扩展了待测视频适用的场景和拍摄角度,降低了误检率,对可见光视频和红外视频均适用。
Description
技术领域
本发明属于人工智能领域的运动目标检测技术,特别是一种时空域相似度判断、统计整体相似度和视频局部带权重特征结合的运动目标检方法。
背景技术
为了更高效的从日益增长的海量的视频中提取目标信息、提高搜索效率等,运动目标检测模型研究一直是人工智能领域的重点发展技术。现有的监督类方法需要大量训练、算法复杂度高,而非监督类方法检测精度低、依赖于特征。本文根据运动目标检测精度高、时效快、参数少、易实现的要求,探索并设计实现了一种时空域统计匹配局部特征的运动目标检测方法。
三维LARK特征由Seo等人在2010年提出,具有旋转和尺度不变性,抓住图像潜在结构而不受噪声影响、稳定性好的优点,但是不能区分中心像素点和邻域像素点的重要性;而HOG特征没有尺度、旋转不变性,LBP特征无法保留图像细节,SIFT特征容易被背景和噪声影响;CNN特征通过卷积核由浅入深地提取不同层次的特征,效果较好但是训练样本冗长复杂。
在检测方法方面,非监督类中Seo的方法使用全背景整体模板,目标与模板整体匹配,导致待测视频适用场景有限;当运动目标动作路径与模板不同时,待测视频拍摄角度与模板拍摄角度差别较大时,当背景与模板不接近时,检测精度很低;监督类的方法需要对目标和背景分开训练,训练之后再进行验证调整,方法过程复杂、效率低。
发明内容
本发明的目的是提供一种精确高效、简单方便的时空域统计匹配局部特征的运动目标检测方法。
实现本发明目的的技术解决方案为:一种时空域统计匹配局部特征的运动目标检测方法,包括以下步骤:
步骤1、提出3-D LWR算子:根据邻域像素点距离中心像素点的距离远近,设置基于圆域滤波器的时空权重滤波器f,结合现有的局部自适应回归核,得到时空局部带权重的回归核3-D LWR算子;
步骤2、构建复合模板集:将模板视频转成灰度图片序列,然后将图片序列去背景,选取运动半身和多尺度缩放处理,再用3-D LWR算子提取模板的局部特征,最后用主成分分析法和向量余弦匹配法对模板局部特征做冗余去除处理;
步骤3、待测视频预处理:将待测视频转换为灰度图片序列,并提取显著性区域,提取显著视频的3-D LWR特征,并用主成分分析法进行去冗余处理;
步骤4、时空域相似性评估:将待测视频显著区域内每一像素点对应的3-D LWR特征向量,与复合模板集的所有特征向量进行余弦匹配,记录最大匹配值对应的模板中向量的位置;
步骤5、时空域整体相似度统计:设立时空统计窗口,统计窗口内不同的位置数目,得到运动目标存在的概率矩阵;
步骤6、根据统计概率矩阵,用非极大值抑制的方法,逐帧提取出运动目标位置,并恢复成视频。
本发明与现有技术相比,其显著优点为:(1)提出了3-D LWR特征提取算子,通过滤波器区分了时空像素点的重要性,可以更加精细地描述视频数据结构;(2)采用复合模板集,用简单的几帧动作,带入后续检测处理流程,不需要复杂的样本训练过程,降低算法复杂度,同时提高了时间效率;(3)通过先判断局部相似度,再统计得到整体相似度的分解过程,检测多角度拍摄的视频、多场景视频以及目标动作路径多变的视频,有效降低了误检率。
附图说明
图1为本发明时空域统计匹配局部特征的运动目标检测方法的流程图。
图2为多样局部结构构成整个运动目标说明图。
图3为整体相似性评估的时空统计过程图。
图4为检测结果和对应的统计概率矩阵图,其中(a)与(c)为不同帧的统计概率对比图,(b)与(d)为不同帧的检测结果图;(e)与(g)为不同帧的统计概率对比图,(f)与(h)为不同帧的检测结果图;(i)与(k)为不同帧的统计概率对比图,(j)与(l)为不同帧的检测结果图。
图5为运动目标的提取过程图,其中(a)为整体相似度图像S1;(b)为运动目标图像Tmax;(c)为标记目标区域。
图6本发明方法检测标准库的结果图,其中(a)~(d)为标准库中sufer视频的不同帧检测结果图,(e)~(h)为标准库中Jogging视频的不同帧检测结果图,(i)~(l)为标准库中dance视频的不同帧检测结果图。
图7本发明方法与Seo算法检测结果对比图,其中左列(a)、(b)、(e)、(f)为本发明的检测结果,右列(c)、(d)、(g)、(h)为Seo算法的检测结果。
图8本发明方法检测被遮挡目标的结果图,其中(a)~(d)为凉亭遮挡人体不同部位时目标的检测结果图。
图9为检测挥手动作使用的半身模板图,其中(a)~(f)为检测挥手动作使用的半身模板序列图。
图10为本发明检测识别挥手动作的结果图,其中(a)~(d)为检测挥手动作手处于不同位置时的结果图。
图11为检测下蹲动作使用半身模板图,其中(a)~(g)为检测下蹲动作使用半身模板序列图。
图12为本发明检测识别下蹲动作的结果图,其中(a)~(d)为检测识别下蹲动作蹲至不同位置时的结果图。
图13为三种方法检测标准库THUMOS Challenge 2014中的部分自然拍摄的长视频检测精度柱状对比图。
具体实施方式
本发明创建了整个运动目标检测方法,先提出了3-D LWR算子,用于提取模板视频和待测视频特征,通过时空域局部相似度判断,再统计时空域整体相似度的过程,优化了目标存在的统计概率图,提高了运动目标检测的准确率。
本发明时空域统计匹配局部特征的运动目标检测方法,包括以下步骤:
步骤1、提出3-D LWR算子:根据邻域像素点距离中心像素点的距离远近,设置基于圆域滤波器的时空权重滤波器f,结合现有的局部自适应回归核(locally adaptiveregression kernel,LARK),得到时空局部带权重的回归核3-D LWR(Three-dimensionallocally weighted regression)算子;
步骤1中所述时空权重滤波器f的大小为5×5×3,中间第二帧为圆域均值滤波器,第一帧和第三帧相同,具体为:
步骤1-1、3-D LWR特征基于的局部自适应回归算子,公式为:
式中,xl是时空中心点,xi是中心点时空邻域窗口内的像素点,h是全局平滑参数,Cl∈R3×3是基于行、列和时间方向上的梯度向量的协方差矩阵;计算Cl∈R3×3时需要另取一个时空邻域范围,设为5×5×3,邻域范围内的像素点被同等的选取,且Cl∈R3×3计算公式为:
其中,m=5×5×3=75,梯度向量矩阵J公式为
步骤1-2、区分中心点周围像素点的重要性,将协方差矩阵与时空权重滤波器f结合,其公式为:
Jnew=Jl×f,∈5×5×3
步骤1-3、时空权重滤波器f∈5×5×3,中间第二帧为半径为5的圆域均值滤波器,如下式f(:,:,2)所示;第一帧和第三帧由基于圆域均值滤波器乘以权重因子0.6变形而成;由于Cl∈R3×3在计算的过程中要使用奇异值分解,用于降低维度的主成分分析法PCA中要使用特征值分解,数值为0则不必经历奇异值分解和特征值分解,由于0.2138乘以权重因子0.6后的数值接近于0,因此将其设置为0,将小数点后面第二位的数字忽略,得到权重矩阵的第一和第三帧,如下式f(:,:,1)所示,具体公式为:
步骤1-4、对步骤1中所述的3-D LWR,其中协方差矩阵公式为:
使用带权重的Clnew代替原来的Cl,得到整个视频中每个点的核值K,再进行归一化,将归一化之后窗口内的各像素点对应的元素值按序排成一列,得到该点的局部自适应回归核特征向量Wi,即3-D LWR,公式为:
其中,i为任意一点,M为视频内总像素点的数目。
步骤2、构建复合模板集:将模板视频转成灰度图片序列,然后将图片序列去背景,选取运动半身和多尺度缩放处理,再用3-D LWR算子提取模板的局部特征,最后用主成分分析法和向量余弦匹配法对模板局部特征做冗余去除处理;
所述模板视频为感兴趣目标完成一个完整动作的图片序列,去背景后,由于只统计窗口内变化的像素点,而忽略不变的像素点,所以模板的每一帧只包含目标的运动部分即可,即半身模板;比如,行走动作的模板只要包含人腰部以下部分,检测挥手的人只要包含人肩部以上部分,如图9所示;将半身模板图片序列缩放,对得到的多尺度模板进行3-DLWR(3-D为时空域的缩写)特征提取,得到模板视频的特征集WQ,公式为:
其中,Q为模板Query video的缩写,MQ为模板视频总像素点个数;
然后使用主成分分析法降低单个特征向量的维度,经过PCA后,单个像素点的3-DLWR维度从1×75降低为1×4;由于后续统计过程需要统计滑动窗口内不相似的局部结构数目,为保证统计匹配的准确性,由于后续统计过程需要统计滑动窗口内不相似的局部结构数目,模板特征集中的局部结构必须是互不相似的,因此用向量余弦匹配去除向量间冗余,公式为:
其中,是任意模板特征集中的两个向量;
当两个向量之间的相似度超过阈值的时候,表明这两个向量相似,则舍弃其中一个向量,得到复合模板集矩阵
步骤3、待测视频预处理:将待测视频转换为灰度图片序列,并提取显著性区域,提取显著视频的3-D LWR特征,并用主成分分析法进行去冗余处理;
所述将待测视频转换为灰度视频,之后进行显著性提取预处理,显著性区域内的像素点进行3-D LWR特征提取得到局部结构特征矩阵WT,之后对WT进行降低向量间维度处理,得到待测视频特征矩阵:T为待测视频(test video)缩写,MT是显著性区域内像素点的数量。
步骤4、时空域相似性评估:将待测视频显著区域内每一像素点对应的3-D LWR特征向量,与复合模板集的所有特征向量进行余弦匹配,记录最大匹配值对应的模板中向量的位置;
所述时空域相似度判断,具体为:
步骤4-1、将待测视频特征矩阵中每一个非零列向量,与复合模板集中所有列向量逐个进行向量余弦匹配,得到相似度向量ρ公式为:
其中,j为模板集中任意一个列向量;
步骤4-2、找出向量ρ中最大的匹配值其对应位置的复合模板集中的向量,即与待测视频特征矩阵当前列向量最相似;将对应位置编号保留在待测视频中当前列向量对应的像素点的位置;
步骤4-3、对待测视频显著区域中所有像素点重复步骤4-1和步骤4-2的操作,并将位置编号按照视频像素点顺序排列,设视频大小为m×n×t,最后得到时空域位置矩阵P∈Rm×n×t;
步骤4-4、设定相似度判断阈值α,当待测视频每个像素点对应的最大的匹配值小于α时,将对应向量的位置编码在时空域位置矩阵P中置零。
步骤5、时空域整体相似度统计:设立时空统计窗口,统计窗口内不同的位置数目,得到运动目标存在的概率矩阵;
所述时空统计窗口为16×16×5,窗口遍历时空域位置矩阵P之后得到时空统计概率矩阵S∈R(m-16)×(n-16)×(t-5);然后进行运动目标位置提取,具体为:
步骤5-1、首先判断每一帧图片中是否存在目标,将整体相似度矩阵S的第三维度依次读取,得到单帧相似度矩阵S1∈R(m-16)×(n-16),S1中的最大值代表最多的相似局部结构,即最强的运动信息,因此若S1中的最大值小于设定的目标阈值λ,则表示当前帧中不包含目标;
步骤5-2、确定当前帧中包含至少一个目标后,用非极大值抑制的方法提取目标。
步骤6、根据统计概率矩阵,用非极大值抑制的方法,逐帧提取出运动目标位置,并恢复成视频。所述非极大值抑制方法中搜寻范围参数σ的取值为0.92~0.97。
下面结合实施例对本发明的目标动作识别方法做进一步详细的描述:
实施例1
本实施例中时空域统计匹配局部特征的运动目标检测方法是利用3-D LWR特征和复合模板集进行时空域的统计匹配,其中3-D LWR特征包括对梯度向量矩阵通过时空域滤波器分配权重,视频预处理部分包括构建无背景多尺度模板和对待测视频提取时空域显著区域,对模板和待测视频提取3-D LWR特征,并进行降维和去冗余处理,得到复合模板集和待测视频特征集。相似性评估分局部相似性评估和统计整体相似度。最后判断单帧中包含目标以后提取目标动作。具体为:
第一步:梯度向量矩阵J的定义如下:
m1×n1×t1是计算协方差矩阵时的窗口。上式表明,窗口内像素点都是平等选取的,不利于区分像素点的时空重要性。为了区分像素点的重要性,将权重矩阵f和Jl结合来实现权重分配。
Jnew=Jl×f,∈m1×n1×t1
三维窗口内离中心像素点越远的点权重分配越小,表明该像素点的梯度向量越不重要;反之离中心像素点越近的点权重分配越大,表明该像素点的梯度向量越重要。权重矩阵的权重类似于纺锤形,中间权重大,而两端权重小。例如,当三维窗口是5×5×3的时候,权重矩阵的大小也是5×5×3。最中间的二维矩阵,即第二帧,是一个5×5的圆域均值滤波器。圆域滤波器在二维空间内自带权重,圆心处权重大,边缘处权重小。权重矩阵的第一和第三帧离中心像素点较远,越往外权重越小,且距离相同,因此第一第三帧权重大小相同,初始设置为第二帧的0.6倍,得到的矩阵的边缘处的值接近于0。
由于协方差矩阵在计算的过程中要使用奇异值分解,以及用于降低维度的主成分分析法(PCA)中要使用特征值分解,而数值为0则不必经历奇异值分解和特征值分解,本文将接近于0的数值设置为0,同时将小数点后面第二位的数字省略,使计算精简,最后得到权重矩阵的第一和第三帧,具体时空域权重滤波器公式为:
然后使用带权重的Clnew代替Cl,带入局部自适应核回归公式,定义如下:
其中,xl是中心点,xi是邻域像素点。h是全局平滑参数,Clnew∈R3×3是协方差矩阵,
计算后得到每个像素点核值Knew。
第二步:构建复合模板集。选取运动目标完成一个动作的几帧图片,并去除背景,针对运动信息只集中在目标一部分的,本发明选择半身模板,如图8和图10所示,分别为检测挥手目标和下蹲目标所使用的半身模板。之后将无背景模板缩放为0.5倍、1倍和1.5倍。计算三个模板图片序列的3-D LWK特征,3-D LWK继承了LARK特征尺度不变和旋转不变性,适用于本发明的缩放模板。
本发明设置计算3-D LWK的时空域窗口为5×5×3,则每个像素点的3-D LWK向量大小为1×75,使用PCA降低单个向量的维度后为1×4。向量余弦匹配法用于去除模板集向量间冗余,公式为:
其中,是任意模板特征集中的两个向量。设置去冗余阈值α1,相似度大于阈值的向量只保留一个,本发明经过数据分析,选取α1=0.93,实验表明相似结构去冗余步骤保留了足够的原始向量,同时降低了向量间维度,得到互不相似局部结构模板特征集,即复合模板集。
第三步:构建待测视频特征集。为了提高算法速度,且更准确的识别目标,去除与感兴趣目标无关的背景,获取感兴趣区域,是待测视频预处理中重要部分,这个过程称为显著性提取。对显著性区域内的像素点进行3-D LWK特征提取,并进行PCA降低单个向量维度,最后形成待测视频特征集。
第四步:局部特征相似性评估。利用余弦相似度将待测视频和模板进行匹配,待测视频特征集中每一个列向量需要与复合模板集中每一个像素点对应的局部结构特征向量进行匹配,向量余弦匹配公式为:
得到每一个点与复合模板集中所有列的匹配向量为:
在匹配向量ρ中,找出最大的ρj值,将其对应向量在复合模板集中的位置编号保留在待测视频中相应像素点的位置,待测视频特征集中每一个像素点都经过上述步骤,形成时空位置矩阵P∈Rm×n×t。
其中,index为最大的ρj值对应的向量在复合模板集中的位置编号。
ρ值小的代表模板与待测视频当前像素点对应的局部结构相似度低,设立一个阈值θ,低于阈值的ρ值对应的向量位置编号赋为0,只保留相似度大于阈值θ的剩余位置编号。
第五步:评估与模板的整体相似性。记录最相似向量对的位置,以统计在一定的空间内,相似的局部结构的数目。局部结构如图2左边所示,同时也是右边黑框内的部分。模板特征去冗余步骤保证了复合模板集内向量代表的局部特征互不相似,当白色框内包含足够多的局部特征,才能检测窗口内整体为运动目标。
待测视频中目标信息包含在位置矩阵P中,但单个像素点相似只是局部疑似目标,不能说明整体就是目标。背景中可能有部分结构与目标结构相似导致误识别,如检测行人的时候,人迈步的腿与树枝的分叉、窗户角的方向都是相似的,可能识别为行人。为了避免这个问题,本文利用运动目标的整体结构。在相似度匹配后,统计相似结构的数目,统计值为统计窗口区域与模板的整体相似度。树杈、窗户角等虽然与行人的腿部相似,但周围没有人的摆臂、躯干等,因此统计整体相似度可以降低误识别率。
设立时空统计窗口Smum遍历整个位置矩阵,窗口大小一般设为16×16×5。在矩阵P中,统计得到时空整体相似度矩阵S∈R(m-16)×(n-16)×(t-5),统计过程如图3所示。
图4中列出了运动目标位置统计概率图和最后目标位置提取结果的对比图。使用本发明方法检测Visual Tracker Benchmark Datasets标准库中运动目标,这个标准库主要用于目标跟踪检测,在2013年提出。库内包含来自最近文献的100个视频,本文选取了部分适用于单个或少数几个目标检测的视频。当同一视频中运动目标在不同的位置或姿态不同时,统计概率图也有明显不同,结合图4,(a)与(c)为标准库中同一视频不同帧的统计概率对比图,(b)与(d)为同一视频中不同帧的检测结果图;(e)与(g)为标准库中同一 视频不同帧的统计概率对比图,(f)与(h)为同一视频中不同帧的检测结果图;(i)与(k)为标准库中同一视频不同帧的统计概率对比图,(j)与(l)为同一视频中不同帧的检测结果图。
第六步,在得到时空统计矩阵S后,逐帧独立提取运动目标。先考虑每一帧图片中是否存在目标,将整体相似度矩阵S的第三维度依次读取,得到单帧相似度矩阵S1∈R(m -16)×(n-16)。设定一个目标阈值λ用于判断单帧图片中是否存在至少一个目标。S1中的最大值代表了最多的相似的局部结构,即最强的运动信息,因此若S1中的最大值少于设定目标阈值λ,则表示当前帧中没有目标,经统计概率矩阵最大值分析和测试,当运动目标占幅不过大或过小的时候,λ设为20。
确定当前帧中包含至少一个目标后,用非极大值抑制的方法提取目标。寻找S1中的最大值,然后将最大值一定范围邻域内像素点的值置零,继续寻找剩下数值中的次极大值,重复上述过程,最后将数值为0的点提取出来。若单帧当中有多个目标,则逐个通过寻找最大值,将邻域像素点设置为0的方法,框出目标,得到运动目标单帧图像Tmax。
非极大值抑制方法需要循环搜寻当前数值中的最大值,为了确定循环次数,设定一个搜寻范围参数α,只在α范围内搜寻最大值。在一幅图像中,目标在整幅图片中占的比例一般较小,大部分像素点是不需要搜寻最大值的。因此α一般范围设置为0.92-0.97。结合运动目标图像Tmax,在原始图像中标记出运动目标,最后将多帧图像恢复成视频,如图5所示,(a)为统计概率图,(b)为Tmax,(c)为单帧检测结果图。
图6列出了本发明检测Visual Tracker Benchmark Datasets标准库中sufer、Jogging、dance三个视频的不同帧检测结果,其中(a)~(d)为标准库中sufer视频的不同帧检测结果图,(e)~(h)为标准库中Jogging视频的不同帧检测结果图,(i)~(l)为标准库中dance视频的不同帧检测结果图。对整个标准库检测的结果来说,本方法检测精度较高,适用场景多。当视频中对比度明显的时候,如dance,检测精准度一般达到90%,检测的位置定位也很准确,这主要归因于对待测视频预处理的显著性提取,人眼视觉注意力机制将显著性提取锁定在对比度明显的区域。
图7列出了本发明与Seo的3D LSK方法检测结果对比,左列(a)、(b)、(e)、(f)为本发明的检测结果,右列(c)、(d)、(g)、(h)为Seo算法的检测结果。实验证明,本发明可以检测同一帧中多尺度目标,对背景复杂的场景也有很好的检测结果,而Seo的方法识别结果较为混乱。
图8列出了本发明用只包含动作的半身的模板,检测被遮挡目标的实验结果,其中(a)~(d)为凉亭遮挡人体不同部位时目标的检测结果图。总体来说半身模板识别精度低于全身模板,且框出的目标对于目标的正确位置有偏移,且有几帧未能测出。未检测出帧在每秒25帧以上的视频中所占比例小,可以忽略。半身模板集适用于精度要求不高而时间效率要求高的测试。对于精度要求高的应用,例如,自动驾驶视觉系统,则不能使用半身复合模板集。
去背景半身复合模板集,使待测视频的适用场景和视频拍摄角度得到扩展,不仅效率更高,还能解决前景遮挡的问题。如图8所示,当凉亭遮挡部分人体的时候,本发明方法也能测出目标,且沙滩上的长椅类似与人腿,但也不会影响行人目标的检测。
本发明不仅可以识别行走动作,也可以识别其他动作。图9为检测识别挥手动作使用的半身模板,其中(a)~(f)为检测挥手动作使用的半身模板序列图。图10为检测识别挥手动作的结果,其中(a)~(d)为检测挥手动作手处于不同位置时的结果图。图11为检测下蹲动作使用的半身模板,其中(a)~(g)为检测下蹲动作使用半身模板序列图。图12为检测识别下蹲动作的结果,其中(a)~(d)为检测识别下蹲动作蹲至不同位置时的结果图。。
本发明与非监督类方法对比,有更高的检测精度;与监督类方法对比,使用简单高效的复合模板集,也能达到同样的检测精度。图13列出了在标准库THUMOS Challenge 2014中的部分自然拍摄的长视频检测精度柱状对比图,对比的非监督方法包括:(1)S-CNN是通过三个分段实现深度神经网络法对目标进行时空定位;(2)Wang等人建立一个基于iDT的系统,运用循环神经网络提取目标特征。
由上可知,本发明的一种时空域统计匹配局部特征运动目标检测方法,在对多角度拍摄、多场景的长视频中多尺度运动目标检测中,具有良好的检测效果,并能有效识别同一帧中不同尺寸的目标,识别运动目标的不同动作。3-D LWK特征对光照、噪声具有良好的鲁棒性,在一定程度上改善了LARK特征算子的性能,使提取的目标特征更精准,检测准确率更高。
Claims (7)
1.一种时空域统计匹配局部特征的运动目标检测方法,其特征在于,包括以下步骤:
步骤1、提出3-D LWR算子:根据邻域像素点距离中心像素点的距离远近,设置基于圆域滤波器的时空权重滤波器f,结合现有的局部自适应回归核,得到时空局部带权重的回归核3-D LWR算子;
步骤2、构建复合模板集:将模板视频转成灰度图片序列,然后将图片序列去背景,选取运动半身和多尺度缩放处理,再用3-D LWR算子提取模板的局部特征,最后用主成分分析法和向量余弦匹配法对模板局部特征做冗余去除处理;
步骤3、待测视频预处理:将待测视频转换为灰度图片序列,并提取显著性区域,提取显著视频的3-D LWR特征,并用主成分分析法进行去冗余处理;
步骤4、时空域相似性评估:将待测视频显著区域内每一像素点对应的3-D LWR特征向量,与复合模板集的所有特征向量进行余弦匹配,记录最大匹配值对应的模板中向量的位置;
步骤5、时空域整体相似度统计:设立时空统计窗口,统计窗口内不同的位置数目,得到运动目标存在的概率矩阵;
步骤6、根据统计概率矩阵,用非极大值抑制的方法,逐帧提取出运动目标位置,并恢复成视频。
2.根据权利要求1所述的时空域统计匹配局部特征的运动目标检测方法,其特征在于,步骤1中所述时空权重滤波器f的大小为5×5×3,中间第二帧为圆域均值滤波器,第一帧和第三帧相同,具体为:
步骤1-1、3-D LWR特征基于的局部自适应回归算子,公式为:
<mrow>
<mi>K</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>l</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msqrt>
<mrow>
<mi>d</mi>
<mi>e</mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mi>l</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
<mi>exp</mi>
<mo>{</mo>
<mfrac>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>l</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<msub>
<mi>C</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mi>l</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>-</mo>
<mn>2</mn>
<msup>
<mi>h</mi>
<mn>2</mn>
</msup>
</mrow>
</mfrac>
<mo>}</mo>
</mrow>
其中,xl是时空中心点,xi是中心点时空邻域窗口内的像素点,h是全局平滑参数,Cl∈R3 ×3是基于行、列和时间方向上的梯度向量的协方差矩阵;计算Cl∈R3×3时需要另取一个时空邻域范围,设为5×5×3,邻域范围内的像素点被同等的选取,且Cl∈R3×3计算公式为:
<mrow>
<msub>
<mi>C</mi>
<mi>l</mi>
</msub>
<mo>=</mo>
<msup>
<mi>J</mi>
<mi>T</mi>
</msup>
<mi>J</mi>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>&Element;</mo>
<msub>
<mi>&Omega;</mi>
<mi>l</mi>
</msub>
</mrow>
</munder>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mrow>
<msubsup>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>Z</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msubsup>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>Z</mi>
<mi>t</mi>
</msub>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>Z</mi>
<mi>t</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>Z</mi>
<mi>t</mi>
</msub>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<msubsup>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mi>t</mi>
</msub>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>m</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
式中,m=5×5×3=75,梯度向量矩阵J公式为
<mrow>
<mi>J</mi>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
<mtd>
<mrow>
<msub>
<mi>Z</mi>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
</msub>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>.</mo>
</mtd>
<mtd>
<mo>.</mo>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>,</mo>
<mi>k</mi>
<mo>&Element;</mo>
<mn>1...</mn>
<mi>m</mi>
</mrow>
步骤1-2、区分中心点周围像素点的重要性,将协方差矩阵与时空权重滤波器f结合,其公式为:
Jnew=Jl×f,∈5×5×3
步骤1-3、时空权重滤波器f∈5×5×3,中间第二帧为半径为5的圆域均值滤波器,如下式f(:,:,2)所示;第一帧和第三帧由基于圆域均值滤波器乘以权重因子0.6变形而成;由于Cl∈R3×3在计算的过程中要使用奇异值分解,用于降低维度的主成分分析法PCA中要使用特征值分解,数值为0则不必经历奇异值分解和特征值分解,由于0.2138乘以权重因子0.6后的数值接近于0,因此将其设置为0,将小数点后面第二位的数字忽略,得到权重矩阵的第一和第三帧,如下式f(:,:,1)所示,具体公式为:
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mrow>
<mo>:</mo>
<mo>,</mo>
<mo>:</mo>
<mo>,</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0.3</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0.3</mn>
</mtd>
<mtd>
<mn>0.6</mn>
</mtd>
<mtd>
<mn>0.3</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0.3</mn>
</mtd>
<mtd>
<mn>0.6</mn>
</mtd>
<mtd>
<mn>0.6</mn>
</mtd>
<mtd>
<mn>0.6</mn>
</mtd>
<mtd>
<mn>0.3</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0.3</mn>
</mtd>
<mtd>
<mn>0.6</mn>
</mtd>
<mtd>
<mn>0.3</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0.3</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>=</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mrow>
<mo>:</mo>
<mo>,</mo>
<mo>:</mo>
<mo>,</mo>
<mn>3</mn>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mrow>
<mo>:</mo>
<mo>,</mo>
<mo>:</mo>
<mo>,</mo>
<mn>2</mn>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "[" close = "]">
<mtable>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0.2138</mn>
</mtd>
<mtd>
<mn>0.479</mn>
</mtd>
<mtd>
<mn>0.2138</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0.2138</mn>
</mtd>
<mtd>
<mn>0.985</mn>
</mtd>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mn>0.985</mn>
</mtd>
<mtd>
<mn>0.2138</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0.479</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mn>0.479</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0.2138</mn>
</mtd>
<mtd>
<mn>0.985</mn>
</mtd>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mn>0.985</mn>
</mtd>
<mtd>
<mn>0.2138</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mn>0.2138</mn>
</mtd>
<mtd>
<mn>0.479</mn>
</mtd>
<mtd>
<mn>0.2138</mn>
</mtd>
<mtd>
<mn>0</mn>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
步骤1-4、对步骤1中所述的3-D LWR,其中协方差矩阵公式为:
<mrow>
<msub>
<mi>C</mi>
<mrow>
<mi>ln</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msub>
<mo>=</mo>
<msubsup>
<mi>J</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
<mi>T</mi>
</msubsup>
<msub>
<mi>J</mi>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msub>
</mrow>
使用带权重的Cinew代替原来的cl,得到整个视频中每个点的核值K,再进行归一化,将归一化之后窗口内的各像素点对应的元素值按序排成一列,得到该点的局部自适应回归核特征向量Wi,即3-D LWR,公式为:
<mrow>
<msup>
<mi>W</mi>
<mi>i</mi>
</msup>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<msubsup>
<mi>K</mi>
<mi>i</mi>
<mn>1</mn>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>K</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
<mn>...</mn>
<mo>,</mo>
<msubsup>
<mi>K</mi>
<mi>i</mi>
<mn>75</mn>
</msubsup>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>&Element;</mo>
<msup>
<mi>R</mi>
<mrow>
<mn>1</mn>
<mo>&times;</mo>
<mn>75</mn>
</mrow>
</msup>
<mo>,</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1...</mn>
<mi>M</mi>
</mrow>
其中,i为任意一点,M为视频内总像素点的数目。
3.根据权利要求1所述的时空域统计匹配局部特征的运动目标检测方法,其特征在于,步骤2中所述模板视频为感兴趣目标完成一个完整动作的图片序列,去背景后,由于只统计窗口内变化的像素点,而忽略不变的像素点,所以模板的每一帧只包含目标的运动部分即可,即半身模板;将半身模板图片序列缩放,对得到的多尺度模板进行3-D LWR特征提取,得到模板视频的特征集WQ,公式为:
<mrow>
<msub>
<mi>W</mi>
<mi>Q</mi>
</msub>
<mo>=</mo>
<mo>&lsqb;</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mn>1</mn>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mn>2</mn>
</msubsup>
<mn>...</mn>
<mo>,</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<msub>
<mi>M</mi>
<mi>Q</mi>
</msub>
</msubsup>
<mo>&rsqb;</mo>
</mrow>
其中,Q为模板Query video的缩写,MQ为模板视频总像素点个数;
然后使用主成分分析法降低单个特征向量的维度,经过PCA后,单个像素点的3-D LWR维度从1×75降低为1×4;由于后续统计过程需要统计滑动窗口内不相似的局部结构数目,模板特征集中的局部结构必须是互不相似的,因此用向量余弦匹配去除向量间冗余,公式为:
<mrow>
<mi>&rho;</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>j</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mfrac>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>i</mi>
</msubsup>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>i</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
</mrow>
</mfrac>
<mo>,</mo>
<mfrac>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>j</mi>
</msubsup>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>j</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msup>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>i</mi>
</msubsup>
<mi>T</mi>
</msup>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>j</mi>
</msubsup>
</mrow>
<mrow>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>i</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>W</mi>
<mi>Q</mi>
<mi>j</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
</mrow>
</mfrac>
</mrow>
其中,是任意模板特征集中的两个向量;
当两个向量之间的相似度超过阈值的时候,表明这两个向量相似,则舍弃其中一个向量,得到复合模板集矩阵
4.根据权利要求1所述的时空域统计匹配局部特征的运动目标检测方法,其特征在于,步骤3中所述将待测视频转换为灰度视频,之后进行显著性提取预处理,显著性区域内的像素点进行3-D LWR特征提取得到局部结构特征矩阵WT,之后对WT进行降低向量间维度处理,得到待测视频特征矩阵:T为待测视频(test video)缩写,MT是显著性区域内像素点的数量。
5.根据权利要求1所述的时空域统计匹配局部特征的运动目标检测方法,其特征在于,步骤4所述时空域相似度判断,具体为:
步骤4-1、将待测视频特征矩阵中每一个非零列向量,与复合模板集中所有列向量逐个进行向量余弦匹配,得到相似度向量ρ公式为:
<mrow>
<mi>&rho;</mi>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<msubsup>
<mi>F</mi>
<mi>T</mi>
<mi>j</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>F</mi>
<mi>Q</mi>
<mrow>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>M</mi>
<mi>Q</mi>
</msub>
</mrow>
</msubsup>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mo>=</mo>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<msub>
<mi>&rho;</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>&rho;</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>&rho;</mi>
<msub>
<mi>M</mi>
<mi>Q</mi>
</msub>
</msub>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>,</mo>
<mi>j</mi>
<mo>&Element;</mo>
<mn>1</mn>
<mo>,</mo>
<mn>...</mn>
<mo>,</mo>
<msub>
<mi>M</mi>
<mi>T</mi>
</msub>
</mrow>
其中,j为模板集中任意一个列向量;
步骤4-2、找出向量ρ中最大的匹配值其对应位置的复合模板集中的向量,即与待测视频特征矩阵当前列向量最相似;将对应位置编号保留在待测视频中当前列向量对应的像素点的位置;
步骤4-3、对待测视频显著区域中所有像素点重复步骤4-1和步骤4-2的操作,并将位置编号按照视频像素点顺序排列,设视频大小为m×n×t,最后得到时空域位置矩阵P∈Rm ×n×t;
步骤4-4、设定相似度判断阈值α,当待测视频每个像素点对应的最大的匹配值小于α时,将对应向量的位置编码在时空域位置矩阵P中置零。
6.根据权利要求1所述的时空域统计匹配局部特征的运动目标检测方法,其特征在于,步骤5所述时空统计窗口为16×16×5,窗口遍历时空域位置矩阵P之后得到时空统计概率矩阵S∈R(m-16)×(n-16)×(t-5);然后进行运动目标位置提取,具体为:
步骤5-1、首先判断每一帧图片中是否存在目标,将整体相似度矩阵S的第三维度依次读取,得到单帧相似度矩阵S1∈R(m-16)×(n-16),S1中的最大值代表最多的相似局部结构,即最强的运动信息,因此若S1中的最大值小于设定的目标阈值λ,则表示当前帧中不包含目标;
步骤5-2、确定当前帧中包含至少一个目标后,用非极大值抑制的方法提取目标。
7.根据权利要求1所述的时空域统计匹配局部特征的运动目标检测方法,其特征在于,步骤6中非极大值抑制方法中搜寻范围参数σ的取值为0.92~0.97。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611223070.9A CN107067413B (zh) | 2016-12-27 | 2016-12-27 | 一种时空域统计匹配局部特征的运动目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611223070.9A CN107067413B (zh) | 2016-12-27 | 2016-12-27 | 一种时空域统计匹配局部特征的运动目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107067413A true CN107067413A (zh) | 2017-08-18 |
CN107067413B CN107067413B (zh) | 2019-11-15 |
Family
ID=59623929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611223070.9A Active CN107067413B (zh) | 2016-12-27 | 2016-12-27 | 一种时空域统计匹配局部特征的运动目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107067413B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960276A (zh) * | 2018-05-08 | 2018-12-07 | 南京理工大学 | 提升光谱图像监督分类性能的样本扩充与一致性判别方法 |
CN109002848A (zh) * | 2018-07-05 | 2018-12-14 | 西华大学 | 一种基于特征映射神经网络的弱小目标检测方法 |
CN109034151A (zh) * | 2018-06-27 | 2018-12-18 | 华中科技大学 | 一种用于多个指针式仪表识别的定位方法 |
CN110263916A (zh) * | 2019-05-31 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子装置 |
CN111046727A (zh) * | 2019-10-31 | 2020-04-21 | 咪咕文化科技有限公司 | 视频特征提取方法及装置、电子设备及存储介质 |
CN111325198A (zh) * | 2018-12-13 | 2020-06-23 | 北京地平线机器人技术研发有限公司 | 视频对象特征提取方法和装置、视频对象匹配方法和装置 |
CN111951211A (zh) * | 2019-05-17 | 2020-11-17 | 株式会社理光 | 一种目标检测方法、装置及计算机可读存储介质 |
CN112037145A (zh) * | 2020-08-31 | 2020-12-04 | 成都信息工程大学 | 一种基于自适应局部转向核的医学mri图像上采样方法 |
CN113095370A (zh) * | 2021-03-18 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN113743304A (zh) * | 2021-09-06 | 2021-12-03 | 北京神星科技有限公司 | 一种用于视频监控的运动目标检测和识别方法 |
CN113761245A (zh) * | 2021-05-11 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及计算机可读存储介质 |
CN114530043A (zh) * | 2022-03-03 | 2022-05-24 | 上海闪马智能科技有限公司 | 一种事件检测方法、装置、存储介质及电子装置 |
CN116455086A (zh) * | 2023-06-19 | 2023-07-18 | 法拉迪电气有限公司 | 基于数据驱动的新能源合环智能调控方法 |
CN117275080A (zh) * | 2023-11-22 | 2023-12-22 | 深圳市美爱堂科技有限公司 | 基于计算机视觉的眼部状态识别方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521846A (zh) * | 2011-12-21 | 2012-06-27 | 浙江大学 | 基于3d视频的时空域运动分割与运动估计方法 |
CN102542578A (zh) * | 2011-12-23 | 2012-07-04 | 浙江大学 | 基于3d视频的时空域运动分割与运动估计方法 |
-
2016
- 2016-12-27 CN CN201611223070.9A patent/CN107067413B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521846A (zh) * | 2011-12-21 | 2012-06-27 | 浙江大学 | 基于3d视频的时空域运动分割与运动估计方法 |
CN102542578A (zh) * | 2011-12-23 | 2012-07-04 | 浙江大学 | 基于3d视频的时空域运动分割与运动估计方法 |
Non-Patent Citations (7)
Title |
---|
FEIYANG LUO 等: ""Robust object detection based on local similar structure statistical matching"", 《INFRARED PHYSICS & TECHNOLOGY》 * |
HAE JONG SEO等: ""Action Recognition from One Example"", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
TAOBEI XUE等: ""A neighboring structure reconstructed matching algorithm based on LARK features"", 《INFRARED PHYSICS & TECHNOLOGY》 * |
余瑞星等: ""一种新的时空局部特征提取方法及在目标识别中的应用"", 《西北工业大学学报》 * |
吕温等: ""基于局部时空特征的人体行为软分类识别"", 《计算机与现代化》 * |
王斌等: ""面向人体动作识别的局部特征时空编码方法"", 《四川大学学报(工程科学版)》 * |
罗飞扬: ""基于局部相似结构统计匹配模型的红外目标识别方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960276A (zh) * | 2018-05-08 | 2018-12-07 | 南京理工大学 | 提升光谱图像监督分类性能的样本扩充与一致性判别方法 |
CN109034151A (zh) * | 2018-06-27 | 2018-12-18 | 华中科技大学 | 一种用于多个指针式仪表识别的定位方法 |
CN109002848A (zh) * | 2018-07-05 | 2018-12-14 | 西华大学 | 一种基于特征映射神经网络的弱小目标检测方法 |
CN109002848B (zh) * | 2018-07-05 | 2021-11-05 | 西华大学 | 一种基于特征映射神经网络的弱小目标检测方法 |
CN111325198A (zh) * | 2018-12-13 | 2020-06-23 | 北京地平线机器人技术研发有限公司 | 视频对象特征提取方法和装置、视频对象匹配方法和装置 |
CN111951211A (zh) * | 2019-05-17 | 2020-11-17 | 株式会社理光 | 一种目标检测方法、装置及计算机可读存储介质 |
CN111951211B (zh) * | 2019-05-17 | 2024-05-14 | 株式会社理光 | 一种目标检测方法、装置及计算机可读存储介质 |
CN110263916B (zh) * | 2019-05-31 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子装置 |
CN110263916A (zh) * | 2019-05-31 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子装置 |
CN111046727B (zh) * | 2019-10-31 | 2023-10-20 | 咪咕文化科技有限公司 | 视频特征提取方法及装置、电子设备及存储介质 |
CN111046727A (zh) * | 2019-10-31 | 2020-04-21 | 咪咕文化科技有限公司 | 视频特征提取方法及装置、电子设备及存储介质 |
CN112037145A (zh) * | 2020-08-31 | 2020-12-04 | 成都信息工程大学 | 一种基于自适应局部转向核的医学mri图像上采样方法 |
CN113095370A (zh) * | 2021-03-18 | 2021-07-09 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN113095370B (zh) * | 2021-03-18 | 2023-11-03 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN113761245A (zh) * | 2021-05-11 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及计算机可读存储介质 |
CN113761245B (zh) * | 2021-05-11 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置、电子设备及计算机可读存储介质 |
CN113743304A (zh) * | 2021-09-06 | 2021-12-03 | 北京神星科技有限公司 | 一种用于视频监控的运动目标检测和识别方法 |
CN114530043A (zh) * | 2022-03-03 | 2022-05-24 | 上海闪马智能科技有限公司 | 一种事件检测方法、装置、存储介质及电子装置 |
CN116455086A (zh) * | 2023-06-19 | 2023-07-18 | 法拉迪电气有限公司 | 基于数据驱动的新能源合环智能调控方法 |
CN116455086B (zh) * | 2023-06-19 | 2023-09-08 | 法拉迪电气有限公司 | 基于数据驱动的新能源合环智能调控方法 |
CN117275080A (zh) * | 2023-11-22 | 2023-12-22 | 深圳市美爱堂科技有限公司 | 基于计算机视觉的眼部状态识别方法及系统 |
CN117275080B (zh) * | 2023-11-22 | 2024-07-16 | 涅生科技(广州)股份有限公司 | 基于计算机视觉的眼部状态识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107067413B (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107067413B (zh) | 一种时空域统计匹配局部特征的运动目标检测方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Bilinski et al. | Human violence recognition and detection in surveillance videos | |
Jia et al. | Visual tracking via adaptive structural local sparse appearance model | |
Yuan et al. | Fast hyperspectral anomaly detection via high-order 2-D crossing filter | |
CN105022982B (zh) | 手部运动识别方法和装置 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
Soomro et al. | Action localization in videos through context walk | |
CN108549846B (zh) | 一种结合运动特征和头肩结构的行人检测与统计方法 | |
Abdul-Azim et al. | Human action recognition using trajectory-based representation | |
CN109472191B (zh) | 一种基于时空上下文的行人重识别与追踪方法 | |
Sukanya et al. | A survey on object recognition methods | |
CN107944431A (zh) | 一种基于运动变化的智能识别方法 | |
Li et al. | Real-time object tracking via compressive feature selection | |
CN108280421B (zh) | 基于多特征深度运动图的人体行为识别方法 | |
CN102214309A (zh) | 一种基于头肩模型的特定人体识别方法 | |
Zhu et al. | Action recognition in broadcast tennis video using optical flow and support vector machine | |
Lu et al. | Online visual tracking | |
Shf et al. | Review on deep based object detection | |
Zhang et al. | Moving people tracking with detection by latent semantic analysis for visual surveillance applications | |
Li et al. | Human Action Recognition Using Multi-Velocity STIPs and Motion Energy Orientation Histogram. | |
CN106446837B (zh) | 一种基于运动历史图像的挥手检测方法 | |
Yogameena et al. | People/vehicle classification by recurrent motion of skeleton features | |
Zhao | Sports motion feature extraction and recognition based on a modified histogram of oriented gradients with speeded up robust features | |
Ştefan et al. | Deep learning-based person search with visual attention embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |