CN109508698A - 一种基于二叉树的人体行为识别方法 - Google Patents
一种基于二叉树的人体行为识别方法 Download PDFInfo
- Publication number
- CN109508698A CN109508698A CN201811555909.8A CN201811555909A CN109508698A CN 109508698 A CN109508698 A CN 109508698A CN 201811555909 A CN201811555909 A CN 201811555909A CN 109508698 A CN109508698 A CN 109508698A
- Authority
- CN
- China
- Prior art keywords
- track
- value
- frame
- video
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004044 response Effects 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 26
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 10
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 10
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 14
- 238000006073 displacement reaction Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于二叉树的人体行为识别方法,应用于计算机视觉领域,旨在于解决现有技术中没有考虑到轨迹之间的相互关系以及对运动部分的特征提取不够细致的问题。本发明首先提取输入视频的综合显著轨迹;然后计算每条轨迹的特征描述符,包括新提出的均衡描述符;再利用谱聚类算法将视频的轨迹分成粒度不一的节点,构造中层语义二叉树;由于经费舍尔向量编码后的特征表示的维度过高,本发明采用子空间随机投影对编码向量进行降维;最终利用线性核的SVM(状态向量机)对特征表示分类,得到视频行为的类别标签。本方法在一定程度上移除背景的干扰,并提高了识别准确度。
Description
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于二叉树的人体行为识别方法。
背景技术
基于特征的人体行为识别方法的方法流程大致包括轨迹采样、特征提取、特征编码和行为分类等步骤。在轨迹采样和特征提取阶段,现有的方法中表现良好的是改进密集轨迹方法(iDT,improved Dense Trajectory),这个方法会密集采样特征点并对其进行跟踪,选取显著的轨迹,再提取出轨迹的特征描述符。该方法能够根据视频帧中的RGB特征提取出显著的轨迹,以及具有表现力的描述符MBH(运动边界直方图)、HOG(方向直方图)、HOF(光流直方图)。然而,iDT方法在采样时没有考虑到光流特征,以及描述符也没有考虑到轨迹之间的相互关系,因而准确率仍未达到令人满意的水平。除此之外,在编码该方法时也是简单地把所有特征进行编码,而研究表明人的运动可以分为运动主体和该运动主体的辅助部分,因此在编码的时候可以将特征分为两类,做到更加细致地提取特征的中层语义。
发明内容
本发明为克服上述现有技术采样时没有考虑到光流特征,描述符没有考虑到轨迹之间的相互关系以及对运动部分的特征提取不够细致的缺陷,提供一种基于二叉树的人体行为识别方法。
为解决上述技术问题,本发明的技术方案如下:一种基于二叉树的人体行为识别方法,包括与以下步骤:
S1:输入视频,对视频帧中的特征点进行采样,对采样后的特征点进行跟踪,生成轨迹,再对轨迹进行筛选;
S2:计算筛选后轨迹的显著值,提取出综合显著轨迹;
S3:根据求得的综合显著轨迹计算轨迹的特征描述符,用来量化轨迹特征;
S4:根据轨迹特征将轨迹进行分类,并利用谱聚类方法将视频的轨迹分类到若干集合中,即分类到二叉树节点中,构造中层语义二叉树;
S5:对若干集合内的轨迹进行编码得到编码向量,采用子空间随机投影对编码向量进行降维,并将若干集合的降维后的编码向量进行融合,用来表示一个视频;
S6:利用线性核的SVM对视频进行分类,得到视频行为的类别标签并输出结果。
优选地,S1的具体步骤为:
S11:利用3×3的Sobel算子计算视频帧中每一个像素点的梯度,得到该视频帧两个方向上的梯度矩阵Dx和Dy;
S12:选取像素点p的3×3邻域S(p)内的梯度自相关矩阵的最小特征值作为该像素点的特征值;
S13:选择特征值大于特征点阈值的像素点作为特征点,阈值大小为所有像素点的特征值中最小的值的倍数;
S14:按照设定的步长将视频帧划分为网格,并对其中存在的特征点进行采样,选取特征值大于预设的起点特征点阈值的特征点作为轨迹的起点;
S15:以缩放因子对原始视频帧进行八个尺度的缩小,生成八层金字塔;
S16:采用光流场进行特征点跟踪,生成轨迹:
其中,pt=(xt,yt)表示第t帧处的采样点,x表示横轴上的值,y表示纵轴上的值,M是中值滤波核,w是密集光流场,是最接近(xt,yt)的位置;再对特征点跟踪得到的轨迹进行截断;
S17:根据轨迹的运动位移来筛选轨迹,分为x轴和y轴方向上的两个指标,为:
其中,和分别为轨迹在x轴和y轴方向上的平均值,设置最小变化幅度为最大变化幅度为maxVar=50,丢弃变化幅度varx与vary皆小于minVar,或者有一个方向上的变化幅度大于maxVar的轨迹。
优选地,步骤S11至S14是在八层金字塔的八个尺度空间上进行。
优选地,为了防止运动发生漂移,本方法对特征点跟踪轨迹进行截断:设置轨迹长度L,超过视频跨度阈值便不再追踪,若在该邻域没有追踪点,将该特征点纳入追踪点中进行追踪,一条从第t帧开始生成的轨迹可以被表示成:
Tt=(pt,pt+1,...,pt+L-1,pt+L)
令轨迹形状作为特征描述符,表示为trajShap’:
trajShape'=(△pt,...,△pt+L-1)
△pt=(pt+1-pt)=(xt+1-xt,yt+1-yt)
规范化的轨迹形状为:
其中i表示第i帧。
优选地,步骤S2的具体步骤包括:
S21:分别提取轨迹的灰度显著值以及光流显著值;
灰度显著值:
DiffG(pX)=|g(pX)-g(A(pX))|
其中,g()为高斯滤波后的灰度值,X表示第X帧,视频中的一帧以一个像素点pX=(uX,vX)为中心,则其外围为A(pX):
A(pX)={(u,v)||uX-u|≤△u,|vX-v|≤△v}
△u=min(uX,w-uX),△v=min(vX,h-vX),uX表示第X帧的横坐标的值,vX表示第X帧纵坐标的值,w与h分别为视频帧的宽与高;
光流显著性:
其中,hj(pX)为在pX处的光流直方图HOF中的第j个bin值,而
S22:通过灰度显著值以及光流显著值得到视频帧的综合显著值:
其中,β为权重;定义一个视频中的以特征点pi开始追踪的轨迹为Ti=(pi1,pi2,...,pi|L+1|),其显著值定义为该轨迹上所有特征点的显著值的平均值,SG(Ti)为其灰度显著值,SO(Ti)为其光流显著值,SC(Ti)为其综合显著值,分别为:
S23:根据综合显著值提取出显著轨迹。
优选地,S23中提取出显著轨迹的方法为:
Tsalient={Ti|Ti∈Twarped,SC(Ti)>thresholdSaliency(Τi)}
其中,显著轨迹阈值为:E(DiffC(l))为轨迹Ti的平均显著值,为图像每一个像素点的显著值之和除以视频帧的长度,而μ为控制因子,Twarped为整流密集轨迹集合。
优选地,步骤S3根据求得的综合显著轨迹计算轨迹的特征描述符的具体步骤包括:
S31:计算第从第i帧处开始采样的轨迹在第f帧(i≤f≤i+L)的采样点平均位置值为:
其中,N表示相同起始帧和采样尺度的轨迹数目,表示从第i帧处开始采样的第n条轨迹在第i帧上的采样点;x表示横轴上的值,y表示纵轴上的值;
S32:计算从第i帧处开始采样的第n轨迹在第f帧的采样点相对于平均位置的位移为:
△Ri n(f)=pi n(f)-Ai(f)
对相对位移进行归一化处理:
S33:由归一化处理结果得到第i帧处开始采样的第n条轨迹的均衡描述符:
优选地,步骤S4的具体步骤包括:
S41:利用轨迹之间的欧氏距离d作为轨迹之间的相似度,并对欧氏距离采用高斯核化;
S42:采用归一化切割N-Cut对轨迹聚类,获得离散解;
S43:利用K均值方法对特征向量组成的矩阵E进行处理,从而获得每一条特征的类别;
S44:利用方法根据轨迹的特征类别进行谱聚类;
S45:将行为视频显式地划分为语义上的两类特征,其中一类为行为的主体部分,另一类则为辅助主体部分的人、物、或其他运动部分。
优选地,步骤S41中轨迹之间的相似度为:
Wij=exp(-γd(Ti,Tj)2)
其中,轨迹相似矩阵W是非负对称矩阵, 为轨迹之间欧氏距离的中间值。
优选地,步骤S5的具体步骤为:
S51:采用子空间随机投影方法RP处理若干集合的FV向量,随机投影后其维度为r的N条数据的集合YN×r为:
YN×r=XN×dRd×r
其中,XN×d为N条d维原始数据的集合,Rd×r为随机生成的转换矩阵,r即随机投影因子,其下限为数据条数N的对数,将原始高维空间中两个向量的欧氏距离记作||x1-x2||,在随机投影之后,欧氏距离为
S52:采用以不同概率p随机生成转换矩阵R的元素,为:
三个维度为d的费舍尔向量FV被降低至维度为r的数据空间,并最终进行特征融合,融合成为3r视频表示。
与现有技术相比,本发明技术方案的有益效果是:本发明利用了视频中的光流信息以及轨迹之间的相互关系,在改进密集轨迹iDT的基础上提出整流密集轨迹以及均衡描述符,通过融合光流显著性和灰度显著性,选取更加具有表现力的轨迹,移除背景的干扰;同时根据轨迹之间的相互关系构建均衡描述符,显式地表示轨迹之间位置和动作关系,便于后续构建中间语义。另一方面,由于人体运动基本可以划分为两个部分,而大部分方法都忽视这一细节,为了充分利用该语义信息,本发明方法提出二叉树的编码方法,将视频的特征分别表示成第一层的全局信息特征和第二层的运动主体特征和运动辅助特征,显式地表示视频的中层语义,提高识别准确度。
附图说明
图1为本发明基于二叉树结构的视频人体行为识别研究框架图。
图2为本发明综合显著轨迹的提取流程图。
图3为本发明轨迹均衡描述符示例图。
图4为本发明UCF Sports数据集中两个Diving视频中轨迹聚类效果的连续四帧可视化图。
图5为本发明三个节点的FV经由随机投影生成视频表示示意图。
图6为本发明基于二叉树结构的识别方法在UCF Sports数据集上的混淆矩阵图。
图7为基于二叉树结构的识别方法在HMDB51数据集上的混淆矩阵图。
其中,图2(a)为原始视频;图2(b)为视频灰度显著值;图2(c)为视频光流显著值;图2(d)为视频综合显著值;图2(e)为整流密集轨迹;图2(f)为综合显著轨迹;图5(g)为三个树节点的FV;图5(h)为随机投影后的特征向量;图5(i)为三个树节点的特征向量融合。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
图1为本发明基于二叉树结构的视频人体行为识别研究框架图,其具体流程包括:
S1:输入视频,对视频帧中的特征点进行采样,对采样后的特征点进行跟踪,生成轨迹,再对轨迹进行筛选;
S11:利用3×3的Sobel算子计算视频帧中每一个像素点的梯度,得到该视频帧两个方向上的梯度矩阵Dx和Dy;
S12:选取像素点p的3×3邻域S(p)内的梯度自相关矩阵的最小特征值作为该像素点的特征值;
S13:选择特征值大于特征点阈值的像素点作为特征点,阈值大小为所有像素点的特征值中最小的值的倍数;
S14:按照设定的步长将视频帧划分为网格,并对其中存在的特征点进行采样,选取特征值大于预设的特征点阈值的特征点作为轨迹的起点;
S15:以缩放因子对原始视频帧进行八个尺度的缩小,生成八层金字塔,其中,S11至S14的过程分别在八层金字塔的八个尺度空间上进行;
S16:采用光流场进行特征点跟踪,生成轨迹:
其中,pt=(xt,yt)表示第t帧处的采样点,x表示横轴上的值,y表示纵轴上的值,M是中值滤波核,w是密集光流场,是最接近(xt,yt)的位置;再对特征点跟踪得到的轨迹进行截断,设置轨迹长度L,超过预设的视频跨度阈值便不再追踪,若在该邻域没有追踪点,将该特征点纳入追踪点中进行追踪,一条从第t帧开始生成的轨迹可以被表示成:
Tt=(pt,pt+1,...,pt+L-1,pt+L)
令轨迹形状作为特征描述符,表示为trajShap’:
trajShape'=(△pt,...,△pt+L-1)
△pt=(pt+1-pt)=(xt+1-xt,yt+1-yt)
规范化的轨迹形状为:
S17:根据轨迹的运动位移来筛选轨迹,分为x轴和y轴方向上的两个指标,为:
其中,和分别为轨迹在x轴和y轴方向上的平均值,设置最小变化幅度为最大变化幅度为maxVar=50,丢弃变化幅度varx与vary皆小于minVar,或者有一个方向上的变化幅度大于maxVar的轨迹。
S2:计算筛选后轨迹的显著值,提取出综合显著轨迹;
S21:输入如图2(a)的原始视频,分别提取轨迹的灰度显著值以及光流显著值,如图2(b)和图2(c);
灰度显著值:
DiffG(pX)=|g(pX)-g(A(pX))|
其中,g()为高斯滤波后的灰度值,X表示第X帧,视频中的一帧以一个像素点pX=(uX,vX)为中心,则其外围为A(pX):
A(pX)={(u,v)||uX-u|≤△u,|vX-v|≤△v}
△u=min(uX,w-uX),△v=min(vX,h-vX),uX表示第X帧的横坐标的值,vX表示第X帧纵坐标的值,w与h分别为视频帧的宽与高;
光流显著性:
其中,hj(pX)为在pX处的光流直方图HOF中的第j个bin值,而
S22:通过灰度显著值以及光流显著值得到视频帧的综合显著值:
其中,β为权重;定义一个视频中的以特征点pi开始追踪的轨迹为Ti=(pi1,pi2,...,pi|L+1|),其显著值定义为该轨迹上所有特征点的显著值的平均值,SG(Ti)为其灰度显著值,SO(Ti)为其光流显著值,SC(Ti)为其综合显著值,分别为:
S23:根据综合显著值提取出如图2(f)所示的的显著轨迹:
Tsalient={Ti|Ti∈Twarped,SC(Ti)>thresholdSaliency(Τi)}
其中,显著轨迹阈值为:E(DiffC(l))为轨迹Ti的平均显著值,为图像每一个像素点的显著值之和除以视频帧的长度,而μ为控制因子,Twarped为整流密集轨迹集合。
S3:根据求得的综合显著轨迹计算轨迹的特征描述符,用来量化轨迹特征,其过程示意图如图3所示:
S31:计算第从第i帧处开始采样的轨迹在第f帧(i≤f≤i+L)的采样点平均位置值为:
其中,N表示相同起始帧和采样尺度的轨迹数目,表示从第i帧处开始采样的第n条轨迹在第i帧上的采样点;x表示横轴上的值,y表示纵轴上的值;
S32:计算从第i帧处开始采样的第n轨迹在第f帧的采样点相对于平均位置的位移为:
△Ri n(f)=pi n(f)-Ai(f)
对相对位移进行归一化处理:
S33:由归一化处理结果得到第i帧处开始采样的第n条轨迹的均衡描述符:
S4:根据轨迹特征将轨迹进行分类,并利用谱聚类方法将视频的轨迹分类到三个集合中,即分类到二叉树的三个节点中,构造中层语义二叉树;
S41:利用轨迹之间的欧氏距离d作为轨迹之间的相似度,并对欧氏距离采用高斯核化;轨迹之间的相似度为:
Wij=exp(-γd(Ti,Tj)2)
其中,轨迹相似矩阵W是非负对称矩阵, 为轨迹之间欧氏距离的中间值。
S42:采用归一化切割N-Cut对轨迹聚类,获得离散解;
S43:利用K均值方法对特征向量组成的矩阵E进行处理,从而获得每一条特征的类别;
S44:利用方法根据轨迹的特征类别进行谱聚类;
S45:如图4所示,二叉树的方法可以将视频特征划分为两部分将行为视频划分为语义上的两类特征,其中一类为行为的主体部分,另一类则为辅助主体部分的人、物、或其他运动部分。
S5:对三个节点的轨迹进行编码得到编码向量,采用子空间随机投影对编码向量进行降维,并将三个节点降维后的编码向量进行融合,用来表示一个视频,具体过程如图5所示:
S51:采用子空间随机投影方法RP处理三个节点的FV向量,随机投影后其维度为r的N条数据的集合YN×r为:
YN×r=XN×dRd×r
其中,XN×d为N条d维原始数据的集合,Rd×r为随机生成的转换矩阵,r即随机投影因子,其下限为数据条数N的对数,将原始高维空间中两个向量的欧氏距离记作||x1-x2||,在随机投影之后,欧氏距离为
S52:采用以不同概率p随机生成转换矩阵R的元素,为:
三个维度为d的FV被降低至维度为r的数据空间,并最终进行特征融合,融合成为3r视频表示。
S6:利用线性核的SVM对视频进行分类,得到视频行为的类别标签,并输出结果。
在具体实施过程中,利用混淆矩阵CM(Confusion Matrix)以及平均准确率mAP(mean Average Precision)进行评价。
设该混淆矩阵为M,则其元素为:
其中,对角线上的数据表示每个行为类别被正确划分的比例,该数据越大则表示分类越准确,当其为一时,说明该行为类别分类完全正确。
平均准确率mAP(mean Average Precision):其计算公式为:
其中,C为数据集的行为类别数目,Mii为每类行为被正确识别的比率。平均准确率的值越大,说明该方法的整体分类效果越好。
实验结果:混淆矩阵如图6所示,本发明识别方法平均识别率在UCF Sports为94.68%,图7中本发明识别方法平均识别率在HMDB51上为60.58%。实验结果表明,本发明识别方法取得较好的识别效果,与现有的方法比较,具有显著性的进步。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于二叉树的人体行为识别方法,其特征在于,包括以下步骤:
S1:输入视频,对视频帧中的特征点进行采样,对采样后的特征点进行跟踪,生成轨迹,再对轨迹进行筛选;
S2:计算筛选后轨迹的显著值,提取出综合显著轨迹;
S3:根据求得的综合显著轨迹计算轨迹的特征描述符,用来量化轨迹特征;
S4:根据轨迹特征将轨迹进行分类,并利用谱聚类方法将视频的轨迹分类到若干集合中,即分类到二叉树节点中,构造中层语义二叉树;
S5:对若干集合内的轨迹进行编码得到编码向量,采用子空间随机投影对编码向量进行降维,并将若干集合的降维后的编码向量进行融合,用来表示一个视频;
S6:利用线性核的SVM对视频进行分类,得到视频行为的类别标签并输出结果。
2.根据权利要求1所述的一种基于二叉树的人体行为识别方法,其特征在于,步骤S1输入视频,对视频帧中的特征点进行采样,对采样后的特征点进行跟踪,生成轨迹,再对轨迹进行筛选的具体步骤为:
S11:利用3×3的Sobel算子计算视频帧中每一个像素点的梯度,得到该视频帧两个方向上的梯度矩阵Dx和Dy;
S12:选取像素点p的3×3邻域S(p)内的梯度自相关矩阵的最小特征值作为该像素点的特征值;
S13:选择特征值大于特征点阈值的像素点作为特征点,阈值大小为所有像素点的特征值中最小的值的倍数;
S14:按照设定的步长将视频帧划分为网格,并对其中存在的特征点进行采样,选取特征值大于预设的特征点阈值的特征点作为轨迹的起点;
S15:以缩放因子对原始视频帧进行八个尺度的缩小,生成八层金字塔;
S16:采用光流场进行特征点跟踪,生成轨迹:
其中,pt=(xt,yt)表示第t帧处的采样点,x表示横轴上的值,y表示纵轴上的值,M是中值滤波核,w是密集光流场,是最接近(xt,yt)的位置;再对特征点跟踪得到的轨迹进行截断;
S17:根据轨迹的运动位移来筛选轨迹,分为x轴和y轴方向上的两个指标,为:
其中,和分别为轨迹在x轴和y轴方向上的平均值,设置最小变化幅度为最大变化幅度为maxVar=50,丢弃变化幅度varx与vary皆小于minVar,或者有一个方向上的变化幅度大于maxVar的轨迹。
3.根据权利要求2所述的一种基于二叉树的人体行为识别方法,其特征在于,步骤S11至S14是在八层金字塔的八个尺度空间上进行。
4.根据权利要求3所述的一种基于二叉树的人体行为识别方法,其特征在于,S16中对特征点跟踪得到的轨迹进行截断的方法为:设置轨迹长度L,超过预设的视频跨度阈值便不再追踪,若在该邻域没有追踪点,将该特征点纳入追踪点中进行追踪,一条从第t帧开始生成的轨迹可以被表示成:
Tt=(pt,pt+1,...,pt+L-1,pt+L)
令轨迹形状作为特征描述符,表示为trajShap’:
trajShape'=(△pt,...,△pt+L-1)
△pt=(pt+1-pt)=(xt+1-xt,yt+1-yt)
规范化的轨迹形状为:
其中i表示第i帧。
5.根据权利要求1所述的一种基于二叉树的人体行为识别方法,其特征在于,步骤S2计算筛选后轨迹的显著值,提取出综合显著轨迹的具体步骤包括:
S21:分别提取轨迹的灰度显著值以及光流显著值;
灰度显著值:
DiffG(pX)=|g(pX)-g(A(pX))|
其中,g()为高斯滤波后的灰度值,X表示第X帧,视频中的一帧以一个像素点pX=(uX,vX)为中心,则其外围为A(pX):
A(pX)={(u,v)||uX-u|≤△u,|vX-v|≤△v}
△u=min(uX,w-uX),△v=min(vX,h-vX),uX表示第X帧的横坐标的值,vX表示第X帧纵坐标的值,w与h分别为视频帧的宽与高;
光流显著性:
其中,hj(pX)为在pX处的光流直方图HOF中的第j个bin值,而
S22:通过灰度显著值以及光流显著值得到视频帧的综合显著值:
其中,β为权重;定义一个视频中的以特征点pi开始追踪的轨迹为Ti=(pi1,pi2,...,pi|L+1|),其显著值定义为该轨迹上所有特征点的显著值的平均值,SG(Ti)为其灰度显著值,SO(Ti)为其光流显著值,SC(Ti)为其综合显著值,分别为:
S23:根据综合显著值提取出显著轨迹。
6.根据权利要求5所述的一种基于二叉树的人体行为识别方法,其特征在于,S23中提取出显著轨迹的方法为:
Tsalient={Ti|Ti∈Twarped,SC(Ti)>thresholdSaliency(Τi)}
其中,显著轨迹阈值为:E(DiffC(l))为轨迹Ti的平均显著值,l为图像每一个像素点的显著值之和除以视频帧的长度,而μ为控制因子,Twarped为整流密集轨迹集合。
7.根据权利要求1所述的一种基于二叉树的人体行为识别方法,其特征在于,步骤S3根据求得的综合显著轨迹计算轨迹的特征描述符的具体步骤包括:
S31:计算第从第i帧处开始采样的轨迹在第f帧(i≤f≤i+L)的采样点平均位置值为:
其中,N表示相同起始帧和采样尺度的轨迹数目,表示从第i帧处开始采样的第n条轨迹在第i帧上的采样点;x表示横轴上的值,y表示纵轴上的值;
S32:计算从第i帧处开始采样的第n轨迹在第f帧的采样点相对于平均位置的位移为:
△Ri n(f)=pi n(f)-Ai(f)
对相对位移进行归一化处理:
其中min(ΔRi)表示第n轨迹在第f帧的采样点相对于平均位置最小位移,max(ΔRi)表示第n轨迹在第f帧的采样点相对于平均位置最大位移;
S33:由归一化处理结果得到第i帧处开始采样的第n条轨迹的均衡描述符:
8.根据权利要求1所述的一种基于二叉树的人体行为识别方法,其特征在于,步骤S4根据轨迹特征将轨迹进行分类,并利用谱聚类方法将视频的轨迹分类到若干集合中,即分类到二叉树节点中,构造中层语义二叉树的具体步骤包括:
S41:利用轨迹之间的欧氏距离d作为轨迹之间的相似度,并对欧氏距离采用高斯核化;
S42:采用归一化切割N-Cut对轨迹聚类,获得离散解;
S43:利用K均值方法对特征向量组成的矩阵E进行处理,从而获得每一条特征的类别;
S44:利用方法根据轨迹的特征类别进行谱聚类;
S45:将行为视频显式地划分为语义上的两类特征,其中一类为行为的主体部分,另一类则为辅助主体部分的人、物、或其他运动部分。
9.根据权利要求8所述的一种基于二叉树的人体行为识别方法,其特征在于,步骤S41中轨迹之间的相似度为:
Wij=exp(-γd(Ti,Tj)2)
其中,轨迹相似矩阵W是非负对称矩阵, 为轨迹之间欧氏距离的中间值。
10.根据权利要求1所述的一种基于二叉树的人体行为识别方法,其特征在于,步骤S5对若干集合内的轨迹进行编码得到编码向量,采用子空间随机投影对编码向量进行降维,并将若干集合的降维后的编码向量进行融合,用来表示一个视频的具体步骤为:
S51:采用子空间随机投影方法RP处理若干集合的FV向量,随机投影后其维度为r的N条数据的集合YN×r为:
YN×r=XN×dRd×r
其中,XN×d为N条d维原始数据的集合,Rd×r为随机生成的转换矩阵,r即随机投影因子,其下限为数据条数N的对数,将原始高维空间中两个向量的欧氏距离记作||x1-x2||,在随机投影之后,欧氏距离为
S52:采用以不同概率p随机生成转换矩阵R的元素,为:
三个维度为d的FV被降低至维度为r的数据空间,并最终进行特征融合,融合成为3r视频表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811555909.8A CN109508698B (zh) | 2018-12-19 | 2018-12-19 | 一种基于二叉树的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811555909.8A CN109508698B (zh) | 2018-12-19 | 2018-12-19 | 一种基于二叉树的人体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508698A true CN109508698A (zh) | 2019-03-22 |
CN109508698B CN109508698B (zh) | 2023-01-10 |
Family
ID=65753769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811555909.8A Active CN109508698B (zh) | 2018-12-19 | 2018-12-19 | 一种基于二叉树的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508698B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191511A (zh) * | 2019-12-03 | 2020-05-22 | 北京联合大学 | 一种监狱动态实时行为识别方法及系统 |
CN111723745A (zh) * | 2020-06-22 | 2020-09-29 | 四川大学 | 一种基于视频的精神病患者异常行为检测方法 |
CN112132869A (zh) * | 2020-11-02 | 2020-12-25 | 中远海运科技股份有限公司 | 一种车辆目标轨迹跟踪方法和装置 |
Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006221379A (ja) * | 2005-02-09 | 2006-08-24 | Mitsubishi Heavy Ind Ltd | 行動認識システム |
CN102855321A (zh) * | 2012-09-07 | 2013-01-02 | 陕西师范大学 | 人体行为识别方法 |
JP2013045351A (ja) * | 2011-08-25 | 2013-03-04 | Canon Inc | 動作認識装置および動作認識方法 |
CN103295016A (zh) * | 2013-06-26 | 2013-09-11 | 天津理工大学 | 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法 |
US20140169623A1 (en) * | 2012-12-19 | 2014-06-19 | Microsoft Corporation | Action recognition based on depth maps |
CN104063721A (zh) * | 2014-07-04 | 2014-09-24 | 中国科学院自动化研究所 | 一种基于语义特征自动学习与筛选的人类行为识别方法 |
CN104063677A (zh) * | 2013-03-19 | 2014-09-24 | 北京三星通信技术研究有限公司 | 用于估计人体姿态的设备和方法 |
CN104166981A (zh) * | 2014-06-17 | 2014-11-26 | 南京信息工程大学 | 基于多图表达的人体动作学习方法 |
US20150023590A1 (en) * | 2013-07-16 | 2015-01-22 | National Taiwan University Of Science And Technology | Method and system for human action recognition |
KR20150065370A (ko) * | 2013-12-05 | 2015-06-15 | 한국전자통신연구원 | 행동 인식 장치 및 그 방법 |
CN104751111A (zh) * | 2013-12-31 | 2015-07-01 | 深圳先进技术研究院 | 识别视频中人体行为的方法和系统 |
US20150213308A1 (en) * | 2014-01-28 | 2015-07-30 | Politechnika Poznanska | Method and system for analyzing human behavior in an intelligent surveillance system |
CN104966058A (zh) * | 2015-06-12 | 2015-10-07 | 南京邮电大学 | 一种基于分层二叉树的行为识别方法 |
US20150286874A1 (en) * | 2012-10-31 | 2015-10-08 | Nederlandse Organisatie Voor Toegepast- Natuurwetenschappelijk Onderzoek Tno | Detection of human actions from video data |
CN105931271A (zh) * | 2016-05-05 | 2016-09-07 | 华东师范大学 | 一种基于变分bp-hmm的人的行为轨迹识别方法 |
CN105930792A (zh) * | 2016-04-19 | 2016-09-07 | 武汉大学 | 一种基于视频局部特征字典的人体动作分类方法 |
CN106056093A (zh) * | 2016-06-13 | 2016-10-26 | 西安电子科技大学 | 基于二分类进化特征学习的人体行为识别方法 |
CN106203484A (zh) * | 2016-06-29 | 2016-12-07 | 北京工业大学 | 一种基于类别分层机制的人体运动状态分类方法 |
CN106528586A (zh) * | 2016-05-13 | 2017-03-22 | 上海理工大学 | 一种人体行为视频识别方法 |
CN107025420A (zh) * | 2016-01-29 | 2017-08-08 | 中兴通讯股份有限公司 | 视频中人体行为识别的方法和装置 |
JP2017228100A (ja) * | 2016-06-23 | 2017-12-28 | コニカミノルタ株式会社 | 行動認識装置及び行動認識プログラム |
CN107710281A (zh) * | 2015-06-11 | 2018-02-16 | 柯尼卡美能达株式会社 | 动作检测系统、动作检测装置、动作检测方法以及动作检测程序 |
CN108009480A (zh) * | 2017-11-22 | 2018-05-08 | 南京亚兴为信息技术有限公司 | 一种基于特征识别的图像人体行为检测方法 |
CN108509897A (zh) * | 2018-03-29 | 2018-09-07 | 同济大学 | 一种人体姿态识别方法和系统 |
CN108764282A (zh) * | 2018-04-19 | 2018-11-06 | 中国科学院计算技术研究所 | 一种类别增量行为识别方法和系统 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
-
2018
- 2018-12-19 CN CN201811555909.8A patent/CN109508698B/zh active Active
Patent Citations (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006221379A (ja) * | 2005-02-09 | 2006-08-24 | Mitsubishi Heavy Ind Ltd | 行動認識システム |
JP2013045351A (ja) * | 2011-08-25 | 2013-03-04 | Canon Inc | 動作認識装置および動作認識方法 |
CN102855321A (zh) * | 2012-09-07 | 2013-01-02 | 陕西师范大学 | 人体行为识别方法 |
US20150286874A1 (en) * | 2012-10-31 | 2015-10-08 | Nederlandse Organisatie Voor Toegepast- Natuurwetenschappelijk Onderzoek Tno | Detection of human actions from video data |
US20140169623A1 (en) * | 2012-12-19 | 2014-06-19 | Microsoft Corporation | Action recognition based on depth maps |
CN104063677A (zh) * | 2013-03-19 | 2014-09-24 | 北京三星通信技术研究有限公司 | 用于估计人体姿态的设备和方法 |
CN103295016A (zh) * | 2013-06-26 | 2013-09-11 | 天津理工大学 | 基于深度与rgb信息和多尺度多方向等级层次特征的行为识别方法 |
US20150023590A1 (en) * | 2013-07-16 | 2015-01-22 | National Taiwan University Of Science And Technology | Method and system for human action recognition |
KR20150065370A (ko) * | 2013-12-05 | 2015-06-15 | 한국전자통신연구원 | 행동 인식 장치 및 그 방법 |
CN104751111A (zh) * | 2013-12-31 | 2015-07-01 | 深圳先进技术研究院 | 识别视频中人体行为的方法和系统 |
US20150213308A1 (en) * | 2014-01-28 | 2015-07-30 | Politechnika Poznanska | Method and system for analyzing human behavior in an intelligent surveillance system |
CN104166981A (zh) * | 2014-06-17 | 2014-11-26 | 南京信息工程大学 | 基于多图表达的人体动作学习方法 |
CN104063721A (zh) * | 2014-07-04 | 2014-09-24 | 中国科学院自动化研究所 | 一种基于语义特征自动学习与筛选的人类行为识别方法 |
CN107710281A (zh) * | 2015-06-11 | 2018-02-16 | 柯尼卡美能达株式会社 | 动作检测系统、动作检测装置、动作检测方法以及动作检测程序 |
CN104966058A (zh) * | 2015-06-12 | 2015-10-07 | 南京邮电大学 | 一种基于分层二叉树的行为识别方法 |
CN107025420A (zh) * | 2016-01-29 | 2017-08-08 | 中兴通讯股份有限公司 | 视频中人体行为识别的方法和装置 |
CN105930792A (zh) * | 2016-04-19 | 2016-09-07 | 武汉大学 | 一种基于视频局部特征字典的人体动作分类方法 |
CN105931271A (zh) * | 2016-05-05 | 2016-09-07 | 华东师范大学 | 一种基于变分bp-hmm的人的行为轨迹识别方法 |
CN106528586A (zh) * | 2016-05-13 | 2017-03-22 | 上海理工大学 | 一种人体行为视频识别方法 |
CN106056093A (zh) * | 2016-06-13 | 2016-10-26 | 西安电子科技大学 | 基于二分类进化特征学习的人体行为识别方法 |
JP2017228100A (ja) * | 2016-06-23 | 2017-12-28 | コニカミノルタ株式会社 | 行動認識装置及び行動認識プログラム |
CN106203484A (zh) * | 2016-06-29 | 2016-12-07 | 北京工业大学 | 一种基于类别分层机制的人体运动状态分类方法 |
CN108009480A (zh) * | 2017-11-22 | 2018-05-08 | 南京亚兴为信息技术有限公司 | 一种基于特征识别的图像人体行为检测方法 |
CN108509897A (zh) * | 2018-03-29 | 2018-09-07 | 同济大学 | 一种人体姿态识别方法和系统 |
CN108764282A (zh) * | 2018-04-19 | 2018-11-06 | 中国科学院计算技术研究所 | 一种类别增量行为识别方法和系统 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
赵海勇等: "基于多特征融合的运动人体行为识别", 《计算机应用研究》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191511A (zh) * | 2019-12-03 | 2020-05-22 | 北京联合大学 | 一种监狱动态实时行为识别方法及系统 |
CN111191511B (zh) * | 2019-12-03 | 2023-08-18 | 北京联合大学 | 一种监狱动态实时行为识别方法及系统 |
CN111723745A (zh) * | 2020-06-22 | 2020-09-29 | 四川大学 | 一种基于视频的精神病患者异常行为检测方法 |
CN112132869A (zh) * | 2020-11-02 | 2020-12-25 | 中远海运科技股份有限公司 | 一种车辆目标轨迹跟踪方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109508698B (zh) | 2023-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315345B2 (en) | Method for dim and small object detection based on discriminant feature of video satellite data | |
US8842883B2 (en) | Global classifier with local adaption for objection detection | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
CN108062543A (zh) | 一种面部识别方法及装置 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN110263712B (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN105354565A (zh) | 基于全卷积网络人脸五官定位与判别的方法及系统 | |
JP5604256B2 (ja) | 人物動作検出装置およびそのプログラム | |
CN112949572A (zh) | 基于Slim-YOLOv3的口罩佩戴情况检测方法 | |
CN106372624B (zh) | 人脸识别方法及系统 | |
CN107025442B (zh) | 一种基于颜色和深度信息的多模态融合手势识别方法 | |
Wang et al. | Improving human action recognition by non-action classification | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN109508698A (zh) | 一种基于二叉树的人体行为识别方法 | |
CN112232199A (zh) | 基于深度学习的佩戴口罩检测方法 | |
CN108108760A (zh) | 一种快速人脸识别方法 | |
CN105938551A (zh) | 一种基于视频数据的人脸特定区域提取方法 | |
CN112287906B (zh) | 一种基于深度特征融合的模板匹配跟踪方法及系统 | |
CN109800756A (zh) | 一种用于中文历史文献密集文本的文字检测识别方法 | |
CN114359088A (zh) | 一种对视频特定目标人物进行打码处理的方法 | |
CN111476319A (zh) | 商品推荐方法、装置、存储介质和计算设备 | |
CN112784722B (zh) | 基于YOLOv3和词袋模型的行为识别方法 | |
Mithila et al. | CNN and Fuzzy Rules Based Text Detection and Recognition from Natural Scenes. | |
Wang et al. | Text detection algorithm based on improved YOLOv3 | |
CN107679467A (zh) | 一种基于hsv和sdalf的行人重识别算法实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |