CN105512610A - 一种基于感兴趣点位置信息的视频中人体动作识别方法 - Google Patents

一种基于感兴趣点位置信息的视频中人体动作识别方法 Download PDF

Info

Publication number
CN105512610A
CN105512610A CN201510831162.4A CN201510831162A CN105512610A CN 105512610 A CN105512610 A CN 105512610A CN 201510831162 A CN201510831162 A CN 201510831162A CN 105512610 A CN105512610 A CN 105512610A
Authority
CN
China
Prior art keywords
point
interest
video
frame
valid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510831162.4A
Other languages
English (en)
Other versions
CN105512610B (zh
Inventor
张见威
朱林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201510831162.4A priority Critical patent/CN105512610B/zh
Publication of CN105512610A publication Critical patent/CN105512610A/zh
Application granted granted Critical
Publication of CN105512610B publication Critical patent/CN105512610B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于感兴趣点位置信息的视频中人体动作识别方法,包括如下步骤:S1对于视频数据集中的每个视频序列,提取视频序列中人体动作感兴趣点;S2利用人体动作感兴趣点对视频序列进行智能分片,经视频数据分成若干个视频片段;S3针对每个视频片段,计算其人体动作感兴趣点位置分布Hop描述子,Hop描述子表示该视频的人体动作;S4以Hop描述子代表每个视频片段进行人体动作训练;S5最终将出现频率最高的人体动作作为视频数据集中所表示的人体动作。本发明提出利用感兴趣点位置信息计算HoP描述子的方法,可以有效保留不同动作之间的差异性。

Description

一种基于感兴趣点位置信息的视频中人体动作识别方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于感兴趣点位置信息的视频中人体动作识别方法。
背景技术
随着计算机技术和多媒体技术的发展,视频已经成为信息的主要载体。近年来,数码产品不断普及和互联网的迅速发展使得创建视频和分享视频变得越来越简单。另一方面,视频监控的普及、微软Kinect体感游戏机的风靡以及人机交互技术等的不断发展也带来了多样的视频。计算机视觉将视频流与计算机处理相结合,使得计算机可以像人类一样理解视频信息,正发挥着日益重要的作用。
人体动作识别在计算机视觉领域是一项极具吸引力和挑战性的课题。视频中的人体动作识别的应用领域相当广泛,其在高级人机交互、基于姿态的互动游戏、体育运动中动作分析、智能视频监控以及视频标注等应用场景中都发挥着不可替代的作用。
视频中的人体动作识别可以分为人体动作提取及表示和人体动作分类及识别这两个主要步骤。人体动作提取及表示(也被称为人体姿态计算)的主要工作是研究各种人体动作所包含的不同信息的提取和表示方法。这不仅要求人体动作表示方法能够有效区分各种动作类型,同时,在面对不同人体外形、衣着干扰、复杂背景、动作执行快慢、相机抖动、相机运动等多种情况时,更需要其保持相对的一致性。人体动作提取及表示作为视频中人体识别的核心内容,其大体可以分为3D表示方法和2D表示方法两种。而3D的人体动作表示需要多个视角或者人体轮廓等信息,其应用较为局限。2D的人体动作表示方法则有基于跟踪的方法、基于时空人体形状特征的方法以及基于特征包的方法等。不过基于跟踪的方法通常需要进行跟踪子的初始化,在一定程度上依赖于人的介入。基于时空人体形状特征的方法则依赖于准确的人体轮廓提取。而Laptev的文章“Learningrealistichumanactionsfrommovies(IEEEConferenceonComputerVisionandPatternRecognition,CVPR2008:1-8.)中首次提出了基于特征包的方法。即首先提取视频中的人体动作感兴趣点,接着对感兴趣点周围小块计算其描述子,将所有感兴趣点周围小块描述子聚类得到特征包字典,最后采用特征包的分布情况表示视频中的人体动作。Laptev的方法在一定程度上减少了进行视频中人体动作识别的限制,不过其缺点在于特征包字典的聚类极大依赖于特征包字典的数目,在面对大数据集时,其时间和内存消耗往往是无法容忍的。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于感兴趣点位置信息的视频中人体动作识别方法。
本发明提出利用感兴趣点的位置信息进行人体动作识别,即首先利用视频中的感兴趣点位置信息对视频进行智能分片,并提出位置直方图描述子HoP(HistogramofPosition),对于每个视频片段计算HoP,然后利用HoP描述子代表每个视频片段进行人体动作训练,对于测试视频,同样将其分为多个片段进逐个进行识别,并以出现次数最多的视频片段作为该测试视频所表示的人体动作。该方法有效解决了目前人体动作识别方法计算复杂,内存需求过大的问题,同时可以达到较高的识别准确率。
本发明采用如下技术方案:
一种基于感兴趣点位置信息的视频中人体动作识别方法,包括如下步骤:
S1对于视频数据集中的每个视频序列,提取视频序列中人体动作感兴趣点;
S2利用人体动作感兴趣点对视频序列进行智能分片,经视频数据分成若干个视频片段;
S3针对每个视频片段,计算其人体动作感兴趣点位置分布Hop描述子,Hop描述子表示该视频的人体动作;
S4以Hop描述子代表每个视频片段进行人体动作训练;
S5最终将出现频率最高的人体动作作为视频数据集中所表示的人体动作。
所述S1中提取视频序列中人体感兴趣点具体是采用Laptev提出的Harris3D方法。
所述S2中利用人体动作感兴趣点对视频序列进行智能分片,经视频数据分成若干个视频片段,具体为:利用视频序列中人体动作感兴趣点的位置信息确定有效帧和无效帧,去除连续无效帧,根据剩下的的有效帧确定智能分片方案,最后将人体动作感兴趣点位置从原视频序列转换为视频片段。
所述S3中计算其人体动作感兴趣点位置分布Hop描述子包括计算有效帧动作全局描述,计算感兴趣点位置分布描述及计算有效帧间重心运动描述,将上述三部分线性组合得到Hop描述子。
所述计算有效帧动作全局描述具体包括有效帧平均感兴趣点数目,有效帧重心移动速度以及感兴趣点分布范围占视频高宽比。
所述人体动作训练采用包括支持向量机、最近邻分类器及随机森林算法。
具体包括如下步骤:
S2.1去除连续无效帧,具体为:记S1中的视频序列是分辨率W×H,帧数即长度为T的视频SW,H,T,其中每一个像素点表示为P(x,y,t),设S1中从视频序列中提取N个感兴趣点,则感兴趣点表示Ii(x,y,t),其中1≤i≤N;
计算得到视频序列中每一帧所包含的感兴趣点数目为Ct,其中t表示第几帧,1≤t≤T,选定视频帧是否为有效帧的阈值为ThreshValid,根据如下公式进行判断:
V t = 0 , C t < Thresh V a l i d 1 , o t h e r w i s e
其中,1≤t≤T,Vt如果是1表示该帧有效,Vt如果是0则表示该帧无效,也就是说一帧中检测出的感兴趣点过少,则定义为无效帧;
S2.2根据剩下的有效帧确定智能分片方案,具体为,去除无效帧后,视频序列成为若干个不同长度的有效序列,分别对每一个有效序列进行智能分片,具体方法如下:设有效序列分片的长度即帧数为L,重叠的两个分片定义为重叠量,记为O,两个参数根据有效序列的实际长度Tvalid进行选择,长度为Tvalid的有效片段在分片后得到的片段数目NChip如下式所示:
S2.3对于原始视频中的感兴趣点Ii(x,y,t),需要将其中从第Tstart到Tend帧中的感兴趣点转换为视频片段中的对应感兴趣点,假设视频片段的长度为L,视频片段中新的感兴趣点为Ii′(x′,y′,t′):
x &prime; = x y &prime; = y t &prime; = t - T s t a r t + 1
根据上式求出视频片段中感兴趣点的时空位置,其中x为高度方向的坐标,y为宽度方向的坐标,t是时间方向的坐标。
所述有效帧平均感兴趣点数目AvgEff,用于衡量动作的幅度大小,具体计算为:
Avg E f f = &Sigma; t = 1 T ( C t &CenterDot; V t ) / &Sigma; t = 1 T V t
上式中,是该视频序列全部有效帧中包含的感兴趣点数目的总和,而为有效帧的数目;
所述有效帧重心移动速度,设有效帧感兴趣点为Ieff(x,y,t),对于视频序列中第k帧有效帧,根据下式计算其重心,
F k = ( ( &Sigma; i = 1 C k x i ) / C k , ( ( &Sigma; i = 1 C k y i ) ) / C k )
其中xi是所有在第k帧感兴趣点Ieff(x,y,k)的高度方向即x方向坐标和,而yi则是所有在第k帧感兴趣点Ieff(x,y,k)的宽度方向即y方向坐标和;
本方法在高度x方向和宽度即y方向计算相邻两个有效帧的重心移动速度;
所述感兴趣点分布范围占视频高宽比的分布范围,如下式所示,
Hrange=max(xi)-min(xi),Wrange=max(yi)-min(yi)
其中xi和yi是所有感兴趣点的坐标,Hrange和Wrange分别是感兴趣点在高度以及宽度方向的分布范围,下面的两个式子分别给出了感兴趣点的高度和宽度分布范围占视频的高宽比。
Hratio=Hrange/H
Wratio=Wrange/W
其中Hratio是高度方向的占比,Wratio是宽度方向的占比。
所述计算感兴趣点位置分布描述,具体为:
对于一个分辨率为W×H,长度为T的视频为SW,H,T,其中每一个像素点表示为P(x,y,t),从视频中提取N个感兴趣点,这些感兴趣点表示为Ii(x,y,t),其中1≤i≤N;
S3.2.1首先计算该视频序列中所有感兴趣点在高度方向和宽度方向中最小及最大坐标;
S3.2.2然后分别在高度方向和宽度方向分成B个Bin对感兴趣点的分布进行统计,具体是即在高度上将视频从Hmin到Hmax的部分等分成B份,记为HeightBinb,其中1≤b≤B;在宽度方向上将视频从Wmin到Wmax的部分等分成B份,记为WidthBinb,其中1≤b≤B。并将HeightBinb和WidthBinb的值均置为0;
S3.2.3对于每个感兴趣点Ii(x,y,t),分别计算其在高度和宽度所属的区间hBin和wBin,并将对应的HeightBinhBin以及WidthBinhBin加1,得到了记录了感兴趣点分布频数的HeightBinb以及WidthBinb,对感兴趣点分布频数进行归一化;
HeightBin b = HeightBin b / &Sigma; t = 1 1 C t
WidthBin b = WidthBin b / &Sigma; t = 1 1 C t
其中1≤b≤B,Ct为第t帧的感兴趣点数目,而则统计了整个视频序列中感兴趣点数目的总和;
S3.2.4最后得到感兴趣点位置分布的归一化描述。
所述有效帧间重心运动描述,具体是表示不同人体动作在相邻帧间的重心移动方向和大小的差异,具体描述步骤如下:
S3.3.1首先计算视频序列的有效帧,得到每个有效帧的重心位置,记第k帧有效帧的重心为Fk=(xk,yk),其中1≤k≤T,进一步计算得到有效帧重心在相邻有效帧间的移动方向和移动距离,具体为:
vecHeightDiffk=(xk-xnextk)/(nextk-k)vecWidthDiffk=(yk-ynextk)/(nextk-k)
其中,xk和xnextk分别是第k帧有效帧及其下一帧的感兴趣点重心在高度方向上的坐标,而yk和ynextk则分别是第k帧有效帧及其下一帧的感兴趣点重心在宽度方向上的坐标;
S3.3.2分别计算出第k帧及其下一帧感兴趣点重心的移动方向和移动矢量距离;
S3.3.3假定对重心的移动方向分成Bf个部分进行统计,记为其角度范围是[0°,360°],这样对于重心移动方向为anglek,重心移动距离为diffk的相邻帧,首先根据其方向确定其落在那个角度范围中,假设其落在块OrientBinb上,根据下式将其移动距离加到该块中;
OrientBinb=OrientBinb+diffk,anglek∈OrientBinb
S3.3.4对OrientBin进行归一化,如下式所示:
OrientBin b = OrientBin b / &Sigma; t = 1 1 ( C t &CenterDot; V t )
其中统计了视频序列中有效帧的感兴趣点总数,这样就得到了对有效帧间重心移动的的归一化描述,一共包含Bf个参数,如下式所示:
D e s c = &lsqb; OrientBin 1 , OrientBin 2 , ... OrientBin B f &rsqb; .
本发明的有益效果:
(1)利用感兴趣点位置进行智能分片,有效避免了低效的硬盘读写,在节约了时间的同时节省了存储空间,同时智能分片自动过滤掉那些不包含任何有用的人体动作信息的视频片段(如视频中只有背景),使得每个视频片段都更能代表实际的人体动作;
(2)提出利用感兴趣点位置信息计算HoP描述子的方法,可以有效保留不同动作之间的差异性;
(3)利用HoP描述子对视频中的人体动作进行描述和识别,相对于特征包的方法可以极大地减少所需的内存以及时间复杂度,可以进行快速的人体动作识别;
(4)本发明提出的识别方法可以作为视频中人体动作识别通用框架,可以选择是否采用智能分片直接对视频计算其感兴趣点位置信息描述子,同时可以使用不同的方法进行人体动作分类,如支持向量机、最近邻算法以及随机森林等算法。
附图说明
图1是本发明的工作流程图;
图2是本发明利用人体动作感兴趣点对视频序列进行智能分片的步骤流程图;
图3是本发明中计算描述子的步骤流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示。首先对于视频数据集中的每个视频序列,提取视频序列中的人体动作感兴趣点;然后利用感兴趣点位置信息对其进行智能分片,将视频分成若干个视频片段。接着对每个视频片段,计算其感兴趣点位置分布HoP描述子,以HoP描述子表示该视频的人体动作。然后可以采用支持向量机、最近邻分类器等方法对视频进行训练和测试。对于每个测试视频同样对其进行智能分片处理,分别得到其每个视频片段所属的人体动作类别,最终将出现频率最高的人体动作作为测试视频所表示的人体动作。
具体包括如下如下步骤:
S1对于视频数据集中的每个视频序列,提取视频序列中人体动作感兴趣点;
视频序列中的感兴趣点提取影响到整个人体动作识别的准确率,作为重要的步骤之一,目前已经有不少方法可以提取视频中的人体动作感兴趣点。
这里可以采用Laptev提出的Harris3D方法。该方法可以检测在空间域和时间域共三个维度上发生显著变化的点。也可以采用Harris角点检测与光流法相结合的方法进行感兴趣点提取。这里的感兴趣点提取方法并不局限。
S2利用人体动作感兴趣点对视频序列进行智能分片,经视频数据分成若干个视频片段,如图2所示;
首先利用原视频中感兴趣点位置信息确定有效帧和无效帧。对于连续的无效帧,认为这些帧中不包含人体动作,并将其去除。接着根据剩下的有效帧序列确定具体的视频分片方案。最终将感兴趣点位置信息从原视频转换到视频片段中。
智能分片的具体操作方法如下:
(1)去除连续无效帧
记一个分辨率为W×H,长度即帧数为T的视频为SW,H,T,其中每一个像素点都可以表示为P(x,y,t)。从视频中提取N个感兴趣点,则这些感兴趣点可以表示为Ii(x,y,t),其中1≤i≤N。处理这些感兴趣点信息,我们可以计算得到该视频每一帧所包含的感兴趣点数目为Ct,其中t表示第几帧,所以有1≤t≤T。选定判定一个视频帧是否为无效帧的阈值为ThreshValid(这是一个经验值,一般比较小),我们可以根据式4-30计算视频中每一帧是否有效。
V t = 0 , C t < Thresh V a l i d 1 , o t h e r w i s e - - - ( 4 - 30 )
其中,1≤t≤T。Vt如果是1表示该帧有效,Vt如果是0则表示该帧无效。也就是说一帧中检测出的感兴趣点过少,则定义为无效帧。
因为人体动作存在很大差异性,如果在分片时排除单帧的无效帧,很可能会割裂一个完整的人体动作,因此这里将去除连续出现的无效帧。在实际的操作中,一般连续6-8帧以上的无效帧才会被真正去除。
(2)确定具体分片方案
在去除无效帧后,一个视频序列实际就已经被分成了若干个不同长度的有效序列。下面就逐一对这些序列进行分片。记视频分片的长度(即帧数)为L,两个分片之间可以有重叠,重叠的帧数定义为重叠量,记为O。本发明中分片长度L以及重叠量O的值可以根据有效序列的实际长度Tvalid进行智能选择。当Tvalid过小时,可以直接舍弃该有效序列。令舍弃序列的长度阈值为ThreshDrop,则当TValid<ThreshDrop时,舍弃该视频片段。当Tvalid比较小时,可以直接将其视为一个片段不做分片或者选取较小的分片长度L以及较高的重叠量O,以获得更多的视频片段。而随着Tvalid的增加,可以适当增加分片长度L并减小重叠量O,以减少随后进行人体动作识别的计算量。实际上,一个长度为Tvalid的有效片段在分片后可以得到的片段数目NChip如下式所示:
其中L和O分别是分片的长度和重叠量。因此,采用上述分片方案,可以很方便地在分片数量和计算量上进行取舍和平衡。
(3)感兴趣点位置转换
在确定分片方案后,下面就需要将原视频中感兴趣点位置转换为其在视频片段中的位置。对于原始视频中的感兴趣点Ii(x,y,t),需要将其中从第Tstart到Tend帧中的感兴趣点转换为视频片段中的对应感兴趣点。假设视频片段的长度为L,视频片段中新的感兴趣点为Ii′(x′,y′,t′)。
x &prime; = x y &prime; = y t &prime; = t - T s t a r t + 1
可以根据上式求出视频片段中感兴趣点的时空位置,其中x为高度方向的坐标,y为宽度方向的坐标,t是时间方向的坐标。
S3针对每个视频片段,计算其人体动作感兴趣点位置分布Hop描述子,以Hop描述子表示该视频的人体动作,如图3所示;
首先根据已有的感兴趣点位置信息定义有效帧,下面分成三个部分对HoP描述子进行计算,即计算有效帧动作全局描述;计算感兴趣点位置分布描述;计算有效帧间重心动作描述。最后将这三个部分线性组合,即可得到感兴趣点位置分布HoP描述子。
(1)定义有效帧
记一个分辨率为W×H,长度为T的视频为SW,H,T,其中每一个像素点都可以表示为P(x,y,t)。从视频中提取N个感兴趣点,则这些感兴趣点可以表示为Ii(x,y,t),其中1≤i≤N。处理这些感兴趣点信息,可以计算得到该视频每一帧所包含的感兴趣点数目为Ct,其中1≤t≤T。记视频中感兴趣点总数为SumI,根下式可以计算出该数值。
Sum I = &Sigma; t = 1 T C t
根据下式可以计算出每帧的平均感兴趣点数目AvgI和阀值ThreshEff
AvgI=SumI/T
ThreshEff=AvgI·λ
对于视频中的第t帧,如果其包含的感兴趣点数目Ct小于阈值ThreshEff,则判定该帧无效,否则该帧为有效帧。其中λ为可调参数。这样可以计算出视频中每一帧是否有效,这里用Vt标记第t帧是否为有效帧。
V t = 0 , C t < Thresh E f f 1 , o t h e r w i s e
(2)计算有效帧动作全局描述
有效帧动作全局描述包括了有效帧平均感兴趣点数目,有效帧重心移动速度以及感兴趣点分布范围占视频高宽比三个方面。
有效帧平均感兴趣点数目
可以根据下式计算有效帧平均感兴趣点数目AvgEff
Avg E f f = &Sigma; t = 1 T ( C t &CenterDot; V t ) / &Sigma; t = 1 T V t
上式中,是该视频序列全部有效帧中包含的感兴趣点数目的总和,而为有效帧的数目。有效帧的平均感兴趣点数目的物理意义在于:假定一个数据集中同一个动作的幅度相似,则其有效帧的平均感兴趣点数目越多,其所代表的动作也就越剧烈。因此该参数可以用来衡量动作的幅度大小。
有效帧重心移动速度
在计算出一个视频序列的所有有效帧后,记所有属于有效帧的感兴趣点为Ieff(x,y,t),那么对于视频序列第k帧有效帧,可以根据下式计算其重心,
F k = ( ( &Sigma; i = 1 C k x i ) / C k , ( ( &Sigma; i = 1 C k y i ) ) / C k )
其中xi是所有在第k帧感兴趣点Ieff(x,y,k)的高度方向即x方向坐标和,而yi则是所有在第k帧感兴趣点Ieff(x,y,k)的宽度方向即y方向坐标和。为了便于书写,下面记第k帧有效帧的重心为Fk=(xk,yk)。
本方法在高度(即x方向)和宽度(即y方向)计算相邻两个有效帧的重心移动速度。而在计算速度的时候,同时计算其绝对移动速度以及矢量移动速度,因此这里有效帧重心的移动速度一共有四个参数,其计算方式如下。
H a b s S p e e d = &Sigma; k = 1 T - 1 ( | x k - x n e x t k | / ( n e x t k - k ) ) / ( &Sigma; k = 1 T V t &CenterDot; H )
H v e c S p e e d = &Sigma; k = 1 T - 1 ( ( x k - x n e x t k ) / ( n e x t k - k ) ) / ( &Sigma; k = 1 T V t &CenterDot; H )
W a b s S p e e d = &Sigma; k = 1 T - 1 ( | y k - y n e x t k | / ( n e x t k - k ) ) / ( &Sigma; k = 1 T V t &CenterDot; W )
W v e c S p e e d = &Sigma; k = 1 T - 1 ( ( y k - y n e x t k ) / ( n e x t k - k ) ) / ( &Sigma; k = 1 T V t &CenterDot; W )
其中HabsSpeed和HvecSpeed是有效帧间在高度上的绝对移动速度和矢量移动速度,WabsSpeed和WvecSpeed则是有效帧间在宽度上的绝对移动速度和矢量移动速度。以HabsSpeed为例,|xk-xnextk|为相邻两有效帧的重心在高度上的绝对移动距离,nextk-k为相邻两有效帧的间隔,而后面的则是进行归一化操作,使得不同视频长度计算出的参数具有可比性。而其他三个参数的计算方式与之类似,这里就不做赘述。
感兴趣点分布范围占视频高宽比
首先,计算视频中感兴趣点的在高度方向和宽度方向的分布范围,如下式所示:
Hrange=max(xi)-min(xi)
Wrange=max(yi)-min(yi)
其中xi和yi是所有感兴趣点的坐标,Hrange和Wrange分别是感兴趣点在高度以及宽度方向的分布范围。下面的两个式子分别给出了感兴趣点的高度和宽度分布范围占视频的高宽比。
Hratio=Hrange/H
Wratio=Wrange/W
其中Hratio是高度方向的占比,Wratio是宽度方向的占比。
这样,就完成了对有效帧动作的全局描述,一共包括7个参数,如下式所示:
Desc=[AvgEff,HabsSpeed,HvecSpeed,WabsSpeed,WvecSpeed,Hratio,Wratio]
(3)计算感兴趣点位置分布描述
记一个分辨率为W×H,长度为T的视频为SW,H,T,其中每一个像素点都可以表示为P(x,y,t),从视频中提取N个感兴趣点,则这些感兴趣点可以表示为Ii(x,y,t),其中1≤i≤N。
首先,根据下面的式子计算该视频序列中所有感兴趣点在高度方向和宽度方向出现的最小以及最大坐标。
Hmax=max(xi),Hmin=min(xi)
Wmax=max(yi),Wmin=min(yi)
接着分别在高度方向和宽度方向分成B个Bin对感兴趣点的分布进行统计。即在高度上将视频从Hmin到Hmax的部分等分成B份,记为HeightBinb,其中1≤b≤B;在宽度方向上将视频从Wmin到Wmax的部分等分成B份,记为WidthBinb,其中1≤b≤B。并将HeightBinb和WidthBinb的值均置为0。
对于每个感兴趣点Ii(x,y,t),分别计算其在高度和宽度所属的区间hBin和wBin,并将对应的HeightBinhBin以及WidthBinhBin加1。这样就得到了记录了感兴趣点分布频数的HeightBinb以及WidthBinb。下面利用下面两个式子分别对其进行归一化:
HeightBin b = HeightBin b / &Sigma; t = 1 1 C t
WidthBin b = WidthBin b / &Sigma; t = 1 1 C t
其中1≤b≤B,Ct为第t帧的感兴趣点数目,而则统计了整个视频序列中感兴趣点数目的总和。这样就得到了对感兴趣点位置分布的归一化描述。一共包含2·B个参数,如下式所示:
Desc=[HeightBin1,...HeightBinB;WidthBin1,...WidthBinB](4-21)
(4)计算有效帧间重心运动描述
为了刻画不同人体动作在相邻帧间的重心移动方向和大小的差异,本发明设计了如下方法对相邻有效帧的重心移动进行描述。
记一个分辨率为W×H,长度为T的视频为SW,H,T,其中每一个像素点都可以表示为P(x,y,t)。从视频中提取N个感兴趣点,则这些感兴趣点可以表示为Ii(x,y,t),其中1≤i≤N。
首先计算出视频序列中的有效帧。接着利用得到视频中每个有效帧的重心位置,记第k帧有效帧的重心为Fk=(xk,yk),其中1≤k≤T。要计算重心在相邻有效帧间的移动方向和移动距离,首先需要分别计算重心在高度方向和宽度方向的移动矢量距离,如下面两个式子所示。
vecHeightDiffk=(xk-xnextk)/(nextk-k)
vecWidthDiffk=(yk-ynextk)/(nextk-k)
其中,xk和xnextk分别是第k帧有效帧及其下一帧的感兴趣点重心在高度方向上的坐标,而yk和ynextk则分别是第k帧有效帧及其下一帧的感兴趣点重心在宽度方向上的坐标。
anglek=arctan(vecHeightDiffk/vecWidthDiffk)
diff k = vecHeightDiff k 2 + vecWidthDiff k 2
根据上面两个式子,可以分别计算出第k帧及其下一帧感兴趣点重心的移动方向和移动矢量距离。假定对重心的移动方向分成Bf个部分进行统计,记为其角度范围是[0°,360°],这样对于重心移动方向为anglek,重心移动距离为diffk的相邻帧,首先根据其方向确定其落在那个角度范围中,假设其落在块OrientBinb上,根据下式将其移动距离加到该块中。
OrientBinb=OrientBinb+diffk,anglek∈OrientBinb
与计算感兴趣点在高度和宽度上的分布类似,下面需要对OrientBin进行归一化,如下式所示:
OrientBin b = OrientBin b / &Sigma; t = 1 1 ( C t &CenterDot; V t )
其中统计了视频序列中有效帧的感兴趣点总数,这样就得到了对有效帧间重心移动的的归一化描述。一共包含Bf个参数,如下式所示:
D e s c = &lsqb; OrientBin 1 , OrientBin 2 , ... OrientBin B f &rsqb;
综合(2)(3)(4)的描述,我们可以根据视频序列中感兴趣点的位置求出一个对其中感兴趣点位置分布的一个总的描述,称为HoP描述子。该描述子的长度LHoP如下式所示:
LHoP=7+2·B+Bf
其中7为有效帧动作全局描述的长度,B为统计感兴趣点在高度和宽度方向分布时所分的段数,Bf则是在计算相邻有效帧重心移动方向时分的方向数。在计算出HoP描述子后,就可以用该描述子表示整个视频中的人体动作。
S4以Hop描述子代表每个视频片段进行人体动作训练;
本发明对于训练和测试所用的方法没有特别的限制。这里可以采用支持向量机,也可以用最近邻分类器、随机森林等算法。
S5最终将出现频率最高的人体动作作为视频数据集中所表示的人体动作。
首先将测试视频按照本发明中智能分片部分的方法分成若干个视频片段,接着对每个视频片段进行识别,得到其表示的人体动作类别,最终以出现次数最多的视频片段作为该测试视频所表示的人体动作。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于感兴趣点位置信息的视频中人体动作识别方法,其特征在于,包括如下步骤:
S1对于视频数据集中的每个视频序列,提取视频序列中人体动作感兴趣点;
S2利用人体动作感兴趣点对视频序列进行智能分片,经视频数据分成若干个视频片段;
S3针对每个视频片段,计算其人体动作感兴趣点位置分布Hop描述子,Hop描述子表示该视频的人体动作;
S4以Hop描述子代表每个视频片段进行人体动作训练;
S5最终将出现频率最高的人体动作作为视频数据集中所表示的人体动作。
2.根据权利要求1所述的视频中人体动作识别方法,其特征在于,所述S1中提取视频序列中人体感兴趣点具体是采用Laptev提出的Harris3D方法。
3.根据权利要求1所述的视频中人体动作识别方法,其特征在于,所述S2中利用人体动作感兴趣点对视频序列进行智能分片,经视频数据分成若干个视频片段,具体为:利用视频序列中人体动作感兴趣点的位置信息确定有效帧和无效帧,去除连续无效帧,根据剩下的的有效帧确定智能分片方案,最后将人体动作感兴趣点位置从原视频序列转换为视频片段。
4.根据权利要求1所述的视频中人体动作识别方法,其特征在于,所述S3中计算其人体动作感兴趣点位置分布Hop描述子包括计算有效帧动作全局描述,计算感兴趣点位置分布描述及计算有效帧间重心运动描述,将上述三部分线性组合得到Hop描述子。
5.根据权利要求4所述的视频中人体动作识别方法,其特征在于,所述计算有效帧动作全局描述具体包括有效帧平均感兴趣点数目,有效帧重心移动速度以及感兴趣点分布范围占视频高宽比。
6.根据权利要求1所述的视频中人体动作识别方法,其特征在于,所述人体动作训练采用包括支持向量机、最近邻分类器及随机森林算法。
7.根据权利要求3所述的视频中人体动作识别方法,其特征在于,具体包括如下步骤:
S2.1去除连续无效帧,具体为:记S1中的视频序列是分辨率W×H,帧数即长度为T的视频SW,H,T,其中每一个像素点表示为P(x,y,t),设S1中从视频序列中提取N个感兴趣点,则感兴趣点表示Ii(x,y,t),其中1≤i≤N;
计算得到视频序列中每一帧所包含的感兴趣点数目为Ct,其中t表示第几帧,1≤t≤T,选定视频帧是否为有效帧的阈值为ThreshValid,根据如下公式进行判断:
V t = 0 , C t < Thresh V a l i d 1 , o t h e r w i s e
其中,1≤t≤T,Vt如果是1表示该帧有效,Vt如果是0则表示该帧无效,也就是说一帧中检测出的感兴趣点过少,则定义为无效帧;
S2.2根据剩下的有效帧确定智能分片方案,具体为,去除无效帧后,视频序列成为若干个不同长度的有效序列,分别对每一个有效序列进行智能分片,具体方法如下:设有效序列分片的长度即帧数为L,重叠的两个分片定义为重叠量,记为O,两个参数根据有效序列的实际长度Tvalid进行选择,长度为Tvalid的有效片段在分片后得到的片段数目NChip如下式所示:
S2.3对于原始视频中的感兴趣点Ii(x,y,t),需要将其中从第Tstart到Tend帧中的感兴趣点转换为视频片段中的对应感兴趣点,假设视频片段的长度为L,视频片段中新的感兴趣点为I′i(x′,y′,t′):
x &prime; = x y &prime; = y t &prime; = t - T s t a r t + 1
根据上式求出视频片段中感兴趣点的时空位置,其中x为高度方向的坐标,y为宽度方向的坐标,t是时间方向的坐标。
8.根据权利要求5所述的视频中人体动作识别方法,其特征在于,
所述有效帧平均感兴趣点数目AvgEff,用于衡量动作的幅度大小,具体计算为:
Avg E f f = &Sigma; t = 1 T ( C t &CenterDot; V t ) / &Sigma; t = 1 T V t
上式中,是该视频序列全部有效帧中包含的感兴趣点数目的总和,而为有效帧的数目;
所述有效帧重心移动速度,设有效帧感兴趣点为Ieff(x,y,t),对于视频序列中第k帧有效帧,根据下式计算其重心,
F k = ( ( &Sigma; i = 1 C k x i ) / C k , ( ( &Sigma; i = 1 C k y i ) ) / C k )
其中xi是所有在第k帧感兴趣点Ieff(x,y,k)的高度方向即x方向坐标和,而yi则是所有在第k帧感兴趣点Ieff(x,y,k)的宽度方向即y方向坐标和;
本方法在高度x方向和宽度即y方向计算相邻两个有效帧的重心移动速度;
所述感兴趣点分布范围占视频高宽比的分布范围,如下式所示,
Hrange=max(xi)-min(xi),Wrange=max(yi)-min(yi)
其中xi和yi是所有感兴趣点的坐标,Hrange和Wrange分别是感兴趣点在高度以及宽度方向的分布范围,下面的两个式子分别给出了感兴趣点的高度和宽度分布范围占视频的高宽比,
Hratio=Hrange/H
Wratio=Wrange/W
其中Hratio是高度方向的占比,Wratio是宽度方向的占比。
9.根据权利要求4所述的视频中人体动作识别方法,其特征在于,所述计算感兴趣点位置分布描述,具体为:
对于一个分辨率为W×H,长度为T的视频为SW,H,T,其中每一个像素点表示为P(x,y,t),从视频中提取N个感兴趣点,这些感兴趣点表示为Ii(x,y,t),其中1≤i≤N;
S3.2.1首先计算该视频序列中所有感兴趣点在高度方向和宽度方向中最小及最大坐标;
S3.2.2然后分别在高度方向和宽度方向分成B个Bin对感兴趣点的分布进行统计,具体是即在高度上将视频从Hmin到Hmax的部分等分成B份,记为HeightBinb,其中1≤b≤B;在宽度方向上将视频从Wmin到Wmax的部分等分成B份,记为WidthBinb,其中1≤b≤B。并将HeightBinb和WidthBinb的值均置为0;
S3.2.3对于每个感兴趣点Ii(x,y,t),分别计算其在高度和宽度所属的区间hBin和wBin,并将对应的HeightBinhBin以及WidthBinhBin加1,得到了记录了感兴趣点分布频数的HeightBinb以及WidthBinb,对感兴趣点分布频数进行归一化;
HeightBin b = HeightBin b / &Sigma; t = 1 1 C t
WidthBin b = WidthBin b / &Sigma; t = 1 1 C t
其中1≤b≤B,Ct为第t帧的感兴趣点数目,而则统计了整个视频序列中感兴趣点数目的总和;
S3.2.4最后得到感兴趣点位置分布的归一化描述。
10.根据权利要求4所述的视频中人体动作识别方法,其特征在于,所述有效帧间重心运动描述,具体是表示不同人体动作在相邻帧间的重心移动方向和大小的差异,具体描述步骤如下:
S3.3.1首先计算视频序列的有效帧,得到每个有效帧的重心位置,记第k帧有效帧的重心为Fk=(xk,yk),其中1≤k≤T,进一步计算得到有效帧重心在相邻有效帧间的移动方向和移动距离,具体为:
vecHeightDiffk=(xk-xnextk)/(nextk-k)vecWidthDiffk=(yk-ynextk)/(nextk-k)
其中,xk和xnextk分别是第k帧有效帧及其下一帧的感兴趣点重心在高度方向上的坐标,而yk和ynextk则分别是第k帧有效帧及其下一帧的感兴趣点重心在宽度方向上的坐标;
S3.3.2分别计算出第k帧及其下一帧感兴趣点重心的移动方向和移动矢量距离;
S3.3.3假定对重心的移动方向分成Bf个部分进行统计,记为其角度范围是[0°,360°],这样对于重心移动方向为anglek,重心移动距离为diffk的相邻帧,首先根据其方向确定其落在那个角度范围中,假设其落在块OrientBinb上,根据下式将其移动距离加到该块中;
OrientBinb=OrientBinb+diffk,anglek∈OrientBinb
S3.3.4对OrientBin进行归一化,如下式所示:
OrientBin b = OrientBin b / &Sigma; t = 1 1 ( C t &CenterDot; V t )
其中统计了视频序列中有效帧的感兴趣点总数,这样就得到了对有效帧间重心移动的的归一化描述,一共包含Bf个参数,如下式所示:
D e s c = &lsqb; OrientBin 1 , OrientBin 2 , ... OrientBin B f &rsqb; .
CN201510831162.4A 2015-11-25 2015-11-25 一种基于感兴趣点位置信息的视频中人体动作识别方法 Expired - Fee Related CN105512610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510831162.4A CN105512610B (zh) 2015-11-25 2015-11-25 一种基于感兴趣点位置信息的视频中人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510831162.4A CN105512610B (zh) 2015-11-25 2015-11-25 一种基于感兴趣点位置信息的视频中人体动作识别方法

Publications (2)

Publication Number Publication Date
CN105512610A true CN105512610A (zh) 2016-04-20
CN105512610B CN105512610B (zh) 2019-01-29

Family

ID=55720577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510831162.4A Expired - Fee Related CN105512610B (zh) 2015-11-25 2015-11-25 一种基于感兴趣点位置信息的视频中人体动作识别方法

Country Status (1)

Country Link
CN (1) CN105512610B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358210A (zh) * 2017-07-17 2017-11-17 广州中医药大学 人体动作识别方法及装置
CN108288015A (zh) * 2017-01-10 2018-07-17 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
CN109889892A (zh) * 2019-04-16 2019-06-14 北京字节跳动网络技术有限公司 视频效果添加方法、装置、设备及存储介质
CN110232339A (zh) * 2019-05-29 2019-09-13 西安交通大学 一种基于对比度的弱监督时序动作定位评价方法及系统
CN110443171A (zh) * 2019-07-25 2019-11-12 腾讯科技(武汉)有限公司 视频文件的分类方法、装置、存储介质及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019170B2 (en) * 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US20110311137A1 (en) * 2010-06-22 2011-12-22 Microsoft Corporation Hierarchical filtered motion field for action recognition
CN102609683A (zh) * 2012-01-13 2012-07-25 北京邮电大学 一种基于单目视频的人体关节自动标注方法
US9014422B2 (en) * 2009-08-06 2015-04-21 Kabushiki Kaisha Toshiba Method of recognizing a moving feature in a video sequence

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019170B2 (en) * 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US9014422B2 (en) * 2009-08-06 2015-04-21 Kabushiki Kaisha Toshiba Method of recognizing a moving feature in a video sequence
US20110311137A1 (en) * 2010-06-22 2011-12-22 Microsoft Corporation Hierarchical filtered motion field for action recognition
CN102609683A (zh) * 2012-01-13 2012-07-25 北京邮电大学 一种基于单目视频的人体关节自动标注方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱林: "视频中人体动作识别方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288015A (zh) * 2017-01-10 2018-07-17 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
CN108288015B (zh) * 2017-01-10 2021-10-22 武汉大学 基于时间尺度不变性的视频中人体动作识别方法及系统
CN107358210A (zh) * 2017-07-17 2017-11-17 广州中医药大学 人体动作识别方法及装置
CN107358210B (zh) * 2017-07-17 2020-05-15 广州中医药大学 人体动作识别方法及装置
CN109889892A (zh) * 2019-04-16 2019-06-14 北京字节跳动网络技术有限公司 视频效果添加方法、装置、设备及存储介质
CN110232339A (zh) * 2019-05-29 2019-09-13 西安交通大学 一种基于对比度的弱监督时序动作定位评价方法及系统
CN110443171A (zh) * 2019-07-25 2019-11-12 腾讯科技(武汉)有限公司 视频文件的分类方法、装置、存储介质及终端
CN110443171B (zh) * 2019-07-25 2022-11-29 腾讯科技(武汉)有限公司 视频文件的分类方法、装置、存储介质及终端

Also Published As

Publication number Publication date
CN105512610B (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
Wang et al. Dense trajectories and motion boundary descriptors for action recognition
CN104050449B (zh) 一种人脸识别方法及装置
US7983448B1 (en) Self correcting tracking of moving objects in video
Vieira et al. On the improvement of human action recognition from depth map sequences using space–time occupancy patterns
CN105512610A (zh) 一种基于感兴趣点位置信息的视频中人体动作识别方法
CN106203423B (zh) 一种融合上下文探测的弱结构感知视觉目标跟踪方法
EP2930690B1 (en) Apparatus and method for analyzing a trajectory
Nanni et al. Local ternary patterns from three orthogonal planes for human action classification
CN103514432A (zh) 人脸特征提取方法、设备和计算机程序产品
CN105022982A (zh) 手部运动识别方法和装置
CN103605986A (zh) 一种基于局部特征的人体动作识别方法
CN105893936A (zh) 一种基于hoirm和局部特征融合的行为识别方法
CN106056089A (zh) 一种三维姿态识别方法及系统
CN104881640A (zh) 一种获取向量的方法及装置
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
CN101826155B (zh) 一种基于哈尔特征和动态时序匹配的投篮动作识别方法
CN102289685B (zh) 一种基于正则回归的秩-1张量投影的行为识别方法
CN103886585A (zh) 一种基于排序学习的视频跟踪方法
CN104598889A (zh) 人体行为识别的方法和装置
CN103413154A (zh) 基于归一化类谷歌量度矩阵的人体运动识别方法
CN102708589B (zh) 一种基于特征聚类的三维目标多视点视图建模方法
Baumann et al. Action graph a versatile data structure for action recognition
CN103593661A (zh) 一种基于排序方法的人体动作识别方法
CN106445146B (zh) 用于头盔显示器的手势交互方法与装置
Zhang et al. Incorporating depth information into few-shot semantic segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190129

Termination date: 20211125

CF01 Termination of patent right due to non-payment of annual fee