CN107169423A - 一种视频人物运动类型识别方法 - Google Patents

一种视频人物运动类型识别方法 Download PDF

Info

Publication number
CN107169423A
CN107169423A CN201710269887.8A CN201710269887A CN107169423A CN 107169423 A CN107169423 A CN 107169423A CN 201710269887 A CN201710269887 A CN 201710269887A CN 107169423 A CN107169423 A CN 107169423A
Authority
CN
China
Prior art keywords
state
data
video
dimensional
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710269887.8A
Other languages
English (en)
Other versions
CN107169423B (zh
Inventor
曹梓杭
陈志�
岳文静
陈志远
黄文锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING WISHARE INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710269887.8A priority Critical patent/CN107169423B/zh
Publication of CN107169423A publication Critical patent/CN107169423A/zh
Application granted granted Critical
Publication of CN107169423B publication Critical patent/CN107169423B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Abstract

本发明公开了一种视频人物运动类型识别方法,该方法使用三维人体运动捕获中的信息,结合对应的二维视频捕获的运动数据,产生两组相对应的运动状态序列,建立一个概率模型,可以用于分析在视频数据中,即使用普通网络摄像机拍摄的常规二维视频中捕获的人物运动数据,通过对应关系计算其代表的最有可能的三维运动状态,进行视频中人物运动的识别。由于三维数据在精度与对人物关节运动的分析上所具有的优势,所以本发明采用二维与三维数据混合的方式来提高分析的精确度与效率。

Description

一种视频人物运动类型识别方法
技术领域
本发明涉及一种二维视频中的人物运动类型分析方法,属于计算机技术、数据挖掘、人物识别、运动分析交叉技术应用领域。
背景技术
随着计算机性能的提高、存储介质价格的下降以及网络带宽的提升,图片和视频等大体积文件的分享变得越来越普遍,在传输和存储之外,对于这类数据本身内容的分析也逐渐体现出其重要作用。例如对视频数据中的人物运动进行识别在游戏、监控以及一些需要人机交互的领域都有广泛的应用,而由于人物运动本身的复杂性,很多场景下可能要考虑到添加新的运动类别,同时也意味着添加新的训练数据。在这种情况下,机器学习的方法在进行训练所需的时间和识别的精确度就将成为其重要的性能参数。
通过运动不同状态之间的转移概率计算下一个动作所对应的最可能的状态,是人物运动分析方法中最为普遍的方法之一。该类基于概率的方法可以应用于计算机视觉的很多方面,包括人物的面部识别、手势识别以至后来更为广泛的人物运动识别。在人物运动分析所需的数据方面,通过相机进行特征提取可以方便的获得基于视频的人物运动,但容易受到嘈杂的环境和变化的光照所干扰,相比之下,三维运动捕获的数据具有语义特征,能通过无监督学习的方式更精确地将捕获到的数据分类成不同的人物行为。所指无监督学习,即不事先对样本集进行分类标记,让计算机自行学习如何去做。
所以,如何利用三维捕获的运动数据与同类运动的二维视频提取数据相混合,提高运动状态的区分度,是有待解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于知识的使用混合数据建立人物运动分析模型的方法,通过将三维捕获的运动数据与同类运动的二维视频提取数据相混合,作为所需的基础数据构建隐藏状态序列,提高人物运动分析的准确性与训练数据的效率。
本发明为解决上述技术问题采用以下技术方案:
本发明提出一种视频人物运动类型识别方法,包括以下步骤:
步骤1)通过人体上安装的监视器采集三维坐标系下的人物运动数据,包括人体各部位在三维空间的位置、运动速度、运动方向;再采集同类运动在二维视频中的人物运动数据,包括人物的位置、运动速度、运动方向所对应的二维向量;然后对三维运动数据进行下采样产生新的数据序列,使该数据序列对应的时刻与二维视频运动数据相匹配;
步骤2)将一组三维运动数据与Tr组同类运动的二维视频数据进行1:Tr映射,生成Tr组高维混合数据,Tr为选取的对应同类三维运动的训练视频数;对于所获高维混合数据进行降维处理,获得构建概率模型所需的隐藏状态序列,将原二维视频数据进行降维处理得到与隐藏状态序列1:1映射的观察状态序列;
步骤3)通过步骤2)获得的观察状态序列和隐藏状态序列计算两者之间的关联,以及在不同状态之间的转移概率,建立一个概率模型,确定模型参数λ=(A,B,π),其中π、A、B分别是初始状态概率、状态转移概率和观察标记的概率;
步骤4)在获得一个新的二维视频数据的观察状态序列时,使用已确定的参数π、A、B,计算出在该观察状态序列下最可能的隐藏状态序列,即通过二维视频数据分析对应的三维运动状态。
进一步的,本发明的视频人物运动类型识别方法,步骤1)具体如下:
步骤11)对于采集的三维坐标系下的人物运动数据,选取有代表性的特征,获取人体Z个部位的三维运动数据,以及在三维空间的平移和旋转,构成一个Z×6的矩阵;通过SVD方法提取5个特征值,降低该矩阵的维度,得到一个五维的数据矩阵来达成对三维运动的描述,将该数据序列表示为其含义为:数据序列的形式是一个5×h的矩阵,其中h表示序列长度即帧数,表示第i帧中的三维运动数据,是一个5维列向量;
步骤12)对于采集的二维视频中的人物运动数据,采集其中人物的位置、运动速度和运动方向在二维平面XY两个方向上的数值,构成所需的6维数据矩阵;将数据定义为 vfi表示第i个视频数据序列,Ti为该序列长度,表示第i个视频数据序列第j帧的数据;
步骤13)对三维运动数据进行下采样,使数据序列对应的时刻与视频数据相匹配,所述的下采样,即对于一个样值序列间隔几个样值取样一次,产生新的样值序列。
进一步的,本发明的视频人物运动类型识别方法,步骤11)所指的SVD为奇异值分解,对于待分解的矩阵A,通过SVD方法提取5个特征值的具体步骤如下:
步骤a)计算矩阵B=ATA;
步骤b)初始化特征向量矩阵VA为6×6的单位矩阵,其中单位矩阵是指主对角线上元素全为1,其余元素为0的矩阵;
步骤c)在矩阵B中找到除主对角线外绝对值最大的元素brc,其中brc是指矩阵B中第r行第c列的元素,根据公式求得计算矩阵T,矩阵T是一个旋转矩阵,其中余下元素中主对角线元素为1,非对角线元素为0;
步骤d)迭代计算B←TTBT,VA←TVA,若此时B中除主对角线上的元素外绝对值最大的元素大于阈值,则返回步骤c)继续迭代,否则此时B中主对角元素就是矩阵ATA的特征值,对应列的矩阵VA中的列向量就是对应的特征向量,将特征值按绝对值大小依次排列,记为λ12,…,λ6,对应的特征向量为s1,s2…s6
步骤e)选取绝对值最大的五个特征值作为所需的三维运动数据,即λ12,…,λ5
进一步的,本发明的视频人物运动类型识别方法,步骤2)具体步骤如下:
步骤21)将一组三维运动数据与Tr组同类运动的视频数据进行1:Tr映射,生成Tr组高维的混合运动特征数据序列,取min(h,Ti)作为序列长度,将其定义为hfi,i∈[1,Tr],所述Tr为选取的对应同类三维运动的训练视频数;
步骤22)将产生的高维混合运动特征数据序列hfi转化为一维状态序列在第j帧用一个状态q标记hfi中对应的11维特征向量,记作将高维的混合运动特征序列量化成k个不同状态{q1q2q3q4q5…qk},对应其中一种状态,11维混合矩阵hfi即表示为一维状态序列作为隐藏状态序列;
步骤23)根据步骤22)的方法,将原二维视频数据序列中的6维特征数据序列转化为一维状态序列Oi,作为观察状态序列,与进行1:1映射。
进一步的,本发明的视频人物运动类型识别方法,步骤22)中将高维的混合运动特征序列量化成k个不同状态{q1q2q3q4q5…qk},具体量化方法为:
步骤a)在对应的11维空间随机选取k个点作为中心,初始的代表一个簇;
步骤b)对于每一个中心,选择空间中剩余的与其最近的一个状态点赋给这个簇,并将中心的位置更新为中心与该点的中点;
步骤c)一次迭代结束之后,计算k个中心点当前位置与迭代前位置的距离,若大于预设阈值,则返回步骤b)进行迭代,否则认为结果收敛,结束迭代;
步骤d)此时的k个中心即所求的k种不同状态,将选取距离最近的中心点作为其所属的簇,使用对应的q标记其状态,最终生成隐藏状态序列
进一步的,本发明的视频人物运动类型识别方法,步骤3)的具体计算方法为:
步骤31)对于Tr个训练视频,选取所有的第一帧数据计算第α个状态出现的频率,记为πα的值,用以作为隐藏状态为qα的初始概率:
步骤32)将从状态α到状态β的转移概率记为aαβ,其含义是统计以第α个状态为当前状态向下一状态转移时出现第β个状态的频率,计算方法为选取Tr个视频训练集中从状态qα转移到qβ的次数,对Tr个视频训练集中从状态qα向其他所有标记转移的次数求商,记为A的值:
步骤33)将观察状态Oγ到隐藏状态qβ的转移概率记为Bγβ,其含义是观察状态为Oγ而隐藏状态为qβ的概率,计算方法为,统计在Tr个视频训练集与一个三维运动捕获数据的Tr个对应关系(Tr:1)中,将隐藏状态为qβ而观察状态为Oγ的次数对隐藏状态为qβ而观察状态为Oi中所有状态的次数取商,记为B:
进一步的,本发明的视频人物运动类型识别方法,步骤4)的具体计算过程如下:
步骤41)记获得的观察状态序列为δ=δ1δ2δ3…δi…δm
步骤42)在第一帧时,观察状态为δ1的情况下对应的隐藏状态为qβ的概率为其中π(β)为初始隐藏状态是qβ的概率,为观察状态δ1到隐藏状态qβ的转移概率;
步骤43)第t帧时,已知观察状态为δt,对应的隐藏状态为qβ的概率记为其中Pt-1(α)为t-1帧时隐藏状态为qα的概率,Aαβ为隐藏状态qα到qβ的转移概率,为观察状态δt到隐藏状态qβ的转移概率,t>1,qα取{q1q2q3q4q5…qk}中任意状态使最大时即为所求概率Pt(β);
步骤44)通过初始时刻的P1(β)和t>1时Pt(β)的计算方式,递推每一帧时已知观察状态对应的各个隐藏状态的概率,选择概率最大的隐藏状态作为该帧的运动状态。
进一步的,本发明的视频人物运动类型识别方法,步骤11)中的Z个部位包括躯干、右手、左手、右腿、左腿这五个部位。
进一步的,本发明的视频人物运动类型识别方法,k的取值在10-50之间,作为最优选的,k=30。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出的方法将三维数据与二维数据混合成的数据建立隐藏状态序列,提升了识别的效率和精确度;具体来说:1)通过采用混合数据构建隐藏状态序列,可以用来直接计算建立模型所需的未知参数,提高了训练学习的效率。2)使用了三维捕获的运动数据,利用其语义丰富和受干扰较少的特点,提高了运动识别的准确性。3)能为每一类运动建立相应的模型,提高运动状态的区分度。
附图说明
图1是本发明的视频中人物运动识别方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,本发明提出一种视频人物运动类型识别方法,主要利用三维运动数据与二维视频运动数据的混合来建立状态序列,包括以下主要步骤:
步骤1)通过人体上安装的监视器采集三维坐标系下的人物运动数据,包括人体各部位在三维空间的位置、运动速度、运动方向;再采集同类运动在二维视频中的人物运动数据,包括人物的位置、运动速度、运动方向所对应的二维向量;然后对三维运动数据进行下采样产生新的数据序列,使该数据序列对应的时刻与二维视频运动数据相匹配;
步骤2)将一组三维运动数据与Tr组同类运动的二维视频数据进行1:Tr映射,生成Tr组高维混合数据,Tr为选取的对应同类三维运动的训练视频数;对于所获高维混合数据进行降维处理,获得构建概率模型所需的隐藏状态序列,将原二维视频数据进行降维处理得到与隐藏状态序列1:1映射的观察状态序列;
步骤3)通过步骤2)获得的观察状态序列和隐藏状态序列计算两者之间的关联,以及在不同状态之间的转移概率,建立一个概率模型,确定模型参数λ=(A,B,π),其中π、A、B分别是初始状态概率、状态转移概率和观察标记的概率;
步骤4)在获得一个新的二维视频数据的观察状态序列时,使用已确定的参数π、A、B,计算出在该观察状态序列下最可能的隐藏状态序列,即通过二维视频数据分析对应的三维运动状态。
以下进一步详细描述各步骤的实施方式:
步骤1)通过人体上安装的监视器采集人物在运动中的数据,即人体各部位在三维空间的位置、运动速度、运动方向,再采集同类运动在二维视频中的数据,包括人物位置、速度、运动方向所对应的二维向量,具体步骤如下:
步骤11)对于采集的三维数据,选取有代表性的特征,如躯干、右手、左手、右腿、左腿这五个部位的三维运动数据,包括在三维空间的平移和旋转,构成一个5×6的矩阵。通过SVD方法提取5个特征值,降低该矩阵的维度,得到一个五维的数据矩阵来达成对三维运动的描述,将该数据序列表示为其含义为:数据序列的形式是一个5×h的矩阵,其中h表示序列长度即帧数,表示第i帧中的三维运动数据,是一个5维列向量。
其中所指的SVD为奇异值分解,对于待分解的矩阵A,其具体步骤如下:
步骤111)计算矩阵B=ATA。
步骤112)初始化特征向量矩阵VA为6×6的单位矩阵。其中单位矩阵是指主对角线上元素全为1,其余元素为0的矩阵。
步骤113)在矩阵B中找到除主对角线外绝对值最大的元素brc,其中brc是指矩阵B中第r行第c列的元素,根据公式求得计算矩阵T。矩阵T是一个旋转矩阵,其中余下元素中主对角线元素为1,非对角线元素为0。
步骤114)迭代计算B←TTBT,VA←TVA,若此时B中除主对角线上的元素外绝对值最大的元素大于某个阈值(此处设为0.1),则返回步骤113)继续迭代,否则此时B中主对角元素就是矩阵ATA的特征值,对应列的矩阵VA中的列向量就是对应的特征向量。将特征值按绝对值大小依次排列,记为λ12,…,λ6,对应的特征向量为s1,s2…s6
步骤115)选取绝对值最大的五个特征值作为所需的三维运动数据,即λ12,…,λ5
步骤12)对于采集的二维视频数据,采集其中人物的位置、运动速度和运动方向在二维平面XY两个方向上的数值,构成所需的6维数据矩阵。将数据定义为 vfi表示第i个视频数据序列,Ti为该序列长度,表示第i个视频数据序列第j帧的数据。
步骤13)对三维数据进行下采样,使数据序列对应的时刻与视频数据相匹配。所述的下采样,即对于一个样值序列间隔几个样值取样一次,产生新的样值序列。
步骤2)对于所获高维数据,将其降维,获得构建概率模型所需的低维状态序列便于计算,具体步骤如下:
步骤21)将一组三维运动数据与Tr组同类运动的视频数据进行1:Tr映射,生成Tr组高维的混合运动特征数据序列,取min(h,Ti)作为序列长度,将其定义为hfi,i∈[1,Tr]。所述Tr为选取的对应同类三维运动的训练视频数。
步骤22)将产生的高维混合数据序列hfi转化为一维状态序列在时间t(或第j帧),用一个状态q标记hfi中对应的11维特征向量,记作将高维的混合运动特征序列量化成k个不同状态{q1q2q3q4q5…qk},对应其中一种状态,11维混合矩阵hfi即表示为一维状态序列具体量化方法为:
步骤221)在对应的11维空间随机选取k个点作为中心,初始的代表一个簇。
步骤222)对于每一个中心,选择空间中剩余的与其最近的一个状态点赋给这个簇,并将中心的位置更新为中心与该点的中点。
步骤223)一次迭代结束之后,计算k个中心点当前位置与迭代前位置的距离,大于某个阈值,则返回步骤222)进行迭代。否则认为结果收敛,结束迭代。将该阈值设定为中心点上一次迭代前后距离的0.1倍,第一次迭代过程中的初始阈值为0。
步骤224)此时的k个中心即所求的k中不同状态。将选取距离最近的中心点作为其所属的簇,使用对应的q标记其状态。最终生成隐藏状态序列
步骤23)采取步骤22中相同的算法,将原二维视频数据序列中的6维特征数据序列转化为一维状态序列Oi,作为观察状态序列,与进行1:1映射。
步骤3)通过给定的观察序列和隐藏序列计算两者之间的关联以及在不同状态之间的转移概率,建立一个概率模型,确定模型参数λ=(A,B,π),其中π,A,B分别是初始状态概率、状态转移概率和观察标记的概率。其具体计算方法为:
步骤31)对于Tr个训练视频,选取所有的第一帧数据计算第α个状态出现的频率,记为πα的值,用以作为隐藏状态为qα的初始概率:
步骤32)将从状态α到状态β的转移概率记为aαβ,其含义是统计以第α个状态为当前状态向下一状态转移时出现第β个状态的频率。计算方法为选取Tr个视频训练集中从状态qα转移到qβ的次数,对Tr个视频训练集中从状态qα向其他所有标记转移的次数求商,记为A的值:
步骤33)将观察状态Oγ到隐藏状态qβ的转移概率记为Bγβ,其含义是观察状态为Oγ而隐藏状态为qβ的概率。计算方法为,统计在Tr个视频训练集与一个三维运动捕获数据的Tr个对应关系(Tr:1)中,将隐藏状态为qβ而观察状态为Oγ的次数对观察状态为qβ观察状态为Oi中所有状态的次数取商,记为B:
步骤4)在获得一个新的视频数据的观察状态序列时,使用已确定的参数π、A、B,计算出在该观察状态序列下最可能的隐藏状态序列,即通过视频分析对应的三维运动状态。具体计算过程如下:
步骤41)记获得的观察状态序列为δ=δ1δ2δ3…δi…δm,含义与上述Oi相同。
步骤42)在第一帧时,观察状态为δ1的情况下对应的隐藏状态为qβ(其含义在步骤22)中已述)的概率为其中π(β)为初始隐藏状态是qβ的概率,为观察状态δ1到隐藏状态qβ的转移概率(如步骤33)所述)。
步骤43)第t帧时(t>1),已知观察状态为δt,对应的隐藏状态为qβ的概率记为其中Pt-1(α)为t-1帧时隐藏状态为qα的概率,Aαβ为隐藏状态qα到qβ的转移概率(步骤32)中所述),为观察状态δt到隐藏状态qβ的转移概率。qα取{q1q2q3q4q5…qk}中任意状态使Pt-1(α)×Aαβ×Bδtβ最大即为所求概率Pt(β)。
步骤44)通过初始时刻的P1(β)和t>1时Pt(β)的计算方式,递推每一帧时已知观察状态对应的各个隐藏状态的概率,选择概率最大的隐藏状态作为该帧的运动状态。
以下对本发明的步骤流程中的进一步重点说明:
本发明通过安装在人体各个部位的监视器捕获人物在三维空间的运动数据,选取有代表性的部位之后通过SVD分解提取出5个奇异值作为某一帧下人物的运动特征值,表示为一个5维列向量其中i代表第i帧。以每帧为一个五维列向量,将总共h帧的运动数据作为h列合并表示成一个5×h的矩阵形式即可得到三维的运动数据序列。
选取Tr个与上述三维运动同类别的二维运动视频,以第i个视频为例,采集其中第j帧的人物位置、运动速度和运动方向在XY两个方向上的分量,以一个六维列向量的方式表示,由于该视频共Ti帧,将Ti个六维列向量依次排列成一个6×Ti的矩阵 便是所需的二维视频运动数据。
由于获取的三维数据和视频数据的帧率不同,对三维数据进行下采样,使数据序列对应的时刻与视频数据相匹配。例如捕获的三维运动数据的帧率是120fps,而二维视频中提取特征的帧率是30fps,为对齐两组数据,选择m=4(n-1)+1,如与(vf1,vf2,vf3,…,vfn)之间便能1∶1映射,即
将下采样后所获的5×h的三维运动数据与每组6×Ti的二维运动数据混合,即将对应列相连接,生成Tr组高维的混合运动特征数据序列,表示成11×min(h,Ti)的矩阵形式,取min(h,Ti)作为序列长度,将其定义为hfi,i∈[1,Tr]。
由于所获数据维度过高在表达运动状态时并不方便,选择将其降维转化成一维的状态序列便于用于计算。在时间t(或第j帧),hfi中对应的11维特征向量可以用一个状态q标记,记作通过将高维的混合运动特征序列量化成k个不同状态{q1q2q3q4q5…qk},原11维混合矩阵即可表示为一维的状态序列对应其中一种状态。具体的量化方法是随意选择k个11维的点作为中心点,将高维混合数据中每一个11维的列向量以点的形式放入同一个11维坐标系,每个点选择k个中心点中最近的一个合并,并取两者中点的坐标更新该中心点的位置,直至空间中只剩这k个中心点。而后以当前的k个中心点再次带入混合数据进行迭代直至两次迭代之间k个中心点的坐标变化小于某一预设的阈值,即可认为结果收敛,而这k个中心点的坐标在转化为k个11维列向量之后便是所需的k种不同的量化状态。考虑到迭代是一个变化的过程,由于数据的随机性,所以取中心点上一次迭代前后距离的0.1倍,以这一动态值作为设定的阈值,因第一次迭代前中心点并没有发生过位置变化,所以设初始阈值为0。对于高维混合运动数据中每一列11维向量,选择最接近的量化状态来表示,这样原数据hfi便可以表示为一组一维状态序列作为隐藏状态序列,序列中每种状态只能取{q1q2q3q4q5…qk}中的一个值来表示。
k的取值在10-50之间,但当k>30时会导致状态间区分度不够,以致最终生成的模型进行运动识别的精确度降低,所以设为k=30较为合适。
采取相同的算法,将原二维视频数据序列中的6维特征数据序列转化为一维状态序列Oi,作为观察状态序列,与1:1映射。
通过已知的观察序列和隐藏序列计算两者之间的关联以及在不同状态之间的转移概率,建立一个概率模型,确定模型参数λ=(A,B,π),其中π、A、B分别是初始状态概率、状态转移概率和观察标记的概率。其具体计算方法为:
对于Tr个训练视频,选取所有的第一帧数据计算第α个状态出现的频率,记为πα的值,用以作为隐藏状态为qa的初始概率:
对于隐藏状态间的转移,将从状态α到状态β的转移概率记为Aαβ,其含义是统计以第α个状态为当前状态向下一状态转移时出现第β个状态的频率。计算方法为选取Tr个视频训练集中从状态qα转移到qβ的次数,对Tr个视频训练集中从状态qα向其他所有标记转移的次数求商,记为A的值:
计算隐藏状态为qβ而观察状态为Oγ的概率Bγβ的方法为,统计在Tr个视频训练集与一个三维运动捕获数据的Tr个对应关系(Tr:1)中,将隐藏状态为qβ而观察状态为Oγ的次数对观察状态为qβ观察状态为Oi中所有状态的次数取商,记为Bγβ
参数π、A、B的确定,可在获得一个新的视频数据的观察状态序列δ=δ1δ2δ3…δi…δm时(含义参考之前的状态序列),计算出在该观察状态序列下最可能的隐藏状态序列,即通过视频分析对应的三维运动状态。
首先计算在第一帧时对应的三维运动状态是qβ的概率P1(β),表示为其中π(β)为初始隐藏状态是qβ的概率,为观察状态δ1到隐藏状态qβ的转移概率(如上计算参数时所述)。
之后计算第t帧时(t>1)三维运动状态是qβ的概率Pt(β),已知t时刻观察状态为δt,则对应的隐藏状态为qβ的概率记为其中Pt-1(α)为t-1帧时隐藏状态为qα的概率,Aαβ为隐藏状态qα到qβ的转移概率,Bδtβ为观察状态δt到隐藏状态qβ的转移概率。qα取{q1q2q3q4q5…qk}中任意状态使Pt-1(α)×Aαβ×Bδtβ最大时即为所求概率Pt(β)。
通过初始时刻的P1(β)和t>1时Pt(β)的计算方式,可以递推出每一帧时已知观察状态对应的各个隐藏状态的概率,根据概率大小比较得出每一时刻最有可能的隐藏状态。针对于现实中多种不同的运动状态,需要为每一种状态都建立相应的概率模型来进行区分。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种视频人物运动类型识别方法,其特征在于,该方法包括以下步骤:
步骤1)通过人体上安装的监视器采集三维坐标系下的人物运动数据,包括人体各部位在三维空间的位置、运动速度、运动方向;再采集同类运动在二维视频中的人物运动数据,包括人物的位置、运动速度、运动方向所对应的二维向量;然后对三维运动数据进行下采样产生新的数据序列,使该数据序列对应的时刻与二维视频运动数据相匹配;
步骤2)将一组三维运动数据与Tr组同类运动的二维视频数据进行1:Tr映射,生成Tr组高维混合数据,Tr为选取的对应同类三维运动的训练视频数;对于所获高维混合数据进行降维处理,获得构建概率模型所需的隐藏状态序列,将原二维视频数据进行降维处理得到与隐藏状态序列1:1映射的观察状态序列;
步骤3)通过步骤2)获得的观察状态序列和隐藏状态序列计算两者之间的关联,以及在不同状态之间的转移概率,建立一个概率模型,确定模型参数λ=(A,B,π),其中π、A、B分别是初始状态概率、状态转移概率和观察标记的概率;
步骤4)在获得一个新的二维视频数据的观察状态序列时,使用已确定的参数π、A、B,计算出在该观察状态序列下最可能的隐藏状态序列,即通过二维视频数据分析对应的三维运动状态。
2.根据权利要求1所述的一种视频人物运动类型识别方法,其特征在于,步骤1)具体如下:
步骤11)对于采集的三维坐标系下的人物运动数据,选取有代表性的特征,获取人体Z个部位的三维运动数据,以及在三维空间的平移和旋转,构成一个Z×6的矩阵;通过SVD方法提取5个特征值,降低该矩阵的维度,得到一个五维的数据矩阵来达成对三维运动的描述,将该数据序列表示为其含义为:数据序列的形式是一个5×h的矩阵,其中h表示序列长度即帧数,表示第i帧中的三维运动数据,是一个5维列向量;
步骤12)对于采集的二维视频中的人物运动数据,采集其中人物的位置、运动速度和运动方向在二维平面XY两个方向上的数值,构成所需的6维数据矩阵;将数据定义为vfi表示第i个视频数据序列,Ti为该序列长度,表示第i个视频数据序列第j帧的数据;
步骤13)对三维运动数据进行下采样,使数据序列对应的时刻与视频数据相匹配,所述的下采样,即对于一个样值序列间隔几个样值取样一次,产生新的样值序列。
3.根据权利要求2所述的一种视频人物运动类型识别方法,其特征在于,步骤11)所指的SVD为奇异值分解,对于待分解的矩阵A,通过SVD方法提取5个特征值的具体步骤如下:
步骤a)计算矩阵B=ATA;
步骤b)初始化特征向量矩阵VA为6×6的单位矩阵,其中单位矩阵是指主对角线上元素全为1,其余元素为0的矩阵;
步骤c)在矩阵B中找到除主对角线外绝对值最大的元素brc,其中brc是指矩阵B中第r行第c列的元素,根据公式求得,计算矩阵T,矩阵T是一个旋转矩阵,其中余下元素中主对角线元素为1,非对角线元素为0;
步骤d)迭代计算B←TTBT,VA←TVA,若此时B中除主对角线上的元素外绝对值最大的元素大于阈值,则返回步骤c)继续迭代,否则此时B中主对角元素就是矩阵ATA的特征值,对应列的矩阵VA中的列向量就是对应的特征向量,将特征值按绝对值大小依次排列,记为λ12,…,λ6,对应的特征向量为s1,s2…s6
步骤e)选取绝对值最大的五个特征值作为所需的三维运动数据,即λ12,…,λ5
4.根据权利要求2所述的一种视频人物运动类型识别方法,其特征在于,步骤2)具体步骤如下:
步骤21)将一组三维运动数据与Tr组同类运动的视频数据进行1:Tr映射,生成Tr组高维的混合运动特征数据序列,取min(h,Ti)作为序列长度,将其定义为hfi,i∈[1,Tr],所述Tr为选取的对应同类三维运动的训练视频数;
步骤22)将产生的高维混合运动特征数据序列hfi转化为一维状态序列在第j帧用一个状态q标记hfi中对应的11维特征向量,记作将高维的混合运动特征序列量化成k个不同状态{q1q2q3q4q5…qk},对应其中一种状态,11维混合矩阵hfi即表示为一维状态序列作为隐藏状态序列;
步骤23)根据步骤22)的方法,将原二维视频数据序列中的6维特征数据序列转化为一维状态序列Oi,作为观察状态序列,与进行1:1映射。
5.根据权利要求4所述的一种视频人物运动类型识别方法,其特征在于,步骤22)中将高维的混合运动特征序列量化成k个不同状态{q1q2q3q4q5…qk},具体量化方法为:
步骤a)在对应的11维空间随机选取k个点作为中心,初始的代表一个簇;
步骤b)对于每一个中心,选择空间中剩余的与其最近的一个状态点赋给这个簇,并将中心的位置更新为中心与该点的中点;
步骤c)一次迭代结束之后,计算k个中心点当前位置与迭代前位置的距离,若大于预设阈值,则返回步骤b)进行迭代,否则认为结果收敛,结束迭代;
步骤d)此时的k个中心即所求的k种不同状态,将选取距离最近的中心点作为其所属的簇,使用对应的q标记其状态,最终生成隐藏状态序列
6.根据权利要求5所述的一种视频人物运动类型识别方法,其特征在于,步骤3)的具体计算方法为:
步骤31)对于Tr个训练视频,选取所有的第一帧数据计算第α个状态出现的频率,记为πα的值,用以作为隐藏状态为qα的初始概率:
步骤32)将从状态α到状态β的转移概率记为aαβ,其含义是统计以第α个状态为当前状态向下一状态转移时出现第β个状态的频率,计算方法为选取Tr个视频训练集中从状态qα转移到qβ的次数,对Tr个视频训练集中从状态qα向其他所有标记转移的次数求商,记为A的值:
步骤33)将观察状态Oγ到隐藏状态qβ的转移概率记为Bγβ,其含义是观察状态为Oγ而隐藏状态为qβ的概率,计算方法为,统计在Tr个视频训练集与一个三维运动捕获数据的Tr个对应关系(Tr:1)中,将隐藏状态为qβ而观察状态为Oγ的次数对隐藏状态为qβ而观察状态为Oi中所有状态的次数取商,记为B:
7.根据权利要求6所述的一种视频人物运动类型识别方法,其特征在于,步骤4)的具体计算过程如下:
步骤41)记获得的观察状态序列为δ=δ1δ2δ3…δi…δm
步骤42)在第一帧时,观察状态为δ1的情况下对应的隐藏状态为qβ的概率为P1(β)=π(β)×Bδ1β,其中π(β)为初始隐藏状态是qβ的概率,Bδ1β为观察状态δ1到隐藏状态qβ的转移概率;
步骤43)第t帧时,已知观察状态为δt,对应的隐藏状态为qβ的概率记为其中Pt-1(α)为t-1帧时隐藏状态为qα的概率,Aαβ为隐藏状态qα到qβ的转移概率,Bδtβ为观察状态δt到隐藏状态qβ的转移概率,t>1,qα取{q1q2q3q4q5…qk}中任意状态使Pt-1(α)×Aαβ×Bδtβ最大时即为所求概率Pt(β);
步骤44)通过初始时刻的P1(β)和t>1时Pt(β)的计算方式,递推每一帧时已知观察状态对应的各个隐藏状态的概率,选择概率最大的隐藏状态作为该帧的运动状态。
8.根据权利要求2所述的一种视频人物运动类型识别方法,其特征在于,步骤11)中的Z个部位包括躯干、右手、左手、右腿、左腿这五个部位。
9.根据权利要求4所述的一种视频人物运动类型识别方法,其特征在于,k的取值在10-50之间。
10.根据权利要求4或9所述的一种视频人物运动类型识别方法,其特征在于,k=30。
CN201710269887.8A 2017-04-24 2017-04-24 一种视频人物运动类型识别方法 Active CN107169423B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710269887.8A CN107169423B (zh) 2017-04-24 2017-04-24 一种视频人物运动类型识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710269887.8A CN107169423B (zh) 2017-04-24 2017-04-24 一种视频人物运动类型识别方法

Publications (2)

Publication Number Publication Date
CN107169423A true CN107169423A (zh) 2017-09-15
CN107169423B CN107169423B (zh) 2020-08-04

Family

ID=59812912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710269887.8A Active CN107169423B (zh) 2017-04-24 2017-04-24 一种视频人物运动类型识别方法

Country Status (1)

Country Link
CN (1) CN107169423B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710836A (zh) * 2018-05-04 2018-10-26 南京邮电大学 一种基于级联特征提取的唇部检测及读取方法
CN109542302A (zh) * 2017-09-20 2019-03-29 达索系统公司 一种显示对象的数字模型化组件的子集的由计算机实施的方法
CN110852247A (zh) * 2019-11-07 2020-02-28 北京云迹科技有限公司 异常检测方法、装置、电子设备及计算机可读存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1352439A (zh) * 2000-11-14 2002-06-05 三星电子株式会社 对象行为建模方法
CN1766929A (zh) * 2004-10-29 2006-05-03 中国科学院计算技术研究所 一种基于三维数据库的运动对象运动重构方法
CN101086681A (zh) * 2006-06-09 2007-12-12 中国科学院自动化研究所 基于立体视觉的游戏控制系统及方法
CN101216896A (zh) * 2008-01-14 2008-07-09 浙江大学 一种基于模版匹配的视点无关的人体动作识别方法
CN101894377A (zh) * 2010-06-07 2010-11-24 中国科学院计算技术研究所 三维标记点序列的跟踪方法及其系统
CN101951502A (zh) * 2010-10-19 2011-01-19 北京硅盾安全技术有限公司 一种三维智能视频监控方法
CN102122391A (zh) * 2010-12-13 2011-07-13 中国人民解放军国防科学技术大学 一种运动捕获数据自动分割方法
CN102426645A (zh) * 2011-08-30 2012-04-25 北京航空航天大学 一种多视角多状态的步态识别方法
CN103164694A (zh) * 2013-02-20 2013-06-19 上海交通大学 一种人体动作识别的方法
CN104573665A (zh) * 2015-01-23 2015-04-29 北京理工大学 一种基于改进维特比算法的连续动作识别方法
CN105136064A (zh) * 2015-09-13 2015-12-09 维希艾信息科技(无锡)有限公司 一种运动目标三维尺寸检测系统及其方法
CN105608479A (zh) * 2016-03-01 2016-05-25 北京正安维视科技股份有限公司 结合深度数据的异常行为检测方法及系统
CN105912999A (zh) * 2016-04-05 2016-08-31 中国民航大学 基于深度信息的人体行为识别方法
CN106056089A (zh) * 2016-06-06 2016-10-26 中国科学院长春光学精密机械与物理研究所 一种三维姿态识别方法及系统
CN106210635A (zh) * 2016-07-18 2016-12-07 四川君逸数码科技股份有限公司 一种智慧金睛识别移动过快报警方法和装置
CN106408659A (zh) * 2016-11-22 2017-02-15 广东技术师范学院 一种人体特征节点三维建模系统及其建模方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1352439A (zh) * 2000-11-14 2002-06-05 三星电子株式会社 对象行为建模方法
CN1766929A (zh) * 2004-10-29 2006-05-03 中国科学院计算技术研究所 一种基于三维数据库的运动对象运动重构方法
CN101086681A (zh) * 2006-06-09 2007-12-12 中国科学院自动化研究所 基于立体视觉的游戏控制系统及方法
CN101216896A (zh) * 2008-01-14 2008-07-09 浙江大学 一种基于模版匹配的视点无关的人体动作识别方法
CN101894377A (zh) * 2010-06-07 2010-11-24 中国科学院计算技术研究所 三维标记点序列的跟踪方法及其系统
CN101951502A (zh) * 2010-10-19 2011-01-19 北京硅盾安全技术有限公司 一种三维智能视频监控方法
CN102122391A (zh) * 2010-12-13 2011-07-13 中国人民解放军国防科学技术大学 一种运动捕获数据自动分割方法
CN102426645A (zh) * 2011-08-30 2012-04-25 北京航空航天大学 一种多视角多状态的步态识别方法
CN103164694A (zh) * 2013-02-20 2013-06-19 上海交通大学 一种人体动作识别的方法
CN104573665A (zh) * 2015-01-23 2015-04-29 北京理工大学 一种基于改进维特比算法的连续动作识别方法
CN105136064A (zh) * 2015-09-13 2015-12-09 维希艾信息科技(无锡)有限公司 一种运动目标三维尺寸检测系统及其方法
CN105608479A (zh) * 2016-03-01 2016-05-25 北京正安维视科技股份有限公司 结合深度数据的异常行为检测方法及系统
CN105912999A (zh) * 2016-04-05 2016-08-31 中国民航大学 基于深度信息的人体行为识别方法
CN106056089A (zh) * 2016-06-06 2016-10-26 中国科学院长春光学精密机械与物理研究所 一种三维姿态识别方法及系统
CN106210635A (zh) * 2016-07-18 2016-12-07 四川君逸数码科技股份有限公司 一种智慧金睛识别移动过快报警方法和装置
CN106408659A (zh) * 2016-11-22 2017-02-15 广东技术师范学院 一种人体特征节点三维建模系统及其建模方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109542302A (zh) * 2017-09-20 2019-03-29 达索系统公司 一种显示对象的数字模型化组件的子集的由计算机实施的方法
CN109542302B (zh) * 2017-09-20 2024-03-19 达索系统公司 一种显示对象的数字模型化组件的子集的由计算机实施的方法
CN108710836A (zh) * 2018-05-04 2018-10-26 南京邮电大学 一种基于级联特征提取的唇部检测及读取方法
CN108710836B (zh) * 2018-05-04 2020-10-09 南京邮电大学 一种基于级联特征提取的唇部检测及读取方法
CN110852247A (zh) * 2019-11-07 2020-02-28 北京云迹科技有限公司 异常检测方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN107169423B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN108932500B (zh) 一种基于深度神经网络的动态手势识别方法及系统
CN110097639B (zh) 一种三维人体姿态估计方法
CN109886167A (zh) 一种遮挡人脸识别方法及装置
CN109191491A (zh) 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统
CN100543775C (zh) 基于多目相机的三维人体运动跟踪的方法
CN108052884A (zh) 一种基于改进残差神经网络的手势识别方法
CN106778604A (zh) 基于匹配卷积神经网络的行人再识别方法
CN106203356B (zh) 一种基于卷积网络特征提取的人脸识别方法
CN105975931A (zh) 一种基于多尺度池化的卷积神经网络人脸识别方法
CN106909887A (zh) 一种基于cnn和svm的动作识别方法
CN104731307B (zh) 一种体感动作识别方法及人机交互装置
CN107169423A (zh) 一种视频人物运动类型识别方法
CN109902565B (zh) 多特征融合的人体行为识别方法
CN104517100B (zh) 手势预判方法和系统
CN107392131A (zh) 一种基于人体骨骼节点距离的动作识别方法
CN105975934A (zh) 一种用于增强现实辅助维修的动态手势识别方法及系统
CN110378208A (zh) 一种基于深度残差网络的行为识别方法
CN106228109A (zh) 一种基于骨骼运动轨迹的动作识别方法
CN107944459A (zh) 一种rgb‑d物体识别方法
CN105912991A (zh) 基于3d点云与关键骨骼节点的行为识别
CN1996347A (zh) 一种基于书法图像的可视化重现方法
CN107316005A (zh) 基于稠密轨迹核协方差描述子的行为识别方法
KR101916675B1 (ko) 사용자 인터랙션을 위한 제스처 인식 방법 및 시스템
CN110059593A (zh) 一种基于反馈卷积神经网络的面部表情识别方法
CN107066979A (zh) 一种基于深度信息和多维度卷积神经网络的人体动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170915

Assignee: Hongzhen Technology Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2020980007073

Denomination of invention: A video character motion type recognition method

Granted publication date: 20200804

License type: Common License

Record date: 20201023

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201211

Address after: 609, 6 / F, block a, China Merchants high speed rail Plaza, No. 9 Jiangnan Road, Jiangning District, Nanjing City, Jiangsu Province

Patentee after: NANJING WISHARE INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 210023 9 Wen Yuan Road, Ya Dong new town, Nanjing, Jiangsu.

Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Hongzhen Technology Co.,Ltd.

Assignor: NANJING University OF POSTS AND TELECOMMUNICATIONS

Contract record no.: X2020980007073

Date of cancellation: 20220304