CN108256472A

CN108256472A - 一种视频图像序列分割系统和方法

Info

Publication number: CN108256472A
Application number: CN201810044100.2A
Authority: CN
Inventors: 胡春华; 陈健生; 李天鹏; 李路明
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-07-06

Abstract

本发明提供一种视频图像序列分割系统，包括位置估计器，配置为接收对象的视频图像序列，视频图像序列包括示出对象的不同运动状态的多个连续帧，并且基于深度学习算法确定在视频图像序列的每帧中对象的多个身体关键部位的位置，深度学习算法包括误差迭代反馈算法或部分关联场算法；分类器，配置为根据多个身体关键部位的位置，确定指示每帧中对象的运动状态的类型的参数；以及运动状态分割器，其配置为基于所述参数，分割视频图像序列，以得到对应于对象的每个运动状态的相应帧。该系统能够针对非严格受控环境下采集的视频图像序列进行分割，从而可能用于对象运动能力的远程监测。

Description

一种视频图像序列分割系统和方法

技术领域

本发明涉及视频图像序列分割，尤其涉及在评估对象的行动能力过程中与对象的不同运动状态相对应分割视频图像序列的系统和方法。

背景技术

行动能力监测对于如老年人这样具有高跌倒风险或者患有帕金森病的人群来说是十分有意义的。起立-行走计时(TUG)测试是广泛被接受的、用于评估对象(例如老年人)的行动能力的测试，它通常包括对象从坐在椅子上、起身、向前走、转身、向回走到坐回椅子上的整个过程，具体涉及“坐”、“坐到站”、“走”、“转身”、“走回”和“坐回”这几个不同运动状态的运动阶段。每个运动阶段所持续的时间对于评估对象的行动能力是一项非常有意义的参数。因此，需要在TUG测试中识别对象的不同运动状态并且分别确定它们持续的时间。

当前存在对不同运动状态进行自动识别的四种类型方法。在第一类型方法中，在对象身上附着如惯性测量单元的运动跟踪设备，以直接记录对象的运动。这种方法能够获得相对准确的测试结果，但是对于非专业人员而言，设备的构建和设置困难，需要冗长的计算过程，并且在对象身上附着设备可能导致对象不舒服，尤其是对于行动不便的对象。在第二类型方法中，使用如力传感器和激光测距扫描器这样的环境传感器进行测量并基于测量结果进行运动状态识别，这种方法虽然不需要附着到对象身上的设备，但是安装和校准这些环境传感器对于非专业人员而言仍然是具有挑战性的。

在第三类型方法中，基于视频图像进行运动状态识别，通常首先获得对象的轮廓，然后借助于如高度、宽度和高宽比这样的特征来识别对象的运动状态，这需要在严格受控的环境中获得对象的视频，比如，需要背景一致并且摄像机角度固定，由于视频分析方法的局限，结果不能令人满意。在第四类型方法中，使用深度摄像机来捕获额外的3D信息，这种设备在日常生活中不常见并且对于非专业人员而言不如2D摄像机容易操作和设置。

发明内容

提供一种容易实现并且即使在半受控环境中也能够准确识别对象的不同运动状态的系统和方法是令人期待的。

根据本发明的一个方面，提供一种视频图像序列分割系统，其包括位置估计器，其配置为接收对象的视频图像序列，所述视频图像序列包括示出所述对象的不同运动状态的多个连续帧，并且基于深度学习算法确定在所述视频图像序列的每帧中所述对象的多个身体关键部位的位置，所述深度学习算法包括误差迭代反馈算法和部分关联场算法；分类器，其配置为根据所述多个身体关键部位的位置，确定指示每帧中所述对象的运动状态的类型的参数；以及运动状态分割器，其配置为基于所述参数，分割所述视频图像序列，以得到对应于所述对象的每个运动状态的相应帧。

根据本发明的另一方面，提供一种视频图像序列分割方法，其包括接收对象的视频图像序列，所述视频图像序列包括示出所述对象的不同运动状态的多个连续帧；基于深度学习算法确定在所述视频图像序列的每帧中所述对象的多个身体关键部位的位置，所述深度学习算法包括误差迭代反馈算法和部分关联场算法；根据所述多个身体关键部位的位置，确定指示每帧中所述对象的运动状态的类型的参数；以及基于所述参数，分割所述视频图像序列，以得到对应于所述对象的每个运动状态的相应帧。

根据本发明的再一方面，提供一种数字存储介质，其编码有被配置为当运行时执行根据本发明上述视频图像序列分割方法的指令。

根据本发明的再一方面，提供一种图像处理系统，包括存储器，和处理器，其配置为执行根据本发明上述视频图像序列分割方法的各个步骤。

根据本发明，使用包括误差迭代反馈算法和部分关联场算法的深度学习算法确定每帧视频图像中对象的多个身体关键部位的位置，然后基于这些身体关键部位的位置，使用经过机器学习训练的分类器确定指示每帧图像中对象的运动状态的类型的参数，从而能够基于该参数准确地实现对视频图像针对不同运动状态的分割。由于根据本发明的系统和方法使用了误差迭代反馈算法或部分关联场算法这样的深度学习算法来确定对象的多个身体关键部位的位置，因此，实现视频图像序列分割所需要的仅仅是普通的2D视频图像，并且，即使在背景变化的视频图像中依然能够准确地确定对象的身体关键部位的位置，另外，由于使用了机器学习算法，避免了人工设定分类标准，从数据中自动学习统计意义上较优的分类策略，整个过程是自动的，并且能够获得更准确的分类结果。因此，使用根据本发明的系统和方法仅仅需要使用惯常的2D摄像机并且不需要在严格受控的环境中对对象的测试过程进行拍摄，这对非专业人员而言是更加容易操作和设置的，从而便于受试者的自我测试以及医生或者护理提供者对受试者的远程行动能力监测。

在本发明的一个实施例中，所述深度学习算法是误差迭代反馈算法，所述系统还包括帧处理器，其配置为接收所述视频图像序列中的每帧，确定每帧中所述对象的身体区域，其中，所述位置估计器接收针对每帧确定的身体区域，并根据针对每帧确定的所述身体区域确定每帧中所述对象的多个身体关键部位的位置。这在非严格受控的环境中进行测试时能够去除各帧图像中的干扰，例如出现在图像中的其他人。

在根据本发明的另一个实施例中，视频图像序列分割系统还包括数据处理器，其配置为对确定的所述多个身体关键部位的位置进行归一化；其中，所述分类器根据经归一化的所述多个身体关键部位的位置确定指示每帧中所述对象的运动状态的类型的参数。优选地，能够使用颈部和左臀或右臀之间的距离来执行归一化。通过该归一化操作，能够消除由于拍摄距离不同导致的每帧图像中对象大小不同所引起的各个关键部位位置的变化。

在根据本发明的另一个实施例中，所述分类器是基于支持向量机(SVM)的分类器或者是基于长短期记忆网络(LSTM)的分类器。

在根据本发明的另一个实施例中，视频图像序列分割系统还包括数据处理器，其配置为确定当前帧中所述对象的多个身体关键部位的第一位置，确定所述当前帧之前和之后的第一数量帧中的每帧中所述对象的多个身体关键部位的第二位置，并且根据针对所述当前帧的所述第一位置和针对所述当前帧之前和之后的所述第一数量帧中的每帧的所述第二位置，生成针对所述当前帧的所述对象的多个身体关键部位的位置序列；其中，所述分类器根据所述当前帧的所述多个身体关键部位的位置序列确定指示所述当前帧中所述对象的运动状态的类型的参数。通过针对每帧图像考虑其之前和之后的各个帧确定其用于分类的特征，方便考虑相邻帧所提供的时间信息，进而能够根据当前帧与其他帧的关系，确定当前帧所属的运动状态。例如更接近属于坐这个运动状态的帧倾向于也属于坐这个状态。这使得能够更加准确的确定相邻帧所属的运动状态。

在根据本发明的另一个实施例中，所述数据处理器以如下方式生成针对所述当前帧的所述对象的多个身体关键部位的位置，Yⁱ＝{X^i-4r，X^i-3r，……，X^i+3r，X^i+4r}，其中，Xⁱ表示在第i帧中的所述多个身体关键部位的位置；Yⁱ表示针对当前的第i帧生成的所述多个身体关键部位的位置；r表示任意非负整数。

在根据本发明的另一个实施例中，基于视频图像序列中帧的总数量和视频图像序列的帧频来确定r。通过使用r值，使得能够针对在测试中行进速度不同的患者，选择不同的r值，以此来平衡患者的行进速度不同可能对分类特征带来的不利影响，从而提高分类准确度。

在根据本发明的另一个实施例中，数据处理器还被配置为确定所述当前帧中所述对象的躯干上任意两个不同的身体关键部位之间的距离，并且使用所述距离对所述第一位置和所述第二位置分别进行归一化。在根据本发明的该实施例中，使用当前帧中躯干上的任意两个不同身体关键部位之间的距离对位置序列中的第一位置和第二位置中的每个进行归一化，而不管该第一和第二位置是针对哪一帧图像。

在根据本发明的另一个实施例中，视频图像序列分割系统还包括训练器，其配置为确定与训练样本中所述对象的每个运动状态发生的频率成反比的权重因子，并且基于所述权重因子来训练基于SVM的分类器。以这样的方式训练分类器，能够防止基于SVM的分类器倾向于判断某一帧属于在训练样本中频繁出现的运动状态类别，从而提高准确性。

在根据本发明的另一个实施例中，视频图像序列分割系统还包括数据处理器，其配置为确定所述视频图像序列中按照时间顺序的第一帧中的所述多个身体关键部位的位置中的至少一个身体关键部位的位置，确定所述视频图像序列中当前帧中的所述多个身体关键部位中的所述至少一个身体关键部位的相应位置，基于所述第一帧中所述至少一个身体关键部位的位置和所述当前帧中所述至少一个身体关键部位的相应位置确定在所述第一帧和所述当前帧中的对应位置之间的第一欧几里德距离，并且确定所述当前帧中的所述多个身体关键部位中关于所述对象的纵轴对称的两个身体关键部位之间的第二欧几里德距离；其中，所述分类器根据所述当前帧中的所述多个身体关键部位的位置、所述第一欧几里德距离和所述第二欧几里德距离确定指示所述当前帧中所述对象的运动状态的类型的参数。

在根据本发明的另一个实施例中，所述至少一个身体关键部位包括左脚踝和右脚踝，并且在所述第一帧和所述当前帧中的对应位置是在所述第一帧和所述当前帧中的所述左脚踝和所述右脚踝之间的中点，其中，所述数据处理器还配置为对所述第一欧几里德距离进行归一化，并且对所述第二欧几里德距离进行归一化；其中，所述分类器根据所述当前帧中的所述多个身体关键部位的位置、经归一化的所述第一欧几里德距离和经归一化的所述第二欧几里德距离确定指示所述当前帧中所述对象的运动状态的类型的参数。通过确定并对上述第一和第二欧几里德距离进行归一化，能够使用基于LSTM的分类器对各个帧进行准确的运动状态分类。

在根据本发明的另一个实施例中，其中，所述至少一个身体关键部位包括颈部和右臀部，并且使用所述当前帧中所述颈部和右臀部之间的距离对所述第二欧几里德距离进行归一化。颈部和臀部的距离在对象运动过程中变化不大，且距离比较长，因此，在用于归一化时误差更小。

在根据本发明的另一个实施例中，视频图像序列分割系统还包括训练器，其配置为针对将某一训练样本错误地确定为属于与其真实运动状态不相邻的运动状态的情况确定惩罚因子，确定与所述训练样本中所述对象的每个运动状态发生的频率成反比的权重因子，并且基于所述惩罚因子和所述权重因子来训练所述基于LSTM的分类器。

在根据本发明的另一个实施例中，所述运动状态分割器通过使用动态时间规整分割所述视频图像序列。

附图说明

图1示出了通常TUG测试过程中对象的运动状态转换；

图2示出了根据本发明一个优选实施例的视频图像序列分割系统100；

图3示出了根据本发明的一个优选实施例使用视频图像序列分割系统进行的视频图像序列分割流程；

图4(a)和4(b)分别示出了根据本发明的一个优选实施例确定的表征全局时间特征的量f₁ ⁱ和f₂ ⁱ；

图5示出了根据本发明的一个优选实施例的视频图像序列分割方法的具体流程图；和

图6示出了根据本发明一个优选实施例的数据处理方法的流程图。

参照上述附图来描述本发明的各个方面和特征。通常采用相同或相似的附图标号来表示相同的部件。上述附图仅仅是示意性的，而非限制性的。在不脱离本发明的主旨的情况下，在上述附图中各个单元的尺寸、形状、标号、或者外观可以发生变化，而不被限制到仅仅说明书附图所示出的那样。

具体实施方式

以下参照TUG测试说明本发明的具体实施方式，但是本领域技术人员应当理解，这不是限制性的，本发明的视频图像序列分割系统和方法能够用于需要关于对象的不同运动状态对视频图像进行分割的任何场景，尤其是在为了对对象的行动能力进行监测而执行的各类测试过程中。

图1示出了通常的TUG测试过程中对象的运动状态转换。在整个测试中，需要在对象正前方设置摄像机1，从而采集在整个测试过程中对象的视频图像。测试开始时，对象坐在椅子上，然后按照要求顺序执行坐、起身、向前走、转身、向回走和坐下这几个动作，每个动作对应于对象的不同运动状态，当对象坐回椅子时，整个测试结束。图1仅仅是示意性的，通常情况下，对象被要求按照直线行走并且按照原路返回。

在获得了对象的整个测试视频图像之后，为了评估对象的行动能力，确定对象执行每个运动状态所花费的时间是必要的。为此，本发明使用如图2所示的根据一个优选实施例的视频图像序列分割系统100将所采集的视频图像序列自动分割为对应于对象的各个运动状态，从而能够根据与相应运动状态对应的视频图像序列确定对象执行相应运动状态所花费的时间。

如图2所示的视频图像序列分割系统100包括帧处理器101、位置估计器102、数据处理器103、分类器104、运动状态分割器105和训练器106，其中，帧处理器101、数据处理器103和训练器106以虚线示出，以表示它们在视频图像序列分割系统100中是可选的。帧处理器101接收测试视频图像序列S的每帧，并对这些帧进行初步处理，以便之后对这些帧的进一步处理。能够预期帧处理器101顺序接收视频图像序列中的各个帧或者直接接收整个视频图像序列以用于处理。关于帧处理器101的操作能够在下文中结合误差迭代反馈算法进一步说明。

位置估计器102接收经帧处理的各帧图像，或者在不需要帧处理器101的情况下接收视频图像序列，并且基于深度学习算法确定在每帧图像中所述对象的多个身体关键部位的位置(i＝1，2，……，N；K＝1，2，……，M)，该深度学习算法能够是误差迭代反馈算法或者部分关联场算法，其中，i表示每帧图像的编号，K表示要确定的多个身体关键部位的个数。在一个实施例中，位置估计器102针对每帧图像确定颈部的位置左右肩部的位置左右臀部的位置左右膝部的位置和左右脚踝的位置在这种情况下，位置估计器能够针对每帧图像确定一个向量来表示在第i帧图像中这9个身体关键部位的位置。能够预期确定其他个数的身体关键部位的位置，以上仅仅示意性说明了选定9个身体关键部位的情况。

误差迭代反馈算法迭代地校正身体关键部位的位置，在每次迭代中，使用卷积神经网络(CNN)在扩大的输入空间上进行操作来预测使得在上一次迭代中检测到的身体关键部位位置更接近事实的校正，通过使得输入的RGB图像与在上一次迭代中检测到的多个身体关键部位位置的视觉表示相合并来创建该扩大的输入空间；然后将校正应用到检测到的身体关键部位位置以生成当前迭代中新检测到的身体关键部位位置。通常在第一次迭代中，假定多个身体关键部位的位置在输入图像的中心。因此，在误差迭代反馈算法中使得对象保持在每帧图像的中央是必要的，而在非严格受控的环境中，难以保证如此。在这种情况下，使用如上所述的帧处理器是必要的。

在一个优选实施例中，在将原始采集的视频图像序列输入位置估计器102确定各个身体关键部位的位置之前，先将视频图像序列输入帧处理器101以对每帧图像进行处理，从而保证要监测的对象处于每帧图像的中央位置。具体来说，帧处理器101接收视频图像序列中的每帧，确定每帧中对象的身体区域，并且将经确定的身体区域坐标输入位置估计器102用于确定对象的多个身体关键部位的位置。也可以预期帧处理器101对应于所确定的身体区域对每帧进行剪裁，而位置估计器基于剪裁好的每帧图像来确定身体关键部位的位置。在一个实施例中，帧处理器102使用包括基于区域卷积神经网络(RCNN)，快速RCNN(fastRCNN)和超快RCNN(faster RCNN)中的任一算法的深度学习算法确定每帧中对象的身体区域。

部分关联场(part affinity field)算法将RGB图像作为输入，能够检测图像中每个人的身体关键部位的二维位置。在部分关联场算法中，使用深度卷积神经网络联合预测身体部分位置的置信图和一组关于各身体部分相关程度的二维向量场。在部分关联场算法中，卷积神经网络以如下几个阶段而被使用。在第一阶段，使用卷积神经网络从输入RGB图像产生对置信图和关联场的粗略预测；再接下来的阶段中，卷积神经网络根据之前的预测和输入RGB图像一起来产生更精确的预测；最后，使用贪婪推理过程解析置信图和关联场，从而生成图像中每个人的身体关键部位的位置。

由于部分关联场算法能够检测图像中每个人的身体关键部位位置，因此，其能够直接对原始视频图像序列进行处理，即使在视频图像是在非严格受控环境中采集并且包含多个人的情况下也如此。这样，当位置估计器102使用部分关联场算法确定各个身体关键部位的位置时，帧处理器101可以省略。图3示出了根据一个优选实施例的图像分割流程，其中省略了帧处理的步骤，使得直接对视频图像序列执行误差迭代反馈或者部分关联场算法，其中虚线箭头示出的部分是择一性的。本发明的视频图像序列分割系统100能够结合图2和图3被说明。

在位置估计器102中逐帧图像地确定了各个身体关键部位的位置之后，这些位置能够被输入到数据处理器103中进行归一化Nor处理。

如图1所示的摄像机1与对象之间的距离随着对象进行测试的过程从大到小，再从小到大，因此，在视频图像的每帧中对象的大小将会随着该距离而变化，继而对象的身体关键部位的坐标也会受到该距离变化的影响。使用数据处理器103对针对每帧图像确定的身体关键部位的位置坐标进行归一化，从而消除由于对象与摄像机之间的距离变化引起的每帧图像中身体关键部位的位置坐标变化。在一个优选实施例中，针对每帧图像，使用其中的颈部和右臀之间的欧几里德距离来对该帧图像中的多个身体关键部位的位置进行归一化。使用颈部和左臀之间的欧几里德距离也是可以预期的。颈部和左右臀均处于对象的躯干上，它们之间的距离在对象的运动过程中相对稳定，并且距离相对较远，这样在将它们作为归一化的因子时，引入的误差较小。

实际上，在数据处理器103中进行的数据处理可能因为之后要将处理结果输入的分类器不同而不同。视频图像序列分割系统100包括分类器104，其接收数据处理器103的处理结果，并根据经处理的多个身体关键部位的位置，确定指示每帧中对象的运动状态的类型的参数，例如运动状态标志li。所述分类器104是基于机器学习被事先训练的，其可以是基于支持向量机(SVM)算法或者长短期记忆网络(LSTM)算法的分类器。

在一个实施例中，当采用基于SVM的分类器104时，为了更好地区分属于彼此相邻的运动状态的各个帧，可以考虑相邻帧所提供的时间信息，例如，帧A更接近属于起身运动状态的各个帧，那么帧A可以被确定为属于起身运动状态，帧B更接近于包含抬起脚这个动作的帧，那么帧B可以被确定为属于走这个运动状态。

在另一个实施例中，本发明采用了滑动窗口方式来生成向分类器104的输入。这可以在数据处理器103中预先进行处理。

例如，对于第i帧，能够选择其之前和之后的某一数量帧以及该帧中每帧的多个对应的身体关键部位的位置，基于这些帧的身体关键部位的位置来生成针对该帧的分类特征。在一个实施例中，选择第i帧及其周围的共9帧图像上的身体关键部位位置来生成分类特征。具体地，可将针对该帧输入分类器的多个身体关键部位的位置确定为Yⁱ＝{X^i-4r，Xⁱ ^-3r，……，X^i+3r，X^i+4r}，其中，Xⁱ表示在第i帧中的所述多个身体关键部位的位置，Yⁱ表示针对第i帧生成的所述多个身体关键部位的位置序列，r表示任意非负整数，能够基于视频图像序列中帧的总数量N和视频图像序列的帧频来确定r，例如将r设定为对N/(20*FPS)取整所得的结果，其中FPS是视频图像序列中每秒的帧数。在该实施例中，针对在测试中行进速度不同的患者，能够选择不同的r值，以此来平衡患者的行进速度不同可能对分类特征带来的不利影响，从而提高分类准确度。

在进一步优选的实施例中，用于输入SVM分类器的特征可以由如下公式计算：

其中，t＝1，2，……，K；j＝-4，-3……，3，4

根据该优选实施例，用于确定该位置序列的每帧中的每个身体关键部位的位置优选被关于颈部位置居中，然后被关于当前帧(即第i帧)中的颈部和左臀之间的欧几里德距离归一化，以得到针对每帧图像的经归一化的多个身体关键部位的位置的向量表示，最终根据该经归一化的向量基于滑动时间窗口确定针对该帧图像输入分类器的特征基于SVM的分类器104基于该特征确定第i帧的运动状态标志l_i。也可以预期使用当前帧中、对象躯干上任意两个身体关键部位之间的距离来对位置序列Yⁱ中的每帧图像的身体关键部位进行归一化。

基于SVM的分类器104在训练好后倾向于预测训练样本中更加频繁出现的类别。而在TUG测试的整个过程中，各个运动状态所持续的时间以及包含的帧的数量显然是不同的，并且可能存在很大差别，因此，这样训练的分类器可能会不准确。为此，本发明的视频图像序列分割系统100可以包括训练器106，其对分类器进行训练。具体来说，该训练器106在训练过程中能够确定与训练样本中对象的每个运动状态发生的频率成反比的权重因子，将其作为针对该运动状态的权重因子，以基于该权重因子训练基于SVM的分类器104。当前，该训练过程可以在执行实际的视频图像序列分割之前发生，因此，可以从视频图像序列分割系统100中省略该训练器106，并且直接使用已经按照要求训练好的分类器104。

虽然以上关于基于SVM的分类器104介绍了数据处理和分类操作，但是并不代表这些处理，包括使得位置坐标居中、归一化，滑动窗口操作以及训练分类器等，不能用于基于LSTM的分类器104以获得有益效果。

还可以采用基于LSTM的分类器。不同于基于SVM的分类器，基于LSTM的分类器考虑了各个帧图像之间的相关性，并且因此，除了针对每帧图像的身体关键部位的位置向量，或者如上述公式(2)所限定的经居中和归一化处理的每帧图像的身体关键部位的位置向量之外，还引入了两个能够表征全局时间特征的量f₁ ⁱ和f₂ ⁱ。这两个特征量的计算能够在数据处理器103中进行。

f₁ ⁱ表示在第i帧图像上与对象身体相关的任意位置与第1帧图像上对应位置之间的欧几里德距离。在TUG测试中对象被要求沿直线走的情况下，可以预期该欧几里德距离与对象和椅子的距离相关。通常能够设想第1帧图像示出对象坐在椅子上的情形。图4(a)和4(b)关于各个图像帧分别示出了f₁ ⁱ和f₂ ⁱ的曲线。

数据处理器103确定第1帧图像中多个身体关键部位的位置中的至少一个身体关键部位的位置以及第i帧图像中对应的至少一个身体关键部位的位置，基于对应部位的位置确定第一欧几里德距离作为f₁ ⁱ。在一个实施例中，该至少一个身体关键部位能够是左右脚踝，能够将与对象相关的任意位置选择为左右脚踝的中点，因此，数据处理器103针对第1帧和第i帧图像分别确定和然后确定和之间的欧几里德距离作为第一欧几里德距离，以指示对象在第i帧图像时距离椅子的距离。

在进一步优选的实施例中，为了消除不同帧图像之间的分辨率差异以及视频拍摄距离的变化，数据处理器103能够对该第一欧几里德距离进行归一化。如图4(a)所示，能够选择所有帧图像中第一欧几里德距离的最大值用于该归一化。具体如以下公式(3)所示来确定f₁ ⁱ。

本领域技术人员能够理解，选择脚踝的中点来确定f₁ ⁱ仅仅是一个优选方式，也可以选择帧图像中的其他对应位置，例如，任何一个相应身体关键部位的位置。在进行了上述归一化操作后，f₁ ⁱ越小，则表示该第i帧越接近椅子，越大则表示越接近转身区域。

f₂ ⁱ与第i帧图像中对象身体的取向相关，能够使用对象身体上两个关于纵轴对称的身体关键部位之间的距离来表征对象身体的取向，例如左右肩部或左右臀部之的欧几里德距离。数据处理器103确定该欧几里德距离作为第二欧几里德距离。在对象转身或者坐回椅子时，f₂ ⁱ会发生显著变化，从而能够依据该数据量将对象的转身和坐回这两个运动状态与其他运动状态区分开来。

以下如公式(4)所示，参照左右臀部确定了f₂ ⁱ。

在上述公式中对左右臀之间的距离进行了归一化处理，从而消除因拍摄距离不同引起的身体大小不同在各个帧中引入的身体位置的变化。本领域技术人员能够预期在一些情况下，不需要进行上述归一化。图4(b)示出了根据上述公式计算的f₂ ⁱ。图4(a)和图4(b)中的横轴表示帧的编号，纵轴分别表示f₁ ⁱ和f₂ ⁱ，其中的竖线表示不同运动状态之间的转折点。

尽管已经参照具体的身体关键部位以及具体的公式说明了f₁ ⁱ和f₂ ⁱ，可以预期，只要它们能够分别表征针对第i帧图像对象与椅子之间的距离和对象的取向，能够使用其他方式来确定这两个参数，或者可以对上述公式进行修改。

基于LSTM的分类器104针对每帧图像接收上述f₁ ⁱ和f₂ ⁱ以及多个身体关键部位的位置，从而确定每帧的运动状态标志l_i。任选地，基于LSTM的分类器104也能够接收经归一化的多个身体关键部位的位置。在一个优选实施例中，采用双向LSTM结构来编码所有输入LSTM分类器的特征。

在训练基于LSTM的分类器时，考虑到相邻帧之间的运动状态很相似，因此将某一帧图像确定为属于其相邻的运动状态是可以容忍的，但将某一帧图像错误的确定为属于其不相邻的运动状态将是不可容忍的。因此，训练器106能够针对将某一训练样本错误地确定为属于与其真实运动状态不相邻的运动状态的情况确定惩罚因子，并且在训练过程中使用该惩罚因子。在一个优选实施例中，训练器106进一步确定与训练样本中对象的每个运动状态发生的频率成反比的权重因子，并且基于上述惩罚因子和权重因子两者来训练基于LSTM的分类器，例如使用惩罚因子和权重因子的积在基于LSTM训练分类器过程中对输出进行加权。

如图2和3所示，在使用分类器104确定了每帧的运动状态标志li后，运动状态分割器105基于这些运动状态标志将视频图像序列分割为对应各个运动状态。

在优选实施例中，能够使用动态时间规整(DTW)来执行上述分割。对于所有帧的预测结果P＝{l₁，l₂，…，l_N，通过DTW得到P’＝{l’₁，l’₂，…，l’_N}，该P’是具有严格时间非递减特征，这在公式(5)中示出，并且P’具有公式(6)示出的最小成本。公式(6)是关于p和p’的代价函数，找到公式(6)中C(P,P')的最小值，即找到最优P’.

l’_i∈{l’_i-1,l’_i-1+1},l’₁＝0,l’_N＝5 (5)

其中，

通过使用动态时间规整能够在TUG测试中获得分别对应坐、起身、向前走、转身、向回走和坐回这六个运动状态的视频图像帧，然后基于此能够确定每个运动状态所持续的时间，从而用于对象的运动评估。

以上参照各个优选实施例描述了本发明的视频图像序列分割系统100，除帧处理器101和训练器106之外，本领域技术人员应当理解，数据处理器103所执行的一种或多种操作能够被省略或者相互任意组合，从而构成新的实施方式，以获得对应的效果；甚至在特定情况下能够直接将位置估计器102中确定的每帧中多个身体关键部位的位置输入分类器104，从而省略数据处理器103。

另外，本领域技术人员应当理解，本发明的上述系统的各个部件能够按照每帧图像的顺序进行相应的处理，或者直接对整个视频图像序列的所有帧进行并行处理。并且，本发明的视频图像序列分割系统能够在任一类型的图像处理系统中实现。

此外，本领域技术人员应当理解，上述各个部件仅仅是示意性的，各个部件能够组合或者拆分以实现对应功能，并不局限于图2所示的具体布置；该视频图像序列分割系统能够由任何形式的具有处理功能的硬件或者软件所实现，包括但不局限于计算机、专用处理器、通用处理器、数字电路、模拟电路等；在一个实施例中，本发明通过使得处理器运行例如在数字存储介质上存储的指令来实现。

图5示出了根据本发明一个优选实施例的视频图像序列分割方法500的流程图。如图5所示，该视频图像序列分割方法500包括分类器训练步骤501、帧处理步骤502、位置确定步骤503、数据处理步骤504、分类步骤505以及分割步骤506，其中，训练步骤501和帧处理步骤502以虚线示出，以表示它们在本发明的视频图像序列分割方法500中是可选的。优选地，本发明的视频图像序列分割方法能够使用已经训练好的分类器在分类步骤505中进行分类，而无须包含训练步骤501；另外，如以上所述的，当在位置确定步骤503中使用部分关联场算法针对每帧图像确定多个身体关键部位的位置时，本发明的图像分割方法无需包含帧处理步骤502。再者，如以上参照系统描述的，虽然数据处理步骤504没有用虚线示出，但是可以预期在一些实施例中省略该步骤。

在分类器训练步骤501中，对本发明之后使用的分类器进行训练，例如，在使用基于SVM的分类器时，确定与训练样本中对象的每个运动状态发生的频率成反比的权重因子，并且基于该权重因子来训练分类器；在使用基于LSTM的分类器时，针对将某一训练样本错误地确定为属于与其真实运动状态不相邻的运动状态的情况确定惩罚因子，并且任选地确定与所述训练样本中所述对象的每个运动状态发生的频率成反比的权重因子，并且基于惩罚因子和任选的权重因子来训练分类器。本领域技术人员可以理解，该分类器训练步骤可以在使用分类器进行的分类步骤505之前的任何时候执行，图5所显示的设置在帧处理步骤502之前的顺序仅仅是示意性的。

在帧处理步骤502中，接收视频图像序列S的每帧，并对这些帧进行初步处理，以便之后对这些帧的进一步处理。尤其，在使用误差迭代反馈算法检测每帧图像中的身体关键部位的位置之前，该帧处理步骤接收视频图像序列中的每帧，确定每帧中对象的身体区域，对每帧进行分割以得到表示对象的身体区域的帧，并且将经分割的帧输出到下一步骤以确定对象的多个身体关键部位的位置。

在接下来的位置确定步骤503中，使用误差迭代反馈或者部分关联场算法确定每帧图像中多个身体关键部位的位置。

在数据处理步骤504中，对在位置确定步骤503中获得多个身体关键部位的位置进行进一步处理，包括但不局限于使得位置坐标居中、归一化、进行滑动窗口处理以及针对基于LSTM分类确定表征全局时间特征的量。

具体来说，在一个实施例中，在执行分类步骤505之前，在数据处理步骤504中，对确定的所述多个身体关键部位的位置进行归一化，例如能够使用颈部与坐臀或者右臀之间的欧几里德距离来对多个身体关键部位的位置进行归一化。

在进一步优选地实施例中，在数据处理步骤504中能够确定当前帧中对象的多个身体关键部位的第一位置，当前帧之前和之后的第一数量帧中的每帧中对象的多个身体关键部位的第二位置，进而根据第一位置和第二位置，生成针对当前帧的对象的多个身体关键部位的位置，以用于之后的分类步骤。这方便考虑相邻帧所提供的时间信息，使得能够更好地区分属于彼此相邻的运动状态的各个帧，在基于SVM的分类器中尤其如此。

在另一个实施例中，在使用基于LSTM的分类器执行分类步骤505之前，能够在数据处理步骤504中确定分类所需要的全部特征。在图6中示出了根据一个优选实施例在执行基于LSTM的分类步骤505之前执行的数据处理流程600。

在步骤601中，接收位置确定步骤503中针对每帧图像确定的多个身体关键部位的位置，获得按照时间顺序的第一帧和当前帧中的多个身体关键部位的位置，找到这些位置中相应的至少一个身体关键部位的位置。在一个实施例中，所述至少一个身体关键部位是左右脚踝。

可选地，在步骤602中，基于第一帧和当前帧中的至少一个身体关键部位的位置分别确定第一帧和当前帧中与对象的身体相关的相应位置，例如是每帧图像中左右脚踝的中点。可以预期省略步骤602，直接将第一帧和当前帧中对象的某一相应身体关键部位的位置用于下述步骤603。

在步骤603中，确定第一帧中与对象的身体相关的位置和当前帧中与对象的身体相关的相应位置之间的欧几里德距离作为第一欧几里德距离。或者，在一个更宽泛的实施例中，确定第一帧中的某个身体关键部位的位置和当前帧中相应的身体关键部位的位置之间的距离作为第一欧几里德距离。可以预期，在步骤602中确定多个相应位置，和/或在步骤603中确定相应的多个欧几里德距离，并且最终基于该多个欧几里德距离，例如通过求平均，来确定第一欧几里德距离。

在一个优选实施例中，在进一步的步骤604中，对该第一欧几里德距离进行归一化，能够选择针对所有帧的该第一欧几里德距离的最大值对每帧的第一欧几里德距离进行归一化，由此确定一个能够表征全局时间特征的量f₁ ⁱ，其总体来说表示在第i帧图像上与对象身体相关的任意位置与第1帧图像上对应位置之间的欧几里德距离。在TUG测试中对象被要求沿直线走的情况下，可以预期该欧几里德距离与对象和椅子的距离相关。通常能够设想第1帧图像示出对象坐在椅子上的情形。

在步骤605中，确定所述当前帧中的所述多个身体关键部位中关于所述对象的纵轴对称的两个身体关键部位之间的欧几里德距离，例如左右臀部之间的欧几里德距离，作为第二欧几里德距离，该欧几里德距离在对象转身和坐回椅子时，与其他运动状态相比，发生较大变化，因此，能够用于识别对象的转身和坐回这两个运动状态。

在任选的步骤606中，能够对关于对象的纵轴对称的两个身体关键部位之间的欧几里德距离进行归一化处理，以确定第二欧几里德距离，从而得到能够表征全局时间特征的另一个量f₂ ⁱ。

接下来，返回图5，在分类步骤505中接收每帧的经归一化的多个身体关键部位的位置，以及任选的f₁ ⁱ和f₂ ⁱ，从而能够基于SVM或者LSTM确定指示每帧中对象的运动状态的类型的参数l_i。

在分割步骤506中，基于上述参数l_i，借助于例如动态时间规整算法对视频图像序列进行分割，以得到对应于对象的不同运动状态的相应图像序列。

以上已经参照各个优选实施例描述了本发明的方法。在不背离本发明的精神和基本特征的情况下，本领域技术人员能够预期省略、修改和/或合并其中的各个步骤，以省略或者修改对应效果；此外，本发明的方法的多个步骤之间的顺序能够被修改，而不影响其实现的效果。

上述关于本发明的系统和方法的具体实施例仅仅是示意性的，而非限制性的。这些实施例之间能够任意组合，来实现本发明的目的。本发明的保护范围由所附的权利要求书来定义。

说明书和权利要求中的“包括”一词不排除其它元件或步骤的存在。在说明书中说明或者在权利要求中记载的各个元件的功能也可以被分拆或组合，由对应的多个元件或单一元件来实现。说明书和权利要求中的“第一”和“第二”仅仅用于表示名称，并不表示任何特定的顺序。

Claims

1.一种视频图像序列分割系统，包括

位置估计器，其被配置为接收对象的视频图像序列，所述视频图像序列包括示出所述对象的不同运动状态的多个连续帧，并且基于深度学习算法确定在所述视频图像序列的每帧中所述对象的多个身体关键部位的位置，所述深度学习算法包括误差迭代反馈算法或部分关联场算法；

分类器，其被配置为根据所述多个身体关键部位的位置，确定指示每帧中所述对象的运动状态的类型的参数；以及

运动状态分割器，其被配置为基于所述参数，分割所述视频图像序列，以得到对应于所述对象的每个运动状态的相应帧。

2.根据权利要求1所述的视频图像序列分割系统，还包括数据处理器，其被配置为对确定的所述多个身体关键部位的位置进行归一化；

其中，所述分类器根据经归一化的所述多个身体关键部位的位置确定指示每帧中所述对象的运动状态的类型的参数。

3.根据权利要求1或2所述的视频图像序列分割系统，其中，所述分类器是基于支持向量机的分类器，所述系统还包括数据处理器，其被配置为

确定当前帧中所述对象的多个身体关键部位的第一位置，

确定所述当前帧之前和之后的第一数量帧中的每帧中所述对象的多个身体关键部位的第二位置，并且

根据针对所述当前帧的所述第一位置和针对所述当前帧之前和之后的所述第一数量帧中的每帧的所述第二位置，生成针对所述当前帧的所述对象的多个身体关键部位的位置序列；

其中，所述分类器根据所述当前帧的所述多个身体关键部位的位置序列确定指示所述当前帧中所述对象的运动状态的类型的参数。

4.根据权利要求1或2所述的视频图像序列分割系统，其中，所述分类器是基于长短期记忆网络的分类器，所述系统还包括数据处理器，其被配置为

确定所述视频图像序列中按照时间顺序的第一帧中的所述多个身体关键部位的位置中的至少一个身体关键部位的位置，

确定所述视频图像序列中当前帧中的所述多个身体关键部位中的所述至少一个身体关键部位的相应位置，

基于所述第一帧中所述至少一个身体关键部位的位置和所述当前帧中所述至少一个身体关键部位的相应位置确定在所述第一帧和所述当前帧中的对应位置之间的第一欧几里德距离，并且

确定所述当前帧中的所述多个身体关键部位中关于所述对象的纵轴对称的两个身体关键部位之间的第二欧几里德距离；

其中，所述分类器根据所述当前帧中的所述多个身体关键部位的位置、所述第一欧几里德距离和所述第二欧几里德距离确定指示所述当前帧中所述对象的运动状态的类型的参数。

5.根据权利要求4所述的视频图像序列分割系统，其中，所述至少一个身体关键部位包括左脚踝和右脚踝，并且在所述第一帧和所述当前帧中的对应位置是在所述第一帧和所述当前帧中的所述左脚踝和所述右脚踝之间的中点，其中，所述数据处理器还被配置为

对所述第一欧几里德距离进行归一化，并且

对所述第二欧几里德距离进行归一化；

其中，所述分类器根据所述当前帧中的所述多个身体关键部位的位置、经归一化的所述第一欧几里德距离和经归一化的所述第二欧几里德距离确定指示所述当前帧中所述对象的运动状态的类型的参数。

6.一种视频图像序列分割方法，包括

接收对象的视频图像序列，所述视频图像序列包括示出所述对象的不同运动状态的多个连续帧；

基于深度学习算法确定在所述视频图像序列的每帧中所述对象的多个身体关键部位的位置，所述深度学习算法包括误差迭代反馈算法或部分关联场算法；

根据所述多个身体关键部位的位置，确定指示每帧中所述对象的运动状态的类型的参数；以及

基于所述参数，分割所述视频图像序列，以得到对应于所述对象的每个运动状态的相应帧。

7.根据权利要求6所述的视频图像序列分割方法，其中，所述深度学习算法是误差迭代反馈算法，所述方法还包括

接收所述视频图像序列中的每帧；

在每帧中确定所述对象的身体区域；

根据针对每帧确定的身体区域确定在每帧中所述对象的多个身体关键部位的位置。

8.根据权利要求6或7所述的视频图像序列分割方法，其中，由基于机器学习的分类算法确定指示每帧中所述对象的运动状态的类型的所述参数，所述机器学习基于支持向量机，所述方法还包括

确定当前帧中所述对象的多个身体关键部位的第一位置；

确定所述当前帧之前和之后的第一数量帧中的每帧中所述对象的多个身体关键部位的第二位置；

根据所述第一位置和所述第二位置，生成针对所述当前帧的所述对象的多个身体关键部位的位置；以及

根据所述当前帧的所述多个身体关键部位的位置，确定指示所述当前帧中所述对象的运动状态的类型的所述参数。

9.根据权利要求6或7所述的视频图像序列分割方法，其中，由基于机器学习的分类算法确定指示每帧中所述对象的运动状态的类型的所述参数，所述机器学习基于长短期记忆网络，所述方法还包括

确定所述视频图像序列中按照时间顺序的第一帧中的所述多个身体关键部位的位置中的至少一个身体关键部位的位置；

确定所述视频图像序列中当前帧中的所述多个身体关键部位中的所述至少一个身体关键部位的相应位置；

基于所述第一帧中所述至少一个身体关键部位的位置和所述当前帧中所述至少一个身体关键部位的相应位置确定在所述第一帧和所述当前帧中的对应位置之间的第一欧几里德距离；

确定所述当前帧中的所述多个身体关键部位中关于所述对象的纵轴对称的两个身体关键部位之间的第二欧几里德距离；以及

根据所述当前帧中的所述多个身体关键部位的位置、所述第一欧几里德距离和所述第二欧几里德距离，确定指示所述当前帧中所述对象的运动状态的类型的参数。

10.根据权利要求9所述的视频图像序列分割方法，其中，所述至少一个身体关键部位包括左脚踝和右脚踝，并且在所述第一帧和所述当前帧中的对应位置是在所述第一帧和所述当前帧中的所述左脚踝和所述右脚踝之间的中点，所述方法还包括：

对所述第一欧几里德距离进行归一化；

对所述第二欧几里德距离进行归一化；

根据所述当前帧中的所述多个身体关键部位的位置、经归一化的所述第一欧几里德距离和经归一化的所述第二欧几里德距离，确定指示所述当前帧中所述对象的运动状态的类型的参数。