CN109344755A

CN109344755A - 视频动作的识别方法、装置、设备及存储介质

Info

Publication number: CN109344755A
Application number: CN201811107097.0A
Authority: CN
Inventors: 宋丽; 石峰; 王璠; 芦姗
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-02-15
Anticipated expiration: 2038-09-21
Also published as: CN109344755B; EP3862914A1; WO2020057329A1; EP3862914A4; US20220130146A1

Abstract

本发明实施例公开了一种视频动作的识别方法、装置、设备及存储介质。该方法包括：根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；根据各视频帧的动作类别和动作定位信息，确定视频的动作内容。本发明实施例提供的视频动作的识别方法，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，可以提高动作类别识别的稳定性及动作定位信息识别的平滑性。

Description

视频动作的识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及动作识别技术领域，尤其涉及一种视频动作的识别方法、装置、设备及存储介质。

背景技术

随着计算机视觉和机器学习等相关技术的快速发展，人机交互技术越来越受到重视。在人机交互中，需要对用户的身体信息进行识别如人脸识别、手势识别及体势识别等。其中，手势识别可以作为直观的交流方式而具有重要的研究价值和意义。

视频手势识别通常应用在需要强交互的应用场景中，在对用户的手势进行持续的定位与识别时，会面临诸如背景复杂、运动模糊、动作不标准等不可控因素。

现有技术中对视频中图像进行的手势识别处理，无法保证手势识别结果的稳定性及平滑性。

发明内容

本发明实施例提供一种视频动作的识别方法、装置、设备及存储介质，可以提高动作识别结果的稳定性及平滑性。

第一方面，本发明实施例提供了一种视频动作的识别方法，该方法包括：

根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；

根据各视频帧的动作类别和动作定位信息，确定视频的动作内容。

进一步地，根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息包括：

获取当前视频帧，确定所述当前视频帧的动作识别结果；其中，所述动作识别结果包括动作类别及动作定位信息；

根据至少一个前向视频帧的动作类别，对所述当前视频帧的动作类别进行修正，获取所述当前视频帧的目标动作类别；

根据至少一个前向视频帧的动作定位信息，对所述当前视频帧的动作定位信息进行修正，获取所述当前视频帧的目标动作定位信息。

进一步地，获取当前视频帧，确定所述当前视频帧的动作类别，包括：

将所述当前视频帧输入动作识别模型，获得至少一个设定动作类别的置信度；

选取置信度最高的设定动作类别，作为所述当前视频帧的动作类别。

进一步地，根据至少一个前向视频帧的动作类别，对所述当前视频帧的动作类别进行修正，获取所述当前视频帧的目标动作类别，包括：

将至少一个所述前向视频帧和所述当前视频帧中各设定动作类别的置信度进行求和；

获取求和之后置信度最高的设定动作类别；

若至少一个所述前向视频帧和所述当前视频帧的动作类别中，与求和之后置信度最高的设定动作类别相同的数量超过设定数量，则将求和之后置信度最高的设定动作类别确定为目标动作类别；

若至少一个所述前向视频帧和所述当前视频帧的动作类别中，与求和之后置信度最高的设定动作类别相同的数量未超过设定数量，则将所述当前视频帧的动作类别确定为目标动作类别。

进一步地，所述动作定位信息包括动作框的宽、动作框的高以及动作框的中心坐标。

进一步地，根据至少一个前向视频帧的动作定位信息，对所述当前视频帧的动作定位信息进行修正，获取所述当前视频帧的目标动作定位信息，包括：

对于动作框的宽或动作框的高，获取增益因子；

根据所述增益因子按照如下公式计算目标动作框的宽或目标动作框的高：

x＝x2+k(x1-x2)；

其中，x为目标动作框的宽或目标动作框的高，k为增益因子，x1为当前视频帧的动作框的宽或当前视频帧的动作框的高，x2为前向视频帧的动作框的宽或前向视频帧的动作框的高；

对于动作框的中心坐标，获取增益矩阵；

根据所述增益矩阵按照如下公式计算目标动作框的中心坐标：

Y＝Y2+K*(Y1-H*Y2)；

其中，Y为目标动作框的中心坐标，Y2为前向视频帧的动作框的中心坐标，K为增益矩阵，H为单位矩阵，Y1为当前视频帧的动作框的中心坐标。

进一步地，还包括：

判断所述目标动作框的定位信息与前向视频帧的动作框的定位信息差值的绝对值是否小于设定阈值；

若小于，则将所述目标动作框的定位信息更新为前向视频帧的动作框的定位信息。

进一步地，按照如下公式计算增益因子：

k＝p_-/(p_-+r)；

其中，p_-＝p+q，p为后验误差，p_-为先验误差，q为过程偏差，r为测量偏差；

按照如下公式计算增益矩阵：

K＝P_-*H^T*S^-1；

其中，P_-＝A*err*A^T+Q，S＝H*P_-*H^T+R，A为运动矩阵，Q为过程方差矩阵，R为测量方差矩阵，err为中心点误差矩阵，H为单位矩阵。

进一步地，获取当前视频帧，确定所述当前视频帧的动作识别结果，包括：

判断所述当前视频帧是否为预设关键帧；

若是预设关键帧，则将所述当前视频帧输入第一动作识别子模型获得所述当前视频帧的初始动作定位信息；根据所述初始动作定位信息确定所述当前视频帧的第一待识别图像区域，并将所述第一待识别图像区域输入第二动作识别子模型，获得所述当前视频帧的动作识别结果；其中，所述第一动作识别子模型和第二动作识别子模型采用不同的卷积神经网络训练获得；

若不是预设关键帧，则根据前向视频帧的动作框定位信息确定所述当前视频帧的第二待识别图像区域，将所述第二待识别图像区域输入第二动作识别子模型，获得所述当前视频帧的动作识别结果。

进一步地，所述动作为用户的手势，所述动作类别为手势的形态，所述动作定位信息为手势的移动轨迹。

第二方面，本发明实施例还提供了一种视频动作的识别装置，该装置包括：

动作类别和动作定位信息确定模块，用于根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息；

动作内容确定模块，用于根据各视频帧的动作类别和动作定位信息，确定视频的动作内容。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例所述的视频动作的识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的视频动作的识别方法。

本发明实施例，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，最后根据各视频帧的动作类别和动作定位信息，确定视频的动作内容。本发明实施例提供的视频动作的识别方法，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，可以提高动作类别识别的稳定性及动作定位信息识别的平滑性。

附图说明

图1是本发明实施例一中的一种视频动作的识别方法的流程图；

图2是本发明实施例二中的一种视频动作的识别方法的流程图；

图3是本发明实施例三中的一种视频动作的识别方法的流程图；

图4a是本发明实施例三中的对“点赞”手势的识别效果图；

图4b是本发明实施例三中的对“点赞”手势的识别效果图；

图4c是本发明实施例三中的对“点赞”手势的识别效果图；

图4d是本发明实施例三中的对“点赞”手势的识别效果图；

图5a是本发明实施例三中的对“双手比心”手势的识别效果图；

图5b是本发明实施例三中的对“双手比心”手势的识别效果图；

图5c是本发明实施例三中的对“双手比心”手势的识别效果图；

图6是本发明实施例四中的一种视频动作的识别装置的结构示意图；

图7是本发明实施例五中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频动作的识别方法的流程图，本实施例可适用于对直播视频中的用户的动作进行识别的情况，该方法可以由视频动作的识别装置来执行，该装置可由硬件和/或软件组成，并一般可集成在具有视频动作识别功能的设备中，该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示，该方法具体包括如下步骤：

步骤110，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息。

其中，前向视频帧可以是当前视频帧对应时刻之前的视频帧。视频可以是直播视频或点播视频。动作可以包括用户的手势、体势等，本实施例中，优选为手势。当动作为手势时，动作类别可以是手势的形态，动作定位信息可以是手势的移动轨迹。例如：手势的形态可以包括：点赞手势、“OK”手势、双手比心手势、单手比心手势、比枪手势、“Yeah”手势及托手手势等。

本实施例中，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息的方式可以是，将当前视频帧和至少一个前向视频帧同时输入动作识别模型中，动作识别模型通过分析当前视频帧和至少一个前向视频帧，获得当前视频帧的动作类别和动作定位信息；或者，将当前视频帧和至少一个前向视频帧分别输入动作识别模型中，获得各视频帧分别对应的动作类别和动作定位信息，最后利用至少一个前向视频帧的动作类别和动作定位信息对当前视频帧的动作类别和动作定位信息进行修正。

步骤120，根据各视频帧的动作类别和动作定位信息，确定视频的动作内容。

其中，动作内容可以是动作要传达的信息，示例性的，以手势为例，动作内容可以包括：点赞、“OK”、双手比心、单手比心、比枪、“Yeah”及托手等。

具体的，在获得视频中各视频帧的动作类别和动作定位信息后，就可以确定视频中的动作内容。可选的，在本应用场景下，在获得各视频帧的动作类别和动作定位信息后，可以结合动作类别在动作定位点处触发设定特效。

本实施例的技术方案，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，最后根据各视频帧的动作类别和动作定位信息，确定视频的动作内容。本发明实施例提供的视频动作的识别方法，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，可以提高动作类别识别的稳定性及动作定位信息识别的平滑性。

实施例二

图2为本发明实施例二提供的一种视频动作的识别方法的流程图。作为对上述实施例的进一步解释，如图2所示，根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息，可通过如下步骤实施：

步骤210，获取当前视频帧，确定当前视频帧的动作识别结果。

其中，动作识别结果包括动作类别及动作定位信息。动作定位信息可以是动作框定位信息，包括动作框的宽、动作框的高以及动作框的中心坐标。

本实施例中，将当前视频帧输入动作识别模型，就可以获得当前视频帧的动作类别和动作定位信息。具体的，确定当前视频帧的动作类别的方式可以是将当前视频帧输入动作识别模型，获得至少一个设定动作类别的置信度，选取置信度最高的设定动作类别，作为当前视频帧的动作类别。

其中，动作识别模型可以是基于卷积神经网络训练获得的，具有识别视频帧中动作类别与动作定位信息的功能。设定动作类别可以是在系统中预先设置的类别，假设动作是手势，则设定动作类别可以包括点赞、“OK”、双手比心、单手比心、比枪、“Yeah”及托手等。将当前视频帧输入动作识别模型后，获得当前视频帧对应的各设定动作类别的置信度，将置信度最高的设定动作类别作为当前视频帧的动作类别。示例性的，假设当前视频帧对应的各设定动作类别的置信度为：点赞为0.1“OK”为0.25、双手比心为0.3、单手比心为0.3、比枪为0.8、“Yeah”为0.4及托手为0.2，则当前视频帧的动作类别为“比枪”。

具体的，确定当前视频帧的动作定位信息的方式可以是，将当前视频帧输入动作识别模型，输出动作框的宽、动作框的高以及动作框的中心坐标。

步骤220，根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，获取当前视频帧的目标动作类别。

具体的，根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，获取当前视频帧的目标动作类别可通过下述方式实施：将至少一个前向视频帧和当前视频帧中各设定动作类别的置信度进行求和。获取求和之后置信度最高的设定动作类别。若至少一个前向视频帧和当前视频帧的动作类别中，与求和之后置信度最高的设定动作类别相同的数量超过设定数量，则将求和之后置信度最高的设定动作类别确定为目标动作类别。若至少一个前向视频帧和当前视频帧的动作类别中，与求和之后置信度最高的设定动作类别相同的数量未超过设定数量，则将当前视频帧的动作类别确定为目标动作类别。

其中，设定数量可以根据前向视频帧的数量来确定，例如设定数量可以是前向视频帧数量的50％-80％之间的任意值。具体的，获取求和之后置信度最高的设定动作类别可根据如下公式计算for c＝1,L,N(i>k+1)，其中，n为求和之后置信度最高的设定动作类别，prob_f为第f帧视频帧的设定动作类别置信度向量，N为设定动作类别的数量，c为设定动作类别对应的编号，前向视频帧的数量为k-1，表示当prob_f取c时，值为1，prob_f取其他值时，值为0。在获得求和之后置信度最高的设定动作类别为n后，确定目标动作类别可根据如下公式计算：其中C为目标动作类别，j为设定数量，c_i为当前视频帧的动作类别。

步骤230，根据至少一个前向视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正，获取当前视频帧的目标动作定位信息。

本应该场景下，对当前视频帧的动作定位信息进行修正时，根据当前视频帧前一帧的动作定位信息进行修正。具体的，根据至少一个前向视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正，获取当前视频帧的目标动作定位信息，可通过下述方式实施：对于动作框的宽或动作框的高，获取增益因子，根据增益因子按照如下公式计算目标动作框的宽或目标动作框的高：x＝x2+k(x1-x2)；其中，x为目标动作框的宽或目标动作框的高，k为增益因子，x1为当前视频帧的动作框的宽或当前视频帧的动作框的高，x2为前向视频帧的动作框的宽或前向视频帧的动作框的高。对于动作框的中心坐标，获取增益矩阵；根据增益矩阵按照如下公式计算目标动作框的中心坐标：Y＝Y2+K*(Y1-H*Y2)；其中，Y为目标动作框的中心坐标，Y2为前向视频帧的动作框的中心坐标，K为增益矩阵，H为单位矩阵，Y1为当前视频帧的动作框的中心坐标。

增益因子可以按照如下公式计算：k＝p_-/(p_-+r)；其中，p_-＝p+q，p为后验误差，p_-为先验误差，q为过程偏差，r为测量偏差。过程误差和测量偏差可以经过多次试验后获得的值，后验误差可以按照如下公式迭代获取：p＝(1-k)*p_-。

增益矩阵可以按照如下公式计算：K＝P_-*H^T*S-¹；其中，P_-＝A*err*A^T+Q，S＝H*P_-*H^T+R，A为运动矩阵，Q为过程方差矩阵，R为测量方差矩阵，err为中心点误差矩阵，H为单位矩阵。中心点误差矩阵可以按照如下公式迭代获得：err＝(1-K*H)*P_-。

可选的，还包括如下步骤：判断目标动作框的定位信息与前向视频帧的动作框的定位信息差值的绝对值是否小于设定阈值；若小于，则将目标动作框的定位信息更新为前向视频帧的动作框的定位信息。

其中，设定阈值可以设置为1-10个像素点之间的任意值，优选的，设置为3或者4个像素。

本实施例中，若目标动作框的宽与前向视频帧的动作框的宽的差值的绝对值小于设定阈值，则将目标动作框的宽更新为前向视频帧的动作框的宽；若目标动作框的高与前向视频帧的动作框的高的差值的绝对值小于设定阈值，则将目标动作框的高更新为前向视频帧的动作框的高；若目标动作框的中心坐标的横坐标与前向视频帧的动作框的中心坐标的横坐标的差值的绝对值小于设定阈值，则将目标动作框的中心坐标的横坐标更新为前向视频帧的动作框的中心坐标的横坐标；若目标动作框的中心坐标的纵坐标与前向视频帧的动作框的中心坐标的纵坐标的差值的绝对值小于设定阈值，则将目标动作框的中心坐标的纵坐标更新为前向视频帧的动作框的中心坐标的纵坐标。

本实施例的技术方案，根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，根据至少一个前向视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正。可以提供视频动作识别的稳定性和平滑性。

实施例三

图3为本发明实施例三提供的一种视频动作的识别方法的流程图。作为对上述实施例的进一步解释，如图3所示，获取当前视频帧，确定所述当前视频帧的动作识别结果，可通过如下步骤实施：

步骤310，判断当前视频帧是否为预设关键帧。

其中，预设关键帧可以是根据实际需要设置的每隔设定数量的视频帧确定为一个关键帧，例如每隔10帧视频帧确定为一个关键帧。

步骤320，若是预设关键帧，则将当前视频帧输入第一动作识别子模型获得当前视频帧的初始动作定位信息；根据初始动作框定位信息确定当前视频帧的第一待识别图像区域，并将第一待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

其中，第一动作识别子模型和第二动作识别子模型采用不同的卷积神经网络训练获得。第一动作识别子模型可以采用DenseNet(Dense Convolutional Network)或者ResNet获得；第二动作识别子模型可以采用MobileNet-v2获得。

具体的，若当前视频帧为预设关键帧，则将当前视频帧输入第一动作识别子模型获得初始动作定位信息，在获得初始动作定位信息后，在初始动作框圈出的区域的基础上，扩大设定面积或设定像素点后，获得第一待识别图像区域，最后将第一待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

步骤330，若不是预设关键帧，则根据前向视频帧的动作框定位信息确定当前视频帧的第二待识别图像区域，将第二待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

具体的，若当前视频帧不是预设关键帧，则在前向视频帧的动作框圈出的区域的基础上，扩大设定面积或设定像素点后，获得第二待识别图像区域，最后将第二待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

本实施例的技术方案，将预设关键帧依次输入第一动作识别子模型和第二动作识别子模型获得动作识别结果，将非预设关键帧输入第二动作识别子模型获得动作识别结果，在保证识别准确性的基础上，可以提高图像识别的速率。

示例性的，图4a-4d为本发明实施例三提供的对“点赞”手势的识别效果图，如图4a-4d所示，其中“2”表示视频帧的手势类别为“点赞”。将每一视频帧输入动作识别模型后，可以获得该视频帧的手势类别为“2”，即点赞，以及手势定位信息，包括手势框的宽、手势框的高以及手势框的中心坐标。

图5a-5c为本发明实施例三提供的对“双手比心”手势的识别效果图，如图5a-5c所示，其中“5”表示视频帧的手势类别为“双手比心”。将每一视频帧输入动作识别模型后，可以获得该视频帧的手势类别为“5”，即双手比心，以及手势定位信息，包括手势框的宽、手势框的高以及手势框的中心坐标。

实施例四

图6为本发明实施例四提供的一种视频动作的识别装置的结构示意图。如图6所示，该装置包括：动作类别和动作定位信息确定模块610和动作内容确定模块620。

动作类别和动作定位信息确定模块610，用于根据当前视频帧和至少一个前向视频帧，确定当前视频帧的动作类别和动作定位信息；

动作内容确定模块620，用于根据各视频帧的动作类别和动作定位信息，确定视频的动作内容。

可选的，动作类别和动作定位信息确定模块610，还用于：

获取当前视频帧，确定当前视频帧的动作识别结果；其中，动作识别结果包括动作类别及动作定位信息；

根据至少一个前向视频帧的动作类别，对当前视频帧的动作类别进行修正，获取当前视频帧的目标动作类别；

根据至少一个前向视频帧的动作定位信息，对当前视频帧的动作定位信息进行修正，获取当前视频帧的目标动作定位信息。

可选的，动作类别和动作定位信息确定模块610，还用于：

将当前视频帧输入动作识别模型，获得至少一个设定动作类别的置信度；

选取置信度最高的设定动作类别，作为当前视频帧的动作类别。

可选的，动作类别和动作定位信息确定模块610，还用于：

将至少一个前向视频帧和当前视频帧中各设定动作类别的置信度进行求和；

获取求和之后置信度最高的设定动作类别；

若至少一个前向视频帧和当前视频帧的动作类别中，与求和之后置信度最高的设定动作类别相同的数量超过设定数量，则将求和之后置信度最高的设定动作类别确定为目标动作类别；

若至少一个前向视频帧和当前视频帧的动作类别中，与求和之后置信度最高的设定动作类别相同的数量未超过设定数量，则将当前视频帧的动作类别确定为目标动作类别。

可选的，动作定位信息包括动作框的宽、动作框的高以及动作框的中心坐标。

可选的，动作类别和动作定位信息确定模块610，还用于：

对于动作框的宽或动作框的高，获取增益因子；

根据增益因子按照如下公式计算目标动作框的宽或目标动作框的高：

x＝x2+k(x1-x2)；

对于动作框的中心坐标，获取增益矩阵；

根据增益矩阵按照如下公式计算目标动作框的中心坐标：

Y＝Y2+K*(Y1-H*Y2)；

可选的，动作类别和动作定位信息确定模块610，还用于：

判断目标动作框的定位信息与前向视频帧的动作框的定位信息差值的绝对值是否小于设定阈值；

若小于，则将目标动作框的定位信息更新为前向视频帧的动作框的定位信息。

可选的，按照如下公式计算增益因子：

k＝p_-/(p_-+r)；

按照如下公式计算增益矩阵：

K＝P_-*H^T*S^-1；

可选的，动作类别和动作定位信息确定模块610，还用于：

判断当前视频帧是否为预设关键帧；

若是预设关键帧，则将当前视频帧输入第一动作识别子模型获得当前视频帧的初始动作定位信息；根据初始动作定位信息确定当前视频帧的第一待识别图像区域，并将第一待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果；其中，第一动作识别子模型和第二动作识别子模型采用不同的卷积神经网络训练获得；

若不是预设关键帧，则根据前向视频帧的动作框定位信息确定当前视频帧的第二待识别图像区域，将第二待识别图像区域输入第二动作识别子模型，获得当前视频帧的动作识别结果。

可选的，动作为用户的手势，动作类别为手势的形态，动作定位信息为手势的移动轨迹。

上述装置可执行本发明前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明前述所有实施例所提供的方法。

实施例五

图7为本发明实施例五提供的一种计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的计算机设备712的框图。图7显示的计算机设备712仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。设备712典型的是承担视频动作的识别功能的计算设备。

如图7所示，计算机设备712以通用计算设备的形式表现。计算机设备712的组件可以包括但不限于：一个或者多个处理器716，存储装置728，连接不同系统组件(包括存储装置728和处理器716)的总线718。

总线718表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备712访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置728可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)730和/或高速缓存存储器732。计算机设备712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统734可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线718相连。存储装置728可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块726的程序736，可以存储在例如存储装置728中，这样的程序模块726包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块726通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备712也可以与一个或多个外部设备714(例如键盘、指向设备、摄像头、显示器724等)通信，还可与一个或者多个使得用户能与该计算机设备712交互的设备通信，和/或与使得该计算机设备712能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口722进行。并且，计算机设备712还可以通过网络适配器720与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器720通过总线718与计算机设备712的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备712使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器716通过运行存储在存储装置728中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的视频动作的识别方法。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的视频动作的识别方法。

当然，本发明实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的视频动作的识别方法中的相关操作。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频动作的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据当前视频帧和至少一个前向视频帧，确定所述当前视频帧的动作类别和动作定位信息包括：

3.根据权利要求2所述的方法，其特征在于，获取当前视频帧，确定所述当前视频帧的动作类别，包括：

4.根据权利要求3所述的方法，其特征在于，根据至少一个前向视频帧的动作类别，对所述当前视频帧的动作类别进行修正，获取所述当前视频帧的目标动作类别，包括：

获取求和之后置信度最高的设定动作类别；

5.根据权利要求2所述的方法，其特征在于，所述动作定位信息包括动作框的宽、动作框的高以及动作框的中心坐标。

6.根据权利要求5所述的方法，其特征在于，根据至少一个前向视频帧的动作定位信息，对所述当前视频帧的动作定位信息进行修正，获取所述当前视频帧的目标动作定位信息，包括：

对于动作框的宽或动作框的高，获取增益因子；

x＝x2+k(x1-x2)；

对于动作框的中心坐标，获取增益矩阵；

Y＝Y2+K*(Y1-H*Y2)；

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求6所述的方法，其特征在于，按照如下公式计算增益因子：

k＝p_-/(p_-+r)；

按照如下公式计算增益矩阵：

K＝P_-*H^T*S^-1；

9.根据权利要求2所述的方法，其特征在于，获取当前视频帧，确定所述当前视频帧的动作识别结果，包括：

判断所述当前视频帧是否为预设关键帧；

10.根据权利要求1所述的方法，其特征在于，所述动作为用户的手势，所述动作类别为手势的形态，所述动作定位信息为手势的移动轨迹。

11.一种视频动作的识别装置，其特征在于，包括：

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一所述的方法。