CN115497156A

CN115497156A - 动作识别方法和装置、电子设备及计算机可读存储介质

Info

Publication number: CN115497156A
Application number: CN202110611165.2A
Authority: CN
Inventors: 夏苏哲; 邓自立; 张健; 杨超
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2022-12-20

Abstract

本发明实施例提供一种动作识别方法和装置、电子设备及计算机可读存储介质。该方法包括：构建预设特征库；获取待识别视频数据；将所述待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所述预设特征库中的第二特征向量进行匹配，以获得所述待识别视频数据中的交互动作类别，其中，所述预设特征库中包括多个所述第一特征向量以及与所述第二特征向量对应的交互动作类别。本发明实施例基于帧级别的空间动作关系来使用该预设特征库识别视频帧中的空间动作关系的动作类别，因此减小了依赖的标注量和消耗的计算资源，提高了对于交互动作的捕获的准确。

Description

动作识别方法和装置、电子设备及计算机可读存储介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种动作识别方法和装置、电子设备及计算机可读存储介质。

背景技术

在视频或图像采集领域中，虽然已经能够通过识别采集到的图像或视频帧中的目标对象的特征来识别目标对象，但是这样的识别技术仅能够识别身份。随着视频或图像采集技术在人们生活和工作中的广泛应用，需要能够识别出目标对象的动作，尤其是交互动作。例如，在突发公共事件、异常行为的检测中都依赖于对象交互动作的准确识别。另外，对象交互动作的识别在视频会议、医学临床诊断等领域也起着相当重要的作用，有着广阔的应用前景。

特别地，在现有技术中，已经提出了基于采集到的视频数据中N个连续视频帧分别对应的节点序列信息来确定视频帧分别对应的动作类别，从而根据动作类别确定交互对象做出了何种交互动作。但现有技术中这样的基于连续视频帧的动作识别方法需要获取连续视频帧的节点信息，并对每一帧视频帧进行交互动作识别，标注量较大，且对硬件要求较高，适用场景有限。因此，需要一种能够高效且准确地识别交互动作的技术方案。

发明内容

本申请实施例提供一种动作识别方法和装置、电子设备及计算机可读存储介质，用以解决上述现有技术中硬件要求高且标注量大的问题。

根据本申请实施例的第一方面，提供一种动作识别方法，包括：

构建预设特征库；

获取待识别视频数据；

将所述待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所述预设特征库中的第二特征向量进行匹配，以获得所述待识别视频数据中的交互动作类别，其中，所述预设特征库中包括多个所述第二特征向量以及与所述第二特征向量对应的交互动作类别。

此外，根据本申请实施例的动作识别方法中，所述将所述第一特征向量与预设特征库中的第二特征向量进行匹配，得到所述待识别视频数据中的对象交互动作类别包括：

将所述第一特征向量与所述预设特征库中的第二特征向量进行比对以获得至少一个交互动作类别；

根据基于所述第一结构化属性和对应的第一置信度，所述第二结构化属性和对应的第二置信度以及预设常识库对所述至少一种交互动作类别进行筛选；

根据筛选结果，将选中次数最多的交互动作类别确定为所述待识别视频数据中的交互动作类别。

此外，根据本申请实施例的动作识别方法中，所述根据所述待识别视频数据的各视频帧中的对象的时间信息和空间信息，从所述待识别视频数据中选择包含有第一对象和第二对象的视频帧构成时空场景组，包括：

从所述待识别视频数据中获取所述第一对象和所述第二对象在公共时间段内的视频帧，作为所述第一视频帧序列和所述第二视频帧序列；其中，所述公共时间段为所述第一对象和所述第二对象发生交互动作的时间段。

此外，根据本申请实施例的动作识别方法，可以进一步包括：

基于所述交互动作类别从预设的视频库中查找包含有与所述交互动作类别对应的交互动作的视频帧；

将所查找到的视频帧通过预设的交互界面与所述交互动作类别对应的交互动作一起输出。

根据本申请实施例的第二方面，提供了一种动作识别装置，包括：

构建模块，用于构建预设特征库；

获取模块，用于获取待识别视频数据；

匹配模块，用于将所述待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所述预设特征库中的第二特征向量进行匹配，以获得所述待识别视频数据中的交互动作类别，其中，所述预设特征库中包括多个所述第二特征向量以及与所述第二特征向量对应的交互动作类别。

本申请实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，所述程序运行时执行本申请实施例提供的动作识别方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如本申请实施例提供的动作识别方法。

本申请实施例提供的动作识别方法和装置、电子设备及计算机可读存储介质，通过构建预设特征库并且将待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所构建的特征库中的第二特征向量进行匹配来识别交互动作类别，因此，在本申请实施例的识别方案中，通过先构建预设特征库，在该特征库中存储了多个空间动作关系与交互动作类别的特征向量的对应关系，从而可以基于帧级别的空间动作关系来使用该预设特征库识别视频帧中的空间动作关系的动作类别，因此减小了依赖的标注量和消耗的计算资源，提高了对于交互动作的捕获的准确。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1a为本申请实施例提供的动作识别方案的原理示意图；

图1b示出了根据本申请实施例的动作识别方案中根据对象帧寻找目标帧的示意图；

图1c示出了根据本申请实施例的动作识别方案中的空间动作关系的类别示例的示意图；

图2为本申请提供的动作识别方法一个实施例的流程图；

图3为本申请提供的动作识别方法另一个实施例的流程图；

图4为本申请提供的动作识别方法又一个实施例的流程图；

图5为本申请提供的动作识别装置实施例的结构示意图；

图6为本申请提供的电子设备实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

本申请实施例提供的方案可应用于任何具有图像识别能力的系统，例如包括有视频或图像识别模块的计算系统等等。图1a为本申请实施例提供的动作识别方案的原理示意图，图1a所示的示意图仅仅是本申请的技术方案的原理的示例之一。

随着视频/图像识别技术的发展，用户已经不满足于仅识别采集到的图像中的对象的身份，而是希望能够获得更多的目标对象的信息。例如在对于为用户提供各种服务的服务场景中，员工动作的规范性会直接影响到为用户提供的服务的质量。因此，现有技术中通常只能通过现场的督导人员来对现场工作的员工进行监督和指导，这不仅耗费大量的人力而且也严重依赖于现场的督导人员的技术水平和经验以及认真程度。因此，现有技术中已经提出了将视频/图像识别技术应用于这样的现场监督和指导场景中。例如，在现有技术中已经提出了对采集到的视频数据中N个连续视频帧提取每一帧中目标对象的各个关节的信息作为节点序列信息，并且根据这样的节点序列信息来确定视频帧分别对应的动作类别，从而根据动作类别确定现场的目标对象做出了何种交互动作。但现有技术中这样的基于连续视频帧的动作识别方法需要先识别视频帧中的对象的各个关节作为节点，并进而获取节点信息，并需要基于已经标注的动作来对每一帧视频帧进行交互动作识别，而人类进行的动作千差万别，多种多样，因此标注量很大。

为此，在本申请实施例的动作识别方案中，可以对预先采集的包含各类对象交互动作的视频数据进行标注，并将标注后的数据组成训练数据集，由此通过对这样构成的训练数据集进行训练，获得视频数据的特征向量与交互动作类别的对应关系，最终基于该对应关系构建特征库，这样，在从待识别视频数据中识别对象交互动作的类别时，只需要从待识别视频数据中获取到特征向量，并将所获取的特征向量与预设特征库中的特征向量进行比较，即可得到待识别视频数据中交互动作的类别。例如，在构建特征库时，可以先如图1a中所示地从预先采集的动作视频帧提取其中对象具有交互关系的两个帧来构成动作基因组，图1a示出了本申请实施例提供的动作识别方案所使用的动作基因组的示意图。

具体的，在构建特征库时，可以先获取不同场景下的包含对象交互动作的视频数据，例如小区场景，公共交通工具场景，公共办公区域场景等，并对采集到的视频数据中例如对象的目标对象之间的交互动作进行标注，或者也可以直接获取视频帧的标注信息。

例如，如图1a中所示，可以对于第一对象o1和第二对象o2分别获取n个视频帧，并且对于第一对象的例如第一视频帧中识别出第一对象o11和第二对象的第一视频帧中识别出第二对象o21，并且相应地获得这两个对象之间的空间动作关系r11，即这两个对象之间的空间动作关系是彼此略微接触，类似地，可以接下来对于第一对象的第二视频帧中识别出第一对象o12和第二对象的第二视频帧中识别出第二对象o22，并且相应地获得这两个对象o12和o22之间的空间动作关系r12，即这两个对象之间的交互动作是彼此几乎交叠，例如拥抱在一起。以此类推，对于第一对象的第n视频帧中识别出第一对象o1n和第二对象的第n视频帧中识别出第二对象o2n，并且相应地获得这两个对象o1n和o2n之间的空间动作关系r1n，即这两个对象之间的交互动作是彼此离开。因此这些n个帧就可以构成第一对象和第二对象的动作基因组，并且可以例如标注为拥抱动作，或者也可以直接获取这些帧的预先已经标注了视频帧中的对象的交互动作类别的标注信息。

此外，在进行标注时，为了使标注更加高效，可以预先对交互动作进行分类，由标注人员在实际的标注过程中在预先设置的类别中进行选择，如果视频数据中实际的交互动作不属于预先设置的交互动作的类别，则标注人员可以手动输入交互动作的具体类别。

示例性的，以小区场景为例，可以预先设置五个交互动作的类别如下：

交谈：两个人有相互交谈的动作。

拥抱、搂抱：抱着小孩、背着小孩、互相搂抱、一人骑交通工具载着另一个人等。

拉手、握手：两人有拉手、或者有握手动作。

推着行走：推婴儿车、推轮椅、推儿童车等。

玩耍：各种形式的“遛娃”，大人带小孩一起玩等。

标注人员将交互动作标识出来后，通过机器学习方法去学习交互动作的特征，然后用模型判断未知视频数据中的交互动作。因此，在完成视频数据的交互动作的类别标注后，一个视频数据和该视频数据对应的交互动作类别构成一个训练样本，多个训练样本构成训练数据集。

在获得了训练数据集之后，可以对训练数据集中的每个训练样本执行如下操作：

获取训练样本中第一对象的第一视频帧序列和第二对象的第二视频帧序列，并从第一视频帧序列和第二视频帧序列中分别抽样M帧，获取第一视频帧序列中每一帧的第一对象时空信息、第一结构化属性和对应的第一置信度；获取该第二视频帧序列中每一帧的第二对象时空信息、第二结构化属性和对应的第二置信度。第一对象时空信息中包括第一拍摄时间和该第一对象的检测边界框；该第二对象时空信息中包括第二拍摄时间和该第二对象的检测边界框。该第一结构化属性包括该第一对象的服装颜色、帽子颜色等，该第二结构化属性包括该第二对象的服装颜色、帽子颜色等。其中，置信度是概率值，一般在0-1之间，每一结构化属性都对应一个置信度，用于表征该属性的可信程度，置信度的值越高表示该属性的可信度越高。

因此，在本申请实施例中，如果以包含第一对象的视频帧序列中的帧作为对象帧，则在包含第二对象的视频帧序列中寻找到的与包含第一对象的视频帧对应的帧称为邻近目标帧。如果以包含第二对象的视频帧序列中的帧作为对象帧，则在包含第一对象的视频帧序列中寻找到的与包含第一对象的视频帧对应的帧称为邻近目标帧。

例如，如图1a中所示，包含第一对象的视频帧序列为a1,...,an，包含第二对象的视频帧序列为b1,...,bn，通过以上述方式对这两个对象的视频帧进行组合，构成动作基因组。例如，可以首先算出第一对象和第二对象在公共时间段，即发生交互动作的时间段内的帧的数量，以帧数少的对象所在的视频帧序列作为对象帧，对于这些帧中的每一帧，在另一个视频帧序列中寻找对应的视频帧，作为该帧的邻近目标帧，该帧和邻近目标帧组成一对。

此外，若发生对象交互动作的时间段内的帧的数量相同，则可以以挑出的帧中最小时间对应的对象所在的视频帧序列作为对象帧序列。

此外，本实施例中，构成邻近目标帧需要同时满足2个条件：一是对象帧与目标帧，时间差小于等于0.1秒，该时间差为可调参数，但一般不能超过1秒；二是目标帧最多只能与1个对象帧进行组合，构成一对。如果以上有一个条件不满足，则对象帧的目标帧为空。

如图1b中所示，图1b示出了根据本申请实施例的动作识别方案中根据对象帧寻找目标帧的示意图。在图1b中，小方框表示某一帧，横轴表示时间轴，若坐标相同，表示帧的时间相同；横坐标的差值表示帧的时间差。例如，如图1b中所示，包含有第一对象的视频帧序列为a1，a2，a3，a4，a5，a(M-1)，aM，包含有第二对象的视频帧序列为b1，b2，b3，b4，b5，b(M-1)，bM。在公共时间段内，第一对象所在的视频帧的帧数为5帧，第二对象所在的视频帧的帧数为6帧，则将包含第一对象的视频帧构成对象帧序列，将包含第二对象的视频帧构成目标帧序列。

此外，根据本申请实施例，对于处于公共时间段内的对象帧a3，可以在目标帧序列中寻找到对应的视频帧b1，作为对象帧a3的邻近目标帧，对于处于公共时间段内的对象帧a4，可以在目标帧序列中寻找到对应的视频帧b2，作为对象帧a4的邻近目标帧，对于处于公共时间段内的对象帧a5，可以在目标帧序列中寻找到对应的视频帧b5，作为对象帧a5的邻近目标帧，对于处于公共时间段内的对象帧a(M-1)，可以在目标帧序列中寻找到对应的视频帧b(M-1)，作为对象帧a(M-1)的邻近目标帧，而对于处于公共时间段内的对象帧aM，在目标帧序列中没有寻找到符合上述条件的目标帧，则对象帧aM的目标帧可以为空。

因此，在本申请实施例中，对象帧a3和邻近目标帧b1可以构成该帧的时空场景组，对象帧a4和邻近目标帧b2可以构成该帧的时空场景组，对象帧a5和邻近目标帧b5可以构成该帧的时空场景组，对象帧a(M-1)和邻近目标帧b(M-1)可以构成该帧的时空场景组。因此可以获得如图1b中所示的第一对象和第二对象的动作基因组为：{‘a1’：NaN，‘a2’：NaN，‘a3’：‘b1’，‘a4’：‘b2’，‘a5’：‘b5’，‘a(M-1)’：‘b(M-1)’，‘aM’：NaN}。

进而，在本申请实施例中，针对每一帧的时空场景组，可以计算第一对象和第二对象的检测边界框的位置关系r，如图1c中所示，图1c示出了根据本申请实施例的动作识别方案中的空间动作关系的类别示例的示意图。在例如图1c中所示的类别示例中，第一对象和第二对象的空间动作关系r可以包括：上-下(相交)，上-下(不相交)，左下-右上(相交)，左下-右上(不相交)，左-右(相交)，左-右(不相交)，左上-右下(相交)，左上-右下(不相交)，包含-被包含。

由于M帧视频帧中可能存在目标帧为空的情况，这部分视频帧数据如果保留会造成干扰。因此，本实施例中，在计算得到空间动作关系r后，还可以从M帧时空场景组筛选N帧视频帧对应的空间动作关系r。例如，若r中有M个元素，若某个元素rK的目标帧为空，则去除。剩下的元素若数量大于等于N，则继续从其中选取N个元素，例如选取检测边界框有交集的元素。剩下的元素若数量小于N，则该样本舍弃，作为无效样本。在获得了样本之后，可以将从M帧时空场景图中筛选的N帧视频帧对应的空间动作关系r聚合为该训练样本的视频数据对应的N维特征向量。这样，得到一个训练样本对应的特征向量。

此外，根据本申请实施例的动作识别方案由于使用预设特征库来基于空间动作关系识别动作类型，因此可以广泛应用于各种领域。例如，在游戏领域，可以通过摄像头等图像采集装置捕获多个用户/玩家的动作视频数据，尤其是用户之间的动作交互数据，例如胳膊交叉等动作，并且可以将这样的交互视频数据的视频帧中标识空间动作关系的特征向量提取出来，以与预先建立的特征库中对应于交互动作类别的特征向量进行匹配，从而可以根据匹配结果确定用户之间的交互动作，并且进而将该确定的交互动作反馈到游戏中，该方案尤其适合于多人之间的互动型游戏，例如多人参与的体育类游戏，可以通过使用本申请实施例的动作识别方案来捕获多个用户之间的交互动作视频，并通过与特征库之间的匹配而将用户之间的交互动作反馈到游戏中对应的角色上，特别是由于本申请实施例的动作识别方案通过利用预设的特征库而减少了标注量并且降低了计算资源的需求量，因此能够大大提高动作类型的识别效率，在动作游戏的实时反馈方面大大提高了用户体验。

此外，根据本申请实施例的动作识别方案还可以应用于运动教学训练，可以获取接受教学训练的学员的练习视频或者通过摄像头等等采集学员的实时练习视频，并且将视频中的各视频帧的动作，尤其是可以采集多个学员之间的动作交互，并且通过将这样获取到的视频帧中标识空间动作关系的特征向量提取出来，与预先建立的教学动作特征库中对应于动作类别的特征向量进行匹配，从而根据匹配结果可以确定用户的空间动作与教学动作特征库中的标准动作在空间关系上的相似度，从而可以基于该相似度或者差异点来向用户发出提示，例如可以在用户的动作视频帧中对差异部分进行标记，或者可以进一步给出纠正建议，从而由于本申请的动作识别方案对标注量要求少且需要较少的计算资源就可以进行，因此不仅识别效率高，而且应用成本低，有利于在运动训练中的推广。

此外，根据本申请实施例的动作识别方案还可以应用于电影拍摄场景，例如，可以预先根据电影脚本建立电影拍摄动作特征库，在该特征库中可以存储动作的特征向量与视频帧中的特征向量的对应关系。因此，在拍摄时或者在一定时间段的拍摄之后，将实时拍摄视频流数据或者将该段时间内的拍摄视频数据中的视频帧中标识空间动作，尤其是多个演员之间的动作特征关系的特征向量与上述预先建立的该电影的拍摄动作特征库中的特征向量进行匹配，并且根据匹配结果来向导演和/或演员输出动作匹配结果，例如可以基于拍摄的视频帧中的空间动作与拍摄动作特征库中的特征的相似度或差异来对拍摄的视频帧进行评分或进一步在视频帧中标出差异部分，以便于导演或演员参考，因此，由于本申请实施例的动作识别方案对标注量要求少且需要较少的计算资源就可以进行，而且还能够保证动作类型识别的准确性，因此，能够高效且准确地协助电影拍摄，节省导演或演员对拍摄质量的监督工作量。

此外，在本申请实施例中，对于训练数据集中的每个训练样本，可以重复上述操作以生成每个训练样本对应的特征向量，从而获得了本申请的动作识别方案可以使用的预设特征库，该预设特征库中包含了特征向量与对象交互动作类别之间的对应关系。这样，在获取到待识别视频数据后，即可通过获取待识别视频数据中的特征向量，然后再与预设特征库中的特征向量进行比对，得到待识别视频数据中对象交互动作的识别结果。

本申请实施例提供的对象交互动作识别方案，通过构建预设特征库并且将待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所构建的特征库中的第二特征向量进行匹配来识别交互动作类别，因此，在本申请实施例的识别方案中，通过先构建预设特征库，在该特征库中存储了多个空间动作关系与交互动作类别的特征向量的对应关系，从而可以基于帧级别的空间动作关系来使用该预设特征库识别视频帧中的空间动作关系的动作类别，因此减小了依赖的标注量和消耗的计算资源，提高了对于交互动作的捕获的准确。

上述实施例是对本申请实施例的技术原理和示例性的应用框架的说明，下面通过多个实施例来进一步对本申请实施例具体技术方案进行详细描述。

实施例二

图2为本申请提供的动作识别方法一个实施例的流程图，该方法的执行主体可以为具有图像识别能力的各种终端或服务器设备，也可以为集成在这些设备上的装置或芯片。如图2所示，该动作识别方法包括如下步骤：

S210，构建预设特征库。

在本申请实施例中，可以先根据要识别的视频或视频的类型构建对应的特征库，特别是，在该特征库中可以预先存储有视频数据的视频帧中标识空间动作关系的特征向量与预定的动作类别的特征向量之间的对应关系。例如，可以预先通过人工标注来获得具有标注信息的视频帧，并根据该视频帧和标注信息来在步骤S210中建立特征库。

S220，获取待识别视频数据。

在本申请实施例中，可以在步骤S220中从各种视频数据源获取待识别视频数据，该待识别视频数据例如可以是由安装在如商场中，公交车上，公共办公区域等的各个区域的视频/图像采集装置采集到的视频。待识别视频数据可以是实时获取的视频数据，也可以是以预设时间间隔获取的视频数据，例如，可以每24小时从摄像头获取视频数据作为待识别视频数据。也可以根据实际需要以任何其他时间间隔去获取视频数据作为待识别视频数据，例如，在用户的控制下向摄像头请求待识别视频数据。此外，本申请实施例中的待识别视频数据可以是包含有目标对象的视频数据，特别是包含有多个目标对象的视频数据。例如对于分拣快递的分拣区域的服务情况采集的视频数据。

S230，将待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与预设特征库中的第二特征向量进行匹配，以获得待识别视频数据中的交互动作类别。

在步骤S230中，可以将上述步骤S220中获取到的各视频帧的空间动作关系的特征向量与步骤S210中建立的预设特征库中的特征向量进行匹配处理。例如，可以计算特征之间的相似度，并且将相似度大于预设阈值的第二特征向量所对应的交互动作类别作为该待识别视频数据的动作类别。

因此，本申请实施例提供的对象交互动作识别方法，通过构建预设特征库并且将待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所构建的特征库中的第二特征向量进行匹配来识别交互动作类别，因此，在本申请实施例的识别方案中，通过先构建预设特征库，在该特征库中存储了多个空间动作关系与交互动作类别的特征向量的对应关系，从而可以基于帧级别的空间动作关系来使用该预设特征库识别视频帧中的空间动作关系的动作类别，因此减小了依赖的标注量和消耗的计算资源，提高了对于交互动作的捕获的准确性。

实施例三

图3为本申请提供的动作识别方法一个实施例的流程图，该方法的执行主体可以为具有图像识别能力的各种终端或服务器设备，也可以为集成在这些设备上的装置或芯片。

如图3所示，该动作识别方法包括如下步骤：

S301，对预先采集的动作视频帧进行处理，获取第二特征向量。

在本申请实施例中，可以先根据要识别的视频或视频的类型构建对应的特征库，特别是，在该特征库中可以预先存储有视频数据的视频帧中标识空间动作关系的特征向量与预定的动作类别的特征向量之间的对应关系。例如，可以在步骤S301中对预先采集的视频数据中的动作视频帧进行处理，以获取标识这些动作视频帧中的空间动作关系的第二特征向量。特别地，这些动作视频帧可以是预先挑选或按照预定标准自动筛选出的视频帧，这些视频帧中具有已经自动或通过人工标注的动作信息。因此，这样的视频帧中反映空间动作关系的特征向量可以作为参考特征向量。

S302，获取针对动作视频帧的标注信息。

在步骤S301中获取了动作视频帧的第二特征向量之后，可以在步骤S302中进一步获取这些视频帧的标注信息，特别地，这些标注信息可以用于标识动作视频帧中的对象的交互动作类别。

S303，将第二特征向量与交互动作类别相对应，以构建预设特征库。

因此，在步骤S303中可以根据步骤S302中获取到的针对视频帧的标注信息，尤其是这些标注信息标识了步骤S301中获取的动作视频帧中的对象的交互动作类别，以及步骤S301中通过对动作视频帧进行处理而获取到的标识动作视频帧中的空间动作关系的第二特征向量来建立特征库，从而预设特征库中可以包括多个视频帧的动作向量以及与交互动作类别的对应关系。

S304，获取待识别视频数据。

在本申请实施例中，在建立了预设特征库之后，可以在步骤S304中从各种视频数据源获取待识别视频数据，该待识别视频数据例如可以是由安装在如商场中，公交车上，公共办公区域等的各个区域的视频/图像采集装置采集到的视频。待识别视频数据可以是实时获取的视频数据，也可以是以预设时间间隔获取的视频数据，例如，可以每24小时从摄像头获取视频数据作为待识别视频数据。也可以根据实际需要以任何其他时间间隔去获取视频数据作为待识别视频数据，例如，在用户的控制下向摄像头请求待识别视频数据。此外，本申请实施例中的待识别视频数据可以是包含有目标对象的视频数据，特别是包含有多个目标对象的视频数据。例如对于分拣快递的分拣区域的服务情况采集的视频数据。

S305，根据待识别视频数据的各视频帧中的对象的时间信息和空间信息，从待识别视频数据中选择包含有第一对象和第二对象的视频帧构成时空场景组。

在步骤S304获取到了待识别视频数据之后，可以对于通过划分该视频数据获得的各视频帧进行对象识别，在本申请实施例中，可以使用各种常用的对象识别方案来识别各视频帧中的对象，从而可以在步骤S305中使用视频帧中识别出的对象的时间信息和空间信息，例如，在上述分拣快递的服务场景中，可以使用采集到的的图像中的各个快递员在该视频帧中的时间信息，例如，下午1点12分24秒，以及空间信息，例如对象在该帧中的位置坐标等。

此外，在步骤S305中根据各帧中识别出的对象的时间信息和空间信息选择出包含有第一对象和第二对象两个对象的视频帧，以构成时空场景组。在本申请实施例中，时空场景组是一种用于描述图像中对象与对象之间的空间关系的抽象组。例如，可以根据帧中所包含的对象的时间信息可以选择出具有相同时间信息的对象，并且根据空间信息选择在空间位置上具有相关性的视频帧，从而可以构成包含有这两个对象的时空场景组。

S306，基于各时空场景组，确定第一对象和第二对象的空间动作关系。

在步骤S305中获取到了包含有第一对象和第二对象的两个对象的时空场景组之后，可以进一步基于步骤S305中的这些时空场景组来确定第一对象和第二对象的空间动作关系。例如，在步骤S305中构成时空场景组时使用了各帧中的对象的空间信息，因此在步骤S306中就可以基于这些空间信息来确定两个对象在空间上的动作关系。例如，第一对象和第二对象的空间动作关系可以包括：上-下(相交)，上-下(不相交)，左下-右上(相交)，左下-右上(不相交)，左-右(相交)，左-右(不相交)，左上-右下(相交)，左上-右下(不相交)，包含-被包含。从上述示例中也可以看出，这些空间动作关系是可以基于对象在空间上的位置而确定的。

S307，将各视频帧的空间动作关系聚合为第一特征向量。

在步骤S307可以基于步骤S306获得的第一对象和第二对象的空间动作关系来将具有这样的空间动作关系的视频帧聚合为多维的特征向量，以便于与预先设置的特征库中的各种特征向量进行匹配。

S308，将第一特征向量与预设特征库中的第二特征向量进行匹配，得到待识别视频数据中的交互动作类别。

在步骤S308中，可以将上述步骤S307中通过聚合步骤S306中的各个帧的空间动作关系获得的特征向量与预设的特征库中的特征向量进行匹配处理。例如，可以计算特征之间的相似度，并且将相似度大于预设阈值的第二特征向量所对应的交互动作类别作为该待识别视频数据的动作类别。

实施例四

图4为本申请提供的动作识别方法又一个实施例的流程图，该方法的执行主体可以为具有图像识别能力的各种终端或服务器设备，也可以为集成在这些设备上的装置或芯片。如图4所示，该动作识别方法包括如下步骤：

S400，构建预设特征库。

在本申请实施例中，可以先根据要识别的视频或视频的类型构建对应的特征库，特别是，在该特征库中可以预先存储有视频数据的视频帧中标识空间动作关系的特征向量与预定的动作类别的特征向量之间的对应关系。例如，可以预先通过人工标注来获得具有标注信息的视频帧，并根据该视频帧和标注信息来在步骤S400中建立特征库。

S410，获取待识别视频数据。

在本申请实施例中，可以首先在步骤S310中从各种视频数据源获取待识别视频数据，该待识别视频数据例如可以是由安装在如商场中，公交车上，公共办公区域等的各个区域的视频/图像采集装置采集到的视频。待识别视频数据可以是实时获取的视频数据，也可以是以预设时间间隔获取的视频数据，例如，可以每24小时从摄像头获取视频数据作为待识别视频数据。也可以根据实际需要以任何其他时间间隔去获取视频数据作为待识别视频数据，例如，在用户的控制下向摄像头请求待识别视频数据。此外，本申请实施例中的待识别视频数据可以是包含有目标对象的视频数据，特别是包含有多个目标对象的视频数据。例如对于分拣快递的分拣区域的服务情况采集的视频数据。

S420，从待识别视频数据中获取包含第一对象的第一视频帧序列和包含第二对象的第二视频帧序列。

在步骤S410获取到了待识别视频数据之后，可以对于通过划分该视频数据获得的各视频帧进行对象识别，在本申请实施例中，可以使用各种常用的对象识别方案来识别各视频帧中的对象，并且根据识别出的对象来选择包含有第一对象的多个视频帧组成第一视频帧序列以及包含有第二对象的多个视频帧来组成第二视频序列。例如，在提供餐饮服务场景中，可以在采集到的餐饮服务视频帧中选择识别出包含一个服务人员的视频帧来组成第一视频帧序列，并且可以选择识别出包含一个顾客的视频帧来组成第二视频帧序列。在本申请实施例中，第一视频帧序列中的各个视频帧在选择时仅需要至少包含该服务人员，而并非是要求仅包含该服务人员。例如，可以选择包含该服务人员和店长的视频帧作为该第一视频帧序列的视频帧，或者也可以选择包含该服务人员和组成第二视频帧序列的顾客的视频帧作为该第一视频帧序列的视频帧。类似地，在选择构成第二视频帧序列的各个视频帧时，也仅需要该第二视频帧序列的各个视频帧至少包含该顾客即可。特别地，在本申请实施例中，可以先选择具有公共时段的视频帧，并且进而从这些视频帧中再选择分别至少包含有第一对象的视频帧作为第一视频帧序列以及至少包含有第二对象的视频帧作为第二视频帧序列。当然，也可以先选择分别至少包含有第一对象的视频帧以及至少包含有第二对象的视频帧，之后进一步将这些视频帧中具有公共时段的视频帧作为第一视频帧序列和第二视频帧序列。

S430，基于第一视频帧序列和第二视频帧序列，得到第一对象和第二对象在每一视频帧中的时空场景组。

因此，在步骤S420选择了分别至少包含有第一对象，例如服务人员的第一视频帧序列和第二对象，例如顾客的第二视频帧序列之后，根据本申请实施例的动作识别方法可以在步骤S430中使用视频帧中识别出的对象的时间信息和空间信息，例如，在上述餐饮服务的服务场景中，可以使用第一视频帧序列中服务人员在各个视频帧中的时间信息，例如，下午1点12分24秒，以及空间信息，例如对象在该帧中的位置坐标等。根据这些时间信息和空间信息就可以在步骤S330中选择包含有第一对象和第二对象两个对象的视频帧，以构成时空场景组，即该服务人员为该顾客提供服务的场景组。特别地，在本申请实施例中，时空场景组是一种用于描述图像中对象与对象之间的空间动作关系的抽象组。例如，在上述餐饮服务场景中，包含有该服务人员与该顾客的各个对应视频帧构成的时空场景组就可以表示该服务人员为该顾客提供服务的空间动作关系，例如为顾客上菜，顾客向服务人员咨询菜单等等交互动作场景。因此，可以根据各帧中所包含的这两个对象的时间信息可以选择出具有相同时间信息的对象，并且根据空间信息选择在空间位置上具有相关性的视频帧，从而可以构成包含有这两个对象的时空场景组。

具体地，在本申请实施例中，可以从步骤S420确定的两个视频帧序列中选择第一视频帧序列和第二视频帧序列中的一个作为对象帧序列，例如，在上述餐饮服务的场景中，可以选择包含有服务人员的第一视频帧序列作为对象帧序列，并且进而对于该对象帧序列中的每一视频帧，在另一个视频帧序列，即包含有顾客的第二视频帧序列中寻找包含有对象帧序列所涉及的对象，例如服务人员的视频帧作为邻近目标帧，并且将对象帧与对应的邻近目标帧组成第一对象和第二对象在该帧的时空场景组。因此，通过该方式就可以找到在时间上重叠或接近的包含有该顾客和该服务人员的视频帧，这些视频帧由于时间上重叠或接近，并且还包含有顾客和服务人员，因此就可以表示服务人员与该顾客进行交互的视频帧组。

S440，获取第一视频帧序列中每一帧的第一对象时空信息、第一结构化属性和对应的第一置信度。

S450，获取第二视频帧序列中每一帧的第二对象时空信息、第二结构化属性和对应的第二置信度。

在本申请实施例中，可以进一步对于两个视频帧序列中的每一帧进一步获取时空信息、结构话属性和置信度。特别地，对象时空信息可以包括对于该视频帧中识别出的对象的拍摄时间和对象的检测边界框。在本申请实施例中，检测边界框可以是基于对象的像素与周围环境的像素的差来获得，也可以根据对象在视频帧中的位置坐标来确定该边界框。

S460，针对每个时空场景组，计算第一对象的检测边界框和第二对象的检测边界框的空间动作关系。

在步骤S430中获取到了包含有第一对象和第二对象的两个对象的时空场景组之后，可以进一步基于步骤S430中的这些时空场景组来确定第一对象和第二对象的空间动作关系。例如，可以基于步骤S440和S450中获取到的第一对象和第二对象的时空信息来确定两个对象在空间上的动作关系。例如，第一对象和第二对象的空间动作关系可以包括：上-下(相交)，上-下(不相交)，左下-右上(相交)，左下-右上(不相交)，左-右(相交)，左-右(不相交)，左上-右下(相交)，左上-右下(不相交)，包含-被包含。从上述示例中也可以看出，这些空间动作关系是可以基于对象在空间上的位置而确定的。

S470，将各视频帧的空间动作关系聚合为第一特征向量。

在步骤S470可以基于步骤S460获得的第一对象和第二对象的空间动作关系来将具有这样的空间动作关系的视频帧聚合为多维的特征向量，以便于与预先设置的特征库中的各种特征向量进行匹配。

S481，将第一特征向量与预设特征库中的第二特征向量进行比对以获得至少一个交互动作类别。

在步骤481中，可以将上述步骤S470中通过聚合步骤S460中的各个帧的空间动作关系获得的特征向量与预设的特征库中的特征向量进行对比。例如，可以计算特征之间的相似度，并且将相似度大于预设阈值的第二特征向量所对应的交互动作类别作为该待识别视频数据的候选动作类别。

S482，根据基于第一结构化属性和对应的第一置信度，第二结构化属性和对应的第二置信度以及预设常识库对至少一种交互动作类别进行筛选。

S483，根据筛选结果，将选中次数最多的交互动作类别确定为待识别视频数据中的交互动作类别。

在步骤S482中，可以对于步骤S481中获得的动作类别进行进一步的筛选，并且可以在步骤S483中将在步骤S482的筛选中选中的次数最高的动作类别作为该待识别视频帧的动作类别。

此外，在根据筛选结果确定了待识别视频帧的动作类别之后，根据本申请实施例的动作识别方法可以进一步包括通过交互接口将确定的动作类别输出给用户，例如，可以以可视界面的方式提供该交互接口，并且根据本申请实施例的动作识别方法可以将步骤S483中确定的动作类别显示在该可视界面上，并且可以接收用户对于所显示的动作类别的反馈输入，例如用户可以通过键盘、鼠标、或者触摸屏幕的方式来对所显示的动作类别识别结果进行反馈。例如，用户可以通过点击该动作类别而输入确认指令，或者可以通过直接输入其他动作类别的名称来对步骤S483输出的结果进行修改。因此，根据本申请实施例的动作识别方法可以根据用户通过该交互接口给出的交互反馈来对结果进行进一步的处理。例如，在用户通过该交互界面确认步骤S483的结果时，根据本申请的实施例的动作识别方法可以将该识别结果与对应的视频帧的第一特征向量输入到预设特征库中来对特征库进行更新，以补充新的已知匹配关系，从而能够随着本申请实施例的动作识别方法的使用而自动地增加预设特征库中的参考特征向量和动作类别的对应关系。此外，根据本申请实施例的动作识别方法还可以在上述通过交互界面输出或显示步骤S483中识别的动作类别对应的姿态，并且可以进一步将步骤S410中获取到的视频中包含该姿态的视频帧也通过该交互界面输出给用户，以便于用户参考或确认。此外，在通过交互界面显示步骤S483识别出的动作类别的姿态时，也可以使用除了步骤S410中获取到的视频之外的来自例如特定视频库中的视频来将其中包含有该姿态的视频帧输出给用户进行参考。

此外，根据本申请实施例的交互动作识别方法还可以通过上述交互界面输出步骤S400构建特征数据库的过程，例如，可以通过交互界面显示预定的视频源或者多个视频帧，并且接收用户对于视频源或视频帧的选择，从而根据本申请实施例的交互方法可以在步骤S400中对用户所选择的视频源的视频帧或者用户直接选择的视频帧进行处理，以获取第二特征向量。此外，还可以通过该交互界面向用户显示获取到的视频帧的标注信息，并且类似地可以通过该交互界面接收用户对于标注信息的反馈或者甚至可以直接接收用户对于所显示的视频帧的标注输入，并且将用户输入的标注作为该视频帧的标注信息。

因此，本申请实施例提供的动作识别方法，通过构建预设特征库并且将待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所构建的特征库中的第二特征向量进行匹配来识别交互动作类别，因此，在本申请实施例的识别方案中，通过先构建预设特征库，在该特征库中存储了多个空间动作关系与交互动作类别的特征向量的对应关系，从而可以基于帧级别的空间动作关系来使用该预设特征库识别视频帧中的空间动作关系的动作类别，因此减小了依赖的标注量和消耗的计算资源，提高了对于交互动作的捕获的准确。

实施例五

图5为本申请提供的动作识别装置实施例的结构示意图，可用于执行如图2至图4所示的方法步骤。如图5所示，该动作识别装置可以包括：获取模块41、选择模块42、确定模块43、聚合模块44、匹配模块45和构建模块46。

获取模块41可以用于获取待识别视频数据。

在本申请实施例中，获取模块41可以从各种视频数据源获取待识别视频数据，该待识别视频数据例如可以是由安装在如商场中，公交车上，公共办公区域等的各个区域的视频/图像采集装置采集到的视频。待识别视频数据可以是实时获取的视频数据，也可以是以预设时间间隔获取的视频数据，例如，可以每24小时从摄像头获取视频数据作为待识别视频数据。也可以根据实际需要以任何其他时间间隔去获取视频数据作为待识别视频数据，例如，在用户的控制下向摄像头请求待识别视频数据。此外，本申请实施例中的待识别视频数据可以是包含有目标对象的视频数据，特别是包含有多个目标对象的视频数据。例如对于分拣快递的分拣区域的服务情况采集的视频数据。

选择模块42可以用于根据待识别视频数据的各视频帧中的对象的时间信息和空间信息，从待识别视频数据中选择包含有第一对象和第二对象的视频帧构成时空场景组。

获取模块41获取到了待识别视频数据之后，可以对于通过划分该视频数据获得的各视频帧进行对象识别，在本申请实施例中，可以使用各种常用的对象识别方案来识别各视频帧中的对象，从而选择模块42可以使用视频帧中识别出的对象的时间信息和空间信息，例如，在上述分拣快递的服务场景中，可以使用采集到的的图像中的各个快递员在该视频帧中的时间信息，例如，下午1点12分24秒，以及空间信息，例如对象在该帧中的位置坐标等。

此外，选择模块42根据各帧中识别出的对象的时间信息和空间信息选择出包含有第一对象和第二对象两个对象的视频帧，以构成时空场景组。在本申请实施例中，时空场景组是一种用于描述图像中对象与对象之间的空间关系的抽象组。例如，可以根据帧中所包含的对象的时间信息可以选择出具有相同时间信息的对象，并且根据空间信息选择在空间位置上具有相关性的视频帧，从而可以构成包含有这两个对象的时空场景组。

此外，在提供餐饮服务场景中，可以在采集到的餐饮服务视频帧中选择识别出包含一个服务人员的视频帧来组成第一视频帧序列，并且可以选择识别出包含一个顾客的视频帧来组成第二视频帧序列。在本申请实施例中，第一视频帧序列中的各个视频帧在选择时仅需要至少包含该服务人员，而并非是要求仅包含该服务人员。例如，可以选择包含该服务人员和店长的视频帧作为该第一视频帧序列的视频帧，或者也可以选择包含该服务人员和组成第二视频帧序列的顾客的视频帧作为该第一视频帧序列的视频帧。类似地，在选择构成第二视频帧序列的各个视频帧时，也仅需要该第二视频帧序列的各个视频帧至少包含该顾客即可。特别地，在本申请实施例中，可以先选择具有公共时段的视频帧，并且进而从这些视频帧中再选择分别至少包含有第一对象的视频帧作为第一视频帧序列以及至少包含有第二对象的视频帧作为第二视频帧序列。当然，也可以先选择分别至少包含有第一对象的视频帧以及至少包含有第二对象的视频帧，之后进一步将这些视频帧中具有公共时段的视频帧作为第一视频帧序列和第二视频帧序列。

确定模块43可以用于基于各时空场景组，确定第一对象和第二对象的空间动作关系。

选择模块42获取到了包含有第一对象和第二对象的两个对象的时空场景组之后，确定模块43可以进一步基于选择模块42构造的这些时空场景组来确定第一对象和第二对象的空间动作关系。例如选择模块42构成时空场景组时使用了各帧中的对象的空间信息，因此确定模块43就可以基于这些空间信息来确定两个对象在空间上的动作关系。例如，第一对象和第二对象的空间动作关系可以包括：上-下(相交)，上-下(不相交)，左下-右上(相交)，左下-右上(不相交)，左-右(相交)，左-右(不相交)，左上-右下(相交)，左上-右下(不相交)，包含-被包含。从上述示例中也可以看出，这些空间动作关系是可以基于对象在空间上的位置而确定的。

此外，选择模块42选择了分别至少包含有第一对象，例如服务人员的第一视频帧序列和第二对象，例如顾客的第二视频帧序列之后，确定模块43可以使用第一视频帧序列中例如服务人员的第一对象在各个视频帧中的时间信息，例如，下午1点12分24秒，以及空间信息，例如对象在该帧中的位置坐标等。根据这些时间信息和空间信息就可以选择包含有第一对象和第二对象两个对象的视频帧，以构成时空场景组，即该服务人员为该顾客提供服务的场景组。在上述餐饮服务场景中，包含有该服务人员与该顾客的各个对应视频帧构成的时空场景组就可以表示该服务人员为该顾客提供服务的空间动作关系，例如为顾客上菜，顾客向服务人员咨询菜单等等交互动作场景。因此，可以根据各帧中所包含的这两个对象的时间信息可以选择出具有相同时间信息的对象，并且根据空间信息选择在空间位置上具有相关性的视频帧，从而可以构成包含有这两个对象的时空场景组。

具体地，在本申请实施例中，确定模块43可以从选择模块42构造的两个视频帧序列中选择第一视频帧序列和第二视频帧序列中的一个作为对象帧序列，例如，在上述餐饮服务的场景中，可以选择包含有服务人员的第一视频帧序列作为对象帧序列，并且进而对于该对象帧序列中的每一视频帧，在另一个视频帧序列，即包含有顾客的第二视频帧序列中寻找包含有对象帧序列所涉及的对象，例如服务人员的视频帧作为邻近目标帧，并且将对象帧与对应的邻近目标帧组成第一对象和第二对象在该帧的时空场景组。因此，通过该方式就可以找到在时间上重叠或接近的包含有该顾客和该服务人员的视频帧，这些视频帧由于时间上重叠或接近，并且还包含有顾客和服务人员，因此就可以表示服务人员与该顾客进行交互的视频帧组。

在本申请实施例中，确定模块43可以进一步对于两个视频帧序列中的每一帧进一步获取时空信息、结构话属性和置信度。特别地，对象时空信息可以包括对于该视频帧中识别出的对象的拍摄时间和对象的检测边界框。在本申请实施例中，检测边界框可以是基于对象的像素与周围环境的像素的差来获得，也可以根据对象在视频帧中的位置坐标来确定该边界框。因此，确定模块43可以针对每个时空场景组，计算第一对象的检测边界框和第二对象的检测边界框的空间动作关系。

聚合模块44可以用于将各视频帧的空间动作关系聚合为第一特征向量。

聚合模块44可以基于确定模块43获得的第一对象和第二对象的空间动作关系来将具有这样的空间动作关系的视频帧聚合为多维的特征向量，以便于与预先设置的特征库中的各种特征向量进行匹配。

构建模块46可以用于构建预设特征库。例如，构建模块46可以对预先采集的动作视频帧进行处理，获取第二特征向量，具体地，构建模块46可以先根据要识别的视频或视频的类型构建对应的特征库，特别是，在该特征库中可以预先存储有视频数据的视频帧中标识空间动作关系的特征向量与预定的动作类别的特征向量之间的对应关系。例如，可以在步骤S301中对预先采集的视频数据中的动作视频帧进行处理，以获取标识这些动作视频帧中的空间动作关系的第二特征向量。特别地，这些动作视频帧可以是预先挑选或按照预定标准自动筛选出的视频帧，这些视频帧中具有已经自动或通过人工标注的动作信息。因此，这样的视频帧中反映空间动作关系的特征向量可以作为参考特征向量。此外，构建模块46可以获取针对动作视频帧的标注信息。在构建模块46获取了动作视频帧的第二特征向量之后，可以进一步获取这些视频帧的标注信息，特别地，这些标注信息可以用于标识动作视频帧中的对象的交互动作类别。构建模块46还可以将第二特征向量与交互动作类别相对应，以构建预设特征库。因此，构建模块46可以根据获取到的针对视频帧的标注信息，尤其是这些标注信息标识了获取的动作视频帧中的对象的交互动作类别，以及通过对动作视频帧进行处理而获取到的标识动作视频帧中的空间动作关系的第二特征向量来建立特征库，从而预设特征库中可以包括多个视频帧的动作向量以及与交互动作类别的对应关系。

匹配模块45可以用于将第一特征向量与预设特征库中的第二特征向量进行匹配，得到待识别视频数据中的交互动作类别。

匹配模块45可以将聚合模块44通过聚合确定模块43确定的各个帧的空间动作关系获得的特征向量与预设的特征库中的特征向量进行匹配处理。例如，可以计算特征之间的相似度，并且将相似度大于预设阈值的第二特征向量所对应的交互动作类别作为该待识别视频数据的动作类别。

例如，匹配模块45可以将第一特征向量与预设特征库中的第二特征向量进行比对以获得至少一个交互动作类别。

特别地，匹配模块45可以将聚合模块44通过聚合各个帧的空间动作关系获得的特征向量与预设的特征库中的特征向量进行对比。例如，可以计算特征之间的相似度，并且将相似度大于预设阈值的第二特征向量所对应的交互动作类别作为该待识别视频数据的候选动作类别。

进而，匹配模块45可以根据基于第一结构化属性和对应的第一置信度，第二结构化属性和对应的第二置信度以及预设常识库对至少一种交互动作类别进行筛选。并且根据筛选结果，将选中次数最多的交互动作类别确定为待识别视频数据中的交互动作类别。

因此，本申请实施例提供的动作识别装置，通过构建预设特征库并且将待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所构建的特征库中的第二特征向量进行匹配来识别交互动作类别，因此，在本申请实施例的识别方案中，通过先构建预设特征库，在该特征库中存储了多个空间动作关系与交互动作类别的特征向量的对应关系，从而可以基于帧级别的空间动作关系来使用该预设特征库识别视频帧中的空间动作关系的动作类别，因此减小了依赖的标注量和消耗的计算资源，提高了对于交互动作的捕获的准确。

实施例六

以上描述了动作识别装置的内部功能和结构，该装置可实现为一种电子设备。图6为本申请提供的电子设备实施例的结构示意图。如图6所示，该电子设备包括存储器51和处理器52。

存储器51，用于存储程序。除上述程序之外，存储器51还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器51可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器52，不仅仅局限于中央处理器(CPU)，还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片。处理器52，与存储器51耦合，执行存储器51所存储的程序，该程序运行时执行上述实施例二至四的动作识别方法。

进一步，如图6所示，电子设备还可以包括：通信组件53、电源组件54、音频组件55、显示器56等其它组件。图6中仅示意性给出部分组件，并不意味着电子设备只包括图5所示组件。

通信组件53被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，3G、4G或5G，或它们的组合。在一个示例性实施例中，通信组件53经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件53还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件54，为电子设备的各种组件提供电力。电源组件54可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件55被配置为输出和/或输入音频信号。例如，音频组件55包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器51或经由通信组件53发送。在一些实施例中，音频组件55还包括一个扬声器，用于输出音频信号。

显示器56包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种动作识别方法，包括：

构建预设特征库；

获取待识别视频数据；

将所述待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所述预设特征库中的第二特征向量进行匹配，以获得所述待识别视频数据中的交互动作类别，其中，所述预设特征库中包括多个所述第一特征向量以及与所述第二特征向量对应的交互动作类别。

2.根据权利要求1所述的动作识别方法，其中，所述将所述待识别视频数据中的各视频帧的标识空间动作关系的第一特征向量与所述预设特征库中的第二特征向量进行匹配包括：

根据所述待识别视频数据的各视频帧中的对象的时间信息和空间信息，从所述待识别视频数据中选择包含有第一对象和第二对象的视频帧构成时空场景组；

基于各所述时空场景组，确定所述第一对象和所述第二对象的空间动作关系；

将各视频帧的空间动作关系聚合为第一特征向量；

将所述第一特征向量与预设特征库中的第二特征向量进行匹配，得到所述待识别视频数据中的交互动作类别。

3.根据权利要求2所述的动作识别方法，其中，所述根据所述待识别视频数据的各视频帧中的对象的时间信息和空间信息，从所述待识别视频数据中选择包含有第一对象和第二对象的视频帧构成时空场景组包括：

从所述待识别视频数据中获取包含所述第一对象的第一视频帧序列和包含所述第二对象的第二视频帧序列；

基于所述第一视频帧序列和所述第二视频帧序列，得到所述第一对象和所述第二对象在每一视频帧中的时空场景组。

4.根据权利要求3所述的动作识别方法，其中，所述基于所述第一视频帧序列和所述第二视频帧序列，得到所述第一对象和所述第二对象在每一视频帧中的时空场景组包括：

确定所述第一视频帧序列和所述第二视频帧序列中的一个为对象帧序列；

对于所述对象帧序列中的每一视频帧，在另一个视频帧序列中寻找包含有所述对象帧序列所涉及的对象的视频帧作为邻近目标帧，并且将所述对象帧与对应的邻近目标帧组成所述第一对象和所述第二对象在该帧的时空场景组。

5.根据权利要求3所述的动作识别方法，其中，所述方法进一步包括：

获取所述第一视频帧序列中每一帧的第一对象时空信息、第一结构化属性和对应的第一置信度；

获取所述第二视频帧序列中每一帧的第二对象时空信息、第二结构化属性和对应的第二置信度，

其中，所述第一对象时空信息中包括第一拍摄时间和所述第一对象的检测边界框；所述第二对象时空信息中包括第二拍摄时间和所述第二对象的检测边界框。

6.根据权利要求5所述的动作识别方法，其中，所述基于各所述时空场景组，确定所述第一对象和所述第二对象的空间动作关系的步骤，包括：

针对每个所述时空场景组，计算所述第一对象的检测边界框和所述第二对象的检测边界框的空间动作关系。

7.根据权利要求1所述的动作识别方法，其中，所述构建预设特征库包括：

对预先采集的动作视频帧进行处理，获取第二特征向量；

获取针对所述动作视频帧的标注信息，其中，所述标注信息用于标识所述动作视频帧中的对象的交互动作类别；

将所述第二特征向量与所述交互动作类别相对应，以构建所述预设特征库。

8.一种动作识别装置，包括：

构建模块，用于构建预设特征库；

获取模块，用于获取待识别视频数据；

9.一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行如权利要求1至7中任一所述的动作识别方法。

10.一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，该程序被处理器执行时实现如权利要求1至7中任一所述的动作识别方法。