CN109558781B

CN109558781B - 一种多视角视频识别方法及装置、设备和存储介质

Info

Publication number: CN109558781B
Application number: CN201810870738.1A
Authority: CN
Inventors: 王东昂; 欧阳万里; 李文; 徐东
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2021-07-02
Anticipated expiration: 2038-08-02
Also published as: CN109558781A

Abstract

本申请实施例提供一种多视角视频识别方法及装置、设备和存储介质，其中，获取待识别的多视角视频；其中，所述多视角视频至少包括两个视角对应的视频；将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果，其中，所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征，并对所述在不同视角下的特异性特征进行分类，得到所述多视角视频的识别结果；输出所述多视角视频的识别结果。

Description

一种多视角视频识别方法及装置、设备和存储介质

技术领域

本申请实施例涉及计算机图像处理技术领域，涉及但不限于一种多视角视频识别方法及装置、设备和存储介质。

背景技术

对视频人员行为的建模是计算机视觉以及智能视频监控领域的重要问题。行为识别模型可以在很多领域有重要应用，如异常行为的检测、人员动作预测等，同时行为识别模型也是其他更加复杂的智能系统的基础。

以神经网络为基础的深度学习技术在行为识别中已经取得了很好的成果，对于单一视角视频的行为识别精度超过了90％。然而多视角视频的建模更加复杂，这是因为在多视角视频中，不同的行为可能因为遮挡和视角，体现出相似的特征；相同的行为也可能因为视角不同而体现出完全不同的特征。这些信息可能会对建模造成干扰，从而降低识别的准确程度。相关技术中采用多视角视频行为识别方法多局限于学习各个视角的共有特征，并以此为基础进行多视角视频的建模。这些方法大多忽略了对各个视角特有特征的使用，因而识别精度有限。

发明内容

有鉴于此，本实施例提供一种多视角视频识别方法及装置、设备和存储介质。

本实施例的技术方案是这样实现的：

本实施例提供一种多视角视频识别方法，所述方法包括：

获取待识别的多视角视频；其中，所述多视角视频至少包括两个视角对应的视频；

将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果，其中，所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征，并对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果；

输出所述多视角视频的识别结果。

在本实施例中，所述神经网络模型包括第一部分和第二部分，所述方法包括：

采用所述第一部分确定所述多视角视频在不同视角下的特异性特征；

采用所述第二部分对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果。

在本实施例中，所述神经网络模型还包括第三部分，所述方法包括：

采用所述第三部分对所述在不同视角下的特异性特征进行调整，得到调整后的特异性特征；对应地，采用所述第二部分对所述调整后的特异性特征进行分类，得到所述样本视频的识别结果。

在本实施例中，所述第一部分包括共享神经网络和V个分支神经网络，V为大于等于2的整数，所述方法包括：

采用所述共享神经网络确定所述多视角视频在不同视角下公共特征；

采用所述V个分支神经网络中的每一分支神经网络从所述公共特征中提取在对应视角下的特异性特征；其中，每一所述分支神经网络一一对应一个视角。

在本实施例中，所述第二部分包括V组分类器，每一组分类器包括V个分类器，所述采用所述第二部分对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果，包括：

根据所述特异性特征和所述第二部分中一组分类器的V个分类器，确定动作类别向量；其中，所述动作类别向量的维度与动作类别的数量相同，所述动作类别向量中的每一数值用于表征特异性特征属于对应动作类别的概率；

根据所述公共特征和第一V×V个动作类别向量，确定所述多视角视频的识别结果，其中，所述第一V×V个动作类别向量为V个特异性特征对应的V×V个动作类别向量。

在本实施例中，所述第三部分包括条件随机场，所述采用所述第三部分对所述在不同视角下的特异性特征进行调整，得到调整后的特异性特征，包括：

根据所述第三部分中的条件随机场对所述V个特异性特征进行调整，得到V个调整后的特异性特征；

对应地，所述采用所述第二部分对所述调整后的特异性特征进行分类，得到所述样本视频的识别结果，包括：

根据所述V个调整后的特异性特征和所述第二部分中的分类器确定第二V×V个动作类别向量；其中，所述第二V×V个动作类别向量为V个调整后的特异性特征对应的V×M个动作类别向量；

根据所述公共特征和所述第二V×V个动作类别向量，确定所述多视角视频的识别结果。

在本实施例中，所述V个调整后的特异性特征中的调整后的第i个特异性特征，包括：第一项和第二项；其中，所述第一项包括调整之前的第i特异性特征；第二项用于表明所述调整后的第i特异性特征与调整后的第j特异性特征之间的关系，其中i的取值为1到V之间的任一整数，j为1到V之间的任一整数且不等于i。

在本实施例中，所述根据所述公共特征和所述第二V×V个动作类别向量，确定所述多视角视频的识别结果，包括：

根据所述公共特征在V个视角中每一视角下的概率和所述第二V×V个动作类别向量对应的权重值，确定所述多视角视频的识别结果。

在本实施例中，所述方法还包括：

在所述V个调整后特异性特征中第I个调整后的特异性特征对应的V个预设权重值中，第I个预设权重值大于其他的(V-1)预设权重值；其中，I为大于0，且小于等于V的整数。

本实施例提供一种多视角视频识别装置，所述装置包括：第一获取模块、神经网络模型和第一输出模块，其中：

所述第一获取模块，用于获取待识别的多视角视频；其中，所述多视角视频至少包括两个视角对应的视频；

所述神经网络模型，用于将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果，其中，所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征，并对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果；

所述第一输出模块，用于输出所述多视角视频的识别结果。

在本实施例中，所述神经网络模型包括第一部分和第二部分，其中：

所述第一部分，用于确定所述多视角视频在不同视角下的特异性特征；

所述第二部分，用于对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果。

在本实施例中，所述神经网络模型还包括第三部分；

所述第三部分，用于对所述在不同视角下的特异性特征进行调整，得到调整后的特异性特征；

对应地，所述第二部分，还用于对所述调整后的特异性特征进行分类，得到所述样本视频的识别结果。

在本实施例中，所述第一部分包括共享神经网络和V个分支神经网络，V为大于等于2的整数；

所述共享神经网络，用于确定所述多视角视频在不同视角下公共特征；

所述V个分支神经网络中的每一分支神经网络，用于从所述公共特征中提取在对应视角下的特异性特征；其中，每一所述分支神经网络一一对应一个视角。

在本实施例中，所述第二部分包括V组分类器，每一组分类器包括V个分类器，所述第二部分，包括：

第一确定子模块，用于根据所述特异性特征和所述第二部分中一组分类器的V个分类器，确定动作类别向量；其中，所述动作类别向量的维度与动作类别的数量相同，所述动作类别向量中的每一数值用于表征特异性特征属于对应动作类别的概率；

第二确定子模块，用于根据所述公共特征和第一V×V个动作类别向量，确定所述多视角视频的识别结果，其中，所述第一V×V个动作类别向量为V个特异性特征对应的V×V个动作类别向量。

在本实施例中，所述第三部分包括条件随机场，所述第三部分，还包括：

第一调整子模块，用于根据所述第三部分中的条件随机场对所述V个特异性特征进行调整，得到V个调整后的特异性特征；

对应地，所述第二部分，还包括：

第三确定子模块，用于根据所述V个调整后的特异性特征和所述第二部分中的分类器确定第二V×V个动作类别向量；其中，所述第二V×V个动作类别向量为V个调整后的特异性特征对应的V×M个动作类别向量；

第四确定子模块，用于根据所述公共特征和所述第二V×V个动作类别向量，确定所述多视角视频的识别结果。

在本实施例中，所述第四确定子模块，包括：

第一确定单元，用于根据所述公共特征在V个视角中每一视角下的概率和所述第二V×V个动作类别向量对应的权重值，确定所述多视角视频的识别结果。

在本实施例中，在所述V个调整后特异性特征中第I个调整后的特异性特征对应的V个预设权重值中，第I个预设权重值大于其他的(V-1)预设权重值；其中，I为大于0，且小于等于V的整数。

本实施例提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现本实施例提供的多视角视频识别方法中的步骤。

本实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现本实施例提供的多视角视频识别方法中的步骤。

本实施例提供一种多视角视频识别方法及装置、设备和存储介质，其中，首先，获取待识别的多视角视频；其中，所述多视角视频至少包括两个视角对应的视频；然后，将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果，其中，所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征，并对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果；最后，输出所述多视角视频的识别结果；如此，通过确定对多视角视频的在不同视角下的特异性特征，并对这些特异性特征进行分类，从而以更高的识别精度识别出多视角视频对应的动作类别。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1A为本实施例网络架构的组成结构示意图；

图1B为本实施例多视角视频识别方法的实现流程示意图；

图1C为本实施例实现多视角视频识别方法的网络架构图；

图1D为本实施例又一实现多视角视频识别方法的网络架构图；

图2A为本多视角视频识别方法的又一实现流程示意图；

图2B为本多视角视频识别方法的再一实现流程示意图；

图3为本实施例一种多视角视频识别方法的网络架构示意图；

图4A为本实施例神经网络模型的基于条件随机场的信息传递模块的结构示意图；

图4B为本实施例神经网络模型的基于视角预测结果的融合模块的结构示意图；

图5为本实施例多视角视频识别组成结构示意图

图6为本实施例计算机设备的组成结构示意图。

具体实施方式

为使本实施例的目的、技术方案和优点更加清楚，下面将结合本实施例中的附图，对发明的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

本实施例先提供一种网络架构，图1A为本申请实施例网络架构的组成结构示意图，如图1A所示，该网络架构包括两个或多个计算机设备11至1N和服务器31，其中计算机设备11至1N与服务器31之间通过网络21进行交互。计算机设备在实现的过程中可以为各种类型的具有信息处理能力的计算机设备，例如所述计算机设备可以包括手机、平板电脑、台式机、个人数字助理、导航仪、数字电话、电视机等。

本实施例提出一种多视角视频识别方法，能够有效提高多视角视频的识别准确度，该方法应用于计算机设备，该方法所实现的功能可以通过计算机设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算机设备至少包括处理器和存储介质。

图1B为本实施例多视角视频识别方法的实现流程示意图，如图1B所示，所述方法包括以下步骤：

步骤S101，获取待识别的多视角视频。

这里，所述多视角视频是至少包括两个视角对应的视频，比如，一个演唱会的视频，为了给用户带来不同角度的视觉体验，分别从演唱会的后台和观众席两个角度对该演唱会进行拍摄，得到包含两个视角的演唱会视频。

所述步骤S101可以是由计算机设备实现的，进一步地，所述计算机设备可以是智能终端，例如可以是移动电话(手机)、平板电脑、笔记本电脑等具有无线通信能力的移动终端设备，还可以是台式计算机等不便移动的智能终端设备。所述计算机设备用于进行多视角视频的识别。

步骤S102，将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果。

这里，所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征，并对所述在不同视角下的特异性特征进行分类，得到所述多视角视频的识别结果。所述特异性特征可以理解为是一个视频在调整后的特异性特征下所特有的特征。

在一种实施例中，所述神经网络模型可以认为是包含两个部分，一部分是基本多分支模块，用于确定所述多视角视频在不同视角下的特异性特征；另一部分是基于视角预测结果的融合模块，用于对所述在不同视角下的特异性特征进行分类，得到所述视频的识别结果。

在另一实施例中，所述神经网络模型可以认为是包含三个部分，一部分是是基本多分支模块，用于确定所述多视角视频在不同视角下的特异性特征，第二部分是基于视角预测结果的融合模块，用于对所述在不同视角下的调整后的特异性特征进行分类，得到所述视频的识别结果；第三部分是基于条件随机场的信息传递模块，用于对所述在不同视角下的特异性特征进行调整，得到调整后的特异性特征。而且第一部分、第二部分和第三部分是互相连接且不重叠的三个部分，即将待识别的多视角视频输入神经网络模型中，通过第一部分得到该多视角视频对应的特异性特征；然后将多特异性特征输入到第三部分，由第三部分的随机条件场对特异性特征进行调整，得到调整后的特异性特征；最后，将调整后的特异性特征输入第二部分，通过第二部分中的分类器对这些调整后的特异性特征进行分类，得到多视角视频的识别结果。

步骤S103，输出所述多视角视频的识别结果。

这里，所述步骤S103可以是由计算机设备实现的。

在实际实现过程中，所述计算机设备输出所述多视角视频的识别结果可以是在自身显示屏上输出所述多视角视频的识别结果，还可以是所述计算机设备将所述识别结果输出至其他设备，也就是发送给其他设备，例如所述其他设备可以是用户的智能终端上。

在本实施例提供的一种多视角视频识别方法中，通过确定对多视角视频的在不同视角下的特异性特征，并对这些特异性特征进行分类，得到多视角视频的动作分类结果，如此，不仅提高了识别多视角视频对应的动作类别准确度，还显著提高了神经网络模型的描述能力。

在实现的过程中，训练得到的神经网络模型可以在计算机设备的本地，也可以是在服务器端。

当训练得到的神经网络模型在计算机设备本地时，可以是计算机设备安装客户端的时候，即安装了训练得到的神经网络模型，这样，参见图1C所示，计算机设备通过步骤S101获取待识别的多视角视频，然后通过步骤S102获取识别结果，最后通过步骤S103输出识别结果。从以上过程可以看出，计算机设备在安装完客户端之后，上述的步骤S101至步骤S103都在计算机设备本地执行，最后，计算机设备将得到识别结果输出给用户。

在其他实施例中，训练得到的神经网络模型也可以位于服务器端，参见图1D所示，这样计算机设备将待识别的多视角视频发送给服务器，这样服务器接收计算机设备发送的待识别的多视角视频，这样服务器实现了步骤S101，换句话说，如果上述的方法是在服务器端实现，那么步骤S101，包括：服务器接收计算机设备发送的待识别的多视角视频，即服务器确定待识别的多视角视频，然后服务器通过步骤S102获得识别结果，最后通过步骤S103获得输出识别结果；从以上过程可以看出，上述的步骤S101至步骤S103都在服务器端执行，最后服务器还可以将识别结果发送给计算机设备，这样计算机设备接收到识别结果后，输出识别结果给用户。本实施例中，计算机设备在安装完客户端之后，用户上传待识别的多视角视频，以及接收服务器发送的待识别的多视角视频，然后将多视角视频的识别结果输出给用户。

本实施例提供一种多视角视频识别方法，图2A为本多视角视频识别方法的又一实现流程示意图，如图2A所示，在所述神经网络模型包括第一部分和第二部分的情况下，所述方法包括以下步骤：

步骤S201，获取待识别的多视角视频。

步骤S202，采用第一部分中的共享神经网络确定所述多视角视频在不同视角下公共特征。

步骤S203，采用第一部分中的V个分支神经网络中的每一分支神经网络从所述公共特征中提取在对应视角下的特异性特征。

这里，第一部分(即基本多分支模块)，包括共享神经网络和V个分支神经网络，V为大于等于2的整数。当将所述待识别的多视角视频输入神经网络模型的第一部分的共享神经网络，确定所述多视角视频在不同视角下公共特征；然后在将公共特征输入第一部分的V个分支神经网络中的每一分支神经网络从所述公共特征中提取在对应视角下的特异性特征；其中，每一所述分支神经网络一一对应一个视角；如此，通过多个分支神经网络得到多视角视频在每个视角下的特异性特征，对多个视角视频的集合建模，提高了模型的描述能力。

步骤S204，根据所述特异性特征和所述第二部分中一组分类器的V个分类器，确定动作类别向量。

这里，所述第二部分包括V组分类器，每一组分类器包括V个分类器。所述动作类别向量的维度与动作类别的数量相同，所述动作类别向量中的每一数值用于表征特异性特征属于对应动作类别的概率。比如，动作类别的数量是1000，那么动作类别向量是维度为1000的向量。

步骤S205，根据所述公共特征和第一V×V个动作类别向量，确定所述多视角视频的识别结果。

这里，所述第一V×V个动作类别向量为V个特异性特征对应的V×V个动作类别向量，这样通过分类器得到动作类别向量，在根据公共特征和动作类别向量确定多视角视频的识别结果，由于视角分类器可以用来融合各个分支神经网络的行为识别结果，如此不仅提高了未知视角的视频的行为识别能力，而且降低了标记的成本。

在本实施例提供的一种多视角视频识别方法中，通过神经网络模型的第一部分的共享神经网络和多分支神经网络确定多视角视频的在不同视角下的特异性特征，然后通过第二部分中的分类器对所述特异性特征进行分类，得到多视角视频的识别结果，从而能够以更高的精确度确定多视角视频包含的动作类别。

本实施例提供一种多视角视频识别方法，图2B为本多视角视频识别方法的再一实现流程示意图，如图2B所示，在所述神经网络模型包括第一部分、第三部分和第二部分的情况下，所述方法包括以下步骤：

步骤S211，获取待识别的多视角视频。

步骤S212，采用第一部分中的共享神经网络确定所述多视角视频在不同视角下公共特征。

步骤S213，采用第一部分中的V个分支神经网络中的每一分支神经网络从所述公共特征中提取在对应视角下的特异性特征。

步骤S214，根据所述第三部分中的条件随机场对所述V个特异性特征进行调整，得到V个调整后的特异性特征。

这里，所述第三部分包括条件随机场，即采用所述第三部分对所述在不同视角下的特异性特征进行调整，得到调整后的特异性特征。这样使用条件随机场对特异性特征进行调整，把各个分支神经网络中的各个视角的视频信息进行传递，在学习各个视角的行为特征的同时考虑进各个视角之间的关联，进一步提高了模型对多视角视频的解释能力。所述V个调整后的特异性特征中的调整后的第i个特异性特征，包括：第一项和第二项；其中，所述第一项包括调整之前的第i特异性特征；第二项用于表明所述调整后的第i特异性特征与调整后的第j特异性特征之间的关系，其中i的取值为1到V之间的任一整数，j为1到V之间的任一整数且不等于i。比如，V＝10，即有10个调整后的特异性特征，那么第3个调整后的特异性特征的第一项表示第3个特异性特征调整之前的特异性特征信息；第二项表示，第3个调整后的特异性特征分别与其他9个之间的关系，即调整后的第3个调整后的特异性特征与第1个调整后的特异性特征的关系、调整后的第3个调整后的特异性特征与第2个调整后的特异性特征的关系、调整后的第3个调整后的特异性特征与第4个调整后的特异性特征的关系等等。

步骤S215，根据所述V个调整后的特异性特征和所述第二部分中的分类器确定第二V×V个动作类别向量。

这里，所述第二V×V个动作类别向量为V个调整后的特异性特征对应的V×M个动作类别向量。

步骤S216，根据所述公共特征和所述第二V×V个动作类别向量，确定所述多视角视频的识别结果。

这里，所述步骤S216，可以理解为是根据所述公共特征在V个视角中每一视角下的概率和所述第二V×V个动作类别向量对应的权重值，确定所述多视角视频的识别结果。在所述V个调整后特异性特征中第I个调整后的特异性特征对应的V个预设权重值中，第I个预设权重值大于其他的(V-1)预设权重值；其中，I为大于0，且小于等于V的整数。也就是说，不同的特异性特征对应的权重值是不同的，比如在第一个视角下得到的第一特异性特征，那么在第一特异性特征对应的V个预设权重值中，第一个视角下对应的第一个权重值是最大的，这样有利于提高第一视角下得到的第一特异性特征所占的比例，能够提高对该视角下动作类别的识别准确率。

在本实施例提供的一种多视角视频识别方法中，通过将第一部分得到的特异性特征通过第二部分的条件随机场进行调整得到调整后的特异性特征，最后在通过第三部分得到识别结果，这样不仅进一步提高了模型对多视角视频的解释能力，还使得到的多视角视频的动作识别结果更加准确。

在其他实施例中，所述步骤S216，可以通过以下步骤实现：

步骤S61，确定所述公共特征在V个视角中每一视角下的概率。

这里，比如一共是10个视角，通过分类器确定公共特征在每一视角下的概率，且概率和为1。

步骤S62，根据所述第二V×V个动作类别向量和所述第二V×V个动作类别向量对应的权重值，确定所述V个调整后的特异性特征对应的V个融合参数。

这里，所述步骤S62可以通过以下过程实现：

第一步，从所述第二V×V个动作类别向量中确定在同一视角下的V个动作类别向量；

第二步，根据在一个视角下的V个动作类别向量和对应的V个权重值，确定在所述一个视角下的融合参数；

第三步，将在V个视角下的V个融合参数确定为所述V个调整后的特异性特征对应的V个融合参数。

由此可见，所述融合参数可以理解为是在所有分类器得到的动作类别向量中，取同一个视角下动作类别向量，然后与该动作向量对应的权重值进行融合得到的。

步骤S63，根据所述V个融合参数和所述中每一视角下的概率，确定所述多视角视频的识别结果。

本实施例提出了一种多视角视频识别方法，通过采用本实施例提供的一种多视角视频识别方法，不仅可以学习多视角视频中调整后的特异性特征的深层表示，还可以调整后的特异性特征可用于互相帮助。由于这些特征是针对不同的视角，因此这些视角之间彼此自然互补。

本实施例提出一种用于多视角视频中动作识别的分割聚合式神经网络(Dividingand Aggregating Network，DA-Net)。在DA-Net中，每个分支神经网络都学习一组调整后的特异性特征。本实施例提出了一种基于条件随机场(Conditional Random Field，CRF)的信息传递模块，通过将消息相互传递来学习更好的调整后的特异性特征。最后，本实施例引入一种新的融合方法，使用预测的视角概率作为融合来自多个调整后的特异性特征分类的分类结果的权重，以输出动作分类的最终预测分数。

因此，采用本实施例提出的一种多视角视频识别方法，用于多视角动作识别的多分支网络。在该网络中，共享较低卷积神经网络(Convolutional Neural Network，CNN)层以学习与视角独立的公共特征。将公共特征作为输入，每个视角都有自己的分支CNN，以获得其特定于视角的特异性特征。然后，引入条件随机场模型将特异性特征调整为调整后的特异性特征，并在来自不同分支的特异性特征之间传递消息。调整后的特异性特征中的特征被视为连续随机变量，并将消息传递给另一视角中的特征。通过这种方式，不同分支的调整后的特异性特征可以相互通信和互相帮助。最后，在本实施例中采用了一种新的基于视角预测结果的融合方法，用于组合多个分支的动作分类得分。在本实施例的方法中，本实施例同时学习多个调整后的特异性特征的分类器和视角分类器。针对每个分支获得动作预测分数，并且通过使用视角预测概率作为权重来融合多个动作预测分数。

条件随机场(Conditional Random Field，CRF)在相关技术中被用于动作识别，因为它可以连接特征和输出，特别是对于诸如动作之类的时间信号。相关技术中提出了用于定位视频中动作类别，其中CRF用于在每个单视角视频中建模时空关系。CRF还可以利用空间特征之间的关系。在相关技术中将CRF引入深度学习网络中的图像分割。采用CRF处理像素之间的关系。模拟像素的关系以学习图像中对象的边缘。最近，利用CNN中的离散CRF进行人体姿态估计。本实施例的是通过利用来自不同视点的摄像机捕获的视频中的特征之间的关系来首先进行动作识别。本实施例的实验证明了本实施例的消息传递方法对于多视角动作识别的有效性。

在多视角动作识别任务中，训练或测试集中的每个样本包括从不同视点捕获的多个视频。任务是通过使用那些多视角训练视频训练强大的模型，并在多视角测试视频上执行动作识别。

在本实施例将训练数据表示为

其中X_i,v是来自第v个视角的第i个训练样本，V是视角的总数，N是多视角训练视频的数量。第i个多视角训练视频(X_i,1,…,X_i,v,…,X_i,V)的标签表示为y_i∈{1,…,K}，其中K是动作类别的总数。为了更好地呈现，当本实施例不关心每个视频来自哪个调整后的特异性特征时，本实施例可以使用X_i来表示一个视频，其中，i＝1,…,NV。

为了有效地处理多视角训练数据，本实施例设计了一个新的多分支神经网络。图3为本实施例一种多视角视频识别方法的网络架构示意图，如图3所示，该网络架构包括三个部分，即基本多分支模块31(第一部分)、基于条件随机场的信息传递模块32(第三部分)和基于视角预测结果的融合模块33(第二部分)；其中：

基本多分支模块31，用于将多视角视频34首先输入共享网络310，得到公共特征311；然后将公共特征311分别输入V个分支神经网络312，得到V个特异性特征313。

基于条件随机场的信息传递模块32，用于对V个特异性特征313进行调整，得到V个调整后的特异性特征322，即在进行传递V个特异性特征313时，采用条件随机场将V个特异性特征313调整为V个调整后的特异性特征322然后再传递给。

基于视角预测结果的融合模块33，用于采用V×V个分类器331对V个调整后的特异性特征322进行分类，得到V×V个动作类别向量332。然后，将V×V个动作类别向量332和预设的权值进行融合得到融合参数334；最后将融合参数334和采用分类器314确定的公共特征在不同视角下的概率333，相结合得到最终的动作类别参数335。

如图3所示，基本的多分支模块由两部分组成：共享神经网络：大多数卷积层是共享的，以节省计算并产生普通的特征(即与视角无关的特征)；V个分支神经网络：在共享神经网络之后，本实施例定义V是调整后的特异性特征分支，并且可以从这些分支中提取调整后的特异性特征。

在初始训练阶段，每个训练视频X_i首先通过共享网络，然后仅进入第v个调整后的特异性特征分支。然后，本实施例构建一个调整后的特异性特征的分类器来预测每个视角中视频的动作标签。由于每个分支都是通过使用特定视点的训练视频进行训练的，因此每个分支都会捕获其相应视角的信息量最大的特征。因此，可以预期来自不同视角的特征彼此互补以用于预测动作类别。本实施例将此结构称为基本多分支模块。

为了有效地集成不同的调整后的特异性特征分支以进行多视角动作识别，本实施例通过使用第三部分的条件随机场将特异性特征调整为调整后的特异性特征，并从不同分支提取的特异性特征之间传递消息，来进一步利用视角间关系。

本实施例将一个训练视频的多分支特征表示为

其中每个，f_v是从第v个分支提取的特异性特征(特异性特征)。本实施例的目标是估计调整后的特异性特征

其中，本实施例为每个f_v对应一个h_v。图4A为本实施例神经网络模型的基于条件随机场的信息传递模块的结构示意图，如图4A所示，首先将公共特征41转换为V个特异性特征f_v42，然后，对V个特异性特征f_v42进行调整得到V个调整后的特征性特征h_v43，并且在不同视角下的特征之间相互传递。

CRF中的能量函数定义为：

在公式(1)中，φ一元势函数，

是二元势函数。一般，h_v应该类似于f_v，即所定义的调整后的特异性特征不会从调整前的特异性特征改变太多。因此，一元势函数定义如下：

在公式(2)中，α_v是一个在训练过程中用于学习的权重参数。此外，本实施例采用二元势函数用于表征不同分支的调整后的特异性特征之间的相关性，定义为：

在公式(3)中，W_u,v是表示不同特异性特征之间关系的矩阵。W_u,v可以在训练过程中学习得到。

本实施例使用均值场来推断h_u的平均向量，表示如下：

因此，可以通过迭代应用上述等式来获得重新定义的调整后的特异性特征表示为

从CRF的定义来看，公式(4)中的第一项包括调整之前的第i特异性特征(即用作从特异性特征f_v接收信息的一元项，用于表示自己的当前视角)；第二项用于表明所述调整后的第i特异性特征与调整后的第j特异性特征之间的关系(即从其他视角u接收信息的二元项)。在公式(3)和公式(4)中，W_u,v表示第u个视角中的调整后的特异性特征h_u与第v个视角中的调整后的特异性特征h_v之间的关系。

上述CRF模型可以在神经网络中实现，因此可以自然地集成在基本的多分支网络中，并在基于多分支基本模块的端到端训练过程中进行优化。基本多分支模块与消息传递模块在以下部分中称为交叉视角多分支模块。消息传递过程可以在每次迭代中使用共享的W_u,v进行多次。在本实施例的实验中，本实施例只执行一次迭代，因为它已经提供了良好的特征表示。

在多视角动作识别中，由于一个身体动作是从多个视点捕获，因此应该从不同方面识别身体动作，这意味着不同视角包含用于动作识别的特定补充信息。为了有效地捕获这样的交叉视角补充信息，因此，本实施例提出了基于视角预测结果的融合模块，用于自动融合所有调整后的特异性特征分类器的预测分数，以进行动作识别。

在交叉视角多分支模块中，本实施例不是将每个训练视频传递到基本多分支模块中的一个调整后的特异性特征，而是将每个视频X_i发送到所有V分支。给定训练视频X_i，本实施例将分别从每个分支中提取特征，这将导致V个不同的表示。考虑到本实施例有来自V个不同视角的训练视频，总共有V×V个类型的交叉视角信息，每个都对应于u的分支视角一对(u,v)；u,v＝1,…,V，其中u是分支的索引，v是视频所属视角的索引。

然后，本实施例根据不同类型的视觉信息在每个分支中构建调整后的特异性特征动作分类，从而导致V×V个不同的分类器。让本实施例将C_u,v表示为使用来自第u个分支的第v个调整后的特异性特征类别生成的动作类别向量。具体而言，对于视频X_i，动作类别向量表示为

图4B为本实施例神经网络模型的基于视角预测结果的融合模块的结构示意图，如图4B所示，将动作类别向量C_u,v44与对应的权值λ_u,v45相融合得到融合参数S_v46，即来自所有分支中的第v个调整后的特异性特征分类的所有结果的融合参数表示为S_v，然后将融合参数S_v与公共特征在不同视角下的概率p_v47相结合，得到最终动作类别参数Tⁱ48。具体而言，对于视频X_i，融合得分

可以如下公式：

在公式(5)中，其中λ_u,v是融合C_u,v的权重值，C_u,v在训练过程中，通过共同学习并由所有视频共享。对于第u个分支中的第v个值，当u＝v时，本实施例初始化λ_u,v的值，且λ_u,v是当u≠v时λ_u,v两倍(即在所述V个调整后特异性特征中第I个调整后的特异性特征对应的V个预设权重值中，第I个预设权重值大于其他的(V-1)预设权重值)；而且当u≠v时，与其他的向量C_u,v相比，C_v,v是第v个视角对应的概率最大的向量。

不同的CNN分支共享公共信息并且每个分支都具有调整后的特异性特征信息，因此来自所有分支的结果的组合应当获得更好的分类结果。此外，本实施例不希望在训练或测试过程中使用输入视频的视角标签。在那种情况下，本实施例进一步提出了一种策略，以基于每个视角的公共特征预测该公共特征在不同视角下的概率，而不是如在基本多分支模块中仅使用来自已知视角的一个概率。

本实施例假设每个训练视频X_i与第V个视角的概率

相关联，其中每个

表示X_i属于第v个视角的概率，并且

然后，最终动作类别的识别结果Tⁱ,可以基于公共特征在不同视角下对应的概率，计算所有视图特定得分的加权平均值，如下所示：

为了获得公共特征在不同视角下对应的概率，如图3所示，本实施例还通过在共享网络之后使用公共特征(即，视角无关特征)来训练视角分类器，通过该分类器获取公共特征在不同视角下对应的概率。本实施例使用视角分类器和动作分类器的交叉熵损失函数，分别表示为L_view和L_action，所以损失函数L可以表示为：

L＝L_view+L_action (7)；

在本实施例中，平均对待这两种损失函数，这种设置可以得到满意的结果，在基本多分支模块和测试阶段不需要视频的视角标签之后，本实施例仅使用视角标签来训练基本多分支模块和精细调整步骤。即使测试视频来自一个未知视角，本实施例的模型仍然可以通过使用视角分类器自动计算其视角预测概率，并将来自调整后的特异性特征分类器的预测分数集成用于最终预测。

本实施例共享神经网络可以是任何流行的CNN体系结构，其后面连接的是V调整后的特异性特征分支，每个分支对应于一个视角。然后，本实施例在那些调整后的特异性特征分支最上面构建V×V个分类器，其中，每个调整后的特异性特征连接到V分类器，得到V×V个动作类别向量。然后使用公式(5)将V×V个动作类别向量和对应的权值融合，得到V个视角下的融合参数。最后，采用公式(6)将融合参数和采用分类器预测的公共特征在不同视角下的概率进行乘积并求和，得到最终动作识别参数。像其他深度神经网络一样，本实施例提出的模型可以通过使用流行的优化方法来训练，例如随机梯度下降(Stochastic GradientDescent，SGD)算法。本实施例首先训练基本的多分支模块，以学习每个分支中的调整后的特异性特征功能，然后本实施例调整所有模块。

在本实施例的实现中，本实施例基于时间段网络(Temporal Segment Network，TSN)构建本实施例的网络，并进行了一些修改。特别是，本实施例使用BN-Inception作为骨干网络。共享网络包括从输入到块inception_5a的那些层。对于inception_5b块内的每个路径，本实施例为多个分支多次重复最后一个卷积层，并且在共享网络中共享先前的层。在inception_5b块之后的其余平均池化层和全连接层也被复制用于多个分支。相应的参数也在初始化阶段重复并单独学习。与TSN类似，本实施例还训练双流网络，其中两个流分别使用两种模态，红绿蓝颜色空间(Red Green Blue，RGB)和密集光流分别学习。在测试阶段，给定具有多个视频视角的测试样本(X₁,…,X_V)，本实施例将每个视频X_V传递给两个流，并通过融合来自两个流的输出来获得其预测结果。

在本实施例通过使用两个基准多视角动作数据集进行实验来评估本实施例提出的模型。本实施例在两个设置上进行实验：一是交叉主题设置，用于评估本实施例提出的模型用于从多视角视频学习的有效性；二是交叉视角设置，用于评估本实施例提出的模型对于视角未知视频的泛化能力。

NTU动作类别库(NTU RGB+D)是用于人类动作识别的大规模数据集，其包含由40个不同主题执行的60个日常动作。这些动作是在三个视点中捕获。数据的模态包括RGB视频，深度图和三维(Three Dimensional，3D)关节信息，其中只有RGB视频用于本实施例的实验。RGB视频的总数为56,880，包含超过400万帧。

西北-加州大学洛杉矶分校多视图动作类别(Northwestern-UCLA Multi-viewAction，NUMA)是另一种流行的多视角动作识别基准数据集。在该数据集中，10个主体每天执行10次动作多次，由三个静态相机捕获。总的来说，数据集由1组成；475个RGB视频和相关的深度帧和骨架信息，其中只有RGB视频用于本实施例的实验。

在该实验中使用交叉主题评估方案。选择来自所有视角的几个主题的所有动作视频作为训练集，并且使用剩余主题的动作视频进行测试。

对于NTU数据集，本实施例使用与相关技术中相同的交叉主题协议。本实施例将本实施例提出的方法与各种基线进行比较，其中相关技术中的工作包括3D联合信息，仅使用RGB视频。本实施例还将TSN方法作为比较基准，可以将其视为DA-Net的特例，而无需在训练视频中明确利用多视角信息。结果显示在表1的第三列中。

表1

表1示出了本实施例的DA-Net与NTU数据集上其他相关技术在动作识别时的准确性比较结果，从表1可以看出，本实施例的DA-Net方法与相关技术中TSN方法比使用多模态数据的先前工作获得了更好的结果，因为使用深度神经网络来学习有效的视频表示，但是本实施例提出的DA-Net优于所有现有的最先进算法和基线TSN方法。

表2

方法	平均准确度
		Li and Zickler	50.7％
MST-AOG	81.6％
		Kong et al	81.1％
TSN[34]	90.3％
		DA-Net	92.1％

表2示出了DA-Net与NUMA数据集上的相关技术的平均准确度的比较结果，在表2中，通过平均每个受试者的准确性产生结果。对于NUMA数据集，本实施例使用10倍评估协议，每次使用每个主题的视频作为测试视频。为了与其他相关标准保持一致，本实施例还给出了视频级精度，其中每个视角的视频都是单独评估的。平均准确度如表2所示，本实施例提出的DA-Net优于表2中其他相关技术对多视角视频动作识别的准确度。两个数据集的结果清楚地证明了本实施例的DA-Net对使用多视角RGB视频学习深度模型的有效性。通过学习调整后的特异性特征以及分类器，并进行消息传递，可以更有效地利用来自多个视角的视频。因此，本实施例可以学习更多的辨别特征，与以前的方法相比，本实施例的DA-Net可以获得更好的动作分类结果。

本实施例的DA-Net也可以很容易地用于泛化未知视角，这也被称为交叉视角评估协议。本实施例在此设置中采用了忽略一个视角的策略，即使用一个视角中的视频作为测试集，并使用其余视角中的视频来训练本实施例的DA-Net。

与交叉主题设置下的训练过程不同，网络中的分支总数被设置为视角总数减1，因为来自一个视点的视频被保留用于测试。在测试阶段期间，来自目标视角的视频(即未知视角)将通过所有分支，并且视角分类器仍然可以提供属于一组源视角(即，已知的视角)的每个测试视频的预测分数。分数表示来自目标视角的视频与来自源视角的视频之间的相似性，基于此本实施例仍然可以获得加权融合分数，如此，可用于从目标视角中对视频进行分类。

对于NTU数据集，本实施例遵循原始交叉视角设置，其中，视角2和视角3中的视频用于训练，而视角1中的视频用于测试。结果显示在表1的第四列中。在此交叉视角设置中，本实施例的DA-Net也明显由于相关技术。

对于NUMA数据集，本实施例进行三重交叉验证。来自两个视角的视频及其动作标签用作训练数据以学习网络，并且来自剩余视角的视频用于测试。在训练阶段，不能采用未知视角的视频。表3示出了基于NUMA数据集，当两个视图中的视频用于训练时，而剩余视图中的视频用于测试，不同方法的平均准确度比较结果，从表3可以看出，本实施例在表3中报告了本实施例的结果，表明本实施例的DA-Net实现了最佳性能。本实施例的结果甚至比相关技术中采用未知视角的视频作为未标记数据的方法更好。通过实验得到在采用本实施例的方法和其他相关技术中的方法针对同一多视角视频，得到的每个类的详细准确度，无论对于该视频哪个视角下动作类别的分类都是基于本实施例提供的方法的精准度更高，而且明显高于其他相关技术的分类精确度。

表3

在表3中，为了公平比较，本实施例仅报告使用RGB视频的方法的结果。

本实施例观察到即使在训练过程中没有使用目标视角中的视频，本实施例的DA-Net也非常强大。可能的解释如下。在TSN架构的基础上，本实施例的DA-Net进一步学习了调整后的特异性特征，从而产生更好的表示以从每个视角中捕获信息。其次，消息传递模块进一步改善了不同视角的特征表示。最后，使用视角预测概率作为权重的新提出的软集合融合方案也有助于提高性能。尽管来自未知视角的视频在训练过程中不可用，但是视角分类器仍然能够用于预测属于每个已知视角的给定测试视频的概率，这对于获得最终预测分数是有用的。

表4

表4示出了NTU数据集上的交叉视图设置的准确性，在表4中，第二列和第三列分别是来自RGB流和flow-流的精度。融合两个流的得分后的最终结果显示在第四列中。DA-Net(w/o fus)表示将神经网络模型设置为仅包含第一部分和第三部分(即没有第二部分)的网络；DA-Net(w/o msg)表示将神经网络模型设置为仅包含第一部分和第二部分(即没有第三部分)的网络。DA-Net(w/omsg and fus)表示将神经网络模型设置为仅包含第一部分(即没有第二部分和第三部分)的网络。本实施例将交叉视角设置下的NTU数据集作为组件分析的示例。还包括基线TSN方法用于比较。此外，本实施例进一步报告来自TSN的整体版本的结果，其中本实施例基于来自视角2的视频和来自视角3的视频单独训练两个TSN，然后在视角1中对测试视频的预测分数进行平均以用于预测结果。本实施例将其称为Ensemble TSN。所有方法的结果如表4所示。本实施例观察到Ensemble TSN和本实施例的DA-Net(w/omsg andfus)都比基线TSN方法获得更好的结果，这表明学习每个视角的个体表示有助于捕获调整后的特异性特征信息，从而提高动作识别的准确性。本实施例的DA-Net(w/o msg and fus)在两种模式和双流融合之后优于Ensemble TSN方法，这表明学习DA-Net所有分支共享的公共特征(即视角独立特征)可能会带来更好的表现。此外，获得了与DA-Net(w/o msg andfus)相比的持续改进，因为来自不同视角的视频共享补充信息，并且消息传递过程可以帮助重新构建每个分支上的特征。从表4还可以看出DA-Net(w/o msg)也比DA-Net(w/o msgand fus)更好，这证明了基于视角预测结果的融合模块的有效性。

本实施例的DA-Net以柔和的整体方式有效地整合了所有调整后的特异性特征分类的预测。在基于视角预测结果的融合模块中，所有调整后的特异性特征分类器集成了总V×V类型的交叉视角信息。同时，视角分类通过使用视角预测概率作为权重来柔和地合成动作预测分数。

综合实验表明，本实施例新提出的深度学习方法优于多视角动作识别的基线方法。通过组件分析，本实施例证明来自不同分支的调整后的特异性特征表示可以通过在它们之间进行消息传递以有效的方式相互帮助。还证明了通过使用视角预测概率作为权重来融合来自多个分类的预测分数是有益的。

本实施例提供一种多视角视频识别装置，图5为本实施例多视角视频识别组成结构示意图，如图5所示，所述多视角视频识别装置500包括：第一获取模块501、神经网络模型502和第一输出模块503，其中：

所述第一获取模块501，用于获取待识别的多视角视频；其中，所述多视角视频至少包括两个视角对应的视频；

所述神经网络模型502，用于将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果，其中，所述神经网络模型包括确定所述多视角视频在不同视角下的特异性特征，并对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果；

所述第一输出模块503，用于输出所述多视角视频的识别结果。

在本实施例中，所述神经网络模型还包括第三部分；

对应地，所述第二部分，还包括：

在本实施例中，所述第四确定子模块，包括：

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的多视角视频识别方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台即时通讯设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例再提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现本申请实施例提供的多视角视频识别方法中的步骤。

相应地，本申请实施例再提供一种计算机存储介质，所述计算机存储介质上存储有计算机可执行指令，所述该计算机可执行指令被处理器执行时实现上述实施例提供的多视角视频识别方法中的步骤。

相应地，本申请实施例提供一种计算机设备，图6为本实施例计算机设备的组成结构示意图，如图6所示，所述设备600包括：一个处理器601、至少一个通信总线602、用户接口603、至少一个外部通信接口604和存储器605。其中，通信总线602配置为实现这些组件之间的连接通信。其中，用户接口603可以包括显示屏，外部通信接口604可以包括标准的有线接口和无线接口。其中所述处理器601，配置为执行存储器中多视角视频识别程序，以实现上述实施例提供的多视角视频识别方法的步骤。

以上即时计算机设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请即时通讯设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多视角视频识别方法，其特征在于，所述方法包括：

将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果，其中，所述神经网络模型包括第一部分和第二部分，所述第一部分用于确定所述多视角视频在不同视角下的公共特征，并从公共特征中提取在对应视角下的特异性特征，所述第二部分用于对所述在不同视角下的特异性特征进行分类，得到所述多视角视频的识别结果；

输出所述多视角视频的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括第一部分和第二部分，所述方法包括：

采用所述第二部分对所述在不同视角下的特异性特征进行分类，得到样本视频的识别结果。

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型还包括第三部分，所述方法包括：

采用所述第三部分对所述在不同视角下的特异性特征进行调整，得到调整后的特异性特征；

对应地，采用所述第二部分对所述调整后的特异性特征进行分类，得到所述样本视频的识别结果。

4.根据权利要求2或3所述的方法，其特征在于，所述第一部分包括共享神经网络和V个分支神经网络，V为大于等于2的整数，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述第二部分包括V组分类器，每一组分类器包括V个分类器，所述采用所述第二部分对所述在不同视角下的特异性特征进行分类，得到所述样本视频的识别结果，包括：

6.根据权利要求4所述的方法，其特征在于，第三部分包括条件随机场，所述采用所述第三部分对所述在不同视角下的特异性特征进行调整，得到调整后的特异性特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述V个调整后的特异性特征中的调整后的第i个特异性特征，包括：第一项和第二项；其中，所述第一项包括调整之前的第i特异性特征；第二项用于表明所述调整后的第i特异性特征与调整后的第j特异性特征之间的关系，其中i的取值为1到V之间的任一整数，j为1到V之间的任一整数且不等于i。

8.根据权利要求6所述的方法，其特征在于，所述根据所述公共特征和所述第二V×V个动作类别向量，确定所述多视角视频的识别结果，包括：

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

10.一种多视角视频识别装置，其特征在于，所述装置包括：第一获取模块、神经网络模型和第一输出模块，其中：

所述神经网络模型，用于将所述多视角视频输入经过训练得到的神经网络模型，得到所述多视角视频的识别结果，其中，所述神经网络模型包括第一部分和第二部分；所述第一部分用于确定所述多视角视频在不同视角下的公共特征，并从公共特征中提取在对应视角下的特异性特征，所述第二部分用于对所述在不同视角下的特异性特征进行分类，得到样本视频的识别结果；

所述第一输出模块，用于输出所述多视角视频的识别结果。

11.根据权利要求10所述的装置，其特征在于，所述神经网络模型包括第一部分和第二部分，其中：

12.根据权利要求11所述的装置，其特征在于，所述神经网络模型还包括第三部分；

13.根据权利要求11或12所述的装置，其特征在于，所述第一部分包括共享神经网络和V个分支神经网络，V为大于等于2的整数；

14.根据权利要求13所述的装置，其特征在于，所述第二部分包括V组分类器，每一组分类器包括V个分类器，所述第二部分，包括：

15.根据权利要求13所述的装置，其特征在于，第三部分包括条件随机场，所述第三部分，还包括：

对应地，所述第二部分，还包括：

16.根据权利要求15所述的装置，其特征在于，所述V个调整后的特异性特征中的调整后的第i个特异性特征，包括：第一项和第二项；其中，所述第一项包括调整之前的第i特异性特征；第二项用于表明所述调整后的第i特异性特征与调整后的第j特异性特征之间的关系，其中i的取值为1到V之间的任一整数，j为1到V之间的任一整数且不等于i。

17.根据权利要求15所述的装置，其特征在于，所述第四确定子模块，包括：

18.根据权利要求15所述的装置，其特征在于，在所述V个调整后特异性特征中第I个调整后的特异性特征对应的V个预设权重值中，第I个预设权重值大于其他的(V-1)预设权重值；其中，I为大于0，且小于等于V的整数。

19.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机可执行指令，该计算机可执行指令被执行后，能够实现权利要求1至9任一项所述的方法步骤。

20.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至9任一项所述的方法步骤。