CN112651267A

CN112651267A - 识别方法、模型训练、系统及设备

Info

Publication number: CN112651267A
Application number: CN201910963072.9A
Authority: CN
Inventors: 杨攸奕; 武元琪; 李名杨
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2021-04-13

Abstract

本申请实施例提供一种识别方法、模型训练、系统及设备。其中，方法包括如下的步骤：获取待识别视频；其中，待识别视频中包括多帧图像；将待识别视频输入训练好的神经网络模型，获得识别结果；其中，所述神经网络模型用于：分别对多帧图像进行特征提取，得到多个帧特征；根据多个帧特征，确定出多个帧特征中每一个元素对应的注意力权重；将多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合多个加权后帧特征，得到所述识别结果。本申请实施例提供的技术方案可有效抑制多个帧特征中的杂讯，增强有效特征，进而可有效提高视频识别的准确率。

Description

识别方法、模型训练、系统及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种识别方法、模型训练、系统及设备。

背景技术

目前，很多终端设备都具有拍照、拍摄和/或录音功能。在某些应用场景中，需要对终端设备拍照得到的图片、拍摄得到的视频和/或录音得到的音频数据进行识别，例如：对图片、视频或音频进行分类等。

以智能监控摄像头为例，用户可将该智能监控摄像头设置在家中以实现看家护院或宠物精彩瞬间抓拍功能。该智能监控摄像头拍摄到的视频或图片的数据量是非常巨大的，因此需要对该智能监控摄像头拍摄的视频或图像进行分析，过滤掉用户不感兴趣的数据。

现有技术中，存在利用人工智能算法(例如：神经网络模型)来对图片、视频或音频进行识别的技术方案，而这些算法的识别准确率都较差。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的识别方法、模型训练、系统及设备。

于是，在本申请的一个实施例中，提供了一种视频识别方法。该方法包括：

获取待识别视频；其中，所述待识别视频中包括多帧图像；

将所述待识别视频输入训练好的神经网络模型，获得识别结果；

其中，所述神经网络模型用于：分别对所述多帧图像进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合所述多个加权后帧特征，得到所述识别结果。

在本申请的另一实施例中，提供了一种模型训练方法。该方法，包括：

获取样本视频；其中，所述样本视频中包括多帧图像；

将所述样本视频输入神经网络模型，获得预测识别结果；

根据所述预测识别结果与所述样本视频对应的期望识别结果，对所述神经网络模型进行参数优化；

其中，所述神经网络模型用于：分别对所述多帧图像进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合所述多个加权后帧特征，得到所述预测识别结果。

在本申请的另一实施例中，提供了一种神经网络系统。该系统，包括：至少一个第一网络层、至少一个第二网络层以及至少一个第三网络层；其中，

所述至少一个第一网络层，用于分别对待识别视频的多帧图像进行特征提取，得到多个帧特征；

所述至少一个第二网络层，用于根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；还用于将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；

所述至少一个第三网络层，用于综合所述多个加权后帧特征，得到识别结果。

在本申请的另一实施例中，提供了一种时序数据识别方法。该方法，包括：

获取待识别时序数据；其中，所述待识别时序数据中包括多帧数据；

将所述待识别时序数据输入训练好的神经网络模型，获得识别结果；

其中，所述神经网络模型用于：分别对所述多帧数据进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合所述多个加权后帧特征，得到所述识别结果。

分别对待识别时序数据的多帧数据进行特征提取，得到多个帧特征；

根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；

将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；

综合所述多个加权后帧特征，得到识别结果。

在本申请的另一实施例中，提供了一种数据识别方法。该方法，包括：

获取待识别数据；

将所述待识别数据输入训练好的神经网络模型，获得识别结果；

其中，所述神经网络模型用于：对所述待识别数据进行特征提取，得到数据特征；根据所述数据特征，确定出所述数据特征中每一个元素对应的注意力权重；将所述数据特征中每一个元素与其对应的注意力权重相乘，得到加权后数据特征；根据所述加权后数据特征，得到所述识别结果。

对待识别数据进行特征提取，得到数据特征；

根据所述数据特征，确定出所述数据特征中每一个元素对应的注意力权重；

将所述数据特征中每一个元素与其对应的注意力权重相乘，得到加权后数据特征；

根据所述加权后数据特征，得到所述识别结果。

在本申请的一个实施例中，提供了一种电子设备。该电子设备包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

获取待识别视频；其中，所述待识别视频中包括多帧图像；

在本申请的另一个实施例中，提供了一种电子设备。该电子设备包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取样本视频；其中，所述样本视频中包括多帧图像；

将所述样本视频输入神经网络模型，获得预测识别结果；

所述存储器，用于存储程序；

综合所述多个加权后帧特征，得到识别结果。

所述存储器，用于存储程序；

获取待识别数据；

所述存储器，用于存储程序；

对待识别数据进行特征提取，得到数据特征；

根据所述加权后数据特征，得到所述识别结果。

本申请实施例提供的技术方案中，通过注意力机制获得待识别视频的多个帧特征中每一个元素对应的注意力权重，对多个帧特征中每一个元素进行加权处理，得到多个加权后帧特征。这样一来，可有效抑制多个帧特征中的杂讯，增强有效特征，进而可有效提高视频识别的准确率。

本申请实施例提供的技术方案中，通过注意力机制获得待识别时序数据的多个帧特征中每一个元素对应的注意力权重，对多个帧特征中每一个元素进行加权处理，得到多个加权后帧特征。这样一来，可有效抑制多个帧特征中的杂讯，增强有效特征，进而可有效提高时序数据识别的准确率。

本申请实施例提供的技术方案中，通过注意力机制获得待识别数据的数据特征中每一个元素对应的注意力权重，对数据特征中每一个元素进行加权处理，得到加权后数据特征。这样一来，可有效抑制数据特征中的杂讯，增强有效特征，进而可有效提高数据识别的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请一实施例提供的智能监控摄像头的数据处理示意图；

图1b为本申请另一实施例提供的视频识别方法的流程示意图；

图1c为本申请实施例提供的一种时序数据识别方法的流程示意图；

图2为本申请又一实施例提供的一种时序数据识别方法的流程示意图；

图3为本申请实施例提供的一种视频识别方法的流程示意图；

图4为本申请实施例提供的一种模型训练方法的流程示意图；

图5为本申请又一实施例提供的一种数据识别方法的流程示意图；

图6为本申请又一实施例提供的一种数据识别方法的流程示意图；

图7为本申请实施例提供的一种识别装置的结构框图；

图8为本申请又一实施例提供的一种模型训练装置的结构框图；

图9为本申请又一实施例提供的一种识别装置的结构框图；

图10为本申请又一实施例提供的一种电子设备的结构框图。

具体实施方式

现有技术中，存在基于神经网络模型的视频识别方法，而该现有的神经网络模型通常是通过CNN(Convolutional Neural Networks，卷积神经网络)来提取视频的不同帧对应的特征，然后将不同帧对应的特征全部输入至全连接层中，以由全连接层进行特征融合，进而得到最终的识别结果。该种方法通过全连接层直接将不同帧对应的特征进行融合，然后进行识别，效果差，影响识别准确率。

发明人在研究本申请实施例提供的技术方案的过程中发现：特征提取子网络提取到的特征中存在很多杂讯，这些杂讯对最后识别不仅毫无作用，还存在干扰问题。因此，发明人提出本申请，对特征中的杂讯进行抑制，以有效提高识别效率。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1c示出了本申请一实施例提供的时序数据识别方法的流程示意图。本申请实施例提供的方法的执行主体可以服务端，也可以是客户端。其中，服务端可以通用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备、监控摄像头等任意终端设备。如图1c所示，该方法包括：

101、获取待识别时序数据。

其中，所述待识别时序数据中包括多帧数据。

102、将所述待识别时序数据输入训练好的神经网络模型，获得识别结果。

上述101中，待识别时序数据可以是用户输入或上传来的，或者是从数据库中读取得到的。

待识别时序数据可以为待识别视频或待识别音频等。当待识别时序数据为待识别视频时，所述多帧数据为所述待识别视频的多帧图像。当待识别时序数据为待识别音频时，所述多帧数据为所述待识别音频的多帧音频。

需要补充的是：在实际应用中，可对待识别音频进行采样，得到多帧音频，例如：可对待识别音频进行等时间间隔或不等时间间隔进行采样，得到多帧音频。具体采样技术可参见现有技术，在此不再详述。

此外，在一实例中，当待识别时序数据为待识别音频时，可在将待识别音频输入训练好的神经网络模型之前，对待识别音频的各帧音频进行语音信号分析，得到各帧音频对应的时频谱。将待识别音频的多帧音频对应的时频谱输入至神经网络模型中，以由神经网络模型将时频谱当做帧图像一样来处理。

上述102中，神经网络模型可通过样本时序数据以及样本时序数据对应的期望识别结果训练得到的，其中，样本时序数据的数量可根据实际需要来设定，本实施例对此不做具体限定。其中，神经网络模型的骨干网络可以为CNN。

将待识别时序数据作为训练好的神经网络模型的输入，以利用训练好的神经网络模型获得识别结果。

上述“分别对所述多帧数据进行特征提取，得到多个帧特征”的步骤中，帧特征具体可以为帧特征图，具有H*W*C三维数据结构，其中，H、W分别为帧特征图的长和宽，C为帧特征图的通道数。由于是分别对每一帧数据进行特征提取，故可利用二维卷积(即2d卷积)来分别对每一帧数据进行特征提取。

上述“根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重”的步骤中，每个帧特征由多个元素组成，例如：帧特征为具有H*W*C三维数据结构的帧特征图时，则该帧特征由H*W*C个元素组成。

在一种可实现的方案中，可分别根据每一帧特征，得到每一帧特征中每一个元素对应的注意力权重。具体地，可通过对每一帧特征进行卷积，得到包含有每一帧特征中每一个元素对应的注意力权重的第一权重特征。

在一种可实现的方案中，上述步骤“综合所述多个加权后帧特征，得到所述识别结果”的具体实现可采用如下步骤来实现：

S11、对由所述多个加权后帧特征堆叠而成的加权后时序数据特征进行帧内和帧间的加总池化处理，得到融合特征。

S12、根据所述融合特征，得到所述识别结果。

上述S11中，由于加权后时序数据特征是由多个加权后帧特征堆叠而成，则加权后时序数据的维度比加权后帧特征的维度高一维。其中，堆叠的具体实现可参见现有技术中的张量堆叠方法，在此不再详述。

举例来说：每个加权后帧特征具有H*W*C三维数据结构，多个加权后帧特征的个数为N，则加权后时序数据特征具有N*H*W*C四维数据结构。

其中，加权后帧特征具体可以为加权后帧特征图，具有H*W*C三维数据结构；加权后时序数据特征具体可以为加权后时序数据特征图，具有N*H*W*C四维数据结构。

在一实例中，对加权后时序数据特征进行帧内和帧间的加总池化处理，该加总池化处理的窗口为三维窗口，该加总池化窗口的尺寸为n1*h1*w1。其中，n1小于或等于上述N，h1小于或等于上述H，w1小于或等于上述W。该加总池化窗口的具体尺寸可根据实际需要来设定，本申请对此不作具体限定。

在一种可实现的方案中，上述加总池化可以为全局加总池化。沿用上例，加总池化窗口的尺寸为N*H*W。

其中，加总池化指的是对每一个加总池化窗口内所有元素进行加总。

本实施例中，通过帧内和帧间的加总池化处理，实现了每一个加权后帧特征内部的融合以及不同加权后帧特征之间的融合。

需要补充的是，当待识别时序数据为待识别视频时，由于每个加权后帧特征仅包含空间维度，不同加权后帧特征之间就包含时间维度，这样通过帧内和帧间的加总池化处理，实现了时间维度和空间维度上的特征融合，故上述帧内和帧间的加总池化处理还可称为时空上的加总池化处理。

当待识别时序数据为待识别视频时，加权后时序数据特征也即为加权后视频特征。

在一种可实现的方案中，上述S12中，可将所述融合特征作为所述神经网络模型中至少一个全连接层的输入，得到全连接结果；根据所述全连接结果，确定所述识别结果。

其中，至少一个全连接层的数量可以为两个。可将全连接结果作为上述神经网络模型中输出层的输入，得到输出层输出的识别结果。

其中，输出层可以为归一化指数Softmax层或者为Sigmoid层。例如：当上述神经网络模型用于单分类时，上述输出层可选择为Softmax层；当上述神经网络模型用于多类分类时，上述输出层可选择为Sigmoid层。

其中，输出层可理解为分类器，除了上述两种分类器，还可为其他分类器，例如：支持向量机(Support Vector Machine,SVM)。

在上述实施例中，提供了一种注意力权重的计算方式，即分别根据每一帧特征，得到每一帧特征中每一个元素对应的注意力权重。在该方式中，每一帧特征中每一个元素对应的注意力权重的大小与其他帧特征无关，仅与其所在帧特征中相邻元素有关，即该方式忽略了相邻帧之间的相互影响。而在时序数据识别问题中，帧与帧之间的信息是非常重要的信息，例如：基于视频的动作识别过程中，一个动作的识别通常是需要综合多帧图像才能确定。为了进一步提高识别准确率，上述步骤“根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重”具体可采用如下步骤来实现：

S21、对由所述多个帧特征堆叠而成的时序数据特征进行帧内和帧间的卷积处理，得到卷积特征。

S22、根据所述卷积特征，确定出所述时序数据特征中每一个元素对应的注意力权重。

上述S21中，可将多个帧特征堆叠成时序数据特征，时序数据特征的维度比每个帧特征的维度高一维。其中，堆叠的具体实现可参见现有技术中的张量堆叠方法，在此不再详述。

举例来说：每个帧特征具有H*W*C三维数据结构，多个帧特征的个数为N，则时序数据特征具有N*H*W*C四维数据结构。

其中，帧特征具体可以为帧特征图，具有H*W*C三维数据结构；时序数据特征具体可以为时序数据特征图，具有N*H*W*C四维数据结构。

对时序数据特征进行帧内和帧间的卷积处理，实现了每一个帧特征内部的融合以及不同帧特征之间的融合。当待识别时序数据为待识别视频时，由于每个帧特征仅包含空间维度，不同帧特征之间就包含时间维度，这样通过帧内和帧间的卷积处理，也即是实现了时间和空间维度上的卷积处理，故上述帧内和帧间的卷积处理还可称为时空卷积处理。

当待识别时序数据为待识别视频时，时序数据特征也即为视频特征；卷积特征还可称为时空特征。

在一实例中，具体可通过对时序数据特征进行三维卷积(即3d卷积)处理，以实现对时序数据特征进行帧内和帧间的卷积处理，具体实现方式可参见现有技术中的C3D(Convolutional 3D，卷积3D)和由C3D衍生出的I3D(Inflated 3D)，在此不再详述。

该3d卷积处理所使用的卷积核的尺寸为n2*h2*w2，其中，n2小于上述N，h2小于上述H，w2小于上述W。该卷积窗口的具体尺寸可根据实际需要来设定，本申请对此不作具体限定。在一实例中，该3d卷积处理所使用的卷积核的尺寸可以为3*3*3。

考虑到3d卷积处理的计算量较大，为了降低计算量，在另一种可实现的方案中，上述S21中“对由所述多个帧特征堆叠而成的时序数据特征进行帧内和帧间的卷积处理，得到卷积特征”，具体可采用如下步骤来实现：

a、采用帧内的二维卷积与帧间的一维卷积的组合方式，对所述时序数据特征进行帧内和帧间的卷积处理，得到初始卷积特征。

b、根据所述初始卷积特征，确定所述卷积特征。

上述a中，采用帧内的二维卷积与帧间的一维卷积的组合方式来代替3d卷积，不仅可降低计算量，还可获取到比3d卷积更好的识别准确率。具体可采用如下方式来实现上述a：

方式一：对时序数据特征进行帧内的二维卷积处理，得到第一时序数据特征；对第一时序数据特征进行帧间的一维卷积处理，得到初始卷积特征。

方式二：对时序数据特征进行帧内的二维卷积处理，得到第一时序数据特征；对时序数据进行帧间的一维卷积处理，得到第二时序数据特征；所述初始卷积特征由所述第一时序数据特征和所述第二时序数据特征按元素相加得到。

需要说明的是：按元素(element-wise)相加：即是将第一时序数据特征和所述第二时序数据特征中相同位置处的元素相加，即相同下标的元素相加。

方式三：对时序数据特征进行帧内的二维卷积处理，得到第一时序数据特征；对所述第一时序数据特征进行帧间的一维卷积处理，得到第三时序数据特征；所述初始卷积特征由所述第一时序数据特征和所述第三时序数据特征按元素相加得到。

在实际应用时，当上述待识别时序数据为待识别视频时，帧内的二维卷积也即是二维空间卷积，帧间的一维卷积也即是一维时间卷积。上述初始卷积特征也即是初始时空特征。上述方式一、二和三的具体实现可参见现有技术中由C3D衍生出的P3D(pseudo-3D，伪卷积3D)。

上述步骤b中，可将所述初始卷积特征，直接作为所述卷积特征。或者，将所述时序数据特征与所述初始卷积特征按元素相加，得到所述卷积特征，这样一来，可有效避免细节信息的丢失，可提高识别准确度。

在一种可实现的方案中，上述步骤S22中，上述卷积特征的数据结构与时序数据特征的数据结构一致，具体地，时序数据特征可以为时序数据特征图，具有N*H*W*C四维数据结构；卷积特征也为卷积特征图，具有N*H*W*C四维数据结构。

可将卷积特征中某一位置处的元素值直接作为时序数据特征中相应位置处的元素的注意力权重。其中，相应位置处的元素可理解为下标相同的元素。相应的，上述步骤“将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征”，具体为：将由所述多个帧特征堆叠而成的时序数据特征与所述卷积特征按元素相乘，得到加权后时序数据特征，其中，加权后时序数据特征可看成是由上述多个加权后帧特征堆叠而成。

需要说明的是：按元素(element-wise)相乘：即是将时序数据特征和卷积特征中相同位置处的元素相乘，即相同下标的元素相乘。

在另一种可实现的方案中，可对卷积特征进行归一化指数处理，这样可使得所述时序数据特征中每一个元素对应的注意力权重的大小介于0到1之间，这样有利于减少模型复杂度并加快神经网络模型收敛。

具体地，上述步骤S22中“根据所述卷积特征，确定出所述时序数据特征中每一个元素对应的注意力权重”，具体为：对所述卷积特征中每一个上述加总池化窗口内各元素进行归一化指数处理，得到包含有所述时序数据特征中每一个元素对应的注意力权重的权重特征。该权重特征具体可以为权重特征图，具有N*H*W*C四维数据结构，与时序数据特征具有相同的数据结构。权重特征中某一位置处的元素值即为时序数据特征中相应位置处的元素的注意力权重。

其中，加总池化窗口的尺寸大小可参见上述各实施例中相应内容，在此不再赘述。通过上述注意力权重相乘以及加总池化处理，实现了注意力池化。

为了进一步抑制杂讯，增强特征，上述步骤“综合所述多个加权后帧特征，得到所述识别结果”，具体可采用如下步骤来实现：

S31、分别对所述多个加权后帧特征进行卷积处理，得到多个新的帧特征。

S32、根据所述多个新的帧特征，确定出所述多个新的帧特征中每一个元素对应的注意力权重。

S33、将所述多个新的帧特征中每一个元素与其对应的注意力权重相乘，得到多个新的加权后帧特征。

S34、综合所述多个新的加权后帧特征，得到所述识别结果。

上述S31中，对多个加权后帧特征进行卷积处理的目的是为了改变每一个加权后帧特征中各通道的意义，也就是说多个新的帧特征中所包含的通道意义与多个加权后帧特征所包含的通道意义是不同的。

通过进一步的卷积处理，可加深网络，提高识别准确率。

上述S32中“根据所述多个新的帧特征，确定出所述多个新的帧特征中每一个元素对应的注意力权重”的具体实现可同理参照上述各实施例中有关“根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重”的内容，在此不再详述。

上述S33中“将所述多个新的帧特征中每一个元素与其对应的注意力权重相乘，得到多个新的加权后帧特征”的具体实现也可同理参照上述各实施例中有关“将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征”的内容，在此不再详述。

在一种可实现的方案中，上述S34中“综合所述多个新的加权后帧特征，得到所述识别结果”，具体可采用如下步骤来实现：

c、对由所述多个新的加权后帧特征堆叠而成的新的加权后时序数据特征进行时空上的加总池化处理，得到新的融合特征。

d、根据所述新的融合特征，得到所述识别结果。

上述步骤c中“对由所述多个新的加权后帧特征堆叠而成的新的加权后时序数据特征进行时空上的加总池化处理，得到新的融合特征”的具体实现可同理参照上述各实施例中有关“对由所述多个加权后帧特征堆叠而成的加权后视频特征进行时空上的加总池化处理，得到融合特征”的内容，在此不再详述。

上述步骤d中“根据所述新的融合特征，得到所述识别结果”的具体实现可同理参照上述各实施例中有关“根据所述融合特征，得到所述识别结果”的内容，在此不再详述。

在本实施例中，一共采用了两次杂讯抑制操作。

在另一种可实现的方案中，上述S34中“综合所述多个新的加权后帧特征，得到所述识别结果”，具体实现时还可将多个新的加权后帧特征带入到上述步骤S31中作为卷积处理对象，继续重复上述步骤S31、S32、S33和S34。

在本实施例中，可重复执行多次通过注意力机制对杂讯进行抑制的步骤，对杂讯进行抑制。具体重复执行多少次可根据实际需要来设定，本实施例对此不做具体限定。

通过交叉重复执行改变通道意义的卷积操作以及对杂讯抑制操作，相当于加深了网络深度，可以提取到更复杂的特征，可训练取得更好的识别效果。

下面将介绍一种上述神经网络模型的训练方法，该方法包括：

S41、获取样本时序数据。

其中，所述样本视频中包括多帧数据。

S42、将所述样本数据输入神经网络模型，获得预测识别结果。

S43、根据所述预测识别结果与所述样本时序数据对应的期望识别结果，对所述神经网络模型进行参数优化。

其中，所述神经网络模型用于：分别对所述多帧数据进行特征提取，得到多个帧特征；根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；综合所述多个加权后帧特征，得到所述预测识别结果。

上述步骤S41中，样本时序数据可以为样本视频或样本音频。当样本时序数据为样本视频时，多帧数据即为多帧图像；当样本时序数据为样本音频时，多帧数据即为多帧音频。

帧音频的采样方式可同理参照上述各实施例中相应内容，在此不再详述。

上述S42中，将所述样本数据作为神经网络模型的输入，以利用神经网络模型获得预测识别结果。本实施例中的神经网络模型的执行步骤的具体实现可同理参照上述各实施例中相应内容，在此不再详述。

其中，神经网络模型中各个网络参数的初始值可以为随机数值。

上述S43中，根据所述预测识别结果与所述样本时序数据对应的期望识别结果，对所述神经网络模型进行参数优化。

其中，所述神经网络模型在训练好之后，用以识别待识别时序数据。

其中，根据所述预测识别结果与所述样本时序数据对应的期望识别结果，对所述神经网络模型进行参数优化可以具体利用损失函数(loss function)实现，损失函数是用来估量模型的预测识别结果与期望识别结果的不一致程度，通常是一个非负实值函数。

可选地，该损失函数可以具体为交叉熵(Cross Entropy)loss。

每一次对神经网络模型进行参数优化，可以获得神经网络模型中各个模型参数的调整系数，利用各个模型参数的调整系数对各个模型参数进行数值调整，即可以得到神经网络模型的模型参数。

利用损失函数进行参数优化的方式与现有技术相同，在此不再进行过多赘述。

在一个实际应用中，该期望识别结果即可以为时序数据的训练标签，例如：基于视频的动作识别场景中：训练标签可以有打篮球、游泳、打羽毛球等等。进行模型训练的训练样本与现有技术相同，不同之处主要在于本申请实施例提供的神经网络模型对训练样本的处理过程不同。

需要补充的说明的是，本申请实施例中的注意力机制与现有技术中的注意力机制不同，本申请实施例中是通过卷积的方式得出针对特征中每一个元素的注意力权重，并按元素相乘。神经网络模型中卷积处理是非线性处理，泛化能力强，能够得到较为准确地计算出特征中每一个元素的注意力权重。

而现有技术中的注意力机制通常是通过线性的矩阵相乘的方式得到一个注意力权重矩阵；并将该注意力权重矩阵与特征进行线性的矩阵相乘，得到注意力特征。可见，其方案与本方案完全不同，其方案计算量比本方案多，且该线性的矩阵相乘冗余元素较多，很难得到合理的注意力权重矩阵，影响识别准确率。

为了方便理解，下面将结合图1b示出的示意图对本申请实施例提供的方法进行描述：

1、向训练好的神经网络模型中输入视频的多帧图像。

2、神经网络模型中的骨干网络(backbone CNN)分别对多帧图像进行特征提取，得到多帧特征。

3、将多帧特征进行堆叠得到视频特征。

4、将视频特征输入到神经网络模型中的P3D网络中进行卷积，得到时空特征。

5、对时空特征进行时空上的归一化指数(softmax)处理，得到权重特征。

具体地，可对所述时空特征中每一个步骤8中的加总池化窗口内各元素进行归一化指数处理，得到权重特征。其中，权重特征中每一个元素的大小都小于1，且每一个步骤8中的加总池化窗口内所有元素之和为1。

6、将视频特征与权重特征按元素相乘，得到加权后视频特征。

7、对加权后视频特征进行时空上的加总池化处理，得到融合特征。

该融合特征的数据结构为C维向量，即数据结构为1*1*1*C。

8、根据融合特征，通过两个全连接层以及输出层，得到识别结果。

其中，识别结果中包括：该待识别视频属于K个备选类别的概率。

这里需要说明的是：本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容，此处不再赘述。此外，本申请实施例提供的所述方法中除了上述各步骤以外，还可包括上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。

下面将结合图1a，以智能监控摄像头为例对本申请实施例提供的方案进行介绍：智能监控摄像头将拍摄得到的视频的多帧图像输入至本地部署的训练好的神经网络模型中，通过神经网络模型中特征提取网络(即上述backbone CNN)分别对多帧图像进行特征提取，得到多帧特征。将多帧特征输入至注意力池化网络中，得到融合特征。将融合特征输入至分类器中，得到识别结果。根据识别结果，确定该视频是否需上传，即判断该视频是否为用户感兴趣的内容。将用户感兴趣的视频上传至服务器进行备份。其中，注意力池化网络的具体实现可参见上述各实施例中相应内容，在此不再赘述。

在一实例中，上述方法，还可包括：接收用户配置的预设时间段信息。上述获取待识别视频，包括：从智能监控摄像头监控到的所有视频中，获取拍摄时间位于所述预设时间段内的视频，以作为所述待识别视频。

以宠物精彩瞬间抓拍为例，用户可根据宠物的作息规律，来确定出合理的上述预设时间段信息。例如：宠物在白天比较活跃，在夜晚比较安静，用户则可配置预设时间段为每天的上午8点到下午8点。

这样，可方便用户根据自己的需要来设计，更加人性化。

在另一实例中，第一智能监控摄像头可将其上运行的训练好的神经网络模型的配置信息发送给第二智能监控摄像头；第二智能监控摄像头可根据发送来的配置信息在本地配置该训练好的神经网络模型，以进行视频识别。

具体地，上述方法，还可包括：接收第一智能监控摄像头发送来的其上运行的训练好的神经网络模型的配置信息；根据所述配置信息，完成所述训练好的神经网络模型的本地配置。其中，所述配置信息中可包括神经网络模型中各种类型的网络层的数量、各网络层的训练好的参数以及网络层之间的关系等。

这样，即可在本地对待识别视频进行识别。

以去好友家串门为例，用户A在家设置智能摄像头B，对宠物猫C进行监控，以抓拍到宠物猫C的精彩瞬间。一天，用户A带着自己的宠物猫C去好友家做客，希望在好友家也能对宠物猫C进行监控，拍到宠物猫C的精彩瞬间。这时，用户A可通过远程操作，触发家中智能摄像头B将其上运行的训练好的神经网络模型的配置信息发送给好友家中的智能摄像头D，智能摄像头D接收到配置信息后完成配置，从而实现对宠物猫C的精彩瞬间抓怕功能。

需要说明的是，通过上述视频识别方法不仅可对家中不同物种的宠物进行识别，还可对家中同一物种的多个宠物进行区别。例如：用户A家养了两只猫：大猫和小猫，只要基于大猫和小猫的相关标注样本对神经网络模型进行训练，训练好的神经网络模型就能够：在对智能摄像头拍摄的视频进行识别时，区分出有关大猫和有关小猫的视频。

需要补充说明的是，上述本申请实施例提供的技术方案除了应用于智能家居领域，还可应用于商场补货、智慧交通、智慧物流以及城市大脑等领域。例如：在商场中可设置智能摄像头，通过智能摄像头拍摄，并通过其上运行的训练好的神经网络模型对拍摄的视频进行识别，可判断是否存在缺货的情况；若存在则提醒商场工作人员进行补货。再例如：可在路口设置智能摄像头，通过智能摄像头拍摄，并通过其上运行的训练好的神经网络模型对拍摄的视频进行识别，可判断当前路口是否存在拥堵情况；若存在则采用相应的策略进行调度。

图2示出了本申请一实施例提供的时序数据识别方法的流程示意图。本申请实施例提供的方法的执行主体可以服务端，也可以是客户端。其中，服务端可以通用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备、监控摄像头等任意终端设备。如图2所示，该方法包括：

201、分别对待识别时序数据的多帧数据进行特征提取，得到多个帧特征。

202、根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重。

203、将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征。

204、综合所述多个加权后帧特征，得到识别结果。

在本实施例中，可利用训练好的至少一个机器学习模型来执行上述步骤201、202、203和204。该机器学习模型可以为神经网络模型。

为了能够得到较好的预测准确率，上述至少一个机器学习模型是需要放在一起进行训练的。在一种可实现的方案中，上述至少一个机器学习模型的数量为一个，该一个机器学习模型为具体为上述相应实施例中训练好的神经网络模型。

上述步骤201、202、203和204的具体实现可参照上述各实施例中相应内容，在此不再赘述。

进一步的，上述202中“根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重”，具体可采用如下步骤来实现：

对由所述多个帧特征堆叠而成的时序数据特征进行帧内和帧间的卷积处理，得到卷积特征；

根据所述卷积特征，确定出包含有所述时序数据特征中每一个元素对应的注意力权重。

进一步的，上述204中“综合所述多个加权后帧特征，得到识别结果”，具体可采用如下步骤来实现：

对由所述多个加权后帧特征堆叠而成的加权后时序数据特征进行帧内和帧间的加总池化处理，得到融合特征；

根据所述融合特征，得到所述识别结果。

图3示出了本申请一实施例提供的视频识别方法的流程示意图。本申请实施例提供的方法的执行主体可以服务端，也可以是客户端。其中，服务端可以通用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备、监控摄像头等任意终端设备。如图3所示，该方法包括：

301、获取待识别视频。

其中，所述待识别视频中包括多帧图像。

302、将所述待识别视频输入训练好的神经网络模型，获得识别结果。

上述步骤301和302的具体实现可参见上述各实施例中相应内容，在此不再赘述。

进一步的，上述“根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重”，具体可采用如下步骤来实现：

对由所述多个帧特征堆叠而成的视频特征进行时空卷积，得到时空特征；

根据所述时空特征，确定出所述视频特征中每一个元素对应的注意力权重。

进一步的，上述“对由所述多个帧特征堆叠而成的视频特征进行时空卷积，得到时空特征”，具体可采用如下步骤来实现：

采用二维空间卷积与一维时间卷积的组合方式，对所述视频特征进行时空卷积，得到初始时空特征；

根据所述初始时空特征，确定所述时空特征。

进一步的，上述“根据所述初始时空特征，确定所述时空特征”，具体为：将所述视频特征与所述初始时空特征按元素相加，得到所述时空特征。

进一步的，上述“综合所述多个加权后帧特征，得到所述识别结果”，具体可采用如下步骤来实现：

对由所述多个加权后帧特征堆叠而成的加权后视频特征进行时空上的加总池化处理，得到融合特征；

根据所述融合特征，得到所述识别结果。

进一步的，上述“根据所述时空特征，确定出所述视频特征中每一个元素对应的注意力权重”，具体为：对所述时空特征中每一个所述加总池化窗口内各元素进行归一化指数处理，得到包含有所述视频特征中每一个元素对应的注意力权重的权重特征。

进一步的，所述加总池化为全局加总池化。

进一步的，上述“根据所述融合特征，得到所述识别结果”，具体可采用如下步骤来实现：

将所述融合特征作为所述神经网络模型中至少一个全连接层的输入，得到全连接结果；

根据所述全连接结果，确定所述识别结果。

分别对所述多个加权后帧特征进行卷积处理，得到多个新的帧特征；

根据所述多个新的帧特征，确定出所述多个新的帧特征中每一个元素对应的注意力权重；

将所述多个新的帧特征中每一个元素与其对应的注意力权重相乘，得到多个新的加权后帧特征；

综合所述多个新的加权后帧特征，得到所述识别结果。

综上所述，本申请实施例提供的技术方案在特征融合阶段只利用了注意力机制解决了视频理解问题(例如：单类、多类分类或识别)。与以往的C3D系列模型(即C3D模型、P3D模型、I3D模型)、序列模型的方法相比，可同时提升运算速度与准确率、降低模型参数量。并且，需要学习的参数量少，可以避免训练过拟合，可有效提供识别准确率。

以智能监控摄像头为例，本方案通过识别过滤掉用户不感兴趣的数据，可大幅降低需要回传的视频量，避免占用用户网路带宽，节省云存储空间，节省服务器运算需求；其次，通常智能终端上的算力不足与节电需求，本方案需要的运算是以往的C3D系列模型或序列模型的1/6，符合硬件可承受的耗电与算力占用；最后，本方案具有高召回率与低误识别率。

图4示出了上述神经网络模型的一种模型训练方法的流程示意图。本申请实施例提供的方法的执行主体可以服务端，也可以是客户端。其中，服务端可以通用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备、监控摄像头等任意终端设备。如图4所示，该方法包括：

401、获取样本视频。

其中，所述样本视频中包括多帧图像；

402、将所述样本视频输入神经网络模型，获得预测识别结果。

403、根据所述预测识别结果与所述样本视频对应的期望识别结果，对所述神经网络模型进行参数优化。

上述402中，将所述样本视频作为神经网络模型的输入，以利用神经网络模型获得预测识别结果。本实施例中的神经网络模型的执行步骤的具体实现可同理参照上述各实施例中相应内容，在此不再详述。

上述403中，根据所述预测识别结果与所述样本时序数据对应的期望识别结果，对所述神经网络模型进行参数优化。

可选地，该损失函数可以具体为交叉熵(Cross Entropy)loss。

在一个实际应用中，该期望识别结果即可以为视频的训练标签，例如：基于视频的动作识别场景中：训练标签可以有打篮球、游泳、打羽毛球等等。进行模型训练的训练样本与现有技术相同，不同之处主要在于本申请实施例提供的神经网络模型对训练样本的处理过程不同。

本申请又一实施例还提供了一种神经网络系统。该系统包括：至少一个第一网络层、至少一个第二网络层以及至少一个第三网络层；其中，

上述至少一个第一网络层构成上述骨干网络，可以构成CNN。

进一步的，所述至少一个第三网络层中包括池化层；

所述池化层，用于对由所述多个加权后帧特征堆叠而成的加权后视频特征进行时空上的加总池化处理，得到融合特征；

所述至少一个第四网络层中除所述池化层以外的其他网络层，用于根据所述融合特征，得到所述识别结果。

进一步的，所述其他网络层中包括至少一个全连接层和输出层。

本申请中神经网络系统中各网络层所作的处理的具体实现及原理可参见上述各实施例中相应内容，在此不再赘述。

图5示出了本申请又一实施例提供的数据识别方法的流程示意图。本申请实施例提供的方法的执行主体可以服务端，也可以是客户端。其中，服务端可以通用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备等任意终端设备。如图5所示，该方法，包括：

501、获取待识别数据。

502、将所述待识别数据输入训练好的神经网络模型，获得识别结果。

上述501中，待识别数据可包括待识别图像、待识别视频、待识别音频、气味信息中的一种或多种。

其中，气味信息由气味传感器通过检测生成。

上述502中，将所述待识别数据输入训练好的神经网络模型，以利用所述神经网络模型获得识别结果。

该神经网络模型可根据样本数据以及样本数据对应的期望识别结果训练得到。样本数据的数量可根据实际需要来设定，本申请实施例对此不做具体限定。

在一种可实现的方案中，当待识别数据为待识别图像时，上述神经网络模型可利用2d卷积对待识别数据进行特征提取，得到数据特征。当待识别数据为待识别时序数据时，可利用3d卷积或伪3d卷积对待识别数据进行特征提取，得到数据特征。通过3d卷积或伪3d卷积可提取到帧内和帧间的特征。

其中，3d卷积的具体实现可参见现有技术中C3D和由C3D衍生出来的I3D(Inflated3D)；其中，伪3d卷积具体可参见现有技术中由C3D衍生出来的P3D。

上述“根据所述数据特征，确定出所述数据特征中每一个元素对应的注意力权重”，可具体为：对所述数据特征进行卷积处理，得到卷积特征；根据卷积特征，确定所述数据特征中每一个元素对应的注意力权重。当待识别数据为待识别图像时，该卷积处理可以为2d卷积；当待识别数据为待识别时序数据时，该卷积处理可以为：3d卷积或伪3d卷积，这样结合帧内和帧间的特征可提高计算得到的注意力权重的合理性。

上述“根据所述加权后数据特征，得到所述识别结果”，可具体为：对加权后数据特征进行加总池化处理，得到融合特征；根据融合特征，得到识别结果。当待识别数据为待识别图像时，该加总池化可以为2d池化；当待识别数据为待识别时序数据时，该卷积处理可以为：3d池化，通过3d池化可实现帧内和帧间的特征融合。

该加总池化处理的窗口尺寸可根据实际需要来设定，本实施例对此不做具体限定。在一实例中，加总池化为全局池化。

通过上述注意力权重相乘以及加总池化处理，实现了注意力池化。

为了加速神经网络模型收敛，上述“根据卷积特征，确定所述数据特征中每一个元素对应的注意力权重”，具体为：对所述卷积特征中每一个所述加总池化窗口内各元素进行归一化指数处理，得到包含有所述数据特征中每一个元素对应的注意力权重的权重特征。

本实施例中的注意力池化可取代现有技术中任一神经网络模型中的池化操作，例如：最大化池化或平均池化，可有效抑制杂讯，增强特征，提高准确率。

在另一种可实现的方案中，待识别数据为待识别时序数据。所述待识别时序数据包括多帧数据；相应的，上述“对所述待识别数据进行特征提取，得到数据特征”，具体为：分别对所述多帧数据进行特征提取，得到多个帧特征；其中，所述数据特征中包括所述多个帧特征。

相应的，上述“根据所述数据特征，确定出所述数据特征中每一个元素对应的注意力权重”，具体为：根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重。

相应的，上述“将所述数据特征中每一个元素与其对应的注意力权重相乘，得到加权后数据特征”，具体为：将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征。

相应的，上述“根据所述加权后数据特征，得到所述识别结果”，具体为：根据多个加权后帧特征，得到所述识别结果。

上述各步骤的具体实现可参见上述各实施例中相应内容，在此不再赘述。

下面将介绍一种本实施例中神经网络模型的训练方法。该方法包括：

S51、获取样本数据。

S52、将所述样本数据输入神经网络模型，获得预测识别结果。

S53、根据所述预测识别结果和所述样本数据对应的期望识别结果，对所述神经网络模型进行参数训练。

其中，所述神经网络模型用于：对所述样本数据进行特征提取，得到数据特征；根据所述数据特征，确定出所述数据特征中每一个元素对应的注意力权重；将所述数据特征中每一个元素与其对应的注意力权重相乘，得到加权后数据特征；根据所述加权后数据特征，得到所述识别结果。

上述S52中，将所述样本数据作为神经网络模型的输入，以利用神经网络模型获得预测识别结果。本实施例中的神经网络模型的执行步骤的具体实现可同理参照上述各实施例中相应内容，在此不再详述。

上述S43中，根据所述预测识别结果与所述样本数据对应的期望识别结果，对所述神经网络模型进行参数优化。

其中，所述神经网络模型在训练好之后，用以识别待识别数据。

其中，根据所述预测识别结果与所述样本数据对应的期望识别结果，对所述神经网络模型进行参数优化可以具体利用损失函数(loss function)实现，损失函数是用来估量模型的预测识别结果与期望识别结果的不一致程度，通常是一个非负实值函数。

可选地，该损失函数可以具体为交叉熵(Cross Entropy)loss。

在一个实际应用中，该期望识别结果即可以为样本数据的训练标签，例如：图像分类场景中：训练标签可以有猫、狗、鸟、背景等等。进行模型训练的训练样本与现有技术相同，不同之处主要在于本申请实施例提供的神经网络模型对训练样本的处理过程不同。

图6示出了本申请一实施例提供的数据识别方法的流程示意图。本申请实施例提供的方法的执行主体可以服务端，也可以是客户端。其中，服务端可以通用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备等任意终端设备。如图6所示，该方法包括：

601、对待识别数据进行特征提取，得到数据特征。

602、根据所述数据特征，确定出所述数据特征中每一个元素对应的注意力权重。

603、将所述数据特征中每一个元素与其对应的注意力权重相乘，得到加权后数据特征。

604、根据所述加权后数据特征，得到所述识别结果。

在本实施例中，可利用训练好的至少一个机器学习模型来执行上述步骤601、602、603和604。该机器学习模型可以为神经网络模型。

上述步骤601、602、603和604的具体实现可参照上述各实施例中相应内容，在此不再赘述。

本申请实施例提供的技术方案中，通过注意力机制获得待识别数据的多个帧特征中每一个元素对应的注意力权重，对多个帧特征中每一个元素进行加权处理，得到多个加权后帧特征。这样一来，可有效抑制多个帧特征中的杂讯，增强有效特征，进而可有效提高数据识别的准确率。

图7示出了本申请一实施例提供的识别装置的结构示意图。如图7所示，该装置包括：第一获取模块701和第一输入模块702。其中，

第一获取模块701，用于获取待识别视频；其中，所述待识别视频中包括多帧图像；

第一输入模块702，用于将所述待识别视频输入训练好的神经网络模型，获得识别结果；

这里需要说明的是：上述实施例提供的识别装置可实现上述相应方法实施例中描述的技术方案和技术效果，上述各模块、神经网络模型具体实现及原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图8示出了本申请一实施例提供的模型训练装置的结构示意图。如图8所示，该装置包括：第二获取模块801、第二输入模块802以及第一优化模块803。其中，

第二获取模块801，用于获取样本视频；其中，所述样本视频中包括多帧图像；

第二输入模块802，用于将所述样本视频输入神经网络模型，获得预测识别结果；

第一优化模块803，用于根据所述预测识别结果与所述样本视频对应的期望识别结果，对所述神经网络模型进行参数优化；

这里需要说明的是：上述实施例提供的模型训练装置可实现上述相应方法实施例中描述的技术方案和技术效果，上述各模块、神经网络模型具体实现及原理可参见上述各方法实施例中的相应内容，此处不再赘述。

第一获取模块701，用于获取待识别时序数据；其中，所述待识别时序数据中包括多帧数据；

第一输入模块702，用于将所述待识别时序数据输入训练好的神经网络模型，获得识别结果；

图9示出了本申请一实施例提供的识别装置的结构示意图。如图9所示，该装置包括：第一特征提取模块901、第一确定模块902、第一计算模块903和第二计算模块904。其中，

第一特征提取模块901，用于分别对待识别时序数据的多帧数据进行特征提取，得到多个帧特征；

第一确定模块902，用于根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重；

第一计算模块903，用于将所述多个帧特征中每一个元素与其对应的注意力权重相乘，得到多个加权后帧特征；

第二计算模块904，用于综合所述多个加权后帧特征，得到识别结果。

进一步的，所述第一确定模块902，具体用于：

进一步的，所述第二计算模块904，具体用于：

根据所述融合特征，得到所述识别结果。

第一获取模块701，用于获取待识别数据；

第一输入模块702，用于将所述待识别数据输入训练好的神经网络模型，获得识别结果；

第一特征提取模块901，用于对待识别数据进行特征提取，得到数据特征；

第一确定模块902，用于根据所述数据特征，确定出所述数据特征中每一个元素对应的注意力权重；

第一计算模块903，用于将所述数据特征中每一个元素与其对应的注意力权重相乘，得到加权后数据特征；

第二计算模块904，用于根据所述加权后数据特征，得到所述识别结果。

图10示出了本申请一实施例提供的电子设备的结构示意图。如图10所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述存储器1101，用于存储程序；

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以实现上述各方法实施例提供的视频识别方法、模型训练方法、时序数据识别方法或数据识别方法。

进一步，如图10所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图10中仅示意性给出部分组件，并不意味着电子设备只包括图10所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各方法实施例提供的视频识别方法、模型训练方法、时序数据识别方法、数据识别方法中各方法的步骤或功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频识别方法，其特征在于，包括：

获取待识别视频；其中，所述待识别视频中包括多帧图像；

2.根据权利要求1所述的方法，其特征在于，根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重，包括：

3.根据权利要求2所述的方法，其特征在于，对由所述多个帧特征堆叠而成的视频特征进行时空卷积，得到时空特征，包括：

根据所述初始时空特征，确定所述时空特征。

4.根据权利要求3所述的方法，其特征在于，根据所述初始时空特征，确定所述时空特征，包括：

将所述视频特征与所述初始时空特征按元素相加，得到所述时空特征。

5.根据权利要求2至4中任一项所述的方法，其特征在于，综合所述多个加权后帧特征，得到所述识别结果，包括：

根据所述融合特征，得到所述识别结果。

6.根据权利要求5所述的方法，其特征在于，根据所述时空特征，确定出所述视频特征中每一个元素对应的注意力权重，包括：

对所述时空特征中每一个所述加总池化窗口内各元素进行归一化指数处理，得到包含有所述视频特征中每一个元素对应的注意力权重的权重特征。

7.根据权利要求5所述的方法，其特征在于，所述加总池化为全局加总池化。

8.根据权利要求5所述的方法，其特征在于，根据所述融合特征，得到所述识别结果，包括：

根据所述全连接结果，确定所述识别结果。

9.根据权利要求1至4中任一项所述的方法，其特征在于，综合所述多个加权后帧特征，得到所述识别结果，包括：

综合所述多个新的加权后帧特征，得到所述识别结果。

10.一种模型训练方法，其特征在于，包括：

获取样本视频；其中，所述样本视频中包括多帧图像；

将所述样本视频输入神经网络模型，获得预测识别结果；

11.一种神经网络系统，其特征在于，包括：至少一个第一网络层、至少一个第二网络层以及至少一个第三网络层；其中，

12.根据权利要求11所述的系统，其特征在于，所述至少一个第三网络层中包括池化层；

所述至少一个第三网络层中除所述池化层以外的其他网络层，用于根据所述融合特征，得到所述识别结果。

13.根据权利要求12所述的系统，其特征在于，所述其他网络层中包括至少一个全连接层和输出层。

14.一种时序数据识别方法，其特征在于，包括：

15.根据权利要求14所述的方法，其特征在于，根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重，包括：

16.根据权利要求14或15所述的方法，其特征在于，综合所述多个加权后帧特征，得到所述识别结果，包括：

根据所述融合特征，得到所述识别结果。

17.一种时序数据识别方法，其特征在于，包括：

综合所述多个加权后帧特征，得到识别结果。

18.根据权利要求17所述的方法，其特征在于，根据所述多个帧特征，确定出所述多个帧特征中每一个元素对应的注意力权重，包括：

19.根据权利要求17或18所述的方法，其特征在于，综合所述多个加权后帧特征，得到识别结果，包括：

根据所述融合特征，得到所述识别结果。

20.一种数据识别方法，其特征在于，包括：

获取待识别数据；

21.根据权利要求20所述的方法，其特征在于，根据所述加权后数据特征，得到所述识别结果，包括：

对所述加权后数据特征进行加总池化处理，得到融合特征；

根据所述融合特征，得到所述识别结果。

22.一种数据识别方法，其特征在于，包括：

对待识别数据进行特征提取，得到数据特征；

根据所述加权后数据特征，得到所述识别结果。

23.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取待识别视频；其中，所述待识别视频中包括多帧图像；

24.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取样本视频；其中，所述样本视频中包括多帧图像；

将所述样本视频输入神经网络模型，获得预测识别结果；

25.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

26.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

综合所述多个加权后帧特征，得到识别结果。

27.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

获取待识别数据；

28.一种电子设备，其特征在于，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

对待识别数据进行特征提取，得到数据特征；

根据所述加权后数据特征，得到所述识别结果。