CN114613000A

CN114613000A - 基于视频的行为识别方法、计算设备及用户设备

Info

Publication number: CN114613000A
Application number: CN202011446060.8A
Authority: CN
Inventors: 李超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-06-10

Abstract

本申请实施例提供一种基于视频的行为识别方法、计算设备及用户设备，该方法包括：确定待识别视频中的多个第一视频片段；获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，第一特征序列由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得；将多个第一视频片段进行片段组合处理，获得多个候选视频片段；识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。本申请实施例提高了视频的行为识别准确度以及效率。

Description

基于视频的行为识别方法、计算设备及用户设备

技术领域

本申请涉及电子设备技术领域，尤其涉及一种基于视频的行为识别方法、计算设备及用户设备。

背景技术

随着科学技术的迅速发展，视频数量在不断增加，从海量视频中寻找有意义的视频成为目前研究的热点。视频可以为图像连续变化每秒超过24帧画面以上，人眼无法辨别单幅的视频帧，看上去形成的平滑连续的画面。

现有技术中，对视频内容的分析方法，一般是寻找视频中的某些关键帧或者关键视频片段，并采用特征提取算法对关键帧或者关键视频片段中出现的人物行为的特征进行提取，获得行为特征，并对行为特征进行行为分类，以获得关键帧或者关键视频片段的目标行为，并利用关键帧的目标行为定义视频中的行为。

但是，以上采用关键帧或者关键视频片段的提取方式，可能会对视频中的某些行为漏检，导致视频中出现某些行为的视频片段的提取准确率降低。

发明内容

有鉴于此，本申请实施例提供一种基于视频的行为识别方法、计算设备及用户设备，用以解决现有技术中视频中的行为识别准确率较低的技术问题。

第一方面，本申请实施例提供一种基于视频的行为识别方法，包括：

确定待识别视频中的多个第一视频片段；

获取所述多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，所述第一特征序列由所述多个第一视频片段对应的全局特征序列以及局部特征序列融合获得；

将所述多个第一视频片段进行片段组合处理，获得多个候选视频片段；

识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为。

第二方面，本申请实施例提供一种基于视频的行为识别方法，包括：

响应于调用视频识别接口的请求，确定所述视频识别接口对应的处理资源；

利用所述视频识别接口对应的处理资源执行如下步骤：

确定待识别视频中的多个第一视频片段；

第三方面，本申请实施例提供一种基于视频的行为识别方法，包括：

检测用户发起的视频识别请求以及所述用户提供的待识别视频；

发送所述待识别视频至提供视频识别接口的计算设备，以供所述计算设备利用所述视频识别接口对应的处理资源，其中，所述处理资源用于执行如下步骤：

确定待识别视频中的多个第一视频片段；获取所述多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，所述第一特征序列由所述多个第一视频片段对应的全局特征序列以及局部特征序列融合获得；将所述多个第一视频片段进行片段组合处理，获得多个候选视频片段；识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为；

获取所述计算设备提供的所述目标视频片段以及所述目标视频片段对应的目标行为。

第四方面，本申请实施例提供一种计算设备，包括：存储组件以及处理组件；其中，所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用以执行；

所述处理组件具体用于：

确定待识别视频中的多个第一视频片段；获取所述多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，所述第一特征序列由所述多个第一视频片段对应的全局特征序列以及局部特征序列融合获得；将所述多个第一视频片段进行片段组合处理，获得多个候选视频片段；识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为。

第五方面，本申请实施例提供一种用户设备，包括：存储组件以及处理组件；其中，所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用以执行；

所述处理组件具体用于：

本申请实施例，确定待识别视频中的多个第一视频片段之后，获取所述多个第一视频片段分别对应的第一片段特征构成的第一特征序列，该第一特征序列由多个第一视频片段之间的全局特征序列以及局部特征序列融合获得，以使得第一特征序列中既包括全局特征又包括局部特征，相比于原有仅对视频单独进行特征分析的方式获得的特征信息更全面。对待识别视频中的多个第一视频片段进行行为分析时，采用将多个视频片段进行片段组合处理，获得多个候选视频片段，可以对视频片段进行进一步组合扩展。通过采用多种角度的特征提取以及视频片段的组合扩展，实现对待处理视频中更多视频片段进行准确的行为识别，以获得待识别视频中更全面、识别准确度更高的目标视频片段，实现行为片段的准确提取。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于视频的行为识别方法的一个实施例的流程图；

图2为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图；

图3为本申请实施例提供的一种视频片段示例图；

图4为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图；

图5为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图；

图6为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图；

图7为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图；

图8为本申请实施例提供的一种基于视频的行为识别方法的一个示例图；

图9为本申请实施例提供的一种计算设备的一个实施例的结构示意图；

图10为本申请实施例提供的一种用户设备的一个实施例的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

本申请实施例的技术方案可以应用于视频的行为识别中，通过获取视频中的多个视频片段，采用全局以及局部特征的方式提取特征，以获得精准的特征，以通过多个视频片段组合获得候选视频片段，以识别满足识别条件的目标视频片段，提高行为识别结果的准确度。

现有技术中，对视频内容进行分析时，可以采用寻找视频中的关键帧，或者关键视频片段进行行为特征的提取，并利用分类器对行为特征进行分类，获得该关键视频片段或者关键视频帧的目标行为，但是采用关键帧或者关键视频片段的行为识别方式可能会对视频中的某些行为漏检，导致视频中出现预规定的某些行为的视频片段的提取准确率降低。

本申请实施例中，确定待识别视频中的多个第一视频片段之后，获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列，该第一特征序列由多个第一视频片段之间的全局特征序列以及局部特征序列融合获得，以使得第一特征序列中既包括全局特征又包括局部特征，相比于原有仅对视频单独进行特征分析的方式获得的特征信息更全面。对待识别视频中的多个第一视频片段进行行为分析时，采用将多个视频片段进行片段组合处理，获得多个候选视频片段，可以对视频片段进行进一步组合扩展。而根据目标特征序列中多个视频片段分别对应的片段特征，确定多个候选视频片段分别对应的候选片段特征之后，可以根据多个候选视频片段分别对应的候选片段特征，识别该多个候选视频片段中满足预设行为识别条件的目标视频片段。通过采用多种角度的特征提取以及视频片段的组合扩展，实现对待处理视频中更多视频片段按照其对应的特征进行准确的行为识别，以获得待识别视频中更全面、识别准确度更高的目标视频片段，实现行为片段的准确提取。

下面将结合附图对本申请实施例进行详细描述。

如图1所示，为本申请实施例提供的一种基于视频的行为识别方法的一个实施例的流程图，该方法可以包括以下几个步骤：

101：确定待识别视频中的多个第一视频片段。

本申请实施例所提供的基于视频的行为识别可以应用于计算设备中，该计算设备可以为计算机、普通服务器、云端服务器、超级个人计算机、笔记本电脑、平板电脑等，本申请实施例对计算设备的具体类型并不作出过多限定。

当本申请所提供的技术方案应用于计算机、笔记本电脑等电子设备时，待识别视频可以是电子设备采集的，也可以是由用户提供的。当本申请所提供的技术方案应用于服务器时，待识别视频可以由用户端发送至的服务器。

其中，多个第一视频片段按照各自的片段起始时间进行排序。

可选地，可以采用滑窗提取视频片段的方法，从待识别视频中提取多个第一视频片段。例如，以窗口时长为2s(second，秒)，步长为1s的规则进行片段的提取，获得多个第一视频片段。

多个第一视频片段分别对应有片段起始时间以及片段终止时间。多个第一视频片段按照片段起始时间排序。任一个第一视频片段为待识别视频中的任一段视频。例如，假设待识别视频的时长为300秒，则其中的一个第一视频片段可以为待识别视频中20s至50s的视频。

102：获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列。

其中，第一特征序列由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得。第一特征序列包括多个视频片段分别对应的第一片段特征。

可选地，多个第一视频片段分别对应的第一片段特征按照多个第一视频片段分别对应的片段起始时间排序，获得的排序后的多个第一片段特征组合形成第一特征序列。也即，第一特征序列中的多个第一片段特征分别按照对应的第一视频片段的片段起始时间排列。

任一个第一视频片段的片段特征可以为第一片段特征。第一特征序列中包括多个第一视频片段分别对应的第一片段特征。多个第一片段特征各自的特征维度相同，例如，第一片段特征可以为维度为100的特征向量。多个第一片段特征构成的第一特征序列的序列数量与多个第一视频片段的片段数量相等，例如，假设多个第一视频片段的片段数量为50个，则第一特征序列中的序列数量为100，假设第一特征向量为维度为100的特征向量时，第一特征序列可以为100(行)*50(列)的特征矩阵。

103：将多个第一视频片段进行片段组合处理，获得多个候选视频片段。

其中，多个候选视频片段分别可以由依次相邻的至少一个视频片段组合获得。将多个视频片段进行片段组合处理，获得多个候选视频片段可以包括：将多个第一视频片段中依次相邻的至少一个第一片段进行片段组合处理，获得多个候选视频片段。

将多个第一视频片段进行片段组合处理时，可以将相邻的至少一个第一视频片段组合形成一个候选视频片段。因此，任一个候选视频片段对应至少一个第一视频片段。

104：识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

为了获得准确的目标视频片段，可以多个候选视频片段分别进行行为识别，以获得多个候选视频片段分别对应的候选行为，并将至少一个候选行为与预设行为进行比较，以判断片段至少一个候选行为中是否存在满足行为识别条件的目标视频片段。此外，在识别获得多个候选视频片段分别对应的候选行为之后，可以对至少一个候选行为进行打分，以获得至少一个候选视频片段分别对应的行为分数，从而确定目标视频片段的目标行为分数。

可选地，还可以采用人脸识别算法对目标视频片段中发生目标行为的用户进行人脸识别，以确定发生目标行为的用户的身份信息，从而实现对各个用户的行为进行准确获取，以实现进一步的用户行为监控，具有更有效的监控效果。

本申请实施例中，确定待识别视频中的多个第一视频片段之后，获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列，该第一特征序列由多个第一视频片段之间的全局特征序列以及局部特征序列融合获得，以使得第一特征序列中既包括全局特征又包括局部特征，相比于原有仅对视频单独进行特征分析的方式获得的特征信息更全面。对待识别视频中的多个第一视频片段进行行为分析时，采用将多个视频片段进行片段组合处理，获得多个候选视频片段，可以对视频片段进行进一步组合扩展。通过采用多种角度的特征提取以及视频片段的组合扩展，获得更多候选视频片段，以获得待识别视频中更全面、识别准确度更高的目标视频片段，实现行为片段的准确提取。

如图2所示，为本申请实施例提供的一种基于视频的行为识别方法的一个实施例的流程图，该方法可以包括以下几个步骤：

201：确定待识别视频中的多个第一视频片段。

202：基于预设特征获取算法，获取多个第一视频片段分别对应的第二片段特征构成的第二特征序列。

基于视频特征提取算法可以获得多个第一视频片段分别对应的第二片段特征。多个第二片段特征按照各自对应的第一视频片段的片段起始时间排列构成第二特征序列。在确定多个第一视频片段之后，可以分别提取多个第一视频片段的片段特征，获得多个第二片段特征。

203：提取第二特征序列对应的全局特征序列以及局部特征序列。

第二特征序列包括按照对应视频片段的片段起始时间排序的多个第二片段特征。可以提取第二特征序列的全局特征，以获得全局特征序列，并提取第二特征序列的局部特征，以获得局部特征序列。

204：融合全局特征序列以及局部特征序列，以获得多个第一视频片段分别对应的第一片段特征构成的第一特征序列。

其中，第一特征序列由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得。全局特征序列中的序列数量、局部特征序列的序列数量以及第一视频片段的序列数量相同。例如，全局特征序列可以为70*50的特征矩阵，序列数量为50，局部特征序列可以为30*50的特征矩阵，序列数量为50，而第一特征序列可以为100*50的特征矩阵，序列数量也为50。

可选地，融合全局特征序列以及局部特征序列时，可以采用将全局特征序列与局部特征序列进行拼接获得。在一种可能的设计中，还可以将全局特征序列与局部特征序列进行加权组合，获得第一特征序列。例如，可以将全局特征序列与局部特征序列进行特征加权，以获得第一特征序列。

205：将多个第一视频片段进行片段组合处理，获得多个候选视频片段。

206：识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

本申请实施例中部分步骤与图1所示实施例部分步骤相同，在此不再赘述。

本申请实施例中，确定待识别视频中的多个第一视频片段，基于预设特征获取算法，获取多个第一视频片段分别对应的第二片段特征构成的第二特征序列。通过采用特征提取算法，对多个第一视频片段分别对应的第二片段特征构成的第二特征序列，实现对特征的初步提取，之后，利用特征序列进行特征分层，并采用局部以及全局特征的分别提取方式，实现全局特征序列以及局部特征序列的准确提取，从而对后续的特征识别过程作出特征准确提取的贡献，提高视频片段的行为识别的准确度。

作为一个实施例，提取第二特征序列对应的全局特征序列以及局部特征序列可以包括：

将第二特征序列按照特征维度划分为第一子特征序列以及第二子特征序列。

基于第一子特征序列，提取第二特征序列对应的全局特征序列。

基于第二子特征序列，提取第二特征序列对应的局部特征序列。

由于第二特征序列包括多个第二片段特征，在实际应用中，第二片段特征可以以特征向量形式存在，因此，可以将第二特征序列按照特征维度划分为第一子特征序列以及第二子特征序列。第二特征序列中的任一个第二片段特征可以被划分为一个第一子片段特征以及一个第二子片段特征。以第35列的第二片段特征为100维的特征向量为例，该第二片段特征可以按照特征维度划分为一个70维的第一子片段特征，以及一个30维的第二子片段特征。

将第二特征序列按照特征维度划分为第一子特征序列以及第二子特征序列时，第一子特征序列可以包括多个第一子片段特征，第二子特征序列可以包括多个第二子片段特征。任一个序列对应的第一子片段特征与第二子片段特征按照各自的特征维度可以拼接构成该序列对应的第二片段特征。

在基于第一子特征序列，提取第二特征序列对应的全局特征序列时，可以对第一子特征序列进行特征计算，获得全局特征序列。在基于第二子特征序列，提取第二特征序列对应的局部特征序列时，可以对第二子特征序列进行特征计算，获得局部特征序列。

为了提取到准确的全局特征以及局部特征，可以使用特征网络进行特征片段的提取。通常，特征网络的网络深度与特征的提取的准确度密切相关，需要特征网络达到一定的网络深度，才能对特征进行准确提取，以获得更准确的特征。在实际应用中，可以设置网络层数，也即特征提取次数，特征提取次数越多，提取的特征就更精确。

在某些实施例中，将第二特征序列按照特征维度划分为第一子特征序列以及第二子特征序列之后，该方法还可以包括：

确定特征提取次数N；其中，N为大于等于1的正整数；

基于第一子特征序列，提取第二特征序列对应的全局特征序列包括：

对第一子特征序列执行N次全局特征提取，获得第二特征序列对应的全局特征序列；

基于第二子特征序列，提取第二特征序列对应的局部特征序列包括：

对第二子特征序列执行N次局部特征提取，获得第二特征序列对应的局部特征序列。

作为一种可能的实现方式，对第一子特征序列执行的任一次全局特征提取步骤包括：

确定全局卷积算子；

利用全局卷积算子与参与全局卷积计算的第一子特征序列进行卷积计算，获得卷积计算获得的全局特征序列；其中，参与全局卷积计算的第一特征子序列为前一次卷积计算获得的全局特征序列，第N次卷积计算获得的全局特征序列为最后获得的全局特征序列。

可选地，全局卷积算子可以同时对第一特征子序列中相邻的至少三个第一子片段特征进行卷积计算，以对第一子特征序列中每个第一子特征片段进行上下文特征的提取，以获得第一特征子序列中多个第一子片段特征分别对应的全局特征。全局卷积算子中卷积核的数量与参与卷积计算的至少三个第一子片段特征的特征数量相同。例如，全局卷积算子的卷积核为3个时，参与卷积计算的为三个第一子片段特征，卷积公式可以为：

y_t＝f(x_t-1，x_t，x_t+1)

其中，t为当前卷积计算的第一子特征序列所在的序列次序，f为3个卷积核对应的卷积公式，y为卷积计算结果。

在利用全局卷积算子与参与全局卷积计算的第一子特征序列进行卷积计算时，可以利用全局卷积算子，在参与全局卷积计算的第一子特征序列的多个第一子片段特征上按照预设卷积步长进行卷积滑动计算，以在卷积计算结束时获得多个第一子片段特征分别对应的全局子特征构成的全局特征序列。

作为又一种可能的实现方式，对第二特征子序列执行的任一次局部特征提取步骤包括：

确定局部卷积算子；

利用局部卷积算子与参与局部卷积计算的第二子特征序列进行卷积计算，确定卷积计算获得的局部特征序列；其中，参与局部卷积计算的第二子特征序列为前一次卷积计算获得的局部特征序列，第N次卷积计算获得的局部特征序列为最后获得的局部特征序列。

可选地，局部卷积算子仅可对第二子特征序列中的每个第二子片段特征进行单独的卷积计算，以获得多个第二子片段特征分别对应的局部子特征构成的局部特征序列。局部卷积算子可以为卷积核为1的卷积算子。在利用局部卷积算子与参与局部卷积计算的第二子特征序列进行卷积计算时，具体可以是使用单个的局部卷积核分别与第二子特征序列中的多个第二子片段特征分别进行卷积计算，获得多个第二子片段特征分别对应的局部子特征构成的全局卷积序列。局部卷积算子的卷积核为一个，利用局部卷积算子与任一个第二子片段特征进行卷积计算时，使用的计算公式可以为：y_t＝f(x_t)。

在一种可能的设计中，融合全局特征序列以及局部特征序列，以获得多个第一视频片段分别对应的第一片段特征构成的第一特征序列可以包括：

从特征维度上融合全局特征序列以及局部特征序列，以获得多个第一视频片段分别对应的第一片段特征构成的第一特征序列。

由于第一子特征序列以及第二子特征序列是第二特征序列在维度上分割获得，为了获得特征维度上的准确特征，可以将第一子特征序列以及第二子特征序列进行特征维度上的拼接，以获得第一特征序列，实现对第一特征序列的准确获取。

可选地，从特征维度上融合全局特征序列以及局部特征序列具体可以包括：确定第一子特征序列对应的第一特征维度，以及第二子特征序列对应的第二特征维度。根据第一特征维度，确定全局特征序列的第三特征维度，以及根据第二特征维度，确定局部特征序列的第四特征维度。按照第三特征维度以及第四特征维度，将全局特征序列与局部特征序列按照序列顺序从特征维度上进行拼接，获得特征序列。

在某些实施例中，基于预设特征获取算法，获取多个第一视频片段分别对应的第二片段特征构成的第二特征序列包括：

将待识别视频划分为多个初始视频片段；

分别对多个初始视频片段进行片段扩展处理，获得多个初始视频片段分别对应的扩展视频片段；

确定多个初始视频片段以及多个初始视频片段分别对应的扩展视频片段按照片段起始时间排序获得的多个第一视频片段；

分别确定多个第一视频片段分别对应的第二片段特征构成的第二特征序列。

可选地，多个初始视频片段可以由多个待识别视频划分获得，具体的划分步骤可以为：确定片段长度，将待识别视频按照片段长度划分为多个初始视频片段。例如，待识别视频为10分钟的视频片段，预设的片段长度为60s，则可以将待识别视频划分为10个时长为60s的视频片段。

多个初始视频片段分别对应的片段起始时间为视频片段在待识别视频中的起始时间，以及片段终止时间为视频片段在待识别视频中的终止时间。分别对多个初始视频片段进行片段扩展处理，例如可以是对该视频片段的片段长度或者结合该视频片段附近的视频片段进行片段扩展处理，获得视频片段分别对应扩展视频片段。任一个初始视频片段对应的扩展视频可以包括一个或多个。

作为一种可能的实现方式，多个第一视频片段分别对应的第二片段特征通过以下方式获取：

基于预设视频特征提取算法，提取多个初始视频片段分别对应的初始片段特征；

基于多个初始视频片段分别对应的初始片段特征，确定多个初始视频片段分别对应的扩展视频片段各自的扩展片段特征；

根据多个初始视频片段分别对应的初始片段特征以及多个初始视频片段分别对应的扩展视频片段各自的扩展片段特征，确定多个第一视频片段分别对应的第二片段特征。

多个初始视频片段以及多个初始视频片段分别对应的扩展视频片段按照片段起始时间排序可以形成多个第一视频片段。

采用视频特征提取算法，分别提取多个初始视频片段的片段特征时，可以采用常见的视频特征提取算法进行视频特征的提取。视频特征提取算法例如可以包括：Word2vec(Efficient Estimation of Word Representations in Vector Space，向量空间中词向量的有效估计方法)，P3D视频特征提取网络(learning spatio-temporal representationwith pseudo-3D residual networks)等，关于视频片段的特征提取方式与现有技术相同，在此不再赘述。

任一个初始视频片段的扩展视频片段的片段特征可以根据该初始视频片段的初始片段特征确定。

在一种可能的设计中，基于多个初始视频片段分别对应的初始片段特征，确定多个初始视频片段分别对应的扩展视频片段各自的扩展片段特征可以包括：

从多个初始视频片段中，确定多个初始视频片段分别对应的关联视频片段；

针对任一个初始视频片段，利用初始视频片段的初始片段特征以及初始视频片段对应关联视频片段的初始片段特征，确定初始视频片段对应的扩展视频片段的扩展片段特征。

任一个初始视频片段对应的关联视频片段可以为该初始视频片段相邻的初始视频片段。例如，可以规定任一个初始视频片段的关联视频片段为与该初始视频片段相邻的下一个初始视频片段。最后一个初始视频片段对应的关联视频片段为空。

由于任一个初始视频片段的初始片段特征已确定，则任一个初始视频片段对应的关联视频片段的片段特征即已确定，可以直接参与到扩展视频片段的特征计算。

计算任一个初始视频片段对应扩展视频片段的扩展片段特征时，可以根据初始视频片段与初始视频片段对应关联视频片段之间的关联关系来计算。

进一步，可选地，针对任一个初始视频片段，利用初始视频片段的初始片段特征以及初始视频片段对应关联视频片段的初始片段特征，确定初始视频片段对应的扩展视频片段的扩展片段特征包括：

针对任一个初始视频片段，确定初始视频片段对应的扩展视频片段占初始视频片段的第一片段占比以及扩展视频片段占初始视频片段对应关联视频片段的第二片段占比；

根据第一片段占比与初始视频片段的初始视频特征，以及第二片段占比与初始视频片段对应关联视频片段的初始视频特征进行特征加权计算，获得初始视频片段对应扩展视频片段的扩展片段特征。

第一片段占比以及第二片段占比可以根据扩展视频片段的数量确定。可以根据扩展视频片段的数量依次确定扩展视频片段在对应初始视频片段的第一片段占比以及在对应的关联视频片段的第二片段占比。例如，若某个初始视频片段的扩展视频片段的数量为2，此时，可以确定第一扩展片段占初始视频片段的三分之一，占该初始视频片段的关联视频片段的三分之二；第二扩展片段占初始视频片段的三分之二，占该初始视频片段的关联视频片段的三分之一。

作为又一个实施例，分别对初始视频片段进行片段扩展处理，获得多个初始视频片段分别对应的扩展视频片段可以包括：

从多个初始视频片段中，确定多个初始视频片段分别对应的关联视频片段。

基于预设片段分析总量，确定多个初始视频片段分别对应的片段扩展数量。

针对任一个初始视频片段，利用初始视频片段以及初始视频片段对应的关联视频片段，按照片段扩展数量，获取初始视频片段对应的扩展视频片段，以获得多个初始视频片段分别对应的扩展视频片段。

片段分析总量可以预设的片段序列的序列数量。例如，片段分析总量为50时，片段序列的序列数量为50。

基于预设片段分析总量，确定多个初始视频片段分别对应的片段扩展数量时，可以先确定多个初始视频片段的初始片段数量，并计算片段分析总量与初始片段分析数量的商，取整之后获得多个初始视频片段分别对应的片段扩展数量。

例如，片段分析总量为50，片段数量为15时，50与15的商为3.333，取整为3，减去片段原有初始视频片段的1，获得多个初始视频片段分别对应的片段扩展数量为3-1＝2。如果最后多个初始视频片段以及多个初始视频片段分别对应的扩展视频片段的片段总量未达到片段分析总量，可以在多个初始视频片段以及多个初始视频片段分别对应的扩展视频片段的基础上进行片段补齐，以确保参与片段分析的片段总量能够达到片段总量的规定，提高片段扩展的有效性以及准确度。

在一种可能的设计中，针对任一个初始视频片段，利用初始视频片段以及初始视频片段对应的关联视频片段，按照片段扩展数量，获取初始视频片段对应的扩展视频片段，以获得多个初始视频片段分别对应的扩展视频片段可以包括：

针对任一个初始视频片段，采用线性差值算法，对初始视频片段与初始视频片段对应的关联视频片段之间按照片段扩展数量进行片段插样，获得初始视频片段对应的扩展视频片段，以获得多个初始视频片段分别对应的扩展视频片段。

可选地，任一个初始视频片段，确定其片段起始时间位于多个初始视频片段之后且与多个初始视频片段的片段起始时间差值最小的初始视频片段为多个初始视频片段的关联视频片段，以获得多个初始视频片段分别对应的关联视频片段。

可选地，针对任一个初始视频片段，根据该初始视频片段的片段起始时间以及该初始视频片段对应的关联视频片段的片段起始时间，确定该初始视频片段对应扩展视频片段的片段起始时间，以及根据该初始视频片段的片段结束时间以及该初始视频片段对应的关联视频片段的片段结束时间，确定该初始视频片段对应扩展视频片段的片段结束时间。

进一步，可选地，针对任一个初始视频片段，可以确定初始视频片段对应的扩展视频片段占初始视频片段的第一片段占比以及扩展视频片段占初始视频片段对应关联视频片段的第二片段占比；并根据初始视频片段的片段起始时间与第一片段占比的乘积，与关联视频片段的片段起始时间与第二片段占比的乘积，进行时间加和计算，获得扩展视频片段的片段起始时间。同样，针对任一个初始视频片段，可以确定初始视频片段对应的扩展视频片段占初始视频片段的第一片段占比以及扩展视频片段占初始视频片段对应关联视频片段的第二片段占比；并根据初始视频片段的片段终止时间与第一片段占比的乘积，与关联视频片段的片段终止时间与第二片段占比的乘积，进行时间加和计算，获得扩展视频片段的片段终止时间。

参考图3，时长为10分钟的待识别视频时间轴t，可以划分为5个时长为2分钟的初始视频片段S1～S5，假设每个初始视频片段的关联视频片段为该视频片段相邻的下一个初始视频片段，也即S1的关联视频片段为S2，S2的关联视频片段为S3，S3关联的视频片段为S4，以及S4的关联视频片段为S5，S5不存在关联视频片段。在根据任一个初始视频片段以及该初始视频片段对应的扩展视频片段时，可以根据这两个视频片段的片段起始时间确定。以S1为例，S1的片段起始时间为0s，片段终止时间为120s，S2的关联视频片段S2的片段起始时间为121s，片段终止时间为240s。假设S1的扩展视频片段的数量为2，则可以确定扩展视频片段K1在S1的第一片段占比为2/3，K1在S2的第二片段占比为1/3，此时K1的片段起始时间为40s(0*2/3+121*1/3)，片段终止时间为160s(120*2/3+240*1/3)。扩展视频片段K2在S1的第一片段占比为1/3，K2在S2的第二片段占比为2/3，此时K2的片段起始时间为80s(0*1/3+121*2/3)，片段终止时间为200s(120*1/3+240*2/3)。按照以上方式，参考图3，可以分别确定S2的扩展视频片段K3、K4，S3的扩展视频片段K5、K6以及S4的扩展视频片段K7、K8，最终获得13个视频片段构成的多个第一视频片段。

如图4所示，为本申请实施例提供的一种基于视频的行为识别方法的一个实施例的流程图，方法可以包括以下几个步骤：

401：确定待识别视频中的多个第一视频片段。

需要说明的是，本申请实施例中部分步骤与图1所示实施例部分步骤相同，在此不再赘述。

402：获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列。

其中，第一特征序列由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得。

403：将多个第一视频片段进行片段组合处理，获得多个候选视频片段。

404：根据第一特征序列中多个第一视频片段分别对应的第一片段特征，确定多个候选视频片段分别对应的候选片段特征。

可选地，任一个候选视频片段可以对应至少一个第一视频片段。任一个候选视频片段的候选片段特征可以根据该候选视频片段对应的至少一个第一视频片段各自的第一片段特征加权计算获得。

405：根据多个候选视频片段分别对应的候选片段特征，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段的目标行为。

为了获得准确的目标视频片段，可以多个候选视频片段分别对应的候选片段特征进行行为识别，以获得多个候选视频片段分别对应的候选行为，并将至少一个候选行为与预设行为进行比较，以判断片段至少一个候选行为中是否存在满足行为识别条件的目标视频片段。此外，在识别获得多个候选视频片段分别对应的候选行为之后，可以对至少一个候选行为进行打分，以获得至少一个候选视频片段分别对应的行为分数，从而确定目标视频片段的目标行为分数。

如图5所示，为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

501：确定待识别视频中的多个第一视频片段。

502：获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列。

503：确定片段选择数量以及片段选择步长。

其中，片段选择数量为1至M的正整数；M为多个第一视频片段的片段总量。片段选择步长为常量。

504：从片段选择数量为1开始，基于片段选择步长，从多个第一视频片段中选择片段数量与片段选择数量相匹配的第一视频片段以获得一个候选视频片段，直至片段选择数量为M时选择结束。

505：获得选择结束时获得的多个候选视频片段。

506：识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

可选地，识别多个候选视频片段中满足行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为可以包括：根据第一特征序列中多个第一视频片段分别对应的第一片段特征，确定多个候选视频片段分别对应的候选片段特征。根据多个候选视频片段分别对应的候选片段特征，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

本申请实施例中，在对多个第一视频片段进行片段扩展时，采用片段选择数量以及片段选择步长的方式进行片段扩展，以确保多个第一视频片段均能参与到视频片段的组合处理过程中，确保候选视频片段能够更全面地覆盖不同长度、不同时间段的视频片段，增加候选视频片段的片段数量，增加片段分析范围。另外，又可以对多个第一视频片段的片段特征进行多次重复利用，不需要单独对多个候选视频片段分别进行特征提取，以减少特征计算复杂度，提高片段的选取效率以及准确度。

作为一个实施例，任一个候选视频片段可以由以下方式从多个第一视频片段选择确定：

获取任一个候选视频片段对应的与片段选择数量相匹配的第一视频片段，获得候选视频片段对应的至少一个第一视频片段。

根据候选视频片段中的至少一个第一视频片段分别对应的片段起始时间以及片段终止时间，确定最小片段起始时间以及最大片段终止时间。

获取待识别视频中最小片段起始时间以及最大片段终止时间构成的候选视频片段。

进一步，可选地，该候选视频片段的候选片段特征通过以下方式确定：

将候选视频片段中的至少一个第一视频片段分别对应的第一片段特征进行特征加权计算，获得候选视频片段的候选片段特征。

作为又一个实施例，根据多个候选视频片段分别对应的候选片段特征，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为可以包括：

基于行为识别算法，识别多个候选视频片段分别对应的候选特征片段分别对应的候选行为以及行为分数；

根据多个候选视频片段分别对应的候选行为以及行为分数，从多个候选视频片段中选择满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

在一种可能的设计中，可以预设多个行为类别，并确定多个行为类别分别对应的行为特征，在基于行为识别算法，识别多个候选视频片段分别对应的候选特征片段分别对应的候选行为以及行为分数时，可以将任一个候选视频片段的候选片段特征分别与多个行为类别各自的行为特征进行行为匹配计算，以确定该任一个候选视频片段分别在多个行为类别可能对应的行为概率值，并确定行为概率值最高的行为类别作为该候选视频片段的候选行为，以获得多个候选视频片段各自的候选行为。任一个候选视频片段的行为分数可以根据该候选视频片段的最高行为概率值，确定该候选视频片段的行为分数。例如，可以按照概率值直接进行百分制换算，获得行为分数。

在某些实施例中，根据多个候选视频片段分别对应的候选行为以及行为分数，从多个候选视频片段中选择满足预设行为识别条件的目标视频片段时具体可以为判断任一个候选视频片段对应的最大概率值是否大于预设概率阈值，如果是，则确定该候选视频片段为满足识别条件的目标视频片段，如果否，则确定该候选视频片段为不满足识别条件的目标视频片段，以获得多个候选视频片段的所有目标视频片段。

作为又一个实施例，该方法还可以包括：

为第一用户输出多个候选视频片段，以供第一用户对多个候选视频片段进行确认；

识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为包括：

响应于第一用户对多个候选视频片段执行的确认操作，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

在某些实施例中，在为第一用户输出多个候选视频片段，以供第一用户对多个候选视频片段进行确认，之后，还包括：

响应于第一用户针对多个候选视频片段触发的调整请求，获取第一用户提供的多个候选视频片段各自的调整信息；

根据多个候选视频片段分别对应的调整信息，确定调整后的多个候选视频片段。

识别调整后的多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

可选地，根据多个候选视频片段分别对应的调整信息，确定调整后的多个候选视频片段可以包括：根据任一个候选视频片段的调整信息对该候选视频片段进行片段调整，以获得该候选视频片段调整后的候选视频片段，以对多个候选视频片段分别进行调整处理，获得调整后的多个候选视频片段。

调整信息中包括多个候选视频片段分别对应的调整时间。

可选地，根据多个候选视频片段分别对应的调整信息，确定调整后的多个候选视频片段可以包括：根据多个候选视频片段各自的调整信息对多个候选视频片段分别进行调整处理，获得调整后的多个候选视频片段。具体可以包括：根据任一个候选视频片段对应的调整时间对该候选视频片段进行时间调整，获得该候选视频片段调整后的候选视频片段，以获得调整后的多个候选视频片段。

作为又一个实施例，根据多个候选视频片段分别对应的候选片段特征，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为之后，该方法还可以包括：

为第二用户输出目标视频片段以及目标视频片段对应的目标行为，以供第二用户对目标视频片段进行确认。

在某些实施例中，该方法还可以包括：

获取第二用户发起的条件调整请求，调整行为识别条件，并返回至根据多个候选视频片段分别对应的候选片段特征，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为的步骤继续执行。

在某些实施例中，该方法还可以包括：

响应于第二用户发起的视频识别请求，获取第二用户提供的待识别视频。

如图6所示，为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

601：响应于调用视频识别接口的请求，确定视频识别接口对应的处理资源。

利用视频识别接口对应的处理资源执行如下步骤：

602：确定待识别视频中的多个第一视频片段。

603：获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列。

604：将多个第一视频片段进行片段组合处理，获得多个候选视频片段。

605：识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

本申请实施例中，通过将本申请实施例中部分步骤与前述实施例相同，为了描述的简洁性考虑，在此不再赘述。

本申请实施例中，将视频识别以接口形式提供给用户，以使得用户通过调用视频识别的接口，并提供待识别的视频即可以简单实现对待识别视频的行为识别功能，为用户提供了快速而准确的行为识别服务，提高了视频识别的服务效率。

如图7所示，为本申请实施例提供的一种基于视频的行为识别方法的又一个实施例的流程图，该方法可以包括以下几个步骤：

701：检测用户发起的视频识别请求以及用户提供的待识别视频。

702：发送待识别视频至提供视频识别接口的计算设备，以供计算设备利用视频识别接口对应的处理资源，其中，处理资源用于执行如下步骤：

确定待识别视频中的多个第一视频片段；获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，第一特征序列由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得；将多个第一视频片段进行片段组合处理，获得多个候选视频片段；识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

703：获取计算设备提供的目标视频片段以及目标视频片段对应的目标行为。

本申请实施例中，用户端可以调用视频识别接口，以为用户提供视频的行为识别服务。通过将检测的用户发起的视频识别请求以及待识别视频通过视频识别接口发送至对应的计算设备，该计算设备可以调用相应的处理资源执行本申请实施例中提供的基于视频的行为识别方法，实现待识别视频的行为识别。通过直接为用户提供基于视频的行为识别方法，以减少用户的复杂操作，提高用户的行为识别效率并增强行为识别的可扩展性，简化行为识别的复杂性。

在一种可能的设计中，参考图8，本申请实施例提供的一种基于视频的行为识别方法可以应用于视频监控、自助考核等多种应用场景中，以摄像设备为微型摄像头M1，并部署于A地某个房间中，以采集视频，而本申请实施例提供的行为识别方法设置于云服务器M2中，该云服务器M2可以与一用户设备连接，该用户设备例如可以为手机客户端M3。

其中，A地房间的微型摄像头M1可以不断采集房间中视频，并将采集的视频传输801至云服务器M2。云服务器M2可以接收微型摄像头M1采集的待识别视频。

之后，云服务器M1确定802该待识别视频中的多个第一视频片段，并获取803多个第一视频片段分别对应的第一片段特征构成的第一特征序列。获得的第一特征序列可以由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得，使得每个第一视频片段的第一片段特征可以同时包括具备特征以及全局特征，获得表达更准确的特征。在将多个第一视频片段进行片段组合处理，获得804多个候选视频片段。从而根据第一特征序列中多个第一视频片段分别对应的第一片段特征，确定805多个候选视频片段分别对应的候选片段特征。之后，可以根据多个候选视频片段分别对应的候选片段特征，识别806多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。通过对视频片段的组合扩展，实现对待处理视频中更多视频片段按照其对应的特征进行准确的行为识别，以获得待识别视频中更全面、识别准确度更高的目标视频片段，实现行为片段的准确提取。

为了让监控人，也即手机客户端M3的用户及时获知在A地中发生某些行为，可以对目标视频片段以及目标视频片段的目标行为进行输出。云服务器M2可以将获得的目标视频片段以及目标视频片段的目标行为发生807至手机客户端M3进行查看。在一些可能的设计中还可以在输出目标视频片段以及目标视频片段的行为进行提示，例如，以“A地在B时间发生了C行为”的方式进行语言输出，以便于监控人能及时获知A地发生的行为。

如图9所示，为本申请实施例提供的一种计算设备的一个实施例的结构示意图，该计算设备可以包括：存储组件901以及处理组件902；其中，存储组件901用于存储一条或多条计算机指令；一条或多条计算机指令被处理组件902调用以执行；

处理组件902具体可以用于：

本申请实施例中，确定待识别视频中的多个第一视频片段之后，获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列，该第一特征序列由多个第一视频片段之间的全局特征序列以及局部特征序列融合获得，以使得第一特征序列中既包括全局特征又包括局部特征，相比于原有仅对视频单独进行特征分析的方式获得的特征信息更全面。对待识别视频中的多个第一视频片段进行行为分析时，采用将多个视频片段进行片段组合处理，获得多个候选视频片段，可以对视频片段进行进一步组合扩展。通过采用多种角度的特征提取以及视频片段的组合扩展，实现对待处理视频中更多视频片段进行准确的行为识别，以对待识别视频中更全面、识别准确度更高的目标视频片段的识别，实现目标行为片段的准确提取。

作为一个实施例，处理组件获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，第一特征序列由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得具体可以包括：

基于预设特征获取算法，获取多个第一视频片段分别对应的第二片段特征构成的第二特征序列；

提取第二特征序列对应的全局特征序列以及局部特征序列；

融合全局特征序列以及局部特征序列，以获得多个第一视频片段分别对应的第一片段特征构成的第一特征序列。

作为一种可能的实现方式，处理组件提取第二特征序列对应的全局特征序列以及局部特征序列具体可以包括：

将第二特征序列按照特征维度划分为第一子特征序列以及第二子特征序列；

基于第一子特征序列，提取第二特征序列对应的全局特征序列；

在某些实施例中，处理组件还可以用于：

确定特征提取次数N；其中，N为大于等于1的正整数；

作为一种可能的实现方式，处理组件对第一子特征序列执行的任一次全局特征提取过程具体可以包括：

确定全局卷积算子；

利用全局卷积算子与参与全局卷积计算的第一子特征序列进行卷积计算，获得卷积计算获得的全局特征序列；其中，参与全局卷积计算的第一特征子序列为前一次卷积计算获得的全局特征序列，第N次卷积计算获得的全局特征序列为最后获得的全局特征序列；

处理组件对第二特征子序列执行的任一次局部特征提取过程具体可以包括：

确定局部卷积算子；

在某些实施例中，处理组件融合全局特征序列以及局部特征序列，以获得多个第一视频片段分别对应的第一片段特征构成的第一特征序列具体可以包括：

在某些实施例中，处理组件基于预设特征获取算法，获取多个第一视频片段分别对应的第二片段特征构成的第二特征序列具体可以包括：

将待识别视频划分为多个初始视频片段；

作为一种可能的实现方式，处理组件可以通过以下方式获取多个第一视频片段分别对应的第二片段特征：

在某些实施例中，处理组件基于多个初始视频片段分别对应的初始片段特征，确定多个初始视频片段分别对应的扩展视频片段各自的扩展片段特征具体可以包括：

作为一种可能的实现方式，处理组件针对任一个初始视频片段，利用初始视频片段的初始片段特征以及初始视频片段对应关联视频片段的初始片段特征，确定初始视频片段对应的扩展视频片段的扩展片段特征具体可以包括：

在某些实施例中，处理组件分别对初始视频片段进行片段扩展处理，获得多个初始视频片段分别对应的扩展视频片段具体可以包括：

基于预设片段分析总量，确定多个初始视频片段分别对应的片段扩展数量；

进一步，可选地，处理组件针对任一个初始视频片段，利用初始视频片段以及初始视频片段对应的关联视频片段，按照片段扩展数量，获取初始视频片段对应的扩展视频片段，以获得多个初始视频片段分别对应的扩展视频片段具体可以包括：

作为一个实施例，处理组件还可以用于：

根据第一特征序列中多个第一视频片段分别对应的第一片段特征，确定多个候选视频片段分别对应的候选片段特征；

处理组件识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为具体可以包括：

根据多个候选视频片段分别对应的候选片段特征，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

在某些实施例中，处理组件将多个第一视频片段进行片段组合处理，获得多个候选视频片段具体可以包括：

确定片段选择数量以及片段选择步长；其中，片段选择数量为1至M的正整数；M为多个第一视频片段的片段总量；片段选择步长为常量

从片段选择数量为1开始，基于片段选择步长，从多个第一视频片段中选择片段数量与片段选择数量相匹配的第一视频片段以获得一个候选视频片段，直至片段选择数量为M时选择结束；

获得选择结束时获得的多个候选视频片段。

在一种可能的设计中，处理组件由以下方式从多个第一视频片段选择确定任一个候选视频片段：

获取任一个候选视频片段对应的与片段选择数量相匹配的第一视频片段，获得候选视频片段对应的至少一个第一视频片段；

根据候选视频片段中的至少一个第一视频片段分别对应的片段起始时间以及片段终止时间，确定最小片段起始时间以及最大片段终止时间；

在某些实施例中，处理组件可以通过以下方式获得候选视频片段的候选片段特征：

作为又一个实施例，处理组件根据多个候选视频片段分别对应的候选片段特征，识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为具体可以包括：

作为又一个实施例，处理组件还可以用于：

在某些实施例中，处理组件还可以用于：

响应于第一用户针对多个候选视频片段触发的调整请求，获取第一用户提供的多个候选视频片段各自的调整信息；根据多个候选视频片段分别对应的调整信息，确定调整后的多个候选视频片段；识别调整后的多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为。

作为又一个实施例，处理组件还可以用于：

在一种可能的设计中，处理组件还可以用于：

在某些实施例中，处理组件还可以用于：

本申请实施例中的计算设备的处理组件所执行的步骤的具体实现方式已在图1等实施例中所涉及的基于视频的行为识别方法相关的实施例中进行了详细描述，其实现原理和技术效果不再赘述。

如图10所示，为本申请实施例提供的一种用户设备的一个实施例的结构示意图，该用户设备可以包括：存储组件1001以及处理组件1002；其中，存储组件1001用于存储一条或多条计算机指令；一条或多条计算机指令被处理组件1002调用以执行；

处理组件1002具体可以用于：

检测用户发起的视频识别请求以及用户提供的待识别视频；

发送待识别视频至提供视频识别接口的计算设备，以供计算设备利用视频识别接口对应的处理资源，其中，处理资源用于执行如下步骤：

确定待识别视频中的多个第一视频片段；获取多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，第一特征序列由多个第一视频片段对应的全局特征序列以及局部特征序列融合获得；将多个第一视频片段进行片段组合处理，获得多个候选视频片段；识别多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定目标视频片段对应的目标行为；

获取计算设备提供的目标视频片段以及目标视频片段对应的目标行为。

本申请实施例中的用户设备对应的计算设备的处理组件所执行的步骤的具体实现方式已在图1等实施例中所涉及的基于视频的行为识别方法相关的实施例中进行了详细描述，其实现原理和技术效果不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，该存储介质用于存储计算机程序，计算机程序执行时可以执行如前述实施例中基于视频的行为识别方法。

以上所描述的设备实施例仅仅是示意性的，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于视频的行为识别方法，其特征在于，包括：

确定待识别视频中的多个第一视频片段；

2.根据权利要求1所述的方法，其特征在于，所述获取所述多个第一视频片段分别对应的第一片段特征构成的第一特征序列；其中，所述第一特征序列由所述多个第一视频片段对应的全局特征序列以及局部特征序列融合获得包括：

基于预设特征获取算法，获取所述多个第一视频片段分别对应的第二片段特征构成的第二特征序列；

提取所述第二特征序列对应的全局特征序列以及局部特征序列；

融合所述全局特征序列以及所述局部特征序列，以获得所述多个第一视频片段分别对应的第一片段特征构成的所述第一特征序列。

3.根据权利要求2所述的方法，其特征在于，所述提取所述第二特征序列对应的全局特征序列以及局部特征序列包括：

将所述第二特征序列按照特征维度划分为第一子特征序列以及第二子特征序列；

基于所述第一子特征序列，提取所述第二特征序列对应的全局特征序列；

基于所述第二子特征序列，提取所述第二特征序列对应的局部特征序列。

4.根据权利要求3所述的方法，其特征在于，还包括：

确定特征提取次数N；其中，N为大于等于1的正整数；

所述基于所述第一子特征序列，提取所述第二特征序列对应的全局特征序列包括：

对所述第一子特征序列执行N次全局特征提取，获得所述第二特征序列对应的全局特征序列；

所述基于所述第二子特征序列，提取所述第二特征序列对应的局部特征序列包括：

对所述第二子特征序列执行N次局部特征提取，获得所述第二特征序列对应的局部特征序列。

5.根据权利要求4所述的方法，其特征在于，对所述第一子特征序列执行的任一次全局特征提取步骤包括：

确定全局卷积算子；

利用所述全局卷积算子与参与全局卷积计算的第一子特征序列进行卷积计算，获得卷积计算获得的全局特征序列；其中，所述参与全局卷积计算的第一特征子序列为前一次卷积计算获得的全局特征序列，第N次卷积计算获得的全局特征序列为最后获得的全局特征序列；

对所述第二特征子序列执行的任一次局部特征提取步骤包括：

确定局部卷积算子；

利用所述局部卷积算子与参与局部卷积计算的第二子特征序列进行卷积计算，确定卷积计算获得的局部特征序列；其中，所述参与局部卷积计算的第二子特征序列为前一次卷积计算获得的局部特征序列，第N次卷积计算获得的局部特征序列为最后获得的局部特征序列。

6.根据权利要求3所述的方法，其特征在于，所述融合所述全局特征序列以及所述局部特征序列，以获得所述多个第一视频片段分别对应的第一片段特征构成的所述第一特征序列包括：

从特征维度上融合所述全局特征序列以及所述局部特征序列，以获得所述多个第一视频片段分别对应的第一片段特征构成的所述第一特征序列。

7.根据权利要求2所述的方法，其特征在于，所述基于预设特征获取算法，获取所述多个第一视频片段分别对应的第二片段特征构成的第二特征序列包括：

将所述待识别视频划分为多个初始视频片段；

分别对所述多个初始视频片段进行片段扩展处理，获得所述多个初始视频片段分别对应的扩展视频片段；

确定所述多个初始视频片段以及所述多个初始视频片段分别对应的扩展视频片段按照片段起始时间排序获得的所述多个第一视频片段；

分别确定所述多个第一视频片段分别对应的第二片段特征构成的所述第二特征序列。

8.根据权利要求7所述的方法，其特征在于，所述多个第一视频片段分别对应的第二片段特征通过以下方式获取：

基于预设视频特征提取算法，提取所述多个初始视频片段分别对应的初始片段特征；

基于所述多个初始视频片段分别对应的初始片段特征，确定所述多个初始视频片段分别对应的扩展视频片段各自的扩展片段特征；

根据所述多个初始视频片段分别对应的初始片段特征以及所述多个初始视频片段分别对应的扩展视频片段各自的扩展片段特征，确定所述多个第一视频片段分别对应的第二片段特征。

9.根据权利要求8所述的方法，其特征在于，所述基于所述多个初始视频片段分别对应的初始片段特征，确定所述多个初始视频片段分别对应的扩展视频片段各自的扩展片段特征包括：

从所述多个初始视频片段中，确定所述多个初始视频片段分别对应的关联视频片段；

针对任一个初始视频片段，利用所述初始视频片段的初始片段特征以及所述初始视频片段对应关联视频片段的初始片段特征，确定所述初始视频片段对应的扩展视频片段的扩展片段特征。

10.根据权利要求9所述的方法，其特征在于，所述针对任一个初始视频片段，利用所述初始视频片段的初始片段特征以及所述初始视频片段对应关联视频片段的初始片段特征，确定所述初始视频片段对应的扩展视频片段的扩展片段特征包括：

针对任一个初始视频片段，确定所述初始视频片段对应的扩展视频片段占所述初始视频片段的第一片段占比以及所述扩展视频片段占所述初始视频片段对应关联视频片段的第二片段占比；

根据所述第一片段占比与所述初始视频片段的初始视频特征，以及所述第二片段占比与所述初始视频片段对应关联视频片段的初始视频特征进行特征加权计算，获得所述初始视频片段对应扩展视频片段的扩展片段特征。

11.根据权利要求7所述的方法，其特征在于，所述分别对所述初始视频片段进行片段扩展处理，获得所述多个初始视频片段分别对应的扩展视频片段包括：

基于预设片段分析总量，确定所述多个初始视频片段分别对应的片段扩展数量；

针对任一个初始视频片段，利用所述初始视频片段以及所述初始视频片段对应的关联视频片段，按照所述片段扩展数量，获取所述初始视频片段对应的扩展视频片段，以获得所述多个初始视频片段分别对应的扩展视频片段。

12.根据权利要求11所述的方法，其特征在于，所述针对任一个初始视频片段，利用所述初始视频片段以及所述初始视频片段对应的关联视频片段，按照所述片段扩展数量，获取所述初始视频片段对应的扩展视频片段，以获得所述多个初始视频片段分别对应的扩展视频片段包括：

针对任一个初始视频片段，采用线性差值算法，对所述初始视频片段与所述初始视频片段对应的关联视频片段之间按照所述片段扩展数量进行片段插样，获得所述初始视频片段对应的扩展视频片段，以获得所述多个初始视频片段分别对应的扩展视频片段。

13.根据权利要求1所述的方法，其特征在于，还包括：

根据所述第一特征序列中所述多个第一视频片段分别对应的第一片段特征，确定所述多个候选视频片段分别对应的候选片段特征；

所述识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为包括：

根据所述多个候选视频片段分别对应的候选片段特征，识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为。

14.根据权利要求13所述的方法，其特征在于，所述将所述多个第一视频片段进行片段组合处理，获得多个候选视频片段包括：

确定片段选择数量以及片段选择步长；其中，所述片段选择数量为1至M的正整数；M为多个第一视频片段的片段总量；片段选择步长为常量

从所述片段选择数量为1开始，基于所述片段选择步长，从所述多个第一视频片段中选择片段数量与所述片段选择数量相匹配的第一视频片段以获得一个候选视频片段，直至所述片段选择数量为M时选择结束；

获得选择结束时获得的多个候选视频片段。

15.根据权利要求14所述的方法，其特征在于，任一个候选视频片段由以下方式从多个第一视频片段选择确定：

获取任一个候选视频片段对应的与片段选择数量相匹配的第一视频片段，获得所述候选视频片段对应的至少一个第一视频片段；

根据所述候选视频片段中的至少一个第一视频片段分别对应的片段起始时间以及片段终止时间，确定最小片段起始时间以及最大片段终止时间；

获取所述待识别视频中所述最小片段起始时间以及所述最大片段终止时间构成的所述候选视频片段。

16.根据权利要求15所述的方法，其特征在于，所述候选视频片段的候选片段特征通过以下方式获得：

将所述候选视频片段中的至少一个第一视频片段分别对应的第一片段特征进行特征加权计算，获得所述候选视频片段的候选片段特征。

17.根据权利要求1所述的方法，其特征在于，所述根据所述多个候选视频片段分别对应的候选片段特征，识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为包括：

基于行为识别算法，识别所述多个候选视频片段分别对应的候选特征片段分别对应的候选行为以及行为分数；

根据所述多个候选视频片段分别对应的候选行为以及行为分数，从所述多个候选视频片段中选择满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为。

18.根据权利要求1所述的方法，其特征在于，还包括：

为第一用户输出所述多个候选视频片段，以供所述第一用户对所述多个候选视频片段进行确认；

响应于所述第一用户对所述多个候选视频片段执行的确认操作，识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为。

19.根据权利要求18所述的方法，其特征在于，还包括：

响应于所述第一用户针对所述多个候选视频片段触发的调整请求，获取所述第一用户提供的所述多个候选视频片段各自的调整信息；

根据所述多个候选视频片段分别对应的调整信息，确定调整后的多个候选视频片段；

识别调整后的多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为。

20.根据权利要求1所述的方法，其特征在于，还包括：

为第二用户输出所述目标视频片段以及所述目标视频片段对应的目标行为，以供所述第二用户对所述目标视频片段进行确认。

21.根据权利要求20所述的方法，其特征在于，还包括：

获取所述第二用户发起的条件调整请求，调整所述行为识别条件，并返回至所述根据所述多个候选视频片段分别对应的候选片段特征，识别所述多个候选视频片段中满足预设行为识别条件的目标视频片段，并确定所述目标视频片段对应的目标行为的步骤继续执行。

22.根据权利要求21所述的方法，其特征在于，还包括：

响应于所述第二用户发起的视频识别请求，获取所述第二用户提供的所述待识别视频。

23.一种基于视频的行为识别方法，其特征在于，包括：

利用所述视频识别接口对应的处理资源执行如下步骤：

确定待识别视频中的多个第一视频片段；

24.一种基于视频的行为识别方法，其特征在于，包括：

25.一种计算设备，其特征在于，包括：存储组件以及处理组件；其中，所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用以执行；

所述处理组件具体用于：

26.一种用户设备，其特征在于，包括：存储组件以及处理组件；其中，所述存储组件用于存储一条或多条计算机指令；所述一条或多条计算机指令被所述处理组件调用以执行；

所述处理组件具体用于：