CN112749625A

CN112749625A - 时序行为检测方法、时序行为检测装置及终端设备

Info

Publication number: CN112749625A
Application number: CN202011433587.7A
Authority: CN
Inventors: 林灿然; 程骏; 郭渺辰; 邵池; 庞建新
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-05-04
Anticipated expiration: 2040-12-10
Also published as: CN112749625B

Abstract

本申请适用于计算机视觉技术领域，提供了一种时序行为检测方法、时序行为检测装置及终端设备，包括：从待检测视频中提取出多个行为片段；确定所述多个行为片段中每两个行为片段之间的时间相关系数；根据所述时间相关系数和所述多个行为片段生成图结构数据，其中，所述图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据；根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。通过上述方法，能够有效提高时序行为检测的精度。

Description

时序行为检测方法、时序行为检测装置及终端设备

技术领域

本申请属于计算机视觉技术领域，尤其涉及一种时序行为检测方法、时序行为检测装置及终端设备。

背景技术

时序行为检测技术是一种检测视频中的行为片段的行为类别和时间界限 (开始时间和结束时间)的技术。该项技术是理解视频中目标对象的行为的一种重要技术手段，是理解视频内容的关键。例如，可以基于时序行为检测技术快速定位出球赛视频中某个运动行为(如点球等)的视频片段，以便于对该运动行为进行分析。

现有的时序行为检测方法，通常是提取一段视频中的行为片段，然后针对每个行为片段进行分类和回归分析，获得每个行为片段的行为类别和时间界限。由于行为之间可能存在关联，而现有方法中是对每个行为片段进行单独处理，这将会丢失掉部分行为特征，无法获得准确的检测结果。

发明内容

本申请实施例提供了一种时序行为检测方法、时序行为检测装置及终端设备，可以提高时序行为检测的精度。

第一方面，本申请实施例提供了一种时序行为检测方法，包括：

从待检测视频中提取出多个行为片段；

确定所述多个行为片段中每两个行为片段之间的时间相关系数；

根据所述时间相关系数和所述多个行为片段生成图结构数据，其中，所述图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据；

根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。

本申请实施例中，由于确定出的每两个行为片段之间的时间相关系数能够反映出每两个行为片段之间的时序关系，使得根据时间相关系数和行为片段生成的图结构数据中既包含了每个行为片段自身的行为特征信息，又包含了各个行为片段之间的时序特征信息。因此，根据图结构数据进行时序行为检测，相当于同时考虑了每个行为片段本身的行为特征信息和各个行为片段之间的时序特征信息。通过上述方法，能够有效提高时序行为检测的精度。

在第一方面的一种可能的实现方式中，在所述确定所述多个行为片段中每两个行为片段之间的时间相关系数的步骤中，任意两个行为片段之间的时间相关系数的确定方法，包括：

计算所述两个行为片段之间的时间交并比；

将所述时间交并比确定为所述两个行为片段之间的时间相关系数。

在第一方面的一种可能的实现方式中，所述根据所述时间相关系数和所述多个行为片段生成图结构数据，包括：

生成满足预设条件的每两个行为片段之间的时间关联关系，其中，两个行为片段满足所述预设条件表示所述两个行为片段之间的所述时间相关系数大于或等于预设阈值；

将所述多个行为片段中的每个行为片段确定为所述图结构数据中的所述节点数据，将所述时间关联关系确定为所述图结构数据中的所述连接数据。

在第一方面的一种可能的实现方式中，所述根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界，包括：

获取所述多个行为片段各自的第一特征向量；

将所述第一特征向量和所述图结构数据输入到训练后的检测模型中，输出所述多个行为片段各自的所述行为标签和所述时间边界。

在第一方面的一种可能的实现方式中，所述获取所述多个行为片段各自的第一特征向量，包括：

对于目标片段，获取所述目标片段的第二特征向量和每个相邻片段的第三特征向量，其中，所述目标片段为所述多个行为片段中的任意一个行为片段，所述相邻片段为所述多个行为片段中与所述目标片段存在所述时间关联关系的行为片段；

根据所述第二特征向量和所述第三特征向量进行信息融合处理，获得所述目标片段的所述第一特征向量。

在第一方面的一种可能的实现方式中，所述根据所述第二特征向量和所述第三特征向量进行信息融合处理，获得所述目标片段的所述第一特征向量，包括：

根据所述第二特征向量和所述第三特征向量，计算所述目标片段和每个所述相邻片段之间的邻接权值；

根据所述第三特征向量和所述邻接权值进行加权平均处理，获得加权平均特征；

根据所述加权平均特征和所述第二特征向量计算所述目标片段的所述第一特征向量。

在第一方面的一种可能的实现方式中，所述根据所述第二特征向量和所述第三特征向量，计算所述目标片段和每个所述相邻片段之间的邻接权值，包括：

对于每个所述相邻片段，计算所述目标片段的所述第二特征向量和所述相邻片段的所述第三特征向量之间的余弦相似度；

将所述余弦相似度确定为所述目标片段和所述相邻片段之间的所述邻接权值。

第二方面，本申请实施例提供了一种时序行为检测装置，包括：

片段提取单元，用于从待检测视频中提取出多个行为片段；

系数确定单元，用于确定所述多个行为片段中每两个行为片段之间的时间相关系数；

图结构生成单元，用于根据所述时间相关系数和所述多个行为片段生成图结构数据，其中，所述图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据；

时序行为检测单元，用于根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的时序行为检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的时序行为检测方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的时序行为检测方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的时序行为检测方法的流程示意图；

图2是本申请实施例提供的图结构的示意图；

图3是本申请另一实施例提供的时序行为检测方法的流程示意图；

图4是本申请实施例提供的时序行为检测装置的结构框图；

图5是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括” 指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

参见图1，是本申请实施例提供的时序行为检测方法的流程示意图。作为示例而非限定，所述方法可以包括以下步骤：

S101，从待检测视频中提取出多个行为片段。

一段视频由多帧图像按照时间顺序排列组成。本申请实施例中，行为片段指包含某个行为或动作的视频片段，即包含某个行为或动作的图像的集合。例如，一段足球赛视频由1000帧图像组成，其中，第100-200帧图像包含了点球行为，那么点球行为对应的行为片段为第100-200帧图像构成的视频片段。再例如，第100-200帧图像包含了点球行为中的踢球动作，那么点球行为中的踢球动作对应的行为片段为第150-180帧图像构成的视频片段。

从上述示例可以看出，行为片段可以对应一个行为，而一个行为中可能包含多个动作。如上述示例中所述的点球行为可能包含了主罚球员放球(即将球放置在罚球点上)、踢球和守门员防守等多个动作。另外，点球行为中，放球动作和踢球动作的行为主体是主罚球球员，而防守动作的行为主体是守门员。换言之，一个行为片段中可能存在多个行为主体。行为片段还可以对应一个动作。如上述示例中所述的点球行为中的踢球动作，该动作对应的视频片段作为一个行为片段，那么在该行为片段中，只有踢球这一个动作，且行为主体为一个。

行为片段是可以根据实际需要进行提取的。换言之，即使是同一段待检测视频，由于关注的行为或动作不同，提取出的行为片段也可能不同。因此，本申请实施例中的行为片段是指从待检测视频中某个目标行为或目标动作对应的视频片段，而目标行为或目标动作是根据实际需要指定的。

提取行为片段的方法可以采用基于滑窗的自顶向下的方法或基于聚类的自底向上的方法等。其中，基于滑窗的自顶向下的方法是指，定义多个不同尺度的时序窗口，在待检测视频的时间维度上以一定的间隔滑动，从而提取出多个候选片段；之后再对候选片段进行动作置信度评分，以确定最终的行为片段。代表方法有SST(Single-Stream TemporalAction Proposals)算法、DAPs(Deep Action Proposals for Action Understanding)算法等。基于聚类的自底向上的方法是指，训练一个提取模型，利用该提取模型对待检测视频中的每个时间位置的动作置信度进行评分，从而将待检测视频转变为动作置信度的时序序列；然后使用聚类方法将待检测视频中动作置信度比较高的时序区域作为行为片段。代表方法有TAG(Temporal Action Grouping)算法等。

通常，在图像目标检测方法中，是从一张静态图像中检测出目标对象的检测框，即有明确的边界。但一个行为或动作的边界很多时候并不是很明确，比如，什么时候算行为的开始、什么时候算行为的结束(即精确到第几帧图像)。所以，一段视频中的几个行为片段之间往往有较强的时序相关性。现有的时序行为检测方法，通常是对每个行为片段进行单独处理，这样相当于忽视了各个行为片段之间的时序相关性，导致行为特征的丢失，进而影响时序行为检测的精度。为了解决上述问题，本申请实施例中提出了以下方法。

需要说明的是，当一段视频中只提取出一个行为片段时，这种情况通常不需要考虑时序问题，因此，本申请实施例中以一段视频提取多个行为片段为例进行说明。

S102，确定多个行为片段中每两个行为片段之间的时间相关系数。

时间相关系数用于表示两个行为片段之间的时间相关性。在时序行为检测中，时间相关性更偏向于表示两个行为片段在时间上的重合度。

在一个实施例中，能够体现时间重合度的时间相关系数的确定方法，包括：计算两个行为片段之间的时间交并比；将时间交并比确定为两个行为片段之间的时间相关系数。

示例性的，时间交并比的一种计算方式可以为：计算两个行为片段的交集，与两个行为片段中任意一个行为片段对应的时间的比值，将该比值确定为两个行为片段之间的时间交并比。

但是这种计算方法，相当于确定了参照物(即分母上的时间对应的行为片段)。当参照物发生改变时，两个行为片段之间的时间相关系数也随之发生变化。换言之，由于参照物的不同，两个行为片段之间的时间相关系数也是不同的。这种方法计算出的时间相关系数是变化的，而非固定的，容易引起数据处理的混乱。

为了解决上述问题，可选的，时间交并比的另一种计算方式可以为：

其中，r(p_i,p_j)表示第i个行为片段和第j个行为片段之间的时间相关系数， tIoU(p_i,p_j)表示第i个行为片段和第j个行为片段之间的时间交并比，I(p_i,p_j)表示第i个行为片段和第j个行为片段的时间交集，U(p_i,p_j)表示第i个行为片段和第j个行为片段的时间并集。

S103，根据时间相关系数和多个行为片段生成图结构数据。

其中，图结构数据中包括用于表示行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据。

图结构是一种非线性的数据结构。一个图结构包括多个节点和多条边，图结构数据包括了节点集合和边集合。参见图2，是本申请实施例提供的图结构的示意图。如图2所示的图结构中，有6个节点，7条边，对应的节点集合为 V＝{1，2,3,4,5,6}，边集合为E＝{(1,2)，(1,5)，(2,3)，(2,5)，(3,4)，(4,5)，(4,6)}，图结构数据可以表示为G＝(V，E)。在图结构中，如果两个节点之间具有边，则表示两个节点相关，也可称两个节点邻接。而两个节点之间的相关程度则可以用邻接权值来表示。如图2中所示，节点1和节点5之间的邻接权值为0.8，节点1和节点2之间的邻接权值为0.5，说明相对于节点2而言，节点1和节点5之间的相关程度更紧密。

从图2示例中可以看出，图结构可以用于表示多个对象之间的关系。因此，很多问题都可以使用图结构进行建模求解。

在本申请一个实施例中，生成图结构数据的一种实现方式为：将每个行为片段看作是图结构中的一个节点，每个行为片段对应的数据记为一个节点的节点数据；将两个具有时间关联关系的行为片段进行关联，相当于建立了图结构中“边”，利用连接数据来记录行为节点之间的“边”，将两个行为片段之间的时间相关系数作为两个行为片段对应的节点之间的邻接权值。

在上述实施例中，只要时间相关的行为片段之间均可以建立“边”。但是实际应用中，可能两个行为片段之间存在相同或相似的动作，导致两个行为片段之间的时间相关系数不为0(可能是一个较小的数值)，相当于两个行为片段在时间上弱相关。而时间弱相关的行为片段之间的时序特征并不会对时序行为检测的结果产生较大影响，反而会影响数据处理效率。

为了筛选掉一些弱相关的行为片段，提高数据处理效率，在本申请实施例中，生成图结构数据的一种实现方式为：

生成满足预设条件的每两个行为片段之间的时间关联关系；将多个行为片段中的每个行为片段确定为图结构数据中的节点数据，将时间关联关系确定为图结构数据中的连接数据。

其中，两个行为片段满足预设条件表示两个行为片段之间的时间相关系数大于或等于预设阈值。这里的预设阈值可以根据实际需要进行预先设定。

S104，根据图结构数据检测多个行为片段各自的行为标签和时间边界。

行为标签用于表示行为片段的类别，时间边界用于表示一个行为的开始时间和结束时间，即确定一个行为对应的行为片段的起始帧图像和结束帧图像。

现有的时序行为检测方法，通常是对每个行为片段分别进行检测，由于未考虑行为片段之间的时间相关关系(即时序特征)，将会丢失掉部分行为特征，导致检测精度较低。在本申请实施例中，由于图结构数据中包含了连接数据(即行为片段之间的时序特征)，因此，根据图结构数据进行检测，相当于考虑了行为片段之间的时序特征，有效提高了检测精度。

在本申请一个实施例中，S104的一种实现方式为：

获取多个行为片段各自的第一特征向量；将第一特征向量和图结构数据输入到训练后的检测模型中，输出多个行为片段各自的行为标签和时间边界。

可以通过训练好的行为识别神经网络获取每个行为片段的第一特征向量。如I3D网络等。这种方式获得的第一特征向量中包含了每个行为片段自身的行为特征信息。但是没有考虑每个行为片段与其具有时间相关关系的行为片段之间的相关特征信息。

为了提高检测模型对相关特征信息的捕获能力，在一个实施例中，获取多个行为片段各自的第一特征向量的一种实现方式可以包括：

对于目标片段，获取目标片段的第二特征向量和每个相邻片段的第三特征向量，根据第二特征向量和第三特征向量进行信息融合处理，获得目标片段的第一特征向量。

其中，目标片段为多个行为片段中的任意一个行为片段。相邻片段为多个行为片段中与目标片段存在时间关联关系的行为片段，即与目标片段建立了 “边”的行为片段。

可选的，信息融合处理的一种实现方式为：

将第二特征向量和第三特征向量进行加权平均处理，将加权平均处理后的特征向量确定为目标片段第一特征向量。

但是加权平均处理后，目标片段自身的行为特征被“平均”掉了，无法突出体现目标片段的行为特征。

为了解决上述问题，可选的，信息融合处理的另一种实现方式为：

根据第二特征向量和第三特征向量，计算目标片段和每个相邻片段之间的邻接权值；根据第三特征向量和邻接权值进行加权平均处理，获得加权平均特征；根据加权平均特征和第二特征向量计算目标片段的第一特征向量。

第二特征向量和第三特征向量的获取方式可以参考第一特征向量的获取方式，在此不再赘述。

示例性的，可以通过以下公式进行信息融合处理：

其中，x_o为目标片段的第一特征向量，x_i为目标片段的第二特征向量，x_j为目标片段的第j个相邻片段的第三特征向量，A_ij为目标片段与第j个相邻片段之间的邻接权值，S为目标片段的相邻片段的个数。

实际应用中，目标片段的相邻片段可能有多个，如果所有相邻片段均参与计算，那么数据处理量较大。为了在保证计算精度的同时，减少数据处理量，可以取预设个数的相邻片段参与计算。

示例性的，预设个数为S＝5。如果相邻片段的个数大于5，那么从相邻片段中随机选取5个参与信息融合处理的计算。如果相邻片段的个数小于5，那么所有的相邻片段均参与信息融合处理的计算。

利用上述方法，不仅考虑了目标片段与其的相邻片段之间的相关特征信息，还能够突出目标片段本身的行为特征，为后续的检测提供了可靠的特征数据。

其中，邻接权值可以为预设数值。例如：将目标片段与各个相邻片段之间的邻接权值均设置为1。这种计算方式虽然简单，但是由于目标片段与其相邻片段之间邻接权值均相等，因此，只能体现目标片段与相邻片段之间具有相关性，而无法体现目标片段与相邻片段之间特征信息的相关程度。

为了解决上述问题，可选的，目标片段和每个相邻片段之间的邻接权值的计算方式可以为：

计算目标片段的第二特征向量和相邻片段的第三特征向量之间的余弦相似度；将余弦相似度确定为目标片段和相邻片段之间的邻接权值。

示例性的，可以通过以下公式计算余弦相似度：

在本申请实施例中，检测模型可以包括图卷积层和检测层，检测层还可以包括全连接层和softmax层。其中，图卷积层用于根据输入的第一特征向量和图结构数据进行特征提取，然后将提取出的特征输入到检测层；检测层根据提取的特征检测出各个行为片段各自的行为标签和时间边界。

检测模型可以是预先训练好的。在模型训练过程中，对样本的处理方法与上述的对待检测视频的处理方法一致。通过上述实施例中的方法，根据样本的第一特征向量和图结构数据对检测模型进行训练，能够有效提高检测模型对时序信息和相关特征信息的捕获能力，有效提高时序行为检测的精度。另外，在检测时，使用训练好的检测模型能够大大提高检测效率。

下面以一个示例介绍本申请实施例提供的时序行为检测方法的整体流程。参见图3，是本申请另一实施例提供的时序行为检测方法的流程示意图。如图3 所示，获取一段待检测视频，利用TAG算法提取待检测视频中的多个行为片段。然后分为三条支路进行处理：

中间支路，将每个行为片段作为图结构的一个“节点”，其数据作为图结构数据中的节点数据。

右边支路为利用预设条件判断每两个行为片段之间是否具有时间相关关系，并将具有时间相关关系的两个行为片段之间建立图结构的“边”；根据确定的“点”和“边”可以确定出图结构数据。

左边支路，利用I3D网络提取每个行为片段的第二特征向量。

根据图结构数据对每个行为片段的相邻片段进行采样，并获取相邻片段的第三特征向量；然后根据第二特征向量第三特征向量，计算每两个邻接的行为片段之间的邻接权值；再根据邻接权值和第二特征向量进行信息融合处理，得到每个行为片段的第一特征向量；最后将图结构数据和每个行为片段的第一特征向量输入检测模型进行检测，得到每个行为片段各自的行为标签和时间边界。

上述示例中，由于生成的图结构数据中既包含了每个行为片段自身的行为特征信息，又包含了各个行为片段之间的时序特征信息。另外，在获取每个行为片段的特征向量时，还考虑了与其相邻的行为片段之间的相关特征信息。因此，在根据图结构数据和每个行为片段的第一特征向量进行检测时，相当于同时考虑了每个行为片段本身的行为特征信息和各个行为片段之间的时序特征信息，有效提高了时序行为检测的精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的时序行为检测方法，图4是本申请实施例提供的时序行为检测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图4，该装置包括：

片段提取单元41，用于从待检测视频中提取出多个行为片段。

系数确定单元42，用于确定所述多个行为片段中每两个行为片段之间的时间相关系数。

图结构生成单元43，用于根据所述时间相关系数和所述多个行为片段生成图结构数据，其中，所述图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据。

时序行为检测单元44，用于根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。

可选的，系数确定单元42还用于：

计算所述两个行为片段之间的时间交并比；将所述时间交并比确定为所述两个行为片段之间的时间相关系数。

可选的，图结构生成单元43还用于：

生成满足预设条件的每两个行为片段之间的时间关联关系，其中，两个行为片段满足所述预设条件表示所述两个行为片段之间的所述时间相关系数大于或等于预设阈值；将所述多个行为片段中的每个行为片段确定为所述图结构数据中的所述节点数据，将所述时间关联关系确定为所述图结构数据中的所述连接数据。

可选的，时序行为检测单元44包括：

特征获取模块，用于获取所述多个行为片段各自的第一特征向量。

时序行为检测模块，用于将所述第一特征向量和所述图结构数据输入到训练后的检测模型中，输出所述多个行为片段各自的所述行为标签和所述时间边界。

可选的，特征获取模板还用于：

对于目标片段，获取所述目标片段的第二特征向量和每个相邻片段的第三特征向量，其中，所述目标片段为所述多个行为片段中的任意一个行为片段，所述相邻片段为所述多个行为片段中与所述目标片段存在所述时间关联关系的行为片段；根据所述第二特征向量和所述第三特征向量进行信息融合处理，获得所述目标片段的所述第一特征向量。

可选的，特征获取模块还用于：

根据所述第二特征向量和所述第三特征向量，计算所述目标片段和每个所述相邻片段之间的邻接权值；根据所述第三特征向量和所述邻接权值进行加权平均处理，获得加权平均特征；根据所述加权平均特征和所述第二特征向量计算所述目标片段的所述第一特征向量。

可选的，特征获取模块还用于：

对于每个所述相邻片段，计算所述目标片段的所述第二特征向量和所述相邻片段的所述第三特征向量之间的余弦相似度；将所述余弦相似度确定为所述目标片段和所述相邻片段之间的所述邻接权值。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

另外，图4所示的时序行为检测装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中，还可以作为独立的终端设备存在。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5是本申请实施例提供的终端设备的结构示意图。如图5所示，该实施例的终端设备5包括：至少一个处理器50(图5中仅示出一个)处理器、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52，所述处理器50执行所述计算机程序52时实现上述任意各个时序行为检测方法实施例中的步骤。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是终端设备5的举例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit， ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U 盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种时序行为检测方法，其特征在于，包括：

从待检测视频中提取出多个行为片段；

2.如权利要求1所述的时序行为检测方法，其特征在于，在所述确定所述多个行为片段中每两个行为片段之间的时间相关系数的步骤中，任意两个行为片段之间的时间相关系数的确定方法，包括：

计算所述两个行为片段之间的时间交并比；

3.如权利要求1或2所述的时序行为检测方法，其特征在于，所述根据所述时间相关系数和所述多个行为片段生成图结构数据，包括：

4.如权利要求1所述的时序行为检测方法，其特征在于，所述根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界，包括：

获取所述多个行为片段各自的第一特征向量；

5.如权利要求4所述的时序行为检测方法，其特征在于，所述获取所述多个行为片段各自的第一特征向量，包括：

6.如权利要求5所述的时序行为检测方法，其特征在于，所述根据所述第二特征向量和所述第三特征向量进行信息融合处理，获得所述目标片段的所述第一特征向量，包括：

7.如权利要求6所述的时序行为检测方法，其特征在于，所述根据所述第二特征向量和所述第三特征向量，计算所述目标片段和每个所述相邻片段之间的邻接权值，包括：

8.一种时序行为检测装置，其特征在于，包括：

片段提取单元，用于从待检测视频中提取出多个行为片段；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。