CN112749625A - 时序行为检测方法、时序行为检测装置及终端设备 - Google Patents
时序行为检测方法、时序行为检测装置及终端设备 Download PDFInfo
- Publication number
- CN112749625A CN112749625A CN202011433587.7A CN202011433587A CN112749625A CN 112749625 A CN112749625 A CN 112749625A CN 202011433587 A CN202011433587 A CN 202011433587A CN 112749625 A CN112749625 A CN 112749625A
- Authority
- CN
- China
- Prior art keywords
- behavior
- segments
- time
- feature vector
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000000547 structure data Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000006399 behavior Effects 0.000 claims description 283
- 239000013598 vector Substances 0.000 claims description 90
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 238000007499 fusion processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 description 32
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于计算机视觉技术领域,提供了一种时序行为检测方法、时序行为检测装置及终端设备,包括:从待检测视频中提取出多个行为片段;确定所述多个行为片段中每两个行为片段之间的时间相关系数;根据所述时间相关系数和所述多个行为片段生成图结构数据,其中,所述图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据;根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。通过上述方法,能够有效提高时序行为检测的精度。
Description
技术领域
本申请属于计算机视觉技术领域,尤其涉及一种时序行为检测方法、时序 行为检测装置及终端设备。
背景技术
时序行为检测技术是一种检测视频中的行为片段的行为类别和时间界限 (开始时间和结束时间)的技术。该项技术是理解视频中目标对象的行为的一 种重要技术手段,是理解视频内容的关键。例如,可以基于时序行为检测技术 快速定位出球赛视频中某个运动行为(如点球等)的视频片段,以便于对该运 动行为进行分析。
现有的时序行为检测方法,通常是提取一段视频中的行为片段,然后针对 每个行为片段进行分类和回归分析,获得每个行为片段的行为类别和时间界限。 由于行为之间可能存在关联,而现有方法中是对每个行为片段进行单独处理, 这将会丢失掉部分行为特征,无法获得准确的检测结果。
发明内容
本申请实施例提供了一种时序行为检测方法、时序行为检测装置及终端设 备,可以提高时序行为检测的精度。
第一方面,本申请实施例提供了一种时序行为检测方法,包括:
从待检测视频中提取出多个行为片段;
确定所述多个行为片段中每两个行为片段之间的时间相关系数;
根据所述时间相关系数和所述多个行为片段生成图结构数据,其中,所述 图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段 之间的时间关联关系的连接数据;
根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。
本申请实施例中,由于确定出的每两个行为片段之间的时间相关系数能够 反映出每两个行为片段之间的时序关系,使得根据时间相关系数和行为片段生 成的图结构数据中既包含了每个行为片段自身的行为特征信息,又包含了各个 行为片段之间的时序特征信息。因此,根据图结构数据进行时序行为检测,相 当于同时考虑了每个行为片段本身的行为特征信息和各个行为片段之间的时序 特征信息。通过上述方法,能够有效提高时序行为检测的精度。
在第一方面的一种可能的实现方式中,在所述确定所述多个行为片段中每 两个行为片段之间的时间相关系数的步骤中,任意两个行为片段之间的时间相 关系数的确定方法,包括:
计算所述两个行为片段之间的时间交并比;
将所述时间交并比确定为所述两个行为片段之间的时间相关系数。
在第一方面的一种可能的实现方式中,所述根据所述时间相关系数和所述 多个行为片段生成图结构数据,包括:
生成满足预设条件的每两个行为片段之间的时间关联关系,其中,两个行 为片段满足所述预设条件表示所述两个行为片段之间的所述时间相关系数大于 或等于预设阈值;
将所述多个行为片段中的每个行为片段确定为所述图结构数据中的所述节 点数据,将所述时间关联关系确定为所述图结构数据中的所述连接数据。
在第一方面的一种可能的实现方式中,所述根据所述图结构数据检测所述 多个行为片段各自的行为标签和时间边界,包括:
获取所述多个行为片段各自的第一特征向量;
将所述第一特征向量和所述图结构数据输入到训练后的检测模型中,输出 所述多个行为片段各自的所述行为标签和所述时间边界。
在第一方面的一种可能的实现方式中,所述获取所述多个行为片段各自的 第一特征向量,包括:
对于目标片段,获取所述目标片段的第二特征向量和每个相邻片段的第三 特征向量,其中,所述目标片段为所述多个行为片段中的任意一个行为片段, 所述相邻片段为所述多个行为片段中与所述目标片段存在所述时间关联关系的 行为片段;
根据所述第二特征向量和所述第三特征向量进行信息融合处理,获得所述 目标片段的所述第一特征向量。
在第一方面的一种可能的实现方式中,所述根据所述第二特征向量和所述 第三特征向量进行信息融合处理,获得所述目标片段的所述第一特征向量,包 括:
根据所述第二特征向量和所述第三特征向量,计算所述目标片段和每个所 述相邻片段之间的邻接权值;
根据所述第三特征向量和所述邻接权值进行加权平均处理,获得加权平均 特征;
根据所述加权平均特征和所述第二特征向量计算所述目标片段的所述第一 特征向量。
在第一方面的一种可能的实现方式中,所述根据所述第二特征向量和所述 第三特征向量,计算所述目标片段和每个所述相邻片段之间的邻接权值,包括:
对于每个所述相邻片段,计算所述目标片段的所述第二特征向量和所述相 邻片段的所述第三特征向量之间的余弦相似度;
将所述余弦相似度确定为所述目标片段和所述相邻片段之间的所述邻接权 值。
第二方面,本申请实施例提供了一种时序行为检测装置,包括:
片段提取单元,用于从待检测视频中提取出多个行为片段;
系数确定单元,用于确定所述多个行为片段中每两个行为片段之间的时间 相关系数;
图结构生成单元,用于根据所述时间相关系数和所述多个行为片段生成图 结构数据,其中,所述图结构数据中包括用于表示所述行为片段的节点数据和 用于表示两个行为片段之间的时间关联关系的连接数据;
时序行为检测单元,用于根据所述图结构数据检测所述多个行为片段各自 的行为标签和时间边界。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及 存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所 述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的时序行为 检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,本申请实施例 提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序, 其特征在于,所述计算机程序被处理器执行时实现如上述第一方面中任一项所 述的时序行为检测方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品 在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的时序行 为检测方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方 面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的时序行为检测方法的流程示意图;
图2是本申请实施例提供的图结构的示意图;
图3是本申请另一实施例提供的时序行为检测方法的流程示意图;
图4是本申请实施例提供的时序行为检测装置的结构框图;
图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术 之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当 清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中, 省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节 妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括” 指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个 或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第 二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着 在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特 点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一 些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必 然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除 非是以其他方式另外特别强调。
参见图1,是本申请实施例提供的时序行为检测方法的流程示意图。作为 示例而非限定,所述方法可以包括以下步骤:
S101,从待检测视频中提取出多个行为片段。
一段视频由多帧图像按照时间顺序排列组成。本申请实施例中,行为片段 指包含某个行为或动作的视频片段,即包含某个行为或动作的图像的集合。例 如,一段足球赛视频由1000帧图像组成,其中,第100-200帧图像包含了点球 行为,那么点球行为对应的行为片段为第100-200帧图像构成的视频片段。再 例如,第100-200帧图像包含了点球行为中的踢球动作,那么点球行为中的踢 球动作对应的行为片段为第150-180帧图像构成的视频片段。
从上述示例可以看出,行为片段可以对应一个行为,而一个行为中可能包 含多个动作。如上述示例中所述的点球行为可能包含了主罚球员放球(即将球 放置在罚球点上)、踢球和守门员防守等多个动作。另外,点球行为中,放球 动作和踢球动作的行为主体是主罚球球员,而防守动作的行为主体是守门员。 换言之,一个行为片段中可能存在多个行为主体。行为片段还可以对应一个动 作。如上述示例中所述的点球行为中的踢球动作,该动作对应的视频片段作为 一个行为片段,那么在该行为片段中,只有踢球这一个动作,且行为主体为一 个。
行为片段是可以根据实际需要进行提取的。换言之,即使是同一段待检测 视频,由于关注的行为或动作不同,提取出的行为片段也可能不同。因此,本 申请实施例中的行为片段是指从待检测视频中某个目标行为或目标动作对应的 视频片段,而目标行为或目标动作是根据实际需要指定的。
提取行为片段的方法可以采用基于滑窗的自顶向下的方法或基于聚类的自 底向上的方法等。其中,基于滑窗的自顶向下的方法是指,定义多个不同尺度 的时序窗口,在待检测视频的时间维度上以一定的间隔滑动,从而提取出多个 候选片段;之后再对候选片段进行动作置信度评分,以确定最终的行为片段。 代表方法有SST(Single-Stream TemporalAction Proposals)算法、DAPs(Deep Action Proposals for Action Understanding)算法等。基于聚类的自底向上的方法 是指,训练一个提取模型,利用该提取模型对待检测视频中的每个时间位置的 动作置信度进行评分,从而将待检测视频转变为动作置信度的时序序列;然后 使用聚类方法将待检测视频中动作置信度比较高的时序区域作为行为片段。代 表方法有TAG(Temporal Action Grouping)算法等。
通常,在图像目标检测方法中,是从一张静态图像中检测出目标对象的检 测框,即有明确的边界。但一个行为或动作的边界很多时候并不是很明确,比 如,什么时候算行为的开始、什么时候算行为的结束(即精确到第几帧图像)。 所以,一段视频中的几个行为片段之间往往有较强的时序相关性。现有的时序 行为检测方法,通常是对每个行为片段进行单独处理,这样相当于忽视了各个 行为片段之间的时序相关性,导致行为特征的丢失,进而影响时序行为检测的 精度。为了解决上述问题,本申请实施例中提出了以下方法。
需要说明的是,当一段视频中只提取出一个行为片段时,这种情况通常不 需要考虑时序问题,因此,本申请实施例中以一段视频提取多个行为片段为例 进行说明。
S102,确定多个行为片段中每两个行为片段之间的时间相关系数。
时间相关系数用于表示两个行为片段之间的时间相关性。在时序行为检测 中,时间相关性更偏向于表示两个行为片段在时间上的重合度。
在一个实施例中,能够体现时间重合度的时间相关系数的确定方法,包括: 计算两个行为片段之间的时间交并比;将时间交并比确定为两个行为片段之间 的时间相关系数。
示例性的,时间交并比的一种计算方式可以为:计算两个行为片段的交集, 与两个行为片段中任意一个行为片段对应的时间的比值,将该比值确定为两个 行为片段之间的时间交并比。
但是这种计算方法,相当于确定了参照物(即分母上的时间对应的行为片 段)。当参照物发生改变时,两个行为片段之间的时间相关系数也随之发生变 化。换言之,由于参照物的不同,两个行为片段之间的时间相关系数也是不同 的。这种方法计算出的时间相关系数是变化的,而非固定的,容易引起数据处 理的混乱。
为了解决上述问题,可选的,时间交并比的另一种计算方式可以为:
其中,r(pi,pj)表示第i个行为片段和第j个行为片段之间的时间相关系数, tIoU(pi,pj)表示第i个行为片段和第j个行为片段之间的时间交并比,I(pi,pj)表 示第i个行为片段和第j个行为片段的时间交集,U(pi,pj)表示第i个行为片段 和第j个行为片段的时间并集。
S103,根据时间相关系数和多个行为片段生成图结构数据。
其中,图结构数据中包括用于表示行为片段的节点数据和用于表示两个行 为片段之间的时间关联关系的连接数据。
图结构是一种非线性的数据结构。一个图结构包括多个节点和多条边,图 结构数据包括了节点集合和边集合。参见图2,是本申请实施例提供的图结构 的示意图。如图2所示的图结构中,有6个节点,7条边,对应的节点集合为 V={1,2,3,4,5,6},边集合为E={(1,2),(1,5),(2,3),(2,5),(3,4),(4,5),(4,6)}, 图结构数据可以表示为G=(V,E)。在图结构中,如果两个节点之间具有边,则 表示两个节点相关,也可称两个节点邻接。而两个节点之间的相关程度则可以 用邻接权值来表示。如图2中所示,节点1和节点5之间的邻接权值为0.8,节 点1和节点2之间的邻接权值为0.5,说明相对于节点2而言,节点1和节点5之间的相关程度更紧密。
从图2示例中可以看出,图结构可以用于表示多个对象之间的关系。因此, 很多问题都可以使用图结构进行建模求解。
在本申请一个实施例中,生成图结构数据的一种实现方式为:将每个行为 片段看作是图结构中的一个节点,每个行为片段对应的数据记为一个节点的节 点数据;将两个具有时间关联关系的行为片段进行关联,相当于建立了图结构 中“边”,利用连接数据来记录行为节点之间的“边”,将两个行为片段之间 的时间相关系数作为两个行为片段对应的节点之间的邻接权值。
在上述实施例中,只要时间相关的行为片段之间均可以建立“边”。但是 实际应用中,可能两个行为片段之间存在相同或相似的动作,导致两个行为片 段之间的时间相关系数不为0(可能是一个较小的数值),相当于两个行为片 段在时间上弱相关。而时间弱相关的行为片段之间的时序特征并不会对时序行 为检测的结果产生较大影响,反而会影响数据处理效率。
为了筛选掉一些弱相关的行为片段,提高数据处理效率,在本申请实施例 中,生成图结构数据的一种实现方式为:
生成满足预设条件的每两个行为片段之间的时间关联关系;将多个行为片 段中的每个行为片段确定为图结构数据中的节点数据,将时间关联关系确定为 图结构数据中的连接数据。
其中,两个行为片段满足预设条件表示两个行为片段之间的时间相关系数 大于或等于预设阈值。这里的预设阈值可以根据实际需要进行预先设定。
S104,根据图结构数据检测多个行为片段各自的行为标签和时间边界。
行为标签用于表示行为片段的类别,时间边界用于表示一个行为的开始时 间和结束时间,即确定一个行为对应的行为片段的起始帧图像和结束帧图像。
现有的时序行为检测方法,通常是对每个行为片段分别进行检测,由于未 考虑行为片段之间的时间相关关系(即时序特征),将会丢失掉部分行为特征, 导致检测精度较低。在本申请实施例中,由于图结构数据中包含了连接数据(即 行为片段之间的时序特征),因此,根据图结构数据进行检测,相当于考虑了 行为片段之间的时序特征,有效提高了检测精度。
在本申请一个实施例中,S104的一种实现方式为:
获取多个行为片段各自的第一特征向量;将第一特征向量和图结构数据输 入到训练后的检测模型中,输出多个行为片段各自的行为标签和时间边界。
可以通过训练好的行为识别神经网络获取每个行为片段的第一特征向量。 如I3D网络等。这种方式获得的第一特征向量中包含了每个行为片段自身的行 为特征信息。但是没有考虑每个行为片段与其具有时间相关关系的行为片段之 间的相关特征信息。
为了提高检测模型对相关特征信息的捕获能力,在一个实施例中,获取多 个行为片段各自的第一特征向量的一种实现方式可以包括:
对于目标片段,获取目标片段的第二特征向量和每个相邻片段的第三特征 向量,根据第二特征向量和第三特征向量进行信息融合处理,获得目标片段的 第一特征向量。
其中,目标片段为多个行为片段中的任意一个行为片段。相邻片段为多个 行为片段中与目标片段存在时间关联关系的行为片段,即与目标片段建立了 “边”的行为片段。
可选的,信息融合处理的一种实现方式为:
将第二特征向量和第三特征向量进行加权平均处理,将加权平均处理后的 特征向量确定为目标片段第一特征向量。
但是加权平均处理后,目标片段自身的行为特征被“平均”掉了,无法突 出体现目标片段的行为特征。
为了解决上述问题,可选的,信息融合处理的另一种实现方式为:
根据第二特征向量和第三特征向量,计算目标片段和每个相邻片段之间的 邻接权值;根据第三特征向量和邻接权值进行加权平均处理,获得加权平均特 征;根据加权平均特征和第二特征向量计算目标片段的第一特征向量。
第二特征向量和第三特征向量的获取方式可以参考第一特征向量的获取方 式,在此不再赘述。
示例性的,可以通过以下公式进行信息融合处理:
其中,xo为目标片段的第一特征向量,xi为目标片段的第二特征向量,xj为目标 片段的第j个相邻片段的第三特征向量,Aij为目标片段与第j个相邻片段之间 的邻接权值,S为目标片段的相邻片段的个数。
实际应用中,目标片段的相邻片段可能有多个,如果所有相邻片段均参与 计算,那么数据处理量较大。为了在保证计算精度的同时,减少数据处理量, 可以取预设个数的相邻片段参与计算。
示例性的,预设个数为S=5。如果相邻片段的个数大于5,那么从相邻片 段中随机选取5个参与信息融合处理的计算。如果相邻片段的个数小于5,那 么所有的相邻片段均参与信息融合处理的计算。
利用上述方法,不仅考虑了目标片段与其的相邻片段之间的相关特征信息, 还能够突出目标片段本身的行为特征,为后续的检测提供了可靠的特征数据。
其中,邻接权值可以为预设数值。例如:将目标片段与各个相邻片段之间 的邻接权值均设置为1。这种计算方式虽然简单,但是由于目标片段与其相邻 片段之间邻接权值均相等,因此,只能体现目标片段与相邻片段之间具有相关 性,而无法体现目标片段与相邻片段之间特征信息的相关程度。
为了解决上述问题,可选的,目标片段和每个相邻片段之间的邻接权值的 计算方式可以为:
计算目标片段的第二特征向量和相邻片段的第三特征向量之间的余弦相似 度;将余弦相似度确定为目标片段和相邻片段之间的邻接权值。
示例性的,可以通过以下公式计算余弦相似度:
在本申请实施例中,检测模型可以包括图卷积层和检测层,检测层还可以 包括全连接层和softmax层。其中,图卷积层用于根据输入的第一特征向量和 图结构数据进行特征提取,然后将提取出的特征输入到检测层;检测层根据提 取的特征检测出各个行为片段各自的行为标签和时间边界。
检测模型可以是预先训练好的。在模型训练过程中,对样本的处理方法与 上述的对待检测视频的处理方法一致。通过上述实施例中的方法,根据样本的 第一特征向量和图结构数据对检测模型进行训练,能够有效提高检测模型对时 序信息和相关特征信息的捕获能力,有效提高时序行为检测的精度。另外,在 检测时,使用训练好的检测模型能够大大提高检测效率。
下面以一个示例介绍本申请实施例提供的时序行为检测方法的整体流程。 参见图3,是本申请另一实施例提供的时序行为检测方法的流程示意图。如图3 所示,获取一段待检测视频,利用TAG算法提取待检测视频中的多个行为片段。 然后分为三条支路进行处理:
中间支路,将每个行为片段作为图结构的一个“节点”,其数据作为图结 构数据中的节点数据。
右边支路为利用预设条件判断每两个行为片段之间是否具有时间相关关 系,并将具有时间相关关系的两个行为片段之间建立图结构的“边”;根据确 定的“点”和“边”可以确定出图结构数据。
左边支路,利用I3D网络提取每个行为片段的第二特征向量。
根据图结构数据对每个行为片段的相邻片段进行采样,并获取相邻片段的 第三特征向量;然后根据第二特征向量第三特征向量,计算每两个邻接的行为 片段之间的邻接权值;再根据邻接权值和第二特征向量进行信息融合处理,得 到每个行为片段的第一特征向量;最后将图结构数据和每个行为片段的第一特 征向量输入检测模型进行检测,得到每个行为片段各自的行为标签和时间边界。
上述示例中,由于生成的图结构数据中既包含了每个行为片段自身的行为 特征信息,又包含了各个行为片段之间的时序特征信息。另外,在获取每个行 为片段的特征向量时,还考虑了与其相邻的行为片段之间的相关特征信息。因 此,在根据图结构数据和每个行为片段的第一特征向量进行检测时,相当于同 时考虑了每个行为片段本身的行为特征信息和各个行为片段之间的时序特征信 息,有效提高了时序行为检测的精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后, 各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施 过程构成任何限定。
对应于上文实施例所述的时序行为检测方法,图4是本申请实施例提供的 时序行为检测装置的结构框图,为了便于说明,仅示出了与本申请实施例相关 的部分。
参照图4,该装置包括:
片段提取单元41,用于从待检测视频中提取出多个行为片段。
系数确定单元42,用于确定所述多个行为片段中每两个行为片段之间的时 间相关系数。
图结构生成单元43,用于根据所述时间相关系数和所述多个行为片段生成 图结构数据,其中,所述图结构数据中包括用于表示所述行为片段的节点数据 和用于表示两个行为片段之间的时间关联关系的连接数据。
时序行为检测单元44,用于根据所述图结构数据检测所述多个行为片段各 自的行为标签和时间边界。
可选的,系数确定单元42还用于:
计算所述两个行为片段之间的时间交并比;将所述时间交并比确定为所述 两个行为片段之间的时间相关系数。
可选的,图结构生成单元43还用于:
生成满足预设条件的每两个行为片段之间的时间关联关系,其中,两个行 为片段满足所述预设条件表示所述两个行为片段之间的所述时间相关系数大于 或等于预设阈值;将所述多个行为片段中的每个行为片段确定为所述图结构数 据中的所述节点数据,将所述时间关联关系确定为所述图结构数据中的所述连 接数据。
可选的,时序行为检测单元44包括:
特征获取模块,用于获取所述多个行为片段各自的第一特征向量。
时序行为检测模块,用于将所述第一特征向量和所述图结构数据输入到训 练后的检测模型中,输出所述多个行为片段各自的所述行为标签和所述时间边 界。
可选的,特征获取模板还用于:
对于目标片段,获取所述目标片段的第二特征向量和每个相邻片段的第三 特征向量,其中,所述目标片段为所述多个行为片段中的任意一个行为片段, 所述相邻片段为所述多个行为片段中与所述目标片段存在所述时间关联关系的 行为片段;根据所述第二特征向量和所述第三特征向量进行信息融合处理,获 得所述目标片段的所述第一特征向量。
可选的,特征获取模块还用于:
根据所述第二特征向量和所述第三特征向量,计算所述目标片段和每个所 述相邻片段之间的邻接权值;根据所述第三特征向量和所述邻接权值进行加权 平均处理,获得加权平均特征;根据所述加权平均特征和所述第二特征向量计 算所述目标片段的所述第一特征向量。
可选的,特征获取模块还用于:
对于每个所述相邻片段,计算所述目标片段的所述第二特征向量和所述相 邻片段的所述第三特征向量之间的余弦相似度;将所述余弦相似度确定为所述 目标片段和所述相邻片段之间的所述邻接权值。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与 本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见 方法实施例部分,此处不再赘述。
另外,图4所示的时序行为检测装置可以是内置于现有的终端设备内的软 件单元、硬件单元、或软硬结合的单元,也可以作为独立的挂件集成到所述终 端设备中,还可以作为独立的终端设备存在。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上 述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上 述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不 同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功 能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬 件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模 块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上 述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程, 在此不再赘述。
图5是本申请实施例提供的终端设备的结构示意图。如图5所示,该实施 例的终端设备5包括:至少一个处理器50(图5中仅示出一个)处理器、存储 器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算 机程序52,所述处理器50执行所述计算机程序52时实现上述任意各个时序行 为检测方法实施例中的步骤。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计 算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员 可以理解,图5仅仅是终端设备5的举例,并不构成对终端设备5的限定,可 以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如 还可以包括输入输出设备、网络接入设备等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),该 处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其 他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理 器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元,例 如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终 端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存 储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储 单元也包括外部存储设备。所述存储器51用于存储操作系统、应用程序、引导 装载程序(Boot Loader)、数据以及其他程序等,例如所述计算机程序的程序代 码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介 质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方 法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备 上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或 使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请 实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的 硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机 程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算 机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代 码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括: 能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计 算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U 盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践, 计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详 述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来 实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用 和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现 所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法, 可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示 意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现 时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一 个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间 的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或 通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者 也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部 单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照 前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其 依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特 征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申 请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种时序行为检测方法,其特征在于,包括:
从待检测视频中提取出多个行为片段;
确定所述多个行为片段中每两个行为片段之间的时间相关系数;
根据所述时间相关系数和所述多个行为片段生成图结构数据,其中,所述图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据;
根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。
2.如权利要求1所述的时序行为检测方法,其特征在于,在所述确定所述多个行为片段中每两个行为片段之间的时间相关系数的步骤中,任意两个行为片段之间的时间相关系数的确定方法,包括:
计算所述两个行为片段之间的时间交并比;
将所述时间交并比确定为所述两个行为片段之间的时间相关系数。
3.如权利要求1或2所述的时序行为检测方法,其特征在于,所述根据所述时间相关系数和所述多个行为片段生成图结构数据,包括:
生成满足预设条件的每两个行为片段之间的时间关联关系,其中,两个行为片段满足所述预设条件表示所述两个行为片段之间的所述时间相关系数大于或等于预设阈值;
将所述多个行为片段中的每个行为片段确定为所述图结构数据中的所述节点数据,将所述时间关联关系确定为所述图结构数据中的所述连接数据。
4.如权利要求1所述的时序行为检测方法,其特征在于,所述根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界,包括:
获取所述多个行为片段各自的第一特征向量;
将所述第一特征向量和所述图结构数据输入到训练后的检测模型中,输出所述多个行为片段各自的所述行为标签和所述时间边界。
5.如权利要求4所述的时序行为检测方法,其特征在于,所述获取所述多个行为片段各自的第一特征向量,包括:
对于目标片段,获取所述目标片段的第二特征向量和每个相邻片段的第三特征向量,其中,所述目标片段为所述多个行为片段中的任意一个行为片段,所述相邻片段为所述多个行为片段中与所述目标片段存在所述时间关联关系的行为片段;
根据所述第二特征向量和所述第三特征向量进行信息融合处理,获得所述目标片段的所述第一特征向量。
6.如权利要求5所述的时序行为检测方法,其特征在于,所述根据所述第二特征向量和所述第三特征向量进行信息融合处理,获得所述目标片段的所述第一特征向量,包括:
根据所述第二特征向量和所述第三特征向量,计算所述目标片段和每个所述相邻片段之间的邻接权值;
根据所述第三特征向量和所述邻接权值进行加权平均处理,获得加权平均特征;
根据所述加权平均特征和所述第二特征向量计算所述目标片段的所述第一特征向量。
7.如权利要求6所述的时序行为检测方法,其特征在于,所述根据所述第二特征向量和所述第三特征向量,计算所述目标片段和每个所述相邻片段之间的邻接权值,包括:
对于每个所述相邻片段,计算所述目标片段的所述第二特征向量和所述相邻片段的所述第三特征向量之间的余弦相似度;
将所述余弦相似度确定为所述目标片段和所述相邻片段之间的所述邻接权值。
8.一种时序行为检测装置,其特征在于,包括:
片段提取单元,用于从待检测视频中提取出多个行为片段;
系数确定单元,用于确定所述多个行为片段中每两个行为片段之间的时间相关系数;
图结构生成单元,用于根据所述时间相关系数和所述多个行为片段生成图结构数据,其中,所述图结构数据中包括用于表示所述行为片段的节点数据和用于表示两个行为片段之间的时间关联关系的连接数据;
时序行为检测单元,用于根据所述图结构数据检测所述多个行为片段各自的行为标签和时间边界。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011433587.7A CN112749625B (zh) | 2020-12-10 | 2020-12-10 | 时序行为检测方法、时序行为检测装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011433587.7A CN112749625B (zh) | 2020-12-10 | 2020-12-10 | 时序行为检测方法、时序行为检测装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749625A true CN112749625A (zh) | 2021-05-04 |
CN112749625B CN112749625B (zh) | 2023-12-15 |
Family
ID=75649142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011433587.7A Active CN112749625B (zh) | 2020-12-10 | 2020-12-10 | 时序行为检测方法、时序行为检测装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749625B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170053208A1 (en) * | 2015-08-17 | 2017-02-23 | Adobe Systems Incorporated | Behavioral Prediction for Targeted End Users |
CN107665230A (zh) * | 2017-06-21 | 2018-02-06 | 海信集团有限公司 | 用于智能家居控制的用户行为预测模型的训练方法及装置 |
CN109919122A (zh) * | 2019-03-18 | 2019-06-21 | 中国石油大学(华东) | 一种基于3d人体关键点的时序行为检测方法 |
CN109977262A (zh) * | 2019-03-25 | 2019-07-05 | 北京旷视科技有限公司 | 从视频中获取候选片段的方法、装置及处理设备 |
CN110414367A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于gan和ssn的时序行为检测方法 |
WO2020119527A1 (zh) * | 2018-12-11 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 人体动作识别方法、装置、终端设备及存储介质 |
CN111507264A (zh) * | 2020-04-17 | 2020-08-07 | 浙江大学 | 基于视频的行为分析方法、装置、设备 |
CN111954886A (zh) * | 2019-06-14 | 2020-11-17 | 北京嘀嘀无限科技发展有限公司 | 对象追踪的系统和方法 |
-
2020
- 2020-12-10 CN CN202011433587.7A patent/CN112749625B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170053208A1 (en) * | 2015-08-17 | 2017-02-23 | Adobe Systems Incorporated | Behavioral Prediction for Targeted End Users |
CN107665230A (zh) * | 2017-06-21 | 2018-02-06 | 海信集团有限公司 | 用于智能家居控制的用户行为预测模型的训练方法及装置 |
WO2020119527A1 (zh) * | 2018-12-11 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 人体动作识别方法、装置、终端设备及存储介质 |
CN109919122A (zh) * | 2019-03-18 | 2019-06-21 | 中国石油大学(华东) | 一种基于3d人体关键点的时序行为检测方法 |
CN109977262A (zh) * | 2019-03-25 | 2019-07-05 | 北京旷视科技有限公司 | 从视频中获取候选片段的方法、装置及处理设备 |
CN111954886A (zh) * | 2019-06-14 | 2020-11-17 | 北京嘀嘀无限科技发展有限公司 | 对象追踪的系统和方法 |
CN110414367A (zh) * | 2019-07-04 | 2019-11-05 | 华中科技大学 | 一种基于gan和ssn的时序行为检测方法 |
CN111507264A (zh) * | 2020-04-17 | 2020-08-07 | 浙江大学 | 基于视频的行为分析方法、装置、设备 |
Non-Patent Citations (1)
Title |
---|
赵春晖;杨莹;宿南;: "基于行动片段补充生成器的异常行为检测方法", 《沈阳大学学报(自然科学版)》, vol. 31, no. 6, pages 483 - 488 * |
Also Published As
Publication number | Publication date |
---|---|
CN112749625B (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107944020B (zh) | 人脸图像查找方法及装置、计算机装置和存储介质 | |
CN110909651B (zh) | 视频主体人物的识别方法、装置、设备及可读存储介质 | |
CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
CN108549846B (zh) | 一种结合运动特征和头肩结构的行人检测与统计方法 | |
CN107958230B (zh) | 人脸表情识别方法及装置 | |
CN109754009B (zh) | 物品识别方法、装置、售货系统和存储介质 | |
CN104573652A (zh) | 确定人脸图像中人脸的身份标识的方法、装置和终端 | |
CN109858476B (zh) | 标签的扩充方法和电子设备 | |
CN111079785A (zh) | 一种图像识别方法、装置及终端设备 | |
CN111104925B (zh) | 图像处理方法、装置、存储介质和电子设备 | |
CN113744316A (zh) | 一种基于深度神经网络的多目标跟踪方法 | |
CN115830002A (zh) | 一种红外图像质量评价方法及装置 | |
CN113256683B (zh) | 目标跟踪方法及相关设备 | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN114359787A (zh) | 目标属性识别方法、装置、计算机设备及存储介质 | |
CN113780145A (zh) | 精子形态检测方法、装置、计算机设备和存储介质 | |
CN112418089A (zh) | 一种手势识别方法、装置及终端 | |
CN116844006A (zh) | 一种目标识别方法、装置、电子设备及可读存储介质 | |
CN116129523A (zh) | 动作识别方法、装置、终端及计算机可读存储介质 | |
CN112749625B (zh) | 时序行为检测方法、时序行为检测装置及终端设备 | |
CN110633630A (zh) | 一种行为识别方法、装置及终端设备 | |
CN115439733A (zh) | 图像处理方法、装置、终端设备及计算机可读存储介质 | |
CN112989869B (zh) | 人脸质量检测模型的优化方法、装置、设备及存储介质 | |
CN114494355A (zh) | 基于人工智能的轨迹分析方法、装置、终端设备及介质 | |
CN114373203A (zh) | 图片归档方法、装置、终端设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |