CN112434604A - 基于视频特征的动作时段定位方法与计算机设备 - Google Patents
基于视频特征的动作时段定位方法与计算机设备 Download PDFInfo
- Publication number
- CN112434604A CN112434604A CN202011331039.3A CN202011331039A CN112434604A CN 112434604 A CN112434604 A CN 112434604A CN 202011331039 A CN202011331039 A CN 202011331039A CN 112434604 A CN112434604 A CN 112434604A
- Authority
- CN
- China
- Prior art keywords
- action
- confidence
- sampling
- feature
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 254
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000009826 distribution Methods 0.000 claims abstract description 174
- 230000004927 fusion Effects 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims description 226
- 238000005070 sampling Methods 0.000 claims description 198
- 230000033001 locomotion Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 14
- 230000001629 suppression Effects 0.000 claims description 11
- 230000002688 persistence Effects 0.000 claims description 8
- 230000005764 inhibitory process Effects 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 66
- 230000008569 process Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请适用于视频动作时段定位技术领域,提供了一种基于视频特征的动作时段定位方法、动作时段定位装置、计算机设备及介质。其中,基于视频特征的动作时段定位方法,利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合,由于置信度分布集合包括不同动作阶段的阶段置信度分布,将置信度分布集合中全部阶段置信度分布进行融合,使得基于该融合结果能够得到更准确的目标置信度分布,因此基于该目标置信度分布能够在目标视频中更准确地进行动作时段定位操作,提高了动作时段定位的效率。
Description
技术领域
本申请属于视频动作时段定位技术领域,尤其涉及一种基于视频特征的动作时段定位方法、动作时段定位动作时段识别装置、计算机设备及计算机可读存储介质。
背景技术
动作时段识别是视频内容分析过程中的重要步骤,目的在于从具有动作类别和时间边界的未裁剪视频中定位动作时段实例。
目前,对视频内容进行动作时段识别时段定位,可以利用基于边界的时序动作提名生成方法实现。通过该方法,可以评估视频序列中每个时间点的特征,这样的局部信息有助于生成具有精确边界和准确时序的动作提名。但此方法,往往只使用时间点的特征信息,识别过程所考虑的语义信息较为单一,使得边界概率预测不够准确。由此可见,现有的动作时段识别时段定位方案存在效率较低的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种基于视频特征的动作时段定位方法、装置、计算机设备及计算机可读存储介质,以解决现有的动作时段定位方案存在效率较低的技术问题。
本申请实施例的第一方面提供了一种基于视频特征的动作时段定位方法,包括:
利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合;其中,所述置信度分布集合包括不同动作阶段的阶段置信度分布;
基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布;
基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。
上述方案中,所述利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合,包括:
对所述特征文件进行编码卷积,得到二维矩阵;
利用所述训练后的识别模型中的卷积网络组,根据所述二维矩阵进行动作时段识别,得到阶段特征图集合;其中,所述卷积网络组中的每个卷积网络与所述动作阶段一一对应;
基于所述阶段特征图集合得到置信度分布集合。
上述方案中,所述对所述特征文件进行编码卷积,得到二维矩阵,包括:
利用所述训练后的识别模型中的编码卷积层,对所述特征文件进行编码卷积,得到二维矩阵。
上述方案中,所述利用所述训练后的识别模型中的卷积网络组,根据所述二维矩阵进行动作时段识别,得到阶段特征图集合,包括:
利用所述卷积网络组中每个所述卷积网络,基于预设的采样矩阵对所述二维矩阵进行阶段特征采样,输出阶段特征图;
将所述卷积网络组中全部所述卷积网络输出的所述阶段特征图,作为所述阶段特征图集合。
上述方案中,所述利用所述卷积网络组中每个所述卷积网络,基于预设的采样矩阵对所述二维矩阵进行阶段特征采样,输出阶段特征图,包括:
将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵;
对所述四维矩阵进行降维处理,得到特征矩阵;
将所述特征矩阵作为所述阶段特征图。
上述方案中,所述第一元素用于描述所述第二元素的采样时长;
所述将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵,包括:
基于所述预设的采样矩阵与所述二维矩阵之间的元素对应关系,确定所述二维矩阵中每个所述第二元素的目标采样时长;
根据每个所述目标采样时长测算每个所述第二元素各自的权重值;
将所述二维矩阵中全部所述第二元素的权重值组成的矩阵,作为四维矩阵。
上述方案中,所述第一元素用于描述所述第二元素的采样时长;
所述将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘,得到特征矩阵,包括:
基于所述预设的采样矩阵与所述二维矩阵之间的元素对应关系,确定所述二维矩阵中每个所述第二元素的目标采样时长;
根据每个所述目标采样时长测算每个所述第二元素各自的权重值;
将所述二维矩阵中全部所述第二元素的权重值组成的矩阵,作为特征矩阵。
上述方案中,所述第二元素用于表征持续时长(ts,te)的特征;其中,te为所述持续时长的结束时间点,ts为所述持续时长的起始时间点;
所述目标采样时长包括第一补偿时长((ts-λ×d),ts)、所述持续时长(ts,te),以及第二补偿时长((te+λ×d),te);其中,λ为预设比例值,且0<λ<1;d为预设单位时长增量;λ×d为预设时长增量。
上述方案中,所述根据每个所述目标采样时长测算每个所述第二元素各自的权重值,包括:
根据所述目标采样时长,确定所述第二元素的N个采样时间点特征;N为大于0的整数;
通过以下公式测算每个所述采样时间点特征的权重值;
将N个所述采样时间点特征的权重值,作为所述第二元素的权重值。
上述方案中,所述阶段特征图集合包括:动作起始特征图、动作持续特征图以及动作结束特征图;
所述基于所述阶段特征图集合得到置信度分布集合,包括:
将所述动作起始特征图、所述动作持续特征图以及所述动作结束特征图,分别输入三个置信度分析网络进行处理,输出动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布;
将所述动作起始置信度分布、所述动作持续置信度分布以及所述动作结束置信度分布,作为所述置信度分布集合。
上述方案中,所述基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布,包括:
根据所述动作起始置信度分布与所述动作结束置信度分布,分别测算出每个所述第二元素的起始标签概率值与结束标签概率值;
基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合,得到融合结果;
对所述融合结果进行非极大化抑制处理,得到目标置信度分布。
上述方案中,所述动作持续置信度分布用于表征每个所述第二元素的动作标签概率值;
所述基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合,得到融合结果,包括:
测算每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作标签概率值的乘积,得到每个所述第二元素的置信度融合元素;
将全部所述第二元素的置信度融合元素组成的矩阵作为所述融合结果。
上述方案中,所述对所述融合结果进行非极大化抑制处理,得到目标置信度分布,包括:
从所述融合结果中确定出最大概率值;
对所述最大概率值对应的目标概率值进行非极大化抑制处理,得到目标置信度分布。
上述方案中,在所述利用训练后的识别模型基于目标视频的特征文件,输出置信度分布集合的步骤之前,还包括:
对所述目标视频进行特征序列提取,得到特征文件。
本申请实施例的第二方面提供了一种基于视频特征的动作时段定位装置,包括:
输出单元,用于利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合;其中,所述置信度分布集合包括不同动作阶段的阶段置信度分布;
第一确定单元,用于基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布;
第二确定单元,用于基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。
本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述计算机设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的基于视频特征的动作时段定位方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的基于视频特征的动作时段定位方法的各步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在计算机设备上运行时,使得计算机设备执行上述第一方面中任一项所述的基于视频特征的动作时段定位方法的各步骤。
实施本申请实施例提供的一种基于视频特征的动作时段定位方法、装置、计算机设备及计算机可读存储介质具有以下有益效果:
本申请实施例提供的一种基于视频特征的动作时段定位方法,利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合,由于置信度分布集合包括不同动作阶段的阶段置信度分布,将置信度分布集合中全部阶段置信度分布进行融合,使得基于该融合结果能够得到更准确的目标置信度分布,因此基于该目标置信度分布能够在目标视频中更准确地进行动作时段定位操作,提高了动作时段定位的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于视频特征的动作时段定位方法的实现流程图;
图2是本申请实施例中步骤S11的具体实现流程图;
图3是本申请实施例中二维矩阵的示意图;
图4是本申请实施例每个第一元素与每个第二元素点乘的示意图;
图5是本申请实施例中步骤S12的具体实现流程图;
图6是本申请另一实施例提供的一种基于视频特征的动作时段定位方法的实现流程图;
图7是本申请实施例提供的一种基于视频特征的动作时段定位装置的结构框图;
图8是本申请实施例提供的一种计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的方法,可以由服务器或终端(以下称“计算机设备”)执行。本申请实施例的技术方案适用于在对目标视频进行动作时段识别,通过计算机设备执行本实施例提供的基于视频特征的动作时段定位方法,从目标视频中确定出动作时段,该动作时段可以是目标视频中任一动作体的动作时段。
在本申请的所有实施例中,从目标视频中确定出动作时段,并非是直接对目标视频的视频文件进行动作时段识别,也不是直接对目标视频的图像进行动作时段识别,而是基于目标视频的特征文件作为输入,实现对目标视频的内容进行动作时段的识别与定位。这里,目标视频的特征文件是个二维编码的矩阵,例如,该目标视频的特征文件可以是文件名后缀为“.npy”的文件。计算机设备在基于视频特征文件进行动作时段识别或定位的过程中,可以根据需求选择对不同内容的视频进行动作时段识别,或者对视频中的所有动作体进行动作时段识别,而识别每一种动作体在目标视频中的动作时段的方式是相同的,其无需区分视频内容中的动作体类型,因此本申请实施例以对一个目标视频进行动作时段识别为例进行描述。
请参阅图1,图1是本申请实施例提供的一种基于视频特征的动作时段定位方法的实现流程图。
如图1所示的基于视频特征的动作时段定位方法包括以下步骤:
S11:利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合;其中,所述置信度分布集合包括不同动作阶段的阶段置信度分布。
在步骤S11中,目标视频为待进行动作时段识别的视频,该目标视频的画面内容具有动作体的动作内容,也即该目标视频的时序连续的画面内容中能够体现至少一个动作体的动作内容。这里,动作内容可以被分为不同的动作阶段,动作阶段泛指动作内容的全部阶段,例如,动作阶段可以包括动作开始阶段、动作持续阶段以及动作结束阶段。
在本申请的所有实施例中,训练后的识别模型用于描述目标视频的特征文件所表征的动作阶段,与阶段置信度分布之间的对应关系。这里,目标视频的特征文件作为训练后的识别模型的输入,训练后的识别模型对该目标视频的特征文件进行识别处理,也即对目标视频的特征文件所表征的内容进行不同动作阶段的识别,进而输出与不同动作阶段一一对应的阶段置信度分布,得到阶段置信度分布集合。
需要说明的是,特征文件是通过对目标视频进行特征编码得到,特征文件中的数据是由多个特征编码向量组成的特征序列。训练后的识别模型基于该特征文件中的特征序列进行动作时段识别,进而输出置信度分布集合。
应当理解的是,由于实际应用中训练后的识别模型是基于目标视频的特征文件进行动作时段识别,进而得到置信度分布集合,至于如何配置或者如何制备目标视频的特征文件并非本步骤需要考虑的内容,因此目标视频的特征文件如何制备,可以是利用已有的配置方案对目标视频进行处理得到,此处不再对如何得到目标视频的特征文件进行赘述。
图2示出了本申请实施例中步骤S11的具体实现流程图,图如2所示,作为本申请一实施例,步骤S11具体包括:
S111:对所述特征文件进行编码卷积,得到二维矩阵。
S112:利用所述训练后的识别模型中的卷积网络组,根据所述二维矩阵进行动作时段识别,得到阶段特征图集合;其中,所述卷积网络组中的每个卷积网络与所述动作阶段一一对应。
S113:基于所述阶段特征图集合得到置信度分布集合。
在本实施例中,二维矩阵用于描述目标视频的特征文件内容,也即该二维矩阵是特征文件中特征序列的另一种数据形式。这里,由于特征文件中的数据是由多个特征编码向量组成的特征序列,利用训练后的识别模型进行动作时段识别时,需要用到采样窗口对特征文件的内容进行特征采样,而特征窗口是以采样矩阵的方式体现,且采样矩阵是关于时间维度的矩阵,也即采样矩阵中需要考虑被采样特征在目标视频中的持续时长或者时间位置,因此为了实现训练后的识别模型能够基于特征文件进行特征采集与特征分析,进而实现动作时段识别,需要对该特征序列进行转换,得到具有与采样矩阵相同时间维度的二维矩阵,使得二维矩阵能够满足采样矩阵的采样条件。
可以理解的是,在实际应用中可以通过在训练后的识别模型中,调用已有的特征序列转换工具对特征文件进行编码卷积,或者是通过在训练后的识别模型中配置相应的编码卷积层对训练后的识别模型中的卷积。这里,无论是调用特征序列转换工具还是配置编码卷积层对特征文件进行编码卷积,都是以特征文件作为输入,且输出的是该特征文件对应的二维矩阵,通过对特征序列转换工具或编码卷积层配置相应的通道参数,进而限定二维矩阵大小,使输出的二维矩阵能够满足采样矩阵的采样条件。
作为本实施例一种实现的方式,上述步骤S111具体包括:
利用所述训练后的识别模型中的编码卷积层,对所述特征文件进行编码卷积,得到二维矩阵。
在本实施例中,以特征文件作为输入数据,输入至训练后的识别模型的编码卷积层,编码卷积层以输出二维矩阵为目的,对特征文件进行二维矩阵转换处理。这里,编码卷积层预设有用于描述二维矩阵大小的通道个数,也即该通道个数能与二维矩阵的矩阵大小有关。利用编码卷积层以特征文件作为输入,通过编码卷积通道对特征文件的特征序列进行编码卷积,得到相应的二维矩阵。在实际应用中,可以通过对编码卷积层的通道个数进行不同的配置,进而调整编码卷积层根据特征文件输出的二维矩阵的大小,使二维矩阵能够被训练后的识别模型中的其他层级,如卷积网络组中的全部卷积网络作为输入数据。
在本申请的所有实施例中,由于特征文件是通过对目标视频进行特征编码得到,特征文件中的数据是由多个特征编码向量组成的特征序列,同时该特征文件还表征了目标视频在完整时长内的特征内容。在对特征文件进行编码卷积得到二维矩阵时,可以是基于预设的阶段模板对特征文件进行编码卷积。这里,预设的阶段模板用于描述目标视频总时长、单位时长与单位时长特征之间的对应关系。基于预设的阶段模板对特征文件进行编码卷积时,将目标视频的特征文件中的特征序列映射到预设的阶段模板中。
具体地,由于预设的阶段模板用于描述目标视频总时长、单位时长与单位时长特征之间的对应关系,因此将特征文件中的特征序列映射到预设的阶段模板中,实际是构建特征序列中的特征编码向量,与阶段模板中的元素之间在时间维度上的对应关系。
图3示出了本实施例中二维矩阵的示意图。在图3所示的二维矩阵10中,二维矩阵10的竖直方向为持续时长方向Y,二维矩阵10的水平方向为起始时间点变化方向X。在该二维矩阵10中,每个小方格为二维矩阵10的元素,处于同一列的元素具有相同的起始时间点x,处于同一行的元素具有相同的持续时长y。这里,二维矩阵10中的所有元素也可以抽象为点元素,例如,点元素11与点元素12。如图3所示,分界线L用于表征目标视频的总时长位置,也即目标视频的结束边界。该分界线L的右下角区域101表征目标视频以外的无内容区域,也即在进行特征采集过程中,该右下角区域101中的所有原始将不被考虑。
如图3所示,点元素11与点元素12位于同一行,具有相同的持续时长,这里可以用点元素11与点元素12于在持续时长方向Y上的坐标y3表示,相应地,点元素11的起始时间点可以用点元素11在起始时间点变化方向X上的坐标x2表示,点元素12的起始时间点可以用点元素12在起始时间点变化方向X上的坐标x7表示,进而得到点元素11的坐标为(x2、y3),点元素12的坐标为(x7、y3)。相应地,作为二维矩阵10中的元素之一,点元素11表征起始时间为x2持续时长为y3的特征内容,点元素12表征起始时间为x7持续时长为y3的特征内容。
可以理解的是,本实施例中利用训练后的识别模型中的编码卷积层,对特征文件进行编码卷积,进而得到具有时间维度的二维矩阵,并以该二维矩阵用于描述特征文件的特征序列内容。
作为本实施例一种实现的方式,上述步骤S112具体包括:
利用所述卷积网络组中每个所述卷积网络,基于预设的采样矩阵对所述二维矩阵进行阶段特征采样,输出阶段特征图;将所述卷积网络组中全部所述卷积网络输出的所述阶段特征图,作为所述阶段特征图集合。
在本实施例中,在训练后的识别模型中,还包括卷积网络组,该卷积网络组包括与动作阶段一一对应卷积网络。这里,卷积网络组包含的卷积网络个数与动作阶段相关,在实际应用中,若对动作内容的划分越细,则动作阶段就越多,相应地卷积网络组中包含的卷积网络个数就越多。
需要说明的是,每个卷积网络中都预先设置有相应的采样矩阵,不同卷积网络中配置的采样矩阵可以不同。在实际应用中,可以基于不同卷积网络对应的不同动作阶段,配置不同的采样矩阵,进而基于不同的采样矩阵对二维矩阵进行阶段特征采样,输出不同的阶段特征图。
以动作阶段包括动作开始阶段、动作持续阶段以及动作结束阶段为例,卷积网络组包含与动作开始阶段、动作次序阶段以及动作结束阶段,分别对应的第一卷积网络、第二卷积网络以及第三卷积网络。第一卷积网络、第二卷积网络以及第三卷积网络中,分别预先设置有相应的采样矩阵,第一卷积网络、第二卷积网络以及第三卷积网络,分别基于预设的采样矩阵对二维矩阵进行阶段特征采样进而输出阶段特征图,也即输出动作开始阶段特征图、动作持续阶段特征图以及作结束阶段特征图。将动作开始阶段特征图、动作持续阶段特征图以及作结束阶段特征图,作为阶段特征图集合。
作为本实施例一种实现方式,上述步骤:利用所述卷积网络组中每个所述卷积网络,基于预设的采样矩阵对所述二维矩阵进行阶段特征采样,输出阶段特征图,包括:
将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵;对所述四维矩阵进行降维处理,得到特征矩阵;将所述特征矩阵作为所述阶段特征图。
在本实施例中,第一元素是采样矩阵中的元素,第二元素为二维矩阵中的元素。在采样矩阵中的第一元素与二维矩阵中的第二元素之间一一对应,卷积网络基于预设的采样矩阵对二维矩阵进行阶段特征采样,实际上是将采样矩阵中的第一元素与二维矩阵中的第二元素对应点乘,得到两个矩阵之间元素对应点乘的结果矩阵,也即得到一个四维矩阵。通过对该四维矩阵进行降维卷积处理,得到特征矩阵,该特征矩阵为二维矩阵。
在本实施例中,可以将采样矩阵中的每个第一元素,用于表征二维矩阵中每个第二元素的特征采样参考范围,也即在采样矩阵与二维矩阵之间,两个矩阵在结构上存在元素对应关系。具体地,采样矩阵中的全部第一元素与二维矩阵中的全部第二元素之间一一对应。通过第一元素表征第二矩阵中的第二元素的采样范围,将采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘,实际上是基于二维矩阵中规定每个第二元素的采样范围,将二维矩阵中的全部第二元素进行单独划分并进行特征采样,而不同的卷积网络可以根据采样特征的不同,配置不同的采样范围,进而输出不同动作阶段对应的阶段特征图。
基于上述实施例,作为本一种实现方式,第一元素用于描述第二元素的采样时长。上述步骤:将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵,包括:
基于所述预设的采样矩阵与所述二维矩阵之间的元素对应关系,确定所述二维矩阵中每个所述第二元素的目标采样时长;根据每个所述目标采样时长测算每个所述第二元素各自的权重值;将所述二维矩阵中全部所述第二元素的权重值组成的矩阵,作为四维矩阵。
在本实施例中,预设的采样矩阵与二维矩阵之间的元素对应关系为一一对应关系,也即预设的采样矩阵中的第一元素与二维矩阵中的第二元素一一对应,且第一元素还用于描述第二元素的采样时长。在将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘时,基于第一元素与第二元素之间一一对应的关系,能够确定每个第二元素对应的第一元素,将该第一元素所描述的采样时长作为该第二元素的目标采样时长。在二维矩阵中所有第二元素的目标采样时长,可以是通过确定与其对应的第一元素,将该第一元素所描述的采样时长作为第二元素的目标采样时长,进而测算每个第二元素各自的权重值,由于二维矩阵与预设的采样矩阵均为二维矩阵,因此最后将二维矩阵中全部第二元素的权重值组成的矩阵为四维矩阵。
可以理解的是,在实际应用中,因为能够确定预设的采样矩阵中的第一元素与二维矩阵中的第二元素一一对应,且第一元素还用于描述第二元素的采样时长,所以在将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘时,还可以是通过建立预设的采样矩阵与二维矩阵之间的映射关系,如按照第一元素与第二元素一一对应的关系建立元素坐标映射列表,进而基于该元素坐标映射列表实现预设的采样矩阵中的每个第一元素,与二维矩阵中的每个第二元素对应点乘。
进一步地,在上述实施例的基础上,作为一种实现方式,第二元素用于表征持续时长(ts,te)的特征;其中,te为所述持续时长的结束时间点,ts为所述持续时长的起始时间点;所述目标采样时长包括第一补偿时长((ts-λ×d),ts)、所述持续时长(ts,te)以及第二补偿时长((te+λ×d),te);其中,λ为预设比例值,且0<λ<1;d为预设单位时长增量;λ×d为预设时长增量。
在本实施例中,第二元素用于表征持续时长(ts,te)的特征,第一元素用于描述第二元素的采样时长,且该第二元素的目标采样时长可以通过与其对应的第一元素确定,也即与第二元素对应的第一元素能够用于表征该第二元素的目标采样时长。由于目标采样时长包括第一补偿时长((ts-λ×d),ts)、所述持续时长(ts,te)以及第二补偿时长((te+λ×d),te),由此可见在本实施例中,对第二元素进行特征采样时,不仅需要考虑该第二元素表征的持续时长(ts,te)的特征,还将持续时长(ts,te)之前的第一补偿时长((ts-λ×d),ts)的特征,以及持续时长(ts,te)之后的第二补偿时长((te+λ×d),te)的特征考虑在内。这里,第一补偿时长((ts-λ×d),ts)是指时间点(ts-λ×d)至起始时间点ts的时间段,持续时长(ts,te)是指起始时间点ts至结束时间点te的时段,第二补偿时长((te+λ×d),te)是指时间点(te+λ×d)至结束时间点te的时间段。由于λ为预设比例值,且0<λ<1;d为预设单位时长增量;λ×d为预设时长增量,在实际应用中还可以根据实际需求,考虑范围设定该预设比例值λ的取值范围,例如λ∈(0,0.5]。
图4示出了本实施例中每个第一元素与每个第二元素点乘的示意图。如图4所示,二维矩阵10与预设的采样矩阵20进行元素对应点乘,也即将预设的采样矩阵20中的每个第一元素与二维矩阵10中的每个第二元素,于时间T维度上进行点乘,得到四维矩阵。这里,二维矩阵10能够表征为矩阵RC*T,其中,C表示通道数,T是时间维度。在二维矩阵10中,起始时间点ts至结束时间点te表征一个第二元素。采样矩阵20可以是对已知技术中的原始采样矩阵进行扩展后得到的矩阵,原始采样矩阵可以表征为矩阵RN*T,其中,N是采样点的个数,T是时间维度,由于在本实施例中,第一元素还用于描述第二元素的采样时长,通过对该矩阵RN *T进行扩展,使得第一元素描述第二元素的采样时长得到扩展,也即设定相应的最大持续时长,扩展后的采样矩阵携带有最大持续时长信息与时间维度,因此该采样矩阵20可以表征为矩阵RN*T*D*T,其中,N是采样点的个数,T是时间维度,D是最大持续时长。将预设的采样矩阵20中的每个第一元素与二维矩阵10中的每个第二元素,于时间T维度上进行点乘,就是将矩阵RN*T*D*T与矩阵RC*T进行点乘,得到四维矩阵RC*N*D*T,其中,C表示通道数,N是采样点的个数,D是最大持续时长,T是时间维度。
需要说明的是,由于对第二元素进行特征采样时,不仅需要考虑该第二元素表征的持续时长(ts,te),还将持续时长te-ts之前的第一补偿时长((ts-λ×d),ts)的特征与持续时长(ts,te)之后的第二补偿时长((te+λ×d),te)的特征考虑在内,因此在本实施例中,第一元素所描述的第二元素的采样时长,除了持续时长(ts,te)对应采样时长外,还包含了起始时间点ts之前的时长范围或时间点,以及结束时间点te之后的时长范围或时间点。
在本实施例中,基于预设的采样矩阵对二维矩阵进行阶段特征采样,具体是将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵,且第一元素表征第二元素的目标采样时长,该目标采样时长包括第一补偿时长((ts-λ×d),ts)、持续时长(ts,te)以及第二补偿时长((te+λ×d),te),因此在确定二维矩阵中每个第二元素的目标采样时长后,即可确定该目标采样时长的特征范围。如图4所示,在二维矩阵10中,特征区域A为单个第二元素的第一补偿时长((ts-λ×d),ts)的特征,特征区域B为单个第二元素的第二补偿时长((te+λ×d),te)的特征,因此对于持续时长为(ts,te)的第二元素来说,特征区域A、持续时长(ts,te)的特征以及特征区域B共同组成了该第二元素的目标采样时长的特征范围。在确定了每个第二元素的目标采样时长后,根据每个第二元素对应的目标采样时长,即可测算每个第二元素的特征偏向概率,也即权重值。
应当理解的是,由于在根据每个目标采样时长测算每个第二元素各自的权重值时,不仅测算的是第二元素所表征的持续时长(ts,te)内的特征权重,还将该持续时长(ts,te)前后的特征权重都考虑在内,因此测算每个第二元素各自的权重值时还考虑了与该第二元素元相邻元素的特征,也即还考虑了与该第二元素所表征的持续时长(ts,te)相邻时长内的特征,或相邻时间点的特征,并以设定预设比例值、预设单位时长增量的方式,限定了对该第二元素相邻元素的特征采样范围,使得基于预设的采样矩阵对二维矩阵进行阶段特征采样的过程,能够考虑到每个第二元素的相邻元素特征,进而在输出阶段特征图时,提高该阶段特征图的特征区分程度,也提高了输出阶段特征图的科学化程度。
基于上述实施例,将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵后,还需要将该四维矩阵进行降维处理,这里,四维矩阵可以表征为矩阵RC*N*D*T。
在实际应用中,将预设的采样矩阵中的每个第一元素与二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵后,通过对四维矩阵进行降维处理,得到特征矩阵时,其中特征矩阵为二维矩阵,因此仅需要对思维矩阵进行两个维度的降维即可。具体可以是利用降维语句指令进行降维处理,例如,消除用于表征采样点个数N的维度。或者,通过配置相应的降维卷积层,例如,通过设置相应的通道卷积层将用于对表征通道数量的C进行通道降维,进而实现对思维矩阵的降维处理,得到特征矩阵。
以特征矩阵为四维矩阵RC*N*D*T为例,对该特征矩阵进行降维处理,是利用降维语句指令将该特征矩阵的N维度剔除,再通过限制相应的通道进行卷积,进而将C维度剔除,也即将采样点个数信息与通道数信息进行剔除,得到的特征矩阵RD*T,最后将该特征矩阵作为阶段特征图。
结合上一实施例,作为本实施例一种实现的方式,上述步骤:根据每个所述目标采样时长测算每个所述第二元素各自的权重值,包括:
根据所述目标采样时长,确定所述第二元素的N个采样时间点特征;N为大于0的整数;
通过以下公式测算每个所述采样时间点特征的权重值;
将N个所述采样时间点特征的权重值,作为所述第二元素的权重值。
在本实施例中,由于第二元素用于表征持续时长(ts,te)的特征,因此能够以小于持续时长(ts,te)的单位时间点对该第二元素进行次序时长特征的细化操作。这里,在根据每个第二元素对应的目标采样时长测算每个第二元素的权重值时,可以通过对该采样矩阵20中的第一元素配置相应的采样特征点个数,该采样特征点个数是目标采样时长设定,且采样特征点在目标采样时长的范围内均匀分布,基于采样特征点对目标采样时长内的特征进行采样,即可得到每个采样特征点的权重值,基于每个采样特征点的权重值即可确定该第二元素的权重值。
在本实施例中,因为第一元素用于描述第二元素的采样时长,且该目标采样时长包括第一补偿时长((ts-λ×d),ts)、持续时长(ts,te)以及第二补偿时长((te+λ×d),te),所以在根据目标采样时长确定第二元素的N个采样时间点特征时,该N个采样时间点特征包含了持续时长(ts,te)内的采样特征,同时也包含了第一补偿时长((ts-λ×d),ts)内的采样特征,以及第二补偿时长((te+λ×d),te)内的采样特征。
如图4所示,对于表征持续时长(ts,te)特征的第二元素来说,根据目标采样时长确定第二元素的N个采样时间点特征(P1、P2、…PN-1、PN),在测算每个采样时间点特征的权重值时,由于N个采样时间点特征中并非所有采样时间点特征都能准确落在最小单位时间点,因此需要区分N个采样时间点特征的几种权重值测算方式。只要采样时间点特征对应的时间点均不在起始时间点ts与结束时间点te之上,则基于该采样时间点更靠近哪个起始时间点ts或更靠近哪个结束时间点te为依据,计算该采样时间点的权重值。
例如,图4中的采样时间点特征P1,当该采样时间点特征P1更靠近上个第二元素的起始时间点ts-1,ts为上个第二元素的起始时间点ts-1对应的结束时间点,假设上个第二元素的起始时间点ts-1对应的时间数值为1,则采样时间点特征P1对应的时间点数值必然大于1且小于1.5,向下取整得到对应的时间数值为1,假设采样时间点特征P1对应的时间点数值为1.3,基于以上公式可确定,采样时间点特征P1取小数值为0.3,相应地,该采样时间点特征P1权重值测算方式为1-decimal(tn),即1减去0.3等于0.7,该0.7用于表征采样时间点特征P1权重值中,参考起始时间点ts-1权重值的比例。这里,在确定了采样时间点特征P1的权重值中参考了起始时间点ts-1权重值的比例后,即可确定采样时间点特征P1的权重值中参考了上个第二元素的起始时间点ts-1对应的结束时间点ts权重值的比例,因此基于两个时间点的权重值比例即可确定采样时间点特征P1的权重值。
再例如,图4中的采样时间点特征PN-1,当该采样时间点特征PN-1更靠近结束时间点te,假设结束时间点te对应的时间数值为3,则采样时间点特征PN-1对应的时间点数值必然大于2.5且小于3,向下取整得到对应的时间数值为2,相较于同一目标采样时长中的采样时间点特征P1来说,采样时间点特征PN-1为down(tn)+1,假设采样时间点特征PN-1对应的时间点数值为2.8,基于以上公式可确定,采样时间点特征PN-1取小数值为0.8,相应地,该采样时间点特征PN-1权重值测算方式为decimal(tn),即0.8,该0.8用于表征采样时间点特征PN-1权重值中,参考结束时间点te权重值的比例。与上一例子相同,这里,在确定了采样时间点特征PN-1的权重值中参考了结束时间点te权重值的比例后,即可确定采样时间点特征PN-1的权重值中参考了起始时间点ts权重值的比例,因此基于两个时间点的权重值比例即可确定采样时间点特征PN-1的权重值。
可以理解的是,当采样时间点特征不在第二元素的N个采样时间点特征(P1、P2、…PN-1、PN)内,则满足条件t=others,相应地,权重值为0。
需要说明的是,二维矩阵中的所有第二元素的权重值均是以相同的方式测算得到,二维矩阵中全部第二元素的权重值组成的矩阵为特征矩阵,且该特征矩阵能够作为阶段特征图。不同动作阶段对应的不同阶段特征图是由不同的卷积网络基于预设的采样矩阵对二维矩阵进行阶段特征采样得到,对于每一个卷积网络而言,在基于预设的采样矩阵对二维矩阵进行阶段特征采样的过程中,测算二维矩阵中第二元素的权重值的方式是相同的。
基于上述实施例,作为一种实现的方式,阶段特征图集合包括:动作起始特征图、动作持续特征图以及动作结束特征图;S113具体包括:
将所述动作起始特征图、所述动作持续特征图以及所述动作结束特征图,分别输入三个置信度分析网络进行处理,输出动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布;将所述动作起始置信度分布、所述动作持续置信度分布以及所述动作结束置信度分布,作为所述置信度分布集合。
在本实施例中,置信度分析网络用于对阶段特征图集合中的每个阶段特征图进行处理,由于阶段特征图集合中包括动作起始特征图、动作持续特征图以及动作结束特征图,因此三个置信度分析网络分别与动作起始特征图、动作持续特征图以及动作结束特征图相应配置,也即三个置信度分析网络中分配置了不同的置信度分析策略。
需要说明的是,由于动作起始特征图、动作持续特征图以及动作结束特征图,分别具有不同的语义信息,因此在生成置信度分布集合时,需要针对不同动作阶段特征图配置不同的语义信息识别策略。对应动作起始特征图与动作结束特征图而言,动作的起始与动作的结束较容易识别,而在确定了动作起始与动作结束后,确保识别的动作持续阶段连贯于该两个动作阶段之间即可。
在实际应用中,将动作起始特征图、动作持续特征图以及动作结束特征图,分别输入三个置信度分析网络进行处理时,由于动作起始特征图和动作结束特征图具有较为明显的语义信息,因此在动作起始特征图和动作结束特征图分别对应的置信度分析网络中设置相同的最大持续时长,也即λ1×T,其中,λ1∈(0,1]。由于动作阶段特征图需要通过全局语义信息来进行置信度识别,进而给出置信度分数,因此可以设置动作阶段的最大持续时长为λ2×T,其中,λ2∈(0,1],且λ2>λ1。
应当理解的是,通过三个置信度分析网络分别对动作起始特征图、动作持续特征图以及动作结束特征图进行处理,进而输出动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布,得到相应的置信度分布集合,也即细化了目标视频中的动作特征识别,便于后续将不同动作阶段的特征置信度图进行结合。
S12:基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布。
在步骤S12中,置信度分布集合包括多个阶段置信度分布图,例如,可以将动作划分为动作起始阶段、动作持续阶段以及动作结束阶段,相应地,每个动作阶段对应不同的置信度分布,也即动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布。相应地,置信度分布集合中全部阶段置信度分布的融合结果,即为动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布的置信度分布融合结果。
在本申请的所有实施例中,置信度分布集合中全部阶段置信度分布的融合结果,并非最终的置信度分布,而是各个单位时间段或单位时长属于动作起始阶段概率、属于动作持续阶段概率以及属于动作结束阶段概率的分布情况,因此需要基于该融合结果确定目标置信度分布。
在实际应用中,在得到置信度分布集合中全部阶段置信度分布后,可以利用已有的置信度融合方式进行融合处理,例如,先对全部阶段置信度分布进行修正,并利用一致性原理来剔除错误点、补偿修正或填补空洞,然后通过相应规则去除置信度冗余,得到目标置信度。
图5示出了本申请实施例中步骤S12的具体实现流程图。如图5所示,结合步骤S11涉及二维矩阵与第二元素的全部实施例,作为本申请一实施例,步骤S12具体包括S121至S123。
S121:根据所述动作起始置信度分布与所述动作结束置信度分布,分别测算出每个所述第二元素的起始标签概率值与结束标签概率值。
在步骤S121中,第二元素为二维矩阵中的元素,由于第二元素用于表征持续时长(ts,te)的特征,因此动作起始置信度分布中的元素,用于表征相应的第二元素的特征属于动作起始阶段的概率,也即动作起始置信度分布用于表征目标视频中各单位持续时长的视频内容属于动作开始的概率分布;动作结束置信度分布中的元素用于表征相应的第二元素的特征属于动作结束阶段的概率;也即动作结束置信度分布用于表征目标视频中各单位持续时长的视频内容属于动作结束的概率分布。
在本实施例中,第二元素的起始标签概率值与结束标签概率值,只能够用于表征某个第二元素所表征的持续时长(ts,te)的特征为动作起始阶段的概率值,以及该第二元素所表征的持续时长(ts,te)的特征为动作结束阶段的概率值,并不能直接表示该第二元素所表征的持续时长(ts,te)的特征是否为动作时段,也即无法直接用于确定目标视频中的动作时段,因此需要结合动作持续置信度分布来看该第二元素所表征的持续时长是否为动作时段。
作为一种可能实现的方式,根据动作起始置信度分布测算出每个所述第二元素的起始标签概率值,与根据动作结束置信度分布测算出每个所述第二元素的结束标签概率值的方式可以是相同的。
以动作起始置信度分布为Ms,动作结束置信度分布Me为例,对于任一第二元素中包含的时间点t来说,其属于起始标签概率值可以通过以下方式测算得到:
Ps,t=Ms(d,t-1)+γ1Ms(d-1,t-1)+γ2Ms(d+1,t-1)+γ3Ms(d+1,t-2)+γ4Ms(d-1,t);
其中,d为持续时长,γ1,γ2,γ3,γ4均为补偿系数,且γ1,γ2,γ3,γ4∈[0,1]。
相应地,任一第二元素中包含的时间点t来说,其属于结束标签概率值可以通过以下方式测算得到:
Pe,t=Me(d,t-1)+γ1Me(d-1,t-1)+γ2Me(d+1,t-1)+γ3Me(d+1,t-2)+γ4Me(d-1,t);
其中,d为预设持续时长,γ1,γ2,γ3,γ4均为补偿系数,且γ1,γ2,γ3,γ4∈[0,1]。
需要说明的是,预设持续时长与补偿系数都可以根据实际情况自定义得到。在通过上述公式测算起始标签概率值与结束标签概率值的过程中,均考虑了起始置信度分布为Ms中,各个第二元素之间的周围特征概率,以及重叠范围的概率补偿,以及动作结束置信度分布Me中,各个第二元素之间的周围特征概率,以及重叠范围的概率补偿,提高了整体方案的鲁棒性。对于任意两段持续时长来说,如0.4-0.5,0.4-0.6,由于两者间的重合度比较大,故在该两段持续时长中,起始时间点相同,该时间点之后的任意时间点与该点都组成持续时长。
S122:基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合,得到融合结果。
在步骤S122中,动作持续置信度分布用于表征每个所述第二元素的动作标签概率值,还可以用于表征目标视频中单位持续时长的视频内容属于一个完整动作的概率分布。
在本实施例中,基于每个第二元素的起始标签概率值、结束标签概率值以及所述动作持续置信度分布进行置信度融合,实际上是测算每个第二元素的起始标签概率值、结束标签概率值以及动作标签概率值的乘积,进而得到每个第二元素的置信度融合元素,将全部第二元素的置信度融合元素组成的矩阵作为融合结果。
S123:对所述融合结果进行非极大化抑制处理,得到目标置信度分布。
在步骤S123中,对融合结果进行非极大化抑制处理,是为了避免在进行动作时段识别中,因为动作对象过多,导致动作内容的特征遗漏现象。例如,当目标视频中同时出现了两个或两个以上的运动体,若只对其中第一运动体的动作识别较为熟练,对第二运动体的动作识别较为生疏,则容易导致第二运动体的运动特征概率因为低于第一运动体的运动特征概率而被省略,因此通过对融合结果进行非极大化抑制处理,得到目标置信度分布,能够有效地避免动作时段识别中出现识别遗漏现象。
在本实施例中,对融合结果进行非极大化抑制处理可以是从融合结果中确定出最大概率值,然后对最大概率值对应的目标概率值进行非极大化抑制处理,进而得到目标置信度分布。这里,对最大概率值对应的目标概率值进行非极大化抑制处理,可以是按照预设的抑制次数,对目标概率值乘上一个小于1的系数,缩小其概率值。
可以理解的是,在实际应用中,还可以根据实际需求配置相应的非极大化抑制处理策略,例如,根据目标视频中运动体的种类设置抑制次数,再例如,根据实际的融合结果配置抑制过程中的系数大小等。
S13:基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。
在步骤S13中,目标置信度分布表征了目标视频中各持续时长属于动作内容的概率值。
在本实施例中,基于目标置信度分布在目标视频中确定出动作时段,具体是根据目标置信度分布中,对每个持续时长的概率值大小确定相应的持续时长是否为动作内容。例如,当目标置信度分布中第一持续时长的概率值大于预设阈值,则确定该目标视频中与该第一持续时长对应的内容中包含动作内容。
可以理解的是,由于目标置信度分布表征了目标视频中各个时段属于动作内容的概率值,因此基于该目标置信度分布,能够在目标视频的播放时长内识别出哪些持续时长内存在动作内容,也即根据目标置信度分布即可在目标视频中标记出相应的动作出现时段,实现对目标视频的动作时段识别。置于以何种方式进行标记,可以是以标记时间戳,或者标记目标视频帧集合的方式,此处不设限制。
以上可以看出,本实施例提供的一种基于视频特征的动作时段定位方法,利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合,由于置信度分布集合包括不同动作阶段的阶段置信度分布,将置信度分布集合中全部阶段置信度分布进行融合,使得基于该融合结果能够得到更准确的目标置信度分布,因此基于该目标置信度分布能够在目标视频中更准确地进行动作时段定位操作,提高了动作时段定位的效率。
请参阅图6,图6是本申请另一实施例提供的一种基于视频特征的动作时段定位方法的实现流程图。相对于图1对应的实施例,本实施例提供的基于视频特征的动作时段定位方法在步骤S11之前还包括S21。详述如下:
S21:对所述目标视频进行特征序列提取,得到特征文件。
在步骤S21中,对目标视频进行特征序列提取,可以是对目标视频进行特征编码。例如,对目标视频的连续帧进行片段序列划分,再对划分得到的每个片段序列进行特征编码,得到相应的特征编码向量,进而组成特征序列作为目标视频的特征文件。其中,在对划分得到的每个片段序列进行特征编码,可以是利用已有的特征编码网络对片段序列进行特征编码,通过特征编码网络中的空间网络层与时间网络层分别输出与片段序列对应的两组数据,将两组数据进行拼接得到特征编码向量。
以目标视频为RGB视频为例,假设目标视频是由T帧RGB图像组成的RGB视频X,则RGB视频X的表达式可以为:其中,Xn是RGB视频X的第n帧RGB图像。通过对T帧RGB图像进行片段序列划分,可以得到相应的片段序列集合S,该S的表达式可以为:其中,ls是单个片段序列的长度,n是片段序列的个数。这里,每个片段序列Sn都包括至少一帧RGB图像与该RGB图像为中心的帧的叠加光流场因此片段序列Sn的表达式可以是为了降低计算成本,设定固有的帧间隔σ进行片段抽取,因此单个片段序列的长度的表达式可以是ls=lv/σ,其中,lv是目标视频的整体片段序列总长度。给定一个片段Sn,我们将空间和时间网络顶层的输出分数拼接起来,可形成编码后特征向量其中,为空间网络的特征编码数据,为时间网络的特征编码数据。因此,给定片段序列Sn,我们可以提取视频X的特征序列
请参阅图7,图7是本申请实施例提供的一种基于视频特征的动作时段定位装置的结构框图。本实施例中该基于视频特征的动作时段定位装置包括的各单元用于执行图1和图6对应的实施例中的各步骤。具体请参阅图1和图6以及图1至图6所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图7,基于视频特征的动作时段定位装置70包括:输出单元71、第一确定单元72以及第二确定单元73。其中:
输出单元71,用于利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合;其中,所述置信度分布集合包括不同动作阶段的阶段置信度分布。
第一确定单元72,用于基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布。
第二确定单元73,用于基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。
作为本申请一实施例,基于视频特征的动作时段定位装置70,还包括:提取单元74。具体地,
提取单元74,用于对所述目标视频进行特征序列提取,得到特征文件。
应当理解的是,图7示出的基于视频特征的动作时段定位装置的结构框图中,各单元用于执行图1至图6对应的实施例中的各步骤,而对于图1至图6对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图6以及图1至图6所对应的实施例中的相关描述,此处不再赘述。
图8是本申请实施例提供的一种计算机设备的结构框图。如图8所示,该实施例的计算机设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如基于视频特征的动作时段定位方法的程序。处理器80执行所述计算机程序82时实现上述各个基于视频特征的动作时段定位方法各实施例中的步骤,例如图1所示的S11至S13。或者,所述处理器80执行所述计算机程序82时实现上述图7对应的实施例中各单元的功能,例如,图7所示的单元71至74的功能,具体请参阅图7对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序82可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器81中,并由所述处理器80执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述计算机设备8中的执行过程。例如,所述计算机程序82可以被分割成输出单元、第一确定单元以及第二确定单元,各单元具体功能如上所述。
所述计算机设备可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是计算机设备8的示例,并不构成对计算机设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述计算机设备8的内部存储单元,例如计算机设备8的硬盘或内存。所述存储器81也可以是所述计算机设备8的外部存储设备,例如所述计算机设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述计算机设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述计算机设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (16)
1.一种基于视频特征的动作时段定位方法,其特征在于,包括:
利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合;其中,所述置信度分布集合包括不同动作阶段的阶段置信度分布;
基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布;
基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。
2.根据权利要求1所述的方法,其特征在于,所述利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合,包括:
对所述特征文件进行编码卷积,得到二维矩阵;
利用所述训练后的识别模型中的卷积网络组,根据所述二维矩阵进行动作时段识别,得到阶段特征图集合;其中,所述卷积网络组中的每个卷积网络与所述动作阶段一一对应;
基于所述阶段特征图集合得到置信度分布集合。
3.根据权利要求2所述的方法,其特征在于,所述对所述特征文件进行编码卷积,得到二维矩阵,包括:
利用所述训练后的识别模型中的编码卷积层,对所述特征文件进行编码卷积,得到二维矩阵。
4.根据权利要求2所述的方法,其特征在于,所述利用所述训练后的识别模型中的卷积网络组,根据所述二维矩阵进行动作时段识别,得到阶段特征图集合,包括:
利用所述卷积网络组中每个所述卷积网络,基于预设的采样矩阵对所述二维矩阵进行阶段特征采样,输出阶段特征图;
将所述卷积网络组中全部所述卷积网络输出的所述阶段特征图,作为所述阶段特征图集合。
5.根据权利要求4所述的方法,其特征在于,所述利用所述卷积网络组中每个所述卷积网络,基于预设的采样矩阵对所述二维矩阵进行阶段特征采样,输出阶段特征图,包括:
将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵;
对所述四维矩阵进行降维处理,得到特征矩阵;
将所述特征矩阵作为所述阶段特征图。
6.根据权利要求5所述的方法,其特征在于,所述第一元素用于描述所述第二元素的采样时长;
所述将所述预设的采样矩阵中的每个第一元素与所述二维矩阵中的每个第二元素对应进行点乘,得到四维矩阵,包括:
基于所述预设的采样矩阵与所述二维矩阵之间的元素对应关系,确定所述二维矩阵中每个所述第二元素的目标采样时长;
根据每个所述目标采样时长测算每个所述第二元素各自的权重值;
将所述二维矩阵中全部所述第二元素的权重值组成的矩阵,作为四维矩阵。
7.根据权利要求6所述的方法,其特征在于,所述第二元素用于表征持续时长(ts,te)的特征;其中,te为所述持续时长的结束时间点,ts为所述持续时长的起始时间点;
所述目标采样时长包括第一补偿时长((ts-λ×d),ts)、所述持续时长(ts,te),以及第二补偿时长((te+λ×d),te);其中,λ为预设比例值,且0<λ<1;d为预设单位时长增量;λ×d为预设时长增量。
9.根据权利要求7所述的方法,其特征在于,所述阶段特征图集合包括:动作起始特征图、动作持续特征图以及动作结束特征图;
所述基于所述阶段特征图集合得到置信度分布集合,包括:
将所述动作起始特征图、所述动作持续特征图以及所述动作结束特征图,分别输入三个置信度分析网络进行处理,输出动作起始置信度分布、动作持续置信度分布以及动作结束置信度分布;
将所述动作起始置信度分布、所述动作持续置信度分布以及所述动作结束置信度分布,作为所述置信度分布集合。
10.根据权利要求9所述的方法,其特征在于,所述基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布,包括:
根据所述动作起始置信度分布与所述动作结束置信度分布,分别测算出每个所述第二元素的起始标签概率值与结束标签概率值;
基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合,得到融合结果;
对所述融合结果进行非极大化抑制处理,得到目标置信度分布。
11.根据权利要求10所述的方法,其特征在于,所述动作持续置信度分布用于表征每个所述第二元素的动作标签概率值;
所述基于每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作持续置信度分布进行置信度融合,得到融合结果,包括:
测算每个所述第二元素的所述起始标签概率值、所述结束标签概率值以及所述动作标签概率值的乘积,得到每个所述第二元素的置信度融合元素;
将全部所述第二元素的置信度融合元素组成的矩阵作为所述融合结果。
12.根据权利要求10所述的方法,其特征在于,所述对所述融合结果进行非极大化抑制处理,得到目标置信度分布,包括:
从所述融合结果中确定出最大概率值;
对所述最大概率值对应的目标概率值进行非极大化抑制处理,得到目标置信度分布。
13.根据权利要求1至12任一项所述的方法,其特征在于,在所述利用训练后的识别模型基于目标视频的特征文件,输出置信度分布集合的步骤之前,还包括:
对所述目标视频进行特征序列提取,得到特征文件。
14.一种基于视频特征的动作时段定位装置,其特征在于,包括:
输出单元,用于利用训练后的识别模型基于目标视频的特征文件进行动作时段识别,得到置信度分布集合;其中,所述置信度分布集合包括不同动作阶段的阶段置信度分布;
第一确定单元,用于基于所述置信度分布集合中全部所述阶段置信度分布的融合结果,确定目标置信度分布;
第二确定单元,用于基于所述目标置信度分布在所述目标视频中进行动作时段定位操作。
15.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述计算机设备上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至13任一项所述基于视频特征的动作时段定位方法的步骤。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述基于视频特征的动作时段定位方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011331039.3A CN112434604A (zh) | 2020-11-24 | 2020-11-24 | 基于视频特征的动作时段定位方法与计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011331039.3A CN112434604A (zh) | 2020-11-24 | 2020-11-24 | 基于视频特征的动作时段定位方法与计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434604A true CN112434604A (zh) | 2021-03-02 |
Family
ID=74692926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011331039.3A Pending CN112434604A (zh) | 2020-11-24 | 2020-11-24 | 基于视频特征的动作时段定位方法与计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434604A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017176511A1 (en) * | 2016-04-08 | 2017-10-12 | Microsoft Technology Licensing, Llc | On-line action detection using recurrent neural network |
CN109522874A (zh) * | 2018-12-11 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 人体动作识别方法、装置、终端设备及存储介质 |
CN110020596A (zh) * | 2019-02-21 | 2019-07-16 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN110362715A (zh) * | 2019-06-28 | 2019-10-22 | 西安交通大学 | 一种基于图卷积网络的未剪辑视频动作时序定位方法 |
CN110852256A (zh) * | 2019-11-08 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 时序动作提名的生成方法、装置、设备及存储介质 |
CN110942006A (zh) * | 2019-11-21 | 2020-03-31 | 中国科学院深圳先进技术研究院 | 运动姿态识别方法、运动姿态识别装置、终端设备及介质 |
CN111274995A (zh) * | 2020-02-13 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、设备和计算机可读存储介质 |
-
2020
- 2020-11-24 CN CN202011331039.3A patent/CN112434604A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017176511A1 (en) * | 2016-04-08 | 2017-10-12 | Microsoft Technology Licensing, Llc | On-line action detection using recurrent neural network |
CN109522874A (zh) * | 2018-12-11 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 人体动作识别方法、装置、终端设备及存储介质 |
CN110020596A (zh) * | 2019-02-21 | 2019-07-16 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN110362715A (zh) * | 2019-06-28 | 2019-10-22 | 西安交通大学 | 一种基于图卷积网络的未剪辑视频动作时序定位方法 |
CN110852256A (zh) * | 2019-11-08 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 时序动作提名的生成方法、装置、设备及存储介质 |
CN110942006A (zh) * | 2019-11-21 | 2020-03-31 | 中国科学院深圳先进技术研究院 | 运动姿态识别方法、运动姿态识别装置、终端设备及介质 |
CN111274995A (zh) * | 2020-02-13 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、设备和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
周凯烨: "基于边界意识匹配网络的时序动作检测", 《工业控制计算机》, vol. 33, no. 6, pages 1 - 1 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11023801B2 (en) | Data processing method and apparatus | |
EP3971772B1 (en) | Model training method and apparatus, and terminal and storage medium | |
CN113610232B (zh) | 网络模型量化方法、装置、计算机设备以及存储介质 | |
CN106599900A (zh) | 一种识别图像中的字符串的方法和装置 | |
CN109934262B (zh) | 图片差异性判断方法、装置、计算机设备和存储介质 | |
CN110321913B (zh) | 一种文本识别方法及装置 | |
CN112085056B (zh) | 目标检测模型生成方法、装置、设备及存储介质 | |
CN111860276B (zh) | 人体关键点检测方法、装置、网络设备及存储介质 | |
CN115186774B (zh) | 智能电缆剥线设备及其方法 | |
CN111199186A (zh) | 图像质量评分模型训练方法、装置、设备及存储介质 | |
CN111898735A (zh) | 蒸馏学习方法、装置、计算机设备和存储介质 | |
CN115100659B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114708436B (zh) | 语义分割模型的训练方法、语义分割方法、装置和介质 | |
CN111753729A (zh) | 一种假脸检测方法、装置、电子设备及存储介质 | |
CN108154522B (zh) | 目标追踪系统 | |
US12039736B2 (en) | Image processing device, method, and program | |
CN112434604A (zh) | 基于视频特征的动作时段定位方法与计算机设备 | |
CN113887535B (zh) | 模型训练方法、文本识别方法、装置、设备和介质 | |
CN114973410A (zh) | 视频帧的动作特征提取方法及装置 | |
CN110222693B (zh) | 构建字符识别模型与识别字符的方法和装置 | |
CN112016571A (zh) | 一种基于注意力机制的特征提取方法、装置及电子设备 | |
CN112418098A (zh) | 视频结构化模型的训练方法及相关设备 | |
CN111402121A (zh) | 图像风格的转换方法、装置、计算机设备和存储介质 | |
JP7507172B2 (ja) | 情報処理方法、情報処理システム及び情報処理装置 | |
CN112257646B (zh) | 一种商品检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |