CN113590874A - 一种视频定位方法及装置、模型训练方法及设备 - Google Patents

一种视频定位方法及装置、模型训练方法及设备 Download PDF

Info

Publication number
CN113590874A
CN113590874A CN202111139903.4A CN202111139903A CN113590874A CN 113590874 A CN113590874 A CN 113590874A CN 202111139903 A CN202111139903 A CN 202111139903A CN 113590874 A CN113590874 A CN 113590874A
Authority
CN
China
Prior art keywords
video
modality
attention
word
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111139903.4A
Other languages
English (en)
Other versions
CN113590874B (zh
Inventor
房体品
滕隽雅
卢宪凯
杨光远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Liju Robot Technology Co ltd
Original Assignee
Shandong Liju Robot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Liju Robot Technology Co ltd filed Critical Shandong Liju Robot Technology Co ltd
Priority to CN202111139903.4A priority Critical patent/CN113590874B/zh
Publication of CN113590874A publication Critical patent/CN113590874A/zh
Application granted granted Critical
Publication of CN113590874B publication Critical patent/CN113590874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7343Query language or query format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频定位方法及装置、模型训练方法及设备。所述视频定位方法包括:使用多尺度的时间滑动窗口,对待定位视频进行片段划分;对每个视频片段以及查询语句的每个单词进行特征提取;动态获取视频模态与文本模态之间的注意力流;基于所述视频模态与文本模态之间的注意力流,对每个视频片段的特征和每个单词的特征进行更新;动态获取视频模态内的注意力流以及文本模态内的注意力流,对每个视频片段的特征和每个单词特征;计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。本发明不依赖于时间标签,且可以更深入的挖掘模态间交互信息,具有更好的普适性。

Description

一种视频定位方法及装置、模型训练方法及设备
技术领域
本发明实施例涉及视频定位技术领域,尤其涉及一种视频定位方法及装置、模型训练方法及设备。
背景技术
基于自然语言的视频片段定位是计算机视觉的基本问题之一。这项任务的目标是给定一句文本描述的自然语言,从视频中找出对应片段的起止时间。不同于视频检索任务中使用图片或者短视频进行检索的方式,该任务引入自然语言,使用自然语言作为查询索引,这使得检索任务更加的方便、准确。基于自然语言视频片段定位对消防、刑侦、军事与交通等诸多领域的安全侦测工作有着重要的意义。使用这项技术可以实现对视频的目标片段的自动化监测,有效解放人工监测的劳动。
相关的基于自然语言的视频定位方法主要以基于强监督方法为主,涉及多个独立的网络,对计算要求很高,并且需要人为提供大量的视频片段的标注信息,而标注信息存在人为主观偏差且费时费力。
发明内容
本发明提供一种视频定位方法及装置、模型训练方法及设备,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种视频定位方法,该方法包括:
S10:使用多尺度的时间滑动窗口,对待定位视频进行片段划分,得到多个视频片段,其中,相邻的视频片段之间存在设定比例的重叠;
S20:对每个视频片段以及查询语句的每个单词进行特征提取,将得到所述每个视频片段的原始特征R分解为键特征R K 、查询特征R Q 和值特征R V ,将所述每个单词的原始特征E分解为键特征E K 、查询特征E Q 和值特征E V
S30:基于所有视频片段的R K R Q R V ,以及所述查询语句的所有单词的E K E Q E V ,动态获取视频模态与文本模态之间的注意力流,其中,所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重;
S40:基于所述视频模态与文本模态之间的注意力流,利用所有单词的E对每个视频片段的R进行更新,得到所述每个视频片段的第一特征R 1;利用所有视频片段的R对每个单词的E进行更新,得到所述每个单词的第一特征E 1
S50:基于所有视频片段的R K R Q R V ,以及所有单词的E K E Q E V ,动态获取视频模态内的注意力流以及文本模态内的注意力流,其中,所述视频模态内的注意力流包含所有视频片段之间的注意力权重,所述文本模态内的注意力流包含所有单词之间的注意力权重;
S60:基于所述视频模态内的注意力流,利用所有视频片段的R对每个视频片段的R 1进行更新,得到所述每个视频片段的第二特征R 2;基于所述文本模态内的注意力流,利用所有单词的E对每个单词的E 1进行更新,得到所述每个单词的第二特征E 2
S70:基于每个视频片段的R 2与所有单词的E 2,计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。
在一实施例中,所述视频模态与文本模态之间的注意力流包括:从文本模态到视频模态的注意力流
Figure 418804DEST_PATH_IMAGE001
以及从视频模态到文本模态的注意力流
Figure 130409DEST_PATH_IMAGE002
S30包括:通过相同的全连接层将R K R Q R V ,以及E K E Q E V 调整为相同的维度dim,根据公式(1)(2)计算
Figure 684012DEST_PATH_IMAGE003
Figure 822869DEST_PATH_IMAGE004
Figure 343980DEST_PATH_IMAGE005
Figure 593696DEST_PATH_IMAGE006
其中,softmax
Figure 578970DEST_PATH_IMAGE007
表示归一化函数;
S40包括:根据公式(3)(4)对每个视频片段的R以及每个单词的E进行更新,得到所述每个视频片段的第一特征R 1以及所述每个单词的第一特征E 1
Figure 75679DEST_PATH_IMAGE008
Figure 146403DEST_PATH_IMAGE009
其中,
Figure 199810DEST_PATH_IMAGE010
表示对特征ab进行连接;Linear
Figure 977273DEST_PATH_IMAGE011
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(3)中,x=
Figure 457933DEST_PATH_IMAGE012
Figure 560494DEST_PATH_IMAGE013
;在公式(4)中,x=
Figure 355274DEST_PATH_IMAGE014
Figure 49561DEST_PATH_IMAGE015
Figure 389537DEST_PATH_IMAGE016
在一实施例中,S50包括:根据公式(5)(6)计算所述视频模态内的注意力流
Figure 434854DEST_PATH_IMAGE017
以及所述文本模态内的注意力流
Figure 767746DEST_PATH_IMAGE018
Figure 441173DEST_PATH_IMAGE019
Figure 238138DEST_PATH_IMAGE020
S60包括:根据公式(7)(8)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 505171DEST_PATH_IMAGE021
Figure 641755DEST_PATH_IMAGE022
其中,Linear
Figure 45054DEST_PATH_IMAGE023
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(7)中,x=
Figure 303997DEST_PATH_IMAGE024
Figure 245277DEST_PATH_IMAGE025
;在公式(8)中,x=
Figure 982289DEST_PATH_IMAGE026
Figure 443357DEST_PATH_IMAGE027
在一实施例中,S50包括:
S51:根据公式(9)(10),将所有视频片段的R沿视频片段的索引维度,作平均池化,基于池化结果计算从视频模态到文本模态的信息流控制门
Figure 873202DEST_PATH_IMAGE028
;将所有单词的E沿单词的索引维度作平均池化,基于池化结果计算从文本模态到视频模态的信息流控制门
Figure 849248DEST_PATH_IMAGE029
Figure 78366DEST_PATH_IMAGE030
Figure 721837DEST_PATH_IMAGE031
其中,Avg_Pool
Figure 994687DEST_PATH_IMAGE032
表示平均池化;
Figure 723608DEST_PATH_IMAGE033
表示sigmoid激活函数;Linear
Figure 802423DEST_PATH_IMAGE034
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(9)中,x=
Figure 487351DEST_PATH_IMAGE035
Figure 993419DEST_PATH_IMAGE036
;在公式(10)中,x=
Figure 209636DEST_PATH_IMAGE037
Figure 92142DEST_PATH_IMAGE038
S52:根据公式(11)(12)计算所述视频模态内的注意力流
Figure 382309DEST_PATH_IMAGE039
以及所述文本模态内的注意力流
Figure 324857DEST_PATH_IMAGE040
Figure 762791DEST_PATH_IMAGE041
Figure 868894DEST_PATH_IMAGE042
其中,
Figure 341464DEST_PATH_IMAGE043
表示对应位置的元素相乘;
S60包括:根据公式(13)(14)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 189334DEST_PATH_IMAGE044
Figure 52248DEST_PATH_IMAGE045
其中,Linear
Figure 276556DEST_PATH_IMAGE046
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(13)中,x=
Figure 603632DEST_PATH_IMAGE047
Figure 74934DEST_PATH_IMAGE048
;在公式(14)中,x=
Figure 487460DEST_PATH_IMAGE049
Figure 249880DEST_PATH_IMAGE050
在一实施例中,S70包括:
S71:将所有单词的E 2进行拼接,然后沿单词维度进行平均池化,得到所述查询语句的特征E 2,使得所述查询语句的特征E 2与每个单词的E 2维度相同;
S72:将每个视频片段的R 2与所述查询语句的E 2进行点乘,得到融合特征;将所述融合特征经过一个全连接层,得到维度为(M,2)的二分类分数,其中,M表示视频片段的数量,每个视频片段对应一个维度为2的二分类分数,所述二分类分数的一个维度表示预测所述每个视频片段为正例样本的分数,另一个维度表示预测所述每个视频片段为负例样本的分数;
S73:从所有视频片段中选取正例样本的相似度分数最高的视频片段,作为视频定位的结果。
在一实施例中,S20中,对每个视频片段以及查询语句的每个单词进行特征提取,包括以下至少之一:
使用3D卷积神经网络对每个视频片段进行特征提取;
使用自然语言处理模型BERT对每个单词进行特征提取。
第二方面,本发明实施例还提供了一种模型训练方法。该方法包括:
S01:构建训练数据集,所述训练数据集中包括多个视频-语句对;将匹配的视频与查询语句构成的视频-语句对标注为正例样本,将不匹配的视频与查询语句构成的视频-语句对标注为负例样本;
S02:对于每个视频-语句对,将当前视频-语句对包括的待定位视频与查询语句输入如权利要求1-6中任意一项所述的方法对应的视频定位模型中,得到所述待定位视频中的每个视频片段与所述查询语句之间的相似度分数;将所述待定位视频的所有视频片段的相似度分数的总和作为所述待定位视频的预测值,将当前视频-语句对的标注信息作为真实值,计算交叉熵损失函数;
S03:利用所述交叉熵损失函数,对所述视频定位模型中的网络参数进行训练,使得对于同一视频或同一查询语句,匹配的视频和查询语句之间的相似分数高于不匹配的视频和查询语句之间的相似度分数。
第三方面,本发明实施例提供了一种视频定位装置,该装置包括:
视频划分模块,用于使用多尺度的时间滑动窗口,对待定位视频进行片段划分,得到多个视频片段,其中,相邻的视频片段之间存在设定比例的重叠;
特征提取模块,用于对每个视频片段以及查询语句的每个单词进行特征提取,将得到所述每个视频片段的原始特征R分解为键特征R K 、查询特征R Q 和值特征R V ,将所述每个单词的原始特征E分解为键特征E K 、查询特征E Q 和值特征E V
模态间注意力流获取模块,用于基于所有视频片段的R K R Q R V ,以及所述查询语句的所有单词的E K E Q E V ,动态获取视频模态与文本模态之间的注意力流,其中,所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重;
第一特征更新模块,用于基于所述视频模态与文本模态之间的注意力流,利用所有单词的E对每个视频片段的R进行更新,得到所述每个视频片段的第一特征R 1;利用所有视频片段的R对每个单词的E进行更新,得到所述每个单词的第一特征E 1
模态内注意力流获取模块,用于基于所有视频片段的R K R Q R V ,以及所有单词的E K E Q E V ,动态获取视频模态内的注意力流以及文本模态内的注意力流,其中,所述视频模态内的注意力流包含所有视频片段之间的注意力权重,所述文本模态内的注意力流包含所有单词之间的注意力权重;
第二特征更新模块,用于基于所述视频模态内的注意力流,利用所有视频片段的R对每个视频片段的R 1进行更新,得到所述每个视频片段的第二特征R 2;基于所述文本模态内的注意力流,利用所有单词的E对每个单词的E 1进行更新,得到所述每个单词的第二特征E 2
相似度计算及定位模块,用于基于每个视频片段的R 2与所有单词的E 2,计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。
第四方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述的视频定位方法,或实现上述实施例所述的模型训练方法。
本发明具有如下有益效果:
1.本发明实施例实现了基于弱监督网络的视频定位方法,强监督的网络中需要对与查询语句相匹配的视频片段的起止时间进行标注,且强监督网络往往针对于特定的任务及数据类型设计相互独立的网络,因而不具有普适性;而本发明实施例的弱监督网络提供查询语句是否与当前待查询视频相匹配的标签信息,不依赖于时间标签,具有更好的普适性;
2. 本发明实施例基于模态内注意力流和模态间注意力流的动态融合模式,实现了视频定位中的信息融合。不同于简单的相乘相加等融合模式,本申请实施例一方面使用共同注意力模型学习视觉模态和语言模态的模态间注意力流,另一方面在视觉模态和语言模态内部,分别使用自注意力模型产生模态内自注意力流;然后从视频及片段中聚合两者的模态间注意力权重信息,将模态间注意力流传给模内交互模块,用于捕捉复杂的模内关系,调节模态内注意力权重,从而实现视觉模态特征和语言模态特征的更新,实现了视觉模态和语言模态之间交替传递动态信息;
3. 本发明实施例通过对待分类视频中的多个视频片段的相似度分数进行求和,来获取待分类视频的相似度分数,并将模型训练的监督条件设置为:匹配的视频与语句对的相似分数更高,不匹配的视频与语句对的相似分数更低,从而实现了基于相似度分数的弱监督训练,监督条件设置简便,且充分利用了视频片段的标注信息;
4. 本发明实施例在视频片段划分的过程中,使用了多尺度的片段,并设置了一定比例的重叠,由于真实标注的时间片段的长度不是固定的,因此,这一片段设置方法与传统的等分划分方式相比,可以最大程度保证了划分得到的片段包含真实标注的时间片段。
附图说明
图1是本发明实施例提供的一种视频定位方法的流程图。
图2是本发明实施例提供的一种模型训练方法的流程图。
图3为本发明实施例提供的一种视频定位模型的网络示意图。
图4为本发明实施例提供的一种视频定位装置的结构示意图。
图5为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提出一种视频定位方法。图1是本发明实施例提供的一种视频定位方法的流程图。如图1所示,该方法包括S10-S70。
S10:使用多尺度的时间滑动窗口,对待定位视频进行片段划分,得到多个视频片段,其中,相邻的视频片段之间存在设定比例的重叠。
可选地,在视频片段的划分中使用了多尺度的时间滑动窗口,时间滑动窗口的长度分别为[64,128,256,512]帧;且相邻视频片段之间保持80%的重叠。以尺寸为64帧的滑动窗口为例,划分的第一个视频片段从第1帧开始到第64帧结束,第二个视频片段从12.8帧开始到75.8帧结束,以此类推。这样可以保证相邻视频片段之间的重叠达到80%。需要说明的是,取帧数时统一向上处理,即把第12.8帧当作第13帧。不同于传统的等分划分,引入多尺度的时间窗口和设定比例的重叠,可以最大程度保证了所划分的视频片段中包含了真实的标准片段。
S20:对每个视频片段以及查询语句的每个单词进行特征提取,将得到所述每个视频片段的原始特征R分解为键特征R K 、查询特征R Q 和值特征R V ,将所述每个单词的原始特征E分解为键特征E K 、查询特征E Q 和值特征E V
S30:基于所有视频片段的R K R Q R V ,以及所述查询语句的所有单词的E K E Q E V ,动态获取视频模态与文本模态之间的注意力流,其中,所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重。
S40:基于所述视频模态与文本模态之间的注意力流,利用所有单词的E对每个视频片段的R进行更新,得到所述每个视频片段的第一特征R 1;利用所有视频片段的R对每个单词的E进行更新,得到所述每个单词的第一特征E 1
S50:基于所有视频片段的R K R Q R V ,以及所有单词的E K E Q E V ,动态获取视频模态内的注意力流以及文本模态内的注意力流,其中,所述视频模态内的注意力流包含所有视频片段之间的注意力权重,所述文本模态内的注意力流包含所有单词之间的注意力权重。
S60:基于所述视频模态内的注意力流,利用所有视频片段的R对每个视频片段的R 1进行更新,得到所述每个视频片段的第二特征R 2;基于所述文本模态内的注意力流,利用所有单词的E对每个单词的E 1进行更新,得到所述每个单词的第二特征E 2
可选地,通过S30-S60动态融合模态内的注意力流和模态间的注意力流,来获取视频模态内的有效信息流、文本模态内的有效信息流以及视频模态与文本模态之间的有效信息流,能够有力地捕捉语言领域和视觉领域之间的高层交互信息。
S70:基于每个视频片段的R 2与所有单词的E 2,计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。
在一实施例中,S20中,对每个视频片段以及查询语句的每个单词进行特征提取,包括以下至少之一:使用3D卷积神经网络对每个视频片段进行特征提取;使用自然语言处理模型BERT对每个单词进行特征提取。
鉴于视频数目庞大,处理起来非常浪费时间,因此一般从提取好的视频特征开始进行处理。可选地,使用3D卷积神经网络(3D CNN)提取视频片段的特征。3D CNN将图像处理领域的2D卷积与池化操作扩展到3D空间,利用3D卷积核对连续视频帧进行时间维度和空间维度的卷积操作,以实现对视频的时空特征的建模,得到视频片段的原始特征R。
可选地,以常用的数据集ActivityNet为例,提取的视频的特征的维度为(N,500),其中N表示视频的总帧数,每个视频帧的特征的维度为500。可以使用PCA降维技术将原本的视频特征向量的高维度降维到固定维度500。
可选地,对于查询语句,使用自然语言处理模型——双向全自注意力变换网络的编码器(Bidirectional Encoder Representations from Transformers,简称为“BERT”)来提取单词的特征,得到单词的原始特征E。BERT提取的特征的维度为固定值768。
可选地,BERT提取特征时可以直接提取一整句的特征,特征尺寸为768;也可以提取每个单词的特征,将所有单词的特征拼接为查询语句的特征,则查询语句的特征的维度为(M,768),其中M表示查询语句包括的单词的数量,每个单词的特征的维度为768。
在一实施例中,所述视频模态与文本模态之间的注意力流包括:从文本模态到视频模态的注意力流
Figure 369146DEST_PATH_IMAGE051
以及从视频模态到文本模态的注意力流
Figure 824398DEST_PATH_IMAGE052
可选地,模态间的注意流用于表征每一对视频片段和查询语句的单词之间的原始注意权重。相应地,S30包括:通过相同的全连接层将R K R Q R V ,以及E K E Q E V 调整为相同的维度dim,根据公式(1)(2)计算
Figure 724221DEST_PATH_IMAGE053
Figure 978747DEST_PATH_IMAGE054
Figure 14836DEST_PATH_IMAGE055
Figure 640989DEST_PATH_IMAGE056
其中,softmax
Figure 28108DEST_PATH_IMAGE057
表示归一化函数。
可选地,通过公式(1)(2)计算每一对视频片段和单词之间的原始注意权重,并将注意力权重转换为视频片段的R K R Q R V ,以及单词的E K E Q E V 的表达式。使用相同的全连接层,将两模态特征投影到同一空间,保证两模态具有相同的尺寸。通过计算每一对视频片段的特征R Q 和单词的关键特征E K 之间的内积,获得了从单词特征到每个视频片段特征的信息聚合的原始注意权重。通过计算每个单词的特征E Q 和视频片段的关键特征R K 之间的内积,获得了从视频片段特征到每个单词特征的信息聚合的原始注意权重。
可选地,两个双向InterMAF矩阵捕捉每个视频片段和单词对之间的注意力权重。以
Figure 70014DEST_PATH_IMAGE058
为例,每行表示一个视频片段和所有单词嵌入之间的注意力权重。从所有单词嵌入到特定片段特征的信息可以聚合为所有单词的值特征E V 的加权求和。
相应地,S40包括:根据公式(3)(4)对每个视频片段的R以及每个单词的E进行更新,得到所述每个视频片段的第一特征R 1以及所述每个单词的第一特征E 1
Figure 226189DEST_PATH_IMAGE059
Figure 23243DEST_PATH_IMAGE060
其中,
Figure 819030DEST_PATH_IMAGE061
表示对特征ab进行连接;Linear
Figure 992522DEST_PATH_IMAGE062
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(3)中,x=
Figure 3204DEST_PATH_IMAGE063
Figure 908843DEST_PATH_IMAGE064
;在公式(4)中,x=
Figure 4975DEST_PATH_IMAGE065
Figure 450999DEST_PATH_IMAGE066
Figure 267252DEST_PATH_IMAGE067
可选地,将注意力流
Figure 406110DEST_PATH_IMAGE068
Figure 989538DEST_PATH_IMAGE069
用于更新视频片段的value表示R V 及单词的value表示E V 。在获得更新的视频片段特征和更新的单词特征后,将它们与原始的视频片段特征R和原始的单词特征E沿某一维度直接拼接,形成新的嵌入特征。同时,模态间注意力信息是动态变化的,且是有方向的。
在一实施例中,S50包括:根据公式(5)(6)计算所述视频模态内的注意力流
Figure 239254DEST_PATH_IMAGE070
以及所述文本模态内的注意力流
Figure 162210DEST_PATH_IMAGE071
Figure 471969DEST_PATH_IMAGE072
Figure 542693DEST_PATH_IMAGE073
相应地,S60包括:根据公式(7)(8)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 783050DEST_PATH_IMAGE074
Figure 622830DEST_PATH_IMAGE075
其中,Linear
Figure 103490DEST_PATH_IMAGE076
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(7)中,x=
Figure 333614DEST_PATH_IMAGE077
Figure 190712DEST_PATH_IMAGE078
;在公式(8)中,x=
Figure 884999DEST_PATH_IMAGE079
Figure 224975DEST_PATH_IMAGE080
可选地,模态内的注意力流关注的是模态内部的自我更新。在IntraMAF中,可以只利用模块内的信息来估计视频片段之间的关系以及单词与单词之间的关系。
在一实施例中,S50包括:S51和S52。
S51:根据公式(9)(10),将所有视频片段的R沿视频片段的索引维度作平均池化,基于池化结果计算从视频模态到文本模态的信息流控制门
Figure 270292DEST_PATH_IMAGE081
;将所有单词的E沿单词的索引维度作平均池化,基于池化结果计算从文本模态到视频模态的信息流控制门
Figure 665501DEST_PATH_IMAGE082
Figure 214294DEST_PATH_IMAGE083
Figure 240019DEST_PATH_IMAGE084
其中,Avg_Pool
Figure 507052DEST_PATH_IMAGE085
表示平均池化;
Figure 440373DEST_PATH_IMAGE086
表示sigmoid激活函数;Linear
Figure 296202DEST_PATH_IMAGE087
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(9)中,x=
Figure 555145DEST_PATH_IMAGE088
Figure 43896DEST_PATH_IMAGE089
;在公式(10)中,x=
Figure 984170DEST_PATH_IMAGE090
Figure 507555DEST_PATH_IMAGE091
可选地,在IntraMAF的计算中,可以只利用模块内的信息来估计视频片段之间的关系以及单词与单词之间的关系。但有些关系需要通过其他模态的指导才能获得。因此,在本实施例中,根据公式(9)(10),将视频片段特征沿视频片段的索引维度作平均池化,即平均将视频片段特征沿视频片段的索引维度集合起来平均,同时,将单词特征沿单词的索引维度作平均池化,即将单词特征沿单词的索引维度集合起来平均,作为IntraMAF的计算的信息控制门,来控制注意流。
根据公式(11)(12)计算所述视频模态内的注意力流
Figure 671820DEST_PATH_IMAGE092
以及所述文本模态内的注意力流
Figure 598931DEST_PATH_IMAGE093
Figure 139634DEST_PATH_IMAGE094
Figure 517526DEST_PATH_IMAGE095
其中,
Figure 55955DEST_PATH_IMAGE096
表示对应位置的元素相乘。
在本实施例中,IntraMAF被更新为DyIntraMAF
相应地,S60包括:根据公式(13)(14)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 519297DEST_PATH_IMAGE097
Figure 863691DEST_PATH_IMAGE098
其中,Linear
Figure 361668DEST_PATH_IMAGE099
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(13)中,x=
Figure 54686DEST_PATH_IMAGE100
Figure 270904DEST_PATH_IMAGE101
;在公式(14)中,x=
Figure 153409DEST_PATH_IMAGE102
Figure 443577DEST_PATH_IMAGE103
在一实施例中,S70包括:S71-S73。
S71:将所有单词的E 2进行拼接,然后沿单词维度进行平均池化,得到所述查询语句的特征E 2,使得所述查询语句的特征E 2与每个单词的E 2维度相同。
S72:将每个视频片段的 R 2与所述查询语句的 E 2进行点乘,得到融合特征;将所述融合特征经过一个全连接层,得到维度为(M,2)的二分类分数,其中,M表示视频片段的数量,每个视频片段对应一个维度为2的二分类分数,所述二分类分数的一个维度表示预测所述每个视频片段为正例样本的分数,另一个维度表示预测所述每个视频片段为负例样本的分数。
可选地,将上述过程中获得的最终的视频片段的特征R 2及最终的查询语句的特征E 2进行点乘,得到的融合特征经过全连接层转化为二分类问题。这里的点乘是为了得到融合特征,经过全连接层调整维度后得到尺寸为(片段数,2)的二分类分数。
S73:从所有视频片段中选取正例样本的相似度分数最高的视频片段,作为视频定位的结果。
本发明实施例具有如下有益效果:
1.本发明实施例实现了基于弱监督网络的视频定位方法,强监督的网络中需要对与查询语句相匹配的视频片段的起止时间进行标注,且强监督网络往往针对于特定的任务及数据类型设计相互独立的网络,因而不具有普适性;而本发明实施例的弱监督网络提供查询语句是否与当前待查询视频相匹配的标签信息,不依赖于时间标签,具有更好的普适性;
2. 本发明实施例基于模态内注意力流和模态间注意力流的动态融合模式,实现了视频定位中的信息融合。不同于简单的相乘相加等融合模式,本申请实施例一方面使用共同注意力模型学习视觉模态和语言模态的模态间注意力流,另一方面在视觉模态和语言模态内部,分别使用自注意力模型产生模态内自注意力流;然后从视频及片段中聚合两者的模态间注意力权重信息,将模态间注意力流传给模内交互模块,用于捕捉复杂的模内关系,调节模态内注意力权重,从而实现视觉模态特征和语言模态特征的更新,实现了视觉模态和语言模态之间交替传递动态信息;
3. 本发明实施例通过对待分类视频中的多个视频片段的相似度分数进行求和,来获取待分类视频的相似度分数,并将模型训练的监督条件设置为:匹配的视频与语句对的相似分数更高,不匹配的视频与语句对的相似分数更低,从而实现了基于相似度分数的弱监督训练,监督条件设置简便,且充分利用了视频片段的标注信息;
4. 本发明实施例在视频片段划分的过程中,使用了多尺度的片段,并设置了一定比例的重叠,由于真实标注的时间片段的长度不是固定的,因此,这一片段设置方法与传统的等分划分方式相比,可以最大程度保证了划分得到的片段包含真实标注的时间片段。
实施例二
本实施例提供一种模型训练方法,用于对实施例一所述的视频定位方法所构成的视频定位模型进行训练。图2是本发明实施例提供的一种模型训练方法的流程图。如图2所示,该方法包括S01-S03。
S01:构建训练数据集,所述训练数据集中包括多个视频-语句对;将匹配的视频与查询语句构成的视频-语句对标注为正例样本,将不匹配的视频与查询语句构成的视频-语句对标注为负例样本。
可选地,对于一个待查询视频,如果提供的自然语言查询语句与该视频是不匹配的,则认为对应的视频-语句对为负例样本;如果提供的自然语言查询语句与该视频是匹配的,则认为对应的视频-语句对为正例样本。
可选地,训练过程中,正例样本和负例样本以1:1的比例打乱训练。
S02:对于每个视频-语句对,将当前视频-语句对包括的待定位视频与查询语句输入实施例一中任意一项视频定位方法对应的视频定位模型中,得到所述待定位视频中的每个视频片段与所述查询语句之间的相似度分数;将所述待定位视频的所有视频片段的相似度分数的总和作为所述待定位视频的预测值,将当前视频-语句对的标注信息作为真实值,计算交叉熵损失函数。
可选地,在训练过程中使用交叉熵损失函数,将视频包括的视频片段的相似度分数总和作为预测值,已知的视频-语句对是否匹配作为标签信息。训练过程中,保证匹配的视频和查询语句对的相似分数更高,不匹配的视频和查询语句对的相似分数更低。
S03:利用所述交叉熵损失函数,对所述视频定位模型中的网络参数进行训练,使得对于同一视频或同一查询语句,匹配的视频和查询语句之间的相似分数高于不匹配的视频和查询语句之间的相似度分数。
可选地,所述网络参数包括:所有全连接层Linear
Figure 120546DEST_PATH_IMAGE104
中的参数
Figure 558480DEST_PATH_IMAGE105
,包括:
Figure 933092DEST_PATH_IMAGE106
可选地,3DCNN和BERT都属于预训练过程,不参与网络的迭代训练。这里的“训练过程”是指两者得到的特征进入网络后有参数需要训练。
图3为本发明实施例提供的一种视频定位模型的网络示意图。不仅显示了实施例一中的视频定位方法对应的视频定位模型,还显示了利用实施例2中的训练方法对视频定位模型进行训练的过程。
如图3所示,第一阶段:利用视频定位模型对视频片段与查询语句的匹配性进行预测。首先,利用3D CNN对视频进行特征提取,得到视频片段特征;利用BERT对查询语句进行特征提取,得到单词特征。然后,通过模态间注意流和模态内注意流实现视频片段特征与单词特征之间的信息融合,分别得到维度为N*d的视频特征和维度1*d的句子特征(即语句特征),其中,N表示视频片段的数量。接着,将1*d的视频片段特征分别与句子特征作点积,再通过FC和softmax操作,得到N*2的匹配分数(即相似度分数),其中,匹配分数的一个维度表示预测该视频片段为正例样本的分数,另一个维度表示预测该视频片段为负例样本的分数。可选地,两个分数的和为1。最后,将N个视频片段的匹配分数沿视频片段的维度相加,得到整个视频与查询语句之间的匹配分数(维度为1*2)。
第二阶段:利用预测结果反向对视频定位模型进行训练。以视频级标签作为真实标注,通过交叉熵损失函数,对视频定位模型中的网络参数进行训练,所使用的约束条件为:对于同一视频或同一查询语句,匹配的视频和查询语句之间的相似分数高于不匹配的视频和查询语句之间的相似度分数。
本发明实施例具有如下有益效果:
1.本发明实施例实现了基于弱监督网络的视频定位方法,强监督的网络中需要对与查询语句相匹配的视频片段的起止时间进行标注,且强监督网络往往针对于特定的任务及数据类型设计相互独立的网络,因而不具有普适性;而本发明实施例的弱监督网络提供查询语句是否与当前待查询视频相匹配的标签信息,不依赖于时间标签,具有更好的普适性;
2. 本发明实施例基于模态内注意力流和模态间注意力流的动态融合模式,实现了视频定位中的信息融合。不同于简单的相乘相加等融合模式,本申请实施例一方面使用共同注意力模型学习视觉模态和语言模态的模态间注意力流,另一方面在视觉模态和语言模态内部,分别使用自注意力模型产生模态内自注意力流;然后从视频及片段中聚合两者的模态间注意力权重信息,将模态间注意力流传给模内交互模块,用于捕捉复杂的模内关系,调节模态内注意力权重,从而实现视觉模态特征和语言模态特征的更新,实现了视觉模态和语言模态之间交替传递动态信息;
3. 本发明实施例通过对待分类视频中的多个视频片段的相似度分数进行求和,来获取待分类视频的相似度分数,并将模型训练的监督条件设置为:匹配的视频与语句对的相似分数更高,不匹配的视频与语句对的相似分数更低,从而实现了基于相似度分数的弱监督训练,监督条件设置简便,且充分利用了视频片段的标注信息;
4. 本发明实施例在视频片段划分的过程中,使用了多尺度的片段,并设置了一定比例的重叠,由于真实标注的时间片段的长度不是固定的,因此,这一片段设置方法与传统的等分划分方式相比,可以最大程度保证了划分得到的片段包含真实标注的时间片段。
实施例三
图4为本发明实施例提供的一种视频定位装置的结构示意图。该装置用于实现实施例一提供的视频定位方法,包括:视频划分模块410、特征提取模块420、模态间注意力流获取模块430、第一特征更新模块440、模态内注意力流获取模块450、第二特征更新模块460和相似度计算及定位模块470。
视频划分模块410用于使用多尺度的时间滑动窗口,对待定位视频进行片段划分,得到多个视频片段,其中,相邻的视频片段之间存在设定比例的重叠。
特征提取模块420用于对每个视频片段以及查询语句的每个单词进行特征提取,将得到所述每个视频片段的原始特征R分解为键特征R K 、查询特征R Q 和值特征R V ,将所述每个单词的原始特征E分解为键特征E K 、查询特征E Q 和值特征E V
模态间注意力流获取模块430用于基于所有视频片段的R K R Q R V ,以及所述查询语句的所有单词的E K E Q E V ,动态获取视频模态与文本模态之间的注意力流,其中,所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重。
第一特征更新模块440用于基于所述视频模态与文本模态之间的注意力流,利用所有单词的E对每个视频片段的R进行更新,得到所述每个视频片段的第一特征R 1;利用所有视频片段的R对每个单词的E进行更新,得到所述每个单词的第一特征E 1
模态内注意力流获取模块450用于基于所有视频片段的R K R Q R V ,以及所有单词的E K E Q E V ,动态获取视频模态内的注意力流以及文本模态内的注意力流,其中,所述视频模态内的注意力流包含所有视频片段之间的注意力权重,所述文本模态内的注意力流包含所有单词之间的注意力权重。
第二特征更新模块460用于基于所述视频模态内的注意力流,利用所有视频片段的R对每个视频片段的R 1进行更新,得到所述每个视频片段的第二特征R 2;基于所述文本模态内的注意力流,利用所有单词的E对每个单词的E 1进行更新,得到所述每个单词的第二特征E 2
相似度计算及定位模块470,用于基于每个视频片段的R 2与所有单词的E 2,计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。
在一实施例中,所述视频模态与文本模态之间的注意力流包括:从文本模态到视频模态的注意力流
Figure 140082DEST_PATH_IMAGE107
以及从视频模态到文本模态的注意力流
Figure 253532DEST_PATH_IMAGE108
模态间注意力流获取模块430是用于通过相同的全连接层将R K R Q R V ,以及E K E Q E V 调整为相同的维度dim,根据公式(1)(2)计算
Figure 116446DEST_PATH_IMAGE109
Figure 340754DEST_PATH_IMAGE110
Figure 667830DEST_PATH_IMAGE111
Figure 139131DEST_PATH_IMAGE112
其中,softmax
Figure 286079DEST_PATH_IMAGE113
表示归一化函数;
第一特征更新模块440是用于根据公式(3)(4)对每个视频片段的R以及每个单词的E进行更新,得到所述每个视频片段的第一特征R 1以及所述每个单词的第一特征E 1
Figure 314078DEST_PATH_IMAGE114
Figure 433343DEST_PATH_IMAGE115
其中,
Figure 888595DEST_PATH_IMAGE116
表示对特征ab进行连接;Linear
Figure 788418DEST_PATH_IMAGE117
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(3)中,x=
Figure 40015DEST_PATH_IMAGE118
Figure 76104DEST_PATH_IMAGE119
;在公式(4)中,x=
Figure 702257DEST_PATH_IMAGE120
Figure 761480DEST_PATH_IMAGE121
Figure 131282DEST_PATH_IMAGE122
在一实施例中,模态内注意力流获取模块450是用于根据公式(5)(6)计算所述视频模态内的注意力流
Figure 287456DEST_PATH_IMAGE123
以及所述文本模态内的注意力流
Figure 271462DEST_PATH_IMAGE124
Figure 880298DEST_PATH_IMAGE019
Figure 788211DEST_PATH_IMAGE125
第二特征更新模块460是用于根据公式(7)(8)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 736575DEST_PATH_IMAGE126
(7)
Figure 704531DEST_PATH_IMAGE127
其中,Linear
Figure 800663DEST_PATH_IMAGE128
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(7)中,x=
Figure 200683DEST_PATH_IMAGE129
Figure 331450DEST_PATH_IMAGE130
;在公式(8)中,x=
Figure 470307DEST_PATH_IMAGE131
Figure 725839DEST_PATH_IMAGE132
在一实施例中,模态内注意力流获取模块450是用于:
根据公式(9)(10),将所有视频片段的R沿视频片段的索引维度作平均池化,基于池化结果计算从视频模态到文本模态的信息流控制门
Figure 241134DEST_PATH_IMAGE133
;将所有单词的E沿单词的索引维度作平均池化,基于池化结果计算从文本模态到视频模态的信息流控制门
Figure 226408DEST_PATH_IMAGE134
Figure 723117DEST_PATH_IMAGE135
Figure 528262DEST_PATH_IMAGE136
其中,Avg_Pool
Figure 581669DEST_PATH_IMAGE137
表示平均池化;
Figure 359132DEST_PATH_IMAGE138
表示sigmoid激活函数;Linear
Figure 839792DEST_PATH_IMAGE139
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(9)中,x=
Figure 397812DEST_PATH_IMAGE140
Figure 674816DEST_PATH_IMAGE141
;在公式(10)中,x=
Figure 634682DEST_PATH_IMAGE142
Figure 286243DEST_PATH_IMAGE143
S52:根据公式(11)(12)计算所述视频模态内的注意力流
Figure 3663DEST_PATH_IMAGE144
以及所述文本模态内的注意力流
Figure 398873DEST_PATH_IMAGE145
Figure 213245DEST_PATH_IMAGE146
Figure 35707DEST_PATH_IMAGE147
其中,
Figure 489691DEST_PATH_IMAGE148
表示对应位置的元素相乘;
第二特征更新模块460是用于根据公式(13)(14)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 688591DEST_PATH_IMAGE149
Figure 357470DEST_PATH_IMAGE150
其中,Linear
Figure 101566DEST_PATH_IMAGE151
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(13)中,x=
Figure 793579DEST_PATH_IMAGE152
Figure 796170DEST_PATH_IMAGE153
;在公式(14)中,x=
Figure 319555DEST_PATH_IMAGE154
Figure 169306DEST_PATH_IMAGE155
在一实施实例中,相似度计算及定位模块470是用于:
将所有单词的E 2进行拼接,然后沿单词维度进行平均池化,得到所述查询语句的特征E 2,使得所述查询语句的特征E 2与每个单词的E 2维度相同;
将每个视频片段的R 2与所述查询语句的E 2进行点乘,得到融合特征;将所述融合特征经过一个全连接层,得到维度为(M,2)的二分类分数,其中,M表示视频片段的数量,每个视频片段对应一个维度为2的二分类分数,所述二分类分数的一个维度为正例样本的相似度分数,另一个维度为负例样本的相似度分数;
从所有视频片段中选取正例样本的相似度分数最高的视频片段,作为视频定位的结果。
在一实施例中,特征提取模块420是用于通过如下方式中的至少之一对每个视频片段以及查询语句的每个单词进行特征提取:
使用3D卷积神经网络对每个视频片段进行特征提取;
使用自然语言处理模型BERT对每个单词进行特征提取。
本发明实施例具有如下有益效果:
1.本发明实施例实现了基于弱监督网络的视频定位方法,强监督的网络中需要对与查询语句相匹配的视频片段的起止时间进行标注,且强监督网络往往针对于特定的任务及数据类型设计相互独立的网络,因而不具有普适性;而本发明实施例的弱监督网络提供查询语句是否与当前待查询视频相匹配的标签信息,不依赖于时间标签,具有更好的普适性;
2. 本发明实施例基于模态内注意力流和模态间注意力流的动态融合模式,实现了视频定位中的信息融合。不同于简单的相乘相加等融合模式,本申请实施例一方面使用共同注意力模型学习视觉模态和语言模态的模态间注意力流,另一方面在视觉模态和语言模态内部,分别使用自注意力模型产生模态内自注意力流;然后从视频及片段中聚合两者的模态间注意力权重信息,将模态间注意力流传给模内交互模块,用于捕捉复杂的模内关系,调节模态内注意力权重,从而实现视觉模态特征和语言模态特征的更新,实现了视觉模态和语言模态之间交替传递动态信息;
3. 本发明实施例通过对待分类视频中的多个视频片段的相似度分数进行求和,来获取待分类视频的相似度分数,并将模型训练的监督条件设置为:匹配的视频与语句对的相似分数更高,不匹配的视频与语句对的相似分数更低,从而实现了基于相似度分数的弱监督训练,监督条件设置简便,且充分利用了视频片段的标注信息;
4. 本发明实施例在视频片段划分的过程中,使用了多尺度的片段,并设置了一定比例的重叠,由于真实标注的时间片段的长度不是固定的,因此,这一片段设置方法与传统的等分划分方式相比,可以最大程度保证了划分得到的片段包含真实标注的时间片段。
实施例四
图5为本发明实施例提供的一种计算机设备的结构示意图。如图5所示,该设备包括处理器510和存储器520。处理器510的数量可以是一个或多个,图5中以一个处理器510为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例一所述的视频定位方法的程序指令/模块,或实施例二所述的模型训练方法的程序指令/模块。
相应地,处理器510通过运行存储在存储器520中的软件程序、指令以及模块,实现本发明实施例一所述的视频定位方法,或实施例二所述的模型训练方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种视频定位方法,其特征在于,包括:
S10:使用多尺度的时间滑动窗口,对待定位视频进行片段划分,得到多个视频片段,其中,相邻的视频片段之间存在设定比例的重叠;
S20:对每个视频片段以及查询语句的每个单词进行特征提取,将得到所述每个视频片段的原始特征R分解为键特征R K 查询特征R Q 和值特征R V ,将所述每个单词的原始特征E分解为键特征E K 、查询特征E Q 和值特征E V
S30:基于所有视频片段的R K R Q R V ,以及所述查询语句的所有单词的E K E Q E V ,动态获取视频模态与文本模态之间的注意力流,其中,所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重;
S40:基于所述视频模态与文本模态之间的注意力流,利用所有单词的E对每个视频片段的R进行更新,得到所述每个视频片段的第一特征R 1;利用所有视频片段的R对每个单词的E进行更新,得到所述每个单词的第一特征E 1
S50:基于所有视频片段的R K R Q R V ,以及所有单词的E K E Q E V ,动态获取视频模态内的注意力流以及文本模态内的注意力流,其中,所述视频模态内的注意力流包含所有视频片段之间的注意力权重,所述文本模态内的注意力流包含所有单词之间的注意力权重;
S60:基于所述视频模态内的注意力流,利用所有视频片段的R对每个视频片段的R 1进行更新,得到所述每个视频片段的第二特征R 2;基于所述文本模态内的注意力流,利用所有单词的E对每个单词的E 1进行更新,得到所述每个单词的第二特征E 2
S70:基于每个视频片段的R 2与所有单词的E 2,计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。
2.如权利要求1所述的视频定位方法,其特征在于,所述视频模态与文本模态之间的注意力流包括:从文本模态到视频模态的注意力流
Figure 569287DEST_PATH_IMAGE001
以及从视频模态到文本模态的注意力流
Figure 486427DEST_PATH_IMAGE002
S30包括:通过相同的全连接层将R K R Q R V ,以及E K E Q E V 调整为相同的维度dim,根据公式(1)(2)计算
Figure 266164DEST_PATH_IMAGE001
Figure 599056DEST_PATH_IMAGE002
Figure 413429DEST_PATH_IMAGE003
Figure 235891DEST_PATH_IMAGE004
其中,softmax
Figure 689875DEST_PATH_IMAGE005
表示归一化函数;
S40包括:根据公式(3)(4)对每个视频片段的R以及每个单词的E进行更新,得到所述每个视频片段的第一特征R 1以及所述每个单词的第一特征E 1
Figure 888775DEST_PATH_IMAGE006
Figure 557654DEST_PATH_IMAGE007
其中,
Figure 488701DEST_PATH_IMAGE008
表示对特征ab进行连接;Linear
Figure 243030DEST_PATH_IMAGE009
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(3)中,
Figure 980042DEST_PATH_IMAGE010
Figure 191843DEST_PATH_IMAGE011
;在公式(4)中,x=
Figure 621687DEST_PATH_IMAGE012
Figure 863313DEST_PATH_IMAGE013
Figure 76119DEST_PATH_IMAGE014
3.如权利要求2所述的视频定位方法,其特征在于,
S50包括:根据公式(5)(6)计算所述视频模态内的注意力流
Figure 719590DEST_PATH_IMAGE015
以及所述文本模态内的注意力流
Figure 54757DEST_PATH_IMAGE016
Figure 783678DEST_PATH_IMAGE017
Figure 49443DEST_PATH_IMAGE018
S60包括:根据公式(7)(8)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 547421DEST_PATH_IMAGE019
Figure 319068DEST_PATH_IMAGE020
其中,Linear
Figure 207389DEST_PATH_IMAGE021
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(7)中,x=
Figure 89895DEST_PATH_IMAGE022
Figure 442379DEST_PATH_IMAGE023
;在公式(8)中,x=
Figure 93850DEST_PATH_IMAGE024
Figure 531785DEST_PATH_IMAGE025
4.如权利要求2所述的视频定位方法,其特征在于,S50包括:
S51:根据公式(9)(10),将所有视频片段的R沿视频片段的索引维度作平均池化,基于池化结果计算从视频模态到文本模态的信息流控制门
Figure 952402DEST_PATH_IMAGE026
;将所有单词的E沿单词的索引维度作平均池化,基于池化结果计算从文本模态到视频模态的信息流控制门
Figure 362655DEST_PATH_IMAGE027
Figure 476104DEST_PATH_IMAGE028
Figure 401335DEST_PATH_IMAGE029
其中,Avg_Pool
Figure 812593DEST_PATH_IMAGE030
表示平均池化;
Figure 874090DEST_PATH_IMAGE031
表示sigmoid激活函数;Linear
Figure 158441DEST_PATH_IMAGE032
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(9)中,x=
Figure 570968DEST_PATH_IMAGE033
Figure 536650DEST_PATH_IMAGE034
;在公式(10)中,x=
Figure 718233DEST_PATH_IMAGE035
Figure 596321DEST_PATH_IMAGE036
S52:根据公式(11)(12)计算所述视频模态内的注意力流
Figure 496144DEST_PATH_IMAGE037
以及所述文本模态内的注意力流
Figure 62254DEST_PATH_IMAGE038
Figure 301606DEST_PATH_IMAGE039
Figure 662180DEST_PATH_IMAGE040
其中,
Figure 49299DEST_PATH_IMAGE041
表示对应位置的元素相乘;
S60包括:根据公式(13)(14)对每个视频片段的R 1和每个单词的E 1进行更新,得到所述每个视频片段的R 2以及所述每个单词的E 2
Figure 419101DEST_PATH_IMAGE042
Figure 496647DEST_PATH_IMAGE043
其中,Linear
Figure 293702DEST_PATH_IMAGE032
表示利用全连接层对x进行处理,所述全连接层基于训练好的网络参数θ;在公式(13)中,x=
Figure 902537DEST_PATH_IMAGE044
Figure 13713DEST_PATH_IMAGE045
;在公式(14)中,x=
Figure 24394DEST_PATH_IMAGE046
Figure 992350DEST_PATH_IMAGE047
5.如权利要求1所述的视频定位方法,其特征在于,S70包括:
S71:将所有单词的E 2进行拼接,然后沿单词维度进行平均池化,得到所述查询语句的特征E 2,使得所述查询语句的特征E 2与每个单词的E 2维度相同;
S72:将每个视频片段的R 2与所述查询语句的E 2进行点乘,得到融合特征;将所述融合特征经过一个全连接层,得到维度为(M,2)的二分类分数,其中,M表示视频片段的数量,每个视频片段对应一个维度为2的二分类分数,所述二分类分数的一个维度表示预测所述每个视频片段为正例样本的分数,另一个维度表示预测所述每个视频片段为负例样本的分数;
S73:从所有视频片段中选取正例样本的相似度分数最高的视频片段,作为视频定位的结果。
6.如权利要求1所述的视频定位方法,其特征在于,S20中,对每个视频片段以及查询语句的每个单词进行特征提取,包括以下至少之一:
使用3D卷积神经网络对每个视频片段进行特征提取;
使用自然语言处理模型BERT对每个单词进行特征提取。
7.一种模型训练方法,其特征在于,包括:
S01:构建训练数据集,所述训练数据集中包括多个视频-语句对;将匹配的视频与查询语句构成的视频-语句对标注为正例样本,将不匹配的视频与查询语句构成的视频-语句对标注为负例样本;
S02:对于每个视频-语句对,将当前视频-语句对包括的待定位视频与查询语句输入如权利要求1-6中任意一项所述的方法对应的视频定位模型中,得到所述待定位视频中的每个视频片段与所述查询语句之间的相似度分数;将所述待定位视频的所有视频片段的相似度分数的总和作为所述待定位视频的预测值,将当前视频-语句对的标注信息作为真实值,计算交叉熵损失函数;
S03:利用所述交叉熵损失函数,对所述视频定位模型中的网络参数进行训练,使得对于同一视频或同一查询语句,匹配的视频和查询语句之间的相似分数高于不匹配的视频和查询语句之间的相似度分数。
8.一种视频定位装置,其特征在于,包括:
视频划分模块,用于使用多尺度的时间滑动窗口,对待定位视频进行片段划分,得到多个视频片段,其中,相邻的视频片段之间存在设定比例的重叠;
特征提取模块,用于对每个视频片段以及查询语句的每个单词进行特征提取,将得到所述每个视频片段的原始特征R分解为键特征R K 、查询特征R Q 和值特征R V ,将所述每个单词的原始特征E分解为键特征E K 、查询特征E Q 和值特征E V
模态间注意力流获取模块,用于基于所有视频片段的R K R Q R V ,以及所述查询语句的所有单词的E K E Q E V ,动态获取视频模态与文本模态之间的注意力流,其中,所述视频模态与文本模态之间的注意力流包含所有视频片段与所有单词之间的注意力权重;
第一特征更新模块,用于基于所述视频模态与文本模态之间的注意力流,利用所有单词的E对每个视频片段的R进行更新,得到所述每个视频片段的第一特征R 1;利用所有视频片段的R对每个单词的E进行更新,得到所述每个单词的第一特征E 1
模态内注意力流获取模块,用于基于所有视频片段的R K R Q R V 以及所有单词的E K E Q E V ,动态获取视频模态内的注意力流以及文本模态内的注意力流,其中,所述视频模态内的注意力流包含所有视频片段之间的注意力权重,所述文本模态内的注意力流包含所有单词之间的注意力权重;
第二特征更新模块,用于基于所述视频模态内的注意力流,利用所有视频片段的R对每个视频片段的R 1进行更新,得到所述每个视频片段的第二特征R 2;基于所述文本模态内的注意力流,利用所有单词的E对每个单词的E 1进行更新,得到所述每个单词的第二特征E 2
相似度计算及定位模块,用于基于每个视频片段的R 2与所有单词的E 2,计算所述每个视频片段与所述查询语句的相似度分数;选取相似度分数最高的视频片段作为视频定位的结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任意一项所述的视频定位方法,或实现如权利要求7所述的模型训练方法。
CN202111139903.4A 2021-09-28 2021-09-28 一种视频定位方法及装置、模型训练方法及设备 Active CN113590874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111139903.4A CN113590874B (zh) 2021-09-28 2021-09-28 一种视频定位方法及装置、模型训练方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111139903.4A CN113590874B (zh) 2021-09-28 2021-09-28 一种视频定位方法及装置、模型训练方法及设备

Publications (2)

Publication Number Publication Date
CN113590874A true CN113590874A (zh) 2021-11-02
CN113590874B CN113590874B (zh) 2022-02-11

Family

ID=78242204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111139903.4A Active CN113590874B (zh) 2021-09-28 2021-09-28 一种视频定位方法及装置、模型训练方法及设备

Country Status (1)

Country Link
CN (1) CN113590874B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226443A (zh) * 2023-05-11 2023-06-06 山东建筑大学 基于大规模视频语料库的弱监督视频片段定位方法及系统
CN116385946A (zh) * 2023-06-06 2023-07-04 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN116843727A (zh) * 2023-09-01 2023-10-03 广东师大维智信息科技有限公司 一种跨视频源的目标交接定位方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
CN110019849A (zh) * 2018-05-23 2019-07-16 山东大学 一种基于注意力机制的视频关注时刻检索方法及装置
US20200302294A1 (en) * 2019-03-22 2020-09-24 Nec Laboratories America, Inc. Efficient and fine-grained video retrieval
CN111930999A (zh) * 2020-07-21 2020-11-13 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法
CN112650886A (zh) * 2020-12-28 2021-04-13 电子科技大学 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN112989120A (zh) * 2021-05-13 2021-06-18 广东众聚人工智能科技有限公司 一种视频片段查询系统和视频片段查询方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019849A (zh) * 2018-05-23 2019-07-16 山东大学 一种基于注意力机制的视频关注时刻检索方法及装置
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
US20200302294A1 (en) * 2019-03-22 2020-09-24 Nec Laboratories America, Inc. Efficient and fine-grained video retrieval
CN111930999A (zh) * 2020-07-21 2020-11-13 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法
CN112650886A (zh) * 2020-12-28 2021-04-13 电子科技大学 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN112989120A (zh) * 2021-05-13 2021-06-18 广东众聚人工智能科技有限公司 一种视频片段查询系统和视频片段查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUPENG HU ET AL.: "Video Moment Localization via Deep Cross-Modal Hashing", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
王迎新: "基于注意力机制的视频哈希检索方法研究", 《万方数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226443A (zh) * 2023-05-11 2023-06-06 山东建筑大学 基于大规模视频语料库的弱监督视频片段定位方法及系统
CN116226443B (zh) * 2023-05-11 2023-07-21 山东建筑大学 基于大规模视频语料库的弱监督视频片段定位方法及系统
CN116385946A (zh) * 2023-06-06 2023-07-04 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN116385946B (zh) * 2023-06-06 2023-08-29 山东大学 面向视频的目标片段定位方法、系统、存储介质及设备
CN116843727A (zh) * 2023-09-01 2023-10-03 广东师大维智信息科技有限公司 一种跨视频源的目标交接定位方法及系统
CN116843727B (zh) * 2023-09-01 2023-11-24 广东师大维智信息科技有限公司 一种跨视频源的目标交接定位方法及系统

Also Published As

Publication number Publication date
CN113590874B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN113590874B (zh) 一种视频定位方法及装置、模型训练方法及设备
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN112182166B (zh) 一种文本匹配方法、装置、电子设备及存储介质
EP3968179A1 (en) Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
US20150178321A1 (en) Image-based 3d model search and retrieval
WO2020238353A1 (zh) 数据处理方法和装置、存储介质及电子装置
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112069884A (zh) 一种暴力视频分类方法、系统和存储介质
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 1409, Floor 14, Building 1, High tech Zone Entrepreneurship Center, No. 177, Gaoxin 6th Road, Rizhao, Shandong 276801

Patentee after: Shandong Liju Robot Technology Co.,Ltd.

Address before: 276808 No.99, Yuquan 2nd Road, antonwei street, Lanshan District, Rizhao City, Shandong Province

Patentee before: Shandong Liju Robot Technology Co.,Ltd.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xie Chihao

Inventor after: Fang Tipin

Inventor after: Teng Juanya

Inventor after: Lu Xiankai

Inventor after: Yang Guangyuan

Inventor before: Fang Tipin

Inventor before: Teng Juanya

Inventor before: Lu Xiankai

Inventor before: Yang Guangyuan