CN112015947A - 一种语言描述引导的视频时序定位方法、系统 - Google Patents

一种语言描述引导的视频时序定位方法、系统 Download PDF

Info

Publication number
CN112015947A
CN112015947A CN202010889647.XA CN202010889647A CN112015947A CN 112015947 A CN112015947 A CN 112015947A CN 202010889647 A CN202010889647 A CN 202010889647A CN 112015947 A CN112015947 A CN 112015947A
Authority
CN
China
Prior art keywords
target
information
video
characteristic information
video clip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010889647.XA
Other languages
English (en)
Other versions
CN112015947B (zh
Inventor
李冠彬
许晓倩
吴捷
毛明志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202010889647.XA priority Critical patent/CN112015947B/zh
Publication of CN112015947A publication Critical patent/CN112015947A/zh
Application granted granted Critical
Publication of CN112015947B publication Critical patent/CN112015947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种语言描述引导的视频时序定位方法及系统,所述方法包括:接收视频查询信息组;从所述待查询视频中获取目标视频片段;从所述查询文字中提取文字特征信息;从所述目标视频片段中提取目标特征信息;计算所述目标视频片段对应的目标损失值;在所述目标损失值不包含于预先设置的损失值集时,计算动作参数;根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。本发明提出了一种语言描述引导的弱监督视频时序定位方法,根据边界自适应优化框架,借助强化学习范式来自适应地优化时序边界,缩小跨模态语义差距,得到更精确的结果。

Description

一种语言描述引导的视频时序定位方法、系统
技术领域
本发明涉及机器视觉及深度学习技术领域,特别是涉及一种语言描述引导的视频时序定位方法、系统。
背景技术
视频时序定位作为一项新提出的关键任务,在人机交互和跨媒体分析领域中具有潜在应用,其目标是根据提供的文本描述,对某个给定视频进行时序定位,即输入一句话,通过模型定位出这句话所包含的意思在该视频中的时序片段(起始帧及终止帧)。
现有技术采用全监督的方式,在视频片段和相对应的语言描述之间进行映射。但是,获取细粒度的标注是一项艰巨的任务,需要大量的人工操作,随着这项任务向着更大尺度和更加复杂的场景发展,这成为了一个关键的瓶颈。
为了避免进行昂贵、笨拙的标注,人们开始在弱监督条件下解决该任务,即从视频级监督中推断与语言相关的时序范围。但是,这种弱监督范式只有视频级语言标注,而没有说明它们相应的具体时序边界,导致边界预测的准确性降低。
发明内容
本发明提出了一种语言描述引导的弱监督视频时序定位方法,根据边界自适应优化(Boundary Adaptive Refinement,BAR)框架,借助强化学习范式来自适应地优化时序边界,缩小跨模态语义差距,得到更精确的结果。
本发明一个实施例提供一种语言描述引导的视频时序定位方法,包括:
接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;
从所述待查询视频中获取目标视频片段;
从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;
从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;
根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;
在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;
根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
进一步地,所述从所述待查询视频中获取目标视频片段的步骤包括:
对所述待查询视频进行特征提取,得到待查询视频特征集合;根据所述待查询视频特征集合获取所述目标视频片段;
其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段。
进一步地,所述从所述查询文字中提取文字特征信息的步骤包括:
通过GloVe模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至GRU网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令。
进一步地,所述从所述目标视频片段中提取目标特征信息的步骤包括:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
Figure BDA0002656530950000031
其中,ai为所述目标视频片段特征信息的注意力权重,E为所述文字特征信息,θ(Fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;A为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
S=L2Norm(A)⊙L2Norm(E)
其中,S为对齐分数值,A为视频片段信息的注意力特征,⊙为点积计算,E为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
Figure BDA0002656530950000032
其中,rt为奖励函数,
Figure BDA0002656530950000033
为t时刻的对齐分数值,
Figure BDA0002656530950000034
为t-1时刻的对齐分数值;
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息。
进一步地,所述根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值的步骤包括:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
Figure BDA0002656530950000041
其中,
Figure BDA0002656530950000042
为第一视频片段的池化特征的选通函数,
Figure BDA0002656530950000043
为所述文字特征信息的选通函数,Ws和Wν是参数矩阵,σ表示sigmoid函数,
Figure BDA0002656530950000044
为第一视频片段信息的池化特征,E为所述文字特征信息;
通过所述目标特征信息,计算归一化位置信息:
Figure BDA0002656530950000045
Figure BDA0002656530950000046
Figure BDA0002656530950000047
分别表示所述目标视频片段对应的第一边界位置及第二边界位置,Lt-1表示归一化位置信息,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数;
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
Figure BDA0002656530950000048
其中,st为状态指令,φ为两个级联的全连接层,
Figure BDA0002656530950000049
为所述文字特征信息的选通函数,
Figure BDA0002656530950000051
为第一视频片段的池化特征的选通函数,fg为目标视频片段的池化特征,
Figure BDA0002656530950000052
为第二视频片段的池化特征,
Figure BDA0002656530950000053
为第三视频片段的池化特征,Lt-1为归一化位置信息;
将状态指令输入至GRU单元,得到输出状态;
将所述输出状态输入至策略函数。
进一步地,所述在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数的步骤包括:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
Figure BDA0002656530950000054
Figure BDA0002656530950000055
表示正整数的下限,sg
Figure BDA0002656530950000056
表示由对齐评估器估计的全局和当前对齐分数。
本发明一个实施例提供一种语言描述引导的视频时序定位系统,包括:
查询信息组接收模块,用于接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;
目标视频片段获取模块,用于从所述待查询视频中获取目标视频片段;
文字特征信息提取模块,用于从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;
目标特征信息提取模块,用于从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;
目标损失值计算模块,用于根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;
动作参数计算模块,用于在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;
优化边界模块,用于根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
进一步地,所述目标视频片段获取模块,还用于:
对所述待查询视频进行特征提取,得到待查询视频特征集合;
根据所述待查询视频特征集合获取所述目标视频片段;其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段;
所述文字特征信息提取模块,还用于:
通过GloVe模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至GRU网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令;
所述目标特征信息提取模块,还用于:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
Figure BDA0002656530950000061
其中,ai为所述目标视频片段特征信息的注意力权重,E为所述文字特征信息,θ(Fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;A为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
S=L2Norm(A)⊙L2Norm(E)
其中,S为对齐分数值,A为视频片段信息的注意力特征,⊙为点积计算,E为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
Figure BDA0002656530950000071
其中,rt为奖励函数,
Figure BDA0002656530950000072
为t时刻的对齐分数值,
Figure BDA0002656530950000073
为t-1时刻的对齐分数值;
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息;
目标损失值计算模块,还用于:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
Figure BDA0002656530950000074
其中,
Figure BDA0002656530950000075
为第一视频片段的池化特征的选通函数,
Figure BDA0002656530950000076
为所述文字特征信息的选通函数,Ws和Wv是参数矩阵,σ表示sigmoid函数,
Figure BDA0002656530950000077
为第一视频片段信息的池化特征,E为所述文字特征信息;
通过所述目标特征信息,计算归一化位置信息:
Figure BDA0002656530950000081
Figure BDA0002656530950000082
Figure BDA0002656530950000083
分别表示所述目标视频片段对应的第一边界位置及第二边界位置,Lt-1表示归一化位置信息,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数;
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
Figure BDA0002656530950000084
其中,st为状态指令,φ为两个级联的全连接层,
Figure BDA0002656530950000085
为所述文字特征信息的选通函数,
Figure BDA0002656530950000086
为第一视频片段的池化特征的选通函数,fg为目标视频片段的池化特征,
Figure BDA0002656530950000087
为第二视频片段的池化特征,
Figure BDA0002656530950000088
为第三视频片段的池化特征,Lt-1为归一化位置信息;
将状态指令输入至GRU单元,得到输出状态;
将所述输出状态输入至策略函数;
动作参数计算模块,还用于:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
Figure BDA0002656530950000089
Figure BDA00026565309500000810
表示正整数的下限,sg
Figure BDA00026565309500000811
表示由对齐评估器估计的全局和当前对齐分数。
本发明一个实施例还提供一种电子装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述的语言描述引导的视频时序定位方法。
本发明一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行任意一项所述的语言描述引导的视频时序定位方法。
与现有技术相比,本发明实施例的有益效果在于:
本发明提供一种语言描述引导的视频时序定位方法,包括:接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;从所述待查询视频中获取目标视频片段;从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。本发明提出了一种语言描述引导的弱监督视频时序定位方法,根据边界自适应优化(Boundary Adaptive Refinement,BAR)框架,借助强化学习范式来自适应地优化时序边界,缩小跨模态语义差距,得到更精确的结果。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明某一实施例提供的一种语言描述引导的视频时序定位方法的流程图;
图2是本发明某一实施例提供的一种语言描述引导的视频时序定位装置的结构图;
图3是本发明某一实施例提供的边界自适应框架的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
第一方面。
现在流行的“proposal-and-rank”模式着重于在rank分支学习更健壮的跨模态表示,但没有显式考虑对灵活边界和内容感知提议的建模。这种模式本质上是局限性的,它严重依赖于预定义的、不灵活的滑动窗口(例如128和256帧),导致难以泛化到长度差异很大的视频上。当将这种方法用于弱监督条件下时,它还会另外带来两个挑战。首先,在没有细粒度标注的情况下,用于边界调整的偏移回归学习(offset regressive learning)变得不切实际。其次,在训练过程中访问视频-查询对时,主导模型(leading model)只能从视频间(inter-videos)学习跨模态映射,而没有考虑到视频内(intra-video)更细微和细粒度的语义概念。这些次优的跨模态映射通常会导致边界预测的准确性降低。
本发明提出的语言描述引导的弱监督视频时序定位方法将时序定位过程表述为马尔可夫决策过程,设计了一个边界自适应优化框架(Boundary Adaptive Refinement,BAR),从初始视频片段出发,使用强化学习技术逐步修改完善其时序边界,如图3所示。BAR框架包含3个部分,其中,上下文感知特征提取器(Context-aware Feature Extractor)将环境状态编码为跨模态上下文概念,跨模态对齐评估器(cross-modal alignmentevaluator)为迭代优化过程提供量身定制的奖励和终止信号,自适应动作计划器(adaptive action planner)根据上下文自适应地推断动作(action)的方向和幅度,而不是每步都移动固定幅度。
用N个小片段(clips){V_1,V_2,…,V_N}表示视频V,每个clip对应一小部分连续帧。以视频段V和文本查询T作为输入,任务是输出在语义上与查询匹配的视频段(segment)[j,k],j和k分别表示开始和结束的片段索引。我们的工作集中在此任务的弱监督设置上,具体而言,仅提供一组V-T对,但每个对的视频段注释均不可用。
请参阅图1至图2,本发明某一实施例提供一种语言描述引导的视频时序定位方法,包括:
S10、接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频。
S20、从所述待查询视频中获取目标视频片段。
在某一具体实施中,所述从所述待查询视频中获取目标视频片段的步骤包括:
对所述待查询视频进行特征提取,得到待查询视频特征集合;根据所述待查询视频特征集合获取所述目标视频片段;其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段。
优选地,通过预训练的视频特征提取器对所述待查询视频进行特征提取,所述预训练的视频特征提取器包括:深度三维卷积网络(C3D模型)或时间敏感型网络(TSN模型)。
S30、从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词。
在某一具体实施例中,所述从所述查询文字中提取文字特征信息的步骤包括:
通过GloVe模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至GRU网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令。
在某一具体实施方式中,上下文感知特征提取器从外部环境获取视频查询对(V-T),其中V表示待查询视频,T表示查询文字,并将其编码为上下文感知跨模态概念。首先使用GloVe模型嵌入对查询文字T中的每个单词进行编码,然后将编码后的查询文字T送入GRU网络中以捕获远程依赖信息,从GRU网络的最后一个隐藏状态得到查询指令E。预训练的视频特征提取器用于提取每个视频片段的片段级别特征。视频段表示为一系列视频片段特征F,即
Figure BDA0002656530950000131
Figure BDA0002656530950000132
Figure BDA0002656530950000133
表示视频片段Vi的片段级别特征,M则是相应视频段中片段的数量。在每个预设时间内,更新后的视频边界将整个视频分为三个部分:左段,当前段和右段。然后,我们将相应边界内的所有片段级特征收集到一个集合中,以获得三个相应的片段级特征。该提取器没有直接将当前段的特征作为单独的输入,还利用了从视频中其它片段获得的上下文信息进行状态编码。
此外,提取器还将归一化的边界位置信息Lt-1包含在了编码特征中,以提供相对位置信息。其中,
Figure BDA0002656530950000134
Figure BDA0002656530950000135
Figure BDA0002656530950000136
分别表示边界的开始和结束片段索引,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数。
S40、从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间。
在某一具体实施例中,所述从所述目标视频片段中提取目标特征信息的步骤包括:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
Figure BDA0002656530950000141
其中,ai为所述目标视频片段特征信息的注意力权重,E为所述文字特征信息,θ(Fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;A为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
S=L2Norm(A)⊙L2Norm(E)
其中,S为对齐分数值,A为视频片段信息的注意力特征,⊙为点积计算,E为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
Figure BDA0002656530950000142
其中,rt为奖励函数,
Figure BDA0002656530950000143
为t时刻的对齐分数值,
Figure BDA0002656530950000144
为t-1时刻的对齐分数值;
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息。
在某一具体实施方式中,跨模态对齐评估器是专门为解决我们基于RL算法中的两个关键问题而设计的。一方面,该评估器用于分配面向目标的奖励,以解决在缺少细粒度边界注释的情况下自适应动作计划器无法直接获取可靠奖励函数的问题。另一方面,评估器确定准确的停止信号以终止优化过程。给定一个视频段,每个片段特征的维度通过过滤器函数(θ)减小到查询指令E的维度,该函数包括一个完全连接层,后跟线性整流函数(ReLU函数)和Dropout函数。查询指令E用于在所有视频片段上创建时序注意力(attention),强调关键的视频片段并弱化不重要的部分。具体地,使用缩放点积注意力机制(scaled dot-product attention mechanism)来获得注意力权重ai和分段注意力特征A:
Figure BDA0002656530950000151
其中,⊙表示两个向量之间的点积操作,k为查询指令E的维度。然后将片段注意力特征和查询表示映射到联合嵌入空间以计算对齐分数S:
S=L2Norm(A)⊙L2Norm(E)
对齐分数可以被视为提供可靠奖励的奖励估计。具体而言,评估器测量连续的段-查询对的对齐分数,并分配相应的奖励rt
Figure BDA0002656530950000152
其中
Figure BDA0002656530950000153
表示当前片段和句子查询在时间步t的对齐分数。这个奖励函数返回+1或-1。如果下一个边界相比当前边界有更高的对齐分数,那么从当前窗口移动到下一个的行为at的奖励rt为+1,否则为-1。这种二元奖励更清楚地反映了哪个行动可以将边界推向真值(ground-truth),从而促进代理(agent)的学习。
S50、根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值。
在某一具体实施例中,所述根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值的步骤包括:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
Figure BDA0002656530950000161
其中,
Figure BDA0002656530950000162
为第一视频片段的池化特征的选通函数,
Figure BDA0002656530950000163
为所述文字特征信息的选通函数,Ws和Wv是参数矩阵,σ表示sigmoid函数,
Figure BDA0002656530950000164
为第一视频片段信息的池化特征,E为所述文字特征信息;
通过所述目标特征信息,计算归一化位置信息:
Figure BDA0002656530950000165
Figure BDA0002656530950000166
Figure BDA0002656530950000167
分别表示所述目标视频片段对应的第一边界位置及第二边界位置,Lt-1表示归一化位置信息,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数;
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
Figure BDA0002656530950000168
其中,at为状态指令,φ为两个级联的全连接层,
Figure BDA0002656530950000169
为所述文字特征信息的选通函数,
Figure BDA00026565309500001610
为第一视频片段的池化特征的选通函数,fg为目标视频片段的池化特征,
Figure BDA00026565309500001611
为第二视频片段的池化特征,
Figure BDA00026565309500001612
为第三视频片段的池化特征,Lt-1为归一化位置信息;
将状态指令输入至GRU单元,得到输出状态;
将所述输出状态输入至策略函数。
S60、在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数。
在某一具体实施例中,所述在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数的步骤包括:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
Figure BDA0002656530950000171
Figure BDA0002656530950000172
表示正整数的下限,sg
Figure BDA0002656530950000173
表示由对齐评估器估计的全局和当前对齐分数。
S70、根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
在某一具体实施方式中,自适应动作规划器旨在推断动作序列以完善时序边界。为了获得固定长度的视觉表示,我们在全局、当前、左和右视频段的特征集F上使用平均池化层,分别获得它们的池化特征Fg,
Figure BDA0002656530950000174
然后进一步采用交叉-门交互方法(cross-gated interaction method)来增强相关段-查询对的影响。具体而言,当前池化特征
Figure BDA0002656530950000175
由查询指令E选通,与此同时查询指令E的门(gate)取决于
Figure BDA0002656530950000176
Figure BDA0002656530950000177
其中Ws和Wv是参数矩阵,σ表示sigmoid函数。然后这些多模态特征被连接(concatenated)起来,送入两个级联的全连接层φ,得到状态激活表示st
Figure BDA0002656530950000178
这些上下文特征促使规划器对视频内容进行左右权衡并推断出更准确的动作。st被进一步送入GRU网络单元,以使代理能够合并关于已探查视频段的历史信息。接下来,GRU网络的输出后面接两个单独的全连接层,分别估计一个策略函数π(at|st)和一个值近似器vπ(st)。在训练过程中,从策略函数π(at|st)采样获得基本动作
Figure BDA0002656530950000181
动作空间
Figure BDA0002656530950000182
由四个基本动作组成:将起点/终点向后/向前移动N/v个clip。v是振幅因子,根据经验设置为:
Figure BDA0002656530950000183
其中,
Figure BDA0002656530950000184
表示正整数的下限,sg
Figure BDA0002656530950000185
表示由对齐评估器估计的全局和当前对齐分数,tanh用于限制动作幅度在
Figure BDA0002656530950000186
附近波动。Sg作为对齐度的基线以确定v:当
Figure BDA0002656530950000187
较低时,v变小,边界被大幅移动;当
Figure BDA0002656530950000188
越高时,v越大,边界被更细微地调整。这种自适应设置使代理能够根据当前观察结果确定动作幅度,这也符合人类习惯。
评论者(critic)预测的状态值vπ(st)是当前状态的值估计。在critic产生精确值的假设下,基于对梯度的无偏估计来训练actor。
在某一具体实施方式中,我们选择advantage actor-critic(A2C)算法来训练自适应动作规划器,设计结合了ranking loss
Figure BDA0002656530950000189
的多实例学习算法来训练跨模态对齐评估器和上下文感知特征提取器。BAR的完整loss表示为:
Figure BDA00026565309500001810
其中,
Figure BDA00026565309500001811
表示A2C算法中的损失函数,η为两个损失之间的权衡因子。
A2C损失具体为:自适应动作规划器在训练阶段运行Tmax步来调整边界。给定轨迹Γ=<st,π(·|st),vπ(st),at,rt>,actor的损失函数
Figure BDA00026565309500001812
表示为:
Figure BDA0002656530950000191
其中,Aπ(st,at)表示优势函数(advantage function),H()为策略的熵(policyentropy)。Aπ(st,at)=Qπ(st,at)-vπ(st)衡量动作是否比策略的默认行为好以及在多大程度上好于默认行为。采用时差学习(Temporal-difference learning)通过k阶函数逼近估计Q值函数(Q-value function)Qπ(st,at):
Figure BDA0002656530950000192
其中,γ为常量折扣因子(constant discount factor)。BAR不会在训练期间出现稀疏的奖励问题,因为可以在每个步骤获得奖励。为了优化critic,我们将Q值函数和估计值之间的均方差(MSE)损失
Figure BDA0002656530950000193
最小化。A2C的完整损失为actor分支和critic分支的损失和:
Figure BDA0002656530950000194
Ranking损失具体为:通常,视频间的内容差异高于视频内的内容差异。因此,我们采用多实例学习算法,并且首次利用视频间的粗略语义概念来优化框架。具体地,给定全局视频特征Fg和它对应的查询表示E,对于从其他样本对获取的任何视频Fg′/查询
Figure BDA0002656530950000195
期望对齐分数S(Fg,E)(正对)比分数S(Fg′,E)/S(Fg,E‘)(负对)要高。视频间ranking损失因此定义为:
Figure BDA0002656530950000196
其中,[x]+表示由max(0,x)定义的斜坡函数,∈表示很小的数。S(Fg,E)和Sg是等价的。正对和负对从同一mini-batch中取得。
视频间通常包括广泛的语义抽象,这些语义抽象很难区分特定视频中的相似内容。为此,我们设计了视频内ranking损失
Figure BDA0002656530950000201
以捕获视频内的更多细微概念,从而进一步优化网络。如果在优化过程中,左段、当前段、右段查询对中任何一个的得分超过了全局得分,则我们假定这一对应该比其它两对有更高的对齐分数:
Figure BDA0002656530950000202
其中,
Figure BDA0002656530950000203
Figure BDA0002656530950000204
分别是在时间步t时左段查询对和右段查询对的对齐分数。ψ为二元指示函数。如果括号中的不等式成立,ψ()将输出1,否则输出0。当段-查询对的分数
Figure BDA0002656530950000205
超过sg时,通过增大
Figure BDA0002656530950000206
或减小
Figure BDA0002656530950000207
Figure BDA0002656530950000208
的方式,达到扩大
Figure BDA0002656530950000209
和其它两者之间差距的优化目标。注意到将
Figure BDA00026565309500002010
降到sg以下是另一种可能的选择,但这通常随着视频间训练的进行而变得越来越不切实际。另外,当存在多个分数超过sg的段-查询对时,
Figure BDA00026565309500002011
的优化目标通常指引对齐评估器抑制次优匹配对的分数,使其低于sg,同时驱动动作规划器调整边界。直觉上,
Figure BDA00026565309500002012
鼓励文本查询相比同一视频中的其它可能视频段更接近于语义匹配的视频段,这有助于获得内容感知的对齐分数。
Figure BDA00026565309500002013
设法i)扩大匹配和不匹配的段查询对之间的得分差距,以增加对齐评估的置信度;ii)通过影响对齐评估器来驱动动作规划器实现更好的时间边界调整,从而改善奖励计算。综上所述,ranking损失
Figure BDA00026565309500002014
定义为:
Figure BDA00026565309500002015
其中,λ是权重参数,对视频内和视频间的ranking损失进行权衡。在训练阶段的初期,段查询对的分数几乎不会超过sg
Figure BDA0002656530950000211
趋于零,因此,
Figure BDA0002656530950000212
扮演着主要角色,学习从视频-查询对到段-查询对匹配的迁移。随着训练的进行,
Figure BDA0002656530950000213
逐渐收敛,段-查询对的分数超过sg的情况更常见,
Figure BDA0002656530950000214
开始发挥关键作用。
交替更新:BAR是从头开始训练(trained from scratch)的,并且采用了交替更新策略来使训练过程更稳定。具体来说,对于每组2K次的迭代,首先固定动作规划器的参数,使用
Figure BDA0002656530950000215
进行模型优化。这种设置可以保证为动作规划器提供值得信赖的初始奖励。当达到K次迭代时,固定对齐评估器和特征提取器的参数,并将损失函数从
Figure BDA0002656530950000216
切换到
Figure BDA0002656530950000217
以优化动作规划器,再进行K次迭代。重复此交替更新机制,直至模型收敛。
在每个时间步,BAR通过贪婪解码算法执行一个动作以自适应调整时序边界。多模态对齐评估器计算分数
Figure BDA0002656530950000218
提供对齐度或终止信号。根据经验,与查询对应的结果通常占据合理的视频长度。因此,为了惩罚具有异常长度的视频片段,我们使用高斯惩罚函数更新置信度得分,如下所示:
Figure BDA0002656530950000219
其中,δ表示异常长度的惩罚因子,τ是调节因子,随着τ的增加,惩罚度的影响也随之降低。测试过程中具有最大
Figure BDA00026565309500002110
的视频段被视为最终的结果。
在某一具体实施方式中,输入查询语言及视频。
1.使用Glove对query进行编码后,再送入GRU网络,将GRU的最后一个隐藏状态作为查询表示E。
2.使用预训练的特征提取器(C3D或TSN)提取clip级别的视频特征
Figure BDA00026565309500002111
一个视频段由若干clip组成,因此视频段级别的特征表示为集合
Figure BDA0002656530950000221
将视频分为三个段:左段、当前段、右段,当前段即为当前迭代步所选取的视频段,左、右段分别在当前段左、右部分。
3.提取归一化位置信息:
Figure BDA0002656530950000222
Figure BDA0002656530950000223
Figure BDA0002656530950000224
分别表示边界的开始和结束clip索引,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数。
4.将clip feature送入滤波器函数θ(由FC、ReLU和Dropout组成),降维到和查询表示E相同的维度。通过下式计算clip i的attention weightai和视频段的attentionfeature A:
Figure BDA0002656530950000225
上面,⊙表示两个向量之间的点积操作,k为E的维度。
通过下式计算对齐分数S:
S=L2Norm(A)⊙L2Norm(E)
根据对齐分数计算t时刻的奖励rt(t时刻当前段的对齐分数和t-1时刻当前段对齐分数的差的符号):
Figure BDA0002656530950000226
5.对全局、当前、左、右视频段应用平均池化,分别得到池化特征Fg,
Figure BDA0002656530950000227
对E和
Figure BDA0002656530950000228
进行互相选通操作,如下式所示:
Figure BDA0002656530950000229
Ws和Wv是参数矩阵,σ表示sigmoid函数。
按下式计算,将括号内一系列特征cat起来,送入φ函数,φ表示两个级联的全连接层,得到状态表示st
Figure BDA00026565309500002210
6.将st送入GRU单元。GRU的输出状态分别被送入两个fc分支,其中一个分支计算策略函数π(at|st),另一分支为值近似器,输出价值函数近似vπ(st)。
7.从策略函数π(at|st)中采样得到动作(action)
Figure BDA0002656530950000231
动作空间
Figure BDA0002656530950000232
包含四个基本动作,即:将起点/终点向后/向前移动N/v个clip,其中v按下式计算:
Figure BDA0002656530950000233
Figure BDA0002656530950000234
表示正整数的下限,sg
Figure BDA0002656530950000235
表示由对齐评估器估计的全局和当前对齐分数。
8.若达到最大迭代次数,停止迭代,当前段即为对齐结果;否则,使用动作at调整当前段的边界,然后令t=t+1,转到步骤1,进行下一次迭代。
在某一具体实施例中,完整的损失为
Figure BDA0002656530950000236
A2C用于训练自适应动作规划器:
Figure BDA0002656530950000237
Figure BDA0002656530950000238
Aπ(st,at)=Qπ(st,at)-vπ(st)
Figure BDA0002656530950000239
Figure BDA00026565309500002310
ranking loss用于训练跨模态对齐评估器和上下文感知特征提取器,具体计算方法如下:
Figure BDA00026565309500002311
Figure BDA0002656530950000241
Figure BDA0002656530950000242
Figure BDA0002656530950000243
是基于互相对应的视频查询对的对齐分数应该高于非对应视频查询对,在训练初期起主要作用。
Figure BDA0002656530950000244
鼓励文本查询相比同一视频中的其它可能视频段更接近于语义匹配的视频段。
在某一具体实施方式中,训练流程包括:从某一状态出发(随机选定当前视频段区域),用上下文特征提取器提取出当前的查询特征、视频段特征、位置特征。将查询特征和视频段特征送入跨模态对齐评估器,计算出查询和视频段的对齐分数,再根据对齐分数计算奖励rt,根据rt计算损失
Figure BDA0002656530950000245
同时该奖励也将用于计算自适应规划器的损失函数
Figure BDA0002656530950000246
在自适应动作规划器中应用上下文特征提取器得到的特征计算出当前状态表示st,通过状态表示计算策略函数π(at|st)和价值函数估计vπ(st),并计算
Figure BDA0002656530950000247
损失。计算损失后可利用反向传播算法使用交替更新策略更新模型参数,并根据action更新当前段的边界,进入下一次迭代。
其中,训练伪代码包括:
算法1交替更新训练过程
Figure BDA0002656530950000248
Figure BDA0002656530950000251
在某一具体实施例中,推断过程包括:
输入:查询句子、视频
1.随机选取当前段范围。
2.将查询和视频输入BAR获取对齐分数
Figure BDA0002656530950000252
3.使用高斯惩罚函数更新置信度得分
Figure BDA0002656530950000253
4.若
Figure BDA0002656530950000254
达到给定要求,终止迭代;否则执行动作,调整边界,转2。
5.选择过程中具有最大
Figure BDA0002656530950000255
的视频段作为最终结果。
第二方面。
请参阅图2,本发明某一实施例提供一种语言描述引导的视频时序定位系统,包括:
查询信息组接收模块10用于接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频。
目标视频片段获取模块20用于从所述待查询视频中获取目标视频片段。
在某一具体实施例中,所述目标视频片段获取模块20,还用于:
对所述待查询视频进行特征提取,得到待查询视频特征集合;
根据所述待查询视频特征集合获取所述目标视频片段;其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段。
文字特征信息提取模块30用于从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词。
在某一具体实施例中,所述文字特征信息提取模块30,还用于:
通过GloVe模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至GRU网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令。
目标特征信息提取模块40用于从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间。
在某一具体实施例中,所述目标特征信息提取模块40,还用于:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
Figure BDA0002656530950000261
其中,ai为所述目标视频片段特征信息的注意力权重,E为所述文字特征信息,θ(Fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;A为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
S=L2Norm(A)⊙L2Norm(E)
其中,S为对齐分数值,A为视频片段信息的注意力特征,⊙为点积计算,E为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
Figure BDA0002656530950000271
其中,rt为奖励函数,
Figure BDA0002656530950000272
为t时刻的对齐分数值,
Figure BDA0002656530950000273
为t-1时刻的对齐分数值;
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息。
目标损失值计算模块50用于根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值。
在某一具体实施例中,目标损失值计算模块50,还用于:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
Figure BDA0002656530950000281
其中,
Figure BDA0002656530950000282
为第一视频片段的池化特征的选通函数,
Figure BDA0002656530950000283
为所述文字特征信息的选通函数,Ws和Wv是参数矩阵,σ表示sigmoid函数,
Figure BDA0002656530950000284
为第一视频片段信息的池化特征,E为所述文字特征信息;
通过所述目标特征信息,计算归一化位置信息:
Figure BDA0002656530950000285
Figure BDA0002656530950000286
Figure BDA0002656530950000287
分别表示所述目标视频片段对应的第一边界位置及第二边界位置,Lt-1表示归一化位置信息,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数;
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
Figure BDA0002656530950000288
其中,st为状态指令,φ为两个级联的全连接层,
Figure BDA0002656530950000289
为所述文字特征信息的选通函数,
Figure BDA00026565309500002810
为第一视频片段的池化特征的选通函数,fg为目标视频片段的池化特征,
Figure BDA00026565309500002811
为第二视频片段的池化特征,
Figure BDA00026565309500002812
为第三视频片段的池化特征,Lt-1为归一化位置信息;
将状态指令输入至GRU单元,得到输出状态;
将所述输出状态输入至策略函数。
动作参数计算模块60用于在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数。
在某一具体实施例中,动作参数计算模块60,还用于:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
Figure BDA0002656530950000291
Figure BDA0002656530950000292
表示正整数的下限,sg
Figure BDA0002656530950000293
表示由对齐评估器估计的全局和当前对齐分数。
优化边界模块70,用于根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
第三部分。
本发明实施例还提供一种电子装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的语言描述引导的视频时序定位方法。
第四部分。
一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的语言描述引导的视频时序定位方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种语言描述引导的视频时序定位方法,其特征在于,包括:
接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;
从所述待查询视频中获取目标视频片段;
从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;
从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;
根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;
在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;
根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
2.如权利要求1所述的一种语言描述引导的视频时序定位方法,其特征在于,所述从所述待查询视频中获取目标视频片段的步骤包括:
对所述待查询视频进行特征提取,得到待查询视频特征集合;根据所述待查询视频特征集合获取所述目标视频片段;
其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段。
3.如权利要求1所述的一种语言描述引导的视频时序定位方法,其特征在于,所述从所述查询文字中提取文字特征信息的步骤包括:
通过GloVe模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至GRU网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令。
4.如权利要求1所述的一种语言描述引导的视频时序定位方法,其特征在于,所述从所述目标视频片段中提取目标特征信息的步骤包括:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
Figure FDA0002656530940000021
其中,ai为所述目标视频片段特征信息的注意力权重,E为所述文字特征信息,θ(Fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;A为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
S=L2Norm(A)⊙L2Norm(E)
其中,S为对齐分数值,A为视频片段信息的注意力特征,⊙为点积计算,E为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
Figure FDA0002656530940000022
其中,rt为奖励函数,
Figure FDA0002656530940000031
为t时刻的对齐分数值,
Figure FDA0002656530940000032
为t-1时刻的对齐分数值;
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息。
5.如权利要求2所述的一种语言描述引导的视频时序定位方法,其特征在于,所述根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值的步骤包括:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
Figure FDA0002656530940000033
其中,
Figure FDA0002656530940000034
为第一视频片段的池化特征的选通函数,
Figure FDA0002656530940000035
为所述文字特征信息的选通函数,Ws和Wv是参数矩阵,σ表示sigmoid函数,
Figure FDA0002656530940000036
为第一视频片段信息的池化特征,E为所述文字特征信息;
通过所述目标特征信息,计算归一化位置信息:
Figure FDA0002656530940000037
Figure FDA0002656530940000038
Figure FDA0002656530940000039
分别表示所述目标视频片段对应的第一边界位置及第二边界位置,Lt-1表示归一化位置信息,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数;
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
Figure FDA0002656530940000041
其中,st为状态指令,φ为两个级联的全连接层,
Figure FDA0002656530940000042
为所述文字特征信息的选通函数,
Figure FDA0002656530940000043
为第一视频片段的池化特征的选通函数,fg为目标视频片段的池化特征,
Figure FDA0002656530940000044
为第二视频片段的池化特征,
Figure FDA0002656530940000045
为第三视频片段的池化特征,Lt-1为归一化位置信息;
将状态指令输入至GRU单元,得到输出状态;
将所述输出状态输入至策略函数。
6.如权利要求1所述的一种语言描述引导的视频时序定位方法,其特征在于,所述在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数的步骤包括:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
Figure FDA0002656530940000046
Figure FDA0002656530940000047
表示正整数的下限,sg
Figure FDA0002656530940000048
表示由对齐评估器估计的全局和当前对齐分数。
7.一种语言描述引导的视频时序定位系统,其特征在于,包括:
查询信息组接收模块,用于接收视频查询信息组;其中,所述视频查询信息组包括查询文字以及待查询视频;
目标视频片段获取模块,用于从所述待查询视频中获取目标视频片段;
文字特征信息提取模块,用于从所述查询文字中提取文字特征信息;其中,所述文字特征信息为所述查询文字中的文字关键词;
目标特征信息提取模块,用于从所述目标视频片段中提取目标特征信息;其中,所述目标特征信息包括所述目标视频片段对应的第一边界位置及第二边界位置,第一边界位置为所述目标视频片段在待查询视频中的起始时间,第二边界位置为所述目标视频片段在待查询视频中的结束时间;
目标损失值计算模块,用于根据所述文字特征信息以及所述目标特征信息,计算所述目标视频片段对应的目标损失值;
动作参数计算模块,用于在所述目标损失值不包含于预先设置的损失值集时,通过所述目标损失值、目标视频片段特征信息以及所述文字特征信息,计算动作参数;
优化边界模块,用于根据所述动作参数调整所述目标视频片段在所述待查询视频中的边界位置,并返回从所述目标视频片段中提取目标视频片段特征信息的步骤。
8.如权利要求7所述的一种语言描述引导的视频时序定位系统,其特征在于,
所述目标视频片段获取模块,还用于:
对所述待查询视频进行特征提取,得到待查询视频特征集合;
根据所述待查询视频特征集合获取所述目标视频片段;其中,所述目标视频片段包括:第一视频片段、第二视频片段及第三视频片段;
所述文字特征信息提取模块,还用于:
通过GloVe模型对所述查询文字进行编码,生成编码数据;
将所述编码数据输入至GRU网络,生成远程依赖信息;
标记所述远程依赖信息的最后一个信息为查询指令;
所述目标特征信息提取模块,还用于:
通过所述文字特征信息、滤波器函数、所述文字特征信息维度及所述目标特征信息,计算所述目标特征信息的注意力权重及所述目标视频片段信息的注意力特征;
Figure FDA0002656530940000061
其中,ai为所述目标视频片段特征信息的注意力权重,E为所述文字特征信息,θ(Fi)为所述滤波器函数,⊙为点积计算,k为所述文字特征信息的维度;A为目标视频片段特征信息的注意力特征;
根据所述文字特征信息以及目标视频片段特征信息,计算所述查询文字信息与目标视频片段特征信息的对齐分数值:
S=L2Norm(A)⊙L2Norm(E)
其中,S为对齐分数值,A为视频片段信息的注意力特征,⊙为点积计算,E为所述文字特征信息;
根据所述对齐分数值计算t时刻的奖励函数;
Figure FDA0002656530940000062
其中,rt为奖励函数,
Figure FDA0002656530940000063
为t时刻的对齐分数值,
Figure FDA0002656530940000064
为t-1时刻的对齐分数值;
通过所述目标视频片段特征信息的注意力权重、所述目标视频片段特征信息的注意力特征、所述对齐分数值及所述奖励函数,对所述目标视频片段进行降维,生成与所述文字特征信息维度相同的目标特征信息;
目标损失值计算模块,还用于:
分别对所述目标视频片段、所述第一视频片段、所述第二视频片段及所述第三视频片段进行平均池化处理,分别得到目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征及第三视频片段的池化特征;
通过第一视频片段的池化特征及所述文字特征信息,计算第一视频片段的池化特征的选通函数和文字特征信息的选通函数,
Figure FDA0002656530940000071
其中,
Figure FDA0002656530940000072
为第一视频片段的池化特征的选通函数,
Figure FDA0002656530940000073
为所述文字特征信息的选通函数,Ws和Wv是参数矩阵,σ表示sigmoid函数,
Figure FDA0002656530940000074
为第一视频片段信息的池化特征,E为所述文字特征信息;
通过所述目标特征信息,计算归一化位置信息:
Figure FDA0002656530940000075
Figure FDA0002656530940000076
Figure FDA0002656530940000077
分别表示所述目标视频片段对应的第一边界位置及第二边界位置,Lt-1表示归一化位置信息,t={1,…,Tmax},Tmax表示优化过程中的最大迭代次数;
通过所述文字特征信息的选通函数、第一视频片段的池化特征的选通函数、目标视频片段的池化特征、第一视频片段的池化特征、第二视频片段的池化特征、第三视频片段的池化特征及归一化位置信息,计算状态指令:
Figure FDA0002656530940000078
其中,st为状态指令,φ为两个级联的全连接层,
Figure FDA0002656530940000079
为所述文字特征信息的选通函数,
Figure FDA00026565309400000710
为第一视频片段的池化特征的选通函数,fg为目标视频片段的池化特征,
Figure FDA0002656530940000081
为第二视频片段的池化特征,
Figure FDA0002656530940000082
为第三视频片段的池化特征,Lt-1为归一化位置信息;
将状态指令输入至GRU单元,得到输出状态;
将所述输出状态输入至策略函数;
动作参数计算模块,还用于:
通过策对略函数采样,得到动作参数;其中,所述动作参数包括:将所述目标视频片段对应的第一边界位置及第二边界位置移动v个步数,其中v按下式计算:
Figure FDA0002656530940000083
Figure FDA0002656530940000084
表示正整数的下限,sg
Figure FDA0002656530940000085
表示由对齐评估器估计的全局和当前对齐分数。
9.一种电子装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的语言描述引导的视频时序定位方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的语言描述引导的视频时序定位方法。
CN202010889647.XA 2020-08-28 2020-08-28 一种语言描述引导的视频时序定位方法、系统 Active CN112015947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010889647.XA CN112015947B (zh) 2020-08-28 2020-08-28 一种语言描述引导的视频时序定位方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010889647.XA CN112015947B (zh) 2020-08-28 2020-08-28 一种语言描述引导的视频时序定位方法、系统

Publications (2)

Publication Number Publication Date
CN112015947A true CN112015947A (zh) 2020-12-01
CN112015947B CN112015947B (zh) 2024-03-15

Family

ID=73504122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010889647.XA Active CN112015947B (zh) 2020-08-28 2020-08-28 一种语言描述引导的视频时序定位方法、系统

Country Status (1)

Country Link
CN (1) CN112015947B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536039A (zh) * 2021-08-04 2021-10-22 中山大学 视频的文本信息匹配方法、装置、存储介质及电子设备
CN113934887A (zh) * 2021-12-20 2022-01-14 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN115223086A (zh) * 2022-09-20 2022-10-21 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034528A1 (en) * 2017-07-28 2019-01-31 Comcast Cable Communications, Llc Dynamic detection of custom linear video clip boundaries
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111274438A (zh) * 2020-01-15 2020-06-12 中山大学 一种语言描述引导的视频时序定位方法
CN111368870A (zh) * 2019-10-31 2020-07-03 杭州电子科技大学 一种基于模态内间协同多线性池化的视频时序定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034528A1 (en) * 2017-07-28 2019-01-31 Comcast Cable Communications, Llc Dynamic detection of custom linear video clip boundaries
CN111368870A (zh) * 2019-10-31 2020-07-03 杭州电子科技大学 一种基于模态内间协同多线性池化的视频时序定位方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及系统
CN111274438A (zh) * 2020-01-15 2020-06-12 中山大学 一种语言描述引导的视频时序定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIE WU 等: ""Tree-Structured Policy Based Progressive Reinforcement Learning for Temporally Language Grounding in Video"", PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, vol. 34, no. 07 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536039A (zh) * 2021-08-04 2021-10-22 中山大学 视频的文本信息匹配方法、装置、存储介质及电子设备
CN113934887A (zh) * 2021-12-20 2022-01-14 成都考拉悠然科技有限公司 一种基于语义解耦的无提议时序语言定位方法
CN115223086A (zh) * 2022-09-20 2022-10-21 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN115223086B (zh) * 2022-09-20 2022-12-06 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统

Also Published As

Publication number Publication date
CN112015947B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN109740126B (zh) 文本匹配方法、装置及存储介质、计算机设备
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
JP7149560B2 (ja) リクエスト言換システム、リクエスト言換モデル及びリクエスト判定モデルの訓練方法、及び対話システム
US11966703B2 (en) Generating replacement sentences for a particular sentiment
CN112015947A (zh) 一种语言描述引导的视频时序定位方法、系统
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN110929114A (zh) 利用动态记忆网络来跟踪数字对话状态并生成响应
CN111581545B (zh) 一种召回文档的排序方法及相关设备
CN112182154B (zh) 一种利用个人词向量消除关键词歧义的个性化搜索模型
CN109902156B (zh) 实体检索方法、存储介质和电子设备
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN111178036B (zh) 一种知识蒸馏的文本相似度匹配模型压缩方法及系统
CN110297885B (zh) 实时事件摘要的生成方法、装置、设备及存储介质
CN109522561B (zh) 一种问句复述识别方法、装置、设备及可读存储介质
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
CN112000788B (zh) 一种数据处理方法、装置以及计算机可读存储介质
CN114467096A (zh) 增强基于注意力的神经网络以选择性地关注过去的输入
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
CN115309939A (zh) 基于时空语义分解的视频片段定位系统
CN112182439B (zh) 一种基于自注意力网络的搜索结果多样化方法
CN109918484B (zh) 对话生成方法和装置
Tagniguchi et al. Unsupervised segmentation of human motion data using sticky HDP-HMM and MDL-based chunking method for imitation learning
CN113641789B (zh) 基于分层融合多头注意力网络和卷积网络的观点检索方法及系统
CN112347753B (zh) 一种应用于阅读机器人的摘要生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant