CN111782871B - 基于时空强化学习的跨模态视频时刻定位方法 - Google Patents
基于时空强化学习的跨模态视频时刻定位方法 Download PDFInfo
- Publication number
- CN111782871B CN111782871B CN202010562550.8A CN202010562550A CN111782871B CN 111782871 B CN111782871 B CN 111782871B CN 202010562550 A CN202010562550 A CN 202010562550A CN 111782871 B CN111782871 B CN 111782871B
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- video
- time
- space
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 49
- 230000033001 locomotion Effects 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 22
- 230000004807 localization Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000004321 preservation Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 description 33
- 230000008569 process Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于时空强化学习的跨模态视频时刻定位方法,包括以下步骤:S01、输入完整视频和查询语句,抽取视频特征和查询语句特征,构建强化学习环境;S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界,环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征;S03、基于时序强化学习的定位边界进行空间强化学习,在所述环境中处理空间信息并逐帧追踪相关场景,并用注意力机制过滤无关信息;S04、根据空间强化学习更新时序强化学习的局部片段特征,使得所述空间强化学习和所述时序强化学习交替训练,直至收敛,得到对应查询语句的视频时刻片段。本发明提供的方法能够返回精确的视频定位边界,提高用户的查询体验。
Description
【技术领域】
本发明涉及视频时刻定位技术领域,尤其涉及一种基于时空强化学习的跨模态视频时刻定位方法。
【背景技术】
跨模态视频检索是在一组可能的视频集合中检索与查询语句文本所描述语义最相关的视频。然而,在一些场景中,如视频快速预览等,需要检索到一个相关的视频时刻而不是整个视频。
现有技术中已经提出一些处理视频时刻定位的方法。一种是采用在整个视频上切分滑动窗口的策略,对滑动窗口形成的候选集进行相关性排序。但是这种方法候选视频片段众多,导致耗时较长。另一种方法是引入强化学习将问题抽象成一个连续性决策问题进行直接定位,即直接定位视频的开始帧和结束帧。虽然第二种方法也取得了较好的效果,但是在一个视频中,人物和场景的变化范围较小,与查询语句相关的空间信息有限,在不考虑空间信息的情况下对视频进行定位,导致不相关的背景噪声等对相关的局部场景区域造成极大干扰,并进一步阻碍定位视频时刻的性能。
目前现有的视频时刻定位方法中,基于滑动窗口实现方法受到滑动窗口大小的限制并且十分耗时,基于强化学习直接定位的方法对视频特征的处理过于粗糙,忽视了视频帧中只有局部信息是与查询语句相关的,其他无关的信息可能对视频时刻定位性能造成极大的干扰。
这两种视频时刻定位方式都没有关注视频帧信息在时序上和空间上的影响,因此,有必要提供一种更精确的跨模态视频边界定位的方法。
【发明内容】
目前现有技术的视频时刻定位方法中没有关注视频帧信息在时序上和空间上的影响,因此,本发明提供一种基于时空强化学习的跨模态视频时刻定位方法。
一种基于时空强化学习的跨模态视频时刻定位方法,包括以下步骤:
S01、输入完整视频和查询语句,抽取视频特征和查询语句特征,构建强化学习环境;
S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界,所述环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征;
S03、基于所述时序强化学习的定位边界进行空间强化学习,在所述环境中处理空间信息并逐帧追踪相关场景,并用注意力机制过滤无关信息;
S04、根据空间强化学习更新时序强化学习的局部片段特征,使得所述空间强化学习和所述时序强化学习交替训练,直至收敛,得到对应查询语句的视频时刻片段。
优选的,所述步骤S02中,所述时序强化学习步骤包括:定义状态为se t=[fe,lt,fo t,fg],其中fe为查询语句特征、lt为位置特征、fo t为所述位置特征相应的空间信息特征,fg为视频全局特征,t是当前时间步;定义时序强化学习智能体的动作Ae,所述动作Ae包括同时向前移动起点、同时向前移动终点、同时向后移动起点、同时向后移动终点、单独向前/向后移动起点和终点、单独向后移动起点和终点以及停止动作;设置所述时序强化学习智能体移动的初始位置为L0=[0.25*n,0.75*n],其中n是视频图像帧的总长度,动作每步的移动大小设置为n/2ze,其中ze为确定的超参数;定义智能体的最大搜索步数;所述时序强化学习智能体从环境中获取所述状态后,执行动作Ae,使用IoU评估后得到每步的奖励。
优选的,所述步骤S02中,使用IoU进行评估的公式为:
根据IoU的计算结果,定义所述时序强化学习智能体每步移动的奖励re t为:
其中,φ为惩罚系数,当IoUt大于IoUt-1,则当前动作将被视为正反馈,奖励为正,否则奖励为零或负,同时减去一个智能体对步数的惩罚。
优选的,步骤骤S03中,所述空间强化学习使用目标跟踪框算法实现观察输入视频帧的空间信息,并输出连续图像帧的空间边界。
优选的,所述目标跟踪框算法包括:定义状态为ss k=[fe,fo k,fs],其中fe为查询语句特征,fo k为空间信息特征,fs为由时序强化学习定位到的局部视频特征,t是当前时间步;定义空间强化学习智能体的动作,控制局部目标框的移动,所述动作包括左移、右移、上移、下移、放大、缩小、变长、变宽以及停止动作;设置目标跟踪框为b=[x,y,m,n],其中[x,y]是目标跟踪框的中心点,[m,n]是所述目标跟踪框的大小;设置初始位置为b0=[0.25*h,0.25*w,0.75*h,0.75*w],其中h和w为图像帧的高度和宽度;设置步长为垂直方向的h/2zs和水平方向的w/2zs,其中zs为超参数;所述空间强化学习智能体使用IoU进行评估,得到其奖励函数r为:
其中Q值为状态执行动作后获得的期望回报,当更新特征后的Q值(Qo)大于更新前的Q值(Qw),则奖励增加就1,Q值(Qo)不变就0,Q值(Qo)减少则奖励为-1。
优选的,步骤S03中使用注意力机制优化特征表达为:
其中Wq和Wo是权重矩阵,b是偏置向量,q是权重向量。
优选的,步骤S04中通过深度确定性策略梯度算法更新时序强化学习。
优选的,步骤S04中所述深度确定性策略梯度算法包括评论家网络、演员家网络、评论家参数滞后保存网络和演员家参数滞后保存网络。
优选的,所述评论家网络通过值函数近似用于评估当下动作是否有效,当最优动作的值函数Q(s,a)被视为逼近最优策略π时,所述时序强化学习智能体得到最大期望回报::
Qπ(s,a)=Ε[R|st=s,at=a]=Εs'[r+γΕa'~π[Qπ(s',a')]],
其中,γ是Q值的折扣因子,用于平衡奖励和预估值之间的重要性,s为当下状态,a为当下动作,t为当前时间步;
所述评论家网络通过最小化损失来学习与最优化最优策略对应的动作值函数Q:
其中,ω为参数,Q是评论家网络Q函数,Q*是旧的参数滞后保存网络。
优选的,所述演员家网络通过执行动作a=π(s;θ)用于更新位置特征lt,并朝着使得值函数Q增大的方向更新策略的参数θ,即对损失函数J求Q值方向的导数,以使得它取得最大值,其求导后的策略梯度如下:
与现有技术相比,本发明提供的基于时空强化学习的视频时刻定位方法,通过时序强化学习根据环境做出的动作决策,定位视频边界,并通过所述空间强化学习追踪场景的动态变化,同时通过注意力机制进行进一步过滤相关性少的空间信息,最后通过时序强化学习和空间强化学习交替增强直至收敛。本发明提供的视频时刻定位方法避免依靠大量的滑动窗口候选集,结合句子的语义信息,扩展使用时空强化学习分别处理视频在时序上和空间帧上的信息,以帮助智能体更好的理解视频内容,返回更精确的视频定位边界,提高用户的查询体验。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1为本发明提供的基于时空强化学习的跨模态视频时刻定位方法的流程图;
图2为本发明提供的空间强化学习的探索移动示意图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如本领域技术人员所知,强化学习是一种基于序列行为的反馈进行的无标注的学习策略的方法。一般地,强化学习系统包括智能体和执行环境,智能体通过与执行环境的交互和反馈,不断进行学习,优化其策略。具体而言,智能体观察并获得执行环境的状态(state),根据一定策略,针对当前执行环境的状态确定要采取的行为或动作(action)。这样的行为作用于执行环境,会改变执行环境的状态,同时产生一个反馈给智能体,基于该反馈可确定回报值(reward)。智能体根据获得的回报值来判断,之前的行为是否正确,策略是否需要调整,进而更新其策略。通过反复不断地观察状态、确定行为、收到反馈,使得智能体可以不断更新策略,最终目标是能够学习到一个策略,使得获得的回报值累积(即总收益)最大化。
请参阅图1,本发明提供了一种基于时空强化学习的跨模态视频时刻定位方法,其包括以下步骤:
S01、输入完整视频和查询语句,抽取视频特征和查询语句特征,构建强化学习环境;
S02、基于环境信息进行时序强化学习,定位视频的时序边界,所述环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征;
S03、基于所述时序强化学习的定位边界进行空间强化学习,在所述环境中处理空间信息并逐帧追踪相关场景,并用注意力机制过滤无关信息;
S04、根据空间强化学习更新时序强化学习的局部片段特征,使得所述空间强化学习和所述时序强化学习交替训练,直至收敛,得到对应查询语句的视频时刻片段。
此外,本发明还提供了一种基于时空强化学习的跨模态视频时刻定位的时序强化学习智能体和空间强化智能体,该系统用于完成上述方法的步骤。
具体的,在步骤S01中,输入一个未修剪的长视频V={v1,v2,...,vn},其中vi(i=1,2,...,n)是第i个图像帧,以及一个查询句s,目标是识别符合查询语句的视频边界,即l=[lstart,lend]。抽取视频全局特征、视频局部特征、定位边界和查询语句,构建强化学习环境。
在步骤S02中,对于给定的视频和查询语句,时序强化学习智能体接收整个视频和查询语句作为输入,并采取一系列决策来输出定位边界。具体的,定义状态为:
se t=[fe,lt,fo t,fg] (1)
其中fe为查询语句特征、lt为位置特征、fo t为所述位置特征相应的空间信息特征,fg为视频全局特征,t是当前时间步。定义所述时序强化学习智能体的动作Ae,所述动作Ae包括7个预定义的动作,所述动作包括同时向前移动起点、同时向前移动终点、同时向后移动起点、同时向后移动终点、单独向前/向后移动起点和终点、单独向后移动起点和终点以及停止动作。设置所述时序强化学习智能体移动的初始位置为L0=[0.25*n,0.75*n],其中n是视频中图像帧的总长度,动作每步的移动大小设置为n/2ze,ze为确定的超参数,其决定了智能体的移动的数目。定义智能体的最大搜索步数,以确保在有限步数中智能体能历遍整个图像帧。
视频时刻定位的目的在于尽可能准确地定位边界,因此在本步骤中使用IoU进行评估。IoU(Intersection over Union)是一种测量在特定数据集中检测相应物体准确度的一个标准。在本发明中,IoU用于衡量边界和真实边界重叠程度,其由公式(2)可以得到:
根据IoU的计算结果,定义智能体每步移动的奖励为公式(3):
其中,φ为惩罚系数,当IoUt大于IoUt-1,则当前动作将被视为正反馈,奖励为正,否则奖励为零或负,同时减去一个智能体对步数的惩罚。即,搜索的步数越多,奖励相对就越少。
此时得到时序强化学习定位到的局部视频特征。
在步骤S03中,所述空间强化学习智能体接收图像帧序列和查询语句作为输入,观察帧的空间信息,并输出连续图像帧的空间边界。由于在每个图像帧中定位场景应该是利用多个智能体独立执行每帧的操作,然而这将导致严重的时间消耗和不稳定。
因此在本发明中使用目标跟踪框算法来实现这一点。即实现每一时刻的空间信息会在上一时刻跟踪框的基础上进行移动。所述目标跟踪框算法包括:
定义状态为:
ss k=[fe,fo k,fs] (4)
其中,fe为查询语句特征,fo k为空间信息特征,fs为由时序强化学习定位到的局部视频特征,t是当前时间步。
所述空间强化学习智能体的动作空间由9个预定义的动作组成,控制局部目标框的移动,所述动作包括左移、右移、上移、下移、放大、缩小、变长、变宽以及停止动作。跟踪框表示为b=[x,y,m,n],其中[x,y]是框的中心点,[m,n]是框的大小。初始位置为b0=[0.25*h,0.25*w,0.75*h,0.75*w],其中h和w是图像帧的高度和宽度。步长设置为垂直方向的h/2zs和水平方向的w/2zs,其中zs是一个超参数,它决定了智能体的移动的数目,以确保在有限步数中智能体能遍历整个图像帧。空间强化学习使用IoU进行评估,空间强化学习的奖励函数为公式(5):
其中Q值为状态执行动作后获得的期望回报,当更新特征后的Q值(Qo)大于更新前的Q值(Qw),则奖励增加就1,Q值(Qo)不变就0,Q值(Qo)减少则奖励为-1。
其中,空间强化学习的网络结构与所述时序强化的网络结构一致,但两者的动作的探索方式不一样。请参阅图2,在空间强化学习中,类似于游戏回合的探索,对于在[lstart,lend]的视频段的每一帧,都需要做移动,且每一帧的移动将在上一帧动作框的基础上进行。图像帧vk上的跟踪框用bvk表示,其表示为公式(6):
为了处理不同图像帧上不同大小的跟踪框,利用空间金字塔池化来处理局部得到特征fo k。同时,为了进一步过滤空间信息中的冗余信息,本发明使用注意力机制来优化特征表达如公式(7):
其中Wq和Wo是权重矩阵,b是偏置向量,q是权重向量。
在步骤S04中,通过深度确定性策略梯度算法更新时序强化学习。所述深度确定性策略梯度算法包括评论家网络、演员家网络、评论家参数滞后保存网络和演员家参数滞后保存网络。
所述评论家网络用于值函数近似,用于评估当下状态下的动作是否有效。当最优动作值函数Q(s,a)被视为逼近最优策略π时,智能体将获得最大的期望回报,如公式(8):
Qπ(s,a)=Ε[R|st=s,at=a]=Εs'[r+γΕa'~π[Qπ(s',a')]] (8)
γ是Q值的折扣因子,用于平衡奖励和预估值之间的重要性。
所述评论家网络通过最小化损失来学习与最优化最优策略对应的动作值函数Q:
其中,ω为参数,Q是评论家网络Q函数,Q*是旧的参数滞后保存网络,[s,a,r,s’]将从记忆库中采样获得。
演员家网络是一种参数化策略,它执行动作a=π(s;θ)去更新位置特征lt。直观的思想是直接调整策略的参数θ以最大限度地实现目标,为了得到一个好的演员家网络,此时的评价标准应该为朝着使得值函数Q增大的方向去更新策略的参数θ,即对损失函数J求Q值方向的导数,以使得它取得最大值。求导后的策略梯度如下:
评论家网络和演员家网络的参数滞后保存网络会按照软更新的方法更新参数,即每一步都会更新对应的参数滞后保存网络,且更新的幅度小。
在步骤S04中,所述时序强化学习和空间强化学习的交替训练具体为:两层强化学习之间是合作关系,在时序强化学习的优化过程中,从空间强化学习中获得了空间局部特征,从而能滤掉相关性低的信息,提高边界定位性能。而在空间强化学习的优化过程中,初始的定位边界由时序强化学习给定,能够在语义相似的片段中有针对性的进行跟踪框移动,优化局部相关信息的表达。
与现有技术相比,本发明提供的基于时空强化学习的视频时刻定位方法,通过时序强化学习根据环境做出的动作决策,定位视频边界,并通过所述空间强化学习追踪场景的动态变化,同时通过注意力机制进行进一步过滤相关性少的空间信息,最后通过时序强化学习和空间强化学习交替增强直至收敛。本发明提供的视频时刻定位方法不需要依靠大量的滑动窗口候选集,且结合句子的语义信息,扩展使用时空强化学习分别处理视频在时序上和空间帧上的信息,以帮助智能体更好的理解视频内容,返回更精确的视频定位边界,提高用户的查询体验。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
Claims (5)
1.一种基于时空强化学习的跨模态视频时刻定位方法,其特征在于,包括以下步骤:
S01、输入完整视频和查询语句,抽取视频特征和查询语句特征,构建强化学习环境;
S02、基于强化学习环境信息进行时序强化学习并定位视频的时序边界,所述环境信息包括视频全局特征、视频局部特征、定位边界和查询语句特征;
S03、基于所述时序强化学习的定位边界进行空间强化学习,在所述环境中处理空间信息并逐帧追踪相关场景,并用注意力机制过滤无关信息;
S04、根据空间强化学习更新时序强化学习的局部片段特征,使得所述空间强化学习和所述时序强化学习交替训练,直至收敛,得到对应查询语句的视频时刻片段,
所述步骤S02中,所述时序强化学习步骤包括:定义状态为se t=[fe,lt,fo t,fg],其中fe为查询语句特征、lt为位置特征、fo t为所述位置特征相应的空间信息特征,fg为视频全局特征,t是当前时间步;定义时序强化学习智能体的动作Ae,所述动作Ae包括同时向前移动起点、同时向前移动终点、同时向后移动起点、同时向后移动终点、单独向前/向后移动起点和终点、单独向后移动起点和终点以及停止动作;设置所述时序强化学习智能体移动的初始位置为L0=[0.25*n,0.75*n],其中n是视频图像帧的总长度,动作每步的移动大小设置为n/2ze,其中ze为确定的超参数;定义智能体的最大搜索步数;所述时序强化学习智能体从环境中获取所述状态后,执行动作Ae,使用IoU评估后得到每步的奖励,
所述步骤S02中,使用IoU进行评估的公式为:
根据IoU的计算结果,定义所述时序强化学习智能体每步移动的奖励re t为:
其中,φ为惩罚系数,当IoUt大于IoUt-1,则当前动作将被视为正反馈,奖励为正,否则奖励为零或负,同时减去一个智能体对步数的惩罚,
步骤S03中,所述空间强化学习使用目标跟踪框算法实现观察输入视频帧的空间信息,并输出连续图像帧的空间边界,
步骤S03中,所述目标跟踪框算法包括:定义状态为ss k=[fe,fo k,fs],其中fe为查询语句特征,fo k为空间信息特征,fs为由时序强化学习定位到的局部视频特征,t是当前时间步;定义空间强化学习智能体的动作,控制局部目标框的移动,所述动作包括左移、右移、上移、下移、放大、缩小、变长、变宽以及停止动作;设置目标跟踪框为b=[x,y,m,n],其中[x,y]是目标跟踪框的中心点,[m,n]是所述目标跟踪框的大小;设置初始位置为b0=[0.25*h,0.25*w,0.75*h,0.75*w],其中h和w为图像帧的高度和宽度;设置步长为垂直方向的h/2zs和水平方向的w/2zs,其中zs为超参数;所述空间强化学习智能体使用IoU进行评估,得到其奖励函数r为:
其中Q值为状态执行动作后获得的期望回报,当更新特征后的Q值Qo大于更新前的Q值Qw,则奖励为1,Q值Qo不变则奖励为0,Q值Qo小于更新前的Q值Qw则奖励为-1。
2.根据权利要求1所述的基于时空强化学习的跨模态视频时刻定位方法,其特征在于,步骤S04中通过深度确定性策略梯度算法更新时序强化学习。
3.根据权利要求2所述的基于时空强化学习的跨模态视频时刻定位方法,其特征在于,步骤S04中所述深度确定性策略梯度算法包括评论家网络、演员家网络、评论家参数滞后保存网络和演员家参数滞后保存网络。
4.根据权利要求3所述的基于时空强化学习的跨模态视频时刻定位方法,其特征在于,所述评论家网络通过值函数近似用于评估当下动作是否有效,当最优动作的值函数Q(s,a)被视为逼近最优策略π时,所述时序强化学习智能体得到最大期望回报:
Qπ(s,a)=Ε[R|st=s,at=a]=Εs'[r+γΕa'~π[Qπ(s',a')]],
其中,γ是Q值的折扣因子,用于平衡奖励和预估值之间的重要性,s为当下状态,a为当下动作,t为当前时间步;
所述评论家网络通过最小化损失来学习与最优化最优策略对应的动作值函数Q:
y=r+γmaxQ*(s',a'|ω*)
L(ω)=Εs,a,r,s'~M[(Q(s,a|ω)-y)2]
其中,ω为参数,Q是评论家网络的值函数,Q*是评论家参数滞后保存网络的值函数。
5.根据权利要求4所述的基于时空强化学习的跨模态视频时刻定位方法,其特征在于,所述演员家网络通过执行动作a=π(s;θ)用于更新位置特征lt,并朝着使得值函数Q增大的方向更新策略的参数θ,即对损失函数J求Q值方向的导数,以使得它取得最大值,其求导后的策略梯度如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562550.8A CN111782871B (zh) | 2020-06-18 | 2020-06-18 | 基于时空强化学习的跨模态视频时刻定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010562550.8A CN111782871B (zh) | 2020-06-18 | 2020-06-18 | 基于时空强化学习的跨模态视频时刻定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782871A CN111782871A (zh) | 2020-10-16 |
CN111782871B true CN111782871B (zh) | 2024-06-25 |
Family
ID=72756762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010562550.8A Active CN111782871B (zh) | 2020-06-18 | 2020-06-18 | 基于时空强化学习的跨模态视频时刻定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782871B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111837B (zh) * | 2021-04-25 | 2022-05-13 | 山东省人工智能研究院 | 基于多媒体语义解析的监控视频智能预警方法 |
CN113204675B (zh) * | 2021-07-07 | 2021-09-21 | 成都考拉悠然科技有限公司 | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 |
CN114064967B (zh) * | 2022-01-18 | 2022-05-06 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
JPWO2023170973A1 (zh) * | 2022-03-11 | 2023-09-14 | ||
CN117409557B (zh) * | 2023-12-14 | 2024-02-20 | 成都格理特电子技术有限公司 | 基于动态分析的检测高温报警方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582868A (zh) * | 2018-11-27 | 2019-04-05 | 湖南大学 | 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10192117B2 (en) * | 2015-06-25 | 2019-01-29 | Kodak Alaris Inc. | Graph-based framework for video object segmentation and extraction in feature space |
US10943122B2 (en) * | 2017-03-02 | 2021-03-09 | Ricoh Company, Ltd. | Focalized behavioral measurements in a video stream |
CN111079646B (zh) * | 2019-12-16 | 2023-06-06 | 中山大学 | 基于深度学习的弱监督视频时序动作定位的方法及系统 |
CN111274438B (zh) * | 2020-01-15 | 2023-06-23 | 中山大学 | 一种语言描述引导的视频时序定位方法 |
-
2020
- 2020-06-18 CN CN202010562550.8A patent/CN111782871B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582868A (zh) * | 2018-11-27 | 2019-04-05 | 湖南大学 | 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法 |
Non-Patent Citations (1)
Title |
---|
监督学习算法的视频动作识别改进研究;韦俊;;信息技术(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111782871A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782871B (zh) | 基于时空强化学习的跨模态视频时刻定位方法 | |
KR102339727B1 (ko) | 신뢰도 추정을 통한 글로벌 및 로컬 검색을 기반으로 한 견고한 시각적 물체 추적 | |
CN111104595A (zh) | 一种基于文本信息的深度强化学习交互式推荐方法及系统 | |
CN113936275A (zh) | 一种基于区域特征对齐的无监督域适应语义分割方法 | |
CN113920170B (zh) | 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质 | |
WO2023061102A1 (zh) | 视频行为识别方法、装置、计算机设备和存储介质 | |
CN113435430B (zh) | 基于自适应时空纠缠的视频行为识别方法、系统、设备 | |
CN111508000B (zh) | 基于参数空间噪声网络的深度强化学习目标跟踪方法 | |
CN110675429A (zh) | 基于孪生网络和相关滤波器的长短程互补型目标跟踪方法 | |
CN105760443A (zh) | 项目推荐系统、项目推荐装置以及项目推荐方法 | |
CN112132866A (zh) | 目标对象跟踪方法、装置、设备及计算机可读存储介质 | |
CN111914878A (zh) | 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质 | |
CN113628244A (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
AU2022200537A1 (en) | Training method for multi-object tracking model and multi-object tracking method | |
US20210374604A1 (en) | Apparatus and method for training reinforcement learning model for use in combinatorial optimization | |
CN111105442B (zh) | 切换式目标跟踪方法 | |
CN112614163A (zh) | 一种融合贝叶斯轨迹推理的目标跟踪方法及系统 | |
CN118742925A (zh) | 使用神经网络跟踪视频中的查询点 | |
CN112183580B (zh) | 一种基于动态知识路径学习的小样本分类方法 | |
KR102289668B1 (ko) | 매칭 신뢰도 기반 시멘틱 매칭 장치 및 방법 | |
CN110503661A (zh) | 一种基于深度强化学习和时空上下文的目标图像追踪方法 | |
CN114282440B (zh) | 一种抽水蓄能机组调节系统鲁棒辨识方法 | |
CN117035038A (zh) | 模型剪枝方法、装置、设备及存储介质 | |
CN111539989B (zh) | 基于优化方差下降的计算机视觉单目标跟踪方法 | |
US12112518B2 (en) | Object detection device, learning method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |