CN111639548A - 一种基于门的视频上下文多模态感知特征优化方法 - Google Patents

一种基于门的视频上下文多模态感知特征优化方法 Download PDF

Info

Publication number
CN111639548A
CN111639548A CN202010394250.3A CN202010394250A CN111639548A CN 111639548 A CN111639548 A CN 111639548A CN 202010394250 A CN202010394250 A CN 202010394250A CN 111639548 A CN111639548 A CN 111639548A
Authority
CN
China
Prior art keywords
feature
optimization
flow
context
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010394250.3A
Other languages
English (en)
Inventor
高英
林文根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010394250.3A priority Critical patent/CN111639548A/zh
Publication of CN111639548A publication Critical patent/CN111639548A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

一种基于门的视频上下文多模态感知特征优化方法,具体步骤为,步骤一:输入RGB视频序列和光流序列;步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;步骤三:输入双流特征优化结构;步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。

Description

一种基于门的视频上下文多模态感知特征优化方法
技术领域
本发明涉及视频分析技术领域,具体涉及一种基于门的视频上下文多模态感知特征优化方法。
背景技术
现有计算机视觉等相关技术领域中,行为识别和视频行人重识别等领域采用的多模态融合方案,存在多模态信息利用不完全、特征并行而缺乏多模态全局的监督学习的问题。视频或者图像序列与单一图像的区别不止在于外观特征更加丰富且连续和以光流为代表的运动模态的丰富信息,还在于运动模态的关键信息可以有助于区分外观层面的关键特征以及外观信息的突出特征可以作为运动模态层面的启发信息,即模态之间交互学习的作用。时序上的交互学习得到的特征是真正所谓跨模态学习的产物,是融合多模态信息后视频级的全局特征,具有良好的表征效果。
现有的多模态融合模型主要有三种,如图1、图2和图3所示:通道融合、特征元素加法和特征合并,
通道融合是在利用深度卷积网络进行特征提取之间,将两种模态按照通道进行结合,形成一个统一的输入,并由单一的特征提取网络进行提取;特征元素加法是在深度卷积网络进行特征提取的过程中,将两种模态的特征按元素对应相加,形成统一的多模态融合特征;特征合并又可称为特征后融合,是使用两个独立的特征提取网络对两种模态的信息进行提取,最终进行特征融合。通道融合和特征元素加法的缺陷在于采用一个特征提取网络提取两种模态的信息,不能很好的对外观信息和运动信息分别进行表征,而特征合并虽然采用并行的双流网络进行特征提取,却忽略了双模态特征之间的交互学习效果。
发明内容
本发明针对现有技术的不足,提出采用一种独立的双特征提取网络分别对RGB序列和光流序列进行特征表征,同时建立时序上双流循环神经网络进行交互学习,即保留了视频序列的上下文连续性,又通过多模态感知促进外观信息和运动信息之间的协同作用,解决了现有技术方案的局限性的基于门的视频上下文多模态感知特征优化方法,具体技术方案如下:
一种基于门的视频上下文多模态感知特征优化方法,具体步骤为,步骤一:输入RGB视频序列和光流序列;
步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;
步骤三:输入双流特征优化结构;
步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;
步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;
步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。
为更好的实现本发明:
作为优化,所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为,设置同模态时序上下文学习器,其输入为前一交互学习后的优化特征及当前模态当前帧的特征,其主要结构为1*1卷积层和通道注意力结构,用于学习联合前后帧的上下文信息后、该模态在这个时间节点保留的特征,这里运用通道注意力的深度卷积网络能够有效提取上下文特征,并以此学习与帧特征尺度一致的掩码矩阵作为参数,实现门的设计,保证了同模态信息的时序传递。
作为优化,所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化,具体为:设置跨模态交互学习器,其输入为当前模态当前节点帧和另一个模态当前节点帧,RGB序列和光流序列的总帧数一致,故能保持每个时间节点的特征帧一一对应,跨模态交互学习器包括1*1的卷积层和通道注意力的网络设计,学习同一时间节点帧下跨模态之间的相互关系,生成同被修改帧相同尺度的更新掩码,即交互学习的参数,同被修改特征相乘,实现门的作用,跨模态交互学习器实现了模态之间交互联系的建模。
作为优化,所述步骤五具体为,循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入,每个输入流每一帧嵌入一个同模态时序上下文学习器和一个跨模态交互学习器,实现了同模态上下文保留和跨模态特征学习优化的协同,其中长序列双流特征优化结构整体呈双流对称的设计特点,同模态时序上下文学习器学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元,非保留信息则视为可更新优化特征,通过跨模态交互学习器学习的门参数对非保留信息进行特征优化,这部分即为跨模态交互得到的优化特征并与通过同模态时序上下文学习器的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征,并传递到下一个双流特征优化记忆单元。
本发明的有益效果为:本发明方法颠覆原有各种双流并行特征融合的方式,在两种模态提取特征的基础上,通过时序串联的RNN式设计进行上下文特征感知,同时对于模态之间,本发明进行双模态之间的交互性学习,实现特征的跨模态感知优化,目的在于获得更具有鲁棒性和判别力的特征;
本发明的两种感知特征优化均是基于门的设计理念,通过借鉴LSTM记忆流的设计结构,设计了两种类型的“门”,分别为“保留门”和“更新门”,“保留门”主要针对时序信息的上下文连续性,将历史帧的信息进行适当保留,作为后续帧特征的补充;“更新门”是跨模态交互学习的关键技术,是通过输入双模态的同时间节点的两帧,对于每一种模态而言,都是学习另一种模态的特征对于自身的更新效果;
两种门都是一种权重学习,通过学习每个特征对应的权重矩阵,可以视为特征之间的关联参数,具有保留有效影响特征并舍弃无效特征的作用。同时,本发明基于通道注意力特征提取网络设计两种门的权重学习网络,能够有效提取同模态和跨模态之间的特征交互信息。通过两种门在双流模型上的串联,本发明构造了双流特征感知优化网络,是跨模态双流模型在交互思想上的有效体现和对跨模态学习的有效补充,并在视频时序特征的提取上具有良好的促进效果。
基于门的上下文跨模态特征感知优化算法的特点是:1,利用并行的特征提取网络提取双流输入能够很好保留两种模态的有效特征,更好的获得外观信息和运动信息的表征。2,利用“保留门”可以获得时序信息的上下文特征,在视频这种时序特征提取问题上具有比较好的效果。3,利用“更新门”进行跨模态交互性学习,能够根据光流信息捕捉更具有判别力的外观区域、根据外观区域获得更具运动变化特征的时序表征。4,在双流模型的基础上加入“保留门”和“更新门”,可以实现连续多帧的上下文和多模态交互特征学习和融合,这两种特征感知优化使得双流特征实现“1+1>2”的效果。
附图说明
图1为本发明中现有的通道融合方法结构示意图。
图2为本发明中特征元素加法结构示意图。
图3为本发明中特征合并方法的结构示意图。
图4为本发明中多模态融合模型的结构示意图。
图5为本发明中同模态时序上下文学习器的结构示意图。
图6为本发明中跨模态交互学习器的结构示意图。
图7为本发明中长序列双流特征优化记忆结构示意图。
图8为本发明中长序列特征优化记忆单元的结构示意图。
图9为本发明的结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
如图4和图9所示:一种基于门的视频上下文多模态感知特征优化方法,具体步骤为,步骤一:输入RGB视频序列和光流序列;
步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;
步骤三:输入双流特征优化结构;
步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;
如图5所示,其中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为,同模态时序上下文学习器,即“保留门”,其输入为前一交互学习后的优化特征及当前模态当前帧的特征,其主要结构为1*1卷积层和通道注意力结构,用于学习联合前后帧的上下文信息后,该模态在这个时间节点保留的特征。这里运用通道注意力的深度卷积网络能够有效提取上下文特征,并以此学习与帧特征尺度一致的掩码矩阵作为参数,实现门的设计。“保留门”保证了同模态信息的时序传递。
假设保留门的输入为I*,对于RGB模态,上一时间帧得到的优化特征为Xt-1′,当前时间帧的RGB基础特征为Xt,t表示当前时间戳,则RGB模态“保留门”的输入为
Ir,x,t=[Xt-1′,Xt]=Concate(Xt-1′,Xt)
同理,假设光流模态的上一时间戳得到的优化特征为Ft-1′,当前时间戳的光流帧的基本特征为Ft,则光流模态“保留门”的输入为
Ir,f,t=[Ft-1′,Ft]=Concate(Ft-1′,Ft)
对于两种模态而言,Ir泛指两种模态保留门的输入,则“保留门”学习到的上下文感知保留参数矩阵为
Figure BDA0002486817730000061
Figure BDA0002486817730000062
泛指两种模态保留门学习到的权重掩码矩阵。其中全连接结构是由两个全连接层(fc1和fc2)组成的通道注意力结构,用于生成感知权重。则RGB模态上下文保留的特征为
Figure BDA0002486817730000063
而光流模态的上下文保留特征为
Figure BDA0002486817730000064
其中
Figure BDA0002486817730000065
Figure BDA0002486817730000066
分别代表第t时间戳RGB模态和光流模态由上式学习得到的上下文感知特征保留参数矩阵。
RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化,具体为:跨模态交互学习器,即“更新门”,如图6所示,其输入为当前模态当前节点帧和另一个模态当前节点帧,RGB序列和光流序列的总帧数一致,故能保持每个时间节点的特征帧一一对应。“更新门”的主要结构同样是1*1的卷积层和通道注意力的网络设计,学习同一时间节点帧下跨模态之间的相互关系,生成同被修改帧相同尺度的更新掩码,即交互学习的参数,同被修改特征相乘,实现门的作用。“更新门”实现了模态之间交互联系的建模。
步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;
具体为:如图7所示,其主要由循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入,这种设计结构是借鉴LSTM的记忆结构进行设计的,是在双流LSTM的基础上进行变形和改进。长序列特征优化记忆单元的结构如图8所示,我们通过对每个输入流每一帧嵌入一个“保留门”和一个“更新门”,实现了同模态上下文保留和跨模态特征学习优化的协同。由图可以看出,长序列双流特征优化结构整体呈双流对称的设计特点,保留门学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元,非保留信息则视为可更新优化特征,通过更新门学习的门参数对非保留信息进行特征优化,这部分即为跨模态交互得到的优化特征并与通过保留门的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征,并传递到下一个双流特征优化记忆单元。
假设RGB模态和光流模态的基础特征分别为
Figure BDA0002486817730000071
Figure BDA0002486817730000072
而经过双流特征感知优化后的双模态特征分别为
Figure BDA0002486817730000073
Figure BDA0002486817730000074
即RGB特征优化记忆流和光流特征优化记忆流为X′和F′。则根据图8的结构设计,通过串联保留门和更新门,得到上下文感知优化特征和多模态感知优化特征,得到当前时间戳的感知优化特征。对于RGB模态而言,在t时间戳,融合两种感知优化得到的RGB特征为
Figure BDA0002486817730000075
而对于光流模态而言,得到的优化特征为
Figure BDA0002486817730000076
可以发现,其前者都是保留特征,后者是在非保留的权重上结合多模态信息感知的更新,两者相加便是结合上下文感知和多模态感知的优化特征。
步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。

Claims (4)

1.一种基于门的视频上下文多模态感知特征优化方法,其特征在于,具体步骤为,步骤一:输入RGB视频序列和光流序列;
步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;
步骤三:输入双流特征优化结构;
步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;
步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;
步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。
2.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为,设置同模态时序上下文学习器,其输入为前一交互学习后的优化特征及当前模态当前帧的特征,其主要结构为1*1卷积层和通道注意力结构,用于学习联合前后帧的上下文信息后、该模态在这个时间节点保留的特征,这里运用通道注意力的深度卷积网络能够有效提取上下文特征,并以此学习与帧特征尺度一致的掩码矩阵作为参数,实现门的设计,保证了同模态信息的时序传递。
3.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化,具体为:设置跨模态交互学习器,其输入为当前模态当前节点帧和另一个模态当前节点帧,RGB序列和光流序列的总帧数一致,故能保持每个时间节点的特征帧一一对应,跨模态交互学习器包括1*1的卷积层和通道注意力的网络设计,学习同一时间节点帧下跨模态之间的相互关系,生成同被修改帧相同尺度的更新掩码,即交互学习的参数,同被修改特征相乘,实现门的作用,跨模态交互学习器实现了模态之间交互联系的建模。
4.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤五具体为,循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入,每个输入流每一帧嵌入一个同模态时序上下文学习器和一个跨模态交互学习器,实现了同模态上下文保留和跨模态特征学习优化的协同,其中长序列双流特征优化结构整体呈双流对称的设计特点,同模态时序上下文学习器学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元,非保留信息则视为可更新优化特征,通过跨模态交互学习器学习的门参数对非保留信息进行特征优化,这部分即为跨模态交互得到的优化特征并与通过同模态时序上下文学习器的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征,并传递到下一个双流特征优化记忆单元。
CN202010394250.3A 2020-05-11 2020-05-11 一种基于门的视频上下文多模态感知特征优化方法 Pending CN111639548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010394250.3A CN111639548A (zh) 2020-05-11 2020-05-11 一种基于门的视频上下文多模态感知特征优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010394250.3A CN111639548A (zh) 2020-05-11 2020-05-11 一种基于门的视频上下文多模态感知特征优化方法

Publications (1)

Publication Number Publication Date
CN111639548A true CN111639548A (zh) 2020-09-08

Family

ID=72331998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010394250.3A Pending CN111639548A (zh) 2020-05-11 2020-05-11 一种基于门的视频上下文多模态感知特征优化方法

Country Status (1)

Country Link
CN (1) CN111639548A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743414A (zh) * 2021-08-02 2021-12-03 清华大学 基于语义编码的病灶识别方法、装置及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110889375A (zh) * 2019-11-28 2020-03-17 长沙理工大学 用于行为识别的隐双流协作学习网络及方法
CN111046633A (zh) * 2019-12-05 2020-04-21 国家电网公司西北分部 一种基于lstm的电网一次调频数据预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753897A (zh) * 2018-12-21 2019-05-14 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110889375A (zh) * 2019-11-28 2020-03-17 长沙理工大学 用于行为识别的隐双流协作学习网络及方法
CN111046633A (zh) * 2019-12-05 2020-04-21 国家电网公司西北分部 一种基于lstm的电网一次调频数据预测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743414A (zh) * 2021-08-02 2021-12-03 清华大学 基于语义编码的病灶识别方法、装置及系统
CN113743414B (zh) * 2021-08-02 2022-08-05 清华大学 基于语义编码的病灶识别方法、装置及系统

Similar Documents

Publication Publication Date Title
CN110096950A (zh) 一种基于关键帧的多特征融合行为识别方法
CN110399518B (zh) 一种基于图卷积的视觉问答增强方法
CN112036276B (zh) 一种人工智能视频问答方法
CN114882421B (zh) 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN106022237A (zh) 一种端到端的卷积神经网络的行人检测方法
CN104050245B (zh) 一种基于活跃度的社交网络影响力最大化方法
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN111178319A (zh) 基于压缩奖惩机制的视频行为识别方法
CN108596240B (zh) 一种基于判别特征网络的图像语义分割方法
CN113033454B (zh) 一种城市视频摄像中建筑物变化的检测方法
CN115311605B (zh) 基于近邻一致性和对比学习的半监督视频分类方法及系统
CN115391563A (zh) 一种基于多源异构数据融合的知识图谱链路预测方法
CN111639548A (zh) 一种基于门的视频上下文多模态感知特征优化方法
CN114283315A (zh) 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法
CN113689382A (zh) 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN116189306A (zh) 基于联合注意力机制的人体行为识别方法
CN116189292A (zh) 一种基于双流网络的视频动作识别方法
CN114911930A (zh) 一种全局与局部互补的双向注意的视频问答方法与系统
CN116340569A (zh) 一种基于语义一致性的半监督短视频分类方法
CN113283393B (zh) 基于图像组与两流网络的Deepfake视频检测方法
CN113269068B (zh) 一种基于多模态特征调节与嵌入表示增强的手势识别方法
CN115457657A (zh) 基于bert模型的通道特征交互时间建模行为识别方法
CN114972795A (zh) 一种结合属性检测和视觉感知的民族服装图像字幕生成方法
CN117315765A (zh) 一种增强时空特征的动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200908