CN113722536A - 基于双线性自适应特征交互与目标感知的视频描述方法 - Google Patents

基于双线性自适应特征交互与目标感知的视频描述方法 Download PDF

Info

Publication number
CN113722536A
CN113722536A CN202110849723.9A CN202110849723A CN113722536A CN 113722536 A CN113722536 A CN 113722536A CN 202110849723 A CN202110849723 A CN 202110849723A CN 113722536 A CN113722536 A CN 113722536A
Authority
CN
China
Prior art keywords
video
features
video description
feature
bilinear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110849723.9A
Other languages
English (en)
Other versions
CN113722536B (zh
Inventor
马苗
田卓钰
刘士昌
郭敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202110849723.9A priority Critical patent/CN113722536B/zh
Publication of CN113722536A publication Critical patent/CN113722536A/zh
Application granted granted Critical
Publication of CN113722536B publication Critical patent/CN113722536B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于双线性自适应特征交互与目标感知的视频描述方法,由构建视频描述网络模型、训练视频描述网络模型、检测测试集视频组成。本发明采用了使用编解码结构的视频描述方法。采用了双线性自适应特征交互模块,分别提取视频的动态特征、静态特征和目标特征,进行交互式融合,形成互补的多模态特征,细粒度刻画视频内容;在目标特征提取部分,采用了视频目标感知特征提取分支,在提取关键目标信息的同时,抑制背景信息,让更多信息用于表达视频中的真实目标,将融合特征输入基于门控循环单元构建的自然语言描述模型,生成准确文字。本发明具有视频描述结果准确、详细等优点,适用于任意多种类型特征融合的视频转换成文字。

Description

基于双线性自适应特征交互与目标感知的视频描述方法
技术领域
本发明属于计算机视觉和自然语言处理的交叉研究技术领域,具体地涉及到视频中的语言描述生成。
背景技术
视频描述技术是使用自然语言将给定视频的视觉信息转换为语义文本。该视频描述技术是在人机交互、视频监控和视觉辅助等领域具有广阔的应用前景和应用价值。但由于视频描述任务涉及计算机视觉和自然语言处理的交叉研究,弥合低级视觉特征和高级语义信息之间的差距较为复杂,使该任务具有很大的难度。
视频描述研究始于基于模板或规则的视频描述方法,早期研究者借助手工特征从视频中提取视觉信息,然后运用识别检测技术获取如人物、动作、场景等语义对象,将其按照预定义的模板或规则填入相应位置,组合成描述语句。虽然基于模板或规则的视频描述方法在早期视频描述研究中取得了较好效果,但这些方法主要集中于检测预定义实体或事件并使用固定的模板和规则生成描述,严重限制语义的高效表达,所生成的句子在语法结构和语义表达方面都不够灵活,难以描述视频中的所有可能事件。
近年来,深度学习在计算机视觉的几乎所有子领域中取得的巨大成功也革新了视频描述方法。研究者开始利用深度卷积神经网络进行视频特征编码,并利用循环神经网络或其变体长短期记忆网络对视觉特征进行解码,进而生成描述语句。但是,现有模型欠缺融合视频提取的不同类型特征的方法,所使用的融合多模态特征的操作手段单一,难以高效发挥出各类特征的优势;现有使用目标特征的模型仅利用检测器获取并按置信度排序筛选出固定数量的检测框作为目标区域,提取目标特征,然而视频中目标数量不定且同一视频不同视频帧的目标数量不定,设置固定的检测框数量会导致视频中的目标信息无法被充分挖掘,会引入大量背景噪声,严重地限制了目标特征的作用,难以准确生成高质量的视频描述文字。
在视频描述技术领域,当前需迫切解决的技术问题是提供一种将视频图像能够准确快速地转换成文字的技术方案。
发明内容
本发明所要解决的技术问题在于克服现有技术的缺点,提供一种能够有效、准确、快速地将视频转换成文字的基于双线性自适应特征交互与目标感知的视频描述方法。
解决上述技术问题所采用的技术方案是由下述步骤组成:
(1)构建视频描述网络模型
在Pytorch框架下,构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型。
所述的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成,编码器由词嵌入特征提取分支、双线性自适应特征交互模块、门控循环单元、语义特征提取分支、视频目标感知特征提取分支、视频静态特征提取分支、视频动态特征提取分支组成,视频动态特征提取分支、视频静态特征提取分支、视频目标感知特征提取分支、词嵌入特征提取分支的输出与双线性自适应特征交互模块的输入相连,语义特征提取分支和双线性自适应特征交互模块的输出与门控循环单元的输入相连,门控循环单元构成解码器,门控循环单元输出视频描述文字。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,视频描述网络模型共训练45~50轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数L,损失函数L为交叉熵损失:
Figure BDA0003181999050000031
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,
Figure BDA0003181999050000032
为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。
使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到45~50轮,训练结束,得到训练好的视频描述网络。
(3)检测测试集视频
将测试集中的视频输入训练好的视频描述网络中,输出视频描述文字。
在本发明的(1)构建视频描述网络模型步骤中,所述的视频目标感知特征提取分支的构建方法为:对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法,检测Center-ness热力图中所激活的连通区域,并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除,得到目标感知图,将目标感知图Mapobject与FCOS检测模型中特征金字塔网络的P7层特征图Map7按下式得到单帧目标特征
Figure BDA0003181999050000033
Figure BDA0003181999050000034
其中k为视频V的帧数/20所得到的数值下取整,·为特征向量对应位置相乘操作,GAP(·)为全局平均池化操作。
将视频V中各单帧目标特征按下式得到视频目标感知特征
Figure BDA0003181999050000035
Figure BDA0003181999050000036
在本发明的(1)构建视频描述网络模型步骤中,所述的双线性自适应特征交互模块2的构建方法为:以全局特征
Figure BDA0003181999050000037
视频目标感知特征
Figure BDA0003181999050000038
词嵌入特征
Figure BDA0003181999050000039
作为输入特征,其中全局特征
Figure BDA00031819990500000310
由视频动态特征和视频静态特征拼接得到;将输入特征进行双线性特征交互按下式得到交互特征
Figure BDA00031819990500000311
交互特征
Figure BDA00031819990500000312
交互特征
Figure BDA00031819990500000313
Figure BDA00031819990500000314
Figure BDA0003181999050000041
其中Sign(·)为符号函数,ε取值为10-12~10-8
将交互特征
Figure BDA0003181999050000042
交互特征
Figure BDA0003181999050000043
交互特征
Figure BDA0003181999050000044
按下式得到各交互特征的权重
Figure BDA0003181999050000045
Figure BDA0003181999050000046
Figure BDA0003181999050000047
Figure BDA0003181999050000048
Figure BDA0003181999050000049
其中Conv1×1(·)表示1×1卷积操作,Sig(·)表示使用Sigmoid激活函数操作;
将交互特征
Figure BDA00031819990500000410
交互特征
Figure BDA00031819990500000411
交互特征
Figure BDA00031819990500000412
和其对应权重
Figure BDA00031819990500000413
按下式得到最终的融合特征
Figure BDA00031819990500000414
Figure BDA00031819990500000415
其中Concat(·)表示从通道维进行特征拼接操作。
由于本发明采用了双线性自适应特征交互模块,分别提取视频的动态特征、静态特征和目标特征,进行交互式融合,形成互补的多模态特征,以细粒度刻画视频内容;在目标特征提取部分,采用了目标感知特征提取分支,在提取关键目标信息的同时,抑制背景信息,让更多信息用于表达视频中的真实目标;将融合特征输入基于门控循环单元构建的自然语言描述模型,生成高质量的描述文字。本发明具有视频描述结果更加准确、详细等优点,旨在解决视频描述技术问题,适用于任意多种类型特征融合的视频描述任务。
附图说明
图1是本发明实施例1的流程图。
图2是图1中视频描述网络模型结构图。
图3是MSVD数据集中测试集视频的截取图像。
图4是图3经过模型处理后输出的视频描述文字。
具体实施方式
下面结合附图和实施例对本发明进一步详细说明,但本发明不限于下述的实施方式。
实施例1
以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例,本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成(参见图1):
(1)构建视频描述网络模型
在Pytorch框架下,构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型。
在图2中,本实施例的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成,编码器由词嵌入特征提取分支1、双线性自适应特征交互模块2、门控循环单元3、语义特征提取分支4、视频目标感知特征提取分支5、视频静态特征提取分支6、视频动态特征提取分支7\解码器组成,视频动态特征提取分支7、视频静态特征提取分支6、视频目标感知特征提取分支5、词嵌入特征提取分支1的输出与双线性自适应特征交互模块2的输入相连,语义特征提取分支4和双线性自适应特征交互模块2的输出与门控循环单元3的输入相连,门控循环单元3构成本实施例的解码器,门控循环单元3输出视频描述文字。
本实施例的视频目标感知特征提取分支5的构建方法为:对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法,检测Center-ness热力图中所激活的连通区域,并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除,得到目标感知图,将目标感知图Mapobject与FCOS检测模型中特征金字塔网络的P7层特征图Map7按下式得到单帧目标特征
Figure BDA0003181999050000051
Figure BDA0003181999050000052
其中k为视频V的帧数/20所得到的数值下取整,·为特征向量对应位置相乘操作,GAP(·)为全局平均池化操作;
将视频V中各单帧目标特征按下式得到视频目标感知特征
Figure BDA0003181999050000061
Figure BDA0003181999050000062
本实施例的双线性自适应特征交互模块2的构建方法为:以全局特征
Figure BDA0003181999050000063
视频目标感知特征
Figure BDA0003181999050000064
词嵌入特征
Figure BDA0003181999050000065
作为输入特征,其中全局特征
Figure BDA0003181999050000066
由视频动态特征和视频静态特征拼接得到;将输入特征进行双线性特征交互按下式得到交互特征
Figure BDA0003181999050000067
交互特征
Figure BDA0003181999050000068
交互特征
Figure BDA0003181999050000069
Figure BDA00031819990500000610
Figure BDA00031819990500000611
其中Sign(·)为符号函数,ε取值为10-12~10-8,本实施例ε的取值为10-10,也可在10-12~10-8范围内任意选取。.
将交互特征
Figure BDA00031819990500000612
交互特征
Figure BDA00031819990500000613
交互特征
Figure BDA00031819990500000614
按下式得到各交互特征的权重
Figure BDA00031819990500000615
Figure BDA00031819990500000616
Figure BDA00031819990500000617
Figure BDA00031819990500000618
Figure BDA00031819990500000619
其中Conv1×1(·)表示1×1卷积操作,Sig(·)表示使用Sigmoid激活函数操作;
将交互特征
Figure BDA00031819990500000620
交互特征
Figure BDA00031819990500000621
交互特征
Figure BDA00031819990500000622
和其对应权重
Figure BDA00031819990500000623
按下式得到最终的融合特征
Figure BDA00031819990500000624
Figure BDA00031819990500000625
其中Concat(·)表示从通道维进行特征拼接操作。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,本实施例的学习率取值为0.0004,视频描述网络模型共训练45~50轮,本实施例视频描述网络模型共训练48轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数,损失函数为交叉熵损失,本实施例的损失函数L如下:
Figure BDA0003181999050000071
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,
Figure BDA0003181999050000072
为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到48轮,训练结束,得到训练好的视频描述网络。
(3)检测测试集视频
将测试集中的视频输入训练好的视频描述网络中,输出视频描述文字。
完成基于双线性自适应特征交互与目标感知的视频描述方法。
采用本实施例的基于双线性自适应特征交互与目标感知的视频描述方法对国际公开的基准数据集基准数据集MSVD中的视频见图3,经过本实施例处理后的视频转换成文字的图像见图4。由图4可见,实施例1方法将视频转换成a group of people are dancing文字,中文为一群人在跳舞。
实施例2
以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例,本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成:
(1)构建视频描述网络模型
该步骤与实施例1相同。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,本实施例的学习率取值为0.0002,视频描述网络模型共训练45~50,本实施例视频描述网络模型共训练45轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数,损失函数为交叉熵损失,本实施例的损失函数L如下:
Figure BDA0003181999050000081
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,
Figure BDA0003181999050000082
为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到45轮,训练结束,得到训练好的视频描述网络。
其它步骤与实施例1相同,输出视频描述文字。
实施例3
以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例,本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成:
(1)构建视频描述网络模型
该步骤与实施例1相同。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,本实施例的学习率取值为0.0008视频描述网络模型共训练45~50,本实施例视频描述网络模型共训练50轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数,损失函数为交叉熵损失,本实施例的损失函数L如下:
Figure BDA0003181999050000091
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,
Figure BDA0003181999050000092
为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到50轮,训练结束,得到训练好的视频描述网络。
其它步骤与实施例1相同,输出视频描述文字。
为了验证本发明的有益效果,发明人采用本发明实施例1的基于双线性自适应特征交互与目标感知的视频描述方法(简称实施例1)与"Spatio-temporal dynamics andsemantic attribute enriched visual encoding for video captioning"(简称对比实验1)、"SibNet:Sibling Convolutional Encoder for Video Captioning"(简称对比实验2)、"Object relational graph with teacher-recommended learning for videocaptioning"(简称对比实验3)进行了对比实验,按下式通过计算四种评价指标BLEU-4、METEOR、ROUGE-L、CIDEr对生成的描述文字进行综合评价:
Figure BDA0003181999050000093
其中,BLEU值在0~1之间,lr为目标文字,lc为生成文字,wn是n元组的权重,pn为n元组的覆盖率,n取值为4。
METEOR=Fmean(1-p)
Figure BDA0003181999050000101
其中,METEOR值在0~1之间,p为惩罚因子,α为0.9,P为m/c,R为m/r,m表示生成文字和目标文字中共同出现字母组合的数目,c是生成文字的长度,r是目标文字的长度。
Figure BDA0003181999050000102
Figure BDA0003181999050000103
Figure BDA0003181999050000104
其中,ROUGE-L值在0~1之间,LCS(X,Y)是生成文字X和目标文字Y的最长公共子序列长度,β为Pcls/Rcls,b、a分别为X和Y的长度。
Figure BDA0003181999050000105
其中,CIDEr值在0~5之间,c为生成文字,S为目标文字集合,n表示评估的是n元组,M为生成文字的数量,gn(·)表示基于n元组的TF-IDF向量。
实验和计算结果见表1。
表1实施例1方法与对比实验1-3的实验结果
实验组 BLEU-4(%) METEOR(%) ROUGE-L(%) CIDEr(%)
对比实验1 47.9 35.0 71.5 78.1
对比实验2 54.2 34.8 71.7 88.2
对比实验3 54.3 36.4 73.9 95.2
实施例1 59.8 39.4 76.7 109.5
由表1可见,本发明实施例1与对比实验1-3相比,本发明实施例1在各项评价指标上的评分大幅度提升。实施例1的BLEU-4、METEOR、ROUGE-L、CIDEr比实验1分别提高了11.9%、4.4%、5.2%、31.4%,比实验2分别提高了5.6%、4.6%、5.0%、21.3%,比实验3分别提高了5.5%、3.0%、2.8%、14.3%。
以上实验表明,与对比实验相比,本发明的各项指标上均优于对比实验,尤其在CIDEr指标上改进明显,进一步证明了本发明方法能够准确地将视频转换成文字。

Claims (3)

1.一种基于双线性自适应特征交互与目标感知的视频描述方法,其特征在于由下述步骤组成:
(1)构建视频描述网络模型
在Pytorch框架下,构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型;
所述的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成,编码器由词嵌入特征提取分支(1)、双线性自适应特征交互模块(2)、门控循环单元(3)、语义特征提取分支(4)、视频目标感知特征提取分支(5)、视频静态特征提取分支(6)、视频动态特征提取分支(7)组成,视频动态特征提取分支(7)、视频静态特征提取分支(6)、视频目标感知特征提取分支(5)、词嵌入特征提取分支(1)的输出与双线性自适应特征交互模块(2)的输入相连,语义特征提取分支(4)和双线性自适应特征交互模块(2)的输出与门控循环单元(3)的输入相连,门控循环单元(3)构成解码器,门控循环单元(3)输出视频描述文字;
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,视频描述网络模型共训练45~50轮;
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数L,损失函数L为交叉熵损失:
Figure FDA0003181999040000011
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,
Figure FDA0003181999040000012
为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数;
使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到45~50轮,训练结束,得到训练好的视频描述网络;
(3)检测测试集视频
将测试集中的视频输入训练好的视频描述网络中,输出视频描述文字。
2.根据权利要求1所述的基于双线性自适应特征交互与目标感知的视频描述方法,其特征在于在(1)构建视频描述网络模型步骤中,所述的视频目标感知特征提取分支(5)的构建方法为:对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法,检测Center-ness热力图中所激活的连通区域,并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除,得到目标感知图,将目标感知图Mapobject与FCOS检测模型中特征金字塔网络的P7层特征图Map7按下式得到单帧目标特征fk Object
Figure FDA0003181999040000021
其中k为视频V的帧数/20所得到的数值下取整,·为特征向量对应位置相乘操作,GAP(·)为全局平均池化操作;
将视频V中各单帧目标特征按下式得到视频目标感知特征
Figure FDA0003181999040000022
Figure FDA0003181999040000023
3.根据权利要求1所述的基于双线性自适应特征交互与目标感知的视频描述方法,其特征在于在(1)构建视频描述网络模型步骤中,所述的双线性自适应特征交互模块2的构建方法为:以全局特征
Figure FDA0003181999040000024
视频目标感知特征
Figure FDA0003181999040000025
词嵌入特征
Figure FDA0003181999040000026
作为输入特征,其中全局特征
Figure FDA0003181999040000027
由视频动态特征和视频静态特征拼接得到;将输入特征进行双线性特征交互按下式得到交互特征
Figure FDA0003181999040000028
交互特征
Figure FDA0003181999040000029
交互特征
Figure FDA00031819990400000210
Figure FDA00031819990400000211
Figure FDA00031819990400000212
其中Sign(·)为符号函数,ε取值为10-12~10-8
将交互特征
Figure FDA0003181999040000031
交互特征
Figure FDA0003181999040000032
交互特征
Figure FDA0003181999040000033
按下式得到各交互特征的权重
Figure FDA0003181999040000034
Figure FDA0003181999040000035
Figure FDA0003181999040000036
Figure FDA0003181999040000037
Figure FDA0003181999040000038
其中Conv1×1(·)表示1×1卷积操作,Sig(·)表示使用Sigmoid激活函数操作;
将交互特征
Figure FDA0003181999040000039
交互特征
Figure FDA00031819990400000310
交互特征
Figure FDA00031819990400000311
和其对应权重
Figure FDA00031819990400000312
按下式得到最终的融合特征
Figure FDA00031819990400000313
Figure FDA00031819990400000314
其中Concat(·)表示从通道维进行特征拼接操作。
CN202110849723.9A 2021-07-27 2021-07-27 基于双线性自适应特征交互与目标感知的视频描述方法 Active CN113722536B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110849723.9A CN113722536B (zh) 2021-07-27 2021-07-27 基于双线性自适应特征交互与目标感知的视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110849723.9A CN113722536B (zh) 2021-07-27 2021-07-27 基于双线性自适应特征交互与目标感知的视频描述方法

Publications (2)

Publication Number Publication Date
CN113722536A true CN113722536A (zh) 2021-11-30
CN113722536B CN113722536B (zh) 2024-05-28

Family

ID=78674145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110849723.9A Active CN113722536B (zh) 2021-07-27 2021-07-27 基于双线性自适应特征交互与目标感知的视频描述方法

Country Status (1)

Country Link
CN (1) CN113722536B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311535A (zh) * 2023-05-17 2023-06-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于人物交互检测的危险行为分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN112215073A (zh) * 2020-09-10 2021-01-12 华蓝设计(集团)有限公司 高速运动场景下的交通标线快速识别与循迹方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN111985612A (zh) * 2020-07-21 2020-11-24 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112215073A (zh) * 2020-09-10 2021-01-12 华蓝设计(集团)有限公司 高速运动场景下的交通标线快速识别与循迹方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311535A (zh) * 2023-05-17 2023-06-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于人物交互检测的危险行为分析方法及系统
CN116311535B (zh) * 2023-05-17 2023-08-22 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于人物交互检测的危险行为分析方法及系统

Also Published As

Publication number Publication date
CN113722536B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
US20210390700A1 (en) Referring image segmentation
CN111916067A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110390363A (zh) 一种图像描述方法
CN111241816A (zh) 一种新闻标题自动生成方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN110033008A (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN114780775B (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN111680190B (zh) 一种融合视觉语义信息的视频缩略图推荐方法
Bie et al. Renaissance: A survey into ai text-to-image generation in the era of large model
CN116503785A (zh) 游泳馆监管系统及其方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN113722536A (zh) 基于双线性自适应特征交互与目标感知的视频描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant