CN113722536B - 基于双线性自适应特征交互与目标感知的视频描述方法 - Google Patents
基于双线性自适应特征交互与目标感知的视频描述方法 Download PDFInfo
- Publication number
- CN113722536B CN113722536B CN202110849723.9A CN202110849723A CN113722536B CN 113722536 B CN113722536 B CN 113722536B CN 202110849723 A CN202110849723 A CN 202110849723A CN 113722536 B CN113722536 B CN 113722536B
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- features
- video description
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000008447 perception Effects 0.000 title claims abstract description 40
- 230000003044 adaptive effect Effects 0.000 title claims description 29
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 230000003068 static effect Effects 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 7
- 230000000295 complement effect Effects 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 6
- 235000019987 cider Nutrition 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 5
- 230000001351 cycling effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
一种基于双线性自适应特征交互与目标感知的视频描述方法,由构建视频描述网络模型、训练视频描述网络模型、检测测试集视频组成。本发明采用了使用编解码结构的视频描述方法。采用了双线性自适应特征交互模块,分别提取视频的动态特征、静态特征和目标特征,进行交互式融合,形成互补的多模态特征,细粒度刻画视频内容;在目标特征提取部分,采用了视频目标感知特征提取分支,在提取关键目标信息的同时,抑制背景信息,让更多信息用于表达视频中的真实目标,将融合特征输入基于门控循环单元构建的自然语言描述模型,生成准确文字。本发明具有视频描述结果准确、详细等优点,适用于任意多种类型特征融合的视频转换成文字。
Description
技术领域
本发明属于计算机视觉和自然语言处理的交叉研究技术领域,具体地涉及到视频中的语言描述生成。
背景技术
视频描述技术是使用自然语言将给定视频的视觉信息转换为语义文本。该视频描述技术是在人机交互、视频监控和视觉辅助等领域具有广阔的应用前景和应用价值。但由于视频描述任务涉及计算机视觉和自然语言处理的交叉研究,弥合低级视觉特征和高级语义信息之间的差距较为复杂,使该任务具有很大的难度。
视频描述研究始于基于模板或规则的视频描述方法,早期研究者借助手工特征从视频中提取视觉信息,然后运用识别检测技术获取如人物、动作、场景等语义对象,将其按照预定义的模板或规则填入相应位置,组合成描述语句。虽然基于模板或规则的视频描述方法在早期视频描述研究中取得了较好效果,但这些方法主要集中于检测预定义实体或事件并使用固定的模板和规则生成描述,严重限制语义的高效表达,所生成的句子在语法结构和语义表达方面都不够灵活,难以描述视频中的所有可能事件。
近年来,深度学习在计算机视觉的几乎所有子领域中取得的巨大成功也革新了视频描述方法。研究者开始利用深度卷积神经网络进行视频特征编码,并利用循环神经网络或其变体长短期记忆网络对视觉特征进行解码,进而生成描述语句。但是,现有模型欠缺融合视频提取的不同类型特征的方法,所使用的融合多模态特征的操作手段单一,难以高效发挥出各类特征的优势;现有使用目标特征的模型仅利用检测器获取并按置信度排序筛选出固定数量的检测框作为目标区域,提取目标特征,然而视频中目标数量不定且同一视频不同视频帧的目标数量不定,设置固定的检测框数量会导致视频中的目标信息无法被充分挖掘,会引入大量背景噪声,严重地限制了目标特征的作用,难以准确生成高质量的视频描述文字。
在视频描述技术领域,当前需迫切解决的技术问题是提供一种将视频图像能够准确快速地转换成文字的技术方案。
发明内容
本发明所要解决的技术问题在于克服现有技术的缺点,提供一种能够有效、准确、快速地将视频转换成文字的基于双线性自适应特征交互与目标感知的视频描述方法。
解决上述技术问题所采用的技术方案是由下述步骤组成:
(1)构建视频描述网络模型
在Pytorch框架下,构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型。
所述的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成,编码器由词嵌入特征提取分支、双线性自适应特征交互模块、门控循环单元、语义特征提取分支、视频目标感知特征提取分支、视频静态特征提取分支、视频动态特征提取分支组成,视频动态特征提取分支、视频静态特征提取分支、视频目标感知特征提取分支、词嵌入特征提取分支的输出与双线性自适应特征交互模块的输入相连,语义特征提取分支和双线性自适应特征交互模块的输出与门控循环单元的输入相连,门控循环单元构成解码器,门控循环单元输出视频描述文字。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,视频描述网络模型共训练45~50轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数L,损失函数L为交叉熵损失:
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。
使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到45~50轮,训练结束,得到训练好的视频描述网络。
(3)检测测试集视频
将测试集中的视频输入训练好的视频描述网络中,输出视频描述文字。
在本发明的(1)构建视频描述网络模型步骤中,所述的视频目标感知特征提取分支的构建方法为:对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法,检测Center-ness热力图中所激活的连通区域,并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除,得到目标感知图,将目标感知图Mapobject与FCOS检测模型中特征金字塔网络的P7层特征图Map7按下式得到单帧目标特征
其中k为视频V的帧数/20所得到的数值下取整,·为特征向量对应位置相乘操作,GAP(·)为全局平均池化操作。
将视频V中各单帧目标特征按下式得到视频目标感知特征
在本发明的(1)构建视频描述网络模型步骤中,所述的双线性自适应特征交互模块2的构建方法为:以全局特征视频目标感知特征/>词嵌入特征/>作为输入特征,其中全局特征/>由视频动态特征和视频静态特征拼接得到;将输入特征进行双线性特征交互按下式得到交互特征/>交互特征/>交互特征/>
其中Sign(·)为符号函数,ε取值为10-12~10-8。
将交互特征交互特征/>交互特征/>按下式得到各交互特征的权重
其中Conv1×1(·)表示1×1卷积操作,Sig(·)表示使用Sigmoid激活函数操作;
将交互特征交互特征/>交互特征/>和其对应权重/>按下式得到最终的融合特征/>
其中Concat(·)表示从通道维进行特征拼接操作。
由于本发明采用了双线性自适应特征交互模块,分别提取视频的动态特征、静态特征和目标特征,进行交互式融合,形成互补的多模态特征,以细粒度刻画视频内容;在目标特征提取部分,采用了目标感知特征提取分支,在提取关键目标信息的同时,抑制背景信息,让更多信息用于表达视频中的真实目标;将融合特征输入基于门控循环单元构建的自然语言描述模型,生成高质量的描述文字。本发明具有视频描述结果更加准确、详细等优点,旨在解决视频描述技术问题,适用于任意多种类型特征融合的视频描述任务。
附图说明
图1是本发明实施例1的流程图。
图2是图1中视频描述网络模型结构图。
图3是MSVD数据集中测试集视频的截取图像。
图4是图3经过模型处理后输出的视频描述文字。
具体实施方式
下面结合附图和实施例对本发明进一步详细说明,但本发明不限于下述的实施方式。
实施例1
以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例,本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成(参见图1):
(1)构建视频描述网络模型
在Pytorch框架下,构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型。
在图2中,本实施例的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成,编码器由词嵌入特征提取分支1、双线性自适应特征交互模块2、门控循环单元3、语义特征提取分支4、视频目标感知特征提取分支5、视频静态特征提取分支6、视频动态特征提取分支7\解码器组成,视频动态特征提取分支7、视频静态特征提取分支6、视频目标感知特征提取分支5、词嵌入特征提取分支1的输出与双线性自适应特征交互模块2的输入相连,语义特征提取分支4和双线性自适应特征交互模块2的输出与门控循环单元3的输入相连,门控循环单元3构成本实施例的解码器,门控循环单元3输出视频描述文字。
本实施例的视频目标感知特征提取分支5的构建方法为:对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法,检测Center-ness热力图中所激活的连通区域,并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除,得到目标感知图,将目标感知图Mapobject与FCOS检测模型中特征金字塔网络的P7层特征图Map7按下式得到单帧目标特征
其中k为视频V的帧数/20所得到的数值下取整,·为特征向量对应位置相乘操作,GAP(·)为全局平均池化操作;
将视频V中各单帧目标特征按下式得到视频目标感知特征
本实施例的双线性自适应特征交互模块2的构建方法为:以全局特征视频目标感知特征/>词嵌入特征/>作为输入特征,其中全局特征/>由视频动态特征和视频静态特征拼接得到;将输入特征进行双线性特征交互按下式得到交互特征/>交互特征/>交互特征/>
其中Sign(·)为符号函数,ε取值为10-12~10-8,本实施例ε的取值为10-10,也可在10-12~10-8范围内任意选取。.
将交互特征交互特征/>交互特征/>按下式得到各交互特征的权重
其中Conv1×1(·)表示1×1卷积操作,Sig(·)表示使用Sigmoid激活函数操作;
将交互特征交互特征/>交互特征/>和其对应权重/>按下式得到最终的融合特征/>
其中Concat(·)表示从通道维进行特征拼接操作。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,本实施例的学习率取值为0.0004,视频描述网络模型共训练45~50轮,本实施例视频描述网络模型共训练48轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数,损失函数为交叉熵损失,本实施例的损失函数L如下:
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到48轮,训练结束,得到训练好的视频描述网络。
(3)检测测试集视频
将测试集中的视频输入训练好的视频描述网络中,输出视频描述文字。
完成基于双线性自适应特征交互与目标感知的视频描述方法。
采用本实施例的基于双线性自适应特征交互与目标感知的视频描述方法对国际公开的基准数据集基准数据集MSVD中的视频见图3,经过本实施例处理后的视频转换成文字的图像见图4。由图4可见,实施例1方法将视频转换成a group of people are dancing文字,中文为一群人在跳舞。
实施例2
以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例,本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成:
(1)构建视频描述网络模型
该步骤与实施例1相同。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,本实施例的学习率取值为0.0002,视频描述网络模型共训练45~50,本实施例视频描述网络模型共训练45轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数,损失函数为交叉熵损失,本实施例的损失函数L如下:
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到45轮,训练结束,得到训练好的视频描述网络。
其它步骤与实施例1相同,输出视频描述文字。
实施例3
以在国际公开的基准数据集基准数据集MSVD中取1970个视频为例,本实施例的基于双线性自适应特征交互与目标感知的视频描述方法由下述步骤组成:
(1)构建视频描述网络模型
该步骤与实施例1相同。
(2)训练视频描述网络模型
(a)设置网络的超级参数
从国际公开的基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,本实施例的学习率取值为0.0008视频描述网络模型共训练45~50,本实施例视频描述网络模型共训练50轮。
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数,损失函数为交叉熵损失,本实施例的损失函数L如下:
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数。使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到50轮,训练结束,得到训练好的视频描述网络。
其它步骤与实施例1相同,输出视频描述文字。
为了验证本发明的有益效果,发明人采用本发明实施例1的基于双线性自适应特征交互与目标感知的视频描述方法(简称实施例1)与"Spatio-temporal dynamics andsemantic attribute enriched visual encoding for video captioning"(简称对比实验1)、"SibNet:Sibling Convolutional Encoder for Video Captioning"(简称对比实验2)、"Object relational graph with teacher-recommended learning for videocaptioning"(简称对比实验3)进行了对比实验,按下式通过计算四种评价指标BLEU-4、METEOR、ROUGE-L、CIDEr对生成的描述文字进行综合评价:
其中,BLEU值在0~1之间,lr为目标文字,lc为生成文字,wn是n元组的权重,pn为n元组的覆盖率,n取值为4。
METEOR=Fmean(1-p)
其中,METEOR值在0~1之间,p为惩罚因子,α为0.9,P为m/c,R为m/r,m表示生成文字和目标文字中共同出现字母组合的数目,c是生成文字的长度,r是目标文字的长度。
其中,ROUGE-L值在0~1之间,LCS(X,Y)是生成文字X和目标文字Y的最长公共子序列长度,β为Pcls/Rcls,b、a分别为X和Y的长度。
其中,CIDEr值在0~5之间,c为生成文字,S为目标文字集合,n表示评估的是n元组,M为生成文字的数量,gn(·)表示基于n元组的TF-IDF向量。
实验和计算结果见表1。
表1实施例1方法与对比实验1-3的实验结果
实验组 | BLEU-4(%) | METEOR(%) | ROUGE-L(%) | CIDEr(%) |
对比实验1 | 47.9 | 35.0 | 71.5 | 78.1 |
对比实验2 | 54.2 | 34.8 | 71.7 | 88.2 |
对比实验3 | 54.3 | 36.4 | 73.9 | 95.2 |
实施例1 | 59.8 | 39.4 | 76.7 | 109.5 |
由表1可见,本发明实施例1与对比实验1-3相比,本发明实施例1在各项评价指标上的评分大幅度提升。实施例1的BLEU-4、METEOR、ROUGE-L、CIDEr比实验1分别提高了11.9%、4.4%、5.2%、31.4%,比实验2分别提高了5.6%、4.6%、5.0%、21.3%,比实验3分别提高了5.5%、3.0%、2.8%、14.3%。
以上实验表明,与对比实验相比,本发明的各项指标上均优于对比实验,尤其在CIDEr指标上改进明显,进一步证明了本发明方法能够准确地将视频转换成文字。
Claims (1)
1.一种基于双线性自适应特征交互与目标感知的视频描述方法,其特征在于由下述步骤组成:
(1)构建视频描述网络模型
在Pytorch框架下,构建使用编码器-解码器结构的基于双线性自适应特征交互与目标感知的视频描述模型;
所述的基于双线性自适应特征交互与目标感知的视频描述模型由编码器和解码器串联组成,编码器由词嵌入特征提取分支(1)、双线性自适应特征交互模块(2)、门控循环单元(3)、语义特征提取分支(4)、视频目标感知特征提取分支(5)、视频静态特征提取分支(6)、视频动态特征提取分支(7)组成,视频动态特征提取分支(7)、视频静态特征提取分支(6)、视频目标感知特征提取分支(5)、词嵌入特征提取分支(1)的输出与双线性自适应特征交互模块(2)的输入相连,语义特征提取分支(4)和双线性自适应特征交互模块(2)的输出与门控循环单元(3)的输入相连,门控循环单元(3)构成解码器,门控循环单元(3)输出视频描述文字;
所述的双线性自适应特征交互模块(2)的构建方法为:以全局特征视频目标感知特征/>词嵌入特征/>作为输入特征,其中全局特征/>由视频动态特征和视频静态特征拼接得到;将输入特征进行双线性特征交互按下式得到交互特征/>交互特征/>交互特征/>
其中Sign(·)为符号函数,ε取值为10-12~10-8;
将交互特征交互特征/>交互特征/>按下式得到各交互特征的权重
其中Conv1×1(·)表示1×1卷积操作,Sig(·)表示使用Sigmoid激活函数操作;
将交互特征交互特征/>交互特征/>和其对应权重/>按下式得到视频V对应的视频特征向量/>
其中Concat(·)表示从通道维进行特征拼接操作;
所述的视频目标感知特征提取分支(5)的构建方法为:对在MS COCO数据集上预训练的FCOS检测模型输出的Center-ness热力图采用八连通域检测法,检测Center-ness热力图中所激活的连通区域,并将激活的连通区域中小于3个像素点的连通区域视为无用噪声信息进行滤除,得到目标感知图,将目标感知图Mapobject与FCOS检测模型中特征金字塔网络的P7层特征图Map7按下式得到单帧目标特征
其中k为视频V的帧数/20所得到的数值下取整,·为特征向量对应位置相乘操作,GAP(·)为全局平均池化操作;
将视频V中各单帧目标特征按下式得到视频目标感知特征
(2)训练视频描述网络模型
(a)设置网络的超级参数
从基准数据集MSVD中取1200个视频作为训练集,100个视频作为验证集,670个视频作为测试集,训练集输入视频的每一帧像素大小为224×224,数据批量为64,在训练过程中使用Xavier方法初始化视频描述网络模型参数,使用自适应矩估计作为视频描述网络模型的优化器,学习率设置为0.0002~0.0008,视频描述网络模型共训练45~50轮;
(b)训练视频描述网络模型
将训练集中的所有视频输入视频描述网络模型,进行前向传播并计算损失函数L,损失函数L为交叉熵损失:
其中,log(·)是底数为e的对数运算,P(·)为视频描述网络模型输出预测语句的置信度,为视频V对应的视频特征向量,η为待训练的视频描述网络模型参数;
使用自适应矩估计方法降低损失值来进行反向传播,反复循环前向传播和反向传播,并更新视频描述网络的权重和偏置,直至达到45~50轮,训练结束,得到训练好的视频描述网络;
(3)检测测试集视频
将测试集中的视频输入训练好的视频描述网络中,输出视频描述文字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110849723.9A CN113722536B (zh) | 2021-07-27 | 2021-07-27 | 基于双线性自适应特征交互与目标感知的视频描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110849723.9A CN113722536B (zh) | 2021-07-27 | 2021-07-27 | 基于双线性自适应特征交互与目标感知的视频描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722536A CN113722536A (zh) | 2021-11-30 |
CN113722536B true CN113722536B (zh) | 2024-05-28 |
Family
ID=78674145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110849723.9A Active CN113722536B (zh) | 2021-07-27 | 2021-07-27 | 基于双线性自适应特征交互与目标感知的视频描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722536B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596523A (zh) * | 2022-02-23 | 2022-06-07 | 桂林电子科技大学 | 一种多特征融合的视频描述方法、装置及存储介质 |
CN116311535B (zh) * | 2023-05-17 | 2023-08-22 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于人物交互检测的危险行为分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN111985612A (zh) * | 2020-07-21 | 2020-11-24 | 西安理工大学 | 一种提高视频文本描述准确性的编码器网络模型设计方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN112215073A (zh) * | 2020-09-10 | 2021-01-12 | 华蓝设计(集团)有限公司 | 高速运动场景下的交通标线快速识别与循迹方法 |
-
2021
- 2021-07-27 CN CN202110849723.9A patent/CN113722536B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN111985612A (zh) * | 2020-07-21 | 2020-11-24 | 西安理工大学 | 一种提高视频文本描述准确性的编码器网络模型设计方法 |
CN112215073A (zh) * | 2020-09-10 | 2021-01-12 | 华蓝设计(集团)有限公司 | 高速运动场景下的交通标线快速识别与循迹方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113722536A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN109544524B (zh) | 一种基于注意力机制的多属性图像美学评价系统 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN109409221A (zh) | 基于帧选择的视频内容描述方法和系统 | |
CN113722536B (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 | |
CN111598183B (zh) | 一种多特征融合图像描述方法 | |
CN111144410B (zh) | 一种跨模态的图像语义提取方法、系统、设备及介质 | |
CN110348024A (zh) | 基于法律知识图谱的智能识别系统 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN110347831A (zh) | 基于自注意力机制的情感分类方法 | |
CN112528989B (zh) | 一种图像语义细粒度的描述生成方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN109919114A (zh) | 一种基于互补注意力机制循环卷积解码的视频描述方法 | |
CN114882488B (zh) | 基于深度学习与注意力机制的多源遥感图像信息处理方法 | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN114780775B (zh) | 一种基于内容选择和引导机制的图像描述文本生成方法 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN113408619B (zh) | 语言模型预训练方法、装置 | |
CN117313709A (zh) | 一种基于统计信息和预训练语言模型的生成文本检测方法 | |
CN111046966B (zh) | 基于度量注意力机制的图像字幕生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |