CN112135200B - 一种针对压缩视频的视频描述生成方法 - Google Patents
一种针对压缩视频的视频描述生成方法 Download PDFInfo
- Publication number
- CN112135200B CN112135200B CN202010810293.5A CN202010810293A CN112135200B CN 112135200 B CN112135200 B CN 112135200B CN 202010810293 A CN202010810293 A CN 202010810293A CN 112135200 B CN112135200 B CN 112135200B
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- frames
- residuals
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 23
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 description 5
- 235000021538 Chard Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种针对压缩视频的视频描述生成方法,包括如下步骤:步骤1)视频图像预处理阶段;步骤2)图像特征抽取阶段;步骤3)文本标注预处理阶段;步骤4)图像特征编码阶段;步骤5)文本解码阶段。本发明与现有技术相比,具有的有益效果是提升了对于视频所生成的描述句子的质量,使其更好;并有以下三点创新:1)视频描述生成方法直接针对压缩视频中的视频帧而非通常的解码后的视频帧进行描述;2)利用压缩视频帧中的Residuals帧去生成压缩视频帧中的I帧的注意力权重,使得模型能够关注I帧中的显著性区域,从而生成更好的特征;3)设计了一种门机制,这种机制能够使得模型对于信息中的噪声更具有鲁棒性。
Description
技术领域
本发明涉及计算机视觉与人工智能技术领域,尤其涉及一种针对压缩视频的视频描述生成方法。
背景技术
近年来,随着互联网的发展,视频作为一种重要的信息载体,收到了人们的广泛重视。通信速率的加快以及通信资费的降低促使越来越多的视频被人们上传到了互联网上。相比于图像,文本而言,视频的信息含量更多,所以许多研究者开始着手提升计算机对于视频信息的理解能力并利用互联网及生活中的视频去解决各类任务。
视频描述生成任务是视频理解任务中的一项重要任务,其目标在于使计算机以自然语言(如英文)去自动描述视频中的内容。这项任务近些年在计算机视觉和自然语言处理社区日益受到欢迎。视频描述生成技术将来在现实场景下能应用于很广泛的领域,例如人机交互,视频检索,盲人导航。
之前的视频描述生成方法大多采用经典的编码-解码框架,并且达到了令人鼓舞的性能。在编码阶段,采样帧的特征由卷积神经网络抽取,然后特征送入循环神经网络。在解码阶段,解码器将表达转成描述性的句子。不过这样经典的网络通常有两个缺点。首先,一个预训练的卷积神经网络通常是直接抽取整个RGB图像的特征,这可视作对于所有图像的所有区域都同等对待而忽略了重要的信息在图像中不是均匀分布的。视频描述生成方法应显式地关注图像中的某些重点区域。第二,一个明显的事实是一个视频可以被压缩为相当小的尺寸,这意味着一个解压的视频包含了大量的信息冗余。视频解压后得到的帧中所含有的重复的模式将会“淹没”有趣的信号,并会妨碍进一步挖掘重要信息。
发明内容
本发明的目的是针对现有技术的不足,提供一种针对压缩视频的视频描述生成方法。
本发明的技术方案如下:
一种针对压缩视频的视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对于压缩视频,如MPEG-4格式的视频,在不解压的情况下直接抽取图像帧(I-frame,Residuals)并对图像做颜色变换,尺寸变换的预处理;
步骤2)图像特征抽取阶段:在两个不同的数据集上分别训练好两个卷积神经网络以抽取特征,第一个是针对I-frame,在Imagenet上训练好图像分类网络Resnet-152。第二个是针对Residuals,在HMDB-51上使用Residuals训练好动作分类网络Resnet-18;使用上述两个预训练卷积神经网络抽取对应图像帧特征并保存;
步骤3)文本标注预处理阶段:由于采用的公开数据集已有对于视频的文本标注,所以此处可以直接针对所有已标注的文本建立词汇表,此处所建立的词汇表对标注中的所有单词进行顺序编号,编号与单词一一对应。然后根据编号将文本标注句子转换成数字序号序列;
步骤4)图像特征编码阶段:此处提出一种残差辅助的编码器,其能利用Residuals帧去生成针对I帧的注意力权重,然后将注意力权重应用到I帧特征上以生成经过注意力机制赋能的视觉特征,考虑到某些Residuals帧含有噪声,编码器中的门机制根据Residuals,I-frame和解码器中的隐状态去生成特征的置信度得分,该得分能够控制上述视觉特征多大程度上影响解码器生成文本描述,将经过门机制控制的特征输入步骤5)。
步骤5)文本解码阶段:使用长短期记忆网络,将步骤4)得到的特征解码为数字序号序列;然后根据步骤3)的词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤1)在压缩视频中等间隔抽取压缩视频的图像帧,由于压缩视频是由GOP(group ofpictures)组成,每个GOP中通常含有一个I帧和11个P帧,而P帧中含有Residuals帧;此处等间隔抽取I帧及其对应的GOP中第一个Residuals帧,两种帧的帧数均为20帧,每一帧尺寸经过尺寸变化后,高为224像素,宽为224像素;对于I帧,一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换,对于Residuals帧,三个通道分别减去0.5然后分别除以0.229,0.224,0.225;每次抽一个视频的图像帧进行上述处理然后执行步骤2)当下一个视频到来时,再次执行步骤1)和步骤2)。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络模型可采用ResNet-152和ResNet-18模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为(视频个数,每个视频抽取的帧数,每个视频的特征)。其中训练预训练模型的图像预处理方法与抽取图像特征的图像预处理方法一致。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤3)中将MSR-VTT数据集的10000个视频数据划分为训练集,验证集和测试集,其个数比例为6513:497:2990。对于Charades则是将9848个视频中的1863个视频划为测试集,其他用于模型开发;将标注的文本进行单词划分,并将每一个单词标好序,加入词汇表中;将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;并在句子最后加入<END>符号作为结尾。
所述一种针对压缩视频的视频描述生成方法,其特征所述步骤4)中采用下述两个机制,①采用Residuals辅助的注意力权重生成机制生成针对I帧特征的注意力图,这种权重生成机制利用了I帧本身特征,Residuals特征,和解码器的hidden state去针对抽取的每一帧I帧的特征生成注意力图。注意力图再与I帧特征结合得到经过注意力机制赋能的视觉特征;②设计出一种门机制,减低Residuals中的噪声对最终编码器生成的特征的影响,门机制根据Residuals特征,I帧特征和解码器的hidden state生成对①中产生的视觉特征的置信度,若置信度越高,表示模型更加采纳经过注意力机制赋能的视觉特征,反之,模型更加采纳I帧的原特征。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤5)中采用长短期记忆网络(LSTM)对步骤4)中已编码的视觉特征进行文本解码;在训练阶段,LSTM在解码生成当前词时,利用上一步的标签作为输入信息。在测试阶段,利用上一步生成词而非标签,并结合束搜索(beam search)方法生成当前词。
本发明与现有技术相比,具有的有益效果是提升了对于视频所生成的描述句子的质量,使其更好;并有以下三点创新:1)视频描述生成方法直接针对压缩视频域中的视频帧而非通常的解码后的视频帧进行描述;2)利用压缩视频帧中的Residuals帧去生成压缩视频帧中的I帧的注意力权重,使得模型能够关注I帧中的显著性区域,从而生成更好的特征;3)设计了一种门机制,其能够自动地筛选出有用的特征以及降低被压缩域中的噪声所干扰的特征的影响,这种机制能够使得模型对于信息中的噪声更具有鲁棒性。
附图说明
图1为本发明专利的模型框架示意图;
图2为本发明专利的模型预测结果样例图;
图3为本发明专利在MST-VTT数据集上的模型性能评估表;
图4为本发明专利在Charades数据集上的模型性能评估表。
具体实施方式
以下结合附图进一步说明本发明的具体实施方法。
参见图1,本发明的总体步骤如下:
在MSR-VTT,Charades等视频描述生成数据集上进行训练和测试。训练阶段,将训练集中的视频及人工标注的描述视频的文本标签送入模型进行训练。测试阶段,只将视频输入模型,然后模型将生成描述视频的句子,并可采用BLEU@4,METEOR,CIDEr,ROUGE-L指标对生成句子结果进行评估。训练阶段和测试阶段对于下述步骤1)至步骤4)都是一样的。
1)视频帧抽取:对数据集中每一个压缩视频(如以MPEG-4格式保存的视频),等间隔抽取20帧I帧,并在I帧对应的20个GOP中抽取Residuals帧。
2)图像特征抽取及保存:分别训练针对I帧和Residuals的Resnet-152和Resnet-18。在对图像进行颜色变换,尺寸变换的预处理后,用上述卷积神经网络模型抽取图像特征并保存到硬盘。如下式,CNNI是针对I帧图像序列PI的Resnet-152,CNNr是针对Residuals帧图像序列Pr的Resnet-18。VI和Ar分别是两个训练好的神经网络抽取的特征,并保存到硬盘中。
VI=CNNI(PI)
Ar=CNNr(Pr)
3)文本标注预处理:人工标注的数据集一般以JSON文件形式保存,将人工标注的句子以单词为单位进行划分,然后用单词构建词典;构建词典的方法是将单词按照从0到词数减一进行标号,例如,假设有10000词,那么将其单词按照0至9999进行编号。
4)图像特征编码:首先将上述VI和Ar两个特征按照如下四个式子进行处理。
得到的四个特征将会送入残差辅助的编码器(RAE)。其中,H和W分别是VI和Ar这两个抽取出来的特征的高和宽。和分别是VI和Ar在空间维度(高和宽)上进行平均得到的结果。然后对VI进行映射,将其通道数量变为Dr,得到和分别是对和Ar在通道维度上进行平均。Dr是和Ar的通道数量。
xt-1是上一步的词的特征。下式是所要优化的对数似然函数。yt代表了第t步生成的词,θ表示我们方法中训练出来的参数。
在训练阶段,模型的训练是按批(batch)输入的,批大小为8。xt-1采用标签的词。在测试阶段,xt-1是上一步预测的词。测试阶段采用束搜索(beam search)方法,束(beam)大小为5。
本方法具体预测结果样例可见图2;本方法在MSR-VTT数据集上的评估指标结果可见图3;本方法在Charades数据集上的评估指标结果可见图4;从上到下分别是只采用I帧的方法,在Residuals辅助的注意力权重生成机制中去掉门机制和Residuals的方法,在Residuals辅助的注意力权重生成机制中去掉门机制的方法以及最终我们提出的Residuals辅助的注意力权重生成机制方法的评估结果。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的包含范围之内。
Claims (6)
1.一种针对压缩视频的视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对于压缩视频,在不解压的情况下直接抽取图像帧I-frame,Residuals并对图像做颜色变换及尺寸变换的预处理;
步骤2)图像特征抽取阶段:在两个不同的公开数据集上分别训练好两个卷积神经网络以抽取特征,第一个是针对I-frame,在Imagenet上训练好图像分类网络Resnet-152;第二个是针对Residuals,在HMDB-51上训练好动作分类网络Resnet-18,使用两个预训练卷积神经网络抽取对应图像帧特征并保存;
步骤3)文本标注预处理阶段:由于采用的步骤2)中的公开数据集已有对于视频的文本标注,所以此处可以直接针对所有已标注的文本建立词汇表,此处所建立的词汇表对标注中的所有单词进行顺序编号,编号与单词一一对应,然后根据编号将文本标注句子转换成数字序号序列;
步骤4)图像特征编码阶段:此处提出一种残差辅助的编码器,其能利用Residuals帧去生成针对I帧的注意力权重,然后将注意力权重应用到I帧特征上以生成经过注意力机制赋能的视觉特征,考虑到某些Residuals帧含有噪声,编码器中的门机制根据Residuals,I-frame和解码器中的隐状态去生成特征的置信度得分,该得分能够控制上述视觉特征影响解码器生成文本描述的程度,将经过门机制控制的特征输入步骤5);
步骤5)文本解码阶段:使用长短期记忆网络,将步骤4)得到的特征解码为数字序号序列;然后根据步骤3)的词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
2.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤1)在压缩视频中等间隔抽取图像帧;由于压缩视频是由GOP组成,每个GOP中含有一个I帧和11个P帧,而P帧中含有Residuals帧,此处等间隔抽取I帧及其对应的GOP中第一个Residuals帧,两种帧的帧数均为20帧,该步骤无需解压视频;每一帧尺寸经过尺寸变化后,高为224像素,宽为224像素,对于I帧,一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;对于Residuals帧,三个通道分别减去0.5然后分别除以0.229,0.224,0.225;每次抽一个视频的图像帧进行上述处理然后执行步骤2)当下一个视频到来时,再次执行步骤1)和步骤2)。
3.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络模型采用ResNet-152和ResNet-18模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为{视频个数,每个视频抽取的帧数,每个视频的特征};其中训练预训练模型的图像预处理方法与抽取图像特征的图像预处理方法一致。
4.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤3)中将MSR-VTT数据集的10000个视频数据划分为训练集,验证集和测试集,其个数比例为6513:497:2990;将标注的文本进行单词划分,并将每一个单词标好序,加入词汇表中,将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;并在句子最后加入<END>符号作为结尾。
5.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤4)中采用下述两个机制;第一个机制是:采用Residuals辅助的注意力权重生成机制生成针对I帧特征的注意力图,这种权重生成机制利用了I帧本身特征,Residuals特征,和解码器的hidden state去针对抽取的每一帧I帧的特征生成注意力图,注意力图再与I帧特征结合得到经过注意力机制赋能的视觉特征;第二个机制是:设计出一种门机制,减低Residuals中的噪声对最终编码器生成的特征的影响,门机制根据Residuals特征,和解码器的hidden state生成对第一个机制中产生的视觉特征的置信度,若置信度越高,表示模型更加采纳经过注意力机制赋能的视觉特征,反之,模型更加采纳I帧的原特征。
6.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤5)中采用长短期记忆网络对步骤4)中已编码的视觉特征进行文本解码;在训练阶段,长短期记忆网络在解码生成当前词时,利用上一步的标签作为输入信息;在测试阶段,利用上一步生成词,并结合束搜索方法生成当前词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810293.5A CN112135200B (zh) | 2020-08-13 | 2020-08-13 | 一种针对压缩视频的视频描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010810293.5A CN112135200B (zh) | 2020-08-13 | 2020-08-13 | 一种针对压缩视频的视频描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112135200A CN112135200A (zh) | 2020-12-25 |
CN112135200B true CN112135200B (zh) | 2022-07-08 |
Family
ID=73851360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010810293.5A Active CN112135200B (zh) | 2020-08-13 | 2020-08-13 | 一种针对压缩视频的视频描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112135200B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116193128A (zh) * | 2021-11-15 | 2023-05-30 | 深圳市中兴微电子技术有限公司 | 图像处理方法及装置、存储介质及电子装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108965887A (zh) * | 2018-06-29 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于块间去耦合的视频信息隐藏方法和装置 |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN110826397A (zh) * | 2019-09-20 | 2020-02-21 | 浙江大学 | 一种基于高阶低秩多模态注意力机制的视频描述方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10999606B2 (en) * | 2019-01-08 | 2021-05-04 | Intel Corporation | Method and system of neural network loop filtering for video coding |
-
2020
- 2020-08-13 CN CN202010810293.5A patent/CN112135200B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108965887A (zh) * | 2018-06-29 | 2018-12-07 | 中国科学院信息工程研究所 | 一种基于块间去耦合的视频信息隐藏方法和装置 |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN110826397A (zh) * | 2019-09-20 | 2020-02-21 | 浙江大学 | 一种基于高阶低秩多模态注意力机制的视频描述方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的视频中人体动作识别进展综述;罗会兰等;《电子学报》;20190515(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112135200A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633683B (zh) | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 | |
CN111104884B (zh) | 一种基于两阶段神经网络模型的汉语唇语识别方法 | |
CN111078866B (zh) | 一种基于序列到序列模型的中文文本摘要生成方法 | |
CN112668559B (zh) | 一种多模态信息融合的短视频情感判定装置及方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN111783423B (zh) | 解题模型的训练方法及装置、解题方法及装置 | |
CN111259785B (zh) | 基于时间偏移残差网络的唇语识别方法 | |
CN116939320B (zh) | 一种生成式多模态互利增强视频语义通信方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN110472255A (zh) | 神经网络机器翻译方法、模型、电子终端以及存储介质 | |
CN112668346A (zh) | 翻译方法、装置、设备及存储介质 | |
CN116796251A (zh) | 一种基于图文多模态的不良网站分类方法、系统及设备 | |
CN115759062A (zh) | 基于知识注入的文图预训练模型处理方法和文图检索系统 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
CN112135200B (zh) | 一种针对压缩视频的视频描述生成方法 | |
CN115408494A (zh) | 一种融合多头注意力对齐的文本匹配方法 | |
CN117710986B (zh) | 一种基于掩码的交互式增强图像文本识别的方法及系统 | |
CN114282555A (zh) | 翻译模型训练方法及装置、翻译方法及装置 | |
CN114581920A (zh) | 一种双分支多层次特征解码的分子图像识别方法 | |
CN113688871A (zh) | 基于Transformer的视频多标签动作识别方法 | |
CN117291232A (zh) | 一种基于扩散模型的图像生成方法与装置 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN112131429A (zh) | 一种基于深度预测编码网络的视频分类方法及系统 | |
CN111859407A (zh) | 基于候选池自收缩机制的文本自动生成隐写方法 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231113 Address after: Room 318, Building 3, No. 368 Jinpeng Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province, 310030 Patentee after: Carbon silicon (Hangzhou) Biotechnology Co.,Ltd. Address before: 211111 No.11, mozhou East Road, moling street, Jiangning District, Nanjing City, Jiangsu Province Patentee before: Nanjing Zhongzhi future Artificial Intelligence Research Institute Co.,Ltd. Patentee before: HANGZHOU YISHUN TECHNOLOGY Co.,Ltd. |