CN112135200B - 一种针对压缩视频的视频描述生成方法 - Google Patents

一种针对压缩视频的视频描述生成方法 Download PDF

Info

Publication number
CN112135200B
CN112135200B CN202010810293.5A CN202010810293A CN112135200B CN 112135200 B CN112135200 B CN 112135200B CN 202010810293 A CN202010810293 A CN 202010810293A CN 112135200 B CN112135200 B CN 112135200B
Authority
CN
China
Prior art keywords
video
frame
frames
residuals
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010810293.5A
Other languages
English (en)
Other versions
CN112135200A (zh
Inventor
于长斌
朱铭健
段晨瑞
莫远秋
于长军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Carbon Silicon Hangzhou Biotechnology Co ltd
Original Assignee
Hangzhou Yishun Technology Co ltd
Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yishun Technology Co ltd, Nanjing Zhongzhi Future Artificial Intelligence Research Institute Co ltd filed Critical Hangzhou Yishun Technology Co ltd
Priority to CN202010810293.5A priority Critical patent/CN112135200B/zh
Publication of CN112135200A publication Critical patent/CN112135200A/zh
Application granted granted Critical
Publication of CN112135200B publication Critical patent/CN112135200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种针对压缩视频的视频描述生成方法,包括如下步骤:步骤1)视频图像预处理阶段;步骤2)图像特征抽取阶段;步骤3)文本标注预处理阶段;步骤4)图像特征编码阶段;步骤5)文本解码阶段。本发明与现有技术相比,具有的有益效果是提升了对于视频所生成的描述句子的质量,使其更好;并有以下三点创新:1)视频描述生成方法直接针对压缩视频中的视频帧而非通常的解码后的视频帧进行描述;2)利用压缩视频帧中的Residuals帧去生成压缩视频帧中的I帧的注意力权重,使得模型能够关注I帧中的显著性区域,从而生成更好的特征;3)设计了一种门机制,这种机制能够使得模型对于信息中的噪声更具有鲁棒性。

Description

一种针对压缩视频的视频描述生成方法
技术领域
本发明涉及计算机视觉与人工智能技术领域,尤其涉及一种针对压缩视频的视频描述生成方法。
背景技术
近年来,随着互联网的发展,视频作为一种重要的信息载体,收到了人们的广泛重视。通信速率的加快以及通信资费的降低促使越来越多的视频被人们上传到了互联网上。相比于图像,文本而言,视频的信息含量更多,所以许多研究者开始着手提升计算机对于视频信息的理解能力并利用互联网及生活中的视频去解决各类任务。
视频描述生成任务是视频理解任务中的一项重要任务,其目标在于使计算机以自然语言(如英文)去自动描述视频中的内容。这项任务近些年在计算机视觉和自然语言处理社区日益受到欢迎。视频描述生成技术将来在现实场景下能应用于很广泛的领域,例如人机交互,视频检索,盲人导航。
之前的视频描述生成方法大多采用经典的编码-解码框架,并且达到了令人鼓舞的性能。在编码阶段,采样帧的特征由卷积神经网络抽取,然后特征送入循环神经网络。在解码阶段,解码器将表达转成描述性的句子。不过这样经典的网络通常有两个缺点。首先,一个预训练的卷积神经网络通常是直接抽取整个RGB图像的特征,这可视作对于所有图像的所有区域都同等对待而忽略了重要的信息在图像中不是均匀分布的。视频描述生成方法应显式地关注图像中的某些重点区域。第二,一个明显的事实是一个视频可以被压缩为相当小的尺寸,这意味着一个解压的视频包含了大量的信息冗余。视频解压后得到的帧中所含有的重复的模式将会“淹没”有趣的信号,并会妨碍进一步挖掘重要信息。
发明内容
本发明的目的是针对现有技术的不足,提供一种针对压缩视频的视频描述生成方法。
本发明的技术方案如下:
一种针对压缩视频的视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对于压缩视频,如MPEG-4格式的视频,在不解压的情况下直接抽取图像帧(I-frame,Residuals)并对图像做颜色变换,尺寸变换的预处理;
步骤2)图像特征抽取阶段:在两个不同的数据集上分别训练好两个卷积神经网络以抽取特征,第一个是针对I-frame,在Imagenet上训练好图像分类网络Resnet-152。第二个是针对Residuals,在HMDB-51上使用Residuals训练好动作分类网络Resnet-18;使用上述两个预训练卷积神经网络抽取对应图像帧特征并保存;
步骤3)文本标注预处理阶段:由于采用的公开数据集已有对于视频的文本标注,所以此处可以直接针对所有已标注的文本建立词汇表,此处所建立的词汇表对标注中的所有单词进行顺序编号,编号与单词一一对应。然后根据编号将文本标注句子转换成数字序号序列;
步骤4)图像特征编码阶段:此处提出一种残差辅助的编码器,其能利用Residuals帧去生成针对I帧的注意力权重,然后将注意力权重应用到I帧特征上以生成经过注意力机制赋能的视觉特征,考虑到某些Residuals帧含有噪声,编码器中的门机制根据Residuals,I-frame和解码器中的隐状态去生成特征的置信度得分,该得分能够控制上述视觉特征多大程度上影响解码器生成文本描述,将经过门机制控制的特征输入步骤5)。
步骤5)文本解码阶段:使用长短期记忆网络,将步骤4)得到的特征解码为数字序号序列;然后根据步骤3)的词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤1)在压缩视频中等间隔抽取压缩视频的图像帧,由于压缩视频是由GOP(group ofpictures)组成,每个GOP中通常含有一个I帧和11个P帧,而P帧中含有Residuals帧;此处等间隔抽取I帧及其对应的GOP中第一个Residuals帧,两种帧的帧数均为20帧,每一帧尺寸经过尺寸变化后,高为224像素,宽为224像素;对于I帧,一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换,对于Residuals帧,三个通道分别减去0.5然后分别除以0.229,0.224,0.225;每次抽一个视频的图像帧进行上述处理然后执行步骤2)当下一个视频到来时,再次执行步骤1)和步骤2)。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络模型可采用ResNet-152和ResNet-18模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为(视频个数,每个视频抽取的帧数,每个视频的特征)。其中训练预训练模型的图像预处理方法与抽取图像特征的图像预处理方法一致。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤3)中将MSR-VTT数据集的10000个视频数据划分为训练集,验证集和测试集,其个数比例为6513:497:2990。对于Charades则是将9848个视频中的1863个视频划为测试集,其他用于模型开发;将标注的文本进行单词划分,并将每一个单词标好序,加入词汇表中;将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;并在句子最后加入<END>符号作为结尾。
所述一种针对压缩视频的视频描述生成方法,其特征所述步骤4)中采用下述两个机制,①采用Residuals辅助的注意力权重生成机制生成针对I帧特征的注意力图,这种权重生成机制利用了I帧本身特征,Residuals特征,和解码器的hidden state去针对抽取的每一帧I帧的特征生成注意力图。注意力图再与I帧特征结合得到经过注意力机制赋能的视觉特征;②设计出一种门机制,减低Residuals中的噪声对最终编码器生成的特征的影响,门机制根据Residuals特征,I帧特征和解码器的hidden state生成对①中产生的视觉特征的置信度,若置信度越高,表示模型更加采纳经过注意力机制赋能的视觉特征,反之,模型更加采纳I帧的原特征。
所述一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤5)中采用长短期记忆网络(LSTM)对步骤4)中已编码的视觉特征进行文本解码;在训练阶段,LSTM在解码生成当前词时,利用上一步的标签作为输入信息。在测试阶段,利用上一步生成词而非标签,并结合束搜索(beam search)方法生成当前词。
本发明与现有技术相比,具有的有益效果是提升了对于视频所生成的描述句子的质量,使其更好;并有以下三点创新:1)视频描述生成方法直接针对压缩视频域中的视频帧而非通常的解码后的视频帧进行描述;2)利用压缩视频帧中的Residuals帧去生成压缩视频帧中的I帧的注意力权重,使得模型能够关注I帧中的显著性区域,从而生成更好的特征;3)设计了一种门机制,其能够自动地筛选出有用的特征以及降低被压缩域中的噪声所干扰的特征的影响,这种机制能够使得模型对于信息中的噪声更具有鲁棒性。
附图说明
图1为本发明专利的模型框架示意图;
图2为本发明专利的模型预测结果样例图;
图3为本发明专利在MST-VTT数据集上的模型性能评估表;
图4为本发明专利在Charades数据集上的模型性能评估表。
具体实施方式
以下结合附图进一步说明本发明的具体实施方法。
参见图1,本发明的总体步骤如下:
在MSR-VTT,Charades等视频描述生成数据集上进行训练和测试。训练阶段,将训练集中的视频及人工标注的描述视频的文本标签送入模型进行训练。测试阶段,只将视频输入模型,然后模型将生成描述视频的句子,并可采用BLEU@4,METEOR,CIDEr,ROUGE-L指标对生成句子结果进行评估。训练阶段和测试阶段对于下述步骤1)至步骤4)都是一样的。
1)视频帧抽取:对数据集中每一个压缩视频(如以MPEG-4格式保存的视频),等间隔抽取20帧I帧,并在I帧对应的20个GOP中抽取Residuals帧。
2)图像特征抽取及保存:分别训练针对I帧和Residuals的Resnet-152和Resnet-18。在对图像进行颜色变换,尺寸变换的预处理后,用上述卷积神经网络模型抽取图像特征并保存到硬盘。如下式,CNNI是针对I帧图像序列PI的Resnet-152,CNNr是针对Residuals帧图像序列Pr的Resnet-18。VI和Ar分别是两个训练好的神经网络抽取的特征,并保存到硬盘中。
VI=CNNI(PI)
Ar=CNNr(Pr)
3)文本标注预处理:人工标注的数据集一般以JSON文件形式保存,将人工标注的句子以单词为单位进行划分,然后用单词构建词典;构建词典的方法是将单词按照从0到词数减一进行标号,例如,假设有10000词,那么将其单词按照0至9999进行编号。
4)图像特征编码:首先将上述VI和Ar两个特征按照如下四个式子进行处理。
Figure GDA0003609804260000031
Figure GDA0003609804260000032
Figure GDA0003609804260000033
Figure GDA0003609804260000034
Figure GDA0003609804260000035
得到的四个特征将会送入残差辅助的编码器(RAE)。其中,H和W分别是VI和Ar这两个抽取出来的特征的高和宽。
Figure GDA0003609804260000036
Figure GDA0003609804260000037
分别是VI和Ar在空间维度(高和宽)上进行平均得到的结果。然后对VI进行映射,将其通道数量变为Dr,得到
Figure GDA0003609804260000038
Figure GDA0003609804260000039
分别是对
Figure GDA00036098042600000310
和Ar在通道维度上进行平均。Dr
Figure GDA00036098042600000311
和Ar的通道数量。
Figure GDA00036098042600000312
其中ht-1是下文解码器的第t-1步的隐状态,
Figure GDA00036098042600000313
是残差辅助的编码器(RAE)生成的视觉表达。然后利用ht-1
Figure GDA00036098042600000314
Figure GDA00036098042600000315
生成注意力权重AR
Figure GDA00036098042600000316
Figure GDA0003609804260000041
Wt、WI、Wr都是模型训练学习到的权重。Eα代表了将张量从H×W扩展到N×H×W。将权重应用于
Figure GDA0003609804260000042
得到受到注意力赋能的特征
Figure GDA0003609804260000043
Figure GDA0003609804260000044
其中
Figure GDA0003609804260000045
代表逐元素相乘。EA表示将张量从N×H×W扩展到N×H×W×Dr。这里还提出门机制,利用ht-1
Figure GDA0003609804260000046
生成置信度G。
Figure GDA0003609804260000047
Figure GDA0003609804260000048
WGt、WGr、WGI都是模型训练学习到的权重。
利用置信度,结合经过注意力赋能的空间
Figure GDA0003609804260000049
和未经过注意力赋能的特征
Figure GDA00036098042600000410
生成视觉特征
Figure GDA00036098042600000411
送入解码器。
Figure GDA00036098042600000412
EG表示将G和(1-G)从N拓展到N×DI.WGR是学习出来的权重。然后对于
Figure GDA00036098042600000413
首先将20帧特征取均值,然后做线性映射,接着经过ReLU和dropout。
5)长短期记忆网络(LSTM)常常用于编码序列。对于一个LSTM单元(CELL),输入为上一个隐状态ht-1,上一个单元格状态ct-1和视觉特征
Figure GDA00036098042600000414
输出为当前隐状态ht,当前单元格状态ct。如下式,
Figure GDA00036098042600000415
xt-1是上一步的词的特征。下式是所要优化的对数似然函数。yt代表了第t步生成的词,θ表示我们方法中训练出来的参数。
Figure GDA00036098042600000416
在训练阶段,模型的训练是按批(batch)输入的,批大小为8。xt-1采用标签的词。在测试阶段,xt-1是上一步预测的词。测试阶段采用束搜索(beam search)方法,束(beam)大小为5。
本方法具体预测结果样例可见图2;本方法在MSR-VTT数据集上的评估指标结果可见图3;本方法在Charades数据集上的评估指标结果可见图4;从上到下分别是只采用I帧的方法,在Residuals辅助的注意力权重生成机制中去掉门机制和Residuals的方法,在Residuals辅助的注意力权重生成机制中去掉门机制的方法以及最终我们提出的Residuals辅助的注意力权重生成机制方法的评估结果。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的包含范围之内。

Claims (6)

1.一种针对压缩视频的视频描述生成方法,其特征在于,包括如下步骤:
步骤1)视频图像预处理阶段:对于压缩视频,在不解压的情况下直接抽取图像帧I-frame,Residuals并对图像做颜色变换及尺寸变换的预处理;
步骤2)图像特征抽取阶段:在两个不同的公开数据集上分别训练好两个卷积神经网络以抽取特征,第一个是针对I-frame,在Imagenet上训练好图像分类网络Resnet-152;第二个是针对Residuals,在HMDB-51上训练好动作分类网络Resnet-18,使用两个预训练卷积神经网络抽取对应图像帧特征并保存;
步骤3)文本标注预处理阶段:由于采用的步骤2)中的公开数据集已有对于视频的文本标注,所以此处可以直接针对所有已标注的文本建立词汇表,此处所建立的词汇表对标注中的所有单词进行顺序编号,编号与单词一一对应,然后根据编号将文本标注句子转换成数字序号序列;
步骤4)图像特征编码阶段:此处提出一种残差辅助的编码器,其能利用Residuals帧去生成针对I帧的注意力权重,然后将注意力权重应用到I帧特征上以生成经过注意力机制赋能的视觉特征,考虑到某些Residuals帧含有噪声,编码器中的门机制根据Residuals,I-frame和解码器中的隐状态去生成特征的置信度得分,该得分能够控制上述视觉特征影响解码器生成文本描述的程度,将经过门机制控制的特征输入步骤5);
步骤5)文本解码阶段:使用长短期记忆网络,将步骤4)得到的特征解码为数字序号序列;然后根据步骤3)的词汇表中单词与数字的对应关系将数字序号序列转为文本句子。
2.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤1)在压缩视频中等间隔抽取图像帧;由于压缩视频是由GOP组成,每个GOP中含有一个I帧和11个P帧,而P帧中含有Residuals帧,此处等间隔抽取I帧及其对应的GOP中第一个Residuals帧,两种帧的帧数均为20帧,该步骤无需解压视频;每一帧尺寸经过尺寸变化后,高为224像素,宽为224像素,对于I帧,一个帧的RGB三个通道分别减去0.485,0.456,0.406然后分别除以0.229,0.224,0.225以完成颜色变换;对于Residuals帧,三个通道分别减去0.5然后分别除以0.229,0.224,0.225;每次抽一个视频的图像帧进行上述处理然后执行步骤2)当下一个视频到来时,再次执行步骤1)和步骤2)。
3.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤2)中所采用的预训练卷积神经网络模型采用ResNet-152和ResNet-18模型对步骤1)中已抽取的图像帧进行特征抽取,然后以张量的形式存储到硬盘中,其形式为{视频个数,每个视频抽取的帧数,每个视频的特征};其中训练预训练模型的图像预处理方法与抽取图像特征的图像预处理方法一致。
4.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤3)中将MSR-VTT数据集的10000个视频数据划分为训练集,验证集和测试集,其个数比例为6513:497:2990;将标注的文本进行单词划分,并将每一个单词标好序,加入词汇表中,将每一个视频对应的标注句子根据词汇表中的对应关系转换为序号序列;并在句子最后加入<END>符号作为结尾。
5.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤4)中采用下述两个机制;第一个机制是:采用Residuals辅助的注意力权重生成机制生成针对I帧特征的注意力图,这种权重生成机制利用了I帧本身特征,Residuals特征,和解码器的hidden state去针对抽取的每一帧I帧的特征生成注意力图,注意力图再与I帧特征结合得到经过注意力机制赋能的视觉特征;第二个机制是:设计出一种门机制,减低Residuals中的噪声对最终编码器生成的特征的影响,门机制根据Residuals特征,和解码器的hidden state生成对第一个机制中产生的视觉特征的置信度,若置信度越高,表示模型更加采纳经过注意力机制赋能的视觉特征,反之,模型更加采纳I帧的原特征。
6.根据权利要求1所述的一种针对压缩视频的视频描述生成方法,其特征在于,所述步骤5)中采用长短期记忆网络对步骤4)中已编码的视觉特征进行文本解码;在训练阶段,长短期记忆网络在解码生成当前词时,利用上一步的标签作为输入信息;在测试阶段,利用上一步生成词,并结合束搜索方法生成当前词。
CN202010810293.5A 2020-08-13 2020-08-13 一种针对压缩视频的视频描述生成方法 Active CN112135200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010810293.5A CN112135200B (zh) 2020-08-13 2020-08-13 一种针对压缩视频的视频描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010810293.5A CN112135200B (zh) 2020-08-13 2020-08-13 一种针对压缩视频的视频描述生成方法

Publications (2)

Publication Number Publication Date
CN112135200A CN112135200A (zh) 2020-12-25
CN112135200B true CN112135200B (zh) 2022-07-08

Family

ID=73851360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010810293.5A Active CN112135200B (zh) 2020-08-13 2020-08-13 一种针对压缩视频的视频描述生成方法

Country Status (1)

Country Link
CN (1) CN112135200B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116193128A (zh) * 2021-11-15 2023-05-30 深圳市中兴微电子技术有限公司 图像处理方法及装置、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965887A (zh) * 2018-06-29 2018-12-07 中国科学院信息工程研究所 一种基于块间去耦合的视频信息隐藏方法和装置
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN110826397A (zh) * 2019-09-20 2020-02-21 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999606B2 (en) * 2019-01-08 2021-05-04 Intel Corporation Method and system of neural network loop filtering for video coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108965887A (zh) * 2018-06-29 2018-12-07 中国科学院信息工程研究所 一种基于块间去耦合的视频信息隐藏方法和装置
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN110826397A (zh) * 2019-09-20 2020-02-21 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的视频中人体动作识别进展综述;罗会兰等;《电子学报》;20190515(第05期);全文 *

Also Published As

Publication number Publication date
CN112135200A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN111104884B (zh) 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111078866B (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN112668559B (zh) 一种多模态信息融合的短视频情感判定装置及方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111783423B (zh) 解题模型的训练方法及装置、解题方法及装置
CN111259785B (zh) 基于时间偏移残差网络的唇语识别方法
CN116939320B (zh) 一种生成式多模态互利增强视频语义通信方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN110472255A (zh) 神经网络机器翻译方法、模型、电子终端以及存储介质
CN112668346A (zh) 翻译方法、装置、设备及存储介质
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
CN115759062A (zh) 基于知识注入的文图预训练模型处理方法和文图检索系统
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN112135200B (zh) 一种针对压缩视频的视频描述生成方法
CN115408494A (zh) 一种融合多头注意力对齐的文本匹配方法
CN117710986B (zh) 一种基于掩码的交互式增强图像文本识别的方法及系统
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
CN114581920A (zh) 一种双分支多层次特征解码的分子图像识别方法
CN113688871A (zh) 基于Transformer的视频多标签动作识别方法
CN117291232A (zh) 一种基于扩散模型的图像生成方法与装置
CN117093864A (zh) 文本生成模型训练方法以及装置
CN112131429A (zh) 一种基于深度预测编码网络的视频分类方法及系统
CN111859407A (zh) 基于候选池自收缩机制的文本自动生成隐写方法
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231113

Address after: Room 318, Building 3, No. 368 Jinpeng Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province, 310030

Patentee after: Carbon silicon (Hangzhou) Biotechnology Co.,Ltd.

Address before: 211111 No.11, mozhou East Road, moling street, Jiangning District, Nanjing City, Jiangsu Province

Patentee before: Nanjing Zhongzhi future Artificial Intelligence Research Institute Co.,Ltd.

Patentee before: HANGZHOU YISHUN TECHNOLOGY Co.,Ltd.