CN113139378B - 一种基于视觉嵌入和条件归一化的图像描述方法 - Google Patents

一种基于视觉嵌入和条件归一化的图像描述方法 Download PDF

Info

Publication number
CN113139378B
CN113139378B CN202110292545.4A CN202110292545A CN113139378B CN 113139378 B CN113139378 B CN 113139378B CN 202110292545 A CN202110292545 A CN 202110292545A CN 113139378 B CN113139378 B CN 113139378B
Authority
CN
China
Prior art keywords
image
model
vem
conditional
resnet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110292545.4A
Other languages
English (en)
Other versions
CN113139378A (zh
Inventor
张旻
李鹏飞
林培捷
汤景凡
姜明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Taoyi Data Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110292545.4A priority Critical patent/CN113139378B/zh
Publication of CN113139378A publication Critical patent/CN113139378A/zh
Application granted granted Critical
Publication of CN113139378B publication Critical patent/CN113139378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明公开了一种基于视觉嵌入和条件归一化的图像描述方法。本发明提出了一种基于transformer模型的网络,被称为V‑CLTM。在transformer模型的输入端,使用关键词嵌入模块(KEM)提取图像中的目标类别作为关键词,结合文本序列作为输入序列;使用视觉嵌入模块(VEM)用来提取图像特征,并将特征编码成transformer的归一化层能接受维度作为条件输入;同时,本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制,将条件归一化LN应用于transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。

Description

一种基于视觉嵌入和条件归一化的图像描述方法
技术领域
本发明涉及图像字幕生成方法,具体来讲是一种基于视觉嵌入和条件归一化的图像描述方法,属于图像字幕生成技术领域。
背景技术
图像描述是计算机视觉和自然语言处理的综合性任务,这个任务是具有挑战性的。它要准确的找到图像中显著性的物体,物体的属性,物体之间的关系以及所处场景,并使用自然语言正确的进行描述。得益于深度学习的快速发展,图像描述任务取得了优秀的成果,在一些评价指标上甚至超过了人类。
近年来,transformer模型使用全注意力机制的结构代替了LSTM应用在翻译任务中。针对图像-文本,语音-文本等研究也越来越多,具体应用上包括了图像字幕,视频字幕,图像问答,视频问答等。相对于传统编码-解码过程,transformer模型在这些任务上的成果是优秀的。该模型的输入序列包括了来自文本的单词、图像的感兴趣区域以及消除不同模态数据的特定元素。在输入操作之前,通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是,最终任务需要的视觉信息和文本信息应该在模型学习整个过程起作用,而不是仅依靠输入序列的多模态融合信息。CBN(Conditional Batch Normalization)中认为语言能够更好的帮助图像模型更好的识别图像。CBN以LSTM提取的自然语言特征作为条件,预测BN(Batch Normalization)层参数的增量,使得不同的输入都有相对应的归一化参数。既然自然语言特征可以作为条件,用于预测BN参数的变化,那么图片的类别信息自然也可以作为条件来预测BN层的参数。受此启发,本发明认为图像作为条件能够帮助transformer模型更好的生成描述。在transformer模型中,LN(layer Normalization)层取代了BN层,因此需要将文本或图片信息嵌入到LN层中,通过这种操作使得transformer模型面对生成文本任务时,能更好的参考条件信息进行特征选择。另外,这种条件嵌入的方法需要为transformer提供合适的信息。因此,本发明在transformer编解码过程中选取了易于改变的LN层来接受参考条件。使用图像预训练模型提取图像信息,并将图像信息经过不同的编码过程编码为transformer能够接受的维度。
发明内容
本发明的目的是针对现有技术的不足,提供一种通过视觉嵌入来调节transformer模型训练过程中进行特征选择的有效机制,以解决视觉-语言模型在训练过程中,不能时刻借鉴图像信息的问题。具体来说,在transformer模型的输入端,构建关键词嵌入模块(KEM),KEM使用目标检测的方法对图像进行目标检测,将结果组合成序列,和训练集中图像字幕组合成最终序列组合,通过输入端进行输入。构建视觉嵌入模块(VEM)对图像特征进行提取,将图像进行编码,通过条件嵌入的方式进行输入。对于transformer中的LN层已经有现成的、无条件的g(gain)和(bias)b了,它们用于对特征施加增益和偏置操作,都是固定长度的向量。通过VEM对图像进行编码为g′,b′作为条件输入,g′,b′跟g,b具有相同的维度,然后将结果分别加到g和b上去。从含义上讲可以解释为:根据g′,b′的信息,transformer模型在针对图像字幕任务生成过程中,针对性学习和图像特征相关的信息,进而调节权重。结果表明,这种方法具有更好的鲁棒性和自适应能力。
本发明有益效果如下:
本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制,将条件归一化LN应用于transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。根据图像描述领域标准性能指标进行测试,其中评估指标包括:BLEU_1/BLEU_2/BLEU_3/BLEU_4/METOR/ROUGE_L/CIDEr/SPICE。在MSCOCO数据集上进行测试,测试结果分别为:82.9/63.3/47.4/37.9/28.9/56.5/127.2/22.5。在Visual Genome数据集上进行测试,测试结果分别为:44.2/29.2/20.1/19.5/21.8/45.3/185.9/38.9,两项测试结果均在领域内属于领先水平。
附图说明
图1是本发明的整体实施方案流程图;
图2是本发明的KEM示意图;
图3是本发明的VEM示意图;
图4是本发明的条件归一化层示意图;
图5是本发明的整体结构示意图;
图6是本发明实施例图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1是本发明的整体实施方案流程图,一种基于视觉嵌入和条件归一化的图像字幕方法,包括以下步骤:
步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,将目标检测结果作为图像的关键词集合,将关键词集合和MSCOCO中图像的文本序列组成输入序列,构建关键词嵌入模块KEM(Keywords Embedding Module);
步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取,将所提取的特征进行编码,将编码结果通过条件嵌入的方式输入到预训练语言模型。该步骤中所提到的操作被称为视觉嵌入模块VEM(Visual Embedding Module);
步骤(3)使用transformer模型作为基干网络,LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过视觉嵌入网络VEM将图像编码为g′,b′;g′,b′跟g,b具有相同的维度,将VEM的编码结果g′,b′分别加到g和b上去,构建条件归一化层LN(layer Normalization);
步骤(4)将KEM和VEM的编码结果分别作为transformer模型的序列输入和条件嵌入,用条件归一化的LN替换transformer中所有的LN层,构建V-CLTM模型;
步骤(5)对V-CLTM模型在MSCOCO数据集上进行训练,挑选最优训练模型。将图片输入训练好的V-CLTM模型,输出对应的图像字幕;
进一步的,所述步骤(1)具体实现过程如下:
1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取。Faster RCNN能够获得目标类别以及相应目标在图像中的区域。为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,…,ws}。其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示。
W=Faster RCNN(I) (1)
1-2获取关键词集W后,将将W中的关键词和特殊字符组合成序列S。三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中,[CLS]放在第一个关键字之前,例如输入句子A,要在句子A之前加[CLS]标志;[SEP]用于分开两个输入句子,例如输入句子A和B,要在句子A后面且句子B前面增加[SEP]标志;[STOP]放在句子结束,表示句子结束,例如句子A,要在A后面加[STOP]标志。
1-3训练阶段序列S和MSCOCO数据集中图像描述的序列S′进行组合成最终输入序列
Figure BDA0002982883350000041
若N为输入序列
Figure BDA0002982883350000042
的最终序列长度,则
Figure BDA0002982883350000043
的维度为768*N。
进一步的,所述步骤(2)具体实现过程如下:
2-1基干网络使用在ImageNet上预训练的ResNet模型,获得对应图像I的图像特征Iresnet,其维度为2048维,如公式(2)所示。
Iresnet=ResNet(I) (2)
2-2将图像特征Iresnet经过两层512维的全连接操作以及两层ReLU激活函数,然后分别通过512维的全连接进行输出,它们的最终表达,如公式(3)(4)所示。
g′=fVEM(Iresnet) (3)
b′=fVEM(Iresnet) (4)
其中,fVEM代表图像特征Iresnet的编码过程。
2-3将步骤2-1、2-2所述流程构成VEM,参照图3。
进一步的,所述步骤(3)具体实现过程如下:
3-1计算特征x在LN层的归一化统计量均值μ和方差σ,特征x通过均值μ和方差σ,可以得到归一化后的特征值为x′,如公式(5)所示:
Figure BDA0002982883350000051
其中,ε是一个很小的小数,防止除0。3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息,在LN中这组参数叫做增益g和偏置b,LN的输出如公式(6)所示。
fLN(x′)=g☉x′+b (6)
合并公式(5),(6),LN层最终输出,如公式(7)所示。
Figure BDA0002982883350000052
3-3对于transformer来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量。VEN将图像特征编码到跟g和b一样的维度,然后将两个编码结果g′和b′分别加到g和b上去如公式(8)(9)所示。
Figure BDA0002982883350000053
Figure BDA0002982883350000054
3-4通过CELN获得新特征为
Figure BDA0002982883350000055
计算过程如公式(10)所示。
Figure BDA0002982883350000056
其中,μ和σ是分别是均值和方差。
3-5将步骤3-1、3-2、3-3和3-4所述流程构成条件归一化的LN层,参照图4。
进一步的,所述步骤(4)具体实现过程如下:
4-1将KEM作为transformer模型输入,VEM的结果作为transformer模型的条件输入,将条件归一化LN层替换transformer的所有的LN层。
4-2将4-1中KEM、VEM以及加入条件归一化LN层的transformer模型,构建V-CLTM模型,整体模型参照图5。
进一步的,所述步骤(5)具体实现过程如下:
5-1在MSCOCO数据集上进行端到端的训练,epoch设置为10,学习率为0.00001,batch size为16,使用Adam优化器渐进式的调整学习率。在推理短语中,使用波束搜索,波束大小为3。利用标准的交叉熵损失来训练模型,公式(11)所示。
Figure BDA0002982883350000061
其中,y1:t为给定的真实字幕,θ为模型参数。
5-2将测试图像输入到V-CLTM模型中,获得图像字幕。
实施例1:
如图6所示,通过目标检测算法检测出目标包括:cat bowl,构建关键词集W={cat,bow},将关键词集W和步骤1-2所提到的特殊字符组成输入序列S。训练阶段序列S和MSCOCO数据集中图像描述的序列S′进行组合成最终输入序列
Figure BDA0002982883350000062
训练得到V-CLTM模型。测试阶段,只需将关键词集W以及图像特征输入到V-CLTM模型中,得到预测结果为:a catsitting in a bowl looking down。

Claims (5)

1.一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于包括以下步骤:
步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,将目标检测结果作为图像的关键词集合,将关键词集合和MSCOCO中图像的文本序列组成输入序列,构建关键词嵌入模块KEM;
步骤(2)使用预训练的图像特征提取模型ResNet对图像进行特征提取,将所提取的特征进行编码,将编码结果通过条件嵌入的方式输入到预训练语言模型;该步骤中所提到的操作被称为视觉嵌入模块VEM;
步骤(3)使用transformer模型作为基干网络,LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过视觉嵌入网络VEM将图像编码为g′,b′;g′,b′跟g,b具有相同的维度,将VEM的编码结果g′,b′分别加到g和b上去,构建条件归一化层LN;
步骤(4)将KEM和VEM的编码结果分别作为transformer模型的序列输入和条件嵌入,用条件归一化的LN替换transformer中所有的LN层,构建V-CLTM模型;
步骤(5)对V-CLTM模型在MSCOCO数据集上进行训练,挑选最优训练模型;将图片输入训练好的V-CLTM模型,输出对应的图像字幕;
所述步骤(4)具体实现过程如下:
4-1将KEM作为transformer模型输入,VEM的结果作为transformer模型的条件输入,将条件归一化LN层替换transformer的所有的LN层;
4-2将4-1中KEM、VEM以及加入条件归一化LN层的transformer模型,构建V-CLTM模型。
2.根据权利要求1所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(1)具体实现过程如下:
1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取;Faster RCNN能够获得目标类别以及相应目标在图像中的区域;为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,...,ws};其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示;
W=Faster RCNN (I) (1)
1-2获取关键词集W后,将W中的关键词和特殊字符组合成序列S;三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中,[CLS]放在第一个关键字之前,[SEP]用于分开两个输入句子,[STOP]放在句子结束,表示句子结束;
1-3训练阶段序列S和MSCOCO数据集中图像描述的序列S′进行组合成最终输入序列
Figure FDA0003391052340000021
若N为输入序列
Figure FDA0003391052340000022
的最终序列长度,则
Figure FDA0003391052340000023
的维度为768*N。
3.根据权利要求2所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(2)具体实现过程如下:
2-1基干网络使用在ImageNet上预训练的ResNet模型,获得对应图像I的图像特征Iresnet,其维度为2048维,如公式(2)所示;
Iresnet=ResNet (I) (2)
2-2将图像特征Iresnet经过两层512维的全连接操作以及两层ReLU激活函数,然后分别通过512维的全连接进行输出,最终表达如公式(3)(4)所示;
g′=fVEM(Iresnet) (3)
b′=fVEM(Iresnet) (4)
其中,fVEM代表图像特征Iresnet的编码过程。
4.根据权利要求3所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(3)具体实现过程如下:
3-1计算特征x在LN层的归一化统计量均值μ和方差σ,特征x通过均值μ和方差σ,得到归一化后的特征值为x′,如公式(5)所示:
Figure FDA0003391052340000024
其中,ε是一个很小的小数,防止除0;
3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息,在LN中这组参数叫做增益g和偏置b,LN的输出如公式(6)所不;
fLN(x′)=g⊙x′+b (6)
合并公式(5),(6),LN层最终输出,如公式(7)所示;
Figure FDA0003391052340000031
3-3对于transformer来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量;VEN将图像特征编码到跟g和b一样的维度,然后将两个编码结果g′和b′分别加到g和b上去如公式(8)(9)所示;
Figure FDA0003391052340000032
Figure FDA0003391052340000033
3-4通过CELN获得新特征为
Figure FDA0003391052340000034
计算过程如公式(10)所示;
Figure FDA0003391052340000035
其中,μ和σ是分别是均值和方差。
5.根据权利要求4所述的一种基于视觉嵌入和条件归一化的图像描述方法,其特征在于所述步骤(5)具体实现过程如下:
5-1在MSCOCO数据集上进行端到端的训练,epoch设置为10,学习率为0.00001,batchsize为16,使用Adam优化器渐进式的调整学习率;在推理短语中,使用波束搜索,波束大小为3;利用标准的交叉熵损失来训练模型,公式(11)所示;
Figure FDA0003391052340000036
其中,y1:t为给定的真实字幕,θ为模型参数;
5-2将测试图像输入到V-CLTM模型中,获得图像字幕。
CN202110292545.4A 2021-03-18 2021-03-18 一种基于视觉嵌入和条件归一化的图像描述方法 Active CN113139378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110292545.4A CN113139378B (zh) 2021-03-18 2021-03-18 一种基于视觉嵌入和条件归一化的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110292545.4A CN113139378B (zh) 2021-03-18 2021-03-18 一种基于视觉嵌入和条件归一化的图像描述方法

Publications (2)

Publication Number Publication Date
CN113139378A CN113139378A (zh) 2021-07-20
CN113139378B true CN113139378B (zh) 2022-02-18

Family

ID=76811544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110292545.4A Active CN113139378B (zh) 2021-03-18 2021-03-18 一种基于视觉嵌入和条件归一化的图像描述方法

Country Status (1)

Country Link
CN (1) CN113139378B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073748A (zh) * 2011-03-08 2011-05-25 武汉大学 一种基于视觉关键词的遥感影像语义检索方法
CN108875910A (zh) * 2018-05-23 2018-11-23 山东大学 基于注意力知识提取的服装搭配方法、系统及存储介质
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
KR102054116B1 (ko) * 2019-08-21 2019-12-09 정재원 맞춤형 무대 영상 제공 시스템
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法
CN111859911A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 图像描述文本生成方法、装置、计算机设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853558B2 (en) * 2007-11-09 2010-12-14 Vibrant Media, Inc. Intelligent augmentation of media content
CN102542067A (zh) * 2012-01-06 2012-07-04 上海交通大学 基于尺度学习和关联标号传播的自动图像语义标注方法
TWI528309B (zh) * 2013-11-20 2016-04-01 財團法人資訊工業策進會 適性廣告物件的顯示方法、行動裝置以及其產生系統
CN109215097A (zh) * 2018-08-08 2019-01-15 深圳市唯特视科技有限公司 一种基于端到端联合学习的单个图像文本条件嵌入方法
CN111598964B (zh) * 2020-05-15 2023-02-14 厦门大学 一种基于空间自适应网络的定量磁化率图像重建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073748A (zh) * 2011-03-08 2011-05-25 武汉大学 一种基于视觉关键词的遥感影像语义检索方法
CN108875910A (zh) * 2018-05-23 2018-11-23 山东大学 基于注意力知识提取的服装搭配方法、系统及存储介质
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
CN110390324A (zh) * 2019-07-27 2019-10-29 苏州过来人科技有限公司 一种融合视觉与文本特征的简历版面分析算法
KR102054116B1 (ko) * 2019-08-21 2019-12-09 정재원 맞춤형 무대 영상 제공 시스템
CN111737511A (zh) * 2020-06-17 2020-10-02 南强智视(厦门)科技有限公司 基于自适应局部概念嵌入的图像描述方法
CN111859911A (zh) * 2020-07-28 2020-10-30 中国平安人寿保险股份有限公司 图像描述文本生成方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Transformer-Encoder Detector Module: Using;Faisal Alamr 等;《2020 25th International Conference on Pattern Recognition》;20210131;全文 *

Also Published As

Publication number Publication date
CN113139378A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN113139575B (zh) 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN111444367B (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
JP2010250814A (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN116775922A (zh) 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
EP4060548A1 (en) Method and device for presenting prompt information and storage medium
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN110659392B (zh) 检索方法及装置、存储介质
Lin et al. Gloss-free end-to-end sign language translation
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN110750669B (zh) 一种图像字幕生成的方法及系统
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
CN117453859A (zh) 一种农业病虫害图文检索方法、系统及电子设备
CN113139378B (zh) 一种基于视觉嵌入和条件归一化的图像描述方法
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
CN116128998A (zh) 一种多路并行的文本到图像生成方法和系统
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN114241279A (zh) 图文联合纠错方法、装置、存储介质及计算机设备
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN113822018A (zh) 实体关系联合抽取方法
CN113722536A (zh) 基于双线性自适应特征交互与目标感知的视频描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220824

Address after: Room 405, 6-8 Jiaogong Road, Xihu District, Hangzhou City, Zhejiang Province, 310013

Patentee after: Hangzhou Taoyi Data Technology Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University

TR01 Transfer of patent right