CN116595215A - 基于多模态技术的中文文本搜索图像或视频的方法 - Google Patents

基于多模态技术的中文文本搜索图像或视频的方法 Download PDF

Info

Publication number
CN116595215A
CN116595215A CN202310864735.8A CN202310864735A CN116595215A CN 116595215 A CN116595215 A CN 116595215A CN 202310864735 A CN202310864735 A CN 202310864735A CN 116595215 A CN116595215 A CN 116595215A
Authority
CN
China
Prior art keywords
training
text
network model
decoder network
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310864735.8A
Other languages
English (en)
Inventor
韩福海
韩乃平
刘丽欣
付龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Operating System Innovation Center Tianjin Co ltd
Original Assignee
Advanced Operating System Innovation Center Tianjin Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Operating System Innovation Center Tianjin Co ltd filed Critical Advanced Operating System Innovation Center Tianjin Co ltd
Priority to CN202310864735.8A priority Critical patent/CN116595215A/zh
Publication of CN116595215A publication Critical patent/CN116595215A/zh
Priority to CN202311446864.1A priority patent/CN117591692A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于多模态技术的中文文本搜索图像或视频的方法,包括如下步骤:将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量,并输入对Decoder网络模型进行初步训练,保存训练模型参数;根据图像向量和文字向量之间的相似度设置第一阈值及第二阈值,以对图像向量和文字向量进行两次筛选,并继续训练Decoder网络模型,保存训练模型参数;使用人工标注的数据集,对Decoder网络模型进行最后训练,完成模型精调,得到训练好的Decoder网络模型。本发明基于Transformer的Decoder构建Decoder网络并进行分步迭代训练,从而实现使用少量人工标定数据即可完成训练过程,最终实现图像到中文文本的标签生成功能。

Description

基于多模态技术的中文文本搜索图像或视频的方法
技术领域
本发明涉及大数据技术领域,具体涉及基于多模态技术的中文文本搜索图像或视频的方法。
背景技术
在互联网领域,文本是最常见的数据呈现形式,其次是图像、视频。这几种不同模态的数据不是截然分开独立存在的,而是紧密融合在一起的。比如,在图文检索任务中,需要用文本去搜索图像;在视频搜索推荐任务中,视频中除了图像外,存在的标题、字幕和语音都可以映射为文本;在文章配图等场景中,需要建模文字和图片的关系。所以,图文跨模态表示从某种意义上来讲是互联网领域里应用最广,最有价值的技术之一。
发明内容
为了实现使用少量人工标注数据即可完成多模态神经网络的训练,本发明提供了基于多模态技术的中文文本搜索图像或视频的方法,包括如下步骤:
步骤S1:爬取初始训练集;
步骤S2:将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量,将图像向量和文字向量对Decoder网络模型进行初步训练,待损失不再降低时,停止训练,保存训练模型参数;
步骤S3:基于CLIP技术计算图像向量和文字向量之间的相似度,通过对相似度设置第一阈值,过滤一部分图像向量和文字向量,使用过滤后的图像向量和文字向量继续对Decoder网络模型进行训练,保存训练模型参数;
步骤S4:重复步骤S3,根据第二阈值再次过滤图像向量及文字向量,并再次进行Decoder网络模型训练,保存训练模型参数;
步骤S5:使用人工标注的数据集,对步骤S4所训练好的Decoder网络模型进行最后训练,完成模型精调,得到训练好的Decoder网络模型。
其中,其特征在于,基于所训练好的Decoder网络模型,将需要对其进行搜索的图像或视频输入Decoder网络模型中,与搜索对象中所存在的搜索文本进行比对,返回搜索结果。
其中,所述步骤S2-步骤S5中,所训练的Decoder网络模型包括Self Attention及Cross Attention,Self Attention及Cross Attention的计算公式为:
其中,Self Attention的Q,K,V为文本向量输入编码与三个变换矩阵相乘得到的结果;
其中,Cross Attention的K,V为图像向量输入编码与两个变换矩阵相乘得到的结果;Q为文本向量输入编码与一个变换矩阵相乘得到的结果;
为Q,K,V的列数,即向量维度。
其中,所述步骤S2-步骤S5中,在训练Decoder网络模型的过程中,针对Decoder网络模型所输出的文本,通过损失函数得到分类损失,并将分类损失回传给Decoder网络模型,以优化Decoder网络模型。
其中,通过如下公式得到分类损失:
其中,pi为真实分类标签值;qi为相应的标签分类的预测概率值;k为分类数,y为所对应的标签。
本发明提供的基于多模态技术的中文文本搜索图像或视频的方法,基于Transformer的Decoder构建Decoder网络并进行分步迭代训练,从而实现使用少量人工标定数据即可完成训练过程,最终实现图像到中文文本的标签生成功能。
附图说明
图1为本发明的基于多模态技术的中文文本搜索图像或视频的方法的实现流程图。
图2为Decoder网络模型经过初步训练后的识别中文文本的功能。
图3为Decoder网络模型经过完整训练后的识别中文文本的功能。
图4为CLIP技术的逻辑原理图。
图5为本发明的Decoder网络模型的逻辑原理图。
图6为Decoder网络模型中Self Attention及Cross Attention的逻辑原理图。
图7为Self Attention计算过程的Masked 操作实现机制。
图8为Decoder网络模型的最终输出示意图。
具体实施方式
为了对本发明的技术方案及有益效果有更进一步的了解,下面结合附图详细说明本发明的技术方案及其产生的有益效果。
一、图1为本发明的基于多模态技术的中文文本搜索图像或视频的方法的实现流程图,如图1所示,本发明的一个总体的技术构思如下:
1、通过程序爬取网络中的新闻,获取新闻中的图像和标题作为初始训练数据,共爬取6300万条数据。基于CLIP技术从此数据中得到图像向量和文本向量,将图像向量和文字向量输出Decoder网络对Decoder网络进行初步训练,待损失不再降低后,停止训练,保存训练模型参数。此时的模型已具有初步认识中文文本功能。
2、使用中文CLIP对数据集进行初步过滤,采用图像编码(即图像向量)和文本编码(即文本向量)相似度进行过滤,阈值设置为0.02。再次使用过滤后的数据集对上述步骤1中训练后的模型进行训练,保存训练模型参数。
3、同上述步骤2中一样,采用阈值0.04进行过滤,再次进行迭代训练,保存训练模型参数。如图2所示,经过三步训练后模型针对图2的图片输出“猫咪的高清图片桌面壁纸”,此时模型已具备识图能力,但其生成文本更具有新闻标题含义,究其原因,与其训练数据集相关。
4、最后,使用人工标注的数据集,对步骤3中模型进行最后训练,完成模型的精调,最终完成图像生成文本的模型训练。本文只用4500幅人工标定数据即完成了模型的精调,训练效果以图3为例,针对图3,模型输出“一只斑猫卧在桌子上看着镜头”。
5、基于所训练好的Decoder网络,在需要基于图像或视频搜索相关的图像或视频时,将图像与视频输入Decoder网络,产生文本描述,与所欲搜索的数据库中的搜索文本进行对比,返回搜索结果。
二、CLIP技术
如上文所述,CLIP将图像经过图像编码器转变为向量表示,文本也经过文本编码器转变为向量表示,两个向量间可以计算相似度,最后通过对比学习来学习编码器。CLIP虽然算法简单,但效果非常惊艳,很重要的原因是使用了上亿的图文匹配数据进行训练。图4为CLIP技术的逻辑原理图,在图4中,最下方输出的图片是一只抱着小猫的女孩子(图中未示出)。
三、Decoder网络模型的训练
1、模型训练
受益于GPT的成功启发,我们同样以Transformer的Decoder为基础网络进行网络扩充,实现网络在多模态识别领域的量变到质变,图5为本发明的Decoder网络模型的逻辑原理图。图6为Decoder网络模型中Self Attention及Cross Attention的逻辑原理图,如图6所示,Decoder网络中的Self Attention及Cross Attention(自注意力及交叉注意力)均采用Multi-Head Attention结构。
针对Self Attention,其计算公式为:
其中,Self Attention的Q,K,V为文本向量输入编码与三个变换矩阵相乘得到的结果;为Q,K,V的列数,即向量维度。
Decoder的第一个 Self Attention 采用了 Masked 操作,因为在生成的过程中是顺序生成的,即生成完第 i 个单词,才可以生成第 i+1 个单词。通过 Masked 操作可以防止第 i 个单词知道 i+1 个单词之后的信息。请结合图7所示,以 "I have a cat" 为例,了解一下 Masked 操作。
Decoder第二个 Cross Attention 主要的区别在于其中 Multi-Head Attention的 K, V矩阵不是使用上一个Self Attention的输出计算的,而是使用CLIP的图像编码向量。
2、训练损失函数
图8为Decoder网络模型经过上述Self Attention及Cross Attention计算后的最终输出:在每一个标签位置上,Decoder网络模型均会预测一个单词,从而得到一个文本句子。
在基于图像向量及文本向量对Decoder网络模型进行训练的过程中,文本所对应的各个单词可以理解为真实分类标签值,多个真实分类标签值组成了输入的文本(也即希望Decoder网络模型所输出的文本),针对这个真实的分类标签,Decoder网络模型存在一个能够预测到该真实分类标签的概率,预测概率越小(离值1越远),损失度越大,通过计算该损失度并将损失度回传给Decoder网络模型,可使Decoder网络模型在训练的过程中不断优化参数,增加文本阅读能力。
传统的交叉熵损失函数为:
其中,i表示多分类中的某一类,可抽象理解为标签,或单词。pi为真实分类标签值,qi为相应的标签分类的预测概率值;k为分类数(或单词数),y为所对应的标签。
训练神经网络时,最小化预测概率和标签真实概率之间的交叉熵,从而得到最优的预测概率分布。最优的预测概率分布是:
神经网络会促使自身往正确标签和错误标签差值最大的方向学习,在训练数据较少,不足以表征所有的样本特征的情况下,会导致网络过拟合。
本发明为了解决此问题,采用标签平滑策略,标签平滑策略是一种正则化策略,主要通过soft one-hot来加入噪声,减少真实样本标签的类别在计算损失函数时的权重,最终起到抑制过拟合的效果。
增加标签平滑后真实的概率分布有如下改变:
其中,Loss为最终计算得到的损失值,而ε为基于实际需要设定的参数值。
本发明提供了一种基于多模态技术为图像与视频生成中文标签的神经网络设计与数据准备、迭代训练方法,基于Transformer的Decoder构建Decoder网络并进行分步迭代训练,实现了使用少量人工标定数据即可完成训练过程,再根据搜索文本与图像生成中文文本标签相似度,返回图像与视频搜索结果,最终实现了图像到中文文本的标签生成功能,以及根据标签进行图像与视频的查找任务。
虽然本发明已利用上述较佳实施例进行说明,然其并非用以限定本发明的保护范围,任何本领域技术人员在不脱离本发明的精神和范围之内,相对上述实施例进行各种变动与修改仍属本发明所保护的范围,因此本发明的保护范围以权利要求书所界定的为准。

Claims (5)

1.基于多模态技术的中文文本搜索图像或视频的方法,其特征在于,包括如下步骤:
步骤S1:爬取初始训练集;
步骤S2:将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量,将图像向量和文字向量对Decoder网络模型进行初步训练,待损失不再降低时,停止训练,保存训练模型参数;
步骤S3:基于CLIP技术计算图像向量和文字向量之间的相似度,通过对相似度设置第一阈值,过滤一部分图像向量和文字向量,使用过滤后的图像向量和文字向量继续对Decoder网络模型进行训练,保存训练模型参数;
步骤S4:重复步骤S3,根据第二阈值再次过滤图像向量及文字向量,并再次进行Decoder网络模型训练,保存训练模型参数;
步骤S5:使用人工标注的数据集,对步骤S4所训练好的Decoder网络模型进行最后训练,完成模型精调,得到训练好的Decoder网络模型。
2.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法,其特征在于,基于所训练好的Decoder网络模型,将需要对其进行搜索的图像或视频输入Decoder网络模型中,与搜索对象中所存在的搜索文本进行比对,返回搜索结果。
3.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法,其特征在于,所述步骤S2-步骤S5中,所训练的Decoder网络模型包括Self Attention及CrossAttention,Self Attention及Cross Attention的计算公式为:
其中,Self Attention的Q,K,V为文本向量输入编码与三个变换矩阵相乘得到的结果;
其中,Cross Attention的K,V为图像向量输入编码与两个变换矩阵相乘得到的结果;Q为文本向量输入编码与一个变换矩阵相乘得到的结果;
为Q,K,V的列数,即向量维度。
4.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法,其特征在于,所述步骤S2-步骤S5中,在训练Decoder网络模型的过程中,针对Decoder网络模型所输出的文本,通过损失函数得到分类损失,并将分类损失回传给Decoder网络模型,以优化Decoder网络模型。
5.如权利要求4所述的基于多模态技术的中文文本搜索图像或视频的方法,其特征在于,通过如下公式得到分类损失:
其中,pi为真实分类标签值;qi为相应的标签分类的预测概率值;k为分类数,y为所对应的标签。
CN202310864735.8A 2023-07-14 2023-07-14 基于多模态技术的中文文本搜索图像或视频的方法 Pending CN116595215A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310864735.8A CN116595215A (zh) 2023-07-14 2023-07-14 基于多模态技术的中文文本搜索图像或视频的方法
CN202311446864.1A CN117591692A (zh) 2023-07-14 2023-11-02 基于多模态技术的中文文本搜索图像或视频的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310864735.8A CN116595215A (zh) 2023-07-14 2023-07-14 基于多模态技术的中文文本搜索图像或视频的方法

Publications (1)

Publication Number Publication Date
CN116595215A true CN116595215A (zh) 2023-08-15

Family

ID=87611996

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310864735.8A Pending CN116595215A (zh) 2023-07-14 2023-07-14 基于多模态技术的中文文本搜索图像或视频的方法
CN202311446864.1A Pending CN117591692A (zh) 2023-07-14 2023-11-02 基于多模态技术的中文文本搜索图像或视频的方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202311446864.1A Pending CN117591692A (zh) 2023-07-14 2023-11-02 基于多模态技术的中文文本搜索图像或视频的方法

Country Status (1)

Country Link
CN (2) CN116595215A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN110427973A (zh) * 2019-07-09 2019-11-08 东南大学 一种面向歧义标注样本的分类方法
CN110796143A (zh) * 2019-10-31 2020-02-14 天津大学 一种基于人机协同的场景文本识别方法
CN111339340A (zh) * 2018-12-18 2020-06-26 顺丰科技有限公司 图像描述模型的训练方法、图像搜索方法及装置
CN114926835A (zh) * 2022-05-20 2022-08-19 京东科技控股股份有限公司 文本生成、模型训练方法和装置
CN116108217A (zh) * 2022-10-27 2023-05-12 浙江大学 一种基于深度哈希编码和多任务预测的逃费车辆相似图片检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN111339340A (zh) * 2018-12-18 2020-06-26 顺丰科技有限公司 图像描述模型的训练方法、图像搜索方法及装置
CN110427973A (zh) * 2019-07-09 2019-11-08 东南大学 一种面向歧义标注样本的分类方法
CN110796143A (zh) * 2019-10-31 2020-02-14 天津大学 一种基于人机协同的场景文本识别方法
CN114926835A (zh) * 2022-05-20 2022-08-19 京东科技控股股份有限公司 文本生成、模型训练方法和装置
CN116108217A (zh) * 2022-10-27 2023-05-12 浙江大学 一种基于深度哈希编码和多任务预测的逃费车辆相似图片检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEEPHUB: "《解决过拟合:如何在PyTorch中使用标签平滑正则化 - 知乎》", pages 726 - 727, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/123077402> *
张煜;吕锡香;邹宇聪;李一戈;: "基于生成对抗网络的文本序列数据集脱敏", 网络与信息安全学报, no. 04 *

Also Published As

Publication number Publication date
CN117591692A (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
Wang et al. Image captioning with deep bidirectional LSTMs and multi-task learning
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
EP3399460B1 (en) Captioning a region of an image
US11238093B2 (en) Video retrieval based on encoding temporal relationships among video frames
US11288324B2 (en) Chart question answering
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN116450796B (zh) 一种智能问答模型构建方法及设备
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN113423004B (zh) 基于解耦译码的视频字幕生成方法和系统
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN116303977B (zh) 一种基于特征分类的问答方法及系统
US20230298630A1 (en) Apparatuses and methods for selectively inserting text into a video resume
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN115718815A (zh) 一种跨模态检索方法和系统
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
CN115659279A (zh) 一种基于图文交互的多模态数据融合方法
Zhu et al. Multiscale temporal network for continuous sign language recognition
CN113553445B (zh) 一种生成视频描述的方法
Hafeth et al. Semantic representations with attention networks for boosting image captioning
CN114020900A (zh) 基于融合空间位置注意力机制的图表英语摘要生成方法
US11810598B2 (en) Apparatus and method for automated video record generation
CN116595215A (zh) 基于多模态技术的中文文本搜索图像或视频的方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN115204366A (zh) 模型生成方法、装置、计算机设备和存储介质
CN113722536A (zh) 基于双线性自适应特征交互与目标感知的视频描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20230815

WD01 Invention patent application deemed withdrawn after publication