CN114817637B - 一种基于句子语义的视频描述方法、装置及存储介质 - Google Patents

一种基于句子语义的视频描述方法、装置及存储介质 Download PDF

Info

Publication number
CN114817637B
CN114817637B CN202210487341.0A CN202210487341A CN114817637B CN 114817637 B CN114817637 B CN 114817637B CN 202210487341 A CN202210487341 A CN 202210487341A CN 114817637 B CN114817637 B CN 114817637B
Authority
CN
China
Prior art keywords
video
sentence
word
features
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210487341.0A
Other languages
English (en)
Other versions
CN114817637A (zh
Inventor
蔡晓东
周美欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202210487341.0A priority Critical patent/CN114817637B/zh
Publication of CN114817637A publication Critical patent/CN114817637A/zh
Application granted granted Critical
Publication of CN114817637B publication Critical patent/CN114817637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于句子语义的视频描述方法、装置及存储介质,属于技术领域;方法包括步骤:将视觉特征和运动特征进行拼接融合,将目标视频特征对应的描述词袋转换为文本特征,根据视觉词、目标视频特征及其对应的文本特征构建损失函数模型,以及计算每个单词在句中出现的概率,根据概率得到句子级别损失函数,通过句子级别损失函数和损失函数模型进行损失迭代计算,得到最终的视频描述信息;本发明有助于提高预测长度的准确性,从而生成的视频描述信息更完整。

Description

一种基于句子语义的视频描述方法、装置及存储介质
技术领域
本发明主要涉及计算机视觉技术领域,具体涉及一种基于句子语义的视频描述方法、装置及存储介质。
背景技术
近数十年以来伴随着互联网技术和信息传输技术的飞速发展,人们面临的媒体数据从最初的文字发展成为图像,再到现如今的视频。视频数据已经成为全世界范围内信息传播的重要载体,也是信息的重要存储形式之一。手机和面向用户的拍照设备的普遍出现,使得视频数据被快速生产、存储、上传,数量巨大且无组织,对庞大的视频数据进行有效的组织管理是使用视频所带来的巨大难题。
视频描述是视频理解的子任务,旨在通过对视频内容的理解,并以自然语言的形式描述出来。然而对机器来说,视频描述是一项非常困难的任务,机器需要理解视频内容,才能用自然语言去描述它。视频的描述文本涉及到许多背景知识的理解以及视频中的物体、人物、动作、场景、人与物关系等内容的检测,且需要根据对视频内容的理解生成语法正确、描述准确的自然语言文本。因此,视频描述不仅在技术发展方面有重要的研究意义,而且对人们生活各方面的帮助有重要的现实意义。虽然目前为止,该课题的研究在真实世界的性能还比较差,开放领域的视频语义解析还面临着极大的挑战,但是在特定的现实场景或者特殊的应用中,已经发挥了一定的重要作用。视频内容的自然语言描述问题,还需要不断探索和发展,以寻求更大的突破。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种基于句子语义的视频描述方法、装置及存储介质。
本发明解决上述技术问题的技术方案如下:一种基于句子语义的视频描述方法,包括如下步骤:
导入数据集,所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋;
将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取,将每个所述视频对应的视觉特征和运动特征进行拼接融合,得到目标视频特征,并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征;
对所述目标视频特征进行句子长度的预测,并结合预设的标签对预测的句子长度信息进行损失计算,得到含有标签的句子长度信息;
将所述含有标签的句子长度信息解码生成视觉词,并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型;
通过所述视觉词计算所述文本特征中每个单词在句中出现的概率;
根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息。
本发明的有益效果是:将视觉特征和运动特征进行拼接融合,将目标视频特征对应的描述词袋转换为文本特征,根据视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型,以及计算每个单词在句中出现的概率,根据概率得到句子级别损失函数,通过句子级别损失函数和损失函数模型进行损失迭代计算,得到最终的视频描述信息,有助于提高预测长度的准确性,从而生成的视频描述信息更完整。
本发明解决上述技术问题的另一技术方案如下:一种基于句子语义的视频描述装置,包括:
数据导入模块,用于导入数据集,所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋;
视频特征处理模块,用于将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取,将每个所述视频对应的视觉特征和运动特征进行拼接融合,得到目标视频特征,并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征;
句子长度预测模块,用于对所述目标视频特征进行句子长度的预测,并结合预设的标签对预测的句子长度信息进行损失计算,得到含有标签的句子长度信息;
视频特征解码模块,用于将所述含有标签的句子长度信息解码生成视觉词,并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型;
句子语义处理模块,用于通过所述视觉词ht计算所述文本特征中每个单词在句中出现的概率;
根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息。
本发明解决上述技术问题的另一技术方案如下:一种基于句子语义的视频描述装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的基于句子语义的视频描述方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的基于句子语义的视频描述方法。
附图说明
图1为本发明实施例提供的基于句子语义的视频描述方法的流程示意图;
图2为本发明实施例提供的基于句子语义的视频描述装置的功能模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1所示,一种基于句子语义的视频描述方法,包括如下步骤:
导入数据集,所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋;
将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取,将每个所述视频对应的视觉特征和运动特征进行拼接融合,得到目标视频特征,并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征;
对所述目标视频特征进行句子长度的预测,并结合预设的标签对预测的句子长度信息进行损失计算,得到含有标签的句子长度信息;
将所述含有标签的句子长度信息解码生成视觉词,并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型;
通过所述视觉词计算所述文本特征中每个单词在句中出现的概率;
根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息。
上述实施例中,将视觉特征和运动特征进行拼接融合,将目标视频特征对应的描述词袋转换为文本特征,根据视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型,以及计算每个单词在句中出现的概率,根据概率得到句子级别损失函数,通过句子级别损失函数和损失函数模型进行损失迭代计算,得到最终的视频描述信息,有助于提高预测长度的准确性,从而生成的视频描述信息更完整。
优选地,还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤,具体为:
通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。
具体地,视觉特征和运动特征采用预训练ResNet101模型进行2D,3D提取。
优选地,所述对所述目标视频特征进行句子长度的预测,具体为:
通过第一式对所述目标视频特征进行句子长度的预测,所述第一式为:
L′=Softmax(ReLU(MP(V)Wl1)Wl2),
其中,MP表示平均池化,RELU和Softmax表示激活函数,表示权重参数,R表示任意实数,dm×dm形状的矩阵,dm×dmax形状的矩阵,是被预测的最大序列长度。
具体地,结合预设的标签对预测的句子长度信息进行损失计算,即句子长度的预测需要结合视频对应的标签的句子长度进行损失计算。其具体过程如下:
其中,L′表示预测的句子长度,L表示标签的句子长度,lj表示视频对应的标签长度为j的句子占的百分比。
应理解地,预设的标签是指通过人工方式进行标注,将描述视频内容作为标签进行标注。
上述实施例中,能够准确地对目标视频特征进行句子长度的预测。
优选地,将所述含有标签的句子长度信息解码生成视觉词,具体为:
视觉词为名词或动词,然后再生成非视觉词,通过tansformer模型多次迭代后获取正确的描述。采用tansformer模型的解码层的两个层作为解码网络,其中的一个是多头自注意力层,它是tansformer模型移除了随机遮盖的自注意力层,从而使得解码过程变成双向的,预测每个词时,既可以使用左上下文,也可以使用右上下文作为条件信息。另外一个是多头类间注意力层,通过复制目标视频特征、文本特征来增强解码端的输入,从而生成视觉词。
优选地,所述根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型,具体为:
所述损失函数模型为:
其中,V表示所述目标视频特征及其对应的文本特征,Yvis表示视觉词,Yobs表示生成过程中未掩盖的词,Ymask表示生成过程中掩盖的词,λ表示可调整的参数。
上述实施例中,构建损失函数模型,有助于提高预测长度的准确性。
优选地,所述通过所述视觉词计算所述文本特征中每个单词在句中出现的概率,具体为:
通过第二式计算视觉词的单词级别分数,所述第二式为:si=Wghi+bg,其中,ht表示视觉词,Wg,bg表示学习训练参数;
通过第三式和所述单词级别分数计算每个单词在句中出现的概率,所述第三式为:
其中,Sb表示概率,K表示第i个视频对应的标签的词袋数量,bi表示标签对应的词袋表示标签对应的词袋。
应理解地,ht表示视觉词,即名词或者动词。将视觉词ht作为输入,先获得生成单词级别分数,然后对单词级别分数向量进行求和,得到句子级别分数向量,得到每个单词在句中出现的概率Sb
上述实施例中,能够计算每个单词在句中出现的概率。
优选地,所述根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息,具体为:
通过第四式和所述概率计算句子级别损失函数,所述第四式为:
其中,K表示第i个视频对应的标签的词袋数量,bi表示标签对应的词袋;
通过第五式、所述句子级别损失函数和所述损失函数模型Lw进行损失迭代计算,得到最终的视频描述信息,所述第五式为:
Lgen=Lw+αLs
其中,α表示损失函数模型。
上述实施例中,能够提高视频描述信息的准确性。
实施例2:
如图2所示,一种基于句子语义的视频描述装置,包括:
数据导入模块,用于导入数据集,所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋;
视频特征处理模块,用于将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取,将每个所述视频对应的视觉特征和运动特征进行拼接融合,得到目标视频特征,并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征;
句子长度预测模块,用于对所述目标视频特征进行句子长度的预测,并结合预设的标签对预测的句子长度信息进行损失计算,得到含有标签的句子长度信息;
视频特征解码模块,用于将所述含有标签的句子长度信息解码生成视觉词,并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型;
句子语义处理模块,用于通过所述视觉词ht计算所述文本特征中每个单词在句中出现的概率;
根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息。
优选地,还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤,具体为:
通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。
实施例3:
一种基于句子语义的视频描述装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的基于句子语义的视频描述方法。
实施例4:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的基于句子语义的视频描述方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于句子语义的视频描述方法,其特征在于,包括如下步骤:
导入数据集,所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋;
将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取,将每个所述视频对应的视觉特征和运动特征进行拼接融合,得到目标视频特征,并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征;
对所述目标视频特征进行句子长度的预测,并结合预设的标签对预测的句子长度信息进行损失计算,得到含有标签的句子长度信息;
将所述含有标签的句子长度信息解码生成视觉词,并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型;
通过所述视觉词计算所述文本特征中每个单词在句中出现的概率;
根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息。
2.根据权利要求1所述的视频描述方法,其特征在于,还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤,具体为:
通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。
3.根据权利要求1所述的视频描述方法,其特征在于,所述对所述目标视频特征进行句子长度的预测,具体为:
通过第一式对所述目标视频特征进行句子长度的预测,所述第一式为:
L=Soft max(ReLU(MP(V)Wl1)Wl2),
其中,MP表示平均池化,RELU和Softmax表示激活函数,表示权重参数。
4.根据权利要求1所述的视频描述方法,其特征在于,所述根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型,具体为:
所述损失函数模型为:
其中,V表示所述目标视频特征及其对应的文本特征,Yvis表示视觉词,Yobs表示生成过程中未掩盖的词,Ymask表示生成过程中掩盖的词,λ表示可调整的参数。
5.根据权利要求1所述的视频描述方法,其特征在于,所述通过所述视觉词计算所述文本特征中每个单词在句中出现的概率,具体为:
通过第二式计算视觉词的单词级别分数,所述第二式为:st=Wght+bg,其中,ht表示视觉词,Wg,bg表示学习训练参数;
通过第三式和所述单词级别分数计算每个单词在句中出现的概率,所述第三式为:
其中,Sb表示概率,K表示第i个视频对应的标签的词袋数量,bi表示标签对应的词袋。
6.根据权利要求1所述的视频描述方法,其特征在于,所述根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息,具体为:
通过第四式和所述概率Sb计算句子级别损失函数,所述第四式为:
其中,K表示第i个视频对应的标签的词袋数量,bi表示标签对应的词袋;
通过第五式、所述句子级别损失函数和所述损失函数模型Lw进行损失迭代计算,得到最终的视频描述信息,所述第五式为:
Lgen=Lw+αLs
其中,α表示损失函数模型。
7.一种基于句子语义的视频描述装置,其特征在于,包括:
数据导入模块,用于导入数据集,所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋;
视频特征处理模块,用于将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取,将每个所述视频对应的视觉特征和运动特征进行拼接融合,得到目标视频特征,并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征;
句子长度预测模块,用于对所述目标视频特征进行句子长度的预测,并结合预设的标签对预测的句子长度信息进行损失计算,得到含有标签的句子长度信息;
视频特征解码模块,用于将所述含有标签的句子长度信息解码生成视觉词,并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型;
句子语义处理模块,用于通过所述视觉词ht计算所述文本特征中每个单词在句中出现的概率;
根据所述概率得到句子级别损失函数,通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算,得到最终的视频描述信息。
8.根据权利要求7所述的视频描述装置,其特征在于,还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤,具体为:
通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。
9.一种基于句子语义的视频描述装置,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如权利要求1至6任一项所述的基于句子语义的视频描述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至6任一项所述的基于句子语义的视频描述方法。
CN202210487341.0A 2022-05-06 2022-05-06 一种基于句子语义的视频描述方法、装置及存储介质 Active CN114817637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210487341.0A CN114817637B (zh) 2022-05-06 2022-05-06 一种基于句子语义的视频描述方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210487341.0A CN114817637B (zh) 2022-05-06 2022-05-06 一种基于句子语义的视频描述方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN114817637A CN114817637A (zh) 2022-07-29
CN114817637B true CN114817637B (zh) 2024-03-22

Family

ID=82511770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210487341.0A Active CN114817637B (zh) 2022-05-06 2022-05-06 一种基于句子语义的视频描述方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114817637B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN112580362A (zh) * 2020-12-18 2021-03-30 西安电子科技大学 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
CN114386260A (zh) * 2021-12-29 2022-04-22 桂林电子科技大学 一种视频描述生成方法、装置以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
US11270061B2 (en) * 2020-02-25 2022-03-08 International Business Machines Corporation Automatic generation of training data for scientific paper summarization using videos

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN112580362A (zh) * 2020-12-18 2021-03-30 西安电子科技大学 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
CN114386260A (zh) * 2021-12-29 2022-04-22 桂林电子科技大学 一种视频描述生成方法、装置以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LSTM逐层多目标优化及多层概率融合的图像描述;汤鹏杰;王瀚漓;许恺晟;;自动化学报;20171211(07);全文 *

Also Published As

Publication number Publication date
CN114817637A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
US20220180202A1 (en) Text processing model training method, and text processing method and apparatus
CN108959396B (zh) 机器阅读模型训练方法及装置、问答方法及装置
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111783455B (zh) 文本生成模型的训练方法及装置、文本生成方法及装置
CN111368993A (zh) 一种数据处理方法及相关设备
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN108805260A (zh) 一种图说生成方法及装置
TWI749441B (zh) 檢索方法及裝置、儲存介質
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN114491258A (zh) 基于多模态内容的关键词推荐系统及方法
CN113128431A (zh) 视频片段检索方法、装置、介质与电子设备
CN117236410A (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
CN110505520B (zh) 信息推荐方法及系统、介质及电子设备
CN116578738B (zh) 一种基于图注意力和生成对抗网络的图文检索方法和装置
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN108984475A (zh) 基于全息神经网络的答案选择方法、装置和电子设备
CN114817637B (zh) 一种基于句子语义的视频描述方法、装置及存储介质
CN114357203B (zh) 多媒体检索方法、装置及计算机设备
CN111401070B (zh) 词义相似度确定方法及装置、电子设备及存储介质
CN113822065A (zh) 关键词召回方法、装置、电子设备以及存储介质
Du et al. Description generation of open-domain videos incorporating multimodal features and bidirectional encoder
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN116932922B (zh) 搜索词条处理方法、装置、计算机设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant