CN110969187A - 一种图谱迁移的语义分析方法 - Google Patents

一种图谱迁移的语义分析方法 Download PDF

Info

Publication number
CN110969187A
CN110969187A CN201911045787.2A CN201911045787A CN110969187A CN 110969187 A CN110969187 A CN 110969187A CN 201911045787 A CN201911045787 A CN 201911045787A CN 110969187 A CN110969187 A CN 110969187A
Authority
CN
China
Prior art keywords
graph
model
receptor
video
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911045787.2A
Other languages
English (en)
Other versions
CN110969187B (zh
Inventor
周正斌
陆文斌
张应福
王波
王耀
花福军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Information Technology Co ltd
Original Assignee
Creative Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Information Technology Co ltd filed Critical Creative Information Technology Co ltd
Priority to CN201911045787.2A priority Critical patent/CN110969187B/zh
Publication of CN110969187A publication Critical patent/CN110969187A/zh
Application granted granted Critical
Publication of CN110969187B publication Critical patent/CN110969187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图迁移的语义分析方法,包括如下步骤:场景图提取,利用单帧图片文本描述生成场景图模型;空间图提取,利用单帧图片生成空间图模型;模型训练预测,通过输入图和输出文本训练神经网络,并对测试集进行预测;所述模型训练预测通过图卷积网络和长短期记忆网络进行训练。本发明能适应视频中物体在空间和行为的变化,并做出正确的描述。

Description

一种图谱迁移的语义分析方法
技术领域
本发明涉及语义分析方法领域,尤其涉及一种图迁移的语义分析方法。
背景技术
随着通信技术和互联网技术的急速发展,越来越多的信息充斥着人们的生活,信息的载体也逐渐从传统的文本转变为内容更丰富的图片和视频。但是更多新信息也隐藏着隐患,暴力、色情等也混入其中影响着人们尤其是青少年的学习与生活;其次在以内容极为丰富的视频为主要信息载体的快时代,智力、视觉等障碍人士很难理解到其主要的信息。因此,拥有高效、准确的语义理解与分析方法,不仅视频分类、检索和摘要生成等任务能得到支持,而且能排除网络上的不良隐患,同时又能提供周到的服务。
语义理解与分析,目前的方法集中在以下几个方面:
(1)基于语言模型的方法
基于语言模型的语义理解与分析的基本原理是,基于命名实体识别(NER)中的判别式模型条件随机场(ConditionalRandom Field)预测得到主谓宾(SVO)三元组,然后通过将其语义表征到句子上,则生成了一句描述。
这种方法的优点在于对短小视频的处理速度快,对于常规行为的准确率很高。缺点在于对长视频或复杂场景的视频不能很好的进行行为追踪,并且执着于主谓宾结构容易遗失环境信息。
(2)基于视频特征的方法
基于视频特征的方法不同于2D特征,它主要对视频中的行为和活动进行识别,一般采用3D卷积(C3D)或双流方法,如图3所示。
不同于语言模型得到的主谓宾结构,虽然该方法对于生成语义理解描述更加有利,但是视频特征需要判断视频中行为实体的具体行为。
(3)基于音频特征的方法
基于音频特征的方法不同于前两种方法,可以通过背景音判断环境或场景,也可以通过判断讲话内容了解到视频特征无法判断的行为或更深层次的信息。
但此方法依赖于音频质量,例如体育比赛不能像视频或图像特征判断出具体内容。
(4)基于融合特征的方法
基于融合特征的基本思想是将视频特征和音频特征融合编码得到一个上下文,则解码阶段每个时刻的输出单词需要用到不同的上下文,但是通常会用到注意力机制。
一种基本应用是解码时对于某个时刻的隐状态计算与编码时所有时刻的输出的相似度,需要进行softmax得到权重注意力,用权重与编码时所有时刻的输出相乘才能得到最终的上下文。
发明内容
本发明的目的在于实现一种图迁移的准确语义分析的方法,需要适应视频素材的多个场景,提高分析的准确率和效率。
一种图迁移的语义分析方法,包括如下步骤:
场景图提取,利用单帧图片文本描述生成场景图模型;
空间图提取,利用单帧图片生成空间图模型;
模型训练预测,通过输入图和输出文本训练神经网络,并对测试集进行预测;
所述模型训练预测通过图卷积网络和长短期记忆网络进行训练。
进一步地,所述场景图提取,包括如下步骤:
S11:对单帧图片文本描述进行依存句法分析;
S12:得到单帧图片文本描述的依存关系,生成图片的场景图模型: M1={(Subject1,Relationship1,Receptor1),(Subject2,Relationship2,Receptor2)...(Subjectk,Relationshipk,Receptork)}
其中,Subject为主体,Receptor为受体,Relationship为主体与受体间的关系,k为三元组数量。
进一步地,所述空间图提取,包括如下步骤:
S21:使用图卷积网络得到单帧图片中物体的类别和坐标;
S22:根据物体所标注的物体的坐标计算得到空间图模型:
M2={(Subject1,Distance1,Receptor1),(Subject2,Distanc2,Receptor2)...(Subjectl,Distancel,Receptorl)}
其中,Subject为主体,Receptor为受体,Distance为主体与受体的距离,l为三元组数量。
进一步地,所述计算得到空间图模型包含如下子步骤:
S221:初始化n阶无向完全图G=(V,E),V={v1,v2...vn},E={e1,e2...e(n-1)n/2},其中,n为物体总数,V为点集,E为边集,v1,v2...vn为各物体,e1,e2...e(n-1)n/2为距离,初始为正无穷;
S222:输入步骤S21的结果,对于点vi,vj,其中i,j∈{1,2...n},i≠j:
Figure BDA0002254098550000031
其中,Unionij表示vi和vj的并区域的面积,Wholeij表示覆盖了vi和vj的最小矩形区域的面积;
S223:根据物体坐标框中心点关系,由下至上、由左至右、由左下至右上或由右下至左上,基于S222的结果,将vi和vj的连边em由一条权值为UoWij的有向边代替;
S224:对所有点vi,vj,其中i,j∈{1,2...n},i≠j进行S223的操作,直到G中无无向边结束。
进一步地,所述模型训练预测,包括如下步骤:
S31:构建一个图卷积网络N1,包含5个图卷积层,层与层之间为平均池化层;构建一个图卷积网络N2,包含5个图卷积层,层与层之间为平均池化层;构建一个两层栈式长短期记忆网络N3;在N3之前,构建一个拼接层,拼接N1和N2输出的嵌入向量;
S32:模型的训练集为场景图提取和空间图提取生成的图模型M1和M2,以及对视频的参考描述D,使用Adam算法对模型进行训练模型训练完毕后将模型进行保存;
S33:对视频的所有单帧图片及单帧图片文本描述进行测试,得到该视频的描述;
进一步地,所述步骤S33包括以下步骤:
S331:对一个新的视频的所有单帧图片及单帧图片进行文本描述,将文本描述和图片分别进行场景图提取和空间图提取,得到场景图模型和空间图模型;
S332:载入所述图卷积网络和长短期记忆网络模型中已经保存好的模型,输入场景图模型和空间图模型,得到若干个单词;
S333:对于一个新的视频的所有单帧图片及单帧图片文本描述,经过得到的若干个视频描述单词,直接拼接得到完整的视频描述。
本发明的有益效果是:
(1)网络使用了场景图和空间图作为输入,相比于基本视频特征能更好的解释行为实体之间的关系以及关系的变化;
(2)图卷积网络(GCN)局部参数共享并且感受域正比于层数,在节点分类与边预测更有优势,在编码场景图和空间图后得到的嵌入向量包含更多的其他局部信息;
附图说明
图1为本发明一种图迁移的语义分析的流程图;
图2为本发明一种图迁移的语义分析的结构框图;
图3是基于视频特征方法实现语义分析的结构框图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
具体实施例如图1所示,一种图迁移的语义分析方法,包括如下步骤:
场景图提取,利用单帧图片文本描述生成场景图模型;
空间图提取,利用单帧图片生成空间图模型;
模型训练预测,通过输入图和输出文本训练神经网络,并对测试集进行预测;
所述模型训练预测通过图卷积网络和长短期记忆网络进行训练。
进一步地,所述场景图提取,包括如下步骤:
S11:对单帧图片文本描述进行依存句法分析;
S12:得到单帧图片文本描述的依存关系,生成图片的场景图模型: M1={(Subject1,Relationship1,Receptor1),(Subject2,Relationship2,Receptor2)...(Subjectk,Relationshipk,Receptork)}
其中,Subject为主体,Receptor为受体,Relationship为主体与受体间的关系,k为三元组数量。
进一步地,所述空间图提取,包括如下步骤:
S21:使用图卷积网络得到单帧图片中物体的类别和坐标;
S22:根据物体所标注的物体的坐标计算得到空间图模型:
M2={(Subject1,Distance1,Receptor1),(Subject2,Distanc2,Receptor2)...(Subjectl,Distancel,Receptorl)}
其中,Subject为主体,Receptor为受体,Distance为主体与受体的距离,l为三元组数量。
进一步地,所述计算得到空间图模型包含如下子步骤:
S221:初始化n阶无向完全图G=(V,E),V={v1,v2...vn},E={e1,e2...e(n-1)n/2},其中,n为物体总数,V为点集,E为边集,v1,v2...vn为各物体,e1,e2...e(n-1)n/2为距离,初始为正无穷;
S222:输入步骤S21的结果,对于点vi,vj,其中i,j∈{1,2...n},i≠j:
Figure BDA0002254098550000051
其中,Unionij表示vi和vj的并区域的面积,Wholeij表示覆盖了vi和vj的最小矩形区域的面积;
S223:根据物体坐标框中心点关系,由下至上、由左至右、由左下至右上或由右下至左上,基于S222的结果,将vi和vj的连边em由一条权值为UoWij的有向边代替;
S224:对所有点vi,vj,其中i,j∈{1,2...n},i≠j进行S223的操作,直到G中无无向边结束。
进一步地,所述模型训练预测,包括如下步骤:
S31:构建一个图卷积网络N1,包含5个图卷积层,层与层之间为平均池化层;构建一个图卷积网络N2,包含5个图卷积层,层与层之间为平均池化层;构建一个两层栈式长短期记忆网络N3;在N3之前,构建一个拼接层,拼接N1和N2输出的嵌入向量;
S32:模型的训练集为场景图提取和空间图提取生成的图模型M1和M2,以及对视频的参考描述D,使用Adam算法对模型进行训练模型训练完毕后将模型进行保存;
S33:对视频的所有单帧图片及单帧图片文本描述进行测试,得到该视频的描述;
进一步地,所述步骤S33包括以下步骤:
S331:对一个新的视频的所有单帧图片及单帧图片进行文本描述,将文本描述和图片分别进行场景图提取和空间图提取,得到场景图模型和空间图模型;
S332:载入所述图卷积网络和长短期记忆网络模型中已经保存好的模型,输入场景图模型和空间图模型,得到若干个单词;
S333:对于一个新的视频的所有单帧图片及单帧图片文本描述,经过得到的若干个视频描述单词,直接拼接得到完整的视频描述。
图2为本发明一种图迁移的语义分析的结构框图,包括以下步骤:
S1:输入层为预先处理得到的场景图模型M1t和空间图模型M2t,其中t表示视频的时刻;
S2:图卷积网络(GCN)层输入为预先处理得到的场景图模型M1t和空间图模型M2t,分别在图卷积神经网络中进行计算,将计算得到的向量vecScene,t和vecSpace,t进行连接(concatenate)并输出新的向量vect
S3:长短期记忆网络(LSTM)层依次输入由各图卷积网络(GCN)层输出得到的向量vec1,vec2...vecn,其中n表示视频的总帧数;计算并输出单词word1,word2...wordm,其中m表示单词个数;
S4:输出层将单词word1,word2...wordm拼接成句子。
所述LSTM层包括如下子步骤:
S31:一开始先由底层长短期记忆网络(LSTM)接受帧序列并进行编码,而第二层的长短期记忆网络(LSTM)接受第一层的隐含状态h,并将其与零填充符相连然后编码,这个过程不计算损失值;
S32:在所有帧都输出隐含状态后,第二层长短期记忆网络(LSTM)送入起始符<BOS>,促使其开始将受到的隐藏状态解码成单词序列;
S33:解码阶段进行训练时,在已经知道帧序列的隐藏状态及之前输出的单词的条件下,计算得到预测句子的对数似然性,训练目标就是使得相似性到达最大值。
S34:整个训练数据集上使用随机梯度下降算法进行优化,从而使得长短期记忆网络 (LSTM)学习更合适的隐含状态h;同时明确表示句子结束的符号<EOS>,这使得模型能够满足不同长度的输出。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种图迁移的语义分析方法,其特征在于,包括如下步骤:
场景图提取,利用单帧图片文本描述生成场景图模型;
空间图提取,利用单帧图片生成空间图模型;
模型训练预测,通过输入图和输出文本训练神经网络,并对测试集进行预测;
所述模型训练预测通过图卷积网络和长短期记忆网络进行训练。
2.根据权利要求1所述的一种图迁移的语义分析方法,其特征在于,所述场景图提取,包括如下步骤:
S11:对单帧图片文本描述进行依存句法分析;
S12:得到单帧图片文本描述的依存关系,生成图片的场景图模型:M1={(Subject1,Relationship1,Receptor1),(Subject2,Relationship2,Receptor2)...(Subjectk,Relationshipk,Receptork)}
其中,Subject为主体,Receptor为受体,Relationship为主体与受体间的关系,k为三元组数量。
3.根据权利要求1所述的一种图迁移的语义分析方法,其特征在于,所述空间图提取,包括如下步骤:
S21:使用图卷积网络得到单帧图片中物体的类别和坐标;
S22:根据物体所标注的物体的坐标计算得到空间图模型:
M2={(Subject1,Distance1,Receptor1),(Subject2,Distanc2,Receptor2)...(Subjectl,Distancel,Receptorl)}
其中,Subject为主体,Receptor为受体,Distance为主体与受体的距离,1为三元组数量。
4.根据权利要求3所述的一种图迁移的语义分析方法,其特征在于,所述计算得到空间图模型包含如下子步骤:
S221:初始化n阶无向完全图G=(V,E),V={v1,v2…vn},E={e1,e2…e(n-1)n/2},其中,n为物体总数,V为点集,E为边集,v1,v2…vn为各物体,e1,e2…e(n-1)n/2为距离,初始为正无穷;
S222:输入步骤S21的结果,对于点vi,vj,其中i,j∈{1,2…n},i≠j:
Figure FDA0002254098540000021
其中,Unionij表示vi和vj的并区域的面积,Wholeij表示覆盖了vi和vj的最小矩形区域的面积;
S223:根据物体坐标框中心点关系,由下至上、由左至右、由左下至右上或由右下至左上,基于S222的结果,将vi和vj的连边em由一条权值为UoWij的有向边代替;
S224:对所有点vi,vj,其中i,j∈{1,2…n},i≠j进行S223的操作,直到G中无无向边结束。
5.根据权利要求1所述的一种图迁移的语义分析方法,其特征在于,所述模型训练预测,包括如下步骤:
S31:构建一个图卷积网络N1,包含5个图卷积层,层与层之间为平均池化层;构建一个图卷积网络N2,包含5个图卷积层,层与层之间为平均池化层;构建一个两层栈式长短期记忆网络N3;在N3之前,构建一个拼接层,拼接N1和N2输出的嵌入向量;
S32:模型的训练集为场景图提取和空间图提取生成的图模型M1和M2,以及对视频的参考描述D,使用Adam算法对模型进行训练模型训练完毕后将模型进行保存;
S33:对视频的所有单帧图片及单帧图片文本描述进行测试,得到该视频的描述。
6.根据权利要求1所述的一种图迁移的语义分析方法,其特征在于,所述步骤S33包括以下步骤:
S331:对一个新的视频的所有单帧图片及单帧图片进行文本描述,将文本描述和图片分别进行场景图提取和空间图提取,得到场景图模型和空间图模型;
S332:载入所述图卷积网络和长短期记忆网络模型中已经保存好的模型,输入场景图模型和空间图模型,得到若干个单词;
S333:对于一个新的视频的所有单帧图片及单帧图片文本描述,经过得到的若干个视频描述单词,直接拼接得到完整的视频描述。
CN201911045787.2A 2019-10-30 2019-10-30 一种图谱迁移的语义分析方法 Active CN110969187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911045787.2A CN110969187B (zh) 2019-10-30 2019-10-30 一种图谱迁移的语义分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911045787.2A CN110969187B (zh) 2019-10-30 2019-10-30 一种图谱迁移的语义分析方法

Publications (2)

Publication Number Publication Date
CN110969187A true CN110969187A (zh) 2020-04-07
CN110969187B CN110969187B (zh) 2020-12-11

Family

ID=70030023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911045787.2A Active CN110969187B (zh) 2019-10-30 2019-10-30 一种图谱迁移的语义分析方法

Country Status (1)

Country Link
CN (1) CN110969187B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930483A (zh) * 2009-11-25 2010-12-29 中国人民解放军信息工程大学 应用参数化设计模型化简数字地图居民地多边形的方法
CN102663383A (zh) * 2012-04-26 2012-09-12 北京科技大学 一种定位自然场景图像中文本的方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN107767382A (zh) * 2017-09-26 2018-03-06 武汉市国土资源和规划信息中心 静态三维地图建筑物轮廓线的自动提取方法及系统
CN109101628A (zh) * 2018-08-14 2018-12-28 中南大学 一种量化评价msv的边级视觉混杂程度指标计算方法
CN109961041A (zh) * 2019-03-21 2019-07-02 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN110109662A (zh) * 2019-03-27 2019-08-09 浙江工业大学 一种面向多模式物联网设备的程序可视化方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110135319A (zh) * 2019-05-09 2019-08-16 广州大学 一种异常行为检测方法及其系统
CN110147911A (zh) * 2019-05-28 2019-08-20 吉林大学 一种基于内容感知的社交影响力预测模型及预测方法
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930483A (zh) * 2009-11-25 2010-12-29 中国人民解放军信息工程大学 应用参数化设计模型化简数字地图居民地多边形的方法
CN102663383A (zh) * 2012-04-26 2012-09-12 北京科技大学 一种定位自然场景图像中文本的方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN107767382A (zh) * 2017-09-26 2018-03-06 武汉市国土资源和规划信息中心 静态三维地图建筑物轮廓线的自动提取方法及系统
CN109101628A (zh) * 2018-08-14 2018-12-28 中南大学 一种量化评价msv的边级视觉混杂程度指标计算方法
CN109961041A (zh) * 2019-03-21 2019-07-02 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN110109662A (zh) * 2019-03-27 2019-08-09 浙江工业大学 一种面向多模式物联网设备的程序可视化方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110135319A (zh) * 2019-05-09 2019-08-16 广州大学 一种异常行为检测方法及其系统
CN110147911A (zh) * 2019-05-28 2019-08-20 吉林大学 一种基于内容感知的社交影响力预测模型及预测方法
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIYOUN MOON等: "Scene understanding using natural language description based on 3D semantic graphmap", 《INTELLIGENT SERVICE ROBOTICS》 *
TING YAO等: "Exploring Visual Relationship for Image Captioning", 《ECCV 2018 15TH EUROPEAN CONFERENCE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626116A (zh) * 2020-04-21 2020-09-04 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法
CN111626116B (zh) * 2020-04-21 2022-12-27 泉州装备制造研究所 基于融合多注意力机制和Graph的视频语义分析方法

Also Published As

Publication number Publication date
CN110969187B (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN112948708B (zh) 一种短视频推荐方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111598183B (zh) 一种多特征融合图像描述方法
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN115858847A (zh) 基于跨模态注意力保留的组合式查询图像检索方法
CN114282055A (zh) 视频特征提取方法、装置、设备及计算机存储介质
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN114817633A (zh) 视频分类方法、装置、设备及存储介质
JP2024512628A (ja) キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置
CN110969187B (zh) 一种图谱迁移的语义分析方法
CN111523430B (zh) 基于ucl的可定制交互式视频制作方法与装置
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及系统
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN111259197A (zh) 一种基于预编码语义特征的视频描述生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant