CN114186069B - 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 - Google Patents

基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 Download PDF

Info

Publication number
CN114186069B
CN114186069B CN202111434458.4A CN202111434458A CN114186069B CN 114186069 B CN114186069 B CN 114186069B CN 202111434458 A CN202111434458 A CN 202111434458A CN 114186069 B CN114186069 B CN 114186069B
Authority
CN
China
Prior art keywords
representing
relationship
person
audio
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111434458.4A
Other languages
English (en)
Other versions
CN114186069A (zh
Inventor
董文龙
毛启容
姚庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202111434458.4A priority Critical patent/CN114186069B/zh
Publication of CN114186069A publication Critical patent/CN114186069A/zh
Application granted granted Critical
Publication of CN114186069B publication Critical patent/CN114186069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,将音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,提取对齐后的人物、音频、文本、关键帧以及物品的特征;将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱。本发明利用多模态异构图注意力网络预测人物与人物、人物与位置之间的关系,能显著提高预测关系的准确率。

Description

基于多模态异构图注意力网络的深度视频理解知识图谱构建 方法
技术领域
本发明属于视频语义理解技术领域,具体涉及一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法。
背景技术
随着网络、计算机以及摄影设备的普及与发展,视频在互联网中占有越来越大的比重,观看视频是人们娱乐的重要方式之一;然而视频的复杂性也限制其进一步的应用。视频语义理解,其目标是从视频中获取描述视频内容的容量小、易于理解的信息,如标签、视频标题、视频字幕和知识图谱等,从而增强人类、机器理解视频内容的能力,在人机交互、视频检索、推荐系统以及智慧公安等领域有着广泛的应用。
2015年,首个基于深度学习的视频描述模型LRCN被提出。2016年,微软公布大规模视频描述数据集MSR-VTT,为视频描述任务提供了很好的语料库;但使用自然语言描述视频存在诸多弊端,如:注释是特定于语言,很难定量测试性能,并且很难在后续的自动数据处理中使用。2018年,MovieGraphs中使用知识图谱描述视频语义;但其使用短的视频片段,不能理解不同角色之间的关系,也不能深入理解视频上下文。2020年至今,从长视频中抽取知识图谱(深度视频语义理解,DVU)的任务被提出;但目前的方法无法充分利用多模态的数据,也未利用关系间潜在的联系。
发明内容
针对现有技术中存在不足,本发明提供了一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,提高预测视频中人物与人物、人物与位置之间关系的准确率。
本发明是通过以下技术手段实现上述技术目的的。
基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,具体为:
音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,将音频、文本、人物、关键帧根据基本事实进行对齐,提取对齐后的人物、音频、文本、关键帧以及物品的特征;
将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱;
所述预测人物与人物以及人物与位置之间的关系,具体为:
若两个人物同时出现在一个关键帧中,生成关系对T=Tα∪Tβ,其中Tα表示人物-人物之间的关系,Tβ表示人物-位置之间的关系;
若两个人物没有同时出现在一个关键帧中,而人物所在背景中存在同类物品,对话涉及相同实体和主题,则认为人物-人物、人物-位置之间存在联系,生成异构图G={V,E},其中:V是节点集合,包括关系对、物品、实体和主题节点,E是边集合,若关系涉及到相同的物品、主题或实体,则在关系对T-关系对T、关系对T-物品、关系对T-主题、关系对T-实体之间建立一条边;
所述异构图G按照特征传播规则进行特征传播,得到关系的特征,利用/>预测人物与人物、人物与位置之间的关系;
其中:Bs表示关注矩阵,其第v行第v′列的元素为δvv′s;H(l)表示第l层所有关系对T节点的特征,表示第l层属于语义s的节点的特征,/>是可训练的参数,σ是激活函数,sr,k是H中一个节点的特征,表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征,pr,k表示预测得分,R表示关系的种类。
进一步的技术方案,所述关系对T所在视频片段的特征中包含多个物品,文本中有多条语句,使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度,所述模态内注意力机制的计算方法为:
其中:Fi表示一个物品或一条语句的特征,ca、Wa、ba是可训练的参数,tanh是激活函数,ei是Fi的权重,N是物品或语句的数目,αi是标准化的权重,Fm是物品或文本的整体特征。
进一步的技术方案,所述关系对T所在视频片段的特征由多种模态的特征组成,利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度,所述模态级注意力机制的计算方法为:
其中:Fm表示一种的特征,包括人物特征、关键帧特征、文本特征、音频特征和物品特征;cb、Wb、bb是可训练的参数;tanh是激活函数;em是Fm的权重;M是特征的种类数;βm是标准化的权重;Fv是一个关系对T的整体特征。
进一步的技术方案,使用语义级注意力机制对关系对T-实体、关系对T-物品、关系对T-主题赋予相应的权重,其中语义级注意力机制的计算方法为:
其中:v是一个关系节点,v′是v的邻居节点集合Nv中的一个元素,A’是对称规范化的邻接矩阵,Fv′是节点v′的特征,Fs表示Nv中节点特征之和,Fv是节点v的特征,| |表示连接操作,σ是激活函数,μs是可训练的参数,es表示语义s的权重,γs表示标准化的权重S表示不同的语义,包括物品、实体和主题三种不同的语义。
进一步的技术方案,使用节点注意力机制捕获不同邻居节点的重要性,并降低噪声节点的权重,节点级注意力机制的计算方法为:
其中:σ是激活函数,μn是可训练的参数,evv′s表示节点v′对v的权重,N1表示节点v的邻居节点数目,δvv′s表示标准化的权重。
进一步的技术方案,所述多模态异构图注意力网络的损失函数为:
其中:pr,k表示预测得分,R表示关系的种类,K表示视频片段的数量,yk表示真实的标签,1(·)是二进制指示符。
进一步的技术方案,所述音频对应的文本是通过将待分析视频中的音频信号进行分割,得到音频片段并生成时间戳;利用所述时间戳对由音频转录成的文本进行切分得到的。
进一步的技术方案,所述人物/位置重识别系统包括人物和位置的识别模块以及人物和音频的对齐模块;所述人物和位置的识别模块用于:①使用在Market1501数据集上预训练的ResNet50模型提取人物和关键帧的特征;②利用余弦相似度衡量人物和关键帧的特征与基本事实图像之间的相似度,为人物和位置附加基本事实的ID;所述人物和音频的对齐模块用于:使用Dlib的68个面部标志性预测器捕捉人物嘴唇的形状,并根据脸部大小的相对垂直形状变化来估计嘴唇运动,以预测目标人物是否为说话人,从而对音频片段和相应的文本分配人物ID。
本发明的有益效果为:本发明将音频片段、每段音频对应的文本以及人物和物品送入人物/位置重识别系统,提取对齐后的人物、音频、文本、关键帧以及物品的特征;将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱;其中多模态异构图注意力网络,首先使用模态内注意力机制挖掘不同物品和语句对人物-人物和人物-位置间的关系对判断的贡献度,然后使用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度,最后使用实体、主题和物品发现关系对间的关联,利用语义级注意力机制和节点级注意力机制挖掘不同语义和不同邻居节点对关系对判断的贡献度。本发明利用多模态异构图注意力网络,能显著提高预测关系的准确率。
附图说明
图1为本发明所述基于多模态异构图注意力网络的深度视频理解知识图谱构建流程图;
图2为本发明所述多模态异构图注意力网络示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明一种基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,具体包括如下步骤:
步骤(1),检测待分析视频中的场景,将不同场景的视频分割出来,并识别关键帧;
步骤(1.1),使用HSV(Hue-Saturation-Value,色调-饱和度-值)颜色直方图作为特征来预测待分析视频中的场景边界,并将待分析视频分割为片段序列;
步骤(1.2),使用FFmpeg(Fast Forward Mpeg)提取片段序列中每个视频片段的关键帧。
步骤(2),将待分析视频中的音频送入说话人日志系统,对音频信号进行分割,生成时间戳;
待分析视频中的音频是通过FFmpeg提取的;
使用说话人日志系统CMU-Sphinx(Carnegie Mellon University Sphinx)对音频信号进行分割,得到音频片段并生成时间戳。
步骤(3),将待分析视频中的音频送入语音识别系统,将音频转录为文本,根据说话人日志系统生成的时间戳对文本进行切分,得到每段音频对应的文本;
所述音频使用YouTube的自动字幕转录为文本数据。
步骤(4),从关键帧中识别目标,包括人物和物品;
步骤(4.1),使用预训练的Faster R-CNN(Faster Region-based ConvolutionalNeural Network)检测出关键帧中的人物和物品;
步骤(4.2),使用VGG16(Visual Geometry Group 16)将检测出来的物品识别为MSCOCO(Microsoft Common Objects in Context)数据集中的80个类别。
步骤(5),将音频片段、每段音频对应的文本和关键帧中的人物和物品送入人物/位置重识别系统,将音频、文本、人物、关键帧根据基本事实进行对齐;
人物/位置重识别系统包括人物和位置的识别模块以及人物和音频的对齐模块;
人物和位置的识别模块具体的作用为:①使用在Market1501数据集(在清华大学校园中采集的行人重识别数据集)上预训练的ResNet50(Residual Network 50)模型提取人物和关键帧的特征;②利用余弦相似度衡量人物和关键帧的特征与基本事实图像之间的相似度,为人物和位置附加基本事实的ID;
人物和音频的对齐模块具体的作用为:使用Dlib(一个C++工具包,包含机器学习算法和工具)的68个面部标志性预测器捕捉人物嘴唇的形状,并根据脸部大小的相对垂直形状变化来估计嘴唇运动,以预测目标人物是否为说话人,从而对音频片段和相应的文本分配人物ID。
步骤(6),提取对齐后的人物、音频、文本、关键帧以及物品的特征;
使用ResNet101(Residual Network 101)提取人物和关键帧的特征,使用FastText(快速文本分类器)提取文本的特征,使用VGG16提取物品的特征,使用VGG-ish(在YouTube的AudioSet数据预训练得到模型)提取整个场景中音频的特征。
步骤(7),将步骤(6)提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系;
如图2所示,多模态异构图注意力网络,首先使用模态内注意力机制挖掘不同物品和语句对人物-人物和人物-位置间的关系对判断的贡献度,然后使用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度,最后使用实体、主题和物品发现关系对间的关联,利用语义级注意力机制和节点级注意力机制挖掘不同语义和不同邻居节点对关系对判断的贡献度。
所述预测人物与人物以及人物与位置之间的关系,具体为:
步骤(7.1),若两个人物同时出现在一个关键帧中,则认为两人存在关系,又人物和所在的位置存在关系,从而生成关系对T=Tα∪Tβ,其中Tα表示人物-人物之间的关系,Tβ表示人物-位置之间的关系;
步骤(7.2),提取每个场景对齐后文本中的实体和主题;
所述实体通过斯坦福NER(Named Entity Recognition,命名实体识别)工具提取,所述主题使用LDA(Latent Dirichlet Allocation,隐含狄利克雷分配)提取;
步骤(7.3),若两个人物没有同时出现在一个关键帧中,则认为两人不存在关系,而人物所在背景中存在由检测出的同类物品,对话涉及相同实体和主题,则认为人物-人物、人物-位置之间存在联系,从而生成异构图G={V,E},其中:V是节点集合,包括关系对、物品、实体和主题节点,E是边集合,若关系涉及到相同的物品、主题或实体,则在关系对T-关系对T、关系对T-物品、关系对T-主题、关系对T-实体之间建立一条边;
步骤(7.4),在(7.1)生成的关系对T所在视频片段的特征中包含多个物品,文本中有多条语句,使用模态内注意力机制发现模态内部哪些信息(包含物品、语句、物品+语句)对判断关系对更有帮助,其中模态内注意力机制的计算方式如下:
Fm=∑i∈NαiFi (3)
其中:Fi表示一个物品或一条语句的特征,ca、Wa、ba是可训练的参数,tanh是激活函数,ei是Fi的权重,N是物品或语句的数目,αi是标准化的权重,Fm是物品或文本的整体特征;
步骤(7.5),在(7.1)生成的关系对T所在视频片段的特征由多种模态的特征组成,利用模态级注意力机制,使多模态异构图注意力网络学习到不同模态数据对关系的贡献度,其中模态级注意力机制的计算方式如下:
Fv=∑m∈MβmFm (6)
其中:Fm表示一种的特征,包括人物特征、关键帧特征、文本特征、音频特征和物品特征;cb、Wb、bb是可训练的参数;tanh是激活函数;em是Fm的权重;M是特征的种类数;βm是标准化的权重;Fv是一个关系对T的整体特征;
步骤(7.6),使用语义级注意力机制对关系对T-实体、关系对T-物品、关系对T-主题赋予相应的权重,其中语义级注意力机制的计算方式如下:
其中:v是一个关系节点,v′是v的邻居节点集合Nv中的一个元素,A’是对称规范化的邻接矩阵,Fv′是节点v′的特征,Fs表示Nv中节点特征之和,Fv是节点v的特征,||表示连接操作,σ是激活函数,μs是可训练的参数,es表示语义s的权重,γs表示标准化的权重,S表示不同的语义,包括物品、实体和主题三种不同的语义。
步骤(7.7),使用节点注意力机制捕获不同邻居节点的重要性,并降低噪声节点的权重,节点级注意力机制的计算方式如下:
其中:μn是可训练的参数,evv′s表示节点v′对v的权重(权重属于语义s),N1表示节点v的邻居节点数目(N1属于语义s),δvv′s表示标准化的权重;
步骤(7.8),异构图G按照如下特征传播规则(公式(12))进行特征传播,得到关系的特征:
其中:Bs表示关注矩阵,其第v行第v′列的元素为δvv′s;H(l)表示第l层所有关系对T节点的特征,表示第l层属于语义s的节点的特征,/>是可训练的参数;
人物与人物以及人物与位置之间的关系预测方法和多模态异构图注意力网络的损失函数分别如式(13)、(14)所示:
其中:sr,k是H中一个节点的特征,表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征,pr,k表示预测得分,R表示关系的种类,K表示视频片段的数量,yk表示真实的标签,1(·)是二进制指示符,如果表达式为真,则1(·)=1。
步骤(8),根据预测到的关系生成知识图谱,并通过准确率和召回率评估知识图谱。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (8)

1.基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于:
音频片段、每段音频对应的文本以及关键帧中的人物和物品送入人物/位置重识别系统,将音频、文本、人物、关键帧根据基本事实进行对齐,提取对齐后的人物、音频、文本、关键帧以及物品的特征;
将提取的特征送入多模态异构图注意力网络,预测人物与人物以及人物与位置之间的关系,根据预测的关系生成知识图谱;
所述预测人物与人物以及人物与位置之间的关系,具体为:
若两个人物同时出现在一个关键帧中,生成关系对T=Tα∪Tβ,其中Tα表示人物-人物之间的关系,Tβ表示人物-位置之间的关系;所述关系对T所在视频片段的特征中包含多个物品,文本中有多条语句,使用模态内注意力机制挖掘不同物品和语句对关系对判断的贡献度;所述关系对T所在视频片段的特征由多种模态的特征组成,利用模态级注意力机制挖掘人物、物品、文本、关键帧、音频特征对关系对判断的贡献度;
若两个人物没有同时出现在一个关键帧中,而人物所在背景中存在同类物品,对话涉及相同实体和主题,则认为人物-人物、人物-位置之间存在联系,生成异构图G={V,E},其中:V是节点集合,包括关系对T、物品、实体和主题节点,E是边集合,若关系涉及到相同物品、主题或实体,则在关系对T-关系对T、关系对T-物品、关系对T-主题、关系对T-实体之间建立一条边;
所述异构图G按照特征传播规则进行特征传播,得到关系的特征,利用/>预测人物与人物、人物与位置之间的关系;
其中:Bs表示关注矩阵,其第v行第v′列的元素为δvv′s,δvv′s表示节点v′对v的权重标准化的权重,权重属于语义s;H(l)表示第l层所有关系对T节点的特征,表示第l层属于语义s的节点的特征,/>是可训练的参数,σ是激活函数,sr,k是H中一个节点的特征,表示第k个场景中第r个关系对经多模态异构图注意力网络处理后的特征,pr,k表示预测得分,R表示关系的种类,S表示不同的语义,包括物品、实体和主题三种不同的语义。
2.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述模态内注意力机制的计算方法为:
其中:Fi表示一个物品或一条语句的特征,ca、Wa、ba是可训练的参数,tanh是激活函数,ei是Fi的权重,N是物品或语句的数目,αi是标准化的权重,Fm是物品或文本的整体特征。
3.根据权利要求2所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述模态级注意力机制的计算方法为:
其中:Fm表示一种的特征,包括人物特征、关键帧特征、文本特征、音频特征和物品特征;cb、Wb、bb是可训练的参数;tanh是激活函数;em是Fm的权重;M是特征的种类数;βm是标准化的权重;Fv是一个关系对T的整体特征。
4.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,使用语义级注意力机制对关系对T-实体、关系对T-物品、关系对T-主题赋予相应的权重,其中语义级注意力机制的计算方法为:
其中:v是一个关系节点,v′是v的邻居节点集合Nv中的一个元素,A′vv′是对称规范化的邻接矩阵,Fv′是节点v′的特征,Fs表示Nv中节点特征之和,Fv是节点v的特征,||表示连接操作,σ是激活函数,μs是可训练的参数,es表示语义s的权重,γs表示标准化的权重,S表示不同的语义,包括物品、实体和主题三种不同的语义。
5.根据权利要求4所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,使用节点注意力机制捕获不同邻居节点的重要性,并降低噪声节点的权重,节点级注意力机制的计算方法为:
其中:σ是激活函数,μn是可训练的参数,evv′s表示节点v′对v的权重,权重属于语义s,N1表示节点v的邻居节点数目,δvv′s表示标准化的权重。
6.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述多模态异构图注意力网络的损失函数为:
其中:pr,k表示预测得分,R表示关系的种类,K表示视频片段的数量,yk表示真实的标签,1(·)是二进制指示符,如果表达式为真,则1(·)=1。
7.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述音频对应的文本是通过将待分析视频中的音频信号进行分割,得到音频片段并生成时间戳;利用所述时间戳对由音频转录成的文本进行切分得到的。
8.根据权利要求1所述的基于多模态异构图注意力网络的深度视频理解知识图谱构建方法,其特征在于,所述人物/位置重识别系统包括人物和位置的识别模块以及人物和音频的对齐模块;所述人物和位置的识别模块用于:①使用在Market1501数据集上预训练的ResNet50模型提取人物和关键帧的特征;②利用余弦相似度衡量人物和关键帧的特征与基本事实图像之间的相似度,为人物和位置附加基本事实的ID;所述人物和音频的对齐模块用于:使用Dlib的68个面部标志性预测器捕捉人物嘴唇的形状,并根据脸部大小的相对垂直形状变化来估计嘴唇运动,以预测目标人物是否为说话人,从而对音频片段和相应的文本分配人物ID。
CN202111434458.4A 2021-11-29 2021-11-29 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 Active CN114186069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111434458.4A CN114186069B (zh) 2021-11-29 2021-11-29 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111434458.4A CN114186069B (zh) 2021-11-29 2021-11-29 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN114186069A CN114186069A (zh) 2022-03-15
CN114186069B true CN114186069B (zh) 2023-09-29

Family

ID=80541747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111434458.4A Active CN114186069B (zh) 2021-11-29 2021-11-29 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN114186069B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099631B (zh) * 2022-06-27 2023-10-13 中南民族大学 基于异构图注意力网络的文物安防系统风险评估方法
CN115618270B (zh) * 2022-12-16 2023-04-11 国家电网有限公司客户服务中心 多模态意图识别方法、装置、电子设备和存储介质
CN115858816A (zh) * 2022-12-27 2023-03-28 北京融信数联科技有限公司 面向公共安全领域的智能体认知图谱的构建方法和系统
CN117033666B (zh) * 2023-10-07 2024-01-26 之江实验室 一种多模态知识图谱的构建方法、装置、存储介质及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061915A (zh) * 2019-12-17 2020-04-24 中国科学技术大学 视频人物关系识别方法
CN111159425A (zh) * 2019-12-30 2020-05-15 浙江大学 一种基于历史关系和双图卷积网络的时态知识图谱表示方法
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN112183334A (zh) * 2020-09-28 2021-01-05 南京大学 一种基于多模态特征融合的视频深度关系分析方法
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112597296A (zh) * 2020-12-17 2021-04-02 中山大学 一种基于计划机制和知识图谱引导的摘要生成方法
CN112800770A (zh) * 2021-04-15 2021-05-14 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN113094593A (zh) * 2021-03-11 2021-07-09 西安交通大学 社交网络事件推荐方法、系统、设备及存储介质
CN113298015A (zh) * 2021-06-10 2021-08-24 中国科学技术大学 基于图卷积网络的视频人物社交关系图生成方法
CN113610034A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 识别视频中人物实体的方法、装置、存储介质及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061915A (zh) * 2019-12-17 2020-04-24 中国科学技术大学 视频人物关系识别方法
CN111159425A (zh) * 2019-12-30 2020-05-15 浙江大学 一种基于历史关系和双图卷积网络的时态知识图谱表示方法
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN112183334A (zh) * 2020-09-28 2021-01-05 南京大学 一种基于多模态特征融合的视频深度关系分析方法
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112597296A (zh) * 2020-12-17 2021-04-02 中山大学 一种基于计划机制和知识图谱引导的摘要生成方法
CN113094593A (zh) * 2021-03-11 2021-07-09 西安交通大学 社交网络事件推荐方法、系统、设备及存储介质
CN112800770A (zh) * 2021-04-15 2021-05-14 南京樯图数据研究院有限公司 一种基于异构图注意力网络的实体对齐方法
CN113298015A (zh) * 2021-06-10 2021-08-24 中国科学技术大学 基于图卷积网络的视频人物社交关系图生成方法
CN113610034A (zh) * 2021-08-16 2021-11-05 脸萌有限公司 识别视频中人物实体的方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢宇翔.《基于深度学习的垂直领域实体关系分析方法研究》.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,第4章. *

Also Published As

Publication number Publication date
CN114186069A (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN114186069B (zh) 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
CN109117777B (zh) 生成信息的方法和装置
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
CN108090857B (zh) 一种多模态的学生课堂行为分析系统和方法
Chung et al. Lip reading in the wild
US10108709B1 (en) Systems and methods for queryable graph representations of videos
US10963504B2 (en) Zero-shot event detection using semantic embedding
CN109874053A (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
Xu et al. An HMM-based framework for video semantic analysis
CN110765921B (zh) 一种基于弱监督学习和视频时空特征的视频物体定位方法
US20160307044A1 (en) Process for generating a video tag cloud representing objects appearing in a video content
Xiang et al. Activity based surveillance video content modelling
CN112183334A (zh) 一种基于多模态特征融合的视频深度关系分析方法
CN112836675B (zh) 一种基于聚类生成伪标签的无监督行人重识别方法及系统
Park et al. Identity-aware multi-sentence video description
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
Rong et al. Scene text recognition in multiple frames based on text tracking
Borg et al. Phonologically-meaningful subunits for deep learning-based sign language recognition
CN114299321A (zh) 视频分类方法、装置、设备及可读存储介质
Sharma et al. Visual speech recognition using optical flow and hidden Markov model
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN117668292A (zh) 一种跨模态敏感信息识别方法
CN110674265B (zh) 面向非结构化信息的特征判别与信息推荐系统
Anand et al. Story semantic relationships from multimodal cognitions
CN112215257A (zh) 一种多人多模态感知数据自动标记和互相学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant