CN113111161A - 一种跨媒体关联分析方法 - Google Patents

一种跨媒体关联分析方法 Download PDF

Info

Publication number
CN113111161A
CN113111161A CN202110384399.8A CN202110384399A CN113111161A CN 113111161 A CN113111161 A CN 113111161A CN 202110384399 A CN202110384399 A CN 202110384399A CN 113111161 A CN113111161 A CN 113111161A
Authority
CN
China
Prior art keywords
media data
data
vector
semantic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110384399.8A
Other languages
English (en)
Other versions
CN113111161B (zh
Inventor
刘忠宝
赵文娟
荀恩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202110384399.8A priority Critical patent/CN113111161B/zh
Publication of CN113111161A publication Critical patent/CN113111161A/zh
Application granted granted Critical
Publication of CN113111161B publication Critical patent/CN113111161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种跨媒体关联分析方法,属于数据处理领域,首先对媒体数据进行向量化处理,媒体数据包括文本、图像、视频和音频数据;其次将处理后的媒体数据进行训练;再次利用BiLSTM模型挖掘训练后的媒体数据上下文信息,得到媒体数据的特征向量;然后将所有特征向量映射到同一语义空间中,最后对语义特征和分布特征进行优化来对媒体数据进行关联分析,本方法对媒体数据的特征向量进行语义特征优化,即对语义内容的特征提取与向量化表示进行优化,来考虑媒体数据之间的共存性和互补性,加快关联分析的效率;同时对媒体数据的特征向量进行分布特征优化,即对各种媒体数据在同一语义空间中的位置关系及其分布态势进行调整,来增加关联分析结果的准确性。

Description

一种跨媒体关联分析方法
技术领域
本发明涉及一种跨媒体关联分析方法,属于数据处理领域。
背景技术
文本、图像、视频和音频数据统称为媒体数据,这些数据来源广泛、结构各异,导致语义鸿沟问题的出现,这严重地制约了媒体数据语义一致性的学习和表示。
目前,现有方法大多针对文本和图像两种媒体数据展开研究。尽管可以通过“两两组合”的方式将面向两种媒体数据的跨媒体关联分析研究扩展到多种媒体数据,但这种做法忽略了各种媒体数据之间的共存性和互补性,导致现有方法获得的语义信息不够完备,这直接影响了跨媒体关联分析的效率。此外,现有方法往往通过最大化成对各种媒体数据之间的关联关系建立优化问题,这种做法并未考虑各种媒体数据的上下文信息,这些媒体数据的统一表征缺乏丰富语义信息的支持。
发明内容
为解决上述现有技术中存在的技术问题,本发明提供了一种跨媒体关联分析方法,本方法利用BiLSTM模型挖掘训练后的媒体数据上下文信息,因此得到的特征向量包含丰富的语义支持,并且对语义内容的特征提取与向量化表示进行优化,同时还对各种媒体数据在同一语义空间中的位置关系及其分布态势进行调整,来对媒体数据进行关联分析。
实现本发明目的的技术方案为,一种跨媒体关联分析方法,至少包括如下步骤:
(1)对媒体数据进行向量化处理,媒体数据包括文本、图像、视频和音频数据;
(2)将处理后的媒体数据进行训练;
(3)利用BiLSTM模型挖掘训练后的媒体数据上下文信息,得到媒体数据的特征向量;
(4)将所有特征向量映射到同一语义空间中,并对语义特征和分布特征进行优化;
(4.1)对媒体数据的类别信息进行向量化表示,得到类别语义向量;根据类别语义向量对对应的媒体数据的特征向量优化,即改变媒体数据的特征向量hi使语义特征矩阵Ls最大,语义特征矩阵Ls通过如下公式获得:
Figure BDA0003014235920000011
式中,hi为媒体数据的特征向量,i=1、2、3、4,fi为类别语义向量,fj为与fi不同类别的类别语义向量,j=1、2、3、4,sim(hi,fi)为媒体数据的特征向量与其对应的类别语义向量之间的相似度,sim(hi,fj)为媒体数据的特征向量与其不同类别语义向量之间的相似度;
(4.2)对媒体数据的特征向量进行分布优化,即改变媒体数据的特征向量hi使分布特征矩阵LD最大,分布特征矩阵LD通过如下公式获得:
Figure BDA0003014235920000021
Figure BDA0003014235920000022
LD=LDC-LSC
式中,hi为媒体数据的特征向量,i=1、2、3、4,hj为与hi不同类别的特征向量,j=1、2、3、4,E(hi)为hi的中心,E(hj)为hj的中心,LSC为每种媒体数据的特征向量与中心之间的距离,LDC为不同媒体数据特征向量中心之间的距离,LD为分布特征矩阵;
(4.3)调整语义特征矩阵LS和分布特征矩阵LD的重要性,即计算出平衡因子α,使媒体数据的一致性函数L最大,得到调整后的语义特征矩阵αLS和调整后的分布特征矩阵(1-α)LD,具体公式如下:
L=αLS+(1-α)LD
式中:α为平衡因子,α=0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9,L为媒体数据的一致性函数;
(4.4)通过上述调整后的语义特征矩阵αLS和调整后的分布特征矩阵(1-α)LD完成媒体数据的关联分析。
对上述技术方案的进一步改进为:所述媒体数据进向量化处理的方法具体为:将图像数据的尺寸裁剪为224×224×3,裁剪后的图像数据为向量表示的图像数据;
将文本数据利用jieba分词工具进行分词处理,再将处理后的文本数据引入Word2vec模型得到向量表示的文本数据;
在音频数据中选用帧长为256个采样点,帧移为128个采样点,并根据采样点将音频数据切割成片段得到向量表示的音频数据;
提取视频数据每个视频帧得到向量表示的视频数据。
且所述训练方法具体为:将向量表示的图像数据输入ResNet模型进行训练得到512维的图像特征;
将向量表示的文本数据输入DCNN模型进行训练得到得到256维的文本特征;
将向量表示的音频数据输入1-D CNN模型进行训练得到128维的音频特征;
将向量表示的视频数据输入ResNet模型进行训练得到512维的视频特征。
且所述类别语义向量通过Word2Vec模型对类别信息进行向量化表示和特征提取得到。
由上述技术方案可知:(1)本发明可用于文本、图像、视频和音频数据同时进行关联分析;
(2)本发明对媒体数据的特征向量进行语义特征优化,即对语义内容的特征提取与向量化表示进行优化,来考虑媒体数据之间的共存性和互补性,加快关联分析的效率;
(3)本发明对媒体数据的特征向量进行分布特征优化,即对各种媒体数据在同一语义空间中的位置关系及其分布态势进行调整,来增加关联分析结果的准确性。
具体实施方式
下面结合实施例对本发明进行详细具体说明,本发明的内容不局限于以下实施例。
一种跨媒体关联分析方法,包括如下步骤:
(1)对媒体数据进行向量化处理,媒体数据包括文本、图像、视频和音频数据;具体为:
将图像数据的尺寸裁剪为224×224×3,裁剪后的图像数据为向量表示的图像数据;
将文本数据利用jieba分词工具进行分词处理,再将处理后的文本数据引入Word2vec模型得到向量表示的文本数据;
在音频数据中选用帧长为256个采样点,帧移为128个采样点,并根据采样点将音频数据切割成片段得到向量表示的音频数据;
提取视频数据每个视频帧得到向量表示的视频数据。
文本、图像、视频和音频数据都是以人的表达方式展现的,是一个流数据,时间序列数据;如果要用计算机对文本、图像、视频和音频数据进行处理,就必须将文本、图像、视频和音频数据转化为计算机能理解的方式,在本实施例中即为数据向量化。
(2)将处理后的媒体数据进行训练,通过对媒体数据进行训练使机器学习算法的准确率得到提升;具体为:
将向量表示的图像数据输入ResNet模型进行训练得到512维的图像特征;ResNet模型的层数为50、学习率为1e-4、批大小为32、迭代次数为8000次。
将向量表示的文本数据输入DCNN模型进行训练得到得到256维的文本特征;DCNN模型的卷积核尺寸为7和5、最大池化数为4、批大小为50、迭代次数为10次。
将向量表示的音频数据输入1-DCNN模型进行训练得到128维的音频特征;1-DCNN模型的结构包括1层卷积层、1层采样层以及1层全连接层,其中卷积层的卷积核的数量为10,采样层采用最大值采样,输出层采用softmax分类器;1-D CNN模型训练的学习率为1e-3,批大小为16,迭代次数为100次。
将向量表示的视频数据输入ResNet模型进行训练得到512维的视频特征,ResNet模型的层数为50、学习率为1e-4、批大小为32、迭代次数为8000次。
(3)利用BiLSTM模型挖掘训练后的媒体数据上下文信息,得到媒体数据的特征向量;
该步骤是利用降维的思想,将多个变量转化为少数几个综合变量,即主成分,其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。它是一个线性变换,这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标,第二大方差在第二个坐标,依次类推;主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
如总数为p个变量的媒体数据,分别用X1,X2…Xp来表示,这p个变量构成的p维随机向量为X=(X1,X2…Xp),n个样本构成xi=(Xi1,Xi2,...,Xip)组成了n行p列的矩阵A。主成分求解过程如下:
求解得到矩阵A的协方差阵B;
求解协方差阵B,得到按大小顺序排列的特征值向量λ,Δ为特征值向量λ中每个特征值组成的对角矩阵,U为所有特征值对应的特征向量构成的矩阵U,因此有BU=UΔ,U是有特征向量构成的正定阵,向量的每一行可以视为一个的基向量,这些基向量经过矩阵B转换后,得到了在各个基向量上的伸缩,伸缩的大小即为特征向量。
主成分个数选择,根据特征值的大小,将特征值较大的作为主成分,其对应的特征向量就为基向量。
本实施例采用的双向长短时记忆网络BiLSTM是一种改进的循环神经网络(Recurrent Neural Network,RNN)模型,其工作原理与RNN基本相同,区别在于BiLSTM引入了门结构,该结构能对从输入层传来的输入向量进行更深层次的特征提取。该模型包含输入门、遗忘门、输出门等门结构。输入门、遗忘门分别控制隐藏层神经元需要更新和遗忘的信息,输出门决定隐藏层神经元输出的信息。在t时刻,该模型的工作原理可由以下公式表示:
it=sigmoid(Wi·[ht-1,xt]+bi)
ft=sigmoid(Wf·[ht-1,xt]+bf)
ct=ft·ct-1+it·tanh(Wc·[ht-1,xt]+bc)
ot=sigmoid(Wo·[ht-1,xt]+bo)
ht=ot·tanh(ct)
式中,xt为t时刻的输入向量,it、ft、ot分别表示当前时刻的输入门、遗忘门和输出门,Wt、Wf、Wo和bt、bf、bo分别表示输入门、遗忘门和输出门对应的权重矩阵和偏置向量,ct表示当前时刻的记忆单元,sigmoid和tanh表示激活函数,ht为当前时刻的输出向量。
(4)将所有特征向量映射到同一语义空间中,并对语义特征和分布特征进行优化;语义特征指的是各种媒体数据所指代语义内容的特征提取与向量化表示,分布特征指的是各种媒体数据在统一语义空间中的位置关系及其分布态势。
(4.1)对媒体数据的类别信息进行向量化表示,得到类别语义向量;根据类别语义向量对对应的媒体数据的特征向量优化,即改变媒体数据的特征向量hi使语义特征矩阵Ls最大,语义特征矩阵Ls通过如下公式获得:
Figure BDA0003014235920000051
式中,hi为媒体数据的特征向量,i=1、2、3、4,fi为类别语义向量,fj为与fi不同类别的类别语义向量,j=1、2、3、4,sim(hi,fi)为媒体数据的特征向量与其对应的类别语义向量之间的相似度,sim(hi,fj)为媒体数据的特征向量与其不同类别语义向量之间的相似度;
为了确保各种媒体数据的特征向量与其对应的类别语义向量之间的距离尽可能地近,而与该特征向量不同的类别语义向量尽可能地远。
(4.2)对媒体数据的特征向量进行分布优化,即改变媒体数据的特征向量hi使分布特征矩阵LD最大,分布特征矩阵LD通过如下公式获得:
Figure BDA0003014235920000061
Figure BDA0003014235920000062
LD=LDC-LSC
式中,hi为媒体数据的特征向量,i=1、2、3、4,hj为与hi不同类别的特征向量,j=1、2、3、4,E(hi)为hi的中心,E(hj)为hj的中心,LSC为每种媒体数据的特征向量与中心之间的距离,LDC为不同媒体数据特征向量中心之间的距离,LD为分布特征矩阵;
在统一语义空间中,衡量各种媒体数据之间相似性的指标是它们之间的距离,即同类媒体数据之间的距离尽可能近,不同类媒体数据之间的距离尽可能远。
(4.3)调整语义特征矩阵LS和分布特征矩阵LD的重要性,即计算出平衡因子α,使媒体数据的一致性函数L最大,得到调整后的语义特征矩阵αLS和调整后的分布特征矩阵(1-α)LD,具体公式如下:
L=αLS+(1-α)LD
式中:α为平衡因子,α=0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9,L为媒体数据的一致性函数;
α用以平衡语义特征和分布特征在跨媒体关联分析中的重要性。
通过上述调整后的语义特征矩阵αLS和调整后的分布特征矩阵(1-α)LD完成媒体数据的关联分析。
通过调整媒体数据的特征向量在同一语义空间中的位置,来进行关联分析。
表1为CCA、KCCA、Deep-SM和跨媒体关联分析方法对媒体数据进行关联分析的准确率;
Figure BDA0003014235920000063
表1
由表1可知,CCA在文本数据集上的表现最优,在图像、视频、音频等多媒体数据集上表现较差,特别是在视频和音频数据集上的准确率均低于0.4,该模型不适合处理具有非线性结构的多媒体数据。KCCA是CCA的改进版本,核函数的引入使其能够处理具有非线性结构的多媒体数据。从实验结果看,KCCA在各种媒体数据集上的准确率均得到一定程度的提升。Deep-SM基于CNN深度学习模型提出,与基于机器学习的方法相比,其具有更强的特征学习能力。该模型在文本、图像、视频、音频等多媒体数据集上的准确率分别比KCCA提高了0.17、0.09、0.06、0.12。本文方法借鉴了深度学习模型在特征学习方面的优势,与CNN相比,BiLSTM能够提取各种媒体数据的上下文信息,融入语义特征和分布特征使之具有更优的准确率,特别是在图像、视频、音频等多媒体数据集上的表现明显优于CCA、KCCA、Deep-SM。跨媒体数据集上的实验结果表明,本文方法的准确率分别比CCA高0.34、0.35、0.27、0.31,比KCCA高0.22、0.17、0.18、0.25,比Deep-SM高0.05、0.08、0.12、0.13。从模型的平均性能看,本文方法的平均准确率最高,达到0.73,之后依次是Deep-SM、KCCA、CCA。从各种媒体数据集上的平均性能看,文本数据集上的平均准确率最高,其次是图像数据集,音频数据集最低。

Claims (4)

1.一种跨媒体关联分析方法,其特征在于至少包括如下步骤:
(1)对媒体数据进行向量化处理,媒体数据包括文本、图像、视频和音频数据;
(2)将处理后的媒体数据进行训练;
(3)利用BiLSTM模型挖掘训练后的媒体数据上下文信息,得到媒体数据的特征向量;
(4)将所有特征向量映射到同一语义空间中,并对语义特征和分布特征进行优化;
(4.1)对媒体数据的类别信息进行向量化表示,得到类别语义向量;根据类别语义向量对对应的媒体数据的特征向量优化,即改变媒体数据的特征向量hi使语义特征矩阵Ls最大,语义特征矩阵Ls通过如下公式获得:
Figure FDA0003014235910000011
式中,hi为媒体数据的特征向量,i=1、2、3、4,fi为类别语义向量,fj为与fi不同类别的类别语义向量,j=1、2、3、4,sim(hi,fi)为媒体数据的特征向量与其对应的类别语义向量之间的相似度,sim(hi,fj)为媒体数据的特征向量与其不同类别语义向量之间的相似度;
(4.2)对媒体数据的特征向量进行分布优化,即改变媒体数据的特征向量hi使分布特征矩阵LD最大,分布特征矩阵LD通过如下公式获得:
Figure FDA0003014235910000012
Figure FDA0003014235910000013
LD=LDC-LSC
式中,hi为媒体数据的特征向量,i=1、2、3、4,hj为与hi不同类别的特征向量,j=1、2、3、4,E(hi)为hi的中心,E(hj)为hj的中心,LSC为每种媒体数据的特征向量与中心之间的距离,LDC为不同媒体数据特征向量中心之间的距离,LD为分布特征矩阵;
(4.3)调整语义特征矩阵LS和分布特征矩阵LD的重要性,即计算出平衡因子α,使媒体数据的一致性函数L最大,得到调整后的语义特征矩阵αLS和调整后的分布特征矩阵(1-α)LD,具体公式如下:
L=αLS+(1-α)LD
式中:α为平衡因子,α=0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9,L为媒体数据的一致性函数;
(4.4)通过上述调整后的语义特征矩阵αLS和调整后的分布特征矩阵(1-α)LD完成媒体数据的关联分析。
2.根据权利要求1所述的跨媒体关联分析方法,其特征在于,所述媒体数据进向量化处理的方法具体为:将图像数据的尺寸裁剪为224×224×3,裁剪后的图像数据为向量表示的图像数据;
将文本数据利用jieba分词工具进行分词处理,再将处理后的文本数据引入Word2vec模型得到向量表示的文本数据;
在音频数据中选用帧长为256个采样点,帧移为128个采样点,并根据采样点将音频数据切割成片段得到向量表示的音频数据;
提取视频数据每个视频帧得到向量表示的视频数据。
3.根据权利要求2所述的跨媒体关联分析方法,其特征在于,所述训练方法具体为:将向量表示的图像数据输入ResNet模型进行训练得到512维的图像特征;
将向量表示的文本数据输入DCNN模型进行训练得到得到256维的文本特征;
将向量表示的音频数据输入1-D CNN模型进行训练得到128维的音频特征;
将向量表示的视频数据输入ResNet模型进行训练得到512维的视频特征。
4.根据权利要求1所述的跨媒体关联分析方法,其特征在于,所述类别语义向量通过Word2Vec模型对类别信息进行向量化表示和特征提取得到。
CN202110384399.8A 2021-04-09 2021-04-09 一种跨媒体关联分析方法 Active CN113111161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110384399.8A CN113111161B (zh) 2021-04-09 2021-04-09 一种跨媒体关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110384399.8A CN113111161B (zh) 2021-04-09 2021-04-09 一种跨媒体关联分析方法

Publications (2)

Publication Number Publication Date
CN113111161A true CN113111161A (zh) 2021-07-13
CN113111161B CN113111161B (zh) 2023-09-08

Family

ID=76715465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110384399.8A Active CN113111161B (zh) 2021-04-09 2021-04-09 一种跨媒体关联分析方法

Country Status (1)

Country Link
CN (1) CN113111161B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN105701227A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN108694200A (zh) * 2017-04-10 2018-10-23 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109784405A (zh) * 2019-01-16 2019-05-21 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN112100410A (zh) * 2020-08-13 2020-12-18 中国科学院计算技术研究所 一种基于语义条件关联学习的跨模态检索方法及系统
US20210090535A1 (en) * 2019-09-24 2021-03-25 Secret Chord Laboratories, Inc. Computing orders of modeled expectation across features of media

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN105701227A (zh) * 2016-01-15 2016-06-22 北京大学 一种基于局部关联图的跨媒体相似性度量方法和检索方法
CN106095829A (zh) * 2016-06-01 2016-11-09 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN108694200A (zh) * 2017-04-10 2018-10-23 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN109784405A (zh) * 2019-01-16 2019-05-21 山东建筑大学 基于伪标签学习和语义一致性的跨模态检索方法及系统
US20210090535A1 (en) * 2019-09-24 2021-03-25 Secret Chord Laboratories, Inc. Computing orders of modeled expectation across features of media
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN112100410A (zh) * 2020-08-13 2020-12-18 中国科学院计算技术研究所 一种基于语义条件关联学习的跨模态检索方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LEI ZHU等: "adversarial learning-based semantic correlation representation for cross-modal retrieval", IEEE MULTIMEDIA, vol. 27, no. 4, pages 79 - 90, XP011822746, DOI: 10.1109/MMUL.2020.3015764 *
刘忠宝等: "融合语义特征和分布特征的跨媒体关联分析方法研究", 情报学报, vol. 40, no. 5, pages 471 - 478 *
徐彤阳;邓颖慧;: "微信中基于语义关联的跨媒体检索研究", 情报科学, vol. 36, no. 07, pages 158 - 162 *
邹辉;杜吉祥;翟传敏;王靖;: "深度学习与一致性表示空间学习的跨媒体检索", 华侨大学学报(自然科学版), vol. 39, no. 01, pages 127 - 132 *

Also Published As

Publication number Publication date
CN113111161B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
Zhang et al. Vector of locally and adaptively aggregated descriptors for image feature representation
WO2020200030A1 (zh) 神经网络的训练方法、图像处理方法、图像处理装置和存储介质
WO2022041678A1 (zh) 张量协作图判别分析遥感图像特征提取方法
CN104866810B (zh) 一种深度卷积神经网络的人脸识别方法
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
CN106407406B (zh) 一种文本处理方法和系统
CN110889865B (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
Sun et al. Multi-classification speech emotion recognition based on two-stage bottleneck features selection and MCJD algorithm
Li et al. Spatial-temporal dynamic hand gesture recognition via hybrid deep learning model
CN107633259B (zh) 一种基于稀疏字典表示的跨模态学习方法
Gao et al. Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition
Huang et al. Facial expression recognition algorithm based on improved VGG16 network
CN113111161A (zh) 一种跨媒体关联分析方法
CN114169320A (zh) 一种基于词向量矩阵分解技术的多源数据融合方法及系统
Liu et al. Face recognition based on manifold constrained joint sparse sensing with K-SVD
CN114187966A (zh) 一种基于生成对抗网络的单细胞rna序列缺失值填补方法
CN109146058B (zh) 具有变换不变能力且表达一致的卷积神经网络
KR20220044011A (ko) 텍스트 스타일 변환 방법 및 시스템, 및 이의 구현을 위한 학습 방법
CN112364902A (zh) 一种基于自适应相似性的特征选择学习方法
CN115909045B (zh) 一种基于对比学习的two-stage滑坡图谱特征智能识别方法
Du et al. GBP: Graph convolutional network embedded in bilinear pooling for fine-grained encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant