CN109992676A - 一种跨媒体资源检索方法及检索系统 - Google Patents
一种跨媒体资源检索方法及检索系统 Download PDFInfo
- Publication number
- CN109992676A CN109992676A CN201910255866.XA CN201910255866A CN109992676A CN 109992676 A CN109992676 A CN 109992676A CN 201910255866 A CN201910255866 A CN 201910255866A CN 109992676 A CN109992676 A CN 109992676A
- Authority
- CN
- China
- Prior art keywords
- vgg
- feature
- information
- indicate
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种跨媒体资源检索方法及检索系统。本发明提供的跨媒体资源数据库包括文本数据、图像数据和视频数据,提取媒体资源数据库中各文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征后,形成训练样本集的原始特征矩阵,然后构建并求解目标优化函数,获得将文本数据、图像数据和视频数据这三种模态资源进行统一映射处理的映射系数,使得不同模态的资源可以在统一特征空间中进行比较。本发明提供的跨媒体资源检索方法及检索系统,是一种支持多模态输入的资源检索方式,多模态输入有利于从不同角度全面描述待检索的新闻事件,从而根据查询信息灵活匹配资源,有效提高新闻事件相关媒体资源的检索精度。
Description
技术领域
本发明涉及资源检索领域,特别是涉及一种跨媒体资源检索方法及检索系统。
背景技术
跨媒体的核心思想是模糊媒体资源模态,以更贴近人类思维的高层概念解释目标对象,使不同模态的资源从各自的侧面表达相同的高层概念,从而更加全面地反映特定的内容信息。跨媒体的重点并不在于使用多少种媒体,而是要充分发掘和利用媒体之间潜在的关系,以及它们各自对于表达目标概念做出的贡献。
然而,现有的新闻资源检索大多仍然依赖于编目信息,采用关键字匹配的方法进行资源检索,这种检索方法一方面需要依赖大量的人力对每一个资源进行复杂的信息标注,另一方面也不可避免地会引入标注者对于资源的主观理解。此外,对于新闻事件相关资源的检索,现有方法采用先提取事件相关的文本信息,然后作为检索输入,即输入只包含文本一种模态特征,这显然不利于对新闻事件的全面描述,会极大地影响新闻事件的检索精度。
发明内容
本发明的目的是提供一种跨媒体资源检索方法及检索系统,支持多模态输入查询信息,多模态输入有利于从不同角度全面描述待检索的新闻事件,从而根据查询信息灵活匹配资源,有效提高新闻事件的检索精度。
为实现上述目的,本发明提供了如下方案:
一种跨媒体资源检索方法,所述检索方法包括:。
获取用户输入的查询信息,所述查询信息包括文本信息、图像信息和视频信息中至少一者;
对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量;
计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离;
将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源, N表示预设的匹配资源数量;
其中,所述跨媒体资源数据库的统一特征空间矩阵的确定方法包括:
获取训练样本集;所述训练样本集包括不同类型的新闻事件的多个样本,每一样本包括同一新闻事件的文本数据、图像数据和视频数据;
提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征,获得训练样本集的原始特征矩阵X,X=(X1 X2 X3),X1表示训练样本集的词袋特征矩阵,X2表示训练样本集的图像VGG 特征矩阵,X3表示训练样本集的视频VGG特征矩阵;
采用多分类逻辑回归方法对各样本的词袋特征进行分类训练,获得每一样本属于不同类型新闻事件的概率分布向量;
根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵;
构建目标优化函数:
其中,W1表示词袋特征矩阵的映射系数,W2表示图像VGG特征矩阵的映射系数,W3表示视频VGG特征矩阵的映射系数,W4表示类别特征矩阵的映射系数,λ表示开销系数,X4表示类别特征矩阵,||·||F表示矩阵的Frobenius范数;
优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG 特征矩阵的映射系数和视频VGG特征矩阵的映射系数;
对原始特征矩阵进行映射处理,获得统一特征空间矩阵X′, X′=(W1X1 W2X2W3X3)。
可选的,所述对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量,具体包括:
判断所述查询信息是否存在文本查询信息,获得第一判断结果;
若所述第一判断结果表示是,则提取各文本查询信息的词袋特征;
根据公式:Q1i=W1q1i,对各文本查询信息的词袋特征进行映射处理,获得统一词袋特征,其中,q1i表示第i个文本查询信息的词袋特征,i为自然数,Q1i表示q1i对应的统一词袋特征;
判断所述查询信息是否存在图像查询信息,获得第二判断结果;
若所述第二判断结果表示是,则提取各图像查询信息的VGG特征;
根据公式:Q2m=W2q2m,对各图像查询信息的VGG特征进行映射处理,获得统一图像VGG特征,其中,q2m表示第m个图像查询信息的VGG特征, m为自然数,Q2m表示q2m对应的统一图像VGG特征;
判断所述查询信息是否存在视频查询信息,获得第三判断结果;
若所述第三判断结果表示是,则提取各视频查询信息的VGG特征;
根据公式:Q3n=W3q3n,对各视频查询信息的VGG特征进行映射处理,获得统一视频VGG特征,其中,q3n表示第n个视频查询信息的VGG特征, n为自然数,Q3n表示q3n对应的统一视频VGG特征;
根据公式:获得所述查询信息在统一特征空间的表征向量,I表示文本查询信息的数量,M表示图像查询信息的数量,N表示视频查询信息的数量,RQ表示查询信息在统一特征空间的表征向量。
可选的,所述优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数,具体包括:
采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG 特征矩阵的映射系数。
可选的,文本数据的词袋特征为1000维词袋特征,图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。
一种跨媒体资源检索系统,所述检索系统包括:
查询信息获取模块,用于获取用户输入的查询信息,所述查询信息包括文本信息、图像信息和视频信息中至少一者;
归一化映射模块,用于对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量;
距离计算模块,用于计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离;
资源匹配模块,用于将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源,N表示预设的匹配资源数量;
其中,所述跨媒体资源数据库的统一特征空间矩阵的确定子系统包括:
样本集获取模块,用于获取训练样本集;所述训练样本集包括不同类型的新闻事件的多个样本,每一样本包括同一新闻事件的文本数据、图像数据和视频数据;
数据特征提取模块,用于提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征,获得训练样本集的原始特征矩阵X,X=(X1 X2 X3),X1表示训练样本集的词袋特征矩阵,X2表示训练样本集的图像VGG特征矩阵,X3表示训练样本集的视频VGG特征矩阵;
分类训练模块,用于采用多分类逻辑回归方法对各样本的词袋特征进行分类训练,获得每一样本属于不同类型新闻事件的概率分布向量;
类别特征矩阵确定模块,用于根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵;
优化函数构建模块,用于构建目标优化函数:
其中,W1表示词袋特征矩阵的映射系数,W2表示图像VGG特征矩阵的映射系数,W3表示视频VGG特征矩阵的映射系数,W4表示类别特征矩阵的映射系数,λ表示开销系数,X4表示类别特征矩阵,||·||F表示矩阵的Frobenius范数;
优化求解模块,用于优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数;
映射处理模块,用于对原始特征矩阵进行映射处理,获得统一特征空间矩阵X′,X′=(W1X1 W2X2 W3X3)。
可选的,所述归一化映射模块包括:
第一判断单元,用于判断所述查询信息是否存在文本查询信息,获得第一判断结果;
词袋特征提取单元,用于若所述第一判断结果表示是,则提取各文本查询信息的词袋特征;
词袋特征映射单元,用于根据公式:Q1i=W1q1i,对各文本查询信息的词袋特征进行映射处理,获得统一词袋特征,其中,q1i表示第i个文本查询信息的词袋特征,i为自然数,Q1i表示q1i对应的统一词袋特征;
第二判断单元,用于判断所述查询信息是否存在图像查询信息,获得第二判断结果;
图像特征提取单元,用于若所述第二判断结果表示是,则提取各图像查询信息的VGG特征;
图像特征映射单元,用于根据公式:Q2m=W2q2m,对各图像查询信息的 VGG特征进行映射处理,获得统一图像VGG特征,其中,q2m表示第m个图像查询信息的VGG特征,m为自然数,Q2m表示q2m对应的统一图像VGG 特征;
第三判断单元,用于判断所述查询信息是否存在视频查询信息,获得第三判断结果;
视频特征提取单元,用于若所述第三判断结果表示是,则提取各视频查询信息的VGG特征;
视频特征映射单元,用于根据公式:Q3n=W3q3n,对各视频查询信息的 VGG特征进行映射处理,获得统一视频VGG特征,其中,q3n表示第n个视频查询信息的VGG特征,n为自然数,Q3n表示q3n对应的统一视频VGG 特征;
表征向量确定单元,用于根据公式:
获得所述查询信息在统一特征空间的表征向量,I表示文本查询信息的数量,M表示图像查询信息的数量, N表示视频查询信息的数量,RQ表示查询信息在统一特征空间的表征向量。
可选的,所述优化求解模块采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。
可选的,文本数据的词袋特征为1000维词袋特征,图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的跨媒体资源检索方法及检索系统,跨媒体资源数据库包括文本数据、图像数据和视频数据,提取媒体资源数据库中各样本的文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征后,形成训练样本集的原始特征矩阵,然后构建并求解目标优化函数,获得将文本数据、图像数据和视频数据这三种模态资源进行统一映射处理的映射系数,使得不同模态的资源可以在统一特征空间中进行比较。本发明提供的跨媒体资源检索方法及检索系统,是一种支持多模态输入的资源检索方式,多模态输入有利于从不同角度全面描述待检索的新闻事件,从而根据查询信息灵活匹配资源,有效提高新闻事件的检索精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种跨媒体资源检索方法的流程图;
图2为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定方法的流程图;
图3为本发明实施例提供的一种跨媒体资源检索系统的结构框图;
图4为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定系统的结构框图;
图5为本发明实施例提供的检索结果对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种跨媒体资源检索方法及检索系统,支持多模态输入查询信息,多模态输入有利于从不同角度全面描述待检索的新闻事件,从而根据查询信息灵活匹配资源,有效提高新闻事件的检索精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例提供的一种跨媒体资源检索方法的流程图。如图1 所示,一种跨媒体资源检索方法,所述检索方法包括:。
步骤101:获取用户输入的查询信息,所述查询信息包括文本信息、图像信息和视频信息中至少一者。
步骤102:对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量。
步骤103:计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离。
步骤104:将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源,N表示预设的匹配资源数量。
图2为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定方法的流程图。如图2所示,所述跨媒体资源数据库的统一特征空间矩阵的确定方法包括:
步骤201:获取训练样本集;所述训练样本集包括不同类型的新闻事件的多个样本,每一样本包括同一新闻事件的文本数据、图像数据和视频数据。
步骤202:提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征,获得训练样本集的原始特征矩阵X,X= (X1 X2 X3),X1表示训练样本集的词袋特征矩阵,X2表示训练样本集的图像VGG特征矩阵,X3表示训练样本集的视频VGG特征矩阵。本实施例中,文本数据的词袋特征为1000维词袋特征,图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。
步骤203:采用多分类逻辑回归方法对各样本的词袋特征进行分类训练,获得每一样本属于不同类型新闻事件的概率分布向量。
步骤204:根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵。
步骤205:构建目标优化函数:
其中,W1表示词袋特征矩阵的映射系数,W2表示图像VGG特征矩阵的映射系数,W3表示视频VGG特征矩阵的映射系数,W4表示类别特征矩阵的映射系数,λ表示开销系数,X4表示类别特征矩阵,||·||F表示矩阵的Frobenius范数。
步骤206:优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。本实施例中,采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG 特征矩阵的映射系数。
步骤207:对原始特征矩阵进行映射处理,获得统一特征空间矩阵X′, X′=(W1X1W2X2 W3X3),i=1,2,3。
具体地,所述步骤102:对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量,具体包括:
判断所述查询信息是否存在文本查询信息,获得第一判断结果;
若所述第一判断结果表示是,则提取各文本查询信息的词袋特征;
根据公式:Q1i=W1q1i,对各文本查询信息的词袋特征进行映射处理,获得统一词袋特征,其中,q1i表示第i个文本查询信息的词袋特征,i为自然数,Q1i表示q1i对应的统一词袋特征;
判断所述查询信息是否存在图像查询信息,获得第二判断结果;
若所述第二判断结果表示是,则提取各图像查询信息的VGG特征;
根据公式:Q2m=W2q2m,对各图像查询信息的VGG特征进行映射处理,获得统一图像VGG特征,其中,q2m表示第m个图像查询信息的VGG特征, m为自然数,Q2m表示q2m对应的统一图像VGG特征;
判断所述查询信息是否存在视频查询信息,获得第三判断结果;
若所述第三判断结果表示是,则提取各视频查询信息的VGG特征;
根据公式:Q3n=W3q3n,对各视频查询信息的VGG特征进行映射处理,获得统一视频VGG特征,其中,q3n表示第n个视频查询信息的VGG特征, n为自然数,Q3n表示q3n对应的统一视频VGG特征;
根据公式:获得所述查询信息在统一特征空间的表征向量,I表示文本查询信息的数量,M表示图像查询信息的数量,N表示视频查询信息的数量,RQ表示查询信息在统一特征空间的表征向量。
图3为本发明实施例提供的一种跨媒体资源检索系统的结构框图。如图 3所示,一种跨媒体资源检索系统,所述检索系统包括:
查询信息获取模块301,用于获取用户输入的查询信息,所述查询信息包括文本信息、图像信息和视频信息中至少一者。
归一化映射模块302,用于对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量。
距离计算模块303,用于计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离。
资源匹配模块304,用于将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源,N表示预设的匹配资源数量。
图4为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定系统的结构框图。如图4所示,所述跨媒体资源数据库的统一特征空间矩阵的确定子系统包括:
样本集获取模块401,用于获取训练样本集;所述训练样本集包括不同类型的新闻事件的多个样本,每一样本包括同一新闻事件的文本数据、图像数据和视频数据。
数据特征提取模块402,用于提取各样本中文本数据的1000维词袋特征、图像数据的4096维VGG特征和视频数据的关键帧的4096维VGG特征,获得训练样本集的原始特征矩阵X,X=(X1 X2 X3),X1表示训练样本集的词袋特征矩阵,X2表示训练样本集的图像VGG特征矩阵,X3表示训练样本集的视频VGG特征矩阵。
分类训练模块403,用于采用多分类逻辑回归方法对各样本的词袋特征进行分类训练,获得每一样本属于不同类型新闻事件的概率分布向量。
类别特征矩阵确定模块404,用于根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵。
优化函数构建模块405,用于构建目标优化函数:
其中,W1表示词袋特征矩阵的映射系数,W2表示图像VGG特征矩阵的映射系数,W3表示视频VGG特征矩阵的映射系数,W4表示类别特征矩阵的映射系数,λ表示开销系数,X4表示类别特征矩阵,||·||F表示矩阵的Frobenius范数。
优化求解模块406,用于优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。本实施例中,所述优化求解模块406采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像 VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。
映射处理模块407,用于对原始特征矩阵进行映射处理,获得统一特征空间矩阵X′,X′=(W1X1 W2X2 W3X3),i=1,2,3。
具体地,所述归一化映射模块302包括:
第一判断单元,用于判断所述查询信息是否存在文本查询信息,获得第一判断结果;
词袋特征提取单元,用于若所述第一判断结果表示是,则提取各文本查询信息的词袋特征;
词袋特征映射单元,用于根据公式:Q1i=W1q1i,对各文本查询信息的词袋特征进行映射处理,获得统一词袋特征,其中,q1i表示第i个文本查询信息的词袋特征,i为自然数,Q1i表示q1i对应的统一词袋特征;
第二判断单元,用于判断所述查询信息是否存在图像查询信息,获得第二判断结果;
图像特征提取单元,用于若所述第二判断结果表示是,则提取各图像查询信息的VGG特征;
图像特征映射单元,用于根据公式:Q2m=W2q2m,对各图像查询信息的 VGG特征进行映射处理,获得统一图像VGG特征,其中,q2m表示第m个图像查询信息的VGG特征,m为自然数,Q2m表示q2m对应的统一图像VGG 特征;
第三判断单元,用于判断所述查询信息是否存在视频查询信息,获得第三判断结果;
视频特征提取单元,用于若所述第三判断结果表示是,则提取各视频查询信息的VGG特征;
视频特征映射单元,用于根据公式:Q3n=W3q3n,对各视频查询信息的 VGG特征进行映射处理,获得统一视频VGG特征,其中,q3n表示第n个视频查询信息的VGG特征,n为自然数,Q3n表示q3n对应的统一视频VGG 特征;
表征向量确定单元,用于根据公式:
获得所述查询信息在统一特征空间的表征向量,I表示文本查询信息的数量,M表示图像查询信息的数量, N表示视频查询信息的数量,RQ表示查询信息在统一特征空间的表征向量。
下面以属于财经大类的“沪指跌破熔断底2638点”为例,介绍本发明的实施过程:
(1)准备训练样本集。
采用爬虫从网络上抓取新闻素材,在同一个网页上出现的文本、图像和视频作为同一新闻事件的文本数据、图像数据和视频数据。分别从国际、社会、财经、军事、历史文化、科技、教育、体育、娱乐、健康10个大类下进行抓取,每个类别包含500组样本,共计5000组样本。每组样本包含同一新闻事件的文本、图像和视频各1个。将5000组样本按照预设比例划分为训练集和测试集,其中训练集4000个,测试集1000个。同时,为了对本发明的技术方案进行验证,这5000组样本中包含了1类查询样本,查询样本为属于财经大类的“沪指跌破熔断底2638点”新闻事件的样本10个。
(2)确定训练样本集的原始特征矩阵。
提取训练样本集中各样本数据的原始特征,其中文本数据提取其1000 维词袋(BoW)特征;采用牛津大学Visual Geometry Group提供的VGG-19 预训练模型提取图像数据的4096维VGG特征;对于视频数据,提取视频片段的关键帧后,同样采用牛津大学VisualGeometry Group提供的VGG-19预训练模型即可提取视频数据的4096维VGG特征。
提取每一样本的上述原始特征后,将各文本数据的词袋特征进行有序排列即可形成训练样本集的词袋特征矩阵,将各图像数据的VGG特征对应进行有序排列即可形成训练样本集的图像VGG特征矩阵,将各视频数据的 VGG特征对应进行有序排列即可形成训练样本集的视频VGG特征矩阵。训练样本集的原始特征矩阵X=(X1 X2 X3)。原始特征矩阵X中的X1、X2和X3依次对应文本、图像、视频三个模态,矩阵的每一行代表一个样本,每一列代表样本的一维原始特征。
(3)确定类别特征矩阵。
采用多分类逻辑回归方法对各文本模态提取的1000维BoW特征进行训练,公式如下:
其中Xi为1000维BoW特征,J为新闻事件的类型数量,这里为10,βj表示第j类新闻事件的加权向量,βk表示第k类新闻事件的加权向量,yi=j表示输入样本Xi属于第j类,j表示新闻事件的类别序号,取值范围为0到J,得到每组样本在10个类别上的概率分布向量后,将各概率分布向量对应进行有序排列即可形成训练样本集的类别特征矩阵X4。
(4)确定映射系数。
建立跨媒体统一表征模型,定义其目标损失函数为:其中i≠j。式中的第一项为不同模态数据之间的误差项,第二项为每个模态和类别之间的误差项,第二项的目的是使不同类别的新闻事件能够在统一特征空间中尽可能地聚集。
模型的优化求解在于求出一组系数W1、W2、W3和W4,使目标损失函数值最小。本实施例采用Tensorflow深度学习框架进行建模,采用反向传播算法和随机梯度下降算法进行映射系数的求解,其中λ取值为0.5
(5)映射处理
使用步骤(4)中计算得到的参数W1、W2和W3,对跨媒体资源数据库的原始特征矩阵进行映射处理,得到统一特征空间矩阵X′,矩阵的每一行为一个原始数据在统一特征空间的表征向量。
(6)获取查询信息的表征向量。
基于新闻事件的跨媒体资源检索支持多数量、多模态的查询输入信息,即可以同时输入多个任意文本、图像和视频。根据查询信息所属的模态提取对应的原始特征,即,提取各样本中文本信息的词袋特征、图像信息的VGG 特征和视频信息的关键帧的VGG特征,并根据其所属的模态选择相应映射系数进行映射后,根据公式:获得查询信息在统一特征空间的表征向量,I表示文本查询信息的数量,M表示图像查询信息的数量,N表示视频查询信息的数量,RQ表示查询信息在统一特征空间的表征向量。
(7)确定匹配资源
计算步骤(6)得到的表征向量与步骤(5)中得到的跨媒体资源数据库的统一特征空间矩阵中的每一个行向量的距离,然后对所有的距离进行排序,输出距离最小的指定数量的行向量对应的资源,即为目标新闻事件的匹配资源。
为了验证本发明的有益效果,对查询样本中每个新闻事件的查询都设计了两组查询信息,其中一组查询信息只包含1个文本,记为RQ-T;另一组查询信息同时包含1个文本和1个图像,记为RQ-TI。
图5为本发明实施例提供的检索结果对比图。图5为“沪指跌破熔断底 2638点”事件的检索结果。图5的(a1)-(a5)部分为只输入文本的检索结果,(b1)-(b6)部分为同时输入文本和图像作为查询信息的检索结果。可以发现,支持不同模态输入的新闻资源检索,与单一文本的查询项相比,能够更为全面地得到不同模态的检索结果,能够有效提高检索精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种跨媒体资源检索方法,其特征在于,所述检索方法包括:。
获取用户输入的查询信息,所述查询信息包括文本信息、图像信息和视频信息中至少一者;
对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量;
计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离;
将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源,N表示预设的匹配资源数量;
其中,所述跨媒体资源数据库的统一特征空间矩阵的确定方法包括:
获取训练样本集;所述训练样本集包括不同类型的新闻事件的多个样本,每一样本包括同一新闻事件的文本数据、图像数据和视频数据;
提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征,获得训练样本集的原始特征矩阵X,X=(X1 X2X3),X1表示训练样本集的词袋特征矩阵,X2表示训练样本集的图像VGG特征矩阵,X3表示训练样本集的视频VGG特征矩阵;
采用多分类逻辑回归方法对各样本的词袋特征进行分类训练,获得每一样本属于不同类型新闻事件的概率分布向量;
根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵;
构建目标优化函数:
其中,i≠j,W1表示词袋特征矩阵的映射系数,W2表示图像VGG特征矩阵的映射系数,W3表示视频VGG特征矩阵的映射系数,W4表示类别特征矩阵的映射系数,λ表示开销系数,X4表示类别特征矩阵,||·||F表示矩阵的Frobenius范数;
求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数;
对原始特征矩阵进行映射处理,获得统一特征空间矩阵X′,X′=(W1X1 W2X2 W3X3)。
2.根据权利要求1所述的检索方法,其特征在于,所述对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量,具体包括:
判断所述查询信息是否存在文本查询信息,获得第一判断结果;
若所述第一判断结果表示是,则提取各文本查询信息的词袋特征;
根据公式:Q1i=W1q1i,对各文本查询信息的词袋特征进行映射处理,获得统一词袋特征,其中,q1i表示第i个文本查询信息的词袋特征,i为自然数,Q1i表示q1i对应的统一词袋特征;
判断所述查询信息是否存在图像查询信息,获得第二判断结果;
若所述第二判断结果表示是,则提取各图像查询信息的VGG特征;
根据公式:Q2m=W2q2m,对各图像查询信息的VGG特征进行映射处理,获得统一图像VGG特征,其中,q2m表示第m个图像查询信息的VGG特征,m为自然数,Q2m表示q2m对应的统一图像VGG特征;
判断所述查询信息是否存在视频查询信息,获得第三判断结果;
若所述第三判断结果表示是,则提取各视频查询信息的VGG特征;
根据公式:Q3n=W3q3n,对各视频查询信息的VGG特征进行映射处理,获得统一视频VGG特征,其中,q3n表示第n个视频查询信息的VGG特征,n为自然数,Q3n表示q3n对应的统一视频VGG特征;
根据公式:获得所述查询信息在统一特征空间的表征向量,I表示文本查询信息的数量,M表示图像查询信息的数量,N表示视频查询信息的数量,RQ表示查询信息在统一特征空间的表征向量。
3.根据权利要求1所述的检索方法,其特征在于,所述优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数,具体包括:
采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。
4.根据权利要求1所述的检索方法,其特征在于,文本数据的词袋特征为1000维词袋特征,图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。
5.一种跨媒体资源检索系统,其特征在于,所述检索系统包括:
查询信息获取模块,用于获取用户输入的查询信息,所述查询信息包括文本信息、图像信息和视频信息中至少一者;
归一化映射模块,用于对所述查询信息进行归一化映射处理,获得所述查询信息在统一特征空间的表征向量;
距离计算模块,用于计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离;
资源匹配模块,用于将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源,N表示预设的匹配资源数量;
其中,所述跨媒体资源数据库的统一特征空间矩阵的确定子系统包括:
样本集获取模块,用于获取训练样本集;所述训练样本集包括不同类型的新闻事件的多个样本,每一样本包括同一新闻事件的文本数据、图像数据和视频数据;
数据特征提取模块,用于提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征,获得训练样本集的原始特征矩阵X,X=(X1 X2 X3),X1表示训练样本集的词袋特征矩阵,X2表示训练样本集的图像VGG特征矩阵,X3表示训练样本集的视频VGG特征矩阵;
分类训练模块,用于采用多分类逻辑回归方法对各样本的词袋特征进行分类训练,获得每一样本属于不同类型新闻事件的概率分布向量;
类别特征矩阵确定模块,用于根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵;
优化函数构建模块,用于构建目标优化函数:
其中,i≠j,W1表示词袋特征矩阵的映射系数,W2表示图像VGG特征矩阵的映射系数,W3表示视频VGG特征矩阵的映射系数,W4表示类别特征矩阵的映射系数,λ表示开销系数,X4表示类别特征矩阵,||·||F表示矩阵的Frobenius范数;
优化求解模块,用于求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数;
映射处理模块,用于对原始特征矩阵进行映射处理,获得统一特征空间矩阵X′,X′=(W1X1 W2X2 W3X3)。
6.根据权利要求5所述的检索系统,其特征在于,所述归一化映射模块包括:
第一判断单元,用于判断所述查询信息是否存在文本查询信息,获得第一判断结果;
词袋特征提取单元,用于若所述第一判断结果表示是,则提取各文本查询信息的词袋特征;
词袋特征映射单元,用于根据公式:Q1i=W1q1i,对各文本查询信息的词袋特征进行映射处理,获得统一词袋特征,其中,q1i表示第i个文本查询信息的词袋特征,i为自然数,Q1i表示q1i对应的统一词袋特征;
第二判断单元,用于判断所述查询信息是否存在图像查询信息,获得第二判断结果;
图像特征提取单元,用于若所述第二判断结果表示是,则提取各图像查询信息的VGG特征;
图像特征映射单元,用于根据公式:Q2m=W2q2m,对各图像查询信息的VGG特征进行映射处理,获得统一图像VGG特征,其中,q2m表示第m个图像查询信息的VGG特征,m为自然数,Q2m表示q2m对应的统一图像VGG特征;
第三判断单元,用于判断所述查询信息是否存在视频查询信息,获得第三判断结果;
视频特征提取单元,用于若所述第三判断结果表示是,则提取各视频查询信息的VGG特征;
视频特征映射单元,用于根据公式:Q3n=W3q3n,对各视频查询信息的VGG特征进行映射处理,获得统一视频VGG特征,其中,q3n表示第n个视频查询信息的VGG特征,n为自然数,Q3n表示q3n对应的统一视频VGG特征;
表征向量确定单元,用于根据公式:
获得所述查询信息在统一特征空间的表征向量,I表示文本查询信息的数量,M表示图像查询信息的数量,N表示视频查询信息的数量,RQ表示查询信息在统一特征空间的表征向量。
7.根据权利要求5所述的检索系统,其特征在于,所述优化求解模块采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数,获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。
8.根据权利要求5所述的检索系统,其特征在于,文本数据的词袋特征为1000维词袋特征,图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910255866.XA CN109992676B (zh) | 2019-04-01 | 2019-04-01 | 一种跨媒体资源检索方法及检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910255866.XA CN109992676B (zh) | 2019-04-01 | 2019-04-01 | 一种跨媒体资源检索方法及检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992676A true CN109992676A (zh) | 2019-07-09 |
CN109992676B CN109992676B (zh) | 2020-12-25 |
Family
ID=67131827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910255866.XA Active CN109992676B (zh) | 2019-04-01 | 2019-04-01 | 一种跨媒体资源检索方法及检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992676B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309969A (zh) * | 2020-01-16 | 2020-06-19 | 湘潭大学 | 一种匹配文字信息的视频检索方法 |
CN112182292A (zh) * | 2020-09-30 | 2021-01-05 | 百度(中国)有限公司 | 视频检索模型的训练方法、装置、电子设备及存储介质 |
CN112883218A (zh) * | 2019-11-29 | 2021-06-01 | 智慧芽信息科技(苏州)有限公司 | 一种图文联合表征的搜索方法、系统、服务器和存储介质 |
CN112883186A (zh) * | 2019-11-29 | 2021-06-01 | 智慧芽信息科技(苏州)有限公司 | 一种信息地图的生成方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
US20100082615A1 (en) * | 2008-09-19 | 2010-04-01 | Xerox Corporation | Cross-media similarity measures through trans-media pseudo-relevance feedback and document reranking |
CN103049526A (zh) * | 2012-12-20 | 2013-04-17 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
CN103399870A (zh) * | 2013-07-08 | 2013-11-20 | 华中科技大学 | 一种基于分类驱动的可视化词袋特征权重化方法和系统 |
CN103995903A (zh) * | 2014-06-12 | 2014-08-20 | 武汉科技大学 | 基于同构子空间映射和优化的跨媒体检索方法 |
CN104166684A (zh) * | 2014-07-24 | 2014-11-26 | 北京大学 | 一种基于统一稀疏表示的跨媒体检索方法 |
CN105701225A (zh) * | 2016-01-15 | 2016-06-22 | 北京大学 | 一种基于统一关联超图规约的跨媒体检索方法 |
-
2019
- 2019-04-01 CN CN201910255866.XA patent/CN109992676B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
US20100082615A1 (en) * | 2008-09-19 | 2010-04-01 | Xerox Corporation | Cross-media similarity measures through trans-media pseudo-relevance feedback and document reranking |
CN103049526A (zh) * | 2012-12-20 | 2013-04-17 | 中国科学院自动化研究所 | 基于双空间学习的跨媒体检索方法 |
CN103399870A (zh) * | 2013-07-08 | 2013-11-20 | 华中科技大学 | 一种基于分类驱动的可视化词袋特征权重化方法和系统 |
CN103995903A (zh) * | 2014-06-12 | 2014-08-20 | 武汉科技大学 | 基于同构子空间映射和优化的跨媒体检索方法 |
CN104166684A (zh) * | 2014-07-24 | 2014-11-26 | 北京大学 | 一种基于统一稀疏表示的跨媒体检索方法 |
CN105701225A (zh) * | 2016-01-15 | 2016-06-22 | 北京大学 | 一种基于统一关联超图规约的跨媒体检索方法 |
Non-Patent Citations (3)
Title |
---|
MENGDI FAN 等: "Coupled feature mapping and correlation mining for cross-media retrieval", 《2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO WORKSHOPS (ICMEW)》 * |
YUNCHAO WEI 等: "Modality-Dependent Cross-Media Retrieval", 《ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY》 * |
王述: "基于相关性分析的跨媒体检索", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883218A (zh) * | 2019-11-29 | 2021-06-01 | 智慧芽信息科技(苏州)有限公司 | 一种图文联合表征的搜索方法、系统、服务器和存储介质 |
CN112883186A (zh) * | 2019-11-29 | 2021-06-01 | 智慧芽信息科技(苏州)有限公司 | 一种信息地图的生成方法、系统、设备及存储介质 |
WO2021104274A1 (zh) * | 2019-11-29 | 2021-06-03 | 智慧芽信息科技(苏州)有限公司 | 图文联合表征的搜索方法、系统、服务器和存储介质 |
CN112883186B (zh) * | 2019-11-29 | 2024-04-12 | 智慧芽信息科技(苏州)有限公司 | 一种信息地图的生成方法、系统、设备及存储介质 |
CN111309969A (zh) * | 2020-01-16 | 2020-06-19 | 湘潭大学 | 一种匹配文字信息的视频检索方法 |
CN112182292A (zh) * | 2020-09-30 | 2021-01-05 | 百度(中国)有限公司 | 视频检索模型的训练方法、装置、电子设备及存储介质 |
CN112182292B (zh) * | 2020-09-30 | 2024-02-09 | 百度(中国)有限公司 | 视频检索模型的训练方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109992676B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106611052B (zh) | 文本标签的确定方法及装置 | |
CN109992676A (zh) | 一种跨媒体资源检索方法及检索系统 | |
CN110427563B (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN109933660B (zh) | 面向自然语言形式基于讲义和网站的api信息检索方法 | |
CN106815194A (zh) | 模型训练方法及装置和关键词识别方法及装置 | |
CN110134800A (zh) | 一种文档关系可视化处理方法及装置 | |
CN106951498A (zh) | 文本聚类方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
CN109918561A (zh) | 一种图书馆(学习空间)的学习推荐方法 | |
CN107330009B (zh) | 主题词分类模型创建方法、创建装置及存储介质 | |
CN113742488B (zh) | 基于多任务学习的嵌入式知识图谱补全方法和装置 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN105975639A (zh) | 搜索结果排序方法和装置 | |
CN109359198A (zh) | 一种文本分类方法及装置 | |
CN106951420A (zh) | 文献搜索方法及设备、作者搜索方法及设备 | |
CN109582783A (zh) | 热点话题检测方法及装置 | |
Qi et al. | Clustering-based curriculum construction for sample-balanced federated learning | |
CN105740879B (zh) | 基于多模态判别分析的零样本图像分类方法 | |
CN107480627A (zh) | 行为识别方法、装置、存储介质和处理器 | |
CN106971004A (zh) | 搜索结果提供方法及装置 | |
CN109960730A (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
CN107506370A (zh) | 多媒体数据深度挖掘方法、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |