CN109992676A

CN109992676A - 一种跨媒体资源检索方法及检索系统

Info

Publication number: CN109992676A
Application number: CN201910255866.XA
Authority: CN
Inventors: 王非非; 王剑; 杜伟韬; 余心乐; 杨占昕
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-07-09
Anticipated expiration: 2039-04-01
Also published as: CN109992676B

Abstract

本发明公开一种跨媒体资源检索方法及检索系统。本发明提供的跨媒体资源数据库包括文本数据、图像数据和视频数据，提取媒体资源数据库中各文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征后，形成训练样本集的原始特征矩阵，然后构建并求解目标优化函数，获得将文本数据、图像数据和视频数据这三种模态资源进行统一映射处理的映射系数，使得不同模态的资源可以在统一特征空间中进行比较。本发明提供的跨媒体资源检索方法及检索系统，是一种支持多模态输入的资源检索方式，多模态输入有利于从不同角度全面描述待检索的新闻事件，从而根据查询信息灵活匹配资源，有效提高新闻事件相关媒体资源的检索精度。

Description

一种跨媒体资源检索方法及检索系统

技术领域

本发明涉及资源检索领域，特别是涉及一种跨媒体资源检索方法及检索系统。

背景技术

跨媒体的核心思想是模糊媒体资源模态，以更贴近人类思维的高层概念解释目标对象，使不同模态的资源从各自的侧面表达相同的高层概念，从而更加全面地反映特定的内容信息。跨媒体的重点并不在于使用多少种媒体，而是要充分发掘和利用媒体之间潜在的关系，以及它们各自对于表达目标概念做出的贡献。

然而，现有的新闻资源检索大多仍然依赖于编目信息，采用关键字匹配的方法进行资源检索，这种检索方法一方面需要依赖大量的人力对每一个资源进行复杂的信息标注，另一方面也不可避免地会引入标注者对于资源的主观理解。此外，对于新闻事件相关资源的检索，现有方法采用先提取事件相关的文本信息，然后作为检索输入，即输入只包含文本一种模态特征，这显然不利于对新闻事件的全面描述，会极大地影响新闻事件的检索精度。

发明内容

本发明的目的是提供一种跨媒体资源检索方法及检索系统，支持多模态输入查询信息，多模态输入有利于从不同角度全面描述待检索的新闻事件，从而根据查询信息灵活匹配资源，有效提高新闻事件的检索精度。

为实现上述目的，本发明提供了如下方案：

一种跨媒体资源检索方法，所述检索方法包括：。

获取用户输入的查询信息，所述查询信息包括文本信息、图像信息和视频信息中至少一者；

对所述查询信息进行归一化映射处理，获得所述查询信息在统一特征空间的表征向量；

计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离；

将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源， N表示预设的匹配资源数量；

其中，所述跨媒体资源数据库的统一特征空间矩阵的确定方法包括：

获取训练样本集；所述训练样本集包括不同类型的新闻事件的多个样本，每一样本包括同一新闻事件的文本数据、图像数据和视频数据；

提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征，获得训练样本集的原始特征矩阵X，X＝(X₁ X₂ X₃)，X₁表示训练样本集的词袋特征矩阵，X₂表示训练样本集的图像VGG 特征矩阵，X₃表示训练样本集的视频VGG特征矩阵；

采用多分类逻辑回归方法对各样本的词袋特征进行分类训练，获得每一样本属于不同类型新闻事件的概率分布向量；

根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵；

构建目标优化函数：

其中，W₁表示词袋特征矩阵的映射系数，W₂表示图像VGG特征矩阵的映射系数，W₃表示视频VGG特征矩阵的映射系数，W₄表示类别特征矩阵的映射系数，λ表示开销系数，X₄表示类别特征矩阵，||·||_F表示矩阵的Frobenius范数；

优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG 特征矩阵的映射系数和视频VGG特征矩阵的映射系数；

对原始特征矩阵进行映射处理，获得统一特征空间矩阵X′， X′＝(W₁X₁ W₂X₂W₃X₃)。

可选的，所述对所述查询信息进行归一化映射处理，获得所述查询信息在统一特征空间的表征向量，具体包括：

判断所述查询信息是否存在文本查询信息，获得第一判断结果；

若所述第一判断结果表示是，则提取各文本查询信息的词袋特征；

根据公式：Q_1i＝W₁q_1i，对各文本查询信息的词袋特征进行映射处理，获得统一词袋特征，其中，q_1i表示第i个文本查询信息的词袋特征，i为自然数，Q_1i表示q_1i对应的统一词袋特征；

判断所述查询信息是否存在图像查询信息，获得第二判断结果；

若所述第二判断结果表示是，则提取各图像查询信息的VGG特征；

根据公式：Q_2m＝W₂q_2m，对各图像查询信息的VGG特征进行映射处理，获得统一图像VGG特征，其中，q_2m表示第m个图像查询信息的VGG特征， m为自然数，Q_2m表示q_2m对应的统一图像VGG特征；

判断所述查询信息是否存在视频查询信息，获得第三判断结果；

若所述第三判断结果表示是，则提取各视频查询信息的VGG特征；

根据公式：Q_3n＝W₃q_3n，对各视频查询信息的VGG特征进行映射处理，获得统一视频VGG特征，其中，q_3n表示第n个视频查询信息的VGG特征， n为自然数，Q_3n表示q_3n对应的统一视频VGG特征；

根据公式：获得所述查询信息在统一特征空间的表征向量，I表示文本查询信息的数量，M表示图像查询信息的数量，N表示视频查询信息的数量，R_Q表示查询信息在统一特征空间的表征向量。

可选的，所述优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数，具体包括：

采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG 特征矩阵的映射系数。

可选的，文本数据的词袋特征为1000维词袋特征，图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。

一种跨媒体资源检索系统，所述检索系统包括：

查询信息获取模块，用于获取用户输入的查询信息，所述查询信息包括文本信息、图像信息和视频信息中至少一者；

归一化映射模块，用于对所述查询信息进行归一化映射处理，获得所述查询信息在统一特征空间的表征向量；

距离计算模块，用于计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离；

资源匹配模块，用于将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源，N表示预设的匹配资源数量；

其中，所述跨媒体资源数据库的统一特征空间矩阵的确定子系统包括：

样本集获取模块，用于获取训练样本集；所述训练样本集包括不同类型的新闻事件的多个样本，每一样本包括同一新闻事件的文本数据、图像数据和视频数据；

数据特征提取模块，用于提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征，获得训练样本集的原始特征矩阵X，X＝(X₁ X₂ X₃)，X₁表示训练样本集的词袋特征矩阵，X₂表示训练样本集的图像VGG特征矩阵，X₃表示训练样本集的视频VGG特征矩阵；

分类训练模块，用于采用多分类逻辑回归方法对各样本的词袋特征进行分类训练，获得每一样本属于不同类型新闻事件的概率分布向量；

类别特征矩阵确定模块，用于根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵；

优化函数构建模块，用于构建目标优化函数：

优化求解模块，用于优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数；

映射处理模块，用于对原始特征矩阵进行映射处理，获得统一特征空间矩阵X′，X′＝(W₁X₁ W₂X₂ W₃X₃)。

可选的，所述归一化映射模块包括：

第一判断单元，用于判断所述查询信息是否存在文本查询信息，获得第一判断结果；

词袋特征提取单元，用于若所述第一判断结果表示是，则提取各文本查询信息的词袋特征；

词袋特征映射单元，用于根据公式：Q_1i＝W₁q_1i，对各文本查询信息的词袋特征进行映射处理，获得统一词袋特征，其中，q_1i表示第i个文本查询信息的词袋特征，i为自然数，Q_1i表示q_1i对应的统一词袋特征；

第二判断单元，用于判断所述查询信息是否存在图像查询信息，获得第二判断结果；

图像特征提取单元，用于若所述第二判断结果表示是，则提取各图像查询信息的VGG特征；

图像特征映射单元，用于根据公式：Q_2m＝W₂q_2m，对各图像查询信息的 VGG特征进行映射处理，获得统一图像VGG特征，其中，q_2m表示第m个图像查询信息的VGG特征，m为自然数，Q_2m表示q_2m对应的统一图像VGG 特征；

第三判断单元，用于判断所述查询信息是否存在视频查询信息，获得第三判断结果；

视频特征提取单元，用于若所述第三判断结果表示是，则提取各视频查询信息的VGG特征；

视频特征映射单元，用于根据公式：Q_3n＝W₃q_3n，对各视频查询信息的 VGG特征进行映射处理，获得统一视频VGG特征，其中，q_3n表示第n个视频查询信息的VGG特征，n为自然数，Q_3n表示q_3n对应的统一视频VGG 特征；

表征向量确定单元，用于根据公式：

获得所述查询信息在统一特征空间的表征向量，I表示文本查询信息的数量，M表示图像查询信息的数量， N表示视频查询信息的数量，R_Q表示查询信息在统一特征空间的表征向量。

可选的，所述优化求解模块采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的跨媒体资源检索方法及检索系统，跨媒体资源数据库包括文本数据、图像数据和视频数据，提取媒体资源数据库中各样本的文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征后，形成训练样本集的原始特征矩阵，然后构建并求解目标优化函数，获得将文本数据、图像数据和视频数据这三种模态资源进行统一映射处理的映射系数，使得不同模态的资源可以在统一特征空间中进行比较。本发明提供的跨媒体资源检索方法及检索系统，是一种支持多模态输入的资源检索方式，多模态输入有利于从不同角度全面描述待检索的新闻事件，从而根据查询信息灵活匹配资源，有效提高新闻事件的检索精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种跨媒体资源检索方法的流程图；

图2为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定方法的流程图；

图3为本发明实施例提供的一种跨媒体资源检索系统的结构框图；

图4为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定系统的结构框图；

图5为本发明实施例提供的检索结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例提供的一种跨媒体资源检索方法的流程图。如图1 所示，一种跨媒体资源检索方法，所述检索方法包括：。

步骤101：获取用户输入的查询信息，所述查询信息包括文本信息、图像信息和视频信息中至少一者。

步骤102：对所述查询信息进行归一化映射处理，获得所述查询信息在统一特征空间的表征向量。

步骤103：计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离。

步骤104：将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源，N表示预设的匹配资源数量。

图2为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定方法的流程图。如图2所示，所述跨媒体资源数据库的统一特征空间矩阵的确定方法包括：

步骤201：获取训练样本集；所述训练样本集包括不同类型的新闻事件的多个样本，每一样本包括同一新闻事件的文本数据、图像数据和视频数据。

步骤202：提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征，获得训练样本集的原始特征矩阵X，X＝ (X₁ X₂ X₃)，X₁表示训练样本集的词袋特征矩阵，X₂表示训练样本集的图像VGG特征矩阵，X₃表示训练样本集的视频VGG特征矩阵。本实施例中，文本数据的词袋特征为1000维词袋特征，图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。

步骤203：采用多分类逻辑回归方法对各样本的词袋特征进行分类训练，获得每一样本属于不同类型新闻事件的概率分布向量。

步骤204：根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵。

步骤205：构建目标优化函数：

其中，W₁表示词袋特征矩阵的映射系数，W₂表示图像VGG特征矩阵的映射系数，W₃表示视频VGG特征矩阵的映射系数，W₄表示类别特征矩阵的映射系数，λ表示开销系数，X₄表示类别特征矩阵，||·||_F表示矩阵的Frobenius范数。

步骤206：优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。本实施例中，采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG 特征矩阵的映射系数。

步骤207：对原始特征矩阵进行映射处理，获得统一特征空间矩阵X′， X′＝(W₁X₁W₂X₂ W₃X₃)，i＝1,2,3。

具体地，所述步骤102：对所述查询信息进行归一化映射处理，获得所述查询信息在统一特征空间的表征向量，具体包括：

图3为本发明实施例提供的一种跨媒体资源检索系统的结构框图。如图 3所示，一种跨媒体资源检索系统，所述检索系统包括：

查询信息获取模块301，用于获取用户输入的查询信息，所述查询信息包括文本信息、图像信息和视频信息中至少一者。

归一化映射模块302，用于对所述查询信息进行归一化映射处理，获得所述查询信息在统一特征空间的表征向量。

距离计算模块303，用于计算所述表征向量与跨媒体资源数据库的统一特征空间矩阵的各行向量的距离。

资源匹配模块304，用于将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源，N表示预设的匹配资源数量。

图4为本发明实施例提供的跨媒体资源数据库统一特征空间矩阵的确定系统的结构框图。如图4所示，所述跨媒体资源数据库的统一特征空间矩阵的确定子系统包括：

样本集获取模块401，用于获取训练样本集；所述训练样本集包括不同类型的新闻事件的多个样本，每一样本包括同一新闻事件的文本数据、图像数据和视频数据。

数据特征提取模块402，用于提取各样本中文本数据的1000维词袋特征、图像数据的4096维VGG特征和视频数据的关键帧的4096维VGG特征，获得训练样本集的原始特征矩阵X，X＝(X₁ X₂ X₃)，X₁表示训练样本集的词袋特征矩阵，X₂表示训练样本集的图像VGG特征矩阵，X₃表示训练样本集的视频VGG特征矩阵。

分类训练模块403，用于采用多分类逻辑回归方法对各样本的词袋特征进行分类训练，获得每一样本属于不同类型新闻事件的概率分布向量。

类别特征矩阵确定模块404，用于根据各样本的所述概率分布向量确定训练样本集的类别特征矩阵。

优化函数构建模块405，用于构建目标优化函数：

优化求解模块406，用于优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。本实施例中，所述优化求解模块406采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像 VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。

映射处理模块407，用于对原始特征矩阵进行映射处理，获得统一特征空间矩阵X′，X′＝(W₁X₁ W₂X₂ W₃X₃)，i＝1,2,3。

具体地，所述归一化映射模块302包括：

表征向量确定单元，用于根据公式：

下面以属于财经大类的“沪指跌破熔断底2638点”为例，介绍本发明的实施过程：

(1)准备训练样本集。

采用爬虫从网络上抓取新闻素材，在同一个网页上出现的文本、图像和视频作为同一新闻事件的文本数据、图像数据和视频数据。分别从国际、社会、财经、军事、历史文化、科技、教育、体育、娱乐、健康10个大类下进行抓取，每个类别包含500组样本，共计5000组样本。每组样本包含同一新闻事件的文本、图像和视频各1个。将5000组样本按照预设比例划分为训练集和测试集，其中训练集4000个，测试集1000个。同时，为了对本发明的技术方案进行验证，这5000组样本中包含了1类查询样本，查询样本为属于财经大类的“沪指跌破熔断底2638点”新闻事件的样本10个。

(2)确定训练样本集的原始特征矩阵。

提取训练样本集中各样本数据的原始特征，其中文本数据提取其1000 维词袋(BoW)特征；采用牛津大学Visual Geometry Group提供的VGG-19 预训练模型提取图像数据的4096维VGG特征；对于视频数据，提取视频片段的关键帧后，同样采用牛津大学VisualGeometry Group提供的VGG-19预训练模型即可提取视频数据的4096维VGG特征。

提取每一样本的上述原始特征后，将各文本数据的词袋特征进行有序排列即可形成训练样本集的词袋特征矩阵，将各图像数据的VGG特征对应进行有序排列即可形成训练样本集的图像VGG特征矩阵，将各视频数据的 VGG特征对应进行有序排列即可形成训练样本集的视频VGG特征矩阵。训练样本集的原始特征矩阵X＝(X₁ X₂ X₃)。原始特征矩阵X中的X₁、X₂和X₃依次对应文本、图像、视频三个模态，矩阵的每一行代表一个样本，每一列代表样本的一维原始特征。

(3)确定类别特征矩阵。

采用多分类逻辑回归方法对各文本模态提取的1000维BoW特征进行训练，公式如下：

其中X_i为1000维BoW特征，J为新闻事件的类型数量，这里为10，β_j表示第j类新闻事件的加权向量，β_k表示第k类新闻事件的加权向量，y_i＝j表示输入样本X_i属于第j类，j表示新闻事件的类别序号，取值范围为0到J，得到每组样本在10个类别上的概率分布向量后，将各概率分布向量对应进行有序排列即可形成训练样本集的类别特征矩阵X₄。

(4)确定映射系数。

建立跨媒体统一表征模型，定义其目标损失函数为：其中i≠j。式中的第一项为不同模态数据之间的误差项，第二项为每个模态和类别之间的误差项，第二项的目的是使不同类别的新闻事件能够在统一特征空间中尽可能地聚集。

模型的优化求解在于求出一组系数W₁、W₂、W₃和W₄，使目标损失函数值最小。本实施例采用Tensorflow深度学习框架进行建模，采用反向传播算法和随机梯度下降算法进行映射系数的求解，其中λ取值为0.5

(5)映射处理

使用步骤(4)中计算得到的参数W₁、W₂和W₃，对跨媒体资源数据库的原始特征矩阵进行映射处理，得到统一特征空间矩阵X′，矩阵的每一行为一个原始数据在统一特征空间的表征向量。

(6)获取查询信息的表征向量。

基于新闻事件的跨媒体资源检索支持多数量、多模态的查询输入信息，即可以同时输入多个任意文本、图像和视频。根据查询信息所属的模态提取对应的原始特征，即，提取各样本中文本信息的词袋特征、图像信息的VGG 特征和视频信息的关键帧的VGG特征，并根据其所属的模态选择相应映射系数进行映射后，根据公式：获得查询信息在统一特征空间的表征向量，I表示文本查询信息的数量，M表示图像查询信息的数量，N表示视频查询信息的数量，R_Q表示查询信息在统一特征空间的表征向量。

(7)确定匹配资源

计算步骤(6)得到的表征向量与步骤(5)中得到的跨媒体资源数据库的统一特征空间矩阵中的每一个行向量的距离，然后对所有的距离进行排序，输出距离最小的指定数量的行向量对应的资源，即为目标新闻事件的匹配资源。

为了验证本发明的有益效果，对查询样本中每个新闻事件的查询都设计了两组查询信息，其中一组查询信息只包含1个文本，记为RQ-T；另一组查询信息同时包含1个文本和1个图像，记为RQ-TI。

图5为本发明实施例提供的检索结果对比图。图5为“沪指跌破熔断底 2638点”事件的检索结果。图5的(a1)-(a5)部分为只输入文本的检索结果，(b1)-(b6)部分为同时输入文本和图像作为查询信息的检索结果。可以发现，支持不同模态输入的新闻资源检索，与单一文本的查询项相比，能够更为全面地得到不同模态的检索结果，能够有效提高检索精度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种跨媒体资源检索方法，其特征在于，所述检索方法包括：。

将距离最小的N个行向量对应的资源确定为所述查询信息的匹配资源，N表示预设的匹配资源数量；

提取各样本中文本数据的词袋特征、图像数据的VGG特征和视频数据的关键帧的VGG特征，获得训练样本集的原始特征矩阵X，X＝(X₁ X₂X₃)，X₁表示训练样本集的词袋特征矩阵，X₂表示训练样本集的图像VGG特征矩阵，X₃表示训练样本集的视频VGG特征矩阵；

构建目标优化函数：

其中，i≠j，W₁表示词袋特征矩阵的映射系数，W₂表示图像VGG特征矩阵的映射系数，W₃表示视频VGG特征矩阵的映射系数，W₄表示类别特征矩阵的映射系数，λ表示开销系数，X₄表示类别特征矩阵，||·||_F表示矩阵的Frobenius范数；

求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数；

对原始特征矩阵进行映射处理，获得统一特征空间矩阵X′，X′＝(W₁X₁ W₂X₂ W₃X₃)。

2.根据权利要求1所述的检索方法，其特征在于，所述对所述查询信息进行归一化映射处理，获得所述查询信息在统一特征空间的表征向量，具体包括：

根据公式：Q_2m＝W₂q_2m，对各图像查询信息的VGG特征进行映射处理，获得统一图像VGG特征，其中，q_2m表示第m个图像查询信息的VGG特征，m为自然数，Q_2m表示q_2m对应的统一图像VGG特征；

根据公式：Q_3n＝W₃q_3n，对各视频查询信息的VGG特征进行映射处理，获得统一视频VGG特征，其中，q_3n表示第n个视频查询信息的VGG特征，n为自然数，Q_3n表示q_3n对应的统一视频VGG特征；

3.根据权利要求1所述的检索方法，其特征在于，所述优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数，具体包括：

采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。

4.根据权利要求1所述的检索方法，其特征在于，文本数据的词袋特征为1000维词袋特征，图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。

5.一种跨媒体资源检索系统，其特征在于，所述检索系统包括：

优化函数构建模块，用于构建目标优化函数：

优化求解模块，用于求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数；

6.根据权利要求5所述的检索系统，其特征在于，所述归一化映射模块包括：

图像特征映射单元，用于根据公式：Q_2m＝W₂q_2m，对各图像查询信息的VGG特征进行映射处理，获得统一图像VGG特征，其中，q_2m表示第m个图像查询信息的VGG特征，m为自然数，Q_2m表示q_2m对应的统一图像VGG特征；

视频特征映射单元，用于根据公式：Q_3n＝W₃q_3n，对各视频查询信息的VGG特征进行映射处理，获得统一视频VGG特征，其中，q_3n表示第n个视频查询信息的VGG特征，n为自然数，Q_3n表示q_3n对应的统一视频VGG特征；

表征向量确定单元，用于根据公式：

获得所述查询信息在统一特征空间的表征向量，I表示文本查询信息的数量，M表示图像查询信息的数量，N表示视频查询信息的数量，R_Q表示查询信息在统一特征空间的表征向量。

7.根据权利要求5所述的检索系统，其特征在于，所述优化求解模块采用反向传播算法和随机梯度下降算法优化求解所述目标优化函数，获得词袋特征矩阵的映射系数、图像VGG特征矩阵的映射系数和视频VGG特征矩阵的映射系数。

8.根据权利要求5所述的检索系统，其特征在于，文本数据的词袋特征为1000维词袋特征，图像数据的VGG特征和视频数据的VGG特征均为4096维VGG特征。