CN113111161A

CN113111161A - 一种跨媒体关联分析方法

Info

Publication number: CN113111161A
Application number: CN202110384399.8A
Authority: CN
Inventors: 刘忠宝; 赵文娟; 荀恩东
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-07-13
Anticipated expiration: 2041-04-09
Also published as: CN113111161B

Abstract

一种跨媒体关联分析方法，属于数据处理领域，首先对媒体数据进行向量化处理，媒体数据包括文本、图像、视频和音频数据；其次将处理后的媒体数据进行训练；再次利用BiLSTM模型挖掘训练后的媒体数据上下文信息，得到媒体数据的特征向量；然后将所有特征向量映射到同一语义空间中，最后对语义特征和分布特征进行优化来对媒体数据进行关联分析，本方法对媒体数据的特征向量进行语义特征优化，即对语义内容的特征提取与向量化表示进行优化，来考虑媒体数据之间的共存性和互补性，加快关联分析的效率；同时对媒体数据的特征向量进行分布特征优化，即对各种媒体数据在同一语义空间中的位置关系及其分布态势进行调整，来增加关联分析结果的准确性。

Description

一种跨媒体关联分析方法

技术领域

本发明涉及一种跨媒体关联分析方法，属于数据处理领域。

背景技术

文本、图像、视频和音频数据统称为媒体数据，这些数据来源广泛、结构各异，导致语义鸿沟问题的出现，这严重地制约了媒体数据语义一致性的学习和表示。

目前，现有方法大多针对文本和图像两种媒体数据展开研究。尽管可以通过“两两组合”的方式将面向两种媒体数据的跨媒体关联分析研究扩展到多种媒体数据，但这种做法忽略了各种媒体数据之间的共存性和互补性，导致现有方法获得的语义信息不够完备，这直接影响了跨媒体关联分析的效率。此外，现有方法往往通过最大化成对各种媒体数据之间的关联关系建立优化问题，这种做法并未考虑各种媒体数据的上下文信息，这些媒体数据的统一表征缺乏丰富语义信息的支持。

发明内容

为解决上述现有技术中存在的技术问题，本发明提供了一种跨媒体关联分析方法，本方法利用BiLSTM模型挖掘训练后的媒体数据上下文信息，因此得到的特征向量包含丰富的语义支持，并且对语义内容的特征提取与向量化表示进行优化，同时还对各种媒体数据在同一语义空间中的位置关系及其分布态势进行调整，来对媒体数据进行关联分析。

实现本发明目的的技术方案为，一种跨媒体关联分析方法，至少包括如下步骤：

(1)对媒体数据进行向量化处理，媒体数据包括文本、图像、视频和音频数据；

(2)将处理后的媒体数据进行训练；

(3)利用BiLSTM模型挖掘训练后的媒体数据上下文信息，得到媒体数据的特征向量；

(4)将所有特征向量映射到同一语义空间中，并对语义特征和分布特征进行优化；

(4.1)对媒体数据的类别信息进行向量化表示，得到类别语义向量；根据类别语义向量对对应的媒体数据的特征向量优化，即改变媒体数据的特征向量h_i使语义特征矩阵L_s最大，语义特征矩阵L_s通过如下公式获得：

式中，hi为媒体数据的特征向量，i＝1、2、3、4，f_i为类别语义向量，f_j为与f_i不同类别的类别语义向量，j＝1、2、3、4，sim(h_i,f_i)为媒体数据的特征向量与其对应的类别语义向量之间的相似度，sim(h_i,f_j)为媒体数据的特征向量与其不同类别语义向量之间的相似度；

(4.2)对媒体数据的特征向量进行分布优化，即改变媒体数据的特征向量h_i使分布特征矩阵L_D最大，分布特征矩阵L_D通过如下公式获得：

L_D＝L_DC-L_SC

式中，h_i为媒体数据的特征向量，i＝1、2、3、4，h_j为与h_i不同类别的特征向量，j＝1、2、3、4，E(h_i)为h_i的中心，E(h_j)为h_j的中心，L_SC为每种媒体数据的特征向量与中心之间的距离，L_DC为不同媒体数据特征向量中心之间的距离，L_D为分布特征矩阵；

(4.3)调整语义特征矩阵L_S和分布特征矩阵L_D的重要性，即计算出平衡因子α，使媒体数据的一致性函数L最大，得到调整后的语义特征矩阵αL_S和调整后的分布特征矩阵(1-α)L_D，具体公式如下：

L＝αL_S+(1-α)L_D

式中：α为平衡因子，α＝0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9，L为媒体数据的一致性函数；

(4.4)通过上述调整后的语义特征矩阵αL_S和调整后的分布特征矩阵(1-α)L_D完成媒体数据的关联分析。

对上述技术方案的进一步改进为：所述媒体数据进向量化处理的方法具体为：将图像数据的尺寸裁剪为224×224×3，裁剪后的图像数据为向量表示的图像数据；

将文本数据利用jieba分词工具进行分词处理，再将处理后的文本数据引入Word2vec模型得到向量表示的文本数据；

在音频数据中选用帧长为256个采样点，帧移为128个采样点，并根据采样点将音频数据切割成片段得到向量表示的音频数据；

提取视频数据每个视频帧得到向量表示的视频数据。

且所述训练方法具体为：将向量表示的图像数据输入ResNet模型进行训练得到512维的图像特征；

将向量表示的文本数据输入DCNN模型进行训练得到得到256维的文本特征；

将向量表示的音频数据输入1-D CNN模型进行训练得到128维的音频特征；

将向量表示的视频数据输入ResNet模型进行训练得到512维的视频特征。

且所述类别语义向量通过Word2Vec模型对类别信息进行向量化表示和特征提取得到。

由上述技术方案可知：(1)本发明可用于文本、图像、视频和音频数据同时进行关联分析；

(2)本发明对媒体数据的特征向量进行语义特征优化，即对语义内容的特征提取与向量化表示进行优化，来考虑媒体数据之间的共存性和互补性，加快关联分析的效率；

(3)本发明对媒体数据的特征向量进行分布特征优化，即对各种媒体数据在同一语义空间中的位置关系及其分布态势进行调整，来增加关联分析结果的准确性。

具体实施方式

下面结合实施例对本发明进行详细具体说明，本发明的内容不局限于以下实施例。

一种跨媒体关联分析方法，包括如下步骤：

(1)对媒体数据进行向量化处理，媒体数据包括文本、图像、视频和音频数据；具体为：

将图像数据的尺寸裁剪为224×224×3，裁剪后的图像数据为向量表示的图像数据；

提取视频数据每个视频帧得到向量表示的视频数据。

文本、图像、视频和音频数据都是以人的表达方式展现的，是一个流数据，时间序列数据；如果要用计算机对文本、图像、视频和音频数据进行处理，就必须将文本、图像、视频和音频数据转化为计算机能理解的方式，在本实施例中即为数据向量化。

(2)将处理后的媒体数据进行训练，通过对媒体数据进行训练使机器学习算法的准确率得到提升；具体为：

将向量表示的图像数据输入ResNet模型进行训练得到512维的图像特征；ResNet模型的层数为50、学习率为1e-4、批大小为32、迭代次数为8000次。

将向量表示的文本数据输入DCNN模型进行训练得到得到256维的文本特征；DCNN模型的卷积核尺寸为7和5、最大池化数为4、批大小为50、迭代次数为10次。

将向量表示的音频数据输入1-DCNN模型进行训练得到128维的音频特征；1-DCNN模型的结构包括1层卷积层、1层采样层以及1层全连接层，其中卷积层的卷积核的数量为10，采样层采用最大值采样，输出层采用softmax分类器；1-D CNN模型训练的学习率为1e-3，批大小为16，迭代次数为100次。

将向量表示的视频数据输入ResNet模型进行训练得到512维的视频特征，ResNet模型的层数为50、学习率为1e-4、批大小为32、迭代次数为8000次。

该步骤是利用降维的思想，将多个变量转化为少数几个综合变量，即主成分，其中每个主成分都是原始变量的线性组合，各主成分之间互不相关，从而这些主成分能够反映始变量的绝大部分信息，且所含的信息互不重叠。它是一个线性变换，这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标，第二大方差在第二个坐标，依次类推；主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

如总数为p个变量的媒体数据，分别用X1，X2…Xp来表示，这p个变量构成的p维随机向量为X＝(X1，X2…Xp)，n个样本构成x_i＝(X_i1，X_i2，...，X_ip)组成了n行p列的矩阵A。主成分求解过程如下：

求解得到矩阵A的协方差阵B；

求解协方差阵B，得到按大小顺序排列的特征值向量λ，Δ为特征值向量λ中每个特征值组成的对角矩阵，U为所有特征值对应的特征向量构成的矩阵U，因此有BU＝UΔ，U是有特征向量构成的正定阵，向量的每一行可以视为一个的基向量，这些基向量经过矩阵B转换后，得到了在各个基向量上的伸缩，伸缩的大小即为特征向量。

主成分个数选择，根据特征值的大小，将特征值较大的作为主成分，其对应的特征向量就为基向量。

本实施例采用的双向长短时记忆网络BiLSTM是一种改进的循环神经网络(Recurrent Neural Network,RNN)模型，其工作原理与RNN基本相同，区别在于BiLSTM引入了门结构，该结构能对从输入层传来的输入向量进行更深层次的特征提取。该模型包含输入门、遗忘门、输出门等门结构。输入门、遗忘门分别控制隐藏层神经元需要更新和遗忘的信息，输出门决定隐藏层神经元输出的信息。在t时刻，该模型的工作原理可由以下公式表示：

i_t＝sigmoid(W_i·[h_t-1,x_t]+b_i)

f_t＝sigmoid(W_f·[h_t-1,x_t]+b_f)

c_t＝f_t·c_t-1+i_t·tanh(W_c·[h_t-1,x_t]+b_c)

o_t＝sigmoid(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t·tanh(c_t)

式中，x_t为t时刻的输入向量，i_t、f_t、o_t分别表示当前时刻的输入门、遗忘门和输出门，W_t、W_f、W_o和b_t、b_f、b_o分别表示输入门、遗忘门和输出门对应的权重矩阵和偏置向量，c_t表示当前时刻的记忆单元，sigmoid和tanh表示激活函数，ht为当前时刻的输出向量。

(4)将所有特征向量映射到同一语义空间中，并对语义特征和分布特征进行优化；语义特征指的是各种媒体数据所指代语义内容的特征提取与向量化表示，分布特征指的是各种媒体数据在统一语义空间中的位置关系及其分布态势。

式中，h_i为媒体数据的特征向量，i＝1、2、3、4，fi为类别语义向量，f_j为与f_i不同类别的类别语义向量，j＝1、2、3、4，sim(h_i,f_i)为媒体数据的特征向量与其对应的类别语义向量之间的相似度，sim(h_i,f_j)为媒体数据的特征向量与其不同类别语义向量之间的相似度；

为了确保各种媒体数据的特征向量与其对应的类别语义向量之间的距离尽可能地近，而与该特征向量不同的类别语义向量尽可能地远。

L_D＝L_DC-L_SC

在统一语义空间中，衡量各种媒体数据之间相似性的指标是它们之间的距离，即同类媒体数据之间的距离尽可能近，不同类媒体数据之间的距离尽可能远。

L＝αL_S+(1-α)L_D

α用以平衡语义特征和分布特征在跨媒体关联分析中的重要性。

通过上述调整后的语义特征矩阵αL_S和调整后的分布特征矩阵(1-α)L_D完成媒体数据的关联分析。

通过调整媒体数据的特征向量在同一语义空间中的位置，来进行关联分析。

表1为CCA、KCCA、Deep-SM和跨媒体关联分析方法对媒体数据进行关联分析的准确率；

表1

由表1可知，CCA在文本数据集上的表现最优，在图像、视频、音频等多媒体数据集上表现较差，特别是在视频和音频数据集上的准确率均低于0.4，该模型不适合处理具有非线性结构的多媒体数据。KCCA是CCA的改进版本，核函数的引入使其能够处理具有非线性结构的多媒体数据。从实验结果看，KCCA在各种媒体数据集上的准确率均得到一定程度的提升。Deep-SM基于CNN深度学习模型提出，与基于机器学习的方法相比，其具有更强的特征学习能力。该模型在文本、图像、视频、音频等多媒体数据集上的准确率分别比KCCA提高了0.17、0.09、0.06、0.12。本文方法借鉴了深度学习模型在特征学习方面的优势，与CNN相比，BiLSTM能够提取各种媒体数据的上下文信息，融入语义特征和分布特征使之具有更优的准确率，特别是在图像、视频、音频等多媒体数据集上的表现明显优于CCA、KCCA、Deep-SM。跨媒体数据集上的实验结果表明，本文方法的准确率分别比CCA高0.34、0.35、0.27、0.31，比KCCA高0.22、0.17、0.18、0.25，比Deep-SM高0.05、0.08、0.12、0.13。从模型的平均性能看，本文方法的平均准确率最高，达到0.73，之后依次是Deep-SM、KCCA、CCA。从各种媒体数据集上的平均性能看，文本数据集上的平均准确率最高，其次是图像数据集，音频数据集最低。

Claims

1.一种跨媒体关联分析方法，其特征在于至少包括如下步骤：

(2)将处理后的媒体数据进行训练；

L_D＝L_DC-L_SC

L＝αL_S+(1-α)L_D

2.根据权利要求1所述的跨媒体关联分析方法，其特征在于，所述媒体数据进向量化处理的方法具体为：将图像数据的尺寸裁剪为224×224×3，裁剪后的图像数据为向量表示的图像数据；

提取视频数据每个视频帧得到向量表示的视频数据。

3.根据权利要求2所述的跨媒体关联分析方法，其特征在于，所述训练方法具体为：将向量表示的图像数据输入ResNet模型进行训练得到512维的图像特征；

4.根据权利要求1所述的跨媒体关联分析方法，其特征在于，所述类别语义向量通过Word2Vec模型对类别信息进行向量化表示和特征提取得到。