CN105005558A

CN105005558A - 一种基于群智感知的多模态数据融合方法

Info

Publication number: CN105005558A
Application number: CN201510501160.9A
Authority: CN
Inventors: 叶登攀; 张倬胜; 卢玥锟; 张浩天; 吴荀
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-08-14
Filing date: 2015-08-14
Publication date: 2015-10-28

Abstract

本发明公开了一种基于群智感知的多模态数据融合方法，本发明分为预处理，PLSA建模和基于PLSA建模的所模态数据融合三个步骤。经过图像表示、音频表示预处理，建立图像和音频之间的联系；采用PLSA模型，解决文本分类的问题，它挖掘文本与单词间的不可见主题关系，解决了文本“一词多义、一义多词”的问题，现已延伸到图像、音频、视频等多媒体数据分析中；将PLSA模型应用到音、视频数据的融合分析中，完成多模态的数据融合。本发明解决了在大数据环境下，群智感知到的数据异构性的问题，将异构的数据融合起来，达到分析应用的目的。

Description

一种基于群智感知的多模态数据融合方法

技术领域：

本发明属于数据处理技术领域，涉及一种将异构数据进行数据融合的方法，具体涉及一种基于群智感知的多模态数据融合方法。

技术背景：

随着计算机及数码电子产品的普及，以及互联网的迅速发展，人们每天都可以接触到海量的多媒体信息。这些多媒体信息铺天盖地，不仅数量大而且冗余，哪些信息是人们所需要的呢？是否可以采取相关技术，从海量数据中挖掘出人们感兴趣的相关信息？是否可以使计算机如人的大脑一样，通过观察及学习来自动识别，实现对多模态数据的语义理解？类似需求已成为多媒体研究中急需要解决的问题。

在这些问题中，由于多媒体语义可以从视觉、听觉、触觉等综合角度表达，但这些多模态数据的维度、属性、表现形式各不相同，如何建立模态间的对应关系及关联性成为了核心难点之一。因此需要研究一种新的检索方法，使得用户可以提交某种单一模态样例(如可以是图像、音频、视频、文本等多媒体文档)，在对其进行分析并挖掘出其他模态的相关信息后，返回其它模态的相关数据，从而实现跨模态检索。例如：用户提交一幅老虎的图像，系统不仅可以返回与该图像相似的老虎图像，还可以返回该老虎的叫声。这种检索算法可以实现模态间的灵活跨越，从而避免单纯倚重一种模态而造成结果的局限性和不确定性，扩大了人们的检索范围和检索方式。“这种可以实现不同类型的多媒体数据之间灵活跨越的检索方式称为跨模态(跨媒体)检索”。

跨模态检索这一问题的提出，正是伴随着多媒体技术的快速发展，媒体数据研究类型已由单一的文档模态发展到包含图像、音频、视频等非结构化或者半结构化的多模态表达方式。为了更好地表示不同类型的多媒体数据所包含的多媒体语义信息，因此需要采用类似于人脑处理信息的方式，先把各种信息整合起来，综合分析而不是单纯地倚重一种模态信息，从而让不同的信息相辅相成，提高结果的准确性。

发明内容：

针对以上问题，本发明基于PLSA模型，提出了一种基于群智感知的多模态数据融合方法。

本发明所采用的技术方案是：一种基于群智感知的多模态数据融合方法，本方法将获取到的包括图像数据和音频数据的异构数据视为文档，图像特征视为文档中的视觉单词，音频特征视为文档中的听觉单词；其特征在于，包括以下步骤：

步骤1：对异构数据进行预处理，其具体实现包括以下子步骤：

步骤1.1：对图像数据进行预处理，生成视觉单词；

步骤1.2：对音频数据进行预处理，生成听觉单词；

步骤2：对异构数据进行分类并根据来源位置与时间特征进行关联；

步骤3：PLSA建模，挖掘文档与视觉单词、听觉单词与关联文档之间不可见主题关系，主题关系即是单词元素(包括视觉单词、听觉单词)按照一定的主题来关联文档，解决了文档“一词多义、一义多词”的问题；

步骤4：基于PLSA模型的异构数据信息融合，采用不对称学习方法和folding-in方法来融合、学习视觉单词和听觉单词的语义信息，通过模型学习得到相应的主题概率分布后，求得图像-音频的相关度。

作为优选，步骤1.1中所述的视觉单词的生成方法是先提取图像的视觉特征(如Blobs、HS、SIFT等)，然后采用K-means聚类算法量化图像的视觉特征，进而从聚类中心生成视觉单词。

作为优选，所述的聚类中心是从标准图像库中选取需要的图片作为特征样本数据，再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心，接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心，每一个聚类中心相当于一个离散的视觉单词包。

作为优选，步骤1.2中所述的听觉单词的生成方法是提取音频数据的MFCC特征，并采用K-means聚类算法量化音频的听觉特征，进而从聚类中心生成听觉单词。

作为优选，步骤2中所述的将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联，其具体实现过程包括：

步骤2.1：对多模态数据编号，每个数据集拥有唯一编号；

步骤2.2：提取多模态数据的时间和位置特征；

步骤2.3：将时间和位置特征打包形成标签，并和与之相关联的多模态数据的编号绑定，写入数据库，完成多模态数据关联。

作为优选，步骤3中所述的PLSA建模涉及到三个概念：文档document，单词word，主题topic，其中文档和单词是可见的，而主题则是引入用来关联文档和单词的不可见变量，文档中的每个单词元素xi是按照某一主题z_k来关联某一文档di的。

本发明的有益效果为：

1.可以避免特征在量化过程中丢失信息；

2.避免了模型在训练过程中参数随着训练文档数目的增加而线性递增，导致模型过于庞大；

3.缓解了高维特征数据带来的空间复杂度过高的问题。

附图说明：

图1：本发明实施的流程图；

图2：本发明实施的PLSA模型示意图；

图3：本发明实施的新对象推导示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本方法将获取到的包括图像数据和音频数据的异构数据视为文档，图像特征视为文档中的视觉单词，音频特征视为文档中的听觉单词。

请见图1，本发明提供的一种基于群智感知的多模态数据融合方法，包括以下步骤：

步骤1.1：对图像数据进行预处理，生成视觉单词；

一幅图像的常用表示方法是在利用文档作标注的基础上，采用视觉单词来描述对图像内容进行刻画。视觉单词的生成一般是先提取图像的视觉特征(如Blobs、HS、SIFT等)，然后采用K-means等聚类算法量化图像的视觉特征，进而从聚类中心生成视觉单词。其中聚类中心是从标准图像库中选取需要的图片作为特征样本数据，再从这些特征样本数据中任意选择个K个X_J维的特征样本向量作为初始聚类中心{Cj|j＝1,…,K}；例如可选开始的K个特征样本向量作为初始聚类中心，接着根据特征向量与聚类中心的欧式距离寻找特征向量所属的聚类中心，每一个聚类中心相当于一个离散的视觉单词包。

假设量化后的视觉特征向量个数为N_I(视觉特征聚类中心个数)，则图像d_i被表示成维数为N_I维数值的集合，如式壹所示，其中n(di,sj)表示图像di中视觉特征向量sj的个数，即每幅图像都是由一系列属于各个聚类中心特征向量的个数所组成的向量，即S_(di)：

S_(di)＝{n(di,s1),…,n(di,sj),…,n(di,s_Nj)} (式壹)；

步骤1.2：对音频数据进行预处理，生成听觉单词；

听觉单词的生成方法是提取音频数据的MFCC特征，并采用K-means聚类算法量化音频的听觉特征，进而从聚类中心生成听觉单词。

聚类中心是从标准图像库中选取需要的图片作为特征样本数据，再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心，接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心，每一个聚类中心相当于一个离散的视觉单词包。

量化后的听觉特征向量个数为N_A(听觉特征聚类中心个数)，则音频d_j被表示成维数为N_A维数值的集合，如式贰所示，其中n(di,m_k)表示图像di中视觉特征向量m_k的个数，即每幅图像都是由一系列属于各个聚类中心特征向量的个数所组成的向量，即S_(di)。

S_(di)＝{n(di,m1,…,n(di,m_k),…,n(di,m_NA)} (式贰)；

请见图2，其具体实现过程包括以下子步骤：

步骤2.1：对多模态数据编号，每个数据集拥有唯一编号；

步骤2.2：提取多模态数据的时间和位置特征；

Hofinann提出的PLSA模型最初是用来解决文档分类的，其动机是由于传统方法一般直接从文档中计算其主题，并没有考虑文字中存在的不可见语义信息，而PLSA则挖掘文档与单词间的不可见主题关系，解决了文档“一词多义、一义多词”的问题。这一模型近年来已逐步后来延伸到图像、音频、视频等多媒体数据分析中。

PLSA模型涉及到三个概念：文档(document)，单词(word)，主题(topic)，其中文档d和单词x是可见的，而主题变量z则是引入用来关联文档和单词的不可见变量。

PLSA模型的基本原理如下：请见图2所示，已知文档集为D＝{di|i∈1,…,N_d}和各个元素X＝{xi|i∈1,…,N_x}，其中每个文档d_i∈D可表示元素x_j在文档d_j中出现的次数，即{n(d_j,X)}。PLSA引入不可见的主题变量z∈z_k(k∈1,…K)来描述文档di和单词元素xi之间的关联性，它假定文档中的每个单词元素xi是按照一定的主题z_k来关联文档di的。给定文档的主题分布，它的单词元素分布是独立于文档的。更确切地说，单词元素x_j在文档d_j中的分布是各个主题z的一种边缘分布，可以表示为：

p (x_{i} | d_{i}) = Σ_{k = 1}^{K} p (z_{k} | d_{i}) p (x_{j} | z_{k})

(式叁)；

因此，单词元素x_j在文档d_j的联合概率可写为：

p (d_{i}, x_{j}) = Σ_{k = 1}^{K} p (z_{k} | d_{i}) p (x_{j} | z_{k}) = Σ_{k = 1}^{K} p (z_{k}) p (d_{i} | z_{k}) p (x_{j} | z_{k})

(式肆)；

步骤4：请见图3，基于PLSA模型的异构数据信息融合，采用不对称学习方法和folding-in方法来融合、学习视觉单词和听觉单词的语义信息，通过模型学习得到相应的主题概率分布后，求得图像-音频的相关度。

本发明将PLSA模型应用到图像、音频数据的融合分析中，并给出了初步的实验结果。为了便于建立图像、音频数据和文档模型的关联，本发明预先人工设定图像、音频数据间的对应关系，并将这种异构数据共同组成的同一多媒体对象定义为图像-音频文档(image-audio document)。

图像-音频文档与文档的对应关系建立的方法如下。在文档分析中，一般以文档单词出现的次数来表示文档内容，本方法将获取到的包括图像数据和音频数据的异构数据视为文档，图像特征视为文档中的视觉单词，音频特征视为文档中的听觉单词；这样图像-音频文档既可以由视觉特征来描述、也可以由听觉特征来描述，即既可以以视觉单词出现的频率来表示图像内容、也可以用听觉单词出现的频率来描述，即x＝(s,m)。本发明采用不对称学习方法和folding-in方法来融合、学习两种不同模态的语义信息。通过模型学习得到相应的主题概率分布后，可以求得图像-音频的相关度。

以输入音频来检索与其相关的图像为例。已知一段待输入的音频，通过MFCC特征提取算法提取音频的听觉特征向量，并通过K均值聚类算法寻找所属的聚类中心后，生成离散的词频向量，表示成x′＝(0,m_new)。设通过之前对多模态训练库的学习，己知先验估计参数p(z_k)、p(d_j|z_k)、p(x²|z_k)，则可保持参数值固定不变，采用folding-in算法估算p(d_new|z_k)和p(z_k|d_new)。可求得该音频与检索库中各图像的相关度。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于群智感知的多模态数据融合方法，本方法将获取到的包括图像数据和音频数据的异构数据视为文档，图像特征视为文档中的视觉单词，音频特征视为文档中的听觉单词；其特征在于，包括以下步骤：

步骤1.1：对图像数据进行预处理，生成视觉单词；

步骤1.2：对音频数据进行预处理，生成听觉单词；

步骤3：PLSA建模，挖掘文档与视觉单词、听觉单词与关联文档之间不可见主题关系，主题关系即是单词元素按照一定的主题来关联文档，解决了文档“一词多义、一义多词”的问题；所述的单词元素包括视觉单词、听觉单词；

2.根据权利要求1所述的基于群智感知的多模态数据融合方法，其特征在于：步骤1.1中所述的视觉单词的生成方法是先提取图像的视觉特征，然后采用K-means聚类算法量化图像的视觉特征，进而从聚类中心生成视觉单词。

3.根据权利要求2所述的基于群智感知的多模态数据融合方法，其特征在于：所述的聚类中心是从标准图像库中选取需要的图片作为特征样本数据，再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心，接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心，每一个聚类中心相当于一个离散的视觉单词包。

4.根据权利要求1所述的基于群智感知的多模态数据融合方法，其特征在于：步骤1.2中所述的听觉单词的生成方法是提取音频数据的MFCC特征，并采用K-means聚类算法量化音频的听觉特征，进而从聚类中心生成听觉单词。

5.根据权利要求1所述的基于群智感知的多模态数据融合方法，其特征在于：步骤2中所述的将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联，其具体实现过程包括：

步骤2.1：对多模态数据编号，每个数据集拥有唯一编号；

步骤2.2：提取多模态数据的时间和位置特征；

6.根据权利要求1所述的基于群智感知的多模态数据融合方法，其特征在于：步骤3中所述的PLSA建模涉及到三个概念：文档document，单词word，主题topic，其中文档和单词是可见的，而主题则是引入用来关联文档和单词的不可见变量，文档中的每个单词元素是按照某一主题来关联某一文档di的。