CN105005558A - 一种基于群智感知的多模态数据融合方法 - Google Patents

一种基于群智感知的多模态数据融合方法 Download PDF

Info

Publication number
CN105005558A
CN105005558A CN201510501160.9A CN201510501160A CN105005558A CN 105005558 A CN105005558 A CN 105005558A CN 201510501160 A CN201510501160 A CN 201510501160A CN 105005558 A CN105005558 A CN 105005558A
Authority
CN
China
Prior art keywords
word
document
data
modal data
sense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510501160.9A
Other languages
English (en)
Inventor
叶登攀
张倬胜
卢玥锟
张浩天
吴荀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510501160.9A priority Critical patent/CN105005558A/zh
Publication of CN105005558A publication Critical patent/CN105005558A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于群智感知的多模态数据融合方法,本发明分为预处理,PLSA建模和基于PLSA建模的所模态数据融合三个步骤。经过图像表示、音频表示预处理,建立图像和音频之间的联系;采用PLSA模型,解决文本分类的问题,它挖掘文本与单词间的不可见主题关系,解决了文本“一词多义、一义多词”的问题,现已延伸到图像、音频、视频等多媒体数据分析中;将PLSA模型应用到音、视频数据的融合分析中,完成多模态的数据融合。本发明解决了在大数据环境下,群智感知到的数据异构性的问题,将异构的数据融合起来,达到分析应用的目的。

Description

一种基于群智感知的多模态数据融合方法
技术领域:
本发明属于数据处理技术领域,涉及一种将异构数据进行数据融合的方法,具体涉及一种基于群智感知的多模态数据融合方法。
技术背景:
随着计算机及数码电子产品的普及,以及互联网的迅速发展,人们每天都可以接触到海量的多媒体信息。这些多媒体信息铺天盖地,不仅数量大而且冗余,哪些信息是人们所需要的呢?是否可以采取相关技术,从海量数据中挖掘出人们感兴趣的相关信息?是否可以使计算机如人的大脑一样,通过观察及学习来自动识别,实现对多模态数据的语义理解?类似需求已成为多媒体研究中急需要解决的问题。
在这些问题中,由于多媒体语义可以从视觉、听觉、触觉等综合角度表达,但这些多模态数据的维度、属性、表现形式各不相同,如何建立模态间的对应关系及关联性成为了核心难点之一。因此需要研究一种新的检索方法,使得用户可以提交某种单一模态样例(如可以是图像、音频、视频、文本等多媒体文档),在对其进行分析并挖掘出其他模态的相关信息后,返回其它模态的相关数据,从而实现跨模态检索。例如:用户提交一幅老虎的图像,系统不仅可以返回与该图像相似的老虎图像,还可以返回该老虎的叫声。这种检索算法可以实现模态间的灵活跨越,从而避免单纯倚重一种模态而造成结果的局限性和不确定性,扩大了人们的检索范围和检索方式。“这种可以实现不同类型的多媒体数据之间灵活跨越的检索方式称为跨模态(跨媒体)检索”。
跨模态检索这一问题的提出,正是伴随着多媒体技术的快速发展,媒体数据研究类型已由单一的文档模态发展到包含图像、音频、视频等非结构化或者半结构化的多模态表达方式。为了更好地表示不同类型的多媒体数据所包含的多媒体语义信息,因此需要采用类似于人脑处理信息的方式,先把各种信息整合起来,综合分析而不是单纯地倚重一种模态信息,从而让不同的信息相辅相成,提高结果的准确性。
发明内容:
针对以上问题,本发明基于PLSA模型,提出了一种基于群智感知的多模态数据融合方法。
本发明所采用的技术方案是:一种基于群智感知的多模态数据融合方法,本方法将获取到的包括图像数据和音频数据的异构数据视为文档,图像特征视为文档中的视觉单词,音频特征视为文档中的听觉单词;其特征在于,包括以下步骤:
步骤1:对异构数据进行预处理,其具体实现包括以下子步骤:
步骤1.1:对图像数据进行预处理,生成视觉单词;
步骤1.2:对音频数据进行预处理,生成听觉单词;
步骤2:对异构数据进行分类并根据来源位置与时间特征进行关联;
步骤3:PLSA建模,挖掘文档与视觉单词、听觉单词与关联文档之间不可见主题关系,主题关系即是单词元素(包括视觉单词、听觉单词)按照一定的主题来关联文档,解决了文档“一词多义、一义多词”的问题;
步骤4:基于PLSA模型的异构数据信息融合,采用不对称学习方法和folding-in方法来融合、学习视觉单词和听觉单词的语义信息,通过模型学习得到相应的主题概率分布后,求得图像-音频的相关度。
作为优选,步骤1.1中所述的视觉单词的生成方法是先提取图像的视觉特征(如Blobs、HS、SIFT等),然后采用K-means聚类算法量化图像的视觉特征,进而从聚类中心生成视觉单词。
作为优选,所述的聚类中心是从标准图像库中选取需要的图片作为特征样本数据,再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心,接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心,每一个聚类中心相当于一个离散的视觉单词包。
作为优选,步骤1.2中所述的听觉单词的生成方法是提取音频数据的MFCC特征,并采用K-means聚类算法量化音频的听觉特征,进而从聚类中心生成听觉单词。
作为优选,步骤2中所述的将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联,其具体实现过程包括:
步骤2.1:对多模态数据编号,每个数据集拥有唯一编号;
步骤2.2:提取多模态数据的时间和位置特征;
步骤2.3:将时间和位置特征打包形成标签,并和与之相关联的多模态数据的编号绑定,写入数据库,完成多模态数据关联。
作为优选,步骤3中所述的PLSA建模涉及到三个概念:文档document,单词word,主题topic,其中文档和单词是可见的,而主题则是引入用来关联文档和单词的不可见变量,文档中的每个单词元素xi是按照某一主题zk来关联某一文档di的。
本发明的有益效果为:
1.可以避免特征在量化过程中丢失信息;
2.避免了模型在训练过程中参数随着训练文档数目的增加而线性递增,导致模型过于庞大;
3.缓解了高维特征数据带来的空间复杂度过高的问题。
附图说明:
图1:本发明实施的流程图;
图2:本发明实施的PLSA模型示意图;
图3:本发明实施的新对象推导示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本方法将获取到的包括图像数据和音频数据的异构数据视为文档,图像特征视为文档中的视觉单词,音频特征视为文档中的听觉单词。
请见图1,本发明提供的一种基于群智感知的多模态数据融合方法,包括以下步骤:
步骤1:对异构数据进行预处理,其具体实现包括以下子步骤:
步骤1.1:对图像数据进行预处理,生成视觉单词;
一幅图像的常用表示方法是在利用文档作标注的基础上,采用视觉单词来描述对图像内容进行刻画。视觉单词的生成一般是先提取图像的视觉特征(如Blobs、HS、SIFT等),然后采用K-means等聚类算法量化图像的视觉特征,进而从聚类中心生成视觉单词。其中聚类中心是从标准图像库中选取需要的图片作为特征样本数据,再从这些特征样本数据中任意选择个K个XJ维的特征样本向量作为初始聚类中心{Cj|j=1,…,K};例如可选开始的K个特征样本向量作为初始聚类中心,接着根据特征向量与聚类中心的欧式距离寻找特征向量所属的聚类中心,每一个聚类中心相当于一个离散的视觉单词包。
假设量化后的视觉特征向量个数为NI(视觉特征聚类中心个数),则图像di被表示成维数为NI维数值的集合,如式壹所示,其中n(di,sj)表示图像di中视觉特征向量sj的个数,即每幅图像都是由一系列属于各个聚类中心特征向量的个数所组成的向量,即S(di)
S(di)={n(di,s1),…,n(di,sj),…,n(di,sNj)}  (式壹);
步骤1.2:对音频数据进行预处理,生成听觉单词;
听觉单词的生成方法是提取音频数据的MFCC特征,并采用K-means聚类算法量化音频的听觉特征,进而从聚类中心生成听觉单词。
聚类中心是从标准图像库中选取需要的图片作为特征样本数据,再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心,接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心,每一个聚类中心相当于一个离散的视觉单词包。
量化后的听觉特征向量个数为NA(听觉特征聚类中心个数),则音频dj被表示成维数为NA维数值的集合,如式贰所示,其中n(di,mk)表示图像di中视觉特征向量mk的个数,即每幅图像都是由一系列属于各个聚类中心特征向量的个数所组成的向量,即S(di)
S(di)={n(di,m1,…,n(di,mk),…,n(di,mNA)}  (式贰);
步骤2:对异构数据进行分类并根据来源位置与时间特征进行关联;
请见图2,其具体实现过程包括以下子步骤:
步骤2.1:对多模态数据编号,每个数据集拥有唯一编号;
步骤2.2:提取多模态数据的时间和位置特征;
步骤2.3:将时间和位置特征打包形成标签,并和与之相关联的多模态数据的编号绑定,写入数据库,完成多模态数据关联。
步骤3:PLSA建模,挖掘文档与视觉单词、听觉单词与关联文档之间不可见主题关系,主题关系即是单词元素(包括视觉单词、听觉单词)按照一定的主题来关联文档,解决了文档“一词多义、一义多词”的问题;
Hofinann提出的PLSA模型最初是用来解决文档分类的,其动机是由于传统方法一般直接从文档中计算其主题,并没有考虑文字中存在的不可见语义信息,而PLSA则挖掘文档与单词间的不可见主题关系,解决了文档“一词多义、一义多词”的问题。这一模型近年来已逐步后来延伸到图像、音频、视频等多媒体数据分析中。
PLSA模型涉及到三个概念:文档(document),单词(word),主题(topic),其中文档d和单词x是可见的,而主题变量z则是引入用来关联文档和单词的不可见变量。
PLSA模型的基本原理如下:请见图2所示,已知文档集为D={di|i∈1,…,Nd}和各个元素X={xi|i∈1,…,Nx},其中每个文档di∈D可表示元素xj在文档dj中出现的次数,即{n(dj,X)}。PLSA引入不可见的主题变量z∈zk(k∈1,…K)来描述文档di和单词元素xi之间的关联性,它假定文档中的每个单词元素xi是按照一定的主题zk来关联文档di的。给定文档的主题分布,它的单词元素分布是独立于文档的。更确切地说,单词元素xj在文档dj中的分布是各个主题z的一种边缘分布,可以表示为:
p ( x i | d i ) = Σ k = 1 K p ( z k | d i ) p ( x j | z k )   (式叁);
因此,单词元素xj在文档dj的联合概率可写为:
p ( d i , x j ) = Σ k = 1 K p ( z k | d i ) p ( x j | z k ) = Σ k = 1 K p ( z k ) p ( d i | z k ) p ( x j | z k )   (式肆);
步骤4:请见图3,基于PLSA模型的异构数据信息融合,采用不对称学习方法和folding-in方法来融合、学习视觉单词和听觉单词的语义信息,通过模型学习得到相应的主题概率分布后,求得图像-音频的相关度。
本发明将PLSA模型应用到图像、音频数据的融合分析中,并给出了初步的实验结果。为了便于建立图像、音频数据和文档模型的关联,本发明预先人工设定图像、音频数据间的对应关系,并将这种异构数据共同组成的同一多媒体对象定义为图像-音频文档(image-audio document)。
图像-音频文档与文档的对应关系建立的方法如下。在文档分析中,一般以文档单词出现的次数来表示文档内容,本方法将获取到的包括图像数据和音频数据的异构数据视为文档,图像特征视为文档中的视觉单词,音频特征视为文档中的听觉单词;这样图像-音频文档既可以由视觉特征来描述、也可以由听觉特征来描述,即既可以以视觉单词出现的频率来表示图像内容、也可以用听觉单词出现的频率来描述,即x=(s,m)。本发明采用不对称学习方法和folding-in方法来融合、学习两种不同模态的语义信息。通过模型学习得到相应的主题概率分布后,可以求得图像-音频的相关度。
以输入音频来检索与其相关的图像为例。已知一段待输入的音频,通过MFCC特征提取算法提取音频的听觉特征向量,并通过K均值聚类算法寻找所属的聚类中心后,生成离散的词频向量,表示成x′=(0,mnew)。设通过之前对多模态训练库的学习,己知先验估计参数p(zk)、p(dj|zk)、p(x2|zk),则可保持参数值固定不变,采用folding-in算法估算p(dnew|zk)和p(zk|dnew)。可求得该音频与检索库中各图像的相关度。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于群智感知的多模态数据融合方法,本方法将获取到的包括图像数据和音频数据的异构数据视为文档,图像特征视为文档中的视觉单词,音频特征视为文档中的听觉单词;其特征在于,包括以下步骤:
步骤1:对异构数据进行预处理,其具体实现包括以下子步骤:
步骤1.1:对图像数据进行预处理,生成视觉单词;
步骤1.2:对音频数据进行预处理,生成听觉单词;
步骤2:对异构数据进行分类并根据来源位置与时间特征进行关联;
步骤3:PLSA建模,挖掘文档与视觉单词、听觉单词与关联文档之间不可见主题关系,主题关系即是单词元素按照一定的主题来关联文档,解决了文档“一词多义、一义多词”的问题;所述的单词元素包括视觉单词、听觉单词;
步骤4:基于PLSA模型的异构数据信息融合,采用不对称学习方法和folding-in方法来融合、学习视觉单词和听觉单词的语义信息,通过模型学习得到相应的主题概率分布后,求得图像-音频的相关度。
2.根据权利要求1所述的基于群智感知的多模态数据融合方法,其特征在于:步骤1.1中所述的视觉单词的生成方法是先提取图像的视觉特征,然后采用K-means聚类算法量化图像的视觉特征,进而从聚类中心生成视觉单词。
3.根据权利要求2所述的基于群智感知的多模态数据融合方法,其特征在于:所述的聚类中心是从标准图像库中选取需要的图片作为特征样本数据,再从这些特征样本数据中任意选择K个特征样本向量作为初始聚类中心,接着根据特征样本向量与聚类中心的欧式距离寻找特征样本向量所属的聚类中心,每一个聚类中心相当于一个离散的视觉单词包。
4.根据权利要求1所述的基于群智感知的多模态数据融合方法,其特征在于:步骤1.2中所述的听觉单词的生成方法是提取音频数据的MFCC特征,并采用K-means聚类算法量化音频的听觉特征,进而从聚类中心生成听觉单词。
5.根据权利要求1所述的基于群智感知的多模态数据融合方法,其特征在于:步骤2中所述的将获取到的多模态数据进行分类并根据来源位置与时间特征进行关联,其具体实现过程包括:
步骤2.1:对多模态数据编号,每个数据集拥有唯一编号;
步骤2.2:提取多模态数据的时间和位置特征;
步骤2.3:将时间和位置特征打包形成标签,并和与之相关联的多模态数据的编号绑定,写入数据库,完成多模态数据关联。
6.根据权利要求1所述的基于群智感知的多模态数据融合方法,其特征在于:步骤3中所述的PLSA建模涉及到三个概念:文档document,单词word,主题topic,其中文档和单词是可见的,而主题则是引入用来关联文档和单词的不可见变量,文档中的每个单词元素是按照某一主题来关联某一文档di的。
CN201510501160.9A 2015-08-14 2015-08-14 一种基于群智感知的多模态数据融合方法 Pending CN105005558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510501160.9A CN105005558A (zh) 2015-08-14 2015-08-14 一种基于群智感知的多模态数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510501160.9A CN105005558A (zh) 2015-08-14 2015-08-14 一种基于群智感知的多模态数据融合方法

Publications (1)

Publication Number Publication Date
CN105005558A true CN105005558A (zh) 2015-10-28

Family

ID=54378234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510501160.9A Pending CN105005558A (zh) 2015-08-14 2015-08-14 一种基于群智感知的多模态数据融合方法

Country Status (1)

Country Link
CN (1) CN105005558A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108536735A (zh) * 2018-03-05 2018-09-14 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
CN110222227A (zh) * 2019-05-13 2019-09-10 西安交通大学 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111131226A (zh) * 2019-12-20 2020-05-08 中国船舶工业系统工程研究院 一种广域海洋物联网通信管控系统
CN113343679A (zh) * 2021-07-06 2021-09-03 合肥工业大学 一种基于标签约束的多模态主题挖掘方法
CN113408282A (zh) * 2021-08-06 2021-09-17 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN113743479A (zh) * 2021-08-19 2021-12-03 东南大学 端-边-云车路协同融合感知架构及其构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张鸿: "基于相关性挖掘的跨媒体检索研究", 《中国博士学位论文全文数据库 信息科技辑》 *
林婉霞: "基于多模态融合和传播的跨模态信息检索算法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200483A (zh) * 2017-12-26 2018-06-22 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108200483B (zh) * 2017-12-26 2020-02-28 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108536735A (zh) * 2018-03-05 2018-09-14 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
CN108536735B (zh) * 2018-03-05 2020-12-15 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
CN110222227A (zh) * 2019-05-13 2019-09-10 西安交通大学 一种融合听觉感知特征和视觉特征的中国民歌地域分类方法
CN111105041A (zh) * 2019-12-02 2020-05-05 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111105041B (zh) * 2019-12-02 2022-12-23 成都四方伟业软件股份有限公司 一种用于智慧数据碰撞的机器学习方法及装置
CN111131226A (zh) * 2019-12-20 2020-05-08 中国船舶工业系统工程研究院 一种广域海洋物联网通信管控系统
CN113343679A (zh) * 2021-07-06 2021-09-03 合肥工业大学 一种基于标签约束的多模态主题挖掘方法
CN113343679B (zh) * 2021-07-06 2024-02-13 合肥工业大学 一种基于标签约束的多模态主题挖掘方法
CN113408282A (zh) * 2021-08-06 2021-09-17 腾讯科技(深圳)有限公司 主题模型训练和主题预测方法、装置、设备及存储介质
CN113743479A (zh) * 2021-08-19 2021-12-03 东南大学 端-边-云车路协同融合感知架构及其构建方法

Similar Documents

Publication Publication Date Title
CN105005558A (zh) 一种基于群智感知的多模态数据融合方法
Weller et al. Mapping the open education landscape: Citation network analysis of historical open and distance education research
CN107545791B (zh) 一种利用课件自动生成课堂教学知识图谱的系统和方法
CN100437582C (zh) 图像内容语义标注方法
CN106095762A (zh) 一种基于本体模型库的新闻推荐方法及装置
CN102955848B (zh) 一种基于语义的三维模型检索系统和方法
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN107515934B (zh) 一种基于大数据的电影语义个性化标签优化方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
WO2015165381A1 (zh) 一种通用型互联网信息数据挖掘方法
CN111046194A (zh) 构建多模态教学知识图谱的方法
CN108920648A (zh) 一种基于音乐-图像语义关系的跨模态匹配方法
Hou et al. Classifications and typologies: Labeling sign languages and signing communities
CN112948575B (zh) 文本数据处理方法、装置和计算机可读存储介质
CN110795932B (zh) 基于地质本体的地质报告文本信息提取方法
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN109117471B (zh) 一种词语相关度的计算方法及终端
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム
CN105338335A (zh) 一种立体图像显著图提取方法
CN110717100B (zh) 基于高斯嵌入表示技术的上下文感知推荐方法
Joy et al. A prototype Malayalam to sign language automatic translator
Camargo et al. Multimodal visualization based on latent topic analysis
Zúñiga-Morales et al. Impact evaluation of multimodal information on sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151028