CN110456985B - 面向多模态网络大数据的层次型存储方法及系统 - Google Patents

面向多模态网络大数据的层次型存储方法及系统 Download PDF

Info

Publication number
CN110456985B
CN110456985B CN201910589898.3A CN201910589898A CN110456985B CN 110456985 B CN110456985 B CN 110456985B CN 201910589898 A CN201910589898 A CN 201910589898A CN 110456985 B CN110456985 B CN 110456985B
Authority
CN
China
Prior art keywords
feature
data
modal
mode
index value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910589898.3A
Other languages
English (en)
Other versions
CN110456985A (zh
Inventor
黄震华
蔡立群
廖晓鹏
刘海
李丁丁
汤庸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Zhixin Information Technology Co ltd
South China Normal University
Original Assignee
Guangdong Zhixin Information Technology Co ltd
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Zhixin Information Technology Co ltd, South China Normal University filed Critical Guangdong Zhixin Information Technology Co ltd
Priority to CN201910589898.3A priority Critical patent/CN110456985B/zh
Publication of CN110456985A publication Critical patent/CN110456985A/zh
Application granted granted Critical
Publication of CN110456985B publication Critical patent/CN110456985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了面向多模态网络大数据的层次型存储方法及系统,方法包括:根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。本发明提高了多模态网络大数据的存储空间效率和使用效率,降低了时间开销,易于部署和实现,可广泛应用于计算机技术领域。

Description

面向多模态网络大数据的层次型存储方法及系统
技术领域
本发明涉及计算机技术领域,尤其是面向多模态网络大数据的层次型存储方法及系统。
背景技术
近年来,随着云计算、移动通信和社交网络等技术的迅猛发展,网络空间中所包含的大数据,即网络大数据,越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。Facebook注册用户超过15亿,每月上传的照片超过75亿张,每天生成500TB以上的日志数据;Twitter每天发出的tweets数量为4.8亿,目前,Twitter网站上产生的tweets数量已经达到3000亿;而每天会有3.16万个小时的视频上传到YouTube,足够一个人昼夜不息地观看3.6年。根据国际数据公司IDC(International Data Corporation)的测算,2016年网络空间大约拥有1200EB的数据,2017年将会增长40%,超过1400EB,截至2020年,将会达到15000EB,超出了目前磁盘空间的存储能力。因此,如何进行有效地存储网络大数据是一个重要的技术问题。
目前,主流的网络大数据存储系统主要有以下五种:(1)分布式网络大数据存储系统:包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其分而治之的策略能够更好的处理大规模数据分析问题。(2)NoSQL网络大数据存储系统:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等。(3)基于图的网络大数据存储系统:使用带有节点、边和属性的图形结构来表示和存储网络大数据,它可以有效地管理网络大数据对象之间的关系。(4)基于RDF(资源描述框架:Resource Description Framework)的网络大数据存储系统:RDF是用于Web信息资源管理的半结构化数据模型,它提供了一个本体,表示将资源分组为概念并标识这些概念之间的关系的语言。(5)云网络大数据存储系统:基于云计算技术发展的一种共享基础架构的方法,是部署和虚拟化在云计算环境中的数据库,它具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。
然而,目前这些主流的网络大数据存储系统在存储多模态的网络大数据时,存在不容易部署、存储空间效率低以及存储时间代价高的缺陷。
发明内容
有鉴于此,本发明实施例提供一种便于部署、空间效率高且时间代价低的面向多模态网络大数据的层次型存储方法及系统。
一方面,本发明实施例提供了一种面向多模态网络大数据的层次型存储方法,包括以下步骤:
根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;
将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;
基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;
基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。
进一步,所述根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量这一步骤,包括以下步骤:
将模态集合划分为若干个不相交的模态子集;
根据模态子集,获取数据对象在每一个模态子集上的特征向量;
根据每个数据对象在所有模态子集上的特征向量,构建每个数据对象的模态列表。
进一步,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;
所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。
进一步,所述将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量这一步骤,包括以下步骤:
分别将每个数据对象的模态列表中第一部分的特征向量进行第一降维处理,得到第一邻接特征向量;
分别将每个数据对象的模态列表中第二部分的特征向量进行第二降维处理,得到第二邻接特征向量;
对第一邻接特征向量和第二邻接特征向量进行第三降维处理,得到全局特征向量。
进一步,所述第一降维处理、第二降维处理和第三降维处理均为通过自编码器进行降维处理。
进一步,所述基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度这一步骤,包括以下步骤:
根据融合后的全局模态特征向量,计算不同数据对象之间的第一元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第二元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第三元特征相似度指标值;
根据计算得到的第一元特征相似度指标值、第二元特征相似度指标值和第三元特征相似度指标值,计算不同数据对象之间的特征相似度。
进一步,所述基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储这一步骤,包括以下步骤:
根据计算得到的特征相似度,采用谱聚类技术对多模网络大数据进行第一划分,得到第一层数据子集;
判断第一层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第一层的每个数据子集存储于相应的网络存储节点上;反之,则执行下一步骤;
基于广度优先策略,采用谱聚类技术对第一层数据子集进行第二划分,得到第二层数据子集;
判断第二层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第二层的每个数据子集存储于相应的网络存储节点上;反之,则继续基于广度优先策略,采用谱聚类技术对第二层数据子集进行划分处理,直至划分得到的数据子集符合网络存储节点的磁盘空间大小要求后,将划分得到的数据子集存储于相应的网络存储节点上。
另一方面,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:
特征获取模块,用于根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;
特征融合模块,用于将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;
相似度计算模块,用于基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;
存储模块,用于基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。
进一步,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;
所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。
另一方面,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的面向多模态网络大数据的层次型存储方法。
上述本发明实施例中的一个或多个技术方案具有如下优点:本发明的实施例首先获取每个数据对象在对应模态上的特征向量,然后将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量,接着计算不同数据对象间的特征相似度,最后基于广度优先策略,采用谱聚类技术对多模态网络大数据进行划分,并对划分得到的数据子集进行层次型存储;本发明充分考虑了不同模态的网络大数据,能够大幅度提高多模态网络大数据的存储空间效率以及使用效率;另外,本发明基于广度优先策略,利用谱聚类递归划分并存储多模态网络大数据,这样能够大幅度降低无效存储的时间开销,从而能够显著降低存储的总体时间代价;本发明结构清晰、逻辑合理,各个模块之间的耦合度低,易于部署和实现。
附图说明
图1为本发明的整体步骤流程示意图;
图2为本发明实施例的工作流程示意图。
具体实施方式
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明实施例提供了一种面向多模态网络大数据的层次型存储方法,包括以下步骤:
根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;
将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;
基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;
基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。
具体的,本发明以多模态网络大数据NBD(D,H,G)为输入,其中D={d1,d2,…,dt}为t个数据对象的集合,H={h1,h2,…,hn}为n个模态的集合,G={G1,G2,…,Gt}为t个数据对象所对应的模态信息集合,即第i(1≤i≤t)个数据对象对应的模态信息为Gi={wi,1,wi,2,…,wi,n},wi,j(1≤j≤n)为第i个对象在第j个模态上的描述信息。
进一步作为优选的实施方式,所述根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量这一步骤,包括以下步骤:
将模态集合划分为若干个不相交的模态子集;
根据模态子集,获取数据对象在每一个模态子集上的特征向量;
根据每个数据对象在所有模态子集上的特征向量,构建每个数据对象的模态列表。
具体的,本发明针对网络大数据的每一个模态hj∈H,获取每个数据对象di∈D在模态hj上的特征向量,包括以下步骤:
步骤1:将模态集合H划分为6个不相交的模态子集H1、H2、H3、H4、H5和H6,其中H1中包含所有a1个离散属性模态,H2中包含所有a2个连续属性模态,H3中包含所有a3个文本模态,H4中包含所有a4个图片模态,H5中包含所有a5个视频模态,H6中包含所有a6个语音模态;
步骤2:基于模态信息集合G,做如下处理:对于H1中的每一个离散属性模态,获取每个数据对象di在该模态上的one-hot(独热)特征向量;对于H2中的每一个连续属性模态,首先将它的取值域分为若干个区间,每个区间对应一个虚拟的属性类别,从而获取每个数据对象di在该模态上的one-hot特征向量;对于H3中的每一个文本模态,使用Transformer(转化器)工具抽取每个数据对象di在该模态上的文本特征向量;对于H4中的每一个图片模态,使用YOLO-9000(You Only Look Once:“一遍图像识别”)工具抽取每个数据对象di在该模态上的图片特征向量;对于H5中的每一个视频模态,使用3D ConvNets(三维卷积神经网络)工具抽取每个数据对象di在该模态上的视频特征向量;对于H6中的每一个语音模态,使用FSMN(Feed-forward Sequential Memory Network,深度全序列卷积神经网络)工具抽取每个数据对象di在该模态上的语音特征向量;
步骤3:对于每个数据对象di,构建长度为n的模态列表Li,列表的第j个元素为di在模态hj上的特征向量vi,j,列表中模态的排列顺序按步骤1中划分后的模态子集顺序,即H1、H2、H3、H4、H5和H6
进一步作为优选的实施方式,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;
所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。
进一步作为优选的实施方式,所述将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量这一步骤,包括以下步骤:
分别将每个数据对象的模态列表中第一部分的特征向量进行第一降维处理,得到第一邻接特征向量;
分别将每个数据对象的模态列表中第二部分的特征向量进行第二降维处理,得到第二邻接特征向量;
对第一邻接特征向量和第二邻接特征向量进行第三降维处理,得到全局特征向量。
具体的,本实施例对于每个数据对象di,将它所对应列表Li中的n个模态特征向量vi,1,vi,2,…,vi,n融合成一个全局模态特征向量g_vi,过程由如下3个步骤组成:
步骤1:将Li中前(a1+a2)个模态特征向量通过b1层自编码器降维成长度为r1的邻接特征向量pi,1
步骤2:将Li中后(a3+a4+a5+a6)个模态特征向量通过b2层自编码器降维成长度为r2的邻接特征向量pi,2
步骤3:将邻接特征向量pi,1和邻接特征向量pi,2通过b3层自编码器降维成长度为r3的全局模态特征向量g_vi
进一步作为优选的实施方式,所述第一降维处理、第二降维处理和第三降维处理均为通过自编码器进行降维处理。
进一步作为优选的实施方式,所述基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度这一步骤,包括以下步骤:
根据融合后的全局模态特征向量,计算不同数据对象之间的第一元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第二元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第三元特征相似度指标值;
根据计算得到的第一元特征相似度指标值、第二元特征相似度指标值和第三元特征相似度指标值,计算不同数据对象之间的特征相似度。
具体的,本实施例基于得到的所有数据对象融合后的全局模态特征向量,计算任意两个数据对象di,dj∈D之间的特征相似度,从而产生行数和列数均等于t的数据对象特征相似度矩阵T。di和dj之间的特征相似度计算过程由如下4个步骤组成:
步骤1:计算di和dj的第一元特征相似度指标值yij (1)
步骤2:计算di和dj的第二元特征相似度指标值yij (2)
步骤3:计算di和dj的第三元特征相似度指标值yij (3)
步骤4:综合上述三元特征相似度指标值并获得最终的特征相似度yij=λ1yij (1)2yij (2)3yij (3),其中λ1,λ2和λ3为控制因子,且λ123=1。
进一步作为优选的实施方式,所述基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储这一步骤,包括以下步骤:
根据计算得到的特征相似度,采用谱聚类技术对多模网络大数据进行第一划分,得到第一层数据子集;
判断第一层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第一层的每个数据子集存储于相应的网络存储节点上;反之,则执行下一步骤;
基于广度优先策略,采用谱聚类技术对第一层数据子集进行第二划分,得到第二层数据子集;
判断第二层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第二层的每个数据子集存储于相应的网络存储节点上;反之,则继续基于广度优先策略,采用谱聚类技术对第二层数据子集进行划分处理,直至划分得到的数据子集符合网络存储节点的磁盘空间大小要求后,将划分得到的数据子集存储于相应的网络存储节点上。
具体的,本实施例基于第三阶段中构造的数据对象特征相似度矩阵T,对于多模态网络大数据NBD,使用谱聚类技术产生k1个第一层的数据子集,然后判断第一层的每个数据子集是否符合网络存储节点的磁盘空间大小要求,如果某一个数据子集不符合要求,那么使用谱聚类技术继续划分它。从而,基于广度优先策略,递归执行上述过程,使得网络存储节点的磁盘空间能够容纳划分后的所有数据子集。最终,本发明得到k个数据子集NBD1,NBD2,…,NBDk,并将它们存储于相应的网络存储节点上,k为叶子节点的数量。
下面以1000万个数据对象的网络大数据为例,详细描述本发明一种面向多模态网络大数据的层次型存储方法的具体实施步骤:
如图2所示,本发明的具体实施方法包括四个阶段,分别为:
第一阶段:针对网络大数据的每一个模态hj∈H,获取每个数据对象di∈D在模态hj上的特征向量;
第二阶段:对于每个数据对象di,将它所对应列表Li中的n个模态特征向量vi,1,vi,2,…,vi,n融合成一个全局模态特征向量g_vi
第三阶段:基于第二阶段中得到的所有数据对象融合后的全局模态特征向量,计算任意两个数据对象di,dj∈D之间的特征相似度,从而产生行数和列数均等于t的数据对象特征相似度矩阵T;
第四阶段:得到k个数据子集NBD1,NBD2,…,NBDk,并将它们存储于相应的网络存储节点上。
本实施例使用1000万个数据对象的网络大数据,即t=1000万,模态个数n=15,包括8个离散属性模态个数、3个连续属性模态、1个文本模态、1个图片模态、1个视频模态以及1个语音模态,即第一阶段中,a1=8,a2=3,a3=a4=a5=a6=1。另外,在第一阶段中,8个离散属性模态上的one-hot特征向量的长度分别为10、5、5、15、20、5、15和10,3个连续属性模态上的one-hot特征向量的长度分别为20、15和30,而文本模态、图片模态、视频模态和语音模态上的特征向量的长度均设置为200。
在第二阶段的步骤1中,本发明构造5层自编码器(即b1=5)如下:第1层为神经元个数等于200的全连接层,第2层为神经元个数等于150的全连接层,第3层为神经元个数等于100的全连接层((即r1=100),第4层为神经元个数等于150的全连接层,第5层为神经元个数等于200的全连接层。
对于步骤1中的5层自编码器,本实施例使用如下损失函数:
Figure BDA0002115652450000081
其中,z为自编码器训练是的最小批样本集大小,
Figure BDA0002115652450000082
为第i个训练样本在第五层全连接层中所对应第j个神经元的取值,F1 i[j]为第i个训练样本在第一层全连接层中所对应第j个神经元的取值。
在第二阶段的步骤2中,本发明构造7层自编码器(即b2=7)如下:第1层为神经元个数等于600的全连接层,第2层为神经元个数等于450的全连接层,第3层为神经元个数等于350的全连接层,第4层为神经元个数等于300的全连接层((即r2=300),第5层为神经元个数等于350的全连接层,第6层为神经元个数等于400的全连接层,第7层为神经元个数等于450的全连接层。
对于步骤2中的7层自编码器,本发明使用如下损失函数:
Figure BDA0002115652450000083
其中,
Figure BDA0002115652450000084
为第i个训练样本在第七层全连接层中所对应第j个神经元的取值。
在第二阶段的步骤3中,本发明构造5层自编码器(即b3=5)如下:第1层为神经元个数等于350的全连接层,第2层为神经元个数等于250的全连接层,第3层为神经元个数等于200的全连接层(即r3=200),第4层为神经元个数等于250的全连接层,第5层为神经元个数等于350的全连接层。
对于步骤3中的5层自编码器,本发明使用如下损失函数:
Figure BDA0002115652450000091
在第三阶段的步骤1中,本发明使用如下公式计算di和dj的第一元特征相似度指标值yij (1)
Figure BDA0002115652450000092
其中,g_vi和g_vj分别为di和dj对应的全局模态特征向量,长度为200,g_vi[x]和g_vj[x]分别为两个全局模态特征向量在其第x分量上的取值。
在第三阶段的步骤2中,本发明使用如下公式计算di和dj的第二元特征相似度指标值yij (2)
Figure BDA0002115652450000093
/>
在第三阶段的步骤3中,本发明使用如下公式计算di和dj的第三元特征相似度指标值yij (3)
Figure BDA0002115652450000094
在第三阶段的步骤4中,三个控制因子中λ1,λ2和λ3的取值分别设置为0.5,0.3和0.2。
当第三阶段实施完毕之后,本发明得到了一个1000万行和1000万列的特征相似度矩阵T(其中t=1000万):
Figure BDA0002115652450000095
在第四阶段中,本发明将多模态网络大数据NBD作为根节点层(即第0层),利用第三阶段中构造的数据对象特征相似度矩阵T,基于广度优先策略,使用谱聚类技术对它进行递归划分,使得划分后所得到的每个数据子集均符合网络存储节点的磁盘空间大小要求为止,停止第四阶段的运行。
在递归划分的过程中,对于第i层的第j个数据子集NBDij,如果它不符合要求,那么使用谱聚类技术产生ki,j个数据子集NBD1,NBD2,…,NBDkij,这里ki,j=100/i,过程如下:
(1)从数据对象特征相似度矩阵T,获取与数据子集NBDij相关的数据对象特征相似度子矩阵Tij,Tij的行和列代表NBDij中的每个数据对象,因此它的行数和列数均等于NBDij中的数据对象数量,记为nij,而Tij的单元格内容为对应两个数据对象的特征相似度;
(2)使用如下公式计算Tij的对角特征相似度矩阵Td(1≤x,y≤nij):
Figure BDA0002115652450000101
(3)使用如下公式计算基于Tij和Td的拉普拉斯矩阵TL
Figure BDA0002115652450000102
(4)获取TL前ki,j个最小特征向量,并构成矩阵Y,它的行数和列数分别为nij和ki,j
(5)对Y实施聚类,产生ki,j个数据子集NBD1,NBD2,…,NBDkij
与图1的方法相对应,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:
特征获取模块,用于根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;
特征融合模块,用于将每个数据对象所对应的多个模态上的特征向量融合成一个全局特征向量;
相似度计算模块,用于基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;
存储模块,用于基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储。
进一步作为优选的实施方式,所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;
所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。
与图1的方法相对应,本发明实施例还提供了一种面向多模态网络大数据的层次型存储系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的面向多模态网络大数据的层次型存储方法。
综上所述,本发明面向多模态网络大数据的层次型存储方法及系统具有以下优点:
1.本发明充分考虑网络大数据多种不同模态类别及其描述信息,并将全局模态特征最相似的数据对象存储于同一个或相邻的网络存储节点上,从而能够大幅度提高多模态网络大数据的存储空间效率以及使用效率。
2.本发明基于广度优先策略,利用谱聚类递归划分并存储多模态网络大数据,这样能够大幅度降低无效存储的时间开销,从而能够显著降低存储的总体时间代价。
3.本发明结构清晰,逻辑合理,模块之间耦合度较低,易于实现和部署,不仅可以快速扩展到分布式和并行化的开发环境中,而且有助于扩展以及测试维护。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (6)

1.面向多模态网络大数据的层次型存储方法,其特征在于:包括以下步骤:
根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;
将每个数据对象所对应的多个模态上的特征向量融合成一个全局模态特征向量;
基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;
基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储;
所述根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量这一步骤,包括以下步骤:
将模态集合划分为若干个不相交的模态子集;
根据模态子集,获取数据对象在每一个模态子集上的特征向量;
根据每个数据对象在所有模态子集上的特征向量,构建每个数据对象的模态列表;
所述将每个数据对象所对应的多个模态上的特征向量融合成一个全局模态特征向量这一步骤,包括以下步骤:
分别将每个数据对象的模态列表中第一部分的特征向量进行第一降维处理,得到第一邻接特征向量;
分别将每个数据对象的模态列表中第二部分的特征向量进行第二降维处理,得到第二邻接特征向量;
对第一邻接特征向量和第二邻接特征向量进行第三降维处理,得到全局模态特征向量;
所述第一降维处理、第二降维处理和第三降维处理均为通过自编码器进行降维处理;
所述基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度这一步骤,包括以下步骤:
根据融合后的全局模态特征向量,计算不同数据对象之间的第一元特征相似度指标值;计算所述第一元特征相似度指标值的计算公式为:
Figure FDA0004171964050000011
其中,di为一个数据对象,dj为另一个数据对象,g_vi和g_vj分别为di和dj对应的所述全局模态特征向量,g_vi[x]和g_vj[x]分别为两个所述全局模态特征向量在其第x分量上的取值,yij (1)为所述第一元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第二元特征相似度指标值;
计算所述第二元特征相似度指标值的计算公式为:
Figure FDA0004171964050000021
其中,yij (2)为所述第二元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第三元特征相似度指标值;
计算所述第三元特征相似度指标值的计算公式为:
Figure FDA0004171964050000022
其中,yij (3)为所述第三元特征相似度指标值;
根据计算得到的所述第一元特征相似度指标值、所述第二元特征相似度指标值和所述第三元特征相似度指标值,结合控制因子计算不同数据对象之间的特征相似度,计算公式为yij=λ1yij (1)2yij (2)3yij (3),其中,yij为所述特征相似度,λ1、λ2和λ3为所述控制因子,且λ123=1。
2.根据权利要求1所述的面向多模态网络大数据的层次型存储方法,其特征在于:
所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;
所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。
3.根据权利要求1所述的面向多模态网络大数据的层次型存储方法,其特征在于:所述基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储这一步骤,包括以下步骤:
根据计算得到的特征相似度,采用谱聚类技术对多模网络大数据进行第一划分,得到第一层数据子集;
判断第一层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第一层的每个数据子集存储于相应的网络存储节点上;反之,则执行下一步骤;
基于广度优先策略,采用谱聚类技术对第一层数据子集进行第二划分,得到第二层数据子集;
判断第二层数据子集是否符合网络存储节点的磁盘空间大小要求,若是,则将第二层的每个数据子集存储于相应的网络存储节点上;反之,则继续基于广度优先策略,采用谱聚类技术对第二层数据子集进行划分处理,直至划分得到的数据子集符合网络存储节点的磁盘空间大小要求后,将划分得到的数据子集存储于相应的网络存储节点上。
4.面向多模态网络大数据的层次型存储系统,其特征在于:包括:
特征获取模块,用于根据多模网络大数据的每一个模态信息,获取每个数据对象在对应模态上的特征向量;
特征融合模块,用于将每个数据对象所对应的多个模态上的特征向量融合成一个全局模态特征向量;
相似度计算模块,用于基于融合后的全局模态特征向量,计算不同数据对象间的特征相似度;
存储模块,用于基于广度优先策略,根据计算得到的特征相似度,采用谱聚类技术对多模态网络大数据进行划分,然后对划分得到的数据子集进行层次型存储;
其中,所述特征获取模块,具体用于:
将模态集合划分为若干个不相交的模态子集;
根据模态子集,获取数据对象在每一个模态子集上的特征向量;
根据每个数据对象在所有模态子集上的特征向量,构建每个数据对象的模态列表;
其中,所述特征融合模块,具体用于:
分别将每个数据对象的模态列表中第一部分的特征向量进行第一降维处理,得到第一邻接特征向量;
分别将每个数据对象的模态列表中第二部分的特征向量进行第二降维处理,得到第二邻接特征向量;
对第一邻接特征向量和第二邻接特征向量进行第三降维处理,得到全局模态特征向量;
所述第一降维处理、第二降维处理和第三降维处理均为通过自编码器进行降维处理;
其中,所述相似度计算模块,具体用于:
根据融合后的全局模态特征向量,计算不同数据对象之间的第一元特征相似度指标值;计算所述第一元特征相似度指标值的计算公式为:
Figure FDA0004171964050000031
其中,di为一个数据对象,dj为另一个数据对象,g_vi和g_vj分别为di和dj对应的所述全局模态特征向量,g_vi[x]和g_vj[x]分别为两个所述全局模态特征向量在其第x分量上的取值,yij (1)为所述第一元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第二元特征相似度指标值;
计算所述第二元特征相似度指标值的计算公式为:
Figure FDA0004171964050000041
其中,yij (2)为所述第二元特征相似度指标值;
根据融合后的全局模态特征向量,计算不同数据对象之间的第三元特征相似度指标值;
计算所述第三元特征相似度指标值的计算公式为:
Figure FDA0004171964050000042
其中,yij (3)为所述第三元特征相似度指标值;
根据计算得到的所述第一元特征相似度指标值、所述第二元特征相似度指标值和所述第三元特征相似度指标值,结合控制因子计算不同数据对象之间的特征相似度,计算公式为yij=λ1yij (1)2yij (2)3yij (3),其中,yij为所述特征相似度,λ1、λ2和λ3为所述控制因子,且λ123=1。
5.根据权利要求4所述的面向多模态网络大数据的层次型存储系统,其特征在于:
所述多模网络大数据包括数据对象集合、模态集合和每个数据对象所对应的模态信息集合;
所述模态子集包括离散属性模态、连续属性模态、文本模态、图片模态、视频模态和语音模态。
6.面向多模态网络大数据的层次型存储系统,其特征在于:包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-3中任一项所述的面向多模态网络大数据的层次型存储方法。
CN201910589898.3A 2019-07-02 2019-07-02 面向多模态网络大数据的层次型存储方法及系统 Active CN110456985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910589898.3A CN110456985B (zh) 2019-07-02 2019-07-02 面向多模态网络大数据的层次型存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910589898.3A CN110456985B (zh) 2019-07-02 2019-07-02 面向多模态网络大数据的层次型存储方法及系统

Publications (2)

Publication Number Publication Date
CN110456985A CN110456985A (zh) 2019-11-15
CN110456985B true CN110456985B (zh) 2023-05-23

Family

ID=68482035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910589898.3A Active CN110456985B (zh) 2019-07-02 2019-07-02 面向多模态网络大数据的层次型存储方法及系统

Country Status (1)

Country Link
CN (1) CN110456985B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995804A (zh) * 2013-05-20 2014-08-20 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2943898A1 (en) * 2013-01-10 2015-11-18 Thomson Licensing Method for identifying objects in an audiovisual document and corresponding device
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN105160357A (zh) * 2015-08-31 2015-12-16 中国科学院自动化研究所 基于全局一致性和局部拓扑的多模态数据子空间聚类方法
CN106127260A (zh) * 2016-07-04 2016-11-16 北京交通大学 一种新颖的多源数据模糊聚类算法
US10061985B2 (en) * 2016-12-30 2018-08-28 Facebook, Inc. Video understanding platform
CN107247774A (zh) * 2017-06-08 2017-10-13 西北工业大学 一种面向群智多模态数据的处理方法及系统
CN109919172A (zh) * 2018-12-25 2019-06-21 华中科技大学鄂州工业技术研究院 一种多源异构数据的聚类方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995804A (zh) * 2013-05-20 2014-08-20 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置

Also Published As

Publication number Publication date
CN110456985A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN111462137A (zh) 一种基于知识蒸馏和语义融合的点云场景分割方法
US20220147877A1 (en) System and method for automatic building of learning machines using learning machines
CN112906865B (zh) 神经网络架构搜索方法、装置、电子设备及存储介质
CN113792768A (zh) 超图神经网络分类方法和装置
Iandola Exploring the design space of deep convolutional neural networks at large scale
CN107305543A (zh) 对实体词的语义关系进行分类的方法和装置
CN114626503A (zh) 模型的训练方法、目标检测方法、装置、电子设备及介质
Zhang et al. Repnas: Searching for efficient re-parameterizing blocks
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
CN113254729A (zh) 基于动态超图网络的多模态演化特征自动共形表示方法
CN110456985B (zh) 面向多模态网络大数据的层次型存储方法及系统
Zhan et al. Field programmable gate array‐based all‐layer accelerator with quantization neural networks for sustainable cyber‐physical systems
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN115440384A (zh) 一种基于多任务学习的医疗知识图谱的处理方法及系统
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
CN107122472A (zh) 大规模非结构化数据提取方法、其系统、分布式数据管理平台
Yang et al. Multi-scale shape boltzmann machine: A shape model based on deep learning method
Li A study on the construction of translation curriculum system for english majors from the perspective of human-computer interaction
CN113837374A (zh) 神经网络的生成方法、设备及计算机可读存储介质
CN116227585B (zh) 集群任务的并行执行方法、装置、计算机设备和存储介质
CN117235533B (zh) 对象变量分析方法、装置、计算机设备和存储介质
CN109523569A (zh) 一种基于多粒度网络融合的光学遥感图像分割方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant