CN104346438A

CN104346438A - 基于大数据数据管理服务系统

Info

Publication number: CN104346438A
Application number: CN201410466994.6A
Authority: CN
Inventors: 姜骁; 熊桂喜; 杜博文; 詹俊峰; 肖道锐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-09-14
Filing date: 2014-09-14
Publication date: 2015-02-11
Anticipated expiration: 2034-09-14
Also published as: CN104346438B

Abstract

一种基于大数据数据管理服务系统，包括：异构数据的归一化描述模块，数据语义化模块，数据存储性能模块，数据逻辑管理模块，数据场景化及服务匹配模块和数据展示模块。基于场景的大数据管理服务系统解决的问题如下：第一，现在数据体量(volumes)大，其次数据类别(variety)大，数据来自多种数据源，数据种类和格式丰富综合形成了存储困难的问题。第二，数据异构的描述。大数据多源的数据形成了一个个数据孤岛。在每种数据源中不但有各不相同的数据结构，同时也有不同的命名体系。即使同构的数据也无法互通。第三，数据匹配难题，由于数据种类的结构不同形成的数据匹配问题，查准率和召回率低下，查询代价高昂。

Description

基于大数据数据管理服务系统

技术领域

本发明涉及大数据管理服务，属于计算机与网络技术应用领域。

背景技术

根据IDC做出的估测，数据一直都在以每年50％的速度增长，也就是说每两年就增长一倍(大数据摩尔定律)，这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量，预计到2020年，全球将总共拥有35亿GB的数据量，相较于2010年，数据量将增长近30倍。这不是简单的数据增多的问题，而是全新的问题。

“大数据”是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。它的特点首先是数据体量(volumes)大，指代大型数据集，一般在10TB规模左右，在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别(variety)大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。

整个网络系统会产生数量巨大的数据，如何存储产生的这些海量数据，已经是一个摆在面前亟待解决的问题。

但是这只解决了大数据的一个问题，即数据存储。伴随着数据量的不断增长，还有一个问题日益凸显：数据查询。对海量数据来说驳杂的数据是没有价值的，并且精确的查找是难度很高且准确率不高的工作。

发明内容

本发明要解决的技术问题：海量数据的存储问题、异构数据的统一描述和数据服务匹配的查准率和召回率低的问题。提供可扩展、易用、高可靠性的大数据管理服务系统。

本发明采用的技术方案：基于大数据数据管理服务系统，其特征在于：异构数据本体描述子系统、数据逻辑管理子系统和数据服务匹配子系统。

异构数据本体描述子系统：提供本体数据的下载、查找和添加。管理系统在添加数据之前对该数据进行本体库内本体查找也可下载查看，若有相吻合的数据描述本体则将之引用在数据注册的本体描述中，反之则新建本体描述，按要求提供新建所需属性内容，并添加到本体描述库中。本体库的数据有层次和关联关系，支持用户进行数据推演任务。

数据逻辑管理子系统：数据物理存储采用Hbase.HBase(Apache的开源技术)是一个分布式的、面向列的数据存储系统。通过在HDFS上提供随机读写来解决传统数据库不能处理的问题。第一，HBase自底层设计开始就聚焦于可伸缩性的问题：表可以很大，将其水平分区并在上千个普通节点上自动复制。(自动复制出多份以便备用、同时进行的)表的模式是物理存储的直接反映，使系统有可能提供高效的数据结构的序列化、存储和检索。第二，HBase没有真正的索引，由于行是顺序存储的，每行中的列也是顺序存储的所以不存在索引膨胀的问题，而且插入性能和表的大小无关。第三，自动分区：在表增长的时候，表会自动分裂成区域，并分布到可用的节点上。第四，线性扩展和对于新节点的自动处理：增加一个节点，把它指向现有集群，并运行Regionserver。区域自动重新进行平衡，负载会均匀分布。第五，普通商用硬件支持：集群可以用1000到5000美金的单个节点搭建。

采用Hbase存储系统系统进行I/O优化和region热点问题解决。

I/O优化，从系统的各种统计指标分析，系统读写HBase的环节耗时过长，读取HBase日志可知RegionServer在频繁地flush和compact。分析发现当前hbase版本里有PeriodicFlusher的机制，memstore中的数据若持续一段时间没有flush的话hbase会自动触发flush，这个时间间隔默认是1小时。在将这个配置调整为10小时后，Flush队列大小和文件读取延时都有明显变小。

region热点，Hbase的写入过程中会出现数据堆积在一个regionserver的情况，写入效率极大降低，并且占用的网络信道，整个集群的其他任务均受影响。解决这个问题的办法是将热点regionserver下的region手动分散在多个regionserver中，在读写的过程中实现并行。查看Hbase中数据的存储结构，可以知道Hbase存储中rowkey是字典有序的，rowkey也决定了region的分配。因此本系统进行了rowkey原则设计。

数据服务匹配子系统：数据匹配主要实现数据需求和共享数据的检索匹配工作，是数据共享系统的核心功能之一。数据匹配不仅要达到准确的目的还要尽可能的减少查询代价。

本系统的数据匹配是基于场景的数据服务匹配，数据场景化如下：

在数据分享到大数据系统中时会对数据服务中的数据信息进行抽取，若在抽象语义中通过语义分析，或本体验证，就能添加在此场景分类中，并验证下一个场景。但是新分享的数据通常不会出现在以上两种验证方式中，所以就需要更复杂的验证方法，属性验证，属性验证步骤如下：

根据当前数据查询本体，并获得相应属性(这也是数据本体描述的目的之一，在不同结构，名称，描述下获得相同的属性标识)。

根据该场景下属性维度，提取数据相应属性信息，在当前分类器下，判定数据是否符合该场景。记录结果验证下一场景。

在此方法下就有一个关键问题，如何准确的对数据进行场景分类。因为每个场景识别是典型的二分类问题，对于不同的场景分类，有不同的维度，但平均维度均在20以上。对此SVM分类器有显著的优势。SVM结构简单，泛化能力强，同时在高维数据特征及非线性数据分类有较其他算法有计算代价小，时间复杂度低及全局收敛的特点。SVM对给定样本，利用非线性映射函数，将低维不可分样本投射到高纬度空间，在高维空间中线性分割，寻找决策分割超平面，使得两类样本正确分割。

在场景识别的过程中，初期并不能将所有的数据都做好场景表示，并且用来训练分类器的已标识数据集的数据不能将分类器训练到准确可用的精度，这就需要在未标识的数据中扩大训练集，提高分类器精度。据此将K最近邻(k-Nearest Neighbour，KNN)分类算法作为补充，来半监督SVM分类器，KNN适用于样本容量比较大的分类，对大数据的问题有天然优势。KNN对于未知的样本数据，计算比较它与其他所有已知数据集中数据的欧式距离，从而判定与它最近数据的同类关系。

在大数据中大规模的数据样本是未含标记的，以人工的方式进行标记是耗费体力而又效率不高。仅仅采用少量已标记样本训练分类器，精度远远达不到可用标准。在此前提下如果能利用少数的已标记样本而获得精确的分类就尤为重要，所以引入了KNN来辅助SVM学习，对大量的未标记的数据分类标记，扩大训练集，训练SVM。

首先对已标记的数据做粗略的训练，得到初期简单的分类器Q-SVM。此时的SVM由于样本较少，对未知数据的分类鉴别能力较弱，不能正确区分未标记数据，尤其边界数据分类模糊，置信度低。但是在分类边界的数据是分类器学习的关键数据，对分类器的精度有关键决定作用，所以要对边界有可能分类正确，也有可能分类错误的数据利用KNN来辅助鉴别和学习。SVM找到分类边界数据，和KNN共同标记数据，将新标记的数据样本放入训练样本，SVM进一步训练修正，以此方式直到SVM的分类精度通过验证。

KNN半监督SVM的具体流程如下：

算法的具体步骤如下：

步骤一：对所有数据进行归一化处理，提取该场下相关维度数据。

步骤二：将已标记样本作为训练样本，其余为测试样本，利用训练样本和测试样本SVM进行训练学习。

步骤三：根据训练结果构建分类模型。

步骤四：对构建的分类模型做CV验证，若精度达到要求则停止，宣布分类器可用，否则继续步骤五。

步骤五：精度未达标的SVM将数据分为可信A和非可信B两类数据集，对数据集A中的每个数据求得相距数据B的欧式聚类，得到距离最近的N个点，同理求得B中距离A最近的N个点。这2N个点是SVM分类的边界，也最有可能是支持向量，对2N个点KNN进行标示，将结果集加入训练集，继续步骤二。

训练结束，数据场景SVM分类器可用有效后，对每个数据服务进行场景匹配，并将符合该场景的数据添加至此场景的数据主体中，依次完成场景分类。每当有新的数据服务被提交时，首先对此数据服务做场景分类，以便服务匹配。

查询主要分为属性查询和语义查询两部分。属性查询属于是较精确查询，可以在根须本体查询的结果进行更精确的查找。语义查询可定义为模糊查询，它主要是根据用户提供的语义进行匹配。

属性匹配的过程如下：

A)是否提供本体属性，如果提供则直接根据后续条件查询，返回结果集。若无本体信息则继续。

B)获取提交属性信息，查询本体获得数据属性，进行匹配。若有属性完全相匹配的则根据提交条件，返回结果集。若无，则根据结果匹配度排序，返回推荐结果集。

C)根据返回结果，获得返回数据的数据关系。

D)推荐用户查询相关数据。

E)提供数据结果和下载页。

语义匹配是根据用户提交的查询语义，从共享数据中匹配满足用户需求的相关数据。对用户的语义标签原则上不做要求，自然语言词汇元素均可。语义匹配也不是孤立的系统，是在建立的语义词林之上形成的匹配规则。语义词林中将语义词汇元素分为了三类：标签、时间和本体。

语义匹配的过程如下：

A)提取用户提交语义；

B)将语义分类为：本体、时间和标签；

C)若无本体则D，有本体则匹配本体，若匹配成功则E，反之返回数据候选集；

D)直接进行属性匹配，根据属性匹配度返回结果集；

E)对时间进行匹配，若成功，则返回结果集，不成功则返回候选集；

F)根据数据返回集和候选集返回结果；

G)提供数据结果和下载页。

本发明与现有技术相比具有的有益效果在于：

1、本系统解决了海量数据存储的效率和容量问题；

2、本系统解决了异构数据无法准确表示和理解的问题；

3、本系统给出了Hbase的性能相关参数和解决方法，对集群性能的进一步优化给出了解决犯法；

4、本系统给出了大数据下数据的管理和共享的方式，采用共享方、注册中心和请求者方式；

5、本系统给出了数据服务匹配的关键办法，提高了数据服务匹配的准确率和召回率，并且显著的提高了时间效率；

6、本系统易实现且可扩展，采用普通商用PC即可实现对整个存储集群的扩展，价格低廉，操作性强。

附图说明

图1为本发明的系统架构图；

图2为本发明的系统事务流程图；

图3为本发明的系统语义分层；

图4为本发明的场景构成；

图5为本发明的场景分类；

图6为本发明的数据分享流程；

图7为本发明的场景识别流程；

图8为本发明的数据匹配流程。

具体实施方式

如图1所示，系统整体分为三层：数据管理层、应用层和展示层。

数据管理层，是数据存储的物理单位管理。在凌云平台的hdfs基础上，采用了Hbase作为本地化数据的存储系统。在数据的存储过程中，由Hbase对数据的物理存储进行统一的管理(这也是Hbase自身的特性)。基于透明的物理存储，提高存储效率就要设计合理的rowkey。并且数据管理层是基础层，对向上两层具有直接的支持关系。换而言之，数据请求时的匹配和查找效率与底层数据设计息息相关。据此，根据Hbase自身特性和数据标准为数据制定了统一的rowkey命名规则和属性命名规则标准。极大的提升了数据识别度和匹配精确度。同时，数据管理层还包括对整个数据集群的运行监管。保证系统的可靠性和可用性，在集群系统出现问题的时候第一时间做出相应。

应用层，应用层是系统最重要的分层，系统的业务处理都在这一层，包括围绕三大业务的直接数据处理和间接的数据支持。主要分为：共享数据的添加，场景的识别，本体的添加发布、数据的匹配推荐和相关数据的展示计算。

展示层，展示层有三大业务，数据共享、数据请求和数据展示。所有业务均归档在三大业务之下，例如本体查询、数据查询、标准查看等。展示层是系统和用户的交互层，展示层必须提供完备的用户功能和正确可用的请求结果。

如图2所示，显示了数据管理系统的整个数据流程。从数据的来源到最后提供数据的完整过程。整个流程分为了三部分：数据来源、数据管理和数据服务。在图中也清晰的注明了各个流程中的难点和需解决的问题。数据的归一化描述，集群的负载，数据的语义化，场景分类，数据匹配和关系推理等。整个过程遇到的难点问题都作为本专利的核心部分在上文有完整的论述过程。

如图3所示，表述了数据服务请求的过程，数据请求不同于WEB服务，更多的是不确定的参数类型和数据描述。所以对此，更有效的查询办法是利用自然语义词汇进行查询，从数据源本身的特性除法进行描述匹配。

如图4所示，场景分类中按图中显示内容定义了场景，场景是一系列语义的具体化。

场景有三部分构成，抽象语义、定义语义和底层语义。底层的数据主体是场景构成的基本的元素，每个场景中的底层数据完成了大数据场景化的根本目的。中层定义语义层是对场景定义的关键。定义语义是数据跨越语义减小了数据和语义之间的鸿沟，使得数据和语义之间有效的映射和关联。同时也承担数据场景分类的重要任务。顶层抽象语义描述同时实现了功能性要求和数据之间关联关系，是定义语义的更高一层的语义抽象。也是最接近自然语言语义的抽象层。图5给出了训练的模型概念图。

如图6所示，数据管理系统的数据分享过程的数据流程图，数据分享功能的完整流程如下：

1)数据分享方按照给定标准将数据重新命名；

2)数据分享方将数据服务描述为WSDL文件；

3)数据分享放将数据在分享页面按照页面要求(即填写有关信息)将数据提交至数据中心；

4)数据中心根据提交的消息和WSDL文件提取相关信息，并将数据按照相关流程，分类管理和标记；

5)将允许本地化数据本地化。

根据上述描述，分享子系统提供一下服务：本地新建、标准下载、目录查询、WSDL提交、数据相关信息提交和数据归类。

如图7所示，本系统的场景分类过程，数据场景化的功能是为共享的数据找对应的场景，数据打场景的标签。值得一提的是同一个数据可能会从属多个场景，即一对多的关系。实现场景分类的功能需要完成以下两部分：场景定义和场景匹配。

1)场景定义

场景定义不是系统孤立的指标，而是基于数据标准制定的。场景的定义由6个个部分构成：场景名、本体集、属性集、语义集、属性权重和语义权重。

场景的定义过程如下：

A)定义本体集、定义属性集、定义语义集；

B)确定属性集合语义集各元素权重；

C)测试集测试；

D)根据结果调节权值，返回C。至到权值稳定；

2)场景匹配

场景匹配是将分享的数据做场景分类，将数据分类至不同的场景中。对场景分类而言，同一数据可以归类至不同的场景中，例如天气数据，可以在交通的场景下，也可以在社区的场景中。场景匹配的过程如下：

A)从WSDL和数据描述中抽取数据相关信息；

B)对场景进行本体匹配。不成功则继续，成功记录，匹配下一场景；

C)对场景进行属性匹配。从场景属性中获得此场景下的属性名，同时获得各属性的权值。通过数据的本体，查询数据的属性，对数据在该场景下的属性匹配度进行计算，获得得分。若不成功则继续，成功记录，匹配下一场景；

D)对场景进行语义匹配。从场景属性中获得此场景下的语义集，同时获得各语义的权值。通过数据的数据语义，对数据在该场景下的语义匹配度进行计算，获得得分。成功记录，匹配下一场景，否则直接匹配下一场景；

如图8所示，数据匹配主要实现数据需求和共享数据的检索匹配工作，是数据共享系统的核心功能之一。数据匹配不仅要达到准确的目的还要尽可能的减少查询代价。

属性匹配

属性匹配的过程如下：

A)是否提供本体属性，如果提供则直接根据后续条件查询，返回结果集。若无本体信息则继续；

B)获取提交属性信息，查询本体获得数据属性，进行匹配。若有属性完全相匹配的则根据提交条件，返回结果集。若无，则根据结果匹配度排序，返回推荐结果集；

C)根据返回结果，获得返回数据的数据关系；

D)推荐用户查询相关数据；

E)提供数据结果和下载页。

语义匹配

语义匹配是根据用户提交的查询语义，从共享数据中匹配满足用户需求的相关数据。对用户的语义标签原则上不做要求，自然语言词汇元素均可。语义匹配也不是孤立的系统，是在建立的语义词林之上形成的匹配规则。语义词林中将语义词汇元素分为了三类：标签、时间和本体。具体匹配如下：

A)提取用户提交语义；

B)将语义分类为：本体、时间和标签；

D)直接进行属性匹配，根据属性匹配度返回结果集；

F)根据数据返回集和候选集返回结果；

G)提供数据结果和下载页。

以上详细叙述了本发明的实现过程，未详细描述部分属于本领域公知技术。

Claims

1.一种基于大数据数据管理服务系统，其特征在于：包括异构数据本体描述子系统、数据逻辑管理子系统和数据服务匹配子系统；数据描述子系统是数据逻辑管理和数据服务匹配的基础；通过异构数据本体描述将异构的不易理解的数据用相同方式表征出来，使得能够理解数据内容；在此基础上，根据异构数据本体描述的内容，抽取部分信息，在逻辑上建立关联关系实现数据逻辑管理子系统，数据服务匹配子系统根据数据的逻辑关系和描述信息进行查找和匹配。

2.根据权利要求1所述的一种基于大数据数据管理服务系统，其特征在于：异构数据本体描述子系统采用OWL(Web Ontology Language)进行异构数据的描述和采用WSDL(Web Services Description Language)进行数据服务本身接口、参数的描述；根据W3C标准，引用通用本体库并通过自建本体库的形式完善数据共享领域的本体库；WSDL对数据服务的接口、类型、参数信息进行描述并同时引用OWL对数据本体进行说明，通过WSDL和OWL共同描述数据和数据服务。

3.根据权利要求1所述的一种基于大数据数据管理服务系统，其特征在于：数据逻辑管理子系统采用时间、空间和目录结构进行原始数据管理和采用场景化进行数据语义层次的数据分类管理；其中时间、空间和目录结构是单维度的数据关系，即从一个维度进行的数据关系的结构建立；场景化是多维度的数据关系管理，即在多个维度下共同符合同一场景的数据在一个数据场景中；场景定义是从属性、本体中抽取信息组成一个全方位立体的场景，包含不同种不同结构的相关数据；

场景定义和场景匹配：

1)场景定义：

场景的定义由6个个部分构成：场景名、本体集、属性集、语义集、属性权重和语义权重；

场景的定义过程如下：

A)定义本体集、定义属性集、定义语义集；

B)确定属性集合语义集各元素权重；

C)测试集测试；

D)根据结果调节权值，返回C，至到权值稳定。

4.根据权利要求1所述的一种基于大数据数据管理服务系统，其特征在于：数据服务匹配子系统能够通过本体、属性、和语义分别对数据服务进行匹配。

5.根据权利要求2所述的一种基于大数据数据管理服务系统，其特征在于：本体描述包括采用通用的本体命名空间和自定义本体命名空间。

6.根据权利要求3所述的一种基于大数据数据管理服务系统，其特征在于：场景化包括：利用属性，自然语义标签和描述语言进行数据关联分类，形成一个特定的数据场景。

7.根据权利要求4所述的一种基于大数据数据管理服务系统，其特征在于：数据服务匹配：匹配结果分为结果集和候选集，结果集表示数据服务完全匹配的结果，候选集是最大相似数据服务的集合，对候选数据服务进行结果评分，按要求返回最优若干个数据服务。

8.根据权利要求5所述的一种基于大数据数据管理服务系统，其特征在于：本体描述：采用OWL+RDF(Web Ontology Language网络本体语言、Resource DescriptionFramework资源描述框架)进行本体描述，根据业内公认的地理信息、交通等本体库，在此基础上自建大数据管理本体库。

9.根据权利要求6所述的一种基于大数据数据管理服务系统，其特征在于：自然语义标签是自然语义标注的。

10.根据权利要求1所述的一种基于大数据数据管理服务系统，其特征在于：属性匹配的过程如下：

A)是否提供本体属性，如果提供则直接根据后续条件查询，返回结果集；若无本体信息则继续；

B)获取提交属性信息，查询本体获得数据属性，进行匹配；若有属性完全相匹配的则根据提交条件，返回结果集；若无，则根据结果匹配度排序，返回推荐结果集；

C)根据返回结果，获得返回数据的数据关系；

D)推荐用户查询相关数据；

E)提供数据结果和下载页；

语义匹配是根据用户提交的查询语义，从共享数据中匹配满足用户需求的相关数据；

语义匹配的过程如下：

A)提取用户提交语义；

B)将语义分类为：本体、时间和标签；

D)直接进行属性匹配，根据属性匹配度返回结果集；

F)根据数据返回集和候选集返回结果；

提供数据结果和下载页。