CN102012936A

CN102012936A - 基于云计算平台的海量数据聚合方法和系统

Info

Publication number: CN102012936A
Application number: CN2010105775268A
Authority: CN
Inventors: 顾茜; 赵鹏; 杨明川; 广小明; 谭国权
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2010-12-07
Filing date: 2010-12-07
Publication date: 2011-04-13
Anticipated expiration: 2030-12-07
Also published as: CN102012936B

Abstract

本发明公开一种基于云计算平台的海量数据聚合方法和系统，该方法包括：从网络应用的数据中提取所述网络应用的关键词；计算网络应用的关键词与本体库中的本体的语义相似度，确定网络应用在本体库的相似本体；通过RDF描述标记与本体库中的本体相似的网络应用的数据；将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。本发明提供的对目前SAAS应用，互联网应用等网络应用海量数据进行聚合的方法，采用语义信息，对抽取的数据进行聚类分析，数据处理更加准确可靠。

Description

基于云计算平台的海量数据聚合方法和系统

技术领域

本发明涉及数据处理技术，尤其涉及一种基于云计算平台的海量数据聚合方法和系统。

背景技术

SaaS(Software-as-a-service，软件即服务)应用和互联网应用等网络应用积累大量托管异构数据，对这些信息的挖掘利用将成为新的应用增长点。如何将网络应用的海量数据聚类梳理，是数据挖掘前一项必备的工作。

目前对于数据的聚合分类更多的是侧重于关键字的比对，方法比较简单，对于网络应用的数据分类无法满足实际应用的需要。

发明内容

本发明要解决的一个技术问题是提供一种数据聚合方法，实现数据的高效聚类。

本发明提供一种基于云计算平台的海量数据聚合方法，包括：

从网络应用的数据中提取网络应用的关键词；

计算网络应用的关键词与本体库中的本体的语义相似度，确定网络应用在本体库的相似本体；

通过RDF描述标记与本体库中的本体相似的网络应用的数据；

将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。

根据本发明的海量数据聚合方法的一个实施例，从网络应用的数据中提取应用关键词包括：

梳理网络应用数据库中关键词信息；

统计关键字的频率，确定网络应用的高频关键词；

根据关键词的频度确定网络应用的关键词。

根据本发明的海量数据聚合方法的一个实施例，计算网络应用的关键词与本体库中的各个本体的语义相似度包括：

通过如下公式计算网络应用的关键词与本体库中各个本体的语义相似度：

Sim (p_{1}, p_{2}) = \frac{α}{d + α}

其中，p1和p2表示网络应用的关键词和本体的义原，d表示p1和p2在义原层次体系中的路径长度，α是一个可调节的参数。

根据本发明的海量数据聚合方法的一个实施例，还包括：

根据现有知识建立本体库。

根据本发明的海量数据聚合方法的一个实施例，该方法还包括：

接收用户通过查询系统输入的查询关键字；通过语义计算查询与查询关键字语义相似的本体；将相似的本体之下存储的应用信息库提供用户。

本发明提供的海量数据聚合方法，提取网络应用的关键词，将网络应用的关键词与本体库的本体进行语义相似度比较，从而确定相似本体并存储在对应存储模块中，实现了基于语义的数据聚类方法，实现了网络应用数据的高效聚类。

本发明要解决的另一个技术问题是提供一种数据聚合系统，能够实现数据的高效聚类。

本发明提供一种基于云计算平台的海量数据聚合系统，包括：

关键词提取模块，用于从网络应用的数据中提取网络应用的关键词；

相似本体确定模块，用于计算网络应用的关键词与本体库中的本体的语义相似度，确定网络应用在本体库的相似本体；

描述生成模块，用于通过RDF描述标记与本体库中的本体相似的网络应用的数据；

数据存储模块，用于将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。

根据本发明的海量数据聚合系统的一个实施例，关键词提取模块包括：

关键词梳理单元，用于梳理网络应用数据库中关键词信息；

关键词统计单元，用于统计关键字的频率，确定网络应用的高频关键词；

关键词确定单元，用于根据关键词的频度确定网络应用的关键词。

根据本发明的海量数据聚合系统的一个实施例，相似本体确定模块通过如下公式计算网络应用的关键词与本体库中各个本体的语义相似度：

Sim (p_{1}, p_{2}) = \frac{α}{d + α}

根据本发明的海量数据聚合系统的一个实施例，还包括：本体库建立模块，用于根据现有知识建立本体库。

根据本发明的海量数据聚合系统的一个实施例，还包括：关键词查询模块，用于接收用户通过查询系统输入的查询关键字；通过语义计算查询与查询关键字语义相似的本体；将相似的本体之下存储的应用信息库提供用户。

本发明提供的海量数据聚合系统，通过关键词提取模块提取网络应用的关键词，相似本体确定模块将网络应用的关键词与本体库的本体进行语义相似度比较确定相似本体，并通过数据存储模块存储在对应存储模块中，实现了基于语义的数据聚类方法，实现了网络应用数据的高效聚类。

附图说明

图1示出本发明的基于云计算平台的海量数据聚合方法的一个实施例的流程图；

图2示出本发明的知识库的一个实施例的系统结构图；

图3示出本发明的应用库中关键语义信息的提取流程图；

图4示出本发明的知识库建立流程的一个实施例的流程图；

图5示出应用本发明的知识库进行查询的示例的流程图；

图6示出本发明基于云计算平台的海量数据聚合系统的一个实施例的结构图；

图7示出本发明基于云计算平台的海量数据聚合系统的另一个实施例的结构图；

图8示出本发明基于云计算平台的海量数据聚合系统的又一个实施例的结构图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

图1示出本发明的基于云计算平台的海量数据聚合方法的一个实施例的流程图。

如图1所示，在步骤102，从网络应用的数据中提取网络应用的关键词。基于网络应用，梳理应用数据库中关键字信息获得网络应用的关键词。

在步骤104，计算网络应用的关键词与本体库中的本体的语义相似度，确定网络应用在本体库的相似本体。可以通过语义距离计算获得语义相似度，语义距离计算在互联网有很多算法，如K均值等。

在步骤106，通过RDF(Resource Description Framework，资源描述框架)描述标记与本体库中的本体相似的网络应用的数据。RDF是用于描述Web上的资源的框架，RDF提供了针对数据的模型以及语法，这样独立团体就可以交换和使用它，RDF被设计为可被计算机阅读和理解，RDF被设计的目的不是为了向人们显示出来，RDF使用XML编写，RDF是W3C语义网络活动的组成部分，RDF是一个W3C推荐标准。

在步骤108，将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。将SAAS应用与互联网应用的提取关键词与本体比对进行语义距离计算，将相似度相近的SAAS应用与互联网应用分类存储在存储模块中。

上述实施例中，提取网络应用的关键词，将网络应用的关键词与本体库的本体进行语义相似度比较，从而确定相似本体并存储在对应存储模块中，实现了基于语义的数据聚类方法，实现了网络应用数据的高效聚类。

下面介绍一种语义距离计算的例子。

“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的，这种“知识表示语言”所用的“词汇”叫做“义原(primitive)”。“义原”是用于描述一个“概念”的最小意义单位。

语义相似度：使用词语语义表达式中的第一独立义原，把词语相似度等价于词语的第一独立义原的相似度。

所有的义原根据上下位关系构成了一个树状的义原层次体系，可以采用通过语义距离计算相似度。假设两个义原在这个层次体系中的路径距离为d，根据公式(1)，可以得到这两个义原之间的语义距离：

Sim (p_{1}, p_{2}) = \frac{α}{d + α} - - - (1)

其中p1和p2表示两个义原，d是p1和p2在义原层次体系中的路径长度，是一个正整数。α是一个可调节的参数。α的含义是：当相似度为0.5时的词语距离值。

通过计算当语义距离小于0.5时，认为两词的语义是相关的。

上述例子中通过义原的路径距离计算词语的语义距离，计算高效方便。

图2示出本发明的知识库的一个实施例的系统结构图。如图2所示，该知识库包括本体库，本体库下包括多个本体(本体一、本体二、...、本体N等)，本体下对应包括RDF描述库，RDF描述库下包括存储网络应用(例如，SAAS应用、互联网应用)的云存储模块。需要指出，虽然在图2中一个本体下示出一个RDF描述库，一个本体下也可以包括多个RDF描述库。

图3示出本发明的应用库中关键语义信息的提取流程图。

如图3所示，在步骤302，梳理网络应用数据库中关键词信息。

在步骤304，统计关键字的频率，确定网络应用的高频关键词。

在步骤306，根据关键词的频度确定网络应用的关键词。例如，选择第一、第二关键词。

上述实施例中，根据关键词的频度确定网络应用的关键词，关键词的确定更加准确可靠。

图4示出本发明的知识库建立流程的一个实施例的流程图。

如图4所示，在步骤402，根据现有的知识建立基本本体库，即基于现有知识建立基本概念库。

在步骤404，通过提取SAAS应用、互联网应用上广泛的数据源，对数据进行简单分类预处理，例如，通过应用关键词简单分类等；通过对领域知识库中的本体提取，计算网络应用数据与各个本体的相似性；

在步骤406，对于与本体相似的网络应用数据资源，用RDF描述。RDF描述此处主要用于标记网络资源。

在步骤408，将与本体相关的网络资源存储平台的各个存储节点。

图5示出应用本发明的知识库进行查询的示例的流程图。

如图5所示，在步骤502，接收用户通过查询系统输入的查询关键字。

在步骤504，该系统通过语义计算查询与关键字语义相似的本体。

在步骤506，将该本体之下存储的应用信息库提供用户。

上述实施例中，基于语义查询应用信息，信息提供更加准确可靠。

图6示出本发明的的基于云计算平台的海量数据聚合系统的一个实施例的结构图。如图6所示，该系统包括关键词提取模块61、相似本体确定模块62、描述生成模块63和数据存储模块64。关键词提取模块61从网络应用的数据中提取网络应用的关键词，将网络应用的关键词发送给相似本体确定模块62；相似本体确定模块62接收网络应用的关键词，计算网络应用的关键词与本体库中的各个本体的语义相似度，确定网络应用在本体库中的相似本体；描述生成模块63通过RDF描述标记与本体库中的本体相似的网络应用的数据；数据存储模块64将网络应用的数据存储于本体库的相似本体下的网络资源存储节点。

上述实施例中，通过关键词提取模块提取网络应用的关键词，相似本体确定模块将网络应用的关键词与本体库的本体进行语义相似度比较确定相似本体，并通过数据存储模块存储在对应存储模块中，实现了基于语义的数据聚类方法，实现了网络应用数据的高效聚类。

根据本发明的一个实施例，相似本体确定模块通过如下公式计算网络应用的关键词与本体库中各个本体的语义相似度：

Sim (p_{1}, p_{2}) = \frac{α}{d + α}

其中，p1和p2表示所述网络应用的关键词和所述本体的义原，d表示p1和p2在义原层次体系中的路径长度，α是一个可调节的参数。

图7示出本发明的基于云计算平台的海量数据聚合系统的另一个实施例的结构图。如图7所示，该系统包括关键词提取模块71、相似本体确定模块62、描述生成模块63和数据存储模块64。其中，相似本体确定模块62、描述生成模块63和数据存储模块64的功能可以参见图6中对应模块的描述，为简洁起见在此不再详细描述。关键词提取模块71包括：关键词梳理单元711，用于梳理网络应用数据库中关键词信息；关键词统计单元712用于统计关键字的频率，确定网络应用的高频关键词；关键词确定单元713用于根据关键词的频度确定网络应用的关键词。

图8示出本发明的基于云计算平台的海量数据聚合系统的又一个实施例的结构图。如图8所示，该系统包括本体库建立模块85、关键词提取模块61、相似本体确定模块62、描述生成模块63和数据存储模块64。其中，本体库建立模块85用于根据现有知识建立本体库。该系统还可选地包括关键词查询模块86，用于接收用户通过查询系统输入的查询关键字；通过语义计算查询与查询关键字语义相似的本体；将相似的本体之下存储的应用信息库提供用户。

在本发明的一个应用例中，针对一个网络版ERP应用，梳理其关键字是商品订购、商品管理。针对本体库中的基本本体计算网络版ERP应用与其的语义距离，根据语义归类将网络版ERP应用存储于订购与管理本体之下。

本发明提供的对目前SAAS应用，互联网应用等网络应用海量数据进行聚合的方法，采用语义信息，对抽取的数据进行聚类分析，数据处理更加准确可靠。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于云计算平台的海量数据聚合方法，其特征在于，包括：

从网络应用的数据中提取所述网络应用的关键词；

计算所述网络应用的关键词与所述本体库中的本体的语义相似度，确定所述网络应用在所述本体库的相似本体；

通过RDF描述标记与所述本体库中的本体相似的网络应用的数据；

将所述网络应用的数据存储于所述本体库的相似本体下的网络资源存储节点。

2.根据权利要求1所述的海量数据聚合方法，其特征在于，所述从网络应用的数据中提取应用关键词包括：

梳理所述网络应用数据库中关键词信息；

统计所述关键字的频率，确定所述网络应用的高频关键词；

根据所述关键词的频度确定所述网络应用的关键词。

3.根据权利要求1所述的海量数据聚合方法，其特征在于，计算所述网络应用的关键词与所述本体库中的各个本体的语义相似度包括：

通过如下公式计算所述网络应用的关键词与所述本体库中各个本体的语义相似度：

Sim (p_{1}, p_{2}) = \frac{α}{d + α}

4.根据权利要求1所述的海量数据聚合方法，其特征在于，还包括：

根据现有知识建立本体库。

5.根据权利要求1所述的海量数据聚合方法，其特征在于，还包括：

接收用户通过查询系统输入的查询关键字；

通过语义计算查询与所述查询关键字语义相似的本体；

将所述相似的本体之下存储的应用信息库提供用户。

6.一种基于云计算平台的海量数据聚合系统，其特征在于，包括：

关键词提取模块，用于从网络应用的数据中提取所述网络应用的关键词；

相似本体确定模块，用于计算所述网络应用的关键词与所述本体库中的本体的语义相似度，确定所述网络应用在所述本体库的相似本体；

描述生成模块，用于通过RDF描述标记与所述本体库中的本体相似的网络应用的数据；

数据存储模块，用于将所述网络应用的数据存储于所述本体库的相似本体下的网络资源存储节点。

7.根据权利要求6所述的海量数据聚合系统，其特征在于，所述关键词提取模块包括：

关键词梳理单元，用于梳理所述网络应用数据库中关键词信息；

关键词统计单元，用于统计所述关键字的频率，确定所述网络应用的高频关键词；

关键词确定单元，用于根据所述关键词的频度确定所述网络应用的关键词。

8.根据权利要求6所述的海量数据聚合系统，其特征在于，所述相似本体确定模块通过如下公式计算所述网络应用的关键词与所述本体库中各个本体的语义相似度：

Sim (p_{1}, p_{2}) = \frac{α}{d + α}

9.根据权利要求6所述的海量数据聚合系统，其特征在于，还包括：

本体库建立模块，用于根据现有知识建立本体库。

10.根据权利要求6所述的海量数据聚合系统，其特征在于，还包括：

关键词查询模块，用于接收用户通过查询系统输入的查询关键字；通过语义计算查询与所述查询关键字语义相似的本体；将所述相似的本体之下存储的应用信息库提供用户。