CN103678490B

CN103678490B - 一种基于Hadoop平台的Deep Web查询接口聚类方法

Info

Publication number: CN103678490B
Application number: CN201310562974.4A
Authority: CN
Inventors: 强保华
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin Fansen Network Technology Co ltd
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2017-01-11
Anticipated expiration: 2033-11-14
Also published as: CN103678490A

Abstract

本发明公开了一种基于Hadoop平台的Deep Web查询接口聚类方法，包括：通过本体对Deep Web查询接口进行语义扩展，并对Deep Web查询接口进行潜在语义分析；选取支撑分布式并行计算的聚类算法，将所选取的聚类算法进行并行化改造，分别设计map函数、combine函数和reduce函数。所述方法还包括：配置用于减少网络数据传输量的数据压缩函数；搭建分布式平台，在集群上运行。本发明通过构建集群，充分利用并行处理的优势，将待聚类的查询接口分发到多台机器上，每台机器进行初步聚类后汇总结果，再次分发待聚类数据到不同机器上，直到结果收敛。同时，能够保证聚类结果的正确性与可靠性。解决了单机情况下遇到的难题。

Description

一种基于Hadoop平台的Deep Web查询接口聚类方法

技术领域

本发明涉及服务计算技术领域，具体涉及一种基于Hadoop平台的Deep Web查询接口聚类方法。

背景技术

随着计算机技术的高速发展和互联网应用的日益普及。Web中蕴含的信息也在极速的扩张着。目前，主流的搜索引擎，如百度、Google等搜索引擎的搜索范围仅仅覆盖了“表层网”(Surface Web)，而对蕴含信息量占网络总信息量70%的“深层网”(Deep Web)却是束手无策。“深层网”具有如下4个特点：(1)用户通过填写表单来获取信息；(2)蕴含的信息质量高、信息量大；(3)领域特征明显；(4)大部分信息，用户可以免费获取。由于“深层网”自身的特点，以及其蕴含信息的巨大的价值，学术界和商业界对“深层网”搜索技术展开了广泛的研究。面对浩如烟海的Deep Web数据，研究“深层网”搜索技术遇到各种困难，包括：(1)Deep Web查询接口数量巨大且增长速度快、呈现出海量的特性；(2)用户只能通过填写Form表单获取信息；(3)用户提交的查询需求差异性大；(4)数据的获取具有动态性；(5)如何将用户的请求转化为具体的Deep Web数据源的请求。针对上面这5点难题，目前一种有效的策略是基于领域的Deep Web查询接口集成，因为同一领域的Deep Web具有很强的共性。而如何对Deep Web查询接口进行聚类便是这一策略需要解决的核心问题之一。传统的单机的Deep Web查询接口聚类处理方式在遇到海量的Deep Web查询接口时，在时间复杂度和空间复杂度上遇到了瓶颈。

发明内容

针对现有技术的不足，本发明提供一种基于Hadoop平台的Deep Web查询接口聚类方法，用户可以轻松的搭建自己的分布式平台，利用集群的计算和存储能力完成海量数据的处理，并且能够保证聚类结果的正确性与可靠性。

本发明的技术方案如下所述。

一种基于Hadoop平台的Deep Web查询接口聚类方法，包括：

通过本体对Deep Web查询接口进行语义扩展，并对Deep Web查询接口进行潜在语义分析；

选取支撑分布式并行计算的聚类算法，将所选取的聚类算法进行并行化改造，分别设计map函数、combine函数和reduce函数。

所述通过本体对Deep Web查询接口进行语义扩展的具体步骤包括：

（1）确定领域本体的范围，从Deep Web查询接口中获取核心属性，并挖掘出属性之间的语义关系、每个领域的查询接口属性，选择出现频率高于10的属性；

（2）根据挖掘的属性关系，构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系；

（3）使用本体描述语言构建核心领域本体；

（4）根据核心领域本体的属性，从结果页面中定位所需的目标数据区域；

（5）提取结果页面的模式；

（6）将结果页面中的概念和实例合并入领域核心本体；

（7）如果某一查询接口中的属性出现在本体中，则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。

所述对Deep Web查询接口进行潜在语义分析的具体步骤包括：

（1）根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间模型，即“查询接口-属性”矩阵；

（2）对第一步生成的“查询接口-属性”矩阵进行矩阵分解，然后选取K值，得到低秩逼近矩阵C_k；其中：K为聚类领域的个数。

另外，本发明所述方法还包括：配置用于减少网络数据传输量的数据压缩函数；搭建分布式平台，在集群上运行。

本发明的有益效果：

本发明通过构建集群，充分利用多台计算机并行处理的优势，将待聚类的查询接口分发到多台机器上，每台机器进行初步聚类后，汇总结果，再次分发待聚类数据到不同机器上，直到结果收敛。同时，在聚类之前引入本体语义扩展和潜在语义分析的方法，增加同一领域Deep Web查询接口之间的语义相似度，最终解决了单机情况下遇到的难题。

附图说明

图1为本发明的拓扑结构示意图。

图2为本发明的流程框图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述。

Hadoop是一个能够对海量数据进行分布式处理的软件架构。以Hadoop分布式文件系统(HDFS)和MapReduce为核心的Hadoop为用户提供了系统底层透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点使得用户可以将Hadoop部署在低廉的硬件上，形成分布式系统；Mapreduce编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。因此，用户可以轻松的搭建自己的分布式平台，利用集群的计算和存储能力完成海量数据的处理。因此在对海量Deep Web查询接口聚类时，引入Hadoop平台是一个极好的选择。同时为了保证聚类结果的正确性与可靠性，在聚类之前，使用本体对Deep Web查询接口进行语义扩展，并对Deep Web查询接口进行潜在语义分析(LSA)。

通过本体对Deep Web查询接口语义扩展的具体步骤如下：

1.确定领域本体的范围，从Deep Web查询接口中获取核心属性，并挖掘出属性之间的语义关系。每个领域的查询接口属性，选择出现频率高于10的属性；

2.根据挖掘的属性关系，构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系；

3.使用本体描述语言构建核心领域本体；

4.根据核心领域本体的属性，从结果页面中定位所需的有用数据区域；

5.提取结果页面的模式；

6.将结果页面中的概念和实例合并入领域核心本体；

7.如果某一查询接口中的属性出现在本体中，则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。

基于LSA的Deep Web查询接口聚类的具体步骤如下：

1.根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间模型，即“查询接口-属性”矩阵。

2.对第一步生成的矩阵进行SVD的分解，然后选取K值，得到低秩逼近矩阵C_k；其中：K为聚类领域的个数。

3.选取K-Means算法，对Deep Web查询接口进行聚类。

Hadoop平台下Deep Web查询接口聚类的具体步骤如下：

1.选取K-Means算法。

2.搭建分布式平台，对平台的正确性和可靠性进行测试。其中两台分别是名称节点(NameNode)和备份名称节点(seconderayNameNode)，以防系统崩溃及用于数据恢复。

3.将K-Means算法进行并行化改造，分别设计map函数、combine函数和reduce函数。

4.配置数据压缩函数减少网络数据传输量。

5.设置合理的reduce个数。

6.在集群上运行。

如图1所示，基于Hadoop平台的Deep Web查询接口聚类方法，展示了整个系统的数据处理流程和拓扑结构。Hadoop集群中的计算节点和NameNode之间通过高速网络相连。数据在网络传输之前先进行压缩，减少网络带宽压力，提高聚类的速度。

Hadoop数据处理具体步骤为：

1.名称节点（NameNode）接收到输入数据，分片之后，将数据分发到数据节点（DataNode）上。

2.DataNode接收到数据，将数据转化为<keyInit,valueInit>，随后Map函数来处理<keyInit,valueInit>输入，然后计算产生一个中间的<keyTmp,valueTmp>对集合。

3.DataNode上的Combine函数在本地将<keyTmp,valueTmp>根据keyTmp值，合并成<keyTmp,list(valueTmp)>，然后将<keyTmp,list(valueTmp)>进行压缩后发送到运行Reduce函数的节点。

4.Reduce函数处理接收到的<keyTmp,list(valueTmp)>，根据keyTmp排序后，进行进一步处理，得到最终的结果<keyResult,valueResult>，并输出到分布式文件系统上。

Claims

1.一种基于Hadoop平台的Deep Web查询接口聚类方法，包括：

选取支撑分布式并行计算的聚类算法，将所选取的聚类算法进行并行化改造，分别设计map函数、combine函数和reduce函数；

（3）使用本体描述语言构建核心领域本体；

（5）提取结果页面的模式；

（6）将结果页面中的概念和实例合并入领域核心本体；

（7）如果某一查询接口中的属性出现在本体中，则将该属性的上下文路径上的所有属性添加到该查询接口的属性集中。

2.根据权利要求1所述的方法，其中所述对Deep Web查询接口进行潜在语义分析的具体步骤包括：

（2）对第一步生成的“查询接口-属性”矩阵进行矩阵分解，然后选取K 值，得到低秩逼近矩阵C_k；其中：K为聚类领域的个数。

3.根据权利要求2所述的方法，其中所述的矩阵分解是采用SVD分解法分解。

4.根据权利要求1-3中任一项所述的方法，其中所述的聚类算法是K-Means 算法。

5.根据权利要求4所述的方法，还包括：搭建分布式平台，在集群上运行。

6.根据权利要求5所述的方法，其中所述的分布式平台包括名称节点和备份名称节点。

7.根据权利要求6所述的方法，还包括：配置用于减少网络数据传输量的数据压缩函数。