CN103678490B - 一种基于Hadoop平台的Deep Web查询接口聚类方法 - Google Patents

一种基于Hadoop平台的Deep Web查询接口聚类方法 Download PDF

Info

Publication number
CN103678490B
CN103678490B CN201310562974.4A CN201310562974A CN103678490B CN 103678490 B CN103678490 B CN 103678490B CN 201310562974 A CN201310562974 A CN 201310562974A CN 103678490 B CN103678490 B CN 103678490B
Authority
CN
China
Prior art keywords
query interface
deep web
attribute
web query
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310562974.4A
Other languages
English (en)
Other versions
CN103678490A (zh
Inventor
强保华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin Fansen Network Technology Co ltd
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201310562974.4A priority Critical patent/CN103678490B/zh
Publication of CN103678490A publication Critical patent/CN103678490A/zh
Application granted granted Critical
Publication of CN103678490B publication Critical patent/CN103678490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1858Parallel file systems, i.e. file systems supporting multiple processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行潜在语义分析;选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数。所述方法还包括:配置用于减少网络数据传输量的数据压缩函数;搭建分布式平台,在集群上运行。本发明通过构建集群,充分利用并行处理的优势,将待聚类的查询接口分发到多台机器上,每台机器进行初步聚类后汇总结果,再次分发待聚类数据到不同机器上,直到结果收敛。同时,能够保证聚类结果的正确性与可靠性。解决了单机情况下遇到的难题。

Description

一种基于Hadoop平台的Deep Web查询接口聚类方法
技术领域
本发明涉及服务计算技术领域,具体涉及一种基于Hadoop平台的Deep Web查询接口聚类方法。
背景技术
随着计算机技术的高速发展和互联网应用的日益普及。Web中蕴含的信息也在极速的扩张着。目前,主流的搜索引擎,如百度、Google等搜索引擎的搜索范围仅仅覆盖了“表层网”(Surface Web),而对蕴含信息量占网络总信息量70%的“深层网”(Deep Web)却是束手无策。“深层网”具有如下4个特点:(1)用户通过填写表单来获取信息;(2)蕴含的信息质量高、信息量大;(3)领域特征明显;(4)大部分信息,用户可以免费获取。由于“深层网”自身的特点,以及其蕴含信息的巨大的价值,学术界和商业界对“深层网”搜索技术展开了广泛的研究。面对浩如烟海的Deep Web数据,研究“深层网”搜索技术遇到各种困难,包括:(1)Deep Web查询接口数量巨大且增长速度快、呈现出海量的特性;(2)用户只能通过填写Form表单获取信息;(3)用户提交的查询需求差异性大;(4)数据的获取具有动态性;(5)如何将用户的请求转化为具体的Deep Web数据源的请求。针对上面这5点难题,目前一种有效的策略是基于领域的Deep Web查询接口集成,因为同一领域的Deep Web具有很强的共性。而如何对Deep Web查询接口进行聚类便是这一策略需要解决的核心问题之一。传统的单机的Deep Web查询接口聚类处理方式在遇到海量的Deep Web查询接口时,在时间复杂度和空间复杂度上遇到了瓶颈。
发明内容
针对现有技术的不足,本发明提供一种基于Hadoop平台的Deep Web查询接口聚类方法,用户可以轻松的搭建自己的分布式平台,利用集群的计算和存储能力完成海量数据的处理,并且能够保证聚类结果的正确性与可靠性。
本发明的技术方案如下所述。
一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:
通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行 潜在语义分析;
选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数。
所述通过本体对Deep Web查询接口进行语义扩展的具体步骤包括:
(1)确定领域本体的范围,从Deep Web查询接口中获取核心属性,并挖掘出属性之间的语义关系、每个领域的查询接口属性,选择出现频率高于10的属性;
(2)根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系;
(3)使用本体描述语言构建核心领域本体;
(4)根据核心领域本体的属性,从结果页面中定位所需的目标数据区域;
(5)提取结果页面的模式;
(6)将结果页面中的概念和实例合并入领域核心本体;
(7)如果某一查询接口中的属性出现在本体中,则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。
所述对Deep Web查询接口进行潜在语义分析的具体步骤包括:
(1)根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间模型,即“查询接口-属性”矩阵;
(2)对第一步生成的“查询接口-属性”矩阵进行矩阵分解,然后选取K值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。
另外,本发明所述方法还包括:配置用于减少网络数据传输量的数据压缩函数;搭建分布式平台,在集群上运行。
本发明的有益效果:
本发明通过构建集群,充分利用多台计算机并行处理的优势,将待聚类的查询接口分发到多台机器上,每台机器进行初步聚类后,汇总结果,再次分发待聚类数据到不同机器上,直到结果收敛。同时,在聚类之前引入本体语义扩展和潜在语义分析的方法,增加同一领域Deep Web查询接口之间的语义相似度,最终解决了单机情况下遇到的难题。
附图说明
图1为本发明的拓扑结构示意图。
图2为本发明的流程框图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述。
Hadoop是一个能够对海量数据进行分布式处理的软件架构。以Hadoop分布式文件系统(HDFS)和MapReduce为核心的Hadoop为用户提供了系统底层透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点使得用户可以将Hadoop部署在低廉的硬件上,形成分布式系统;Mapreduce编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。因此,用户可以轻松的搭建自己的分布式平台,利用集群的计算和存储能力完成海量数据的处理。因此在对海量Deep Web查询接口聚类时,引入Hadoop平台是一个极好的选择。同时为了保证聚类结果的正确性与可靠性,在聚类之前,使用本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行潜在语义分析(LSA)。
通过本体对Deep Web查询接口语义扩展的具体步骤如下:
1.确定领域本体的范围,从Deep Web查询接口中获取核心属性,并挖掘出属性之间的语义关系。每个领域的查询接口属性,选择出现频率高于10的属性;
2.根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系;
3.使用本体描述语言构建核心领域本体;
4.根据核心领域本体的属性,从结果页面中定位所需的有用数据区域;
5.提取结果页面的模式;
6.将结果页面中的概念和实例合并入领域核心本体;
7.如果某一查询接口中的属性出现在本体中,则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。
基于LSA的Deep Web查询接口聚类的具体步骤如下:
1.根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间模型,即“查询接口-属性”矩阵。
2.对第一步生成的矩阵进行SVD的分解,然后选取K值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。
3.选取K-Means算法,对Deep Web查询接口进行聚类。
Hadoop平台下Deep Web查询接口聚类的具体步骤如下:
1.选取K-Means算法。
2.搭建分布式平台,对平台的正确性和可靠性进行测试。其中两台分别是名称节点(NameNode)和备份名称节点(seconderayNameNode),以防系统崩溃及用于数据恢复。
3.将K-Means算法进行并行化改造,分别设计map函数、combine函数和reduce函数。
4.配置数据压缩函数减少网络数据传输量。
5.设置合理的reduce个数。
6.在集群上运行。
如图1所示,基于Hadoop平台的Deep Web查询接口聚类方法,展示了整个系统的数据处理流程和拓扑结构。Hadoop集群中的计算节点和NameNode之间通过高速网络相连。数据在网络传输之前先进行压缩,减少网络带宽压力,提高聚类的速度。
Hadoop数据处理具体步骤为:
1.名称节点(NameNode)接收到输入数据,分片之后,将数据分发到数据节点(DataNode)上。
2.DataNode接收到数据,将数据转化为<keyInit,valueInit>,随后Map函数来处理<keyInit,valueInit>输入,然后计算产生一个中间的<keyTmp,valueTmp>对集合。
3.DataNode上的Combine函数在本地将<keyTmp,valueTmp>根据keyTmp值,合并成<keyTmp,list(valueTmp)>,然后将<keyTmp,list(valueTmp)>进行压缩后发送到运行Reduce函数的节点。
4.Reduce函数处理接收到的<keyTmp,list(valueTmp)>,根据keyTmp排序后,进行进一步处理,得到最终的结果<keyResult,valueResult>,并输出到分布式文件系统上。

Claims (7)

1.一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:
通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行 潜在语义分析;
选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改 造,分别设计map函数、combine函数和reduce函数;
所述通过本体对Deep Web查询接口进 行语义扩展的具体步骤包括:
(1)确定领域本体的范围,从Deep Web查询接口中获取核心属性,并挖掘 出属性之间的语义关系、每个领域的查询接口属性,选择出现频率高于10的属 性;
(2)根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、 概念与实例关系、概念与属性关系;
(3)使用本体描述语言构建核心领域本体;
(4)根据核心领域本体的属性,从结果页面中定位所需的目标数据区域;
(5)提取结果页面的模式;
(6)将结果页面中的概念和实例合并入领域核心本体;
(7)如果某一查询接口中的属性出现在本体中,则将该属性的上下文路径上的所有属性添加到该查询接口的属性集中。
2.根据权利要求1所述的方法,其中所述对Deep Web查询接口进行潜在语 义分析的具体步骤包括:
(1)根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间 模型,即“查询接口-属性”矩阵;
(2)对第一步生成的“查询接口-属性”矩阵进行矩阵分解,然后选取K 值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。
3.根据权利要求2所述的方法,其中所述的矩阵分解是采用SVD分解法分解。
4.根据权利要求1-3中任一项所述的方法,其中所述的聚类算法是K-Means 算法。
5.根据权利要求4所述的方法,还包括:搭建分布式平台,在集群上运行。
6.根据权利要求5所述的方法,其中所述的分布式平台包括名称节点和备份名称节点。
7.根据权利要求6所述的方法,还包括:配置用于减少网络数据传输量的数据压缩函数。
CN201310562974.4A 2013-11-14 2013-11-14 一种基于Hadoop平台的Deep Web查询接口聚类方法 Active CN103678490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310562974.4A CN103678490B (zh) 2013-11-14 2013-11-14 一种基于Hadoop平台的Deep Web查询接口聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310562974.4A CN103678490B (zh) 2013-11-14 2013-11-14 一种基于Hadoop平台的Deep Web查询接口聚类方法

Publications (2)

Publication Number Publication Date
CN103678490A CN103678490A (zh) 2014-03-26
CN103678490B true CN103678490B (zh) 2017-01-11

Family

ID=50316035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310562974.4A Active CN103678490B (zh) 2013-11-14 2013-11-14 一种基于Hadoop平台的Deep Web查询接口聚类方法

Country Status (1)

Country Link
CN (1) CN103678490B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138561B (zh) * 2015-07-23 2018-11-27 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN105069101A (zh) * 2015-08-07 2015-11-18 桂林电子科技大学 分布式索引构建及检索方法
CN107808000B (zh) * 2017-11-13 2020-05-22 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法
CN108762898B (zh) * 2018-04-09 2023-04-25 平安科技(深圳)有限公司 一种线程接口的管理方法、终端设备及计算机可读存储介质
CN109086450B (zh) * 2018-08-24 2021-08-27 电子科技大学 一种Web深网查询接口检测方法
CN115665286B (zh) * 2022-12-26 2023-03-28 深圳红途科技有限公司 接口聚类方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419625A (zh) * 2008-12-02 2009-04-29 西安交通大学 一种基于最小可查询模式的Deep Web自适应爬取方法
CN101582074A (zh) * 2009-01-21 2009-11-18 东北大学 一种DeepWeb响应页面数据抽取方法
CN101788981A (zh) * 2009-01-24 2010-07-28 华为技术有限公司 一种深层网移动搜索方法、服务器及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101419625A (zh) * 2008-12-02 2009-04-29 西安交通大学 一种基于最小可查询模式的Deep Web自适应爬取方法
CN101582074A (zh) * 2009-01-21 2009-11-18 东北大学 一种DeepWeb响应页面数据抽取方法
CN101788981A (zh) * 2009-01-24 2010-07-28 华为技术有限公司 一种深层网移动搜索方法、服务器及系统

Also Published As

Publication number Publication date
CN103678490A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678490B (zh) 一种基于Hadoop平台的Deep Web查询接口聚类方法
Zeng et al. A distributed graph engine for web scale RDF data
CN105989150B (zh) 一种基于大数据环境的数据查询方法及装置
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN110321999A (zh) 神经网络计算图优化方法
CN105468702A (zh) 一种大规模rdf数据关联路径发现方法
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN102915365A (zh) 基于Hadoop的分布式搜索引擎构建方法
He et al. Parallel implementation of classification algorithms based on MapReduce
CN105550268A (zh) 大数据流程建模分析引擎
CN104570081A (zh) 一种积分法叠前时间偏移地震资料处理方法及系统
CN104699698A (zh) 基于海量数据的图查询处理方法
CN106569896A (zh) 一种数据分发及并行处理方法和系统
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN104298785A (zh) 一种众搜资源搜索方法
US10783127B2 (en) Componentized data storage
WO2017040209A1 (en) Data preparation for data mining
CN103927177A (zh) 基于LDA模型和PageRank算法建立特征接口有向图的方法
CN105677862A (zh) 一种抓取网页内容的方法及装置
Liu et al. GraphTheta: A distributed graph neural network learning system with flexible training strategy
CN105069101A (zh) 分布式索引构建及检索方法
He et al. Parallel outlier detection using kd-tree based on mapreduce
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法
Migliorini et al. Towards massive spatial data validation with SpatialHadoop
Zhou et al. SparkSCAN: a structure similarity clustering algorithm on spark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220507

Address after: 541004 the Guangxi Zhuang Autonomous Region Guilin Construction Road No. 12

Patentee after: Guilin Fansen Network Technology Co.,Ltd.

Address before: 541004 1 Jinji Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Patentee before: GUILIN University OF ELECTRONIC TECHNOLOGY

Patentee before: Qiang Baohua