CN103678490B - 一种基于Hadoop平台的Deep Web查询接口聚类方法 - Google Patents
一种基于Hadoop平台的Deep Web查询接口聚类方法 Download PDFInfo
- Publication number
- CN103678490B CN103678490B CN201310562974.4A CN201310562974A CN103678490B CN 103678490 B CN103678490 B CN 103678490B CN 201310562974 A CN201310562974 A CN 201310562974A CN 103678490 B CN103678490 B CN 103678490B
- Authority
- CN
- China
- Prior art keywords
- query interface
- deep web
- attribute
- web query
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 230000005540 biological transmission Effects 0.000 claims abstract description 4
- 238000013144 data compression Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1858—Parallel file systems, i.e. file systems supporting multiple processors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行潜在语义分析;选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数。所述方法还包括:配置用于减少网络数据传输量的数据压缩函数;搭建分布式平台,在集群上运行。本发明通过构建集群,充分利用并行处理的优势,将待聚类的查询接口分发到多台机器上,每台机器进行初步聚类后汇总结果,再次分发待聚类数据到不同机器上,直到结果收敛。同时,能够保证聚类结果的正确性与可靠性。解决了单机情况下遇到的难题。
Description
技术领域
本发明涉及服务计算技术领域,具体涉及一种基于Hadoop平台的Deep Web查询接口聚类方法。
背景技术
随着计算机技术的高速发展和互联网应用的日益普及。Web中蕴含的信息也在极速的扩张着。目前,主流的搜索引擎,如百度、Google等搜索引擎的搜索范围仅仅覆盖了“表层网”(Surface Web),而对蕴含信息量占网络总信息量70%的“深层网”(Deep Web)却是束手无策。“深层网”具有如下4个特点:(1)用户通过填写表单来获取信息;(2)蕴含的信息质量高、信息量大;(3)领域特征明显;(4)大部分信息,用户可以免费获取。由于“深层网”自身的特点,以及其蕴含信息的巨大的价值,学术界和商业界对“深层网”搜索技术展开了广泛的研究。面对浩如烟海的Deep Web数据,研究“深层网”搜索技术遇到各种困难,包括:(1)Deep Web查询接口数量巨大且增长速度快、呈现出海量的特性;(2)用户只能通过填写Form表单获取信息;(3)用户提交的查询需求差异性大;(4)数据的获取具有动态性;(5)如何将用户的请求转化为具体的Deep Web数据源的请求。针对上面这5点难题,目前一种有效的策略是基于领域的Deep Web查询接口集成,因为同一领域的Deep Web具有很强的共性。而如何对Deep Web查询接口进行聚类便是这一策略需要解决的核心问题之一。传统的单机的Deep Web查询接口聚类处理方式在遇到海量的Deep Web查询接口时,在时间复杂度和空间复杂度上遇到了瓶颈。
发明内容
针对现有技术的不足,本发明提供一种基于Hadoop平台的Deep Web查询接口聚类方法,用户可以轻松的搭建自己的分布式平台,利用集群的计算和存储能力完成海量数据的处理,并且能够保证聚类结果的正确性与可靠性。
本发明的技术方案如下所述。
一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:
通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行
潜在语义分析;
选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改造,分别设计map函数、combine函数和reduce函数。
所述通过本体对Deep Web查询接口进行语义扩展的具体步骤包括:
(1)确定领域本体的范围,从Deep Web查询接口中获取核心属性,并挖掘出属性之间的语义关系、每个领域的查询接口属性,选择出现频率高于10的属性;
(2)根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系;
(3)使用本体描述语言构建核心领域本体;
(4)根据核心领域本体的属性,从结果页面中定位所需的目标数据区域;
(5)提取结果页面的模式;
(6)将结果页面中的概念和实例合并入领域核心本体;
(7)如果某一查询接口中的属性出现在本体中,则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。
所述对Deep Web查询接口进行潜在语义分析的具体步骤包括:
(1)根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间模型,即“查询接口-属性”矩阵;
(2)对第一步生成的“查询接口-属性”矩阵进行矩阵分解,然后选取K值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。
另外,本发明所述方法还包括:配置用于减少网络数据传输量的数据压缩函数;搭建分布式平台,在集群上运行。
本发明的有益效果:
本发明通过构建集群,充分利用多台计算机并行处理的优势,将待聚类的查询接口分发到多台机器上,每台机器进行初步聚类后,汇总结果,再次分发待聚类数据到不同机器上,直到结果收敛。同时,在聚类之前引入本体语义扩展和潜在语义分析的方法,增加同一领域Deep Web查询接口之间的语义相似度,最终解决了单机情况下遇到的难题。
附图说明
图1为本发明的拓扑结构示意图。
图2为本发明的流程框图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述。
Hadoop是一个能够对海量数据进行分布式处理的软件架构。以Hadoop分布式文件系统(HDFS)和MapReduce为核心的Hadoop为用户提供了系统底层透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点使得用户可以将Hadoop部署在低廉的硬件上,形成分布式系统;Mapreduce编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。因此,用户可以轻松的搭建自己的分布式平台,利用集群的计算和存储能力完成海量数据的处理。因此在对海量Deep Web查询接口聚类时,引入Hadoop平台是一个极好的选择。同时为了保证聚类结果的正确性与可靠性,在聚类之前,使用本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行潜在语义分析(LSA)。
通过本体对Deep Web查询接口语义扩展的具体步骤如下:
1.确定领域本体的范围,从Deep Web查询接口中获取核心属性,并挖掘出属性之间的语义关系。每个领域的查询接口属性,选择出现频率高于10的属性;
2.根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、概念与实例关系、概念与属性关系;
3.使用本体描述语言构建核心领域本体;
4.根据核心领域本体的属性,从结果页面中定位所需的有用数据区域;
5.提取结果页面的模式;
6.将结果页面中的概念和实例合并入领域核心本体;
7.如果某一查询接口中的属性出现在本体中,则将该词汇的上下文路径上的所有属性添加到该查询接口的属性集中。
基于LSA的Deep Web查询接口聚类的具体步骤如下:
1.根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间模型,即“查询接口-属性”矩阵。
2.对第一步生成的矩阵进行SVD的分解,然后选取K值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。
3.选取K-Means算法,对Deep Web查询接口进行聚类。
Hadoop平台下Deep Web查询接口聚类的具体步骤如下:
1.选取K-Means算法。
2.搭建分布式平台,对平台的正确性和可靠性进行测试。其中两台分别是名称节点(NameNode)和备份名称节点(seconderayNameNode),以防系统崩溃及用于数据恢复。
3.将K-Means算法进行并行化改造,分别设计map函数、combine函数和reduce函数。
4.配置数据压缩函数减少网络数据传输量。
5.设置合理的reduce个数。
6.在集群上运行。
如图1所示,基于Hadoop平台的Deep Web查询接口聚类方法,展示了整个系统的数据处理流程和拓扑结构。Hadoop集群中的计算节点和NameNode之间通过高速网络相连。数据在网络传输之前先进行压缩,减少网络带宽压力,提高聚类的速度。
Hadoop数据处理具体步骤为:
1.名称节点(NameNode)接收到输入数据,分片之后,将数据分发到数据节点(DataNode)上。
2.DataNode接收到数据,将数据转化为<keyInit,valueInit>,随后Map函数来处理<keyInit,valueInit>输入,然后计算产生一个中间的<keyTmp,valueTmp>对集合。
3.DataNode上的Combine函数在本地将<keyTmp,valueTmp>根据keyTmp值,合并成<keyTmp,list(valueTmp)>,然后将<keyTmp,list(valueTmp)>进行压缩后发送到运行Reduce函数的节点。
4.Reduce函数处理接收到的<keyTmp,list(valueTmp)>,根据keyTmp排序后,进行进一步处理,得到最终的结果<keyResult,valueResult>,并输出到分布式文件系统上。
Claims (7)
1.一种基于Hadoop平台的Deep Web查询接口聚类方法,包括:
通过本体对Deep Web查询接口进行语义扩展,并对Deep Web查询接口进行 潜在语义分析;
选取支撑分布式并行计算的聚类算法,将所选取的聚类算法进行并行化改 造,分别设计map函数、combine函数和reduce函数;
所述通过本体对Deep Web查询接口进
行语义扩展的具体步骤包括:
(1)确定领域本体的范围,从Deep Web查询接口中获取核心属性,并挖掘 出属性之间的语义关系、每个领域的查询接口属性,选择出现频率高于10的属 性;
(2)根据挖掘的属性关系,构建概念之间的部分与整体关系、继承关系、
概念与实例关系、概念与属性关系;
(3)使用本体描述语言构建核心领域本体;
(4)根据核心领域本体的属性,从结果页面中定位所需的目标数据区域;
(5)提取结果页面的模式;
(6)将结果页面中的概念和实例合并入领域核心本体;
(7)如果某一查询接口中的属性出现在本体中,则将该属性的上下文路径上的所有属性添加到该查询接口的属性集中。
2.根据权利要求1所述的方法,其中所述对Deep Web查询接口进行潜在语 义分析的具体步骤包括:
(1)根据经过语义扩展后的查询接口集构建Deep Web查询接口的向量空间 模型,即“查询接口-属性”矩阵;
(2)对第一步生成的“查询接口-属性”矩阵进行矩阵分解,然后选取K 值,得到低秩逼近矩阵Ck;其中:K为聚类领域的个数。
3.根据权利要求2所述的方法,其中所述的矩阵分解是采用SVD分解法分解。
4.根据权利要求1-3中任一项所述的方法,其中所述的聚类算法是K-Means 算法。
5.根据权利要求4所述的方法,还包括:搭建分布式平台,在集群上运行。
6.根据权利要求5所述的方法,其中所述的分布式平台包括名称节点和备份名称节点。
7.根据权利要求6所述的方法,还包括:配置用于减少网络数据传输量的数据压缩函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310562974.4A CN103678490B (zh) | 2013-11-14 | 2013-11-14 | 一种基于Hadoop平台的Deep Web查询接口聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310562974.4A CN103678490B (zh) | 2013-11-14 | 2013-11-14 | 一种基于Hadoop平台的Deep Web查询接口聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678490A CN103678490A (zh) | 2014-03-26 |
CN103678490B true CN103678490B (zh) | 2017-01-11 |
Family
ID=50316035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310562974.4A Active CN103678490B (zh) | 2013-11-14 | 2013-11-14 | 一种基于Hadoop平台的Deep Web查询接口聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678490B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138561B (zh) * | 2015-07-23 | 2018-11-27 | 中国测绘科学研究院 | 一种暗网空间数据采集方法及装置 |
CN105069101A (zh) * | 2015-08-07 | 2015-11-18 | 桂林电子科技大学 | 分布式索引构建及检索方法 |
CN107808000B (zh) * | 2017-11-13 | 2020-05-22 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取系统及方法 |
CN108762898B (zh) * | 2018-04-09 | 2023-04-25 | 平安科技(深圳)有限公司 | 一种线程接口的管理方法、终端设备及计算机可读存储介质 |
CN109086450B (zh) * | 2018-08-24 | 2021-08-27 | 电子科技大学 | 一种Web深网查询接口检测方法 |
CN115665286B (zh) * | 2022-12-26 | 2023-03-28 | 深圳红途科技有限公司 | 接口聚类方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419625A (zh) * | 2008-12-02 | 2009-04-29 | 西安交通大学 | 一种基于最小可查询模式的Deep Web自适应爬取方法 |
CN101582074A (zh) * | 2009-01-21 | 2009-11-18 | 东北大学 | 一种DeepWeb响应页面数据抽取方法 |
CN101788981A (zh) * | 2009-01-24 | 2010-07-28 | 华为技术有限公司 | 一种深层网移动搜索方法、服务器及系统 |
-
2013
- 2013-11-14 CN CN201310562974.4A patent/CN103678490B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101419625A (zh) * | 2008-12-02 | 2009-04-29 | 西安交通大学 | 一种基于最小可查询模式的Deep Web自适应爬取方法 |
CN101582074A (zh) * | 2009-01-21 | 2009-11-18 | 东北大学 | 一种DeepWeb响应页面数据抽取方法 |
CN101788981A (zh) * | 2009-01-24 | 2010-07-28 | 华为技术有限公司 | 一种深层网移动搜索方法、服务器及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103678490A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678490B (zh) | 一种基于Hadoop平台的Deep Web查询接口聚类方法 | |
Zeng et al. | A distributed graph engine for web scale RDF data | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
Han et al. | Spark: A big data processing platform based on memory computing | |
CN110321999A (zh) | 神经网络计算图优化方法 | |
CN105468702A (zh) | 一种大规模rdf数据关联路径发现方法 | |
Yan et al. | Quegel: A general-purpose query-centric framework for querying big graphs | |
CN105550268A (zh) | 大数据流程建模分析引擎 | |
He et al. | Parallel implementation of classification algorithms based on MapReduce | |
CN105930479A (zh) | 一种数据倾斜处理方法及装置 | |
CN104570081A (zh) | 一种积分法叠前时间偏移地震资料处理方法及系统 | |
Dong et al. | Global neighbor sampling for mixed CPU-GPU training on giant graphs | |
CN104699698A (zh) | 基于海量数据的图查询处理方法 | |
CN104298785A (zh) | 一种众搜资源搜索方法 | |
CN103226608B (zh) | 一种基于目录级可伸缩的Bloom Filter位图表的并行文件搜索方法 | |
WO2017040209A1 (en) | Data preparation for data mining | |
CN103927177A (zh) | 基于LDA模型和PageRank算法建立特征接口有向图的方法 | |
CN105069101A (zh) | 分布式索引构建及检索方法 | |
Tao et al. | Collaborative filtering recommendation algorithm based on spark | |
WO2020092279A1 (en) | Recording lineage in query optimization | |
He et al. | Parallel outlier detection using kd-tree based on mapreduce | |
Mei et al. | Clustering for heterogeneous information networks with extended star-structure | |
Abello et al. | Graph waves | |
CN109687464B (zh) | 电网潮流的分析方法及装置、存储介质、处理器 | |
Perwej et al. | An extensive investigate the mapreduce technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220507 Address after: 541004 the Guangxi Zhuang Autonomous Region Guilin Construction Road No. 12 Patentee after: Guilin Fansen Network Technology Co.,Ltd. Address before: 541004 1 Jinji Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region Patentee before: GUILIN University OF ELECTRONIC TECHNOLOGY Patentee before: Qiang Baohua |