CN101930477A - 基于标准三层分类的网页信息挖掘方法 - Google Patents

基于标准三层分类的网页信息挖掘方法 Download PDF

Info

Publication number
CN101930477A
CN101930477A CN 201010284119 CN201010284119A CN101930477A CN 101930477 A CN101930477 A CN 101930477A CN 201010284119 CN201010284119 CN 201010284119 CN 201010284119 A CN201010284119 A CN 201010284119A CN 101930477 A CN101930477 A CN 101930477A
Authority
CN
China
Prior art keywords
layer
item name
ground floor
classification
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010284119
Other languages
English (en)
Inventor
俞晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI NUOBAO TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
WUXI NUOBAO TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI NUOBAO TECHNOLOGY DEVELOPMENT Co Ltd filed Critical WUXI NUOBAO TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN 201010284119 priority Critical patent/CN101930477A/zh
Publication of CN101930477A publication Critical patent/CN101930477A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于标准三层分类的网页信息挖掘方法,将信息对象按类别分为三个层次,在数据库中设计三个表对应三层类别。设计可缩放信息挖掘工具,在第一层搜索时,搜索索引使用第一层表,在第二层搜索时,搜索索引使用第二层表,在第三层搜索时,搜索索引使用第三层表。本发明创立了一个建立在新的标准分类体系基础上的网页信息分类系统,使信息探索更精准、迅捷;分层次筛选使结果更精准;通过对每一层索引建立适应对应表,使搜索更迅捷;同时,三个表也方便了后台管理,并有利于系统进一步延伸与整合。

Description

基于标准三层分类的网页信息挖掘方法
技术领域
 本发明涉及网页搜索中一种基于标准三层分类的网页信息挖掘方法,属于互联网物联网信息科技领域。
背景技术
现有对与分类相关的网页技术没有应用标准分类层次或深度,如亚马逊(amazon.com)数据结构层次深度没有标准。阿里巴巴里各类商品的分类也是层次深度不一,没有形成标准,扩展起来较麻烦。如要调整搜索种类等方面,须修改网页代码。类似亚马逊的网页与阿里巴巴的网页,在增加内容类别时也需对网页本身进行修改。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于标准三层分类的网页信息挖掘方法,在增加内容类别时,只对数据库处理即可,而且可以较容易将各子类别整合为一个大系统。
按照本发明提供的技术方案,所述基于标准三层分类的网页信息挖掘方法,将信息对象按类别分为三个层次,在数据库中设计三个表对应三层类别,其中,第一层表包括第一层的序列号与第一层类别名称,第二层表包括第二层序列号、第二层类别名称与第一层序列号,第三层表包括第三层序列号、第三层类别名称及第二层序列号、第一层序列号;设计可缩放信息挖掘工具,在第一层搜索时,搜索索引使用第一层表,在第二层搜索时,搜索索引使用第二层表,在第三层搜索时,搜索索引使用第三层表。
所述第二层表还包括第一层类别名称,所述第三层表还包括第二层类别名称和第一层类别名称。
所述可缩放信息挖掘工具中第二层索引包括第二层类别名称,点击第二层类别名称后显示相应第二层类别内容;第二层索引还包括第一层类别名称,点击第一层类别名称后回到第一层,同时显示第一层类别内容。
所述可缩放信息挖掘工具中第三层索引包括第三层类别名称,点击第三层类别名称后显示相应第三层类别内容,第三层索引还包括第二层类别名称,点击第二层类别名称后回到第二层,同时显示第二层类别内容。
本发明的优点是:本发明披露的三层深度的分类技术应用在网页搜索技术中,使结果信息集合有序收敛,较快实现精准搜索。标准的三层分类系统也易于扩展,三个附属表的应用使每一层的结构易于调整,而且不用改变网页代码便可调整搜索范围,增、删搜索种类。
附图说明
图1是本发明所述三个表的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。本发明公开了一种互联网与分类相关的网页信息挖掘方法,应用于对互联网信息的存储与搜索,尤其对于有规则结构层次的内容,如电子商务网站对产品的介绍等。
本发明涉及一种基于标准深度的三层分类体系的数据存贮与挖掘系统。
1)首先将信息对象类别分为三个层次。一般来说,多于三层向上合并,少于三层的加默认上层补足三层。
对象指的是存储的一个个记录,对象类别指的是这些记录的类别。比如对设计相关的记录,第一层类别名即“设计作品”,第二层是“设计作品”下的分类,比如“包装设计”、“企业创意设计”、“建筑设计”、“服装设计”等,第三层是第二层类别下的分类,比如“建筑设计”下课分“室外设计”、“室内设计”等。
多于三层的情况:比如“室内设计”本来还可以分为“厨房设计”、“卧室设计”等,但“室内设计”已到第三层了,“厨房设计”、“卧室设计”就合并到“室内设计”里,不另分了。默认上层可以加与本层同名的层。
2)在数据库中设计三个表对应三层类别,第一层表T1包括第一层的序列号与第一层名称,第二层表T2包括第二层序列号、第二层名称与第一层序列号。第三层表T3包括第三层序列号与名称及第一第二层序列号、名称。T2表可以有T1对应的第一层类别名称,也可以没有;T3表可以有T1、T2对应的第一层类别名称,也可以没有。相应上层的对应序列号必须有。类别名称如前所述,序列号是数据库内给类别名称分配的数字标示。
3)设计可缩放信息挖掘体系,上述三个表在对应各个搜索深度时起辅助作用,在第一层搜索时,搜索索引使用第一层表T1,由于一般来说T1表与T2、T3表内容少很多,T1表的存在可提高整个系统的性能。同理,T2表辅助第二层搜索,供第二层搜索的索引使用。如不设计T1、T2表,其内容在T3表中也有,不过需用一般数据库工程师都知道的“distinct”功能选择,这样的话会加重数据库运算负担,影响系统效率。
可缩放信息挖掘工具S是一个带有图形界面的计算机程序,由它对网页进行不同深度的搜索。在S中,第二层索引包括第二层类别名称,点击第二层类别名称后显示相应第二层类别内容;第二层索引还包括第一层类别名称,点击第一层类别名称后回到第一层,同时显示第一层类别内容。第三层索引包括第三层类别名称,点击第三层类别名称后显示相应第三层类别内容,第三层索引还包括第二层类别名称,点击第二层类别名称后回到第二层,同时显示第二层类别内容。
4)表T1、T2、T3的另一个作用是协助后台管理时灵活调整类别,通过对表的内容修改而非修改网页源代码。
本发明创立了一个建立在新的标准分类体系基础上的网页信息分类系统,使信息探索更精准、迅捷。分层次筛选使结果更精准;通过对每一层索引建立适应对应表,使搜索更迅捷。同时,三个表也方便了后台管理,并有利于系统进一步延伸与整合。

Claims (4)

1.基于标准三层分类的网页信息挖掘方法,其特征是:将信息对象按类别分为三个层次,在数据库中设计三个表对应三层类别,其中,第一层表(T1)包括第一层的序列号与第一层类别名称,第二层表(T2)包括第二层序列号、第二层类别名称与第一层序列号,第三层表(T3)包括第三层序列号、第三层类别名称及第二层序列号、第一层序列号;设计可缩放信息挖掘工具,在第一层搜索时,搜索索引使用第一层表(T1),在第二层搜索时,搜索索引使用第二层表(T2),在第三层搜索时,搜索索引使用第三层表(T3)。
2.如权利要求1所述基于标准三层分类的网页信息挖掘方法,其特征是:所述第二层表(T2)还包括第一层类别名称,所述第三层表(T3)还包括第二层类别名称和第一层类别名称。
3.如权利要求1所述基于标准三层分类的网页信息挖掘方法,其特征是:所述可缩放信息挖掘工具中第二层索引包括第二层类别名称,点击第二层类别名称后显示相应第二层类别内容;第二层索引还包括第一层类别名称,点击第一层类别名称后回到第一层,同时显示第一层类别内容。
4.如权利要求1所述基于标准三层分类的网页信息挖掘方法,其特征是:所述可缩放信息挖掘工具中第三层索引包括第三层类别名称,点击第三层类别名称后显示相应第三层类别内容,第三层索引还包括第二层类别名称,点击第二层类别名称后回到第二层,同时显示第二层类别内容。
CN 201010284119 2010-09-17 2010-09-17 基于标准三层分类的网页信息挖掘方法 Pending CN101930477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010284119 CN101930477A (zh) 2010-09-17 2010-09-17 基于标准三层分类的网页信息挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010284119 CN101930477A (zh) 2010-09-17 2010-09-17 基于标准三层分类的网页信息挖掘方法

Publications (1)

Publication Number Publication Date
CN101930477A true CN101930477A (zh) 2010-12-29

Family

ID=43369653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010284119 Pending CN101930477A (zh) 2010-09-17 2010-09-17 基于标准三层分类的网页信息挖掘方法

Country Status (1)

Country Link
CN (1) CN101930477A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1339748A (zh) * 2000-08-21 2002-03-13 叶柯 信息的发布、分拣和访问的方法
CN1983255A (zh) * 2006-05-17 2007-06-20 唐红春 一种互联网搜索方法
CN101458686A (zh) * 2007-02-14 2009-06-17 北京上行逶式信息公司 互联网二层数据库关键词处理技术

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1339748A (zh) * 2000-08-21 2002-03-13 叶柯 信息的发布、分拣和访问的方法
CN1983255A (zh) * 2006-05-17 2007-06-20 唐红春 一种互联网搜索方法
CN101458686A (zh) * 2007-02-14 2009-06-17 北京上行逶式信息公司 互联网二层数据库关键词处理技术

Similar Documents

Publication Publication Date Title
CN104834518A (zh) 油田勘探开发工作平台系统
CN104732359A (zh) 油田地理信息与勘探开发协同工作平台系统
US20090204590A1 (en) System and method for an integrated enterprise search
CN102075560A (zh) 一种基于系统耦合的福富企业搜索引擎技术
CN101916272B (zh) 用于深层网数据集成的数据源选择方法
Forgotson Jr Nature, usage, and definition of marker-defined vertically segregated rock units
US7533085B2 (en) Method for searching deep web services
CN1845098A (zh) 仿人工细粒度网页信息采集方法
US20150213380A1 (en) System and Method for Dynamically Creating a Multi-Level Well Hierarchy by Integrating Data From Multiple Sources
CN100470549C (zh) 一种表格定位的数据挖掘方法
CN104899426A (zh) 一种高速列车指标体系的处理方法和装置
CN102236662B (zh) 数据库查询和控制方法
CN101281557B (zh) 一种应用于复杂地层数字制图的筛分方法
CN101930477A (zh) 基于标准三层分类的网页信息挖掘方法
CN104537047A (zh) 一种基于Lucene的服装基样板检索系统
Rifa'i et al. One decade research in the field of business ecosystem: a bibliometric analysis
Spaaks et al. Research Software Directory
CN104572663A (zh) 一种基于jsp的智能搜索可分级数据的实现方法
CN106407223A (zh) 快速提取地质有效信息的方法
CN104615671A (zh) 基于本体的制造能力多粒度描述框架及方法
Soewito et al. OLAP analysis of water formation data
CN101706828A (zh) 支持多文档格式的自适应数据加载方法
CN104572746A (zh) 一种矩阵式信息发布及访问方法和系统
Wang Design and Analysis of Geotechnical Engineering Survey Integrated System Based on GIS
Singh et al. A Survey on Enhancing the Efficiency of various web structure mining algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101229