CN102012923A - 通用型垂直搜索引擎的搜索规则模型建模方法 - Google Patents

通用型垂直搜索引擎的搜索规则模型建模方法 Download PDF

Info

Publication number
CN102012923A
CN102012923A CN2010105644825A CN201010564482A CN102012923A CN 102012923 A CN102012923 A CN 102012923A CN 2010105644825 A CN2010105644825 A CN 2010105644825A CN 201010564482 A CN201010564482 A CN 201010564482A CN 102012923 A CN102012923 A CN 102012923A
Authority
CN
China
Prior art keywords
search
search rule
control
webpage
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105644825A
Other languages
English (en)
Inventor
刘学明
钱宇
张康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI QUEDU INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUXI QUEDU INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI QUEDU INFORMATION TECHNOLOGY Co Ltd filed Critical WUXI QUEDU INFORMATION TECHNOLOGY Co Ltd
Priority to CN2010105644825A priority Critical patent/CN102012923A/zh
Publication of CN102012923A publication Critical patent/CN102012923A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

通用型垂直搜索引擎的搜索规则模型建模方法,垂直搜索核心模块Spider(1)访问搜索规则控制模型(2)实现不同结构网页中不同结构的网页数据的抓取控制,搜索规则控制模型(2)由网页链接库(21)、搜索规则库(22)、搜索规则控制模型库(23)和网页数据-存储结构对照表(24)构成。本发明搜索规则模型建模方法解决了一个模型中同时涵盖不同结构的网页、不同结构的网页数据搜索规则描述问题。本发明使垂直搜索引擎能够顺利完成不同网页的访问控制和不同结构的网页数据抓取动作,从而实现垂直搜索引擎的多行业应用的通用性目的。

Description

通用型垂直搜索引擎的搜索规则模型建模方法
一.技术领域
本发明公开一种基于通用型垂直搜索引擎的搜索规则模型建模方法。
二.背景技术
诸多文献都将垂直搜索定义为面向某单一应用或某单一功能的搜索技术。现实中的垂直搜索产品和门户网站正是按照此定义布局,或房产信息搜索门户、或博客信息搜索门户、或音乐信息搜索门户、或专利信息搜索门户,凡此种种,莫不如是。产生如此现象,皆因垂直搜索的互联网信息明显的行业应用特性、功能应用特性和结构特性使然。亦即是说,由于垂直搜索所面对的互联网信息具有明显的行业应用特征、功能应用特征和结构特征,这些千差万别的信息特征导致垂直搜索门户具有明显的单一的行业性或功能性。
其实,垂直搜索引擎的核心模块-数据爬行模块spider本身可作为通用的技术,并无严格的行业应用或功能应用的界限。一个好的数据爬行软件原则上是可以针对任何网页、任何行业信息完成数据抓取任务的。由此看来,导致垂直搜索技术仅被应用于某个单一的行业或功能门户的现状,其根源并不在于数据爬行软件spider这一垂直搜索的核心技术本身,而是来自于该核心技术以外的因素。因此,要像google、百度那样构建一个通用的垂直搜索平台,数据爬行软件spider这一垂直搜索的核心技术本身是具备此基础的。问题在于如何围绕具备通用能力的数据爬行软件构建起具有通用能力的外围体系,才是实现通用型垂直搜索引擎的关键。构建起与通用型数据爬行软件spider相匹配,并且具备通用能力的搜索规则模型,就是该体系研究的重要课题之一。
三.发明内容
本发明的目的在于提供一种通用型垂直搜索引擎的搜索规则模型建模方法,该方法用于通用的垂直搜索体系中,描述数据爬行软件spider在抓取网页数据时所依据的各种指示信息,使之具备通用型垂直搜索引擎所需要的各种网页结构和各种网页数据的抓取能力。
本发明的技术方案是:
本发明通用型垂直搜索引擎的搜索规则模型建模方法,垂直搜索核心模块Spider 1访问搜索规则控制模型2实现不同结构网页中不同结构的网页数据的抓取控制,搜索规则控制模型2由网页链接库21、搜索规则库22、搜索规则控制模型库23和网页数据存储结构对照表24构成。其中:
网页链接库21存储有系统所有被搜索的网页对象的URL描述信息,该URL描述信息告知垂直搜索核心模块Spider 1需要打开的网页,以及该网页所对应的行业分类、应用分类和数据分类信息;
搜索规则库22存储有网页搜索控制所需的动作规范指示信息,垂直搜索核心模块Spider 1依据其实现网页打开控制、系统登录控制、初始位置定位控制、识别抓取对象所需的特征描述、网页数据的结构分解处理、抓取数据的转换/存储处理、抓取结构数据的数量控制、网页翻页控制等动作;
搜索规则控制模型库23存储有与搜索规则库22配套的辅助参数信息,包括系统登录所需的用户名和密码信息、网页验证码解读方法和解析程序代码、网页搜索相关的控件的模拟驱动方法和驱动程序代码、网页翻页控件的模拟驱动方法和专用的模拟驱动程序代码等;
网页数据-存储结构对照表24存储有垂直搜索核心模块Spi der 1在抓取网页数据后的存储动作描述信息。
本发明的显著效果是:
本发明搜索规则模型建模方法解决了一个模型中同时涵盖不同结构的网页、不同结构的网页数据搜索规则描述问题。本发明使垂直搜索引擎能够顺利完成不同网页的访问控制和不同结构的网页数据抓取动作,从而实现垂直搜索引擎的多行业应用的通用性目的。
四.附图说明
图1为本发明通用型垂直搜索引擎的搜索规则模型建模方法示意图。其中:
1=垂直搜索核心组件Spider
2=搜索规则控制模型
21=网页链接库
22=搜索规则库
23=搜索规则控制模型库
24=网页数据-存储结构对照表
图2为本发明通用型垂直搜索引擎建模方法的搜索规则模型的网页链接库的结构举例。
图3为本发明通用型垂直搜索引擎建模方法的搜索规则模型的搜索规则库的结构举例。
图4为本发明通用型垂直搜索引擎建模方法的搜索规则模型的搜索规则控制模型库的结构举例。
图5为本发明通用型垂直搜索引擎建模方法的搜索规则模型的网页数据-存储结构对照表的结构举例。
五.具体实施方式
实施例1
参见图2。本实施例说明本发明通用型垂直搜索引擎建模方法的搜索规则模型中网页链接库的结构21举例。
实施例2
参见图3。本实施例说明本发明通用型垂直搜索引擎建模方法的搜索规则模型中搜索规则库22的结构举例。
实施例3
参见图4。本实施例说明本发明通用型垂直搜索引擎建模方法的搜索规则模型中搜索规则控制模型库23的结构举例。
实施例4
参见图5。本实施例说明本发明通用型垂直搜索引擎建模方法的搜索规则模型中网页数据-存储结构对照表24的结构举例。

Claims (1)

1.通用型垂直搜索引擎的搜索规则模型建模方法,垂直搜索核心模块Spider(1)访问搜索规则控制模型(2)实现不同结构网页中不同结构的网页数据的抓取控制,搜索规则控制模型(2)由网页链接库(21)、搜索规则库(22)、搜索规则控制模型库(23)和网页数据-存储结构对照表(24)构成。其中:
网页链接库(21)存储有系统所有被搜索的网页对象的URL描述信息,该URL描述信息告知垂直搜索核心模块Spider(1)需要打开的网页,以及该网页所对应的行业分类、应用分类和数据分类信息;
搜索规则库(22)存储有网页搜索控制所需的动作规范指示信息,垂直搜索核心模块Spider(1)依据其实现网页打开控制、系统登录控制、初始位置定位控制、识别抓取对象所需的特征描述、网页数据的结构分解处理、抓取数据的转换/存储处理、抓取结构数据的数量控制、网页翻页控制等动作;
搜索规则控制模型库(23)存储有与搜索规则库(22)配套的辅助参数信息,包括系统登录所需的用户名和密码信息、网页验证码解读方法和解析程序代码、网页搜索相关的控件的模拟驱动方法和驱动程序代码、网页翻页控件的模拟驱动方法和专用的模拟驱动程序代码等;
网页数据-存储结构对照表(24)存储有垂直搜索核心模块Spider(1)在抓取网页数据后的存储动作描述信息。
CN2010105644825A 2010-11-30 2010-11-30 通用型垂直搜索引擎的搜索规则模型建模方法 Pending CN102012923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105644825A CN102012923A (zh) 2010-11-30 2010-11-30 通用型垂直搜索引擎的搜索规则模型建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105644825A CN102012923A (zh) 2010-11-30 2010-11-30 通用型垂直搜索引擎的搜索规则模型建模方法

Publications (1)

Publication Number Publication Date
CN102012923A true CN102012923A (zh) 2011-04-13

Family

ID=43843096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105644825A Pending CN102012923A (zh) 2010-11-30 2010-11-30 通用型垂直搜索引擎的搜索规则模型建模方法

Country Status (1)

Country Link
CN (1) CN102012923A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361093A (zh) * 2014-11-19 2015-02-18 南京大学 一种通用的Web自动浏览导航方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361093A (zh) * 2014-11-19 2015-02-18 南京大学 一种通用的Web自动浏览导航方法

Similar Documents

Publication Publication Date Title
US9639240B2 (en) Computer-implemented method for launching an installed application
CN103020525A (zh) 虚拟机系统的反检测方法和装置
CN102012922A (zh) 通用型垂直搜索引擎的行业应用模型建模方法
CN102012923A (zh) 通用型垂直搜索引擎的搜索规则模型建模方法
Spyrakos et al. Performance of a post-Byzantine triple-domed basilica under near and far fault seismic loads: Analysis and intervention
Leicht et al. Moving toward an'intelligent'shop modeling process
CN108614821B (zh) 地质资料互联互查系统
Karan et al. Using Artificial Intelligence to Automate the Quantity Takeoff Process
Seidalinov Constitutive and numerical modeling of clay subjected to cyclic loading
Haans In search of the fixed points on the presence scale
Sakamoto et al. Laser positioning system using RFID-tags
Reyes Constitutive modeling and numerical simulation of seismic liquefaction-induced displacements
Kidman et al. Enhancing preservice teacher learning through slowmation animation
WO2011060370A1 (en) Systems and methods for enhancing management effectiveness
Kendall Archiving and managing sociolinguistic data: the problems of portability, access and security, and discoverability and relevance
Feucht Coding Schemes Based on Cognitive Principles Are Best Practice
Dajsuren et al. A quality framework for evaluating automotive architecture
Kroeger A brief overview of BIBFRAME
Barrero Multi-scale modeling of cyclic shearing and liquefaction response of granular materials
Johannsen et al. A Whole-of-Government Approach to Climate change and the Process of Making Cities Resilient: Constructing a Digital Twin Network for Urban Adaptation
Hassan Agent-based modelling and simulation of sidewalk delivery robots' interaction with pedestrians.
Hugo et al. A smart building semantic platform to enable data re-use in energy analytics applications: The data clearing house
Ibarra Medina Development and application of a CFD model of laser metal deposition
Jeanson An interdisciplinary approach to Cultural Heritage Data Management-Building scientificity and dealing with heterogenous LOD
Elsharkawy et al. Education for sustainable development of the built environment: problem-based learning approach for embedding sustainability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110413

DD01 Delivery of document by public notice

Addressee: Wuxi Fast Information Technology Co., Ltd. Finance Department

Document name: Notification of Approving Refund