CN104598489A - 基于专业搜索引擎的爬虫策略更新图书信息的方法 - Google Patents

基于专业搜索引擎的爬虫策略更新图书信息的方法 Download PDF

Info

Publication number
CN104598489A
CN104598489A CN201310535386.1A CN201310535386A CN104598489A CN 104598489 A CN104598489 A CN 104598489A CN 201310535386 A CN201310535386 A CN 201310535386A CN 104598489 A CN104598489 A CN 104598489A
Authority
CN
China
Prior art keywords
book information
book
text
books
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310535386.1A
Other languages
English (en)
Inventor
张宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DALIAN EWAYLIFE TECHNOLOGY Co Ltd
Original Assignee
DALIAN EWAYLIFE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DALIAN EWAYLIFE TECHNOLOGY Co Ltd filed Critical DALIAN EWAYLIFE TECHNOLOGY Co Ltd
Priority to CN201310535386.1A priority Critical patent/CN104598489A/zh
Publication of CN104598489A publication Critical patent/CN104598489A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于专业搜索引擎的爬虫策略更新图书信息的方法,包括如下步骤:图书信息收索服务器通过有线或无线的方式连接到各图书网站上;图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。

Description

基于专业搜索引擎的爬虫策略更新图书信息的方法
技术领域
本发明涉及一种基于专业搜索引擎的爬虫策略更新图书信息的方法。
背景技术
随着电子信息行业的发展电子书逐渐代替传统的纸质书。电子书是指将文字、图片、声音、影像等讯息内容数字化的出版物以及植入或下载数字化文字、图片、声音、影像等讯息内容的集存储介质和显示终端于一体的手持阅读器。代表人们所阅读的数字化出版物,从而区别于以纸张为载体的传统出版物,通过数码方式记录在以光、电、磁为介质的设备中,借助于特定的设备来读取、复制、传输。因其具有方便性,可搜寻内容,改变字体大小及字型,还可随身携带。容量大,随时可网络下载,不受地域限制,省去大量时间。因而被人们广泛接受。目前很多电子书都是章节性更新,因为版权意识加强,很多书籍都只在一些特定网站上进行更新;及时人为手动更新,对于网站上下载下来的图书信息进行图书内容提取也是非常繁琐的。这就为手机推送图书服务带来了很大困难。
专业搜索引擎的爬虫策略,专业搜索引擎网络爬虫通常采用“最好优先”原则访问WEB,即为快速、有效地获得更多的与主题相关的页面(简称“回报”),每次选择“最有价值”的链接进行访问。由于链接包含于页面之中,而通常具有较高价值的页面包含的链接也具有较高的价值,因而对链接价值的评价有时也转换为对页面价值的评价。
web信息提取是当前比较活跃的一个研究课题,但web数据的大量性,异构性和动态性,是web信息提取的一个桎梏。对于结构化的Web数据,已经有较为成熟的解决方法;而对于非结构化的Web数据,由于传统数据库的底层问题,不能用来处理非结构化数据,迫切希望能提出一种方法进行非结构化数据的处理。为了解决这个问题,很多研究者提出了为web数据建立元数据,可将非结构化数据变成结构化或半结构化数据。但由于web数据形式的多样性,很难为多样性的数据建立一种统一标准的元数据。本为为web数据中的文本数据建立了一种Dublin Core文本元数据表,将web文本这种非结构化数据结构化。Web文本元数据分为描述性元数据和语义性元数据,描述性元数据通过分析HTML源文件直接得到。为解决上述问题提供了技术支持。
发明内容
本发明针对以上问题的提出,而研制基于专业搜索引擎的爬虫策略更新图书信息的方法。本发明采用的技术方案如下:
一种基于专业搜索引擎的爬虫策略更新图书信息的方法,其特征在于包括如下步骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;
4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJ1,其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项;
5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
步骤3)中:所述图书下载方式为通过专业搜索引擎的爬虫策略边搜索边下载。
由于采用了上述技术方案,本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。另外,该方法基于计算机系统的实现,只需将该方法编译成相应的程序即可实现对现有计算机的升级,因此其成本非常低廉适于广泛推广。
附图说明
图1为本发明所述系统的结构框图;
图2为本发明的实现流程图。
具体实施方式
如图1和图2所示一种基于专业搜索引擎的爬虫策略更新图书信息的方法包括如下步骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;
4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJ1,其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项;
5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
步骤3)中:所述图书下载方式为通过专业搜索引擎的爬虫策略边搜索边下载。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种基于专业搜索引擎的爬虫策略更新图书信息的方法,其特征在于包括如下步骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载;
4)图书信息收索服务器将图书信息发送到图书源数据服务器中,图书资源服务器对图书信息收索服务器发送过来的图书信息进行处理,采用基于元数据的web信息提取方法对图书的文字信息进行提取,具体过程如下:①对HTML源文件进行分析,将标记流和文本流分开,根据标记流,提取题目元数据项,根据文本流将文本形式化为一个矩阵模型,在矩阵模型基础上提取文本的作者元数据项,②利用模糊数学的相关知识,为文本建立了文本状态模糊集与模糊相似矩阵,由此可提取文本的主题关键字元数据项,采用文本分类基本思想,提取题材元数据项,③为了提取内容元数据项,首先,利用模糊相似矩阵对冗长句处理,形成内容侯选句WHJ1,其次,在内容候选句WJH1中,利用模糊序贯决策论对冗长段进行处理,形成内容候选句WHJ2,最后,利用平面聚类和均值聚类算法对内容候选句集WHJ2进行聚类,然后将每一类中的相关性较小的句子剔除,最后形成文本内容元数据项;
5)图书资源服务器将编辑好的图书信息推送到客户的智能移动终端上。
2.根据权利要求1所述的一种基于专业搜索引擎的爬虫策略更新图书信息的方法,其特征在于步骤3)中:
所述图书下载方式为通过专业搜索引擎的爬虫策略边搜索边下载。
CN201310535386.1A 2013-10-31 2013-10-31 基于专业搜索引擎的爬虫策略更新图书信息的方法 Pending CN104598489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310535386.1A CN104598489A (zh) 2013-10-31 2013-10-31 基于专业搜索引擎的爬虫策略更新图书信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310535386.1A CN104598489A (zh) 2013-10-31 2013-10-31 基于专业搜索引擎的爬虫策略更新图书信息的方法

Publications (1)

Publication Number Publication Date
CN104598489A true CN104598489A (zh) 2015-05-06

Family

ID=53124279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310535386.1A Pending CN104598489A (zh) 2013-10-31 2013-10-31 基于专业搜索引擎的爬虫策略更新图书信息的方法

Country Status (1)

Country Link
CN (1) CN104598489A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653591A (zh) * 2015-12-22 2016-06-08 浙江中控研究院有限公司 一种工业实时数据分级存储及迁移方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653591A (zh) * 2015-12-22 2016-06-08 浙江中控研究院有限公司 一种工业实时数据分级存储及迁移方法
CN105653591B (zh) * 2015-12-22 2019-02-05 浙江中控研究院有限公司 一种工业实时数据分级存储及迁移方法

Similar Documents

Publication Publication Date Title
US9336202B2 (en) Method and system relating to salient content extraction for electronic content
WO2017113645A1 (zh) 信息提取方法和装置
CN105893611B (zh) 一种构建面向社交网络的兴趣主题语义网络的方法
CN101620608A (zh) 信息采集方法及系统
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN105404693B (zh) 一种基于需求语义的服务聚类方法
CN102457817B (zh) 一种手机报中新闻内容的抽取方法及系统
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
CN103514189A (zh) 一种基于搜索引擎的网络爬虫的实现方法
WO2014000130A1 (en) Method or system for automated extraction of hyper-local events from one or more web pages
CN112256861A (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN101685459B (zh) 一种多媒体搜索的方法和装置
CN103377225A (zh) 知识库系统的构建方法和设备
CN102622344A (zh) 一种面向Mediawiki的图片批量上传的控制方法及系统
WO2015044934A1 (en) A method for adaptively classifying sentiment of document snippets
CN106326236A (zh) 一种网页内容识别方法和系统
Yang et al. Lacta: An enhanced automatic software categorization on the native code of android applications
US20090182759A1 (en) Extracting entities from a web page
CN104598482A (zh) 基于深度优先搜索策略更新图书信息的方法
CN105574004A (zh) 一种网页去重方法和设备
CN104598489A (zh) 基于专业搜索引擎的爬虫策略更新图书信息的方法
CN104598496A (zh) 基于宽度优先搜索策略更新图书信息的方法
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN104598488A (zh) 基于ip地址搜索策略更新图书信息的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150506