CN104268283A - 一种自动解析互联网网页的方法 - Google Patents

一种自动解析互联网网页的方法 Download PDF

Info

Publication number
CN104268283A
CN104268283A CN201410560978.3A CN201410560978A CN104268283A CN 104268283 A CN104268283 A CN 104268283A CN 201410560978 A CN201410560978 A CN 201410560978A CN 104268283 A CN104268283 A CN 104268283A
Authority
CN
China
Prior art keywords
web page
industry
webpage
vertical search
regular expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410560978.3A
Other languages
English (en)
Inventor
范莹
于治楼
梁华勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201410560978.3A priority Critical patent/CN104268283A/zh
Publication of CN104268283A publication Critical patent/CN104268283A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种自动解析互联网网页的方法,属于网页解析领域;用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:①选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;②根据网页分词结果的图形化展示,提供正则表达式匹配项;③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页;本发明利用分词、正则表达式及标签解析技术,达到垂直搜索引擎实现了智能网页解析的目的。

Description

一种自动解析互联网网页的方法
技术领域
本发明涉及一种自动解析互联网网页的方法,属于网页解析领域。
背景技术
广大网民用户获取信息,通过在网页搜索获取结果,没法提供按行业特征进行分类筛选的服务,无法分类显示,然而哪些内容是用户本次搜索中想搜到的则无法进行判断,用户需要花很长时间在结果中找自己需要的信息。而垂直搜索,是网站针对其站内信息的搜索服务,其网站内的信息是由其站内用户直接将各种信息添加入该网站的各个分类中,虽然分类清晰,但搜索范围较窄,而且即使相同类的网站每个网站的组织形式、网页结构千差万别,需要从中抽取所需信息相当困难,用户需通过与其他搜索引擎配合使用才能了解到全面的信息。然而,本发明提供 一种自动解析互联网网页的方法,在垂直搜索的基础上利用正则表达式及标签解析技术对进行网页进行解析,对所有采集网页进行模板分类后,对每一类网页取出网页代表进行结构化抽取,得到相同类网页的结构化数据作为模板,使用户可以直接利用某个行业相同类的模板对不同网站进行搜索,获取想要获得的信息。
正则表达式,英语为Regular Expression、regex或regexp,缩写为RE,也译为正规表示法、常规表示法,在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。
发明内容
本发明针对现有技术存在的不足和问题,提供 一种自动解析互联网网页的方法,提出的具体方案是:
一种自动解析互联网网页的方法,用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:
①选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;
②根据网页分词结果的图形化展示,提供正则表达式匹配项;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;
⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页。
所述的步骤①中行业的代表网页是用户认为的且选择的一行业涉及的网页。
所述的步骤②中正则表达式的形式是数字替换,替换指定内容,删除指定内容,删除空行,指定数字,指定内容中的一种或几种组合。
所述的步骤⑤中标签是TAG标签和GET标签。
本发明的有益之处是:本发明一种自动解析互联网网页的方法,利用垂直搜索引擎和普通的网页搜索引擎的区别,对网页信息进行了结构化信息抽取,将网页的非结构化数据抽取成特定的结构化信息数据;然后将这些数据存储到数据库,进行进一步的加工处理,最后分词、索引再以搜索的方式满足用户的需求;本发明利用分词、正则表达式及标签解析技术,达到垂直搜索引擎实现了智能网页解析的目的。
附图说明
图1 一种自动解析互联网网页的方法流程示意图。
具体实施方式
结合实例,对本发明进行具体描述。
实施例1
以购物网站为例,用户利用垂直搜索在网站搜索,具体步骤如下:
①选取购物网站的代表网页比如淘宝,搜索男士衬衫,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户,最常出现的情况,将男士和衬衫进行了分词;
②根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用数字替换,比如男士替换成222,衬衫为444;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板遇到购物网站,搜索男士衬衫就利用正则表达式替换成222,444进行搜索;
⑤给垂直搜索模板加TAG标签,根据垂直搜索模板,自动解析行业涉及的所有网页。
实施例2
以教育网站为例,用户利用垂直搜索在网站搜索,具体步骤如下:
①选取教育网站的代表网页比如新东方,搜索中学英语,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户,最常出现的情况,将中学和英语进行了分词;
②根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用替换内容方式,比如中学替换成zx,英语为yy;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板遇到教育网站,搜索中学英语就利用正则表达式替换成zx,yy进行搜索;
⑤给垂直搜索模板加GET标签,根据垂直搜索模板,自动解析行业涉及的所有网页。
实施例3
以旅游网站为例,用户利用垂直搜索在网站搜索,具体步骤如下:
①选取旅游网站的代表网页比如中青旅,搜索花海,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户,出现的情况,将花和海进行了分词或花海;
②根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用删除指定内容或删除空格的方式,比如花海替换成花或海或花海;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板遇到旅游网站,搜索花海就利用正则表达式替换成花或海或花海进行搜索;
⑤给垂直搜索模板加TAG标签,根据垂直搜索模板,自动解析行业涉及的所有网页。

Claims (4)

1.一种自动解析互联网网页的方法,其特征是用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:
选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;
②根据网页分词结果的图形化展示,提供正则表达式匹配项;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;
⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页。
2.根据权利要求1所述的一种自动解析互联网网页的方法,其特征是所述的步骤中行业的代表网页是用户认为的且选择的一行业涉及的网页。
3.根据权利要求1或2所述的一种自动解析互联网网页的方法,其特征是所述的步骤②中正则表达式的形式是数字替换,替换指定内容,删除指定内容,删除空行,指定数字,指定内容中的一种或几种组合。
4.根据权利要求3所述的一种自动解析互联网网页的方法,其特征是所述的步骤⑤中标签是TAG标签和GET标签。
CN201410560978.3A 2014-10-21 2014-10-21 一种自动解析互联网网页的方法 Pending CN104268283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410560978.3A CN104268283A (zh) 2014-10-21 2014-10-21 一种自动解析互联网网页的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410560978.3A CN104268283A (zh) 2014-10-21 2014-10-21 一种自动解析互联网网页的方法

Publications (1)

Publication Number Publication Date
CN104268283A true CN104268283A (zh) 2015-01-07

Family

ID=52159804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410560978.3A Pending CN104268283A (zh) 2014-10-21 2014-10-21 一种自动解析互联网网页的方法

Country Status (1)

Country Link
CN (1) CN104268283A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138660A (zh) * 2015-09-01 2015-12-09 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN105912661A (zh) * 2016-04-11 2016-08-31 乐视控股(北京)有限公司 搜索引擎中去除html标签的方法及装置
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置
CN107085610A (zh) * 2017-04-26 2017-08-22 温州市鹿城区中津先进科技研究院 一种智能化非结构化数据处理方法
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108763279A (zh) * 2018-04-11 2018-11-06 北京中科闻歌科技股份有限公司 一种网页数据分布式模板采集方法及系统
CN110955822A (zh) * 2018-09-25 2020-04-03 北京京东尚科信息技术有限公司 商品搜索方法和装置
CN113254751A (zh) * 2021-06-24 2021-08-13 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289456A1 (en) * 2004-06-29 2005-12-29 Xerox Corporation Automatic extraction of human-readable lists from documents
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN103186645A (zh) * 2011-12-31 2013-07-03 北京金山软件有限公司 一种基于网络的特定资源获取方法和装置
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289456A1 (en) * 2004-06-29 2005-12-29 Xerox Corporation Automatic extraction of human-readable lists from documents
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎
CN102609427A (zh) * 2011-11-10 2012-07-25 天津大学 舆情垂直搜索分析系统及方法
CN103186645A (zh) * 2011-12-31 2013-07-03 北京金山软件有限公司 一种基于网络的特定资源获取方法和装置
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138660A (zh) * 2015-09-01 2015-12-09 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN105138660B (zh) * 2015-09-01 2018-08-14 浪潮通用软件有限公司 一种自动抓取互联网价格数据的方法
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置
CN105912661A (zh) * 2016-04-11 2016-08-31 乐视控股(北京)有限公司 搜索引擎中去除html标签的方法及装置
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108090104B (zh) * 2016-11-23 2023-05-02 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN107085610A (zh) * 2017-04-26 2017-08-22 温州市鹿城区中津先进科技研究院 一种智能化非结构化数据处理方法
CN108763279A (zh) * 2018-04-11 2018-11-06 北京中科闻歌科技股份有限公司 一种网页数据分布式模板采集方法及系统
CN110955822A (zh) * 2018-09-25 2020-04-03 北京京东尚科信息技术有限公司 商品搜索方法和装置
CN110955822B (zh) * 2018-09-25 2024-02-06 北京京东尚科信息技术有限公司 商品搜索方法和装置
CN113254751A (zh) * 2021-06-24 2021-08-13 北森云计算有限公司 一种复杂网页结构化信息精确提取方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104268283A (zh) 一种自动解析互联网网页的方法
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN103488724B (zh) 一种面向图书的阅读领域知识图谱构建方法
CN104598577B (zh) 一种网页正文的提取方法
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN103077164A (zh) 文本分析方法及文本分析器
WO2015047920A1 (en) Title and body extraction from web page
CN107861753B (zh) App生成索引、检索方法和系统及可读存储介质
CN103473369A (zh) 基于语义的信息采集方法及系统
KR101696499B1 (ko) 한국어 키워드 검색문 해석 장치 및 방법
CN106021392A (zh) 一种新闻关键信息的提取方法及系统
CN103838796A (zh) 一种网页结构化信息抽取方法
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN103778238A (zh) 一种从维基百科半结构化数据自动构建分类树的方法
US11520835B2 (en) Learning system, learning method, and program
CN105117434A (zh) 一种网页分类方法和系统
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN104346382A (zh) 使用语言查询的文本分析系统和方法
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
Al-Ghuribi et al. A comprehensive survey on web content extraction algorithms and techniques
CN113821718A (zh) 一种物品信息推送方法和装置
CN104462552A (zh) 问答页面核心词提取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150107