CN102841920A - 一种页面信息提取方法及装置 - Google Patents

一种页面信息提取方法及装置 Download PDF

Info

Publication number
CN102841920A
CN102841920A CN2012102271954A CN201210227195A CN102841920A CN 102841920 A CN102841920 A CN 102841920A CN 2012102271954 A CN2012102271954 A CN 2012102271954A CN 201210227195 A CN201210227195 A CN 201210227195A CN 102841920 A CN102841920 A CN 102841920A
Authority
CN
China
Prior art keywords
address
address information
information
point
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102271954A
Other languages
English (en)
Other versions
CN102841920B (zh
Inventor
王松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210227195.4A priority Critical patent/CN102841920B/zh
Publication of CN102841920A publication Critical patent/CN102841920A/zh
Application granted granted Critical
Publication of CN102841920B publication Critical patent/CN102841920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种页面信息提取方法及装置,所述方法包括:S1.获取全网的网页页面;S2.获取所述网页页面对应的站点首页或联系页;S3.从所述站点首页或联系页中提取兴趣点名称和对应的地址信息;S4.将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。相较于现有技术,本发明利用互联网中实体机构的组织结构特点及信息语义特征,从站点首页和联系页中提取实体机构的联系信息,通过对多来源数据的校验、整合与关联,获取结构化的地理位置信息,提高了信息的准确率,并能够自动面向整个互联网的实体机构进行信息召回,降低人力成本,提高了信息召回率。

Description

一种页面信息提取方法及装置
【技术领域】
本发明涉及互联网信息处理技术领域,特别涉及一种页面信息提取方法及装置。
【背景技术】
随着互联网和信息技术的不断发展,互联网已经成为人们日常获取信息的主要来源。由于web网页每天都以几何级数激增,为了使用户能够快速准确的获得自己感兴趣的信息,通常会先对这些海量的页面数据进行信息提取。信息提取的任务是把文本里包含的信息进行结构化处理,以便人们可以像查询数据库一样获取自己需要的信息。例如,可以利用信息提取的方法提取网页中包含的实体机构名称、地址、联系电话等联系方式,获取地理兴趣点数据,以利用后续用户检索或查询时提供较好的搜索结果。
现有的信息提取方法通常是基于模板的结构化信息提取方法,通过人工编写模板的规则,对互联网中的页面信息进行挖掘,得到结构化信息。采用这种方式不仅需要消耗巨大的人工代价,而且还要求挖掘对象在页面中有相同的结构特点,因而受到人力成本和页面结构一致性的限制,无法大规模应用。对于挖掘对象数量巨大且页面结构变化多样的情况,如获取全网中实体机构的地理兴趣点数据,现有基于模板的结构化信息抽取方式无法满足抽取的准确率和信息召回率要求。
【发明内容】
有鉴于此,本发明提供了一种页面信息提取方法及装置,能够自动对全网中结构变化多样且数量巨大的对象进行挖掘,节省人力成本,提高准确率和信息召回率。
具体技术方案如下:
一种页面信息提取方法,该方法包括以下步骤:
S1、获取全网的网页页面;
S2、获取所述网页页面对应的站点首页或联系页;
S3、从所述站点首页或联系页中提取兴趣点名称和对应的地址信息;
S4、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
根据本发明一优选实施例,所述获取站点首页的方法采用以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
根据本发明一优选实施例,所述获取网页页面对应的联系页的方法,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
根据本发明一优选实施例,所述从站点首页和联系页中提取兴趣点名称和对应的地址信息,具体为:
将所述站点首页或联系页的页面标题识别为兴趣点名称;
判断所述站点首页或联系页的页面内容是否有地址提示词;
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
根据本发明一优选实施例,在所述步骤S1之后和步骤S4之前,还包括:
S5、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
S6、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
S7、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
S8、从所述地址信息块中提取兴趣点名称和对应的地址信息。
根据本发明一优选实施例,所述步骤S5具体包括:
逐一解析所述网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成最终的视觉分块树。
根据本发明一优选实施例,所述步骤S6具体包括:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
根据本发明一优选实施例,所述地址信息树的构建方法,包括:
逐一获取地址实例库中的实例地址;
对当前的实例地址进行分词处理,得到该实例地址的词项;
利用预设的地址标识词典,识别实例地址中词项的后缀成分;
利用预设的地址信息词典对所述后缀的上下文进行成分分析,识别所述词项的主体成分;
将识别到的主体成分添加到地址信息树中对应的节点,形成地址信息树。
根据本发明一优选实施例,所述从地址信息块中提取兴趣点名称,包括:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称;
所述从地址信息块中提取对应的地址信息,具体包括:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
根据本发明一优选实施例,在步骤S4之前,还包括:
对同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
根据本发明一优选实施例,所述校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
一种页面信息提取装置,该装置包括:
网页获取模块,用于获取全网的网页页面;
站点结构分析模块,用于获取所述网页页面对应的站点首页和联系页;
第一信息提取模块,用于从所述站点首页和联系页中提取兴趣点名称和对应的地址信息;
关联模块,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
根据本发明一优选实施例,所述站点结构分析模块获取站点首页的具体配置,采用以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
根据本发明一优选实施例,所述站点结构分析模块获取网页页面对应的联系页的具体配置为:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
根据本发明一优选实施例,所述第一信息提取模块从站点首页和联系页中提取兴趣点名称和对应的地址信息,具体配置为:
将所述站点首页或联系页的页面标题识别为兴趣点名称;
判断所述站点首页或联系页的页面内容是否有地址提示词;
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
根据本发明一优选实施例,该装置还包括:
视觉分块处理模块,用于逐一将所述网页获取模块获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
标注模块,用于基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
地址信息块获取模块,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
第二信息提取模块,用于从所述地址信息块中提取兴趣点名称和对应的地址信息。
根据本发明一优选实施例,所述视觉分块处理模块具体配置为:
逐一解析所述网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成最终的视觉分块树。
根据本发明一优选实施例,所述标注模块具体配置为:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
根据本发明一优选实施例,所述地址信息树通过地址信息树构建模块预先建立,所述地址信息树构建模块包括:
实例地址获取子模块,用于逐一获取地址实例库中的实例地址;
分词子模块,用于对所述实例地址获取子模块获取的当前的实例地址进行分词处理,得到该实例地址的词项;
后缀识别子模块,用于利用预设的地址标识词典,识别实例地址中词项的后缀成分;
成分识别子模块,用于利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分;
成分节点确定子模块,用于将所述后缀识别子模块和成分识别子模块识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
根据本发明一优选实施例,所述第二信息提取模块从地址信息块中提取兴趣点名称,具体配置为:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称;
所述第二信息提取模块从地址信息块中提取对应的地址信息,具体配置为:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
根据本发明一优选实施例,该装置还包括:
校验模块,用于对所述第一信息提取模块或所述第二信息提取模块获取的同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
根据本发明一优选实施例,所述校验模块的具体配置包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
由以上技术方案可以看出,本发明提供的页面信息提取方法及装置,利用互联网中实体机构的组织结构特点及信息语义特征,从站点首页和联系页中提取实体机构的联系信息,通过对多来源数据的校验、整合与关联,并结合视觉分块技术获取包含地址信息的网页块,获取结构化的地理位置信息,提高了信息的准确率,并能够自动面向整个互联网的实体机构进行信息召回,降低人力成本,提高了信息召回率。
【附图说明】
图1为本发明实施例一提供的页面信息提取方法流程图;
图2为本发明实施例一提供的地址信息树构建方法流程图;
图3为本发明实施例二提供的页面信息提取方法流程图;
图4为本发明实施例二提供的基于视觉特征分块的方法流程图;
图5a为“北京市海淀医院”站点网页中的版权块示意图;
图5b为一个包含地址信息的文本块示意图;
图6为本发明实施例三提供的页面信息提取装置示意图;
图7为本发明实施例三提供的页地址信息树构建模块示意图;
图8为本发明实施例四提供的页面信息提取装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
电子地图中兴趣点(point of interest,POI)数据,通常包括名称、地址、联系电话、类别、位置坐标等信息。通常,一条POI数据代表电子地图中的一个位置实体。兴趣点可以是一定地域内比较重要或使用频率较高的面向整个社会的场所,如银行、主要商场、主要商务大楼、饭店宾馆、政府机关、娱乐场所、主要风景名胜等,也可以是某一地域内属于某一行业的单位所在地址,如企业或单位所在的地址。
在互联网上存在大量的实体机构的网站站点,通常包含平台类二级域名实体站点(如阿里巴巴)和实体机构官网两个类别。在这些站点中通常包含该实体机构的名称及地址等相关信息,这些信息存在于互联网中的站点结构、页面结构及页面中的文本信息块中,例如,通常在站点联系页、版权块或其他主体块中存在该站点的地址信息。
本发明利用互联网中实体机构站点的结构特点及站点页面之间信息语义特征的联系,提取该些实体机构的地址信息作为地理兴趣点。在地理兴趣点的提取中,通过网页内容提取兴趣点信息,用以构建和完善电子地图的数据信息,以便后续用作垂直搜索,提供较好的搜索结果。
实施例一、
图1是本实施例提供的页面信息提取方法流程图,如图1所示,该方法包括:
步骤S101、获取全网的网页页面。
利用网络爬虫,抓取互联网中各网页页面,至少包括网页页面的网址和源代码。例如,url网址为“http://www.hdhospital.com/OverView.aspx”为北京市海淀医院站点内的一个页面,利用网络爬虫抓取该网页页面,记录对应的url网址,并获取该网页页面对应的网页源代码(如HTML代码)。
步骤S102、获取所述网页页面对应的站点首页或联系页。
获取站点首页的方法可以采用以下所列方法A~C中的一种或任意结合:
方法A:从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页。
对于平台类二级域名实体站点的首页,则直接采用该实体站点的二级域名进行跳转,例如,“http://fsj0769.cn.alibaba.com/”为“东莞市立信塑料制品有限公司”的站点首页的网页地址。
对于实体机构官网具有独立域名,因此,抽取独立域名进行跳转,获取实体机构的站点首页。例如,网页页面的url网址为:http://www.hdhospital.com/OverView.aspx,从该url网址中去掉路径部分,取出域名地址“www.hdhospital.com”,利用该域名地址进行跳转处理,跳转结果指向“http://www.hdhospital.com/”,则该跳转结果为对应的站点首页。
方法B:通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页。
这种方式与方法A相类似,区别在于先对取出的域名地址作去重处理后,再统一进行域名地址的跳转,可提高效率。
方法C:利用站点的首页样本集合,统计分析其链接锚文本(即前链锚文本)及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
链接锚文本特征可以与提取兴趣点名称时预设的语义规则一致,例如具有相同的后缀信息:“XXX公司”或“XXX医院”等。而网址样式特征,则例如,“http://www.XXX.com/index.html”、“http://www.XXX.com/”、“http://www.XXX.com/default.aspx”等等为站点的首页网址,从中提取得到首页的网址样式特征,可以包括“index”、“default”等。利用这些特征构造首页分类器,再对网页页面进行分类得到站点首页。
获取网页页面对应的联系页的方法,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本(即前链锚文本)、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
链接锚文本和页面标题的特征主要为相关的语义特征,包括“联系我们”、“联络方”、“公司名片”、“详细信息”等,而网址样式特征则主要为在网址中包括“contact”、“connect”、“lxfs”等等,利用分析得到的这些特征采用正则表达式构造联系页分类器,再对网页页面进行分类得到联系页。
步骤S103、从站点首页或联系页中提取兴趣点名称和对应的地址信息。具体包括:
将所述站点首页或联系页的页面标题识别为兴趣点名称。
判断所述站点首页或联系页的页面内容是否有地址提示词。
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息。
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
步骤S104、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
对于同一站点,可以从多个地址信息块中提取到兴趣点名称与地址信息,并将该些兴趣点名称与地址信息归类到同一个站点下进行关联,得到结构化信息。具体地,结构化信息包括:兴趣点名称、地址、电话、邮编、传真、联系人、邮箱等信息。
图2是地址信息树构建的方法流程图,如图2所示,地址信息树的构建可以但不限于采用以下方法,具体包括:
步骤S201、逐一获取地址实例库中的实例地址。
地址实例库中包括现有已收集的地图POI数据地址,包括大量具体的实例地址数据,例如,“北京市海淀区中关村大街29号”、“北京市海淀区上地十街百度大厦”等。
步骤S202、对当前的实例地址进行分词处理,得到该实例地址的词项。
采用现有的分词方法,如最大正向匹配法等,对获取的每一条实例地址进行分析。例如,对“北京市海淀区上地十街百度大厦”分词,得到分词结果“北京市/海淀区/上地/十街/百度/大厦”的各个词项。
步骤S203、利用预设的地址标识词典,识别实例地址中词项的后缀成分。
预设地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对实例地址的词项进行后缀成分识别,确定地名标识所在级别。例如,“北京市”和“海淀区”可以直接通过后缀识别为城市和区县级别的成分。
步骤S204、利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。
对于不能识别后缀成分的词项,采用预设的地址信息词典进行分析,再利用上下文关系(如后缀)进行组合成一个成分。例如,“十街”是街道后缀,“上地”与该街道后缀可组合成一个成分“上地十街”,同理,“大厦”是建筑后缀,得到另一成分“百度大厦”。
步骤S205、将识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
根据识别到的成分,按照词项的成分所在的级别添加到地址信息树中对应的节点上,形成包含“北京市/海淀区/上地十街/百度大厦”等具有层级关系的地址信息树。
实施例二
图3是本实施例提供的页面信息提取方法流程图,如图3所示,包括:
步骤S301、获取全网的网页页面。
本步骤与实施例一中步骤S101相同,于此不再赘述。
步骤S302、逐一对所述网页页面进行分析。
对步骤S301获取的全网的网页页面逐一进行分析,执行步骤S303后进入步骤S307,或者执行步骤S304至步骤S306后进入步骤S307。
步骤S303、获取所述网页页面对应的站点首页或联系页。
本步骤的处理过程与实施例一中的步骤S102相同,于此不再赘述。并将获取得到的站点首页或联系页,添加到首页或联系页库中。
步骤S304、将所述网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块。
对步骤S301获取的网页页面基于视觉特征进行分块,如图4所示,具体包括:
步骤S304_1、逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树。
对当前网页页面的源代码进行解析,生成文档对象模型树(DOM树)。
步骤S304_2、计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树。
利用页面标签确定每个节点,如“<head></head>”、“<body></body>”等,处于标签的起始位置和终点位置之间的内容为同一个节点内容,并计算对每个节点的位置以及节点中包含内容的长宽、大小信息,构成视觉树。
步骤S304_3、遍历所述视觉树,计算每个节点的子树信息。
根据页面标签信息确定节点中包含的子树信息。
例如,“<head></head>”节点中包含“<title></title>”,“<body></body>”中包含“<div></div>”、“<table></table>”等页面标签,逐级遍历这些节点的子树信息,计算子树上每个节点的位置、大小和长宽信息。
步骤S304_4、根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块。
层叠样式表(CSS)信息包括选择符、属性及属性值,例如,body{color:black},其中属性可以包括字体、字号、字重、颜色等,在HTML代码的CSS信息中,选择符可以包括主体、标题、边框、背景色等信息。将利用这些CSS信息的相似程度来确定是否在同一个视觉分块内。
根据遍历的结果和节点位置,将每个节点的子树信息根据CSS信息进行分块,得到视觉分块。
步骤S304_5、将所述节点与视觉分块对应,构成视觉分块树。
根据各节点位置,将节点内包含的内容对应到相应的视觉分块中,形成视觉分块树。
继续参见图3,步骤S305、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块。具体包括:
步骤S305_1、记录所述视觉分块的块节点信息,计算所述块节点的位置。
根据步骤S102确定的视觉分块信息,记录每一个块节点的信息和位置。
步骤S305_2、利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
例如,识别到在网页页面的边缘块(如处于底部的视觉分块)中有“版权所有”、“copyright”等语义相关的文字时,则将该视觉分块标注为版权块,图5a是北京市海淀医院这一站点的版权块示意图,如图5a所示,包含文字“版权所有”。
采用类似的方法,识别出标注资源块、标注功能块和标注语义块,其中,标注资源块包括:文本块、交互块、图片块等;标注功能块包括:版权块、导航块等;标注语义块包括标题块、核心正文块等。
步骤S306、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块。将所识别到的地址信息块添加到地址信息块库中。
识别出含有地址信息的标注语义块、标注功能块和标注资源块。例如,图5b是包含地址信息的文本块,经过本步骤后,将被识别为地址信息块。
步骤S307、判断是否还有未处理的网页页面,如是,则返回步骤S302,获取下一个网页页面进行分析,否则利用步骤S308和步骤S309的结果,执行步骤S310。
步骤S308、从站点首页或联系页中提取兴趣点名称和对应的地址信息。
本步骤的处理过程与实施例一中的步骤S103相同,于此不再赘述。
步骤S309、从地址信息块中提取兴趣点名称和对应的地址信息。
具体地,从地址信息块中提取兴趣点名称,可以但不限于采用以下方法:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称。
其中,预设的命名实体词典中包括大量已有的实体机构名称,如果地址信息块中的文本能与该词典相匹配,则将该文本识别为兴趣点名称。
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
兴趣点名称通常具有相同的后缀,而且该兴趣点名称在同一个站点内的地址信息块中出现的频次超过一定阈值,例如,以“XXX公司”“XXX有限公司”“XXX医院”等,则提取符合这些语义规则的文本作为兴趣点名称。
当然,也可以采用以上两种方式相结合的方式,先通过预设的命名实体词典来匹配,对于不能匹配的地址信息块再采用语义规则来判断,这样有利于发现未被命名实体词典收录的兴趣点名称。
从地址信息块中提取对应的地址信息,可以但不限于采用以下方法:
判断地址信息块中的文本是否有地址提示词。
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息。
如图5b所示的地址信息块中的文本即包含有地址提示词“地址:”。获取该提示词后面的文本“北京市海淀区黄庄中关村大街29号”,并利用预先构建的地址信息树,识别出该文本即为一个地址信息。
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对于无提示词的文本,则分析分词的词项是否有该些地理名词或地理标识,并判断该文本是否按照行政级别的顺序正向或逆向排列,若是,则认为该文本为一个地址信息。
值得一提的是,分支二(包括步骤S303和步骤S308)与分支一(包括步骤S304至步骤S306和步骤S309)相对独立,本发明对两个分支的处理顺序并不作限定,只需在步骤S301和步骤S310之间完成处理即可。
步骤S310、对同一站点内的多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
所述多个位置来源的兴趣点名称可以是从站点首页或联系页等多个页面中提取而来的兴趣点名称,也可以是从站点首页、联系页以及站内包含的多个地址信息块中提取而来的兴趣点名称。
对于同一个站点,如果获取的兴趣点名称一致,则将该兴趣点名称作为该站点的兴趣点名称;如果获取的兴趣点名称不一致,则对多个位置来源的兴趣点名称进行校验。校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度。或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度。
预设的可信度规则可以但不限于采用以下优先级顺序(由高到低):页面标题(pagetitle)>地址块>版权块>联系信息页>链接锚文本>其他分块。对于优先级不低于联系信息页的位置,也可以直接抽取得到兴趣点名称。
具体的,先从所述站点首页的页面标题中抽取出整个标题内容,判断该标题内容是否为单一名称,若是,则将该标题内容作为该站点的兴趣点名称;否则,抽取的兴趣点名称为空。
从地址块内部利用命名实体识别抽取实体名称,判断是否优先级别较高的名称为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从版权块中抽取出实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从联系信息页抽取实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
获取指向站点首页的链接锚文本,统计所有链接锚文本出现的频次,并根据统计的频次赋予各链接锚文本相应的权重。
最后,将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
步骤S311、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
经过步骤S310确定了同一个站点的兴趣点名称之后,同样的,对于提取的地址信息也可以从不同的来源中择一作为对应站点的地址信息,最后形成准确率高的结构化信息。
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的页面信息提取装置进行详细描述。
实施例三
图6是本实施例提供的页面信息提取装置示意图。如图6所示,该装置包括:
网页获取模块601,用于获取全网的网页页面。
利用网络爬虫,抓取互联网中各网页页面,至少包括网页页面的网址和源代码。例如,url网址为“http://www.hdhospital.com/OverView.aspx”为北京市海淀医院站点内的一个页面,利用网络爬虫抓取该网页页面,记录对应的url网址,并获取该网页页面对应的网页源代码(如HTML代码)。
站点结构分析模块602,用于获取所述网页页面对应的站点首页或联系页,包括:
站点首页获取子模块6021,用于获取所述网页页面对应的站点首页。
联系页获取子模块6022,用于获取所述网页页面对应的联系页。
站点首页获取子模块6021获取站点首页可以采用以下所列方法A~C中的一种或任意结合:
方法A:从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页。
对于平台类二级域名实体站点的首页,则直接采用该实体站点的二级域名进行跳转,例如,“http://fsj0769.cn.alibaba.com/”为“东莞市立信塑料制品有限公司”的站点首页的网页地址。
对于实体机构官网具有独立域名,因此,抽取独立域名进行跳转,获取实体机构的站点首页。例如,网页页面的url网址为:http://www.hdhospital.com/OverView.aspx,从该url网址中去掉路径部分,取出域名地址“www.hdhospital.com”,利用该域名地址进行跳转处理,跳转结果指向“http://www.hdhospital.com/”,则该跳转结果为对应的站点首页。
方法B:通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页。
这种方式与方法A相类似,区别在于先对取出的域名地址作去重处理后,再统一进行域名地址的跳转,可提高效率。
方法C:利用站点的首页样本集合,统计分析其链接锚文本(即前链锚文本)及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
链接锚文本特征可以与提取兴趣点名称时预设的语义规则一致,例如具有相同的后缀信息:“XXX公司”或“XXX医院”等。而网址样式特征,则例如,“http://www.XXX.com/index.html”、“http://www.XXX.com/”、“http://www.XXX.com/default.aspx”等等为站点的首页网址,从中提取得到首页的网址样式特征,可以包括“index”、“default”等。利用这些特征构造首页分类器,再对网页页面进行分类得到站点首页。
联系页获取子模块6022获取网页页面对应的联系页的方法,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本(即前链锚文本)、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
链接锚文本和页面标题的特征主要为相关的语义特征,包括“联系我们”、“联络方”、“公司名片”、“详细信息”等,而网址样式特征则主要为在网址中包括“contact”、“connect”、“lxfs”等等,利用分析得到的这些特征采用正则表达式构造联系页分类器,再对网页页面进行分类得到联系页。
第一信息提取模块603,用于从站点首页或联系页中提取兴趣点名称和对应的地址信息,相应地,包括:
首页信息提取子模块6031,用于从站点首页获取子模块6021获取的站点首页中提取兴趣点名称和对应的地址信息。
联系页信息提取子模块6032,用于从联系页获取子模块6022获取的联系页中提取兴趣点名称和对应的地址信息。
第一信息提取模块603的具体配置包括:
将所述站点首页或联系页的页面标题识别为兴趣点名称。
判断所述站点首页或联系页的页面内容是否有地址提示词。
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息。
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
关联模块604,用于将第一信息提取模块603提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
对于同一站点,可以从多个地址信息块中提取到兴趣点名称与地址信息,并将该些兴趣点名称与地址信息归类到同一个站点下进行关联,得到结构化信息。具体地,结构化信息包括:兴趣点名称、地址、电话、邮编、传真、联系人、邮箱等信息。
图7是地址信息树构建模块示意图,如图7所示,包括:
实例地址获取子模块701,用于逐一获取地址实例库中的实例地址。
地址实例库中包括现有已收集的地图POI数据地址,包括大量具体的实例地址数据,例如,“北京市海淀区中关村大街29号”、“北京市海淀区上地十街百度大厦”等。
分词子模块702,用于对当前的实例地址进行分词处理,得到该实例地址的词项。
采用现有的分词方法,如最大正向匹配法等,对获取的每一条实例地址进行分析。例如,对“北京市海淀区上地十街百度大厦”分词,得到分词结果“北京市/海淀区/上地/十街/百度/大厦”的各个词项。
后缀识别子模块703,用于利用预设的地址标识词典,识别实例地址中词项的后缀成分。
预设地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对实例地址的词项进行后缀成分识别,确定地名标识所在级别。例如,“北京市”和“海淀区”可以直接通过后缀识别为城市和区县级别的成分。
成分识别子模块704,用于利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。
对于不能识别后缀成分的词项,采用预设的地址信息词典进行分析,再利用上下文关系(如后缀)进行组合成一个成分。例如,“十街”是街道后缀,“上地”与该街道后缀可组合成一个成分“上地十街”,同理,“大厦”是建筑后缀,得到另一成分“百度大厦”。
成分节点确定子模块705,用于将识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
根据识别到的成分,按照词项的成分所在的级别添加到地址信息树中对应的节点上,形成包含“北京市/海淀区/上地十街/百度大厦”等具有层级关系的地址信息树。
实施例四
图8是本实施例提供的页面信息提取方法流程图,如图8所示,包括:
网页获取模块801,用于获取全网的网页页面。
站点结构分析模块802,用于获取所述网页页面对应的站点首页或联系页,并将获取得到的站点首页或联系页,添加到首页或联系页库中。
第一信息提取模块803,用于从站点首页或联系页中提取兴趣点名称和对应的地址信息。
上述模块801至803与实施例三中模块601至603对应相同,于此不再赘述。
视觉分块处理模块804,用于将所述网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块。
视觉分块处理模块804对网页获取模块801获取的网页页面基于视觉特征进行分块,具体配置为:
先逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树。
对当前网页页面的源代码进行解析,生成文档对象模型树(DOM树)。
其次,计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树。
利用页面标签确定每个节点,如“<head></head>”、“<body></body>”等,处于标签的起始位置和终点位置之间的内容为同一个节点内容,并计算对每个节点的位置以及节点中包含内容的长宽、大小信息,构成视觉树。
再次,遍历所述视觉树,计算每个节点的子树信息。
根据页面标签信息确定节点中包含的子树信息。
例如,“<head></head>”节点中包含“<title></title>”,“<body></body>”中包含“<div></div>”、“<table></table>”等页面标签,逐级遍历这些节点的子树信息,计算子树上每个节点的位置、大小和长宽信息。
进而,根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块。
层叠样式表(CSS)信息包括选择符、属性及属性值,例如,body{color:black},其中属性可以包括字体、字号、字重、颜色等,在HTML代码的CSS信息中,选择符可以包括主体、标题、边框、背景色等信息。将利用这些CSS信息的相似程度来确定是否在同一个视觉分块内。
根据遍历的结果和节点位置,将每个节点的子树信息根据CSS信息进行分块,得到视觉分块。
最后,将所述节点与视觉分块对应,构成视觉分块树。
根据各节点位置,将节点内包含的内容对应到相应的视觉分块中,形成视觉分块树。
标注模块805,用于基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块。具体配置为:
首先,记录所述视觉分块的块节点信息,计算所述块节点的位置。
根据视觉分块处理模块804确定的视觉分块信息,记录每一个块节点的信息和位置。
然后,利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
例如,识别到在网页页面的边缘块(如处于底部的视觉分块)中有“版权所有”、“copyright”等语义相关的文字时,则将该视觉分块标注为版权块,图5a是北京市海淀医院这一站点的版权块示意图,如图5a所示,包含文字“版权所有”。
采用类似的方法,识别出标注资源块、标注功能块和标注语义块,其中,标注资源块包括:文本块、交互块、图片块等;标注功能块包括:版权块、导航块等;标注语义块包括标题块、核心正文块等。
地址信息块获取模块806,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块。将所识别到的地址信息块添加到地址信息块库中。
识别出含有地址信息的标注语义块、标注功能块和标注资源块。例如,图5b是包含地址信息的文本块,经过本模块后,将被识别为地址信息块。
第二信息提取模块807,用于从地址信息块中提取兴趣点名称和对应的地址信息。
具体地,从地址信息块中提取兴趣点名称,可以但不限于采用以下方法:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称。
其中,预设的命名实体词典中包括大量已有的实体机构名称,如果地址信息块中的文本能与该词典相匹配,则将该文本识别为兴趣点名称。
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
兴趣点名称通常具有相同的后缀,而且该兴趣点名称在同一个站点内的地址信息块中出现的频次超过一定阈值,例如,以“XXX公司”“XXX有限公司”“XXX医院”等,则提取符合这些语义规则的文本作为兴趣点名称。
当然,也可以采用以上两种方式相结合的方式,先通过预设的命名实体词典来匹配,对于不能匹配的地址信息块再采用语义规则来判断,这样有利于发现未被命名实体词典收录的兴趣点名称。
从地址信息块中提取对应的地址信息,可以但不限于采用以下方法:
判断地址信息块中的文本是否有地址提示词。
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息。
如图5b所示的地址信息块中的文本即包含有地址提示词“地址:”。获取该提示词后面的文本“北京市海淀区黄庄中关村大街29号”,并利用预先构建的地址信息树,识别出该文本即为一个地址信息。
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对于无提示词的文本,则分析分词的词项是否有该些地理名词或地理标识,并判断该文本是否按照行政级别的顺序正向或逆向排列,若是,则认为该文本为一个地址信息。
校验模块808,用于对第一信息提取模块803和第二信息提取模块807获取的同一站点内的多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
所述多个位置来源的兴趣点名称可以是从站点首页或联系页等多个页面中提取而来的兴趣点名称,也可以是从站点首页、联系页以及站内包含的多个地址信息块中提取而来的兴趣点名称。
对于同一个站点,如果获取的兴趣点名称一致,则将该兴趣点名称作为该站点的兴趣点名称;如果获取的兴趣点名称不一致,则对多个位置来源的兴趣点名称进行校验。校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度。或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度。
预设的可信度规则可以但不限于采用以下优先级顺序(由高到低):页面标题(pagetitle)>地址块>版权块>联系信息页>链接锚文本>其他分块。对于优先级不低于联系信息页的位置,也可以直接抽取得到兴趣点名称。
具体的,先从所述站点首页的页面标题中抽取出整个标题内容,判断该标题内容是否为单一名称,若是,则将该标题内容作为该站点的兴趣点名称;否则,抽取的兴趣点名称为空。
从地址块内部利用命名实体识别抽取实体名称,判断是否优先级别较高的名称为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从版权块中抽取出实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从联系信息页抽取实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
获取指向站点首页的链接锚文本,统计所有链接锚文本出现的频次,并根据统计的频次赋予各链接锚文本相应的权重。
最后,将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
关联模块809,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
经过校验模块808确定了同一个站点的兴趣点名称之后,同样的,关联模块809对于提取的地址信息也可以从不同的来源中择一作为对应站点的地址信息,最后形成准确率高的结构化信息。
本发明提供的页面信息提取方法及装置,基于站点结构及信息语义特征相结合,提取实体机构站点的联系信息,用作地图兴趣点数据,以便后续用作垂直搜索,提供较好的搜索结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种页面信息提取方法,其特征在于,包括:
S1、获取全网的网页页面;
S2、获取所述网页页面对应的站点首页或联系页;
S3、从所述站点首页或联系页中提取兴趣点名称和对应的地址信息;
S4、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
2.根据权利要求1所述的方法,其特征在于,所述获取站点首页的方法采用以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
3.根据权利要求1所述的方法,其特征在于,所述获取网页页面对应的联系页的方法,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
4.根据权利要求1所述的方法,其特征在于,所述从站点首页和联系页中提取兴趣点名称和对应的地址信息,具体为:
将所述站点首页或联系页的页面标题识别为兴趣点名称;
判断所述站点首页或联系页的页面内容是否有地址提示词;
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S1之后和步骤S4之前,还包括:
S5、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
S6、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
S7、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
S8、从所述地址信息块中提取兴趣点名称和对应的地址信息。
6.根据权利要求5所述的方法,其特征在于,所述步骤S5具体包括:
逐一解析所述网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成最终的视觉分块树。
7.根据权利要求5所述的方法,其特征在于,所述步骤S6具体包括:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
8.根据权利要求4或5所述的方法,其特征在于,所述地址信息树的构建方法,包括:
逐一获取地址实例库中的实例地址;
对当前的实例地址进行分词处理,得到该实例地址的词项;
利用预设的地址标识词典,识别实例地址中词项的后缀成分;
利用预设的地址信息词典对所述后缀的上下文进行成分分析,识别所述词项的主体成分;
将识别到的主体成分添加到地址信息树中对应的节点,形成地址信息树。
9.根据权利要求5所述的方法,其特征在于,所述从地址信息块中提取兴趣点名称,包括:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称;
所述从地址信息块中提取对应的地址信息,具体包括:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
10.根据权利要求1或5所述的方法,其特征在于,在步骤S4之前,还包括:
对同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
11.根据权利要求10所述的方法,其特征在于,所述校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
12.一种页面信息提取装置,其特征在于,包括:
网页获取模块,用于获取全网的网页页面;
站点结构分析模块,用于获取所述网页页面对应的站点首页和联系页;
第一信息提取模块,用于从所述站点首页和联系页中提取兴趣点名称和对应的地址信息;
关联模块,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
13.根据权利要求12所述的装置,其特征在于,所述站点结构分析模块获取站点首页的具体配置,采用以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
14.根据权利要求12所述的装置,其特征在于,所述站点结构分析模块获取网页页面对应的联系页的具体配置为:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
15.根据权利要求12所述的装置,其特征在于,所述第一信息提取模块从站点首页和联系页中提取兴趣点名称和对应的地址信息,具体配置为:
将所述站点首页或联系页的页面标题识别为兴趣点名称;
判断所述站点首页或联系页的页面内容是否有地址提示词;
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
16.根据权利要求12所述的装置,其特征在于,该装置还包括:
视觉分块处理模块,用于逐一将所述网页获取模块获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
标注模块,用于基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
地址信息块获取模块,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
第二信息提取模块,用于从所述地址信息块中提取兴趣点名称和对应的地址信息。
17.根据权利要求16所述的装置,其特征在于,所述视觉分块处理模块具体配置为:
逐一解析所述网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成最终的视觉分块树。
18.根据权利要求16所述的装置,其特征在于,所述标注模块具体配置为:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
19.根据权利要求15或16所述的装置,其特征在于,所述地址信息树通过地址信息树构建模块预先建立,所述地址信息树构建模块包括:
实例地址获取子模块,用于逐一获取地址实例库中的实例地址;
分词子模块,用于对所述实例地址获取子模块获取的当前的实例地址进行分词处理,得到该实例地址的词项;
后缀识别子模块,用于利用预设的地址标识词典,识别实例地址中词项的后缀成分;
成分识别子模块,用于利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分;
成分节点确定子模块,用于将所述后缀识别子模块和成分识别子模块识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
20.根据权利要求16所述的装置,其特征在于,所述第二信息提取模块从地址信息块中提取兴趣点名称,具体配置为:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称;
所述第二信息提取模块从地址信息块中提取对应的地址信息,具体配置为:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
21.根据权利要求12或16所述的装置,其特征在于,该装置还包括:
校验模块,用于对所述第一信息提取模块或所述第二信息提取模块获取的同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
22.根据权利要求21所述的装置,其特征在于,所述校验模块的具体配置包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
CN201210227195.4A 2012-06-30 2012-06-30 一种页面信息提取方法及装置 Active CN102841920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210227195.4A CN102841920B (zh) 2012-06-30 2012-06-30 一种页面信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210227195.4A CN102841920B (zh) 2012-06-30 2012-06-30 一种页面信息提取方法及装置

Publications (2)

Publication Number Publication Date
CN102841920A true CN102841920A (zh) 2012-12-26
CN102841920B CN102841920B (zh) 2017-05-10

Family

ID=47369285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210227195.4A Active CN102841920B (zh) 2012-06-30 2012-06-30 一种页面信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN102841920B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399885A (zh) * 2013-07-19 2013-11-20 百度在线网络技术(北京)有限公司 兴趣点代表图片的挖掘方法、装置和服务器
CN103440239A (zh) * 2013-05-14 2013-12-11 百度在线网络技术(北京)有限公司 一种基于功能区域识别的网页切分方法及装置
CN104422443A (zh) * 2013-09-09 2015-03-18 阿尔派株式会社 导航装置及信息提供方法
CN104504115A (zh) * 2014-12-30 2015-04-08 北京奇虎科技有限公司 一种网页中的poi数据提取方法及装置
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN104933171A (zh) * 2015-06-30 2015-09-23 百度在线网络技术(北京)有限公司 兴趣点数据关联方法和装置
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置
CN105160032A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种网站中兴趣点数据的置信度的判定方法和装置
CN105320752A (zh) * 2015-09-30 2016-02-10 北京奇虎科技有限公司 一种兴趣点数据的挖掘方法和装置
CN105706081A (zh) * 2013-09-04 2016-06-22 谷歌公司 结构化信息链接注释
CN108009219A (zh) * 2017-11-21 2018-05-08 国家计算机网络与信息安全管理中心 一种发现互联网金融舆情监管目标的方法
CN108304423A (zh) * 2017-03-29 2018-07-20 腾讯科技(深圳)有限公司 一种信息识别方法及装置
CN108322779A (zh) * 2017-01-17 2018-07-24 南宁富桂精密工业有限公司 视频信息的收集和处理方法、装置以及服务器
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置
CN108959255A (zh) * 2018-06-28 2018-12-07 北京百度网讯科技有限公司 实体标注数据集构建方法、装置及设备
CN110297994A (zh) * 2019-06-03 2019-10-01 北京金蝶管理软件有限公司 网页数据的采集方法、装置、计算机设备和存储介质
WO2022089474A1 (zh) * 2020-10-27 2022-05-05 博泰车联网(南京)有限公司 用于兴趣点信息管理的方法、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239792A1 (en) * 2006-03-30 2007-10-11 Microsoft Corporation System and method for exploring a semantic file network
US20090265340A1 (en) * 2008-04-07 2009-10-22 Bob Barcklay Proximity search for point-of-interest names combining inexact string match with an expanding radius search
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置
CN102253979A (zh) * 2011-06-23 2011-11-23 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法
CN102253972A (zh) * 2011-06-14 2011-11-23 南京师范大学 基于网络爬虫的地名数据库维护方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239792A1 (en) * 2006-03-30 2007-10-11 Microsoft Corporation System and method for exploring a semantic file network
US20090265340A1 (en) * 2008-04-07 2009-10-22 Bob Barcklay Proximity search for point-of-interest names combining inexact string match with an expanding radius search
CN102117289A (zh) * 2009-12-30 2011-07-06 北京大学 一种从网页中抽取评论内容的方法和装置
CN102024024A (zh) * 2010-11-10 2011-04-20 百度在线网络技术(北京)有限公司 地址数据库的建构方法及装置
CN102253972A (zh) * 2011-06-14 2011-11-23 南京师范大学 基于网络爬虫的地名数据库维护方法
CN102253979A (zh) * 2011-06-23 2011-11-23 天津海量信息技术有限公司 基于视觉的web页面萃取方法
CN102254014A (zh) * 2011-07-21 2011-11-23 华中科技大学 一种网页特征自适应的信息抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王继成等: "Web文本挖掘技术研究", 《计算机研究与发展》 *
袁宇丽: "基于HTML网页的Web信息提取研究", 《优秀硕士论文数据库信息科技辑(2006年)》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440239B (zh) * 2013-05-14 2016-08-10 百度在线网络技术(北京)有限公司 一种基于功能区域识别的网页切分方法及装置
CN103440239A (zh) * 2013-05-14 2013-12-11 百度在线网络技术(北京)有限公司 一种基于功能区域识别的网页切分方法及装置
CN103399885A (zh) * 2013-07-19 2013-11-20 百度在线网络技术(北京)有限公司 兴趣点代表图片的挖掘方法、装置和服务器
CN103399885B (zh) * 2013-07-19 2017-02-08 百度在线网络技术(北京)有限公司 兴趣点代表图片的挖掘方法、装置和服务器
CN105706081B (zh) * 2013-09-04 2019-10-08 谷歌有限责任公司 结构化信息链接注释
US11164214B2 (en) 2013-09-04 2021-11-02 Google Llc Structured informational link annotations
CN105706081A (zh) * 2013-09-04 2016-06-22 谷歌公司 结构化信息链接注释
CN104422443A (zh) * 2013-09-09 2015-03-18 阿尔派株式会社 导航装置及信息提供方法
CN104504115A (zh) * 2014-12-30 2015-04-08 北京奇虎科技有限公司 一种网页中的poi数据提取方法及装置
CN104504115B (zh) * 2014-12-30 2018-11-09 北京奇虎科技有限公司 一种网页中的poi数据提取方法及装置
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN104933171A (zh) * 2015-06-30 2015-09-23 百度在线网络技术(北京)有限公司 兴趣点数据关联方法和装置
CN104933171B (zh) * 2015-06-30 2019-06-18 百度在线网络技术(北京)有限公司 兴趣点数据关联方法和装置
CN105069076A (zh) * 2015-07-31 2015-11-18 北京奇虎科技有限公司 确定官网首页中的地址信息的方法及装置
CN105320752A (zh) * 2015-09-30 2016-02-10 北京奇虎科技有限公司 一种兴趣点数据的挖掘方法和装置
CN105160032A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种网站中兴趣点数据的置信度的判定方法和装置
CN105320752B (zh) * 2015-09-30 2018-12-07 北京奇虎科技有限公司 一种兴趣点数据的挖掘方法和装置
CN105160032B (zh) * 2015-09-30 2019-05-31 北京奇虎科技有限公司 一种网站中兴趣点数据的置信度的判定方法和装置
CN108322779A (zh) * 2017-01-17 2018-07-24 南宁富桂精密工业有限公司 视频信息的收集和处理方法、装置以及服务器
CN108322779B (zh) * 2017-01-17 2020-09-29 南宁富桂精密工业有限公司 视频信息的收集和处理方法、装置以及服务器
CN108304423A (zh) * 2017-03-29 2018-07-20 腾讯科技(深圳)有限公司 一种信息识别方法及装置
CN108304423B (zh) * 2017-03-29 2021-09-28 腾讯科技(深圳)有限公司 一种信息识别方法及装置
CN108664522A (zh) * 2017-04-01 2018-10-16 优信互联(北京)信息技术有限公司 网页处理方法及装置
CN108009219A (zh) * 2017-11-21 2018-05-08 国家计算机网络与信息安全管理中心 一种发现互联网金融舆情监管目标的方法
CN108959255A (zh) * 2018-06-28 2018-12-07 北京百度网讯科技有限公司 实体标注数据集构建方法、装置及设备
CN108959255B (zh) * 2018-06-28 2019-09-10 北京百度网讯科技有限公司 实体标注数据集构建方法、装置及设备
CN110297994A (zh) * 2019-06-03 2019-10-01 北京金蝶管理软件有限公司 网页数据的采集方法、装置、计算机设备和存储介质
WO2022089474A1 (zh) * 2020-10-27 2022-05-05 博泰车联网(南京)有限公司 用于兴趣点信息管理的方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN102841920B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN102841920A (zh) 一种页面信息提取方法及装置
CN103514234B (zh) 一种页面信息提取方法和装置
Marine-Roig et al. Tourism analytics with massive user-generated content: A case study of Barcelona
CN103294781B (zh) 一种用于处理页面数据的方法与设备
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
CN102411587B (zh) 一种网页分类方法和装置
KR101221959B1 (ko) 맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색방법
CN102163214B (zh) 一种数字地图生成装置及方法
US20140006408A1 (en) Identifying points of interest via social media
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
Chuang et al. Enabling maps/location searches on mobile devices: Constructing a POI database via focused crawling and information extraction
CN103678412A (zh) 一种文档检索的方法及装置
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN104268283A (zh) 一种自动解析互联网网页的方法
Van Canneyt et al. Using social media to find places of interest: a case study
Chiang Unlocking textual content from historical maps-potentials and applications, trends, and outlooks
Shi et al. Extraction of geospatial information on the Web for GIS applications
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
KR101289082B1 (ko) 지역 정보 서비스 제공 시스템 및 그 방법
Abascal-Mena et al. Geo information extraction and processing from travel narratives.
Kayed et al. Postal address extraction from the web: A comprehensive survey
CN105138708A (zh) 一种兴趣点名称的识别方法和装置
Shi et al. Thematic data extraction from Web for GIS and applications
Chang et al. Enhancing POI search on maps via online address extraction and associated information segmentation
Varga et al. Integrating dbpedia and sentiwordnet for a tourism recommender system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant