CN103514234A - 一种页面信息提取方法和装置 - Google Patents
一种页面信息提取方法和装置 Download PDFInfo
- Publication number
- CN103514234A CN103514234A CN201210227184.6A CN201210227184A CN103514234A CN 103514234 A CN103514234 A CN 103514234A CN 201210227184 A CN201210227184 A CN 201210227184A CN 103514234 A CN103514234 A CN 103514234A
- Authority
- CN
- China
- Prior art keywords
- address
- address information
- point
- title
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种页面信息提取方法和装置,所述方法包括:S 1、获取全网的网页页面;S2、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到视觉分块;S3、基于语义特征对所述视觉分块进行标注,得到标注分块;S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的识别为地址信息块;S5、从所述地址信息块中提取兴趣点名称和对应的地址信息;S6、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。相较于现有技术,本发明能自动对全网中结构变化多样且数量巨大的对象进行挖掘,节省人力成本,提高准确率和召回率。
Description
【技术领域】
本发明涉及互联网信息处理技术领域,特别涉及一种页面信息提取方法和装置。
【背景技术】
随着互联网和信息技术的不断发展,互联网已经成为人们日常获取信息的主要来源。由于web网页每天都以几何级数激增,为了使用户能够快速准确的获得自己感兴趣的信息,通常会先对这些海量的页面数据进行信息提取。信息提取的任务是把文本里包含的信息进行结构化处理,以便人们可以像查询数据库一样获取自己需要的信息。例如,可以利用信息提取的方法提取网页中包含的实体机构名称、地址、联系电话等联系方式,获取地理兴趣点数据,以利用后续用户检索或查询时提供较好的搜索结果。
现有的信息提取方法通常是基于模板的结构化信息提取方法,通过人工编写模板的规则,对互联网中的页面信息进行挖掘,得到结构化信息。采用这种方式不仅需要消耗巨大的人工代价,而且还要求挖掘对象在页面中有相同的结构特点,因而受到人力成本和页面结构一致性的限制,无法大规模应用。对于挖掘对象数量巨大且页面结构变化多样的情况,如获取全网中实体机构的地理兴趣点数据,现有基于模板的结构化信息抽取方式无法满足抽取的准确率和信息召回率要求。
【发明内容】
有鉴于此,本发明提供了一种页面信息提取方法和装置,能够自动对全网中结构变化多样且数量巨大的对象进行挖掘,节省人力成本,提高准确率和信息召回率,能提取到更全面的结构化信息,提升检索的数据覆盖率。
具体技术方案如下:
一种页面信息提取方法,该方法包括以下步骤:
S1、获取全网的网页页面;
S2、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
S3、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
S5、从所述地址信息块中提取兴趣点名称和对应的地址信息;
S6、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
根据本发明一优选实施例,所述步骤S2具体包括:
逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成视觉分块树。
根据本发明一优选实施例,所述步骤S3具体包括:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
根据本发明一优选实施例,所述地址信息树的构建方法,包括:
逐一获取地址实例库中的实例地址;
对当前的实例地址进行分词处理,得到该实例地址的词项;
利用预设的地址标识词典,识别实例地址中词项的后缀成分;
利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分;
将识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
根据本发明一优选实施例,所述从地址信息块中提取兴趣点名称,具体为:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
根据本发明一优选实施例,所述从地址信息块中提取对应的地址信息,具体包括:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
根据本发明一优选实施例,在所述步骤S1之后和步骤S6之前,还包括:
获取所述网页页面对应的站点首页或联系页;
从所述站点首页或联系页中提取兴趣点名称和对应的地址信息。
根据本发明一优选实施例,所述获取站点首页的方法采用以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
根据本发明一优选实施例,所述获取网页页面对应的联系页的方法,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
根据本发明一优选实施例,在步骤S6之前,还包括:
对同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
根据本发明一优选实施例,所述校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
一种页面信息提取装置,该装置包括:
网页获取模块,用于获取全网的网页页面;
视觉分块处理模块,用于逐一将所述网页获取模块获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
标注模块,用于基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
地址信息块获取模块,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
第一信息提取模块,用于从所述地址信息块中提取兴趣点名称和对应的地址信息;
关联模块,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
根据本发明一优选实施例,所述视觉分块处理模块具体配置为:
逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成视觉分块树。
根据本发明一优选实施例,所述标注模块具体配置为:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
根据本发明一优选实施例,所述地址信息树通过地址信息树构建模块预先建立,所述地址信息树构建模块包括:
实例地址获取子模块,用于逐一获取地址实例库中的实例地址;
分词子模块,用于对所述实例地址获取子模块获取的当前的实例地址进行分词处理,得到该实例地址的词项;
后缀识别子模块,用于利用预设的地址标识词典,识别实例地址中词项的后缀成分;
成分识别子模块,用于利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分;
成分节点确定子模块,用于将所述后缀识别子模块和成分识别子模块识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
根据本发明一优选实施例,所述第一信息提取模块从地址信息块中提取兴趣点名称,具体配置为:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
根据本发明一优选实施例,所述第一信息提取模块从地址信息块中提取对应的地址信息,具体配置为:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
根据本发明一优选实施例,该装置还包括:
站点结构分析模块,用于获取所述网页页面对应的站点首页或联系页;
第二信息提取模块,用于从所述站点首页或联系页中提取兴趣点名称和对应的地址信息。
根据本发明一优选实施例,所述站点结构分析模块获取站点首页的具体配置包括以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
根据本发明一优选实施例,所述站点结构分析模块获取网页页面对应的联系页具体配置包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
根据本发明一优选实施例,该装置还包括:
校验模块,用于对所述第一信息提取模块或所述第二信息提取模块获取的同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
根据本发明一优选实施例,所述校验模块的具体配置包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
由以上技术方案可以看出,本发明提供的页面信息提取方法和装置,利用互联网中实体机构的组织结构特点及信息语义特征,基于视觉分块技术获取包含地址信息的网页块,从中提取实体机构的联系信息,并结合站点首页和联系页中的信息,通过对多来源数据的校验、整合与关联,获取结构化的地理位置信息,提高了信息的准确率,并能够自动面向整个互联网的实体机构进行信息召回,能提取到更全面的结构化信息,提升检索的数据覆盖率,降低人力成本,提高了信息召回率。
【附图说明】
图1为本发明实施例一提供的页面信息提取方法流程图;
图2为本发明实施例一提供的基于视觉特征分块的方法流程图;
图3a为“北京市海淀医院”站点网页中的版权块示意图;
图3b为一个包含地址信息的文本块示意图;
图4为本发明实施例一提供的地址信息树构建方法流程图;
图5为本发明实施例二提供的页面信息提取方法流程图;
图6为本发明实施例三提供的页面信息提取装置示意图;
图7为本发明实施例三提供的页地址信息树构建模块示意图;
图8为本发明实施例四提供的页面信息提取装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
电子地图中兴趣点(point of interest,POI)数据,通常包括名称、地址、联系电话、类别、位置坐标等信息。通常,一条POI数据代表电子地图中的一个位置实体。兴趣点可以是一定地域内比较重要或使用频率较高的面向整个社会的场所,如银行、主要商场、主要商务大楼、饭店宾馆、政府机关、娱乐场所、主要风景名胜等,也可以是某一地域内属于某一行业的单位所在地址,如企业或单位所在的地址。
在互联网上存在大量的实体机构的网站站点,通常包含平台类二级域名实体站点(如阿里巴巴)和实体机构官网两个类别。在这些站点中通常包含该实体机构的名称及地址等相关信息,这些信息存在于互联网中的站点结构、页面结构及页面中的文本信息块中,例如,通常在站点联系页、版权块或其他主体块中存在该站点的地址信息。
本发明利用互联网中实体机构站点的结构特点及站点页面之间信息语义特征的联系,提取该些实体机构的地址信息作为地理兴趣点。在地理兴趣点的提取中,通过网页内容提取兴趣点信息,用以构建和完善电子地图的数据信息,以便后续用作垂直搜索,提供较好的搜索结果。
实施例一
图1是本实施例提供的页面信息提取方法流程图,如图1所示,该方法包括:
步骤S101、获取全网的网页页面。
利用网络爬虫,抓取互联网中各网页页面,至少包括网页页面的网址和源代码。例如,url网址为“http://www.hdhospital.com/OverView.aspx”为北京市海淀医院站点内的一个页面,利用网络爬虫抓取该网页页面,记录对应的url网址,并获取该网页页面对应的网页源代码(如HTML代码)。
步骤S102、逐一将所获取网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块。
对步骤S101获取的网页页面基于视觉特征进行分块,如图2所示,具体包括:
步骤S102_1、逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树。
对当前网页页面的源代码进行解析,生成文档对象模型树(DOM树)。
步骤S102_2、计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树。
利用页面标签确定每个节点,如“<head></head>”、“<body></body>”等,处于标签的起始位置和终点位置之间的内容为同一个节点内容,并计算对每个节点的位置以及节点中包含内容的长宽、大小信息,构成视觉树。
步骤S102_3、遍历所述视觉树,计算每个节点的子树信息。
根据页面标签信息确定节点中包含的子树信息。
例如,“<head></head>”节点中包含“<title></title>”,“<body></body>”中包含“<div></div>”、“<table></table>”等页面标签,逐级遍历这些节点的子树信息,计算子树上每个节点的位置、大小和长宽信息。
步骤S1024、根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块。
层叠样式表(CSS)信息包括选择符、属性及属性值,例如,body{color:black},其中属性可以包括字体、字号、字重、颜色等,在HTML代码的CSS信息中,选择符可以包括主体、标题、边框、背景色等信息。将利用这些CSS信息的相似程度来确定是否在同一个视觉分块内。
根据遍历的结果和节点位置,将每个节点的子树信息根据CSS信息进行分块,得到视觉分块。
步骤S102_5、将所述节点与视觉分块对应,构成视觉分块树。
根据各节点位置,将节点内包含的内容对应到相应的视觉分块中,形成视觉分块树。
继续参见图1,步骤S103、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块。具体包括:
步骤S103_1、记录所述视觉分块的块节点信息,计算所述块节点的位置。
根据步骤S102确定的视觉分块信息,记录每一个块节点的信息和位置。
步骤S103_2、利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
例如,识别到在网页页面的边缘块(如处于底部的视觉分块)中有“版权所有”、“copyright”等语义相关的文字时,则将该视觉分块标注为版权块,图3a是北京市海淀医院这一站点的版权块示意图,如图3a所示,包含文字“版权所有”。
采用类似的方法,识别出标注资源块、标注功能块和标注语义块,其中,标注资源块包括:文本块、交互块、图片块等;标注功能块包括:版权块、导航块等;标注语义块包括标题块、核心正文块等。
步骤S104、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块。
识别出含有地址信息的标注语义块、标注功能块和标注资源块。例如,图3b是包含地址信息的文本块,经过本步骤后,将被识别为地址信息块。
步骤S105、从所述地址信息块中提取兴趣点名称和对应的地址信息。
具体地,从地址信息块中提取兴趣点名称,可以但不限于采用以下方法:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称。
其中,预设的命名实体词典中包括大量已有的实体机构名称,如果地址信息块中的文本能与该词典相匹配,则将该文本识别为兴趣点名称。
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
兴趣点名称通常具有相同的后缀,而且该兴趣点名称在同一个站点内的地址信息块中出现的频次超过一定阈值,例如,以“XXX公司”“XXX有限公司”“XXX医院”等,则提取符合这些语义规则的文本作为兴趣点名称。
当然,也可以采用以上两种方式相结合的方式,先通过预设的命名实体词典来匹配,对于不能匹配的地址信息块再采用语义规则来判断,这样有利于发现未被命名实体词典收录的兴趣点名称。
从地址信息块中提取对应的地址信息,可以但不限于采用以下方法:
判断地址信息块中的文本是否有地址提示词。
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息。
如图3b所示的地址信息块中的文本即包含有地址提示词“地址:”。获取该提示词后面的文本“北京市海淀区黄庄中关村大街29号”,并利用预先构建的地址信息树,识别出该文本即为一个地址信息。
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对于无提示词的文本,则分析分词的词项是否有该些地理名词或地理标识,并判断该文本是否按照行政级别的顺序正向或逆向排列,若是,则认为该文本为一个地址信息。
步骤S106、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
对于同一站点,可以从多个地址信息块中提取到兴趣点名称与地址信息,并将该些兴趣点名称与地址信息归类到同一个站点下进行关联,得到结构化信息。具体地,结构化信息包括:兴趣点名称、地址、电话、邮编、传真、联系人、邮箱等信息。
图4是地址信息树构建的方法流程图,如图4所示,地址信息树的构建可以但不限于采用以下方法,具体包括:
步骤S401、逐一获取地址实例库中的实例地址。
地址实例库中包括现有已收集的地图POI数据地址,包括大量具体的实例地址数据,例如,“北京市海淀区中关村大街29号”、“北京市海淀区上地十街百度大厦”等。
步骤S402、对当前的实例地址进行分词处理,得到该实例地址的词项。
采用现有的分词方法,如最大正向匹配法等,对获取的每一条实例地址进行分析。例如,对“北京市海淀区上地十街百度大厦”分词,得到分词结果“北京市/海淀区/上地/十街/百度/大厦”的各个词项。
步骤S403、利用预设的地址标识词典,识别实例地址中词项的后缀成分。
预设地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对实例地址的词项进行后缀成分识别,确定地名标识所在级别。例如,“北京市”和“海淀区”可以直接通过后缀识别为城市和区县级别的成分。
步骤S404、利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。
对于不能识别后缀成分的词项,采用预设的地址信息词典进行分析,再利用上下文关系(如后缀)进行组合成一个成分。例如,“十街”是街道后缀,“上地”与该街道后缀可组合成一个成分“上地十街”,同理,“大厦”是建筑后缀,得到另一成分“百度大厦”。
步骤S405、将识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
根据识别到的成分,按照词项的成分所在的级别添加到地址信息树中对应的节点上,形成包含“北京市/海淀区/上地十街/百度大厦”等具有层级关系的地址信息树。
实施例二
图5是本实施例提供的页面信息提取方法流程图,如图5所示,包括:
步骤S501、获取全网的网页页面。
步骤S502、逐一对所述网页页面进行分析。
对步骤S501获取的全网的网页页面逐一进行分析,执行步骤S503至步骤S505后进入步骤S507,或者执行步骤S506后进入步骤S507。
步骤S503、将所述网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块。
步骤S504、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块。
步骤S505、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块。将所识别到的地址信息块添加到地址信息块库中。
上述步骤S501、步骤S503、步骤S504和步骤S505与实施例一中步骤S101至步骤S104对应相同,于此不再赘述。
步骤S506、获取所述网页页面对应的站点首页或联系页。
获取站点首页的方法可以采用以下所列方法A~C中的一种或任意结合:
方法A:从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页。
对于平台类二级域名实体站点的首页,则直接采用该实体站点的二级域名进行跳转,例如,“http://fsj0769.cn.alibaba.com/”为“东莞市立信塑料制品有限公司”的站点首页的网页地址。
对于实体机构官网具有独立域名,因此,抽取独立域名进行跳转,获取实体机构的站点首页。例如,网页页面的url网址为:http://www.hdhospital.com/OverView.aspx,从该url网址中去掉路径部分,取出域名地址“www.hdhospital.com”,利用该域名地址进行跳转处理,跳转结果指向“http://www.hdhospital.com/”,则该跳转结果为对应的站点首页。
方法B:通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页。
这种方式与方法A相类似,区别在于先对取出的域名地址作去重处理后,再统一进行域名地址的跳转,可提高效率。
方法C:利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
链接锚文本特征可以与提取兴趣点名称时预设的语义规则一致,例如具有相同的后缀信息:“XXX公司”或“XXX医院”等。而网址样式特征,则例如,“http://www.XXX.com/index.html”、“http://www.XXX.com/”、“http://www.XXX.com/default.aspx”等等为站点的首页网址,从中提取得到首页的网址样式特征,可以包括“index”、“default”等。利用这些特征构造首页分类器,再对网页页面进行分类得到站点首页。
获取网页页面对应的联系页的方法,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
链接锚文本和页面标题的特征主要为相关的语义特征,包括“联系我们”、“联络方”、“公司名片”、“详细信息”等,而网址样式特征则主要为在网址中包括“contact”、“connect”、“lxfs”等等,利用分析得到的这些特征采用正则表达式构造联系页分类器,再对网页页面进行分类得到联系页。
最后,将获取得到的站点首页或联系页,添加到首页或联系页库中。
步骤S507、判断是否还有未处理的网页页面,如是,则返回步骤S502,获取下一个网页页面进行分析,否则利用步骤S508和步骤S509的结果,执行步骤S510。
步骤S508、从地址信息块中提取兴趣点名称和对应的地址信息。
本步骤的处理过程与实施例一中的步骤S105相同,于此不再赘述。
步骤S509、从站点首页或联系页中提取兴趣点名称和对应的地址信息。
本步骤与实施例一中步骤S105的差别仅在于网页来源不同,具体包括:
将所述站点首页或联系页的页面标题识别为兴趣点名称。
判断所述站点首页或联系页的页面内容是否有地址提示词。
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息。
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
值得一提的是,分支二(包括步骤S506和步骤S509)是依据站点结构特征来进行分析的,与分支一(包括步骤S503至步骤S505和步骤S508)相对独立,本发明对两个分支的处理顺序并不作限定,只需在步骤S501和步骤S510之间完成处理即可。
步骤S510、对同一站点内的多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
所述多个位置来源的兴趣点名称可以是从多个地址信息块中提取而来的兴趣点名称,也可以是从站点首页、联系页以及站内包含的地址信息块中提取而来的兴趣点名称。
对于同一个站点,如果获取的兴趣点名称一致,则将该兴趣点名称作为该站点的兴趣点名称;如果获取的兴趣点名称不一致,则对多个位置来源的兴趣点名称进行校验。校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度。或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度。
预设的可信度规则可以但不限于采用以下优先级顺序(由高到低):页面标题(pagetitle)>地址块>版权块>联系信息页>链接锚文本>其他分块。对于优先级不低于联系信息页的位置,也可以直接抽取得到兴趣点名称。
具体的,先从所述站点首页的页面标题中抽取出整个标题内容,判断该标题内容是否为单一名称,若是,则将该标题内容作为该站点的兴趣点名称;否则,抽取的兴趣点名称为空。
从地址块内部利用命名实体识别抽取实体名称,判断是否优先级别较高的名称为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从版权块中抽取出实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从联系信息页抽取实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
获取指向站点首页的链接锚文本(即前链锚文本),统计所有链接锚文本出现的频次,并根据统计的频次赋予各链接锚文本相应的权重。
最后,将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
步骤S511、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
经过步骤S510确定了同一个站点的兴趣点名称之后,同样的,对于提取的地址信息也可以从不同的来源中择一作为对应站点的地址信息,最后形成准确率高的结构化信息。
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的页面信息提取装置进行详细描述。
实施例三
图6是本实施例提供的页面信息提取装置示意图。如图6所示,该装置包括:
网页获取模块601,用于获取全网的网页页面。
利用网络爬虫,抓取互联网中各网页页面,至少包括网页页面的网址和源代码。
例如,url网址为“http://www.hdhospital.com/OverView.aspx”为北京市海淀医院站点内的一个页面,利用网络爬虫抓取该网页页面,记录对应的url网址,并获取该网页页面对应的网页源代码(如HTML代码)。
视觉分块处理模块602,用于逐一将获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块。
视觉分块处理模块602,对网页获取模块601获取的网页页面基于视觉特征进行分块,具体配置为:
先逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树。
对当前网页页面的源代码进行解析,生成文档对象模型树(DOM树)。
其次,计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树。
利用页面标签确定每个节点,如“<head></head>”、“<body></body>”等,处于标签的起始位置和终点位置之间的内容为同一个节点内容,并计算对每个节点的位置以及节点中包含内容的长宽、大小信息,构成视觉树。
再次,遍历所述视觉树,计算每个节点的子树信息。
根据页面标签信息确定节点中包含的子树信息。
例如,“<head></head>”节点中包含“<title></title>”,“<body></body>”中包含“<div></div>”、“<table></table>”等页面标签,逐级遍历这些节点的子树信息,计算子树上每个节点的位置、大小和长宽信息。
进而,根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块。
层叠样式表(CSS)信息包括选择符、属性及属性值,例如,body{color:black},其中属性可以包括字体、字号、字重、颜色等,在HTML代码的CSS信息中,选择符可以包括主体、标题、边框、背景色等信息。将利用这些CSS信息的相似程度来确定是否在同一个视觉分块内。
根据遍历的结果和节点位置,将每个节点的子树信息根据CSS信息进行分块,得到视觉分块。
最后,将所述节点与视觉分块对应,构成视觉分块树。
根据各节点位置,将节点内包含的内容对应到相应的视觉分块中,形成视觉分块树。
标注模块603,用于基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块。具体配置为:
首先,记录所述视觉分块的块节点信息,计算所述块节点的位置。
根据视觉分块处理模块602确定的视觉分块信息,记录每一个块节点的信息和位置。
然后,利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
例如,识别到在网页页面的边缘块(如处于底部的视觉分块)中有“版权所有”、“copyright”等语义相关的文字时,则将该视觉分块标注为版权块,图3a是北京市海淀医院这一站点的版权块示意图,如图3a所示,包含文字“版权所有”。
采用类似的方法,识别出标注资源块、标注功能块和标注语义块,其中,标注资源块包括:文本块、交互块、图片块等;标注功能块包括:版权块、导航块等;标注语义块包括标题块、核心正文块等。
地址信息块获取模块604,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块。
识别出含有地址信息的标注语义块、标注功能块和标注资源块。例如,图3b是包含地址信息的文本块,经过本模块后,将被识别为地址信息块。
第一信息提取模块605,用于从所述地址信息块中提取兴趣点名称和对应的地址信息。
具体地,从地址信息块中提取兴趣点名称,可以但不限于采用以下方法:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称。
其中,预设的命名实体词典中包括大量已有的实体机构名称,如果地址信息块中的文本能与该词典相匹配,则将该文本识别为兴趣点名称。
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
兴趣点名称通常具有相同的后缀,而且该兴趣点名称在同一个站点内的地址信息块中出现的频次超过一定阈值,例如,以“XXX公司”“XXX有限公司”“XXX医院”等,则提取符合这些语义规则的文本作为兴趣点名称。
当然,也可以采用以上两种方式相结合的方式,先通过预设的命名实体词典来匹配,对于不能匹配的地址信息块再采用语义规则来判断,这样有利于发现未被命名实体词典收录的兴趣点名称。
相应地,从地址信息块中提取对应的地址信息,可以但不限于采用以下方法:
判断地址信息块中的文本是否有地址提示词。
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息。
如图3b所示的地址信息块中的文本即包含有地址提示词“地址:”。获取该提示词后面的文本“北京市海淀区黄庄中关村大街29号”,并利用预先构建的地址信息树,识别出该文本即为一个地址信息。
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对于无提示词的文本,则分析分词的词项是否有该些地理名词或地理标识,并判断该文本是否按照行政级别的顺序正向或逆向排列,若是,则认为该文本为一个地址信息。
关联模块606,用于将第一信息提取模块605提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
对于同一站点,可以从多个地址信息块中提取到兴趣点名称与地址信息,并将该些兴趣点名称与地址信息归类到同一个站点下进行关联,得到结构化信息。具体地,结构化信息包括:兴趣点名称、地址、电话、邮编、传真、联系人、邮箱等信息。
图7是地址信息树构建模块示意图,如图7所示,包括:
实例地址获取子模块701,用于逐一获取地址实例库中的实例地址。
地址实例库中包括现有已收集的地图POI数据地址,包括大量具体的实例地址数据,例如,“北京市海淀区中关村大街29号”、“北京市海淀区上地十街百度大厦”等。
分词子模块702,用于对当前的实例地址进行分词处理,得到该实例地址的词项。
采用现有的分词方法,如最大正向匹配法等,对获取的每一条实例地址进行分析。例如,对“北京市海淀区上地十街百度大厦”分词,得到分词结果“北京市/海淀区/上地/十街/百度/大厦”的各个词项。
后缀识别子模块703,用于利用预设的地址标识词典,识别实例地址中词项的后缀成分。
预设地址标识词典中包括各级别的地名标识,例如,省、市、区、县、街道、小区等。
对实例地址的词项进行后缀成分识别,确定地名标识所在级别。例如,“北京市”和“海淀区”可以直接通过后缀识别为城市和区县级别的成分。
成分识别子模块704,用于利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分。
地址信息词典是利用已有的地理或地图数据建立的带有各级别范围的地理名词,例如,“海淀”、“上地”、“中关村”等。
对于不能识别后缀成分的词项,采用预设的地址信息词典进行分析,再利用上下文关系(如后缀)进行组合成一个成分。例如,“十街”是街道后缀,“上地”与该街道后缀可组合成一个成分“上地十街”,同理,“大厦”是建筑后缀,得到另一成分“百度大厦”。
成分节点确定子模块705,用于将识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
根据识别到的成分,按照词项的成分所在的级别添加到地址信息树中对应的节点上,形成包含“北京市/海淀区/上地十街/百度大厦”等具有层级关系的地址信息树。
实施例四
图8是本实施例提供的页面信息提取装置示意图,如图8所示,包括:
网页获取模块801,用于获取全网的网页页面。
视觉分块处理模块802,用于将所述网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块。
标注模块803,用于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块。
地址信息块获取模块804,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块。
第一信息提取模块805,用于从所述地址信息块中提取兴趣点名称和对应的地址信息。
上述模块801至805与实施例三中601至605对应相同,于此不再赘述。
站点结构分析模块806,用于获取所述网页页面对应的站点首页或联系页,包括:
站点首页获取子模块8061,用于获取所述网页页面对应的站点首页。
联系页获取子模块8062,用于获取所述网页页面对应的联系页。
站点首页获取子模块8061获取站点首页可以采用以下所列方法A~C中的一种或任意结合:
方法A:从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页。
对于平台类二级域名实体站点的首页,则直接采用该实体站点的二级域名进行跳转,例如,“http://fsj0769.cn.alibaba.com/”为“东莞市立信塑料制品有限公司”的站点首页的网页地址。
对于实体机构官网具有独立域名,因此,抽取独立域名进行跳转,获取实体机构的站点首页。例如,网页页面的url网址为:http://www.hdhospital.com/OverView.aspx,从该url网址中去掉路径部分,取出域名地址“www.hdhospital.com”,利用该域名地址进行跳转处理,跳转结果指向“http://www.hdhospital.com/”,则该跳转结果为对应的站点首页。
方法B:通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页。
这种方式与方法A相类似,区别在于先对取出的域名地址作去重处理后,再统一进行域名地址的跳转,可提高效率。
方法C:利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
链接锚文本特征可以与提取兴趣点名称时预设的语义规则一致,例如具有相同的后缀信息:“XXX公司”或“XXX医院”等。而网址样式特征,则例如,“http://www.XXX.com/index.html”、“http://www.XXX.com/”、“http://www.XXX.com/default.aspx”等等为站点的首页网址,从中提取得到首页的网址样式特征,可以包括“index”、“default”等。利用这些特征构造首页分类器,再对网页页面进行分类得到站点首页。
联系页获取子模块8062获取网页页面对应的联系页,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
链接锚文本和页面标题的特征主要为相关的语义特征,包括“联系我们”、“联络方”、“公司名片”、“详细信息”等,而网址样式特征则主要为在网址中包括“contact”、“connect”、“lxfs”等等,利用分析得到的这些特征采用正则表达式构造联系页分类器,再对网页页面进行分类得到联系页。
第二信息提取模块807,用于从所述站点首页或联系页中提取兴趣点名称和对应的地址信息,相应地,包括:
首页信息提取子模块8071,用于从站点首页获取子模块8061获取的站点首页中提取兴趣点名称和对应的地址信息。
联系页信息提取子模块8072,用于从联系页获取子模块8062获取的联系页中提取兴趣点名称和对应的地址信息。
第二信息提取模块807与实施例三中第一信息提取模块605的配置相类似,差别仅在于提取的网页来源不同,具体配置包括:
将所述站点首页或联系页的页面标题识别为兴趣点名称。
判断所述站点首页或联系页的页面内容是否有地址提示词。
对于带有提示词的页面内容,对提示词后面的文本利用预设的地址信息树进行分词,识别出至少一个地址信息。
对于无提示词的页面内容,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的页面内容识别为地址信息。
校验模块808,用于对第一信息提取模块805和第二信息提取模块807获取的同一站点内的多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
所述多个位置来源的兴趣点名称可以是从多个地址信息块中提取而来的兴趣点名称,也可以是从站点首页、联系页以及站内包含的地址信息块中提取而来的兴趣点名称。
对于同一个站点,如果获取的兴趣点名称一致,则将该兴趣点名称作为该站点的兴趣点名称;如果获取的兴趣点名称不一致,则对多个位置来源的兴趣点名称进行校验。校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度。或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度。
预设的可信度规则可以但不限于采用以下优先级顺序(由高到低):页面标题(pagetitle)>地址块>版权块>联系信息页>链接锚文本>其他分块。对于优先级不低于联系信息页的位置,也可以直接抽取得到兴趣点名称。
具体的,先从所述站点首页的页面标题中抽取出整个标题内容,判断该标题内容是否为单一名称,若是,则将该标题内容作为该站点的兴趣点名称;否则,抽取的兴趣点名称为空。
从地址块内部利用命名实体识别抽取实体名称,判断是否优先级别较高的名称为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从版权块中抽取出实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
从联系信息页抽取实体名称,判断是否优先级别较高的名称均为空且块内抽取名称唯一,若是,则将该实体名称识别为兴趣点名称;否则,抽取的兴趣点名称为空。
获取指向站点首页的链接锚文本(即前链锚文本),统计所有链接锚文本出现的频次,并根据统计的频次赋予各链接锚文本相应的权重。
最后,将名称可信度满足预设要求的兴趣点名称作为站点的兴趣点名称。
关联模块809,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
经过校验模块808确定了同一个站点的兴趣点名称之后,同样的,关联模块809对于提取的地址信息也可以从不同的来源中择一作为对应站点的地址信息,最后形成准确率高的结构化信息。
本发明提供的页面信息提取方法和装置,基于站点结构及信息语义特征相结合,提取实体机构站点的联系信息,用作地图兴趣点数据,以便后续用作垂直搜索,提供较好的搜索结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (22)
1.一种页面信息提取方法,其特征在于,包括:
S1、获取全网的网页页面;
S2、逐一将所获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
S3、基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
S4、利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
S5、从所述地址信息块中提取兴趣点名称和对应的地址信息;
S6、将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成视觉分块树。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
4.根据权利要求1所述的方法,其特征在于,所述地址信息树的构建方法,包括:
逐一获取地址实例库中的实例地址;
对当前的实例地址进行分词处理,得到该实例地址的词项;
利用预设的地址标识词典,识别实例地址中词项的后缀成分;
利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分;
将识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
5.根据权利要求1所述的方法,其特征在于,所述从地址信息块中提取兴趣点名称,具体为:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
6.根据权利要求1所述的方法,其特征在于,所述从地址信息块中提取对应的地址信息,具体包括:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
7.根据权利要求1所述的方法,其特征在于,在所述步骤S 1之后和步骤S6之前,还包括:
获取所述网页页面对应的站点首页或联系页;
从所述站点首页或联系页中提取兴趣点名称和对应的地址信息。
8.根据权利要求7所述的方法,其特征在于,所述获取站点首页的方法采用以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
9.根据权利要求7所述的方法,其特征在于,所述获取网页页面对应的联系页的方法,具体包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
10.根据权利要求1或7所述的方法,其特征在于,在步骤S6之前,还包括:
对同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
11.根据权利要求10所述的方法,其特征在于,所述校验方法包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
12.一种页面信息提取装置,其特征在于,包括:
网页获取模块,用于获取全网的网页页面;
视觉分块处理模块,用于逐一将所述网页获取模块获取的网页页面解析成文档对象模型树,根据页面标签大小、位置及层叠样式表信息,对所述网页页面进行视觉分块处理,得到所述网页页面的视觉分块;
标注模块,用于基于视觉分块的语义特征对所述视觉分块进行标注,得到标注分块;
地址信息块获取模块,用于利用预先构建的地址信息树对所述标注分块中的文本逐句进行分析,将含有地址信息的标注分块识别为地址信息块;
第一信息提取模块,用于从所述地址信息块中提取兴趣点名称和对应的地址信息;
关联模块,用于将提取到的兴趣点名称与地址信息进行关联,得到结构化信息。
13.根据权利要求12所述的装置方法,其特征在于,所述视觉分块处理模块具体配置为:
逐一解析所获取的网页页面,建立当前网页页面的文档对象模型树;
计算所述文档对象模型树中每个节点的位置、大小和长宽信息,构成视觉树;
遍历所述视觉树,计算每个节点的子树信息;
根据所述节点位置、层叠样式表信息和子树信息对所述视觉树进行分块处理,得到视觉分块;
将所述节点与视觉分块对应,构成视觉分块树。
14.根据权利要求12所述的装置,其特征在于,所述标注模块具体配置为:
记录所述视觉分块的块节点信息,计算所述块节点的位置;
利用块节点的语义特征进行标注,得到所述标注分块,包括标注语义块、标注功能块和标注资源块。
15.根据权利要求12所述的装置,其特征在于,所述地址信息树通过地址信息树构建模块预先建立,所述地址信息树构建模块包括:
实例地址获取子模块,用于逐一获取地址实例库中的实例地址;
分词子模块,用于对所述实例地址获取子模块获取的当前的实例地址进行分词处理,得到该实例地址的词项;
后缀识别子模块,用于利用预设的地址标识词典,识别实例地址中词项的后缀成分;
成分识别子模块,用于利用预设的地址信息词典和上下文关系对所述词项进行成分分析,识别所述词项的成分;
成分节点确定子模块,用于将所述后缀识别子模块和成分识别子模块识别到的成分添加到地址信息树中对应的节点,形成地址信息树。
16.根据权利要求12所述的装置,其特征在于,所述第一信息提取模块从地址信息块中提取兴趣点名称,具体配置为:
利用地址信息块中的文本与预设的命名实体词典相比对,将能够匹配的文本识别为地址信息块中的兴趣点名称;
或者,利用地址信息块中的文本与预设的语义规则相比对,将满足预设语义规则的文本识别为地址信息块中的兴趣点名称。
17.根据权利要求12所述的装置,其特征在于,所述第一信息提取模块从地址信息块中提取对应的地址信息,具体配置为:
判断地址信息块中的文本是否有地址提示词;
对于带有提示词的文本,对提示词后面的文本利用所述地址信息树进行分词,识别出至少一个地址信息;
对于无提示词的文本,先进行分词处理,利用预设的地址信息词典或地址标识词典进行地址成分的识别,将匹配程度满足预设要求的文本识别为地址信息。
18.根据权利要求12所述的装置方法,其特征在于,该装置还包括:
站点结构分析模块,用于获取所述网页页面对应的站点首页或联系页;
第二信息提取模块,用于从所述站点首页或联系页中提取兴趣点名称和对应的地址信息。
19.根据权利要求18所述的装置,其特征在于,所述站点结构分析模块获取站点首页的具体配置包括以下所列的一种或任意结合:
从所述网页页面的网址中取出域名地址,对所述域名地址进行跳转处理,得到该网页页面对应的站点首页;
通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对所述域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;
或者,利用站点的首页样本集合,统计分析其链接锚文本及网址样式特征构造首页分类器,利用所述首页分类器对所述网页页面进行分析,得到所有的站点首页。
20.根据权利要求18所述的装置,其特征在于,所述站点结构分析模块获取网页页面对应的联系页具体配置包括:
利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。
21.根据权利要求12或18所述的装置,其特征在于,该装置还包括:
校验模块,用于对所述第一信息提取模块或所述第二信息提取模块获取的同一站点内多个位置来源的兴趣点名称进行校验,确定站点的兴趣点名称。
22.根据权利要求21所述的装置,其特征在于,所述校验模块的具体配置包括:
根据预设的可信度规则和兴趣点名称的提取位置,对所提取的兴趣点名称确定名称可信度;
或者,统计所提取的兴趣点名称出现的频次,根据频次大小确定名称可信度;
将名称可信度满足预设要求的兴趣点名称作为该站点的兴趣点名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210227184.6A CN103514234B (zh) | 2012-06-30 | 2012-06-30 | 一种页面信息提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210227184.6A CN103514234B (zh) | 2012-06-30 | 2012-06-30 | 一种页面信息提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103514234A true CN103514234A (zh) | 2014-01-15 |
CN103514234B CN103514234B (zh) | 2018-10-16 |
Family
ID=49896965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210227184.6A Active CN103514234B (zh) | 2012-06-30 | 2012-06-30 | 一种页面信息提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103514234B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462063A (zh) * | 2014-12-12 | 2015-03-25 | 武汉大学 | 基于语义位置模型的位置信息结构化提取方法及系统 |
CN104679867A (zh) * | 2015-03-05 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
CN104679850A (zh) * | 2015-02-13 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
CN104933171A (zh) * | 2015-06-30 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 兴趣点数据关联方法和装置 |
CN105159940A (zh) * | 2015-08-03 | 2015-12-16 | 北京奇虎科技有限公司 | 挖掘地理信息的方法、装置以及服务器 |
CN105224522A (zh) * | 2015-09-29 | 2016-01-06 | 小米科技有限责任公司 | 地理位置信息识别方法及装置 |
CN105320752A (zh) * | 2015-09-30 | 2016-02-10 | 北京奇虎科技有限公司 | 一种兴趣点数据的挖掘方法和装置 |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
WO2016155386A1 (zh) * | 2015-03-31 | 2016-10-06 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
CN106021556A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 地址信息处理方法及装置 |
CN106326445A (zh) * | 2016-08-26 | 2017-01-11 | 武汉大学 | 一种基于传感信息量的网页内容评价方法 |
CN107340954A (zh) * | 2017-07-03 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种信息提取方法和装置 |
CN108509589A (zh) * | 2018-03-29 | 2018-09-07 | 优视科技(中国)有限公司 | 信息流展示方法及系统、计算机可读存储介质 |
CN109325197A (zh) * | 2018-08-17 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN110020038A (zh) * | 2017-08-01 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、系统及电子设备 |
CN110647623A (zh) * | 2018-06-11 | 2020-01-03 | 百度在线网络技术(北京)有限公司 | 用于更新信息的方法及装置 |
CN112000495B (zh) * | 2020-10-27 | 2021-02-12 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
CN113806665A (zh) * | 2021-09-24 | 2021-12-17 | 刘秀萍 | 基于非模式化Web数据模型的网页分块方法 |
CN114117292A (zh) * | 2021-11-04 | 2022-03-01 | 中通服咨询设计研究院有限公司 | 一种互联网大数据分析提取方法 |
CN115146635A (zh) * | 2022-09-05 | 2022-10-04 | 吉奥时空信息技术股份有限公司 | 一种基于领域知识增强的地址分节方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024024A (zh) * | 2010-11-10 | 2011-04-20 | 百度在线网络技术(北京)有限公司 | 地址数据库的建构方法及装置 |
CN102253972A (zh) * | 2011-06-14 | 2011-11-23 | 南京师范大学 | 基于网络爬虫的地名数据库维护方法 |
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
-
2012
- 2012-06-30 CN CN201210227184.6A patent/CN103514234B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270206A (zh) * | 2010-06-03 | 2011-12-07 | 北京迅捷英翔网络科技有限公司 | 一种有效网页内容的抓取方法及装置 |
CN102024024A (zh) * | 2010-11-10 | 2011-04-20 | 百度在线网络技术(北京)有限公司 | 地址数据库的建构方法及装置 |
CN102253972A (zh) * | 2011-06-14 | 2011-11-23 | 南京师范大学 | 基于网络爬虫的地名数据库维护方法 |
CN102253979A (zh) * | 2011-06-23 | 2011-11-23 | 天津海量信息技术有限公司 | 基于视觉的web页面萃取方法 |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462063A (zh) * | 2014-12-12 | 2015-03-25 | 武汉大学 | 基于语义位置模型的位置信息结构化提取方法及系统 |
CN104462063B (zh) * | 2014-12-12 | 2016-08-17 | 武汉大学 | 基于语义位置模型的位置信息结构化提取方法及系统 |
CN104679850B (zh) * | 2015-02-13 | 2018-05-29 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
CN104679850A (zh) * | 2015-02-13 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 地址结构化方法及装置 |
CN104679867A (zh) * | 2015-03-05 | 2015-06-03 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
CN104679867B (zh) * | 2015-03-05 | 2018-05-29 | 深圳市华傲数据技术有限公司 | 基于图的地址知识处理方法及装置 |
WO2016155386A1 (zh) * | 2015-03-31 | 2016-10-06 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
CN104933171A (zh) * | 2015-06-30 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 兴趣点数据关联方法和装置 |
CN105159940A (zh) * | 2015-08-03 | 2015-12-16 | 北京奇虎科技有限公司 | 挖掘地理信息的方法、装置以及服务器 |
CN105224522A (zh) * | 2015-09-29 | 2016-01-06 | 小米科技有限责任公司 | 地理位置信息识别方法及装置 |
CN105320752A (zh) * | 2015-09-30 | 2016-02-10 | 北京奇虎科技有限公司 | 一种兴趣点数据的挖掘方法和装置 |
CN105320752B (zh) * | 2015-09-30 | 2018-12-07 | 北京奇虎科技有限公司 | 一种兴趣点数据的挖掘方法和装置 |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
CN106021556A (zh) * | 2016-05-30 | 2016-10-12 | 深圳市华傲数据技术有限公司 | 地址信息处理方法及装置 |
CN106326445A (zh) * | 2016-08-26 | 2017-01-11 | 武汉大学 | 一种基于传感信息量的网页内容评价方法 |
CN106326445B (zh) * | 2016-08-26 | 2019-09-17 | 武汉大学 | 一种基于传感信息量的网页内容评价方法 |
CN107340954A (zh) * | 2017-07-03 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种信息提取方法和装置 |
CN110020038A (zh) * | 2017-08-01 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 网页信息提取方法、装置、系统及电子设备 |
CN108509589A (zh) * | 2018-03-29 | 2018-09-07 | 优视科技(中国)有限公司 | 信息流展示方法及系统、计算机可读存储介质 |
CN108509589B (zh) * | 2018-03-29 | 2022-02-18 | 阿里巴巴(中国)有限公司 | 信息流展示方法及系统、计算机可读存储介质 |
CN110647623A (zh) * | 2018-06-11 | 2020-01-03 | 百度在线网络技术(北京)有限公司 | 用于更新信息的方法及装置 |
CN110647623B (zh) * | 2018-06-11 | 2022-09-23 | 百度在线网络技术(北京)有限公司 | 用于更新信息的方法及装置 |
CN109325197B (zh) * | 2018-08-17 | 2022-07-15 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN109325197A (zh) * | 2018-08-17 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN112000495B (zh) * | 2020-10-27 | 2021-02-12 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
WO2022089474A1 (zh) * | 2020-10-27 | 2022-05-05 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
CN113806665A (zh) * | 2021-09-24 | 2021-12-17 | 刘秀萍 | 基于非模式化Web数据模型的网页分块方法 |
CN114117292A (zh) * | 2021-11-04 | 2022-03-01 | 中通服咨询设计研究院有限公司 | 一种互联网大数据分析提取方法 |
CN114117292B (zh) * | 2021-11-04 | 2024-04-16 | 中通服咨询设计研究院有限公司 | 一种互联网大数据分析提取方法 |
CN115146635A (zh) * | 2022-09-05 | 2022-10-04 | 吉奥时空信息技术股份有限公司 | 一种基于领域知识增强的地址分节方法 |
CN115146635B (zh) * | 2022-09-05 | 2022-11-15 | 吉奥时空信息技术股份有限公司 | 一种基于领域知识增强的地址分节方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103514234B (zh) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103514234A (zh) | 一种页面信息提取方法和装置 | |
CN102841920A (zh) | 一种页面信息提取方法及装置 | |
Resch et al. | Combining machine-learning topic models and spatiotemporal analysis of social media data for disaster footprint and damage assessment | |
CN110472066B (zh) | 一种城市地理语义知识图谱的构建方法 | |
CN102054015B (zh) | 使用有机物件数据模型来组织社群智能信息的系统及方法 | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
Ghahremanlou et al. | Geotagging twitter messages in crisis management | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
KR101221959B1 (ko) | 맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색방법 | |
CN102880647A (zh) | 一种机构别称的获取方法和装置 | |
Bahrehdar et al. | Streets of London: Using Flickr and OpenStreetMap to build an interactive image of the city | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
KR102124935B1 (ko) | 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램 | |
Chiang | Unlocking textual content from historical maps-potentials and applications, trends, and outlooks | |
CN108984640A (zh) | 一种基于web数据挖掘的地理信息获取方法 | |
CN105975477A (zh) | 一种基于网络自动构建地名数据集的方法 | |
CN115168401A (zh) | 数据分级处理方法及装置、电子设备及计算机可读介质 | |
CN105159885A (zh) | 一种兴趣点名称的识别方法和装置 | |
KR101289082B1 (ko) | 지역 정보 서비스 제공 시스템 및 그 방법 | |
CN105138708A (zh) | 一种兴趣点名称的识别方法和装置 | |
Neumaier et al. | Geo-semantic labelling of open data | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及系统 | |
Varga et al. | Integrating dbpedia and sentiwordnet for a tourism recommender system | |
CN113626536B (zh) | 一种基于深度学习的新闻地理编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |