CN105468688B - 一种站点模板的处理方法及装置 - Google Patents

一种站点模板的处理方法及装置 Download PDF

Info

Publication number
CN105468688B
CN105468688B CN201510789321.9A CN201510789321A CN105468688B CN 105468688 B CN105468688 B CN 105468688B CN 201510789321 A CN201510789321 A CN 201510789321A CN 105468688 B CN105468688 B CN 105468688B
Authority
CN
China
Prior art keywords
site
template
field
character string
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510789321.9A
Other languages
English (en)
Other versions
CN105468688A (zh
Inventor
刘伟
叶汇龙
田振雷
马晋
曹冰
张显
张晓婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510789321.9A priority Critical patent/CN105468688B/zh
Publication of CN105468688A publication Critical patent/CN105468688A/zh
Application granted granted Critical
Publication of CN105468688B publication Critical patent/CN105468688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种站点模板的处理方法及装置。一方面,本发明实施例通过获取站点所提供的页面,以作为训练样本;从而,获取模板样式,所述模板样式中定义有至少一个字段;根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;进而,根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。因此,本发明实施例提供的技术方案能够实现自动生成站点模板,提高了站点模板的生成效率,降低了站点模板的生成成本。

Description

一种站点模板的处理方法及装置
【技术领域】
本发明涉及搜索技术领域,尤其涉及一种站点模板的处理方法及装置。
【背景技术】
网站可以提供各种页面,对于这些页面,可以从中抽取出多个信息,以论文为例,可以抽取出题目、作者、书目、期号、页码、DOI、摘要和关键词中至少一个信息。这些信息可以用于构建搜索引擎在搜索时所需要使用的搜索索引信息。
现有技术中,从互联网的页面中爬取信息的方法是:首先爬取到大量页面内容,再根据各站点的站点模板来从页面内容中抽取所需要的信息。然而,这种利用站点模板来抽取信息的方式中,一旦页面结构发生变化,将导致站点模板失效,目前站点模板是人工配置的,站点模板失效后将需要人工重新配置,因此,现有技术中站点模板的生成效率比较低,生成成本比较高。
【发明内容】
有鉴于此,本发明实施例提供了一种站点模板的处理方法及装置,可以实现自动生成站点模板,提高了站点模板的生成效率,降低了站点模板的生成成本。
本发明实施例的一方面,提供一种站点模板的处理方法,包括:
获取站点所提供的页面,以作为训练样本;
获取模板样式,所述模板样式中定义有至少一个字段;
根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;
根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息,包括:
根据输入的与每个字段相匹配的字符串,在所述训练样本中进行模糊匹配,以获得候选字符串;
去除所述候选字符串中的杂质字符,以获得目标字符串;
获得所述目标字符串在所述训练样本中的节点路径;
根据所述节点路径,从所述训练样本中抽取所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,每个所述字段的描述信息包括字段的元信息、上下文信息、节点路径和字体中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模板样式包括:站点的域名、站点模板命中的页面的URL、站点模板命中的所述站点所提供的页面的次数、各字段名称、各字段的描述信息、模板类型和模板权重中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
利用所述站点所提供的至少一个页面,对所述站点模板中各字段的描述信息进行校验,以获得校验结果;
根据所述校验结果,对所述站点模板中各字段的描述信息进行调整。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
利用所述站点模板对所述站点的一个页面进行字符串提取;
若提取的所述字符串与所述站点模板中定义的字段的通用特征相匹配,将所述字符串作为所述页面的搜索索引信息;或者,若提取的所述字符串与所述站点模板中定义的字段的通用特征不匹配,丢弃提取的所述字符串,并将所述站点模板中用于提取出所述字符串的字段的节点路径在所述站点模板中删除。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
利用所述站点模板中定义的每个字段的描述信息中包含的节点路径,对所述站点的至少两个页面进行字符串提取;
若提取的至少两个所述字符串相同,确定所述站点模板中用于提取出所述字符串的字段的节点路径有误,则将所述站点模板中用于提取出至少两个所述字符串的字段的节点路径在所述站点模板中删除。
本发明实施例的一方面,提供一种站点模板的处理装置,包括:
样本获取模块,用于获取站点所提供的页面,以作为训练样本;
样式获取模块,用于获取模板样式,所述模板样式中定义有至少一个字段;
信息匹配模块,用于根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;
模板生成模块,用于根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信息匹配模块,具体用于:
根据输入的与每个字段相匹配的字符串,在所述训练样本中进行模糊匹配,以获得候选字符串;
去除所述候选字符串中的杂质字符,以获得目标字符串;
获得所述目标字符串在所述训练样本中的节点路径;
根据所述节点路径,从所述训练样本中抽取所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,每个所述字段的描述信息包括字段的元信息、上下文信息、节点路径和字体中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模板样式包括:站点的域名、站点模板命中的页面的URL、站点模板命中的所述站点所提供的页面的次数、各字段名称、各字段的描述信息、模板类型和模板权重中至少一个。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
模板校验模块,用于利用所述站点所提供的至少一个页面,对所述站点模板中各字段的描述信息进行校验,以获得校验结果;
第一调整模块,用于根据所述校验结果,对所述站点模板中各字段的描述信息进行调整。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
第一提取模块,用于利用所述站点模板对所述站点的一个页面进行字符串提取;
信息处理模块,用于若提取的所述字符串与所述站点模板中定义的字段的通用特征相匹配,将所述字符串作为所述页面的搜索索引信息;或者,所述信息处理模块,用于若提取的所述字符串与所述站点模板中定义的字段的通用特征不匹配,丢弃提取的所述字符串;以及,第二调整模块,用于将所述站点模板中用于提取出所述字符串的字段的节点路径在所述站点模板中删除。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
第二提取模块,用于利用所述站点模板中定义的每个字段的描述信息中包含的节点路径,对所述站点的至少两个页面进行字符串提取;
第三调整模块,用于若提取的至少两个所述字符串相同,确定所述站点模板中用于提取出所述字符串的字段的节点路径有误,则将所述站点模板中用于提取出至少两个所述字符串的字段的节点路径在所述站点模板中删除。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例提供的技术方案中能够根据站点提供的页面以及模板样式,自动生成站点模板,与现有技术中人工配置站点模板的方式相比,本发明实施例所提供的技术方案,提高了站点模板的生成效率,降低了站点模板的生成成本。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的站点模板的处理方法的流程示意图;
图2是本发明实施例所提供的页面中字段的示例图;
图3是本发明实施例所提供的站点模板的迭代召回示例图;
图4是本发明实施例所提供的站点模板的处理装置的实施例一的功能方块图;
图5是本发明实施例所提供的站点模板的处理装置的实施例二的功能方块图;
图6是本发明实施例所提供的站点模板的处理装置的实施例三的功能方块图;
图7是本发明实施例所提供的站点模板的处理装置的实施例四的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明实施例给出一种站点模板的处理方法,请参考图1,其为本发明实施例所提供的站点模板的处理方法的流程示意图,如图所示,该方法包括以下步骤:
S101,获取站点所提供的页面,以作为训练样本。
具体的,本发明实施例中,为了生成站点的站点模板,需要以该站点所提供的页面为训练样本,因此,需要获取站点所提供的大量页面。
在一个具体的实现过程中,可以根据人工标注的站点,确定需要生成站点模板的站点,进而可以从该站点获取大量页面,以作为训练样本。或者,也可以利用后续生成的站点模板在进行字符串抽取时获得的高质量页面,作为训练样本。
S102,获取模板样式,所述模板样式中定义有至少一个字段。
具体的,可以根据人工配置来确定站点模板的模板样式。所述模板样式可以包括:站点的域名、站点模板命中的页面的统一资源定位符(Uniform Resource Locator,URL)、站点模板命中的所述站点所提供的页面的次数、各字段名称、各字段的描述信息、模板类型和模板权重中至少一个。
可以理解的是,所述模板样式用以定义了生成的站点模板之后,利用站点模板从各网站的各页面中抽取所需要的字符串时,所需要抽取的字符串。
其中,模板类型可以包括单字段模板和多字段模板。
在一个具体的实现过程中,每个字段的描述信息可以包括但不限于:字段的元信息(Meta)、上下文信息、节点路径和字体中至少一个。
优选的,所述上下文信息可以包括字段的上下文文本和上下文路径。
例如,请参考图2,其为本发明实施例所提供的页面中字段的示例图,如图2所示,以页面是论文内容为例,模板样式中定义的字段可以包括:题目(Title)、作者(Author)、摘要(Abstract)、时间(Time)和期刊(Jounal)等。
可以理解的是,一个站点对应存在一个站点模板,一个站点模板中可以包括一个或多个定义的字段,对于每个字段都有对应的描述信息,该描述信息中可以包括该字段的至少一个节点路径,根据每个节点路径可以从页面中抽取出该节点路径所指示的字符串。
S103,根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息。
具体的,举例说明,本发明实施例中,根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息的方法可以包括但不限于:
首先,接收输入的若干字符串,这些字符串中的每个字符串,都是与模板样式中定义的各字段中一个字段相匹配的字符串。例如,模板样式中定义的一个字段是题目,则输入的一个字符串是某论文的题目。
然后,根据输入的与每个字段相匹配的字符串,在一个所述训练样本中进行模糊匹配,以获得候选字符串;接着,去除所述候选字符串中的杂质字符,以获得目标字符串。这里,由于进行模糊匹配后获得的候选字符串中除了包含输入的字符串,还会包含杂质字符,因此,还需要对候选字符串进行处理,抽取候选字符串中的通用特征,去除杂质字符。例如,输入的字符串是“QQ音乐与百度音乐APP对比分析”,经过模糊匹配后获得的候选字符串可以是“搜狗面试题—QQ音乐与百度音乐APP对比分析”,这样,可以将“搜狗面试题”作为杂质字符去除。
接着,在利用输入的字符串在训练样本中进行匹配的过程之后,可以根据目标字符串,获得目标字符串在训练样本中的节点路径(如Xpath)。其中,节点路径可以包括该目标字符串在页面的超文本标记语言(Hyper Text Mark-up Language,HTML)文件中的节点以及其所有父节点,根据该节点路径可以在HTML文件中找到该目标字符串,因此,节点路径也可以作为目标字符串在HTML文件中的位置信息。
最后,根据所述节点路径,就可以从所述训练样本中抽取出所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息,如元信息、上下文信息和字体等。
在一个具体的实现过程中,为了提高字符串在页面中的匹配效率,可以预先对页面进行处理,包括:对页面中的数据进行筛选,保留其中的中文字符、英文字符、小语种字符和数字。然后,对保留的字符进行数据样式的归一化,如作者字段中人名的书写方法,如可以将“RichardG,Brereton”、“RG Brereton”、“Richard G.Brereton”和“Brereton RG”等都统一成一个标准样式。最后,将连续的字符串进行切词处理。
可以理解的是,可以根据输入的每个字符串,都进行上述处理,从而可以针对每个字符串在匹配后,获得的目标字符串在训练样本中的节点路径,进而抽取出模板样式中定义的每个字段的其他描述信息,这样,就可以确定模板样式中定义的若干字段中每个字段的描述信息。例如,根据输入的某论文的题目,可以获得模板样式中定义的题目字段的描述信息,再根据输入的另一论文的时间,可以获得模板样式中定义的时间字段的描述信息。
S104,根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
具体的,根据获得的模板样式以及模板样式中定义的各字段的描述信息,生成站点的站点模板,相当于,站点模板中包括定义的各字段的描述信息以及模板样式中除各字段的描述信息中以外的其他信息。
可选的,在本实施例的一个可能的实现方式中,在为某站点生成站点模板之后,还可以利用站点所提供的至少一个页面,对站点模板中各字段的描述信息进行校验,以获得校验结果;并根据校验结果,对站点模板中各字段的描述信息进行调整。
在一个具体的实现过程中,可以利用站点提供的一个页面,对站点模板中各字段的描述信息进行校验。如可以利用站点模板中定义的各字段的描述信息中包含的节点路径,从页面中抽取字符串,并判断该抽取出的字符串是否符合通用特征,如果符合通用特征,则认为该节点路径没有出现定位错误。反之,如果不符合通用特征,则认为该节点路径出现了定位错误,则可以在站点模板中相应字段的描述信息中将该节点路径删除,以实现对站点模板的自动更新迭代,提高站点模板抽取数据的准确性。
或者,也可以利用站点提供的至少两个页面,对站点模板中各字段的描述信息进行校验。如可以利用站点模板中定义的各字段的描述信息中包含的节点路径,从至少两个页面中抽取字符串,并判断每个抽取出的字符串是否符合通用特征,如果符合通用特征,表示站点模板中该字段命中页面准确,则抽取出该字符串的相应字段的权重可以加1,反之,如果不符合通用特征,表示站点模板中该字段命中页面不准确,则抽取出该字符串的相应字段的权重不变。以此类推,利用每个字段的描述信息中包含的至少一个节点路径中的每个节点路径,都可以抽取出字符串,从而可以获得站点模板中定义的每个字段的权重的累加和。然后按照权重由高到低的顺序进行排序,以获得排序结果,将排序结果中排名最低的至少一个字段,在站点模板中删除,以实现对站点模板的自动更新迭代,提高站点模板抽取数据的准确性。
可选的,在本实施例的一个可能的实现方式中,本发明实施例中,可以预先对互联网中大量的站点进行筛选,以获得目标站点,然后为目标站点生成对应的站点模板。
举例说明,本发明实施例中,可以但不限于利用以下方法获得目标站点:
第一种:可以根据预设的元信息特征,对大量站点中每个站点的元信息进行筛选,如果站点的元信息符合预设的元信息特征,则将该站点作为目标站点,反之,如果站点的元信息不符合预设的元信息特征,不将该站点作为目标站点。
第二种:可以根据预设的摘要信息特征,对大量站点中每个站点的摘要信息进行筛选,如果站点的摘要信息符合预设的摘要信息特征,则将该站点作为目标站点,反之,如果站点的摘要信息不符合预设的摘要信息特征,不将该站点作为目标站点。
第三种:利用预设的粗糙模板,对大量站点进行筛选,以获得与粗糙模板相匹配的站点,将其作为目标站点。
可选的,在本实施例的一个可能的实现方式中,在获得目标站点之后,还可以对目标站点中的页面进行筛选,以获得所需要的高质量页面作为训练样本。
举例说明,对目标站点中的页面进行筛选的方法可以包括但不限于:
第一种:可以根据预设的内容页识别特征,对目标站点所提供的大量页面进行识别,符合该内容页识别特征的页面将作为目标页面,从而筛除掉目标站点中的非内容页。
第二种:可以根据预设的目标页识别特征,对目标站点所提供的大量页面进行识别,符合该目标页识别特征的页面将作为目标页面,从而筛除掉目标站点中的非目标页。
可选的,在本实施例的一个可能的实现方式中,可以进一步利用该站点模板从对应站点所提供的页面中获取所需要的字符串,以作为该页面的搜索索引信息。
例如,利用站点模板对站点的一个页面进行字符串提取。然后,将提取的字符串与站点模板中定义的字段的通用特征进行比较。若提取的字符串与站点模板中定义的字段的通用特征相匹配,说明提取字符串的字段的节点路径的定位准确,所提取的字符串准确,则将提取的字符串作为页面的搜索索引信息,被存入用于支持搜索的索引库中。或者,若提取的所述字符串与所述站点模板中定义的字段的通用特征不匹配,说明提取字符串的字段的节点路径的定位不准确,所提取的字符串不准确,则丢弃提取的所述字符串,并将所述站点模板中用于提取出所述字符串的字段的节点路径在所述站点模板中删除,从而实现在站点模板的实际应用中,也能够对站点模板进行自动更新迭代,提高了站点模板抽取数据的准确性。
或者,又例如,利用站点模板中定义的每个字段的描述信息中包含的节点路径,分别对站点的至少两个页面进行字符串提取。若提取的至少两个所述字符串相同,确定所述站点模板中用于提取出所述字符串的字段的节点路径有误,则将所述站点模板中用于提取出至少两个所述字符串的字段的节点路径在所述站点模板中删除。
可以理解的是,站点中所提供的页面一般是互不相同的,因此,利用一个字段的一个定位路径在页面中提取出的字符串也是不同的,如果使用站点模板中定义的某字段的定位路径从若干页面中提取各页面的字符串之后,提取出的字符串相同,说明该定位路径有误,需要在站点模板中进行删除,以提高站点模板抽取数据的准确性,完成站点模板的自动更新迭代。
请参考图3,其为本发明实施例所提供的站点模板的迭代召回示例图,如图所示,若干页面a和若干页面b为站点A提供的页面,先根据页面a和页面b,生成站点A的站点模板A。然后用站点A提供的页面a和页面b在互联网中进行匹配,发现页面b同时由站点B提供,所以页面b为站点A和站点B的页面交集。因此,根据页面b可以生成站点B的站点模板B。然后,利用站点B提供的页面b和页面c在互联网中进行匹配,发现页面c同时由站点C提供,所以页面c为站点B与站点C的页面交集,因此,根据页面c可以生成站点C的站点模板C,以此类推,从而可以不断召回页面,再通过召回的页面召回站点,并利用召回的页面为站点生成站点模板,从而可以自动生成互联网中所有站点U的站点模板。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图4,其为本发明实施例所提供的站点模板的处理装置的实施例一的功能方块图。如图所示,该装置包括:
样本获取模块41,用于获取站点所提供的页面,以作为训练样本;
样式获取模块42,用于获取模板样式,所述模板样式中定义有至少一个字段;
信息匹配模块43,用于根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;
模板生成模块44,用于根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
在一个具体的实现过程中,所述信息匹配模块43,具体用于:
根据输入的与每个字段相匹配的字符串,在所述训练样本中进行模糊匹配,以获得候选字符串;
去除所述候选字符串中的杂质字符,以获得目标字符串;
获得所述目标字符串在所述训练样本中的节点路径;
根据所述节点路径,从所述训练样本中抽取所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息。
在一个具体的实现过程中,每个所述字段的描述信息包括字段的元信息、上下文信息、节点路径和字体中至少一个。
在一个具体的实现过程中,所述模板样式包括:站点的域名、站点模板命中的页面的URL、站点模板命中的所述站点所提供的页面的次数、各字段名称、各字段的描述信息、模板类型和模板权重中至少一个。
请参考图5,其为本发明实施例所提供的站点模板的处理装置的实施例二的功能方块图。如图所示,该装置还包括:
模板校验模块45,用于利用所述站点所提供的至少一个页面,对所述站点模板中各字段的描述信息进行校验,以获得校验结果;
第一调整模块46,用于根据所述校验结果,对所述站点模板中各字段的描述信息进行调整。
请参考图6,其为本发明实施例所提供的站点模板的处理装置的实施例三的功能方块图。如图所示,该装置还包括:
第一提取模块47,用于利用所述站点模板对所述站点的一个页面进行字符串提取;
信息处理模块48,用于若提取的所述字符串与所述站点模板中定义的字段的通用特征相匹配,将所述字符串作为所述页面的搜索索引信息;或者,所述信息处理模块,用于若提取的所述字符串与所述站点模板中定义的字段的通用特征不匹配,丢弃提取的所述字符串;以及,第二调整模块49,用于将所述站点模板中用于提取出所述字符串的字段的节点路径在所述站点模板中删除。
请参考图7,其为本发明实施例所提供的站点模板的处理装置的实施例四的功能方块图。如图所示,该装置还包括:
第二提取模块50,用于利用所述站点模板中定义的每个字段的描述信息中包含的节点路径,对所述站点的至少两个页面进行字符串提取;
第三调整模块51,用于若提取的至少两个所述字符串相同,确定所述站点模板中用于提取出所述字符串的字段的节点路径有误,则将所述站点模板中用于提取出至少两个所述字符串的字段的节点路径在所述站点模板中删除。
由于上述装置实施例一至实施例四中的各单元能够执行图1所示的方法,本实施例未详细描述的部分,可参考对图1的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,通过获取站点所提供的页面,以作为训练样本;从而,获取模板样式,所述模板样式中定义有至少一个字段;根据与各字段相匹配的字符串,在所述训练样本中进行匹配,以获得所述模板样式中定义的各字段的描述信息;进而,根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
本发明实施例提供的技术方案中能够根据站点提供的页面以及模板样式,自动生成站点模板,与现有技术中人工配置站点模板的方式相比,本发明实施例所提供的技术方案,提高了站点模板的生成效率,降低了站点模板的生成成本。
另外,本发明实施例中,在对站点模板的校验过程以及站点模板的实际应用过程中,还可以自动对站点模板进行调整,从而可以不断提高站点模板提取字符串的准确率,迭代优化过程可以自动完成,从而提高了站点模板的迭代优化的效率,避免人工优化站点模板,降低了站点模板的优化成本。
而且,本发明实施例中,在利用站点模板从页面中提取字符串时,对于同一字段,同时产出多个字符串,不会受到站点中页面结构差异的影响,提高了提取信息的质量和准确性,当站点结构发生变化后,站点模板可以自适应调整,以匹配新的站点结构,从而避免人工配置带来的效率低和成本高的问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种站点模板的处理方法,其特征在于,所述方法包括:
获取站点所提供的页面,以作为训练样本;
获取模板样式,所述模板样式中定义有至少一个字段;
根据输入的与每个字段相匹配的字符串,在所述训练样本中进行模糊匹配,以获得候选字符串;去除所述候选字符串中的杂质字符,以获得目标字符串;获得所述目标字符串在所述训练样本中的节点路径;根据所述节点路径,从所述训练样本中抽取所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息;
根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
2.根据权利要求1所述的方法,其特征在于,每个所述字段的描述信息包括字段的元信息、上下文信息、节点路径和字体中至少一个。
3.根据权利要求1所述的方法,其特征在于,所述模板样式包括:站点的域名、站点模板命中的页面的URL、站点模板命中的所述站点所提供的页面的次数、各字段名称、各字段的描述信息、模板类型和模板权重中至少一个。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述站点所提供的至少一个页面,对所述站点模板中各字段的描述信息进行校验,以获得校验结果;
根据所述校验结果,对所述站点模板中各字段的描述信息进行调整。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述站点模板对所述站点的一个页面进行字符串提取;
若提取的所述字符串与所述站点模板中定义的字段的通用特征相匹配,将所述字符串作为所述页面的搜索索引信息;或者,若提取的所述字符串与所述站点模板中定义的字段的通用特征不匹配,丢弃提取的所述字符串,并将所述站点模板中用于提取出所述字符串的字段的节点路径在所述站点模板中删除。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述站点模板中定义的每个字段的描述信息中包含的节点路径,对所述站点的至少两个页面进行字符串提取;
若提取的至少两个所述字符串相同,确定所述站点模板中用于提取出所述字符串的字段的节点路径有误,则将所述站点模板中用于提取出至少两个所述字符串的字段的节点路径在所述站点模板中删除。
7.一种站点模板的处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取站点所提供的页面,以作为训练样本;
样式获取模块,用于获取模板样式,所述模板样式中定义有至少一个字段;
信息匹配模块,用于根据输入的与每个字段相匹配的字符串,在所述训练样本中进行模糊匹配,以获得候选字符串;去除所述候选字符串中的杂质字符,以获得目标字符串;获得所述目标字符串在所述训练样本中的节点路径;根据所述节点路径,从所述训练样本中抽取所述模板样式中定义的与所述目标字符串相匹配的字段的其他描述信息;
模板生成模块,用于根据所述模板样式和所述模板样式中定义的各字段的描述信息,生成所述站点的站点模板。
8.根据权利要求7所述的装置,其特征在于,每个所述字段的描述信息包括字段的元信息、上下文信息、节点路径和字体中至少一个。
9.根据权利要求7所述的装置,其特征在于,所述模板样式包括:站点的域名、站点模板命中的页面的URL、站点模板命中的所述站点所提供的页面的次数、各字段名称、各字段的描述信息、模板类型和模板权重中至少一个。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
模板校验模块,用于利用所述站点所提供的至少一个页面,对所述站点模板中各字段的描述信息进行校验,以获得校验结果;
第一调整模块,用于根据所述校验结果,对所述站点模板中各字段的描述信息进行调整。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一提取模块,用于利用所述站点模板对所述站点的一个页面进行字符串提取;
信息处理模块,用于若提取的所述字符串与所述站点模板中定义的字段的通用特征相匹配,将所述字符串作为所述页面的搜索索引信息;或者,所述信息处理模块,用于若提取的所述字符串与所述站点模板中定义的字段的通用特征不匹配,丢弃提取的所述字符串;以及,第二调整模块,用于将所述站点模板中用于提取出所述字符串的字段的节点路径在所述站点模板中删除。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二提取模块,用于利用所述站点模板中定义的每个字段的描述信息中包含的节点路径,对所述站点的至少两个页面进行字符串提取;
第三调整模块,用于若提取的至少两个所述字符串相同,确定所述站点模板中用于提取出所述字符串的字段的节点路径有误,则将所述站点模板中用于提取出至少两个所述字符串的字段的节点路径在所述站点模板中删除。
CN201510789321.9A 2015-11-17 2015-11-17 一种站点模板的处理方法及装置 Active CN105468688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510789321.9A CN105468688B (zh) 2015-11-17 2015-11-17 一种站点模板的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510789321.9A CN105468688B (zh) 2015-11-17 2015-11-17 一种站点模板的处理方法及装置

Publications (2)

Publication Number Publication Date
CN105468688A CN105468688A (zh) 2016-04-06
CN105468688B true CN105468688B (zh) 2020-04-28

Family

ID=55606389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510789321.9A Active CN105468688B (zh) 2015-11-17 2015-11-17 一种站点模板的处理方法及装置

Country Status (1)

Country Link
CN (1) CN105468688B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528126A (zh) * 2016-10-26 2017-03-22 李露青 模板处理方法和装置
CN109783790A (zh) * 2019-01-23 2019-05-21 国网山东省电力公司济宁供电公司 一种二次安措票生成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279495A (zh) * 2013-05-06 2013-09-04 百度在线网络技术(北京)有限公司 用于确定目标对象所对应的站点信息模板的方法和设备
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676465B2 (en) * 2006-07-05 2010-03-09 Yahoo! Inc. Techniques for clustering structurally similar web pages based on page features
CN101290624B (zh) * 2008-06-11 2012-02-01 华东师范大学 一种新闻网页元数据自动抽取方法
CN101944094B (zh) * 2009-07-06 2014-06-18 富士通株式会社 网页信息提取方法和装置
CN104281672B (zh) * 2014-09-28 2021-02-12 网神信息技术(北京)股份有限公司 日志数据的处理方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544176A (zh) * 2012-07-13 2014-01-29 百度在线网络技术(北京)有限公司 用于生成多个页面所对应的页面结构模板的方法和设备
CN103279495A (zh) * 2013-05-06 2013-09-04 百度在线网络技术(北京)有限公司 用于确定目标对象所对应的站点信息模板的方法和设备

Also Published As

Publication number Publication date
CN105468688A (zh) 2016-04-06

Similar Documents

Publication Publication Date Title
CN100405371C (zh) 一种提取新词的方法和系统
US20180165370A1 (en) Methods and systems for object recognition
CN102054015B (zh) 使用有机物件数据模型来组织社群智能信息的系统及方法
CN108536708A (zh) 一种自动问答处理方法及自动问答系统
CN104598532A (zh) 一种信息处理方法及装置
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
CN108090104B (zh) 用于获取网页信息的方法和装置
CN106960058B (zh) 一种网页结构变更检测方法及系统
US8793120B1 (en) Behavior-driven multilingual stemming
WO2007143914A1 (fr) Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CN111274785B (zh) 一种文本纠错方法、装置、设备及介质
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN101853300A (zh) 一种视频下载服务网站的识别、评估方法及系统
CN111079043A (zh) 一种关键内容定位方法
CN110602045A (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN109165373B (zh) 一种数据处理方法及装置
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN108804472A (zh) 一种网页内容抽取方法、装置及服务器
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN105468688B (zh) 一种站点模板的处理方法及装置
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
JP2010224984A (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
CN111339457A (zh) 用于从网页抽取信息的方法和设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant