CN102591971B - 一种网页信息提取的方法和设备 - Google Patents

一种网页信息提取的方法和设备 Download PDF

Info

Publication number
CN102591971B
CN102591971B CN201110460591.7A CN201110460591A CN102591971B CN 102591971 B CN102591971 B CN 102591971B CN 201110460591 A CN201110460591 A CN 201110460591A CN 102591971 B CN102591971 B CN 102591971B
Authority
CN
China
Prior art keywords
webpage
web page
template
key message
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110460591.7A
Other languages
English (en)
Other versions
CN102591971A (zh
Inventor
陈亮
荣蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110460591.7A priority Critical patent/CN102591971B/zh
Publication of CN102591971A publication Critical patent/CN102591971A/zh
Application granted granted Critical
Publication of CN102591971B publication Critical patent/CN102591971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种网页信息提取的方法,该方法包括:根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页;从所述网页中提取出可以反映该网页特征的关键信息;将所述关键信息在搜索结果中进行显示。相应地,还提供了一种网页信息提取的设备。本发明的优点是,可以快速、准确地将网页中可以反映该网页特征的关键信息提取出来,并提供给用户,便于用户根据该关键信息快速判断是否需要查看该网页,从而有效地提高了用户的搜索效率,提升了用户的使用体验。

Description

一种网页信息提取的方法和设备
技术领域
本发明涉及搜索引擎技术,尤其涉及一种网页信息提取的方法和设备。
背景技术
随着互联网上信息的爆炸性增加,如何能够从海量信息中找到有用信息已经成为用户的最大愿望,人们也付出了很多努力来寻找解决方法。搜索引擎的出现在一定程度上满足了用户的需求,如百度、谷歌、雅虎等。
在现有技术中,用户通常是输入查询序列进行检索,搜索引擎从互联网中找到匹配该查询序列的网页,然后将网页的标题、网页的URL地址以及一段来自网页的摘要信息在搜索结果页中进行显示,供用户判断该网页是否具有其所需要的信息,在大多数情况下,网页的摘要信息并不携带可以反映该网页特征的关键信息,而仅仅是从网页文本中基于用户查询序列抽取的一段文字。但是实际上,用户往往最终是通过这些关键信息来判断哪些网页才是其所需要的,这是因为,对于不同页面类型的网页来说,除了标题、正文等内容主体之外,可以反映该网页特征的关键信息是不同的,例如,对于新闻页面来说,新闻的发布时间和新闻的来源对于用户是非常重要的,因为用户不会关注过期的新闻或者来源不可靠的新闻;对于论坛页面来说,回帖人数和回帖时间说明了谈论主题受欢迎的程度,用户往往借此来判断是否应该对该主题进行关注;而对于文件下载页面来说,用户通常会选择被下载次数多的文件进行下载,等等。因此,目前搜索结果页中所提供的信息是无法让用户快速、准确地判断其需要的网页,用户必须要根据摘要信息先筛选部分网页,然后逐一进入到这些网页中通过其中的关键信息进行最终的确定。如此一来,用户不但需要执行多次点击操作,还需要花费大量时间浏览网页内容,从而大大降低了用户的搜索效率。
因此,亟需提出一种可以快速、有效地提取出可以反映该网页特征的关键信息的方法和设备。
发明内容
本发明的目的是提供一种网页信息提取的方法和设备,可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来。
根据本发明的一个方面,提供了一种网页信息提取的方法,该方法包括以下步骤:
根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页;
从所述网页中提取出可以反映该网页特征的关键信息;
将所述关键信息在搜索结果中进行显示。
根据本发明的另一个方面,还提供了一种网页信息提取的设备,包括:
匹配搜索装置,用于根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页;
信息提取装置,用于从所述网页中提取出可以反映该网页特征的关键信息;
结果展示装置,用于将所述关键信息在搜索结果中进行显示。
与现有技术相比,本发明具有以下优点:可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来,并将该关键信息提供给用户,便于用户根据该关键信息准确判断是否需要查看该网页,从而提高了用户的搜索效率,提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个方面的网页信息提取的方法流程图;
图2为根据本发明一个优选实施例的从网页中提取出可以反映该网页特征的关键信息的方法流程图;
图3为根据本发明另一个优选实施例的从网页中提取出可以反映该网页特征的关键信息的方法流程图;
图4为根据本发明一个优选实施例的网页模板库建立的方法流程图;
图5为根据本发明一个优选实施例的在所搜索结果中对所述关键信息进行展示的示意图;
图6为根据本发明一个优选实施例的网页信息提取的设备示意图;
图7为根据本发明另一个优选实施例的网页信息提取的设备示意图;以及
图8为根据本发明一个优选实施例的模板库建立装置示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的网页信息提取的方法流程图,如图所示,该方法包括以下步骤:
在步骤S101中,根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页。
具体地,获取用户在搜索引擎(如计算机搜索引擎或者手机搜索引擎)中输入的查询序列后,基于该查询序列在互联网的网页内进行搜索,以获取与所述查询序列相匹配的网页,其中,实现搜索匹配为本领域技术人员所公知的技术,在此不再赘述。
接着,执行步骤S102,从所述网页中提取出可以反映该网页特征的关键信息。
具体地,用户往往是通过网页中的一些关键信息,来判断一个网页是否是其所需要的,例如,对于提供新闻的网页,用户需要根据新闻的发布时间以及新闻的来源判断新闻的时效性,而对于提供文件下载的网页,用户需要根据下载次数来判断该文件是否是优质资源,其中,新闻的发布时间以及来源就是该新闻网页的关键信息,而下载次数就是该下载网页的关键信息,这些关键信息对于用户来说是非常重要的。本发明提供了两种从网页中提取出关键信息的方法。下面对第一种方法进行说明,如图2所示,该方法包括以下步骤:
在步骤S1021中,获取所述网页的配置文件,该配置文件中包括可以反映该网页特征的关键信息的位置信息。
具体地,互联网站点在形成网页的时候,网页的开发者可以按照一定的规则在网页内形成配置文件,将该网页的关键信息的位置信息记录在该配置文件中,其中,所述位置信息优选为该关键信息在网页内的XPath路径。这些配置文件在用户查看网页的时候是看不到的,而搜索引擎通过一定的方式可以从网页内获取到该配置文件并对其内容进行解析。在本实施例中,所述配置文件为嵌入在所述网页内的XML文件。
在步骤S1022中,根据所述关键信息的位置信息,从所述网页中提取出所述关键信息。
具体地,在获取了关键信息在网页中的XPath路径后,即可根据该XPath路径,从网页中提取出所述关键信息。
对于不具有配置文件的网页,可以采用第二种方法提取关键信息,请参考图3,如图所示,该方法的步骤包括:
步骤S1021’,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板;以及,步骤S1022’,根据所述网页模板,从所述网页中提取出所述关键信息。
由于这种方法是基于网页模板库的,所以在对这种方法进行具体描述之前,首先对网页模板库进行说明,请参考图4,图4为根据本发明一个优选实施例的网页模板库建立的方法流程图,如图所示,该方法包括如下步骤:
步骤S401,确定网页的页面类型。
具体地,由于不同页面类型的网页,其关键信息也是不同的,例如,提供新闻的网页,其关键信息主要是新闻的发布时间以及新闻的来源,而提供文件下载的页面,其关键信息主要是文件被下载的次数,因此,需要首先确定互联网中网页的页面类型。在确定网页的页面类型时,主要的依据是网页的结构和主题这两个特征,这是因为,同一种页面类型的网页通常会具有相似的结构和/或相近的主题,例如,大部分论坛性质的网页,其结构会比较相似,即,必定会有一个首贴,如果有回帖的话,回帖会在首贴后以“楼层”的形式逐一排列,且各回帖在外观上是相似的;而大部分提供商品信息的网页,其主题都会比较相似,即,均会在网页内显示商品的信息,例如价格、出厂日期等。所以,可以将具有相似结构和/或主题的网页划分至同一页面类型下。基于对大量网页的结构和/或主题的分析,可以将网页主要分为以下几种类型:视频页面、图片页面、下载页面、论坛页面、博客页面、新闻页面、小说页面、问答页面、黄页页面以及商情页面,其中,所述大量网页是搜索引擎从互联网上抓取回来的,其数量可以高达百万甚至千万,通常存放在网页库中。
步骤S402,对于各网站下不同页面类型的网页,提取出相应的网页模板。
具体地,对于同一种页面类型的网页来说,尽管这些网页的结构和/或主题是相似的,但是如果这些网页是分别属于不同的站点,那么形成这些网页所使用的网页模板是不同的,也就是说,同一站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息是相同的(在某些情况下,同一站点下同一种页面类型的网页也会采用不同的网页模板,例如新模板和旧模板),而不同站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息必然是不同的。因此,如果希望准确地提取出关键信息,在确定了网页的页面类型后,还需要根据网页所属的站点对网页进一步进行分类,将同一站点下同一种页面类型的网页划分在一起,从而便于在后续的步骤中对网页模板进行提取。
在对同一种页面类型的网页进行划分的时候,常用的一种方法是根据网页的URL地址进行划分,这是因为同一个站点下网页的URL地址往往具有一定的规律性。以问答页面为例说明,例如,“百度知道”网页的URL地址中包括“http://zhidao.baidu.com/question/”,而“SOSO问问”网页的URL地址中则包括“http://wenwen.soso.com/z/”,因此,通过网页的URL地址可以准确地将同一页面类型的网页按照站点进行分类。
接着,对同一站点下同一种页面类型的网页进行网页模板的提取,即提取这些网页中的任何一个网页的网页模板,作为这些网页共同的网页模板,其中,网页模板的提取是本领域的技术人员所公知的技术,在此不再进行赘述。但是,由于在某些情况下,同一站点下同一种页面类型的网页有可能会采用不同的网页模板,例如新模板和旧模板,那么在网页模板提取前,优选地,还需要对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断,从而可以有效地保证最终提取出的网页模板能够覆盖到尽可能多的网页。
对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断的方法如下:获取同一站点下具有相同页面类型的大量网页,对网页中的内容进行分析,提取出在网页中出现频率比较高的词条(下文用高频词表示)及该高频词在网页内的位置信息,例如该高频词的XPath路径或者该高频词在网页中的物理坐标,对于内容相同且位置信息也相同的高频词,则可以认为这些高频词所对应的网页使用的是相同的网页模板,那么提取这些网页中的任何一个网页的网页模板即可。以“百度知道”为例,经过对大量“百度知道”网页内容的分析,可以发现“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”这些词条在“百度知道”网页中出现的频率远远高于其他词条出现的频率,因此,认为上述词条为“百度知道”网页的高频词,然后获取这些高频词在每个网页中的XPath路径,并对所有高频词的XPath路径进行比较,如果比较的结果显示同一高频词在所有网页中的XPath路径均相同,则认为所有的网页均采用相同的网页模板,那么提取这些网页中的任何一个网页的网页模板,即可作为这些网页共同的网页模板;如果比较的结果显示有同一个高频词具有两个或者两个以上XPath路径,则认为这些网页采用了两个或者两个以上网页模板,那么需要分别进行提取。
除了通过利用高频词对是否采用相同的网页模板进行判断之外,在其他实施例中,还可以提取同一站点下具有相同页面类型的大量网页中的一个或者几个特型值,然后通过比较该一个或者几个特型值在这些网页中的位置信息是否相同来进行判断。仍以“百度知道”为例进行说明,“百度知道”网页中,问题解决的具体时间即为一个特型值,是其他页面类型的网页所不具备的,那么,对大量“百度知道”网页中问题解决时间的XPath路径进行抽取比较,如果这些XPath路径相同,则认为这些网页采用的是相同的网页模板,否则可以认为这些网页采用了多个网页模板,其中,提取的特型值的数量越多,判断越为准确。此外,如果是基于高频词来提取网页模板的,则在网页模板中对该高频词进行标注,如果是基于特型值来提取网页模板的,则在网页模板中对该特型值进行标注。
步骤S403,基于所述页面类型对每一种网页模板下的网页进行分析,确定可以反映该网页特征的关键信息在网页内的位置信息。
具体地,对每一种网页模板下的网页进行分析,从其DOM树中提取出这些网页共同的节点信息,即,不发生变化的节点信息。仍以上述“百度知道”为例进行说明,经分析,文本节点“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”即为“百度知道”网页共同的节点信息。其中,每个文本节点都会对应相应的内容,例如,“解决时间”的内容为具体的日期,“浏览次数”的内容为具体的数值。
由于提取出的节点信息是这些网页所共有的,所以在这些节点信息所对应的内容中,必然包括了可以反映该网页特征的关键信息。那么接下来,根据该网页的页面类型,从所述节点信息中获取可以反映该网页特征的关键信息在所述页面中的位置信息。仍以上述“百度知道”为例进行说明,“百度知道”的页面类型为问答页面,对于问答页面,用户往往比较关注问题的具体解决时间、以及有多少答案可以供参考,所以,在众多提取出来的文本节点中,“解决时间”所对应的具体内容以及“回答者”的个数才是真正可以反映“百度知道”网页特征的关键信息,因此,从DOM树中提取出“解决时间”以及“回答者”所对应内容的XPath路径。
上述DOM树的节点信息分析以及关键信息XPath路径的提取,均为本领域技术人员所公知的技术,在此不再赘述。
步骤S404,记录网页模板、关键信息的位置信息、以及网页模板与关键信息的位置信息之间的对应关系,建立网页模板库。
具体地,对于不同的网页模板,在关键信息的位置信息确定后,记录所述网页模板、所述位置信息及其之间的对应关系,形成网页模板库。优选地,需要定期更新网页模板库,从而保证网页模板库中的网页模板可以覆盖到尽可能多的网页。
下面,基于上述网页模板库继续对提取网页关键信息的第二种方法进行说明,如图3所示,首先执行步骤S1021’,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板。
具体地,对于搜索结果中的网页,首先提取出该网页的URL地址,通过该URL地址可以确定该网页所属的站点,并且可以初步确定该网页所可能对应的网页模板。每个网页模板中会标注有高频词,提取该高频词及其位置信息,然后在该网页中对该高频词及其位置信息进行匹配,如果该网页中高频词及其位置信息与某一个网页模板中的完全相同,那么认为二者匹配成功,即可以确认该网页所采用的是哪个网页模板。对于网页中对特型值标注的情况,其处理过程相似,在此不再赘述。
在其他实施例中,还可以根据所述网页的URL地址,从关联文件中获取所述网页URL地址与网页模板之间的对应关系,其中,所述关联文件是预先制定好的,其记录了网页URL地址和网页模板之间的对应关系,例如,凡是包括“http://zhidao.baidu.com/question/”字样的URL地址的网页均是采用“百度知道”的网页模板,那么如果搜索结果中网页的URL地址为“http://zhidao.baidu.com/question/121922729.html”,则认为该网页采用的是网页模板库中“百度知道”的网页模板。
接着,执行步骤S1022’,根据所述网页模板,从所述网页中提取出所述关键信息。
具体地,在网页模板库中,存在与每个网页模板相对应的关键信息的位置信息,所以,在确定了所述网页采用的网页模板后,从网页模板库中可以直接获取到关键信息的位置信息,根据该位置信息,即可从所述网页中提取出可以反映该网页特征的关键信息。
优选地,在形成网页模板库的过程中,当已经将网页模板和关键信息的位置信息进行对应之后,还可以根据所述网页模板和所述位置信息,将该网页模板下所有网页中的关键信息预先提取出来。如果搜索结果中的网页包括在网页库中,则可以直接获得该网页的关键信息,从而更加有效地提高用户的搜索效率。
优选地,对于具有配置文件的网页,除了根据配置文件中的信息提取出所述网页的关键信息外,还可以利用上述提取关键信息的第二种方法来获取其关键信息,并将两种方法所获得的关键信息进行合并,如此一来,可以更加准确地获取到所述网页的关键信息。
继续参考图1,执行步骤S103,将所述关键信息在搜索结果中进行显示。
具体地,在搜索结果中,除了和传统显示方式一样,将所述网页的标题、摘要信息以及URL地址进行显示之外,还要将提取出的关键信息也展示给用户,使得用户可以通过参考该关键信息,对是否需要点击查看该网页做出判断。请参考图5,图5为根据本发明一个优选实施例的在所搜索结果中对所述关键信息进行展示的示意图,如图所示,用户的查询序列为“搜索引擎如何工作”,在搜索结果页中,第一条搜索结果所返回的网页是论坛页面,其中黑色框中的内容即为该网页的关键信息,该关键信息可以反映出“搜索引擎如何工作”这个主题在该网页内受到关注的程度,对于第二条搜索结果亦是如此,第二搜索结果所返回的网页是问答页面,黑色框中的关键信息反映了“搜索引擎如何工作”这个问题的回答情况。这些关键信息有助于用户对搜索结果的选择。本领域的技术人员应该理解,关键信息显示的位置、方式等可以有多种选择,在此对其不做任何的限定。
执行上述步骤后,可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来,并将该关键信息提供给用户,便于用户根据该关键信息准确判断是否需要查看该网页,从而提高了用户的搜索效率,提升了用户的使用体验。
相应地,本发明还提供了一种网页信息提取的设备,请参考图6,图6为根据本发明一个优选实施例的网页信息提取的设备示意图。如图所示,该设备包括匹配搜索装置601、信息提取装置602以及结果展示装置603,下面对上述装置的具体工作过程进行说明。
首先,所述匹配搜索装置601获取用户在搜索引擎(如计算机搜索引擎或者手机搜索引擎)中输入的查询序列后,基于该查询序列在互联网的网页内进行搜索,以获取与所述查询序列相匹配的网页。
接着,所述信息提取装置602从所述网页中提取出可以反映该网页特征的关键信息。
具体地,互联网站点在形成网页的时候,网页的开发者可以按照一定的规则在网页内形成配置文件,将该网页的关键信息的位置信息记录在该配置文件中,其中,所述位置信息优选为该关键信息在网页内的XPath路径。在本实施例中,所述配置文件为嵌入在所述网页内的XML文件。对于具有配置文件的网页,所述信息提取装置602从所述网页中获取并解析其配置文件,提取出关键信息的位置信息,并根据所述关键信息的位置信息,从所述网页中提取出所述关键信息。
最后,如图5所示,所述结果展示装置603将所述网页的标题、摘要信息、URL地址、以及提取出的关键信息展示给用户,使得用户可以通过参考该关键信息,对是否需要点击查看该网页做出判断。本领域的技术人员应该理解,所述结果展示装置603对关键信息显示的位置、方式等可以有多种选择,在此对其不做任何的限定。
请参考图7,图7为根据本发明另一个优选实施例的网页信息提取的设备示意图。如图所示,该设备包括匹配搜索装置601、信息提取装置602、结果展示装置603、模板匹配装置604以及模板库建立装置605,下面对上述装置的具体工作过程进行说明。
首先,所述匹配搜索装置601获取用户在搜索引擎(如计算机搜索引擎或者手机搜索引擎)中输入的查询序列后,基于该查询序列在互联网的网页内进行搜索,以获取与所述查询序列相匹配的网页。
接着,所述模板匹配装置604在网页模板库70中对所述网页进行匹配,获取与所述网页相对应的网页模板,所述信息提取装置602根据所述网页模板,从所述网页中提取出所述关键信息。
在对所述模板匹配装置604和信息提取装置602的工作过程进行具体说明之前,首先对网页模板库70进行说明,其中,所述网页模板库70是由所述模板库建立装置605建立起来的,所述网页模板库70包括网页模板、可以反映该网页模板下网页特征的关键信息的位置信息及其二者之间的对应关系。如图8所示,所述模板库建立装置605包括类型确定单元6051、模板提取单元6052、网页分析单元6053以及信息记录单元6054,其中:
所述类型确定单元6051,用于确定网页的页面类型。
具体地,基于对大量网页的结构和/或主题的分析,所述类型确定单元6051将具有相似结构和/或主题的网页划分至同一页面类型下,其中,所述页面类型包括视频页面、图片页面、下载页面、论坛页面、博客页面、新闻页面、小说页面、问答页面、黄页页面或者商情页面。
所述模板提取单元6052,用于对于各网站下不同页面类型的网页,提取出相应的网页模板。
具体地,对于同一种页面类型的网页来说,尽管这些网页的结构和/或主题是相似的,但是如果这些网页是分别属于不同的站点,那么形成这些网页所使用的网页模板是不同的,也就是说,同一站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息是相同的(在某些情况下,同一站点下同一种页面类型的网页也会采用不同的网页模板,例如新模板和旧模板),而不同站点下同一种页面类型的网页,其关键信息的内容以及关键信息在网页中的位置信息必然是不同的。因此,如果希望准确地提取出关键信息,在所述类型确定单元6051确定了网页的页面类型后,所述模板提取单元6052还需要根据网页所属的站点对网页进一步进行分类,将同一站点下同一种页面类型的网页划分在一起,从而便于在后续的步骤中对网页模板进行提取。
在所述模板提取单元6052对同一种页面类型的网页进行划分的时候,常用的一种方法是根据网页的URL地址进行划分,这是因为同一个站点下网页的URL地址往往具有一定的规律性。以问答页面为例说明,例如,“百度知道”网页的URL地址中包括“http://zhidao.baidu.com/question/”,而“SOSO问问”网页的URL地址中则包括“http://wenwen.soso.com/z/”,因此,通过网页的URL地址,所述模板提取单元6052可以准确地将同一页面类型的网页按照站点进行分类。
接着,所述模板提取单元6052对同一站点下同一种页面类型的网页进行网页模板的提取,即提取这些网页中的任何一个网页的网页模板,作为这些网页共同的网页模板,其中,网页模板的提取是本领域的技术人员所公知的技术,在此不再进行赘述。但是,由于在某些情况下,同一站点下同一种页面类型的网页有可能会采用不同的网页模板,例如新模板和旧模板,那么在网页模板提取前,优选地,所述模板提取单元6052还需要对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断,从而可以有效地保证最终提取出的网页模板能够覆盖到尽可能多的网页。
所述模板提取单元6052对同一站点下同一种页面类型的网页是否采用的是相同的网页模板进行判断的方法如下:所述模板提取单元6052获取同一站点下具有相同页面类型的大量网页,对网页中的内容进行分析,提取出在网页中出现频率比较高的词条(下文用高频词表示)及该高频词在网页内的位置信息,例如该高频词的XPath路径或者该高频词在网页中的物理坐标,对于内容相同且位置信息也相同的高频词,则所述模板提取单元6052认为这些高频词所对应的网页使用的是相同的网页模板,那么提取这些网页中的任何一个网页的网页模板即可。以“百度知道”为例,经过对大量“百度知道”网页内容的分析,可以发现“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”这些词条在“百度知道”网页中出现的频率远远高于其他词条出现的频率,因此,所述模板提取单元6052认为上述词条为“百度知道”网页的高频词,然后所述模板提取单元6052获取这些高频词在每个网页中的XPath路径,并对所有高频词的XPath路径进行比较,如果比较的结果显示同一高频词在所有网页中的XPath路径均相同,则认为所有的网页均采用相同的网页模板,那么提取这些网页中的任何一个网页的网页模板,即可作为这些网页共同的网页模板;如果比较的结果显示有同一个高频词具有两个或者两个以上XPath路径,则认为这些网页采用了两个或者两个以上网页模板,那么需要分别进行提取。
除了通过利用高频词对是否采用相同的网页模板进行判断之外,在其他实施例中,所述模板提取单元6052还可以提取同一站点下具有相同页面类型的大量网页中的一个或者几个特型值,然后通过比较该一个或者几个特型值在这些网页中的位置信息是否相同来进行判断。仍以“百度知道”为例进行说明,“百度知道”网页中,问题解决的具体时间即为一个特型值,是其他页面类型的网页所不具备的,那么,所述模板提取单元6052对大量“百度知道”网页中问题解决时间的XPath路径进行抽取比较,如果这些XPath路径相同,则认为这些网页采用的是相同的网页模板,否则可以认为这些网页采用了多个网页模板,其中,提取的特型值的数量越多,判断越为准确。此外,如果所述模板提取单元6052是基于高频词来提取网页模板的,则在网页模板中对该高频词进行标注,如果所述模板提取单元6052是基于特型值来提取网页模板的,则在网页模板中对该特型值进行标注。
所述网页分析单元6053,用于基于所述页面类型对每一种网页模板下的网页进行分析,确定可以反映该网页特征的关键信息在网页内的位置信息。
具体地,所述网页分析单元6053对每一种网页模板下的网页进行分析,从其DOM树中提取出这些网页共同的节点信息,即,不发生变化的节点信息。仍以上述“百度知道”为例进行说明,经所述网页分析单元6053分析,文本节点“最佳答案”、“悬赏分”、“解决时间”、“提问者”、“浏览次数”、“回答者”以及“其他回答”即为“百度知道”网页共同的节点信息。其中,每个文本节点都会对应相应的内容,例如,“解决时间”的内容为具体的日期,“浏览次数”的内容为具体的数值。
由于所述网页分析单元6053提取出的节点信息是这些网页所共有的,所以在这些节点信息所对应的内容中,必然包括了可以反映该网页特征的关键信息。那么接下来,所述网页分析单元6053根据该网页的页面类型,从所述节点信息中获取可以反映该网页特征的关键信息在所述页面中的位置信息。仍以上述“百度知道”为例进行说明,“百度知道”的页面类型为问答页面,对于问答页面,用户往往比较关注问题的具体解决时间、以及有多少答案可以供参考,所以,在众多提取出来的文本节点中,“解决时间”所对应的具体内容以及“回答者”的个数才是真正可以反映“百度知道”网页特征的关键信息,因此,从DOM树中提取出“解决时间”以及“回答者”所对应内容的XPath路径。
对于不同的网页模板,在关键信息的位置信息确定后,所述信息记录单元6054记录所述网页模板、所述位置信息及其之间的对应关系,形成网页模板库70。优选地,所述模板库建立装置605需要定期更新网页模板库70,从而保证网页模板库70中的网页模板可以覆盖到尽可能多的网页。
下面,基于上述网页模板库70继续对所述模板匹配装置604和信息提取装置602进行说明。
所述模板匹配装置604,在网页模板库70中对所述网页进行匹配,获取与所述网页相对应的网页模板。
具体地,对于搜索结果中的网页,所述模板匹配装置604首先提取出该网页的URL地址,通过该URL地址可以确定该网页所属的站点,并且可以初步确定该网页所可能对应的网页模板。每个网页模板中会标注有高频词,所述模板匹配装置604提取该高频词及其位置信息,然后在该网页中对该高频词及其位置信息进行匹配,如果该网页中高频词及其位置信息与某一个网页模板中的完全相同,那么所述模板匹配装置604认为二者匹配成功,即可以确认该网页所采用的是哪个网页模板。对于网页中对特型值标注的情况,所述模板匹配装置604的处理过程相似,在此不再赘述。
在其他实施例中,所述模板匹配装置604还可以根据所述网页的URL地址,从关联文件中获取所述网页URL地址与网页模板之间的对应关系,其中,所述关联文件是预先制定好的,其记录了网页URL地址和网页模板之间的对应关系,例如,凡是包括“http://zhidao.baidu.com/question/”字样的URL地址的网页均是采用“百度知道”的网页模板,那么如果搜索结果中网页的URL地址为“http://zhidao.baidu.com/question/121922729.html”,则认为该网页采用的是网页模板库70中“百度知道”的网页模板。
接着,所述信息提取装置602根据所述网页模板,从所述网页中提取出所述关键信息。
具体地,在网页模板库70中,存在与每个网页模板相对应的关键信息的位置信息,所以,所述模板匹配装置604在确定了所述网页采用的网页模板后,所述信息提取装置602从网页模板库70中可以直接获取到关键信息的位置信息,根据该位置信息,即可从所述网页中提取出可以反映该网页特征的关键信息。
优选地,所述模板库建立装置605在形成网页模板库70的过程中,当已经将网页模板和关键信息的位置信息进行对应之后,还可以根据所述网页模板和所述位置信息,将该网页模板下所有网页中的关键信息预先提取出来。如果所述匹配搜索装置601所获取的网页包括在网页库中,所述信息提取装置602则可以直接获得该网页的关键信息,从而更加有效地提高用户的搜索效率。
最后,如图5所示,所述结果展示装置603将所述网页的标题、摘要信息、URL地址、以及提取出的关键信息展示给用户,使得用户可以通过参考该关键信息,对是否需要点击查看该网页做出判断。本领域的技术人员应该理解,所述结果展示装置603对关键信息显示的位置、方式等可以有多种选择,在此对其不做任何的限定。
实施上述具体实施方式,有效地解决了现有技术中出现的问题,可以快速、有效地将网页中可以反映该网页特征的关键信息提取出来,并将该关键信息提供给用户,便于用户根据该关键信息准确判断是否需要查看该网页,从而提高了用户的搜索效率,提升了用户的使用体验。
本发明提供的网页信息提取的方法可以使用可编程逻辑器件结合来实现,也可以实施为计算机程序软件,例如根据本发明的实施例可以是一种计算机程序产品,运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述网页信息提取的方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如热拔插技术存储设)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如盒带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
以上所揭露的仅为本发明的一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (27)

1.一种网页信息提取的方法,该方法包括以下步骤:
根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页;
确定网页的页面类型,并根据页面类型确定反映该网页特征的关键信息,基于所述网页的配置文件或者与所述网页匹配的网页模板,通过获取可以反映所述网页特征的关键信息的位置信息,从所述网页中提取出可以反映该网页特征的关键信息;
将所述关键信息在搜索结果中进行显示。
2.根据权利要求1所述的方法,其中,从所述网页中提取出可以反映该网页特征的关键信息的步骤包括:
获取所述网页的配置文件,该配置文件中包括可以反映该网页特征的关键信息的位置信息;
根据所述关键信息的位置信息,从所述网页中提取出所述关键信息。
3.根据权利要求2所述的方法,其中,所述配置文件为嵌入在所述网页内的XML文件。
4.根据权利要求1所述的方法,其中,从所述网页中提取出可以反映该网页特征的关键信息的步骤包括:
在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板;
根据所述网页模板,从所述网页中提取出所述关键信息。
5.根据权利要求4所述的方法,还包括:
确定网页的页面类型;
对于各网站下不同页面类型的网页,提取出相应的网页模板;
基于所述页面类型对每一种网页模板下的网页进行分析,确定可以反映该网页特征的关键信息在网页内的位置信息;
记录网页模板、关键信息的位置信息、以及网页模板与关键信息的位置信息之间的对应关系,建立/更新网页模板库。
6.根据权利要求5所述的方法,其中,所述确定网页的页面类型的步骤包括:
对大量网页的结构和/或主题进行分析,将具有相同结构和/或主题的网页划分为属于同一页面类型的网页。
7.根据权利要求5所述的方法,其中,对于各网站下不同页面类型的网页,提取出相应的网页模板的步骤包括:
对同一站点下具有相同页面类型的大量网页进行分析,提取出高频词及该高频词在网页内的位置信息;
基于所述高频词及该高频词在网页内的位置信息均相同的网页,形成所述网页的网页模板。
8.根据权利要求5所述的方法,其中,对于各网站下不同页面类型的网页,提取出相应的网页模板的步骤包括:
对同一站点下具有相同页面类型的大量网页进行分析,提取出特型值在网页内的位置信息;
基于所述特型值在网页内的信息位置均相同的网页,形成所述网页的网页模板。
9.根据权利要求5所述的方法,其中,基于所述页面类型对每一种网页模板下的网页进行分析,确定可以反映该网页特征的关键信息在网页内的位置信息的步骤包括:
对每一种网页模板下的网页进行分析,提取该网页共同的节点信息;
根据该网页的页面类型,从所述节点信息中获取可以反映该网页特征的关键信息及该关键信息在所述页面中的位置信息。
10.根据权利要求5至9中任一项所述的方法,其中:
所述页面类型包括视频页面、图片页面、下载页面、论坛页面、博客页面、新闻页面、小说页面、问答页面、黄页页面或商情页面中的一种。
11.根据权利要求4至9中任一项所述的方法,其中,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板的步骤包括:
根据所述网页的URL地址,从预置的关联文件中获取所述网页URL与网页模板之间的对应关系;
根据所述对应关系,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板。
12.根据权利要求7所述的方法,其中,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板的步骤包括:
在所述网页内,对网页模板中的高频词及该高频词的位置信息进行匹配;
对于匹配成功的高频词及该高频词的位置信息,获取与其相对应的网页模板。
13.根据权利要求8所述的方法,其中,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板的步骤包括:
在所述网页内,对网页模板中的特型值的位置信息进行匹配;
对于匹配成功的特型值的位置信息,获取与其相对应的网页模板。
14.一种网页信息提取的设备,该设备包括:
匹配搜索装置,用于根据用户搜索时输入的查询序列进行搜索,获取与所述查询序列相匹配的网页;
信息提取装置,用于确定网页的页面类型,并根据页面类型确定反映该网页特征的关键信息,基于所述网页的配置文件或者与所述网页匹配的网页模板,获取可以反映所述网页特征的关键信息的位置信息,从所述网页中提取出可以反映该网页特征的关键信息;
结果展示装置,用于将所述关键信息在搜索结果中进行显示。
15.根据权利要求14所述的设备,其中:
所述信息提取装置从所述网页的配置文件中获取可以反映该网页特征的关键信息的位置信息,并根据所述关键信息的位置信息,从所述网页中提取出所述关键信息。
16.根据权利要求15所述的设备,其中,所述配置文件为嵌入在所述网页内的XML文件。
17.根据权利要求14所述的设备,还包括:
模板匹配装置,用于在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板,所述信息提取装置根据所述网页模板,从所述网页中提取出所述关键信息。
18.根据权利要求17所述的设备,还包括:
模板库建立装置,用于建立/更新网页模板库,其中,所述网页模板库包括网页模板、可以反映该网页模板下网页特征的关键信息的位置信息及其二者之间的对应关系。
19.根据权利要求18所述的设备,其中,所述模板库建立装置包括:
类型确定单元,用于确定网页的页面类型;
模板提取单元,用于对于各网站下不同页面类型的网页,提取出相应的网页模板;
网页分析单元,用于基于所述页面类型对每一种网页模板下的网页进行分析,确定可以反映该网页特征的关键信息及该关键信息在网页内的位置信息;
信息记录单元,用于记录网页模板、关键信息的位置信息、以及网页模板与关键信息的位置信息之间的对应关系。
20.根据权利要求19所述的设备,其中:
所述类型确定单元,对大量网页的结构和/或主题进行分析,将具有相同结构和/或主题的网页划分为属于同一页面类型的网页。
21.根据权利要求19所述的设备,其中:
所述模板提取单元,用于对同一站点下具有相同页面类型的大量网页进行分析,提取出高频词及该高频词在网页内的位置信息,并基于所述高频词及该高频词在网页内的位置信息均相同的网页,形成所述网页的网页模板。
22.根据权利要求19所述的设备,其中:
所述模板提取单元,用于对同一站点下具有相同页面类型的大量网页进行分析,提取出特型值在网页内的位置信息,并基于所述特型值在网页内的信息位置均相同的网页,形成所述网页的网页模板。
23.根据权利要求19所述的设备,其中:
所述网页分析单元,用于对每一种网页模板下的网页进行分析,提取该网页共同的节点信息,并根据该网页的页面类型,从所述节点信息中获取可以反映该网页特征的关键信息及该关键信息在所述页面中的位置信息。
24.根据权利要求19至23中的任何一项所述的设备,其中:
所述页面类型包括视频页面、图片页面、下载页面、论坛页面、博客页面、新闻页面、小说页面、问答页面、黄页页面或商情页面中的一种。
25.根据权利要求17至23中的任何一项所述的设备,其中:
所述模板匹配装置根据所述网页的URL地址,从预置的关联文件中获取所述网页URL与网页模板之间的对应关系,并根据所述对应关系,在网页模板库中对所述网页进行匹配,获取与所述网页相对应的网页模板。
26.根据权利要求21所述的设备,其中:
所述模板匹配装置,在所述网页内对网页模板中的高频词及该高频词的位置信息进行匹配,并对于匹配成功的高频词及该高频词的位置信息,获取与其相对应的网页模板。
27.根据权利要求22所述的设备,其中:
所述模板匹配装置,在所述网页内对网页模板中的特型值的位置信息进行匹配,并对于匹配成功的特型值的位置信息,获取与其相对应的网页模板。
CN201110460591.7A 2011-12-31 2011-12-31 一种网页信息提取的方法和设备 Active CN102591971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110460591.7A CN102591971B (zh) 2011-12-31 2011-12-31 一种网页信息提取的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110460591.7A CN102591971B (zh) 2011-12-31 2011-12-31 一种网页信息提取的方法和设备

Publications (2)

Publication Number Publication Date
CN102591971A CN102591971A (zh) 2012-07-18
CN102591971B true CN102591971B (zh) 2015-03-18

Family

ID=46480609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110460591.7A Active CN102591971B (zh) 2011-12-31 2011-12-31 一种网页信息提取的方法和设备

Country Status (1)

Country Link
CN (1) CN102591971B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577466B (zh) * 2012-08-03 2017-02-15 腾讯科技(深圳)有限公司 一种在浏览器中显示网页内容的方法和装置
CN102937973B (zh) * 2012-10-15 2016-01-13 北京百度网讯科技有限公司 一种生成用于信息呈现的呈现配置信息的方法和设备
CN103020246B (zh) * 2012-12-18 2018-01-05 北京奇虎科技有限公司 用于浏览器的网页数据展现方法及装置
CN102982181B (zh) * 2012-12-18 2016-09-28 北京奇虎科技有限公司 一种在浏览器侧展现网页数据的方法及装置
CN103902579B (zh) * 2012-12-27 2018-02-23 腾讯科技(深圳)有限公司 获取信息的方法和装置
CN103294781B (zh) * 2013-05-14 2016-12-28 百度在线网络技术(北京)有限公司 一种用于处理页面数据的方法与设备
CN103309954A (zh) * 2013-05-27 2013-09-18 复旦大学 一种基于html网页的数据抽取系统
CN104239332A (zh) * 2013-06-18 2014-12-24 腾讯科技(深圳)有限公司 网页内容处理方法、装置及浏览器客户端
CN103699669B (zh) * 2013-12-30 2017-03-15 北京奇虎科技有限公司 一种浏览器中进行消息推送的方法和一种浏览器终端
CN103914545B (zh) * 2014-04-08 2018-09-07 百度在线网络技术(北京)有限公司 搜索展现方法及装置
CN104113588B (zh) * 2014-06-26 2015-12-02 小米科技有限责任公司 一种互联网黄页的更新方法及装置
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN105224571A (zh) * 2014-06-30 2016-01-06 北京金山安全软件有限公司 终端上传数据的处理及数据上传处理方法、装置
CN105630796A (zh) * 2014-10-29 2016-06-01 韩壮 一种搜索同类型网站的装置和方法
CN104572874B (zh) * 2014-12-19 2019-03-05 北京锐安科技有限公司 一种网页信息的抽取方法及装置
CN105786854A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种搜索结果中视频播放网页摘要的生成方法与系统
CN105786848A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种基于软件下载需求的搜索智能摘要的显示方法和系统
CN104699841A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 提供搜索结果的列表摘要信息的方法和装置
CN104699840B (zh) * 2015-03-31 2016-10-19 北京奇虎科技有限公司 用于提供移动终端搜索结果的方法及装置
CN104866592B (zh) * 2015-05-29 2018-09-07 百度在线网络技术(北京)有限公司 搜索引擎中摘要的展现方法和装置
CN106021582B (zh) * 2016-06-02 2020-06-05 腾讯科技(深圳)有限公司 位置信息过滤的方法、提取有效网页信息的方法及装置
CN107526744B (zh) * 2016-06-21 2022-11-18 北京搜狗科技发展有限公司 一种基于搜索的信息展示方法和装置
CN108171600A (zh) * 2018-01-19 2018-06-15 深圳前海大数金融服务有限公司 征信报告解析方法、服务器及存储介质
CN108509589B (zh) * 2018-03-29 2022-02-18 阿里巴巴(中国)有限公司 信息流展示方法及系统、计算机可读存储介质
CN109299413A (zh) * 2018-09-13 2019-02-01 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN109165332A (zh) * 2018-09-13 2019-01-08 郑州云海信息技术有限公司 一种网页信息获取方法、装置以及设备
CN109460494A (zh) * 2018-09-18 2019-03-12 广州神马移动信息科技有限公司 一种问答页面的展示方法、装置和设备/终端/服务器
CN111061955B (zh) * 2019-12-20 2023-11-07 深圳市朱墨科技有限公司 网页正文的提取方法、装置、服务器和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329675A (zh) * 2007-06-19 2008-12-24 百度在线网络技术(北京)有限公司 网页广告匹配方法及系统
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN102298615A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种计算机实现的用于展示搜索结果的方法与设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329675A (zh) * 2007-06-19 2008-12-24 百度在线网络技术(北京)有限公司 网页广告匹配方法及系统
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN102298615A (zh) * 2011-07-29 2011-12-28 百度在线网络技术(北京)有限公司 一种计算机实现的用于展示搜索结果的方法与设备

Also Published As

Publication number Publication date
CN102591971A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
CN102591971B (zh) 一种网页信息提取的方法和设备
US11372935B2 (en) Automatically generating a website specific to an industry
CN1934569B (zh) 集成有用户注释的搜索系统和方法
KR101953303B1 (ko) 브라우징 액티비티에 기초하여 정합 애플리케이션을 식별하는 기법
US8707167B2 (en) High precision data extraction
US9946793B2 (en) Method for providing electronic book and cloud server
US20190163714A1 (en) Search result aggregation method and apparatus based on artificial intelligence and search engine
US9864768B2 (en) Surfacing actions from social data
CN102930057A (zh) 搜索实现方法和装置
CN102073675B (zh) 信息处理装置、信息处理方法、程序和信息处理系统
CN102930058A (zh) 一种在浏览器的地址栏中实现搜索的方法和装置
US20170109442A1 (en) Customizing a website string content specific to an industry
CN104572837A (zh) 在网页上提供认证信息的方法及装置
US20110270691A1 (en) Method and system for providing url possible new advertising
US20130262427A1 (en) Context-sensitive deeplinks
US20100082594A1 (en) Building a topic based webpage based on algorithmic and community interactions
CN102402553B (zh) 一种用于对推广账户的运营质量进行分析的方法与设备
CN1936894A (zh) 在地址搜索栏依次输入搜索服务字符串和搜索关键词
JP2005275488A (ja) 入力支援方法およびプログラム
WO2001027712A2 (en) A method and system for automatically structuring content from universal marked-up documents
KR100863121B1 (ko) 온톨로지검색시스템
CN105095404A (zh) 网页信息的处理方法、网页信息的推荐方法及装置
CN104536992A (zh) 关键词的拓展方法和装置
Geel et al. Sift: an end-user tool for gathering web content on the go
CN102934103B (zh) 使用语音向导信息依次移动网站的系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant