CN101192234A - 一种基于网页抽取的搜索系统及搜索方法 - Google Patents

一种基于网页抽取的搜索系统及搜索方法 Download PDF

Info

Publication number
CN101192234A
CN101192234A CNA2007100747433A CN200710074743A CN101192234A CN 101192234 A CN101192234 A CN 101192234A CN A2007100747433 A CNA2007100747433 A CN A2007100747433A CN 200710074743 A CN200710074743 A CN 200710074743A CN 101192234 A CN101192234 A CN 101192234A
Authority
CN
China
Prior art keywords
template
web page
webpage
feature
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100747433A
Other languages
English (en)
Inventor
杜建强
邓大付
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNA2007100747433A priority Critical patent/CN101192234A/zh
Publication of CN101192234A publication Critical patent/CN101192234A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于网页抽取的搜索系统,包括用于下载网页的网页下载单元以及存储搜索结果的结果存储单元,还包括:模板存储单元,用于存储一个或多个模板,所述模板用于记录预设的网页特征;网页抽取单元,用于将所述网页下载单元下载的网页中与所述模板匹配的内容作为搜索结果。本发明还公开了一种对应的基于网页抽取的搜索方法。本发明通过将下载的网页与预设的网页特征进行匹配,从而获得更加准确的搜索结果。

Description

一种基于网页抽取的搜索系统及搜索方法
技术领域
本发明涉及信息搜索领域,更具体地说,涉及一种基于网页抽取的搜索系统及搜索方法。
背景技术
随着搜索引擎技术的发展,搜索结果的准确率已成为普遍关注的问题。目前,绝大多数搜索引擎都能呈现大量的搜索结果,但往往只有相关性好、结果准确的记录才被关注。因此,具有针对性强、信息准确、更新及时等特点的专项搜索应用较广。
在整个搜索引擎中,网页的下载和分析是搜索结果的数据来源。因此,网页抽取算法是其关键技术之一,该算法的复杂度、可操作性、容错性和准确度都是影响搜索结果的数量和质量的重要因素,甚至会成为整个搜索引擎的瓶颈。
专利申请号为02111893.0、名称为《基于信息抽取的搜索引擎》的中国公开了一种利用机器学习的方法:对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。
然而,上述搜索引擎由于使用了机器学习方法,由程序生成页面的抽取规则,因此这些规则容错性比较差:一方面,很多类似结构的页面无法处理;另一方面,会降低抽取的准确率。此外,由于机器学习需要大量的测试集来对算法进行训练和学习,其间不断地调整和适应规则需要花费大量的人力和时间。
发明内容
本发明要解决的技术问题在于,针对上述搜索引擎抽取准确率低、可操作性差的问题,提供一种基于网页抽取的搜索系统及搜索方法。
本发明解决上述技术问题的技术方案是,提供一种基于网页抽取的搜索系统,包括用于下载网页的网页下载单元以及用于存储搜索结果的结果存储单元,还包括:
模板存储单元,用于存储一个或多个模板,所述模板用于记录预设的网页特征;
网页抽取单元,用于将所述网页下载单元下载的网页中与所述模板匹配的内容作为搜索结果。
在本发明所述的一种基于网页抽取的搜索系统中,所述模板存储单元中的每一模板对应一组URL特征项,所述网页抽取单元进一步包括模板匹配子单元,用于通过所述网页的URL匹配模板的URL特征项,并丢弃与所有模板都不匹配的网页。
在本发明所述的一种基于网页抽取的搜索系统中,所述模板存储单元中的每一模板包括一个或多个块特征,所述块特征包括HTML标签的顺序和/或标签的嵌套,所述网页抽取单元进一步包括块匹配子单元,用于根据所述网页中的HTML标签匹配所述模板匹配子单元确定的模板中的块特征,并丢弃网页中与所述模板中所有块特征都不匹配的内容。
在本发明所述的一种基于网页抽取的搜索系统中,所述模板存储单元中的每一模板的块特征中包括一个或多个结点特征,所述结点特征包括数据类型、过滤规则和/或抽取规则,所述网页抽取单元进一步包括结点匹配子单元,用于根据网页中的数据类型和内容匹配所述块匹配子单元确定的块中的结点特征,并将与所述结点特征匹配的内容作为搜索结果。
在本发明所述的一种基于网页抽取的搜索系统中,还包括模板设置单元,用于将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。
本发明还提供一种基于网页抽取的搜索方法,包括以下步骤:
(a)从互联网获取网页;
(b)将步骤(a)中获取的网页中与预设的模板匹配的内容作为搜索结果,所述模板用于记录预设的网页特征;
(c)存储步骤(b)获得的搜索结果。
在本发明所述的一种基于网页抽取的搜索方法中,每一所述模板对应一个URL特征项,所述步骤(b)进一步包括:
(b1)将所述网页的URL匹配所述模板的URL特征项,并丢弃与所有模板都不匹配的网页。
在本发明所述的一种基于网页抽取的搜索方法中,每一所述模板包括一个或多个块特征,所述块特征包括HTML标签的顺序和/或标签的嵌套,所述步骤(b)进一步包括:
(b2)根据所述网页中的HTML标签匹配所述步骤(b1)确定的模板中的块特征,并丢弃网页中与所述模板中所有块特征都不匹配的内容。
在本发明所述的一种基于网页抽取的搜索方法中,每一所述模板的块特征中包括一个或多个结点特征,所述结点特征包括数据类型、过滤规则和/或抽取规则,所述步骤(b)进一步包括:
(b3)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征,并将与所述结点特征匹配的内容作为搜索结果。
在本发明所述的一种基于网页抽取的搜索方法中,所述模板中预设的网页特征包括URL特征、块特征或结点特征,所述步骤(b)进一步包括:
(b1’)将网页的URL匹配模板的URL特征项,若存在对应的URL特征项的模板,则将包含匹配URL特征的模板作为当前网页的模板并执行步骤(b2’),否则执行步骤(b5’);
(b2’)根据网页中的HTML标签匹配步骤(b1’)确定的模板中的块特征,若网页中存在匹配块特征的内容,则执行步骤(b3’),否则执行步骤(b5’);
(b3’)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征,若网页中存在与结点特征匹配的内容,则执行步骤(b4’),否则执行步骤(b5’);
(b4’)将与结点特征匹配的内容作为搜索结果;
(b5’)丢弃当前网页。
在本发明所述的一种基于网页抽取的搜索方法中,还包括将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。
本发明一种基于网页抽取的搜索系统及搜索方法,通过将下载的网页与预设的网页特征进行匹配,从而获得更加准确的搜索结果。此外,由于本发明对网页中的内容依次使用块匹配、节点匹配,因此对于每一网页只需进行一次遍历,减少了复杂度,同时也加快了搜索的速度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明一种基于网页抽取的搜索系统实施例的结构示意图;
图2是图1中网页抽取单元的结构示意图
图3是本发明一种基于网页抽取的搜索方法第一实施例的流程图;
图4是本发明一种基于网页抽取的搜索方法第二实施例的流程图。
具体实施方式
本发明通过预设的模板,能够准确地抽取出目标内容并排除掉无关信息,提高了信息抽取的准确率和容错性,从而提高了搜索结果的准确性。HTML页面不同于普通的文本文件,其包含有明显的层次信息,这些层次信息可用树的结构来进行描述,即DOM(Document Object Model,文档对象模型)。由于DOM具有统一的规范和编程接口,因此本实施例对HTML建立DOM树,利用DOM接口可便捷地访问树中的任何结点信息。
如图1所示,是本发明一种基于网页抽取的搜索系统实施例的结构示意图。在本实施例中,该搜索系统包括网页下载单元11、网页抽取单元12、模板存储单元13以及结果存储单元14。其中网页下载单元11可以是一个或多个。
网页下载单元11连接到互联网10,用于从互联网下载网页。该网页下载单元11与现有的网络爬虫类似,可接收用户输入的关键字并从互联网获得与该关键字匹配的网页。
模板存储单元13用于存储一个或多个模板,该模板用于记录预设的网页特征。在本实施例中,模板中预设的网页特征可以是URL特征、块特征或结点特征中的一个或多个。
由于专项搜索中的网页具有类似的URL和结构特征,因此可以通过URL识别对网页进行分类。在本实施例中,每一模板对应一个URL特征。该URL特征是一个与URL具有类似结构的字符串,且该字符串中可以包括通配符?和/或*,以表示多个URL不同、但具有相同网页结构的网页。
通常网页中包括很多内容,例如:标题、菜单、正文、广告等,而专项搜索抽取的内容往往是正文中的一部分,这部分内容可能使用不同的HTML标签(tag)描述,如table、img、a、div等。块(block)是指网页正文中的部分内容,这些内容虽然同属于网页正文页,但可能使用不同的标签进行描述。在本实施例中,块特征是指网页中特定顺序的标签组和/或按特定顺序嵌套的多个标签。每一模板中包括一个或多个块特征。
结点是指位于网页同一块中的具体内容,位于DOM树的结点位置。在本实施例中,结点特征包括位置信息、数据类型、过滤规则以及抽取规则等。其中位置信息用于描述抽取的结点在块中的位置;数据类型用于描述抽取内容的类型,例如音乐搜索中的歌曲名或歌手名等;过滤规则用于算法容错,以排除不符合过滤规则的内容,通常过滤规则是一组限制最终抽取内容的字符串,例如在音乐搜索中,通常制定“.wma”、“.mp3”这样的过滤规则,如果在块中没有上述字符串,则直接丢弃该结点;抽取规则是指提取经过过滤后内容中的无用信息,例如对于“歌星:张学友”的结点,抽取规则为“歌星:*”,表示只抽取“歌星:”字符串右边的内容。在本实施例中,同一块中可包含多个结点特征。
网页抽取单元12用于将网页下载单元11下载的网页中与存储单元13中的模板匹配的内容作为搜索结果。例如在音乐搜索中,某歌手某专辑网页正文包含有以下内容:歌手名、歌手介绍(包括生日、喜好、个性介绍)、专辑名、专辑介绍、专辑相关信息、歌曲信息等,而对应模板中预设的抽取内容只包括歌手名、专辑名、歌曲信息三部分,则网页抽取单元12将网页匹配模板后只抽取歌手名、专辑名、歌曲信息作为搜索结果。
结果存储单元14用于存储搜索结果。通常搜索结果是结构化列表,仅包含搜索系统使用者关心的内容。
如图2所示,图1中的网页抽取单元12包括模板匹配子单元121、块匹配子单元122以及结点匹配子单元123。
模板匹配子单元121用于通过网页的URL匹配模板的URL特征项,从而为网页选择一个模板,并丢弃与所有模板都不匹配的网页。
块匹配子单元122用于根据所述网页中的HTML标签匹配模板匹配子单元121确定的模板中的块特征,并丢弃网页中与所述模板中所有块特征都不匹配的内容。
结点匹配子单元123用于根据网页中的数据类型和/或内容匹配块匹配子单元122确定的块中的结点特征,并将与结点特征匹配的内容作为搜索结果。
当然,在具体应用中,可以设置不同的模板内容,而网页抽取单元12也设置相应的匹配子单元进行网页内容的抽取。
此外,在上述搜索系统中,还可包括一个模板设置单元。该模板设置单元提供有图形用户界面,可通过鼠标在网页中选择的方式生成模板。该模板设置单元将被选择网页的URL或者经过编辑的URL作为模板的URL特征,并提取网页中被选择部分内容的标签作为块特征及结点特征,从而生成模板。该模板设置单元还可对已存模板进行修改及测试。
如图3所示,是本发明一种基于网页抽取的搜索方法第一实施例的流程图,该方法包括以下步骤:
步骤S31:从互联网获取网页。
步骤S32:将步骤S31中获取的网页中与预设的模板匹配的内容作为搜索结果,上述模板用于记录预设的网页特征。在本实施例中,模板中预设的网页特征可以是URL特征、块特征或结点特征中的一个或多个。每一模板通过URL特征项相区别。
在该步骤中,依次对步骤S31中下载的每一网页进行信息抽取,该信息抽取的过程即为网页内容与模板匹配的过程,网页中与对应模板及模板中特征匹配的内容即为搜索结果。例如在音乐搜索中,某歌手某专辑网页正文包含有以下内容:歌手名、歌手介绍(包括生日、喜好、个性介绍)、专辑名、专辑介绍、专辑相关信息、歌曲信息等,而对应模板中预设的抽取内容只包括歌手名、专辑名、歌曲信息三部分,则将网页匹配模板后只抽取歌手名、专辑名、歌曲信息作为搜索结果。
步骤S33:存储步骤S32获得的搜索结果。通常搜索结果是结构化列表,仅包含搜索系统使用者关心的内容。
如图4所示,是本发明一种基于网页抽取的搜索方法第二实施例的流程图,该方法包括以下步骤:
步骤S41:从互联网获取网页。该步骤可通过使用网络爬虫或类似工具实现。
步骤S42:将网页的URL匹配模板的URL特征项,若存在对应的URL特征项的模板,则将包含匹配URL特征项的模板作为当前网页的模板并执行步骤S43,否则执行步骤S46。
步骤S43:根据网页中的HTML标签匹配步骤S42确定的模板中的块特征,若网页中存在匹配块特征的内容,则执行步骤S44,否则执行步骤S46。
步骤S44:根据网页中的数据类型和/或内容匹配所述步骤S43确定的块中的结点特征,若网页中存在与结点特征匹配的内容,则执行步骤S45,否则执行步骤S46。
步骤S45:将与结点特征匹配的内容作为搜索结果,并存储上述搜索结果。
步骤S46:丢弃当前网页。
在上述方法中,还可包括创建模板的步骤:将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。
上述搜索系统及方法不仅可以应用于搜索引擎中,也可应用于其它搜索网页信息的系统或装置中。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (11)

1.一种基于网页抽取的搜索系统,包括用于下载网页的网页下载单元以及用于存储搜索结果的结果存储单元,其特征在于,还包括:
模板存储单元,用于存储一个或多个模板,所述模板用于记录预设的网页特征;
网页抽取单元,用于将所述网页下载单元下载的网页中与所述模板匹配的内容作为搜索结果。
2.根据权利要求1所述的一种基于网页抽取的搜索系统,其特征在于,所述模板存储单元中的每一模板对应一组URL特征项,所述网页抽取单元进一步包括模板匹配子单元,用于通过所述网页的URL匹配模板的URL特征项,并丢弃与所有模板都不匹配的网页。
3.根据权利要求2所述的一种基于网页抽取的搜索系统,其特征在于,所述模板存储单元中的每一模板包括一个或多个块特征,所述块特征包括HTML标签的顺序和/或标签的嵌套,所述网页抽取单元进一步包括块匹配子单元,用于根据所述网页中的HTML标签匹配所述模板匹配子单元确定的模板中的块特征,并丢弃网页中与所述模板中所有块特征都不匹配的内容。
4.根据权利要求3所述的一种基于网页抽取的搜索系统,其特征在于,所述模板存储单元中的每一模板的块特征中包括一个或多个结点特征,所述结点特征包括数据类型、过滤规则和/或抽取规则,所述网页抽取单元进一步包括结点匹配子单元,用于根据网页中的数据类型和内容匹配所述块匹配子单元确定的块中的结点特征,并将与所述结点特征匹配的内容作为搜索结果。
5.根据权利要求1-4中任一项所述的一种基于网页抽取的搜索系统,其特征在于,还包括模板设置单元,用于将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。
6.一种基于网页抽取的搜索方法,其特征在于,包括以下步骤:
(a)从互联网获取网页;
(b)将步骤(a)中获取的网页中与预设的模板匹配的内容作为搜索结果,所述模板用于记录预设的网页特征;
(c)存储步骤(b)获得的搜索结果。
7.根据权利要求6所述的一种基于网页抽取的搜索方法,其特征在于,每一所述模板对应一个URL特征项,所述步骤(b)进一步包括:
(b1)将所述网页的URL匹配所述模板的URL特征项,并丢弃与所有模板都不匹配的网页。
8.根据权利要求7所述的一种基于网页抽取的搜索方法,其特征在于,每一所述模板包括一个或多个块特征,所述块特征包括HTML标签的顺序和/或标签的嵌套,所述步骤(b)进一步包括:
(b2)根据所述网页中的HTML标签匹配所述步骤(b1)确定的模板中的块特征,并丢弃网页中与所述模板中所有块特征都不匹配的内容。
9.根据权利要求8所述的一种基于网页抽取的搜索方法,其特征在于,每一所述模板的块特征中包括一个或多个结点特征,所述结点特征包括数据类型、过滤规则和/或抽取规则,所述步骤(b)进一步包括:
(b3)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征,并将与所述结点特征匹配的内容作为搜索结果。
10.根据权利要求6所述的一种基于网页抽取的搜索方法,其特征在于,所述模板中预设的网页特征包括URL特征、块特征或结点特征,所述步骤(b)进一步包括:
(b1’)将网页的URL匹配模板的URL特征项,若存在对应的URL特征项的模板,则将包含匹配URL特征的模板作为当前网页的模板并执行步骤(b2’),否则执行步骤(b5’);
(b2’)根据网页中的HTML标签匹配步骤(b1’)确定的模板中的块特征,若网页中存在匹配块特征的内容,则执行步骤(b3’),否则执行步骤(b5’);
(b3’)根据网页中的数据类型和/或内容匹配所述步骤(b2)确定的块中的结点特征,若网页中存在与结点特征匹配的内容,则执行步骤(b4’),否则执行步骤(b5’);
(b4’)将与结点特征匹配的内容作为搜索结果;
(b5’)丢弃当前网页。
11.根据权利要求6-10中任一项所述的一种基于网页抽取的搜索方法,其特征在于,还包括将被选择网页的URL或者经过编辑的URL作为模板的URL特征、将网页中被选择部分内容的标签作为块特征及结点特征生成模板。
CNA2007100747433A 2007-06-07 2007-06-07 一种基于网页抽取的搜索系统及搜索方法 Pending CN101192234A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100747433A CN101192234A (zh) 2007-06-07 2007-06-07 一种基于网页抽取的搜索系统及搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100747433A CN101192234A (zh) 2007-06-07 2007-06-07 一种基于网页抽取的搜索系统及搜索方法

Publications (1)

Publication Number Publication Date
CN101192234A true CN101192234A (zh) 2008-06-04

Family

ID=39487230

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100747433A Pending CN101192234A (zh) 2007-06-07 2007-06-07 一种基于网页抽取的搜索系统及搜索方法

Country Status (1)

Country Link
CN (1) CN101192234A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859321A (zh) * 2010-05-20 2010-10-13 复旦大学 一种基于html流处理的数据采集方法和系统
CN101916285A (zh) * 2010-08-20 2010-12-15 北京新岸线网络技术有限公司 一种互联网网页内容解析方法及装置
CN101950312A (zh) * 2010-08-18 2011-01-19 赵清政 一种互联网网页内容解析方法
CN102163203A (zh) * 2010-02-24 2011-08-24 富士通株式会社 网页下载的方法和装置
CN101661468B (zh) * 2008-08-29 2011-08-31 中国科学院计算技术研究所 一种从论坛帖子列表页面中抽取帖子元数据的方法
CN101908047B (zh) * 2009-06-08 2012-05-30 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
WO2012071993A1 (zh) * 2010-12-03 2012-06-07 腾讯科技(深圳)有限公司 一种环球信息网www页面处理方法和装置
CN102637173A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 网络百科内容形成方法、网络服务器和客户端
CN102682082A (zh) * 2012-04-07 2012-09-19 山东师范大学 基于内容结构特征的网络Flash搜索系统及搜索方法
CN101872347B (zh) * 2009-04-22 2012-09-26 富士通株式会社 判断网页类型的方法和装置
CN103020246A (zh) * 2012-12-18 2013-04-03 北京奇虎科技有限公司 用于浏览器的网页数据展现方法及装置
WO2013143363A1 (en) * 2012-03-29 2013-10-03 Tencent Technology (Shenzhen) Company Limited A method and apparatus for data storage and downloading
CN103559257A (zh) * 2013-11-01 2014-02-05 深圳市宜搜科技发展有限公司 一种互联网无价值网页的挖掘方法
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置
CN103678510A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 对网页提供可视化标注的方法及装置
CN101944094B (zh) * 2009-07-06 2014-06-18 富士通株式会社 网页信息提取方法和装置
US8826122B2 (en) 2010-12-03 2014-09-02 Tencent Technology (Shenzhen) Company Limited Method, system and device for displaying a web page
CN104268269A (zh) * 2014-10-13 2015-01-07 宁波公众信息产业有限公司 一种数据库操作方法
US8981935B2 (en) 2008-12-10 2015-03-17 Siemens Aktiengesellschaft Method and system for supplying target information
CN104572874A (zh) * 2014-12-19 2015-04-29 北京锐安科技有限公司 一种网页信息的抽取方法及装置
WO2015062514A1 (en) * 2013-10-31 2015-05-07 Tencent Technology (Shenzhen) Company Limited Web content extracting method, device, and system
CN105786972A (zh) * 2010-08-20 2016-07-20 北京新岸线移动多媒体技术有限公司 一种网页模板生成方法及装置
CN106033468A (zh) * 2015-03-20 2016-10-19 腾讯科技(深圳)有限公司 网页内容抽取方法、装置及系统
CN103761312B (zh) * 2014-01-24 2017-02-08 福州大学 一种多记录网页的信息抽取系统及方法
CN106611008A (zh) * 2015-10-26 2017-05-03 中国移动通信集团公司 一种互联网内容标签的管理方法及装置
CN103793461B (zh) * 2013-12-02 2017-05-31 北京奇虎科技有限公司 网页信息的解析方法及装置
CN106997363A (zh) * 2016-01-26 2017-08-01 华为技术有限公司 一种数据处理方法和设备
CN108090076A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 页面文字处理方法及装置
CN109948030A (zh) * 2019-02-28 2019-06-28 北京搜狗科技发展有限公司 网页搜索结果质量检测方法及装置

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661468B (zh) * 2008-08-29 2011-08-31 中国科学院计算技术研究所 一种从论坛帖子列表页面中抽取帖子元数据的方法
US8981935B2 (en) 2008-12-10 2015-03-17 Siemens Aktiengesellschaft Method and system for supplying target information
CN101872347B (zh) * 2009-04-22 2012-09-26 富士通株式会社 判断网页类型的方法和装置
CN101908047B (zh) * 2009-06-08 2012-05-30 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
CN101944094B (zh) * 2009-07-06 2014-06-18 富士通株式会社 网页信息提取方法和装置
CN102163203A (zh) * 2010-02-24 2011-08-24 富士通株式会社 网页下载的方法和装置
CN102163203B (zh) * 2010-02-24 2013-12-04 富士通株式会社 网页下载的方法和装置
CN101859321A (zh) * 2010-05-20 2010-10-13 复旦大学 一种基于html流处理的数据采集方法和系统
CN101950312A (zh) * 2010-08-18 2011-01-19 赵清政 一种互联网网页内容解析方法
CN101950312B (zh) * 2010-08-18 2012-07-04 赵清政 一种互联网网页内容解析方法
CN101916285B (zh) * 2010-08-20 2016-06-08 北京新岸线移动多媒体技术有限公司 一种互联网网页内容解析方法及装置
CN105786972A (zh) * 2010-08-20 2016-07-20 北京新岸线移动多媒体技术有限公司 一种网页模板生成方法及装置
CN101916285A (zh) * 2010-08-20 2010-12-15 北京新岸线网络技术有限公司 一种互联网网页内容解析方法及装置
WO2012071993A1 (zh) * 2010-12-03 2012-06-07 腾讯科技(深圳)有限公司 一种环球信息网www页面处理方法和装置
US8739024B2 (en) 2010-12-03 2014-05-27 Tencent Technology (Shenzhen) Company Limited Method and apparatus for processing world wide web page
US8826122B2 (en) 2010-12-03 2014-09-02 Tencent Technology (Shenzhen) Company Limited Method, system and device for displaying a web page
CN102637173A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 网络百科内容形成方法、网络服务器和客户端
CN102637173B (zh) * 2011-02-10 2015-09-02 北京百度网讯科技有限公司 网络百科内容形成方法、网络服务器和客户端
WO2013143363A1 (en) * 2012-03-29 2013-10-03 Tencent Technology (Shenzhen) Company Limited A method and apparatus for data storage and downloading
US9183214B2 (en) 2012-03-29 2015-11-10 Tencent Technology (Shenzhen) Company Limited Method and apparatus for data storage and downloading
CN102682082A (zh) * 2012-04-07 2012-09-19 山东师范大学 基于内容结构特征的网络Flash搜索系统及搜索方法
CN102682082B (zh) * 2012-04-07 2015-03-25 山东师范大学 基于内容结构特征的网络Flash搜索系统及搜索方法
CN103020246B (zh) * 2012-12-18 2018-01-05 北京奇虎科技有限公司 用于浏览器的网页数据展现方法及装置
CN103020246A (zh) * 2012-12-18 2013-04-03 北京奇虎科技有限公司 用于浏览器的网页数据展现方法及装置
WO2015062514A1 (en) * 2013-10-31 2015-05-07 Tencent Technology (Shenzhen) Company Limited Web content extracting method, device, and system
CN103559257A (zh) * 2013-11-01 2014-02-05 深圳市宜搜科技发展有限公司 一种互联网无价值网页的挖掘方法
CN103678511B (zh) * 2013-11-25 2016-11-16 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置
CN103678510B (zh) * 2013-11-25 2018-02-02 北京奇虎科技有限公司 对网页提供可视化标注的方法及装置
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置
CN103678510A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 对网页提供可视化标注的方法及装置
CN103793461B (zh) * 2013-12-02 2017-05-31 北京奇虎科技有限公司 网页信息的解析方法及装置
CN103761312B (zh) * 2014-01-24 2017-02-08 福州大学 一种多记录网页的信息抽取系统及方法
CN104268269A (zh) * 2014-10-13 2015-01-07 宁波公众信息产业有限公司 一种数据库操作方法
CN104572874A (zh) * 2014-12-19 2015-04-29 北京锐安科技有限公司 一种网页信息的抽取方法及装置
CN104572874B (zh) * 2014-12-19 2019-03-05 北京锐安科技有限公司 一种网页信息的抽取方法及装置
CN106033468A (zh) * 2015-03-20 2016-10-19 腾讯科技(深圳)有限公司 网页内容抽取方法、装置及系统
CN106611008A (zh) * 2015-10-26 2017-05-03 中国移动通信集团公司 一种互联网内容标签的管理方法及装置
CN106611008B (zh) * 2015-10-26 2020-06-12 中国移动通信集团公司 一种互联网内容标签的管理方法及装置
CN106997363A (zh) * 2016-01-26 2017-08-01 华为技术有限公司 一种数据处理方法和设备
CN108090076A (zh) * 2016-11-22 2018-05-29 北京国双科技有限公司 页面文字处理方法及装置
CN109948030A (zh) * 2019-02-28 2019-06-28 北京搜狗科技发展有限公司 网页搜索结果质量检测方法及装置

Similar Documents

Publication Publication Date Title
CN101192234A (zh) 一种基于网页抽取的搜索系统及搜索方法
Lage et al. Automatic generation of agents for collecting hidden web pages for data extraction
Bieber et al. Fourth generation hypermedia: some missing links for the World Wide Web
US8589366B1 (en) Data extraction using templates
CN102831121B (zh) 一种网页信息抽取的方法和系统
CN100514323C (zh) 用于自动提取副标题信息的系统和方法
US7765236B2 (en) Extracting data content items using template matching
US8554800B2 (en) System, methods and applications for structured document indexing
US6606625B1 (en) Wrapper induction by hierarchical data analysis
CN100573520C (zh) 为检索对多个文档进行预处理的方法和装置
CN102902738B (zh) 使用内联上下文查询的搜索系统及方法
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN101689190A (zh) 用于智能文本注释的方法、系统和计算机程序
CN103106220A (zh) 一种搜索方法、搜索装置及一种搜索引擎系统
CN101655862A (zh) 信息对象搜索的方法和装置
CN103324622A (zh) 一种自动生成首页摘要的方法及装置
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的系统
Deng et al. Managing UI pattern collections
Mika Microsearch: An Interface for Semantic Search.
Wang et al. Mining key information of web pages: A method and its application
US20100082594A1 (en) Building a topic based webpage based on algorithmic and community interactions
Ohene-Djan et al. Personalising electronic books
Mäkelä et al. Enabling the Semantic Web with Ready-to-Use Web Widgets.
Neubarth et al. Association mining of folk music genres and toponyms
Karsvall et al. SDHK meets NER: Linking Place Names with Medieval Charters and Historical Maps.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080604