CN111339457A - 用于从网页抽取信息的方法和设备及存储介质 - Google Patents

用于从网页抽取信息的方法和设备及存储介质 Download PDF

Info

Publication number
CN111339457A
CN111339457A CN201811549030.2A CN201811549030A CN111339457A CN 111339457 A CN111339457 A CN 111339457A CN 201811549030 A CN201811549030 A CN 201811549030A CN 111339457 A CN111339457 A CN 111339457A
Authority
CN
China
Prior art keywords
node
leaf
nodes
tree
navigation bar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811549030.2A
Other languages
English (en)
Other versions
CN111339457B (zh
Inventor
郑仲光
孟遥
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201811549030.2A priority Critical patent/CN111339457B/zh
Priority to JP2019223095A priority patent/JP7434867B2/ja
Publication of CN111339457A publication Critical patent/CN111339457A/zh
Application granted granted Critical
Publication of CN111339457B publication Critical patent/CN111339457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于从网页抽取信息的方法和设备以及存储介质。该方法包括:针对网页及其所有扩展网页中的包含该网页的域名的每个页面生成树;确定树中的导航条节点;确定导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和,抽取与匹配的叶子节点相对应的页面中的信息。

Description

用于从网页抽取信息的方法和设备及存储介质
技术领域
本公开内容涉及自然语言处理,并且具体地涉及基于多网页的信息抽取。
背景技术
从网络上搜集并抽取信息是建立知识库的重要手段。例如,可以从某些电商的网页中抽取商品的信息,建立商品的知识库。现有的方法主要分为以下两类:
1.对于具有相似结构的页面(例如电商网站的商品列表页,每页的结构都是相似的),可以通过人工制定模板或者无监督、半监督的方法学习网页中包含商品信息的结构模板,然后利用这些学习到的结构模板去解析其他相似的网页。如图1A所示,可以通过学习手机页面的结构信息,进而去抽取图书和鞋的商品信息。
2.对于单一结构(非相似)的页面,可以动态解析网页的结构,通过关键词列表定位相关信息在网页中的位置,然后再进行值的抽取,如图1B所示。
发明内容
在下文中给出了关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个方面,提供了一种用于从网页抽取信息的方法,包括以下步骤:针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;确定所述树中的导航条节点;确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和抽取与匹配的叶子节点相对应的页面中的信息。
根据本发明的另一个方面,提供了一种用于从网页抽取信息的设备,包括:树生成装置,其被配置成针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;导航条节点确定装置,其被配置成确定所述树中的导航条节点;匹配节点确定装置,其被配置成确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和信息抽取装置,其被配置成抽取与匹配的叶子节点相对应的页面中的信息。
根据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过本发明的用于从网页抽取信息的方法和设备,使得能够基于主页的URL(统一资源定位符),对分布在同一域名下的多个网页中的所需信息进行抽取。
通过以下结合附图对本发明的优选实施方式的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本公开内容的以上和其它优点和特征,下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本公开内容的典型示例,而不应看作是对本公开内容的范围的限定。在附图中:
图1A示出了具有相似结构的网页的示例;
图1B示出了具有单一结构的网页的信息抽取示例;
图2A示出了多页面信息抽取的示例;
图2B示意性地示出了根据本发明的方法的整体流程;
图3是根据本发明的实施方式的用于从网页抽取信息的方法的流程图;
图4A示出了与导航节点对应的HTML结构和Dom树结构的示例;
图4B示意性地示出了信息抽取;
图5示意性地示出了据本发明的实施方式的用于从网页抽取信息的设备的框图;和
图6是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
如前文所述,从网络上搜集并抽取信息是建立知识库的重要手段。如图1A和1B所示的现有方法虽然可以满足一定的需求,但是仍然具有局限性。
如图2A所示,http://owtware.com是公司的主页URL,公司的信息诸如产品、合作伙伴、联系方式等分布在不同的页面上,而且三个页面包含主要信息的部分也不具备相似的结构。
如果只有主页URL是已知的,则现有方法无法处理这种多页面分布信息抽取。然而,通常主页URL是容易获得的。因此,如何对主页URL信息进行扩展以抽取其他信息,仍然是亟待解决的问题。
为了解决现有技术中存在的问题,本发明提出一种基于多网页的信息抽取方法,使得可以在只给定主页URL的情况下:
-自动扩展出包含相关信息的其他页面,
-在每个相关页面中找到包含主要信息的位置,和
-对于不同属性类型的页面进行单独的信息抽取。
图2B示意性地示出了根据本发明的方法的整体流程。如图2B所示,根据本发明的方法主要包括以下三个部分:
1.通过主页扩展出多个网页的集合;
2.使用统计方法对网页集合进行统计分类,从而找出导航条节点,然后利用关键词词典匹配导航条节点所包含的叶子节点的文本,并且通过匹配到的节点信息找到待抽取的页面;和
3.针对待抽取页面的信息类型,使用不同的分析器进行抽取。
下面结合图3及图4A和4B详细说明根据本发明的实施方式的用于从网页抽取信息的方法。
图3是根据本发明的一个实施方式的用于从网页抽取信息的方法的流程图。
方法开始于步骤301,针对网页及其所有扩展网页中的包含该网页的域名的每个页面生成树。具体地,在本实施方式中,以图2A所示的URL为例,公司主页URL为uroot=http://www.owtware.com/,要抽取的信息是该公司的其他属性,例如产品、联系方式等。
首先,使用爬虫(crawler)爬取uroot对应的HTML页面proot,然后从页面解析出所包含的全部URL的集合u=[u0,u1,u2,……,un]。考虑到页面包含的URL可能是与该公司相关的,也有可能是不相关的,比如一些广告、外链等等,因此使用特定的规则来筛选出部分URL集合u’=[u’0,u’1,u’2,……,u’n,],其中u’i包含dmain(uroot),domain(URL)是抽取URL顶级域名的操作,例如domain(uroot)=www.owtware.com。这样,可以保留同一域名下的所有URL,例如:http://www.owtware.com/index.php/zh/products/。
优选地,考虑到u’i对应的页面pi可能包含了其他URL信息,因此可以对pi进一步扩展。对于每个pi采取同样的策略扩展URL及对应页面,每次扩展完合并相同的URL及页面。扩展过程可重复n次。为了保证既可以得到一定数量的页面,又不会导致页面数量过多,一般可取n=2。从而,可以得到一个具有相同域名的页面集合p=[<p0,u0>,<p1,u1>,<p2,u2>,……,<pn,un>],其中pi表示网页,ui表示网页对应的URL。
接着,在步骤302中,确定树中的导航条节点。具体地,在本实施方式中,从集合p中找出导航条节点。如上文所述,目标是要从集合p中找出包含该公司信息的页面,比如:产品、联系方式等。通常,这些信息可以通过导航条节点中的链接找到与其对应的页面。选择导航条节点作为信息锚点主要有以下三个原因:
1.信息准确。导航条节点中包含的链接所指向的页面可以认为是对该公司的描述,例如,“产品服务”对应的页面会介绍该公司的产品,而“联系我们”会链接到包含公司地址、电话等信息的页面。而网页中的其他部分出现的链接则不一定描述的是该公司的信息,有可能介绍的是其他公司的情况,或者广告之类的信息。
2.信息全面。导航条节点基本包含了与该公司相关的所有信息,找到导航条节点,也就找到了所有包含相关信息的页面,这对于之后信息抽取有很大帮助。
3.相对容易发现。虽然不同网页可能具有不同的结构,但是导航条节点的样式大多是相同的。这种共性有助于准确地在网页结构中发现导航条节点的位置。
下面举例说明如何确定导航条节点。
根据上述第三个特点,可以通过统计每个页面pi(pi∈p)中的节点,找出频繁出现的节点,这些节点会包含导航条节点,进而通过对这些频繁出现的节点基于特征值进行排序,可以发现导航条节点,具体方法如下:
对于集合p中的每个页面pi,首先将pi转换成Dom树的结构,如图4A所示;
对于Dom树中的每个叶子节点nodei,取nodei的路径模式pathi,pathi由该叶子节点对应的文本和到第n个祖先节点经过的路径组合而成。根据实践经验,对于大多数页面来说,n可以取大于或等于5的整数值。例如,对于导航条节点“联系我们”,在n=5时可以得到pathi=”ul_li_ul_li_a_联系我们”
然后,计算每个pathi的文档频率dfi,即pathi出现在不同文档中的次数。通过统计可以得到一个路径频率词典node_pattern_dictionary{<path1,df1>,…,<pathn,dfn>},其中dfi>t,t为如下设定的阈值:
Figure BDA0001910148310000051
阶梯性的设置阈值t是为了减少网页数量|p|对最终结果的影响。
得到路径频率词典之后,对集合p中每个pi对应的Dom树结构进行第二次遍历,这次对于每个非叶子节点nodei,假设其覆盖的所有非空叶子节点集合为c=[c0,c1,c2,……,cn],如果满足对于每个ci,pathi(ci)皆存在于路径频率词典node_pattern_dictionary中,则记录该nodei的信息。最终可以得到候选词典candidate_pattern_dictionary{<path1,[df1,cn1]>,…,<pathn,[dfn,cnn]>},其中pathi表示非叶子节点nodei到祖先节点的路径信息,dfi表示文档频率,cni表示nodei覆盖的所有非空叶子节点的数量。与叶子节点的pathi的区别在于非叶子节点的pathi不包括文本信息。如图4A中的3所示,从“联系我们”到ul节点对应的路径为ul_li_ul_div_div,n=5。
最终,按照(cn*df/|p|)的值对候选词典candidate_pattern_dictionary进行排序,取最大值对应的路径作为导航条节点路径模板,并且该最大值对应的路径中的祖先节点可以被确定为导航条节点。对于该公司主页下的给定HTML页面,可以使用该模板来定位导航条节点的位置。
本领域技术人员应理解,以上描述的利用统计方法确定导航条节点仅是确定导航条节点的一个示例。本发明不限于此,而是可以采用其他合适的方法来确定导航条节点。
接着,在步骤303中,确定导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点。具体地,在本实施方式中,在步骤302中发现导航条节点之后,对于该导航条节点所覆盖的每个非空叶子节点,使用词典keyword_dict去匹配叶子节点对应的文字。词典keyword_dict包含了一些预设的关键词,例如“产品介绍”、“联系方式”等等。如果某个叶子节点匹配到了某个关键词,便可以在其对应的HTML元素中查找“href”属性,其属性值即为对应网页的URL。例如图4A中“联系我们”节点对应的HTML元素包含了链接:
href=http://www.owtware.com/index.php/zh/about/contact-us/。
因此,可以从集合p中筛选出包含相关信息的网页集合p’=[<p’0,u’0,t’0>,<p’1,u’1,t’1>,<p’2,u’2,t’2>,……,<p’n,u’n,t’n>],其中p’i和u’i与前文中定义的pi和ui相同,而t’i表示该页面对应的类型,比如:产品、人物、联系方式等。这使得可以针对不同的页面的类型来选择不同的解析器进行抽取。
对于每个p’i,首先需要对HTML页面进行预处理,预处理的目的是为了将页面中的主要信息先提取出来。该过程是通用的,并且与网页的类型t’不相关。所提取的结果可以作为后面进行抽取时的输入。如图4B中的(1)所示,原始的HTML页面包含了很多内容,而只有实线框所示的部分是需要的内容,其他部分包括导航条节点、侧面列表、标签Footer等元素都是需要去除的,否则在进行抽取的时候很容易被噪音数据影响。
结合在步骤302中产生的路径频率词典node_pattern_dictionary和候选词典candidate_pattern_dictionary,可以通过以下方式来确定导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点。
对于集合p’i中的非叶子节点nodei,假设其覆盖的所有非空叶子节点集合为c=[c0,c1,c2,……,cn],如果同时满足以下三个条件,则可以确定nodei为包括与一个或更多个关键词匹配的叶子节点的目标内容节点:
Figure BDA0001910148310000071
Figure BDA0001910148310000072
√∑text_len(ci)>∑text_len(cj),其中,ci为nodei覆盖的非空叶子节点,cj为nodej覆盖的非空叶子节点,且i≠j,text_len(*)表示叶子节点对应文本的长度。也就是说,nodei覆盖的所有非空叶子节点的文本长度的总合要大于其他节点nodej覆盖的所有非空叶子节点的文本长度的总合。
确定了同时满足以上三个条件的节点nodei,意味着也确定了与预设的关键词匹配的叶子节点。
最后,在步骤304中,抽取与匹配的叶子节点相对应的页面中的信息。具体地,在本实施方式中,在确定了同时满足以上三个条件的节点nodei之后,可以对其覆盖的叶子节点中所包含的信息进行抽取。
优选地,可以将其每个叶子节点作为独立的属性抽取空间,如图4B中的(2)和(3)所示,将每个节点<div class="panel-grid-cell"…>作为独立的属性空间。这样做的益处是可以确立属性值的边界,即每个值只能取自于一段{{……}}。例如,对人物信息进行抽取的时候,一段{{……}}中包含的信息可以认为描述的是同一个人,不同{{……}}的信息描述的为不同的人,从而在一定程度上避免抽取错误。
优选地,在确定了抽取范围之后,可以根据p’i的类型t’i选取不同的解析器进行特定信息的抽取,例如实体识别器(NER)、专有名词识别器、数值识别器等等。图4B中的(3)给出了专有名词识别的结果的示例。
本领域技术人员应理解,虽然以上就基于公司主页抽取相关信息进行了描述,但是本发明不限于此,而是可以根据需要扩展到任何网页的任何信息的提取。
以上所讨论的方法可以完全由计算机可执行的程序来实现,也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时,或者将计算机可执行的程序载入可运行程序的硬件设备时,则实现了下文将要描述的用于对图像的识别结果进行分割的设备。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要,但是应当注意,虽然这些设备可以执行前文所描述的方法,但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。
图5示出了根据本发明的一个实施方式的用于从网页抽取信息的设备500,该设备包括:树生成装置501、导航条节点确定装置502、匹配节点确定装置503和信息抽取装置504。其中,树生成装置501用于针对网页及其所有扩展网页中的包含该网页的域名的每个页面生成树;导航条节点确定装置502用于确定树中的导航条节点;匹配节点确定装置503用于确定导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和信息抽取装置504用于抽取与匹配的叶子节点相对应的页面中的信息。
图5所示的用于从网页抽取信息的设备500对应于图3所示的方法。因此,用于从网页抽取信息的设备500中的各装置的相关细节已经在对图3的用于从网页抽取信息的方法的描述中详细给出,在此不再赘述。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图6是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图6所示,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可移除介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质611。可移除介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
通过以上描述,本公开的实施方式提供了以下的技术方案,但不限于此。
附记1.一种用于从网页抽取信息的方法,包括以下步骤:
针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;
确定所述树中的导航条节点;
确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和
抽取与匹配的叶子节点相对应的页面中的信息。
附记2.根据附记1的方法,其中,利用统计方法来确定所述导航条节点。
附记3.根据附记2的方法,其中,确定所述树中的导航条节点还包括:
确定仅包含在所述树中出现的次数超过预定阈值的叶子节点的非叶子节点;和
通过对所述非叶子节点进行排序来确定所述导航条节点。
附记4.根据附记3的方法,其中,确定出现的次数超过预定阈值的叶子节点包括,确定所述叶子节点的文本和路径信息在所述树中出现的次数超过所述预定阈值。
附记5.根据附记4的方法,其中,所述路径信息是所述叶子节点到其第n个祖先节点所经过的路径,其中n是正整数。
附记6.根据附记5的方法,其中,n大于或等于5。
附记7.根据附记3的方法,其中,通过对所述非叶子节点进行排序来确定所述导航条节点包括:
计算所述非叶子节点的特征值,所述特征值取决于所述非叶子节点所覆盖的叶子节点的数目和所述次数;和
将所述非叶子节点中的具有最大特征值的非叶子节点确定为所述导航条节点。
附记8.根据附记7的方法,其中,所述特征值为所述非叶子节点所覆盖的叶子节点的数目和所述次数的乘积与包含所述网页的域名的页面总数的比值。
附记9.根据附记1至8中任一项的方法,其中,抽取与匹配的叶子节点相对应的页面中的信息包括:
确定与所述匹配的叶子节点相对应的页面中包含的目标节点;和
分别抽取所述目标节点所覆盖的每个叶子节点的文本。
附记10.根据附记9的方法,其中,所述目标节点按照如下方式确定:
所述目标节点所包含的每个叶子节点的文本和路径信息在所述树中出现的次数不超过所述预定阈值;
所述目标节点不是在仅包含在所述树中出现的次数超过预定阈值的叶子节点的非叶子节点之中的非叶子节点;并且
所述目标节点所包含的所有叶子节点的总文本长度大于其所在树中的其他非叶子节点的总文本长度。
附记11.根据附记9的方法,其中,分别抽取所述目标节点所覆盖的每个叶子节点的文本还包括,取决于与所述目标节点相对应的页面的类型,选择不同的解析器来进行抽取。
附记12.根据附记11的方法,其中,将所述目标节点的每个叶子节点作为独立的属性抽取空间。
附记13.根据附记11的方法,其中,所述解析器是实体识别器、专有名词识别器或数值识别器。
附记14.根据附记1至8中任一项的方法,其中,使用所确定的导航条节点的路径信息来确定所述网页及其所有扩展网页中的导航条节点。
附记15.根据附记1至8中任一项的方法,其中,通过抽取URL顶级域名的操作来确定所述网页及其所有扩展网页中的包含所述网页的域名的页面。
附记16.根据附记1至8中任一项的方法,其中,所述树是HTML文档对象模型DOM。
附记17.根据附记1至8中任一项的方法,其中,所述关键词是预设的关键词。
附记18.根据附记1至8中任一项的方法,其中,对所述扩展网页扩展n次以得到包含所述网页的域名的页面,其中n是大于或等于2的整数。
附记19.一种用于从网页抽取信息的设备,包括:
树生成装置,其被配置成针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;
导航条节点确定装置,其被配置成确定所述树中的导航条节点;
匹配节点确定装置,其被配置成确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和
信息抽取装置,其被配置成抽取与匹配的叶子节点相对应的页面中的信息。
附记20.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序:
针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;
确定所述树中的导航条节点;
确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和
抽取与匹配的叶子节点相对应的页面中的信息。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施方式,但是应当明白,上面所描述的实施方式只是被配置为说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims (10)

1.一种用于从网页抽取信息的方法,包括以下步骤:
针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;
确定所述树中的导航条节点;
确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和
抽取与匹配的叶子节点相对应的页面中的信息。
2.根据权利要求1所述的方法,其中,确定所述树中的导航条节点还包括:
确定仅包含在所述树中出现的次数超过预定阈值的叶子节点的非叶子节点;和
通过对所述非叶子节点进行排序来确定所述导航条节点。
3.根据权利要求2所述的方法,其中,确定出现的次数超过预定阈值的叶子节点包括,确定所述叶子节点的文本和路径信息在所述树中出现的次数超过所述预定阈值。
4.根据权利要求3所述的方法,其中,所述路径信息是所述叶子节点到其第n个祖先节点所经过的路径,其中n是正整数。
5.根据权利要求4所述的方法,其中,n大于或等于5。
6.根据权利要求2所述的方法,其中,通过对所述非叶子节点进行排序来确定所述导航条节点包括:
计算所述非叶子节点的特征值,所述特征值取决于所述非叶子节点所覆盖的叶子节点的数目和所述次数;和
将所述非叶子节点中的具有最大特征值的非叶子节点确定为所述导航条节点。
7.根据权利要求1至6中任一项所述的方法,其中,抽取与匹配的叶子节点相对应的页面中的信息包括:
确定与所述匹配的叶子节点相对应的页面中包含的目标节点;和
分别抽取所述目标节点所覆盖的每个叶子节点的文本。
8.根据权利要求7所述的方法,其中,所述目标节点按照如下方式确定:
所述目标节点所包含的每个叶子节点的文本和路径信息在所述树中出现的次数不超过所述预定阈值;
所述目标节点不是在仅包含在所述树中出现的次数超过预定阈值的叶子节点的非叶子节点之中的非叶子节点;并且
所述目标节点所包含的所有叶子节点的总文本长度大于其所在树中的其他非叶子节点的总文本长度。
9.一种用于从网页抽取信息的设备,包括:
树生成装置,其被配置成针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;
导航条节点确定装置,其被配置成确定所述树中的导航条节点;
匹配节点确定装置,其被配置成确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和
信息抽取装置,其被配置成抽取与匹配的叶子节点相对应的页面中的信息。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序:
针对所述网页及其所有扩展网页中的包含所述网页的域名的每个页面生成树;
确定所述树中的导航条节点;
确定所述导航条节点所覆盖的与一个或更多个关键词匹配的叶子节点;和
抽取与匹配的叶子节点相对应的页面中的信息。
CN201811549030.2A 2018-12-18 2018-12-18 用于从网页抽取信息的方法和设备及存储介质 Active CN111339457B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811549030.2A CN111339457B (zh) 2018-12-18 2018-12-18 用于从网页抽取信息的方法和设备及存储介质
JP2019223095A JP7434867B2 (ja) 2018-12-18 2019-12-10 ウェブページから情報を抽出する方法、装置及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811549030.2A CN111339457B (zh) 2018-12-18 2018-12-18 用于从网页抽取信息的方法和设备及存储介质

Publications (2)

Publication Number Publication Date
CN111339457A true CN111339457A (zh) 2020-06-26
CN111339457B CN111339457B (zh) 2023-09-08

Family

ID=71105986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811549030.2A Active CN111339457B (zh) 2018-12-18 2018-12-18 用于从网页抽取信息的方法和设备及存储介质

Country Status (2)

Country Link
JP (1) JP7434867B2 (zh)
CN (1) CN111339457B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768234B (zh) * 2020-06-28 2023-12-19 百度在线网络技术(北京)有限公司 为用户生成推荐文案的方法及设备、电子设备和介质
CN113918460A (zh) * 2021-10-15 2022-01-11 京东科技信息技术有限公司 页面测试方法、装置、设备和介质
CN114201971B (zh) * 2021-12-13 2023-06-13 海南港航控股有限公司 一种从网页中提取人物属性的方法及系统
CN117009682A (zh) * 2023-08-08 2023-11-07 四川企创未来科技服务有限责任公司 一种网页搜索内容匹配方法、系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
CN102043802A (zh) * 2009-10-16 2011-05-04 上海飞机制造有限公司 基于结构摘要的xml关键字检索方法
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN102760150A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 基于属性重现和标签路径的网页抽取方法
CN103246732A (zh) * 2013-05-10 2013-08-14 合肥工业大学 一种在线Web新闻内容的抽取方法及系统
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
WO2016119604A1 (zh) * 2015-01-26 2016-08-04 阿里巴巴集团控股有限公司 一种语音信息搜索方法、装置及服务器
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009042908A (ja) * 2007-08-07 2009-02-26 Nec Corp ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム
CN103823824B (zh) * 2013-11-12 2017-04-05 哈尔滨工业大学深圳研究生院 一种借助互联网自动构建文本分类语料库的方法及系统
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法
CN105069107B (zh) * 2015-08-07 2019-03-05 北京百度网讯科技有限公司 监控网站的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872350A (zh) * 2009-04-24 2010-10-27 富士通株式会社 网页正文抽取方法和装置
CN102043802A (zh) * 2009-10-16 2011-05-04 上海飞机制造有限公司 基于结构摘要的xml关键字检索方法
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN102760150A (zh) * 2012-04-05 2012-10-31 中国人民解放军国防科学技术大学 基于属性重现和标签路径的网页抽取方法
CN103246732A (zh) * 2013-05-10 2013-08-14 合肥工业大学 一种在线Web新闻内容的抽取方法及系统
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
WO2016119604A1 (zh) * 2015-01-26 2016-08-04 阿里巴巴集团控股有限公司 一种语音信息搜索方法、装置及服务器
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法

Also Published As

Publication number Publication date
CN111339457B (zh) 2023-09-08
JP7434867B2 (ja) 2024-02-21
JP2020098596A (ja) 2020-06-25

Similar Documents

Publication Publication Date Title
US7269544B2 (en) System and method for identifying special word usage in a document
CN111339457B (zh) 用于从网页抽取信息的方法和设备及存储介质
US8938384B2 (en) Language identification for documents containing multiple languages
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US6907431B2 (en) Method for determining a logical structure of a document
JP3768105B2 (ja) 翻訳装置、翻訳方法並びに翻訳プログラム
CN109960724A (zh) 一种基于tf-idf的文本摘要方法
US20200004792A1 (en) Automated website data collection method
CN103810251B (zh) 一种文本提取方法及装置
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN103309862A (zh) 一种网页类型识别方法和系统
CN113326413B (zh) 一种网页信息提取方法、系统、服务器及存储介质
CN109165373B (zh) 一种数据处理方法及装置
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN112380337A (zh) 基于富文本的高亮方法及装置
US8224642B2 (en) Automated identification of documents as not belonging to any language
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
CN114743012B (zh) 一种文本识别方法及装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
CN113806667B (zh) 一种支持网页分类的方法和系统
CN112632421B (zh) 一种自适应结构化的文档抽取方法
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN111949916B (zh) 一种网页分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant