CN108446285B - 网站正文提取的方法和装置 - Google Patents

网站正文提取的方法和装置 Download PDF

Info

Publication number
CN108446285B
CN108446285B CN201710084396.6A CN201710084396A CN108446285B CN 108446285 B CN108446285 B CN 108446285B CN 201710084396 A CN201710084396 A CN 201710084396A CN 108446285 B CN108446285 B CN 108446285B
Authority
CN
China
Prior art keywords
node information
webpage
text
information
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710084396.6A
Other languages
English (en)
Other versions
CN108446285A (zh
Inventor
曹志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710084396.6A priority Critical patent/CN108446285B/zh
Publication of CN108446285A publication Critical patent/CN108446285A/zh
Application granted granted Critical
Publication of CN108446285B publication Critical patent/CN108446285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站正文提取的方法和装置。其中,该方法包括:从网站的每个网页中提取节点信息;将节点信息确定为第一节点信息或第二节点信息,其中,第一节点信息为包含网页正文文本的节点信息,第二节点信息为不包含网页正文文本的节点信息;提取第一节点信息中的网页正文文本;根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页;将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本。本发明解决了网站正文信息提取不准确的技术问题。

Description

网站正文提取的方法和装置
技术领域
本发明涉及网站信息提取领域,具体而言,涉及一种网站正文提取的方法和装置。
背景技术
正文提取是指将网页的正文部分提取出来,去除其他部分。在互联网领域,正文提取是一种很常用而且很基本的需求。
从概率上来说,正文部分是一个网页中文字数量最多的区域。所以,一种常见正文提取方法就是针对网站源代码进行提取,找到纯文本长度最长的子节点,此节点的内容即为正文。比如下图1所示,方框部分包含的文本内容最长,因此将方框部分的内容作为正文部分。
然而有时候,正文包含的文本内容不是最多的,如:在论坛网站中,可能存在某条评论的文本内容比正文内容还多,此时利用上述的正文提取方法提取到的文本不是网页的正文部分。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站正文提取的方法和装置,以至少解决网站正文信息提取不准确的技术问题。
根据本发明实施例的一个方面,提供了一种网站正文提取的方法,包括:从网站的每个网页中提取节点信息;将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点的信息,所述第二节点信息为不包含网页正文文本的节点信息;提取所述第一节点信息中的网页正文文本;根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本。
进一步地,根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息包括:获取所述目标网页中所有节点信息的属性;从所述所有节点信息的属性中查找与所述第一节点信息的属性相同的节点信息。
进一步地,将所述节点信息确定为第一节点信息或第二节点信息包括:获取从所述网站的每个网页中提取的节点信息的属性;根据所述节点信息的属性确定所述节点信息为第一节点信息或者第二节点信息,其中,所述节点信息的属性包括ID信息。
进一步地,从所述网站的每个网页中提取节点信息包括:获取每个所述网页中所有节点信息所包含的文本;将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息。
进一步地,将所述节点信息确定为第一节点信息或第二节点信息包括:将所述多个节点信息中具有相同ID信息的数量最多的节点信息作为所述第一节点信息;将所述多个节点信息中除所述第一节点信息以外的节点信息作为所述第二节点信息。
进一步地,在根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息之后,所述方法还包括:如果对目标网页无法重新提取出节点信息,则记录所述目标网页的地址。
根据本发明实施例的另一方面,还提供了一种网站正文提取的装置,包括:第一提取单元,用于从网站的每个网页中提取节点信息;确定单元,用于将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点的信息,所述第二节点信息为不包含网页正文文本的节点信息;第二提取单元,用于提取所述第一节点信息中的网页正文文本;第三提取单元,用于根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;正文单元,用于将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本。
进一步地,所述第三提取单元包括:第一获取模块,用于获取所述目标网页中所有节点信息的属性;查找模块,用于从所述所有节点信息的属性中查找与所述第一节点信息的属性相同的节点信息。
进一步地,所述确定单元包括:第二获取模块,用于获取从所述网站的每个网页中提取的节点信息的属性;第一确定模块,用于根据所述节点信息的属性确定所述节点信息为第一节点信息或者第二节点信息,其中,所述节点信息的属性包括ID信息。
进一步地,所述第一提取单元包括:第三获取模块,用于获取每个所述网页中所有节点信息所包含的文本;信息模块,用于将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息。
进一步地,所述确定单元包括:第二确定模块,用于将所述多个节点信息中具有相同ID信息的,数量最多的节点信息作为所述第一节点信息;第三确定模块,用于将所述多个节点信息中除所述第一节点信息以外的节点信息作为所述第二节点信息。
进一步地,所述装置还包括:记录单元,用于在根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息之后,如果对目标网页无法重新提取出节点信息,则记录所述目标网页的地址。
在本发明实施例中,采用从网站的每个网页中提取节点信息;将节点信息确定为第一节点信息或第二节点信息,其中,第一节点信息为包含网页正文文本的节点信息,第二节点信息为不包含网页正文文本的节点信息;提取第一节点信息中的网页正文文本;根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页;将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本的方式,通过确定出包含正文文本的第一节点信息和不包含正文文本的第二节点信息,根据第一节点信息对提取出第二节点信息的目标网页重新提取节点信息,并进一步将重新提取到的节点信息中的文本作为目标网页的正文文本,达到了从正文文本较少的网页中提取出正文文本的目的,从而实现了准确提取出网站正文的技术效果,进而解决了网站正文信息提取不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的网站正文提取的方法的流程图;
图2是根据本发明实施例的一种可选的网站正文提取的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种网站正文提取的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的网站正文提取的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,从网站的每个网页中提取节点信息。
网页的源代码中包含有若干个节点信息,不同类型的网页内容,分别包含在不同的节点信息中,例如:网页的标题内容包含在一个节点信息中,网页的正文内容则包含在另一个节点信息中。从网站的每个网页中提取出一个节点信息,在提取节点信息时,按照预设的条件进行提取,该预设条件能够确保在提取到的节点信息中,大部分节点信息为包含网页正文内容的节点信息。
步骤S104,将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点的信息,所述第二节点信息为不包含网页正文文本的节点信息。
按照预设的提取条件,从网站的每个网页中提取出的节点信息,多数包含有网页正文文本,而少数节点信息也可能不包含网页正文文本,将包含有网页正文文本内容的节点信息作为第一节点信息,将不包含网页正文文本内容的节点信息作为第二节点信息。在从网站的每个网页中提取出节点信息之后,将节点信息确定为第一节点信息或第二节该节点信息。
步骤S106,提取所述第一节点信息中的网页正文文本。
在确定出第一节点信息和第二节点信息之后,提取出第一节点信息所包含的文本,由于第一节点信息为包含网页正文文本的节点信息,则提取出的文本即为包括该第一节点信息的网页的正文文本。
步骤S108,根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页。
由于第二节点信息中不包含网页正文文本,为了从网页中提取出包含有网页正文文本的节点信息,将提取出的节点信息是第二节点信息的网页作为目标网页,根据第一节点信息对目标网页重新提取符合预设条件的节点信息,以从目标网页中提取出包括正文文本的节点信息。
步骤S110,将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本。
将根据第一节点信息对目标网页重新提取得到的节点信息作为该目标网页的包含正文文本的节点信息,该节点信息的包含的正文文本为目标网页的正文文本。
在本发明实施例中,采用从网站的每个网页中提取节点信息;将节点信息确定为第一节点信息或第二节点信息,其中,第一节点信息为包含网页正文文本的节点信息,第二节点信息为不包含网页正文文本的节点信息;提取第一节点信息中的网页正文文本;根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页;将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本的方式,通过确定出包含正文文本的第一节点信息和不包含正文文本的第二节点信息,根据第一节点信息对提取出第二节点信息的目标网页重新提取节点信息,并进一步将重新提取到的节点信息中的文本作为目标网页的正文文本,达到了从正文文本较少的网页中提取出正文文本的目的,从而实现了准确提取出网站正文的技术效果,进而解决了网站正文信息提取不准确的技术问题。
可选地,根据第一节点信息对目标网页重新提取符合预设条件的节点信息包括:获取目标网页中所有节点信息的属性;从所有节点信息的属性中查找与第一节点信息的属性相同的节点信息。
网页的内容根据其类别的不同,分别包含在不同的节点信息中。包含不同类别的内容的节点信息不仅所包含的文本内容不同,其节点信息的属性也不相同,而包含有相同类型的内容的节点信息,其包含的内容虽不相同,但节点信息的属性是相同的。根据第一节点信息对目标网页重新提取符合预设条件的节点信息,重新提取的节点信息符合预设条件,即与第一节点信息具有相同的属性,则重新提取的节点信息所包含的内容的类型与第一节点信息所包含的内容的类型相同,为目标网页所包含的正文文本。在重新提取节点信息时,可以先获取目标网页中所有的节点信息的属性,然后从中查找与第一节点信息的属性相同的节点信息并提取,提取到的节点信息包含的内容的类型与第一节点信息相同,为目标网页所包含的正文文本。
可选地,将所述节点信息确定为第一节点信息或第二节点信息包括:获取从网站的每个网页中提取的节点信息的属性;根据节点信息的属性确定节点信息为第一节点信息或者第二节点信息,其中,节点信息的属性包括ID信息。
包含有网页正文文本的节点信息与不包含网页正文文本的节点信息,其节点信息的属性是不相同的,节点信息的属性包括ID信息。因此,第一节点信息与第二节点信息的ID信息是不相同的。因此,在从网站的每个网页中提取出节点信息之后,根据节点信息的属性,可以分辨出提取到的节点信息中,哪些节点信息所包含有相同类型的文本,哪些节点信息所包含的文本的类型是不同的,可选的,可以根据节点信息的ID信息来分辨节点信息所包含的文本类型是否相同,进而确定出哪些节点信息为第一节点信息,哪些节点信息为第二节点信息。
可选地,从所述网站的每个网页中提取节点信息包括:获取每个所述网页中所有节点信息所包含的文本;将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息,得到多个节点信息。
在本发明实施例中,从网站的每个网页中提取节点信息时,按照节点信息包含的文本的长度进行提取,具体地,将待提取网页中包含的文本的长度最长的节点信息作为从该网页中提取的节点信息。
可选地,根据节点信息的属性确定节点信息为第一节点信息或者第二节点信息包括:将所述多个节点信息中具有相同ID信息的,数量最多的节点信息作为第一节点信息;将多个节点信息中除第一节点信息以外的节点信息作为第二节点信息。
网站中正文文本的长度最长的网页占大多数,非正文文本的长度最长的网页占少数,因此,上述从网站的每个网页中提取出的节点信息,大部分包含有网页的正文文本,是第一节点信息,同时,也可能存在少部分节点信息,包含有非正文文本,是第二节点信息。由于根据节点信息的属性是否相同可以判断出节点信息所包含的文本类型是否相同,因此,根据节点信息的属性即可判断出哪些节点信息包括网页正文文本,是第一节点信息,哪些节点信息不包括网页正文文本,是第二节点信息。具体地,获取从网站的每个网页中提取出的节点信息的属性,可选地,获取节点信息的ID信息,其中,具有相同的ID信息的数量最多的节点信息为包含网页正文文本的节点信息,即第一节点信息,而除了第一节点信息之外的节点信息均为不包括网页正文文本的第二节点信息。
例如:获取每一个网页中包含文本的长度,将包括文本的长度最长的节点信息提取出来,作为从该网页中提取出节点信息。通过获取提取到的节点信息的ID信息发现,ID信息为A的节点信息占大多数,另有少部分的节点信息的ID信息分别为B、C和D,则ID信息为A的节点信息为第一节点信息,ID信息为B、C或者D的节点信息为第二节点信息。
需要说明的是,节点信息还包含有其它属性,如样式信息等,如果一个网站的所有网页中包含的正文文本的节点信息的样式信息都是相同的,并且,不包含网页正文文本的节点信息与包含网页正文文本的节点信息相比,其样式信息是不同的,则从网站的每个网页中提取出节点信息之后,可以获取节点信息的样式信息,并将具有相同的样式信息的数量最多的节点信息作为包含网页正文文本的节点信息,即第一节点信息,除了第一节点信息之外的节点信息均作为第二节点信息。
可选地,在根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息之后,方法还包括:如果对目标网页无法重新提取出节点信息,则记录目标网页的地址。
在根据第一节点信息对提取出第二节点信息的目标网页重新提取节点信息时,可能提取不到与第一节点信息的属性一致的节点信息,此时,将该目标网页的网页地址记录到系统日志中,以备技术人员进行人工排查。
根据本发明实施例,提供了一种网站正文提取的装置实施例,图2是根据本发明实施例的一种可选的网站正文提取的装置的示意图,如图2所示,该装置主要包括:
第一提取单元201,用于从网站的每个网页中提取节点信息。
网页的源代码中包含有若干个节点信息,不同类型的网页内容,分别包含在不同的节点信息中,例如:网页的标题内容包含在一个节点信息中,网页的正文内容则包含在另一个节点信息中。第一提取单元201从网站的每个网页中提取出一个节点信息,在提取节点信息时,按照预设的条件进行提取,该预设条件能够确保在提取到的节点信息中,大部分节点信息为包含网页正文内容的节点信息。
确定单元202,用于将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点的信息,所述第二节点信息为不包含网页正文文本的节点信息。
按照预设的提取条件,从网站的每个网页中提取出的节点信息,多数包含有网页正文文本,而少数节点信息也可能不包含网页正文文本,将包含有网页正文文本内容的节点信息作为第一节点信息,将不包含网页正文文本内容的节点信息作为第二节点信息。在从网站的每个网页中提取出节点信息之后,确定单元202将节点信息确定为第一节点信息或第二节该节点信息。
第二提取单元203,用于提取所述第一节点信息中的网页正文文本。
在确定出第一节点信息和第二节点信息之后,第二提取单元203提取出第一节点信息所包含的文本,由于第一节点信息为包含网页正文文本的节点信息,则提取出的文本即为包括该第一节点信息的网页的正文文本。
第三提取单元204,用于根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页。
由于第二节点信息中不包含网页正文文本,为了从网页中提取出包含有网页正文文本的节点信息,将提取出的节点信息为第二节点信息的网页作为目标网页,第三提取单元204根据第一节点信息对目标网页重新提取符合预设条件的节点信息,以从目标网页中提取出包括正文文本的节点信息。
正文单元205,用于将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本。
将根据第一节点信息对目标网页重新提取得到的节点信息作为该目标网页的包含正文文本的节点信息,该节点信息的包含的正文文本为目标网页的正文文本。
在本发明实施例中,采用从网站的每个网页中提取节点信息;将节点信息确定为第一节点信息或第二节点信息,其中,第一节点信息为包含网页正文文本的节点信息,第二节点信息为不包含网页正文文本的节点信息;提取第一节点信息中的网页正文文本;根据第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,目标网页为提取出第二节点信息的网页;将重新提取到的节点信息所包含的文本作为目标网页的网页正文文本的方式,通过确定出包含正文文本的第一节点信息和不包含正文文本的第二节点信息,根据第一节点信息对提取出第二节点信息的目标网页重新提取节点信息,并进一步将重新提取到的节点信息中的文本作为目标网页的正文文本,达到了从正文文本较少的网页中提取出正文文本的目的,从而实现了准确提取出网站正文的技术效果,进而解决了网站正文信息提取不准确的技术问题。
可选地,第三提取单元包括:第一获取模块,用于获取目标网页中所有节点信息的属性;查找模块,用于从所有节点信息的属性中查找与第一节点信息的属性相同的节点信息。
网页的内容根据其类别的不同,分别包含在不同的节点信息中。包含不同类别的内容的节点信息不仅所包含的文本内容不同,其节点信息的属性也不相同,而包含有相同类型的内容的节点信息,其包含的内容虽不相同,但节点信息的属性是相同的。根据第一节点信息对目标网页重新提取符合预设条件的节点信息,重新提取的节点信息符合预设条件,即与第一节点信息具有相同的属性,则重新提取的节点信息所包含的内容的类型与第一节点信息所包含的内容的类型相同,为目标网页所包含的正文文本。在重新提取节点信息时,可以先获取目标网页中所有的节点信息的属性,然后从中查找与第一节点信息的属性相同的节点信息并提取,提取到的节点信息包含的内容的类型与第一节点信息相同,为目标网页所包含的正文文本。
可选地,确定单元包括:第二获取模块,用于获取从网站的每个网页中提取的节点信息的属性;第一确定模块,用于根据节点信息的属性确定节点信息为第一节点信息或者第二节点信息,其中,节点信息的属性包括ID信息。
包含有网页正文文本的节点信息与不包含网页正文文本的节点信息,其节点信息的属性是不相同的,节点信息的属性包括ID信息。因此,第一节点信息与第二节点信息的ID信息是不相同的。因此,在从网站的每个网页中提取出节点信息之后,根据节点信息的属性,可以分辨出提取到的节点信息中,哪些节点信息所包含有相同类型的文本,哪些节点信息所包含的文本的类型是不同的,可选的,可以根据节点信息的ID信息来分辨节点信息所包含的文本类型是否相同,进而确定出哪些节点信息为第一节点信息,哪些节点信息为第二节点信息。
可选地,所述第一提取单元包括:第三获取模块,用于获取每个所述网页中所有节点信息所包含的文本;信息模块,用于将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息,得到多个节点信息。
在本发明实施例中,从网站的每个网页中提取节点信息时,按照节点信息包含的文本的长度进行提取,具体地,将待提取网页中包含的文本的长度最长的节点信息作为从该网页中提取的节点信息。
可选地,确定单元包括:第二确定模块,用于将所述多个节点信息中具有相同ID信息的,数量最多的节点信息作为第一节点信息;第三确定模块,用于将多个节点信息中除第一节点信息以外的节点信息作为第二节点信息。
网站中正文文本的长度最长的网页占大多数,非正文文本的长度最长的网页占少数,因此,上述从网站的每个网页中提取出的节点信息,大部分包含有网页的正文文本,是第一节点信息,同时,也可能存在少部分节点信息,包含有非正文文本,是第二节点信息。由于根据节点信息的属性是否相同可以判断出节点信息所包含的文本类型是否相同,因此,根据节点信息的属性即可判断出哪些节点信息包括网页正文文本,是第一节点信息,哪些节点信息不包括网页正文文本,是第二节点信息。具体地,在从网站的每个网页中提取出节点信息之后,获取从网站的每个网页中提取出的节点信息的属性,可选地,获取节点信息的ID信息,其中,将具有相同的ID信息的数量最多的节点信息作为包含网页正文文本的节点信息,即第一节点信息,而除了第一节点信息之外的节点信息均不包括网页正文文本的为第二节点信息。
例如:获取每一个网页中包含文本的长度,将包括文本的长度最长的节点信息提取出来,作为从该网页中提取出节点信息。通过获取上述提取出的节点信息的ID信息发现,ID信息为A的节点信息占大多数,另有少部分的节点信息的ID信息分别为B、C和D,则ID信息为A的节点信息为第一节点信息,ID信息为B、C或者D的节点信息为第二节点信息。
需要说明的是,节点信息还包含有其它属性,如样式信息等,如果一个网站的所有网页中包含的正文文本的节点信息的样式信息都是相同的,并且,不包含网页正文文本的节点信息与包含网页正文文本的节点信息相比,其样式信息是不同的,则从网站的每个网页中提取出节点信息之后,可以获取节点信息的样式信息,并将具有相同的样式信息的数量最多的节点信息作为包含网页正文文本的节点信息,即第一节点信息,除了第一节点信息之外的节点信息均作为第二节点信息。
可选地,装置还包括:记录单元,用于在根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息之后,如果对目标网页无法重新提取出节点信息,则记录目标网页的地址。
在根据第一节点信息对提取出第二节点信息的目标网页重新提取节点信息时,可能提取不到与第一节点信息的属性一致的节点信息,此时,记录单元将该目标网页的网页地址记录到系统日志中,以备技术人员进行人工排查。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种网站正文提取的方法,其特征在于,包括:
从网站的每个网页中提取节点信息;
将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点信息,所述第二节点信息为不包含网页正文文本的节点信息;
提取所述第一节点信息中的网页正文文本;
根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;
将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本;
以及,从所述网站的每个网页中提取节点信息包括:获取每个所述网页中所有节点信息所包含的文本;将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息,得到多个节点信息;
以及,将所述节点信息确定为第一节点信息或第二节点信息包括:将所述多个节点信息中具有相同ID信息的数量最多的节点信息作为所述第一节点信息;将所述多个节点信息中除所述第一节点信息以外的节点信息作为所述第二节点信息。
2.根据权利要求1所述的方法,其特征在于,根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息包括:
获取所述目标网页中所有节点信息的属性;
从所述所有节点信息的属性中查找与所述第一节点信息的属性相同的节点信息。
3.根据权利要求1所述的方法,其特征在于,将所述节点信息确定为第一节点信息或第二节点信息包括:
获取从所述网站的每个网页中提取的节点信息的属性;
根据所述节点信息的属性确定所述节点信息为第一节点信息或者第二节点信息,其中,所述节点信息的属性包括ID信息。
4.根据权利要求1所述的方法,其特征在于,在根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息之后,所述方法还包括:
如果对目标网页无法重新提取出节点信息,则记录所述目标网页的地址。
5.一种网站正文信息提取的装置,其特征在于,包括:
第一提取单元,用于从网站的每个网页中提取节点信息;
确定单元,用于将所述节点信息确定为第一节点信息或第二节点信息,其中,所述第一节点信息为包含网页正文文本的节点的信息,所述第二节点信息为不包含网页正文文本的节点信息;
第二提取单元,用于提取所述第一节点信息中的网页正文文本;
第三提取单元,用于根据所述第一节点信息对目标网页重新提取符合预设条件的节点信息,其中,所述目标网页为提取出所述第二节点信息的网页;
正文单元,用于将重新提取到的节点信息所包含的文本作为所述目标网页的网页正文文本;
以及,所述第一提取单元包括:第三获取模块,用于获取每个所述网页中所有节点信息所包含的文本;信息模块,用于将包含的文本长度最长的节点信息作为从所述网页中提取的节点信息,得到多个节点信息;
以及,所述确定单元包括:第二确定模块,用于将所述多个节点信息中具有相同ID信息的,数量最多的节点信息作为所述第一节点信息;第三确定模块,用于将所述多个节点信息中除所述第一节点信息以外的节点信息作为所述第二节点信息。
6.根据权利要求5所述的装置,其特征在于,所述第三提取单元包括:
第一获取模块,用于获取所述目标网页中所有节点信息的属性;
查找模块,用于从所述所有节点信息的属性中查找与所述第一节点信息的属性相同的节点信息。
7.根据权利要求5所述的装置,其特征在于,所述确定单元包括:
第二获取模块,用于获取从所述网站的每个网页中提取的节点信息的属性;
第一确定模块,用于根据所述节点信息的属性确定所述节点信息为第一节点信息或者第二节点信息,其中,所述节点信息的属性包括ID信息。
CN201710084396.6A 2017-02-16 2017-02-16 网站正文提取的方法和装置 Active CN108446285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710084396.6A CN108446285B (zh) 2017-02-16 2017-02-16 网站正文提取的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710084396.6A CN108446285B (zh) 2017-02-16 2017-02-16 网站正文提取的方法和装置

Publications (2)

Publication Number Publication Date
CN108446285A CN108446285A (zh) 2018-08-24
CN108446285B true CN108446285B (zh) 2020-10-27

Family

ID=63190739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710084396.6A Active CN108446285B (zh) 2017-02-16 2017-02-16 网站正文提取的方法和装置

Country Status (1)

Country Link
CN (1) CN108446285B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020179A (zh) * 2012-11-28 2013-04-03 北京小米科技有限责任公司 一种网页内容的提取方法、装置和设备
CN103150355A (zh) * 2013-02-21 2013-06-12 北京小米科技有限责任公司 一种网页内容预览的方法、装置及设备
CN103617164A (zh) * 2013-10-22 2014-03-05 小米科技有限责任公司 网页预取方法、装置及终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020179A (zh) * 2012-11-28 2013-04-03 北京小米科技有限责任公司 一种网页内容的提取方法、装置和设备
CN103150355A (zh) * 2013-02-21 2013-06-12 北京小米科技有限责任公司 一种网页内容预览的方法、装置及设备
CN103617164A (zh) * 2013-10-22 2014-03-05 小米科技有限责任公司 网页预取方法、装置及终端设备

Also Published As

Publication number Publication date
CN108446285A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN108763591B (zh) 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108334508B (zh) 网页信息的提取方法和装置
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN106776609B (zh) 网站转载数量的统计方法及装置
CN103546446A (zh) 一种钓鱼网站的检测方法、装置和终端
WO2017173801A1 (zh) 一种个性化多媒体推荐方法和装置
US8290925B1 (en) Locating product references in content pages
CN106250402B (zh) 一种网站分类方法及装置
CN106547895B (zh) 一种网页信息的提取方法及装置
CN110717801A (zh) 一种商品信息推送方法及装置
CN106168968B (zh) 一种网站分类方法及装置
CN106933916B (zh) Json字符串的处理方法及装置
CN106202050B (zh) 主题信息获取方法、装置和电子设备
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
CN108446285B (zh) 网站正文提取的方法和装置
CN107239520A (zh) 一种通用论坛正文提取方法
CN108228609B (zh) 信息过滤方法和装置
CN106339381B (zh) 一种信息处理方法及装置
KR101221096B1 (ko) 스팸 관리 장치 및 스팸 관리 방법
Lin et al. Combining a segmentation-like approach and a density-based approach in content extraction
CN108255866B (zh) 检查网站中链接的方法和装置
CN115796146A (zh) 一种文件对比方法及装置
CN108073646B (zh) 目录提取方法及装置
CN106055572B (zh) 页面转化参数的处理方法及装置
CN106649367B (zh) 检测关键词推广程度的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant