CN111241446A - 一种web网页的正文内容提取方法、装置、设备及介质 - Google Patents

一种web网页的正文内容提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN111241446A
CN111241446A CN202010032139.XA CN202010032139A CN111241446A CN 111241446 A CN111241446 A CN 111241446A CN 202010032139 A CN202010032139 A CN 202010032139A CN 111241446 A CN111241446 A CN 111241446A
Authority
CN
China
Prior art keywords
content
web page
webpage
target web
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010032139.XA
Other languages
English (en)
Other versions
CN111241446B (zh
Inventor
马晓峰
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202010032139.XA priority Critical patent/CN111241446B/zh
Publication of CN111241446A publication Critical patent/CN111241446A/zh
Application granted granted Critical
Publication of CN111241446B publication Critical patent/CN111241446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种web网页的正文内容提取方法,包括:根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息;利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容,提取出目标web网页的正文内容。本方法能够提高提取web网页中的正文内容的准确度。本申请还公开了一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。

Description

一种web网页的正文内容提取方法、装置、设备及介质
技术领域
本发明涉及web网页领域,特别涉及一种web网页的正文内容提取方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术的快速发展与普及,web网页逐渐成为人们获取信息的主要来源之一。但是,与此同时,web网页中的正文内容中往往夹杂着许多无用信息或者垃圾信息,如广告展示、垃圾链接、推荐产品信息、导航条信息和版权说明信息等,这些信息将直接影响用户获取到web网页中的有效的正文内容。
现有技术中,通过根据目标web网页的网页内容设置对应的DOM树,再根据文本密度规则、目标web网页的页面布局等规则,提取出目标web网页中的有效的正文内容。但是,由于web网页的页面结构设置越来越复杂,现有技术的方法在提取web网页中正文内容时,将存在提取不准确的情况。
因此,如何提高提取web网页中的正文内容的准确度,是本领域技术人员目前需要解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种web网页的正文内容提取方法,能够提高提取web网页中的正文内容的准确度;本发明的另一目的是提供一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。
为解决上述技术问题,本发明提供一种web网页的正文内容提取方法,包括:
根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;
按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;
利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。
优选地,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:
判断所述网页内容中是否存在敏感词汇;
若是,则发出对应的提示信息。
优选地,所述统计用户对各所述网页内容的操作信息具体包括:
统计所述用户浏览各所述网页内容的时间长度和/或所述用户对各所述网页内容的点选操作的次数和/或所述用户在各所述网页内容上进行的输入操作的次数。
优选地,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:
对所述DOM树中的网页内容进行数据清洗操作。
优选地,在所述按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息之后,进一步包括:
确定出所述用户浏览时间最长和/或输入操作次数最多的目标网页内容;
将所述目标网页内容进行突出显示。
优选地,进一步包括:
记录存在所述敏感词汇的所述目标web网页的网址。
优选地,进一步包括:
根据所述文本密度规则、所述页面布局、所述网页内容和对应的操作信息确定出所述目标web网页的网页类型。
为解决上述技术问题,本发明还提供一种web网页的正文内容提取装置,包括:
设置模块,用于根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;
统计模块,用于按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;
提取模块,用于利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。
为解决上述技术问题,本发明还提供一种web网页的正文内容提取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一种web网页的正文内容提取方法的步骤。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种web网页的正文内容提取方法的步骤。
本发明提供的一种web网页的正文内容提取方法,首先根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;然后按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息;再利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容,提取出目标web网页的正文内容。
可见,本方法通过进一步按照预设规则对各网页内容进行监听埋点,并统计出用户对各网页内容的操作信息;再在现有技术根据文本密度规则和页面布局确定目标web网页的正文内的基础上,进一步利用各网页内容和对应的操作信息判断各网页内容是否为正文内容,从而提取出目标web网页的正文内容,从而能够提高提取web网页中的正文内容的准确度。
为解决上述技术问题,本发明还提供了一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种web网页的正文内容提取方法的流程图;
图2为本发明实施例提供的一种web网页的正文内容提取装置的结构图;
图3为本发明实施例提供的一种web网页的正文内容提取设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的核心是提供一种web网页的正文内容提取方法,能够提高提取web网页中的正文内容的准确度;本发明的另一核心是提供一种web网页的正文内容提取装置、设备及计算机可读存储介质,均具有上述有益效果。
为了使本领域技术人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
图1为本发明实施例提供的一种web网页的正文内容提取方法的流程图。如图1所示,一种web网页的正文内容提取方法包括:
S10:根据目标web网页的源代码确定出与目标web网页对应的DOM树;
其中,DOM树的叶子节点表示目标web网页中的网页内容。
具体的,首先获取目标web网页的HTML源代码,再通过DOM(Document ObjectModel,文档对象化模型)将HTML源代码进行解析,生成的HTML tree树状结构和对应访问方法,即,得出DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容,且网页内容包括目标web页面中的纯文本、点选按钮以及输入框等内容。
S20:按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息。
具体的,在得出与目标web页面对应的DOM树之后,按照预设规则对各网页内容进行监听埋点,以便于对设置了监听埋点的网页内容进行信息统计。其中,预设规则指的是预先设置的具体进行监听埋点的网页内容的类型,通过监听埋点,以获取各不同的用户分别对各网页内容进行的操作情况。可以理解的是,对网页内容进行埋点是网站分析的一种常用的数据采集方法,因此本实施例对监听埋点的具体实现方式不做赘述。另外,在本实施例中,具体是统计用户对各网页内容的操作信息,例如可以是用户浏览网页内容的时间长度等,本实施例对此不做限定。
S30:利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容,提取出目标web网页的正文内容。
具体的,在本实施例中,预先训练出决策树,该决策树的每个叶子节点表示一个判断类别,该叶子节点的两个分支表示两种判断结果(是/否)。在本实施例中,判断类别是根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息设置的,因此,决策树的根节点到叶子节点是一条分类的路径规划,利用决策树对每个网页内容进行决策判断,确定出该网页内容是否为正文内容。利用决策树进行决策判断,结构简单,处理效率高。
本发明实施例提供的一种web网页的正文内容提取方法,首先根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;然后按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息;再利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容,提取出目标web网页的正文内容。
可见,本方法通过进一步按照预设规则对各网页内容进行监听埋点,并统计出用户对各网页内容的操作信息;再在现有技术根据文本密度规则和页面布局确定目标web网页的正文内的基础上,进一步利用各网页内容和对应的操作信息判断各网页内容是否为正文内容,从而提取出目标web网页的正文内容,从而能够提高提取web网页中的正文内容的准确度。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例在根据目标web网页的源代码确定出与目标web网页对应的DOM树之后,进一步包括:
判断网页内容中是否存在敏感词汇;
若是,则发出对应的提示信息。
具体的,在本实施例中,可以预先利用正则表达式设置敏感词汇,然后在根据目标web网页的源代码确定出与目标web网页对应的DOM树之后,根据预先设置的敏感词汇对各网页内容进行识别,判断网页内容中是否存在敏感词汇。若检测到网页内容中存在敏感词汇,则进一步发出提示信息。
需要说明的是,本实施例对发出提示信息的具体方式不做限定,即,对提示信息的类型不做限定,例如,可以是通过蜂鸣器和/或指示灯和/或显示器等提示装置发出对应的提示信息以达到提示的目的。
可见,本实施例通过进一步判断网页内容中是否存在敏感词汇,并在确定出网页内容中存在敏感词汇的情况下发出对应的提示信息,使得用户可以及时根据提示信息退出该目标web网页,进一步提升用户的使用体验。
作为优选的实施方式,进一步包括:
记录存在敏感词汇的目标web网页的网址。
需要说明的是,在本实施例中,是在判断出目标web网页的网页内容中存在敏感词汇时,进一步记录该目标web网页的网址。本实施例对记录该目标web网页的网址的具体方式不做限定,例如可以将该目标web网页的网址存储于预设的文本型文件中,也可以将该目标web网页的网址存储于数据库表中等。
可以理解的是,本实施例通过进一步记录该存在敏感词汇的目标web网页的网址,能够便于统计存在异常的web网页。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例在根据目标web网页的源代码确定出与目标web网页对应的DOM树之后,进一步包括:
对DOM树中的网页内容进行数据清洗操作。
需要说明的是,在本实施例中,数据清洗操作包括去除网页内容中的空格、标签、换行符等特殊字符;还可以去除掉网页内容中明显的广告内容或者导航条信息或者版权说明信息等。
通过预先对DOM树中的网页内容进行数据清洗操作,能够进一步提高后续提取目标web网页的正文内容的准确度。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例中,统计用户对各网页内容的操作信息具体包括:
统计用户浏览各网页内容的时间长度和/或用户对各网页内容的点选操作的次数和/或用户在各网页内容上进行的输入操作的次数。
可以理解的是,在实际操作中,用户在浏览目标web网页时,一般会进行查看操作,如查看目标web网页中的文字信息;点选操作,如关闭广告内容的窗口;或者输入操作,如在输入框中输入信息等。本实施例中,通过统计用户浏览各网页内容的时间长度和/或用户在各网页内容上进行的输入操作的次数,得出各网页内容的统计信息,用于目标web网页的正文内容提取操作,能够准确有效地对各网页内容进行判断。
作为优选的实施方式,在按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息之后,进一步包括:
确定出用户浏览时间最长和/或输入操作次数最多的目标网页内容;
将目标网页内容进行突出显示。
在实际操作中,用户在浏览目标web网页时,若网页内容为有用的信息,则用户一般会花费更多的时间去阅读理解,也就是说,用户浏览该网页内容的时间长度会普遍较长;或者,若网页内容为输入框,用户普遍需要在该输入框处输入信息,因此,用户在该输入框处进行的输入操作的次数会更多。
本实施例通过确定出用户浏览时间最长和/或输入操作次数最多的目标网页内容,表示目标网页内容是用户很可能需要着重注意或者需要进行输入操作的内容,因此将确定出的目标网页内容进行突出显示。具体的,突出显示的方式可以将对应的目标网页内容的字体加粗,或者利用特殊颜色显示目标网页内容等,本实施例对此不做限定,通过对目标网页内容进行突出显示,能够进一步起到提示用户注意的查看的效果,避免用户遗漏信息。
在上述实施例的基础上,本实施例对技术方案作了进一步的说明和优化,具体的,本实施例进一步包括:
根据文本密度规则、页面布局、网页内容和对应的操作信息确定出目标web网页的网页类型。
可以理解的是,不同的web网页中的文本密度规则或者页面布局或者网页内容可能是不同的,在本实施例中,预先确定各不同的文本密度规则、页面布局、网页内容和对应的操作信息的组合所对应的网页类型,然后在获取当前目标web网页的文本密度规则、页面布局、网页内容和对应的操作信息之后,确定出与目标web网页对应的网页类型。
可见,本实施例通过进一步根据文本密度规则、页面布局、网页内容和对应的操作信息确定出目标web网页的网页类型,便于用户获取目标web网页的正文内容,进一步提升用户的使用体验。
上文对于本发明提供的一种web网页的正文内容提取方法的实施例进行了详细的描述,本发明还提供了一种与该方法对应的web网页的正文内容提取装置、设备及计算机可读存储介质,由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应,因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图2为本发明实施例提供的一种web网页的正文内容提取装置的结构图,如图2所示,一种web网页的正文内容提取装置包括:
设置模块21,用于根据目标web网页的源代码确定出与目标web网页对应的DOM树;其中,DOM树的叶子节点表示目标web网页中的网页内容;
统计模块22,用于按照预设规则对各网页内容进行监听埋点,并统计用户对各网页内容的操作信息;
提取模块23,用于利用预先训练出的决策树根据文本密度规则、目标web网页的页面布局、各网页内容对应的操作信息分别判断各网页内容是否为正文内容,提取出目标web网页的正文内容。
本发明实施例提供的web网页的正文内容提取装置,具有上述web网页的正文内容提取方法的有益效果。
作为优选的实施方式,进一步包括:
判断模块,用于判断网页内容中是否存在敏感词汇;若是,则调用提示模块;
提示模块,用于发出对应的提示信息。
作为优选的实施方式,统计模块22具体包括:
统计子模块,用于统计用户浏览各网页内容的时间长度和/或用户对各网页内容的点选操作的次数和/或用户在各网页内容上进行的输入操作的次数。
作为优选的实施方式,进一步包括:
清洗模块,用于对DOM树中的网页内容进行数据清洗操作。
作为优选的实施方式,进一步包括:
统计确定模块,用于确定出用户浏览时间最长和/或输入操作次数最多的目标网页内容;
显示模块,用于将目标网页内容进行突出显示。
作为优选的实施方式,进一步包括:
记录模块,用于记录存在敏感词汇的目标web网页的网址。
作为优选的实施方式,进一步包括:
类型确定模块,用于根据文本密度规则、页面布局、网页内容和对应的操作信息确定出目标web网页的网页类型。
图3为本发明实施例提供的一种web网页的正文内容提取设备的结构图,如图3所示,一种web网页的正文内容提取设备包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序时实现如上述web网页的正文内容提取方法的步骤。
本发明实施例提供的web网页的正文内容提取设备,具有上述web网页的正文内容提取方法的有益效果。
为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述web网页的正文内容提取方法的步骤。
本发明实施例提供的计算机可读存储介质,具有上述web网页的正文内容提取方法的有益效果。
以上对本发明所提供的web网页的正文内容提取方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (10)

1.一种web网页的正文内容提取方法,其特征在于,包括:
根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;
按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;
利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。
2.根据权利要求1所述的方法,其特征在于,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:
判断所述网页内容中是否存在敏感词汇;
若是,则发出对应的提示信息。
3.根据权利要求1所述的方法,其特征在于,所述统计用户对各所述网页内容的操作信息具体包括:
统计所述用户浏览各所述网页内容的时间长度和/或所述用户对各所述网页内容的点选操作的次数和/或所述用户在各所述网页内容上进行的输入操作的次数。
4.根据权利要求1所述的方法,其特征在于,在所述根据目标web网页的源代码确定出与所述目标web网页对应的DOM树之后,进一步包括:
对所述DOM树中的网页内容进行数据清洗操作。
5.根据权利要求3所述的方法,其特征在于,在所述按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息之后,进一步包括:
确定出所述用户浏览时间最长和/或输入操作次数最多的目标网页内容;
将所述目标网页内容进行突出显示。
6.根据权利要求2所述的方法,其特征在于,进一步包括:
记录存在所述敏感词汇的所述目标web网页的网址。
7.根据权利要求1至6任一项所述的方法,其特征在于,进一步包括:
根据所述文本密度规则、所述页面布局、所述网页内容和对应的操作信息确定出所述目标web网页的网页类型。
8.一种web网页的正文内容提取装置,其特征在于,包括:
设置模块,用于根据目标web网页的源代码确定出与所述目标web网页对应的DOM树;其中,所述DOM树的叶子节点表示所述目标web网页中的网页内容;
统计模块,用于按照预设规则对各所述网页内容进行监听埋点,并统计用户对各所述网页内容的操作信息;
提取模块,用于利用预先训练出的决策树根据文本密度规则、所述目标web网页的页面布局、各所述网页内容对应的操作信息分别判断各所述网页内容是否为正文内容,提取出所述目标web网页的正文内容。
9.一种web网页的正文内容提取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的web网页的正文内容提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的web网页的正文内容提取方法的步骤。
CN202010032139.XA 2020-01-13 2020-01-13 一种web网页的正文内容提取方法、装置、设备及介质 Active CN111241446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010032139.XA CN111241446B (zh) 2020-01-13 2020-01-13 一种web网页的正文内容提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010032139.XA CN111241446B (zh) 2020-01-13 2020-01-13 一种web网页的正文内容提取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111241446A true CN111241446A (zh) 2020-06-05
CN111241446B CN111241446B (zh) 2023-10-31

Family

ID=70880660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010032139.XA Active CN111241446B (zh) 2020-01-13 2020-01-13 一种web网页的正文内容提取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111241446B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568621A (zh) * 2021-07-30 2021-10-29 北京达佳互联信息技术有限公司 一种页面埋点的数据处理方法和装置

Citations (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
WO2012155512A1 (zh) * 2011-05-18 2012-11-22 广州市动景计算机科技有限公司 基于移动终端的网页阅读方法、网页阅读装置及移动终端
US20120303636A1 (en) * 2009-12-14 2012-11-29 Ping Luo System and Method for Web Content Extraction
CN103164423A (zh) * 2011-12-09 2013-06-19 百度在线网络技术(北京)有限公司 一种用于确定渲染网页的浏览器内核类型的方法与设备
CN103412890A (zh) * 2013-07-19 2013-11-27 北京亿赞普网络技术有限公司 一种网页加载方法和装置
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统
WO2014019506A1 (en) * 2012-08-03 2014-02-06 Tencent Technology (Shenzhen) Company Limited Method and device for displaying webpage contents in browser
CN104462394A (zh) * 2012-06-25 2015-03-25 北京奇虎科技有限公司 一种识别网页正文楼层的系统和方法
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN104915398A (zh) * 2015-05-29 2015-09-16 北京京东尚科信息技术有限公司 一种网页埋点的方法及装置
US20160112492A1 (en) * 2013-06-29 2016-04-21 Guangzhou Ucweb Computer Technology Co., Ltd. Method and apparatus for providing network resources at intermediary server
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
WO2017080090A1 (zh) * 2015-11-14 2017-05-18 孙燕群 一种网页正文提取比对方法
CN106844217A (zh) * 2017-01-26 2017-06-13 网易(杭州)网络有限公司 对应用的控件进行埋点的方法及装置、可读存储介质
CN106951451A (zh) * 2017-02-22 2017-07-14 北京麒麟合盛网络技术有限公司 一种网页内容提取方法、装置及计算设备
CN107295050A (zh) * 2016-04-01 2017-10-24 阿里巴巴集团控股有限公司 前端用户行为统计方法及装置
CN107436931A (zh) * 2017-07-17 2017-12-05 广州特道信息科技有限公司 网页正文抽取方法及装置
CN107566354A (zh) * 2017-08-22 2018-01-09 北京小米移动软件有限公司 网页内容检测方法、装置及存储介质
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108846116A (zh) * 2018-06-26 2018-11-20 北京京东金融科技控股有限公司 网页曝光数据采集方法、系统、电子设备和存储介质
WO2018210164A1 (zh) * 2017-05-17 2018-11-22 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
AU2019100493A4 (en) * 2018-05-08 2019-06-20 Apple Inc. User interfaces for controlling access to applications and application-related functions on an electronic device
CN110059282A (zh) * 2019-04-23 2019-07-26 北京奇艺世纪科技有限公司 一种交互类数据的获取方法及系统
CN110083459A (zh) * 2019-03-16 2019-08-02 平安城市建设科技(深圳)有限公司 跨页面的数据埋点方法、装置、设备及存储介质
CN110262952A (zh) * 2019-06-20 2019-09-20 上海上湖信息技术有限公司 一种发送埋点曝光数据的方法及设备
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质

Patent Citations (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120303636A1 (en) * 2009-12-14 2012-11-29 Ping Luo System and Method for Web Content Extraction
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
WO2012155512A1 (zh) * 2011-05-18 2012-11-22 广州市动景计算机科技有限公司 基于移动终端的网页阅读方法、网页阅读装置及移动终端
CN103164423A (zh) * 2011-12-09 2013-06-19 百度在线网络技术(北京)有限公司 一种用于确定渲染网页的浏览器内核类型的方法与设备
CN104462394A (zh) * 2012-06-25 2015-03-25 北京奇虎科技有限公司 一种识别网页正文楼层的系统和方法
WO2014019506A1 (en) * 2012-08-03 2014-02-06 Tencent Technology (Shenzhen) Company Limited Method and device for displaying webpage contents in browser
CN103577466A (zh) * 2012-08-03 2014-02-12 腾讯科技(深圳)有限公司 一种在浏览器中显示网页内容的方法和装置
US20160112492A1 (en) * 2013-06-29 2016-04-21 Guangzhou Ucweb Computer Technology Co., Ltd. Method and apparatus for providing network resources at intermediary server
CN103412890A (zh) * 2013-07-19 2013-11-27 北京亿赞普网络技术有限公司 一种网页加载方法和装置
CN103473338A (zh) * 2013-09-22 2013-12-25 北京奇虎科技有限公司 网页内容抽取方法和网页内容抽取系统
CN104809125A (zh) * 2014-01-24 2015-07-29 腾讯科技(深圳)有限公司 一种网页类别的识别方法和装置
CN104915398A (zh) * 2015-05-29 2015-09-16 北京京东尚科信息技术有限公司 一种网页埋点的方法及装置
WO2017080090A1 (zh) * 2015-11-14 2017-05-18 孙燕群 一种网页正文提取比对方法
CN105630941A (zh) * 2015-12-23 2016-06-01 成都电科心通捷信科技有限公司 基于统计和网页结构的Web正文内容抽取方法
CN107295050A (zh) * 2016-04-01 2017-10-24 阿里巴巴集团控股有限公司 前端用户行为统计方法及装置
CN106844217A (zh) * 2017-01-26 2017-06-13 网易(杭州)网络有限公司 对应用的控件进行埋点的方法及装置、可读存储介质
CN106951451A (zh) * 2017-02-22 2017-07-14 北京麒麟合盛网络技术有限公司 一种网页内容提取方法、装置及计算设备
WO2018210164A1 (zh) * 2017-05-17 2018-11-22 中兴通讯股份有限公司 一种网页内容处理方法及装置、存储介质
CN107436931A (zh) * 2017-07-17 2017-12-05 广州特道信息科技有限公司 网页正文抽取方法及装置
CN107566354A (zh) * 2017-08-22 2018-01-09 北京小米移动软件有限公司 网页内容检测方法、装置及存储介质
AU2019100493A4 (en) * 2018-05-08 2019-06-20 Apple Inc. User interfaces for controlling access to applications and application-related functions on an electronic device
CN108920434A (zh) * 2018-06-06 2018-11-30 武汉酷犬数据科技有限公司 一种通用的网页主题内容提取方法和系统
CN108763591A (zh) * 2018-06-21 2018-11-06 湖南星汉数智科技有限公司 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN108846116A (zh) * 2018-06-26 2018-11-20 北京京东金融科技控股有限公司 网页曝光数据采集方法、系统、电子设备和存储介质
CN110083459A (zh) * 2019-03-16 2019-08-02 平安城市建设科技(深圳)有限公司 跨页面的数据埋点方法、装置、设备及存储介质
CN110059282A (zh) * 2019-04-23 2019-07-26 北京奇艺世纪科技有限公司 一种交互类数据的获取方法及系统
CN110262952A (zh) * 2019-06-20 2019-09-20 上海上湖信息技术有限公司 一种发送埋点曝光数据的方法及设备
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568621A (zh) * 2021-07-30 2021-10-29 北京达佳互联信息技术有限公司 一种页面埋点的数据处理方法和装置

Also Published As

Publication number Publication date
CN111241446B (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN108364199B (zh) 一种基于互联网用户评论的数据分析方法及系统
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
US20150067476A1 (en) Title and body extraction from web page
CN107908959A (zh) 网站信息检测方法、装置、电子设备及存储介质
CN103177036A (zh) 一种标签自动提取方法和系统
CN104077273A (zh) 一种对网页内容抽取的方法及装置
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN108334508A (zh) 网页信息的提取方法和装置
CN106168968B (zh) 一种网站分类方法及装置
CN111723265A (zh) 一种可扩展的新闻网站通用爬虫方法及系统
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN104572874B (zh) 一种网页信息的抽取方法及装置
CN114398138A (zh) 界面生成方法、装置、计算机设备和存储介质
CN114970502A (zh) 一种应用于数字政府的文本纠错方法
CN111241446B (zh) 一种web网页的正文内容提取方法、装置、设备及介质
CN103559202A (zh) 一种网页内容抽取装置和方法
CN111125704B (zh) 一种网页挂马识别方法及系统
JP5040718B2 (ja) スパム・イベント検出装置及び方法並びにプログラム
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
KR20190040046A (ko) 정보 수집 시스템, 정보 수집 방법 및 기록 매체
CN112232075A (zh) 基于时间格式和网页元素特征的文章发布时间识别方法
CN115238078A (zh) 一种网页信息抽取方法、装置、设备及存储介质
JPWO2015182559A1 (ja) 情報分析システム、情報分析方法及び情報分析プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant