CN109635219A - 一种网页内容提取方法 - Google Patents
一种网页内容提取方法 Download PDFInfo
- Publication number
- CN109635219A CN109635219A CN201811479503.6A CN201811479503A CN109635219A CN 109635219 A CN109635219 A CN 109635219A CN 201811479503 A CN201811479503 A CN 201811479503A CN 109635219 A CN109635219 A CN 109635219A
- Authority
- CN
- China
- Prior art keywords
- node
- score
- label
- web page
- dom tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的网页内容提取方法,涉及数据分析技术领域,通过过滤网页内容中标签为script及css的节点,生成基于DOM树的第一节点集合,从第一节点集合中提取标签包含文本的节点,生成基于DOM树的第二节点集合,对第二节点集合中的各个节点进行过滤,生成基于DOM树的第三节点集合,遍历第三节点集合中的各个节点,依据设定的计分公式,分别计算各个节点的得分并生成得分集合,从得分集合中获取分数最高的节点,从所述节点中提取文本,节省了大量人力成本、提高了效率及通用性,解决了现有技术存在的人力成本高、效率低及通用性不强的缺陷。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及一种网页内容提取方法。
背景技术
在这个信息爆炸的大数据时代,海量的有价值数据是科学研究以及工业生产的重要基础。随着计算机计算能力与日俱增以及机器学习的大热,对数据的需求也是越来越大。网页作为互联网信息的载体,是数据获取的主要入口。海量的数据提取如果只是纯粹依靠人力,显然是很难或者是不可能的,所以只能依靠程序现实。但是网页设计的初衷仅仅是向人展示信息,为了能吸引人的眼球,各种网页的结构设计千变万化,而且网页中会有广告,或者其他与用户交互所必需的但与网页主题内容不相关的信息,为正文内容的提取带来了诸多挑战。
现有的技术方案都是针对特定的网站,结合网页DOM树结构设计出一个定向的爬虫程序,但是,正如上文描述的那样,还是需要有专门的人员对网页DOM树结构进行分析,这种技术方案对于特定的网站能有很好的效果,但是,如果该网站在未来进行过页面调整,那么这种方案就会失效,而且这种技术方案不具备泛化能力,也就是说如果有1000个不同的网页,那么就需要分析这1000个网页的DOM树结构。
综上,可以看出,现有的解决方案需要投入大量的人力,效率较低、通用性不强。
发明内容
为解决现有技术的不足,本发明实施例提供了一种网页内容提取方法。
本发明实施例提供的网页内容提取方法包括以下步骤:
过滤网页内容中标签为script及css的节点,生成基于DOM树的第一节点集合;
从所述第一节点集合中提取标签包含文本的节点,生成基于DOM树的第二节点集合;
对所述第二节点集合中的各个节点进行过滤,生成基于DOM树的第三节点集合,包括:
判断所述第二节点集合中是否存在停用词的数量是否小于设定的阈值的节点,如果是,则过滤掉所述节点;
判断判断所述第二节点集合中标签为a或img的节点的密度是否大于设定的阈值,如果是,则过滤掉所述节点;
遍历所述第三节点集合中的各个节点,依据设定的计分公式S=a+b+n×1,分别计算各个节点的得分并生成得分集合,其中,a为初始分、b为奖励分、n为停用词的数量;
从所述得分集合中获取分数最高的节点,从所述节点中提取文本。
进一步地,所述方法还包括:
若所述第二节点集合中各个节点的停用词的数量均小于设定阈值,则从网页内容的元标签中提取该网页内容的关键词并从所述关键词中提取文本。
进一步地,所述方法还包括:
若所述第二节点集合中各个节点的标签均为a或img,则从网页内容的元标签中提取该网页内容的关键词并从所述关键词中提取文本。
进一步地,所述方法还包括:
若得分集合中各个节点的得分相同,则从所述得分集合中获取最后一个节点,从所述节点中提取文本。
进一步地,所述方法还包括:
若所述节点的分数存在变化,则按照设定的加分规则,实时对所述节点的父亲节点及爷爷节点的分数进行更新。
本发明实施例提供的网页内容提取方法具有以下有益效果:
能自动对网页的DOM树结构进行分析,不需要投入大量的人力成本、提高了效率及通用性。
附图说明
图1为本发明实施例提供的网页内容提取方法的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明实施例提供的网页内容提取方法包括以下步骤:
S101,过滤网页内容中标签为script及css的节点,生成基于DOM树的第一节点集合;
S102,从所述第一节点集合中提取标签包含文本的节点,生成基于DOM树的第二节点集合;
S103,对所述第二节点集合中的各个节点进行过滤,生成基于DOM树的第三节点集合,包括:
S1031,判断所述第二节点集合中是否存在停用词的数量是否小于设定的阈值的节点,如果是,则过滤掉所述节点。
S1032,判断判断所述第二节点集合中标签为a或img的节点的密度是否大于设定的阈值,如果是,则过滤掉所述节点。
S104,遍历所述第三节点集合中的各个节点,依据设定的计分公式S=a+b+n×1,分别计算各个节点的得分并生成得分集合,其中,a为初始分、b为奖励分、n为停用词的数量。
作为一个具体的实施例,各个节点初始分可以设为0,b=50÷c,其中,c为已获得奖励分的节点数的个数,同时根据各个节点目前在整个节点集合中所处的位置,当节点当前所处的位置属于整个节点集合的后四分之三处时,适当减少该节点的奖励分且设定各个节点的最低奖励分最低为5分。
S105,从所述得分集合中获取分数最高的节点,从所述节点中提取文本。
可选地,所述方法还包括:
若所述第二节点集合中各个节点的停用词的数量均小于设定阈值,则从网页内容的元标签中提取该网页内容的关键词并从所述关键词中提取文本。
可选地,所述方法还包括:
若所述第二节点集合中各个节点的标签均为a或img,则从网页内容的元标签中提取该网页内容的关键词并从所述关键词中提取文本。
可选地,所述方法还包括:
若得分集合中各个节点的得分相同,则从所述得分集合中获取最后一个节点,从所述节点中提取文本。
进一步地,所述方法还包括:
若所述节点的分数存在变化,则按照设定的加分规则,实时对所述节点的父亲节点及爷爷节点的分数进行更新。
作为一个具体的实施例,更新过程如下:
若当前节点的分数存在变化,则在其父亲节点存在的情况,找到当前节点的父亲节点,按照设定的加分规则T1=S1×1,在该父亲节原得分基础上加T1分,其中,S1为对当前节点的分数;
同理,若当前节点的分数存在变化,则在其爷爷节点存在的情况,找到当前节点的爷爷节点,按照设定的加分规则T2=S1×0.5,在该爷爷节原得分基础上加T2分。
本发明实施例提供的网页内容提取方法,通过过滤网页内容中标签为script及css的节点,生成基于DOM树的第一节点集合,从第一节点集合中提取标签包含文本的节点,生成基于DOM树的第二节点集合,对第二节点集合中的各个节点进行过滤,生成基于DOM树的第三节点集合,遍历第三节点集合中的各个节点,依据设定的计分公式,分别计算各个节点的得分并生成得分集合,从得分集合中获取分数最高的节点,从所述节点中提取文本,节省了大量人力成本、提高了效率及通用性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (5)
1.一种网页内容提取方法,其特征在于,包括:
过滤网页内容中标签为script及css的节点,生成基于DOM树的第一节点集合;
从所述第一节点集合中提取标签包含文本的节点,生成基于DOM树的第二节点集合;
对所述第二节点集合中的各个节点进行过滤,生成基于DOM树的第三节点集合,包括:
判断所述第二节点集合中是否存在停用词的数量是否小于设定的阈值的节点,如果是,则过滤掉所述节点;
判断判断所述第二节点集合中标签为a或img的节点的密度是否大于设定的阈值,如果是,则过滤掉所述节点;
遍历所述第三节点集合中的各个节点,依据设定的计分公式S=a+b+n×1,分别计算各个节点的得分并生成得分集合,其中,a为初始分、b为奖励分、n为停用词的数量。
从所述得分集合中获取分数最高的节点,从所述节点中提取文本。
2.根据权利要求1所述的网页内容提取方法,其特征在于,所述方法还包括:
若所述第二节点集合中各个节点的停用词的数量均小于设定阈值,则从网页内容的元标签中提取该网页内容的关键词并从所述关键词中提取文本。
3.根据权利要求1所述的网页内容提取方法,其特征在于,所述方法还包括:
若所述第二节点集合中各个节点的标签均为a或img,则从网页内容的元标签中提取该网页内容的关键词并从所述关键词中提取文本。
4.根据权利要求1所述的网页内容提取方法,其特征在于,所述方法还包括:
若得分集合中各个节点的得分相同,则从所述得分集合中获取最后一个节点,从所述节点中提取文本。
5.根据权利要求1-4任一项所述的网页内容提取方法,其特征在于,所述方法还包括:
若所述节点的分数存在变化,则按照设定的加分规则,实时对所述节点的父亲节点及爷爷节点的分数进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811479503.6A CN109635219A (zh) | 2018-12-05 | 2018-12-05 | 一种网页内容提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811479503.6A CN109635219A (zh) | 2018-12-05 | 2018-12-05 | 一种网页内容提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635219A true CN109635219A (zh) | 2019-04-16 |
Family
ID=66071387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811479503.6A Pending CN109635219A (zh) | 2018-12-05 | 2018-12-05 | 一种网页内容提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635219A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581478A (zh) * | 2020-05-07 | 2020-08-25 | 成都信息工程大学 | 一种特定主体的跨网站通用新闻采集方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298638A (zh) * | 2011-08-31 | 2011-12-28 | 北京中搜网络技术股份有限公司 | 使用网页标签聚类提取新闻网页内容的方法和系统 |
CN102646095A (zh) * | 2011-02-18 | 2012-08-22 | 株式会社理光 | 一种基于网页分类信息的对象分类方法和系统 |
CN104346405A (zh) * | 2013-08-08 | 2015-02-11 | 阿里巴巴集团控股有限公司 | 一种从网页中抽取信息的方法及装置 |
CN104598577A (zh) * | 2015-01-14 | 2015-05-06 | 晶赞广告(上海)有限公司 | 一种网页正文的提取方法 |
-
2018
- 2018-12-05 CN CN201811479503.6A patent/CN109635219A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646095A (zh) * | 2011-02-18 | 2012-08-22 | 株式会社理光 | 一种基于网页分类信息的对象分类方法和系统 |
CN102298638A (zh) * | 2011-08-31 | 2011-12-28 | 北京中搜网络技术股份有限公司 | 使用网页标签聚类提取新闻网页内容的方法和系统 |
CN104346405A (zh) * | 2013-08-08 | 2015-02-11 | 阿里巴巴集团控股有限公司 | 一种从网页中抽取信息的方法及装置 |
CN104598577A (zh) * | 2015-01-14 | 2015-05-06 | 晶赞广告(上海)有限公司 | 一种网页正文的提取方法 |
Non-Patent Citations (1)
Title |
---|
邓光喜: "面向主题的Web文档自动文摘生成方法研究", 《万方数据》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581478A (zh) * | 2020-05-07 | 2020-08-25 | 成都信息工程大学 | 一种特定主体的跨网站通用新闻采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224606B (zh) | 一种用户标识的处理方法及装置 | |
US9348857B2 (en) | Probabilistically finding the connected components of an undirected graph | |
CN108563686B (zh) | 基于混合神经网络的社交网络谣言识别方法及系统 | |
CN104090886A (zh) | 构建用户实时画像的方法及装置 | |
JP2019533205A (ja) | ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 | |
Kwanashie et al. | An integer programming approach to the hospitals/residents problem with ties | |
CN108334585A (zh) | 一种网页爬虫方法、装置以及电子设备 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN103617213B (zh) | 识别新闻网页属性特征的方法和系统 | |
CN102646095B (zh) | 一种基于网页分类信息的对象分类方法和系统 | |
CN110347724A (zh) | 异常行为识别方法、装置、电子设备及介质 | |
CN104598536B (zh) | 一种分布式网络信息结构化处理方法 | |
US20170262773A1 (en) | Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data | |
CN103077254A (zh) | 网页获取方法和装置 | |
CN108346107A (zh) | 一种社交内容风险识别方法、装置以及设备 | |
CN108241646B (zh) | 一种搜索匹配方法和装置、推荐方法和装置 | |
CN109918658A (zh) | 一种从文本中获取目标词汇的方法及系统 | |
CN103870541A (zh) | 社交网络用户兴趣挖掘方法和系统 | |
CN107153702A (zh) | 一种数据处理方法及装置 | |
Yan et al. | A clustering algorithm for multi-modal heterogeneous big data with abnormal data | |
CN104166545B (zh) | 一种网页资源的嗅探方法以及装置 | |
CN109344255B (zh) | 标签的填充方法及终端设备 | |
CN109635219A (zh) | 一种网页内容提取方法 | |
CN109492401A (zh) | 一种内容载体风险检测方法、装置、设备及介质 | |
CN110928636A (zh) | 虚拟机热迁移方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |