CN113934914A - 一种针对新闻媒体批量加密数据的采集方法 - Google Patents

一种针对新闻媒体批量加密数据的采集方法 Download PDF

Info

Publication number
CN113934914A
CN113934914A CN202111557743.5A CN202111557743A CN113934914A CN 113934914 A CN113934914 A CN 113934914A CN 202111557743 A CN202111557743 A CN 202111557743A CN 113934914 A CN113934914 A CN 113934914A
Authority
CN
China
Prior art keywords
html
data
redis
url
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111557743.5A
Other languages
English (en)
Other versions
CN113934914B (zh
Inventor
李林
吴雷
孙于扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Orange Media Technology Co ltd
Original Assignee
Chengdu Orange Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Orange Media Technology Co ltd filed Critical Chengdu Orange Media Technology Co ltd
Priority to CN202111557743.5A priority Critical patent/CN113934914B/zh
Publication of CN113934914A publication Critical patent/CN113934914A/zh
Application granted granted Critical
Publication of CN113934914B publication Critical patent/CN113934914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种针对新闻媒体批量加密数据的采集方法,属于新闻媒体数据采集领域,包括步骤:S1,将数据库中的网址url、站名内容分别添加至由redis实现的url去重集合及由redis实现的url队列;S2,用puppeteer进程去消费由redis实现的url队列中的数据;S3,获取网页数据html,将其加入到由redis实现的html队列中,并将由redis实现的html队列标记区分为列表页网页数据html或内容页网页数据html;S4,解析由redis实现的html队列中的数据并处理。本发明更容易实现批量加密数据的采集,且具有效率高、成本低、维护容易等优点。

Description

一种针对新闻媒体批量加密数据的采集方法
技术领域
本发明涉及新闻媒体数据采集领域,更为具体的,涉及一种针对新闻媒体批量加密数据的采集方法。
背景技术
作为新闻舆情媒体,需要对相关新闻数据进行采集。
目前,现有新闻数据的采集技术遇到了如下问题:1.由于很多网站使用css加密、字符加密、ajax、动态页面加载和反爬虫检测等手段,导致数据采集难度提升。2.如果仍然采用传统数据采集技术,例如单个网站去分析破解及做内容提取,往往存在效率低下的问题。3.随着科技的发展,网站反爬机制、网站样式变化更新越来越快,现有的数据采集方案存在采集稳定性差、维护困难的问题。4.采集成本高的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种针对新闻媒体批量加密数据的采集方法,更容易实现批量加密数据的采集,且具有效率高、成本低、维护容易等优点。
本发明的目的是通过以下方案实现的:
一种针对新闻媒体批量加密数据的采集方法,首先将需要采集的网址url、站名内容加入数据库;还包括如下步骤:
S1,设置由redis实现的url去重集合及由redis实现的url队列,并将数据库中的网址url、站名内容分别添加至所述由redis实现的url去重集合及所述由redis实现的url队列;
S2,由处理器产生多个puppeteer进程去消费步骤S1中所述由redis实现的url队列中的数据;
S3,设置由redis实现的html队列,获取网页数据html后,将其加入到所述由redis实现的html队列中,并在由redis实现的html队列设置一标记流程,该标记流程用于区分列表页网页数据html或内容页网页数据html;
S4,解析所述由redis实现的html队列中的数据,如果解析后的数据是列表页网页数据html,则提取由redis实现的html中网址url并去重后加入步骤S2的由redis实现的url队列中;如果解析后的数据是文章详情页网页数据html,则将解析内容保存在存储器中并对页面进行解析。
进一步地,在步骤S2中,所述多个puppeteer进程在空闲时将继续保持多个puppeteer进程并将浏览器状态信息保存在text文档,并标记为待调用;当由redis实现的url队列中有url需要解析时,随机读取一个标记为待调用状态的puppeteer进程的text文档信息,然后标记该文档状态为调用中。
进一步地,在步骤S4中,所述设置一标记流程具体为设置一html标记;以及包括子步骤:设一监测流程和设一html标记解析程序进程,所述监测流程用于监测redis html队列中是否有解析数据,如果存在解析数据,则由处理器调用所述html标记解析程序进程去解析所述html标记。
进一步地,在步骤S4中,所述对页面进行解析包括子步骤:
S401,先移除javascript、css和iframe,再将网页解析成dom树,遍历每个节点i, 通过公式TDi=
Figure 100002_DEST_PATH_IMAGE001
得到每个节点的文本密度TDi;其中,Ti为节点i 的字符串字数,LTi为节点i的带链接的字符串字数,TGi为节点i的标签数,LTGi为节点i的 带连接的标签数;
S402,再通过符号密度公式:SBDi=
Figure 235679DEST_PATH_IMAGE002
计算出标签的符号密 度SBDi,Sbi表示符号数量;
S403,再通过公式:score=
Figure 100002_DEST_PATH_IMAGE003
log(10)(PNumi+2)*log(sbDi)计算每 个节点的评分score;其中,SD表示每个节点的文本密度的标准差,NDi表示节点i的文本密 度,PNumi表示正文所在标签数,sbDi表示节点i的符号密度;
S404,最后返回评分值最大的节点对象,判定为文本内容,然后通过节点提取内容。
进一步地,在步骤S2中,包括子步骤:设一检测流程,用于检测由redis实现的url队列是否有数据;如果有数据,则随机调用一个puppeteer进程,并从text文档中读取浏览器状态,从而快速启动浏览器并访问获取的url地址。
进一步地,在调用puppeteer进程之前,包括子步骤:设另一标记流程,用于在text文档中对浏览器做运行标记,直到运行完成,标记解除。
进一步地,在步骤S4中,包括如下子步骤:如果所述html标记为列表页,则将对应网页数据html转为dom树,获取所有含有标题属性的标签中的url,并做base64编码,然后设置一redis set集合用于去重,将通过所述redis set集合去重后的数据添加到所述由redis实现的url队列中并设第三标记流程,通过该第三标记流程标记为内容页,再由所述多个puppeteer进程去消费;如果所述html标记为内容页,则直接进行文本解析。
进一步地,所述redis set集合用于对所有需要采集的网址进行去重,判断是否已经消费过,防止重复消费。
进一步地,在步骤S4中,所述文本解析包括发布时间提取、标题提取文本提取和图片提取。
进一步地,所述发布时间提取具体为:按常用时间格式编写正则匹配,第一优先级先匹配meta数据,如果没有再通过正则优先级去正文匹配;所述标题提取具体为:通过title/h1/meta标签来依次判断;所述文本图片提取具体为:通过内容节点获取其下所有的图片路径,返回字符串,然后将采集内容以字典方式返回存储到ES数据库。
本发明的有益效果是:
1. 本发明更容易实现批量加密数据的采集,采用了puppeteer进程去请求url获取数据,并结合redis数据库机制实现url去重集合及url队列,无需破解网站加密即可得到网页渲染后的html数据,同时能够使得puppeteer进程启动、运行速度快,足够稳定。
2. 本发明提高了数据采集效率,减少内存占用及提升了浏览器打开速度,从而快速启动浏览器并访问获取的url地址,提高数据采集效率。具体的,根据浏览器状态信息优化了puppeteer进程调用机制,可以实现快速启动puppeteer进程,去请求由redis实现的url获取html,然后将html及其类型信息(列表页/新闻页,在url队列中有返回)添加到html队列中等待html解析。
3. 本发明可以大大降低数据采集工作量、工作难度及维护成本。具体的,例如puppeteer做数据采集,并再解析由redis实现的html队列中的数据等,主要工作时间在数据解析,从而跳过现有人工编写解析规则的环节,实现自动解析出文章等信息,减少人员的后期维护工作。
4. 本发明整体上优化了puppeteer进程的调用机制,并设计了解析流程,可以显著降低采集成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法步骤流程图;
图2为本发明实施例中puppeteer的流程调用逻辑流程图;
图3本发明实施例中解析程序调用逻辑流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
下面根据附图1~图3,对本发明的技术构思、工作原理、功效和工作过程作进一步详细说明。
本发明旨在至少解决如下技术问题:1.由于很多网站使用css加密、字符加密、ajax、动态页面加载和反爬虫检测等手段,导致数据采集难度提升。2.如果仍然采用传统数据采集技术,例如单个网站去分析破解及做内容提取,往往存在效率低下的问题。3.随着科技的发展,网站反爬机制、网站样式变化更新越来越快,现有的数据采集方案存在采集稳定性差、维护困难的问题。4.采集成本高的问题。
图2为本发明基于puppeteer的流程调用逻辑流程图,由处理器产生多个puppeteer进程去消费由redis实现的url队列中的数据。此处采用puppeteer因为运行速度快,足够稳定,如果程序崩溃会自动清除进程,不会遗留后台进程的优点,同时设计相应的标记流程,并与redis数据库机制实现url去重集合及url队列结合。当redis队列中有url存在时,会先检测puppeteer文件中是否有为调用状态的puppeteer文件,如果没有将继续等待下一次检测,如果有将创建多进程。进程先改变puppeteer文件状态为调用中,再创建puppeteer请求url。当获取到html后,将html及其url所属类别(列表页/新闻页)保存到redis中的html队列中等待解析,该进程将关闭puppeteer程序,更改puppeteer文件的状态为未调用。如果程序崩溃,会捕捉异常,改变该puppeteer文件状态为未调用,从而更容易实现批量加密数据的采集,减少内存占用及提升浏览器打开速度,从而快速启动浏览器并访问获取的url地址,提高数据采集效率。
图3为本发明实施例的解析程序调用逻辑流程图,此处实现了自动解析网页,不需要人工编写采集规则,极大提高了采集效率,减少后期维护。下面将对此步骤作进一步说明:当程序检测到html队列中有数据时,先判断该html的自定义标签是列表页还是新闻页。如果是列表页,将调用列表解析程序对该html进行解析,获取其中的新闻详情url,然后加入到redis指纹过滤中过滤url。如果是新闻页,将调用文本解析程序实现自动解析,对该新闻页的标题、发布时间、文本内容、图片进行解析,然后将结果保存至ES数据库中。本发明可以大大降低数据采集工作量、工作难度及维护成本,使主要工作时间在数据解析,从而跳过现有人工编写解析规则的环节,实现自动解析出文章等信息,减少人员的后期维护工作。
在解析环节,包括页面进行解析等,实现自动化高效解析,降低数据采集难度和成本。
实施例1:一种针对新闻媒体批量加密数据的采集方法,首先将需要采集的网址url、站名内容加入数据库;还包括如下步骤:
S1,设置由redis实现的url去重集合及由redis实现的url队列,并将数据库中的网址url、站名内容分别添加至由redis实现的url去重集合及由redis实现的url队列;
S2,由处理器产生多个puppeteer进程去消费步骤S1中由redis实现的url队列中的数据;
S3,设置由redis实现的html队列,获取网页数据html后,将其加入到由redis实现的html队列中,并在由redis实现的html队列设置一标记流程,该标记流程用于区分列表页网页数据html或内容页网页数据html;
S4,解析由redis实现的html队列中的数据,如果解析后的数据是列表页网页数据html,则提取由redis实现的html中网址url并去重后加入步骤S2的由redis实现的url队列中;如果解析后的数据是文章详情页网页数据html,则将解析内容保存在存储器中并对页面进行解析。
为了减少网站采集规则维护,提高采集稳定性,此处本发明实施例对页面进行解析,可以依据文本格式、文本占比等算法自动分析页面,输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码,不再单独对每个网站编辑采集规则,大大降低采集工作量、工作难度及维护成本。
实施例2:在实施例1的基础上,在步骤S2中,多个puppeteer进程在空闲时将继续保持多个puppeteer进程并将浏览器状态信息保存在text文档,并标记为待调用;当所述由redis实现的url队列中有url需要解析时,随机读取一个标记为待调用状态的puppeteer进程的text文档信息,然后标记该文档状态为调用中,可以减少内存占用及提升浏览器打开速度。
实施例3:在实施例1的基础上,在步骤S4中,设置一标记流程,具体为设置一html标记;以及包括子步骤:设一监测流程和设一html标记解析程序进程,监测流程用于监测redis html队列中是否有解析数据,如果存在解析数据,则由处理器调用html标记解析程序进程去解析html标记。
实施例4:在实施例1的基础上,在步骤S4中,对页面进行解析包括子步骤:
S401,先移除javascript、css和iframe,再将网页解析成dom树,遍历每个节点i, 通过公式TDi=
Figure 280996DEST_PATH_IMAGE001
得到每个节点的文本密度TDi;其中,Ti为节点i的 字符串字数,LTi为节点i的带链接的字符串字数,TGi为节点i的标签数,LTGi为节点i的带 连接的标签数;
S402,再通过符号密度公式:SBDi=
Figure 82730DEST_PATH_IMAGE002
计算出标签的符号密度 SBDi,Sbi表示符号数量;
S403,再通过公式:score=
Figure 428260DEST_PATH_IMAGE003
log(10)(PNumi+2)*log(sbDi)计算每 个节点的评分score;其中,SD表示每个节点的文本密度的标准差,NDi表示节点i的文本密 度,PNumi表示正文所在标签数,sbDi表示节点i的符号密度;
S404,最后返回评分值最大的节点对象,判定为文本内容,然后通过节点提取内容。
实施例5:在实施例2的基础上,包括子步骤:设一检测流程,用于检测由redis实现的url队列是否有数据;如果有数据,则随机调用一个puppeteer进程,并从text文档中读取浏览器状态,从而快速启动浏览器并访问获取的url地址。
实施例6:在实施例2或5的基础上,在调用puppeteer进程之前,包括子步骤:设另一标记流程,用于会在text文档中对浏览器做运行标记,直到运行完成,标记解除。
实施例7:在实施例3的基础上,在步骤S4中,包括如下子步骤:如果html标记为列表页,则将对应网页数据html转为dom树,获取所有含有标题属性的标签中的url,并做base64编码,然后设置一redis set集合用于去重,将通过redis set集合去重后的数据添加到由redis实现的url队列中并设第三标记流程,通过该第三标记流程标记为内容页,再由多个puppeteer进程去消费;如果html标记为内容页,则进行文本解析。
实施例8:在实施例7的基础上,redis set集合用于对所有需要采集的网址进行去重,判断是否已经消费过,防止重复消费。
实施例9:在实施例7的基础上,在步骤S4中,文本解析包括发布时间提取、标题提取文本提取和图片提取。
实施例10:在实施例9的基础上,发布时间提取具体为:按常用时间格式编写正则匹配,第一优先级先匹配meta数据,如果没有再通过正则优先级去正文匹配;标题提取具体为:通过title/h1/meta标签来依次判断;文本图片提取具体为:通过内容节点获取其下所有的图片路径,返回字符串,然后将采集内容以字典方式返回存储到ES数据库。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(RandomAccessMemory,RAM)、随机存取存储器(RandomAccessMemory,RAM)等。

Claims (10)

1.一种针对新闻媒体批量加密数据的采集方法,首先将需要采集的网址url、站名内容加入数据库;其特征在于,包括如下步骤:
S1,设置由redis实现的url去重集合及由redis实现的url队列,并将数据库中的网址url、站名内容分别添加至所述由redis实现的url去重集合及所述由redis实现的url队列;
S2,由处理器产生多个puppeteer进程去消费步骤S1中所述由redis实现的url队列中的数据;
S3,设置由redis实现的html队列,在获取网页数据html后,将其加入到所述由redis实现的html队列中,并在由redis实现的html队列设置一标记流程,该标记流程用于区分列表页网页数据html或内容页网页数据html;
S4,解析所述由redis实现的html队列中的数据,如果解析后的数据是列表页网页数据html,则提取由redis实现的html中网址url并去重后加入步骤S2的由redis实现的url队列中;如果解析后的数据是文章详情页网页数据html,则将解析内容保存在存储器中并对页面进行解析。
2.根据权利要求1所述的针对新闻媒体批量加密数据的采集方法,其特征在于,在步骤S2中,所述多个puppeteer进程在空闲时将继续保持多个puppeteer进程并将浏览器状态信息保存在text文档,并标记为待调用;当所述由redis实现的url队列中有url需要解析时,随机读取一个标记为待调用状态的puppeteer进程的text文档信息,然后标记该文档状态为调用中。
3.根据权利要求1所述的针对新闻媒体批量加密数据的采集方法,其特征在于,在步骤S4中,所述设置一标记流程具体为设置一html标记;以及包括子步骤:设一监测流程和设一html标记解析程序进程,所述监测流程用于监测redis html队列中是否有解析数据,如果存在解析数据,则由处理器调用所述html标记解析程序进程去解析所述html标记。
4.根据权利要求1所述的针对新闻媒体批量加密数据的采集方法,其特征在于,在步骤S4中,所述对页面进行解析包括子步骤:
S401,先移除javascript、css和iframe,再将网页解析成dom树,遍历每个节点i,通过 公式
Figure DEST_PATH_IMAGE001
得到每个节点的文本密度TDi;其中,Ti为节点i的字 符串字数,LTi为节点i的带链接的字符串字数,TGi为节点i的标签数,LTGi为节点i的带连 接的标签数;
S402,再通过符号密度公式:
Figure 188366DEST_PATH_IMAGE002
计算出标签的符号密度 SBDi,Sbi表示符号数量;
S403,再通过公式:
Figure DEST_PATH_IMAGE003
计算每个节点 的评分score;其中,SD表示每个节点的文本密度的标准差,NDi表示节点i的文本密度, PNumi表示正文所在标签数,sbDi表示节点i的符号密度;
S404,最后返回评分值最大的节点对象,判定为文本内容,然后通过节点提取内容。
5.根据权利要求2所述的针对新闻媒体批量加密数据的采集方法,其特征在于,在步骤S2中,包括子步骤:设一检测流程,用于检测由redis实现的url队列是否有数据;如果有数据,则随机调用一个puppeteer进程,并从text文档中读取浏览器状态。
6.根据权利要求2或5任一所述的针对新闻媒体批量加密数据的采集方法,其特征在于,在调用puppeteer进程之前,包括子步骤:设另一标记流程,用于在text文档中对浏览器做运行标记,直到运行完成,标记解除。
7.根据权利要求3所述的针对新闻媒体批量加密数据的采集方法,其特征在于,在步骤S4中,包括如下子步骤:如果所述html标记为列表页,则将对应网页数据html转为dom树,获取所有含有标题属性的标签中的url,并做base64编码,然后设置一redis set集合用于去重;将通过所述redis set集合去重后的数据添加到所述由redis实现的url队列中并设第三标记流程,通过该第三标记流程标记为内容页,再由所述多个puppeteer进程去消费;如果所述html标记为内容页,则直接进行文本解析。
8.根据权利要求7所述的针对新闻媒体批量加密数据的采集方法,其特征在于,所述redis set集合用于对所有需要采集的网址进行去重,判断是否已经消费过,防止重复消费。
9.根据权利要求7所述的针对新闻媒体批量加密数据的采集方法,其特征在于,在步骤S4中,所述文本解析包括发布时间提取、标题提取、文本提取和图片提取。
10.根据权利要求9所述的针对新闻媒体批量加密数据的采集方法,其特征在于,所述发布时间提取具体为:按常用时间格式编写正则匹配,第一优先级先匹配meta数据,如果没有再通过正则优先级去正文匹配;所述标题提取具体为:通过title/h1/meta标签来依次判断;所述文本图片提取具体为:通过内容节点获取其下所有的图片路径,返回字符串,然后将采集内容以字典方式返回存储到ES数据库。
CN202111557743.5A 2021-12-20 2021-12-20 一种针对新闻媒体批量加密数据的采集方法 Active CN113934914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557743.5A CN113934914B (zh) 2021-12-20 2021-12-20 一种针对新闻媒体批量加密数据的采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557743.5A CN113934914B (zh) 2021-12-20 2021-12-20 一种针对新闻媒体批量加密数据的采集方法

Publications (2)

Publication Number Publication Date
CN113934914A true CN113934914A (zh) 2022-01-14
CN113934914B CN113934914B (zh) 2022-03-01

Family

ID=79289218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557743.5A Active CN113934914B (zh) 2021-12-20 2021-12-20 一种针对新闻媒体批量加密数据的采集方法

Country Status (1)

Country Link
CN (1) CN113934914B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
US20110258528A1 (en) * 2010-04-15 2011-10-20 John Roper Method and system for removing chrome from a web page
US20130339840A1 (en) * 2012-05-08 2013-12-19 Anand Jain System and method for logical chunking and restructuring websites
CN103942335A (zh) * 2014-05-07 2014-07-23 武汉大学 一种针对网页结构变化的不间断爬虫系统构建方法
CN104217025A (zh) * 2014-09-28 2014-12-17 福州大学 针对多记录网页的记录项抽取系统及方法
CN106055667A (zh) * 2016-06-06 2016-10-26 北京林业大学 一种基于文本‑标签密度的网页核心内容提取方法
CN106919696A (zh) * 2017-03-07 2017-07-04 上海携程商务有限公司 Seo站点构建方法及seo请求的响应方法
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质
CN110569414A (zh) * 2019-08-21 2019-12-13 时趣互动(北京)科技有限公司 一种基于puppeteer的网站数据收集方法
CN111552854A (zh) * 2020-04-24 2020-08-18 北京明略软件系统有限公司 一种网页数据抓取方法、装置、存储介质和设备
CN112256984A (zh) * 2020-10-22 2021-01-22 上海悦易网络信息技术有限公司 一种网页对应的接口托底截图的获取方法及设备
CN112559034A (zh) * 2020-12-22 2021-03-26 苏州思必驰信息科技有限公司 骨架屏文件的生成方法及系统
CN112783495A (zh) * 2021-02-07 2021-05-11 腾讯科技(深圳)有限公司 页面事件的管理方法、装置、介质以及电子设备
CN113282759A (zh) * 2021-04-23 2021-08-20 国网辽宁省电力有限公司电力科学研究院 一种基于威胁情报的网络安全知识图谱生成方法
CN113742551A (zh) * 2021-09-07 2021-12-03 贵州电子商务云运营有限责任公司 一种基于scrapy和puppeteer的动态数据抓取方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258528A1 (en) * 2010-04-15 2011-10-20 John Roper Method and system for removing chrome from a web page
CN102184189A (zh) * 2011-04-18 2011-09-14 北京理工大学 基于dom节点文本密度的网页核心块确定方法
US20130339840A1 (en) * 2012-05-08 2013-12-19 Anand Jain System and method for logical chunking and restructuring websites
CN103942335A (zh) * 2014-05-07 2014-07-23 武汉大学 一种针对网页结构变化的不间断爬虫系统构建方法
CN104217025A (zh) * 2014-09-28 2014-12-17 福州大学 针对多记录网页的记录项抽取系统及方法
CN106055667A (zh) * 2016-06-06 2016-10-26 北京林业大学 一种基于文本‑标签密度的网页核心内容提取方法
CN106919696A (zh) * 2017-03-07 2017-07-04 上海携程商务有限公司 Seo站点构建方法及seo请求的响应方法
CN110377796A (zh) * 2019-07-25 2019-10-25 中南民族大学 基于dom树的正文抽取方法、装置、设备及存储介质
CN110569414A (zh) * 2019-08-21 2019-12-13 时趣互动(北京)科技有限公司 一种基于puppeteer的网站数据收集方法
CN111552854A (zh) * 2020-04-24 2020-08-18 北京明略软件系统有限公司 一种网页数据抓取方法、装置、存储介质和设备
CN112256984A (zh) * 2020-10-22 2021-01-22 上海悦易网络信息技术有限公司 一种网页对应的接口托底截图的获取方法及设备
CN112559034A (zh) * 2020-12-22 2021-03-26 苏州思必驰信息科技有限公司 骨架屏文件的生成方法及系统
CN112783495A (zh) * 2021-02-07 2021-05-11 腾讯科技(深圳)有限公司 页面事件的管理方法、装置、介质以及电子设备
CN113282759A (zh) * 2021-04-23 2021-08-20 国网辽宁省电力有限公司电力科学研究院 一种基于威胁情报的网络安全知识图谱生成方法
CN113742551A (zh) * 2021-09-07 2021-12-03 贵州电子商务云运营有限责任公司 一种基于scrapy和puppeteer的动态数据抓取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JESPER ANDERSSON 等: "The Puppeteer - Directing Software Engineering Projects", 《COMPUTER SCIENCE AND SOFTWARE ENGINEERING》 *
伍菁: "基于Chrome Headless的网络爬虫在Web漏洞扫描中的应用研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Also Published As

Publication number Publication date
CN113934914B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
US8630972B2 (en) Providing context for web articles
CN109543126B (zh) 基于块文字占比的网页正文信息提取方法
CN101620608A (zh) 信息采集方法及系统
Chen et al. Template detection for large scale search engines
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
US9449114B2 (en) Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection
US9058335B2 (en) System, method and computer program product for protecting derived metadata when updating records within a search engine
CN106547895B (zh) 一种网页信息的提取方法及装置
CN111797630A (zh) 一种面向pdf格式论文的生物医学实体识别方法
CN109165373B (zh) 一种数据处理方法及装置
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN114443928B (zh) 一种网络文本数据爬虫方法与系统
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN112925968A (zh) 基于爬虫的数据抓取方法、装置、计算机设备及存储介质
Yu et al. Web content information extraction based on DOM tree and statistical information
CN111695330B (zh) 生成表格的方法、装置、电子设备及计算机可读存储介质
CN113934914B (zh) 一种针对新闻媒体批量加密数据的采集方法
CN100336061C (zh) 多媒体对象检索设备和方法
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN115391711A (zh) 网页正文信息提取方法、装置、设备及介质
CN115796146A (zh) 一种文件对比方法及装置
CN113987320A (zh) 基于智能页面解析的实时资讯爬虫方法、装置及设备
CN113434797A (zh) 一种网页信息提取方法及装置
CN114637505A (zh) 一种页面内容提取方法和装置
US9251228B1 (en) Eliminating noise in periodicals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant