CN113934914A

CN113934914A - 一种针对新闻媒体批量加密数据的采集方法

Info

Publication number: CN113934914A
Application number: CN202111557743.5A
Authority: CN
Inventors: 李林; 吴雷; 孙于扬
Original assignee: Chengdu Orange Media Technology Co ltd
Current assignee: Chengdu Orange Media Technology Co ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-01-14
Anticipated expiration: 2041-12-20
Also published as: CN113934914B

Abstract

本发明公开了一种针对新闻媒体批量加密数据的采集方法，属于新闻媒体数据采集领域，包括步骤：S1，将数据库中的网址url、站名内容分别添加至由redis实现的url去重集合及由redis实现的url队列；S2，用puppeteer进程去消费由redis实现的url队列中的数据；S3，获取网页数据html，将其加入到由redis实现的html队列中，并将由redis实现的html队列标记区分为列表页网页数据html或内容页网页数据html；S4，解析由redis实现的html队列中的数据并处理。本发明更容易实现批量加密数据的采集，且具有效率高、成本低、维护容易等优点。

Description

一种针对新闻媒体批量加密数据的采集方法

技术领域

本发明涉及新闻媒体数据采集领域，更为具体的，涉及一种针对新闻媒体批量加密数据的采集方法。

背景技术

作为新闻舆情媒体，需要对相关新闻数据进行采集。

目前，现有新闻数据的采集技术遇到了如下问题：1.由于很多网站使用css加密、字符加密、ajax、动态页面加载和反爬虫检测等手段，导致数据采集难度提升。2.如果仍然采用传统数据采集技术，例如单个网站去分析破解及做内容提取，往往存在效率低下的问题。3.随着科技的发展，网站反爬机制、网站样式变化更新越来越快，现有的数据采集方案存在采集稳定性差、维护困难的问题。4.采集成本高的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种针对新闻媒体批量加密数据的采集方法，更容易实现批量加密数据的采集，且具有效率高、成本低、维护容易等优点。

本发明的目的是通过以下方案实现的：

一种针对新闻媒体批量加密数据的采集方法，首先将需要采集的网址url、站名内容加入数据库；还包括如下步骤：

S1，设置由redis实现的url去重集合及由redis实现的url队列，并将数据库中的网址url、站名内容分别添加至所述由redis实现的url去重集合及所述由redis实现的url队列；

S2，由处理器产生多个puppeteer进程去消费步骤S1中所述由redis实现的url队列中的数据；

S3，设置由redis实现的html队列，获取网页数据html后，将其加入到所述由redis实现的html队列中，并在由redis实现的html队列设置一标记流程，该标记流程用于区分列表页网页数据html或内容页网页数据html；

S4，解析所述由redis实现的html队列中的数据，如果解析后的数据是列表页网页数据html，则提取由redis实现的html中网址url并去重后加入步骤S2的由redis实现的url队列中；如果解析后的数据是文章详情页网页数据html，则将解析内容保存在存储器中并对页面进行解析。

进一步地，在步骤S2中，所述多个puppeteer进程在空闲时将继续保持多个puppeteer进程并将浏览器状态信息保存在text文档，并标记为待调用；当由redis实现的url队列中有url需要解析时，随机读取一个标记为待调用状态的puppeteer进程的text文档信息，然后标记该文档状态为调用中。

进一步地，在步骤S4中，所述设置一标记流程具体为设置一html标记；以及包括子步骤：设一监测流程和设一html标记解析程序进程，所述监测流程用于监测redis html队列中是否有解析数据，如果存在解析数据，则由处理器调用所述html标记解析程序进程去解析所述html标记。

进一步地，在步骤S4中，所述对页面进行解析包括子步骤：

S401，先移除javascript、css和iframe，再将网页解析成dom树，遍历每个节点i，通过公式TDi=

得到每个节点的文本密度TDi；其中，Ti为节点i 的字符串字数，LTi为节点i的带链接的字符串字数，TGi为节点i的标签数，LTGi为节点i的带连接的标签数；

S402，再通过符号密度公式：SBDi=

计算出标签的符号密度SBDi，Sbi表示符号数量；

S403，再通过公式：score=

log(10)(PNumi+2)*log(sbDi)计算每个节点的评分score；其中，SD表示每个节点的文本密度的标准差，NDi表示节点i的文本密度，PNumi表示正文所在标签数，sbDi表示节点i的符号密度；

S404，最后返回评分值最大的节点对象，判定为文本内容，然后通过节点提取内容。

进一步地，在步骤S2中，包括子步骤：设一检测流程，用于检测由redis实现的url队列是否有数据；如果有数据，则随机调用一个puppeteer进程，并从text文档中读取浏览器状态，从而快速启动浏览器并访问获取的url地址。

进一步地，在调用puppeteer进程之前，包括子步骤：设另一标记流程，用于在text文档中对浏览器做运行标记，直到运行完成，标记解除。

进一步地，在步骤S4中，包括如下子步骤：如果所述html标记为列表页，则将对应网页数据html转为dom树，获取所有含有标题属性的标签中的url，并做base64编码，然后设置一redis set集合用于去重，将通过所述redis set集合去重后的数据添加到所述由redis实现的url队列中并设第三标记流程，通过该第三标记流程标记为内容页，再由所述多个puppeteer进程去消费；如果所述html标记为内容页，则直接进行文本解析。

进一步地，所述redis set集合用于对所有需要采集的网址进行去重，判断是否已经消费过，防止重复消费。

进一步地，在步骤S4中，所述文本解析包括发布时间提取、标题提取文本提取和图片提取。

进一步地，所述发布时间提取具体为：按常用时间格式编写正则匹配，第一优先级先匹配meta数据，如果没有再通过正则优先级去正文匹配；所述标题提取具体为：通过title/h1/meta标签来依次判断；所述文本图片提取具体为：通过内容节点获取其下所有的图片路径，返回字符串，然后将采集内容以字典方式返回存储到ES数据库。

本发明的有益效果是：

1. 本发明更容易实现批量加密数据的采集，采用了puppeteer进程去请求url获取数据，并结合redis数据库机制实现url去重集合及url队列，无需破解网站加密即可得到网页渲染后的html数据，同时能够使得puppeteer进程启动、运行速度快，足够稳定。

2. 本发明提高了数据采集效率，减少内存占用及提升了浏览器打开速度，从而快速启动浏览器并访问获取的url地址，提高数据采集效率。具体的，根据浏览器状态信息优化了puppeteer进程调用机制，可以实现快速启动puppeteer进程，去请求由redis实现的url获取html，然后将html及其类型信息（列表页/新闻页，在url队列中有返回）添加到html队列中等待html解析。

3. 本发明可以大大降低数据采集工作量、工作难度及维护成本。具体的，例如puppeteer做数据采集，并再解析由redis实现的html队列中的数据等，主要工作时间在数据解析，从而跳过现有人工编写解析规则的环节，实现自动解析出文章等信息，减少人员的后期维护工作。

4. 本发明整体上优化了puppeteer进程的调用机制，并设计了解析流程，可以显著降低采集成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法步骤流程图；

图2为本发明实施例中puppeteer的流程调用逻辑流程图；

图3本发明实施例中解析程序调用逻辑流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

下面根据附图1~图3，对本发明的技术构思、工作原理、功效和工作过程作进一步详细说明。

本发明旨在至少解决如下技术问题：1.由于很多网站使用css加密、字符加密、ajax、动态页面加载和反爬虫检测等手段，导致数据采集难度提升。2.如果仍然采用传统数据采集技术，例如单个网站去分析破解及做内容提取，往往存在效率低下的问题。3.随着科技的发展，网站反爬机制、网站样式变化更新越来越快，现有的数据采集方案存在采集稳定性差、维护困难的问题。4.采集成本高的问题。

图2为本发明基于puppeteer的流程调用逻辑流程图，由处理器产生多个puppeteer进程去消费由redis实现的url队列中的数据。此处采用puppeteer因为运行速度快，足够稳定，如果程序崩溃会自动清除进程，不会遗留后台进程的优点，同时设计相应的标记流程，并与redis数据库机制实现url去重集合及url队列结合。当redis队列中有url存在时，会先检测puppeteer文件中是否有为调用状态的puppeteer文件，如果没有将继续等待下一次检测，如果有将创建多进程。进程先改变puppeteer文件状态为调用中，再创建puppeteer请求url。当获取到html后，将html及其url所属类别（列表页/新闻页）保存到redis中的html队列中等待解析，该进程将关闭puppeteer程序，更改puppeteer文件的状态为未调用。如果程序崩溃，会捕捉异常，改变该puppeteer文件状态为未调用，从而更容易实现批量加密数据的采集，减少内存占用及提升浏览器打开速度，从而快速启动浏览器并访问获取的url地址，提高数据采集效率。

图3为本发明实施例的解析程序调用逻辑流程图，此处实现了自动解析网页，不需要人工编写采集规则，极大提高了采集效率，减少后期维护。下面将对此步骤作进一步说明：当程序检测到html队列中有数据时，先判断该html的自定义标签是列表页还是新闻页。如果是列表页，将调用列表解析程序对该html进行解析，获取其中的新闻详情url，然后加入到redis指纹过滤中过滤url。如果是新闻页，将调用文本解析程序实现自动解析，对该新闻页的标题、发布时间、文本内容、图片进行解析，然后将结果保存至ES数据库中。本发明可以大大降低数据采集工作量、工作难度及维护成本，使主要工作时间在数据解析，从而跳过现有人工编写解析规则的环节，实现自动解析出文章等信息，减少人员的后期维护工作。

在解析环节，包括页面进行解析等，实现自动化高效解析，降低数据采集难度和成本。

实施例1：一种针对新闻媒体批量加密数据的采集方法，首先将需要采集的网址url、站名内容加入数据库；还包括如下步骤：

S1，设置由redis实现的url去重集合及由redis实现的url队列，并将数据库中的网址url、站名内容分别添加至由redis实现的url去重集合及由redis实现的url队列；

S2，由处理器产生多个puppeteer进程去消费步骤S1中由redis实现的url队列中的数据；

S3，设置由redis实现的html队列，获取网页数据html后，将其加入到由redis实现的html队列中，并在由redis实现的html队列设置一标记流程，该标记流程用于区分列表页网页数据html或内容页网页数据html；

S4，解析由redis实现的html队列中的数据，如果解析后的数据是列表页网页数据html，则提取由redis实现的html中网址url并去重后加入步骤S2的由redis实现的url队列中；如果解析后的数据是文章详情页网页数据html，则将解析内容保存在存储器中并对页面进行解析。

为了减少网站采集规则维护，提高采集稳定性，此处本发明实施例对页面进行解析，可以依据文本格式、文本占比等算法自动分析页面，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码，不再单独对每个网站编辑采集规则，大大降低采集工作量、工作难度及维护成本。

实施例2：在实施例1的基础上，在步骤S2中，多个puppeteer进程在空闲时将继续保持多个puppeteer进程并将浏览器状态信息保存在text文档，并标记为待调用；当所述由redis实现的url队列中有url需要解析时，随机读取一个标记为待调用状态的puppeteer进程的text文档信息，然后标记该文档状态为调用中，可以减少内存占用及提升浏览器打开速度。

实施例3：在实施例1的基础上，在步骤S4中，设置一标记流程，具体为设置一html标记；以及包括子步骤：设一监测流程和设一html标记解析程序进程，监测流程用于监测redis html队列中是否有解析数据，如果存在解析数据，则由处理器调用html标记解析程序进程去解析html标记。

实施例4：在实施例1的基础上，在步骤S4中，对页面进行解析包括子步骤：

得到每个节点的文本密度TDi；其中，Ti为节点i的字符串字数，LTi为节点i的带链接的字符串字数，TGi为节点i的标签数，LTGi为节点i的带连接的标签数；

S402，再通过符号密度公式：SBDi=

计算出标签的符号密度 SBDi，Sbi表示符号数量；

S403，再通过公式：score=

实施例5：在实施例2的基础上，包括子步骤：设一检测流程，用于检测由redis实现的url队列是否有数据；如果有数据，则随机调用一个puppeteer进程，并从text文档中读取浏览器状态，从而快速启动浏览器并访问获取的url地址。

实施例6：在实施例2或5的基础上，在调用puppeteer进程之前，包括子步骤：设另一标记流程，用于会在text文档中对浏览器做运行标记，直到运行完成，标记解除。

实施例7：在实施例3的基础上，在步骤S4中，包括如下子步骤：如果html标记为列表页，则将对应网页数据html转为dom树，获取所有含有标题属性的标签中的url，并做base64编码，然后设置一redis set集合用于去重，将通过redis set集合去重后的数据添加到由redis实现的url队列中并设第三标记流程，通过该第三标记流程标记为内容页，再由多个puppeteer进程去消费；如果html标记为内容页，则进行文本解析。

实施例8：在实施例7的基础上，redis set集合用于对所有需要采集的网址进行去重，判断是否已经消费过，防止重复消费。

实施例9：在实施例7的基础上，在步骤S4中，文本解析包括发布时间提取、标题提取文本提取和图片提取。

实施例10：在实施例9的基础上，发布时间提取具体为：按常用时间格式编写正则匹配，第一优先级先匹配meta数据，如果没有再通过正则优先级去正文匹配；标题提取具体为：通过title/h1/meta标签来依次判断；文本图片提取具体为：通过内容节点获取其下所有的图片路径，返回字符串，然后将采集内容以字典方式返回存储到ES数据库。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（RandomAccessMemory，RAM）、随机存取存储器（RandomAccessMemory，RAM）等。

Claims

1.一种针对新闻媒体批量加密数据的采集方法，首先将需要采集的网址url、站名内容加入数据库；其特征在于，包括如下步骤：

S3，设置由redis实现的html队列，在获取网页数据html后，将其加入到所述由redis实现的html队列中，并在由redis实现的html队列设置一标记流程，该标记流程用于区分列表页网页数据html或内容页网页数据html；

2.根据权利要求1所述的针对新闻媒体批量加密数据的采集方法，其特征在于，在步骤S2中，所述多个puppeteer进程在空闲时将继续保持多个puppeteer进程并将浏览器状态信息保存在text文档，并标记为待调用；当所述由redis实现的url队列中有url需要解析时，随机读取一个标记为待调用状态的puppeteer进程的text文档信息，然后标记该文档状态为调用中。

3.根据权利要求1所述的针对新闻媒体批量加密数据的采集方法，其特征在于，在步骤S4中，所述设置一标记流程具体为设置一html标记；以及包括子步骤：设一监测流程和设一html标记解析程序进程，所述监测流程用于监测redis html队列中是否有解析数据，如果存在解析数据，则由处理器调用所述html标记解析程序进程去解析所述html标记。

4.根据权利要求1所述的针对新闻媒体批量加密数据的采集方法，其特征在于，在步骤S4中，所述对页面进行解析包括子步骤：

S401，先移除javascript、css和iframe，再将网页解析成dom树，遍历每个节点i，通过公式

S402，再通过符号密度公式：

计算出标签的符号密度 SBDi，Sbi表示符号数量；

S403，再通过公式：

计算每个节点的评分score；其中，SD表示每个节点的文本密度的标准差，NDi表示节点i的文本密度， PNumi表示正文所在标签数，sbDi表示节点i的符号密度；

5.根据权利要求2所述的针对新闻媒体批量加密数据的采集方法，其特征在于，在步骤S2中，包括子步骤：设一检测流程，用于检测由redis实现的url队列是否有数据；如果有数据，则随机调用一个puppeteer进程，并从text文档中读取浏览器状态。

6.根据权利要求2或5任一所述的针对新闻媒体批量加密数据的采集方法，其特征在于，在调用puppeteer进程之前，包括子步骤：设另一标记流程，用于在text文档中对浏览器做运行标记，直到运行完成，标记解除。

7.根据权利要求3所述的针对新闻媒体批量加密数据的采集方法，其特征在于，在步骤S4中，包括如下子步骤：如果所述html标记为列表页，则将对应网页数据html转为dom树，获取所有含有标题属性的标签中的url，并做base64编码，然后设置一redis set集合用于去重；将通过所述redis set集合去重后的数据添加到所述由redis实现的url队列中并设第三标记流程，通过该第三标记流程标记为内容页，再由所述多个puppeteer进程去消费；如果所述html标记为内容页，则直接进行文本解析。

8.根据权利要求7所述的针对新闻媒体批量加密数据的采集方法，其特征在于，所述redis set集合用于对所有需要采集的网址进行去重，判断是否已经消费过，防止重复消费。

9.根据权利要求7所述的针对新闻媒体批量加密数据的采集方法，其特征在于，在步骤S4中，所述文本解析包括发布时间提取、标题提取、文本提取和图片提取。

10.根据权利要求9所述的针对新闻媒体批量加密数据的采集方法，其特征在于，所述发布时间提取具体为：按常用时间格式编写正则匹配，第一优先级先匹配meta数据，如果没有再通过正则优先级去正文匹配；所述标题提取具体为：通过title/h1/meta标签来依次判断；所述文本图片提取具体为：通过内容节点获取其下所有的图片路径，返回字符串，然后将采集内容以字典方式返回存储到ES数据库。