CN110727845B

CN110727845B - 一种基于爬虫文本的最近发文优先处理方法及系统

Info

Publication number: CN110727845B
Application number: CN201910796572.8A
Authority: CN
Inventors: 蹇智华; 陈运文; 陈鼎; 景健; 刘友敏; 纪达麒
Original assignee: Daguan Data Co ltd
Current assignee: Daguan Data Co ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2023-12-22
Anticipated expiration: 2039-08-27
Also published as: CN110727845A

Abstract

本发明公开了一种基于爬虫文本的最近发文优先处理方法及系统，所述方法包括生产者进程将爬取到的各个数据文件存储在以其发文时间为文件名的时间文件夹下，并在每个时间文件夹下生成与所述数据文件相关联的标记文件；消费者进程提取当前时间最新的时间文件夹并根据该时间文件夹下的标记文件对相应的数据文件进行规整化处理，将规整化处理后的数据文件移动至历史文件夹中。本发明采用双文件控制法在不使用系统锁的情况下也能避免生产者和消费者同时操作一个文件，确保数据的准确性，降低了系统逻辑复杂度，提升系统可维护性。

Description

一种基于爬虫文本的最近发文优先处理方法及系统

技术领域

本发明涉及文本处理技术领域，尤其涉及一种基于爬虫文本的最近发文优先处理方法及系统。

背景技术

做新闻流展示的公司经常会从“万维网”上抓取新闻数据到本地，抓取到的文章不能直接推送到生产，需要对文章进行去除外链、下载文章中图片、给文章打标签、分类等规整化处理，规整化处理后的文章才可发布。通常某些文章具有极强的时效性，因此不能按照文章抓取的顺序来处理，而需要将最近发文的文章优先处理，以确保时效性强的文章优先被处理。

由于个别文章的数据量较大，比如说一篇包含多张base64图片的文章，它的数据量可以达到几兆甚至几十兆，这样的文章显然不宜直接放到常用队列中。目前业界常用的做法如下：

redis zset方式：将文件存储成文本，将文件相关信息存入到Redis的zset并且将发文时间换算成score，通过Redis的zset对socore排序来控制文章的消费顺序。但Redis毕竟是内存型数据库，如果消费者出现图片下载异常等问题而导致阻塞，极易造成redis内存不够用，从而导致队列崩溃，影响系统的稳定性，而且一旦出现队列崩溃，恢复数据将会是一件极其麻烦的事情，并且数据很难确保完全恢复。

mysql数据库方式：另一种常用做法是在mysql数据库中存储文件发文时间，通过发文时间来筛选出最新发文时间的文章数据，这种做法的缺点是需要用到数据库事务，系统将显得非常笨重，而且可能出现多个进程操作数据表的同一条记录，触发mysq锁表问题，导致所有消费者卡死现象。

发明内容

有鉴于此，本发明提供了一种基于爬虫文本的最近发文优先处理方法及系统，用以解决上述背景技术中存在的问题。

一种基于爬虫文本的最近发文优先处理方法，具体包括以下步骤：

S1，生产者进程将爬取到的各个数据文件存储在以其发文时间为文件名的时间文件夹下，并在每个时间文件夹下生成与所述数据文件相关联的标记文件；

S2，消费者进程提取当前时间最新的时间文件夹并根据该时间文件夹下的标记文件对相应的数据文件进行规整化处理，将规整化处理后的数据文件移动至历史文件夹中。

优选地，所述步骤S1中生产者进程将爬取到的各个数据文件存储在以其发文时间为文件名的时间文件夹下的具体步骤为：

S11，创建web服务接口，所述web服务接口用于接收爬虫系统推送的文本数据；

S12，生产者进程获取各个文本数据的发文时间，以各文本数据的发文时间为文件名生成多个时间文件夹；

S13，生产者进程请求获取各个文本数据的序列号ID，并将各个文本数据保存在相应时间文件夹下的以其序列号ID为前缀、以_save.json为后缀的数据文件中；

S14，在每个时间文件夹下生成以序列号ID为前缀、以_tag.json为后缀的标记文件，每个标记文件与其所属时间文件夹内的数据文件相关联。

优选地，所述步骤S13中生成时间文件夹的粒度取决于审核人员对爬取的数据文件最长处理延时的容忍度。

优选地，每个文本数据对应有唯一一个序列号ID。

优选地，所述序列号ID为由时间戳、机器号、服务号和随机码组成的字符串。

优选地，所述时间戳为纳秒级时间戳。

优选地，所述序列号ID中还包括渠道属性信息。

优选地，所述步骤S2中消费者进程提取当前时间最新的时间文件夹并根据该时间文件夹下的标记文件对相应的数据文件进行规整化处理的具体步骤为：

S21，消费者进程实时扫描生成的所有时间文件夹，提取出当前时间最新的时间文件夹；

S22，消费者进程从当前时间最新的时间文件夹中获取标记文件，并从标记文件的文件名中提取序列号ID；

S23，消费者进程根据提取出的序列号ID访问相应的数据文件，并对该数据文件进行规整化处理。

优选地，所述标记文件中可写入请求的备注信息，所述请求指爬虫系统推送文本数据的HTTP请求。

一种基于爬虫文本的最近发文优先处理系统，包括web服务接口模块、序列号生成器、数据文件生成模块、标记文件生成模块、标记文件扫描模块、数据文件读取模块、内容处理模块和文件清理模块；

所述web服务接口模块用于接收爬虫系统推送的文本数据；

所述序列号生成器用于生成各文本数据的序列号ID；

所述数据文件生成模块用于根据每个文本数据的发文时间对应生成多个时间文件夹，并根据每个文本数据的序列号ID在相应的时间文件夹下生成数据文件；

所述标记文件生成模块用于在每个时间文件夹下生成标记文件；

所述标记文件扫描模块用于实时扫描生成的所有的时间文件夹，获取到当前发文时间最新的时间文件夹并从该文件夹中获取标记文件，并将该标记文件的文件名传输给数据文件读取模块；

所述数据文件读取模块用于根据接收到的文件名访问相应的数据文件，并将该数据文件的文本数据传输给内容处理模块；

所述内容处理模块用于对数据文件的文本数据进行规整化处理，并将规整化处理后的数据文件传输给文件清理模块；

所述文件清理模块用于将规整化处理后的数据文件移动至历史文件夹中。

本发明的有益效果是：

1、系统非常轻量级：仅仅依赖于文件系统，通过以文本数据的发文时间作为时间文件夹的文件名，能够确保最新发文时间的文章被优先处理，无需额外的中间件辅助，极大地降低了系统的逻辑难度，极大地降低了系统资源的浪费，极大地降低了系统运维的难度。不像同类型的redis zset方式，需要依赖redis来作为队列，也不像采用mysql存储文件发文时间方式，额外增加数据库链接，增加系统维护等额外的操作。

2、双文件控制替代锁控制：采用双文件控制法在不使用系统锁的情况下也能避免生产者和消费者同时操作一个文件，确保数据的准确性，降低了系统逻辑复杂度，提升系统可维护性。不像同类型redis zset方式，获取一个内容然后删除，在多进程情况下极易造成重复消费情况；也不像通过mysql存储文件发文时间方式容易造成死锁导致消费者卡死不消费的情况，增加系统运维难度。

3、消费者数量伸缩方便：通过序列号生成器对数据文件进行“分类”，多维度分类的文件名方式可以更方便的增加或减少消费者数量，更好地在数据处理速度和系统负载之间做权衡。不像同类型redis zset方式，只能采用单进程消费(多进程消费容易产生重复消费)；也不像mysql存储文章发文时间方式，增大消费者的数量即增大数据库锁死概率，消费者卡死的风险增加。

4、系统逻辑扩展能力强：如果需要对文章数据按照文章渠道进行消费，只需要在文件名中添加渠道名称，就能确保每个渠道的文章同时有消费者在消费。

5、数据不重复消费：由于每个进程只会消费相对应的文件，不会产生重复消费的情况，不像采用redis zset存储文件名方式在多进程操作下极易造成重复消费。

6、消费数据易恢复：由于本系统中数据清理时，可以将消费之后的数据文件和标记文件移动到数据仓库中，当需要再次消费时，只需要将历史数据恢复到web接口保存的文件夹下即可。不像同类采用redis zset存储文件名的方式不管采用rdb还是aof模式进行持久化，都很难保证数据完全不丢失。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是生产者进程的处理流程图。

图2是消费者进程的处理流程图。

具体实施方式

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面通过具体的实施例并结合附图对本申请做进一步的详细描述。

本发明实施例给出一种基于爬虫文本的最近发文优先处理方法及系统。

本申请的基于爬虫文本的最近发文优先处理系统，包括web服务接口模块、序列号生成器、数据文件生成模块、标记文件生成模块、标记文件扫描模块、数据文件读取模块、内容处理模块和文件清理模块。

所述web服务接口模块用于接收爬虫系统推送的文本数据，并向序列号生成器发送生成序列号ID的请求。

所述序列号生成器用于生成各文本数据的序列号ID。每个文本数据对应有唯一一个序列号ID。

序列号ID为由时间戳、机器号、服务号和随机码组成的字符串，时间戳、机器号、服务号、随机码由符号“—”相连。其中，时间戳为纳秒级时间戳；机器号为机器的整形IP，所述机器指的是生产者进程所在的设备；服务号为生产者进行所进行的活动(即服务)的ID；随机码为随机生成的字符串。

通过上述方式生成的序列号ID为唯一字符串，可以极大限度减小文件名的碰撞，即使使用NAS共享文件，生产者由不同服务器上的进程提供，也不会产生冲突。这种命名方式在消费者消费数据时还会有额外的好处，可以指定消费者消费的文件，比如：进程号为1的进程只消费机器号为1的文件，进程号为2的进程只消费机器号为2的文件等，又比如：消费者1只消费时间戳末位为奇数的文件，消费者2只消费时间戳末位为偶数的文件。多维度的分类给消费者拥有更多的选择，可以根据消费数据的快慢，来合理增加或减少消费者的数量。

如果文章具有渠道属性，还可在序列号ID中添加渠道属性信息。如果业务需要不同渠道的文章数据同时进入系统，只需要在标记文件扫描模块中添加上相应的文件名特征即可。这种命名方式不仅可以从系统的角度(增加消费者消费速度)满足消费需求，而且还可以从业务的角度(多渠道同时消费)满足消费需求。这种处理方式相应的进程只会消费相应的文件，相应的文件也只会被相应的进程所消费。消费者和被消费对象一一对应，彼此之间互不干扰，以此来增加和减少消费者可以灵活的在系统负载和队列处理速度两方面做出权衡，从而做出最优选择。

所述数据文件生成模块用于获取文本数据的发文时间，根据每个文本数据的发文时间对应生成多个时间文件夹，即一个文本数据对应一个时间文件夹，时间文件夹以文本数据的发文时间来命名；然后根据序列号生成器返回的序列号ID在相应的时间文件夹下生成以序列号ID为前缀、以_save.json为后缀的数据文件(各个文本数据保存在相应的数据文件中)。

数据文件生成模块生成时间文件夹的粒度取决于审核人员对爬取的数据文件最长处理延时的容忍度，如审核人员对爬取到的文本数据的最长处理延时为小时级别，那么时间文件夹的最粗粒度为小时级，每次只处理最近一小时的文件，如果没有最近1小时的文件，则处理前1小时到2小时文件夹下的文件。

所述标记文件生成模块用于在每个时间文件夹下生成以序列号ID为前缀、以_tag.json为后缀的标记文件，同一时间文件夹下的标记文件和数据文件相关联。

所述标记文件扫描模块用于实时扫描生成的所有的时间文件夹，获取当前发文时间最新的时间文件夹并从该文件夹中获取标记文件，并将该标记文件的文件名传输给数据文件读取模块。

所述数据文件读取模块用于从接收到的文件名中提取出序列号ID，并根据该序列号ID访问具有相同ID的数据文件，并将该数据文件的文本数据传输给内容处理模块。

所述内容处理模块用于对数据文件的文本数据处理，并对处理后的数据进行规整化操作，将规整化处理后的数据文件传输给文件清理模块。

所述文件清理模块用于将规整化处理后的数据文件移动至历史文件夹中，方便数据处理异常时，可从历史文件夹中恢复数据。

本系统仅基于文件系统，不会因为文件数量过多而导致系统崩溃，不像同类型的redis zset存储文件名方式，消费者处理能力降低极易造成系统崩溃，也不像同类型mysql存储发文时间方式，文件数量过多，导致数据表查询缓慢，影响消费者消费速率，甚至多进程操作同一数据表造成死锁而导致系统不可用。

本申请的基于爬虫文本的最近发文优先处理方法，系统逻辑更简单，搭建更方便，维护难度更低的处理方式。即生产者进程根据爬取到的数据的发文时间生成若干个时间文件夹，然后将爬取到的数据保存在相应时间文件夹下的数据文件中，数据文件生成后，再在每个文件夹下创建一个标记文件；消费者进程会实时扫描生成的时间文件夹，但扫描时只扫描标记文件，通过标记文件找到相应的数据文件，然后对数据文件进行规整化处理，并将处理后的文件进行“清理”，这里的清理指的是将处理过的文件移动到历史数据库中，防止该文件被再次消费到而产生重复消费，且如果数据处理异常，可将历史数据库中的文件拷贝回相应的文件夹，便可进行数据恢复。

本申请的方法采用双文件控制法，即生产者进程向数据文件写完数据时，再创建一个标记文件，而消费者只扫描标记文件，通过标记文件找到相应的数据文件。消费者进程如果能在某一时间文件夹下找到标记文件，说明该文件夹下的数据文件已经写完，不会出现生产者进程和消费者进程同时操作一个数据文件而导致数据读取异常的情况。而且生产者进程规整化数据的耗时相对于生产者进程创建文件的耗时更多，所以等消费者进程数据规整化操作完成之后，生产者进程对标记文件的操作早已完成，也就不会出现生产者进程和消费者进程同时操作标记文件的情况。正因如此，整个过程中消费者和生产者并不会同时操作一个文件，也就不会出现消费者读数据异常的情况。

本申请的基于爬虫文本的最近发文优先处理方法，具体包括以下步骤：

S1，生产者进程将爬取到的各个数据文件存储在以其发文时间为文件名的时间文件夹下，并在每个时间文件夹下生成与所述数据文件相关联的标记文件。

具体地，生产者进程将爬取到的各个数据文件存储在以其发文时间为文件名的时间文件夹下的步骤为：

S14，在每个时间文件夹下生成以序列号ID为前缀、以_tag.json为后缀的标记文件，每个时间文件夹下的标记文件通过序列号ID与该文件夹下的数据文件相关联。

所述标记文件中可写入请求的备注信息，所述请求指的是爬虫系统推送文本数据的HTTP请求。

具体地，消费者进程提取当前时间最新的时间文件夹并根据该时间文件夹下的标记文件对相应的数据文件进行规整化处理的具体步骤为：

S22，消费者进程从当前时间最新的时间文件夹中获取标记文件，并从标记文件的文件名中提取出序列号ID；

S23，消费者进程根据提取出的序列号ID访问相应的数据文件(即访问ID相同的数据文件)，并对该数据文件进行规整化处理(譬如：将文章图片下载到本地，提取文章的摘要，提取文章中实体关系，给文章打标签，分析文本的情感色彩等)。

规整化处理后的数据文件移动至历史文件夹中，方便数据处理异常时，可从历史文件夹中恢复数据。

本申请的方法将文件和排序队列融为一体，既满足了产品对于优先处理最新发文的需求，又满足系统消费速度的需求，还减少了对于中间件的依赖，即使文件数量巨大，也只需细化时间文件夹的粒度。杜绝了同类系统通过内存数据库redis排序的而造成的内存溢出风险，同时还不会像同类mysql存储发文时间方式因为多进程的操作而具有数据读写混乱，或者数据重复消费、死锁等问题。

且减少了系统维护的学习成本和系统运维成本，并且通过独特的序列号生成方式增强系统扩展能力，可以方便地在系统负载和处理速度之间做权衡。通过双文件控制法杜绝系统锁的使用，降低了系统的理解门槛，增大系统的可维护性。不像同类mysql存储发文时间方式的系统，因事务的使用而导致系统逻辑复杂，难以理解，增加额外的数据库维护成本。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于爬虫文本的最近发文优先处理方法，其特征在于，具体包括以下步骤：

生产者进程将爬取到的各个数据文件存储在以其发文时间为文件名的时间文件夹下的具体步骤为：

S14，在每个时间文件夹下生成以序列号ID为前缀、以_tag.json为后缀的标记文件；

2.根据权利要求1所述的基于爬虫文本的最近发文优先处理方法，其特征在于，所述步骤S13中生成时间文件夹的粒度取决于审核人员对爬取的数据文件最长处理延时的容忍度。

3.根据权利要求1所述的基于爬虫文本的最近发文优先处理方法，其特征在于，每个文本数据对应有唯一一个序列号ID。

4.根据权利要求1或3所述的基于爬虫文本的最近发文优先处理方法，其特征在于，所述序列号ID为由时间戳、机器号、服务号和随机码组成的字符串。

5.根据权利要求4所述的基于爬虫文本的最近发文优先处理方法，其特征在于，所述时间戳为纳秒级时间戳。

6.根据权利要求4所述的基于爬虫文本的最近发文优先处理方法，其特征在于，所述序列号ID中还包括渠道属性信息。

7.根据权利要求1所述的基于爬虫文本的最近发文优先处理方法，其特征在于，所述步骤S2中消费者进程提取当前时间最新的时间文件夹并根据该时间文件夹下的标记文件对相应的数据文件进行规整化处理的具体步骤为：

8.根据权利要求1所述的基于爬虫文本的最近发文优先处理方法，其特征在于，所述标记文件中可写入请求的备注信息，所述请求指爬虫系统推送文本数据的HTTP请求。

9.一种基于爬虫文本的最近发文优先处理系统，其特征在于，包括web服务接口模块、序列号生成器、数据文件生成模块、标记文件生成模块、标记文件扫描模块、数据文件读取模块、内容处理模块和文件清理模块；

所述web服务接口模块用于接收爬虫系统推送的文本数据；

所述序列号生成器用于生成各文本数据的序列号ID；

所述标记文件扫描模块用于实时扫描生成的所有的时间文件夹，获取当前发文时间最新的时间文件夹并从该文件夹中获取标记文件，并将该标记文件的文件名传输给数据文件读取模块；