CN113190753A

CN113190753A - 数据采集方法和装置、电子设备、计算机可读介质

Info

Publication number: CN113190753A
Application number: CN202110506712.0A
Authority: CN
Inventors: 刘伟; 余文利; 陈由之; 王鹏; 杨国强; 张博; 林赛群
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-07-30
Anticipated expiration: 2041-05-10
Also published as: CN113190753B

Abstract

本公开提供了一种数据采集方法和装置，涉及数据处理技术领域，具体涉及自然语言处理、图像处理等技术领域。具体实现方案为：获取互联网数据以及所述互联网数据的反馈特征；对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；基于所述反馈特征和所述互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库；基于所述分层库中各个数据的层级，调整所述筛选库中与所述分层库的数据对应的数据。该实施方式提高了采集有效互联网数据的准确率。

Description

数据采集方法和装置、电子设备、计算机可读介质

技术领域

本公开涉及数据处理技术领域，具体涉及自然语言处理、图像处理等技术领域，尤其涉及一种数据采集方法和装置、电子设备、计算机可读介质以及计算机程序产品。

背景技术

互联网数据主体是网页数据，对这些网页数据的筛选挖掘，一般采用对网页进行全量判断的网页的单层筛选方式。

针对网页的单层筛选方式，需要处理全部网页，这要求网页的全量获取、存储和计算，存储和计算资源存在巨大压力。

发明内容

提供了一种数据采集方法和装置、电子设备、计算机可读介质以及计算机程序产品。

根据第一方面，提供了一种数据采集方法，该方法包括：获取互联网数据以及互联网数据的反馈特征；对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库；基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。

根据第二方面，提供了一种数据采集装置，该装置包括：获取单元，被配置成获取互联网数据以及互联网数据的反馈特征；筛选单元，被配置成对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；优化单元，被配置成基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库；调整单元，被配置成基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。

根据第三方面，提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面任一实现方式描述的方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面任一实现方式描述的方法。

根据第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。

本公开的实施例提供的数据采集方法和装置，首先，获取互联网数据以及互联网数据的反馈特征；其次，对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；从次，基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库。最后，基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。由此，对互联网数据进行格式筛选，去除互联网数据中无效数据，减小了网络资源存储和计算的压力；基于反馈特征和互联网数据的全链路特征，对筛选后的数据进行分层处理，实现了互联网数据多层筛选过滤；基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据，可以保证全链路各个环节的协调合作，当优化后的互联网数据再次投入互联网，可以使互联网数据形成一个良性循环。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开数据采集方法的一个实施例的流程图；

图2是根据本公开数据采集方法的另一个实施例的流程图；

图3是根据本公开数据采集方法的第三个实施例的流程图；

图4是本公开的实施例中互联网数据循环结构示意图；

图5是根据本公开数据采集装置的实施例的结构示意图；

图6是用来实现本公开实施例的数据采集方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述

图1示出了根据本公开数据采集方法的一个实施例的流程100，上述数据采集方法包括以下步骤：

步骤101，获取互联网数据以及互联网数据的反馈特征。

本实施例中，数据采集方法运行于其上的执行主体可以实时从互联网中获取互联网数据，其中，互联网数据可以包括：网页数据、链接数据等，链接数据可以是URL(Uniform Resource Locator，统一资源定位符)，或者是分配了URL的图片或文本等，URL是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出互联网上文件的位置以及浏览器应该处理它。

网页数据是可以在互联网上传输，并被浏览器识别和翻译成页面显示出来的数据，网页数据可以是网页的页面，页面包括图片、布局样式、音乐等。

本实施例中，数据采集方法运行于其上的执行主体在获取到互联网数据之后，还可以同时获取与互联网数据相关的信息，例如，用户对互联网数据进行操作的操作信息，同站点下相同类型的互联网数据的生产规模等，通过对与互联网数据相关的信息进行数据分析，得到互联网数据的反馈特征，反馈特征是用于表征互联网数据被互联网传输生产或者用户需求的特征，通过反馈特征可以反应互联网数据被需求或者被生产的累积量。

反馈特征是用户对互联网资源进行访问、增加、删除等操作后所记录的特征，反馈特征可以包括用户行为特征和用户评价特征等，其中用户行为特征用于反映互联网数据的被用户访问的访问量的大小，比如：用户的点击量、用户的浏览时长等；用户评价特征用于为获取的用户对互联网数据进行的主观的评价值，比如，用户对网页的点赞、对网页的正向评论等。

本实施例中，用户行为特征可以通过访问用户行为日志得到，而全链路累计特征需要由独立的数据模块实时记录。

步骤102，对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库。

本实施例中，互联网数据是与互联网行业相关的数据，互联网数据具有互联网的特征，并且互联网数据具备在互联网传输的固定数据格式，当一些互联网数据(例如，垃圾搜索链接，空白网页等)的数据格式完全不符合有效或者合理的数据表示形式，则该互联网数据为无效数据。

本实施例中，上述执行主体在对互联网数据进行数据格式筛选可以包括：对互联网数据进行处理，例如，该处理包括图像识别、自然语言识别结构分析等，基于对互联网数据的处理结果确定互联网数据是否满足预设的互联网数据格式，若满足，将满足互联网数据格式的数据存储至筛选库。本实施例中，筛选库是一种数据库，可以采用不同的数据结构，存储对互联网数据进行筛选后的数据。

步骤103，基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库。

本实施例中，对数据进行分层处理是指对互联网数据进行优先级排序，各个互联网数据可以以数据的关键词作为索引，基于反馈特征确定各互联网数据的优先级级别，优先级级别越高的互联网数据的其层级越高，而优先级级别越低的互联网数据的其层级越低。

本实施例中，全链路是指互联网数据在数据格式筛选、数据分层整个过程途径的网络节点形成的链路。全链路特征包括：互联网中各个节点的自身特征以及各个节点的全链路累计特征，其中，各个节点的自身特征用于反映当前节点的属性特征，比如，链接特征(链接长相、后缀、长度、前链接信息等)，全链路累计特征用于反映互联网数据在链路中累计的共享特征，比如：同站点下互联网数据的生产规模，链接量、网页量、非低质数据占比或优质数据占比等，结合全链路特征和用户的反馈特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库。

上述结合全链路特征和用户的反馈特征，对筛选后的数据进行分层处理包括：基于全链路累计特征和用户行为特征，确定筛选后的各个数据的价值量，基于各数据的价值量不同，确定与各个价值量对应层级，将属于相同层级的数据划分在一起，得到分层后的数据。例如，非低质互联网数据的比例越高，且用户点击量大，浏览时越长，确定互联网数据的价值越高，则该高价值的互联网数据的层级越靠上。

步骤104，基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。

本实施例中，分层库中的最高层的数据可以再次投入互联网，作为向用户展示的互联网数据，使用户得到最优质的网络资源。

本实施例中，分层库中的数据是由互联网数据经过层层筛选后得到的，两库通过共同的标识(比如，URL)可以区分同一源头的互联网数据，而为了优化筛选库中的数据，当对互联网数据进行数据格式筛选之后，还可以基于不同数据在分层库中的层级调整筛选库中与分层库的数据对应的数据。

上述调整数据包括删除和/或、增加数据等手段，例如，同时存储在筛选库和分层库中的第一数据和第二数据，如果第二数据在分层库中处于层级的最底层，则通过删除筛选库中的第二数据，可以达到优化筛选库的目的；可选地，在删除筛选库中的第二数据之后，基于数据库的同步机制，还可以删除分层库的第二数据。再如，第一数据在分层库中处于层级的最高层，即优先级最高，则可以搜索互联网数据中与第一数据具有依赖关系的数据，并在筛选库增加该与第一数据具有依赖关系的数据，从而利于数据的丰富度；可选地，分层库同时也增加该与第一数据具有联系的数据。

在本实施例的一些可选实现方式中，上述基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据，包括：确定所述分层库中属于最低层级的数据，删除所述筛选库中与所述最低层级的数据对应的数据。

本可选实现方式中，首先确定分层库中的属于最低层级的数据，其次确定与该最低层级的数据对应的数据标识，再次，确定筛选库中与该最低层级的数据对应的数据标识对应的数据，最后删除筛选库中与该最低层级的数据对应的数据标识对应的数据。

本可选实现方式中，在确定分层库中最低层级的数据中，删除筛选库中相对应的数据，从而优化了筛选库中的数据，保证了筛选库中数据的有效性。

本公开的实施例提供的数据采集方法，首先，获取互联网数据以及互联网数据的反馈特征；其次，对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；从次，基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库。最后，基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。由此，对互联网数据进行数据格式筛选，去除互联网数据中无效数据，减小了网络资源存储和计算的压力；基于反馈特征和互联网数据的全链路特征，对筛选后的数据进行分层处理，实现了互联网数据多层筛选过滤；基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据，可以保证全链路各个环节的协调合作，当优化后的互联网数据再次投入互联网，可以使互联网数据形成一个良性循环。

图2示出了根据本公开数据采集方法的另一个实施例的流程图200，上述数据采集方法包括以下步骤：

步骤201，获取互联网数据以及互联网数据的反馈特征。

步骤202，对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库。

步骤203，基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库。

步骤204，基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。

应当理解，上述步骤201-步骤204中的操作和特征，分别与步骤101- 104中的操作和特征相对应，因此，上述在步骤101-104中对于操作和特征的描述，同样适用于步骤201-步骤204，在此不再赘述。

步骤205，接收用户的访问请求。

本实施例中，用户的访问请求是指用户对互联网上的资源进行操作的后发出的获取互联网数据的请求，例如，该请求包括：浏览网页或者得到 URL等。

步骤206，基于访问请求，向用户展示分层库中的数据。

本实施例中，数据采集方法运行于其上的执行主体，在得到访问请求之后，向用户展示分层库中的数据。进一步的，向用户展示的分层库中的数据是与访问请求相关的数据，并且展示的数据还可以是分层库中最高层级的数据或者前预设层级(比如3层级)中的数据。

本实施例中，基于反馈特征，对筛选库中的数据进行分层处理包括：基于反馈特征，对筛选库中各个数据进行优先级排序，得到不同优先级的数据。

可选地，上述数据采集方法还可以包括：管理(增加、删除、查询等) 筛选库和分层库中的互联网数据，以此实现了筛选库中数据与分层库中的数据同步。

上述数据采集方法还可以包括：获取的筛选库和分层库中所有相同互联网数据的数据标识，基于数据标识，使筛选库和分层库中的数据同步。例如互联网数据采用url作为数据标识，则通过使筛选库与分层库中具有相同url的数据的内容相同可以达到信息同步的目的，如：某个环节中与一数据标识对应数据被标记为垃圾数据，则将筛选库和分层库中与该标记对应的所有互联网数据进行删除或打压，可以保证所有互联网数据的同步。本实施例中，通过下游数据到上游的同步，可以保障全链路中靠近源头的高价值互联网数据可靠保存和垃圾数据的提前过滤。

本实施例中，基于用户的访问请求，向用户展示分层库中的数据，从而保证用户得到的互联网数据为较优数据，为用户优化了互联网资源，保证了筛选库和分层库形成的链路的数据的良性循环。

在本实施例的一些可选实现方式中，上述数据采集方法还包括：接收新的互联网数据以及新的互联网数据的反馈特征；基于新的互联网数据的反馈特征和新的互联网数据的全链路特征，调整分层库中各个数据的层级；基于分层库中各个数据的层级，对新的互联网数据进行筛选与存储。

本可选实现方式中，新的互联网数据是互联网中实时新产生的数据，新的互联网数据还可以是数据采集方法运行于其上的执行主体在得到用户访问请求之后，向用户展示分层库中的数据，再接收到的数据(即将优化后的互联网数据再次投入互联网后得到的新的互联网数据)。

本实施例中，执行主体在得到新的互联网数据的同时，实时采集用户对每个新的互联网数据的反馈特征，以及新的互联网数据在全链路中的全链路特征。进一步地，随着新的互联网数据的变化和全链路特征的累计，调整分层库中各个数据的层级，可以保证分层库中各个层级的划分精确度。

本可选实现方式中，基于分层库中各个数据的层级，对新的互联网数据进行筛选可以包括：滤除新的互联网数据中属于分层库的底层层级的数据。

本可选实现方式，基于分层库中各个数据的层级，筛选新的互联网数据，可以保障全链路中靠近源头的高价值互联网数据的保留和垃圾数据的提前过滤，并且可以在由分层库优化后的互联网数据再次投入互联网后，使全链路形成一个良性循环。

针对上述实施例，在本实施例的一些可选实现方式中，上述数据采集方法还包括：分别对分层后的数据和筛选库中的数据进行采样，并将采样后的数据存储至样本库；从样本库抽取样本，并基于抽取的样本训练全链路模型，全链路模型用于确定样本库的数据的分布状态。

本可选实现方式中，全链路模型基于样本库中的样本进行训练，得到的训练完成的全链路模型，全链路模型可以确定互联网数据分别在筛选库、分层库中的数据分布数量、以及同时在筛选库和分层库中的分布数量，由此确定样本库的各个数据的分布状态。例如，样本库中属于筛选库的数据满足正态分布。本可选实现方式中，对互联网数据进行筛选和分层的过程中，会导致各个环节可见数据有偏见，通过对分层后的数据和筛选库中的数据进行采样，保留整个全链路的样本，基于全链路的样本可以确定各个数据中数据的实际分布。

本可选实现方式中，通过采样分层后的数据和筛选库中的数据，建立全链路的样本库存储整个链路的样本，以通过样本库确定互联网数据的实际分布，为模型训练或数据样本采集等场景提供了可靠的样本数据依据。

在本实施例的一些可选实现方式中，可以检测样本库中所有数据是否符合预设的全链路分布状态，若符合预设的全链路分布状态，确定互联网数据在全链路分布正常。

本可选实现方式中，预设的全链路分布状态可以基于互联网数据的生成需求确定，比如，筛选库的数据在全链路数据中的占比为80％，分层库在全链路数据中的占比为20％。

本可选实现方式中，样本库中所有数据的分布状态可以通过数据统计工具得到，数据统计工具用于统计不同数据库(筛选库、分层库)中的数量和状态(正常使用、未使用)。

本可选实现方式中，样本库中所有数据的分布状态还可以由上述全链路模型得到的样本库的各个数据的分布状态。

本可选实现方式中，通过样本库中的数据分布，为确定全链路的数据实际分布，提供了可靠的数据依据。

互联网的网页数据发现本身是一个从链接发现，再到网页抓取的分步过程，本实施例提供的互联网数据可以是链接数据，通过对链接数据进行网页抓取可以得到与链接数据对应的网页数据。具体地，在本实施例的一些可选实现方式中，互联网数据包括：链接数据，筛选库包括：链接库和网页库；对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库包括：去除链接数据中符合预设链接格式的数据，得到筛选后的链接数据，将筛选后的链接数据存储至链接库；基于链接库中所有链接数据，得到抓取网页数据；去除抓取网页数据中符合预设网页条件的网页数据，得到筛选后的抓取网页数据，将筛选后的抓取网页数据存储至网页库。

本可选实现方式中，符合预设链接格式的数据是指符合无效的链接格式的链接数据，例如，无法访问到有效信息的链接。预设网页条件的网页数据是指符合无效的网页格式的网页数据，例如，页面为空白的网页，或者页面内容为死链的网页均为无效的网页格式。

本可选实现方式中，在得到抓取网页数据之后，对所有当前抓取网页数据中的文本数据进行自然语言处理，确定文本的语义；和/或对抓取网页数据中的图像数据进行图像处理，确定图像含义。基于上述语义和/或图像含义可以确定网页数据的页面价值量；当页面无价值时，确定当前抓取网页数据为符合预设网页条件的网页数据；当页面价值量较大时，确定当前抓取网页数据为不符合预设网页条件的网页数据。

本可选实现方式中，对互联网数据进行数据格式筛选，可以筛除不符合实际格式需求的垃圾链接数据，仅保留高价值的链接数据；进一步地，对保留的高价值的链接数据进行网页数据抓取，得到抓取网页数据；去除抓取网页数据中符合预设网页条件的网页数据，可以仅保留高价值的网页数据，并且仅有高价值的网页数据下发数据下游，垃圾网页数据在下游中不可见。

本可选实现方式中，链接库存储的是链接数据，网页库存储的是网页数据，链接库与网页库中同一个互联网数据可以通过同一个url进行标识。如图4所示，网页库的数据是链接库下层的数据，在全链路中虽然层层过滤，但由于增加了反馈特征的信息，越向下层互联网数据的内容和特征越丰富，筛选后互联网数据的质量和精度也越好。

本可选实现方式中，基于链接类特征，对链接数据进行筛选，仅保留高价值链接数据进行存储；基于网页类特征，对网页数据进行筛选，仅将高价值网页数据下发下游，垃圾网页下游不可见，由此，实现了筛选得到的互联网数据的可靠性。

在本实施例的一些可选实现方式中，预设链接格式的数据包括以下一项或多项：垃圾搜索链接、搜索留痕链接、无价值链接、以及命名中存在预设的符号或/和关键词链接。

链接数据的信息来源为url，由于url的命名和生产方法具有一定规则，如：垃圾搜索链接、搜索留痕链接、无价值链接中均可能存在大量“&”、 “_”、“？”、关键词等信息。而“&”、“_”、“？”为预设的符号或/和关键词。

对于垃圾搜索链接、搜索留痕链接、无价值链接也各自具有各自的特征，如下所示链接：

https://car.yiche.com/xuanchegongju/？t＝4_1421936413593&mid＝37&more＝1 92_247_264，为一种无价值链接。

再如，“http://www.jdwxw.cn/search.php？searchsubmit＝yes”是一种低价值或者无价值链接，该低价值或者无价值链接对用户没有任何价值。

本可选实现方式中，为预设链接格式设置链接筛选条件，便于去除链接数据中无效数据，提高了链接数据筛选的可靠性。

本实施例中，互联网数据可以是链接数据和初始网页数据，通过对链接数据进行网页抓取可以得到与链接数据对应的网页数据。在本实施例的一些可选实现方式中，上述互联网数据还可以包括：初始网页数据，对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库还包括：去除初始网页数据中符合预设网页条件的网页数据，得到筛选后的初始网页数据，将筛选后的初始网页数据存储至网页库。

本可选实现方式中，初始网页数据是指获取到互联网数据中自身携带的网页数据，相对于从链接数据中抓取得到的网页数据，初始网页数据无需进行抓取，便可以得到页面信息(页面布局、页面样式等)。通过分析初始网页数据的页面信息便可以确定初始网页对应的页面是否为无价值的页面，也即符合预设网页条件的网页数据。

本可选实现方式中，当互联网数据包括网页数据和链接数据时，分别对链接数据和网页进行筛选，并将筛选后的链接数据存储至链接库，将筛选后的网页数据存储至网页库，实现了对不同类型数据的有效处理，提高了数据采集的可靠性。

本实施例中，互联网数据可以是初始网页数据，通过对网页数据进行筛选可以得到筛选后的网页数据。在本实施例的一些可选实现方式中，互联网数据包括：初始网页数据，筛选库包括：网页库；对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库包括：去除初始网页数据中符合预设网页条件的网页数据，得到筛选后的初始网页数据，将筛选后的初始网页数据存储至网页库。

本可选实现方式中，针对互联网数据中仅具有初始网页数据的情况，可以仅对初始网页数据进行无效网页分析，从而确定初始网页对应的页面是否为无价值的页面，也即符合预设网页条件的网页数据。

本可选实现方式中，当互联网数据仅包括初始网页数据时，通过对初始网页数据进行筛选，可以将筛选后的初始网页数据存储至网页库，为互联网数据的处理提供了一种可靠性的实现方式。

图3示出了根据本公开数据采集方法的第三个实施例的流程图300，上述数据采集方法包括以下步骤：

步骤301，获取链接数据。

如图4所示，可以从互联网中获取链接数据，互联网中具有海量的互联网数据，互联网数据的规模和生产能力已经达到万亿级别。对如此大规模数据进行挖掘，资源存储和计算的成本是非常巨大的。

步骤302，去除链接数据中符合预设链接格式的数据，得到筛选后的链接数据。

在图4中，链接库中存储的数据为经过筛选的链接数据，从互联网得到的链接数据需要经过预设链接格式的数据的去除，得到链接库中存储的数据。

步骤303，将筛选后的链接数据存储至链接库。

如图4，链接库中的链接数据为对用户有效的数据，相对于初始的互联网数据，数据量从万亿级别降低到数万亿，互联网数据的数据量相对减小。

步骤304，基于链接库中所有链接数据，得到抓取网页数据。

本实施例中，对链接库中的所有链接数据进行网页抓取，得到与所有链接数据对应的网页数据。

步骤305，去除抓取网页数据中符合预设网页条件的网页数据，得到筛选后的抓取网页数据。

如图4所示，去除抓取网页数据中符合预设网页条件的网页数据，可以使数据量从数万亿级别降低到数千亿级别，数据量明显减小。

步骤306，将筛选后的抓取网页数据存储至网页库。

步骤307，基于反馈特征和互联网数据的全链路特征，对链接库和网页库中的数据进行分层处理，得到分层后的数据。

步骤308，将分层后的数据存储至分层库。

本实施例中，对链接库和网页库中的数据进行分层处理，得到分层后的数据，可以使数据量从数千亿级别降低到千亿级别，数据量明显减小。

步骤309，基于分层库中各个数据的层级，分别调整网页库、链接库中与分层库的数据对应的数据。

如图4所示，基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据实现了网页库、链接库和分层库的信息同步，保证数据有效性。

步骤310，对分层库、网页库、链接库中的数据进行采样，并将采样后的数据存储至样本库。

如图4所示，分别对分层库、网页库、链接库中的数据进行部分数据选取，并存储至样本库，可以使样本库中具有分层库、网页库以及链接库三方的数据。

步骤311，从样本库抽取样本，并基于抽取的样本训练全链路模型。

操作人员可以实时从样本库中检测全链路中各个部分的数据分布，并且样本库中的数据可用于全链路模型的训练，进一步地，样本库中的数据还可以应用于与数据采集相关的数据模型的训练。

本实施例中，可以将分层库中的数据发送给用户，可以保证用户得到的数据为用户感兴趣、且在流动性较大的数据。进一步地，还可以通过用户反馈和用户行为数据对全链路进行调整和校验，如检测到某个站点优质互联网数据的占比较高，则对这个站点分配调度流量增加，该站点涉及的互联网数据的在各个筛选库中分层更向上；相反则下调配额和分层甚至封禁。

本实施例中，全链路中所有数据是不断变化的，通过长期动态的、不断调节校验，最终使全链路的互联网数据平衡，则全链路形成一个协同的良性循环。

本实施例提供的数据采集方法，对互联网数据中的链接数据进行筛选和存储，基于链接库中所有链接数据，得到抓取网页数据，对所有抓取网页数据进行筛选和存储，将网页库和链接库中数据进行优先级排序，从而在对互联网数据进行万亿级数据到千亿级的筛选之后，将互联网数据形成了具有整体漏斗形态和用户核心关注数据的分层结构，同时促使了整个网络链路形成一个协同良性的循环。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了数据采集装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可应用于各种电子设备中。

如图5所示，本实施例提供的数据采集装置500包括：获取单元501，筛选单元502，优化单元503，调整单元504。其中，上述获取单元501，可以被配置成获取互联网数据以及互联网数据的反馈特征。上述筛选单元 502，可以被配置成对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库。上述优化单元503，可以被配置成基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库。上述调整单元504，可以被配置成基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。

在本实施例中，数据采集装置500中：获取单元501，筛选单元502，优化单元503，调整单元504的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述调整单元504进一步被配置成确定所述分层库中属于最低层级的数据，删除所述筛选库中与所述最低层级的数据对应的数据。

在本实施例的一些可选的实现方式中，上述装置500还包括：采样单元(图中未示出)、训练单元(图中未示出)。上述采样单元，被配置成分别对分层库中的数据和筛选库中的数据进行采样，并将采样后的数据存储至样本库。上述训练单元，被配置成从样本库抽取样本，并基于抽取的样本训练全链路模型，全链路模型用于确定样本库的数据的分布状态。

在本实施例的一些可选实现方式中，上述装置500还包括：验证单元(图中未示出)。验证单元，被配置成响应于确定样本库中的所有数据符合预设的全链路分布状态，确定互联网数据在全链路分布正常。

在本实施例的一些可选实现方式中，上述互联网数据包括：链接数据，上述筛选库包括：链接库和网页库；上述筛选单元502包括：去除模块(图中未示出)，抓取模块(图中未示出)，筛选模块(图中未示出)，网存模块(图中未示出)。其中，上述去除模块，可以被配置成去除链接数据中符合预设链接格式的数据，得到筛选后的链接数据，将筛选后的链接数据存储至链接库。上述抓取模块，可以被被配置成基于链接库中所有链接数据，得到抓取网页数据。上述筛选模块，可以被配置成去除抓取网页数据中符合预设网页条件的网页数据，得到筛选后的抓取网页数据。上述网存模块，可以被配置成将筛选后的抓取网页数据存储至网页库。

在本实施例的一些可选实现方式中，上述预设链接格式的数据包括以下一项或多项：垃圾搜索链接、搜索留痕链接、无价值链接、以及命名中存在预设的符号或/和关键词链接。

在本实施例的一些可选实现方式中，上述互联网数据还包括：初始网页数据，筛选单元502还包括：网筛模块(图中未示出)，储存模块(图中未示出)。其中，上述网筛模块，可以被配置成去除初始网页数据中符合预设网页条件的网页数据，得到筛选后的初始网页数据。上述储存模块，可以被配置成将筛选后的初始网页数据存储至网页库。

在本实施例的一些可选实现方式中，上述互联网数据包括：初始网页数据，上述筛选库包括：网页库；筛选单元502包括：初筛模块(图中未示出)，初存模块(图中未示出)。其中，上述初筛模块，可以被配置成去除初始网页数据中符合预设网页条件的网页数据，得到筛选后的初始网页数据。上述初存模块，可以被配置成将筛选后的初始网页数据存储至网页库。

在本实施例的一些可选的实现方式中，上述装置500包括：接收单元 (图中未示出)、展示单元(图中未示出)。上述排接收单元，被配置成被配置成接收用户的访问请求。上述展示单元，被配置成基于访问请求，向用户展示分层库中的数据。

在本实施例的一些可选的实现方式中，上述装置500还包括：反馈单元(图中未示出)、分层单元(图中未示出)、处理单元(图中未示出)。其中，上述反馈单元，被配置成接收新的互联网数据以及新的互联网数据的反馈特征。上述分层单元，被配置成基于新的互联网数据的反馈特征和新的互联网数据的全链路特征，调整分层库中各个数据的层级。上述处理单元，被配置成基于分层库中各个数据的层级，对新的互联网数据进行筛选与存储。

本公开的实施例提供的数据采集装置，首先，获取单元501获取互联网数据以及互联网数据的反馈特征；其次，筛选单元502对互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；从次，优化单元503 基于反馈特征和互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库。最后，调整单元504基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据。由此，对互联网数据进行数据格式筛选，去除互联网数据中无效数据，减小了网络资源存储和计算的压力；基于反馈特征，对筛选后的数据进行分层处理，实现了互联网数据多层筛选过滤；基于分层库中各个数据的层级，调整筛选库中与分层库的数据对应的数据，可以保证全链路各个环节的协调合作，当优化后的互联网数据再次投入互联网，可以使互联网数据形成一个良性循环。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、 ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口 605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如数据采集方法。例如，在一些实施例中，数据采集方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元 608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和 /或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到 RAM 603并由计算单元601执行时，可以执行上文描述的数据采集方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据采集方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据采集方法，所述方法包括：

获取互联网数据以及所述互联网数据的反馈特征；

对所述互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；

基于所述反馈特征和所述互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库，所述全链路特征为所述互联网数据在；

基于所述分层库中各个数据的层级，调整所述筛选库中与所述分层库的数据对应的数据。

2.根据权利要求1所述的方法，其中，所述基于所述分层库中各个数据的层级，调整所述筛选库中与所述分层库的数据对应的数据，包括：

确定所述分层库中属于最低层级的数据，删除所述筛选库中与所述最低层级的数据对应的数据。

3.根据权利要求1所述的方法，所述方法还包括：

分别对所述分层库中的数据和所述筛选库中的数据进行采样，并将采样后的数据存储至样本库；

从所述样本库抽取样本，并基于抽取的样本训练全链路模型，所述全链路模型用于确定所述样本库的数据的分布状态。

4.根据权利要求3所述的方法，所述方法还包括：

响应于确定样本库中的所有数据符合预设的全链路分布状态，确定所述互联网数据在全链路分布正常。

5.根据权利要求1-4之一所述的方法，其中，所述互联网数据包括：链接数据，所述筛选库包括：链接库和网页库；所述对所述互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库包括：

去除所述链接数据中符合预设链接格式的数据，得到筛选后的链接数据，将筛选后的链接数据存储至所述链接库；

基于所述链接库中所有链接数据，得到抓取网页数据；

去除所述抓取网页数据中符合预设网页条件的网页数据，得到筛选后的抓取网页数据，将筛选后的抓取网页数据存储至所述网页库。

6.根据权利要求5所述的方法，其中，所述预设链接格式的数据包括以下一项或多项：

垃圾搜索链接、搜索留痕链接、无价值链接、以及命名中存在预设的符号或/和关键词链接。

7.根据权利要求5所述的方法，其中，所述互联网数据还包括：初始网页数据，所述方法包括：

去除所述初始网页数据中符合预设网页条件的网页数据，得到筛选后的初始网页数据，将筛选后的初始网页数据存储至所述网页库。

8.根据权利要求1-4之一所述的方法，其中，所述互联网数据包括：初始网页数据，所述筛选库包括：网页库；所述对所述互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库包括：

9.根据权利要求1-4之一所述的方法，所述方法还包括：

接收用户的访问请求；

基于所述访问请求，向所述用户展示所述分层库中的数据。

10.根据权利要求9所述的方法，所述方法还包括：

接收新的互联网数据以及所述新的互联网数据的反馈特征；

基于所述新的互联网数据的反馈特征和所述新的互联网数据的全链路特征，调整所述分层库中各个数据的层级；

基于所述分层库中各个数据的层级，对所述新的互联网数据进行筛选与存储。

11.一种数据采集装置，所述装置包括：

获取单元，被配置成获取互联网数据以及所述互联网数据的反馈特征；

筛选单元，被配置成对所述互联网数据进行数据格式筛选，并将筛选后的数据存储至筛选库；

优化单元，被配置成基于所述反馈特征和所述互联网数据的全链路特征，对筛选库中的数据进行分层处理，并将分层后的数据存储至分层库；

调整单元，被配置成基于所述分层库中各个数据的层级，调整所述筛选库中与所述分层库的数据对应的数据。

12.根据权利要求11所述的装置，所述调整单元进一步被配置成确定所述分层库中属于最低层级的数据，删除所述筛选库中与所述最低层级的数据对应的数据。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。