CN115687792A

CN115687792A - 针对在线互联网服务的大数据采集方法及系统

Info

Publication number: CN115687792A
Application number: CN202211637770.8A
Authority: CN
Inventors: 马泽晏; 王俊柏
Original assignee: Xingtai Dazhen Network Technology Co ltd
Current assignee: Chengdu Zuolinian Zhicheng Technology Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-02-03
Anticipated expiration: 2042-12-20
Also published as: CN115687792B

Abstract

本发明提供的针对在线互联网服务的大数据采集方法及系统，涉及数据处理技术领域。在本发明中，从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集，每一条待处理网络行为数据用于反映出一个互联网终端设备请求目标在线互联网服务平台提供的服务内容；依据对应的时间所在的维度，对待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成待处理数据集对应的候选数据集；依据反映的服务内容所在的维度，对候选数据集包括的多条候选网络行为数据进行筛选采集操作，以候选数据集对应的目标数据集。基于上述内容，可以在一定程度上提高大数据采集筛选的可靠度。

Description

针对在线互联网服务的大数据采集方法及系统

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种针对在线互联网服务的大数据采集方法及系统。

背景技术

基于互联网技术和计算机计算的不断成熟，使得其应用场景逐渐增多，例如，可以用于提供在线互联网服务。其中，在在线互联网服务的提供中，一般会产生较多的行为数据，而这些行为数据的用途较多，如进行数据分析以确定行为意图或偏好等，但是，这些行为数据中也存在着无用的数据，因而，需要进行筛选，但是，现有技术中存在筛选可靠度不高的问题。

发明内容

有鉴于此，本发明的目的在于提供一种针对在线互联网服务的大数据采集方法及系统，以在一定程度上提高大数据采集筛选的可靠度。

为实现上述目的，本发明实施例采用如下技术方案：

一种针对在线互联网服务的大数据采集方法，包括：

从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集，每一条所述待处理网络行为数据用于反映出一个互联网终端设备请求所述目标在线互联网服务平台提供的服务内容；

依据对应的时间所在的维度，对所述待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成所述待处理数据集对应的候选数据集，所述候选数据集包括多条候选网络行为数据；

依据反映的服务内容所在的维度，对所述候选数据集包括的多条候选网络行为数据进行筛选采集操作，以所述候选数据集对应的目标数据集，所述目标数据集包括至少一条目标网络行为数据。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，所述从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集的步骤，包括：

从目标在线互联网服务平台中，提取到每一个互联网终端设备对应的网络行为数据采集授权状态信息，并将对应的网络行为数据采集授权状态信息反映出被授权进行网络行为数据采集的互联网终端设备，标记为第一互联网终端设备，以形成对应的第一互联网终端设备集合；

依据所述第一互联网终端设备集合包括的每一个第一互联网终端设备的设备身份信息，向所述目标在线互联网服务平台下发数据提取指令，以及，再获取所述目标在线互联网服务平台基于所述数据提取指令传输的多条待处理网络行为数据，以构建形成对应的待处理数据集。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，所述依据对应的时间所在的维度，对所述待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成所述待处理数据集对应的候选数据集的步骤，包括：

对所述待处理数据集包括的多条待处理网络行为数据分别进行行为时间确定处理，以输出每一条所述待处理网络行为数据对应的行为时间信息；

将对应的行为时间信息表征的行为时长大于或等于预先配置的参考行为时长的每一条所述待处理网络行为数据，作为候选网络行为数据，以基于得到的多条候选网络行为数据构建出对应的候选数据集。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，所述依据反映的服务内容所在的维度，对所述候选数据集包括的多条候选网络行为数据进行筛选采集操作，以所述候选数据集对应的目标数据集的步骤，包括：

对于所述候选数据集包括的每一条候选网络行为数据，将该候选网络行为数据进行标记处理，以标记为待构建的成员属性分布网中的一个分布成员，并将该候选网络行为数据反映的服务内容对应的服务内容描述信息，确定为该分布成员对应的分布成员属性信息；

分别依据每一条所述候选网络行为数据对应的至少两个维度的信息，确定出每一条所述候选网络行为数据对应的分布成员具有的分布成员坐标信息，所述至少两个维度至少包括所述候选网络行为数据对应的互联网终端设备，所述至少两个维度不包括所述候选网络行为数据反映的服务内容；

依据每一个所述分布成员具有的分布成员坐标信息和对应的分布成员属性信息，构建出目标成员属性分布网，再对该目标成员属性分布网进行滑窗分割处理，以形成所述目标成员属性分布网对应的多个子成员属性分布网，所述多个子成员属性分布网包括的分布成员的并集与所述目标成员属性分布网包括的分布成员一致；

分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度；

依据每一个所述子成员属性分布网对应的子分布网络重要度，从所述多个子成员属性分布网中，筛选出目标子成员属性分布网，再将每一个所述目标子成员属性分布网包括的每一个分布成员对应的候选网络行为数据标记为目标网络行为数据，以构建形成对应的目标数据集。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，包括：

对所述子成员属性分布网进行数据加载处理，以加载至分布网属性重要度分析神经网络，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对所述子成员属性分布网进行关键数据挖掘处理，形成所述子成员属性分布网对应的分布网关键数据代表向量；

利用所述分布网属性重要度分析神经网络包括的第一向量映射子网络，对所述分布网关键数据代表向量进行向量映射处理，以形成所述分布网关键数据代表向量对应的第一分布网关键数据代表向量映射结果，并利用所述分布网属性重要度分析神经网络包括的第二向量映射子网络，对所述分布网关键数据代表向量进行向量映射处理，以形成所述分布网关键数据代表向量对应的第二分布网关键数据代表向量映射结果，所述第一向量映射子网络和所述第二向量映射子网络利用施加的扰动数据不一致的示例性子成员属性分布网生成；

利用所述分布网属性重要度分析神经网络包括的数据代表向量整合子网络，确定出所述分布网关键数据代表向量对应的第一影响力指标值和第二影响力指标值，所述第一影响力指标值用于反映所述第一分布网关键数据代表向量映射结果具有的影响力大小，所述第二影响力指标值用于反映所述第二分布网关键数据代表向量映射结果具有的影响力大小，所述第一影响力指标值和所述第二影响力指标值之间的和值等于1；

依据所述第一分布网关键数据代表向量映射结果、所述第一影响力指标值、所述第二分布网关键数据代表向量映射结果和所述第二影响力指标值，分析输出所述子成员属性分布网对应的整合分布网关键数据代表向量映射结果，再依据所述整合分布网关键数据代表向量映射结果，分析输出所述子成员属性分布网对应的子分布网络重要度。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，在所述对所述子成员属性分布网进行数据加载处理，以加载至分布网属性重要度分析神经网络，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对所述子成员属性分布网进行关键数据挖掘处理，形成所述子成员属性分布网对应的分布网关键数据代表向量的步骤前，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，还包括：

提取到具有不同的扰动数据的至少四个第一示例性子成员属性分布网，分别对每一个第一示例性子成员属性分布网进行加载处理，以加载至所述分布网属性重要度分析神经网络中，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对每一个所述第一示例性子成员属性分布网进行关键数据挖掘处理，形成每一个所述第一示例性子成员属性分布网对应的示例性分布网关键数据代表向量；

基于每一个所述第一示例性子成员属性分布网对应的示例性分布网关键数据代表向量，对所述分布网属性重要度分析神经网络中的至少四个向量映射子网络进行优化处理，形成优化后的至少四个向量映射子网络，在优化处理的过程中，所述第一示例性子成员属性分布网对应的示例性分布网关键数据代表向量与所述向量映射子网络之间一一对应的关系；

在所述至少四个向量映射子网络中，筛选形成所述分布网属性重要度分析神经网络包括的第一向量映射子网络和第二向量映射子网络，所述第一向量映射子网络与所述至少四个示例性子成员属性分布网中具有扰动程度最小的扰动数据的示例性子成员属性分布网对应，所述第二向量映射子网络与所述至少四个示例性子成员属性分布网中具有扰动程度最大的扰动数据的示例性子成员属性分布网对应。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，在所述利用所述分布网属性重要度分析神经网络包括的数据代表向量整合子网络，确定出所述分布网关键数据代表向量对应的第一影响力指标值和第二影响力指标值的步骤之前，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，还包括：

提取到第二示例性子成员属性分布网，并对所述第二示例性子成员属性分布网进行数据加载处理，以加载至所述分布网属性重要度分析神经网络中，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对所述第二示例性子成员属性分布网进行关键数据挖掘处理，形成所述第二示例性子成员属性分布网对应的示例性分布网关键数据代表向量；

利用所述分布网属性重要度分析神经网络包括的第一向量映射子网络，对所述示例性分布网关键数据代表向量进行向量映射处理，以形成所述示例性分布网关键数据代表向量对应的示例性第一分布网关键数据代表向量映射结果，并利用所述分布网属性重要度分析神经网络包括的第二向量映射子网络，对所述示例性分布网关键数据代表向量进行向量映射处理，以形成所述示例性分布网关键数据代表向量对应的示例性第二分布网关键数据代表向量映射结果；

利用所述示例性分布网关键数据代表向量、所述示例性第一分布网关键数据代表向量映射结果、所述示例性第二分布网关键数据代表向量映射结果和所述第二示例性子成员属性分布网的子分布网络重要度标识信息，对所述数据代表向量整合子网络进行优化，使得所述数据代表向量整合子网络具有确定出所述分布网关键数据代表向量利用所述第一向量映射子网络形成的分布网关键数据代表向量映射结果对应的影响力指标值的功能，并具有确定出所述分布网关键数据代表向量利用所述第二向量映射子网络形成的分布网关键数据代表向量映射结果对应的影响力指标值的功能。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，所述利用所述示例性分布网关键数据代表向量、所述示例性第一分布网关键数据代表向量映射结果、所述示例性第二分布网关键数据代表向量映射结果和所述第二示例性子成员属性分布网的子分布网络重要度标识信息，对所述数据代表向量整合子网络进行优化的步骤，包括：

利用所述分布网属性重要度分析神经网络包括的数据代表向量整合子网络，确定出所述示例性分布网关键数据代表向量对应的示例性第一影响力指标值和示例性第二影响力指标值，所述示例性第一影响力指标值用于反映所述示例性第一分布网关键数据代表向量映射结果具有的影响力大小，所述示例性第二影响力指标值用于反映所述示例性第二分布网关键数据代表向量映射结果具有的影响力大小，所述示例性第一影响力指标值和所述示例性第二影响力指标值之间的和值等于1；

利用所述示例性第一分布网关键数据代表向量映射结果、所述示例性第一影响力指标值、所述示例性第二分布网关键数据代表向量映射结果和所述示例性第二影响力指标值，分析输出所述第二示例性子成员属性分布网对应的整合分布网关键数据代表向量映射结果，再利用所述第二示例性子成员属性分布网对应的整合分布网关键数据代表向量映射结果，分析输出所述第二示例性子成员属性分布网对应的子分布网络重要度；

利用所述第二示例性子成员属性分布网对应的子分布网络重要度和所述第二示例性子成员属性分布网对应的子分布网络重要度标识信息，分析输出所述分布网属性重要度分析神经网络的重要度分析误差，再依据所述重要度分析误差，对所述数据代表向量整合子网络进行优化。

在一些优选的实施例中，在上述针对在线互联网服务的大数据采集方法中，所述利用所述示例性第一分布网关键数据代表向量映射结果、所述示例性第一影响力指标值、所述示例性第二分布网关键数据代表向量映射结果和所述示例性第二影响力指标值，分析输出所述第二示例性子成员属性分布网对应的整合分布网关键数据代表向量映射结果的步骤，包括：

基于所述第一分布网关键数据代表向量映射结果和所述第一影响力指标值，计算输出对应的加权第一分布网关键数据代表向量映射结果，并基于所述第二分布网关键数据代表向量映射结果和所述第二影响力指标值，计算输出对应的加权第二分布网关键数据代表向量映射结果；

基于所述加权第一分布网关键数据代表向量映射结果和所述加权第二分布网关键数据代表向量映射结果，确定出所述子成员属性分布网对应的整合分布网关键数据代表向量映射结果。

本发明实施例还提供一种针对在线互联网服务的大数据采集系统，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现上述的针对在线互联网服务的大数据采集方法。

本发明实施例提供的一种针对在线互联网服务的大数据采集方法及系统，从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集，每一条待处理网络行为数据用于反映出一个互联网终端设备请求目标在线互联网服务平台提供的服务内容；依据对应的时间所在的维度，对待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成待处理数据集对应的候选数据集；依据反映的服务内容所在的维度，对候选数据集包括的多条候选网络行为数据进行筛选采集操作，以候选数据集对应的目标数据集。基于前述的步骤，在时间维度进行数据的采集筛选的基础上，进一步还在对应的服务内容维度进行数据的采集筛选，可以在一定程度上提高大数据采集筛选的可靠度，从而改善现有技术中的不足。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例提供的针对在线互联网服务的大数据采集系统的结构框图。

图2为本发明实施例提供的针对在线互联网服务的大数据采集方法包括的各步骤的流程示意图。

图3为本发明实施例提供的针对在线互联网服务的大数据采集装置包括的各模块的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种针对在线互联网服务的大数据采集系统。其中，所述大数据采集系统可以包括存储器和处理器。

详细地，所述存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件（firmware）的形式，存在的软件功能模块（计算机程序）。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序，从而实现本发明实施例提供的针对在线互联网服务的大数据采集方法。

具体来说，在一些可行的实施方式中，所述存储器可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（ErasableProgrammable Read-Only Memory，EPROM），电可擦除只读存储器（Electric ErasableProgrammable Read-Only Memory，EEPROM）等。所述处理器可以是一种通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、片上系统(System on Chip，SoC)等；还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

具体来说，在一些可行的实施方式中，所述针对在线互联网服务的大数据采集系统可以是一种具备数据处理能力的服务器。

结合图2，本发明实施例还提供一种针对在线互联网服务的大数据采集方法，可应用于上述针对在线互联网服务的大数据采集系统。其中，所述针对在线互联网服务的大数据采集方法有关的流程所定义的方法步骤，可以由所述针对在线互联网服务的大数据采集系统实现。

下面将对图2所示的具体流程，进行详细阐述。

步骤S110，从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集。

在本发明实施例中，所述在线互联网服务的大数据采集系统可以从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集。每一条所述待处理网络行为数据用于反映出一个互联网终端设备请求所述目标在线互联网服务平台提供的服务内容（也就是说，所述目标在线互联网服务平台可以提供多种互联网服务，具体内容不受限制）。

步骤S120，依据对应的时间所在的维度，对所述待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成所述待处理数据集对应的候选数据集。

在本发明实施例中，所述在线互联网服务的大数据采集系统可以依据对应的时间所在的维度，对所述待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成所述待处理数据集对应的候选数据集。所述候选数据集包括多条候选网络行为数据。

步骤S130，依据反映的服务内容所在的维度，对所述候选数据集包括的多条候选网络行为数据进行筛选采集操作，以所述候选数据集对应的目标数据集。

在本发明实施例中，所述在线互联网服务的大数据采集系统可以依据反映的服务内容所在的维度，对所述候选数据集包括的多条候选网络行为数据进行筛选采集操作，以所述候选数据集对应的目标数据集。所述目标数据集包括至少一条目标网络行为数据。

基于前述的步骤，在时间维度进行数据的采集筛选的基础上，进一步还在对应的服务内容维度进行数据的采集筛选，可以在一定程度上提高大数据采集筛选的可靠度，从而改善现有技术中的不足。

具体来说，在一些可行的实施方式中，步骤S110，可以包括以下内容：

从目标在线互联网服务平台中（也可以是从所述目标在线互联网服务平台对应的数据库中），提取到每一个互联网终端设备对应的网络行为数据采集授权状态信息，并将对应的网络行为数据采集授权状态信息反映出被授权进行网络行为数据采集的互联网终端设备，标记为第一互联网终端设备，以形成对应的第一互联网终端设备集合；

依据所述第一互联网终端设备集合包括的每一个第一互联网终端设备的设备身份信息，向所述目标在线互联网服务平台下发数据提取指令（也可以是向所述目标在线互联网服务平台对应的数据库下发数据提取指令），以及，再获取所述目标在线互联网服务平台基于所述数据提取指令传输的多条待处理网络行为数据，以构建形成对应的待处理数据集。

具体来说，在一些可行的实施方式中，步骤S120，可以包括以下内容：

对所述待处理数据集包括的多条待处理网络行为数据分别进行行为时间确定处理，以输出每一条所述待处理网络行为数据对应的行为时间信息（如行为起始时间信息、行为终止时间信息等）；

将对应的行为时间信息表征的行为时长大于或等于预先配置的参考行为时长的每一条所述待处理网络行为数据，作为候选网络行为数据，以基于得到的多条候选网络行为数据构建出对应的候选数据集（示例性地，所述参考行为时长的具体数值不受限制，如1秒、2描述、3秒等，并且，基于不同服务内容的待处理网络行为数据可以配置不同的参考行为时长）。

具体来说，在一些可行的实施方式中，步骤S130，可以包括以下内容：

分别依据每一条所述候选网络行为数据对应的至少两个维度的信息，确定出每一条所述候选网络行为数据对应的分布成员具有的分布成员坐标信息，所述至少两个维度至少包括所述候选网络行为数据对应的互联网终端设备（示例性地，所述至少两个维度还可以包括对应的行为时间和/或互联网终端设备的位置区域等），所述至少两个维度不包括所述候选网络行为数据反映的服务内容（已经作为分布成员属性信息）；

依据每一个所述分布成员具有的分布成员坐标信息和对应的分布成员属性信息，构建出目标成员属性分布网，再对该目标成员属性分布网进行滑窗分割处理（所述滑窗分割处理的窗口大小和滑窗步长不受限制，可以根据实际需求进行配置），以形成所述目标成员属性分布网对应的多个子成员属性分布网，所述多个子成员属性分布网包括的分布成员的并集与所述目标成员属性分布网包括的分布成员一致（示例性地，所述多个子成员属性分布网中的任意两个子成员属性分布网之间最多部分重合）；

依据每一个所述子成员属性分布网对应的子分布网络重要度，从所述多个子成员属性分布网中，筛选出目标子成员属性分布网，再将每一个所述目标子成员属性分布网包括的每一个分布成员对应的候选网络行为数据标记为目标网络行为数据，以构建形成对应的目标数据集（示例性地，可以将对应的子分布网络重要度大于或等于预先配置的子分布网络重要度阈值的每一个子成员属性分布网，都作为目标子成员属性分布网）。

具体来说，在一些可行的实施方式中，所述分别依据每一条所述候选网络行为数据对应的至少两个维度的信息，确定出每一条所述候选网络行为数据对应的分布成员具有的分布成员坐标信息的步骤，包括以下内容：

分别确定出每一条所述候选网络行为数据对应的行为时间信息，并将所述行为时间信息作为所述候选网络行为数据对应的第一维度坐标；

分别确定出每一条所述候选网络行为数据对应的互联网终端设备的设备身份信息和设备通信位置信息，以形成每一个所述互联网终端设备对应的设备通信位置信息集合，所述设备通信位置信息集合中的一个设备通信位置信息表征对应的互联网终端设备在对应的候选网络行为数据对应的行为时间信息下所在的物理位置；以及，针对每一个所述设备通信位置信息集合，依据该设备通信位置信息集合包括的每一个设备通信位置信息，构建出该设备通信位置信息集合对应的位置分布点集，所述位置分布点集中的每一个位置分布点与一个所述设备通信位置信息对应，且在所述位置分布点集中，每两个位置分布点之间的分布位置关系，与该两个位置分布点对应的两个所述设备通信位置信息之间的分布位置关系一致；

针对每一个所述位置分布点集中的每两个位置分布点，依据该两个位置分布点对应的两个所述设备通信位置信息对应的行为时间信息之间的时间相关度，确定出该两个位置分布点之间的分布点相关关系信息；以及，基于每两个位置分布点之间的分布点相关关系信息，对所述位置分布点集进行处理，以形成所述位置分布点集对应的位置分布点关系网，在所述位置分布点关系网中，每两个位置分布点之间的连接线用于反映该两个位置分布点之间的分布点相关关系信息；

分别对每一个所述位置分布点关系网进行遍历，以形成每一个所述位置分布点关系网对应的遍历链路集合，每一个所述遍历链路集合包括多条遍历链路，每一条所述遍历链路包括至少两个位置分布点，且在该遍历链路包括的至少两个位置分布点中任意两个位置分布点并不是同一个位置分布点（即对应的设备通信位置信息对应的候选网络行为数据不是同一条），其中，在所述遍历链路中，连接在每两个所述位置分布点之间的连接线的长度与对应的所述时间相关度之间具有负相关关系；以及，针对每两个所述遍历链路集合，分别计算该两个所述遍历链路集合之间的每两条遍历链路的路径相似度，再对该路径相似度进行融合计算（如均值计算，或基于对应的路径长度的负相关系数进行加权求和计算处理等），以得到该两个所述遍历链路集合之间的融合路径相似度，在将该融合路径相似度作为该两个所述遍历链路集合对应的两个互联网终端设备之间的相关系数；

分别依据每一个互联网终端设备与其它互联网终端设备之间的相关系数，确定出每一个互联网终端设备对应的设备编号信息，其中，每一个互联网终端设备依据对应的设备编号信息进行排序之后，相邻的每两个互联网终端设备之间的相关系数的均值大于或等于预先配置的相关系数阈值（或者，也可以基于相关系数的均值最大的原则进行编号）；以及，针对每一条所述候选网络行为数据，将该候选网络行为数据对应的互联网终端设备对应的设备编号信息，作为该候选网络行为数据对应的第二维度坐标，再基于该候选网络行为数据对应的第一维度坐标和第二维度坐标，确定出该候选网络行为数据对应的分布成员具有的分布成员坐标信息。

具体来说，在一些可行的实施方式中，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，可以包括以下内容：

对所述子成员属性分布网进行数据加载处理，以加载至分布网属性重要度分析神经网络，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对所述子成员属性分布网进行关键数据挖掘处理，形成所述子成员属性分布网对应的分布网关键数据代表向量（示例性地，所述关键数据挖掘子网络可以是一种卷积网络，以对所述子成员属性分布网进行卷积运算，以挖掘出对应的分布网关键数据代表向量）；

利用所述分布网属性重要度分析神经网络包括的第一向量映射子网络，对所述分布网关键数据代表向量进行向量映射处理，以形成所述分布网关键数据代表向量对应的第一分布网关键数据代表向量映射结果，并利用所述分布网属性重要度分析神经网络包括的第二向量映射子网络，对所述分布网关键数据代表向量进行向量映射处理，以形成所述分布网关键数据代表向量对应的第二分布网关键数据代表向量映射结果，所述第一向量映射子网络和所述第二向量映射子网络利用施加的扰动数据不一致的示例性子成员属性分布网生成（示例性地，所述向量映射处理可以包括两个阶段，第一个阶段可以是进行参数映射，以映射至0-1等区间，第二阶段可以是对映射后的参数进行尺度变换和平移处理，如先计算映射后的参数和尺度参数之间的乘积，再计算该乘积与平移参数的和值，其中，尺度变换对应的尺度参数和平移处理的平移参数可以通过进行网络优化得到，即依据所述示例性子成员属性分布网进行学习以确定）；

依据所述第一分布网关键数据代表向量映射结果、所述第一影响力指标值、所述第二分布网关键数据代表向量映射结果和所述第二影响力指标值，分析输出所述子成员属性分布网对应的整合分布网关键数据代表向量映射结果（示例性地，可以依据所述第一影响力指标值和所述第二影响力指标值，对所述第一分布网关键数据代表向量映射结果和所述第二分布网关键数据代表向量映射结果进行加权求和计算，以输出对应的整合分布网关键数据代表向量映射结果），再依据所述整合分布网关键数据代表向量映射结果，分析输出所述子成员属性分布网对应的子分布网络重要度（示例性地，可以通过分类函数对所述整合分布网关键数据代表向量映射结果进行处理，以得到对应的子分布网络重要度）。

具体来说，在所述对所述子成员属性分布网进行数据加载处理，以加载至分布网属性重要度分析神经网络，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对所述子成员属性分布网进行关键数据挖掘处理，形成所述子成员属性分布网对应的分布网关键数据代表向量的步骤之前，在一些可行的实施方式中，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，还可以包括以下内容：

提取到具有不同的扰动数据的至少四个第一示例性子成员属性分布网（示例性地，所述至少四个第一示例性子成员属性分布网，可以是在一个示例性子成员属性分布网的基础上，分别施加4种不同扰动程度的数据形成，施加扰动的具体方式不受限制，可以参照相关的现有技术），分别对每一个第一示例性子成员属性分布网进行加载处理，以加载至所述分布网属性重要度分析神经网络中，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对每一个所述第一示例性子成员属性分布网进行关键数据挖掘处理，形成每一个所述第一示例性子成员属性分布网对应的示例性分布网关键数据代表向量；

在所述至少四个向量映射子网络中，筛选形成所述分布网属性重要度分析神经网络包括的第一向量映射子网络和第二向量映射子网络，所述第一向量映射子网络与所述至少四个示例性子成员属性分布网中具有扰动程度最小的扰动数据的示例性子成员属性分布网对应，所述第二向量映射子网络与所述至少四个示例性子成员属性分布网中具有扰动程度最大的扰动数据的示例性子成员属性分布网对应（示例性地，所述第一示例性子成员属性分布网的数量可以大于或等于需要筛选形成的向量映射子网络的2倍，例如，需要筛选形成第一向量映射子网络、第二向量映射子网络和第三向量映射子网络，需要至少六个第一示例性子成员属性分布网，对所述分布网属性重要度分析神经网络中的至少六个向量映射子网络进行优化处理）。

具体来说，在所述利用所述分布网属性重要度分析神经网络包括的数据代表向量整合子网络，确定出所述分布网关键数据代表向量对应的第一影响力指标值和第二影响力指标值的步骤之前，在一些可行的实施方式中，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，还可以包括以下内容：

具体来说，在一些可行的实施方式中，所述利用所述示例性分布网关键数据代表向量、所述示例性第一分布网关键数据代表向量映射结果、所述示例性第二分布网关键数据代表向量映射结果和所述第二示例性子成员属性分布网的子分布网络重要度标识信息，对所述数据代表向量整合子网络进行优化的步骤，可以包括以下内容：

利用所述第二示例性子成员属性分布网对应的子分布网络重要度和所述第二示例性子成员属性分布网对应的子分布网络重要度标识信息（所述子分布网络重要度标识信息为所述第二示例性子成员属性分布网的实际子分布网络重要度，因此，可以基于该实际子分布网络重要度和所述子分布网络重要度计算输出对应的重要度分析误差），分析输出所述分布网属性重要度分析神经网络的重要度分析误差，再依据所述重要度分析误差，对所述数据代表向量整合子网络进行优化。

具体来说，在一些可行的实施方式中，所述利用所述示例性第一分布网关键数据代表向量映射结果、所述示例性第一影响力指标值、所述示例性第二分布网关键数据代表向量映射结果和所述示例性第二影响力指标值，分析输出所述第二示例性子成员属性分布网对应的整合分布网关键数据代表向量映射结果的步骤，可以包括以下内容：

基于所述第一分布网关键数据代表向量映射结果和所述第一影响力指标值，（如相乘）计算输出对应的加权第一分布网关键数据代表向量映射结果，并基于所述第二分布网关键数据代表向量映射结果和所述第二影响力指标值，计算输出对应的加权第二分布网关键数据代表向量映射结果；

基于所述加权第一分布网关键数据代表向量映射结果和所述加权第二分布网关键数据代表向量映射结果，（如求和计算）确定出所述子成员属性分布网对应的整合分布网关键数据代表向量映射结果。

最后，需要说明的是，在对所述分布网属性重要度分析神经网络包括的各个子网络进行优化的过程中，可以是分别对每一个子网络进行优化，并且，在对其中任意一个子网络进行优化的过程中，可以保持该子网络以外的其它子网络的参数不变。

结合图3，本发明实施例还提供一种针对在线互联网服务的大数据采集装置，可应用于上述针对在线互联网服务的大数据采集系统。其中，所述针对在线互联网服务的大数据采集装置可以包括：

待处理数据集提取模块，用于从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集，每一条所述待处理网络行为数据用于反映出一个互联网终端设备请求所述目标在线互联网服务平台提供的服务内容；第一数据筛选采集模块，用于依据对应的时间所在的维度，对所述待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成所述待处理数据集对应的候选数据集，所述候选数据集包括多条候选网络行为数据；第二数据筛选采集模块，用于依据反映的服务内容所在的维度，对所述候选数据集包括的多条候选网络行为数据进行筛选采集操作，以所述候选数据集对应的目标数据集，所述目标数据集包括至少一条目标网络行为数据。

综上所述，本发明提供的一种针对在线互联网服务的大数据采集方法及系统，从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集，每一条待处理网络行为数据用于反映出一个互联网终端设备请求目标在线互联网服务平台提供的服务内容；依据对应的时间所在的维度，对待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成待处理数据集对应的候选数据集；依据反映的服务内容所在的维度，对候选数据集包括的多条候选网络行为数据进行筛选采集操作，以候选数据集对应的目标数据集。基于前述的步骤，在时间维度进行数据的采集筛选的基础上，进一步还在对应的服务内容维度进行数据的采集筛选，可以在一定程度上提高大数据采集筛选的可靠度，从而改善现有技术中的不足（即大数据采集筛选的可靠度不高的问题）。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对在线互联网服务的大数据采集方法，其特征在于，包括：

2.如权利要求1所述的针对在线互联网服务的大数据采集方法，其特征在于，所述从目标在线互联网服务平台中提取到包括多条待处理网络行为数据的待处理数据集的步骤，包括：

3.如权利要求1所述的针对在线互联网服务的大数据采集方法，其特征在于，所述依据对应的时间所在的维度，对所述待处理数据集包括的多条待处理网络行为数据进行筛选采集操作，以形成所述待处理数据集对应的候选数据集的步骤，包括：

4.如权利要求1-3任意一项所述的针对在线互联网服务的大数据采集方法，其特征在于，所述依据反映的服务内容所在的维度，对所述候选数据集包括的多条候选网络行为数据进行筛选采集操作，以所述候选数据集对应的目标数据集的步骤，包括：

5.如权利要求4所述的针对在线互联网服务的大数据采集方法，其特征在于，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，包括：

6.如权利要求5所述的针对在线互联网服务的大数据采集方法，其特征在于，在所述对所述子成员属性分布网进行数据加载处理，以加载至分布网属性重要度分析神经网络，利用所述分布网属性重要度分析神经网络包括的关键数据挖掘子网络，对所述子成员属性分布网进行关键数据挖掘处理，形成所述子成员属性分布网对应的分布网关键数据代表向量的步骤前，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，还包括：

7.如权利要求6所述的针对在线互联网服务的大数据采集方法，其特征在于，在所述利用所述分布网属性重要度分析神经网络包括的数据代表向量整合子网络，确定出所述分布网关键数据代表向量对应的第一影响力指标值和第二影响力指标值的步骤之前，所述分别对每一个所述子成员属性分布网进行重要度的分析确定，输出每一个所述子成员属性分布网对应的子分布网络重要度的步骤，还包括：

8.如权利要求7所述的针对在线互联网服务的大数据采集方法，其特征在于，所述利用所述示例性分布网关键数据代表向量、所述示例性第一分布网关键数据代表向量映射结果、所述示例性第二分布网关键数据代表向量映射结果和所述第二示例性子成员属性分布网的子分布网络重要度标识信息，对所述数据代表向量整合子网络进行优化的步骤，包括：

9.如权利要求8所述的针对在线互联网服务的大数据采集方法，其特征在于，所述利用所述示例性第一分布网关键数据代表向量映射结果、所述示例性第一影响力指标值、所述示例性第二分布网关键数据代表向量映射结果和所述示例性第二影响力指标值，分析输出所述第二示例性子成员属性分布网对应的整合分布网关键数据代表向量映射结果的步骤，包括：

10.一种针对在线互联网服务的大数据采集系统，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现权利要求1-9任意一项所述的方法。