CN117473200B - 一种用于网站信息数据的综合采集分析方法 - Google Patents

一种用于网站信息数据的综合采集分析方法 Download PDF

Info

Publication number
CN117473200B
CN117473200B CN202311805252.7A CN202311805252A CN117473200B CN 117473200 B CN117473200 B CN 117473200B CN 202311805252 A CN202311805252 A CN 202311805252A CN 117473200 B CN117473200 B CN 117473200B
Authority
CN
China
Prior art keywords
website
information data
data
acquisition
website information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311805252.7A
Other languages
English (en)
Other versions
CN117473200A (zh
Inventor
赵志庆
余毛猛
董席峰
侯玉柱
张雨铭威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Rongxing Group Co ltd
Original Assignee
Tianjin Rongxing Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Rongxing Group Co ltd filed Critical Tianjin Rongxing Group Co ltd
Priority to CN202311805252.7A priority Critical patent/CN117473200B/zh
Publication of CN117473200A publication Critical patent/CN117473200A/zh
Application granted granted Critical
Publication of CN117473200B publication Critical patent/CN117473200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及网站信息数据采集分析领域,尤其涉及一种用于网站信息数据的综合采集分析方法,包括:S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果,通过语言项目分类,提高了对不同国家和语言网站的支持,并据此建立初步验证标签,为后续方案的多级验证打下基础,同时,可以根据需求自定义采集策略,更加灵活,有完善的错误处理和报警机制,确保方案的稳定自循环运行,最终形成一个闭环的实施方案,提高了数据采集分析的效率。

Description

一种用于网站信息数据的综合采集分析方法
技术领域
本发明涉及网站信息数据采集分析领域,具体涉及一种用于网站信息数据的综合采集分析方法。
背景技术
在大规模数据采集领域,网站配置和数据提取过程繁琐且复杂,尤其是在面对不同类型、国家、功能的网站时,现有技术通常只能针对某一个或某一类网站进行数据分析采集,对于高需求、大范围采集分析请求时,则存在方案单一且实施存在逻辑漏洞等风险。
发明内容
针对现有技术的不足,本发明提供了一种用于网站信息数据的综合采集分析方法,通过采集网站多种类信息数据,实现多目标多层次的综合采集、分析、验证等功能的方法实现。
为实现上述目的,本发明提供了一种用于网站信息数据的综合采集分析方法,包括:
S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;
S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;
S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果。
优选的,所述根据网站对应类型获取网站信息数据得到信息数据采集配置包括:
S1-1、获取网站的语言类型作为初始采集标签;
S1-2、根据所述初始采集标签进行合规性验证建立信息数据采集通用配置;
S1-3、利用所述初始采集标签与信息数据采集通用配置作为信息数据采集配置。
进一步的,根据所述初始采集标签进行合规性验证建立信息数据采集通用配置包括:
S1-2-1、根据所述初始采集标签获取网络服务器地址;
S1-2-2、判断所述网络服务器地址的通讯状态是否正常,若是,则执行S1-2-3,否则,放弃处理;
S1-2-3、判断所述网络服务器地址的通讯线路是否存在网络代理,若是,则获取所述网络代理对应网络代理类型与网络代理地址作为信息数据采集通用预配置,并执行S1-2-4,否则,直接执行S1-2-5;
S1-2-4、利用所述信息数据采集通用预配置与初始采集标签对应网络通信协议作为信息数据采集通用配置;
S1-2-5、利用所述初始采集标签对应网络通信协议作为信息数据采集通用配置。
进一步的,根据所述信息数据采集配置进行数据采集得到基础网站信息数据包括:
S2-1、根据所述信息数据采集配置进行数据采集得到初始网站信息数据;
S2-2、利用所述初始网站信息数据进行交叉验证得到基础网站信息数据。
进一步的,根据所述信息数据采集配置进行数据采集得到初始网站信息数据包括:
S2-1-1、判断网站是否存在网络代理,若是,则执行S2-1-2,否则,利用所述信息数据采集配置的信息数据采集通用配置建立数据采集通信线路,并执行S2-1-3;
S2-1-2、根据所述信息数据采集配置的信息数据采集通用预配置建立数据采集通信中转节点,并根据所述信息数据采集配置的信息数据采集通用配置与数据采集通信中转节点建立数据采集通信线路;
S2-1-3、利用所述数据采集通信线路获取网站对应全部类型数据作为初始网站信息数据;
其中,所述网站对应全部类型数据包括数值类型数据、字符串类型数据、布尔类型数据、未定义数据、空对象数据与特殊类型数据。
进一步的,利用所述初始网站信息数据进行交叉验证得到基础网站信息数据包括:
S2-2-1、判断所述初始网站信息数据是否存在特殊类型数据,若是,则利用所述特殊类型数据作为交叉验证标签,并直接执行S2-2-3,否则,执行S2-2-2;
S2-2-2、判断初始网站信息数据的数据类型数量是否为1,若是,则获取初始网站信息数据的数据流作为交叉验证标签,否则,利用所述初始网站信息数据的数据类型建立交叉验证标签;
S2-2-3、判断当前时刻的数据采集通信线路是否存在网络代理,若是,则执行S2-2-4,否则,直接执行S2-2-5;
S2-2-4、判断所述交叉验证标签与网络代理的数据流转历史记录是否对应,若是,则执行S2-2-5,否则,所述交叉验证失败,返回S2-2-1;
S2-2-5、判断所述交叉验证标签与数据采集通信线路的终端数据流转历史记录是否对应,若是,则所述交叉验证成功,否则,所述交叉验证失败,返回S2-2-1;
其中,所述终端数据流转历史记录为数据采集通信线路的两个终端的数据流转历史记录。
进一步的,利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果包括:
S3-1、利用所述基础网站信息数据建立基础网站信息数据库;
S3-2、根据所述基础网站信息数据库进行顺序输出得到时序性输出数据;
S3-3、根据所述信息数据采集配置建立对应网站通用特征;
S3-4、利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果。
进一步的,根据所述基础网站信息数据库进行顺序输出得到时序性输出数据包括:
S3-2-1、获取当前时刻作为时序输出起始时刻t;
S3-2-2、利用所述基础网站信息数据库根据时序输出起始时刻t进行输出得到基础网站信息数据的时序输出结果;
S3-2-3、判断当前时刻时序输出结果与信息数据采集配置是否对应,若是,则执行S3-2-4,否则,放弃处理;
S3-2-4、判断当前时刻是否存在相邻上一时刻时序输出结果,若是,则利用当前时刻时序输出结果与相邻上一时刻时序输出结果建立映射得到时序输出映射,并执行S3-2-5,否则,利用当前时刻时序输出结果作为时序输出映射起点,并返回S3-2-2;
S3-2-5、判断当前时刻是否存在相邻下一时刻时序输出结果,若是,则返回S3-2-2,否则,输出当前时刻时序输出映射作为时序性输出数据。
进一步的,根据所述信息数据采集配置建立对应网站通用特征包括:
获取网站对应平均数据流量作为网站第一特征;
根据所述网站第一特征获取对应终端的发送流量数据与接收流量数据作为网站第二特征;
根据所述网站第二特征获取对应通信线路的数据量作为网站第三特征;
利用所述网站第一特征、网站第二特征与网站第三特征作为网站通用特征。
进一步的,利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果包括:
S3-4-1、判断所述时序性输出数据与网站通用特征的网站第一特征是否对应,若是,则执行S3-4-2,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-2、判断所述时序性输出数据与网站通用特征的网站第二特征是否对应,若是,则执行S3-4-3,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-3、判断所述时序性输出数据与网站通用特征的网站第三特征是否对应,若是,则网站信息数据的综合采集分析状态为正常,并执行S3-4-4,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-4、输出当前时刻时序性输出数据与对应信息数据采集配置作为网站信息数据的综合采集分析结果。
与最接近的现有技术相比,本发明具有的有益效果:
通过语言项目分类,提高了对不同国家和语言网站的支持,并据此建立初步验证标签,为后续方案的多级验证打下基础,同时,可以根据需求自定义采集策略,更加灵活,有完善的错误处理和报警机制,确保方案的稳定自循环运行,最终形成一个闭环的实施方案,提高了数据采集分析的效率。
附图说明
图1是本发明提供的一种用于网站信息数据的综合采集分析方法的流程图;
图2是本发明提供的一种用于网站信息数据的综合采集分析方法的顺序输出流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:本发明提供了一种用于网站信息数据的综合采集分析方法,如图1所示,包括:
S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;
S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;
S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果。
S1具体包括:
S1-1、获取网站的语言类型作为初始采集标签;
S1-2、根据所述初始采集标签进行合规性验证建立信息数据采集通用配置;
S1-3、利用所述初始采集标签与信息数据采集通用配置作为信息数据采集配置。
S1-2具体包括:
S1-2-1、根据所述初始采集标签获取网络服务器地址;
S1-2-2、判断所述网络服务器地址的通讯状态是否正常,若是,则执行S1-2-3,否则,放弃处理;
S1-2-3、判断所述网络服务器地址的通讯线路是否存在网络代理,若是,则获取所述网络代理对应网络代理类型与网络代理地址作为信息数据采集通用预配置,并执行S1-2-4,否则,直接执行S1-2-5;
S1-2-4、利用所述信息数据采集通用预配置与初始采集标签对应网络通信协议作为信息数据采集通用配置;
S1-2-5、利用所述初始采集标签对应网络通信协议作为信息数据采集通用配置。
S2具体包括:
S2-1、根据所述信息数据采集配置进行数据采集得到初始网站信息数据;
S2-2、利用所述初始网站信息数据进行交叉验证得到基础网站信息数据。
S2-1具体包括:
S2-1-1、判断网站是否存在网络代理,若是,则执行S2-1-2,否则,利用所述信息数据采集配置的信息数据采集通用配置建立数据采集通信线路,并执行S2-1-3;
S2-1-2、根据所述信息数据采集配置的信息数据采集通用预配置建立数据采集通信中转节点,并根据所述信息数据采集配置的信息数据采集通用配置与数据采集通信中转节点建立数据采集通信线路;
S2-1-3、利用所述数据采集通信线路获取网站对应全部类型数据作为初始网站信息数据;
其中,所述网站对应全部类型数据包括数值类型数据、字符串类型数据、布尔类型数据、未定义数据、空对象数据与特殊类型数据。
S2-2具体包括:
S2-2-1、判断所述初始网站信息数据是否存在特殊类型数据,若是,则利用所述特殊类型数据作为交叉验证标签,并直接执行S2-2-3,否则,执行S2-2-2;
S2-2-2、判断初始网站信息数据的数据类型数量是否为1,若是,则获取初始网站信息数据的数据流作为交叉验证标签,否则,利用所述初始网站信息数据的数据类型建立交叉验证标签;
S2-2-3、判断当前时刻的数据采集通信线路是否存在网络代理,若是,则执行S2-2-4,否则,直接执行S2-2-5;
S2-2-4、判断所述交叉验证标签与网络代理的数据流转历史记录是否对应,若是,则执行S2-2-5,否则,所述交叉验证失败,返回S2-2-1;
S2-2-5、判断所述交叉验证标签与数据采集通信线路的终端数据流转历史记录是否对应,若是,则所述交叉验证成功,否则,所述交叉验证失败,返回S2-2-1;
其中,所述终端数据流转历史记录为数据采集通信线路的两个终端的数据流转历史记录。
S3具体包括:
S3-1、利用所述基础网站信息数据建立基础网站信息数据库;
S3-2、根据所述基础网站信息数据库进行顺序输出得到时序性输出数据;
S3-3、根据所述信息数据采集配置建立对应网站通用特征;
S3-4、利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果。
S3-2具体包括,如图2所示:
S3-2-1、获取当前时刻作为时序输出起始时刻t;
S3-2-2、利用所述基础网站信息数据库根据时序输出起始时刻t进行输出得到基础网站信息数据的时序输出结果;
S3-2-3、判断当前时刻时序输出结果与信息数据采集配置是否对应,若是,则执行S3-2-4,否则,放弃处理;
S3-2-4、判断当前时刻是否存在相邻上一时刻时序输出结果,若是,则利用当前时刻时序输出结果与相邻上一时刻时序输出结果建立映射得到时序输出映射,并执行S3-2-5,否则,利用当前时刻时序输出结果作为时序输出映射起点,并返回S3-2-2;
S3-2-5、判断当前时刻是否存在相邻下一时刻时序输出结果,若是,则返回S3-2-2,否则,输出当前时刻时序输出映射作为时序性输出数据。
本实施例中,一种用于网站信息数据的综合采集分析方法,当时序输出结果与信息数据采集配置不对应时,由于进行判断的两个数值类型均与基础数据相关,所以当此刻存在异常时,无法准确判断到底是哪个数值出现问题,因此在本方案中放弃处理,可根据实际实施进行方案纠正。
S3-3具体包括:
S3-3-1、获取网站对应平均数据流量作为网站第一特征;
S3-3-2、根据所述网站第一特征获取对应终端的发送流量数据与接收流量数据作为网站第二特征;
S3-3-3、根据所述网站第二特征获取对应通信线路的数据量作为网站第三特征;
S3-3-4、利用所述网站第一特征、网站第二特征与网站第三特征作为网站通用特征。
S3-4具体包括:
S3-4-1、判断所述时序性输出数据与网站通用特征的网站第一特征是否对应,若是,则执行S3-4-2,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-2、判断所述时序性输出数据与网站通用特征的网站第二特征是否对应,若是,则执行S3-4-3,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-3、判断所述时序性输出数据与网站通用特征的网站第三特征是否对应,若是,则网站信息数据的综合采集分析状态为正常,并执行S3-4-4,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-4、输出当前时刻时序性输出数据与对应信息数据采集配置作为网站信息数据的综合采集分析结果。
本实施例中,一种用于网站信息数据的综合采集分析方法,S3-4-1中筛选依据为根据平均值反推流量上下限,数据量需要处于范围内,否则存在流量值异常的情况;S3-4-2中筛选依据为发送与接收流量要对应,否则存在流程劫持情况;S3-4-3中筛选依据为整体线路流量要对应,否则可能存在恶意攻击等情况,以上可实现采集数据的分析后情况判断的综合输出。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (6)

1.一种用于网站信息数据的综合采集分析方法,其特征在于,包括:
S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;
S1-1、获取网站的语言类型作为初始采集标签;
S1-2、根据所述初始采集标签进行合规性验证建立信息数据采集通用配置;
S1-2-1、根据所述初始采集标签获取网络服务器地址;
S1-2-2、判断所述网络服务器地址的通讯状态是否正常,若是,则执行S1-2-3,否则,放弃处理;
S1-2-3、判断所述网络服务器地址的通讯线路是否存在网络代理,若是,则获取所述网络代理对应网络代理类型与网络代理地址作为信息数据采集通用预配置,并执行S1-2-4,否则,直接执行S1-2-5;
S1-2-4、利用所述信息数据采集通用预配置与初始采集标签对应网络通信协议作为信息数据采集通用配置;
S1-2-5、利用所述初始采集标签对应网络通信协议作为信息数据采集通用配置;
S1-3、利用所述初始采集标签与信息数据采集通用配置作为信息数据采集配置;
S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;
S2-1、根据所述信息数据采集配置进行数据采集得到初始网站信息数据;
S2-2、利用所述初始网站信息数据进行交叉验证得到基础网站信息数据;
S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果;
S3-1、利用所述基础网站信息数据建立基础网站信息数据库;
S3-2、根据所述基础网站信息数据库进行顺序输出得到时序性输出数据;
S3-3、根据所述信息数据采集配置建立对应网站通用特征;
S3-4、利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果。
2.如权利要求1所述的一种用于网站信息数据的综合采集分析方法,其特征在于,根据所述信息数据采集配置进行数据采集得到初始网站信息数据包括:
S2-1-1、判断网站是否存在网络代理,若是,则执行S2-1-2,否则,利用所述信息数据采集配置的信息数据采集通用配置建立数据采集通信线路,并执行S2-1-3;
S2-1-2、根据所述信息数据采集配置的信息数据采集通用预配置建立数据采集通信中转节点,并根据所述信息数据采集配置的信息数据采集通用配置与数据采集通信中转节点建立数据采集通信线路;
S2-1-3、利用所述数据采集通信线路获取网站对应全部类型数据作为初始网站信息数据;
其中,所述网站对应全部类型数据包括数值类型数据、字符串类型数据、布尔类型数据、未定义数据、空对象数据与特殊类型数据。
3.如权利要求2所述的一种用于网站信息数据的综合采集分析方法,其特征在于,利用所述初始网站信息数据进行交叉验证得到基础网站信息数据包括:
S2-2-1、判断所述初始网站信息数据是否存在特殊类型数据,若是,则利用所述特殊类型数据作为交叉验证标签,并直接执行S2-2-3,否则,执行S2-2-2;
S2-2-2、判断初始网站信息数据的数据类型数量是否为1,若是,则获取初始网站信息数据的数据流作为交叉验证标签,否则,利用所述初始网站信息数据的数据类型建立交叉验证标签;
S2-2-3、判断当前时刻的数据采集通信线路是否存在网络代理,若是,则执行S2-2-4,否则,直接执行S2-2-5;
S2-2-4、判断所述交叉验证标签与网络代理的数据流转历史记录是否对应,若是,则执行S2-2-5,否则,所述交叉验证失败,返回S2-2-1;
S2-2-5、判断所述交叉验证标签与数据采集通信线路的终端数据流转历史记录是否对应,若是,则所述交叉验证成功,否则,所述交叉验证失败,返回S2-2-1;
其中,所述终端数据流转历史记录为数据采集通信线路的两个终端的数据流转历史记录。
4.如权利要求1所述的一种用于网站信息数据的综合采集分析方法,其特征在于,根据所述基础网站信息数据库进行顺序输出得到时序性输出数据包括:
S3-2-1、获取当前时刻作为时序输出起始时刻t;
S3-2-2、利用所述基础网站信息数据库根据时序输出起始时刻t进行输出得到基础网站信息数据的时序输出结果;
S3-2-3、判断当前时刻时序输出结果与信息数据采集配置是否对应,若是,则执行S3-2-4,否则,放弃处理;
S3-2-4、判断当前时刻是否存在相邻上一时刻时序输出结果,若是,则利用当前时刻时序输出结果与相邻上一时刻时序输出结果建立映射得到时序输出映射,并执行S3-2-5,否则,利用当前时刻时序输出结果作为时序输出映射起点,并返回S3-2-2;
S3-2-5、判断当前时刻是否存在相邻下一时刻时序输出结果,若是,则返回S3-2-2,否则,输出当前时刻时序输出映射作为时序性输出数据。
5.如权利要求4所述的一种用于网站信息数据的综合采集分析方法,其特征在于,根据所述信息数据采集配置建立对应网站通用特征包括:
获取网站对应平均数据流量作为网站第一特征;
根据所述网站第一特征获取对应终端的发送流量数据与接收流量数据作为网站第二特征;
根据所述网站第二特征获取对应通信线路的数据量作为网站第三特征;
利用所述网站第一特征、网站第二特征与网站第三特征作为网站通用特征。
6.如权利要求5所述的一种用于网站信息数据的综合采集分析方法,其特征在于,利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果包括:
S3-4-1、判断所述时序性输出数据与网站通用特征的网站第一特征是否对应,若是,则执行S3-4-2,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-2、判断所述时序性输出数据与网站通用特征的网站第二特征是否对应,若是,则执行S3-4-3,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-3、判断所述时序性输出数据与网站通用特征的网站第三特征是否对应,若是,则网站信息数据的综合采集分析状态为正常,并执行S3-4-4,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;
S3-4-4、输出当前时刻时序性输出数据与对应信息数据采集配置作为网站信息数据的综合采集分析结果。
CN202311805252.7A 2023-12-26 2023-12-26 一种用于网站信息数据的综合采集分析方法 Active CN117473200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311805252.7A CN117473200B (zh) 2023-12-26 2023-12-26 一种用于网站信息数据的综合采集分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311805252.7A CN117473200B (zh) 2023-12-26 2023-12-26 一种用于网站信息数据的综合采集分析方法

Publications (2)

Publication Number Publication Date
CN117473200A CN117473200A (zh) 2024-01-30
CN117473200B true CN117473200B (zh) 2024-03-08

Family

ID=89623754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311805252.7A Active CN117473200B (zh) 2023-12-26 2023-12-26 一种用于网站信息数据的综合采集分析方法

Country Status (1)

Country Link
CN (1) CN117473200B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577504A (zh) * 2012-08-10 2014-02-12 华为技术有限公司 一种投放个性化内容的方法和装置
CN104750812A (zh) * 2015-03-30 2015-07-01 浪潮集团有限公司 一种基于网页标签分析的数据自动采集方法
CN105162822A (zh) * 2015-06-30 2015-12-16 浪潮(北京)电子信息产业有限公司 一种网站日志数据处理方法及装置
CN112818200A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 基于静态网站的数据爬取及事件分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577504A (zh) * 2012-08-10 2014-02-12 华为技术有限公司 一种投放个性化内容的方法和装置
CN104750812A (zh) * 2015-03-30 2015-07-01 浪潮集团有限公司 一种基于网页标签分析的数据自动采集方法
CN105162822A (zh) * 2015-06-30 2015-12-16 浪潮(北京)电子信息产业有限公司 一种网站日志数据处理方法及装置
CN112818200A (zh) * 2021-01-28 2021-05-18 平安普惠企业管理有限公司 基于静态网站的数据爬取及事件分析方法及系统

Also Published As

Publication number Publication date
CN117473200A (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN117451115B (zh) 一种用于分拣输送系统的实时状态监测方法
CN117473200B (zh) 一种用于网站信息数据的综合采集分析方法
CN113918438A (zh) 服务器异常的检测方法、装置、服务器及存储介质
CN111949720B (zh) 基于大数据和人工智能的数据分析方法及云端数据服务器
CN116737800A (zh) 应用于供应链平台服务的大数据挖掘方法及系统
CN114186219A (zh) 口令破解的异构系统集成方法及系统
CN113822379B (zh) 工艺制程异常分析方法、装置、电子设备及存储介质
CN103761247B (zh) 一种出错文件的处理方法及装置
CN113064898A (zh) 一种基于链上合约微型索引的检索方法、装置和电子设备
CN110716741A (zh) 一种基于脚本的软件产品自动化巡检方法
CN110334905B (zh) 项目故障显示方法、装置、计算机设备和存储介质
CN116720818B (zh) 基于区块链的仓储处理方法、装置、计算机设备
CN117149846B (zh) 一种基于数据融合的电力数据分析方法和系统
CN115599312B (zh) 基于存储集群的大数据处理方法及ai系统
CN116781389B (zh) 一种异常数据列表的确定方法、电子设备及存储介质
CN114595159B (zh) 测试数据生成方法、装置、设备及存储介质
CN117492822B (zh) 变更对比方法、装置、电子设备及存储介质
CN111309572B (zh) 测试分析方法、装置、计算机设备及存储介质
CN112860780B (zh) 数据导出方法、装置和终端设备
CN117149869A (zh) 一种白名单文件数据库导入方法、系统、设备及介质
CN114996519B (zh) 数据处理方法、装置、电子设备、存储介质及产品
CN116846670A (zh) 网络安全配置策略的生成方法、装置和计算机设备
CN112598118A (zh) 有监督学习的标注异常处理方法、装置、存储介质及设备
CN115525894A (zh) 一种家族判定方法、装置、设备及存储介质
CN116708008A (zh) 确定变电站系统中恶意文件的方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant