CN112507208A - 一种基于大数据的网络数据采集系统 - Google Patents

一种基于大数据的网络数据采集系统 Download PDF

Info

Publication number
CN112507208A
CN112507208A CN202011205005.XA CN202011205005A CN112507208A CN 112507208 A CN112507208 A CN 112507208A CN 202011205005 A CN202011205005 A CN 202011205005A CN 112507208 A CN112507208 A CN 112507208A
Authority
CN
China
Prior art keywords
data
period
network data
target noise
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011205005.XA
Other languages
English (en)
Other versions
CN112507208B (zh
Inventor
王斌
董伟
李孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Speedycloud Technology Co ltd
Original Assignee
Beijing Speedycloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Speedycloud Technology Co ltd filed Critical Beijing Speedycloud Technology Co ltd
Priority to CN202011205005.XA priority Critical patent/CN112507208B/zh
Publication of CN112507208A publication Critical patent/CN112507208A/zh
Application granted granted Critical
Publication of CN112507208B publication Critical patent/CN112507208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于大数据的网络数据采集系统,用于解决传统网络数据采集为固定频率,因不能动态的调整采集频率,导致对异常数据不能进行更严密监控的问题。所述系统包括采集模块,用于在第N个周期内,采集预设采集数量的网络数据;均值及方差计算模块,用于计算并记录第N个周期内采集的网络数据的均值和方差;第一更新模块,用于根据第N‑1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长。本发明能够根据网络数据中的异常数据情况动态的调整采集频率。

Description

一种基于大数据的网络数据采集系统
技术领域
本发明涉及网络数据安全技术领域,特别涉及一种基于大数据的网络数据采集系统。
背景技术
随着互联网技术的迅速发展,网络数据已经普及到生活的各个方面,给人民的生活和工作带来的巨大的方便。但是近几年网络安全问题越来越成为大家关注的对象,尤其是网络数据安全问题,为了对网络安全进行保护,需采集海量网络数据,并从这些海量大数据中检测异常数据,继而对这些异常数据进行更加严密的监控,达到提前预防的目的。但是,目前的数据采集系统都是固定采样频率,还没有根据采集的数据能够自适应调整采样参数的网络数据采集系统,如何自适应调整采样参数以对异常数据进行更好的监控是网络数据采集领域目前急需解决的问题。
发明内容
本发明提供一种基于大数据的网络数据采集系统,用于解决传统网络数据采集为固定频率,因不能根据异常数据情况动态的调整采集频率,导致对异常数据不能进行更严密监控的问题。本发明提供的基于大数据的网络数据采集系统,能根据异常数据情况,动态的调整采集周期时间,从而实现了对采集频率的调整,达到对异常数据进行更严密的监控的目的。
本发明提供的一种基于大数据的网络采集系统,包括:
采集模块,用于在第N个周期内,采集预设采集数量的网络数据;
均值及方差计算模块,用于计算并记录第N个周期内采集的网络数据的均值和方差;
第一更新模块,用于根据第N-1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长;
其中,N为不小于2的正整数,第1个周期的时长为预设初始值。
在一可选实施例中,所述第一更新模块,具体用于根据以下公式更新第N+1个周期的时长:
Figure BDA0002756718580000021
其中,TN+1为第N+1个周期的时长,η1∈(0,1),η2∈(1,2),
Figure BDA0002756718580000022
SN-1为第N-1个周期内采集的网络数据的均值和方差,
Figure BDA0002756718580000023
SN为第N个周期内采集的网络数据的均值和方差,TN为第N个周期的时长。
在一可选实施例中,所述的基于大数据的网络数据采集系统,还包括:
第一判断模块,用于判断N是否大于等于指定数量,是则触发第二判断模块工作,否则触发第一更新模块更新第N+1个周期的时长;
第二判断模块,用于根据第j个周期到第N个周期的各周期时长,判断第N个周期的时长变化是否超过预定标准,是则触发第一更新模块更新第N+1个周期的时长,否则触发第二更新模块更新第N+1个周期的时长;其中,j为大于等于1且小于N的正整数,且N-j+1=M,M为所述指定数量;
第二更新模块,用于根据所述第j个周期到第N个周期的时长以及这些周期内采集的网络数据的均值和方差,更新第N+1个周期的时长。
在一可选实施例中,所述第二判断模块,包括:
时长方差计算单元,用于计算所述第j个周期到第N个周期的时长方差;
判断单元,用于判断所述时长方差是否大于预设阈值,是则确定第N个周期的时长变化超过预定标准,否则确定第N个周期的时长变化未超过预定标准。
在一可选实施例中,所述第二更新更新模块,具体用于根据以下公式更新第N+1个周期的时长:
Figure BDA0002756718580000031
其中,TN+1为第N+1个周期的时长,Ti为第i个周期的时长,Wi为第i个周期的权重,
Figure BDA0002756718580000034
为第i个周期内采集的网络数据的均值,Si为第i个周期内采集的网络数据的方差,其中i=j,…,N。
在一可选实施例中,所述第二更新更新模块更新第N+1个周期的时长时使用的各个周期的权重值为1/M。
在一可选实施例中,所述第二更新更新模块更新第N+1个周期的时长时使用的各个周期的权重值为:
Figure BDA0002756718580000032
其中,Z为使得
Figure BDA0002756718580000033
成立的实数。
在一可选实施例中,所述第一更新模块更新第N+1个周期的时长时,η1=0.5,η2=2。
在一可选实施例中,所述采集模块包括:
数据预处理单元,用于对采集的网络数据进行分类,将网络数据分为非噪声数据与噪声数据;
数据过滤单元,用于获取所述噪声数据中符合预设噪声标准的目标噪声数据与非噪声数据中的有效数据,对所述目标噪声数据进行修正处理,并将所述修正处理后的目标噪声数据与所述有效数据合成目标网络数据,再将所述目标网络数据存入数据库;
数据输出单元,用于将所述数据库中的所述目标网络数据输出至均值及方差计算模块;
其中,所述数据过滤单元,具体用于根据以下步骤对所述目标噪声数据进行修正处理:
步骤B1:所述数据过滤单元通过如下公式计算所述目标噪声数据对应的修正误差因子:
Figure BDA0002756718580000041
其中,μ1为所述目标噪声数据对应的修正误差因子,C为预设的常数,C取值范围为(0,10),m为所述目标噪声数据的数量,
Figure BDA0002756718580000042
为预设的所述目标噪声数据的偏置,取值为(0,1);Yk为第k个目标噪声数据与所述预设噪声标准之间的匹配度,Y1为所述m个目标噪声数据中与所述预设噪声标准之间的匹配度的最大值;
步骤B2:所述数据过滤单元根据计算的所述修正误差因子,通过如下公式计算所述目标噪声数据的修正误差值QZ
Figure BDA0002756718580000043
步骤B3:所述数据过滤单元根据如下公式计算每个目标噪声数据对应的修正匹配度:
当第k个目标噪声数据的Yk等于或大于预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度:
Y0k=Yk(1-QZ)
当第k个目标噪声数据的Yk小于所述预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度:
Y0k=Yk(1+QZ)
步骤B4:针对每个目标噪声数据:
当当前目标噪声数据的修正匹配度等于或大于所述预设阈值时,保留所述当前目标噪声数据;
当当前目标噪声数据的修正匹配度小于所述预设阈值时,剔除所述目标噪声数据。
本发明提供的基于大数据的网络采集系统,根据采集到的网络数据中的异常数据的情况,动态的调整采集周期的时长,实现自适应调整网络数据采集的频率的目的,该系统能在海量的网络数据中出现大量的异常数据时,自动地将采集的频率调高,能对异常数据进行更加严密的监控,及时了解异常数据的情况,从而保证网络数据的安全。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提供的一种基于大数据的网络数据采集系统实施例一的结构示意图;
图2为本发明提供的一种基于大数据的网络数据采集系统实施例二的结构示意图;
图3为本发明提供的一种基于大数据的网络数据采集系统实施例三的结构示意图。
具体实施方式
本发明实施例提供的基于大数据的网络数据采集系统,用于对网络数据进行采集,并对异常数据进行监控。以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明提供的一种基于大数据的网络数据采集系统实施例一的结构示意图。如图1所示,该系统包括:
采集模块11,用于在第N个周期内,采集预设采集数量的网络数据;例如周期时长为3秒,预设采集数量为3个时,此时采集频率为1个/秒,其中采集的数据对象可以为一件商品的销售界面,也可以是用户请求验证界面等。本发明实施例中,每个采集周期内采集的网络数据的数量固定不变。
均值及方差计算模块12,用于计算并记录第N个周期内采集的网络数据的均值和方差。均值及方差计算模块12根据如下均值公式计算当前周期内采集的网络数据的均值:
Figure BDA0002756718580000061
其中
Figure BDA0002756718580000062
为均值,xi为当前周期内采集的第i个采集的数值,n为预设采集数量,假设采集模块11采集到的网络数据为3、4和5,则根据公式(1)计算得到网络数据均值为4;继续根据如下方差公式计算方差:
Figure BDA0002756718580000063
其中,S为当前周期内采集的网络数据的方差,n为预设采集数量,当前周期内采集的网络数据的
Figure BDA0002756718580000064
为均值,xi为当前周期内采集的第i个采集的数值。
第一更新模块13,用于根据第N-1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长。
其中,N为不小于2的正整数,第1个周期的时长为预设初始值。
优选地,具体用于根据以下公式更新第N+1个周期的时长:
Figure BDA0002756718580000065
其中,TN+1为第N+1个周期的时长,η1∈(0,1),η2∈(1,2),优选地,η1=0.5、η2=2,
Figure BDA0002756718580000071
SN-1为第N-1个周期内采集的网络数据的均值和方差,
Figure BDA0002756718580000072
SN为第N个周期内采集的网络数据的均值和方差,TN为第N个周期的时长。例如:若
Figure BDA0002756718580000073
SN-1=3,
Figure BDA0002756718580000074
SN=1,TN为3秒时,则根据公式(3)计算可计算得到第N+1个周期的周期时长为TN+1=3秒。
本实施例中,通过检测上一个周期内的均值方差的变化来改变采样频率:当方差变小,均值变小时,系统输入的信号减弱,则可以增大采样周期时长,减少采样频率,反之增加采样频率,从而在网络数据出现异常时,可以通过自适应改变采用频率,达到对异常数据进行更严密监控的效果。
在一可选实施例中,在碰到网路数据采集频率变化较为平缓的情况下,即对应的数据采集周期的时长变化不大的情况下,采用公式(3)计算新的采集周期时长的效果不是特别显著。为解决该问题,进一步提高网络数据采集效果,及时地调整采样周期,最大程度地保持数据的完整性,如图2所示,本发明提供的基于大数据的网络数据采集系统在图1所示结构的基础上,还可以包括:
第一判断模块14,用于判断N是否大于等于指定数量,是则触发第二判断模块15工作,否则触发第一更新模块13更新第N+1个周期的时长。例如,若指定数量为3,则当N=3时,触发第一更新模块13更新第N+1个周期的时长。
第二判断模块15,用于根据第j个周期到第N个周期的各周期时长,判断第N个周期的时长变化是否超过预定标准,是则触发第一更新模块13更新第N+1个周期的时长,否则触发第二更新模块16更新第N+1个周期的时长。其中,j为大于等于1且小于N的正整数,且N-j+1=M,M为所述指定数量。上述指定数量可以在系统初始化时预先指定,还可以根据用户需要随时指定初始时若指定第一判断模块14判断N是否大于等于5(即初始设定指定数量为5),在系统运行到第100个周期时,若发现最近一段周期通过第一更新模块调整的周期时长变化较小,则可以将所述指定数量重新指定为30,以通过扩大指定数量,使第二判断模块15判断时的采样周期长一些来提高计算的准确性。
第二更新模块16,用于根据第j个周期到第N个周期的时长以及这些周期(即第j个周期到第N个周期)内采集的网络数据的均值和方差,更新第N+1个周期的时长。
在一优选实施例中,如图3所示,第二判断模块15,可以包括:
时长方差计算单元151,用于计算第j个周期到第N个周期的时长方差;优选地,可以根据如下步骤计算时长方差:
步骤A1、计算第j个周期到第N个周期的时长均值,公式如下:
Figure BDA0002756718580000081
其中,
Figure BDA0002756718580000082
为第j个周期到第N个周期的时长均值,Ti为第i个周期的时长,i=j,…,N;j=N-M+1,M为所述指定数量,例如若M=4,N=5,则j=2,取第2个周期到第5个周期的时长来计算,若T2=5s,T3=6s,T4=7s,T4=6s,则根据公式(4)计算,
Figure BDA0002756718580000083
步骤A2、计算第j个周期到第N个周期的时长方差,公式如下:
Figure BDA0002756718580000084
其中,
Figure BDA0002756718580000085
为第j个周期到第N个周期的时长均值,Ti为第i个周期的时长,M为指定数量,S′T为第j个周期到第N个周期的时长方差。例如:对于上一例子,若T2=5s,T3=6s,T4=7s,T4=6s,计算出
Figure BDA0002756718580000086
则根据公式(5)计算得到S′T=0.5。
判断单元152,用于判断所述时长方差是否大于预设阈值,是则确定第N个周期的时长变化超过预定标准,否则确定第N个周期的时长变化未超过预定标准。例如,若时长方差计算单元151计算得到ST=0.5,预设阈值为0.3时,则判断单元152触发第一更新模块13更新第N+1个周期的时长;当预设阈值为0.8时,则触发第二更新模块16更新第N+1个周期的时长。
优选地,第二更新模块16具体用于根据以下公式更新第N+1个周期的时长:
Figure BDA0002756718580000091
其中,TN+1为第N+1个周期的时长,Ti为第i个周期的时长,i=j,…,N;Wi为第i个周期的预设权重,
Figure BDA0002756718580000092
为第i个周期内采集的网络数据的均值,Si为第i个周期内采集的网络数据的方差,
Figure BDA0002756718580000093
SN为第N个周期内采集的网络数据的均值和方差。
公式(6)中,各个周期的权重值可以相同,即Wi为1/M。
优选地,权重Wi(第i个周期的权重)可以为非线性权重,其值为
Figure BDA0002756718580000094
Figure BDA0002756718580000095
其中Z为使得
Figure BDA0002756718580000096
成立的实数,Ti为第i个周期的时长,TN为第N个周期的时长,TN-1为第N-1个周期的时长。根据此确定的权重值可以体现当前周期的频率与之前M(即N-j+1)个周期采样的频率有关。与当前时刻相隔越近的周期,其对应的权重越大,即它对目前采样频率的影响越大。
在一个实施例中,所述采集模块11包括:所述采集模块包括:
数据预处理单元,用于对采集的网络数据进行分类,将网络数据分为非噪声数据与噪声数据;
数据过滤单元,用于获取所述噪声数据中符合预设噪声标准的目标噪声数据与非噪声数据中的有效数据,对所述目标噪声数据进行修正处理,并将所述修正处理后的目标噪声数据与所述有效数据合成目标网络数据,再将所述目标网络数据存入数据库;
数据输出单元,用于将所述数据库中的所述目标网络数据输出至均值及方差计算模块;
其中,所述数据过滤单元,具体用于根据以下步骤对所述目标噪声数据进行修正处理:
步骤B1:所述数据过滤单元通过如下公式计算所述目标噪声数据对应的修正误差因子:
Figure BDA0002756718580000101
其中,μ1为所述目标噪声数据对应的修正误差因子,C为预设的常数,C取值范围为(0,10),m为所述目标噪声数据的数量,
Figure BDA0002756718580000102
为预设的所述目标噪声数据的偏置,取值为(0,1);Yk为第k个目标噪声数据与所述预设噪声标准之间的匹配度,Y1为所述m个目标噪声数据中与所述预设噪声标准之间的匹配度的最大值;
步骤B2:所述数据过滤单元根据计算的所述修正误差因子,通过如下公式计算所述目标噪声数据的修正误差值QZ
Figure BDA0002756718580000103
步骤B3:所述数据过滤单元根据如下公式计算每个目标噪声数据对应的修正匹配度:
当第k个目标噪声数据的Yk等于或大于预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度Y0k
Y0k=Yk(1-QZ)
当第k个目标噪声数据的Yk小于所述预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度Y0k
Y0k=Yk(1+QZ)
步骤B4:针对每个目标噪声数据:
当当前目标噪声数据的修正匹配度等于或大于所述预设阈值时,保留所述当前目标噪声数据;
当当前目标噪声数据的修正匹配度小于所述预设阈值时,剔除所述目标噪声数据。
上述技术方案的工作原理及有益效果为:上述技术方案通过数据过滤单元对目标噪声数据进行修正,使得目标网络数据更加准确,提高了网络数据的可靠性。
本发明提供的基于大数据的网络采集系统,根据采集到的网络数据中的异常数据的情况,动态的调整采集周期的时长,继而调整网络数据采集的频率。若在海量的网络数据中,出现大量的异常数据时,自动地将采集的频率调高,达到能对异常数据进行更加严密的监控,及时了解异常数据的情况,从而保证网络数据的安全。本本发明提供的基于大数据的网络采集系统,应用场景较广,如病毒木马检测,工业制造产品检测,网络流量检测,信用卡诈骗检测等应用场景。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于大数据的网络数据采集系统,其特征在于,包括:
采集模块,用于在第N个周期内,采集预设采集数量的网络数据;
均值及方差计算模块,用于计算并记录第N个周期内采集的网络数据的均值和方差;
第一更新模块,用于根据第N-1个周期、第N个周期内采集的网络数据的均值和方差,更新第N+1个周期的时长;
其中,N为不小于2的正整数,第1个周期的时长为预设初始值。
2.如权利要求1所述的基于大数据的网络数据采集系统,其特征在于,所述第一更新模块,具体用于根据以下公式更新第N+1个周期的时长:
Figure FDA0002756718570000011
其中,TN+1为第N+1个周期的时长,η1∈(0,1),η2∈(1,2),
Figure FDA0002756718570000012
SN-1为第N-1个周期内采集的网络数据的均值和方差,
Figure FDA0002756718570000013
SN为第N个周期内采集的网络数据的均值和方差,TN为第N个周期的时长。
3.如权利要求1所述的基于大数据的网络数据采集系统,其特征在于,还包括:
第一判断模块,用于判断N是否大于等于指定数量,是则触发第二判断模块工作,否则触发第一更新模块更新第N+1个周期的时长;
第二判断模块,用于根据第j个周期到第N个周期的各周期时长,判断第N个周期的时长变化是否超过预定标准,是则触发第一更新模块更新第N+1个周期的时长,否则触发第二更新模块更新第N+1个周期的时长;其中,j为大于等于1且小于N的正整数,且N-j+1=M,M为所述指定数量;
第二更新模块,用于根据所述第j个周期到第N个周期的时长以及这些周期内采集的网络数据的均值和方差,更新第N+1个周期的时长。
4.如权利要求3所述的基于大数据的网络数据采集系统,其特征在于,所述第二判断模块,包括:
时长方差计算单元,用于计算所述第j个周期到第N个周期的时长方差;
判断单元,用于判断所述时长方差是否大于预设阈值,是则确定第N个周期的时长变化超过预定标准,否则确定第N个周期的时长变化未超过预定标准。
5.如权利要求3或4所述的基于大数据的网络数据采集系统,其特征在于,所述第二更新更新模块,具体用于根据以下公式更新第N+1个周期的时长:
Figure FDA0002756718570000021
其中,TN+1为第N+1个周期的时长,Ti为第i个周期的时长,Wi为第i个周期的权重,
Figure FDA0002756718570000022
为第i个周期内采集的网络数据的均值,Si为第i个周期内采集的网络数据的方差,其中i=j,...,N。
6.如权利要求5所述的基于大数据的网络数据采集系统,其特征在于,所述第二更新模块更新第N+1个周期的时长时使用的各个周期的权重值为1/M。
7.如权利要求5所述的基于大数据的网络数据采集系统,其特征在于,所述第二更新更新模块更新第N+1个周期的时长时使用的各个周期的权重值为:
Figure FDA0002756718570000023
其中,Z为使得
Figure FDA0002756718570000024
成立的实数。
8.如权利要求2所述的基于大数据的网络数据采集系统,其特征在于,所述第一更新模块更新第N+1个周期的时长时,η1=0.5,η2=2。
9.如权利要求1所述的基于大数据的网络数据采集系统,其特征在于,所述采集模块包括:
数据预处理单元,用于对采集的网络数据进行分类,将网络数据分为非噪声数据与噪声数据;
数据过滤单元,用于获取所述噪声数据中符合预设噪声标准的目标噪声数据与非噪声数据中的有效数据,对所述目标噪声数据进行修正处理,并将所述修正处理后的目标噪声数据与所述有效数据合成目标网络数据,再将所述目标网络数据存入数据库;
数据输出单元,用于将所述数据库中的所述目标网络数据输出至均值及方差计算模块;
其中,所述数据过滤单元,具体用于根据以下步骤对所述目标噪声数据进行修正处理:
步骤B1:所述数据过滤单元通过如下公式计算所述目标噪声数据对应的修正误差因子:
Figure FDA0002756718570000031
其中,μ1为所述目标噪声数据对应的修正误差因子,C为预设的常数,C取值范围为(0,10),m为所述目标噪声数据的数量,
Figure FDA0002756718570000032
为预设的所述目标噪声数据的偏置,取值为(0,1);Yk为第k个目标噪声数据与所述预设噪声标准之间的匹配度,Y1为所述m个目标噪声数据中与所述预设噪声标准之间的匹配度的最大值;
步骤B2:所述数据过滤单元根据计算的所述修正误差因子,通过如下公式计算所述目标噪声数据的修正误差值QZ
Figure FDA0002756718570000033
步骤B3:所述数据过滤单元根据如下公式计算每个目标噪声数据对应的修正匹配度Y0k
当第k个目标噪声数据的Yk等于或大于预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度Y0k
Y0k=Yk(1-QZ)
当第k个目标噪声数据的Yk小于所述预设阈值时,采用如下公式计算第k个目标噪声数据的修正匹配度Y0k
Y0k=Yk(1+QZ)
步骤B4:针对每个目标噪声数据:
当当前目标噪声数据的修正匹配度等于或大于所述预设阈值时,保留所述当前目标噪声数据;
当当前目标噪声数据的修正匹配度小于所述预设阈值时,剔除所述目标噪声数据。
CN202011205005.XA 2020-11-02 2020-11-02 一种基于大数据的网络数据采集系统 Active CN112507208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011205005.XA CN112507208B (zh) 2020-11-02 2020-11-02 一种基于大数据的网络数据采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011205005.XA CN112507208B (zh) 2020-11-02 2020-11-02 一种基于大数据的网络数据采集系统

Publications (2)

Publication Number Publication Date
CN112507208A true CN112507208A (zh) 2021-03-16
CN112507208B CN112507208B (zh) 2021-07-20

Family

ID=74954961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011205005.XA Active CN112507208B (zh) 2020-11-02 2020-11-02 一种基于大数据的网络数据采集系统

Country Status (1)

Country Link
CN (1) CN112507208B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113167A (zh) * 2021-04-27 2021-07-13 上海核工程研究设计院有限公司 一种核电站主设备振动响声检测数据快速定位的方法
CN114087996A (zh) * 2021-10-19 2022-02-25 广东芬蓝环境科技有限公司 一种污泥的动态均料方法、装置、电子设备及存储介质
CN114157506A (zh) * 2021-12-09 2022-03-08 中科计算技术西部研究院 基于流量和活跃度分析的网络异常扫描方法、系统及存储介质
CN116540064A (zh) * 2023-04-07 2023-08-04 亚之捷智能装备(江苏)有限公司 一种基于大数据的信号处理电路的干扰监测方法及系统
CN117350750A (zh) * 2023-10-20 2024-01-05 湖北卓铸网络科技有限公司 基于大数据的营销数据分析系统及方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259813A1 (en) * 2005-05-12 2006-11-16 Kazutomo Ushijima Information management system
CN101263499A (zh) * 2005-07-11 2008-09-10 布鲁克斯自动化公司 智能状态监测和故障诊断系统
CN102867221A (zh) * 2012-07-17 2013-01-09 中国电力科学研究院 一种中长期电量预测动态横向修正方法
CN103576604A (zh) * 2012-07-25 2014-02-12 上海睿涛信息科技有限公司 数控机床定位误差动态实时补偿系统
CN104457789A (zh) * 2014-11-26 2015-03-25 深圳市华颖泰科电子技术有限公司 基于惯性导航的参数修正方法和装置
CN105956638A (zh) * 2016-04-22 2016-09-21 广州市天剑计算机系统工程有限公司 一种生产进度数据采集方法
US20170254712A1 (en) * 2016-03-04 2017-09-07 Aclara Technologies, Llc Systems and methods for reporting pipeline pressures
US20170324860A1 (en) * 2012-08-31 2017-11-09 Analog Devices, Inc. Capacitive gesture detection system and methods thereof
CN107864071A (zh) * 2017-11-02 2018-03-30 江苏物联网研究发展中心 一种面向主动安全的数据动态采集方法、装置及系统
CN109685101A (zh) * 2018-11-13 2019-04-26 西安电子科技大学 一种多维数据自适应采集方法及系统
CN109976974A (zh) * 2019-03-08 2019-07-05 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN111177201A (zh) * 2019-08-05 2020-05-19 腾讯科技(深圳)有限公司 一种数据流处理的方法以及相关装置
CN111401975A (zh) * 2020-06-03 2020-07-10 北京每日优鲜电子商务有限公司 一种基于大数据的供需预警方法
CN111769982A (zh) * 2020-06-22 2020-10-13 上海理想信息产业(集团)有限公司 一种基于超时因子的大规模网络数据采集方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060259813A1 (en) * 2005-05-12 2006-11-16 Kazutomo Ushijima Information management system
CN101263499A (zh) * 2005-07-11 2008-09-10 布鲁克斯自动化公司 智能状态监测和故障诊断系统
CN102867221A (zh) * 2012-07-17 2013-01-09 中国电力科学研究院 一种中长期电量预测动态横向修正方法
CN103576604A (zh) * 2012-07-25 2014-02-12 上海睿涛信息科技有限公司 数控机床定位误差动态实时补偿系统
US20170324860A1 (en) * 2012-08-31 2017-11-09 Analog Devices, Inc. Capacitive gesture detection system and methods thereof
CN104457789A (zh) * 2014-11-26 2015-03-25 深圳市华颖泰科电子技术有限公司 基于惯性导航的参数修正方法和装置
US20170254712A1 (en) * 2016-03-04 2017-09-07 Aclara Technologies, Llc Systems and methods for reporting pipeline pressures
CN105956638A (zh) * 2016-04-22 2016-09-21 广州市天剑计算机系统工程有限公司 一种生产进度数据采集方法
CN107864071A (zh) * 2017-11-02 2018-03-30 江苏物联网研究发展中心 一种面向主动安全的数据动态采集方法、装置及系统
CN109685101A (zh) * 2018-11-13 2019-04-26 西安电子科技大学 一种多维数据自适应采集方法及系统
CN109976974A (zh) * 2019-03-08 2019-07-05 昆明理工大学 一种针对运行状态判断的云计算环境下系统监测方法
CN111177201A (zh) * 2019-08-05 2020-05-19 腾讯科技(深圳)有限公司 一种数据流处理的方法以及相关装置
CN111401975A (zh) * 2020-06-03 2020-07-10 北京每日优鲜电子商务有限公司 一种基于大数据的供需预警方法
CN111769982A (zh) * 2020-06-22 2020-10-13 上海理想信息产业(集团)有限公司 一种基于超时因子的大规模网络数据采集方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RAJESH INTI等: "A 0.5-to-2.5 Gb/s Reference-Less Half-Rate Digital CDR With Unlimited Frequency Acquisition Range and Improved Input Duty-Cycle Error Tolerance", 《IEEE JOURNAL OF SOLID-STATE CIRCUITS》 *
孙棣华等: "基于公交GPS数据的交叉口信号配时参数估计", 《控制与决策》 *
苏涛: "基于无人机的WSN无锚点移动目标定位技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
詹鹏宇: "基于车辆轨迹数据的路网优化方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113167A (zh) * 2021-04-27 2021-07-13 上海核工程研究设计院有限公司 一种核电站主设备振动响声检测数据快速定位的方法
CN114087996A (zh) * 2021-10-19 2022-02-25 广东芬蓝环境科技有限公司 一种污泥的动态均料方法、装置、电子设备及存储介质
CN114087996B (zh) * 2021-10-19 2024-04-19 广东芬蓝环境科技有限公司 一种污泥的动态均料方法、装置、电子设备及存储介质
CN114157506A (zh) * 2021-12-09 2022-03-08 中科计算技术西部研究院 基于流量和活跃度分析的网络异常扫描方法、系统及存储介质
CN116540064A (zh) * 2023-04-07 2023-08-04 亚之捷智能装备(江苏)有限公司 一种基于大数据的信号处理电路的干扰监测方法及系统
CN116540064B (zh) * 2023-04-07 2024-02-02 亚之捷智能装备(江苏)有限公司 一种基于大数据的信号处理电路的干扰监测方法及系统
CN117350750A (zh) * 2023-10-20 2024-01-05 湖北卓铸网络科技有限公司 基于大数据的营销数据分析系统及方法

Also Published As

Publication number Publication date
CN112507208B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
CN112507208B (zh) 一种基于大数据的网络数据采集系统
CN110874674B (zh) 一种异常检测方法、装置及设备
US20190087737A1 (en) Anomaly detection and automated analysis in systems based on fully masked weighted directed
US7438226B2 (en) Fraud risk advisor
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
US10394631B2 (en) Anomaly detection and automated analysis using weighted directed graphs
US10749881B2 (en) Comparing unsupervised algorithms for anomaly detection
CN112188531A (zh) 异常检测方法、装置、电子设备及计算机存储介质
WO2012114080A1 (en) Respiration monitoring method and system
CN110188015B (zh) 一种主机访问关系异常行为自适应检测装置及其监测方法
CN113011888A (zh) 一种针对数字货币的异常交易行为检测方法、装置、设备及介质
CN111626842A (zh) 一种消费行为数据的分析方法和装置
US20100268639A1 (en) Characterizing Creditworthiness Credit Score Migration
WO2023005789A1 (zh) 一种温度处理方法及装置
US11334878B2 (en) Combining explicit and implicit feedback in self-learning fraud detection systems
CN116627707A (zh) 一种用户异常操作行为的检测方法及系统
CN110490486B (zh) 一种企业大数据管理系统
CN110519266B (zh) 一种基于统计学方法的cc攻击检测的方法
JP6969588B2 (ja) 異常検出装置、異常検出方法、およびコンピュータプログラム
US7617172B2 (en) Using percentile data in business analysis of time series data
CN117171157A (zh) 基于数据分析的清算数据采集清洗方法
US20220222573A1 (en) Running tests in data digest machine-learning model
CN110941753A (zh) 应用于装修行业的征信信息采集系统
CN111489317A (zh) 一种骨灰盒智能存放系统
AU2019354826A1 (en) Computer vision systems and methods for identifying anomalies in building models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20211124

Granted publication date: 20210720