CN117312804B - 智能数据感知监测方法和系统 - Google Patents

智能数据感知监测方法和系统 Download PDF

Info

Publication number
CN117312804B
CN117312804B CN202311605906.1A CN202311605906A CN117312804B CN 117312804 B CN117312804 B CN 117312804B CN 202311605906 A CN202311605906 A CN 202311605906A CN 117312804 B CN117312804 B CN 117312804B
Authority
CN
China
Prior art keywords
data
probability
probability function
risk
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311605906.1A
Other languages
English (en)
Other versions
CN117312804A (zh
Inventor
郑威
云剑
郑晓玲
凌霞
辛鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN202311605906.1A priority Critical patent/CN117312804B/zh
Publication of CN117312804A publication Critical patent/CN117312804A/zh
Application granted granted Critical
Publication of CN117312804B publication Critical patent/CN117312804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种智能数据感知监测方法和系统,通过收集历史数据和引入数据的全生命周期提取风险特征,得到训练数据集,使用数据挖掘技术手段,计算出风险的上下限概率函数,以此构建感知评估模型,从而实现对实时数据的快速风险态势评估,克服现有技术数据质量识别不准确、数据处理速度慢、对复杂数据集的处理能力有限等问题。

Description

智能数据感知监测方法和系统
技术领域
本申请涉及网络安全技术领域,尤其涉及一种智能数据感知监测方法和系统。
背景技术
随着大数据时代的到来,如何高效、准确地感知和处理海量数据成为一个关键问题。传统的数据感知方法主要依赖人工操作,效率低下,且易出错。近年来,虽然人工智能(AI)技术的发展给数据感知带来了新的可能,但是现有的AI感知方法仍存在数据质量识别不准确、数据处理速度慢、对复杂数据集的处理能力有限等问题。
因此,急需一种针对性的智能数据感知监测方法和系统。
发明内容
本发明的目的是为了解决上述问题,提供一种智能数据感知监测方法和系统。根据大数据呈现出规模性、多样性、高速性、价值性和准确性的特点,引入全生命周期模型。
第一方面,本申请提供一种智能数据感知监测方法,所述方法包括:
获取历史数据,进行数据清洗和初步筛选,所述数据清洗包括消除异常值、处理缺失值、消除噪声,所述初步筛选为过滤掉无关或低质量的数据;
根据数据的属性和业务因果关系,对数据清洗和初步筛选后的历史数据进行风险特征提取;
按照数据的全生命周期不同的阶段,对所述提取的风险特征进行聚类,得到训练数据集Z,所述全生命周期包括采集、传输、存储、共享与利用、销毁五个阶段;
对所述训练数据集Z进行数据挖掘,构建感知评估模型,包括:
定义所述训练数据集Z是一组风险的排他性假设,所述风险为数据在全生命周期不同阶段出现的各种指标的风险,设置风险x按照以下公式映射到区间[0,1]:
上述公式中,p(x)表示对于任意,出现风险x的概率;
计算映射到区间[0,1]后的风险x的概率函数,所述概率函数包括下限概率函数和上限概率函数;
p(y)表示对于任意,出现风险x的子集y的概率,Bel()定义为下限概率函数,其公式定义为:
似然函数Pl表示p(x)的上限概率函数,其公式定义为:
上述公式中,为对x为非真的概率,/>为对x为非假的概率;
根据所述概率函数,构建感知评估模型,将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数;
实时收集全生命周期的不同阶段的业务数据,进行数据清洗和初步筛选后,得到待评估数据集;
将所述待评估数据集输入所述感知评估模型,输出相应的预警和报告。
第二方面,本申请提供一种智能数据感知监测系统,所述系统包括:
数据训练单元,用于获取历史数据,进行数据清洗和初步筛选,所述数据清洗包括消除异常值、处理缺失值、消除噪声,所述初步筛选为过滤掉无关或低质量的数据;
特征提取单元,用于根据数据的属性和业务因果关系,对数据清洗和初步筛选后的历史数据进行风险特征提取;按照数据的全生命周期不同的阶段,对所述提取的风险特征进行聚类,得到训练数据集Z,所述全生命周期包括采集、传输、存储、共享与利用、销毁五个阶段;
模型构建单元,用于对所述训练数据集Z进行数据挖掘,构建感知评估模型,包括:
定义所述训练数据集Z是一组风险的排他性假设,所述风险为数据在全生命周期不同阶段出现的各种指标的风险,设置风险x按照以下公式映射到区间[0,1]:
上述公式中,p(x)表示对于任意,出现风险x的概率;
计算映射到区间[0,1]后的风险x的概率函数,所述概率函数包括下限概率函数和上限概率函数;
p(y)表示对于任意,出现风险x的子集y的概率,Bel()定义为下限概率函数,其公式定义为:
似然函数Pl表示p(x)的上限概率函数,其公式定义为:
上述公式中,为对x为非真的概率,/>为对x为非假的概率;
根据所述概率函数,构建感知评估模型,将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数;
数据采集单元,用于实时收集全生命周期的不同阶段的业务数据,进行数据清洗和初步筛选后,得到待评估数据集;
感知评估单元,用于调用所述感知评估模型,将所述待评估数据集输入所述感知评估模型,输出相应的预警和报告。
第三方面,本申请提供一种智能数据感知监测系统,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面四种可能中任一项所述的方法。
有益效果:
本发明提供一种智能数据感知监测方法和系统,通过收集历史数据和引入数据的全生命周期提取风险特征,得到训练数据集,使用数据挖掘技术手段,计算出风险的上下限概率函数,以此构建感知评估模型,从而实现对实时数据的快速风险态势评估,克服现有技术数据质量识别不准确、数据处理速度慢、对复杂数据集的处理能力有限等问题。
本发明具有以下优点:
本发明的智能数据感知监测方法和系统,实现了数据的自动化和智能化处理,提高了数据处理的速度和质量,降低了数据处理成本,有利于推进大数据时代的智能化发展。此外,该方法和系统可广泛应用于各个需要实时数据处理和智能决策的领域,如智能交通、智慧城市、工业物联网等,具有很高的实用价值和社会价值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明智能数据感知监测方法的大致流程图;
图2为本发明智能数据感知监测系统的架构图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
图1为本申请提供的智能数据感知监测方法的大致流程图,所述方法包括:
获取历史数据,进行数据清洗和初步筛选,所述数据清洗包括消除异常值、处理缺失值、消除噪声,所述初步筛选为过滤掉无关或低质量的数据;
根据数据的属性和业务因果关系,对数据清洗和初步筛选后的历史数据进行风险特征提取;
按照数据的全生命周期不同的阶段,对所述提取的风险特征进行聚类,得到训练数据集Z,所述全生命周期包括采集、传输、存储、共享与利用、销毁五个阶段;
对所述训练数据集Z进行数据挖掘,构建感知评估模型,包括:
定义所述训练数据集Z是一组风险的排他性假设,所述风险为数据在全生命周期不同阶段出现的各种指标的风险,设置风险x按照以下公式映射到区间[0,1]:
上述公式中,p(x)表示对于任意,出现风险x的概率;
计算映射到区间[0,1]后的风险x的概率函数,所述概率函数包括下限概率函数和上限概率函数;
p(y)表示对于任意,出现风险x的子集y的概率,Bel()定义为下限概率函数,其公式定义为:
似然函数Pl表示p(x)的上限概率函数,其公式定义为:
上述公式中,为对x为非真的概率,/>为对x为非假的概率;
根据所述概率函数,构建感知评估模型,将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数;
实时收集全生命周期的不同阶段的业务数据,进行数据清洗和初步筛选后,得到待评估数据集;
将所述待评估数据集输入所述感知评估模型,输出相应的预警和报告。
在一些优选实施例中,所述对所述提取的风险特征进行聚类,包括:针对全生命周期包括的采集、传输、存储、共享与利用、销毁五个阶段,不同阶段出现的各种指标的风险,按照阶段聚类、或按照风险种类聚类。
在一些优选实施例中,所述将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数,包括:分别以下限概率函数和上限概率函数搭建两个并列的隐含层,所述两个并列的隐含层的输出结果进行合并后,作为输出层的输入信息。
在一些优选实施例中,所述两个并列的隐含层的输出结果进行合并,包括:异或、或相加。
在一些应用场合中,可以在两个并列的隐含层中引入权重值机制,也就是,两个隐含层的输出结果进行加权运算。
或者,风险对应的不同阶段的各种指标设置权重值,从而影响计算风险的概率函数。
所述预警和报告包括:针对感知评估模型的评估结果,给出安全级别,不限于以下几种:安全状态、危险状态和未知状态。
以及,按照概率高低,给出必然会发生的风险、可能会发生的风险、不太可能会发生的风险等这样的结论。
图2为本申请提供的智能数据感知监测系统的架构图,所述系统包括:
数据训练单元,用于获取历史数据,进行数据清洗和初步筛选,所述数据清洗包括消除异常值、处理缺失值、消除噪声,所述初步筛选为过滤掉无关或低质量的数据;
特征提取单元,用于根据数据的属性和业务因果关系,对数据清洗和初步筛选后的历史数据进行风险特征提取;按照数据的全生命周期不同的阶段,对所述提取的风险特征进行聚类,得到训练数据集Z,所述全生命周期包括采集、传输、存储、共享与利用、销毁五个阶段;
模型构建单元,用于对所述训练数据集Z进行数据挖掘,构建感知评估模型,包括:
定义所述训练数据集Z是一组风险的排他性假设,所述风险为数据在全生命周期不同阶段出现的各种指标的风险,设置风险x按照以下公式映射到区间[0,1]:
上述公式中,p(x)表示对于任意,出现风险x的概率;
计算映射到区间[0,1]后的风险x的概率函数,所述概率函数包括下限概率函数和上限概率函数;
p(y)表示对于任意,出现风险x的子集y的概率,Bel()定义为下限概率函数,其公式定义为:
似然函数Pl表示p(x)的上限概率函数,其公式定义为:
上述公式中,为对x为非真的概率,/>为对x为非假的概率;
根据所述概率函数,构建感知评估模型,将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数;
数据采集单元,用于实时收集全生命周期的不同阶段的业务数据,进行数据清洗和初步筛选后,得到待评估数据集;
感知评估单元,用于调用所述感知评估模型,将所述待评估数据集输入所述感知评估模型,输出相应的预警和报告。
本申请提供一种智能数据感知监测系统,所述系统包括:所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面所有实施例中任一项所述的方法。
本申请提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所有实施例中任一项所述的方法。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可以存储有程序,该程序执行时可包括本发明各个实施例中的部分或全部步骤。所述的存储介质可以为磁碟、光盘、只读存储记忆体(简称:ROM)或随机存储记忆体(简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书各个实施例之间相同相似的部分互相参见即可。尤其,对于实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (6)

1.一种智能数据感知监测方法,其特征在于,所述方法包括:
获取历史数据,进行数据清洗和初步筛选,所述数据清洗包括消除异常值、处理缺失值、消除噪声,所述初步筛选为过滤掉无关或低质量的数据;
根据数据的属性和业务因果关系,对数据清洗和初步筛选后的历史数据进行风险特征提取;
按照数据的全生命周期不同的阶段,对所述提取的风险特征进行聚类,得到训练数据集Z,所述全生命周期包括采集、传输、存储、共享与利用、销毁五个阶段;
对所述训练数据集Z进行数据挖掘,构建感知评估模型,包括:
定义所述训练数据集Z是一组风险的排他性假设,所述风险为数据在全生命周期不同阶段出现的各种指标的风险,设置风险x按照以下公式映射到区间[0,1]:
上述公式中,p(x)表示对于任意,出现风险x的概率;
计算映射到区间[0,1]后的风险x的概率函数,所述概率函数包括下限概率函数和上限概率函数;
p(y)表示对于任意,出现风险x的子集y的概率,Bel()定义为下限概率函数,其公式定义为:
似然函数Pl表示p(x)的上限概率函数,其公式定义为:
上述公式中,为对x为非真的概率,/>为对x为非假的概率;
根据所述概率函数,构建感知评估模型,将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数;
所述将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数,包括:分别以下限概率函数和上限概率函数搭建两个并列的隐含层,所述两个并列的隐含层的输出结果进行合并后,作为输出层的输入信息;
其中,在两个并列的隐含层中引入权重值机制,风险对应的不同阶段的各种指标设置权重值,从而影响计算风险的概率函数;
实时收集全生命周期的不同阶段的业务数据,进行数据清洗和初步筛选后,得到待评估数据集;
将所述待评估数据集输入所述感知评估模型,输出相应的预警和报告。
2.根据权利要求1所述的方法,其特征在于:所述对所述提取的风险特征进行聚类,包括:针对全生命周期包括的采集、传输、存储、共享与利用、销毁五个阶段,不同阶段出现的各种指标的风险,按照阶段聚类、或按照风险种类聚类。
3.根据权利要求1所述的方法,其特征在于:所述两个并列的隐含层的输出结果进行合并,包括:异或、或相加。
4.一种智能数据感知监测系统,其特征在于,所述系统包括:
数据训练单元,用于获取历史数据,进行数据清洗和初步筛选,所述数据清洗包括消除异常值、处理缺失值、消除噪声,所述初步筛选为过滤掉无关或低质量的数据;
特征提取单元,用于根据数据的属性和业务因果关系,对数据清洗和初步筛选后的历史数据进行风险特征提取;按照数据的全生命周期不同的阶段,对所述提取的风险特征进行聚类,得到训练数据集Z,所述全生命周期包括采集、传输、存储、共享与利用、销毁五个阶段;
模型构建单元,用于对所述训练数据集Z进行数据挖掘,构建感知评估模型,包括:
定义所述训练数据集Z是一组风险的排他性假设,所述风险为数据在全生命周期不同阶段出现的各种指标的风险,设置风险x按照以下公式映射到区间[0,1]:
上述公式中,p(x)表示对于任意,出现风险x的概率;
计算映射到区间[0,1]后的风险x的概率函数,所述概率函数包括下限概率函数和上限概率函数;
p(y)表示对于任意,出现风险x的子集y的概率,Bel()定义为下限概率函数,其公式定义为:
似然函数Pl表示p(x)的上限概率函数,其公式定义为:
上述公式中,为对x为非真的概率,/>为对x为非假的概率;
根据所述概率函数,构建感知评估模型,将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数;
所述将所述概率函数中的下限概率函数和上限概率函数分别作为所述感知评估模型的隐含层的激活函数,包括:分别以下限概率函数和上限概率函数搭建两个并列的隐含层,所述两个并列的隐含层的输出结果进行合并后,作为输出层的输入信息;
其中,在两个并列的隐含层中引入权重值机制,风险对应的不同阶段的各种指标设置权重值,从而影响计算风险的概率函数;
数据采集单元,用于实时收集全生命周期的不同阶段的业务数据,进行数据清洗和初步筛选后,得到待评估数据集;
感知评估单元,用于调用所述感知评估模型,将所述待评估数据集输入所述感知评估模型,输出相应的预警和报告。
5.一种智能数据感知监测系统,其特征在于,所述系统包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行实现权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行实现权利要求1-3任一项所述的方法。
CN202311605906.1A 2023-11-29 2023-11-29 智能数据感知监测方法和系统 Active CN117312804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311605906.1A CN117312804B (zh) 2023-11-29 2023-11-29 智能数据感知监测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311605906.1A CN117312804B (zh) 2023-11-29 2023-11-29 智能数据感知监测方法和系统

Publications (2)

Publication Number Publication Date
CN117312804A CN117312804A (zh) 2023-12-29
CN117312804B true CN117312804B (zh) 2024-02-13

Family

ID=89286946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311605906.1A Active CN117312804B (zh) 2023-11-29 2023-11-29 智能数据感知监测方法和系统

Country Status (1)

Country Link
CN (1) CN117312804B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580539A (zh) * 2022-03-04 2022-06-03 京东鲲鹏(江苏)科技有限公司 一种车辆驾驶策略处理方法和装置
CN116777646A (zh) * 2023-06-28 2023-09-19 中国平安财产保险股份有限公司 基于人工智能的风险识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230153662A1 (en) * 2021-11-15 2023-05-18 Equifax Inc. Bayesian modeling for risk assessment based on integrating information from dynamic data sources

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580539A (zh) * 2022-03-04 2022-06-03 京东鲲鹏(江苏)科技有限公司 一种车辆驾驶策略处理方法和装置
CN116777646A (zh) * 2023-06-28 2023-09-19 中国平安财产保险股份有限公司 基于人工智能的风险识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117312804A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN111798312B (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN110275894B (zh) 一种知识图谱的更新方法、装置、电子设备及存储介质
CN107391598B (zh) 一种威胁情报自动生成方法及系统
CN111614491A (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN114710368B (zh) 一种安全事件检测方法、装置及计算机可读存储介质
CN112491891B (zh) 物联网环境下基于混合深度学习的网络攻击检测方法
CN115034600A (zh) 一种用于地质灾害监测的预警方法及系统
CN115222303B (zh) 基于大数据的行业风险数据分析方法、系统及存储介质
CN111383128A (zh) 一种用于监测电网嵌入式终端设备运行状态的方法及系统
CN110782349A (zh) 一种模型训练方法和系统
CN113268370B (zh) 一种根因告警分析方法、系统、设备及存储介质
CN117312804B (zh) 智能数据感知监测方法和系统
CN115296933B (zh) 一种工业生产数据风险等级评估方法及系统
CN116070958A (zh) 归因分析方法、装置、电子设备和存储介质
CN116383645A (zh) 一种基于异常检测的系统健康度智能监测评估方法
CN111767419A (zh) 图片搜索方法、装置、设备及计算机可读存储介质
CN111680572B (zh) 一种电网运行场景动态判定方法及系统
CN115330103A (zh) 城市运行状态智能分析方法、装置、计算机设备及存储介质
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统
CN114530163A (zh) 基于密度聚类的采用声音识别设备生命周期的方法及系统
CN112597498A (zh) 一种webshell的检测方法、系统、装置及可读存储介质
CN117459261A (zh) 网络大数据态势感知分析方法和系统
CN117273670B (zh) 一种具有学习功能的工程资料管理系统
CN113569122B (zh) 一种地图瓦片数据爬虫的识别方法及系统
CN115187376A (zh) 信用卡用户流失预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant