CN117114500A - 基于数据分解的行为基线建立方法、系统及介质 - Google Patents
基于数据分解的行为基线建立方法、系统及介质 Download PDFInfo
- Publication number
- CN117114500A CN117114500A CN202311198342.4A CN202311198342A CN117114500A CN 117114500 A CN117114500 A CN 117114500A CN 202311198342 A CN202311198342 A CN 202311198342A CN 117114500 A CN117114500 A CN 117114500A
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- employee
- behavior
- singular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 124
- 238000012544 monitoring process Methods 0.000 claims abstract description 41
- 206010000117 Abnormal behaviour Diseases 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000010183 spectrum analysis Methods 0.000 claims description 18
- 230000005856 abnormality Effects 0.000 claims description 16
- 230000003542 behavioural effect Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本申请公开了一种基于数据分解的行为基线建立方法、系统及介质,主要涉及数据处理技术领域,用以解决现有的方案难以剔除异常的历史数据,使用异常的历史数据,容易导致行为基线刻画不准确的问题。包括:获得基础数据;确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类;确定各个员工数据集合对应的预设行为聚类;获得若干奇异聚类组;获得各个奇异聚类组对应的工作数据的员工行为基线;获取监测时间段内的员工数据集合,进而确定对应的奇异聚类组;基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,以在存在行为异常时,进行告警处理。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于数据分解的行为基线建立方法、系统及介质。
背景技术
随着5G技术的飞速发展,网络速度得到飞速提升。面对大规模的海量数据,其中内部敏感信息泄露、数据外流等现象时有发生且愈加频繁。因此,为了对内部网络中的信息外流的问题追根溯源,需要对内部工作人员、设备和网络的工作数据进行实时监测,而监测需要针对每个实体构建行为基线作为相对严谨的行为标准。
现如今基线构建方案主要为:基于历史的值使用带有数据分布统计学方法、数学特征方法、多指标权重计分、规则和机器学习方法等。
但是,上述方法存在(1)行为基线刻画不准确:能够提取到的历史数据往往是计算均值、标准差等数学特征,特征对历史值依赖较强,如数据不确定是否含有异常,会导致基线能够容忍异常继而产生基线飘移。另外,涉及的数据量越来越大,提取的特征涉及计算的复杂性越高。(2)异常的历史数据没有标签,往往很难判断,使用人造数据集易被抓住机器学习的漏洞。网络空间瞬息万变,攻击手段防不胜防,机器学习训练样本难以及时采集,无法证实也无法证伪,对未知威胁的检测能力较弱。
发明内容
针对现有技术的上述不足,本申请提供一种基于数据分解的行为基线建立方法、系统及介质,以解决现有的方案难以剔除异常的历史数据,使用异常的历史数据,容易导致行为基线刻画不准确的问题。
第一方面,本申请提供了一种基于数据分解的行为基线建立方法,方法包括:获取预设时间段内的流量数据,将流量数据进行预处理,滤除包含未知协议或缺失数据的流量数据,以获得基础数据;其中,基础数据由若干员工数据集合组成,且员工数据集合至少包含时间数据、工作数据和行为数据;基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类;通过预设聚类算法,按照行为数据对应的若干预设行为聚类,确定各个员工数据集合对应的预设行为聚类;基于预设工作聚类和预设行为聚类,对工作数据进行分类,以获得若干奇异聚类组;通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线;获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组;基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,以在存在行为异常时,进行告警处理。
进一步地,基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类,具体包括:在预设时间段的落入区间为预设连续期区间时,按照预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段,将工数据集合中的工作数据划分为四个预设工作聚类;在预设时间段的落入区间为非预设连续期区间时,通过预设聚类算法,以预设工作聚类的数量为迭代值,确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
进一步地,通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线,具体包括:基于预设工作聚类和预设行为聚类,将工作数据划分为若干奇异聚类组;将奇异聚类组作为奇异谱分析的分析序列,以获得重构序列和重构序列对应的奇异值;基于预设奇异取值T,选择奇异值最大的前T个重构序列重构奇异聚类组,以将重构奇异聚类组作为奇异聚类组对应的工作数据的员工行为基线。
进一步地,获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组,具体包括:确定监测时间段的落入区间,根据落入区间,确定员工数据集合的划分方案,以确定员工数据集合中工作数据对应的预设工作聚类;基于员工数据集合中的行为数据,确定员工数据集合对应的预设行为聚类;根据预设工作聚类和预设行为聚类,确定员工数据集合中工作数据对应的奇异聚类组。
进一步地,基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,具体包括:对员工行为基线对应的奇异聚类组求取标准差和均值;基于指标值计算公式:h=μ+3σ,获得指标值,其中,h为指标值,μ为均值,σ为标准差;在监测时间段内的员工数据集合中的工作数据不在[0,h]范围内时,确定存在行为异常,否则不存在行为异常。
第二方面,本申请提供了一种基于数据分解的行为基线建立系统,系统包括:数据获得模块,用于获取预设时间段内的流量数据,将流量数据进行预处理,滤除包含未知协议或缺失数据的流量数据,以获得基础数据;其中,基础数据由若干员工数据集合组成,且员工数据集合至少包含时间数据、工作数据和行为数据;第一聚类模块,用于基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类;第二聚类模块,用于通过预设聚类算法,按照行为数据对应的若干预设行为聚类,确定各个员工数据集合对应的预设行为聚类;基线获得模块,用于基于预设工作聚类和预设行为聚类,对工作数据进行分类,以获得若干奇异聚类组;通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线;数据监测模块,用于获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组;基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,以在存在行为异常时,进行告警处理。
进一步地,第一聚类模块包括聚类单元,用于在预设时间段的落入区间为预设连续期区间时,按照预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段,将员工数据集合中的工作数据划分为四个预设工作聚类;在预设时间段的落入区间为非预设连续期区间时,通过预设聚类算法,以预设工作聚类的数量为迭代值,确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
进一步地,基线获得模块包括奇异聚类单元,用于基于预设工作聚类和预设行为聚类,将工作数据划分为若干奇异聚类组;将奇异聚类组作为奇异谱分析的分析序列,以获得重构序列和重构序列对应的奇异值;基于预设奇异取值T,选择奇异值最大的前T个重构序列重构奇异聚类组,以将重构奇异聚类组作为奇异聚类组对应的工作数据的员工行为基线。
进一步地,数据监测模块包括异常判断单元,用于对员工行为基线对应的奇异聚类组求取标准差和均值;基于指标值计算公式:h=μ+3σ,获得指标值,其中,h为指标值,μ为均值,σ为标准差;在监测时间段内的员工数据集合中的工作数据不在[0,h]范围内时,确定存在行为异常,否则不存在行为异常。
第三方面,本申请提供了一种非易失性计算机存储介质,其上存储有计算机指令,计算机指令在被执行时实现如上述任一项的一种基于数据分解的行为基线建立方法。
本领域技术人员能够理解的是,本申请至少具有如下有益效果:
本申请通过数据分解(奇异谱分析)手段,结合群组分析(预设时间段内的流量数据)与实体分析(监测时间段内的员工数据集合)构建了一种基于数据分解的行为基线建立方法、系统及介质,能够有效削弱历史异常数据对基线建立的错误影响,从群体角度和个体角度分别约束和监测员工工作数据,提高了基线的准确性与严谨性。适应群组行为与个体行为,可多角度监测和关注员工行为。
附图说明
下面参照附图来描述本公开的部分实施例,附图中:
图1是本申请实施例提供的一种基于数据分解的行为基线建立方法流程图。
图2是本申请实施例提供的一种基于数据分解的行为基线建立系统内部结构示意图。
具体实施方式
本领域技术人员应当理解的是,下文所描述的实施例仅仅是本公开的优选实施例,并不表示本公开仅能通过该优选实施例实现,该优选实施例仅仅是用于解释本公开的技术原理,并非用于限制本公开的保护范围。基于本公开提供的优选实施例,本领域普通技术人员在没有付出创造性劳动的情况下所获得的其它所有实施例,仍应落入到本公开的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
本申请实施例提供了一种基于数据分解的行为基线建立方法,如图1所示,本申请实施例提供的方法,主要包括以下步骤:
步骤110、获取预设时间段内的流量数据,将流量数据进行预处理,滤除包含未知协议或缺失数据的流量数据,以获得基础数据。
需要说明的是,基础数据由若干员工数据集合组成,且员工数据集合至少包含时间数据、工作数据和行为数据。进一步地,工作数据可以为访问频次、受访问频次、数据下行承载量等信息,本领域技术人员可以根据实际情况确定工作数据对应的具体内容。
步骤中的,“获取预设时间段内的流量数据”,可以具体为:通过数据仓库工具(例如,hive)接入数据,获取过去预设时间段内(例如,一个月)的流量数据。
步骤中的,“滤除包含未知协议或缺失数据的流量数据”的具体方法可由现有技术实现,本申请对此不做限定。
步骤120、基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
需要说明的是,预设时间段可以为连续的时间段,也可以为不连续的时间段,本申请在此将“落入区间”设置为预设连续期区间和非预设连续期区间。预设连续期区间可以具体为3个月以内的连续时间段。
为了实现,能够有效处理各种落入区间对应的员工数据集合,本申请基于预设时间段设计了两种处理员工数据集合的方法:
作为示例一地,在预设时间段的落入区间为预设连续期区间时,按照预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段,将员工数据集合中的工作数据划分为四个预设工作聚类。需要说明的是,预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段是按时间划分的,因此,可以基于员工数据集合中的时间数据将员工数据集合划分成工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段。由于这里是按照预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段进行划分的,因此,预设工作聚类可以为工作日活跃类、工作平静类、节假日活跃类、节假日平静类。
作为示例二地,在预设时间段的落入区间为非预设连续期区间时,通过预设聚类算法,以预设工作聚类的数量为迭代值,确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
需要说明的是,预设聚类算法可以为任意可行的聚类算法,例如,K-Means算法。这里的预设工作聚类的数量为4,因此这里的迭代值为4。预设工作聚类可以为工作日活跃类、工作平静类、节假日活跃类、节假日平静类。
步骤130、通过预设聚类算法,按照行为数据对应的若干预设行为聚类,确定各个员工数据集合对应的预设行为聚类。
需要说明的是,预设聚类算法可以为任意可行的聚类算法,例如,K-Means算法。本领域技术人员可以根据实际需求确定行为数据的具体指代内容。例如,行为数据可以为员工部门。其目的是在基础数据的整体上对各个员工数据集合进行分类,发现该分类下的员工行为规律。预设行为聚类的具体数量可由本领域技术根据实际情况确定,本申请对此不做限定。例如,当以员工部门作为行为数据时,涉及的员工部门数量就是预设行为聚类的具体数量。
步骤140、基于预设工作聚类和预设行为聚类,对工作数据进行分类,以获得若干奇异聚类组;通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线。
需要说明的是,“基于预设工作聚类和预设行为聚类,对工作数据进行分类,以获得若干奇异聚类组”是指将工作数据按照预设工作聚类和预设行为聚类,进行分类,可以理解的是:当预设工作聚类的数量为N,预设行为聚类的数量为M时,基于预设工作聚类和预设行为聚类,可以将工作数据分为N*M类(也就是奇异聚类组)。以此,实现了精确分组分析。
具体地,本步骤可以为:将奇异聚类组作为奇异谱分析的分析序列,以获得重构序列和重构序列对应的奇异值;基于预设奇异取值T,选择奇异值最大的前T个重构序列重构奇异聚类组,以将重构奇异聚类组作为奇异聚类组对应的工作数据的员工行为基线。
需要说明的是,获得重构序列和重构序列对应的奇异值的方法通过现有的奇异谱分析方法可以获得,本申请对具体计算过程不做限定。本申请在此为了实现进一步的去除异常数据,只取了奇异值最大的前T个重构序列重构奇异聚类组,以此再一次进行异常数据的清理。另外,重构奇异聚类组的具体方法通过奇异谱分析方法实现。
步骤150、获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组;基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,以在存在行为异常时,进行告警处理。
需要说明的是,“获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组”的方法可以为:
确定监测时间段的落入区间,根据落入区间,确定员工数据集合的划分方案,以确定员工数据集合中工作数据对应的预设工作聚类;基于员工数据集合中的行为数据,确定员工数据集合对应的预设行为聚类;根据预设工作聚类和预设行为聚类,确定员工数据集合中工作数据对应的奇异聚类组。
将奇异聚类组对应的员工行为基线与当前员工数据集合中工作数据进行比对,在员工数据集合中工作数据不存在于员工行为基线中时,确定存在行为异常,进行告警处理。
需要说明的是,告警处理的方法可以为任意可行的方法,本申请对此不做限定。
另外,基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,具体方法可以为:
对员工行为基线对应的奇异聚类组求取标准差和均值;基于指标值计算公式:h=μ+3σ,获得指标值,其中,h为指标值,μ为均值,σ为标准差;在监测时间段内的员工数据集合中的工作数据不在[0,h]范围内时,确定存在行为异常,否则不存在行为异常。
需要说明的是,标准差和均值的计算方法为现有方法,本申请对此不做限定。
除此之外,图2为本申请实施例提供的一种基于数据分解的行为基线建立系统。如图2所示,本申请实施例提供的系统,主要包括:
通过数据获得模块210获取预设时间段内的流量数据,将流量数据进行预处理,滤除包含未知协议或缺失数据的流量数据,以获得基础数据。
需要说明的是,数据获得模块210可以为任意可行的能够进行数据处理以获得基础数据的设备或装置等。基础数据由若干员工数据集合组成,且员工数据集合至少包含时间数据、工作数据和行为数据。
系统中的第一聚类模块220基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
需要说明的是,第一聚类模块220可以为任意可行的能够进行数据聚类的设备或装置等。
本申请在此的聚类方案可以为:通过第一聚类模块220中的聚类单元221,
在预设时间段的落入区间为预设连续期区间时,按照预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段,将员工数据集合中的工作数据划分为四个预设工作聚类;在预设时间段的落入区间为非预设连续期区间时,通过预设聚类算法,以预设工作聚类的数量为迭代值,确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
系统中的第二聚类模块230,通过预设聚类算法,按照行为数据对应的若干预设行为聚类,确定各个员工数据集合对应的预设行为聚类。
需要说明的是,本申请在此实现了按照行为数据对员工数据集合进行聚类。第二聚类模块230可以为任意可行的能够调用预设聚类算法,对员工数据集合进行聚类的设备或装置等。
系统中的基线获得模块240,基于预设工作聚类和预设行为聚类,对工作数据进行分类,以获得若干奇异聚类组;通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线。
需要说明的是,基线获得模块240为任意可行的能够进行数据分类,以及通过奇异谱分析技术获得员工行为基线的设备或装置等。
其中,员工行为基线的获得方案可以具体为:基线获得模块240中的奇异聚类单元241,基于预设工作聚类和预设行为聚类,将工作数据划分为若干奇异聚类组;将奇异聚类组作为奇异谱分析的分析序列,以获得重构序列和重构序列对应的奇异值;基于预设奇异取值T,选择奇异值最大的前T个重构序列重构奇异聚类组,以将重构奇异聚类组作为奇异聚类组对应的工作数据的员工行为基线。
系统中的数据监测模块250,获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组;基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,以在存在行为异常时,进行告警处理。
需要说明的是,数据监测模块250可以为任意可行的能够进行数据异常监测和告警的设备或装置等。
其中,确定监测时间段内的员工数据集合是否存在行为异常的方案可以具体为:通过数据监测模块250中的异常判断单元251,对员工行为基线对应的奇异聚类组求取标准差和均值;基于指标值计算公式:h=μ+3σ,获得指标值,其中,h为指标值,μ为均值,σ为标准差;在监测时间段内的员工数据集合中的工作数据不在[0,h]范围内时,确定存在行为异常,否则不存在行为异常。
除此之外,本申请实施例还提供了一种非易失性计算机存储介质,其上存储有可执行指令,在该可执行指令被执行时,实现如上述的一种基于数据分解的行为基线建立方法。
至此,已经结合前文的多个实施例描述了本公开的技术方案,但是,本领域技术人员容易理解的是,本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下,本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合,也可以对相关技术特征作出等同的更改或替换,凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。
Claims (10)
1.一种基于数据分解的行为基线建立方法,其特征在于,所述方法包括:
获取预设时间段内的流量数据,将流量数据进行预处理,滤除包含未知协议或缺失数据的流量数据,以获得基础数据;其中,基础数据由若干员工数据集合组成,且员工数据集合至少包含时间数据、工作数据和行为数据;
基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类;
通过预设聚类算法,按照行为数据对应的若干预设行为聚类,确定各个员工数据集合对应的预设行为聚类;
基于预设工作聚类和预设行为聚类,对工作数据进行分类,以获得若干奇异聚类组;通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线;
获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组;基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,以在存在行为异常时,进行告警处理。
2.根据权利要求1所述的基于数据分解的行为基线建立方法,其特征在于,基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类,具体包括:
在预设时间段的落入区间为预设连续期区间时,按照预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段,将员工数据集合中的工作数据划分为四个预设工作聚类;
在预设时间段的落入区间为非预设连续期区间时,通过预设聚类算法,以预设工作聚类的数量为迭代值,确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
3.根据权利要求1所述的基于数据分解的行为基线建立方法,其特征在于,通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线,具体包括:
将奇异聚类组作为奇异谱分析的分析序列,以获得重构序列和重构序列对应的奇异值;
基于预设奇异取值T,选择奇异值最大的前T个重构序列重构奇异聚类组,以将重构奇异聚类组作为奇异聚类组对应的工作数据的员工行为基线。
4.根据权利要求1所述的基于数据分解的行为基线建立方法,其特征在于,获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组,具体包括:
确定监测时间段的落入区间,根据落入区间,确定员工数据集合的划分方案,以确定员工数据集合中工作数据对应的预设工作聚类;
基于员工数据集合中的行为数据,确定员工数据集合对应的预设行为聚类;
根据预设工作聚类和预设行为聚类,确定员工数据集合中工作数据对应的奇异聚类组。
5.根据权利要求1所述的基于数据分解的行为基线建立方法,其特征在于,基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,具体包括:
对员工行为基线对应的奇异聚类组求取标准差和均值;
基于指标值计算公式:h=μ+3σ,获得指标值,其中,h为指标值,μ为均值,σ为标准差;
在监测时间段内的员工数据集合中的工作数据不在[0,h]范围内时,确定存在行为异常,否则不存在行为异常。
6.一种基于数据分解的行为基线建立系统,其特征在于,所述系统包括:
数据获得模块,用于获取预设时间段内的流量数据,将流量数据进行预处理,滤除包含未知协议或缺失数据的流量数据,以获得基础数据;其中,基础数据由若干员工数据集合组成,且员工数据集合至少包含时间数据、工作数据和行为数据;
第一聚类模块,用于基于预设时间段的落入区间,确定员工数据集合的划分方案,以确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类;
第二聚类模块,用于通过预设聚类算法,按照行为数据对应的若干预设行为聚类,确定各个员工数据集合对应的预设行为聚类;
基线获得模块,用于基于预设工作聚类和预设行为聚类,对工作数据进行分类,以获得若干奇异聚类组;通过奇异谱分析技术,以获得各个奇异聚类组对应的工作数据的员工行为基线;
数据监测模块,用于获取监测时间段内的员工数据集合,进而确定员工数据集合中工作数据对应的奇异聚类组;基于奇异聚类组对应的员工行为基线,确定监测时间段内的员工数据集合是否存在行为异常,以在存在行为异常时,进行告警处理。
7.根据权利要求6所述的基于数据分解的行为基线建立系统,其特征在于,第一聚类模块包括聚类单元,
用于在预设时间段的落入区间为预设连续期区间时,按照预设工作日活跃时间段、工作平静时间段、节假日活跃时间段、节假日平静时间段,将员工数据集合中的工作数据划分为四个预设工作聚类;
在预设时间段的落入区间为非预设连续期区间时,通过预设聚类算法,以预设工作聚类的数量为迭代值,确定基础数据中各个员工数据集合中工作数据对应的预设工作聚类。
8.根据权利要求6所述的基于数据分解的行为基线建立系统,其特征在于,基线获得模块包括奇异聚类单元,
用于基于预设工作聚类和预设行为聚类,将工作数据划分为若干奇异聚类组;
将奇异聚类组作为奇异谱分析的分析序列,以获得重构序列和重构序列对应的奇异值;
基于预设奇异取值T,选择奇异值最大的前T个重构序列重构奇异聚类组,以将重构奇异聚类组作为奇异聚类组对应的工作数据的员工行为基线。
9.根据权利要求6所述的基于数据分解的行为基线建立系统,其特征在于,数据监测模块包括异常判断单元,
用于对员工行为基线对应的奇异聚类组求取标准差和均值;
基于指标值计算公式:h=μ+3σ,获得指标值,其中,h为指标值,μ为均值,σ为标准差;
在监测时间段内的员工数据集合中的工作数据不在[0,h]范围内时,确定存在行为异常,否则不存在行为异常。
10.一种非易失性计算机存储介质,其特征在于,其上存储有计算机指令,所述计算机指令在被执行时实现如权利要求1-5任一项所述的一种基于数据分解的行为基线建立方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311198342.4A CN117114500B (zh) | 2023-09-18 | 2023-09-18 | 基于数据分解的行为基线建立方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311198342.4A CN117114500B (zh) | 2023-09-18 | 2023-09-18 | 基于数据分解的行为基线建立方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117114500A true CN117114500A (zh) | 2023-11-24 |
CN117114500B CN117114500B (zh) | 2024-03-22 |
Family
ID=88802178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311198342.4A Active CN117114500B (zh) | 2023-09-18 | 2023-09-18 | 基于数据分解的行为基线建立方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117114500B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105516152A (zh) * | 2015-12-15 | 2016-04-20 | 云南大学 | 异常行为检测方法 |
CN114200525A (zh) * | 2021-12-10 | 2022-03-18 | 河北地质大学 | 一种自适应的多道奇异谱分析地震数据去噪方法 |
WO2023032281A1 (ja) * | 2021-08-30 | 2023-03-09 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN116450482A (zh) * | 2023-04-14 | 2023-07-18 | 杭州迪普科技股份有限公司 | 一种用户异常监测方法、装置、电子设备及存储介质 |
-
2023
- 2023-09-18 CN CN202311198342.4A patent/CN117114500B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105516152A (zh) * | 2015-12-15 | 2016-04-20 | 云南大学 | 异常行为检测方法 |
WO2023032281A1 (ja) * | 2021-08-30 | 2023-03-09 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN114200525A (zh) * | 2021-12-10 | 2022-03-18 | 河北地质大学 | 一种自适应的多道奇异谱分析地震数据去噪方法 |
CN116450482A (zh) * | 2023-04-14 | 2023-07-18 | 杭州迪普科技股份有限公司 | 一种用户异常监测方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
周润物;李智勇;陈少淼;陈京;李仁发;: "面向大数据处理的并行优化抽样聚类K-means算法", 计算机应用, no. 02, 10 February 2016 (2016-02-10) * |
胡屹群;裔阳;赵鹏飞;李珊;: "高阶奇异谱分析在GPS监测时间序列中的应用", 勘察科学技术, no. 02, 20 April 2017 (2017-04-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN117114500B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108123849B (zh) | 检测网络流量的阈值的确定方法、装置、设备及存储介质 | |
US20210160266A1 (en) | Computer-implemented method and arrangement for classifying anomalies | |
US10268836B2 (en) | System and method for detecting sensitivity content in time-series data | |
CN110058977A (zh) | 基于流式处理的监控指标异常检测方法、装置及设备 | |
CN109359234B (zh) | 一种多维度网络安全事件分级装置 | |
CN108696486B (zh) | 一种异常操作行为检测处理方法及装置 | |
CN115308101B (zh) | 水质监测管理方法及系统 | |
CN111784966A (zh) | 一种基于机器学习的人员管控的方法及系统 | |
CN111881594B (zh) | 一种核动力设备的非平稳信号状态监测方法及系统 | |
CN113487470A (zh) | 一种基于大数据的环保隐患精准监测定位方法 | |
CN110930541B (zh) | 一种利用gps信息实现对农机工况状态分析的方法 | |
CN116797267A (zh) | 用于股权投资的分布式市场数据采集管理系统 | |
CN114417981B (zh) | 一种智能河长巡测系统 | |
CN117111551A (zh) | 一种基于ames系统的药品生产质量监控方法及系统 | |
CN114679327A (zh) | 网络攻击等级确定方法、装置、计算机设备和存储介质 | |
CN113485218A (zh) | 一种基于5g的智慧物联监管平台 | |
CN117114500B (zh) | 基于数据分解的行为基线建立方法、系统及介质 | |
CN117274827A (zh) | 一种智慧环境环保远程实时监测预警方法及系统 | |
CN116502043A (zh) | 一种基于孤立森林算法的精轧电机状态分析方法 | |
CN116030955A (zh) | 基于物联网的医疗设备状态监测方法及相关装置 | |
CN115296933A (zh) | 一种工业生产数据风险等级评估方法及系统 | |
CN113361730B (zh) | 一种检修计划的风险预警方法、装置、设备和介质 | |
CN107085544B (zh) | 一种系统错误定位方法及装置 | |
CN113590663B (zh) | 一种环境检测方法及系统 | |
KR20200108199A (ko) | 이상 감지를 이용한 모니터링 자동화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |