CN108614895A - 异常的数据访问行为的识别方法及数据处理装置 - Google Patents

异常的数据访问行为的识别方法及数据处理装置 Download PDF

Info

Publication number
CN108614895A
CN108614895A CN201810441120.3A CN201810441120A CN108614895A CN 108614895 A CN108614895 A CN 108614895A CN 201810441120 A CN201810441120 A CN 201810441120A CN 108614895 A CN108614895 A CN 108614895A
Authority
CN
China
Prior art keywords
data
time
real
cluster
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810441120.3A
Other languages
English (en)
Other versions
CN108614895B (zh
Inventor
李映壮
王瑶
刘威歆
刘松涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Hainan Co Ltd
Original Assignee
China Mobile Group Hainan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Hainan Co Ltd filed Critical China Mobile Group Hainan Co Ltd
Priority to CN201810441120.3A priority Critical patent/CN108614895B/zh
Publication of CN108614895A publication Critical patent/CN108614895A/zh
Application granted granted Critical
Publication of CN108614895B publication Critical patent/CN108614895B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种识别方式,涉及数据处理领域,包括:获取数据访问行为的实时数据,实时数据包括:实时特性数据和实时标签数据。根据实时特性数据,从预设的多个聚类中得到实时数据所属的目标聚类,并获取目标聚类的特性和标签。比较实时特性数据与目标聚类的特性之间是否满足第一预设关系,并比较实时标签数据与目标聚类的标签之间是否满足第二预设关系。若实时特性数据与目标聚类的特性之间不满足第一预设关系,或者,实时标签数据与目标聚类的标签之间不满足第二预设关系,则将数据访问行为标记为异常的数据访问行为。本发明实施例还公开了一种数据处理装置,可以提高识别的准确率。

Description

异常的数据访问行为的识别方法及数据处理装置
技术领域
本申请涉及数据处理领域,尤其涉及一种异常的数据访问行为的识别方法及数据处理装置。
背景技术
随着大数据时代的到来,大数据分析和数据挖掘正在改变着我们的生活和企业的运营模式,但是在数据为我们的生活带来巨变的同时,数据作为核心资产和重要战略资源,也成为了不法分子盗取的目标,因此数据安全已经成为网络安全越来越重要的组成部分,对异常的数据访问行为的识别是数据安全的重要内容。
现有的对异常的数据访问行为的识别主要通过统计方法从数据访问行为的一个或多个维度对该数据访问行为进行分析并通过加权计算得到一个异常分数,根据该异常分数的大小判断该数据访问行为是否为异常的数据访问行为,这种方法普遍存在准确率低等问题。
发明内容
本发明提供一种异常的数据访问行为的识别方法及数据处理装置,用于解决现有识别方法准确率低的问题。
本发明实施例一方面提供一种异常的数据访问行为的识别方法,包括:
获取数据访问行为的实时数据,所述实时数据包括:实时特性数据和实时标签数据;
根据所述实时特性数据,从预设的多个聚类中得到所述实时数据所属的目标聚类,并获取所述目标聚类的特性和标签;
比较所述实时特性数据与所述目标聚类的特性之间是否满足第一预设关系,并比较所述实时标签数据与所述目标聚类的标签之间是否满足第二预设关系;
若所述实时特性数据与所述目标聚类的特性之间不满足所述第一预设关系,或者,所述实时标签数据与所述目标聚类的标签之间不满足所述第二预设关系,则将所述数据访问行为标记为异常的数据访问行为。
本发明实施例另一方面提供一种数据处理装置,包括:
第一获取模块,用于获取数据访问行为的实时数据,所述实时数据包括:实时特性数据和实时标签数据;
第一聚类模块,用于根据所述实时特性数据,从预设的多个聚类中得到所述实时数据所属的目标聚类,并获取所述目标聚类的特性和标签;
比较模块,用于比较所述实时特性数据与所述目标聚类的特性之间是否满足第一预设关系,并比较所述实时标签数据与所述目标聚类的标签之间是否满足第二预设关系;
标记模块,用于若所述实时特性数据与所述目标聚类的特性之间不满足所述第一预设关系,或者,所述实时标签数据与所述目标聚类的标签之间不满足所述第二预设关系,则将所述数据访问行为标记为异常数据访问行为。
上述实施例提供的异常的数据访问行为的识别方法或数据处理装置,由于考虑了实时数据中多个数据之间的耦合,故提高了识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的异常的数据访问行为的识别方法的流程示意图;
图2为本发明第二实施例提供的异常的数据访问行为的识别方法的流程示意图;
图3为本发明第三实施例提供的数据处理装置的结构示意图;
图4为本发明第四实施例提供的数据处理装置的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例提供的附图,对本发明实施例提供的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明提供的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明第一实施例提供的异常的数据访问行为的识别方法的流程示意图,如图1所示,该识别方法包括:
101、获取数据访问行为的实时数据,该实时数据包括:实时特性数据和实时标签数据。
具体的,该实时数据为针对服务器的数据访问行为的特征数据。
102、根据该实时特性数据,从预设的多个聚类中得到该实时数据所属的目标聚类,并获取该目标聚类的特性和标签。
103、比较该实时特性数据与该目标聚类的特性之间是否满足第一预设关系,并比较该实时标签数据与该目标聚类的标签之间是否满足第二预设关系。
104、若该实时特性数据与该目标聚类的特性之间不满足该第一预设关系,或者,该实时标签数据与该目标聚类的标签之间不满足该第二预设关系,则将该数据访问行为标记为异常的数据访问行为。
需要说明的是,本实施例提供的异常的数据访问行为的识别方法,实时数据包括实时特性数据和实时标签数据,根据实时特性数据判断该实时数据所属的目标聚类,比较该实时特性数据与该目标聚类的特性之间是否满足第一预设关系,并比较该实时标签数据与该目标聚类的标签之间是否满足第二预设关系,考虑了实时数据中实时特性数据和实时标签数据的耦合,故提高了识别的准确率。
例如,现有一个异常的数据访问行为的实时数据,该实时数据包括:用户数据、对象数据和方式数据,该用户数据是指执行该数据访问行为的用户,该对象数据是指该数据访问行为访问的对象,方式数据是指该数据访问行为执行的方式。该异常的数据访问行为是:用户User访问A系统上传数据,则该实时数据包括:用户User、系统A和上传数据。
现在,已知正常的数据访问行为的特征数据包括:用户Administer、系统B、上传数据和用户User、系统A、下载数据。
若采用现有的异常数据识别方法,分别判断实时数据中各数据是否为异常数据,然后计算综合的异常分数,则会由于用户User、系统A和上传数据均为正常的数据,导致把异常的数据访问行为错误的识别成正常的数据访问行为。
而本实施例提供的方法,例如根据访问方法将正常的数据访问行为的特征数据分为两个聚类:第一聚类和第二聚类,该第一聚类为:用户Administer、系统B、上传数据,该第二聚类为:用户User、系统A、下载数据。
将实时数据中的方式数据作为聚类依据,将第一聚类作为目标聚类,再对比实时数据中的用户数据和第一聚类的用户数据,发现该数据访问行为的用户异常,再比较该实时数据中的对象数据和第一聚类的对象数据,发现该数据访问行为的对象异常,从而正确的识别出该异常的数据访问行为。
在本实施例中,由于考虑了实时数据中多个数据之间的耦合,故提高了识别的准确率。
请参阅图2,图2为本发明第二实施例提供的异常的数据访问行为的识别方法的流程示意图,如图2所示,该识别方法包括:
201、获取预设时长内多个历史数据访问行为的对象数据、位置数据、用户数据、时间数据、方式数据和原因数据。
具体的,该方式数据为至少一个维度的向量。
需要说明的是,从数据访问行为的访问对象、该访问行为发生的位置、执行该访问行为的用户、该访问行为发生的时间、该访问行为发生的方式以及该访问行为发生的原因这六个角度描述数据访问行为,这种描述方法具有较高的通用性,可以广泛适用于各种应用场景下对数据访问行为的描述,故提高了本实施例提供的异常的数据访问行为的识别方法的通用性。
202、将该对象数据作为该历史数据的历史聚类数据,按照预设的规则将该方式数据映射至训练空间,得到标准方式数据,并将该标准方式数据作为该历史数据的历史特性数据。
具体的,该预设的规则为,根据标准化公式将方式数据映射至训练空间,该标准化公式为:
式(1)中,h’j[l]表示标准方式数据中第j个标准方式数据的第l维的数值,hj[l]表示方式数据中第j个标准方式数据的第l维的数值,h[l]max表示所有方式数据中第l维的数值的最大值,h[l]min表示所有方式数据中第l维的数值的最小值。其中,j∈[1,m],l∈[1,n],m为历史数据的总条数,n为单个方式数据的总维度。
利用式(1)可以将有量纲的方式数据标准化为训练空间中的无量纲的标准方式数据,该训练空间为n维空间,且每一个维度的值域均为[0,1]。
203、将时间数据数值化得到数值化的时间数据,并将位置数据、用户数据、原因数据和该数值化的时间数据作为历史数据的历史标签数据。
可选的,将时间数据数值化得到数值化的时间数据具体包括:
在预设时间周期内,将该周期分为多个时间段,并为各时间段设置不同的数值。
判断聚类中各时间数据所属的时间段,并将为该时间段设置的数值作为该聚类的数值化时间数据。若时间数据同时属于多个时间段,则将为该多个时间段设置的数值相加后的值作为该时间数据的数值化的时间数据。
例如,将一天均分为四个时间段:第一时间段(0:00~6:00)、第二时间段(6:00~12:00)、第三时间段(12:00~18:00)和第四时间段(18:00~24:00),并为该四个时间段分别设置一个数值:0001、0010、0100和1000。
若聚类中包括五个时间数据:第一时间数据(15:00~15:30)、第二时间数据(6:00~9:00)、第三时间数据(11:00~13:00)、第四时间数据(21:15~21:18)和第五时间数据(6:30~6:40),则第一时间数据属于第三时间段,第一时间数据的数值化时间数据为0100;第二时间数据属于第二时间段,第二时间数据的数值化时间数据为0010;第三时间数据同时属于第二时间段和第三时间段,第三时间数据的数值化时间数据为0110;第四时间数据属于第四时间段,第四时间数据的数值化时间数据为1000;第五时间数据属于第二时间段,第五时间数据的数值化时间数据为0010。将这些时间数据的数值化时间数据去重聚合,即可得到该聚类的时间标签:0100、0010、0110和1000。
204、根据对象数据,将历史数据划分为N个聚类。
具体的,N的大小为所有历史数据中非重复的对象数据的总数,且同一个聚类中的历史数据具有相同的对象数据。
下面以将五个历史数据分别划分为多个聚类的过程为例,对本实施例的聚类划分过程进行说明,并非对本发明进行任何形式的限定。
在本例中五个历史数据分别为:向量A、向量B、向量C、向量D和向量E,向量A的对象数据为F,向量B的对象数据为G、向量C的对象数据为F、向量D的对象数据为H、向量E的对象数据为G,这五个历史数据中非重复的对象数据的总数为3,故得到的聚类的总数为3,将向量A和向量C为第一聚类,将向量B和向量E为第二聚类,将向量D为第三聚类。
205、根据标准方式数据得到聚类的特性,该聚类的特性包括:该聚类的中心点的坐标和该聚类的半径。
具体的,聚类的中心点的坐标为该聚类中所有历史数据的标准方式数据的各维度的平均值。
例如,标准方式数据的维度为3,即,标准化方式向量包括三个数值,不妨,将这三个数值命名为第一数值、第二数值和第三数值。则聚类的中心点的坐标包括三个坐标值,不妨将这三个坐标值命名为第一坐标值、第二坐标值和第三坐标值,第一坐标值为该聚类中所有历史数据中标准方式数据的第一数值的平均值,第二坐标为该聚类中所有历史数据中标准方式数据的第二数值的平均值,第三坐标为该聚类中所有历史数据中标注化方式数据的第三数值的平均值。
聚类的半径为聚类中各历史数据的标准方式数据与该聚类的中心点的距离中的最大值。
标准方式数据与该聚类的中心点的距离是指该标准方式数据与该中心点的坐标的差值的欧几里得范数。
例如,聚类中一个历史数据中的标准方式数据为:(a、b、c),该聚类的中心点的坐标为:(a0、b0、c0),则该标准方式数据与该中心点的距离为:
式(2)中D为该标准方式数据与该聚类的中心点的距离。
在实际应用中,计算聚类的特性时,关心的是不同方式数据之间的大小的相对关系,不同方式数据的绝对大小会影响聚类的特性,故在计算聚类的特性时,根据无量纲的标准方式数据进行计算,以避免方式数据的绝对大小对计算聚类的特性时的影响。
可选的,若方式数据中包括非数值数据,则还需要将该数据转化为数值数据后再将方式数据标准化为标准方式数据,例如,方式数据包括数据的流向,且在方式数据中用“上传”或“下载”表示,则需要将“上传”转化为01,将“下载”转化为10,进而将方式数据数值化。
206、提取聚类中所有历史数据的用户数据、位置数据、原因数据和数值化的时间数据,分别进行去重聚合后得到各聚类的用户标签、位置标签、原因标签和时间标签。
具体的,用户标签为聚类中各历史数据中不同的用户数据的列表,原因标签为聚类中各历史数据中不同的原因数据的列表,位置标签为聚类中各历史数据中的不同的位置数据的列表,时间标签为聚类中各历史数据中的数值化的时间数据的不同数值的列表。
需要说明的是,步骤201至步骤206通过历史数据自动生成了至少一个聚类并得到了各聚类的特性和各聚类的标签,聚类的特性和聚类的标签即为检验数据访问行为是否为异常数据访问行为的依据。本实施例根据历史数据自动生成数据访问行为是否为异常的数据访问行为的识别依据,而无需人工进行设置,减少了技术人员的工作量。同时,由于识别依据是根据历史数据生成的,而非是根据获取的实时数据生成的,在获取实时数据前就已经生成了识别依据,故可以对获取的实时数据进行实时识别。
207、获取实时数据的实时位置数据、实时用户数据、实时时间数据、实时方式数据和实时原因数据。
具体的,实时数据用于描述实时数据访问行为,该实时数据访问行为为针对服务器的数据访问行为,该服务器与历史数据访问行为针对的服务器相同。
实时位置数据表示数据访问行为发生的位置,实时用户数据表示执行数据访问行为的用户,实时时间数据表示数据访问行为发生的时间,实时方式数据表示数据访问行为发生的方式,实时原因数据表示数据访问行为发生的原因。
208、按照预设的规则,将实时方式数据映射至训练空间,得到实施标准方式数据,并将该实时标准方式数据作为实时特性数据。
具体的,实时方式数据为至少具有一个维度的向量,且实时方式数据的维数和方式数据的维数相同。
该预设规则为,根据实时标准化公式将实时方式数据映射至步骤202中的训练空间,该实时标准化公式为:
式(3)中,y’i[l]表示实时标准方式数据中第i个实时标准方式数据的第l维的数值,yi[l]表示实时方式数据中第i个实时标准方式数据的第l维的数值,h[l]max表示所有方式数据中第l维的数值的最大值,h[l]min表示所有方式数据中第l维的数值的最小值。其中,i∈[1,x],l∈[1,n],x为实时数据的总数,n为单个方式数据的总维度。
209、将实时时间数据数值化得到数值化的实时时间数据,并将实时位置数据、实时用户数据、实时原因数据和该数值化的实时时间数据作为实时标签数据。
具体的,将实时时间数据数值化的方法与步骤203中将时间数据数值化的方法相同。
210、计算实时数据的实时标准方式数据与各聚类的中心点的距离,将与该实时标准方式数据距离最近的中心点所属的聚类,确定为目标聚类。
具体的,实时标准方式数据与聚类的中心点的距离为,该实时标准方式数据与该聚类的中心点的坐标的差值的欧几里得范数。
例如,实时数据的实时标准方式数据为[0.5,0.6,0.8],第一聚类的中心点的坐标为(0,0,0),第二聚类的中心点的坐标为(1,1,1),第三聚类的中心点的坐标为(0.5,0.5,0.5)。
该实时数据的实时标准方式数据与第一聚类的中心点的距离D1为:
该实时数据的实时标准方式数据与第二聚类的中心点的距离D2为:
该实时数据的实时标准方式数据与第三聚类的中心点的距离D3为:
该实时数据的实时标准方式数据与第三聚类的中心点的距离最小,故将第三聚类确定为目标聚类。
211、比较实时特性数据与该目标聚类的特性之间是否满足第一预设关系,并比较实时标签数据与该目标聚类的标签之间是否满足第二预设关系。
具体的,比较实时数据的实时标准方式数据与该目标聚类的中心点的距离是否不大于该目标聚类的半径,分别比较实时数据的实时位置数据、实时用户数据、实时原因数据和数值化的实时时间数据,是否数属于该目标聚类的位置标签、用户标签、原因标签和时间标签。
212、若实时特性数据与该目标聚类的特性之间不满足该第一预设关系,或者,实时标签数据与该目标聚类的标签之间不满足该第二预设关系,则将该数据访问行为标记为异常的数据访问行为。
具体的,若实时数据的实时标准方式数据与该目标聚类的中心点的距离大于该目标聚类的半径,则将该数据访问行为标记为聚类异常的数据访问行为。
若实时数据的实时用户数据不属于该目标聚类的用户标签,则将该数据访问行为标记为用户异常的数据访问行为。
若实时数据的实时位置数据不属于该目标聚类的位置标签,则将该数据访问行为标记位位置异常的数据访问行为。
若实时数据的实时原因数据不属于该目标聚类的原因标签,则将该数据访问行为标记为原因异常的数据访问行为。
若实时数据的数值化的实时时间数据不属于该目标聚类的时间标签,则将该数据访问行为标记位时间异常的数据访问行为。
在本实施例中,第一方面,由于考虑了实时数据中多个数据之间的耦合,故提高了识别的准确率。第二方面,从数据访问行为的访问对象、该访问行为发生的位置、执行该访问行为的用户、该访问行为发生的时间、该访问行为发生的方式以及该访问行为发生的原因这六个角度描述数据访问行为,这种描述方法具有较高的通用性,可以广泛适用于各种应用场景下对数据访问行为的描述,故提高了本实施例提供的异常的数据访问行为的识别方法的通用性。第三方面,由于根据历史数据自动生成聚类、聚类的特性和聚类的标签,并利用聚类的特性和聚类的标签自动识别实时数据访问行为是否未异常数据访问行为,而无需人工规定检验规则,减少了技术人员的工作量。第四方面,由于根据历史数据生成聚类的特性和聚类的标签,而非根据实时数据得到数据访问行为的检测依据,在获取实时数据时,异常的数据访问行为的识别依据已经生成,故可以对数据访问行为进行实时识别。第五方面,由于从不同维度比较实时数据与目标聚类的标签,并根据比较结果将该实时数据描述的数据访问行为标记为不同类型的异常的数据访问行为,故可以使识别的结果更加精准。
请参阅图3,图3为本发明第三实施例提供的数据处理装置的结构示意图,如图3所示,该数据处理装置包括:
第一获取模块301,用于获取数据访问行为的实时数据,该实时数据包括:实时特性数据和实时标签数据。
第一聚类模块302,还用于根据该实时特性数据,从预设的多个聚类中得到该实时数据所属的目标聚类,并获取该目标聚类的特性和标签。
比较模块303,用于比较该实时特性数据与该目标聚类的特性之间是否满足第一预设关系,并比较该实时标签数据与该目标聚类的标签之间是否满足第二预设关系。
标记模块304,用于若该实时特性数据与该目标聚类的特性之间不满足该第一预设关系,或者,该实时标签数据与该目标聚类的标签之间不满足该第二预设关系,则将该数据访问行为标记为异常的数据访问行为。
在本实施例中,由于考虑了实时数据中多个数据之间的耦合,故提高了识别的准确率。
请参阅图4,图4为本发明第四实施例提供的数据处理装置的结构示意图,如图4所示,与前述图3所示的数据处理装置不同的是,在本实施例中:
进一步地,该数据处理装置还包括:
第二获取模块401,用于获取预设时长内多个历史数据访问行为的历史数据,该历史数据包括:历史聚类数据、历史特性数据和历史标签数据。历史数据为针对服务器的数据访问行为。
第二聚类模块402,用于根据历史聚类数据对历史数据进行聚类分析,将历史数据划分为至少一个聚类。
第二聚类模块402,还用于根据历史特性数据得到聚类的特性。
第二聚类模块402,还用于历史标签数据得到聚类的标签。
第二获取模块401,还用于获取预设时长内多个历史数据访问行为的对象数据、位置数据、用户数据、时间数据、方式数据和原因数据。
第二聚类模块402,还用于将该对象数据作为该历史数据的历史聚类数据,按照预设的规则将该方式数据映射至训练空间,得到标准方式数据,并将该标准方式数据作为该历史数据的历史特性数据。
第二聚类模块402,还用于将时间数据数值化得到数值化的时间数据,并将位置数据、用户数据、原因数据和该数值化的时间数据作为历史数据的历史标签数据。
第二聚类模块402,还用于根据对象数据,将历史数据划分为N个聚类,N的大小为所有历史数据中非重复的对象数据的总数,且同一个聚类中的历史数据具有相同的对象数据。
第二聚类模块402,还用于根据标准方式数据得到聚类的特性,该聚类的特性包括该聚类的中心点坐标和该聚类的半径。
其中,聚类的中心点的坐标为该聚类中所有历史数据的标准方式数据的各维度的平均值。聚类的半径为聚类中各历史数据的标准方式数据与该聚类的中心点的距离中的最大值。标准方式数据与该聚类的中心点的距离是指该标准方式数据与该中心点的坐标的差值的欧几里得范数。
第二聚类模块402,还用于提取聚类中所有历史数据的用户数据、位置数据、原因数据和数值化的时间数据,分别进行去重聚合后得到该聚类的用户标签、位置标签、原因标签和时间标签。
其中,该用户标签为聚类中的各历史数据中不同的用户数据的列表,该原因标签为聚类中的各历史数据中不同的原因数据的列表,该位置标签为聚类中的各历史数据中不同的位置数据的列表,该时间标签为聚类中各历史数据中的数值化的时间数据的列表。
进一步地,第一获取模块301,还用于获取实时数据的实时位置数据、实时用户数据、实时时间数据、实时方式数据和实时原因数据,该实时方式数据为至少具有一个维度的向量,且该实时方式数据的维数与方式数据的维数相同。
第一聚类模块302,还用于按照预设的规则,将实时方式数据映射至训练空间,得到实时标准方式数据,并将该实时标准方式数据作为实时特性数据。
第一聚类模块302,还用于将实时时间数据数值化得到数值化的实时时间数据,并将该实时位置数据、实时用户数据、实时原因数据和该数值化的实时事件数据作为实施标签数据。
进一步地,第一聚类模块302,还用于计算实时数据的实时标准方式数据与各聚类的中心点的距离,将与该实时标准方式数据距离最近的中心点所属的聚类,确定为目标聚类。
其中,实时标准方式数据与聚类的中心点的距离为,实时标准方式数据与该聚类的中心点的坐标的差的欧几里得范数。
比较模块303,还用于比较实时特性数据与该目标聚类的中心点的距离是否大于该目标聚类的半径。
比较模块303,还用于分别比较实时数据的实时位置数据、实时用户数据、实时原因数据和数值化的实时时间数据,是否属于该目标聚类的位置标签、用户标签、原因标签和时间标签。
标记模块304,还用于若实时数据的实时标准方式数据与该目标聚类的中心点的距离大于该目标聚类的半径,则将所据访问行为标记为聚类异常的数据访问行为。
标记模块304,还用于若实时数据的实时用户数据不属于该目标聚类的用户标签,则将该数据访问行为标记为用户异常的数据访问行为。
标记模块304,还用于若实时数据的实时位置数据不属于该目标聚类的位置标签,则将该数据访问行为标记为位置异常的数据访问行为。
标记模块304,还用于若实时数据的实时原因数据不属于该目标聚类的原因标签,则将该数据访问行为标记为原因异常的数据访问行为。
标记模块304,还用于若实时数据的数值化的实时时间数据不属于该目标聚类的时间标签,则将该数据访问行为标记为时间异常的数据访问行为。
在本实施例中,第一方面,由于考虑了实时数据中多个数据之间的耦合,故提高了识别的准确率。第二方面,从数据访问行为的访问对象、该访问行为发生的位置、执行该访问行为的用户、该访问行为发生的时间、该访问行为发生的方式以及该访问行为发生的原因这六个角度描述数据访问行为,这种描述方法具有较高的通用性,可以广泛适用于各种应用场景下对数据访问行为的描述,故提高了本实施例提供的异常的数据访问行为的识别方法的通用性。第三方面,由于根据历史数据自动生成聚类、聚类的特性和聚类的标签,并利用聚类的特性和聚类的标签自动识别实时数据访问行为是否未异常数据访问行为,而无需人工规定检验规则,减少了技术人员的工作量。第四方面,由于根据历史数据生成聚类的特性和聚类的标签,而非根据实时数据得到数据访问行为的检测依据,在获取实时数据时,异常的数据访问行为的识别依据已经生成,故可以对数据访问行为进行实时识别。第五方面,由于从不同维度比较实时数据与目标聚类的标签,并根据比较结果将该实时数据描述的数据访问行为标记为不同类型的异常的数据访问行为,故可以使识别的结果更加精准。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的异常的数据访问行为的识别方法及数据处理装置的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种异常的数据访问行为的识别方法,其特征在于,包括:
获取数据访问行为的实时数据,所述实时数据包括:实时特性数据和实时标签数据;
根据所述实时特性数据,从预设的多个聚类中得到所述实时数据所属的目标聚类,并获取所述目标聚类的特性和标签;
比较所述实时特性数据与所述目标聚类的特性之间是否满足第一预设关系,并比较所述实时标签数据与所述目标聚类的标签之间是否满足第二预设关系;
若所述实时特性数据与所述目标聚类的特性之间不满足所述第一预设关系,或者,所述实时标签数据与所述目标聚类的标签之间不满足所述第二预设关系,则将所述数据访问行为标记为异常的数据访问行为。
2.如权利要求1所述的识别方法,其特征在于,所述获取数据访问行为的实时数据之前,还包括:
获取预设时长内多个历史数据访问行为的历史数据,所述历史数据包括:历史聚类数据、历史特性数据和历史标签数据;
根据所述历史聚类数据对所述历史数据进行聚类分析,将所述历史数据划分为至少一个所述聚类;
根据所述历史特性数据得到所述聚类的特性;
根据所述历史标签数据得到所述聚类的标签。
3.如权利要求2所述的识别方法,其特征在于,所述获取预设时长内多个历史数据访问行为的历史数据,所述历史数据包括:历史聚类数据、历史特性数据和历史标签数据包括:
获取预设时长内多个所述历史数据访问行为的对象数据、位置数据、用户数据、时间数据、方式数据和原因数据,所述方式数据为具有至少一个维度的向量;
将所述对象数据作为所述历史聚类数据;
按照预设的规则将所述方式数据映射至训练空间,得到标准方式数据,并将所述标准方式数据作为所述历史特性数据;
将所述时间数据数值化得到数值化的时间数据,并将所述位置数据、所述用户数据、所述原因数据和所述数值化的时间数据作为所述历史标签数据。
4.如权利要求3所述的识别方法,其特征在于,所述根据所述历史聚类数据对所述历史数据进行聚类分析,将所述历史数据划分为至少一个所述聚类,包括:
根据所述对象数据,将所述历史数据划分为N个所述聚类,其中,N的大小为所有所述历史数据中非重复的所述对象数据的总数,且同一个聚类中的所述历史数据具有相同的所述对象数据;
所述根据所述历史特性数据得到所述聚类的特性,包括:
根据所述标准方式数据得到所述聚类的特性,所述聚类的特性包括所述聚类的中心点的坐标和所述聚类的半径;
其中,所述聚类的中心点的坐标为所述聚类中所有的所述标准方式数据的各维度的平均值,所述聚类的半径为所述聚类中所有的所述标准方式数据与所述聚类的中心点的距离中的最大值,所述标准方式数据与所述聚类的中心点的距离为所述标准方式数据与所述中心点的坐标的差值的欧几里得范数;
所述根据所述历史标签数据得到所述聚类的标签包括:
提取所述聚类中所有所述历史数据的所述用户数据、所述位置数据、所述原因数据和所述数值化的时间数据,分别进行去重聚合后得到各所述聚类的用户标签、位置标签、原因标签和时间标签;
其中,所述用户标签为所述聚类中的各历史数据中不同的用户数据的列表,所述原因标签为所述聚类中的各历史数据中不同的原因数据的列表,所述位置标签为所述聚类中的各历史数据中不同的位置数据的列表,所述时间标签为所述聚类中各历史数据中的所述数值化的时间数据的列表。
5.如权利要求4所述的识别方法,其特征在于,所述获取数据访问行为的实时数据,所述实时数据包括:实时特性数据和实时标签数据,包括:
获取所述实时数据的实时位置数据、实时用户数据、实时时间数据、实时方式数据和实时原因数据,所述实时方式数据为至少具有一个维度的向量,且所述实时方式数据的维数与所述方式数据的维数相同;
按照预设的所述规则,将实时方式数据映射至所述训练空间,得到实时标准方式数据,并将所述实时标准方式数据作为所述实时特性数据;
将所述实时时间数据数值化得到数值化的实时时间数据,并将所述实时位置数据、所述实时用户数据、所述实时原因数据和所述数值化的实时时间数据作为所述实时标签数据。
6.如权利要求5所述的识别方法,其特征在于,所述根据所述实时特性数据,从预设的多个聚类中得到所述实时数据所属的目标聚类,并获取所述目标聚类的特性和标签,包括:
计算所述实时数据的实时标准方式数据与各所述聚类的中心点的距离,将与所述实时标准方式数据距离最近的中心点所属的聚类,确定为所述目标聚类;
其中,所述实时标准方式数据与所述聚类的中心点的距离为,所述实时标准方式数据与所述聚类的中心点的坐标的差的欧几里得范数;
所述比较所述实时特性数据与所述目标聚类的特性之间是否满足第一预设关系,并比较所述实时标签数据与所述目标聚类的标签之间是否满足第二预设关系,包括:
比较所述实时标准方式数据与所述目标聚类的中心点的距离是否不大于所述聚类的半径;
分别比较所述实时数据的所述实时位置数据、所述实时用户数据、所述实时原因数据和所述数值化的实时时间数据,是否属于所述目标聚类的所述位置标签,所述用户标签、所述原因标签和所述时间标签;
若所述实时特性数据与所述目标聚类的特性之间不满足所述第一预设关系,或者,所述实时标签数据与所述目标聚类的标签之间不满足所述第二预设关系,则将所述数据访问行为标记为异常数据访问行为,包括:
若所述实时数据的实时标准方式数据与所述目标聚类的中心点的距离大于所述目标聚类的半径,则将所述数据访问行为标记为聚类异常的数据访问行为;
若所述实时数据的实时用户数据不属于所述目标聚类的用户标签,则将所述数据访问行为标记为用户异常的数据访问行为;
若所述实时数据的实时位置数据不属于所述目标聚类的位置标签,则将所述实时数据访问行为标记为位置异常的数据访问行为;
若所述实时数据的实时原因数据不属于所述目标聚类的原因标签,则将所述数据访问行为标记为原因异常的数据访问行为;
若所述实时数据的数值化的实时时间数据不属于所述目标聚类的时间标签,则将所述数据访问行为标记为时间异常的数据访问行为。
7.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取数据访问行为的实时数据,所述实时数据包括:实时特性数据和实时标签数据;
第一聚类模块,用于根据所述实时特性数据,从预设的多个聚类中得到所述实时数据所属的目标聚类,并获取所述目标聚类的特性和标签;
比较模块,用于比较所述实时特性数据与所述目标聚类的特性之间是否满足第一预设关系,并比较所述实时标签数据与所述目标聚类的标签之间是否满足第二预设关系;
标记模块,用于若所述实时特性数据与所述目标聚类的特性之间不满足所述第一预设关系,或者,所述实时标签数据与所述目标聚类的标签之间不满足所述第二预设关系,则将所述数据访问行为标记为异常数据访问行为。
8.如权利要求7所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第二获取模块,用于获取预设时长内多个历史数据访问行为的历史数据,所述历史数据包括:历史聚类数据、历史特性数据和历史标签数据;
第二聚类模块,用于根据所述历史聚类数据对所述历史数据进行聚类分析,将所述历史数据划分为至少一个所述聚类;
所述第二聚类模块,还用于根据所述历史特性数据得到所述聚类的特性;
所述第二聚类模块,还用于根据所述历史标签数据得到所述聚类的标签;
所述第二获取模块,还用于获取预设时长内多个所述历史数据访问行为的对象数据、位置数据、用户数据、时间数据、方式数据和原因数据,所述方式数据为具有至少一个维度的向量;
所述第二聚类模块,还用于将所述对象数据作为所述历史数据的历史聚类数据;
所述第二聚类模块,还用于按照预设的规则将所述方式数据映射至训练空间,得到标准方式数据,并将所述标准方式数据作为所述历史数据的历史特性数据;
所述第二聚类模块,还用于将所述时间数据数值化得到数值化的时间数据,并将所述位置数据、所述用户数据、所述原因数据和所述数值化的时间数据作为所述历史数据的历史标签数据;
所述第二聚类模块,还用于根据所述对象数据,将所述历史数据划分为N个所述聚类,其中,N的大小为所有所述历史数据中非重复的所述对象数据的总数,且同一个聚类中的所述历史数据具有相同的所述对象数据;
所述第二聚类模块,还用于根据所述标准方式数据得到所述聚类的特性,所述聚类的特性包括所述聚类的中心点的坐标和所述聚类的半径;
其中,所述聚类的中心点的坐标为所述聚类中所有的所述标准方式数据的各维度的平均值,所述聚类的半径为所述聚类中所有的所述标准方式数据与所述聚类的中心点的距离中的最大值,所述标准方式数据与所述聚类的中心点的距离为所述标准方式数据与所述中心点的坐标的差值的欧几里得范数;
所述第二聚类模块,还用于提取所述聚类中所有所述历史数据的所述用户数据、所述位置数据、所述原因数据和所述数值化的时间数据,分别进行去重聚合后得到各所述聚类的用户标签、位置标签、原因标签和时间标签;
其中,所述用户标签为所述聚类中的各历史数据中不同的用户数据的列表,所述原因标签为所述聚类中的各历史数据中不同的原因数据的列表,所述位置标签为所述聚类中的各历史数据中不同的位置数据的列表,所述时间标签为所述聚类中各历史数据中的所述数值化的时间数据的列表。
9.如权利要求8所述的数据处理装置,其特征在于,所述第一获取模块,还用于获取所述实时数据的实时位置数据、实时用户数据、实时时间数据、实时方式数据和实时原因数据,所述实时方式数据为至少具有一个维度的向量,且所述实时方式数据的维数与所述方式数据的维数相同;
所述第一聚类模块,还用于按照预设的所述规则,将实时方式数据映射至所述训练空间,得到实时标准方式数据,并将所述实时标准方式数据作为所述实时特性数据;
所述第一聚类模块,还用于将所述实时时间数据数值化得到数值化的实时时间数据,并将所述实时位置数据、所述实时用户数据、所述实时原因数据和所述数值化的实时时间数据作为所述实时标签数据。
10.如权利要求9所述的数据处理装置,其特征在于,所述第一聚类模块,还用于计算所述实时数据的实时标准方式数据与各所述聚类的中心点的距离,将与所述实时标准方式数据距离最近的中心点所属的聚类,确定为所述目标聚类;
其中,所述实时标准方式数据与所述聚类的中心点的距离为,所述实时标准方式数据与所述聚类的中心点的坐标的差的欧几里得范数;
所述比较模块,具体用于比较所述实时标准方式数据与所述目标聚类的中心点的距离是否不大于所述目标聚类的半径;
所述比较模块,还用于分别比较所述实时数据的所述实时位置数据、所述实时用户数据、所述实时原因数据和所述数值化的实时时间数据,是否属于所述目标聚类的所述位置标签,所述用户标签、所述原因标签和所述时间标签;
所述标记模块,还用于若所述实时数据的实时标准方式数据与所述目标聚类的中心点的距离大于所述聚类的半径,则将所述数据访问行为标记为聚类异常的数据访问行为;
所述标记模块,还用于若所述实时数据的实时用户数据不属于所述目标聚类的用户标签,则将所述数据访问行为标记为用户异常的数据访问行为;
所述标记模块,还用于若所述实时数据的实时位置数据不属于所述目标聚类的位置标签,则将所述数据访问行为标记位位置异常的数据访问行为;
所述标记模块,还用于若所述实时数据的实时原因数据不属于所述目标聚类的原因标签,则将所述数据访问行为标记为原因异常的数据访问行为;
所述标记模块,还用于若所述实时数据的数值化的实时时间数据不属于所述目标聚类的时间标签,则将所述数据访问行为标记为时间异常的数据访问行为。
CN201810441120.3A 2018-05-10 2018-05-10 异常的数据访问行为的识别方法及数据处理装置 Expired - Fee Related CN108614895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810441120.3A CN108614895B (zh) 2018-05-10 2018-05-10 异常的数据访问行为的识别方法及数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810441120.3A CN108614895B (zh) 2018-05-10 2018-05-10 异常的数据访问行为的识别方法及数据处理装置

Publications (2)

Publication Number Publication Date
CN108614895A true CN108614895A (zh) 2018-10-02
CN108614895B CN108614895B (zh) 2020-09-29

Family

ID=63662823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810441120.3A Expired - Fee Related CN108614895B (zh) 2018-05-10 2018-05-10 异常的数据访问行为的识别方法及数据处理装置

Country Status (1)

Country Link
CN (1) CN108614895B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509327A (zh) * 2018-10-31 2019-03-22 武汉烽火众智数字技术有限责任公司 一种异常行为预警方法及装置
CN110381151A (zh) * 2019-07-24 2019-10-25 秒针信息技术有限公司 一种异常设备检测方法及装置
CN112183621A (zh) * 2020-09-27 2021-01-05 国网宁夏电力有限公司电力科学研究院 电能质量监测数据驱动的变压器状态异常检测方法
CN117312617A (zh) * 2023-11-29 2023-12-29 山东优控智能技术有限公司 基于污水数据监测的实时污水处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161592A1 (en) * 2004-12-22 2006-07-20 Levent Ertoz Identification of anomalous data records
CN102622552A (zh) * 2012-04-12 2012-08-01 焦点科技股份有限公司 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统
CN106294529A (zh) * 2015-06-29 2017-01-04 阿里巴巴集团控股有限公司 一种识别用户异常操作方法和设备
CN106657410A (zh) * 2017-02-28 2017-05-10 国家电网公司 基于用户访问序列的异常行为检测方法
CN106778259A (zh) * 2016-12-28 2017-05-31 北京明朝万达科技股份有限公司 一种基于大数据机器学习的异常行为发现方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060161592A1 (en) * 2004-12-22 2006-07-20 Levent Ertoz Identification of anomalous data records
CN102622552A (zh) * 2012-04-12 2012-08-01 焦点科技股份有限公司 一种基于数据挖掘的b2b平台欺诈访问的检测方法和系统
CN106294529A (zh) * 2015-06-29 2017-01-04 阿里巴巴集团控股有限公司 一种识别用户异常操作方法和设备
CN106778259A (zh) * 2016-12-28 2017-05-31 北京明朝万达科技股份有限公司 一种基于大数据机器学习的异常行为发现方法及系统
CN106657410A (zh) * 2017-02-28 2017-05-10 国家电网公司 基于用户访问序列的异常行为检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509327A (zh) * 2018-10-31 2019-03-22 武汉烽火众智数字技术有限责任公司 一种异常行为预警方法及装置
CN109509327B (zh) * 2018-10-31 2020-11-24 武汉烽火众智数字技术有限责任公司 一种异常行为预警方法及装置
CN110381151A (zh) * 2019-07-24 2019-10-25 秒针信息技术有限公司 一种异常设备检测方法及装置
CN112183621A (zh) * 2020-09-27 2021-01-05 国网宁夏电力有限公司电力科学研究院 电能质量监测数据驱动的变压器状态异常检测方法
CN117312617A (zh) * 2023-11-29 2023-12-29 山东优控智能技术有限公司 基于污水数据监测的实时污水处理方法及系统
CN117312617B (zh) * 2023-11-29 2024-04-12 山东优控智能技术有限公司 基于污水数据监测的实时污水处理方法及系统

Also Published As

Publication number Publication date
CN108614895B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN108614895A (zh) 异常的数据访问行为的识别方法及数据处理装置
Han et al. Geometry-and appearance-based reasoning of construction progress monitoring
CN112446025A (zh) 联邦学习防御方法、装置、电子设备及存储介质
CN104899579A (zh) 人脸识别方法和装置
CN111949750A (zh) 一种船舶轨迹模型建立及异常轨迹检测方法
CN110705952A (zh) 一种合同审核方法及装置
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
CN108734414A (zh) 一种海洋环境监测数据标准化入库及评价分析系统
CN110909881B (zh) 一种面向跨媒体知识推理任务的知识表示方法
CN109387521A (zh) 图像处理系统
CN108171162A (zh) 人群拥挤度检测方法、装置及系统
CN110049121A (zh) 一种基于增强现实技术的数据中心巡检系统
CN109376584A (zh) 一种用于畜牧业的禽畜数量统计系统和方法
CN111914903A (zh) 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备
CN108446720A (zh) 异常数据检测方法和系统
CN112036166A (zh) 一种数据标注方法、装置、存储介质及计算机设备
CN109559347A (zh) 对象识别方法、装置、系统及存储介质
CN116596284B (zh) 基于客户需求的差旅决策管理方法及系统
CN112861809A (zh) 基于多目标视频分析的课堂抬头检测系统及其工作方法
CN112733935A (zh) 一种基于Stacking算法的渔船捕捞方式预测方法
CN113867410B (zh) 一种无人机航拍数据的采集模式识别方法和系统
CN114155578A (zh) 人像聚类方法、装置、电子设备和存储介质
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN110502953A (zh) 一种图像模型比对方法和装置
CN111882135B (zh) 一种物联网设备入侵检测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200929

Termination date: 20210510