CN115034286A - 一种基于自适应损失函数的异常用户识别方法和装置 - Google Patents
一种基于自适应损失函数的异常用户识别方法和装置 Download PDFInfo
- Publication number
- CN115034286A CN115034286A CN202210435266.3A CN202210435266A CN115034286A CN 115034286 A CN115034286 A CN 115034286A CN 202210435266 A CN202210435266 A CN 202210435266A CN 115034286 A CN115034286 A CN 115034286A
- Authority
- CN
- China
- Prior art keywords
- loss function
- self
- data sample
- encoder model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003044 adaptive effect Effects 0.000 title claims description 33
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000002547 anomalous effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 72
- 230000006399 behavior Effects 0.000 description 18
- 238000010276 construction Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于自适应损失函数的异常用户识别方法和装置,其中,该方法包括:获取web系统的用户行为日志数据样本,并将用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;进行数据预处理得到训练数据集;基于训练数据集的输入特征训练第一自编码器模型,并基于第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;迭代优化第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;基于第二自编码器模型,对无标签数据样本进行异常点检测,以识别异常用户。本发明解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
Description
技术领域
本发明涉及数据挖掘和异常检测技术领域,尤其涉及一种基于自适应损失函数的异常用户识别方法和装置。
背景技术
随着互联网技术的发展和普及,互联网服务提供商每日面临大量的用户,其中存在大量的正常用户,也不乏有一些试图谋取不正当利益的恶意用户,该类用户的发现和识别是企业急需面对的一项重大安全问题。一般来说,该问题中将用户抽象为高维空间中的一个点,用户的属性、行为等抽象为点的值,识别异常用户则作为异常点检测问题。
异常点检测是指从已有的众多数据中检测出明显区别于大部分数据的点,又称为离群点检测或新颖点检测。根据训练数据是否有标签,已有的异常点检测方法可以分为监督学习、无监督学习和半监督学习。监督学习方法一般要求训练数据中标识有正常点和异常点,从而根据标签进行模型训练。无监督学习方法则不要求训练数据有标签,仅需要有无大量无标签数据即可开始模型训练。半监督学习介于监督学习和无监督学习之间,即有大量的无标签数据和少量的有标签数据,其目的是利用无标签数据辅助有标签数据进行模型训练。异常点检测方法目前已经广泛应用于欺诈检测、入侵检测、故障诊断、数据去噪等问题中。
实际应用中,无论是对正常用户,还是异常用户,打标签往往是一个费时费力的工作。因此实际工作中无监督学习方法应用的更多,但是往往由于缺乏标注数据,性能偏差;且随着应用的开展往往可以获取少量的标注数据。因此本发明研究半监督学习场景下的异常用户识别问题。已有的半监督异常点检测方法往往难以处理高维输入的情况,且采用固定的损失函数,如均方差损失函数,难以适用无标签数据中存在异常点的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于面向企业识别异常用户的实际需求,解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题,而提出一种基于自适应损失函数的异常用户识别方法。
本发明的另一个目的在于提出一种基于自适应损失函数的异常用户识别装置。
为达上述目的,本发明一方面提出了一种基于自适应损失函数的异常用户识别方法,包括:
获取web系统的用户行为日志数据样本,并将所述用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;对所述无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集;基于所述训练数据集的输入特征训练第一自编码器模型,并基于所述第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;基于所述无标签数据样本损失函数和有标签数据样本损失函数,迭代优化所述第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;基于所述第二自编码器模型,对所述无标签数据样本进行异常点检测,以识别异常用户。
本发明实施例的基于自适应损失函数的异常用户识别方法,能够解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
另外,根据本发明上述实施例的基于自适应损失函数的异常用户识别方法还可以具有以下附加的技术特征:
进一步地,所述将所述用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本,包括:收集待分析的用户在各个场景的用户行为日志数据样本;根据预设条件分析所述用户行为日志数据样本,并预设各类所述用户行为日志数据样本的统计方式;对于所述待分析的用户,根据所述统计方式计算并得到用户的向量化表示,为所述无标签数据样本,根据业务特点标注预设数量的用户为异常用户,得到所述有标签数据样本。
进一步地,所述对所述无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集,包括:对有标签数据样本和无标签数据样本中存在的缺失数据,使用均值法或众数法进行填充;对所述训练数据集的类别型输入特征进行独热编码;以及,对所述训练数据集的数值型输入特征进行归一化操作。
进一步地,所述基于所述训练数据集的输入特征训练第一自编码器模型,包括:根据预处理后的所述训练数据集的输入特征的数量确定自编码器模型的深度神经网络结构;其中,所述深度神经网络结构包括:编码器和解码器的网络层数、各层神经元个数和神经网络激活函数;以自适应损失函数定义所述自编码器模型训练的损失函数;基于所述自编码器模型训练的损失函数,采用梯度下降法求解自编码器模型参数以及自适应调节参数,得到编码器结果;根据所述编码器结果,通过所述解码器计算压缩后的训练数据集的输入特征,同时计算中心向量。
进一步地,所述以自适应损失函数定义所述自编码器模型训练的损失函数,包括:
其中,d表示输入特征与经过自编码器模型计算后的输出特征之间欧氏距离,α为训练过程中自适应调节参数,β为预先定义的缩放参数。
进一步地,根据所述自编码器模型参数以及自适应调节参数,构造所述无标签数据样本损失函数,包括:
其中,di=‖φ(xi)-c‖2,φ(xi)为对无标签数据样本xi进行编码以后的向量,n为无标签数据样本个数,m为有标签数据样本个数。
进一步地,基于所述有标签数据样本,构造有标签数据样本损失函数,包括:
其中,yi表示第i个有标签数据样本的标签,1表示异常点,0表示正常点。
进一步地,基于所述无标签数据样本损失函数和所述有标签数据样本损失函数,构造异常用户检测优化问题函数,包括:
其中,η和λ为加权系数,H表示自编码器模型层数,Wh为自编码器模型第h层的参数。
进一步地,利用所述第二编码器模型对所述无标签数据样本进行压缩编码φ(x),并计算压缩后的编码φ(x)与中心向量c的距离‖φ(xi)-c‖2,若距离大于阈值δ的编码,则判定为异常点,所述异常点的用户为异常用户。
为达到上述目的,本发明另一方面提出了一种基于自适应损失函数的异常用户识别装置,包括:
样本获取模块,用于获取web系统的用户行为日志数据样本,并将所述用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;数据处理模块,用于对所述无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集;损失函数构造模块,用于基于所述训练数据集的输入特征训练第一自编码器模型,并基于所述第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;模型构建模块,用于基于所述无标签数据样本损失函数和有标签数据样本损失函数,迭代优化所述第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;异常识别模块,用于基于所述第二自编码器模型,对所述无标签数据样本进行异常点检测,以识别异常用户。
本发明实施例的基于自适应损失函数的大数据异常用户检测装置,能够解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于自适应损失函数的异常用户识别方法流程图;
图2为根据本发明实施例的基于自适应损失函数的异常用户识别方法的架构示意图;
图3为根据本发明实施例的基于自适应损失函数的异常用户识别装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度小于第二特征。
下面参照附图描述根据本发明实施例提出的基于自适应损失函数的异常用户识别方法及装置。
本发明的流程架构包括用户向量化、对标签数据和无标签数据进行数据预处理、基于有标签和无标签数据的输入特征自编码器预训练、构造包含自适应损失函数的异常点检测优化问题并求解、对无标签数据或新数据进行异常点检测,整理流程架构如图2所示。
图1是本发明一个实施例的基于自适应损失函数的异常用户识别方法的流程图。
如图1所示,该方法包括但不限于以下步骤:
步骤S1,获取web系统的用户行为日志数据样本,并将用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本。
在本实施例中,获取web系统中多个业务场景类别下的用户行为日志数据,用户行为日志数据包括:每个业务场景类别对应的初始单维行为特征数据,用户标识信息及用户系统操作时间信息。其中,用户标识信息为标识用户唯一性的字段,如账号ID(ACCT_ID)、IP地址(IP_ADDR)等;用户系统操作时间信息为时间(OPR_TIME),但不限于以上字段。
进一步地,将用户向量化:首先确定待分析的用户并收集汇总用户的操作行为日志数据;然后根据业务需要确定用户向量化表示所需要计算的特征维度,如根据日志计算用户的各种行为、操作频率等,定义特征的统计方法;对所有待分析用户,根据所定义的统计方法计算并得到用户的向量化表示,即为无标签数据样本;最后,根据业务特点标注少量用户为异常用户,得到有标签数据样本。
步骤S2,对无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集。
在本实施例中,首先填充数据中的缺失数据,针对数值型数据,使用均值进行填充;针对类别型数据,使用众数进行填充。然后对所有类别型输入进行独热编码,即对一个包含N个类别的特征,使用N个新特征进行编码,这些特征互斥,取不同类别的时候仅有一个新特征为1,其他均为0。当都由他独立的寄存器位,并且在任意时候,其中只有一位有效。例如某个特征有好,中,差三个类别,独热编码后的三个新增特征分别是100,010,001。最后对所有输入特征进行归一化操作,具体可采用z-score标准化方法:
其中,x为归一化以前的数值,μ为均值,σ为标准差。
步骤S3,基于训练数据集的输入特征训练第一自编码器模型,并基于第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数。
在本实施例中,首先根据预处理后的输入特征数量确定第一自编码器模型网络结构,主要是设计编码器/解码器的网络层数,各网络层的神经元个数和神经网络激活函数等;随后使用自适应损失函数定义自编码器的损失函数,自适应损失函数的定义为:
其中,d表示输入特征与经过自编码器计算后的输出特征之间欧氏距离,α为训练过程中自适应调节的参数;β为预先定义的缩放参数。
然后采用随机梯度下降法迭代求解自编码器中编码器和解码器的参数以及自适应调节参数α,可采用批训练方式;最后根据预训练所得的编码器参数结合网络结构计算有标签数据和无标签数据经过压缩编码后的输入特征,同时计算中心向量c,可以计算所有数据的均值,也可以仅计算标签数据中标签为正常点的输入特征均值。
步骤S4,基于无标签数据样本损失函数和有标签数据样本损失函数,迭代优化第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型。
在本实施例中,首先针对无标签数据样本,根据上述预训练获得的编码器参数及自适应调节参数,构造如下无标签数据样本损失函数:
其中,di=‖φ(xi)-c‖2,φ(xi)为对无标签数据样本xi进行编码以后的向量,n为无标签数据样本个数,m为有标签数据样本个数;然后针对有标签数据样本,同样基于预训练获得的编码器参数构造如下有标签数据样本损失函数:
其中,yi表示第i个标签数据样本的标签,1表示异常点,0表示正常点。根据无标签数据样本损失函数和有标签数据样本损失函数,构造如下异常点检测优化问题:
其中,η和λ为加权系数,H表示自编码器模型层数,Wh为自编码器模型第h层的参数。
最后采用梯度下降法迭代求解上述异常点监测优化问题,得到编码器参数Wh(h=1,2,...,H和自适应调节参数α。从而在第一自编码器模型的基础上迭代优化,得到第二自编码器模型。
步骤S5,基于第二自编码器模型,对无标签数据样本进行异常点检测,以识别异常用户。
在本实施例中,基于已经训练得到的自编码器模型,对一个待确认是否为异常点的数据,首先基于上述数据预处理方法对输入特征进行处里,然后基于上述得到的编码器对输入特征进行压缩编码φ(x),随后计算其与中心向量c的欧式距离||φ(xi)-c||2,距离大于阈值δ的判定为异常点。实际中可以对一批待监测数据计算与中心相连的欧氏距离,根据所得结果进行降序排列,从距离远的数据开始逐一确定是否为异常点,该异常点的用户为异常用户。
根据本发明实施例的基于自适应损失函数的异常用户识别方法,能够解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
为了实现上述实施例,如图3所示,本实施例中还提供了基于自适应损失函数的异常用户识别装置10,该装置10包括:样本获取模块100、数据处理模块200、损失函数构造模块300、模型构建模块400和异常识别模块500:
样本获取模块100,用于获取web系统的用户行为日志数据样本,并将用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;
数据处理模块200,用于对无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集;
损失函数构造模块300,用于基于训练数据集的输入特征训练第一自编码器模型,并基于第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;
模型构建模块400,用于基于无标签数据样本损失函数和有标签数据样本损失函数,迭代优化第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;
异常识别模块500,用于基于第二自编码器模型,对无标签数据样本进行异常点检测,以识别异常用户。
根据本发明实施例提出的基于自适应损失函数的异常用户识别装置,能够解决实际业务场景中,无标签数据中存在异常点,采用固定损失函数难以提高准确率,误报率高的技术问题。
需要说明的是,前述对基于自适应损失函数的异常用户识别方法实施例的解释说明也适用于该实施例的基于自适应损失函数的异常用户识别装置,此处不再赘述。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于自适应损失函数的异常用户识别方法,其特征在于,包括以下步骤:
获取web系统的用户行为日志数据样本,并将所述用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;
对所述无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集;
基于所述训练数据集的输入特征训练第一自编码器模型,并基于所述第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;
基于所述无标签数据样本损失函数和有标签数据样本损失函数,迭代优化所述第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;
基于所述第二自编码器模型,对所述无标签数据样本进行异常点检测,以识别异常用户。
2.根据权利要求1所述的方法,其特征在于,所述将所述用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本,包括:
收集待分析的用户在各个场景的用户行为日志数据样本;
根据预设条件分析所述用户行为日志数据样本,并预设各类所述用户行为日志数据样本的统计方式;
对于所述待分析的用户,根据所述统计方式计算并得到用户的向量化表示,为所述无标签数据样本,根据业务特点标注预设数量的用户为异常用户,得到所述有标签数据样本。
3.根据权利要求1所述的方法,其特征在于,所述对所述无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集,包括:
对有标签数据样本和无标签数据样本中存在的缺失数据,使用均值法或众数法进行填充;
对所述训练数据集的类别型输入特征进行独热编码;
对所述训练数据集的数值型输入特征进行归一化操作。
4.根据权利要求1所述的方法,其特征在于,所述基于所述训练数据集的输入特征训练第一自编码器模型,包括:
根据预处理后的所述训练数据集的输入特征的数量确定自编码器模型的深度神经网络结构;其中,所述深度神经网络结构包括:编码器和解码器的网络层数、各层神经元个数和神经网络激活函数;
以自适应损失函数定义所述自编码器模型训练的损失函数;
基于所述自编码器模型训练的损失函数,采用梯度下降法求解自编码器模型参数以及自适应调节参数,得到编码器结果;
根据所述编码器结果,通过所述解码器计算压缩后的训练数据集的输入特征,同时计算中心向量。
9.根据权利要求8所述的方法,其特征在于,利用所述第二编码器模型对所述无标签数据样本进行压缩编码φ(x),并计算压缩后的编码φ(x)与中心向量c的距离‖φ(xi)-c‖2,若距离大于阈值δ的编码,则判定为异常点,所述异常点表示的用户为异常用户。
10.一种基于自适应损失函数的异常用户识别装置,其特征在于,包括:
样本获取模块,用于获取web系统的用户行为日志数据样本,并将所述用户行为日志数据样本向量化,得到无标签数据样本和有标签数据样本;
数据处理模块,用于对所述无标签数据样本和有标签数据样本进行数据预处理,得到训练数据集;
损失函数构造模块,用于基于所述训练数据集的输入特征训练第一自编码器模型,并基于所述第一自编码器模型构造无标签数据样本损失函数和有标签数据样本损失函数;
模型构建模块,用于基于所述无标签数据样本损失函数和有标签数据样本损失函数,迭代优化所述第一自编码器模型并构造异常用户检测优化问题函数,得到第二自编码器模型;
异常识别模块,用于基于所述第二自编码器模型,对所述无标签数据样本进行异常点检测,以识别异常用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210435266.3A CN115034286B (zh) | 2022-04-24 | 2022-04-24 | 一种基于自适应损失函数的异常用户识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210435266.3A CN115034286B (zh) | 2022-04-24 | 2022-04-24 | 一种基于自适应损失函数的异常用户识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034286A true CN115034286A (zh) | 2022-09-09 |
CN115034286B CN115034286B (zh) | 2024-07-02 |
Family
ID=83118929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210435266.3A Active CN115034286B (zh) | 2022-04-24 | 2022-04-24 | 一种基于自适应损失函数的异常用户识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034286B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564577A (zh) * | 2022-12-02 | 2023-01-03 | 成都新希望金融信息有限公司 | 一种异常用户识别方法、装置、电子设备及存储介质 |
CN117909912A (zh) * | 2024-03-19 | 2024-04-19 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种两阶段异常用户行为分析的检测方法及系统 |
WO2024087331A1 (zh) * | 2022-10-24 | 2024-05-02 | 深圳先进技术研究院 | 一种基于三元组对比网络的机器人抓取预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209168A (zh) * | 2020-01-14 | 2020-05-29 | 中国人民解放军陆军炮兵防空兵学院郑州校区 | 一种基于nLSTM-self attention的日志序列异常检测框架 |
CN111585997A (zh) * | 2020-04-27 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 一种基于少量标注数据的网络流量异常检测方法 |
CN112270334A (zh) * | 2020-08-07 | 2021-01-26 | 武汉理工大学 | 一种基于异常点暴露的少样本图像分类方法及系统 |
WO2021189904A1 (zh) * | 2020-10-09 | 2021-09-30 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
US20210341195A1 (en) * | 2020-04-30 | 2021-11-04 | Dei Energy Solution Technology Co., Ltd. | Monitoring method of cooling system and monitoring device thereof |
-
2022
- 2022-04-24 CN CN202210435266.3A patent/CN115034286B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209168A (zh) * | 2020-01-14 | 2020-05-29 | 中国人民解放军陆军炮兵防空兵学院郑州校区 | 一种基于nLSTM-self attention的日志序列异常检测框架 |
CN111585997A (zh) * | 2020-04-27 | 2020-08-25 | 国家计算机网络与信息安全管理中心 | 一种基于少量标注数据的网络流量异常检测方法 |
US20210341195A1 (en) * | 2020-04-30 | 2021-11-04 | Dei Energy Solution Technology Co., Ltd. | Monitoring method of cooling system and monitoring device thereof |
CN112270334A (zh) * | 2020-08-07 | 2021-01-26 | 武汉理工大学 | 一种基于异常点暴露的少样本图像分类方法及系统 |
WO2021189904A1 (zh) * | 2020-10-09 | 2021-09-30 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
JONATHAN T. BARRON: "A General and Adaptive Robust Loss Function", ARXIV, 30 April 2019 (2019-04-30) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024087331A1 (zh) * | 2022-10-24 | 2024-05-02 | 深圳先进技术研究院 | 一种基于三元组对比网络的机器人抓取预测方法 |
CN115564577A (zh) * | 2022-12-02 | 2023-01-03 | 成都新希望金融信息有限公司 | 一种异常用户识别方法、装置、电子设备及存储介质 |
CN117909912A (zh) * | 2024-03-19 | 2024-04-19 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种两阶段异常用户行为分析的检测方法及系统 |
CN117909912B (zh) * | 2024-03-19 | 2024-07-02 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种两阶段异常用户行为分析的检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115034286B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115034286A (zh) | 一种基于自适应损失函数的异常用户识别方法和装置 | |
US11087227B2 (en) | Anomaly detection in spatial and temporal memory system | |
US7533070B2 (en) | Automatic fault classification for model-based process monitoring | |
CN113344295B (zh) | 基于工业大数据的设备剩余寿命预测方法、系统及介质 | |
CN115606162A (zh) | 异常流量检测方法和系统、及计算机存储介质 | |
CN113242207B (zh) | 一种迭代聚类的网络流量异常检测方法 | |
CN111881722B (zh) | 一种跨年龄人脸识别方法、系统、装置及存储介质 | |
CN112085281B (zh) | 检测业务预测模型安全性的方法及装置 | |
CN113723861A (zh) | 异常用电行为检测方法、装置、计算机设备和存储介质 | |
CN113610156A (zh) | 用于大数据分析的人工智能模型机器学习方法及服务器 | |
CN113469247B (zh) | 网络资产异常检测方法 | |
CN116881027A (zh) | 原子服务组合通信方法、装置、电子设备和介质 | |
Munger et al. | The use of domain knowledge models for effective data mining of unstructured customer service data in engineering applications | |
CN116126807A (zh) | 一种日志分析方法及相关装置 | |
CN111049839A (zh) | 一种异常检测方法、装置、存储介质及电子设备 | |
CN113535458B (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN115619539A (zh) | 贷前风险评价方法以及装置 | |
CN111935279B (zh) | 基于区块链和大数据的物联网络维护方法及计算节点 | |
CN117194049B (zh) | 一种基于机器学习算法的云主机智能行为分析方法及系统 | |
CN117056209B (zh) | 软件缺陷预测模型、解释方法以及量化评估方法 | |
CN116756250B (zh) | 故障相关数据的处理方法、装置、计算机设备及存储介质 | |
CN112907306B (zh) | 一种客户满意度判别方法及装置 | |
CN115577348A (zh) | 用户异常操作行为识别方法及装置 | |
CN117934184A (zh) | 一种异常纳税人识别方法、装置、设备及存储介质 | |
CN117675379A (zh) | 协议逆向分析与预警方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |