CN109933502B - 电子装置、用户操作记录的处理方法和存储介质 - Google Patents
电子装置、用户操作记录的处理方法和存储介质 Download PDFInfo
- Publication number
- CN109933502B CN109933502B CN201910064224.1A CN201910064224A CN109933502B CN 109933502 B CN109933502 B CN 109933502B CN 201910064224 A CN201910064224 A CN 201910064224A CN 109933502 B CN109933502 B CN 109933502B
- Authority
- CN
- China
- Prior art keywords
- sequence
- operation record
- data
- time interval
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种电子装置、用户操作记录的处理方法和计算机可读存储介质。本发明获取各个用户对应的操作记录序列;计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,确定操作时间间隔对应的累计分布数据;分别将各个操作记录序列分割成若干个操作记录数据组;从各个操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列;将各个操作内容序列转换成对应的特征向量;对若干个特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。相较于现有技术,本发明提高了用户异常行为识别的灵敏度。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种电子装置、用户操作记录的处理方法和计算机可读存储介质。
背景技术
随着信息化的推进和互联网的发展,计算机系统已经成为企业乃至国家的重要基础设施。与此同时,信息和网络安全也面临着新的挑战,用户异常行为成为系统安全面临的一大威胁,所谓异常行为是指与正常行为相对应的行为,例如利用自身权限过量访问或下载客户信息,或以非常规的次序进行操作等操作行为。
目前对用户异常行为的识别方法通常是:获取用户操作日志,在用户操作日志中提取用户在各预设时间区间内对各网页的点击次数,当识别到某用户在一预设时间区间内对某一网页的点击次数明显高于其他用户时,将该用户的行为认定为异常行为。该方法的缺陷在于,仅能识别高频操作的异样行为,识别灵敏度较低。
发明内容
本发明的主要目的是提供一种电子装置、用户操作记录的处理方法和计算机可读存储介质,旨在解决现有用户异常行为的识别方法仅能识别高频操作的异样行为,识别灵敏度较低的问题。
为实现上述目的,本发明提出电子装置,所述电子装置包括存储器和处理器,所述存储器上存储有用户操作记录的处理程序,所述用户操作记录的处理程序被所述处理器执行时实现如下步骤:
获取步骤:获取各个预设时间区间内各个用户对应的操作记录序列,各个所述操作记录序列中包括若干条按照操作时间顺序排列的操作记录数据,所述操作记录数据包括操作内容数据及操作时间数据;
第一确定步骤:根据各个所述用户操作记录数据中的操作时间信息,计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据;
第一分割步骤:根据所述累计分布数据及预先确定的分割规则,分别将各个所述操作记录序列分割成若干个操作记录数据组;
提取步骤:分别从各个所述操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列,所述操作内容序列中的操作内容数据按照操作时间顺序排列;
转换步骤:分别将各个所述操作内容序列转换成对应的特征向量;
结果分析步骤:按照预先确定的分析规则,对转换得到的特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。
优选地,所述第一分割步骤包括:
第二确定步骤:根据所述累计分布数据,确定预设累计分布概率对应的操作时间间隔,将该操作时间间隔作为时间间隔阈值;
第二分割步骤:判断各个所述操作记录序列中是否存在数值大于或等于所述时间间隔阈值的操作时间间隔,当一操作记录序列中存在数值大于或等于所述时间间隔阈值的一操作时间间隔时,将该操作时间间隔对应的两个相邻的所述操作记录数据进行分割,以将所述操作记录序列分割成若干个操作记录数据组,当一操作记录序列中不存在数值大于或等于所述最优时间阈值的操作时间间隔时,将所述操作记录序列作为一个操作记录数据组。
优选地,所述转换步骤包括:
根据如下公式分别将各所述操作内容序列转换成对应的特征向量:
tfidfi,j=tfi,j×idfi
其中,ni,j代表操作内容数据ti在其操作内容序列dj中出现的次数,∑knk,j代表操作内容序列dj中操作内容数据的总个数,N代表所有操作内容序列的操作内容数据的数量总和,|j:ti∈dj|代表包含操作内容数据ti的操作内容序列的数量,tfidfi,j代表操作内容序列dj对应的特征向量中第i维的数值,i∈[1,N1],j∈[1,N2],N1代表特征向量的维数,N2代表操作内容序列的总数量,i、j、N1、N2为正整数。
优选地,所述处理器执行所述用户操作记录的处理程序,在所述结果分析步骤之前,还实现如下步骤:
聚类步骤:在预先确定的所述聚类类别数量集合中逐一选择聚类类别数量作为当前聚类类别数量,在选择一所述当前聚类类别数量后,将转换得到的所有所述特征向量输入至预先建立的聚类分析模型中,所述聚类分析模型对所述多个特征向量进行聚类分析,并输出所述当前类别数量个特征向量组作为所述当前聚类类别数量对应的聚类分析结果;
判断步骤:判断所述聚类类别数量集合中是否存在未被选择过的聚类类别数量,当存在时,转入继续执行所述聚类步骤,或者,当不存在时,转入执行所述结果分析步骤。
优选地,所述结果分析步骤包括:
计算每一个所述聚类分析结果中各个所述特征向量组的特征向量数量与该聚类分析结果中所有特征向量的总数量之间的比值;
判断所述比值是否小于或等于预设阈值,若是,则判定所述特征向量组满足所述预设异常行为条件,若否,则判定所述特征向量组不满足所述预设异常行为条件;
将满足预设异常行为条件的特征向量组标记为所述异常向量组。
此外,为实现上述目的,本发明还提出一种用户操作记录的处理方法,该方法包括步骤:
获取步骤:获取各个预设时间区间内各个用户对应的操作记录序列,各个所述操作记录序列中包括若干条按照操作时间顺序排列的操作记录数据,所述操作记录数据包括操作内容数据及操作时间数据;
第一确定步骤:根据各个所述用户操作记录数据中的操作时间信息,计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据;
第一分割步骤:根据所述累计分布数据及预先确定的分割规则,分别将各个所述操作记录序列分割成若干个操作记录数据组;
提取步骤:分别从各个所述操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列,所述操作内容序列中的操作内容数据按照操作时间顺序排列;
转换步骤:分别将各个所述操作内容序列转换成对应的特征向量;
结果分析步骤:按照预先确定的分析规则,对转换得到的特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。
优选地,所述第一分割步骤包括:
第二确定步骤:根据所述累计分布数据,确定预设累计分布概率对应的操作时间间隔,将该操作时间间隔作为时间间隔阈值;
第二分割步骤:判断各个所述操作记录序列中是否存在数值大于或等于所述时间间隔阈值的操作时间间隔,当一操作记录序列中存在数值大于或等于所述时间间隔阈值的一操作时间间隔时,将该操作时间间隔对应的两个相邻的所述操作记录数据进行分割,以将所述操作记录序列分割成若干个操作记录数据组,当一操作记录序列中不存在数值大于或等于所述最优时间阈值的操作时间间隔时,将所述操作记录序列作为一个操作记录数据组。
优选地,所述转换步骤包括:
根据如下公式分别将各所述操作内容序列转换成对应的特征向量:
tfidfi,j=tfi,j×idfi
其中,ni,j代表操作内容数据ti在其操作内容序列dj中出现的次数,∑knk,j代表操作内容序列dj中操作内容数据的总个数,N代表所有操作内容序列的操作内容数据的数量总和,|j:ti∈dj|代表包含操作内容数据ti的操作内容序列的数量,tfidfi,j代表操作内容序列dj对应的特征向量中第i维的数值,i∈[1,N1],j∈[1,N2],N1代表特征向量的维数,N2代表操作内容序列的总数量,i、j、N1、N2为正整数。
优选地,在所述结果分布步骤之前,该方法还包括:
聚类步骤:在预先确定的所述聚类类别数量集合中逐一选择聚类类别数量作为当前聚类类别数量,在选择一所述当前聚类类别数量后,将转换得到的所有所述特征向量输入至预先建立的聚类分析模型中,所述聚类分析模型对所述多个特征向量进行聚类分析,并输出所述当前类别数量个特征向量组作为所述当前聚类类别数量对应的聚类分析结果;
判断步骤:判断所述聚类类别数量集合中是否存在未被选择过的聚类类别数量,当存在时,转入继续执行所述聚类步骤,或者,当不存在时,转入执行所述结果分析步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有用户操作记录的处理程序,所述用户操作记录的处理程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述任一项所述的用户操作记录的处理方法的步骤。
本发明获取各个用户对应的操作记录序列;计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据;分别将各个所述操作记录序列分割成若干个操作记录数据组;从各个操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列;将各个操作内容序列转换成对应的特征向量;对若干个特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。相较于现有技术,本发明通过操作记录序列进行分割,分割得到的操作记录数据组即为一个操作事件对应的操作记录数据,各个操作事件对应的操作记录数据经特征提取后再转换成各个操作事件对应的特征向量,通过分析可查找出异常向量。由于同一操作事件中的多个操作之间具有一定的关联性,不同用户在进行同一操作事件时,其执行的操作大致相同,因此,当一特征向量与其他特征向量均存在较大差异时,认为其对应的用户行为是异常操作行为的概率较大,通过分析可将其查找出来,并标记为异常向量。可见,本发明提高了用户异常行为识别的灵敏度更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明用户操作记录的处理程序第一、第二实施例的运行环境示意图;
图2为本发明用户操作记录的处理程序第一实施例的程序模块图;
图3为用户操作记录序列的分割示意图;
图4为本发明用户操作记录的处理程序第二实施例的程序模块图;
图5为本发明用户操作记录的处理方法第一实施例的流程示意图;
图6为本发明用户操作记录的处理方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提出一种用户操作记录的处理程序。
请参阅图1,是本发明用户操作记录的处理程序10第一、第二实施例的运行环境示意图。
在本实施例中,用户操作记录的处理程序10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据,例如用户操作记录的处理程序10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行用户操作记录的处理程序10等。
显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。电子装置1的部件11-13通过程序总线相互通信。
请参阅图2,是本发明用户操作记录的处理程序10第一实施例的程序模块图。在本实施例中,用户操作记录的处理程序10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图2中,用户操作记录的处理程序10可以被分割成获取模块101、确定模块102、分割模块103、提取模块104、转换模块105及结果分析模块106。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述用户操作记录的处理程序10在电子装置1中的执行过程,其中:
获取模块101,用于获取各个预设时间区间内各个用户对应的操作记录序列,各个所述操作记录序列中包括若干条按照操作时间顺序排列的操作记录数据,所述操作记录数据包括操作内容数据及操作时间数据。
具体地,获取模块101获取系统日志,该系统日志存储于系统服务器的存储器中,该系统服务器的存储器可以是系统服务器内部的存储器,也可以是系统服务器外部存储器。系统日志包括多个文本,首先需对该多个文本进行文本合并,然后在合并的文本中提取预设时间区间内各个用户的操作记录数据,该操作记录数据中可包括操作内容数据,例如,点击网页的网页标识URL(Uniform Resource Locator,统一资源定位符)等,还可包括操作时间数据(例如,操作时间戳)及用户标识数据(例如,用户名、员工号、设备号等)。根据所述操作记录数据中的操作时间数据,将各个用户对应的若干条操作记录数据按照操作时间顺序排列,以生成各个用户对应的操作记录序列。
用户在进行操作时,一个操作事件通常对应多个操作,例如,一个修改密码的操作事件可能对应多个操作,分别为:点击密码修改主页面、点击邮箱输入页面、点击新密码设置页面。操作记录数据可记录操作内容操作时间及用户标识数据,但通过操作记录数据无法区分哪些操作记录数据同属于一个操作事件,因此,需通过调用确定模块102及分割模块103将各个所述操作记录序列分割成若干个操作记录数据组,分割得到的各个操作记录数据组则认为是一个操作事件对应的操作记录数据组。
确定模块102,用于根据各个所述用户操作记录数据中的操作时间信息,计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据。
优选地,本实施例中,上述确定模块102具体用于:
首先,将计算得到的各个操作时间间隔作为样本数据,并划分多个样本区间。
然后,确定各样本数据所属的样本区间,并统计各样本区间对应的样本数据的数量,根据如下公式计算各样本区间对应的分布概率值:
其中,Fk代表样本区间k对应的分布概率值,nk代表样本区间k对应的样本数据的数量,N代表所有样本数据的总数量,k∈[1,M],M代表样本区间的总数量,k、M为正整数。
上述确定各样本数据所述的样本区间的步骤包括:若一样本数据的数值落入一样本区间中,则将该样本数据作为该样本区间对应的样本数据,将数值落入一样本区间的样本数据作为该样本区间。
最后,根据各样本区间对应的分布概率值,计算各样本区间的累计分布概率值作为所述操作时间间隔对应的累计分布数据(例如累计分布表)。
具体地,通过如下公式计算各样本区间对应的累计分布值:
其中,CDFi代表样本区间i对应的累计分布概率值,Fk代表样本区间k对应的分布概率值,k∈[1,i],i∈[1,M],M代表样本区间的总数量,i、k、M为正整数。
分割模块103,用于根据所述累计分布数据及预先确定的分割规则,分别将各个所述操作记录序列分割成若干个操作记录数据组。
优选地,本实施例中,所述分割模块103具体用于:
首先,根据所述累计分布数据,确定预设累计分布概率对应的操作时间间隔,将该操作时间间隔作为时间间隔阈值。
具体地,若该累计分布数据为累计分布表,则该累计分布表中包括各样本区间对应的累计分布概率值,在该累计分布表中查询预设累计分布概率对应样本区间,若在该累计分布表中未查询到该预设累计分布概率,则在累计分布表中取与预设累计分布概率最接近的累计分布概率对应的样本区间,若查询到,则直接取该预设累计分布概率对应的样本区间即可,确定预设累计分布概率对应的样本区间之后,可取样本区间中数值较大的端点作为时间间隔阈值,也可以取样本区间中数值较小的端点作为时间间隔阈值,还可以取样本区间两端点的平均值作为时间间隔阈值,本发明对此不作限定。
然后,判断各个所述操作记录序列中是否存在数值大于或等于所述时间间隔阈值的操作时间间隔,当一操作记录序列中存在数值大于或等于所述时间间隔阈值的一操作时间间隔时,将该操作时间间隔对应的两个相邻的所述操作记录数据进行分割,以将所述操作记录序列分割成若干个操作记录数据组,当一操作记录序列中不存在数值大于或等于所述最优时间阈值的操作时间间隔时,将所述操作记录序列作为一个操作记录数据组。
具体地,请参照图3,图3中各点代表操作记录数据,这些操作记录数据按照时间先后顺序组成一个操作记录序列,将操作记录序列中相邻的两个操作记录数据作为一个操作记录数据对,并计算各个操作记录数据对中两操作记录数据之间的操作时间间隔作为该操作记录数据对的操作时间间隔,若该操作记录序列中存在两个操作记录数据对的操作时间间隔大于或者等于时间间隔阈值,分别为004号操作记录数据及005号操作记录数据组成的操作记录数据对,以及007号操作记录数据及008号操作记录数据组成的操作记录数据对,则在004号操作记录数据与005号操作记录数据之间设置分割点A,且在007号操作记录数据与007号操作记录数据之间设置分割点B,根据分割点A及分割点B可将操作记录序列分割成三个操作记录数据组,分别为001号至004号操作记录数据组成的操作记录数据组、005号至007号操作记录数据组成的操作记录数据组、008号至012号操作记录数据组成的操作记录数据组。
提取模块104,用于分别从各个所述操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列,所述操作内容序列中的操作内容数据按照操作时间顺序排列。
转换模块105,用于分别将各个所述操作内容序列转换成对应的特征向量。
优选地,本实施例中,所述转换模块105具体用于:
根据如下公式分别将各所述操作内容序列转换成对应的特征向量:
tfidfi,j=tfi,j×idfi
其中,ni,j代表操作内容数据ti在其操作内容序列dj中出现的次数,∑knk,j代表操作内容序列dj中操作内容数据的总个数,N代表所有操作内容序列的操作内容数据的数量总和,|j:ti∈dj|代表包含操作内容数据ti的操作内容序列的数量,tfidfi,j代表操作内容序列dj对应的特征向量中第i维的数值,i∈[1,N1],j∈[1,N2],N1代表特征向量的维数,N2代表操作内容序列的总数量,i、j、N1、N2为正整数。
结果分析模块106,用于按照预先确定的分析规则,对转换得到的特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。
具体地,首先根据如下公式计算所有特征向量中第i维数值的平均值:
其中,代表所有特征向量中第i维数值的平均值,tfidfi,j代表特征向量j中第i维的数值,i∈[1,N1],j∈[1,N2],N1代表特征向量j的维数,N2代表特征向量j的总数量,i、j、N1、N2为正整数。
然后,计算各特征向量中第i维数值与所述平均值的比值,若一特征向量中存在一第i维数值与其对应的平均值的比值高于第一预设阈值,则将该特征向量标记为异常向量。
进一步地,在查找出异常向量组之后,可对异常向量对应的用户操作作进一步的审查,以提高对用户异常行为识别的精确性。
本实施例获取各个用户对应的操作记录序列;计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据;分别将各个所述操作记录序列分割成若干个操作记录数据组;从各个操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列;将各个操作内容序列转换成对应的特征向量;对若干个特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。相较于现有技术,本实施例通过操作记录序列进行分割,分割得到的操作记录数据组即为一个操作事件对应的操作记录数据,各个操作事件对应的操作记录数据经特征提取后再转换成各个操作事件对应的特征向量,通过分析可查找出异常向量。由于同一操作事件中的多个操作之间具有一定的关联性,不同用户在进行同一操作事件时,其执行的操作大致相同,因此,当一特征向量与其他特征向量均存在较大差异时,认为其对应的用户行为是异常操作行为的概率较大,通过分析可将其查找出来,并标记为异常向量。可见,本实施例提高了用户异常行为识别的灵敏度。
参照图4,图4为本发明用户操作记录的处理程序10的第二实施例的程序模块图。
该实施例在第一实施例的基础上,用户操作记录的处理程序10还包括聚类分析模块107。
聚类分析模块107,用于将转换得到的所有所述特征向量进行聚类分析,得到若干个特征向量组。
优选地,本实施例中,所述聚类分析模块107具体用于:
首先,在预先确定的所述聚类类别数量集合中逐一选择聚类类别数量作为当前聚类类别数量,在选择一所述当前聚类类别数量后,将转换得到的所有所述特征向量输入至预先建立的聚类分析模型中,所述聚类分析模型对所述多个特征向量进行聚类分析,并输出所述当前类别数量个特征向量组作为所述当前聚类类别数量对应的聚类分析结果;
然后,判断所述聚类类别数量集合中是否存在未被选择过的聚类类别数量,当存在时,转入继续选择聚类类别数量进行聚类分析,或者,当不存在时,调用结果分析模块106。
优选地,本实施例中,上述结果分析模块106具体用于:
首先,计算每一个所述聚类分析结果中各个所述特征向量组的特征向量数量与该聚类分析结果中所有特征向量的总数量之间的比值。
然后,判断所述比值是否小于或等于预设阈值,若是,则判定所述特征向量组满足所述预设异常行为条件,若否,则判定所述特征向量组不满足所述预设异常行为条件。
最后,将满足预设异常行为条件的特征向量组标记为所述异常向量组。
进一步地,在查找出异常向量组之后,可对异常向量对应的用户操作作进一步的审查,以提高对用户异常行为识别的精确性。
此外,本发明提出一种用户操作记录的处理方法。
如图5所示,图5为本发明用户操作记录的处理方法第一实施例的流程示意图。
本实施例中,该方法包括:
步骤S10,获取各个预设时间区间内各个用户对应的操作记录序列,各个所述操作记录序列中包括若干条按照操作时间顺序排列的操作记录数据,所述操作记录数据包括操作内容数据及操作时间数据。
具体地,获取系统日志,该系统日志存储于系统服务器的存储器中,该系统服务器的存储器可以是系统服务器内部的存储器,也可以是系统服务器外部存储器。系统日志包括多个文本,首先需对该多个文本进行文本合并,在合并的文本中提取预设时间区间内各个用户的操作记录数据,该操作记录数据中可包括操作内容数据,例如,点击网页的网页标识URL(Uniform Resource Locator,统一资源定位符)等,还可包括操作时间数据(例如,操作时间戳)及用户标识数据(例如,用户名、员工号、设备号等)。根据所述操作记录数据中的操作时间数据,将各个用户对应的若干条操作记录数据按照操作时间顺序排列,以生成各个用户对应的操作记录序列。
用户在进行操作时,一个操作事件通常对应多个操作,例如,一个修改密码的操作事件可能对应多个操作,分别为:点击密码修改主页面、点击邮箱输入页面、点击新密码设置页面。操作记录数据可记录操作内容操作时间及用户标识数据,但通过操作记录数据无法区分哪些操作记录数据同属于一个操作事件,因此,需通过如下步骤S20及步骤S30将各个所述操作记录序列分割成若干个操作记录数据组,分割得到的各个操作记录数据组则认为是一个操作事件对应的操作记录数据组。
步骤S20,根据各个所述用户操作记录数据中的操作时间信息,计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据。
优选地,本实施例中,上述步骤S20具体包括:
首先,将计算得到的各个操作时间间隔作为样本数据,并划分多个样本区间。
然后,确定各样本数据所属的样本区间,并统计各样本区间对应的样本数据的数量,根据如下公式计算各样本区间对应的分布概率值:
其中,Fk代表样本区间k对应的分布概率值,nk代表样本区间k对应的样本数据的数量,N代表所有样本数据的总数量,k∈[1,M],M代表样本区间的总数量,k、M为正整数。
上述确定各样本数据所述的样本区间的步骤包括:若一样本数据的数值落入一样本区间中,则将该样本数据作为该样本区间对应的样本数据,将数值落入一样本区间的样本数据作为该样本区间。
最后,根据各样本区间对应的分布概率值,计算各样本区间的累计分布概率值作为所述操作时间间隔对应的累计分布数据(例如累计分布表)。
具体地,通过如下公式计算各样本区间对应的累计分布值:
其中,CDFi代表样本区间i对应的累计分布概率值,Fk代表样本区间k对应的分布概率值,k∈[1,i],i∈[1,M],M代表样本区间的总数量,i、k、M为正整数。
步骤S30,根据所述累计分布数据及预先确定的分割规则,分别将各个所述操作记录序列分割成若干个操作记录数据组。
优选地,本实施例中,所述步骤S30具体包括:
首先,根据所述累计分布数据,确定预设累计分布概率对应的操作时间间隔,将该操作时间间隔作为时间间隔阈值。
具体地,若该累计分布数据为累计分布表,则该累计分布表中包括各样本区间对应的累计分布概率值,在该累计分布表中查询预设累计分布概率对应样本区间,若在该累计分布表中未查询到该预设累计分布概率,则在累计分布表中取与预设累计分布概率最接近的累计分布概率对应的样本区间,若查询到,则直接取该预设累计分布概率对应的样本区间即可,确定预设累计分布概率对应的样本区间之后,可取样本区间中数值较大的端点作为时间间隔阈值,也可以取样本区间中数值较小的端点作为时间间隔阈值,还可以取样本区间两端点的平均值作为时间间隔阈值,本发明对此不作限定。
然后,判断各个所述操作记录序列中是否存在数值大于或等于所述时间间隔阈值的操作时间间隔,当一操作记录序列中存在数值大于或等于所述时间间隔阈值的一操作时间间隔时,将该操作时间间隔对应的两个相邻的所述操作记录数据进行分割,以将所述操作记录序列分割成若干个操作记录数据组,当一操作记录序列中不存在数值大于或等于所述最优时间阈值的操作时间间隔时,将所述操作记录序列作为一个操作记录数据组。
具体地,请参照图3,图3中各点代表操作记录数据,这些操作记录数据按照时间先后顺序组成一个操作记录序列,将操作记录序列中相邻的两个操作记录数据作为一个操作记录数据对,并计算各个操作记录数据对中两操作记录数据之间的操作时间间隔作为该操作记录数据对的操作时间间隔,若该操作记录序列中存在两个操作记录数据对的操作时间间隔大于或者等于时间间隔阈值,分别为004号操作记录数据及005号操作记录数据组成的操作记录数据对,以及007号操作记录数据及008号操作记录数据组成的操作记录数据对,则在004号操作记录数据与005号操作记录数据之间设置分割点A,且在007号操作记录数据与007号操作记录数据之间设置分割点B,根据分割点A及分割点B可将操作记录序列分割成三个操作记录数据组,分别为001号至004号操作记录数据组成的操作记录数据组、005号至007号操作记录数据组成的操作记录数据组、008号至012号操作记录数据组成的操作记录数据组。
步骤S40,分别从各个所述操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列,所述操作内容序列中的操作内容数据按照操作时间顺序排列。
步骤S50,分别将各个所述操作内容序列转换成对应的特征向量。
优选地,本实施例中,所述步骤S50具体包括:
根据如下公式分别将各所述操作内容序列转换成对应的特征向量:
tfidfi,j=tfi,j×idfi
其中,ni,j代表操作内容数据ti在其操作内容序列dj中出现的次数,∑knk,j代表操作内容序列dj中操作内容数据的总个数,N代表所有操作内容序列的操作内容数据的数量总和,|j:ti∈dj|代表包含操作内容数据ti的操作内容序列的数量,tfidfi,j代表操作内容序列dj对应的特征向量中第i维的数值,i∈[1,N1],j∈[1,N2],N1代表特征向量的维数,N2代表操作内容序列的总数量,i、j、N1、N2为正整数。
步骤S60,按照预先确定的分析规则,对转换得到的特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。
具体地,首先根据如下公式计算所有特征向量中第i维数值的平均值:
其中,代表所有特征向量中第i维数值的平均值,tfidfi,j代表特征向量j中第i维的数值,i∈[1,N1],j∈[1,N2],N1代表特征向量j的维数,N2代表特征向量j的总数量,i、j、N1、N2为正整数。
然后,计算各特征向量中第i维数值与所述平均值的比值,若一特征向量中存在一第i维数值与其对应的平均值的比值高于第一预设阈值,则将该特征向量标记为异常向量。
进一步地,在查找出异常向量组之后,可对异常向量对应的用户操作作进一步的审查,以提高对用户异常行为识别的精确性。
本实施例获取各个用户对应的操作记录序列;计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据;分别将各个所述操作记录序列分割成若干个操作记录数据组;从各个操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列;将各个操作内容序列转换成对应的特征向量;对若干个特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。相较于现有技术,本实施例通过操作记录序列进行分割,分割得到的操作记录数据组即为一个操作事件对应的操作记录数据,各个操作事件对应的操作记录数据经特征提取后再转换成各个操作事件对应的特征向量,通过分析可查找出异常向量。由于同一操作事件中的多个操作之间具有一定的关联性,不同用户在进行同一操作事件时,其执行的操作大致相同,因此,当一特征向量与其他特征向量均存在较大差异时,认为其对应的用户行为是异常操作行为的概率较大,通过分析可将其查找出来,并标记为异常向量。可见,本实施例提高了用户异常行为识别的灵敏度。
参照图6,图6为本发明用户操作记录的处理方法的第二实施例的流程示意图。
该实施例在第一实施例的基础上,在步骤S60之前,还包括:
步骤S70,将转换得到的所有所述特征向量进行聚类分析,得到若干个特征向量组。
优选地,本实施例中,所述步骤S70包括:
首先,在预先确定的所述聚类类别数量集合中逐一选择聚类类别数量作为当前聚类类别数量,在选择一所述当前聚类类别数量后,将转换得到的所有所述特征向量输入至预先建立的聚类分析模型中,所述聚类分析模型对所述多个特征向量进行聚类分析,并输出所述当前类别数量个特征向量组作为所述当前聚类类别数量对应的聚类分析结果;
然后,判断所述聚类类别数量集合中是否存在未被选择过的聚类类别数量,当存在时,转入继续选择聚类类别数量进行聚类分析,或者,当不存在时,转入执行步骤S60。
优选地,本实施例中,上述步骤S60具体包括:
首先,计算每一个所述聚类分析结果中各个所述特征向量组的特征向量数量与该聚类分析结果中所有特征向量的总数量之间的比值。
然后,判断所述比值是否小于或等于预设阈值,若是,则判定所述特征向量组满足所述预设异常行为条件,若否,则判定所述特征向量组不满足所述预设异常行为条件。
最后,将满足预设异常行为条件的特征向量组标记为所述异常向量组。
进一步地,在查找出异常向量组之后,可对异常向量对应的用户操作作进一步的审查,以提高对用户异常行为识别的精确性。
进一步地,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有用户操作记录的处理程序,所述用户操作记录的处理程序可被至少一个处理器执行,以使所述至少一个处理器执行上述任一实施例中的用户操作记录的处理方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种电子装置,所述电子装置包括存储器和处理器,其特征在于,所述存储器上存储有用户操作记录的处理程序,所述用户操作记录的处理程序被所述处理器执行时实现如下步骤:
获取步骤:获取各个预设时间区间内各个用户对应的操作记录序列,各个所述操作记录序列中包括若干条按照操作时间顺序排列的操作记录数据,所述操作记录数据包括操作内容数据及操作时间数据;
第一确定步骤:根据各个所述用户操作记录数据中的操作时间信息,计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据;
第一分割步骤:根据所述累计分布数据及预先确定的分割规则,分别将各个所述操作记录序列分割成若干个操作记录数据组;
提取步骤:分别从各个所述操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列,所述操作内容序列中的操作内容数据按照操作时间顺序排列;
转换步骤:分别将各个所述操作内容序列转换成对应的特征向量;
结果分析步骤:按照预先确定的分析规则,对转换得到的特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。
2.如权利要求1所述的电子装置,其特征在于,所述第一分割步骤包括:
第二确定步骤:根据所述累计分布数据,确定预设累计分布概率对应的操作时间间隔,将该操作时间间隔作为时间间隔阈值;
第二分割步骤:判断各个所述操作记录序列中是否存在数值大于或等于所述时间间隔阈值的操作时间间隔,当一操作记录序列中存在数值大于或等于所述时间间隔阈值的一操作时间间隔时,将该操作时间间隔对应的两个相邻的所述操作记录数据进行分割,以将所述操作记录序列分割成若干个操作记录数据组,当一操作记录序列中不存在数值大于或等于最优时间阈值的操作时间间隔时,将所述操作记录序列作为一个操作记录数据组。
4.如权利要求1或2所述的电子装置,其特征在于,所述处理器执行所述用户操作记录的处理程序,在所述结果分析步骤之前,还实现如下步骤:
聚类步骤:在预先确定的聚类类别数量集合中逐一选择聚类类别数量作为当前聚类类别数量,在选择一所述当前聚类类别数量后,将转换得到的所有所述特征向量输入至预先建立的聚类分析模型中,所述聚类分析模型对所述特征向量进行聚类分析,并输出所述当前类别数量个特征向量组作为所述当前聚类类别数量对应的聚类分析结果;
判断步骤:判断所述聚类类别数量集合中是否存在未被选择过的聚类类别数量,当存在时,转入继续执行所述聚类步骤,或者,当不存在时,转入执行所述结果分析步骤。
5.如权利要求4所述的电子装置,其特征在于,所述结果分析步骤包括:
计算每一个所述聚类分析结果中各个所述特征向量组的特征向量数量与该聚类分析结果中所有特征向量的总数量之间的比值;
判断所述比值是否小于或等于预设阈值,若是,则判定所述特征向量组满足所述预设异常行为条件,若否,则判定所述特征向量组不满足所述预设异常行为条件;
将满足预设异常行为条件的特征向量组标记为异常向量组。
6.一种用户操作记录的处理方法,其特征在于,该方法包括步骤:
获取步骤:获取各个预设时间区间内各个用户对应的操作记录序列,各个所述操作记录序列中包括若干条按照操作时间顺序排列的操作记录数据,所述操作记录数据包括操作内容数据及操作时间数据;
第一确定步骤:根据各个所述用户操作记录数据中的操作时间信息,计算各所述操作记录序列中各相邻两个所述操作记录数据之间的操作时间间隔,根据计算得到的所有操作时间间隔,确定所述操作时间间隔对应的累计分布数据;
第一分割步骤:根据所述累计分布数据及预先确定的分割规则,分别将各个所述操作记录序列分割成若干个操作记录数据组;
提取步骤:分别从各个所述操作记录数据组中提取出对应的若干个操作内容数据形成操作内容序列,所述操作内容序列中的操作内容数据按照操作时间顺序排列;
转换步骤:分别将各个所述操作内容序列转换成对应的特征向量;
结果分析步骤:按照预先确定的分析规则,对转换得到的特征向量进行分析,并将满足预设异常行为条件的特征向量标记为异常向量。
7.如权利要求6所述的用户操作记录的处理方法,其特征在于,所述第一分割步骤包括:
第二确定步骤:根据所述累计分布数据,确定预设累计分布概率对应的操作时间间隔,将该操作时间间隔作为时间间隔阈值;
第二分割步骤:判断各个所述操作记录序列中是否存在数值大于或等于所述时间间隔阈值的操作时间间隔,当一操作记录序列中存在数值大于或等于所述时间间隔阈值的一操作时间间隔时,将该操作时间间隔对应的两个相邻的所述操作记录数据进行分割,以将所述操作记录序列分割成若干个操作记录数据组,当一操作记录序列中不存在数值大于或等于最优时间阈值的操作时间间隔时,将所述操作记录序列作为一个操作记录数据组。
8.如权利要求6或7所述的用户操作记录的处理方法,其特征在于,所述转换步骤包括:
根据如下公式分别将各所述操作内容序列转换成对应的特征向量:
tfidfi,j=tfi,j×idfi
其中,ni,j代表操作内容数据ti在其操作内容序列dj中出现的次数,∑knk,j代表操作内容序列dj中操作内容数据的总个数,N代表所有操作内容序列的操作内容数据的数量总和,|j:ti∈dj|代表包含操作内容数据ti的操作内容序列的数量,tfidfi,j代表操作内容序列dj对应的特征向量中第i维的数值,i∈[1,N1],j∈[1,N2],N1代表特征向量的维数,N2代表操作内容序列的总数量,i、j、N1、N2为正整数。
9.如权利要求6或7所述的用户操作记录的处理方法,其特征在于,在所述结果分布步骤之前,该方法还包括:
聚类步骤:在预先确定的聚类类别数量集合中逐一选择聚类类别数量作为当前聚类类别数量,在选择一所述当前聚类类别数量后,将转换得到的所有所述特征向量输入至预先建立的聚类分析模型中,所述聚类分析模型对所述特征向量进行聚类分析,并输出所述当前类别数量个特征向量组作为所述当前聚类类别数量对应的聚类分析结果;
判断步骤:判断所述聚类类别数量集合中是否存在未被选择过的聚类类别数量,当存在时,转入继续执行所述聚类步骤,或者,当不存在时,转入执行所述结果分析步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有用户操作记录的处理程序,所述用户操作记录的处理程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中的任一项所述的用户操作记录的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910064224.1A CN109933502B (zh) | 2019-01-23 | 2019-01-23 | 电子装置、用户操作记录的处理方法和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910064224.1A CN109933502B (zh) | 2019-01-23 | 2019-01-23 | 电子装置、用户操作记录的处理方法和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109933502A CN109933502A (zh) | 2019-06-25 |
CN109933502B true CN109933502B (zh) | 2022-05-20 |
Family
ID=66985175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910064224.1A Active CN109933502B (zh) | 2019-01-23 | 2019-01-23 | 电子装置、用户操作记录的处理方法和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933502B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781467A (zh) * | 2019-10-22 | 2020-02-11 | 武汉极意网络科技有限公司 | 异常业务数据分析方法、装置、设备及存储介质 |
CN111274462A (zh) * | 2020-01-16 | 2020-06-12 | 珠海格力电器股份有限公司 | 数据的处理方法和装置 |
CN114093055A (zh) * | 2021-11-26 | 2022-02-25 | 海南小鲨鱼智能科技有限公司 | 一种路谱生成的方法、装置、电子设备及介质 |
CN114547140A (zh) * | 2022-01-27 | 2022-05-27 | 青岛海尔科技有限公司 | 行为序列的生成方法及装置、存储介质、电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104285212A (zh) * | 2012-05-01 | 2015-01-14 | 国际商业机器公司 | 用于建模在线商务行为和检测异常值的自动化分析系统 |
JP2015176276A (ja) * | 2014-03-14 | 2015-10-05 | 三菱電機株式会社 | データ処理装置及びデータ処理方法 |
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
CN107870986A (zh) * | 2017-10-13 | 2018-04-03 | 平安科技(深圳)有限公司 | 基于爬虫数据的用户行为分析方法、应用服务器及计算机可读存储介质 |
CN108229963A (zh) * | 2016-12-12 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 用户操作行为的风险识别方法及装置 |
-
2019
- 2019-01-23 CN CN201910064224.1A patent/CN109933502B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104285212A (zh) * | 2012-05-01 | 2015-01-14 | 国际商业机器公司 | 用于建模在线商务行为和检测异常值的自动化分析系统 |
JP2015176276A (ja) * | 2014-03-14 | 2015-10-05 | 三菱電機株式会社 | データ処理装置及びデータ処理方法 |
CN108229963A (zh) * | 2016-12-12 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 用户操作行为的风险识别方法及装置 |
CN107528832A (zh) * | 2017-08-04 | 2017-12-29 | 北京中晟信达科技有限公司 | 一种面向系统日志的基线构建与未知异常行为检测方法 |
CN107870986A (zh) * | 2017-10-13 | 2018-04-03 | 平安科技(深圳)有限公司 | 基于爬虫数据的用户行为分析方法、应用服务器及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于Hadoop大数据平台资源及用户行为检测技术的研究;王骁;《中国优秀硕士学位论文全文数据库信息科技辑》;20150915;I139-35 * |
Also Published As
Publication number | Publication date |
---|---|
CN109933502A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933502B (zh) | 电子装置、用户操作记录的处理方法和存储介质 | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN112818398B (zh) | 针对大数据隐私保护的数据处理方法及大数据处理设备 | |
CN111460131A (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
CN112883730B (zh) | 相似文本匹配方法、装置、电子设备及存储介质 | |
CN113728321A (zh) | 利用训练表的集合来准确预测各种表内的错误 | |
CN114493255A (zh) | 基于知识图谱的企业异常监控方法及其相关设备 | |
CN116015842A (zh) | 一种基于用户访问行为的网络攻击检测方法 | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN109919180B (zh) | 电子装置、用户操作记录数据的处理方法和存储介质 | |
CN114281991A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
WO2018205391A1 (zh) | 信息检索准确性评估方法、系统、装置及计算机可读存储介质 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN117312825A (zh) | 一种目标行为检测方法、装置、电子设备及存储介质 | |
CN109446054B (zh) | 基于大数据的越权操作请求的处理方法及终端设备 | |
CN114662005A (zh) | 用户行为轨迹的消息推送方法、装置、设备及存储介质 | |
CN115203364A (zh) | 软件故障反馈处理方法、装置、设备及可读存储介质 | |
CN109977992B (zh) | 电子装置、批量注册行为的识别方法和存储介质 | |
CN113656586A (zh) | 情感分类方法、装置、电子设备及可读存储介质 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN113064984A (zh) | 意图识别方法、装置、电子设备及可读存储介质 | |
CN114139530A (zh) | 同义词提取方法、装置、电子设备及存储介质 | |
CN108009233B (zh) | 一种图像还原方法、装置、计算机设备及存储介质 | |
CN113486266B (zh) | 页面标签添加方法、装置、设备及存储介质 | |
CN117390933B (zh) | 用于润滑油制备下的工艺数据追溯方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |