CN113779568A - 异常行为用户识别方法、装置、设备及存储介质 - Google Patents

异常行为用户识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113779568A
CN113779568A CN202111095865.7A CN202111095865A CN113779568A CN 113779568 A CN113779568 A CN 113779568A CN 202111095865 A CN202111095865 A CN 202111095865A CN 113779568 A CN113779568 A CN 113779568A
Authority
CN
China
Prior art keywords
user
users
abnormal behavior
dimension
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111095865.7A
Other languages
English (en)
Inventor
黄移军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111095865.7A priority Critical patent/CN113779568A/zh
Publication of CN113779568A publication Critical patent/CN113779568A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能领域,公开了一种异常行为用户识别方法、装置、设备及存储介质,该方法包括:获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度;从而可实现对用户行为的监控。此外,本发明还涉及区块链领域,行为数据可存储于区块链中。

Description

异常行为用户识别方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种异常行为用户识别方法、装置、设备及存储介质。
背景技术
针对企业数据安全,存在两方面风险。一方面是外部风险,为外部人员通过各种手段进入企业内部,获取企业数据或者破坏企业数据,造成企业数据丢失或者外泄,导致企业数据的安全事故。另一种是企业内部风险,为企业内部内网用户通过各种风险行为将企业数据丢失或者外泄,造成企业数据的安全事故。并且,一般情况下,企业内部内网用户的风险行为造成的企业数据的安全事故数量,远大于外部风险造成的企业数据安全事故的数量。
在一般情况下,通过设置黑名单方式可实现对内网异常行为用户的识别。具体的,管理人员将需要限制的用户名加入黑名单中。但通过设置黑名单的方式对内网异常用户进行识别时,仅能对当前管理人员已知的异常用户进行识别,对当前管理人员未知且无法发现异常行为的用户仍然无法进行识别,因此导致识别异常行为用户的识别效率差、可靠性低。
发明内容
本发明的主要目的在于解决现有技术中对异常行为用户的识别效率差的技术问题。
本发明第一方面提供了一种异常行为用户识别方法,所述异常行为用户识别方法包括:获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。
可选的,在本发明的第一方面的第一种实现方式中,在所述从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离之前,还包括:统计所述用户对应的维度特征的特征个数;根据所述特征个数,计算各所述维度特征的均值以及标准差;根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。
可选的,在本发明的第一方面的第二种实现方式中,所述从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离包括:从所有所述用户中任意选取第一目标用户,并获取各所述用户的行为数据中各所述标准维度特征的特征值;将所述第一目标用户与其他所述用户隶属于同一维度的特征值对应进行完全平方差运算,得到各所述标准维度特征的特征差值;将各所述特征差值的和进行平方根运算,得到所述第一目标用户与其他所述用户的特征距离。
可选的,在本发明的第一方面的第三种实现方式中,所述根据比较的结果确定异常行为用户包括:从所有所述用户中提取与所述第一目标用户之间的特征距离不大于预设半径的用户,得到第一用户;统计所述第一用户的用户个数,并判断所述用户个数是否小于预设的个数阈值;若是,则将所述第一目标用户作为异常行为用户。
可选的,在本发明第一方面的第四种实现方式中,当所述用户个数不小于预设的个数阈值时,所述根据比较的结果确定异常行为用户包括:将所述第一目标用户标记为核心用户,并对所述第一目标用户分配簇标签;从所有所述用户中剔除所述核心用户,得到第二用户;计算各所述第二用户的特征距离,并将各所述第二用户的特征距离与所述半径进行比较;根据比较的结果确定异常行为用户。
可选的,在本发明第一方面的第五种实现方式中,在所述将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较之前,还包括:获取各所述用户的历史行为数据;采用预设的基于密度的聚类算法对所述历史行为数据进行样本训练,得到异常行为数据样本;采用所述异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。
本发明第二方面提出一种异常行为用户识别装置,所述异常行为用户识别装置包括:获取模块,用于获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;计算模块,用于从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;比较模块,用于将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;确定模块,用于根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。
可选的,在本发明第二方面的第一种实现方式中,所述异常行为用户识别装置还包括标准化模块,所述标准化模块包括:统计单元,用于统计所述用户对应的维度特征的特征个数;计算单元,用于根据所述特征个数,计算各所述维度特征的均值以及标准差;标准化单元,用于根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。
可选的,在本发明第二方面的第二种实现方式中,所述计算模块包括:第一获取单元,用于从所有所述用户中任意选取第一目标用户,并获取各所述用户的行为数据中各所述标准维度特征的特征值;第一运算单元,用于将所述第一目标用户与其他所述用户隶属于同一维度的特征值对应进行完全平方差运算,得到各所述标准维度特征的特征差值;第二运算单元,用于将各所述特征差值的和进行平方根运算,得到所述第一目标用户与其他所述用户的特征距离。
可选的,在本发明第二方面的第三种实现方式中,所述确定模块具体用于:从所有所述用户中提取与所述第一目标用户之间的特征距离不大于预设半径的用户,得到第一用户;统计所述第一用户的用户个数,并判断所述用户个数是否小于预设的个数阈值;若所述用户个数小于预设的个数阈值,则将所述第一目标用户作为异常行为用户。
可选的,在本发明第二方面的第四种实现方式中,当所述用户个数不小于预设的个数阈值时,所述确定模块还具体用于:将所述第一目标用户标记为核心用户,并对所述第一目标用户分配簇标签;从所有所述用户中剔除所述核心用户,得到第二用户;计算各所述第二用户的特征距离,并将各所述第二用户的特征距离与所述半径进行比较;根据比较的结果确定异常行为用户。
可选的,在本发明第二方面的第五种实现方式中,所述异常行为用户识别装置还包括模型训练模块,所述模型训练模块包括:第二获取单元,用于获取各所述用户的历史行为数据;样本训练单元,用于采用预设的基于密度的聚类算法对所述历史行为数据进行样本训练,得到异常行为数据样本;模型训练单元,用于采用所述异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。
本发明第三方面提供了一种异常行为用户识别设备,所述异常行为用户识别设备包括:存储器和至少一个处理器,所述存储器中存储有计算机程序,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述计算机程序,以使得所述异常行为用户识别设备执行上述的异常行为用户识别方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机执行上述的异常行为用户识别方法的步骤。
在本发明提供的技术方案中,通过获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度,从而可实现对用户行为的监控。相比传统技术中仅通过实体监控规则对内网的各业务系统的用户日常行为安全监控,本发明能够提高对用户异常行为的识别效率、准确性和全面性,助力安全运营风险处理,避免企业内部内网用户查询各业务系统的敏感信息的风险行为,对内部用户安全、数据外泄安全及内部用户账号安全起到积极作用。
附图说明
图1为本发明实施例中异常行为用户识别方法的第一个实施例示意图;
图2为本发明实施例中异常行为用户识别方法的第二个实施例示意图;
图3为本发明实施例中异常行为用户识别方法的第三个实施例示意图;
图4为本发明实施例中异常行为用户识别方法的第四个实施例示意图;
图5为本发明实施例中异常行为用户识别装置的一个实施例示意图;
图6为本发明实施例中异常行为用户识别装置的另一个实施例示意图;
图7为本发明实施例中异常行为用户识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种异常行为用户识别方法、装置、设备及存储介质,通过获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度,从而可实现对用户行为的监控。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体内容进行描述,请参阅图1,本发明实施例中异常行为用户识别方法的第一个实施例包括:
101,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;
服务器获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征。在本实施例中,维度特征的维度包括查询时间维度、查询量维度和异常行为维度;查询时间维度是指查询业务数据时间和业务数据出现异常状态的时间差、业务数据投诉时间和查询业务数据的时间差、新产生的业务数据和业务数据出现异常状态的时间差等;查询量维度是指用户个人当月查询量和个人前3月月均查询量的比值、个人当月工作时段(如9-12点,14-18点的时段)查询量和个人前3月工作时段月均查询量的比值、个人当月非工作时段查询量和个人前3个月非工作时段月均查询量的比值、个人月均查询量和用户个人同机构同职级岗位的同事月均查询量比值等;异常行为维度是指多次查询单个业务数据、查询异地业务数据量、查询异地业务数据占比、查询业务数据为异常状态的量及占比等。
另外,本发明实施例可以基于人工智能技术对用户的行为数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
102,从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离;
服务器将所有用户查询业务系统数据的行为数据以用户身份标识号为主键,构建宽表,即宽表记录有所有用户的行为数据,宽表的记录条数对应所有用户的用户个数,一条记录对应一个用户的行为数据。
服务器从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离。其中,目标用户的数量为至少一个;计算目标用户与其他用户的特征距离时,首先提取宽表中的目标用户的历史数据,将其标记为第一数据点,并提取宽表中剩余用户中一个用户的历史数据,将其标记为第二数据点;然后计算这两个数据点之间的距离。其中,计算目标用户与其他用户的特征距离可以是计算目标用户与其他用户之间的欧氏距离或曼哈顿距离或马氏距离等,在此不做限定。
欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个数据点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两数据点之间的实际距离。曼哈顿距离为在欧几里德空间的固定直角坐标系上两数据点所形成的线段对轴产生的投影的距离总和。马氏距离也可以定义为两个数据点服从同一分布并且其协方差矩阵为Σ的随机变量之间的差异程度。如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
103,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;
104,根据比较的结果确定异常行为用户。
服务器将计算得到的特征距离输入至预设的异常行为识别模型中,采用异常行为识别模型对特征距离与预设的半径进行数值上的比较,得到一个比较结果。其中,预设的异常行为识别模型能够根据目标用户与其他用户之间的特征距离与预设的半径进行比较的结果识别出异常查询业务系统的敏感信息的用户,即异常行为用户。
当目标用户与其他用户之间的特征距离不小于半径,则统计相应的其他用户的用户数量,并判断该用户数量是否小于预设的个数阈值(min_sample),若用户数量小于min_sample,则将该目标用户作为异常行为用户。
在本发明实施例中,通过获取各用户查询业务系统数据的行为数据,选取目标用户并计算目标用户与其他用户的特征距离,根据异常行为识别模型和特征距离识别异常行为用户。本发明实施例实现了对异常行为用户的识别,根据各用户的行为数据和预设的异常行为识别模型进行异常行为用户的识别,提高了识别的效率和准确度。
请参阅图2,本发明实施例中异常行为用户识别方法的第二个实施例包括:
201,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;
服务器获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征。在本实施例中,维度特征的维度包括查询时间维度、查询量维度和异常行为维度;查询时间维度是指查询业务数据时间和业务数据出现异常状态的时间差、业务数据投诉时间和查询业务数据的时间差、新产生的业务数据和业务数据出现异常状态的时间差等;查询量维度是指用户个人当月查询量和个人前3月月均查询量的比值、个人当月工作时段(如9-12点,14-18点的时段)查询量和个人前3月工作时段月均查询量的比值、个人当月非工作时段查询量和个人前3个月非工作时段月均查询量的比值、个人月均查询量和用户个人同机构同职级岗位的同事月均查询量比值等;异常行为维度是指多次查询单个业务数据、查询异地业务数据量、查询异地业务数据占比、查询业务数据为异常状态的量及占比等。
202,统计用户对应的维度特征的维度数;
203,根据维度数,计算各维度特征的均值以及标准差;
204,根据均值以及标准差,对各维度特征进行标准化处理,得到标准维度特征;
为了消除量纲影响,需要将各维度特征进行标准化处理。服务器统计所有用户对应的维度特征的维度数,根据维度数计算各维度特征的均值以及标准差。其中,各维度的维度特征对应不同的维度,统计用户对应的维度特征的维度的数量为维度数。
服务器根据计算得到的各维度特征的均值和标准差,对各维度特征进行标准化处理,得到标准维度特征。在本实施例中,标准维度特征=(维度特征-均值)/标准差;例如,用户xi的第一个维度特征标准化后的值xi1_new=(xi1-第一个维度的维度特征的均值)/第一个维度的维度特征的标准差)。其中,用户xi的第一个维度的维度特征的均值=sum(第一个维度的维度特征的特征值)/用户个数。
其中,标准差公式为:
Figure BDA0003269118170000081
例如,计算第一个维度的维度特征的标准差,其中N对应所有用户的用户总数,这里的xi为第一个维度的维度特征所对应的第i个用户的维度特征值,为所有用户的第一个维度的维度特征值的均值。
205,从所有用户中任意选取目标用户,并获取各用户的行为数据中各标准维度特征的特征值;
206,将目标用户与其他用户隶属于同一维度的特征值对应进行完全平方差运算,得到各标准维度特征的特征差值;
服务器从所有的用户中任意选取至少一个用户作为目标用户,并获取所有用户的行为数据,从行为数据中提取各标准维度特征的特征值。提取目标用户与其他用户隶属于同一维度的特征值,即在同一个维度下,提取所有用户该维度的标准维度特征的特征值,并根据该特征值进行完全平方差运算,从而得到各用户的标准维度特征的特征差值。
207,将各特征差值的和进行平方根运算,得到目标用户与其他用户的特征距离;
服务器对各特征差值进行算术和运算,得到各特征差值的和,并对各特征差值的和进行平方根运算,即计算各特征差值的平方根,将计算得到的结果作为该目标用户与其他用户的特征距离。其中,特征距离可选取欧氏距离、曼哈顿距离、马氏距离等计算规则进行距离计算,本实施例以欧氏距离说明,其公式如下:
D(xi,xj)=sqrt((xi1-xj1)^2+(xi2-xj2)^2+…+(xin-yin)^2);
其中,xi、xj指两个用户,即目标用户与另一个其他用户,xi1指用户xi的第一个标准维度特征的特征值,xin指员工xi的第n个标准维度特征的特征值,n指特征个数。
208,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;
209,根据比较的结果确定异常行为用户。
在本发明实施例中,步骤208-209与上述的异常行为用户识别方法的第一个实施例中的步骤103-104一致,在此不做赘述。
在本发明实施例中,统计各用户对应的维度特征的维度数,根据维度数计算各维度特征的均值以及标准差,从而对维度特征进行标准化处理,得到标准维度特征,根据标准维度特征计算用户之间的特征距离,提高了特征距离的计算准确度,从而提高了后续识别异常行为用户的准确度。
请参阅图3,本发明实施例中异常行为用户识别方法的第三个实施例包括:
301,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;
302,从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离;
303,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;
304,从所有用户中提取与目标用户之间的特征距离不大于预设半径的用户,得到第一用户;
服务器将目标用户与其他用户的特征距离与预设的半径(eps)进行比较,判断该特征距离是否不大于预设半径,从而从所有用户中提取与目标用户之间的特征距离小于预设半径的用户,得到第一用户。
在本实施例中,预设半径为服务器预先设置的,其半径的具体数值可取默认值0.5,也可以按照下述方式获取:eps可以通过k-距离计算得到,在k-距离曲线图明显拐点为对应最好的参数。k-距离为指给定k领域参数k,其中,k一般取4,对应数据中的每个点,计算对应的第k个最近邻域距离,即计算每个点的最近4个点距离值,并将数据集所有点对应的最近邻域距离按照降序方式排序,选择第一个最低点对应的距离值作为eps。
305,统计第一用户的用户个数,并判断用户个数是否小于预设的个数阈值;
306,若用户个数小于预设的个数阈值,则将目标用户作为异常行为用户;
在得到第一用户之后,统计第一用户中所包含的用户的用户个数,并将用户个数与预设的个数阈值(min_sample)进行比较,即判断该用户个数是否小于预设的个数阈值。当第一用户的用户个数小于个数阈值时,将目标用户作为异常行为用户,其中,该异常行为用户为异常查询业务系统的敏感信息的用户。
在本实施例中,预设的个数阈值(min_sample)一般取min_sample>=dim+1,其中,dim为特征维度值,即行为数据中各维度特征的特征个数。
307,当用户个数不小于预设的个数阈值时,将目标用户标记为核心用户,并对目标用户分配簇标签;
当第一用户的用户个数不小于预设的个数阈值时,服务器将目标用户标记为核心用户,并判断该目标用户是否被分配有簇标签,若该目标用户没有被分配簇标签,则创建一个簇标签,并将簇标签分配给目标用户。一个簇标签对应一个簇,簇定义为密度相连的用户的最大集合。其中,簇标签只是用来进行标记,可以用数字自增(初始值设为0,逐次标识1,下一个标识2,依次类推)进行标识,本实施例不对簇标签进行设定。
308,从所有用户中剔除核心用户,得到第二用户;
309,计算各第二用户的特征距离,并将各第二用户的特征距离与半径进行比较;
310,根据比较的结果确定异常行为用户。
从所有用户中将核心用户进行剔除,并将剩余的用户作为第二用户。计算第二用户中各用户的特征距离,即从第二用户中选取一个新目标用户,并计算该新目标用户与其他用户的特征距离,并将特征距离与预设的半径进行比较,从而提取出特征距离不大于半径的用户,判断这些用户的用户个数是否小于预设的个数阈值,若其用户个数小于预设的个数阈值,则将新目标用户作为异常行为用户,若其用户个数不小于预设的个数阈值,则将新目标用户作为核心用户,若新目标用户没有被分配簇标签,则分配给新目标用户新创建的簇标签。然后依次访问新目标用户的所有邻居(在距离eps以内的其他用户)。如果它们还没有被分配一个簇标签,那么就将刚刚创建的新的簇标签分配给它们。如果它们是核心样本,那么就依次访问其邻居,以此类推。簇逐渐增大,直到在簇的eps距离内没有更多的核心用户为止。
在本发明实施例中,步骤301-303与上述的异常行为用户识别方法的第一个实施例中的步骤101-103一致,在此不做赘述。
在本发明实施例中,根据用户之间的特征距离以及特征距离不大于预设半径的用户个数相结合识别异常行为用户,提高了异常行为用户的效率和准确度。
请参阅图4,本发明实施例中异常行为用户识别方法的第四个实施例包括:
401,获取各用户查询业务系统数据的行为数据,并提取行为数据中各维度的维度特征;
402,从所有用户中任意选取目标用户,根据各用户的维度特征计算目标用户与其他用户的特征距离;
403,获取各用户的历史行为数据;
404,采用预设的基于密度的聚类算法对历史行为数据进行样本训练,得到异常行为数据样本;
405,采用异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型;
服务器获取所有用户的历史行为数据,并采用预设的基于密度的聚类算法(DBSCAN算法)对历史行为数据进行样本训练,得到异常行为数据样本,并根据该异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。
在本实施例中,采用基于密度的聚类算法对预设的异常行为识别工具进行模型训练的过程为,任意选取一个历史行为数据对应的用户,将该用户作为起始用户,然后找到这个用户的距离小于等于预设半径(eps)的所有用户。如果距起始用户的距离在半径(eps)之内的用户个数小于预设个数阈值(min_samples),那么这个用户被标记为异常行为用户。如果距离在eps之内的用户个数大于min_samples,则这个用户被标记为核心用户,并被分配一个新的簇标签。然后访问该核心用户的所有邻居(在距离eps以内)。如果它们还没有被分配一个簇,那么就将刚刚创建的新的簇标签分配给它们。如果它们是核心用户,那么就依次访问其邻居,以此类推。簇逐渐增大,直到在簇的eps距离内没有更多的核心用户为止。选取另一个尚未被访问过的用户,并重复相同的过程。其中,eps设置得非常小,则意味着没有用户是核心用户,可能会导致所有用户被标记为异常行为用户,eps设置得非常大,可能会导致所有用户形成单个簇。虽然不需要显示设置簇的个数,但设置eps可以隐式地控制找到eps的个数。使用StandarScaler或MinMaxScaler对所有历史行为数据进行缩放,有时更容易找到eps的较好取值。因为使用缩放技术将确保所有历史行为数据中各维度特征具有相似的范围。
406,将特征距离输入至预设的异常行为识别模型中,对特征距离与预设的半径进行比较;
407,根据比较的结果确定异常行为用户。
在本发明实施例中,步骤401-402、步骤406-407与上述的异常行为用户识别方法的第一个实施例中的步骤101-102、步骤103-104一致,在此不做赘述。
在本发明实施例中,根据用户的历史行为数据进行样本训练,得到异常行为数据样本,并采用该异常行为数据样本进行模型训练得到异常行为识别模型,从而可以采用训练好的异常行为识别模型对异常行为用户进行识别,提高了异常行为用户识别的效率和准确度。
上面对本发明实施例中的异常行为用户识别方法进行了描述,下面对本发明实施例中的异常行为用户识别装置进行描述,请参照图5,本发明实施例中的异常行为用户识别装置的一个实施例包括:
获取模块501,用于获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;
计算模块502,用于从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;
比较模块503,用于将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;
确定模块504,用于根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。
在本发明实施例中,通过异常行为用户识别装置获取各用户查询业务系统数据的行为数据的维度特征,选取目标用户,根据维度特征计算目标用户与其他用户的特征距离,基于异常行为识别模型对特征距离与预设半径进行比较,从而根据比较的结果确定异常行为用户。本发明实现了对异常行为用户的识别,且通过异常行为识别模型和特征距离识别异常行为用户,提高了识别的效率和准确度,从而可实现对用户行为的监控。。
请参阅图6,本发明实施例中的异常行为用户识别装置的另一个实施例包括:
获取模块501,用于获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;
计算模块502,用于从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;
比较模块503,用于将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;
确定模块504,用于根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。
其中,所述异常行为用户识别装置还包括标准化模块505,所述标准化模块505包括:
统计单元5051,用于统计所述用户对应的维度特征的特征个数;
计算单元5052,用于根据所述特征个数,计算各所述维度特征的均值以及标准差;
标准化单元5053,用于根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。
其中,所述计算模块502包括:
第一获取单元5021,用于从所有所述用户中任意选取第一目标用户,并获取各所述用户的行为数据中各所述标准维度特征的特征值;
第一运算单元5022,用于将所述第一目标用户与其他所述用户隶属于同一维度的特征值对应进行完全平方差运算,得到各所述标准维度特征的特征差值;
第二运算单元5023,用于将各所述特征差值的和进行平方根运算,得到所述第一目标用户与其他所述用户的特征距离。
其中,所述确定模块504具体用于:
从所有所述用户中提取与所述第一目标用户之间的特征距离不大于预设半径的用户,得到第一用户;
统计所述第一用户的用户个数,并判断所述用户个数是否小于预设的个数阈值;
若所述用户个数小于预设的个数阈值,则将所述第一目标用户作为异常行为用户。
其中,当所述用户个数不小于预设的个数阈值时,所述确定模块504还具体用于:
将所述第一目标用户标记为核心用户,并对所述第一目标用户分配簇标签;
从所有所述用户中剔除所述核心用户,得到第二用户;
计算各所述第二用户的特征距离,并将各所述第二用户的特征距离与所述半径进行比较;
根据比较的结果确定异常行为用户。
其中,异常行为用户识别装置还包括模型训练模块506,所述模型训练模块506包括:
第二获取单元5061,用于获取各所述用户的历史行为数据;
样本训练单元5062,用于采用预设的基于密度的聚类算法对所述历史行为数据进行样本训练,得到异常行为数据样本;
模型训练单元5063,用于采用所述异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。
在本发明实施例中,通过异常行为用户识别装置获取各用户查询业务系统数据的行为数据,选取目标用户并计算目标用户与其他用户的特征距离,并根据用户之间的特征距离对异常行为用户进行识别,提高了异常行为用户识别的效率和准确度,实现了对用户异常行为的监控。
请参阅图7,下面从硬件处理的角度对本发明实施例中的异常行为用户识别设备的一个实施例进行详细描述。
图7是本发明实施例提供的一种异常行为用户识别设备的结构示意图,该异常行为用户识别设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对异常行为用户识别设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在异常行为用户识别设备700上执行存储介质730中的一系列指令操作。
异常行为用户识别设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和或或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的异常行为用户识别设备结构并不构成对异常行为用户识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明所指服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述异常行为用户识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种异常行为用户识别方法,其特征在于,所述异常行为用户识别方法包括:
获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;
从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;
将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;
根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。
2.根据权利要求1所述的异常行为用户识别方法,在所述从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离之前,还包括:
统计所述用户对应的维度特征的特征个数;
根据所述特征个数,计算各所述维度特征的均值以及标准差;
根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。
3.根据权利要求2所述的异常行为用户识别方法,所述从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离包括:
从所有所述用户中任意选取第一目标用户,并获取各所述用户的行为数据中各所述标准维度特征的特征值;
将所述第一目标用户与其他所述用户隶属于同一维度的特征值对应进行完全平方差运算,得到各所述标准维度特征的特征差值;
将各所述特征差值的和进行平方根运算,得到所述第一目标用户与其他所述用户的特征距离。
4.根据权利要求3所述的异常行为用户识别方法,所述根据比较的结果确定异常行为用户包括:
从所有所述用户中提取与所述第一目标用户之间的特征距离不大于预设半径的用户,得到第一用户;
统计所述第一用户的用户个数,并判断所述用户个数是否小于预设的个数阈值;
若是,则将所述第一目标用户作为异常行为用户。
5.根据权利要求4所述的异常行为用户识别方法,当所述用户个数不小于预设的个数阈值时,所述根据比较的结果确定异常行为用户包括:
将所述第一目标用户标记为核心用户,并对所述第一目标用户分配簇标签;
从所有所述用户中剔除所述核心用户,得到第二用户;
计算各所述第二用户的特征距离,并将各所述第二用户的特征距离与所述半径进行比较;
根据比较的结果确定异常行为用户。
6.根据权利要求1-5中任一项所述的异常行为用户识别方法,在所述将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较之前,还包括:
获取各所述用户的历史行为数据;
采用预设的基于密度的聚类算法对所述历史行为数据进行样本训练,得到异常行为数据样本;
采用所述异常行为数据样本对预设的异常行为识别工具进行模型训练,得到异常行为识别模型。
7.一种异常行为用户识别装置,其特征在于,所述异常行为用户识别装置包括:
获取模块,用于获取各用户查询业务系统数据的行为数据,并提取所述行为数据中各维度的维度特征;
计算模块,用于从所有所述用户中任意选取第一目标用户,根据各所述用户的维度特征计算所述第一目标用户与其他所述用户的特征距离;
比较模块,用于将所述特征距离输入至预设的异常行为识别模型中,对所述特征距离与预设的半径进行比较;
确定模块,用于根据比较的结果确定异常行为用户,其中,所述异常行为用户为异常查询所述业务系统的敏感信息的用户。
8.根据权利要求7所述的异常行为用户识别装置,其特征在于,所述异常行为用户识别装置还包括标准化模块,所述标准化模块包括:
统计单元,用于统计所述用户对应的维度特征的特征个数;
计算单元,用于根据所述特征个数,计算各所述维度特征的均值以及标准差;
标准化单元,用于根据所述均值以及所述标准差,对各所述维度特征进行标准化处理,得到标准维度特征。
9.一种异常行为用户识别设备,其特征在于,所述异常行为用户识别设备包括:
存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述异常行为用户识别设备执行如权利要求1-6中任一项所述的异常行为用户识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-6中任一项所述的异常行为用户识别方法的步骤。
CN202111095865.7A 2021-09-18 2021-09-18 异常行为用户识别方法、装置、设备及存储介质 Pending CN113779568A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111095865.7A CN113779568A (zh) 2021-09-18 2021-09-18 异常行为用户识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111095865.7A CN113779568A (zh) 2021-09-18 2021-09-18 异常行为用户识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113779568A true CN113779568A (zh) 2021-12-10

Family

ID=78852018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111095865.7A Pending CN113779568A (zh) 2021-09-18 2021-09-18 异常行为用户识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113779568A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449106A (zh) * 2022-02-10 2022-05-06 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质
CN116980239A (zh) * 2023-09-25 2023-10-31 江苏天创科技有限公司 一种基于sase的网络安全监控预警方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809745A (zh) * 2017-05-02 2018-11-13 中国移动通信集团重庆有限公司 一种用户异常行为检测方法、装置及系统
WO2019120241A1 (zh) * 2017-12-22 2019-06-27 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
WO2020038353A1 (zh) * 2018-08-21 2020-02-27 瀚思安信(北京)软件技术有限公司 异常行为检测方法及系统
WO2020062690A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 基于大数据分析的非法用户识别方法及装置、电子设备
CN111391784A (zh) * 2020-03-13 2020-07-10 Oppo广东移动通信有限公司 信息提示方法、装置、存储介质及相关设备
CN111783875A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于聚类分析的异常用户检测方法、装置、设备及介质
CN111798274A (zh) * 2020-07-03 2020-10-20 中国烟草总公司湖南省公司 零售户识别方法、终端及可读存储介质
US20200351283A1 (en) * 2019-05-01 2020-11-05 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809745A (zh) * 2017-05-02 2018-11-13 中国移动通信集团重庆有限公司 一种用户异常行为检测方法、装置及系统
WO2019120241A1 (zh) * 2017-12-22 2019-06-27 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
WO2020038353A1 (zh) * 2018-08-21 2020-02-27 瀚思安信(北京)软件技术有限公司 异常行为检测方法及系统
WO2020062690A1 (zh) * 2018-09-25 2020-04-02 平安科技(深圳)有限公司 基于大数据分析的非法用户识别方法及装置、电子设备
US20200351283A1 (en) * 2019-05-01 2020-11-05 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
CN111391784A (zh) * 2020-03-13 2020-07-10 Oppo广东移动通信有限公司 信息提示方法、装置、存储介质及相关设备
CN111783875A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于聚类分析的异常用户检测方法、装置、设备及介质
CN111798274A (zh) * 2020-07-03 2020-10-20 中国烟草总公司湖南省公司 零售户识别方法、终端及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449106A (zh) * 2022-02-10 2022-05-06 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质
CN114449106B (zh) * 2022-02-10 2024-04-30 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质
CN116980239A (zh) * 2023-09-25 2023-10-31 江苏天创科技有限公司 一种基于sase的网络安全监控预警方法及系统
CN116980239B (zh) * 2023-09-25 2023-11-24 江苏天创科技有限公司 一种基于sase的网络安全监控预警方法及系统

Similar Documents

Publication Publication Date Title
CN113657545B (zh) 用户业务数据的处理方法、装置、设备及存储介质
CN109614816A (zh) 数据脱敏方法、装置及存储介质
CN113779568A (zh) 异常行为用户识别方法、装置、设备及存储介质
EP3267348A1 (en) Method and apparatus for recognizing risk behavior
WO2006094002A1 (en) Hierarchical determination of feature relevancy for mixed data types
CN111090807B (zh) 一种基于知识图谱的用户识别方法及装置
WO2021189975A1 (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
CN114564741A (zh) 基于匿名化分析的大数据隐私保护方法及大数据处理设备
CN113570200A (zh) 一种基于多维信息的电网运行状态监测方法及系统
CN115577701A (zh) 针对大数据安全的风险行为识别方法、装置、设备及介质
CN113609346B (zh) 基于企业关联关系的自然人人名消歧方法、设备和介质
CN114118370A (zh) 模型训练方法、电子设备和计算机可读存储介质
KR101810860B1 (ko) 개인정보 보안제품 통합관제 시스템
CN108985755B (zh) 一种账号状态识别方法、装置及服务器
CN112990753A (zh) 用于路侧设备的故障诊断的方法、装置及设备
CN112288317A (zh) 一种基于多源异构数据治理的工业大数据分析平台和方法
CN113839956B (zh) 数据安全评估方法、装置、设备及存储介质
CN115147020B (zh) 装修数据处理方法、装置、设备及存储介质
CN106533784A (zh) 一种提高应用层流量分类准确率的方法
CN113095604B (zh) 产品数据的融合方法、装置、设备及存储介质
CN113360899B (zh) 一种机器行为的识别方法及系统
CN113722437B (zh) 基于人工智能的用户标签识别方法、装置、设备及介质
JP6988828B2 (ja) 照合処理装置、照合処理方法、及び、照合処理プログラム
CN113254672A (zh) 异常账号的识别方法、系统、设备及可读存储介质
Saravanakumar et al. Secure personal authentication in fog devices via multimodal rank‐level fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination