CN115470492A - 账户异常检测方法、装置、电子设备及存储介质 - Google Patents
账户异常检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115470492A CN115470492A CN202211275468.2A CN202211275468A CN115470492A CN 115470492 A CN115470492 A CN 115470492A CN 202211275468 A CN202211275468 A CN 202211275468A CN 115470492 A CN115470492 A CN 115470492A
- Authority
- CN
- China
- Prior art keywords
- page
- information
- preset
- account
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Automation & Control Theory (AREA)
- Virology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请提供一种账户异常检测方法、装置、电子设备及存储介质。该方法包括:获取一预设时间段内用户访问的页面信息,所述页面信息包括连续访问的各页面的信息;将所述页面信息转化为页面向量;提供一异常检测模型对所述页面向量进行判断,以得到所述页面向量在预设的多个页面向量中出现的概率;若所述概率小于预设概率,则判断所述用户对应的账户出现异常。通过该方式,能通过异常检测模型对各账户进行异常检测,从而能避免通过人工排查的方式对各账户进行处理,进而能提高检测异常账户的效率和准确率。
Description
技术领域
本申请涉及数据安全技术领域,具体而言,涉及一种账户异常检测方法、装置、电子设备及存储介质。
背景技术
网络攻击者可通过暴力破解获取到各用户在系统上的账户和密码,且在获取到各账户和各账户对应的密码后,网络攻击者可登录各用户的账户,获取用户的各数据,或利用该账户做一些非法的操作。
目前的技术只能检测到账户泄露和账户暴力破解的操作,对于已被泄露的账户,只能靠人工排查。但是,人工排查的方式速度较慢,效率较低,且准确性不高。
发明内容
本申请实施例的目的在于提供一种账户异常检测方法、装置、电子设备及存储介质,以提高检测已被泄露的账户的速率和准确性。
本发明是这样实现的:
第一方面,本申请实施例提供一种账户异常检测方法,包括:获取一预设时间段内用户访问的页面信息,所述页面信息包括连续访问的各页面的信息;将所述页面信息转化为页面向量;提供一异常检测模型对所述页面向量进行判断,以得到所述页面向量在预设的多个页面向量中出现的概率;若所述概率小于预设概率,则判断所述用户对应的账户出现异常。
在本申请实施例中,通过获取一预设时间段内用户访问的页面信息对应的页面向量,并提供一异常检测模型对该页面向量进行判断,得到页面向量在预设的多个页面向量中出现的概率,即得到用户对应的账户未被泄露的概率。并且,若该概率小于预设概率,则可判断该账户出现异常。通过该方式,能通过异常检测模型对各账户进行异常检测,从而能避免通过人工排查的方式对各账户进行处理,进而能提高检测异常账户的效率和准确率。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述方法还包括:获取预设次数的所述预设时间段内所述用户正常访问的页面信息,该页面信息包括连续访问的各页面的信息;将每次获取到的所述用户正常访问的页面信息转化为正常页面向量;通过预设的异常检测算法对所述正常页面向量进行处理,得到所述异常检测模型。
在本申请实施例中,通过将用户正常访问的各页面信息转换为各正常页面向量,且预设的异常检测算法可对各正常页面向量进行处理以进行无监督学习,使得不同的异常检测算法可通过计算各正常页面向量之间距离或密度等方式,将正常行为向量聚到一起,从而训练出异常检测模型。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述异常检测算法包括孤立森林算法,或局部异常因子算法,或自编码器算法,或单分类SVM算法,或聚类算法。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述提供一异常检测模型对所述页面向量进行判断之前,所述方法还包括:将所述页面向量与预设的页面关联库进行匹配,获取所述页面向量中的关联页面的个数,所述页面关联库包括多组有关联的页面信息;确定所述个数小于预设个数。
在本申请实施例中,因网络攻击者会使用泄露后的账户频繁访问某些敏感页面,而不会按照用户通常的行为模式访问各页面。因此,通过预先设置的页面关联库与用户访问的页面信息转化后的页面向量进行匹配,可获取该页面向量中的关联页面的个数,从而能根据该个数与预设个数之间的关系,判断该用户访问各页面的行为是否符合用户通常的行为模式,即若该个数小于预设个数,则用户访问各页面的行为不符合用户通常的行为模式,即表示账户被泄露。通过该方式,能避免通过人工的方式对各账户进行处理,且能提高检测异常账户的效率和准确率。此外,先通过上述方式确定账户异常后,再通过在根据异常检测模型检测账户是否异常,能提高最终确定的账户出现异常的结果的准确性,以及能提高检测效率。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述方法还包括:获取预设次数的所述预设时间段内所述用户正常访问的页面信息,该页面信息包括连续访问的各页面的信息;将每次获取到的所述用户正常访问的页面信息转化为正常页面向量;通过关联规则算法对各所述正常页面向量进行处理,得到多个关联页面;根据所述多个关联页面,生成所述页面关联库。
在本申请实施例中,通过上述方式,能快速且准确的生成包括多组有关联的页面信息的页面关联库。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在所述将所述各页面转化为页面向量之前,所述方法还包括:将所述页面信息转换为句向量;根据预设的词频统计信息和预设的困惑度算法对所述句向量进行处理,得到所述句向量对应的困惑度,所述词频统计信息为根据第一预设页面个数和第二预设页面个数在所述用户正常访问的各页面信息对应的各句向量中,统计出的连续页面的次数;确定所述困惑度大于预设阈值。
在本申请实施例中,若句向量对应的困惑度大于预设阈值,则表示该句向量对应的页面信息中,各连续的页面在预设的词频统计信息中出现的次数较低,即各页面的关联性较小,则该句向量对应的账户则可能不是用户自身操作访问的各页面,故可确定账户出现异常。通过该方式,能避免通过人工的方式对各账户进行处理,且能提高检测异常账户的效率和准确率。此外,先通过上述方式确定账户异常后,再通过在根据异常检测模型检测账户是否异常,能提高最终确定的账户出现异常的结果的准确性,以及能提高检测效率。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述方法还包括:获取所述用户正常访问的多个正常页面信息,所述正常页面信息包括按时间顺序访问的各页面的标识信息;从各所述正常页面信息中统计出所述连续页面的次数,生成所述词频统计信息;随机替换各所述正常页面信息中的页面标识,获取多个异常页面信息;根据所述词频统计信息和所述困惑度算法,计算出各所述正常页面信息和各所述异常页面信息对应的困惑度;基于各所述正常页面信息和各所述异常页面信息对应的困惑度,获取所述预设阈值。
在本申请实施例中,通过上述方式,能快速且准确的获取到词频统计信息和预设阈值。
第二方面,本申请实施例提供一种账户异常检测装置,包括:获取模块,用于获取一预设时间段内用户访问的页面信息,所述页面信息包括连续访问的各页面的信息;将所述页面信息转化为页面向量;检测模块,用于提供一异常检测模型对所述页面向量进行判断,以得到所述页面向量在预设的多个页面向量中出现的概率;若所述概率小于预设概率,则判断所述用户对应的账户出现异常。
第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器和所述存储器连接;所述存储器用于存储程序;所述处理器用于调用存储在所述存储器中的程序,执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种账户异常检测方法的步骤流程图。
图2为本申请实施例提供的一种构建异常检测模型的方法的步骤流程图。
图3为本申请实施例提供的一种构建页面关联库的方法的步骤流程图。
图4为本申请实施例提供的另一种账户异常检测方法的步骤流程图。
图5为本申请实施例提供的又一种账户异常检测方法的步骤流程图。
图6为本申请实施例提供的一种账户异常装置的模块框图。
图7为本申请实施例提供的一种电子设备的模块框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
鉴于目前的技术只能检测到账户泄露和账户暴力破解的操作,对于已被泄露的账户,只能靠人工排查。但是,人工排查的方式速度较慢,效率较低,且准确性不高。本申请发明人经过研究探索,提出以下实施例以解决上述问题。
以下结合图1对一种账户异常检测方法的具体流程及步骤进行描述。本申请实施例提供一种账户异常检测方法,可应用于各系统中,以对已被泄露的账户进行检测。
需要说明的是,本申请实施例提供的账户异常检测方法不以图1及以下所示的顺序为限制。
步骤S101:获取一预设时间段内用户(user)访问的页面信息。
其中,页面信息包括连续访问的各页面的信息。
步骤S102:将页面信息转化为页面向量。
步骤S103:提供一异常检测模型对页面向量进行判断,以得到页面向量在预设的多个页面向量中出现的概率。
步骤S104:若上述概率小于预设概率,则判断用户对应的账户(account)出现异常。
在本申请实施例中,通过获取一预设时间段内用户访问的页面信息对应的页面向量,并提供一异常检测模型对该页面向量进行判断,得到页面向量在预设的多个页面向量中出现的概率,即用户对应的账户未被泄露的概率。并且,若该概率小于预设概率,则可确定该账户出现异常。通过该方式,能通过异常检测模型对各账户进行异常检测,从而能避免通过人工排查的方式对各账户进行处理,进而能提高检测异常账户的效率和准确率。
在对各账户进行异常检测之前,可预先设置异常检测模型。请参阅图2,该异常检测模型的具体设置过程如下:
步骤S201:获取预设次数的预设时间段内用户正常访问的页面信息。
其中,预设次数和预设时间段均可根据实际情况进行设定,比如:预设次数可为30次,预设时间段可设置为6小时,即获取30次用户在6小时内正常访问的页面信息。可以理解的是,预设时间段设置的越长,每次获取页面信息越多,则越有利于后续对初始的异常检测模型的训练,但相应的,数据处理的内容会增加。并且,预设次数设置的越多,获取到的总的页面信息越多,则越有利于后续对初始的异常检测模型的训练,但相应的,处理的数据量会增加。
此外,用户正常访问的页面信息是指未被泄露的账户对应的用户访问的页面信息。页面信息可包括连续访问的各页面的信息,该信息可为页面的页面标识,其中,页面标识可以为页面的名称,或为能够表征各页面的内容。
示例性的,40分钟内用户正常访问的页面信息可包括:页面A、页面B、页面C、页面D、页面E和页面A,其中,A、B、C、D和E均为各页面的名称。且该页面信息表示用户在40分钟内浏览的网页顺序为:页面A、页面B、页面C、页面D、页面E、页面A。
在获取到页面信息后,本方法可继续进行步骤S202。
步骤S202:将每次获取到的用户正常访问的页面信息转化为正常页面向量。
在获取到各页面信息后,可通过预设的页面转换模型将各页面信息转化为正常页面向量。该页面转换模块可为词袋模型,或TF-IDF模型,或Word2Vec模型,或其他能够将页面信息转换为向量的模型。需要说明的是,词袋模型、TF-IDF模型和Word2Vec模型的原理可参照现有技术中的原理,避免赘述,此处不再说明。
示例性的,页面信息1包括:页面A、页面B、页面C、页面D、页面E和页面A,通过预设的页面转换模型可将该页面信息1转换为[1 2 3 4 5 1];页面信息2包括:页面A、页面B、页面C、页面A、页面B和页面A,通过预设的页面转换模型可将该页面信息2转换为[1 2 3 1 21]。
需要说明的是,在本申请实施例中,可预先设置正常页面向量的长度,使得转换后的各正常页面向量的长度相同。
具体的,若页面信息包括的页面个数与预先设置正常页面向量的长度相同,则可直接将页面信息转化为正常页面向量;若该页面个数小于该长度,则在将页面信息转化为正常页面向量之后,将该正常页面向量内的最后一个数据处补上预设的不表征页面的数字,以使该页面个数等于该长度;若该页面个数大于该长度,则从最后一个页面依次删除一个或多页面,以使删除页面后的页面信息包括的页面个数等于该长度,再对删除页面后的页面信息转化为对应的正常页面向量。
接着上述例子继续说明,预设的正常页面向量的长度为6,上述页面信息1和页面信息2均包括6个页面,则可以直接将上述页面信息1和页面信息2转化为正常页面向量。页面信息3可包括:页面A、页面B、页面C,即页面信息3只包括3个页面,通过预设的页面转换模型可将该页面信息3转化为[1 2 3 0 0 0],其中,0不表征页面。页面信息4可包括:页面A、页面B、页面C、页面B、页面C、页面A、页面C、页面A和页面B,即页面信息4包括9个页面,通过预设的页面转换模型可将该页面信息4转化为[1 2 3 2 3 1],即删除最后的页面C、页面A和页面B,再将删除后的页面信息4转化为正常页面向量。
通过上述方式,能使转换后的各正常页面向量长度统一,从而便于后续对各正常页面向量进行处理。
在将各页面信息转化为各正常页面向量之后,本方法可继续执行步骤S203。
步骤S203:通过预设的异常检测算法对正常页面向量进行处理,得到异常检测模型。
其中,异常检测算法可为孤立森林算法,或局部异常因子算法,或自编码器算法,或单分类SVM(Support Vector Machine,支持向量机)算法,或聚类算法。需要说明的是,孤立森林算法、局部异常因子算法、自编码器算法、单分类SVM算法和聚类算法的原理可参考现有技术中的原理,避免赘述,此处不再说明。
在本申请实施例中,通过将用户正常访问的各页面信息转换为各正常页面向量,且预设的异常检测算法可对各正常页面向量进行处理以进行无监督学习,使得不同的异常检测算法可通过计算各正常页面向量之间距离或密度等方式,将正常行为向量聚到一起,从而训练出异常检测模型。
在训练出异常检测模型之后,可使用该异常检测模型对各账户进行异常检测。请继续参阅图1,使用异常检测模型对各账户进行异常检测的操作如下:
步骤S101:获取一预设时间段内用户访问的页面信息。
其中,页面信息包括连续访问的各页面的信息。预设时间段与前述步骤S201处的预设时间段一致,比如:在训练异常检测模型时预设时间段为3小时,在检测时,也是获取3小时内的用户访问的页面信息。
在获取到页面信息后,本方法可继续进行步骤S102。
步骤S102:将页面信息转化为页面向量。
将页面信息转换为页面向量的操作,可参考前述步骤S202将用户正常访问的页面信息转化为正常页面向量的操作,避免赘述,此处不再说明。
需要说明的是,页面向量可与上述正常页面向量的长度一致,从而便于后续异常检测模型对该页面向量进行处理。
在获取得到页面向量后,本方法可继续进行步骤S103。
步骤S103:提供一异常检测模型对页面向量进行判断,以得到页面向量在预设的多个页面向量中出现的概率。
具体的,将页面向量输入异常检测模型,该异常检测模型则可输出页面向量在预设的多个页面向量中出现的概率,该概率表征账户未被泄露的概率。需要说明的是,预设的多个页面向量包括可能出现的所有页面向量。
在获取到页面向量在预设的多个页面向量中出现的概率后,本方法可继续进行步骤S104。
步骤S104:若概率小于预设概率,则判断用户对应的账户出现异常。
其中,预设概率可根据实际情况进行设定,比如:预设概率可为0.85,或0.9,或0.93,或0.95。可以理解的是,将预设概率设置的越大,则判断出的账户正常的结果越准确,但将一些正常的账户判定为异常的概率会增加;将预设概率设置的越小,则判断出的账户异常的结果越准确,但将一些异常的账户判定为正常的概率会增加。此外,上述账户出现异常表示账户已被泄露。
在本申请实施例中,通过上述方式,能通过异常检测模型对各账户进行异常检测,从而能避免通过人工排查的方式对各账户进行处理,进而能提高检测异常账户的效率和准确率。
进一步,若概率大于等于预设概率,则判断用户对应的账户为正常状态。
除了通过异常检测模型对页面信息转化的页面向量进行处理,还可使用预设的页面关联库与页面向量进行处理,以获得该页面信息中的关联页面个数,并以该关联页面个数判断账户是否异常。
请参阅图3,以下对建立页面关联库进行说明。
步骤S301:获取预设次数的预设时间段内用户正常访问的页面信息。
其中,页面信息包括连续访问的各页面的信息。需要说明的是,步骤S301可参考前步骤S201的说明,避免赘述,此处不再说明。
在获取到各页面信息后,本方法可继续进行步骤S302。
步骤S302:将每次获取到的用户正常访问的页面信息转化为正常页面向量。
需要说明的是,将页面信息转化为正常页面向量可参考前步骤S202处的说明,避免赘述,此处不再说明。
在获取到各正常页面向量之后,本方法可继续进行步骤S303。
步骤S303:通过关联规则算法对各正常页面向量进行处理,得到多个关联页面。
其中,关联规则算法(Apriori算法)的具体原理可参考现有技术中的原理,避免赘述,此处不再说明。
关联页面是指具有顺序且有关联多个页面,比如:针对某购物软件的页面1、购物软件中的用于商品搜索的页面2、商品详情页面3和新闻页面4,关联页面可为页面1、页面2和页面3,即在通常情况下,用户在打开某一购物软件的页面1后,可搜索商品(即打开页面2),在搜索商品后,可再选择某一商品(即打开页面3),而不会跳转至新闻页面;又比如:针对某新闻页面a、社会新闻页面b、某一具体社会新闻说明页面c和某工作说明的页面b,关联页面可为页面a、页面b和页面c,即在通常情况下,用户在打开某新闻页面a后,可选择社会新闻页面(即打开页面b),在选择完社会新闻后,可再选择某一具体的新闻进行阅读(即打开页面c),而不会跳转至页面b。
需要说明的是,多个关联页面的数量可以设置为同一的数量,即各关联页面均包括3个页面,或均包括4个页面;也可不对数量进行设置,即各关联页面所包括的页面数量可以相同,也可以不同。
在获取到多个关联页面后,本方法可继续进行步骤S304。
步骤S304:根据多个关联页面,生成页面关联库。
具体的,可将各组关联页面(即有关联的页面信息)设置于同一数据库中。示例性的,表1为页面关联库包括多组有关的页面信息的表格。
表1
编号 | 关联页面 |
1 | 1、2、3、4、5 |
2 | 6、2、3、4、7 |
3 | 1、3、4、8、9 |
4 | 2、1、3、4、10 |
5 | 2、1、3、6、11 |
在本申请实施例中,通过上述方式,能快速且准确的生成包括多组有关联的页面信息的页面关联库。
在生成页面关联库后,可利用该页面关联库对页面信息转化的页面向量进行处理,以获取该页面向量中该页面信息中的关联页面个数,并以该关联页面个数判断账户是否异常。
请参阅图4,以下对利用页面关联库判断账户是否异常的操作进行说明。
步骤S401:获取预设时间段内用户访问的页面信息。
其中,页面信息包括连续访问的各页面的信息。需要说明的是,步骤S401可参考前述步骤S101的说明,避免赘述,此处不再说明。
在获取到页面信息后,本方法可继续进行步骤S402。
步骤S402:将页面信息转化为页面向量。
将页面信息转换为页面向量的操作,可参考前述步骤S202将正常账户访问的页面信息转化为正常页面向量的操作,避免赘述,此处不再说明。
需要说明的是,页面向量可与上述正常页面向量的长度一致,从而便于后续异常检测模型对该页面向量进行处理。
在获取得到页面向量后,本方法可继续进行步骤S403。
步骤S403:将页面向量与预设的页面关联库进行匹配,获取页面向量中的关联页面的个数。
其中,页面关联库包括多组有关联的页面信息。上述将页面向量与预设的页面关联库进行匹配具体可为:将页面关联库中的每个关联页面信息与页面向量进行匹配,以获取页面向量中的关联页面的个数。
在获取到页面向量中的关联页面的个数后,本方法可继续进行步骤S404。
步骤S404:若个数小于预设个数,则确定账户出现异常。
其中,预设个数可根据实际情况进行设定,比如:预设个数可为3个,或4个,或5个。可以理解的是,预设个数可根据页面信息中包括的页面个数进行设置,即页面个数越多,则可将预设个数设置的越大。
在本申请实施例中,因网络攻击者会使用泄露后的账户频繁访问某些敏感页面,而不会按照用户通常的行为模式访问各页面。因此,通过预先设置的页面关联库与用户访问的页面信息转化后的页面向量进行匹配,可获取该页面向量中的关联页面的个数,从而能根据该个数与预设个数之间的关系,判断该用户访问各页面的行为是否符合用户通常的行为模式,即若该个数小于预设个数,则表示用户访问各页面的行为不符合用户通常的行为模式,即账户被泄露。通过该方式,能避免通过人工的方式对各账户进行处理,且能提高检测异常账户的效率和准确率。
进一步,若个数大于等于预设个数,则确定账户为正常状态。
需要说明的是,上述异常检测模型检测异常账户的方法和使页面关联库检测异常账户的方法可单独使用,以对判断账户是否异常;还可两者同时使用,即在两个方法均判断同一账户为异常账户时,确定该账户为异常账户,即已被泄露的账户。
此外,异常检测模型检测异常账户的方法和页面关联库检测异常账户的方法可有顺序的使用,分别是:
一、先使用异常检测模型检测异常账户的方法,通过该方法确定账户为异常后,再使用页面关联库检测异常账户的方法,根据页面关联库检测异常账户的方法确定账户是否为正常或异常。
二、先使用页面关联库检测异常账户的方法,通过该方法确定账户为异常后,再使用异常检测模型检测异常账户的方法,根据异常检测模型检测异常账户的方法确定账户是否为正常或异常。
需要说明的是,当异常检测模型检测异常账户的方法和页面关联库检测异常账户的方法可有顺序的使用时,可只获取一次预设时间段内账户访问的页面信息,以及只进行一次将页面信息转化为页面向量的操作。换言之,在使用第二个方法对账户进行异常检测时,可直接使用此前获取到的页面向量。
除了上述使用异常检测模型检测异常账户的方法和使用页面关联库检测异常账户的方法,还可通过计算各页面信息对应的困惑度的方法检测异常账号。
请参阅图5,以下对通过计算各页面信息对应的困惑度的方法检测异常账号的操作进行说明。
步骤S501:获取预设时间段内用户访问的页面信息。
其中,页面信息包括连续访问的各页面的信息。需要说明的是,步骤S401可参考前述步骤S101的说明,避免赘述,此处不再说明。
在获取到页面信息后,本方法可继续进行步骤S502。
步骤S502:将页面信息转换为句向量。
具体的,可将各页面的标识组织到一起形成对应的句向量,比如:页面信息包括:页面AA、页面BB、页面CC、页面AA和页面DD,其中,AA、BB、CC和DD为各网页的网址名称,则与该页面信息对应的句向量可为[AA BB CC AA DD]。
需要说明的是,可使用n-gram将页面信息转换为句向量。其中,n-gram可为3-gram。该n-gram和3-gram的原理可参考现有技术中的原理,避免赘述,此处不再说明。
在获取到句向量后,本方法可继续进行步骤S503。
步骤S503:根据预设的词频统计信息和预设的困惑度算法对句向量进行处理,得到句向量对应的困惑度。
其中,词频统计信息为根据第一预设页面个数和第二预设页面个数在正常账户访问的各页面信息对应的各句向量中,统计出的连续页面的次数。其中,第一预设页面个数和第二预设页面个数之间相差一个数,且第一预设页面个数小于第二预设页面个数,比如:第一预设页面个数为2个,则第二预设页面个数可为3个;又比如:第一预设页面个数为3个,则第二预设页面个数可为4个。
且该词频统计信息可通过如下方式获取:获取用户正常访问的多个正常页面信息;从各正常页面信息中统计出上述连续页面的次数,生成词频统计信息。
其中,正常页面信息包括按时间顺序访问的各页面的标识信息。并且,可通过n-gram的方法对各正常页面信息进行处理,以获取第一预设页面个数对应的各连续页面的次数,以及第二预设页面个数对应的各连续页面的次数。需要说明的是,n-gram的方法可与第二预设页面个数相关,即n为第二预设页面个数,比如:第二预设页面个数为3,则可使用3-gram的方法。
进一步,通过n-gram的方法对各正常页面信息进行处理可具体包括:先通过n-gram将各正常页面信息转化为对应的句向量,再将统计各句向量中第一预设页面个数对应的各连续页面的次数,以及第二预设页面个数对应的各连续页面的次数。
示例性的,各正常页面信息对应的句向量包括:[AA BB CC DD]、[AA BB CC DDEE]和[AA BB CC DD AA BB],且第一预设页面个数为2个,则第二预设页面个数可为3个,则可通过3-gram获取到AA,BB的次数为4次,BB,CC的次数为3次,CC,DD的次数为3次,DD,EE的次数为1次,DD,AA的次数为1次,AA,BB,CC的次数为3次,BB,CC,DD的次数为3次,CC,DD,EE的次数为1次,DD,AA,BB的次数为1次。根据上述各连续页面对应的次数,可得到对应的词频统计信息。
进一步,预设的困惑度算法对应的公式为:
其中,w为页面标识,wi为在句向量中第i个页面对应的页面标识,wi-1为在句向量中第i-1个页面对应的页面标识,wi-2为在句向量中第i-2个页面对应的页面标识,count为统计出的次数,即count(wi-2,wi-1,wi)为wi-2、wi-1和wi对应的连续页面在词频统计信息中出现的次数,count(wi-2,wi-1)为wi-2和wi-1对应的连续页面在词频统计信息中出现的次数,N为句向量的长度,即句向量中所包含的页面总个数。且count(wi-2,wi-1,wi)和count(wi-2,wi-1)的值可根据上述词频统计信息得到。
根据上述公式(1)和公式(2)可计算出句向量对应的困惑度,在获取到句向量对应的困惑度之后,本方法可继续进行步骤S504。
步骤S504:若困惑度大于预设阈值,则确定账户出现异常。
需要说明的是,在上述获取到词频统计信息之后,可接着获取预设阈值。获取预设阈值的方式如下:随机替换各正常页面信息中的页面标识,获取多个异常页面信息;根据词频统计信息和困惑度算法,计算出各正常页面信息和各异常页面信息对应的困惑度;基于各正常页面信息和各异常页面信息对应的困惑度,获取预设阈值。
其中,可使用字符UNK随机替换各正常页面信息中的页面标识,以获取多个异常页面信息。需要说明的是,字符UNK和使用该字符UNK随机替换字符的原理可参考现有技术中的原理,避免赘述,此处不再说明。
根据词频统计信息和困惑度算法,计算正常页面信息或异常页面信息对应的困惑度可参考上述获取困惑度的说明,避免赘述,此处不再说明。
此外,可在正常页面信息对应的各困惑的中使用n-sigma准则作为异常值的判断方式,且n值的确定可使用Grid-Search算法,即在给定的取值范围内,将n取不同值时对应的困惑度作为预设阈值,使用该预设阈值计算正常页面信息对应的误报率,以及异常页面信息对应的漏报率,取使得该误报率和该漏报率只会最小的n值对应的困惑度作为预设阈值。其中,n-sigma准则和Grid-Search算法的原理可参考现有技术中的原理,避免赘述,此处不再说明。
在本申请实施例中,若句向量对应的困惑度大于预设阈值,则表示该句向量对应的页面信息中,各连续的页面在预设的词频统计信息中出现的次数较低,即各页面的关联性较小,则该句向量对应的账户则可能不是用户自身操作访问的各页面,故可确定账户出现异常。通过该方式,能避免通过人工的方式对各账户进行处理,且能提高检测异常账户的效率和准确率。
进一步,若困惑度小于等于预设阈值,则确定账户正常。
需要说明的是,在本申请实施例中,还可使用上述计算页面信息对应的困惑度检测异常账户的方法,计算预设时间窗口内的各页面信息对应的各句向量对应困惑度,当该时间窗口内的困惑度大于预设阈值的句向量个数大于预设句向量个数时,可确定账户出现异常。其中,预设时间窗口和预设句向量个数可根据实际情况进行设定,比如:预设时间窗口可为10小时,或20小时;预设句向量个数可为5个,或10个。通过该方式,可提高检测账户是否出现异常的准确率。
此外,还需要说明的是,上述异常检测模型检测异常账户的方法和计算页面信息对应的困惑度检测异常账户的方法可单独使用,以对判断账户是否异常;还可两者同时使用,即在两个方法均判断同一账户为异常账户时,确定该账户为异常账户。
此外,异常检测模型检测异常账户的方法和计算页面信息对应的困惑度检测异常账户的方法可有顺序的使用,分别是:
一、先使用异常检测模型检测异常账户的方法,通过该方法确定账户为异常后,再使用计算页面信息对应的困惑度检测异常账户的方法,根据计算页面信息对应的困惑度检测异常账户的方法确定账户是否为正常或异常。
二、先使用计算页面信息对应的困惑度检测异常账户的方法,通过该方法确定账户为异常后,再使用异常检测模型检测异常账户的方法,根据异常检测模型检测异常账户的方法确定账户是否为正常或异常。
可以理解的是,当异常检测模型检测异常账户的方法和计算页面信息对应的困惑度检测异常账户的方法可有顺序的使用时,可只获取一次预设时间段内账户访问的页面信息。换言之,在使用第二个方法对账户进行异常检测时,可直接使用此前获取到的页面信息。
还需说明的是,异常检测模型检测异常账户的方法、页面关联库检测异常账户的方法和计算页面信息对应的困惑度检测异常账户的方法可单独使用,以对判断账户是否异常;还可三者同时使用,即在三个方法均判断同一账户为异常账户时,确定该账户为异常账户。
此外,异常检测模型检测异常账户的方法、页面关联库检测异常账户的方法和计算页面信息对应的困惑度检测异常账户的方法可有顺序的使用,即三者可以以任意顺序分别使用。但是,在三者有顺序的使用过程中,可在上一个方法确定账户异常之后,再进行下一个方法,比如:先使用异常检测模型检测异常账户的方法,通过该方法确定账户为异常后,再使用计算页面信息对应的困惑度检测异常账户的方法,通过计算页面信息对应的困惑度检测到账户异常后,再使用页面关联库检测异常账户的方法对账户进行检测;还可在上一个方法确定账户正常之后,再进行下一个方法,比如:先使用异常检测模型检测异常账户的方法,通过该方法确定账户为正常后,再使用计算页面信息对应的困惑度检测异常账户的方法,通过计算页面信息对应的困惑度检测到账户正常后,再使用页面关联库检测异常账户的方法对账户进行检测。
可以理解的是,当异常检测模型检测异常账户的方法、页面关联库检测异常账户的方法和计算页面信息对应的困惑度检测异常账户的方法有顺序的使用时,可只获取一次预设时间段内账户访问的页面信息,以及只进行一次将页面信息转化为页面向量的操作。换言之,在使用第二个方法或第三个方法对账户进行异常检测时,可直接使用此前获取到的页面信息或页面向量。
请参阅图6,基于同一发明构思,本申请实施例还提供一种账户异常检测装置100,该装置100包括:获取模块101和检测模块102。
获取模块101,用于获取一预设时间段内用户访问的页面信息,页面信息包括连续访问的各页面的信息;将页面信息转化为页面向量。
检测模块102,用于提供一异常检测模型对页面向量进行判断,以得到所述页面向量在预设的多个页面向量中出现的概率;若概率小于预设概率,则判断用户对应的账户出现异常。
可选的,账户异常检测装置100还包括构建模块103,该构建模块103用于获取预设次数的预设时间段内用户正常访问的页面信息,该页面信息包括连续访问的各页面的信息;将每次获取到的用户正常访问的页面信息转化为正常页面向量;通过预设的异常检测算法对正常页面向量进行处理,得到异常检测模型。
可选的,在提供一异常检测模型对页面向量进行判断之前,检测模块102还用于将页面向量与预设的页面关联库进行匹配,获取页面向量中的关联页面的个数,页面关联库包括多组有关联的页面信息;确定个数小于预设个数。
可选的,构建模块103还用于获取预设次数的预设时间段内用户正常访问的页面信息,该页面信息包括连续访问的各页面的信息;将每次获取到的用户正常访问的页面信息转化为正常页面向量;通过关联规则算法对各正常页面向量进行处理,得到多个关联页面;根据多个关联页面,生成页面关联库。
可选的,在将各页面转化为页面向量之前,检测模块102还用于将页面信息转换为句向量;根据预设的词频统计信息和预设的困惑度算法对句向量进行处理,得到句向量对应的困惑度,词频统计信息为根据第一预设页面个数和第二预设页面个数在用户正常访问的各页面信息对应的各句向量中,统计出的连续页面的次数;确定困惑度大于预设阈值。
可选的,构建模块103还用于获取用户正常访问的多个正常页面信息,正常页面信息包括按时间顺序访问的各页面的标识信息;从各正常页面信息中统计出连续页面的次数,生成词频统计信息;随机替换各正常页面信息中的页面标识,获取多个异常页面信息;根据词频统计信息和困惑度算法,计算出各正常页面信息和各异常页面信息对应的困惑度;基于各正常页面信息和各异常页面信息对应的困惑度,获取预设阈值。
请参阅图7,基于同一发明构思,本申请实施例提供的一种电子设备200的示意性结构框图,该电子设备200可用于实施上述的一种账户异常检测方法。本申请实施例中,电子设备200可以是,但不限于个人计算机(Personal Computer,PC)、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动上网设备(Mobile InternetDevice,MID)等。在结构上,电子设备200可以包括处理器210和存储器220。
处理器210与存储器220直接或间接地电性连接,以实现数据的传输或交互,例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。其中,处理器210可以是一种集成电路芯片,具有信号处理能力。处理器210也可以是通用处理器,例如,可以是中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器220可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器220用于存储程序,处理器210在接收到执行指令后,执行该程序。
应当理解,图7所示的结构仅为示意,本申请实施例提供的电子设备200还可以具有比图7更少或更多的组件,或是具有与图7所示不同的配置。此外,图7所示的各组件可以通过软件、硬件或其组合实现。
需要说明的是,由于所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序在被运行时执行上述实施例中提供的方法。
该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种账户异常检测方法,其特征在于,包括:
获取一预设时间段内用户访问的页面信息,所述页面信息包括连续访问的各页面的信息;
将所述页面信息转化为页面向量;
提供一异常检测模型对所述页面向量进行判断,以得到所述页面向量在预设的多个页面向量中出现的概率;
若所述概率小于预设概率,则判断所述用户对应的账户出现异常。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预设次数的所述预设时间段内所述用户正常访问的页面信息,该页面信息包括连续访问的各页面的信息;
将每次获取到的所述用户正常访问的页面信息转化为正常页面向量;
通过预设的异常检测算法对所述正常页面向量进行处理,得到所述异常检测模型。
3.根据权利要求2所述的方法,其特征在于,所述异常检测算法包括孤立森林算法,或局部异常因子算法,或自编码器算法,或单分类SVM算法,或聚类算法。
4.根据权利要求1所述的方法,其特征在于,在所述提供一异常检测模型对所述页面向量进行判断之前,所述方法还包括:
将所述页面向量与预设的页面关联库进行匹配,获取所述页面向量中的关联页面的个数,所述页面关联库包括多组有关联的页面信息;
确定所述个数小于预设个数。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取预设次数的所述预设时间段内所述用户正常访问的页面信息,该页面信息包括连续访问的各页面的信息;
将每次获取到的所述用户正常访问的页面信息转化为正常页面向量;
通过关联规则算法对各所述正常页面向量进行处理,得到多个关联页面;
根据所述多个关联页面,生成所述页面关联库。
6.根据权利要求1所述的方法,其特征在于,在所述将所述各页面转化为页面向量之前,所述方法还包括:
将所述页面信息转换为句向量;
根据预设的词频统计信息和预设的困惑度算法对所述句向量进行处理,得到所述句向量对应的困惑度,所述词频统计信息为根据第一预设页面个数和第二预设页面个数在所述用户正常访问的各页面信息对应的各句向量中,统计出的连续页面的次数;
确定所述困惑度大于预设阈值。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述用户正常访问的多个正常页面信息,所述正常页面信息包括按时间顺序访问的各页面的标识信息;
从各所述正常页面信息中统计出所述连续页面的次数,生成所述词频统计信息;
随机替换各所述正常页面信息中的页面标识,获取多个异常页面信息;
根据所述词频统计信息和所述困惑度算法,计算出各所述正常页面信息和各所述异常页面信息对应的困惑度;
基于各所述正常页面信息和各所述异常页面信息对应的困惑度,获取所述预设阈值。
8.一种账户异常检测装置,其特征在于,包括:
获取模块,用于获取一预设时间段内用户访问的页面信息,所述页面信息包括连续访问的各页面的信息;将所述页面信息转化为页面向量;
检测模块,用于提供一异常检测模型对所述页面向量进行判断,以得到所述页面向量在预设的多个页面向量中出现的概率;若所述概率小于预设概率,则判断所述用户对应的账户出现异常。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器用于运行存储在所述存储器中的程序,执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被计算机运行时执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211275468.2A CN115470492A (zh) | 2022-10-18 | 2022-10-18 | 账户异常检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211275468.2A CN115470492A (zh) | 2022-10-18 | 2022-10-18 | 账户异常检测方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470492A true CN115470492A (zh) | 2022-12-13 |
Family
ID=84337317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211275468.2A Pending CN115470492A (zh) | 2022-10-18 | 2022-10-18 | 账户异常检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470492A (zh) |
-
2022
- 2022-10-18 CN CN202211275468.2A patent/CN115470492A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101627592B1 (ko) | 비밀 정보의 검출 | |
US10990616B2 (en) | Fast pattern discovery for log analytics | |
WO2021135919A1 (zh) | 基于机器学习的sql语句安全检测方法、装置、设备及介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN111160021A (zh) | 日志模板提取方法及装置 | |
JP6777612B2 (ja) | コンピュータシステムにおけるデータ損失を防止するためのシステム及び方法 | |
WO2019148712A1 (zh) | 钓鱼网站检测方法、装置、计算机设备和存储介质 | |
RU2722692C1 (ru) | Способ и система выявления вредоносных файлов в неизолированной среде | |
CN110457595B (zh) | 突发事件报警方法、装置、系统、电子设备及存储介质 | |
CN109150886B (zh) | 结构化查询语言注入攻击检测方法及相关设备 | |
CN112364637A (zh) | 一种敏感词检测方法、装置,电子设备及存储介质 | |
CN110618999A (zh) | 数据的查询方法及装置、计算机存储介质、电子设备 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
US11620319B2 (en) | Search platform for unstructured interaction summaries | |
CN112559578B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN112231232A (zh) | 确定测试数据模型及生成测试数据的方法、装置及设备 | |
CN115470492A (zh) | 账户异常检测方法、装置、电子设备及存储介质 | |
CN114417883B (zh) | 一种数据处理方法、装置及设备 | |
CN111597310B (zh) | 一种敏感内容检测方法、装置、设备、介质 | |
CN113326699A (zh) | 数据检测方法、电子设备及存储介质 | |
CN109710898B (zh) | 文本的查重方法、装置、电子设备及存储介质 | |
CN112698877A (zh) | 数据处理方法及系统 | |
CN113238765B (zh) | 小程序的分发方法、装置、设备和存储介质 | |
CN113704237B (zh) | 异常数据检测方法及装置、电子设备 | |
CN116488948B (zh) | 机器行为异常检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |