CN103593609A - 一种可信行为识别的方法和装置 - Google Patents

一种可信行为识别的方法和装置 Download PDF

Info

Publication number
CN103593609A
CN103593609A CN201210293487.8A CN201210293487A CN103593609A CN 103593609 A CN103593609 A CN 103593609A CN 201210293487 A CN201210293487 A CN 201210293487A CN 103593609 A CN103593609 A CN 103593609A
Authority
CN
China
Prior art keywords
data set
focus
behavioral data
action
credible
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210293487.8A
Other languages
English (en)
Other versions
CN103593609B (zh
Inventor
李剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210293487.8A priority Critical patent/CN103593609B/zh
Publication of CN103593609A publication Critical patent/CN103593609A/zh
Application granted granted Critical
Publication of CN103593609B publication Critical patent/CN103593609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/316User authentication by observing the pattern of computer usage, e.g. typical user behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种可信行为识别的方法和装置,其中所述方法包括:预置可信行为数据集合以及不可信行为数据集合;获取特定行为的目标页面焦点行为数据;判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;若归属于可信行为数据集合,则允许所述特定行为的执行;若归属于不可信行为数据集合,则中止所述特定行为的执行。本申请的一种可信行为识别的方法和装置,用以准确检测出网上的不可信行为,提高对可信行为识别的准确性,尤其是可信支付行为的准确性,从而提高用户网上操作的安全性。

Description

一种可信行为识别的方法和装置
技术领域
本申请涉及可信计算的技术领域,特别是涉及一种可信行为识别的方法和一种可信行为识别的装置。
背景技术
随着网络技术和应用的飞速发展,互联网日益呈现出复杂、异构等特点,当前的网络体系已经暴露出严重的不足,网络正面临着严峻的安全和服务质量保证问题等重大挑战。例如,在网络支付中,用户账户存在大量风险。如:账户盗用、账户欺诈。账户欺诈又包含很多种形式,如用户被网络钓鱼、客户端中木马、被虚假客服欺诈等等。这些威胁严重影响了用户账户的资金安全、信息安全。
目前,网络可信问题已得到全世界的重视,保障网络的可信成为网络进一步发展的迫切需求。可信计算是研究网络可信的关键,尽管目前尚没有一个明确的定义,但人们对可信计算的目的都有统一的认识:提高网络和服务的安全性。在可信计算中,可信信息的来源包括直接经验、推荐信息和用户的历史行为数据。其中,用户的历史行为数据是一个最客观的重要信息来源,其真实地反映了用户的行为变化,但要从庞杂的用户历史行为数据中提取出有用的信息是非常困难的。
以网络支付中的可信行为识别为例,现有技术中,用户的行为风险分析是根据用户的业务行为进行判断的,如针对用户支付过程中,每个业务操作的行为:用户登录-》用户浏览商品页面-》用户下单购买-》用户确认支付进行如下分析:
1)用户在以上整个支付环节中操作环境的可信度(如是否为异地登陆);
2)黑白名单可信度判断(如:付款IP地址是否在黑名单内);
3)创建交易的IP地址是否频率很快等。
这种现有技术往往会出现以下问题:
a)批量CC(ChallengeCollapsar)攻击引起的异常支付行为,特别是一些速率较慢的攻击方式,如:批量创建交易、炒作信用的行为,这些异常交易由于完全在攻击者控制之下进行,攻击者即是账户的所有者,基于用户支付行为的可信分析方法无法检测出异常;
b)在正常用户电脑中木马,木马在用户电脑上自动创建交易、自动付款。比如:用户在中木马时,木马会在用户电脑上自动创建付款交易,如果用户没有使用安全认证产品、仅仅使用了数字证书,或者使用U盾且U盾正好插在电脑上的时候,就会被木马远程自动创建交易,造成用户资金损失。
c)基于黑白名单、异地登陆等技术判断支付过程是否可信,往往会造成较大误杀。
d)第三方支付平台还会遇到批量盗用的事件。黑客利用各种方式获取用户认证信息,并且,使用机器爬虫进行批量登录,批量付款,批量销赃,造成支付平台用户大量资金损失和信息泄露。
以上只是列举了一些场景,在这些场景中,由于在用户登录-》用户浏览商品页面-》用户确认购买-》用户确认支付的过程中,用户业务行为都是正常的,无法检测出不可信的支付行为。即采用现有技术很难对可信行为进行准确识别,尤其是很难对可信支付行为进行准确识别。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种可信行为识别的机制,用以准确检测出网上的不可信行为,提高对可信行为识别的准确性,尤其是可信支付行为的准确性,从而提高用户网上操作的安全性。
发明内容
本申请的目的是提供一种可信行为识别的方法和装置,用以准确检测出网上的不可信行为,提高对可信行为识别的准确性,尤其是可信支付行为的准确性,从而提高用户网上操作的安全性。
为了解决上述问题,本申请公开了一种可信行为识别的方法,包括:
预置可信行为数据集合以及不可信行为数据集合;
获取特定行为的目标页面焦点行为数据;
判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
若归属于可信行为数据集合,则允许所述特定行为的执行;
若归属于不可信行为数据集合,则中止所述特定行为的执行。
优选地,所述预置可信行为数据集合以及不可信行为数据集合的步骤包括:
采集历史的页面焦点行为数据;
将所述历史的页面焦点行为数据按指定格式转换为样本数据;
对所述样本数据进行聚类,形成多个相似样本数据的集合;
分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
优选地,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述预置可信行为数据集合以及不可信行为数据集合的步骤还包括;
将所采集的历史页面焦点行为数据中的无效数据进行删除;
从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据。
优选地,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
优选地,所述对样本数据进行聚类,形成多个相似样本数据的集合的步骤进一步包括:
若样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1,a2,...,aJ};
使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合,则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合Cj的充分必要条件,其中,所述相似度采用欧式距离取倒数的计算方法。
优选地,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址;
统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
优选地,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
若出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;
若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,则判定当前相似样本数据集合的类别为可信行为类别;
若出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值,则统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
优选地,所述方法,还包括:
定期更新所述可信行为数据集合以及不可信行为数据集合。
优选地,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述判断目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤包括:
将所述目标页面焦点行为数据中的无效数据进行删除;
将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。
优选地,所述根据指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤进一步包括:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:Similar(X,mj),j∈[1,k];
其中,k=k1+k2
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Simlarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。
本申请实施例还公开了一种可信行为识别的装置,包括:
聚类模块,用于预置可信行为数据集合以及不可信行为数据集合;
行为焦点数据获取模块,用于获取特定行为的目标页面焦点行为数据;
可信行为判断模块,用于判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,允许所述特定行为的执行;
不可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,中止所述特定行为的执行。
优选地,所述聚类模块包括:
历史数据采集子模块,用于采集历史的页面焦点行为数据;
样本生成子模块,用于将所述历史的页面焦点行为数据按指定格式转换为样本数据;
聚类处理子模块,用于对所述样本数据进行聚类,形成多个相似样本数据的集合;
类别确定子模块,用于分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
数据集合组织子模块,用于将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
优选地,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述聚类模块还包括;
无效数据删除子模块,与历史数据采集子模块连接,用于将所采集的历史页面焦点行为数据中的无效数据进行删除;
抽样子模块,用于从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据,并传输至样本生成子模块。
优选地,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
优选地,所述装置,还包括:
更新模块,用于定期更新所述可信行为数据集合以及不可信行为数据集合。
优选地,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
优选地,所述可信行为判断模块包括:
数据清洗子模块,用于将所述目标页面焦点行为数据中的无效数据进行删除;
格式转换子模块,用于将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
相似度判定子模块,用于根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合
与现有技术相比,本申请包括以下优点:
现有技术中,面对真实环境中的海量数据,没有很好的手段能够将用户行为进行分类(分类要求用户类别已知、用户每一类别的特征已知),而本申请通过采集用户的历史页面焦点行为数据,进行建模分析,将用户行为聚类成不同类别,并标记出可信类别和非可信类别。然后在用户特定行为过程中,基于页面焦点行为数据进行可信支付行为分析,通过实时采集用户操作数据,与预置的聚类类别进行对比,从而实现对用户的特定行为实时地可信判断。本申请能够更加细致、精确地描述用户的特定行为,对于不可信的行为,能够更准确的被发现,并会对不可信行为发起验证或阻断该特定行为的继续执行,从而可以有效提高用户网上操作的安全性。
附图说明
图1是本申请的一种可信行为识别的方法实施例的步骤流程图;
图2是本申请的一种可信行为识别的装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,采用基于页面焦点行为的可信分析机制对用户的特定行为进行可信识别,具体而言,即通过采集用户在特定业务过程中(如网络支付业务过程中)的页面焦点行为,使用页面焦点行为数据对用户行为进行刻画,对历史行为进行建模聚类,并对用户的特定行为进行实时的可信支付判断。若为可信行为,则允许该特定行为继续执行,若为不可信行为,则向用户发起验证或阻断该特定行为的继续执行。
参照图1,其示出了本申请的一种可信行为识别的方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,预置可信行为数据集合以及不可信行为数据集合;
在本申请的一种优选实施例中,所述可信行为数据集合以及不可信行为数据集合可以通过对历史的页面焦点行为数据进行建模聚类生成,具体可以包括如下子步骤:
子步骤S11,采集历史的页面焦点行为数据;
页面焦点行为数据是指在web页面中,用户正在操作的对象的相关数据。比如,用户正在输入用户名,页面焦点行为对象就是页面的用户名输入框;用户正在输入密码,页面焦点行为对象就是页面的密码输入框。页面焦点行为描述了用户在页面上操作的轨迹,可以用于刻画用户的行为。
页面焦点行为可以包括页面对象获得焦点和失去焦点两种行为。在本申请实施例中,所述页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
例如,假设所采集的历史页面焦点行为数据包括如下数据分组:
[{'y':118,'x':182,'type':1,'target':'username','time':125},src=’www.abc.com/xxx.htm’,
{'y':118,'x':182,'type':0,'target':'username','time':225},src=’www.abc.com/xxx.htm’},
{'y':356,'x':678,'type':1,'target':'password','time':525},herf=’www.abc.com/yyy.htm’},
{'y':356,'x':678,'type':0,'target':'password','time':725}],herf=’www.abc.com/yyy.htm’}]
上述每一条数据分组代表一次页面焦点行为对象的操作。其中,'x','y'用于标识焦点行为对象在web页面上的位置,'type'用于标识当前是失去焦点行为对象或获得焦点行为对象;'target'用于标识焦点操作当前的焦点行为对象;'time'用于标识当前页面焦点行为对象的操作距离页面加载的时间差;'src'、'herf'分别用于标识焦点行为对象的src属性以及herf属性。
在具体实现中,所述历史页面焦点行为数据可以使用Javascript(JS)脚本或客户端程序进行采集。还可以进一步在采集端对历史页面焦点行为数据进行加密,由服务端在接收到历史页面焦点行为数据后进行解密。
子步骤S12,将所采集的历史页面焦点行为数据中的无效数据进行删除;
在实际中,所述无效数据可以包括数据格式不正确,或数据解密失败的数据。
子步骤S13,从删除过无效数据的中抽样出预设数量的历史页面焦点行为数据;
在历史页面焦点行为数据量较大的情况下,可以采用数据抽样算法在海量的历史页面焦点行为数据中挑选出一部分历史页面焦点行为数据,如10万条,用于数据建模。
子步骤S14,将所述历史的页面焦点行为数据按指定格式转换为样本数据;
作为本申请实施例具体应用的一种示例,每条样本数据可以包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
其中,上述a1—a7每一维度都可以采用数字表示,即模型输入数据可以采用向量表示为:X={a1,a2,...,aJ]。
需要说明的是,上述a1—a7的设置仅仅用作示例,在实际中,本领域技术人员根据实际情况设置更多内容的样本数据,如还有a8,a9,a10等;或者,设置其它内容的样本数据都是可行的,本申请对此无需加以限制。
子步骤S15,对所述样本数据进行聚类,形成多个相似样本数据的集合;
在具体实现中,可以对历史页面焦点行为数据进行建模描述:
假设样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1.a2,...,aJ]。
在具体实现中,可以使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合(即第j个聚类),则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法可以为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合(聚类)Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合C1的充分必要条件,其中,所述相似度可以采用欧式距离取倒数的计算方法。
子步骤S16,分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
作为本申请实施例具体应用的一种示例,可以采用如下方式分别确定所述多个相似样本数据的集合的类别:
获取所述相似样本数据集合中样本数据的IP地址;
统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
例如,对于相似样本数据集合C1,假设其中样本数据的数量为n,则统计这n个样本数据的IP地址,计算每一个IP地址对应样本数据的个数,将该个数除以n,则得到每个IP在该类别集合C1中出现的百分比,将所有IP地址百分比求均值,即可得到该类别集合的“IP出现的百分比均值”。一般而言,非可信行为类别的IP地址出现的百分比均值较大,而可信行为类别的IP地址出现的百分比均值比较小。故可将高于第一预设阈值的相似样本数据集合的类别判定为不可信行为类别;将低于第一预设阈值的相似样本数据集合的类别判定为可信行为类别。
作为本申请实施例具体应用的另一种示例,可以采用如下方式分别确定所述多个相似样本数据的集合的类别:
获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
若出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;
若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,则判定当前相似样本数据集合的类别为可信行为类别;
若出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值,则统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。例如,计算一个相似样本数据集合中样本数据的IP地址、mac地址出现在黑名单和白名单中的比率。出现在黑名单中的比率较高的,则确定为非可信行为类别;出现在白名单中的比率较高的,则确定为可信行为类别。
当然,上述确定相似样本数据集合的类别的方法仅仅用作示例,上述两种示例也可以结合使用,本领域技术人员根据实际情况采用任一种确定方式都是可行的。需要说明的是,用于确定相似样本数据集合的类别的数据,不能为样本数据中的数据,即前述a1—a7。
子步骤S17,将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
在实际中,所述可信行为数据集合及不可信行为数据集合可以采用数据库的形式部署在一台服务器或多台服务器中。在实际应用中,若数据量较大,所述行为建模聚类过程可以使用hadoop(一个能够对大量数据进行分布式处理的软件框架)集群计算可以更好的支持运算。
在具体实现中,本申请实施例还可以包括如下步骤:
定期更新所述可信行为数据集合以及不可信行为数据集合。
由于历史页面焦点行为数据不断积累,需要定期更新历史数据,定期进行抽样、建模、聚类分析,从而保证数据模型和聚类结果的准确性。
步骤102,获取特定行为的目标页面焦点行为数据;
作为本申请实施例具体应用的一种示例,所述特定行为可以包括用户的网上支付行为,在这种情况下,所述目标页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
例如,一次用户支付行为涉及用户登录页面,用户浏览商品页面,用户下单购买页面以及用户确认支付页面,则目标页面焦点行为数据包括在上述各web页面上的焦点行为对象;相应的失去/获得焦点行为对象的时间;焦点行为对象在上述各web页面上的特征信息;以及失去/获得焦点行为对象的动作。
步骤103,判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
与前述对历史页面焦点行为数据进行抽样,建模,聚类的处理过程相应,在本申请的一种优选实施例中,所述步骤103可以包括如下子步骤:
子步骤S21,将所述目标页面焦点行为数据中的无效数据进行删除;
在实际中,所述无效数据可以包括数据格式不正确,或数据解密失败的数据。
子步骤S22,将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
作为本申请实施例具体应用的一种示例,所述样本数据的指定格式可以包括:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
其中,上述a1—a7每一维度都可以采用数字表示,即样本数据可以采用向量表示为:X={a1,a2,...,aJ]。
子步骤S23,根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。
具体而言,所述子步骤S23可以采用如下计算方式:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:
Similar(X,mj),j∈[1,k];
其中,k=k1+k2
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similamn(j-jr),并且Cj(j-jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。
当然,上述判断类别归属的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种类别归属判断方法均是可行的,本申请对此无需加以限制。
步骤104,若归属于可信行为数据集合,则允许所述特定行为的执行;
步骤105,若归属于不可信行为数据集合,则中止所述特定行为的执行。
例如,对于用户支付行为,若判定该次支付行为的目标页面焦点行为数据属于不可信行为数据集合,则中止用户支付行为的继续执行,并对此次不可信的支付行为加强认证校验,或禁止该次支付。
在实际应用中,上述判断目标页面焦点行为数据归属于何种类别的过程可以使用java语言做后台计算,并提供webservice(系统对外的接口)接口进行可信判断服务。所述页面焦点行为的可信判断,可以使用单独一个页面的焦点行为进行聚类和判断,也可以使用多个页面的焦点行为,组合在一起进行聚类和判断,本申请对此不作限制。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图2,示出了本申请的一种可信行为识别的装置实施例的结构框图,具体可以包括如下模块:
聚类模块201,用于预置可信行为数据集合以及不可信行为数据集合;
行为焦点数据获取模块202,用于获取特定行为的目标页面焦点行为数据;
可信行为判断模块203,用于判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
可信行为处理模块204,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,允许所述特定行为的执行;
不可信行为处理模块205,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,中止所述特定行为的执行。
在本申请的一种优选实施例中,所述聚类模块201可以包括如下子模块:
历史数据采集子模块,用于采集历史的页面焦点行为数据;
样本生成子模块,用于将所述历史的页面焦点行为数据按指定格式转换为样本数据;
聚类处理子模块,用于对所述样本数据进行聚类,形成多个相似样本数据的集合;
类别确定子模块,用于分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
数据集合组织子模块,用于将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
在本申请实施例中,所述页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
在具体实现中,所述聚类模块201还可以包括如下子模块;
无效数据删除子模块,与历史数据采集子模块连接,用于将所采集的历史页面焦点行为数据中的无效数据进行删除;
抽样子模块,用于从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据,并传输至样本生成子模块。
作为本申请实施例具体应用的一种示例,所述每条样本数据可以包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
在本申请的一种优选示例中,所述聚类处理子模块可以采用如下方式对样本数据进行聚类,形成多个相似样本数据的集合:
若样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1,a2,...,aJ];
使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合,则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合Cj的充分必要条件,其中,所述相似度采用欧式距离取倒数的计算方法。
在本申请的一种优选示例中,所述类别确定子模块可以进一步包括如下单元:
IP获取单元,用于获取所述相似样本数据集合中样本数据的IP地址;
第一统计单元,用于统计所述相似样本数据集合中各IP地址所占百分比的均值;
第一可信类别判定单元,用于在高于第一预设阈值时,判定当前相似样本数据集合的类别为不可信行为类别;
第二可信类别判定单元,用于在低于第一预设阈值时,判定当前相似样本数据集合的类别为可信行为类别。
在本申请的另一种优选示例中,所述类别确定子模块可以进一步包括如下单元:
通信地址获取单元,用于获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
第二统计单元,用于统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
第三可信类别判定单元,用于在出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值时,判定当前相似样本数据集合的类别为不可信行为类别;
第四可信类别判定单元,用于在出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值时,判定当前相似样本数据集合的类别为可信行为类别;
第三统计单元,用于在出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,在出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值时,则统计所述相似样本数据集合中各IP地址所占百分比的均值;
第五可信类别判定单元,用于在所述均值高于第一预设阈值时,判定当前相似样本数据集合的类别为不可信行为类别;
第六可信类别判定单元,用于在所述均值低于第一预设阈值时,判定当前相似样本数据集合的类别为可信行为类别。
在申请实施例中,还可以包括更新模块,用于定期更新所述可信行为数据集合以及不可信行为数据集合。
作为本申请实施例具体应用的一种示例,所述特定行为可以包括用户支付行为。在这种情况下,所述目标页面焦点行为数据可以包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
在具体实现中,所述可信行为判断模块203可以包括如下子模块:
数据清洗子模块,用于将所述目标页面焦点行为数据中的无效数据进行删除;
格式转换子模块,用于将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
相似度判定子模块,用于根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。
具体而言,所述相似度判定子模块可以采用如下方式进行归属判定:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:
Similar(X,mj),j∈[1,k];
其中,k=k1+k2
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similarmin(j=jr),并且Cj(j=jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种可信行为识别的方法和一种可信行为识别的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种可信行为识别的方法,其特征在于,包括:
预置可信行为数据集合以及不可信行为数据集合;
获取特定行为的目标页面焦点行为数据;
判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
若归属于可信行为数据集合,则允许所述特定行为的执行;
若归属于不可信行为数据集合,则中止所述特定行为的执行。
2.根据权利要求1所述的方法,其特征在于,所述预置可信行为数据集合以及不可信行为数据集合的步骤包括:
采集历史的页面焦点行为数据;
将所述历史的页面焦点行为数据按指定格式转换为样本数据;
对所述样本数据进行聚类,形成多个相似样本数据的集合;
分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
3.根据权利要求1或2所述的方法,其特征在于,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
4.根据权利要求3所述的方法,其特征在于,所述预置可信行为数据集合以及不可信行为数据集合的步骤还包括;
将所采集的历史页面焦点行为数据中的无效数据进行删除;
从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据。
5.根据权利要求4所述的方法,其特征在于,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
6.根据权利要求5所述的方法,其特征在于,所述对样本数据进行聚类,形成多个相似样本数据的集合的步骤进一步包括:
若样本数据的集合为D={X1,X2,...,Xn],样本数据的容量为nοXi,i∈[1,n]为某一样本数据,X={a1,a2,...,aJ];
使用聚类算法对所述样本数据的集合进行聚类,假设k表示聚类的样本数据的数目,Cj,j∈[1,k]表示第j个相似样本数据集合,则聚类后的类别相似样本数据集合为:H={C1,C2,...,Ck};
其中,所述聚类算法为:
假设mj为聚类Cj,j∈[1,k]的聚类中心,Similar(Xi,mj)为Xi和mj的相似度,即某条样本数据Xi和某个相似样本数据集合Cj的相似度;
定义Similarmin为类别最小相似度,Similar(Xi,mj)≥Similarmin,且Similar(Xi,mj)是Xi和所有类别聚类中心的最大相似度,为Xi属于某个相似样本数据集合Cj的充分必要条件,其中,所述相似度采用欧式距离取倒数的计算方法。
7.根据权利要求6所述的方法,其特征在于,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址;
统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
8.根据权利要求6所述的方法,其特征在于,所述分别确定多个相似样本数据的集合的类别的步骤进一步包括:
获取所述相似样本数据集合中样本数据的IP地址和/或MAC地址;
统计所述相似样本数据集合中IP地址和/或MAC地址出现在黑名单中的比率和出现在白名单中的比率;
若出现在黑名单中的比率高于第二预设阈值,且出现在白名单中的比率低于第三预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;
若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,则判定当前相似样本数据集合的类别为可信行为类别;
若出现在白名单中的比率低于第三预设阈值,且出现在黑名单中的比率低于第二预设阈值,或者,若出现在白名单中的比率高于第三预设阈值,且出现在黑名单中的比率高于第二预设阈值,则统计所述相似样本数据集合中各IP地址所占百分比的均值,若高于第一预设阈值,则判定当前相似样本数据集合的类别为不可信行为类别;若低于第一预设阈值,则判定当前相似样本数据集合的类别为可信行为类别。
9.根据权利要求1或2或3或5或6或7或8所述的方法,其特征在于,还包括:
定期更新所述可信行为数据集合以及不可信行为数据集合。
10.根据权利要求9所述的方法,其特征在于,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
11.根据权利要求2或4或5或6或7或8所述的方法,其特征在于,所述判断目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤包括:
将所述目标页面焦点行为数据中的无效数据进行删除;
将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。
12.根据权利要求11所述的方法,其特征在于,所述根据指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合的步骤进一步包括:
分别计算所述指定格式的目标页面焦点行为数据X,与可信行为数据集合中k1个相似样本数据集合,以及,与不可信行为数据集合中k2个相似样本数据集合的相似度:Similar(X,mj),j∈[1,k];
其中,k=k1+k2
从所述k个相似度中提取相似度最大值max(Similar(X,mj)),j∈[1,k];
假设当j=jr时,Similar(X,mj),j∈[1,k]获得最大值,则:
如果Similar(X,mj)≥Similarmn(j=jr),并且Cj(j=jr)为可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于可信行为数据集合;
如果Similar(X,mj)≥Simlarmn(j=jr),并且Cj(j=jr)为不可信行为类别的相似样本数据集合,则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合;
如果Similar(Xmj)<Similarmin(j=jr),则判定当前目标页面焦点行为数据支付行归属于不可信行为数据集合。
13.一种可信行为识别的装置,其特征在于,包括:
聚类模块,用于预置可信行为数据集合以及不可信行为数据集合;
行为焦点数据获取模块,用于获取特定行为的目标页面焦点行为数据;
可信行为判断模块,用于判断所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合;
可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,允许所述特定行为的执行;
不可信行为处理模块,用于在判定所述目标页面焦点行为数据归属于可信行为数据集合时,中止所述特定行为的执行。
14.根据权利要求13所述的装置,其特征在于,所述聚类模块包括:
历史数据采集子模块,用于采集历史的页面焦点行为数据;
样本生成子模块,用于将所述历史的页面焦点行为数据按指定格式转换为样本数据;
聚类处理子模块,用于对所述样本数据进行聚类,形成多个相似样本数据的集合;
类别确定子模块,用于分别确定所述多个相似样本数据的集合的类别,所述类别为可信行为类别或不可信行为类别;
数据集合组织子模块,用于将可信行为类别的相似样本数据集合组织为可信行为数据集合,将不可信行为类别的相似样本数据集合组织为不可信行为数据集合。
15.根据权利要求13或14所述的装置,其特征在于,所述页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
16.根据权利要求15所述的装置,其特征在于,所述聚类模块还包括;
无效数据删除子模块,与历史数据采集子模块连接,用于将所采集的历史页面焦点行为数据中的无效数据进行删除;
抽样子模块,用于从删除过无效数据的历史页面焦点行为数据中抽样出预设数量的历史页面焦点行为数据,并传输至样本生成子模块。
17.根据权利要求16所述的装置,其特征在于,所述每条样本数据包括如下数据内容:
焦点移动最小距离a1:是指两两焦点行为对象操作移动距离的最小值;
焦点移动最大距离a2:是指两两焦点行为对象操作移动距离的最大值;
焦点移动平均距离a3:是指两两焦点行为对象操作移动距离的平均值;
焦点移动最小速度a4:是指两两焦点行为对象操作移动速度的最小值;
焦点移动最大速度a5:是指两两焦点行为对象操作移动速度的最大值;
焦点移动平均速度a6:是指两两焦点行为对象操作移动速度的平均值;
焦点移动总距离a7:是指所有两两焦点行为对象操作移动距离的总和。
18.根据权利要求13或14或16或17所述的装置,其特征在于,还包括:
更新模块,用于定期更新所述可信行为数据集合以及不可信行为数据集合。
19.根据权利要求18所述的装置,其特征在于,所述目标页面焦点行为数据包括:
在web页面上的焦点行为对象;
失去/获得焦点行为对象的动作;
失去/获得焦点行为对象的时间;
焦点行为对象的特征信息,其中,所述特征信息包括:焦点行为对象在web页面上的位置;焦点行为对象的src属性以及herf属性;焦点行为对象的宽和高。
20.根据权利要求13或14或16或17或18或19所述的装置,其特征在于,所述可信行为判断模块包括:
数据清洗子模块,用于将所述目标页面焦点行为数据中的无效数据进行删除;
格式转换子模块,用于将删除过无效数据的目标页面焦点行为数据,转化为所述样本数据的指定格式;
相似度判定子模块,用于根据所述指定格式的目标页面焦点行为数据与可信行为数据集合中相似样本数据集合的相似度,以及,所述指定格式的目标页面焦点行为数据与不可信行为数据集合中相似样本数据集合的相似度,判定所述目标页面焦点行为数据归属于可信行为数据集合或不可信行为数据集合。
CN201210293487.8A 2012-08-16 2012-08-16 一种可信行为识别的方法和装置 Active CN103593609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210293487.8A CN103593609B (zh) 2012-08-16 2012-08-16 一种可信行为识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210293487.8A CN103593609B (zh) 2012-08-16 2012-08-16 一种可信行为识别的方法和装置

Publications (2)

Publication Number Publication Date
CN103593609A true CN103593609A (zh) 2014-02-19
CN103593609B CN103593609B (zh) 2017-04-12

Family

ID=50083742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210293487.8A Active CN103593609B (zh) 2012-08-16 2012-08-16 一种可信行为识别的方法和装置

Country Status (1)

Country Link
CN (1) CN103593609B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
CN105681303A (zh) * 2016-01-15 2016-06-15 中国科学院计算机网络信息中心 一种大数据驱动的网络安全态势监测及可视化方法
CN105868878A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 Mac地址的风险识别方法及装置
CN106372572A (zh) * 2016-08-19 2017-02-01 北京旷视科技有限公司 监控方法和装置
CN106469276A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
CN103944722B (zh) * 2014-04-17 2017-05-10 华北科技学院 一种互联网环境下用户可信行为的识别方法
CN107347051A (zh) * 2016-05-05 2017-11-14 阿里巴巴集团控股有限公司 一种业务报文处理方法及系统
CN107483500A (zh) * 2017-09-25 2017-12-15 咪咕文化科技有限公司 一种基于用户行为的风险识别方法、装置及存储介质
CN107622072A (zh) * 2016-07-15 2018-01-23 阿里巴巴集团控股有限公司 一种针对网页操作行为的识别方法及服务器、终端
CN108280766A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 交易行为风险识别方法及装置
CN108364226A (zh) * 2018-01-26 2018-08-03 阿里巴巴集团控股有限公司 识别可信交易的方法和装置
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN109703606A (zh) * 2019-01-16 2019-05-03 北京交通大学 基于历史运行数据的高速列车智能驾驶控制方法
CN109842858A (zh) * 2017-11-24 2019-06-04 中移(苏州)软件技术有限公司 一种业务异常订购检测方法及装置
CN110675140A (zh) * 2019-09-11 2020-01-10 中国银联股份有限公司 支付信息处理方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330383A (zh) * 2007-06-19 2008-12-24 瑞达信息安全产业股份有限公司 一种基于用户身份及行为可信的网络资源监管系统
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
US20110078775A1 (en) * 2009-09-30 2011-03-31 Nokia Corporation Method and apparatus for providing credibility information over an ad-hoc network
CN102469111A (zh) * 2010-10-29 2012-05-23 国际商业机器公司 网站访问分析方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101330383A (zh) * 2007-06-19 2008-12-24 瑞达信息安全产业股份有限公司 一种基于用户身份及行为可信的网络资源监管系统
US20110078775A1 (en) * 2009-09-30 2011-03-31 Nokia Corporation Method and apparatus for providing credibility information over an ad-hoc network
CN101968802A (zh) * 2010-09-30 2011-02-09 百度在线网络技术(北京)有限公司 一种基于用户浏览行为进行互联网内容推荐的方法与设备
CN102469111A (zh) * 2010-10-29 2012-05-23 国际商业机器公司 网站访问分析方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙爽: "《一种基于语义相似度的文本聚类算法》", 《南京航空航天大学学报》, vol. 38, no. 6, 31 December 2006 (2006-12-31), pages 712 - 716 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104917739B (zh) * 2014-03-14 2018-11-09 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
CN103944722B (zh) * 2014-04-17 2017-05-10 华北科技学院 一种互联网环境下用户可信行为的识别方法
CN105868878A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 Mac地址的风险识别方法及装置
CN105868878B (zh) * 2015-01-21 2019-11-15 阿里巴巴集团控股有限公司 Mac地址的风险识别方法及装置
CN106469276A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
CN106469276B (zh) * 2015-08-19 2020-04-07 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
CN105681303A (zh) * 2016-01-15 2016-06-15 中国科学院计算机网络信息中心 一种大数据驱动的网络安全态势监测及可视化方法
CN105681303B (zh) * 2016-01-15 2019-02-01 中国科学院计算机网络信息中心 一种大数据驱动的网络安全态势监测及可视化方法
CN107347051B (zh) * 2016-05-05 2021-02-05 阿里巴巴集团控股有限公司 一种业务报文处理方法及系统
CN107347051A (zh) * 2016-05-05 2017-11-14 阿里巴巴集团控股有限公司 一种业务报文处理方法及系统
CN107622072B (zh) * 2016-07-15 2021-08-17 阿里巴巴集团控股有限公司 一种针对网页操作行为的识别方法及服务器、终端
CN107622072A (zh) * 2016-07-15 2018-01-23 阿里巴巴集团控股有限公司 一种针对网页操作行为的识别方法及服务器、终端
CN106372572A (zh) * 2016-08-19 2017-02-01 北京旷视科技有限公司 监控方法和装置
CN106372572B (zh) * 2016-08-19 2019-11-12 北京旷视科技有限公司 监控方法和装置
CN108280766A (zh) * 2017-01-06 2018-07-13 阿里巴巴集团控股有限公司 交易行为风险识别方法及装置
CN107483500A (zh) * 2017-09-25 2017-12-15 咪咕文化科技有限公司 一种基于用户行为的风险识别方法、装置及存储介质
CN109842858A (zh) * 2017-11-24 2019-06-04 中移(苏州)软件技术有限公司 一种业务异常订购检测方法及装置
CN108364226B (zh) * 2018-01-26 2021-08-10 创新先进技术有限公司 识别可信交易的方法和装置
CN108364226A (zh) * 2018-01-26 2018-08-03 阿里巴巴集团控股有限公司 识别可信交易的方法和装置
CN108805174A (zh) * 2018-05-18 2018-11-13 广东惠禾科技发展有限公司 聚类方法及装置
CN109703606A (zh) * 2019-01-16 2019-05-03 北京交通大学 基于历史运行数据的高速列车智能驾驶控制方法
CN110675140A (zh) * 2019-09-11 2020-01-10 中国银联股份有限公司 支付信息处理方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN103593609B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN103593609A (zh) 一种可信行为识别的方法和装置
US11637847B2 (en) Threat mitigation system and method
CN109862018B (zh) 基于用户访问行为的反爬虫方法及系统
CN109831459B (zh) 安全访问的方法、装置、存储介质和终端设备
EP4066464A1 (en) Threat mitigation system and method
EP4248317A1 (en) Threat mitigation system and method
US20230353594A1 (en) Threat mitigation system and method
WO2021021722A1 (en) Threat mitigation system and method
WO2021050544A1 (en) Threat mitigation system and method
WO2021243197A1 (en) Threat mitigation system and method
CN116980162A (zh) 云审计的数据检测方法、装置、设备、介质及程序产品
CN112184241A (zh) 一种身份认证的方法及装置
WO2024178299A1 (en) Threat mitigation system and method
CN116346409A (zh) 网络安全防御方法、装置、设备及存储介质
US20230362187A1 (en) Event and rule-based dynamic security test system
Rao et al. A novel approach for predicting phishing websites using the mapreduce framework
Zachara Identification of scanning and attacks against web applications with graph-based modeling of users' behavior
Ashwatha et al. Machine Learning Strategies to Detect Phishing Website
CN115758376A (zh) 威胁识别方法、装置、设备、介质和程序产品
CN117896155A (zh) 钓鱼网站的反制方法、装置、电子设备及存储介质
CN117787724A (zh) 一种风险用户检测方法、装置、计算机设备及存储介质
CN113034123A (zh) 异常资源转移识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191210

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Co., Ltd.