CN107622072B - 一种针对网页操作行为的识别方法及服务器、终端 - Google Patents
一种针对网页操作行为的识别方法及服务器、终端 Download PDFInfo
- Publication number
- CN107622072B CN107622072B CN201610562322.4A CN201610562322A CN107622072B CN 107622072 B CN107622072 B CN 107622072B CN 201610562322 A CN201610562322 A CN 201610562322A CN 107622072 B CN107622072 B CN 107622072B
- Authority
- CN
- China
- Prior art keywords
- operation behavior
- clusters
- behavior information
- webpage operation
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000006399 behavior Effects 0.000 claims abstract description 472
- 230000002776 aggregation Effects 0.000 claims abstract description 56
- 238000004220 aggregation Methods 0.000 claims abstract description 56
- 230000004931 aggregating effect Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 150
- 238000004364 calculation method Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 10
- 230000006835 compression Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 25
- 238000012795 verification Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010079 rubber tapping Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002147 killing effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请提供了一种针对网页操作行为的识别方法及服务器、终端,其方法包括:获取待处理的网页操作行为数据;基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,其中所述历史网页操作行为信息库中的每个类簇是基于预定聚类规则对多份历史网页操作行为信息的聚合所得;基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。根据本申请的识别方法及服务器、终端,能够高效地识别出网页操作行为是否是恶意操作行为。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种针对网页操作行为的识别方法及服务器、终端。
背景技术
对于互联网领域的网站而言,常见的是网站为了激励用户增长,会通过向新注册用户发放电子代金券等形式来推动用户在该网站的注册量。正常情况下,各用户通过在注册页面进行输入、点击等一系列操作来完成注册。但是,个别用户为了在短时间内谋取不正当利益,采用恶意的网页操作行为,如设计程序自动快速地完成批量账户的注册,从而逃避通过手动一次次正常录入真实的注册信息来注册的真实操作行为,这种类似的个别实际用户的高频操作通常不仅会增加服务器的负担,还会浪费网站推广的费用。
为了识别这种恶意的网页操作行为,以便对其进行严格地处理,现有技术中通常采用对抗式的前端技术或以案件驱动的规则或模型来识别。
其中,对抗式的前端技术例如,某网站针对同一台计算机的注册请求,要求新注册用户数小于N个,否则对于注册数达到N以后的新用户,拒绝其注册请求。而个别用户通过不断尝试,发现了该规则,则在某台台计算机上设计了某程序,以基于该程序自动快速地完成N-1个以内的新用户的注册。接下来,该网站将新注册用户数阈值N下调为M(M小于N),而个别用户继续尝试,发现了该调整后的规则,其在同一台浏览器设计程序自动快速地完成M-1个以内的新用户的注册,以此类推。由此可知,对抗式的前端技术很容易导致攻防升级,需要不断建立新的规则来对抗。
其中,以案件驱动的规则来识别的技术主要存在滞后性的缺点,例如,某网站通过大量已发生的案件发现某IP地址存在过大量不正常的访问请求,则将该IP地址列入黑名单,以阻止该IP地址继续进行的不正常访问。但是,对于该IP地址被列入黑名单之前的不正常访问请求则无法回溯。
发明内容
本申请的一个目的是提供一种针对网页操作行为的识别方法及服务器、终端,以在分析大量历史用户针对网页操作行为数据的基础上,迅速准确地识别出线上的网页操作行为是恶意操作行为还是正常操作行为。
根据本申请的一个实施例,提供了一种针对网页操作行为的识别方法,包括:获取待处理的网页操作行为数据;基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,其中所述历史网页操作行为信息库中的每个类簇是基于预定聚类规则对多份历史网页操作行为信息的聚合所得;基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
根据本申请的另一个实施例,提供了一种针对网页操作行为的识别方法,包括:采集待处理的网页操作行为数据;将所述采集的网页操作行为数据发送至用于识别网页操作行为的服务器,其中,该服务器基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,并基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
根据本申请的另一实施例,还提供了一种针对网页操作行为的识别服务器,包括:待处理网页操作行为数据获取单元,用于获取待处理的网页操作行为数据;相对应类簇获取单元,用于基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,其中所述历史网页操作行为信息库中的每个类簇是基于预定聚类规则对多份历史网页操作行为信息的聚合所得;识别单元,用于基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
根据本申请的一个实施例,提供了一种针对网页操作行为的识别终端,包括:采集单元,用于采集待处理的网页操作行为数据;发送单元,用于将所述采集的网页操作行为数据发送至用于识别网页操作行为的服务器,其中,该服务器基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,并基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
与现有技术相比,本申请的实施例具有以下优点:
本申请的实施例通过数据挖掘计算,从海量历史用户进行网页操作的日志中寻找出具有某种聚集式特征的恶意网页操作行信息为,从而基于这些恶意网页操作行为信息和待处理的网页操作行为信息是否存在相近的聚集性特征,来识别出所述待处理的网页操作行为是否是恶意操作行为,从而为维护网站上用户生态的正常运转提供有力的数据支持。
并且,本申请的实施例可以规避激烈的攻防对抗,在线上系统能够轻量、快速易迭代地识别出集中而批量发生的恶意操作行为,使得攻击者看不到也“摸”不到,不会形成技术上硬对抗。
与传统的规则(或模型)系统相比,本申请所描述的恶意操作行为的分析与识别过程可以处于无人监督的情况,新型恶意操作行为的发现不依赖于新特征,而是依赖于不断新增到网页操作行为数据库中的操作行为数据,从而大大降低网站系统识别行为规则的更新周期。而且,本申请是针对每一次的操作行为进行实时识别,克服了现有技术中识别的滞后性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请一个实施例的针对用户在网页上的操作行为来进行识别的过程示意图;
图2为本申请一个实施例的针对网页操作行为的识别方法的流程图;
图3为本申请一个实施例的对图1步骤S302中的基于预定聚类规则对历史网页操作行为信息聚合进行描述的流程图;
图4为本申请一个实施例的对图1步骤S302中的从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇进行描述的流程图;
图5为本申请一个实施例的对图1中的步骤S303进行描述的流程图;
图6为本申请另一个实施例的针对网页操作行为的识别方法的流程图;
图7为本申请一个实施例的针对网页操作行为的识别服务器的示意性框图;
图8为本申请一个实施例的对图7中的单元102进行描述的示意性框图;
图9为本申请一个实施例的针对网页操作行为的识别终端的示意性框图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本申请作进一步详细描述。
首先,对本申请下文将涉及到的一些技术术语进行描述。
恶意操作行为,主要包括:针对本来需要由人工操作向网站请求实现某些功能(如请求在网站成功注册)的情形,由个别计算机上预先写入的程序自动实现这些功能所进行的操作。
正常操作行为,主要包括:针对本来需要由人工操作向网站请求实现某些功能(如请求在网站成功注册)的情形,仍由人工完成的操作(如为输入注册信息而由人工进行键盘的敲击操作)。通常情况下,对于实现同一请求,与恶意操作行为相比,正常操作行为所包括的操作时间或/和操作类型都是不同的。例如,就操作时间而言,正常操作行为往往更长。
线上数据库:或称线上实时数据库,用于在联网状态或/和特定应用程序运行时存储相应数据的仓库。该线上数据库通常在非联网状态,或者在联网状态但是特定应用程序没有运行时,其不会进行数据的存储。以特定应用程序为网页运行程序为例,在联网状态下,当用户开启计算机上的网页应用程序,线上数据库对该用户在网页上的操作数据进行存储;当用户开启计算机后并没有进行任何对网页的操作,则该线上数据库中的数据为空。
线下数据库:或称离线数据库,在离线状态下仍能存储数据的仓库。例如,该离线数据库中存储有大量用户对网页进行操作的历史信息。
类簇:指基于已知聚类规则所得到的、彼此相同或相似的一组数据对象的集合。本实施例中,所述数据对象尤其包括网页操作行为信息。
可疑恶意操作行为对应的类簇:可以指基于某些预定规则,被判定为可能是恶意操作行为对应的信息的集合。例如,基于某预定规则对所聚类的操作行为信息的各类簇聚集度的计算,将聚集度排序靠前的多个类簇定义为可疑恶意操作行为对应的类簇。
其次,为了更清楚地理解本申请,在分别描述本申请的方法和服务器、终端前,请参考图1,图1示出了本申请一个实施例的针对用户在网页上的操作行为来进行识别的过程示意图。
这里的操作行为,例如包括在网页上所进行的鼠标移动、点击、滚轮、键盘敲击等等行为。更具体的示例如,用户在某个网页上注册账户时所进行的将鼠标移动至注册框、通过键盘敲击操作将账户名和密码等信息输入到注册框、通过鼠标点击注册页面的提交标识将所述注册信息提交到该网页对应的网站等操作。
这里的识别主要指针对操作行为的性质进行识别,更具体地,针对操作行为是恶意操作行为还是正常操作行为进行识别。这里的恶意操作行为主要指在计算机上预先写入某种计算机程序,通过该计算机程序来自动完成通常情况下需要用户手动完成的操作行为。典型地如在计算机上编写不断向服务器主动发送请求的程序,从而替代用户手动地通过在页面输入某些内容并将这些内容提交到服务器来发送请求的操作。这里的正常操作行为主要指以符合网站要求的手动输入来完成某些网站任务的操作,例如对于某网站定点开始的某秒杀商品的活动,在邻近该定点时间时,用户通过手动地不断刷新网页页面并点击页面中的某按钮的操作来实现对某商品的低价购买。
对于本申请如何识别操作行为的过程,根据本申请的一个实施例,为了使线上更快更准确地识别用户在网页上的操作行为,将本申请的识别过程分为线上线下两个子过程来进行,如图1所示。
其中线上过程主要包括对待分析的操作行为数据进行采集,以及根据线上数据库中所存储的历史操作行为的数据与该采集的待分析操作行为数据,来识别该待分析操作行为是否是恶意操作行为。可选地,在识别后,线上过程还包括对识别后的操作行为的后续处理,如对于识别的正常操作行为,返回正常页面;对于识别的恶意操作行为,返回验证页面,通过验证来进一步确认该操作行为是否是恶意操作行为,如果验证通过,则修正原来的识别,确认其不是恶意操作行为。
其中线下过程主要包括将历史上所采集的操作行为数据进行解析,得到多个操作行为对应的类簇,并从中选择可疑恶意操作行为对应的类簇上传至线上数据库,供线上过程的使用。
具体地,对于线上过程,如图1所示,包括:
S101:采集待识别的网页操作行为数据。
对于待识别的网页操作行为,举例而言,响应于用户A通过鼠标双击客户端上的浏览器图标,客户端运行该浏览器,并基于网络向该浏览器默认的网站服务器发送请求,从而从网站服务器获取对应的网页,获取该网页后,进一步响应于用户A移动鼠标将计算机上的光标定位到该网页中的搜索框的操作,以及响应于其通过键盘的敲击在该搜索框中输入文字的操作。则对于该例子而言,用户A所涉及的网页操作可以包括:在打开网页后所进行的移动鼠标的操作以及为在搜索框输入文字而进行的敲击键盘的操作。
本实施例中,基于用户对网页的某些操作来实现向网站发送的不同请求,如基于用户输入并提交注册信息的操作实现向网站发送注册的请求,基于用户点击网页上的“购物车”图标实现向网站发送请求查看购物车中商品信息及价格信息的请求。
其中,上述例子中的客户端可以包括任何适用于本申请的方法、向网站服务器发送请求的计算机。
为了以较少的信息较完善地表征待识别的网页操作行为,本实施例中,操作行为数据主要包括操作的时间和操作的类型。
例如,针对用户在注册页面完成注册的操作,用户张三执行注册的操作的时间为1分钟,其所包括的操作的类型包括点击、敲击键盘(以输入内容)以及移动鼠标。
其中,所述网页操作行为数据的采集可以通过该操作行为所发生的客户端上的应用程序接口,调用用户的网页操作日志来实现;也可以通过相应数据传输接口,与提供网页操作行为数据的数据库或第三方设备进行交互,来获取该数据库或第三方设备中所存储或提供的网页操作行为数据等。
其中,所采集的数据的数据格式例如包括根据时间顺序所排列的包括数字、字符等在内的一条一条的文本记录。例如对于标识号为X的用户,其对应的一条操作记录为:X,09:03 100,鼠标移动。对于该条记录,X表示该用户的标识号,09:03 100表示该用户进行该项操作的时间点,鼠标移动表示该用户的该项操作类型。
S102:将该采集的网页操作行为数据存储至线上数据库,从而基于线上数据库将该采集的行为数据同步至线下数据库,供线下过程的处理。另外,所述线上数据库除存储实时采集的网页操作行为数据外,也接收来自线下过程所处理得到的可疑恶意操作行为对应的类簇,从而基于所接收到的类簇中的至少一部分与该采集的网页操作行为数据的对比分析,来确定待识别的网页操作行为是否是恶意操作行为。
S103:从线上数据库所存储的可疑恶意操作行为的类簇中进一步选择出与待识别的网页操作行为对应的类簇。
其中,所述选择可以基于预定计算规则来进行。例如下文将述的,当将待识别的网页操作行为数据和类簇都分别用向量来表示时,基于所计算的向量之间的距离,从而选择出距离较短的类簇作为与待识别的网页操作行为对应的类簇。
S104:基于选择出的类簇,识别出该待识别的网页操作行为是否是恶意操作行为。
具体地,可以基于预定的规则对这些类簇进行计算,基于计算的结果与预定阈值的比较,判断待识别的网页操作行为是否是恶意操作行为。
可选地,还包括S105:对识别后的操作行为的相应处理。如对于正常操作行为,返回正常页面;对于恶意操作行为,返回验证页面,通过验证来进一步判断该操作行为是否是恶意操作行为,如果验证通过,则修正原来的识别,判断其不是恶意操作行为。
对于线下过程,如图1所示,包括:
S201:解析离线数据库中的操作行为数据,例如将每一份操作行为所对应的操作时间和操作类型基于向量的形式进行表示,对此可参考图2的第一个步骤以及下文对该步骤的详细说明。
S202:基于预定的向量聚类规则,将多份历史网页操作行为信息的向量进行聚合,得到一个或多个类簇。
S203:从所得到的多个类簇中至少选择一部分类簇(如下文将述的可疑的恶意操作行为对应的类簇)上传至线上数据库,供线上处理。
上文示出了本申请一个实施例的识别网页操作行为的过程,下文将分别从方法和服务器、终端的角度对本申请的上述过程进行详细描述。
根据本申请的一个实施例,提供了一种针对网页操作行为的识别方法。
如上文所述,本申请的网页操作行为主要包括恶意操作行为和正常操作行为。其中恶意操作行为,例如包括用户通过编写计算机程序,从而基于该程序自动快速地在某网站上进行批量账户注册的行为。该恶意操作行为使得该用户在短时间内基于批量账户,增加了该网站服务器不必要的负担。其中,正常操作行为与上述恶意操作行为相对,通常指用户基于网站规定的要求所进行的正常操作或普通操作,例如用户在某个网页上注册账户时所进行的将鼠标移动至注册框、通过键盘敲击操作将账户名和密码等信息输入到注册框、通过鼠标点击注册页面的提交标识将所述注册信息提交到该网站等一系列操作。
本实施例针对网页操作行为的识别方法可由计算机设备来实现。更具体地,由特定的服务器来执行该方法。该特定的服务器通过接收来自终端所采集的网页操作行为数据,对其进行分析,从而识别出该网页操作行为是否是恶意操作行为。
请参考图2,本实施例的识别方法包括:
步骤S301,获取待处理的网页操作行为数据。
具体地,所述网页操作行为例如包括在网页上所进行的鼠标移动、点击、滚轮、键盘敲击等等行为。
所述网页操作行为数据,在本实施例中为了便于量化用户在网页的各种操作行为,在此主要包括操作的时间和操作的类型,这是因为通常用户在进行网页操作时针对每一个操作阶段(例如分为注册阶段、登录阶段等等)而言该操作所包括的操作类型和操作时间是有限的。
例如,就注册阶段的操作而言,通常包括的操作类型限于鼠标移动、点击、滚轮、键盘敲击等,通常包括的操作时间限于从打开注册页面至提交注册信息这一段时间,例如5分钟。
其中,所述待处理的网页操作行为数据的获取可以是线上实时获取的,所述待处理的网页操作行为数据可以通过现有技术从诸如用户的网页操作日志中获取。
步骤S302,基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,其中所述历史网页操作行为信息库中的每个类簇是基于预定聚类规则对多份历史网页操作行为信息的聚合所得。
具体地,所述历史网页操作行为信息库可以指存储有大量历史网页操作行为信息的数据库,为了便于在线下更方便地对所述数据库中的信息进行分析,所述数据库优选为离线数据库。可选地,当采用现有技术从线上获取到新的网页操作行为信息后,可以将该新的网页操作行为信息新增至该离线数据库。
其中,所述预先划分类簇的历史网页操作行为信息库可以指,基于预定的聚类规则对所述历史网页操作行为信息库中大量历史网页操作行为信息进行聚类而划分成的具有多个类簇的历史网页操作行为信息库。
此处的聚类,属于机器学习中的无监督学习,包括但不限于K-means聚类方法,其通过将大量历史网页操作行为信息划分为不同的簇,使得同一类簇聚合的多份历史网页操作行为信息的相似度尽可能高,并使得不同类簇的历史网页操作行为信息相似度尽可能低。
其中,所述每一份历史网页操作行为信息可以是针对每一个用户的每一个操作阶段而言,例如用户A在某一个时间段内的注册操作信息和用户B在另一个时间段或同一个时间段的注册操作信息或登录操作信息是两份历史网页操作行为信息。在此,由于不同用户在不同操作阶段,其操作类型的数量和操作的时间通常是不同的,因此,每一份历史网页操作行为信息所包括的时间信息可以根据具体的业务场景等来确定。
就上述的相似度而言,如果将历史网页操作行为信息以向量等数学形式来表达,则相似度可以基于不同向量之间的距离来表示,距离越大,相似度越低;反之,距离越小,相似度越高。其中,距离的计算可以采用现有技术来实现,例如基于已知技术中的欧几里得距离作为度量。
具体地,对于以向量的数学形式表达历史网页操作行为信息而言,请参考图3,根据本申请的一个实施例,上述步骤S302中的基于预定聚类规则对历史网页操作行为信息聚合具体包括:
步骤S401,基于各份历史网页操作行为信息所包括的操作时间和操作类型,构造该份历史网页操作行为信息的向量。
如上文所述,每一份历史网页操作行为信息可以是针对每一个用户的每一个操作阶段而言的,例如用户A从点击进入某网站的注册页面到在该注册页面提交注册信息为止的操作信息就是一份历史网页操作行为信息。
以获取到的某个用户(标识号ID为8947632)的一份历史操作行为信息为例,其具体内容如下表1所示:
表1
基于上述表1,该份历史网页操作行为信息所包括的操作时间从09:03 100至09:10 830,共计7730时间单位或时间片(该时间单位例如为毫秒),所包括的操作类型有鼠标移动、键盘敲击、鼠标点击三种。
如果以每份历史网页操作行为信息的向量的长度为:操作时间长度与操作类型的乘积,则构造所得到的该份历史网页操作行为信息的向量的长度为7730×3。
为了一方面减少计算量和减少向量所需的存储空间,一方面便于后续针对多份历史网页操作行为信息的向量的聚类过程,优选地,本实施例基于预定的信息压缩规则,可以针对每一份历史操作行为信息,构造与其对应的、长度固定的向量。
具体地,所述预定的信息压缩规则例如为,基于如下的计算公式和各份历史网页操作行为信息所包括的操作时间和操作类型,将每份历史网页操作行为信息不同长度的向量压缩成长度相等的向量:
其中,v表示压缩前该份历史网页操作行为信息的时间单位总和,u表示压缩后的第二时间单位总和,i的取值为1至u之间的整数,j的取值为预先设定的压缩后的向量的长度,xkj表示在压缩前第k个时间单位或时间片里中第j种操作的次数,yij表示压缩后得到的第i个第二时间单位里第j种操作的次数。
仍以上述表1为例,基于上述公式将7730时间单位内的操作序列缩放至第二时间单位总和为2、操作类型数为3的操作序列:
其中,1≤i≤2,1≤j≤3。
基于上述计算公式,得到下表2:
表2
基于上表2,对于压缩后得到的第1个第二时间单位里第一种操作“键盘敲击”的次数y11,其等于压缩前从0至这段时间片的总和内第一种操作“键盘敲击”的总次数,也即从09:03 100至09:06 965的这段时间内键盘敲击的总次数,包括09:04 130的一次键盘敲击a、09:04 350的一次键盘敲击b以及09:06 033的一次键盘敲击x,总计3次,同理计算y12=2,y13=1,y21=1,y22=1,y23=0。
如果将所述表2所示的信息表示成一维向量,则该向量为[3,2,1,1,1,0],从而有效地将原向量的长度7730×3有效地缩放至2×3=6的长度。
步骤S402,基于预定的向量聚类规则,将多份历史网页操作行为信息的向量进行聚合,得到一个或多个类簇,其中每个类簇包括多份历史网页操作行为信息的向量。
具体地,此处的向量聚类规则如上文所述,包括但不限于K-means聚类规则,通过将大量历史网页操作行为信息对应的向量划分为不同的簇,使得同一类簇聚合的多个向量的距离尽可能小,即相似度尽可能高,反之,使不同簇的向量的相似度尽可能低。
上文图3所示的实施例由于将用户的操作行为量化为仅包括操作时间和操作类型的向量,而不包括无需关注的繁琐操作内容,从而由于操作时间内的操作类型足够体现出操作行为所包括的基本信息,在保证信息处理的准确性上有利于减少计算量。
由于上文为了尽量还原用户在网页上某一段时间的行为,量化得到的操作行为信息的向量往往是非常长的,且非常稀疏,为了提高信息处理的效率,进一步减小计算量,本申请将较为稀疏的长向量变成能保留大部分原信息并且其所需存储空间更小的向量,即本实施例在所述步骤S402之前还可以包括:
-基于预定的降维规则,对所述构造的每份历史网页操作行为信息的向量降维。
其中,所述预定的降维规则优选采用已知的主成分分析(PCA,Principle CompentAnalysis)等技术对上述所量化得到的向量进行降维,例如将长度为6的稀疏向量压缩为长度为3的稠密向量,并使得降维后的向量保留约85%的原信息。
由此,所述步骤S402中将多份历史网页操作行为信息的向量进行聚合包括:
-将经过降维处理的所述多份历史网页操作行为信息的向量进行聚合。
此处聚合的方法如上文所述,例如包括但不限于K-means聚类规则。
在描述清楚历史网页操作行为信息库中的类簇之后,对于步骤S102中如何从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,请参考图4,所述步骤S302具体包括:
步骤S501,基于该待处理的网页操作行为数据所包括的操作时间和操作类型,构造该待处理网页操作行为信息的向量。
具体地,该步骤S501可以参考上述步骤S401中构造每份历史网页操作行为信息的向量的过程,在此不再详述。
其中,所述待处理网页操作行为信息的向量例如为:
[0.9696,0.5442,0.4476]。
步骤S502,基于各类簇预先计算得到的聚集度,从预先划分类簇的历史网页操作行为信息库中获取聚集度排名靠前N位的第一类簇集合,其中N是预设的正整数。
具体地,对于离线数据库中的已划分类簇的历史网页操作行为信息而言,各类簇的聚集度可以是预先计算并存储在该离线数据库中。
其中各类簇的聚集度计算可以参考下述公式来进行:
其中,DoAi表示第i个类簇的聚集度,ci表示第i个类簇所包括的用户数量或历史网页操作行为信息份数,j表示每一份历史网页操作行为信息的向量第几维度的编号,xj表示每一份历史网页操作行为信息的向量第几维度的数值,表示第i个类簇所包括的所有历史网页操作行为信息的向量第几维度的数值的平均值。
例如,以下表3所示的包括5个用户ID数的第6个类簇示例:
用户ID | 第一维 | 第二维 | 第三维 |
8947632 | 0.6243 | 0.9471 | 0.0608 |
9063632 | 0.5453 | 0.7771 | 0.0560 |
6475332 | 0.8605 | 0.8159 | 0.7161 |
6354824 | 0.6626 | 0.0009 | 0.5219 |
3562179 | 0.5472 | 0.6361 | 0.0892 |
表3
接下来计算该类簇的聚集度DoA6:
同理,可计算出a62=0.13810,a63=0.095735,进而得到:
在一个实施例中,按照聚集度从大到小的顺序将历史网页操作行为信息库中所有历史网页操作行为信息的向量所聚类的簇进行排序,并假定聚集度排序靠前N位(即聚集度较高)的多个类簇为可疑的恶意操作行为对应的类簇,由此得到可疑的多个类簇的集合。当然,此处仅是示例,也可以以其他的设定规则来得到可疑的多个类簇的集合。
步骤S503,获取代表该第一类簇集合中各类簇的代表向量。
具体地,为了后续计算的方便,对于第一类簇集合中的各类簇,获取代表该类簇的代表向量或中心向量。其中,该代表向量可以不是该类簇所包括的所有向量中的一个向量,例如是该类簇所包括的所有向量经取平均值所得到的向量,也可以是该类簇所包括的所有向量中的一个向量,例如是该类簇所包括的所有向量中与取平均值所得到的向量距离最近或较近的向量。
此处的向量距离,可以基于已知技术中的欧几里得距离作为度量。
例如,针对上述示例的第6个类簇而言,以该类簇各维度的平均值所得到的向量作为该类簇的代表向量或中心向量,则得到该类簇的代表向量N6为:[0.64798,0.63542,0.2888],同理假定经过计算,得到包括第6个类簇在内的多个类簇的代表向量各维度的值如下表4所示:
类号 | 第一维 | 第二维 | 第三维 |
6 | 0.64798 | 0.63542 | 0.2888 |
12 | 0.94932 | 0.47227 | 0.9567 |
1 | 0.05056 | 0.5645 | 0.69629 |
7 | 0.71625 | 0.43667 | 0.40884 |
4 | 0.97785 | 0.88513 | 0.4720 |
表4
由表4,可知,第12个类簇的代表向量或中心向量是[0.94932,0.47227,0.9567],第1个类簇的代表向量或中心向量是[0.05056,0.5645,0.69629],以此类推。
步骤S504,基于预定的距离度量规则,从所述代表向量中获取与所述待处理网页操作行为信息的向量的距离小于预定阈值或距离按照从小到大的顺序排序前M位的候选代表向量,其中M是预设的正整数。
具体地,以待处理网页操作行为信息的向量是[0.9696,0.5442,0.4476],所述历史网页操作行为信息库中包括的类簇如上述表4为例,基于欧几里得距离来度量待处理网页操作行为信息的向量与表4所示的多个代表向量的距离。例如计算第6个类簇的代表向量与该待处理网页操作行为信息的向量的欧几里得距离为:
同理,计算得到待处理网页操作行为信息的向量与第12类簇、第1类簇、第7类簇和第4类簇的距离分别约为0.5145,0.9523,0.2779,0.3419,由此可得到与待处理网页操作行为信息的向量距离最近即相似度最高的诸如前3个向量分别是第6类、第7类和第4类的代表向量,即这三个向量是候选代表向量。
可选地,由于实际的历史网页操作行为信息库中包括的类簇是海量的,如果遍历所有类簇一一计算待处理网页操作行为信息的向量与各类簇代表向量的距离,其计算效率将是非常低的,由此优选地采用现有技术中的kd树或随机映射等方法来更高效地得到与所述待处理网页操作行为信息的向量的距离小于预定阈值或距离按照从小到大的顺序排序前M位的候选代表向量。
步骤S505,将所述候选代表向量所代表的类簇作为所述待处理的网页操作行为数据相对应的类簇。
具体地,当采用向量之间的距离计算得到与所述待处理网页操作行为信息的向量的距离小于预定阈值或距离按照从小到大的顺序排序前M位的候选代表向量的情况下,将所述候选代表向量所代表的类簇作为所述待处理的网页操作行为数据相对应的类簇,以便于后续基于相对应类簇的整体来识别待处理的网页操作行为是否是恶意操作行为。
继续参考图1,步骤S303,基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
具体地,由于计算得到的与待处理的网页操作行为相对应的类簇,基于上文的理解,是与该待处理的网页操作行为存在较高相似度的类簇,也即,该待处理的网页操作行为与这几个相似度较高的类簇所代表的历史网页操作行为存在较高的相似性。并且,对于一个类簇而言,聚集度的高低如上文所述,往往可以反映该类簇所代表的操作行为的恶意性。从而,可以基于所得到的这几个相对应类簇的聚集度,来评估待处理的网页操作行为的恶意程度,从而基于所评估的恶意程度来识别所述待处理的网页操作行为是否是恶意操作行为。
可选地,请参考图5,所述基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为的步骤S303包括:
步骤S601,基于预先计算得到的所述对应的一个或多个类簇的聚集度,计算所述待处理的网页操作行为的恶意度。
在一个实施例中,所述步骤S601包括:
-针对所述对应的一个或多个类簇中各类簇,获取该各类簇所包括的多份网页操作行为信息所对应的网页操作行为中被历史识别为恶意操作行为的数量b;
-基于预定的计算规则和所述对应的一个或多个类簇预先计算得到的聚集度以及所述数量b,计算所述待处理的网页操作行为的恶意度。
下文对该实施例进行详述。
例如,以bs表示待处理的网页操作行为的恶意度,所述预定的计算规则如下所示:
其中,bi表示第i个对应的类簇所包括的多份网页操作行为信息所对应的网页操作行为中被历史识别为恶意操作行为的数量或者为第i个类簇所对应的网页操作行为在实际网页管理中被拦截访问的用户的数量,DoAi表示第i个类簇的聚集度。
具体地,以上文第6类、第7类和第4类为对应的类簇为例,假定这几个类簇中尚未产生被历史识别为恶意操作行为的数量或未产生被拦截访问的用户的数量,则b6、b7、b4都为0,假定经过计算,这三个类簇的聚集度DoA6、DoA7、DoA4分别为0.9836、0.6875和0.9658,则计算得到待处理的网页操作行为的恶意度为:
bs=DoA6+DoA7+DoA4=0.9836+0.6875+0.9658=2.6369
在另一个实施例中,为了更准确地识别恶意操作行为,在综合后续验证或用户反馈的情况下,所述步骤S601包括:
-针对所述对应的一个或多个类簇中各类簇,获取该各类簇所包括的多份网页操作行为信息所对应的网页操作行为中分别被历史识别为恶意操作行为的数量b和被历史误识别为恶意操作行为的数量p;
-基于预定的计算规则和所述对应的一个或多个类簇预先计算得到的聚集度以及所述数量b和数量p,计算所述待处理的网页操作行为的恶意度。
下文对该实施例进行详述。
例如,以bs表示待处理的网页操作行为的恶意度,所述预定的计算规则如下所示:
其中,bi表示第i个对应的类簇所包括的多份网页操作行为信息所对应的网页操作行为中被历史识别为恶意操作行为的数量或者为第i个类簇所对应的网页操作行为在实际网页管理中被拦截访问的用户的数量,pi表示第i个对应的类簇所包括的多份网页操作行为信息所对应的网页操作行为中被历史识别为恶意操作行为但是经后续验证或用户反馈证明不是恶意操作行为的数量,DoAi表示第i个类簇的聚集度。
具体地,以某个待处理的网页操作行为对应的类簇为第6类、第12类和第7类,假定第6类和第7类中产生被历史识别为恶意操作行为的数量或未产生被拦截访问的用户的数量分别是4,并且,经过后续验证,得到第6类和第7类中被历史识别为恶意操作行为但是经后续验证或用户反馈证明不是恶意操作行为的数量分别是1,而第12类中尚未产生被历史识别为恶意操作行为的数量或未产生被拦截访问的用户的数量,则b6、b12、b4分别是4、0和4,p6、p12和p4分别是1、0和1,假定经过计算,这三个类簇的聚集度DoA6、DoA12、DoA7分别为0.9836、0.563和0.6875,则计算得到待处理的网页操作行为的恶意度为:
步骤S602,如果所述恶意度大于预定阈值,则识别所述待处理的网页操作行为是恶意操作行为。
具体地,假定预定阈值设为2,则如果恶意度bs大于2,则识别所述待处理的网页操作行为是恶意操作行为,从而对该恶意网页操作行为进行诸如拦截等处理。
综上,由于机器终究存在误判的情形,上述实施例为了更好地不断提升网页操作行为识别的准确度,引入了被历史误识别为恶意操作行为的因子pi进行计算,有利于对原有判别方法的修正。
例如,当识别某用户的网页操作行为为恶意操作行为,对该恶意操作行为进行拦截后,在该用户的计算机上呈现验证页面,例如要求其输入验证码的页面,如果用户输入正确,则证明此次识别存在误判,从而对与该次网页操作行为的信息对应的类簇中的被历史识别为恶意操作行为但是经后续验证或用户反馈证明不是恶意操作行为的数量pi新增1,以修正对后续待识别的操作行为的恶意度的计算。
由此,基于不断地机器学习和修正,可以更准确地识别出网页操作行为是恶意操作行为还是正常操作行为。
可选地,对于本申请的上述各实施例而言,对于其包括的步骤如果涉及到的仅是对历史网页操作行为信息的处理,则可以线下处理;如果涉及到对待处理的网页操作行为数据的处理,则为了提升响应速度,可以线上实时处理,如此,基于线上线下的分工处理,可以更高效地针对网页操作行为进行识别。
与现有技术相比,本申请实施例具有以下优点:
1)本申请以用户在网页的操作类型在某一段时间内的个数量化用户在某一阶段中的行为,而无需关注繁琐的操作内容,在获取用户行为特征的情况下有效节省了计算成本;
2)本申请基于网页操作行为数据的聚类可以快速地发现可疑行为类簇,便于分布式计算,为线上应用系统更加有效地拦截恶意操作行为赢得了时间;
3)本申请还可以根据后续的验证或反馈来调整对以后的网页操作行为的判断,从而不断减少对正常网页操作行为的干扰。
根据本申请的另一个实施例,请参考图6,提供了一种针对网页操作行为的识别方法,该识别方法可以由网页操作行为所发生的终端来执行。
如图6所示,该识别方法包括:
步骤S701,采集待处理的网页操作行为数据。
具体地,所述网页操作行为数据的采集可以通过该操作行为所发生的终端上的应用程序接口调用相应用户进行网页操作的日志来实现。
其中,网页操作行为数据如上文所述,主要包括操作的时间和操作的类型。
其中,所采集的数据的数据格式例如包括根据时间顺序所排列的包括数字、字符等在内的一条一条的文本记录。例如对于标识号为X的用户,其对应的一条操作记录为:X,09:03 100,鼠标移动。对于该条记录,X表示该用户的标识号,09:03 100表示该用户进行该项操作的时间点,鼠标移动表示该用户的该项操作类型。
步骤S702,将所述采集的网页操作行为数据发送至用于识别网页操作行为的服务器,其中,该服务器基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,并基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
具体地,该该操作行为所发生的终端可以通过相应数据传输接口,将采集的网页操作行为数据发送至用于识别网页操作行为的服务器,以便于该服务器识别所采集的网页操作行为数据对应的网页操作行为是否是恶意操作行为。
其中,对于接收网页操作行为数据的服务器对该数据进行处理的过程可参考上文图2~图5所示的方法。
基于与方法同样的发明构思,本申请还提供一种针对网页操作行为的识别服务器。请参考图7,所述识别服务器包括:
待处理网页操作行为数据获取单元101,用于获取待处理的网页操作行为数据;
相对应类簇获取单元102,用于基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,其中所述历史网页操作行为信息库中的每个类簇是基于预定聚类规则对多份历史网页操作行为信息的聚合所得;
识别单元103,用于基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
可选地,请参考图8,相对应类簇获取单元102具体包括:
向量构造模块201,用于基于该待处理的网页操作行为数据所包括的操作时间和操作类型,构造该待处理网页操作行为信息的向量;
第一类簇集合获取模块202,用于基于各类簇预先计算得到的聚集度,从预先划分类簇的历史网页操作行为信息库中获取聚集度排名靠前N位的第一类簇集合,其中N是预设的正整数;
代表向量获取模块203,用于获取代表该第一类簇集合中各类簇的代表向量;
候选代表向量获取模块204,用于基于预定的距离度量规则,从所述代表向量中获取与所述待处理网页操作行为信息的向量的距离小于预定阈值或距离按照从小到大的顺序排序前M位的候选代表向量,其中M是预设的正整数;
相对应类簇获取模块205,用于将所述候选代表向量所代表的类簇作为所述待处理的网页操作行为数据相对应的类簇。
可选地,所述识别服务器还包括:
聚合单元(图中未示出),用于基于预定聚类规则对历史网页操作行为信息聚合;
其中所述聚合单元具体包括:
-历史操作向量构造模块(图中未示出),用于基于各份历史网页操作行为信息所包括的操作时间和操作类型,构造该份历史网页操作行为信息的向量;
-聚类模块(图中未示出),用于基于预定的向量聚类规则,将多份历史网页操作行为信息的向量进行聚合,得到一个或多个类簇,其中每个类簇包括多份历史网页操作行为信息的向量。
可选地,历史操作向量构造模块具体用于:
-基于各份历史网页操作行为信息所包括的操作时间和操作类型以及预定的信息压缩规则,构造该份历史网页操作行为信息长度固定的向量。
可选地,所述聚合单元还包括:
-降维模块(图中未示出),用于基于预定的降维规则,对所述构造的每份历史网页操作行为信息的向量降维;
其中所述聚类模块具体用于:将经过降维处理的所述多份历史网页操作行为信息的向量进行聚合。
可选地,识别单元103包括:
恶意度计算模块(图中未示出),用于基于预先计算得到的所述对应的一个或多个类簇的聚集度,计算所述待处理的网页操作行为的恶意度;
识别模块(图中未示出),用于当所述恶意度大于预定阈值,识别所述待处理的网页操作行为是恶意操作行为。
可选地,所述恶意度计算模块具体用于:
-针对所述对应的一个或多个类簇中各类簇,获取该各类簇所包括的多份网页操作行为信息所对应的网页操作行为中分别被历史识别为恶意操作行为的数量b和被历史误识别为恶意操作行为的数量p;
-基于预定的计算规则和所述对应的一个或多个类簇预先计算得到的聚集度以及所述数量b和数量p,计算所述待处理的网页操作行为的恶意度。
根据本申请的另一个实施例,请参考图9,本申请还提供了一种针对网页操作行为的识别终端,包括:
采集单元301,用于采集待处理的网页操作行为数据。
发送单元302,用于将所述采集的网页操作行为数据发送至用于识别网页操作行为的服务器,其中,该服务器基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,并基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,本申请的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。
Claims (11)
1.一种针对网页操作行为的识别方法,其特征在于,包括:
获取待处理的网页操作行为数据;
基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,其中所述历史网页操作行为信息库中的每个类簇是基于预定聚类规则对多份历史网页操作行为信息的聚合所得;
基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为,其中包括:
基于预先计算得到的所述对应的一个或多个类簇的聚集度,计算所述待处理的网页操作行为的恶意度,如果所述恶意度大于预定阈值,则识别所述待处理的网页操作行为是恶意操作行为,所述一个或多个类簇的聚集度为通过一个或多个类簇所包括的用户数量或历史网页操作行为信息份数、每一份历史网页操作行为信息的向量第几维度的数值以及一个或多个类簇所包括的所有历史网页操作行为信息的向量第几维度的数值的平均值计算得到。
2.根据权利要求1所述的识别方法,其特征在于,所述基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇的步骤具体包括:
基于该待处理的网页操作行为数据所包括的操作时间和操作类型,构造该待处理网页操作行为信息的向量;
基于各类簇预先计算得到的聚集度,从预先划分类簇的历史网页操作行为信息库中获取聚集度排名靠前N位的第一类簇集合,其中N是预设的正整数;
获取代表该第一类簇集合中各类簇的代表向量;
基于预定的距离度量规则,从所述代表向量中获取与所述待处理网页操作行为信息的向量的距离小于预定阈值或距离按照从小到大的顺序排序前M位的候选代表向量,其中M是预设的正整数;
将所述候选代表向量所代表的类簇作为所述待处理的网页操作行为数据相对应的类簇。
3.根据权利要求1或2所述的识别方法,其特征在于,所述基于预定聚类规则对历史网页操作行为信息聚合具体包括:
基于各份历史网页操作行为信息所包括的操作时间和操作类型,构造该份历史网页操作行为信息的向量;
基于预定的向量聚类规则,将多份历史网页操作行为信息的向量进行聚合,得到一个或多个类簇,其中每个类簇包括多份历史网页操作行为信息的向量。
4.根据权利要求3所述的识别方法,其特征在于,所述基于各份历史网页操作行为信息所包括的操作时间和操作类型,构造该份历史网页操作行为信息的向量的步骤包括:
基于各份历史网页操作行为信息所包括的操作时间和操作类型以及预定的信息压缩规则,构造该份历史网页操作行为信息长度固定的向量。
5.根据权利要求3所述的识别方法,其特征在于,在所述基于预定的向量聚类规则,将多份历史网页操作行为信息的向量进行聚合之前还包括:
-基于预定的降维规则,对所述构造的每份历史网页操作行为信息的向量降维;
其中将多份历史网页操作行为信息的向量进行聚合包括:
-将经过降维处理的所述多份历史网页操作行为信息的向量进行聚合。
6.根据权利要求1所述的识别方法,其特征在于,所述基于预先计算得到的所述对应的一个或多个类簇的聚集度,计算所述待处理的网页操作行为的恶意度的步骤具体包括:
针对所述对应的一个或多个类簇中各类簇,获取该各类簇所包括的多份网页操作行为信息所对应的网页操作行为中分别被历史识别为恶意操作行为的数量b和被历史误识别为恶意操作行为的数量p;
基于预定的计算规则和所述对应的一个或多个类簇预先计算得到的聚集度以及所述数量b和数量p,计算所述待处理的网页操作行为的恶意度。
7.一种针对网页操作行为的识别方法,其特征在于,包括:
采集待处理的网页操作行为数据;
将所述采集的网页操作行为数据发送至用于识别网页操作行为的服务器,其中,该服务器基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,并基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为,其中包括:
基于预先计算得到的所述对应的一个或多个类簇的聚集度,计算所述待处理的网页操作行为的恶意度,如果所述恶意度大于预定阈值,则识别所述待处理的网页操作行为是恶意操作行为,所述一个或多个类簇的聚集度为通过一个或多个类簇所包括的用户数量或历史网页操作行为信息份数、每一份历史网页操作行为信息的向量第几维度的数值以及一个或多个类簇所包括的所有历史网页操作行为信息的向量第几维度的数值的平均值计算得到。
8.一种针对网页操作行为的识别服务器,其特征在于,包括:
待处理网页操作行为数据获取单元,用于获取待处理的网页操作行为数据;
相对应类簇获取单元,用于基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,其中所述历史网页操作行为信息库中的每个类簇是基于预定聚类规则对多份历史网页操作行为信息的聚合所得;
识别单元,用于基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为,其中包括:
基于预先计算得到的所述对应的一个或多个类簇的聚集度,计算所述待处理的网页操作行为的恶意度,如果所述恶意度大于预定阈值,则识别所述待处理的网页操作行为是恶意操作行为,所述一个或多个类簇的聚集度为通过一个或多个类簇所包括的用户数量或历史网页操作行为信息份数、每一份历史网页操作行为信息的向量第几维度的数值以及一个或多个类簇所包括的所有历史网页操作行为信息的向量第几维度的数值的平均值计算得到。
9.根据权利要求8所述的识别服务器,其特征在于,所述相对应类簇获取单元具体包括:
向量构造模块,用于基于该待处理的网页操作行为数据所包括的操作时间和操作类型,构造该待处理网页操作行为信息的向量;
第一类簇集合获取模块,用于基于各类簇预先计算得到的聚集度,从预先划分类簇的历史网页操作行为信息库中获取聚集度排名靠前N位的第一类簇集合,其中N是预设的正整数;
代表向量获取模块,用于获取代表该第一类簇集合中各类簇的代表向量;
候选代表向量获取模块,用于基于预定的距离度量规则,从所述代表向量中获取与所述待处理网页操作行为信息的向量的距离小于预定阈值或距离按照从小到大的顺序排序前M位的候选代表向量,其中M是预设的正整数;
相对应类簇获取模块,用于将所述候选代表向量所代表的类簇作为所述待处理的网页操作行为数据相对应的类簇。
10.根据权利要求8或9所述的识别服务器,其特征在于,所述识别服务器还包括:
聚合单元,用于基于预定聚类规则对历史网页操作行为信息聚合;
其中所述聚合单元具体包括:
-历史操作向量构造模块,用于基于各份历史网页操作行为信息所包括的操作时间和操作类型,构造该份历史网页操作行为信息的向量;
-聚类模块,用于基于预定的向量聚类规则,将多份历史网页操作行为信息的向量进行聚合,得到一个或多个类簇,其中每个类簇包括多份历史网页操作行为信息的向量。
11.一种针对网页操作行为的识别终端,其特征在于,包括:
采集单元,用于采集待处理的网页操作行为数据;
发送单元,用于将所述采集的网页操作行为数据发送至用于识别网页操作行为的服务器,其中,该服务器基于预定的获取规则,从预先划分类簇的历史网页操作行为信息库中获取与所述待处理的网页操作行为数据相对应的一个或多个类簇,并基于预先计算得到的所述对应的一个或多个类簇的聚集度,识别所述待处理的网页操作行为是否是恶意操作行为,其中包括:
基于预先计算得到的所述对应的一个或多个类簇的聚集度,计算所述待处理的网页操作行为的恶意度,如果所述恶意度大于预定阈值,则识别所述待处理的网页操作行为是恶意操作行为,所述一个或多个类簇的聚集度为通过一个或多个类簇所包括的用户数量或历史网页操作行为信息份数、每一份历史网页操作行为信息的向量第几维度的数值以及一个或多个类簇所包括的所有历史网页操作行为信息的向量第几维度的数值的平均值计算得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610562322.4A CN107622072B (zh) | 2016-07-15 | 2016-07-15 | 一种针对网页操作行为的识别方法及服务器、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610562322.4A CN107622072B (zh) | 2016-07-15 | 2016-07-15 | 一种针对网页操作行为的识别方法及服务器、终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107622072A CN107622072A (zh) | 2018-01-23 |
CN107622072B true CN107622072B (zh) | 2021-08-17 |
Family
ID=61087776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610562322.4A Active CN107622072B (zh) | 2016-07-15 | 2016-07-15 | 一种针对网页操作行为的识别方法及服务器、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622072B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109861953B (zh) * | 2018-05-14 | 2020-08-21 | 新华三信息安全技术有限公司 | 一种异常用户识别方法及装置 |
CN109597986A (zh) * | 2018-10-16 | 2019-04-09 | 深圳壹账通智能科技有限公司 | 异常问题的定位方法、装置、设备及存储介质 |
CN109471976A (zh) * | 2018-11-07 | 2019-03-15 | 北京字节跳动网络技术有限公司 | 网页操作数据的处理方法、装置、电子设备及存储介质 |
CN110119762B (zh) * | 2019-04-15 | 2023-09-26 | 华东师范大学 | 基于聚类的人类行为依赖分析方法 |
CN110266727A (zh) * | 2019-07-09 | 2019-09-20 | 中国工商银行股份有限公司 | 模拟浏览器行为的识别方法、服务器及客户端 |
CN110659807B (zh) * | 2019-08-29 | 2022-08-26 | 苏宁云计算有限公司 | 一种基于链路的风险用户识别方法及装置 |
CN110795705B (zh) * | 2019-10-22 | 2022-07-15 | 武汉极意网络科技有限公司 | 轨迹数据处理方法、装置、设备及存储介质 |
CN111177725B (zh) * | 2019-12-31 | 2023-06-20 | 广州市百果园信息技术有限公司 | 一种检测恶意刷点击操作的方法、装置、设备及存储介质 |
CN111428231B (zh) * | 2020-06-12 | 2020-09-08 | 完美世界(北京)软件科技发展有限公司 | 基于用户行为的安全处理方法、装置及设备 |
CN111783063A (zh) * | 2020-06-12 | 2020-10-16 | 完美世界(北京)软件科技发展有限公司 | 一种操作的验证方法和装置 |
CN112150285B (zh) * | 2020-09-23 | 2022-10-04 | 哈尔滨工业大学(威海) | 基于邻域拓扑结构的异常金融组织层次划分系统及方法 |
CN113177795B (zh) * | 2021-06-10 | 2023-04-25 | 支付宝(杭州)信息技术有限公司 | 一种身份识别方法、装置、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737019A (zh) * | 2011-03-31 | 2012-10-17 | 阿里巴巴集团控股有限公司 | 机器行为确定方法、网页浏览器及网页服务器 |
CN103593609A (zh) * | 2012-08-16 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 一种可信行为识别的方法和装置 |
CN105426365A (zh) * | 2014-08-01 | 2016-03-23 | 阿里巴巴集团控股有限公司 | 区分交互行为的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160034968A1 (en) * | 2014-07-31 | 2016-02-04 | Huawei Technologies Co., Ltd. | Method and device for determining target user, and network server |
-
2016
- 2016-07-15 CN CN201610562322.4A patent/CN107622072B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737019A (zh) * | 2011-03-31 | 2012-10-17 | 阿里巴巴集团控股有限公司 | 机器行为确定方法、网页浏览器及网页服务器 |
CN103593609A (zh) * | 2012-08-16 | 2014-02-19 | 阿里巴巴集团控股有限公司 | 一种可信行为识别的方法和装置 |
CN105426365A (zh) * | 2014-08-01 | 2016-03-23 | 阿里巴巴集团控股有限公司 | 区分交互行为的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107622072A (zh) | 2018-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622072B (zh) | 一种针对网页操作行为的识别方法及服务器、终端 | |
US11487941B2 (en) | Techniques for determining categorized text | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
EP2499569B1 (en) | Clustering method and system | |
US9288124B1 (en) | Systems and methods of classifying sessions | |
US20200110842A1 (en) | Techniques to process search queries and perform contextual searches | |
CA3059929C (en) | Text searching method, apparatus, and non-transitory computer-readable storage medium | |
CN108304432B (zh) | 信息推送处理方法、信息推送处理装置及存储介质 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN113255370A (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
US10810458B2 (en) | Incremental automatic update of ranked neighbor lists based on k-th nearest neighbors | |
CN109995576A (zh) | 上网设备的识别方法、装置及存储介质、计算机设备 | |
CN111275205A (zh) | 虚拟样本的生成方法、终端设备及存储介质 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN114697068A (zh) | 一种恶意流量识别方法及相关装置 | |
WO2014177050A1 (zh) | 对文档进行聚类的方法和装置 | |
CN110443264A (zh) | 一种聚类的方法和装置 | |
CN115632874A (zh) | 一种实体对象的威胁检测方法、装置、设备及存储介质 | |
CN111984867A (zh) | 一种网络资源确定方法及装置 | |
CN110751354B (zh) | 一种异常用户的检测方法和装置 | |
de Araujo et al. | Impact of feature selection methods on the classification of DDoS attacks using XGBoost | |
CN115049446A (zh) | 商户识别方法、装置、电子设备及计算机可读介质 | |
Liu et al. | A weight-incorporated similarity-based clustering ensemble method | |
US20200311472A1 (en) | Comprehensive Data Science Solution for Segmentation Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |