CN114626058B - 一种社区恶意访问行为识别方法及系统 - Google Patents
一种社区恶意访问行为识别方法及系统 Download PDFInfo
- Publication number
- CN114626058B CN114626058B CN202210404894.5A CN202210404894A CN114626058B CN 114626058 B CN114626058 B CN 114626058B CN 202210404894 A CN202210404894 A CN 202210404894A CN 114626058 B CN114626058 B CN 114626058B
- Authority
- CN
- China
- Prior art keywords
- access
- user
- time period
- access data
- blacklist
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012795 verification Methods 0.000 claims description 31
- 238000012544 monitoring process Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及涉及大数据处理技术领域,特别地涉及一种社区恶意访问行为识别方法及系统。该方法包括步骤:获取第一时间段内,用户的访问数据数值;将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。本申请通过获取用户的访问数据数值,将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。通过将访问数据数值与预设阈值比对,实现结合用户实际的访问信息来判断是否出现恶意访问行为,不容易被规避,实现较为准确的判断,通过拉入黑名单恶意访问行为,实现得到真实的访问数据。
Description
技术领域
本申请涉及大数据处理技术领域,特别地涉及一种社区恶意访问行为识别方法及系统。
背景技术
社区平台,指社区成员快捷、便利的相互交流的平台,如论坛、评论、博客、维基百科、圈子或社会性网络、即时通讯等。学术界将网上社区分为以下四类:交易社区、兴趣社区、关系社区、幻想社区。例如,EABM是一个创新型的交易服务社区,全称为EasyBrokerman,直译为让经纪人变得更简单,EABM开发了一系列交易产品,包括自动化交易机器人、行情分析软件、可视化跟随控系统以及信号源管理系统等等;百度贴吧,结合搜索引擎建立一个在线的交流平台,让那些对同一个话题感兴趣的人们聚集在一起,方便地展开交流和互相帮助,属于兴趣社区;人人网属于SNS网站(SocialNetworkingServices),即社会性网络服务,专指旨在帮助人们建立社会性网络的互联网应用服务。也就是说这种网站都是建立在现实中人与人之间的关系之上的,所以也叫社交社区;天涯社区,已经成为以论坛、博客、微博为基础交流方式,综合提供个人空间、相册、音乐盒子、分类信息、站内消息、虚拟商店、来吧、问答、企业品牌家园等一系列功能服务,并以人文情感为核心的综合性虚拟社区和大型网络社交平台,等。
例如,社区(ChinaSoftwareDeveloperNetwork)是全球知名中文IT技术交流平台,包含原创博客、精品问答、职业培训、技术论坛、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区,是一种兴趣社区。
而在用户访问社区时,会上报用户的访问记录,在用户的访问记录中会包含部分恶意访问行为。由于在社区访问识别中,用户发起访问的内容是随机和松散的,因此,对于恶意访问的行为识别,是一个难点。
目前使用的恶意访问行为识别方法,主要为“判断useragent(用户代理)识别是否爬虫”,但这种识别方法容易被规避(即用户的恶意行为可以躲避该识别方法),得到的数据并非真实访问数据。
在兴趣社区中,每位用户具有一定属性,例如关注话题,身份等。因此,需要基于每天的全量用户访问记录进行识别,识别其中的恶意访问行为,得到真实的用户访问记录,以此得到网站的真实用户数量(UV)和用户访问数量(PV)等数据。
发明内容
为了解决或至少部分地解决上述技术问题,本申请提供了一种社区恶意访问行为识别方法,其中,该方法包括以下步骤:
获取第一时间段内,用户的访问数据数值;
将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。
通过获取用户的访问数据数值,将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。通过将访问数据数值与预设阈值比对,实现结合用户实际的访问信息来判断是否出现恶意访问行为,不容易被规避,实现较为准确的判断,通过拉入黑名单恶意访问行为,实现得到真实的访问数据。
可选的,所述访问数据数值包括:第一访问数据、第二访问数据、第三访问数据;
所述第一访问数据包括:访客ID在所述第一时间段内被访问次数、访客ID在所述第一时间段内每个url的被访问次数、访客ID在所述第一时间段内访问博主的被访问次数;
所述第二访问数据包括:IP地址在所述第一时间段内的被访问次数、IP地址在所述第一时间段内每个url的被访问次数、IP地址在所述第一时间段内的博主被访问次数;
所述第三访问数据包括:登录用户ID在所述第一时间段内的被访问次数、登录用户ID在所述第一时间段内的url被访问次数、登录用户ID在所述第一时间段内的博主被访问次数。
可选的,所述预设阈值,包括第一阈值、第二阈值、第三阈值;
所述第一阈值为:访客ID在所述第一时间段内被访问次数或者访客ID在所述第一时间段内每个url的被访问次数或者访客ID在所述第一时间段内访问博主的被访问次数的均值与N倍标准差之和;
所述第二阈值为:IP地址在所述第一时间段内的被访问次数或者IP地址在所述第一时间段内每个url的被访问次数或者IP地址在所述第一时间段内的博主被访问次数的均值与N倍标准差之和;
所述第三阈值为:登录用户ID在所述第一时间段内的被访问次数或者登录用户ID在所述第一时间段内的url被访问次数或者登录用户ID在所述第一时间段内的博主被访问次数的均值与N倍标准差之和;
其中,N为正整数。
可选的,当所述访问数据值为第一访问数据时,将所述第一访问数据与所述第一阈值进行比对,当大于所述第一阈值时,将该用户纳入黑名单。
可选的,当所述访问数据值为第二访问数据时,将所述第二访问数据与所述第二阈值进行比对,当大于所述第二阈值时,将该用户纳入黑名单。
可选的,当所述访问数据值为第三访问数据时,将所述第三访问数据与所述第三阈值进行比对,当大于所述第三阈值时,将该用户纳入黑名单。
可选的,在所述访问数据数值与预设阈值进行比对之后,将该用户纳入黑名单的步骤之前,还包括对所述的用户进行验证,当验证不通过时,将该用户纳入黑名单;
当验证通过时,在第二时间段内,监控该用户的访问行为,若在第二时间段内,该用户仍然存在疑似恶意访问行为,纳入黑名单。
可选的,所述验证步骤的操作包括:
针对每次访问行为,警示该用户存在疑似恶意行为;
响应于用户填写操作,记录用户填写的该次访问目的;
所述验证步骤通过包括:
提取用户填写的访问目的的关键字或者关键词,根据所述关键字或者关键词判断当前访问是否为恶意访问,若不是,则验证通过,若是,则验证未通过,纳入黑名单。
可选的,所述监控该用户的访问行为的步骤包括:
监控该用户的访问行为,判断该用户在至少一个以上的第二时间段内,是否出现所述访问数据数值大于所述预设阈值的情况,若出现,则纳入黑名单,若未出现,则去除疑似恶意访问标签。
本申请还提供了一种社区恶意访问行为识别系统,包括:
获取模块,被配置为获取第一时间段内,用户的访问数据数值;
判断模块,被配置为将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。
有益效果:
1.本申请提供的社区恶意访问行为识别方法,通过获取用户的访问数据数值,将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。通过将访问数据数值与预设阈值比对,实现结合用户实际的访问信息来判断是否出现恶意访问行为,不容易被规避,实现较为准确的判断,通过拉入黑名单恶意访问行为,实现得到真实的访问数据。
2.本申请提供的社区恶意访问行为识别方法,经过比对识别、验证的双重判断下,能够识别出绝大多数的恶意访问行为,且不容易被规避。
附图说明
为了更清楚地说明本申请的实施方式,下面将对相关的附图做出简单介绍。可以理解,下面描述中的附图仅用于示意本申请的一些实施方式,本领域普通技术人员还可以根据这些附图获得本文中未提及的许多其他的技术特征和连接关系等。
图1为本申请实施方式提供的一种社区恶意访问行为识别方法的流程示意图。
图2为本申请实施方式提供的一种社区恶意访问行为识别系统的结构示意图。
图3为本申请实施方式提供的一种电子设备的结构框图。
图4为适于用来实现根据本公开一实施方式的方法的计算机系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请实施方式提供的技术方案,获取第一时间段内,用户的访问数据数值;将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。通过将访问数据数值与预设阈值比对,实现结合用户实际的访问信息来判断是否出现恶意访问行为,不容易被规避,实现较为准确的判断。
下面结合具体实施方式,进行更加详细的说明。
实施方式一
本申请发明人发现,现有技术中,恶意访问记录识别方法,主要为“判断useragent(用户代理)识别是否爬虫”。目前,该种访问识别方法,识别不准确,且容易被恶意访问的规避。为此,本申请人提出了一种社区恶意访问行为识别方法,参见图1所示,图1为本申请实施方式提供的一种社区恶意访问行为识别方法的流程示意图,该方法包括以下步骤:
S1、获取第一时间段内,用户的访问数据数值;
其中,第一时间段可以为24小时、12小时、6小时等,下文以24小时为例进行说明,即当天的用户访问情况。
S2、将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。
通过将访问数据数值与预设阈值比对,实现结合用户实际的访问信息来判断是否出现恶意访问行为,实现较为准确的判断。
更具体的,所述访问数据数值包括:第一访问数据、第二访问数据、第三访问数据。
其中,所述第一访问数据包括:访客ID在所述第一时间段内被访问次数、访客ID在所述第一时间段内每个url的被访问次数、访客ID在所述第一时间段内访问博主的被访问次数;
所述第二访问数据包括:IP地址在所述第一时间段内的被访问次数、IP地址在所述第一时间段内每个url的被访问次数、IP地址在所述第一时间段内的博主被访问次数;
所述第三访问数据包括:登录用户ID在所述第一时间段内的被访问次数、登录用户ID在所述第一时间段内的url被访问次数、登录用户ID在所述第一时间段内的博主被访问次数。
所述预设阈值,包括第一阈值、第二阈值、第三阈值;
所述第一阈值为:访客ID在所述第一时间段内被访问次数或者访客ID在所述第一时间段内每个url的被访问次数或者访客ID在所述第一时间段内访问博主的被访问次数的均值与N倍标准差之和;
所述第二阈值为:IP地址在所述第一时间段内的被访问次数或者IP地址在所述第一时间段内每个url的被访问次数或者IP地址在所述第一时间段内的博主被访问次数的均值与N倍标准差之和;
所述第三阈值为:登录用户ID在所述第一时间段内的被访问次数或者登录用户ID在所述第一时间段内的url被访问次数或者登录用户ID在所述第一时间段内的博主被访问次数的均值与N倍标准差之和。
在本申请实施方式中,上述N为正整数,优先为3。
为了更方便理解本申请实施方式,下面详细说明将所述访问数据数值与预设阈值进行比对的执行步骤:
1)统计每个cid(访客ID)当天的访问次数,如果大于整体所有cid访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
2)统计每个cid当天平均每个url(url即访问地址,访问地址不包含地址后面参数)的访问次数,如果大于整体所有cid平均每个url访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
3)统计每个cid当天平均每个博主(博客作者,可以理解为访问地址作者)的访问次数,如果大于整体所有cid平均每个博主访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
4)统计每个IP当天平均每个cid的访问次数,如果大于整体所有IP平均每个cid访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
5)统计每个IP当天平均每个url的访问次数,如果大于整体所有IP平均每个url访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
6)统计每个IP当天平均每个博主的访问次数,如果大于整体所有IP平均每个博主访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
7)统计每个uid(登录用户ID)当天的访问次数,如果大于整体所有uid访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
8)统计每个uid当天平均每个url的访问次数,如果大于整体所有uid平均每个url访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
9)统计每个uid当天平均每个博主的访问次数,如果大于整体所有uid平均每个博主访问次数的均值加三倍标准差的结果即认定为恶意访问行为;
10)通过上述步骤,发现的cid、IP、uid存放入黑名单中,通过对所有对访问行为进行黑名单过滤得到真实的用户访问数据。
其中,cid:为用户ID,就是网站对用户生成的用户标识(一个用户生成一个值,登陆用户和非登陆用户都有);
uid:登陆用户的账号;
ip:用户的IP地址(用户的网络地址);
url:网页地址。
上述方案,通过将用户的多种访问数据与相应的阈值进行比对,实现从多维度、多方法、且不易伪造的识别恶意访问,得到真实的用户访问数据。
实施方式二
本申请发明人发现,如果使用多次识别,可以更加准确的识别恶意行为。为此,本申请发明人在第一实施方式的基础上进行改进,其改进之处为:
在所述访问数据数值与预设阈值进行比对之后,将该用户纳入黑名单的步骤之前,还包括对所述的用户进行验证,当验证不通过时,将该用户纳入黑名单;
当验证通过时,在第二时间段内,监控该用户的访问行为,若在第二时间段内,该用户仍然存在疑似恶意访问行为,纳入黑名单。
具体的,验证过程包括:
1)、针对每次访问行为,警示该用户存在疑似恶意行为;
其中,该警示操作可以是:在当天内,每隔一周期(例如一小时,半小时等)弹出警示框,也可以为每次访问都会弹出警示框,警示窗口中包含访问原因“填写框功能按钮”;
而用户如果想避免每次弹出警示框,可以减少访问次数。例如:在连续若干个周期内(比如周期为半小时,在连续三个周期,即在一个半小时内,)未访问,此时可以不用再弹出警示框;
又或者是通过步骤2)来避免每次弹出警示框。
2)、响应于用户填写操作,记录用户填写的该次访问目的;
当验证通过后,包括以下步骤:
提取用户填写的访问目的的关键字或者关键词,根据所述关键字或者关键词判断当前访问是否为恶意访问,若不是,则验证通过,若是,则验证未通过,纳入黑名单。
其中,所述关键词或者关键字包括:查询/查找/获取、资料/材料、学习、教学、毕业等关键词。
为方便理解上述的验证过程,下面举例进行说明:
1)用户A的访问被标记为疑似恶意访问行为后,再次访问社区后,网页会弹出警告窗,警告窗页面可以显示“您行为疑似恶意访问行为,请注意”;
当用户A关闭该警告窗页面的时候,可以在三个周期内(一个半小时内),不进行访问;
或者用户A选择警示窗口的“填写框功能按钮”,再填写访问原因,以去除疑似恶意访问的标记;
2)页面弹出填写框(也可以是用户自己选择弹出该填写框),用户用户输入访问次数过多的原因或者目的,用户的输入内容会被统计记录,并上传至后台,方便后台人员查询监控;
3)服务器自行分析该输入内容,提取关键字判断用户是否出于学习或者科研等其他正常目的而多次访问。当判断为属于正常目的,则取消当前疑似恶意访问行为的标记;如果不属于属于正常目的,则拉入黑名单;
4)如果被判断为正常目的,服务器仍然会继续监控该用户在第二时间段内是否出现疑似恶意访问行为,如果仍然出现,则直接拉入黑名单。
通过增加验证的行为,能够更好地判断用户是否为恶意访问用户,得到的用户访问数据更加真实。
其中,第二时间段可以为当天(即被判定为疑似非正常操作这一时刻开始往后的24小时内)。
实施方式三
本申请发明人在实验阶段发现,用户可能在填写框内,填写虚假内容。有鉴于此,为了能够筛选更加准确,本申请人在第二实施方式的基础上进行改进,其改进之处为:
S3、根据用户填写的访问csd的原因,根据该原因获取主题,判断该主题主题,与用户访问的内容的相识度,当相似度大于第四阈值时,则验证通过。
其中相似度为:所有的访问页面内容中,与填写内容相关程度页面数量占比,而第四阈值优先为80%。
为方便理解,下面进行举例说明:用户B为一即将毕业的大学学生,其出现了疑似恶意访问行为时,填写如下原因:毕业论文方向为机器学习,需要了解更多机器学习的知识。
此时服务器查询该用户所访问的所有页面是否与机器学习相关,当所有的页面至少有80%与机器学习相关(即相似度大于等于80%),此时验证通过。
实施方式三
参见图2所示,图2为本申请实施方式提供的一种社区恶意访问行为识别系统的结构示意图,该识别系统,包括:
获取模块301,被配置为获取第一时间段内,用户的访问数据数值;
其中,所述访问数据数值包括:第一访问数据、第二访问数据、第三访问数据;
所述第一访问数据包括:访客ID在所述第一时间段内被访问次数、访客ID在所述第一时间段内每个url的被访问次数、访客ID在所述第一时间段内访问博主的被访问次数;
所述第二访问数据包括:IP地址在所述第一时间段内的被访问次数、IP地址在所述第一时间段内每个url的被访问次数、IP地址在所述第一时间段内的博主被访问次数;
所述第三访问数据包括:登录用户ID在所述第一时间段内的被访问次数、登录用户ID在所述第一时间段内的url被访问次数、登录用户ID在所述第一时间段内的博主被访问次数。
判断模块302,被配置为将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单;还被配置为:
所述预设阈值,包括第一阈值、第二阈值、第三阈值;
所述第一阈值为:访客ID在所述第一时间段内被访问次数或者访客ID在所述第一时间段内每个url的被访问次数或者访客ID在所述第一时间段内访问博主的被访问次数的均值与N倍标准差之和;
所述第二阈值为:IP地址在所述第一时间段内的被访问次数或者IP地址在所述第一时间段内每个url的被访问次数或者IP地址在所述第一时间段内的博主被访问次数的均值与N倍标准差之和;
所述第三阈值为:登录用户ID在所述第一时间段内的被访问次数或者登录用户ID在所述第一时间段内的url被访问次数或者登录用户ID在所述第一时间段内的博主被访问次数的均值与N倍标准差之和。
当所述访问数据值为第一访问数据时,将所述第一访问数据与所述第一阈值进行比对,当大于所述第一阈值时,将该用户纳入黑名单;
当所述访问数据值为第二访问数据时,将所述第二访问数据与所述第二阈值进行比对,当大于所述第二阈值时,将该用户纳入黑名单;
当所述访问数据值为第三访问数据时,将所述第三访问数据与所述第三阈值进行比对,当大于所述第三阈值时,将该用户纳入黑名单。
在所述访问数据数值与预设阈值进行比对之后,将该用户纳入黑名单的步骤之前,还包括对所述的用户进行验证,当验证不通过时,将该用户纳入黑名单;
当验证通过时,在第二时间段内,监控该用户的访问行为,若在第二时间段内,该用户仍然存在疑似恶意访问行为,纳入黑名单;
所述验证步骤的操作包括:
针对每次访问行为,警示该用户存在疑似恶意行为;
响应于用户填写操作,记录用户填写的该次访问目的;
所述验证步骤通过包括:
提取用户填写的访问目的的关键字或者关键词,根据所述关键字或者关键词判断当前访问是否为恶意访问,若不是,则验证通过,若是,则验证未通过,纳入黑名单;
其中,所述关键词或者关键字包括以下的一种或者多种组合:
查询/查找/获取、资料/材料、学习、教学。
所述监控该用户的访问行为的步骤包括:
监控该用户的访问行为,判断该用户在至少一个以上的第二时间段内,是否出现所述访问数据数值大于所述预设阈值的情况,若出现,则纳入黑名单,若未出现,则去除疑似恶意访问标签。
图3示出根据本申请一实施方式的电子设备的结构框图。
前述实施方式描述了社区恶意访问行为识别方法及系统,在一个可能的设计中,前述社区恶意访问行为识别方法及系统可集成于电子设备中。如图3中所示,该电子设备500可以包括处理器501和存储器502。
所述存储器502用于存储支持处理器执行上述任一实施例中数据处理方法或者资源分配方法的程序,所述处理器501被配置为用于执行所述存储器502中存储的程序。
所述存储器502用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器501执行以实现上述实施方式中步骤:
S11、获取第一时间段内,用户的访问数据数值;
S21、将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单。
图4是适于用来实现根据本申请一实施方式的社区恶意访问行为识别方法的计算机系统的结构示意图。
如图4所示,计算机系统600包括处理器(CPU、GPU、FPGA等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行上述附图所示的实施方式中的部分或全部处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。处理器601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。例如,本申请的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本申请各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述节点中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (8)
1.一种社区恶意访问行为识别方法,其特征在于,该方法包括以下步骤:
获取第一时间段内,用户的访问数据数值;
将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单;
在所述访问数据数值与预设阈值进行比对之后,将该用户纳入黑名单的步骤之前,还包括对所述用户进行验证,
当验证不通过时,将该用户纳入黑名单;
当验证通过时,在第二时间段内,监控该用户的访问行为,若在第二时间段内,该用户仍然存在疑似恶意访问行为,纳入黑名单;
针对每次访问行为,警示该用户存在疑似恶意行为;
响应于用户填写操作,记录用户填写的该次访问目的;
提取用户填写的访问目的的关键字或者关键词,根据所述关键字或者关键词判断当前访问是否为恶意访问,若不是,则验证通过,若是,则验证未通过,纳入黑名单。
2.根据权利要求1所述的社区恶意访问行为识别方法,其特征在于,所述访问数据数值包括:第一访问数据、第二访问数据、第三访问数据;
所述第一访问数据包括:访客ID在所述第一时间段内被访问次数、访客ID在所述第一时间段内每个url的被访问次数、访客ID在所述第一时间段内访问博主的被访问次数;
所述第二访问数据包括:IP地址在所述第一时间段内的被访问次数、IP地址在所述第一时间段内每个url的被访问次数、IP地址在所述第一时间段内的博主被访问次数;
所述第三访问数据包括:登录用户ID在所述第一时间段内的被访问次数、登录用户ID在所述第一时间段内的url被访问次数、登录用户ID在所述第一时间段内的博主被访问次数。
3.根据权利要求2所述的社区恶意访问行为识别方法,其特征在于,包括:
所述预设阈值,包括第一阈值、第二阈值、第三阈值;
所述第一阈值为:访客ID在所述第一时间段内被访问次数或者访客ID在所述第一时间段内每个url的被访问次数或者访客ID在所述第一时间段内访问博主的被访问次数的均值与N倍标准差之和;
所述第二阈值为:IP地址在所述第一时间段内的被访问次数或者IP地址在所述第一时间段内每个url的被访问次数或者IP地址在所述第一时间段内的博主被访问次数的均值与N倍标准差之和;
所述第三阈值为:登录用户ID在所述第一时间段内的被访问次数或者登录用户ID在所述第一时间段内的url被访问次数或者登录用户ID在所述第一时间段内的博主被访问次数的均值与N倍标准差之和;
其中,N为正整数。
4.根据权利要求3所述的社区恶意访问行为识别方法,其特征在于,当所述访问数据值为第一访问数据时,将所述第一访问数据与所述第一阈值进行比对,当大于所述第一阈值时,将该用户纳入黑名单。
5.根据权利要求3所述的社区恶意访问行为识别方法,其特征在于,当所述访问数据值为第二访问数据时,将所述第二访问数据与所述第二阈值进行比对,当大于所述第二阈值时,将该用户纳入黑名单。
6.根据权利要求3所述的社区恶意访问行为识别方法,其特征在于,当所述访问数据值为第三访问数据时,将所述第三访问数据与所述第三阈值进行比对,当大于所述第三阈值时,将该用户纳入黑名单。
7.根据权利要求1所述的社区恶意访问行为识别方法,其特征在于,所述监控该用户的访问行为的步骤包括:
监控该用户的访问行为,判断该用户在至少一个以上的第二时间段内,是否出现所述访问数据数值大于所述预设阈值的情况;
若出现,则纳入黑名单,若未出现,则去除疑似恶意访问标签。
8.一种社区恶意访问行为识别系统,其特征在于,包括:
获取模块,被配置为获取第一时间段内,用户的访问数据数值;
判断模块,被配置为将所述访问数据数值与预设阈值进行比对,当大于所述预设阈值时,将该用户纳入黑名单;
验证模块,被配置为在所述访问数据数值与预设阈值进行比对之后,将该用户纳入黑名单的步骤之前,还包括对所述用户进行验证,
当验证不通过时,将该用户纳入黑名单;
当验证通过时,在第二时间段内,监控该用户的访问行为,若在第二时间段内,该用户仍然存在疑似恶意访问行为,纳入黑名单;
针对每次访问行为,警示该用户存在疑似恶意行为;
响应于用户填写操作,记录用户填写的该次访问目的;
提取用户填写的访问目的的关键字或者关键词,根据所述关键字或者关键词判断当前访问是否为恶意访问,若不是,则验证通过,若是,则验证未通过,纳入黑名单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404894.5A CN114626058B (zh) | 2022-04-18 | 2022-04-18 | 一种社区恶意访问行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404894.5A CN114626058B (zh) | 2022-04-18 | 2022-04-18 | 一种社区恶意访问行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114626058A CN114626058A (zh) | 2022-06-14 |
CN114626058B true CN114626058B (zh) | 2023-03-14 |
Family
ID=81906470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404894.5A Active CN114626058B (zh) | 2022-04-18 | 2022-04-18 | 一种社区恶意访问行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626058B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004662A (ja) * | 2005-06-27 | 2007-01-11 | Tatsunori Yuumen | 訪問診療支援システムおよび方法 |
CN105491054A (zh) * | 2015-12-22 | 2016-04-13 | 网易(杭州)网络有限公司 | 恶意访问的判断方法、拦截方法与装置 |
CN113194104A (zh) * | 2021-06-30 | 2021-07-30 | 南京敏宇数行信息技术有限公司 | 一种安全远程访问系统、方法、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107426181B (zh) * | 2017-06-20 | 2019-09-17 | 竞技世界(北京)网络技术有限公司 | 恶意Web访问请求的拦截方法及装置 |
-
2022
- 2022-04-18 CN CN202210404894.5A patent/CN114626058B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007004662A (ja) * | 2005-06-27 | 2007-01-11 | Tatsunori Yuumen | 訪問診療支援システムおよび方法 |
CN105491054A (zh) * | 2015-12-22 | 2016-04-13 | 网易(杭州)网络有限公司 | 恶意访问的判断方法、拦截方法与装置 |
CN113194104A (zh) * | 2021-06-30 | 2021-07-30 | 南京敏宇数行信息技术有限公司 | 一种安全远程访问系统、方法、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114626058A (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121795B (zh) | 用户行为预测方法及装置 | |
Kostkova et al. | # swineflu: The use of twitter as an early warning and risk communication tool in the 2009 swine flu pandemic | |
EP2691848B1 (en) | Determining machine behavior | |
CN108156166A (zh) | 异常访问识别和接入控制方法及装置 | |
WO2012162481A1 (en) | Social media identity discovery and mapping | |
Reyns et al. | Preventing crime online: Identifying determinants of online preventive behaviors using structural equation modeling and canonical correlation analysis | |
Jansen et al. | Measuring user interactions with websites: A comparison of two industry standard analytics approaches using data of 86 websites | |
US10237226B2 (en) | Detection of manipulation of social media content | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
CN112347457A (zh) | 异常账户检测方法、装置、计算机设备和存储介质 | |
Srivastava et al. | Analyzing social media research: a data quality and research reproducibility perspective | |
WO2019192101A1 (zh) | 客户保障分析方法、电子装置及计算机可读存储介质 | |
JP7170689B2 (ja) | 出力装置、出力方法及び出力プログラム | |
CN111200607B (zh) | 一种基于多层lstm的线上用户行为分析方法 | |
CN112949963A (zh) | 员工服务质量的评估方法、装置、存储介质和智能设备 | |
CN114626058B (zh) | 一种社区恶意访问行为识别方法及系统 | |
CA3131340A1 (en) | System and method for ethical collection of data | |
CN115375494A (zh) | 理财产品推荐方法、装置、存储介质和设备 | |
CN114422168A (zh) | 一种恶意机器流量识别方法及系统 | |
CN110309312B (zh) | 一种关联事件获取方法及装置 | |
Awasthi et al. | Review of techniques to prevent fake accounts on social media | |
CN113569879A (zh) | 异常识别模型的训练方法、异常账号识别方法及相关装置 | |
CN111563276A (zh) | 一种网页篡改检测方法、检测系统及相关设备 | |
Voortman | Validity and reliability of web search based predictions for car sales | |
JP7473723B1 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |