CN112785130A - 一种网站风险等级识别方法、装置、设备及存储介质 - Google Patents
一种网站风险等级识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112785130A CN112785130A CN202110042225.3A CN202110042225A CN112785130A CN 112785130 A CN112785130 A CN 112785130A CN 202110042225 A CN202110042225 A CN 202110042225A CN 112785130 A CN112785130 A CN 112785130A
- Authority
- CN
- China
- Prior art keywords
- website
- attribute
- current
- determining
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 7
- 238000005192 partition Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000010485 coping Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网站风险等级识别方法、装置、设备及存储介质,包括:确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。上述技术方案,根据各属性项在当前网站中的当前属性值,确定当前网站的第一信息总增益,进而根据预设划分标准和前述第一信息总增益,确定当前网站的风险等级,便于对于未知的网站进行风险等级识别,提供较好的用户体验。
Description
技术领域
本发明实施例涉及网络安全技术,尤其涉及一种网站风险等级识别方法、装置、设备及存储介质。
背景技术
网络钓鱼是指利用伪造的网站获取用户敏感信息的一种网络犯罪。犯罪份子使用发布的伪造网站,让用户认为自己访问了安全的网站,再根据用户在网站上提供的敏感信息,比如,网站所涉及的用户名和密码,银行卡密码,实施诈骗和偷盗,从而获得不法利益,让用户遭受损失。网络钓鱼是一种极具危害性的网络犯罪,其犯罪成本相对较低而犯罪影响相对较大,侦破难度也相对较大。
传统的识别网络钓鱼的方法包括:基于网站白名单,当用户访问某一网站时,网络钓鱼识别器会甄别所要访问的网站是否在已知的网站白名单内,若在白名单内则提供访问权限,若不在白名单内直接拒绝访问或者提示用户访问的风险。
传统的识别网络钓鱼的方法对于未知的网站无法及时正确识别,另外,无论是直接拒绝或者提示用户访问存在风险,都不足以提供较好的用户体验。
发明内容
本发明提供一种网站风险等级识别方法、装置、设备及存储介质,以识别网站的风险等级,便于用户执行拒绝访问或者继续访问,进而提供较好的用户体验。
第一方面,本发明实施例提供了一种网站风险等级识别方法,包括:
确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;
根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;
基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
进一步地,确定所选定各属性项在当前网站中的当前属性值,包括:
在所述当前网站中遍历各所述属性项;
将存在于所述当前网站中的属性项的当前属性值确定为第一设定值;
将未存在于所述当前网站中的属性项的当前属性值确定为第二设定值;
其中,所述第一设定值与所述第二设定值为不同值。
进一步地,根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益,包括:
将各所述属性项的当前属性值作为输入数据输入预设信息增益模型,得到相应的第一信息增益;
对各所述第一信息增益进行求和运算,得到所述当前网站的第一信息总增益。
进一步地,所述方法还包括:
根据各历史网站相对所给定各属性项的历史属性值,结合所述预设信息增益模型,确定所述预设划分标准。
进一步地,根据各历史网站相对所给定各属性项的历史属性值,结合所述预设信息增益模型,确定所述预设划分标准,包括:
将当前时刻之前预设时间段内确定出的各钓鱼网站分别记为历史网站,并获取各所述历史网站相对所给定各属性项的历史属性值;
将各所述历史网站相对各所述属性项的历史属性值作为输入数据输入所述预设信息增益模型,获得各所述属性项的第二信息增益;
根据各所述属性项的第二信息增益,确定多个第二信息总增益;
根据各所述第二信息总增益确定所述预设划分标准。
进一步地,根据各所述属性项的第二信息增益,确定多个第二信息总增益,包括:
针对每个属性项,统计所述属性项的历史属性值分别为第一设定值和第二设定值时对应的第一出现频次及第二出现频次;
根据各所述属性项所述第一出现频次、第二出现频次及相应的第二信息增益,确定各所述第二信息总增益。
进一步地,根据各所述第二信息总增益确定所述预设划分标准,包括:
根据各所述第二信息总增益的数值范围,确定第一阈值和第二阈值,其中,所述第一阈值大于所述第二阈值;
如果所述第一总增益大于第一阈值,则确定所述当前网站的风险等级为高风险;
如果所述第一总增益小于或者等于所述第一阈值,且大于或者等于第二阈值时,则确定所述当前网站的风险等级为中风险;
如果所述第一总增益小于所述第二阈值时,则确定所述当前网站的风险等级为低风险。
第二方面,本发明实施例还提供了一种网站风险等级识别装置,包括:
第一执行模块,用于确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;
第二执行模块,用于根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;
第三执行模块,用于基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如第一方面所述的网站风险等级识别方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的网站风险等级识别方法。
本发明通过确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。上述技术方案,根据各属性项在当前网站中的当前属性值,确定当前网站的第一信息总增益,进而根据预设划分标准和前述第一信息总增益,确定当前网站的风险等级,便于对于未知的网站进行风险等级识别,也便于用户执行拒绝访问或者继续访问,进而提供较好的用户体验。
附图说明
图1为本发明实施例一提供的一种网站风险等级识别方法的流程图;
图2为本发明实施例二提供的一种网站风险等级识别方法的流程图;
图3为本发明实施例二提供的一种网站风险等级识别方法中确定预设划分标准的流程图;
图4为本发明实施例三提供的一种网站风险等级识别装置的结构图;
图5为本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在机器学习领域,识别网络钓鱼可以被视为一种分类问题,解决这个分类问题需要对大量的网站属性项进行学习和分析,网站的属性项可以包括网站的源码、网站的资源定位器和网站的域名等等。由于是分类问题,需要大量的安全网站和非安全网站的信息,作为模型训练的基础。机器学习方法识别网络钓鱼的优势在于,可以根据已知的安全网站和非安全网站的信息,通过学习他们之间属性的特点,从而对未来的新的未知风险的网站的风险进行智能评估,输出网站的风险等级。这种智能的识别方法解决了传统方法中的两个弊端,一是无需建立庞大的网站白名单却不能对未知的网站进行识别,二是可以根据最终网站的风险等级分别做出不同的应对策略,比如风险等级为高的网站直接拒绝访问,风险等级为中的网站可以让用户手动判别,风险等级为低的网站允许访问。
具体地,网站的属性项可以包括:较长的网络资源定位器、网络资源定位器锚、弹窗、访问地址中存在“//”、网络资源定位器中包含IP地址、服务器处理类型处于空白状态、前缀或后缀异常、子域名异常、域名服务器信息安全、伪造的HTTPS协议、@符号的出现、不规范的资源定位器格式、出现了无法鼠标右键的情况、域名存在时间较短、网络访问量较低、异常短的资源定位器、网页地址栏中出现了网站图标、在域名中嵌入了HTTP或HTTPS的信息、强制通过邮件提交信息和使用不常用的端口等。
本发明实施例中,可以根据上述属性项,识别网站的风险等级。
实施例一
图1为本发明实施例一提供的一种网站风险等级识别方法的流程图,本实施例可适用于需要确定未知网站的风险等级的情况,该方法可以由计算机来执行,具体包括如下步骤:
步骤110、确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况。
其中,属性项可以用于标识所访问网站的安全状况。
具体地,选定的属性项的数量可以为20个,对于当前网站,可以依次确定属性项对应的属性值。当然,在实际应用中,所选定的属性项的数量也可以为大于20的任意数量,可以根据实际需求进行确定。
需要说明的是,对于当前需要进行确定风险等级的网站,其包含的属性项可能大于所选定的属性项的数量,可以根据历史网站所包含属性项的中位值的二倍,确定所选定的属性项的数量。
若当前网站存在任一属性项,则该属性项对应的属性值为第一预设值;否则,该属性项对应的属性值为第二预设值。其中,第一预设值和第二预设值可以根据实际需求进行设定,在本实施例中,第一预设值和第二预设值可以分别为1、0。若当前网站存在任一属性项,则该属性项对应的属性值为1;若当前网站不存在该属性项,则该属性项对应的属性值为0。
本实施例中,可以分别确定当前网站的各属性项对应的属性值,根据属性值,还可以确定当前网站的信息总增益,进一步确定当前网站的风险等级,便于对于未知的网站进行风险等级识别,也便于用户执行拒绝访问或者继续访问,进而提供较好的用户体验。
步骤120、根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益。
如上述步骤110所述,若当前网站存在任一属性项,则该属性项对应的属性值可以为1;若当前网站不存在该属性项,则该属性项对应的属性值可以为0。
当然,在实际应用中,当前网站存在或者不存在任一属性项时,对应的属性值可以根据实际需求进行确定。
给定的当前网站D,对于上述的20种不同的属性项的整体记作X,则对其中的每一种xi,可以计算其对应的信息熵:
其中,p(xi)表示xi所对应为钓鱼网站的概率。
从而,对于X在特定属性项xi条件下的总体来说,第一信息总增益可以为:
其中,Dx是当前网站D在属性项X的值为x的子集,|·|函数表示求集合的元素个数,所以|Dx|指D在属性项X的值为x的子集的元素个数,|D|指D的元素个数。
本实施例中,对于一个新的未进行识别的网站,根据其上述20个属性项的取值情况,可以计算得到其第一信息总增益。根据第一信息总增益的分布情况,可以进一步确定网站的风险等级。
步骤130、基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
其中,预设划分标准可以根据历史网站进行确定。预设划分标准可以包括高风险、中风险和低风险。
具体地,可以比较第一信息总增益和预设划分标准中高风险、中风险和低风险的数值范围,确定第一信息总增益属于高风险、中风险或者低风险,进而确定当前网站的风险等级。便于用于根据当前网站的风险等级分别做出不同的应对策略,比如风险等级为高风险的网站直接拒绝访问,风险等级为中风险的网站可以让用户手动判别,风险等级为低的网站允许访问。
本实施例中,确定当前网站的风险等级之后,当前网站的第一信息总增益也可以用于重新确定预设划分标准,使得预设划分标准的数值划分范围更加精确,进一步使得对当前网站的风险等级划分更加精确。
本实施例的技术方案,通过确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。上述技术方案,根据各属性项在当前网站中的当前属性值,确定当前网站的第一信息总增益,进而根据预设划分标准和前述第一信息总增益,确定当前网站的风险等级,便于对于未知的网站进行风险等级识别,提供较好的用户体验。
实施例二
图2为本发明实施例二提供的一种网站风险等级识别方法的流程图,本实施例是在上述实施例的基础上进行具体化。在本实施例中,该方法还可以包括:
步骤210、确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况。
一种实施方式中,步骤210具体可以包括:
在所述当前网站中遍历各所述属性项。
其中,当前网站可能存在任一属性项,或者不存在该属性项。
属性项可以标识所访问网站的安全状况,若当前网站存在的属性项越多,表明当前网站越不安全;若当前网站存在的属性项越少,表明当前网站越安全。
本实施例中,可以分别确定当前网站是否存在各属性项。
将存在于所述当前网站中的属性项的当前属性值确定为第一设定值。
具体地,如果当前网站存在任一属性项,则可以将该属性项对应的当前属性项确定为第一设定值。
本实施例中,第一设定值可以根据实际需求进行确定,第一设定值可以为1。
将未存在于所述当前网站中的属性项的当前属性值确定为第二设定值。
具体地,如果当前网站不存在任一属性项,则可以将该属性项对应的当前属性值确定为第二设定值。
本实施例中,第二设定值可以根据实际需求进行确定,第一设定值可以为0。
其中,所述第一设定值与所述第二设定值为不同值,用于区分当前网站存在属性项或者不存在属性项。
步骤220、根据各历史网站相对所给定各属性项的历史属性值,结合所述预设信息增益模型,确定所述预设划分标准。
其中,预设信息增益模型可以根据输入的当前网站各属性项对应的当前属性值,确定当前网站对应各属性项的信息增益。
预设信息增益模型可以根据历史网站各属性项对应的历史属性值,进行训练,进而确定其预设信息增益模型的参数值。
当然,根据当前网站的第一信息总增益确定当前网站的风险等级之后,还可以将当前网站加入历史网站,用于确定继续训练预设信息增益模型,使得下一网站的风险等级确定更加精确。
具体地,可以根据如下方式确定预设划分标准:
图3为本发明实施例二提供的一种网站风险等级识别方法中确定预设划分标准的流程图,如图3所示,确定所述预设划分标准可以包括:
步骤2210、将当前时刻之前预设时间段内确定出的各钓鱼网站分别记为历史网站,并获取各所述历史网站相对所给定各属性项的历史属性值。
其中,历史网站均为钓鱼网站。若某一网站为正常网站,则该网站不存在任一属性项,则对于本实施例中识别网站风险等级的方法,该正常网站没有参考性,故而不能将其确定为历史网站。
预设时间段可以为一个月。
可以知道的是,历史网站也可以为当前网站之前的100个钓鱼网站。可以根据时间确定历史网站,也可以通过钓鱼网站的数量确定历史网站。
本实施例中,可以在各历史网站中遍历各所述属性项,将存在于各历史网站中的属性项的历史属性值确定为第一设定值,将未存在于各历史网站中的属性项的历史属性值确定为第二设定值。
步骤2220、将各所述历史网站相对各所述属性项的历史属性值作为输入数据输入所述预设信息增益模型,获得各所述属性项的第二信息增益。
其中,给定的历史网站D,对于如实施例一所述的20种不同的属性项的整体记作X,则对其中的每一种xi,可以计算其对应的信息熵:
其中,p(xi)表示xi所对应为钓鱼网站的概率。
各属性项的第二信息增益都可以根据上述计算公式计算得到。
需要说明的是,可以基于预设损失函数和第二信息增益,对预设信息增益模型进行训练,直至预设损失函数收敛。对于当前网站,根据预设信息增益模型,可以得到更加精确的第一信息增益。当然,当前网站的各属性项对应的当前属性值输入预设信息增益模型得到第一信息增益之后,当前网站的各属性项对应的当前属性值和第一信息增益可以进一步作为历史网站对预设信息增益模型进行训练直至预设损失函数收敛。
步骤2230、根据各所述属性项的第二信息增益,确定多个第二信息总增益。
其中,历史网站的每个属性项均可以对应第二信息增益,对每个属性项的第二信息增益进行求和,可以确定第二信息总增益。本实施例中可以包括多个历史网站对预设信息增益模型进行训练,所以多个历史网站可以对应多个信息总增益。
具体地,可以根据如下方式确定多个信息总增益。
一种实施方式中,步骤2230具体可以包括:
针对每个属性项,统计所述属性项的历史属性值分别为第一设定值和第二设定值时对应的第一出现频次及第二出现频次。
其中,对于每个属性项,在历史网站中,始终为存在或者不存在。当该属性项在历史网站中存在时,其历史属性值为第一设定值;当该属性项在历史网站中不存在时,其历史属性值为第二设定值。即历史属性值为第一设定值或者第二设定值,所以第一设定值的第一出现频次和第二设定值的第二出现频次的和可以为1。
根据各所述属性项所述第一出现频次、第二出现频次及相应的第二信息增益,确定各所述第二信息总增益。
其中,若大多数钓鱼网站均存在某一属性项,即该属性项在历史网站中的第一出现频次较大,表明该属性项对于确定网站的风险等级的权值较低;若大多数钓鱼网站不存在某一属性项,即该属性项在历史网站中的第一出现频次较小,表明该属性项对于确定网站的风险等级的权重较高。
若属性项的第一出现频次大于预设频次,确定该属性项的权值为第一权值;若属性项的第一出线频次小于预设频次,确定该属性项的权值为第二权值。其中,第一权值小于第二权值。
根据各属性项的权值和各属性项对应的第二信息增益,对各所述第二信息增益进行求和运算,可以确定各属性项对应的第二信息总增益。
步骤2240、根据各所述第二信息总增益确定所述预设划分标准。
一种实施方式中,步骤2240具体可以包括:
根据各所述第二信息总增益的数值范围,确定第一阈值和第二阈值,其中,所述第一阈值大于所述第二阈值。
其中,第二信息总增益的数值范围为历史网站的第二信息总增益的数值范围,其可以表明一段时间内或者一定数量的钓鱼网站中,信息总增益的数值范围,可以用于对信息总增益进行数值范围划分。
第一阈值和第二阈值可以将第二信息总增益的数值范围划分为三个等分的子数值范围,当然也可以按照2:6:2的比例将第二信息总增益的数值范围划分为三个子数值范围,具体确定三个子数值范围的方式还可以根据实际需求进行确定,在此不做具体限定。
如果所述第一信息总增益大于第一阈值,则确定所述当前网站的风险等级为高风险。
如果所述第一信息总增益小于或者等于所述第一阈值,且大于或者等于第二阈值时,则确定所述当前网站的风险等级为中风险。
如果所述第一信息总增益小于所述第二阈值时,则确定所述当前网站的风险等级为低风险。
当然,在实际应用中,第一阈值和第二阈值的设定可以根据实际需求进行确定,进而划分为三个子数值范围。
步骤230、根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益。
一种实施方式中,步骤220具体可以包括:
将各所述属性项的当前属性值作为输入数据输入预设信息增益模型,得到相应的第一信息增益。
具体地,预设信息增益模型可以根据各属性项的当前属性值,输出各属性项对应不同属性值的第一信息增益。
对各所述第一信息增益进行求和运算,得到所述当前网站的第一信息总增益。
具体地,可以按照前述各属性项的权值,对第一信息增益进行求和运算,得到当前网站的第一信息总增益。
步骤240、基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
具体地,可以比对第一信息总增益和前述三个数值子范围,确定第一信息总增益位于高风险、中风险或者低风险。
本实施例中,通过确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。上述技术方案,根据各属性项在当前网站中的当前属性值,确定当前网站的第一信息总增益,进而根据预设划分标准和前述第一信息总增益,确定当前网站的风险等级,便于对于未知的网站进行风险等级识别,提供较好的用户体验。
另外,可以将各属性项的当前属性值输入预设信息增益模型,确定当前网站的各属性项的第一信息增益,进而确定当前网站的第一信息总增益,而且当前网站的各属性项的当前属性值和第一信息增益可以继续作为历史网站的历史属性值对预设信息增益模型进行训练,可以得到更加精确的第一信息增益。
本实施例中,可以根据各属性项的权值对第一信息增益进行求和运算,得到当前网站的第一信息总增益。可以根据属性项的权值,确定其对网站风险等级的影响等级。
实施例三
图4为本发明实施例三提供的一种网站风险等级识别装置的结构图,该装置可以适用于在需要对未知网站进行风险等级识别的情况,便于用户执行拒绝访问或者继续访问,进而提供较好的用户体验。该装置可以通过软件和/或硬件实现,并一般集成在计算机中。
如图4所示,该装置包括:
第一执行模块410,用于确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;
第二执行模块420,用于根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;
第三执行模块430,用于基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
本实施例提供的网站风险等级识别装置,通过确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。上述技术方案,根据各属性项在当前网站中的当前属性值,确定当前网站的第一信息总增益,进而根据预设划分标准和前述第一信息总增益,确定当前网站的风险等级,便于对于未知的网站进行风险等级识别,提供较好的用户体验。
在上述实施例的基础上,第一执行模块410,具体用于:
在所述当前网站中遍历各所述属性项;
将存在于所述当前网站中的属性项的当前属性值确定为第一设定值;
将未存在于所述当前网站中的属性项的当前属性值确定为第二设定值;
其中,所述第一设定值与所述第二设定值为不同值。
在上述实施例的基础上,第二执行模块420,具体用于:
将各所述属性项的当前属性值作为输入数据输入预设信息增益模型,得到相应的第一信息增益;
对各所述第一信息增益进行求和运算,得到所述当前网站的第一信息总增益。
在上述实施例的基础上,该装置还包括:
第四执行模块,用于根据各历史网站相对所给定各属性项的历史属性值,结合所述预设信息增益模型,确定所述预设划分标准。
在上述实施例的基础上,第四执行模块,具体用于:
将当前时刻之前预设时间段内确定出的各钓鱼网站分别记为历史网站,并获取各所述历史网站相对所给定各属性项的历史属性值;
将各所述历史网站相对各所述属性项的历史属性值作为输入数据输入所述预设信息增益模型,获得各所述属性项的第二信息增益;
根据各所述属性项的第二信息增益,确定多个第二信息总增益。
一种实施方式中,确定各第二信息总增益的方式包括:
针对每个属性项,统计所述属性项的历史属性值分别为第一设定值和第二设定值时对应的第一出现频次及第二出现频次;
根据各所述属性项所述第一出现频次、第二出现频次及相应的第二信息增益,确定各所述第二信息总增益。
根据各所述第二信息总增益确定所述预设划分标准。
一种实施方式中,确定预设划分标准的方式包括:
根据各所述第二信息总增益的数值范围,确定第一阈值和第二阈值,其中,所述第一阈值大于所述第二阈值;
如果所述第一总增益大于第一阈值,则确定所述当前网站的风险等级为高风险;
如果所述第一总增益小于或者等于所述第一阈值,且大于或者等于第二阈值时,则确定所述当前网站的风险等级为中风险;
如果所述第一总增益小于所述第二阈值时,则确定所述当前网站的风险等级为低风险。
本发明实施例所提供的网站风险等级识别装置可执行本发明任意实施例所提供的网站风险等级识别方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510和存储器520;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510和存储器520可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的网站风险等级识别方法对应的程序指令/模块(例如,网站风险等级识别装置中的第一执行模块410、第二执行模块420和第三执行模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的网站风险等级识别方法。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例提供的计算机设备可以执行上述实施例提供的网站风险等级识别方法,具备相应的功能和有益效果。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种网站风险等级识别方法,该方法包括:
确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;
根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;
基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的网站风险等级识别方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述网站风险等级识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种网站风险等级识别方法,其特征在于,包括:
确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;
根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;
基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
2.根据权利要求1所述的网站风险等级识别方法,其特征在于,确定所选定各属性项在当前网站中的当前属性值,包括:
在所述当前网站中遍历各所述属性项;
将存在于所述当前网站中的属性项的当前属性值确定为第一设定值;
将未存在于所述当前网站中的属性项的当前属性值确定为第二设定值;
其中,所述第一设定值与所述第二设定值为不同值。
3.根据权利要求1所述的网站风险等级识别方法,其特征在于,根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益,包括:
将各所述属性项的当前属性值作为输入数据输入预设信息增益模型,得到相应的第一信息增益;
对各所述第一信息增益进行求和运算,得到所述当前网站的第一信息总增益。
4.根据权利要求3所述的网站风险等级识别方法,其特征在于,还包括:
根据各历史网站相对所给定各属性项的历史属性值,结合所述预设信息增益模型,确定所述预设划分标准。
5.根据权利要求4所述的网站风险等级识别方法,其特征在于,根据各历史网站相对所给定各属性项的历史属性值,结合所述预设信息增益模型,确定所述预设划分标准,包括:
将当前时刻之前预设时间段内确定出的各钓鱼网站分别记为历史网站,并获取各所述历史网站相对所给定各属性项的历史属性值;
将各所述历史网站相对各所述属性项的历史属性值作为输入数据输入所述预设信息增益模型,获得各所述属性项的第二信息增益;
根据各所述属性项的第二信息增益,确定多个第二信息总增益;
根据各所述第二信息总增益确定所述预设划分标准。
6.根据权利要求5所述的网站风险等级识别方法,其特征在于,根据各所述属性项的第二信息增益,确定多个第二信息总增益,包括:
针对每个属性项,统计所述属性项的历史属性值分别为第一设定值和第二设定值时对应的第一出现频次及第二出现频次;
根据各所述属性项所述第一出现频次、第二出现频次及相应的第二信息增益,确定各所述第二信息总增益。
7.根据权利要求5所述的网站风险等级识别方法,其特征在于,根据各所述第二信息总增益确定所述预设划分标准,包括:
根据各所述第二信息总增益的数值范围,确定第一阈值和第二阈值,其中,所述第一阈值大于所述第二阈值;
如果所述第一总增益大于第一阈值,则确定所述当前网站的风险等级为高风险;
如果所述第一总增益小于或者等于所述第一阈值,且大于或者等于第二阈值时,则确定所述当前网站的风险等级为中风险;
如果所述第一总增益小于所述第二阈值时,则确定所述当前网站的风险等级为低风险。
8.一种网站风险等级识别装置,其特征在于,包括:
第一执行模块,用于确定所选定各属性项在当前网站中的当前属性值,各所述属性项用于标识所访问网站的安全状况;
第二执行模块,用于根据各所述属性项的当前属性值,确定所述当前网站的第一信息总增益;
第三执行模块,用于基于预设划分标准和所述第一信息总增益,确定所述当前网站的风险等级。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的网站风险等级识别方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的网站风险等级识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110042225.3A CN112785130B (zh) | 2021-01-13 | 2021-01-13 | 一种网站风险等级识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110042225.3A CN112785130B (zh) | 2021-01-13 | 2021-01-13 | 一种网站风险等级识别方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112785130A true CN112785130A (zh) | 2021-05-11 |
CN112785130B CN112785130B (zh) | 2024-04-16 |
Family
ID=75755774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110042225.3A Active CN112785130B (zh) | 2021-01-13 | 2021-01-13 | 一种网站风险等级识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112785130B (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279875A (zh) * | 2011-06-24 | 2011-12-14 | 成都市华为赛门铁克科技有限公司 | 钓鱼网站的识别方法和装置 |
US20120017281A1 (en) * | 2010-07-15 | 2012-01-19 | Stopthehacker.com, Jaal LLC | Security level determination of websites |
CN102769632A (zh) * | 2012-07-30 | 2012-11-07 | 珠海市君天电子科技有限公司 | 钓鱼网站分级检测和提示的方法及系统 |
US8374983B1 (en) * | 2009-11-23 | 2013-02-12 | Google Inc. | Distributed object classification |
CN103428189A (zh) * | 2012-05-25 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种识别恶意网络设备的方法、装置和系统 |
CN104615760A (zh) * | 2015-02-13 | 2015-05-13 | 北京瑞星信息技术有限公司 | 钓鱼网站识别方法和系统 |
CN106060038A (zh) * | 2016-05-30 | 2016-10-26 | 南京邮电大学 | 基于客户端程序行为分析的钓鱼网站检测方法 |
CN106549959A (zh) * | 2016-10-26 | 2017-03-29 | 中国银联股份有限公司 | 一种代理网际协议ip地址的识别方法及装置 |
CN107454076A (zh) * | 2017-08-01 | 2017-12-08 | 北京亚鸿世纪科技发展有限公司 | 一种网站画像方法 |
WO2018099219A1 (zh) * | 2016-11-29 | 2018-06-07 | 中国银联股份有限公司 | 一种钓鱼网站检测方法和装置 |
WO2018166318A1 (zh) * | 2017-03-17 | 2018-09-20 | 平安科技(深圳)有限公司 | 网站的显示方法、装置及计算机可读存储介质 |
CN110191124A (zh) * | 2019-05-29 | 2019-08-30 | 哈尔滨安天科技集团股份有限公司 | 基于web前端开发数据的网站鉴别方法、装置及存储设备 |
CN110633991A (zh) * | 2019-09-20 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置和电子设备 |
CN111080306A (zh) * | 2019-12-17 | 2020-04-28 | 中国建设银行股份有限公司 | 交易风险确定方法、装置、设备及存储介质 |
CN111756724A (zh) * | 2020-06-22 | 2020-10-09 | 杭州安恒信息技术股份有限公司 | 钓鱼网站的检测方法、装置、设备、计算机可读存储介质 |
CN111798162A (zh) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于神经网络的风险监测方法及装置 |
CN113037728A (zh) * | 2021-02-26 | 2021-06-25 | 上海派拉软件股份有限公司 | 一种实现零信任的风险判定方法、装置、设备及介质 |
CN113869704A (zh) * | 2021-09-24 | 2021-12-31 | 上海派拉软件股份有限公司 | 一种风险评估方法、装置、设备及存储介质 |
-
2021
- 2021-01-13 CN CN202110042225.3A patent/CN112785130B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8374983B1 (en) * | 2009-11-23 | 2013-02-12 | Google Inc. | Distributed object classification |
US20120017281A1 (en) * | 2010-07-15 | 2012-01-19 | Stopthehacker.com, Jaal LLC | Security level determination of websites |
CN102279875A (zh) * | 2011-06-24 | 2011-12-14 | 成都市华为赛门铁克科技有限公司 | 钓鱼网站的识别方法和装置 |
CN103428189A (zh) * | 2012-05-25 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种识别恶意网络设备的方法、装置和系统 |
CN102769632A (zh) * | 2012-07-30 | 2012-11-07 | 珠海市君天电子科技有限公司 | 钓鱼网站分级检测和提示的方法及系统 |
CN104615760A (zh) * | 2015-02-13 | 2015-05-13 | 北京瑞星信息技术有限公司 | 钓鱼网站识别方法和系统 |
CN106060038A (zh) * | 2016-05-30 | 2016-10-26 | 南京邮电大学 | 基于客户端程序行为分析的钓鱼网站检测方法 |
CN106549959A (zh) * | 2016-10-26 | 2017-03-29 | 中国银联股份有限公司 | 一种代理网际协议ip地址的识别方法及装置 |
WO2018099219A1 (zh) * | 2016-11-29 | 2018-06-07 | 中国银联股份有限公司 | 一种钓鱼网站检测方法和装置 |
WO2018166318A1 (zh) * | 2017-03-17 | 2018-09-20 | 平安科技(深圳)有限公司 | 网站的显示方法、装置及计算机可读存储介质 |
CN107454076A (zh) * | 2017-08-01 | 2017-12-08 | 北京亚鸿世纪科技发展有限公司 | 一种网站画像方法 |
CN110191124A (zh) * | 2019-05-29 | 2019-08-30 | 哈尔滨安天科技集团股份有限公司 | 基于web前端开发数据的网站鉴别方法、装置及存储设备 |
CN110633991A (zh) * | 2019-09-20 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 风险识别方法、装置和电子设备 |
CN111080306A (zh) * | 2019-12-17 | 2020-04-28 | 中国建设银行股份有限公司 | 交易风险确定方法、装置、设备及存储介质 |
CN111756724A (zh) * | 2020-06-22 | 2020-10-09 | 杭州安恒信息技术股份有限公司 | 钓鱼网站的检测方法、装置、设备、计算机可读存储介质 |
CN111798162A (zh) * | 2020-07-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于神经网络的风险监测方法及装置 |
CN113037728A (zh) * | 2021-02-26 | 2021-06-25 | 上海派拉软件股份有限公司 | 一种实现零信任的风险判定方法、装置、设备及介质 |
CN113869704A (zh) * | 2021-09-24 | 2021-12-31 | 上海派拉软件股份有限公司 | 一种风险评估方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
仲丽君,等: "社交网络异常用户识别技术综述", 计算机工程与应用, vol. 54, no. 16, 15 August 2018 (2018-08-15), pages 13 - 23 * |
刘芳,等: "基于神经网络的安全风险概率预测模型", 计算机科学, vol. 35, no. 12, pages 28 - 33 * |
杨云,等: "基于属性降维的钓鱼网站检测方法", 重庆邮电大学学报(自然科学版), vol. 30, no. 04, pages 564 - 571 * |
Also Published As
Publication number | Publication date |
---|---|
CN112785130B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10721245B2 (en) | Method and device for automatically verifying security event | |
US9800594B2 (en) | Method and system for detecting unauthorized access attack | |
CN110602029B (zh) | 一种用于识别网络攻击的方法和系统 | |
WO2019144549A1 (zh) | 漏洞测试方法、装置、计算机设备和存储介质 | |
CN106295349A (zh) | 账号被盗的风险识别方法、识别装置及防控系统 | |
EP3549050B1 (en) | Method and computer product and methods for generation and selection of access rules | |
CN111726364B (zh) | 一种主机入侵防范方法、系统及相关装置 | |
CN106470204A (zh) | 基于请求行为特征的用户识别方法、装置、设备及系统 | |
CN111865925A (zh) | 基于网络流量的诈骗团伙识别方法、控制器和介质 | |
WO2020082763A1 (zh) | 基于决策树的钓鱼网站检测方法、装置及计算机设备 | |
CN113132311A (zh) | 异常访问检测方法、装置和设备 | |
CN107046516B (zh) | 一种识别移动终端身份的风控控制方法及装置 | |
CN107426136B (zh) | 一种网络攻击的识别方法和装置 | |
CN111835737A (zh) | 基于自动学习的web攻击防护方法、及其相关设备 | |
CN102891861A (zh) | 一种基于客户端的钓鱼网站检测方法及其装置 | |
US10320823B2 (en) | Discovering yet unknown malicious entities using relational data | |
CN112751804A (zh) | 一种仿冒域名的识别方法、装置和设备 | |
CN111740999B (zh) | 一种ddos攻击的识别方法、系统及相关装置 | |
CN117609992A (zh) | 一种数据泄密检测方法、装置及存储介质 | |
CN113852625B (zh) | 一种弱口令监测方法、装置、设备及存储介质 | |
CN111131166B (zh) | 一种用户行为预判方法及相关设备 | |
Khan et al. | Implementation of IDS for web application attack using evolutionary algorithm | |
CN109992960B (zh) | 一种伪造参数检测方法、装置、电子设备及存储介质 | |
CN107995167B (zh) | 一种设备识别方法及服务器 | |
CN112785130B (zh) | 一种网站风险等级识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |