CN107204956B - 网站识别方法及装置 - Google Patents

网站识别方法及装置 Download PDF

Info

Publication number
CN107204956B
CN107204956B CN201610149762.7A CN201610149762A CN107204956B CN 107204956 B CN107204956 B CN 107204956B CN 201610149762 A CN201610149762 A CN 201610149762A CN 107204956 B CN107204956 B CN 107204956B
Authority
CN
China
Prior art keywords
neural network
website
training sample
training samples
network training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610149762.7A
Other languages
English (en)
Other versions
CN107204956A (zh
Inventor
申瑞珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610149762.7A priority Critical patent/CN107204956B/zh
Publication of CN107204956A publication Critical patent/CN107204956A/zh
Application granted granted Critical
Publication of CN107204956B publication Critical patent/CN107204956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种网站识别方法及装置。其中,该方法包括:获取待检测网站上的网页图像;将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络,得到输出结果,其中,目标神经网络用于识别钓鱼网站;根据输出结果识别待检测网站是否为钓鱼网站。本发明解决了现有的网站识别技术所存在的准确率较低的技术问题。

Description

网站识别方法及装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种网站识别方法及装置。
背景技术
目前,传统的钓鱼网站识别技术通常包括以下几种:
1)基于黑名单技术:将已发现的钓鱼网站的统一资源定位符(Uniform ResourceLocation,URL)统一记录到一个黑名单中,以利用该黑名单判断待检测网站是否为钓鱼网站。但由于钓鱼网站的生命周期通常很短,因而通过频繁地更改域名和IP地址可以很容易实现对钓鱼网站地伪装;
2)基于网站内容识别的方法:提取待检测网站的Web内容,如JavaScript脚本、标题、文本内容、布局等。若其中包含钓鱼网站的特征,则认定是钓鱼网站。但是通过对网站内容进行混淆,或将文本内容转化成图片即可轻松实现对钓鱼网站地伪装;
3)基于网站IP地址关联的方法:通过分析待检测网站IP地址前24位与已知钓鱼网站之间的关联来判断是否为钓鱼网站。然而,单从IP维度分析钓鱼网站很难保证准确率与覆盖率;
4)基于URL属性大数据分析的方法:分析钓鱼网站的URL的多维度的属性,如URL中是否包含IP形式、是否包含16进制字符、是否包含敏感关键字、Whois注册信息是否在一年之内、网站排名等。然而,这些属性却无法准确反映该网站的全部特征,因而很难保证识别钓鱼网站的准确性与覆盖率。
也就是说,采用现有的网站识别方法识别钓鱼网站时,由于识别方式较为简单,钓鱼网站可以很容易通过伪装规避识别,因而很难保证识别的准确率与覆盖率。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网站识别方法及装置,以至少解决现有的网站识别技术所存在的准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种网站识别方法,包括:获取待检测网站上的网页图像;将上述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络,得到输出结果,其中,上述目标神经网络用于识别钓鱼网站;根据上述输出结果识别上述待检测网站是否为钓鱼网站。
根据本发明实施例的另一方面,还提供了一种网站识别装置,包括:获取单元,用于获取待检测网站上的网页图像;输入单元,用于将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络,得到输出结果,其中,目标神经网络用于识别钓鱼网站;识别单元,用于根据输出结果识别待检测网站是否为钓鱼网站。
在本发明实施例中,通过获取待检测网站上的网页图像,将网页图像中预定区域的像素值构成的向量输入到预先建立的目标神经网络,得到输出结果,以实现根据该输出结果识别待检测网站是否为钓鱼网站。通过利用目标神经网络对待检测网站上的网页图像进行识别,判断该待检测网站是否为钓鱼网站,以避免遗漏伪装后的钓鱼网站,从而实现提高对钓鱼网站识别的准确率,进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。
进一步,利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别,从而实现扩大对钓鱼网站的识别范围,提高对钓鱼网站识别的覆盖率的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的网站识别方法的应用环境示意图;
图2是根据本发明实施例的一种可选的网站识别方法的流程图;
图3是根据本发明实施例的另一种可选的网站识别方法的流程图;
图4是根据本发明实施例的一种可选的待检测网站的示意图;
图5是根据本发明实施例的一种可选的网站识别装置的示意图;以及
图6是根据本发明实施例的一种可选的网站识别服务器示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种网站识别方法的实施例,该网站识别方法可以但不限于应用于如图1所示的应用环境中,检测服务器102通过网络104从待检测网站所在的待检测服务器106上获取待检测网站上的网页图像,将网页图像中的预定区域的像素值构成的向量输入到预先建立的目标神经网络中,以得到输出结果,其中,目标神经网络用于识别钓鱼网站;检测服务器102根据输出结果识别待检测网站是否为钓鱼网站。可选地,在本实施例中,上述网络可以包括但不限于以下至少之一:广域网、城域网、局域网。可选地,在本实施例中,上述检测服务器102与待检测服务器106可以集成为同一个服务器,也可以为如图1所示的不同的服务器。上述只是一种示例,本实施例对此不做任何限定。
根据本发明实施例,提供了一种网站识别方法,如图2所示,该方法包括:
S202,获取待检测网站上的网页图像;
S204,将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络,得到输出结果,其中,目标神经网络用于识别钓鱼网站;
S206,根据输出结果识别待检测网站是否为钓鱼网站。
可选地,在本实施例中,上述网站识别方法可以但不限于应用于对钓鱼网站的识别过程中,通过获取待检测网站上的网页图像,将该网页图像中的预定区域的像素值构成的向量输入预先建立的用于识别钓鱼网站的目标神经网络,得到输出结果,然后根据输出结果识别上述待检测网站是否为钓鱼网站。
需要说明的是,在本实施例中,通过获取待检测网站上的网页图像,将网页图像中预定区域的像素值构成的向量输入到预先建立的目标神经网络,得到输出结果,以实现根据该输出结果识别待检测网站是否为钓鱼网站。通过利用目标神经网络对待检测网站上的网页图像进行识别,判断该待检测网站是否为钓鱼网站,以避免遗漏伪装后的钓鱼网站,从而实现提高对钓鱼网站识别的准确率,进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。进一步,利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别,从而实现扩大对钓鱼网站的识别范围,提高对钓鱼网站识别的覆盖率的效果。
可选地,在本实施例中,上述目标神经网络可以但不限于是通过对多目标进化神经网络进行N次迭代,从N次迭代所输出的非支配个体中选择一个非支配个体所对应的神经网络作为目标神经网络。也就是说,通过对多目标进化神经网络进行多次迭代优化,以得到识别准确率高、漏过率低的目标神经网络。进一步,在本实施例中,利用多目标进化神经网络的自动训练优化的自身结构的特性,不仅提高了网站识别方法的易用性,此外,还降低了计算开销,提高了网站识别效率。
可选地,在本实施例中,由多目标进化神经网络得到上述目标神经网络包括:收集神经网络训练样本。其中,上述神经网络训练样本用于对预先建立的多目标进化神经网络进行多次迭代训练。
可选地,在本实施例中,神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合,钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量。
需要说明的是,在本实施例中,上述正常网站训练样本集合可以但不限于作为白名单使用。也就是说,在识别过程中,若发现被误判为钓鱼网站的正常网站,则将该正常网站的网页图像中的预定区域的像素值构成的向量加入正常网站训练样本集合;同理,若发现遗漏的钓鱼网站,则将该钓鱼网站的网页图像中的预定区域的像素值构成的向量加入钓鱼网站训练样本集合。从而实现对网站识别结果的进一步修正,保证识别的准确率。
此外,在本实施例中,采用这种对多目标进化神经网络进行训练的方式,相对于传统的网站识别方法,对优化问题的性质没有任何限制,这使得复杂神经网络结构的自动设计成为可能。这样,在本发明实施例中,利用目标神经网络实现对网站识别过程中的多个目标同时进行优化。在保证精度的同时,还可以提高系统的易用性并降低识别计算开销。
可选地,在本实施例中,将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络可以包括但不限于:获取网页图像中的网站登录区域的像素值,其中,预定区域的像素值包括网站登录区域的像素值,网站登录区域至少包括:账号输入框和密码输入框;将网站登录区域的像素值输入目标神经网络。
需要说明的是,在本实施例中,上述预定区域可以但不限于根据不同的应用场景设置为不同区域。进一步,上述网站登录区域还可以包括验证区域等。本实施例中对此不做任何限定。
可选地,在本实施例中,根据网页图像的输出结果识别待检测网站是否为钓鱼网站可以包括但不限于:若输出结果的取值大于预定阈值,则识别出待检测网站为钓鱼网站;若输出结果的取值小于或等于预定阈值,则识别出待检测网站不为钓鱼网站。
其中,在本实施例中,上述预定阈值可以但不限于根据不同应用场景设置为不同的取值,本实施例中对此不做任何限定。例如,可以但不限于将钓鱼网站样本集合中的神经网络训练样本对应的预期的输出第一值,与正常网站样本集合中的神经网络训练样本对应的预期的输出第二值,二者之间的均值作为该预定阈值。
具体结合以下示例进行说明,如图3所示,假设待检测网站W为共享社区应用网站,获取该待检测网站W的登录页面图像。具体步骤可以如下:
S302,获取多目标进化神经网络。
S304,准备神经网络训练样本。其中,神经网络训练样本分为两部分:第一部分为钓鱼网站训练样本集合,钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出定义为1;第二部分为正常网站训练样本集合,正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量,与正常网站样本集合中的神经网络训练样本对应的预期的输出定义为0。
S306,训练多目标进化神经网络,得到目标神经网络。将训练样本输入多目标进化神经网络进行迭代,并从输出的非支配解中选择一个非支配解对应的神经网络作为目标神经网络。
S308,识别钓鱼网站。将待检测网站W的网站登录区域的像素值(例如420x320的区域)构成的向量输入到预先建立的目标神经网络,得到输出结果,若输出结果大于预定阈值(例如预定阈值为0.5),则认为待检测网站W是钓鱼网站,否则认为待检测网站W是正常网站。
通过本申请提供的实施例,通过利用目标神经网络对待检测网站上的网页图像进行识别,判断该待检测网站是否为钓鱼网站,以避免遗漏伪装后的钓鱼网站,从而实现提高对钓鱼网站识别的准确率,进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。进一步,利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别,从而实现扩大对钓鱼网站的识别范围,提高对钓鱼网站识别的覆盖率的效果。
作为一种可选的方案,在获取待检测网站上的网页图像之前,还包括:
S1,收集神经网络训练样本,其中,神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合,钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出为第一值,正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量,与正常网站样本集合中的神经网络训练样本对应的预期的输出为第二值;
S2,根据神经网络训练样本对预先建立的多目标进化神经网络进行训练,得到目标神经网络。
可选地,在本实施例中,第一值与第二值可以分别为1、0,第一值与第二值也可以分别为0、1。本实施例中对其不做任何限定。
需要说明的是,在本实施例中,可以通过收集已知网站类型的神经网络训练样本(即正常网站训练样本集合及钓鱼网站训练样本集合),从而实现通过利用已知网站类型的两种神经网络训练样本对多目标神经网络进行优化训练,大大缩短了训练时间,减少了训练开销。
此外,在准备神经网络训练样本的过程中,还可以但不限于对已获取的神经网络训练样本进行校正。例如,假设以与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出为1,与正常网站样本集合中的神经网络训练样本对应的预期的输出为0为例,在系统运营期间,若发现误判为钓鱼网站的正常网站,则可以将该正常网站的神经网络训练样本对应的预期的输出定义修正为0,并加入正常网站样本集合;同理,若发现漏过的钓鱼网站,也可以将该钓鱼网站的神经网络训练样本对应的预期的输出定义修正为1,并加入钓鱼网站集合。
通过本申请提供的实施例,通过利用神经网络训练样本(即正常网站训练样本集合及钓鱼网站训练样本集合)对预先建立的多目标进化神经网络进行训练,得到目标神经网络。从而实现利用识别能力较强,漏过率较低的目标神经网络对钓鱼网站进行深度识别,以提高对钓鱼网站识别的准确率及覆盖率。
作为一种可选的方案,根据神经网络训练样本对预先建立的多目标进化神经网络进行训练,得到目标神经网络包括:
S1,将神经网络训练样本输入多目标进化神经网络进行N次迭代,其中,N为预定值;
S2,在进行完N次迭代之后,从第N次迭代所输出的非支配个体中选择一个非支配个体,将选择出的非支配个体所对应的神经网络作为目标神经网络。
可选地,在本实施例中,上述非支配解用于指示在多目标规划中,由于存在目标之间的冲突和无法比较的现象,一个解在某个目标上是最好的,在其他的目标上可能比较差。
例如,假设第N次迭代后的输出结果包括:(0.6,0.6)T、(2,3)T、(3,2)T、(0,1)T、(1,0)T、(5,5)T。则可知:第一层为(0.6,0.6)T、(0,1)T、(1,0)T(不被所有个体支配);第二层为(2,3)T和(3,2)T(除去第一层非支配个体后不被所有个体支配);第三层为(5,5)T
在该示例中,可以但不限于在第一层的非支配个体(0.6,0.6)T、(0,1)T、(1,0)T中选择一个非支配个体所对应的神经网络作为目标神经网络。
可选地,在本实施例中,上述迭代次数N可以但不限于根据所需目标神经网络的不同精度设置为不同取值。本实施例中对此不做任何限定。
通过本申请提供的实施例,通过从第N次迭代所输出的非支配个体中选择一个非支配个体所对应的神经网络作为目标神经网络,利用多次迭代优化,选择出合适的神经网络作为用于识别钓鱼网站的目标神经网络,从而保证识别钓鱼网站的准确率和覆盖率。
作为一种可选的方案,将神经网络训练样本输入多目标进化神经网络进行N次迭代包括:
S1,随机生成多个所述多目标进化神经网络,参数为
Figure GDA0002159076520000091
其中,
Figure GDA0002159076520000092
Figure GDA0002159076520000101
Figure GDA0002159076520000102
所述m为用于对所述多目标进化神经网络进行训练的个体的数量,所述n为所述多目标进化神经网络的层数;其中,收集到的所述神经网络训练样本中的第k个所述神经网络训练样本
Figure GDA0002159076520000103
所述i为与
Figure GDA0002159076520000104
对应的网页图像中所述预定区域的像素行数,所述j为与
Figure GDA0002159076520000105
对应的网页图像中所述预定区域的像素列数;
S2,将神经网络训练样本输入多目标进化神经网络中,执行N次迭代操作,其中,q1为m,第j次迭代操作包括:
S21,将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式1和公式2中得到
Figure GDA0002159076520000106
Figure GDA0002159076520000107
其中,
Figure GDA0002159076520000108
qj的取值为第j-1次迭代的参数中的非支配个体的个数;
S22,通过对
Figure GDA0002159076520000109
进行随机变换得到
Figure GDA00021590765200001010
和Y个神经网络训练样本代入到公式1和公式2中得到
Figure GDA00021590765200001011
Figure GDA00021590765200001012
S23,根据
Figure GDA00021590765200001013
Figure GDA00021590765200001014
Figure GDA00021590765200001015
Figure GDA00021590765200001016
中选择出用于第j+1次迭代的参数ξj+1,其中,
Figure GDA00021590765200001017
为第j次迭代的参数
Figure GDA00021590765200001018
中的非支配个体;
其中,公式1如下:
Figure GDA0002159076520000111
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式1时,
Figure GDA0002159076520000112
为Y个神经网络训练样本中第k个神经网络训练样本,
Figure GDA0002159076520000113
为参数ξj中第r个参数,
Figure GDA0002159076520000114
1≤r≤qj,1≤k≤Y,1≤t≤n;
其中,
Figure GDA0002159076520000115
zt为公式1中的
Figure GDA0002159076520000116
公式2如下:
Figure GDA0002159076520000117
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式2时,
Figure GDA0002159076520000118
为将神经网络训练样本
Figure GDA0002159076520000119
输入到
Figure GDA00021590765200001110
对应的公式1中得到的输出结果,yk为与第k个神经网络训练样本对应的预期的输出。
可选地,在本实施例中,每一次迭代过程中qj的大小可以但不限于由第j-1次迭代的参数中的非支配个体确定,即每一次迭代q1,q2...qj的大小不完全相同;此外,每一次迭代过程中qj的大小也可以但不限于为恒定值,即,每一次迭代q1,q2...qj的大小均等于m(例如一般预设为100)。例如,通过分布性保持机制对上一次迭代过程中获得的非支配个体中进行删除,从而使下一代个体的数量保持为m。
可选地,在本实施例中,上述第k个神经网络训练样本
Figure GDA0002159076520000121
包括第k个神经网络训练样本中预定区域的像素值
Figure GDA0002159076520000122
可以但不限于构成一维向量输入目标神经网络。
具体结合以下示例进行说明:
S1,执行初始化操作。随机生成多个多目标进化神经网络,参数为
Figure GDA0002159076520000123
其中,多目标进化神经网络的每个个体对应不同的神经网络构造方案,它由包含若干权值矩阵、偏置向量的链表直接编码。假设m=3,
Figure GDA0002159076520000124
Figure GDA0002159076520000125
其中,上述m为用于对多目标进化神经网络进行训练的个体的数量,n为多目标进化神经网络的层数。这样可以省去解码环节,防止产生不可行解,减少不必要的效率损失。
进一步,可以通过以下方式获取:在一定范围内产生一个随机整数以确定神经网络深度n作为多目标进化神经网络的层数,然后依次产生大于0的随机整数以确定
Figure GDA0002159076520000126
从而得到神经网络的结构。最后在一定的实数范围内随机均匀填充上述权值矩阵和偏置向量,得到对应的参数。
需要说明的是,在本实施例中,在未满足终止条件(通常设置一个固定的迭代次数)时,采用变换算子对父代种群进行一些随机调整得到子代群体。若满足终止条件,多目标进化神经网络迭代后的输出结果中将得到一组非支配解供选择。
假设收集到Y个(例如Y=5)神经网络训练样本T,
Figure GDA0002159076520000131
其中,收集到的第k个神经网络训练样本
Figure GDA0002159076520000132
Figure GDA0002159076520000133
i为与
Figure GDA0002159076520000134
对应的网页图像中预定区域的像素行数,j为与
Figure GDA0002159076520000135
对应的网页图像中预定区域的像素列数;
S2,将神经网络训练样本T输入多目标进化神经网络中,执行N次迭代操作,其中,q1为m,第j次迭代操作包括:
S21,将用于第j次迭代的参数ξj和Y个神经网络训练样本T代入到公式1和公式2中得到
Figure GDA0002159076520000136
Figure GDA0002159076520000137
其中,
Figure GDA0002159076520000138
qj的取值为第j-1次迭代的参数中的非支配个体的个数;
其中,公式1如下:
Figure GDA0002159076520000139
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式1时,
Figure GDA00021590765200001310
为Y个神经网络训练样本中第k个神经网络训练样本,
Figure GDA00021590765200001311
为参数ξj中第r个参数,
Figure GDA00021590765200001312
1≤r≤qj,1≤k≤Y,1≤t≤n;
其中,
Figure GDA0002159076520000141
zt为公式1中的
Figure GDA0002159076520000142
公式2如下:
Figure GDA0002159076520000143
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式2时,
Figure GDA0002159076520000144
为将神经网络训练样本
Figure GDA0002159076520000145
输入到
Figure GDA0002159076520000146
对应的公式1中得到的输出结果,yk为与第k个神经网络训练样本对应的预期的输出。
也就是说,在第j次迭代的过程中,将5个神经网络训练样本分别依次代入公式1,得到与多目标进化神经网络中的参数
Figure GDA0002159076520000147
对应的输出结果
Figure GDA0002159076520000148
然后将上述输出结果代入公式2,得到
Figure GDA0002159076520000149
进一步,将5个神经网络训练样本分别代入公式1,得到与多目标进化神经网络中的参数
Figure GDA00021590765200001410
对应的输出结果。并将上述输出结果代入公式2,得到
Figure GDA00021590765200001411
S22,判断是否满足终止条件,若不满足终止条件,则对第j次迭代的目标神经进化网络(父代种群)进行一些随机的变换,将得到的参数ξ′1,ξ′2,ξ′3作为子代种群,并计算对应的
Figure GDA00021590765200001412
Figure GDA00021590765200001413
这里需要说明的是,子代种群中的个体有可能比父代种群中的个体好,也可能比父代种群中的个体坏。
进一步,根据
Figure GDA00021590765200001414
Figure GDA0002159076520000151
Figure GDA0002159076520000152
中选择出用于第j+1次迭代的参数ξj+1
假设第j次迭代后的输出结果包括:(0.6,0.6)T、(2,3)T、(3,2)T、(0,1)T、(1,0)T、(5,5)T。则可知:第一层为(0.6,0.6)T、(0,1)T、(1,0)T(不被所有个体支配);第二层为(2,3)T和(3,2)T(除去第一层非支配个体后不被所有个体支配);第三层为(5,5)T。则可以将第一层的非支配个体(0.6,0.6)T、(0,1)T、(1,0)T对应的
Figure GDA0002159076520000153
作为用于第j+1次迭代的参数。
S3,在完成N次迭代后,可以根据实际场景选择一个非支配个体所对应的神经网络作为目标神经网络。
通过本申请提供的实施例,通过对多目标神经进化网络进行多次迭代训练,从而得到识别度较高的目标神经网络,以保证对钓鱼网站识别的准确率和覆盖率。进一步,通过多次迭代得到的目标神经网络,经优化还可以实现开销小、识别效率高的效果。
作为一种可选的方案,在进行完N次迭代之后,从第N次迭代所输出的非支配个体中选择一个非支配个体,将选择出的非支配个体所对应的神经网络作为目标神经网络包括:
S1,从第N次迭代所输出的非支配个体
Figure GDA0002159076520000154
里面选择出一个
Figure GDA0002159076520000155
其中,1≤R≤qN
Figure GDA0002159076520000156
代入公式3,得到目标神经网络,其中,
Figure GDA0002159076520000157
为待检测区域的像素值:
Figure GDA0002159076520000158
其中,将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括:将
Figure GDA0002159076520000161
包括的网页图像中的预定区域的像素值构成的向量输入目标神经网络。
通过本申请提供的实施例,通过将待检测网站中网页图像中的预定区域的像素值代入经迭代训练得到的目标神经网络,从而保证对待检测网站识别的准确率,避免误判或遗漏的问题。
作为一种可选的方案,将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括:
S1,获取网页图像中的网站登录区域的像素值,其中,预定区域的像素值包括网站登录区域的像素值,网站登录区域至少包括:账号输入框和密码输入框;
S2,将网站登录区域的像素值输入目标神经网络。
需要说明的是,在本实施例中,上述预定区域可以但不限于根据不同的应用场景设置为不同区域。进一步,上述网站登录区域还可以包括验证区域等。本实施例中对此不做任何限定。
具体结合以下示例进行说明,从待检测网站W获取的网页图像如图4所示,其中,该网页图像中包括预定区域(即网站登录区域),该网站登录区域为如图4所示的账号输入框和密码输入框所在的区域。
通过本申请提供的实施例,通过将从待检测网站获取的网页图像中网站登录区域的像素值输入目标神经网络,从而实现利用目标神经网络对该区域进行图像识别,以达到对该待检测网站进行深度识别,进而实现准确判断出该待检测网站是否为钓鱼网站的效果。
作为一种可选的方案,根据输出结果识别待检测网站是否为钓鱼网站包括:
S1,若输出结果的取值大于预定阈值,则识别出待检测网站为钓鱼网站;
S2,若输出结果的取值小于或等于预定阈值,则识别出待检测网站不为钓鱼网站。
可选地,在本实施例中,上述预定阈值可以但不限于根据不同应用场景设置为不同的取值,本实施例中对此不做任何限定。例如,预定阈值为第一值和第二值之间的中间值。
具体结合以下示例进行说明,例如,以钓鱼网站预期的输出定义为1,正常网站的预期的输出定义为0,预定阈值为0.5为例,若输出结果的取值大于0.5,则认为待检测网站W的输出结果更接近钓鱼网站预期的输出定义1,则判定该待检测网站W为钓鱼网站,若输出结果的取值小于等于0.5,则认为待检测网站W的输出结果更接近正常网站预期的输出定义0,则判定该待检测网站W为正常网站。
通过本申请提供的实施例,根据目标神经网络输出的输出结果的取值来判断待检测网站是否为钓鱼网站,不仅提高了识别的准确率,且识别开销较小。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述网站识别方法的网站识别装置,如图5所示,该装置包括:
1)获取单元502,用于获取待检测网站上的网页图像;
2)输入单元504,用于将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络,得到输出结果,其中,目标神经网络用于识别钓鱼网站;
3)识别单元506,用于根据输出结果识别待检测网站是否为钓鱼网站。
可选地,在本实施例中,上述网站识别装置可以但不限于应用于对钓鱼网站的识别过程中,通过获取待检测网站上的网页图像,将该网页图像中的预定区域的像素值构成的向量输入预先建立的用于识别钓鱼网站的目标神经网络,得到输出结果,然后根据输出结果识别上述待检测网站是否为钓鱼网站。
需要说明的是,在本实施例中,通过获取待检测网站上的网页图像,将网页图像中预定区域的像素值构成的向量输入到预先建立的目标神经网络,得到输出结果,以实现根据该输出结果识别待检测网站是否为钓鱼网站。通过利用目标神经网络对待检测网站上的网页图像进行识别,判断该待检测网站是否为钓鱼网站,以避免遗漏伪装后的钓鱼网站,从而实现提高对钓鱼网站识别的准确率,进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。进一步,利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别,从而实现扩大对钓鱼网站的识别范围,提高对钓鱼网站识别的覆盖率的效果。
可选地,在本实施例中,上述目标神经网络可以但不限于是通过对多目标进化神经网络进行N次迭代,从N次迭代所输出的非支配个体中选择一个非支配个体所对应的神经网络作为目标神经网络。也就是说,通过对多目标进化神经网络进行多次迭代优化,以得到识别准确率高、漏过率低的目标神经网络。进一步,在本实施例中,利用多目标进化神经网络的自动训练优化的自身结构的特性,不仅提高了网站识别方法的易用性,此外,还降低了计算开销,提高了网站识别效率。
可选地,在本实施例中,由多目标进化神经网络得到上述目标神经网络包括:收集神经网络训练样本。其中,上述神经网络训练样本用于对预先建立的多目标进化神经网络进行多次迭代训练。
可选地,在本实施例中,神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合,钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量。
需要说明的是,在本实施例中,上述正常网站训练样本集合可以但不限于作为白名单使用。也就是说,在识别过程中,若发现被误判为钓鱼网站的正常网站,则将该正常网站的网页图像中的预定区域的像素值构成的向量加入正常网站训练样本集合;同理,若发现遗漏的钓鱼网站,则将该钓鱼网站的网页图像中的预定区域的像素值构成的向量加入钓鱼网站训练样本集合。从而实现对网站识别结果的进一步修正,保证识别的准确率。
此外,在本实施例中,采用这种对多目标进化神经网络进行训练的方式,相对于传统的网站识别方法,对优化问题的性质没有任何限制,这使得复杂神经网络结构的自动设计成为可能。这样,在本发明实施例中,利用目标神经网络实现对网站识别过程中的多个目标同时进行优化。在保证精度的同时,还可以提高系统的易用性并降低识别计算开销。
可选地,在本实施例中,将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络可以包括但不限于:获取网页图像中的网站登录区域的像素值,其中,预定区域的像素值包括网站登录区域的像素值,网站登录区域至少包括:账号输入框和密码输入框;将网站登录区域的像素值输入目标神经网络。
需要说明的是,在本实施例中,上述预定区域可以但不限于根据不同的应用场景设置为不同区域。进一步,上述网站登录区域还可以包括验证区域等。本实施例中对此不做任何限定。
可选地,在本实施例中,根据网页图像的输出结果识别待检测网站是否为钓鱼网站可以包括但不限于:若输出结果的取值大于预定阈值,则识别出待检测网站为钓鱼网站;若输出结果的取值小于或等于预定阈值,则识别出待检测网站不为钓鱼网站。
其中,在本实施例中,上述预定阈值可以但不限于根据不同应用场景设置为不同的取值,本实施例中对此不做任何限定。例如,可以但不限于将钓鱼网站样本集合中的神经网络训练样本对应的预期的输出第一值,与正常网站样本集合中的神经网络训练样本对应的预期的输出第二值,二者之间的均值作为该预定阈值。
具体结合以下示例进行说明,如图3所示,假设待检测网站W为共享社区应用网站,获取该待检测网站W的登录页面图像。具体步骤可以如下:
S302,获取多目标进化神经网络。
S304,准备神经网络训练样本。其中,神经网络训练样本分为两部分:第一部分为钓鱼网站训练样本集合,钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出定义为1;第二部分为正常网站训练样本集合,正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量,与正常网站样本集合中的神经网络训练样本对应的预期的输出定义为0。
S306,训练多目标进化神经网络,得到目标神经网络。将训练样本输入多目标进化神经网络进行迭代,并从输出的非支配解中选择一个非支配解对应的神经网络作为目标神经网络。
S308,识别钓鱼网站。将待检测网站W的网站登录区域的像素值(例如420x320的区域)构成的向量输入到预先建立的目标神经网络,得到输出结果,若输出结果大于预定阈值(例如预定阈值为0.5),则认为待检测网站W是钓鱼网站,否则认为待检测网站W是正常网站。
通过本申请提供的实施例,通过利用目标神经网络对待检测网站上的网页图像进行识别,判断该待检测网站是否为钓鱼网站,以避免遗漏伪装后的钓鱼网站,从而实现提高对钓鱼网站识别的准确率,进而克服现有技术中所存在的对钓鱼网站识别的准确率较低的技术问题。进一步,利用经过训练得到的目标神经网络还可以实现对内容更加复杂的钓鱼网站进行深度识别,从而实现扩大对钓鱼网站的识别范围,提高对钓鱼网站识别的覆盖率的效果。
作为一种可选的方案,还包括:
1)收集单元,用于在获取待检测网站上的网页图像之前,收集神经网络训练样本,其中,神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合,钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出为第一值,正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量,与正常网站样本集合中的神经网络训练样本对应的预期的输出为第二值;
2)训练单元,用于根据神经网络训练样本对预先建立的多目标进化神经网络进行训练,得到目标神经网络。
可选地,在本实施例中,第一值与第二值可以分别为1、0,第一值与第二值也可以分别为0、1。本实施例中对其不做任何限定。
需要说明的是,在本实施例中,可以通过收集已知网站类型的神经网络训练样本(即正常网站训练样本集合及钓鱼网站训练样本集合),从而实现通过利用已知网站类型的两种神经网络训练样本对多目标神经网络进行优化训练,大大缩短了训练时间,减少了训练开销。
此外,在准备神经网络训练样本的过程中,还可以但不限于对已获取的神经网络训练样本进行校正。例如,假设以与钓鱼网站样本集合中的神经网络训练样本对应的预期的输出为1,与正常网站样本集合中的神经网络训练样本对应的预期的输出为0为例,在系统运营期间,若发现误判为钓鱼网站的正常网站,则可以将该正常网站的神经网络训练样本对应的预期的输出定义修正为0,并加入正常网站样本集合;同理,若发现漏过的钓鱼网站,也可以将该钓鱼网站的神经网络训练样本对应的预期的输出定义修正为1,并加入钓鱼网站集合。
通过本申请提供的实施例,通过利用神经网络训练样本(即正常网站训练样本集合及钓鱼网站训练样本集合)对预先建立的多目标进化神经网络进行训练,得到目标神经网络。从而实现利用识别能力较强,漏过率较低的目标神经网络对钓鱼网站进行深度识别,以提高对钓鱼网站识别的准确率及覆盖率。
作为一种可选的方案,训练单元包括:
1)第一输入模块,用于将神经网络训练样本输入多目标进化神经网络进行N次迭代,其中,N为预定值;
2)选择模块,用于在进行完N次迭代之后,从第N次迭代所输出的非支配个体中选择一个非支配个体,将选择出的非支配个体所对应的神经网络作为目标神经网络。
可选地,在本实施例中,上述非支配解用于指示在多目标规划中,由于存在目标之间的冲突和无法比较的现象,一个解在某个目标上是最好的,在其他的目标上可能比较差。
例如,假设第N次迭代后的输出结果包括:(0.6,0.6)T、(2,3)T、(3,2)T、(0,1)T、(1,0)T、(5,5)T。则可知:第一层为(0.6,0.6)T、(0,1)T、(1,0)T(不被所有个体支配);第二层为(2,3)T和(3,2)T(除去第一层非支配个体后不被所有个体支配);第三层为(5,5)T
在该示例中,可以但不限于在第一层的非支配个体(0.6,0.6)T、(0,1)T、(1,0)T中选择一个非支配个体所对应的神经网络作为目标神经网络。
可选地,在本实施例中,上述迭代次数N可以但不限于根据所需目标神经网络的不同精度设置为不同取值。本实施例中对此不做任何限定。
通过本申请提供的实施例,通过从第N次迭代所输出的非支配个体中选择一个非支配个体所对应的神经网络作为目标神经网络,利用多次迭代优化,选择出合适的神经网络作为用于识别钓鱼网站的目标神经网络,从而保证识别钓鱼网站的准确率和覆盖率。
作为一种可选的方案,第一输入模块包括:
1)生成子模块,用于随机生成多个所述多目标进化神经网络,参数为
Figure GDA0002159076520000231
其中,
Figure GDA0002159076520000232
Figure GDA0002159076520000233
Figure GDA0002159076520000234
所述m为用于对所述多目标进化神经网络进行训练的个体的数量,所述n为所述多目标进化神经网络的层数;其中,收集到的所述神经网络训练样本中的第k个所述神经网络训练样本
Figure GDA0002159076520000235
Figure GDA0002159076520000236
所述i为与
Figure GDA0002159076520000237
对应的网页图像中所述预定区域的像素行数,所述j为与
Figure GDA0002159076520000238
对应的网页图像中所述预定区域的像素列数;
2)输入子模块,用于将神经网络训练样本输入多目标进化神经网络中,执行N次迭代操作,其中,q1为m,第j次迭代操作包括:
S1,将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式1和公式2中得到
Figure GDA0002159076520000241
Figure GDA0002159076520000242
其中,
Figure GDA0002159076520000243
qj的取值为第j-1次迭代的参数中的非支配个体的个数;
S2,通过对
Figure GDA0002159076520000244
进行随机变换得到
Figure GDA0002159076520000245
Figure GDA0002159076520000246
和Y个神经网络训练样本代入到公式1和公式2中得到
Figure GDA0002159076520000247
Figure GDA0002159076520000248
S3,根据
Figure GDA0002159076520000249
Figure GDA00021590765200002410
Figure GDA00021590765200002411
Figure GDA00021590765200002412
中选择出用于第j+1次迭代的参数ξj+1,其中,
Figure GDA00021590765200002413
为第j次迭代的参数
Figure GDA00021590765200002414
中的非支配个体;
其中,公式1如下:
Figure GDA00021590765200002415
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式1时,
Figure GDA00021590765200002416
为Y个神经网络训练样本中第k个神经网络训练样本,
Figure GDA00021590765200002417
为参数ξj中第r个参数,
Figure GDA0002159076520000251
1≤r≤qj,1≤k≤Y,1≤t≤n;
其中,
Figure GDA0002159076520000252
zt为公式1中的
Figure GDA0002159076520000253
公式2如下:
Figure GDA0002159076520000254
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式2时,
Figure GDA0002159076520000255
为将神经网络训练样本
Figure GDA0002159076520000256
输入到
Figure GDA0002159076520000257
对应的公式1中得到的输出结果,yk为与第k个神经网络训练样本对应的预期的输出。
可选地,在本实施例中,每一次迭代过程中qj的大小可以但不限于由第j-1次迭代的参数中的非支配个体确定,即每一次迭代q1,q2...qj的大小不完全相同;此外,每一次迭代过程中qj的大小也可以但不限于为恒定值,即,每一次迭代q1,q2...qj的大小均等于m(例如一般预设为100)。例如,通过分布性保持机制对上一次迭代过程中获得的非支配个体中进行删除,从而使下一代个体的数量保持为m。
可选地,在本实施例中,上述第k个神经网络训练样本
Figure GDA0002159076520000258
包括第k个神经网络训练样本中预定区域的像素值
Figure GDA0002159076520000259
可以但不限于构成一维向量输入目标神经网络。
具体结合以下示例进行说明:
S1,执行初始化操作。随机生成多个多目标进化神经网络的参数为
Figure GDA00021590765200002510
其中,多目标进化神经网络的每个个体对应不同的神经网络构造方案,它由包含若干权值矩阵、偏置向量的链表直接编码。假设m=3,
Figure GDA0002159076520000261
Figure GDA0002159076520000262
其中,上述m为用于对多目标进化神经网络进行训练的个体的数量,n为多目标进化神经网络的层数。这样可以省去解码环节,防止产生不可行解,减少不必要的效率损失。
进一步,可以通过以下方式获取:在一定范围内产生一个随机整数以确定神经网络深度n作为多目标进化神经网络的层数,然后依次产生大于0的随机整数以确定
Figure GDA0002159076520000263
从而得到神经网络的结构。最后在一定的实数范围内随机均匀填充上述权值矩阵和偏置向量,得到对应的参数。
需要说明的是,在本实施例中,在未满足终止条件(通常设置一个固定的迭代次数)时,采用变换算子对父代种群进行一些随机调整得到子代群体。若满足终止条件,多目标进化神经网络迭代后的输出结果中将得到一组非支配解供选择。
假设收集到Y个(例如Y=5)神经网络训练样本T,
Figure GDA0002159076520000264
其中,收集到的第k个神经网络训练样本
Figure GDA0002159076520000265
Figure GDA0002159076520000266
i为与
Figure GDA0002159076520000267
对应的网页图像中预定区域的像素行数,j为与
Figure GDA0002159076520000268
对应的网页图像中预定区域的像素列数;
S2,将神经网络训练样本T输入多目标进化神经网络中,执行N次迭代操作,其中,q1为m,第j次迭代操作包括:
S21,将用于第j次迭代的参数ξj和Y个神经网络训练样本T代入到公式1和公式2中得到
Figure GDA0002159076520000269
Figure GDA00021590765200002610
其中,
Figure GDA00021590765200002611
qj的取值为第j-1次迭代的参数中的非支配个体的个数;
其中,公式1如下:
Figure GDA0002159076520000271
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式1时,
Figure GDA0002159076520000272
为Y个神经网络训练样本中第k个神经网络训练样本,
Figure GDA0002159076520000273
为参数ξj中第r个参数,
Figure GDA0002159076520000274
1≤r≤qj,1≤k≤Y,1≤t≤n;
其中,
Figure GDA0002159076520000275
zt为公式1中的
Figure GDA0002159076520000276
公式2如下:
Figure GDA0002159076520000277
其中,在将用于第j次迭代的参数ξj和Y个神经网络训练样本代入到公式2时,
Figure GDA0002159076520000278
为将神经网络训练样本
Figure GDA0002159076520000279
输入到
Figure GDA00021590765200002710
对应的公式1中得到的输出结果,yk为与第k个神经网络训练样本对应的预期的输出。
也就是说,在第j次迭代的过程中,将5个神经网络训练样本分别依次代入公式1,得到与多目标进化神经网络中的参数
Figure GDA00021590765200002711
对应的输出结果
Figure GDA0002159076520000281
然后将上述输出结果代入公式2,得到
Figure GDA0002159076520000282
进一步,将5个神经网络训练样本分别代入公式1,得到与多目标进化神经网络中的参数
Figure GDA0002159076520000283
对应的输出结果。并将上述输出结果代入公式2,得到
Figure GDA0002159076520000284
S22,判断是否满足终止条件,若不满足终止条件,则对第j次迭代的目标神经进化网络(父代种群)进行一些随机的变换,将得到的参数ξ1′,ξ2′,ξ3′作为子代种群,并计算对应的
Figure GDA0002159076520000285
Figure GDA0002159076520000286
这里需要说明的是,子代种群中的个体有可能比父代种群中的个体好,也可能比父代种群中的个体坏。
进一步,根据
Figure GDA0002159076520000287
Figure GDA0002159076520000288
Figure GDA0002159076520000289
中选择出用于第j+1次迭代的参数ξj+1
假设第j次迭代后的输出结果包括:(0.6,0.6)T、(2,3)T、(3,2)T、(0,1)T、(1,0)T、(5,5)T。则可知:第一层为(0.6,0.6)T、(0,1)T、(1,0)T(不被所有个体支配);第二层为(2,3)T和(3,2)T(除去第一层非支配个体后不被所有个体支配);第三层为(5,5)T。则可以将第一层的非支配个体(0.6,0.6)T、(0,1)T、(1,0)T对应的
Figure GDA00021590765200002810
作为用于第j+1次迭代的参数。
S3,在完成N次迭代后,可以根据实际场景选择一个非支配个体所对应的神经网络作为目标神经网络。
通过本申请提供的实施例,通过对多目标神经进化网络进行多次迭代训练,从而得到识别度较高的目标神经网络,以保证对钓鱼网站识别的准确率和覆盖率。进一步,通过多次迭代得到的目标神经网络,经优化还可以实现开销小、识别效率高的效果。
作为一种可选的方案,选择模块包括:
1)选择子模块,用于从第N次迭代所输出的非支配个体
Figure GDA0002159076520000291
里面选择出一个
Figure GDA0002159076520000292
其中,1≤R≤qN
Figure GDA0002159076520000293
Figure GDA0002159076520000294
代入公式3,得到目标神经网络,其中,
Figure GDA0002159076520000295
为待检测区域的像素值:
Figure GDA0002159076520000296
其中,将网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括:将
Figure GDA0002159076520000297
包括的网页图像中的预定区域的像素值构成的向量输入目标神经网络。
通过本申请提供的实施例,通过将待检测网站中网页图像中的预定区域的像素值代入经迭代训练得到的目标神经网络,从而保证对待检测网站识别的准确率,避免误判或遗漏的问题。
作为一种可选的方案,输入单元504包括:
1)获取模块,用于获取网页图像中的网站登录区域的像素值,其中,预定区域的像素值包括网站登录区域的像素值,网站登录区域至少包括:账号输入框和密码输入框;
2)第二输入模块,用于将网站登录区域的像素值输入目标神经网络。
需要说明的是,在本实施例中,上述预定区域可以但不限于根据不同的应用场景设置为不同区域。进一步,上述网站登录区域还可以包括验证区域等。本实施例中对此不做任何限定。
具体结合以下示例进行说明,从待检测网站W获取的网页图像如图4所示,其中,该网页图像中包括预定区域(即网站登录区域),该网站登录区域为如图4所示的账号输入框和密码输入框所在的区域。
通过本申请提供的实施例,通过将从待检测网站获取的网页图像中网站登录区域的像素值输入目标神经网络,从而实现利用目标神经网络对该区域进行图像识别,以达到对该待检测网站进行深度识别,进而实现准确判断出该待检测网站是否为钓鱼网站的效果。
作为一种可选的方案,识别单元506包括:
1)第一识别模块,用于在输出结果的取值大于预定阈值时,识别出待检测网站为钓鱼网站;
2)第二识别模块,用于在输出结果的取值小于或等于预定阈值时,识别出待检测网站不为钓鱼网站。
可选地,在本实施例中,上述预定阈值可以但不限于根据不同应用场景设置为不同的取值,本实施例中对此不做任何限定。例如,预定阈值为第一值和第二值之间的中间值。
具体结合以下示例进行说明,例如,以钓鱼网站预期的输出定义为1,正常网站的预期的输出定义为0,预定阈值为0.5为例,若输出结果的取值大于0.5,则认为待检测网站W的输出结果更接近钓鱼网站预期的输出定义1,则判定该待检测网站W为钓鱼网站,若输出结果的取值小于等于0.5,则认为待检测网站W的输出结果更接近正常网站预期的输出定义0,则判定该待检测网站W为正常网站。
通过本申请提供的实施例,根据目标神经网络输出的输出结果的取值来判断待检测网站是否为钓鱼网站,不仅提高了识别的准确率,且识别开销较小。
实施例3
根据本发明实施例,还提供了一种用于实施上述网站识别方法的网站识别服务器,如图6所示,该服务器包括:
1)通讯接口602,设置为获取待检测网站上的网页图像;
2)处理器604,与通讯接口602连接,设置为将网页图像中的预定区域的像素值输入预先建立的目标神经网络,得到输出结果,其中,目标神经网络用于识别钓鱼网站;还设置为根据输出结果识别待检测网站是否为钓鱼网站;
3)存储器606,与通讯接口602及处理器604连接,设置为存储待检测网站上的网页图像,预先建立的目标神经网络及得到的输出结果。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取待检测网站上的网页图像;
S2,将网页图像中的预定区域的像素值输入预先建立的目标神经网络,得到输出结果,其中,目标神经网络用于识别钓鱼网站;
S3,根据输出结果识别待检测网站是否为钓鱼网站。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种网站识别方法,其特征在于,包括:
获取待检测网站上的网页图像;
将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络,得到输出结果,其中,所述目标神经网络用于识别钓鱼网站,所述目标神经网络使用神经网络训练样本对多目标进化神经网络进行训练得到,所述神经网络训练样本包括钓鱼网站训练样本集合中的神经网络训练样本与正常网站训练样本集合中的神经网络训练样本;
根据所述输出结果识别所述待检测网站是否为钓鱼网站;
其中,所述将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括:
获取所述网页图像中的网站登录区域的像素值,其中,所述预定区域的像素值包括所述网站登录区域的像素值,所述网站登录区域至少包括:账号输入框和密码输入框;
将所述网站登录区域的像素值输入所述目标神经网络;
其中,所述根据所述输出结果识别所述待检测网站是否为钓鱼网站包括:在所述输出结果的取值大于预定阈值的情况下,则识别出所述待检测网站为钓鱼网站,在所述输出结果的取值小于或等于所述预定阈值的情况下,则识别出所述待检测网站不为钓鱼网站,所述预定阈值为所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出第一值,与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出第二值的均值。
2.根据权利要求1所述的方法,其特征在于,在所述获取待检测网站上的网页图像之前,还包括:
收集所述神经网络训练样本,其中,所述神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合,所述钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,与所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出为第一值,所述正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量,与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出为第二值;
根据所述神经网络训练样本对预先建立的多目标进化神经网络进行训练,得到所述目标神经网络。
3.根据权利要求2所述的方法,其特征在于,所述根据所述神经网络训练样本对预先建立的多目标进化神经网络进行训练,得到所述目标神经网络包括:
将所述神经网络训练样本输入所述多目标进化神经网络进行N次迭代,其中,N为预定值;
在进行完N次迭代之后,从第N次迭代所输出的非支配个体中选择一个非支配个体,将选择出的非支配个体所对应的神经网络作为所述目标神经网络。
4.根据权利要求3所述的方法,其特征在于,将所述神经网络训练样本输入所述多目标进化神经网络进行N次迭代包括:
随机生成多个所述多目标进化神经网络,参数为
Figure FDA0002423056080000021
其中,
Figure FDA0002423056080000022
Figure FDA0002423056080000023
W1为权值矩阵,
Figure FDA0002423056080000024
为偏置向量,所述m为用于对所述多目标进化神经网络进行训练的个体的数量,所述n为所述多目标进化神经网络的层数;其中,收集到的所述神经网络训练样本中的第k个所述神经网络训练样本
Figure FDA0002423056080000025
所述i为与
Figure FDA0002423056080000026
对应的网页图像中所述预定区域的像素行数,所述j为与
Figure FDA0002423056080000027
对应的网页图像中所述预定区域的像素列数;
将所述神经网络训练样本输入所述多目标进化神经网络中,执行N次迭代操作,其中,q1为m,第j次迭代操作包括:
将用于第j次迭代的参数ξj和Y个所述神经网络训练样本代入到公式1和公式2中得到
Figure FDA0002423056080000031
Figure FDA0002423056080000032
其中,
Figure FDA0002423056080000033
所述qj的取值为第j-1次迭代的参数中的非支配个体的个数;
通过对
Figure FDA0002423056080000034
进行随机变换得到
Figure FDA0002423056080000035
Figure FDA0002423056080000036
和Y个所述神经网络训练样本代入到所述公式1和所述公式2中得到
Figure FDA0002423056080000037
根据
Figure FDA0002423056080000038
Figure FDA0002423056080000039
Figure FDA00024230560800000310
Figure FDA00024230560800000311
中选择出用于第j+1次迭代的参数ξj+1,其中,
Figure FDA00024230560800000312
为第j次迭代的参数
Figure FDA00024230560800000313
中的非支配个体;
其中,所述公式1如下:
Figure FDA00024230560800000314
其中,在将用于第j次迭代的参数ξj和Y个所述神经网络训练样本代入到公式1时,所述
Figure FDA00024230560800000315
为Y个所述神经网络训练样本中第k个所述神经网络训练样本,
Figure FDA0002423056080000041
为所述参数ξj中第r个参数,所述
Figure DA00024230560851433
Figure FDA0002423056080000043
其中,所述
Figure FDA0002423056080000044
所述zt为所述公式1中的
Figure FDA0002423056080000045
所述公式2如下:
Figure FDA0002423056080000046
其中,在将用于第j次迭代的参数ξj和Y个所述神经网络训练样本代入到公式2时,所述
Figure FDA0002423056080000047
为将所述神经网络训练样本
Figure FDA0002423056080000048
输入到所述
Figure FDA0002423056080000049
对应的公式1中得到的输出结果,所述yk为与所述第k个所述神经网络训练样本对应的预期的输出。
5.根据权利要求4所述的方法,其特征在于,在进行完N次迭代之后,从第N次迭代所输出的非支配个体中选择一个非支配个体,将选择出的非支配个体所对应的神经网络作为所述目标神经网络包括:
从第N次迭代所输出的非支配个体
Figure FDA00024230560800000410
里面选择出一个
Figure FDA00024230560800000414
其中,1≤R≤qN
Figure FDA00024230560800000412
代入所述公式3,得到所述目标神经网络,其中,所述
Figure FDA00024230560800000413
为待检测区域的像素值:
Figure FDA0002423056080000051
其中,将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括:将
Figure FDA0002423056080000052
包括的所述网页图像中的预定区域的像素值构成的向量输入所述目标神经网络。
6.一种网站识别装置,其特征在于,包括:
获取单元,用于获取待检测网站上的网页图像;
输入单元,用于将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络,得到输出结果,其中,所述目标神经网络用于识别钓鱼网站,所述目标神经网络使用神经网络训练样本对多目标进化神经网络进行训练得到,所述神经网络训练样本包括钓鱼网站训练样本集合中的神经网络训练样本与正常网站训练样本集合中的神经网络训练样本;
识别单元,用于根据所述输出结果识别所述待检测网站是否为钓鱼网站;
其中,所述输入单元包括:
获取模块,用于获取所述网页图像中的网站登录区域的像素值,其中,所述预定区域的像素值包括所述网站登录区域的像素值,所述网站登录区域至少包括:账号输入框和密码输入框;
第二输入模块,用于将所述网站登录区域的像素值输入所述目标神经网络;
其中,所述识别单元包括:第一识别模块,用于在所述输出结果的取值大于预定阈值时,识别出所述待检测网站为钓鱼网站,第二识别模块,用于在所述输出结果的取值小于或等于所述预定阈值时,识别出所述待检测网站不为钓鱼网站,所述预定阈值为所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出第一值,与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出第二值的均值。
7.根据权利要求6所述的装置,其特征在于,还包括:
收集单元,用于在获取待检测网站上的网页图像之前,收集神经网络训练样本,其中,所述神经网络训练样本包括正常网站训练样本集合及钓鱼网站训练样本集合,所述钓鱼网站训练样本集合中的神经网络训练样本包括钓鱼网站样本的网页图像中的预定区域的像素值构成的向量,与所述钓鱼网站训练样本集合中的神经网络训练样本对应的预期的输出为第一值,所述正常网站训练样本集合中的神经网络训练样本包括正常网站样本的网页图像中的预定区域的像素值构成的向量,与所述正常网站训练样本集合中的神经网络训练样本对应的预期的输出为第二值;
训练单元,用于根据所述神经网络训练样本对预先建立的多目标进化神经网络进行训练,得到所述目标神经网络。
8.根据权利要求7所述的装置,其特征在于,所述训练单元包括:
第一输入模块,用于将所述神经网络训练样本输入所述多目标进化神经网络进行N次迭代,其中,N为预定值;
选择模块,用于在进行完N次迭代之后,从第N次迭代所输出的非支配个体中选择一个非支配个体,将选择出的非支配个体所对应的神经网络作为所述目标神经网络。
9.根据权利要求8所述的装置,其特征在于,所述第一输入模块包括:
生成子模块,用于随机生成多个所述多目标进化神经网络,参数为
Figure FDA0002423056080000061
其中,
Figure FDA0002423056080000062
Figure FDA0002423056080000063
Figure FDA0002423056080000071
W1为权值矩阵,
Figure FDA0002423056080000072
为偏置向量,所述m为用于对所述多目标进化神经网络进行训练的个体的数量,所述n为所述多目标进化神经网络的层数;其中,收集到的所述神经网络训练样本中的第k个所述神经网络训练样本
Figure FDA0002423056080000073
所述i为与
Figure FDA0002423056080000074
对应的网页图像中所述预定区域的像素行数,所述j为与
Figure FDA0002423056080000075
对应的网页图像中所述预定区域的像素列数;
输入子模块,用于将所述神经网络训练样本输入所述多目标进化神经网络中,执行N次迭代操作,其中,q1为m,第j次迭代操作包括:
将用于第j次迭代的参数ξj和Y个所述神经网络训练样本代入到公式1和公式2中得到
Figure FDA0002423056080000076
Figure FDA0002423056080000077
其中,
Figure FDA0002423056080000078
所述qj的取值为第j-1次迭代的参数中的非支配个体的个数;
通过对
Figure FDA0002423056080000079
进行随机变换得到
Figure FDA00024230560800000710
Figure FDA00024230560800000711
和Y个所述神经网络训练样本代入到所述公式1和所述公式2中得到
Figure FDA00024230560800000712
根据
Figure FDA00024230560800000713
Figure FDA00024230560800000714
Figure FDA00024230560800000715
中选择出用于第j+1次迭代的参数ξj+1,其中,
Figure FDA00024230560800000716
为第j次迭代的参数
Figure FDA00024230560800000717
中的非支配个体;
其中,所述公式1如下:
Figure FDA0002423056080000081
其中,在将用于第j次迭代的参数ξj和Y个所述神经网络训练样本代入到公式1时,所述
Figure FDA0002423056080000082
为Y个所述神经网络训练样本中第k个所述神经网络训练样本,
Figure FDA0002423056080000083
为所述参数ξj中第r个参数,所述
Figure FDA0002423056080000084
Figure FDA0002423056080000085
其中,所述
Figure FDA0002423056080000086
所述zt为所述公式1中的
Figure FDA0002423056080000087
所述公式2如下:
Figure FDA0002423056080000088
其中,在将用于第j次迭代的参数ξj和Y个所述神经网络训练样本代入到公式2时,所述
Figure FDA0002423056080000089
为将所述神经网络训练样本
Figure FDA00024230560800000810
输入到所述
Figure FDA00024230560800000811
对应的公式1中得到的输出结果,所述yk为与所述第k个所述神经网络训练样本对应的预期的输出。
10.根据权利要求9所述的装置,其特征在于,所述选择模块包括:
选择子模块,用于从第N次迭代所输出的非支配个体
Figure FDA0002423056080000091
里面选择出一个
Figure FDA0002423056080000098
其中,1≤R≤qN
Figure FDA0002423056080000093
Figure FDA0002423056080000094
代入所述公式3,得到所述目标神经网络,其中,所述
Figure FDA0002423056080000095
为待检测区域的像素值:
Figure FDA0002423056080000096
其中,将所述网页图像中的预定区域的像素值构成的向量输入预先建立的目标神经网络包括:将
Figure FDA0002423056080000097
包括的所述网页图像中的预定区域的像素值构成的向量输入所述目标神经网络。
11.一种计算机可读的存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序运行时执行所述权利要求1至5任一项中所述的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任一项中所述的方法。
CN201610149762.7A 2016-03-16 2016-03-16 网站识别方法及装置 Active CN107204956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610149762.7A CN107204956B (zh) 2016-03-16 2016-03-16 网站识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610149762.7A CN107204956B (zh) 2016-03-16 2016-03-16 网站识别方法及装置

Publications (2)

Publication Number Publication Date
CN107204956A CN107204956A (zh) 2017-09-26
CN107204956B true CN107204956B (zh) 2020-06-23

Family

ID=59903576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610149762.7A Active CN107204956B (zh) 2016-03-16 2016-03-16 网站识别方法及装置

Country Status (1)

Country Link
CN (1) CN107204956B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052523A (zh) * 2017-11-03 2018-05-18 中国互联网络信息中心 基于卷积神经网络的赌博网站识别方法和系统
CN108681570B (zh) * 2018-05-04 2021-09-21 安徽大学 一种基于多目标进化算法的个性化网页推荐方法
CN109450844B (zh) * 2018-09-18 2022-05-10 华为云计算技术有限公司 触发漏洞检测的方法及装置
CN111104576A (zh) * 2018-10-29 2020-05-05 阿里巴巴集团控股有限公司 网页识别的处理方法、装置、系统及电子设备
JP2021170221A (ja) * 2020-04-15 2021-10-28 ネットスター株式会社 学習済みモデル、サイト判定プログラム及びサイト判定システム
CN111556065A (zh) * 2020-05-08 2020-08-18 鹏城实验室 钓鱼网站检测方法、装置及计算机可读存储介质
CN112597828A (zh) * 2020-12-11 2021-04-02 京东数字科技控股股份有限公司 网页识别模型的训练方法、装置、网页识别的方法
CN114124564B (zh) * 2021-12-03 2023-11-28 北京天融信网络安全技术有限公司 一种仿冒网站检测方法、装置、电子设备及存储介质
CN114448664B (zh) * 2021-12-22 2024-01-02 深信服科技股份有限公司 钓鱼网页的识别方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968813A (zh) * 2010-10-25 2011-02-09 华北电力大学 一种假冒网页检测方法
CN102523202A (zh) * 2011-12-01 2012-06-27 华北电力大学 钓鱼网页的深度学习智能检测方法
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN103530367A (zh) * 2013-10-12 2014-01-22 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103605794A (zh) * 2013-12-05 2014-02-26 国家计算机网络与信息安全管理中心 一种网站分类方法
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN103685308A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 一种钓鱼网页的检测方法及系统、客户端、服务器
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104537303A (zh) * 2014-12-30 2015-04-22 中国科学院深圳先进技术研究院 一种钓鱼网站鉴别系统及鉴别方法
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968813A (zh) * 2010-10-25 2011-02-09 华北电力大学 一种假冒网页检测方法
CN101968813B (zh) * 2010-10-25 2012-05-23 华北电力大学 一种假冒网页检测方法
CN102523202A (zh) * 2011-12-01 2012-06-27 华北电力大学 钓鱼网页的深度学习智能检测方法
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN102647422B (zh) * 2012-04-10 2014-09-17 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN103530367A (zh) * 2013-10-12 2014-01-22 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103605794A (zh) * 2013-12-05 2014-02-26 国家计算机网络与信息安全管理中心 一种网站分类方法
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及系统、客户端、服务器
CN103685308A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 一种钓鱼网页的检测方法及系统、客户端、服务器
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104537303A (zh) * 2014-12-30 2015-04-22 中国科学院深圳先进技术研究院 一种钓鱼网站鉴别系统及鉴别方法
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置

Also Published As

Publication number Publication date
CN107204956A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
CN107204956B (zh) 网站识别方法及装置
CN110311902B (zh) 一种异常行为的识别方法、装置及电子设备
CN109460512B (zh) 推荐信息处理方法、装置、设备及存储介质
US11212297B2 (en) Access classification device, access classification method, and recording medium
CN108229156A (zh) Url攻击检测方法、装置以及电子设备
CN112333706B (zh) 物联网设备异常检测方法、装置、计算设备及存储介质
CN104615760A (zh) 钓鱼网站识别方法和系统
CN107360137A (zh) 用于验证码识别的神经网络模型的构建方法和装置
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
WO2018053511A1 (en) Threat scoring system and method
US9218419B2 (en) Snapshot generation for search results page preview
CN105404631B (zh) 图片识别方法和装置
CN105306495A (zh) 用户识别方法和装置
CN115080756A (zh) 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
CN110995681A (zh) 用户识别方法、装置、电子设备及存储介质
Feng et al. A novel saliency detection method for wild animal monitoring images with WMSN
CN112910890B (zh) 基于时间卷积网络的匿名网络流量指纹识别方法及设备
CN110855635B (zh) Url识别方法、装置及数据处理设备
CN111581487B (zh) 一种信息处理方法及装置
CN111104952A (zh) 识别食物种类的方法、系统及装置、冰箱
KR102323424B1 (ko) 관측평점과 유사도 그래프를 활용한 추천 알고리즘의 평점 예측 방법
CN109359462B (zh) 虚假设备识别方法、设备、存储介质及装置
CN111126503A (zh) 一种训练样本的生成方法和装置
CN113409092B (zh) 一种异常特征信息提取方法、系统、电子设备及介质
Li et al. PCBDet: An efficient deep neural network object detection architecture for automatic PCB component detection on the edge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant