CN114448664A - 钓鱼网页的识别方法、装置、计算机设备及存储介质 - Google Patents

钓鱼网页的识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114448664A
CN114448664A CN202111581863.9A CN202111581863A CN114448664A CN 114448664 A CN114448664 A CN 114448664A CN 202111581863 A CN202111581863 A CN 202111581863A CN 114448664 A CN114448664 A CN 114448664A
Authority
CN
China
Prior art keywords
logo
webpage
image
target
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111581863.9A
Other languages
English (en)
Other versions
CN114448664B (zh
Inventor
彭宜
曾才非
金星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202111581863.9A priority Critical patent/CN114448664B/zh
Publication of CN114448664A publication Critical patent/CN114448664A/zh
Application granted granted Critical
Publication of CN114448664B publication Critical patent/CN114448664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种钓鱼网页的识别方法、装置、计算机设备以及存储介质,该方法通过基于已训练的目标检测模型,获取页面图像中的徽标区域图像,将徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到徽标区域图像与每个徽标图像之间的相似度,若徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将待识别网页对应的域名与目标徽标图像对应的网页域名进行匹配,其中目标徽标图像为预设白名单中的任一徽标图像,若待识别网页对应的域名与目标徽标图像对应的网页域名不匹配,则确定待识别网页为钓鱼网页。该方法基于白名单训练检测模型,减少训练成本并提高对钓鱼网页检测的准确性和检测效率。

Description

钓鱼网页的识别方法、装置、计算机设备及存储介质
技术领域
本申请涉及互联网技术领域,更具体地,涉及一种钓鱼网页的识别方法、装置、计算机设备及存储介质。
背景技术
随着互联网用户数量的飞速增长,越来越多的钓鱼网站仿冒成正版官方网站,欺骗获取用户的账号、密码等隐私信息,造成直接经济损失,对用户的财产安全产生威胁。目前相关钓鱼网页的识别方法中,通常采用通过机器学习获得的模型对钓鱼网页进行识别,但这种识别方式中,其泛化能力和准确性不足。
发明内容
鉴于上述问题,本申请提出了一种钓鱼网页的识别方法、装置、计算机设备及存储介质。
第一方面,本申请实施例提供了一种钓鱼网页的识别方法,所述方法包括:获取待识别网页的页面图像;基于已训练的目标检测模型,获取所述页面图像中的徽标区域图像;将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到所述徽标区域图像与所述每个徽标图像之间的相似度,所述徽标识别模型为基于所述预设白名单中的徽标图像对孪生神经网络进行训练得到的;若所述徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将所述待识别网页对应的域名与所述目标徽标图像对应的网页域名进行匹配,所述目标徽标图像为所述预设白名单中的任一徽标图像;若所述待识别网页对应的域名与所述目标徽标图像对应的网页域名不匹配,则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。
第二方面,本申请实施例提供了一种钓鱼网页的识别装置,所述装置包括:页面获取模块、徽标获取模块、相似度对比模块、域名匹配模块以及网页判断模块,其中,页面获取模块用于获取待识别网页的页面图像;徽标获取模块用于基于已训练的目标检测模型,获取页面图像中的徽标区域图像;相似度对比模块用于将徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到徽标区域图像与每个徽标图像之间的相似度,徽标识别模型为基于预设白名单中的徽标图像对孪生神经网络进行训练得到的;域名匹配模块用于若徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将待识别网页对应的域名与目标徽标图像对应的网页域名进行匹配,目标徽标图像为预设白名单中的任一徽标图像;网页判断模块用于若待识别网页对应的域名与目标徽标图像对应的网页域名不匹配,则确定待识别网页为仿冒目标徽标图像对应的网页的钓鱼网页。
第三方面,本申请实施例提供了一种计算机设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面提供的钓鱼网页的识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的钓鱼网页的识别方法。
本申请提供的方案,通过基于已训练的目标检测模型,获取页面图像中的徽标区域图像,将徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到徽标区域图像与每个徽标图像之间的相似度,若徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将待识别网页对应的域名与目标徽标图像对应的网页域名进行匹配,其中目标徽标图像为预设白名单中的任一徽标图像,若待识别网页对应的域名与目标徽标图像对应的网页域名不匹配,则确定待识别网页为仿冒目标徽标图像对应的网页的钓鱼网页。由于通过白名单中的徽标图像训练得到的孪生神经网络,比对待识别网页的徽标与白名单中的徽标之间的相似度,对待识别网页进行钓鱼网页的识别,因此,无需搜集大量的黑样本进行模型训练,从而能够提升钓鱼网页识别的泛化能力和准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个实施例提供的钓鱼网页的识别方法的流程示意图。
图2示出了本申请另一个实施例提供的钓鱼网页的识别方法中徽标识别模型的训练过程的流程示意图。
图3示出了本申请另一个实施例提供的徽标识别模型的训练过程中构建孪生神经网络的流程示意图。
图4示出了本申请又一个实施例提供的钓鱼网页的识别方法中目标检测模型的训练过程的流程示意图。
图5示出了本申请再一个实施例提供的钓鱼网页的识别方法的流程示意图。
图6示出了本申请又另一个实施例提供的钓鱼网页的识别方法的流程示意图。
图7示出了本申请又再一个实施例提供的钓鱼网页的识别方法的流程示意图。
图8示出了本申请实施例提供的钓鱼网页的识别装置的结构框图。
图9示出了本申请实施例提供的计算机设备的结构框图。
图10示出了本申请实施例提供的计算机可读存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
当前,通过钓鱼网站欺骗别人给出口令或者其他敏感信息的方法在黑客界已经具有相当悠久的历史,同时随着互联网所连接的主机系统和用户量的飞速增长,越来越多的钓鱼网站影响人们的生活。这些钓鱼网站通过假冒成可信网站获取访客的敏感个人信息如口令、密码等信息,用户在误信钓鱼网站后往往会遭受巨大的经济损失,甚至在个人信息被窃取后可能被用于犯罪等,威胁用户的财产安全。而由于钓鱼网站具有很强的迷惑性难以被人识别,因此,借助计算机设备对钓鱼网站进行准确的识别是很有必要的。
在相关技术中,在业内通常采用通过页面相似度或者网页的内容信息提取特征等方式识别钓鱼网页,具体来说,利用机器学习算法进行模型训练,通过模型基于页面的相似度以及页面的内容信息对网页进行识别。
这种方法通常最重要的步骤通常是对检测模型的训练,而模型训练的准确性需要依赖白样本和黑样本的完整性,黑样本即为已经确定为钓鱼网页的页面信息,白样本即为官方正版的网页。在对模型的训练过程中,由于黑样本的数量较少以及类型单一,训练出来的模型往往泛化能力不够,适应性不强,导致模型最终的检测效率以及准确度都并不理想。
针对上述问题,发明人提出了本申请实施例提供的钓鱼网页的识别方法、装置、计算机设备以及存储介质,通过白名单中的徽标图像训练得到的孪生神经网络,比对待识别网页的徽标与白名单中的徽标之间的相似度,对待识别网页进行钓鱼网页的识别,不需要大量的黑样本页面数据,而仅通过收集的受保护白名单页面数据来对模型进行训练,进而实现对待检测页面的准确识别。其中,具体的钓鱼网页的识别方法在后续的实施例中进行详细的说明。
请参阅图1,图1示出了本申请实施例提供的钓鱼网页的识别方法的流程示意图。在具体的实施例中,所述钓鱼网页的识别方法应用于如图1所示的钓鱼网页的识别装置以及配置有所述钓鱼网页的识别装置的计算机设备(如图8),下面以计算机设备为例,说明本实施例的具体流程,当然,可以理解,本实施例所应用的计算机设备包括智能手机、平板电脑、笔记本电脑等,在此不做限定。下面将针对图1所示流程进行详细阐述,所述钓鱼网页的识别方法具体可以包括以下步骤:
步骤S110:获取待识别网页的页面图像。
在本申请实施例中,对于一些可能为钓鱼网页的未知网页,可以通过本申请实施例提供的识别方法确定该未知网页是否为钓鱼网页,因此可以将该未知网页视为待识别网页,计算机设备可以获取待识别网页的页面图像,用以根据页面图像确定待识别网页是否为钓鱼网页。其中,钓鱼网页可以是指伪装成银行及电子商务网页的非官方网页网站,通过窃取用户的口令、密码等敏感信息获取经济利益的网页。
在一些实施方式中计算机设备获取待识别网页的页面图像可以指待识别网页的页面截图,用以通过模型确定页面截图对应的网页是否是钓鱼网页。在一些情况下,计算机设备获取的待识别网页的页面图像,不仅可以包括待识别网页的页面截图,还可以包括待识别网页的统一资源定位符(Uniform Resource Locator,URL),用以最终确定待识别网页是否为钓鱼网页。
在一些实施方式中,计算机设备获取的待识别网页的页面图像中可以包括有徽标图像,该徽标图像可以是该网页用以区别于其他网页的具有显著识别性的标识。计算机设备可以通过提取该徽标图像,以确认待识别网页是否是正版官方网页。
在一些实施方式中,待识别网页的来源可以是通过用户在日常网络浏览过程中发现的可疑页面,也可以是计算机设备通过一定的算法在海量的网页数据中自动识别出的可疑网页页面。
步骤S120:基于已训练的目标检测模型,获取所述页面图像中的徽标区域图像。
在本申请实施例中,计算机设备可以通过已经训练好的目标检测模型,对待识别网页的页面图像进行检测,该目标检测模型可以输出标记有徽标区域图像的待识别网页,其中徽标区域图像是能够用以区别于其他网页的显著标识特征。此时计算机设备可以单独获取待识别网页中的徽标区域图像。具体来说,一般的目标检测模型是用于检测输入的页面数据中是否具有特定的目标对象,在本方案中,已经训练好的目标检测模型是指能够检测输入的待识别网页的页面图像中是否具有徽标区域图像,并输出标注有徽标区域图像的页面图像,用以使计算机设备获取待识别网页的徽标区域图像,进而确定待检测页面是否为钓鱼网页。
具体来说,目标检测模型的检测过程一般可以有三步:利用不同尺寸的滑动窗口框住图中的某一部分作为候选区域、提取候选区域相关视觉特征以及利用分类器进行识别。经过上述步骤目标检测模型可以输出标注有徽标区域图像的待检测页面,同时计算机设备可以基于目标检测模型输出的待检测页面获取页面图像中的徽标区域图像。在一些实施方式中,计算机设备可以将Fast R-CNN模型作为初始模型,Fast R-CNN模型可以允许输入不同尺寸的图片,有较高的检测速度。该模型通过提取框、图像分类、非极大值抑制等步骤进行目标检测,其中提取特征的步骤中可以基于深度卷积网络提取特征。
步骤S130:将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到所述徽标区域图像与所述每个徽标图像之间的相似度,所述徽标识别模型为基于所述预设白名单中的徽标图像对孪生神经网络进行训练得到的。
在本申请实施例中,计算机设备可以通过徽标识别模型对输入的两个图像进行检测,输出两个输入图像之间的相似度。其中待检测页面的徽标区域图像作为徽标识别模型的其中一个输入图像,另一个输入图像则是预设白名单中的每个徽标图像。徽标识别模型用于检测待检测网页的徽标区域图像与预设白名单中的徽标图像是否相似。具体来说,由于徽标识别模型是基于孪生神经网络识别得到的,因此需要输入两个图像,以分别输入到孪生神经网络中相同的两个网络,故可以将徽标区域图像与预设白名单中的每个徽标图像作为一组,最终可以输入的组数即为预设白名单中的徽标图像的数量。此时将所有组中的图像分别输入徽标识别模型,即可分别得到徽标区域图像与预设白名单中每个徽标图像之间的相似度,计算机设备可以根据获取的相似度进一步确定待检测页面是否为钓鱼网页。
在一些实施方式中,对孪生神经网络的训练可以是基于预设白名单中的徽标图像进行的。具体来说,可以将预设白名单中的一张图像以及该图像的复制图像作为模型的两个输入,由于输入图像本身是相同的,因此孪生神经网络输出的相似度也应当较高,故可以基于此约束孪生神经网络的训练,以得到能够正确匹配徽标图像之间的相似度的徽标识别模型。
在一些实施方式中,预设白名单包括预先收集的大量正版网页的页面图像,白名单中的页面均可安全访问。白名单中的页面数据的来源可以是计算机设备通过网络中查找的;也可以是在对待识别网页的识别过程中逐步增加的,即若对待识别网页被计算机设备确定为非钓鱼网页,且预设白名单页面中不存在该待识别网页的徽标图像,则可以将待识别网页对应的徽标图像及其对应的域名加入预设白名单中,并对预设白名单进行更新,用以在下一次对待识别网页进行判断时,可以基于新的预设白名单进行,增加钓鱼网页识别的准确性。
步骤S140:若所述徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将所述待识别网页对应的域名与所述目标徽标图像对应的网页域名进行匹配,所述目标徽标图像为所述预设白名单中的任一徽标图像。
在本申请实施例中,基于徽标识别模型输出的徽标区域图像以及目标徽标图像之间的相似度,计算机设备可以对待检测页面的图像进行一个初步判断。其中,目标徽标图像可以是预设白名单中的任一徽标图像,即徽标区域图像与预设白名单中的徽标图像依次作为徽标识别模型的输入图像。若徽标区域图像与目标徽标图像之间的相似度大于预设阈值,则表征徽标区域图像与目标徽标图像之间相似度较高,若在后续步骤中确定待识别网页对应的域名不在预设白名单中的徽标图像对应的域名中,则待识别网页具有较大的概率为钓鱼网页,当然待识别网页是否为钓鱼网页,则可以通过进一步判断待识别网页对应的域名与目标徽标图像对应的域名是否一致,用以判断待识别网页的域名是否在预设白名单中的徽标图像对应的域名之中,以进一步确定待识别页面是否是钓鱼网页。其中预设阈值可以是预先设置的相似度数值,用以根据徽标识别模型输出的相似度与预设阈值之间的大小关系,对待识别网页做出不同的判断,具体来说,若相似度大于预设阈值,可以认为徽标识别模型输入的两个页面图像之间相似程度较高,待识别网页有较大可能性为钓鱼网页;若相似度小于或等于预设阈值,则可以认为徽标识别模型输入的两个页面图像之间的相似程度较低,此时待识别网页为钓鱼网页的可能性较小。
步骤S150:若所述待识别网页对应的域名与所述目标徽标图像对应的网页域名不匹配,则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。
在本申请实施例中,计算机设备在比较待识别网页对应的域名与目标徽标图像对应的网页域名是否匹配之后,若不匹配,则表示待识别网页的徽标与预设白名单中的徽标图像相似度较高,但域名不同,因此可以将待识别网页确定为钓鱼网页,并且该钓鱼网页的仿冒对象是目标徽标图像对应的网页;若待识别网页对应的域名与目标徽标图像对应的网页域名匹配,即待识别网页是预设白名单中的徽标图像对应的网页页面之中的一个,为正版官方网页。
本申请实施例提供的钓鱼网页的识别方法,不需要大量的黑样本页面数据预先训练模型,而可以仅通过收集的受保护白名单页面数据来对模型进行训练,提升钓鱼网页识别的泛化能力和准确性,使钓鱼网页的识别过程更加精准且高效。
请参阅图2,图2示出了本申请另一个实施例提供的钓鱼网页的识别方法中徽标识别模型的训练过程的流程示意图,下面将针对图2所示流程进行详细阐述,该徽标识别模型的训练过程具体可以包括以下步骤:
步骤S210:将所述预设白名单中的徽标图像及其对应的复制图像,输入至孪生神经网络,得到所述孪生神经网络输出的所述徽标图像与所述复制图像之间相似度。
针对前述实施例中的徽标识别模型,本申请实施例提供了对该徽标识别模型的训练方法,值得说明的是,对徽标识别模型的训练可以是基于获取的训练数据集合预先进行的,后续在每次需要获取徽标区域图像与目标徽标图像之间的相似度时,可以利用训练得到的徽标识别模型进行,而无需每次识别图像时都对徽标识别模型进行训练。
在本申请实施例中,对徽标识别模型进行训练的样本数据集可以是包含多个正版网页图像的预设白名单数据集,其中预设白名单中可以包括多个正版网页页面对应的徽标图像以及页面对应的域名。在本申请实施例中,计算机设备可以采用基于孪生神经网络对其进行训练的方法得到预期的徽标识别模型。具体来说,计算机设备可以通过获取预设白名单中的每个徽标图像对应的复制图像,将预设白名单中的每个徽标图像及其对应的复制图像作为一组孪生神经网络的输入图像,则总计输入的组数可以为预设白名单中的徽标图像的数量。
其中,孪生神经网络具有两个结构相同,且共享权重的子网络,分别接收两个输入图像,将其映射为两个特征向量,再通过距离度量的方式(如欧式距离)计算两个特征向量之间的距离,由此可以基于两个特征向量之间的距离拟合两个输入图像之间的差异(图像语义上的差异)。在本申请实施方式中,孪生神经网络的两个子网络可以是已训练的残差网络。
可选的,为使孪生神经网络可以更加准确地输出输入的两个图像之间的相似度,可以通过样本图像集对残差网络进行训练,进一步构建孪生神经网络,具体地,请参阅图3,构建孪生神经网络,可以包括:
步骤S211:基于第一样本图像集对相同的第一残差网络以及第二残差网络进行预训练,得到训练后的所述第一残差网络以及第二残差网络。
在本申请实施例中,第一样本图像集可以为包括大量图像数据的集合,可以为现有的用于图像识别的数据集,如LogoDet-3K数据集、BelgaLogos数据集或Logo-2K+数据集等。在孪生神经网络中的两个子网络结构相同且共享权重,故由第一残差网络以及第二残差网络组成的子网络具有相同的网络结构。基于第一样本图像集对相同的第一残差网络以及第二残差网络进行迭代训练,直至残差网络的特征提取能力符合预期标准,得到的第一残差网络以及第二残差网络可以较为准确地提取输入的图像数据的特征向量,进而基于特征向量确定的输入图像的相似度准确性更高。计算机设备可以将训练后的第一残差网络以及第二残差网络作为孪生神经网络的两个子网络。
可以理解地,当使用的深度神经网络层数越来越深,非线性函数的嵌套越来越多,实现的函数越来越复杂,虽然实现了对图片更精确的分类,但与此同时也产生了梯度消失的问题,因此基于残差网络构建孪生神经网络可以解决有效神经网络的梯度消失的问题,故对残差网络进行训练可以使模型具有一定的深度,提升模型的精度。
步骤S212:基于所述训练后的所述第一残差网络以及第二残差网络,构建所述孪生神经网络。
在本申请实施例中,基于第一样本图像集对第一残差网络以及第二残差网络进行训练后,得到的训练后的残差网络可以对输入的图像提取特征向量。基于第一残差网络以及第二残差网络,构建孪生神经网络,即基于残差网络输出的特征向量,拟合两个输入图像之间的差异。计算机设备通过上述方法构建的孪生神经网络可以基于输入的两个图像数据输出图像之间的相似度。
步骤S220:基于所述徽标图像与所述复制图像之间相似度,确定第一损失值。
在本申请实施例中,孪生神经网络输出徽标图像及其对应的复制图像之间的相似度后,计算机设备可以基于该相似度确定第一损失值。第一损失值可以是用于衡量孪生神经网络输出的相似度与徽标图像及其对应的复制图像的实际相似度之间错位程度,其中,徽标图像与复制图像之间相似度的理想值应当是最大相似度,例如最大相似度为1,则理想值也为1,因此可以基于孪生神经网络输出的相似度与该理想值的差异,确定第一损失值。
可以理解地,若第一损失值越大,则孪生神经网络输出的相似度与实际相似度相差较大,即孪生神经网络对相似度判断的准确性不高;若第一损失值越小,则孪生神经网络对输入图像的相似度的判断越准确。在对孪生神经网络的训练过程中,计算机设备可以基于孪生神经网络输出的相似度确定第一损失值,用以根据第一损失值判断是否对孪生神经网络继续进行训练。
步骤S230:基于所述第一损失值对所述孪生神经网络进行迭代训练,直至所述孪生神经网络满足第一预设条件,得到训练后的孪生神经网络作为所述徽标识别模型。
在本申请实施例中,计算机设备在确定孪生神经网络的第一损失值后,可以基于第一损失值,对孪生神经网络进行迭代训练。计算机设备可以根据计算的第一损失值,调整孪生差值网络中用于提取图像特征的两个网络的参数,通过不断根据损失值和梯度下降法,不断的迭代更新网络参数,在最终满足迭代终止条件时,获得训练完成的孪生神经网络,训练完成的孪生神经网络即可作为徽标识别模型。在获得的孪生神经网络中,由于损失值在迭代过程中不断变小,因此最终满足预设的第一预设条件时获得的孪生差值网络,能够准确地提取输入的图像的特征,并计算两者之间的相似度。
其中,梯度下降法(gradient descent)是一个最优化算法,通常也称为最速下降法,常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型。第一预设条件即迭代训练的终止条件,该第一预设条件可以是第一损失值最小、第一损失值小于预设值、或者迭代次数达到预设次数等,在此不做限定。
本申请实施例中,通过将预设白名单中的徽标图像及其对应的复制图像,输入已训练的孪生神经网络,得到徽标图像与复制图像之间的相似度,并基于相似度确定第一损失值,进一步基于第一损失值对孪生神经网络进行迭代训练,直至孪生神经网络满足第一预设条件,将训练后的孪生神经网络作为徽标识别模型,得到准确率满足预设条件的徽标识别模型,因此在训练用于获取徽标图像之间的相似度的徽标识别模型时,无需利用黑样本进行训练,能够提升泛化能力。
请参阅图4,图4示出了本申请又一个实施例提供的钓鱼网页的识别方法中目标检测模型的训练过程的流程示意图,下面将针对图4所示流程进行详细阐述,该目标检测模型的训练过程具体可以包括以下步骤:
步骤S310:将包含所述预设白名单中徽标图像的样本页面图像输入至初始目标模型,得到所述初始目标模型输出的所述样本页面图像中的徽标检测区域,所述样本页面图像被标注有徽标图像所在区域。
针对前述实施例中的目标检测模型,本申请实施例中还提供了对该目标检测模型的训练方法,值得说明的是,对目标检测模型的训练可以是基于获取的训练数据集合预先进行的,后续在每次需要对待页面图像进行目标检测时,则可以利用训练得到的目标检测模型进行,而无需每次识别页面图像进行目标检测模型的训练。
在本申请实施例中,计算机设备可以基于初始目标模型对其进行训练得到目标检测模型。其中初始目标模型可以是已经经过初步训练的模型,本申请中对初始目标模型进行训练,可以将预设白名单中徽标图像的样本页面图像输入至初始目标模型,初始目标模型可以对页面图像中的徽标图像进行标记,并输出标记有徽标检测区域的样本页面图像,用以计算机设备根据初始目标模型标注的徽标检测区域与样本页面图像中被标注的徽标图像所在区域进行对比确定初始目标模型标记的准确性。
可选的,为使初始目标模型能够更加准确地检测出输入图像的徽标检测区域,具体实施方式中,计算机设备可以基于样本图像集对Fast R-CNN网络进行迭代训练,最终得到初始目标模型。具体地,获取初始目标模型,可以包括:
获取基于第二样本图像集训练得到的目标检测模型,作为所述初始模型。
在本申请实施例中,可以使用的初始目标模型可以是用于图像目标检测的模型如Fast R-CNN模型、SSD模型或者YOLO模型等。计算机设备可以基于第二样本图像集对FastR-CNN模型进行训练。其中第二样本图像集可以是封装好的coco数据集等,这些数据集均是用于对目标检测模块进行训练的封装数据集。
步骤S320:基于所述样本页面图像被标注的徽标图像所在区域与所述样本页面图像中的徽标检测区域,确定第二损失值。
在本申请实施例中,第二损失值可以是用于衡量初始目标模型对样本页面图像标注的徽标检测区域与样本页面图像被标注的徽标图像所在区域的错位程度的数值,第二损失值越大,表征初始目标模型标注的徽标检测区域与实际的样本页面图像中的徽标图像所在区域之间错位程度越大,即初始目标模型越不准确,反之则表明初始目标模型对徽标图像的标记越准确。计算机设备计算初始目标模型识别样本页面图像的第二损失值,可以用以根据第二损失值的大小对初始目标模型进行训练。
步骤S330:基于所述第二损失值对所述初始目标模型进行迭代训练,直至所述初始目标模型满足第二预设条件,得到训练后的初始目标模型作为所述已训练的目标检测模型。
在本申请实施例中,计算机设备在得出初始目标模型的第二损失值后,可以基于第二损失值对初始目标模型进行迭代训练。计算机设备可以在根据计算得到的第二损失值,调整初始目标模型的参数,通过不断根据损失值和梯度下降法,不断的迭代更新模型参数,在最终满足迭代终止条件时,获得训练完成的初始目标模型,训练完成的初始目标模型可以作为已训练的目标检测模型。在获得的目标检测模型中,由于损失值在迭代过程中不断变小,因此最终满足第二预设条件时获得的初始目标模型,能够准确地标注输入图像的徽标区域图像。
本申请实施例中,提供了用于检测页面图像中徽标所在区域的目标检测模型的训练方法,通过被标注有徽标图像所在区域的样本页面图像,对初始模型训练,从而得到目标检测模型,可以提高对输入页面图像徽标区域的标记准确度。
请参阅图5,图5示出了本申请再一个实施例提供的钓鱼网页的识别方法的流程示意图,下面将针对图5所示流程进行详细阐述,所述钓鱼网页的识别方法具体可以包括以下步骤:
步骤S410:获取待识别网页的页面图像。
步骤S420:基于已训练的目标检测模型,获取所述页面图像中的徽标区域图像。
步骤S430:将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到所述徽标区域图像与所述每个徽标图像之间的相似度。
步骤S440:若所述徽标区域图像与所述每个徽标图像之间的相似度小于或等于所述预设阈值,则将所述待识别网页标记为待确定网页。
在本申请实施例中,若徽标识别模型输出的徽标区域图像与目标徽标图像之间的相似度小于或等于预设阈值,则可以视为徽标区域图像与目标徽标图像之间的差异性较大,此时计算机设备可以将待识别网页标记为待确定网页。待确定网页用于表征待识别网页与预设白名单中徽标图像对应的样本页面相似程度较低,但待识别网页仍有一定概率为钓鱼网页,此时需要对待确定网页进行进一步的判断,确定该网页是否为钓鱼网页。
步骤S450:输出第一提示信息,所述第一提示信息用于提示用户对所述待确定网页进行确定。
在本申请实施例中,若将待识别网页标记为待确定网页,则计算机设备可以输出第一提示信息,用以提示用户对待确定网页进行确定,即提示用户判断待确定网页是否是钓鱼网页。在一些实施方式中,若用户判断待识别网页为钓鱼网页,则计算机设备可以基于用户判断的反馈信号,将待识别网页标注为钓鱼网页,其中用户判断的反馈信号用以向计算机设备反馈用户的对待识别网页的判断结果,并指示计算机设备将待识别网页标注为钓鱼网页。
可选地,在计算机设备输出第一提示信息之后,该钓鱼网页的识别方法还可以包括:
若接收到目标确定结果,将所述徽标区域图像,以及将所述待识别网页对应的域名作为所述徽标区域图像对应的域名,添加至所述预设白名单,所述目标确定结果用于表征所述待确定网页不为钓鱼网页。
在本申请实施例中,若用户对待识别网页的判断结果为待识别网页不为钓鱼网页,则用户可以向计算机设备反馈目标确定结果,用以表征用户对待识别网页的判断结果是不为钓鱼网页。计算机设备可以在获取用户反馈的目标确定结果后,将待识别网页对应的域名作为徽标区域图像对应的域名,并将待识别网页的徽标区域图像以及对应的域名添加至预设白名单中,用以在计算机设备对更多待识别网页进行识别时,减少需要用户判断的情况,增加识别准确性。
可以理解地,若待识别网页的徽标区域图像与预设白名单中的每个徽标图像的相似度均小于或等于预设阈值,且用户判断待识别网页不为钓鱼网页,则表明待识别网页为正版网页且未被收录进预设白名单中。此时将待识别网页的徽标区域图像以及对应的域名收录进预设白名单中,则若后续再次将相同的待识别网页或者仿冒待识别网页的钓鱼网页作为模型输入的待识别网页,则计算机设备可以在预设白名单中找到一个徽标图像与待识别网页的徽标区域图像相似度大于预设阈值,进而进行其他实施例中的后续判断步骤,而不用将用户的人工判断作为结果,可以提高钓鱼网页识别的准确率。
步骤S460:若所述徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将所述待识别网页对应的域名与所述目标徽标图像对应的网页域名进行匹配,所述目标徽标图像为所述预设白名单中的任一徽标图像。
步骤S470:若所述待识别网页对应的域名与所述目标徽标图像对应的网页域名不匹配,则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。
在本申请实施例中,步骤S410、步骤S420、步骤S430、步骤S460以及步骤S470可以参阅其他实施例的内容,在此不再赘述。
本申请实施例提供的钓鱼网页的识别方法,若徽标区域图像与每个徽标图像之间的相似度小于或等于预设阈值,则将待识别网页标记为待确定网页,并输出第一提示信息用以提示用户对待确定网页进行确定,若用户确定待确定网页不为钓鱼网页,则计算机设备可以接收到目标确定结果,并将待确定网页的域名作为徽标区域图像对应的域名,同时将徽标区域图像以及对应的域名添加到预设白名单中。本方法可以在计算机设备无法对待识别网页进行确定时,引导用户进行人工确认,减少钓鱼网页的误识别,提高识别的准确性。
请参阅图6,图6示出了本申请又另一个实施例提供的钓鱼网页的识别方法的流程示意图,下面将针对图6所示流程进行详细阐述,所述钓鱼网页的识别方法具体可以包括以下步骤:
步骤S510:获取待识别网页的页面图像。
步骤S520:基于已训练的目标检测模型,获取所述页面图像中的徽标区域图像。
步骤S530:将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到所述徽标区域图像与所述每个徽标图像之间的相似度。
步骤S540:若所述徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将所述待识别网页对应的域名与所述目标徽标图像对应的网页域名进行匹配,所述目标徽标图像为所述预设白名单中的任一徽标图像。
步骤S550:若所述待识别网页对应的域名与所述目标徽标图像对应的网页域名不匹配,则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。
在本申请实施例中,步骤S510至步骤S550可以参阅其他实施例的内容,在此不再赘述。
步骤S560:输出第二提示信息,所述第二提示信息用于提示用户所述待识别网页为钓鱼网页。
在本申请实施例中,计算机设备基于待识别网页对应的域名以及预设白名单中每个徽标图像对应的域名之间的匹配关系,确定待识别网页为钓鱼网页后,可以输出第二提示信息,用以提示用户该待识别网页为钓鱼网页,以避免用户被钓鱼网页窃取信息而造成财产损失。
另外,计算机设备通过输出第二提示信息,还可以使用户根据第二提示信息,对待识别网页是否为钓鱼网页进行再次确认,以再次确认该待识别网页是否为钓鱼网页。
步骤S570:若接收到针对所述第二提示信息的目标反馈结果,将所述待识别网页对应的域名添加至所述目标徽标图像对应的网页域名中,所述目标反馈结果用于表征所述待识别网页不为钓鱼网页。
在本申请实施例中,若用户判断待识别网页不为钓鱼网页,则计算机设备可以接收到用户针对第二提示信息反馈的目标反馈结果。该情况下,目标反馈结果可以指示计算机设备将待识别网页的域名添加至目标徽标图像对应的网页域名中,用以使预设白名单中的徽标图像及其对应的域名更加完整,进而在计算机设备对更多的待识别网页进行识别时,减少识别出错的概率。
可以理解地,若计算机设备通过上述步骤判断待识别网页为钓鱼网页,但用户通过人工判断确定待识别网页不为钓鱼网页,则可能的情况是:由于待识别网页与预设白名单中的目标徽标图像均为正版网页,但由于预设白名单中目标徽标图像对应的域名未收集完整,因此导致待识别网页被误判为钓鱼网页;此时用户判断待识别网页不为钓鱼网页,则计算机设备可以将待识别网页对应的域名添加至预设白名单中目标徽标图像对应的网页域名中。计算机设备在对待识别网页的识别过程中,通过用户核验的方式增加预设白名单的内容,增加了计算机设备对钓鱼网页识别的准确性。
本申请实施例提供的钓鱼网页的识别方法,针对计算机设备判断为钓鱼网页的待识别网页,输出第二提示信息,用以提示用户该待识别网页为钓鱼网页,以避免造成用户的财产损失。并且,输出的第二提示信息可以用于用户对待识别网页进行验证,若用户判断待识别网页不为钓鱼网页,则计算机设备可以接收到针对第二提示信息的目标反馈结果,并将待识别网页对应的域名添加至目标徽标图像对应的网页域名中,由此,通过用户对计算机设备判断的钓鱼网页进行核验,减少了计算机设备判断出错的概率,并提升了计算机设备对更多待识别网页判断的准确性。
下面再通过图7对前述实施例涉及的钓鱼网页的识别方法进行介绍。
请参阅图7,其示出了本申请实施例涉及的钓鱼网页的识别过程:对于待识别网页,可以获取待识别网页的页面图像,将其输入目标检测模型中,可以得到标注有徽标区域图像的图像输出,计算机设备可以将待识别网页的徽标区域图像以及预设白名单中的每个徽标图像输入徽标识别模型,可以得到这两个输入图像之间的相似度。计算机设备可以通过相似度是否超过预设阈值以及待识别网页以及预设白名单中的每个徽标图像对应的网页页面的域名是否一致,对待识别网页是否为钓鱼网页做出判断。具体地,若域名不同,则可以识别为钓鱼网页,该情况下,若用户进一步确认为非钓鱼网页,则可以进行漏报分析,并将该待识别网页的域名加入预设白名单;若域名相同,则可以识别为良性网页,即非钓鱼网页;若相似度不超过预设阈值,则可以确定为待确定网页,并交由用户进一步确定,若用户确定为非钓鱼网页,则可以将该待识别网页的徽标区域图像以及域名加入预设并单。由此,实现计算机设备针对可能出现的误判和漏判情况,将输出的判断结果输出由人工核验,进一步增强了对钓鱼网页的识别的准确性。
请参阅图8,其示出了本申请实施例提供的一种钓鱼网页的识别装置200的结构框图,钓鱼网页的识别装置200包括:页面获取模块210、徽标获取模块220、相似度对比模块230、域名匹配模块240以及网页判断模块250,其中,页面获取模块210用于获取待识别网页的页面图像;徽标获取模块220用于基于已训练的目标检测模型,获取页面图像中的徽标区域图像;相似度对比模块230用于将徽标区域图像与白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到徽标区域图像与每个徽标图像之间的相似度,徽标识别模型为基于预设白名单中的徽标图像对孪生神经网络进行训练得到的;域名匹配模块240用于若徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将待识别网页对应的域名与目标徽标图像对应的网页域名进行匹配,目标徽标图像为预设白名单中的任一徽标图像;网页判断模块250用于若待识别网页对应的域名与目标徽标图像对应的网页域名不匹配,则确定待识别网页为仿冒目标徽标图像对应的网页的钓鱼网页。
作为一种可能的实施方式,钓鱼网页的识别装置200还可以包括:相似度获取模块、第一损失值确定模块以及迭代训练模块。其中,相似度获取模块用户将预设白名单中的徽标图像及其对应的复制图像,输入至孪生神经网络,得到孪生神经网络输出的徽标图像与复制图像之间相似度;第一损失值确定模块用于基于徽标图像与复制图像之间相似度,确定第一损失值;迭代训练模块用于基于第一损失值对孪生神经网络进行迭代训练,直至孪生神经网络满足第一预设条件,得到训练后的孪生神经网络作为徽标识别模型。
作为一种可能的实施方式,钓鱼网页的识别装置200还可以包括:残差网络训练模块以及模型构建模块。其中,残差网络训练模块用于基于第一样本图像集对相同的第一残差网络以及第二残差网络进行预训练,得到训练后的第一残差网络以及第二残差网络;模型构建模块用于基于训练后的第一残差网络以及第二残差网络,构建孪生神经网络。
作为一种可能的实施方式,钓鱼网页的识别装置200还可以包括:徽标识别模块、第二损失值确定模块以及模型训练模块。其中,徽标识别模块用于将包含预设白名单中徽标图像的样本页面图像输入至初始目标模型,得到初始目标模型输出的所述样本页面图像中的徽标检测区域,样本页面图像被标注有徽标图像所在区域;第二损失值确定模块用于基于样本页面图像被标注的徽标图像所在区域与样本页面图像中的徽标检测区域,确定第二损失值;模型训练模块用于基于第二损失值对初始目标模型进行迭代训练,直至初始目标模型满足第二预设条件,得到训练后的初始目标模型作为已训练的目标检测模型。
作为一种可能的实施方式,钓鱼网页的识别装置200还可以包括:初始模型训练模块,用于获取基于第二样本图像集训练得到的目标检测模型,作为初始目标模型。
作为一种可能的实施方式,钓鱼网页的识别装置200还可以包括:待确认标记模块以及第一提示模块。其中,待确认标记模块用于若徽标区域图像与每个徽标图像之间的相似度小于或等于预设阈值,则将待识别网页标记为待确定网页;第一提示模块用于输出第一提示信息,第一提示信息用于提示用户对待确定网页进行确定。
作为一种可能的实施方式,第一提示模块可以用于:若接收到目标确定结果,将徽标区域图像,以及将待识别网页对应的域名作为徽标区域图像对应的域名,添加至预设白名单,目标确定结果用于表征待确定网页不为钓鱼网页。
作为一种可能的实施方式,钓鱼网页的识别装置200还可以包括:第二提示模块以及提示反馈模块。其中,第二提示模块用于输出第二提示信息,第二提示信息用于提示用户待识别网页为钓鱼网页;提示反馈模块用于若接收到针对第二提示信息的目标反馈结果,将待识别网页对应的域名添加至目标徽标图像对应的网页域名中,目标反馈结果用于表征待识别网页不为钓鱼网页。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,本申请提供的钓鱼网页的识别方法中,通过基于已训练的目标检测模型,获取页面图像中的徽标区域图像,将徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到徽标区域图像与每个徽标图像之间的相似度,若徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将待识别网页对应的域名与目标徽标图像对应的网页域名进行匹配,其中目标徽标图像为预设白名单中的任一徽标图像,若待识别网页对应的域名与目标徽标图像对应的网页域名不匹配,则确定待识别网页为仿冒目标徽标图像对应的网页的钓鱼网页。因此,无需搜集大量的黑样本进行模型训练,从而能够提升钓鱼网页识别的泛化能力和准确性。
请参考图9,其示出了本申请实施例提供的一种计算机设备100的结构框图。本申请中的计算机设备100可以包括一个或多个如下部件:处理器110、存储器120、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个计算机设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行计算机设备的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图10,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种钓鱼网页的识别方法,其特征在于,所述方法包括:
获取待识别网页的页面图像;
基于已训练的目标检测模型,获取所述页面图像中的徽标区域图像;
将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到所述徽标区域图像与所述每个徽标图像之间的相似度,所述徽标识别模型为基于所述预设白名单中的徽标图像对孪生神经网络进行训练得到的;
若所述徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将所述待识别网页对应的域名与所述目标徽标图像对应的网页域名进行匹配,所述目标徽标图像为所述预设白名单中的任一徽标图像;
若所述待识别网页对应的域名与所述目标徽标图像对应的网页域名不匹配,则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。
2.根据权利要求1所述的方法,其特征在于,所述徽标识别模型的训练过程包括:
将所述预设白名单中的徽标图像及其对应的复制图像,输入至孪生神经网络,得到所述孪生神经网络输出的所述徽标图像与所述复制图像之间相似度;
基于所述徽标图像与所述复制图像之间相似度,确定第一损失值;
基于所述第一损失值对所述孪生神经网络进行迭代训练,直至所述孪生神经网络满足第一预设条件,得到训练后的孪生神经网络作为所述徽标识别模型。
3.根据权利要求2所述的方法,其特征在于,在所述将所述预设白名单中的徽标图像输入至孪生神经网络,得到所述孪生神经网络输出的相似度之前,所述方法还包括:
基于第一样本图像集对相同的第一残差网络以及第二残差网络进行预训练,得到训练后的所述第一残差网络以及第二残差网络;
基于所述训练后的所述第一残差网络以及第二残差网络,构建所述孪生神经网络。
4.根据权利要求1所述的方法,其特征在于,所述目标检测模型的训练过程包括:
将包含所述预设白名单中徽标图像的样本页面图像输入至初始目标模型,得到所述初始目标模型输出的所述样本页面图像中的徽标检测区域,所述样本页面图像被标注有徽标图像所在区域;
基于所述样本页面图像被标注的徽标图像所在区域与所述样本页面图像中的徽标检测区域,确定第二损失值;
基于所述第二损失值对所述初始目标模型进行迭代训练,直至所述初始目标模型满足第二预设条件,得到训练后的初始目标模型作为所述已训练的目标检测模型。
5.根据权利要求4所述的方法,其特征在于,所述将包含所述预设白名单中徽标图像的样本页面图像输入至初始目标模型,得到所述初始目标模型输出的所述样本页面图像中的徽标检测区域之前,所述方法还包括:
获取基于第二样本图像集训练得到的目标检测模型,作为所述初始目标模型。
6.根据权利要求1-5所述的方法,其特征在于,在所述将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到所述徽标区域图像与所述每个徽标图像之间的相似度之后,所述方法还包括:
若所述徽标区域图像与所述每个徽标图像之间的相似度小于或等于所述预设阈值,则将所述待识别网页标记为待确定网页;
输出第一提示信息,所述第一提示信息用于提示用户对所述待确定网页进行确定。
7.根据权利要求6所述的方法,其特征在于,在所述输出第一提示信息之后,所述方法还包括:
若接收到目标确定结果,将所述徽标区域图像,以及将所述待识别网页对应的域名作为所述徽标区域图像对应的域名,添加至所述预设白名单,所述目标确定结果用于表征所述待确定网页不为钓鱼网页。
8.根据权利要求1-5所述的方法,其特征在于,在所述若所述待识别网页对应的域名与所述目标徽标图像对应的网页域名不匹配,则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页之后,所述方法还包括:
输出第二提示信息,所述第二提示信息用于提示用户所述待识别网页为钓鱼网页;
若接收到针对所述第二提示信息的目标反馈结果,将所述待识别网页对应的域名添加至所述目标徽标图像对应的网页域名中,所述目标反馈结果用于表征所述待识别网页不为钓鱼网页。
9.一种钓鱼网页的识别装置,其特征在于,所述装置包括:页面获取模块、徽标获取模块、相似度对比模块、域名匹配模块以及网页判断模块,其中,
所述页面获取模块用于获取待识别网页的页面图像;
所述徽标获取模块用于基于已训练的目标检测模型,获取所述页面图像中的徽标区域图像;
所述相似度对比模块用于将所述徽标区域图像与预设白名单中的每个徽标图像作为一组图像,分别输入至预先训练的徽标识别模型,得到所述徽标区域图像与所述每个徽标图像之间的相似度,所述徽标识别模型为基于所述预设白名单中的徽标图像对孪生神经网络进行训练得到的;
所述域名匹配模块用于若所述徽标区域图像与目标徽标图像之间的相似度大于预设阈值,将所述待识别网页对应的域名与所述目标徽标图像对应的网页域名进行匹配,所述目标徽标图像为所述预设白名单中的任一徽标图像;
所述网页判断模块用于若所述待识别网页对应的域名与所述目标徽标图像对应的网页域名不匹配,则确定所述待识别网页为仿冒所述目标徽标图像对应的网页的钓鱼网页。
10.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。
CN202111581863.9A 2021-12-22 2021-12-22 钓鱼网页的识别方法、装置、计算机设备及存储介质 Active CN114448664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111581863.9A CN114448664B (zh) 2021-12-22 2021-12-22 钓鱼网页的识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111581863.9A CN114448664B (zh) 2021-12-22 2021-12-22 钓鱼网页的识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114448664A true CN114448664A (zh) 2022-05-06
CN114448664B CN114448664B (zh) 2024-01-02

Family

ID=81364311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111581863.9A Active CN114448664B (zh) 2021-12-22 2021-12-22 钓鱼网页的识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114448664B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978624A (zh) * 2022-05-09 2022-08-30 深圳大学 钓鱼网页检测方法、装置、设备及存储介质
CN117671385A (zh) * 2023-12-20 2024-03-08 北京斯年智驾科技有限公司 一种目标识别模型的训练方法、系统、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置
WO2019209131A1 (ru) * 2018-04-23 2019-10-31 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ обучения нейронной сети распознаванию лиц людей
CN110650108A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于icon图标的钓鱼页面识别方法及相关设备
CN111079585A (zh) * 2019-12-03 2020-04-28 浙江工商大学 基于深度学习的图像增强与伪孪生卷积神经网络结合的行人再识别方法
US20200134377A1 (en) * 2018-10-25 2020-04-30 Adobe Systems Incorporated Logo detection
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
CN112200196A (zh) * 2020-11-10 2021-01-08 平安普惠企业管理有限公司 钓鱼网站检测方法、装置、设备及计算机可读存储介质
US20210182628A1 (en) * 2019-12-12 2021-06-17 Vade Secure, Inc. Methods, devices and systems for combining object detection models
CN113704531A (zh) * 2021-03-10 2021-11-26 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179095A (zh) * 2011-12-22 2013-06-26 阿里巴巴集团控股有限公司 一种检测钓鱼网站的方法及客户端装置
CN107204956A (zh) * 2016-03-16 2017-09-26 腾讯科技(深圳)有限公司 网站识别方法及装置
US10834128B1 (en) * 2018-03-30 2020-11-10 Fireeye, Inc. System and method for identifying phishing cyber-attacks through deep machine learning via a convolutional neural network (CNN) engine
WO2019209131A1 (ru) * 2018-04-23 2019-10-31 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ обучения нейронной сети распознаванию лиц людей
CN110650108A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于icon图标的钓鱼页面识别方法及相关设备
US20200134377A1 (en) * 2018-10-25 2020-04-30 Adobe Systems Incorporated Logo detection
CN111079585A (zh) * 2019-12-03 2020-04-28 浙江工商大学 基于深度学习的图像增强与伪孪生卷积神经网络结合的行人再识别方法
US20210182628A1 (en) * 2019-12-12 2021-06-17 Vade Secure, Inc. Methods, devices and systems for combining object detection models
CN112200196A (zh) * 2020-11-10 2021-01-08 平安普惠企业管理有限公司 钓鱼网站检测方法、装置、设备及计算机可读存储介质
CN113704531A (zh) * 2021-03-10 2021-11-26 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978624A (zh) * 2022-05-09 2022-08-30 深圳大学 钓鱼网页检测方法、装置、设备及存储介质
CN114978624B (zh) * 2022-05-09 2023-11-03 深圳大学 钓鱼网页检测方法、装置、设备及存储介质
CN117671385A (zh) * 2023-12-20 2024-03-08 北京斯年智驾科技有限公司 一种目标识别模型的训练方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN114448664B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
US10805346B2 (en) Phishing attack detection
CN109005145B (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN111061874B (zh) 敏感信息检测方法和装置
CN108650260B (zh) 一种恶意网站的识别方法和装置
CN109858248B (zh) 恶意Word文档检测方法和装置
CN109922065B (zh) 恶意网站快速识别方法
EP3703329B1 (en) Webpage request identification
CN114448664B (zh) 钓鱼网页的识别方法、装置、计算机设备及存储介质
CN110795714A (zh) 一种身份验证方法、装置、计算机设备及存储介质
CN113221032A (zh) 链接风险检测方法、装置以及存储介质
CN106357682A (zh) 一种钓鱼网站检测方法
CN107786529B (zh) 网站的检测方法、装置及系统
CN115004181A (zh) 网页检测方法、装置、电子设备以及存储介质
CN110958244A (zh) 一种基于深度学习的仿冒域名检测方法及装置
CN108112026B (zh) WiFi识别方法及装置
CN113965377A (zh) 一种攻击行为检测方法及装置
CN113076961A (zh) 一种图像特征库更新方法、图像检测方法和装置
CN111414621B (zh) 一种恶意网页文件识别方法及装置
CN117197857A (zh) 人脸伪造攻击检测、人脸识别方法、装置和设备
CN111178340B (zh) 图像识别方法及图像识别模型的训练方法
CN115311649A (zh) 一种卡证类别识别方法、装置、电子设备及存储介质
CN111159588A (zh) 一种基于url成像技术的恶意url检测方法
CN115022001B (zh) 域名识别模型的训练方法、装置、电子设备及存储介质
CN110727944B (zh) 一种安全网站及其检测入侵的方法
CN113542202B (zh) 一种域名识别方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant