CN109284613A - 标识检测及仿冒站点检测方法、装置、设备及存储介质 - Google Patents

标识检测及仿冒站点检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109284613A
CN109284613A CN201811156787.5A CN201811156787A CN109284613A CN 109284613 A CN109284613 A CN 109284613A CN 201811156787 A CN201811156787 A CN 201811156787A CN 109284613 A CN109284613 A CN 109284613A
Authority
CN
China
Prior art keywords
website
image
suspicious
feature point
signature identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811156787.5A
Other languages
English (en)
Other versions
CN109284613B (zh
Inventor
皮靖
袁帅
周旭康
吴令
吴令一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Green Alliance Wuhan Technology Co ltd
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Original Assignee
NSFOCUS Information Technology Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSFOCUS Information Technology Co Ltd, Beijing NSFocus Information Security Technology Co Ltd filed Critical NSFOCUS Information Technology Co Ltd
Priority to CN201811156787.5A priority Critical patent/CN109284613B/zh
Publication of CN109284613A publication Critical patent/CN109284613A/zh
Application granted granted Critical
Publication of CN109284613B publication Critical patent/CN109284613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及互联网技术领域,公开了一种标识检测及仿冒站点检测方法、装置、设备及存储介质,所述仿冒站点检测方法包括:获取可疑站点,可疑站点的域名不在白名单中,白名单中包括保护站点的域名;检测可疑站点的站点页面中是否包含敏感内容;获取可疑站点的站点页面的截图,记为第一图像;检测第一图像中是否包含保护站点的特征标识;若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。本发明实施例提供的技术方案,有效地提高了检测仿冒站点的准确率和检测性能。

Description

标识检测及仿冒站点检测方法、装置、设备及存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种标识检测及仿冒站点检测方法、装置、设备及存储介质。
背景技术
仿冒站点,即不法分子在互联网上伪造的知名站点,不法分子通过仿冒站点诱导客户输入用户名、密码、身份证号等敏感信息,达到窃取用户信息或者骗取用户钱财的目的。目前监测仿冒站点的方式主要有三种:
第一种、域名特征检测法,即根据URL(统一资源定位符,Uniform ResourceLocator)特征、不使用https、非常用端口或者域名与知名站点的编辑距离等特征进行检测。
第二种、内容特征检测法,即检测站点页面中的内容是否具有仿冒站点的内容特征,例如,仿冒站点的页面内容中存在很多隐藏hidden标签,且标签内有大量无关内容、大量外链等。
第三种、图像比对检测法,即将待检测的站点页面截图后与保护站点的页面截图的进行图像相似度比较,若相似度较高则认为该待检测的站点为仿冒站点。
基于域名特征和内容特征的检测方式存在大量误报,比如目前大多数站点的静态资源(脚本/图片)都放在另外一台服务器上,所以大量外链的站点不一定是仿冒站点。
而基于图像比对的检测方式,通常采用的是滑动窗口比对的方式,假设仿冒站点的页面截图的高度和宽度分别为Hp和Wp,而知名站定的页面截图的高度和宽度为Hl和Wl,则需要滑动比对(Hp-Hl+1)×(Wp-Wl+1)次,这意味着在页面截图像素宽高为数百像素时需要进行数万次的比对。此外,不法分子并不会直接照搬知名站点的页面内容,而是会对知名站点的页面内容进行调色、形变、改变页面布局等处理后生成迷惑用户的仿冒站点页面,处理后的仿冒站点与知名站点的页面间的相似度较低,导致无法识别出仿冒站点。因此,现有的图像比对检测方式计算量大且漏检率较高。
发明内容
本发明实施例提供一种标识检测及仿冒站点检测方法、装置、设备及存储介质,以解决现有技术中仿冒站点的检测效率低、准确率低的问题。
第一方面,本发明一实施例提供了一种标识检测方法,包括:
获取待检测的第一图像;
对第一图像中相邻的像素点进行聚类,并根据聚类结果将第一图像分割为多个有效区域;
将多个有效区域分别与特征标识进行比对,以确定第一图像中是否包含特征标识。
第二方面,本发明一实施例提供了一种仿冒站点检测方法,包括:
获取可疑站点,可疑站点的域名不在白名单中,白名单中包括保护站点的域名;
检测可疑站点的站点页面中是否包含敏感内容;
获取可疑站点的站点页面的截图,记为第一图像;
根据第一方面中的任一方法检测第一图像中是否包含保护站点的特征标识;
若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。
第三方面,本发明一实施例提供了一种标识检测装置,包括:
图像获取模块,用于获取待检测的第一图像;
聚类模块,用于对第一图像中相邻的像素点进行聚类;
区域分割模块,用于根据聚类结果将第一图像分割为多个有效区域;
标识比对模块,用于将多个有效区域分别与特征标识进行比对,以确定第一图像中是否包含特征标识。
第四方面,本发明一实施例提供了一种仿冒站点检测装置,包括:
可疑站点获取模块,用于获取可疑站点,可疑站点的域名不在白名单中,白名单中包括保护站点的域名;
敏感内容检测模块,用于检测可疑站点的站点页面中是否包含敏感内容;
截图模块,用于获取可疑站点的站点页面的截图,记为第一图像;
标识检测模块,用于根据第一方面中的任一方法检测第一图像中是否包含保护站点的特征标识;
判断模块,用于若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。
第五方面,本发明一实施例提供了一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,收发机用于在处理器的控制下接收和发送数据,处理器执行程序时实现上述任一种方法的步骤。
第六方面,本发明一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述任一种方法的步骤。
本发明实施例提供的技术方案,结合了敏感词检测和特征标识比对两种检测方式,当可疑站点中同时包含敏感词和特征标识时才认定该可疑站点为仿冒站点,有效地提高了仿冒站点检测的准确率。此外,在检测特征标识的过程中,先对站点页面截图的像素点进行聚类得到多个区域,再根据区域间相似度对于区域进一步聚合得到有效区域,然后提取有效区域和保护站点的特征标识的特征点,通过比对特征点距离,从而得到站点页面中是否包含保护站点的特征标识的判断,一方面提升了检测性能和效率,另一方面能够有效地检测出被不法分子调色、变形后的特征标识,降低了漏报率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的标识检测方法的流程示意图;
图2为本发明一实施例提供的标识检测方法中对像素点进行聚类的流程示意图;
图3为本发明一实施例提供的标识检测方法中分割有效区域的流程示意图;
图4为本发明一实施例提供的标识检测方法中特征标识比对的流程示意图;
图5为本发明实施例提供的仿冒站点检测方法的应用场景示意图;
图6为本发明一实施例提供的仿冒站点检测方法的流程示意图;
图7为本发明一实施例提供的标识检测装置的结构示意图;
图8为本发明一实施例提供的仿冒站点检测装置的结构示意图;
图9为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
在具体实践过程中,基于域名特征和内容特征的检测方式存在大量误报,而基于图像比对的检测方式计算量大且漏检率较高。为此,本发明的发明人考虑到,不法分子虽然会通过修改页面的样式、内容等手段来通过现有的仿冒站点检测,但是,为了迷惑普通网民,大多数情况下仿冒站点还是会保留知名站点的特征标识,如能起到显著标识作用的商标、徽标等。本实施例的方案利用仿冒站点必定会包含知名站点的特征标识的特性,通过将可疑站点的页面与知名站点的特征标识进行比对来检测仿冒站点。此外,考虑到为了窃取用户的钱财或信息,仿冒站点通常会需要用户输入银行卡号、账号、密码、身份信息等重要信息,因此,本实施例的方案在基于特征标识进行检测的基础上,还结合了通过检测可疑站点的页面中是否包含敏感内容来检测仿冒站点的方案,进一步提高检测结果的准确性。而发明人考虑到现有的整体图像比对方法存在处理数据量大、效率较低等问题,进一步地提出了先提取可疑站点页面中的有效区域,在将有效区域与知名站点的特征标识进行比较,以便减少比对的数据量,提高检测效率。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
参考图1,本发明实施例提供一种标识检测方法,包括以下步骤:
S101、获取待检测的第一图像。
S102、对第一图像中相邻的像素点进行聚类。
其中,聚类的目的是将相似的像素点划分到一个区域内。
S103、根据聚类结果将第一图像分割为多个有效区域。
S104、将多个有效区域分别与特征标识进行比对,以确定第一图像中是否包含特征标识。
其中,特征标识可以是图片格式的。特征标识可以是如商标、徽标等标识,也可以代表具体事物对应的图像,如苹果、杯子等。
步骤S102具体包括以下步骤:根据形成边的两个像素点的颜色值计算第一图像中各个边的边权重,其中,第一图像中的任意两个相邻的像素点相连形成一条边;按边权重对第一图像中的各个边进行升序排序;按排序结果的顺序依次对第一图像中的任一边作如下聚类处理,得到包含多个区域的区域集合:在确认形成任一边的两个像素点属于不同的聚类,且任一边的边权重不大于两个像素点分别所属的聚类的类间距离后,合并两个像素点所属的聚类,其中,类间距离等于一个聚类中最大的边权重。
在具体实施时,参考图2,步骤S102具体包括以下步骤:
S201、根据形成边的两个像素点的颜色值计算第一图像中各个边的边权重。
第一图像中的任意两个相邻的像素点相连形成一条边。例如,第一图像四个角上的像素点可与其相邻的三个像素点形成三条边,第一图像边上的像素点(除去角上的像素点)可与其相邻的五个像素点形成五条边,而其余像素点可以与周围相邻的八个像素点形成八条边。
颜色值可以是灰度值或RGB值,具体视第一图像的格式而定。在图片中灰度值或RGB值越相近的像素点颜色越相近,灰度值或RGB值相等时则表示颜色完全相同。
为了后续判断哪些像素点可以聚为一类,本实施例中,将边的权重定义为形成边的两个像素点的颜色值的欧式距离。边的权重越小,形成边的两个像素点的颜色越相近。
S202、按边权重对第一图像中的各个边进行升序排序。
S203、提取排序第N的边。
循环开始时,N=1,即从权重最小的边开始聚类,之后的每一次循环N的值都加1,直到处理完所有的边。
循环开始时,第一图像中的每个像素点属于一个单独的聚类。即,若第一图像有1000个像素点,则循环开始时,共有1000个聚类,将所有聚类放在一个集合set1中。
S204、判断提取排序第N的边的两个像素点是否属于同一聚类。若属于同一聚类,则执行步骤S205;若不属于同一聚类,则N的值加1,并返回S203,处理下一条边。
S205、判断排序第N的边的边权重是否大于两个像素点分别所属的聚类的类间距离。若大于,则执行步骤S206;否则,N的值加1,并返回S203,处理下一条边。
其中,类间距离等于一个聚类中最大的边权重。例如,一个聚类中只有一条边,则该聚类的类间距离等于该边的边权重;若一个聚类中包含三条边,这三条边的边权重分别为1、2、5,则该聚类的类间距离等于5。循环开始时,每一聚类的类间距离为无穷大。
S206、合并排序第N的边的两个像素点所属的聚类,将合并后的新聚类增加到集合set1中,并将合并前的两个像素点所属的聚类从集合set1中删除。
S207、判断排序第N的边是否为最后一条边。若是,则结束聚类,执行步骤S203;若否,则N的值加1,并返回S203,处理下一条边。
通过图2所示的步骤即可得到对第一图像中的像素点进行聚类处理后的聚类结果,即为循环结束后得到的集合set1,集合set1中最终包含多个区域,一个区域对应一个聚类。将循环结束后得到的集合set1该作为区域集合,后续还需要对区域集合中的区域做合并,以便将第一图像分割为几个有效区域,进一步减少参与比对过程的图片的数量。具体地,步骤S103包括:计算区域集合中任意两个区域的相似度,根据相似度对区域集合中的区域进行合并,得到有效区域。
在具体实施时,参考图3,步骤S103包括以下步骤:
S301、计算区域集合中任意两个区域的相似度。
对于区域集合中的每一个区域,计算其与区域集合中的其他区域的相似度。例如,对于包含M个区域的区域集合而言,可以得到(M-1)×M/2个区域相似度集合,集合的每一个元素为:(Ai,Aj,Simi,j),其中,Ai为区域i,Aj为区域j,Simi,j为区域i和区域j的相似度。可采用以下方法计算得到Simi,j:先分别计算区域i和区域j间的颜色相似度、纹理相似度、大小相似度和形状相似度,再对颜色相似度、纹理相似度、大小相似度和形状相似度进行加权得到区域间的相似度Simi,j。其中,颜色相似度、纹理相似度、大小相似度和形状相似度的计算采用现有的图像处理算法实现,不再赘述。
对于相似度集合中元素中的区域i和区域j进行合并,得到新的区域,并将区域i和区域j从相似度集合中剔除。在接下来的循环中,按照新加入的区域后变更的集合计算区域间的相似度,并且重复排序、合并动作。按照如上步骤循环,直至集合中的每一个区域都被处理过。这样我们就可以获得有效区域集合。
S302、合并相似度最高的两个区域,将合并后的区域添加到区域集合中并删除相似度最高的两个区域。
按Simi,j的大小对相似度集合中的元素进行降序排序,合并排序第一的元素中的两个区域。例如,排序第一的元素为(A1,A3,Sim1,3),将区域1和区域3进行合并得到合并后的区域,将合并后的区域加入区域集合中,并删除区域集合中的区域1和区域3。
S303、判断是否满足循环终止条件。若满足循环终止条件,则执行步骤S104;否则执行S301。
其中,循环终止条件可以是循环次数是否达到预设次数,例如,预设次数可以等于循环开始前的区域集合中的区域数量。循环终止条件也可以是循环开始前的区域集合中的所有区域都已被处理过。
步骤S301-S303的循环终止后,区域集合中剩下的区域即为有效区域。
如图4所示,步骤S104具体包括以下步骤:
S401、提取有效区域对应的图像中的特征点,得到第二特征点集合。
其中,可采用现有的特征点提取算法提取图像中的特征点,如SIFT(Scale-invariant feature transform,尺度不变特征转)算法、Harris角点算法,具体算法为公知常识,不再赘述。
S402、针对第二特征点集合中的任一特征点,从第一特征点集合中找到与第二特征点集合中的任一特征点最相似的第一目标特征点,将第二特征点集合中的任一特征点与第一目标特征点之间的第一距离值加入两点间距离集合。
其中,第一特征点集合中包含保特征标识中的特征点。同样,可采用现有的特征点提取算法提取图像特征标识中的特征点,并将特征点放入该特征标识对应的第一特征点集合中。可预先存储多个特征标识,并针对每个特征标识存储与其对应的第一特征点集合。
S403、针对第一特征点集合中的任一特征点,从第二特征点集合中找到与第一特征点集合中的任一特征点最相似的第二目标特征点,将第一特征点集合中的任一特征点与第二目标特征点之间的第二距离值加入两点间距离集合。
计算第一距离值和第二距离值的方法可以是,计算两个特征点的颜色值的欧式距离。两个特征点之间的相似度也可以通过颜色值的欧式距离来确定。
S404、统计两点间距离集合中距离值小于最近距离值的预设倍数的元素的数量,记为第一数量,若第一数量占两点间距离集合中元素总数量的比例大于第二阈值,则确认该有效区域中包含特征标识,否则,该有效区域中不包含特征标识。
其中,最近距离值等于两点间距离集合中最小的距离值。预设倍数的取值可以是3,第二阈值的取值范围为(0,1),例如,第二阈值可以是0.5。
通过步骤S401至S404对区域集合中所有的有效区域进行检测,以确定第一图像中是否包含特征标识。当然,也可以是,一旦检测到一个有效区域中存在特征标识,就确定第一图像中包含特征标识,并停止对剩余有效区域的检测,以提高检测效率。
本发明实施例提供的标识检测方法,在进行标识比对前,先通过像素点聚类、相似度计算等方法将待检测图像分割为多个有效区域,再将特征标识与各个有效区域单独进行比对。相比现有的基于滑动窗口的对别方法,本实施例的能够将图像中相似的区域集合在一起,将区别较大的区域区分开来,例如,一幅图像中包含蓝天、草地和枫树(红色),蓝天可以将集合成一个有效区域,草地可以集合成一个有效区域,枫树可以集合成一个有效区域,这样就可以大大降低了参与特征标识比对的数据量,提高了标识检测算法的性能。
此外,本实施例的标识检测方法,通过提取有效区域和特征标识的特征点并统计特征点间的距离值的分布情况,从而判断待检测图像中是否包含特征标识,提高了从图像中检测出特征标识的概率,尤其是当待检测图像中包含的特征标识发生形变或颜色发生微调时,基于统计特征点间距离值的分布情况的方法,能够有效地检测出调色、变形后的特征标识。
上述标识检测方法可应用到多个应用领域,例如,可用于检测仿冒站点。
下面基于上述标识检测方法,对本发明实施例提供的一种仿冒站点检测方法进行说明。
参考图5,其示出了仿冒站点检测方法的应用场景。首先在环境中部署流量探针51,流量探针51捕获所有的HTTP流量日志(流量探针捕获的内容包括网络五元组、URL、响应内容等)并将捕获的HTTP流量日志发送给分析平台50。分析平台50中存储了白名单和黑名单,白名单中包含知名站点(也就是保护站点)的域名、黑名单中包含仿冒站点(也就是恶意站点)的域名。分析平台50中还存储有各个保护站点的特征标识集合和敏感词集,敏感词集的内容包括密码、身份证号、银行卡号等敏感词。
分析平台50主要包括三个功能模块:预处理模块501、内容检测模块502和特征标识检测模块503。其中,预处理模块501过滤出所有目的IP为外网IP且URL的域名不在白名单、黑名单中的HTTP流量日志,将过滤出的需要重点分析的HTTP流量日志传递给内容检测模块。内容检测模块502用于站点页面中是否包含敏感内容,基于HTML结构检测出正文所在标签组,同时对于正文内容进行分词,分词后命中敏感词表的,则判定为重点分析HTTP流量日志,传递给特征标识检测模块。特征标识检测模块503对于该HTTP流量日志中的URL字段对应的页面进行截图,同时对于页面截图内的有效区域进行提取,然后将有效区域与保护站点分别进行特征点提取,最后计算特征点的相似度,从而得到该页面是否包含保护站点的特征标识的判断,如果页面包含保护站点的特征标识,则触发仿冒站点告警,并将该域名加入黑名单。
参考图6,本发明实施例的仿冒站点检测方法具体包括以下步骤:
S601、获取可疑站点,其中,可疑站点的域名不在白名单中。
具体实施时,通过流量探针捕获的HTTP流量日志发送到分析平台50的后,会进入预处理模块501。预处理模块501首先提取HTTP流量日志中的URL内的域名,将提取的域名与白名单中的域名进行比对,如果提取的域名在白名单中,则该HTTP流量为白流量,直接放过,否则将该提取的域名对应的站点列为可疑站点。
具体实施时,预处理模块501还可以将提取的域名与黑名单中域名进行比对,若提取的域名在黑名单中,则直接触发仿冒站点告警;如果提取的域名不在白名单中,也不在黑名单中,则进入将该提取的域名对应的站点列为可疑站点,对可疑站点进行进一步地检测。
S602、检测可疑站点的站点页面中是否包含敏感内容。
在具体实施时,步骤S602包括以下步骤:
S6021、解析可疑站点的站点页面得到文档对象模型DOM树。
S6022、根据DOM树中预设层数标签下的子标签的类型,统计有意义标签的数量,有意义标签包括类型为文本类的子标签。
一个站点页面的正文,通常含有的文本、输入框类标签较多,而含有的超链接、图片、脚本等标签较少。为了从页面中提取出正文内容,本实施例中,将文本类标签定义为有意义标签,文本类标签包括文本标签、输入框类标签等用于承载文本的标签,将超链接、图片、脚本等非文本类标签定义为无意义标签。具体实施时,正文内容主要存储在DOM树下的<body>标签中,因此,可以仅对DOM树<body>标签中的预设层数(例如,预设层数可以为3层)标签下的子标签类型进行统计。
S6023、若有意义标签的数量占预设层数下的子标签总数的比例大于第一阈值,则提取预设层数标签下的所有子标签内的内容作为正文内容。
S6024、检测正文内容中是否包含敏感内容。
检测正文内容中是否包含敏感内容的方法具体包括:对正文内容进行分词处理,得到多个分词片段,将分词片段与敏感词集进行比对,如果正文内容的分词片段位于敏感词表中,则认为可疑站点中包含敏感内容,否则,认为可疑站点中不包含敏感内容。
S603、获取可疑站点的站点页面的截图,记为第一图像。
S604、检测第一图像中是否包含保护站点的特征标识。
其中,步骤S604的具体实施方式可参考本发明实施例提供的标识检测方法,不再赘述。
S605、若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。
具体实施时,可先执行S602,当检测到可疑站点中包含敏感内容时,再执行S603;当可疑站点中没有敏感内容时,无需执行S603,可直接认定该可疑站点不是仿冒站点。
具体实施时,可以将通过本实施的方法检测到的仿冒站点的域名添加到黑名单中,这样在检测后续的HTTP流量日志时,相同域名的流量将会直接命中黑名单,并触发仿冒站点告警。
本发明实施例的仿冒站点检测方法,结合了敏感词检测和特征标识比对两种检测方式,当可疑站点中同时包含敏感词和特征标识时才认定该可疑站点为仿冒站点,有效地提高了仿冒站点检测的准确率。此外,在检测特征标识的过程中,先对站点页面截图的像素点进行聚类得到多个区域,再根据区域间相似度对于区域进一步聚合得到有效区域,然后提取有效区域和保护站点的特征标识的特征点,通过比对特征点距离,从而得到站点页面中是否包含保护站点的特征标识的判断,一方面提升了检测性能和效率,另一方面能够有效地检测出被不法分子调色、变形后的特征标识,降低了漏报率。
如图7所示,基于与上述标识检测方法相同的发明构思,本发明实施例还提供了一种标识检测装置70,包括图像获取模块701、聚类模块702、区域分割模块703和标识比对模块704。
图像获取模块701,用于获取待检测的第一图像;
聚类模块702,用于对第一图像中相邻的像素点进行聚类;
区域分割模块703,用于根据聚类结果将第一图像分割为多个有效区域;
标识比对模块704,用于将多个有效区域分别与特征标识进行比对,以确定第一图像中是否包含特征标识。
可选地,聚类模块702具体用于:根据形成边的两个像素点的颜色值计算第一图像中各个边的边权重,其中,第一图像中的任意两个相邻的像素点相连形成一条边;按边权重对第一图像中的各个边进行升序排序;按排序结果的顺序依次对第一图像中的任一边作如下聚类处理,得到包含多个区域的区域集合:在确认形成任一边的两个像素点属于不同的聚类,且任一边的边权重不大于两个像素点分别所属的聚类的类间距离后,合并两个像素点所属的聚类,其中,类间距离等于一个聚类中最大的边权重。
可选地,区域分割模块703具体用于:计算区域集合中任意两个区域的相似度,根据相似度对区域集合中的区域进行合并,得到有效区域。
可选地,区域分割模块703具体用于:相似度计算步骤、计算区域集合中任意两个区域的相似度;合并步骤、合并相似度最高的两个区域,将合并后的区域添加到区域集合中并删除相似度最高的两个区域;循环执行相似度计算步骤和合并步骤直至满足循环终止条件,循环终止后区域集合中的区域即为有效区域。
可选地,标识比对模块704具体用于:提取有效区域对应的图像中的特征点,得到第二特征点集合;针对第二特征点集合中的任一特征点,从第一特征点集合中找到与第二特征点集合中的任一特征点最相似的第一目标特征点,将第二特征点集合中的任一特征点与第一目标特征点之间的第一距离值加入两点间距离集合,第一特征点集合中包特征标识中的特征点;针对第一特征点集合中的任一特征点,从第二特征点集合中找到与第一特征点集合中的任一特征点最相似的第二目标特征点,将第一特征点集合中的任一特征点与第二目标特征点之间的第二距离值加入两点间距离集合;统计两点间距离集合中距离值小于最近距离值的预设倍数的元素的数量,记为第一数量,最近距离值等于两点间距离集合中最小的距离值;若第一数量占两点间距离集合中元素总数量的比例大于第二阈值,则确认有效区域中包含特征标识。
本发明实施例提的标识检测装置与上述标识检测方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
如图8所示,基于与上述仿冒站点检测方法相同的发明构思,本发明实施例还提供了一种仿冒站点检测装置80,包括:可疑站点获取模块801、敏感内容检测模块802、截图模块803、标识检测模块804和判断模块805。
可疑站点获取模块801用于获取可疑站点,可疑站点的域名不在白名单中,白名单中包括保护站点的域名。
敏感内容检测模块802用于检测可疑站点的站点页面中是否包含敏感内容。
截图模块803用于获取可疑站点的站点页面的截图,记为第一图像。
标识检测模块804用于检测第一图像中是否包含保护站点的特征标识。
判断模块805用于若第一图像中包含保护站点的特征标识,且可疑站点的站点页面中包含敏感内容,则将可疑站点标记为仿冒站点。
其中,标识检测模块804具体包括上述标识检测装置70中的图像获取模块701、聚类模块702、区域分割模块703和标识比对模块704,实现功能相同,不再赘述。
其中,敏感内容检测模块802具体用于:解析可疑站点的站点页面得到文档对象模型DOM树;根据DOM树中预设层数标签下的子标签的类型,统计有意义标签的数量,有意义标签包括类型为文本类的子标签;若有意义标签的数量占预设层数下的子标签总数的比例大于第一阈值,则提取预设层数标签下的所有子标签内的内容作为正文内容;检测正文内容中是否包含敏感内容。
本发明实施例提的仿冒站点检测装置与上述仿冒站点检测方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述标识检测方法、仿冒站点检测方法相同的发明构思,本发明实施例还提供了一种电子设备,该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、服务器等。如图9所示,该电子设备90可以包括处理器901、存储器902和收发机903。收发机903用于在处理器901的控制下接收和发送数据。
存储器902可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于存储标识检测方法或仿冒站点检测方法的程序。
处理器901可以是CPU(中央处埋器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)处理器通过调用存储器存储的程序指令,按照获得的程序指令实现上述任一实施例中的标识检测方法或仿冒站点检测方法。
本发明实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行上述标识检测方法或仿冒站点检测方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明实施例的方法,不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本发明实施例的保护范围之内。

Claims (11)

1.一种标识检测方法,其特征在于,包括:
获取待检测的第一图像;
对所述第一图像中相邻的像素点进行聚类,并根据聚类结果将所述第一图像分割为多个有效区域;
将所述多个有效区域分别与特征标识进行比对,以确定所述第一图像中是否包含所述特征标识。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一图像中相邻的像素点进行聚类,具体包括:
根据形成边的两个像素点的颜色值计算所述第一图像中各个边的边权重,其中,所述第一图像中的任意两个相邻的像素点相连形成一条边;
按所述边权重对所述第一图像中的各个边进行升序排序;
按排序结果的顺序依次对所述第一图像中的任一边作如下聚类处理,得到包含多个区域的区域集合:在确认形成所述任一边的两个像素点属于不同的聚类,且所述任一边的边权重不大于所述两个像素点分别所属的聚类的类间距离后,合并所述两个像素点所属的聚类,其中,所述类间距离等于一个聚类中最大的边权重。
3.根据权利要求2所述的方法,其特征在于,所述根据聚类结果将所述第一图像分割为多个有效区域,具体包括:
计算所述区域集合中任意两个区域的相似度,根据所述相似度对所述区域集合中的区域进行合并,得到有效区域。
4.根据权利要求3所述的方法,其特征在于,所述计算所述区域集合中任意两个区域的相似度,根据所述相似度对所述区域集合中的区域进行合并,得到有效区域,具体包括:
相似度计算步骤、计算所述区域集合中任意两个区域的相似度;
合并步骤、合并相似度最高的两个区域,将合并后的区域添加到所述区域集合中并删除所述相似度最高的两个区域;
循环执行所述相似度计算步骤和所述合并步骤直至满足循环终止条件,循环终止后所述区域集合中的区域即为有效区域。
5.根据权利要求1所述的方法,其特征在于,所述将所述有效区域与特征标识进行比对,具体包括:
提取所述有效区域对应的图像中的特征点,得到第二特征点集合;
针对所述第二特征点集合中的任一特征点,从第一特征点集合中找到与所述第二特征点集合中的任一特征点最相似的第一目标特征点,将所述第二特征点集合中的任一特征点与所述第一目标特征点之间的第一距离值加入两点间距离集合,所述第一特征点集合中包特征标识中的特征点;
针对所述第一特征点集合中的任一特征点,从所述第二特征点集合中找到与所述第一特征点集合中的任一特征点最相似的第二目标特征点,将所述第一特征点集合中的任一特征点与所述第二目标特征点之间的第二距离值加入所述两点间距离集合;
统计所述两点间距离集合中距离值小于最近距离值的预设倍数的元素的数量,记为第一数量,所述最近距离值等于所述两点间距离集合中最小的距离值;
若所述第一数量占所述两点间距离集合中元素总数量的比例大于第二阈值,则确认所述有效区域中包含所述特征标识。
6.一种仿冒站点检测方法,其特征在于,包括:
获取可疑站点,所述可疑站点的域名不在白名单中,所述白名单中包括保护站点的域名;
检测所述可疑站点的站点页面中是否包含敏感内容;
获取所述可疑站点的站点页面的截图,记为第一图像;
根据所述权利要求1至5中任一所述方法检测所述第一图像中是否包含保护站点的特征标识;
若所述第一图像中包含所述保护站点的特征标识,且所述可疑站点的站点页面中包含敏感内容,则将所述可疑站点标记为仿冒站点。
7.根据权利要求6所述的方法,其特征在于,所述检测所述可疑站点的站点页面中是否包含敏感内容,具体包括:
解析所述可疑站点的站点页面得到文档对象模型DOM树;
根据所述DOM树中预设层数标签下的子标签的类型,统计有意义标签的数量,所述有意义标签包括类型为文本类的子标签;
若所述有意义标签的数量占所述预设层数下的子标签总数的比例大于第一阈值,则提取所述预设层数标签下的所有子标签内的内容作为正文内容;
检测所述正文内容中是否包含敏感内容。
8.一种标识检测装置,其特征在于,包括:
图像获取模块,用于获取待检测的第一图像;
聚类模块,用于对所述第一图像中相邻的像素点进行聚类;
区域分割模块,用于根据聚类结果将所述第一图像分割为多个有效区域;
标识比对模块,用于将所述多个有效区域分别与特征标识进行比对,以确定所述第一图像中是否包含所述特征标识。
9.一种仿冒站点检测装置,其特征在于,包括:
可疑站点获取模块,用于获取可疑站点,所述可疑站点的域名不在白名单中,所述白名单中包括保护站点的域名;
敏感内容检测模块,用于检测所述可疑站点的站点页面中是否包含敏感内容;
截图模块,用于获取所述可疑站点的站点页面的截图,记为第一图像;
标识检测模块,用于通过权利要求1至5中任一所述方法检测所述第一图像中是否包含保护站点的特征标识;
判断模块,用于若所述第一图像中包含所述保护站点的特征标识,且所述可疑站点的站点页面中包含敏感内容,则将所述可疑站点标记为仿冒站点。
10.一种电子设备,包括收发机、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述收发机用于在所述处理器的控制下接收和发送数据,所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN201811156787.5A 2018-09-30 2018-09-30 标识检测及仿冒站点检测方法、装置、设备及存储介质 Active CN109284613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811156787.5A CN109284613B (zh) 2018-09-30 2018-09-30 标识检测及仿冒站点检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811156787.5A CN109284613B (zh) 2018-09-30 2018-09-30 标识检测及仿冒站点检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109284613A true CN109284613A (zh) 2019-01-29
CN109284613B CN109284613B (zh) 2020-09-22

Family

ID=65182637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811156787.5A Active CN109284613B (zh) 2018-09-30 2018-09-30 标识检测及仿冒站点检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109284613B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110213255A (zh) * 2019-05-27 2019-09-06 北京奇艺世纪科技有限公司 一种对主机进行木马检测的方法、装置及电子设备
CN111131285A (zh) * 2019-12-30 2020-05-08 互联网域名系统北京市工程研究中心有限公司 一种针对随机域名攻击的主动防护方法
CN112036412A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质
CN113726824A (zh) * 2021-11-03 2021-11-30 成都无糖信息技术有限公司 一种基于图像特征的诈骗网站查找方法及系统
CN113904827A (zh) * 2021-09-29 2022-01-07 恒安嘉新(北京)科技股份公司 一种仿冒网站的识别方法、装置、计算机设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510887A (zh) * 2009-03-27 2009-08-19 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN108234474A (zh) * 2017-12-28 2018-06-29 北京奇虎科技有限公司 一种网站识别的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510887A (zh) * 2009-03-27 2009-08-19 腾讯科技(深圳)有限公司 鉴别网站的方法及装置
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN108234474A (zh) * 2017-12-28 2018-06-29 北京奇虎科技有限公司 一种网站识别的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海鹰: "基于聚类的图像目标分割方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110213255A (zh) * 2019-05-27 2019-09-06 北京奇艺世纪科技有限公司 一种对主机进行木马检测的方法、装置及电子设备
CN110213255B (zh) * 2019-05-27 2022-03-04 北京奇艺世纪科技有限公司 一种对主机进行木马检测的方法、装置及电子设备
CN111131285A (zh) * 2019-12-30 2020-05-08 互联网域名系统北京市工程研究中心有限公司 一种针对随机域名攻击的主动防护方法
CN111131285B (zh) * 2019-12-30 2022-03-01 深圳网基科技有限公司 一种针对随机域名攻击的主动防护方法
CN112036412A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种网页识别方法、装置、设备及存储介质
CN113904827A (zh) * 2021-09-29 2022-01-07 恒安嘉新(北京)科技股份公司 一种仿冒网站的识别方法、装置、计算机设备及介质
CN113904827B (zh) * 2021-09-29 2024-03-19 恒安嘉新(北京)科技股份公司 一种仿冒网站的识别方法、装置、计算机设备及介质
CN113726824A (zh) * 2021-11-03 2021-11-30 成都无糖信息技术有限公司 一种基于图像特征的诈骗网站查找方法及系统
CN113726824B (zh) * 2021-11-03 2022-01-07 成都无糖信息技术有限公司 一种基于图像特征的诈骗网站查找方法及系统

Also Published As

Publication number Publication date
CN109284613B (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN109284613A (zh) 标识检测及仿冒站点检测方法、装置、设备及存储介质
Qin et al. Infrared small target detection based on facet kernel and random walker
US10805346B2 (en) Phishing attack detection
Goel et al. Dual branch convolutional neural network for copy move forgery detection
Zhou et al. Edge-based structural features for content-based image retrieval
US9130988B2 (en) Scareware detection
CN105518709A (zh) 用于识别人脸的方法、系统和计算机程序产品
CN109508694A (zh) 一种人脸识别方法及识别装置
CN107256357B (zh) 基于深度学习的安卓恶意应用的检测和分析方法
CN108875341A (zh) 一种人脸解锁方法、装置、系统及计算机存储介质
CN112348117A (zh) 场景识别方法、装置、计算机设备和存储介质
CN110263633A (zh) 基于时空关联的涉毒人员检测预警方法、系统及存储介质
CN107169458A (zh) 数据处理方法、装置及存储介质
CN112258254B (zh) 基于大数据架构的互联网广告风险监测方法及系统
CN109409377A (zh) 图像中文字的检测方法及装置
CN108108711A (zh) 人脸布控方法、电子设备及存储介质
Yao et al. Deep learning for phishing detection
Vo et al. Convolutional Neural Networks for individual identification in the Southern Rock Lobster supply chain
Feng et al. A novel saliency detection method for wild animal monitoring images with WMSN
CN114840831A (zh) 人脸图像的合法性验证方法、装置、电子设备和存储介质
Mudgalgundurao et al. Pixel‐wise supervision for presentation attack detection on identity document cards
CN112818150B (zh) 一种图片内容审核方法、装置、设备和介质
Sun et al. Combined deep learning and multiscale segmentation for rapid high resolution damage mapping
WO2023045535A1 (zh) 识别图片的方法和装置
Li et al. Adversarial examples detection through the sensitivity in space mappings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee after: NSFOCUS Technologies Group Co.,Ltd.

Patentee after: NSFOCUS TECHNOLOGIES Inc.

Address before: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee before: NSFOCUS INFORMATION TECHNOLOGY Co.,Ltd.

Patentee before: NSFOCUS TECHNOLOGIES Inc.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210111

Address after: No. 666, Wuhuan Avenue, Wuhan airport economic and Technological Development Zone, Wuhan City, Hubei Province, 432100

Patentee after: China Green Alliance Wuhan Technology Co.,Ltd.

Address before: 100089 Beijing city Haidian District Road No. 4 North wa Yitai three storey building

Patentee before: NSFOCUS Technologies Group Co.,Ltd.

Patentee before: NSFOCUS TECHNOLOGIES Inc.