CN105069169B - 一种网站镜像的检测方法及装置 - Google Patents

一种网站镜像的检测方法及装置 Download PDF

Info

Publication number
CN105069169B
CN105069169B CN201510547203.7A CN201510547203A CN105069169B CN 105069169 B CN105069169 B CN 105069169B CN 201510547203 A CN201510547203 A CN 201510547203A CN 105069169 B CN105069169 B CN 105069169B
Authority
CN
China
Prior art keywords
node
website
doubtful
web page
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510547203.7A
Other languages
English (en)
Other versions
CN105069169A (zh
Inventor
易立
杜翠兰
钮艳
项菲
刘晓辉
李鹏霄
刘洋
任彦
郭晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201510547203.7A priority Critical patent/CN105069169B/zh
Publication of CN105069169A publication Critical patent/CN105069169A/zh
Application granted granted Critical
Publication of CN105069169B publication Critical patent/CN105069169B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提出了一种网站镜像的检测方法及装置。所述检测方法包括:计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站,在保证检测准确性的同时,提高网站镜像检测的效率。

Description

一种网站镜像的检测方法及装置
技术领域
本发明涉及互联网应用技术领域,尤其涉及一种网站镜像的检测方法及装置。
背景技术
“网站”是构成互联网的重要主体之一。对于网站所有者而言,网站的排名和流量是网站的核心价值,能够与在线广告投放等商业模式相结合,为网站所有者带来可观的商业利益。然而,现在互联网上出现一种称为“网站恶意镜像”的侵权行为,对网站所有者的利益造成严重损害。该行为是指:侵权者将原始网站的内容复制到自己掌握的多个域名上,形成原始网站的多个恶意镜像网站,当这些镜像网站被搜索引擎检索收录后,用户通过搜索引擎查找相关信息时,就会被分流到侵权者掌握的大量镜像网站上,不仅使侵权者轻易获取大量流量以及其背后的商业价值,而且还对原始网站的排名和流量造成严重影响,侵害了原始网站所有者的权益。
原始网站所有者发现其拥有的网站恶意镜像后,一般通过屏蔽镜像域名被访问等方式,防止侵权者继续盗取原始网站的内容。但由于互联网上存在大量的免费域名资源,因此侵权者很容易以低廉的成本更换域名后,再次盗取原始网站的内容,建立恶意镜像网站。因此,需要一种网站镜像的检测方法及装置,以解决现有技术中存在的上述技术问题。
发明内容
本发明提供一种网站镜像的检测方法及装置,在保证检测准确性的同时,提高网站镜像检测的效率。
本发明采用的技术方案是:
一种网站镜像的检测方法,其包括:计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站。
优选地,所述计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站之前,所述方法还包括:加载待检测网站的网页内容;从待检测网站的网页内容中提取标题。
优选地,所述计算待检测网站的标题信息与所述原始网站的标题信息的相似度,具体包括:将待检测网站的标题和原始网站的标题分别进行中英文分词;提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原始索引;分别比对所述待检测索引中的单词和所述原始索引中的单词,以计算待检测网站的标题信息与所述原始网站的标题信息的相似度。
优选地,比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站之前,所述方法还包括:筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的关键节点,筛选所述原始网站中原始网页的文档对象模型DOM树节点,保留反映DOM树形结构的原始节点;在所述关键节点和原始节点上分别附加位置属性,构建疑似网页的可视化元素树和原始网页的可视化元素树。
优选地,所述筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的关键节点,具体包括:确定所述疑似网页的视觉边界;删除分隔栏;删除节点面积小于设定下限值的关键节点;删除节点面积小于阈值的关键节点所包含的所有子节点,以归并零碎区域;删除节点面积大于设定上限值并且包含所有子节点的关键节点。
优选地,所述位置属性包括位置四元组:关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面上边缘的像素距离为顶坐标top、关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面左边缘的像素距离为左坐标left、关键节点或者原始节点显示的矩形区域的像素高度height以及关键节点或者原始节点显示的矩形区域的像素宽度width。
优选地,所述比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,具体包括:判断关键节点和原始节点的相似性:分别将疑似网页的可视化元素树上的关键节点和原始网页的可视化元素树上的原始节点分别变为线性列表;依次比对线性列表上的关键节点和原始节点,则关键节点的节点面积等同于原始节点的节点面积,并且满足以下任一条件的节点对具有相似性:A、水平位置差异符合整体位移,且顶坐标相同;B、垂直位置差异符合整体位移,且左坐标相同;C、水平和垂直位置差异均符合整体位移;D、水平位置差异符合整体位移,且底坐标至网页底部的距离相同。
优选地,若满足预设条件,则判定所述疑似网站为镜像网站,具体包括:若满足:C–k/A+D–t/B+w>0时,判定所述疑似网页与所述原始网页相似,所述疑似网站为镜像网站,其中:遍历节点占比:A=遍历的节点总数/镜像节点总数;遍历面积占比:B=遍历的节点总面积/镜像节点总面积;相似结点占比:C=相似的节点总数/遍历的节点总数;相似面积占比:D=相似的节点总面积/遍历的节点总面积;参数k、t、w的取值在实际应用中根据训练集进行计算。
本发明还提供了一种网站镜像的检测装置,其包括:网站标题验证模块:用于计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;网页结构比对模块:用于比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站。
优选地,所述网页标题验证模块,还用于:将待检测网站的标题和原始网站的标题分别进行中英文分词;提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原始索引;分别比对所述待检测索引中的单词和所述原始索引中的单词,以计算待检测网站的标题信息与所述原始网站的标题信息的相似度。
采用上述技术方案,本发明至少具有下列效果:
本发明的网站镜像的检测方法可以准确的检测出原始网站的镜像网站,并且检测效率较高。
附图说明
图1为本发明第一实施例网站镜像的检测方法的流程图;
图2为本发明第二实施例网站镜像的检测方法的流程图;
图3为本发明第三实施例网站镜像的检测方法的流程图;
图4为本发明第四实施例网站镜像的检测装置的方框图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
本发明提供的网站镜像的检测方法包括前级检测步骤和后级检测步骤,下面将详细地描述本发明的网站镜像的检测方法及其各个步骤。
第一实施例
如图1所示,本实施例的网站镜像的检测方法包括:前级验证步骤S10:计算待检测网站的标题信息与原始网站的标题信息的相似度,若相似度超过设定阈值,则待检测网站为疑似网站。
后级验证步骤S20:比对疑似网站的网页结构中的可视化元素和原始网站的网页结构中的可视化元素,若满足预设条件,则判定疑似网站为镜像网站。
前级验证步骤仅是对待检测网站的标题信息进行验证,与原始网站的标题信息的相似度,该步骤检测速度快,具有较高的准确性。而后级验证步骤是对符合前级验证步骤的疑似网站的网页结构进行验证,复杂性较高,速度较慢,但具有非常高的准确性。前后两级验证,使得前级验证步骤能够从输入的大量待检测网站中快速排除明显不具有相似度的待检测网站,后级验证步骤再对剩余的具有相似度的少量疑似网站样本进行精确判定,这样从总体上在保证网站镜像准确性的同时,尽可能提高检测效率。
作为优选地,计算待检测网站的标题信息与原始网站的标题信息的相似度,具体包括:步骤S100:将待检测网站的标题和原始网站的标题分别进行中英文分词;步骤S101:提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原始索引;步骤S102:分别比对待检测索引中的单词和原始索引中的单词,以计算待检测网站的标题信息与原始网站的标题信息的相似度。所述相似度超过设定阈值,则检测出的疑似网站包括对应的HTML内容作为后级验证步骤的输入量进行下面的验证步骤,其它待检测网站被判定为“非镜像”网站直接结束。
第二实施例
如图2所示,本实施例中的网站镜像的检测方法在第一实施例的基础上,前级验证步骤除了步骤S10:计算待检测网站的标题信息与原始网站的标题信息的相似度,若相似度超过设定阈值,则待检测网站为疑似网站之前,前级验证步骤通过步骤S20和步骤S30完成待检测网站标题的提取。
步骤S30:加载待检测网站的网页内容。利用标准HTTP/HTTPS协议读取并下载待检测网站的内容。
步骤S40:从待检测网站的网页内容中提取标题。从待检测网站的网页内容中提取标题,在实际应用中存在两种情况。一是部分镜像网站直接将原始网站的HTML内容完整拷贝,其标题可以从HTML内容的<title>标签中直接获取。二是部分镜像网站仅含有动态执行的Javascript代码,当用户浏览器执行镜像网站所含的Javascript代码后,才会将镜像网站的网页内容所对应的HTML内容动态地加载出来。对于第二种情况,本发明引入待检测网站的网页Javascript解释引擎,该解释引擎是基于开源的QtWebkit实现的,可模拟浏览器自动地加载并且执行Javascript代码,由此将完整的HTML内容及其中包含的<title>渲染出来。
第三实施例
如图3所示,步骤S20:比对疑似网站的网页结构中的可视化元素和原始网站的网页结构中的可视化元素,若满足预设条件,则判定疑似网站为镜像网站之前,后级验证步骤还包括:步骤S50:筛选疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的关键节点,筛选原始网站中原始网页的文档对象模型DOM树节点,保留反映DOM树形结构的原始节点。所谓的反映DOM树形结构的关键节点是指在视觉上明显可见的,并且含有网页实际内容的节点。
本发明的后级验证步骤通过疑似网站和原始网站的网页结构中可视化元素的相似性进行判定。其中,步骤S50中,根据HTML规范标准,每个HTML页面均对应一个DOM树,通过视觉判定疑似网站的网页和原始网站的网页相似性时,过小的元素,例如疑似网页中的一个按钮或者过大的元素,例如网页的整个<body>都是不合适的。
基于上述观点,本装置对疑似网页DOM树的节点和原始网页DOM树的节点分别进行一系列的筛选,保留视觉面积适中、并能够反映树形结构的关键节点。需要说明的是,对原始网页DOM树的节点进行筛选,可以进筛选一次得到原始节点附加位置属性,构建原始网页的可视化元素树后保存,下次直接拿过来与疑似网页的可视化元素树进行比对。另外,下面几条中分别提到的节点的高度和宽度的下界阈值是不一样的,分别在具体应用中进行预设。具体的筛选由以下步骤组成:1、确定疑似网页的视觉边界,将疑似网页的首个父节点的左坐标和右坐标,分别作为该疑似网页的最左坐标和最右坐标,用于界定疑似网页的边界。2、删除分隔栏,网页中的分隔栏在视觉上是一条细线,在实际的网站视觉中并不明显,并且其位置经常发生改变,干扰判断,因此需要删除疑似网站中的分隔栏。本发明的网站镜像的检测方法利用疑似网站中节点的高度和宽度的下界阈值,这里的高度和宽度的下界阈值可以为2~3个像素,即视觉上很窄的一个元素。删除节点高度或宽度小于该下界阈值的节点,达到删除分隔栏的目的。3、删除节点面积小于设定下限值的节点。通过节点的高和宽计算出节点面积,若节点面积小于预先给定的下限值,则删除节点。同样在应用中预设的参考值可以为10个像素,即占据10个像素以下的元素,视觉上几乎不可见。4、删除节点面积小于设定阈值的节点所包含的所有子节点,以归并零碎区域,预设的设定阈值一般为50至100个像素,即总共占据50到100个像素的一组零碎区域建议合并为一个整块区域。逆序遍历DOM树,若一个节点的面积小于上述设定阈值,且完全包含其所有子结点,则删除其下的所有子结点,即:对较小的零碎区域进行归并。5、删除节点面积大于设定上限值并且包含所有子节点的节点。删除冗余的大块上层区域:网页中存在一些大块的上层区域,能够被其所有子区域完全覆盖,则删除上层区域而保留所有子区域,对于视觉判定没有影响。例如,假设区域A被划分为B、C、D三个子区域,那么删除A而保留B、C、D,无论是从结构上还是视觉上都足以保留完整信息,不会影响判定。本装置通过DOM树前序遍历,计算出面积大于上限值且完全包含所有子节点的上层节点,将这些上层节点进行删除,这里的完全包含是指大块区域的内容完全被其内部的若干子区域划分。这里的上限值一般为10万、20万或者30万像素等(分辨率为1024*768的屏幕有78.6万个像素),即一个非常大的矩形显示区域建议拆分为一组子区域进行判定(因为一个非常大的区域内部有很多信息会影响相似性的判断,应该细分)。这样可以减少后续比对的工作量,提高检测效率。
以及,步骤S60:在关键节点和原始节点上分别附加位置属性,构建疑似网页的可视化元素树和原始网页的可视化元素树。优选地,位置属性包括位置四元组:关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面上边缘的像素距离为顶坐标top、关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面左边缘的像素距离为左坐标left、关键节点或者原始节点显示的矩形区域的像素高度height和关键节点或者原始节点显示的矩形区域的像素宽度width。这样每个疑似网站和原始的DOM树节点附加了位置属性后,就成为了可视化元素树VTree。
当两个可视化元素树上的节点进行比较时,首先判断两节点的节点面积是否相同,其次要考虑疑似网页是否出现整体位移的情况。因此,首先按照面积相同的条件得到相似节点对列表,然后计算每一相似节点对的顶坐标top属性之差与左坐标left属性之差,将出现次数最多的顶坐标top之差和left之差分别作为整体位移的垂直偏移值和水平偏移值。最后结合每一节点对的位置差异,确定具有相似性的节点对。具体地:
比对疑似网站的网页结构中的可视化元素和原始网站的网页结构中的可视化元素,具体包括:判断关键节点和原始节点的相似性;按先序遍历顺序分别将疑似网页的可视化元素树上的关键节点和原始网页的可视化元素树上的原始节点分别变为线性列表;依次比对线性列表上的关键节点和原始节点,则关键节点的节点面积等同于原始节点的节点面积,并且满足以下任一条件的节点对具有相似性:1、仅发生水平位移的:水平位置差异符合整体位移,且顶坐标相同;2、仅发生垂直位移的:垂直位置差异符合整体位移,且左坐标相同;3、双向位移的:水平和垂直位置差异均符合整体位移;4、由于疑似网页中插入了部分新节点,导致插入位置后的关键节点出现更多垂直位移,而水平位置差异符合整体位移,且底坐标(top+height)与网页底部的距离相同。满足以上条件的节点对对具有相似性。接下来在具有相似性的节点对中,执行下面的步骤。
若满足预设条件,则判定所述疑似网站为镜像网站,具体包括:C–k/A+D–t/B+w>0时,判定疑似网页与原始网页相似,疑似网站为镜像网站,其中:遍历节点占比:A=遍历的节点总数/镜像节点总数;遍历面积占比:B=遍历的节点总面积/镜像节点总面积;相似结点占比:C=相似的节点总数/遍历的节点总数;相似面积占比:D=相似的节点总面积/遍历的节点总面积;参数k、t、w的取值在实际应用中根据训练集进行计算。需要说明的是:参数可取默认值:k=t=0.03,w=-0.05。针对上文提到的实际应用中的训练集是指:如果先前已经保存有若干镜像网站的样本,以及若干其它非镜像网页的样本,那么可以将这些样本当作训练集,让检测方法对这些样本进行检测,同时调整参数的取值,使得镜像网站的样本总是计算出C–k/A+D–t/B+w>0,即镜像网站的样本与原始网站是相似的,其它非镜像网站的样本总是计算出C–k/A+D–t/B+w<=0,即非镜像网站的样本与原始网站是不相似,这样就可以得到符合此次训练集的一组参数值,在接下来的检测方法中采用上述训练集得到的一组参数值即可。
上文中所述的遍历的节点总数以及遍历的节点总面积为遍历一个疑似网站中总的节点总数以及总的节点总面积,而相似的节点总数以及相似的节点总面积是以具有相似性的节点对中的节点数进行计算。
第四实施例
如图4所示,本实施例中的网站镜像的检测装置包括:网站标题验证模块10:用于计算待检测网站的标题信息与原始网站的标题信息的相似度,若相似度超过设定阈值,则待检测网站为疑似网站,以及网页结构比对模块20:用于比对疑似网站的网页结构中的可视化元素和原始网站的网页结构中的可视化元素,若满足预设条件,则判定疑似网站为镜像网站。
优选地,网页标题验证模块10,还用于:将待检测网站的标题和原始网站的标题分别进行中英文分词;提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原始索引;分别比对待检测索引中的单词和原始索引中的单词,以计算待检测网站的标题信息与原始网站的标题信息的相似度。
通过以下实例说明本发明的网站镜像的检测方法检测的准确性,并且检测效率较高。
步骤一:原始网站的所有者通过爬取搜索引擎结果的方式,获得大量含有本网站主要关键词的待检测网站列表,本例中共包含1142个待检测网站。
步骤二:将1142个待检测网站的URL以及原始网站的主页进行前级验证步骤和后级验证步骤,最终自动检测发现52个镜像网站和1090个非镜像网站,并输出每个镜像网站的标题及检测结果,供人工核验。
步骤三:本实例为了核验本发明方法的具体效果,人工对1142个待检测网站进行了核验,最终结果如下:
表一
装置检测为镜像 装置检测为非镜像
人工核验为镜像 51 3
人工核验为非镜像 1 1085
因此,可知此例中:
查准率(准确率)为51/52=98.08%,
查全率(召回率)为51/54=94.44%。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。

Claims (8)

1.一种网站镜像的检测方法,其特征在于,包括:
计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;
筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的关键节点,筛选所述原始网站中原始网页的文档对象模型DOM树节点,保留反映DOM树形结构的原始节点;
在所述关键节点和原始节点上分别附加位置属性,构建疑似网页的可视化元素树和原始网页的可视化元素树;
比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站;
其中,所述比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,具体包括:
判断关键节点和原始节点的相似性;
分别将疑似网页的可视化元素树上的关键节点和原始网页的可视化元素树上的原始节点分别变为线性列表;
依次比对线性列表上的关键节点和原始节点,则关键节点的节点面积等同于原始节点的节点面积,并且满足以下条件的节点对具有相似性:
1)、水平位置差异符合整体位移,且顶坐标相同;
2)、垂直位置差异符合整体位移,且左坐标相同;
3)、水平和垂直位置差异均符合整体位移;
4)、水平位置差异符合整体位移,且底坐标至网页底部的距离相同;
其中,关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面上边缘的像素距离为顶坐标top、关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面左边缘的像素距离为左坐标left、关键节点或者原始节点显示的矩形区域的像素高度为height,底座标为top+height。
2.根据权利要求1所述的检测方法,其特征在于,所述计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站之前,所述方法还包括:
加载待检测网站的网页内容;
从待检测网站的网页内容中提取标题。
3.根据权利要求2所述的检测方法,其特征在于,所述计算待检测网站的标题信息与所述原始网站的标题信息的相似度,具体包括:
将待检测网站的标题和原始网站的标题分别进行中英文分词;
提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原始索引;
分别比对所述待检测索引中的单词和所述原始索引中的单词,以计算待检测网站的标题信息与所述原始网站的标题信息的相似度。
4.根据权利要求1所述的检测方法,其特征在于,所述筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的关键节点,具体包括:
确定所述疑似网页的视觉边界;
删除分隔栏;
删除节点面积小于设定下限值的关键节点;
删除节点面积小于阈值的关键节点所包含的所有子节点,以归并零碎区域;
删除节点面积大于设定上限值并且包含所有子节点的关键节点。
5.根据权利要求1所述的检测方法,其特征在于,所述位置属性包括位置四元组:关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面上边缘的像素距离为顶坐标top、关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面左边缘的像素距离为左坐标left、关键节点或者原始节点显示的矩形区域的像素高度height以及关键节点或者原始节点显示的矩形区域的像素宽度width。
6.根据权利要求1所述的检测方法,其特征在于,若满足预设条件,则判定所述疑似网站为镜像网站,具体包括:
若满足:C–k/A+D–t/B+w>0时,判定所述疑似网页与所述原始网页相似,所述疑似网站为镜像网站,其中:
遍历节点占比:A=遍历的节点总数/镜像节点总数;
遍历面积占比:B=遍历的节点总面积/镜像节点总面积;
相似节点占比:C=相似的节点总数/遍历的节点总数;
相似面积占比:D=相似的节点总面积/遍历的节点总面积;
参数k、t、w的取值在实际应用中根据训练集进行计算。
7.一种网站镜像的检测装置,其特征在于,包括:
网站标题验证模块:用于计算待检测网站的标题信息与原始网站的标题信息的相似度,若所述相似度超过设定阈值,则所述待检测网站为疑似网站;
网页结构比对模块:用于筛选所述疑似网站中疑似网页的文档对象模型DOM树节点,保留反映DOM树形结构的关键节点,筛选所述原始网站中原始网页的文档对象模型DOM树节点,保留反映DOM树形结构的原始节点;在所述关键节点和原始节点上分别附加位置属性,构建疑似网页的可视化元素树和原始网页的可视化元素树;比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,若满足预设条件,则判定所述疑似网站为镜像网站;
其中,所述比对所述疑似网站的网页结构中的可视化元素和所述原始网站的网页结构中的可视化元素,具体包括:
判断关键节点和原始节点的相似性;
分别将疑似网页的可视化元素树上的关键节点和原始网页的可视化元素树上的原始节点分别变为线性列表;
依次比对线性列表上的关键节点和原始节点,则关键节点的节点面积等同于原始节点的节点面积,并且满足以下条件的节点对具有相似性:
1)、水平位置差异符合整体位移,且顶坐标相同;
2)、垂直位置差异符合整体位移,且左坐标相同;
3)、水平和垂直位置差异均符合整体位移;
4)、水平位置差异符合整体位移,且底坐标至网页底部的距离相同;
其中,关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面上边缘的像素距离为顶坐标top、关键节点或者原始节点显示的矩形区域的左上角顶点对应地与疑似网页或者原始网页的页面左边缘的像素距离为左坐标left、关键节点或者原始节点显示的矩形区域的像素高度为height,底座标为top+height。
8.根据权利要求7所述的检测装置,其特征在于,所述网页标题验证模块,还用于:
将待检测网站的标题和原始网站的标题分别进行中英文分词;
提取待检测网站的标题和原始网站的标题中的中英文单词,分别建立待检测索引和原始索引;
分别比对所述待检测索引中的单词和所述原始索引中的单词,以计算待检测网站的标题信息与所述原始网站的标题信息的相似度。
CN201510547203.7A 2015-08-31 2015-08-31 一种网站镜像的检测方法及装置 Expired - Fee Related CN105069169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510547203.7A CN105069169B (zh) 2015-08-31 2015-08-31 一种网站镜像的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510547203.7A CN105069169B (zh) 2015-08-31 2015-08-31 一种网站镜像的检测方法及装置

Publications (2)

Publication Number Publication Date
CN105069169A CN105069169A (zh) 2015-11-18
CN105069169B true CN105069169B (zh) 2019-03-05

Family

ID=54498538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510547203.7A Expired - Fee Related CN105069169B (zh) 2015-08-31 2015-08-31 一种网站镜像的检测方法及装置

Country Status (1)

Country Link
CN (1) CN105069169B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021383A (zh) * 2016-05-11 2016-10-12 乐视控股(北京)有限公司 网页相似度计算方法及装置
CN107562600B (zh) * 2017-08-23 2021-12-10 阿里巴巴(中国)有限公司 页面检测方法、装置、计算设备以及存储介质
US10783138B2 (en) * 2017-10-23 2020-09-22 Google Llc Verifying structured data
CN112214419A (zh) * 2020-12-09 2021-01-12 深圳开源互联网安全技术有限公司 组件代码相似度的检测方法及设备
CN113837772A (zh) * 2021-09-24 2021-12-24 支付宝(杭州)信息技术有限公司 一种对营销信息进行审核的方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN103902889A (zh) * 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种恶意消息云检测方法和服务器
CN104063506A (zh) * 2014-07-08 2014-09-24 百度在线网络技术(北京)有限公司 重复网页识别方法和装置
CN104092667A (zh) * 2014-06-23 2014-10-08 北京航空航天大学 一种钓鱼网页检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN101894134A (zh) * 2010-06-21 2010-11-24 南京邮电大学 一种基于空间布局的钓鱼网页检测及其实现方法
CN103902889A (zh) * 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种恶意消息云检测方法和服务器
CN104092667A (zh) * 2014-06-23 2014-10-08 北京航空航天大学 一种钓鱼网页检测方法
CN104063506A (zh) * 2014-07-08 2014-09-24 百度在线网络技术(北京)有限公司 重复网页识别方法和装置

Also Published As

Publication number Publication date
CN105069169A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105069169B (zh) 一种网站镜像的检测方法及装置
US8898296B2 (en) Detection of boilerplate content
US20150254219A1 (en) Method and system for injecting content into existing computerized data
CN104077387B (zh) 一种网页内容显示方法和浏览器装置
KR101640051B1 (ko) 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
CN103020156B (zh) 一种针对网页的处理方法、装置和设备
WO2014127535A1 (en) Systems and methods for automated content generation
CN104615631B (zh) 一种信息推荐的方法及装置
US20210103515A1 (en) Method of detecting user interface layout issues for web applications
CN111090797B (zh) 数据获取方法、装置、计算机设备和存储介质
CN105786896A (zh) 一种页面侧边栏的颜色渲染方法及装置
WO2020238070A1 (zh) 一种基于网页分割和搜索算法的服务包装方法
CN104133870A (zh) 一种网页相似度计算方法及装置
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
CN106161133A (zh) 一种网页加载时间的测试方法及装置
CN101894109A (zh) 一种数据库建立方法和装置
US10289658B1 (en) Web page design scanner
CN104408133A (zh) 网页链接区域的热力图的显示方法和装置
US8887037B1 (en) Scroll-free user interface and applications
CN109213538A (zh) 一种列表页信息的提取方法及装置
JP2011096078A (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
CN112470154B (zh) 检测web网页安全性的方法和装置
US20120179738A1 (en) Portletization support system, apparatus, method, and program
Zhou et al. An analysis of urls generated from javascript code
CN103383695B (zh) 一种用于识别wap页面的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190305

Termination date: 20190831

CF01 Termination of patent right due to non-payment of annual fee