CN1952947A - 一种网站反克隆的系统和方法 - Google Patents

一种网站反克隆的系统和方法 Download PDF

Info

Publication number
CN1952947A
CN1952947A CNA2005101090858A CN200510109085A CN1952947A CN 1952947 A CN1952947 A CN 1952947A CN A2005101090858 A CNA2005101090858 A CN A2005101090858A CN 200510109085 A CN200510109085 A CN 200510109085A CN 1952947 A CN1952947 A CN 1952947A
Authority
CN
China
Prior art keywords
website
database
webpage
data
web site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005101090858A
Other languages
English (en)
Inventor
左其其
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNA2005101090858A priority Critical patent/CN1952947A/zh
Publication of CN1952947A publication Critical patent/CN1952947A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网站反克隆系统和方法,利用全文搜索引擎从需要保护的网站提取信息建立网页数据库,定期或不定期地与互联网上的所有的网站内容进行模糊对比,当达到预设置的比值时,就会报警,提示用户作进一步检查。本发明能自动发现其它网站对本网站的页面进行模仿、复制等克隆行为,从而提醒客户和合法网站所有人,及早采取相应措施保护自己的合法利益免受侵害。

Description

一种网站反克隆的系统和方法
技术领域
本发明涉及一种互联网网站反克隆的系统,同时,本发明还涉及一种互联网网站及其页面的保护方法,尤其是一种自动发现其它网站对本网站的页面进行模仿、复制的方法。
背景技术
随着互联网技术的广泛使用,互联网上的商业应用也越来越多,然而使用互联网进行欺诈行为也层次不穷。其中一种常见的欺诈方式是对他人的网站页面进行模仿、复制,制成所谓的克隆网站,发布到互联网上,诱骗用户在访问目的网站时,误登陆克隆网站,并进行相应操作,克隆网站制作者从用户的操作中获取用户的有关信息,从而获取非法利益。如最近出现的在互联网上对他人网站进行克隆,诱骗用户访问克隆的网站,从而骗取用户的帐号和密码,进而进行违法操作,就是一种典型的网上欺诈行为。此种克隆网站欺诈具体表现为,寻找具有商业交易的网站(比如AAA),创建域名或页面相似的网站(比如AAAA),然后从网站AAA上拷贝全部或部分内容到网站AAAA上。由于AAAA网站在外观上与AAA网站非常相似,整个网页看上去制作得比较正规,当客户在不确定的情况下访问AAAA,要求用户登录时,客户输入的账号和密码就在这时被窃取了。实际操作一般是利用电子邮件或搜索引擎将用户引诱到模仿某个实际企业的网站上,诱骗他们输入信用卡号码等来进行欺诈的行为。此种行为不仅损害了客户的利益,也侵犯了网站所有人的著作权等合法权益。现实中,只有当用户或合法网站所有人的利益受到损害后才有可能发现此种侵权行为,尚没有能主动防范此种对他人网页进行克隆进行欺诈行为的技术措施。
发明内容
本发明的目的在于提供一种网站反克隆的方法,能自动发现克隆他人网站的网页,从而提醒客户和合法网站所有人,及早采取相应措施保护自己的合法利益免受侵害。
本发明的另一目的在于提供一种网站反克隆的系统,能自动发现克隆他人网站的网页,从而提醒客户和合法网站所有人,及早采取相应措施保护自己的合法利益免受侵害。
为实现上述发明目的,本发明的思路是:利用全文搜索引擎从需要保护的网站提取信息建立网页数据库,定期或不定期地与互联网上的所有的网站内容进行模糊对比,当达到预设置的比值时,就会报警,提示用户作进一步检查。
本发明的技术方案是:一种网站反克隆系统,其特征在于该系统分为三大模块:用于负责用户管理、数据库管理、报表的管理、系统参数的配置以及子系统的运行控制的管理界面模块;利用搜索引擎,抓取被保护网站和互联网上其它网站网页的数据并将结果保存到数据库中以待分析的搜索引擎模块;对搜索结果进行分析对比,得出对比值,并与预设值比较,从而发现相似网站的数据分析模块。
一种网站反克隆的方法,先建立一基本数据库,利用全文搜索引擎从需要保护的网站页面中提取该基本数据库中收录的词,建立网页数据库;
利用全文搜索引擎对互联网上的网页进行搜索,同时提取该网页中包含的基本数据库中的数据,并与上述网页数据库中的数据进行对比;
每出现一个相同的数据,则赋予一定的值,将所有值相加,得出一个总的数值;
设定一预设值,将上述对比得出的数值同预设值比较,若大于预设值,则认为该网页与被比网页相似,将其网址存放到一检索结果数据库;
由网站管理人登陆检索结果数据库中的相似网页,判断该网页与被比网页的相似程度,从而发现真正同本网站页面相似的克隆网站。
进一步在总数值与预设值进行比较步骤后,若大于预设值,则报警、打印结果,进行数据分析。
为进一步提高对比效果,降低误报率,本发明可根据每个词的重要性不同,对上述网页数据库中的数据赋予不同的权值。
除进行文字对比外,本发明还可将本网站的域名、关键字或关键词组等要素与其它网站的相应内容进行模糊对比;也可将上述内容与其它网站进行综合对比。同样,对上述要素也可设定不同的权值。
为适应不同的用户及新词的出现,本发明允许对上述基本数据库中的词进行添加和修改。
本发明能自动发现模仿、复制本网站的克隆网站及网页,从而提醒客户和本网站所有人,及早采取相应措施保护自己的合法利益免受侵害。
附图说明
图1是本发明的工作过程总流程图;
图2是被保护网站的管理界面的基本流程图;
图3是本发明的搜索过程流程图;
图4是本发明的数据分析过程流程图;
具体实施方式
网站反克隆系统分为三大模块:用于负责用户管理、数据库管理、报表的管理、系统参数的配置以及子系统的运行控制的管理界面模块;利用搜索引擎,抓取被保护网站和互联网上其它网站网页的数据并将结果保存到数据库中以待分析的搜索引擎模块;对搜索结果进行分析对比,得出对比值,并与预设值比较,从而发现相似网站的数据分析模块。
本发明的方法整个过程分为搜索和分析两部分。首先是搜索,先建立一个基本数据库,然后利用全文搜索引擎从要保护的网页中提取包含在基本数据库中的数据,将上述数据保存到一网页数据库中以待分析;然后是搜索引擎搜索互联网上的其它页面,由分析系统将搜索到的网页与被保护网站的数据进行对比,得出对比值,并与预设对比值比较,如果超过预设对比值,则将该搜索到的网页的网址存放到一结果数据库中,向被保护网站的管理者作报警提示。
本发明不仅能对网页包含的词进行模糊对比,还可对被保护网站的域名与其它网站的域名进行模糊对比,并可采用数据挖掘技术,以降低误报率。
如图1所示,为本发明工作过程的总流程图,步骤10:开始程序;步骤11:先建立一基本数据库;步骤12:利用全文搜索引擎从需要保护的网站页面中提取该基本数据库中收录的词,建立网页数据库;步骤13:利用全文搜索引擎对互联网上的网页进行搜索;步骤14:提取该网页中包含的基本数据库中的数据,并与上述网页数据库中的数据进行对比;步骤15:每出现一个相同的数据,则赋予一定的值,将所有值相加,得出一个总的数值;步骤16:设定一预设值,将上述对比得出的数值同预设值比较,步骤17:若大于预设值,则认为该网页与本网页相似,将其网址存放到一检索结果数据库;若小于预设值,则返回步骤13继续搜索;步骤18:同时报警,进行数据报表分析,打印结果;步骤19:程序结束。此外,网站管理人登陆检索结果数据库中的相似网页,判断其与本网页的相似程度,从而发现真正同本网站页面相似的克隆网站。
如图2所示,是被保护网站的管理界面的基本流程图,首先,步骤20:程序开始;步骤21:判断登录是否成功,如果成功,继续下面步骤,如果失败,则返回继续登录;步骤22:进行用户管理;步骤23:进行数据库管理;步骤24:进行参数配置;步骤25:进行报表管理;步骤26:进行控制;在步骤22中,又可以分为三个并列的步骤:步骤221:增加内容;步骤222:修改内容;步骤223:删除内容;在步骤23中,可以分为三个并列的步骤:步骤231:数据库重置;步骤232:数据库备份;步骤233:数据库的恢复;在步骤24中,分为五个并列的步骤:步骤241,进行被保护的网站URL设置;步骤242,进行关键词和词组统计维护;步骤243,进行比对报警值设置;步骤244,进行过滤的网站URL设置;步骤245,进行其他运行参数的设置;在步骤25中,可以分为三个并列的步骤:步骤251,进行报表1管理;步骤252,进行报表2管理;步骤253,进行报表3管理;在步骤26中,分为两个并列的步骤:步骤261,进行运行的控制;步骤262,进行停止的控制。
如图3所示,是本发明的搜索过程流程图,首先,步骤30,程序开始;步骤31,判断连接数据库是否成功,如果成功,继续下一步骤,如果失败,则返回继续进行连接;步骤32,从数据库读取配置;步骤33,创建主线程和N个子线程;步骤34,主线程程序开始:步骤341,判断两次间隔是否超过24小时,如果是,继续下一步骤,如果不是,继续等待;步骤342,从数据库读取关键词;步骤343,提交Google进行搜索;步骤344,把搜索结果提交到数据库,然后返回步骤34;步骤35,子线程程序开始:步骤351,判断数据库中是否有未处理的记录,如果是,则继续下一步骤,如果没有,则返回步骤35;步骤352,读取首页数据并保存到数据库;步骤353,分析首页链接资源;步骤354,把分析的结果保存到数据库,然后返回步骤35。
如图4所示,是本发明的数据分析过程流程图,首先,步骤40,程序开始,步骤41,判断链接数据是否成功,如果成功,继续下一步骤,如果失败,则返回继续链接;步骤42,从数据库读取配置;步骤43,创建主线程和N个子线程;步骤44,主线程程序开始,步骤441,判断被保护网站是否已修改,如果是,则继续下一步骤,如果没有修改,则返回步骤44;步骤442,去除每页干扰数据;步骤443,分析并统计词组;步骤444,把分析的结果保存到数据库,然后返回步骤44;步骤45,子线程程序开始;步骤451,判断数据库中是否有未处理的记录,如果是,则继续下一步骤,如果没有,则返回步骤45;步骤452,去除每页干扰数据;步骤453,分析并统计词组;步骤454,比较两种分析结果得出比对值,如果高于预设值则报警并保存,然后返回步骤45。
实施例1
设被保护的是XX银行的网站及网页。利用全文搜索引擎对该网站页面搜索,设该银行网站的某页面中包含有“XX银行”、“用户登录”、“申请”、“服务”、“密码”等词,且上述词均被收录在基础词库中,将上述词保存到一页面数据库中;然后利用搜索引擎在互联网上进行页面搜索,并从每一个搜索到的页面中提取词;每提取一个词,即同网页数据库中的词进行对比,若该词出现在网页数据库中,则说明需保护的页面与搜索到的页面中都包含该词,此时就在分析结果数据库中增加一个值;将搜索到的网页中的每一个词同网页数据库中数据进行对比,即获得一个总的值。所获得的值越的,表示搜索到的网页与要保护的网页中包含的相同的词越多,因此二者的相似程度也越高。当所获得的值超过预设值时,将该搜索到的页面的网址保存到搜索结果数据库中,待管理人员登陆该网站进一步确定相似程度。
为进一步提高检索结果的准确性,降低误报率,可根据每个词的重要性不同,对上述网页数据库中的数据赋予不同的权值。如认为页面中出现“XX银行”较容易引起客户注意,可赋予其较高的权值,如赋予其权值为5,其它词分别赋予权值为4、3、2、1等,词组可以是中文也可以英文,也可以是中英文混合,词组统计可以手工设置,也可以是机器自动设置,但只能选一种;在对搜索结果进行对比运算时,尽管搜索到的页面中与保护页面中相同的词较多,但其中未包含“XX银行”,因此其对比结果所得的总值并不高,达不到设定值,可认为两页面不相似,不将该页面报告给网站管理人。反之,若搜索到的页面中包含“XX银行”及其它少量相同的词,所得结果值却可能较高,超过设定值,系统认定两页面相似,此时将该页面保存到搜索结果数据库中,提醒用户进一步判断其相似性。上述方法,可提高系统的智能程度,降低误报率。
上述搜索结果存放到数据库中时,可按照对比所得值得大小顺序存放,值越大,存放位置越靠前,当值大到一定程度时,还可令其显示不同的颜色,方便用户优先查看系统认为最相似的网页。
实施例2
上述实施例是对网页中包含的文字进行对比以判断相似性。互联网上利用相似网址诱骗客户访问的情况也很多,因此本发明也可对需保护的网站的网址与互联网上的其它网址进行对比,从而发现恶意的相似网址。假设仍是上述银行网站,设其网址为“ www.abcl.cn”,以该网址为对比对象,利用搜索引擎在互联网上搜索,将搜索到的网址与该网址进行模糊对比,假设模糊规则中规定网址中包含“abc”即认为相似,设搜索到的网址中有“www.abcd.cn”、“www.abcl.com”、“www.abcl.cn”等,即认为上述网址与保护网址类似,将上述网址存放到结果数据库中,待管理人员登陆该网站进一步确定相似程度。模糊规则中同样可规定按相似程度大小存放所得结果。如本网站网址abcl中包含阿拉伯数字“1”,而英文子母L的小写“l”与阿拉伯数字“1”及其相似,某恶意网站可能会利用这一特征,将其网址设为“www.abcl.cn”,其引起客户误会的程度大于“www.abcd.cn”,因此模糊规则设定存放搜索结果数据时,“www.abcl.cn”的位置比www.abcd.cn的位置靠前,网站管理者可优先发现前者。
本发明利用全文搜索引擎从需要保护的网站提取信息建立网页数据库,定期或不定期的与互联网上的所有的网站进行内容模糊对比,当达到预设置的比值时,就会报警,提示用户作进一步检查;网站反克隆软件不仅仅只是内容模糊对比,还要对网站域名进行模糊对比以及数据挖掘技术,降低误报率。在报警显示中,实时显示报警信息,排列次序,网站域名,地址列表,首页网站,首面标题,对比值,对比时间等。
本发明能够最大限度的搜索到互联网上与被保护网站相似的站点,程序采用关键词组对比算法,计算两站点页面之间的对比值,达到预期的值系统自动发出警告,该算法的优点是不管页面形式、排版、风格等如何,都能精确计算出结果,从而在第一时间里发现克隆站点。

Claims (6)

1、一种网站反克隆系统,其特征在于该系统分为三大模块:用于负责用户管理、数据库管理、报表的管理、系统参数的配置以及子系统的运行控制的管理界面模块;利用搜索引擎,抓取被保护网站和互联网上其它网站网页的数据并将结果保存到数据库中以待分析的搜索引擎模块;对搜索结果进行分析对比,得出对比值,并与预设值比较,从而发现相似网站的数据分析模块。
2、一种网站反克隆的方法,其特征在于:先建立一基本数据库,利用全文搜索引擎从需要保护的网站页面中提取该基本数据库中收录的词,建立网页数据库;
利用全文搜索引擎对互联网上的网页进行搜索,同时提取该网页中包含的基本数据库中的数据,并与上述网页数据库中的数据进行对比;
每出现一个相同的数据,则赋予一定的值,将所有值相加,得出一个总的数值;
设定一预设值,将上述对比得出的数值同预设值比较,若大于预设值,则认为该网页与被比网页相似,将其网址存放到一检索结果数据库;
由网站管理人登陆检索结果数据库中的相似网页,判断该网页与被比网页的相似程度,从而发现真正同本网站页面相似的克隆网站。
3、根据权利要求2所述的网站反克隆的方法,其特征在于:在总数值与预设值进行比较后,若大于预设值,则报警、打印结果,进行数据分析。
4、根据权利要求2所述的网站反克隆的方法,其特征在于:根据每个词的重要性不同,对上述网页数据库中的数据赋予不同的权值。
5、根据权利要求2所述的网站反克隆的方法,其特征在于:可将本网站的域名、关键字或关键词组收录到基本数据库中,并与其它网站的相应内容进行模糊对比。
6、根据权利要求2所述的网站反克隆的方法,其特征在于:可以对所述的基本数据库中的词进行添加和修改。
CNA2005101090858A 2005-10-17 2005-10-17 一种网站反克隆的系统和方法 Pending CN1952947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2005101090858A CN1952947A (zh) 2005-10-17 2005-10-17 一种网站反克隆的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2005101090858A CN1952947A (zh) 2005-10-17 2005-10-17 一种网站反克隆的系统和方法

Publications (1)

Publication Number Publication Date
CN1952947A true CN1952947A (zh) 2007-04-25

Family

ID=38059288

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005101090858A Pending CN1952947A (zh) 2005-10-17 2005-10-17 一种网站反克隆的系统和方法

Country Status (1)

Country Link
CN (1) CN1952947A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409634B (zh) * 2007-10-10 2011-04-13 中国科学院自动化研究所 基于信息检索的互联网新闻影响力定量分析工具及方法
CN102611691A (zh) * 2012-01-12 2012-07-25 深信服网络科技(深圳)有限公司 一种用于检测钓鱼网站的方法、系统及网关设备
CN103634160A (zh) * 2012-08-28 2014-03-12 深圳市世纪光速信息技术有限公司 基于web的通用互联网产品数据对比测试的方法及装置
CN104572787A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 伪原创网站的识别方法及装置
CN106233296A (zh) * 2013-12-10 2016-12-14 日本电信电话株式会社 Url匹配装置、url匹配方法以及url匹配程序
CN108280110A (zh) * 2017-05-15 2018-07-13 广州市动景计算机科技有限公司 网站差异对比方法、装置及客户端
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN112149063A (zh) * 2020-09-14 2020-12-29 浙江数秦科技有限公司 一种网络图片侵权在线监测方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409634B (zh) * 2007-10-10 2011-04-13 中国科学院自动化研究所 基于信息检索的互联网新闻影响力定量分析工具及方法
CN102611691A (zh) * 2012-01-12 2012-07-25 深信服网络科技(深圳)有限公司 一种用于检测钓鱼网站的方法、系统及网关设备
CN103634160B (zh) * 2012-08-28 2018-10-19 深圳市世纪光速信息技术有限公司 基于web的通用互联网产品数据对比测试的方法及装置
CN103634160A (zh) * 2012-08-28 2014-03-12 深圳市世纪光速信息技术有限公司 基于web的通用互联网产品数据对比测试的方法及装置
CN104572787A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 伪原创网站的识别方法及装置
CN104572787B (zh) * 2013-10-29 2019-03-15 腾讯科技(深圳)有限公司 伪原创网站的识别方法及装置
CN106233296A (zh) * 2013-12-10 2016-12-14 日本电信电话株式会社 Url匹配装置、url匹配方法以及url匹配程序
US10277613B2 (en) 2013-12-10 2019-04-30 Nippon Telegraph And Telephone Corporation URL matching apparatus, URL matching method, and URL matching program
CN106233296B (zh) * 2013-12-10 2019-09-06 日本电信电话株式会社 Url匹配装置以及url匹配方法
CN108280110A (zh) * 2017-05-15 2018-07-13 广州市动景计算机科技有限公司 网站差异对比方法、装置及客户端
CN109710834A (zh) * 2018-11-16 2019-05-03 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN109710834B (zh) * 2018-11-16 2020-01-10 北京字节跳动网络技术有限公司 相似网页检测方法、装置、存储介质及电子设备
CN112149063A (zh) * 2020-09-14 2020-12-29 浙江数秦科技有限公司 一种网络图片侵权在线监测方法

Similar Documents

Publication Publication Date Title
CN1952947A (zh) 一种网站反克隆的系统和方法
US8701185B2 (en) Method for locating fraudulent replicas of web sites
US7640235B2 (en) System and method for correlating between HTTP requests and SQL queries
CN101218590B (zh) 处理源自不同后台仓库的对文档的搜索请求的方法和系统
US11630918B2 (en) Systems and methods of determining compromised identity information
US9015802B1 (en) Personally identifiable information detection
CN103297435B (zh) 一种基于web日志的异常访问行为检测方法与系统
US8225402B1 (en) Anomaly-based detection of SQL injection attacks
US8255386B1 (en) Selection of documents to place in search index
CN101369276B (zh) 一种Web浏览器缓存数据的取证方法
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
Jang et al. Detecting SQL injection attacks using query result size
CN109190380A (zh) 基于web指纹实现批量站点漏洞快速检测的方法及系统
CN101609493A (zh) 一种基于自学习的数据库sql注入防护方法
CN103338208A (zh) 一种sql注入防御的方法和系统
CN102591965B (zh) 一种黑链检测的方法及装置
Haruta et al. Visual similarity-based phishing detection scheme using image and CSS with target website finder
CN106776851A (zh) 文档结构化方法和设备
CN104077353B (zh) 一种黑链检测的方法及装置
Mamadhan et al. SQLStor: Blockage of stored procedure SQL injection attack using dynamic query structure validation
CN108334629B (zh) 一种基于自动化测试框架的电网设备状态数据获取系统
KR20120090131A (ko) 검색결과 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN107463845A (zh) 一种sql注入攻击的检测方法、系统和计算机处理设备
US8473480B1 (en) Continuous security updates
Kusuma Analysis of SQL injection attacks on website service

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned