CN108664584A - 侵权网站搜索识别方法及装置 - Google Patents
侵权网站搜索识别方法及装置 Download PDFInfo
- Publication number
- CN108664584A CN108664584A CN201810425143.5A CN201810425143A CN108664584A CN 108664584 A CN108664584 A CN 108664584A CN 201810425143 A CN201810425143 A CN 201810425143A CN 108664584 A CN108664584 A CN 108664584A
- Authority
- CN
- China
- Prior art keywords
- website
- webpage
- infringement
- search
- key message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本公开实施例涉及侵权网站搜索识别方法及装置。该方法中首先确定能够描述目标网站即被侵权网站特定业务的关键信息,接着根据关键信息基于专用网络爬虫搜索系统在网络中搜索包含与关键信息相匹配信息的网页,最后向用户展示搜索结果。相比于现有的搜索识别方法仅在目标网站的权利已被侵害时才能被动地去查找,本公开实施例提供的方法可以24小时全天候主动在网络上查找疑似侵权网站,从而能够及早发现,有效避免由于某些网站恶意侵犯造成的损失。且本公开实施例提供的方法省时高效,能有效节约人力物力。
Description
技术领域
本公开的实施例涉及互联网领域,尤其涉及侵权网站搜索识别方法及装置。
背景技术
目前,伪造他人网站、未经允许访问他人网站或调用他人网站某项功能之类的侵权非法行为屡屡发生,对于侵权网站的检测难度也逐渐增大。从网页页面设计相似度来看,如果侵权网站模仿被侵权网站非常近似,常常让用户真假莫辨,也会躲过被侵权网站所建立的各种识别防范系统的监测;从行为上来看,如果调用被侵权网站的某项功能频率很高,在调用的动作几乎一样、尤其在调用时动作很隐蔽(如接口调用)的情况下,这些行为就如溪水汇入海洋一样,很难发现哪滴水是从哪个小溪流入大海的;不仅如此,某种调用的功能(如二维码防伪及银行转账接口)又不允许以授权许可的方式允许其他网站调用,在这种情况下常给不法分子以可乘之机。
现有的侵权网站识别往往都是采用建立侵权网站识别特征数据库或侵权网站网址库,在访问被侵权网站或调用被侵权网站某项功能时通过侵权网站识别特征数据库或侵权网站网址库进行此对,显示侵权网站与侵权网站识别特征的相似度以提醒使用者注意或禁止对侵权网站访问或调用。
然而,在发明创造的过程中,发明人发现通过侵权网站识别特征数据库的方法由于其技术的局限性和伪造技术的高超,常常会误判或判断不出那些仿造程度很逼真的侵权网站。且通过侵权网站网址库的方式只有在侵权网站被列入侵权网站网址数据库才能发挥作用。而这些侵权网站在被列入侵权网站网址数据库之前一般都是作恶多端后被受害者举报才被识别的。因为通过搜索引擎如百度、谷歌进行检索侵权网站时,由于其相关页面太多,搜索效率极低导致该方法常常被被侵权网站弃用,因此只能等待受害者举报后才采取相关行动。
发明内容
本公开一个实施例的一个目的在于解决上述提到技术问题中的至少一个。
第一方面,本公开实施例提供了一种侵权网站搜索识别方法,包括:
确定目标网站对应的关键信息,所述关键信息为描述目标网站特定业务的信息;
根据所述关键信息,基于专用网络爬虫搜索系统,在网络中搜索第一网页得到搜索结果,所述第一网页包含与所述关键信息相匹配的信息;
展示所述搜索结果。
第二方面,本公开实施例又提供一种侵权网站搜索识别装置,包括:
关键信息确定模块,用于确定目标网站对应的关键信息,所述关键信息为描述目标网站特定业务的信息;
网页搜索模块,用于根据所述关键信息,基于专用网络爬虫搜索系统,在网络中搜索第一网页得到搜索结果,所述第一网页包含与所述关键信息相匹配的信息;
结果展示模块,用于展示所述搜索结果。
第三方面,本公开实施例又提供了一种计算机设备,包括:至少一个存储器、至少一个处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述方法的步骤。
第四方面,本公开实施例又提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面所述方法的步骤。
本公开至少一个实施例中提供了一种侵权网站搜索识别方法,该方法中首先确定能够描述目标网站即被侵权网站特定业务的关键信息,接着根据关键信息基于专用网络爬虫搜索系统在网络中搜索包含与关键信息相匹配信息的网页,最后向用户展示搜索结果。相此于现有的搜索方法仅在目标网站的权利已被侵害时才能被动地去查找,本公开实施例提供的方法可以24小时全天候主动在网络上查找疑似侵权网站,从而能够及早发现,有效避免由于某些网站恶意侵犯造成的损失。且本公开实施例提供的方法省时高效,能有效节约人力物力。
附图说明
图1示出了本公开一实施例提供的侵权网站搜索识别方法的流程示意图;
图2示出了本公开一实施例提供的搜索结果展示示意图;
图3示出了本公开一实施例提供的一种网站判断结果提示示意图;
图4示出了本公开一实施例提供的又一种网站判断结果提示示意图;
图5示出了本公开一实施例提供的侵权网站搜索识别装置结构示意图;
图6示出了本公开一实施例提供的计算机设备结构框图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
为便于理解,首先对本公开实施例涉及的一些技术词汇进行解释。
域名是指经过国际域名管理中心注册备案的网址,网址是指该域名下包含域名主页及其他所有网页文件存放的地址。网页是能够通过专用软件编辑、可存放在某个域名下的某个网址并通过浏览器调用游览的页面文件,网站是指所有存放网页的网址总称。访问(如果没有特定主语)是指某网站在其网站上通过包括但不限于文字链接、图片链接、二维码链接、接口链接等方式访问其他网站。
基于此,第一方面,本公开的实施例提供了一种侵权网站搜索识别方法,如图1所示,该方法包括:
S101、确定目标网站对应的关键信息,所述关键信息为描述目标网站特定业务的信息;
S102、根据所述关键信息,基于专用网络爬虫搜索系统,在网络中搜索第一网页得到搜索结果,所述第一网页包含与所述关键信息相匹配的信息;
S103、展示所述搜索结果。
本公开实施例提供了一种侵权网站搜索识别方法,该方法中首先确定能够描述目标网站即被侵权网站特定业务的关键信息,接着根据关键信息基于专用网络爬虫搜索系统在网络中搜索包含与关键信息相匹配信息的网页,最后向用户展示搜索结果。相比于现有的搜索方法仅在目标网站的权利已被侵害时才能被动地去查找,本公开实施例提供的方法可以24小时全天候主动在网络上查找疑似侵权网站,从而能够及早发现,有效避免由于某些网站恶意侵犯造成的损失。且本公开实施例提供的方法省时高效,能有效节约人力物力。
这里的目标网站是指被侵权网站,第一网页是指根据特定关键词基于专用网络爬虫搜索系统在网络中搜索包含与关键信息相匹配信息的网页。例如,在网络上搜索侵犯A网站权利的网页,那么这里的A网站即为目标网站,搜索出的侵犯A网站权利的网页就是第一网页。
这里的步骤S101中“确定目标网站对应的关键信息”可以通过多种方式来实施,其中一种可选的方式可以为:
S1011、接收用户输入的信息;
具体来说,用户可以根据网站的实际业务情况自行设置想要搜索的信息,这些信息能很直接的描述该网站的特定业务(例如该网站的特定业务为购物、教育或信息发布等等),且这些信息容易被其他恶意网站抄袭。
S1021、将用户输入的信息确定为目标网站对应的关键信息。
进一步地,这里的关键信息也可以有多种表现形式,例如可以包括关键词信息和/或关键语句信息。
其中,这里的所述关键词信息可以包括一个关键词或多个关键词的逻辑组合(这里的逻辑关系可以包括and/or/not),例如关键词信息可以仅为一个关键词“司法考试”,也可以为“司法考试and培训”,也可以为“司法考试and冲刺班and培训”,也可以为“司法考试or法律职业考试”等等。这里的关键语句信息可以包括一个关键语句或多个关键语句的逻辑组合。例如可以为“司法考试培训班报名开始了”,也可以为“司法考试培训班报名开始了and通过率高达80%”。
不难理解的是,在关键信息的表现形式不同时,上述方法步骤102中确定第一网页包含与关键信息相匹配的信息的方式也可能不同,具体来说:
S1021、在关键信息包含关键词信息时,若第一网页存在如下情况,则确定该第一网页包含了与关键信息相匹配的信息:
具体来说,本公开实施例提供的方法在基于网络爬虫算法进行搜索时,除了能够对关键词进行搜索,还能对该关键词的同义词或近义词进行解析。
当关键词信息为一个关键词时,第一网页中包含该关键词或该关键词的近义词。例如,关键词为“司法考试”,若第一网页中包含“司法考试”或包含“法律职业考试”,则确定第一网页中包含与关键词相匹配的信息。
当关键词信息为多个关键词的逻辑组合时,第一网页中包含该多个关键词或其近义词的逻辑组合。需要说明的是,若关键词为A与B的逻辑组合,则第一网页中包含的与之相匹配的组合可以是A与B的逻辑组合,可以是A的近义词与B的逻辑组合,也可以是A的近义词与B的近义词的逻辑组合。例如关键词为“司法考试and培训”,若第一网页中包含“司法考试and培训”或包含“法律职业考试and培训”或包含“法律职业考试and进修”,则确定第一网页中包含与关键词相匹配的信息。
S1021’、在关键信息包含关键语句信息时,若第一网页中包含与该关键语句信息相同文字比例达到预设阈值的语句,则确定该第一网页包含了与关键信息相匹配的信息。
例如,假设关键语句信息为“司法考试培训班开始了”,若第一网页中包含“司法考试培训班开课了”,这一句话中与关键语句的相同文字比例为91.7%。若预设的阈值为85%,则可以判断第一网页中包含与关键信息相匹配的信息。
其中,这里在确定相同文字此例时仅考虑是否存在相同的文字,不考虑文字之间的顺序。举例来说,假设关键语句信息为“司法考试培训班报名开始了”,若第一网页中包含“司法考试培训班开始报名了”,则不会因为这里的“开始”与“报名”两个词的顺序颠倒而影响判断其相同文字的此例。在这一例子中,相同文字的比例为100%,从而能够通过这种方式避免某些网站故意修改文字顺序躲避搜索的情况,提高搜索的准确性。
需要说明的是,在实际情况中,若关键信息既包括关键词信息也包括关键语句信息,那么步骤S1021以及步骤S1021’没有绝对的执行顺序。也即,可以先执行基于关键词信息的搜索,也可以先执行基于关键语句信息的搜索,也可以同时执行,本公开实施例对此不作具体限定。
可以理解的是,虽然本公开实施例提供的方法能够进行自动搜索并及早发现可疑侵权网站,但由于网络中的资源过多,单纯的随机搜索可能会一定程度的影响搜索的效率。因此本公开实施例提供的方法还可以对搜索进行条件限制,具体来说步骤S102中在网络中搜索第一网页的步骤可以包括:
S102a、在网络内的满足预设条件的网页中搜索第一网页;
所述预设条件包括:
条件一、该网页所在网站的域名没有存储在侵权网站数据库中;或,该网页所在网站的域名已存储在侵权网站数据库中但网站的域名存储在预设的例外名单中,且该网页没有收录到侵权网站数据库中;
其中,侵权网站数据库用于收录经过识别的侵权网站的域名以及该网站下侵权网页的网址,例外名单用于存储域名已存储在侵权网站数据库中但仍需对其进行搜索的网站域名;
具体来说,在搜索时可以对待搜索的网站域名与侵权网站数据库中进行比对。举例来说,若侵权网站数据库中存储有www.123456.com这一网站域名,也就是说这一网站已经被认定为是侵权网站,那么在搜索时就没必要对其进行搜索,也即对www.123456.com这一网站下的所有网页都不进行搜索。若侵权网站数据库中没有存储www.67890.com这一网站域名,则可以对www.67890.com这一网站下的页面进行搜索。
但上述情况存在一种例外,具体来说,可以预先设置一个例外名单,例外名单中存储有一系列网站域名。在搜索时,若判断该网站的域名虽然已存储在侵权网站数据库中但也存储在预设的例外名单中,那么对于这一类的网站,除了其下已录入的侵权网页之外,对于该网站的其他网页也需要进行继续搜索。这种例外的情况一般适用于一些特殊类的网站,例如平台类网站。这是因为对于平台类网站来说(例如京东、淘宝等购物类网站),可能每一个页面的运营方都是不同的(例如,淘宝网站上每个店铺的网页都是不同的人在运营维护)。对于这一平台类网站,无法仅凭其中的一个网页侵权就判定其他网页也同样侵权,类似地,也无法仅凭其中一个网页不侵权就判断其他网页也是安全的。因此对于这一类网站,需要对每一个页面单独对待。举例来说,假设平台类网站的网址域名为www.ABC.com,该网址域名已经存在于侵权网站数据库中,且侵权网站数据库中记录的是该网站下的www.ABC.com/12345这一网页为侵权网页,那么除了www.ABC.com/12345这一网页,www.ABC.com下的其他网页都需要进行搜索。
条件二、该网页所在网站不是目标网站;
以及条件三、当前的搜索结果中不包含与该网页在同一域名下的相关网页。也就是说,若搜索结果中已经对该网页在同一域名下的相关网页进行了搜索并确定该相关网页为疑似侵权网页,则对于该网页不再进行搜索和收录。
从而通过上述三个条件来限制搜索的范围,有利于提高搜索效率。
在具体实施时,步骤S103中的展示搜索结果可以有多种形式,一种可选的实施方式可以包括:
S1031、在检测到用户登录到指定的结果查看账户后,按预设规则向该账户展示所述搜索结果;
预设规则可以包括:若从上次查看结束时刻到本次查看开始时刻之间这一时间段内搜索发现第一网页,则最先展示时间段内发现的第一网页所在的网站;若未搜索发现第一网页,则显示暂未发现最新;预设规则还可以包括:将上次查看结束时刻之前发现的第一网页以“以往疑似页面”链接的方式排列展示,打开该链接即可查看上次从开始时间以前搜索的疑似页面。
这样做的好处是:首先建立结果查看专用账户能够将搜索结果仅展示给有权限查看该结果的用户,防止搜索结果泄露。其次,按上述规则来排列能够更为清晰直观的给用户展示本次搜索新发现的结果,便于用户对新发现的结果进行鉴别。同时,将以前发现的结果以连接的方式排列,用户也能够方便的查看以前的搜索结果。
可以理解的是,上述经过爬虫算法搜索得到的结果仅为疑似侵权网站,还需要对这些搜索结果进行进一步的鉴别,因此在向用户展示了搜索结果之后,本公开实施例提供的方法还可以包括:
S104、在检测到用户确定第一页面所在网站为侵权网站的确定操作后,将第一页面所在网站的域名以及该第一页面的网址收录到侵权网站数据库中;其中,侵权网站数据库用于收录经过识别的侵权网站的域名以及该网站下侵权网页的网址。
也就是说,用户在查看了搜索结果之后,需要对搜索结果进行人工鉴别,在展示结果的显示界面上可以具有相应的能够操作的按钮。例如如图2所示,在展示界面中,对于展示的每一个网站及其下的页面都存在判断是否为侵权网站的按钮。若用户触发“是”的操作,则可以将对应的网站以及页面收录到侵权网站数据库中;若用户触发“否”的操作,则可以将该网站对应的记录从展示结果中删除。
通过上述方式,能够不断完善侵权网站数据库中的数据,从而在接收到某网站的访问请求后,能够根据这一数据库中的数据对网站进行相应的操作。具体来说,本公开实施例提供的方法还可以包括:在目标网站的服务器处执行如下步骤,包括:
S105、在检测到未知网站向目标网站发出的调用请求时,判断未知网站的域名是否存在于侵权网站数据库中;
具体来说,首先在目标网站的服务器处会存储有侵权网站数据库,这一数据库可以从鉴别服务器处直接获得,也可以通过其他方式间接获得,本公开实施例对此不作具体限定。接着,当检测到某未知网站向目标网站发出调用请求时,首先判断其域名是否存储于数据库中。
S106、若确定存在,则按如下方式中的任意一种方式执行:
方式一、禁止未知网站调用目标网站,使得未知网站无法打开目标网站的链接;
不难理解的是,若确定存在于侵权网站数据库中,则认为该未知网站已经被标记为侵权网站。而这种侵权网站请求跳转到目标网站的目的一般是为了迷惑访问这一侵权网站的用户,使用户相信该网站为正规网站,能够正常的跳转到另一个已知的正规网站中,进而进行一些违法的行为,给用户带来一定的经济损失。因此在本公开实施例提供的方法中,目标网站对于这一类的侵权网站可以直接禁止其调用,从而使得侵权网站无法打开目标网站的链接,无法跳转到目标网站中。
上述所述的过程对于用户来说其实是无感知的,用户仅能够感知的是通过未知网站无法打开目标网站链接。但在实际情况中,如果用户在不知道什么原因的情况下无法正常打开网页链接,那么用户上网访问网页的体验可能会较差,因此本公开实施例提供的方法还可以提供另一种方式:
方式二、向用户展示告警提示语,该告警提示语用于说明未知网站为侵权网站,还用于说明允许未知网站调用的后果;接收用户触发的对于未知网站的操作,执行对应的操作。
举例来说,图3示出了向用户展示告警提示语的一个示例。由于发送请求的未知网站已被判断为是侵权网站,因此目标网站服务器可以向用户展示如下警示语:“本网站不允许来自于侵权网站的链接调用本功能,由此产生一切后果敬请自负”。从而通过上述警示语告诉用户:当前访问的是一个侵权网站,该侵权网站欲跳转到本网站中,本网站不允许调用,如果用户执意调用,那么用户需要自行承担调用之后可能带来的风险。在警示语的下方还可以设置“是”、“否”两个操作按钮。若用户点击“是”,则允许调用;若用户点击“否”,则不允许调用,目标网站的链接无法打开。
S106’、若确定不存在,则按如下方式中的任意一种方式执行:
方式A、直接允许未知网站调用目标网站;
方式B、向用户展示跳转提示语,该跳转提示语用于说明当前要跳转到目标网站中,询问用户是否继续调用。接着根据用户的操作进行对应的调用操作。
举例来说,图4示出了向用户展示跳转提示语的一个示例。图4的界面中的提示语可以为“当前要跳转到目标网站”,并提示用户是否允许跳转。类似地,在提示语下方可以也存在两个“是”、“否”两个按钮,若用户点击是“是”,则直接跳转到目标网站中;若用户点击是“否”,则目标网站的链接无法打开。
当然,图3以及图4仅为提示界面中一种可选的实施方式,在实际情况中可以有很多方式来进行提示,例如各个操作按钮中的提示语可设置也可以不设置,本公开对此不作具体限定。
以上所指的侵权网站搜索识别方法中的各个步骤可以由一个服务器独立完成,或者也可以由多个服务器配合完成,本公开的实施例不作限定。
第二方面,本公开的实施例提供了一种侵权网站搜索识别装置,可应用于鉴别服务器处,如图5所示,包括:
关键信息确定模块501,用于确定目标网站对应的关键信息,所述关键信息为描述目标网站特定业务的信息;
网页搜索模块502,用于根据所述关键信息,在鉴别服务器上基于专用网络爬虫搜索系统,在网络中搜索第一网页得到搜索结果,所述第一网页包含与所述关键信息相匹配的信息;
结果展示模块503,用于展示所述搜索结果。
其中,这里的鉴别服务器是指专门用于进行疑似侵权网站搜索以及侵权网站域名收录的服务器。
在一些实施方式中,所述关键信息包括关键词信息和/或关键语句信息;
所述关键词信息包括一个关键词或多个关键词的逻辑组合;
所述关键语句信息包括一个关键语句或多个关键语句的逻辑组合。
在一些实施方式中,所述第一网页包含与所述关键信息相匹配的信息是指:
在所述关键信息包含关键词信息时,所述第一网页存在如下情况:
在所述关键词信息为一个关键词时,所述第一网页中包含该关键词或该关键词的近义词;在所述关键词信息为多个关键词的逻辑组合时,所述第一网页中包含该多个关键词或其近义词的逻辑组合;
在所述关键信息包含关键语句信息时,所述第一网页中包含与该关键语句信息相同文字此例达到预设阈值的语句。
在一些实施方式中,所述网页搜索模块502在网络中搜索第一网页的步骤,包括:
在网络内的满足预设条件的网页中搜索第一网页;
所述预设条件包括:
条件一、该网页所在网站的域名没有存储在侵权网站数据库中;或,该网页所在网站的域名已存储在所述侵权网站数据库中但所述网站的域名存储在预设的例外名单中,且该网页没有收录到侵权网站数据库中;
其中,所述侵权网站数据库用于收录经过识别的侵权网站的域名以及该网站下侵权网页的网址,所述例外名单用于存储域名已存储在侵权网站数据库中但仍需对其进行搜索的网站域名;
条件二、该网页所在网站不是目标网站;
以及条件三、当前的搜索结果中不包含与该网页在同一域名下的相关网页。
在一些实施方式中,所述结果展示模块503展示所述搜索结果,包括:
在检测到用户登录到指定的结果查看账户后,按预设规则向该账户展示所述搜索结果;
所述预设规则包括:
若从上次查看结束时刻到本次查看开始时刻之间这一时间段内搜索发现第一网页,则最先展示所述时间段内发现的第一网页所在的网站;若未搜索发现,则显示暂未发现最新;
还包括:将上次查看结束时刻之前发现的第一网页以链接的方式排列展示。
在一些实施方式中,所述装置还包括:
侵权鉴别模块504用于在检测到用户确定所述第一页面所在网站为侵权网站的确定操作后,将所述第一页面所在网站的域名以及该第一页面的网址收录到侵权网站数据库中;
所述侵权网站数据库用于收录经过识别的侵权网站的域名以及该网站下侵权网页的网址。
在一些实施方式中,所述装置还包括设置在所述目标网站的服务器处的域名检测模块505以及调用处理模块506。
所述域名检测模块505,在检测到未知网站向所述目标网站发出的调用请求时,判断所述未知网站的域名是否存在于所述侵权网站数据库中;
若确定存在,则所述调用处理模块506按如下方式中的任意一种方式执行:
方式一、禁止所述未知网站调用所述目标网站,使得所述未知网站无法打开所述目标网站的链接;
方式二、向用户展示告警提示语,所述告警提示语用于说明所述未知网站为侵权网站,还用于说明允许所述未知网站调用的后果;接收用户触发的对于所述未知网站的操作,执行对应的操作。
由于第二方面所介绍的侵权网站搜索识别装置为可以执行本公开实施例中的侵权网站搜索识别方法的装置,故而基于本公开实施例中所介绍的侵权网站搜索识别的方法,本领域所属技术人员能够了解本实施例的侵权网站搜索识别装置的具体实施方式以及其各种变化形式,所以在此对于该侵权网站搜索识别装置如何实现本公开实施例中的侵权网站搜索识别方法不再详细介绍。只要本领域所属技术人员实施本公开实施例中侵权网站搜索识别方法所采用的装置,都属于本申请所欲保护的范围。
第三方面,本公开的实施例提供了一种计算机设备,参见图6,该计算机设备,包括:处理器601(processor)、存储器602(memory)以及总线603;
其中,所述处理器601以及存储器602通过所述总线603完成相互间的通信,所述处理器601用于调用所述存储器602中的程序指令,以执行第一方面实施例所提供的方法。
本公开实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述第一方面实施例所提供的方法。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求此在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本公开的某些部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种侵权网站搜索识别方法,其特征在于,所述方法包括:
确定目标网站对应的关键信息,所述关键信息为描述目标网站特定业务的信息;
根据所述关键信息,基于专用网络爬虫搜索系统,在网络中搜索第一网页得到搜索结果,所述第一网页包含与所述关键信息相匹配的信息;
展示所述搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述关键信息包括关键词信息和/或关键语句信息;
所述关键词信息包括一个关键词或多个关键词的逻辑组合;
所述关键语句信息包括一个关键语句或多个关键语句的逻辑组合。
3.根据权利要求2所述的方法,其特征在于,所述第一网页包含与所述关键信息相匹配的信息是指:
在所述关键信息包含关键词信息时,所述第一网页存在如下情况:
在所述关键词信息为一个关键词时,所述第一网页中包含该关键词或该关键词的近义词;在所述关键词信息为多个关键词的逻辑组合时,所述第一网页中包含该多个关键词或其近义词的逻辑组合;
在所述关键信息包含关键语句信息时,所述第一网页中包含与该关键语句信息相同文字比例达到预设阈值的语句。
4.根据权利要求1所述的方法,其特征在于,在网络中搜索第一网页的步骤,包括:
在网络内的满足预设条件的网页中搜索第一网页;
所述预设条件包括:
条件一、该网页所在网站的域名没有存储在侵权网站数据库中;或,该网页所在网站的域名已存储在所述侵权网站数据库中但所述网站的域名存储在预设的例外名单中,且该网页没有收录到侵权网站数据库中;
其中,所述侵权网站数据库用于收录经过识别的侵权网站的域名以及该网站下侵权网页的网址,所述例外名单用于存储域名已存储在侵权网站数据库中但仍需对其进行搜索的网站域名;
条件二、该网页所在网站不是所述目标网站;
以及条件三、当前的搜索结果中不包含与该网页在同一域名下的相关网页。
5.根据权利要求1所述的方法,其特征在于,所述展示所述搜索结果,包括:
在检测到用户登录到指定的结果查看账户后,按预设规则向该账户展示所述搜索结果;
所述预设规则包括:
若从上次查看结束时刻到本次查看开始时刻之间这一时间段内搜索发现第一网页,则最先展示所述时间段内发现的第一网页所在的网站;若未搜索发现,则显示暂未发现最新;
还包括:将上次查看结束时刻之前发现的第一网页以链接的方式排列展示。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在检测到用户确定所述第一页面所在网站为侵权网站的确定操作后,将所述第一页面所在网站的域名以及该第一页面的网址收录到侵权网站数据库中;
所述侵权网站数据库用于收录经过识别的侵权网站的域名以及该网站下侵权网页的网址。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括在所述目标网站的服务器处执行如下步骤,包括:
在检测到未知网站向所述目标网站发出的调用请求时,判断所述未知网站的域名是否存在于所述侵权网站数据库中;
若确定存在,则按如下方式中的任意一种方式执行:
方式一、禁止所述未知网站调用所述目标网站,使得所述未知网站无法打开所述目标网站的链接;
方式二、向用户展示告警提示语,所述告警提示语用于说明所述未知网站为侵权网站,还用于说明允许所述未知网站调用的后果;接收用户触发的对于所述未知网站的操作,执行对应的操作。
8.一种侵权网站搜索识别装置,其特征在于,应用于鉴别服务器处,所述装置包括:
关键信息确定模块,用于确定目标网站对应的关键信息,所述关键信息为描述目标网站特定业务的信息;
网页搜索模块,用于根据所述关键信息,在鉴别服务器上基于专用网络爬虫搜索系统,在网络中搜索第一网页得到搜索结果,所述第一网页包含与所述关键信息相匹配的信息;
结果展示模块,用于展示所述搜索结果。
9.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810425143.5A CN108664584A (zh) | 2018-05-07 | 2018-05-07 | 侵权网站搜索识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810425143.5A CN108664584A (zh) | 2018-05-07 | 2018-05-07 | 侵权网站搜索识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108664584A true CN108664584A (zh) | 2018-10-16 |
Family
ID=63778085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810425143.5A Pending CN108664584A (zh) | 2018-05-07 | 2018-05-07 | 侵权网站搜索识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108664584A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493259A (zh) * | 2018-10-18 | 2019-03-19 | 上海右上角文化传媒有限公司 | 一种用于通过计算设备处理侵权案件的方法与设备 |
CN110175940A (zh) * | 2019-04-15 | 2019-08-27 | 平安科技(深圳)有限公司 | 维权任务提示方法、装置、计算机设备及存储介质 |
CN112149063A (zh) * | 2020-09-14 | 2020-12-29 | 浙江数秦科技有限公司 | 一种网络图片侵权在线监测方法 |
CN114385870A (zh) * | 2021-12-24 | 2022-04-22 | 北京中知智慧科技有限公司 | 知识产权的侵权检测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728655A (zh) * | 2004-11-25 | 2006-02-01 | 刘文印 | 一种检测鉴别假冒网页的方法及系统 |
CN101539936A (zh) * | 2009-04-30 | 2009-09-23 | 中国工商银行股份有限公司 | 一种假冒网站检测方法及设备 |
US20150200963A1 (en) * | 2012-09-07 | 2015-07-16 | Computer Network Information Center, Chinese Academy Of Sciences | Method for detecting phishing website without depending on samples |
CN105099996A (zh) * | 2014-04-30 | 2015-11-25 | 北京奇虎科技有限公司 | 网站验证方法及装置 |
CN106227746A (zh) * | 2016-07-14 | 2016-12-14 | 看见网络科技(上海)有限公司 | 网络信息处理方法及系统 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
CN107908681A (zh) * | 2017-10-30 | 2018-04-13 | 苏州大学 | 一种相似网站查找方法、系统、设备及介质 |
-
2018
- 2018-05-07 CN CN201810425143.5A patent/CN108664584A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728655A (zh) * | 2004-11-25 | 2006-02-01 | 刘文印 | 一种检测鉴别假冒网页的方法及系统 |
CN101539936A (zh) * | 2009-04-30 | 2009-09-23 | 中国工商银行股份有限公司 | 一种假冒网站检测方法及设备 |
US20150200963A1 (en) * | 2012-09-07 | 2015-07-16 | Computer Network Information Center, Chinese Academy Of Sciences | Method for detecting phishing website without depending on samples |
CN105099996A (zh) * | 2014-04-30 | 2015-11-25 | 北京奇虎科技有限公司 | 网站验证方法及装置 |
CN106227746A (zh) * | 2016-07-14 | 2016-12-14 | 看见网络科技(上海)有限公司 | 网络信息处理方法及系统 |
CN107800679A (zh) * | 2017-05-22 | 2018-03-13 | 湖南大学 | 假冒学术期刊网站的检测方法 |
CN107908681A (zh) * | 2017-10-30 | 2018-04-13 | 苏州大学 | 一种相似网站查找方法、系统、设备及介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493259A (zh) * | 2018-10-18 | 2019-03-19 | 上海右上角文化传媒有限公司 | 一种用于通过计算设备处理侵权案件的方法与设备 |
CN109493259B (zh) * | 2018-10-18 | 2024-03-05 | 上海右云信息技术有限公司 | 一种用于通过计算设备处理侵权案件的方法与设备 |
CN110175940A (zh) * | 2019-04-15 | 2019-08-27 | 平安科技(深圳)有限公司 | 维权任务提示方法、装置、计算机设备及存储介质 |
CN112149063A (zh) * | 2020-09-14 | 2020-12-29 | 浙江数秦科技有限公司 | 一种网络图片侵权在线监测方法 |
CN114385870A (zh) * | 2021-12-24 | 2022-04-22 | 北京中知智慧科技有限公司 | 知识产权的侵权检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664584A (zh) | 侵权网站搜索识别方法及装置 | |
US11196746B2 (en) | Whitelisting of trusted accessors to restricted web pages | |
US8359651B1 (en) | Discovering malicious locations in a public computer network | |
US7962756B2 (en) | Method and apparatus for providing automatic generation of webpages | |
CN103744802B (zh) | Sql注入攻击的识别方法及装置 | |
US20140222404A1 (en) | Computer-implemented psuedo-browsing | |
CN104471582B (zh) | 对搜索引擎跟踪的防御 | |
CN104268476B (zh) | 一种运行应用程序的方法 | |
CN101714272B (zh) | 一种保护银行卡号及口令不被网络钓鱼网站窃取的方法 | |
US20090216868A1 (en) | Anti-spam tool for browser | |
Aliero et al. | Systematic review analysis on SQLIA detection and prevention approaches | |
US10440092B2 (en) | Alert generation based on proximate events identified by source data analytics | |
Gandotra et al. | Improving spoofed website detection using machine learning | |
CN107688743A (zh) | 一种恶意程序的检测分析方法及系统 | |
CN107426243A (zh) | 一种网络安全防护方法及装置 | |
CN106250761B (zh) | 一种识别web自动化工具的设备、装置及方法 | |
CN107239701A (zh) | 识别恶意网站的方法及装置 | |
CN107800686A (zh) | 一种钓鱼网站识别方法和装置 | |
Tene | A new Harm Matrix for cybersecurity surveillance | |
CN104615695B (zh) | 一种恶意网址的检测方法及系统 | |
CN104506529B (zh) | 网站防护方法和装置 | |
JP6040398B2 (ja) | 情報提供装置、方法およびプログラム | |
US10313127B1 (en) | Method and system for detecting and alerting users of device fingerprinting attempts | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 | |
Mider et al. | The Internet Data Collection with the Google Hacking Tool–White, Grey or Black Open-Source Intelligence? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
DD01 | Delivery of document by public notice |
Addressee: Qin Deyu Document name: Notification that Application Deemed not to be Proposed |
|
DD01 | Delivery of document by public notice | ||
DD01 | Delivery of document by public notice |
Addressee: Qin Deyu Document name: Notification of Passing Preliminary Examination of the Application for Invention |
|
DD01 | Delivery of document by public notice | ||
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181016 |
|
WD01 | Invention patent application deemed withdrawn after publication |