CN110929129A - 一种信息检测方法、设备及机器可读存储介质 - Google Patents

一种信息检测方法、设备及机器可读存储介质 Download PDF

Info

Publication number
CN110929129A
CN110929129A CN201811007819.5A CN201811007819A CN110929129A CN 110929129 A CN110929129 A CN 110929129A CN 201811007819 A CN201811007819 A CN 201811007819A CN 110929129 A CN110929129 A CN 110929129A
Authority
CN
China
Prior art keywords
website
information
detected
client
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811007819.5A
Other languages
English (en)
Other versions
CN110929129B (zh
Inventor
何伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811007819.5A priority Critical patent/CN110929129B/zh
Publication of CN110929129A publication Critical patent/CN110929129A/zh
Application granted granted Critical
Publication of CN110929129B publication Critical patent/CN110929129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种信息检测方法、设备及机器可读存储介质,该方法包括:客户端从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端的特征信息,从网站集合中选择的;所述客户端根据所述检测信息检测所述待检测网站是否存在非法信息;如果存在非法信息,则所述客户端获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。通过本申请的技术方案,可以节约服务器资源,可以在用户浏览网页时进行自动检测,提升了检测效率。

Description

一种信息检测方法、设备及机器可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种信息检测方法、设备及机器可读存储介质。
背景技术
随着互联网业务的快速发展,互联网上的非法信息越来越多,对于互联网提供商来说,需要对网站内容进行监管,以履行监管责任,打击互联网非法信息,为社会营造一个良好的互联网环境。目前,为了检测互联网上的非法信息,可以搭建爬虫系统,并通过爬虫来爬取网页内容,继而进行非法信息的检测。
但是,在上述方式中,针对需要登录才能够访问的网站,将无法进行非法信息的检测。而且,面对海量网站,上述方式需要消耗大量的服务器资源。
发明内容
本申请提供一种信息检测方法,所述方法包括:
客户端从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端的特征信息,从网站集合中选择的;
所述客户端根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则所述客户端获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
本申请提供一种客户端设备,所述客户端设备包括:
处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:
从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端设备的特征信息,从网站集合中选择的;
根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
本申请提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:
从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端设备的特征信息,从网站集合中选择的;
根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
基于上述技术方案,本申请实施例中,可以从网站集合中选择与客户端匹配的待检测网站,由客户端对待检测网站进行非法信息的检测,不需要服务器对海量网站进行非法信息的检测,节约服务器资源。客户端可以登录到待检测网站,从待检测网站获取页面内容,继而对页面内容进行非法信息的检测,这样,可以对需要登录才能够访问的网站进行非法信息的检测。可以在用户浏览网页时进行自动检测,不需要用户人工检测非法信息,提升了检测效率。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。
图1是本申请一种实施方式中的应用场景示意图;
图2是本申请一种实施方式中的信息检测方法的流程图;
图3是本申请一种实施方式中的信息检测装置的结构图。
具体实施方式
在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请实施例中提出一种信息检测方法,该方法用于检测网站是否存在非法信息,该方法可以应用于包括客户端和服务器的系统。参见图1所示,为该系统的结构示意图,该系统可以包括客户端、服务器、平台数据库和网站等。
其中,客户端可以是终端设备(例如,PC(Personal Computer,个人计算机)、笔记本电脑、移动终端、智能手机等)运行的浏览器,也可以是终端设备运行的APP(Application,应用程序),对此客户端的类型不做限制。例如,若客户端是浏览器,可以通过在浏览器安装插件,从而实现非法信息的检测功能;或者,若客户端是APP,则可以通过升级APP,从而实现非法信息检测功能。
其中,服务器是互联网提供商的设备,可以是志愿者平台、数据平台、电商平台等,对此服务器的类型不做限制,用于检测网站是否存在非法信息。
参见图2所示,为本实施例的信息检测方法的流程图,该方法可以包括:
步骤201,服务器获取网站集合,该网站集合包括多个网站。
具体的,平台数据库可以维护网站集合(也可以称为网站列表),该网站集合可以包括多个网站,基于此,服务器可以从平台数据库获取该网站集合。
步骤202,服务器获取该网站集合中的每个网站的属性信息。
其中,该属性信息可以包括但不限于以下之一或者任意组合:区域信息、语种信息、类型信息。当然,上述信息只是几个示例,对此不做限制。
例如,服务器在从平台数据库获取网站集合时,针对该网站集合中的每个网站,该网站集合还可以包括该网站的访客IP地址。基于此,服务器通过对网站的访客IP地址进行分析,可以确定该网站的区域信息。例如,该网站的访客IP地址大多数是北京的IP地址时,则可以确定该网站的区域信息是北京。
服务器在从平台数据库获取网站集合时,针对网站集合中的每个网站,该网站集合还可以包括该网站的URL(Uniform Resource Locator,统一资源定位符)信息。服务器可以利用该URL信息访问该网站的首页或者导航页面,并从该网站的首页或者导航页面获取该网站的页面内容,如通过爬虫等方式从该网站的首页或者导航页面获取该网站的页面内容,继而通过页面内容分析该网站的语种信息。例如,该网站的首页的页面内容是维文,则该网站的语种信息是维语;该网站的首页的页面内容是英文,则该网站的语种信息是英语。
服务器在从平台数据库获取网站集合时,针对网站集合中的每个网站,该网站集合还可以包括该网站的URL信息。服务器可以利用该URL信息访问该网站的首页或者导航页面,并从该网站的首页或者导航页面获取该网站的页面内容,如通过爬虫等方式从该网站的首页或者导航页面获取该网站的页面内容,继而通过页面内容分析该网站的类型信息。例如,该网站的首页的页面内容与娱乐有关,则该网站的类型信息是娱乐;该网站的首页的页面内容与体育有关,则该网站的类型信息是体育。当然,上述只是类型信息的示例,对此不做限制。
经过上述处理,服务器就可以得到网站集合中的每个网站的区域信息、语种信息、类型信息等,并记录该网站的区域信息、语种信息、类型信息等。
步骤203,服务器获取与客户端匹配的特征信息。
其中,该特征信息可以包括但不限于以下之一或者任意组合:区域偏好、语言能力、浏览偏好。当然,上述信息只是几个示例,对此不做限制。
具体的,当用户(也就是志愿者)打开客户端后,客户端可以采集用户的浏览历史,并利用该浏览历史分析用户的区域偏好、语言能力、浏览偏好等特征信息,对此分析过程不做限制。例如,若利用浏览历史分析出用户习惯浏览北京的地区性论坛,则可以确定用户的区域偏好是北京。又例如,若利用浏览历史分析出用户习惯浏览维文页面,则可以确定用户的语言能力是维文。又例如,若利用浏览历史分析出用户习惯浏览娱乐性页面,则可以确定用户的浏览偏好是娱乐。当然,上述只是几个示例,对此不做限制。
然后,客户端可以将区域偏好、语言能力、浏览偏好等发送给服务器,以使服务器获取与该客户端匹配的区域偏好、语言能力、浏览偏好等特征信息。
在另一个例子中,客户端在采集用户的浏览历史后,还可以将该浏览历史发送给服务器,这样,服务器可以利用该浏览历史分析用户的区域偏好、语言能力、浏览偏好等特征信息,对此分析过程不做限制。基于此,服务器就可以得到与该客户端匹配的区域偏好、语言能力、浏览偏好等特征信息。
在另一个例子中,用户可以将自身的区域偏好、语言能力、浏览偏好等输入给客户端,这样,客户端不需要利用浏览历史分析用户的区域偏好、语言能力、浏览偏好,而是直接得到用户的区域偏好、语言能力、浏览偏好。然后,客户端可以将区域偏好、语言能力、浏览偏好等发送给服务器,以使服务器获取与该客户端匹配的区域偏好、语言能力、浏览偏好等特征信息。
在另一个例子中,客户端采集用户的浏览历史,并利用该浏览历史分析用户的区域偏好、语言能力、浏览偏好后,还可以提示用户对本次上传行为进行授权;若用户对本次上传行为进行授权,且用户未对这些信息进行修改,则客户端可以将区域偏好、语言能力、浏览偏好等发送给服务器;若用户对本次上传行为进行授权,且用户对这些信息进行修改,则客户端可以将修改后的区域偏好、语言能力、浏览偏好等发送给服务器。基于此,服务器可以获取与该客户端匹配的区域偏好、语言能力、浏览偏好等特征信息。
步骤204,服务器根据该属性信息和该特征信息,从网站集合中选择待检测网站。具体的,可以根据网站集合中的每个网站的属性信息从网站集合中选择与该特征信息匹配的网站,并将选择的网站确定为客户端对应的待检测网站。
其中,与该特征信息匹配的网站可以为一个网站或者多个网站,也就是说,客户端对应的待检测网站可以为一个网站或者多个网站,对此不做限制。
在一个例子中,若该属性信息包括区域信息,且该特征信息包括区域偏好,则服务器可以根据该区域信息从网站集合的多个网站中,选择与该区域偏好匹配的网站,并将选择的网站确定为客户端对应的待检测网站。若该属性信息包括语种信息,且该特征信息包括语言能力,则服务器可以根据该语种信息从网站集合的多个网站中,选择与该语言能力匹配的网站,并将选择的网站确定为客户端对应的待检测网站。若该属性信息包括类型信息,且该特征信息包括浏览偏好,则服务器可以根据该类型信息从网站集合的多个网站中,选择与该浏览偏好匹配的网站,并将选择的网站确定为客户端对应的待检测网站。
当然,上述方式只是待检测网站的几个选择方式,对此选择方式不做限制。例如,若该属性信息包括区域信息、语种信息、类型信息,且该特征信息包括区域偏好、语言能力、浏览偏好,则服务器可以根据该类型信息、该语种信息、该类型信息从网站集合的多个网站中,选择与该区域偏好、该语言能力、该浏览偏好匹配的网站,并将选择的网站确定为客户端对应的待检测网站。
在实际应用中,可以存在大量客户端,每个客户端的处理过程相同,为了方便描述,后续以一个客户端的处理过程为例,对本实施例的方案进行说明。
例如,若客户端A的区域偏好是“北京”,则基于该网站集合中的每个网站的区域信息,服务器可以确定区域信息是北京的网站,而区域信息是北京的网站,就可以是与区域偏好“北京”匹配的网站,而且,服务器可以从这些网站中选择一个或者多个网站,并将选择的网站确定为客户端A对应的待检测网站。
又例如,若客户端A的语言能力是“维文”,则基于该网站集合中的每个网站的语种信息,服务器可以确定语种信息是维文的网站,而语种信息是维文的网站,就是与语言能力“维文”匹配的网站,而且,服务器可以从这些网站中选择一个或者多个网站,并将选择的网站确定为客户端A对应的待检测网站。
又例如,若客户端A的浏览偏好是“娱乐”,则基于该网站集合中的每个网站的类型信息,服务器可以确定类型信息是娱乐的网站,而类型信息是娱乐的网站,就是与浏览偏好“娱乐”匹配的网站,而且,服务器可以从这些网站中选择一个或者多个网站,并将选择的网站确定为客户端A对应的待检测网站。
又例如,若客户端A的区域偏好是北京、语言能力是维文、浏览偏好是娱乐,则基于网站集合中的每个网站的区域信息、语种信息、类型信息,可以确定区域信息是北京、语种信息是维文、类型信息是娱乐的网站,从确定的网站中选择一个或者多个网站,将选择的网站确定为客户端A对应的待检测网站。
综上所述,服务器可以根据客户端的区域偏好、语言能力、浏览偏好,统筹分配待检测网站,以保证客户端尽可能检测与自己的区域偏好、语言能力、浏览偏好相匹配的网站。这样,可以提高检测效率,提高用户的检测体验。
在一个例子中,服务器根据该属性信息和该特征信息,从网站集合中选择待检测网站时,针对网站集合中的大量网站,可以将不同的网站分配给不同的客户端,这样,可以避免多个客户端重复检查相同的网站,避免大量重复工作。
在一个例子中,服务器根据该属性信息和该特征信息,从网站集合中选择待检测网站时,针对网站集合中的大量网站,可以将所有网站均分配给各个客户端,这样,可以避免某些网站没有对应客户端,从而导致无法检测的问题。
步骤205,服务器将该待检测网站对应的检测信息发送给客户端。
步骤206,客户端从服务器获取待检测网站的检测信息。其中,待检测网站是服务器根据网站的属性信息和客户端的特征信息,从网站集合中选择的。
步骤207,客户端根据该检测信息检测该待检测网站是否存在非法信息。
其中,该检测信息可以包括但不限于URL信息和检测关键词;例如,服务器将网站1和网站2确定为客户端的待检测网站后,该检测信息可以包括网站1的URL信息、网站2的URL信息、检测关键词(如关键词1-关键词10等)。
具体的,客户端可以从该URL信息对应的待检测网站获取页面内容,并利用该检测关键词对该页面内容进行检测,以确定待检测网站是否存在非法信息。例如,检测关键词可以是非法信息的关键词,如一个或多个检测关键词,当页面内容包括部分或全部检测关键词时,客户端确定该页面内容存在非法信息。
客户端根据该检测信息检测该待检测网站是否存在非法信息,可以包括:
步骤2071,客户端从该URL信息对应的该待检测网站获取页面内容。
具体的,若该URL信息对应的待检测网站,是需要登录授权才能够访问的网站,则客户端可以登录到该待检测网站,从该待检测网站获取页面内容。或者,若该URL信息对应的待检测网站,不是需要登录授权才能够访问的网站,则客户端可以不登录到该待检测网站,直接从该待检测网站获取页面内容。
其中,客户端登录到该待检测网站,可以包括但不限于:客户端获取用户在客户端输入的身份信息(如用户名和密码等),并利用该身份信息登录到该待检测网站;具体的,用户可以在客户端输入该待检测网站的用户名和密码,使得客户端登录待检测网站。或者,客户端获取预先配置的身份信息,并利用预先配置的身份信息登录到该待检测网站;具体的,用户可以在客户端预先配置待检测网站的用户名和密码,这样,在对待检测网站进行非法信息的检测时,不需要用户在客户端输入待检测网站的用户名和密码,客户端可以利用预先配置的用户名和密码自动登录待检测网站,提高用户的使用感受。
其中,客户端从该待检测网站获取页面内容,可以包括但不限于:在用户通过客户端浏览该待检测网站的过程中,客户端获取该待检测网站的页面内容;或者,若用户授权客户端进行自动检测,即使用户未浏览该待检测网站,客户端也可以自动浏览该待检测网站,并获取该待检测网站的页面内容。
步骤2072,客户端对该页面内容进行分词处理,得到多个词语。
具体的,上述检测信息还可以包括分词策略,因此,客户端可以根据该分词策略对该页面内容进行分词处理,得到多个词语。当然,上述只是一个示例,客户端还可以采用其它方式对该页面内容进行分词处理,对此不做限制。
其中,该分词策略表示如何对页面内容进行分词,对此分词策略不做限制,只要利用该分词策略能够实现页面内容的分词处理即可。例如,分词策略可以为字符串匹配、正向匹配、逆向匹配、最大化匹配、最小化匹配等。
步骤2073,客户端确定该词语与该检测关键词的相似度。
具体的,上述检测信息还可以包括相似度比较策略,因此,客户端可以根据该相似度比较策略确定该词语与检测关键词的相似度。当然,上述只是一个示例,客户端还可以采用其它方式确定该词语与该检测关键词的相似度。
其中,该相似度比较策略表示如何对词语与检测关键词进行相似度比较,对此相似度比较策略不做限制,只要根据该相似度比较策略能够确定词语与检测关键词的相似度理即可。例如,相似度比较策略可以为word2vec等。
步骤2074,客户端根据该相似度检测该待检测网站是否存在非法信息。
具体的,基于每个词语与该检测关键词的相似度,客户端可以统计出相似度大于预设第一阈值(可以根据经验配置)的相似度数量;若所述相似度数量大于预设第二阈值(可以根据经验配置),则确定该待检测网站存在非法信息。
例如,客户端对页面内容进行分词处理后,可以得到词语1-词语100,检测关键词可以包括关键词1-关键词10,客户端可以确定词语1与关键词1的相似度,词语1与关键词2的相似度,以此类推,词语100与关键词10的相似度等。
然后,客户端可以依次判断每个相似度是否大于预设第一阈值(如80%),如果大于预设第一阈值,则表示词语与检测关键词比较相似,可能是非法信息。这样,客户端可以从所有相似度中统计出大于预设第一阈值的相似度数量。
进一步的,若该相似度数量大于预设第二阈值(如5等),则说明页面内容存在多个与检测关键词相似的词语,客户端可以确定页面内容存在非法信息。
当然,上述步骤2071-步骤2074只是对页面内容进行检测的示例,对此不做限制,所有利用检测关键词进行检测的方式,均在本实施例保护范围内。
在一个例子中,客户端根据该检测信息检测该待检测网站是否存在非法信息,还可以包括但不限于:基于限制条件(可以为预先配置),客户端根据该检测信息检测该待检测网站是否存在非法信息。其中,该限制条件可以包括但不限于以下之一或任意组合:时间限制条件、并发数限制条件、带宽限制条件。
具体的,若限制条件包括时间限制条件,则客户端根据时间限制条件确定检测时间段;判断当前时间是否位于该检测时间段内,如果是,则根据该检测信息检测该待检测网站是否存在非法信息。例如,用户可以设置时间限制条件为时间段A(如每天的0点~6点),这样,基于该时间限制条件,客户端可以在时间段A,可以根据该检测信息检测该待检测网站是否存在非法信息,而时间段A之外的其它时间段,不再对待检测网站进行非法信息的检测。
若限制条件包括并发数限制条件,则客户端根据该并发数限制条件确定最大并发数;判断当前并发数是否已经达到最大并发数,如果否,则根据该检测信息检测该待检测网站是否存在非法信息。例如,用户可以设置并发数限制条件为并发数B(如并发数5),这样,基于该并发数限制条件,客户端判断当前并发数是否已经达到并发数B,如果否,则根据该检测信息检测该待检测网站是否存在非法信息,如果是,则不再对待检测网站进行非法信息的检测。
若限制条件包括带宽限制条件,则客户端可以根据该带宽限制条件确定最大带宽;判断当前使用带宽是否已经达到最大带宽,则可以根据该检测信息检测该待检测网站是否存在非法信息。例如,用户可以设置带宽限制条件为带宽C(如最大的带宽5M),这样,基于该带宽限制条件,客户端可以判断当前使用带宽是否已经达到带宽C,如果否,则根据该检测信息检测该待检测网站是否存在非法信息,如果是,则不再对待检测网站进行非法信息的检测。
综上所述,客户端根据检测信息检测待检测网站是否存在非法信息时,基于时间限制条件、并发数限制条件、带宽限制条件等限制条件,可以保证用户的正常工作不受非法信息检测业务的干扰,可以提高用户的业务体验。而且,还可以通过用户闲置的计算和带宽资源进行检测,避免资源浪费。
步骤208,如果存在非法信息(即上述待检测网站存在非法信息),则客户端获取该待检测网站的存在非法信息的证据,并将携带该证据的举报消息发送给服务器。这样,服务器就可以根据该举报消息确定待检测网站存在非法信息。
其中,该证据可以包括但不限于:该待检测网站的URL信息、页面内容的数据摘要、页面内容的数据明细、页面内容的图片等,对此不做限制。
在一个例子中,客户端在获取到证据后,可以直接将携带该证据的举报消息发送给服务器;或者,客户端可以基于获取的证据,获取用户的授权;根据用户的授权,生成举报消息;将举报消息发送给所述服务器;具体的,可以将该证据提供给用户,并获取用户授权发送的证据(如上述证据的部分或者全部),然后,客户端可以向服务器发送携带用户授权发送的证据的举报消息。
其中,用户可以授权客户端发送哪些信息,如只发送该待检测网站的URL信息、页面内容的数据摘要,而不发送页面内容的数据明细、页面内容的图片。
在一个例子中,客户端还可以根据检测分值估算自动检测的准确率,例如,在根据相似度确定页面内容是否存在非法信息时,若相似度大于预设第一阈值的词语越多,则说明检测分值越高,自动检测的准确率也越高,反之,若相似度大于预设第一阈值的词语越少,则说明检测分值越低,自动检测的准确率也越低。当然,上述只是根据检测分值估算自动检测的准确率的示例,对此不做限制。进一步的,针对自动检测的准确率较低的待检测网站,还可以由用户人工判定该待检测网站是否存在非法信息,具体的判定方式在此不再赘述。
在一个例子中,服务器将待检测网站对应的检测信息发送给客户端时,该检测信息可以只包括待检测网站的URL信息,用户可以根据该URL信息在待检测网站进行注册,然后,用户可以通过客户端将用户名和密码等提供给服务器,由服务器根据用户名和密码登录到待检测网站,并根据该待检测网站的检测信息对该待检测网站进行非法信息的检测,具体检测方式不再赘述。
综上所述,客户端可以对待检测网站进行自动检测,并分析待检测网站是否存在非法信息(非法信息也可以称为有害信息),不需要用户人工分析待检测网站是否存在非法信息,从而极大的提升检测效率,提高使用体验。
在一个例子中,上述执行顺序只是为了方便描述给出的一个示例,在实际应用中,还可以改变步骤之间的执行顺序,对此执行顺序不做限制。而且,在其它实施例中,并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其它实施例中可能被分解为多个步骤进行描述;本说明书中所描述的多个步骤,在其它实施例也可能被合并为单个步骤进行描述。
基于上述技术方案,本申请实施例中,可以从网站集合中选择与客户端匹配的待检测网站,由客户端对待检测网站进行非法信息的检测,不需要服务器对海量网站进行非法信息的检测,节约服务器资源。而且,客户端可以登录到待检测网站,并从待检测网站获取页面内容,继而对页面内容进行非法信息的检测,这样,可以对需要登录才能够访问的网站进行非法信息的检测。可以在用户浏览网页时进行自动检测,不需要用户人工检测非法信息,提升了检测效率。而且,上述方式能够根据网站的属性信息和客户端的特征信息,为客户端选择匹配的待检测网站,这样,待检测网站能够与客户端相匹配,使得客户端能够更有效的对待检测网站进行非法信息的检测,可以适应更多用户的日常习惯、降低用户的学习成本,并保证网站自动浏览检测的良好兼容性,进一步提高了检测效率。而且,客户端检测到非法信息后,自动截取证据并上传服务器,避免大量无效举报和非法信息的遗漏,进一步提升用户的效率。
基于与上述方法同样的申请构思,本申请实施例中还提供一种信息检测装置,如图3所示,为所述信息检测装置的结构图,所述信息检测装置包括:
获取模块31,用于从服务器获取待检测网站的检测信息;所述待检测网站是所述服务器根据网站的属性信息和所述客户端设备的特征信息,从网站集合中选择的;检测模块32,用于根据所述检测信息检测所述待检测网站是否存在非法信息;发送模块33,用于当存在非法信息时,则获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
基于与上述方法同样的申请构思,本申请实施例还提供一种客户端设备,所述客户端设备包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:
从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端设备的特征信息,从网站集合中选择的;
根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
所述检测信息包括统一资源定位符URL信息和检测关键词;所述处理器根据所述检测信息检测所述待检测网站是否存在非法信息时具体用于:
从所述URL信息对应的所述待检测网站获取页面内容;
对所述页面内容进行分词处理,得到多个词语;
确定所述词语与所述检测关键词的相似度;
根据所述相似度检测所述待检测网站是否存在非法信息。
所述处理器根据所述检测信息检测所述待检测网站是否存在非法信息时用于:基于限制条件,根据所述检测信息检测所述待检测网站是否存在非法信息。
所述处理器基于限制条件,根据所述检测信息检测所述待检测网站是否存在非法信息时具体用于:若所述限制条件包括时间限制条件,根据所述时间限制条件确定检测时间段;判断当前时间是否位于所述检测时间段内,如果是,则根据所述检测信息检测所述待检测网站是否存在非法信息;或者,
若所述限制条件包括并发数限制条件,根据所述并发数限制条件确定最大并发数;判断当前并发数是否已经达到所述最大并发数,如果否,则根据所述检测信息检测所述待检测网站是否存在非法信息;或者,
若所述限制条件包括带宽限制条件,根据所述带宽限制条件确定最大带宽;判断当前使用带宽是否已经达到所述最大带宽,如果否,则根据所述检测信息检测所述待检测网站是否存在非法信息。
本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:
从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端设备的特征信息,从网站集合中选择的;
根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种信息检测方法,其特征在于,所述方法包括:
客户端从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端的特征信息,从网站集合中选择的;
所述客户端根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则所述客户端获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
2.根据权利要求1所述的方法,其特征在于,
所述检测信息包括统一资源定位符URL信息和检测关键词;所述客户端根据所述检测信息检测所述待检测网站是否存在非法信息,包括:
所述客户端从所述URL信息对应的所述待检测网站获取页面内容;
所述客户端对所述页面内容进行分词处理,得到多个词语;
所述客户端确定所述词语与所述检测关键词的相似度;
所述客户端根据所述相似度检测所述待检测网站是否存在非法信息。
3.根据权利要求2所述的方法,其特征在于,
所述客户端从所述URL信息对应的所述待检测网站获取页面内容,包括:
若所述URL信息对应的待检测网站是需要登录授权才能够访问的网站,则所述客户端登录到所述待检测网站,并从所述待检测网站获取页面内容;
其中,所述客户端登录到所述待检测网站,包括:获取用户在所述客户端输入的身份信息,利用所述身份信息登录到所述待检测网站;或者,获取预先配置的身份信息,利用所述预先配置的身份信息登录到所述待检测网站。
4.根据权利要求2所述的方法,其特征在于,
所述检测信息还包括分词策略和相似度比较策略;
所述客户端对所述页面内容进行分词处理,得到多个词语,包括:所述客户端根据所述分词策略对所述页面内容进行分词处理,得到多个词语;
所述客户端确定所述词语与所述检测关键词的相似度,包括:所述客户端根据所述相似度比较策略确定所述词语与所述检测关键词的相似度。
5.根据权利要求2所述的方法,其特征在于,
所述客户端根据所述相似度检测所述待检测网站是否存在非法信息,包括:
基于所述词语与所述检测关键词的相似度,所述客户端统计出相似度大于预设第一阈值的相似度数量;若所述相似度数量大于预设第二阈值,则所述客户端确定所述待检测网站存在非法信息。
6.根据权利要求1所述的方法,其特征在于,所述客户端根据所述检测信息检测所述待检测网站是否存在非法信息,具体包括:基于限制条件,所述客户端根据所述检测信息检测所述待检测网站是否存在非法信息。
7.根据权利要求6所述的方法,其特征在于,基于限制条件,所述客户端根据所述检测信息检测所述待检测网站是否存在非法信息,包括:
若所述限制条件包括时间限制条件,所述客户端根据所述时间限制条件确定检测时间段;所述客户端判断当前时间是否位于所述检测时间段内,如果是,则根据所述检测信息检测所述待检测网站是否存在非法信息;或者,
若所述限制条件包括并发数限制条件,所述客户端根据所述并发数限制条件确定最大并发数;所述客户端判断当前并发数是否已经达到所述最大并发数,如果否,则根据所述检测信息检测所述待检测网站是否存在非法信息;或者,
若所述限制条件包括带宽限制条件,所述客户端根据所述带宽限制条件确定最大带宽;所述客户端判断当前使用带宽是否已经达到所述最大带宽,如果否,则根据所述检测信息检测所述待检测网站是否存在非法信息。
8.根据权利要求1所述的方法,其特征在于,
所述客户端将携带所述证据的举报消息发送给所述服务器,包括:
所述客户端基于获取的所述证据,获取用户的授权;
根据用户的授权,生成举报消息;
将所述举报消息发送给所述服务器。
9.根据权利要求1所述的方法,其特征在于,
所述属性信息包括以下之一或任意组合:区域信息、语种信息、类型信息;所述特征信息包括以下之一或者任意组合:区域偏好、语言能力、浏览偏好。
10.一种客户端设备,其特征在于,所述客户端设备包括:
处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:
从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端设备的特征信息,从网站集合中选择的;
根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
11.根据权利要求10所述的客户端设备,其特征在于,
所述检测信息包括统一资源定位符URL信息和检测关键词;所述处理器根据所述检测信息检测所述待检测网站是否存在非法信息时具体用于:
从所述URL信息对应的所述待检测网站获取页面内容;
对所述页面内容进行分词处理,得到多个词语;
确定所述词语与所述检测关键词的相似度;
根据所述相似度检测所述待检测网站是否存在非法信息。
12.根据权利要求10所述的客户端设备,其特征在于,所述处理器根据所述检测信息检测所述待检测网站是否存在非法信息时具体用于:
基于限制条件,根据所述检测信息检测所述待检测网站是否存在非法信息。
13.根据权利要求12所述的客户端设备,其特征在于,所述处理器基于限制条件,根据所述检测信息检测所述待检测网站是否存在非法信息时具体用于:
若所述限制条件包括时间限制条件,根据所述时间限制条件确定检测时间段;判断当前时间是否位于所述检测时间段内,如果是,则根据所述检测信息检测所述待检测网站是否存在非法信息;或者,
若所述限制条件包括并发数限制条件,根据所述并发数限制条件确定最大并发数;判断当前并发数是否已经达到所述最大并发数,如果否,则根据所述检测信息检测所述待检测网站是否存在非法信息;或者,
若所述限制条件包括带宽限制条件,根据所述带宽限制条件确定最大带宽;判断当前使用带宽是否已经达到所述最大带宽,如果否,则根据所述检测信息检测所述待检测网站是否存在非法信息。
14.一种机器可读存储介质,其特征在于,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:
从服务器获取待检测网站的检测信息;其中,所述待检测网站是所述服务器根据网站的属性信息和所述客户端设备的特征信息,从网站集合中选择的;
根据所述检测信息检测所述待检测网站是否存在非法信息;
如果存在非法信息,则获取所述待检测网站存在非法信息的证据,并将携带所述证据的举报消息发送给所述服务器。
CN201811007819.5A 2018-08-31 2018-08-31 一种信息检测方法、设备及机器可读存储介质 Active CN110929129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811007819.5A CN110929129B (zh) 2018-08-31 2018-08-31 一种信息检测方法、设备及机器可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811007819.5A CN110929129B (zh) 2018-08-31 2018-08-31 一种信息检测方法、设备及机器可读存储介质

Publications (2)

Publication Number Publication Date
CN110929129A true CN110929129A (zh) 2020-03-27
CN110929129B CN110929129B (zh) 2023-12-26

Family

ID=69854943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811007819.5A Active CN110929129B (zh) 2018-08-31 2018-08-31 一种信息检测方法、设备及机器可读存储介质

Country Status (1)

Country Link
CN (1) CN110929129B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460103A (zh) * 2020-03-31 2020-07-28 网易(杭州)网络有限公司 一种信息检测方法、装置、电子设备和存储介质
CN112330463A (zh) * 2020-11-27 2021-02-05 杭州安恒信息技术股份有限公司 一种理财网站合法资质检测方法、装置、设备及介质
CN112634090A (zh) * 2020-12-15 2021-04-09 深圳市彬讯科技有限公司 家装信息举报管理方法、系统、计算机设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306819A1 (en) * 2009-05-29 2010-12-02 Ebay Inc. Interactive phishing detection (ipd)
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN102498486A (zh) * 2009-09-10 2012-06-13 摩托罗拉移动公司 内容提供商网站交互的系统、服务器和移动设备及其方法
CN102724186A (zh) * 2012-06-06 2012-10-10 珠海市君天电子科技有限公司 一种钓鱼网站检测系统和检测方法
CN102891861A (zh) * 2012-10-29 2013-01-23 珠海市君天电子科技有限公司 一种基于客户端的钓鱼网站检测方法及其装置
CN102932207A (zh) * 2012-11-19 2013-02-13 北京奇虎科技有限公司 监测网站访问信息的方法及服务器
WO2014063520A1 (zh) * 2012-10-25 2014-05-01 北京奇虎科技有限公司 一种判断钓鱼网站的方法及装置
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
US20140380480A1 (en) * 2013-06-25 2014-12-25 Tencent Technology (Shenzhen) Company Limited Method, device and system for identifying harmful websites
CN104935605A (zh) * 2015-06-30 2015-09-23 北京奇虎科技有限公司 钓鱼网站的检测方法、装置及系统
CN106161453A (zh) * 2016-07-21 2016-11-23 南京邮电大学 一种基于历史信息的SSLstrip防御方法
CN107436890A (zh) * 2016-05-26 2017-12-05 阿里巴巴集团控股有限公司 一种网站类型的检测方法及装置
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN108322441A (zh) * 2017-12-29 2018-07-24 广州斯马特信息科技有限公司 网站安全性检测方法和系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306819A1 (en) * 2009-05-29 2010-12-02 Ebay Inc. Interactive phishing detection (ipd)
CN102498486A (zh) * 2009-09-10 2012-06-13 摩托罗拉移动公司 内容提供商网站交互的系统、服务器和移动设备及其方法
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN102724186A (zh) * 2012-06-06 2012-10-10 珠海市君天电子科技有限公司 一种钓鱼网站检测系统和检测方法
WO2014063520A1 (zh) * 2012-10-25 2014-05-01 北京奇虎科技有限公司 一种判断钓鱼网站的方法及装置
CN102891861A (zh) * 2012-10-29 2013-01-23 珠海市君天电子科技有限公司 一种基于客户端的钓鱼网站检测方法及其装置
CN102932207A (zh) * 2012-11-19 2013-02-13 北京奇虎科技有限公司 监测网站访问信息的方法及服务器
US20140380480A1 (en) * 2013-06-25 2014-12-25 Tencent Technology (Shenzhen) Company Limited Method, device and system for identifying harmful websites
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104935605A (zh) * 2015-06-30 2015-09-23 北京奇虎科技有限公司 钓鱼网站的检测方法、装置及系统
CN107436890A (zh) * 2016-05-26 2017-12-05 阿里巴巴集团控股有限公司 一种网站类型的检测方法及装置
CN106161453A (zh) * 2016-07-21 2016-11-23 南京邮电大学 一种基于历史信息的SSLstrip防御方法
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备
CN108322441A (zh) * 2017-12-29 2018-07-24 广州斯马特信息科技有限公司 网站安全性检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卜胜贤,李鹰: "Web网站安全技术研究", no. 05, pages 89 - 91 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460103A (zh) * 2020-03-31 2020-07-28 网易(杭州)网络有限公司 一种信息检测方法、装置、电子设备和存储介质
CN111460103B (zh) * 2020-03-31 2024-01-16 网易(杭州)网络有限公司 一种信息检测方法、装置、电子设备和存储介质
CN112330463A (zh) * 2020-11-27 2021-02-05 杭州安恒信息技术股份有限公司 一种理财网站合法资质检测方法、装置、设备及介质
CN112634090A (zh) * 2020-12-15 2021-04-09 深圳市彬讯科技有限公司 家装信息举报管理方法、系统、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110929129B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
US10496263B2 (en) De-anonymization of website visitor identity
CN107256232B (zh) 一种信息推荐方法和装置
CN110321479B (zh) 一种隐私保护移动服务推荐方法及客户端、推荐系统
US11762979B2 (en) Management of login information affected by a data breach
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
US20130066814A1 (en) System and Method for Automated Classification of Web pages and Domains
EP3763097B1 (en) System and method for restricting access to web resources from web robots
CN106776917B (zh) 一种获取资源文件的方法和装置
CN110929129B (zh) 一种信息检测方法、设备及机器可读存储介质
US10621337B1 (en) Application-to-application device ID sharing
US11816249B2 (en) System and method for dynamic management of private data
CN106534268B (zh) 一种数据共享方法及装置
CN106569860A (zh) 一种应用管理方法及终端
CN111740992A (zh) 网站安全漏洞检测方法、装置、介质及电子设备
EP2725538B1 (en) Privacy protected dynamic clustering of end users
CN114157568B (zh) 一种浏览器安全访问方法、装置、设备及存储介质
Shehab et al. ROAuth: Recommendation based open authorization
CN110659435A (zh) 页面数据采集处理方法、装置、计算机设备和存储介质
KR20180017139A (ko) 자동화된 정보 검색
CN111625721A (zh) 内容推荐方法及装置
CN115702423A (zh) 用于Web跟踪器分类和缓解的系统和方法
CN112261001A (zh) 一种基于流量数据分析的服务器行为监控方法
CN107222559B (zh) 信息调用方法
US9906514B1 (en) Resisting anonymous scraping
US11949679B1 (en) Distinguishing between functional tracking domains and nonfunctional tracking domains on a host web page

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026845

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant