CN109101657A

CN109101657A - 传销推荐人网站识别方法、装置及设备

Info

Publication number: CN109101657A
Application number: CN201811007473.9A
Authority: CN
Inventors: 罗青云; 范渊; 莫金友
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2018-12-28

Abstract

本发明提供了一种传销推荐人网站识别方法、装置及设备，属于网站识别分类技术领域。本发明提供的传销推荐人网站识别方法、装置及设备，通过获取目标网站所包含的页面数据，然后从页面是中提取一级页面和二级页面的页面数据，再遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别，该方法通过对一级页面和二级页面的页面数据进行分析，进而准确判断目标网站是否为传销推荐人网站，解决了无法准确识别传销推荐人网站的问题，同时为阻止网络传销行为作了有效的贡献。

Description

传销推荐人网站识别方法、装置及设备

技术领域

本发明涉及网站识别分类技术领域，具体而言，涉及一种传销推荐人网站识别方法、装置及设备。

背景技术

随着互联网的发展，互联网已经进入了各个领域。然而同样随着而来的是，互联网也被一些传统的非法行业所使用，如用来贩卖枪支、毒品，经营赌博及网络传销等。

针对传销的分析特性看来，传销都是进行上下级的关联,通过拉人头的方式实现不限制级别的分润体系，进而从中进行获利，随着传销规模的增大，已经通过网络进行传销，促使传销行为更加猖狂。但是，现阶段对于推荐人相关网站的分析未达到精准化，未能成形成有效的的分析，不能准确识别传销网站和阻止网络传销行为。

发明内容

针对上述现有技术中存在的对于推荐人相关网站的分析未达到精准化，未能成形成有效的分析，依然存在不能准确识别传销网站和阻止网络传销行为问题，本发明提供了一种传销推荐人网站识别方法、装置及设备，可以准确识别推荐人网站，进而阻止网络传销行为。

第一方面，本发明实施例提供了一种传销推荐人网站识别方法，其中，包括：

获取目标网站所包含的页面信息；

从所述页面信息中提取一级页面和二级页面的页面数据；

遍历所述一级页面和二级页面的页面数据，进行传销推荐人网站识别。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，从所述页面信息中提取一级页面和二级页面的页面数据的步骤，包括：

判断所述一级页面和二级页面的页面数据中是否存在节点数据；

如果是，获取form表单节点数据；其中，所述form表单节点数据为从所述一级页面和二级页面的页面数据中提取的。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述获取form表单节点数据的方法，还包括：

采用依次向上递归解析的方式，获取所述一级页面和二级页面的页面数据中存在的所有节点数据。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，遍历所述一级页面和二级页面的页面数据，进行传销推荐人网站识别的步骤，包括：

提取所述一级页面和二级页面的页面数据中的传销特征的关键字信息；其中，所述关键字信息包括：推荐人、推荐码、邀请人及邀请码；

将所述关键字信息进行正则匹配；

如果匹配成功，则确定所述目标网站为传销推荐人网站。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别的步骤之前，所述方法还包括：

对所述一级页面和二级页面的页面数据进行文字标点切割。

第二方面，本发明实施例还提供了一种传销推荐人网站识别装置，其中，包括：

获取模块，用于获取目标网站所包含的页面信息；

提取模块，用于从所述页面信息中提取一级页面和二级页面的页面数据；

识别模块，用于遍历所述一级页面和二级页面的页面数据，进行传销推荐人网站识别。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述装置还包括：

判断模块，用于判断所述一级页面和二级页面的页面数据中是否存在节点数据；

节点信息获取模块，用于当所述一级页面和二级页面的页面数据中存在节点数据时，获取form表单节点数据。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述识别模块还用于：

所述识别模块还用于：提取所述一级页面和二级页面的页面数据中的传销特征的关键字信息；其中，所述关键字信息包括：推荐人、推荐码、邀请人及邀请码；将所述关键字信息进行正则匹配；如果匹配成功，则确定所述目标网站为传销推荐人网站。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述装置还包括：

切割模块，用于对所述一级页面和二级页面的页面数据进行文字标点切割。

第三方面，本发明实施例还提供了一种传销推荐人网站识别设备，其中，包括：存储器以及处理器，所述存储器用于存储并支持处理器执行第一方面的任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明实施例带来了以下有益效果：

本发明实施例提供的传销推荐人网站识别方法、装置及设备，通过获取目标网站所包含的页面数据，然后从页面是中提取一级页面和二级页面的页面数据，再遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别，该方法通过对一级页面和二级页面的页面数据进行分析，进而准确判断目标网站是否为传销推荐人网站，解决了无法准确识别传销推荐人网站的问题，同时为阻止网络传销行为作了有效的贡献。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1～2为本发明一实施例所提供的传销推荐人网站识别方法的流程图；

图3～4为本发明另一实施例所提供的传销推荐人网站识别装置的模块图；

图5为本发明一实施例所提供的传销推荐人网站识别设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对传销网站的分析特性看来，传销都是进行上下级的关联,通过拉人头的方式实现不限制级别的分润体系，进而从中进行获利。网络传销网站针对于正规网站来说，一般网络传销是利用网络等手段进行传销，通常有自己的网站，通过拉人加入，人拉人然后拉下线，拉的越多就挣的越多，是传统传销的变种，因为交的会费低，但是人数多，发展也会很快。因此，网络传销即通过网络传播进行上下级人员的绑定，这就要求在注册的时候进行推荐人相关的绑定操作。但是，现阶段对于传销推荐人网站的分析未达到精准化，未能成形成有效的的分析。

针对现有技术中存在的推荐人相关网站的分析未达到精准化，未能成形成有效的的分析，进而不能准确识别传销网站和阻止网络传销行为的问题，本发明实施例提供了一种传销推荐人网站识别方法、装置及设备，以下首先对本发明的传销推荐人网站识别方法进行详细介绍。

实施例一

本实施例提供了一种传销推荐人网站识别方法，如图1所示，该方法包括：

步骤S102，获取目标网站所包含的页面信息。

具体地，本发明实施例采用网络爬虫技术获取目标网站的页面信息，即为传销推荐人网站可能的网站。其中，网络爬虫技术是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

在采用网络爬虫技术时，通过使用目标网站的主域名获取到目标网站系统下面的所有Html页面信息，即为目标网站所包含的页面信息。

步骤S104，从所述页面信息中提取一级页面和二级页面的页面数据。

在实际进行网站分析时，所有的会员或者推荐人在系统登录及注册都是在一级页面或者二级页面上面出现的，因此可以从利用网络爬虫技术获取的Html页面信息中提取所有的一级页面和二级页面的页面数据。

如图2所示，从Html页面信息中提取所有的一级页面和二级页面的页面数据时，需要首先判断Html页面信息中是否存在节点数据。具体地，该判断方法需要采用Jsoup解析的方式对Html网页中body体进行提取，然后判定Html页面信息中是否存在密码输入框，可以对提取之后的数据使用Jsoup解析到属性type＝”password”的Html中input标签节点数据，然后，在使用Jsoup获取到解析出来的input标签节点数据时，采用依次向上递归解析的方式，获取一级页面和二级页面的页面数据中存在的所有form表单节点数据。

具体地，在用户登录和注册的时候基本上都是用表单进行数据提交的,当一级页面和二级页面的页面数据中存在节点数据时，获取form表单节点数据，其中，form表单节点数据为Html页面中进行提交的表单数据，且含有一级页面和二级页面的页面数据。需要说明的是，在获取到form表单节点数据时，不能出现form表单外的数据,例如在网页title和foot中的数据为form表单外的数据，如果获取form表单外的数据，会导致后续的正则匹配解析数据不准确，造成结果不准确。

步骤S106，遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别。

具体地，遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别的步骤，包括：提取一级页面和二级页面的页面数据中的传销特征的关键字信息，其中，关键字信息包括：推荐人、推荐码、邀请人及邀请码，然后将上述关键字信息进行正则匹配，如果匹配成功，则确定上述目标网站为传销推荐人网站。

为了使传销推荐人网站识别准确度更高，在遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别的步骤之前，还需要对上述一级页面和二级页面的页面数据进行文字标点切割，比如:获取到的原始文本为:“请输入:邀请码”,将该原始文本进行匹配的话，虽然存在上述关键字信息，但由于存在标点符号，会导致匹配失败；而进行文字标点切割后，原始文本变为:“请输入”,“邀请码”，排除了标点符号对关键字信息的影响，从而能够成功匹配到“邀请码”文字，成功识别推荐人网站。

本发明实施例提供的传销推荐人网站识别方法，通过获取目标网站所包含的页面数据，然后从页面是中提取一级页面和二级页面的页面数据，再遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别，该方法通过对一级页面和二级页面的页面数据进行分析，进而准确判断目标网站是否为传销推荐人网站，解决了无法准确识别传销推荐人网站的问题，同时为阻止网络传销行为作了有效的贡献。

实施例二

与上述方法实施例相对应地，本实施例提供了一种传销推荐人网站识别装置，如图3所示，该装置包括：

获取模块31，用于获取目标网站所包含的页面信息；

提取模块32，用于从页面信息中提取一级页面和二级页面的页面数据；

识别模块33，用于遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别。

识别模块33还可用于，提取一级页面和二级页面的页面信息中的传销特征的关键字信息，其中，上述关键字信息包括：推荐人、推荐码、邀请人及邀请码，然后将上述关键字信息进行正则匹配；如果匹配成功，则成功识别传销推荐人网站。

如图4所述，该装置还包括：

判断模块43，用于判断一级页面和二级页面的页面数据中是否存在节点数据；

节点信息获取模块44，用于当一级页面和二级页面的页面数据中存在节点数据时，获取form表单节点数据。

切割模块45，用于对一级页面和二级页面的页面数据进行文字标点切割。

本发明实施例提供的传销推荐人网站识别装置，通过获取目标网站所包含的页面数据，然后从页面是中提取一级页面和二级页面的页面数据，再遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别，该方法通过对一级页面和二级页面的页面数据进行分析，进而准确判断目标网站是否为传销推荐人网站，解决了无法准确识别传销推荐人网站的问题，同时为阻止网络传销行为作了有效的贡献。

实施例三

本发明实施例提供了一种传销推荐人网站识别设备，如图5所示，该传销推荐人网站识别设备包括存储器110和处理器120，存储器110可用于存储软件程序以及模块，如本发明实施例中的传销推荐人网站识别装置对应的程序指令/模块，以及处理器102通过运行存储在存储器110的软件程序以及模块，从而执行对应的各种功能应用以及数据处理，如本发明实施例传销推荐人网站识别方法。存储器11-可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(如本发明实施例的传销推荐人网站识别装置)等；存储数据区可存储根据显示设备的使用所创建的数据(比如一级页面和二级页面的页面信息及与一级页面和二级页面的页面信息对应的关键字信息)等。此外，存储器110可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器120是传销推荐人网站识别设备的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器110内的软件程序和/或模块，以及调用存储在存储器110内的数据，执行各种功能和处理数据，从而对问题件进行整体监控。可选的，处理器120可包括一个或多个处理模块。

本发明实施例提供的传销推荐人网站识别方法、装置及设备具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

需要说明的是，在本发明所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种传销推荐人网站识别方法，其特征在于，包括：

获取目标网站所包含的页面信息；

从所述页面信息中提取一级页面和二级页面的页面数据；

2.根据权利要求1所述的方法，其特征在于，从所述页面信息中提取一级页面和二级页面的页面数据的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取form表单节点数据的方法，还包括：

4.根据权利要求1所述的方法，其特征在于，遍历所述一级页面和二级页面的页面数据，进行传销推荐人网站识别的步骤，包括：

将所述关键字信息进行正则匹配；

如果匹配成功，则确定所述目标网站为传销推荐人网站。

5.根据权利要求4所述的方法，其特征在于，所述遍历一级页面和二级页面的页面数据，进行传销推荐人网站识别的步骤之前，所述方法还包括：

对所述一级页面和二级页面的页面数据进行文字标点切割。

6.一种传销推荐人网站识别装置，其特征在于，包括：

获取模块，用于获取目标网站所包含的页面信息；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述识别模块还用于：提取所述一级页面和二级页面的页面数据中的传销特征的关键字信息；其中，所述关键字信息包括：推荐人、推荐码、邀请人及邀请码；将所述关键字信息进行正则匹配；如果匹配成功，则确定所述目标网站为传销推荐人网站。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.一种传销推荐人网站识别设备，其特征在于，包括：存储器以及处理器，所述存储器用于存储并支持处理器执行权利要求1～5中任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。