CN113360895B

CN113360895B - 站群检测方法、装置及电子设备

Info

Publication number: CN113360895B
Application number: CN202110613985.5A
Authority: CN
Inventors: 陈由之; 刘伟; 杨国强; 余文利; 王鹏; 张博
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2023-07-25
Anticipated expiration: 2041-06-02
Also published as: CN113360895A

Abstract

本申请公开了站群识别方法、装置及电子设备，涉及互联网技术领域。具体实现方案为：获取第一站点的站点关联信息，所述站点关联信息包括站点集合中存在关联的不同站点之间的关联类型，所述站点集合包括所述第一站点和所述第一站点对应的M个第二站点；基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，所述导流信息用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况；基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群。根据本申请的技术，解决了站群检测技术中对存在恶意导流风险的站群的检测效果比较差的问题，提高对存在恶意导流风险的站群的检测效果。

Description

站群检测方法、装置及电子设备

技术领域

本申请涉及互联网技术领域，尤其涉及站群检测技术领域，具体涉及一种站群检测方法、装置及电子设备。

背景技术

互联网中黑灰色产业相关的站点往往相互关联形成站群，通过相互导流来提升站点权重，从而提升在搜索引擎中的收录、索引以及展现数量，最终骗取用户点击或引导用户注册等，这样会侵害用户权益。为了维护互联网的健康发展，需要对存在恶意导流风险的站群进行检测。

目前，通常是通过直接挖掘单个网页的特征来识别存在恶意导流风险的站群中的站点(其可以称之为低质站点)，即基于提取网页的内容特征来识别站点是否为低质站点。

发明内容

本公开提供了一种站群检测方法、装置及电子设备。

根据本公开的第一方面，提供了一种站群检测方法，包括：

获取第一站点的站点关联信息，所述站点关联信息包括站点集合中存在关联的不同站点之间的关联类型，所述站点集合包括所述第一站点和所述第一站点对应的M个第二站点，M为正整数；

基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，所述导流信息用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况；

基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群。

根据本公开的第二方面，提供了一种站群检测装置，包括：

获取模块，用于获取第一站点的站点关联信息，所述站点关联信息包括站点集合中存在关联的不同站点之间的关联类型，所述站点集合包括所述第一站点和所述第一站点对应的M个第二站点，M为正整数；

生成模块，用于基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，所述导流信息用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况；

检测模块，用于基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面中的任一项方法。

根据本申请的技术解决了站群检测技术中对存在恶意导流风险的站群的检测效果比较差的问题，提高对存在恶意导流风险的站群的检测效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的站群识别方法的流程示意图；

图2是基于Follow信息进行站点关联的示意图；

图3是站点集合的节点图结构示意图；

图4是节点图中各节点对应的站点的站点类型示意图；

图5是根据本申请第二实施例的站群识别装置的结构示意图；

图6是用来实施本公开的实施例的示例电子设备600的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种站群检测方法，包括如下步骤：

步骤S101：获取第一站点的站点关联信息，所述站点关联信息包括站点集合中存在关联的不同站点之间的关联类型，所述站点集合包括所述第一站点和所述第一站点对应的M个第二站点。

本实施例中，站群检测方法涉及互联网技术，具体涉及站群检测技术领域，其可以广泛应用于搜索引擎等场景中。该方法可以由本申请实施例的站群检测装置执行。而站群检测装置可以配置在任意电子设备中，以执行本申请实施例的站群检测方法，该电子设备可以为服务器，也可以为终端，这里不做具体限定。

其中，M为正整数。

站点指的是互联网站点，也可以称之为网站。

该步骤中，所述第一站点可以为预设数据库中的任一站点，所述预设数据库可以为存储站点信息的数据库，其内可以存储有至少一个站点。

所述第一站点的站点关联信息可以包括站点集合中存在关联的不同站点之间的关联类型。其中，第一站点不同，其站点集合中的站点可以完全一致，也可以完全不一致，或者部分一致，这里不进行具体限定。

所述站点集合中可以包括所述第一站点和所述第一站点对应的M个第二站点，其中，所述第一站点可以与一第二站点直接对应，比如，第二站点为第一站点的网页中链接对应的站点，或为第一站点的网页直接跳转的网页的站点，或为与第一站点的域名注册信息匹配的站点，或为与第一站点的IP信息匹配的站点，或为网页内容与第一站点的网页内容匹配的站点。这样，可以通过第一站点的网页直接给第二站点进行导流。

所述第一站点也可以与一第二站点间接对应，比如，站点A与站点B直接对应，站点B和站点C直接对应，则站点A和站点C间接对应，而站点B和站点C均可以称之为第一站点对应的第二站点。这样，可以通过站点A的网页给站点B导流，通过站点B的网页给站点C导流，如此可以通过站点A的网页间接给站点C导流，即通过第一站点的网页给间接对应的第二站点导流。

在获取第一站点的站点集合时，可以获取第一站点一级对应的第二站点，一级对应指的是与第一站点直接对应，也可以获取第一站点二级对应的第二站点，二级对应指的是与第一站点通过一个站点与第二站点对应，如站点A与站点B直接对应，站点B和站点C直接对应，则站点A与站点C二级对应，还可以获取第一站点多级对应的第二站点，多级对应指的是与第一站点通过两个甚至多个站点与第二站点对应。

可以有多种方式获取第一站点的站点集合，比如，通过查询数据库中存储的网页关联关系来获取第一站点对应的第二站点，以获取第一站点的站点集合。又比如，可以通过查询网页间导流的历史跳转记录，来获取第一站点对应的第二站点。还比如，可以通过查询数据库中存储的站点关联关系来获取第一站点对应的第二站点。

所述站点集合中存在关联的不同站点之间的关联类型可以指的是不同站点是以哪种方式建立的直接对应关系，不同站点具体指的是两个不同的站点。

也就是说，若两个不同的站点存在直接对应关系，则这两个不同的站点之间存在关联，相应的，通过确定这两个不同站点建立直接对应关系的方式，来获取这两个不同站点之间的关联类型。另外，建立直接对应关系的方式不同，不同站点之间的关联类型也不同。

比如，针对站点A1和站点B1，若站点A1的网页中存在链接指向站点B1，如图2所示，站点A1和站点B1是通过网页与网页间的跟随Follow信息建立的直接对应关系，则站点A1和站点B1存在关联，其关联类型可以称之为第一关联类型。

其中，Follow信息包括Follow链接，指的是网页中推荐区域的链接、正文内的链接、友情链接等。

可以通过查询网页数据库中存储的网页关联关系，来获取站点集合中存在第一关联类型的不同站点。具体的，网页数据库中存储了大量站点的网页数据，以及网页中的Follow链接，可以针对站点集合中每个站点，将站点集合中其他站点的网页链接与网页数据库中该站点的Follow链接进行比对，若比对上，则确定其他站点中与Follow链接匹配上的网页链接对应的站点为该站点关联的站点，其关联类型为第一关联类型。

又比如，针对站点A2和站点B2，若这两个站点的网页间存在跳转关系，则站点A2和站点B2存在关联，其关联类型可以称之为第二关联类型。

其中，跳转关系可以通过跳转日志收集，其包括抓取时的301跳转、302跳转、以及渲染情况下的跳转，如下表1所示，下表1为爬虫某一个小时抓取的跳转日志记录。

跳转前	跳转后
		www.cb644.com/	www.highgg.com/？agentId＝6425070
www.hangzhouchuzhou.com/	www.highgg.com/？agentId＝6425070
		www.shengjipharm.com/	www.highgg.com/？agentId＝6425070

相应的，可以通过查询跳转日志数据库中网页间导流的历史跳转记录来获取站点集合中存在第二关联类型的不同站点，其中，历史跳转记录中包括存在跳转关系的两个站点。具体的，针对站点集合中每个站点，可以获取跳转日志数据中该站点的历史跳转记录，将其他站点与该站点的历史跳转记录中与该站点存在跳转关系的站点进行比对，若比对上，则将其他站点中与该站点存在跳转关系的站点确定为该站点关联的站点，其关联类型为第二关联类型。

还比如，针对站点A3和站点B3，若这两个站点的域名归属于同一个注册商或注册人，或者同一个注册电话，或者同一个注册邮箱等，则站点A3和站点B3存在关联，其关联类型可以称之为第三关联类型。

可以通过查询存储有各站点注册域名信息的数据库，来获取站点集合中存在第三关联类型的不同站点。具体的，针对站点集合中每个站点，可以将该站点的注册域名信息与数据库中的注册域名信息进行比对，若比对上，则将数据库中注册域名信息与该站点相同的其他站点确定为该站点关联的站点，其关联类型为第三关联类型。

还比如，针对站点A4和站点B4，若这两个站点的IP信息相同，则站点A4和站点B4存在关联，其关联类型可以称之为第四关联类型。

可以通过查询存储有各站点IP信息的数据库，来获取站点集合中存在第四关联类型的不同站点。具体的，针对站点集合中每个站点，可以将该站点的IP信息与数据库中的IP信息进行比对，若比对上，则将数据库中IP信息与该站点相同的其他站点确定为该站点关联的站点，其关联类型为第四关联类型。

还比如，针对站点A5和站点B5，若这两个站点的网页内容相互匹配，则站点A5和站点B5存在关联，其关联类型可以称之为第五关联类型。其中，网页内容相互匹配可以指的是不同网页类型的两个站点的网页内容相互适配，如网页类型分别为PC页面和wise页面的两个站点的网页内容相互适配。

针对站点集合中每个站点，可以通过比对该站点的网页内容与站点集合中其他站点的网页内容，来确定站点集合中与该站点存在网页内容相互匹配的站点，即确定站点集合中与该站点存在第五关联类型的站点。

另外，站点关联信息中还可以包括其他信息，比如，可以包括所述站点集合中存在关联的不同站点之间的历史导流指向数量，可以通过日志数据库中存储的导流记录，来获取站点集合中存在关联的不同站点之间的历史导流指向数量。

又比如，若站点之间的关联类型为第一关联类型和第二关联类型，站点关联信息中还可以包括站点之间关联的方向，即两个站点可能并不是相互关联，而是具有关联的方向。比如，若站点A有链接指向站点B，则关联的方向是站点A到站点B，若站点A跳转至站点B，则关联的方向是站点A到站点B。

步骤102：基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，所述导流信息用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况。

该步骤中，所述导流信息中可以包括用于指示站点集合中站点之间的导流情况的信息，比如，站点的导流指向方向，站点的导流指向类型，表征站点的历史导流指向数量的导流权重，该导流权重可以称之为站点的生产力。

所述导流信息可以用所述站点集合的节点图来表征，该节点图可以为一种数据存储结构。如图3所示，节点图可以包括节点和有向边，节点可以基于所述站点集合中的站点信息创建，每个站点对应一个节点，有向边可以基于站点关联信息创建，在两个不同站点之间存在关联的情况下，如站点A和站点B存在关联，则创建站点A对应的节点和站点B对应的节点的有向边。

其有向边的方向为两个站点关联的方向，即若站点A与站点B关联的方向为站点A到站点B，则站点A与站点B之间的有向边的方向为站点A对应的节点指向站点B对应的节点。有向边的方向用于表征两个站点之间的导流指向方向。

并且，两个不同站点的关联类型不同，其有向边的类型(可以称之为边关系)也不同，如图3所示，节点图可以包括五种边关系，每种箭头形状可以表示一种边关系，每种边关系对应所述站点集合中存在关联的不同站点的一种关联类型。该边关系可以表征站点之间的导流指向类型，而这五种边关系表示了站点集合中站点之间的各种导流情况。

另外，有向边的边权重可以用来表征导流权重，边权重越大，表示一站点至有向边的另一站点的生产力越大，反之越小。

所述导流信息还可以用其他数据存储结构的数据来表征，这里不进行具体限定。

步骤103，基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群。

该步骤中，所述目标站群中可以包括至少一个站点，该目标站群中的站点通常为互联网中黑灰色产业相关的低质站点，且通常通过相互导流来提升站点权重，从而提升在搜索引擎中的收录、索引以及展现数量，最终骗取用户点击或引导用户注册等，这样会侵害用户权益，因此，将这类站群称之为存在恶意导流风险的站群。

为了维护互联网的健康发展，需要对存在恶意导流风险的站群进行检测，本实施例中，可以基于所述导流信息对存在恶意导流风险的站群进行检测。

具体的，可以基于所述导流信息确定站点集合中各站点的特点以及检测站点集合中站点之间的各导流情况，基于站点集合中各站点的特点以及站点之间的各导流情况进行目标站群的检测。

可以基于各站点的特征以及站点之间的各导流情况，标记站点集合中各站点的站点类型，包括第一站点类型和第二站点类型等，第一站点类型表征站点存在恶意导流风险，第二站点类型表征站点不存在恶意导流风险。另外，站点集合中有些站点是否存在恶意导流风险可能无法判定，因此，可以将其标记为待判定或无标签的站点。

若某些站点的生产力相对于其他站点的生产力异常，如生产力非常大，则这些站点可能存在恶意导流风险，将其标记为第一站点类型的站点，其作为存在恶意导流风险的候选站点。

又比如，若某些站点的主题混杂，存在备案为黑灰色产业的站点，站点等级比较低，或站点的网页内容质量得分比较低，则可以将其标记为第一站点类型的站点，其作为存在恶意导流风险的候选站点。

另若候选站点中存在相互导流的站点，且标记为第二站点类型的站点不指向这些站点，则可以确定这些站点所组成的站群为目标站群。

本实施例中，通过获取第一站点的站点关联信息，所述站点关联信息包括站点集合中存在关联的不同站点之间的关联类型，所述站点集合包括所述第一站点和所述第一站点对应的M个第二站点；基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，所述导流信息用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况；基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群。如此，基于所述站点关联信息生成的所述站点集合中站点之间的导流信息涵盖了站点与站点间的各种导流情况，这样可以便于更彻底地挖掘出目标站群，从而可以提高对存在恶意导流风险的站群的检测效果。

并且，对目标站群进行挖掘识别，有利于提升链接发现、链接抓取、页面解析和页面存储的有效性，能够节省资源，以及提升搜索质量。同时，可以从根本上打击黑灰色产业链条，有利于维护搜索用户的权益，建立良好的互联网生态闭环，为B端和C端用户提供良好的互联网环境。

可选的，所述导流信息包括导流指向类型，所述导流指向类型包括以下至少一项：

所述站点集合中存在关联的不同站点在第一关联类型下的导流指向类型，所述第一关联类型用于表示所述站点集合中不同站点的网页存在跟随信息；

所述站点集合中存在关联的不同站点在第二关联类型下的导流指向类型，所述第二关联类型用于表示所述站点集合中不同站点的网页存在历史跳转记录；

所述站点集合中存在关联的不同站点在第三关联类型下的导流指向类型，所述第三关联类型用于表示所述站点集合中不同站点的域名注册信息相互匹配；

所述站点集合中存在关联的不同站点在第四关联类型下的导流指向类型，所述第四关联类型用于表示所述站点集合中不同站点的网际互连协议IP信息相互匹配；

所述站点集合中存在关联的不同站点在第五关联类型下的导流指向类型，所述第五关联类型用于表示所述站点集合中不同站点的网页内容相互匹配。

本实施方式中，所述导流信息包括导流指向类型，其中，一种导流指向类型可以表征站点之间的一种导流情况，如通过Follow链接导流，通过网页跳转导流，通过域名注册信息导流，通过IP信息导流，或通过网页内容导流。且站点之间的关联类型不同，导流指向类型也不同。

具体的，以站点A和站点B为例，若站点A和站点B之间的关联类型为第一关联类型，则站点A和站点B的导流指向类型为所述站点集合中存在关联的不同站点在第一关联类型下的导流指向类型，即站点B通过站点A的Follow链接导流。

若站点A和站点B之间的关联类型为第二关联类型，则站点A和站点B的导流指向类型为所述站点集合中存在关联的不同站点在第二关联类型下的导流指向类型，即站点B通过站点A的网页跳转导流。

若站点A和站点B之间的关联类型为第三关联类型，则站点A和站点B的导流指向类型为所述站点集合中存在关联的不同站点在第三关联类型下的导流指向类型，即站点A和站点B通过关联的域名注册信息相互导流。

若站点A和站点B之间的关联类型为第四关联类型，则站点A和站点B的导流指向类型为所述站点集合中存在关联的不同站点在第四关联类型下的导流指向类型，即站点A和站点B通过关联的IP信息相互导流。

若站点A和站点B之间的关联类型为第五关联类型，则站点A和站点B的导流指向类型为所述站点集合中存在关联的不同站点在第五关联类型下的导流指向类型，即站点A和站点B通过适配的网页内容相互导流。

本实施方式中，通过基于站点之间的关联类型生成站点之间的导流指向类型，如此使得导流信息中可以涵盖站点与站点间的各种导流情况，便于更彻底地挖掘出目标站群。

可选的，所述导流信息包括导流权重，所述站点关联信息包括所述站点集合中存在关联的不同站点之间的历史导流指向数量，所述步骤S102具体包括：

基于所述站点关联信息，获取第一目标站点至第二目标站点的第一历史导流指向数量、所述第一目标站点导流至所述站点集合中的站点数量、所述第一目标站点至所述站点集合中站点的第二历史导流指向数量，所述第一目标站点为所述站点集合中任一站点，所述第二目标站点为所述第一目标站点导流至所述站点集合的站点中任一站点；

基于所述第一历史导流指向数量、站点数量和第二历史导流指向数量，确定所述第一目标站点至所述第二目标站点的导流权重。

本实施方式中，以第一目标站点如站点A和第二目标站点如站点B为例，可以对站点关联信息进行统计，以获取站点A至站点B的第一历史指向数量，可以用Count_i表示，其中，i表示站点A的标识；获取站点A导流至所述站点集合中的站点数量，用OutDegree_i表示，该站点数量也可以称之为站点A的出度量，如站点A除了可以导流至站点B之外，还可以导流至站点C、站点D、站点E和站点F，则站点A的出度量为5；获取站点A至所述站点集合中站点的第二历史导流指向数量，即站点A导流至各站点的总导流指向数量，可以用Out_i。

可以基于公式来计算站点A至站点B的导流权重，即站点A至站点B的生产力。其中，Weight_i表示站点A至站点B的导流权重。

本实施方式中，通过获取站点集合中各站点的生产力，如此可以基于站点的生产力，标记各站点的站点类型，从而可以基于各站点的站点类型进行目标站群的检测。

可选的，所述导流信息用所述站点集合的节点图表征，所述步骤S102具体包括：

基于所述站点集合中的站点以一一对应的关系创建节点；

基于所述站点关联信息，创建不同节点之间的有向边，并生成所述有向边的权重信息，以构建所述站点集合的节点图；

其中，所述节点图用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况。

本实施方式中，该节点图可以为一种数据存储结构。如图3所示，节点图可以包括节点和有向边，节点可以基于所述站点集合中的站点信息创建，每个站点对应一个节点，有向边可以基于站点关联信息创建，在两个不同站点之间存在关联的情况下，如站点A和站点B存在关联，则创建站点A对应的节点和站点B对应的节点的有向边。

具体的，以站点A和站点B为例，若站点A和站点B之间的关联类型为第一关联类型，即站点A和站点B的关联关系通过Follow信息建立，比如，站点A有链接指向站点B，则可以建立站点A到站点B的有向边，该有向边的边关系可以称之为Follow边关系。

若站点A和站点B之间的关联类型为第二关联类型，则站点A和站点B的关联关系通过跳转记录建立，比如，站点A有链接跳转到站点B，则可以建立站点A到站点B的有向边，该有向边的边关系可以称之为跳转边关系。

若站点A和站点B之间的关联类型为第三关联类型，则站点A和站点B的关联关系通过域名注册信息建立，比如，若站点A和站点B的域名归属于同一家注册商或注册人，或者同一个注册电话，或者同一个注册邮箱，则可以建立站点A到站点B的有向边，该有向边的边关系可以称之为whois边关系。

若站点A和站点B之间的关联类型为第四关联类型，则站点A和站点B的关联关系通过IP信息建立，比如，若站点A和站点B的IP信息相同，则可以建立站点A到站点B的有向边，该有向边的边关系可以称之为同IP边关系。

若站点A和站点B之间的关联类型为第五关联类型，则站点A和站点B的关联关系通过适配信息建立，比如，若站点A和站点B存在PC页面和wise页面相互适配的情况，则可以建立站点A到站点B的有向边，该有向边的边关系可以称之为适配边关系。

另外，有向边的边权重即权重信息可以用来表征导流权重，边权重越大，表示一站点至有向边的另一站点的生产力越大，反之越小。可以基于站点关联信息中所述站点集合中存在关联的不同站点之间的历史导流指向数量，来生成有向边的权重信息。

本实施方式中，导流信息通过用所述站点集合的节点图表征，建立包括多样边关系的节点图网络，如此可以通过多样边关系将各站点(包括低质站点)的信号传递到网络中各个节点，从而可用于低质站点源头的挖掘和打压。

可选的，所述步骤S103具体包括：

将所述节点图输入至图神经网络进行特征提取，得到所述节点图的特征信息；

基于所述特征信息进行目标站群的识别。

本实施方式中，可以通过图神经网络对所述节点图进行特征提取，即将所述节点图输入至图神经网络进行特征提取，得到所述节点图的特征信息，所述特征信息可以包括节点特征和边特征。

所述节点特征可以包括各站点的特征，其可以包括站点等级、站点页面质量、是否备案、网页收录数量等。边特征可以包括各站点的导流特征，其可以包括各站点的指向和生产力等。

之后基于所述节点特征和边特征进行目标站群的识别，具体可以基于节点特征和边特征标记站点集合中各站点的站点类型，并基于各站点的站点类型和边特征进行目标站群的识别。

其中，各站点的站点类型可以包括第一站点类型和第二站点类型等，第一站点类型表征站点存在恶意导流风险，第二站点类型表征站点不存在恶意导流风险。另外，站点集合中有些站点是否存在恶意导流风险可能无法判定，因此，可以将其标记为待判定或无标签的站点。

若某站点的生产力相对于其他站点的生产力异常，如生产力非常大，则这些站点可能存在恶意导流风险，将其标记为第一站点类型的站点，其作为存在恶意导流风险的候选站点。

又比如，若某站点的主题混杂，存在备案为黑灰色产业的站点，站点等级比较低，或站点的网页内容质量得分比较低，则可以将其标记为第一站点类型的站点，其作为存在恶意导流风险的候选站点。

还比如，若某站点的主题单一，页面质量得分比较高，站点等级比较高等，则可以将其标记为第二站点类型的站点。

如图4所示，站点401为第一站点类型的站点，站点402为第二站点类型的站点，站点403为无标签的站点，站点404为待判定的站点。

在一可选实施方式中，可以将候选站点中相互导流指向的站点，且第二站点类型的站点所不导流指向的站点所组成的站群确定为目标站群。

本实施方式中，可以通过图神经网络对节点图进行特征提取，得到所述节点图的特征信息；并基于所述特征信息进行目标站群的识别，如此可以基于节点图很简单地实现目标站群的识别。

可选的，所述基于所述特征信息进行目标站群的识别，包括：

基于所述特征信息，确定所述站点集合中站点的站点类型；

在所述站点集合中存在N个第三目标站点，且所述N个第三目标站点满足预设条件的情况下，确定所述N个第三目标站点组成的站群为目标站群，所述第三目标站点的站点类型为第一站点类型，所述第一站点类型表征站点存在恶意导流风险；

其中，所述预设条件包括：所述N个第三目标站点相互导流指向，且第四目标站点不导流指向所述N个第三目标站点，所述第四目标站点的站点类型为第二站点类型，所述第二站点类型表征站点不存在恶意导流风险，N为大于1的整数。

通常目标站群中的站点相互导流指向，而第二站点类型的站点即优质站点往往不会指向低质站点，因此本实施方式中，可以利用目标站群的该特点来进行目标站群的识别，这样可以基于所述特征信息进行目标站群的识别，如此可以从根源上对黑灰色产业链进行打击，建立健康的互联网生态。

第二实施例

如图5所示，本申请提供一种站群检测装置500，包括：

获取模块501，用于获取第一站点的站点关联信息，所述站点关联信息包括站点集合中存在关联的不同站点之间的关联类型，所述站点集合包括所述第一站点和所述第一站点对应的M个第二站点，M为正整数；

生成模块502，用于基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，所述导流信息用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况；

检测模块503，用于基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群。

可选的，所述导流信息包括导流权重，所述站点关联信息包括所述站点集合中存在关联的不同站点之间的历史导流指向数量，所述生成模块502具体用于：

可选的，所述导流信息用所述站点集合的节点图表征，所述生成模块502具体用于：

基于所述站点集合中的站点以一一对应的关系创建节点；

可选的，所述检测模块503包括：

特征提取单元，用于将所述节点图输入至图神经网络进行特征提取，得到所述节点图的特征信息；

识别单元，用于基于所述特征信息进行目标站群的识别。

可选的，所述识别单元具体用于：

基于所述特征信息，确定所述站点集合中站点的站点类型；

本申请提供的站群识别装置500能够实现上述站群识别方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可以存储设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调整解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如站群识别方法。例如，在一些实施例中，站群识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的站群识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方法(例如，借助于固件)而被配置为执行站群识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种站群检测方法，包括：

基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群；

所述导流信息用所述站点集合的节点图表征，所述基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，包括：

基于所述站点集合中的站点以一一对应的关系创建节点；

其中，所述节点图用于表示所述站点集合中存在关联的不同站点在所述关联类型下的导流情况；

所述基于所述导流信息进行目标站群的检测，包括：

基于所述特征信息，确定所述站点集合中站点的站点类型；

基于所述站点类型进行目标站群的识别。

2.根据权利要求1所述的方法，其中，所述导流信息包括导流指向类型，所述导流指向类型包括以下至少一项：

3.根据权利要求2所述的方法，其中，所述导流信息包括导流权重，所述站点关联信息包括所述站点集合中存在关联的不同站点之间的历史导流指向数量，所述基于所述站点关联信息，生成所述站点集合中站点之间的导流信息，包括：

4.根据权利要求1所述的方法，其中，所述基于所述站点类型进行目标站群的识别，包括：

5.一种站群检测装置，包括：

检测模块，用于基于所述导流信息进行目标站群的检测，所述目标站群为存在恶意导流风险的站群；

所述导流信息用所述站点集合的节点图表征，所述生成模块具体用于：

基于所述站点集合中的站点以一一对应的关系创建节点；

所述检测模块包括：

识别单元，用于基于所述特征信息，确定所述站点集合中站点的站点类型；基于所述站点类型进行目标站群的识别。

6.根据权利要求5所述的装置，其中，所述导流信息包括导流指向类型，所述导流指向类型包括以下至少一项：

7.根据权利要求6所述的装置，其中，所述导流信息包括导流权重，所述站点关联信息包括所述站点集合中存在关联的不同站点之间的历史导流指向数量，所述生成模块具体用于：

8.根据权利要求5所述的装置，其中，所述识别单元具体用于：

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。