CN105677869A

CN105677869A - 多维度搜索日志反作弊方法、系统及计算设备

Info

Publication number: CN105677869A
Application number: CN201610012543.4A
Authority: CN
Inventors: 王靖; 李天宁; 曾洪雷
Original assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Current assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date: 2016-01-06
Filing date: 2016-01-06
Publication date: 2016-06-15

Abstract

本发明涉及在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊方法、系统及计算设备。该方法包括以下步骤：挖掘作弊的因特网协议(IP)地址；挖掘作弊的统一资源定位符(URL)和站点；挖掘作弊的查询；以及根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据。本发明能够自动识别出仿冒正常用户行为的作弊行为并进行相应的搜索日志清洗，从而提升搜索日志数据质量，改善用户的搜索体验。

Description

多维度搜索日志反作弊方法、系统及计算设备

技术领域

本发明涉及因特网搜索引擎，具体涉及在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊技术。

背景技术

众所周知，用户使用因特网搜索引擎进行搜索的搜索日志通常会记录关于搜索的各种信息，诸如用户情况、查询情况、点击情况等等，并且被存储在存储装置中。搜索日志作为各个线上业务的核心数据，被各个线上产品大规模深度使用，例如，线上产品的点击反馈、推荐产品、提示和相关搜索产品。由于利益关系，在因特网搜索引擎中各种作弊手段层出不穷，频繁更新，比如竞争对手的恶意抓取和攻击，搜索引擎优化(SEO)公司的结果相关性、下拉词、相关词等优化。这些作弊手段使得非正常用户的搜索点击行为流入搜索日志中，影响点击调权、提示系统、指标统计等离线处理流程。

目前，搜索日志中大部分机器行为能够通过简单的反抓取手段而被清除，但是依然存在着作为作弊数据的大量仿冒正常用户行为的作弊行为，包括机器抓取行为、仿冒正常用户点击的作弊的统一资源定位符(URL)和站点、仿冒正常用户搜索的作弊的查询等。作弊者通过各种手段，实现各类产品的排序优化，从而攫取利润；更有甚者，通过流量劫持和流量复制等行为骗取渠道费用。这些问题不仅损害有关公司的利益，而且通过影响各类离线数据处理流程，使得在线搜索结果偏离正常用户预期，严重影响用户的搜索体验。

发明内容

为克服上述问题，本发明提供在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊技术，能够自动识别出搜索日志中仿冒正常用户行为的作弊行为并进行相应的搜索日志清洗，从而提升搜索日志数据质量，改善用户的搜索体验。

根据本发明的一个方面，提供一种在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊方法，该方法包括：挖掘作弊的因特网协议(IP)地址的步骤，在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址；挖掘作弊的URL和站点的步骤，在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点；挖掘作弊的查询的步骤，在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询；以及根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据。

可选地，在该方法的挖掘作弊的IP地址的步骤中，从IP地址维度进行统计分析的对象包括展现量、点击数、用户数。通过对搜索日志中这些易于统计的数据进行统计分析，可以方便地识别出作弊的IP地址。

可选地，在该方法的挖掘作弊的URL和站点的步骤中，分别从URL和站点维度进行统计分析的对象包括点击数、平均点击位置、查询数，或者包括点击数、平均点击位置、用户代理数，或者包括点击数、平均点击位置、总用户数、新生成用户数、展现量。通过对搜索日志中这些易于统计的数据进行统计分析，可以方便地识别出作弊的URL和站点。

可选地，在该方法的挖掘作弊的查询的步骤中，从查询维度进行统计分析的对象包括用户代理数、搜索次数、渠道数、点击数，或者包括展现量、点击数、浏览器数，或者包括展现量、用户数、点击数、IP地址数。通过对搜索日志中这些易于统计的数据进行统计分析，可以方便地识别出作弊的查询。

可选地，该方法还可以包括：从用户标识符维度进行搜索日志清洗的步骤，在搜索日志中根据点击的查询、URL、时长，挖掘并清除误点击行为，并且根据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理数，识别出该用户是正常用户还是异常用户，如果该用户被识别为异常用户，则清除该用户的所有行为。这样，能够进一步从用户维度挖掘并清除误点击行为、异常用户的所有行为，从而进一步提升搜索日志数据质量。

可选地，该方法还可以包括：进行株连清洗的步骤，建立识别出的作弊用户的IP地址与站点间的关联图，利用图传播算法将识别出的作弊用户的行为映射到其他用户上，将存在与识别出的作弊用户相同的行为链的其他用户标识为关联作弊用户，并从搜索日志中清除关联作弊用户的所有行为。这样，能够有效地应对新作弊用户/策略，从而增强系统的整体鲁棒性，保证线上数据应用的稳定性。

可选地，该方法的清除搜索日志中相应的作弊数据的步骤包括：以所挖掘的作弊的IP地址作为IP地址词典，过滤每条搜索日志数据，若一条搜索日志数据的IP地址在该IP地址词典中，则清除该条搜索日志数据；以所挖掘的作弊的URL和站点、作弊的查询作为对应的词典，清除搜索日志中相应的作弊数据。这样，能够有效地实现基于作弊识别结果的搜索日志清洗。

根据本发明的另一个方面，提供一种在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊系统，该系统包括：用于挖掘作弊的IP地址的装置，其在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址；用于挖掘作弊的URL和站点的装置，其在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点；用于挖掘作弊的查询的装置，其在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询；以及用于根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据的装置。

根据本发明的又一个方面，提供一种能够实现在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊的计算设备，该计算设备包括：存储器，用于存储用户使用因特网搜索引擎进行搜索的搜索日志；以及处理器，用于：从存储器读取所述搜索日志；挖掘作弊的IP地址，即，在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址；挖掘作弊的URL和站点，即，在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点；挖掘作弊的查询，即，在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询；根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据；以及将最终的搜索日志存入存储器。

本发明通过多维度分析搜索日志中的海量用户行为，识别出仿冒正常用户行为的作弊行为，有效地提高了作弊的识别准确率和召回率。

附图说明

通过结合附图对本发明的示例性实施方式进行更详细的描述，本发明的特征和优势将变得更加明显，其中：

图1是根据本发明的实施例的在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊方法的流程图；

图2是用于解释根据本发明的实施例的利用图传播算法识别关联作弊用户的示意图；以及

图3是根据本发明的实施例的能够实现在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊的计算设备的结构图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施例。

图1例示了根据本发明的实施例的在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊方法的流程。本领域技术人员知道，该搜索日志通常会记录关于用户使用因特网搜索引擎进行搜索的各种信息，诸如用户情况、查询情况、点击情况等等，并且被存储在存储装置中。

在步骤S11，挖掘作弊的IP地址，即，在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址。可选地，在该步骤中从IP地址维度进行统计分析的对象包括展现量、点击数、用户数等。例如，在小于3秒间隔内动作数(展现量与点击数总和)和用户数分别激增至1500和500以上且点击率低于0.01的行为，或者在1小时内展现量大于6500、点击数小于10且用户数与展现量之比大于0.9的行为，会被识别为机器抓取行为，与该机器抓取行为相应的IP地址会被识别为作弊的IP地址。

在步骤S12，挖掘作弊的URL和站点，即，在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点。可选地，在该步骤中分别从URL和站点维度进行统计分析的对象包括点击数、平均点击位置、查询数等。例如，若多个新生成的用户IP地址在1分钟内点击排序靠后的某个URL达到30次以上且搜索的查询数低于2，则该URL会被识别为作弊。可选地，在该步骤中分别从URL和站点维度进行统计分析的对象包括点击数、平均点击位置、用户代理数等。例如，1小时内的点击数大于100、用户代理数小于2且平均点击位置低于5的URL会被识别为作弊。可选地，在该步骤中分别从URL和站点维度进行统计分析的对象包括点击数、平均点击位置、总用户数、新生成用户数、展现量等。例如，若1天内的点击数大于100、平均点击位置大于20、总用户数大于50或者小于5，且新生成用户数与总用户数之比大于0.65、点击数与展现量之比大于0.63，则相应的URL会被识别为作弊。

在步骤S13，挖掘作弊的查询，即，在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询。可选地，在该步骤中从查询维度进行统计分析的对象包括用户代理数、搜索次数、渠道数、点击数等。例如，若多个新生成的用户含有3个以上用户代理、搜索次数与渠道数之比小于2、搜索带有商业目的的查询且不存在点击，则该查询会被识别为作弊。可选地，在该步骤中从查询维度进行统计分析的对象包括展现量、点击数、浏览器数等。例如，若1天内的展现量大于400、点击数与展现量之比小于0.1且浏览器数小于6，则相应的查询会被识别为作弊。可选地，在该步骤中从查询维度进行统计分析的对象包括展现量、用户数、点击数、IP地址数等。例如，若1天内的展现量大于50、用户数大于30、点击数与展现量之比小于0.01、用户数与展现量之比大于0.5且用户数与IP地址数之比大于0.85，则相应的查询会被识别为作弊。

可选地，在步骤S14，从用户标识符维度进行搜索日志清洗，即，在搜索日志中根据点击的查询、URL、时长等特征，挖掘并清除误点击行为(该策略只清除误点击行为，例如，若单个用户在3秒内搜索相同的查询且点击相同的URL，则除了第一次行为以外的其它行为都会被识别为误点击行为)，并且根据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理数等特征，识别出该用户是正常用户还是异常用户，如果该用户被识别为异常用户，则清除该用户的所有行为。例如，若用户搜索次数与搜索相同查询数之比大于10且点击率小于0.01，则会被识别为异常用户；若用户代理数大于2且点击相同URL数与点击数之比小于0.05，则也会被识别为异常用户。

在步骤S15，根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据。例如，可以以所挖掘的作弊的IP地址作为IP地址词典(该词典的有效期可设为1小时，从而每小时进行一次作弊IP地址挖掘)，过滤每条搜索日志数据，若一条搜索日志数据的IP地址在该IP地址词典中，则该条搜索日志数据会被视为作弊数据而得到清除；可以以所挖掘的作弊的URL和站点、作弊的查询作为对应的词典(该词典可以每7天进行合并)，清除搜索日志中相应的作弊数据。例如，可以以用户为维度，若用户在1小时内输入的查询词中有一定比例的查询词存在于作弊查询词典中(例如，用户搜索的查询词数小于10且其中有至少5个查询词在作弊查询词典中)，则清除该用户在该小时内的所有行为。

可选地，在完成步骤S15之后，在步骤S16，进行株连清洗，即，建立识别出的作弊用户的IP地址与站点间的关联图，利用图传播算法将识别出的作弊用户的行为映射到其他用户上，将存在与识别出的作弊用户相同的行为链的其他用户标识为关联作弊用户，并从搜索日志中清除关联作弊用户的所有行为。例如，如图2所示，用户A在短时间内使用IP1对站点1进行了大量点击，而且该用户还有其它特征，如更换渠道、所点击站点的日平均点击位置靠后等等，因而用户A会被识别为作弊用户。而用户B比较狡猾，他做了一些仿冒正常用户行为的点击行为以掩盖其刷站点1的行为。为了有效地识别用户B这样的新作弊用户/策略，可以建立识别出的作弊用户A的IP地址与站点间的关联图，并利用图传播算法将作弊用户A的行为映射到其他用户B上，若用户B存在与作弊用户A相同的行为链，则将用户B标识为关联作弊用户。在图2中，由于用户B的行为链中存在与作弊用户A相同的部分(由图2中上下两个方框标示)，因而用户B被标识为关联作弊用户。

图1中所示的方法可以由图3中所示的计算设备30来实现。参见图3，计算设备30包括存储器31和处理器32。

存储器31可用于存储用户使用因特网搜索引擎进行搜索的搜索日志。

处理器32可用于：从存储器31读取所述搜索日志；挖掘作弊的IP地址，即，在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址；挖掘作弊的URL和站点，即，在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点；挖掘作弊的查询，即，在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询；根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据；以及将最终的搜索日志存入存储器31。

可选地，处理器32还可用于：从用户标识符维度进行搜索日志清洗，即，在搜索日志中根据点击的查询、URL、时长等特征，挖掘并清除误点击行为，并且根据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理数等特征，识别出该用户是正常用户还是异常用户，如果该用户被识别为异常用户，则清除该用户的所有行为。

可选地，处理器32还可用于：进行株连清洗，即，建立识别出的作弊用户的IP地址与站点间的关联图，利用图传播算法将识别出的作弊用户的行为映射到其他用户上，将存在与识别出的作弊用户相同的行为链的其他用户标识为关联作弊用户，并从搜索日志中清除关联作弊用户的所有行为。

此外，本发明还可以实现为一种计算机程序，该计算机程序包括用于执行本发明的上述方法的各步骤的计算机程序代码指令。或者，本发明还可以实现为一种计算机程序产品，该计算机程序产品包括计算机可读介质，在该计算机可读介质上存储有用于执行本发明的上述方法的各步骤的计算机程序。

本领域技术人员能够理解，上述各种示例性逻辑块、模块、组件可以被实现为电子硬件、计算机软件或两者的组合。

如上所述，本发明可基于用户多维度行为而识别出搜索日志中仿冒正常用户行为的作弊行为，大大提高了作弊的识别准确率和召回率，从而可为相关业务提供高质量的搜索日志数据，并改善用户的搜索体验。

以上描述了本发明的实施例，上述说明仅是示例性的，而非限制性的。基于上述说明，本领域的普通技术人员容易想到对本发明的实施例的各种修改和变更，这些修改和变更都在本发明的范围内。本文中所用术语的选择旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本领域的普通技术人员能理解本文披露的各实施例。

Claims

1.一种在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊方法，包括：

挖掘作弊的因特网协议IP地址的步骤，在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址；

挖掘作弊的统一资源定位符URL和站点的步骤，在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点；

挖掘作弊的查询的步骤，在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询；以及

根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据。

2.根据权利要求1的多维度搜索日志反作弊方法，其中，在挖掘作弊的IP地址的步骤中，从IP地址维度进行统计分析的对象包括展现量、点击数、用户数。

3.根据权利要求1的多维度搜索日志反作弊方法，其中，在挖掘作弊的URL和站点的步骤中，分别从URL和站点维度进行统计分析的对象包括点击数、平均点击位置、查询数。

4.根据权利要求1的多维度搜索日志反作弊方法，其中，在挖掘作弊的URL和站点的步骤中，分别从URL和站点维度进行统计分析的对象包括点击数、平均点击位置、用户代理数。

5.根据权利要求1的多维度搜索日志反作弊方法，其中，在挖掘作弊的URL和站点的步骤中，分别从URL和站点维度进行统计分析的对象包括点击数、平均点击位置、总用户数、新生成用户数、展现量。

6.根据权利要求1的多维度搜索日志反作弊方法，其中，在挖掘作弊的查询的步骤中，从查询维度进行统计分析的对象包括用户代理数、搜索次数、渠道数、点击数。

7.根据权利要求1的多维度搜索日志反作弊方法，其中，在挖掘作弊的查询的步骤中，从查询维度进行统计分析的对象包括展现量、点击数、浏览器数。

8.根据权利要求1的多维度搜索日志反作弊方法，其中，在挖掘作弊的查询的步骤中，从查询维度进行统计分析的对象包括展现量、用户数、点击数、IP地址数。

9.根据权利要求1至8中任一项的多维度搜索日志反作弊方法，还包括：

从用户标识符维度进行搜索日志清洗的步骤，在搜索日志中根据点击的查询、URL、时长，挖掘并清除误点击行为，并且根据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理数，识别出该用户是正常用户还是异常用户，如果该用户被识别为异常用户，则清除该用户的所有行为。

10.根据权利要求1至8中任一项的多维度搜索日志反作弊方法，还包括：

进行株连清洗的步骤，建立识别出的作弊用户的IP地址与站点间的关联图，利用图传播算法将识别出的作弊用户的行为映射到其他用户上，将存在与识别出的作弊用户相同的行为链的其他用户标识为关联作弊用户，并从搜索日志中清除关联作弊用户的所有行为。

11.根据权利要求1至8中任一项的多维度搜索日志反作弊方法，其中，清除搜索日志中相应的作弊数据的步骤包括：

以所挖掘的作弊的IP地址作为IP地址词典，过滤每条搜索日志数据，若一条搜索日志数据的IP地址在该IP地址词典中，则清除该条搜索日志数据；

以所挖掘的作弊的URL和站点、作弊的查询作为对应的词典，清除搜索日志中相应的作弊数据。

12.一种在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊系统，包括：

用于挖掘作弊的因特网协议IP地址的装置，其在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址；

用于挖掘作弊的统一资源定位符URL和站点的装置，其在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点；

用于挖掘作弊的查询的装置，其在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询；以及

用于根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据的装置。

13.根据权利要求12的多维度搜索日志反作弊系统，还包括：

用于从用户标识符维度进行搜索日志清洗的装置，其在搜索日志中根据点击的查询、URL、时长，挖掘并清除误点击行为，并且根据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理数，识别出该用户是正常用户还是异常用户，如果该用户被识别为异常用户，则清除该用户的所有行为。

14.根据权利要求12的多维度搜索日志反作弊系统，还包括：

用于进行株连清洗的装置，其建立识别出的作弊用户的IP地址与站点间的关联图，利用图传播算法将识别出的作弊用户的行为映射到其他用户上，将存在与识别出的作弊用户相同的行为链的其他用户标识为关联作弊用户，并从搜索日志中清除关联作弊用户的所有行为。

15.一种能够实现在因特网搜索引擎中基于用户行为的多维度搜索日志反作弊的计算设备，包括：

存储器，用于存储用户使用因特网搜索引擎进行搜索的搜索日志；以及

处理器，用于：

从存储器读取所述搜索日志；

挖掘作弊的因特网协议IP地址，即，在搜索日志中通过从IP地址维度进行统计分析，识别出机器抓取行为及相应的作弊的IP地址；

挖掘作弊的统一资源定位符URL和站点，即，在搜索日志中通过分别从URL和站点维度进行统计分析，识别出仿冒正常用户点击的作弊的URL和站点；

挖掘作弊的查询，即，在搜索日志中通过从查询维度进行统计分析，识别出仿冒正常用户搜索的作弊的查询；

根据所挖掘的作弊的IP地址、作弊的URL和站点、作弊的查询，清除搜索日志中相应的作弊数据；以及

将最终的搜索日志存入存储器。

16.根据权利要求15的计算设备，其中，处理器还用于：

从用户标识符维度进行搜索日志清洗，即，在搜索日志中根据点击的查询、URL、时长，挖掘并清除误点击行为，并且根据用户的搜索次数、搜索相同查询数、点击数、点击相同URL数、用户代理数，识别出该用户是正常用户还是异常用户，如果该用户被识别为异常用户，则清除该用户的所有行为。

17.根据权利要求15的计算设备，其中，处理器还用于：

进行株连清洗，即，建立识别出的作弊用户的IP地址与站点间的关联图，利用图传播算法将识别出的作弊用户的行为映射到其他用户上，将存在与识别出的作弊用户相同的行为链的其他用户标识为关联作弊用户，并从搜索日志中清除关联作弊用户的所有行为。