CN105718564A

CN105718564A - 推广行为的检测方法及装置

Info

Publication number: CN105718564A
Application number: CN201610037932.2A
Authority: CN
Inventors: 李昕; 刘奕群; 茹立云; 张敏; 马少平; 汪萌; 洪日昌
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2016-01-20
Filing date: 2016-01-20
Publication date: 2016-06-29

Abstract

本发明公开了一种推广行为的检测方法及装置，其中该方法包括：获取基于众包网站中针对多个第一用户发布的多个推广任务信息，并根据多个推广任务信息获取N个第一推广渠道作为种子推广渠道；获取基于问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息，并确定多个答案信息以及多个问题信息中的包含种子推广渠道和非种子推广渠道的M个第二推广渠道；根据M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户?渠道的二部图；根据种子推广渠道和用户?渠道的二部图计算二部图中每个用户与每个渠道对应的分数值对多个答案信息进行推广行为检测。该方法能够有效检测推广作弊行为，提升问答社区用户体验，减小了用户的损失。

Description

推广行为的检测方法及装置

技术领域

本发明涉及网络信息智能处理技术领域，尤其涉及一种推广行为的检测方法及装置。

背景技术

问答社区作为一个供用户寻求和提供知识的平台而广泛流行，在问答社区中，用户可以提出一个问题，称为开放问题，其他用户可以对于该问题给出各自的答案，如果提问者对于某个答案满意的话，那么可以将此答案选为满意答案并关闭问题，关闭以后其他用户不可以继续回答。对于每个答案，问答社区用户可以投票赞成或者不赞成。问答社区也为搜索引擎用户提供了更多的搜索结果。例如，常用的问答社区在国外有Yahoo！Answers、Quora等，国内有百度知道、搜狗问问等。不同问答社区的组成部分大致相同，以搜狗问问为例，主要包括问题、答案、用户三个部分。

但是，有研究表明，问答社区中有较高比例的答案是低质量的，作弊者会在问答社区中将推广信息展示给用户以增加他们的商业利益，例如，在答案的前半部分包含了一些给提问者的高质量的建议，但是在答案的最后，回答者推广了一个产品，并给出了产品的购买链接，使得它成为了推广行为的一部分。这个答案可能会被现有的质量评估方法识别为高质量答案，因为它确实包含了一些有用的信息。但是，和有用信息同时提供的推广信息可能是有误导性的。因此，如何快速、并更加准确地从问答社区中检测推广作弊行为已成为亟待解决的问题。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出一种推广行为的检测方法，该方法能够通过抓取种子推广渠道来找到问答平台中具有推广行为的答案，有效并快速地检测出推广作弊行为，提升了问答社区用户体验，减小了用户的损失。

本发明的第二个目的在于提出一种推广行为的检测装置。

为达上述目的，本发明第一方面实施例提出了一种推广行为的检测方法包括：基于众包网站，获取所述众包网站中针对多个第一用户发布的多个推广任务信息，并根据所述多个推广任务信息获取N个第一推广渠道，以及将所述N个第一推广渠道作为种子推广渠道，其中，N为正整数；基于问答平台，获取所述问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息，并确定所述多个答案信息以及多个问题信息中的M个第二推广渠道，其中，所述M个第二推广渠道包含所述种子推广渠道和非种子推广渠道，且M为正整数；根据所述M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图；根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值；以及根据所述二部图中每个用户与每个渠道分别对应的分数值对所述多个答案信息进行推广行为检测。

根据本发明实施例的推广行为的检测方法，获取众包网站中多个第一用户发布的多个推广任务信息,并从中抓取出N个第一推广渠道以作为种子推广渠道，并获取问答平台中的多个答案信息、多个问题信息和第二用户信息，并确定这些答案和问题信息中所包含的第二推广渠道，之后，根据第二推广渠道、答案信息、以及第二用户信息构建用户-渠道的二部图，并根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道对应的分数值，并根据该分数值对多个答案信息进行推广行为检测。该方法能够通过抓取种子推广渠道来找到问答平台中具有推广行为的答案，有效并快速地检测出推广作弊行为，提升了问答社区用户体验，减小了用户的损失。

在本发明的一个实施例中，所述N个第一推广渠道和所述M个第二推广渠道包括URL地址、电话号码、和/或社交媒体账号。

在本发明的一个实施例中，所述根据所述M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图，包括：根据所述多个第二用户信息确定多个第二用户；以所述多个第二用户、M个第二推广渠道作为所述二部图的节点，如果所述多个答案信息中包含第i第二推广渠道，其中，i为正整数，且1≤i≤M，则确定所述多个答案信息对应的第二用户，并建立所述多个答案信息对应的第二用户与所述第i第二推广渠道之间的对应关系，以所述构建用户-渠道的二部图。

在本发明的一个实施例中，所述根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值，包括：基于所述二部图，确定所述二部图中的所述种子推广渠道的节点，并将所述种子推广渠道的分数值设置为1，以及分别将所述非种子推广渠道和每个用户的分数值设置为0；针对每轮迭代过程中，对于所述每个用户，将与所述每个用户的节点相连的第二推广渠道的分数值进行加权求平均，并将所述加权求平均得到的分数值作为所述每个用户的分数值；针对每个非种子推广渠道，将与所述每个非种子推广渠道的节点相邻的用户的分数值进行加权求平均，并将所述加权求平均得到的分数值作为所述每个非种子推广渠道的分数值，直至在相邻的两轮迭代中，所述每个用户和所述每个非种子推广渠道的分数值的变化量小于第一预设阈值时，停止迭代。

在本发明的一个实施例中，所述根据所述二部图中每个用户与每个渠道分别对应的分数值对所述多个答案信息进行推广行为检测，包括：基于所述二部图，针对每个答案信息，将所述每个答案信息中所包含的第二推广渠道的最高分数值作为所述每个答案信息的作弊分数值；将作弊分数值大于或等于第二预设阈值的答案判定为所述推广行为。

在本发明的一个实施例中，在根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值之后，还包括：

根据所述多个答案信息和多个问题信息确定多个问答对信息；基于所述二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取所述每个问答对信息的三维特征，其中，所述三维特征包括所述每个问答对信息中提问者的分数值、回答者的分数值、以及所述每个问答对信息的答案信息中所包含的第二推广渠道的最高分数值；根据所述每个问答对信息的三维特征以及预先建立的分类模型对所述多个问答对信息进行分类，以分类出满足预设条件的问答对，并将所述满足预设条件的问答对判定为所述推广行为。

为达上述目的，本发明第二方面实施例提出了一种推广行为的检测装置包括：第一获取模块，用于基于众包网站，获取所述众包网站中针对多个第一用户发布的多个推广任务信息，并根据所述多个推广任务信息获取N个第一推广渠道，以及将所述N个第一推广渠道作为种子推广渠道，其中，N为正整数；第二获取模块，用于基于问答平台，获取所述问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息；第一确定模块，用于确定所述多个答案信息以及多个问题信息中的M个第二推广渠道，其中，所述M个第二推广渠道包含所述种子推广渠道和非种子推广渠道，且M为正整数；构建模块，用于根据所述M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图；计算模块，用于根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值；以及检测模块，用于根据所述二部图中每个用户与每个渠道分别对应的分数值对所述多个答案信息进行推广行为检测。

根据本发明实施例的推广行为的检测装置，通过第一获取模块获取众包网站中多个第一用户发布的多个推广任务信息，并根据该推广任务信息得到N个第一推广渠道，并将其作为种子推广渠道，第二获取模块获取问答平台中的多个答案信息、多个问题信息和第二用户信息，第一确定模块确定这些答案和问题信息中所包含的第二推广渠道，构建模块根据第二推广渠道、答案信息、以及第二用户信息构建用户-渠道的二部图，检测模块根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道对应的分数值，并根据该分数值对多个答案信息进行推广行为检测。该装置能够通过抓取种子推广渠道来找到问答平台中具有推广行为的答案，有效并快速地检测出推广作弊行为，提升了问答社区用户体验，减小了用户的损失。

在本发明的一个实施例中，所述构建模块包括：确定单元，用于根据所述多个第二用户信息确定多个第二用户；构建单元，用于以所述多个第二用户、M个第二推广渠道作为所述二部图的节点，在所述多个答案信息中包含第i第二推广渠道时，其中，i为正整数，且1≤i≤M，确定所述多个答案信息对应的第二用户，并建立所述多个答案信息对应的第二用户与所述第i第二推广渠道之间的对应关系，以所述构建用户-渠道的二部图。

在本发明的一个实施例中，所述计算模块具体用于：基于所述二部图，确定所述二部图中的所述种子推广渠道的节点，并将所述种子推广渠道的分数值设置为1，以及分别将所述非种子推广渠道和每个用户的分数值设置为0；针对每轮迭代过程中，对于所述每个用户，将与所述每个用户的节点相连的第二推广渠道的分数值进行加权求平均，并将所述加权求平均得到的分数值作为所述每个用户的分数值；针对每个非种子推广渠道，将与所述每个非种子推广渠道的节点相邻的用户的分数值进行加权求平均，并将所述加权求平均得到的分数值作为所述每个非种子推广渠道的分数值，直至在相邻的两轮迭代中，所述每个用户和所述每个非种子推广渠道的分数值的变化量小于第一预设阈值时，停止迭代。

在本发明的一个实施例中，所述检测模块具体用于：基于所述二部图，针对每个答案信息，将所述每个答案信息中所包含的第二推广渠道的最高分数值作为所述每个答案信息的作弊分数值；将作弊分数值大于或等于第二预设阈值的答案判定为所述推广行为。

在本发明的一个实施例中，所述推广行为的检测装置，还包括：第二确定模块，用于在根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值之后，根据所述多个答案信息和多个问题信息确定多个问答对信息；抽取模块，用于基于所述二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取所述每个问答对信息的三维特征，其中，所述三维特征包括所述每个问答对信息中提问者的分数值、回答者的分数值、以及所述每个问答对信息的答案信息中所包含的第二推广渠道的最高分数值；其中，所述检测模块还用于根据所述每个问答对信息的三维特征以及预先建立的分类模型对所述多个问答对信息进行分类，以分类出满足预设条件的问答对，并将所述满足预设条件的问答对判定为所述推广行为。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的时间了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1为根据本发明一个实施例的推广行为的检测方法的流程图；

图2为根据本发明一个实施例的用户-渠道的二部图的结构示意图；

图3为根据本发明一个实施例的计算二部图中每个用户与每个渠道分别对应的分数值的流程图；

图4为根据本发明另一个实施例的推广行为的检测方法的流程图；

图5为根据本发明一个实施例的推广行为的检测装置的结构示意图；

图6为根据本发明另一个实施例的推广行为的检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

近年来，众包平台因其能够快速智能地聚集人力资源而被广泛使用。人们可以在众包平台上以一定的价格雇佣人力来完成自己的任务，如品牌设计、网站建设、文案策划等。众包平台一般有两个主要组成部分：任务发布者和任务接收者。其中，任务发布者可以在平台上发布任务，对于任务要求进行描述，给出预算，检验完成任务的人给出的结果是否合格，并对于合格完成任务的人发放报酬；任务接收者可以接收平台上的任务，并按照任务要求完成，如果合格则可获取相应报酬。

众包平台的流行也吸引了作弊者利用其在不同网站上进行推广行为。例如，任务发布者希望对于一个留学中介进行推广，所以指使任务接收者在问答社区(如百度知道)上按照指定的提问内容和回答内容来发布问题和答案。然而，这种恶意推广行为对于互联网用户体验以及市场的公平性都有着极大危害。

由于问答社区用户在发布问题时更倾向于即时的解决办法，提问者更喜欢短的有针对性的回答，因此在答案中包含的信息是有限的。那么，答案本身通常不能欺骗用户，而欺诈者通常依靠一些渠道来连接用户和他们的推广目标，这也是对于推广行为不可替代的。然而，本发明的发明人通过研究得知，以下是三种常见的推广渠道：(1)URL，作弊者使用最广泛的推广渠道来推广他们的产品，这些URL会链接至一个电子商务网页，通常会展示产品的描述甚至是购买链接；(2)电话号码，在问答社区中，作弊者会在答案中加入电话号码来吸引用户拨打，然后他们会试图说服用户购买他们的产品或服务，或者获取用户的个人信息；(3)社交媒体账号，如QQ、微信等社交媒体给作弊者提供了一个新的做推广行为的方法，作弊者在答案中留下他们的社交媒体账号，当问答社区用户通过社交媒体和他们交流时，作弊者就可以执行他们的推广活动。

因此，为了解决问答社区中推广作弊行为可能会给用户带来不必要的损失、用户体验差等问题，本发明针对问答社区中存在推广行为的情况，提出了一种推广行为的检测方法及装置。具体地，下面参考附图描述本发明实施例的推广行为的检测方法及装置。

图1为根据本发明一个实施例的推广行为的检测方法的流程图。

如图1所示，该推广行为的检测方法可以包括：

S11，基于众包网站，获取众包网站中针对多个第一用户发布的多个推广任务信息，并根据多个推广任务信息获取N个第一推广渠道，以及将N个第一推广渠道作为种子推广渠道，其中，N为正整数。

其中，该众包网站可理解是为使用者聚集人力资源而完成使用者所布置的任务的网站，即使用者可以在该众包网站上以一定的价格雇佣人力来完成自己的任务，如品牌设计、网站建设、文案策划等，该众包网站例如为“猪八戒”服务众包平台、“任务多多”网站、“三打哈”服务平台等。

具体地，可根据预先设置的关键字(如百度知道、搜狗问问等问答社区)从众包网站中抽取多个用户发布的推广任务信息，并从这些推广任务信息中抓取出其中的第一推广渠道，最后将这些第一推广渠道作为种子推广渠道以便后续使用。其中，在本发明的实施例中，第一推广渠道包括但不限于URL地址、电话号码、和/或社交媒体账号等。

举例而言，可先访问一个众包网(例如“猪八戒”)的1万个用户的主页，并从这些用户的任务描述当中抽取推广渠道，比如得到包含106个URL、15个电话号码、19个QQ和8个微信号等等，之后，可以将这些URL、电话号码、QQ和微信号作为种子推广渠道。可以理解，这种从在问答社区上推广产品的任务描述中抽取的推广渠道非常准确，可以作为种子找出更多推广渠道和包含推广行为的答案。

S12，基于问答平台，获取问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息，并确定多个答案信息以及多个问题信息中的M个第二推广渠道，其中，M个第二推广渠道包含种子推广渠道和非种子推广渠道，且M为正整数。

需要说明的是，在本发明的实施例中，第二推广渠道包括URL地址、电话号码、和/或社交媒体账号。还有这里的问答平台可以包括但不限于百度知道、新浪爱问、豆瓣和搜狗问问等一种或几种。

S13，根据M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图。

具体而言，在本发明的实施例中，构建用户-渠道的二部图的具体实现过程可包括:可先根据多个第二用户信息确定多个第二用户,并以多个第二用户、M个第二推广渠道作为二部图的节点，如果多个答案信息中包含第i第二推广渠道，其中，i为正整数，且1≤i≤M，则确定多个答案信息对应的第二用户，并建立多个答案信息对应的第二用户与第i第二推广渠道之间的对应关系，以构建用户-渠道的二部图。

具体举例而言，在问答社区中，一个用户可能会给不同问题提供多个答案，同时，一个推广渠道可能包含在不同答案当中，因此，可对从问答社区中获取到的数据集进行分析，并首先以用户、答案、推广渠道作为节点，找到用户、答案、推广渠道这三种之间的关系，并以连接线表示两者之间有对应关系，这样可以得到一个用户、答案、推广渠道的关系图，最后只保留用户、推广渠道节点以及这两者之间的对应关系，得到表示用户和推广渠道关系的关系图，即用户-渠道的二部图。例如，如图2(a)所示，展示了用户、答案和推广渠道的关系，当去掉所有答案节点之后，可得到如图2(b)展示了用户和推广渠道的关系，即用户-渠道的二部图。

S14，根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道分别对应的分数值。

具体地，在构建用户-渠道的二部图之后，可在该二部图上扩散种子推广渠道的作弊意图以检测更多作弊答案。首先，可先进行两点基本假设：假设1，作弊者需要推广渠道来组织推广行为，这是因为，答案本身无法包含足够的细节来吸引用户进行进一步的交流，因此作弊者依靠推广渠道来达到推广的目标，这也使得推广渠道在推广活动中是不可替代的；假设2，如果在一个用户的答案中包含的某个渠道被证明是推广渠道，那么在该用户给出的答案中包含的其他渠道也可能是推广渠道，这是因为，通常作弊者通过组织大量推广行为获取利益，由于一个推广活动可能只和一个或少数几个推广渠道相关，因此假设由作弊者发布的其他渠道也是推广渠道是合理的。

基于上述两点假设，本发明的发明人提出了一种“用户-渠道”二部图扩散算法，通过该“用户-渠道”二部图扩散算法可获得二部图中每个用户与每个渠道分别对应的分数值。具体而言，在本发明的实施例中，如图3所示，基于“用户-渠道”二部图扩散算法，根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道分别对应的分数值的具体实现过程可包括：

S141，基于二部图，确定二部图中的种子推广渠道的节点，并将种子推广渠道的分数值设置为1，以及分别将非种子推广渠道和每个用户的分数值设置为0。

也就是说，在初始阶段，可先从二部图中确定出哪些是种子推广渠道的节点，并将所有种子推广渠道的分数值赋值为1，将二部图中的其他渠道和所有用户的分数值赋值为0。

S142，针对每轮迭代过程中，对于每个用户，将与每个用户的节点相连的第二推广渠道的分数值进行加权求平均，并将加权求平均得到的分数值作为每个用户的分数值。

也就是说，在每一轮迭代过程中，首先对于每个用户，将该用户的分数值更新为和该用户相连的所有渠道的分数值的加权求平均。

S143，针对每个非种子推广渠道，将与每个非种子推广渠道的节点相邻的用户的分数值进行加权求平均，并将加权求平均得到的分数值作为每个非种子推广渠道的分数值，直至在相邻的两轮迭代中，每个用户和每个非种子推广渠道的分数值的变化量小于第一预设阈值时，停止迭代。

具体地，对于每个非种子推广渠道，将该每个非种子推广渠道的分数值更新为和其相连的所有用户的分数的加权求平均，直到在相连的两轮迭代中，用户和非种子推广渠道的分数值的变化量小于一定阈值时，迭代停止。

可以理解，在扩散算法结束后，二部图中的每个用户和每个推广渠道都会得到一个表示其作弊程度的分数值，分数值越高，表明该用户或该推广渠道越可能和推广行为作弊活动相关。

S15，根据二部图中每个用户与每个渠道分别对应的分数值对多个答案信息进行推广行为检测。

需要说明的是，在本发明的实施例中，根据二部图中每个用户与每个渠道分别对应的分数值对多个答案信息进行推广行为检测的具体实现过程可包括：基于二部图，针对每个答案信息，将每个答案信息中所包含的第二推广渠道的最高分数值作为每个答案信息的作弊分数值，将作弊分数值大于或等于第二预设阈值的答案判定为推广行为。

也就是说，可将答案中所包含的推广渠道的最高分数值作为该答案的作弊分数值，并将该作弊分数值高于第二预设阈值(如0.8)的答案判定为推广行为，并将该答案列入推广答案集合中。

根据本发明实施例的推广行为的检测方法，获取众包网站中多个第一用户发布的多个推广任务信息，并从中抓取出N个第一推广渠道以作为种子推广渠道，并获取问答平台中的多个答案信息、多个问题信息和第二用户信息，并确定这些答案和问题信息中所包含的第二推广渠道，之后，根据第二推广渠道、答案信息、以及第二用户信息构建用户-渠道的二部图，并根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道对应的分数值，并根据该分数值对多个答案信息进行推广行为检测。该方法能够通过抓取种子推广渠道来找到问答平台中具有推广行为的答案，有效并快速地检测出推广作弊行为，提升了问答社区用户体验，减小了用户的损失。

图4为根据本发明另一个实施例的推广行为的检测方法的流程图。

如图4所示，该推广行为的检测方法可包括：

S41，基于众包网站，获取众包网站中针对多个第一用户发布的多个推广任务信息，并根据多个推广任务信息获取N个第一推广渠道，以及将N个第一推广渠道作为种子推广渠道，其中，N为正整数。

S42，基于问答平台，获取问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息，并确定多个答案信息以及多个问题信息中的M个第二推广渠道，其中，M个第二推广渠道包含种子推广渠道和非种子推广渠道，且M为正整数。

S43，根据M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图。

S44，根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道分别对应的分数值。

S45，根据多个答案信息和多个问题信息确定多个问答对信息。

S46，基于二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取每个问答对信息的三维特征，其中，三维特征包括每个问答对信息中提问者的分数值、回答者的分数值、以及每个问答对信息的答案信息中所包含的第二推广渠道的最高分数值。

S47，根据每个问答对信息的三维特征以及预先建立的分类模型对多个问答对信息进行分类，以分类出满足预设条件的问答对，并将满足预设条件的问答对判定为推广行为。

需要说明的是，对于抽取的三维特征，使用预先建立的分类模型(例如，逻辑斯蒂回归、SVM(SupportVectorMachine，支持向量机)等)对多个问答对信息进行分类，以分类出满足预设条件(如被分为正例)的问答对，并将满足预设条件的问答对判定为推广行为。

可以理解，在在问答社区中，一个用户可以同时既是提问者又是回答者。如上所述，作弊者可能提出问题并选择他们自己给出的答案为最佳答案。所以，在问答对级别的推广行为检测过程中，需要同时考虑提问者和回答者的因素。由于在上述答案级别的检测方法中，已经得到了每个用户和每个渠道的分数值，因此，可利用这些分数值，采用有监督的学习模型来决定每个问答对是否属于推广行为。对于每个问答对，可抽取三维特征：如提问者的分数值、回答者的分数值以及答案中包含的推广渠道的最高分数值。之后，可利用上述特征，可预先训练分类模型。最后，对于每个问答对抽取三维特征，使用预先训练好的分类模型进行分类，并将被分为正例的问答对判断为推广行为。

根据本发明实施例的推广行为的检测方法，在根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道分别对应的分数值之后，根据多个答案信息和多个问题信息确定多个问答对信息，并基于二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取每个问答对信息的三维特征，最后，根据每个问答对信息的三维特征以及预先建立的分类模型对多个问答对信息进行分类，以分类出满足预设条件的问答对，并将满足预设条件的问答对判定为推广行为，即能够自动从问答社区中检测推广行为的问答对，并通过自动地学习出分类模型，对于问答社区中每出现一个新的答案，可以抽取特征并利用分类模型进行识别，从而可以及时高效地检测推广行为。

为了验证本发明实施例的推广行为的检测方法的有效性和可靠性，下面可通过试验结果来描述本发明的特点。

举例而言，以访问一个众包网站“猪八戒”(www.zhubajie.com)的10,000个用户的主页为例，从10,000个用户的任务描述当中抽取种子推广渠道。结果得到了包含106个URL、15个电话号码、19个QQ号和8个微信号的种子推广渠道集合，设为S。可以理解，这种种子推广渠道的抽取方式非常准确(准确率100％)，因为它们是从在问答社区上推广产品的任务描述中抽取出来的，因此，它们可以用作种子来找出更多推广渠道和包含推广行为的答案。

之后，基于搜狗问问(http://wenwen.sogou.com/)提供的一个数据集，包含6,452,981个问题和11,758,802个答案。数据集中包含每种推广渠道的问题和答案的数量及比例统计如下表所示：

表1问题和答案中包含各种推广渠道的数量及比例

	问题	答案
			URL	291,304(4.5％)	326,576(2.8％)
电话号码	37,662(0.6％)	43,550(0.4％)
			QQ号	52,657(0.8％)	60,960(0.5％)
微信号	18,840(0.3％)	23,277(0.2％)

基于上述数据可构建表示用户(集合U)和推广渠道(集合C)的关系的二部图。然后，利用上述实施例所描述的二部图扩散算法计算出每个用户与每个渠道分别对应的分数值，并根据这些分数值可获得具有推广行为的答案集合以及问答对集合。

在上述实现的过程中，从运行效率来看，当本发明推广行为的检测方法所应用于的应用程序的运行硬件环境为4核3.2G主频CPU、8G内存，计算机在从6,452,981个问题和11,758,802个答案构建的“用户-渠道”二部图上应用扩散算法时，消耗的时间约为60分钟。这比采用人工标注的识别方式在速度和规模方面都有很大的提升。

从推广行为检测的效果来看，在答案级别随机抽取了500个答案进行人工标注，并根据每个答案的分数值从高到低排序，计算AUC值。结果AUC值最高可以达到0.8839，说明扩散算法确实可以给具有推广行为的答案分配更高的分数。在问答对级别，找出这500个答案对应的问题，并对这500个问答对进行标注，抽取上述提出的三维特征并应用逻辑斯蒂回归算法进行分类，结果F1值可达0.819，说明分类结果具有较高的准确度。

综上，本发明能够自动从问答社区中检测推广的答案和问答对。模型(即上述的分类模型)结构和参数简单，算法复杂度低，在实验测试数据上取得了比较好的性能和推广行为检测效果。另外，从上述示例可以看出，本发明具有较好的推广性和适应性，推广行为检测效果客观全面，有良好的应用前景。

与上述几种实施例提供的推广行为的检测方法相对应，本发明的一种实施例还提供一种推广行为的检测装置，由于本发明实施例提供的推广行为的检测装置与上述几种实施例提供的推广行为的检测方法相对应，因此在前述推广行为的检测方法的实施方式也适用于本实施例提供的推广行为的检测装置，在本实施例中不再详细描述。图5为根据本发明一个实施例的推广行为的检测装置的结构示意图。如图5所示，该推广行为的检测装置可以包括：第一获取模块10、第二获取模块20、第一确定模块30、构建模块40、计算模块50和检测模块60。

其中，第一获取模块10用于基于众包网站，获取众包网站中针对多个第一用户发布的多个推广任务信息，并根据多个推广任务信息获取N个第一推广渠道，以及将N个第一推广渠道作为种子推广渠道，其中，N为正整数。第二获取模块20用于基于问答平台，获取问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息。第一确定模块30用于确定多个答案信息以及多个问题信息中的M个第二推广渠道，其中，M个第二推广渠道包含种子推广渠道和非种子推广渠道，且M为正整数。构建模块40用于根据M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图。计算模块50用于根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道分别对应的分数值。检测模块60用于根据二部图中每个用户与每个渠道分别对应的分数值对多个答案信息进行推广行为检测。

在本发明的一个实施例中，N个第一推广渠道和M个第二推广渠道可包括但不限于URL地址、电话号码、和/或社交媒体账号等。

在本发明的一个实施例中，在图5中，构建模块40包括：确定单元41用于根据多个第二用户信息确定多个第二用户；构建单元42用于以多个第二用户、M个第二推广渠道作为二部图的节点，在多个答案信息中包含第i第二推广渠道时，其中，i为正整数，且1≤i≤M，确定多个答案信息对应的第二用户，并建立多个答案信息对应的第二用户与第i第二推广渠道之间的对应关系，以构建用户-渠道的二部图。

在本发明的一个实施例中，计算模块50具体用于：基于二部图，确定二部图中的种子推广渠道的节点，并将种子推广渠道的分数值设置为1，以及分别将非种子推广渠道和每个用户的分数值设置为0；针对每轮迭代过程中，对于每个用户，将与每个用户的节点相连的第二推广渠道的分数值进行加权求平均，并将加权求平均得到的分数值作为每个用户的分数值；针对每个非种子推广渠道，将与每个非种子推广渠道的节点相邻的用户的分数值进行加权求平均，并将加权求平均得到的分数值作为每个非种子推广渠道的分数值，直至在相邻的两轮迭代中，每个用户和每个非种子推广渠道的分数值的变化量小于第一预设阈值时，停止迭代。

在本发明的实施例中，检测模块60根据二部图中每个用户与每个渠道分别对应的分数值对多个答案信息进行推广行为检测的具体实现过程可如下：基于二部图，针对每个答案信息，将每个答案信息中所包含的第二推广渠道的最高分数值作为每个答案信息的作弊分数值；将作弊分数值大于或等于第二预设阈值的答案判定为推广行为。

图6为根据本发明另一个实施例的推广行为的检测装置的结构示意图。如图6所示，该推广行为的检测装置可以包括：第一获取模块10、第二获取模块20、第一确定模块30、构建模块40、计算模块50、检测模块60、第二确定模块70和抽取模块80。

其中，第二确定模块70用于在根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道分别对应的分数值之后，根据多个答案信息和多个问题信息确定多个问答对信息。抽取模块80用于基于二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取每个问答对信息的三维特征，其中，三维特征包括每个问答对信息中提问者的分数值、回答者的分数值、以及每个问答对信息的答案信息中所包含的第二推广渠道的最高分数值。其中，检测模块60还用于根据每个问答对信息的三维特征以及预先建立的分类模型对多个问答对信息进行分类，以分类出满足预设条件的问答对，并将满足预设条件的问答对判定为推广行为。

根据本发明实施例的推广行为的检测装置，通过第二确定模块在根据种子推广渠道和用户-渠道的二部图计算二部图中每个用户与每个渠道分别对应的分数值之后，根据多个答案信息和多个问题信息确定多个问答对信息，抽取模块基于二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取每个问答对信息的三维特征，检测模块根据每个问答对信息的三维特征以及预先建立的分类模型对多个问答对信息进行分类，以分类出满足预设条件的问答对，并将满足预设条件的问答对判定为推广行为，即能够自动从问答社区中检测推广行为的问答对，并通过自动地学习出分类模型，对于问答社区中每出现一个新的答案，可以抽取特征并利用分类模型进行识别，从而可以及时高效地检测推广行为。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种推广行为的检测方法，其特征在于，包括：

基于众包网站，获取所述众包网站中针对多个第一用户发布的多个推广任务信息，并根据所述多个推广任务信息获取N个第一推广渠道，以及将所述N个第一推广渠道作为种子推广渠道，其中，N为正整数；

基于问答平台，获取所述问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息，并确定所述多个答案信息以及多个问题信息中的M个第二推广渠道，其中，所述M个第二推广渠道包含所述种子推广渠道和非种子推广渠道，且M为正整数；

根据所述M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图；

根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值；以及

根据所述二部图中每个用户与每个渠道分别对应的分数值对所述多个答案信息进行推广行为检测。

2.如权利要求1所述的推广行为的检测方法，其特征在于，其中，所述N个第一推广渠道和所述M个第二推广渠道包括URL地址、电话号码、和/或社交媒体账号。

3.如权利要求1所述的推广行为的检测方法，其特征在于，所述根据所述M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图，包括：

根据所述多个第二用户信息确定多个第二用户；

以所述多个第二用户、M个第二推广渠道作为所述二部图的节点，如果所述多个答案信息中包含第i第二推广渠道，其中，i为正整数，且1≤i≤M，则确定所述多个答案信息对应的第二用户，并建立所述多个答案信息对应的第二用户与所述第i第二推广渠道之间的对应关系，以所述构建用户-渠道的二部图。

4.如权利要求1所述的推广行为的检测方法，其特征在于，所述根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值，包括：

基于所述二部图，确定所述二部图中的所述种子推广渠道的节点，并将所述种子推广渠道的分数值设置为1，以及分别将所述非种子推广渠道和每个用户的分数值设置为0；

针对每轮迭代过程中，对于所述每个用户，将与所述每个用户的节点相连的第二推广渠道的分数值进行加权求平均，并将所述加权求平均得到的分数值作为所述每个用户的分数值；

针对每个非种子推广渠道，将与所述每个非种子推广渠道的节点相邻的用户的分数值进行加权求平均，并将所述加权求平均得到的分数值作为所述每个非种子推广渠道的分数值，直至在相邻的两轮迭代中，所述每个用户和所述每个非种子推广渠道的分数值的变化量小于第一预设阈值时，停止迭代。

5.如权利要求4所述的推广行为的检测方法，其特征在于，所述根据所述二部图中每个用户与每个渠道分别对应的分数值对所述多个答案信息进行推广行为检测，包括：

基于所述二部图，针对每个答案信息，将所述每个答案信息中所包含的第二推广渠道的最高分数值作为所述每个答案信息的作弊分数值；

将作弊分数值大于或等于第二预设阈值的答案判定为所述推广行为。

6.如权利要求1所述的推广行为的检测方法，其特征在于，在根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值之后，还包括：

根据所述多个答案信息和多个问题信息确定多个问答对信息；

基于所述二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取所述每个问答对信息的三维特征，其中，所述三维特征包括所述每个问答对信息中提问者的分数值、回答者的分数值、以及所述每个问答对信息的答案信息中所包含的第二推广渠道的最高分数值；

根据所述每个问答对信息的三维特征以及预先建立的分类模型对所述多个问答对信息进行分类，以分类出满足预设条件的问答对，并将所述满足预设条件的问答对判定为所述推广行为。

7.一种推广行为的检测装置，其特征在于，包括：

第一获取模块，用于基于众包网站，获取所述众包网站中针对多个第一用户发布的多个推广任务信息，并根据所述多个推广任务信息获取N个第一推广渠道，以及将所述N个第一推广渠道作为种子推广渠道，其中，N为正整数；

第二获取模块，用于基于问答平台，获取所述问答平台中的多个答案信息、多个问题信息、以及多个第二用户信息；

第一确定模块，用于确定所述多个答案信息以及多个问题信息中的M个第二推广渠道，其中，所述M个第二推广渠道包含所述种子推广渠道和非种子推广渠道，且M为正整数；

构建模块，用于根据所述M个第二推广渠道、多个答案信息、以及多个第二用户信息构建用户-渠道的二部图；

计算模块，用于根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值；以及

检测模块，用于根据所述二部图中每个用户与每个渠道分别对应的分数值对所述多个答案信息进行推广行为检测。

8.如权利要求7所述的推广行为的检测装置，其特征在于，其中，所述N个第一推广渠道和所述M个第二推广渠道包括URL地址、电话号码、和/或社交媒体账号。

9.如权利要求7所述的推广行为的检测装置，其特征在于，所述构建模块包括：

确定单元，用于根据所述多个第二用户信息确定多个第二用户；

构建单元，用于以所述多个第二用户、M个第二推广渠道作为所述二部图的节点，在所述多个答案信息中包含第i第二推广渠道时，其中，i为正整数，且1≤i≤M，确定所述多个答案信息对应的第二用户，并建立所述多个答案信息对应的第二用户与所述第i第二推广渠道之间的对应关系，以所述构建用户-渠道的二部图。

10.如权利要求7所述的推广行为的检测装置，其特征在于，所述计算模块具体用于：

11.如权利要求10所述的推广行为的检测装置，其特征在于，所述检测模块具体用于：

12.如权利要求7所述的推广行为的检测装置，其特征在于，还包括：

第二确定模块，用于在根据所述种子推广渠道和用户-渠道的二部图计算所述二部图中每个用户与每个渠道分别对应的分数值之后，根据所述多个答案信息和多个问题信息确定多个问答对信息；

抽取模块，用于基于所述二部图中每个用户与每个渠道分别对应的分数值，对于每个问答对信息，抽取所述每个问答对信息的三维特征，其中，所述三维特征包括所述每个问答对信息中提问者的分数值、回答者的分数值、以及所述每个问答对信息的答案信息中所包含的第二推广渠道的最高分数值；

其中，所述检测模块还用于根据所述每个问答对信息的三维特征以及预先建立的分类模型对所述多个问答对信息进行分类，以分类出满足预设条件的问答对，并将所述满足预设条件的问答对判定为所述推广行为。