CN111552790A

CN111552790A - 一种识别文章刷单的方法及装置

Info

Publication number: CN111552790A
Application number: CN202010345786.6A
Authority: CN
Inventors: 王新乐; 孟亚洲
Original assignee: Beijing Supertool Internet Technology Ltd
Current assignee: Beijing Supertool Internet Technology Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-08-18
Anticipated expiration: 2040-04-27
Also published as: CN111552790B

Abstract

本发明提供了一种识别文章刷单的方法及装置，其中，该识别文章刷单的方法包括：获取样本目标对象发表文章后的文章监测数据；针对每一样本目标对象，按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，得到特征向量值列；以样本目标对象对应的特征向量值列作为模型的输入，以该样本目标对象所属的刷单概率值作为模型的输出，对模型进行训练，得到刷单概率模型；依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列；将所述待识别特征向量值列输入所述刷单概率模型，得到所述待识别目标对象所属的刷单概率值，可提高对文章刷单的识别效率。

Description

一种识别文章刷单的方法及装置

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种识别文章刷单的方法及装置。

背景技术

随着社交媒体平台的不断发展，越来越多的人选择通过社交媒体平台获取信息资讯，在社交媒体平台中，KOL(Key Opinion Leader，关键意见领袖)是指在某一领域具有一定的影响力以及关注度，并能够依据自身的流量引领话题风向的族群。基于当今的数据化时代背景，流量意味着商业价值，因此，对于企业的宣传以及产品的推广而言，如何识别一个KOL发表文章后引起的流量(阅读量)的真实性，进而选择一个真实可靠，有利于企业产品推广的KOL，成为当前迫切需要解决的一个重要问题。

目前的方法，可以通过对各KOL发表文章后获取的文章监测数据，例如，阅读量，分别进行分钟级的动态监测，若监测到某一较短的时间段内，相较于其他时间段，阅读量增量增加异常，则认为该时间段内的阅读量增量为异常增量，存在文章刷单行为，在最终统计各时间段内的文章真实阅读量时，除去由于文章刷单行为引起的异常增量，即可得到文章的真实阅读量，依据文章的真实阅读量，从中选择目标对象KOL。但该识别文章刷单的方法，由于不同的时间段划分，会导致不同的阅读量增量识别结果，因而，识别文章刷单的准确性较低，进一步地，分钟级动态监测产生的数据量较为庞大，因而，导致对文章刷单的识别效率较低。

发明内容

有鉴于此，本发明的目的在于提供一种识别文章刷单的方法及装置，以提高对文章数据真实性的识别效率。

第一方面，本发明实施例提供了识别文章刷单的方法，所述方法包括：

获取样本目标对象发表文章后的文章监测数据；

针对每一样本目标对象，按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，得到特征向量值列；

以样本目标对象对应的特征向量值列作为模型的输入，以该样本目标对象所属的刷单概率值作为模型的输出，对模型进行训练，得到刷单概率模型；

依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列；

将所述待识别特征向量值列输入所述刷单概率模型，得到所述待识别目标对象所属的刷单概率值。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述特征向量列包括多个特征向量子列，所述按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，包括：

针对所述特征向量列中的每一特征向量子列，依据该特征向量子列包含的每一文章质量影响事件，从预先存储的文章质量影响事件与事件特征集的映射关系库中，获取该文章质量影响事件映射的事件特征集；

针对所述事件特征集中包含的每一事件特征，从预先存储的事件特征与特征值计算策略的映射关系库中，获取该事件特征映射的特征值计算策略，按照所述特征值计算策略，依据所述样本目标对象对应的文章监测数据，计算该事件特征对应的特征值，该事件特征对应所述特征向量列中的一特征向量；

依据计算得到的特征值，构建事件特征集对应的事件特征值列，其中，该事件特征值列包含的特征值的数量等于该事件特征集中包含的事件特征数量；

依据事件特征值列，构建文章质量影响特征值列，依据文章质量影响特征值列，构建特征向量子列。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，包括：

针对所述特征向量列中的每一特征向量，从预先存储的特征向量与特征向量值计算策略的映射关系库中，获取该特征向量映射的特征向量值计算策略，按照所述特征向量值计算策略，依据所述样本目标对象对应的文章监测数据，计算特征向量值。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述从预先存储的文章质量影响事件与事件特征集的映射关系库中，获取该文章质量影响事件映射的事件特征集，包括：

针对特征向量子列包含的每一文章质量影响事件，将该文章质量影响事件与所述映射关系库中包含的各文章质量影响事件分别进行匹配，获取与该文章质量影响事件相匹配的文章质量影响事件，并得到获取的文章质量影响事件映射的事件特征集。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，在所述得到特征向量值列之后，以样本目标对象对应的特征向量值列作为模型的输入之前，还包括：

对所述特征向量值列中包含的每一特征向量值，依据各特征向量值列以及预设的标准化公式进行标准化处理。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列，包括：

按照预先设置的特征向量列，依据所述待识别目标对象发表文章后的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值；

从所述特征向量列中，新增一行，查询到所述特征向量所在的列，将所述特征向量对应的特征向量值填充至新增的行对应查询到的列，得到所述待识别目标对象对应的特征向量值列。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述方法还包括:

存储所述样本目标对象与刷单概率值的对应关系，以及，所述待识别目标对象与刷单概率值的对应关系；

接收用户查询请求，依据所述查询请求中包含的查询关键词，从存储的对应关系中，获取与所述查询关键词相匹配的待推荐对象；

依据所述待推荐对象以及所述待推荐对象的刷单概率值生成推荐名单，向用户展示所述推荐名单，使用户依据所述推荐名单，进行选择。

第二方面，本发明实施例还提供了一种识别文章刷单的装置，所述装置包括：

数据获取模块，获取样本目标对象发表文章后的文章监测数据；

数据处理模块，针对每一样本目标对象，按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，得到特征向量值列；

模型训练模块，以样本目标对象对应的特征向量值列作为模型的输入，以该样本目标对象所属的刷单概率值作为模型的输出，对模型进行训练，得到刷单概率模型；

向量值列构建模块，依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列；

数据识别模块，将所述待识别特征向量值列输入所述刷单概率模型，得到所述待识别目标对象所属的刷单概率值。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述识别文章刷单的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述识别文章刷单的方法的步骤。

本发明实施例提供的识别文章刷单的方法及装置，通过获取样本目标对象发表文章后的文章监测数据，然后针对每一样本目标对象，按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，得到特征向量值列，进而，以样本目标对象对应的特征向量值列作为模型的输入，以该样本目标对象所属的刷单概率值作为模型的输出，对模型进行训练，得到刷单概率模型，依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列，将所述待识别特征向量值列输入所述刷单概率模型，得到所述待识别目标对象所属的刷单概率值。

这样，通过获取样本目标对象发表文章后的文章监测数据，并对获取的所述文章监测数据进行特征工程，得到各样本目标对象对应的特征向量值列，进而，以样本目标对象对应的特征向量值列作为模型的输入，以该样本目标对象所属的刷单概率值作为模型的输出，对模型进行训练，依据训练后的模型以及待识别目标对象发表文章后的文章监测数据，识别所述待识别目标对象的文章刷单概率，由于无需对目标对象发表的所有文章进行动态监测，因此，可以有效地提高对文章刷单的识别效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的识别文章刷单的方法的流程示意图；

图2示出了本发明实施例所提供的一种构建文章的阅读量特征向量的方法的流程示意图；

图3示出了本发明实施例所提供的识别文章刷单的装置的结构示意图；

图4为本申请实施例提供的一种计算机设备400的结构示意图。

主要元件符号说明：301-数据获取模块；302-数据处理模块；303-模型训练模块；304-向量值列构建模块；305-数据识别模块；400-计算机设备；401-存储器；402-处理器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种识别文章刷单的方法及装置，下面通过实施例进行描述。

实施例一

图1示出了本发明实施例所提供的识别文章刷单的方法的流程示意图，该方法包括步骤S101-S105；具体的：

S101，获取样本目标对象发表文章后的文章监测数据。

本申请实施例中，作为一可选实施例，可以将KOL作为目标对象，从中选取样本目标对象，选取样本KOL的方法包括：

依据预设的刷单阈值以及KOL发表的文章中，预先确定的刷单的文章数量在发表的总文章数量中的占比，确定所述KOL的文章刷单概率区间；

依据所述KOL的文章刷单概率区间，选取样本KOL。

本申请实施例中，作为一可选实施例，刷单阈值包括第一刷单阈值以及第二刷单阈值，确定所述KOL的文章刷单概率区间，包括：

判断所述占比是否小于预设的第一刷单阈值，若是，则确定所述KOL的文章刷单概率区间为低概率区间；

若否，则进一步判断所述占比是否大于预设的第二刷单阈值；

若是，则确定所述KOL的文章刷单概率区间为高概率区间，否则，确定所述KOL的文章刷单概率区间为中概率区间。

示例性的说明，例如，若A发表的总文章数量为100篇，其中，依据分钟级的动态监测方法确定刷单的文章为20篇，则A发表的文章中刷单的文章数量在总文章数量中的占比为20％；若A对应的所述占比为20％，B发表的文章中刷单的文章数量在总文章数量中的占比为50％，C发表的文章中刷单的文章数量在总文章数量中的占比为80％，预设的第一刷单阈值为30％，预设的第二刷单阈值为60％，由于A对应的占比小于所述第一刷单阈值，B对应的占比在所述第一刷单阈值与所述第二刷单阈值之间，C对应的占比大于所述第二刷单阈值，因此，可以认为A所属的文章刷单概率低，确定A的文章刷单概率区间为低概率区间，B所属的文章刷单概率居中，确定B的文章刷单概率区间为中概率区间，C所属的文章刷单概率高，确定C的文章刷单概率区间为高概率区间。依据各KOL对应的文章刷单概率区间，平衡选取样本KOL，例如，等量的选取低概率区间、中概率区间、高概率区间的KOL作为样本KOL。若不同概率区间的KOL数量相差过大时，则可以适时地调整所述第一刷单阈值以及所述第二刷单阈值，以保证样本KOL中位于不同文章刷单概率区间的KOL数量平衡，这样，可以提高模型训练的准确性。

示例性的说明，所述文章监测数据包括：文章发表的版面位置、文章的当前阅读量、文章的当前点赞量以及文章的当前转发量等可以用来评价文章质量以及文章热度的数据。

S102，针对每一样本目标对象，按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，得到特征向量值列。

本申请实施例中，对于特征向量列中的多个特征向量，可以按照前述文章监测数据的分类，对特征向量进行相应分类，以简化特征向量列的结构。因而，作为一可选实施例，所述特征向量列包括多个特征向量子列，所述按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，包括：

本申请实施例中，作为一可选实施例，所述从预先存储的文章质量影响事件与事件特征集的映射关系库中，获取该文章质量影响事件映射的事件特征集，包括：

示例性的说明，例如，预设的所述特征向量列中包括：版面位置特征向量子列、阅读量特征向量子列以及融合特征向量子列，其中，

所述版面位置特征向量子列包含的文章质量影响事件为：文章发表的版面位置，作为一可选实施例，映射的事件特征集包括：去重计数特征、最高频次版面特征、最高频次版面发帖次数特征、最高频次版面占比特征；

所述阅读量特征向量子列包含的文章质量影响事件为：文章的阅读量，作为一可选实施例，映射的事件特征集包括：全部文章计数、最小阅读量、阅读量的第一四分位数、阅读量的中位数、阅读量的第三四分位数、最大阅读量、阅读量均值；

所述融合特征向量子列包含的文章质量影响事件为：头版文章的阅读量、次版文章的阅读量、其他版面文章的阅读量，作为一可选实施例，其中，

头版文章的阅读量映射的事件特征集包括：头版文章计数、头版文章最小阅读量、头版文章阅读量的第一四分位数、头版文章阅读量的中位数、头版文章阅读量的第三四分位数、头版文章最大阅读量、头版文章阅读量均值；

次版文章的阅读量映射的事件特征集包括：次版文章计数、次版文章最小阅读量、次版文章阅读量的第一四分位数、次版文章阅读量的中位数、次版文章阅读量的第三四分位数、次版文章最大阅读量、次版文章阅读量均值；

其他版面文章的阅读量映射的事件特征集包括：其他版面文章计数、其他版面文章最小阅读量、其他版面文章阅读量的第一四分位数、其他版面文章阅读量的中位数、其他版面文章阅读量的第三四分位数、其他版面文章最大阅读量、其他版面文章阅读量均值；

以所述版面位置特征向量子列为例，针对所述版面位置特征向量子列包含的文章质量影响事件“文章发表的版面位置”，与所述映射关系库中包含的各文章质量影响事件分别进行匹配，获取文章质量影响事件“文章发表的版面位置”映射的事件特征集A，该事件特征集A包括：去重计数特征、最高频次版面特征、最高频次版面发帖次数特征、最高频次版面占比特征。

本申请实施例中，也可以直接针对特征向量列中的每一特征向量，设置对应的特征向量值计算策略。因而，作为另一可选实施例，所述按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，包括：

示例性的说明，例如，再以最高频次版面特征为例，从所述映射关系库中，获取最高频次版面特征映射的特征向量值计算策略为：针对每一版面，对该版面发表的文章进行累计，获取累计值最高的版面。作为一可选实施例，可以针对样本目标对象发表的文章所在的版面，构建一包含多个向量维度的发帖版面特征向量，依据该发帖版面特征向量进行最高频次版面特征映射的特征值计算，例如，以样本目标对象A、发表n篇文章、8个版面为例，构建的发帖版面特征向量包含8个向量维度，将文章发表的版面位置对应的向量维度的向量值设置为1，其余向量维度的向量值设置为0。举例来说，若文章a发帖版面为：头版，则文章a对应的发帖版面特征向量为：(1,0,0,0,0,0,0,0)，得到的样本目标对象A的发帖版面特征向量如下表1所示：

文章	发帖版面特征向量
		a	1,0,0,0,0,0,0,0
b	0,1,0,0,0,0,0,0
		…	…
n	0,0,0,0,1,0,0,0

表1

这样，在计算最高频次版面特征映射的特征值时，可以查询版面特征向量的8个向量维度中数值“1”出现的次数，出现次数最高的向量维度对应的版面即为最高频次版面，这样，可以缩减数据的运算量，有效提高对文章刷单的识别效率。

本申请实施例中，再以计算最大阅读量为例，可以通过构建文章的阅读量特征向量的方法来计算最大阅读量，作为一可选实施例，图2示出了本发明实施例所提供的一种构建文章的阅读量特征向量的方法的流程示意图，可以依据图2所示的方法，构建每篇文章对应的阅读量特征向量，这样，以计算最大阅读量为例，只需查询文章的阅读量特征向量的向量维度中数值“1”出现的向量维度所对应的阅读量区间的高低，出现的向量维度所对应的阅读量区间越高则该阅读量是最大阅读量的概率也就越高，这样，可以有效地缩小特征值计算的数据量，进一步提高对文章刷单的识别效率。

示例性的说明，例如，以最大阅读量特征为例，构建的阅读量特征向量包含5个向量维度，每个向量维度对应的阅读量区间分别为：(0，1000]、(1000，5000]、(5000，10000]、(10000，50000],(50000,∞)，依据图2中a所示的样本目标对象A的文章阅读量信息，针对每篇文章，将该篇文章的阅读量包含的阅读量区间对应的向量维度的向量值设置为1，其余向量维度的向量值设置为0，例如，文章1的阅读量为23244，由于23244大于10000且小于50000，则文章1的阅读量包含的阅读量区间为：(0，1000]、(1000，5000]、(5000，10000]、(10000，50000]，因此，文章1的阅读量特征向量为(1，1，1，1，0)，得到的阅读量特征向量如图2中的b所示。这样，在计算最大阅读量特征映射的特征值时，只需按照阅读量区间由高到低的顺序查找数值“1”，即可将最大阅读量特征值的计算范围缩小到文章1与文章4，通过进一步比较，由于文章1的阅读量23244大于文章4的阅读量20423，因此，可以得到样本目标对象A的最大阅读量特征值为23244。这样，可以缩小特征值计算的数据量，进一步提高对文章刷单的识别效率。

本申请实施例中，作为一可选实施例，可以使构建的特征向量子列中各特征值对应的事件特征的排列顺序，与所述特征向量列对应的特征向量子列中的特征向量的排列顺序相同。

示例性的说明，例如，以版面位置特征向量子列为例，版面位置特征向量子列中各特征值对应的事件特征的排列顺序为：去重计数特征、最高频次版面特征、最高频次版面发帖次数特征、最高频次版面占比特征，得到版面位置特征向量子列如下表2所示：

表2

S103，以样本目标对象对应的特征向量值列作为模型的输入，以该样本目标对象所属的刷单概率值作为模型的输出，对模型进行训练，得到刷单概率模型。

本申请实施例中，作为一可选实施例，在所述得到特征向量值列之后，以样本目标对象对应的特征向量值列作为模型的输入之前，还包括：

示例性的说明，例如，作为一可选实施例，标准化公式为：

F_mi＝[F_mi-mean(F_i)]/std(F_i)；

F_i为第i列的特征向量值；

mean(F_i)为所有特征向量值列中，第i列特征向量值的平均值；

std(F_i)为第i列特征向量值的标准差；

F_mi为第m个KOL的第i列特征向量值。

以特征向量值列中的版面位置特征向量值所在列为例，版面位置特征向量值所在列如下表3所示：

表3

对版面位置特征向量值所在列进行标准化处理时，针对每一样本目标对象，依据标准化公式，对该样本目标对象对应的版面位置特征向量值进行标准化处理，得到标准化处理后的各样本目标对象对应的版面位置特征向量值。

本申请实施例中，作为一可选实施例，可以通过编码，将各样本目标对象所属的刷单概率区间转化成样本目标对象的文章刷单特征向量值放入所述特征向量值列中，例如，若样本目标对象A所属的刷单概率区间为低概率区间，则A的文章刷单特征向量值为(1，0，0)；若A所属的刷单概率为中概率区间，则A的文章刷单特征向量值为(0，1，0)；若A所属的刷单概率为高概率区间，则A的文章刷单特征向量值为(0，0，1)。

本申请实施例中，作为一可选实施例，可以依据LightGbm算法，构建决策树模型，以样本目标对象对应的特征向量值列作为所述决策树模型的输入，针对每一样本目标对象，以该样本目标对象所属的刷单概率区间作为所述决策树模型的输出，对所述决策树模型进行训练，得到刷单概率模型。

示例性的说明，例如，将各样本目标对象对应的特征向量值列输入模型，以样本目标对象A为例，若A所属的刷单概率区间为低概率区间，则模型通过遍历A的特征向量值列，学习A的特征向量值列中包含的各特征向量值的分布规则，将A对应的输出结果定义为刷单概率区间为低概率区间，按照这样的方法，训练模型学习不同刷单概率区间的样本目标对象的特征向量值列中包含的各特征向量值的分布规则，使训练后的模型能够对待识别目标对象对应的刷单概率进行分类，输出待识别目标对象所属的刷单概率区间位于低概率区间的概率、位于中概率区间的概率、位于高概率区间的概率。

S104，依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列。

本申请实施例中，作为一可选实施例，所述依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列，包括：

示例性的说明，例如，经计算得到样本目标对象A的版面位置特征向量值为(3，1，1，0.6)，若版面位置特征向量位于所述特征向量值列的第二列，则从所述特征向量列中，新增一行表示样本目标对象A对应的特征向量，查询到版面位置特征向量位于所述特征向量值列的第二列，将特征向量值(3，1，1，0.6)填充至新增的行的第二列中。

S105，将所述待识别特征向量值列输入所述刷单概率模型，得到所述待识别目标对象所属的刷单概率值。

示例性的说明，例如，将待识别目标对象的特征向量值列输入所述刷单概率模型，模型输出的结果为：待识别目标对象所属刷单概率区间位于低概率区间的概率是0.5、位于中概率区间的概率是0.3、位于高概率区间的概率是0.2，由于待识别目标对象所属刷单概率区间位于低概率区间的概率最大，因此，可以判定待识别目标对象的文章刷单概率较低。

本申请实施例中，作为一可选实施例，所述方法还包括:

示例性的说明，例如，接收用户查询请求，查询请求中包含的查询关键词为美妆，则可以从存储的对应关系中，获取与美妆相匹配的待推荐对象，依据获取的待推荐对象的刷单概率值，按照刷单概率区间位于低概率区间的概率值大小，从高到低进行排序，生成推荐名单，例如，若A的刷单概率位于低概率区间的概率是0.5，B的刷单概率位于低概率区间的概率是0.7，则可以按照先B后A的顺序，生成推荐名单。

实施例二

图3示出了本发明实施例所提供的识别文章刷单的装置的结构示意图，所述装置包括：

数据获取模块301，获取样本目标对象发表文章后的文章监测数据；

数据处理模块302，针对每一样本目标对象，按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，得到特征向量值列；

本申请实施例中，作为一可选实施例，所述特征向量列包括多个特征向量子列，所述按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，包括：

模型训练模块303，以样本目标对象对应的特征向量值列作为模型的输入，以该样本目标对象所属的刷单概率值作为模型的输出，对模型进行训练，得到刷单概率模型；

向量值列构建模块304，依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列；

数据识别模块305，将所述待识别特征向量值列输入所述刷单概率模型，得到所述待识别目标对象所属的刷单概率值。

本申请实施例中，作为一可选实施例，数据处理模块302，还具体用于：

作为一可选实施例，所述装置还包括：

存储模块(图中未示出)，存储所述样本目标对象与刷单概率值的对应关系，以及，所述待识别目标对象与刷单概率值的对应关系；

查询模块(图中未示出)，接收用户查询请求，依据所述查询请求中包含的查询关键词，从存储的对应关系中，获取与所述查询关键词相匹配的待推荐对象；

推荐名单生成模块(图中未示出)，依据所述待推荐对象以及所述待推荐对象的刷单概率值生成推荐名单，向用户展示所述推荐名单，使用户依据所述推荐名单，进行选择。

实施例三

如图4所示，本申请一实施例提供了一种计算机设备400，用于执行本申请中的管理公众号的方法，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述识别文章刷单的方法的步骤。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述识别文章刷单的方法。

对应于本申请中的识别文章刷单的方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述识别文章刷单的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述识别文章刷单的方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种识别文章刷单的方法，其特征在于，所述方法包括：

获取样本目标对象发表文章后的文章监测数据；

2.根据权利要求1所述的方法，其特征在于，所述特征向量列包括多个特征向量子列，所述按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，包括：

3.根据权利要求1所述的方法，其特征在于，所述按照预先设置的特征向量列，依据该样本目标对象对应的文章监测数据，计算所述特征向量列中每一特征向量对应的特征向量值，包括：

4.根据权利要求2所述的方法，其特征在于，所述从预先存储的文章质量影响事件与事件特征集的映射关系库中，获取该文章质量影响事件映射的事件特征集，包括：

5.根据权利要求1所述的方法，其特征在于，在所述得到特征向量值列之后，以样本目标对象对应的特征向量值列作为模型的输入之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述依据待识别目标对象发表文章后的文章监测数据以及所述特征向量列，得到待识别特征向量值列，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括:

8.一种识别文章刷单的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的识别文章刷单的方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的识别文章刷单的方法的步骤。