CN110457630B

CN110457630B - 一种开源社区异常点赞用户的识别方法及系统

Info

Publication number: CN110457630B
Application number: CN201910694279.0A
Authority: CN
Inventors: 蒋竞; 刘一帆; 张莉
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2022-03-29
Anticipated expiration: 2039-07-30
Also published as: CN110457630A

Abstract

本发明涉及一种开源社区异常点赞用户的识别方法及系统，属于异常用户识别技术领域，解决了现有技术中对开源社区异常点赞用户识别率低的问题。该方法包括以下步骤：获取样本用户数据；根据样本用户数据构建决策树，训练得到决策树分类模型；利用决策树分类模型对待识别用户进行分类，确定用户类别；用户类别包括正常点赞用户和异常点赞用户。本发明根据用户属性和用户点赞项目属性，能够更精确的识别出异常点赞用户，以净化开源社区环境。

Description

一种开源社区异常点赞用户的识别方法及系统

技术领域

本发明涉及异常用户识别技术领域，尤其涉及一种开源社区异常点赞用户的识别方法及系统。

背景技术

随着计算机行业的不断发展，开源社区逐渐成为开发者进行学习的重要场所。全球最知名的开源软件平台Github，受到大家的瞩目。目前，Github已经有超过两千八百万的注册用户和七千九百万的代码库，已经成为了世界上最大的代码存放网站和最火的开源社区。用户通过增加点赞数的方法评价一个项目。因此项目的点赞数成为了社区内用户对未接触项目的直观评价方法。目前，出现了点赞数异常增加的现象，项目持有人通过购买的方法增加项目的点赞数。着对于经常使用Github近期点赞数增加较多的项目榜单的用户来说，刷赞行为会对优质项目的挖掘造成阻碍。最终导致网站公信力下降，增加寻找高质量项目和优秀用户的成本，损害全体用户的利益。因此要筛选出这些异常的点赞用户，帮助社区净化点赞数反映项目质量的这一评价环境。

目前挖掘异常用户的方法多基于社交平台，一是通过选择账户注册的相关动作信息进行区分，包括关注的用户特征、账户注册时间、注册名称、注册所用的联系方式、注册的个人简介和兴趣选择等。二是通过选择账户发布消息的相关特征，包括用户在账户创建时间、账户在线时间、消息发布频率、消息回复频率和消息的长短等特征。某些专职于散布舆情或是发布广告的异常账户，比较容易在这类特征的算法下被筛选出来。三是通过选择用户之间的关联关系特征构建分类器，但是缺乏对开源社区的相关研究。

现有技术存在以下缺点：

一是现有技术中选取的用于判别点赞用户正常与否的相关信息数据较少，且关联性较低，导致对异常点赞用户识别率低。

二是选择用户之间的关联关系特征构建分类器，缺乏对开源社区的相关研究，无法更精确地识别异常点赞用户。

发明内容

鉴于上述的分析，本发明旨在提供一种开源社区异常点赞用户的识别方法及系统，用以解决现有识别异常用户方法对异常用户识别率低的问题。

一方面，本发明提供了一种开源社区异常点赞用户的识别方法，该方法包括以下步骤：获取样本用户数据；样本用户数据包括用户属性数据和点赞项目属性数据；根据样本用户数据构建决策树，训练得到决策树分类模型；利用决策树分类模型对待识别用户进行分类，确定用户类别；用户类别包括正常点赞用户和异常点赞用户。

进一步的，用户属性数据包括：用户类型、是否有公司、是否有博客、是否有地址、是否有邮箱、是否有个人简介、项目数量、公共代码段数量、粉丝数量、关注数量、非fork项目数量、获得点赞总数、点赞活动间隔和用户贡献数。

进一步的，点赞项目属性数据包括：点赞项目创建时间和点赞项目提交次数。

进一步的，点赞项目属性数据还包括：点赞总数、项目直接分支数、项目总分支数、订阅数、项目大小、最近更新时间、项目是否来自拷贝、项目是否有维基、项目是否有网页、项目描述长度、提交次数、贡献者人数、标签数量、发布数量、问题数量和拉取请求数量。

进一步的，通过下述流程确定所述决策树分类模型：

将样本用户数据中的用户属性数据、点赞项目属性数据和用户类别数值化；

将每一个用户数值化后的用户属性数据、点赞项目属性数据和用户类别作为特征向量里的元素，生成一个特征向量；

将特征向量导入决策树算法模型，训练得到决策树分类模型。

进一步的，通过下述方法训练得到决策树分类模型：

计算用户属性和点赞项目属性中每个属性的信息增益，并按信息增益大小进行降序排序，确定所有属性顺序；

选择信息增益最大的属性作为决策树的根节点，再按照所述顺序依次确定决策树子节点对应的属性；

直到所有决策树子节点下对应的用户类别一致，训练得到决策树分类模型。

进一步的，对待识别用户进行分类，通过将待识别用户的用户属性数据和点赞项目属性数据数值化，生成特征向量，导入所述决策树分类模型，确定用户类别。

根据上述技术方案，本发明的有益效果如下：

1、基于开源社区获取的用于判别点赞用户正常与否的相关信息数据较全面，包括用户属性数据和点赞项目属性数据，且关联性较高，根据上述相关信息数据构建的决策树分类模型，可以提高对异常点赞用户的识别率以及识别精度；

2、正常点赞用户和异常点赞用户的点赞项目创建时间属性和点赞项目提交次数属性差异很大，在识别点赞用户正常与否时，通过待识别用户的此两项属性数据也可快速确定点赞用户类别。

另一方面，本发明提供了一种开源社区异常点赞用户的识别系统，该系统包括：

样本用户数据获取模块，用于获取样本用户数据；所述样本用户数据包括用户属性数据和点赞项目属性数据；

决策树分类模型获得模块，用于根据所述获取的样本用户数据训练得到决策树分类模型；

待识别用户分类模块，用于根据所述决策树分类模型对待识别用户分类，确定用户类别；所述用户类别包括正常点赞用户和异常点赞用户。

由于本发明中的开源社区异常点赞用户的识别系统与上述开源社区异常点赞用户的识别方法原理相同，所以该系统也具有与上述识别方法相应的技术效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为识别正常和异常点赞用户的方法示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

方法实施例

本发明的一个具体实施例，公开了一种开源社区异常点赞用户的识别方法，如图1所示，该方法包括以下步骤：获取样本用户数据；样本用户数据包括用户属性数据和点赞项目属性数据；根据样本用户数据构建决策树，训练得到决策树分类模型；利用决策树分类模型对待识别用户进行分类，确定用户类别；用户类别包括正常点赞用户和异常点赞用户。

其中，获取的样本用户数据越多，训练得到的决策树分类模型对待识别用户识别的准确率越高，本发明中获取了360组样本用户数据，所训练得到的决策树分类模型对待识别用户识别的准确率达到99％以上。

具体的，用户属性数据包括：用户类型、是否有公司、是否有博客、是否有地址、是否有邮箱、是否有个人简介、项目数量、公共代码段数量、粉丝数量、关注数量、非fork项目数量、获得点赞总数、点赞活动间隔和用户贡献数；

正常点赞用户和异常点赞用户在上述用户属性上都有明显差异。其中，用户类型包括个人和组织两种类型，异常点赞用户是个人类型，组织类型的不进行点赞活动；是否有公司、是否有博客、是否有地址、是否有邮箱、是否有个人简介，属于用户个人信息，异常点赞用户的个人信息不够详细，而正常点赞用户的个人信息相对全面；

项目数量包括fork项目数量和非fork项目数量，fork项目数量指的是用户拷贝的其他用户的项目的数量，非fork项目数量是用户自己创建的项目数量，公共代码段数量是一种代码管理方法，用户保存一段公共代码，公共代码段数量就加一，相比与正常点赞用户，异常点赞用户主要工作是点赞，不是开发，所以项目数量和非fork的项目数量会偏少，公共代码段数量也会偏少；且由于异常点赞用户开发活动少、项目数量少，所以异常点赞用户获得的总赞数也少，用户贡献度也偏低；

对于粉丝数量、关注数量、点赞活动间隔(秒)，相比于正常点赞用户，异常点赞用户主要工作不是开发和学习，与其他的用户互动不会太多，所以关注数量往往不多；由于用户贡献度低，粉丝数量也会偏少；由于异常用户的工作是点赞，且工作需求大，所以异常用户点赞间隔比较规律，且间隔时间较短，而正常点赞用户点赞间隔没有规律。

优选的，点赞项目属性数据包括：点赞项目创建时间和点赞项目提交次数；正常点赞用户点赞的项目创建时间远早于异常点赞用户点赞的项目，且点赞项目提交次数也远多于异常点赞用户点赞的项目提交次数。正常点赞用户和异常点赞用户的点赞项目创建时间和点赞项目提交次数两项属性差异很大，基于此两种点赞属性数据进行模型构建，并分类，能够极大提高训练及分类的效率，且由于该两种数据极大的代表了正常与异常点赞用户的特性，因此在提高效率的同时，分类准确度也能满足要求。

具体的，点赞项目属性数据还包括：点赞总数、项目直接分支数、项目总分支数、订阅数、项目大小、最近更新时间、项目是否来自拷贝、项目是否有维基、项目是否有网页、项目描述长度、提交次数、贡献者人数、标签数量、发布数量、问题数量和拉取请求数量；

其中，对于点赞总数、项目直接分支数、项目总分支数和订阅数，异常点赞用户和正常带你咱用户在这些点赞项目属性上有所差异。由于异常用户点赞的目的是为了刷赞，所以其点赞的项目质量相对较低，因而点赞项目获得的点赞总数较少、项目直接分支数、项目总分支数和订阅数也都相对较少，所以相对于正常点赞用户点赞的高质量项目，异常点赞用户点赞的项目上述四个属性数据都是偏低的；

对于项目创建时间(天)和最近更新时间(天)：异常点赞用户点赞的项目往往是新建的，距今时间较短。

对于是否来自拷贝、项目大小、是否有维基、是否有网页、项目描述长度，这些属性都与项目质量相关，异常点赞用户点赞的项目质量相对较低，所以这些属性会与正常点赞用户所点赞的项目存在差异。

对于提交次数、贡献者人数、标签数量、发布数量、问题数量、拉取请求数量，正常点赞用户点赞的项目质量相对较高，而高质量的项目往往参与人数多，经历的更新和变化也较多，所以上述属性的数据相对较高，而异常点赞用户点赞的项目存在时间短，质量低，因此上述属性数据也会偏低。

在具体实施过程中，通过下述流程确定所述决策树分类模型：

对于用户属性数据的数值化处理，对于用户类型，组织为1，个人为0；其他的个人信息，有为1，无为0；对于项目数量、公共代码段数量、粉丝数量、关注数量、非fork项目数量、获得总赞数、点赞活动间隔(秒)、用户贡献数这些属性的数据都是具体的数值，可以直接获取，不需进一步处理；

对于点赞项目属性的数值化处理，每一个用户都点赞了若干个项目，因此项目是否来自拷贝、是否有维基、是否有网页三个属性采用百分比，取大于50％对应的结果，若是则取值为1，若不是则取值为0；对于其它的点赞项目属性，直接获取数据后，再取用中位数；

对于用户类别，正常点赞用户取值为1，异常点赞用户取值为0。

具体的，通过下述方法训练得到决策树分类模型：

直到所有决策树子节点下对应的用户类别一致，训练得到决策树分类模型。优选的，决策树算法模型选用ID3方法。

利用训练得到的决策树分类模型，对待识别用户进行分类，通过将待识别用户的用户属性数据和点赞项目属性数据数值化，生成特征向量，导入所述决策树分类模型，确定用户类别。

本发明实施例中的开源社区异常点赞用户的识别方法，一方面，基于开源社区获取的用于判别点赞用户正常与否的相关信息数据较全面，包括用户属性数据和点赞项目属性数据，且关联性较高，根据上述相关信息数据构建的决策树分类模型，可以提高对异常点赞用户的识别率以及识别精度；另一方面，正常点赞用户和异常点赞用户的点赞项目创建时间属性和点赞项目提交次数属性差异很大，在识别点赞用户正常与否时，通过待识别用户的此两项属性数据也可快速确定点赞用户类别。

系统实施例

本发明的一个具体实施例，公开了一种开源社区异常点赞用户的识别系统，该系统包括：

优选的，点赞项目属性数据包括：点赞项目创建时间和点赞项目提交次数。

具体的，点赞项目属性数据还包括：点赞总数、项目直接分支数、项目总分支数、订阅数、项目大小、最近更新时间、项目是否来自拷贝、项目是否有维基、项目是否有网页、项目描述长度、提交次数、贡献者人数、标签数量、发布数量、问题数量和拉取请求数量。

本发明实施例中的开源社区异常点赞用户的识别系统，一方面，基于开源社区获取的用于判别点赞用户正常与否的相关信息数据较全面，包括用户属性数据和点赞项目属性数据，且关联性较高，根据上述相关信息数据构建的决策树分类模型，可以提高对异常点赞用户的识别率以及识别精度；另一方面，正常点赞用户和异常点赞用户的点赞项目创建时间属性和点赞项目提交次数属性差异很大，在识别点赞用户正常与否时，通过待识别用户的此两项属性数据也可快速确定点赞用户类别。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种开源社区异常点赞用户的识别方法，其特征在于，包括以下步骤：

获取样本用户数据；所述样本用户数据包括用户属性数据和点赞项目属性数据；所述用户属性数据包括用户类型、公共代码段数量和点赞活动间隔；所述点赞项目属性数据包括项目直接分支数、项目总分支数和拉取请求数量；

根据所述样本用户数据构建决策树，训练得到决策树分类模型；

利用所述决策树分类模型对待识别用户进行分类，确定用户类别；所述用户类别包括正常点赞用户和异常点赞用户。

2.根据权利要求1所述的一种开源社区异常点赞用户的识别方法，其特征在于，所述用户属性数据还包括：用户类型、是否有公司、是否有博客、是否有地址、是否有邮箱、是否有个人简介、项目数量、粉丝数量、关注数量、非fork项目数量、获得点赞总数和用户贡献数。

3.根据权利要求2所述的一种开源社区异常点赞用户的识别方法，其特征在于，所述点赞项目属性数据还包括：点赞项目创建时间和点赞项目提交次数。

4.根据权利要求3所述的一种开源社区异常点赞用户的识别方法，其特征在于，所述点赞项目属性数据还包括：点赞总数、订阅数、项目大小、最近更新时间、项目是否来自拷贝、项目是否有维基、项目是否有网页、项目描述长度、提交次数、贡献者人数、标签数量、发布数量、问题数量。

5.根据权利要求4所述的一种开源社区异常点赞用户的识别方法，其特征在于，通过下述流程确定所述决策树分类模型：

将所述样本用户数据中的用户属性数据、点赞项目属性数据和用户类别数值化；

将所述特征向量导入决策树算法模型，训练得到决策树分类模型。

6.根据权利要求5所述的一种开源社区异常点赞用户的识别方法，其特征在于，通过下述方法训练得到决策树分类模型：

7.根据权利要求6所述的一种开源社区异常点赞用户的识别方法，其特征在于，所述对待识别用户进行分类，通过将待识别用户的用户属性数据和点赞项目属性数据数值化，生成特征向量，导入所述决策树分类模型，确定用户类别。

8.一种开源社区异常点赞用户的识别系统，其特征在于，包括：

样本用户数据获取模块，用于获取样本用户数据；所述样本用户数据包括用户属性数据和点赞项目属性数据；所述用户属性数据包括用户类型、公共代码段数量和点赞活动间隔；所述点赞项目属性数据包括项目直接分支数、项目总分支数和拉取请求数量；

9.根据权利要求8所述的一种开源社区异常点赞用户的识别系统，其特征在于，所述点赞项目属性数据包括：点赞项目创建时间和点赞项目提交次数。

10.根据权利要求9所述的一种开源社区异常点赞用户的识别系统，其特征在于，所述点赞项目属性数据还包括：点赞总数、订阅数、项目大小、最近更新时间、项目是否来自拷贝、项目是否有维基、项目是否有网页、项目描述长度、提交次数、贡献者人数、标签数量、发布数量、问题数量。