CN108616491B

CN108616491B - 一种恶意用户的识别方法和系统

Info

Publication number: CN108616491B
Application number: CN201611147191.XA
Authority: CN
Inventors: 陈华
Original assignee: Beijing Kuzhi Technology Co ltd
Current assignee: Beijing Kuzhi Technology Co ltd
Priority date: 2016-12-13
Filing date: 2016-12-13
Publication date: 2020-11-10
Anticipated expiration: 2036-12-13
Also published as: CN108616491A

Abstract

本发明提供了一种恶意用户的识别方法和系统，涉及互联网技术领域。所述方法包括：获取某一段时间内的历史注册用户；利用指定维度的边缘行为数据筛选出真实用户生成正样本集；选取已被禁封的恶意用户生成负样本集；针对正、负样本集中的每一个注册用户，提取N个不同维度的边缘特征以构建相应注册用户的特征向量；将上述正、负样本集中的每一个注册用户的特征向量输入机器学习框架中进行训练，得出恶意用户识别模型；根据上述的恶意用户识别模型对新注册用户进行识别。通过本方法可以有效识别应用平台上注册的恶意用户，并能降低对真实用户的误伤率。

Description

一种恶意用户的识别方法和系统

技术领域

本发明涉及互联网技术领域，特别是涉及一种恶意用户的识别方法和系统。

背景技术

随着网络技术的不断发展，各种类型的网络平台为人们的生活带来了便捷和愉悦。热门的网络平台吸引了大量的用户注册，但同时也吸引了大量的垃圾用户恶意注册。如何对注册用户进行识别和过滤，已经成为每个网络平台研发人员必不可少的工作。

在先的对注册用户识别的方法大致是通过设定用户注册方式或者用户行为的各个阈值来确定，例如，同一个IP(Internet Protocol，网络之间互连的协议)犯罪次数大于5次为恶意账号，同一个设备ID(Device ID，设备唯一标识)犯罪次数大于10次为恶意账号等。

在发明人应用上述方法的过程中发现，由于利益的牵制，恶意用户往往通过多次尝试就可以获取该阈值，并调整其作弊策略以绕过现有的反作弊机制。并且，类似于该种常见的单维度的特征的识别方式，可能遗漏其他恶意用户，对真实用户误伤几率也较高。

发明内容

鉴于上述现有技术的缺陷，本发明要解决的技术问题是提供一种恶意用户的识别方法和系统，用以识别恶意用户并降低对真实用户的误伤率。

为了解决上述问题，本发明公开了一种恶意用户的识别方法，所述方法包括：

根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集；所述初始真实用户样本集包括初始的真实用户，所述初始恶意用户样本集包括初始的恶意用户；

根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集；

根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集；

针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量；

将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型；

对于新注册的用户，提取所述N个不同维度的边缘特征构建特征向量；

利用所述恶意用户识别模型对所述特征向量输入进行识别，以确定所述新注册用户是否为恶意用户。

优选的，所述根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集的步骤，包括：

对于每个历史注册用户，当所述历史注册用户的使用行为数据中有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据小于等于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP是没有被禁封的历史记录，则将所述历史注册用户加入初始真实用户样本集；

当所述历史注册用户的使用行为数据中没有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据大于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP有被禁封的历史记录，则将所述历史注册用户加入初始恶意用户样本集。

优选的，所述根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集的步骤，包括：

从所述初始恶意用户样本集中，选择已被禁封的恶意用户，以生成负样本集。

优选的，所述将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型的步骤之后，还包括：

定期检测历史注册用户对应用的使用行为数据，当检测到历史注册用户中的恶意用户对应用的使用行为数据包括指定维度的边缘行为数据，则将当前的所述指定维度的边缘行为数据进行更新。

定期检测历史注册用户对应用的使用行为数据，当检测到历史注册用户中的恶意用户与所述恶意用户识别模型的识别结果不一致，则将当前的所述边缘特征进行更新。

本发明还公开了一种恶意用户的识别系统，所述系统包括：

初始样本确定模块：用于根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集；所述初始真实用户样本集包括初始的真实用户，所述初始恶意用户样本集包括初始的恶意用户；

正样本生成模块：用于根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集；

负样本生成模块：用于根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集；

特征向量构建模块：用于针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量；

恶意用户识别模型训练模块：用于将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型；

新用户特征向量构建模块：用于对于新注册的用户，提取所述N个不同维度的边缘特征构建特征向量；

新用户识别模块：用于利用所述恶意用户识别模型对所述特征向量输入进行识别，以确定所述新注册用户是否为恶意用户。

优选的，所述初始样本确定模块包括：

初始真实用户样本集确定子模块：用于对于每个历史注册用户，当所述历史注册用户的使用行为数据中有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据小于等于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP是没有被禁封的历史记录，则将所述历史注册用户加入初始真实用户样本集；

初始恶意用户样本集确定子模块：用于当所述历史注册用户的使用行为数据中没有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据大于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP有被禁封的历史记录，则将所述历史注册用户加入初始恶意用户样本集。

优选的，所述负样本生成模块包括：

恶意用户筛选子模块：用于从所述初始恶意用户样本集中，选择已被禁封的恶意用户，以生成负样本集。

优选的，所述系统还包括：

边缘行为数据更新模块：用于定期检测历史注册用户对应用的使用行为数据，当检测到历史注册用户中的恶意用户对应用的使用行为数据包括指定维度的边缘行为数据，则将当前的所述指定维度的边缘行为数据进行更新。

优选的，所述系统还包括：

边缘特征更新模块：用于定期检测历史注册用户对应用的使用行为数据，当检测到历史注册用户中的恶意用户与所述恶意用户识别模型的识别结果不一致，则将当前的所述边缘特征进行更新。

相对在先技术，本发明实施例具备至少包括下述优点之一：

1、利用边缘行为筛选出初始真实用户样本集中的真实用户，通过在初始恶意用户样本集中筛选出恶意用户，并将筛选出的真实用户和恶意用户作为训练的正样本集和负样本集，使机器学习的对象更具差异性，训练出的恶意用户识别模型更具可靠性和说服性。

2、通过提取注册用户多个维度的边缘特征，并将多个维度边缘特征构建成的特征向量输入机器学习框架中训练，有效地利用了传统手段无法使用的边缘性数据特征，训练出的恶意用户识别模型有效减小了对真实用户造成的误伤，并能有效降低恶意用户对上述识别方法的破解率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明恶意用户识别的方法实施例一的步骤流程图；

图2示出了本发明恶意用户识别的方法实施例二的步骤流程图；

图2A示出了恶意用户注册账号的表现特征；

图2B示出了本发明恶意用户识别的方法实施例二的系统逻辑框架图；

图3示出了本发明恶意用户识别的系统实施例一的结构框图；

图4示出了本发明恶意用户识别的系统实施例二的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

参照图1，示出了本发明恶意用户识别的方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101：根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集；所述初始真实用户样本集包括初始的真实用户，所述初始恶意用户样本集包括初始的恶意用户。

样本集可以指在研究中实际观测或调查的一部分个体的集合。

本发明实施例比如可以应用于歌唱应用平台中，用户可以在该歌唱应用平台中选择一首歌曲，然后歌唱应用平台可以调用播放设备播放该歌曲的音乐，同时可以接收用户通过麦克风录入的声音，进行评分判断、唱歌录音等操作。该歌唱应用平台比如唱吧应用平台等，本发明实施例不对其加以限制。

选取歌唱应用平台上某段时间内的所有历史注册用户，某段时间可以为一年、一个月、一周，本发明实施例对此不做限制。根据用户使用歌唱应用平台时的操作行为和注册时的信息将历史注册用户划分为初始真实用户样本集、疑似真实用户样本集和初始恶意用户样本集。

使用行为数据在歌唱应用平台中可以包括：唱歌、录音、发评论、送花、作品分享、上传作品等正常操作，也包括发布黄色消息、推送广告、恶意点评等恶意操作。

属性信息在歌唱应用平台中可以包括：注册的账号来源、注册的IP地址、注册的设备ID，或者注册IP地址的相关账号有被禁封的历史记录等。

步骤102：根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集。

在本发明实例中边缘行为可以指恶意用户在使用歌唱应用平台时一定不会进行的操作，但是真实用户可能会进行的操作。比如选取歌唱应用平台上某一段时间内的注册用户，从该注册用户中提取第一恶意用户集和第一真实用户集，第一恶意用户集包括通过预设方式确定的确实为恶意的恶意用户，第一真实用户集包括通过预设方式确定的确实为真实的真实用户；然后通过比对第一恶意用户集中的恶意用户和第一真实用户集的正常用户使用歌唱应用平台的操作行为，将恶意用户未使用的行为数据而正常用户使用的行为数据标记为边缘行为数据；比如发现有些操作行为是被禁封的恶意用户从未使用的，但是正常用户中部分用户会使用这些操作行为，例如将完整的作品分享到个人网络主页上，对系统弹出的窗口进行点击回复。在本发明实施例中将这些操作行为指定为边缘行为。采用边缘行为，可以在真实用户中筛选出更为真实的用户。其中该预设方式可以为多种，本发明实施例对此不做限制。

歌唱应用平台的边缘行为有很多种，本发明实施例的指定维度的边缘行为可以为选择其中的一个维度的边缘行为，也可以为选择其中的多个维度的边缘行为，本发明实施例对此不做限制。

具体的，从初始真实用户样本集中选择进行过指定维度的边缘行为的真实用户，生成正样本集。

步骤103：根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集。

恶意行为数据包括但不限于被其他用户举报的行为、发送黄色信息的行为、或者某些操作行为大于系统设定的阈值，例如在歌唱应用平台上，设置针对某一作品送花一千次为恶意行为，针对某一作品点赞一千次为恶意行为等。或者注册IP有过被禁封的历史等。

从上述恶意行为数据中选择一种或几种用于筛选初始恶意用户样本集中的恶意用户，生成负样本集。

步骤104：针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量。

边缘特征在本发明实施例中可以理解为它本身是主流行为特征，但本发明实施例将它用在与它主流行为关系较远的场景里，对它本身来说属于边缘特征。比如歌唱应用平台上的恶意用户大部分是在某个渠道上进行注册的，但不能直接将所有来自某个渠道上注册的用户都视为恶意用户，这是渠道的边缘特征。再如，歌唱应用平台上的历史注册用户中某个IP上的用户为恶意用户，但不能直接将某个IP上新注册的用户都视为恶意用户，这是IP来源的边缘特征。

边缘特征在本发明实施例中也可以理解为，在歌唱应用平台上，发明人在对恶意用户进行识别的过程中发现，传统恶意用户检测方法没有利用注册用户的账号特征、注册渠道、IP来源等属性特征对注册用户进行识别，而本发明实施例将这些属性特征用于对注册用户进行识别，因此将这些属性特征称之为边缘特征。

上述N为大于等于零的正整数。

选取N个不同维度的边缘特征，针对正、负样本集中的每一个注册用户，分别提取上述选取的N个不同维度的边缘特征，并针对每一个注册用户，将提取的N个不同维度的边缘特征进行组合，构建成一个该注册用户的特征向量。

步骤105：将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型。

将正样本集和负样本集中的每一个注册用户的特征向量输入机器学习框架中进行训练，得到恶意用户识别模型。

机器学习是研究机器怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。上述机器包括但不限于计算机、电子计算机、中子计算机、光子计算机或神经计算机等。机器学习获取的知识可能有：行为规则、物理对象的描述、问题求解策略、各种分类分级及其它用于任务实现的知识类型。

比如，本发明实施例将正样本集与负样本集中每一个注册用户的特征向量输入机器学习框架中，由机器归纳推理，得出正样本集概念的一般描述与负样本集概念的一般描述，或者生成正、负样本集特征的中心聚合点的位置，进一步使其具有分析新注册用户是否为真实用户或者恶意用户。

在建立及其学习模型时，可以使用模型分类器，SVM(support vector machine，支持向量机)、boosting算法等分类器。本发明实施例对此不做限制。

步骤106：对于新注册的用户，提取所述N个不同维度的边缘特征构建特征向量。

当歌唱应用平台上有新注册的用户时，提取该用户的N个不同维度的边缘特征，上述N个不同维度的边缘特征与步骤104中正、负样本集提取的边缘特征相同，且采用步骤104相同的方法将提取的N个不同维度的边缘特征进行组合构建新注册用户的特征向量。

步骤107：利用所述恶意用户识别模型对所述特征向量输入进行识别，以确定所述新注册用户是否为恶意用户。

将新注册用户的特征向量输入步骤105生成的恶意用户识别模型中进行识别，确定该新注册用户是否为恶意用户。

比如，恶意用户识别模型为正、负样本集概念的一般描述，若新注册用户更符合正样本集的一般描述则该新注册用户就为真实用户。

再如，恶意用户识别模型为正、负样本集特征的中心聚合点的位置，则根据分析判断该新注册用户的特征更偏向于那个样本集的位置，若偏向恶意用户样本集，则该新注册的用户为恶意用户。

上述方法只是示意性的描述识别恶意用户的具体操作，采用不同的学习算法将会训练出不同的识别恶意用户模型，进而判定新注册用户是否为恶意用户的具体方式也会不同，本发明实施例对此不做限制。

相对在先技术，本发明实施例具备至少包括下述优点之一：

实施例二

参照图2，示出了本发明恶意用户识别的方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201：对于每个历史注册用户，当所述历史注册用户的使用行为数据中有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据小于等于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP是没有被禁封的历史记录，则将所述历史注册用户加入初始真实用户样本集。

在使用歌唱应用平台时，真实用户与恶意用户的行为有很大的差距，真实用户的操作主要是以唱歌为主，而大多数恶意用户因为是机器性的操作行为，其进行的操作主要是以刷礼物和评论等直接带来收益的行为。真实用户中也存在刷礼物和评论，但上述行为没有超出系统设置的筛选阈值。针对传统检测恶意用户的方法，恶意用户的注册IP来源呈聚集特性，则相关注册IP上的用户可能为恶意用户。

筛选条件阈值在本发明实施例可以为针对某一操作行为设置一个操作次数限制，例如针对某一作品刷礼物次数为一千次，针对某一作品点赞次数为一千次等。

针对上述情况，将以唱歌为主、其他操作未超出系统设置的筛选阈值且注册IP没有被禁封的历史记录的注册用户加入初始真实用户样本集。

步骤202：当所述历史注册用户的使用行为数据中没有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据大于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP有被禁封的历史记录，则将所述历史注册用户加入初始恶意用户样本集。

在使用歌唱应用平台时，没有进行唱歌操作直接进入刷礼物和评论，或者直接进行黄色信息传播的用户，且上述行为超出系统设置的筛选阈值，且上述注册用户的属性信息中的注册IP有被禁封的历史记录，将上述的历史注册用户加入初始恶意用户样本集。

优选的，通过对上述的恶意用户注册信息进行分析，结合图2A，发现恶意用户注册时包括但不限于以下的相似性：恶意用户账号构造过程中账号名的字符排序存在相似性，如图2A所示，恶意用户账号其前N位为字母，后M位为数字；恶意用户在注册时填入的渠道及来源存在相似性；由于无法获得足够的IP，恶意用户注册时同一个IP经常注册多个账号。上述这些注册时的属性特征也可以用于对初始恶意用户样本集的筛选。

对于歌唱应用平台上既有属于真实用户又有属于恶意用户的行为表现的历史注册用户，本发明实施例将其称之为疑似真实用户。例如，没有进行唱歌，直接刷礼物和评论但未超出系统设置的筛选阈值的用户，或者进行唱歌，但注册IP有过被禁封的历史记录的用户，或者进行唱歌，但刷礼物和评论都超出系统设置筛选阈值的用户。对于上述疑似真实用户本发明实施例不将其作为生成初始真实用户样本集和初始恶意用户样本集的筛选对象。

步骤203：根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集。

在歌唱应用平台上存在上百种行为统计调用，选取一些较为冷门但真实用户调用次数较高的边缘行为组合作为正常用户的标识，如歌唱应用平台中有唱歌到达打分页面弹窗的用户，对歌唱应用平台弹出提示窗口进行点击的用户，将唱歌的录音上传个人社交平台主页的用户，进行这些操作行为的用户一般为真实用户。

采用这些边缘行为，可以在初始真实用户样本集中圈定更为真实的用户，生成正样本集。

步骤204：从所述初始恶意用户样本集中，选择已被禁封的恶意用户，以生成负样本集。

从步骤202中的初始恶意用户样本集中筛选出已经被歌唱应用平台禁封的恶意用户，生成负样本集。

步骤205：针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量。

本发明实施例选取注册用户的注册用户名的数据属性、注册渠道的数据属性和IP来源的数据属性3个维度的特征作为边缘特征。

提取上述不同维度的边缘特征的方法可以为：

对于注册用户名数据属性，可以将用户名中的字符、数字和汉字个数进行统计生成一个用户名的取值，例如用户名中的字符有A1个，数字有A2个，汉字有A3个，那么(A1、A2、A3)为该账号的边缘特征。

如用户名为xiaoli123张，则字符有6个，数字有3个，汉字有1个，则对应的边缘特征为(6，3，1)。

如用户名为#￥％&34782小王，则字符有4个，数字有5个，汉字有2个，则对应的边缘特征为(4，5，2)。

对于注册渠道的数据属性，比如有B1、B2、B3、B4…Bn多个注册渠道，按照注册量进行排序，得到注册量从高到低的依次渠道号，然后对渠道号进行编号，得到一个表示注册渠道注册量的序列表，利用该表即可得到注册用户在渠道一栏的取值。例如注册量最多的B1取0，注册量第二的B2取1，注册量第三的B3取2，生成一个表示渠道注册量的序列表，那么该序列表中注册渠道对应的取值为注册渠道的边缘特征，例如渠道B1的边缘特征为(0)。

对于IP来源的数据属性，根据系统后台统计的每个IP上注册的恶意用户和真实用户的历史数值，将该历史数值当做该IP的边缘特征。

利用历史数据的积累，本发明实施例可以得到注册用户所使用的IP在历史上同样使用过该IP的所有用户中，存在的恶意用户数C1和真实用户数C2，将(C1、C2)作为该IP的边缘特征。

如IP123.211.34.23上有过12个恶意用户注册，2个真实用户注册，则对应的边缘特征为(12，2)。

如IP123.322.56.23上有过45个恶意用户注册，1个真实用户注册，则对应的边缘特征为(45，1)。

构建相应注册用户的特征向量的方法可以为：

如用户名为xiaoli123张，注册渠道为B1，其IP为123.211.34.23，则提取的边缘特征分别为(6，3，1)，(0)，(12，2)，将上述边缘特征进行组合，生成的组合特征向量为(6，3，1，0，12，2)。

如用户名为#￥％&34782小王，注册渠道为B2，其IP为123.322.56.23，则提取的边缘特征分别是(4，5，2)，(1)，(45，1)，将上述边缘特征进行组合，生成的组合特征向量为(4，5，2，1，45，1)。

选取的边缘特征不同，则提取边缘特征的数据属性的方式也不同，且边缘特征组合方式也不同，本发明实例对此不做限制。

步骤206：将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型。

将步骤205中的构建的特征向量输入机器学习框架中，如将注册用户xiaoli123张的特征向量(6，3，1，0，12，2)输入机器学习框架中。上述机器框架可以为SVM分类器，也可以为其他分类器或算法，本发明实施例对此不做限制。

训练出的恶意用户识别模型可以为：

上述正样本集概念的一般特征描述为(X_正，Y_正，Z_正)；

上述负样本集概念的一般特征描述为(X_负，Y_负，Z_负)。

或者生成正样本集和负样本集的一个中心聚合点，比如中心聚合点为5，大于5的为恶意用户，小于5的为真实用户。

步骤207：对于新注册的用户，提取所述N个不同维度的边缘特征构建特征向量。

按照同样的方式对新注册用户提取注册用户名的数据属性、注册渠道数据属性和IP来源数据属性3个维度的特征作为边缘特征，然后按照步骤205的方式将上述边缘特征构建成该新注册用户的特征向量。

如新注册用户的用户名为578王haha，注册渠道为B3，IP来源为IP123.221.35.23，且上述IP来源的历史注册用户中有3个恶意用户，4个真实用户，则该新注册用户的特征向量为(4，3，1，2，3，4)。

步骤208：利用所述恶意用户识别模型对所述特征向量输入进行识别，以确定所述新注册用户是否为恶意用户。

比如将新注册的用户输入恶意用户识别模型中，输出的新注册用户的特征描述为(X_新，Y_新，Z_新)，分别计算新注册用户的特征描述与正样本集、负样本集特征描述之间的距离，距离越短，则表示新注册用户越偏向哪个样本集，比如新注册的用户的特征描述到正样本集的概念的特征描述的距离为3，到负样本集的特征描述的距离为7，则判定此注册用户为真实用户。

再如根据生成正样本集和负样本集的一个中心聚合点，比如中心聚合点为5，大于5的为恶意用户，小于5的为真实用户。将新注册的用户输入恶意用户识别模型中，输出的新注册用户的结果值为9，则判定此注册用户为恶意用户。

参照图2B，示出了本发明实施例二的系统逻辑结构框架图。步骤203为通过在初始真实用户样本集中选择进行过指定维度的边缘行为的用户，生成正样本集。步骤204为通过在初始恶意用户样本集中选择账号被禁封的用户，生成负样本集。步骤205为通过对正、负样本集提取注册用户名中的字母和数字个数、注册渠道、IP来源等多个维度的边缘特征，并将提取的边缘特征向量进行组合。步骤206为将步骤205的边缘特征向量输入支持向量机SVM中进行训练，得出一个恶意用户识别的模型。步骤207至步骤208为通过步骤206训练出的恶意用户识别的模型对新注册用户进行检测，判断新注册用户是否为真实用户。

优选的，步骤206之后，还包括：

步骤2061：定期检测历史注册用户对应用的使用行为数据，当检测到历史注册用户中的恶意用户对应用的使用行为数据包括指定维度的边缘行为数据，则将当前的所述指定维度的边缘行为数据进行更新。

歌唱应用平台会定期对注册用户进行检测，检测的方式可以为选取一个月的历史注册用户，选出其中已经被禁封的恶意用户的操作行为进行分析，如果发现已经被禁封的恶意用户使用了当前指定维度的边缘行为，则说明该边缘行为已经对判断真实用户失去了作用，将对当前的指定维度的边缘行为数据进行更新。

更新的方式可以为：根据用户操作行为和注册信息对上述选取的一个月的历史注册用户进行分类，生成真实用户类、疑似真实用户类和恶意用户类。对比恶意用户类和真实用户类的操作行为，找出恶意用户类从未进行的操作行为但真实用户类中有部分用户进行过的操作行为，将上述这些操作行为作为新的指定维度的边缘行为。

优选的，步骤206之后，还包括：

步骤2062：定期检测历史注册用户对应用的使用行为数据，当检测到历史注册用户中的恶意用户与所述恶意用户识别模型的识别结果不一致，则将当前的所述边缘特征进行更新。

歌唱应用平台会定期对注册用户进行检测，检测的方式可以为选取一个月的历史注册用户，选出其中已经被禁封的恶意用户进行分析，如果发现其行为表现为恶意用户但通过恶意用户识别模型识别出的结果却为真实用户。则说明采用当前指定维度的边缘特征训练出的识别恶意用户的模型对检测恶意用户失去了作用，将当前的指定维度的边缘特征进行更新。

更新的方式可以为：根据用户操作行为和注册信息对上述选取的一个月的历史注册用户进行分类，生成真实用户类、疑似真实用户类和恶意用户类。通过边缘行为选出真实用户类中更为真实的用户生成正样本，选取恶意用户类中的已被禁封的用户生成负样本。选取新的多个维度的边缘特征，并对上述一个月的历史注册用户中的正样本和负样本中的每一个注册用户进行提取上述选取的新的多个维度的边缘特征，并将提取的多个维度的边缘特征进行组合，生成相应注册用户的特征向量，将生成的特征向量输入机器学习框架进行训练，得出新的识别恶意用户的模型。

优选的，如果边缘行为也进行更新，那么可以利用更新后的边缘行为对上述真实用户类的注册用户进行再次筛选，使正样本与负样本的个体更具有明显的差异性。

优选的，可以改变机器学习框架中的算法，使训练出的恶意用户识别模型与当前的模型更具差异性。

更新的方式可以有多种，本发明实施例只是进行示意性的描述，对具体实施方法不做限制。

相对在先技术，本发明实施例具备至少包括下述优点之一：

1、利用边缘行为筛选出真实用户和选择已被禁封的恶意用户作为训练的正样本集和负样本集，使机器学习的对象更具差异性，训练出的恶意用户识别模型更具可靠性和说服性。

3、定期对筛选真实用户的边缘行为进行分析更新，有效提高筛选真实用户的准确性。

4、定期对输入机器学习框架中的边缘特征进行分析更新，有效提高对恶意用户识别的准确率。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了根据本发明识别恶意用户的系统实施例一的结构框图，具体可以包括如下模块：

初始样本确定模块301，正样本生成模块302，负样本生成模块303，特征向量构建模块304，恶意用户识别模型训练模块305，新用户特征向量构建模块306，新用户识别模块307。

初始样本确定模块301：用于根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集；所述初始真实用户样本集包括初始的真实用户，所述初始恶意用户样本集包括初始的恶意用户。

正样本生成模块302：用于根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集。

负样本生成模块303：用于根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集。

特征向量构建模块304：用于针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量。

恶意用户识别模型训练模块305：用于将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型。

新用户特征向量构建模块306：用于对于新注册的用户，提取所述N个不同维度的边缘特征构建特征向量。

新用户识别模块307：用于利用所述恶意用户识别模型对所述特征向量输入进行识别，以确定所述新注册用户是否为恶意用户。

相对在先技术，本发明实施例具备至少包括下述优点之一：

参照图4，示出了根据本发明识别恶意用户的系统实施例二的结构框图，具体可以包括如下模块：

初始样本确定模块401，正样本生成模块402，负样本生成模块403，特征向量构建模块404，恶意用户识别模型训练模块405，新用户特征向量构建模块406，新用户识别模块307。

所述初始样本确定模块401包括：

初始真实用户样本集确定子模块4011：用于对于每个历史注册用户，当所述历史注册用户的使用行为数据中有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据小于等于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP是没有被禁封的历史记录，则将所述历史注册用户加入初始真实用户样本集。

初始恶意用户样本集确定子模块4012：用于当所述历史注册用户的使用行为数据中没有唱歌操作数据，且所述使用行为数据中除唱歌操作行为数据之外的其他使用行为数据大于相应的筛选条件阈值，且所述历史注册用户的属性信息中的注册IP有被禁封的历史记录，则将所述历史注册用户加入初始恶意用户样本集。

正样本生成模块402：用于根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集。

所述负样本生成模块403包括：

恶意用户筛选子模块4031：用于从所述初始恶意用户样本集中，选择已被禁封的恶意用户，以生成负样本集。

特征向量构建模块404：用于针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量。

恶意用户识别模型训练模块405：用于将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型。

新用户特征向量构建模块406：用于对于新注册的用户，提取所述N个不同维度的边缘特征构建特征向量。

新用户识别模块407：用于利用所述恶意用户识别模型对所述特征向量输入进行识别，以确定所述新注册用户是否为恶意用户。

优选的，所述系统还包括：

上述的边缘行为数据更新模块可以位于恶意用户识别模型训练模块405中，也可以位于正样本生成模块402中，或者为本发明实施例系统中的一个独立模块，本发明实施例对此不做限制。

优选的，所述系统还包括：

上述的边缘特征更新模块可以位于恶意用户识别模型训练模块405中，也可以位于特征向量构建模块404中，或者为本发明实施例系统中的一个独立模块，本发明实施例对此不做限制。

相对在先技术，本发明实施例具备至少包括下述优点之一：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的恶意用户的识别方法和系统设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种恶意用户的识别方法，其特征在于，所述方法包括：

根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集，所述边缘行为数据包括标记恶意用户未使用的行为数据而正常用户使用的行为数据；

根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集，所述恶意行为数据包括被其他用户举报的行为、发送黄色信息的行为或者操作行为大于系统设定的阈值其中至少一项；

针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量，其中：所述提取N个不同维度的边缘特征包括：选取N个不同维度的边缘特征，针对正、负样本集中的每一个注册用户，分别提取所述选取的N个不同维度的边缘特征；所述边缘特征为传统恶意用户检测方法对注册用户进行识别没有利用的特征；

2.如权利要求1所述的方法，其特征在于，所述根据历史注册用户对应用的使用行为数据以及相应的属性信息确定初始真实用户样本集和初始恶意用户样本集的步骤，包括：

3.如权利要求1所述的方法，其特征在于，所述根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集的步骤，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型的步骤之后，还包括：

5.如权利要求1所述的方法，其特征在于，所述将所述正样本集与负样本集中每一个注册用户的特征向量作为输入，训练恶意用户识别模型的步骤之后，还包括：

6.一种恶意用户的识别系统，其特征在于，所述系统包括：

正样本生成模块：用于根据指定维度的边缘行为数据从所述初始真实用户样本集中筛选最终的真实用户，以生成正样本集，所述边缘行为数据包括标记恶意用户未使用的行为数据而正常用户使用的行为数据；

负样本生成模块：用于根据指定维度的恶意行为数据从所述初始恶意用户样本集中筛选最终的恶意用户，以生成负样本集，所述恶意行为数据包括被其他用户举报的行为、发送黄色信息的行为或者操作行为大于系统设定的阈值其中至少一项；

特征向量构建模块：用于针对所述正样本集与负样本集中的每一个注册用户，提取N个不同维度的边缘特征，以构建相应注册用户的特征向量，其中：所述提取N个不同维度的边缘特征包括：选取N个不同维度的边缘特征，针对正、负样本集中的每一个注册用户，分别提取所述选取的N个不同维度的边缘特征；所述边缘特征为传统恶意用户检测方法对注册用户进行识别没有利用的特征；

7.如权利要求6所述的系统，其特征在于，所述初始样本确定模块包括：

8.如权利要求6所述的系统，其特征在于，所述负样本生成模块包括：

9.如权利要求6所述的系统，其特征在于，所述系统还包括：

10.如权利要求6所述的系统，其特征在于，所述系统还包括：