CN111783875B

CN111783875B - 基于聚类分析的异常用户检测方法、装置、设备及介质

Info

Publication number: CN111783875B
Application number: CN202010610232.4A
Authority: CN
Inventors: 敖琦; 唐炳武
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2024-04-30
Anticipated expiration: 2040-06-29
Also published as: CN111783875A

Abstract

本发明涉及人工智能，提供了一种基于聚类分析的异常用户检测方法、装置、设备及介质，所述基于聚类分析的异常用户检测方法包括：从预设数据库中获取每个用户对应的基本数据；根据预设要求对所述基本数据进行特征提取，得到特征数据；对所述特征数据进行one‑hot编码，生成每个所述用户对应的用户画像行为数据；利用所有所述用户画像行为数据进行聚类分析处理，得到正常聚类群体；分别计算每个所述用户画像行为数据与所述正常聚类群体之间的匹配度，并判断匹配度是否异常；将匹配度异常的所述用户画像行为数据所对应的用户确定为异常用户。本发明还涉及区块链技术，所述基本数据可存储于区块链中，本发明的技术方案实现对异常用户的准确识别及识别效率。

Description

基于聚类分析的异常用户检测方法、装置、设备及介质

技术领域

本发明涉及人工智能，尤其涉及一种基于聚类分析的异常用户检测方法、装置、设备及介质。

背景技术

随着网络技术的发展，互联网金融风险相比传统金融使用的基于规则的策略更隐蔽且易于扩大，由于存在异常用户进行欺诈等现象，造成普通消费者福利被抢夺，甚至对企业造成损失，为了保证企业及普通消费者的合法权益，需要对异常用户进行识别，传统识别异常用户的方法主要是基于规则、登录验证的风控方法，但存在识别准确度低的问题。

发明内容

本发明实施例提供一种基于聚类分析的异常用户检测方法、装置、设备及介质，以解决传统识别异常用户方式识别准确性低的问题。

一种基于聚类分析的异常用户检测方法，包括：

从预设数据库中获取每个用户对应的基本数据；

根据预设要求对所述基本数据进行特征提取，得到特征数据；

对所述特征数据进行one-hot编码，生成每个所述用户对应的用户画像行为数据；

利用所有所述用户画像行为数据进行聚类分析处理，得到正常聚类群体；

分别计算每个所述用户画像行为数据与所述正常聚类群体之间的匹配度，并判断所述匹配度是否异常；

将匹配度异常的用户画像行为数据所对应的用户确定为异常用户。

一种基于K-means的异常用户检测装置，包括：

获取模块，用于从预设数据库中获取每个用户对应的基本数据；

提取模块，用于根据预设要求对所述基本数据进行特征提取，得到特征数据；

编码模块，用于对所述特征数据进行one-hot编码，生成每个所述用户对应的用户画像行为数据；

聚类分析模块，用于利用所有所述用户画像行为数据进行聚类分析处理，得到正常聚类群体；

匹配度计算模块，用于分别计算每个所述用户画像行为数据与所述正常聚类群体之间的匹配度，并判断所述匹配度是否异常；

异常用户确定模块，用于将匹配度异常的用户画像行为数据所对应的用户确定为异常用户。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于聚类分析的异常用户检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于聚类分析的异常用户检测方法的步骤。

上述基于聚类分析的异常用户检测方法、装置、设备及介质，通过对基本数据进行特征提取以获取特征数据，可以有效剔除基本数据中一些无效数据，避免后续进行聚类分析存在多余计算，从而提高聚类分析的效率；对特征数据进行one-hot编码的方式，可以将特征数据转换成聚类分析处理对应的有效数据，从而提高聚类分析过程对数据识别的准确性，进而提高后续聚类分析的准确性；最后对所有用户画像行为数据进行聚类分析，能够准确聚类出正常聚类群体，保证后续根据用户画像行为数据与正常聚类群体进行匹配以区分异常用户的准确性，通过聚类分析的方式能够快速有效对特征数据进行实时分析，提高识别效率，避免由于规则单一无法及时更新导致识别不准确的情况，以及登录验证过程繁琐影响识别效率低下，从而实现提高对异常用户识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于聚类分析的异常用户检测方法的流程图；

图2是本发明实施例提供的基于聚类分析的异常用户检测方法中步骤S2的流程图；

图3是本发明实施例提供的基于聚类分析的异常用户检测方法中步骤S4的流程图；

图4是本发明实施例提供的基于聚类分析的异常用户检测方法中步骤S45的流程图；

图5是本发明实施例提供的基于聚类分析的异常用户检测方法中步骤S46的流程图；

图6是本发明实施例提供的基于聚类分析的异常用户检测方法中步骤S5的流程图；

图7是本发明实施例提供的基于K-means的异常用户检测装置的示意图；

图8是本发明实施例提供的计算机设备的基本机构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的基于聚类分析的异常用户检测方法应用于服务端，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。在一实施例中，如图1所示，提供一种基于聚类分析的异常用户检测方法，包括如下步骤：

S1：从预设数据库中获取每个用户对应的基本数据。

在本发明实施例中，预设数据库是指专门用于存储不同的用户及用户对应的基本数据的数据库，且每个基本数据都有其对应的业务类型标识，通过业务类型标识可以识别出基本数据所属的业务。

需要说明的是，每项业务都有其对应的描述信息，同一用户对应的手机号与业务访问数据之间存在映射关系。

具体地，当检测到用户在客户端中参与指定业务时，获取该指定业务包含的描述信息，并将描述信息与预设数据库中的基本数据对应的业务类型标识进行匹配，若描述信息与业务类型标识相同，则获取该业务类型标识对应的基本数据作为该用户在客户端中参与指定业务的基本数据。其中，指定业务包含对应的描述信息。

需要强调的是，为进一步保证上述基本数据的私密和安全性，上述基本数据还可以存储于一区块链的节点中。

S2：根据预设要求对基本数据进行特征提取，得到特征数据。

在本发明实施例中，预设要求是指根据目标用户实际需求设定用于提取特征数据的处理要求，通过利用预设要求对基本数据进行特征提取，得到特征提取后对应的特征数据。

S3：对特征数据进行one-hot编码，生成每个用户对应的用户画像行为数据。

在本发明实施例中，将特征数据导入到预设目标端口中进行one-hot编码，得到one-hot编码后对应的用户画像行为数据。其中，预设目标端口是指专门用于进行one-hot编码的处理端口，该端口存储预先设定好的one-hot编码对应的编码数据。

one-hot编码也叫独热编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

例如，对六个状态进行编码：

自然顺序码为 000，001，010，011，100，101，

独热编码则是000001，000010，000100，001000，010000，100000。

需要说明的是，用户画像行为数据包含不同的编码及编码对应的编码数据。

例如：用户A对应的特征数据为：签到次数、访问次数和活动天数，通过one-hot编码后得到的用户画像行为数据具体可以转化为{（000、334次），（001、35次），（010，20天）}，其中，000、001和010为用户画像行为数据对应的编码，334次为000对应的编码数据。

需要说明的是，针对时间数据，将时间可拆分成“年”、“月”、“日”、“时”，降低当前注册时间特征的离散程度，提高后续计算效率。

S4：利用所有用户画像行为数据进行聚类分析处理，得到正常聚类群体。

在本发明实施例中，聚类分析是指利用聚类算法将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。正常聚类群体是指对所有用户画像行为数据聚类分析后区分出的正常用户数据，且正常聚类群体中包含不同的特征，每个特征都有对应的数值。

具体地，将所有用户画像行为数据导入到预设聚类分析端口中进行聚类分析处理，得到聚类分析处理后的正常聚类群体。其中，预设聚类分析端口是指专门用于进行聚类分析的处理端口，其包含预先设定的聚类算法。

S5：分别计算每个用户画像行为数据与正常聚类群体之间的匹配度，并判断匹配度是否异常。

在本发明实施例中，用户画像行为数据包含不同的特征及每个特征对应的特征值，通过先计算正常聚类群体中每一项特征的平均值，再采用欧式距离计算公式计算每个用户画像行为数据包含的特征值与正常聚类群体包含的特征值之间的偏移距离，并将该偏移距离作为用户画像行为数据与正常聚类群体之间的匹配度，在根据偏移距离与预设阈值进行比较的方式，判断匹配度是否异常。

其中，预设阈值是指根据实际需求设定的值，其具体可以是1，也可以是0.5，此处不做限制。

需要说明的是，若偏移距离大于等于预设阈值，则表示表示该偏移距离对应的用户画像行为数据偏离正常范围，即匹配度异常，否则匹配度正常。

S6：将匹配度异常的用户画像行为数据所对应的用户确定为异常用户。

具体地，将匹配度异常的用户画像行为数据所对应的用户确定为异常用户。

本实施例中，通过对基本数据进行特征提取以获取特征数据，可以有效剔除基本数据中一些无效数据，避免后续进行聚类分析存在多余计算，从而提高聚类分析的效率；对特征数据进行one-hot编码的方式，可以将特征数据转换成聚类分析处理对应的有效数据，从而提高聚类分析过程对数据识别的准确性，进而提高后续聚类分析的准确性；最后对所有用户画像行为数据进行聚类分析，能够准确聚类出正常聚类群体，保证后续根据用户画像行为数据与正常聚类群体进行匹配以区分异常用户的准确性，通过聚类分析的方式能够快速有效对特征数据进行实时分析，提高识别效率，避免由于规则单一无法及时更新导致识别不准确的情况，以及登录验证过程繁琐影响识别效率低下，从而实现提高对异常用户识别的准确性。

在一实施例中，基本数据存储于区块链中，如图2所示，S2中，即根据预设要求对基本数据进行特征提取，得到特征数据包括如下步骤：

S21：通过信息摘要算法对基本数据进行识别号转换，得到用户识别号，其中，基本数据包含业务访问数据，以及业务访问数据对应的业务标识号和时间标识。

在本发明实施例中，信息摘要算法（MD5 Message-Digest Algorithm，MD5）是一种被广泛使用的密码散列函数，可以产生出一个128位或16字节的散列值（hash value），用于确保信息传输完整一致。

具体地，基本数据包含手机号、手机操作系统版本号和手机设备号，通过将手机号、手机操作系统版本号和手机设备号合成一个串，再通过MD5将该串转换为用户识别号（User Identification，UID）。

例如，基本数据包含的手机号为：1860731****，操作系统版本号为：EVA-AL008.0.0, 设备号为：86175903514****，利用MD5转换后如下：

UID=MD5（1860731**** EVA-AL00 8.0.086175903514****）=D28CCF46A6527281C2E6EA7E493A****。

需要说明的是，通过将基本数据转换为UID的方式，可以规避手机号过户、更新换机造成数据噪声，提高后续数据处理的准确性。

例如：用户A手机带号换机后，行为特征前后差异很大，拆分成两个UID后就消除了用户A换机行为差异对检测的影响。

另外，若手机号过户后不是同样一个人，通过UID转换会标识为两个UID。

S22：将用户识别号与业务标识号进行匹配，将匹配成功的业务标识号所对应的业务访问数据作为初始数据。

在本发明实施例中，由于基本数据包含业务访问数据以及业务访问数据对应的业务标识号，故将用户识别号与业务标识号进行匹配，若用户识别号与业务标识号相同，则表示匹配成功，并获取匹配成功的业务标识号对应的业务访问数据作为初始数据。

需要说明的是，业务访问数据包含活动ID、活动次数、签到类型ID、签到次数和用户活跃天数。

活动ID：是指与业务对应的活动URL，转换成统一的活动ID、并于后台数据处理。

活动次数：是指一个账号在预设时间内访问各活动页面的次数。

签到类型ID：是指签到操作，如登录、打卡等。

签到次数：是指用户在预设时间内执行签到操作的次数。

用户活跃天数：是指用户在预设时间内操作活动URL的天数。

其中，活动ID和签到ID实际上都不对应页面的URL，根据业务性质不一样，分成两类，比如把登录划分到签到ID。打开了抽奖页面划分到活动ID。

S23：选取时间标识在预设时间内的初始数据作为特征数据。

具体地，由于业务访问数据存在与其对应时间标识，初始数据由业务访问数据筛选得到，故初始数据包含时间标识，通过对初始数据对应的时间标识进行识别，若时间标识在预设时间内，则将该时间标识对应的初始数据作为特征数据。

其中，预设时间是指根据用户实际需求设定的时间，其具体可以是指30天。

需要说明的是，时间标识是以初始数据保存的时间进行展示，例如时间标识为20天。

本实施例中，通过利用信息摘要算法将基本数据转换为用户识别号的方式，能够避免基本数据中存在数据变更存在数据噪声，影响后续聚类分析过程，有效将基本数据转换为用户对应的唯一用户识别号；再根据用户识别号提取预设时间内的特征数据，有效筛选出符合预先设定的特征数据，从而保证后续进行聚类分析的准确性。

在一实施例中，如图3所示，步骤S4中，即利用所有用户画像行为数据进行聚类分析处理，得到正常聚类群体包括如下步骤：

S41：根据预设过滤条件对用户画像行为数据进行过滤处理，提取过滤后保留的用户画像行为数据作为目标样本。

在本发明实施例中，预设过滤条件是指预先设定用于对用户画像行为数据进行过滤处理的条件，其具体可以是，将用户画像行为数据包含的编码分别与预设编码进行匹配，当存在编码与预设编码相同时，获取编码对应的编码数据以及预设编码对应的预设数据，若编码数据为空或编码数据小于等于预设数据时，表示该编码对应的用户画像行为数据属于无操作用户，并对该用户画像行为数据进行过滤，否则将该编码对应的用户画像行为数据确定为目标样本。

其中，预设编码是指用户预先设定的编码，且其包含对应的预设数据。

S42：将每个目标样本作为候选点，并将所有候选点组合成样本数据集。

具体地，将每个目标样本作为候选点，并将所有候选点组合成样本数据集。

S43：从样本数据集中选取n个候选点作为基本候选点，并计算每个候选点与每个基本候选点之间的候选距离，其中，n为大于1的正整数。

具体地，从样本数据集中随机选取n个候选点作为基本候选点，并利用欧式距离计算公式计算每个候选点与每个基本候选点之间的候选距离。

需要说明的是，在计算候选距离之前，需要将候选点和基本候选点通过预设转换端口转换成向量的形式，以向量的形式进行计算。其中，预设转换端口是指专门进行向量转换的处理端口。

S44：根据候选距离确定样本数据集的n个主簇类以及n个主簇类对应的n个聚类中心。

具体地，服务器建立每个候选距离对应一个索引，将所有候选距离构成一个索引数组，根据索引数组中每个索引对应的距离值可以确定每个索引对应的主类簇，由于有n个基本候选点，故总共有n个主类簇；并将候选距离间的差值小于当前索引对应的候选距离的数据点作为该主类簇的非聚类点；将所有非聚类点构成第n+1个簇，第n+1个簇为非主类簇。

进一步地，将索引数组中的每个候选距离执行差值计算，即通过将索引i对应的候选距离和索引i+1对应的候选距离作差得到候选距离的差值；将差值执行降序排序；将排序后的差值存储在差值数组（difference array）中，其中，每一个差值对应一条索引，例如索引设置为j，j的取值范围为[0,倒数第二个差值对应的索引值]；由于降序是按照由大到小的顺序，故差值越小，即候选点之间的密度更集中，差值越大，候选点之间的密度小，在该簇中的偏远程度大。

可见，通过差值反映主类簇的整体，并且在每个主类簇能突显局部密度最大的点，该类簇中所有局部密度大于该点的局部密度的点被认为是类簇核心的一部分即聚类中心点，其余的数据点被认为是该类簇的光晕，亦即可以认为是噪音（outlier）。

进一步地，当确定主类簇的聚类中心后，将每个归属到对应的主类簇的数据点进行标记，例如，每个簇的聚类中心可以标记为x。

S45：基于n个主簇类和n个聚类中心对用户画像行为数据进行聚类，得到n个聚类结果。

具体地，将n个主簇类和n个聚类中心导入到预先训练好的聚类模型中对用户画像行为数据进行聚类处理，得到聚类处理后的n个聚类结果。

S46：计算n个聚类结果对应的轮廓系数，并输出轮廓系数最大的聚类结果作为正常聚类群体。

具体地，根据预先设置好的轮廓系数计算公式计算n个聚类结果对应的轮廓系数，并将每个轮廓系数进行比较，选取轮廓系数最大的聚类结果作为正常聚类群体。

本实施例中，通过对用户画像行为数据进行过滤处理，能够有效剔除用户画像行为数据中的无效数据，减少对无效数据的计算，提高后续数据处理效率；通过对用户画像行为数据进行聚类，能够将用户画像行为数据划分成不同的聚类结果，保证后续根据聚类结果确定正常聚类群体的准确性。

在一实施例中，如图4所示，步骤S45中，即基于n个主簇类和n个聚类中心对用户画像行为数据进行聚类，得到n个聚类结果包括如下步骤：

S451：按照公式（1）计算每个候选点与每个聚类中心之间的初始候选距离：

；

其中，为初始候选距离，/>为预设权重值，/>为聚类中心，/>为候选点。

在本发明实施例中，每个聚类中心都有对应的预设权重值，通过赋予不同的预设权重值可以体现出不同特征对聚类效果的贡献系数不同，通过利用公式（1）计算每个候选点与每个聚类中心之间的初始候选距离。

S452：针对每个候选点，选取最小的初始候选距离对应的聚类中心，作为候选点的基础聚类中心。

在本发明实施例中，由于存在多个聚类中心，故每个候选点存在多个初始候选距离，初始候选距离的越近表示候选点与聚类中心之间的关联性越强，针对每个候选点，将每个候选点对应的初始候选距离进行比较，从中选取最小的初始候选距离对应的聚类中心，作为该候选点新的聚类中心，即为基础聚类中心。

S453：将同一个基础聚类中心对应的候选点组成新的目标簇。

具体地，获取所有相同基础聚类中心对应的候选点，利用该候选点重新构成新的簇，即为目标簇。

S454：根据预设更新要求对目标簇的聚类中心进行更新，得到更新后的聚类中心，并重返步骤S451继续迭代更新，直到达到预设迭代条件为止，输出n个聚类结果。

在本发明实施例中，预设更新要求具体可以是求取目标簇中所有候选点的均值作为新的聚类中心，也可以是选取与该均值最近的候选点作为新的聚类中心，此处不做限制。

预设迭代条件是指目标用户根据实际需求设定的条件，其具体可以是计算一个簇中包含的候选点相对该簇的聚类中心的综合候选距离，与迭代更新后相近簇包含的候选点相对该簇的聚类中心的综合候选距离之间的差值是否小于终止阈值，也可以是一个簇包含的聚类中心与迭代更新后相近簇包含的聚类中心是否相同，此处不做限制。

具体地，根据预设更新要求对目标簇的聚类中心进行更新，得到更新后的聚类中心，并重返步骤S451继续迭代更新，直到达到预设迭代条件为止，输出n个聚类结果。

本实施例中，根据公式（1）能够快速准确地计算出初始候选距离，以保证根据初始候选距离确定候选点对应聚类中心以及目标簇的准确性，进而提高迭代更新过程的准确性，保证聚类结果输出的合理性。

在一实施例中，如图5所示，步骤S46中，即计算n个聚类结果对应的轮廓系数，并输出轮廓系数最大的聚类结果作为正常聚类群体包括如下步骤：

S461：针对每个聚类结果中的每个候选点，计算候选点在同个聚类结果中与其余候选点之间的第一平均距离，以及候选点与非同个聚类结果中的候选点之间的第二平均距离。

在本发明实施例中，不同聚类结果包含不同的候选点，针对每个聚类结果中的每个候选点，通过预设距离公式计算候选点在同个聚类结果中与其余候选点之间的第一平均距离，以及候选点与非同个聚类结果中的候选点之间的第二平均距离。

其中，预设距离公式具体可以是欧式距离公式，也可以是汉明距离等距离计算公式。

S462：根据第一平均距离和第二平均距离，按照公式（2）计算每个聚类结果对应的轮廓系数：；

其中，S为轮廓系数，k为候选点的数量，为第i个候选点，b为第i个候选点对应的第二平均距离，a为第i个候选点对应的第一平均距离。

在本发明实施例中，轮廓系数是聚类效果好坏的一种评价方式，根据步骤S461得到的第一平均距离和第二平均距离，按照公式（2）计算每个聚类结果对应的轮廓系数。

需要说明的是，单个候选点对应的轮廓系数为，当q接近1，说明该候选点聚类合理；当q接近-1，说明该候选点更应该分类到另外的簇，当q接近0，说明该候选点在两个簇的边界上。

S463：将每个聚类结果的轮廓系数进行比较，选取轮廓系数最大的聚类结果作为正常聚类群体。

具体地，将每个聚类结果的轮廓系数进行比较，选取轮廓系数最大的聚类结果作为正常聚类群体。

本实施例中，通过计算第一平均距离与第二平均距离，再根据公式（2）快速准确地计算出每个聚类结果对应的轮廓系数，并根据轮廓系数确定正常聚类群体，实现对正常聚类群体的有效筛选，提高后续根据正常聚类群体确定异常用户的准确性。

在一实施例中，如图6所示，步骤S5中，即分别计算每个用户画像行为数据与正常聚类群体之间的匹配度，并判断匹配度是否异常包括如下步骤：

S51：计算正常聚类群体中所有候选点对应的特征平均值。

在本发明实施例中，通过对正常聚类群体中所有候选点相同特征对应的值进行求平均的方式，得到所有候选点对应的特征平均值。

S52：根据特征平均值与欧式距离公式，计算每个用户画像行为数据与正常聚类群体之间的偏移距离，作为用户画像行为数据与正常聚类群体之间的匹配度。

在本发明实施例中，正常聚类群体包含不同的特征及每个特征对应的特征平均值，用户画像行为数据包含不同的特征及每个特征对应的值，其中，正常聚类群体包含的特征与用户画像行为数据包含的特征相同。

具体地，根据公式（3）计算每个用户画像行为数据与正常聚类群体之间的偏移距离，并将偏移距离作为用户画像行为数据与正常聚类群体之间的匹配度：

；

其中，d为偏移距离，为正常聚类群体第t个特征对应的特征平均值，/>为用户画像行为数据第t个特征对应的值。

S53：若偏移距离大于等于预设阈值，则表示匹配度异常。

具体地，将步骤S52得到的偏移距离与预设阈值进行比较，若偏移距离大于等于预设阈值，则表示匹配度异常。

本实施例中，根据公式（3）能够快速准确地计算出每个用户画像行为数据与正常聚类群体之间的偏移距离，根据偏移距离进行进一步分析，能够有效判断匹配度是否异常，从而提高后续根据匹配度识别异常用户的准确性。

在一实施例中，步骤S1之后，该基于聚类分析的异常用户检测方法还包括如下步骤：

将基本数据存储至区块链中。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于K-means的异常用户检测装置，该基于K-means的异常用户检测装置与上述实施例中基于聚类分析的异常用户检测方法一一对应。如图7所示，该基于K-means的异常用户检测装置包括获取模块71，提取模块72，编码模块73，聚类分析模块74、匹配度计算模块75和异常用户确定模块76。各功能模块详细说明如下：

获取模块71，用于从预设数据库中获取每个用户对应的基本数据；需要强调的是，为进一步保证上述基本数据的私密和安全性，上述基本数据还可以存储于一区块链的节点中；

提取模块72，用于根据预设要求对基本数据进行特征提取，得到特征数据；

编码模块73，用于对特征数据进行one-hot编码，生成每个用户对应的用户画像行为数据；

聚类分析模块74，用于利用所有用户画像行为数据进行聚类分析处理，得到正常聚类群体；

匹配度计算模块75，用于分别计算每个用户画像行为数据与正常聚类群体之间的匹配度，并判断匹配度是否异常；

异常用户确定模块76，用于将匹配度异常的用户画像行为数据对应的用户确定为异常用户。

进一步地，提取模块72包括：

转换子模块，用于通过信息摘要算法对基本数据进行识别号转换，得到用户识别号，其中，基本数据包含业务访问数据，以及业务访问数据对应的业务标识号和时间标识；

匹配子模块，用于将用户识别号与业务标识号进行匹配，将匹配成功的业务标识号所对应的业务访问数据作为初始数据；

选取子模块，用于选取时间标识在预设时间内的初始数据作为特征数据。

进一步地，聚类分析模块74包括：

过滤子模块，用于根据预设过滤条件对用户画像行为数据进行过滤处理，提取过滤后保留的用户画像行为数据作为目标样本；

组合子模块，用于将每个目标样本作为候选点，并将所有候选点组合成样本数据集；

计算子模块，用于从样本数据集中选取n个候选点作为基本候选点，并计算每个候选点与每个基本候选点之间的候选距离，其中，n为大于1的正整数；

确定子模块，用于根据候选距离确定样本数据集的n个主簇类以及n个主簇类对应的n个聚类中心；

聚类结果获取子模块，用于基于n个主簇类和n个聚类中心对用户画像行为数据进行聚类，得到n个聚类结果；

输出子模块，用于计算n个聚类结果对应的轮廓系数，并输出轮廓系数最大的聚类结果作为正常聚类群体。

进一步地，聚类结果获取子模块包括：

第一计算单元，用于按照公式（1）计算每个候选点与每个聚类中心之间的初始候选距离：；

其中，为初始候选距离，/>为预设权重值，/>为聚类中心，/>为候选点；

基础聚类中心确定单元，用于针对每个候选点，选取最小的初始候选距离对应的聚类中心，作为候选点的基础聚类中心；

目标簇确定单元，用于将同一个基础聚类中心对应的候选点组成新的目标簇；

迭代单元，用于根据预设更新要求对目标簇的聚类中心进行更新，得到更新后的聚类中心，并重返步骤S451继续迭代更新，直到达到预设迭代条件为止，输出n个聚类结果。

进一步地，输出子模块包括：

第二计算单元，用于针对每个聚类结果中的每个候选点，计算候选点在同个聚类结果中与其余候选点之间的第一平均距离，以及候选点与非同个聚类结果中的候选点之间的第二平均距离；

第三计算单元，用于根据第一平均距离和第二平均距离，按照公式（2）计算每个聚类结果对应的轮廓系数：

其中，S为轮廓系数，k为候选点的数量，为第i个候选点，b为第i个候选点对应的第二平均距离，a为第i个候选点对应的第一平均距离；

比较单元，用于将每个聚类结果的轮廓系数进行比较，选取轮廓系数最大的聚类结果作为正常聚类群体。

进一步地，匹配度计算模块75包括：

第四计算子模块，用于计算正常聚类群体中所有候选点对应的特征平均值；

第五计算子模块，用于根据特征平均值与欧式距离公式，计算每个用户画像行为数据与正常聚类群体之间的偏移距离，作为用户画像行为数据与正常聚类群体之间的匹配度；

判断子模块，用于若偏移距离大于等于预设阈值，则表示匹配度异常。

进一步地，该基于聚类分析的异常用户检测装置还包括：

存储模块，用于将基本数据存储至区块链中。

本申请的一些实施例公开了计算机设备。具体请参阅图8，为本申请的一实施例中计算机设备90基本结构框图。

如图8中所示意的，所述计算机设备90包括通过系统总线相互通信连接存储器91、处理器92、网络接口93。需要指出的是，图8中仅示出了具有组件91-93的计算机设备90，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器91至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器91可以是所述计算机设备90的内部存储单元，例如该计算机设备90的硬盘或内存。在另一些实施例中，所述存储器91也可以是所述计算机设备90的外部存储设备，例如该计算机设备90上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器91还可以既包括所述计算机设备90的内部存储单元也包括其外部存储设备。本实施例中，所述存储器91通常用于存储安装于所述计算机设备90的操作系统和各类应用软件，例如所述基于聚类分析的异常用户检测方法的程序代码等。此外，所述存储器91还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器92在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92通常用于控制所述计算机设备90的总体操作。本实施例中，所述处理器92用于运行所述存储器91中存储的程序代码或者处理数据，例如运行所述基于聚类分析的异常用户检测方法的程序代码。

所述网络接口93可包括无线网络接口或有线网络接口，该网络接口93通常用于在所述计算机设备90与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有基本数据信息录入程序，所述基本数据信息录入程序可被至少一个处理器执行，以使所述至少一个处理器执行上述任意一种基于聚类分析的异常用户检测方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台计算机设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

最后应说明的是，显然以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于聚类分析的异常用户检测方法，其特征在于，所述基于聚类分析的异常用户检测方法包括：

从预设数据库中获取每个用户对应的基本数据；

将匹配度异常的用户画像行为数据所对应的用户确定为异常用户；

所述利用所有所述用户画像行为数据进行聚类分析处理，得到正常聚类群体的步骤包括：

根据预设过滤条件对所述用户画像行为数据进行过滤处理，提取过滤后保留的用户画像行为数据作为目标样本；

将每个所述目标样本作为候选点，并将所有所述候选点组合成样本数据集；

从所述样本数据集中选取n个所述候选点作为基本候选点，并计算每个所述候选点与每个所述基本候选点之间的候选距离，其中，n为大于1的正整数；

根据所述候选距离确定所述样本数据集的n个主簇类以及n个所述主簇类对应的n个聚类中心；

基于n个所述主簇类和n个所述聚类中心对所述用户画像行为数据进行聚类，得到n个聚类结果；

计算n个所述聚类结果对应的轮廓系数，并输出所述轮廓系数最大的所述聚类结果作为所述正常聚类群体；

所述基于n个所述主簇类和n个所述聚类中心对所述用户画像行为数据进行聚类，得到n个聚类结果的步骤包括：

按照如下公式计算每个所述候选点与每个所述聚类中心之间的初始候选距离：；

其中，为所述初始候选距离，/>为预设权重值，/>为所述聚类中心，/>为所述候选点；

针对每个所述候选点，选取最小的所述初始候选距离对应的所述聚类中心，作为所述候选点的基础聚类中心；

将同一个所述基础聚类中心对应的所述候选点组成新的目标簇；

根据预设更新要求对所述目标簇的聚类中心进行更新，得到更新后的聚类中心，并重返计算每个所述候选点与每个所述聚类中心之间的初始候选距离的步骤继续迭代更新，直到达到预设迭代条件为止，输出n个所述聚类结果。

2.如权利要求1所述的基于聚类分析的异常用户检测方法，其特征在于，所述根据预设要求对所述基本数据进行特征提取，得到特征数据的步骤包括：

通过信息摘要算法对所述基本数据进行识别号转换，得到用户识别号，其中，所述基本数据包含业务访问数据，以及所述业务访问数据对应的业务标识号和时间标识；

将所述用户识别号与所述业务标识号进行匹配，将匹配成功的业务标识号所对应的业务访问数据作为初始数据；

选取时间标识在预设时间内的初始数据作为特征数据。

3.如权利要求1所述的基于聚类分析的异常用户检测方法，其特征在于，所述计算n个所述聚类结果对应的轮廓系数，并输出所述轮廓系数最大的所述聚类结果作为所述正常聚类群体的步骤包括：

针对每个所述聚类结果中的每个所述候选点，计算所述候选点在同个所述聚类结果中与其余候选点之间的第一平均距离，以及所述候选点与非同个所述聚类结果中的候选点之间的第二平均距离；

根据所述第一平均距离和所述第二平均距离，按照如下公式计算每个所述聚类结果对应的轮廓系数：;

其中，S为所述轮廓系数，k为所述候选点的数量，为第i个所述候选点，b为第i个所述候选点对应的所述第二平均距离，a为第i个所述候选点对应的所述第一平均距离；

将每个所述聚类结果的轮廓系数进行比较，选取所述轮廓系数最大的所述聚类结果作为所述正常聚类群体。

4.如权利要求1所述的基于聚类分析的异常用户检测方法，其特征在于，所述分别计算每个所述用户画像行为数据与所述正常聚类群体之间的匹配度，并判断所述匹配度是否异常的步骤包括：

计算所述正常聚类群体中所有候选点对应的特征平均值；

根据所述特征平均值与欧式距离公式，计算每个所述用户画像行为数据与所述正常聚类群体之间的偏移距离，作为用户画像行为数据与正常聚类群体之间的匹配度；

若偏移距离大于等于预设阈值，则表示匹配度异常。

5.如权利要求1所述的基于聚类分析的异常用户检测方法，其特征在于，所述从预设数据库中获取每个用户对应的基本数据的步骤之后，所述基于聚类分析的异常用户检测方法还包括：

将所述基本数据存储至区块链中。

6.一种基于K-means的异常用户检测装置，其特征在于，所述基于K-means的异常用户检测装置执行时实现如权利要求1至5任一项所述基于聚类分析的异常用户检测方法的步骤，所述基于K-means的异常用户检测装置包括：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于聚类分析的异常用户检测方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于聚类分析的异常用户检测方法的步骤。