CN107426177A

CN107426177A - 一种用户行为聚类分析方法及终端、计算机可读存储介质

Info

Publication number: CN107426177A
Application number: CN201710443899.8A
Authority: CN
Inventors: 李志晖
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2017-12-01

Abstract

本发明提供了一种用户行为聚类分析方法及终端、计算机可读存储介质，该方法包括获取所有用户在网站上操作的用户数据，从用户数据中提取有效的用户行为操作，组成一个特征项集，将所有用户的特征项集转换为向量空间模型数据，根据聚类分析算法对向量空间模型数据中的特征项进行聚类操作，得到聚类分析结果，根据聚类分析结果确定每个用户行为操作的合法性；本发明通过根据聚类分析算法对用户在网站上操作的用户行为进行合法性的分析，根据分析结果判断各个用户行为是否合法，并对这些不合法的用户行为以及对应的用户进行归类显示，从而提高了网站的性能，以及对某类用户的恶意操作进行拦截处理，从操作源头上解决用户对网站的恶意操作。

Description

一种用户行为聚类分析方法及终端、计算机可读存储介质

技术领域

本发明涉及用户行为分析技术领域，更具体地说，涉及一种用户行为聚类分析方法及终端、计算机可读存储介质。

背景技术

对于一个电商web网站，用户的行为分析有我重要，尤其是用户群体巨大的网站，通过对用户行为进行分析，可以区分某个用户是友好的还是恶意的，如果有不良黑客对网站进行攻击，可以通过分析该用户的行为记录，进行偏差，最终定位到该用户是否为恶意用户。这对于提高一个网站的安全性具有非常重要的意义。

不良用户具有的行为和普通的友好用户具有的行为是完全不同的，比如，带有攻击型的用户往往试图通过各种方法找到网站的漏洞，往往会常识各种不常用的网站操作，或者经常在无人监控的时间段内进行网站异常操作，这些行为都和普通用户具有天然的不同。

为了规避这种用户，目前的做法是通过开发一个用户行为分析模块，收集用户的行为，然后通过该模块对用户的操作进行简单的检查判断，虽然这样的方式可以在一定程度上规避这些不良操作，但是这种分析方法并没有实现对这一类用户的好坏区分，这样并不利于后续的规避操作。

发明内容

本发明的主要目的在于，提供一种用户行为聚类分析方法及终端、计算机可读存储介质，旨在解决现有技术中并不能够准确快速区分用户类型，从而导致用户行为聚类准确度较低的技术问题。

为了解决上述技术问题，提供一种用户行为聚类分析方法，包括：

获取所有用户在网站上操作的用户数据，其中，每个用户数据中包括至少一个用户行为操作；

从所述至少一个用户行为操作中提取至少一个有效的用户行为操作，组成一个特征项集；

将所有用户的特征项集转换为向量空间模型数据，所述向量空间模型数据为多维度的数据表；

根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作，得到聚类分析结果；

根据所述聚类分析结果确定每个用户行为操作的合法性。

可选地，在所述将所有用户的特征项集转换为向量空间模型数据之后，还包括：

判断所述向量空间模型数据中的特征项维度是否大于预设的维度阈值；

若所述特征项维度大于维度阈值，则对所述向量空间模型数据进行降维处理，所述降维处理为去除所述特征项集中的特征项。

可选地，所述对所述向量空间模型数据进行降维处理包括：

根据所述主成分分析算法对所述特征项集中的各个特征项进行重新评估；

根据重新评估的结果将所述向量空间模型数据中重要程度低的特征项从所述特征项集中去除。

可选地，在所述根据所述聚类分析结果确定每个用户行为操作的合法性之后，还包括：

根据所述聚类分析结果对对应的用户数据进行标记；

根据所述标记将所述所有的用户数据进行分类，并以饼状图的形式进行显示。

可选地，所述根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作包括：

从所述所有用户的特征项集中选择一个需要进行合法性分析的特征项；

计算所述需要进行合法性分析的特征项在所述所有用户的特征项集中的第一频数TF_k；

计算所述需要进行合法性分析的特征项在所述所有用户的特征项集中出现的第二频数IDF_k；

根据所述第一频数TF_k和第二频数IDF_k计算所述需要进行合法性分析的特征项的权值。

可选地，所述根据所述聚类分析结果确定每个用户行为操作的合法性包括：根据计算得到的所有特征项的权值对每个特征项以及该特征项对应的用户进行类别划分，所述类别划分包括非法操作和合法操作。

可选地，所述计算所述需要进行合法性分析的特征项的在所述所有用户的特征项集中的第一频数TF_k包括：

获取所述需要进行合法性分析的特征项在所述所有用户的特征项集中出现的次数n；

计算所述所有用户的特征项集中出现次数最多的特征项的第一频数N_k；

根据所述次数n和第一频数N_k计算所述需要进行合法性分析的特征项的在所述所有用户的特征项集中的频数TF_k。

可选地，所述计算所述需要进行合法性分析的特征项在所有特征项集中出现的第二频数IDF_k包括：

确定所述向量空间模型数据中的特征项集的总数N，以及含有所述需要进行合法性分析的特征项的特征项集的个数n_k；

根据所述特征项集的总数N和特征项集的个数n_k计算得到所述第二频数IDF_k。

本发明实施例还提供了一种用户行为聚类分析终端，所述终端包括：处理器、存储器和用于实现所述处理器和存储器相互通信的通信总线，及存储在所述存储器上并可在所述处理器上运行的用户行为聚类分析程序，所述用户行为聚类分析程序被所述处理器执行时实现上述任一项所述的用户行为聚类分析方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有用户行为聚类分析程序，所述用户行为聚类分析程序被执行时实现上述任一项所述的用户行为聚类分析方法的步骤。

本发明提供了一种用户行为聚类分析方法及终端、计算机可读存储介质，该方法包括获取所有用户在网站上操作的用户数据，其中，每个用户数据中包括至少一个用户行为操作，从所述至少一个用户行为操作中提取至少一个有效的用户行为操作，组成一个特征项集，将所有用户的特征项集转换为向量空间模型数据，所述向量空间模型数据为多维度的数据表，根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作，得到聚类分析结果，根据所述聚类分析结果确定每个用户行为操作的合法性；可见，本发明通过根据聚类分析算法对用户在网站上操作的用户行为进行合法性的分析，实现了系统自动对用户的所有操作进行实时的分析处理，通过从采集到的用户数据中提取有效的用户行为操作，了解不同用户的使用记录和操作习惯，对这些数据进行聚类操作，根据聚类分析结果判断各个用户行为是否合法，并对这些不合法的用户行为以及对应的用户进行归类显示，从而提高了网站的性能，以及对某类用户的恶意操作进行拦截处理，从操作源头上解决用户对网站的恶意操作。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图。

图2为本发明第一实施例提供的用户行为聚类分析方法的流程图。

图3为本发明第二实施例提供的用户行为聚类分析方法的另一种流程图。

图4为本发明实施例提供的特征项提取后的特征项集显示示意图。

图5为本发明实施例提供的向量空间模型数据的显示示意图。

图6为本发明实施例提供的根据聚类分析结果得到的用户群体聚类饼状图。

图7为本发明第三实施例提供的用户行为聚类分析终端的结构框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以移动终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本发明各个实施例的一种移动终端的硬件结构示意图，该移动终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储单元109、主控单元110、以及电源111等部件。本领域技术人员可以理解，图1中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对移动终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给主控单元110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)和TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)等。

WiFi属于短距离无线传输技术，移动终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于移动终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在移动终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储单元109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储单元109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

移动终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在移动终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给主控单元110，并能接收主控单元110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

进一步的，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给主控单元110以确定触摸事件的类型，随后主控单元110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端100和外部装置之间传输数据。

存储单元109可用于存储软件程序以及各种数据。存储单元109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储单元109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

主控单元110是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储单元109内的软件程序和/或模块，以及调用存储在存储单元109内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。主控单元110可包括一个或多个处理单元；优选的，主控单元110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到主控单元110中。

移动终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与主控单元110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，移动终端100还可以包括蓝牙模块等，在此不再赘述。

基于上述移动终端硬件结构，提出本发明方法及装置的各个实施例。

第一实施例：

在传统的用户行为分析中，通过是通过预先建立的用户行为模型进行判断，只有用户的行为操作与所述用户行为模型规定的操作相同或者相似，则认为该用户行为操作是合法的，但是这只是对操作本身去判断，并且对于判断完成后的用户行为操作也没有进行对应的归纳，或者是对对应的用户进行分类，从而导致现有技术中，需要不停地反复进行比较的操作，并且判断的准确率也不高，为了解决上述的问题，本发明实施例提供了一种用户行为聚类分析方法，该方法具体是基于一种聚类算法对繁杂的用户行为进行聚类分析，得到用户群体的类别，方便快速定位不良用户。

如图2所示，图2为本发明本实施例提供的用户行为聚类分析方法的流程图，该方法是基于上述图1现有的服务器硬件结构所提出的实现方案，该方案具体是通过对系统上收集到的用户数据进行特征项的提取，并对特征项进行聚类操作，其具体处理步骤如下：

S201，获取所有用户在网站上操作的用户数据。

S202，从所述至少一个用户行为操作中提取至少一个有效的用户行为操作，组成一个特征项集。

S203，将所有用户的特征项集转换为向量空间模型数据。

S204，根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作，得到聚类分析结果。

S205，根据所述聚类分析结果确定每个用户行为操作的合法性。

其中，本实施例在获取用户数据的时候，应当按照用户个体进行采集，并存储于数据库中，在存储时，也应当以用户为单位进行存储，一个用户数据中包括该用户在当前时刻或一段时间内的所有行为操作，而且每个用户数据中包括至少一个用户行为操作，这些用户行为操作可以包括：是否异地登录、登录时间、登录地点、停留时间、查询销售数据、修改密码等等。

在本实施例中，在步骤S202中的特征提取指的是，从获取到的每个用户数据中提取出最具有代表性的用户行为操作，也即是说，在获取到的用户数据中可能包括了很多大量对用户行为操作判断没有任何帮助或者冗余的操作，而为了便于后续对用户行为操作合法性的操作，则通过特征提取将有效的、对判断有用的用户行为操作提取出来，并组成该用户对应的特征项集，该特征项集中的特征项指的就是用户行为操作，例如：采集到的用户A的行为有：是否异地登录、登录时间、登录地点、停留时间、查询销售数据、修改密码等等。经过步骤S202后，用户A的行为包括有：停留时间、修改密码、是否异地登录。

在步骤S203中，所述向量空间模型数据实质为多维度的数据表，由于在采集用户行为操作时，每个用户都会设置一个特征项集，而以该特征项集形式组成的数据不具有结构性，并不能被终端或者计算机和聚类分析算法所识别使用，因此，需要通过该步骤进行转换为有结构性的能为算法识别的数据，具体是通过一种基于TF(词频)改善的VSM(向量空间模型)对该特征项集进行数据转换。

在本实施例中，对于一些用户较多的系统，其用户行为操作也多，那么在完成特征项提取之后的特征项集也会很大，即是转换后的向量空间模型数据的维度也非常大，这时系统对于这种情况下的数据，其处理耗时相对比较大。

在实际的判断中，对于每个用户的用户行为操作可能并没有全部都使用，可能选择其中某几个特征项就可以完成准确的判断了，实验研究表明，确实大量对聚类没有作用或者冗余的特征项，对提高聚类质量不仅没有任何帮助，反而会严重影响聚类的结果质量。所以，必须对文本的特征项集合里面的数据进行降低维数的处理。

因此，为了降低系统对向量空间模型数据的处理量，在本实施例提供的用户行为聚类分析方法中，在将所有用户的特征项集转换为向量空间模型数据之后，还包括：

判断所述向量空间模型数据中的特征项维度是否大于预设的维度阈值，所述维度阈值的设置具体是根据系统的最大处理能力进行设置，不同的系统对应的性能会有所不同，所以在设置所述维度阈值时具体还要根据实际的系统性能来设置；

若所述特征项维度大于维度阈值，则对所述向量空间模型数据进行降维处理，所述降维处理为去除所述特征项集中的特征项，具体可以理解为是用户数据中的一些多余的、对用户的好坏判断没有贡献的用户行为操作(即特征项)进行剔除。

在实际应用中，所述对所述向量空间模型数据进行降维处理包括：

根据预设的主成分分析算法对所述特征项集中的各个特征项进行重新评估；

根据重新评估的结果将所述向量空间模型数据中重要程度低的特征项从所述特征项集中去除，这里的重要程度可以理解为是通过对特征项集中的每个特征项进行评估排序，比如，在阿里巴巴的购物平台上，对于正常的用户行为来说，其用户的特征项为可能包括“修改密码、浏览产品页面、对产品评价、停留时间、是否异地登录”等，这时对于能实现对该类用户行为进行分类的关键词其实是“修改密码、浏览产品页面、对产品评价”，也即是说这些特征项会较为重要，其他的特征项的重要性就比较低了，因此在重新评估后会将“停留时间、是否异地登录”进行剔除。

其中，所述主成分根系算法的工作原理是：设法将原来变量重新组合成一组新的相互无关的几个综合变量，同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P个指标)，重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合，即第一个综合指标)的方差来表达，即Va(rF1)越大，表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现再F2中，用数学语言表达就是要求Cov(F1,F2)＝0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

在本实施例中，根据聚类分析结果确定了每个用户行为操作的的合法性之后，还包括：

根据所述聚类分析结果对对应的用户数据进行标记；

在实际应用中，通过对用户数据的标记，并根据标记进行分类，具体的，这里的标记指的是对不合法的用户行为操作进行标记，当用户数据中标记有不合法的用户行为操作时，则确定该用户数据对应的用户属于不合法用户，并且将该用户分类到对应的不合法用户群体，对于没有标记的用户数据对应的用户分类到合法用户群体中，当然可能会存在少数标记的用户数据，对于该部分的用户数据，在实际应用中，还可以通过判断标记的用户行为操作的危险程度进行分类，具体将不合法用户分为危险程序一般用户群体和危险程度严重用户群体，最后将分类的情况以饼状图的形式显示出来，这样便于网站管理人员进行黑名单的添加，当然还可以以其他的形式显示，如柱形图等等。

在本实施例中，对于步骤S204，在根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作时，具体是通过以下方法实现：

进一步的，所述根据所述聚类分析结果确定每个用户行为操作的合法性包括：根据计算得到的所有特征项的权值对每个特征项以及该特征项对应的用户进行类别划分，所述类别划分包括非法操作和合法操作。

在本实施例中，所述计算所述需要进行合法性分析的特征项在所述所有用户的特征项集中的第一频数TF_k包括：

获取所述需要进行合法性分析的特征项在所述所有的特征项集中出现的次数n；

在本实施例中，所述计算所述需要进行合法性分析的特征项在所述所有用户的特征项集中出现的第二频数IDF_k包括：

在实际应用中，VSM模型是学术界经常使用的文本表示模型。其基本思想是，在一个n维坐标系中，如果把一个文档中的每一个特征项t_i看成是单个坐标，特征项t_i对应的权值W_i看成是第i维的坐标值，那么向量(W₁，W₂，W₃，W₄，……，W_n)就是该文档集d的文本表示。其中W_i的计算方法有很多种，最普遍常用的一种是TF-IDF权值法。

去除停用词后，若某个特征项出现在文档中的次数最多，说明此特征项最能代表该文档。若将该特征项的词频作为计算TF的贡献者，那么计算出的TF值就能够更好地表示该文档。

在传统的VSM模型中，其TF的计算方法是某个特征项在文档中的频数去除以该文档的特征项的总数量，并没有突出在该文档中出现次数最多的那个特征项在计算TF的作用，为了突出该特征项的在文本表示模型中的重要性，在本发明的实施例中，对计算TF(特征项频率)的计算公式改进如下：

其中，i表示文档集中第i篇文档(即是本实施例中的第i个用户)，k表示第k个特征项(即是本实施例中的第k个用户行为操作)，n表示在文档集中含有t_i的次数，t_i表示出现在文档集中的某特征项，N_k表示的是出现在文档集中次数最多的特征项在文档集的频数。

而在一个文档集中，包含某个特征项的文档数越少，那么用这个特征项来表示文档，就越能和文档集中的其它文档区别开来，这个度量可以用IDF来表示，其计算公式为：

其中，N表示文档集包含的总文档数，n_k是含有t_i的总文档数。

因此，在根据上述改进后的计算公式的前提下，根据所述第一频数TF_k和第二频数IDF_k计算所述需要进行合法性分析的特征项的权值的计算公式为：

w_i,k＝(log(tf_i，k)×log(N/n_k)

在实际应用中，为了提高对每个特征项计算的精度，在本实施例中，在计算权值时还设置有对应的补偿系数，其计算公式为：

w_ij＝((log(tf_i,k)+1)×log(N/n_k+0.01)

本实施例提供的用户行为聚类分析方法，该方法使用了聚类分析算法(kmeans)对所有用户行为进行聚类分析。经过聚类分析，得到用户类别，行为不同种类的用户群体，方便快速准确定位不良用户，为网站管理员后续添加黑名单提供参考，具体的在聚类分析时是基于TF(词频)的VSM模型，进一步地提高用户行为聚类准确度的效果。

第二实施例：

如图3所示，为本发明实施例二提供的用户行为聚类分析方法的另一种流程图，该方法是基于具体的网站提出的操作方案，例如，阿里巴巴销售平台，其具体包括如下步骤：

S301，系统收集用户行为。开发用户行为记录模块，对网站所有的用户进行行为记录，将这些行为记录到数据库。

S302，用户行为提取。对数据库中的用户行为进行分析，提取出用户的各种行为。比如用户A，其行为有：是否异地登录、登录时间、登录地点、停留时间、查询销售数据、修改密码等等。

S303，特征项提取。基于特征项提取算法，提取出最能代表某用户的行为，组成特征项。比如在用户A的所有行为中，取出停留时间、修改密码、是否异地登录组成特征项。

S304，将提取得到的每个用户的特征项集转换为聚类分析算法能识别的数据。

在本实施例中，经过步骤S303后，每一个用户都会有一个特征项集，如下图4所示。但是，此时形成的数据还不具备结构性，因为聚类分析算法不能识别这种类型的数据，所以，必须对这些数据进行建模，形成聚类分析算法能够识别的结构化数据。使用基于TF改善的VSM对这些非结构化的数据进行建模，并根据该建模规则进行转换处理，从而形成计算机和聚类分析算法能够识别的向量空间模型数据，如图5所示。

S305，对所述向量空间模型数据进行降维处理。

在该步骤中，当系统用户较多，其用户行为也较多，那么用户的特征项集会很大，即特征项维度很高，这将导致聚类的代价很高。实验研究表明，大量对聚类没有作用或者冗余的特征项，对提高聚类质量不仅没有任何帮助，反而会严重影响聚类的结果质量。所以，必须对文本的特征项集合里面的数据进行降低维数的处理。降维的算法有很多种，本案例使用PCA(主成分分析算法)进行降维操作。

S306，使用聚类分析算法对降维后的向量空间模型数据进行聚类分析。

在本实施例中，在步骤S305降维后得到的结构化数据，作为聚类算法的输入，该步骤使用Kmeans聚类算法对步骤5形成的向量空间模型进行聚类操作，最终得到聚类结果。

S307，将得到的聚类结果，对比原数据进行标记，用饼状图的形式展示在页面，方便管理员查看。如图6所示，一些用户行为比较特殊的用户会单独区分开来。

因此，在根据上述改进后的计算公式的前提下，本实施例对每个用户的用户行为操作的权值计算具体是根据所述第一频数TF_k和第二频数IDF_k计算所述需要进行合法性分析的特征项的权值，其计算公式为：

w_i,k＝(log(tf_i，k)×log(N/n_k)

w_ij＝((log(tf_i,k)+1)×log(N/n_k+0.01)

本实施例提供的用户行为聚类分析方法，该方法包括获取所有用户在网站上操作的用户数据，从用户数据中提取有效的用户行为操作，组成一个特征项集，将所有用户的特征项集转换为向量空间模型数据，根据聚类分析算法对向量空间模型数据中的特征项进行聚类操作，得到聚类分析结果，根据聚类分析结果确定每个用户行为操作的合法性；本发明通过根据聚类分析算法对用户在网站上操作的用户行为进行合法性的分析，根据分析结果判断各个用户行为是否合法，并对这些不合法的用户行为以及对应的用户进行归类显示，从而提高了网站的性能，以及对某类用户的恶意操作进行拦截处理，从操作源头上解决用户对网站的恶意操作。

实施例三：

参照图7，图7为本发明实施例三提供的用户行为距离分析终端的结构框图，本实施例提供设备包括：处理器71、存储器72以及通信总线73，其中：

所述通信总线73用于实现所述理器71与所述存储器72之间的通信连接；

所述处理器71用于执行所述存储器72中存储的用户行为聚类分析程序，以实现以下步骤：

根据所述聚类分析结果确定每个用户行为操作的合法性。

在本实施例中，一个用户数据中包括该用户在当前时刻或一段时间内的所有行为操作，而且每个用户数据中包括至少一个用户行为操作，这些用户行为操作可以包括：是否异地登录、登录时间、登录地点、停留时间、查询销售数据、修改密码等等。

为了降低系统对向量空间模型数据的处理量，在本实施例提供的用户行为聚类分析方法中，在将所有用户的特征项集转换为向量空间模型数据之后，所述处理器71还用于执行该用户行为聚类分析程序，以实现以下步骤：

在实际应用中，所述处理器71通过执行所述用户行为聚类分析程序实现对所述向量空间模型数据进行降维处理时，具体是通过根据预设的主成分分析算法对所述特征项集中的各个特征项进行重新评估；

在本实施例中，所述处理器71还用于执行该用户行为聚类分析程序，以实现以下步骤：

根据所述聚类分析结果对对应的用户数据进行标记；

所述处理器71执行所述用户行为聚类分析程序实现根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作时，具体是通过以下方法实现：

VSM模型的基本思想是，在一个n维坐标系中，如果把一个文档中的每一个特征项t_i看成是单个坐标，特征项t_i对应的权值W_i看成是第i维的坐标值，那么向量(W₁，W₂，W₃，W₄，……，W_n)就是该文档集d的文本表示。其中W_i的计算方法有很多种，最普遍常用的一种是TF-IDF权值法。

w_ij＝((log(tf_i,k)+1)×log(N/n_k+0.01)

对应的，在本发明中还提供了一种计算机可读存储介质，具体的，该计算机可读存储介质可以是现有的ROM/RAM、磁碟、光盘等等任一种可以实现程序代码存储并运行的存储设备，该计算机可读存储介质存储有用户行为聚类分析程序，所述用户行为聚类分析程序可被处理器执行，以实现以下步骤：

根据所述聚类分析结果确定每个用户行为操作的合法性。

在本实施例中，所述用户行为聚类分析程序可被处理器执行时，还用于判断所述向量空间模型数据中的特征项维度是否大于预设的维度阈值；若所述特征项维度大于维度阈值，则对所述向量空间模型数据进行降维处理，所述降维处理为去除所述特征项集中的特征项。

其中，对所述向量空间模型数据进行降维处理包括：

在本实施例中，所述用户行为聚类分析程序可被处理器执行时，还用于实现根据所述聚类分析结果对对应的用户数据进行标记；根据所述标记将所述所有的用户数据进行分类，并以饼状图的形式进行显示。

在本实施例中，所述用户行为聚类分析程序在被处理器执行用于实现根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作时，具体包括：

根据计算得到的所有特征项的权值对每个特征项以及该特征项对应的用户进行类别划分，所述类别划分包括非法操作和合法操作。

其中，计算所述需要进行合法性分析的特征项的在所述所有用户的特征项集中的第一频数TF_k包括：

其中，计算所述需要进行合法性分析的特征项在所有特征项集中出现的第二频数IDF_k包括：

本发明实施例提供的用户行为聚类分析方法及终端、计算机可读存储介质，该方法包括获取所有用户在网站上操作的用户数据，其中，每个用户数据中包括至少一个用户行为操作，从所述至少一个用户行为操作中提取至少一个有效的用户行为操作，组成一个特征项集，将所有用户的特征项集转换为向量空间模型数据，所述向量空间模型数据为多维度的数据表，计算各个特征项在向量空间模型数据中的权值，根据权值判断对应的用户行为是否合法，对每个特征项单独的计算，从而提高了数据的准确度，并且通过权值的判断方式更加直观，方便网站管理员快速准确地对非法用户进行定位，为网站管理员后续添加黑名单提供了参考，实现了用户类群的划分，进一步提高了对用户行为或用户本身的快速定位判断，解决了现有技术中并不能够准确快速区分用户类型，从而导致用户行为聚类准确度较低的技术问题。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种用户行为聚类分析方法，其特征在于，包括：

根据所述聚类分析结果确定每个用户行为操作的合法性。

2.根据权利要求1所述的用户行为聚类分析方法，其特征在于，在所述将所有用户的特征项集转换为向量空间模型数据之后，还包括：

3.根据权利要求2所述的用户行为聚类分析方法，其特征在于，所述对所述向量空间模型数据进行降维处理包括：

4.根据权利要求1所述的用户行为聚类分析方法，其特征在于，在所述根据所述聚类分析结果确定每个用户行为操作的合法性之后，还包括：

根据所述聚类分析结果对对应的用户数据进行标记；

5.根据权利要求1至4任一项所述的用户行为聚类分析方法，其特征在于，所述根据聚类分析算法对所述向量空间模型数据中的特征项进行聚类操作包括：

6.根据权利要求5所述的用户行为聚类分析方法，其特征在于，所述根据所述聚类分析结果确定每个用户行为操作的合法性包括：根据计算得到的所有特征项的权值对每个特征项以及该特征项对应的用户进行类别划分，所述类别划分包括非法操作和合法操作。

7.根据权利要求5所述的用户行为聚类分析方法，其特征在于，所述计算所述需要进行合法性分析的特征项在所述所有用户的特征项集中的第一频数TF_k包括：

8.根据权利要求5所述的用户行为聚类分析方法，其特征在于，所述计算所述需要进行合法性分析的特征项在所述所有用户的特征项集中出现的第二频数IDF_k包括：

9.一种用户行为聚类分析终端，其特征在于，所述终端包括：处理器、存储器和用于实现所述处理器和存储器相互通信的通信总线，及存储在所述存储器上并可在所述处理器上运行的用户行为聚类分析程序，所述用户行为聚类分析程序被所述处理器执行时实现如权利要求1至8中任一项所述的用户行为聚类分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有用户行为聚类分析程序，所述用户行为聚类分析程序被执行时实现如权利要求1至8中任一项所述的用户行为聚类分析方法的步骤。