CN118245825A - 聚类迭代方法、装置、电子设备及计算机可读存储介质 - Google Patents

聚类迭代方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN118245825A
CN118245825A CN202410427406.1A CN202410427406A CN118245825A CN 118245825 A CN118245825 A CN 118245825A CN 202410427406 A CN202410427406 A CN 202410427406A CN 118245825 A CN118245825 A CN 118245825A
Authority
CN
China
Prior art keywords
user
clustering
behavior
registration
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410427406.1A
Other languages
English (en)
Inventor
邓钰钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Information Technology Co Ltd
Original Assignee
Guangzhou Huya Information Technology Co Ltd
Filing date
Publication date
Application filed by Guangzhou Huya Information Technology Co Ltd filed Critical Guangzhou Huya Information Technology Co Ltd
Publication of CN118245825A publication Critical patent/CN118245825A/zh
Pending legal-status Critical Current

Links

Abstract

本发明提供了一种聚类迭代方法、装置、电子设备及计算机可读存储介质,该方法首先获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;接着将所有新用户分配到每种注册情形对应的用户组;然后针对每个用户组:根据用户组的所有行为日志数据确定组里每个新用户的行为特征向量,再对组内的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果。由于不同注册情形下,正常用户的行为是存在共性的,所以本发明先分组获得不同的注册情形下的用户组的所有行为特征向量,进而在每个用户组的识别过程中通过多次聚类迭代来找出对应注册情形下的最优团体识别结果,保证了团体识别的准确性。

Description

聚类迭代方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种聚类迭代方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网业务的迅速发展,各个平台推出的新玩法与运营活动极大地丰富了人们的社交方式,然而这也同时给背后的灰色产业链创造了机会,其通过批量注册、恶意领券、代下单等操作实现获利,不仅会给平台造成巨大的损失,还会影响正常用户的体验。
因此,各个平台都需要进行风险防控,以打击灰色产业链,其中,风险防控的重要一环是从海量用户中识别出操控灰色产业链的异常用户团体。现有技术中,通常使用聚类的方式进行团体识别,再确定出异常团体,例如采用DBSCAN(Density-Based SpatialClustering of Applications with Noise,基于密度的带噪声空间聚类应用)算法。但是在采用聚类算法进行团体识别过程中,如何保证团体识别结果的准确性是需要考虑的问题。
发明内容
本发明的目的在于提供一种聚类迭代方法、装置、电子设备及计算机可读存储介质,以改善现有技术存在的问题。
本发明的实施例可以这样实现:
第一方面,本发明提供一种聚类迭代方法,所述聚类迭代方法包括:
获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;
将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;
针对每个所述用户组,根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量;
针对每个所述用户组,对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
可选的,所述行为日志数据包括所述新用户的注册端在对应的设定观测期间内产生的多种行为事件;
所述根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量的步骤,包括:
利用词嵌入模型,获得所述用户组中每个新用户的注册端所产生的每种行为事件的事件向量;
针对所述用户组的每个新用户,基于所述新用户的注册端产生的每种行为事件的事件向量,整合得到所述新用户的行为特征向量。
可选的,所述基于所述新用户的注册端产生的每种行为事件的事件向量,整合得到所述新用户的行为特征向量的步骤,包括:
利用TF-IDF算法,计算所述新用户的注册端所产生的每种行为事件的权重系数;
基于所述新用户的注册端所产生的每种行为事件的权重系数,对所述新用户所对应的每种行为事件的事件向量进行加权平均处理,得到所述新用户的行为特征向量。
可选的,所述利用TF-IDF算法,计算所述新用户的注册端所产生的每种行为事件的权重系数的步骤,包括:
针对所述新用户的注册端所产生的任一目标行为事件,基于所述新用户所属用户组对应的所有行为事件,统计所述目标行为事件在所述新用户所在用户组的出现频次以及所述用户组中涉及所述目标行为事件的关联人数;
基于所述出现频次、所述用户组的新用户总数以及所述关联人数,利用所述TF-IDF算法计算所述目标行为事件的权重系数;
遍历所述新用户的注册端所产生的每种行为事件,得到所述新用户的注册端所产生的每种行为事件的权重系数。
可选的,所述权重系数的计算公式为:
其中,代表用户组d中,目标行为事件eventi的权重系数;/>代表用户组d中,目标行为事件eventi的出现频次;Num(all,d)代表用户组d的新用户总数;代表用户组d中,涉及目标行为事件eventi的关联人数。
可选的,所述对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果的步骤,包括:
将DBSCAN算法的邻域半径参数设置为预设下限阈值,并按照所述邻域半径参数和预设最小成员数,对所述用户组对应的所有行为特征向量进行DBSCAN聚类,得到聚类结果;
判断所述聚类结果是否满足预设的用户聚集特性条件;
若是,则基于所述聚类结果确定所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果;
若否,则将所述邻域半径参数增加设定步长后返回执行所述按照所述邻域半径参数和预设最小成员数,对所有新用户的行为特征向量进行DBSCAN聚类,得到聚类结果的步骤,直至所述聚类结果满足所述用户聚集特性条件,基于所述聚类结果确定所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
可选的,所述聚类结果包括多个聚类集合以及噪声集合;
所述判断所述聚类结果是否满足预设的用户聚集特性条件的步骤,包括:
统计每个所述聚类集合的元素量以及所述噪声集合的元素量;
从所有聚类集合中找出所述元素量最大的最大聚类集合;
判断所述最大聚类集合的元素量是否大于所述噪声集合的元素量;
若是,则判定所述聚类结果满足所述用户聚集特性条件;
若否,则判定所述聚类结果不满足所述用户聚集特性条件。
第二方面,本发明提供一种聚类迭代装置,所述聚类迭代装置包括:
数据获取模块,用于获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;
用户分组模块,用于将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;
向量转化模块,用于针对每个所述用户组,根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量;
聚类迭代模块,用于针对每个所述用户组,对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
第三方面,本发明提供一种电子设备,包括:存储器和处理器,所述存储器存储有软件程序,当所述电子设备运行时所述处理器执行所述软件程序以实现如前述第一方面所述的聚类迭代方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述第一方面所述的聚类迭代方法。
与现有技术相比,本发明实施例提供了一种聚类迭代方法、装置、电子设备及计算机可读存储介质,该方法首先获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;接着将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;然后针对每个用户组:根据用户组中每个新用户的行为日志数据,获得用户组中每个新用户的行为特征向量,再对用户组对应的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果。由于不同注册情形下,正常用户的行为是存在共性的,所以本发明先分组获得不同的注册情形下的用户组的所有行为特征向量,进而在每个用户组的识别过程中通过多次聚类迭代来找出对应注册情形下的最优团体识别结果,保证了团体识别的准确性,从而有助于保证后续异常团体的识别准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种聚类迭代方法的流程示意图之一。
图2为本发明实施例提供的一种聚类迭代方法的流程示意图之二。
图3为本发明实施例提供的一种聚类迭代方法的流程示意图之三。
图4为本发明实施例提供的一种聚类迭代装置的结构示意图。
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
随着互联网业务的迅速发展,各个平台推出的新玩法与运营活动极大地丰富了人们的社交方式,然而这也同时给背后的灰色产业链创造了机会,其通过批量注册、恶意领券、代下单等操作实现获利,不仅会给平台造成巨大的损失,还会影响正常用户的体验。
因此,各个平台都需要进行风险防控,以打击灰色产业链,其中,风险防控的重要一环是从海量用户中识别出操控灰色产业链的异常用户团体。现有技术中,通常使用聚类的方式进行团体识别,再确定出异常团体,例如采用DBSCAN算法。但是在采用聚类算法进行团体识别过程中,如何保证团体识别结果的准确性是需要考虑的问题。
基于上述技术问题的发现,发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
发明人通过长期观察调研发现,通常在注册阶段用户需要完成填写手机号(或者邮箱)、验证过程或第三方授权等流程,这其中隐含了特定的用户行为模式。并且,不同注册情形下,正常用户群体在注册前后的时间段内的行为是存在共性的。而灰色产业链为了降低实名注册的成本,往往倾向于采用自动化技术手段来批量创建账号,导致其在操作模式中留下独特的痕迹,区别于正常用户的操作。
因此,发明人认为若是能够采集新用户在注册前后时段内的行为数据,基于此进行向量化之后,再按照不同注册情形,进行聚类可以得到不同注册情形下的团体识别结果。
而采用DBSCAN算法进行聚类时,聚类参数eps的大小选择关乎聚类的准确性。eps过小,聚类会得到高密度且规模较小的团簇,以及最大规模的噪声点(即离群点),这时的聚类结果就是不准确的。但是,在正常的用户分布情况中,规模最大的团簇应当为正常用户群体,而非噪声点的规模最大。所以,发明人考虑在不同注册情形下,采用多次聚类迭代的方式来确定出符合正常用户分布情况的最优团体识别结果。
以下通过实施例,并配合所附附图,对本发明提供的聚类迭代方法的实施过程进行详细说明。其中,聚类迭代方法的执行主体可以是电子设备,该电子设备可以是但不限于计算机设备、物理服务器、虚拟服务器等。
请参考图1,图1为本发明实施例提供的一种聚类迭代方法的流程示意图,该聚类迭代方法包括以下步骤S100~S400:
S100、获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据。
可以理解,基于注册端部署的埋点策略,可以收集到新用户的注册端在设定观测期间内的行为日志数据。该行为日志数据可以包括新用户的注册端在对应的设定观测期间内产生的多种行为事件。
所谓“埋点”,是数据采集领域(尤其是用户行为数据采集领域)的术语,指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。埋点的技术实质,是先监听软件应用运行过程中的事件,当需要关注的事件发生时进行判断和捕获。
可选的,新用户可以是用户注册成为短视频平台、游戏直播平台、社交媒体平台等互联网平台的新用户。其中,注册端可以是web端(即通过网页进行注册)、移动端(即通过设备APP进行注册)、PC端(即通过个人电脑安装的应用程序进行注册)等。
可选的,设定观测期间可以是新用户注册后的M分钟,或者注册前的M分钟加上注册后的M分钟。其中,M的大小可以灵活设置,例如设为5或者10等,该举例仅为示例,本发明实施例对此不作限定。而对于待测时间窗口的设置,可能存在以下两种情况:
情况一、在方法验证阶段或者一些单次识别场景中,待测时间窗口可以是历史的一段预设时长。预设时长的大小同样可以灵活设置,例如设置为1小时、或者2个小时等,该举例仅为示例,本发明实施例对此同样不作限定。
情况二、若是采用本发明提供的聚类迭代方法来定时进行团体识别,例如每隔设定识别周期(例如3分钟或者10分钟等)进行一次团体识别,那么在一个设定识别周期结束的当前时刻,待测时间窗口应当是当前时刻的前M分钟的前预设时长,如此设置可以保证每个新用户的行为日志完整性。
S200、将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组。
可选的,注册情形可以反映新用户的注册端以及注册账号。假设互联网平台支持的注册账号可以是手机号以及第三方账号(例如个人邮箱、个人社交账号等),那么,注册情形可以分为以下6种:
注册情形1:用户通过web端使用手机号进行注册;
注册情形2:用户通过web端使用第三方账号进行注册;
注册情形3:用户通过移动端使用手机号进行注册;
注册情形4:用户通过移动端使用第三方账号进行注册;
注册情形5:用户通过PC端使用手机号进行注册;
注册情形6:用户通过PC端使用第三方账号进行注册。
可选的,可以获取待测时间窗口内每个新用户的注册数据,该注册数据可以包括用户使用的注册端以及注册账号。由此,可以基于待测时间窗口内每个新用户的注册数据,将待测时间窗口内每个新用户分配至所属注册情形对应的用户组,从而完成新用户分组工作。
S300、针对每个用户组,根据用户组中每个新用户的行为日志数据,获得用户组中每个新用户的行为特征向量。
在本实施例中,针对一个用户组,利用该用户组中每个新用户的行为日志数据,可以转换出该用户组中每个新用户的行为特征向量。
S400、针对每个用户组,对用户组对应的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果。
在本实施例中,对于一个用户组,在多次聚类迭代后,基于迭代停止之前的最后一次聚类结果,可以确定出待测时间窗口内该用户组所属注册情形的最优团体识别结果。
本发明实施例提供的聚类迭代方法,基于不同注册情形下,正常用户的行为存在共性这一现象,首先获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;接着将所有新用户分配到每种注册情形对应的用户组;然后针对每个用户组:根据用户组的所有行为日志数据确定组里每个新用户的行为特征向量,再对组内的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果,如此,通过分组和聚类迭代这两种手段叠加保证了团体识别的准确性。
可选的实现方式中,可以利用词嵌入模型先确定出每个新用户的注册端发生的每种行为事件的事件向量,再基于新用户的注册端发生的每种行为事件的事件向量转化出新用户的行为特征向量。对应地,针对一个用户组而言,上述步骤S300中“根据用户组中每个新用户的行为日志数据,获得用户组中每个新用户的行为特征向量”的子步骤可以包括S310~S320:
S310、利用词嵌入模型,获得用户组中每个新用户的注册端所产生的每种行为事件的事件向量。
可选的,词嵌入模型可以是word2vec模型、GloVe模型、FastText模型、bert模型等。以word2vec模型为例,采用word2vec模型可以将行为事件的上下文语义信息有效地编码进向量空间,使得语义上相似的行为事件在向量空间中也彼此接近。
在本实施例中,利用词嵌入模型分别处理用户组中每个新用户的注册端产生的每种行为事件,可以得到该用户组中每个新用户的注册端产生的每种行为事件的事件向量。
例如,假设任一个新用户A的行为日志数据总共包括n种行为事件,按照事件发生时间排列,可以确定新用户A的注册端在设定观测期间的行为事件序列:event1,event2,…,eventi,…,eventn,其中,eventi仅为行为事件的序号,并非行为事件的具体描述。
接着,运用词嵌入模型依次处理新用户A对应的行为事件序列中的行为事件,这样可以转化出新用户A对应的每个行为事件的事件向量,事件向量为m维的空间数值向量。例如,对于新用户A对应的行为事件eventi,其事件向量为:
需要说明的是,该举例仅为示例,在此不作限定。
S320、针对用户组的每个新用户,基于新用户的注册端产生的每种行为事件的事件向量,整合得到新用户的行为特征向量。
在本实施例中,确定行为特征向量的常见方式可以是:对于一个用户组中的一个新用户,可以对该新用户的注册端产生的全部行为事件的事件向量进行平均处理,从而得到该新用户的行为特征向量。
但是在一些情况下,新用户的所有事件向量进行平均处理并非最优选择。因此,还可以计算每种行为事件的权重系数,再对新用户的所有事件向量进行加权平均处理来得到新用户的行为特征向量。对应地,针对一个用户组的一个新用户,步骤S320中“基于新用户的注册端产生的每种行为事件的事件向量,整合得到新用户的行为特征向量”的子步骤可以包括S321~S322:
S321、利用TF-IDF算法,计算新用户的注册端所产生的每种行为事件的权重系数。
在本实施例中,利用TF-IDF算法计算出来的权重系数可称为TF-IDF权重,可以衡量该权重所对应行为事件在用户组内的所有行为事件中的重要性。TF-IDF权重越高的行为事件,其所代表的信息就越重要。
可选的,步骤S321的子步骤可以包括:
(1)针对新用户的注册端所产生的任一目标行为事件,基于新用户所属用户组对应的所有行为事件,统计目标行为事件在新用户所在用户组的出现频次以及用户组中涉及目标行为事件的关联人数;
(2)基于出现频次、用户组的新用户总数以及关联人数,利用TF-IDF算法计算目标行为事件的权重系数;
(3)遍历新用户的注册端所产生的每种行为事件,得到新用户的注册端所产生的每种行为事件的权重系数。
所以,对于用户组d中,一个新用户的注册端所产生的任一目标行为事件eventi而言,其权重系数的计算公式为:
其中,代表用户组d中,目标行为事件eventi的权重系数;/>代表用户组d中,目标行为事件eventi的出现频次;Num(all,d)代表用户组d的新用户总数;代表用户组d中,涉及目标行为事件eventi的关联人数。
S322、基于新用户的注册端所产生的每种行为事件的权重系数,对新用户所对应的每种行为事件的事件向量进行加权平均处理,得到新用户的行为特征向量。
在本实施例中,一个新用户的注册端所产生的每种行为事件的事件向量均是m维向量。
若用户组d中总共K个新用户,其中,第k个新用户对应了n种行为事件,那么新用户k的事件向量集合为该新用户的行为特征向量的计算公式如下:
其中,U(k,d)代表用户组d中,第k个新用户的行为特征向量。
对于待测事件窗口内的所有新用户,只要新用户是正常用户,那么其注册端都会采集到行为事件,从而可以通过上述步骤S300的各个子步骤转化出新用户的行为特征向量。
但是,由于灰色产业链的恶意注册,待测事件窗口会存在一些异常新用户(通常是灰色产业链操控注册的用户),注册过程中异常新用户的注册端采集到的数据完全是空的,即其行为日志数据为空。那么,这种异常新用户没有行为事件用来转化出行为特征向量。
考虑到在使用词嵌入模型时,通常不会出现全零的事件向量,因为在模型训练时每个词都是通过学习上下文关系来调整其向量表示的,这意味着最终的事件向量只会某些维度上拥有非零值,而不会出现全零的事件向量。因此,对于待测时间窗口中行为事件缺失的异常新用户,将其行为特征向量直接设置为m维的全零向量。
需要说明的是,上述提及的m和n均为超参数,可以按照情况进行设置调整。
可选的实现方式中,本发明提供一种启发式最佳邻域半径参数的搜索方式,来探索聚类的最佳邻域半径参数以得到最佳团伙识别结果。即:对于上述步骤S400的聚类迭代涉及的邻域半径参数这一聚类参数,可以设定一个较小的预设下限阈值,然后以该邻域半径参数从预设下限阈值开始递增,每递增一次就进行一次聚类,直至得到效果最优的一次聚类结果,如此即可得到最优团体识别结果。
所以,在图1的基础上,请参见图2,对于一个用户组,上述步骤S400中“对用户组对应的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果”的子步骤可以包括S410~S450。
S410、将DBSCAN算法的邻域半径参数设置为预设下限阈值。
在本实施例中,邻域半径参数的预设搜索范围可以为[eps0,epsmax],其中eps0为预设下限阈值,epsmax为预设上限阈值。
可选的,预设搜索范围可以预先通过聚类测试并结合电子设备自身的运行效率来设定,epsmax应当略高于聚类测试得到的最佳邻域半径参数。
S420、按照邻域半径参数和预设最小成员数,对用户组对应的所有行为特征向量进行DBSCAN聚类,得到聚类结果。
对于用户组d,其聚类所需的样本集合是K个用户的行为特征向量组成的集合:Ud={U(1,d),Y(2,d),…,U(K,d)},样本集合Ud中的一个行为特征向量U(k,d)可称为一个样本点。DBSCAN聚类涉及的三个关键概念如下:
(1)样本点的ε邻域:对于任意样本点U(k,d)∈Ud,样本集合Ud中与U(k,d)的距离不超过邻域半径参数(eps)的所有样本点所在的子样本集合即为样本点U(k,d)的ε邻域;
(2)核心点:如果一个样本点的ε邻域中样本点个数大于预设最小成员数(minPts),该样本点就是核心点;
(3)非核心点:样本集合Ud中不满足核心点条件的样本点都为非核心点。
接下来对一次DBSCAN聚类的过程进行简单介绍。
假设第i次聚类所使用的邻域半径参数为epsi,epsi∈[eps0,epsmax],预设最小成员数为minPts,那么结合图3,DBSCAN聚类的过程如下:
步骤1、将样本集合Ud中每个样本点的标签初始化为-1,并将样本集合Ud的第一个样本点作为当前的待分类样本点;
步骤2、判断待分类样本点的标签是否为-1;
其中,若待分类样本点的标签为-1,则继续执行步骤3;若待分类样本的标签不为-1,则直接跳转执行后续步骤6;
步骤3、根据邻域半径参数epsi,从样本集合确定待分类样本点的ε邻域;
步骤4、基于预设最小成员数monPts和待分类样本点的ε邻域,判断待分类样本点是否属于核心点;
其中,若待分类样本点属于核心点,则继续执行步骤5;反之,则执行步骤6;
步骤5、若待分类样本点属于核心点,则为待分类样本点重新分配新标签c,并找出待分类样本点的ε邻域中标签为-1的所有邻域样本点,将这些邻域样本点的标签设置为待分类样本的标签一致;
步骤6、判断待分类样本点是否为样本集合的最后一个样本点;
其中,若待分类样本点不是样本集合的最后一个样本点,则在执行以下步骤7之后返回执行上述步骤2,直至待分类样本点为样本集合的最后一个样本点,得到聚类结果;若待分类样本点为样本集合的最后一个样本点,则执行步骤8,直接得到聚类结果;
步骤7、将下一个样本点作为新的待分类样本点;
步骤8、聚类结束,整理得到样本集合的聚类结果。
第i次聚类经过上述步骤1-8即可得到第i次聚类的聚类结果。在聚类过程中,上述步骤2-7会多次遍历执行,每次执行到步骤5(即遍历到属于核心点的待分类样本点)时,分配的新标签是不一样的,例如多次执行步骤5分配出去的标签可以分别是0、1、2、3等等。
所以,步骤8中,可以将标签相同的样本点(即新用户的行为特征向量)在同一个集合。即聚类结果包括多个聚类集合和噪声集合。一个聚类集合中,每个行为特征向量的标签均为同一个,例如0,1,2,…,S等标签中的一个。而噪声集合中,每个行为特征向量的标签为-1,属于离群点,也叫噪声点。
即:经过聚类,用户组d的样本集合Ud={U(1,d),U(2,d),…,U(K,d)}分成了C-1,C0,C1,…,CS这几个集合,s∈[0,1,2,…,S],。其中,C-1代表噪声集合,包括样本集合Ud中标签为-1的所有样本点;而C0,C1,…,Cs为均聚类集合,Cs包括样本集合Ud中标签为s的所有样本点。
S430、判断聚类结果是否满足预设的用户聚集特性条件。
在本实施例中,用户聚集特性条件关乎正常用户群体与离群点的分布规模特性,即:规模最大的群体应当是正常用户,而非离群点。所以,若是聚类结果不满足预设的用户聚集特性条件,那么就执行以下步骤S440后返回执行上述步骤S420,直至聚类结果满足预设的用户聚集特性条件;若是聚类结果满足预设的用户聚集特性条件,就直接执行以下步骤S450。
可选的,步骤S430的子步骤可以包括S431~S435:
S431、统计每个聚类集合的元素量以及噪声集合的元素量;
S432、从所有聚类集合中找出元素量最大的最大聚类集合;
S433、判断最大聚类集合的元素量是否大于噪声集合的元素量;
S434、若是,则判定聚类结果满足用户聚集特性条件;
S435、若否,则判定聚类结果不满足用户聚集特性条件。
其中,任一聚类集合Cs的元素量即为聚类集合Cs中的样本点数量|Cs|,也即行为特征向量的数量。噪声集合的元素量即为噪声集合中的样本点数量|C-1|,只要任意一个聚类集合Cs满足|Cs|>|C-1|,则判定聚类结果满足用户聚集特性条件,停止搜索。
S440、将邻域半径参数增加设定步长。
在本实施例中,设定步长的大小可基于设备执行效率灵活设置。例如,假设预设搜索范围为[0.05,0.35],设定步长可以是0.01或者0.005或者其他数值,该举例仅为示例,本发明实施例对此不作限定。
S450、基于聚类结果确定待测时间窗口内用户组所属注册情形的最优团体识别结果。
在本实施例中,当一次聚类的聚类结果满足用户聚集特性条件,那么该次聚类所使用的领域半径参数即为最佳邻域半径参数,该次聚类的聚类结果即为效果最好且符合正常用户规模分布这一客观统计规律的聚类结果。所以,将该次聚类结果的多个聚类集合各自对应的多个用户团体以及噪声集合对应的各个离群新用户,即得到待测时间窗口内用户组所属注册情形的最优团体识别结果,一个用户团体包括多个行为相似的新用户。
需要说明的是,上述方法实施例中各个步骤的执行顺序不以附图所示为限制,各步骤的执行顺序以实际应用情况为准。
与现有技术相比,本发明实施例具有以下有益效果。
其一、本发明基于不同注册情形下,正常用户群体在注册前后的时间段内的行为存在共性这一客观现象,将待测时间窗口内的所有新用户按照所属的注册情形进行分组,再分别对每种注册场景下的用户组的所有行为日志数据进行向量化后聚类的方式进行团体识别,能够得到不同注册情形下的团体识别结果。
其二、本发明在待测时间窗口,分别针对每种注册场景下的用户组进行聚类迭代过程中,采用自下而上的策略来探索邻域半径参数的最优值,从而得到待测时间窗口内用户组所属注册情形的最优团体识别。这样,一方面保证了聚类得出的用户团体中各个新用户的行为相似度较高,准确率高;另一方面还保证了最大规模的用户团体是符合统计学意义的正常用户群体。
其三、本发明采用的启发式最佳邻域半径参数的搜索方式,避免了繁琐的手动参数调整,提高了算法的适用性和普适性,同时能够搜索出最佳邻域半径参数对应的最佳团伙识别结果,准确地划分出了新用户的真实分布结构,提升聚类质量。
为了执行上述方法实施例及各个可能的实施方式中的相应步骤,下面给出一种聚类迭代装置的实现方式。
请参见图4,图4示出了本发明实施例提供的聚类迭代装置的结构示意图。该聚类迭代装置200包括:数据获取模块210、用户分组模块220、向量转化模块230以及聚类迭代模块240。
数据获取模块210,用于获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;
用户分组模块220,用于将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;
向量转化模块230,用于针对每个用户组,根据用户组中每个新用户的行为日志数据,获得用户组中每个新用户的行为特征向量;
聚类迭代模块240,用于针对每个用户组,对用户组对应的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果。
所属领域的技术人员可以清楚地了解到,数据获取模块210可以用于实现上述步骤S100,用户分组模块220可以用于实现上述步骤S200,向量转化模块230可以用于实现上述步骤S300及其子步骤,聚类迭代模块240可以用于实现上述步骤S400及其子步骤。为描述的方便和简洁,上述描述的聚类迭代装置200的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
请参见图5,图5为本发明实施例提供的一种电子设备的结构示意图。该电子设备300包括处理器310、存储器320和总线330,处理器310通过总线330与存储器320连接。
存储器320可用于存储软件程序,例如,如本发明实施例所提供的聚类迭代装置200对应的软件程序。处理器310通过运行存储在存储器320内的软件程序,从而执行各种功能应用以及数据处理以实现如本发明实施例所提供的聚类迭代方法。
其中,存储器320可以是但不限于:RAM(Random Access Memory,随机存取存储器),ROM(Read Only Memory,只读存储器),FLASH(闪存存储器),PROM(ProgrammableRead-Only Memory,可编程只读存储器),EPROM(Erasable Programmable Read-OnlyMemory,可擦除只读存储器),EEPROM(Electric Erasable Programmable Read-OnlyMemory,电可擦除只读存储器)等。
处理器310可以是一种集成电路芯片,具有信号处理能力。该处理器310可以是通用处理器,包括:CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是:DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图5所示的结构仅为示意,电子设备300还可以包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现上述实施例揭示的聚类迭代方法。该计算机可读存储介质可以是但不限于:U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、FLASH磁碟或者光盘等各种可以存储程序代码的介质。
综上,本发明实施例提供了一种聚类迭代方法、装置、电子设备及计算机可读存储介质,该方法首先获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;接着将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;然后针对每个用户组:根据用户组中每个新用户的行为日志数据,获得用户组中每个新用户的行为特征向量,再对用户组对应的所有行为特征向量进行多次聚类迭代,以获得待测时间窗口内用户组所属注册情形的最优团体识别结果。由于不同注册情形下,正常用户的行为是存在共性的,所以本发明先分组获得不同的注册情形下的用户组的所有行为特征向量,进而在每个用户组的识别过程中通过多次聚类迭代来找出对应注册情形下的最优团体识别结果,保证了团体识别的准确性,从而有助于保证后续异常团体的识别准确性。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种聚类迭代方法,其特征在于,所述聚类迭代方法包括:
获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;
将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;
针对每个所述用户组,根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量;
针对每个所述用户组,对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
2.根据权利要求1所述的聚类迭代方法,其特征在于,所述行为日志数据包括所述新用户的注册端在对应的设定观测期间内产生的多种行为事件;
所述根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量的步骤,包括:
利用词嵌入模型,获得所述用户组中每个新用户的注册端所产生的每种行为事件的事件向量;
针对所述用户组的每个新用户,基于所述新用户的注册端产生的每种行为事件的事件向量,整合得到所述新用户的行为特征向量。
3.根据权利要求2所述的聚类迭代方法,其特征在于,所述基于所述新用户的注册端产生的每种行为事件的事件向量,整合得到所述新用户的行为特征向量的步骤,包括:
利用TF-IDF算法,计算所述新用户的注册端所产生的每种行为事件的权重系数;
基于所述新用户的注册端所产生的每种行为事件的权重系数,对所述新用户所对应的每种行为事件的事件向量进行加权平均处理,得到所述新用户的行为特征向量。
4.根据权利要求3所述的聚类迭代方法,其特征在于,所述利用TF-IDF算法,计算所述新用户的注册端所产生的每种行为事件的权重系数的步骤,包括:
针对所述新用户的注册端所产生的任一目标行为事件,基于所述新用户所属用户组对应的所有行为事件,统计所述目标行为事件在所述新用户所在用户组的出现频次以及所述用户组中涉及所述目标行为事件的关联人数;
基于所述出现频次、所述用户组的新用户总数以及所述关联人数,利用所述TF-IDF算法计算所述目标行为事件的权重系数;
遍历所述新用户的注册端所产生的每种行为事件,得到所述新用户的注册端所产生的每种行为事件的权重系数。
5.根据权利要求4所述的聚类迭代方法,其特征在于,所述权重系数的计算公式为:
其中,代表用户组d中,目标行为事件eventi的权重系数;/>代表用户组d中,目标行为事件eventi的出现频次;Num(all,d)代表用户组d的新用户总数;代表用户组d中,涉及目标行为事件eventi的关联人数。
6.根据权利要求1所述的聚类迭代方法,其特征在于,所述对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果的步骤,包括:
将DBSCAN算法的邻域半径参数设置为预设下限阈值,并按照所述邻域半径参数和预设最小成员数,对所述用户组对应的所有行为特征向量进行DBSCAN聚类,得到聚类结果;
判断所述聚类结果是否满足预设的用户聚集特性条件;
若是,则基于所述聚类结果确定所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果;
若否,则将所述邻域半径参数增加设定步长后返回执行所述按照所述邻域半径参数和预设最小成员数,对所有新用户的行为特征向量进行DBSCAN聚类,得到聚类结果的步骤,直至所述聚类结果满足所述用户聚集特性条件,基于所述聚类结果确定所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
7.根据权利要求6所述的聚类迭代方法,其特征在于,所述聚类结果包括多个聚类集合以及噪声集合;
所述判断所述聚类结果是否满足预设的用户聚集特性条件的步骤,包括:
统计每个所述聚类集合的元素量以及所述噪声集合的元素量;
从所有聚类集合中找出所述元素量最大的最大聚类集合;
判断所述最大聚类集合的元素量是否大于所述噪声集合的元素量;
若是,则判定所述聚类结果满足所述用户聚集特性条件;
若否,则判定所述聚类结果不满足所述用户聚集特性条件。
8.一种聚类迭代装置,其特征在于,所述聚类迭代装置包括:
数据获取模块,用于获取待测时间窗口内每个新用户的注册端在设定观测期间内产生的行为日志数据;
用户分组模块,用于将所有新用户按照所属的注册情形进行分组,得到每种注册情形对应的用户组;
向量转化模块,用于针对每个所述用户组,根据所述用户组中每个新用户的行为日志数据,获得所述用户组中每个新用户的行为特征向量;
聚类迭代模块,用于针对每个所述用户组,对所述用户组对应的所有行为特征向量进行多次聚类迭代,以获得所述待测时间窗口内所述用户组所属注册情形的最优团体识别结果。
9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有软件程序,当所述电子设备运行时所述处理器执行所述软件程序以实现如权利要求1-7中任一项所述的聚类迭代方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的聚类迭代方法。
CN202410427406.1A 2024-04-10 聚类迭代方法、装置、电子设备及计算机可读存储介质 Pending CN118245825A (zh)

Publications (1)

Publication Number Publication Date
CN118245825A true CN118245825A (zh) 2024-06-25

Family

ID=

Similar Documents

Publication Publication Date Title
CN112950231A (zh) 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN111970400A (zh) 骚扰电话识别方法及装置
CN113315851A (zh) 域名检测方法、装置及存储介质
CN111310743A (zh) 人脸识别方法、装置、电子设备及可读存储介质
CN114647790A (zh) 应用于行为意图分析的大数据挖掘方法及云端ai服务系统
CN114090401A (zh) 处理用户行为序列的方法及装置
CN113988225A (zh) 建立表征提取模型、表征提取、类型识别的方法和装置
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
CN116827685A (zh) 基于深度强化学习的微服务系统动态防御策略方法
CN115393100A (zh) 资源推荐方法及装置
CN110781410A (zh) 一种社群检测方法及装置
CN118245825A (zh) 聚类迭代方法、装置、电子设备及计算机可读存储介质
CN109359462B (zh) 虚假设备识别方法、设备、存储介质及装置
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN111814051A (zh) 一种资源类型确定方法及装置
CN116993307B (zh) 一种具有人工智能学习能力的协同办公方法及系统
CN114880407B (zh) 基于强弱关系网络的用户智能识别方法和系统
CN117272123B (zh) 一种基于大模型的敏感数据处理方法、装置及存储介质
CN113535594B (zh) 业务场景测试用例的生成方法、装置、设备和存储介质
CN112598118B (zh) 有监督学习的标注异常处理方法、装置、存储介质及设备
CN118245944A (zh) 团伙分析方法、装置、计算机设备及可读存储介质
CN115438745A (zh) 一种基于半监督学习的元数据智能标识方法和装置

Legal Events

Date Code Title Description
PB01 Publication