CN117520994A - 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 - Google Patents
基于用户画像和聚类技术识别机票异常搜索用户方法及系统 Download PDFInfo
- Publication number
- CN117520994A CN117520994A CN202410003978.7A CN202410003978A CN117520994A CN 117520994 A CN117520994 A CN 117520994A CN 202410003978 A CN202410003978 A CN 202410003978A CN 117520994 A CN117520994 A CN 117520994A
- Authority
- CN
- China
- Prior art keywords
- user
- clustering
- searching
- abnormal
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005516 engineering process Methods 0.000 title claims abstract description 18
- 230000005856 abnormality Effects 0.000 claims abstract description 21
- 238000007621 cluster analysis Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 70
- 238000010606 normalization Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 37
- 230000006870 function Effects 0.000 description 16
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于用户画像和聚类技术识别机票异常搜索用户方法及系统,属于大数据处理及计算机人工智能领域;其包括:构建异常搜索用户画像标签;根据异常搜索用户画像标签,获取异常搜索用户行为信息;根据异常搜索用户行为信息,得到待识别用户集;根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;对聚类结果进行后验,得到机票异常搜索用户。本发明能更有效、准确性更高和成本更低的识别非正常机票搜索用户。
Description
技术领域
本发明涉及大数据处理及计算机人工智能领域,具体涉及一种基于用户画像和聚类技术识别机票异常搜索用户方法及系统。
背景技术
现有用户通过OTA渠道查询和预订机票时,OTA会将用户的查询请求再次向中航信等渠道查询实时航班信息,而这过程会被收取流量费用或被航司限制查定比(机票查询次数/预订次数,当OTA平台查定比超过一定水平时会被收取费用或者被航司限制资源),所以这个过程中如果用户只查而从不预订,则会对OTA平台造成资源浪费,鉴于此有必要对这部分非正常用户进行识别并进行查询限制,以避免不必要的流量费支出和达到优质的查定比水平。
当前OTA平台识别这种非正常查询用户主要还是基于传统爬虫技术识别方法(统计ip访问频率等统计学方法)或者部分使用机器学习分类算法。
对于传统爬虫识别方法随着反扒技术的进化,多账号低频搜索等拟人化行为程度越来越高,传统识别方法难度越来越高,并且其也无法很好识别非爬虫类但是行为异常用户群。
对于机器学习分类算法,由于需要前期大量人工标注异常搜索样本,但是这类样本存在获取难度大和获取的类型不全面等问题也会限制机器学习使用效果。
发明内容
本发明的目的在于提供一种高效基于用户画像和聚类技术识别机票异常搜索用户方法及方法。
为解决上述技术问题,本发明提供一种基于用户画像和聚类技术识别机票异常搜索用户方法,包括以下步骤:
构建异常搜索用户画像标签;
根据异常搜索用户画像标签,获取异常搜索用户行为信息;
根据异常搜索用户行为信息,得到待识别用户集;
根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
对聚类结果进行后验,得到机票异常搜索用户。
优选地,根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果,具体包括以下步骤:
根据异常搜索用户画像标签体系和待识别用户集,构建用户标签体系矩阵;
对画像标签体系矩阵进行优化处理,得到优化后矩阵;
对优化后矩阵进行聚类分析,得到聚类结果。
优选地,所述用户标签体系矩阵为:
;
式中:Z代表集合N用户的画像标签体系矩阵;ai代表集合N中第i个用户的标签体系矩阵;aij表示第i个用户在第j个标签的标签值;i为用户数,j为标签数。
优选地,所述优化处理为归一化处理;所述归一化处理的公式为:
;
其中,aij是原始数据,μ是第j个标签均值,δ是第j个标签的标准差;aij’是归一化处理后的数据,归一化后期其转化为均值为0,标准差为1的值;
归一化处理后的矩阵为,以归一化处理后的矩阵作为优化后矩阵。
优选地,对优化后矩阵进行聚类分析,得到聚类结果,具体包括以下步骤:
根据优化后矩阵,确定聚类个数K以及初始聚类中心;
计算优化后矩阵与各个初始聚类中心的距离,根据距离对所有优化后矩阵进行划分;
分别计算K个聚类簇中特征的均值,将所述均值作为新的聚类中心;
直至聚类收敛,得到聚类结果。
优选地,确定聚类个数K以及聚类中心,具体包括以下步骤:
根据轮廓系数法确定聚类个数K:
以优化后矩阵作为用户点,所述轮廓系数的计算公式为:
;
dis_a即用户点到所属同簇内用户点的平均距离,表示为凝聚度;
dis_b即用户点到所属非同簇内用户点的平均距离,表示为分离度;
随机选择一个点作为第一个聚类中心,然后选择距离该点最远的那个点作为第二个聚类中心,然后再选择距离前两个点的最近距离最大的点作为第三个聚类中心,以此类推,直至选出K个聚类中心为止。
优选地,所述距离的计算公式为:
;
式中:ai和aj表示不同的两个用户,m表示用户的标签体系维度;
所述聚类收敛目标为:
采用损失函数作为聚类收敛的目标函数,其目标为使得划分类后各簇内误差平方和SSE最小:
;
;
式中:ei是k个聚类中心的第i个聚类中心的聚类中心点,Ei为第i个类的待识别用户集合,a是第i个类中用户的标签体系矩阵向量;
在损失函数变化低于最小误差平方和t,且当前迭代次数大于最大迭代次数s时,聚类收敛。
优选地,对聚类结果进行后验,得到机票异常搜索用户,具体包括以下步骤:
根据异常搜索用户画像标签体系和待识别用户集,构建后验标签体系矩阵;
根据后验标签体系矩阵,获取后验行为结果;
根据后验行为结果和聚类结果,获取机票异常搜索用户。
优选地,所述后验标签体系矩阵为:
;
式中:T代表集合N用户的后验标签体系矩阵;bi代表集合N中第i个用户的标签体系矩阵;bi1表示第i个用户在最近一个月内的机票搜索次数;bi2标签第i个用户在最近一个月内的机票下单次数。
本发明还提供一种基于用户画像和聚类技术识别机票异常搜索用户系统,包括:
构建模块,用于构建异常搜索用户画像标签;
用户行为信息获取模块,用于根据异常搜索用户画像标签,获取异常搜索用户行为信息;
待识别用户集获取模块,用于根据异常搜索用户行为信息,得到待识别用户集;
聚类分析模块,用于根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
后验模块,用于对聚类结果进行后验,得到机票异常搜索用户。
与现有技术相比,本发明的有益效果为:
1、相较于传统OTA平台识别异常搜索用户主要基于传统爬虫识别技术(统计访问频率识别高频异常用户群等)存在的识别异常用户群类型单一等缺陷,本发明通过对OTA平台用户建立其人群属性、业务行为和偏好等多维度画像特征标签,从多维画像特征洞察分析异常用户群,能够更全面的识别各行为类型的异常搜索用户群,包括多账号低频等异常用户群。
2、相较于传统OTA平台识别异常搜索用户群需要人工设置识别规则,本发明通过科学的统计假设检验方法进行异常识别,避免人工规则的经验不足和时间成本较高。
3、本发明使用聚类分析归类异常搜索用户群,从聚类的各用户群判断异常搜索用户群的方法上,相较于传统通过需要人工业务经验进行人群画像洞察分析和结合业务规则等人工识别方法,本发明中通过对用户群后验下单概率进行分析从而判断异常用户群,避免通过人工判断的经验不足和时间成本。
4、相较于传统机器学习的分类用户算法前期需要准备大量人工标注好的异常用户和正常用户样本用于模型训练,本发明在不需要人工标注样本情况下使用聚类算法进行了有效和科学的用户分类。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1是本发明一种基于用户画像和聚类技术识别机票异常搜索用户方法的流程示意图;
图2是实施例1中数据埋点在OTA移动终端产品上进行数据采集示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图对本发明做进一步的详细描述:
本发明提供一种基于用户画像和聚类技术识别机票异常搜索用户方法,包括以下步骤:
构建异常搜索用户画像标签;
根据异常搜索用户画像标签,获取异常搜索用户行为信息;
根据异常搜索用户行为信息,得到待识别用户集;
根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
对聚类结果进行后验,得到机票异常搜索用户。
优选地,根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果,具体包括以下步骤:
根据异常搜索用户画像标签体系和待识别用户集,构建用户标签体系矩阵;
对画像标签体系矩阵进行优化处理,得到优化后矩阵;
对优化后矩阵进行聚类分析,得到聚类结果。
优选地,所述用户标签体系矩阵为:
;
式中:Z代表集合N用户的画像标签体系矩阵;ai代表集合N中第i个用户的标签体系矩阵;aij表示第i个用户在第j个标签的标签值;i为用户数,j为标签数。
优选地,所述优化处理为归一化处理;所述归一化处理的公式为:
;
其中,aij是原始数据,μ是第j个标签均值,δ是第j个标签的标准差;aij’是归一化处理后的数据,归一化后期其转化为均值为0,标准差为1的值;
归一化处理后的矩阵为,以归一化处理后的矩阵作为优化后矩阵。
优选地,对优化后矩阵进行聚类分析,得到聚类结果,具体包括以下步骤:
根据优化后矩阵,确定聚类个数K以及初始聚类中心;
计算优化后矩阵与各个初始聚类中心的距离,根据距离对所有优化后矩阵进行划分;
分别计算K个聚类簇中特征的均值,将所述均值作为新的聚类中心;
直至聚类收敛,得到聚类结果。
优选地,确定聚类个数K以及聚类中心,具体包括以下步骤:
根据轮廓系数法确定聚类个数K:
以优化后矩阵作为用户点,所述轮廓系数的计算公式为:
;
dis_a即用户点到所属同簇内用户点的平均距离,表示为凝聚度;
dis_b即用户点到所属非同簇内用户点的平均距离,表示为分离度;
随机选择一个点作为第一个聚类中心,然后选择距离该点最远的那个点作为第二个聚类中心,然后再选择距离前两个点的最近距离最大的点作为第三个聚类中心,以此类推,直至选出K个聚类中心为止。
优选地,所述距离的计算公式为:
;
式中:ai和aj表示不同的两个用户,m表示用户的标签体系维度;
所述聚类收敛目标为:
采用损失函数作为聚类收敛的目标函数,其目标为使得划分类后各簇内误差平方和SSE最小:
;
;
式中:ei是k个聚类中心的第i个聚类中心的聚类中心点,Ei为第i个类的待识别用户集合,a是第i个类中用户的标签体系矩阵向量;
在损失函数变化低于最小误差平方和t,且当前迭代次数大于最大迭代次数s时,聚类收敛。
优选地,对聚类结果进行后验,得到机票异常搜索用户,具体包括以下步骤:
根据异常搜索用户画像标签体系和待识别用户集,构建后验标签体系矩阵;
根据后验标签体系矩阵,获取后验行为结果;
根据后验行为结果和聚类结果,获取机票异常搜索用户。
优选地,所述后验标签体系矩阵为:
;
式中:T代表集合N用户的后验标签体系矩阵;bi代表集合N中第i个用户的标签体系矩阵;bi1表示第i个用户在最近一个月内的机票搜索次数;bi2标签第i个用户在最近一个月内的机票下单次数。
本发明还提供一种基于用户画像和聚类技术识别机票异常搜索用户系统,包括:
构建模块,用于构建异常搜索用户画像标签;
用户行为信息获取模块,用于根据异常搜索用户画像标签,获取异常搜索用户行为信息;
待识别用户集获取模块,用于根据异常搜索用户行为信息,得到待识别用户集;
聚类分析模块,用于根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
后验模块,用于对聚类结果进行后验,得到机票异常搜索用户。
本发明提供了一种更有效、准确性更高和成本更低的识别非正常机票搜索用户的方法。
本发明主要通过对机票搜索用户群建立具有正常和异常搜索行为差异化特征画像标签体系,然后对用户以差异化画像标签体系中标签为输入进行用户聚类建模,对聚类得到的各用户群通过后验下单率(异常搜索比正常用户群下单率异常偏低)进行判断从而异常搜索用户群。
为了更好的说明本发明的技术效果,本发明提供如下具体实施例说明上述技术流程:
实施例1、一种基于用户画像和聚类技术识别机票异常搜索用户方法,包括以下步骤:
步骤一、异常搜索用户画像标签体系构建
用户画像是企业为对其用户洞察和用户差异化运营为目的进行的用户各角度量化测量,通过结构化的用户标签信息加工方式,最大程度上做到了完整、全面且直观地刻画用户。
用户标签是通过对用户基础信息、行为等数据进行建模所产生的用户特征,标签值具有高度概括性、相互独立以及可枚举、可穷尽的特点。
本发明通过对搜索下单用户和搜索未下单用户的画像特征进行差异化分析最终分别从用户的人口和平台属性、搜索行为(频次规模)、搜索转化漏斗行为、搜索行为(航线组合规模)、搜索匹配度、搜索信息度差异、是否有其它业务行为特征等主题角度选择了具有区分布的标签构建了区分非正常搜索用户的标签体系,各主题特征的标签如下:
搜索频次规模:
a1: app打开次数; a2: 列表页搜索次数;
a3: 详情页搜索次数; a4: 填单页搜索次数; a5: 日列表页搜索最大次数;
2)、转化漏斗行为:
;
;
;
搜索组合数规模:
a9: 航线组合数(出发地&目的地);
a10: 航线组合数(出发地&目的地&出发日期);
a11: 不同搜索日期数;
提前搜索行为:
a12: 提前搜索天数(出发日期-搜索日期的天数);
搜索匹配度:
a13: 定位地址和搜索地址的匹配度(ip地址相同的城市总次数搜索的城市数
总次数);
是否有其它业务行为特征:
非正常用户可能是有机票搜索行为而无其它出行相关行为。
a14: 搜索航班动态次数; a16: 搜索火车票次数;
a17: 搜索酒店次数; a18: 搜索专车次数;
人口属性特征:
a19: 注册时长(最近一次行为日期注册日期的天数);a20: 是否绑定证件;
步骤二、标签数据采集&标签生产
a、数据埋点。根据用户画像标签体系,梳理需要获取的异常搜索用户行为信息并形成数据埋点需求,数据埋点在OTA移动终端产品上进行数据采集。如图2所示;
b、标签数据源采集。在所述数据埋点中,以{key:value}键值对的格式保存用户行为数据,其中key代表移动终端的事件(行为类标签事件),value代表对应的值;移动终端用户行为数据保存到日志文件中,定时上传到日志服务器;通过在日志服务器部署数据采集代理,并行地将日志数据统一采集到分布式文件系统。
c、埋点数据ETL。解析日志文件存储到分布式数据库中,解析过程由抽取、转换和加载模块组成,其中,所述抽取模块负责日志读取,所述转换模块负责日志解析,所述加载模块负责将解析后的日志数据写入分布式数据库。
d、用户主题建模,画像标签体系量化。
为构造后期用于聚类分析的用户和聚类用的用户量化指标(画像标签体系量化度量),这里基于用户行为数据,获取最近一个月(2023-06-01~2023-07-01)有过机票搜索并且历史未下单的用户作为后续聚类分析的待识别用户集(记为N),设其用户数为n。
对集合N中的用户基于用户主题建模思路对行为类标签a1~a20统计近三个月内(用户在2023-05-01~2023-06-01时段内的用户最后一次搜索时间为终点,往前推三个月为起点的起止时段,考虑异常用户行为可能也存在低频,所以设置相对较长的观察窗口) 的行为数据,对其中静态标签a20(是否绑定证件号)直接取业务数据并进行量化标记(0表示未绑定,1表示绑定),并构造用户标签体系矩阵:
;
式中:Z代表集合N用户的画像标签体系矩阵;ai代表集合N中第i个用户的标签体系矩阵;aij表示第i个用户在第j个标签的标签值;i为用户数,j为标签数,标签数最大值为20
为后期对各聚类簇的类别进行判断,这里需要构造用户后验行为标签数据,这个对集合N中的用户基于用户主题建模思路统计其在2023-05-01~2023-06-01时段内发生最后一次行为后未来一个月(2023-06-01~2023-07-01)内的机票搜索次数和机票下单次数,构建用户后验标签矩阵:
;
式中:T代表集合N用户的后验标签体系矩阵;bi代表集合N中第i个用户的标签体系矩阵;bi1表示第i个用户在最近一个月2023-06-01~2023-07-01内的机票搜索次数;bi2标签第i个用户在最近一个月2023-06-01~2023-07-01内的机票下单次数。
步骤三、标签体系数据处理
归一化处理:
为消除量纲差异对后续聚类的影响和特大极值的差异影响,对用户量化连续型标签(除a17)需要等进行归一化处理,如下计算公式为:
;
其中,aij是原始数据,μ是第j个标签均值,δ是第j个标签的标准差;Zij’是标准化后的数据,归一化后期其转化为均值为0,标准差为1的值。
设归一化处理后的矩阵为。
步骤四、用户聚类
为保障海量用户下的聚类效率,本发明中使用Spark MLlib大数据机器学习软件环境中的k-means聚类算法,其算法聚类具有收敛速度快、效果较优和可解释较强等优点。
其基本思想是其目标是将数据点划分为k个类簇, 找到每个簇的中心并使其度量最小化。步骤为:
4.1)、数据加载
获取用户画像特征处理模块生成的用户画像特征向量Z’,并从配置文件中读取模型参数数据,模型参数数据包含聚类蔟个数k、初始化中心点选择次数m(设置为10)、最大迭代次数s(设置为100)、最小误差平方和t(1e-4)。
为确定最佳k数,这里使用轮廓系数法:
;
dis_a即用户点到所属同簇内点的平均距离,表示为凝聚度。
dis_b即用户点到所属非同簇内点的平均距离,表示为分离度。
一个高的轮廓系数表明该点与它自己的聚类匹配良好,而与其他聚类匹配较差。如果大多数点有一个高的轮廓系数,那么聚类方案是合适的。
按照距离对所有流量数据进行划分,完成对流量数据的划分之后,计算新的各个聚类中心点,并判断是否满足设定条件,所有流量数据通过判定之后得出聚类结果;
4.2)、初始化聚类模型
使用读取的模型参数初始化k-means聚类模型,并根据聚类中心个数k,中心初始化形式来初始化k个聚类中心。
最大距离选择初始质心:
首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出K个初始类簇中心点。设k个中心点的集合e,其k个中心点分别为。
多次选择初始质心,提升聚类效果:
由于K-Means结果受初始值的影响,这里通过多次更改初始质心进行运算,选择一个较好的聚类效果,这里设置m=10。
4.3)、计算聚类中心
对于用户画像特征向量中的每一条特征数据,使用k-means模型计算其与k个聚类中心的距离,并把当前用户画像特征划分到距离最近的聚类中心所属的聚类簇中,这里欧式距离度量用户相似度:
;
其中ai和aj表示不同的两个用户,m表示用户的标签体系维度(标签的数量)。
然后,分别计算k个聚类簇中特征的均值,将所述均值作为新的聚类中心;
聚类收敛目标(最小化目标函数):
采用损失函数作为聚类收敛的目标函数,其目标为使得划分类后各簇内误差平方和SSE最小:
;
;
式中:ei是k个聚类中心的第i个聚类中心的聚类中心点,Ei为第i个类的待识别用户集合,a是第i个类中用户的标签体系矩阵向量。
若损失函数变化没有低于最小误差平方和t或当前迭代次数没有大于最大迭代次数s,则跳转到步骤4.3),否则结束聚类。
4.4)、输出各类聚类结果
将上述步骤4.3)中聚类结束后的k个聚类中心的标签值以及中心值按照标签值-聚类中心的形式组织成聚类中心结果数据。
这里设集合Tg为用户的聚类结果所属簇的矩阵[tg1,tg2……tgn],tgi表示第i个用户的聚类簇。
设集合W为用户聚类结果所属中心点矩阵[ct1,ct2……ctn],cti为第i个用户最终的聚类中心点。
4.5)、输出用户画像聚类结果
对于每一个用户,将最后一轮迭代中用户被划分到的聚类蔟的标签值作为该用户的用户画像聚类结果,并按照用户id-标签值的形式组织成用户画像聚类结果数据。
步骤五、判别聚类簇中的异常用户簇
这里主要通过对各聚类簇中用户群的后验行为(未来一个月)的下单率来判断异常搜索用户群,当其下单率明显低于正常用户下单率水平,则可判断为异常用户群。
为方便计算用户簇的下单率,这里通过转换函数对用户后验标签进行0-1值转化,
;
其中标签表示第i个用户的后验0-1转化后标签。
bi1标签第i个用户在2023-06-01~2023-07-01时段内的机票搜索次数。
bi2标签第i个用户在2023-06-01~2023-07-01时段内的机票下单次数。
计算各聚类簇下单比例:
;
Ei为第i个类的待识别用户集合,Count(Ei)表示集合中用户个数,Ft表示属于第i个类中用户的后验标签值。
Pi表示第i个簇的下单比例,当Pi小于预定义的阈值时(假设检验),则可判断其为异常用户群。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块、模组或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元、模组或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
所述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明的方法中限定的上述功能。需要说明的是,本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件,或者任意以上的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何在本发明揭露的技术范围内的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于,包括以下步骤:
构建异常搜索用户画像标签;
根据异常搜索用户画像标签,获取异常搜索用户行为信息;
根据异常搜索用户行为信息,得到待识别用户集;
根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
对聚类结果进行后验,得到机票异常搜索用户。
2.根据权利要求1所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于,根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果,具体包括以下步骤:
根据异常搜索用户画像标签体系和待识别用户集,构建用户标签体系矩阵;
对画像标签体系矩阵进行优化处理,得到优化后矩阵;
对优化后矩阵进行聚类分析,得到聚类结果。
3.根据权利要求2所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于:
所述用户标签体系矩阵为:
;
式中:Z代表集合N用户的画像标签体系矩阵;ai代表集合N中第i个用户的标签体系矩阵;aij表示第i个用户在第j个标签的标签值;i为用户数,j为标签数。
4.根据权利要求3所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于:
所述优化处理为归一化处理;所述归一化处理的公式为:
;
其中,aij是原始数据,μ是第j个标签均值,δ是第j个标签的标准差;aij’是归一化处理后的数据,归一化后期其转化为均值为0,标准差为1的值;
归一化处理后的矩阵为,以归一化处理后的矩阵作为优化后矩阵。
5.根据权利要求1所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于,对优化后矩阵进行聚类分析,得到聚类结果,具体包括以下步骤:
根据优化后矩阵,确定聚类个数K以及初始聚类中心;
计算优化后矩阵与各个初始聚类中心的距离,根据距离对所有优化后矩阵进行划分;
分别计算K个聚类簇中特征的均值,将所述均值作为新的聚类中心;
直至聚类收敛,得到聚类结果。
6.根据权利要求5所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于,确定聚类个数K以及聚类中心,具体包括以下步骤:
根据轮廓系数法确定聚类个数K:
以优化后矩阵作为用户点,所述轮廓系数的计算公式为:
;
dis_a即用户点到所属同簇内用户点的平均距离,表示为凝聚度;
dis_b即用户点到所属非同簇内用户点的平均距离,表示为分离度;
随机选择一个点作为第一个聚类中心,然后选择距离该点最远的那个点作为第二个聚类中心,然后再选择距离前两个点的最近距离最大的点作为第三个聚类中心,以此类推,直至选出K个聚类中心为止。
7.根据权利要求6所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于:
所述距离的计算公式为:
;
式中:ai和aj表示不同的两个用户,m表示用户的标签体系维度;
所述聚类收敛目标为:
采用损失函数作为聚类收敛的目标函数,其目标为使得划分类后各簇内误差平方和SSE最小:
;
;
式中:ei是k个聚类中心的第i个聚类中心的聚类中心点,Ei为第i个类的待识别用户集合,a是第i个类中用户的标签体系矩阵向量;
在损失函数变化低于最小误差平方和t,且当前迭代次数大于最大迭代次数s时,聚类收敛。
8.根据权利要求1所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于,对聚类结果进行后验,得到机票异常搜索用户,具体包括以下步骤:
根据异常搜索用户画像标签体系和待识别用户集,构建后验标签体系矩阵;
根据后验标签体系矩阵,获取后验行为结果;
根据后验行为结果和聚类结果,获取机票异常搜索用户。
9.根据权利要求8所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于,所述后验标签体系矩阵为:
;
式中:T代表集合N用户的后验标签体系矩阵;bi代表集合N中第i个用户的标签体系矩阵;bi1表示第i个用户在最近一个月内的机票搜索次数;bi2标签第i个用户在最近一个月内的机票下单次数。
10.基于用户画像和聚类技术识别机票异常搜索用户系统,用于实现如权利要求1-9任一所述的基于用户画像和聚类技术识别机票异常搜索用户方法,其特征在于,包括:
构建模块,用于构建异常搜索用户画像标签;
用户行为信息获取模块,用于根据异常搜索用户画像标签,获取异常搜索用户行为信息;
待识别用户集获取模块,用于根据异常搜索用户行为信息,得到待识别用户集;
聚类分析模块,用于根据异常搜索用户画像标签,对待识别用户集进行聚类分析,得到聚类结果;
后验模块,用于对聚类结果进行后验,得到机票异常搜索用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410003978.7A CN117520994B (zh) | 2024-01-03 | 2024-01-03 | 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410003978.7A CN117520994B (zh) | 2024-01-03 | 2024-01-03 | 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117520994A true CN117520994A (zh) | 2024-02-06 |
CN117520994B CN117520994B (zh) | 2024-04-19 |
Family
ID=89751602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410003978.7A Active CN117520994B (zh) | 2024-01-03 | 2024-01-03 | 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520994B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020201A (zh) * | 2019-03-26 | 2019-07-16 | 中国科学院软件研究所 | 一种基于用户画像聚类的用户类型自动化标注系统 |
CN111444236A (zh) * | 2020-03-23 | 2020-07-24 | 华南理工大学 | 一种基于大数据的移动终端用户画像构建方法及系统 |
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN111783875A (zh) * | 2020-06-29 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于聚类分析的异常用户检测方法、装置、设备及介质 |
CN115018545A (zh) * | 2022-06-07 | 2022-09-06 | 青岛文达通科技股份有限公司 | 基于用户画像与聚类算法的相似用户分析方法及系统 |
-
2024
- 2024-01-03 CN CN202410003978.7A patent/CN117520994B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN110020201A (zh) * | 2019-03-26 | 2019-07-16 | 中国科学院软件研究所 | 一种基于用户画像聚类的用户类型自动化标注系统 |
CN111444236A (zh) * | 2020-03-23 | 2020-07-24 | 华南理工大学 | 一种基于大数据的移动终端用户画像构建方法及系统 |
CN111783875A (zh) * | 2020-06-29 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于聚类分析的异常用户检测方法、装置、设备及介质 |
CN115018545A (zh) * | 2022-06-07 | 2022-09-06 | 青岛文达通科技股份有限公司 | 基于用户画像与聚类算法的相似用户分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
李秋硕;王岩;孙宇军;肖勇;张朝鑫;: "K-means改进算法在电力用户聚类辨识中的应用", 信息技术, no. 10, 25 October 2017 (2017-10-25), pages 116 - 120 * |
Also Published As
Publication number | Publication date |
---|---|
CN117520994B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN108632097A (zh) | 异常行为对象的识别方法、终端设备及介质 | |
CN112241494B (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN109815987B (zh) | 一种人群分类方法和分类系统 | |
CN112446399A (zh) | 标签确定方法、装置和系统 | |
CN115146865A (zh) | 基于人工智能的任务优化方法及相关设备 | |
CN113076437B (zh) | 一种基于标签重分配的小样本图像分类方法及系统 | |
CN111027600A (zh) | 图像类别预测方法和装置 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN115879017A (zh) | 一种电力敏感数据自动化分类分级方法、装置及存储介质 | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
CN113159881B (zh) | 一种数据聚类及b2b平台客户偏好获取方法、系统 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN115034278A (zh) | 性能指标异常检测方法、装置、电子设备和存储介质 | |
CN117520994B (zh) | 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN109583712B (zh) | 一种数据指标分析方法及装置、存储介质 | |
CN115062725B (zh) | 酒店收益异常分析方法及系统 | |
CN116523301A (zh) | 基于电商大数据进行风险评级预测的系统 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN109615075B (zh) | 一种基于多层聚类模型的居民日常行为识别方法 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN111400375A (zh) | 一种基于财务业务数据商机挖掘方法及装置 | |
CN110569277A (zh) | 一种配置数据信息自动识别与归类方法及系统 | |
CN110119464A (zh) | 一种合同中数值的智能推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |