CN112308616A - 一种航司旅客的群体划分方法及装置 - Google Patents
一种航司旅客的群体划分方法及装置 Download PDFInfo
- Publication number
- CN112308616A CN112308616A CN202011203027.2A CN202011203027A CN112308616A CN 112308616 A CN112308616 A CN 112308616A CN 202011203027 A CN202011203027 A CN 202011203027A CN 112308616 A CN112308616 A CN 112308616A
- Authority
- CN
- China
- Prior art keywords
- preset
- classification
- passenger
- consumption
- data information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 7
- 230000010006 flight Effects 0.000 description 7
- 239000000126 substance Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G06Q50/40—
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种航司旅客的群体划分方法及装置,该方法包括:当接收航司旅客的分类请求时,获取航司旅客的预设时长内的数据信息,数据信息包括:是否为VIP、购票总价、飞行总里程、乘坐不同舱位次数、机票平均折扣率、购票频率、使用航司付费服务次数和每次出行航班的准点率;将数据信息转换为第一预设数量的消费水平维度数据;将消费水平维度数据传递给预设的分类模型进行分类,得到航司旅客属于第二预设数量的预设分类的概率,将各个概率中最大值对应的预设分类作为第一目标分类,将所述航司旅客划分为所述第一目标分类。上述方法,基于不同的数据信息进行分类,数据信息中存在与消费和购票相关数据,可以实现对航司旅客消费习惯的分析。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种航司旅客的群体划分方法 及装置。
背景技术
随着经济的发展和时代的进步,越来越多的旅客选择乘坐飞机出行,随 着机票价格的不断下探,现在民航领域内的竞争也愈发激烈,针对这种情况, 航司应该整合旅客的出行信息和数据,对航司旅客进行聚类划分,结合推荐 算法,对不同类别的旅客进行机票推送和行程规划。同时,机场也可以根据 用户的消费能力以及消费趋势来为用户提供不同的商品以及服务。
目前,对航司旅客的群体划分只是对其是否为VIP进行划分,使用的航 司旅客信息过于单一,无法深度挖掘航司旅客的消费习惯偏好。
发明内容
有鉴于此,本发明提供了一种航司旅客的群体划分方法及装置,用以解 决对航司旅客的群体划分只是对其是否为VIP进行划分,使用的航司旅客信 息过于单一,无法深度挖掘航司旅客的消费习惯偏好的问题。具体方案如下:
一种航司旅客的群体划分方法,包括:
当接收航司旅客的分类请求时,获取所述航司旅客的预设时长内的数据 信息,其中,所述数据信息包括:是否为VIP、购票总价、飞行总里程、乘坐 不同舱位次数、机票平均折扣率、购票频率、使用航司付费服务次数和每次 出行航班的准点率;
将所述数据信息转换为第一预设数量的消费水平维度数据;
将所述消费水平维度数据传递给预设的分类模型进行分类,得到所述航 司旅客属于第二预设数量的预设分类的概率,其中,所述预设的分类模型基 于历史数据信息进行训练得到;
将各个概率中最大值对应的预设分类作为第一目标分类,将所述航司旅 客划分为所述第一目标分类。
上述的方法,可选的,将所述数据信息转换为第一预设数量的消费水平 维度数据,包括:
基于所述数据信息计算预设数量的初始消费水平维度数据;
对每一个初始消费水平数据采用对应的映射方法映射到(0,1]区间,得到 所述第一预设数量的消费水平维度数据。
上述的方法,可选的,还包括:
获取所述消费水平维度数据属于各个预设分类中的概率和概率阈值;
获取所述消费水平维度数据与各个预设分类中心点的距离和距离阈值;
依据所述概率、所述概率阈值、所述距离和所述距离阈值采用预设的确 定规则确定所述航司旅客属于的第二目标分类,其中,所述第二目标分类为 第三预设数量的预设分类中的任意一个,所述第三预设数量大于所述第二预 设数量。
上述的方法,可选的,所述预设的分类模型为高斯混合分类模型。
上述的方法,可选的,还包括:
获取与所述第一目标分类对应的待推荐服务;
将所述待推荐服务推荐给所述航司旅客。
一种航司旅客的群体划分装置,包括:
信息获取模块,用于当接收航司旅客的分类请求时,获取所述航司旅客 的预设时长内的数据信息,其中,所述数据信息包括:是否为VIP、购票总价、 飞行总里程、乘坐不同舱位次数、机票平均折扣率、购票频率、使用航司付 费服务次数和每次出行航班的准点率;
转换模块,用于将所述数据信息转换为第一预设数量的消费水平维度数 据;
分类模块,用于将所述消费水平维度数据传递给预设的分类模型进行分 类,得到所述航司旅客属于第二预设数量的预设分类的概率,其中,所述预 设的分类模型基于历史数据信息进行训练得到;
划分模块,用于将各个概率中最大值对应的预设分类作为第一目标分类, 将所述航司旅客划分为所述第一目标分类。
上述的装置,可选的,所述转换模块包括:
计算单元,用于基于所述数据信息计算预设数量的初始消费水平维度数 据;
映射单元,用于对每一个初始消费水平数据采用对应的映射方法映射到 (0,1]区间,得到所述第一预设数量的消费水平维度数据。
上述的装置,可选的,还包括:
第一获取模块,用于获取所述消费水平维度数据属于各个预设分类中的 概率和概率阈值;
第二获取模块,用于获取所述消费水平维度数据与各个预设分类中心点 的距离和距离阈值;
确定模块,用于依据所述概率、所述概率阈值、所述距离和所述距离阈 值采用预设的确定规则确定所述航司旅客属于的第二目标分类,其中,所述 第二目标分类为第三预设数量的预设分类中的任意一个,所述第三预设数量 大于所述第二预设数量。
上述的装置,可选的,所述预设的分类模型为高斯混合分类模型。
上述的装置,可选的,还包括:
服务获取模块,用于获取与所述第一目标分类对应的待推荐服务;
推荐模块,用于将所述待推荐服务推荐给所述航司旅客。
与现有技术相比,本发明包括以下优点:
本发明公开了一种航司旅客的群体划分方法及装置,该方法包括:当接 收航司旅客的分类请求时,获取航司旅客的预设时长内的数据信息,数据信 息包括:是否为VIP、购票总价、飞行总里程、乘坐不同舱位次数、机票平均 折扣率、购票频率、使用航司付费服务次数和每次出行航班的准点率;将数 据信息转换为第一预设数量的消费水平维度数据;将消费水平维度数据传递 给预设的分类模型进行分类,得到航司旅客属于第二预设数量的预设分类的 概率,将各个概率中最大值对应的预设分类作为第一目标分类,将所述航司旅客划分为所述第一目标分类。上述方法,基于不同的数据信息进行分类, 数据信息中存在与消费和购票相关数据,可以实现对航司旅客消费习惯的分 析。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种航司旅客的群体划分方法流程图;
图2为本申请实施例公开的一种航司旅客的群体划分装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种航司旅客的群体划分方法及装置,应用于将航司旅客 分配到对应的分类中,现有技术中,机场以及航空公司对航司旅客的类别划 分基本上是判断航司旅客是否为某航空公司的VIP来进行服务,这种方式有 以下缺点:
1.使用到的旅客数据信息过于单一,无法深度挖掘旅客的消费习惯偏好。
2.只关注高端旅客的服务,忽略了对经济型旅客的类别标注,无形中减 少了很多利润。
3.航空公司对于新用户,只考虑其当前是否是VIP身份,不考虑该用户 之前的购票和消费记录,无法对其精准营销,影响了新用户的体验。
4.对于用户消费习惯的转变不敏感,无法分析用户消费习惯转变趋势, 无法及时进行有效的服务推送。
传统的聚类方法普遍使用k临近算法(knn)或者是k均值算法(k-means) 进行聚类,但是这种传统的聚类方法有几个缺点:迭代过程相对缓慢(knn)、 计算量大(knn)、样本不平衡时,对稀有类别的预测准确率低(knn,k-means)、 对噪声比较敏感(k-means)和只能得到局部最优解(k-means)等问题,基于 上述的问题,本发明提供了一种航司旅客的群体划分方法,所述划分方法的 执行流程如图1所示,包括步骤:
S101、当接收航司旅客的分类请求时,获取所述航司旅客的预设时长内 的数据信息,其中,所述数据信息包括:是否为VIP、购票总价、飞行总里程、 乘坐不同舱位次数、机票平均折扣率、购票频率、使用航司付费服务次数和 每次出行航班的准点率;
本发明实施例中,所述预设时长可以基于经验或者具体情况进行设定, 所述预设时长可以为一个月,一个季度或者一年等,本发明实施例中,以所 述预设时长为一个季度为例进行说明,以季度为单位获取所述旅客的数据信 息,所述数据信息为多维度的航司旅客消费属性信息。所述数据信息包括: 是否为VIP、购票总价、飞行总里程、乘坐不同舱位次数、机票平均折扣率、 购票频率、使用航司付费服务次数和每次出行航班的准点率,其中,所述基 本信息可以存储在数据库中或者指定位置,优选的还可以获取所述航司用户 的基本信息,所述基本信息包括:姓名,性别,年龄以及常住地等。
S102、将所述数据信息转换为第一预设数量的消费水平维度数据;
本发明实施例中,基于所述数据信息计算第一预设数量的消费水平维度 数据,其中,所述第一预设数量的可以基于经验或者具体情况进行设定,本 发明实施例中,对所述第一预设数量的具体取值不进行限定,本发明实施例 中,以所述第一预设数量为13为例进行说明,则所述第一预设数量的消费水 平维度数据包括:
1.是否是某航司的VIP会员
2.航司偏好(乘坐单个航司出行的种类占所有航司种类的25%以上)
3.购票单价(元/1000km)
4.购票单价平均涨幅(可以<0),把本季度相对于上一季度的涨幅累加 求平均(追溯到距今两年之前)
5.头等舱和商务舱比率(乘坐头等舱或商务舱占飞行总次数的比例)
6.头等舱和商务舱比率平均涨幅(计算方式同第三个维度)
7.购票频率涨幅(计算方式同第三个维度)
8.使用航司付费服务比率(使用航司付费服务次数占飞行总次数的比 例)
9.使用航司付费服务比率涨幅(计算方式同第三个维度)
10.机票平均折扣率
11.高频航线比率
12.航班平均准点率
13.航班平均准点率涨幅(计算方式同第三个维度)
在确定了上述13个用户信息维度之后,需要将所述第一预设数量的消费 水平维度数据映射到[0,1]的区间内,对于离散的属性值:用户是否属于VIP, 我们将VIP用户的值设为0.8,将非VIP用户设为0.2,对于连续的属性,基 于下式实现映射
X’=(X-Xmin)/(Xmax-Xmin) (1)
其中,X’代表映射之后的值,X代表要映射之前的值,Xmin代表所有样 本中该属性的最小值,反之,Xmax代表最大值。(X-Xmin)/(Xmax-Xmin)是介 于0到1中的数字。
进一步的,针对上述消费水平维度数据具体的处理过程如下:
如果该用户是某航司会员,该用户的航司VIP维度值为0.8,反之则为0.2
如果该用户乘坐某航司的次数占所有出行次数的25%以上,则该用户的 航司维度为0.6,反之则为0.4
计算每个用户的平均购票单价,取最近一个季度的购票数据信息做计算, 用机票总价/总飞行里程(单位:元/1000km),使用(X-Xmin)/(Xmax-Xmin) 将每个用户的购票单价映射到[0,1]区间内。
计算每个用户最近两年内相邻两个季度的机票单价涨幅,最后取平均, 并映射到[0,1]区间内
计算该用户乘坐头等舱或商务舱占飞行总次数的比例,结果在[0,1]区间 内
计算每个用户最近两年内相邻两个季度的头等舱或商务舱占飞行次数比 例的涨幅,最后取平均,并映射到[0,1]区间内
计算每个用户最近两年内相邻两个季度的购票频率涨幅,最后取平均, 并映射到[0,1]区间内
计算该用户使用航司付费服务次数占飞行总次数的比例,结果在[0,1]区 间内
计算每个用户最近两年内相邻两个季度使用航司付费服务次数占飞行总 次数的比例的涨幅,最后取平均,并映射到[0,1]区间内
收集该用户购买的最近一季度内的所有机票的折扣率的平均,结果在[0,1] 区间内
如果该用户在一季度中飞行同一航线(北京-沈阳和沈阳-北京属于同一航 线)的次数大于两次,则该用户的高频航线维度值为0.6,反正则为0.4
获取该用户最近一季度内乘坐过的所有航班的准点率并取平均,结果在 [0,1]区间内
计算每个用户最近两年内相邻两个季度航班平均准点率的涨幅,最后取 平均,并映射到[0,1]区间内
进一步的,对于在某一季度没有出行(未产生消费记录)的旅客,在上 述第3、5、8、12维度中按季度以衰减比例进行衰减,第4、6、9、13维度 上的值也按相应的衰减比例随之减少,衰减比例可以基于经验或者具体情况 进行设定,本发明实施例中,对衰减比例的具体取值不进行限定,优选的, 所述衰减比例为r=10%。以上述的第12个维度为例:假设用户在某季度a的 平均航班准点率为60%,在第a+1季度中,如果该用户没有出行记录,则该用户在(a+1)季度中的平均航班准点率为60%*(1-10%)=54%。
S103、将所述消费水平维度数据传递给预设的分类模型进行分类,得到 所述航司旅客属于第二预设数量的预设分类的概率,其中,所述预设的分类 模型基于历史数据信息进行训练得到;
本发明实施例中,所述预设的分类模型为高斯混合分类模型GMM,GMM 算法模型基于高斯分布,高斯分布符合客消费分布客观规律。其中,
高斯分布:
公式(2)中,μ为样本集的均值,σ^2为样本的方差
GMM似然函数,本聚类的目的就是最大化似然:
公式(3)中,每个样本可以看作是多个高斯分布叠加而成,xi代表每个样 本,公式中的μk和vark分别是第k个高斯分布的均值和方差,Wk代表权重, 目是求出Wk、μk以及vark使得公式最大化。
更新样本对于每个簇的隶属度(概率)(不断迭代):
公式(4)中,分子中的μm和varm代表第m个高斯模型的均值和方差。
更新GMM模型的均值(不断迭代):
公式(5)中,Wi,m代表第i个样本在第m个高斯模型中的权重,X代表第 i个样本。
更新GMM模型的方差(不断迭代):
公式(6)中,μm代表第m个高斯模型的均值。
针对所述高斯混合分类模型,在对所述高斯混合分类模型进行训练之前, 编码实现GMM聚类,配置模型参数如下:
cluster_number:本参数是GMM算法中聚类的个数,需要提前确定,在 本发明实施例中,cluster_number的值为4。
dimensions:第二步特征工程中的提取出的旅客消费维度(13个维度)
points_number:参与聚类的样本点的个数。
means:一个cluster_number*dimensions大小的数组,用来存放每个高斯 分布的初始化均值(在本专利中随机取值)。
variances:一个cluster_number*dimensions大小的数组,存放每个高斯分 布的方差,为了过程简便,本发明实施例中,假设协方差矩阵都是对角矩阵。
weight:一个points_number*cluster_number大小的数组,存放每个点分 别属于每一类的概率。
Pi:一个[1*cluster_number]大小的数组,用来存放每一簇的比重,可以根 据weight求得,在初始化时Pi=[1/4,1/4,1/4,1/4]。
配置完成后,进行训练,GMM模型的主要目的是使用条件概率模型(公 式4)来更新weight。基于更新的weight来更新均值means和方差variances。
迭代阶段:首先判断是否收敛,判断过程如下:预先设置第一迭代次数 和第二迭代次数,所述第一迭代次数和所述第二迭代次数可以基于经验或者 具体情况进行设定,以所述第一迭代次数为5,所述第二迭代次数为100为例 进行说明,当迭代次数达到所述第一迭代次数时,验证是否收敛,若是,停 止迭代,反之,继续迭代,若直至所述第二迭代次数还未收敛,则停止迭代, 判定算法收敛,则所述预设的分类模型训练完成,返回聚类结果。高斯混合 聚类不同于其他聚类方法,会计算样本属于每个簇的概率,取概率最大的簇 用于该样本的类别标注。
训练完成后,将所述消费水平维度数据传递给预设的分类模型进行分类, 得到所述航司旅客属于第二预设数量的预设分类的概率,其中,所述第二预 设数量可以基于经验或者具体情况进行设定,本发明实施例中,以所述第二 预设数量为4进行说明,在所述预设分类包括:高端型旅客、经济型旅客、 消费水平增长型旅客、消费水平下降型旅客。上述预设分类的确定过程如下: 第一类航司旅客在上述十三个维度中的第一个维度(是否为某航司的VIP会 员)、第三个维度(购票单价)、第五个维度(头等舱和商务舱占比)、第 八个维度(使用航司付费服务比率)和第十二个维度(航班平均准点率)上 的均值(对整个类别中的所有旅客求均值)高于其他三个类别,因此我们将 第一类旅客标记为高端型旅客;第二类旅客在第一、三、五、八和第十二个 维度中的均值(对整个类别中的所有旅客求均值)低于其他三个类别,因此 我们第二类旅客标记为经济型旅客。在余下的两个类别中,第三类旅客在上 述十三个维度中的第四个维度(购票单价的平均涨幅)、第六个维度(头等 舱和商务舱的平均涨幅)、第七个维度(购票频率涨幅)、第九个维度(使 用航司付费服务比例涨幅)、第十三个维度(航班平均准点率涨幅)上的均 值(对整个类别中的所有旅客求均值)高于第四个类别,因此我们将第三类 旅客标记为消费水平增长型旅客;余下的第四个类别则标记为消费水平下降 型旅客。基于上述的确定过程,采用GMM模型确定所述航司旅客属于每一 个预设分类的概率。
S104、将各个概率中最大值对应的预设分类作为第一目标分类,将所述 航司旅客划分为所述第一目标分类。
本发明实施例中,遍历各个概率,将所述各个概率中最大值对应的预设 分类作为第一目标分类,将所述航司旅客划分为所述第一目标分类。
本发明公开了一种航司旅客的群体划分方法,包括:当接收航司旅客的 分类请求时,获取航司旅客的预设时长内的数据信息,数据信息包括:是否 为VIP、购票总价、飞行总里程、乘坐不同舱位次数、机票平均折扣率、购票 频率、使用航司付费服务次数和每次出行航班的准点率;将数据信息转换为 第一预设数量的消费水平维度数据;将消费水平维度数据传递给预设的分类 模型进行分类,得到航司旅客属于第二预设数量的预设分类的概率,将各个 概率中最大值对应的预设分类作为第一目标分类,将所述航司旅客划分为所 述第一目标分类。上述方法,基于不同的数据信息进行分类,数据信息中存 在与消费和购票相关数据,可以实现对航司旅客消费习惯的分析。
进一步的,基于上述的群体划分方法,采用以下规则,从聚类的结果中 进行数据分析和信息提取,规则如下:
规定类别名称(参照配置模型参数中簇的顺序):c1,c2,c3,c4
规定单个样本属于每个簇的概率(参照配置模型参数中簇的顺序):r1,r2, r3,r4
规定单个样本属于每个簇的概率阀值(参照配置模型参数中簇的顺序): R1,R2,R3,R4
规定单个样本距离每个簇的中心点的距离(参照配置模型参数中簇的顺 序):d1,d2,d3,d4
规定单个样本距离每个簇的中心点的距离阀值(参照配置模型参数中簇 的顺序):D1,D2,D3,D4
(1)规定一个总体概率的阀值R=30%,其中,阈值可以基于经验或者具 体情况进行设定,本发明实施例中不作具体限定,用于类别模糊判断,如果 样本所在簇的概率r1/r2/r3/r4<R,则判别为模糊型用户。
(2)如果样本被归类为c3或c4,则该用户可被标注为消费增长型或消 费降低型用户,但是由于部分用户消费增长率或降低率过高,影响对其消费 状态判断,引入以下规则继续进行标注。
(3)在(2)的基础上,我们规定R1=R2=30%,如果样本属于c1的概 率r1>R1或样本属于c2的概率r2>R2,则该用户被标注为高端消费增长/降低 型用户或经济消费增长/降低型用户。
(4)如果不满足(2)的条件,在(2)的基础上,规定D1=D2=1/2*D,D 为样本距离每个cluster中心(除该样本所在的cluster)的平均距离,,本发明实 施例中,对D1和D2的具体计算方式不进行限定,如果样本与c1中心点的距 离d1<D1或样本与c2中心点的距离d2<D2(采用欧式距离计算方法),则该 用户被标注为高端消费增长/降低型用户或经济消费增长/降低型用户。
(5)如果不满足(3)和(4)中的条件,在(2)的基础上,如果该用 户属于c3类别,则判别为经济消费增长型用户,如果该用户属于c4类别,则 判别为高端消费降低型用户,对于旅客消费状态过于模糊的情况,采用此判 断规则更加符合大多数的客观消费规律。
(6)如果样本被归类为c1或c2,则该用户可被标注为高端型或经济型 用户,但是由于部分用户消费状态特征过高,影响对其消费趋势判断,我们 引入以下规则继续进行标注。
(7)在(6)的基础上,规定R3=R4=30%,其中,R3和R4可以基于 经验或者具体情况进行设定,本发明实施例中不作具体限定,如果样本属于 c3的概率r3>R3或样本属于c4的概率r4>R4,则该用户被标注为高端/经济消 费增长型用户或高端/经济消费降低型用户。
(8)如果不满足(7)的条件,在(6)的基础上,规定D3=D4=1/2*D,D 为样本距离每个cluster中心(除该样本所在的cluster)的平均距离,本发明实施 例中,对D3和D4的具体计算方式不进行限定,如果样本与c3中心点的距离 d3<D3或样本与c4中心点的距离d4<D4(采用欧式距离计算方法),则该用 户被标注为高端/经济消费增长型用户或高端/经济消费降低型用户。
(9)如果不满足(7)和(8)中的条件,在(6)的基础上,如果该用户 属于c3类别,则判别为高端消费稳定型用户,如果该用户属于c4类别,则判 别为经济消费稳定型用户。
本专利利用高斯混合聚类返回的四个类别结果数据信息,通过上述规则 的限定对数据信息进行挖掘,最终将用户的消费类别确定为七(第三预设数量) 类:高端消费增长型用户、高端消费降低型用户、经济消费增长型用户、经 济消费降低型用户、高端消费稳定型用户、高端消费稳定型用户和消费模糊 型用户。
进一步的,抽取当前时刻最新采样的数据信息,按照前叙特征工程方法 处理数据,输入到上述模型中并使用上述规则加以限定,得到最新的航司旅 客消费水平标注信息。上述的方法,在GMM算法的基础上充分挖掘更多信 息,在消费状态和消费趋势两个维度上对用户进行全方位标注。
进一步的,预先基于经验或者具体情况为每一个预设分类分配待推荐服 务,其中,所述待推荐服务包括,机票推荐、酒店推荐或者相关服务推荐等, 在确定了第一目标分类或者第二目标分类以后,其中,所述第二目标分类为 高端消费增长型用户、高端消费降低型用户、经济消费增长型用户、经济消 费降低型用户、高端消费稳定型用户、高端消费稳定型用户和消费模糊型用 户中的一个。获取与所述第一目标分类或第二目标分类对应的待推荐服务, 将所述待推荐服务推荐给所述航司旅客。
基于上述的一种航司旅客的群体划分方法,本发明实施例中,还提供了 一种航司旅客的群体划分装置,所述划分装置的结构框图如图2所示,包括:
信息获取模块201、转换模块202、分类模块203和划分模块204。
其中,
所述信息获取模块201,用于当接收航司旅客的分类请求时,获取所述航 司旅客的预设时长内的数据信息,其中,所述数据信息包括:是否为VIP、购 票总价、飞行总里程、乘坐不同舱位次数、机票平均折扣率、购票频率、使 用航司付费服务次数和每次出行航班的准点率;
所述转换模块202,用于将所述数据信息转换为第一预设数量的消费水平 维度数据;
所述分类模块203,用于将所述消费水平维度数据传递给预设的分类模型 进行分类,得到所述航司旅客属于第二预设数量的预设分类的概率,其中, 所述预设的分类模型基于历史数据信息进行训练得到;
所述划分模块204,用于将各个概率中最大值对应的预设分类作为第一目 标分类,将所述航司旅客划分为所述第一目标分类。
本发明公开了一种航司旅客的群体划分装置,包括:当接收航司旅客的 分类请求时,获取航司旅客的预设时长内的数据信息,数据信息包括:是否 为VIP、购票总价、飞行总里程、乘坐不同舱位次数、机票平均折扣率、购票 频率、使用航司付费服务次数和每次出行航班的准点率;将数据信息转换为 第一预设数量的消费水平维度数据;将消费水平维度数据传递给预设的分类 模型进行分类,得到航司旅客属于第二预设数量的预设分类的概率,将各个 概率中最大值对应的预设分类作为第一目标分类,将所述航司旅客划分为所 述第一目标分类。上述装置,基于不同的数据信息进行分类,数据信息中存 在与消费和购票相关数据,可以实现对航司旅客消费习惯的分析。
本发明实施例中,所述转换模块202包括:
计算单元205和映射单元206。
其中,
所述计算单元205,用于基于所述数据信息计算预设数量的初始消费水平 维度数据;
所述映射单元206,用于对每一个初始消费水平数据采用对应的映射方法 映射到(0,1]区间,得到所述第一预设数量的消费水平维度数据。
本发明实施例中,所述划分装置还包括:
第一获取模块207、第二获取模块208和确定模块209。
其中,
所述第一获取模块207,用于获取所述消费水平维度数据属于各个预设分 类中的概率和概率阈值;
所述第二获取模块208,用于获取所述消费水平维度数据与各个预设分类 中心点的距离和距离阈值;
所述确定模块209,用于依据所述概率、所述概率阈值、所述距离和所述 距离阈值采用预设的确定规则确定所述航司旅客属于的第二目标分类,其中, 所述第二目标分类为第三预设数量的预设分类中的任意一个,所述第三预设 数量大于所述第二预设数量。
本发明实施例中,所述划分装置中所述预设的分类模型为高斯混合分类 模型。
本发明实施例中,所述划分装置还包括:
服务获取模块210和推荐模块211。
其中,
所述服务获取模块210,用于获取与所述第一目标分类对应的待推荐服 务;
所述推荐模块211,用于将所述待推荐服务推荐给所述航司旅客。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个 实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似 的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相 似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包 括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括 没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然, 在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到 本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品 的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、 磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所 述的方法。
以上对本发明所提供的一种航司旅客的群体划分方法及装置进行了详细 介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上 实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本 领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均 会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种航司旅客的群体划分方法,其特征在于,包括:
当接收航司旅客的分类请求时,获取所述航司旅客的预设时长内的数据信息,其中,所述数据信息包括:是否为VIP、购票总价、飞行总里程、乘坐不同舱位次数、机票平均折扣率、购票频率、使用航司付费服务次数和每次出行航班的准点率;
将所述数据信息转换为第一预设数量的消费水平维度数据;
将所述消费水平维度数据传递给预设的分类模型进行分类,得到所述航司旅客属于第二预设数量的预设分类的概率,其中,所述预设的分类模型基于历史数据信息进行训练得到;
将各个概率中最大值对应的预设分类作为第一目标分类,将所述航司旅客划分为所述第一目标分类。
2.根据权利要求1所述的方法,其特征在于,将所述数据信息转换为第一预设数量的消费水平维度数据,包括:
基于所述数据信息计算预设数量的初始消费水平维度数据;
对每一个初始消费水平数据采用对应的映射方法映射到(0,1]区间,得到所述第一预设数量的消费水平维度数据。
3.根据权利要求1所述的方法,其特征在于,还包括:
获取所述消费水平维度数据属于各个预设分类中的概率和概率阈值;
获取所述消费水平维度数据与各个预设分类中心点的距离和距离阈值;
依据所述概率、所述概率阈值、所述距离和所述距离阈值采用预设的确定规则确定所述航司旅客属于的第二目标分类,其中,所述第二目标分类为第三预设数量的预设分类中的任意一个,所述第三预设数量大于所述第二预设数量。
4.根据权利要求1所述的方法,其特征在于,所述预设的分类模型为高斯混合分类模型。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取与所述第一目标分类对应的待推荐服务;
将所述待推荐服务推荐给所述航司旅客。
6.一种航司旅客的群体划分装置,其特征在于,包括:
信息获取模块,用于当接收航司旅客的分类请求时,获取所述航司旅客的预设时长内的数据信息,其中,所述数据信息包括:是否为VIP、购票总价、飞行总里程、乘坐不同舱位次数、机票平均折扣率、购票频率、使用航司付费服务次数和每次出行航班的准点率;
转换模块,用于将所述数据信息转换为第一预设数量的消费水平维度数据;
分类模块,用于将所述消费水平维度数据传递给预设的分类模型进行分类,得到所述航司旅客属于第二预设数量的预设分类的概率,其中,所述预设的分类模型基于历史数据信息进行训练得到;
划分模块,用于将各个概率中最大值对应的预设分类作为第一目标分类,将所述航司旅客划分为所述第一目标分类。
7.根据权利要求6所述装置,其特征在于,所述转换模块包括:
计算单元,用于基于所述数据信息计算预设数量的初始消费水平维度数据;
映射单元,用于对每一个初始消费水平数据采用对应的映射方法映射到(0,1]区间,得到所述第一预设数量的消费水平维度数据。
8.根据权利要求6所述的装置,其特征在于,还包括:
第一获取模块,用于获取所述消费水平维度数据属于各个预设分类中的概率和概率阈值;
第二获取模块,用于获取所述消费水平维度数据与各个预设分类中心点的距离和距离阈值;
确定模块,用于依据所述概率、所述概率阈值、所述距离和所述距离阈值采用预设的确定规则确定所述航司旅客属于的第二目标分类,其中,所述第二目标分类为第三预设数量的预设分类中的任意一个,所述第三预设数量大于所述第二预设数量。
9.根据权利要求6所述的装置,其特征在于,所述预设的分类模型为高斯混合分类模型。
10.根据权利要求6所述的装置,其特征在于,还包括:
服务获取模块,用于获取与所述第一目标分类对应的待推荐服务;
推荐模块,用于将所述待推荐服务推荐给所述航司旅客。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203027.2A CN112308616A (zh) | 2020-11-02 | 2020-11-02 | 一种航司旅客的群体划分方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203027.2A CN112308616A (zh) | 2020-11-02 | 2020-11-02 | 一种航司旅客的群体划分方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308616A true CN112308616A (zh) | 2021-02-02 |
Family
ID=74333581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011203027.2A Pending CN112308616A (zh) | 2020-11-02 | 2020-11-02 | 一种航司旅客的群体划分方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308616A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159888A (zh) * | 2021-04-19 | 2021-07-23 | 海南太美航空股份有限公司 | 一种航班信息的推荐方法、系统及电子设备 |
CN113297336A (zh) * | 2021-05-31 | 2021-08-24 | 中国民航信息网络股份有限公司 | 航班的季节性归类方法、装置及机器可读介质 |
CN113610566A (zh) * | 2021-07-22 | 2021-11-05 | 浙江惠瀜网络科技有限公司 | 一种基于机场客户画像与服务场景的智能推荐方法 |
CN115237876A (zh) * | 2022-05-16 | 2022-10-25 | 中航信移动科技有限公司 | 航旅用户分类方法、电子设备和计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482928A (zh) * | 2009-02-24 | 2009-07-15 | 清华大学 | 一种行为描述的方法和装置 |
CN103488764A (zh) * | 2013-09-26 | 2014-01-01 | 天脉聚源(北京)传媒科技有限公司 | 个性化视频内容推荐方法和系统 |
CN106156808A (zh) * | 2015-04-23 | 2016-11-23 | 佳能株式会社 | 对象分类器的在线学习方法和设备以及检测方法和设备 |
CN109214421A (zh) * | 2018-07-27 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种模型训练方法、装置、及计算机设备 |
CN110097066A (zh) * | 2018-01-31 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 一种用户分类方法、装置及电子设备 |
-
2020
- 2020-11-02 CN CN202011203027.2A patent/CN112308616A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482928A (zh) * | 2009-02-24 | 2009-07-15 | 清华大学 | 一种行为描述的方法和装置 |
CN103488764A (zh) * | 2013-09-26 | 2014-01-01 | 天脉聚源(北京)传媒科技有限公司 | 个性化视频内容推荐方法和系统 |
CN106156808A (zh) * | 2015-04-23 | 2016-11-23 | 佳能株式会社 | 对象分类器的在线学习方法和设备以及检测方法和设备 |
CN110097066A (zh) * | 2018-01-31 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 一种用户分类方法、装置及电子设备 |
CN109214421A (zh) * | 2018-07-27 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种模型训练方法、装置、及计算机设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159888A (zh) * | 2021-04-19 | 2021-07-23 | 海南太美航空股份有限公司 | 一种航班信息的推荐方法、系统及电子设备 |
CN113297336A (zh) * | 2021-05-31 | 2021-08-24 | 中国民航信息网络股份有限公司 | 航班的季节性归类方法、装置及机器可读介质 |
CN113297336B (zh) * | 2021-05-31 | 2023-12-19 | 中国民航信息网络股份有限公司 | 航班的季节性归类方法、装置及机器可读介质 |
CN113610566A (zh) * | 2021-07-22 | 2021-11-05 | 浙江惠瀜网络科技有限公司 | 一种基于机场客户画像与服务场景的智能推荐方法 |
CN115237876A (zh) * | 2022-05-16 | 2022-10-25 | 中航信移动科技有限公司 | 航旅用户分类方法、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308616A (zh) | 一种航司旅客的群体划分方法及装置 | |
Urban et al. | Airline categorisation by applying the business model canvas and clustering algorithms | |
WO2016124118A1 (zh) | 一种订单处理方法与系统 | |
EP3252705A1 (en) | Order allocation system and method | |
Ionita et al. | Where to park? predicting free parking spots in unmonitored city areas | |
CN115790636B (zh) | 基于大数据的无人驾驶零售车巡航路径规划方法及装置 | |
Yao et al. | Data-driven choice set generation and estimation of route choice models | |
CN110532429B (zh) | 一种基于聚类和关联规则的线上用户群体分类方法及装置 | |
CN113378891A (zh) | 基于轨迹分布表示的城市区域关系可视分析方法 | |
Hofleitner et al. | Large scale estimation of arterial traffic and structural analysis of traffic patterns using probe vehicles | |
Suau-Sanchez et al. | Regulatory airport classification in the US: The role of international markets | |
Bi et al. | How built environment impacts online car-hailing ridership | |
Yun et al. | Minimum sampling size of floating cars for urban link travel time distribution estimation | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
Chen et al. | Unraveling latent transfer patterns between metro and bus from large-scale smart card data | |
Long et al. | Demand analysis in urban air mobility: A literature review | |
CN110852792A (zh) | 一种基于大数据分析的航线价值评估方法及相关产品 | |
Chen et al. | Fare adjustment’s impacts on travel patterns and farebox revenue: An empirical study based on longitudinal smartcard data | |
Viggiano et al. | Journey-based characterization of multi-modal public transportation networks | |
CN113284369A (zh) | 一种基于ads-b实测航路数据的预测方法 | |
Sha et al. | Modeling airline decisions on route planning using discrete choice models | |
CN110459050B (zh) | 一种基于混合决策树的短期公交客流预测方法 | |
Pavlyuk et al. | Spatiotemporal dynamics of public transport demand: a case study of Riga | |
Huan et al. | Roles of accessibility and air-rail intermodality in shaping mobility patterns in mega-city regions: Behavioural insights from China | |
Bass et al. | Utility-scale Building Type Assignment Using Smart Meter Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |