CN112926701A

CN112926701A - 一种基于gcn半监督的航空乘客的分类方法和系统及其设备

Info

Publication number: CN112926701A
Application number: CN202110503969.0A
Authority: CN
Inventors: 高�熙
Original assignee: Beijing Renrenyuntu Information Technology Co ltd
Current assignee: Beijing Renrenyuntu Information Technology Co ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-06-08
Anticipated expiration: 2041-05-10
Also published as: CN112926701B

Abstract

本发明公开了一种基于GCN半监督的航空乘客的分类方法和系统及其设备。方法包括：提取用户的属性和行为数据，进行预处理；计算用户之间的相似度，生成邻接矩阵；通过GCN对用户进行训练，生成分类模型；将未分类的用户送入已经训练好的分类模型，根据分类结果，标注乘客类型；将未分类的用户和已分类用户重新生成邻接矩阵，通过GCN训练后，更新所述分类模型。系统包括：提取模块、分析模块、训练模块、分类模块和调整模块。本发明能够根据用户属性和行为特征将航空乘客分为商务乘客和普通乘客，根据二者的占比来调整价格，并且可以根据两种不同类型乘客行为的变化来指导航线运营。

Description

一种基于GCN半监督的航空乘客的分类方法和系统及其设备

技术领域

本发明涉及计算机技术、航司收益管理、数据分析技术领域，特别涉及一种基于GCN半监督的航空乘客的分类方法和系统及其设备。

背景技术

对于航空公司而言，航线和运力在一定的时间内是固定的，但是市场需求是随时在变化的，而市场需求又是由客源类型决定的。因此能够准确的把握客源类型的行为和需求特点，是能争取到更多乘客的一个关键因素。例如：不同的乘客类型对价格，航班起飞的时段，座位的舒适度都有不同的要求。航司就可以根据这些不同的乘客需求提供不同的运营服务，来提高客座率和收益。因此，如何对用户行为进行分类，进而以此指导航线运营成为一个亟待解决的问题。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于GCN半监督的航空乘客的分类方法和系统及其设备，能够根据用户行为将航空乘客分为商务乘客和闲暇乘客，根据二者的占比来调整价格，并且可以根据两种不同类型乘客行为的变化来指导航线运营。

第一方面，本发明实施例提供了一种基于GCN半监督的航空乘客的分类方法，包括：

提取用户的属性和行为数据，进行预处理。

计算用户之间的相似度，生成邻接矩阵。

通过GCN对用户进行训练，生成分类模型。

将未分类的用户送入已经训练好的分类模型，根据分类结果，标注乘客类型。

将未分类的用户和已分类用户重新生成邻接矩阵，通过GCN训练后，更新所述分类模型。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述提取用户的属性和行为数据，进行预处理，包括：

提取用户的属性数据，包括用户年龄、用户性别、用户会员等级、用户所在城市、用户近一年在本航司的订单数量、用户近一年在本航司去过的不同城市个数和用户近一年的购买频率。

提取用户的行为数据，包括用户搜索交易航段的次数、用户浏览时长、用户搜索不同航段的个数、用户搜索与交易的时间差、用户交易票价的折扣、用户的票数、用户交易时段、用户交易时间与起飞的时间差、用户起飞日是否归属节日。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述计算用户之间的相似度，生成邻接矩阵，包括：

将每个用户看作一个节点，根据历史用户的属性数据生成节点的属性。

根据历史用户的行为数据生成对应节点的特征向量。

分别计算两两属性向量的余弦相似度，当相似度高于设定阈值T时，依次连接N个用户的属性相似的节点，形成N*N邻接矩阵A。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述通过GCN对用户进行训练，生成分类模型，包括：

将所述N*N邻接矩阵A进行自连接，生成N*N矩阵L。

定义两层GCN模型，输入节点特征向量，输入L和N*8的节点特征向量，隐藏层维度设为16，最后一层输出维度为类别数2，激活函数使用ReLu，损失函数用交叉熵，优化器用Adam。

将已有标签的用户节点分成训练集和测试集，在训练节点上计算损失值，反向传播计算参数的梯度，用优化方法进行梯度更新，得到分类模型，迭代200次，得到的分类模型在训练集上的准确率接近0.9，测试集上的准确率接近0.8的分类模型。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述乘客类型包括商务乘客和普通乘客。

第二方面，本发明实施例还提供了一种基于GCN半监督的航空乘客的分类系统，包括：

提取模块，用于提取用户的属性和行为数据，进行预处理。

分析模块，用于计算用户之间的相似度，生成邻接矩阵。

训练模块，用于通过GCN对用户进行训练，生成分类模型。

分类模块，用于将未分类的用户送入已经训练好的分类模型，根据分类结果，标注乘客类型。

调整模块，用于将未分类的用户和已分类用户重新生成邻接矩阵，通过GCN训练后，更新所述分类模型。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述提取模块包括：

属性数据提取单元，用于提取用户的属性数据，包括用户年龄、用户性别、用户会员等级、用户所在城市、用户近一年在本航司的订单数量、用户近一年在本航司去过的不同城市个数和用户近一年的购买频率。

行为数据提取单元，用于提取用户的行为数据，包括用户搜索交易航段的次数、用户浏览时长、用户搜索不同航段的个数、用户搜索与交易的时间差、用户交易票价的折扣、用户的票数、用户交易时段、用户交易时间与起飞的时间差、用户起飞日是否归属节日。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述分析模块包括：

节点单元，用于将每个用户看作一个节点，根据历史用户的属性数据生成节点的属性。

向量单元，用于根据历史用户的行为数据生成对应节点的特征向量。

矩阵单元，用于分别计算两两属性向量的余弦相似度，当相似度高于设定阈值T时，依次连接N个用户的属性相同的节点，形成N*N邻接矩阵A。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述训练模块包括：

将所述N*N邻接矩阵A进行自连接，生成N*N矩阵L。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如前任一项所述的基于GCN半监督的航空乘客的分类方法。

本发明实施例的有益效果是：

本发明提供的航空乘客的分类方法及系统，能够根据用户行为将航空乘客分为商务乘客和闲暇乘客，根据二者的占比来调整价格，从而根据两种不同类型乘客行为的变化来指导航线运营。通过本发明提供的分类方法及系统，能够准确的把握市场的需求和特点，协助航线员合理调价，协助航司提供更好的服务，来争取到更多的乘客。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明基于GCN半监督的航空乘客的分类方法的流程图；

图2为本发明分类方法中进行预处理的流程图；

图3为本发明分类方法中生成邻接矩阵的流程图；

图4为本发明分类方法中生成分类模型的流程图；

图5为本发明基于GCN半监督的航空乘客的分类系统结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。

请参照图1至图4，本发明的第一个实施例提供一种基于GCN半监督的航空乘客的分类方法，包括：

提取用户的属性和行为数据，进行预处理。

计算用户之间的相似度，生成邻接矩阵。

通过GCN对用户进行训练，生成分类模型。

提取用户的属性数据，包括用户年龄、用户性别、用户会员等级、用户所在城市、用户近一年在本航司的订单数量、用户近一年在本航司去过的不同城市个数和用户近一年的购买频率等7个维度。

提取用户的行为数据，包括用户搜索交易航段的次数、用户浏览时长、用户搜索不同航段的个数、用户搜索与交易的时间差、用户交易票价的折扣、用户的票数、用户交易时段、用户交易时间与起飞的时间差、用户起飞日是否归属节日等9个特征。

根据历史用户的行为数据生成对应节点的特征向量。

矩阵的行和列都是节点编号。矩阵的里的元素为行节点编号的用户与列节点编号用户的相似度，当这个相似度小于这个阈值时，将其置0，否则不变。例如：当阈值为0.6时，节点1和节点3之间的相似度为0.8，0.8>=0.6,则邻接矩阵A中，行为1，列为3的元素值就是其相似度，节点1和节点2之间相似度为0.2，0.2<0.6,则邻接矩阵A中，行为1，列为2的元素值就是0。

将所述N*N邻接矩阵A进行自连接，生成N*N矩阵L。

其中L=D^-0.5*(A+I)*D^-0.5,其中D为度矩阵，I为单位阵。定义两层GCN模型，输入为L和N*8的节点特征向量，隐藏层维度设为16，最后一层输出维度为类别数2，激活函数使用ReLu。损失函数用交叉熵，优化器用Adam。将已有标签的用户节点分成训练集和测试集，在训练节点上计算损失值，反向传播计算参数的梯度，用优化方法进行梯度更新，迭代了200次，得到的分类模型在训练集上的准确率接近0.9，测试集上的准确率接近0.8的分类模型。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，将未分类的用户送入已经训练好的分类模型，根据分类结果，标注乘客类型，包括：

选择没有标签的用户节点，输入到所述分类模型后，即可得出该节点用户属于普通用户和商务用户的概率。例如：某个节点用户属于普通用户的概率是0.1，属于商务用户的概率是0.9，则最终判断该用户是商务用户。

请参照图5，本发明的第二个实施例提供一种基于GCN半监督的航空乘客的分类系统，包括：

提取模块，用于提取用户的属性和行为数据，进行预处理。

分析模块，用于计算用户之间的相似度，生成邻接矩阵。

训练模块，用于通过GCN对用户进行训练，生成分类模型。

矩阵单元，用于分别计算两两属性向量的余弦相似度，当相似度高于设定阈值T时，依次连接N个用户的属性相似的节点，形成N*N邻接矩阵A。

将所述N*N邻接矩阵A进行自连接，生成N*N矩阵L。

本发明的第三个实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如前任一项所述的基于GCN半监督的航空乘客的分类方法。

本发明实施例旨在保护一种航空乘客的分类方法及系统，具备如下效果：

本发明能够根据用户行为将航空乘客分为商务乘客和闲暇乘客，根据二者的占比来调整价格，从而根据两种不同类型乘客行为的变化来指导航线运营。通过本发明提供的分类方法及系统，能够准确的把握市场的需求和特点，协助航线员合理调价，协助航司提供更好的服务，来争取到更多的乘客。

本发明实施例所提供的基于GCN半监督的航空乘客的分类方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述基于GCN半监督的航空乘客的分类方法，从而能够根据用户行为将航空乘客分为商务乘客和闲暇乘客，根据二者的占比来调整价格，并且可以根据两种不同类型乘客行为的变化来指导航线运营。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于GCN半监督的航空乘客的分类方法，其特征在于，包括：

提取用户的属性和行为数据，进行预处理；

计算用户之间的相似度，生成邻接矩阵；

通过GCN对用户进行训练，生成分类模型；

将未分类的用户送入已经训练好的分类模型，根据分类结果，标注乘客类型；

2.根据权利要求1所述的基于GCN半监督的航空乘客的分类方法，其特征在于，所述提取用户的属性和行为数据，进行预处理，包括：

提取用户的属性数据，包括用户年龄、用户性别、用户会员等级、用户所在城市、用户近一年在本航司的订单数量、用户近一年在本航司去过的不同城市个数和用户近一年的购买频率；

3.根据权利要求2所述的基于GCN半监督的航空乘客的分类方法，其特征在于，所述计算用户之间的相似度，生成邻接矩阵，包括：

将每个用户看作一个节点，根据历史用户的属性数据生成节点的属性；

根据历史用户的行为数据生成对应节点的特征向量；

4.根据权利要求3所述的基于GCN半监督的航空乘客的分类方法，其特征在于，所述通过GCN对用户进行训练，生成分类模型，包括：

将所述N*N邻接矩阵A进行自连接，生成N*N矩阵L；

定义两层GCN模型，输入节点特征向量；

将已有标签的用户节点分成训练集和测试集，在训练节点上计算损失值，反向传播计算参数的梯度，用优化方法进行梯度更新，得到分类模型。

5.根据权利要求1所述的基于GCN半监督的航空乘客的分类方法，其特征在于，所述乘客类型包括商务乘客和普通乘客。

6.一种基于GCN半监督的航空乘客的分类系统，其特征在于，包括：

提取模块，用于提取用户的属性和行为数据，进行预处理；

分析模块，用于计算用户之间的相似度，生成邻接矩阵；

训练模块，用于通过GCN对用户进行训练，生成分类模型；

分类模块，用于将未分类的用户送入已经训练好的分类模型，根据分类结果，标注乘客类型；

7.根据权利要求6所述的基于GCN半监督的航空乘客的分类系统，其特征在于，所述提取模块包括：

属性数据提取单元，用于提取用户的属性数据，包括用户年龄、用户性别、用户会员等级、用户所在城市、用户近一年在本航司的订单数量、用户近一年在本航司去过的不同城市个数和用户近一年的购买频率；

8.根据权利要求7所述的基于GCN半监督的航空乘客的分类系统，其特征在于，所述分析模块包括：

节点单元，用于将每个用户看作一个节点，根据历史用户的属性数据生成节点的属性；

向量单元，用于根据历史用户的行为数据生成对应节点的特征向量；

9.根据权利要求8所述的基于GCN半监督的航空乘客的分类系统，其特征在于，所述训练模块包括：

将所述N*N邻接矩阵A进行自连接，生成N*N矩阵L；

定义两层GCN模型，输入节点特征向量；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于GCN半监督的航空乘客的分类方法。