CN110378744A - 面向不完备数据系统的民航常旅客价值分类方法及系统 - Google Patents
面向不完备数据系统的民航常旅客价值分类方法及系统 Download PDFInfo
- Publication number
- CN110378744A CN110378744A CN201910675490.8A CN201910675490A CN110378744A CN 110378744 A CN110378744 A CN 110378744A CN 201910675490 A CN201910675490 A CN 201910675490A CN 110378744 A CN110378744 A CN 110378744A
- Authority
- CN
- China
- Prior art keywords
- passenger
- data
- incomplete
- training
- tourist information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 230000006399 behavior Effects 0.000 claims abstract description 7
- 238000004088 simulation Methods 0.000 claims abstract description 7
- 230000009467 reduction Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000004913 activation Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 101000734702 Homo sapiens Proline-, glutamic acid- and leucine-rich protein 1 Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 102100034729 Proline-, glutamic acid- and leucine-rich protein 1 Human genes 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向不完备数据系统的民航常旅客价值分类方法及系统,属于民航旅客信息技术领域,包括S1:抽取旅客服务信息数据;S2:对旅客服务信息数据进行相关预处理,并通过RFC指标的聚类分析,确定旅客价值类别数,为旅客进行价值标注;S3:等比例对旅客服务信息数据进行分割;S4:同时对训练集与数据集模拟完全随机缺失,形成不完备训练集、不完备测试集;S5:将不完备训练集与完备训练集放入多任务学习网络模型,进行模型训练;S6:将不完备测试集与测试集放入已训练好的网络模型进行相关性能指标验证;S7:判断是否重复已训练模型10次,如果判断结果为否,则返回步骤三;如果判断结果为是,则计算模型平均性能指标。
Description
技术领域
本发明属于民航旅客信息技术领域,尤其涉及一种面向不完备数据系统的民航常旅客价值分类方法及系统。
背景技术
中国民航旅客信息服务主要由中国民航信息股份有限公司的新一代旅客服务信息系统提供,其由二十一个相对独立的子系统组成,在航班信息查询、航班预定、出票、航班离港、费用结算等核心业务中承担主要工作,从而民航旅客服务信息数据存在于二十一个子系统之中。由于各系统之间标准数据结构定义不同,存取方式不同,系统之间通信方式差异,从而造成数据缺失、数据冗余、数据不一致等数据质量问题,从而影响到后续数据相关分析与应用。
在新一代旅客服务信息系统中,造成数据缺失的主要原因有数据采集过程中出现缺失、数据传播过程中出现缺失、多源异构数据转换过程中出现缺失、数据更新不及时导致出现缺失等。例如在旅客问卷反馈调查系统中部分旅客出于隐私方面的考虑会拒绝填写部分问题,从而导致数据缺失;在各信息子系统互相通信时,由于网络带宽、延时等问题,从而导致数据缺失;在各子系统中,不同数据源不同结构的数据由于模式定义不同,从而导致数据缺失;数据仓库工程师维护数据库时更新数据不及时,从而导致数据缺失。缺失值按照数据缺失机制主要分为三类:完全随机缺失(Missing Completely at Random:MCAR)、随机缺失(Missing at Random:MAR)、非随机缺失(Not Missing at Random:MNAR)。如果一个属性值发生缺失的概率同其数据集里的属性没有关系,则其属于完全随机缺失。如果一个属性发生缺失的概率同其本身真实取值无关,但同其数据集中其他可观测的属性相值关,则其属于随机缺失。之所以称为随机缺失是因为发生缺失的概率同自身取值无关,但其不是真正随机产生的。如果数据缺失发生的概率仅与缺失值的本身有关,或即依赖于缺失值的本身又依赖于其他可观测的属性值,则其缺失机制属于非随机缺失。这种缺失是最普遍,最复杂的缺失。例如,收入较高的
旅客一般都在旅客调查反馈系统中,拒绝填写与隐私相关的信息。当数据为完全随机缺失或随机缺失时,因为基于似然的估计量是无偏的,所以它被称为可忽略的缺失,因为观察到的数据可用于解释缺失。但当数据为非随机缺失,基于似然的估计量是有偏的,从而此缺失不可被忽略。基于观测数据,是无法区分非随机缺失和随机缺失的,在生产线上环境下,缺失数据可能是两者组合产生。
传统的方法是将此问题分开串行处理,先将数据集缺失数据进行填补,再将填补后完整的数据集进行旅客价值等级分类,因没有关注任务之间的相关性,导致当数据集属性维度较多,缺失率较高时,缺失值填补准确度低,从而导致分类准确度较低。
发明内容
针对现有技术的缺陷,本发明提供一种面向不完备数据系统的民航常旅客价值分类方法及系统,基于民航旅客销售服务信息数据集不完整的情况下,对旅客价值等级进行分级预测。随着中国民航业发展日益强大,可供旅客选择乘坐飞机的航空公司逐渐增多,导致各航空公司之间竞争十分激烈,在此背景下航空公司必须充分挖掘旅客信息,了解旅客的特征以及出行需求和出行习惯,对旅客进行分类管理,实行精准营销。这样不但可以稳定和拓展旅客群,同时能降低旅客管理费用,进而实现航空公司利益最大化。然而,在生产环境中由于上文所述相关原因,旅客销售服务信息数据会出现部分属性缺失,导致不能直接对属性值缺失的记录进行数据挖掘建模识别。高价值旅客虽然是少数类,但一个高价值旅客因为部分属性缺失而不能相关模型分类识别出,对航空公司是巨大的经济损失,时是上百个低价值旅客被成功识别出也挽回不了的。为了使航空公司利益最大化,对潜在价值旅客和高价值旅客的识别尤为重要。
本发明所采用的具体技术方案为:
本专利的第一发明目的是提供一种面向不完备数据系统的民航常旅客价值分类方法,包括如下步骤:
S1:从民航常旅客画像服务主数据系统中抽取旅客服务信息数据,所述旅客服务信息数据的属性包括旅客基本信息、旅客值机信息和旅客积分信息;
S2:对所述旅客服务信息数据进行相关预处理,并通过RFC指标的聚类分析,确定旅客价值类别数,并为旅客进行价值标注;
S3:等比例对旅客服务信息数据进行分割,将90%的旅客服务信息数据形成训练集,10%的旅客服务信息数据形成测试集;
S4:同时对训练集与数据集模拟完全随机缺失,形成不完备训练集、不完备测试集;
S5:将不完备训练集与完备训练集放入基于降噪自编码器的多任务学习网络模型,进行模型训练;
S6:将不完备测试集与测试集放入已训练好的网络模型进行相关性能指标验证;
S7:判断是否重复已训练模型10次,如果判断结果为否,则回到步骤三继续;如果判断结果为是,则计算模型平均性能指标。
进一步:所述网络模型包括编码器、解码器和分类器,进而组成整体网络模型。
本专利的第二发明目的是提供一种面向不完备数据系统的民航常旅客价值分类系统,包括:
数据提取模块:从民航常旅客画像服务主数据系统中抽取旅客服务信息数据,所述旅客服务信息数据的属性包括旅客基本信息、旅客值机信息和旅客积分信息;
相关性处理模块:对所述旅客服务信息数据进行相关预处理,并通过RFC指标的聚类分析,确定旅客价值类别数,并为旅客进行价值标注;
分割模块:等比例对旅客服务信息数据进行分割,将90%的旅客服务信息数据形成训练集,10%的旅客服务信息数据形成测试集;
模拟模块:同时对训练集与数据集模拟完全随机缺失,形成不完备训练集、不完备测试集;
训练模块:将不完备训练集与完备训练集放入基于降噪自编码器的多任务学习网络模型,进行模型训练;
验证模块:将不完备测试集与测试集放入已训练好的网络模型进行相关性能指标验证;
判断模块:判断是否重复已训练模型10次,如果判断结果为否,则回到步骤三继续;如果判断结果为是,则计算模型平均性能指标。
进一步:所述网络模型包括编码器、解码器和分类器,进而组成整体网络模型。
本专利的第三发明目的是提供一种实现上述面向不完备数据系统的民航常旅客价值分类方法的计算机程序。
本专利的第四发明目的是提供一种实现上述面向不完备数据系统的民航常旅客价值分类方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的面向不完备数据系统的民航常旅客价值分类方法。
本发明的优点及积极效果为:
通过采用上述技术方案,本发明具有如下的技术效果:
本发明针对在新一代民航旅客服务信息系统中,部分数据记录属性缺失影响旅客价值分类预测精度的问题。考虑分类任务与数据缺失值填补任务具有相关性,提出一种面向不完备数据系统的民航常旅客价值分类方法及系统,利用逐层无监督训练和有监督微调,对缺失数据填补与民航旅客价值分类预测同时进行。实验结果表明,相比传统处理方法,该方法有助于提高数据质量和旅客价值分类预测任务准确性。
附图说明
图1为本发明优选实施例的结构框图;
图2为本发明优选实施例的流程图;
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
下面结合附图1和图2对本发明的结构作详细的描述。
一种面向不完备数据系统的民航常旅客价值分类方法,包括如下步骤:
S1:从民航常旅客画像服务主数据系统抽取旅客服务信息数据。其中,抽取的旅客服务信息数据的属性主要为旅客基本信息、旅客值机信息、旅客积分信息等。
S2:按照行业经验,对抽取的旅客服务信息数据进行相关预处理,并通过RFC指标的聚类分析,确定旅客价值类别数,并为旅客进行价值标注。
S3:等比例对旅客服务信息数据进行分割。将90%的旅客服务信息数据形成训练集,10%的旅客服务信息数据形成测试集。
S4:同时对训练集与数据集模拟完全随机缺失,形成不完备训练集、不完备测试集。
S5:将不完备训练集与完备训练集放入设计好的基于降噪自编码器的多任务学习网络模型,进行模型训练。
S6:将不完备测试集与测试集放入已训练好的网络模型进行相关性能指标验证。
S7:判断是否重复已训练模型10次,如果为否则回到步骤三继续,如果已训练10次,则计算模型平均性能指标。
作为优选:所述网络模型包括编码器、解码器和分类器,进而组成整体网络模型。对比传统的方法将此问题分开串行处理,先将数据集缺失数据进行填补,再将填补后完整的数据集进行旅客价值等级分类,因没有关注任务之间的相关性,导致当数据集属性维度较多,缺失率较高时,缺失值填补准确度低,从而导致分类准确度较低。本发明以多任务学习为框架,将旅客分等级作为任务一,缺失数据填补作为任务二,利用两个任务之间的相关性,将两个任务在深度学习模型下同时并行建模,从而提高数据处理与分析效率。
一种面向不完备数据系统的民航常旅客价值分类系统,包括:
数据提取模块:从民航常旅客画像服务主数据系统中抽取旅客服务信息数据,所述旅客服务信息数据的属性包括旅客基本信息、旅客值机信息和旅客积分信息;
相关性处理模块:对所述旅客服务信息数据进行相关预处理,并通过RFC指标的聚类分析,确定旅客价值类别数,并为旅客进行价值标注;
分割模块:等比例对旅客服务信息数据进行分割,将90%的旅客服务信息数据形成训练集,10%的旅客服务信息数据形成测试集;
模拟模块:同时对训练集与数据集模拟完全随机缺失,形成不完备训练集、不完备测试集;
训练模块:将不完备训练集与完备训练集放入基于降噪自编码器的多任务学习网络模型,进行模型训练;
验证模块:将不完备测试集与测试集放入已训练好的网络模型进行相关性能指标验证;
判断模块:判断是否重复已训练模型10次,如果判断结果为否,则回到步骤三继续;如果判断结果为是,则计算模型平均性能指标。
一种实现上述优选实施例中面向不完备数据系统的民航常旅客价值分类方法的计算机程序。
一种实现上述优选实施例中面向不完备数据系统的民航常旅客价值分类方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述优选实施例中的面向不完备数据系统的民航常旅客价值分类方法。
网络模型结构介绍:
面向不完备数据系统的民航常旅客流失预测方法,基于多任务学习的降噪自编码器网络模型,架构由三部分组成:编码器、解码器、分类器。编码器与解码器构成堆叠降噪自编码器。输出1层采用sigmoid激活函数,输出经过解码后的样本特征,输出2层采用softmax激活函数输出样本对应各类别的概率值,中间隐藏层采用tanh激活函数。区别于传统自动编码器架构,本申请采用的架构在编码阶段与输入层相比,连续隐藏层中的单元数更多,试图将输入数据映射到更高维子空间,将数据扩充有助于增加数据可分性以及增强数据恢复能力。从初始Xn维输入开始,然后在每个连续的隐藏层,添加a个节点,将维度增加a维。经过一些测试实验,采用a=7能获得稳定较好的结果。在模型输入阶段,将输入数据进行归一化处理,使得数据数值在0和1之间,以加快模型在中小样本量时收敛,同时引入噪声,在输入层随机将输入Xn中的一半分量设置为0,使得网络能提取到更加抽象的特征,增强网络鲁棒性。
表1为模型参数定义:
网络模型训练过程如下所示:
输入:数据集X1,X2,X3……Xi,任务权重系数λ
输出:encoderdecoder Gθ,classifier Hβ
1)初始化网络参数θ,β
2)←对数据集引入随机噪声
3)逐层无监督预训练encoder F、decoder G
4)结合classifier H,入对整体网络进行联合训练,并有监督微调降噪自编码器网络。
Repeat
5)计算对应任务的损失函数:
6)
7)
8)E=λEm+(1-λ)Es
9)通过求联合损失函数E各参数的梯度,更新网络参数θ,β。
10)Until网络参数θ,β收敛。
本申请文件以多任务学习为框架,将旅客分等级作为任务一,缺失数据填补作为任务二,利用两个任务之间的相关性,将两个任务在深度学习模型下同时并行建模,从而提高数据处理与分析效率。提出的多任务深度学习网络模型架构由三部分组成:编码器、解码器、分类器。编码器与解码器构成堆叠降噪自编码器。输出1层采用sigmoid激活函数,输出经过解码后的样本特征,输出2层采用softmax激活函数输出样本对应各类别的概率值,中间隐藏层采用tanh激活函数。区别于传统自动编码器架构,受KernalSVM启发本文采用的架构在编码阶段与输入层相比,连续隐藏层中的单元数更多,试图将输入数据映射到更高维子空间,将数据扩充有助于增加数据可分性以及增强数据恢复能力。从初始Xn维输入开始,然后在每个连续的隐藏层,添加a个节点,将维度增加a维。经过一些测试实验,本文采用a=7能获得稳定较好的结果。在模型输入阶段,将输入数据进行归一化处理,使得数据数值在0和1之间,以加快模型在中小样本量时收敛,同时引入噪声,在输入层随机将输入Xn中的一半分量设置为0,使得网络能提取到更加抽象的特征,增强网络鲁棒性。具体架构见附图1。考虑到现实生产情况下,数据集中的缺失值是事先存在的,用户无法获得干净的完整数据,并且不知道缺失数据的缺失机制以及分布。在数据集固有缺失的情况下,使用完整数据的训练插补模型可能会使学习者产生偏差。因此,在模型启动训练阶段,随机将输入部分分量设置为零,从而模拟完整样本缺失,迫使模型学会在样本损坏情况下恢复到样本原始构造,即学习将缺失值恢复到原值的能力。对于降噪自编码器部分,因为由多个隐藏层构成,因此采用逐层贪婪方式先对编码器和解码器网络进行预训练,最后配合分类器对整个模型参数进行微调。由于在初始化时需要完整的数据,因此在不完整样本输入前,对于缺失的连续变量使用相应的列平均值进行初始填补,对于缺失的分类变量的使用属性中出现最多的值作为初始填补。
为了便于训练网络的缺失值恢复能力和度量网络整体性能,在数据集正式输入网络前,对完整数据集引入缺失机制,构造缺失数据集并对数据集进行如上文所述的相关预处理。整体算法流程附图2所示。
本发明采用由中航信旅客信息服务部提供的某航空公司部分旅客信息服务主数据。,一方面实验设计了不同参数对模型检测效果的影响,另一方面将发明的模型与传统处理方法进行对比。网络参数如下表所示:
表2为网络参数表
以缺失率为10%、40%、60%的数据集为实验数据进行说明,对任务权重系数λ设置以步长0.1从0.1到0.9分别对数据集进行对比实验,以找到最优值。每个模型训练采用十折交叉验证,对于分类预测任务以交叉熵损失Cross-Entropy度量,对于缺失值填补任务以均方根误差RMSE度量,以Cross-Entropy与RMSE之和作为模型整体性能度量标准。实验综合平均结果如附图2所示。
在分类效果对比实验中,将本文提出的模型MLT-DAE与通过降噪自编码器DAE、MIC、KNN、均值填补算法先进行缺失值填充,再进行逻辑回归分类预测进行对比。在本实验中采用准确率和AUC值作为度量分类任务性能指标,采用十折交叉验证获得最终平均结果。如下表所示:
表3为采用十折交叉验证获得最终平均结果表
Accuracy | 10% | 20% | 30% | 40% | 50% | 60% |
MLT-DAE | 97.12 | 93.75 | 88.55 | 80.74 | 70.76 | 63.88 |
DAE+LG | 96.52 | 90.54 | 82.14 | 75.85 | 67.75 | 62.30 |
MIC+LG | 95.32 | 89.11 | 82.12 | 76.13 | 66.20 | 63.26 |
KNN+LG | 94.51 | 85.70 | 78.52 | 72.65 | 65.14 | 60.11 |
MEAN+LG | 89.11 | 80.42 | 75.44 | 66.21 | 62.75 | 52.82 |
AUC | 10% | 20% | 30% | 40% | 50% | 60% |
MLT-DAE | 95.82 | 91.36 | 88.12 | 79.53 | 69.24 | 63.45 |
DAE+LG | 91.31 | 88.45 | 81.87 | 75.28 | 64.23 | 62.52 |
MIC+LG | 92.45 | 85.76 | 82.82 | 76.42 | 62.53 | 63.32 |
KNN+LG | 91.31 | 84.23 | 79.45 | 71.54 | 64.12 | 60.20 |
MEAN+LG | 88.32 | 80.87 | 75.23 | 65.20 | 57.45 | 51.45 |
对于缺失值填补任务,将MLT-DAE模型对不同缺失率下的数据集进行填补,同时与均值填补法、MICE、KNN填补法、降噪自编码器DAE填补法进行对比。采用均方根误差RMSE作为评价指标,为减小随机误差,分别对五种方法重复进行10次实验,得到综合实验结果如下表所示:
表4为综合实验结果表
本发明采用由中航信旅客信息服务部提供的某航空公司部分旅客信息服务主数据,模型利用逐层无监督训练和有监督微调,对缺失数据填补与民航旅客价值分类预测同时进行。相比传统处理方法,该方法有助于提高数据质量和旅客价值分类预测任务准确性。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (7)
1.一种面向不完备数据系统的民航常旅客价值分类方法,其特征在于,包括如下步骤:
S1:从民航常旅客画像服务主数据系统中抽取旅客服务信息数据,所述旅客服务信息数据的属性包括旅客基本信息、旅客值机信息和旅客积分信息;
S2:对所述旅客服务信息数据进行相关预处理,并通过RFC指标的聚类分析,确定旅客价值类别数,并为旅客进行价值标注;
S3:等比例对旅客服务信息数据进行分割,将90%的旅客服务信息数据形成训练集,10%的旅客服务信息数据形成测试集;
S4:同时对训练集与数据集模拟完全随机缺失,形成不完备训练集、不完备测试集;
S5:将不完备训练集与完备训练集放入基于降噪自编码器的多任务学习网络模型,进行模型训练;
S6:将不完备测试集与测试集放入已训练好的网络模型进行相关性能指标验证;
S7:判断是否重复已训练模型10次,如果判断结果为否,则回到步骤三继续;如果判断结果为是,则计算模型平均性能指标。
2.根据权利要求1所述的面向不完备数据系统的民航常旅客价值分类方法,其特征在于:所述网络模型包括编码器、解码器和分类器,进而组成整体网络模型。
3.一种面向不完备数据系统的民航常旅客价值分类系统,其特征在于,包括:
数据提取模块:从民航常旅客画像服务主数据系统中抽取旅客服务信息数据,所述旅客服务信息数据的属性包括旅客基本信息、旅客值机信息和旅客积分信息;
相关性处理模块:对所述旅客服务信息数据进行相关预处理,并通过RFC指标的聚类分析,确定旅客价值类别数,并为旅客进行价值标注;
分割模块:等比例对旅客服务信息数据进行分割,将90%的旅客服务信息数据形成训练集,10%的旅客服务信息数据形成测试集;
模拟模块:同时对训练集与数据集模拟完全随机缺失,形成不完备训练集、不完备测试集;
训练模块:将不完备训练集与完备训练集放入基于降噪自编码器的多任务学习网络模型,进行模型训练;
验证模块:将不完备测试集与测试集放入已训练好的网络模型进行相关性能指标验证;
判断模块:判断是否重复已训练模型10次,如果判断结果为否,则回到步骤三继续;如果判断结果为是,则计算模型平均性能指标。
4.根据权利要求3所述的面向不完备数据系统的民航常旅客价值分类系统,其特征在于:所述网络模型包括编码器、解码器和分类器,进而组成整体网络模型。
5.一种实现权利要求1所述面向不完备数据系统的民航常旅客价值分类方法的计算机程序。
6.一种实现权利要求1所述面向不完备数据系统的民航常旅客价值分类方法的信息数据处理终端。
7.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的面向不完备数据系统的民航常旅客价值分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675490.8A CN110378744A (zh) | 2019-07-25 | 2019-07-25 | 面向不完备数据系统的民航常旅客价值分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910675490.8A CN110378744A (zh) | 2019-07-25 | 2019-07-25 | 面向不完备数据系统的民航常旅客价值分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110378744A true CN110378744A (zh) | 2019-10-25 |
Family
ID=68255785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910675490.8A Pending CN110378744A (zh) | 2019-07-25 | 2019-07-25 | 面向不完备数据系统的民航常旅客价值分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378744A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553816A (zh) * | 2020-04-20 | 2020-08-18 | 北京北大软件工程股份有限公司 | 行政复议影响因素分析方法及装置 |
CN111694830A (zh) * | 2020-06-12 | 2020-09-22 | 复旦大学 | 基于深度集成学习的缺失数据补全方法 |
CN112215451A (zh) * | 2020-07-21 | 2021-01-12 | 中国人民公安大学 | 一种基于民航旅客分级分类的差异化安检方法及系统 |
CN112562656A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 一种信号分类方法、装置、设备及存储介质 |
CN112700795A (zh) * | 2020-12-15 | 2021-04-23 | 深圳市声希科技有限公司 | 口语发音质量评价方法、装置、设备及存储介质 |
CN117076651A (zh) * | 2023-10-16 | 2023-11-17 | 彩讯科技股份有限公司 | 交互信息的处理方法、装置、设备和计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN107729942A (zh) * | 2017-10-23 | 2018-02-23 | 西南交通大学 | 一种结构化视图缺失数据的分类方法 |
CN107729943A (zh) * | 2017-10-23 | 2018-02-23 | 辽宁大学 | 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用 |
CN108417029A (zh) * | 2018-02-11 | 2018-08-17 | 东南大学 | 基于自适应多任务深度学习的城市路网行程时间估计方法 |
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN108985330A (zh) * | 2018-06-13 | 2018-12-11 | 华中科技大学 | 一种自编码网络及其训练方法、异常用电检测方法和系统 |
CN109522372A (zh) * | 2018-11-21 | 2019-03-26 | 北京交通大学 | 民航领域旅客价值的预测方法 |
-
2019
- 2019-07-25 CN CN201910675490.8A patent/CN110378744A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260356A (zh) * | 2015-10-10 | 2016-01-20 | 西安交通大学 | 基于多任务学习的中文交互文本情感与话题识别方法 |
CN107729942A (zh) * | 2017-10-23 | 2018-02-23 | 西南交通大学 | 一种结构化视图缺失数据的分类方法 |
CN107729943A (zh) * | 2017-10-23 | 2018-02-23 | 辽宁大学 | 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用 |
CN108417029A (zh) * | 2018-02-11 | 2018-08-17 | 东南大学 | 基于自适应多任务深度学习的城市路网行程时间估计方法 |
CN108875818A (zh) * | 2018-06-06 | 2018-11-23 | 西安交通大学 | 基于变分自编码机与对抗网络结合的零样本图像分类方法 |
CN108985330A (zh) * | 2018-06-13 | 2018-12-11 | 华中科技大学 | 一种自编码网络及其训练方法、异常用电检测方法和系统 |
CN109522372A (zh) * | 2018-11-21 | 2019-03-26 | 北京交通大学 | 民航领域旅客价值的预测方法 |
Non-Patent Citations (3)
Title |
---|
张成刚等: "一种改进的降噪自编码神经网络不平衡数据分类算法", 《计算机应用研究》 * |
郑奇斌等: "结合缺失模式的不完整数据模糊聚类", 《计算机科学》 * |
郑树泉等: "《工业智能技术与应用》", 31 January 2019 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553816A (zh) * | 2020-04-20 | 2020-08-18 | 北京北大软件工程股份有限公司 | 行政复议影响因素分析方法及装置 |
CN111553816B (zh) * | 2020-04-20 | 2023-11-03 | 北京北大软件工程股份有限公司 | 行政复议影响因素分析方法及装置 |
CN111694830A (zh) * | 2020-06-12 | 2020-09-22 | 复旦大学 | 基于深度集成学习的缺失数据补全方法 |
CN112215451A (zh) * | 2020-07-21 | 2021-01-12 | 中国人民公安大学 | 一种基于民航旅客分级分类的差异化安检方法及系统 |
CN112700795A (zh) * | 2020-12-15 | 2021-04-23 | 深圳市声希科技有限公司 | 口语发音质量评价方法、装置、设备及存储介质 |
CN112562656A (zh) * | 2020-12-16 | 2021-03-26 | 咪咕文化科技有限公司 | 一种信号分类方法、装置、设备及存储介质 |
CN117076651A (zh) * | 2023-10-16 | 2023-11-17 | 彩讯科技股份有限公司 | 交互信息的处理方法、装置、设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378744A (zh) | 面向不完备数据系统的民航常旅客价值分类方法及系统 | |
CN111476263B (zh) | 一种基于sdae和改进gwo-svm的轴承缺陷识别方法 | |
EP3467723B1 (en) | Machine learning based network model construction method and apparatus | |
CN105975573A (zh) | 一种基于knn的文本分类方法 | |
US20220122103A1 (en) | Customized product performance prediction method based on heterogeneous data difference compensation fusion | |
CN107515898A (zh) | 基于数据多样性和任务多样性的轮胎企业销售预测方法 | |
CN102879677A (zh) | 基于粗糙贝叶斯网络分类器的智能故障诊断方法 | |
CN111709244B (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN108537259A (zh) | 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法 | |
CN112967088A (zh) | 基于知识蒸馏的营销活动预测模型结构和预测方法 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN104598920A (zh) | 基于Gist特征与极限学习机的场景分类方法 | |
CN105868796A (zh) | 基于核空间的线性鉴别稀疏表示分类器的设计方法 | |
CN111310068A (zh) | 基于动态图的社交网络节点分类方法 | |
CN103795592A (zh) | 网络水军的检测方法及装置 | |
CN109977131A (zh) | 一种房型匹配系统 | |
CN114626886A (zh) | 一种调查问卷数据分析方法及系统 | |
CN110830291A (zh) | 一种基于元路径的异质信息网络的节点分类方法 | |
CN112529415B (zh) | 基于组合多感受野图神经网络的物品评分方法 | |
Ikematsu et al. | A fast method for detecting communities from tripartite networks | |
CN102521202B (zh) | 面向复杂系统中的maxq任务图结构的自动发现方法 | |
CN114265954B (zh) | 基于位置与结构信息的图表示学习方法 | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
CN114862514A (zh) | 一种基于元学习的用户偏好商品推荐方法 | |
CN110196912B (zh) | 一种基于信任规则网络的电网档案平行模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |
|
RJ01 | Rejection of invention patent application after publication |