CN105654118A - 民航旅客关系分类方法 - Google Patents

民航旅客关系分类方法 Download PDF

Info

Publication number
CN105654118A
CN105654118A CN201510994045.XA CN201510994045A CN105654118A CN 105654118 A CN105654118 A CN 105654118A CN 201510994045 A CN201510994045 A CN 201510994045A CN 105654118 A CN105654118 A CN 105654118A
Authority
CN
China
Prior art keywords
passenger
relation
sampled data
classification
civil aviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510994045.XA
Other languages
English (en)
Inventor
周元炜
祁堃
贾旭光
隋华懿
蔡亚男
杨程屹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
China Travelsky Holding Co
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN201510994045.XA priority Critical patent/CN105654118A/zh
Publication of CN105654118A publication Critical patent/CN105654118A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种民航旅客关系分类方法,包括:步骤1:采集旅客的样本数据;步骤2:对样本数据进行特征选择和构造;步骤3:对样本数据进行基于规则的预分类,得到的样本之间的旅客关系;步骤4:对无法进行预分类的样本数据进行BP神经网络分类,得到的样本之间的旅客关系;步骤5:对步骤3和步骤4得到的样本之间的旅客关系进行修正。本发明方法通过对旅客样本进行预分类和BP神经网络分类,实现了在海量民航旅客网络数据中,正确识别旅客的关系属性,提高了民航运营效率和质量。

Description

民航旅客关系分类方法
技术领域
本发明涉及了一种适用于民航行业的旅客关系的分类方法,用于对旅客网络关系是否为亲友或商务关系进行判别和分类。
背景技术
民航旅客通过共同订票、共同值机、共同乘坐飞机等一些在共同旅行过程中的共同行为确立了一种社会关系,这其中有以家庭、亲属、朋友身份旅行的亲友关系,也有以同事,商业伙伴身份旅行的商务关系,两种关系有着不同的旅行特征。在现有数据来源背景下,暂时没有特定环节会记录旅客为何种关系。在海量民航旅客网络数据中,如果能正确的识别旅客的关系属性,可以更好的提高旅客全流程的服务质量,增强旅客服务体验和满意度。
发明内容
有鉴于此,本发明提出的一种民航旅客关系分类方法,通过对旅客样本进行预分类和BP神经网络分类,实现了在海量民航旅客网络数据中,正确识别旅客的关系属性,提高了民航运营效率和质量。
本发明提出的一种民航旅客关系分类方法,包括:
步骤1:采集旅客的样本数据;
步骤2:对样本数据进行特征选择和构造;
步骤3:对样本数据进行基于规则的预分类,得到的样本之间的旅客关系;
步骤4:对无法进行预分类的样本数据进行BP神经网络分类,得到的样本之间的旅客关系;
步骤5:对步骤3和步骤4得到的样本之间的旅客关系进行修正。
所述民航旅客关系包括亲友关系和商务关系。
根据分类目标,从样本数据的特征集合中筛选相应的特征实现对样本数据的特征选择,得到样本数据的基本特征。
根据样本数据的基本特征,构造样本数据的统计特征,实现对样本数据特征的构造。
所述对样本数据进行基于规则的预分类,是指基于社会常识的规则集,根据样本数据的统计特征,标定样本之间的旅客关系。
所述对无法进行预分类的样本数据进行BP神经网络分类,包括:
根据已知旅客关系的样本数据进行训练学习,得到BP神经网络分类模型;
对无法进行预分类的样本数据采用得到的BP神经网络分类模型进行分类,得到样本之间的旅客关系。
所述已知旅客关系的样本数据是通过预分类后已标定旅客关系的样本数据。
根据旅客网络层面信息和图分类方法对步骤3和步骤4得到的样本之间的旅客关系进行修正。
附图说明
为了更清楚地说明本发明实施例或现有技术中的方案,下面将对实施例中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例给出的民航旅客关系分类方法的流程示意图;
图2为本发明中旅客关系分类器图;
图3为本发明一实施例给出的民航旅客关系分类方法中基于规则的预分类的流程示意图;
图4为本发明一实施例给出的民航旅客关系分类方法中基于BP神经网络分类的流程示意图;
图5为本发明一实施例给出的民航旅客关系分类方法中对样本之间的旅客关系进行修正的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
设计样本关系数据采集方案,获得具有一定规模且具备代表性的旅客关系样本集,根据分类方法、分类目标以及现有旅客关系属性集对分类问题建模,并以此为依据准备样本数据。在准备好具有一定合理分布的旅客关系样本集后,根据不同的分类方案对样本数据进行处理。同时,需要再次从旅客关系数据中获得样本数据中旅客关系的邻接关系集合,将加工完成后的样本数据作为关系分类算法的输入,通过不断地验证迭代和参数调优,最终得到一个在样本集上效果较好的关系分类器。
基于上述逻辑模型,如图1所示,本发明提出的民航旅客关系分类方法由以下步骤构成:
(1)样本数据采集
√亲友关系样本数据采集:
采用旅客里程数受让记录数据来获取亲友关系样本数据。所谓里程数受让记录是指,航空公司允许某些满足要求的旅客可以将自己的乘行里程数对其他不多于8个人进行受让。产生里程数受让行为的旅客间关系主要是亲友关系。
√商务关系样本数据采集:
采用航空公司大客户数据来获取商务关系样本数据。大客户号是航空公司对集团客户的营销时的特定销售代码,使用相同的大客户号的旅客为同一机构里的员工,这些员工之间的关系主要是商务关系。
(2)特征选择与构造
在采集得到关系样本数据后,根据分类问题的要求,需要进行样本的特征(属性)选择或构造适当的特征集,并形成特定分类的输入数据,为关系分类器提供训练学习数据。
特征选择也称为属性选择,在分类问题中,样本具有许多维度的特征属性,但不是所有属性都对分类目标具有积极作用,反之,可能有些属性对分类目标会产生消极作用,不能分明地体现样本的特点,从而不能区分出样本的类别,所以就需要从众多的样本属性中选择一些合理的属性作为训练器的输入。
另一方面,现有许多基本特征(如年龄、性别差异等)仍不够体现旅客关系行为特征,需要根据网络和旅客历史的行为数据构造一些额外的有积极作用的特征,提高关系分类的准确性。
√特征选择
从年龄、性别、住址、常出发与达到地、出行时间、出行次数、消费额度、里程数、值机序号、座位信息等基本特征中进行特征选择,找到对关系分类有积极作用的基本特征。
√特征构造
在基本特征的基础上,构造基于旅客社会网络的统计特征,如关系强度(如同行次数)、关系两端旅客在网络中的共同相邻节点信息(如共同相邻节点个数、共同相邻节点平均年龄等)、关系两端旅客在出行行为数据上的差异(如旅客历史出行座位差均值等),用于提升关系分类器的准确率。
(3)旅客关系分类器的实现
如图2所示,分类器的处理流程如下:
√基于规则的预分类
在进行旅客关系分类时,根据一些社会常识性的规则就能快速有效地判定某些旅客间的关系。如对于亲友关系分类问题,若成年旅客携带有一定年龄差距的未成年旅客一同乘机,他们之间很可能是亲属关系等。对于商务关系分类问题,若旅客关系在短期且频繁的在某一特定航线上旅行,他们之间很可能是商务关系等。
本发明方法尝试设计一组基于社会常识的规则集,用于旅客关系的预分类,构建基于规则的预分类器,在进行正式分类之前预先将一些较容易判别的旅客关系进行标定。通过预分类一方面可以减小分类范围,另一方面可以为后续的分类阶段提供先验信息,如图3所示。
√基于传统机器学习分类
在旅客关系分类问题中,对于许多旅客关系无法根据社会常识规则直观有效地判断其关系类别,则采用传统机器学习的分类方法挖掘各样本属性间的潜在关系,根据样本进行训练学习得到有效的分类模型,在预分类的处理结果基础之上做进一步的分类。
分别采用4种常用分类方法:贝叶斯分类器、决策树、神经网络、支持向量机,结合分类模式要求进行多轮迭代对比实验和效果分析,如图4所示,选定BP神经网络为本方法的传统机器学习分类器。
√基于旅客关系网络的分类
旅客关系所处的网络环境数据会对旅客关系分类问题具有影响作用,在传统分类器的基础上结合更多旅客网络层面的信息以及图分类方法的思想,实现基于旅客关系网络的分类。
如图5所示,当旅客A和旅客B、旅客A和旅客C、旅客B和旅客C三条旅客关系,在经过BP神经网络分类器分类后得到结果为旅客A和旅客B亲友关系可能性为99%,旅客A和旅客C亲友关系可能性为99%,旅客B和旅客C亲友关系可能性为1%,考虑到这三个旅客的网络关系,旅客B和旅客C亲友关系可能性会被修正为99%。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种民航旅客关系分类方法,其特征在于,所述方法包括:
步骤1:采集旅客的样本数据;
步骤2:对样本数据进行特征选择和构造;
步骤3:对样本数据进行基于规则的预分类,得到的样本之间的旅客关系;
步骤4:对无法进行预分类的样本数据进行BP神经网络分类,得到的样本之间的旅客关系;
步骤5:对步骤3和步骤4得到的样本之间的旅客关系进行修正。
2.根据权利要求1所述的一种民航旅客关系分类方法,其特征在于,所述民航旅客关系包括亲友关系和商务关系。
3.根据权利要求2所述的一种民航旅客关系分类方法,其特征在于,根据分类目标,从样本数据的特征集合中筛选相应的特征实现对样本数据的特征选择,得到样本数据的基本特征。
4.根据权利要求3所述的一种民航旅客关系分类方法,其特征在于,根据样本数据的基本特征,构造样本数据的统计特征,实现对样本数据特征的构造。
5.根据权利要求4所述的一种民航旅客关系分类方法,其特征在于,所述对样本数据进行基于规则的预分类,是指基于社会常识的规则集,根据样本数据的统计特征,标定样本之间的旅客关系。
6.根据权利要求5所述的一种民航旅客关系分类方法,其特征在于,所述对无法进行预分类的样本数据进行BP神经网络分类,包括:
根据已知旅客关系的样本数据进行训练学习,得到BP神经网络分类模型;
对无法进行预分类的样本数据采用得到的BP神经网络分类模型进行分类,得到样本之间的旅客关系。
7.根据权利要求6所述的一种民航旅客关系分类方法,其特征在于,所述已知旅客关系的样本数据是通过预分类后已标定旅客关系的样本数据。
8.根据权利要求6或7所述的一种民航旅客关系分类方法,其特征在于,根据旅客网络层面信息和图分类方法对步骤3和步骤4得到的样本之间的旅客关系进行修正。
CN201510994045.XA 2015-12-25 2015-12-25 民航旅客关系分类方法 Pending CN105654118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510994045.XA CN105654118A (zh) 2015-12-25 2015-12-25 民航旅客关系分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510994045.XA CN105654118A (zh) 2015-12-25 2015-12-25 民航旅客关系分类方法

Publications (1)

Publication Number Publication Date
CN105654118A true CN105654118A (zh) 2016-06-08

Family

ID=56476867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510994045.XA Pending CN105654118A (zh) 2015-12-25 2015-12-25 民航旅客关系分类方法

Country Status (1)

Country Link
CN (1) CN105654118A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777303A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 旅客航班查询行为分类方法及系统
CN106874951A (zh) * 2017-02-14 2017-06-20 Tcl集团股份有限公司 一种旅客关注度评级方法及装置
CN108009287A (zh) * 2017-12-25 2018-05-08 北京中关村科金技术有限公司 一种基于对话系统的回答数据生成方法以及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455578A (zh) * 2013-08-23 2013-12-18 华南师范大学 一种基于关联规则和双聚类的航空客户数据挖掘方法
CN104021189A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 一种民航旅客网络生成方法
US20140279760A1 (en) * 2013-03-15 2014-09-18 Konstantinos (Constantin) F. Aliferis Data Analysis Computer System and Method For Conversion Of Predictive Models To Equivalent Ones

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279760A1 (en) * 2013-03-15 2014-09-18 Konstantinos (Constantin) F. Aliferis Data Analysis Computer System and Method For Conversion Of Predictive Models To Equivalent Ones
CN103455578A (zh) * 2013-08-23 2013-12-18 华南师范大学 一种基于关联规则和双聚类的航空客户数据挖掘方法
CN104021189A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 一种民航旅客网络生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周元炜: "民航社会网络关系分类算法设计与实现", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777303A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 旅客航班查询行为分类方法及系统
CN106777303B (zh) * 2016-12-30 2020-11-06 中国民航信息网络股份有限公司 旅客航班查询行为分类方法及系统
CN106874951A (zh) * 2017-02-14 2017-06-20 Tcl集团股份有限公司 一种旅客关注度评级方法及装置
CN106874951B (zh) * 2017-02-14 2020-12-25 Tcl科技集团股份有限公司 一种旅客关注度评级方法及装置
CN108009287A (zh) * 2017-12-25 2018-05-08 北京中关村科金技术有限公司 一种基于对话系统的回答数据生成方法以及相关装置

Similar Documents

Publication Publication Date Title
CN105938558B (zh) 学习方法
CN110598800A (zh) 一种基于人工智能的垃圾分类识别方法
CN110209764A (zh) 语料标注集的生成方法及装置、电子设备、存储介质
Shaleena et al. Data mining techniques for predicting student performance
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
Low et al. Commercial vehicle activity prediction with imbalanced class distribution using a hybrid sampling and gradient boosting approach
CN109635852B (zh) 一种基于多维属性的用户画像构建与聚类方法
CN107577702B (zh) 一种社交媒体中交通信息的辨别方法
CN104142960A (zh) 互联网数据分析系统
CN110458214B (zh) 驾驶员更换识别方法和装置
CN105488597A (zh) 旅客目的地预测方法及系统
CN105654118A (zh) 民航旅客关系分类方法
CN111461489A (zh) 路线生成方法、装置、电子设备及可读存储介质
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
CN106933883A (zh) 基于检索日志的兴趣点常用检索词分类方法、装置
CN116257681B (zh) 一种基于画像技术的民用航空事件调查员推荐方法
CN111859181A (zh) 跨区域的出行推荐方法、装置、电子设备及存储介质
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
CN114022269A (zh) 一种公共信用领域企业信用风险评估方法
Zaarour Financial statements earnings manipulation detection using a layer of machine learning
CN104361015A (zh) 一种邮件分类识别方法
CN108090040A (zh) 一种文本信息分类方法及系统
CN116564551B (zh) 一种数据-知识驱动的城市轨道交通风险辨识方法
CN116702026A (zh) 一种基于微博数据的公交服务负面情绪原因辨识方法
CN111241162A (zh) 高速铁路成网条件下旅客出行行为分析方法及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160608

WD01 Invention patent application deemed withdrawn after publication