CN106777303B - 旅客航班查询行为分类方法及系统 - Google Patents

旅客航班查询行为分类方法及系统 Download PDF

Info

Publication number
CN106777303B
CN106777303B CN201611260682.5A CN201611260682A CN106777303B CN 106777303 B CN106777303 B CN 106777303B CN 201611260682 A CN201611260682 A CN 201611260682A CN 106777303 B CN106777303 B CN 106777303B
Authority
CN
China
Prior art keywords
query
samples
sample
index
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611260682.5A
Other languages
English (en)
Other versions
CN106777303A (zh
Inventor
周元炜
王硕
吴丽娜
贾旭光
曹迎军
隋华懿
祁堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Holding Co
Original Assignee
China Travelsky Holding Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Holding Co filed Critical China Travelsky Holding Co
Priority to CN201611260682.5A priority Critical patent/CN106777303B/zh
Publication of CN106777303A publication Critical patent/CN106777303A/zh
Application granted granted Critical
Publication of CN106777303B publication Critical patent/CN106777303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种旅客航班查询行为分类方法,所述方法包括:获取旅客对航班进行查询产生的查询数据;基于不同维度下的预设指标对所述查询数据进行解析处理;得到分类结果数据并保存。本发明还公开了一种旅客航班查询行为分类系统,以更加有效快速对民航业全市场的旅客航班查询行为进行分类。

Description

旅客航班查询行为分类方法及系统
技术领域
本发明涉及民用航空技术领域,尤其涉及一种旅客航班查询行为分类方法及系统。
背景技术
旅客航班需求量是影响航空公司进行收益管理,尤其是O&D管理的重要依据之一,而旅客航班查询量恰恰能最直接的反映旅客对某一个航班的需求变化,因此,旅客航班查询量对航空公司的收益管理至关重要。由于民航业的行业特殊性,目前航班查询的主体主要分为三大类:人、机器及混合查询。不同的查询主体对一个航班的需求量的影响作用有所差别,因此,在考察旅客航班需求量时,应对查询主体进行分类,找出对航空公司收益管理真正有效地查询行为,能够更加准确为航空公司的收益管理带来更有价值的参考作用。
由于业务知识及技术手段的缺乏,现有的技术只能对旅客航班查询中的机器查询行为及人为查询行为进行识别,对于混合查询这个复杂行为的辨别还存在不足,并且,目前缺少对民航业全市场旅客航班查询行为进行分类的技术及案例。
基于旅客航班查询行为分类的现状,本发明提出构建了一套民航旅客查询行为建模方法,以更加有效快速的民航业全市场的旅客航班查询行为进行分类。本发明选取各查询渠道中所有航班的查询数据,数据来源更加全面、真实,得到的结果更有实际参考价值。数据经过模型计算能够快速准确的输出分类结果,对于复杂的查询结果数据也能够有效的进行识别。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种旅客航班查询行为分类方法及系统。
为达到上述目的,本发明实施例的技术方案是这样实现的:
一种旅客航班查询行为分类方法,所述方法包括:
获取旅客对航班进行查询产生的查询数据;
基于不同维度下的预设指标对所述查询数据进行解析处理;
得到分类结果数据并保存。
其中,所述不同维度下的预设指标包括如下的任意一种或多种:
综合离散度指标:表示一个渠道的查询行为在出发地和到达地O&D、起飞日期flightDate的空间中分布的均匀程度;
三维离群度指标:表示一个渠道在特定时间对特定O&D的查询量与整体样本平均查询量的差异程度;
行为模式指标:表示查询行为模式与标准正常人查询行为模式的相似程度;
起飞日期离散度指标:表示特定渠道对特定O&D查询量在起飞日期上的分布均匀程度;
产品离散度指标:表示特定Office的查询量在查询产品上的分布均匀程度。
其中,所述综合离散度指标通过如下表达式得到:
Figure GDA0002541874160000021
其中,count(distinct o&d,flightDate)表示不同<O&D,航班日期>对的个数,count(distinct o&d)表示不同O&D个数,count(distinct flightDate)表示不同航班日期个数,count(*)表示查询总量。
其中,所述三维离群度指标通过如下表达式得到:
Figure GDA0002541874160000022
其中,Ci,j,k为第i个渠道、在第j小时、对第k个O&D的查询次数,N表示所有查询产品的总数。
其中,所述行为模式指标通过如下表达式得到:
Figure GDA0002541874160000031
其中,standardCurvei:i=1,2,……24表示标准作息曲线,standardCurvei表示所有正常人行为样本第i小时查询量之和;behaviorCurvei:i=1,2,……,24表示样本曲线,表示过去24小时中每小时查询量。
其中,所述起飞日期离散度指标通过如下表达式得到:
Figure GDA0002541874160000032
其中,
Figure GDA0002541874160000033
Ci=count(flightDate=i);μ表示每个起飞日期的查询量平均值;Ci表示第i个起飞日期的查询量总数;Max(flightDate)表示最大航班日期,Min(flightDate)表示最小航班日期,count(*)表示查询总量,count(flightDate=i)表示航班日期为i时的查询总量。
其中,所述产品离散度指标由如下表达式得到:
Figure GDA0002541874160000034
其中,
Figure GDA0002541874160000035
Ci=count(product=i);N表示所有查询产品的总数;μ表示每个查询产品上的查询量平均值;Ci表示第i个查询产品的查询量总数;count(*)表示所有查询产品的查询总量,count(product=i)表示第i个查询产品的查询量。
其中,所述旅客对航班进行查询产生的查询数据包括:查询渠道、航班起飞日期、出发地、目的地、用户查询时间;
所述分类结果数据包括:查询渠道来源、查询渠道、出发地、目的地、起飞日期、查询量、类别标签、查询小时、查询日期、查询分钟;所述分类结果数据存储到Hive表outPutTableName_classify中。
其中,所述获取旅客对航班进行查询产生的查询数据,包括:
从AVE系统的日志中获取新产生的用户查询数据,将获取的数据解析后存储于HDFS,对解析后的数据按要求进行预处理后存储到Hive表的outputTableName_IBE和outputTableName_mcss中。
其中,对于自助查询,所述基于不同维度下的预设指标对所述查询数据进行解析处理包括:
(1)从查询数据中抽取部分数据作为查询样本集,将所有查询样本集按渠道查询量进行判别,小于IBE查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于IBE查询量判别阈值的查询样本进行综合离散度判别,大于综合离散度判别阈值的查询样本执行步骤(3),小于综合离散度判别阈值的查询样本执行步骤(5);
(3)对大于综合离散度判别阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本执行步骤(4);
(4)对大于产品离散度指标判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotB类,大于起飞日期离散度指标判别阈值的查询样本归为MixB类;
(5)对于小于综合离散度判别阈值的查询样本进行三维离群度判别,如果样本为负值部分,则将该部分样本归为InactiveB类。如果样本为正常,则该部分样本执行步骤(6);如果样本为正值部分,则该部分样本执行步骤(7);
(6)对于三维离群度判别后的正常部分的样本进行行为模式判别,大于behaviorTh阈值的查询样本归为NormalA类,小于行为模式判别阈值的查询样本归为MixA类;
(7)对于三维离群度判别后的正值部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalB类,小于行为模式判别阈值的查询样本执行步骤(8);
(8)对小于行为模式判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotA类,大于起飞日期离散度指标判别阈值的查询样本归为MixA类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在该O&D上属于不活跃行为;NormalA表示当前渠道在该O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前该O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
其中,对于代理查询,所述基于不同维度下的预设指标对所述查询数据进行解析处理包括:
(1)所有查询样本按Office查询量进行判别,小于mcss查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于mcss查询量判别阈值的查询样本进行综合离散度判别,大于综合离散度判别阈值的查询样本执行步骤(3),小于综合离散度判别阈值的查询样本执行步骤(4);
(3)对大于综合离散度判别阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本归为RobotA类;
(4)对于小于综合离散度判别阈值的查询样本进行三维离群度判别,如果样本为负值部分,则将该部分样本归为InactiveB类;如果样本为正常,则该部分样本执行步骤(5);如果样本为正值部分,则该部分样本执行步骤(6);
(5)对于三维离群度判别后的正常部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalA类,小于行为模式判别阈值的查询样本归为MixA类;
(6)对于三维离群度判别后的正值部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalB类,小于行为模式判别阈值的查询样本归为MixB类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在该O&D上属于不活跃行为;NormalA表示当前渠道在该O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前该O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
其中,所述系统包括:获取模块、解析处理模块和结果模块,其中:
获取模块,用于获取旅客对航班进行查询产生的查询数据;
解析处理模块,用于基于不同维度下的预设指标对所述获取模块获取的查询数据进行解析处理;
结果模块,用于得到分类结果数据并保存。
其中,所述不同维度下的预设指标包括如下的任意一种或多种:
综合离散度指标:表示一个渠道的查询行为在出发地和到达地O&D、起飞日期flightDate的空间中分布的均匀程度;
三维离群度指标:表示一个渠道在特定时间对特定O&D的查询量与整体样本平均查询量的差异程度;
行为模式指标:表示查询行为模式与标准正常人查询行为模式的相似程度;
起飞日期离散度指标:表示特定渠道对特定O&D查询量在起飞日期上的分布均匀程度;
产品离散度指标:表示特定Office的查询量在查询产品上的分布均匀程度;
其中,所述旅客对航班进行查询产生的查询数据包括:查询渠道、航班起飞日期、出发地、目的地、用户查询时间。
其中,所述分类结果数据包括:查询渠道来源、查询渠道、出发地、目的地、起飞日期、查询量、类别标签、查询小时、查询日期、查询分钟;
所述结果模块用于将分类结果数据存储到Hive表outPutTableName_classify中。
其中,所述获取模块,用于旅客对航班进行查询产生的查询数据,包括:
从AVE系统的日志中获取新产生的用户查询数据,将获取的数据解析后存储于HDFS,对解析后的数据按要求进行预处理后存储到Hive表的outputTableName_IBE和outputTableName_mcss中。
其中,所述解析处理模块,用于:对于自助查询进行如下处理:
(1)从查询数据中抽取部分数据作为查询样本集,将所有查询样本按渠道查询量进行判别,小于IBE查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于IBE查询量判别阈值的查询样本进行综合离散度判别,大于综合离散度判别阈值的查询样本执行步骤(3),小于综合离散度判别阈值的查询样本执行步骤(5);
(3)对大于综合离散度判别阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本执行步骤(4);
(4)对大于产品离散度指标判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotB类,大于起飞日期离散度指标判别阈值的查询样本归为MixB类;
(5)对于小于综合离散度判别阈值的查询样本进行三维离群度判别,如果样本为负值部分,则将该部分样本归为InactiveB类。如果样本为正常,则该部分样本执行步骤(6);如果样本为正值部分,则该部分样本执行步骤(7);
(6)对于三维离群度判别后的正常部分的样本进行行为模式判别,大于behaviorTh阈值的查询样本归为NormalA类,小于行为模式判别阈值的查询样本归为MixA类;
(7)对于三维离群度判别后的正值部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalB类,小于行为模式判别阈值的查询样本执行步骤(8);
(8)对小于行为模式判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotA类,大于起飞日期离散度指标判别阈值的查询样本归为MixA类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在该O&D上属于不活跃行为;NormalA表示当前渠道在该O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前该O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
其中,所述解析处理模块,用于:对于代理查询进行如下处理:
(1)所有查询样本按Office查询量进行判别,小于mcss查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于mcss查询量判别阈值的查询样本进行综合离散度判别,大于综合离散度判别阈值的查询样本执行步骤(3),小于综合离散度判别阈值的查询样本执行步骤(4);
(3)对大于综合离散度判别阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本归为RobotA类;
(4)对于小于综合离散度判别阈值的查询样本进行三维离群度判别,如果样本为负值部分,则将该部分样本归为InactiveB类;如果样本为正常,则该部分样本执行步骤(5);如果样本为正值部分,则该部分样本执行步骤(6);
(5)对于三维离群度判别后的正常部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalA类,小于行为模式判别阈值的查询样本归为MixA类;
(6)对于三维离群度判别后的正值部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalB类,小于行为模式判别阈值的查询样本归为MixB类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在该O&D上属于不活跃行为;NormalA表示当前渠道在该O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前该O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
本发明实施例提出了一种旅客查询行为分类方法及系统,以更加有效快速对民航业全市场的旅客航班查询行为进行分类。本发明实施例选取各查询渠道中所有航班的查询数据,数据来源更加全面、真实,得到的结果更有实际参考价值,通过对查询数据进行处理能够快速准确的得到分类结果,对于复杂的查询结果数据也能够有效的进行识别。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。具有不同字母后缀的相似附图标记可表示相似部件的不同示例。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本发明中旅客航班查询行为分类方法的总体流程图;
图2为本发明实施例对自助查询行为的分类流程示意图;
图3为本发明实施例对代理查询行为的分类流程示意图。
具体实施方式
本发明实施例基于民航业全市场的旅客航班查询行为,提供一种更加准确有效的分类方法及系统,以对不同查询群体进行识别及划分。
本发明实施例中涉及的一些民航领域术语及其定义如下:
1)O&D:指的是查询航线的出发地和到达地,O表示出发地,D表示到达地。
2)flightDate:指的是查询航线的起飞日期。
3)产品集:指查询航线在某个起飞日期、从某个出发地到某个到达地的产品集合,即(O&D&flightDate)。
4)AV请求:来自外部的查询请求,请求目的是查询未来某个O&D在某个起飞日期起飞的所有航班的剩余座位信息。
5)渠道:指旅客通过什么方式进行航班查询,目前从民航业务上来说,区分为两种:自助查询和代理查询,其不同渠道对于旅客查询行为有很大的区别。
6)IBE/MCSS:接收AV请求的两种系统类型,其中IBE主要接收来自互联网的AV请求(即自助查询),MCSS主要接收来自Eterm系统的AV请求(即代理查询)。
7)Office/Pid:经授权的可以提交AV请求的渠道,一般每个地区分配了多个Office,每个Office之下分配多个Pid。IBE由于Pid每次都由系统随机分配,因此并无实际意义。
本发明实施例的数据来源如下:从航信的航班查询(Avaliable)系统的日志中获取每10分钟新产生的用户查询数据,将获取的数据解析后存储于分布式文件系统(HDFS,Hadoop Distributed File System),其内容需要包括如查询渠道、航班起飞日期、出发地,目的地、用户查询时间等,对解析后的数据按要求进行预处理后存储到分布式数据仓库(Hive)表的outputTableName_IBE和outputTableName_mcss中,这两个表存储的数据即为本发明实施例进行分类处理的基础数据。具体数据信息如表1所示:
Figure GDA0002541874160000111
表1
本发明实施例分类处理后的得到结果数据如下:在HDFS、Hive+Spark环境下对基础数据进行分类建模,最后将分类结果数据存储到Hive表outPutTableName_classify中,具体数据信息如表2所示:
Figure GDA0002541874160000112
表2
从民航旅客查询航班的目的来看,目前都普遍存在着利用计算机来自动化查询航班信息的行为,称之为机器人行为。需要将旅客的航班查询行为进行详细的分析,将其区分属于何种类型,而具体分类时,需要考虑真实旅客进行查询的行为是符合旅客作息规律,而机器人则普遍存在着固定性和非随机性等特征。因此需要对民航旅客航班查询行为的特征进行建模,然后进行分类。
在具体的查询中,由于渠道的不同,其行为的特征也有所不同,即使在同一渠道,由于O&D的不同,行为也有所不同,因此,本发明实施例针对每一个渠道的每一个O&D进行了旅客航班查询行为分类。
基于上述原理以及定义,本发明实施例对旅客的航班查询行为分类模型中,将旅客的航班查询行为定义为不同渠道不同O&D有不同的行为,其分为以下4大类:
1)不活跃查询行为:分为两类,其中InactiveA表示该渠道的所有查询行为都属于不活跃行为;InactiveB表示该渠道只是在该O&D上属于不活跃行为。
2)正常人查询行为:分类两小类,其中NormalA表示该渠道在该O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在该O&D下属于混杂有极少量的机器人查询的旅客查询行为。
3)机器人查询行为:分类两小类,其中RobotA表示该渠道在该O&D下属于全部为机器人查询行为;RobotB表示该渠道在该O&D下属于混杂有极少量的真实旅客查询的机器人查询行为。
4)混合查询行为:分类两小类,其中MixA表示该渠道在该O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示该渠道在该O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
基于上述旅客航班查询行为分类模型基础上,本发明提出的民航旅客航班查询行为分类方法使用了以下指标和阈值(总体流程图如图1所述):
1、相关指标判别的计算公式说明:
(1)综合离散度指标:
指标对象:某Office,某个小时的全部行为。
计算公式:
Figure GDA0002541874160000131
其中,count(distinct o&d,flightDate)表示不同<O&D,航班日期>对的个数,count(distinct o&d)表示不同O&D个数,count(distinct flightDate)表示不同航班日期个数,count(*)表示查询总量。
指标含义:表示了一个Office的查询行为在O&D、flightDate的空间中分布的均匀程度。该指标越接近1表示Office查询行为分布越均匀,越接近扒数行为。
(2)三维离群度指标:
指标对象:某Office,某个小时,对某个O&D的查询行为。
计算公式:O&D维离群度为:
Figure GDA0002541874160000132
规定:Ci,j,k为第i个Office(渠道)、在第j小时、对第k个O&D的查询次数。其它两个维度的计算方法类似,分别为Office维度和时间(小时)维度。
判别离群度时,分别对三维离群度进行判别,按照一定比例分为较高、正常、较低三部分。如果样本在2到3维上均属于较低部分,则该样本为负值部分;如果样本在2到3维上均属于较高部分,则该样本为正值部分;否则,该样本为正常部分。较高值与较低值的判定见阈值定义部分。
指标含义:表示了某Office在某小时对某个O&D的查询量与整体样本平均查询量的差异程度。该指标大于0并且绝对值越大,说明样本查询量远高于正常水平。该指标小于0并且绝对值越大,说明样本查询量远低于正常水平。
(3)行为模式指标:
指标对象:某Office,对某O&D在一天24小时中的查询行为。
计算公式:
标准作息曲线:standardCurvei:i=1,2,……24。标准作息曲线为人工标注样本中符合正常人行为作息的全部样本之和,standardCurvei表示所有正常人行为样本第i小时查询量之和。
样本曲线:behaviorCurvei:i=1,2,……,24;样本曲线为待判别样本,过去24小时中每小时查询量。
行为模式指标值定义为:
Figure GDA0002541874160000141
指标含义:该指标表示样本过去24小时查询行为模式与标准正常人查询行为模式的相似程度,取值范围[-1,1],该值越接近1,表明查询行为越接近正常人行为规律。
(4)起飞日期离散度指标
指标对象:某Office,某个小时,对某个O&D的查询行为。
计算公式:
令:
Figure GDA0002541874160000142
Ci=count(flightDate=i);
起飞日期离散度为:
Figure GDA0002541874160000143
其中,μ表示每个起飞日期的查询量平均值;Ci表示第i个起飞日期的查询量总数。Max(flightDate)表示最大航班日期,Min(flightDate)表示最小航班日期,count(*)表示查询总量,count(flightDate=i)表示航班日期为i时的查询总量。
指标含义:表示了某Office对某个O&D查询量在起飞日期上的分布均匀程度。该指标越小,说明分布越均匀,说明该Office对该O&D的查询越类似于扒数行为。
(5)产品离散度指标
指标对象:某Office,某个小时的查询行为。
计算公式:
令:
Figure GDA0002541874160000151
Ci=count(product=i)
产品离散度为:
Figure GDA0002541874160000152
其中,N表示所有查询产品(O&D&flightDate)的总数;μ表示每个查询产品(O&D&flightDate)上的查询量平均值;Ci表示第i个查询产品product的查询量总数。count(*)表示所有查询产品的查询总量,count(product=i)表示第i个查询产品product的查询量总数。
指标含义:表示了某Office的查询量在查询产品(O&D&flightDate)上的分布均匀程度。
2、阈值的定义及设定
通过对每一个查询行为特征指标的统计学特征进行分析,结合经验,为每个指标设定了阈值,从而判别渠道查询行为在不同特征属性上的偏向。具体每个指标的数据分布与阈值设定如下:
(1)查询量阈值:
数据统计结果:渠道查询量分布为典型的长尾分布,其中只有不到10%的渠道占据了超过90%的查询量。
阈值设定方案:根据对数据的观察,只有10%的渠道贡献了主要的查询量,相比之下其它渠道都可以认为是不活跃的。由于IBE和MCSS的渠道查询量差异较大,因此该项阈值IBE和MCSS分开设定,取查询量前10%与后90%的分界点,IBE为50,MCSS为10;
(2)综合离散度阈值:
数据统计结果:综合离散度分布在(0,1]区间,一轮扒数行为的综合离散度为1,对轮扒数行为的综合离散度为1/N,但是综合离散度越小,误差越大、扒数行为越不明显。
阈值设定方案:根据对大量样本渠道的观察后发现,综合离散度大于0.2的查询行为表现为较为典型的扒数行为,小于0.2的查询行为则难以判断是否扒数。因此设定0.2为综合离散度阈值。
(3)起飞日期离散度、产品离散度阈值:
数据统计结果:起飞日期离散度与产品离散度分布模式类似,都符合幂律分布,在接近0的区域分布量最多,越接近1分布量越少。
阈值设定方案:根据对数据观察,这两个指标小于0.5的样本分布明显过于均匀,大于0.5的样本更加符合正常人对信息的关注规律。因此设定0.5为阈值。
(4)三维离群度阈值:
数据统计结果:三维离群度分布基本符合典型的正态分布规律,大部分样本都集中分布在平均值左右。
阈值设定方案:在正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。其中μ表示正态分布的期望值,σ表示正态分布的标准差。判别三维离群度时,大部分的正常样本都落在这约68%的面积里面,所以设定16%:68%:16%作为三维离群度阈值。
(5)行为模式阈值:
数据统计结果:行为模式阈值在区间[-1,1]较为均匀分布,其中大于0的样本数量要高于小于0的样本数量。
阈值设定方案:根据对大量样本的观察,发现符合正常人行为模式的查询和不符合正常人行为模式的查询的样本数量较为接近。因此取分布量50%作为分界线,大约是0.5,因此设定阈值为0.5。
结合上述指标和分类类别,本发明实施例提供的民航旅客航班查询行为分类方法的主要流程如图1所述,包括如下步骤:
步骤101:获取旅客对航班进行查询产生的查询数据;
步骤102:基于不同维度下的预设指标对所述查询数据进行解析处理;
步骤103:得到分类结果数据并保存。
本发明实施例还提供了一种旅客航班查询行为分类系统,所述系统包括:获取模块、解析处理模块和结果模块,其中:获取模块,用于获取旅客对航班进行查询产生的查询数据;解析处理模块,用于基于不同维度下的预设指标对所述获取模块获取的查询数据进行解析处理;结果模块,用于得到分类结果数据并保存。其中,所述不同维度下的预设指标包括如下的任意一种或多种:综合离散度指标、三维离群度指标、行为模式指标、起飞日期离散度指标、产品离散度指标。所述结果模块用于将分类结果数据存储到Hive表outPutTableName_classify中。所述获取模块,用于旅客对航班进行查询产生的查询数据,包括:从AVE系统的日志中获取新产生的用户查询数据,将获取的数据解析后存储于HDFS,对解析后的数据按要求进行预处理后存储到Hive表的outputTableName_IBE和outputTableName_mcss中。
在linux操作系统下,使用了本发明提出的民航旅客航班查询行为分类建模方法对每10分钟的民航旅客查询行为进行了分类建模,该分类建模方法以不同产品的不同粒度的时间范围内的查询次数、查询频率、查询内容以及与其他产品的查询行为异常与否为出发点,对不同维度下的若干指标进行计算和分析,形成分类决策树算法,基于给分类决策树算法对查询数据进行处理得到分类结果数据。
本发明提出的民航旅客航班查询行为分类方法有2个类别,分别是自助查询行为分类建模和代理查询行为分类建模。
自助查询(IBE渠道)按Office行为分类的具体过程如图2所示,具体如下:
(1)所有查询样本按Office查询量进行判别,小于IBE查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于IBE查询量判别阈值的查询样本进行综合离散度判别,大于综合离散度判别阈值的查询样本执行步骤(3),小于综合离散度判别阈值的查询样本执行步骤(5);
(3)对大于综合离散度判别阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本执行步骤(4);
(4)对大于产品离散度指标判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotB类,大于起飞日期离散度指标判别阈值的查询样本归为MixB类;
(5)对于小于综合离散度判别阈值的查询样本进行三维离群度判别,如果样本为负值部分,则将该部分样本归为InactiveB类。如果样本为正常,则该部分样本执行步骤(6)。如果样本为正值部分,则该部分样本执行步骤(7);
(6)对于三维离群度判别后的正常部分的样本进行行为模式判别,大于behaviorTh阈值的查询样本归为NormalA类,小于行为模式判别阈值的查询样本归为MixA类;
(7)对于三维离群度判别后的正值部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalB类,小于行为模式判别阈值的查询样本执行步骤(8);
(8)对小于行为模式判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotA类,大于起飞日期离散度指标判别阈值的查询样本归为MixA类。
代理查询(MCSS渠道)按Pid行为分类建模的具体过程,如图3所示,具体如下:
(1)所有查询样本按Office查询量进行判别,小于mcss查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于mcss查询量判别阈值的查询样本进行综合离散度判别,大于综合离散度判别阈值的查询样本执行步骤(3),小于综合离散度判别阈值的查询样本执行步骤(4);
(3)对大于综合离散度判别阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本归为RobotA类;
(4)对于小于综合离散度判别阈值的查询样本进行三维离群度判别,如果样本为负值部分,则将该部分样本归为InactiveB类。如果样本为正常,则该部分样本执行步骤(5)。如果样本为正值部分,则该部分样本执行步骤(6);
(5)对于三维离群度判别后的正常部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalA类,小于行为模式判别阈值的查询样本归为MixA类;
(6)对于三维离群度判别后的正值部分的样本进行行为模式判别,大于行为模式判别阈值的查询样本归为NormalB类,小于行为模式判别阈值的查询样本归为MixB类。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (16)

1.一种旅客航班查询行为分类方法,其特征在于,所述方法包括:
获取旅客对航班进行查询产生的查询数据;
基于不同维度下的预设指标对所述查询数据进行解析处理;
得到分类结果数据并保存;
对于自助查询,所述基于不同维度下的预设指标对所述查询数据进行解析处理包括如下步骤:
(1)从查询数据中抽取部分数据作为查询样本集,将所有查询样本集按渠道查询量进行判别,小于IBE查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于IBE查询量判别阈值的查询样本进行综合离散度指标判别,大于综合离散度指标阈值的查询样本执行步骤(3),小于综合离散度指标阈值的查询样本执行步骤(5);
(3)对大于综合离散度指标阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本执行步骤(4);
(4)对大于产品离散度指标判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotB类,大于起飞日期离散度指标判别阈值的查询样本归为MixB类;
(5)对于小于综合离散度指标阈值的查询样本进行三维离群度指标判别,如果样本为负值部分,则将该部分样本归为InactiveB类;如果样本为正常,则该部分样本执行步骤(6);如果样本为正值部分,则该部分样本执行步骤(7);
(6)对于三维离群度指标判别后的正常部分的样本进行行为模式指标判别,大于behaviorTh阈值的查询样本归为NormalA类,小于行为模式指标阈值的查询样本归为MixA类;
(7)对于三维离群度指标判别后的正值部分的样本进行行为模式指标判别,大于行为模式指标阈值的查询样本归为NormalB类,小于行为模式指标阈值的查询样本执行步骤(8);
(8)对小于行为模式指标阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotA类,大于起飞日期离散度指标判别阈值的查询样本归为MixA类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在出发地和到达地O&D上属于不活跃行为;NormalA表示当前渠道在所述O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前所述O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前所述O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前所述O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前所述O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前所述O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
2.根据权利要求1所述的方法,其特征在于,所述不同维度下的预设指标包括如下的任意一种或多种:
综合离散度指标:表示一个渠道的查询行为在出发地和到达地O&D、起飞日期flightDate的空间中分布的均匀程度;
三维离群度指标:表示一个渠道在特定时间对特定O&D的查询量与整体样本平均查询量的差异程度;
行为模式指标:表示查询行为模式与标准正常人查询行为模式的相似程度;
起飞日期离散度指标:表示特定渠道对特定O&D查询量在起飞日期上的分布均匀程度;
产品离散度指标:表示特定Office的查询量在查询产品上的分布均匀程度。
3.根据权利要求2所述的方法,其特征在于,所述综合离散度指标通过如下表达式得到:
Figure FDA0002652211320000031
其中,count(distinct o&d,flightDate)表示不同<O&D,航班日期>对的个数,count(distinct o&d)表示不同O&D个数,count(distinct flightDate)表示不同航班日期个数,count(*)表示查询总量。
4.根据权利要求2所述的方法,其特征在于,
所述三维离群度指标通过如下表达式得到:
Figure FDA0002652211320000032
其中,Ci,j,k为第i个渠道、在第j小时、对第k个O&D的查询次数,N表示所有查询产品的总数。
5.根据权利要求2所述的方法,其特征在于,
所述行为模式指标通过如下表达式得到:
Figure FDA0002652211320000033
其中,standardCurvei表示所有正常人行为样本第i小时查询量之和,其中i=1,2,……24,由standardCurvei所连成的曲线表示标准作息曲线;behaviorCurvei表示过去24小时中每小时查询量,其中,i=1,2,……,24,由behaviorCurvei所连成的曲线表示样本曲线。
6.根据权利要求2所述的方法,其特征在于,
所述起飞日期离散度指标通过如下表达式得到:
Figure FDA0002652211320000034
其中,
Figure FDA0002652211320000035
Ci=count(flightDate=i);μ表示每个起飞日期的查询量平均值;Ci表示第i个起飞日期的查询量总数;Max(flightDate)表示最大航班日期,Min(flightDate)表示最小航班日期,count(*)表示查询总量,count(flightDate=i)表示航班日期为i时的查询总量。
7.根据权利要求2所述的方法,其特征在于,
所述产品离散度指标由如下表达式得到:
Figure FDA0002652211320000041
其中,
Figure FDA0002652211320000042
Ci=count(product=i);N表示所有查询产品的总数;μ表示每个查询产品上的查询量平均值;Ci表示第i个查询产品的查询量总数;count(*)表示所有查询产品的查询总量,count(product=i)表示第i个查询产品的查询量。
8.根据权利要求1所述的方法,其特征在于,
所述旅客对航班进行查询产生的查询数据包括:查询渠道、航班起飞日期、出发地、目的地和用户查询时间;
所述分类结果数据包括:查询渠道来源、查询渠道、出发地、目的地、起飞日期、查询量、类别标签、查询小时、查询日期和查询分钟;所述分类结果数据存储到Hive表outPutTableName_classify中。
9.根据权利要求1所述的方法,其特征在于,所述获取旅客对航班进行查询产生的查询数据,包括:
从AVE系统的日志中获取新产生的用户查询数据,将获取的数据解析后存储于HDFS,对解析后的数据按要求进行预处理后存储到Hive表的outputTableName_IBE和outputTableName_mcss中。
10.根据权利要求1所述的方法,其特征在于,对于代理查询,所述基于不同维度下的预设指标对所述查询数据进行解析处理包括如下步骤:
(1)所有查询样本按Office查询量进行判别,小于mcss查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于mcss查询量判别阈值的查询样本进行综合离散度指标判别,大于综合离散度指标阈值的查询样本执行步骤(3),小于综合离散度指标阈值的查询样本执行步骤(4);
(3)对大于综合离散度指标阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本归为RobotA类;
(4)对于小于综合离散度指标阈值的查询样本进行三维离群度指标判别,如果样本为负值部分,则将该部分样本归为InactiveB类;如果样本为正常,则该部分样本执行步骤(5);如果样本为正值部分,则该部分样本执行步骤(6);
(5)对于三维离群度指标判别后的正常部分的样本进行行为模式指标判别,大于行为模式指标阈值的查询样本归为NormalA类,小于行为模式指标阈值的查询样本归为MixA类;
(6)对于三维离群度指标判别后的正值部分的样本进行行为模式指标判别,大于行为模式指标阈值的查询样本归为NormalB类,小于行为模式指标阈值的查询样本归为MixB类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在该O&D上属于不活跃行为;NormalA表示当前渠道在该O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前该O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
11.一种旅客航班查询行为分类系统,其特征在于,所述系统包括:获取模块、解析处理模块和结果模块,其中:
获取模块,用于获取旅客对航班进行查询产生的查询数据;
解析处理模块,用于基于不同维度下的预设指标对所述获取模块获取的查询数据进行解析处理;
结果模块,用于得到分类结果数据并保存;
所述解析处理模块,用于对于自助查询进行如下处理:
(1)从查询数据中抽取部分数据作为查询样本集,将所有查询样本集按渠道查询量进行判别,小于IBE查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于IBE查询量判别阈值的查询样本进行综合离散度指标判别,大于综合离散度指标阈值的查询样本执行步骤(3),小于综合离散度指标阈值的查询样本执行步骤(5);
(3)对大于综合离散度指标阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本执行步骤(4);
(4)对大于产品离散度指标判别阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotB类,大于起飞日期离散度指标判别阈值的查询样本归为MixB类;
(5)对于小于综合离散度指标阈值的查询样本进行三维离群度指标判别,如果样本为负值部分,则将该部分样本归为InactiveB类;如果样本为正常,则该部分样本执行步骤(6);如果样本为正值部分,则该部分样本执行步骤(7);
(6)对于三维离群度指标判别后的正常部分的样本进行行为模式指标判别,大于behaviorTh阈值的查询样本归为NormalA类,小于行为模式指标阈值的查询样本归为MixA类;
(7)对于三维离群度指标判别后的正值部分的样本进行行为模式指标判别,大于行为模式指标阈值的查询样本归为NormalB类,小于行为模式指标阈值的查询样本执行步骤(8);
(8)对小于行为模式指标阈值的查询样本进行起飞日期离散度指标判别,小于起飞日期离散度指标判别阈值的查询样本归为RobotA类,大于起飞日期离散度指标判别阈值的查询样本归为MixA类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在出发地和到达地O&D上属于不活跃行为;NormalA表示当前渠道在所述O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前所述O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前所述O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前所述O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前所述O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
12.根据权利要求11所述的系统,其特征在于,所述不同维度下的预设指标包括如下的任意一种或多种:
综合离散度指标:表示一个渠道的查询行为在出发地和到达地O&D、起飞日期flightDate的空间中分布的均匀程度;
三维离群度指标:表示一个渠道在特定时间对特定O&D的查询量与整体样本平均查询量的差异程度;
行为模式指标:表示查询行为模式与标准正常人查询行为模式的相似程度;
起飞日期离散度指标:表示特定渠道对特定O&D查询量在起飞日期上的分布均匀程度;
产品离散度指标:表示特定Office的查询量在查询产品上的分布均匀程度。
13.根据权利要求11所述的系统,其特征在于,
所述旅客对航班进行查询产生的查询数据包括:查询渠道、航班起飞日期、出发地、目的地和用户查询时间。
14.根据权利要求11所述的系统,其特征在于,
所述分类结果数据包括:查询渠道来源、查询渠道、出发地、目的地、起飞日期、查询量、类别标签、查询小时、查询日期和查询分钟;
所述结果模块用于将分类结果数据存储到Hive表outPutTableName_classify中。
15.根据权利要求11所述的系统,其特征在于,所述获取模块,用于获取旅客对航班进行查询产生的查询数据,包括:
从AVE系统的日志中获取新产生的用户查询数据,将获取的数据解析后存储于HDFS,对解析后的数据按要求进行预处理后存储到Hive表的outputTableName_IBE和outputTableName_mcss中。
16.根据权利要求11所述的系统,其特征在于,所述解析处理模块,用于对于代理查询进行如下处理:
(1)所有查询样本按Office查询量进行判别,小于mcss查询量判别阈值的查询样本归为InactiveA类,剩下的样本执行步骤(2);
(2)对大于mcss查询量判别阈值的查询样本进行综合离散度指标判别,大于综合离散度指标阈值的查询样本执行步骤(3),小于综合离散度指标阈值的查询样本执行步骤(4);
(3)对大于综合离散度指标阈值的查询样本进行产品离散度指标判别,小于产品离散度指标判别阈值的查询样本归为RobotB类,大于产品离散度指标判别阈值的查询样本归为RobotA类;
(4)对于小于综合离散度指标阈值的查询样本进行三维离群度指标判别,如果样本为负值部分,则将该部分样本归为InactiveB类;如果样本为正常,则该部分样本执行步骤(5);如果样本为正值部分,则该部分样本执行步骤(6);
(5)对于三维离群度指标判别后的正常部分的样本进行行为模式指标判别,大于行为模式指标阈值的查询样本归为NormalA类,小于行为模式指标阈值的查询样本归为MixA类;
(6)对于三维离群度指标判别后的正值部分的样本进行行为模式指标判别,大于行为模式指标阈值的查询样本归为NormalB类,小于行为模式指标阈值的查询样本归为MixB类;
其中,InactiveA表示当前渠道的所有查询行为都属于不活跃行为;InactiveB表示当前渠道只是在该O&D上属于不活跃行为;NormalA表示当前渠道在该O&D下属于全部为真实旅客查询行为;NormalB表示该渠道在当前该O&D下属于混杂有极少量的机器人查询的旅客查询行为;RobotA表示当前渠道在当前O&D下属于全部为机器人查询行为;RobotB表示当前渠道在当前O&D下属于混杂有极少量的真实旅客查询的机器人查询行为;MixA表示当前渠道在当前O&D下属于机器人和旅客混合但是旅客占大多数的混合查询行为;MixB表示当前渠道在当前O&D下属于机器人和旅客混合但是机器人占大多数的混合查询行为。
CN201611260682.5A 2016-12-30 2016-12-30 旅客航班查询行为分类方法及系统 Active CN106777303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611260682.5A CN106777303B (zh) 2016-12-30 2016-12-30 旅客航班查询行为分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611260682.5A CN106777303B (zh) 2016-12-30 2016-12-30 旅客航班查询行为分类方法及系统

Publications (2)

Publication Number Publication Date
CN106777303A CN106777303A (zh) 2017-05-31
CN106777303B true CN106777303B (zh) 2020-11-06

Family

ID=58953495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611260682.5A Active CN106777303B (zh) 2016-12-30 2016-12-30 旅客航班查询行为分类方法及系统

Country Status (1)

Country Link
CN (1) CN106777303B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908800A (zh) * 2017-12-22 2018-04-13 北京交通大学 基于用户查询日志的客运交通渠道查询模式分类方法
CN114092126A (zh) * 2021-04-19 2022-02-25 北京沃东天骏信息技术有限公司 航班的报价方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574199A (zh) * 2015-12-28 2016-05-11 合一网络技术(北京)有限公司 搜索引擎的虚假搜索行为的识别方法和装置
CN105654118A (zh) * 2015-12-25 2016-06-08 中国民航信息网络股份有限公司 民航旅客关系分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524319B2 (en) * 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Search relevance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654118A (zh) * 2015-12-25 2016-06-08 中国民航信息网络股份有限公司 民航旅客关系分类方法
CN105574199A (zh) * 2015-12-28 2016-05-11 合一网络技术(北京)有限公司 搜索引擎的虚假搜索行为的识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《面向民航需求建模的用户查询日志大数据分析方法研究与实现》;周岳骞;《中国优秀硕士学位论文全文数据库信息科技辑》;20160715(第07期);第I138-712页 *

Also Published As

Publication number Publication date
CN106777303A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN107086935B (zh) 基于wifi ap的人流量分布预测方法
CN107944698B (zh) 面向云制造的制造需求与设备能力归一化建模方法
CN110992124B (zh) 房源的推荐方法及房源的推荐系统
CN112860769B (zh) 一种能源规划数据管理系统
CN110690701A (zh) 一种异常线损影响因素的分析方法
CN106777303B (zh) 旅客航班查询行为分类方法及系统
CN111126865A (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN107944487B (zh) 一种基于混合协同过滤算法的作物育种品种推荐方法
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
CN107886217A (zh) 一种基于聚类算法的员工离职风险预测方法及装置
CN116702154B (zh) 一种基于大数据安全评估的分析系统及方法
CN116029571B (zh) 基于元宇宙的数据处理方法及相关装置
CN106779245A (zh) 基于事件的民航需求预测方法和装置
US20230054470A1 (en) Industrial internet of things, control methods, and storage mediums for automatic executing product manufacturing based on tasks
CN109902196B (zh) 一种商标类别推荐方法、装置、计算机设备及存储介质
CN115310366A (zh) 一种基于随机优化模型评估机场公布容量的方法
CN111126419A (zh) 网点聚类方法及装置
CN114912847A (zh) 一种土地全域整治在线监管方法及系统
CN114862180A (zh) 一种基于全生命周期的产品质量数据分析反馈方法及系统
CN113743866A (zh) 一种投资项目的出库管理方法、装置、设备和介质
CN111126121B (zh) 人脸识别模型的调整方法、装置、设备及存储介质
CN112989402A (zh) 一种用户权限确定方法及装置
CN117520994B (zh) 基于用户画像和聚类技术识别机票异常搜索用户方法及系统
Liu et al. Application of information system of varieties of common knowledge in PVP
Shalanov et al. Algorithm of taxonomy: method of design and implementation mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant