CN109377301A - 一种基于航空订票行为数据的特征抽取方法 - Google Patents
一种基于航空订票行为数据的特征抽取方法 Download PDFInfo
- Publication number
- CN109377301A CN109377301A CN201810982147.3A CN201810982147A CN109377301A CN 109377301 A CN109377301 A CN 109377301A CN 201810982147 A CN201810982147 A CN 201810982147A CN 109377301 A CN109377301 A CN 109377301A
- Authority
- CN
- China
- Prior art keywords
- data
- inquiry
- information
- user
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
Abstract
一种基于航空订票行为数据的特征抽取方法,其具体步骤为:步骤1,从航空公司数据库调取原始数据,并进行数据预处理;步骤2,特征抽取系统分析预处理数据,得到正常用户和非正常用户的区分度信息;步骤3,基于正常用户和非正常用户的区分度信息进行特征提取,所述特征包括时间特征,数量特征,地点特征。本发明从时间序列,地点信息和IP信息提取特征的方法,进而高效准确的对恶意订单进行预测和拦截,可以获得更高的预测准确率。
Description
技术领域
本发明涉及特征抽取领域,尤其涉及一种基于航空订票行为数据的特征抽取方法。
背景技术
目前购票网站中,存在一些恶意预定行为,这些预定由某些组织所控制的“肉鸡”账号产生,为某些热门航线制造垄断局面,再抬高价格出售给用户,严重的影响了旅客利益并使航空公司蒙受损失,机票销售市场秩序也受到严重的影响。如何识别恶意订单,对于提高航空公司服务质量,提高用户体验和维护市场稳定具有重要的现实意义。然而目前对于恶意预定行为的有效预测仍然是一个待解决的问题,现有技术中常用解决问题的是黑白名单法和订单可信度评价方法。
订单可信度评价方法,采用从航信系统的订单数据库获取历史订单数据;根据所述历史订单数据,生成可信度评估指标,其中,可信度评估指标包括以下至少之一:旅客诚信度指标、代理人诚信度指标、不同舱位等级出票可信度指标、订票时间距离起飞时间的不同时间区间出票可信度指标;采用层次化分析法,确定可信度评估指标的权重系数;根据可信度评估指标和可信度评估指标的权重系数,计算实时订单的订单可信度得分;将订单可信度得分存储到数据库中的方式,对订单进行评估。
黑白名单法,是指通过数据库调出用户的历史订单数据,通过订票结果,查询结果等用户行为进行分析,然后根据相关技术人员指导规定阈值,当某个用户的行为特征达到判定恶意的阈值,将其加入黑名单,类似的形成黑白名单库,当有新订单时,通过判定他是否存在于黑白名单库来对他进行不同的措施。例如,规定从未产生历史订单的用户为黑名单,产生过订单的用户为白名单,当有新查询时候,如果该用户存在于黑名单库中,就对其进行拦截,若存在于白名单中则对其放行。
然而,目前航空订票领域中的恶意预定恶意查询等行为严重,影响了航空公司订票市场的正常运行,但是现有技术中,无论是订单可信度方法还是黑白名单方法,考虑的特征维度都相对单一,在准确率方面也不足够理想,不能够实时高效的对恶意订单进行识别。
发明内容
为了解决上述问题,本发明提出了一种基于航空订票行为数据的特征抽取方法,其具体步骤为:
步骤1,从航空公司数据库调取原始数据,并进行数据预处理;
步骤2,特征抽取系统分析预处理数据,得到正常用户和非正常用户的区分度信息;
步骤3,基于正常用户和非正常用户的区分度信息,从数据中提取时间、地点、数量等特征。
本方法并且利用了时间序列和多种特征结合的方式进行特征提取,通过从时间序列,地点信息和IP信息提取特征,获得更高的预测准确率,进而高效准确的对恶意订单进行预测和拦截。
附图说明
图1为本发明的整体流程图;
图2为为特征抽取系统对预处理数据分析流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种基于航空订票行为数据的特征抽取方法,如图1为本发明的整体流程图。其具体步骤为:步骤1,从航空公司数据库调取原始数据,并进行数据预处理;步骤2,特征抽取系统分析预处理数据,得到正常用户和非正常用户的区分度信息;步骤3,基于正常用户和非正常用户的区分度信息,从数据中提取时间、地点、数量等特征。
在步骤1中,特征抽取系统从航空公司数据库调取原始数据,并进行数据预处理;一实施例中,航信公司提供航空公司数据库中的实际每日查询数据和订单数据,其中有些数据包含的信息对于预测是无效的,本发明通过关键词抽取出了用户查询的IP地址信息,查询时间,查询结果信息,查询航班的起止地点信息和用户预订的IP信息,预定航班的起止地点信息,订单预定时间和出票结果。本发明的目的为识别订单中的“肉鸡”,但是数据库中订单数据的信息量并不多,所以本发明通过IP地址将该订单和他的历史查询数据联系起来,通过结合查询信息中的地点、时间、数量等信息来进行综合处理。
然后进行信息标记,数据库中的已有信息并没有被标记正负例,所以获取航空公司需求后,将订单中最后正常出票的标记为正常行为,未出票的标记为恶意行为。
进行标记后,本发明将查询数据和标记过的订单数据分别存储以便之后使用和快速查询。
步骤2,特征抽取系统分析预处理数据,得到正常用户和非正常用户的区分度信息;
如图2所示为特征抽取系统对预处理数据分析流程图,特征抽取系统对大量用户的查询时间、查询目的地出发地、次数和是否出票进行分析,正常用户会查询间隔短,非正常用户大多查询间隔长;正常用户查询时间通常是在工作时间和晚上,即白天8点到晚上24点之间,而非正常用户通常在凌晨查询预定;在航班出发地和目的地上,多数正常用户订票查询的出发地和目的地比较集中,具有较高的地点重合度,多数非正常用户地点重合度低,且出票率低。
步骤3,基于正常用户和非正常用户的区分度信息进行特征提取,所述特征包括时间特征,数量特征,地点特征。
本发明基于正常用户和非正常用户的区分度信息,通过时间序列,数量统计,地点重合度计算的方式来挖掘出来时间特征、地点特征、IP数量特征。
对于预定相关的特征本发明直接从预订数据中提取,和查询相关的数据,从而特征抽取系统通过IP信息将用户预定行为和查询行为联系起来,对于查询行为,本发明将产生预定行为时间之前的最近一次查询和最近一次查询时间之前的查询行为作为数据参考。
从而特征抽取系统将包含地点信息的“地点重合度”作为特征,从数据中调取到订单IP的相关查询信息,地点重合度为该次订单对应IP的最近一次查询的起止地数量与之前查询中出现的起止地点总数量之比。
地点重合度=该次订单对应IP的最近一次查询的起止地数量/该IP之前一天内查询出现过的地点总数量
特征抽取系统分析订票查询信息,正常订票用户多事先查询航班后进行预定,且最终预定的航班应该是从查询过的航班中选取,本发明将“订票航班是否查询过”作为一个特征,判断该订票是否是在进行相关查询之后完成的。
从而特征抽取系统通过数量统计的方法提取3个数量特征,“当日第几次订票”、“最近一次查询是当日第几次查询”和“最近一次查询五秒内查询次数”。
特征抽取系统分析订票信息,非正常用户在当日多次进行订票,但是最终不出票,从而特征抽取系统明将“当日第几次订票”作为特征;一实施例中,特征抽取系统获取到航空公司的某日274万条查询数据中,其查询小于50次的IP共有14万个左右,一批疑似非正常用户共进行了59万次查询,平均每个IP查询4次;查询次数大于50次的IP中共有5600个,共进行了215万次查询,平均每个IP查询384次,通过对原始查询数据分析发现有不少IP当日能进行高达数以万计次查询,但是最终并不会预定出票,从而特征抽取系统将“最近一次查询是当日第几次查询”作为特征;在查询数据中,特征抽取系统获取到有些查询在一秒内就会产生数次查询,从而特征抽取系统将“最近一次查询五秒内查询次数”提取为一个特征。
特征抽取系统通过时间序列的方法提取3个时间特征:“最近一次查询时间”,“订票时间与最近一次查询时间时间间隔”,“最近一次查询与最近两次查询时间间隔”。
特征抽取系统的时间序列方法为,对每两个小时的订单查询数量进行了统计,分别分析了IP出现次数大于10次和小于10次的情况,在凌晨0点至早上8点之间的查询订单比明显要高于白天,进一步将数据分割开后获得信息为异常主要是查询IP出现次数>10次的IP造成的。在0——8点之间查询和订单数量的比例为40左右,而白天的比例为2,凌晨产生的订单更有可能是非正常用户行为,抽取“最近一次查询时间”作为一个特征。特征抽取系统通过分析数据获取大多非正常用户不进行查询直接占座预定,将“订票时间与最近一次查询时间时间间隔”进行抽取。特征抽取系统对查询间隔短暂进行分析,获取非正常用户订单对应IP的查询时间间隔极短暂,特征抽取系统将“最近一次查询与最近2次查询时间间隔”进行抽取。
本发明通过从时间特征,地点特征,IP数量特征三个大类提取了8个特征用于机器学习模型训练,获得更高的预测准确率,进而高效准确的对恶意订单进行预测和拦截。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种基于航空订票行为数据的特征抽取方法,其具体步骤为:
步骤1,从航空公司数据库调取原始数据,并进行数据预处理;
步骤2,特征抽取系统分析预处理数据,得到正常用户和非正常用户的区分度信息;
步骤3,基于正常用户和非正常用户的区分度信息进行特征提取,所述特征包括时间特征,数量特征,地点特征。
2.如权利要求1所述的方法,其特征在于,在所述步骤1中的数据预处理的方法包括,通过关键词抽取出用户查询信息,所述用户查询信息包括IP地址信息,查询时间,查询结果信息,查询航班的起止地点信息和用户预订的IP信息,订单预定时间和出票结果;获取航空公司需求,将订单中最后正常出票的标记为正常行为,未出票的标记为恶意行为;进行标记后,将查询数据和标记过的订单数据分别存储以便后续使用和快速查询。
3.如权利要求1所述的方法,其特征在于,在所述步骤2中,分析系统分析预处理数据,得到正常用户和非正常用户的区分度信息包括,多数正常用户会查询间隔短,多数非正常用户大多查询间隔长;多数正常用户是在工作时间和晚上进行查询,即白天8点到晚上24点之间,多数非正常用户在凌晨查询预定;在航班出发地和目的地上,多数正常用户订票查询的出发地和目的地比较集中,具有较高的地点重合度,多数非正常用户地点重合度低,且出票率低。
4.如权利要求1所述的方法,其特征在于,在所述步骤3中,所述基于正常用户和非正常用户的区分度信息进行特征提取中,所述抽取地点特征包括:抽取订票航班是否查询,地点重合度;所述地点重合度的计算方法为,从数据中调取到订单IP的相关查询信息,获取订单对应IP的最近一次查询的起止地数量与之前查询中出现的起止地点总数量,计算该次订单对应IP的最近一次查询的起止地数量与该IP之前一天内查询出现过的地点总数量的比值;所述抽取数量特征包括:对订票数量数据分析,提取当日第几次订票、最近一次查询是当日第几次查询和最近一次查询五秒内查询次数;所述时间特征的抽取包括:对订票时间间隔数据分析,从数据中抽取最近一次查询时间、订票时间与最近一次查询时间时间间隔、最近一次查询与最近两次查询时间间隔。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810982147.3A CN109377301A (zh) | 2018-08-27 | 2018-08-27 | 一种基于航空订票行为数据的特征抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810982147.3A CN109377301A (zh) | 2018-08-27 | 2018-08-27 | 一种基于航空订票行为数据的特征抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109377301A true CN109377301A (zh) | 2019-02-22 |
Family
ID=65404692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810982147.3A Pending CN109377301A (zh) | 2018-08-27 | 2018-08-27 | 一种基于航空订票行为数据的特征抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109377301A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414993A (zh) * | 2019-08-05 | 2019-11-05 | 中国工商银行股份有限公司 | 别名汇款恶意查询方法及装置 |
CN111949857A (zh) * | 2020-08-13 | 2020-11-17 | 中国民航信息网络股份有限公司 | 一种航班查询请求的处理方法、装置及电子设备 |
CN112163932A (zh) * | 2020-09-30 | 2021-01-01 | 中国民航信息网络股份有限公司 | 恶意占座订单的识别方法、装置及电子设备 |
CN113379455A (zh) * | 2021-06-10 | 2021-09-10 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 订单量预测方法和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557955A (zh) * | 2016-11-29 | 2017-04-05 | 流量海科技成都有限公司 | 网约车异常订单识别方法及系统 |
CN106779126A (zh) * | 2016-12-30 | 2017-05-31 | 中国民航信息网络股份有限公司 | 恶意占座订单的处理方法和系统 |
CN108182587A (zh) * | 2018-01-29 | 2018-06-19 | 北京信息科技大学 | 一种电商平台刷单行为检测方法及系统 |
CN108229749A (zh) * | 2018-01-16 | 2018-06-29 | 厦门快商通信息技术有限公司 | 基于深度学习的不良购票行为管理方法 |
-
2018
- 2018-08-27 CN CN201810982147.3A patent/CN109377301A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557955A (zh) * | 2016-11-29 | 2017-04-05 | 流量海科技成都有限公司 | 网约车异常订单识别方法及系统 |
CN106779126A (zh) * | 2016-12-30 | 2017-05-31 | 中国民航信息网络股份有限公司 | 恶意占座订单的处理方法和系统 |
CN108229749A (zh) * | 2018-01-16 | 2018-06-29 | 厦门快商通信息技术有限公司 | 基于深度学习的不良购票行为管理方法 |
CN108182587A (zh) * | 2018-01-29 | 2018-06-19 | 北京信息科技大学 | 一种电商平台刷单行为检测方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414993A (zh) * | 2019-08-05 | 2019-11-05 | 中国工商银行股份有限公司 | 别名汇款恶意查询方法及装置 |
CN111949857A (zh) * | 2020-08-13 | 2020-11-17 | 中国民航信息网络股份有限公司 | 一种航班查询请求的处理方法、装置及电子设备 |
CN112163932A (zh) * | 2020-09-30 | 2021-01-01 | 中国民航信息网络股份有限公司 | 恶意占座订单的识别方法、装置及电子设备 |
CN113379455A (zh) * | 2021-06-10 | 2021-09-10 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 订单量预测方法和设备 |
CN113379455B (zh) * | 2021-06-10 | 2024-02-09 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 订单量预测方法和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377301A (zh) | 一种基于航空订票行为数据的特征抽取方法 | |
CA2864042C (en) | Database system using batch-oriented computation | |
CA2825653C (en) | Information providing apparatus, information providing method, information providing program, and recording medium | |
JP6557662B2 (ja) | 運賃利用可能性、たとえば航空運賃利用可能性を提供するための方法及びサーバ | |
US20130073586A1 (en) | Database system using batch-oriented computation | |
US20040249683A1 (en) | Query widening for query caches for travel planning systems | |
JP6473158B2 (ja) | 見積もり価格、たとえば航空運賃価格見積もりの組を提供するための方法及びサーバ | |
US7840587B2 (en) | Query caching for travel planning systems | |
CN105869015A (zh) | 一种信息处理方法及系统 | |
US20130297360A1 (en) | Flight-price monitoring systems and methods | |
WO2005001718A1 (en) | Query caching for travel planning systems | |
WO2005001717A1 (en) | Filling a query cache for travel planning | |
WO2000046715A1 (en) | Method and apparatus for providing availability of airline seats | |
US20170178036A1 (en) | Unique accommodation search improvement founded in listing booking conversion | |
CN109063066A (zh) | 数据查询方法及装置、数据管理系统 | |
CN113705250B (zh) | 会话内容识别方法、装置、设备及计算机可读介质 | |
US20040260598A1 (en) | Method and apparatus for notifying vendors of flight plan changes in order to target advertising | |
CN111339122B (zh) | 一种差旅平台的主动缓存方法、差旅查询方法和相关产品 | |
CN109766440B (zh) | 一种用于为对象文本描述确定默认分类信息的方法及系统 | |
CN105654340A (zh) | 旅客真实航程的确定方法及系统 | |
EP2698729B1 (en) | Updating cached database query results | |
CN113609142A (zh) | 基于ota平台数据投放的运价自动更新方法和存储介质 | |
US20200134514A1 (en) | Booked-blocked classifier | |
CN110766420A (zh) | 一种服务信息确定方法及装置 | |
CN116166735B (zh) | 航空数据的处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190222 |