CN111797141B - 一种机票搜索流量异常的检测方法 - Google Patents

一种机票搜索流量异常的检测方法 Download PDF

Info

Publication number
CN111797141B
CN111797141B CN202010639842.7A CN202010639842A CN111797141B CN 111797141 B CN111797141 B CN 111797141B CN 202010639842 A CN202010639842 A CN 202010639842A CN 111797141 B CN111797141 B CN 111797141B
Authority
CN
China
Prior art keywords
channel
period
channels
time period
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010639842.7A
Other languages
English (en)
Other versions
CN111797141A (zh
Inventor
刘小雷
李尚锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huoli Tianhui Technology Co ltd
Original Assignee
Shenzhen Huoli Tianhui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huoli Tianhui Technology Co ltd filed Critical Shenzhen Huoli Tianhui Technology Co ltd
Priority to CN202010639842.7A priority Critical patent/CN111797141B/zh
Publication of CN111797141A publication Critical patent/CN111797141A/zh
Application granted granted Critical
Publication of CN111797141B publication Critical patent/CN111797141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种机票搜索流量异常的检测方法。所述方法包括:从流量日志的搜索请求中获取渠道参数,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到第一时段每个渠道的请求数据,按照相同方法得到第二时段每个渠道的请求数据,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算二者差的绝对值ΔR(i,j),分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道。本发明能够基于流量日志中的搜索请求数据自动检测发生异常的渠道,有助于业务人员及时发现并采取措施,避免资源的浪费。

Description

一种机票搜索流量异常的检测方法
技术领域
本发明属于机票查询技术领域,具体涉及一种机票搜索流量异常的检测方法。
背景技术
目前,在多数机票购买平台上,机票搜索的流量一般来自多个渠道,如手机客户端,网页端,微信端等。由于系统出错或遭到黑客攻击,经常出现一个或多个渠道的流量在某一时段急剧增大或减小的现象。系统出错的原因很多,如代码bug、网络、服务器资源异常等等。当发生错误时,产生的结果可能是搜索请求得不到及时返回,不断地重复发起请求,导致流量产生较大增加;也可能是搜索请求达不到后端,导致流量减少。遭受攻击的情况最可能的就是有第三方利用爬虫技术来获取航线航班数据,不断地发起各种搜索请求,导致流量增大。流量的异常增大并不会带来额外的订单量,相反可能影响正常用户的购票;特别是被爬虫爬取数据,几乎无法带来订单转化订单减少收益就会减少,流量增大却没有带来更多的订单就会造成资源浪费。
对于流量产生较大变化的情况,工作人员需要确认其原因,判断是否为系统错误或是遭受攻击等,以避免资源的浪费。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种机票搜索流量异常的检测方法。
为实现上述目的,本发明采用如下技术方案:
一种机票搜索流量异常的检测方法,包括以下步骤:
步骤1,从流量日志的搜索请求中获取请求时间及请求来源即渠道;
步骤2,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Xi={xi1,xi-2,…,xiN},i=1,2,…,M,M为渠道总数;
步骤3,选取起止时刻与第一时段均相同的第二时段,将第二时段划分成与第一时段相同的N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Yi={yi1,yi2,…,yiN};
步骤4,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|,1≤i<j≤M;
步骤5,分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,K≥1。
与现有技术相比,本发明具有以下有益效果:
本发明通过从流量日志中的搜索请求中获取渠道参数,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到第一时段每个渠道的请求数据,按照相同方法得到第二时段每个渠道的请求数据,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算二者差的绝对值ΔR(i,j),分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,实现了异常渠道的自动检测。本发明能够基于流量日志中的搜索请求数据自动检测发生异常的渠道,有助于业务人员及时发现并采取措施,避免资源的浪费。
附图说明
图1为本发明实施例一种机票搜索流量异常的检测方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种机票搜索流量异常的检测方法,流程图如图1所示,所述方法包括以下步骤:
S101、从流量日志的搜索请求中获取请求时间及请求来源即渠道;
S102、选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Xi={xi1,xi2,…,xiN},i=1,2,…,M,M为渠道总数;
S103、选取起止时刻与第一时段均相同的第二时段,将第二时段划分成与第一时段相同的N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Yi={yi1,yi2,…,yiN};
S104、分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|,1≤i<j≤M;
S105、分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,K≥1。
在本实施例中,步骤S101主要用于获取搜索请求的时间和渠道。流量日志中记录了搜索请求信号的时间及请求来源,也就是渠道,比如微信端、手机客户端等。除搜索请求参数之外,流量日志还有其它许多业务人员记录的各类参数,这些参数主要是用来排查问题,或是用作统计。本实施例只关心请求来源即渠道和请求次数。日志的条数即可代表请求次数,请求来源包含在请求参数里。渠道参数是用约定的字符串表示,用来表示搜索请求来自哪里,如“hbgj”表示航班管家APP。下面给出一个具体的流量日志:
2020-06-29
09:58:56-analyseSourceEntry=gwc_r_3_2_6_3_4&channelcode=hbgj&date=2020-07-01&dst=NKG&from=hbgj&org=CQS_C&p=BCHWzhihuiyun,android.9,hbgj,7.8.2,VKY-AL00&st=6&traceid=01ab5a63f3827001&transfer_msg=28,200&tripType=TB&uid=218898645043328&userid=109443828&xxxid=bKy27894
其中的“from=hbgj”表示这个请求的渠道参数为“hbgj”,即搜索请求来自航班管家APP。
在本实施例中,步骤S102主要用于统计选取的第一时段内各渠道的请求数据。首先,选取第一时段。选取的时段一般是一天中的一个时间段,比如从上午09:00到夜间23:00,也可以是一整天,如从00:00到24:00。当然也可以是跨天的,如晚上20:00到第二天早晨08:00。然后,将所选时段划分成N个区间。这N个区间的长度可以是相等的,也可以是不等的,比如间隔长度构成等差数列。最后,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据,比如,第i个渠道请求数据为Xi={xi1,xi2,…,xiN},xi-n为第i个渠道在第n个区间的请求次数。
在本实施例中,步骤S103主要用于统计选取的第二时段内各渠道的请求数据。由于渠道的请求次数与时间是紧密相关的,比如工作日每天同一时段内同一渠道的请求次数近似相等,因此第二时段的起止时间应该与第一时段相同,区间划分也相同,相当于第一时段在不同日期的一个COPY。第二时段与第一时段可以是相邻的两个日期,也可以是不相邻的两个日期,比如相邻的两个周一。选取时应遵循的原则是:一是这两个时段的特点一定要尽量接近,比如,不能一个是节假日,一个是工作日;二是相隔的日期要尽量近,比如最好能够是相邻两个日期。为了提高检测精度,还可以采用多个时段同一渠道请求数据的平均值作为一个时段的请求数据。第二时段第i个渠道请求数据记为Yi={yi1,yi2,…,yiN}。
在本实施例中,步骤S104主要用于计算不同渠道请求数据的相关性及不同时段相关性的变化量。首先,针对两个时段分别计算任意两个渠道请求数据的相关系数,比如第一时段第i个渠道请求数据Xi与第j个渠道请求数据Xj的相关系数R(Xi,Xj)。根据排列组合原理,每个时段都有个相关系数。因为R(Xi,Xj)=R(Xj,Xi),所以取1≤i<j≤M。正常情况下R(Xi,Xj)与R(Yi,Yj)应该比较接近,当第i个渠道或第j个渠道出现异常时,R(Xi,Xj)与R(Yi,Yj)的差值将会突变,因此可以通过考察差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|的大小判断出现异常的渠道,这就是本实施例检测异常渠道的原理。相关系数可以利用皮尔逊相关系数的计算公式进行计算。
在本实施例中,步骤S105主要用于确定异常渠道。由于异常渠道可能多于一个,而且只根据ΔR(i,j)异常无法确定i和j哪个渠道异常,为此,本实施例采取了如下方法:将ΔR(i,j)与设定的阈值进行比较,统计大于所述阈值的ΔR(i,j)中的渠道i、j(第i、j个渠道)出现的次数,出现次数最多的K个渠道为异常渠道。比如,大于所述阈值的ΔR(i,j)为ΔR(1,3)、ΔR(1,4)、ΔR(2,4)、ΔR(3,4)、ΔR(1,5),第1、2、3、4、5渠道出现的次数分别为3、1、2、3、1,如果K=2,则第1、4渠道为异常渠道。为了提高检测精度,也可以对次数进行加权求和。由于ΔR(i,j)的值越大,渠道i或j是异常渠道的可能性也越大,因此,加权系数就是包含所统计渠道的ΔR(i,j)值。比如,如果ΔR(i,j1)、ΔR(i,j2)、…、ΔR(i,jL)均大于所述阈值,则第i个渠道出现次数由L个改为:
作为一种可选实施例,所述渠道包括:微信端,手机端,网页端。
本实施例给出了几种具体的搜索请求渠道。微信端、手机端和网页端等都是常见的搜索请求渠道。渠道参数是以约定的字符串表达的,如:wexin(微信端);web(网页端);手机客户端,如hbgj(航班管家APP),gtgj(高铁管家APP)等。还有许多有特殊用途的请求,如calendar(价格日历,刷新数据需求),fenxiao(分销商的请求),recommend(机票推荐需要获取各类航线航班数据)等等。
作为一种可选实施例,第一时段起于08:00,止于18:00,等分成10个区间;第二时段滞后第一时段24小时。
本实施例给出了第一时段和第二时段的一种具体划分方法。值得说明的是,本实施例只是给出一种具体实例,以供参考,并不排斥和限制其它可行的选取方法。
作为一种可选实施例,R(Xi,Xj)的计算公式如下:
本实施例给出了计算任意两个渠道请求数据的相关系数的公式。本实施例采用的是皮尔逊积矩相关系数,简称皮尔逊相关系数,用于度量两个变量之间的相关程度,其值介于-1与1之间,大于0为正相关,小于0为负相关。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。

Claims (4)

1.一种机票搜索流量异常的检测方法,其特征在于,包括以下步骤:
步骤1,从流量日志的搜索请求中获取请求时间及请求来源即渠道;
步骤2,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Xi={xi1,xi2,…,xiN},i=1,2,…,M,M为渠道总数;
步骤3,选取起止时刻与第一时段均相同的第二时段,将第二时段划分成与第一时段相同的N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Yi={yi1,yi2,…,yiN};
步骤4,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|,1≤i<j≤M;
步骤5,分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,K≥1。
2.根据权利要求1所述的机票搜索流量异常的检测方法,其特征在于,所述渠道包括:微信端,手机端,网页端。
3.根据权利要求1所述的机票搜索流量异常的检测方法,其特征在于,第一时段起于08:00,止于18:00,等分成10个区间;第二时段滞后第一时段24小时。
4.根据权利要求1所述的机票搜索流量异常的检测方法,其特征在于,R(Xi,Xj)的计算公式如下:
CN202010639842.7A 2020-07-06 2020-07-06 一种机票搜索流量异常的检测方法 Active CN111797141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639842.7A CN111797141B (zh) 2020-07-06 2020-07-06 一种机票搜索流量异常的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639842.7A CN111797141B (zh) 2020-07-06 2020-07-06 一种机票搜索流量异常的检测方法

Publications (2)

Publication Number Publication Date
CN111797141A CN111797141A (zh) 2020-10-20
CN111797141B true CN111797141B (zh) 2023-09-22

Family

ID=72811188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639842.7A Active CN111797141B (zh) 2020-07-06 2020-07-06 一种机票搜索流量异常的检测方法

Country Status (1)

Country Link
CN (1) CN111797141B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106612202A (zh) * 2015-10-27 2017-05-03 网易(杭州)网络有限公司 一种网游渠道刷量的预估判别方法及系统
CN107634952A (zh) * 2017-09-22 2018-01-26 广东欧珀移动通信有限公司 刷量资源确定方法及装置
CN108122116A (zh) * 2016-11-29 2018-06-05 腾讯科技(深圳)有限公司 一种产品推广渠道的监管方法及系统
CN109034244A (zh) * 2018-07-27 2018-12-18 国家电网有限公司 基于电量曲线特征模型的线损异常诊断方法及装置
CN109561052A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 网站异常流量的检测方法及装置
CN110189165A (zh) * 2019-05-14 2019-08-30 微梦创科网络科技(中国)有限公司 渠道异常用户和异常渠道识别方法及装置
CN110197430A (zh) * 2019-06-06 2019-09-03 深圳萨摩耶互联网金融服务有限公司 一种基于资金业务系统的资金业务监控方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL2015680B1 (en) * 2015-10-29 2017-05-31 Opt/Net Consulting B V Anomaly detection in a data stream.

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106612202A (zh) * 2015-10-27 2017-05-03 网易(杭州)网络有限公司 一种网游渠道刷量的预估判别方法及系统
CN108122116A (zh) * 2016-11-29 2018-06-05 腾讯科技(深圳)有限公司 一种产品推广渠道的监管方法及系统
CN107634952A (zh) * 2017-09-22 2018-01-26 广东欧珀移动通信有限公司 刷量资源确定方法及装置
CN109561052A (zh) * 2017-09-26 2019-04-02 北京国双科技有限公司 网站异常流量的检测方法及装置
CN109034244A (zh) * 2018-07-27 2018-12-18 国家电网有限公司 基于电量曲线特征模型的线损异常诊断方法及装置
CN110189165A (zh) * 2019-05-14 2019-08-30 微梦创科网络科技(中国)有限公司 渠道异常用户和异常渠道识别方法及装置
CN110197430A (zh) * 2019-06-06 2019-09-03 深圳萨摩耶互联网金融服务有限公司 一种基于资金业务系统的资金业务监控方法及系统

Also Published As

Publication number Publication date
CN111797141A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
US10248528B2 (en) System monitoring method and apparatus
US8064364B2 (en) Automated network condition identification
Hejase et al. Time‐Series Regression Model for Prediction of Mean Daily Global Solar Radiation in Al‐Ain, UAE
CN114024837A (zh) 一种微服务系统的故障根因定位方法
Chen et al. DAD-MCNN: DDoS attack detection via multi-channel CNN
Gertsbakh et al. Stochastic models of network survivability
CN107391515A (zh) 基于关联规则分析的电力系统指标分析方法
US10067984B2 (en) Computerized system for evaluating technology stability
EP3509275A1 (en) Sensor data generation and response handling stack
CN103546319B (zh) 网络设备的流量告警方法和系统
CN115705406A (zh) 关联干扰事件与事故或凭单
CN111797141B (zh) 一种机票搜索流量异常的检测方法
CN114866137B (zh) 电力光缆网的检测方法及装置
Nenes et al. The economically designed CUSUM chart for monitoring short production runs
CN114721860B (zh) 一种基于图神经网络的微服务系统故障定位方法
JP7173273B2 (ja) 障害分析装置、障害分析方法および障害分析プログラム
US9031206B2 (en) Unusual event detection in a telecommunications network
US11915180B2 (en) Systems and methods for identifying an officer at risk of an adverse event
CN112905956B (zh) 一种基于电网运行特征分析的配网计量事件核对方法
AT&T Untitled
US9625613B2 (en) Weather determination system and method
US10338574B2 (en) System and method for identifying manufactured parts
CN117082383A (zh) 一种隐患检测方法、装置、电子设备和存储介质
CN116757520A (zh) 一种基于虚拟线路的台区线变关系预测方法
CN118038645A (zh) 一种水务事件报警生成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant