CN111797141B - 一种机票搜索流量异常的检测方法 - Google Patents
一种机票搜索流量异常的检测方法 Download PDFInfo
- Publication number
- CN111797141B CN111797141B CN202010639842.7A CN202010639842A CN111797141B CN 111797141 B CN111797141 B CN 111797141B CN 202010639842 A CN202010639842 A CN 202010639842A CN 111797141 B CN111797141 B CN 111797141B
- Authority
- CN
- China
- Prior art keywords
- channel
- period
- channels
- time period
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000005856 abnormality Effects 0.000 title claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 239000002699 waste material Substances 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Economics (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种机票搜索流量异常的检测方法。所述方法包括:从流量日志的搜索请求中获取渠道参数,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到第一时段每个渠道的请求数据,按照相同方法得到第二时段每个渠道的请求数据,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算二者差的绝对值ΔR(i,j),分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道。本发明能够基于流量日志中的搜索请求数据自动检测发生异常的渠道,有助于业务人员及时发现并采取措施,避免资源的浪费。
Description
技术领域
本发明属于机票查询技术领域,具体涉及一种机票搜索流量异常的检测方法。
背景技术
目前,在多数机票购买平台上,机票搜索的流量一般来自多个渠道,如手机客户端,网页端,微信端等。由于系统出错或遭到黑客攻击,经常出现一个或多个渠道的流量在某一时段急剧增大或减小的现象。系统出错的原因很多,如代码bug、网络、服务器资源异常等等。当发生错误时,产生的结果可能是搜索请求得不到及时返回,不断地重复发起请求,导致流量产生较大增加;也可能是搜索请求达不到后端,导致流量减少。遭受攻击的情况最可能的就是有第三方利用爬虫技术来获取航线航班数据,不断地发起各种搜索请求,导致流量增大。流量的异常增大并不会带来额外的订单量,相反可能影响正常用户的购票;特别是被爬虫爬取数据,几乎无法带来订单转化订单减少收益就会减少,流量增大却没有带来更多的订单就会造成资源浪费。
对于流量产生较大变化的情况,工作人员需要确认其原因,判断是否为系统错误或是遭受攻击等,以避免资源的浪费。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种机票搜索流量异常的检测方法。
为实现上述目的,本发明采用如下技术方案:
一种机票搜索流量异常的检测方法,包括以下步骤:
步骤1,从流量日志的搜索请求中获取请求时间及请求来源即渠道;
步骤2,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Xi={xi1,xi-2,…,xiN},i=1,2,…,M,M为渠道总数;
步骤3,选取起止时刻与第一时段均相同的第二时段,将第二时段划分成与第一时段相同的N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Yi={yi1,yi2,…,yiN};
步骤4,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|,1≤i<j≤M;
步骤5,分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,K≥1。
与现有技术相比,本发明具有以下有益效果:
本发明通过从流量日志中的搜索请求中获取渠道参数,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到第一时段每个渠道的请求数据,按照相同方法得到第二时段每个渠道的请求数据,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算二者差的绝对值ΔR(i,j),分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,实现了异常渠道的自动检测。本发明能够基于流量日志中的搜索请求数据自动检测发生异常的渠道,有助于业务人员及时发现并采取措施,避免资源的浪费。
附图说明
图1为本发明实施例一种机票搜索流量异常的检测方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种机票搜索流量异常的检测方法,流程图如图1所示,所述方法包括以下步骤:
S101、从流量日志的搜索请求中获取请求时间及请求来源即渠道;
S102、选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Xi={xi1,xi2,…,xiN},i=1,2,…,M,M为渠道总数;
S103、选取起止时刻与第一时段均相同的第二时段,将第二时段划分成与第一时段相同的N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Yi={yi1,yi2,…,yiN};
S104、分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|,1≤i<j≤M;
S105、分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,K≥1。
在本实施例中,步骤S101主要用于获取搜索请求的时间和渠道。流量日志中记录了搜索请求信号的时间及请求来源,也就是渠道,比如微信端、手机客户端等。除搜索请求参数之外,流量日志还有其它许多业务人员记录的各类参数,这些参数主要是用来排查问题,或是用作统计。本实施例只关心请求来源即渠道和请求次数。日志的条数即可代表请求次数,请求来源包含在请求参数里。渠道参数是用约定的字符串表示,用来表示搜索请求来自哪里,如“hbgj”表示航班管家APP。下面给出一个具体的流量日志:
2020-06-29
09:58:56-analyseSourceEntry=gwc_r_3_2_6_3_4&channelcode=hbgj&date=2020-07-01&dst=NKG&from=hbgj&org=CQS_C&p=BCHWzhihuiyun,android.9,hbgj,7.8.2,VKY-AL00&st=6&traceid=01ab5a63f3827001&transfer_msg=28,200&tripType=TB&uid=218898645043328&userid=109443828&xxxid=bKy27894
其中的“from=hbgj”表示这个请求的渠道参数为“hbgj”,即搜索请求来自航班管家APP。
在本实施例中,步骤S102主要用于统计选取的第一时段内各渠道的请求数据。首先,选取第一时段。选取的时段一般是一天中的一个时间段,比如从上午09:00到夜间23:00,也可以是一整天,如从00:00到24:00。当然也可以是跨天的,如晚上20:00到第二天早晨08:00。然后,将所选时段划分成N个区间。这N个区间的长度可以是相等的,也可以是不等的,比如间隔长度构成等差数列。最后,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据,比如,第i个渠道请求数据为Xi={xi1,xi2,…,xiN},xi-n为第i个渠道在第n个区间的请求次数。
在本实施例中,步骤S103主要用于统计选取的第二时段内各渠道的请求数据。由于渠道的请求次数与时间是紧密相关的,比如工作日每天同一时段内同一渠道的请求次数近似相等,因此第二时段的起止时间应该与第一时段相同,区间划分也相同,相当于第一时段在不同日期的一个COPY。第二时段与第一时段可以是相邻的两个日期,也可以是不相邻的两个日期,比如相邻的两个周一。选取时应遵循的原则是:一是这两个时段的特点一定要尽量接近,比如,不能一个是节假日,一个是工作日;二是相隔的日期要尽量近,比如最好能够是相邻两个日期。为了提高检测精度,还可以采用多个时段同一渠道请求数据的平均值作为一个时段的请求数据。第二时段第i个渠道请求数据记为Yi={yi1,yi2,…,yiN}。
在本实施例中,步骤S104主要用于计算不同渠道请求数据的相关性及不同时段相关性的变化量。首先,针对两个时段分别计算任意两个渠道请求数据的相关系数,比如第一时段第i个渠道请求数据Xi与第j个渠道请求数据Xj的相关系数R(Xi,Xj)。根据排列组合原理,每个时段都有个相关系数。因为R(Xi,Xj)=R(Xj,Xi),所以取1≤i<j≤M。正常情况下R(Xi,Xj)与R(Yi,Yj)应该比较接近,当第i个渠道或第j个渠道出现异常时,R(Xi,Xj)与R(Yi,Yj)的差值将会突变,因此可以通过考察差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|的大小判断出现异常的渠道,这就是本实施例检测异常渠道的原理。相关系数可以利用皮尔逊相关系数的计算公式进行计算。
在本实施例中,步骤S105主要用于确定异常渠道。由于异常渠道可能多于一个,而且只根据ΔR(i,j)异常无法确定i和j哪个渠道异常,为此,本实施例采取了如下方法:将ΔR(i,j)与设定的阈值进行比较,统计大于所述阈值的ΔR(i,j)中的渠道i、j(第i、j个渠道)出现的次数,出现次数最多的K个渠道为异常渠道。比如,大于所述阈值的ΔR(i,j)为ΔR(1,3)、ΔR(1,4)、ΔR(2,4)、ΔR(3,4)、ΔR(1,5),第1、2、3、4、5渠道出现的次数分别为3、1、2、3、1,如果K=2,则第1、4渠道为异常渠道。为了提高检测精度,也可以对次数进行加权求和。由于ΔR(i,j)的值越大,渠道i或j是异常渠道的可能性也越大,因此,加权系数就是包含所统计渠道的ΔR(i,j)值。比如,如果ΔR(i,j1)、ΔR(i,j2)、…、ΔR(i,jL)均大于所述阈值,则第i个渠道出现次数由L个改为:
作为一种可选实施例,所述渠道包括:微信端,手机端,网页端。
本实施例给出了几种具体的搜索请求渠道。微信端、手机端和网页端等都是常见的搜索请求渠道。渠道参数是以约定的字符串表达的,如:wexin(微信端);web(网页端);手机客户端,如hbgj(航班管家APP),gtgj(高铁管家APP)等。还有许多有特殊用途的请求,如calendar(价格日历,刷新数据需求),fenxiao(分销商的请求),recommend(机票推荐需要获取各类航线航班数据)等等。
作为一种可选实施例,第一时段起于08:00,止于18:00,等分成10个区间;第二时段滞后第一时段24小时。
本实施例给出了第一时段和第二时段的一种具体划分方法。值得说明的是,本实施例只是给出一种具体实例,以供参考,并不排斥和限制其它可行的选取方法。
作为一种可选实施例,R(Xi,Xj)的计算公式如下:
本实施例给出了计算任意两个渠道请求数据的相关系数的公式。本实施例采用的是皮尔逊积矩相关系数,简称皮尔逊相关系数,用于度量两个变量之间的相关程度,其值介于-1与1之间,大于0为正相关,小于0为负相关。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。
Claims (4)
1.一种机票搜索流量异常的检测方法,其特征在于,包括以下步骤:
步骤1,从流量日志的搜索请求中获取请求时间及请求来源即渠道;
步骤2,选取第一时段,将第一时段划分成N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Xi={xi1,xi2,…,xiN},i=1,2,…,M,M为渠道总数;
步骤3,选取起止时刻与第一时段均相同的第二时段,将第二时段划分成与第一时段相同的N个区间,统计每个渠道在每个区间内的请求次数,得到每个渠道的请求数据Yi={yi1,yi2,…,yiN};
步骤4,分别针对第一时段和第二时段计算任意两个渠道请求数据的相关系数R(Xi,Xj)和R(Yi,Yj),并计算差值ΔR(i,j)=|R(Xi,Xj)-R(Yi,Yj)|,1≤i<j≤M;
步骤5,分别统计大于设定阈值的ΔR(i,j)中各个渠道i、j出现的次数,出现次数最多的K个渠道为异常渠道,K≥1。
2.根据权利要求1所述的机票搜索流量异常的检测方法,其特征在于,所述渠道包括:微信端,手机端,网页端。
3.根据权利要求1所述的机票搜索流量异常的检测方法,其特征在于,第一时段起于08:00,止于18:00,等分成10个区间;第二时段滞后第一时段24小时。
4.根据权利要求1所述的机票搜索流量异常的检测方法,其特征在于,R(Xi,Xj)的计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639842.7A CN111797141B (zh) | 2020-07-06 | 2020-07-06 | 一种机票搜索流量异常的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639842.7A CN111797141B (zh) | 2020-07-06 | 2020-07-06 | 一种机票搜索流量异常的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797141A CN111797141A (zh) | 2020-10-20 |
CN111797141B true CN111797141B (zh) | 2023-09-22 |
Family
ID=72811188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010639842.7A Active CN111797141B (zh) | 2020-07-06 | 2020-07-06 | 一种机票搜索流量异常的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797141B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106612202A (zh) * | 2015-10-27 | 2017-05-03 | 网易(杭州)网络有限公司 | 一种网游渠道刷量的预估判别方法及系统 |
CN107634952A (zh) * | 2017-09-22 | 2018-01-26 | 广东欧珀移动通信有限公司 | 刷量资源确定方法及装置 |
CN108122116A (zh) * | 2016-11-29 | 2018-06-05 | 腾讯科技(深圳)有限公司 | 一种产品推广渠道的监管方法及系统 |
CN109034244A (zh) * | 2018-07-27 | 2018-12-18 | 国家电网有限公司 | 基于电量曲线特征模型的线损异常诊断方法及装置 |
CN109561052A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 网站异常流量的检测方法及装置 |
CN110189165A (zh) * | 2019-05-14 | 2019-08-30 | 微梦创科网络科技(中国)有限公司 | 渠道异常用户和异常渠道识别方法及装置 |
CN110197430A (zh) * | 2019-06-06 | 2019-09-03 | 深圳萨摩耶互联网金融服务有限公司 | 一种基于资金业务系统的资金业务监控方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL2015680B1 (en) * | 2015-10-29 | 2017-05-31 | Opt/Net Consulting B V | Anomaly detection in a data stream. |
-
2020
- 2020-07-06 CN CN202010639842.7A patent/CN111797141B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106612202A (zh) * | 2015-10-27 | 2017-05-03 | 网易(杭州)网络有限公司 | 一种网游渠道刷量的预估判别方法及系统 |
CN108122116A (zh) * | 2016-11-29 | 2018-06-05 | 腾讯科技(深圳)有限公司 | 一种产品推广渠道的监管方法及系统 |
CN107634952A (zh) * | 2017-09-22 | 2018-01-26 | 广东欧珀移动通信有限公司 | 刷量资源确定方法及装置 |
CN109561052A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 网站异常流量的检测方法及装置 |
CN109034244A (zh) * | 2018-07-27 | 2018-12-18 | 国家电网有限公司 | 基于电量曲线特征模型的线损异常诊断方法及装置 |
CN110189165A (zh) * | 2019-05-14 | 2019-08-30 | 微梦创科网络科技(中国)有限公司 | 渠道异常用户和异常渠道识别方法及装置 |
CN110197430A (zh) * | 2019-06-06 | 2019-09-03 | 深圳萨摩耶互联网金融服务有限公司 | 一种基于资金业务系统的资金业务监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111797141A (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10248528B2 (en) | System monitoring method and apparatus | |
US8064364B2 (en) | Automated network condition identification | |
Hejase et al. | Time‐Series Regression Model for Prediction of Mean Daily Global Solar Radiation in Al‐Ain, UAE | |
CN114024837A (zh) | 一种微服务系统的故障根因定位方法 | |
Chen et al. | DAD-MCNN: DDoS attack detection via multi-channel CNN | |
Gertsbakh et al. | Stochastic models of network survivability | |
CN107391515A (zh) | 基于关联规则分析的电力系统指标分析方法 | |
US10067984B2 (en) | Computerized system for evaluating technology stability | |
EP3509275A1 (en) | Sensor data generation and response handling stack | |
CN103546319B (zh) | 网络设备的流量告警方法和系统 | |
CN115705406A (zh) | 关联干扰事件与事故或凭单 | |
CN111797141B (zh) | 一种机票搜索流量异常的检测方法 | |
CN114866137B (zh) | 电力光缆网的检测方法及装置 | |
Nenes et al. | The economically designed CUSUM chart for monitoring short production runs | |
CN114721860B (zh) | 一种基于图神经网络的微服务系统故障定位方法 | |
JP7173273B2 (ja) | 障害分析装置、障害分析方法および障害分析プログラム | |
US9031206B2 (en) | Unusual event detection in a telecommunications network | |
US11915180B2 (en) | Systems and methods for identifying an officer at risk of an adverse event | |
CN112905956B (zh) | 一种基于电网运行特征分析的配网计量事件核对方法 | |
AT&T | Untitled | |
US9625613B2 (en) | Weather determination system and method | |
US10338574B2 (en) | System and method for identifying manufactured parts | |
CN117082383A (zh) | 一种隐患检测方法、装置、电子设备和存储介质 | |
CN116757520A (zh) | 一种基于虚拟线路的台区线变关系预测方法 | |
CN118038645A (zh) | 一种水务事件报警生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |