CN108985482A - 监测异常查询的方法和系统 - Google Patents

监测异常查询的方法和系统 Download PDF

Info

Publication number
CN108985482A
CN108985482A CN201710400758.8A CN201710400758A CN108985482A CN 108985482 A CN108985482 A CN 108985482A CN 201710400758 A CN201710400758 A CN 201710400758A CN 108985482 A CN108985482 A CN 108985482A
Authority
CN
China
Prior art keywords
queries
month
user
value
moon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710400758.8A
Other languages
English (en)
Inventor
李建星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710400758.8A priority Critical patent/CN108985482A/zh
Publication of CN108985482A publication Critical patent/CN108985482A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种监测异常查询的方法和系统。该方法包括:保存用户的指定历史时段内的查询量数据;采用用户所属的群组对应的补充缺失值方式对查询量数据中的缺失值进行补充;根据预先确定的多种预测算法计算所述用户的月查询量的预测值,以及计算所述预测值与真实值的误差系数,再根据该误差系数选择适用于所述用户的预测算法;获取所述用户在指定月份的月查询量;以及使用适用于所述用户的预测算法,根据所述指定月份的最近多个月的月查询量数据计算所述用户在该指定月份的月查询量的预测值,在该指定月份的月查询量达到该指定月份的月查询量的预测值的情况下确认所述用户在该指定月份为异常查询用户。

Description

监测异常查询的方法和系统
技术领域
本发明涉及计算机软件以及计算机网络技术领域,特别地涉及一种监测异常查询的方法和系统。
背景技术
在企业或单位内部,相关业务数据信息一般会建立数据查询系统,将存储和加工好的数据提供给相关使用者做数据查询和下载等。其中针对明细类数据查询,由于查询结果包含较多的详细信息,要求使用者除业务使用外不得将明细数据作其他用途。但是违规查询情况仍时有发生,例如查询大量非工作需要数据另做它用。因此需要找到一种方法分析查询行为,对异常查询行为进行监测。
比如:企业内部的订单查询系统,该系统提供内部业务人员查询订单明细,如输入一个订单号,返回该订单的详细信息,包括:下单时间、订单状态、下单人的账号、收货人姓名、收货人联系方式、收货地址、订单类型、商品名称、商品数据、订单金额、配送站、配送员等等。
正常情况下,当业务人员根据工作需要查看该订单信息,比如某订单的订单状态是缺货暂停,该业务人员随后可以通知客户,并且联系内部采销人员去安排采购商品。
异常违规查询的例子,比如某系统使用人员没有实际业务需求,而查询系统信息,获取大量订单明细信息,然后将信息转卖给三方进行盈利,因此造成信息泄露,企业遭受损失。
除上述举例的订单查询系统外,其他系统也有类似情况,如:用户画像查询系统、SKU商品信息查询系统等,也容易发生上述异常违规查询的情况。
目前的违规问题是仅靠对人员加强管理,或者通过业务经验判断等传统方法是不够的,如何准确的定位正常查询和异常查询行为,成为了一个重要的课题。
现有技术方案的依赖运营经验的判断,主要是根据历史查询量数据设置查询量阈值,若当前的查询量超出该阈值,则判定为异常查询。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
1、应用场景简单,只适用于用户每天连续查询的情况。
2、阈值设置逻辑简单,并且预测结果精度低、稳定性差。
发明内容
有鉴于此,本发明实施例提供一种监测异常查询的方法和系统,以克服现有技术中的上述种种不足之处。
为实现上述目的,本发明实施例提供如下技术方案:
一种监测异常查询的方法,包括:保存用户的指定历史时段内的查询量数据;根据预先确定的用户特征人群划分方式确定所述用户所属的群组,采用该群组对应的补充缺失值方式对所述查询量数据中的缺失值进行补充;根据预先确定的多种预测算法计算所述用户的月查询量的预测值,以及计算所述预测值与真实值的误差系数,再根据该误差系数选择适用于所述用户的预测算法;获取所述用户在指定月份的月查询量;以及使用适用于所述用户的预测算法,根据所述指定月份的最近多个月的月查询量数据计算所述用户在该指定月份的月查询量的预测值,在该指定月份的月查询量达到该指定月份的月查询量的预测值的情况下确认所述用户在该指定月份为异常查询用户。
可选地,还包括:获取所述用户在指定月份的指定日的日查询量,并且计算所述用户在该指定月份的日查询量峰值的预测值,在该日查询量达到该指定月份的日查询量峰值的预测值的情况下确认所述用户在该指定日为异常查询用户。
可选地,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
可选地,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;Δi(i=0,1,2,…,n-2)为每个月与上个月查询量的差值;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值;Xij表示第i个用户第j个月的实际查询量;然后取所述多个W值中的最小值对应的r值作为所述R的取值。
可选地,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值,该下一个月为所述指定月份;Xij表示第i个用户第j个月的实际查询量;然后取所述多个W值中的最小值对应的r值作为所述R的取值。
可选地,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;当n为偶数时,n’=n/2,当n为奇数时,n’=(n+1)/2;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
可选地,计算所述预测值与真实值的误差系数的步骤包括使用如下公式进行计算:
其中,n为数据组数,为预测值,Xi为真实值,σ为所述误差系数。
可选地,计算所述用户在该指定月份的日查询量峰值的预测值的步骤包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;di为每个月的日查询量峰值;表示下一个月的日查询量峰值的预测值。
一种监测异常查询的系统,包括:数据采集模块,用于保存用户的指定历史时段内的查询量数据;数据预处理模块,用于根据预先确定的用户特征人群划分方式确定所述用户所属的群组,采用该群组对应的补充缺失值方式对所述查询量数据中的缺失值进行补充;异常查询监测模块,用于:根据预先确定的多种预测算法计算所述用户的月查询量的预测值,以及计算所述预测值与真实值的误差系数,再根据该误差系数选择适用于所述用户的预测算法;获取所述用户在指定月份的月查询量;以及使用适用于所述用户的预测算法,根据所述指定月份的最近多个月的月查询量数据计算所述用户在该指定月份的月查询量的预测值,在该指定月份的月查询量达到该指定月份的月查询量的预测值的情况下确认所述用户在该指定月份为异常查询用户。
可选地,所述异常查询监测模块还用于:获取所述用户在指定月份的指定日的日查询量,并且计算所述用户在该指定月份的日查询量峰值的预测值,在该日查询量达到该指定月份的日查询量峰值的预测值的情况下确认所述用户在该指定日为异常查询用户。
可选地,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
可选地,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;Δi(i=0,1,2,…,n-2)为每个月与上个月查询量的差值;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值;Xij表示第i个用户第j个月的实际查询量;然后取所述多个W值中的最小值对应的r值作为所述R的取值。
可选地,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值,该下一个月为所述指定月份;Xij表示第i个用户第j个月的实际查询量;然后取所述多个W值中的最小值对应的r值作为所述R的取值。
可选地,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;当n为偶数时,n’=n/2,当n为奇数时,n’=(n+1)/2;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
可选地,所述异常查询监测模块还用于使用如下公式计算所述预测值与真实值的误差系数:
其中,n为数据组数,为预测值,Xi为真实值,σ为所述误差系数。
可选地,所述异常查询监测模块还用于使用如下公式计算所述用户在该指定月份的日查询量峰值的预测值:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;di为每个月的日查询量峰值;表示下一个月的日查询量峰值的预测值。
一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的方法。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如本发明实施例所述的方法。
根据本发明实施例的技术方案,基于数据建模的方式实现了一个对系统查询量监测的系统,解决了对系统用户异常查询的监测问题,可以帮助企业的质控和稽查人员有效的识别风险用户,规避信息泄露等风险。扩大了应用范围,更符合实际工作查询情况。在本发明的实施例中,对业务人群按特征分群并做缺失值补充的处理,并根据查询量数据特征实现四种算法综合预测月查询量。通过本发明实施例的方法做出的查询量预测系统在预测准确度和稳定性上均更符合实际业务的使用需求。最后,本发明实施例的适用范围不限于应用系统的环境(单机、多机)、数据存储方式(表或者文件)、以及系统的不同部署方式(在线或离线)等等,只要有类似的查询量监测的业务场景,均可以使用本发明实施例的技术方案,因此具备一定的通用性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种监测异常查询的方法的基本步骤的示意图;
图2是根据本发明实施例的一种监测异常查询的系统的基本架构的示意图;
图3是根据本发明实施例的一种监测异常查询的系统的运行流程的示意图;
图4是根据本发明实施例的用户月查询量预测功能的实现流程的示意图;
图5是与本发明实施例有关的一种查询量数据分布的示意图;
图6是根据本发明实施例的用户的最近24月查询量趋势的示意图;
图7是根据本发明实施例的用户的日查询量的示意图;
图8是根据本发明实施例的监测异常查询的系统的运行流程的示意图;
图9示出了可以应用本发明实施例的监测异常查询方法或监测异常查询装置的示例性系统架构;
图10是根据本发明实施例的监测异常查询的方法的电子设备的硬件结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种监测异常查询的方法的基本步骤的示意图。如图1所示,该方法主要包括:
步骤S101:保存用户的指定历史时段内的查询量数据。
步骤S102:根据预先确定的用户特征人群划分方式确定该用户所属的群组。
步骤S103:采用该群组对应的补充缺失值方式对上述查询量数据中的缺失值进行补充。
步骤S104:根据预先确定的多种预测算法计算该用户的月查询量的预测值。
步骤S105:计算上述预测值与真实值的误差系数。
步骤S106:根据该误差系数选择适用于该用户的预测算法。
步骤S107:获取上述用户在指定月份的月查询量。
步骤S108:使用适用于上述用户的预测算法,根据上述指定月份的最近多个月的月查询量数据计算上述用户在该指定月份的月查询量的预测值。这里的最近多个月是指从指定月份起向历史上溯多个月。
步骤S109:在该指定月份的月查询量达到该指定月份的月查询量的预测值的情况下确认上述用户在该指定月份为异常查询用户。
以上流程是针对一个用户进行的处理方式,在中间的计算过程中可利用关于其他用户的数据。对需要监测的每个用户都可以按上述流程进行处理。
在步骤S109中,是根据月查询量进行监测,此外还可以根据日查询量峰值来监测。日查询量峰值的预测值是根据月查询量来计算。相关步骤同示于图1中,仍以前述步骤中的用户为例。
步骤S110:获取上述用户在指定月份的指定日的日查询量。
步骤S111:计算上述用户在该指定月份的日查询量峰值的预测值。
步骤S112:在该日查询量达到该指定月份的日查询量峰值的预测值的情况下确认上述用户在该指定日为异常查询用户。
以下对于本发明实施例的技术方案做进一步详细说明。
图2是根据本发明实施例的一种监测异常查询的系统的基本架构的示意图。如图2所示,监测异常查询的系统20主要包括数据采集模块、数据预处理模块、异常查询监测模块、以及监测结果输出模块。以下说明各模块的主要功能。
数据采集模块:此模块负责采集用户访问系统的原始查询数据,数据内容为过去最近历史3年中每个用户按每月统计的查询量的数据结果,此数据采集结果应用到“数据预处理模块”中。
数据预处理模块:此模块负责对上一步采集到的原始查询量数据进行“数据缺失值补充”的处理,处理之前先经过对用户特征分组的识别,进而采用不同的处理方法,本模块处理之后的数据结果作为异常查询监测模块的输入。
异常查询监测模块:此模块负责执行三部分功能,包括“用户月查询预测功能”、“用户日查询峰值预测功能”、以及“异常查询判定功能”。通过以上三部分的功能实现异常查询的判定。
预测结果输出模块:此模块负责将异常查询的监测结果输出。
图3是根据本发明实施例的一种监测异常查询的系统的运行流程的示意图。以下结合图3,对各模块的功能和运行方式做出说明。
数据采集模块:此模块负责采集用户查询系统的查询量数据,包括2部分数据。查询量数据中的第一部分数据内容为按每人每月进线量的形成查询量矩阵S。
查询量矩阵S,有m个查询用户,k个查询月,其中aij(1≤i≤m,1≤j≤k),表示第i个用户在第j个月份的查询量。
采集数据结果表样可如表1所示,第1行表示时间,例如201301表示2013年01月。
表1
201301 201302 201303 201304 201305 201306 201307
用户1 2847 2418 2260 2211 2108 1989 1863
用户2 1766 1419 1403 1394 1391 1389 1360
用户3 1338 1322 1317 1029 884 870 824
用户4 809 804 785 769 758 747 738
用户5 714 706 704 633 626 580 563
用户6 546 544 541 538 532 522 509
用户7 481 481 476 476 462 462 458
采集方式:可通过etl工具连接数据库后,用sql方式获取数据结果。
存储方式:采集数据后可用文本文件形式存储到系统中。
举例如下:
文件1.txt:存储N月至N-35月共36个月的数据,
用于后续预测算法的输入和拟合度评估。
说明:第N月指的是距当前最近的一个月,例如,今天日期是2017年03月15日,则第N月指的是2017年02月。
查询量数据中的第二部分数据内容为每个用户的最近24个月每月的日查询峰值,存储为文件2.txt。
本模块的主要功能是对采集的查询量数据(文件1.txt),用于预测算法前,进行缺失值补充。通过数据分析后将用户按活跃程度划分为六大特征人群,对不同人群进行不同的补充方案。
关于用户特征群划分,本发明实施例中可采用表2所示的方式进行:
表2
人群分类方法:通过sql查询,设置相关查询条件,获取用户的id。
得到人员6个群组:组1、组2、组3、组4、组5、组6。
每个群组包括对应类型的用户id。
从表2可以看出在无查询记录的情况下存在缺失值,因此数据采集模块提供补充缺失值功能。其中,根据划分人群的查询数据特点,将按不同的方式处理,如表3所示。
表3
补充缺失值功能在实现时可采用如下步骤进行:
步骤1:sql查询获取人员群组1下的所有用户id;
步骤2:查询上一步获取的用户id的查询矩阵的查询量数据;
步骤3:根据该群组1对应的缺失值规则执行补充数据;
步骤4:循环执行群组2-6,完成所有群组的用户id的查询量数据缺失值补充。
异常查询监测模块主要提供用户月查询量预测功能、用户日查询量峰值预测功能、以及异常查询判定功能。以下分别加以说明。
异常查询监测模块的主要功能是通过建立预测模型,实现对用户月查询量数据的预测,使用的数据是上一步修正之后的数据,本发明实施例中使用四种算法来分别做测算,最终使用拟合效果最好的模型。用户月查询量预测功能的实现流程如图4所示,图4是根据本发明实施例的用户月查询量预测功能的实现流程的示意图。以下结合图4对本发明实施例的用户月查询量预测功能的实现加以说明。
异常查询监测模块中采用四种算法是根据查询量数据分布特点命名,分别是:平稳型、增长型、小幅跳跃型、周期跳跃型。图5是与本发明实施例有关的一种查询量数据分布的示意图。通过人员观察查询量曲线,可以对查询量数据分布特点作一个大致的确定,例如图5所示的曲线,可以初步确定其为增长型。但是从后文的描述可以看出,对于具体的用户,需根据预测效果来最终确定其查询量分布的特点,并基于该特点对应的预测算法对该用户的查询量进行监测。
下面分别对四种算法加以说明,其中可采用用户最近n个月的实际查询量,在以下的说明中,以采用用户最近24个月的实际查询量进行处理为例。
a.平稳型:即查询量趋势比较平衡,本发明实施例中提出使用简单平均算法来预测,其计算公式如下:
其中,Xi(i=0,1,2,…,23)表示用户最近24个月的实际查询量;表示下一个月的月预测值;N为调整系数,取值在1至1.2之间,下同;Std为24个月的查询量的标准差。
b.增长型:即查询量明显增长趋势,本发明实施例中提出使用月度差分加权移动平均算法来预测,其计算公式如下:
其中,Xi(i=0,1,2,…,23)表示用户最近24个月的实际查询量;表示下一个月的月预测值;Δi(i=0,1,2,…,n-2)为每个月与上个月查询量的差值;N为调整系数;Std为24个月的查询量的标准差;R表示指数权重,取值范围为(0,1)。
c.小幅跳跃型:即查询量总体平稳,但是偶尔会发生波动,但波动幅度较小,本发明实施例中提出采用指数加权移动平均算法来预测,其计算公式如下:
其中,Xi(i=0,1,2,…,23)表示用户最近24个月的实际查询量;表示下一个月的月预测值;N为调整系数;Std为24个月的查询量的标准差;R表示指数权重,取值范围为(0,1)。
关于指数权重R的取值计算方式为:
其中,m为用户总数,该总数可预先选择;表示第i个用户的下一个月的月预测值;Xij表示第i个用户第j个月的实际查询量;N为调整系数;r在区间(0,1)中取多个值,例如取0.01,0.02,…,0.99,这样每次共计算99次,得到多个W,从该多个W中取最小W值即min(W)值,该值对应的r值,作为指数权重R的取值。
d.周期跳跃型:即查询量呈现周期性的特点,本发明实施例中提出采用年度差分方法,针对每一个用户的计算公式为:
其中,Xi(i=0,1,2,…,23)表示用户最近24个月的实际查询量;表示下一个月的月预测值;N为调整系数;Std为24个月的查询量的标准差。
以上四种算法涵盖实际中大部分用户查询量特征,能够做到使用效果较好,另外本发明实施例中的系统以后可以根据业务特点不断扩充本模块的预测算法,即不限于以上四种算法,根据下文中的误差计算,新扩充的算法只要有较小的误差即可考虑采用。
以上算法循环计算12次,分别预测出最近12个月的预测结果,用来在以下的最优拟合计算中使用。以下对最优拟合计算的方法做出说明。
在本发明实施例中,通过预测值和实际测量值建立误差公式来对以上四种预测结果进行拟合效果判断,计算公式为:
其中,n为数据组数,为预测值,Xi为实际值,σ为误差系数,值在0到1之间,越接近0,说明与真实值越接近,拟合效果越好。
本发明实施例中最优拟合值的计算步骤是:
第1步,采用n=12,即预测出最近12月的查询量数据,与最近12月的真实查询量结果数据进行最优拟合计算,得到最优的拟合数据值,即最小σ对应的拟合算法。
设置flag代表相应的算法类型,flag=1计算上述第1种算法对应的σ值,结果记为σ1,如此类推,用上述四种算法中的每种算法计算分别得到对应的σ1、σ2、σ3、σ4,取其中的最小值后获取算法标记值flag:
flag=1,代表平稳型
flag=2,代表增长型
flag=3,代表小幅波动型
flag=4,代表周期波动型
也就是说,哪种算法取得的σ值,即哪种算法作为最优拟合算法。
第2步,根据上一步获取的最优拟合算法flag,使用最优拟合算法和距离指定月份最近的前24个月的查询量数据,预测该指定月份的下一个月的查询量预测值。
以上是对异常查询监测模块的月查询量预测功能的说明。该模块的另一功能是日查询量峰值预测功能,该功能是通过对上一步得到的月查询量预测的结果,推算至日查询量峰值预测,才能达到更好的监测需要。根据最近24个月的实际查询量数据为例,日查询量峰值的计算公式为:
其中,Xi(i=0,1,2,…,23)表示用户最近24个月的实际查询量;表示下一个月的月预测值;di为每个月的日查询峰值;表示预测的下个月的日查询量峰值。
异常查询监测模块的另一功能是异常查询判定功能。在该功能中,对当前月的查询量和当日查询量与预测值结果进行比较,当超出预测值则判定为异常查询。具体步骤如下(仍以24个月的数据为例):
步骤A:获取月度预测值和日查询峰值预测值
步骤B:系统每15分钟获取实际查询累计量,按用户统计截止到当前时刻,当月实际累计查询量Y和当日实际累计查询量e。
步骤C:进行异常查询监测判定。异常判定的标准是:当月实际累计查询量大于等于月预测查询量,或者当日实际累计查询量大于等于日查询量峰值的预测值,则判定为系统异常查询用户。
本发明实施例中的监测异常查询的系统20的另一模块是预测结果输出模块。本模块主要功能是实现输出异常查询用户列表和该用户的当月实际累计查询量、当日实际累计查询量、月度查询量预测值、日峰值查询量预测值的结果。
输出的用户列表可如表4所示:
表4
异常查询用户账号
账号1
账号2
账号3
账号4
账号5
账号6
账号7
账号8
账号9
账号10
……
输出用户列表可以用文件形式导出,例如导出为:异常用户名单.txt。
对于指定的某用户,其统计数据可以用图表方式输出,如图6和图7所示。图6是根据本发明实施例的用户的最近24月查询量趋势的示意图。图中水平虚线表示对2016年9月的预测值,从2014年8月到2016年9月每月的实际查询量在描点之后用折线连接。从图中可以看出2016年9月的实际查询量明显大于预测值,据此可以判定该用户9月存在异常查询的行为。
图7是根据本发明实施例的用户的日查询量的示意图。如图7所示,每15分钟读取查询量至当前时刻的累计值,从0:15至11:30在图中描点形成曲线;水平虚线表示当日查询量峰值的预测值。从图中可以看出,截止到9月7日11:30,该用户当天的查询量尚未到达当日查询量峰值的预测值。但该用户是否存在异常查询的行为,仍有待观察。
图8是根据本发明实施例的监测异常查询的系统的运行流程的示意图。如图8所示,在该流程中,首先采集数据以及进行缺失值补充,然后执行用户月查询量预测功能以得出用户下月查询量预测结果;并从历史数据中获取最近24个月中每月的日查询功能以及实际查询量,结合用户下月查询量预测结果得到用户日查询量峰值的预测值;根据上述预测值,对当月累计实际查询量和当日累计查询量进行异常查询判定以及出判定结果。
根据本发明的实施例,还提供了一种电子设备和一种可读存储介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的监测异常查询的方法。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如本发明所提供的监测异常查询的方法。
图9示出了可以应用本发明实施例的监测异常查询方法或监测异常查询装置的示例性系统架构900。
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的监测异常查询方法一般由服务器905执行,但在可实现的情况下,也可以由上述的终端设备来执行。相应地,监测异常查询装置一般设置于服务器905中,也可以设置在上述的终端设备中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图10是根据本发明实施例的监测异常查询的方法的电子设备的硬件结构示意图。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备的计算机系统1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据采集模块、数据预处理模块、异常查询监测模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,数据采集模块还可以被描述为“用于保存用户的指定历史时段内的查询量数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备能够执行前文所述的本发明实施例中的监测异常查询的方法。
根据本发明实施例的技术方案,基于数据建模的方式实现了一个对系统查询量监测的系统,解决了对系统用户异常查询的监测问题,可以帮助企业的质控和稽查人员有效的识别风险用户,规避信息泄露等风险。扩大了应用范围,更符合实际工作查询情况。在本发明的实施例中,对业务人群按特征分群并做缺失值补充的处理,并根据查询量数据特征实现四种算法综合预测月查询量。通过本发明实施例的方法做出的查询量预测系统在预测准确度和稳定性上均更符合实际业务的使用需求。最后,本发明实施例的适用范围不限于应用系统的环境(单机、多机)、数据存储方式(表或者文件)、以及系统的不同部署方式(在线或离线)等等,只要有类似的查询量监测的业务场景,均可以使用本发明实施例的技术方案,因此具备一定的通用性。
上述具体实施例,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (18)

1.一种监测异常查询的方法,其特征在于,包括:
保存用户的指定历史时段内的查询量数据;
根据预先确定的用户特征人群划分方式确定所述用户所属的群组,采用该群组对应的补充缺失值方式对所述查询量数据中的缺失值进行补充;
根据预先确定的多种预测算法计算所述用户的月查询量的预测值,以及计算所述预测值与真实值的误差系数,再根据该误差系数选择适用于所述用户的预测算法;
获取所述用户在指定月份的月查询量;以及使用适用于所述用户的预测算法,根据所述指定月份的最近多个月的月查询量数据计算所述用户在该指定月份的月查询量的预测值,在该指定月份的月查询量达到该指定月份的月查询量的预测值的情况下确认所述用户在该指定月份为异常查询用户。
2.根据权利要求1所述的监测异常查询的方法,其特征在于,还包括:
获取所述用户在指定月份的指定日的日查询量,并且计算所述用户在该指定月份的日查询量峰值的预测值,在该日查询量达到该指定月份的日查询量峰值的预测值的情况下确认所述用户在该指定日为异常查询用户。
3.根据权利要求1或2所述的监测异常查询的方法,其特征在于,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
4.根据权利要求1或2所述的监测异常查询的方法,其特征在于,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;Δi(i=0,1,2,…,n-2)为每个月与上个月查询量的差值;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:
先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值;Xij表示第i个用户第j个月的实际查询量;然后取所述多个W值中的最小值对应的r值作为所述R的取值。
5.根据权利要求1或2所述的监测异常查询的方法,其特征在于,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:
先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值,该下一个月为所述指定月份;Xij表示第i个用户第j个月的实际查询量;
然后取所述多个W值中的最小值对应的r值作为所述R的取值。
6.根据权利要求1或2所述的监测异常查询的方法,其特征在于,所述预测算法包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;当n为偶数时,n’=n/2,当n为奇数时,n’=(n+1)/2;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
7.根据权利要求1或2所述的监测异常查询的方法,其特征在于,计算所述预测值与真实值的误差系数的步骤包括使用如下公式进行计算:
其中,n为数据组数,为预测值,Xi为真实值,σ为所述误差系数。
8.根据权利要求2所述的监测异常查询的方法,其特征在于,计算所述用户在该指定月份的日查询量峰值的预测值的步骤包括使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;di为每个月的日查询量峰值;表示下一个月的日查询量峰值的预测值。
9.一种监测异常查询的系统,其特征在于,包括:
数据采集模块,用于保存用户的指定历史时段内的查询量数据;
数据预处理模块,用于根据预先确定的用户特征人群划分方式确定所述用户所属的群组,采用该群组对应的补充缺失值方式对所述查询量数据中的缺失值进行补充;
异常查询监测模块,用于:根据预先确定的多种预测算法计算所述用户的月查询量的预测值,以及计算所述预测值与真实值的误差系数,再根据该误差系数选择适用于所述用户的预测算法;获取所述用户在指定月份的月查询量;以及使用适用于所述用户的预测算法,根据所述指定月份的最近多个月的月查询量数据计算所述用户在该指定月份的月查询量的预测值,在该指定月份的月查询量达到该指定月份的月查询量的预测值的情况下确认所述用户在该指定月份为异常查询用户。
10.根据权利要求9所述的监测异常查询的系统,其特征在于,所述异常查询监测模块还用于:
获取所述用户在指定月份的指定日的日查询量,并且计算所述用户在该指定月份的日查询量峰值的预测值,在该日查询量达到该指定月份的日查询量峰值的预测值的情况下确认所述用户在该指定日为异常查询用户。
11.根据权利要求9或10所述的监测异常查询的系统,其特征在于,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
12.根据权利要求9或10所述的监测异常查询的系统,其特征在于,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;Δi(i=0,1,2,…,n-2)为每个月与上个月查询量的差值;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:
先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值;Xij表示第i个用户第j个月的实际查询量;然后取所述多个W值中的最小值对应的r值作为所述R的取值。
13.根据权利要求9或10所述的监测异常查询的系统,其特征在于,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差;R表示指数权重,取值按如下步骤得出:
先根据如下公式,针对r在区间(0,1)中取多个值时计算每个r的取值对应的W以得到多个W值:
其中,m为设定的用户总数;表示第i个用户的下一个月的月查询量的预测值,该下一个月为所述指定月份;Xij表示第i个用户第j个月的实际查询量;
然后取所述多个W值中的最小值对应的r值作为所述R的取值。
14.根据权利要求9或10所述的监测异常查询的系统,其特征在于,所述异常查询监测模块还用于使用如下公式进行计算:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;当n为偶数时,n’=n/2,当n为奇数时,n’=(n+1)/2;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;N为预设的调整系数;Std为n个月的查询量的标准差。
15.根据权利要求9或10所述的监测异常查询的系统,其特征在于,所述异常查询监测模块还用于使用如下公式计算所述预测值与真实值的误差系数:
其中,n为数据组数,为预测值,Xi为真实值,σ为所述误差系数。
16.根据权利要求10所述的监测异常查询的系统,其特征在于,所述异常查询监测模块还用于使用如下公式计算所述用户在该指定月份的日查询量峰值的预测值:
其中,Xi(i=0,1,2,…,n-1)表示用户最近n个月的实际查询量,n为自然数;表示下一个月的月查询量的预测值,该下一个月为所述指定月份;di为每个月的日查询量峰值;表示下一个月的日查询量峰值的预测值。
17.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201710400758.8A 2017-05-31 2017-05-31 监测异常查询的方法和系统 Withdrawn CN108985482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710400758.8A CN108985482A (zh) 2017-05-31 2017-05-31 监测异常查询的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710400758.8A CN108985482A (zh) 2017-05-31 2017-05-31 监测异常查询的方法和系统

Publications (1)

Publication Number Publication Date
CN108985482A true CN108985482A (zh) 2018-12-11

Family

ID=64501385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710400758.8A Withdrawn CN108985482A (zh) 2017-05-31 2017-05-31 监测异常查询的方法和系统

Country Status (1)

Country Link
CN (1) CN108985482A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674014A (zh) * 2019-09-16 2020-01-10 中国银联股份有限公司 一种确定异常查询请求的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100980117B1 (ko) * 2010-06-25 2010-09-07 (주)뉴데이소프트 내부정보 유출위협 분석방법
CN103533521A (zh) * 2013-09-30 2014-01-22 重庆梅安森科技股份有限公司 煤矿安全监控数据远程查询系统及其查询和预警方法
CN105957271A (zh) * 2015-12-21 2016-09-21 中国银联股份有限公司 一种金融终端安全防护方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100980117B1 (ko) * 2010-06-25 2010-09-07 (주)뉴데이소프트 내부정보 유출위협 분석방법
CN103533521A (zh) * 2013-09-30 2014-01-22 重庆梅安森科技股份有限公司 煤矿安全监控数据远程查询系统及其查询和预警方法
CN105957271A (zh) * 2015-12-21 2016-09-21 中国银联股份有限公司 一种金融终端安全防护方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚前 等: "基于数据挖掘的个人征信系统异常查询实时监测模型及其应用", 《大数据》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674014A (zh) * 2019-09-16 2020-01-10 中国银联股份有限公司 一种确定异常查询请求的方法及装置

Similar Documents

Publication Publication Date Title
US10896203B2 (en) Digital analytics system
CN106570778B (zh) 一种基于大数据的数据集成与线损分析计算的方法
Wang et al. Optimal ordering policy for a price-setting newsvendor with option contracts under demand uncertainty
CN109840730B (zh) 用于数据预测的方法及装置
JP2015528946A (ja) サプライチェーンを制御する方法及びシステム
Cao et al. Modelling on service capability maturity and resource configuration for public warehouse product service systems
Marques et al. Combining optimization and simulation tools for short-term planning of forest operations
KR20170099078A (ko) 생산관리시스템(mes)의 제조생산설비 수집정보를 활용한 빅데이터 기반 경영예측 플랫폼 시스템
CN113627846A (zh) 一种库存调整方法、装置、电子设备及计算机可读介质
Gupta et al. Throughput/inventory dollar-days: TOC-based measures for supply chain collaboration
CN110019367A (zh) 一种统计数据特征的方法和装置
CN107944677A (zh) 业绩追踪方法、应用服务器及计算机可读存储介质
CN110097302A (zh) 分配订单的方法和装置
CN113259144A (zh) 一种仓储网络规划方法和装置
Meng et al. Batch size modeling in a multi-item, discrete manufacturing system via an open queuing network
CN110276652A (zh) 用于推送信息的方法和装置
Jose et al. On a retrial production inventory system with vacation and multiple servers
CN113988768B (zh) 一种库存的确定方法和装置
CN110309142A (zh) 规则管理的方法和装置
Guan et al. Research on e-commerce supplier selection based on big data analysis technology
CN109961199A (zh) 一种分析数据波动的方法和装置
CN110020876A (zh) 一种信息生成方法和装置
CN112163154A (zh) 数据处理方法、装置、设备及存储介质
CN108985482A (zh) 监测异常查询的方法和系统
CN108985805A (zh) 一种选择性执行推送任务的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181211