CN107357712B - 一种查单异常检测方法、系统及设备 - Google Patents
一种查单异常检测方法、系统及设备 Download PDFInfo
- Publication number
- CN107357712B CN107357712B CN201710579191.5A CN201710579191A CN107357712B CN 107357712 B CN107357712 B CN 107357712B CN 201710579191 A CN201710579191 A CN 201710579191A CN 107357712 B CN107357712 B CN 107357712B
- Authority
- CN
- China
- Prior art keywords
- checking
- order
- user
- time
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/323—Visualisation of programs or trace data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种查单异常检测方法、系统及设备。包括以下步骤:获取用户历史预设时间区段内的查单数据;根据所述查单数据生成基于时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数;获取新的查单数据,结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分。即多维度聚合解决单一维度误报的问题,通过更多的检测维度完善目前维度不足,提高异常查单命中率。通过查单数据依据日度权重评分或/和月度权重评分的结果,多种检测方式进行检测,从根本上杜绝异常查单误漏的情况,通过筛选出高分命中的数据进行调查,判断是否为异常查单,有效提高账户的安全性。
Description
技术领域
本发明涉及数据交换网络,尤其涉及一种查单异常检测方法、系统及设备。
背景技术
用户查单为系统用户在系统中查询快递信息,快递信息包含大量的敏感信息,如收发人员的电话、姓名以及居住地址等,目前大多公司用户查单异常检测中通常基于查单数量进行排序后告警或者检测该查单用户是否存在机器查单特征,在实际的应用中产生大量的假报警,导致调查人员无法一一覆盖调查异常事件,真正异常事件未被调查发现。
目前的检测维度仅对于查单数量规则,尚未考虑用户自身操作习惯以及用户所在群体的操作习惯。
用户自身操作指用户日常的行为习惯如习惯性登录时间、地点、查单数目、查单内容等,而用户所在群体的操作习惯指用户所在部门(区域)岗位群体的操作系统,如财务部门(区域)应收岗位基于工作职责查单的数目在该群体内是相似的,而在其他群体如客服岗位是相异的。
上述每个问题,现有技术均无法解决,更不用说是同时解决上述问题,本发明经过大量的实验、研究开发了一种查单异常检测方法、系统及设备,突破性的解决了上述所有问题,对本领域技术人员而言具有里程碑式的意义。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种查单异常检测方法、系统及设备。
根据本发明的一个方面,提供了一种查单异常检测方法,包括以下步骤:
获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数;
获取新的查单数据,结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分。
用户无历史成功查单数据或成功查单数据累计不足预设时间区段时,异常指数赋值则为0%。
进一步的,该时间维度包括查单的时间节点,该基于查单的时间节点的异常指数的生成包括,
获取用户在历史预设时间区段内的成功查单数据;
根据所述成功查单数据,按照时间节点顺序创建查单习惯表;
获取最新的查单数据的时间节点,与所述查单习惯表对比;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔大于预设阈值,则为异常查单并生成查单异常指数;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔小于等于预设阈值,则为正常查单。
该时间节点为一小时或半小时。
进一步的,所述按照时间节点顺序创建查单习惯表包括,
获取历史预设时间区段内用户各时间节点中最低查单次数;
遍历各时间节点,将各时间节点的查单次数与最低查单次数对比,
若大于等于最低查单次数,则将该时间节点标记为第一标识;
若小于最低查单次数,且相邻的时间节点为第一标识,则将该时间节点标记为第一标识;
生成习惯表。
统计用户在各个时间节点成功查单的次数;
计算其查单次数的平均值以及标准差;
定义用户的最低查单次数=平均值-n×标准差;
其中,n=0-2。n可根据具体业务场景设定,通常取1。
进一步的,在生成习惯表之前还包括,
查找未标记第一标识的孤立的时间节点;
获取孤立的时间节点的位置,判断该时间节点是否位于两第一标识之间;
若是,则将该孤立的时间节点标记为第二标识;
若否,则将该孤立的时间节点标记为第三标识。
进一步的,若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的距离大于预设阈值,则为异常查单并生成查单异常指数,包括:
判断该最新查单时间节点距离第一标识或第二标识是否在预设的时长范围内,若超过预设时长范围则为异常,并根据其超出预设时长范围的时长距离生成异常指数。
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的距离小于等于预设阈值,包括:
判断该最新查单时间节点距离第一标识或第二标识是否在预设的时长范围内,若未超过预设时长范围则为正常。
优选,该最新查单时间节点正好对应第一标识或第二标识时,查单正常,若与第一标识或第二标识未对应,则异常,异常指数根据距离最近第一标识或第二标识的时长距离获取。
进一步的,所述时间维度包括时间类型,该基于时间类型的异常指数的生成包括,
获取用户在预设历史时间区段内的成功查单数据;
将预设历史时间区段映射为工作日类型、全息日类型及节假日类型;
计算各日期类型的查单比例,生成查单习惯类型;
获取最新查单数据所属的日期类型;
将最新查单类型与查单习惯类型对比,生成基于时间类型的查单异常指数。
全息日比例=全息日查单的天数/全息日天数;
节假日比例=节假日查单的天数/节假日天数;
工作日比例=工作日查单的天数/工作日天数。
进一步的,所述生成查单习惯类型包括,
将各日期类型查单比例与查单平均值比较;
若该日期类型的查单比例大于所述查单平均值,则生成第一习惯查单类型;
若该日期类型的查单比例小于等于所述查单平均值,则生成非第一习惯查单类型。
非第一习惯查单类型包括第二习惯性查单日期类型、第三习惯性查单日期类型,
如果该日期类型的查单比例小于所述查单平均值×50%,为用户第二习惯性查单日期类型;
如果该日期类型的查单比例小于所述查单平均值×30%,为用户第三习惯性查单日期类型。
进一步的,将最新查单类型与查单习惯类型对比,生成基于时间类型的查单异常指数,包括,
将最新查单数据所属日期类型与查单习惯类型对比;
若最新查单数据所属的日期类型为第一习惯查单类型,则为正常;若最新查单数据所属的日期类型为非第一习惯查单类型,则为异常,并根据距离所述查单平均值的数值间隔,生成其异常指数。
进一步的,所述时间维度包括两次查单时间间隔,该基于两次查单时间间隔异常指数的生成包括,
获取最新查单与上次查单的时间间隔;
若两次查单的时间间隔小于预设的阈值,则为正常;
若两次查单的时间间隔大于预设的阈值,则为异常,并根据距离阈值的时长生成异常指数。
该阈值可以为7-15天。
进一步的,所述地理维度包括查单IP所属位置,该基于查单IP所属位置异常指数的生成包括,
获取用户历史预设时间区段内的查单数据;
获取用户发生过查单操作的城市,并生成各城市查单比例及用户查单平均值;
将各城市的查单比例与用户查单平均值进行对比,生成习惯查单城市;
获取最新查单IP所属的城市;
将该最新查单IP所属的城市与习惯查单城市对比,生成基于查单IP所属位置的异常指数。
进一步的,所述生成习惯查单城市包括,
对比各城市的查单比例与平均值;
若该查单城市的查单比例大于平均值,则为第一习惯查单城市;若该查单城市的查单比例小于等于平均值,则为非第一习惯查单城市。
该非第一习惯查单城市包括第二习惯查单城市、第三习惯查单城市,
如果该城市查单比例小于该用户查单城市的平均值×50%,则该城市为用户第二习惯查单城市;
如果该城市查单比例小于该用户查单城市的平均值×30%,则该城市为用户第三习惯查单城市。
进一步的,所述生成取基于查单IP所属位置的异常指数包括,
将最新查单城市与查单习惯城市对比,若最新查单操作发生在第一习惯查单城市,则为正常;若查单操作发生在非第一习惯查单城市,则为异常,并根据距离所述平均值的数值间隔,生成异常指数。
进一步的,所述地理维度包括两地查单速度,该基于两地查单速度异常指数的生成包括如下步骤:
获取用户查单速度,用户查单速度=|用户上一次查单IP所属城市-用户本次查单IP所属城市|÷|用户上一次查单时间-用户本次查单时间|;
将用户查单速度与预设速度阈值比较,
若用户查单速度小于等于预设速度阈值则正常,
若用户查单速度大于预设速度阈值则为异常,根据用户查单速度与预设速度阈值之间的数值间隔生成异常指数。
进一步的,所述频率维度包括预设时间区段操作频率的异常指数,该基于预设预设时间区段的异常指数的生成包括,
获取用户预定时间区段的查单频率,并获取用户预设时间区段的的最高操作频率;
将该最高操作频率与预设频率阈值对比;
若小于等于该频率阈值则为正常;
若大于该频率阈值则为异常,并根据距离该阈值的数值间隔生成异常指数。
进一步的,该预设频率阈值的获取包括,
生成预设时间区段内的各用户的查单操作频率;
获取预设时间区段的总体用户的查单操作频率的方差的预设倍数,以生成预设频率阈值。
进一步的,所述运单特征包括运单内容,该基于运单内容的异常指数的生成包括如下步骤,
获取运单号对应的月结公司;
获取以部门或区域在历史预设时间区段内成功查单对应的月结公司的数量;
获取用户当日或当月成功查单数据对应的月结公司的数量,并与历史预设时间区段内成功查单对应的月结公司的数量对比;
利用IFOREST函数生成基于运单内容的异常指数。
进一步的,查单内容当日异常指数的获取,包括:
划分查单当日日期类型;
获取用户当日成功查单数据对应的月结公司的数量,并与历史预设时间区段内成功查单对应的同日期类型月结公司的数量对比;
利用IFOREST函数生成基于运单内容的当日异常指数。
其中,日期类型分为工作日、全息日、节假日、双11双12前后一个星期四种。其上述日期类型有重叠时,以双11双12前后一个星期优先。
进一步的,所述用户属性维度包括用户自身查单,该基于用户自身查单异常指数的生成包括,
划分查单当日日期类型;
获取用户当日成功查单数;
获取用户同日期类型的历史成功查单数;
将用户当日成功查单数、用户同日期类型的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数;或者,
获取用户当月成功查单数;
获取用户每月历史成功查单数;
将用户当月成功查单数、用户每月历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
其中,日期类型分为工作日、全息日、节假日、双11双12前后一个星期四种。其上述日期类型有重叠时,以双11双12前后一个星期优先。
进一步的,所述用户属性维度包括用户所在部门或区域,该基于用户所在部门或区域的异常指数的生成包括,
划分查单当日日期类型;
获取当日成功查单数;
获取该部门或区域相应岗位同日期类型的历史成功查单数;
将当日成功查单数、所属部门或区域相应岗位同日期类型的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数;或者,
获取用户当月成功查单数;
获取所属部门或区域相应岗位每月的历史成功查单数;
将用户当月成功查单数、所属部门或区域相应岗位每月的历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
进一步的,所述结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分,包括:
通过下述日度权重评分或/和月度权重评分的计算公式,计算得分,
日度权重评分=a1×∑(时间异常指数/当日操作次数)+a2×∑(地理异常指数/当日操作次数)+a3×频率异常指数+用户属性异常指数+运单特征异常指数,其中,a1-a3的取值范围为0-1,
月度权重评分=b1×∑(时间异常指数/当月操作次数)+b2×∑(地理异常指数/当月操作次数)+用户属性异常指数+运单特征异常指数,其中,b1-b2的取值范围为0-1。
本发明基于用户自身操作习惯,如时间、地理、频率、用户属性及运单特征等进行查单检测,即多维度聚合解决单一维度误报的问题。通过更多的检测维度完善目前维度不足的问题,确保检测精度高。
用户自身查单数和用户所在群体的查单数,按日比较可以识别用户当天的查单数相对比过去自身行为和当日整改群体查单中该用户的查单数是否异常;按月进行对比,则可发现用户是否采用了每日少量查询数据的模式,即使每日少量查询,累计一段时间后其查询量也会明显异常,如用户习惯在早9点到晚9点深圳登录查单,但数据显示该用户在凌晨杭州市进行查单操作;如用户一小时前在深圳查单操作一小时在杭州操作;前一次查单在6个月前,本次查单在6个月后,则异常程度较高;
用户查单单号关联运单内容,可识别用户查询运单的客户规模以及数量模式,如应收管理岗查单数量多但是对应客户少,客服岗查单数量少但是对应的客户多,与该模式不匹配则输出异常;
用户每半小时或一小时查单频率对比总体查单频率,可识别用户的查单行为是否存在高频查询(机器批量操作);
通过如上多维度进行综合检测,可提供识别真正异常查单率。
进一步的,一种查单异常检测方法,包括以下步骤
获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间节点、时间类型、两次查单时间间隔、查单IP所属位置、两地查单速度、操作频率、运单内容、用户自身查单及用户所在部门或区域至少一维度下的查单异常指数;
获取新的查单数据,利用下述两公式至少之一生成异常得分,
用户当日查单异常得分=a1×∑(时间节点的异常指数)/当日操作次数+a2×∑(时间类型的异常指数)/当日操作次数+a3×∑(查单IP所属位置的异常指数)/当日操作次数+a4×∑(两地查单速度的异常指数)/当日操作次数+a5×∑(两次查单时间间隔的异常指数)/当日操作次数+a6×操作频率+用户自身当日查单数异常指数+用户所在部门或区域当日查单数异常指数+运单内容异常指数,其中,a1—a6的取值范围为0-1,
用户当月查单异常得分=b1×∑(时间节点的异常指数)/当月操作次数+b2×∑(时间类型的异常指数)/当月操作次数+b3×∑(查单IP所属位置的异常指数)/当月操作次数+b4×∑(两地查单速度的异常指数)/当月操作次数+b5×∑(两次查单时间间隔的异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,其中,b1-b5取值范围为0-1。
根据本发明的一个方面,提供了一种查单异常检测系统,包括:
采集单元,用于获取用户历史预设时间区段内的查单数据;
维度建立单元,用于根据所述查单数据生成基于时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数;
异常评估单元,用于获取新的查单数据,结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分。
该查单异常检测系统是基于上述任意一项查单异常检测方法的系统,时间、地理、频率、用户属性及运单特征等维度的建立与异常指数的获取过程如与查单异常检测方法部分所述。
进一步的,一种查单异常检测系统,包括:
采集单元,用于获取用户历史预设时间区段内的查单数据;
维度建立单元,根据所述查单数据生成基于时间节点、时间类型、两次查单时间间隔、查单IP所属位置、两地查单速度、操作频率、运单内容、用户自身查单及用户所在部门或区域至少一维度下的查单异常指数;
异常评估单元,获取新的查单数据,利用下述两公式至少之一生成异常得分,
用户当日查单异常得分=a1×∑(时间节点的异常指数)/当日操作次数+a2×∑(时间类型的异常指数)/当日操作次数+a3×∑(查单IP所属位置的异常指数)/当日操作次数+a4×∑(两地查单速度的异常指数)/当日操作次数+a5×∑(两次查单时间间隔的异常指数)/当日操作次数+a6×操作频率+用户自身当日查单数异常指数+用户所在部门或区域当日查单数异常指数+运单内容异常指数,其中,a1—a6的取值范围为0-1,
用户当月查单异常得分=b1×∑(时间节点的异常指数)/当月操作次数+b2×∑(时间类型的异常指数)/当月操作次数+b3×∑(查单IP所属位置的异常指数)/当月操作次数+b4×∑(两地查单速度的异常指数)/当月操作次数+b5×∑(两次查单时间间隔的异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,其中,b1-b5取值范围为0-1。
根据本发明的一个方面,提供了一种查单异常检测设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数;
获取新的查单数据,结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分。
该查单异常检测设备是基于上述任意一项查单异常检测方法的设备,时间、地理、频率、用户属性及运单特征等维度的建立与异常指数的获取过程如与查单异常检测方法部分所述。
进一步的,该查单异常检测设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间节点、时间类型、两次查单时间间隔、查单IP所属位置、两地查单速度、操作频率、运单内容、用户自身查单及用户所在部门或区域至少一维度下的查单异常指数;
获取新的查单数据,利用下述两公式至少之一生成异常得分,
用户当日查单异常得分=a1×∑(时间节点的异常指数)/当日操作次数+a2×∑(时间类型的异常指数)/当日操作次数+a3×∑(查单IP所属位置的异常指数)/当日操作次数+a4×∑(两地查单速度的异常指数)/当日操作次数+a5×∑(两次查单时间间隔的异常指数)/当日操作次数+a6×操作频率+用户自身当日查单数异常指数+用户所在部门或区域当日查单数异常指数+运单内容异常指数,其中,a1—a6的取值范围为0-1,
用户当月查单异常得分=b1×∑(时间节点的异常指数)/当月操作次数+b2×∑(时间类型的异常指数)/当月操作次数+b3×∑(查单IP所属位置的异常指数)/当月操作次数+b4×∑(两地查单速度的异常指数)/当月操作次数+b5×∑(两次查单时间间隔的异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,其中,b1-b5取值范围为0-1。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的查单异常检测方法及系统,基于用户历史查单数据建立时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数,即多维度聚合解决单一维度误报的问题,通过更多的检测维度完善目前维度不足,提高异常查单命中率。
2、本发明示例的查单异常检测方法及系统,通过查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,多种检测方式进行检测,从根本上杜绝异常查单误漏的情况,通过筛选出高分命中的数据进行调查,判断是否为异常查单,有效提高账户的安全性。
3.本发明示例的查单异常检测设备,通过存储有计算机程序的计算机可读介质,所述程序被运行用于建立多个维度,根据多个维度的异常指数识别出异常查单,异常查单命中率高。
附图说明
图1为本发明流程图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合具体实施例、说明书附图对本发明作进一步说明。
实施例一:
如图1所示,依据用户历史数据建立查单的时间节点、时间类型、查单IP所属位置、两地查单速度、两次查单时间间隔、操作频率、用户自身查单数、用户部门或区域相应岗位查单数、运单内容维度。
1查单的时间节点维度
1)获取过去半年查单数据;
2)筛选成功查单的数据;
3)按照工号、查单的时间节点(每小时)聚合每工号在各个小时点共成功查单的次数;
4)按照工号统计过去半年查单次数的平均值(mean)以及标准差(sd);
5)从0点开始遍历各小时点:
定义各个用户的最低查单次数Count=mean-1×sd;
第一次遍历:
如果该小时点查单次数大于等于Count,标志为1;
如果该小时点查单次数小于Count,但是邻近一个小时的小时点大于等于Count,标志为1;
第二次遍历:
查看是否有“孤立”的小时点,若经过第一次遍历,存在有时间没有标志位1,但在
两个标志为1的小时点中间,则标志为2;其他时间点标志为0,形成用户查单时间习惯表;
6)对于查单数据累计不足1个月的用户,不对该用户进行查单时点打标签;
7)当对用户的新查单数据进行处理时:
若用户的查单时点对比用户查单习惯表,如果该时点的标签为1或2,则该查单的异常指数为0%;
如果该查单时点离最近的一个1或2标签,距离1到2个小时,异常值设置为50%;
距离3个小时,异常值设置为80%;
距离4个小时以上设置为100%;
若用户无历史标签,异常指数赋值为0%。
2查单时间类型维度
1)获取过去半年查单数据
2)筛选成功查单的数据
3)按照工号、日期、聚合记录,日期映射成工作日、全息日、节假日,形成半年来用户节假日统计表,周期为该员工第一次查单至获取数据当天
4)统计用户的全息日(周六日),工作日,节假日(不包括周六日)的查单比例:
全息日(周六日)比例=该周期全息日查单的天数/该周期全息日天数
节假日(不包括周六日)比例=该周期节假日查单的天数/该周期节假日天数
工作日比例=该周期工作日查单的天数/该周期工作日天数
5)如果该日期类型查单比例大于该用户查单比例的平均值,为用户第一习惯性查单日期类型;
如果该日期类型比例小于该用户查单比例的平均值×50%,为用户第二习惯性查单日期类型;
如果该日期类型比例小于该用户查单比例的平均值×30%,为用户第三习惯性查单日期类型;
6)对于查单数据累计不足1个月的用户,不对该用户进行查单时点打标签;
7)当对用户的新查单数据进行处理时:
若用户的查单日期映射成全息日、节假日、工作日;
如果查单IP所映射的日期类型为第一习惯查单,则该查单的异常指数为0%;
如果查单IP所映射的日期类型为第二习惯查单,则该查单的异常指数为50%;
如果查单IP所映射的日期类型为第三习惯查单,则该查单的异常指数为80%;
如果查单IP所映射的日期为非习惯性查单,则该查单的异常指数为100%;
若用户无历史标签,异常指数赋值为0%。
3查单IP所属位置维度
1)获取过去半年查单数据
2)筛选成功查单的数据
3)按照工号、日期、查单IP聚合记录,形成半年来用户在每个ip上查单的次数统计表
4)按照IP地址掩码计算规则,利用IP数据源文件-全网数据,匹配查单IP所属城市
5)按用户计算,所查单过城市的比例
如果该城市的查单比例大于该用户查单城市的平均值,则该城市为用户的第一习惯查单城市;
如果该城市查单比例小于该用户查单城市的平均值×50%,则该城市为用户第二习惯查单城市;
如果该城市查单比例小于该用户查单城市的平均值×30%,则该城市为用户第二习惯查单城市;
6)对于查单数据累计不足1个月的用户,不对该用户进行查单时点打标签;
7)当对用户的新查单数据进行处理时:
若用户的查单IP对比用户查单城市习惯表,如果查单IP所映射的城市为第一习惯查单城市,则该查单的异常指数为0%;
如果查单IP所映射的城市为第二习惯查单城市,则该查单的异常指数为50%;
如果查单IP所映射的城市为第三习惯查单城市,则该查单的异常指数为80%;
如果查单IP所映射的城市为非习惯查单城市,则该查单的异常指数为100%;
如果查单IP未能映射到城市,则该查单的异常指数为100%;
若用户无历史标签,异常指数赋值为0%。
4两地查单速度维度
用户查单速度(KM/H)=|用户上一次查单IP所属城市(无论成功失败)-用户本次查单IP所属城市|/=|用户上一次查单时间-用户本次查单时间|
100KM/H≤用户查单速度<120KM/H,则该查单的异常指数为50%;
120KM/H≤用户查单速度<150KM/H,则该查单的异常指数为80%;
用户查单速度≥150KM/H,则该查单的异常指数为100%。
5两次查单时间间隔维度
用户当次查单时间–用户上次查单时间≥6个月,则查单异常指数为100%;
3个月≤用户当次查单时间–用户上次查单时间<6个月,则查单异常指数为80%;
2个月≤用户当次查单时间–用户上次查单时间<3个月,则查单异常指数为50%。
6操作频率维度
获取用户当日每半小时或一小时的操作频率;
获取用户当日操作频率平均值;
统计用户当日最高每半小时或一小时的操作频率;
用户当天每半小时或一小时的最高操作频率>用户当日操作频率平均值1.5标准差,则该查单的异常指数为50%;
用户当天每半小时或一小时的最高操作频率>用户当日操作频率平均值2标准差,则该查单的异常指数为80%;
用户当天每半小时或一小时的最高操作频率>用户当日操作频率平均值3标准差,则该查单的异常指数为100%。
7用户自身查单数
(1)设置用户自身当日查单数异常包括:
划分查单当日日期类型,日期类型分为工作日、全息日、节假日、双11双12前后一个星期四种;
获取用户当日成功查单数;
获取用户过去半年同日期类型的历史成功查单数;
将用户当日成功查单数、用户过去半年同日期类型的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数。
(2)设置用户自身当月查单数异常包括:
获取用户当月成功查单数;
获取用户过去一年每月历史成功查单数;
将用户当月成功查单数、用户过去一年每月历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
为了防止用户每天少量下载数据,按天检测用户的查单量未能发现少量下载的行为,检测当月用户所有的成功查单单号数与历史(一年数据)每月用户统计数据输入IFOREST函数,算出检测当月用户的成功的查单单号数的异常分数。
8用户部门或区域相应岗位查单数维度
(1)设置用户所在部门或区域相应岗位当日查单数异常包括:
划分查单当日日期类型,日期类型分为工作日、全息日、节假日、双11双12前后一个星期四种;
获取当日成功查单数;
获取该部门或区域相应岗位同日期类型过去半年的历史成功查单数;
将当日成功查单数、所属部门或区域相应岗位同日期类型过去半年的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数。
(2)设置用户所在部门或区域相应岗位当月查单数异常包括:
获取用户当月成功查单数;
获取所属部门或区域相应岗位过去一年每月的历史成功查单数;
将用户当月成功查单数、所属部门或区域相应岗位过去一年每月的历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
为了防止用户每天少量下载数据,按天检测用户的查单量未能发现少量下载的行为,检测当月用户所有的成功查单单号数与历史(一年数据)每月部门(区域)岗位统计数据输入IFOREST函数,算出检测当月用户的成功的查单单号数的异常分数。
9运单内容
设置运单内容异常包括:
根据用户查询的运单号获取运单号所对应的月结公司;
按部门或区域的岗位统计各个岗位历史成功查单所对对应月结公司数量;
根据用户的成功查单所对应的月结公司数量与用户所属部门或区域相应岗位历史月结公司数量,输入IFOREST函数,得出运单内容异常指数。
具体:
(1)获取过去半年查单数据,按工作日、全息日、节假日、双11双12前后一个星期、四种日期类型,获取成功查单的月结数,根据当日用户的成功查单所对应月结公司数量、历史每日月结公司数量(用户所在部门(区域)岗位),输入IFOREST函数,得出该用户当日查单运单内容异常指数。
(2)根据当月用户的成功查单所对应月结公司数量、历史每月月结公司数量(用户所在部门(区域)岗位),输入IFOREST函数,得出该用户当月查单运单内容异常指数。
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=1×∑(时间节点异常指数)/当日操作次数+1×∑(时间类型异常指数)/当日操作次数+1×∑(查单IP所属位置异常指数)/当日操作次数+1×∑(两地查单速度异常指数)/当日操作次数+1×∑(两次查单时间间隔异常指数)/当日操作次数+1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=1×∑(时间节点异常指数)/当月操作次数+1×∑(时间类型异常指数)/当月操作次数+1×∑(查单IP所属位置异常指数)/当月操作次数+1×∑(两地查单速度异常指数)/当月操作次数+1×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
本实施例的查单异常检测系统,包括:
采集单元,用于获取用户历史预设时间区段内的查单数据;
维度建立单元,用于根据所述查单数据生成基于时间节点、时间类型、两次查单时间间隔、查单IP所属位置、两地查单速度、操作频率、运单内容、用户自身查单及用户所在部门或区域的查单异常指数;
异常评估单元,用于获取新的查单数据,利用下述两公式至少之一生成异常得分,
用户当日查单记录最终异常得分=1×∑(时间节点异常指数)/当日操作次数+1×∑(时间类型异常指数)/当日操作次数+1×∑(查单IP所属位置异常指数)/当日操作次数+1×∑(两地查单速度异常指数)/当日操作次数+1×∑(两次查单时间间隔异常指数)/当日操作次数+1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
用户当月查单记录最终异常得分=1×∑(时间节点异常指数)/当月操作次数+1×∑(时间类型异常指数)/当月操作次数+1×∑(查单IP所属位置异常指数)/当月操作次数+1×∑(两地查单速度异常指数)/当月操作次数+1×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数。
本实施例的查单异常检测设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间节点、时间类型、两次查单时间间隔、查单IP所属位置、两地查单速度、操作频率、运单内容、用户自身查单及用户所在部门或区域的查单异常指数;
获取新的查单数据,利用下述两公式至少之一生成异常得分,
用户当日查单记录最终异常得分=1×∑(时间节点异常指数)/当日操作次数+1×∑(时间类型异常指数)/当日操作次数+1×∑(查单IP所属位置异常指数)/当日操作次数+1×∑(两地查单速度异常指数)/当日操作次数+1×∑(两次查单时间间隔异常指数)/当日操作次数+1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
用户当月查单记录最终异常得分=1×∑(时间节点异常指数)/当月操作次数+1×∑(时间类型异常指数)/当月操作次数+1×∑(查单IP所属位置异常指数)/当月操作次数+1×∑(两地查单速度异常指数)/当月操作次数+1×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数。
实施例二
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=0.9×∑(时间节点异常指数)/当日操作次数+0.7×∑(时间类型异常指数)/当日操作次数+0.9×∑(查单IP所属位置异常指数)/当日操作次数+0.8×∑(两地查单速度异常指数)/当日操作次数+0.2×∑(两次查单时间间隔异常指数)/当日操作次数+0.6×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=0.9×∑(时间节点异常指数)/当月操作次数+0.7×∑(时间类型异常指数)/当月操作次数+0.9×∑(查单IP所属位置异常指数)/当月操作次数+0.8×∑(两地查单速度异常指数)/当月操作次数+0.2×∑(两次查单时间间隔)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例三
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=0.3×∑(时间节点异常指数)/当日操作次数+0.9×∑(时间类型异常指数)/当日操作次数+0.3×∑(查单IP所属位置异常指数)/当日操作次数+0.2×∑(两地查单速度异常指数)/当日操作次数+0.7×∑(两次查单时间间隔异常指数)/当日操作次数+1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=0.3×∑(时间节点异常指数)/当月操作次数+0.9×∑(时间类型异常指数)/当月操作次数+0.3×∑(查单IP所属位置异常指数)/当月操作次数+0.2×∑(两地查单速度异常指数)/当月操作次数+0.7×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例四
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
基于用户历史查单数据建立时间类型、查单IP所属位置、两地查单速度、两次查单时间间隔、操作频率、用户自身查单数、用户部门或区域相应岗位查单数、运单内容维度。
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=0.1×∑(时间节点异常指数)/当日操作次数+1×∑(时间类型异常指数)/当日操作次数+0.1×∑(查单IP所属位置异常指数)/当日操作次数+0.9×∑(两地查单速度异常指数)/当日操作次数+0.9×∑(两次查单时间间隔异常指数)/当日操作次数+0.9×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=0.1×∑(时间节点异常指数)/当月操作次数+1×∑(时间类型异常指数)/当月操作次数+0.1×∑(查单IP所属位置异常指数)/当月操作次数+0.9×∑(两地查单速度异常指数)/当月操作次数+0.9×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例五
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
基于用户历史查单数据建立查单时间节点、时间类型、查单IP所属位置、两地查单速度、两次查单时间间隔、操作频率、用户自身查单数、用户部门或区域相应岗位查单数、运单内容维度。
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=1×∑(时间节点异常指数)/当日操作次数+0.1×∑(时间类型异常指数)/当日操作次数+0.9×∑(查单IP所属位置异常指数)/当日操作次数+0.1×∑(两地查单速度异常指数)/当日操作次数+0.7×∑(两次查单时间间隔异常指数)/当日操作次数+0.8×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=1×∑(时间节点异常指数)/当月操作次数+0.1×∑(时间类型异常指数)/当月操作次数+0.9×∑(查单IP所属位置异常指数)/当月操作次数+0.1×∑(两地查单速度异常指数)/当月操作次数+0.7×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+查单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例六
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
基于用户历史查单数据建立时间节点、时间类型、查单IP所属位置、两地查单速度、两次查单时间间隔、操作频率、用户自身查单数、用户部门或区域相应岗位查单数、运单内容维度。
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=0.8×∑(时间节点异常指数)/当日操作次数+0.9×∑(时间类型异常指数)/当日操作次数+0.7×∑(查单IP所属位置异常指数)/当日操作次数+0.1×∑(两地查单速度异常指数)/当日操作次数+0.9×∑(两次查单时间间隔异常指数)/当日操作次数+1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=0.8×∑(时间节点异常指数)/当月操作次数+0.9×∑(时间类型异常指数)/当月操作次数+0.7×∑(查单IP所属位置异常指数)/当月操作次数+0.1×∑(两地查单速度异常指数)/当月操作次数+0.9×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例七
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
基于用户历史查单数据建立时间节点、时间类型、查单IP所属位置、两地查单速度、两次查单时间间隔、操作频率、用户自身查单数、用户部门或区域相应岗位查单数、运单内容维度。
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=1×∑(时间节点异常指数)/当日操作次数+1×∑(时间类型异常指数)/当日操作次数+1×∑(查单IP所属位置异常指数)/当日操作次数+0.8×∑(两地查单速度异常指数)/当日操作次数+1×∑(两次查单时间间隔异常指数)/当日操作次数+0.1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=1×∑(时间节点异常指数)/当月操作次数+1×∑(时间类型异常指数)/当月操作次数+1×∑(查单IP所属位置异常指数)/当月操作次数+0.8×∑(两地查单速度异常指数)/当月操作次数+1×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例八
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
基于用户历史查单数据建立时间节点、时间类型、查单IP所属位置、两地查单速度、两次查单时间间隔、操作频率、用户自身查单数、用户部门或区域相应岗位查单数、运单内容维度。
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=1×∑(时间节点异常指数)/当日操作次数+1×∑(时间类型异常指数)/当日操作次数+0.5×∑(查单IP所属位置异常指数)/当日操作次数+1×∑(两地查单速度异常指数)/当日操作次数+1×∑(两次查单时间间隔异常指数)/当日操作次数+1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=1×∑(时间节点异常指数)/当月操作次数+1×∑(时间类型异常指数)/当月操作次数+0.5×∑(查单IP所属位置异常指数)/当月操作次数+1×∑(两地查单速度异常指数)/当月操作次数+1×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例九
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
基于用户历史查单数据建立时间节点、时间类型、两次查单时间间隔、用户自身查单数、用户部门或区域相应岗位查单数、运单内容维度。
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,
将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=0.9×∑(时间节点异常指数)/当日操作次数+0.9×∑(时间类型异常指数)/当日操作次数+1×∑(两次查单时间间隔异常指数)/当日操作次数+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=0.9×∑(时间节点异常指数)/当月操作次数+0.9×∑(时间类型异常指数)/当月操作次数+1×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例十
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
1查单的时间节点维度
4)按照工号统计过去半年查单次数的平均值(mean)以及标准差(sd);
5)从0点开始遍历各小时点:
定义各个用户的最低查单次数Count=mean-2×sd;
7)当对用户的新查单数据进行处理时:
如果该查单时点离最近的一个1或2标签,距离1到2个小时,异常值设置为60%;
距离3个小时,异常值设置为85%;
距离4个小时以上设置为100%。
2时间类型维度
7)当对用户的新查单数据进行处理时:
如果查单IP所映射的日期类型为第二习惯查单,则该查单的异常指数为60%;
如果查单IP所映射的日期类型为第三习惯查单,则该查单的异常指数为85%;
如果查单IP所映射的日期为非习惯性查单,则该查单的异常指数为100%。
3查单IP所属位置维度
7)当对用户的新查单数据进行处理时:
如果查单IP所映射的城市为第二习惯查单城市,则该查单的异常指数为60%;
如果查单IP所映射的城市为第三习惯查单城市,则该查单的异常指数为85%;
如果查单IP所映射的城市为非习惯查单城市,则该查单的异常指数为100%。
4两地查单速度维度
100KM/H≤用户查单速度<120KM/H,则该查单的异常指数为60%;
120KM/H≤用户查单速度<150KM/H,则该查单的异常指数为85%;
用户查单速度≥150KM/H,则该查单的异常指数为100%。
5两次查单时间间隔维度
3个月≤用户当次查单时间–用户上次查单时间<6个月,则查单异常指数为85%;
2个月≤用户当次查单时间–用户上次查单时间<3个月,则查单异常指数为60%;
查单数据依据日度权重评分或/和月度权重评分的结果,筛选出高分数据进行调查,判断是否为异常查单,将查单数据分别录入下述用户当日查单记录最终异常得分求解公式中进行日度权重评分:
用户当日查单记录最终异常得分=1×∑(时间节点异常指数)/当日操作次数+1×∑(时间类型异常指数)/当日操作次数+1×∑(查单IP所属位置异常指数)/当日操作次数+1×∑(两地查单速度异常指数)/当日操作次数+1×∑(两次查单时间间隔异常指数)/当日操作次数+1×操作频率+用户自身当日查单数异常指数+用户所在部门或区域相应岗位当日查单数异常指数+运单内容异常指数,
将查单数据分别录入下述用户当月查单记录最终异常得分求解公式中进行月度权重评分:
用户当月查单记录最终异常得分=1×∑(时间节点异常指数)/当月操作次数+1×∑(时间类型异常指数)/当月操作次数+1×∑(查单IP所属位置异常指数)/当月操作次数+1×∑(两地查单速度异常指数)/当月操作次数+1×∑(两次查单时间间隔异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,
每个维度的异常指数取值为0-100%。
实施例十一
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
1时间节点维度
4)按照工号统计过去半年查单次数的平均值(mean)以及标准差(sd);
5)从0点开始遍历各小时点:
定义各个用户的最低查单次数Count=mean。
实施例十二
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
1时间节点维度
获取过去一年查单数据。
查单时点(每半小时)聚合每工号在各个半小时点共成功查单的次数。
2时间类型维度
1)获取过去一年查单数据
6)对于查单数据累计不足2个月的用户,不对该用户进行查单时点打标签;
7)当对用户的新查单数据进行处理时:
若用户无历史标签,异常指数赋值为0%。
3查单IP所属位置维度
1)获取过去一年查单数据
6)对于查单数据累计不足2个月的用户,不对该用户进行查单时点打标签;
7)当对用户的新查单数据进行处理时:
若用户无历史标签,异常指数赋值为0%。
7用户自身查单数
(1)设置用户自身当日查单数异常包括:
将用户当日成功查单数、用户过去一年同日期类型的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数。
(2)设置用户自身当月查单数异常包括:
获取用户当月成功查单数;
获取用户过去一年每月历史成功查单数;
将用户当月成功查单数、用户过去一年每月历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
为了防止用户每天少量下载数据,按天检测用户的查单量未能发现少量下载的行为,检测当月用户所有的成功查单单号数与历史(一年数据)每月用户统计数据输入IFOREST函数,算出检测当月用户的成功的查单单号数的异常分数。
8用户部门或区域相应岗位查单数维度
(1)设置用户所在部门或区域相应岗位当日查单数异常包括:
划分查单当日日期类型,日期类型分为工作日、全息日、节假日、双11双12前后一个星期四种;
获取当日成功查单数;
获取该部门或区域相应岗位同日期类型过去一年的历史成功查单数;
将当日成功查单数、所属部门或区域相应岗位同日期类型过去一年的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数。
(2)设置用户所在部门或区域相应岗位当月查单数异常包括:
获取用户当月成功查单数;
获取所属部门或区域相应岗位过去一年每月的历史成功查单数;
将用户当月成功查单数、所属部门或区域相应岗位过去一年每月的历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
为了防止用户每天少量下载数据,按天检测用户的查单量未能发现少量下载的行为,检测当月用户所有的成功查单单号数与历史(一年数据)每月部门(区域)岗位统计数据输入IFOREST函数,算出检测当月用户的成功的查单单号数的异常分数。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。
Claims (22)
1.一种查单异常检测方法,其特征是,包括以下步骤:
获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数;
获取新的查单数据,结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分,
其中,该时间维度包括查单的时间节点,该基于查单的时间节点的异常指数的生成包括,获取用户在历史预设时间区段内的成功查单数据;
根据所述成功查单数据,按照时间节点顺序创建查单习惯表;
获取最新的查单数据的时间节点,与所述查单习惯表对比;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔大于预设阈值,则为异常查单并生成查单异常指数;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔小于等于预设阈值,则为正常查单。
2.根据权利要求1所述的查单异常检测方法,其特征是,所述按照时间节点顺序创建查单习惯表包括,获取历史预设时间区段内用户各时间节点中最低查单次数;
遍历各时间节点,将各时间节点的查单次数与最低查单次数对比,若大于等于最低查单次数,则将该时间节点标记为第一标识;
若小于最低查单次数,且相邻的时间节点为第一标识,则将该时间节点标记为第一标识;
生成习惯表。
3.根据权利要求2所述的查单异常检测方法,其特征是,在生成习惯表之前还包括,查找未标记第一标识的孤立的时间节点;
获取孤立的时间节点的位置,判断该时间节点是否位于两第一标识之间;
若是,则将该孤立的时间节点标记为第二标识;
若否,则将该孤立的时间节点标记为第三标识。
4.根据权利要求3所述的查单异常检测方法,其特征是,若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的距离大于预设阈值,则为异常查单并生成查单异常指数,包括:判断该最新查单时间节点距离第一标识或第二标识是否在预设的时长范围内,若超过预设时长范围则为异常,并根据其超出预设时长范围的时长距离生成异常指数。
5.根据权利要求3所述的查单异常检测方法,其特征是,若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的距离小于等于预设阈值,包括:判断该最新查单时间节点距离第一标识或第二标识是否在预设的时长范围内,若未超过预设时长范围则为正常。
6.根据权利要求1所述的查单异常检测方法,其特征是,所述时间维度包括时间类型,该基于时间类型的异常指数的生成包括,获取用户在预设历史时间区段内的成功查单数据;
将预设历史时间区段映射为工作日类型、全息日类型及节假日类型;
计算各日期类型的查单比例,生成查单习惯类型;
获取最新查单数据所属的日期类型;
将最新查单类型与查单习惯类型对比,生成基于时间类型的查单异常指数。
7.根据权利要求6所述的查单异常检测方法,其特征是,所述生成查单习惯类型包括,将各日期类型查单比例与查单平均值比较;
若该日期类型的查单比例大于所述查单平均值,则生成第一习惯查单类型;
若该日期类型的查单比例小于等于所述查单平均值,则生成非第一习惯查单类型。
8.根据权利要求7所述的查单异常检测方法,其特征是,将最新查单类型与查单习惯类型对比,生成基于时间类型的查单异常指数,包括,将最新查单数据所属日期类型与查单习惯类型对比;
若最新查单数据所属的日期类型为第一习惯查单类型,则为正常;若最新查单数据所属的日期类型为非第一习惯查单类型,则为异常,并根据距离所述查单平均值的数值间隔,生成其异常指数。
9.根据权利要求1所述的查单异常检测方法,其特征是,所述时间维度包括两次查单时间间隔,该基于两次查单时间间隔异常指数的生成包括,获取最新查单与上次查单的时间间隔;
若两次查单的时间间隔小于预设的阈值,则为正常;
若两次查单的时间间隔大于预设的阈值,则为异常,并根据距离阈值的时长生成异常指数。
10.根据权利要求1所述的查单异常检测方法,其特征是,所述地理维度包括查单IP所属位置,该基于查单IP所属位置异常指数的生成包括,获取用户历史预设时间区段内的查单数据;
获取用户发生过查单操作的城市,并生成各城市查单比例及用户查单平均值;
将各城市的查单比例与用户查单平均值进行对比,生成习惯查单城市;
获取最新查单IP所属的城市;
将该最新查单IP所属的城市与习惯查单城市对比,生成基于查单IP所属位置的异常指数。
11.根据权利要求10所述的查单异常检测方法,其特征是,所述生成习惯查单城市包括,对比各城市的查单比例与平均值;
若该查单城市的查单比例大于平均值,则为第一习惯查单城市;若该查单城市的查单比例小于等于平均值,则为非第一习惯查单城市。
12.根据权利要求11所述的查单异常检测方法,其特征是,所述生成取基于查单IP所属位置的异常指数包括,将最新查单城市与查单习惯城市对比,若最新查单操作发生在第一习惯查单城市,则为正常;若查单操作发生在非第一习惯查单城市,则为异常,并根据距离所述平均值的数值间隔,生成异常指数。
13.根据权利要求1所述的查单异常检测方法,其特征是,所述地理维度包括两地查单速度,该基于两地查单速度异常指数的生成包括如下步骤:获取用户查单速度,用户查单速度=|用户上一次查单IP所属城市-用户本次查单IP所属城市|÷|用户上一次查单时间-用户本次查单时间|;
将用户查单速度与预设速度阈值比较,
若用户查单速度小于等于预设速度阈值则正常,若用户查单速度大于预设速度阈值则为异常,根据用户查单速度与预设速度阈值之间的数值间隔生成异常指数。
14.根据权利要求1所述的查单异常检测方法,其特征是,所述频率维度包括预设时间区段操作频率的异常指数,该基于预设预设时间区段的异常指数的生成包括,获取用户预定时间区段的查单频率,并获取用户预设时间区段的的最高操作频率;
将该最高操作频率与预设频率阈值对比;
若小于等于该频率阈值则为正常;
若大于该频率阈值则为异常,并根据距离该阈值的数值间隔生成异常指数。
15.根据权利要求14所述的查单异常检测方法,其特征是,该预设频率阈值的获取包括,生成预设时间区段内的各用户的查单操作频率;
获取预设时间区段的总体用户的查单操作频率的方差的预设倍数,以生成预设频率阈值。
16.根据权利要求1所述的查单异常检测方法,其特征是,所述运单特征包括运单内容,该基于运单内容的异常指数的生成包括如下步骤,获取运单号对应的月结公司;
获取以部门或区域在历史预设时间区段内成功查单对应的月结公司的数量;
获取用户当日或当月成功查单数据对应的月结公司的数量,并与历史预设时间区段内成功查单对应的月结公司的数量对比;
利用IFOREST函数生成基于运单内容的异常指数。
17.根据权利要求1所述的查单异常检测方法,其特征是,所述用户属性维度包括用户自身查单,该基于用户自身查单异常指数的生成包括,划分查单当日日期类型;
获取用户当日成功查单数;
获取用户同日期类型的历史成功查单数;
将用户当日成功查单数、用户同日期类型的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数;或者,获取用户当月成功查单数;
获取用户每月历史成功查单数;
将用户当月成功查单数、用户每月历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
18.根据权利要求1所述的查单异常检测方法,其特征是,所述用户属性维度包括用户所在部门或区域,该基于用户所在部门或区域的异常指数的生成包括,划分查单当日日期类型;
获取当日成功查单数;
获取该部门或区域相应岗位同日期类型的历史成功查单数;
将当日成功查单数、所属部门或区域相应岗位同日期类型的历史成功查单数输入IFOREST函数计算当日用户的查单数异常指数;或者,获取用户当月成功查单数;
获取所属部门或区域相应岗位每月的历史成功查单数;
将用户当月成功查单数、所属部门或区域相应岗位每月的历史成功查单数输入IFOREST函数计算当月用户的查单数异常指数。
19.根据权利要求1-18任一所述的查单异常检测方法,其特征是,所述结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分,包括:通过下述日度权重评分或/和月度权重评分的计算公式,计算得分,日度权重评分=a1×∑(时间异常指数/当日操作次数)+a2×∑(地理异常指数/当日操作次数)+a3×频率异常指数+用户属性异常指数+运单特征异常指数,其中,a1-a3的取值范围为0-1,月度权重评分=b1×∑(时间异常指数/当月操作次数)+b2×∑(地理异常指数/当月操作次数)+用户属性异常指数+运单特征异常指数,其中,b1-b2的取值范围为0-1。
20.一种查单异常检测方法,其特征是,包括以下步骤获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间节点、时间类型、两次查单时间间隔、查单IP所属位置、两地查单速度、操作频率、运单内容、用户自身查单及用户所在部门或区域至少一维度下的查单异常指数;
获取新的查单数据,利用下述两公式至少之一生成异常得分,用户当日查单异常得分=a1×∑(时间节点的异常指数)/当日操作次数+a2×∑(时间类型的异常指数)/当日操作次数+a3×∑(查单IP所属位置的异常指数)/当日操作次数+a4×∑(两地查单速度的异常指数)/当日操作次数+a5×∑(两次查单时间间隔的异常指数)/当日操作次数+a6×操作频率+用户自身当日查单数异常指数+用户所在部门或区域当日查单数异常指数+运单内容异常指数,其中,a1—a6的取值范围为0-1,用户当月查单异常得分=b1×∑(时间节点的异常指数)/当月操作次数+b2×∑(时间类型的异常指数)/当月操作次数+b3×∑(查单IP所属位置的异常指数)/当月操作次数+b4×∑(两地查单速度的异常指数)/当月操作次数+b5×∑(两次查单时间间隔的异常指数)/当月操作次数+用户自身当月查单数异常指数+用户所在部门或区域相应岗位当月查单数异常指数+运单内容异常指数,其中,b1-b5取值范围为0-1。
21.一种查单异常检测系统,其特征是,包括:采集单元,用于获取用户历史预设时间区段内的查单数据;
维度建立单元,用于根据所述查单数据生成基于时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数;
异常评估单元,用于获取新的查单数据,结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分,
其中,维度建立单元具体用于,获取用户在历史预设时间区段内的成功查单数据;
根据所述成功查单数据,按照时间节点顺序创建查单习惯表;
获取最新的查单数据的时间节点,与所述查单习惯表对比;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔大于预设阈值,则为异常查单并生成查单异常指数;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔小于等于预设阈值,则为正常查单。
22.一种查单异常检测设备,其特征是,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:获取用户历史预设时间区段内的查单数据;
根据所述查单数据生成基于时间、地理、频率、用户属性及运单特征的至少一维度下的查单异常指数;
获取新的查单数据,结合最新查单数据的维度及该维度对应的所述查单异常指数,生成异常得分,
其中,该时间维度包括查单的时间节点,该基于查单的时间节点的异常指数的生成包括,获取用户在历史预设时间区段内的成功查单数据;
根据所述成功查单数据,按照时间节点顺序创建查单习惯表;
获取最新的查单数据的时间节点,与所述查单习惯表对比;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔大于预设阈值,则为异常查单并生成查单异常指数;
若最新查单数据所在时间节点与查单习惯表上的时间节点的正常值的时长间隔小于等于预设阈值,则为正常查单。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710579191.5A CN107357712B (zh) | 2017-07-17 | 2017-07-17 | 一种查单异常检测方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710579191.5A CN107357712B (zh) | 2017-07-17 | 2017-07-17 | 一种查单异常检测方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107357712A CN107357712A (zh) | 2017-11-17 |
CN107357712B true CN107357712B (zh) | 2020-09-25 |
Family
ID=60293184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710579191.5A Active CN107357712B (zh) | 2017-07-17 | 2017-07-17 | 一种查单异常检测方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107357712B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704773B (zh) * | 2018-06-25 | 2022-06-03 | 顺丰科技有限公司 | 基于频繁行为序列模式的异常行为检测方法及系统 |
CN109688110A (zh) * | 2018-11-22 | 2019-04-26 | 顺丰科技有限公司 | Dga域名检测模型构建方法、装置、服务器及存储介质 |
CN112529509A (zh) * | 2020-12-29 | 2021-03-19 | 安徽运通达物流科技有限公司 | 一种运输平台中恶意运单识别的方法 |
CN113935696B (zh) * | 2021-12-14 | 2022-04-08 | 国家邮政局邮政业安全中心 | 一种寄递行为异常分析方法、系统、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281293A (zh) * | 2013-03-22 | 2013-09-04 | 南京江宁台湾农民创业园发展有限公司 | 一种基于多维分层相对熵的网络流量异常检测方法 |
CN104657387A (zh) * | 2013-11-22 | 2015-05-27 | 华为技术有限公司 | 一种数据查询方法及装置 |
CN106790193A (zh) * | 2016-12-30 | 2017-05-31 | 山石网科通信技术有限公司 | 基于主机网络行为的异常检测方法和装置 |
-
2017
- 2017-07-17 CN CN201710579191.5A patent/CN107357712B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281293A (zh) * | 2013-03-22 | 2013-09-04 | 南京江宁台湾农民创业园发展有限公司 | 一种基于多维分层相对熵的网络流量异常检测方法 |
CN104657387A (zh) * | 2013-11-22 | 2015-05-27 | 华为技术有限公司 | 一种数据查询方法及装置 |
CN106790193A (zh) * | 2016-12-30 | 2017-05-31 | 山石网科通信技术有限公司 | 基于主机网络行为的异常检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107357712A (zh) | 2017-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107172104B (zh) | 一种登录异常检测方法、系统及设备 | |
CN107357712B (zh) | 一种查单异常检测方法、系统及设备 | |
US7200604B2 (en) | Data de-duplication | |
US8023628B2 (en) | System and method for auditing a telephone number inventory of a telecommunications carrier | |
US20080140438A1 (en) | Risk management tool | |
US8504673B2 (en) | Traffic like NXDomains | |
CN109640312B (zh) | “黑卡”识别方法、电子设备及计算机可读取存储介质 | |
EP2153313A1 (en) | System and method for categorizing credit card transacation data | |
CN108470312B (zh) | 理赔案件的分析方法、装置、存储介质及终端 | |
US8494911B2 (en) | Dashboard maintenance/outage correlation | |
CN112668859A (zh) | 基于大数据的客户风险评级方法、装置、设备及存储介质 | |
CN101925039A (zh) | 计费话单的预警方法及装置 | |
US20150254783A1 (en) | Systems and methods for estate account discovery | |
US11966933B2 (en) | System and method for correlating and enhancing data obtained from distributed sources in a network of distributed computer systems | |
CN115456745A (zh) | 小微企业画像构建方法及装置 | |
CN109510800A (zh) | 一种网络请求处理方法、装置、电子设备及存储介质 | |
CN109377391B (zh) | 一种信息追踪方法、存储介质和服务器 | |
CN106157214A (zh) | 信息追踪的方法及装置 | |
CN113590683A (zh) | 一种多维度的电子票据可疑用票综合监测分析方法 | |
CN107395585B (zh) | 一种基于时间节点的异常指数的获取方法、系统及设备 | |
CN112396531A (zh) | 一种集资讯、社交、多平台聚合服务于一体的管理系统 | |
CN112800313A (zh) | 一种基于云平台的智能化信息追溯系统 | |
WO2019081181A1 (en) | SYSTEM AND METHOD FOR CALCULATING AT LEAST ONE RISK INDEX FOR CYBERSECURITY THREATS | |
CN109408584A (zh) | 报表显示方法、装置、计算机装置及存储介质 | |
JP2004145636A (ja) | 営業活動支援方法、サーバ及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |