CN109933608A - 一种对加油卡的套现行为进行识别的方法 - Google Patents
一种对加油卡的套现行为进行识别的方法 Download PDFInfo
- Publication number
- CN109933608A CN109933608A CN201910081246.9A CN201910081246A CN109933608A CN 109933608 A CN109933608 A CN 109933608A CN 201910081246 A CN201910081246 A CN 201910081246A CN 109933608 A CN109933608 A CN 109933608A
- Authority
- CN
- China
- Prior art keywords
- gas filling
- card
- filling card
- entropy
- oiling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Loading And Unloading Of Fuel Tanks Or Ships (AREA)
Abstract
本发明提供一种对加油卡的套现行为进行识别的方法,包括:收集加油卡的加油交易记录;根据加油卡的加油交易记录对所述加油卡的加油行为进行统计,得到所述加油卡在各种维度下的加油行为分布情况;计算所述加油卡在各种维度下的加油行为分布情况的熵值;根据各个熵值分析所述加油卡在各种维度下的加油行为选择的确定性,其中熵值越小,加油行为选择的确定性越强,综合所述加油卡在各种维度下的加油行为选择的确定性来判断所述加油卡是否具有套现行为的嫌疑。本发明通过对加油卡的加油交易记录进行分析,能够识别出有可能是模仿用户的加油行为进行套现的加油卡。
Description
技术领域
本发明涉及管理、监督或预测目的的数据处理技术,尤其涉及一种对加油卡的套现行为进行识别的方法。
背景技术
随着加油卡的迅猛发展,在成品油零售中,通过加油卡进行支付的比率逐年攀升。同时,石化销售企业设定的促销活动大多基于加油卡实施,使得消费者利用加油卡加油会得到许多返利利好,例如通过刷卡支付获得奖励、折扣优惠以及累积积分兑换礼品等。然而,在加油卡促进了成品油的业务增长的同时,加油站员工利用加油卡进行套现的行为时有发生。
加油站员工利用加油卡进行套现,该行为的主要表现是:加油站员工利用私自办理的加油卡为现金用户进行加油,从而将现金销售变为加油卡销售,进而达到将石化销售企业对加油卡客户的优惠让利占为己有的目的。
最初,这种利用加油卡进行套现的行为具有比较明显的特征:刷卡次数频繁、刷卡时段特殊(例如深夜)、短时间连续刷卡以及刷卡金额较大等等。
基于上述特征,对员工利用加油卡进行套现的行为进行排查,现行最有效的技术方案是一种基于预设条件的数据筛选系统:
该系统存储了所有的加油卡的加油记录,通过人工添加利用加油卡套现行为所满足的必要条件(例如,每天刷卡次数大于3次),系统能够自动地筛选出符合预设条件的加油卡,从而缩小利用加油卡进行套现的行为的排查范围。
现有的通过直接输入条件进行筛选的方式,要求使用者必须明确地定义利用加油卡进行套现的行为的特征。然而,利用加油卡进行套现的行为除了具有混乱的特征以外,并没有直接的能够明确定义的其他特征。因此,现有的通过直接输入数据条件进行筛选的方式并不能够精准地判断刷卡加油行为是否异常,排查的过程相对繁琐且排查的结果不够准确。
而且,随着石化销售企业对利用加油卡进行套现的行为的重视,加油站员工利用加油卡进行套现的行为也变得更为隐蔽。加油站员工不再无节制地刷卡套现,而是力求模拟正常的加油卡的行为。例如,加油站员工知晓每天刷卡次数过多会招致怀疑,于是将利用加油卡进行套现的行为控制在每张加油卡每天3次以内。这样一来,上述系统所需要预设的数据条件就会变得更加复杂,逐渐难以实施。
对于这种没有明显特征的违规行为,石化销售企业只能结合监控录像进行人工抽查。然而,这种单纯地通过人工抽查的方法费时又费力,其效率和效果均无法满足现实的管理需求。因此除了对基层工作人员进行定期的思想教育之外,目前尚无行之有效的解决方法。
因此,亟需一种能够对加油卡的套现行为进行识别的方法。
发明内容
为了解决上述问题,本发明提供一种能够对加油卡的套现行为进行识别的方法。所述识别方法包括:
数据收集步骤,收集加油卡的加油交易记录;
数据统计步骤,根据加油卡的加油交易记录对利用所述加油卡的加油行为进行统计,得到所述加油卡在各种维度下的加油行为分布情况;
熵值计算步骤,计算所述加油卡在各种维度下的加油行为分布情况的熵值;
分析判断步骤,根据各个熵值分析所述加油卡在各种维度下的加油行为选择的确定性,其中熵值越小,加油行为选择的确定性越强,综合所述加油卡在各种维度下的加油行为选择的确定性来判断所述加油卡是否具有套现行为的嫌疑。
根据本发明的一个实施例,所述加油交易记录包括加油卡号、加油站代码、油品代码、加油量、加油日期以及加油时间。
根据本发明的一个实施例,所述维度包括以下至少一种维度:加油站的维度、油品的维度以及加油量的维度。
根据本发明的一个实施例,若所述维度包括加油站的维度,则所述加油卡在加油站的维度下的加油行为分布情况通过该加油卡在各个加油站的消费次数与该加油卡的全部消费次数的比值来描述;若所述维度包括油品的维度,则所述加油卡在油品的维度下的加油行为分布情况通过该加油卡关于各种油品的消费次数与该加油卡的全部消费次数的比值来描述;若所述维度包括加油量的维度,则为所述加油卡的单次加油量设置油量区间,所述加油卡在加油量的维度下的加油行为分布情况通过该加油卡的单次加油量落入各个油量区间内的次数与该加油卡的全部消费次数的比值来描述。
根据本发明的一个实施例,优选通过以下方式设置油量区间:
收集所述加油卡的单次加油量的全部记录,通过按分位数划分记录来设置油量区间,其中0分位为记录中的最小值,1分位为记录中的最大值。
更优选地,选取记录的[0分位、0.25分位、0.5分位、0.75分位、1分位]作为间隔,设置四个油量区间。
根据本发明的一个实施例,在熵值计算步骤中,基于下式计算所述加油卡在一种维度下的加油行为分布情况的熵值:
e=-sum(pi*log(pi))
其中,e表示熵值;pi,i=1,2,…,n为一组描述所述加油卡在一种维度下的加油行为分布情况的百分比比值,其总和为1。
根据本发明的一个实施例,所述分析判断步骤包括:
设置熵值区间,所述熵值区间用来表征加油行为选择的确定性的强弱;
根据所述加油卡在各种维度下的加油行为分布情况的熵值,确定所述加油卡在各种维度下的熵值所属的熵值区间;
判断所述加油卡在各种维度下的熵值区间是否与嫌疑卡在各种维度下的熵值区间一致;
若一致,则判断所述加油卡是具有套现行为嫌疑的嫌疑卡。
根据本发明的一个实施例,所述熵值区间包括第一区间、第二区间和第三区间:
所述第一区间为0≤熵值<第一阈值,用于表征加油行为具有一种或两种固定偏好;
所述第二区间为第一阈值≤熵值<第二阈值,用于表征加油行为具有两种以上固定偏好;
所述第三区间为第二阈值≤熵值,用于表征加油行为没有固定偏好。
根据本发明的一个实施例,所述嫌疑卡在各种维度下的熵值区间包括:
在加油站的维度下的熵值区间为第一区间,在油品的维度下的熵值区间为第三区间,在加油量的维度下的熵值区间为第三区间。
根据本发明的一个实施例,在分析判断步骤中,若加油卡是嫌疑卡,则进一步结合加油时间来判断嫌疑卡的嫌疑度:
如果存在同一天内两次以上的加油记录,而且油品不同,则嫌疑卡的嫌疑度最高;
如果存在同一天内两次以上的加油记录,但是油品相同,则嫌疑卡的嫌疑度次高。
与现有技术相比,本发明具有如下优点或有益效果:
1)现有技术(通过输入条件进行数据筛选的方式)要求使用者必须明确定义作弊行为的条件特征,实际上利用会员卡套现的行为除了具有混乱的特征以外,并无直接可明确定义的特征表现。故而直接输入数据条件进行筛选的方式并不能更精准的判断刷卡加油行为是否异常。本发明通过基于加油卡的加油交易记录得到加油卡在各种维度下的加油行为分布情况,进而根据加油行为分布情况分析加油卡在各种维度下的加油行为选择的确定性,综合加油卡在各种维度下的加油行为选择的确定性来判断所述加油卡是否具有套现行为的嫌疑,极大地缩小了排查范围,提升了排查效率,提高了排查结果的准确度。
2)正常地使用加油卡刷卡加油的消费行为具有一定的稳定性和规律性,相对而言,异常地使用加油卡套现的消费行为就很混乱,然而这种混乱难以通过直接的预设条件来定义。本发明通过引用计算熵值的方式来描述行为的确定性程度,分析加油卡在各种维度下的加油行为选择对象(例如加油站、加油油品、单次加油量)的确定性,从而提高了排查结果的准确度。
3)本发明通过分析加油卡在加油站点、加油油品、单次加油量等具有典型特征的维度下的加油行为分布情况,筛选出异常的加油卡,极大地缩小了排查范围,提升了排查效率。
4)本发明通过收集所述加油卡的单次加油量的全部记录,按分位数划分记录,设置油量区间,使得每个油量区间间隔内的数据数量相同,从而消弭了加油卡总体的规律性,提高了排查结果的准确度。
5)本发明在缩小筛选范围后还可以结合加油时间和加油油品等信息对嫌疑卡进行进一步的排查,若嫌疑卡在一日之内发生多次刷卡的情况,则可以在系统中发出提示,进一步地锁定嫌疑卡,对嫌疑卡进行重点追踪和监控,提高查证效率。
6)本发明可以根据实际生产工作条件选取适当的熵值区间来描述嫌疑度范围,灵活度高且扩展性强。
附图说明
通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围,其中所包括的附图是:
图1示出了本发明实施例一的对加油卡的套现行为进行识别的方法的流程图;
图2示出了本发明实施例一的对加油卡的套现行为进行识别的步骤的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图以及实施例来详细说明本发明的实施方案,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
实施例一
图1是本发明实施例一提供的加油卡套现行为识别方法的流程图,以下结合图1和图2对每个步骤进行详细说明。
如图1所示,该方法主要包括以下步骤:
S100,数据收集步骤,收集加油卡的加油交易记录。
在本实施例中,收集利用加油卡在加油站进行加油时所产生的加油交易记录,该记录主要包括但不限于加油卡号、加油站代码、油品代码、加油量、加油日期以及加油时间等信息。
S200,数据统计步骤,根据加油卡的加油交易记录对利用所述加油卡的加油行为进行统计,得到所述加油卡在各种维度下的加油行为分布情况。
在本实施例中,所述维度包括以下至少一种维度:加油站的维度、油品的维度以及加油量的维度。其中:
若所述维度包括加油站的维度,则所述加油卡在加油站的维度下的加油行为分布情况通过该加油卡在各个加油站的消费次数与该加油卡的全部消费次数的比值来描述。
例如,统计加油卡关于加油站维度的加油数据,得到加油卡在一段时期(如半年)内选择各个加油站进行加油的次数,以及加油卡选择各个加油站进行加油的次数占全部加油次数的占比值,从而得到如下表1。该表以‘加油卡号’和‘加油站代码’为key值,以加油卡在相应加油站的加油次数和加油卡在相应加油站的加油次数占该加油卡的全部加油次数的占比值为value值。
表1加油卡在加油站的维度下的分布以及占比
加油卡号 | 加油站代码 | 加油次数 | 占比值 |
id_1 | sta_1 | p_11 | q_11 |
id_1 | sta_2 | p_12 | q_12 |
id_2 | sta_1 | p_21 | q_21 |
... | ... | ... | ... |
其中,id_i为加油卡号,用于区分不同的加油卡;sta_j加油站代码,用于区分不同的加油站;p_ij为加油卡i在加油站j的加油次数,q_ij为加油卡i在加油站j的加油次数与加油卡i的全部加油次数的比值(%),其中,i与j分别取1,2,…,n。
若所述维度包括油品的维度,则所述加油卡在油品的维度下的加油行为分布情况通过该加油卡关于各种油品的消费次数与该加油卡的全部消费次数的比值来描述。
例如,统计加油卡关于油品维度的加油数据,得到加油卡在一段时期(如半年)内选择各种油品进行加油的次数,以及加油卡选择各种油品进行加油的次数占全部加油次数的占比值,从而得到如下表2。该表以‘加油卡号’和‘油品代码’为key值,以加油卡选择相应油品进行加油的次数和加油卡选择相应油品进行加油的次数占全部加油次数的占比值为value值。
表2加油卡在油品的维度下的分布以及占比
加油卡号 | 油品代码 | 加油次数 | 占比值 |
id_1 | oilT_1 | r_11 | s_11 |
id_1 | oilT_2 | r_12 | s_12 |
id_2 | oilT_1 | r_21 | s_21 |
... | ... | ... | ... |
其中,id_i为加油卡号,用于区分不同的加油卡;oilT_j为油品代码,用于区分不同种类的油品;r_ij为加油卡i选择了油品oilT_j进行加油的次数;s_ij为加油卡i选择了油品oilT_j进行加油的次数与该加油卡i的全部加油次数的比值(%),其中,i与j分别取1,2,…,n。
若所述维度包括加油量的维度,则首先为所述加油卡的单次加油量设置油量区间,然后再通过该加油卡的单次加油量落入各个油量区间内的次数与该加油卡的全部消费次数的比值来描述所述加油卡在加油量的维度下的加油行为分布情况。当然,加油量的维度也可以采用其它方式来表征,不限于此。
在本实施例中,优选通过以下方式设置所述油量区间:
对一段时期(如半年)内的所有加油卡的全部加油量进行统计,找出最大加油量和最小加油量,将[最小加油量,最大加油量]等分,划分成若干个油量区间。
例如,统计加油卡关于加油量维度的加油数据,得到加油卡在一段时期(如半年)内单次加油量落入各个油量区间内的次数以及单次加油量落入各个油量区间内的次数占全部加油次数的占比值,从而得到如下表3。该表以‘加油卡号’和‘油量区间代码’为key值,以单次加油量落入对应油量区间的次数以及单次加油量落入对应油量区间内的次数占全部加油次数的占比值为value值。
表3加油卡在加油量的维度下的分布以及占比
加油卡号 | 油量区间代码 | 加油次数 | 占比值 |
id_1 | inter_1 | t_11 | u_11 |
id_1 | inter_2 | t_12 | u_12 |
id_2 | inter_1 | t_21 | u_21 |
... | ... | ... | ... |
其中,id_i为加油卡号,用于区分不同的加油卡;inter_j为油量区间代码,用于区分不同的油量区间;t_ij为加油卡i的单次加油量落在油量区间inter_j的次数;u_ij为加油卡i的单次加油量落在油量区间inter_j的次数与加油卡i的全部加油次数的比值(%);其中,i与j分别取1,2,…,n。
在本实施例中,优选地通过按分位数划分记录来设置油量区间,以消弭加油卡总体的规律性。
例如,收集所述加油卡的单次加油量的全部记录,选取记录的[0分位、0.25分位、0.5分位、0.75分位、1分位]作为间隔,设置四个油量区间inter_1~inter_4。其中,0分位为单次加油量记录中的最小值,1分位为单次加油量记录中的最大值。
S300,熵值计算步骤,基于下式计算所述加油卡在各种维度下的加油行为分布情况的熵值:
e=-sum(pi*log(pi))
其中,e表示熵值;pi,i=1,2,…,n为一组描述所述加油卡在一种维度下的加油行为分布情况的百分比值,其总和为1。
如图2所示,在本实施例中,计算每张加油卡在加油站、油品以及加油量三个维度下的加油行为分布情况的熵值。
表4加油卡的加油行为分布情况的熵值统计表
加油卡号 | 加油站的熵值 | 油品的熵值 | 加油量的熵值 |
id_1 | e<sub>11</sub> | e<sub>12</sub> | e<sub>13</sub> |
id_2 | e<sub>21</sub> | e<sub>22</sub> | e<sub>23</sub> |
id_3 | e<sub>31</sub> | e<sub>32</sub> | e<sub>33</sub> |
... | ... | ... | ... |
其中,ei1表示加油卡i在加油站维度下的加油行为分布情况的熵值;ei2表示加油卡i在油品维度下的加油行为分布情况的熵值;ei3表示加油卡i在加油量维度下的加油行为分布情况的熵值,其中,i取1,2,…,n。
S400,分析判断步骤,根据各个熵值分析所述加油卡在各种维度下的加油行为选择的确定性,其中熵值越小,加油行为选择的确定性越强,然后综合所述加油卡在各种维度下的加油行为选择的确定性来判断所述加油卡是否具有套现行为的嫌疑。
事实上,该步骤的实施过程有多种,在本实施例中,主要分为以下几个步骤:
S410,设置熵值区间,所述熵值区间用来表征加油行为选择的确定性的强弱;优选地,所述熵值区间包括第一区间、第二区间和第三区间,其中:
所述第一区间为0≤熵值≤第一阈值,记为E1,用于表征加油行为具有一种或两种固定偏好;
所述第二区间为第一阈值<熵值≤第二阈值,记为E2,用于表征加油行为具有两种以上固定偏好;
所述第三区间为第二阈值<熵值,记为E3,用于表征加油行为没有固定偏好。
当然,具体设置可以不限于此,可以根据实际生产工作条件选取适当的阈值来划分更多的区间,使得结果更加精确。
S420,根据所述加油卡在各种维度下的加油行为分布情况的熵值,确定所述加油卡在各种维度下的熵值所位于的熵值区间。
对加油卡在各种维度下的加油行为分布情况的熵值e,按照上述区间确定其所对应的熵值区间,得到如下表5所示的加油卡在各种维度下的熵值区间:
表5加油卡的加油行为分布情况的熵值区间分布
加油卡 | 加油站的熵值区间 | 油品的熵值区间 | 加油量的熵值区间 |
id_1 | E<sub>11</sub> | E<sub>12</sub> | E<sub>13</sub> |
id_2 | E<sub>21</sub> | E<sub>22</sub> | E<sub>23</sub> |
id_3 | E<sub>31</sub> | E<sub>32</sub> | E<sub>33</sub> |
... | ... | ... | ... |
其中Eij是加油卡i在各种维度下的熵值区间,其值分别为E1、E2或者E3。Ei1表示加油卡i在加油站维度下的熵值区间;Ei2表示加油卡i在油品维度下的熵值区间;Ei3表示加油卡i在加油量维度下的熵值区间。
S430,判断所述加油卡在各种维度下的熵值区间是否与嫌疑卡在各种维度下的熵值区间一致;若一致,则判断所述加油卡是具有套现行为嫌疑的嫌疑卡。
在本实施例中,基于现有的经验可以(例如通过大数据分析)确定嫌疑卡的特征,从而得到一组用于初步识别嫌疑卡的判断条件。例如,嫌疑卡的特征是嫌疑卡在加油站、油品和加油量的维度下的熵值区间分别为第一区间E1、第三区间E3和第三区间E3。若加油卡在加油站、油品和加油量的维度下的熵值区间分别为第一区间E1、第三区间E3和第三区间E3,则可以判断加油卡是具有套现行为嫌疑的嫌疑卡。
这是因为,加油站员工在利用加油卡进行套现时,通常只会在自己熟悉的加油站对现金用户进行刷卡,而不会随意地选择加油站进行刷卡。因此嫌疑卡的表现行为通常为:该加油卡的加油行为在加油站的维度下分布较为集中,但是该加油卡的加油行为在油品的维度和在加油量的维度下的分布却不集中,甚至还有些零散。因此,判断加油卡是否为嫌疑卡的条件为:加油卡在加油站、油品和加油量的维度下的熵值区间是否为第一区间E1、第三区间E3和第三区间E3。
优选地,在步骤S400中,若加油卡是嫌疑卡,还可以进一步结合加油时间来判断嫌疑卡的嫌疑度。
在本实施例中,嫌疑卡的具体表现至少包括嫌疑卡在一天内的刷卡次数以及当日内选择的油品是否相同。
具体的,可以利用常用的排序算法对筛选出的嫌疑卡进行排序,排序依据为:1、嫌疑卡在一天之内是否有两次以上的刷卡记录;2、刷卡的油品是否相同。其中:
若嫌疑卡存在同一天之内有两次以上的刷卡记录然而刷卡油品不同,则该嫌疑卡的嫌疑度最高;
若嫌疑卡存在同一天之内有两次以上的刷卡记录但是刷卡油品相同,则该嫌疑卡的嫌疑度次高;
其余的嫌疑卡的嫌疑度最低。
至此,已经能够极大地缩小排查范围,提升排查效率,大幅度地提高了利用加油卡套现行为判断的准确度。
实施例二
下面结合具体的实例对本发明的加油卡套现行为识别方法进行举例性说明。
下表表6为收集到的加油卡a和加油卡b的加油交易记录:其中,加油卡a的4次加油记录都集中在加油站3000001处,并且所加油品各不相同,加油量也各不相同。加油卡b的3次加油记录分布在三个不同的加油站处,但是所加油品都为C,加油量都集中在85升左右,分别为80升、90升以及85升。
表6收集到的加油交易记录
卡号 | 加油站代码 | 油品代码 | 加油量(升) |
a | 3000001 | C | 20 |
a | 3000001 | Q98 | 50 |
a | 3000001 | Q92 | 100 |
a | 3000001 | Q95 | 80 |
b | 3000001 | C | 80 |
b | 3000002 | C | 90 |
b | 3000003 | C | 85 |
如下表表7所示,在加油站的维度下,对收集到的加油交易记录进行统计和分析,得到在各加油站的加油次数以及相应的占比值。其中,加油卡a的加油站选择非常集中,加油卡b的加油站选择较为分散。
表7加油站维度的统计结果
卡号 | 加油站代码 | 加油次数 | 加油占比 |
a | 3000001 | 4 | 1 |
b | 3000001 | 1 | 0.33 |
b | 3000002 | 1 | 0.33 |
b | 3000003 | 1 | 0.33 |
如下表表8所示,在油品的维度下,对收集到的加油交易记录进行统计和分析,得到各油品的加油次数以及相应的占比值。其中,加油卡a的油品选择较为分散,加油卡b的油品选择非常集中。
表8油品维度的统计结果
卡号 | 油品代码 | 加油次数 | 加油占比 |
a | C | 1 | 0.25 |
a | Q92 | 1 | 0.25 |
a | Q95 | 1 | 0.25 |
a | Q98 | 1 | 0.25 |
b | C | 3 | 1 |
如下表表9所示,在加油量的维度下,首先收集所述加油卡的单次加油量的全部记录,然后选取记录的[0分位,0.25分位,0.5分位,0.75分位,1分位]作为间隔,设置油量区间。在本实施例中,所述加油卡的单次加油量的最大值为20升,最小值为100升,因此按分位数划分的间隔是[20,40,80,87.5,100]。相应地,加油卡在各油量区间的加油次数以及相应的占比值如下表表9所示。
表9加油量维度的统计结果
卡号 | 油量区间代码 | 加油次数 | 加油占比 |
a | [20,40) | 1 | 0.25 |
a | [40,80) | 1 | 0.25 |
a | [80,87.5) | 1 | 0.25 |
a | [87.5,100] | 1 | 0.25 |
b | [80,87.5) | 2 | 0.67 |
b | [87.5,100] | 1 | 0.33 |
如下表表10所示,基于熵值计算式,对上述三个维度下加油行为分布情况的熵值进行计算,得到各个加油行为分布情况的熵值的结果。其中,加油卡a的加油站熵值为0,即加油卡a的加油站选择得非常集中;加油卡b的油品熵值为0,即加油卡b的油品选择得非常集中。
表10加油行为分布情况的熵值的结果
卡号 | 加油站的熵值 | 油品的熵值 | 加油量的熵值 |
a | 0 | 1.386294 | 1.386294 |
b | 1.097576 | 0 | 0.6341786 |
在本实施例中,当n=2,且p1=p2=0.5时,熵值为0.7;当n=3,且p1=p2=p3=0.33时,熵值为1.1。因此,优选地,可以设置第一阈值为0.7,第二阈值为1.1,依据第一阈值和第二阈值对熵值进行等级划分,设置第一区间和第二区间以及第三区间:
E1(0≤e≤0.7):表征加油卡在此维度下有一种或两种固定偏好(比如,在众多加油站中会偏好在其中两家进行加油,加油次数较多)。
E2(0.7<e≤1.1):表征加油卡在此维度下有不止两种固定偏好。
E3(e>1.1):表征加油卡在此维度下没有固定偏好。
如下表表11所示,确定加油卡在各维度下的所属的熵值区间。
表11加油行为分布情况的熵值区间的统计结果
卡号 | 加油站的熵值区间 | 油品的熵值区间 | 加油量的熵值区间 |
a | E1 | E3 | E3 |
b | E2 | E1 | E1 |
然后,从上表中挑选出符合以下条件的加油卡:加油站的熵值区间为E1,油品的熵值区间为E3,加油量的熵值区间为E3。
在本实施例中,可以确定卡号为a的加油卡是具有套现行为嫌疑的嫌疑卡。
由此可见,本发明提供的加油卡套现行为的识别方法直接基于加油卡的加油交易记录,通过分析加油卡在各种维度(例如加油站点、加油油品、单次加油需求)下的加油行为分布情况,计算分布情况的熵值来判断加油行为选择的确定性的强弱,从而筛选出异常的加油卡,该方法极大地缩小了数据搜索范围,提升了利用会员卡套现行为判断的准确度,能够准确地识别出哪些加油卡为利用加油卡进行套现的嫌疑卡,而且在此基础上可以进一步地通过监控等手段进行查证,确定嫌疑卡是否被用来刷卡套现。
此外,本发明还提供一种计算机可读存储介质,其中存储有关于对加油卡的套现行为进行识别的系统程序,所述系统程序在被处理器执行时实现上述本发明对加油卡的套现行为进行识别的方法。在具体应用时:可以利用上述系统检查加油卡是否存在异常交易情况,即具有套现行为的嫌疑,如发现同一张卡在较短时间内反复加同一油品或同一张卡既加汽油又加柴油,然后再根据该卡的异常交易时段查看加油站监控视频,结合视频确认是否存在员工持卡套现的情况。
以上实施例仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以存在许多变形。凡是本领域的普通技术人员能以本发明公开的内容直接导出或是联想到的所有变形均应被认为是本发明的保护范围。
Claims (10)
1.一种对加油卡的套现行为进行识别的方法,其特征在于,包括:
数据收集步骤,收集加油卡的加油交易记录;
数据统计步骤,根据加油卡的加油交易记录对利用所述加油卡的加油行为进行统计,得到所述加油卡在各种维度下的加油行为分布情况;
熵值计算步骤,计算所述加油卡在各种维度下的加油行为分布情况的熵值;
分析判断步骤,根据各个熵值分析所述加油卡在各种维度下的加油行为选择的确定性,其中熵值越小,加油行为选择的确定性越强,综合所述加油卡在各种维度下的加油行为选择的确定性来判断所述加油卡是否具有套现行为的嫌疑。
2.根据权利要求1所述的对加油卡的套现行为进行识别的方法,其特征在于,所述加油交易记录包括加油卡号、加油站代码、油品代码、加油量、加油日期以及加油时间。
3.根据权利要求1所述的对加油卡的套现行为进行识别的方法,其特征在于,所述维度包括以下至少一种维度:加油站的维度、油品的维度以及加油量的维度。
4.根据权利要求1所述的对加油卡的套现行为进行识别的方法,其特征在于:
若所述维度包括加油站的维度,则所述加油卡在加油站的维度下的加油行为分布情况通过该加油卡在各个加油站的消费次数与该加油卡的全部消费次数的比值来描述;
若所述维度包括油品的维度,则所述加油卡在油品的维度下的加油行为分布情况通过该加油卡关于各种油品的消费次数与该加油卡的全部消费次数的比值来描述;
若所述维度包括加油量的维度,则为所述加油卡的单次加油量设置油量区间,所述加油卡在加油量的维度下的加油行为分布情况通过该加油卡的单次加油量落入各个油量区间内的次数与该加油卡的全部消费次数的比值来描述。
5.根据权利要求4所述的对加油卡的套现行为进行识别的方法,其特征在于,通过以下方式为所述加油卡的单次加油量设置油量区间:
收集所述加油卡的单次加油量的全部记录,通过按分位数划分记录来设置油量区间,其中0分位为记录中的最小值,1分位为记录中的最大值。
6.根据权利要求1所述的对加油卡的套现行为进行识别的方法,其特征在于,在熵值计算步骤中,基于下式计算所述加油卡在一种维度下的加油行为分布情况的熵值:
e=-sum(pi*log(pi))
其中,e表示熵值;pi,i=1,2,…,n为一组描述所述加油卡在一种维度下的加油行为分布情况的百分比比值,pi的总和为1。
7.根据权利要求1所述的对加油卡的套现行为进行识别的方法,其特征在于,所述分析判断步骤包括:
设置熵值区间,所述熵值区间用来表征加油行为选择的确定性的强弱;
根据所述加油卡在各种维度下的加油行为分布情况的熵值,确定所述加油卡在各种维度下的熵值所属的熵值区间;
判断所述加油卡在各种维度下的熵值区间是否与嫌疑卡在各种维度下的熵值区间一致;
若一致,则判断所述加油卡是具有套现行为嫌疑的嫌疑卡。
8.根据权利要求7所述的对加油卡的套现行为进行识别的方法,其特征在于,所述熵值区间包括第一区间、第二区间和第三区间:
所述第一区间为0≤熵值<第一阈值,用于表征加油行为具有一种或两种固定偏好;
所述第二区间为第一阈值≤熵值<第二阈值,用于表征加油行为具有两种以上固定偏好;
所述第三区间为第二阈值≤熵值,用于表征加油行为没有固定偏好。
9.根据权利要求8所述的对加油卡的套现行为进行识别的方法,其特征在于,所述嫌疑卡在各种维度下的熵值区间包括:
在加油站的维度下的熵值区间为第一区间,在油品的维度下的熵值区间为第三区间,在加油量的维度下的熵值区间为第三区间。
10.根据权利要求9所述的对加油卡的套现行为进行识别的方法,其特征在于,在分析判断步骤中,若加油卡是嫌疑卡,则进一步结合加油时间来判断嫌疑卡的嫌疑度:
如果存在同一天内两次以上的加油记录,而且油品不同,则嫌疑卡的嫌疑度最高;
如果存在同一天内两次以上的加油记录,但是油品相同,则嫌疑卡的嫌疑度次高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910081246.9A CN109933608A (zh) | 2019-01-28 | 2019-01-28 | 一种对加油卡的套现行为进行识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910081246.9A CN109933608A (zh) | 2019-01-28 | 2019-01-28 | 一种对加油卡的套现行为进行识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109933608A true CN109933608A (zh) | 2019-06-25 |
Family
ID=66985278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910081246.9A Pending CN109933608A (zh) | 2019-01-28 | 2019-01-28 | 一种对加油卡的套现行为进行识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109933608A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242632A (zh) * | 2020-01-07 | 2020-06-05 | 石化盈科信息技术有限责任公司 | 一种识别套现账户的方法、存储介质及电子设备 |
CN111507883A (zh) * | 2020-04-20 | 2020-08-07 | 车主邦(北京)科技有限公司 | 一种加油过程中获取车辆运行数据的方法 |
CN112069538A (zh) * | 2020-09-04 | 2020-12-11 | 北京中油瑞飞信息技术有限责任公司 | 一种加油数据资产包生成方法及装置 |
CN112714115A (zh) * | 2020-12-23 | 2021-04-27 | 中国石化销售股份有限公司天津石油分公司 | 一种加油站安全管理系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050091151A1 (en) * | 2000-08-23 | 2005-04-28 | Ronald Coleman | System and method for assuring the integrity of data used to evaluate financial risk or exposure |
CN106033574A (zh) * | 2015-03-10 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种作弊行为的识别方法及装置 |
CN106326913A (zh) * | 2016-08-09 | 2017-01-11 | 中国银联股份有限公司 | 一种洗钱账户的确定方法及装置 |
CN107169768A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 异常交易数据的获取方法和装置 |
CN107679204A (zh) * | 2017-10-12 | 2018-02-09 | 中启行物联科技(北京)有限公司 | 一种防止油卡套现的方法 |
-
2019
- 2019-01-28 CN CN201910081246.9A patent/CN109933608A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050091151A1 (en) * | 2000-08-23 | 2005-04-28 | Ronald Coleman | System and method for assuring the integrity of data used to evaluate financial risk or exposure |
CN106033574A (zh) * | 2015-03-10 | 2016-10-19 | 阿里巴巴集团控股有限公司 | 一种作弊行为的识别方法及装置 |
CN107169768A (zh) * | 2016-03-07 | 2017-09-15 | 阿里巴巴集团控股有限公司 | 异常交易数据的获取方法和装置 |
CN106326913A (zh) * | 2016-08-09 | 2017-01-11 | 中国银联股份有限公司 | 一种洗钱账户的确定方法及装置 |
CN107679204A (zh) * | 2017-10-12 | 2018-02-09 | 中启行物联科技(北京)有限公司 | 一种防止油卡套现的方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242632A (zh) * | 2020-01-07 | 2020-06-05 | 石化盈科信息技术有限责任公司 | 一种识别套现账户的方法、存储介质及电子设备 |
CN111507883A (zh) * | 2020-04-20 | 2020-08-07 | 车主邦(北京)科技有限公司 | 一种加油过程中获取车辆运行数据的方法 |
CN111507883B (zh) * | 2020-04-20 | 2023-09-01 | 车主邦(北京)科技有限公司 | 一种加油过程中获取车辆运行数据的方法 |
CN112069538A (zh) * | 2020-09-04 | 2020-12-11 | 北京中油瑞飞信息技术有限责任公司 | 一种加油数据资产包生成方法及装置 |
CN112714115A (zh) * | 2020-12-23 | 2021-04-27 | 中国石化销售股份有限公司天津石油分公司 | 一种加油站安全管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang | A comprehensive survey of data mining-based accounting-fraud detection research | |
CN109933608A (zh) | 一种对加油卡的套现行为进行识别的方法 | |
Sarno et al. | Hybrid Association Rule Learning and Process Mining for Fraud Detection. | |
Lehmann | Is it worth the while | |
US7853469B2 (en) | Methods and systems for predicting business behavior from profiling consumer card transactions | |
US20150332414A1 (en) | System and method for predicting items purchased based on transaction data | |
US20090271305A1 (en) | Payment portfolio optimization | |
US20050222928A1 (en) | Systems and methods for investigation of financial reporting information | |
US20050222929A1 (en) | Systems and methods for investigation of financial reporting information | |
JP2008515094A (ja) | 法廷会計環境においてデータベースを調査するためのシステム、ソフトウェア、及び方法 | |
CA2722119A1 (en) | Payment portfolio optimization | |
CN111476660A (zh) | 一种基于数据分析的智能风控系统及方法 | |
US8775284B1 (en) | System and method for evaluating fraud suspects | |
CN109102396A (zh) | 一种用户信用评级方法、计算机设备及可读介质 | |
CN110991650A (zh) | 训练养卡识别模型、识别养卡行为的方法及装置 | |
Pulejo et al. | Plata y plomo: How higher wages expose politicians to criminal violence | |
Elsayed | Indicators of the financial statement fraud (red flags) | |
Al-Radaideh et al. | A data mining based model for detection of fraudulent behaviour in water consumption | |
KR101438050B1 (ko) | 거래처 모니터링 시스템 | |
CN116777652A (zh) | 一种基于风险评价模型的业财分析方法 | |
CN116029755A (zh) | 一种评估促销费政策成效的分析方法及系统 | |
KR102336462B1 (ko) | 신용평가정보 제공 장치 및 방법 | |
KR100738899B1 (ko) | 신용카드 결제 시스템을 이용한 창업 및 경영 지원 서비스제공 시스템 | |
CN113191888A (zh) | 催收评分方法及装置 | |
CN113269412A (zh) | 风险评估方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190625 |