CN113256304B - 一种校园卡异常使用行为在线预警方法及系统 - Google Patents

一种校园卡异常使用行为在线预警方法及系统 Download PDF

Info

Publication number
CN113256304B
CN113256304B CN202110553725.3A CN202110553725A CN113256304B CN 113256304 B CN113256304 B CN 113256304B CN 202110553725 A CN202110553725 A CN 202110553725A CN 113256304 B CN113256304 B CN 113256304B
Authority
CN
China
Prior art keywords
classification
campus card
behavior
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110553725.3A
Other languages
English (en)
Other versions
CN113256304A (zh
Inventor
于磊磊
张擎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110553725.3A priority Critical patent/CN113256304B/zh
Publication of CN113256304A publication Critical patent/CN113256304A/zh
Application granted granted Critical
Publication of CN113256304B publication Critical patent/CN113256304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种校园卡异常使用行为在线预警方法及系统,属于计算机信息技术领域,所述方法包括以下过程:获取待检测校园卡使用数据;根据可变时间间隔的聚合模型,将获取的待检测校园卡使用数据转换为使用行为样本数据;根据使用行为样本数据和自适应权重的预设分类模型,得到校园卡使用行为分类结果;根据校园卡使用行为分类结果,进行异常使用行为在线预警;本公开提升了分类和预警效率,同时有效提升了分类和预警的查全率及查准率。

Description

一种校园卡异常使用行为在线预警方法及系统
技术领域
本公开涉及计算机信息技术领域,特别涉及一种校园卡异常使用行为在线预警方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术,并不必然构成现有技术。
校园卡是高校师生工作、学习和生活的重要载体,既承载着就餐购物、洗浴、班车等使用交易服务,也承载着校园、宿舍、教室、图书馆等场所的出入认证服务,其主要介质为实体校园卡(M1、CPU)和虚拟校园卡(二维码)。
在校园卡的使用过程中,存在着如下异常使用行为:克隆(卡片被人为复制)、篡改(卡内信息特别是余额被篡改)、租借(持卡人将某一介质租借给其他人员)以及技术性异常(因系统原因导致的其它交易异常)。这些异常使用行为给校园卡系统稳定运行和用户账户资金安全带来了较大风险,如何快速检测分类这些异常使用行为已成为校园卡系统管理服务中的重要问题。
发明人发现,现有技术中检测分类校园卡异常使用行为的方法主要有人工筛查方法、基于专家库的检测分类方法、基于神经网络的检测分类方法,这些方法未能充分挖掘利用使用大数据的价值,且主要为离线检测分类方法,不能实现在线检测分类和预警。
发明内容
为了解决现有技术的不足,本公开提供了一种校园卡异常使用行为在线预警方法及系统,提升了分类和预警效率,同时有效提升了分类和预警的查全率及查准率。
为了实现上述目的,本公开采用如下技术方案:
本公开第一方面提供了一种校园卡异常使用行为在线预警方法。
一种校园卡异常使用行为在线预警方法,包括以下过程:
获取待检测校园卡使用数据;
根据可变时间间隔的聚合模型,将获取的待检测校园卡使用数据转换为使用行为样本数据;
根据使用行为样本数据和自适应权重的预设分类模型,得到校园卡使用行为分类结果;
根据校园卡使用行为分类结果,进行异常使用行为在线预警。
进一步的,预设分类模型中:
采用预设训练集和随机森林的并行化方式周期性重建K棵CART树,利用K棵CART树对使用行为样本数据进行预分类得到局部分类结果;
计算每棵CART树对使用行为样本数据的相关性偏置值,根据使用行为样本数据在每棵CART树上的分类精度和相关性偏置值得到自适应的双重权重;
根据得到的局部分类结果和自适应的双重权重,进行使用行为分类。
更进一步的,以分类精度权重和相关性偏置权重的乘积为自适应的双重权重,根据类别分离函数和自适应的双重权重构建分类选举函数,以获得累加权重最大的类别作为最终校园卡使用行为分类结果。
更进一步的,构建考虑样本结构相关度的自适应权重偏置模型,通过结构相关样本簇计算方法获取使用行为样本数据在样本结构相关评估集上的结构相关样本簇,进而得到所有CART树的相关性偏置值。
更进一步的,样本结构相关度为两个样本中结构相似特征的数量和非结构相似特征的数量的比值;
结构相似特征的数量为类别型结构相似特征的数量与数值型结构相似特征的数量的加和;
对于类别型特征是否结构相似,采用特征是否同值进行判定;
对于数值型特征是否相似,采用特征是否同箱进行判定。
更进一步的,样本结构相关评估集与某一待检测使用行为样本的结构相关度大于预设阈值的样本组,称为使用行为样本数据的结构相关样本簇;
基于分布统计进行阈值求解,包括以下过程:
在每一棵CART树的训练过程中,增加在叶子节点上存储所分割样本的操作,使每一个叶子节点都维护所分割样本的统计信息;
对于每一棵CART树上的每一个叶子节点,在节点上随机抽取一个样本,计算抽取样本与同叶子节点上其他所有样本的结构相关度最大值,取当前CART树上所有节点的结构相关度最大值的均值为CART树本地阈值;
对所有CART树的本地阈值再进行取均值运算,得到最终的阈值。
进一步的,将获取的待检测校园卡使用数据转换为使用行为样本数据,包括:
对校园卡使用数据,进行多维特征抽取和结果类别集合设定;
采用可变时间间隔的聚合模型完成多维特征的赋值,基于待检测使用数据形成待检测使用行为样本集;
对待检测使用行为样本集中的特征进行量化和标准化处理。
本公开第二方面提供了一种校园卡异常使用行为在线预警系统。
一种校园卡异常使用行为在线预警系统,包括:
数据获取模块,被配置为:获取待检测校园卡使用数据;
数据转换模块,被配置为:根据可变时间间隔的聚合模型,将获取的待检测校园卡使用数据转换为使用行为样本数据;
行为分类模块,被配置为:根据使用行为样本数据和自适应权重的预设分类模型,得到校园卡使用行为分类结果;
在线预警模块,被配置为:根据校园卡使用行为分类结果,进行异常使用行为在线预警。
本公开第三方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开第一方面所述的校园卡异常使用行为在线预警方法中的步骤。
本公开第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开第一方面所述的校园卡异常使用行为在线预警方法中的步骤。
与现有技术相比,本公开的有益效果是:
1、本公开所述的方法、系统、介质或电子设备,利用可变间隔聚合方法将使用流水数据转换为使用行为样本,并构建标定使用行为样本集和待检测使用行为样本集,实现了巨量的、无显著行为特征校园卡使用流水数据将向数量适中、有显著行为特征的使用行为数据的转换。
2、本公开所述的方法、系统、介质或电子设备,基于随机森林算法构造自适应权重的在线使用行为并行检测分类模型,其在线检测模式弥补了现有方法在实时性、动态性方面的不足,采用的随机森林模型有效提升了检测分类的可解释性。
3、本公开所述的方法、系统、介质或电子设备,采用的并行化机制也显著提升了检测分类效率,设计的自适应权重机制通过自适应可变权重偏置对位补偿随机森林的CART树相关性对算法性能的影响,可以有效提升检测分类的查全率和查准率。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例1提供的使用行为分类方法流程示意图。
图2为本公开实施例1提供的校园卡消费流水可变时间间隔聚合方法。
图3为本公开实施例1提供的模型训练过程示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1:
本实施例以消费流水数据作为使用数据为例进行介绍,可以理解的,使用行为数据也可以扩展到各种刷卡使用数据中,如图书借阅数据、宿舍出入数据等等。
如图1所示,本公开实施例1提供了一种校园卡异常使用行为在线预警方法,包括以下过程:
通过校园卡消费流水可变时间间隔聚合方法将消费流水转换为消费行为样本,并构建标定消费行为样本集和待检测消费行为样本集;
以两类消费行为样本集为基础,采用自适应权重的在线消费行为并行检测分类方法进行周期模型训练和自适应权重的在线检测分类;
根据校园卡使用行为分类结果,进行异常使用行为在线预警。
更具体的,包括以下内容:
S1:校园卡消费流水可变时间间隔聚合方法,如图2所示。
S101:根据校园卡消费流水的特点进行多维特征抽取和结果类别集合设定;
S102:采用可变时间间隔的聚合模型完成多维特征的赋值,基于标定消费流水形成标定消费行为样本集,基于待检测消费流水形成待检测消费行为样本集;
S103:对标定消费行为样本集和待检测消费行为样本集中的特征进行量化和标准化处理。
S101中,具体包括:
根据校园卡消费流水的交易特性和场景特性,抽取某一时间间隔tI内的多维行为特征,包括身份类特征:身份识别号(F0)、身份类别(F1)、性别(F2)、是否毕业班(F3),交易类特征:交易方式(F4)、总交易次数(F5)、总交易额(F6)、单笔最大交易额(F7)、卡库余额差值(F8)、用卡次数连续性(F9),场景类特征:跨校区消费(F10)、餐饮消费(F11)、洗浴消费(F12)、超市消费(F13)、健身消费(F14)。
其中:
F0为校园卡账号的身份识别号码,
F1为持卡人身份类别,类别型特征,取值范围:本科/硕士研究生/博士研究生/教工/临时人员;
F2为持卡人性别,类别型特征,取值范围为:男/女;
F3为持卡人是否毕业班标识,类别型特征,取值范围:是/否;
F4为交易方式,类别型特征,取值范围:刷卡/扫码/刷卡+扫码;
F5为总交易次数,数值型特征;
F6为总交易额,数值型特征;
F7为单笔最大交易额,数值型特征;
F8为卡库余额差值,数值型特征;
F9为用卡次数是否连续标识,类别型数据,取值范围:是/否;
F10为是否有跨校区消费标识,类别型数据,取值范围:是/否;
F11为是否有餐饮消费标识,类别型数据,取值范围:是/否;
F12为是否有洗浴消费标识,类别型数据,取值范围:是/否;
F13为是否有超市消费标识,类别型数据,取值范围:是/否;
F14为是否有健身消费标识,类别型数据,取值范围:是/否;
根据校园卡消费存在的异常行为,将结果类别集合设定为:{正常,复制,篡改,租借,技术性异常},其中“正常”代表正常消费行为,“复制”代表校园卡片被认为克隆,“篡改”代表卡内信息特别是余额被篡改,“租借”代表持卡人将校园卡租借给他人使用,“技术性异常”代表因技术性原因导致的异常错误。
S102中,具体包括:
导入校园卡消费流水集TR,设定可变时间间隔tI,从校园卡消费流水集中聚合同一账户发生在t0开始到t0-tI的流水为一个行为样本,聚合方式如下:
Figure BDA0003076314570000081
其中,xi.id和xi.time为流水的身份识别号码和发生时间。
其多维特征赋值方式为:
Figure BDA0003076314570000082
operatork∈{count,sum,max,reduce,query}
其中,TRinter.recs和TRinter.feas分别为
Figure BDA0003076314570000083
的记录集和特征集,operatork为聚合算子。
数据型特征的赋值计算方式为:对于
Figure BDA0003076314570000084
中的聚合子集,F5采用count算子统计流水数量;F6采用sum算子累加流水交易额;F7采用max算子选取单笔最大交易额;F8采用reduce算子计算校园卡余额与库余额的差。类别型聚合特征的赋值计算方式为:统一采用query算子,查询是否包含对应特征。
采用可变时间间隔的聚合模型,将标定消费流水中作为TR聚合形成标定消费行为样本集,将待检测消费流水作为TR形成待检测消费行为样本集。
S103中,具体包括:
对标定消费行为样本集和待检测消费行为样本集中的类别型特征采用独热编码方式进行量化编码处理;
对标定消费行为样本集和待检测消费行为样本集中的数值型特征采用Z-score标准化方法进行标准化处理:
Figure BDA0003076314570000091
其中,x*为新特征值,
Figure BDA0003076314570000092
和σ分别为原始特征值的均值和标准差;
所述独热编码方式,为特征工程的常用方法,使用N位状态寄存器来对N个类别进行编码,将类别特征的某个点映射到欧式空间;
所述Z-score标准化方法,为数值型特征标准化处理的常用方法,将所有特征处理成均值为0,标准差为1的新的数据分布。
S2:自适应权重的在线消费行为并行检测分类
S201:基于Spark引擎搭建并行计算集群,将标定消费行为样本集按比例划分为训练集、测试集和样本结构相关评估集;
S202:进行模型训练:采用随机森林的并行化方式周期性重建K棵CART树,用测试集评估所有CART树的分类精度,用K棵CART树反向评估样本结构相关评估集中样本的分类正确性分布;
S203:对待检测消费流水进行在线并行检测分类:对于待检测消费行为样本Sm,首先利用K棵CART树对Sm进行预分类获取局部分类结果,然后计算每棵CART树对Sm的相关性偏置值,最后根据Sm在每棵CART树上的分类精度和相关性偏置值形成自适应的双重权重,对局部分类结果进行加权选举获取分类结果,并存入分类结果库;
S204:周期性从分类结果库中选取样本进行人工复核、二次标定,将这些样本所对应的交易流水加入到标定交易流水集,并触发重新进行模型训练。
S201中,具体包括:
基于Spark并行计算引擎搭建一个主节点Master和多个工作节点Work的集群作为并行计算平台,将集群的驱动器Driver客户端部署在Master上;
基于Hadoop开源平台搭建分布式文件系统HDFS作为数据存储平台;
由驱动器Driver客户端获取标定消费行为样本集,并按比例划分为训练集、测试集和样本结构相关评估集,并分别存储于分布式文件系统HDFS上;
由驱动器Driver客户端构造Spark运行环境SparkContext实例,并向主节点Master申请资源,由主节点Master根据各工作节点Worker资源分布,调度分配资源,在每个工作节点Worker上构造若干个执行单元Executor。
S202中,如图3所示,具体包括:
在每个执行单元Executor上,将训练集载入,然后通过随机抽取样本和随机抽取特征构建一棵本地CART树,K个执行单元Executor共构建K棵CART树;
在每个执行单元Executor上,将测试集载入,对于二分类问题,采用F1-score评估函数评测计算当前CART树Ti的分类精度Prei,对于多分类问题,采用Macro-F1评估函数评测计算当前CART树Ti的分类精度Prei
由驱动器Driver客户端将各个执行单元Executor上评测的分类精度取回,并存入元组Pre[K],该元组记为分类精度元组;
在每个执行单元Executor上,将样本结构相关评估集载入,使用当前CART树Ti反向评估样本结构相关评估集中所有样本的分类正确性分布,并存入元组Vari[M],该元组记为CART树Ti的分类正确分布元组,其中M为样本结构相关评估集中所有样本的数量,且设置:
Figure BDA0003076314570000111
由驱动器Driver客户端将各个执行单元Executor上生成的分类正确分布元组Vari[M]取回,并合并成矩阵Mbias,设置:
Figure BDA0003076314570000112
将矩阵Mbias记为分类正确分布矩阵,Mbias为K*M矩阵。
F1-score评估函数,为机器学习中的针对二分类问题常用指标评价方法,兼顾了精确率和召回率,能够更均衡评价分类性能,对各类数据具有更好的泛化适应性性。
Macro-F1评估函数,为F1-score评估函数在多分类问题下的推广,对于各个类别,分别计算各自的精确率和召回率,得到各自的F1-score,然后取平均值得到Macro-F1。
S203中,对待检测消费流水进行在线并行检测分类:对于待检测消费行为样本Sm,首先利用K棵CART树对Sm进行预分类获取局部分类结果(对应S203-1),然后计算每棵CART树对Sm的相关性偏置值(对应S203-2),最后根据Sm在每棵CART树上的分类精度和相关性偏置值形成自适应的双重权重,对局部分类结果进行加权选举获取分类结果(对应S203-3),具体步骤包括:
S203-1由驱动器Driver客户端将Sm传输到每一个执行单元Executor,并通过每一个Executor维护的CART树进行局部分类,获得局部分类结果C;
局部分类完成后,由驱动器Driver客户端将各个执行单元Executor上局部分类结果取回,合并生成元组Cm[K],该元组记为分类结果元组;
S203-2构建考虑样本结构相关性的自适应权重偏置模型,通过结构相关样本簇计算方法获取Sm在样本结构相关评估集上的结构相关样本簇SSetm
在分类正确分布矩阵Mbias中寻找包含在SSetm中所有样本的子矩阵Sbias,Sbias为K*L矩阵,K为CART树数量,L为SSetm中的样本数量;
对于每一棵CART树Ti,设置SSetm在其上的相关性偏置值为:
Figure BDA0003076314570000121
所有CART树的相关性偏置值存入Biasm[K],该元组记为Sm的相关性偏置元组。
S203-3设置Sm在每棵CART树Ti上的双重权重:从分类精度元组取出Pre[i]作为分类精度权重,从相关性偏置元组取出Biasm[i]作为相关性偏置权重,形成双重权重:
wmi=Pre[i]*Biasm[i]
计算Sm的全局分类结果:取出分类结果元组Cm[K],令分类选举结果为:
Figure BDA0003076314570000122
其中f(c,C[i])为类别分离函数:
Figure BDA0003076314570000123
最后,获得累加权重最大的类别c作为最后分类选举结果。
S203-2中,构建考虑样本结构相关性的自适应权重偏置模型,具体包括:
包括消费行为样本结构相关度量方法,消费行为样本结构相关计算方法。
S203-2.1.1消费行为样本的结构相关度量方法
为量化描述消费行为样本的多样性问题,定义一个样本结构相关的度量:样本结构相关度,用于量化样本之间的结构相关程度。
定义1:样本结构相关度。为两个样本中结构相似特征的数量和非结构相似特征的数量的比值,即:
Figure BDA0003076314570000131
其中,NumFs为结构相似特征的数量,NumFa为全部相似特征的数量。NumFa为已知常量,则求解结构相似度可以转化为求解NumFs的值。
在消费行为样本的特征中,类别型特征的值是离散的,而数值型特征的值通常是连续的,两类特征的结构相似判定应采用不同的评判方法分别进行,然后对其数量进行取和,因此有:
NumFs=NumCFs+NumVFs
NumCFs为类别型结构相似特征的数量,NumVFs为数值型结构相似特征的量。
类别型结构相似特征及其判定方法、数值型结构相似特征及其判定方法定义如下:
定义2:类别型结构相似特征。若两个样本Sm和Sn在某一类别型特征CFi上具有相同的特征值,则称CFi为Sm和Sn的结构相似特征。
定义3:数值型结构相似特征。若两个样本Sm和Sn在某一数值型特征VFi上具有相近的特征值,则称VFi为Sm和Sn的结构相似特征。
S203-2.1.2消费行为样本的结构相关计算方法
根据消费行为样本结构相关度量方法,求解样本结构相关度可转化为求解类别型结构相似特征的数量NumCFs和数值型结构相似特征的数量NumVFs
对于类别型特征CFi是否结构相似,采用特征是否“同值”进行判定。首先设置判定条件:
Figure BDA0003076314570000141
基于上述判定,可得:
Figure BDA0003076314570000142
其中,
Figure BDA0003076314570000143
分别为Sm和Sn在CFi上的特征值,CS为所有类别型特征的集合。
对于数值型特征VFi是否相似,采用特征是否“同箱”方法进行判定。首先将其取值空间划分为若干个等分的“箱体”,每一“箱体”的尺寸为:
Figure BDA0003076314570000144
其中,vmax和vmin分别为所有样本中当前特征取值的最大值和最小值,L取为所有类别型特征中特征值数量的中位数,则第k个箱体Bk的值域为:
Bk∈[(k-1)*Bsize,k*Bsize)
基于特征是否“同箱”,判定条件如下:
Figure BDA0003076314570000145
基于该判定,则可得:
Figure BDA0003076314570000146
其中,
Figure BDA0003076314570000147
分别为样本Sm和Sn在VFi上的特征值,VS为所有数值型特征的集合。
S203-2中,结构相关样本簇计算方法,包括结构相关样本簇定义和阈值求解方法。
S203-2.2.1消费行为样本的结构相关簇定义
定义4:结构相关样本簇。包含样本结构相关评估集,且与某一待检测消费行为样本Sm的结构相关度大于给定阈值θ的样本组,称为Sm的结构相关样本簇SSetm
结构相关样本簇的计算可以转化为对阈值θ的求解。
S203-2.2.2阈值求解方法
采用了一种基于分布统计的阈值求解方法,过程如下:
首先,在每一棵CART树的训练过程中,增加在叶子节点上存储所分割样本的操作,使每一个叶子节点都维护所分割样本的统计信息。
然后,采用并行化方式进行CART树本地阈值θi T计算。对于每一棵CART树Ti上的每一个叶子节点:在节点上随机抽取一个样本,计算抽取样本与同叶子节点上其他所有样本的结构相关度最大值
Figure BDA0003076314570000151
取当前CART树上所有节点的
Figure BDA0003076314570000152
的均值,记为θi T
最后,对所有CART树的θi T再进行取均值运算,取:
Figure BDA0003076314570000153
阈值θ求得以后,对于每一条待检测消费行为样本Sm,在样本结构相关性评估集中选择与Sm的结构相关度大于θ的样本纳入其结构相关样本簇SSetm
S204中,周期性从分类结果库中选取样本进行人工复核、二次标定,将这些样本加入到标定行为样本集,并触发重新进行模型训练;具体步骤包括:
按预设时间周期从分类结果库中按比例分别选取标注为正常、复制、篡改、租借、技术性异常等各个类别的样本进行人工复核、二次标定;
将人工复合标定后的样本加入到标定消费行为样本集,同时按需维护标定消费行为样本集,删除时间标签过早的样本;
重新触发S202的模型训练,训练新的并行分类模型。
实施例2:
本公开实施例2提供了一种校园卡异常使用行为在线预警系统,包括:
数据获取模块,被配置为:获取待检测校园卡使用数据;
数据转换模块,被配置为:根据可变时间间隔的聚合模型,将获取的待检测校园卡使用数据转换为使用行为样本数据;
行为分类模块,被配置为:根据使用行为样本数据和自适应权重的预设分类模型,得到校园卡使用行为分类结果;
在线预警模块,被配置为:根据校园卡使用行为分类结果,进行异常使用行为在线预警。
所述系统的工作方法与实施例1提供的校园卡异常使用行为在线预警方法相同,这里不再赘述。
实施例3:
本公开实施例3提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例1所述的校园卡异常使用行为在线预警方法中的步骤。
实施例4:
本公开实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的校园卡异常使用行为在线预警方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (8)

1.一种校园卡异常使用行为在线预警方法,其特征在于:包括以下过程:
获取待检测校园卡使用数据;
根据可变时间间隔的聚合模型,将获取的待检测校园卡使用数据转换为使用行为样本数据;包括:
对校园卡使用数据,进行多维特征抽取和结果类别集合设定;
采用可变时间间隔的聚合模型完成多维特征的赋值,基于待检测使用数据形成待检测使用行为样本集;
对待检测使用行为样本集中的特征进行量化和标准化处理;
可变时间间隔的聚合模型,包括:导入校园卡消费流水集TR,设定可变时间间隔tI,从校园卡消费流水集中聚合同一账户发生在t0开始到t0-tI的流水为一个行为样本,聚合方式如下:
Figure FDA0003712791980000011
其中,xi.id和xi.time为流水的身份识别号码和发生时间,S为行为样本,aggregate为聚合函数,t0为初始时间,ID为校园卡账号;
根据使用行为样本数据和自适应权重的预设分类模型,得到校园卡使用行为分类结果;预设分类模型中:
采用预设训练集和随机森林的并行化方式周期性重建K棵CART树,利用K棵CART树对使用行为样本数据进行预分类得到局部分类结果;
计算每棵CART树对使用行为样本数据的相关性偏置值,根据使用行为样本数据在每棵CART树上的分类精度权重和相关性偏置权重得到自适应的双重权重;
根据得到的局部分类结果和自适应的双重权重,进行使用行为分类;
根据校园卡使用行为分类结果,进行异常使用行为在线预警。
2.如权利要求1所述的校园卡异常使用行为在线预警方法,其特征在于:
以分类精度权重和相关性偏置权重的乘积为自适应的双重权重,根据类别分离函数和自适应的双重权重构建分类选举函数,以获得累加权重最大的类别作为最终校园卡使用行为分类结果;
类别分离函数为:
Figure FDA0003712791980000021
其中,c为获得累加权重最大的类别,C[i]为每棵CART树Ti的局部分类结果;
分类选举结果为:
Figure FDA0003712791980000022
其中Cm为分类选举结果,argmax为取最大值函数,Cm[i]为第i棵树的分类结果元组,wmi为前式求得的双重权重,K为CART树的数量,i:CART树的编号。
3.如权利要求1所述的校园卡异常使用行为在线预警方法,其特征在于:
构建考虑样本结构相关度的自适应权重偏置模型,通过结构相关样本簇计算方法获取使用行为样本数据在样本结构相关评估集上的结构相关样本簇,进而得到所有CART树的相关性偏置值;
从分类精度元组取出Pre[i]作为分类精度权重,从相关性偏置元组取出Biasm[i]作为相关性偏置权重,形成双重权重:
wmi=Pre[i]*Biasm[i]。
4.如权利要求3所述的校园卡异常使用行为在线预警方法,其特征在于:
样本结构相关度为两个样本中结构相似特征的数量和非结构相似特征的数量的比值;
结构相似特征的数量为类别型结构相似特征的数量与数值型结构相似特征的数量的加和;
对于类别型特征是否结构相似,采用特征是否同值进行判定;
对于数值型特征是否相似,采用特征是否同箱进行判定。
5.如权利要求3所述的校园卡异常使用行为在线预警方法,其特征在于:
样本结构相关评估集与某一待检测使用行为样本的结构相关度大于预设阈值的样本组,称为使用行为样本数据的结构相关样本簇;
基于分布统计进行阈值求解,包括以下过程:
在每一棵CART树的训练过程中,增加在叶子节点上存储所分割样本的操作,使每一个叶子节点都维护所分割样本的统计信息;
对于每一棵CART树上的每一个叶子节点,在节点上随机抽取一个样本,计算抽取样本与同叶子节点上其他所有样本的结构相关度最大值,取当前CART树上所有节点的结构相关度最大值的均值为CART树本地阈值;
对所有CART树的本地阈值再进行取均值运算,得到最终的阈值。
6.一种校园卡异常使用行为在线预警系统,其特征在于:包括:
数据获取模块,被配置为:获取待检测校园卡使用数据;
数据转换模块,被配置为:根据可变时间间隔的聚合模型,将获取的待检测校园卡使用数据转换为使用行为样本数据;包括:
对校园卡使用数据,进行多维特征抽取和结果类别集合设定;
采用可变时间间隔的聚合模型完成多维特征的赋值,基于待检测使用数据形成待检测使用行为样本集;
对待检测使用行为样本集中的特征进行量化和标准化处理;
可变时间间隔的聚合模型,包括:导入校园卡消费流水集TR,设定可变时间间隔tI,从校园卡消费流水集中聚合同一账户发生在t0开始到t0-tI的流水为一个行为样本,聚合方式如下:
Figure FDA0003712791980000041
其中,xi.id和xi.time为流水的身份识别号码和发生时间;S为行为样本,aggregate为聚合函数,t0为初始时间,ID为校园卡账号;
行为分类模块,被配置为:根据使用行为样本数据和自适应权重的预设分类模型,得到校园卡使用行为分类结果;预设分类模型中:
采用预设训练集和随机森林的并行化方式周期性重建K棵CART树,利用K棵CART树对使用行为样本数据进行预分类得到局部分类结果;
计算每棵CART树对使用行为样本数据的相关性偏置值,根据使用行为样本数据在每棵CART树上的分类精度权重和相关性偏置权重得到自适应的双重权重;
根据得到的局部分类结果和自适应的双重权重,进行使用行为分类;
在线预警模块,被配置为:根据校园卡使用行为分类结果,进行异常使用行为在线预警。
7.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的校园卡异常使用行为在线预警方法中的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的校园卡异常使用行为在线预警方法中的步骤。
CN202110553725.3A 2021-05-20 2021-05-20 一种校园卡异常使用行为在线预警方法及系统 Active CN113256304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553725.3A CN113256304B (zh) 2021-05-20 2021-05-20 一种校园卡异常使用行为在线预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553725.3A CN113256304B (zh) 2021-05-20 2021-05-20 一种校园卡异常使用行为在线预警方法及系统

Publications (2)

Publication Number Publication Date
CN113256304A CN113256304A (zh) 2021-08-13
CN113256304B true CN113256304B (zh) 2022-09-06

Family

ID=77183146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553725.3A Active CN113256304B (zh) 2021-05-20 2021-05-20 一种校园卡异常使用行为在线预警方法及系统

Country Status (1)

Country Link
CN (1) CN113256304B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781039A (zh) * 2021-08-23 2021-12-10 广西申能达智能技术有限公司 一种绑定一卡通和手机的支付系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101452A (zh) * 2020-09-14 2020-12-18 中国人民解放军战略支援部队信息工程大学 一种访问权限的控制方法及装置
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050162B (zh) * 2013-03-11 2017-10-13 富士通株式会社 数据处理方法和数据处理装置
US10616253B2 (en) * 2017-11-13 2020-04-07 International Business Machines Corporation Anomaly detection using cognitive computing
CN109376381A (zh) * 2018-09-10 2019-02-22 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
CN110110757B (zh) * 2019-04-12 2021-02-05 国电南瑞科技股份有限公司 一种基于随机森林模型的输变电可疑数据筛查方法和设备
CN110245801A (zh) * 2019-06-19 2019-09-17 中国电力科学研究院有限公司 一种基于组合挖掘模型的电力负荷预测方法及系统
CN111798312B (zh) * 2019-08-02 2024-03-01 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN112633421A (zh) * 2021-03-09 2021-04-09 国网江西综合能源服务有限公司 一种用户异常用电行为检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN112101452A (zh) * 2020-09-14 2020-12-18 中国人民解放军战略支援部队信息工程大学 一种访问权限的控制方法及装置

Also Published As

Publication number Publication date
CN113256304A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN110634080B (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
WO2017084408A1 (zh) 检查货物的方法和系统
Oprea et al. Machine learning classification algorithms and anomaly detection in conventional meters and Tunisian electricity consumption large datasets
Nieto et al. Support vector machines and neural networks used to evaluate paper manufactured using Eucalyptus globulus
Verma et al. An ensemble approach to identifying the student gender towards information and communication technology awareness in european schools using machine learning
US20200090058A1 (en) Model variable candidate generation device and method
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
CN110569904A (zh) 机器学习模型的构建方法及计算机可读存储介质
Pietrucha-Urbanik Multidimensional comparative analysis of water infrastructures differentiation
CN113256304B (zh) 一种校园卡异常使用行为在线预警方法及系统
CN107992613A (zh) 一种基于机器学习的文本挖掘技术消费维权指标分析方法
Al-Luhaybi et al. Predicting academic performance: A bootstrapping approach for learning dynamic bayesian networks
CN113469288A (zh) 融合多个机器学习算法的高危人员预警方法
CN114219562A (zh) 模型的训练方法、企业信用评估方法和装置、设备、介质
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
Wongkhamdi et al. A comparison of classical discriminant analysis and artificial neural networks in predicting student graduation outcomes
CN110096708A (zh) 一种定标集确定方法及装置
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
Huang et al. Outlier detection method based on improved two-step clustering algorithm and synthetic hypothesis testing
Livani et al. A hybrid machine learning method and its application in municipal waste prediction
WO1992017853A2 (en) Direct data base analysis, forecasting and diagnosis method
CN113205274A (zh) 一种施工质量定量化排名方法
Mahalle et al. Data Acquisition and Preparation
Huang et al. Clustering analysis on e-commerce transaction based on k-means clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant