CN110852860A - 车辆维修报销行为异常检测方法、设备及存储介质 - Google Patents
车辆维修报销行为异常检测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN110852860A CN110852860A CN201911116659.2A CN201911116659A CN110852860A CN 110852860 A CN110852860 A CN 110852860A CN 201911116659 A CN201911116659 A CN 201911116659A CN 110852860 A CN110852860 A CN 110852860A
- Authority
- CN
- China
- Prior art keywords
- data
- vehicle
- reimbursement
- characteristic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 230000002159 abnormal effect Effects 0.000 claims abstract description 43
- 230000006399 behavior Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000000513 principal component analysis Methods 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 238000003379 elimination reaction Methods 0.000 claims abstract description 11
- 230000008030 elimination Effects 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000008439 repair process Effects 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 29
- 230000005856 abnormality Effects 0.000 claims description 26
- 238000003066 decision tree Methods 0.000 claims description 17
- 230000001419 dependent effect Effects 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 238000012800 visualization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000013107 unsupervised machine learning method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种车辆维修报销行为异常检测方法,包括如下步骤:S1、对采集的车辆维修数据进行预处理,并对预处理之后的数据进行影响因子消除处理获得第一个特征列组以及第二个特征列组;S2、对第一个特征列组、第二个特征列组中的数据分别进行孤立森林模型与主成分分析PCA模型处理,并将处理结果进行模型融合取交集处理获得模型融合结果,将模型融合结果发送到业务自过滤模块进行过滤获得报销行为异常的车辆ID结果集。
Description
技术领域
本发明涉及大数据处理技术领域,特别涉及一种车辆维修报销行为异常检测方法、设备及存储介质。
背景技术
车辆维修报销行为主要是指公司集团或者单位的公车日常行驶过程中的维修,维修记录导入数据库形成维修报销数据。随着数据量的日益增大,车辆报销管理人员无法直观的判断该车辆报销行为是否存在异常,在利益的驱动下会存在一些谎报等违规报销行为,给公司或者单位的财产带来一定的损失。目前的监管方式是通过人工感官上判断审核,经常由于缺乏有力的证据而无法进行追责与监管,导致监管效率低下。
发明内容
有鉴于此,本发明提供一种可以准确、高效对车辆维修报销行为异常检测方法、设备及存储介质。
一种车辆维修报销行为异常检测方法,包括如下步骤:
S1、对采集的车辆维修数据进行预处理,并对预处理之后的数据进行影响因子消除处理获得第一个特征列组以及第二个特征列组;
S2、对第一个特征列组、第二个特征列组中的数据分别进行孤立森林模型与主成分分析PCA模型处理,并将处理结果进行模型融合取交集处理获得模型融合结果,将模型融合结果发送到业务自过滤模块进行过滤获得报销行为异常的车辆ID结果集。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2之后还包括:S3、将报销行为异常的车辆ID结果集输出到结果可视化模块进行可视化处理后显示。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S1中对预处理之后的数据进行影响因子消除处理获得第一个特征列组以及第二个特征列组包括:
S11、对每辆车基于车类型、归属单位、使用年限、修理厂联合细分维度统计各个特征列数值;
S12、将车类型、归属单位、使用年限、修理厂联合细分维度转化为哑变量列;在包括归属单位维度时跳转到步骤S13,否则跳转到步骤S14;
S13、针对S11中得到的每个特征列,以特征列为因变量,S12中得到的车类型、归属单位、使用年限、修理厂对应的哑变量列为自变量,建立线性回归方程,取拟合后的残差列代替因变量特征列,得到第一个特征列组;
S14、针对S11中步得到的每个特征列,以特征列为因变量,S12中步得到的车类型、使用年限、修理厂对应的哑变量列为自变量,建立线性回归方程,取拟合后的残差列代替因变量特征列,得到第二个特征列组。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2中对第一个特征列组与第二个特征列组分别进行孤立森林模型处理包括:
特征列组为N维的车辆维修报销特征向量数据集,在特征列组的数据集中n条数据中进行均匀无放回抽样出m个样本,作为构建第一颗决策树的训练样本;
在m个样本中,随机筛选一个车辆维修报销特征,并在这个车辆维修报销特征的所有值范围内随机选一个数值,对样本进行二叉树划分,将样本中小于该数值的划分到节点的左边,大于等于该值的划分到节点的右边,从而完成了一次数据划分,得到了一个分裂条件以及左、右两边的数据集数据,接着在左右两边的数据集上重复进行以上的步骤过程,直到满足预设终止条件;
重新上述步骤直到获得t个决策树,并用生成的孤立森林模型来评估测试数据以及新增加的样本数据来确定的异常车辆ID信息。
在本发明所述的车辆维修报销行为异常检测方法中,
所述生成的孤立森林模型来评估测试数据以及新增加的样本数据包括:
一个训练样本数据x,令该数据样本x遍历每一棵以上过程的决策树,然后计算x最终落在每颗决策树第几层,即样本点x的路径长度h(x)为从决策树的根节点到叶子节点所经过的边的数量;进而可以得出x在每棵树的高度平均值E(h(x));其中
模型输出异常得分计算公式如下:
其中c(n)是n个样本的数据集,构建成树的平均路径长度,计算公式如下:
模型训练输出的异常分值越接近1表示数据异常可能性越大,越接近0表示数据正常可能性越大,如果整个数据样本异常分值都在0.5附近,则表示该数据样本集没有异常的样本。
在本发明所述的车辆维修报销行为异常检测方法中,
所述S2中对第一个特征列组和第二个特征列组中的数据分别进行主成分分析PCA模型处理包括:
特征列组为N维的车辆维修报销特征向量数据集,对N维的车辆维修报销特征向量数据集中车辆维修报销特征进行降维处理,从而将N维的特征在空间中以向量的形式展现,然后进行投影,令投影后的数据方差最大,从而使得投影后的信息损失最小;
将降维后的数据进行阀值划定,阀值由降维后的数据值TOP原则进行设定,阀值划定后输出PCA模型确定的异常车辆ID信息。
在本发明所述的车辆维修报销行为异常检测方法中,
将N维的车辆维修报销特征降为3维,每一维的数据代表了业务方面的一种方向,形成有语义的输出结果。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2中第一个特征列组与第二个特征列组的孤立森林模型结果与主成分分析PCA模型结果分别进行交集融合,对融合结果再进行交并集融合,输出融合结果。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2中模型融合结果发送到业务自过滤模块进行过滤包括:
判断车辆ID信息对应车辆年消费占总消费比例是否大于第一预设值,在大于时确认为异常车辆ID信息,否则进一步判断零件消费占总消费比例是否大于第二预设值,在大于时确认为异常车辆ID信息,否则进一步判断零件数量是否大于第三预设值,在大于时确认为异常车辆ID信息,否则确认为正常车辆ID信息。
本发明还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现上述任一所述的方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时以实现上述任一所述的方法的步骤。
有益技术效果:本发明的车辆维修报销行为异常检测方法、设备及存储介质相对于现有技术,采用了孤立森林与PCA模型融合方式进行异常检测,避免了单独使用孤立森林模型的异常检测带来的误差;在无监督机器学习方法中加入了PCA语义解析环节,增强了检测结果的可解析性;采用无监督机器学习方法,避免人工进行标签标注工作。
附图说明
图1是本发明实施例提供的车辆维修报销行为异常检测方法流程图;
图2是模型输入端数据分类示意图;
图3是模型构建流程图;
图4是PCA降维数据可视化图;
图5是业务自过滤规则示意图。
具体实施方式
如图1所示,在本发明实施例中,一种车辆维修报销行为异常检测方法,包括如下步骤:
S1、对采集的车辆维修数据进行预处理,并对预处理之后的数据进行影响因子消除处理获得第一个特征列组以及第二个特征列组;
可选地,对采集的车辆维修数据进行预处理包括对车辆维修报销数据经过ETL(萃取(extract)、转置(transform)、加载(load))处理。
考虑到车辆之间的差异性,比如车辆的类型、车辆使用年限、维修厂以及归属单位,直接进行数据对比运算会对结果带来严重的偏差,因此需要对数据进行影响因子消除。
S2、对第一个特征列组、第二个特征列组中的数据分别进行孤立森林模型与主成分分析PCA模型处理,并将处理结果进行模型融合取交集处理获得模型融合结果,将模型融合结果发送到业务自过滤模块进行过滤获得报销行为异常的车辆ID结果集。对第一个特征列组、第二个特征列组中的数据分别进行孤立森林模型与主成分分析PCA模型处理是指对第一个特征列组、第二个特征列组中的数据进行孤立森林模块处理;对第一个特征列组、第二个特征列组中的数据进行主成分分析PCA模型处理。
鉴于车辆归属单位或者部门使用车辆频率不一样,同时可能存在归属单位或者部门整体违规的现象,因此在模型的输入端进行了分类处理,分成消除归属单位影响因子与不消除归属单位影响因子的两份数据集。
消除归属单位可以避免高频使用车辆单位或部门与低频使用车辆单位或部门的差异,不消除归属单位可以让模型定位归属单位或者部门整体违规行为,形象的描述如图2所示。
步骤S2中模型构建的整体思路如图3所示,核心模型构建思路为将输入端已经分类的数据分别进行孤立森林模型与PCA(主成分分析)模型融合操作,模型融合结果经过处理后进入业务自过滤模块,最终输出至结果可视化模块。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2之后还包括:S3、将报销行为异常的车辆ID结果集输出到结果可视化模块进行可视化处理后显示。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S1中对预处理之后的数据进行影响因子消除处理获得第一个特征列组以及第二个特征列组包括:
S11、对每辆车基于车类型、归属单位、使用年限、修理厂联合细分维度统计各个特征列数值;
S12、将车类型、归属单位、使用年限、修理厂联合细分维度转化为哑变量列;在包括归属单位维度时跳转到步骤S13,否则跳转到步骤S14;
S13、针对S11中得到的每个特征列,以特征列为因变量,S12中得到的车类型、归属单位、使用年限、修理厂对应的哑变量列为自变量,建立线性回归方程,取拟合后的残差列代替因变量特征列,得到第一个特征列组;
S14、针对S11中步得到的每个特征列,以特征列为因变量,S12中步得到的车类型、使用年限、修理厂对应的哑变量列为自变量,建立线性回归方程,取拟合后的残差列代替因变量特征列,得到第二个特征列组。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2中对第一个特征列组与第二个特征列组分别进行孤立森林模型处理包括:
特征列组为N维的车辆维修报销特征向量数据集,在特征列组的数据集中n条数据中进行均匀无放回抽样出m个样本,作为构建第一颗决策树的训练样本;这里的特征列组为第一个特征列组与第二个特征列组。
孤立森林模型输入端数据为N维的车辆维修报销特征向量数据集,假设数据集总共有n条数据,构建第一颗决策树时,从数据集中n条数据中进行均匀无放回抽样出m个样本,这些样本作为这颗决策树的训练样本。
在m个样本中,随机筛选一个车辆维修报销特征,并在这个车辆维修报销特征的所有值范围内(最小值与最大值之间)随机选一个数值,对样本进行二叉树划分,将样本中小于该数值的划分到节点的左边,大于等于该值的划分到节点的右边,从而完成了一次数据划分,得到了一个分裂条件以及左、右两边的数据集数据,接着在左右两边的数据集上重复进行以上的步骤过程,直到满足预设终止条件;可选地,终止条件有两个,一个是数据集本身不可以再分(只包括一个样本,或者全部样本相同),另外一个是树的高度达到log2(m),限制树的高度主要是为了考虑算法的效率,避免数据量过大而陷入一直划分状态。
重新上述步骤直到获得t个决策树,并用生成的孤立森林模型来评估测试数据以及新增加的样本数据来确定的异常车辆ID信息。
在本发明所述的车辆维修报销行为异常检测方法中,
所述生成的孤立森林模型来评估测试数据以及新增加的样本数据包括:
一个训练样本数据x,令该数据样本x遍历每一棵以上过程的决策树,然后计算x最终落在每颗决策树第几层,即样本点x的路径长度h(x)为从决策树的根节点到叶子节点所经过的边的数量;进而可以得出x在每棵树的高度平均值E(h(x));其中
模型输出异常得分计算公式如下:
其中c(n)是n个样本的数据集,构建成树的平均路径长度,计算公式如下:
模型训练输出的异常分值越接近1表示数据异常可能性越大,越接近0表示数据正常可能性越大,如果整个数据样本异常分值都在0.5附近,则表示该数据样本集没有异常的样本。
在本发明所述的车辆维修报销行为异常检测方法中,
所述S2中对第一个特征列组与第二个特征列组中的数据分别进行主成分分析PCA模型处理包括:
特征列组为N维的车辆维修报销特征向量数据集,对N维的车辆维修报销特征向量数据集中车辆维修报销特征进行降维处理,从而将N维的特征在空间中以向量的形式展现,然后进行投影,令投影后的数据方差最大,从而使得投影后的信息损失最小;这里的特征列组为第一个特征列组与第二个特征列组。
PCA(主成分分析)模型输入端数据同为N维的车辆维修报销特征向量数据集,主要是对N维的车辆维修报销特征进行降维处理,将N维的特征在空间中以向量的形式展现,然后进行投影,要令投影后的信息损失最小,则需要令投影后的数据方差最大(数据之间越松散)。
将降维后的数据进行阀值划定,阀值由降维后的数据值TOP原则进行设定,阀值划定后输出PCA模型确定的异常车辆ID信息。PCA降维数据可视化如图4所示。
在本发明所述的车辆维修报销行为异常检测方法中,
将N维的车辆维修报销特征降为3维,每一维的数据代表了业务方面的一种方向,形成有语义的输出结果。
可选地,在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2中第一个特征列组与第二个特征列组的孤立森林模型结果与主成分分析PCA模型结果分别进行交集融合,对融合结果再进行交并集融合,输出融合结果。
在本发明所述的车辆维修报销行为异常检测方法中,
所述步骤S2中模型融合结果发送到业务自过滤模块进行过滤包括:
判断车辆ID信息对应车辆年消费占总消费比例是否大于第一预设值,在大于时确认为异常车辆ID信息,否则进一步判断零件消费占总消费比例是否大于第二预设值,在大于时确认为异常车辆ID信息,否则进一步判断零件数量是否大于第三预设值,在大于时确认为异常车辆ID信息,否则确认为正常车辆ID信息。为了车辆维修报销行为异常检测结果召回率进一步提升,本申请提案设计了业务规则自过滤模块,该模块主要对模型输出结果集进行进一步的过滤操作,避免出现“看似异常,其实正常”的现象,可选地,过滤的规则可以如图5所示。
本发明还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现上述任一所述的方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时以实现上述任一所述的方法的步骤。
有益技术效果:本发明的车辆维修报销行为异常检测方法、设备及存储介质相对于现有技术,采用了孤立森林与PCA模型融合方式进行异常检测,避免了单独使用孤立森林模型的异常检测带来的误差;在无监督机器学习方法中加入了PCA语义解析环节,增强了检测结果的可解析性;采用无监督机器学习方法,避免人工进行标签标注工作。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。
Claims (10)
1.一种车辆维修报销行为异常检测方法,其特征在于,包括如下步骤:
S1、对采集的车辆维修数据进行预处理,并对预处理之后的数据进行影响因子消除处理获得第一个特征列组以及第二个特征列组;
S2、对第一个特征列组、第二个特征列组中的数据分别进行孤立森林模型与主成分分析PCA模型处理,并将处理结果进行模型融合取交集处理获得模型融合结果,将模型融合结果发送到业务自过滤模块进行过滤获得报销行为异常的车辆ID结果集。
2.如权利要求1所述的车辆维修报销行为异常检测方法,其特征在于,
所述步骤S2之后还包括:S3、将报销行为异常的车辆ID结果集输出到结果可视化模块进行可视化处理后显示。
3.如权利要求1所述的车辆维修报销行为异常检测方法,其特征在于,
所述步骤S1中对预处理之后的数据进行影响因子消除处理获得第一个特征列组以及第二个特征列组包括:
S11、对每辆车基于车类型、归属单位、使用年限、修理厂联合细分维度统计各个特征列数值;
S12、将车类型、归属单位、使用年限、修理厂联合细分维度转化为哑变量列;在包括归属单位维度时跳转到步骤S13,否则跳转到步骤S14;
S13、针对S11中得到的每个特征列,以特征列为因变量,S12中得到的车类型、归属单位、使用年限、修理厂对应的哑变量列为自变量,建立线性回归方程,取拟合后的残差列代替因变量特征列,得到第一个特征列组;
S14、针对S11中步得到的每个特征列,以特征列为因变量,S12中步得到的车类型、使用年限、修理厂对应的哑变量列为自变量,建立线性回归方程,取拟合后的残差列代替因变量特征列,得到第二个特征列组。
4.如权利要求3所述的车辆维修报销行为异常检测方法,其特征在于,
所述步骤S2中对第一个特征列组与第二个特征列组分别进行孤立森林模型处理包括:
特征列组为N维的车辆维修报销特征向量数据集,在特征列组的数据集中n条数据中进行均匀无放回抽样出m个样本,作为构建第一颗决策树的训练样本;
在m个样本中,随机筛选一个车辆维修报销特征,并在这个车辆维修报销特征的所有值范围内随机选一个数值,对样本进行二叉树划分,将样本中小于该数值的划分到节点的左边,大于等于该值的划分到节点的右边,从而完成了一次数据划分,得到了一个分裂条件以及左、右两边的数据集数据,接着在左右两边的数据集上重复进行以上的步骤过程,直到满足预设终止条件;
重新上述步骤直到获得t个决策树,并用生成的孤立森林模型来评估测试数据以及新增加的样本数据来确定的异常车辆ID信息。
5.如权利要求3所述的车辆维修报销行为异常检测方法,其特征在于,
所述生成的孤立森林模型来评估测试数据以及新增加的样本数据包括:
一个训练样本数据x,令该数据样本x遍历每一棵以上过程的决策树,然后计算x最终落在每颗决策树第几层,即样本点x的路径长度h(x)为从决策树的根节点到叶子节点所经过的边的数量;进而可以得出x在每棵树的高度平均值E(h(x));其中
模型输出异常得分计算公式如下:
其中c(n)是n个样本的数据集,构建成树的平均路径长度,计算公式如下:
模型训练输出的异常分值越接近1表示数据异常可能性越大,越接近0表示数据正常可能性越大,如果整个数据样本异常分值都在0.5附近,则表示该数据样本集没有异常的样本。
6.如权利要求3所述的车辆维修报销行为异常检测方法,其特征在于,
所述S2中对第一个特征列组与第二个特征列组中的数据分别进行主成分分析PCA模型处理包括:
特征列组为N维的车辆维修报销特征向量数据集,对N维的车辆维修报销特征向量数据集中车辆维修报销特征进行降维处理,从而将N维的特征在空间中以向量的形式展现,然后进行投影,令投影后的数据方差最大,从而使得投影后的信息损失最小;
将降维后的数据进行阀值划定,阀值由降维后的数据值TOP原则进行设定,阀值划定后输出PCA模型确定的异常车辆ID信息。
7.如权利要求6所述的车辆维修报销行为异常检测方法,其特征在于,
将N维的车辆维修报销特征降为3维,每一维的数据代表了业务方面的一种方向,形成有语义的输出结果。
8.如权利要求1所述的车辆维修报销行为异常检测方法,其特征在于,
所述步骤S2中模型融合结果发送到业务自过滤模块进行过滤包括:
判断车辆ID信息对应车辆年消费占总消费比例是否大于第一预设值,在大于时确认为异常车辆ID信息,否则进一步判断零件消费占总消费比例是否大于第二预设值,在大于时确认为异常车辆ID信息,否则进一步判断零件数量是否大于第三预设值,在大于时确认为异常车辆ID信息,否则确认为正常车辆ID信息。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现权利要求1至8任一所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时以实现权利要求1至8任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911116659.2A CN110852860A (zh) | 2019-11-15 | 2019-11-15 | 车辆维修报销行为异常检测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911116659.2A CN110852860A (zh) | 2019-11-15 | 2019-11-15 | 车辆维修报销行为异常检测方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852860A true CN110852860A (zh) | 2020-02-28 |
Family
ID=69601432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911116659.2A Pending CN110852860A (zh) | 2019-11-15 | 2019-11-15 | 车辆维修报销行为异常检测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852860A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240010A (zh) * | 2021-05-14 | 2021-08-10 | 烟台海颐软件股份有限公司 | 一种支持非独立分布混合数据的异常检测方法及系统 |
CN113886712A (zh) * | 2021-11-04 | 2022-01-04 | 杭州以诺行汽车科技股份有限公司 | 基于erp的人工智能汽车维修推荐方法、系统和存储介质 |
CN117238058A (zh) * | 2023-11-10 | 2023-12-15 | 无锡明诚汽车部件有限公司 | 基于数据分析的汽车用起动机监测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160073650A (ko) * | 2014-12-17 | 2016-06-27 | 주식회사 케이티 | 차계부 자동 업데이트 방법, 컴퓨터 프로그램 및 단말 |
CN106600423A (zh) * | 2016-11-18 | 2017-04-26 | 云数信息科技(深圳)有限公司 | 基于机器学习的车险数据处理方法、车险欺诈识别方法及装置 |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN109214865A (zh) * | 2018-08-31 | 2019-01-15 | 北京京东金融科技控股有限公司 | 电子凭证处理方法、系统以及电商系统、存储介质 |
CN110298376A (zh) * | 2019-05-16 | 2019-10-01 | 西安电子科技大学 | 一种基于改进b-cnn的银行票据图像分类方法 |
-
2019
- 2019-11-15 CN CN201911116659.2A patent/CN110852860A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160073650A (ko) * | 2014-12-17 | 2016-06-27 | 주식회사 케이티 | 차계부 자동 업데이트 방법, 컴퓨터 프로그램 및 단말 |
CN106600423A (zh) * | 2016-11-18 | 2017-04-26 | 云数信息科技(深圳)有限公司 | 基于机器学习的车险数据处理方法、车险欺诈识别方法及装置 |
CN108985632A (zh) * | 2018-07-16 | 2018-12-11 | 国网上海市电力公司 | 一种基于孤立森林算法的用电数据异常检测模型 |
CN109214865A (zh) * | 2018-08-31 | 2019-01-15 | 北京京东金融科技控股有限公司 | 电子凭证处理方法、系统以及电商系统、存储介质 |
CN110298376A (zh) * | 2019-05-16 | 2019-10-01 | 西安电子科技大学 | 一种基于改进b-cnn的银行票据图像分类方法 |
Non-Patent Citations (5)
Title |
---|
LUCA PUGGINI,SEÁN MCLOONE: "An enhanced variable selection and Isolation Forest based methodology for anomaly detection with OES data", ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCEJANUARY 2018, vol. 67 * |
WEI MAO;XIU CAO;QINHUA ZHOU;TONG YAN;YONGKANG ZHANG: "Anomaly Detection for Power Consumption Data based on Isolated Forest", 2018 INTERNATIONAL CONFERENCE ON POWER SYSTEM TECHNOLOGY (POWERCON) * |
杨先圣, 姜磊, 彭雄等: "基于大数据的异常检测方法研究", 计算机工程与科学, vol. 40, no. 07 * |
胡淼;王开军;李海超;陈黎飞;: "模糊树节点的随机森林与异常点检测", 南京大学学报(自然科学), no. 06 * |
陈辉金, 韩元杰: "数据挖掘和信息融合在保险业欺诈识别中的应用", 计算机与现代化, no. 09 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240010A (zh) * | 2021-05-14 | 2021-08-10 | 烟台海颐软件股份有限公司 | 一种支持非独立分布混合数据的异常检测方法及系统 |
CN113240010B (zh) * | 2021-05-14 | 2023-10-24 | 烟台海颐软件股份有限公司 | 一种支持非独立分布混合数据的异常检测方法及系统 |
CN113886712A (zh) * | 2021-11-04 | 2022-01-04 | 杭州以诺行汽车科技股份有限公司 | 基于erp的人工智能汽车维修推荐方法、系统和存储介质 |
CN113886712B (zh) * | 2021-11-04 | 2022-05-17 | 杭州以诺行汽车科技股份有限公司 | 基于erp的人工智能汽车维修推荐方法、系统和存储介质 |
CN117238058A (zh) * | 2023-11-10 | 2023-12-15 | 无锡明诚汽车部件有限公司 | 基于数据分析的汽车用起动机监测方法 |
CN117238058B (zh) * | 2023-11-10 | 2024-01-26 | 无锡明诚汽车部件有限公司 | 基于数据分析的汽车用起动机监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109598095B (zh) | 评分卡模型的建立方法、装置、计算机设备和存储介质 | |
CN110852860A (zh) | 车辆维修报销行为异常检测方法、设备及存储介质 | |
EP2854053B1 (en) | Defect prediction method and device | |
CN112148772A (zh) | 告警根因识别方法、装置、设备和存储介质 | |
CN103761173A (zh) | 一种基于日志的计算机系统故障诊断方法及装置 | |
CN112181758B (zh) | 一种基于网络拓扑及实时告警的故障根因定位方法 | |
CN111506637B (zh) | 一种基于kpi指标的多维异常检测方法、装置及存储介质 | |
CN112100164A (zh) | 一种智能审计方法、系统和可读存储介质 | |
CN111177655B (zh) | 一种数据处理方法、装置及电子设备 | |
CN112751711A (zh) | 告警信息处理方法和装置、存储介质和电子设备 | |
CN112434178A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN113887126A (zh) | 焊点质量分析方法、装置、终端设备及介质 | |
CN115222303A (zh) | 基于大数据的行业风险数据分析方法、系统及存储介质 | |
CN114647558A (zh) | 一种日志异常检测的方法和装置 | |
CN111275453A (zh) | 一种物联网设备的行业识别方法及系统 | |
CN110827049A (zh) | 一种数据推送方法及装置 | |
CN110825548B (zh) | 异常检测方法、模型训练方法及相关装置 | |
CN111046947B (zh) | 分类器的训练系统及方法、异常样本的识别方法 | |
CN115987692B (zh) | 一种基于流量回溯分析的安全防护系统及方法 | |
CN110909992A (zh) | 一种风险预测的方法、装置及设备 | |
CN114943525A (zh) | 多维度数据的核对系统 | |
CN115618297A (zh) | 识别异常企业的方法及其装置 | |
CN111179077B (zh) | 股票异常交易的识别方法及系统 | |
CN114880635A (zh) | 集成提升树构建的模型的用户安全等级识别方法、系统、电子设备及介质 | |
CN115330103A (zh) | 城市运行状态智能分析方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |