CN110807466A - 一种处理订单数据的方法和装置 - Google Patents

一种处理订单数据的方法和装置 Download PDF

Info

Publication number
CN110807466A
CN110807466A CN201810865110.2A CN201810865110A CN110807466A CN 110807466 A CN110807466 A CN 110807466A CN 201810865110 A CN201810865110 A CN 201810865110A CN 110807466 A CN110807466 A CN 110807466A
Authority
CN
China
Prior art keywords
order data
predicted
value
forecasted
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810865110.2A
Other languages
English (en)
Inventor
耿万里
张雯
解鹏
曲洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Financial Technology Holding Co Ltd
Original Assignee
Beijing Jingdong Financial Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Financial Technology Holding Co Ltd filed Critical Beijing Jingdong Financial Technology Holding Co Ltd
Priority to CN201810865110.2A priority Critical patent/CN110807466A/zh
Publication of CN110807466A publication Critical patent/CN110807466A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/012Providing warranty services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Abstract

本发明公开了一种处理订单数据的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树;根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。该实施方式能够解决不能有效地识别出异常订单的问题。

Description

一种处理订单数据的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种处理订单数据的方法和装置。
背景技术
当一辆汽车在质保期或延保期的时间内某一部件出现故障或损坏时,车主都可以向厂商(或汽车销售服务4S店)提出索赔。汽车的索赔当前主要分三大类:整车质保、零件质保、易损件质保。不同汽车品牌,不同车型的三大质保内容也不尽相同。
车辆在质保或延保期内出现质量问题时,汽车公司将免费为车主承担保修范围内发生的维修费用、原厂配件替换等服务。当车辆发生质保范围内的问题后,车辆会进入4S店维修检测,索赔员会评估汽车问题是否属于质保范围,如果是,4S店将根据检测结果对该车辆进行修理或部件更换,同时系统中会生成索赔单据,维修工时、配件、辅料等费用以理赔订单的形式上传至品牌汽车公司的售后数据库,由汽车公司定期向4S店进行对应的质保索赔。但是,出于利益或返利回扣指标,4S店提供的订单中存在不合理的情形,而针对订单的欺诈行为,汽车公司往往只能通过随机抽查的方式进行检验,对抽到的订单进行人工审核。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前汽车公司针对海量的结构化订单数据,并没有形成有效的异常订单检测手段,需要随机抽取少量的订单,人工在4S店通过现场照片、视频等额外记录进行判断,导致核实成本高、周期长。而且,由于订单数据量大,抽查比例很小,不能有效地识别出异常订单。
发明内容
有鉴于此,本发明实施例提供一种处理订单数据的方法和装置,能够解决不能有效地识别出异常订单的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种处理订单数据的方法,包括:
从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;
采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树;
根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。
可选地,采用订单数据进行孤立森林算法建模,包括:
针对每个样本集,以该样本集中编码后的订单数据作为根节点;
随机选取一个特征,确定该样本集中该特征的最小值和最大值;
随机选取该特征的最小值与最大值之间的值作为切分点值,将小于所述切分点值的特征对应的订单数据放入一侧的子节点,将大于等于所述切分点值的特征对应的订单数据放入另一侧的子节点;
对两侧子节点的订单数据重复执行随机选取特征及其切分点值的步骤,直到所有订单数据不可再分或者达到预设的树高度,从而创建得到一棵二叉树。
可选地,根据所述多棵二叉树的树结构,计算待预测订单数据的异常值,包括:
将待预测订单数据逐一遍历所述多棵二叉树,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值。
可选地,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值,包括:
根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据在所有二叉树中的高度的均值;
根据所述待预测订单数据在所有二叉树中的高度的均值以及所述待预测订单数据点在每棵二叉树中所在的子节点处的样本数量,计算所述待预测订单数据的异常值。
可选地,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值,包括:
采用以下公式计算所述待预测订单数据的异常值:
Figure BDA0001750719770000031
h(x)=e+c(n)
Figure BDA0001750719770000032
其中,s(x,n)表示待预测订单数据的异常值,E(h(x))表示待预测订单数据在所有二叉树中的高度的均值;h(x)表示待预测订单数据在某一棵二叉树中的高度;e表示待预测订单数据点所在的子节点到根节点的深度;n表示待预测订单数据点所在的子节点处的样本数量;ξ表示欧拉常数。
可选地,从训练集中随机抽取多个样本集之前,还包括:
对训练集中的订单数据进行清洗;
根据众数、平均数、多维度上的前后值,填充订单数据中的缺失值;
提取所述训练集中的订单数据的特征,并对所述特征进行编码。
另外,根据本发明实施例的另一个方面,提供了一种处理订单数据的装置,包括:
特征模块,用于从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;
建模模块,用于采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树;
计算模块,用于根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。
可选地,采用订单数据进行孤立森林算法建模,包括:
针对每个样本集,以该样本集中编码后的订单数据作为根节点;
随机选取一个特征,确定该样本集中该特征的最小值和最大值;
随机选取该特征的最小值与最大值之间的值作为切分点值,将小于所述切分点值的特征对应的订单数据放入一侧的子节点,将大于等于所述切分点值的特征对应的订单数据放入另一侧的子节点;
对两侧子节点的订单数据重复执行随机选取特征及其切分点值的步骤,直到所有订单数据不可再分或者达到预设的树高度,从而创建得到一棵二叉树。
可选地,所述计算模块用于:
将待预测订单数据逐一遍历所述多棵二叉树,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值。
可选地,所述计算模块用于:
根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据在所有二叉树中的高度的均值;
根据所述待预测订单数据在所有二叉树中的高度的均值以及所述待预测订单数据点在每棵二叉树中所在的子节点处的样本数量,计算所述待预测订单数据的异常值。
可选地,所述计算模块用于:
采用以下公式计算所述待预测订单数据的异常值:
Figure BDA0001750719770000041
h(x)=e+c(n)
其中,s(x,n)表示待预测订单数据的异常值,E(h(x))表示待预测订单数据在所有二叉树中的高度的均值;h(x)表示待预测订单数据在某一棵二叉树中的高度;e表示待预测订单数据点所在的子节点到根节点的深度;n表示待预测订单数据点所在的子节点处的样本数量;ξ表示欧拉常数。
可选地,所述特征模块还用于:
对训练集中的订单数据进行清洗;
根据众数、平均数、多维度上的前后值,填充订单数据中的缺失值;
提取所述训练集中的订单数据的特征,并对所述特征进行编码。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用从训练集中随机抽取多个样本集,并进行孤立森林算法建模,从而构建多棵二叉树的技术手段,所以克服了不能有效地识别出异常订单的技术问题;本发明根据创建的多棵二叉树的树结构,计算待预测订单数据的异常值,从而可以针对海量的订单数据,基于无监督异常检测算法挖掘出异常订单行为。全量订单数据通过本发明实施例的处理,筛选出高度异常的订单,用来替代随机抽验的样本。而且,本发明实施例将孤立森林的无监督异常检测应用于海量订单的异常检测,区别于常用的基于指标的算法(如局部异常因子以及基于聚类的方法),孤立森林算法具有线性时间复杂度的特点,因此本发明实施例具有简单高效的优点。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的处理订单数据的方法的主要流程的示意图;
图2是根据本发明一个可参考实施例的处理订单数据的方法的主要流程的示意图;
图3是根据本发明实施例的处理订单数据的装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的评价商品正确性的方法的主要流程的示意图。如图1所示,作为本发明的一个实施例,所述评价商品正确性的方法包括:
步骤101,从训练集中随机抽取多个样本集,每个样本集包括多个订单数据。
可选地,在抽取样本集之前,可以先对训练集中的订单数据进行数据预处理,主要包括数据清洗和缺失值填充等。在本发明的又一个实施例中,清洗是指将订单中的无效订单、流程不完整订单删除,或合并分散订单。对清洗后的订单数据填充缺失值,比如根据众数、平均数、多维度上的前后值填充等方式,或者根据具体特征进行合理填充。在填充缺失值后,再提取所述训练集中的订单数据的特征,并对所述特征进行编码。
在本发明的实施例中,特征提取是指针对原始特征进行初步的筛选。结构化的订单数据中,按业务含义、数据是否能被利用等因素,可删除一些无用特征,从而保留有用的特征。
在本发明的再一个实施例中,在对特征进行编码之前,所述方法还包括:特征衍生,也就是说,将提取的特征进行分拆或者组合,从而生成新的特征,然后再对这些新的特征进行编码。比如将开始维修时间和结束维修时间,可以利用相减手段衍生出时长特征。需要指出的是,可以根据实际需要进行特征衍生,即对原始特征进行拆分和组合,本发明实施例对此不作限制。
特征编码是将特征进行编码,使得计算机能够识别这些数据并进行计算。常用的编码处理方式如下:
(a)类别型:进行Embedding编码,对类别型特征,将多个特征进行嵌入式编码,转为适当维度的连续数据特征;
(b)连续型:MinMax缩放至0~1。
在完成清洗、填充和编码的步骤后,从训练集中随机抽取多个样本集,每个样本集包括多个订单数据,需要指出的是,每个样本集中的订单数据可以部分相同,也可以完全不同,本发明实施例对此不作限制。训练集中的订单数据可以是全量订单数据。
可选地,本发明实施例中的订单数据可以是4S店提交至汽车公司的理赔订单数据,也可以是商品订单数据,还可以是物流订单数据,又可以是审核订单数据等,本发明实施例对此不作限制。不同的订单数据具有不同的数据特征,根据各种类型的订单数据,提取相应的特征,并对特征进行编码,以便于使得计算机能够识别这些特征并进行计算。
步骤102,采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树。
在该步骤中,基于步骤101中得到的各个样本集,采用编码后的订单数据进行无监督异常检测孤立森林算法建模,从而构建得到多棵二叉树。
在本发明的再一个实施例中,采用订单数据进行孤立森林算法建模,包括:针对每个样本集,以该样本集中编码后的订单数据作为根节点;随机选取一个特征,确定该样本集中该特征的最小值和最大值;随机选取该特征的最小值与最大值之间的值作为切分点值,将小于所述切分点值的特征对应的订单数据放入一侧的子节点,将大于等于所述切分点值的特征对应的订单数据放入另一侧的子节点;针对两侧子节点的订单数据,分别随机选取一个特征,确定该样本集中该特征的最小值和最大值,随机选取该特征的最小值与最大值之间的值作为切分点值,将小于所述切分点值的特征对应的订单数据放入一侧的子节点,将大于等于所述切分点值的特征对应的订单数据放入另一侧的子节点;重复执行随机选取特征及其切分点值的步骤,直到所有订单数据不可再分或者达到预设的树高度,从而创建得到一棵二叉树。
可选地,在构建二叉树后,还可以进一步结合少量带有标签的订单数据,对模型进行性能评估或对参数进行优化。其中所述带有标签的订单数据是指已经过人为判断的订单数据为正常或者异常的订单数据。
步骤103,根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。
在该步骤中,需要待预测订单数据“走”一遍所有构建好的二叉树,综合该待预测订单数据在每棵二叉树中的位置就可以计算得到该待预测订单数据异常值。
可选地,根据所述多棵二叉树的树结构,计算待预测订单数据的异常值,包括:将待预测订单数据逐一遍历所述多棵二叉树,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值。
作为本发明的再一个实施例,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值,包括:根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据在所有二叉树中的高度的均值;根据所述待预测订单数据在所有二叉树中的高度的均值以及所述待预测订单数据点在每棵二叉树中所在的子节点处的样本数量,计算所述待预测订单数据的异常值。
作为本发明的另一个实施例,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值,包括:
采用以下公式计算所述待预测订单数据的异常值:
Figure BDA0001750719770000091
h(x)=e+c(n)
Figure BDA0001750719770000092
其中,s(x,n)表示待预测订单数据的异常值,E(h(x))表示待预测订单数据在所有二叉树中的高度的均值;h(x)表示待预测订单数据在某一棵二叉树中的高度;e表示待预测订单数据点所在的子节点到根节点的深度;n表示待预测订单数据点所在的子节点处的样本数量;ξ表示欧拉常数。可选地,ξ=0.5772156649。
s(x,n)越接近1表示该待预测订单数据异常的可能性高;
s(x,n)越接近0表示该待预测订单数据正常的可能性比较高;
需要指出的是,所述待预测订单数据可以是步骤101中的训练集,也可以是训练集之外的其他订单数据,本发明对此不作限制。如果训练集中大部分的订单数据的异常值都接近于0.5,说明整个训练集都没有明显的异常值。
根据上面所述的各种实施例,可以看出本发明采用从训练集中随机抽取多个样本集,并进行孤立森林算法建模,从而构建多棵二叉树的技术方案,解决了不能有效地识别出异常订单的问题。而本发明根据创建的多棵二叉树的树结构,计算待预测订单数据的异常值,从而可以针对海量的订单数据,基于无监督异常检测算法挖掘出异常订单行为。全量订单数据通过本发明实施例的处理,筛选出高度异常的订单,用来替代随机抽验的样本。一般情况下,随机抽验的异常订单占比为3~5%,浪费了大量的人工成本;而通过本发明实施例的处理,识别出的异常订单占比能提升至30%左右。而且,本发明实施例将孤立森林的无监督异常检测应用于海量订单的异常检测,区别于常用的基于指标的算法(如局部异常因子以及基于聚类的方法),孤立森林算法具有线性时间复杂度的特点,因此本发明实施例具有简单高效的优点。
图2是根据本发明一个可参考实施例的处理订单数据的方法的主要流程的示意图,所述处理订单数据的方法可以包括:
步骤201,对训练集中的订单数据进行清洗;
步骤202,根据众数、平均数、多维度上的前后值,填充订单数据中的缺失值;
步骤203,提取所述训练集中的订单数据的特征,并对所述特征进行编码;
步骤204,从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;
步骤205,采用编码后的订单数据进行孤立森林算法建模,从而构建多棵二叉树;
步骤206,将待预测订单数据逐一遍历所述多棵二叉树,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据在所有二叉树中的高度的均值;
步骤207,根据所述待预测订单数据在所有二叉树中的高度的均值以及所述待预测订单数据点在每棵二叉树中所在的子节点处的样本数量,计算所述待预测订单数据的异常值。
另外,在本发明一个可参考实施例中处理订单数据的方法的具体实施内容,在上面所述处理订单数据的方法中已经详细说明了,故在此重复内容不再说明。
图3是根据本发明实施例的处理订单数据的装置的主要模块的示意图。如图3所示,所述处理订单数据的装置300包括特征模块301、建模模块302和计算模块303。其中,所述特征模块301从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;所述建模模块302采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树;所述计算模块303根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。
可选地,采用订单数据进行孤立森林算法建模,包括:
针对每个样本集,以该样本集中编码后的订单数据作为根节点;
随机选取一个特征,确定该样本集中该特征的最小值和最大值;
随机选取该特征的最小值与最大值之间的值作为切分点值,将小于所述切分点值的特征对应的订单数据放入一侧的子节点,将大于等于所述切分点值的特征对应的订单数据放入另一侧的子节点;
对两侧子节点的订单数据重复执行随机选取特征及其切分点值的步骤,直到所有订单数据不可再分或者达到预设的树高度,从而创建得到一棵二叉树。
可选地,所述计算模块303将待预测订单数据逐一遍历所述多棵二叉树,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值。
可选地,所述计算模块303根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据在所有二叉树中的高度的均值;根据所述待预测订单数据在所有二叉树中的高度的均值以及所述待预测订单数据点在每棵二叉树中所在的子节点处的样本数量,计算所述待预测订单数据的异常值。
可选地,所述计算模块303采用以下公式计算所述待预测订单数据的异常值:
Figure BDA0001750719770000121
h(x)=e+c(n)
Figure BDA0001750719770000122
其中,s(x,n)表示待预测订单数据的异常值,E(h(x))表示待预测订单数据在所有二叉树中的高度的均值;h(x)表示待预测订单数据在某一棵二叉树中的高度;e表示待预测订单数据点所在的子节点到根节点的深度;n表示待预测订单数据点所在的子节点处的样本数量;ξ表示欧拉常数。
可选地,所述特征模块301还对训练集中的订单数据进行清洗;根据众数、平均数、多维度上的前后值,填充订单数据中的缺失值;提取所述训练集中的订单数据的特征,并对所述特征进行编码。
根据上面所述的各种实施例,可以看出本发明采用从训练集中随机抽取多个样本集,并进行孤立森林算法建模,从而构建多棵二叉树的技术方案,解决了不能有效地识别出异常订单的问题。而本发明根据创建的多棵二叉树的树结构,计算待预测订单数据的异常值,从而可以针对海量的订单数据,基于无监督异常检测算法挖掘出异常订单行为。全量订单数据通过本发明实施例的处理,筛选出高度异常的订单,用来替代随机抽验的样本。一般情况下,随机抽验的异常订单占比为3~5%,浪费了大量的人工成本;而通过本发明实施例的处理,识别出的异常订单占比能提升至30%左右。而且,本发明实施例将孤立森林的无监督异常检测应用于海量订单的异常检测,区别于常用的基于指标的算法(如局部异常因子以及基于聚类的方法),孤立森林算法具有线性时间复杂度的特点,因此本发明实施例具有简单高效的优点。
需要说明的是,在本发明所述处理订单数据的装置的具体实施内容,在上面所述处理订单数据的方法中已经详细说明了,故在此重复内容不再说明。
图4示出了可以应用本发明实施例的处理订单数据的方法或处理订单数据的方法的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息——仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的处理订单数据的方法一般在服务器405执行,相应地,所述处理订单数据的装置一般设置在服务器405中。本发明实施例所提供的处理订单数据的方法也可以在终端设备401、402、403执行,相应地,所述处理订单数据的装置一般设置在终端设备401、402、403上。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括特征模块、建模模块和计算模块,其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树;根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。
根据本发明实施例的技术方案,因为采用从训练集中随机抽取多个样本集,并进行孤立森林算法建模,从而构建多棵二叉树的技术手段,所以克服了不能有效地识别出异常订单的技术问题;本发明根据创建的多棵二叉树的树结构,计算待预测订单数据的异常值,从而可以针对海量的订单数据,基于无监督异常检测算法挖掘出异常订单行为。全量订单数据通过本发明实施例的处理,筛选出高度异常的订单,用来替代随机抽验的样本。而且,本发明实施例将孤立森林的无监督异常检测应用于海量订单的异常检测,区别于常用的基于指标的算法(如局部异常因子以及基于聚类的方法),孤立森林算法具有线性时间复杂度的特点,因此本发明实施例具有简单高效的优点。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种处理订单数据的方法,其特征在于,包括:
从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;
采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树;
根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。
2.根据权利要求1所述的方法,其特征在于,采用订单数据进行孤立森林算法建模,包括:
针对每个样本集,以该样本集中编码后的订单数据作为根节点;
随机选取一个特征,确定该样本集中该特征的最小值和最大值;
随机选取该特征的最小值与最大值之间的值作为切分点值,将小于所述切分点值的特征对应的订单数据放入一侧的子节点,将大于等于所述切分点值的特征对应的订单数据放入另一侧的子节点;
对两侧子节点的订单数据重复执行随机选取特征及其切分点值的步骤,直到所有订单数据不可再分或者达到预设的树高度,从而创建得到一棵二叉树。
3.根据权利要求1所述的方法,其特征在于,根据所述多棵二叉树的树结构,计算待预测订单数据的异常值,包括:
将待预测订单数据逐一遍历所述多棵二叉树,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值。
4.根据权利要求3所述的方法,其特征在于,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值,包括:
根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据在所有二叉树中的高度的均值;
根据所述待预测订单数据在所有二叉树中的高度的均值以及所述待预测订单数据点在每棵二叉树中所在的子节点处的样本数量,计算所述待预测订单数据的异常值。
5.根据权利要求3所述的方法,其特征在于,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值,包括:
采用以下公式计算所述待预测订单数据的异常值:
h(x)=e+c(n)
其中,s(x,n)表示待预测订单数据的异常值,E(h(x))表示待预测订单数据在所有二叉树中的高度的均值;h(x)表示待预测订单数据在某一棵二叉树中的高度;e表示待预测订单数据点所在的子节点到根节点的深度;n表示待预测订单数据点所在的子节点处的样本数量;ξ表示欧拉常数。
6.根据权利要求1所述的方法,其特征在于,从训练集中随机抽取多个样本集之前,还包括:
对训练集中的订单数据进行清洗;
根据众数、平均数、多维度上的前后值,填充订单数据中的缺失值;
提取所述训练集中的订单数据的特征,并对所述特征进行编码。
7.一种处理订单数据的装置,其特征在于,包括:
特征模块,用于从训练集中随机抽取多个样本集,每个样本集包括多个订单数据;
建模模块,用于采用订单数据进行孤立森林算法建模,从而构建多棵二叉树,其中,每个样本集对应于一棵二叉树;
计算模块,用于根据所述多棵二叉树的树结构,计算待预测订单数据的异常值。
8.根据权利要求7所述的装置,其特征在于,采用订单数据进行孤立森林算法建模,包括:
针对每个样本集,以该样本集中编码后的订单数据作为根节点;
随机选取一个特征,确定该样本集中该特征的最小值和最大值;
随机选取该特征的最小值与最大值之间的值作为切分点值,将小于所述切分点值的特征对应的订单数据放入一侧的子节点,将大于等于所述切分点值的特征对应的订单数据放入另一侧的子节点;
对两侧子节点的订单数据重复执行随机选取特征及其切分点值的步骤,直到所有订单数据不可再分或者达到预设的树高度,从而创建得到一棵二叉树。
9.根据权利要求7所述的装置,其特征在于,所述计算模块用于:
将待预测订单数据逐一遍历所述多棵二叉树,根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据的异常值。
10.根据权利要求9所述的装置,其特征在于,所述计算模块用于:
根据所述待预测订单数据在每棵二叉树中的位置,计算所述待预测订单数据在所有二叉树中的高度的均值;
根据所述待预测订单数据在所有二叉树中的高度的均值以及所述待预测订单数据点在每棵二叉树中所在的子节点处的样本数量,计算所述待预测订单数据的异常值。
11.根据权利要求10所述的装置,其特征在于,所述计算模块,用于:
采用以下公式计算所述待预测订单数据的异常值:
Figure FDA0001750719760000031
h(x)=e+c(n)
Figure FDA0001750719760000032
其中,s(x,n)表示待预测订单数据的异常值,E(h(x))表示待预测订单数据在所有二叉树中的高度的均值;h(x)表示待预测订单数据在某一棵二叉树中的高度;e表示待预测订单数据点所在的子节点到根节点的深度;n表示待预测订单数据点所在的子节点处的样本数量;ξ表示欧拉常数。
12.根据权利要求7所述的装置,其特征在于,所述特征模块还用于:
对训练集中的订单数据进行清洗;
根据众数、平均数、多维度上的前后值,填充订单数据中的缺失值;
提取所述训练集中的订单数据的特征,并对所述特征进行编码。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810865110.2A 2018-08-01 2018-08-01 一种处理订单数据的方法和装置 Pending CN110807466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810865110.2A CN110807466A (zh) 2018-08-01 2018-08-01 一种处理订单数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810865110.2A CN110807466A (zh) 2018-08-01 2018-08-01 一种处理订单数据的方法和装置

Publications (1)

Publication Number Publication Date
CN110807466A true CN110807466A (zh) 2020-02-18

Family

ID=69486746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810865110.2A Pending CN110807466A (zh) 2018-08-01 2018-08-01 一种处理订单数据的方法和装置

Country Status (1)

Country Link
CN (1) CN110807466A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688923A (zh) * 2021-08-31 2021-11-23 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质
CN117150244A (zh) * 2023-10-30 2023-12-01 山东凯莱电气设备有限公司 基于电参数分析的智能配电柜状态监测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890803A (zh) * 2011-07-21 2013-01-23 阿里巴巴集团控股有限公司 电子商品异常交易过程的确定方法及其装置
KR20140050399A (ko) * 2012-10-19 2014-04-29 한국전자통신연구원 스마트그리드 ami 네트워크 환경에서 이상행위 탐지 시스템 구성 및 방법
US20160036844A1 (en) * 2014-07-15 2016-02-04 Cisco Technology, Inc. Explaining network anomalies using decision trees
CN107844862A (zh) * 2017-11-14 2018-03-27 泰康保险集团股份有限公司 订单失效预测方法、装置、介质及电子设备
CN108305043A (zh) * 2018-01-17 2018-07-20 深圳世绎文化科技有限公司 单件流生产管理信息系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102890803A (zh) * 2011-07-21 2013-01-23 阿里巴巴集团控股有限公司 电子商品异常交易过程的确定方法及其装置
KR20140050399A (ko) * 2012-10-19 2014-04-29 한국전자통신연구원 스마트그리드 ami 네트워크 환경에서 이상행위 탐지 시스템 구성 및 방법
US20160036844A1 (en) * 2014-07-15 2016-02-04 Cisco Technology, Inc. Explaining network anomalies using decision trees
CN107844862A (zh) * 2017-11-14 2018-03-27 泰康保险集团股份有限公司 订单失效预测方法、装置、介质及电子设备
CN108305043A (zh) * 2018-01-17 2018-07-20 深圳世绎文化科技有限公司 单件流生产管理信息系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张荣昌: "基于数据挖掘的用电数据异常的分析与研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 01, pages 14 - 16 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688923A (zh) * 2021-08-31 2021-11-23 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质
CN113688923B (zh) * 2021-08-31 2024-04-05 中国平安财产保险股份有限公司 订单异常智能检测方法、装置、电子设备及存储介质
CN117150244A (zh) * 2023-10-30 2023-12-01 山东凯莱电气设备有限公司 基于电参数分析的智能配电柜状态监测方法及系统
CN117150244B (zh) * 2023-10-30 2024-01-26 山东凯莱电气设备有限公司 基于电参数分析的智能配电柜状态监测方法及系统

Similar Documents

Publication Publication Date Title
CN107809331B (zh) 识别异常流量的方法和装置
CN109509048B (zh) 恶意订单识别方法、装置、电子设备及存储介质
CN108595448B (zh) 信息推送方法和装置
CN113688923B (zh) 订单异常智能检测方法、装置、电子设备及存储介质
CN112613917A (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN107944032B (zh) 用于生成信息的方法和装置
CN111160847A (zh) 一种处理流程信息的方法和装置
CN111767455A (zh) 一种信息推送的方法和装置
CN107908662B (zh) 搜索系统的实现方法和实现装置
CN110503507B (zh) 基于大数据的保险产品数据推送方法、系统及计算机设备
CN112508456A (zh) 食品安全风险评估方法、系统、计算机设备及存储介质
CN108512674B (zh) 用于输出信息的方法、装置和设备
CN110807466A (zh) 一种处理订单数据的方法和装置
CN110895761A (zh) 一种售后服务申请信息的处理方法和装置
CN107256254B (zh) 一种行业景气指数获取方法、存储设备及终端
CN111311381A (zh) 一种商品推荐方法及系统
CN116485019A (zh) 一种数据处理方法及装置
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
CN113537519A (zh) 一种识别异常设备的方法和装置
CN113327145A (zh) 一种物品推荐方法和装置
CN112783956B (zh) 一种信息处理方法和装置
CN115718696B (zh) 源码密码学误用检测方法、装置、电子设备和存储介质
CN112183644B (zh) 指标稳定性的监控方法、装置、计算机设备及介质
CN113535794A (zh) 一种用户行为数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address after: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: 101111 Room 221, 2nd Floor, Block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

CB02 Change of applicant information