CN111461815A

CN111461815A - 订单识别模型生成方法、识别方法、系统、设备和介质

Info

Publication number: CN111461815A
Application number: CN202010186074.4A
Authority: CN
Inventors: 江文斌; 李健
Original assignee: Shanghai Ctrip International Travel Agency Co Ltd
Current assignee: Shanghai Ctrip International Travel Agency Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-28
Anticipated expiration: 2040-03-17
Also published as: CN111461815B

Abstract

本发明公开了一种订单识别模型生成方法、识别方法、系统、设备和介质，通过获取多个历史订单数据；基于所述多个历史订单数据获取历史订单特征；将所述多个历史订单数据用图结构进行关联，得到一个以订单为图节点以用户ID和或产品ID为边的图；对所述历史订单特征进行特征处理与筛选，以剔除不相关特征，并将筛选后的订单特征加入对应的图节点中，从而得到GCN图结构网络；将所述历史订单数据输入至GCN模型中进行训练，以得到订单识别模型，进一步利用该模型预测订单异常的概率，进而判断该订单是否异常。本发明使用图结构实现基于聚类和社区发现的半监督学习方法能够对海量未标注的订单进行准确识别。

Description

订单识别模型生成方法、识别方法、系统、设备和介质

技术领域

本发明涉及电商平台的信息处理技术领域领域，特别涉及一种订单识别模型生成方法、识别方法、系统、设备和介质。

背景技术

在电商平台，产品的搜索列表和信息流推荐通常使用售卖量、点击量、用户点评分等指标作为重要的排序和推荐因子。由于普通用户往往具有从众的心里，最终会购买比较热门的产品，从而极有可能形成爆款产品。然而，除了正常的用户下单购买行为，一些商家为了提高自己产品的售卖量、点击量、曝光量会采用一些非正常的下单行为，即雇佣其他人或者网络水军对自己的产品进行点击、下单、支付、点评等。这种订单的刷单行为会严重干扰平台的正常运营，对其他商家非常不公平、对用户来说也是某种欺骗。因而，订单的刷单识别是电商平台不可或缺的运营手段之一，能有效地维护平台的公平公正。

现有的刷单识别一般采用规则系统和模型识别两种方法实现。规则系统使用一些业务规则来判断该订单是刷单行为的可能性，比如：“分身乏术”规则指的是同一用户短时间内对同一个供应商产品重复下单的刷单行为，“突然降价”规则指的是某供应商对某产品突然降价且有大量用户购买、下单之后又在短时间内恢复价格的刷单行为，等等。也就是说，规则系统中的每一条规则都是根据人工的先验知识和一些被举报刷单的行为综合得出的，因而规则系统在验证集上漏抓的可能性较小，错抓的可能性较大，即其查全率较高而查准率较低。采用模型识别的方法，一般使用逻辑回归(Logistic Regression，LR)二分类模型或者XGBoost模型进行二分类。模型识别的方法能在原始特征上学习到一些规则无法预设的先验知识，特别是XGBoost能在某种程度上能对特征进行交叉，因而模型识别方法在验证集上的都能获得较高的查全率和查准率。但在实际运营中都会存在这样的矛盾问题：规则系统虽然对于验证集上漏抓刷单较少，但对于海量未进行人工标注的订单，其判别为刷单的订单较少，而如果一旦被判别为刷单，则极有可能就是刷单；模型识别虽然在验证集上查全率和查准率都较高，但对于海量未标注的订单，被判别为刷单的订单较多，而其很有可能是错判。实际运营中这些被判定为刷单的订单，由于人工核实的工作量巨大，所以更多倾向于使用规则系统进行刷单识别。

从机器学习的角度看，该问题是半监督学习问题，即海量的订单(比如百万级别)中只有少量的已标注订单(比如万级别)。针对半监督学习的问题，仅仅使用逻辑回归或者XGBoost模型的方法，均无法从根本上解决问题。其次，从数据的角度看，该问题是正负样本极端不平衡的问题，即正样本(标记为刷单)的数量远远少于负样本(标记为正常订单)。针对数据极端不平衡的问题，仅仅通过规则系统进行扩充无法从根本上解决问题。

发明内容

本发明要解决的技术问题是为了克服现有技术中采用对于海量未标注的订单，规则系统会漏抓、模型识别系统会错抓缺陷，提供一种订单识别模型生成方法、识别方法、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种订单识别模型生成方法，所述订单识别模型生成方法包括：

获取多个历史订单数据；

基于所述多个历史订单数据获取历史订单特征，所述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维度特征；

将所述多个历史订单数据用图结构进行关联，得到一个以订单为图节点以用户ID和/或产品ID为边的图；

对所述历史订单特征进行特征处理与筛选，以剔除不相关特征，并将筛选后的订单特征加入对应的图节点中，从而得到GCN图结构网络；

将所述历史订单数据输入至GCN模型中进行训练，以得到订单识别模型，所述订单识别模型用于预测订单异常的概率。

较佳地，所述对所述历史订单特征进行特征处理与筛选的步骤包括：

对所述历史订单特征进行覆盖率计算与相关性分析，剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征，以得到历史订单第一特征；

将所述历史订单第一特征输入至XGBoost模型进行训练，以剔除不相关特征。

较佳地，所述获取多个历史订单数据的步骤包括：

获取多个历史订单；

基于所述多个历史订单，获取每一个历史订单的特征维度表，历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维度特征表；

根据所述每一个历史订单的特征维度表获取每一张特征维度表的数据，并将所述数据进行离散化、归一化、缺失值补充的处理，将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表；

获取每一个历史订单的高维度特征宽表中的数据，以得到多个历史订单数据。

本发明还提供了一种订单识别方法，所述订单识别方法包括：

获取待识别订单的目标数据；

将所述订单的目标数据输入至所述订单识别模型中预测订单异常概率；

所述订单识别模型使用前述的订单识别模型的生成方法生成。

本发明还提供了一种订单识别模型生成系统，所述订单识别模型生成系统包括：

第一获取模块，用于获取多个历史订单数据；

第二获取模块，用于基于所述多个历史订单数据获取历史订单特征，所述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维度特征；

关联模块，用于将所述多个历史订单数据用图结构进行关联，得到一个以订单为图节点以用户ID和或产品ID为边的图；

筛选模块，用于对所述历史订单特征进行特征处理与筛选，以剔除不相关特征，并将筛选后的订单特征加入对应的图节点中，从而得到GCN图结构网络；

训练模块，用于将所述历史订单数据输入至GCN模型中进行训练，以得到订单识别模型，所述订单识别模型用于预测订单异常的概率。

较佳地，所述筛选模块包括：

第一剔除单元，用于对所述历史订单特征进行覆盖率计算与相关性分析，剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征，以得到历史订单第一特征；

第二剔除单元，用于将所述历史订单第一特征输入至XGBoost模型进行训练，以剔除不相关特征。

较佳地，所述第一获取模块包括：

第一获取单元，用于获取多历史个订单；

第二获取单元，用于基于所述多个历史订单，获取每一个历史订单的特征维度表，所述历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维度特征表；

数据处理单元，用于根据所述每一个历史订单的特征维度表获取每一张特征维度表的数据，并将所述数据进行离散化、归一化、缺失值补充的处理，将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表；

第三获取单元，用于获取每一个历史订单的高维度特征宽表中的数据，以得到多个历史订单数据。

本发明还提供了一种订单识别系统，所述订单识别系统包括：

数据获取模块，用于获取多个订单的目标数据；

输入模块，用于将所述订单的目标数据输入至所述订单识别模型中预测订单异常概率；

所述订单识别模型使用前述的订单识别模型的生成系统生成。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的订单识别模型生成方法或上述的订单识别方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现订单识别模型生成方法或上述的订单识别方法的步骤。

本发明的积极进步效果在于：本发明提供了一种订单识别模型生成方法、订单识别方法、系统、设备和介质。通过构建图结构网络，将多个订单数据用图结构进行关联，得到一个以订单为图节点以用户ID和或产品ID为边的图，然后将订单数据加入至GCN模型进行训练，以得到订单识别模型，进一步利用该模型预测订单异常的概率，进而判断该订单是否异常。对比现有技术中采用规则系统或模型识别的方法，本发明使用图结构实现基于聚类和社区发现的半监督学习方法能够克服现有技术中采用对于海量未标注的订单，规则系统会漏抓、模型识别系统会错抓的缺陷。

附图说明

图1为本发明实施例1的订单识别模型生成方法的流程图。

图2为本发明实施例1中步骤S104的流程图。

图3为本发明实施例1中步骤S101的流程图。

图4为本发明实施例2的订单识别方法的流程图。

图5为本发明实施例3的订单识别模型生成系统的模块示意图。

图6为本发明实施例3中筛选模块的模块示意图。

图7为本发明实施例3中第一获取模块的模块示意图。

图8为本发明实施例4的订单识别系统的模块示意图。

图9为本发明实施例5的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例公开了一种订单识别模型生成方法，包括以下步骤：

步骤S101、获取多个历史订单数据；

步骤S102、基于所述多个历史订单数据获取历史订单特征，所述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维度特征；

步骤S103、将所述多个历史订单数据用图结构进行关联，得到一个以订单为图节点以用户ID和/或产品ID为边的图；

本实施例中，图结构中的边可以是有向的也可以是无向的，图结构的有向边较计算复杂度较高，为了实际的工程实现，一般均使用无向边，所以本实施例选用了无向边。订单与订单之间通过用户ID和产品ID的关系进行连接。例如，两个订单如果购买是同一个产品，也就是这两个订单的产品ID相同，则可以使用产品ID进行关联，那么这种关联关系对应图结构中的一条边；以此类似，两个订单如果是同一用户下单，那么可以使用用户ID对不同订单进行关联，作为图结构中的一条边。

步骤S104、对所述历史订单特征进行特征处理与筛选，以剔除不相关特征，并将筛选后的订单特征加入对应的图节点中，从而得到GCN图结构网络；

本实施例中，特征筛选能有效降低特征维度、剔除不相关特征，从而能有效减小节点的数据存储、提高训练速度。

步骤S105、将所述历史订单数据输入至GCN模型中进行训练，以得到订单识别模型，所述订单识别模型用于预测订单异常的概率。

本实施例中，将历史订单中正常的订单标记为0，非正常的订单标记为1。

图结构的训练不需要大量的标注数据，训练使用CGN网络对节点进行无监督训练，可以发现高维度数据中信息，使得具有同样属性的节点聚合成一类。从而有效规避传统机器学习算法所面临的训练数据不足和正负样本极端不平衡问题。

本实施例中GCN模型使用如下公式进行迭代训练：

式中，H^(l)表示第l层网络，W^(l)是第l层的网络权重，D表示图定点的度矩阵，A表示图的邻接矩阵表示，～表示是归一化，其对图中所有节点添加自连接节点然后重新计算度矩阵和邻接矩阵,σ表示非线性激活函数,为ReLU 函数。神经网络的输出使用对数软最大值(log softmax)：

代价函数使用负对数最大似然损失函数(negative log likelihood loss)。

训练过程需要在验证集上对网络的超参进行调试，如学习率等超参数。经过若干次训练后，在验证集上得到达到停止条件则停止训练。最后保存训练好的模型文件。

如图2所示，本实施例中，步骤S104包括以下步骤：

步骤S1041、对所述历史订单特征进行覆盖率计算与相关性分析，剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征，以得到历史订单第一特征；

本实施例中，覆盖率计算是字段中非空值的记录数除以总的记录数，比如，总记录数100万，其中某字段a只有10万条记录有值，其他90万条记录为空值，则该字段a(即特征)的覆盖率为10/100*100％＝10％。

步骤S1042、将所述历史订单第一特征输入至XGBoost模型进行训练，以剔除不相关特征。

本实施例中根据特征重要性进行降序排序，逐步剔除重要性最低的特征，再重新训练XGBoost模型，直到模型在测试集上的表现有所下降时，则停止特征筛选。

如图3所示，本实施例中，步骤S101包括以下步骤：

步骤S1011、获取多个历史订单；

步骤S1012、基于所述多个历史订单，获取每一个历史订单的特征维度表，历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维度特征表；

步骤S1013、根据所述每一个历史订单的特征维度表获取每一张特征维度表的数据，并将所述数据进行离散化、归一化、缺失值补充的处理，将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表；

步骤S1014、获取每一个历史订单的高维度特征宽表中的数据，以得到多个历史订单数据。

本实施例中，维度特征表组合成高维度特征宽表的过程是将各维度数据表的各个字段进行组合，得到高维度特征宽表。比如：A表有a|b|c三个字段，B表有d|e|f|g四个字段，那么组合后的宽表C有a|b|c|d|e|f|g七个字段。

本实施例公开的订单识别模型生成方法，通过使用历史订单作为节点、使用订单多维度的特征构建节点特征、使用用户ID和/或产品ID对节点进行关联，构建了订单图结构。该图结构能充分挖掘不同订单之间的关系，从而能有效弥补旅游产品低频次购买而导致特征稀疏的问题。同时图结构实现基于聚类和社区发现的半监督学习方法，从而能有效解决刷单识别模型训练数据不足和正负样本极端不平衡的问题。

实施例2

如图4所示，本实施例提供了一种订单识别方法，包括以下步骤：

步骤S201、获取待识别订单的目标数据；

步骤S202、将所述订单的目标数据输入至前订单识别模型中预测订单异常概率；

本实施例公开了订单识别方法，通过获取多个订单的目标数据；将所述订单的目标数据输入至前述的订单识别模型中预测订单异常概率。本实施能够预测订单异常概率，从而实现订单正常或异常的识别，克服了订单识别误判的问题。

实施例3

如图5所示，本实施例提供了一种订单识别模型生成系统，包括：

第一获取模块1，用于获取多个历史订单数据；

第二获取模块2，用于基于所述多个历史订单数据获取历史订单特征，所述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维度特征；

关联模块3，用于将所述多个历史订单数据用图结构进行关联，得到一个以订单为图节点以用户ID和/或产品ID为边的图；

本实施例中，图结构中的边可以是有向的也可以是无向的，图结构的有向边较计算复杂度较高，为了实际的工程实现，一般均使用无向边，所以本实施例选用了无向边。订单与订单之间通过用户ID和/或产品ID的关系进行连接。例如，两个订单如果购买是同一个产品，也就是这两个订单的产品 ID相同，则可以使用产品ID进行关联，那么这种关联关系对应图结构中的一条边；以此类似，两个订单如果是同一用户下单，那么可以使用用户ID对不同订单进行关联，作为图结构中的一条边。

筛选模块4，用于对所述历史订单特征进行特征处理与筛选，以剔除不相关特征，并将筛选后的订单特征加入对应的图节点中，从而得到GCN图结构网络；

训练模块5，用于将所述历史订单数据输入至GCN模型中进行训练，以得到订单识别模型，所述订单识别模型用于预测订单异常的概率。

本实施中，将历史订单中正常的订单标记为0，非正常的订单标记为1。

本实施例中GCN模型使用如下公式进行迭代训练：

式中，H^(l)表示第l层网络，W^(l)是第l层的网络权重，D表示图定点的度矩阵，A表示图的邻接矩阵表示，～表示是归一化，其对图中所有节点添加自连接节点然后重新计算度矩阵和邻接矩阵,σ表示非线性激活函数,为 ReLU函数。神经网络的输出使用对数软最大值(log softmax)：

如图6所示，本实施例中筛选模块4包括：

第一剔除单元41，用于对所述历史订单特征进行覆盖率计算与相关性分析，剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征，以得到历史订单第一特征；

本实施例中，覆盖率计算是字段中非空值的记录数除以总的记录数，比如，总记录数100万，其中某字段a只有10万条记录有值，其他90万条记录为空值，则，该字段a(即特征)的覆盖率为10/100*100％＝10％。

第二剔除单元42，用于将所述历史订单第一特征输入至XGBoost模型进行训练，以剔除不相关特征。

如图7所示，本实施例中第一获取模块1包括：

第一获取单元11，用于获取多个历史订单；

第二获取单元12，用于基于所述多个历史订单，获取每一个历史订单的特征维度表，所述历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维度特征表；

数据处理单元13，用于根据所述每一个历史订单的特征维度表获取每一张特征维度表的数据，并将所述数据进行离散化、归一化、缺失值补充的处理，将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表；

第三获取单元14，用于获取每一个历史订单的高维度特征宽表中的数据，以得到多个历史订单数据。

本实施例公开的订单识别模型生成系统，通过使用历史订单作为节点、使用订单多维度的特征构建节点特征、使用用户ID和/或产品ID对节点进行关联，构建了订单图结构。该图结构能充分挖掘不同订单之间的关系，从而能有效弥补旅游产品低频次购买而导致特征稀疏的问题。同时图结构实现基于聚类和社区发现的半监督学习方法，从而能有效解决刷单识别模型训练数据不足和正负样本极端不平衡的问题。

实施例4

如图8所示，本实施例提供了一种订单识别系统，包括：

数据获取模块6，用于获取多个订单的目标数据；

输入模块7，用于将所述订单的目标数据输入至前述订单识别模型中预测订单异常概率；

本实施例公开了订单识别系统，通过获取多个订单的目标数据；将所述订单的目标数据输入至前述的订单识别模型中预测订单异常概率。本实施能够预测订单异常概率，从而实现订单正常或异常的识别，克服了订单识别误判的问题。

实施例5

图9为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1所提供的订单识别模型生成方法或实施例2所提供的订单识别方法。图9显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/ 或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的订单识别模型生成方法或实施例2所提供的订单识别方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1所提供的订单识别模型生成方法或实施例2所提供的订单识别方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1所提供的订单识别模型生成方法或实施例2所提供的订单识别方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种订单识别模型生成方法，其特征在于，包括：

获取多个历史订单数据；

2.如权利要求1所述的订单识别模型生成方法，其特征在于，所述对所述历史订单特征进行特征处理与筛选的步骤包括：

3.如权利要求1所述的订单识别模型生成方法，其特征在于，所述获取多个历史订单数据的步骤包括：

获取多个历史订单；

4.一种订单识别方法，其特征在于，包括：

获取待识别订单的目标数据；

所述订单识别模型使用如权利要求1至3任一项所述的订单识别模型的生成方法生成。

5.一种订单识别模型生成系统，其特征在于，包括：

第一获取模块，用于获取多个历史订单数据；

关联模块，用于将所述多个历史订单数据用图结构进行关联，得到一个以订单为图节点以用户ID和/或产品ID为边的图；

6.如权利要求5所述的订单识别模型生成系统，其特征在于，所述筛选模块包括：

7.如权利要求5所述的订单识别模型生成系统，其特征在于，所述第一获取模块包括：

第一获取单元，用于获取多个历史订单；

第二获取单元，用于基于所述多个历史订单，获取每一个历史订单的特征维度表，历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维度特征表；

8.一种订单识别系统，其特征在于，包括：

数据获取模块，用于获取待识别订单的目标数据；

所述订单识别模型使用如权利要求5至7任一项所述的订单识别模型的生成系统生成。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的订单识别模型生成方法或如权利要求4所述的订单识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的订单识别模型生成方法或如权利要求4所述的订单识别方法的步骤。