CN111461815A - 订单识别模型生成方法、识别方法、系统、设备和介质 - Google Patents
订单识别模型生成方法、识别方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN111461815A CN111461815A CN202010186074.4A CN202010186074A CN111461815A CN 111461815 A CN111461815 A CN 111461815A CN 202010186074 A CN202010186074 A CN 202010186074A CN 111461815 A CN111461815 A CN 111461815A
- Authority
- CN
- China
- Prior art keywords
- order
- historical
- data
- features
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种订单识别模型生成方法、识别方法、系统、设备和介质,通过获取多个历史订单数据;基于所述多个历史订单数据获取历史订单特征;将所述多个历史订单数据用图结构进行关联,得到一个以订单为图节点以用户ID和或产品ID为边的图;对所述历史订单特征进行特征处理与筛选,以剔除不相关特征,并将筛选后的订单特征加入对应的图节点中,从而得到GCN图结构网络;将所述历史订单数据输入至GCN模型中进行训练,以得到订单识别模型,进一步利用该模型预测订单异常的概率,进而判断该订单是否异常。本发明使用图结构实现基于聚类和社区发现的半监督学习方法能够对海量未标注的订单进行准确识别。
Description
技术领域
本发明涉及电商平台的信息处理技术领域领域,特别涉及一种订单识别 模型生成方法、识别方法、系统、设备和介质。
背景技术
在电商平台,产品的搜索列表和信息流推荐通常使用售卖量、点击量、 用户点评分等指标作为重要的排序和推荐因子。由于普通用户往往具有从众 的心里,最终会购买比较热门的产品,从而极有可能形成爆款产品。然而, 除了正常的用户下单购买行为,一些商家为了提高自己产品的售卖量、点击 量、曝光量会采用一些非正常的下单行为,即雇佣其他人或者网络水军对自 己的产品进行点击、下单、支付、点评等。这种订单的刷单行为会严重干扰 平台的正常运营,对其他商家非常不公平、对用户来说也是某种欺骗。因而, 订单的刷单识别是电商平台不可或缺的运营手段之一,能有效地维护平台的 公平公正。
现有的刷单识别一般采用规则系统和模型识别两种方法实现。规则系统 使用一些业务规则来判断该订单是刷单行为的可能性,比如:“分身乏术”规 则指的是同一用户短时间内对同一个供应商产品重复下单的刷单行为,“突 然降价”规则指的是某供应商对某产品突然降价且有大量用户购买、下单之 后又在短时间内恢复价格的刷单行为,等等。也就是说,规则系统中的每一 条规则都是根据人工的先验知识和一些被举报刷单的行为综合得出的,因而 规则系统在验证集上漏抓的可能性较小,错抓的可能性较大,即其查全率较 高而查准率较低。采用模型识别的方法,一般使用逻辑回归(Logistic Regression,LR)二分类模型或者XGBoost模型进行二分类。模型识别的方 法能在原始特征上学习到一些规则无法预设的先验知识,特别是XGBoost能 在某种程度上能对特征进行交叉,因而模型识别方法在验证集上的都能获得 较高的查全率和查准率。但在实际运营中都会存在这样的矛盾问题:规则系 统虽然对于验证集上漏抓刷单较少,但对于海量未进行人工标注的订单,其 判别为刷单的订单较少,而如果一旦被判别为刷单,则极有可能就是刷单; 模型识别虽然在验证集上查全率和查准率都较高,但对于海量未标注的订单, 被判别为刷单的订单较多,而其很有可能是错判。实际运营中这些被判定为 刷单的订单,由于人工核实的工作量巨大,所以更多倾向于使用规则系统进 行刷单识别。
从机器学习的角度看,该问题是半监督学习问题,即海量的订单(比如 百万级别)中只有少量的已标注订单(比如万级别)。针对半监督学习的问 题,仅仅使用逻辑回归或者XGBoost模型的方法,均无法从根本上解决问 题。其次,从数据的角度看,该问题是正负样本极端不平衡的问题,即正样 本(标记为刷单)的数量远远少于负样本(标记为正常订单)。针对数据极端 不平衡的问题,仅仅通过规则系统进行扩充无法从根本上解决问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中采用对于海量未标注 的订单,规则系统会漏抓、模型识别系统会错抓缺陷,提供一种订单识别模 型生成方法、识别方法、系统、设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种订单识别模型生成方法,所述订单识别模型生成方法 包括:
获取多个历史订单数据;
基于所述多个历史订单数据获取历史订单特征,所述订单特征包括用户 维度特征、订单维度特征、产品维度特征、上下文维度特征;
将所述多个历史订单数据用图结构进行关联,得到一个以订单为图节点 以用户ID和/或产品ID为边的图;
对所述历史订单特征进行特征处理与筛选,以剔除不相关特征,并将筛 选后的订单特征加入对应的图节点中,从而得到GCN图结构网络;
将所述历史订单数据输入至GCN模型中进行训练,以得到订单识别模 型,所述订单识别模型用于预测订单异常的概率。
较佳地,所述对所述历史订单特征进行特征处理与筛选的步骤包括:
对所述历史订单特征进行覆盖率计算与相关性分析,剔除覆盖率低于一 定阈值的订单特征和维度特征重复的订单特征,以得到历史订单第一特征;
将所述历史订单第一特征输入至XGBoost模型进行训练,以剔除不相 关特征。
较佳地,所述获取多个历史订单数据的步骤包括:
获取多个历史订单;
基于所述多个历史订单,获取每一个历史订单的特征维度表,历史订单 维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维 度特征表;
根据所述每一个历史订单的特征维度表获取每一张特征维度表的数据, 并将所述数据进行离散化、归一化、缺失值补充的处理,将处理后的数据进 行并行组合成每一个历史订单的一张高维度特征宽表;
获取每一个历史订单的高维度特征宽表中的数据,以得到多个历史订单 数据。
本发明还提供了一种订单识别方法,所述订单识别方法包括:
获取待识别订单的目标数据;
将所述订单的目标数据输入至所述订单识别模型中预测订单异常概率;
所述订单识别模型使用前述的订单识别模型的生成方法生成。
本发明还提供了一种订单识别模型生成系统,所述订单识别模型生成系 统包括:
第一获取模块,用于获取多个历史订单数据;
第二获取模块,用于基于所述多个历史订单数据获取历史订单特征,所 述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维度 特征;
关联模块,用于将所述多个历史订单数据用图结构进行关联,得到一个 以订单为图节点以用户ID和或产品ID为边的图;
筛选模块,用于对所述历史订单特征进行特征处理与筛选,以剔除不相 关特征,并将筛选后的订单特征加入对应的图节点中,从而得到GCN图结 构网络;
训练模块,用于将所述历史订单数据输入至GCN模型中进行训练,以 得到订单识别模型,所述订单识别模型用于预测订单异常的概率。
较佳地,所述筛选模块包括:
第一剔除单元,用于对所述历史订单特征进行覆盖率计算与相关性分析, 剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征,以得到历 史订单第一特征;
第二剔除单元,用于将所述历史订单第一特征输入至XGBoost模型进 行训练,以剔除不相关特征。
较佳地,所述第一获取模块包括:
第一获取单元,用于获取多历史个订单;
第二获取单元,用于基于所述多个历史订单,获取每一个历史订单的特 征维度表,所述历史订单维度表包括用户维度特征表、订单维度特征表、产 品维度特征表、上下文维度特征表;
数据处理单元,用于根据所述每一个历史订单的特征维度表获取每一张 特征维度表的数据,并将所述数据进行离散化、归一化、缺失值补充的处理, 将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表;
第三获取单元,用于获取每一个历史订单的高维度特征宽表中的数据, 以得到多个历史订单数据。
本发明还提供了一种订单识别系统,所述订单识别系统包括:
数据获取模块,用于获取多个订单的目标数据;
输入模块,用于将所述订单的目标数据输入至所述订单识别模型中预测 订单异常概率;
所述订单识别模型使用前述的订单识别模型的生成系统生成。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上 并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现 如上述的订单识别模型生成方法或上述的订单识别方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其 特征在于,所述计算机程序被处理器执行时实现订单识别模型生成方法或上 述的订单识别方法的步骤。
本发明的积极进步效果在于:本发明提供了一种订单识别模型生成方法、 订单识别方法、系统、设备和介质。通过构建图结构网络,将多个订单数据 用图结构进行关联,得到一个以订单为图节点以用户ID和或产品ID为边的 图,然后将订单数据加入至GCN模型进行训练,以得到订单识别模型,进 一步利用该模型预测订单异常的概率,进而判断该订单是否异常。对比现有 技术中采用规则系统或模型识别的方法,本发明使用图结构实现基于聚类和 社区发现的半监督学习方法能够克服现有技术中采用对于海量未标注的订 单,规则系统会漏抓、模型识别系统会错抓的缺陷。
附图说明
图1为本发明实施例1的订单识别模型生成方法的流程图。
图2为本发明实施例1中步骤S104的流程图。
图3为本发明实施例1中步骤S101的流程图。
图4为本发明实施例2的订单识别方法的流程图。
图5为本发明实施例3的订单识别模型生成系统的模块示意图。
图6为本发明实施例3中筛选模块的模块示意图。
图7为本发明实施例3中第一获取模块的模块示意图。
图8为本发明实施例4的订单识别系统的模块示意图。
图9为本发明实施例5的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在 所述的实施例范围之中。
实施例1
如图1所示,本实施例公开了一种订单识别模型生成方法,包括以下步 骤:
步骤S101、获取多个历史订单数据;
步骤S102、基于所述多个历史订单数据获取历史订单特征,所述订单特 征包括用户维度特征、订单维度特征、产品维度特征、上下文维度特征;
步骤S103、将所述多个历史订单数据用图结构进行关联,得到一个以订 单为图节点以用户ID和/或产品ID为边的图;
本实施例中,图结构中的边可以是有向的也可以是无向的,图结构的有 向边较计算复杂度较高,为了实际的工程实现,一般均使用无向边,所以本 实施例选用了无向边。订单与订单之间通过用户ID和产品ID的关系进行连 接。例如,两个订单如果购买是同一个产品,也就是这两个订单的产品ID相 同,则可以使用产品ID进行关联,那么这种关联关系对应图结构中的一条 边;以此类似,两个订单如果是同一用户下单,那么可以使用用户ID对不 同订单进行关联,作为图结构中的一条边。
步骤S104、对所述历史订单特征进行特征处理与筛选,以剔除不相关特 征,并将筛选后的订单特征加入对应的图节点中,从而得到GCN图结构网 络;
本实施例中,特征筛选能有效降低特征维度、剔除不相关特征,从而能 有效减小节点的数据存储、提高训练速度。
步骤S105、将所述历史订单数据输入至GCN模型中进行训练,以得到 订单识别模型,所述订单识别模型用于预测订单异常的概率。
本实施例中,将历史订单中正常的订单标记为0,非正常的订单标记为1。
图结构的训练不需要大量的标注数据,训练使用CGN网络对节点进行 无监督训练,可以发现高维度数据中信息,使得具有同样属性的节点聚合成 一类。从而有效规避传统机器学习算法所面临的训练数据不足和正负样本极 端不平衡问题。
本实施例中GCN模型使用如下公式进行迭代训练:
式中,H(l)表示第l层网络,W(l)是第l层的网络权重,D表示图定点的度 矩阵,A表示图的邻接矩阵表示,~表示是归一化,其对图中所有节点添加自 连接节点然后重新计算度矩阵和邻接矩阵,σ表示非线性激活函数,为ReLU 函数。神经网络的输出使用对数软最大值(log softmax):
代价函数使用负对数最大似然损失函数(negative log likelihood loss)。
训练过程需要在验证集上对网络的超参进行调试,如学习率等超参数。 经过若干次训练后,在验证集上得到达到停止条件则停止训练。最后保存训 练好的模型文件。
如图2所示,本实施例中,步骤S104包括以下步骤:
步骤S1041、对所述历史订单特征进行覆盖率计算与相关性分析,剔除 覆盖率低于一定阈值的订单特征和维度特征重复的订单特征,以得到历史订 单第一特征;
本实施例中,覆盖率计算是字段中非空值的记录数除以总的记录数,比 如,总记录数100万,其中某字段a只有10万条记录有值,其他90万条记 录为空值,则该字段a(即特征)的覆盖率为10/100*100%=10%。
步骤S1042、将所述历史订单第一特征输入至XGBoost模型进行训练, 以剔除不相关特征。
本实施例中根据特征重要性进行降序排序,逐步剔除重要性最低的特征, 再重新训练XGBoost模型,直到模型在测试集上的表现有所下降时,则停止 特征筛选。
如图3所示,本实施例中,步骤S101包括以下步骤:
步骤S1011、获取多个历史订单;
步骤S1012、基于所述多个历史订单,获取每一个历史订单的特征维度 表,历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征 表、上下文维度特征表;
步骤S1013、根据所述每一个历史订单的特征维度表获取每一张特征维 度表的数据,并将所述数据进行离散化、归一化、缺失值补充的处理,将处 理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表;
步骤S1014、获取每一个历史订单的高维度特征宽表中的数据,以得到 多个历史订单数据。
本实施例中,维度特征表组合成高维度特征宽表的过程是将各维度数据 表的各个字段进行组合,得到高维度特征宽表。比如:A表有a|b|c三个字 段,B表有d|e|f|g四个字段,那么组合后的宽表C有a|b|c|d|e|f|g七个字段。
本实施例公开的订单识别模型生成方法,通过使用历史订单作为节点、 使用订单多维度的特征构建节点特征、使用用户ID和/或产品ID对节点进 行关联,构建了订单图结构。该图结构能充分挖掘不同订单之间的关系,从 而能有效弥补旅游产品低频次购买而导致特征稀疏的问题。同时图结构实现 基于聚类和社区发现的半监督学习方法,从而能有效解决刷单识别模型训练 数据不足和正负样本极端不平衡的问题。
实施例2
如图4所示,本实施例提供了一种订单识别方法,包括以下步骤:
步骤S201、获取待识别订单的目标数据;
步骤S202、将所述订单的目标数据输入至前订单识别模型中预测订单 异常概率;
所述订单识别模型使用前述的订单识别模型的生成方法生成。
本实施例公开了订单识别方法,通过获取多个订单的目标数据;将所述 订单的目标数据输入至前述的订单识别模型中预测订单异常概率。本实施能 够预测订单异常概率,从而实现订单正常或异常的识别,克服了订单识别误 判的问题。
实施例3
如图5所示,本实施例提供了一种订单识别模型生成系统,包括:
第一获取模块1,用于获取多个历史订单数据;
第二获取模块2,用于基于所述多个历史订单数据获取历史订单特征, 所述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维 度特征;
关联模块3,用于将所述多个历史订单数据用图结构进行关联,得到一 个以订单为图节点以用户ID和/或产品ID为边的图;
本实施例中,图结构中的边可以是有向的也可以是无向的,图结构的有 向边较计算复杂度较高,为了实际的工程实现,一般均使用无向边,所以本 实施例选用了无向边。订单与订单之间通过用户ID和/或产品ID的关系进 行连接。例如,两个订单如果购买是同一个产品,也就是这两个订单的产品 ID相同,则可以使用产品ID进行关联,那么这种关联关系对应图结构中的 一条边;以此类似,两个订单如果是同一用户下单,那么可以使用用户ID对 不同订单进行关联,作为图结构中的一条边。
筛选模块4,用于对所述历史订单特征进行特征处理与筛选,以剔除不 相关特征,并将筛选后的订单特征加入对应的图节点中,从而得到GCN图 结构网络;
本实施例中,特征筛选能有效降低特征维度、剔除不相关特征,从而能 有效减小节点的数据存储、提高训练速度。
训练模块5,用于将所述历史订单数据输入至GCN模型中进行训练, 以得到订单识别模型,所述订单识别模型用于预测订单异常的概率。
本实施中,将历史订单中正常的订单标记为0,非正常的订单标记为1。
图结构的训练不需要大量的标注数据,训练使用CGN网络对节点进行 无监督训练,可以发现高维度数据中信息,使得具有同样属性的节点聚合成 一类。从而有效规避传统机器学习算法所面临的训练数据不足和正负样本极 端不平衡问题。
本实施例中GCN模型使用如下公式进行迭代训练:
式中,H(l)表示第l层网络,W(l)是第l层的网络权重,D表示图定点的度 矩阵,A表示图的邻接矩阵表示,~表示是归一化,其对图中所有节点添加自 连接节点然后重新计算度矩阵和邻接矩阵,σ表示非线性激活函数,为 ReLU函数。神经网络的输出使用对数软最大值(log softmax):
代价函数使用负对数最大似然损失函数(negative log likelihood loss)。
训练过程需要在验证集上对网络的超参进行调试,如学习率等超参数。 经过若干次训练后,在验证集上得到达到停止条件则停止训练。最后保存训 练好的模型文件。
如图6所示,本实施例中筛选模块4包括:
第一剔除单元41,用于对所述历史订单特征进行覆盖率计算与相关性分 析,剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征,以得 到历史订单第一特征;
本实施例中,覆盖率计算是字段中非空值的记录数除以总的记录数,比 如,总记录数100万,其中某字段a只有10万条记录有值,其他90万条记 录为空值,则,该字段a(即特征)的覆盖率为10/100*100%=10%。
第二剔除单元42,用于将所述历史订单第一特征输入至XGBoost模型 进行训练,以剔除不相关特征。
本实施例中根据特征重要性进行降序排序,逐步剔除重要性最低的特征, 再重新训练XGBoost模型,直到模型在测试集上的表现有所下降时,则停止 特征筛选。
如图7所示,本实施例中第一获取模块1包括:
第一获取单元11,用于获取多个历史订单;
第二获取单元12,用于基于所述多个历史订单,获取每一个历史订单的 特征维度表,所述历史订单维度表包括用户维度特征表、订单维度特征表、 产品维度特征表、上下文维度特征表;
数据处理单元13,用于根据所述每一个历史订单的特征维度表获取每一 张特征维度表的数据,并将所述数据进行离散化、归一化、缺失值补充的处 理,将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表;
第三获取单元14,用于获取每一个历史订单的高维度特征宽表中的数 据,以得到多个历史订单数据。
本实施例中,维度特征表组合成高维度特征宽表的过程是将各维度数据 表的各个字段进行组合,得到高维度特征宽表。比如:A表有a|b|c三个字 段,B表有d|e|f|g四个字段,那么组合后的宽表C有a|b|c|d|e|f|g七个字段。
本实施例公开的订单识别模型生成系统,通过使用历史订单作为节点、 使用订单多维度的特征构建节点特征、使用用户ID和/或产品ID对节点进 行关联,构建了订单图结构。该图结构能充分挖掘不同订单之间的关系,从 而能有效弥补旅游产品低频次购买而导致特征稀疏的问题。同时图结构实现 基于聚类和社区发现的半监督学习方法,从而能有效解决刷单识别模型训练 数据不足和正负样本极端不平衡的问题。
实施例4
如图8所示,本实施例提供了一种订单识别系统,包括:
数据获取模块6,用于获取多个订单的目标数据;
输入模块7,用于将所述订单的目标数据输入至前述订单识别模型中预 测订单异常概率;
所述订单识别模型使用前述的订单识别模型的生成系统生成。
本实施例公开了订单识别系统,通过获取多个订单的目标数据;将所述 订单的目标数据输入至前述的订单识别模型中预测订单异常概率。本实施能 够预测订单异常概率,从而实现订单正常或异常的识别,克服了订单识别误 判的问题。
实施例5
图9为本发明实施例5提供的一种电子设备的结构示意图。所述电子设 备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序, 所述处理器执行所述程序时实现实施例1所提供的订单识别模型生成方法或 实施例2所提供的订单识别方法。图9显示的电子设备30仅仅是一个示例, 不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备30可以以通用计算设备的形式表现,例如其可 以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处 理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处 理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/ 或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工 具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用 程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能 包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功 能应用以及数据处理,例如本发明实施例1所提供的订单识别模型生成方法 或实施例2所提供的订单识别方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设 备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广 域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通 过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示 出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限 于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵 列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子 单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发 明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单 元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一 步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所 述程序被处理器执行时实现实施例1所提供的订单识别模型生成方法或实施 例2所提供的订单识别方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、 硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器 件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包 括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所 述终端设备执行实现实施例1所提供的订单识别模型生成方法或实施例2所 提供的订单识别方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发 明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户 设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设 备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理 解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领 域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式 做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (10)
1.一种订单识别模型生成方法,其特征在于,包括:
获取多个历史订单数据;
基于所述多个历史订单数据获取历史订单特征,所述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维度特征;
将所述多个历史订单数据用图结构进行关联,得到一个以订单为图节点以用户ID和/或产品ID为边的图;
对所述历史订单特征进行特征处理与筛选,以剔除不相关特征,并将筛选后的订单特征加入对应的图节点中,从而得到GCN图结构网络;
将所述历史订单数据输入至GCN模型中进行训练,以得到订单识别模型,所述订单识别模型用于预测订单异常的概率。
2.如权利要求1所述的订单识别模型生成方法,其特征在于,所述对所述历史订单特征进行特征处理与筛选的步骤包括:
对所述历史订单特征进行覆盖率计算与相关性分析,剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征,以得到历史订单第一特征;
将所述历史订单第一特征输入至XGBoost模型进行训练,以剔除不相关特征。
3.如权利要求1所述的订单识别模型生成方法,其特征在于,所述获取多个历史订单数据的步骤包括:
获取多个历史订单;
基于所述多个历史订单,获取每一个历史订单的特征维度表,历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维度特征表;
根据所述每一个历史订单的特征维度表获取每一张特征维度表的数据,并将所述数据进行离散化、归一化、缺失值补充的处理,将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表;
获取每一个历史订单的高维度特征宽表中的数据,以得到多个历史订单数据。
4.一种订单识别方法,其特征在于,包括:
获取待识别订单的目标数据;
将所述订单的目标数据输入至所述订单识别模型中预测订单异常概率;
所述订单识别模型使用如权利要求1至3任一项所述的订单识别模型的生成方法生成。
5.一种订单识别模型生成系统,其特征在于,包括:
第一获取模块,用于获取多个历史订单数据;
第二获取模块,用于基于所述多个历史订单数据获取历史订单特征,所述订单特征包括用户维度特征、订单维度特征、产品维度特征、上下文维度特征;
关联模块,用于将所述多个历史订单数据用图结构进行关联,得到一个以订单为图节点以用户ID和/或产品ID为边的图;
筛选模块,用于对所述历史订单特征进行特征处理与筛选,以剔除不相关特征,并将筛选后的订单特征加入对应的图节点中,从而得到GCN图结构网络;
训练模块,用于将所述历史订单数据输入至GCN模型中进行训练,以得到订单识别模型,所述订单识别模型用于预测订单异常的概率。
6.如权利要求5所述的订单识别模型生成系统,其特征在于,所述筛选模块包括:
第一剔除单元,用于对所述历史订单特征进行覆盖率计算与相关性分析,剔除覆盖率低于一定阈值的订单特征和维度特征重复的订单特征,以得到历史订单第一特征;
第二剔除单元,用于将所述历史订单第一特征输入至XGBoost模型进行训练,以剔除不相关特征。
7.如权利要求5所述的订单识别模型生成系统,其特征在于,所述第一获取模块包括:
第一获取单元,用于获取多个历史订单;
第二获取单元,用于基于所述多个历史订单,获取每一个历史订单的特征维度表,历史订单维度表包括用户维度特征表、订单维度特征表、产品维度特征表、上下文维度特征表;
数据处理单元,用于根据所述每一个历史订单的特征维度表获取每一张特征维度表的数据,并将所述数据进行离散化、归一化、缺失值补充的处理,将处理后的数据进行并行组合成每一个历史订单的一张高维度特征宽表;
第三获取单元,用于获取每一个历史订单的高维度特征宽表中的数据,以得到多个历史订单数据。
8.一种订单识别系统,其特征在于,包括:
数据获取模块,用于获取待识别订单的目标数据;
输入模块,用于将所述订单的目标数据输入至所述订单识别模型中预测订单异常概率;
所述订单识别模型使用如权利要求5至7任一项所述的订单识别模型的生成系统生成。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的订单识别模型生成方法或如权利要求4所述的订单识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的订单识别模型生成方法或如权利要求4所述的订单识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010186074.4A CN111461815B (zh) | 2020-03-17 | 2020-03-17 | 订单识别模型生成方法、识别方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010186074.4A CN111461815B (zh) | 2020-03-17 | 2020-03-17 | 订单识别模型生成方法、识别方法、系统、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461815A true CN111461815A (zh) | 2020-07-28 |
CN111461815B CN111461815B (zh) | 2023-04-28 |
Family
ID=71680867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010186074.4A Active CN111461815B (zh) | 2020-03-17 | 2020-03-17 | 订单识别模型生成方法、识别方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461815B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723970A (zh) * | 2021-08-25 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 订单列表推送方法、装置、存储介质和计算机设备 |
CN113781156A (zh) * | 2021-05-13 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 恶意订单的识别方法、模型的训练方法、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351109A1 (en) * | 2013-05-22 | 2014-11-27 | Light In The Box Limited | Method and apparatus for automatically identifying a fraudulent order |
WO2018040944A1 (zh) * | 2016-08-31 | 2018-03-08 | 阿里巴巴集团控股有限公司 | 恶意地址/恶意订单的识别系统、方法及装置 |
CN108564326A (zh) * | 2018-04-19 | 2018-09-21 | 安吉汽车物流股份有限公司 | 订单的预测方法及装置、计算机可读介质、物流系统 |
CN108564423A (zh) * | 2017-12-28 | 2018-09-21 | 携程旅游网络技术(上海)有限公司 | 票务订单的恶意占位识别方法、系统、设备和存储介质 |
US20180300625A1 (en) * | 2017-04-17 | 2018-10-18 | Splunk Inc. | Neural networks for detecting fraud based on user behavior biometrics |
CN109509048A (zh) * | 2017-09-15 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 恶意订单识别方法、装置、电子设备及存储介质 |
CN110335115A (zh) * | 2019-07-01 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种业务订单处理方法及装置 |
CN110659723A (zh) * | 2019-09-03 | 2020-01-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的数据处理方法、装置、介质及电子设备 |
CN110874778A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 异常订单检测方法及装置 |
-
2020
- 2020-03-17 CN CN202010186074.4A patent/CN111461815B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140351109A1 (en) * | 2013-05-22 | 2014-11-27 | Light In The Box Limited | Method and apparatus for automatically identifying a fraudulent order |
WO2018040944A1 (zh) * | 2016-08-31 | 2018-03-08 | 阿里巴巴集团控股有限公司 | 恶意地址/恶意订单的识别系统、方法及装置 |
CN107798571A (zh) * | 2016-08-31 | 2018-03-13 | 阿里巴巴集团控股有限公司 | 恶意地址/恶意订单的识别系统、方法及装置 |
US20180300625A1 (en) * | 2017-04-17 | 2018-10-18 | Splunk Inc. | Neural networks for detecting fraud based on user behavior biometrics |
CN109509048A (zh) * | 2017-09-15 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 恶意订单识别方法、装置、电子设备及存储介质 |
CN108564423A (zh) * | 2017-12-28 | 2018-09-21 | 携程旅游网络技术(上海)有限公司 | 票务订单的恶意占位识别方法、系统、设备和存储介质 |
CN108564326A (zh) * | 2018-04-19 | 2018-09-21 | 安吉汽车物流股份有限公司 | 订单的预测方法及装置、计算机可读介质、物流系统 |
CN110874778A (zh) * | 2018-08-31 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 异常订单检测方法及装置 |
CN110335115A (zh) * | 2019-07-01 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种业务订单处理方法及装置 |
CN110659723A (zh) * | 2019-09-03 | 2020-01-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的数据处理方法、装置、介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
温粉莲;: "一种混合模型的时序数据异常检测方法" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781156A (zh) * | 2021-05-13 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 恶意订单的识别方法、模型的训练方法、设备及存储介质 |
CN113723970A (zh) * | 2021-08-25 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 订单列表推送方法、装置、存储介质和计算机设备 |
CN113723970B (zh) * | 2021-08-25 | 2024-02-02 | 深圳依时货拉拉科技有限公司 | 订单列表推送方法、装置、存储介质和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111461815B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6771751B2 (ja) | リスク評価方法およびシステム | |
US10460320B1 (en) | Fraud detection in heterogeneous information networks | |
CN107341716B (zh) | 一种恶意订单识别的方法、装置及电子设备 | |
Hu | A multivariate grey prediction model with grey relational analysis for bankruptcy prediction problems | |
Xiao et al. | Feature-selection-based dynamic transfer ensemble model for customer churn prediction | |
CN113420190A (zh) | 一种商户风险识别方法、装置、设备及存储介质 | |
CN110147911B (zh) | 一种基于内容感知的社交影响力预测模型及预测方法 | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN107818491A (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
Rajamohana et al. | An effective hybrid cuckoo search with harmony search for review spam detection | |
CN113177700B (zh) | 一种风险评估方法、系统、电子设备及存储介质 | |
CN111461815A (zh) | 订单识别模型生成方法、识别方法、系统、设备和介质 | |
Mezei et al. | Credit risk evaluation in peer-to-peer lending with linguistic data transformation and supervised learning | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN113609345A (zh) | 目标对象关联方法和装置、计算设备以及存储介质 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN113435900A (zh) | 交易风险确定方法、装置和服务器 | |
CN113360788A (zh) | 一种地址推荐方法、装置、设备及存储介质 | |
Xue et al. | Deeper vs wider: A revisit of transformer configuration | |
CN108920492B (zh) | 一种网页分类方法、系统、终端及存储介质 | |
CN115659277A (zh) | 一种基于多行为特征融合的电商会话推荐方法、系统、装置及介质 | |
Soni et al. | A novel optimized classifier for the loan repayment capability prediction system | |
Lagerström et al. | Automatic design of secure enterprise architecture: Work in progress paper | |
Cheng et al. | BHONEM: Binary high-order network embedding methods for networked-guarantee loans | |
Onan et al. | A Design and Application of Android Mobile Based Smart Business Accounting Software |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |