CN113781156B - 恶意订单的识别方法、模型的训练方法、设备及存储介质 - Google Patents
恶意订单的识别方法、模型的训练方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113781156B CN113781156B CN202110520660.2A CN202110520660A CN113781156B CN 113781156 B CN113781156 B CN 113781156B CN 202110520660 A CN202110520660 A CN 202110520660A CN 113781156 B CN113781156 B CN 113781156B
- Authority
- CN
- China
- Prior art keywords
- orders
- identified
- order
- grouping
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012549 training Methods 0.000 title claims abstract description 46
- 238000002372 labelling Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
- G06Q30/0637—Approvals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供了一种恶意订单的识别方法、模型的训练方法、设备及存储介质,在该方法中,获取多个待识别订单;根据预设的不同维度对多个待识别订单进行分组,得到多个待识别订单在不同维度的分组结果,分组结果包括相同维度下同一来源的至少一个待识别订单;将多个待识别订单在不同维度的分组结果输入识别模型,得到每个待识别订单是否为恶意订单的识别结果;识别模型为用于识别每个待识别订单是否为恶意订单的模型。通过根据预设的不同维度对多个待识别订单进行分组,从而综合多个待识别订单在不同维度的分组结果来判别每个待识别订单是否为恶意订单,能够提高恶意订单识别的成功率。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种恶意订单的识别方法、模型的训练方法、设备及存储介质。
背景技术
随着互联网以及计算机技术的发展,零售行业已演变为互联共享的生态,网络线上购物成为主流购物方式之一。然而,随着电商行业竞争愈发激烈,经常会出现恶意订单。例如,一些商家或用户在较短时间内对竞争商家的店铺下单购买大量物品,之后再退货以侵占竞争商家的库存,对商家造成经济损失以及浪费大量人力物力等资源。因此,识别恶意订单对于商家和购物平台都是极其重要的。
目前,常见的恶意订单的识别方法主要是通过分析订单对应的账户在设备或IP上的聚集度来确定该账户是否为恶意账户,进而通过现有订单和历史订单的相似度确定订单是否为恶意订单。或者,通过监测同一IP地址在一段时间内的订单数量,并分析订单在时间上的聚集性来确定是否为恶意订单。或者,通过分析用户的历史下单行为在时间上的差异性,判断该用户是否为恶意用户,之后利用订单信息进行相似度评价来对当前订单进行判定。或者,通过分析订单地址是否为有效地址,判定该订单是否为恶意订单。
然而,现有技术中对于恶意订单的识别准确度低,导致恶意订单的识别成功率低。
发明内容
本申请提供一种恶意订单的识别方法、模型的训练方法、设备及存储介质,用以解决现有技术中恶意订单的识别准确度低,导致恶意订单的识别成功率低的问题。
第一方面,本申请实施例提供一种恶意订单的识别方法,包括:获取多个待识别订单;根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个订单;将所述多个待识别订单在不同维度的分组结果输入识别模型,得到所述多个待识别订单是否为恶意订单的识别结果;其中,所述识别模型为用于识别所述多个待识别订单中每个订单是否为恶意订单的模型。
第二方面,本申请提供一种模型的训练方法,包括:获取多个样本订单;根据预设的不同维度对所述多个样本订单进行分组,得到所述多个样本订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个样本订单;根据所述多个样本订单在不同维度的分组结果进行训练,得到所述第一识别模型。
第三方面,本申请实施例提供一种恶意订单的识别装置,包括:第一获取模块,用于获取多个待识别订单;第一分组模块,用于根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个待识别订单;确定模块,用于将所述多个待识别订单在不同维度的分组结果输入识别模型,得到所述多个待识别订单是否为恶意订单的识别结果;其中,所述识别模型为用于识别所述多个待识别订单中每个订单是否为恶意订单的模型。
第四方面,本申请实施例提供一种模型的训练装置,包括:第二获取模块,用于获取多个样本订单;第二分组模块,用于根据预设的不同维度对所述多个样本订单进行分组,得到所述多个样本订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个样本订单;训练模块,用于根据所述多个样本订单在不同维度的分组结果进行训练,得到所述第一识别模型。
第五方面,本申请提供一种计算机设备,包括:处理器、存储器及收发器;所述存储器存储计算机执行指令;所述处理器执行所述计算机程序指令时实现第一方面方法,和/或第二方面的方法。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令被处理器执行时用于实现第一方面的方法,和/或第二方面的方法。
第七方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面的方法,和/或第二方面的方法。
本申请实施例提供了一种恶意订单的识别方法、模型的训练方法、设备及存储介质,在该方法中,通过获取多个待识别订单;根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个待识别订单;将所述多个待识别订单在不同维度的分组结果输入识别模型,得到多个待识别订单中每个待识别订单是否为恶意订单的识别结果;其中,所述识别模型为用于识别所述多个待识别订单中每个待识别订单是否为恶意订单的模型。该方案中,通过根据预设的不同维度对多个待识别订单进行分组,得到多个待识别订单在不同维度的分组结果,从而综合多个待识别订单在不同维度的分组结果来判别每个待识别订单是否为恶意订单,能够提高恶意订单识别的成功率,以及扩大恶意订单识别的范围,实现对新用户或正常用户的恶意订单的判别;以及识别正常地址的恶意订单。
附图说明
图1为本申请实施例提供的恶意订单识别系统的架构图;
图2为本申请实施例的恶意订单的识别方法实施例一的流程图;
图3为本申请实施例的恶意订单的识别方法实施例二的流程图;
图4为本申请实施例的订单分组的示意图;
图5为本申请实施例的恶意订单的识别方法的原理示意图;
图6为本申请实施例的恶意订单的识别方法实施例三的流程图;
图7为本申请实施例的恶意订单的识别方法的原理示意图;
图8为本申请实施例提供的恶意订单的识别方法实施例四的流程图;
图9为本申请实施例提供的恶意订单的识别方法的原理示意图;
图10为本申请实施例提供的模型的训练方法的流程图;
图11为本申请实施例的分割过程的示意图;
图12为本申请实施例的恶意订单的识别装置的结构示意图;
图13为本申请实施例的模型的训练装置的结构示意图;
图14为本申请实施例的计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的恶意订单识别系统的架构图。如图1所示,该系统包括:至少一个终端设备11、服务器12;其中,终端设备11包括智能手机、电脑、IPAD、可穿戴设备等。服务器12可以是单台服务器,也可以是服务器集群,该服务器集群包括多台服务器,还可以是云计算服务中心。终端设备11和服务器12通过有线网络或无线网络连接。其中,服务器上设置有订单系统。
在电商场景中,用户可以通过终端设备11在线下单,并生成相应的订单。该订单会发送至电商平台对应的服务器中的订单系统,服务器可以对该订单进行分析,以判别该订单是否为恶意订单。
在相关技术中,主要通过以下方式判别订单是否为恶意订单:
在一种方式中,通过分析订单对应的账户在设备或IP上的聚集度来确定该账户是否是恶意账户,进而通过现有订单和其历史订单的相似度来确定订单是否为恶意订单。
在另一种方式中,通过监测同一IP地址在一段时间内的订单数量,并分析订单在时间上的聚集性来确定是否为恶意订单。
在又一种方式中,通过分析用户的历史下单行为在时间上的差异性,判断该用户是否为恶意用户,之后利用订单信息进行相似度评价来对当前订单进行判定。
在再一种方式中,通过分析订单地址是否为有效地址,判定该订单是否为恶意订单。
发明人发现,若将每个待识别订单视作一个数据点,每个数据点对应多个不同维度的特征,则在多个待识别订单构成的数据空间中,正常订单通常表现出很大的聚集性,并且正常订单和恶意订单有较大区分。因此,本实施例通过获取多个待识别订单,并对多个待识别订单进行分析,从而判别每个待识别订单是否为恶意订单。而一个订单包括多维度的特征,多维度的特征往往更能够准确表达该订单,因而,本申请通过综合多个不同的维度对恶意订单进行判别,从而提高恶意订单的识别成功率。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本申请实施例的恶意订单的识别方法实施例一的流程图。如图2所示,该恶意订单的识别方法可以包括如下步骤:
步骤S201、获取多个待识别订单。
本实施例方法的执行主体可以是如图1所示的服务器。
在一些场景中,用户在终端设备上下单,终端设备生成订单后,将订单发送至服务器,该订单对应有店铺信息、IP地址、设备信息、订单信息等订单数据。服务器可以从图1所示的终端设备获取在终端设备上生成的订单和该订单对应的订单数据。
其中,待识别订单可以是服务器从订单系统获取的预设时间段内的订单。
具体的,获取多个待识别订单,包括:获取订单系统在预设时间段的多个订单,作为多个待识别订单。
可选的,预设时间段可以是2小时。举例来说,假设接收到的一张订单的下单时间为2021年3月2日14:00,则可以获取2021年3月2日12:00至2021年3月2日14:00之间该店铺的所有订单,作为多个待识别订单。
需要说明的是,预设时间段不限定为2小时,本领域技术人员可以根据实际需求进行设置。
步骤S202、根据预设的不同维度对多个待识别订单进行分组,得到多个待识别订单在不同维度的分组结果,其中,分组结果包括相同维度下同一来源的至少一个待识别订单。
本实施例中,预设的不同维度包括店铺信息、设备信息、IP地址、订单信息、用户信息中至少一项。
其中,设备信息是指下单时所使用的终端设备的设备信息,可以是设备ID(Identity document)。若用于下单的设备是智能手机,则设备ID可以是手机的通用唯一识别码(Universally Unique Identifier,UUID)。
IP地址是指下单时所使用的终端设备的互联网协议(简称:IP)地址。
订单信息包括:收货人地址、收货人姓名、收货人联系方式等。
店铺信息可以是店铺编号、店铺名称等信息。
用户信息可以是用户账号、用户昵称等能够表征用户唯一身份的信息。
具体的,本步骤是针对每个维度,将该维度下同一来源的订单划分为一组,并统计每个分组中待识别订单的数量、订单总金额、物品数量。
其中,每个维度包括至少一个来源。以店铺维度为例,在店铺维度下的同一来源是指相同的店铺信息。
以其中一个维度是设备信息为例,若多个待识别订单包括100个订单,该100个订单对应的设备信息包括设备1、设备2和设备3,且设备1对应的订单数量为10,设备2对应的订单数量为40,设备3对应的订单数量为50,则多个待识别订单在设备信息维度的分组结果包括:设备1对应的10个待识别订单,设备2对应的40个待识别订单,设备3对应的50个待识别订单。
根据店铺信息、IP地址、订单信息、用户信息等维度分别对多个待识别订单进行分组,与设备信息类似,具体可参见关于设备信息的实施方式介绍,此处不再一一举例说明。
步骤S203、将多个待识别订单在不同维度的分组结果输入识别模型,得到多个待识别订单中每个待识别订单是否为恶意订单的识别结果。
其中,识别模型为用于识别多个待识别订单中每个订单是否为恶意订单的模型。
本实施例中,该识别模型可以是通过有监督学习方式,或者无监督学习方式训练得到的模型。
在一种实施方式中,识别结果可以为异常评分,即识别模型对每个待识别订单输出评分,用于表示每个待识别订单属于恶意订单的概率大小。本实施例也可以设置一评分阈值,当异常评分大于或等于该评分阈值,则判定待识别订单属于恶意订单;当异常评分小于该评分阈值时,确定待识别订单不属于恶意订单。
具体的,异常评分可以根据识别模型输出的概率确定,即异常评分和概率之间具有对应关系,该对应关系可以是比例关系,具体的比值大小可以根据实际需求设定。例如,概率取值为0~1之间,而评分区间设定为0~10分,则该比值可以是10。
其中,将多个待识别订单在不同维度的分组结果输入识别模型,得到多个待识别订单中每个待识别订单是否为恶意订单的识别结果,包括:
步骤a1、将多个待识别订单在不同维度的分组结果输入识别模型,得到多个待识别订单中每个待识别订单属于恶意订单的概率。
步骤a2、根据每个待识别订单属于恶意订单的概率,确定该待识别订单是否为恶意订单。
其中,根据多个待识别订单中待识别订单属于恶意订单的概率,确定待识别订单是否为恶意订单,包括:
若待识别订单属于恶意订单的概率大于或等于预设的概率阈值,则将待识别订单识别为恶意订单;
若待识别订单属于恶意订单的概率小于预设的概率阈值,则将待识别订单识别为正常订单。
其中,预设的概率阈值可以根据获取的多个样本订单中恶意订单的占比确定。例如,100个样本订单中,恶意订单占比为30%,则概率阈值可以确定为0.3。
可选的,本实施例可以是将统计得到的每个分组中待识别订单的数量、订单总金额、物品数量输入识别模型,通过识别模型根据统计得到的每个分组中待识别订单的数量、订单总金额、物品数量进行恶意订单的识别。或者直接将多个待识别订单在不同维度的分组结果输入识别模型,通过识别模型对每个分组中待识别订单的数量、订单总金额、物品数量进行统计,并进行恶意订单的识别。
本申请实施例提供了一种恶意订单的识别方法,通过获取多个待识别订单;根据预设的不同维度对多个待识别订单进行分组,得到多个待识别订单在不同维度的分组结果;该分组结果包括相同维度下同一来源的至少一个待识别订单;将多个待识别订单在不同维度的分组结果输入识别模型,得到多个待识别订单中每个待识别订单是否为恶意订单的识别结果;其中,识别模型为至少根据样本订单进行训练,得到的用于识别多个待识别订单中每个待识别订单是否为恶意订单的模型。该方案中,通过根据预设的不同维度对多个待识别订单进行分组,得到多个待识别订单在不同维度的分组结果,从而综合多个待识别订单在不同维度的分组结果来判别每个待识别订单是否为恶意订单,能够提高恶意订单识别的成功率,以及扩大恶意订单识别的范围,实现对新用户或正常用户的恶意订单的判别,以及识别正常地址的恶意订单。
在图2的基础上,图3为本申请实施例提供的恶意订单的识别方法实施例二的流程图。图4为本申请实施例提供的分组的示意图。下面以图4结合图3,对本申请实施例提供的恶意订单的识别方法进行详细说明。如图3所示,上述步骤S202可以包括如下步骤:
步骤S301、确定预设的不同维度中的其中一个维度为第一维度,其余维度为第二维度。
本实施例中,以预设的不同维度包括店铺信息、设备信息、IP地址、订单信息和用户信息为例,若将店铺信息确定为第一维度,则设备信息、IP地址、订单信息和用户信息均为第二维度。
其中,可以是在预设的不同维度中随机选择一个维度作为第一维度,将其余维度作为第二维度。
步骤S302、根据第一维度对多个待识别订单进行分组,得到至少一个第一分组结果;每个第一分组结果对应第一维度中的一个来源。
具体的,根据第一维度对多个待识别订单进行分组,得到至少一个第一分组结果,包括:将多个待识别订单中属于第一维度下相同来源的订单划分为一组,得到至少一个第一分组结果。
如图4所示,以第一维度是店铺信息为例,步骤S302是将相同店铺信息的待识别订单划分为一组,得到第一分组结果,如图中示出的n个店铺维度的分组结果,即店铺维度的分组结果1至店铺维度的分组结果n。举例来说,若多个待识别订单包括100个订单;其中,30个订单来自店铺1,其余70个订单来自店铺2,则将该30个订单划分为一组,将该70个订单划分为一组,得到两个第一分组结果。
步骤S303、根据第二维度对每个第一分组结果中的待识别订单进行分组,得到多个待识别订单在第一维度的分组结果。
具体的,根据第二维度对每个第一分组结果中的待识别订单进行分组,得到多个待识别订单在第一维度的分组结果,包括:针对每个第一分组结果,将属于第二维度下相同来源的待识别订单划分为一组,得到多个待识别订单在第一维度的分组结果。
继续以预设的不同维度包括店铺信息、设备信息、IP地址、订单信息和用户信息为例。如图4所示,步骤S303是在第一分组结果的基础上,分别从其他4个维度,例如IP维度、设备信息维度、用户信息维度和订单信息维度继续分组,得到第二分组结果,第二分组结果包括:店铺-IP维度的分组结果,店铺-设备信息维度的分组结果、店铺-用户信息维度的分组结果、店铺-订单信息维度的分组结果。
以第一维度是店铺信息,第二维度是设备信息为例,步骤S302以店铺信息进行分组,得到两个第一分组结果,以下称为分组1和分组2,分组1对应店铺1,分组2对应店铺2;则步骤S303是对分组1中的待识别订单,从设备信息的维度继续进行分组,以及对分组2,从设备信息的维度继续进行分组。具体的,是将相同设备信息的待识别订单划分为一组。若分组1的30个待识别订单中,10个待识别订单对应设备信息1,20个待识别订单对应设备信息2,且分组2的70个待识别订单对应设备信息1、设备信息3和设备信息5,则在店铺维度下,可以得到5个分组结果。
步骤S304、重复上述步骤S301-S303,直至预设的不同维度中的每个维度均确定为第一维度,得到多个待识别订单在不同维度的分组结果。
本实施例中,若预设的不同维度包括N个维度,则本实施例是迭代执行N次步骤S301至S303。
仍然以预设的不同维度包括店铺信息、设备信息、IP地址、订单信息和用户信息为例,则N取值为5。本实施例在第一轮迭代过程中,是将店铺信息作为第一维度,设备信息、IP地址、订单信息和用户信息作为第二维度;在第二轮迭代过程中,将设备信息作为第一维度,店铺信息、IP地址、订单信息和用户信息作为第二维度;在第三轮迭代过程中,将IP地址作为第一维度,设备信息、店铺信息、订单信息和用户信息作为第二维度;在第四轮迭代过程中,将订单信息作为第一维度,设备信息、店铺信息、IP地址和用户信息作为第二维度;在第五轮迭代过程中,将用户信息作为第一维度,设备信息、店铺信息、订单信息和IP地址作为第二维度。
值得注意的是,上述迭代顺序为示例性说明,并不对本申请的迭代顺序进行限制。在迭代过程中,预设的不同维度中每个维度都可以作为一次第一维度。
在一种可能的实现方式中,识别模型包括第一识别模型,相应的,上述步骤S203包括:将多个待识别订单在不同维度的分组结果输入第一识别模型中,得到多个待识别订单中每个订单是否为恶意订单的识别结果;其中,第一识别模型为根据多个样本订单在不同维度的分组结果进行训练得到的,用于识别多个待识别订单中每个待识别订单是否为恶意订单的模型。
图5为本申请实施例提供的恶意订单的识别方法的原理示意图。下面结合图5,对本申请实施例提供的恶意订单的识别方法进行详细说明。如图5所示,假设对多个待识别订单,首先从店铺维度进行分组,得到n个分组结果;再在每个分组结果的基础上,分别从IP地址、设备信息、订单信息、用户信息等不同维度进行分组,得到多个待识别订单在IP地址、设备信息、订单信息和用户信息等不同维度的分组结果,并输入第一识别模型,第一识别模型就会输出多个待识别订单中每个待识别订单是否为恶意订单的识别结果。
可选的,本实施例还可以是将统计得到的每个分组中待识别订单的数量、订单总金额、物品数量输入第一识别模型,通过第一识别模型根据统计得到的每个分组中待识别订单的数量、订单总金额、物品数量进行恶意订单的识别。或者直接将多个待识别订单在不同维度的分组结果输入第一识别模型,通过第一识别模型对每个分组中待识别订单的数量、订单总金额、物品数量进行统计,并进行恶意订单的识别。
在图2的基础上,图6为本申请实施例提供的恶意订单的识别方法实施例三的流程图。图7为本申请实施例提供的恶意订单的识别方法的原理示意图。下面以图7结合图6,对本申请实施例提供的恶意订单的识别方法进行详细说明。如图6所示,步骤S203还可以包括如下步骤:
S601、将多个待识别订单在每个维度的分组结果分别输入至少两个不同的第二识别模型中,得到每个订单在每个维度的至少两个概率。
本实施例中至少两个第二识别模型可以是不同结构和/或不同网络参数的模型。其中,至少两个不同的第二识别模型分别是根据多个样本订单在不同维度的分组结果和标注数据进行训练得到的,用于识别多个待识别订单中每个订单是否属于恶意订单,标注数据用于标注样本订单是否为恶意订单。
其中,第二识别模型可以是通过有监督学习算法进行训练得到的。即第二识别模型是通过有标注数据的样本订单进行训练得到的。有监督学习算法可以选取梯度提升树(Gradient Boosting Decision Tree,GBDT)算法。不同的第二识别模型可以是采用不同的有监督学习算法进行训练得到的。
在本实施例中,一个维度对应至少两个第二识别模型,如此,针对每个维度,可以对应有至少两个识别结果,根据至少两个识别结果共同确定一个订单的异常评分,能够提高每个订单的识别准确度。
可选的,本实施例还可以是将统计得到的每个分组中待识别订单的数量、订单总金额、物品数量输入第二识别模型,通过第二识别模型根据统计得到的每个分组中待识别订单的数量、订单总金额、物品数量进行恶意订单的识别。或者直接将多个待识别订单在不同维度的分组结果输入第二识别模型,通过第二识别模型对每个分组中待识别订单的数量、订单总金额、物品数量进行统计,并进行恶意订单的识别。
需要说明的是,采用有监督学习算法对有标注数据的样本订单进行训练的具体过程可以参见相关技术介绍,此处不再赘述。
S602、根据至少两个概率,确定每个订单在每个维度的概率。
在一种可选的实施方式中,可以是将至少两个概率进行加权求和,得到多个待识别订单中每个订单在每个维度的概率。
在该实施方式中,每个第二识别模型分别对应一个权重值,每个模型输出的概率和对应的权重值进行加权求和,最终作为每个订单在单一维度的概率。
在另一种可选的实施方式中,还可以是将至少两个概率中的最大概率确定为多个待识别订单中每个订单在每个维度的概率。
S603、将每个订单在各个维度的概率进行加权求和,得到每个待识别订单的识别结果。
其中,每个订单为恶意订单的概率可以表示为如下公式:
式(2)中,N表示所有维度的总数量,i表示其中一个维度,Pi表示多个待识别订单中每个订单在第i个维度的概率,ωi表示第i个维度对应的权重。其中,权重值与对应的维度的重要程度正相关,即某一维度对于恶意订单识别的重要程度越高,则权重值越高,反之亦然。
如图7所示,对多个待识别订单按照店铺信息进行分组,得到n个第一分组结果;再针对每个第一分组结果,分别从IP地址、设备信息、订单信息和用户信息等维度进行分组,得到多个第二分组结果,其中,多个第二分组结果包括:店铺-IP地址维度的分组结果,店铺-设备信息维度的分组结果,店铺-订单信息维度的分组结果,店铺-用户信息维度的分组结果;以店铺-IP地址维度的分组结果为例,将店铺-IP地址维度的分组结果输入第二识别模型11和第二识别模型12中,得到概率11和概率12;再根据概率11和概率12加权求和,得到每个订单在店铺-IP地址维度的概率,店铺-设备信息维度的概率,店铺-订单信息维度的概率,店铺-用户信息维度的概率;再将每个订单在店铺-IP地址维度的概率,店铺-设备信息维度的概率,店铺-订单信息维度的概率,店铺-用户信息维度的概率进行加权求和,得到每个订单的概率;根据该订单的概率确定该订单的识别结果,即该订单是否为恶意订单。
值得注意的是,图7中店铺信息维度的分组结果1和店铺信息维度的分组结果n可以共用相同的第二识别模型,图中为了方便说明,因此对店铺信息维度的分组结果1和店铺信息维度的分组结果n分别示出了两组第二识别模型,每一组第二识别模型包括第二识别模型11、第二识别模型12、第二识别模型21、第二识别模型22、第二识别模型31、第二识别模型32、第二识别模型41、第二识别模型42。
在图2的基础上,图8为本申请实施例提供的恶意订单的识别方法实施例四的流程图。图9为本申请实施例提供的恶意订单的识别方法的原理示意图。下面以图9结合图8,对本申请实施例提供的恶意订单的识别方法进行详细说明。如图8所示,上述步骤S203可以包括如下步骤:
S801、将多个待识别订单在不同维度的分组结果输入对应的第三识别模型中,得到每个待识别订单在不同维度的子概率;其中,每个维度的分组结果对应一个第三识别模型。
可选的,本实施例还可以是将统计得到的每个分组中待识别订单的数量、订单总金额、物品数量输入第三识别模型,通过第三识别模型根据统计得到的每个分组中待识别订单的数量、订单总金额、物品数量进行恶意订单的识别。或者直接将多个待识别订单在不同维度的分组结果输入第三识别模型,通过第三识别模型对每个分组中待识别订单的数量、订单总金额、物品数量进行统计,并进行恶意订单的识别。
其中,第三识别模型是根据多个样本订单在不同维度的分组结果和标注数据进行训练得到的,用于识别每个待识别订单是否属于恶意订单,标注数据用于标注样本订单是否为恶意订单。
其中,第三识别模型可以是通过有监督学习算法进行训练得到的。即第三识别模型是通过有标注数据的样本订单进行训练得到的。有监督学习算法可以选取梯度提升树(Gradient Boosting Decision Tree,GBDT)算法。
本实施例中的第三识别模型可以是相同结构和相同网络参数的模型。
S802、将每个待识别订单在不同维度的子概率进行加权求和,得到所述多个待识别订单中每个待识别订单的识别结果。
其中,步骤S802的具体实施过程与步骤S603的具体实施过程类似,具体可以参见步骤S603的介绍,此处不再赘述。
如图9所示,仍然以第一维度是店铺信息,第二维度是设备信息、IP地址、用户信息和订单信息为例。对多个待识别订单按照店铺信息进行分组,得到n个第一分组结果;再针对每个第一分组结果,分别从IP地址、设备信息、订单信息和用户信息等维度进行分组,得到多个第二分组结果,其中,多个第二分组结果包括:店铺-IP地址维度的分组结果,店铺-设备信息维度的分组结果,店铺-订单信息维度的分组结果,店铺-用户信息维度的分组结果;以店铺-IP地址维度的分组结果为例,将店铺-IP地址维度的分组结果输入第三识别模型1中,得到每个订单店铺-IP地址维度的子概率;同样地,将店铺-设备信息维度的分组结果、店铺-订单信息的分组结果、店铺-用户信息的分组结果分别输入第三识别模型2、第三识别模型3、第三识别模型4中,得到每个订单在店铺-IP地址维度、店铺-设备信息维度、店铺-订单信息维度、店铺-用户信息维度对应的子概率;根据店铺-IP地址维度、店铺-设备信息维度、店铺-订单信息维度、店铺-用户信息维度对应的子概率进行加权求和,得到每个订单的概率,进而根据该概率确定该订单的识别结果,即该订单是否为恶意订单。
值得注意的是,图9中店铺信息维度的分组结果1和店铺信息维度的分组结果n可以共用相同的一组第三识别模型,图中为了方便说明,因此对店铺信息维度的分组结果1和店铺信息维度的分组结果n分别示出了两组第三识别模型,其中,第三识别模型1至第三识别模型4为一组第三识别模型。
综上,本申请的实施例中,通过增加店铺这一细粒度信息,能够减小对设备和IP的依赖性,从而减小IP地址、订单信息等维度和恶意订单相同,而造成误判的情况。另外,通过综合多个不同的维度的分组结果来判别,能够不依赖用户历史数据,实现对新用户或正常用户的恶意订单的判别;以及不依赖订单的地址信息,能够识别正常地址的恶意订单,从而提高恶意订单识别的成功率,以及扩大恶意订单识别的范围。
图10为本申请实施例提供的模型的训练方法的流程图。如图10所示,该模型的训练方法包括如下步骤:
步骤S1001、获取多个样本订单。
其中,多个样本订单对应有店铺信息、设备信息、IP地址、用户信息和订单信息中至少一项。
本实施例中,可以取电商平台在一天内的所有订单作为样本订单。值得说明的是,此处的一天为示例性说明,并不对本申请进行限定,由于用于训练的样本订单需要一定的数量,因而,本领域技术人员可以根据所需要的样本订单数量获取多个样本订单。
步骤S1002、根据预设的不同维度对多个样本订单进行分组,得到多个样本订单在不同维度的分组结果;每个分组结果包括相同维度下同一来源的至少一个样本订单。
具体的,根据预设的不同维度对多个样本订单进行分组,得到多个样本订单在不同维度的分组结果,包括:
步骤S1003、根据预设的不同维度中的其中一个维度,对多个样本订单进行分组,得到至少一个样本分组结果。
具体的,根据预设的不同维度中的其中一个维度,对多个样本订单进行分组,得到至少一个样本分组结果,包括:将多个样本订单中属于其中一个维度下相同来源的样本订单划分为一组,得到至少一个样本分组结果。
步骤S1004、根据预设的不同维度中的其余第二维度,分别对每个样本分组结果中的样本订单进行分组,得到多个样本订单在其中一个维度的分组结果。
其中,根据预设的不同维度中的其余第二维度,分别对每个样本分组结果中的样本订单进行分组,得到多个样本订单在所述其中一个维度的分组结果,包括:针对每个样本分组结果,将属于每个第二维度下相同来源的样本订单划分为一组,得到多个样本订单在不同维度的分组结果。
步骤S1005、重复上述步骤S1003和步骤S1004,直至预设的不同维度中的每个维度均确定为第一维度,得到多个样本订单在不同维度的分组结果。
若根据店铺信息对多个样本订单进行划分,得到至少一个样本订单组;则每个样本订单组对应同一店铺信息。举例来说,假设样本订单包括100个订单,则可以将相同店铺信息的样本订单划分为一组,得到一个样本订单组。
可以理解的是,上述步骤S1003是对多个样本订单进行一级分组,步骤S1004是在步骤S1003的基础上,针对每个样本分组结果中的所有样本订单,在一级分组的基础上进行二级分组。举例来说,对所有样本订单按照店铺这一维度进行分组后,再针对每个店铺内的所有样本订单,分别从设备信息、IP地址、订单信息、用户信息等不同维度进行分组。
其中,步骤S1002至步骤S1004的具体实现过程与步骤S301至S303的具体实施过程类似,可以参见前述步骤S301至S303的具体实施过程,此处不再赘述。
步骤S1006、根据多个样本订单在不同维度的分组结果进行训练,得到第一识别模型。
本实施例中,可以选取孤立森林(Isolation Forest,iForest)作为待训练模型。该待训练模型的训练过程为无监督训练,即用于训练的样本订单不需要标注,因而能够省去数据标注过程,减小工作量,提高训练效率。
其中,孤立森林的原理是从数据集中寻找出孤立的异常点,可以理解为是寻找出分布稀疏且离密度高的群体较远的数据点。在数据集的特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在该区域里的数据点是异常的。应用在本申请实施例中,其可以从多个样本订单中寻找出不同于正常订单的异常订单。
具体的,根据多个样本订单在不同维度的分组结果进行训练,得到第一识别模型,包括如下步骤:
步骤b1、将其中一个维度的分组结果表示为X={x1,x2,...xn},该维度的分组结果中样本订单的特征表示为D={d1,d2,...dn},构建孤立树。
其中,x1,x2,...xn分别表示样本订单1、样本订单2…样本订单n;d1,d2,...dn分别表示不同维度的特征,例如店铺信息、设备信息、IP地址、用户信息和订单信息;每个特征分别对应多个值,若特征d1表示设备信息维度,则特征d1对应的多个值可以理解为具体的设备信息。
步骤b2、从特征D中随机选择一个特征记为q,从特征q对应的多个值中随机选择一个值作为分割值,对其中一个维度的分组结果中的样本订单进行分割。
其中,对其中一个维度的分组结果中的样本订单进行分割,包括:将样本订单中在设备信息维度上小于分割值的样本订单划分到孤立树的左分支,大于或等于分割值的样本订单划分到孤立树的右分支。
步骤b3、在左分支和右分支中重复步骤b2,直至树达到预设高度,或者节点上只有一个样本订单,或者节点上样本的所有特征都相同。
下面结合图11对其中一个维度的分组结果中的样本订单进行分割进行介绍,示例性地,在训练阶段,孤立树的根节点包括样本订单x1,x2,x3和x4,随机选择一个特征和分割值从根节点开始分割,在经过第一次分割后,将x1,x2,x3划分到了左分支,x4划分到了右分支,由于x4对应的节点包括一个样本订单,因此不再分割右分支,接下来再随机选择一个特征和分割值对左分支继续进行分割,可以看到,第二次分割将x1划分到了左分支,x2,x3划分到了右分支,接下来随机选择一个特征和分割值再对右分支进行分割,可以看到,最终的分割结果中,每个节点包括一个样本订单;至此,分割结束。之后在预测阶段,估计每个样本订单的异常评分,具体可以通过如下公式得到:
式(1)中,Score(x)表示样本订单x的异常评分,E(h(x))表示样本订单x在多颗孤立树的路径长度的均值,Ψ表示单颗孤立树的训练样本的样本数,C(Ψ)表示用Ψ个样本订单构建的二叉树的平均路径长度。
如果样本订单x在多棵孤立树中的平均路径长度越短,异常评分越接近1,表明样本订单x越异常;如果样本订单x在多棵孤立树中的平均路径长度越长,异常评分越接近0,表示样本订单x越正常;如果样本订单x在多棵孤立树中的平均路径长度接近整体均值,则异常评分会在0.5附近。其中,根据上述公式得到的异常评分可以作为每个订单的属于恶意订单的概率。
相关技术中,主要通过对正常样本进行描述,给出正常样本在特征空间中的区域,对于不在该区域中的样本,视为异常样本。如此,就会持续对正常样本的描述做优化,而不对异常样本的描述做优化,从而造成误判,或者只检测到少量的异常样本,导致识别成功率不高。而本申请实施例采用孤立森林方法,其是从正常样本中寻找出孤立点,因而不会持续对正常样本的描述做优化,能够减少误判率,检测到更多的异常样本,提高识别成功率。
可选的,本申请实施例还可以选取一类支持向量机(OneClassSVM)作为待训练的识别模型。
其中,一类支持向量机的原理是:一类支持向量机可识别一个类别的数据,若该数据属于该类别,则返回是的结果,若该数据不属于该类别,则返回不是的结果,而不会在不属于该类的情况下给出其属于其他类别的结果。应用在本申请实施例中,则一类支持向量机可以识别正常订单,对于不属于正常订单的,那么就可以认为是恶意订单。具体的,可以采用支持向量域描述(support vector domain description,SVDD)算法训练得到。具体的训练过程可以参见相关技术的介绍,此处不再赘述。
可选的,本申请实施例还可以选取自动编码器(AutoEncoders)作为待训练的识别模型。
其中,自动编码器是前馈非循环神经网络,是一种无监督机器学习方法,使用多层前馈网络(back propagation,BP)算法进行训练。具体的训练过程可以包括如下步骤:
步骤c1、获取多个待训练的样本订单;
步骤c2、根据多个待训练的样本订单对前馈非循环神经网络进行训练;
步骤c3、根据训练结果对前馈非循环神经网络的网络参数进行调节,直至训练结果达到期望结果。
具体的,自动编码机包括两个级联网络,以下称为第一网络和第二网络,第一网络是编码器,用于接收输入的样本订单x,并将输入的样本订单x进行编码;第二网络将编码结果进行重构,得到重构结果;将重构结果和样本订单x之间的误差进行反向传播,以调节网络参数,并继续进行训练,直至达到期望的误差。
其中,关于自动编码器的编码过程和重构过程,具体可参见相关技术的介绍,此处不再赘述。
在上述恶意订单的识别方法实施例的基础上,图12为本申请实施例提供的恶意订单的识别装置的结构示意图。如图12所示,该恶意订单的识别装置包括:第一获取模块121、第一分组模块122和确定模块123。
第一获取模块121,用于获取多个待识别订单;
第一分组模块122,用于根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个待识别订单;
确定模块123,用于将所述多个待识别订单在不同维度的分组结果输入识别模型,得到所述多个待识别订单中每个待识别订单是否为恶意订单的识别结果;
其中,所述识别模型为用于识别所述多个待识别订单中每个待识别订单是否为恶意订单的模型。
在一种可能设计中,第一分组模块122,具体用于:
确定所述预设的不同维度中的其中一个维度为第一维度,其余维度为第二维度;
根据所述第一维度对所述多个待识别订单进行分组,得到至少一个第一分组结果;每个第一分组结果对应第一维度中的一个来源;
根据所述第二维度对每个第一分组结果中的待识别订单进行分组,得到所述多个待识别订单在第一维度的分组结果;
重复上述步骤,直至所述预设的不同维度中的每个维度均确定为第一维度,得到所述多个待识别订单在不同维度的分组结果。
在该种可能的设计中,第一分组模块122,具体用于:
将所述多个待识别订单中属于第一维度下相同来源的订单划分为一组,得到至少一个第一分组结果;
其中,所述根据所述第二维度对每个第一分组结果中的待识别订单进行分组,得到所述多个待识别订单在第一维度的分组结果,包括:
针对每个第一分组结果,将属于第二维度下相同来源的待识别订单划分为一组,得到所述多个待识别订单在第一维度的分组结果。
在一种可能设计中,所述识别模型包括第一识别模型;确定模块93,具体用于:
将所述多个待识别订单在不同维度的分组结果输入第一识别模型中,得到所述多个待识别订单中每个订单是否为恶意订单的识别结果;
其中,所述第一识别模型为根据多个样本订单在不同维度的分组结果进行训练得到的,用于识别所述多个待识别订单中每个订单是否为恶意订单的模型。
在另一种可能设计中,所述识别模型包括至少两个不同的第二识别模型;所述每个待识别订单的识别结果为该订单为恶意订单的概率;
其中,所述第一分组模块122,具体用于:
将所述多个待识别订单在每个维度的分组结果分别输入至少两个不同的第二识别模型中,得到每个待识别订单在每个维度的至少两个概率;
根据至少两个概率,确定每个待识别订单在每个维度的概率;
将每个待识别订单在各个维度的概率进行加权求和,得到每个待识别订单的识别结果;
其中,所述至少两个不同的第二识别模型分别是根据多个样本订单在不同维度的分组结果和标注数据进行训练得到的,用于识别所述多个待识别订单是否属于恶意订单,所述标注数据用于标注样本订单是否为恶意订单。
在又一种可能设计中,所述识别模型包括第三识别模型;每个待识别订单的识别结果为该待识别订单为恶意订单的概率;
其中,所述第一分组模块122,具体用于:
将所述多个待识别订单在不同维度的分组结果输入对应的第三识别模型中,得到每个待识别订单在不同维度的子概率;其中,每个维度的分组结果对应一个第三识别模型;
将每个待识别订单在不同维度的子概率进行加权求和,得到所述多个待识别订单的识别结果;
其中,所述第三识别模型是根据多个样本订单在不同维度的分组结果和标注数据进行训练得到的,用于识别所述多个待识别订单是否属于恶意订单,所述标注数据用于标注样本订单是否为恶意订单。
在又一种可能设计中,确定模块123,具体用于:
将所述多个待识别订单在不同维度的分组结果输入识别模型,得到每个待识别订单属于恶意订单的概率;
根据每个待识别订单属于恶意订单的概率,确定所述待识别订单是否为恶意订单。
具体的,确定模块123根据每个待识别订单属于恶意订单的概率,确定所述待识别订单是否为恶意订单时,具体包括:
若所述待识别订单属于恶意订单的概率大于或等于预设的概率阈值,则将所述待识别订单识别为恶意订单;
若所述待识别订单属于恶意订单的概率小于预设的概率阈值,则将所述待识别订单识别为非恶意订单。
在又一种可能设计中,第一获取模块121,具体用于:获取订单系统在预设时间段的多个订单,作为所述多个待识别订单。
在又一种可能设计中,所述预设的不同维度包括如下中至少两项:店铺信息、订单信息、IP地址、设备信息、用户信息。
本申请实施例提供的恶意订单的识别装置,可用于执行上述实施例中恶意订单的识别方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
在上述模型的训练方法实施例的基础上,图13为本申请实施例提供的模型的训练装置的结构示意图。如图13所示,该恶意订单的识别装置包括:第二获取模块131、第二分组模块132和训练模块133;
第二获取模块131,用于获取多个样本订单;
第二分组模块132,用于根据预设的不同维度对所述多个样本订单进行分组,得到所述多个样本订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个样本订单;
训练模块133,用于根据所述多个样本订单在不同维度的分组结果进行训练,得到所述第一识别模型。
在一种可能的设计中,第二分组模块132,具体用于:
根据所述预设的不同维度中的其中一个维度,对所述多个样本订单进行分组,得到至少一个样本分组结果;
根据所述预设的不同维度中的其余第二维度,分别对每个样本分组结果中的样本订单进行分组,得到所述多个样本订单在所述其中一个维度的分组结果;
重复上述步骤,直至所述预设的不同维度中的每个维度均确定为第一维度,得到所述多个样本订单在不同维度的分组结果。
在一种可能的设计中,第二分组模块132,具体用于:
将所述多个样本订单中属于所述其中一个维度下相同来源的样本订单划分为一组,得到至少一个样本分组结果;
针对每个样本分组结果,将属于每个第二维度下相同来源的样本订单划分为一组,得到所述多个样本订单在不同维度的分组结果。
本申请实施例提供的模型的训练装置,可用于执行上述实施例中模型的训练方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,第一分组模块112、确定模块113可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上第一分组模块112、确定模块113的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
应当理解,上述实施例的恶意订单的识别装置,和模型的训练装置可以是同一台设备,也可以是不同的设备。
图14为本申请实施例提供的计算机设备的结构示意图。如图14所示,该计算机设备可以包括:处理器141、存储器142和收发器143。
处理器141执行存储器存储的计算机执行指令,使得处理器141执行上述实施例中的方案。处理器141可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器142通过系统总线与处理器141连接并完成相互间的通信,存储器142用于存储计算机程序指令。
收发器143可以用于获取多个待识别订单,或者获取多个样本订单。
系统总线可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccess memory,RAM),也可能还包括非易失性存储器(non-volatile memory)。
本申请实施例提供的计算机设备,可用于执行上述实施例中恶意订单的识别方法,和/或,模型的训练方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
本申请实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中恶意订单的识别方法,和/或,模型的训练方法的技术方案。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述实施例恶意订单的识别方法,和/或,模型的训练方法的技术方案。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,其存储在计算机可读存储介质中,至少一个处理器可以从计算机可读存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现上述实施例中恶意订单的识别方法,和/或,模型的训练方法的技术方案。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (12)
1.一种恶意订单的识别方法,其特征在于,包括:
获取多个待识别订单;
根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个待识别订单;所述预设的不同维度包括店铺信息;
将所述多个待识别订单在不同维度的分组结果输入识别模型,得到所述多个待识别订单中每个待识别订单是否为恶意订单的识别结果;
其中,所述识别模型为根据多个样本订单在不同维度的分组结果进行训练,得到的用于识别所述多个待识别订单中每个待识别订单是否为恶意订单的模型;
所述根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果,包括:
确定所述预设的不同维度中的其中一个维度为第一维度,其余维度为第二维度;
根据所述第一维度对所述多个待识别订单进行分组,得到至少一个第一分组结果;每个第一分组结果对应第一维度中的一个来源;
根据所述第二维度对每个第一分组结果中的待识别订单进行分组,得到所述多个待识别订单在第一维度的分组结果;
重复上述步骤,直至所述预设的不同维度中的每个维度均确定为第一维度,得到所述多个待识别订单在不同维度的分组结果。
2.根据权利要求1所述的方法,其特征在于,所述根据第一维度对多个待识别订单进行分组,得到至少一个第一分组结果,包括:
将所述多个待识别订单中属于第一维度下相同来源的订单划分为一组,得到至少一个第一分组结果;
其中,所述根据所述第二维度对每个第一分组结果中的待识别订单进行分组,得到所述多个待识别订单在第一维度的分组结果,包括:
针对每个第一分组结果,将属于第二维度下相同来源的待识别订单划分为一组,得到所述多个待识别订单在第一维度的分组结果。
3.根据权利要求1或2所述的方法,其特征在于,所述识别模型包括第一识别模型;
其中,所述将所述多个待识别订单在不同维度的分组结果输入识别模型,得到所述多个待识别订单中每个待识别订单是否为恶意订单的识别结果,包括:
将所述多个待识别订单在不同维度的分组结果输入第一识别模型中,得到所述多个待识别订单中每个订单是否为恶意订单的识别结果;
其中,所述第一识别模型为根据多个样本订单在不同维度的分组结果进行训练得到的,用于识别所述多个待识别订单中每个订单是否为恶意订单的模型。
4.根据权利要求1或2所述的方法,其特征在于,所述识别模型包括至少两个不同的第二识别模型;所述每个待识别订单的识别结果为该订单为恶意订单的概率;
其中,所述根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果,包括:
将所述多个待识别订单在每个维度的分组结果分别输入至少两个不同的第二识别模型中,得到每个待识别订单在每个维度的至少两个概率;
根据至少两个概率,确定每个待识别订单在每个维度的概率;
将每个待识别订单在各个维度的概率进行加权求和,得到每个待识别订单的识别结果;
其中,所述至少两个不同的第二识别模型分别是根据多个样本订单在不同维度的分组结果和标注数据进行训练得到的,用于识别所述多个待识别订单是否属于恶意订单,所述标注数据用于标注样本订单是否为恶意订单。
5.根据权利要求1或2所述的方法,其特征在于,所述识别模型包括第三识别模型;每个待识别订单的识别结果为该待识别订单为恶意订单的概率;
其中,所述根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果,包括:
将所述多个待识别订单在不同维度的分组结果输入对应的第三识别模型中,得到每个待识别订单在不同维度的子概率;其中,每个维度的分组结果对应一个第三识别模型;
将每个待识别订单在不同维度的子概率进行加权求和,得到所述多个待识别订单的识别结果;
其中,所述第三识别模型是根据多个样本订单在不同维度的分组结果和标注数据进行训练得到的,用于识别所述多个待识别订单是否属于恶意订单,所述标注数据用于标注样本订单是否为恶意订单。
6.根据权利要求1所述的方法,其特征在于,所述将所述多个待识别订单在不同维度的分组结果输入识别模型,得到所述多个待识别订单中每个待识别订单是否为恶意订单的识别结果,包括:
将所述多个待识别订单在不同维度的分组结果输入识别模型,得到每个待识别订单属于恶意订单的概率;
根据每个待识别订单属于恶意订单的概率,确定所述待识别订单是否为恶意订单。
7.根据权利要求6所述的方法,其特征在于,所述根据每个待识别订单属于恶意订单的概率,确定所述待识别订单是否为恶意订单,包括:
若所述待识别订单属于恶意订单的概率大于或等于预设的概率阈值,则将所述待识别订单识别为恶意订单;
若所述待识别订单属于恶意订单的概率小于预设的概率阈值,则将所述待识别订单识别为非恶意订单。
8.根据权利要求1或2所述的方法,其特征在于,所述获取多个待识别订单,包括:
获取订单系统在预设时间段的多个订单,作为所述多个待识别订单。
9.一种恶意订单的识别装置,其特征在于,包括:
第一获取模块,用于获取多个待识别订单;
第一分组模块,用于根据预设的不同维度对所述多个待识别订单进行分组,得到所述多个待识别订单在不同维度的分组结果;所述分组结果包括相同维度下同一来源的至少一个待识别订单;所述预设的不同维度包括店铺信息;
确定模块,用于将所述多个待识别订单在不同维度的分组结果输入识别模型,得到所述多个待识别订单中每个待识别订单是否为恶意订单的识别结果;
其中,所述识别模型是为根据多个样本订单在不同维度的分组结果进行训练,得到的用于识别所述多个待识别订单中每个待识别订单是否为恶意订单的模型;
所述第一分组模块,具体用于:
确定所述预设的不同维度中的其中一个维度为第一维度,其余维度为第二维度;
根据所述第一维度对所述多个待识别订单进行分组,得到至少一个第一分组结果;每个第一分组结果对应第一维度中的一个来源;
根据所述第二维度对每个第一分组结果中的待识别订单进行分组,得到所述多个待识别订单在第一维度的分组结果;
重复上述步骤,直至所述预设的不同维度中的每个维度均确定为第一维度,得到所述多个待识别订单在不同维度的分组结果。
10.一种计算机设备,其特征在于,包括:
处理器、存储器及收发器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述权利要求1-8任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时用于实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110520660.2A CN113781156B (zh) | 2021-05-13 | 2021-05-13 | 恶意订单的识别方法、模型的训练方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110520660.2A CN113781156B (zh) | 2021-05-13 | 2021-05-13 | 恶意订单的识别方法、模型的训练方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113781156A CN113781156A (zh) | 2021-12-10 |
CN113781156B true CN113781156B (zh) | 2024-08-20 |
Family
ID=78835723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110520660.2A Active CN113781156B (zh) | 2021-05-13 | 2021-05-13 | 恶意订单的识别方法、模型的训练方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113781156B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298789A (zh) * | 2021-12-29 | 2022-04-08 | 北京互金新融科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341716A (zh) * | 2017-07-11 | 2017-11-10 | 北京奇艺世纪科技有限公司 | 一种恶意订单识别的方法、装置及电子设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927643B (zh) * | 2014-04-30 | 2017-07-07 | 清远初曲智能科技有限公司 | 一种大规模订单处理与配送路径优化的方法 |
CN106709777A (zh) * | 2015-11-18 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种订单聚类方法及装置,以及反恶意信息的方法及装置 |
CN106204157A (zh) * | 2016-07-24 | 2016-12-07 | 广东聚联电子商务股份有限公司 | 一种基于大数据采集与分析的刷单评价行为处理方法 |
CN106557955A (zh) * | 2016-11-29 | 2017-04-05 | 流量海科技成都有限公司 | 网约车异常订单识别方法及系统 |
CN107609950A (zh) * | 2017-09-27 | 2018-01-19 | 掌合天下(北京)信息技术有限公司 | 订单处理方法及装置 |
CN108229876B (zh) * | 2017-12-07 | 2022-01-28 | 黄淮学院 | 一种基于大数据的电商交易方法和电商交易系统 |
CN108062674B (zh) * | 2017-12-28 | 2020-09-08 | 上海携程商务有限公司 | 基于gps的订单欺诈识别方法、系统、存储介质和电子设备 |
CN108200082B (zh) * | 2018-01-25 | 2021-03-26 | 上海携程商务有限公司 | Ota平台的用于识别用户恶意刷单的方法及系统 |
CN108230049A (zh) * | 2018-02-09 | 2018-06-29 | 新智数字科技有限公司 | 订单的预测方法及系统 |
CN110796506A (zh) * | 2018-08-03 | 2020-02-14 | 北京京东尚科信息技术有限公司 | 一种异常订单判定方法和装置 |
CN110288362A (zh) * | 2019-07-03 | 2019-09-27 | 北京工业大学 | 刷单的预测方法、装置及电子设备 |
CN110599195B (zh) * | 2019-08-02 | 2023-04-14 | 广东工业大学 | 一种识别刷单的方法 |
CN110705934A (zh) * | 2019-09-25 | 2020-01-17 | 北京三快在线科技有限公司 | 异常订单的识别方法、装置、可读存储介质及电子设备 |
CN110930221B (zh) * | 2019-11-18 | 2022-11-18 | 珠海格力电器股份有限公司 | 异常订单处理方法、存储介质及计算机设备 |
CN111461815B (zh) * | 2020-03-17 | 2023-04-28 | 上海携程国际旅行社有限公司 | 订单识别模型生成方法、识别方法、系统、设备和介质 |
CN112116378A (zh) * | 2020-08-13 | 2020-12-22 | 北京三快在线科技有限公司 | 作弊概率确定方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-13 CN CN202110520660.2A patent/CN113781156B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341716A (zh) * | 2017-07-11 | 2017-11-10 | 北京奇艺世纪科技有限公司 | 一种恶意订单识别的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113781156A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alaiz-Moreton et al. | Multiclass Classification Procedure for Detecting Attacks on MQTT‐IoT Protocol | |
CN111565205B (zh) | 网络攻击识别方法、装置、计算机设备和存储介质 | |
CN112381216B (zh) | 混合图神经网络模型的训练、预测方法和装置 | |
CN111260220B (zh) | 群控设备识别方法、装置、电子设备和存储介质 | |
CN115412371B (zh) | 基于物联网的大数据安全防护方法、系统及云平台 | |
CN113255370A (zh) | 基于语义相似度的行业类型推荐方法、装置、设备及介质 | |
CN115484112B (zh) | 支付大数据安全防护方法、系统及云平台 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN114244611B (zh) | 异常攻击检测方法、装置、设备及存储介质 | |
CN110689084A (zh) | 一种异常用户识别方法及装置 | |
CN111310743B (zh) | 人脸识别方法、装置、电子设备及可读存储介质 | |
CN112632609A (zh) | 异常检测方法、装置、电子设备及存储介质 | |
CN111324883B (zh) | 基于互联网的电商平台入侵检测方法及计算机设备 | |
CN110442623B (zh) | 大数据挖掘方法、装置及数据挖掘服务器 | |
CN113781156B (zh) | 恶意订单的识别方法、模型的训练方法、设备及存储介质 | |
CN115022038A (zh) | 一种电网网络异常检测方法、装置、设备及存储介质 | |
CN111401959B (zh) | 风险群体的预测方法、装置、计算机设备及存储介质 | |
CN113326064A (zh) | 划分业务逻辑模块的方法、电子设备及存储介质 | |
CN110880150A (zh) | 社区发现方法、装置、设备和可读存储介质 | |
de Araujo et al. | Impact of feature selection methods on the classification of DDoS attacks using XGBoost | |
WO2023050670A1 (zh) | 虚假信息检测方法、系统、计算机设备及可读存储介质 | |
CN115757900A (zh) | 应用人工智能模型的用户需求分析方法及系统 | |
CN111723122A (zh) | 数据间关联规则的确定方法、装置、设备及可读存储介质 | |
CN111382760A (zh) | 图片类别的识别方法、装置及计算机可读存储介质 | |
CN113254672B (zh) | 异常账号的识别方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |