CN103279868B - 一种自动识别欺诈订单的方法和装置 - Google Patents

一种自动识别欺诈订单的方法和装置 Download PDF

Info

Publication number
CN103279868B
CN103279868B CN201310192076.4A CN201310192076A CN103279868B CN 103279868 B CN103279868 B CN 103279868B CN 201310192076 A CN201310192076 A CN 201310192076A CN 103279868 B CN103279868 B CN 103279868B
Authority
CN
China
Prior art keywords
order
swindle
feature
information
history
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310192076.4A
Other languages
English (en)
Other versions
CN103279868A (zh
Inventor
彭科峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIGHTINTHEBOX HOLDING Co Ltd
Original Assignee
LIGHTINTHEBOX HOLDING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LIGHTINTHEBOX HOLDING Co Ltd filed Critical LIGHTINTHEBOX HOLDING Co Ltd
Priority to CN201310192076.4A priority Critical patent/CN103279868B/zh
Priority to US13/950,714 priority patent/US20140351109A1/en
Publication of CN103279868A publication Critical patent/CN103279868A/zh
Application granted granted Critical
Publication of CN103279868B publication Critical patent/CN103279868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Abstract

本发明提供了一种自动识别欺诈订单的方法和装置,其中方法包括:在模型训练阶段,将已确定是否为欺诈订单的历史订单作为训练样本,提取各历史订单中的特征分别组成各历史订单的特征向量,利用所述各历史订单的特征向量训练订单识别模型;在订单识别阶段,提取待识别订单中的特征组成待识别订单的特征向量,将待识别订单的特征向量输入所述订单识别模型,获取所述订单识别模型识别出的所述待识别订单是否为欺诈订单的识别结果。本发明能够更好地适应于电子商务市场的快速变化,且提高被针对的难度。

Description

一种自动识别欺诈订单的方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种自动识别欺诈订单的方法和装置。
【背景技术】
随着电子商务的蓬勃发展,针对电子商务的欺诈行为也越来越多,特别是电子支付的欺诈会给商户带来巨大损失。并且随着电子商务的深入发展,客户端的来源、支付方式以及购买的商品等逐渐呈多样性发展,如何识别欺诈订单已经成为亟待重视和解决的问题。
如果单纯依靠人工审核,由于效率低下且成本高,因此普遍采用自动识别的方式,现有技术中自动识别欺诈订单的方式主要包括两种:一种是基于黑白名单,另一种是基于预设的规则。但是电子商务是个快速发展的市场,每天要面对成千上万的新顾客,基于黑白名单的方式显然无法应对如此庞大的新客户。而基于预设的规则的方式则可能会被人琢磨出规则而失效,并且由于电子商务市场的多变性,规则需要经常修改,一方面是个耗费人力的工程,另一方面也很难达到预期的覆盖率。
【发明内容】
有鉴于此,本发明提供了一种自动识别欺诈订单的方法和装置,以便更好地适应于电子商务市场的快速变化,且提高被针对的难度。
具体技术方案如下:
一种自动识别欺诈订单的方法,该方法包括:
模型训练阶段:
S11、将已确定是否为欺诈订单的历史订单作为训练样本,提取各历史订单中的特征分别组成各历史订单的特征向量;
S12、利用所述各历史订单的特征向量训练订单识别模型;
订单识别阶段:
S21、提取待识别订单中的特征组成待识别订单的特征向量;
S22、将待识别订单的特征向量输入所述订单识别模型,获取所述订单识别模型识别出的所述待识别订单是否为欺诈订单的识别结果。
根据本发明一优选实施方式,在所述步骤S11和步骤S21中从订单中提取的特征包括以下特征中的至少一种:
订单中直接包含的信息、下订单的顾客在电子商务系统中的历史行为以及通过顾客信息从互联网上获取的公开信息。
根据本发明一优选实施方式,所述订单中直接包含的信息包括顾客信息、使用的语言、订单的金额、支付方式和商品信息中的至少一种;
所述下订单的顾客在电子商务系统中的历史行为包括顾客浏览商户网站的时间、次数和购买历史中的至少一种;
所述通过顾客信息从互联网上获取的公开信息包括:通过社交网站的API查询是否确有此人或粉丝数目,以及通过电子地图API查询顾客地址是否真实存在中的至少一种。
根据本发明一优选实施方式,在所述订单识别阶段还包括:
S23、如果识别出待识别订单是欺诈订单,则利用所述待识别订单的特征向量信息生成可读的描述,供人工审核。
根据本发明一优选实施方式,利用所述待识别订单的特征向量信息生成可读的描述为:利用所述待识别订单中对欺诈订单这一识别结果的信息增益大于预设第一增益阈值的特征信息生成可读的描述。
根据本发明一优选实施方式,在所述模型训练阶段还包括:
对新的特征组合进行判别测试,判别所述新的特征组合对欺诈订单这一识别结果的信息增益是否大于预设的第二增益阈值,如果是,则确定所述新的特征组合能够增强所述订单识别模型的学习效果,将所述新的特征组合加入所述模型训练阶段和订单识别阶段中从订单中提取的特征。
根据本发明一优选实施方式,信息增益采用以下公式确定:
gain(A)=info(D1)-infoA(D1),D1表示欺诈订单,gain(A)为特征或特征组合A对欺诈订单这一识别结果的信息增益,info(D1)为欺诈订单这一识别结果的熵,infoA(D1)为特征或特征组合A对欺诈订单这一识别结果的期望信息;
pij为第i种特征在训练样本的Dj类型历史订单中的出现概率,m为特征数量,j取值为0或1,D0表示非欺诈订单;
info A ( D ) = Σ j = 0 1 | D j | | D | inf o ( D j ) ,
|Dj|为训练样本的Dj类型历史订单的数量,|D|为训练样本中历史订单的总数量。
一种自动识别欺诈订单的装置,该装置包括模型训练单元和订单识别单元;
所述模型训练单元包括:
线下特征提取子单元,用于将已确定是否为欺诈订单的历史订单作为训练样本,提取各历史订单中的特征分别组成各历史订单的特征向量;
模型训练子单元,用于利用所述各历史订单的特征向量训练订单识别模型;
所述订单识别单元包括:
线上特征提取子单元,用于提取待识别订单中的特征组成待识别订单的特征向量;
订单识别子单元,用于将待识别订单的特征向量输入所述订单识别模型,获取所述订单识别模型识别出的所述待识别订单是否为欺诈订单的识别结果。
根据本发明一优选实施方式,所述线下特征提取子单元和线上特征提取子单元从订单中提取的特征包括以下特征中的至少一种:
订单中直接包含的信息、下订单的顾客在电子商务系统中的历史行为以及通过顾客信息从互联网上获取的公开信息。
根据本发明一优选实施方式,所述订单中直接包含的信息包括顾客信息、使用的语言、订单的金额、支付方式和商品信息中的至少一种;
所述下订单的顾客在电子商务系统中的历史行为包括顾客浏览商户网站的时间、次数和购买历史中的至少一种;
所述通过顾客信息从互联网上获取的公开信息包括:通过社交网站的API查询是否确有此人或粉丝数目,以及通过电子地图API查询顾客地址是否真实存在中的至少一种。
根据本发明一优选实施方式,所述订单识别单元还包括:可读描述生成子单元,用于在所述订单识别子单元识别出待识别订单是欺诈订单时,利用所述待识别订单的特征向量信息生成可读的描述,供人工审核。
根据本发明一优选实施方式,所述可读描述生成子单元在生成所述可读的描述时,具体执行:利用所述待识别订单中对欺诈订单这一识别结果的信息增益大于预设第一增益阈值的特征信息生成可读的描述。
根据本发明一优选实施方式,所述模型训练单元还包括:
判别测试子单元,用于对新的特征组合进行判别测试,判别所述新的特征组合对欺诈订单这一识别结果的信息增益是否大于预设的第二增益阈值,如果是,则确定所述新的特征组合能够增强所述订单识别模型的学习效果,将所述新的特征组合加入所述模型训练阶段和订单识别阶段中从订单中提取的特征。
根据本发明一优选实施方式,信息增益采用以下公式确定:
gain(A)=info(D1)-infoA(D1),D1表示欺诈订单,gain(A)为特征或特征组合A对欺诈订单这一识别结果的信息增益,info(D1)为欺诈订单这一识别结果的熵,infoA(D1)为特征或特征组合A对欺诈订单这一识别结果的期望信息;
pij为第i种特征在训练样本的Dj类型历史订单中的出现概率,m为特征数量,j取值为0或1,D0表示非欺诈订单;
info A ( D ) = Σ j = 0 1 | D j | | D | inf o ( D j ) ,
|Dj|为训练样本的Dj类型历史订单的数量,|D|为训练样本中历史订单的总数量。
由以上技术方案可以看出,本发明利用历史订单的特征训练订单识别模型,然后使用训练得到的订单识别模型进行欺诈订单的自动识别,对于电子商务系统中出现的欺诈订单的特征能够快速学习到,因此这种方式能够更好地适应于电子商务市场的快速变化,相比较基于预设规则的方式提高了被针对的难度。
【附图说明】
图1为本发明实施例一提供的自动识别欺诈订单的方法流程图;
图2为本发明实施例二提供的自动识别欺诈订单的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明主要通过模型训练和订单识别两个阶段,在模型训练阶段将已确定是否为欺诈订单的历史订单作为训练样本来训练订单识别模型,在订单识别阶段利用训练的欺诈订单识别模型对待识别的订单进行识别,以确定待识别的订单是否为欺诈订单。下面通过实施例一对本发明提供的方法进行详细描述。
实施例一、
图1为本发明实施例一提供的自动识别欺诈订单的方法流程图,如图1所示,该方法主要包括以下步骤:
步骤101:将已确定是否为欺诈订单的历史订单作为训练样本,提取各历史订单中的特征组成各历史订单的特征向量。
首先整理出已确定是欺诈订单和非欺诈订单的历史订单,将这些历史订单作为训练样本。在提取订单特征时,提取的特征主要可以包括以下三个方面中的至少一个方面:
第一个方面是历史订单中直接包含的信息,可以包括但不限于:顾客信息(例如顾客的姓名、地址、邮箱、电话等)、使用的语言、订单的金额、支付方式、商品信息(商品名称、商品的品类等)等中的一种或任意组合。
对于每一个订单都存在订单ID,依据订单ID就能够从订单数据库中查询到上述第一个方面的信息,历史订单中直接包含的信息是订单最直观的反映,从中能够比较直观地获取是否是欺诈订单的依据。
第二个方面是下订单的顾客在电子商务系统中的历史行为,可以包括但不限于:顾客浏览本商户网站的时间、次数、购买历史等中的一种或任意组合。
依据顾客ID可以从该顾客的历史行为数据库中查找到该顾客在电子商务系统中的历史行为,顾客的历史行为能够相对间接地反映该顾客所下的订单是否为欺诈订单,但对于欺诈订单的识别也具有十分重要的参考价值,例如正常顾客在购买商品时通常会详细浏览商户网站中的商品信息等,经过思考或比价等再下订单,那些几乎没有浏览本商户网站的顾客所下的订单是欺诈订单的几率就比较大。对于老顾客,即已有很多次在本商户的成功购买经历的顾客,其下的订单通常不会是欺诈订单。
第三个方面是通过顾客信息从互联网上获取的公开信息,可以包括但不限于:通过社交网站的API查询是否确有此人或者粉丝数目、通过电子地图API查询顾客地址是否真实存在等中的一种或任意组合。
通常会通过电子商务系统下订单的顾客,对于互联网的粘性是较大的,那么其使用社交网站的几率相对也较高,通过在社交网站上查询是否确有此人对确定顾客的真实性有一定帮助,但考虑到社交网站上也存在较多的僵尸账号,那么从其粉丝数目也能够在一定程度上对确定顾客的真实性有帮助。这是对顾客身份的考察,对于顾客地址而言,可以通过在电子地图上查询顾客地址是否真实存在来确定顾客地址的真实性。社交网站或电子地图网站等通常会对外开放API,有的是无条件开放,通常电子地图API为无条件开放,则可以直接通过电子地图API查询顾客地址是否真实,而通常社交网站API是有条件开放,例如只有注册用户才能够访问,那么就可以通过注册或者与社交网站达成协议等方式通过社交网站API查询是否确有此人或者粉丝数目。
举一个例子,假设某个历史订单中顾客的国家为意大利,使用的语言为英语,订单的金额为200美金,支付方式采用paypal,商品为手机类,用户浏览本商户的时间为90分钟,浏览了4次,具有2次购买历史,存在facebook账号与该顾客关联,在facebook中具有200名粉丝,顾客地址真实,那么就可以构成如下向量:
【意大利,英语,200美金,paypal,手机,浏览90分钟,浏览4次,2次购买,存在facebook账号,200粉丝,地址真实】
步骤102:利用训练样本中各历史订单的特征向量训练订单识别模型。
本发明中采用的订单识别模型可以是诸如支持向量机(SVM)模型、最大熵模型等分类模型,训练出的订单识别模型的识别结果可以是欺诈订单和非欺诈订单。
上述步骤101中提取的特征中可能是从其中一个特征就能够识别订单是否为欺诈订单,例如通过地图API查询顾客地址后发现该顾客地址并不存在,或者,发现用户浏览本商户网站的时间几乎为零等;也可能是从其中几个特征的组合能够识别订单是否为欺诈订单,例如顾客地址所属的国家与使用的语言不匹配,或者商品信息与订单的金额不匹配,或者用户浏览本商户网站的次数很多但从未有购买历史且通过社交网站的API查询并无此人等等。因此在进行特征以构成特征向量时,优选该特征向量由多个特征构成,可以加大训练出的订单识别模型的识别准确度。
上述步骤101和步骤102为模型训练阶段,该阶段可以每隔一定时间段执行一次,当隔一定时间段后,又有新的历史订单,则将这部分历史订单扩充入训练样本中再进行训练,这部分新的历史订单可以是对订单识别模型的识别结果进行人工审核后的订单,从而使得训练出的订单识别模型越来越准确。以下的步骤为订单识别阶段,即对待识别订单进行是否为欺诈订单的识别,待识别订单可以是电子商务系统中客户新产生的订单,例如可以是系统新产生的已支付订单,需要对该已支付订单识别是否为欺诈订单,给商户作为参考,从而降低商户的风险。
步骤103:提取待识别订单中的特征组成待识别订单的特征向量。
在对待识别订单中的特征进行提取时,需要按照训练订单识别模型时采用的提取方式一致,即训练订单识别模型时提取的是哪些向量按照怎样的顺序构成特征向量,那么对待识别订单也提取这些向量按照相同的顺序构成特征向量。
步骤104:将待识别订单的特征向量输入订单识别模型,获取订单识别模型识别出的待识别订单是否为欺诈订单的识别结果。
将提取出的待识别订单的特征向量输入订单识别模型后,订单识别模型就能够对该待识别订单进行分类,分类至欺诈订单或非欺诈订单,分类结果就是识别结果。
步骤105:如果识别出待识别订单是欺诈订单,则利用该待识别订单的特征向量信息生成可读的描述,供人工审核。
如果通过订单识别模型识别出是欺诈订单,可以通过人工的方式进行进一步的审核来明确是否为欺诈订单。为了方便人工审核,可以利用待识别订单的特征向量生成可读的描述呈现给负责审核的人员,其中可以将待识别订单的特征向量中所有的特征信息生成可读的描述。但优选地,为了方便负责审核的人员依据其中的关键信息进行审核,可以将特征向量中对欺诈订单这一识别结果的影响较大的特征信息生成可读的描述。
在确定影响较大的特征信息时,可以采用对欺诈订单这一识别结果的信息增益大于预设第一增益阈值的特征信息生成可读的描述。下面对各特征的信息增益计算方法进行描述:
特征A对欺诈订单这一识别结果的信息增益gain(A)为:
gain(A)=info(D1)-infoA(D1), (1)
其中,D1表示欺诈订单,info(D1)为欺诈订单这一识别结果的熵,infoA(D1)为特征A对欺诈订单这一识别结果的期望信息。具体地:
inf o ( D j ) = - Σ i = 1 m p i j log 2 ( p i j ) , - - - ( 2 )
其中,pij为第i种特征在训练样本的Dj类型历史订单中的出现概率,m为特征数量,第i种特征在训练样本的Dj类型历史订单中的出现概率为该第i种特征在训练样本的Dj类型历史订单中的出现次数与训练样本中的Dj类型历史订单数量|Dj|的比值,j取值为0或1,D0表示非欺诈订单。
info A ( D ) = Σ j = 0 1 | D j | | D | inf o ( D j ) , - - - ( 3 )
|D|为训练样本中历史订单的总数量。
假设待识别订单中顾客来源的国家是意大利,但使用的语言是英语,经过上述计算后,这两个特征对欺诈订单这一识别结果的信息增益大于预设的增益阈值,那么这两个特征就是欺诈订单的关键信息,可以将这两个特征的信息生成可读的描述,比如“顾客来源的国家是意大利,语言是英语,疑似欺诈订单”,这样负责审核的人员就能够很方便地查看这个订单中的关键信息了,从而能够快速地做出审核结果。
该待识别订单最终明确确认是否为欺诈订单后,可以被加入历史订单库,之后可以作为历史订单扩充入训练样本进行订单识别模型的训练,这样一方面能够使得订单识别模型越来越精确,另一方面随着电子商务系统的发展,对于新型的欺诈订单,其特征也能够逐渐被订单识别模型学习到。
另外,欺诈订单的新的特征可以通过人工结合机器辅助的方式来进行判断测试,例如有些特征独立看似乎与欺诈订单无关,但组合起来就与欺诈订单有关了,同样是上面的例子,顾客来源的国家是意大利,但使用的语言是英语,这两个特征的组合就可能与欺诈订单有关,这样的特征组合如果人工结合机器辅助的方式判别出来,则可以加入订单识别模型用于增强订单识别模型的学习效果。
在对新的特征组合进行判别测试时,可以将加入该特征组合后,该特征组合对欺诈订单这一识别结果的信息增益是否大于预设的第二增益阈值来判断是否能够增强订单识别模型的学习效果,如果是,则确定该特征组合能够增强订单识别模型的学习效果,将该特征组合加入订单识别模型,即加入在模型训练阶段和订单提取阶段中从订单中提取的特征。在确定特征组合的信息增益时,仍采用上述公式(1)至公式(3)所示的方式,只是将特征组合看做一个特征A按照上述公式(1)至公式(3)进行计算。
以上是对本发明所提供的方法进行的详细描述,下面结合实施例二对本发明提供的装置进行详细描述。
实施例二、
图2为本发明实施例二提供的自动识别欺诈订单的装置结构图,该装置设置在电子商务系统中对欺诈订单进行自动识别,如图2所示,该装置包括模型训练单元00和订单识别单元10。
其中模型训练单元00主要完成线下对订单识别模型的训练,具体包括:线下特征提取子单元01和模型训练子单元02。线下特征提取子单元01将已确定是否为欺诈订单的历史订单作为训练样本,提取各历史订单中的特征分别组成各历史订单的特征向量。
线下特征提取子单元01从历史订单中提取的特征可以包括以下特征中的至少一种:订单中直接包含的信息、下订单的顾客在电子商务系统中的历史行为以及通过顾客信息从互联网上获取的公开信息。
具体地,订单中直接包含的信息包括顾客信息、使用的语言、订单的金额、支付方式和商品信息中的至少一种。下订单的顾客在电子商务系统中的历史行为包括顾客浏览商户网站的时间、次数和购买历史中的至少一种。通过顾客信息从互联网上获取的公开信息包括:通过社交网站的API查询是否确有此人或粉丝数目,以及通过电子地图API查询顾客地址是否真实存在中的至少一种。
然后模型训练子单元利用各历史订单的特征向量训练订单识别模型。在此采用的订单识别模型可以是诸如SVM模型、最大熵模型等分类模型,训练出的订单识别模型的识别结果可以是欺诈订单和非欺诈订单。
上述的模型训练单元00可以每隔一定时间段执行一次模型训练的操作,当隔一定时间段后,又有新的历史订单,则将这部分历史订单扩充入训练样本中再进行训练,这部分新的历史订单可以是对订单识别模型的识别结果进行人工审核后的订单,从而使得训练出的订单识别模型越来越准确。
订单识别单元10可以包括:线上特征提取子单元11和订单识别子单元12。对于电子商务系统中的待识别订单,线上特征提取子单元11提取待识别订单中的特征组成待识别订单的特征向量,在对待识别订单中的特征进行提取时,需要与线下特征提取子单元01采用的提取方式一致,即训练订单识别模型时提取的是哪些向量按照怎样的顺序构成特征向量,那么对待识别订单也提取这些向量按照相同的顺序构成特征向量。
然后订单识别子单元12将待识别订单的特征向量输入订单识别模型,获取订单识别模型识别出的待识别订单是否为欺诈订单的识别结果。
更进一步地,订单识别单元10还可以包括:可读描述生成子单元13,用于在订单识别子单元12识别出待识别订单是欺诈订单时,利用待识别订单的特征向量信息生成可读的描述,供人工审核。
为了方便人工审核,可读描述生成子单元13在生成可读的描述时,可以仅利用待识别订单中对欺诈订单这一识别结果的信息增益大于预设第一增益阈值的特征信息生成可读的描述。
特征的信息增益可以采用实施例一中所示的公式(1)至公式(3)确定,再次不再赘述。
另外,欺诈订单的新的特征可以通过人工结合机器辅助的方式来进行判断测试,从而使得新型的欺诈订单其特征也能够逐渐被订单识别模型学习到,从而能够识别出来,有鉴于此,模型训练单元00还可以包括:判别测试子单元03,用于对新的特征组合进行判别测试,判别新的特征组合对欺诈订单这一识别结果的信息增益是否大于预设的第二增益阈值,如果是,则确定新的特征组合能够增强订单识别模型的学习效果,将新的特征组合加入模型训练阶段和订单识别阶段中从订单中提取的特征。其中在确定特征组合的信息增益时,仍采用上述公式(1)至公式(3)所示的方式,只是将特征组合看做一个特征A按照上述公式(1)至公式(3)进行计算。
由以上描述可以看出,本发明提供的上述方法和装置具备以下优点:
1)本发明能够基于历史订单快速地学习到欺诈订单的特性从而进行自动识别,因此对于电子商务系统中出现的欺诈订单的特征能够快速学习到,因此能够更好地适应于电子商务市场的快速变化。
2)本发明并不是基于固定的预设规则,而是基于机器可读模型,提高了被针对的难度。
3)由于被识别或人工审核的订单能够被作为历史订单参与订单识别模型训练,并且对于新型的对欺诈订单的识别有较大影响的特征能够在判别测试后加入订单识别模型训练所需要提取的特征,从而提高订单识别模型的准确率和覆盖率。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种自动识别欺诈订单的方法,其特征在于,该方法包括:
模型训练阶段:
S11、将已确定是否为欺诈订单的历史订单作为训练样本,提取各历史订单中的特征分别组成各历史订单的特征向量;
S12、利用所述各历史订单的特征向量训练订单识别模型;
订单识别阶段:
S21、提取待识别订单中的特征组成待识别订单的特征向量;
S22、将待识别订单的特征向量输入所述订单识别模型,获取所述订单识别模型识别出的所述待识别订单是否为欺诈订单的识别结果;
S23、如果识别出待识别订单是欺诈订单,则利用所述待识别订单中对欺诈订单这一识别结果的信息增益大于预设第一增益阈值的特征信息生成可读的描述,供人工审核;
信息增益采用以下公式确定:
gain(A)=info(D1)-infoA(D1),D1表示欺诈订单,gain(A)为特征或特征组合A对欺诈订单这一识别结果的信息增益,info(D1)为欺诈订单这一识别结果的熵,infoA(D1)为特征或特征组合A对欺诈订单这一识别结果的期望信息;
pij为第i种特征在训练样本的Dj类型历史订单中的出现概率,m为特征数量,j取值为0或1,D0表示非欺诈订单;
info A ( D ) = Σ j = 0 1 | D j | | D | inf o ( D j ) ,
|Dj|为训练样本的Dj类型历史订单的数量,|D|为训练样本中历史订单的总数量。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S11和步骤S21中从订单中提取的特征包括以下特征中的至少一种:
订单中直接包含的信息、下订单的顾客在电子商务系统中的历史行为以及通过顾客信息从互联网上获取的公开信息。
3.根据权利要求2所述的方法,其特征在于,所述订单中直接包含的信息包括顾客信息、使用的语言、订单的金额、支付方式和商品信息中的至少一种;
所述下订单的顾客在电子商务系统中的历史行为包括顾客浏览商户网站的时间、次数和购买历史中的至少一种;
所述通过顾客信息从互联网上获取的公开信息包括:通过社交网站的API查询是否确有此人或粉丝数目,以及通过电子地图API查询顾客地址是否真实存在中的至少一种。
4.根据权利要求1所述的方法,其特征在于,在所述模型训练阶段还包括:
对新的特征组合进行判别测试,判别所述新的特征组合对欺诈订单这一识别结果的信息增益是否大于预设的第二增益阈值,如果是,则确定所述新的特征组合能够增强所述订单识别模型的学习效果,将所述新的特征组合加入所述模型训练阶段和订单识别阶段中从订单中提取的特征。
5.一种自动识别欺诈订单的装置,其特征在于,该装置包括模型训练单元和订单识别单元;
所述模型训练单元包括:
线下特征提取子单元,用于将已确定是否为欺诈订单的历史订单作为训练样本,提取各历史订单中的特征分别组成各历史订单的特征向量;
模型训练子单元,用于利用所述各历史订单的特征向量训练订单识别模型;
所述订单识别单元包括:
线上特征提取子单元,用于提取待识别订单中的特征组成待识别订单的特征向量;
订单识别子单元,用于将待识别订单的特征向量输入所述订单识别模型,获取所述订单识别模型识别出的所述待识别订单是否为欺诈订单的识别结果;
可读描述生成子单元,用于在所述订单识别子单元识别出待识别订单是欺诈订单时,利用所述待识别订单中对欺诈订单这一识别结果的信息增益大于预设第一增益阈值的特征信息生成可读的描述,供人工审核;
信息增益采用以下公式确定:
gain(A)=info(D1)-infoA(D1),D1表示欺诈订单,gain(A)为特征或特征组合A对欺诈订单这一识别结果的信息增益,info(D1)为欺诈订单这一识别结果的熵,infoA(D1)为特征或特征组合A对欺诈订单这一识别结果的期望信息;
pij为第i种特征在训练样本的Dj类型历史订单中的出现概率,m为特征数量,j取值为0或1,D0表示非欺诈订单;
info A ( D ) = Σ j = 0 1 | D j | | D | inf o ( D j ) ,
|Dj|为训练样本的Dj类型历史订单的数量,|D|为训练样本中历史订单的总数量。
6.根据权利要求5所述的装置,其特征在于,所述线下特征提取子单元和线上特征提取子单元从订单中提取的特征包括以下特征中的至少一种:
订单中直接包含的信息、下订单的顾客在电子商务系统中的历史行为以及通过顾客信息从互联网上获取的公开信息。
7.根据权利要求6所述的装置,其特征在于,所述订单中直接包含的信息包括顾客信息、使用的语言、订单的金额、支付方式和商品信息中的至少一种;
所述下订单的顾客在电子商务系统中的历史行为包括顾客浏览商户网站的时间、次数和购买历史中的至少一种;
所述通过顾客信息从互联网上获取的公开信息包括:通过社交网站的API查询是否确有此人或粉丝数目,以及通过电子地图API查询顾客地址是否真实存在中的至少一种。
8.根据权利要求5所述的装置,其特征在于,所述模型训练单元还包括:
判别测试子单元,用于对新的特征组合进行判别测试,判别所述新的特征组合对欺诈订单这一识别结果的信息增益是否大于预设的第二增益阈值,如果是,则确定所述新的特征组合能够增强所述订单识别模型的学习效果,将所述新的特征组合加入所述模型训练单元和订单识别单元中从订单中提取的特征。
CN201310192076.4A 2013-05-22 2013-05-22 一种自动识别欺诈订单的方法和装置 Active CN103279868B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310192076.4A CN103279868B (zh) 2013-05-22 2013-05-22 一种自动识别欺诈订单的方法和装置
US13/950,714 US20140351109A1 (en) 2013-05-22 2013-07-25 Method and apparatus for automatically identifying a fraudulent order

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310192076.4A CN103279868B (zh) 2013-05-22 2013-05-22 一种自动识别欺诈订单的方法和装置

Publications (2)

Publication Number Publication Date
CN103279868A CN103279868A (zh) 2013-09-04
CN103279868B true CN103279868B (zh) 2016-08-17

Family

ID=49062378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310192076.4A Active CN103279868B (zh) 2013-05-22 2013-05-22 一种自动识别欺诈订单的方法和装置

Country Status (2)

Country Link
US (1) US20140351109A1 (zh)
CN (1) CN103279868B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851653A (zh) * 2017-03-27 2017-06-13 珠海网博信息科技股份有限公司 一种自动识别伪造无线访问接入点的方法及系统

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636912A (zh) * 2015-02-13 2015-05-20 银联智惠信息服务(上海)有限公司 信用卡套现识别方法和装置
CN105245380B (zh) * 2015-10-21 2021-02-12 腾讯科技(深圳)有限公司 一种消息的传播方式识别方法及装置
CN106611321B (zh) * 2015-10-22 2020-09-25 百度在线网络技术(北京)有限公司 虚假手机号码的识别方法和装置
CN105389704B (zh) * 2015-11-16 2020-01-10 小米科技有限责任公司 判断用户真实性的方法及装置
CN106709777A (zh) 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 一种订单聚类方法及装置,以及反恶意信息的方法及装置
CN106991425B (zh) * 2016-01-21 2020-10-02 阿里巴巴集团控股有限公司 商品交易质量的检测方法和装置
CN105894360B (zh) * 2016-03-31 2020-06-02 百度在线网络技术(北京)有限公司 作弊订单识别方法、装置及系统
CN107346463B (zh) * 2016-05-04 2020-08-28 阿里巴巴集团控股有限公司 风险控制模型的训练、模型输入数据确定方法及装置
US10924479B2 (en) * 2016-07-20 2021-02-16 Aetna Inc. System and methods to establish user profile using multiple channels
CN108205757B (zh) * 2016-12-19 2022-05-27 创新先进技术有限公司 电子支付业务合法性的校验方法和装置
US11238528B2 (en) * 2016-12-22 2022-02-01 American Express Travel Related Services Company, Inc. Systems and methods for custom ranking objectives for machine learning models applicable to fraud and credit risk assessments
US10404735B2 (en) * 2017-02-02 2019-09-03 Aetna Inc. Individualized cybersecurity risk detection using multiple attributes
CN107392801B (zh) * 2017-07-21 2021-11-23 上海携程商务有限公司 控制扰乱订单的方法及其装置、存储介质、电子设备
CN107481019A (zh) * 2017-07-28 2017-12-15 上海携程商务有限公司 订单欺诈识别方法、系统、存储介质和电子设备
CN107464169B (zh) * 2017-08-10 2020-11-10 北京星选科技有限公司 信息输出方法和装置
CN107506921B (zh) * 2017-08-14 2020-06-05 上海携程商务有限公司 订单风险识别方法、系统、存储介质和电子设备
CN107644366B (zh) * 2017-09-28 2021-06-18 携程旅游信息技术(上海)有限公司 订单欺诈识别方法、系统、存储介质和电子设备
CN109684624B (zh) * 2017-10-18 2023-12-08 北京京东尚科信息技术有限公司 一种自动识别订单地址路区的方法和装置
CN109816134B (zh) * 2017-11-22 2021-07-20 北京京东尚科信息技术有限公司 收货地址预测方法、装置以及存储介质
CN108062674B (zh) * 2017-12-28 2020-09-08 上海携程商务有限公司 基于gps的订单欺诈识别方法、系统、存储介质和电子设备
CN108564460B (zh) * 2018-01-12 2020-10-30 阳光财产保险股份有限公司 互联网信贷场景下的实时欺诈检测方法及装置
CN108229749A (zh) * 2018-01-16 2018-06-29 厦门快商通信息技术有限公司 基于深度学习的不良购票行为管理方法
CN108287913A (zh) * 2018-02-07 2018-07-17 霍尔果斯智融未来信息科技有限公司 一种数据可回溯的大规模离散型特征挖掘的方法
CN108596434B (zh) * 2018-03-23 2019-08-02 卫盈联信息技术(深圳)有限公司 欺诈检测和风险评估方法、系统、设备及存储介质
CN108876545A (zh) * 2018-06-22 2018-11-23 北京小米移动软件有限公司 订单识别方法、装置和可读存储介质
CN109034209B (zh) * 2018-07-03 2021-07-30 创新先进技术有限公司 主动风险实时识别模型的训练方法和装置
CN109063433B (zh) * 2018-07-09 2021-04-30 中国联合网络通信集团有限公司 虚假用户的识别方法、装置及可读存储介质
CN108876208A (zh) * 2018-08-08 2018-11-23 厦门市七星通联科技有限公司 一种分期支付风控审核方法及系统
CN109118119A (zh) * 2018-09-06 2019-01-01 多点生活(成都)科技有限公司 风控模型生成方法及装置
CN109242391B (zh) * 2018-09-19 2022-02-22 惠龙易通国际物流股份有限公司 一种货物识别方法及装置
CN109543516A (zh) * 2018-10-16 2019-03-29 深圳壹账通智能科技有限公司 签约意向判断方法、装置、计算机设备和存储介质
CN109472626B (zh) * 2018-11-26 2020-08-18 浙江大学 一种面向手机租赁业务的智能金融风险控制方法及系统
CN110111106A (zh) * 2019-05-06 2019-08-09 无线生活(北京)信息技术有限公司 交易风险监控方法及装置
CN110245302B (zh) * 2019-05-24 2023-08-08 创新先进技术有限公司 用于识别欺诈案件的策略生成方法及装置和电子设备
CN111768258A (zh) * 2019-06-05 2020-10-13 北京京东尚科信息技术有限公司 识别异常订单的方法、装置、电子设备和介质
CN111179023B (zh) * 2019-12-10 2023-06-02 北京互金新融科技有限公司 订单识别方法及装置
CN111127179B (zh) * 2019-12-12 2023-08-29 恩亿科(北京)数据科技有限公司 信息推送方法、装置、计算机设备和存储介质
CN111461815B (zh) * 2020-03-17 2023-04-28 上海携程国际旅行社有限公司 订单识别模型生成方法、识别方法、系统、设备和介质
CN113630495B (zh) * 2020-05-07 2022-08-02 中国电信股份有限公司 涉诈订单预测模型训练方法和装置,订单预测方法和装置
US20230196367A1 (en) * 2020-05-13 2023-06-22 Paypal, Inc. Using Machine Learning to Mitigate Electronic Attacks
CN113989043A (zh) * 2021-10-28 2022-01-28 支付宝(杭州)信息技术有限公司 一种事件的风险识别方法、装置及设备
CN114049508B (zh) * 2022-01-12 2022-04-01 成都无糖信息技术有限公司 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN116071089B (zh) * 2023-02-10 2023-12-05 成都新希望金融信息有限公司 一种欺诈识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819226A (en) * 1992-09-08 1998-10-06 Hnc Software Inc. Fraud detection using predictive modeling
CN102722814A (zh) * 2012-06-01 2012-10-10 汪德嘉 一种网上交易欺诈风险的自适应可控管理系统
CN103049851A (zh) * 2012-12-27 2013-04-17 中国建设银行股份有限公司 一种基于交易数据的反欺诈监控方法和装置
CN103064987A (zh) * 2013-01-31 2013-04-24 五八同城信息技术有限公司 一种虚假交易信息识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819226A (en) * 1992-09-08 1998-10-06 Hnc Software Inc. Fraud detection using predictive modeling
CN102722814A (zh) * 2012-06-01 2012-10-10 汪德嘉 一种网上交易欺诈风险的自适应可控管理系统
CN103049851A (zh) * 2012-12-27 2013-04-17 中国建设银行股份有限公司 一种基于交易数据的反欺诈监控方法和装置
CN103064987A (zh) * 2013-01-31 2013-04-24 五八同城信息技术有限公司 一种虚假交易信息识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851653A (zh) * 2017-03-27 2017-06-13 珠海网博信息科技股份有限公司 一种自动识别伪造无线访问接入点的方法及系统

Also Published As

Publication number Publication date
CN103279868A (zh) 2013-09-04
US20140351109A1 (en) 2014-11-27

Similar Documents

Publication Publication Date Title
CN103279868B (zh) 一种自动识别欺诈订单的方法和装置
Anjum et al. Drivers of cash-on-delivery method of payment in e-commerce shopping: evidence from Pakistan
CN104143005B (zh) 一种相关搜索系统及方法
CN105893465A (zh) 自动问答方法和装置
CN107993085A (zh) 模型训练方法、基于模型的用户行为预测方法及装置
CN106296195A (zh) 一种风险识别方法及装置
US20150095247A1 (en) Classifying Fraud on Event Management Systems
Khan et al. An assessment of the impact of mobile banking on traditional banking in Nigeria
CN107832468A (zh) 需求识别方法和装置
CN103577988A (zh) 一种识别特定用户的方法和装置
CN106779126A (zh) 恶意占座订单的处理方法和系统
CN107563757A (zh) 数据风险控制的方法及装置
CN104636912A (zh) 信用卡套现识别方法和装置
CN109213859A (zh) 一种文本检测方法、装置及系统
US20110246357A1 (en) Chargeback response tool
CN107657445A (zh) 一种在线支付方法及在线支付系统
WO2020156003A1 (zh) 一种线下自助结算方法、装置和系统
CN107135314A (zh) 骚扰短信的检测方法、系统、移动终端和服务器
CN109582792A (zh) 一种文本分类的方法及装置
Sandifer et al. Detection of fake online hotel reviews
Unnikrishnan et al. Do Perceived Risk and Trust affect Consumer Adoption of Mobile Payments? A Study of Indian Consumers.
KR102351879B1 (ko) 상품 또는 서비스에 대한 비정형의 품목데이터를 자동으로 분류하는 방법 및 디바이스
CN117114514A (zh) 一种基于大数据的人才信息分析管理方法、系统及装置
Hidayati et al. Development of conceptual framework for cyber fraud investigation
Hatim et al. E-FoodCart: An Online Food Ordering Service

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant