CN108805583A - 基于地址映射的电商欺诈检测方法、装置、设备及介质 - Google Patents
基于地址映射的电商欺诈检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN108805583A CN108805583A CN201810480124.2A CN201810480124A CN108805583A CN 108805583 A CN108805583 A CN 108805583A CN 201810480124 A CN201810480124 A CN 201810480124A CN 108805583 A CN108805583 A CN 108805583A
- Authority
- CN
- China
- Prior art keywords
- address
- electric business
- address information
- term vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种基于地址映射的电商欺诈检测方法、装置、设备及计算机可读存储介质。其中,方法包括将从用户电商交易数据中提取文本地址信息中的收货地址和IP地址信息、用户身份证号、用户手机号对应的归属地地址信息统一为同一级别的行政区划;然后将文本地址信息输入预先训练好的word2vec模型,得到文本地址信息对应的词向量矩阵,词向量矩阵为由文本地址信息中各个地址唯一对应的地址词向量构成;将词向量矩阵和电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到电商交易数据对应的欺诈概率。本申请提供的技术方案提升了电商交易欺诈检测的准确性,可有效避免消费者财产损失和信息泄漏的现象发生。
Description
技术领域
本发明实施例涉及电子商务欺诈检测技术领域,特别是涉及一种基于地址映射的电商欺诈检测方法、装置、设备及计算机可读存储介质。
背景技术
随着互联网技术的快速发展,越来越多商务活动的业务流程电子化,电子商务(简称电商)应用而生。基于人民生活水平的日益提高和电子商务交易具有涵盖范围广、便捷性等优势,电子商务交易成为大势所趋。
由于电商市场和电子商务法律法规尚未健全,电子商务管理存在很多漏洞,导致各类电子欺诈行为纷纷涌现且防不胜防,例如消费者账户被盗用,造成消费者的信息泄露和财产损失。
对于电子商务日益普及的现状,如何使得消费者免受电子欺诈,为电子商务发展中最为重要的一环。电商交易数据中包括丰富的地址信息、交易商品信息、支付账号、用户注册信息等,在众多电子商务欺诈行为中,地址信息不一致的欺诈概率占有很大比例,例如IP地址和收货地址不一致,由于地址信息作为文本信息很难应用,现有的电商欺诈检测方法中,没有充分利用电子交易中的地址信息。
发明内容
本发明实施例的目的是提供一种基于地址映射的电商欺诈检测方法、装置、设备及计算机可读存储介质,充分利用了电商交易数据中的地址信息,提升了电商欺诈检测的准确性。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种基于地址映射的电商欺诈检测方法,包括:
从用户电商交易数据中提取文本地址信息,并将所述文本地址信息中的各类地址统一为相同的行政区划级别,所述文本地址信息的类型包括IP地址信息、用户身份证号、收货地址和用户手机号;
将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵,所述词向量矩阵为由所述文本地址信息中各个地址唯一对应的地址词向量构成;
将所述词向量矩阵和所述电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到所述电商交易数据对应的欺诈概率。
可选的,所述将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵包括:
所述文本地址信息对应的文本地址矩阵为A=a1,1,…,ai,j,ai,j为所述文本地址信息中第i个地址的第j类地址;
将所述文本地址矩阵和所述文本地址信息中各地址的上下文信息输入所述word2vec模型中,所述上下文信息根据下述公式计算所得:
ai,max(j-o,0),…,ai,j-1,ai,j+1,…,ai,(j+1+o),o为滑动窗口的大小;
基于下述公式对所述word2vec模型进行迭代训练,学习得到权重矩阵,以作为所述文本地址信息对应的词向量矩阵Wc*k:
Wc*k={x1,x2,…,xc};
T为所述文本地址信息中一条地址语句中包含的地址个数,an为一条地址语句中的第n个地址,o为滑动窗口的大小,m为第n个地址an的滑动窗口的移动范围,c为所述文本地址信息中包含的地址个数,xc为所述文本地址信息中的第c个地址对应的地址词向量,k为所述文本地址信息中各地址对应的地址词向量的维度。
可选的,在所述将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵之后,还包括:
利用降维算法将所述词向量矩阵降维为二维词向量矩阵,以使所述电商交易数据中的地址向量分布在二维空间中。
可选的,所述利用降维算法将所述词向量矩阵降维为二维词向量矩阵包括:
根据下述公式,对所述词向量矩阵Wc*k中的每个地址词向量{x1,x2,…,xc}进行去中心化:
计算各地址词向量的协方差矩阵XXT,X={x1,x2,…,xc},XT为矩阵X的转置矩阵;
对所述协方差矩阵进行特征分解,并取各特征值中最大的两个特征值对应的特征向量构成投影矩阵W={w1,w2};
根据下述公式计算所述二维词向量矩阵Wc*2:
Wc*2=X*W。
可选的,所述欺诈概率预测模型为利用多个电商交易数据和各自对应的欺诈行为对预先构建的XGBoost模型进行训练所得。
可选的,所述将所述词向量矩阵和所述电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到所述电商交易数据对应的欺诈概率包括:
利用所述词向量矩阵替换所述电商交易数据中的文本地址信息,并将所述电商交易数据对应的数值特征输入至所述XGBoost模型中,所述XGBoost模型输出所述电商交易数据为欺诈交易的概率;
所述XGBoost模型的损失函数为:
式中,ys为第s个训练样本的标签,ys=0(不属于欺诈交易),或者ys=1(属于欺诈交易),为所述XGBoost模型预测第s个训练样本属于欺诈交易的概率,l为评估函数;Ω(fv)为所述XGBoost模型中第棵树的叶子节点个数,y为所有训练样本的标签构成的向量,为所有训练样本利用所述XGBoost模型预测的概率构成的向量。
可选的,所述将所述文本地址信息中的各类地址统一为相同的行政区划级别为:
利用IP地址对应表将所述文本地址信息中IP地址信息对应到当前电子交易地址的地级市地址;
分别从所述收货地址、所述用户身份证号和所述用户手机号对应的归属地地址中提取相应的地级市地址。
本发明实施例另一方面提供了一种基于地址映射的电商欺诈检测装置,包括:
地址信息提取模块,用于从用户电商交易数据中提取文本地址信息,并将所述文本地址信息中的各类地址统一为相同的行政区划级别,所述文本地址信息的类型包括IP地址信息、用户身份证号、收货地址和用户手机号;
地址词向量矩阵获得模块,用于将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵,所述词向量矩阵为由所述文本地址信息中各个地址唯一对应的地址词向量构成;
欺诈概率预测模块,用于将所述词向量矩阵和所述电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到所述电商交易数据对应的欺诈概率。
本发明实施例还提供了一种基于地址映射的电商欺诈检测设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述基于地址映射的电商欺诈检测方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有基于地址映射的电商欺诈检测程序,所述基于地址映射的电商欺诈检测程序被处理器执行时实现如前任一项所述基于地址映射的电商欺诈检测方法的步骤。
本发明实施例提供了一种基于地址映射的电商欺诈检测方法,首先将从用户电商交易数据中提取文本地址信息中的收货地址和IP地址信息、用户身份证号、用户手机号对应的归属地地址信息统一为同一级别的行政区划;然后将文本地址信息输入预先训练好的word2vec模型,得到文本地址信息对应的词向量矩阵,词向量矩阵为由文本地址信息中各个地址唯一对应的地址词向量构成;最后将词向量矩阵和电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到电商交易数据对应的欺诈概率。
本申请提供的技术方案的优点在于,充分利用电商交易数据中地址维度的信息,将文本的地址信息通过word2vec模型映射到多维空间,以词向量的形式表示地址信息,能够从数值上衡量地址与地址之间的邻近性,准确分析电商欺诈检测领域中地址与地址之间的关联性,可有效规避地址信息不一致造成的欺诈交易的发生,从而提升了电商交易欺诈检测的准确性;此外,将得到的地址词向量输入欺诈概率预测模型得到当前交易记录属于欺诈交易的概率,提高了欺诈概率预测模型模型预测的准确度,进而提升了电商交易欺诈检测的准确性,可有效避免消费者财产损失和信息泄漏现象的发生。
此外,本发明实施例还针对基于地址映射的电商欺诈检测方法提供了相应的实现装置、设备及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置、设备及计算机可读存储介质具有相应的优点。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于地址映射的电商欺诈检测方法的流程示意图;
图2为本发明实施例提供的另一种基于地址映射的电商欺诈检测方法的流程示意图;
图3为本发明实施例提供的基于地址映射的电商欺诈检测装置的一种具体实施方式结构图;
图4为本发明实施例提供的基于地址映射的电商欺诈检测装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种基于地址映射的电商欺诈检测方法的流程示意图,本发明实施例可包括以下内容:
S101:从用户电商交易数据中提取文本地址信息,并将文本地址信息中的各类地址统一为相同的行政区划级别。
用户电商交易数据为用户在互联网上进行电子商务交易时的数据。电商交易数据可包括用户近三天交易数据信息(交易数量、交易金额总数、各交易对应的支付订单的创建时间如年月日时分秒、绑定银行卡账号信息及数量、绑定的身份证号信息、数量及对应的归属地信息、各交易支付订单完成时的IP地址信息、支付订单上的收货人联系方式和收货地址)和用户近一天交易数据信息(交易数量、交易金额总数、绑定银行卡账号信息及数量、绑定的身份证号信息、数量及对应的归属地信息、各交易对应的支付订单的创建时间、各交易支付订单完成时的IP地址信息、支付订单上的收货人联系方式和收货地址)。
电商交易数据中包含丰富的文本地址信息,文本地址信息中包括多个地址,每个地址均包括四类地址,这四种地址类型可为IP地址信息、用户身份证号、收货地址和用户手机号。当然,文本地址信息中还可包括其他类型的地址信息,这均不影响本申请的实现。
为了方便、快捷的分析这四类地址之间的关联关系,可将这四类地址统一为相同级别的行政区划,也就是说将文本地址信息中包含的每个地址的每类地址均进行地址清洗和筛选,具体过程可为:
利用IP地址对应表将文本地址信息中IP地址信息对应到当前电子交易地址的地级市地址;分别从收货地址、用户身份证号和用户手机号对应的归属地地址中提取相应的地级市地址。其中,收货地址、用户身份证号和用户手机号均为标称型数据,IP地址xxx.xxx.xxx.xxx的字符型数据。
举例来说,统一将这四类地址归到地级市,IP地址,根据IP地址对应表,对应真实地址信息,截取到对应的地级市;身份证归属地地址信息通过身份证号截取前6位地址码对应真实地址信息,截取到对应的地级市;收货地址直接提取地级市作为地址信息;手机号归属地根据记录中的手机号的1-7位对应真实地址信息,地址截取到对应的地级市。
S102:将文本地址信息输入预先训练好的word2vec模型,得到文本地址信息对应的词向量矩阵。
文本地址信息对应的文本地址矩阵为A=a1,1,…,ai,j,ai,j为文本地址信息中第i个地址的第j类地址;地址的类型为S101中所介绍的四类地址。
词向量矩阵为由文本地址信息中各个地址唯一对应的地址词向量构成,也就是说,文本地址信息中包含多个地址,每个地址都唯一对应一个地址词向量,多个地址词向量组合为词向量矩阵。
word2vec模型包括输入层,隐藏层,输出层,为利用大量训练样本训练word2vec模型框架所得,在具体应用该模型时,可将文本地址中的每个地址和地址的上下文信息作为word2vec模型的输入,举例来说,每条记录都有四个地址[a1,a2,a3,a4],如地址a2的上下文信息为[a1]和[a3,a4]。然后进行模型迭代训练后学习到隐藏层的权重矩阵,也即word2vec模型的输出为权重矩阵,权重矩阵的每一列对应的为文本地址中每个地址的地址词向量,权重矩阵的行数为每个地址词向量的维度。具体过程可包括:
将文本地址矩阵和文本地址信息中各地址的上下文信息输入word2vec模型中,上下文信息根据下述公式计算所得:
ai,max(j-o,0),…,ai,j-1,ai,j+1,…,ai,(j+1+o),o为滑动窗口的大小;
基于下述公式对word2vec模型进行迭代训练,学习得到权重矩阵,以作为文本地址信息对应的词向量矩阵Wc*k:
Wc*k={x1,x2,…,xc};
T为文本地址信息中一条地址语句中包含的地址个数,an为一条地址语句中的第n个地址,o为滑动窗口的大小,m为第n个地址an的滑动窗口的移动范围,m的取值可从-o到o,即m=-o,m=-o+1,…,m=0,m=1,…,m=o,c为文本地址信息中包含的地址个数,xc为文本地址信息中的第c个地址对应的地址词向量,k为文本地址信息中各地址对应的地址词向量的维度。滑动窗口用于限定当前地址的上下文个数。
S103:将词向量矩阵和电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到电商交易数据对应的欺诈概率。
在电商交易数据中,交易数据中的数值特征可包括用户近三天交易金额总数、用户近三天内绑定银行卡数量、用户近三天交易数量、用户近三天绑定的身份证数量、用户近三天绑定的身份证归属地数量、用户近一天交易金额总数、用户近一天内绑定银行卡数量、用户近一天内的交易数量、用户近一天绑定的身份证数量、用户近一天绑定的身份证归属地数量、支付订单的创建时间,如年月日时分秒。
利用词向量矩阵替换电商交易数据中的文本地址信息,将替换后的电商交易数据中的数值特征输入至欺诈概率预测模型,训练好的欺诈概率预测模型输出对应的交易属于诈骗交易的概率。
其中,欺诈概率预测模型可为利用多个电商交易数据和各自对应的欺诈行为对预先构建的XGBoost模型进行训练所得。当然,欺诈概率预测模型还可为其他模型训练所得,这均不影响本申请的实现。
XGBoost模型的训练过程可为:
获取原始样本集,原始样本集中包含多个电商交易数据和对应各交易是否欺诈行为的标签,按照S101-S102的方法得到原始样本集中每个样本的词向量矩阵,并将词向量矩阵代替原数据中的文本地址信息,可按照4:1的比例将原始样本集中的样本划分为训练样本和测试样本,将训练样本对应的电商交易数据和对应的标签输入至建立的XGBoost模型框架中,对XGBoost模型进行训练。
XGBoost模型的输入为X(x1,x2,…,xn)和Y(Y=0或Y=1)。
其中,X为每个训练样本向量,(x1,x2,…,xn)为每个训练样本的特征,这些特征中包括4×k维地址向量(每个样本包含四个地址向量),n-4×k维的数值特征。Y为标签,Y=0为当前训练样本不为欺诈交易,Y=1代表当前训练样本为欺诈交易。
XGBoost模型训练过程中的损失函数为:
式中,ys为第s个训练样本的标签,ys=0(不属于欺诈交易),或者ys=1(属于欺诈交易),为XGBoost模型预测第s个训练样本属于欺诈交易的概率,l为评估函数;Ω(fv)为XGBoost模型中第棵树的叶子节点个数,y为所有训练样本的标签构成的向量,为所有训练样本利用XGBoost模型预测的概率构成的向量。
在本发明实施例提供的技术方案中,充分利用电商交易数据中地址维度的信息,将文本的地址信息通过word2vec模型映射到多维空间,以词向量的形式表示地址信息,能够从数值上衡量地址与地址之间的邻近性,准确分析电商欺诈检测领域中地址与地址之间的关联性,可有效规避地址信息不一致造成的欺诈交易的发生,从而提升了电商交易欺诈检测的准确性;此外,将得到的地址词向量输入欺诈概率预测模型得到当前交易记录属于欺诈交易的概率,提高了欺诈概率预测模型模型预测的准确度,进而提升了电商交易欺诈检测的准确性,可有效避免消费者财产损失和信息泄漏现象的发生。
参见图2,图2为本发明实施例提供的另一种基于地址映射的电商欺诈检测方法的流程示意图,具体的可包括以下内容:
S201:从用户电商交易数据中提取文本地址信息,并将文本地址信息中的各类地址统一为相同的行政区划级别。
具体的,与上述方法实施例中的S101所描述一致,此处不再赘述。
S202:将文本地址信息输入预先训练好的word2vec模型,得到文本地址信息对应的词向量矩阵。
具体的,与上述方法实施例中的S102所描述一致,此处不再赘述。
S203:利用降维算法将词向量矩阵降维为二维词向量矩阵,以使电商交易数据中的地址向量分布在二维空间中。
在将词向量矩阵降维为二维词向量矩阵的过程可如下所述:
对词向量矩阵Wc*k中的每个地址词向量{x1,x2,…,xc},根据下述公式进行去中心化:
c为文本地址信息中包含的地址个数,k为文本地址信息中各地址对应的地址词向量的维度。
计算各地址词向量的协方差矩阵XXT,X={x1,x2,…,xc},XT为矩阵X的转置矩阵。
对协方差矩阵进行特征分解,并取各特征值中最大的两个特征值对应的特征向量构成投影矩阵W={w1,w2}。投影矩阵为特征向量矩阵。
根据下述公式计算二维词向量矩阵Wc*2:Wc*2=X*W。
通过降维算法PCA降维到二维词向量矩阵,绘制坐标系,展现电商欺诈检测中用户地址向量在二维空间的分布情况。
需要说明的是,投影矩阵中包含的元素个数与降维后的词向量矩阵的维数相同,也就是说根据实际情况和用户需求确定将词向量矩阵降维为d维词向量矩阵,那么在进行特征分解时,取各特征值中最大的d各特征值对应的特征向量组成投影矩阵W={w1,w2,…,wd},wd为第d个特征值对应的特征向量。
S204:将二维词向量矩阵和电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到电商交易数据对应的欺诈概率。
具体的,除了将词向量矩阵替换为二维词向量矩阵,其他的与上述方法实施例中的S103所描述一致,此处不再赘述。
由上可知,本申请对得到的词向量矩阵进行降维处理,不仅减少了后续待处理的数据量,有利于提升电商欺诈检测速率,还方便在二维坐标系中展示用户电商交易记录中的地址信息,直观显示电商交易记录中各地址之间的关联关系,有利于规避地址信息不一致造成的欺诈交易的发生,从而提升了电商交易欺诈检测的准确性。
本发明实施例还针对基于地址映射的电商欺诈检测方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的基于地址映射的电商欺诈检测装置进行介绍,下文描述的基于地址映射的电商欺诈检测装置与上文描述的基于地址映射的电商欺诈检测方法可相互对应参照。
参见图3,图3为本发明实施例提供的基于地址映射的电商欺诈检测装置在一种具体实施方式下的结构图,该装置可包括:
地址信息提取模块301,用于从用户电商交易数据中提取文本地址信息,并将文本地址信息中的各类地址统一为相同的行政区划级别,文本地址信息的类型包括IP地址信息、用户身份证号、收货地址和用户手机号。
地址词向量矩阵获得模块302,用于将文本地址信息输入预先训练好的word2vec模型,得到文本地址信息对应的词向量矩阵,词向量矩阵为由文本地址信息中各个地址唯一对应的地址词向量构成。
欺诈概率预测模块303,用于将词向量矩阵和电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到电商交易数据对应的欺诈概率。
可选的,在本实施例的一些实施方式中,请参阅图4,所述装置例如还可以包括降维模块304,用于利用降维算法将词向量矩阵降维为二维词向量矩阵,以使电商交易数据中的地址向量分布在二维空间中。
具体的,所述降维模块304可包括:
去中心化子模块,用于对词向量矩阵Wc*k中的每个地址词向量{x1,x2,…,xc}根据下述公式进行去中心化:
协方差矩阵计算子模块,用于计算各地址词向量的协方差矩阵XXT,X={x1,x2,…,xc},XT为矩阵X的转置矩阵;
投影矩阵计算子模块,用于对协方差矩阵进行特征分解,并取各特征值中最大的两个特征值对应的特征向量构成投影矩阵W={w1,w2};
降维矩阵获得子模块,用于根据下述公式计算二维词向量矩阵Wc*2:
Wc*2=X*W。
可选的,在本实施例的另一些实施方式中,所述地址词向量矩阵获得模块302例如还可以包括:
信息输入子模块,用于将文本地址矩阵和文本地址信息中各地址的上下文信息输入word2vec模型中,文本地址信息对应的文本地址矩阵为A=a1,1,…,ai,j,ai,j为文本地址信息中第i个地址的第j类地址;上下文信息根据下述公式计算所得:
ai,max(j-o,0),…,ai,j-1,ai,j+1,…,ai,(j+1+o),o为滑动窗口的大小;
学习子模块,用于基于下述公式对word2vec模型进行迭代训练,学习得到权重矩阵,以作为文本地址信息对应的词向量矩阵Wc*k:
Wc*k={x1,x2,…,xc};
T为文本地址信息中一条地址语句中包含的地址个数,an为一条地址语句中的第n个地址,o为滑动窗口的大小,m为第n个地址an的滑动窗口的移动范围,c为文本地址信息中包含的地址个数,xc为文本地址信息中的第c个地址对应的地址词向量,k为文本地址信息中各地址对应的地址词向量的维度。
在另一种具体的实施方式中,所述欺诈概率预测模块303可包括:
替换子模块,用于利用词向量矩阵替换电商交易数据中的文本地址信息;
信息输入子模块,用于将替换后的电商交易数据对应的数值特征输入至XGBoost模型中,XGBoost模型输出电商交易数据为欺诈交易的概率;
其中,欺诈概率预测模型为利用多个电商交易数据和各自对应的欺诈行为对预先构建的XGBoost模型进行训练所得,训练XGBoost模型的损失函数为:
ys为第s个训练样本的标签,ys=0(不属于欺诈交易),或者ys=1(属于欺诈交易),为XGBoost模型预测第s个训练样本属于欺诈交易的概率,l为评估函数;Ω(fv)为XGBoost模型中第棵树的叶子节点个数,y为所有训练样本的标签构成的向量,为所有训练样本利用XGBoost模型预测的概率构成的向量。
本发明实施例所述基于地址映射的电商欺诈检测装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可有效规避地址信息不一致造成的欺诈交易的发生,提升了电商交易欺诈检测的准确性,可有效避免消费者财产损失和信息泄漏的现象发生。
本发明实施例还提供了一种基于地址映射的电商欺诈检测设备,具体可包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如上任意一实施例所述基于地址映射的电商欺诈检测方法的步骤。
本发明实施例所述基于地址映射的电商欺诈检测设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例充分利用了电商交易数据中的地址信息,可有效规避地址信息不一致造成的欺诈交易的发生,提升了电商交易欺诈检测的准确性,可有效避免消费者财产损失和信息泄漏的现象发生。
本发明实施例还提供了一种计算机可读存储介质,存储有基于地址映射的电商欺诈检测程序,所述基于地址映射的电商欺诈检测程序被处理器执行时如上任意一实施例所述基于地址映射的电商欺诈检测方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可有效规避地址信息不一致造成的欺诈交易的发生,提升了电商交易欺诈检测的准确性,可有效避免消费者财产损失和信息泄漏的现象发生。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种基于地址映射的电商欺诈检测方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种基于地址映射的电商欺诈检测方法,其特征在于,包括:
从用户电商交易数据中提取文本地址信息,并将所述文本地址信息中的各类地址统一为相同的行政区划级别,所述文本地址信息的类型包括IP地址信息、用户身份证号、收货地址和用户手机号;
将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵,所述词向量矩阵为由所述文本地址信息中各个地址唯一对应的地址词向量构成;
将所述词向量矩阵和所述电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到所述电商交易数据对应的欺诈概率。
2.根据权利要求1所述的基于地址映射的电商欺诈检测方法,其特征在于,所述将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵包括:
所述文本地址信息对应的文本地址矩阵为A=a1,1,…,ai,j,ai,j为所述文本地址信息中第i个地址的第j类地址;
将所述文本地址矩阵和所述文本地址信息中各地址的上下文信息输入所述word2vec模型中,所述上下文信息根据下述公式计算所得:
ai,max(j-o,0),…,ai,j-1,ai,j+1,…,ai,(j+1+o),o为滑动窗口的大小;
基于下述公式对所述word2vec模型进行迭代训练,学习得到权重矩阵,以作为所述文本地址信息对应的词向量矩阵Wc*k:
Wc*k={x1,x2,…,xc};
T为所述文本地址信息中一条地址语句中包含的地址个数,an为一条地址语句中的第n个地址,m为第n个地址an的滑动窗口的移动范围,o为滑动窗口的大小;c为所述文本地址信息中包含的地址个数,xc为所述文本地址信息中的第c个地址对应的地址词向量,k为所述文本地址信息中各地址对应的地址词向量的维度。
3.根据权利要求2所述的基于地址映射的电商欺诈检测方法,其特征在于,在所述将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵之后,还包括:
利用降维算法将所述词向量矩阵降维为二维词向量矩阵,以使所述电商交易数据中的地址向量分布在二维空间中。
4.根据权利要求3所述的基于地址映射的电商欺诈检测方法,其特征在于,所述利用降维算法将所述词向量矩阵降维为二维词向量矩阵包括:
根据下述公式,对所述词向量矩阵Wc*k中的每个地址词向量{x1,x2,…,xc}进行去中心化:
计算各地址词向量的协方差矩阵XXT,X={x1,x2,…,xc},XT为矩阵X的转置矩阵;
对所述协方差矩阵进行特征分解,并取各特征值中最大的两个特征值对应的特征向量构成投影矩阵W={w1,w2};
根据下述公式计算所述二维词向量矩阵Wc*2:
Wc*2=X*W。
5.根据权利要求1-4任意一项所述的基于地址映射的电商欺诈检测方法,其特征在于,所述欺诈概率预测模型为利用多个电商交易数据和各自对应的欺诈行为对预先构建的XGBoost模型进行训练所得。
6.根据权利要求5所述的基于地址映射的电商欺诈检测方法,其特征在于,所述将所述词向量矩阵和所述电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到所述电商交易数据对应的欺诈概率包括:
利用所述词向量矩阵替换所述电商交易数据中的文本地址信息,并将所述电商交易数据对应的数值特征输入至所述XGBoost模型中,所述XGBoost模型输出所述电商交易数据为欺诈交易的概率;
所述XGBoost模型的损失函数为:
式中,ys为第s个训练样本的标签,ys=0(不属于欺诈交易),或者ys=1(属于欺诈交易),为所述XGBoost模型预测第s个训练样本属于欺诈交易的概率,l为评估函数;Ω(fv)为所述XGBoost模型中第棵树的叶子节点个数,y为所有训练样本的标签构成的向量,为所有训练样本利用所述XGBoost模型预测的概率构成的向量。
7.根据权利要求6所述的基于地址映射的电商欺诈检测方法,其特征在于,所述将所述文本地址信息中的各类地址统一为相同的行政区划级别为:
利用IP地址对应表将所述文本地址信息中IP地址信息对应到当前电子交易地址的地级市地址;
分别从所述收货地址、所述用户身份证号和所述用户手机号对应的归属地地址中提取相应的地级市地址。
8.一种基于地址映射的电商欺诈检测装置,其特征在于,包括:
地址信息提取模块,用于从用户电商交易数据中提取文本地址信息,并将所述文本地址信息中的各类地址统一为相同的行政区划级别,所述文本地址信息的类型包括IP地址信息、用户身份证号、收货地址和用户手机号;
地址词向量矩阵获得模块,用于将所述文本地址信息输入预先训练好的word2vec模型,得到所述文本地址信息对应的词向量矩阵,所述词向量矩阵为由所述文本地址信息中各个地址唯一对应的地址词向量构成;
欺诈概率预测模块,用于将所述词向量矩阵和所述电商交易数据中数值特征输入预先训练好的欺诈概率预测模型中,得到所述电商交易数据对应的欺诈概率。
9.一种基于地址映射的电商欺诈检测设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述基于地址映射的电商欺诈检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于地址映射的电商欺诈检测程序,所述基于地址映射的电商欺诈检测程序被处理器执行时实现如权利要求1至7任一项所述基于地址映射的电商欺诈检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810480124.2A CN108805583B (zh) | 2018-05-18 | 2018-05-18 | 基于地址映射的电商欺诈检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810480124.2A CN108805583B (zh) | 2018-05-18 | 2018-05-18 | 基于地址映射的电商欺诈检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108805583A true CN108805583A (zh) | 2018-11-13 |
CN108805583B CN108805583B (zh) | 2020-01-31 |
Family
ID=64091029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810480124.2A Active CN108805583B (zh) | 2018-05-18 | 2018-05-18 | 基于地址映射的电商欺诈检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108805583B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858922A (zh) * | 2018-12-24 | 2019-06-07 | 航天信息股份有限公司 | 非正常纳税人识别方法及装置 |
CN110009486A (zh) * | 2019-04-09 | 2019-07-12 | 连连银通电子支付有限公司 | 一种欺诈检测的方法、系统、设备及计算机可读存储介质 |
CN110197284A (zh) * | 2019-04-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN110335044A (zh) * | 2019-05-22 | 2019-10-15 | 深圳壹账通智能科技有限公司 | 支付风险校验方法、装置、计算机设备及存储介质 |
CN110349004A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于用户节点关系网络的欺诈风险侦测方法及装置 |
CN110474844A (zh) * | 2019-06-28 | 2019-11-19 | 天津大学 | 高性能智能路由器学习型索引数据结构及其训练方法 |
CN111274811A (zh) * | 2018-11-19 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 地址文本相似度确定方法以及地址搜索方法 |
CN113630495A (zh) * | 2020-05-07 | 2021-11-09 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
CN115293861A (zh) * | 2022-10-09 | 2022-11-04 | 连连银通电子支付有限公司 | 一种商品识别方法、装置、电子设备及存储介质 |
CN116843432A (zh) * | 2023-05-10 | 2023-10-03 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807987A (zh) * | 2017-10-31 | 2018-03-16 | 广东工业大学 | 一种字符串分类方法、系统及一种字符串分类设备 |
-
2018
- 2018-05-18 CN CN201810480124.2A patent/CN108805583B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107807987A (zh) * | 2017-10-31 | 2018-03-16 | 广东工业大学 | 一种字符串分类方法、系统及一种字符串分类设备 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274811A (zh) * | 2018-11-19 | 2020-06-12 | 阿里巴巴集团控股有限公司 | 地址文本相似度确定方法以及地址搜索方法 |
CN111274811B (zh) * | 2018-11-19 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 地址文本相似度确定方法以及地址搜索方法 |
CN109858922A (zh) * | 2018-12-24 | 2019-06-07 | 航天信息股份有限公司 | 非正常纳税人识别方法及装置 |
CN110009486A (zh) * | 2019-04-09 | 2019-07-12 | 连连银通电子支付有限公司 | 一种欺诈检测的方法、系统、设备及计算机可读存储介质 |
CN110197284A (zh) * | 2019-04-30 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN110197284B (zh) * | 2019-04-30 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种虚假地址识别方法、装置及设备 |
CN110335044A (zh) * | 2019-05-22 | 2019-10-15 | 深圳壹账通智能科技有限公司 | 支付风险校验方法、装置、计算机设备及存储介质 |
CN110474844B (zh) * | 2019-06-28 | 2021-06-08 | 天津大学 | 高性能智能路由器学习型索引数据结构的训练方法和芯片 |
CN110474844A (zh) * | 2019-06-28 | 2019-11-19 | 天津大学 | 高性能智能路由器学习型索引数据结构及其训练方法 |
CN110349004A (zh) * | 2019-07-02 | 2019-10-18 | 北京淇瑀信息科技有限公司 | 基于用户节点关系网络的欺诈风险侦测方法及装置 |
CN113630495A (zh) * | 2020-05-07 | 2021-11-09 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
CN113630495B (zh) * | 2020-05-07 | 2022-08-02 | 中国电信股份有限公司 | 涉诈订单预测模型训练方法和装置,订单预测方法和装置 |
CN115293861A (zh) * | 2022-10-09 | 2022-11-04 | 连连银通电子支付有限公司 | 一种商品识别方法、装置、电子设备及存储介质 |
CN116843432A (zh) * | 2023-05-10 | 2023-10-03 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
CN116843432B (zh) * | 2023-05-10 | 2024-03-22 | 北京微聚智汇科技有限公司 | 一种基于地址文本信息的反欺诈方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108805583B (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108805583A (zh) | 基于地址映射的电商欺诈检测方法、装置、设备及介质 | |
CN104915879B (zh) | 基于金融数据的社会关系挖掘的方法及装置 | |
Johan et al. | Conceptualizing the influences of knowledge and religiosity on Islamic credit card compliance | |
CN109615454A (zh) | 确定用户金融违约风险的方法及装置 | |
CN108959246A (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
CN107993085A (zh) | 模型训练方法、基于模型的用户行为预测方法及装置 | |
CN108133013A (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
CN108288181A (zh) | 一种优惠活动的生成方法、装置、终端设备及存储介质 | |
CN109213859A (zh) | 一种文本检测方法、装置及系统 | |
CN107993146A (zh) | 金融大数据的风控方法及系统 | |
CN109584037A (zh) | 贷款用户信用评分的计算方法、装置和计算机设备 | |
CN109636510A (zh) | 一种确定用户风险偏好、理财产品的推荐方法和装置 | |
CN107657445A (zh) | 一种在线支付方法及在线支付系统 | |
CN104835071A (zh) | 一种填单方法及装置 | |
CN109460889A (zh) | 风险管控方法、系统、服务器及计算机可读存储介质 | |
CN113989019A (zh) | 识别风险的方法、装置、设备及存储介质 | |
CN108280358A (zh) | 一种信息提醒方法、装置及电子设备 | |
CN108427661A (zh) | 一种新大数据标签生产方法及装置 | |
US20140012763A1 (en) | Money transfer fraud prevention methods and systems | |
CN107392614A (zh) | 线下交易的实现方法和装置 | |
CN110135684A (zh) | 一种能力测评方法、能力测评装置及终端设备 | |
CN112435068A (zh) | 一种恶意订单识别方法、装置、电子设备及存储介质 | |
CN108171584A (zh) | 一种基于虚拟现实的智能超市购物系统 | |
CN111062770A (zh) | 商户识别方法、设备及计算机可读介质 | |
CN107527193A (zh) | 一种代维支付系统、方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |