CN110781971A - 一种商户类型识别方法、装置、设备和可读介质 - Google Patents

一种商户类型识别方法、装置、设备和可读介质 Download PDF

Info

Publication number
CN110781971A
CN110781971A CN201911048951.5A CN201911048951A CN110781971A CN 110781971 A CN110781971 A CN 110781971A CN 201911048951 A CN201911048951 A CN 201911048951A CN 110781971 A CN110781971 A CN 110781971A
Authority
CN
China
Prior art keywords
transaction
merchant
information
determining
transaction data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911048951.5A
Other languages
English (en)
Other versions
CN110781971B (zh
Inventor
陈帅
陈弢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911048951.5A priority Critical patent/CN110781971B/zh
Publication of CN110781971A publication Critical patent/CN110781971A/zh
Application granted granted Critical
Publication of CN110781971B publication Critical patent/CN110781971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/10Payment architectures specially adapted for electronic funds transfer [EFT] systems; specially adapted for home banking systems
    • G06Q20/102Bill distribution or payments

Abstract

本说明书实施例公开了商户类型识别方法、装置、设备及计算机可读介质。方案包括:获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;基于所述并发程度值,确定所述多址经营商户的商户类型。

Description

一种商户类型识别方法、装置、设备和可读介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种商户类型识别方法、装置、设备及计算机可读介质。
背景技术
随着电子支付的普及,在线上和线下支付场景下,均有越来越多的用户通过电子支付渠道向商户付款。银联、支付宝、财付通等电子支付软件方为商户提供该电子支付渠道。例如,支付宝开放了收款码功能,该收款码对应于一个账户,商户可以申请到收款码以成为支付宝商户,而用户可以通过使用支付宝等支付软件扫描商户提供的收款码实现支付。
其中,商户可以是各种类型的商户,例如,个人用户、移动摊贩商户、具有固定营业场所的商户等等。电子支付软件方通常需要针对不同类型的商户来制定不同的风险监控策略,或者为了提高某类商户的平台使用率而对其执行相应的营销激励措施。在这些情况下,均需要先确定商户的具体类型。
现有技术中,可以采用人工识别的方法来确定商户的具体类型。具体地,识别人员基于自身的行业知识,通过商户的名称来人工识别。例如,有一些连锁门店可以从商户名称看出来,如全家、肯德基等。但是该方法的缺点是,识别人员自身的行业知识有局限性,对于不了解的或名气不大的商户则无从判断,适用范围有限;并且人工识别的方法,人力成本较高且效率较低。
发明内容
有鉴于此,本申请实施例提供了一种商户类型识别方法、装置、设备及计算机可读介质,适用范围广,且提高了商户类型识别的效率。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种商户类型识别方法,包括:获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;基于所述并发程度值,确定所述多址经营商户的商户类型。
本说明书实施例提供的一种商户类型识别装置,包括:交易信息获取模块,用于获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;多址经营商户确定模块,用于基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;并发程度值确定模块,用于对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;商户类型确定模块,用于基于所述并发程度值,确定所述多址经营商户的商户类型。
本说明书实施例提供的一种商户类型识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;基于所述并发程度值,确定所述多址经营商户的商户类型。
本说明书实施例提供的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述任一实施例所述的商户类型识别方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请的方案首先获取商户的交易位置信息和交易时间信息,然后将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,再基于时间交易信息,通过确定多个交易数据簇的发生时间的重叠程度来确定商户类型。本申请的上述实施例提供了一种可以适用范围广、效率高的商户类型识别方法。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例中商户类型识别方法的应用场景的示意图;
图2为本说明书实施例提供的一种商户类型识别方法的流程示意图;
图3示出了将商户的交易信息聚集的交易数据簇映射到真实地理区域的实施例的示意图;
图4为本说明书实施例提供的对应于图2的一种商户类型识别装置的结构示意图;
图5为本说明书实施例提供的对应于图2的一种商户类型识别设备的结构示意图。
具体实施方式
电子支付软件方为了吸引用户进行线下支付,有时会投入活动资金用以开展优惠活动,对于参与活动的商户,用户在付款时可以获得金额减免的优惠。面对着大量活动资金,存在着不法商户勾结黑产用户进行虚假交易,然后从中套利的现象(问题,或,情况)。例如:在商户满20减5块的活动中,有不法商家通过网络召集一批用户,然后将付款码远程发送给用户,用户通过网络接收到付款码后,通过扫码付款20元,获得5元减免,实际支出15元,商家获得20元后将用户本金15元返还,并且与用户瓜分5元营销资金。
对于上述虚假交易的识别,一个重要手段是通过交易位置的聚集程度来判断,往往虚假交易不会在门店进行,而是通过网上的扫码完成,因此交易位置比较分散。然而在实际应用中,不只上述虚假交易具有同一个收款码(即,同一个收款账户)对应多个交易位置的特征,一码多店商户、移动商户等也具有该特征。其中,一码多店商户指的是多个门店同时使用一个收款账号的商户,多见于一个品牌下的连锁店。例如,尽管通常一个商户的一个门店对应有一个唯一的收款账户,但由于很多品牌商户签约时只有一个总的账户,因此,该品牌旗下的各个具体连锁店并没有独立的收款账户,使得这个账户下表现出来的交易位置特征也呈现分散的情况。因此,交易位置分散的一码多店商户、移动商户等正常商户会对虚假交易识别造成干扰,甚至一码多店的商户被稽核的可能性比较大,由此导致的误识别,既不利于对虚假交易的识别,也不利于提升商户和用户的支付平台使用体验,不利于业务健康发展。
为了避免将同样具有交易位置分散特点的一码多店商户、移动商户等正常商户误识别为进行虚假交易的非法商户,本申请的实施例提供了一种商户类型识别方法,用于识别一码多店商户和移动商户。
本申请的方案可以应用于商户KYC中;进一步地,可以应用于黑产交易识别中,以降低黑产账户的误识别率。其中,商户KYC(Know Your Customer)指的是对账户持有者的条件审查和备案,在本申请的实施例中,可以是指电子支付软件方对申请收款账户的商户的审查等。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本说明书实施例中商户类型识别方法的应用场景的示意图。如图1所示,图1中示出了商户终端、与该商户终端发生交易的至少一个用户终端以及服务器,其中,所述服务器可以用于获取商户终端与用户终端之间发生交易的交易信息,并基于所述交易信息来识别商户类型。
根据实施例,图1中的服务器可以是电子支付软件方的服务器。根据实施例,图1中的服务器可以是用于分析交易信息的服务器。根据实施例,上述电子支付软件方的服务器和用于分析交易信息的服务器可以是相同或不同的服务器,图1中仅作为示例将二者示出为同一个。
作为示例,商户可以通过商户终端向用户提供收款二维码,用户可以使用终端扫描商户提供的收款二维码,之后完成支付。其中,这里的用户可以指通过商户终端提供的收款码进行支付的客户。服务器获取多个用户终端与商户终端的交易信息,然后基于获取的交易信息分析商户类型。
图2为本说明书实施例提供的一种商户类型识别方法的流程示意图。从程序角度而言,流程的执行主体可以为搭载于服务器的用于识别商户类型的程序。
如图2所示,该流程可以包括以下步骤:
S210:获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息。
其中,所述交易信息可以是由发生交易的用户终端和/或商户终端发送至服务器的交易信息。
其中,获取多条交易信息,可以是获取与至少一个商户相关的交易信息,其中,与每个商户相关的交易信息可以为多条。
在本申请的实施例中,所述商户可以是向电子支付软件方申请了收款码的商户或者由电子软件支付方向其发放了收款码的商户。
可选地,所述商户可以是线下商户。其中,线下商户是指具有实际经营场所,并且在其实际经营场所处为用户提供服务的商户。
根据实施例,所述交易位置信息可以来自于交易LBS信息。
LBS(Location Based Service)信息是与基于位置的服务相关的信息,具体地,LBS信息可以包括地理位置信息。LBS首先通过移动运营商的无线电通讯网络(例如,GSM网、LTE网、CDMA网)或外部定位方式(例如,GPS)确定移动终端用户的位置消息(地理坐标,或大地坐标),然后提供与位置相关的各类信息服务。例如,首先确定手机用户的当前地理位置,然后在为手机用户提供其当前位置处例如1公里范围内的宾馆、影院、图书馆、加油站等的名称和地址。
根据实施例,所述交易位置信息可以是用户终端在提交支付请求时或完成支付时的地理位置信息。根据实施例,所述交易位置信息可以是用户终端的地理坐标信息,具体地,可以是用户终端的经纬度信息。
根据实施例,所述交易时间信息可以是在用户终端提交支付请求或完成支付的时间信息,但是不限于此。可选地,所述交易时间信息可以是商户终端接收到付款确认信息的时间。可选地,所述交易时间信息也可以是服务器接收到所述交易信息的时间。
根据实施例,所述交易时间信息可以是时间戳字符串格式的信息,也可以是年月日时分秒格式的信息,本申请对此不进行限定。
根据可选的实施例,所述交易信息还可以包括交易单号信息、商户标识信息、用户标识信息等,但不限于此。其中,商户标识信息可以包括商户名称、社会信用代码、服务器中的商户编码等,但不限于此。其中,用户标识信息可以包括电话号码、身份证号码、服务器中的用户编号等,但不限于此。
在一个具体的示例中,服务器获取的某商户的交易信息中的某一条可以包括:订单编号(例如,12345678)、订单完成时间(例如,201910150810)、该订单用户的电话号码(例如,13312345678)、该订单用户完成订单时的经纬度信息(例如,北纬N30°11'32.56”,东经E120°11'13.39”)等。
根据可选的实施例,获取多条交易信息,可以包括获取预设时间段内的多条交易信息。其中,所述预设时间段可以是根据需要设定的,例如,一天,或者一周等。
S220:基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的。
根据实施例,S220具体可以包括,基于所述交易位置信息,采用聚类算法将所述交易信息划分为至少一个交易数据簇;然后将交易信息聚集为多个交易数据簇的商户确定为多址经营商户。
其中,多址经营商户指的是在两个或更多个真实地理区域进行经营的商户,其中,所述区域中分布的交易信息的密度可以大于一定的预设值。
其中,聚类算法是一种常用的数据分析方法。直观上讲,聚类是指将相关度高的数据样本聚在一起,从而形成一个样本数据簇。由于聚类可以把相关度高的数据样本划分到一个样本数据簇,因此,可以使得同一个样本数据簇内的样本数据相关度较高,而不同样本数据簇之间的样本数据相关度较低。
根据实施例,所述聚类算法可以包括基于划分的聚类算法(例如,k-means等)、基于层次的聚类算法(例如,BIRCH等)、基于密度的聚类算法(例如,DBSCAN、CFSFDP等)、基于网格的聚类算法(例如,STING等)等。
可选地,S220中的所述聚类算法可以是基于密度的聚类算法。相比其他的聚类算法,基于密度的聚类算法可以在有噪声的数据中发现各种形状和各种大小的簇。
根据实施例,所述基于密度的聚类算法可以包括具有噪声的基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、密度峰值算法(Clustering by fast search and find of density peaks,CFSFDP)等。其中,DBSCAN和CFSFDP均是采用可视化的方法来查找不同密度的簇。
其中,DBSCAN的核心思想是,先发现密度较高的数据点,然后把相近的高密度数据点逐步都连成一片,进而生成各种簇。算法实现上为,对每个数据点为圆心,以邻域(eps-neigbourhood,eps)为半径画个圆,然后将这个圆内数据点的数量,作为该数据点的密度值。根据设定的密度阈值MinPts,对应的密度值小于MinPts的数据点为低密度的点,而大于或等于MinPts的数据点为高密度的点(称为核心点,Core point)。如果有一个高密度的数据点在另一个高密度的数据点的圈内,则将这两个数据点连接起来,由此可以不断地串联多个高密度的数据点。如果有低密度的数据点位于高密度的数据点的圈内,把将其连接至最近的高密度点,这样的低密度数据点称为边界点。至此,所有连接到一起的数据点构成一个簇。而不在任何高密度数据点的圈内的低密度点称为就是噪声点或异常点。DBSCAN算法在聚类的时候不需要预先指定簇的个数,最终得到的簇的个数不确定。
其中,CFSFDP的核心思想是,每个簇都有个最大密度点为簇中心,每个簇中心都吸引并连接其周围密度较低的点,且不同的簇中心点都相对较远。具体地,CFSFDP首先计算每个数据点的密度大小(即,计算当前数据点的邻域eps-neigbourhood内的数据点的数量),然后再计算每个点到其最近的且比它密度高的点的距离。因此,对于每个数据点有两个属性值,一个是其本身密度值,一个是其到比它密度高的最近数据点的距离值。基于这两个属性可以生成一个二维图表(决策图),在二维图表右上角的若干点的密度高且离其他簇中心较远,代表不同的簇的中心。然后将其他的数据点逐步连接到离其最近的且比其密度高的点,直到最后连到某个簇中心点为止。由此,所有共享一个簇中心的点都属于一个簇,而离其他点较远且密度很低的点就是噪声点/异常点了。由于CFSFDP是基于相对距离和相对密度来连接点的,所以可以发现不同密度的簇。
在实际应用中,商户中可能包括非法商户,即,与一些黑产用户发生虚假交易,从而套取交易软件提供方的营销资金的商户。这类虚假交易的非法商户的交易LBS通常分布范围很广,且交易位置分散、不会呈现聚集的特性,由此,通过上述S220的方法可以排除其中参与虚假交易的非法商户。
进一步地,在实际应用中,正常商户中可以包括普通的单址经营商户(例如,具有一个门店的商户),单址经营商户的交易LBS往往聚集在一个交易数据簇。商户中也包括多址经营商户(例如,一码多店的商户/连锁商户、移动商户),多址经营商户的交易LBS往往聚集在多个交易数据簇,即,两个或更多个交易数据簇。由此,通过上述S220方法可以筛选出正常商户中的多址经营商户。
S230:对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值。
根据实施例,多址经营商户可以包括一码多店商户、移动商户等类型。不同类型的多址经营商户,其交易信息随时间分布的情况呈现不同的特点。鉴于此,可以基于多址经营商户的交易时间信息以及聚集的多个交易数据簇信息来确定多址经营商户的类型。
具体地,对于移动商户类型,在同一时段内,一个收款账户相关的交易信息通常不会分布至不同的交易数据簇;对于一码多店商户,在同一时段内,一个收款账户相关的交易信息通常分布在不同的交易数据簇。由此,可以通过识别在相同的时段内,多址经营商户的多个交易数据簇的并发程度,来确定该多址经营商户的类型。
其中,多个交易数据簇的并发程度值可以是用于表征,在相同时段内各个交易数据簇的交易同时发生情况的特征值。所述特征值可以是与各数据簇中交易同时发生的概率、各数据簇中同时段发生的交易数量等相关的数值。
S240:基于所述并发程度值,确定所述多址经营商户的商户类型。
其中,所述多址经营商户的商户类型可以包括一码多店商户或移动商户等。
根据实施例,S240具体可以包括:判断所述并发程度值是否大于或等于预设程度值,得到判断结果;若所述判断结果表示所述并发程度值大于或等于所述预设程度值,则将所述多址经营商户确定为一码多店商户;若所述判断结果表示所述并发程度值小于所述预设程度值,则将所述多址经营商户确定为移动商户。
具体地,对于一码多店商户,其在同一交易时段内,各交易数据簇的并发程度值高。作为示例,某连锁商户在某市区具有10家门店,并且该10家门店具有同一个收款账户,那么,基于交易位置信息统计的该连锁商户的交易信息会聚集在10个交易数据簇,而在某时段内,各个交易数据簇的交易数据同时发生的概率非常高,即并发程度值高。
具体地,对于移动商户,其在同一时段内,各交易数据簇的并发程度值低。作为示例,具有一个收款账户的某移动摊贩,其上午在A区域经营,下午在B区域经营,那么,基于交易位置信息统计的该移动摊贩的交易信息会聚集在两个交易数据簇,而在任意时段内,这两个交易数据簇的交易信息几乎不可能同时发生,并发程度值低。
本申请的上述实施例提供了一种识别商户类型的方法,对于具有一个收款账户的商户,通过分析与其发生交易的付款账户的位置分布以及交易的时间分布,来判断该收款账户对应的商户的类型。与传统的人工识别商户类型的方法相比,该商户类型识别方法的适用范围广且效率高。
上述实施例的方案可以应用于商户KYC中,确定了商户的商户类型之后,交易软件提供方可以根据不同的商户类型,来制定不同的针对性的营销策略。
在上述实施例的基础上,还可以将识别的商户类型的结果应用于进行风险账户监控,也可以应用于黑产交易识别中,以降低黑产账户的误识别率。
可选地,在一个应用实施例中,确定所述多址经营商户的商户类型之后,还可以包括:基于确定的所述商户类型,从潜在风险商户中排除确定了所述商户类型的商户,其中,所述潜在风险商户是基于交易分散特性被刻画为具有虚假交易风险的商户。
可选地,在一个应用实施例中,确定所述多址经营商户的商户类型之后,还可以包括:针对不同的商户类型的商户,可以采用不同的风险监控策略进行账户监控。例如,对于一码多店商户类型与移动商户类型,所采用的风险监控策略是不同的。
基于图2的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
首先结合具体实施例,对确定多址经营商户的方法进行详细说明。
根据可选的实施例,S220具体可以包括:S221,对于每个商户,采用第一聚类算法,将所述商户的交易信息根据交易位置信息聚类成至少一个第一交易数据簇;将对应多个第一交易数据簇的商户,确定为第一类商户。
S222,基于所述第一类商户的交易位置信息,建立所述第一类商户的交易信息与真实地理区域的映射关系;将所述第一类商户的交易信息中的位于低密度地理区域中的交易信息确定为噪声交易信息,其中,低密度地理区域是指与少于预设数量的交易信息建立映射关系的真实地理区域。
S223,采用第二聚类算法,将所述第一类商户的除所述噪声交易信息之外的交易信息根据交易位置信息聚类成至少一个第二交易数据簇;将具有多个第二交易数据簇的商户,确定为多址经营商户。
根据实施例,S221中的第一聚类算法和S223中的第二聚类算法可以相同或不同。根据实施例,第一聚类算法和第二聚类算法可以分别为基于密度的聚类算法。可选地,第一聚类算法和第二聚类算法可以独立地选自于DBSCAN或CFSFDP。
根据实施例,当采用DBSCAN进行聚类时,其中的聚类参数——半径(即,eps)和密度(即,MinPts)可以根据需要进行设定。参数设置的大小可以影响进行数据聚类的精度。在一个示例中,可以将半径设置为1km,可以将密度设置为5。根据实施例,当第一类算法和第二聚类算法均为DBSCAN时,分别设置的半径和密度可以根据需要设置为相同或不同,本申请对此不进行限定。
在实际应用场景中,交易信息中的交易位置信息可以是由用户终端上报的交易LBS,但是可能由于数据延迟、网络信号弱等各种原因导致其在完成交易时上报的交易LBS不是用户完成交易时用户终端实时的LBS信息。直观来看,就是尽管用户终端的支付行为发生在商户门店内,但是其上传至服务器的交易LBS信息可以距离该门店很远。
根据实施例,可以采用上述S222来解决该问题。具体地,采用GeoHash方式,针对每个商户,对其交易信息进行降噪处理,删除其中LBS信息不准确的噪声点。
在实施例中,建立所述第一类商户的交易信息与真实地理区域的映射关系可以是采用GeoHash方式实现的。其中,GeoHash本质上是一种空间索引方式,其基本原理是将地球理解为一个二维平面,将平面递归分解成更小的子块,每个子块在一定经纬度范围内拥有相同的编码。以GeoHash方式建立空间索引的,可以提高对空间数据进行经纬度检索的效率。
具体地,先采用GeoHash的方式,基于32位哈希编码方式,将交易LBS中的经纬度数据快速编码成一串哈希字符,每个哈希字符代表一个小的区域。即,针对每个多址经营商户,将其对应的交易位置信息映射于基于真实的地理坐标构建的真实地理区域。
在本说明书实施例中,在各个真实地理区域中分布的交易信息的数量可以不等,可以将分布有大于或等于预设数量阈值的交易信息的区域记为高密度地理区域,可以将分布有小于预设数量阈值的交易信息的区域记为低密度地理区域。具体地,对于某多址经营商户,可以将其对应的位于低密度地理区域中的交易信息识别为噪声信息,并删除该噪声信息。上述实施例中,预设数量阈值可以根据实际需要进行设定,例如,可以设定为2、5等数值。
在实施例中,可以将每个真实地理区域设定为相同的矩形,所述矩形可以是正方形。其中,每个真实地理区域的精度可以根据需要进行设定,作为示例,矩形区域的长宽可以分别为1km和0.5km或均为0.5km等。
图3示出了将商户的交易信息聚集的交易数据簇映射到真实地理区域的实施例的示意图。图3中,示意性地示出了9个真实地理区域(矩形区域),且示意性地示出了一个商户的映射到各个真实地理区域的交易数据簇(圆点)。
参照图3,根据上述实施例的S222,假设预设数量阈值为2,则将区域②和区域⑥中的交易数据点作为噪声数据点去除。
根据可选的实施例,在S222中,所述基于所述第一类商户的交易位置信息,建立所述第一类商户的交易信息与真实地理区域的映射关系之后,还可以包括:确定所述真实地理区域的中心位置;将所述第一类商户的交易位置信息中的交易位置,替换为与所述交易位置信息对应的交易信息具有映射关系的真实地理区域的所述中心位置。
参照图3,图中的星型标记表示各个真实地理区域的中心,具体地,各个真实地理区域的几何中心。
具体地,可以获取各个地理区域的中心的地理位置信息,具体的,经纬度信息;然后将真实地理区域中的数据点的交易位置信息替换为该真实地理区域的中心位置信息。
将同一个地理区域中的各个交易数据点的位置信息替换为同一个位置信息的好处在于,在S223中再次进行基于位置信息的聚类时,可以提高聚类操作的数据处理效率。
根据本申请的上述实施例,通过采用S220的方法,先通过第一聚类方法对所有商户进行初步筛选,排除其中涉及虚假交易的非法商户以及单址经营商户;然后,针对初步筛选出的多址经营商户,采用GeoHash方法去除这些商户对应的交易信息中可能会影响到聚类效果的噪声数据;最后,基于去噪后的交易数据,通过第二聚类方法,得到最终筛选出的多址经营商户。
在上述实施例中,先执行S221再执行S222,与先执行S222再执行S221的方法相比,可以减少数据处理量、提高商户筛选的效率。具体是因为,通常,相比于多址经营商户,线下商户中的单址经营商户是大多数,通过聚类方法进行初步筛选,可以很大程度地降低后续操作的数据处理量。
根据上述具体实施例筛选出多址经营商户后,下面结合具体实施例来进一步说明确定商户类型的方法。
根据实施例,S230具体可以包括:对于所述多址经营商户的每个交易数据簇,将所述多址经营商户的交易信息根据所述交易时间信息进行分时段统计,得到所述每个交易数据簇的分时段交易数量信息;基于所述每个交易数据簇的分时段交易数量信息,确定在同一时段内所述多址经营商户的各个交易数据簇之间的并发程度值。
在一个可选的实施例中,S230更具体地可以包括:遍历各个时段,对于遍历到的时段,获取该时段内各交易数据簇中交易信息的数量。若各交易数据簇发生的数量均大于或等于一定预设数值,则认为是一码多店;否则,则认为是移动商户;
在另一可选的实施例中,S230更具体地可以包括:对于多址经营商户的每个交易数据簇,基于所述交易时间信息,统计每个时间窗口内的交易数量,其中,所述时间窗口是对预设时间段进行划分得到的,所述时间窗口的数量为M个,M为大于或等于2的整数;基于所述每个时间窗口内的交易数量,构建与每个交易数据簇对应的M维向量,所述M维向量的各维度的数值为各时间窗口的交易数量;根据所述多址经营商户的交易数据簇对应的M维向量的内积,确定与所述多址经营商户对应的特征值,所述特征值用于后续对所述多址经营商户的类型进行判断。
其中,所述预设时间段可以与当S210中获取交易信息时预设时间段相同或不同,可以根据需要来设定,本申请对比不做具体限定。在一个示例中,当S210中获取交易信息时,可以是获取各个商户在某一天的交易信息,当S230中进行时间窗口划分时,可以将一天划分为例如24个时间窗口,每个时间窗口对应于一个小时,然后统计每个时间窗口内的交易信息量。在另一个示例中,当S210中获取交易信息时,可以获取例如一周的交易信息,但是划分时间窗口时,依然可以按照将每天划分为例如24个时间窗口,每个时间窗口对应于一个小时,然后统计每个时间窗口内的交易信息量。
其中,所述时间窗口的大小可以是根据需要进行设定的。例如,可以将一天24小时按每10分钟作为一个时间窗口进行划分,得到144个时间窗口;此时,一个交易数据簇对应于一个144维向量,代表在一天内以10分钟为单位进行划分得到的交易频次分布。再例如,可以将一天24小时按每1小时作为一个时间窗口进行划分,得到24个时间窗口;此时,一个交易数据簇对应于一个24维向量,代表在一天内以1小时为单位进行划分得到的交易频次分布。
其中,时间窗口的划分可以是等值划分的也可以是非等值划分的,可以根据需要来具体设定。例如,在一天的24小时中,可以将00:00至04:00这4个小时划分为一个时间窗口,将其他的每1个小时划分为一个时间窗口,由此可以将该一天共划分为21个时间窗口。
与上述实施例相对应的,S240更具体地可以包括:判断所述特征值是否大于或等于预设特征值阈值,得到判断结果;若所述判断结果表示所述特征值大于或等于所述预设特征值阈值,则将所述多址经营商户确定为一码多店商户;若所述判断结果表示所述特征值小于所述预设特征值阈值,则将所述多址经营商户确定为移动商户。其中,所述预设特征值阈值可以根据需要进行设定,可以设置为大于零的数,例如,可以设置为0.1。
在实际应用示例中,多址经营商户可以包括两个交易数据簇,这种情况下,可以构建与两个交易数据簇各自对应的M维向量;然后计算两个M维向量的内积,将内积值作为所述多址经营商户的特征值。
具体地,可以将与两个交易数据簇分别对应的M维向量记为m1和m2;然后计算这两个向量的内积,即,计算m1·m2,来作为所述多址经营商户的特征值。之后判断该特征值与预设特征值阈值的大小关系,从而确定多址经营商户的类型。
现举例说明,示例1:对于某商户A,基于该商户一天内的交易信息分析得到两个交易数据簇a1和a2。假设将一天划分为24个时间窗口,即每个小时为一个时间窗口,然后统计每个时间窗口内的交易数量。统计交易数据簇a1在各个时间窗口内的交易数量信息,假设得到向量a1={0,0,0,0,0,10,50,130,120,30,0,0,0,0,0,0,0,0,0,0,0,0,0,0},统计交易数据簇a2在各个时间窗口内的交易数量信息,假设得到向量a2={0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,40,120,150,100,80,30,0,0}。然后计算向量a1与向量a2的内积,结果为零,即特征值为零。在假设预设特征值阈值为0.1的情况下,该特征值小于预设特征值阈值。由此,可以判断该商户A为移动商户(移动摊贩)。
示例2:对于某商户B,基于该商户一天内的交易信息分析得到两个交易数据簇b1和b2。假设将一天划分为24个时间窗口,即每个小时为一个时间窗口,然后统计每个时间窗口内的交易数量。统计交易数据簇b1在各个时间窗口内的交易数量信息,假设得到向量b1={0,0,0,0,0,0,40,280,140,30,40,150,200,140,30,23,44,130,190,120,30,10,6,0},统计交易数据簇b2在各个时间窗口内的交易数量信息,假设得到向量b2={0,0,0,0,0,0,33,220,110,23,28,170,155,120,14,25,21,108,166,89,20,5,0,0}。然后计算向量b1与向量b2的内积作为特征值,在假设阈值特征值为0.1的情况下,该特征值显然大于预设特征值阈值。由此,可以判断该商户B为一码多店商户,具体地在该实例中,该商户B的一个收款账户对应两个经营位置。
在实际应用示例中,多址经营商户可以包括多于两个交易数据簇,这种情况下,可以构建与各个交易数据簇种的每个对应的M维向量;然后计算所述多址经营商户的多个交易数据簇中每两个交易数据簇对应的M维向量的内积;再基于所述每两个交易数据簇对应的M维向量的内积,计算各个内积的平均值作为与所述多址经营商户对应的特征值。
具体地,可以将与N(N>2)个交易数据簇分别对应的M维向量记为m1、m2、……、m(N-1)、m(N);然后计算这N个向量中每两个之间的内积,得到
Figure BDA0002254821700000161
个内积;再计算这
Figure BDA0002254821700000162
个内积的平均值,来作为所述多址经营商户的特征值。之后判断该特征值与预设特征值阈值的大小关系,从而确定多址经营商户的类型。
现举例说明,示例3:对于某商户C,基于该商户一天内的交易信息分析得到三个交易数据簇c1、c2和c3。假设将一天划分为6个时间窗口,即每4个小时为一个时间窗口,然后统计每个时间窗口内的交易数量。统计交易数据簇c1在各个时间窗口内的交易数量信息,假设得到向量c1={0,10,160,135,170,30},统计交易数据簇c2在各个时间窗口内的交易数量信息,假设得到向量c2={0,57,135,122,111,33},统计交易数据簇c3在各个时间窗口内的交易数量信息,假设得到向量c3={16,35,100,146,123,88}。然后计算向量c1与向量c2的内积、向量c1与向量c3的内积以及向量c2与向量c3的内积,然后计算上述三者的平均值作为特征值,可知,得到的特征值大于预设特征值阈值0.1。由此,可以判断该商户C为一码多店商户,并且具体地在该实例中,该商户C的一个收款账户对应三个经营位置。
在上述具体的实施例中,针对一个商户,通过将聚类得到的交易数据簇中的数据基于交易时间信息构造为多维向量,通过计算向量的内积来准确、高效地识别较易混淆的一码多店商户和移动摊贩商户。
基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图4为本说明书实施例提供的对应于图2的一种商户类型识别装置的结构示意图。
如图4所示,该装置可以包括:
交易信息获取模块410,用于获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;
多址经营商户确定模块420,用于基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;
并发程度值确定模块430,用于对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;
商户类型确定模块440,用于基于所述并发程度值,确定所述多址经营商户的商户类型。
根据实施例,所述多址经营商户确定模块420,具体可以用于:对于每个商户,采用第一聚类算法,将所述商户的交易信息根据交易位置信息聚类成至少一个第一交易数据簇;将对应多个第一交易数据簇的商户,确定为第一类商户;基于所述第一类商户的交易位置信息,建立所述第一类商户的交易信息与真实地理区域的映射关系;将所述第一类商户的交易信息中的位于低密度地理区域中的交易信息确定为噪声交易信息,其中,低密度地理区域是指与少于预设数量的交易信息建立映射关系的真实地理区域;采用第二聚类算法,将所述第一类商户的除所述噪声交易信息之外的交易信息根据交易位置信息聚类成至少一个第二交易数据簇;将具有多个第二交易数据簇的商户,确定为多址经营商户。
根据实施例,所述多址经营商户确定模块420,还可以用于:所述基于所述第一类商户的交易位置信息,建立所述第一类商户的交易信息与真实地理区域的映射关系之后,还可以包括:确定所述真实地理区域的中心位置;将所述第一类商户的交易位置信息中的交易位置,替换为与所述交易位置信息对应的交易信息具有映射关系的真实地理区域的所述中心位置。
根据示实施例,所述并发程度值确定模块430,具体可以用于:对于所述多址经营商户的每个交易数据簇,将所述多址经营商户的交易信息根据所述交易时间信息进行分时段统计,得到所述每个交易数据簇的分时段交易数量信息;基于所述每个交易数据簇的分时段交易数量信息,确定在同一时段内所述多址经营商户的各个交易数据簇之间的并发程度值。
根据实施例,所述并发程度值确定模块430,具体可以用于:对于多址经营商户的每个交易数据簇,基于所述交易时间信息,统计每个时间窗口内的交易数量,其中,所述时间窗口是对预设时间段进行划分得到的,所述时间窗口的数量为M个,M为大于或等于2的整数;基于所述每个时间窗口内的交易数量,构建与每个交易数据簇对应的M维向量,所述M维向量的各维度的数值为各时间窗口的交易数量;根据所述多址经营商户的交易数据簇对应的M维向量的内积,确定与所述多址经营商户对应的特征值。
根据实施例,所述并发程度值确定模块430,具体还可以用于:计算所述多址经营商户的多个交易数据簇中,每两个交易数据簇对应的M维向量的内积;基于所述每两个交易数据簇对应的M维向量的内积,计算各个内积的平均值作为与所述多址经营商户对应的特征值。
根据实施例,所述商户类型确定模块440,具体可以用于:判断所述并发程度值是否大于或等于预设程度值,得到判断结果;若所述判断结果表示所述并发程度值大于或等于所述预设程度值,则将所述多址经营商户确定为一码多店商户;若所述判断结果表示所述并发程度值小于所述预设程度值,则将所述多址经营商户确定为移动商户。
根据实施例,所述商户类型确定模块440,具体可以用于:判断所述特征值是否大于或等于预设特征值阈值,得到判断结果;若所述判断结果表示所述特征值大于或等于所述预设特征值阈值,则将所述多址经营商户确定为一码多店商户;若所述判断结果表示所述特征值小于所述预设特征值阈值,则将所述多址经营商户确定为移动商户。
根据实施例,基于本申请所述的商户类型识别装置确定商户类型后,可以应用于:基于确定的所述商户类型,从潜在风险商户中排除确定了所述商户类型的商户,其中,所述潜在风险商户是基于交易分散特性被刻画为具有虚假交易风险的商户。
可以理解,上述的各模块是指计算机程序或者程序段,用于执行某一项或多项特定的功能。此外,上述各模块的区分并不代表实际的程序代码也必须是分开的。
基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
图5为本说明书实施例提供的对应于图2的一种商户类型识别设备的结构示意图。如图5所示,设备500可以包括:
至少一个处理器510;以及,
与所述至少一个处理器通信连接的存储器530;其中,
所述存储器530存储有可被所述至少一个处理器510执行的指令520,所述指令被所述至少一个处理器510执行,以使所述至少一个处理器510能够:获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;基于所述并发程度值,确定所述多址经营商户的商户类型。
基于同样的思路,本说明书实施例还提供了上述方法对应的一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现以下步骤:
获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;
基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;
对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;
基于所述并发程度值,确定所述多址经营商户的商户类型。
上述对本说明书特定实施例进行了描述,在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的装置、设备与方法是对应的,因此,装置、设备也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种商户类型识别方法,包括:
获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;
基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;
对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;
基于所述并发程度值,确定所述多址经营商户的商户类型。
2.根据权利要求1所述的方法,所述基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值,具体包括:
对于所述多址经营商户的每个交易数据簇,将所述多址经营商户的交易信息根据所述交易时间信息进行分时段统计,得到所述每个交易数据簇的分时段交易数量信息;
基于所述每个交易数据簇的分时段交易数量信息,确定在同一时段内所述多址经营商户的各个交易数据簇之间的并发程度值。
3.根据权利要求2所述的方法,其中,
所述对于所述多址经营商户的每个交易数据簇,将所述多址经营商户的交易信息根据所述交易时间信息进行分时段统计,得到所述每个交易数据簇的分时段交易数量信息,具体包括:
对于多址经营商户的每个交易数据簇,基于所述交易时间信息,统计每个时间窗口内的交易数量,其中,所述时间窗口是对预设时间段进行划分得到的,所述时间窗口的数量为M个,M为大于或等于2的整数;
所述基于所述每个交易数据簇的分时段交易数量信息,确定在同一时段内所述多址经营商户的各个交易数据簇之间的并发程度值,具体包括:
基于所述每个时间窗口内的交易数量,构建与每个交易数据簇对应的M维向量,所述M维向量的各维度的数值为各时间窗口的交易数量;
根据所述多址经营商户的交易数据簇对应的M维向量的内积,确定与所述多址经营商户对应的特征值。
4.根据权利要求3所述的方法,所述根据所述多址经营商户的交易数据簇对应的M维向量的内积,确定与所述多址经营商户对应的特征值,具体包括:
计算所述多址经营商户的多个交易数据簇中,每两个交易数据簇对应的M维向量的内积;
基于所述每两个交易数据簇对应的M维向量的内积,计算各个内积的平均值作为与所述多址经营商户对应的特征值。
5.根据权利要求1所述的方法,所述基于所述并发程度值,确定所述多址经营商户的商户类型,具体包括:
判断所述并发程度值是否大于或等于预设程度值,得到判断结果;
若所述判断结果表示所述并发程度值大于或等于所述预设程度值,则将所述多址经营商户确定为一码多店商户。
6.根据权利要求1所述的方法,所述判断所述并发程度值是否大于或等于预设程度值,得到判断结果之后,还包括:
若所述判断结果表示所述并发程度值小于所述预设程度值,则将所述多址经营商户确定为移动商户。
7.根据权利要求3所述的方法,所述基于所述并发程度值,确定所述多址经营商户的商户类型,具体包括:
判断所述特征值是否大于或等于预设特征值阈值,得到判断结果;
若所述判断结果表示所述特征值大于或等于所述预设特征值阈值,则将所述多址经营商户确定为一码多店商户。
8.根据权利要求7所述的方法,所述判断所述特征值是否大于或等于预设特征值阈值,得到判断结果之后,还包括:
若所述判断结果表示所述特征值小于所述预设特征值阈值,则将所述多址经营商户确定为移动商户。
9.根据权利要求1所述的方法,其中,所述基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,具体包括:
对于每个商户,采用第一聚类算法,将所述商户的交易信息根据交易位置信息聚类成至少一个第一交易数据簇;
将对应多个第一交易数据簇的商户,确定为第一类商户;
基于所述第一类商户的交易位置信息,建立所述第一类商户的交易信息与真实地理区域的映射关系;
将所述第一类商户的交易信息中的位于低密度地理区域中的交易信息确定为噪声交易信息,其中,低密度地理区域是指与少于预设数量的交易信息建立映射关系的真实地理区域;
采用第二聚类算法,将所述第一类商户的除所述噪声交易信息之外的交易信息根据交易位置信息聚类成至少一个第二交易数据簇;
将具有多个第二交易数据簇的商户,确定为多址经营商户。
10.根据权利要求9所述的方法,所述基于所述第一类商户的交易位置信息,建立所述第一类商户的交易信息与真实地理区域的映射关系之后,还包括:
确定所述真实地理区域的中心位置;
将所述第一类商户的交易位置信息中的交易位置,替换为与所述交易位置信息对应的交易信息具有映射关系的真实地理区域的所述中心位置。
11.根据权利要求1所述的方法,所述确定所述多址经营商户的商户类型之后,还包括:
基于确定的所述商户类型,从潜在风险商户中排除确定了所述商户类型的商户,其中,所述潜在风险商户是基于交易分散特性被刻画为具有虚假交易风险的商户。
12.一种商户类型识别装置,包括:
交易信息获取模块,用于获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;
多址经营商户确定模块,用于基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;
并发程度值确定模块,用于对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;
商户类型确定模块,用于基于所述并发程度值,确定所述多址经营商户的商户类型。
13.根据权利要求12所述的装置,其中,所述并发程度值确定模块,具体用于:
对于所述多址经营商户的每个交易数据簇,将所述多址经营商户的交易信息根据所述交易时间信息进行分时段统计,得到所述每个交易数据簇的分时段交易数量信息;
基于所述每个交易数据簇的分时段交易数量信息,确定在同一时段内所述多址经营商户的各个交易数据簇之间的并发程度值。
14.根据权利要求13所述的装置,其中,并发程度值确定模块,具体用于:
对于多址经营商户的每个交易数据簇,基于所述交易时间信息,统计每个时间窗口内的交易数量,其中,所述时间窗口是对预设时间段进行划分得到的,所述时间窗口的数量为M个,M为大于或等于2的整数;
基于所述每个时间窗口内的交易数量,构建与每个交易数据簇对应的M维向量,所述M维向量的各维度的数值为各时间窗口的交易数量;
根据所述多址经营商户的交易数据簇对应的M维向量的内积,确定与所述多址经营商户对应的特征值。
15.根据权利要求12所述的装置,其中,所述商户类型确定模块,具体用于:
判断所述并发程度值是否大于或等于预设程度值,得到判断结果;
若所述判断结果表示所述并发程度值大于或等于所述预设程度值,则将所述多址经营商户确定为一码多店商户。
16.根据权利要求15所述的装置,其中,所述商户类型确定模块,具体还用于:
若所述判断结果表示所述并发程度值小于所述预设程度值,则将所述多址经营商户确定为移动商户。
17.一种商户类型识别设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取多条交易信息,每条所述交易信息包括交易位置信息和交易时间信息;
基于所述交易位置信息,将交易信息聚集为多个交易数据簇的商户确定为多址经营商户,其中,所述交易数据簇是采用聚类算法对所述多条交易信息进行聚类得到的;
对于每个所述多址经营商户,基于所述交易时间信息,确定相同时段内所述多址经营商户的多个交易数据簇的并发程度值;
基于所述并发程度值,确定所述多址经营商户的商户类型。
18.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至11中任一项所述的商户类型识别方法。
CN201911048951.5A 2019-10-31 2019-10-31 一种商户类型识别方法、装置、设备和可读介质 Active CN110781971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911048951.5A CN110781971B (zh) 2019-10-31 2019-10-31 一种商户类型识别方法、装置、设备和可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911048951.5A CN110781971B (zh) 2019-10-31 2019-10-31 一种商户类型识别方法、装置、设备和可读介质

Publications (2)

Publication Number Publication Date
CN110781971A true CN110781971A (zh) 2020-02-11
CN110781971B CN110781971B (zh) 2022-04-29

Family

ID=69387946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911048951.5A Active CN110781971B (zh) 2019-10-31 2019-10-31 一种商户类型识别方法、装置、设备和可读介质

Country Status (1)

Country Link
CN (1) CN110781971B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292015A (zh) * 2020-03-10 2020-06-16 北京意锐新创科技有限公司 一种收款数据的统计方法和装置
CN111415151A (zh) * 2020-03-10 2020-07-14 支付宝(杭州)信息技术有限公司 连锁商户的识别方法、装置、电子设备及存储介质
CN111782813A (zh) * 2020-07-07 2020-10-16 支付宝(杭州)信息技术有限公司 一种用户社群的评价方法、装置及设备
CN111784467A (zh) * 2020-07-01 2020-10-16 支付宝(杭州)信息技术有限公司 一种地理位置的处理方法及系统
CN113111935A (zh) * 2021-04-07 2021-07-13 东南大学 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150187021A1 (en) * 2013-12-26 2015-07-02 Square, Inc. Automatic triggering of receipt delivery
CN105894265A (zh) * 2014-05-09 2016-08-24 林晓真 安全简易的移动电子交易系统和方式
CN106875078A (zh) * 2016-08-03 2017-06-20 阿里巴巴集团控股有限公司 交易风险检测方法、装置及设备
CN108876465A (zh) * 2018-06-28 2018-11-23 阿里巴巴集团控股有限公司 一种对商户进行经营模式分群的方法、装置和服务器
CN109101989A (zh) * 2018-06-29 2018-12-28 阿里巴巴集团控股有限公司 一种商户分类模型构建和商户分类方法、装置及设备
CN109299954A (zh) * 2018-08-22 2019-02-01 中国银联股份有限公司 一种违规商户识别方法和装置
CN109508989A (zh) * 2018-09-27 2019-03-22 珠海横琴现联盛科技发展有限公司 基于位置信息的移动支付身份及内容确认方法
CN109544163A (zh) * 2018-11-30 2019-03-29 华青融天(北京)软件股份有限公司 一种用户支付行为的风险控制方法、装置、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150187021A1 (en) * 2013-12-26 2015-07-02 Square, Inc. Automatic triggering of receipt delivery
CN105894265A (zh) * 2014-05-09 2016-08-24 林晓真 安全简易的移动电子交易系统和方式
CN106875078A (zh) * 2016-08-03 2017-06-20 阿里巴巴集团控股有限公司 交易风险检测方法、装置及设备
CN108876465A (zh) * 2018-06-28 2018-11-23 阿里巴巴集团控股有限公司 一种对商户进行经营模式分群的方法、装置和服务器
CN109101989A (zh) * 2018-06-29 2018-12-28 阿里巴巴集团控股有限公司 一种商户分类模型构建和商户分类方法、装置及设备
CN109299954A (zh) * 2018-08-22 2019-02-01 中国银联股份有限公司 一种违规商户识别方法和装置
CN109508989A (zh) * 2018-09-27 2019-03-22 珠海横琴现联盛科技发展有限公司 基于位置信息的移动支付身份及内容确认方法
CN109544163A (zh) * 2018-11-30 2019-03-29 华青融天(北京)软件股份有限公司 一种用户支付行为的风险控制方法、装置、设备及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292015A (zh) * 2020-03-10 2020-06-16 北京意锐新创科技有限公司 一种收款数据的统计方法和装置
CN111415151A (zh) * 2020-03-10 2020-07-14 支付宝(杭州)信息技术有限公司 连锁商户的识别方法、装置、电子设备及存储介质
CN111784467A (zh) * 2020-07-01 2020-10-16 支付宝(杭州)信息技术有限公司 一种地理位置的处理方法及系统
CN111784467B (zh) * 2020-07-01 2022-06-24 支付宝(杭州)信息技术有限公司 一种地理位置的处理方法及系统
CN111782813A (zh) * 2020-07-07 2020-10-16 支付宝(杭州)信息技术有限公司 一种用户社群的评价方法、装置及设备
CN111782813B (zh) * 2020-07-07 2023-10-31 支付宝(杭州)信息技术有限公司 一种用户社群的评价方法、装置及设备
CN113111935A (zh) * 2021-04-07 2021-07-13 东南大学 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法
CN113111935B (zh) * 2021-04-07 2024-04-09 东南大学 一种大宗商品电子商务市场中基于交易数据实时聚类的相同交易主体判定方法

Also Published As

Publication number Publication date
CN110781971B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110781971B (zh) 一种商户类型识别方法、装置、设备和可读介质
CN108446281B (zh) 确定用户亲密度的方法、装置及存储介质
CN107122369B (zh) 一种业务数据处理方法、装置和系统
TWI673666B (zh) 資料風險控制的方法及裝置
CN111309614B (zh) A/b测试方法、装置及电子设备
CN107578238A (zh) 一种风险控制方法及设备
CN109933514B (zh) 一种数据测试方法和装置
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
US20180018734A1 (en) Method and system for automatically categorizing financial transaction data
CN105824855B (zh) 一种对数据对象筛选分类的方法、装置以及电子设备
CN113344567B (zh) 一种聚合码的支付页面的访问方法、装置、设备及介质
CN111949643A (zh) 基于业务建模的数据处理方法及系统
CN106529953B (zh) 一种对业务属性进行风险识别的方法及装置
US20210150631A1 (en) Machine learning approach to automatically disambiguate ambiguous electronic transaction labels
CN113205402A (zh) 对账方法、装置、电子设备及计算机可读介质
CN111090780A (zh) 可疑交易信息的确定方法及装置、存储介质、电子设备
CN110264332A (zh) 账户出账的方法、装置和电子设备
CN110516713A (zh) 一种目标群体识别方法、装置及设备
CN110930078A (zh) 一种业务对象识别方法、装置及设备
CN110599278A (zh) 聚合设备标识符的方法、装置和计算机存储介质
CN109063967B (zh) 一种风控场景特征张量的处理方法、装置及电子设备
CN111259975A (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN111105238A (zh) 一种交易风险控制方法和装置
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
CN115564450B (zh) 一种风控方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant