一种用于识别线下商户的方法和装置
技术领域
本公开涉及计算机领域,尤其涉及一种用于识别线下商户的方法和装置。
背景技术
商户可以签约交易平台,由交易平台来管理商户的交易,例如电子支付和结算。商户可包括线下商户和线上商户。线下商户是指具有线下实体经营点的商户,而线上商户没有线下实体经营点。商户可信策略体系是交易平台在商户管理和运营中需要重点考虑的,也是对风险商户进行处罚的重要参考维度。交易平台有时候需要辨别出线下商户,并且可针对线下商户实现针对性运营管控,或者防止非线下商户冒充线下商户。随着不同交易平台的涌现,商户交易形态日益复杂且相关支付接口多样化,一个商户往往签约多种收单机构,导致交易存在多城市分散,交易并发量异常等现象,对风险商户识别带来了一定的干扰,好商户不可避免地被打扰。
一种用于识别线下商户的现有方法是使用业务白名单。该方法主要通过业务人员拓展商户,确认商户具有线下实体经营点,经营规模较大,运营状况良好。由于业务白名单来源于业务人员的拓展,因此不适合于自助签约的个人或企业商户占比很高的交易平台。此外,白名单商户需要定期回溯核查机制,如果定期回溯核查机制不健全,则可能导致白名单可信度下降。
另一种用于识别线下商户的现有方法是使用商户签约MCC码或商户营业执照。MCC码也称为商户类别码,一般4位组成,由收单机构为签约商户设置,标明商户的主营业务范围和行业归属,是判断境内跨行交易商户结算手续费标准的主要依据。个人或企业与交易平台签约成为商户时可以提供MCC码或商户营业执照。交易平台可以依据商户在签约时提供的MCC码或营业执照类型来确定可信资质。然而,由于商户签约时存在MCC误选与乱用或者不选、校验机制不完全、MCC缺失等问题,基于MCC码的可信度也有所下降。通过商户营业执照来确定可信资质的方法对部分行业准确率较高,如教育医疗等,但是覆盖行业较窄,不能满足可信商户应用的需求。
因此,本领域需要用于识别线下商户的方法和装置。
发明内容
本公开提出了一种用于识别线下商户的方法和装置。在一个实施例中,交易平台可收集商户的多个交易的交易数据,并基于交易数据进行特征提取以获得交易特征,其中所提取的交易特征可包括根据定位服务生成的交易位置。然后可根据交易位置来确定落在预定地理范围中的交易聚簇。如果交易聚簇包括超过预定数目的交易,则可确定该商户为线下商户并且该交易聚簇可表示该商户的线下交易点。本文所公开的技术还可以确定线下商户的可信度。
在一个实施例中,提供了一种用于识别线下商户的方法,其包括:收集商户的多个交易的交易数据;基于所述交易数据进行特征提取以获得第一交易特征,其中所述第一交易特征包括根据定位服务生成的交易位置;根据所述多个交易的交易位置来确定落在预定地理范围中的交易聚簇;以及如果所述交易聚簇包括超过第一预定数目的交易,则确定所述商户为线下商户并且所述交易聚簇表示所述商户的线下交易点。
在一方面,所述交易位置基于买家的终端设备在进行交易时的定位信息。
在一方面,所述多个交易包括在指定时间范围中的交易。
在一方面,所述第一预定数目为3或更大的整数。
在一方面,所述方法还包括:基于所述交易数据进行特征提取以获得第二交易特征,第二交易特征与第一交易特征不同;以及基于所述第二交易特征是否在相应的阈值范围中来确定每条交易是否为可信交易。
在一方面,所述第二交易特征包括以下一者或多者:买家在指定时间段内的交易频率;交易时间;以及交易金额。
在一方面,所述方法还包括:如果所述交易聚簇包括超过第二预定数目的可信交易,则确定所述交易聚簇表示所述商户的可信交易点。
在一方面,所述方法还包括:如果所述交易聚簇的可信交易占比等于或高于第一阈值,则确定所述交易聚簇表示所述商户的可信交易点;以及如果所述交易聚簇的可信交易占比低于第一阈值,则确定所述交易聚簇表示潜在风险交易点。
在一方面,所述方法还包括:如果所述商户的可信交易点占比等于或高于第二阈值,则确定所述商户是可信的线下商户;以及如果所述商户的可信交易点占比低于第二阈值,则确定所述商户是潜在风险商户。
在一方面,所述方法还包括:基于所述商户的可信交易点的分布来确定所述商户的类别,所述商户的类别包括定点商户、本地连锁商户、或全国连锁商户。
在一方面,所述方法还包括:如果所述商户的落在交易聚簇中的可信交易在所述多个交易中的占比等于或高于第三阈值,则确定所述商户是可信的线下商户;以及如果所述商户的落在交易聚簇中的可信交易在所述多个交易中的占比低于第三阈值,则确定所述商户是潜在风险商户。
在一方面,基于所述交易数据进行特征提取还包括获取所述商户的交易时间、交易规模、买家信息、和经营信息,并且所述方法还包括基于以下各项中的两项或更多项的加权或统计分布来确定所述商户的可信度:基于所述商户的交易位置来确定的交易位置分布;基于所述商户的交易时间来确定的交易时间分布;基于所述商户的交易规模来确定的交易形态;基于所述商户的买家信息来确定的历史买家分布;基于所述商户的经营信息来确定的经营稳定性。
在一方面,所述方法还包括:获取与所述商户的多个买家相关联的地址信息;基于所述地址信息中的高频词和/或语义相似词来确定买家分布;以及至少部分地基于所述买家分布来确定所述商户的可信度。
在另一个实施例中,提供了一种用于识别线下商户的装置,其包括:信息收集组件,其收集商户的多个交易的交易数据;特征提取组件,其基于所述交易数据进行特征提取以获得第一交易特征,其中所述第一交易特征包括根据定位服务生成的交易位置;特征评估组件,其根据所述多个交易的交易位置来确定落在预定地理范围中的交易聚簇;以及商户识别组件,其用于如果所述交易聚簇包括超过第一预定数目的交易,则确定所述商户为线下商户并且所述交易聚簇表示所述商户的线下交易点。
在一方面,所述交易位置基于买家的终端设备在进行交易时的定位信息。
在一方面,所述多个交易包括在指定时间范围中的交易。
在一方面,所述第一预定数目为3或更大的整数。
在一方面,所述特征提取组件基于所述交易数据进行特征提取以获得第二交易特征,第二交易特征与第一交易特征不同;以及所述特征评估组件基于所述第二交易特征是否在相应的阈值范围中来确定每条交易是否为可信交易。
在一方面,所述第二交易特征包括以下一者或多者:买家在指定时间段内的交易频率;交易时间;以及交易金额。
在一方面,所述商户识别组件还用于:如果所述交易聚簇包括超过第二预定数目的可信交易,则确定所述交易聚簇表示所述商户的可信交易点。
在一方面,所述商户识别组件还用于:如果所述交易聚簇的可信交易占比等于或高于第一阈值,则确定所述交易聚簇表示所述商户的可信交易点;以及如果所述交易聚簇的可信交易占比低于第一阈值,则确定所述交易聚簇表示潜在风险交易点。
在一方面,所述商户识别组件还用于:如果所述商户的可信交易点占比等于或高于第二阈值,则确定所述商户是可信的线下商户;以及如果所述商户的可信交易点占比低于第二阈值,则确定所述商户是潜在风险商户。
在一方面,所述商户识别组件还用于:基于所述商户的可信交易点的分布来确定所述商户的类别,所述商户的类别包括定点商户、本地连锁商户、或全国连锁商户。
在一方面,所述商户识别组件还用于:如果所述商户的落在交易聚簇中的可信交易在所述多个交易中的占比等于或高于第三阈值,则确定所述商户是可信的线下商户;以及如果所述商户的落在交易聚簇中的可信交易在所述多个交易中的占比低于第三阈值,则确定所述商户是潜在风险商户。
在一方面,所述特征提取组件还用于基于所述交易数据进行特征提取以获取所述商户的交易时间、交易规模、买家信息、和经营信息,并且所述商户识别组件还基于以下各项中的两项或更多项的加权或统计分布来确定所述商户的可信度:基于所述商户的交易位置来确定的交易位置分布;基于所述商户的交易时间来确定的交易时间分布;基于所述商户的交易规模来确定的交易形态;基于所述商户的买家信息来确定的历史买家分布;基于所述商户的经营信息来确定的经营稳定性。
在一方面,所述特征提取组件还用于获取与所述商户的多个买家相关联的地址信息;所述特征评估组件基于所述地址信息中的高频词和/或语义相似词来确定买家分布;以及所述商户识别组件至少部分地基于所述买家分布来确定所述商户的可信度。
在另一个实施例中,提供了一种交易平台,其包括:处理器;以及用于存储处理器可执行指令的存储器,其中所述处理器用于执行所述处理器可执行指令以实现如上所述的用于识别线下商户的方法。
如上所述,本文提供了基于交易特征(例如,交易位置)来识别线下商户的技术。该技术采用了无监督方法,可以在无需标签数据的情况下基于从交易数据所提取的特征来刻画商户画像,从而识别线下商户。
本文的技术还可进一步基于一个或多个交易特征(例如,交易位置、交易时间、交易规模、买家信息、经营信息等)来确定商户类别,提高商户评估的准确率和覆盖率。该技术还可以进一步实现商户分层体系建设,通过对商户进行分层,可以实现优质商户精细化运营,减少误打扰,并且可对风险商户进行阶梯化管控。
本文的技术还可进一步基于一个或多个交易特征(例如,交易位置、交易时间、交易规模、买家信息、经营信息等)来确定商户可信度。该技术还可以基于动态发生的交易信息来动态地评估商户可信度。一旦商户的交易状态变化,可信度也随之变化。商户可信度的更新周期短,并且可以反映商户由好到坏和由坏到好的演变过程。通过实现对商户经营可信度的动态评价,对于提升客户体验和服务质量具有重要的意义。
附图说明
图1为根据本公开一个实施例的用于识别线下商户的体系架构示意图。
图2为根据本公开一个实施例的用于识别线下商户的方法的流程图。
图3为根据本公开另一个实施例的用于识别线下商户的方法的流程图。
图4为根据本公开一个实施例的用于确定交易位置分布的示意图。
图5为根据本公开另一个实施例的用于识别线下商户的方法的流程图。
图6为根据本公开一个实施例的用于确定买家分布的方法的流程图。
图7为根据本公开一个实施例的用于识别线下商户的装置的框图。
具体实施方式
下面结合具体实施例和附图对本公开作进一步说明,但不应以此限制本公开的保护范围。
本公开提出了一种用于识别线下商户的方法和装置。在一个实施例中,交易平台可收集商户的多个交易的交易数据,并基于交易数据进行特征提取以获得交易特征,其中所提取的交易特征可包括根据定位服务生成的交易位置。然后可根据交易位置来确定落在预定地理范围中的交易聚簇。如果交易聚簇包括超过预定数目的交易,则可确定该商户为线下商户并且该交易聚簇可表示该商户的线下交易点。
本文提供了基于交易特征来识别线下商户的技术。该技术可采用无监督方法,可以在无需标签数据的情况下基于从交易数据所提取的特征来刻画商户画像,从而识别线下商户。本文提供的技术避免了黑白样本分布不均带来的判别误差和不准确性,提高了商户评估的准确率和覆盖率。本文所提出的技术还可以进一步实现线下商户分层体系建设,从而可以实现优质商户精细化运营,并且可对风险商户进行阶梯化管控。本文的技术还可进一步基于一个或多个交易特征来确定商户可信度,并且可基于动态发生的交易信息来动态地评估商户可信度。
图1为根据本公开一个实施例的用于识别线下商户的体系架构示意图。各种商户(例如,包括线下商户和线上商户)可以签约一个或多个交易平台,安装交易平台的终端设备,或者可以在计算机或终端设备上安装交易平台的应用,从而通过所签约的交易平台接受买家的电子支付。买家可以使用终端设备(例如,手机或平板电脑)向商户进行支付。根据一个实施例,为了提高商户管理和运营的质量,需要搭建商户可信策略体系。例如,该商户可信策略体系可辨别出线下商户,并且可针对线下商户实现针对性运营管控,或者防止非线下商户冒充线下商户。该体系架构可以是为商户提供交易(例如,支付)服务的交易平台的一部分。在其他实施例中,该体系架构也可以与交易平台分开地实现,例如由单独的评估系统或第三方评估机构实现。作为示例而非限定,以下以交易平台为例说明用于识别线下商户的体系架构。但在具体实现中,该体系架构可以由任何合适的系统来实现。
在110,交易平台可以收集商户的交易数据。在交易支付过程中,买家的终端设备和商户的终端设备双方可产生相应的交易信息并通过交易平台达成支付交易。因此,交易平台可以收集其签约的商户的交易数据。每一条交易数据可包括一次交易所生成的信息,例如支付编码、商户信息、买家信息、交易时间、交易位置、交易金额等。每个商户可以与多个或大量买家进行交易,每个买家可以与多个商户进行交易。因此,交易平台可以收集多个商户与多个或众多买家的交易数据。交易平台还可以从数据库中获取与交易所涉及的商户和买家相关联的信息,例如商户和/或买家的注册信息、商户的历史交易信息、买家的历史交易信息等。
在120,交易平台可以基于每个商户的交易数据来提取与该商户相关联的交易特征。如上所述,每个商户可以与多个或大量买家进行交易,并相应地生成交易数据。因此,对于每个商户,交易平台可以从该商户的交易数据中提取交易特征,也可以基于交易数据从已有数据库中提取相关联的交易特征(例如,买家信息或商户信息)。所采用的交易数据可以是该商户的所有历史交易数据,或者是该商户在指定期限内(例如,最近1月内、最近一周内等)的交易数据。可以按需选择要提取的交易特征。所提取的交易特征可包括例如,每个交易的交易位置、交易时间、交易金额、和/或买家信息等。所提取的买家信息不仅限于在每项交易数据中提供的买家身份(例如,姓名、代码、id等),还可包括交易平台根据每条交易的买家从数据库中获取的买家基本信息、买家历史消费记录等。所提取的交易特征还可包括商户的经营信息,例如开店时长、营业时间、有效交易占比等。商户的经营信息可以是交易平台根据商户基本信息、商户历史交易等进行分析来获得的。例如,商户在注册时可以提供开店时间和营业时间等信息,这些信息可被保存在数据库中并在需要时被交易平台读取。
在130,交易平台可以对所提取的交易特征进行评估。对交易特征进行评估可包括评估每条交易的相应交易特征,或者生成多条交易的相应交易特征统计。如上所提取的不同交易特征(或交易特征统计)可以从不同维度反映商户的特性,以下列举一些交易特征作为示例而非限定。
交易位置是指发生交易的位置。根据本公开的一个实施例,买家可以使用便携式终端设备与商户进行交易(例如,支付)。买家的终端设备可以在进行交易时采集该终端设备的定位信息,例如基于位置的服务(LBS)数据。买家的终端设备在进行交易时采集的定位信息可被称为动态交易位置。如果商户的交易是在固定交易点(例如,线下商户所处的地理位置)发生的,则动态交易位置应当相对集中(例如,与线下商户的静态地理位置相一致)。相反,动态交易位置分散则可以指示该商户不具有固定交易点(例如,是线上商户)。交易平台由此可根据每个商户的多个交易的交易位置(和/或交易位置分布)来识别线下商户。
交易时间是指发生交易的时间。交易数据可以记录发生交易的日期和时间。交易时间与商户的营业时段相一致可以指示交易可信度较高。交易时间统计还可以反映商户经营周期性分布,例如商圈双休日交易量明显上涨、学校暑期交易量明显下降等。
交易规模可指示交易笔数/金额。单笔交易的交易金额与商户的经营类目价格不符的交易可被视为不可信交易。此外,交易笔数/金额统计可以反映商户的交易形态。例如,交易规模可以指示例如商户为大型/小型商户。
买家信息可指示商户的历史买家是否可信。买家异常行为可使得相应的交易被视为不可信交易。例如,如果一个买家在10分钟内向5个商户连续大额付款,则这些交易可被视为不可信交易。此外,该买家的可信度降低,从而该买家在一些或所有商户的交易的可信度降低。
商户的经营信息可反映商户经营稳定性。例如,交易平台所提取的经营信息可包括商户开店时长、商户一周内可信交易占比、商户一月内可信交易占比、商户日/周交易笔数变化率、商户签约时间与最近交易时间差、日经营时间的周离散度等。作为示例而非限定,开店时长、可信交易占比等越高,商户经营稳定性越高。商户日/周交易笔数变化率、日经营时间的周离散度等越低,商户经营稳定性越高。经营稳定性越高,商户的经营可信度就越高。
虽然以上列举了一些交易特征作为示例,但本发明不限于此,并且本领域技术人员在实践中可以提取并分析与交易、买家和/或商户相关联的其他交易特征或不同地命名的交易特征。
在140,交易平台可以根据对一个或多个交易特征的评估来识别线下商户。例如,交易平台可根据商户的交易位置(和/或交易位置分布)来识别线下商户,如下文进一步描述的。在进一步的示例中,交易平台还可根据对一个或多个交易特征的评估来确定商户的可信度,如下文进一步描述的。
图2为根据本公开一个实施例的用于识别线下商户的方法的流程图。该方法可以由交易平台执行,或者也可以由与交易平台集成或分开的评估系统执行。
在步骤202,可收集商户的多个交易的交易数据。如上所述,买家可以使用终端设备通过商户所签约的交易平台与商户进行交易,例如向商户进行支付。买家的终端设备和商户的终端设备两者可以提供交易数据。如果商户有多个签约的交易平台,则每个交易平台可以收集经由该交易平台进行的交易的相关数据。交易平台可收集商户的所有历史交易数据或在指定时间内的历史交易数据。例如,所收集的交易数据可包括商户在最近1月内、最近一周内等的交易数据。每一条交易数据可包括一次交易所生成的信息,例如支付编码、商户信息、买家信息、交易时间、交易位置、交易金额等。每个商户可以与多个或大量买家进行交易,每个买家可以与多个商户进行交易。因此,交易平台可以收集多个商户与多个或众多买家的交易数据。在其他示例中,如果该方法由与交易平台分开的评估系统执行,则该评估系统可以从交易平台、第三方、或数据库获取商户的交易数据。
在步骤204,可基于所收集的交易数据进行特征提取以获得交易特征。例如,可从每个商户的多个交易中提取交易特征。在一个具体实施例中,所提取的交易特征可包括与商户的每个交易相关联的交易位置。如上所述,买家可以使用便携式终端设备与商户进行交易(例如,支付)。买家的终端设备可以在进行交易时采集该终端设备的定位信息,例如基于位置的服务(LBS)数据,即动态交易位置。交易位置可以是地理坐标,例如经度和纬度,以及可能还有海拔。该交易位置信息可作为交易数据的一部分由买家的终端设备提供给交易平台,从而可以提取买家终端设备在进行交易时的定位信息作为交易位置。由于商户的交易可在实体店进行,也可能在实体店以外的地方进行。例如,商户可提供送货服务,并且可在货物交接点进行交易。因此,所提取的交易位置可以与商户的静态地理位置相同或不同。
在步骤206,可根据商户的多个交易的交易位置来确定这些交易的交易聚簇。在相同或相近位置处发生的多个交易形成交易聚簇。考虑到基于位置的服务(LBS)数据存在误差,每个交易聚簇可包括落在预定地理范围中的多个交易。作为示例而非限定,该地理范围可以是例如直径或边长为例如0.5~2km(例如,1km、1.2km等)的圆形或正方形,或者也可以是指定大小的椭圆形、多边形、不规则形状等。作为示例而非限定,可以使用聚类算法或累积概率分布来确定交易聚簇。在其他示例中,可以使用地址网格来确定交易聚簇。由此,商户的交易可包括落在交易聚簇中的交易和不在交易聚簇中的离散交易。
在步骤208,可根据交易聚簇来识别线下商户。如果交易聚簇包括超过预定数目的交易,则可确定该商户为线下商户并且该交易聚簇可表示该商户的线下交易点。即,如果一个交易聚簇包含少于预定数目的交易,则该交易聚簇可不被认为表示商户的线下交易点。该预定数目可以是例如为3或更大的整数,例如6个、10个等等。该预定数目可以根据实际情况、商户性质、精确度需求等来配置,而不限于上述示例。此外,一个商户的交易可以形成多个不同的交易聚簇,如果有多个交易聚簇分别包括超过预定数目的交易,则这些交易聚簇可以分别表示该商户的多个不同的线下交易点。
此外,根据商户的线下交易点的数量和分布,还可以确定商户为定点商户、本地连锁商户、或全国连锁商户等。在一个实施例中,如果线下商户的落在交易聚簇中的交易在所统计的多个交易中的占比等于或高于指定阈值,则可认为该线下商户的可信度较高,否则可认为该线下商户是潜在风险商户。
图3为根据本公开另一个实施例的用于识别线下商户的方法的流程图。该方法可以由交易平台执行,或者也可以由与交易平台集成或分开的评估系统执行。
在步骤302,可收集商户的多个交易的交易数据。如上参照步骤202所述,交易平台可收集商户的所有历史交易数据或在指定时间内的历史交易数据。每一条交易数据可包括一次交易所生成的信息,例如支付编码、商户信息、买家信息、交易时间、交易位置、交易金额等。
在步骤304,可基于所收集的交易数据进行特征提取以获得第一交易特征和第二交易特征。第一交易特征和第二交易特征是不同的。第一交易特征可包括例如与商户的每个交易相关联的交易位置。如上所述,买家的终端设备可以在进行交易时采集该终端设备的定位信息,例如基于位置的服务(LBS)数据,即动态交易位置。第二交易特征可包括例如交易时间、交易金额、买家交易频率等中的至少一者。
在步骤306,可根据第二交易特征来确定交易是否可信。例如,如果第二交易特征在相应的指定阈值范围中,则可确定交易为可信交易。否则,可确定交易为不可信交易。
例如,第二交易特征可包括交易时间。由此,交易时间在指定的交易时间范围(例如,商户营业时间段)中的交易可被视为可信交易。相反,交易时间超出指定的交易时间范围(例如,商户营业时间的交易)可被视为不可信交易。
作为另一示例,第二交易特征可包括交易金额。由此,交易金额在指定的交易金额范围(例如,商户经营类目价格区间)中的交易可被视为可信交易。相反,交易金额超出指定的交易金额范围(例如,商户经营类目价格区间)可被视为不可信交易。
作为又一示例,第二交易特征可包括买家交易频率。作为示例而非限定,该买家交易频率可包括买家在指定时间段(例如,包含所评估的交易在内的指定时间段)中的交易频率。由此,买家交易频率在指定的频率范围中的交易可被视为可信交易。相反,买家交易频率超出指定的频率范围可被视为不可信交易。例如,如果一个买家在10分钟内向5个商户连续付款,则这些交易可被视为不可信交易。
在一个实施例中,第二交易特征可包括多个特征,并且当这多个特征分别在相应的指定阈值范围中时才确定交易为可信交易。如果其中任何一个特征在相应的指定阈值范围外,则确定交易为不可信交易。虽然以上列出了一些交易特征作为第二交易特征的示例,但在实践中可以按需选择以上一个或多个交易特征或其他不同的交易特征来判断交易是否可信。
在步骤308,可根据第一交易特征来确定交易聚簇。如上所述,第一交易特征可包括交易位置,由此可根据商户的多个交易的交易位置来确定这些交易的交易聚簇。在一个实施例中,在步骤308中可以确定所统计的全部交易形成的交易聚簇。在这种情况下,步骤306可与步骤308按任何次序或并行地执行。在另一个实施例中,在步骤308中可以仅确定可信交易形成的交易聚簇。
在步骤310,可根据交易聚簇来识别线下商户。如果交易聚簇包括超过第一预定数目的可信交易,则可确定该商户为线下商户并且该交易聚簇可表示该商户的线下交易点。在另一示例中,如果交易聚簇包括超过第二预定数目的可信交易,则可进一步确定该交易聚簇表示该线下商户的可信交易点。第一预定数目和第二预定数目可以相同或不同,并且可以是例如为3或更大的整数,例如5个、10个等等。第一预定数目和第二预定数目可以根据实际情况、商户性质、精确度需求等来配置,而不限于上述示例。
此外,一个商户的交易可以形成多个不同的交易聚簇,如果有多个交易聚簇分别包括超过预定数目的可信交易,则这些交易聚簇可以分别表示该商户的多个不同的线下交易点。此外,根据商户的线下交易点的数量和分布,还可以确定商户为定点商户、本地连锁商户、或全国连锁商户等。
在可选步骤312,可以确定线下商户的可信度。例如,可根据可信交易的占比(例如,可信交易在所统计的全部交易中的占比)来确定线下商户的可信度,其中可信交易占比越高,线下商户的可信度就越高。在另一个实施例中,可根据落在交易聚簇中的可信交易在所统计的多个交易中的占比来确定线下商户的可信度。例如,如果线下商户的落在各交易聚簇中的可信交易在所统计的多个交易中的占比等于或高于指定阈值(例如,70%),则可认为该线下商户是可信的,否则可认为该线下商户是潜在风险商户。
在进一步的实施例中,如果在步骤308中考虑所统计的全部交易形成的交易聚簇,则每个交易聚簇中包含可信交易和不可信交易。则对于每个交易聚簇,可信交易占比越高,则该交易聚簇表示的线下交易点的可信度越高(即,该线下商户的可信度越高)。例如,如果交易聚簇的可信交易占比(即,该交易聚簇中的可信交易数量除以该交易聚簇中的总交易数量)等于或高于指定阈值(例如,80%),则可认为该交易聚簇表示线下商户的可信交易点,否则可认为该交易聚簇表示潜在风险交易点。在进一步的示例中,线下商户的可信交易点占比越高,则该线下商户的可信度就越高。例如,如果线下商户的可信交易点占比(例如,可信交易点的数量除以线下交易点总数,线下交易点总数包括可信交易点和潜在风险交易点)等于或高于指定阈值(例如,60%),则可认为该线下商户是可信的,否则可认为该线下商户是潜在风险商户。此外,根据线下商户的可信交易点的数量和分布,还可以确定线下商户为定点商户、本地连锁商户、或全国连锁商户等。
以上每个示例中使用的阈值可以根据需要或经验来配置,并且彼此可以相同或不同,本文所描述的技术在这方面不受限制。
图4为根据本公开一个实施例的用于确定交易位置分布的示意图。作为示例而非限定,图4以地址网格示出了交易位置分布,其中分别用叉号和圆点来表示第一商户和第二商户的交易。
图4中所示的地址网格可以表示指定的地理范围,例如1.2km的LBS正方形网格。在其他示例中,地址网格可以采用不同的大小或形状,例如圆形、椭圆形、多边形、不规则形状等。
地址网格402可表示第一商户的第一交易聚簇,其包含超过预定数目(例如,5)的交易。由此,如参照图2描述的,可确定第一商户为线下商户并且第一交易聚簇表示第一商户的线下交易点。地址网格404包含的交易数量较少,因此不表示第一商户的交易聚簇或线下交易点。
此外,图4中分别用实心圆和空心圆来表示第二商户的可信交易和不可信交易。例如,图4中示出了不可信交易412、422等。地址网格410可表示第二商户的第一交易聚簇,其包含超过预定数目的可信交易。如参照图3描述的,基于地址网格410中的可信交易数目或者可信交易占比,可确定第二商户为线下商户并且地址网格410中的第一交易聚簇表示第二商户的线下交易点。
地址网格420可表示第二商户的第二交易聚簇。地址网格420中包括大量不可信交易,如用空心圆表示的交易422等。基于地址网格420中的可信交易数目,可确定地址网格420中的第二交易聚簇不表示第二商户的线下交易点。在另一个实施例中,基于地址网格420中的可信交易占比(例如,低于阈值),可确定地址网格420中的第二交易聚簇表示第二商户的风险交易点。
地址网格430包含的交易数量较少(例如低于预定数目),因此不表示交易聚簇或交易点。
虽然图4示出了连续的地址网格,但在具体实现中,地址网格可以不是连续的,而是仅在出现交易聚簇的位置安置地址网格,并且可使得地址网格涵盖尽可能多的交易。根据本公开的地址网格聚类可以兼顾城市与地址网格,避免城市交接地交易数据呈现离散状引起的误判。在其他实施例中,可以不采用地址网格,而是根据交易地址聚类或累积概率分布来确定交易聚簇。
为便于理解,以下提供示例作为说明。某餐饮集团承接企事业单位、工地等订餐,其下有分布于不同城市的餐饮管理团队。采用如图4所示的地址网格,可生成该餐饮集团的包含交易聚簇的50个正方形地址网格,剔除交易聚簇中可信交易(或可信交易占比)低于阈值的网格24个,剩下26个网格表示可信的线下交易点并且可以表示该餐饮集团在不同城市的线下交易点分布。根据可信交易点分布,还可以进一步确定该餐饮集团属于全国连锁型商户。
图5为根据本公开一个实施例的用于识别线下商户的方法的流程图。该方法可以由交易平台或评估系统执行。
在步骤502,可收集商户的多个交易的交易数据。步骤502可与以上描述的步骤202或302相似,并且不再详述。
在步骤504,可基于所收集的交易数据进行特征提取以获得一种或多种交易特征。如上文所述,所提取的交易特征可包括例如,每个交易的交易位置、交易时间、交易金额、买家信息等。还可以根据交易信息以及商户信息来提取商户的经营信息。
在步骤506,可根据交易位置来确定交易聚簇。步骤506可以与以上描述的步骤206或308相似,并且不再详述。
在步骤508,可根据交易聚簇来识别线下商户。步骤508可以与以上描述的步骤208或310相似,并且不再详述。
此外,可选择性地执行步骤512-520中的一个或多个步骤以分别对一个或多个交易特征进行评估,由此在步骤530确定线下商户的可信度。虽然图5中示出了步骤512-520在步骤508之后执行,但步骤512-520也可在步骤506或508之前、或者与步骤506或508并行地执行。
在步骤512,可确定线下商户的交易位置分布。步骤512可以与步骤506一起实现,或者可以作为步骤506的一部分来实现,或者可以单独实现。如以上所描述的,交易位置分布可以反映线下商户的可信度。例如,落在交易聚簇中的交易占比越高(即,交易位置离散的交易越少),每个交易聚簇中的可信交易占比越高,和/或可信的线下交易点的占比越高,则线下商户的可信度越高。
在步骤514,可确定线下商户的交易时间分布,例如交易时间统计分布、发生高峰交易量的日期或时间段、交易时间与营业时间一致性等。交易时间分布符合人口统计学规律,例如与营业高峰时段相一致,则线下商户的可信度较高。
在步骤516,可根据交易规模(例如,交易金额和/或交易数量)来确定商户的交易形态。交易平台所提取的交易规模可包括指定时间段内的商户交易笔数/金额均值/分位数、商户交易笔数/金额变异系数、日收益笔数/金额与周总收益金额之比、商户特殊交易金额/整数金额占比、交易金额四分位差(IQR)异常值占比等。交易规模稳定并且与商户经营类目相符,则指示商户可信度越高。
在步骤518,可通过对商户的买家信息进行统计来确定该商户的历史买家分布。交易平台所提取的买家信息可包括例如成熟账户买家占比、买家常用收货地址与注册地址的一致性、买家年龄/性别分布、买家日复购占比分布等。历史买家分布可指示买家可信度,例如是否存在异常买家、买家消费能力分布、复购买家占比等。买家可信度越高,商户的可信度也越高。
在步骤520,可根据商户的经营信息来确定商户经营稳定性。例如,交易平台所提取的经营信息可包括商户开店时长、商户一周内可信交易占比、商户一月内可信交易占比、商户日/周交易笔数变化率、商户签约时间与最近交易时间差、日经营时间的周离散度等。作为示例而非限定,开店时长、可信交易占比等越高,商户经营稳定性越高。商户日/周交易笔数变化率、日经营时间的周离散度等越低,商户经营稳定性越高。经营稳定性越高,商户的可信度就越高。
虽然图5中示出了步骤512-520,但在实践中可根据需要选择性地执行步骤512-520中的一个或多个步骤,并且可以添加一个或多个步骤以评估其他不同的交易特征。
在步骤530,交易平台可以根据对多个不同的交易特征的评估来确定商户的可信度。例如,交易平台可根据交易位置分布、交易时间分布、交易形态、历史买家分布、商户经营稳定性中的一者或多者来确定商户的可信度。在一个实施例中,交易平台可以针对每种交易特征生成商户在多个维度上的可信度,例如交易位置可信度、交易时间可信度、交易形态可信度、历史买家可信度、商户经营可信度等。例如,交易聚簇中的可信交易占比越高、可信交易点占比越高,线下商户的交易位置可信度就越高。交易时间与线下商户的营业时段相一致、与人流量分布规律相一致可以指示交易时间可信度较高。
在另一实施例中,可基于多个不同的交易特征的统计分布来确定商户的总体可信度。例如,交易平台可基于从交易位置分布、交易时间分布、交易形态、历史买家分布、商户经营稳定性中选择的多个参数通过Grid Search(网格搜索)来确定商户的可信度。在另一实施例中,可基于多个不同的交易特征的不同权重来确定线下商户的总体可信度。
线下商户的可信度可以是单维度或多维度的可信度评分。在一个实施例中,可根据可信度评分来确定商户是否可信。例如,如果商户具有单维度的可信度评分并且可信度评分等于或高于阈值,则认为商户是可信的。相反,如果可信度评分低于阈值,则认为商户是潜在风险商户。在另一示例中,如果商户具有多维度的可信度评分,则可在每个维度上确定商户是否可信,并且可综合确定商户是否可信,以及在哪个(哪些)维度上存在风险(若有)。
在另一实施例中,线下商户的可信度可以是商户分类。作为示例而非限定,根据交易位置分布和交易形态,可确定线下商户是否为低值商户。根据交易位置分布、交易时间分布、交易形态、历史买家分布、商户经营稳定性等,线下商户可被分类为潜在风险商户、低值商户、中小型定点商户、大型定点商户、本地连锁商户、全国连锁商户、或历史买家可信商户。例如,开有多个分店(从而有多个可信的线下交易点)并且有固定的经营时间、交易频次具有一定相似性的商户可被分类为连锁商户。根据线下商户的分类标签,还可以建立类决策树策略体系,以根结点作为商户分类标签,以叶结点作为个性化决策包,从而对商户进行不同的管控动作。
图6为根据本公开一个实施例的用于确定买家分布的方法的流程图。该方法可基于词频距离和/或语义距离来确定买家分布。通过确定买家分布,可进一步确定商户的可信度、行业等。该方法可以由交易平台或评估系统执行。在一个实施例中,图6的方法可以单独实现。在另一个实施例中,图6的方法可以作为步骤518的一部分被执行。
在步骤602,可获取与商户的买家相关联的地址信息。该地址信息可包括买家的注册地址或收货地址。在进一步的实施例中,该地址信息还可包括买家的wifi节点文本信息、和/或与该买家进行过交易的其他卖家的卖家地址信息。由此,交易平台可获取与商户的多个买家相关联的多个地址信息。
在步骤604,可对每项地址信息进行分词以生成词样本。存在各种技术手段来将地址信息(例如,句子)拆分成词。分词拆解的具体方式可因语言而异。例如,对于英语、德语、法语等可将每个单词作为分词。对于中文、日文等可按照惯用词组进行拆分,并且可利用word2vec、fasttext等工具辅助进行分词拆解。
在步骤606,可去除地址信息中的停用词。停用词可以是内容价值较低的词。停用词可以按照行业惯例来设置,也可以在机器学习中根据实际情况调整。例如,地址中的“省”、“市”、“区”、“栋”、“号”等词可以作为停用词而不被考虑。根据本公开的一个实施例,步骤606可在步骤604之前或之后执行。
在步骤608,可以分析各项地址信息的词样本以发现高频词610。例如,可以对从各项地址信息生成的词样本执行词频/逆文档频率(TF-IDF)分析,以发现高频词及其权重。
在步骤612,可将地址信息的词样本转换成词向量。作为示例而非限定,可通过CBOW、Skipgram、Glove、cw2vec等传统词向量方法计算得到词向量。
在步骤614,可以计算各项地址信息的词向量的语义距离,由此获得语义相似的词616。例如,可以计算各个词向量之间的cosine(余弦)、Jacaard、或Euclidean距离等。词向量之间的距离代表了词语之间的关系远近。例如,针织、纺织、轻纺等词属于语义相似的词。由此,通过计算词向量的语义距离可获得语义相似的词616。
在步骤620,可根据高频词610和/或语义相似的词616来确定买家分布。例如,高频词610可以指示买家集中在某个地区,语义相似的词616可以指示与买家相关联的行业。在一些示例中,高频词610也可以指示与买家相关联的行业。
虽然图6示出了根据高频词610和语义相似的词616来确定买家分布,在其他实施例中,也可以仅根据高频词610来确定买家分布(由此步骤612-616可被省略)。在另一个实施例中,可以仅根据语义相似的词616来确定买家分布(由此步骤608-610可被省略)。
买家分布(例如,买家位置分布、买家行业分布)可反映商户的可信度。例如,买家位置或买家行业较为集中可以反映商户的可信度较高。此外,在商户信息不完整的情况下,还可以通过买家分布来反推商户的经营可信度。此外,通过词频距离和语义距离融合的方法来确定商户可信度可以弥补单一距离引起的文本相似度误差。
图7为根据本公开一个实施例的用于识别线下商户的装置700的框图。装置700可以是交易平台或其一部分、计算机、服务器、处理器、评估系统等。装置700可以执行如本文所描述的用于识别线下商户的各种功能,如参考图1至图6所描述的。如图所示,装置700可包括信息收集组件710、特征提取组件720、特征评估组件730、商户识别组件740。装置700还可包括未示出的其他组件。
信息收集组件710可收集商户的多个交易的交易数据。例如,信息收集组件710可从买家的终端设备、商户的终端设备、其他计算机设备、服务器、或数据库等接收交易数据。所收集的交易可包括在指定时间范围中的交易。交易数据可包括支付编码、商户信息、买家信息、交易时间、交易位置、交易金额等。
特征提取组件720可基于交易数据进行特征提取以获得第一交易特征。在一个实施例中,第一交易特征可包括根据定位服务生成的交易位置。例如,该交易位置可基于买家的终端设备在进行交易时的定位信息。在其他实施例中,特征提取组件720还可提取以下一种或多种交易特征:商户的交易时间、商户的交易规模、商户的买家信息、商户的经营信息等。
特征评估组件730可根据交易位置来确定落在预定地理范围中的交易聚簇。例如,每个交易聚簇可包括落在预定地理范围中的多个交易。在其他示例中,可以使用聚类算法或累积概率分布来确定交易聚簇。此外,特征评估组件730可执行如步骤512-520中所描述的一个或多个功能。
商户识别组件740可根据交易聚簇来识别线下商户。例如,如果交易聚簇包括超过预定数目的交易,则商户识别组件740可确定该商户为线下商户并且该交易聚簇表示该商户的线下交易点。
在另一实施例中,特征提取组件720可基于交易数据进行特征提取以获得第二交易特征。第二交易特征可包括以下一者或多者:买家在指定时间段内的交易频率;交易时间;以及交易金额等。特征评估组件740可基于第二交易特征来确定商户的每条交易是否为可信交易。例如,如果第二交易特征在相应的阈值范围中,则可确定交易为可信交易。否则,可确定交易为不可信交易,例如,不可信交易可包括例如相同买家的交易频率超过指定频率范围的交易、交易时间超出指定时间范围的交易、以及交易金额超出指定金额范围的交易等。
在一个示例中,如果交易聚簇包括超过预定数目的可信交易,则商户识别组件740可确定该交易聚簇表示商户的可信交易点。
在另一个示例中,如果交易聚簇的可信交易占比等于或高于相应阈值,则商户识别组件740可确定该交易聚簇表示该商户的可信交易点。如果交易聚簇的可信交易占比低于指定阈值,则商户识别组件740可确定该交易聚簇表示潜在风险交易点。
在另一个示例中,如果商户的可信交易点占比等于或高于相应阈值,则商户识别组件740可确定该商户是可信的线下商户。如果线下商户的可信交易点占比低于指定阈值,则商户识别组件740可确定该商户是潜在风险商户。
在一个实施例中,商户识别组件740可基于商户的可信交易点的分布来确定商户的类别,例如定点商户、本地连锁商户、或全国连锁商户。
在一个示例中,如果商户的落在交易聚簇中的可信交易在所收集的多个交易中的占比等于或高于相应阈值,商户识别组件740可确定该商户是可信的线下商户。如果线下商户的落在交易聚簇中的可信交易在所收集的多个交易中的占比低于指定阈值,则可信度评估组件740可确定该商户是潜在风险商户。
在另一实施例中,特征提取组件720还可基于交易数据进行特征提取以获取商户的交易时间、交易规模、买家信息、和经营信息等交易特征。商户识别组件740可基于多个不同的交易特征的加权或统计分布来确定商户的可信度。例如,可确定商户为潜在风险商户、低值商户、中小型定点商户、大型定点商户、本地连锁商户、全国连锁商户、或历史买家可信商户。
在另一个实施例中,信息收集组件710可获取与商户的多个买家相关联的地址信息。特征评估组件730可基于地址信息中的高频词和/或语义相似词来确定买家分布,并且商户识别组件740可基于买家分布来确定商户的可信度。
如上所述,本发明提供了用于识别线下商户的方法和装置。本文提供的技术可基于交易特征(例如,交易位置)来识别线下商户。本文提供的技术还可以基于商户动态发生的交易信息来动态地评估商户可信度。一旦商户的交易状态变化,可信度也随之变化。商户可信度的更新周期短,并且可以反映商户由好到坏和由坏到好的演变过程。本方法可对商户进行分层,从而可以实现优质商户精细化运营,减少误打扰,并且可对风险商户进行阶梯化管控。通过实现对商户经营可信度的动态评价,对于提升客户体验和服务质量具有重要的意义。
此外,相比于采用黑白样本的训练模型,本文提出的技术采用了无监督方法,可以在无需标签数据的情况下基于从交易数据所提取的特征来刻画商户画像,克服了由于黑白样本分布不均带来的判别误差和不准确性,提高了商户评估的准确率和覆盖率。
以上描述的识别线下商户的方法和装置的各个步骤和模块可以用硬件、软件、或其组合来实现。如果在硬件中实现,结合本公开描述的各种说明性步骤、模块、以及电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其他可编程逻辑组件、硬件组件、或其任何组合来实现或执行。通用处理器可以是处理器、微处理器、控制器、微控制器、或状态机等。如果在软件中实现,则结合本公开描述的各种说明性步骤、模块可以作为一条或多条指令或代码存储在计算机可读介质上或进行传送。实现本公开的各种操作的软件模块可驻留在存储介质中,如RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、可移动盘、CD-ROM、云存储等。存储介质可耦合到处理器以使得该处理器能从/向该存储介质读写信息,并执行相应的程序模块以实现本公开的各个步骤。而且,基于软件的实施例可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信或者其他这样的通信手段。
还应注意,这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程,但是这些操作中有许多操作能够并行或并发地执行。另外,这些操作的次序可被重新安排。
所公开的方法、装置和系统不应以任何方式被限制。相反,本公开涵盖各种所公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合,所公开的任何实施例也不要求存在任一个或多个具体优点或者解决特定或所有技术问题。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式、算法、数值等,上述的具体实施方式、算法、数值等仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多更改,这些均落在本公开的保护范围之内。