商户业务周转异常的识别方法及装置
技术领域
本说明书涉及计算机领域,尤其涉及互联网领域。
背景技术
商户的贸易周转周期,也可以称为业务周转周期,是指例如:财务指标中的应收周转周期、应付周转周期,库存周转周期等。掌握商户的贸易周转周期的动态变化,能够对贸易周转周期异常的商户进行风险管理,因此,具有十分重要的意义。
目前通常利用财务公式对商户贸易周转周期进行评估,该评估方法需要依赖财务数据,而财务数据为例如每3个月一次的切点数据,因此,数据量少且准确度很粗。另一方面,一些小商家没有完善的财务数据,导致无法及时获知贸易周转周期的变化情况。
发明内容
本申请公开了一种商户业务周转异常识别方法,包括:
计算机设备读取商户的贸易日时序,所述计算机设备通过计算所述贸易日时序的功率谱,得到所述商户的业务周转周期,并根据商户的业务周转周期对商户进行聚类,并在每一类的商户中,分别抽取业务周转异常的商户对应的交易特征样本数据,以及业务周转正常的商户对应的交易特征样本数据,并为该类用户中抽取的每个所述样本数据打上标记;
所述计算机设备对每一类的商户,分别使用该类商户中抽取的所述交易特征样本数据训练该类商户对应的贸易状况监控模型;
所述计算机设备读取待识别的商户的交易特征,将待识别的商户的交易特征输入所述商户的类所对应的贸易状况监控模型,从所述贸易状况监测模型输出识别该商户是否业务周转异常的信号。
在一个优选例中,所述计算机设备通过计算所述贸易日时序的功率谱,得到所述商户的业务周转周期,并根据商户的业务周转周期对商户进行聚类,包括:
根据所述商户的贸易发生日和对应的贸易金额,确定商户的贸易日时序;
利用功率谱计算模型,根据所述商户的贸易日时序确定商户的第一贸易周转周期;
通过对所述商户的第一周转周期进行分箱,获得所述商户的第二贸易周转周期,作为所述商户的业务周转周期;
利用层次聚类模型,对所述商户的业务周转周期进行聚类。
在一个优选例中,所述对每一类的商户,分别使用该类商户中抽取的所述交易特征样本数据训练该类商户对应的贸易状况监控模型之前,还包括:对每一类的商户,采用分类算法构建贸易状况监控模型。
在一个优选例中,所述将待识别的商户的交易特征输入所述商户的类所对应的贸易状况监控模型之前,还包括:对每一类的商户,根据贸易异常商户的占比随时间达到平稳时对应的时间点,确定该类的商户的观察窗口。
在一个优选例中,所述将待识别的商户的交易特征输入所述商户的类所对应的贸易状况监控模型的步骤中,所述商户的交易特征是指在所述商户的类所对应的观察窗口中的交易特征。
在一个优选例中,所述交易特征包含以下任意一种或它们的任意组合:商户在指定时间范围内的贸易量、贸易间隔、贸易次数、贸易类型、周转周期、周转频次。
本申请还公开了一种商户业务周转异常的识别装置包括:
聚类和抽取模块,用于读取商户的贸易日时序,通过计算所述贸易日时序的功率谱,得到所述商户的业务周转周期,并根据商户的业务周转周期对商户进行聚类,并在每一类的商户中,分别抽取业务周转异常的商户对应的交易特征样本数据,以及业务周转正常的商户对应的交易特征样本数据,并为该类用户中抽取的每个所述样本数据打上标记;
训练模块,用于对每一类的商户,分别使用该类商户中抽取的所述交易特征样本数据训练该类商户对应的贸易状况监控模型;
监测模块,用于读取待识别的商户的交易特征,将待识别的商户的交易特征输入所述商户的类所对应的贸易状况监控模型,从所述贸易状况监测模型输出识别该商户是否业务周转异常的信号。
在一个优选例中,所述聚类和抽取模块还包括:
贸易日时序子模块,用于根据所述商户的贸易发生日和对应的贸易金额,确定商户的贸易日时序;
第一贸易周转周期子模块,用于利用功率谱计算模型,根据所述商户的贸易日时序确定商户的第一贸易周转周期;
第二贸易周转周期子模块,用于通过对所述商户的第一周转周期进行分箱,获得所述商户的第二贸易周转周期,作为所述商户的业务周转周期;
聚类子模块,用于利用层次聚类模型,对所述商户的业务周转周期进行聚类。
本申请还公开了一种商户业务周转异常的识别设备包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本说明书实施方式中,根据商户的业务周转周期进行聚类,并针对不同聚类中的商户,提供经过相应的样本训练后的贸易状况监控模型,并将相应的观察窗口下获得的商户的交易特征,例如贸易状况及周转特征,输入该贸易状况监控模型,根据所述贸易状况监测模型的输出识别该商户是否业务周转异常。由此能够及时地识别业务异常商户,结果更加准确,降低了业务异常商户带来的风险。
本说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本说明书上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本说明书第一实施方式的商户业务周转异常的识别方法的流程示意图;
图2是根据本说明书第一实施方式的商户业务周转异常的识别方法的详细的流程示意图;
图3是根据本说明书第二实施方式的商户业务周转异常的识别装置的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
根据本说明书的实施例,为了及时了解商户的业务周转状况,减小业务周转异常商户带来的风险,首先对商户贸易日时序进行功率谱计算,获得商户的非业务意义的周转周期(即,下文中的第一周转周期),并对非业务周转周期进行数据分箱,获得商户的业务意义的周转周期(即,下文中的第二周转周期),作为商户的业务周转周期。接着,根据商户的业务周转周期,对商户进行层次聚类,使每一个聚类中的商户的业务周转周期相同,然后,针对每一个聚类,抽取业务周转异常商户交易特征样本数据和业务周转正常商户交易特征样本数据,这些交易特征样本数据中包含贸易状况及周转特征,将这些贸易状况及周转特征输入相应的每一类的贸易状况监控模型,进行训练,然后,计算每一类的商户的观察窗口,并在商户所属的类对应的观察窗口中获取该商户的贸易状况及周转特征,输入该类商户对应的经训练的贸易状况监控模型,根据该模型输出的结果,识别该商户是否业务周转异常,从而有效实现了对商户的贸易周转状况的及时掌握,降低了业务周转异常用户带来的各种风险。
下面将结合附图对本说明书的实施方式作进一步地详细描述。
本说明书的第一实施方式涉及一种商户业务周转异常的识别方法,其流程如图1所示:
步骤110:计算机设备读取商户的贸易日时序,所述计算机设备通过计算所述贸易日时序的功率谱,得到所述商户的业务周转周期,并根据商户的业务周转周期对商户进行聚类,并在每一类的商户中,分别抽取业务周转异常的商户对应的交易特征样本数据,以及业务周转正常的商户对应的交易特征样本数据,并为该类用户中抽取的每个所述样本数据打上标记。
步骤120:所述计算机设备对每一类的商户,分别使用该类商户中抽取的所述交易特征样本数据训练该类商户对应的贸易状况监控模型。
步骤130:所述计算机设备读取待识别的商户的交易特征,将待识别的商户的交易特征输入所述商户的类所对应的贸易状况监控模型,从所述贸易状况监测模型输出识别该商户是否业务周转异常的信号。
下面对每一个步骤进行详细的解释说明。
针对步骤110:
需指出,在所述根据商户的业务周转周期对商户进行聚类的步骤之前,还包括:获取所述商户的业务周转周期。
具体的,在本步骤中,对商户贸易日时序进行处理,具体包含:根据商户贸易日时间序列,对序列中的空值进行处理,采取补零/环比周期均值对空值填充等的标准化处理,并由此得到标准化时间序列。然后将标准化时间序列输入功率谱计算模型中,计算得到每一个商户的贸易频率f和能量E的键值对。然后,通过商户的贸易频率f计算商户的非业务意义的周转周期T=1/f。
需指出,本申请中提到的商户的非业务意义的周转周期和业务周转周期,都用于表示商户的贸易行为中的周转周期,但业务周转周期是例如:1个月,或1个季度,或半年,或1年等;而商户的非业务意义的周转周期是数学意义上的,例如:2.333个月,或1.1101个月,等等。在本申请的实施例中,2.33个月的非业务意义的周转周期,可以认为其周期近似于1个季度的业务周转周期,这使得管理上更加方便。
需指出,根据商户的业务周转周期对商户进行聚类的步骤,可以通过以下具体步骤实现:
步骤1102:根据所述商户的贸易发生日和对应的贸易金额,确定商户的贸易日时序。
步骤1104:利用功率谱计算模型,根据所述商户的贸易日时序确定商户的第一贸易周转周期。
步骤1106:通过对所述商户的第一周转周期进行分箱,获得所述商户的第二贸易周转周期,作为所述商户的业务周转周期。
具体的,数据分箱是数据挖掘中的一种简单常用的数据预处理方法,通过考察相邻数据来确定最终值。实际上就是按照数据对属性进行子区间的划分,如果一个数据处于某个子区间范围内,就把该数据放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。
具体的,在本步骤中,每一个商户的业务周转周期可以是:半月及半月内周期,或月及月内周期,或季及季内周期,或半年及半年内周期,或年及年内周期,等等。需指出,在本申请的实施例中,可以根据具体的情况,选择上述类型中的一种,作为合适的业务周转周期,在此不做赘述。
由此,通过对每一个商户的业务周转周期进行分箱,获得了每一个商户的业务周转周期,从而获得了业务周转周期分布情况。
这样做的好处在于,对诸如2.333个月,或1.1101个月等非业务周转周期,转换为诸如1个季度、1个月等业务周转周期,使得后续的数据分析和管理更加方便和高效。
步骤1108:利用层次聚类模型,对所述商户的业务周转周期进行聚类。
根据所述商户的业务周转周期,对所有的商户进行层次聚类,使每一个聚类中的商户的业务周转周期是相同的。
层次聚类是对每一个商户都归为一类,共得到N类,每类仅包含一个对象,即,一个商户,类与类之间的距离就是它们所包含的商户。然后,找到最接近的两个类合并成一类,并重新计算新的类与所有旧的类的距离,然后重复上述合并的步骤,直到最后合并为一类为止。
具体的,本步骤可以通过以下方式来实现:
将每一个商户的业务周转周期,作为层次聚类模型的输入项,采用Average-linkage评估样本(即,商户的业务模型)间的相似度,依据层次聚类产生的层次数和每一个层次的p-value(假定值),获得聚类的个数。
需指出,上述聚类的个数,即代表具有相同的业务周转周期的商户作为一个类别的情况下,所有类别的数量,即,总共有多少个类别。
在下文中,为便于理解,对于每一个类别,也称为每一个聚类或每一个类。
这样做的好处在于,进一步对每一个聚类的具有相同的业务周转周期的商户进行识别,或者说,将不同性质、不同情况的商户根据业务周转周期进行了有效划分,为后面的针对不同聚类的商户的业务周转异常分析提供了相应的数据。
需指出,所述交易特征包含以下任意一种或它们的任意组合:商户在指定时间范围内的贸易量、贸易间隔、贸易次数、贸易类型、周转周期、周转频次。
针对步骤120:
需指出,在对每一类的商户,分别使用该类商户中抽取的所述交易特征样本数据训练该类商户对应的贸易状况监控模型之前,还包括:对每一类的商户,采用分类算法构建贸易状况监控模型。这样做的好处在于,对每一个聚类的商户的不同情况,提供相应的训练样本,能够使每一个聚类的贸易状况监控模型有更好的针对性,输出的结果的准确率更高。
需指出,在本实施例中,业务周转异常商户指的是商户因为入不敷出,无法正常进货交易偿还货款。相对的,业务周转正常商户指的是商户能够正常进货交易,并回收交易款同时付清货款。
具体的,可以通过以下方式获取业务周转异常的交易特征样本数据与业务周转正常的交易特征样本数据:按预定的抽取比例,在每一个聚类的所有商户中,抽取业务周转异常商户和业务周转正常商户,进一步的,将业务周转异常商户打标为业务周转异常样本,将业务周转正常商户打标为业务周转正常样本。
针对步骤130:
需指出,在所述将待识别的商户的交易特征输入所述商户的类所对应的贸易状况监控模型之前,还包括:对每一类的商户,根据贸易异常商户的占比随时间达到平稳时对应的时间点,确定该类的商户的观察窗口。在这种情况下,所述商户的交易特征是指在所述商户的类所对应的观察窗口中的交易特征。具体的,在本实施例中,可依据RMF模型(最近一次消费-消费频率消费金额,Recency-Frequency-Monetary),建立观察窗口下的商户交易特征。
对抽取样本的商户,将业务周转异常商户打标为业务周转异常样本,即,打标为1,将业务周转正常商户打标为业务周转正常样本,即,打标为0。并且,针对商户的贸易状况及周转特征,需要对连续型变量进行归一化(即,Scale)处理,而对离散变量进行一位有效编码(即,one-hot)处理,然后放入自动建模工具中,在这种情况下,输出的结果为该待识别商户的业务周转异常率。
这样做的好处是,如上所述,针对不同聚类中的待识别商户,提供经过相应的样本训练后的贸易状况监控模型,并根据相应的观察窗口下获得的商户的贸易状况及周转特征,由该贸易状况监控模型计算该待识别商户的业务周转异常率,使得结果更加准确。
在本实施例中,根据所述贸易状况监控模型输出的待识别商户的业务周转异常率,识别业务周转异常商户。具体的,判断所述待识别商户的业务周转异常率是否大于预先设置的阈值,如果是,则确定该待识别商户为业务周转异常商户。
需指出,在本申请的实施例中,阈值也可以根据实际情况进行调整,在此不做赘述。
根据本实施例的商户业务周转异常的识别方法,根据商户的业务周转周期,对商户进行层次聚类,使每一个聚类的商户的业务周转周期是相同的。在这种情况下,再对每一个聚类的商户抽取业务周转异常商户样本和业务周转正常商户样本的交易特征,例如:贸易状况及周转特征,作为训练样本,对相应的每一个聚类的贸易状况监控模型进行训练,使每一个聚类对应的贸易状况监控模型能够更好地使用本聚类的商户的具体情况。进一步的,获取每一个聚类对应的观察窗口,使每一个聚类的观察窗口都能够提供更加适应本聚类的商户的贸易状况及周转特征。然后,通过将在观察窗口下获取的贸易状况及周转特征,作为经过训练的贸易状况监控模型的输入,其输出结果即可用于有效地识别该商户是否为业务周转异常商户。因此,通过上述实施例,能够有效实现对商户的贸易周转状况的及时掌握,降低业务周转异常用户带来的各种风险。
本说明书的第二实施方式涉及一种商户业务周转异常的识别装置,其结构如图2所示,该商户业务周转异常的识别装置包括:聚类和抽取模块、训练模块,以及监测模块。具体的:
聚类和抽取模块,用于读取商户的贸易日时序,通过计算所述贸易日时序的功率谱,得到所述商户的业务周转周期,并根据商户的业务周转周期对商户进行聚类,并在每一类的商户中,分别抽取业务周转异常的商户对应的交易特征样本数据,以及业务周转正常的商户对应的交易特征样本数据,并为该类用户中抽取的每个所述样本数据打上标记。可选的,所述聚类和抽取模块还包括:贸易日时序子模块,用于根据所述商户的贸易发生日和对应的贸易金额,确定商户的贸易日时序;第一贸易周转周期子模块,用于利用功率谱计算模型,根据所述商户的贸易日时序确定商户的第一贸易周转周期;第二贸易周转周期子模块,用于通过对所述商户的第一周转周期进行分箱,获得所述商户的第二贸易周转周期,作为所述商户的业务周转周期;聚类子模块,用于利用层次聚类模型,对所述商户的业务周转周期进行聚类。
训练模块,用于对每一类的商户,分别使用该类商户中抽取的所述交易特征样本数据训练该类商户对应的贸易状况监控模型。
监测模块,用于读取待识别的商户的交易特征,将待识别的商户的交易特征输入所述商户的类所对应的贸易状况监控模型,从所述贸易状况监测模型输出识别该商户是否业务周转异常的信号。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述商户业务周转异常的识别装置的实施方式中所示的各模块的实现功能可参照前述商户业务周转异常的识别方法的相关描述而理解。上述商户业务周转异常的识别装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本说明书实施例上述商户业务周转异常的识别装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本说明书各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
相应地,本说明书实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本说明书的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本说明书实施方式还提供一种商户业务周转异常的识别设备,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(Central Processing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称“DSP”)、专用集成电路(Application SpecificIntegrated Circuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-onlymemory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本说明书提及的所有文献都被认为是整体性地包括在本说明书的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。