发明内容
鉴于上述,本公开提供了一种识别风险商家的方法及装置,利用该方法和装置,通过基于被标记为风险商家的标记商家集群与待识别商家的相似度,来识别待识别商家中的风险商家,不仅能够准确识别风险商家,而且能够降低识别过程的计算量,提高识别效率。
根据本公开的一个方面,提供了一种识别风险商家的方法,包括:针对至少一个标记商家集群中的各个标记商家集群,基于待识别商家与该标记商家集群的用户关联度量值,确定所述待识别商家与该标记商家集群的相似度,所述各个标记商家集群中的各个标记商家被标记为风险商家;以及基于所述待识别商家与所述各个标记商家集群的相似度,识别所述待识别商家是否为风险商家。
可选的,在一个示例中,所述待识别商家与所述标记商家集群的用户关联度量值可以包括所述待识别商家与所述标记商家集群的用户关联系数和所述待识别商家与所述标记商家集群的相同用户数量。其中,所述用户关联系数可以包括:在所述待识别商家的用户中,与所述标记商家集群的相同用户所占的比例;和/或所述待识别商家与所述标记商家集群的用户特征相似度。
可选的,在一个示例中,所述各个标记商家集群具有至少一个代表标记商家,基于至少一个待识别商家中的待识别商家与该标记商家集群的用户关联度量值,确定所述待识别商家与该标记商家集群的相似度包括:基于针对该标记商家集群的所述待识别商家的向量表示和该标记商家集群的至少一个代表标记商家的向量表示,确定所述待识别商家与该至少一个代表标记商家的相似度;以及基于所述待识别商家与该至少一个代表标记商家的相似度,确定所述待识别商家与该标记商家集群的相似度。其中,针对该标记商家集群的商家的向量表示是基于所述商家与该标记商家集群的用户关联系数和所述商家与该标记商家集群的相同用户数量的向量表示。
可选的,在一个示例中,在基于所述待识别商家的向量表示和该标记商家集群的至少一个代表标记商家的向量表示,确定所述待识别商家与该至少一个代表标记商家的相似度之前,基于待识别商家与该标记商家集群的用户关联度量值,确定所述待识别商家与该标记商家集群的相似度还包括:将所述向量表示中的相同用户数量维度和用户关联系数维度处理为具有相同的取值范围。
可选的,在一个示例中,所述各个标记商家集群的至少一个代表标记商家是基于该标记商家集群中的各个标记商家的用户数量确定的。
可选的,在一个示例中,所述待识别商家与所述各个标记商家集群的至少一个代表标记商家的相似度用以下中的任一者来表征:欧氏距离、曼哈顿距离和夹角余弦距离。
可选的,在一个示例中,基于所述待识别商家与所述各个标记商家集群的相似度,识别所述至少一个待识别商家中的风险商家包括:针对所述各个标记商家集群,将至少两个待识别商家与该标记商家集群的相似度中的大于预定阈值的相似度值最大的前预定个数的待识别商家,识别为与该标记商家集群对应类别的风险商家。
根据本公开的另一方面,还提供一种识别风险商家的装置,包括:相似度确定单元,被配置为针对至少一个标记商家集群中的各个标记商家集群,基于待识别商家与该标记商家集群的用户关联度量值,确定所述待识别商家与该标记商家集群的相似度,所述各个标记商家集群中的各个标记商家被标记为相应风险类别的风险商家;以及风险商家识别单元,被配置为基于所述待识别商家与所述各个标记商家集群的相似度,识别所述待识别商家是否为风险商家。
可选的,在一个示例中,所述待识别商家与所述标记商家集群的用户关联度量值包括所述待识别商家与所述标记商家集群的用户关联系数和所述待识别商家与所述标记商家集群的相同用户数量。其中,所述用户关联系数可以包括:在所述待识别商家的用户中,与所述标记商家集群的相同用户所占的比例;和/或所述待识别商家与所述标记商家集群的用户特征相似度。
可选的,在一个示例中,所述各个标记商家集群具有至少一个代表标记商家,所述相似度确定单元包括:第一相似度确定模块,被配置为基于针对该标记商家集群的所述待识别商家的向量表示和该标记商家集群的至少一个代表标记商家的向量表示,确定所述待识别商家与该至少一个代表标记商家的相似度;以及第二相似度确定模块,被配置为基于所述待识别商家与该至少一个代表标记商家的相似度,确定所述待识别商家与该标记商家集群的相似度。其中,针对该标记商家集群的商家的向量表示是基于所述商家与该标记商家集群的用户关联系数和所述商家与该标记商家集群的相同用户数量的向量表示。
可选的,在一个示例中,所述相似度确定单元还包括:归一化处理模块,被配置为在基于待识别商家与该标记商家集群的用户关联度量值,确定所述待识别商家与该标记商家集群的相似度之前,将所述向量表示中的相同用户数量维度和用户关联系数维度处理为具有相同的取值范围。
可选的,在一个示例中,所述风险商家识别单元被配置为:针对所述各个标记商家集群,将至少两个待识别商家与该标记商家集群的相似度中的大于预定阈值的相似度值最大的前预定个数的待识别商家,识别为与该标记商家集群对应类别的风险商家。
根据本公开的另一方面,还提供一种计算设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的识别风险商家的方法。
根据本公开的另一方面,还提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的识别风险商家的方法。
利用本公开的识别风险商家的方法和装置,通过基于待识别商家与风险的标记商家集群的用户关联度量值来计算待识别商家与标记商家集群的相似度,进而基于该相似度识别待识别商家中的风险商家,从而能够综合地基于标记商家集群中的多个标记商家的特征来进行识别,由此不仅能准确识别出风险商家,而且在识别过程中的运算量较小,因而还能够提高识别效率。
利用本公开的识别风险商家的方法和装置,基于在待识别商家与标记商家集群的用户关联系数和待识别商家与标记商家集群的相同用户数量,来计算待识别商家与标记商家集群的相似度,从而能够基于待识别商家与标记商家集群的相对关联属性和绝对关联属性来确定待识别商家与标记商家集群的相似度,以提高风险识别的准确性。
利用本公开的识别风险商家的方法和装置,以代表标记商家来代表各个标记商家集群,从而基于待识别商家和各个标记商家集群的代表标记商家的向量表示来确定待识别商家与各个标记商家集群的相似度,能够降低风险商家识别过程的复杂度,进一步提高识别效率。
利用本公开的识别风险商家的方法和装置,在确定代表标记商家与待识别商家间的相似度之前,将向量表示中的相同用户数量维度和用户关联系数维度处理为具有相同的取值范围,从而避免因为各维度的取值范围差异导致忽略某一维度的特征,由此能够进一步提高识别风险商家的准确性。
利用本公开的识别风险商家的方法和装置,基于各个标记商家集群中的各个标记商家的用户数量来确定各个标记商家集群的代表标记商家,从而能够根据实际情况选取能够代表该标记商家集群的代表标记商家,以提高识别过程的灵活性。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
现在结合附图来描述本公开的识别风险商家的方法及装置。
图1是根据本公开的一个实施例的识别风险商家的方法的流程图。
如图1所示,在块120,针对至少一个标记商家集群中的各个标记商家集群,基于待识别商家与该标记商家集群的用户关联度量值,确定待识别商家与该标记商家集群的相似度,各个标记商家集群中的各个标记商家被标记为相应风险类别的风险商家。风险商家是指有进行异常交易风险(例如洗钱犯罪交易行为等违法交易行为)的商家。
可以由人工对所收集的风险商家进行标注,并将被标注为相同类别的风险商家聚合为同一个标记商家集群。还可以利用经过训练的分类模型将已知的风险商家集群为各个标记商家集群。分类模型可以利用所收集的商家的用户数据来训练。各个标记商家集群对应的风险类别例如可以是毒品风险、走私风险、赌博风险、期诈风险等类别。在获得各个标记商家集群之后,可以合并该标记商家集群中的各个标记商家的用户群体以作为该标记商家集群的用户群体。由此,能够将各个标记商家的用户特征综合为对应的标记商家集群的用户特征。各个商家的用户可以基于用户与商家之间的资金往来关系来确定。
合并同类别的风险商家以获得标记商家集群时,可以通过确定待识别商家与各个标记商家集群的相似度来识别待识别商家中的风险商家,而不需要一一计算待识别商家与每个已知的标记商家的相似度,从而大幅降低了运算量,提高了运算效率。此外,基于标记商家集群中的各个标记商家的用户群体合并而生成的用户群体来计算相似度,能够丰富各个标记商家集群的特征,从而能够提高识别风险商家的准确性。
在一个示例中,待识别商家与标记商家集群的用户关联度量值可以包括待识别商家与标记商家集群的用户关联系数和待识别商家与标记商家集群的相同用户数量。其中,用户关联系数可以是在待识别商家的用户中,与标记商家集群的相同用户所占的比例。即,用户关联系数可以利用如一数学式一来计算。
数学式一:
在数学式一中,A表示待识别商家的用户数量,G表示标记商家集群的用户数量,M(A,G)表示待识别商家与标记商家集群的用户关联系数,A∩G表示待识别商家与标记商家集群的相同用户数量。对于数学式一,可以定为当A的值为0时,M(A,G)的值为0。
用户关联系数还可以包括待识别商家与标记商家集群的用户特征相似度。在一个示例中,可以基于待识别商家的用户数据,利用经过训练的分类模型来确定待识别商家与各个标记商家集群的用户特征相似度,进而基于所确定的用户特征相似度来确定待识别商家与各个标记商家集群的相似度。在另一示例中,还可以利用特征提取模型(例如逻辑回归模型等)来从待识别商家和标记商家集群的用户数据(例如用户基本信息、用户行为数据等)中提取用户特征,进而基于所提取的待识别商家的用户特征和各个标记商家集群的用户特征,来确定待识别商家与各个标记商家集群的用户特征相似度。
在该示例中,用户关联系数可以看作待识别商家与标记商家集群之间的相对用户关联度量值,而相同用户数量可以看作待识别商家与标记商家集群的绝对用户关联度量值。因此,该示例可以基于待识别商家与标记商家集群的相对关联属性和绝对关联属性来确定相似度,从而使所计算的相似度更加准确。
在确定待识别商家与各个标记商家集群的相似度之后,在块140,基于待识别商家与各个标记商家集群的相似度,识别待识别商家是否为风险商家。
在一个示例中,可以将待识别商家与各个标记商家集群的相似度中的最大值确定为该待识别商家的风险系数。然后,可以基于待识别商家的风险系数和预定风险阈值,来确定该待识别商家是否为风险商家。例如,可以设置为在待识别商家的风险系数高于某一风险阈值时,确定其为风险商家。
在一个示例中,各个标记商家集群可以有至少一个代表标记商家。代表标记商家可以基于标记商家集群中的各个标记商家的用户数量来确定。例如,可以将各个标记商家集群中的标记商家按照用户数量进行排序。代表标记商家例如可以是排序结果中序数为中位数所对应的标记商家,还可以是提排序结果中居于中间位置的两个以上标记商家。此外,还可以是排序中间隔预定序数的两个以上标记商家。例如,如果某一标记商家集群中的标记商家按用户数量排序后的序数为1至300,可以每隔50个序数从第1个至第300个标记商家中选取代表标记商家。当各个标记商家集群具有代表标记商家时,可以通过确定待识别商家与代表标记商家的相似度,来确定待识别商家与对应标记商家集群的相似度。
图2是根据本公开的一个实施例的识别风险商家的方法中的基于代表标记商家来确定相似度的示例的流程图。
如图2所示,在块204,基于针对该标记商家集群的待识别商家的向量表示和该标记商家集群的至少一个代表标记商家的向量表示,确定待识别商家与该至少一个代表标记商家的相似度。针对某一标记商家集群的商家的向量表示是基于该商家与该标记商家集群的用户关联系数和相同用户数量而建立的。
待识别商家与代表标记商家的相似度可以用欧氏距离、曼哈顿距离、夹角余弦距离等中的任一者来表征。以下以利用欧氏距离的情形为例,来说明计算待识别商家与代表标记商家的相似度确定过程的示例。在下述示例中,待识别商家或代表标记商家与标记商家集群的用户关联系数为在该商家的用户中与该标记商家集群的相同用户所占的比例。
针对某一标记商家集群,待识别商家的向量表示可以是(M(A,G),|A∩G|),该标记商家集群的代表标记商家的向量表示可以是(M(Gp,G),|Gp∩G|)。其中,Gp表示代表标记商家的用户数量。由于代表标记商家的用户全部来自于该标记商家集群,因而代表标记商家与该标记商家集群的用户关联系数M(Gp,G)的值为1,代表标记商家与该标记商家集群的相同用户数量|Gp∩G|为Gp。待识别商家与代表标记商家之间的相似度可以利用如下数学式二来确定。
数学式二:
在数学式二中,Gp表示代表标记商家的用户数量,D(A,Gp)为待识别商家与代表标记商家之间的欧氏距离。
在块204,基于待识别商家与至少一个代表标记商家的相似度,确定待识别商家与该标记商家集群的相似度。
通常向量表示中的用户关联系数的取值较小(例如,取值范围为[0,1])。当待识别商家与某一标记商家集群的相同用户数量较大时,由于在向量表示中相同用户数量维度的取值远大于用户关联系数,因而用户关联系数维度可能会被相同用户数量维度覆盖。这会导致所确定的相似度不够准确。
因而,在执行块202的操作之前,可以将向量表示中的相同用户数量维度和用户关联系数维度处理为具有相同的取值范围。然后基于处理后的向量表示执行块202至块204的操作。
例如,可以对向量表示中的相同用户数量维度进行归一化处理。可以利用如下数学式三对相同用户数量维度进行归一化处理。
数学式三:
归一化处理后的待识别商家的向量表示为
代表标记商家的向量表示为(1,1)。待识别商家与代表标记商家之间的相似度可以修改为如下数学式四。
数学式四:
数学式四中的D(A,G
p)取值范围为
还可以进一步基于数学式四对相似度的计算式进行改造。例如可以基于如下数学式五来计算最终的相似度。
数学式五:
在数学式五中,S(A,Gp)为最终得出的待识别商家与代表标记商家的相似度,其取值范围为[0,1]。
以上虽然示出了利用数学式三进行归一化处理的情形,但应当理解的是,还可以采用其它方式来对相同用户数量维度进行归一化处理。例如,可以将各个向量表示中的相同用户数量的值除以相同用户数量维度的最大值,以进行归一化处理。
在确定出待识别商家与代表标记商家之间的相似度之后,可以确定待识别商家与标记商家集群之间的相似度。例如,如果标记商家集群具有一个代表标记商家,则可以将待识别商家与该代表标记商家的相似度确定为待识是商家与该标记商家集群的相似度。在一个示例中,标记商家集群可以具有两个以上代表标记商家。此时,可以对待识别商家与各个代表标记商家的相似度取平均值,从而得出待识别商家与该标记商家集群的相似度。此外,当代表标记商家是基于标记商家集群中的各个标记商家的用户数量排序而选取的多个代表标记商家时,还可以基于各个代表标记商家的用户数量为其赋予不同的权重,从而对待识别商家与各个代表标记商家的相似度取加权平均值或加权求和,以得到待识别商家与该标记商家集群的相似度。
在确定出待识别商家与各个标记商家集群的相似度时,可以针对各个标记商家集群,将待识别商家与该标记商家集群的相似度中的大于预定阈值的相似度值最大的前预定个数的待识别商家,识别为与该标记商家集群对应类别的风险商家。图3是根据本公开的一个实施例的识别风险商家的方法中的风险商家识别过程的一个示例的流程图。
如图3所示,在块302,针对各个标记商家集群,对至少两个待识别商家与该标记商家集群的相似度进行排序。
然后,在块304,将排序结果中大于预定阈值的相似度值最大的前预定个数的待识别商家识别为该标记商家集群所对应的类别的风险商家。
此外,还可以将待识别商家与各个标记商家集群的相似度中的最大值确定为该待识别商家的风险系数。然后将待识别商家的犯罪风险系数中的值最大的前预定个数的待识别商家确定为风险商家。或者,将待识别商家的犯罪风险系数中的大于预定阈值的值最大的前预定个数的待识别商家确定为风险商家。
在确定出风险商家之后,还可以进一步对所确定出的风险商家进行验证征处理,以排除其中风险较低的商家。例如,可以将所确定出的风险商家的数据发送至反风险监控团队,由团队中的专业人员进一步对这些商家进行分析,以最终确定风险商家。
图4是根据本公开的一个实施例的风险商家识别装置400的结构框图。如图4所示,风险商家识别装置400包括相似度确定单元410和风险商家识别单元420。
相似度确定单元410被配置为针对至少一个标记商家集群中的各个标记商家集群,基于待识别商家与该标记商家集群的用户关联度量值,确定待识别商家与该标记商家集群的相似度,各个标记商家集群中的各个标记商家被标记为相应风险类别的风险商家。风险商家识别单元420被配置为基于待识别商家与各个标记商家集群的相似度,识别至少一个待识别商家中的风险商家。
在一个示例中,风险商家识别单元420可以被配置为针对各个标记商家集群,将至少两个待识别商家与该标记商家集群的相似度中的大于预定阈值的相似度值最大的前预定个数的待识别商家,识别为与该标记商家集群对应类别的风险商家。
在一个示例中,待识别商家与标记商家集群的用户关联度量值可以包括待识别商家与标记商家集群的用户关联系数和待识别商家与标记商家集群的相同用户数量。其中,用户关联系数可以为在待识别商家的用户中,与标记商家集群的相同用户所占的比例。用户关联系数还可以是待识别商家的用户与标记商家集群的用户的特征相似度。
图5是图4所示的风险商家识别装置400中的相似度确定单元410的一个示例的结构框图。在该示例中,各个标记商家集群可以具有至少一个代表标记商家。如图5所示,相似度确定单元410可以包括归一化处理模块411、第一相似度确定模块412和第二相似度确定模块413。其中,在另一示例中,可以不包括归一化处理模块411。以下为了说明上的方便性,首先对第一相似度确定模块412和第二相似度确定模块413进行说明。
第一相似度确定模块412被配置为基于针对该标记商家集群的待识别商家的向量表示和该标记商家集群的至少一个代表标记商家的向量表示,确定待识别商家与该至少一个代表标记商家的相似度。第二相似度确定模块413被配置为基于待识别商家与该至少一个代表标记商家的相似度,确定待识别商家与该标记商家集群的相似度。其中,针对该标记商家集群的商家的向量表示是基于商家与该标记商家集群的用户关联系数和所述商家与该标记商家集群的相同用户数量的向量表示。
为了避免向量表示中不同维度的取值范围差异过大而导致所确定的相似度不准确,可以利归一化处理模块411在基于至少一个待识别商家中的待识别商家与该标记商家集群的用户关联度量值,确定待识别商家与该标记商家集群的相似度之前,将向量表示中的相同用户数量维度和用户关联系数维度处理为具有相同的取值范围。关于归一化处理的示例已在上述内容中进行了说明,此处不再赘述。
以上参照图1-5对识别风险商家的方法和装置进行了说明。需要说明的是,在以上对识别风险商家的方法的说明中提及的细节同样适用于识别风险商家的装置。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见。
本公开的识别风险商家的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。在本公开中,识别终端设备上显示的应用程序控件的装置例如可以利用计算设备实现。
图6是根据本公开的另一实施例的识别风险商家的方法的计算设备600的结构框图。如图6所示,计算设备600可以包括至少一个处理器610、存储器620、内存630、通信接口640以及内部总线650,该至少一个处理器610执行在计算机可读存储介质(即,存储器620)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器620中存储计算机可执行指令,其当执行时使得至少一个处理器610:针对至少一个标记商家集群中的各个标记商家集群,基于至少一个待识别商家中的待识别商家与该标记商家集群的用户关联度量值,确定所述待识别商家与该标记商家集群的相似度,所述各个标记商家集群中的各个标记商家被标记为相应风险类别的风险商家;以及基于所述待识别商家与所述各个标记商家集群的相似度,识别所述至少一个待识别商家中的风险商家。
应该理解,在存储器620中存储的计算机可执行指令当执行时使得至少一个处理器610进行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。
根据一个实施例,提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-5描述的各种操作和功能。
具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本公开的实施例的可选实施方式,但是,本公开的实施例并不限于上述实施方式中的具体细节,在本公开的实施例的技术构思范围内,可以对本公开的实施例的技术方案进行多种简单变型,这些简单变型均属于本公开的实施例的保护范围。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。