CN114418752B

CN114418752B - 无类型标签用户数据的处理方法、装置、电子设备和介质

Info

Publication number: CN114418752B
Application number: CN202210308309.1A
Authority: CN
Inventors: 郭翊麟; 孙悦; 蔡准; 郭晓鹏
Original assignee: Beijing Trusfort Technology Co ltd
Current assignee: Beijing Trusfort Technology Co ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-07-12
Anticipated expiration: 2042-03-28
Also published as: CN114418752A

Abstract

本公开提供了一种无类型标签用户数据的处理方法、装置、设备及存储介质，包括：根据用户的交易特征数据对用户进行聚类，得到特定数量的簇；确定簇为包含无类型标签用户的无类型标签簇或不包含无类型标签用户的有类型标签簇；类型标签用于指示用户异常或正常；选取特定数量的无类型标签簇作为样本簇；从样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对；选取相似度满足设定条件的两个样本簇，分别从该两个样本簇选取第一用户，根据被选取的第一用户构建负样本对；为正样本对配置相似的相似度标签，为负样本对配置不相似的相似度标签；将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

Description

无类型标签用户数据的处理方法、装置、电子设备和介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种无类型标签用户数据的处理方法、装置、电子设备和介质。

背景技术

随着互联网的不断发展，电子银行已经成为了银行业务渠道和市场营销的主要竞争手段之一。网络电子银行为我们带来便利的同时，使电子银行用户的洗钱、非正常的转账等异常交易活动变得更加容易，而识别和发现此类存在异常交易行为的用户变得更加困难。

当前，识别用户是否异常所采用的方案中，要么识别方法准确率较低，要么需要人为对结果进行分析判断，人工成本较大。造成以上技术问题的主要原因是，有类型（正常或异常）标签用户数据过少，无类型标签用户数据量大，无法利用大量无类型标签用户数据。

发明内容

本公开提供了一种无类型标签用户数据的处理方法、装置、电子设备及介质，以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面，提供了一种无类型标签用户数据的处理方法，包括：根据用户的交易特征数据对用户进行聚类，得到特定数量的簇；确定所述簇为无类型标签簇或有类型标签簇；所述无类型标签簇中包含无类型标签用户，所述有类型标签簇中不包含无类型标签用户；所述类型标签用于指示所述用户异常或正常；选取特定数量的无类型标签簇作为样本簇；从所述样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对；选取相似度满足设定条件的两个样本簇，分别从该两个样本簇选取所述第一用户，根据被选取的第一用户构建负样本对；为所述正样本对配置相似的相似度标签，为所述负样本对配置不相似的相似度标签；将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

在一可实施方式中，所述得到特定数量的簇之后，且确定所述簇为无类型标签簇或有类型标签簇之前，所述方法还包括：统计每个簇中有类型标签的用户数量和无类型标签的用户数量，若所述簇中有类型标签的用户数量大于无类型标签的用户数量，且有类型标签的用户类型标签的标签值全为正常或全为异常，则为所述簇中的无类型标签的用户生成类型标签。

在一可实施方式中，为所述簇中的无类型标签的用户生成类型标签，包括：若所述簇中有类型标签的用户的类型标签的标签值全为正常，则所述簇中的无类型标签的用户的类型标签的标签值设为正常；若所述簇中有类型标签的用户的类型标签的标签值全为异常，则所述簇中的无类型标签的用户的类型标签的标签值设为异常。

在一可实施方式中，所述选取特定数量的无类型标签簇作为样本簇，包括：对于任意一个无类型标签簇，根据该簇中各用户的交易特征数据确定该簇的中心点，并计算该簇的中心点与其他所有无类型标签簇的中心点之间的平均距离；按照每个无类型标签簇对应的所述平均距离从大到小的顺序，选取特定数量的无类型标签簇作为样本簇。

在一可实施方式中，所述选取相似度满足设定条件的两个样本簇，包括：将两两样本簇构成对应的样本簇对；计算每个样本簇对的簇对中心点距离，所述簇对中心点距离为样本簇对中两个样本簇的中心点之间的距离；按照所述簇对中心点距离从大到小的顺序，选取特定数量的样本簇对，并从中抽取一个样本簇对，得到相似度满足设定条件的两个样本簇。

在一可实施方式中，从样本簇中选取相似度最大的特定数量的第一用户，包括：计算所述样本簇中各个用户的用户中心点距离，所述用户中心点距离为所述用户与所述样本簇中心点的距离；按照所述用户中心点距离从小到大的顺序，从所述样本簇中选取特定数量的第一用户。

在一可实施方式中，根据被选取的第一用户构建正样本对，包括：被选取的所述第一用户分别与所述中心点组成相应的正样本对；根据被选取的第一用户构建负样本对，包括：被选取的两个样本簇中的被选取的第一用户两两组成相应的负样本对。

在一可实施方式中，所述确定所述簇为无类型标签簇或有类型标签簇之后，该方法还包括：将所有的簇中的有类型标签的用户组成有类型标签样本集合；相应的，该方法还包括：所述有类型标签样本集合与所述无类型标签样本集合构成训练样本，将所述训练样本输入深度学习模型训练，优化所述深度学习模型，得到优化后的深度学习模型；基于待识别的用户的交易特征数据，通过所述优化后的深度学习模型，确定所述待识别的用户的类型为异常或正常。

根据本公开的第二方面，提供了一种无类型标签用户数据的处理设备，包括：用户聚类模块，用于根据用户的交易特征数据对用户进行聚类，得到特定数量的簇；确定所述簇为无类型标签簇或有类型标签簇；所述无类型标签簇中包含无类型标签用户，所述有类型标签簇中不包含无类型标签用户；所述类型标签用于指示所述用户异常或正常；样本簇构建模块，用于选取特定数量的无类型标签簇作为样本簇；样本对构建模块，用于从所述样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对；选取相似度满足设定条件的两个样本簇，分别从该两个样本簇选取所述第一用户，根据被选取的第一用户构建负样本对；相似度标签生成模块，用于为所述正样本对配置相似的相似度标签，为所述负样本对配置不相似的相似度标签；将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

在一可实施方式中，所述用户聚类模块，还用于统计每个簇中有类型标签的用户数量和无类型标签的用户数量，若所述簇中有类型标签的用户数量大于无类型标签的用户数量，且有类型标签的用户类型标签的标签值全为正常或全为异常，则为所述簇中的无类型标签的用户生成类型标签。所述为所述簇中的无类型标签的用户生成类型标签，包括：若所述簇中有类型标签的用户的类型标签的标签值全为正常，则所述簇中的无类型标签的用户的类型标签的标签值设为正常；若所述簇中有类型标签的用户的类型标签的标签值全为异常，则所述簇中的无类型标签的用户的类型标签的标签值设为异常。

在一可实施方式中，所述样本簇构建模块，具体用于对于任意一个无类型标签簇，根据该簇中各用户的交易特征数据确定该簇的中心点，并计算该簇的中心点与其他所有无类型标签簇的中心点之间的平均距离；按照每个无类型标签簇对应的所述平均距离从大到小的顺序，选取特定数量的无类型标签簇作为样本簇。

在一可实施方式中，所述样本对构建模块，包括：

负样本对构建单元，用于选取相似度满足设定条件的两个样本簇，包括：将两两样本簇构成对应的样本簇对；计算每个样本簇对的簇对中心点距离，所述簇对中心点距离为样本簇对中两个样本簇的中心点之间的距离；按照所述簇对中心点距离从大到小的顺序，选取特定数量的样本簇对，并从中抽取一个样本簇对，得到相似度满足设定条件的两个样本簇。

第一用户获取单元，用于从样本簇中选取相似度最大的特定数量的第一用户，包括：计算所述样本簇中各个用户的用户中心点距离，所述用户中心点距离为所述用户与所述样本簇中心点的距离；按照所述用户中心点距离从小到大的顺序，从所述样本簇中选取特定数量的第一用户。

正样本对构建单元，用于根据被选取的第一用户构建正样本对，包括：被选取的所述第一用户分别与所述中心点组成相应的正样本对；

所述负样本对构建单元，还用于根据被选取的第一用户构建负样本对，包括：被选取的两个样本簇中的被选取的第一用户两两组成相应的负样本对。

在一可实施方式中，所述样本聚类模块，还用于将所有的簇中的有类型标签的用户组成有类型标签样本集合。

在一可实施方式中，该装置还用于，将所述有类型标签样本集合与所述无类型标签样本集合构成训练样本，将所述训练样本输入深度学习模型训练，优化所述深度学习模型，得到优化后的深度学习模型；基于待识别的用户的交易特征数据，通过所述优化后的深度学习模型，确定所述待识别的用户的类型为异常或正常。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开上述的方案中，基于对大量的无类型标签用户数据进行处理，利用大量的无类型标签用户数据与有类型标签的用户数据合并输入深度学习模型进行训练，得到的模型可以识别用户的类型为正常或异常，如此，既利用了大量的无类型标签数据，通过合理使用簇采样策略及样本对构建策略降低了数据生成的复杂度，有效提高了数据的利用率，又利用模型进行用户类型的识别，节约了人工审核与分析的成本，提高了用户识别的准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本公开一示例一种无类型标签用户数据处理方法的实现流程示意图；

图2示出了本公开一示例为无类型标签的用户生成类型标签的方法的实现流程示意图；

图3示出了本公开一示例深度学习模型结构示意图；

图4示出了本公开一示例一种无类型标签用户数据的处理设备的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的，并不用于限定本发明。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明一示例提供了一种无类型标签用户数据的处理方法，实现流程如图1所示，包括：

步骤S101，根据用户的交易特征数据对用户进行聚类。

要得到用户的交易特征数据需要采集用户的交易数据。一个用户可能对应多条交易数据，基于这多条交易数据提取出该用户的交易特征数据。其中，用户的交易特征数据包括多个维度，每个维度表示提取出的用户的交易特征数据的一个特征，这多个特征的数据就组成了该用户的交易特征数据。

得到每个用户的交易特征数据之后，对用户进行聚类，聚类的方法可以采用K-Means(K均值)聚类方法、层次聚类算法或者其他聚类方法，此处对具体的聚类方法不做限定。聚类后得到特定数量的簇，每个簇中包括多个用户。这里可以将特定数量的簇的值设置的大一点，这样聚类结果就会更精细，便于后面样本对的构建。

步骤S102，确定簇为无类型标签簇或有类型标签簇；无类型标签簇中包含无类型标签用户，有类型标签簇中不包含无类型标签用户；类型标签用于指示用户异常或正常。

根据步骤S101中的用户交易数据，就可以确定出部分用户的类型为正常或异常，可为这些用户生成类型标签，正常用户的类型标签的标签值为正常，异常用户的类型标签的标签值为异常，这些用户即为有类型标签用户。而仍有大部分的用户无法确定其类型，则无法为这些用户生成类型标签，这些用户即为无类型标签用户。本公开中对于根据用户的交易数据确定用户类型的方式不做限定。

聚类后，有的簇中含有无类型标签用户（可能包含有类型标签用户），有的簇中全部为有类型标签用户（即不含无类型标签用户），将含有无类型标签用户的簇称为无类型标签簇，将不含无类型标签用户的簇称为有类型标签簇。

步骤S103，选取特定数量的无类型标签簇作为样本簇。

统计无类型标签簇的数量，若无类型标签簇的数量不大于设定的阈值，则每个无类型标签簇均为样本簇；若无类型标签簇的数量大于设定的阈值，则选取特定数量的无类型标签簇作为簇样本簇。

在一个示例中，无类型标签簇的数量大于设定阈值，可以通过如下方法选取样本簇：

对于任意一个无类型标签簇，根据该簇中各用户的交易特征数据确定该簇的中心点：该中心点包含多个维度，中心点的每个维度的特征值可为该簇中所有用户在该维度上的特征值的平均值；中心点的每个维度的特征值也可为该簇中所有用户在该维度上的特征值的中位数。本公开中，对于中心点的每个维度的特征值的计算方式不做限制。

然后，对于每一个无类型标签簇，根据该无类型标签簇的中心点，计算出该无类型标签簇与其他所有无类型标签簇之间的平均距离，对所有无类型标签簇计算出上述平均距离。之后，按照平均距离从大到小对无类型标签簇进行排序。其中，簇与其他簇的平均距离越大，表示该簇距离其他簇越远，该簇中的用户与其他簇的用户越不相似，该簇边界在一定阈值范围内几乎无样本。

最后，从排好序的无类型标签簇中按照从前到后的顺序选取特定数量的簇作为样本簇。

通过从无类型标签簇中选取样本簇，减少了后续要处理的簇的数量，降低了后续进行数据生成的复杂度。

步骤S104，从样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对。

该步骤中用户的相似度，是样本簇中的用户与该样本簇的中心点距离的远近，这里所述中心点为步骤S103中计算得到的无类型标签簇的中心点，为了后续描述方便，将中心点与用户的距离称为用户中心点距离。

用户中心点距离越小，用户的相似度越大，表示用户与该样本簇的紧密性也越高。按照用户中心点距离由小到大的顺序、即相似度由大到小的顺序，选取特定数量的用户，即可得到相似度最大的特定数量的第一用户。其中，特定数量可以通过用户数量占比来表示，也可以是一定的数值，本公开对此不做限定。

被选取的所述第一用户分别与所属簇的中心点组成相应的正样本对。

步骤S105，选取相似度满足设定条件的两个样本簇，分别从该两个样本簇选取所述第一用户，根据被选取的第一用户构建负样本对。

其中，两个样本簇的相似度，是指这两个样本簇的中心点之间的距离。两个样本簇的中心点之间的距离越大，表示这两个样本簇的距离越远，那么，这两个样本簇的相似度就会越低。

首先，可将所有的样本簇两两结合，构成样本簇对。其中，每个样本簇对包括两个样本簇。为了后续描述方便，将每个样本簇对的两个样本簇的中心点之间的距离称为簇对中心点距离。

计算每个样本簇对的簇对中心点距离。按照簇对中心点距离从大到小的顺序选取特定数量的样本簇对，之后从所选取的样本簇对中随机抽取一个样本簇对，该抽取得到的样本簇对即为相似度满足设定条件的两个样本簇。

根据步骤S104中选取第一用户的方法，从被选取的两个样本簇中分别选取特定数量的第一用户。最后，两个样本簇中的被选取的第一用户两两组成相应的负样本对。

在一个示例中，还可以将所有的正样本对构成正样本对集合，将所有的负样本对构成负样本对集合，还可以从正样本对集合中抽取设定比例的正样本对，从负样本对中抽取设定比例的负样本对，这里的两个设定比例可相同，可不同。同时，抽取的正样本对数量和负样本对数量也可以满足设定的比例，例如，抽取的正样本对数量和负样本对数量的比例可为1:1.2或者1:1.1，这样就保证了正样本对和负样本对处于均衡的状态。

步骤S106，为正样本对配置相似的相似度标签，为负样本对配置不相似的相似度标签。

其中，相似度标签的标签值，对应表示样本对中的两个用户的类型是否相似。由于正样本对中的两个用户（即用户和所属簇的中心点）来自同一样本簇，所以正样本对的两个用户的相似度标签的标签值设置为相似，负样本对中的两个用户来自不同的样本簇，所以负样本对的两个用户的相似度标签的标签值设置为不相似。

步骤S107，将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

无类型标签样本集合中包含多个无类型标签样本，每个无类型标签样本即为一个具有相似度标签的正样本对或负样本对。

在上述的方案中，通过对簇进行采样和对簇中样本进行采样的策略，降低了数据生成的复杂度。同时对无类型标签用户通过构建样本对的方式为其配置相似度标签，有效地利用了无类型标签用户的数据，提高了数据的利用率。在此基础上，将有类型标签用户和具有相似度标签的无类型标签用户构成训练样本，输入深度学习模型进行训练，大量的数据能有效提高学习模型对用户类型的识别准确率，并且不需要对结果进行人工分析判断，节省人工成本。

在一个示例中，在步骤S101得到特定数量的簇之后，以及在步骤S102确定簇为无类型标签簇或有类型标签簇之前，还可以为满足条件的簇中的无类型标签用户生成类型标签。参考图2为无类型标签的用户生成类型标签的方法的实现流程示意图，对于聚类得到的每个簇，做如下处理：

步骤S201，统计簇中有类型标签的用户数量和无类型标签的用户数量；判断有类型标签的用户数量是否大于无类型标签的用户数量，若否，则对该簇中的无类型标签的用户不做处理；若是，则进行步骤202。

步骤S202，统计类型标签的标签值为正常和异常的用户数量，若该簇中有类型标签的用户的标签值既不全为正常也不全为异常，则对该簇中的无类型标签的用户不做处理；若该簇中有类型标签的用户的类型标签的标签值全为正常或全为异常，则进行步骤203。

步骤S203，为该簇中的无类型标签的用户生成类型标签。若该簇中有类型标签的用户的类型标签的标签值全为正常，则为簇中的无类型标签的用户生成的类型标签的标签值为正常；若该簇中有类型标签的用户的类型标签的标签值全为异常，则为簇中的无类型标签的用户生成的类型标签的标签值设为异常。

根据上述方法，对每个簇做以上处理后，部分无类型标签的用户均生成了类型标签。

在一个示例中，在上述步骤S102中确定所述簇为无类型标签簇或有类型标签簇之后，可将所有的簇中的有类型标签的用户组成有类型标签样本集合。然后，将有类型标签样本集合，与步骤S107中的无类型标签样本集合构成训练样本，将所述训练样本输入深度学习模型进行训练，优化所述深度学习模型，得到优化后的深度学习模型。基于待识别的用户的交易特征数据，通过所述优化后的深度学习模型，确定所述待识别的用户的类型为异常或正常。

这样既充分学习了有类型标签样本的信息，又充分利用了无类型标签样本的信息，极大地提升了模型的泛化性能，提高了识别用户类型的准确率。

下面通过具体的一个示例来说明上述无类型标签用户数据的处理方法：

步骤S301,根据用户的交易特征数据对用户进行聚类。

首先，采集用户的交易数据。假设获取100000条交易数据，每条交易数据包含的字段（内容）：交易对象、交易金额、交易时间、交易类型和/或交易去向等。按照用户对这100000条交易数据进行划分，假设分为80000个用户，每个用户有一条或多条交易数据。

然后，从上述用户的交易数据中提取用户的交易特征数据，包括：

用户：用户姓名。

用户的账号数：例如，可为该用户的账号数、该用户的发生转出交易的账号数、该用户的发生转入交易的账号数、转出账号数占总账号数的比例、转入账号数占总账号数的比例中的一种或多种。对于上述的关于账号数的特征提取还可以加上时间的限制，例如，近n个月的用户的账号数，本公开对此不做限制。

用户的交易次数：例如，可为交易次数、转出的交易次数、转入的交易次数、转出的交易次数占总交易次数的比例、转入的交易次数占总交易次数的比例、平均每个账号的交易次数、平均每个转出账号的交易次数、平均每个转入账号的交易次数中的一种或多种。对于上述的关于交易次数的特征提取还可以加上时间的限制，例如，近n个月的用户的交易次数，本公开对此不做限制。

用户的交易金额：例如，可为该用户的总交易金额、交易金额的最大值、交易金额的最小值、交易金额的平均值、转出账号的总交易金额、转入账号的总交易金额、转出账号的总交易金额占总交易金额的比例、转入账号的总交易金额占总交易金额的比例、转出账号的交易金额最大值、转出账号的交易金额最小值、转出账号的交易金额平均值、转入账号的交易金额最大值、转入账号的交易金额最小值、转入账号的交易金额的平均值、每个账号的最大交易金额的平均值、每个账号的交易金额最小值的平均值、每个账号的交易金额的平均值、每个转出账号的交易金额最大值的平均值、每个转出账号的交易金额的最小值的平均值、每个转出账号的交易金额的平均值、每个转入账号的交易金额最大值的平均值、每个转入账号的交易金额的最小值的平均值、每个转入账号的交易金额的平均值中的一种或多种。对于上述的关于交易金额的特征提取还可以加上时间的限制，例如，近n个月的用户的交易金额，本公开对此不做限制。

假设提取的用户的交易特征数据如下：

用户a：特征a1、特征a2、特征a3、特征a4、特征a5。

用户b：特征b1、特征b2、特征b3、特征b4、特征b5。

之后，对用户进行聚类。假设聚类分为K个簇，选取的多个K值为：9，12，15，20，25，30。分别利用轮廓系数法评估不同K值时聚类的效果，选取整体轮廓系数最趋近于1时的K值，此时，表示聚类效果最好，聚类结果更精细。

假设K值确定为9时聚类效果最好，聚类结果更精细。则对于采集的100000条交易数据，共分为80000个用户，基于交易特征数据对用户聚类，可得到9个簇，簇1、簇2、簇3、簇4、簇5、簇6、簇7、簇8和簇9，每个簇中包括多个用户。

步骤S302,确定所述簇为无类型标签簇或有类型标签簇。

在该实例中，设置类型标签的标签值为0表示异常，1表示正常，当然，也可以通过其他字符来区分正常和异常，本公开对此不做限定。

承接上述示例，假设上述聚类后的9个簇含有用户如下：

簇1：包括用户1、用户2、用户3和用户4，其中用户1、用户2和用户3的类型标签的标签值均为1，用户4无类型标签；

簇2：包括用户5、用户6、用户7和用户8，其中用户5、用户6和用户7的类型标签的标签值均为0，用户8无类型标签；

簇3：包括用户9、用户10和用户11，其中用户9的类型标签的标签值为1，用户10的类型标签的标签值为0，用户11无类型标签；

簇4：全部为无类型标签的用户；

簇5：全部为无类型标签的用户；

簇6：包括用户12、用户13、用户14、用户15和用户16，其中用户12和用户13的类型标签的标签值为1，用户14、用户15和用户16无类型标签；

簇7：包括用户17、用户18、用户19、用户20和用户21，其中用户17和用户18的类型标签的标签值为0，用户19、用户20和用户21无类型标签；

簇8：全部为无类型标签的用户；

簇9：包括用户22、用户23和用户24，其中用户22和用户23的类型标签的标签值为0，用户24的类型标签的标签值为1。

以簇1为例，做如下处理：

统计簇1中有类型标签的用户数量和无类型标签的用户数量，得到有类型标签的用户（用户1-用户3）数量为3，无类型标签的用户（用户4）数量为1，有类型标签的用户数量大于无类型标签的用户数量；接着判断簇1中有类型标签的用户1-用户3的类型标签的标签值，用户1-用户3的标签值全为1，则为无类型标签的用户4也生成类型标签，且标签值设为1。经过上述处理后，簇1包含用户1-用户4，全部为有类型标签的用户，标签值均为1，则簇1为有类型标签簇。

经过本步骤的处理后，各个簇的情况如下：

簇1：有类型标签簇（用户1、用户2、用户3和用户4）。其中，用户1、用户2、用户3和用户4的类型标签的标签值为1；

簇2：有类型标签簇（用户5、用户6、用户7和用户8）。其中，用户5、用户6、用户7和用户8的类型标签的标签值为0；

簇3：无类型标签簇（用户9、用户10和用户11）。其中，用户9的类型标签的标签值为1，用户10的类型标签的标签值为0，用户11无类型标签；

簇4：无类型标签簇（全部为无类型标签的用户）；

簇5：无类型标签簇（全部为无类型标签的用户）；

簇6：无类型标签簇（用户12、用户13、用户14、用户15和用户16）。其中，用户12和用户13的类型标签的标签值为1，用户14、用户15和用户16无类型标签；

簇7：无类型标签簇（用户17、用户18、用户19、用户20和用户21）。其中，用户17和用户18的类型标签的标签值为0，用户19、用户20和用户21无类型标签；

簇8：无类型标签簇（全部为无类型标签的用户）；

簇9：有类型标签簇（用户22、用户23和用户24）。其中，用户22和用户23的类型标签的标签值为0，用户24的类型标签的标签值为1。

簇1-簇9中，用户1-用户10、用户12、用户13、用户17、用户18、用户22、用户23和用户24为有类型标签的用户，这17个用户组成有类型标签样本集合。

步骤S303，选取特定数量的无类型标签簇作为样本簇。

假设设定阈值为4，承接上述的例子，存在簇3-簇8共6个无类型标签簇，超过了设定阈值4，则需要从6个无类型标签簇中选取样本簇。

分别计算这6个无类型标签簇的中心点，以簇3为例，分别计算出簇3与其他5个无类型标签簇（簇4-簇8）的中心点的欧式距离，分别记为S34，S35，S36，S37，S38，求出S34，S35，S36，S37，S38的平均值，该平均值即为簇3与其他无类型标签簇的平均距离，记为S3。依次类推，得到：簇4与其他无类型标签簇的平均距离S4、簇5与其他无类型标签簇的平均距离S5、簇6与其他无类型标签簇的平均距离S6、簇7与其他无类型标签簇的平均距离S7、簇8与其他无类型标签簇的平均距离S8。

按照S3-S8从大到小的顺序，对簇3-簇8进行排序，假设排序结果为：簇3（S3）>簇4（S4）>簇7（S7）>簇8（S8）>簇6（S6）>簇5（S5）。根据排序结果，按照平均距离从大到小选取样本簇。

在该示例中，假设选取4个样本簇，则簇3、簇4、簇7和簇8为样本簇。

步骤S304，从所述样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对。

承接上述的示例，样本簇为簇3、簇4、簇7和簇8，假设各样本簇中的用户如下：

簇3：用户a、用户b、用户c和用户d；

簇4：用户e和用户f；

簇7：用户g、用户h和用户i；

簇8：用户j、用户k、用户l、用户m、用户n和用户o。

对于这些簇，基于中心点包含的特征数据和用户的交易特征数据计算得到用户中心点距离。

以簇3（用户a、用户b、用户c和用户d）为例，该簇的中心点记为中心点3，分别计算用户a、用户b、用户c、用户d与中心点3的距离，得到的用户中心点距离分别记为C3a、C3b、C3c、C3d。若C3c<C3a<C3b<C3d，则簇3中用户的排序结果为用户c<用户a<用户b<用户d。

如此，对簇4、簇7和簇8中的用户也进行排序。

按照用户中心点距离从小到大的顺序从这4个簇中选择设定数量（或者设定比例）第一的用户。将4个簇中所选取的用户分别与用户所在簇的中心点结合，组成正样本对。以簇3为例，假设选取簇3中的50%的用户作为第一用户，则取出2个第一用户与中心点3组合，得到簇3的正样本对为（用户c,中心点3）和（用户a，中心点3）。

假设依次计算得到的簇4、簇7、簇8的正样本对为:

簇4：（用户f，中心点4）；

簇7：（用户g，中心点7）、（用户i，中心点7）；

簇8：（用户j，中心点8）（用户k，中心点8）、（用户l，中心点8）。

共得到8个正样本对。

步骤S305，选取相似度满足设定条件的两个样本簇，分别从该两个样本簇选取所述第一用户，根据被选取的第一用户构建负样本对。

共有4个样本簇：簇3、簇4、簇7和簇8，两两组合可组成6个样本簇对：分别是（簇3，簇4），（簇3，簇7），（簇3，簇8），（簇4，簇7），（簇4，簇8）和（簇7，簇8）。计算这些样本簇对的簇对中心点距离，按照簇对中心点距离从大到小的顺序对多个簇对排序，假设排序结果为：（簇4，簇7）>（簇3，簇8）>（簇3，簇4）>（簇7，簇，8）>（簇3，簇7）>（簇4，簇8）。

假设选取50%比例的样本簇对，选取比例和数量此处不做限定。得到选取的样本簇对：（簇4，簇7），（簇3，簇8）和（簇3，簇4）。

从选取的样本簇对中，随机选择一个样本簇对，假设随机选择的一个簇对为：（簇3，簇8），簇对（簇3，簇8）中样本簇簇3和簇8即为满足设定条件的两个样本簇。

分别从簇3和簇8中按照从小到大的顺序选取第一用户，假设选取比例为50%的第一用户，则选取的第一用户为：簇3中用户c和用户a，以及簇8中用户j、用户k和用户l。

将簇3和簇8中的用户进行两两结合，得到负样本对：（用户c，用户j），（用户a，用户j），（用户c，用户k），(用户a，用户k），（用户c，用户l）和（用户a，用户l），共计6个负样本对。

假设抽取的正样本对为（用户c,中心点3）和（用户g，中心点7），负样本对为（用户a，用户j）和（用户a，用户l）。

步骤S306，为所述正样本对配置相似的相似度标签，为所述负样本对配置不相似的相似度标签。

正样本对（用户c、中心点3）和（用户g、中心点7），生成了标签值为相似的相似度标签；负样本对（用户a，用户j）和（用户a，用户l），生成了标签值为不相似的相似度标签。

步骤S307，将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

这样，就得到了无类型标签样本集合：（用户c,中心点3）、（用户g，中心点7）、（用户a，用户j）和（用户a，用户l），集合中的这些样本用户具有相似度标签。

得到的训练样本为：用户1-用户10、用户12、用户13、用户17、用户18、用户22、用户23、用户24、（用户c,中心点3）、（用户g，中心点7）、（用户c，用户j）和（用户c，用户l）。

将得到的上述训练样本输入示意图3所示的深度学习模型结构，利用特征生成器对上述训练样本进行特征提取，并对提取到的上述用户的交易特征作进一步的变换组合，得到不同的特征表示。其中对特征生成器的类型不做限定，可以是传统机器学习模型、神经网络模型等等，对提取到的上述用户的交易特征变换组合的方式，本公开也不做限定，可以是对这些特征两两做乘法、除法、平方、立方和/或开方等，得到不同的特征表示。

然后，优化所述深度学习模型。本公开对优化深度学习模型的方法不做限定，可以运用计算损失函数的方法反向优化深度学习模型，其中，可以用分类损失函数（可以是交叉熵损失等常规损失函数）作用于有类型标签样本集合，相似度损失函数（可以是不同形式的距离损失）作用于无类型标签样本集合，对深度学习模型进行反向优化，就得到了优化后的深度学习模型。将待识别的用户的交易特征数据，输入所述优化后的深度学习模型，就确定了所述待识别的用户的类型的标签值，所述的类型标签的标签值对应用户的类型，0为异常，1为正常。

图4为本公开一实施例提供的一种无类型标签用户数据的处理设备的结构示意图。如图4所示，本公开一实施例的无类型标签用户数据的处理设备，包括：

用户聚类模块10，用于根据用户的交易特征数据对用户进行聚类，得到特定数量的簇；确定所述簇为无类型标签簇或有类型标签簇；所述无类型标签簇中包含无类型标签用户，所述有类型标签簇中不包含无类型标签用户；所述类型标签用于指示所述用户异常或正常。

样本簇构建模块20，用于选取特定数量的无类型标签簇作为样本簇；

样本对构建模块30，用于从所述样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对；选取相似度满足设定条件的两个样本簇，分别从该两个样本簇选取所述第一用户，根据被选取的第一用户构建负样本对。其中，正样本对来自同一样本簇，负样本对来自不同的样本簇。

相似度标签生成模块40，用于为所述正样本对配置相似的相似度标签，为所述负样本对配置不相似的相似度标签；将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

在具体实施时，用户聚类模块10，还用于统计每个簇中有类型标签的用户数量和无类型标签的用户数量，若所述簇中有类型标签的用户数量大于无类型标签的用户数量，且有类型标签的用户类型标签的标签值全为正常或全为异常，则为所述簇中的无类型标签的用户生成类型标签。所述为所述簇中的无类型标签的用户生成类型标签，包括：若所述簇中有类型标签的用户的类型标签的标签值全为正常，则所述簇中的无类型标签的用户的类型标签的标签值设为正常；若所述簇中有类型标签的用户的类型标签的标签值全为异常，则所述簇中的无类型标签的用户的类型标签的标签值设为异常。

在具体实施时，样本簇构建模块20，具体用于对于任意一个无类型标签簇，根据该簇中各用户的交易特征数据确定该簇的中心点，并计算该簇的中心点与其他所有无类型标签簇的中心点之间的平均距离；按照每个无类型标签簇对应的所述平均距离从大到小的顺序，选取特定数量的无类型标签簇作为样本簇。

样本对构建模块30，包括：

第一用户获取单元31，用于从样本簇中选取相似度最大的特定数量的第一用户，包括：计算所述样本簇中各个用户的用户中心点距离，所述用户中心点距离为所述用户与所述样本簇中心点的距离；按照所述用户中心点距离从小到大的顺序，从所述样本簇中选取特定数量的第一用户。

正样本对构建单元32，用于根据被选取的第一用户构建正样本对，包括：被选取的所述第一用户分别与所述中心点组成相应的正样本对；

负样本对构建单元33，用于选取相似度满足设定条件的两个样本簇，包括：将两两样本簇构成对应的样本簇对；计算每个样本簇对的簇对中心点距离，所述簇对中心点距离为样本簇对中两个样本簇的中心点之间的距离；按照所述簇对中心点距离从大到小的顺序，选取特定数量的样本簇对，并从中抽取一个样本簇对，得到相似度满足设定条件的两个样本簇。被选取的两个样本簇中的被选取的第一用户两两组成相应的负样本对。

在具体实施时，用户聚类模块10，还用于将所有的簇中的有类型标签的用户组成有类型标签样本集合。

在具体实施时，该装置还包括类型识别模块，用于将所述有类型标签样本集合与所述无类型标签样本集合构成训练样本，将所述训练样本输入深度学习模型训练，优化所述深度学习模型，得到优化后的深度学习模型；基于待识别的用户的交易特征数据，通过所述优化后的深度学习模型，确定所述待识别的用户的类型为异常或正常。

在一个示例中，本公开还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现所述无类型标签用户数据的处理方法步骤。

本公开一示例还提供了一种计算机存储介质，其特征在于，所述存储介质存储有计算机可执行指令，当所述指令被执行时用于执行无类型标签用户数据的处理方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种无类型标签用户数据的处理方法，其特征在于，所述方法包括：

根据用户的交易特征数据对用户进行聚类，得到特定数量的簇；

确定所述簇为无类型标签簇或有类型标签簇；所述无类型标签簇中包含无类型标签用户，所述有类型标签簇中不包含无类型标签用户；所述类型标签用于指示所述用户异常或正常；

选取特定数量的无类型标签簇作为样本簇；

从所述样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对；

将两两样本簇构成对应的样本簇对；计算每个样本簇对的簇对中心点距离，所述簇对中心点距离为样本簇对中两个样本簇的中心点之间的距离；

按照所述簇对中心点距离从大到小的顺序，选取特定数量的样本簇对，并从中抽取一个样本簇对，得到相似度满足设定条件的两个样本簇，分别从该两个样本簇选取所述第一用户，根据被选取的第一用户构建负样本对；

为所述正样本对配置相似的相似度标签，为所述负样本对配置不相似的相似度标签；

将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

2.根据权利要求1所述的方法，其特征在于，所述得到特定数量的簇之后，且确定所述簇为无类型标签簇或有类型标签簇之前，该方法还包括：

统计每个簇中有类型标签的用户数量和无类型标签的用户数量，若所述簇中有类型标签的用户数量大于无类型标签的用户数量，且有类型标签的用户类型标签的标签值全为正常或全为异常，则为所述簇中的无类型标签的用户生成类型标签。

3.根据权利要求2所述的方法，其特征在于，为所述簇中的无类型标签的用户生成类型标签，包括：

若所述簇中有类型标签的用户的类型标签的标签值全为正常，则所述簇中的无类型标签的用户的类型标签的标签值设为正常；若所述簇中有类型标签的用户的类型标签的标签值全为异常，则所述簇中的无类型标签的用户的类型标签的标签值设为异常。

4.根据权利要求1所述的方法，其特征在于，所述选取特定数量的无类型标签簇作为样本簇，包括：

对于任意一个无类型标签簇，根据该簇中各用户的交易特征数据确定该簇的中心点，并计算该簇的中心点与其他所有无类型标签簇的中心点之间的平均距离；

按照每个无类型标签簇对应的所述平均距离从大到小的顺序，选取特定数量的无类型标签簇作为样本簇。

5.根据权利要求4所述的方法，其特征在于，从样本簇中选取相似度最大的特定数量的第一用户，包括：

计算所述样本簇中各个用户的用户中心点距离，所述用户中心点距离为所述用户与所述样本簇中心点的距离；

按照所述用户中心点距离从小到大的顺序，从所述样本簇中选取特定数量的第一用户。

6.根据权利要求5所述的方法，其特征在于，

根据被选取的第一用户构建正样本对，包括：

被选取的所述第一用户分别与所述中心点组成相应的正样本对；

根据被选取的第一用户构建负样本对，包括：

被选取的两个样本簇中的被选取的第一用户两两组成相应的负样本对。

7.根据权利要求1所述的方法，其特征在于，所述确定所述簇为无类型标签簇或有类型标签簇之后，该方法还包括：将所有的簇中的有类型标签的用户组成有类型标签样本集合；

相应的，该方法还包括：

所述有类型标签样本集合与所述无类型标签样本集合构成训练样本，将所述训练样本输入深度学习模型训练，优化所述深度学习模型，得到优化后的深度学习模型；

基于待识别的用户的交易特征数据，通过所述优化后的深度学习模型，确定所述待识别的用户的类型为异常或正常。

8.一种无类型标签用户数据的处理装置，其特征在于，所述装置包括：

用户聚类模块：用于根据用户的交易特征数据对用户进行聚类，得到特定数量的簇；确定所述簇为无类型标签簇或有类型标签簇；所述无类型标签簇中包含无类型标签用户，所述有类型标签簇中不包含无类型标签用户；所述类型标签用于指示所述用户异常或正常；

样本簇构建模块：用于选取特定数量的无类型标签簇作为样本簇；

样本对构建模块：用于从所述样本簇中选取相似度最大的特定数量的第一用户，根据被选取的第一用户构建正样本对；将两两样本簇构成对应的样本簇对；计算每个样本簇对的簇对中心点距离，所述簇对中心点距离为样本簇对中两个样本簇的中心点之间的距离；按照所述簇对中心点距离从大到小的顺序，选取特定数量的样本簇对，并从中抽取一个样本簇对，得到相似度满足设定条件的两个样本簇，分别从该两个样本簇选取所述第一用户，根据被选取的第一用户构建负样本对；

相似度标签生成模块：用于为所述正样本对配置相似的相似度标签，为所述负样本对配置不相似的相似度标签；将具有相似度标签的正样本对和负样本对构建为无类型标签样本集合。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。