CN116485519A

CN116485519A - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN116485519A
Application number: CN202310410353.8A
Authority: CN
Inventors: 张远健; 周雍恺; 孙权; 高鹏飞; 邱雪涛; 郑建宾
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-25

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质。该方法包括获取多组用户交易特征；按照包括P层交易统计时间段的聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果，每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合；根据聚类结果，确定与业务场景对应的用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度的用户经营标签。这样，有助于精细化用户标签，使得服务平台获取到更为丰富的用户特征，提高服务平台为用户提供服务的准确性。

Description

数据处理方法、装置、设备及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，用户画像在各个领域得到广泛应用。其中，用户画像是将用户的每个具体的用户特征抽象成标签，利用这些标签将用户形象具体化，以便服务平台根据标签为用户提供针对性的服务。

在相关技术中，服务平台可以根据与信贷交易需求预先关联的被监控业务的标签，反向定位与标签对应的用户特征如交易数据，从而基于用户特征确定该用户在其平台的信贷交易权限。然而，由于被监控业务范围存在限制，使得业务标签具有同质性和局限性，进而导致服务平台获取到的用户特征较为单一，影响服务平台对用户的风险估计。

发明内容

本申请实施例提供一种数据处理方法、装置、设备及存储介质，能够解决相关技术中无法获取完整的用户特征，影响服务平台对用户评估的准确性的问题。

第一方面，本申请实施例提供一种数据处理方法，该方法可以包括：

获取多组用户交易特征，多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征；

按照聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果；其中，聚类维度包括P层交易统计时间段，P层交易统计时间段中的每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合；

根据聚类结果，确定与业务场景对应的用户经营标签，用户经营标签包括用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。

第二方面，本申请实施例提供一种数据处理装置，该装置可以包括：

获取模块，用于获取多组用户交易特征，多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征；

聚类模块，用于按照聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果；其中，聚类维度包括P层交易统计时间段，P层交易统计时间段中的每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合；

确定模块，用于根据聚类结果，确定与业务场景对应的用户经营标签，用户经营标签包括用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。

第三方面，本申请实施例提供了一种计算机设备，该计算机设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现如第一方面所示的数据处理方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面所示的数据处理方法。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面所示的数据处理方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所示的数据处理方法。

本申请实施例的数据处理方法、装置、设备及存储介质，可以获取多组用户交易特征，多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征。接着，按照聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果；其中，聚类维度包括P层交易统计时间段，P层交易统计时间段中的每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合。然后，根据聚类结果，确定与业务场景对应的用户经营标签，用户经营标签包括用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。这样，在按照聚类维度和P层交易统计时间段中的每层交易统计时间段，利用N个聚类算法分别对所述每组用户交易特征进行聚类的优势，生成更合理的簇结构，结合用户交易在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度，有利于获取目标用户交易特征关于各类簇模糊隶属信息，有助于进一步精细化用户端的标签，进而使得服务平台获取到更为丰富的用户特征，以便在运用机器学习方法挖掘用户端关于不同场景和不同层交易统计时间段的隐式交易模式，并通过从粗到细的交易统计时间段逐层次转换，从大规模交易模式中寻找有助于理解能影响用户关于不同场景的交易偏好的有效特征组合，丰富标签体系的构造逻辑，提高服务平台根据标签为用户提供针对性的服务的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的流程图；

图2是本申请一个实施例提供的数据处理装置的结构示意图；

图3是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前用户画像的标签虽然具有一定的规模和层次，但多数是基于交易流水基础特征(时间、地点、金额、频次、渠道、商户)等的一种或多种组合得到的一系列的一阶统计量(如最值、均值、占比、综合等)，并按照预设条件对一阶统计量进行划分，以生成标签。然而，上述生成便签的方式，不足以反馈多样化的用户形象，使得确定的标签具有高度同质性、量化主观性和语义模糊性，影响服务平台向用户提供服务的准确性。其中，高度同质性是指，通过单一的一阶统计量无法反映差别性，不能反映出不同地区的场景建设和消费水平存在客观差异；量化主观性是指，体现用户贡献的消费金额区间划分依赖于预设条件，固定口径的统计方式不利于自适应调整经营策略；语义模糊性：具有相同标签的不同用户个体对于标签所对应概念的隶属程度差异缺失，影响服务平台向用户提供服务的准确性。

以上三个方面问题的根源在于当前标签的定位倾向于各渠道交易的合规性及用户触达的整体效果。在实际应用中，无法精准具体化用户形象，使得生成的标签无法反映出用户形象以及无法根据标签反向筛选结构化地用户特征。

在相关技术中，可以通过如下两种技术路线生成的标签以及根据标签反向筛选结构化地用户特征。

具体地，技术路线一聚焦于金融机构信贷用户风险评估及策略方法，该方法由金融用户分类和目标经营策略两部分组成。其中，金融用户分类通过运用监督学习对历史用户数据中多头特征作风险评分，以预测目标用户的金融动支行为和借贷风险；目标经营策略由预先定义的象限相关的经营策略集组成，不同象限以阈值划分，代表了用户信贷的不同类别。由此可知，这两部分在逻辑上存在先后关系，目的在于在信贷发生前对不同用户在信贷方案上作个性化调整，达到增加优质信贷，减少不良信贷的目的。然而，该方法具有如下缺点：一是仅考虑了信贷单一的场景，其所构造的特征对于分析用户在其他金融活动的参考价值有限，不足以体现转接清算数据的价值；二是所涉及的数据仅能用到本领域的历史记录，而不足以客观评估用户层次的信贷水平，交易记录不完整使得模型输出结果在应用到用户真实的风险估计时可能存在偏差；三是评估象限基于阈值确定，对主观性业务经验依赖程度较高。

技术路线二聚焦于金融机构的业务产品的监控方法，该方法通过提取历史时间段内的交易数据在不同时间段(例如日、周、月等)上汇总字段的统计值，并将这些统计特征类比为卷积神经网络的像素点，构造了输入矩阵；在训练得到卷积神经网络后，比较输入后续业务开展过程中的交易统计值与最终业务标签的一致性，若输出的结果与最终的业务标签类别相同，则表明业务产品正常；否则，表明业务产品出现了异常交易。然而，该方法具有如下缺点：一是特征的层次与业务的统计频率耦合(即采用相同的单位时间)，使得用户特征不足以支持业务上可能相关(如营销)的联合数据分析；二是特征仅基于统计量生成且未注意各统计量量纲上的差异，使得基础特征不足以反馈客群信息；三是采用了卷积神经网络构造模型，使得输出的数据，无法追溯，牺牲模型输入数据的可解释性。

基于此，为了解决上述出现的问题，本申请实施例提供了一种数据处理方法，即对用户经营标签进行构造，旨在自动化生成具有丰富语义内涵、面向用户经营分析任务的标签，以及，考虑到业务场景对于用户经营的重要性，本申请实施例进一步提出了如何筛选所生成的多层次用户经营标签筛选的方法。该方法不仅能构造面向不同场景的差异化用户经营标签，也可用于纵向联邦学习在联合求交后的用户经营标签筛选。

如此，针对数据处理的生成用户经营标签的阶段，提出了一种面向用户经营的层次化用户经营标签的数据处理方法。该方法基于人卡关系和交易流水生成关于用户在账基和卡基的交易数据统计信息的层次化特征，即选择若干组用户交易特征，按照P层交易统计时间段(如P层交易统计时间段中每层对应年、月、周、日，其中，每层交易统计时间段中还可以包括每个子交易统计时间段如日对应层交易统计时间段中的小时)，针对粗粒度层次向细粒度层次的交易统计时间段，对不同地域(例如不同大区、省、市等对用户持卡的划分)下的用户端的目标用户交易特征，按照聚类维度，逐层依次执行关于各组交易特征的多个聚类结果，并以层为单位，按照N个聚类算法集成策略融合为聚类结果，以刻画特定区域特定时段下在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度，以将其作为用户经营标签。

如此，基于用户的各渠道交易数据在发卡端、服务受理端、服务端、商户端中的至少一个端上的分布，兼顾了卡基特征和账基特征因素。除了用户经营标签生成方式和筛选方式外，无需额外技术实现改造，减少对业务经验的依赖程度。以及，综合利用聚类维度，使得每层用户交易特征能兼顾多种聚类维度的优势，生成更合理的簇结构，进而与目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度结合，可以进一步精细化用户端的群体选择。

另外，本申请实施例提供的数据处理方法还提出了一种面向用户经营标签的层次化筛选过程。该过程基于上述过程生成的每一层用户经营标签，以业务场景为单位，构造关于同层时间段的该用户对于场景偏好的兼具绝对语义标签和相对语义标签，然后，按照常用入模稳定性指标评估每个维度标签的稳定性，当某组用户交易特征对所定义的交易偏好的可区分性不够时，确定是否用细粒度层次的同组用户交易特征替换粗粒度层次的用户交易特征，最终确定具有业务场景差异性的用户经营标签。如此，结合业务场景双量化偏好特点筛选所生成的多层次用户经营标签，有助于形成具有地区差异性的标签组合，使得用户经营标签表达能力和体量丰富后，不仅有助于补充现有标签体系，而且有助于开展业务场景及在跨机构联合建模的效果。

基于此，本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质。下面将结合附图1至图3，详细描述本申请实施例的数据处理方法、装置、计算机设备及存储介质，应注意，这些实施例并不是用来限制本申请公开的范围。

首先，对本申请实施例提供的数据处理方法进行详细说明。这里，本申请实施例提供的数据处理方法是用于改善用户经营的多层次特征映射与筛选方法，该方法旨在运用机器学习方法挖掘不同地区不同时段下用户关于不同场景的隐式交易模式，并通过从粗到细的逐层次转换，从大规模交易模式中寻找有助于理解能影响用户关于不同场景的交易偏好的有效特征组合，丰富标签体系的构造逻辑，为后续开展针对性营销活动提供决策支撑。其中，本申请实施例提供的数据处理方法，分为用户经营标签生成阶段及用户经营标签筛选阶段两部分，其中用户经营标签生成部分以无监督学习方式执行，获得关于不同场景下用户经营标签的搜索解空间；用户特征筛选阶段以有监督学习方式执行，基于入模稳定性度量指标评估各场景的用户经营标签，确定待分析区域和时段内有效的多组用户经营标签。

基于此，下面分别结合图1对本申请实施例提供的一种数据处理方法的生成用户经营标签进行说明，以及对本申请实施例提供的一种数据处理方法的筛选用户经营标签进行说明，具体如下所示。

图1为本申请实施例提供的一种数据处理方法的流程图。

如图1所示，该数据处理方法可以应用于服务端，该数据处理方法具体可以包括如下步骤：

步骤110，获取多组用户交易特征，多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征；步骤120，按照聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果；其中，聚类维度包括P层交易统计时间段，P层交易统计时间段中的每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合；步骤130，根据聚类结果，确定与业务场景对应的用户经营标签，用户经营标签包括用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。

这样，在按照聚类维度和P层交易统计时间段中的每层交易统计时间段，利用N个聚类算法分别对每组用户交易特征进行聚类的优势，生成更合理的簇结构，结合用户交易在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度，有利于获取目标用户交易特征关于各类簇模糊隶属信息，有助于进一步精细化用户端的标签，进而使得服务平台获取到更为丰富的用户特征，以便在运用机器学习方法挖掘用户端关于不同场景和不同层交易统计时间段的隐式交易模式，并通过从粗到细的交易统计时间段逐层次转换，从大规模交易模式中寻找有助于理解能影响用户关于不同场景的交易偏好的有效特征组合，丰富标签体系的构造逻辑，提高服务平台根据标签为用户提供针对性的服务的准确性。

下面对上述步骤进行详细说明，具体如下所示。

首先，涉及步骤110，在一种或多种可能的实施例中，目标用户交易特征包括卡基特征和账基特征，其中，卡基特征包括至少一个支付卡的交易流水特征，账基特征包括至少一个交易账户的交易流水特征，基于此，该步骤110具体可以包括步骤1101和步骤1102，具体如下所示。

步骤1101，从目标端获取业务关注数据，目标端包括发卡端、服务受理端、服务端、商户端中的至少一种，业务关注数据包括目标端存储的针对用户端的用户交易转接清算所涉及的各类型实体及交易本身的数据。

示例性地，从发卡端、服务受理端、服务端、商户端中的至少一个中获取多组具有经营分析语义的业务关注数据Ta，其中，多组具有经营分析语义的业务关注数据Ta包括用户交易转接清算所涉及的各类型实体及交易本身的特征信息，通常包括金额、频次、收单机构、发卡机构、渠道、场景、商户七个维度中的一个或多个。

步骤1102，从业务关注数据中提取用户端的卡基特征和账基特征。

具体地，可以根据用户端的身份标识，从业务关注数据中提取用户端的卡基特征和账基特征。

示例性地，根据用户端的身份标识如用户的身份凭证号和支付卡的号码确定同一用户的发卡端下发的支付卡交易流水特征x_v＝{x₁,x₂,…x_v}，以及，根据用户端的身份标识如用户的手机号码、用户生物特征(如指纹、虹膜等)和账户密码确定同一用户的交易账户的交易流水特征X_u＝{X₁,X₂,…X_u}。其中，v和u为正整数。

需要说明的是，卡基特征的核心是支付卡的号码，资源存储在支付卡上，支付媒介不仅有刷卡，还包括销售终端(point of sale，POS)、闪付、电话支付、网银支付、线上无磁无密支付等通过卡信息进行支付的载体。账基特征的核心是实名认证和账户密码验证，账户密码可以是密钥、数字、指纹或短信，资源存储在交易账户里，支付媒介既可以使用余额。

接着，涉及步骤120，在一种或多种可能的实施例中，基于上述步骤1101和步骤1102，聚类结果包括与卡基特征对应的第一聚类结果和与账基特征对应的第二聚类结果，基于此，本申请实施例中的步骤120具体可以包括：

按照聚类维度，通过N个聚类算法对卡基特征分别进行N次有差异性的聚类，得到第一聚类结果，其中，第一聚类结果包括卡基特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合；以及，

按照聚类维度，通过N个聚类算法对账基特征分别进行N次有差异性的聚类，得到第二聚类结果，其中，第二聚类结果包括账基特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合。

需要说明的是，本申请实施例中的聚类维度除了时间还可以包括地域，即该聚类维度可以包括P层交易统计时间段和M个地域，基于此，聚类结果包括针对M个地域中第m个地域内，每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合。

或者，本申请实施例中的聚类维度除了时间还可以包括业务场景，即该聚类维度还可以包括P层交易统计时间段和K个业务场景。基于此，聚类结果包括针对K个业务场景中第k个业务场景下，每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内、且与N个聚类算法中第n个聚类算法对应的类簇集合。

或者，本申请实施例中的聚类维度既可以包括时间、地域还有业务场景，即聚类维度可以包括P层交易统计时间段、K个业务场景和M个地域，基于此，聚类结果包括针对K个业务场景中第k个业务场景和M个地域中第m个地域内，每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内、且与N个聚类算法中第n个聚类算法对应的类簇集合。

需要说明的是，P为大于1的整数，p∈[1,P]；K为正整数，k∈[1,K]；M为大于1的整数，m∈[1,M]；N为正整数，n∈[1,N]。基于此，可以根据如上聚类维度和聚类算法使其用户交易特征形成清晰且细致的簇结构。

在另一种或多种可能的实施例中，聚类维度包括P层交易统计时间段、M个地域和K个业务场景，基于此，该步骤120具体可以包括：

步骤1201，以K个业务场景中第k个业务场景为单位，从每组用户交易特征中，获取第p层交易统计时间段内的M个地域的第m个地域的基础用户交易特征；

步骤1202，统计基础用户交易特征的T组业务属性；

步骤1203，按照第p层交易统计时间段、第m个地域和第k个业务场景，通过N个聚类算法，分别对每组用户交易特征中的目标用户交易特征进行聚类，得到每组用户交易特征中的目标用户交易特征在第p层交易统计时间段、第m个地域和第k个业务场景内、与N个聚类算法中第n个聚类算法对应的第一类簇集合；以及，按照第p层交易统计时间段、第m个地域和第k个业务场景，通过N个聚类算法，分别对T组业务属性中第t组业务属性和与第t组业务属性对应的目标基础用户交易特征进行聚类，得到目标基础用户交易特征在第p层交易统计时间段、第m个地域和第k个业务场景内、与N个聚类算法中第n个聚类算法对应的、且第t组业务属性对应的第二类簇集合；

步骤1204，将第一类簇集合和第二类簇集合确定为聚类结果。

示例性地，以业务场景为单位(第k个业务场景记为S_k，具体地，可以商户类别即MCC码作为区分)，按照第p层交易统计时间段和第m个地域，分别按卡基特征f_kt(x_u)和账基特征f_kt(X_v)统计用户交易流水的第t组业务属性(如餐饮业交易笔数、旅游业交易金额等)。确定N个聚类算法，其中，N个聚类算法可以包括k-means、谱聚类等(需要说明的是也可以是一种聚类算法的不同参数设置)。其中，f_kt(x_u)可以用于表征持卡人u的账基特征在第k个业务场景第t组业务属性的统计值，同理f_kt(X_v)可以用于持卡人v的卡基特征在第k个业务场景第t组业务属性统计值。

基于此，按照所选聚类算法约定，对上述确定的第t组在第p层交易统计时间段和第m个地域内，分别按账基特征和卡基特征执行聚类操作，使得第t组在场景S_k下均得到相应算法参数设置下的基础的聚类结果。

以N个聚类算法，T组业务属性，第t组形成q个簇，则对应的聚类结果包括第一类聚类集合和第二类聚类集合，(n＝1,2,…,N)有：

C_k(n)＝[C_k1(n),…,C_kN(n)]，其中类簇C_kt(n)＝{C_kt(n)¹,…,C_kt(n)^q}；

其中，第一类聚类集合包括与卡基特征对应的第一子类聚类集合C_k(n)和与账基特征对应的第二子类聚类集合c_k(n)。第二类聚类集合包括与卡基特征对应的第三子类聚类集合C_kt(n)和与账基特征对应的第四子类聚类集合c_kt(n)。进一步地，C_k(n)具体可以表征账基特征在第k个场景第n个聚类算法聚类得到的类簇集合，同理c_k(n)具体可以表征卡基特征在第k个场景第n个聚类算法聚类得到的类簇集合。C_kt(n)具体可以表征账基特征在第k个场景第t组业务属性的第n个聚类算法聚类得到的类簇集合，同理，c_kt(n)具体可以表征卡基特征在第k个场景第t组业务属性的第n个聚类算法聚类得到的类簇集合。

然后，涉及步骤130，在一种或多种可能的实施例中，该步骤130具体可以包括：

步骤1301，根据聚类结果，确定类簇平均信息熵，类簇平均信息熵包括目标用户交易特征在第k个业务场景和第m个地域内、第t组业务属性的n个聚类算法对应的第j个类簇组成的、相对于同一个业务属性在第n’个聚类算法对应的类簇集合的平均信息熵；

步骤1302，根据类簇平均信息熵，计算目标用户交易特征的基础聚类平均信息熵，基础聚类平均信息熵包括目标用户交易特征在第k个业务场景和第m个地域内、第t组业务属性的n个聚类算法对应的类簇集合相对于同一个业务属性在N个聚类算法中每个聚类算法对应的类簇集合的平均信息熵；

步骤1303，以第k个业务场景下的基础聚类平均信息熵为评估条件，评估聚类结果，得到目标聚类结果；

步骤1304，根据目标聚类结果，确定与业务场景对应的用户经营标签。

示例性地，以各业务场景下聚类结果的平均信息熵为度量，评估每组业务属性在每个聚类算法设置下得到的类簇信息量。

该类簇信息量表征了第n个聚类算法生成的类簇中所含的业务属性取值在另一种聚类算法的各类簇中出现的可能性。

对于场景S_k在账基特征下由第n个聚类算法形成的关于第t组业务属性的第j个类簇，其相对于第n’个聚类算法的平均信息熵Hn’(C_kt(n)^j)可按如下公式(1)和(2)计算：

其中，

其中，C_kt(n)^j为账基特征在第k个业务场景第t组业务属性的第n个聚类算法聚类得到的第j个类簇；c_kt(n)^j为卡基特征在第k个业务场景第t组业务属性的第n个聚类算法聚类得到的第j个类簇；log为对数符号(以10为底)，Hn’(C_kt(n)^j)为账基特征在第k个业务场景第t组业务属性的第n个聚类算法聚类得到的第j个类簇组成相对于同一个业务属性在第n’次聚类类簇集合对应的类簇集合的平均信息熵。

同理，对于场景Sk在卡基特征下由第n个聚类算法形成的关于第t组业务属性的第j个类簇，其相对于第n’个聚类算法的平均信息熵Hn’(c_kt(n)^j)可按如下公式(3)和公式(4)计算：

其中，

其中，Hn’(c_kt(n)^j)为卡基特征在第k个业务场景第t组业务属性的第n个聚类算法聚类得到的第j个类簇组成相对于同一个业务属性在第n’次聚类类簇集合对应的类簇集合的平均信息熵

接着，基于上述的平均信息熵Hn’(C_kt(n)^j)、Hn’(c_kn(n)^j)，分别计算第n个聚类算法设置下基础聚类平均信息熵H(C_kt(n))和H(c_kt(n))，具体如下公式(5)和公式(6)：

其中，H(C_kt(n))为账基特征在第k个业务场景的第t组业务属性的第n个聚类算法聚类相对于同一个业务属性在N个聚类算法对应的类簇集合的平均信息熵，同理，H(c_kt(n))账基在第k个业务场景的第t组业务属性的第n个聚类算法聚类相对于同一个业务属性在N个聚类算法对应的类簇集合的平均信息熵。

基于此，在一个示例中，上述步骤1303具体可以包括：

步骤13031，根据基础聚类平均信息熵，从聚类结果中筛选目标类簇集合；

步骤13032，从聚类结果集合中移除类簇集合，得到当前聚类结果；

步骤13033，将当前聚类结果确定为聚类结果，重复执行根据聚类结果，确定类簇平均信息熵，并根据类簇平均信息熵，计算目标用户交易特征的基础聚类平均信息熵的过程；

步骤1304，直至在重复执行的次数满足预设条件的情况下，将重复执行的次数满足预设条件的次数对应的当前聚类结果集合确定为目标聚类结果；或者，直至在连续h轮的基础聚类平均信息熵之间的差值小于或等于预设阈值的情况下，将连续h轮的最后一轮对应的当前聚类结果集合确定为目标聚类结果。

示例性地，根据基础聚类平均信息熵及预设的阈值(α,β)，保留优质的基础聚类结果(H(C_kt(n))<α或H(c_kt(n))<α)，删除劣质的基础聚类结果(H(C_kt(n))>β或H(c_kt(n))>β)，在删除劣质基础聚类结果后重新计算剩余基础聚类的平均信息熵。通过多轮次迭代，当连续若干轮的各基础聚类平均信息熵基本保持不变(通常是小于一个很小的数，如10^-5)，得到账基特征和卡基特征在业务场景S_k下的目标聚类结果CL_k和cl_k，基于此，仍接上述示例有T组业务属性，第t组均形成q’个簇，则有：

CL_k＝[CL_k1,CL_k2,…，CL_kT,],其中CL_kt＝[CL_kt ¹,CL_kt ²,…，CL_kt ^q’]；

cl_k＝[cl_k1,cl_k2,…，cl_kT],其中cl_kt＝[cl_kt ¹,cl_kt ²,…，cl_kt ^q’]

需要说明的是，α为衡量基础聚类为保留的优质基础聚类质量的阈值，β为衡量基础聚类为删除的劣质基础聚类质量的阈值。CL_k为账基特征在第k个场景下的聚类结果，同理，cl_k为卡基特征在第k个场景下的聚类结果。CL_kt为账基特征在第k个业务场景下第t组业务属性的聚类结果，同理，cl_kt卡基在第k个业务场景下第t组业务属性的聚类集成结果。CL_kt ^q’为账基在第k个业务场景下第t组业务属性的聚类集成结果中，第q’个类簇，同理，cl_kt ^q’卡基在第k个场景下第t组业务属性的聚类集成结果中，第q’个类簇。

在另一个示例中，上述步骤1304具体可以包括：

步骤13041，通过相似性计算算法，计算每组用户交易特征中的目标用户交易特征在第p层交易统计时间段、第m个地域和第k个业务场景内、针对第t组业务属性且与n个聚类算法对应的类簇集合的相似性程度；

步骤13042，将每组用户交易特征中的目标用户交易特征分别在第p层交易统计时间段、第m个地域和第k个业务场景内、针对第t组业务属性且与n个聚类算法对应的类簇集合的相似性程度确定为用户经营标签。

示例性地，根据常见的相似性度量(如欧式距离等)定义一种相似性计算方式d，并利用该方式，分别计算账基和卡基各业务属性取值在场景S_k下关于聚类算法所有类簇的相似性程度Φ_k和Ψ_k，以刻画持卡用户在账基特征和卡基特征关于各类簇(即潜在的交易模式)的隶属程度(例如欧式距离下，距离越小，隶属程度越高，此时距离与隶属程度呈负相关关系)。假设有T组业务属性，第t组均形成q’个簇，则有：

Φ_k＝[Φ_k1,Φ_k2,…,Φ_kT],其中Φ_kt＝[d(f_kt(X_m),CL_kt ¹),…,d(f_kt(X_m),CL_kt ^q’)]

Ψ_k＝[Ψ_k1,Ψ_k2,……,Ψ_kT],其中Ψ_kt＝[d(f_kt(x_m),cl_kt ¹),…,d(f_kt(x_m),cl_kt ^q’)]

其中，d为用户交易特征到聚类结果中每个类簇相似性计算公式，Φ_k为账基特征在第k个业务场景下的用户经营特征，同理，Ψ_k为卡基特征在第k个业务场景下的用户经营特征。Φ_kn为账基特征在第k个业务场景下第n个业务属性的用户经营特征，Ψ_ki为卡基特征在第k个业务场景下第n个业务属性的用户经营特征。

基于此，对同区域不同时段的业务属性重复执行上述过程，生成用户经营标签(即元组(Φk,Ψk)，即第k个场景下的用户经营特征)。

另外，在步骤130之后，本申请实施例中提供的数据处理方法还可以包括对用户经营标签进行筛选的过程，具体可以参照下述步骤140和步骤150。

步骤140，按照K个业务场景中的第k个业务场景，基于用户经营标签，构建用户端的绝对语义标签和相对语义标签；其中，绝对语义标签用于表征用户端在第p层交易统计时间段和M个地域的第m个地域内相对于预设阈值的交易偏好，相对语义标签用于表征用户端在第p层交易统计时间段和M个地域的第m个地域内相对于M个地域的交易偏好。

示例性地，以业务场景为单位，对于具体用户经营时所需分析的每一个用户端，确定特定区域和时段内业务标签的偏好与否的绝对统计量(如累计交易金额超过1000元)；以及特定区域和时段内业务标签的偏好与否的相对统计量(如累计交易金额占比超过20％)。

步骤150，通过绝对语义标签和相对语义标签，对用户经营标签进行校正，得到与业务场景对应的目标用户经营标签。

具体地，在一个示例中，该步骤150具体可以包括：

步骤1501，按照P层交易统计时间段中时长满足预设要求的第一目标层交易统计时间段，通过预设入模稳定性指标对绝对语义标签和相对语义标签进行评估，得到第一评估结果；

步骤15021，在第一评估结果表征绝对语义标签和相对语义标签在第一目标层交易统计时间段的稳定性满足预设条件的情况下，将与评估结果对应的用户经营标签确定为目标用户经营标签；

或者，

步骤15022，在第一评估结果表征绝对语义标签和相对语义标签在第一目标层交易统计时间段的稳定性不满足预设条件的情况下，按照第二目标层交易时间段，通过预设入模稳定性指标对绝对语义标签和相对语义标签进行评估，得到第二评估结果，第二目标层交易时间段的时长小于第一目标层交易时间段、且为第一目标层交易时间段的相邻层的交易时间段；根据第二评估结果，确定为目标用户经营标签；

或者，

步骤15023，在第二评估结果表征绝对语义标签和相对语义标签在第二目标层交易统计时间段的稳定性不满足预设条件、且第二目标层交易统计时间段为P层交易统计时间段中的终止层交易统计时间段情况下，从用户经营标签中移除与第二评估结果对应的用户经营标签，得到目标用户经营标签；

或者，

步骤15023，在第一评估结果表征绝对语义标签和相对语义标签在第一目标层交易统计时间段的稳定性不满足预设条件、且在P层交易统计时间段中没有第二目标层交易统计时间段的情况下，从用户经营标签中移除与第二评估结果对应的用户经营标签，得到目标用户经营标签。

示例性地，结合所生成的用户经营标签，从最长的历史时间段即第一目标层交易统计时间段(例如月)起，依次按照入模稳定性指标(如KS、IV、PSI)评估稳定性。若当前时间段的入模稳定性不足，则使用同时间段中多个更细时段即第二目标层交易统计时间段(例如月所对应的周)的用户经营标签代替原有用户经营标签，直至满足入模稳定性要求或无法找到更细时段为止。若满足入模稳定性要求，则得到的不同场景用户经营标签即为筛选后的用户经营标签(业务场景S_k下筛选得到的特征记为(Φ′_k,Ψ′_k)，即经过用户经营特征筛选后，在第k个场景下的用户经营特征)，否则抛弃该组用户交易特征。

在一个示例中，本申请实施例在执行步骤150之前，该方法还可以包括：

以场景为单位，结合绝对统计量和相对统计量，确定每个场景偏好的二分类标签逻辑(例如两者满足其一为有偏好，否则为无偏好)。

需要说明的是，1)本申请实施例中的人卡关系的含义为具有识别多笔交易流水系同一个持卡人产生的功能，具体实践中不应由其关联方式及名称的差异而认定与本申请实施例具有实质性差异。2)用户经营标签的具体聚类算法(k-means、谱聚类)选取差异不应认定具有与本专利实质性差异，相关技术人员应从关于业务属性统计量聚类的角度理解本申请实施例的实质。同理，相似性计算方面也不应局限于上述实施例的欧式距离。3)各业务场景的多组业务属性的设计与交易场景相关，实际应用过程中与实施例采取不同业务属性的统计口径和/或组成成分不应认定具有申请实施例实质性差异。4)选定业务属性后，用户经营标签从组成上应同时考虑卡基贡献和该卡相对于账基的贡献。5)新的用户交易特征产生后，所生成的账基和卡基的聚类集成结果可以无需再次计算，仅需要基于相似性计算公式d计算业务属性取值关于此聚类集成结果的相似性即可。6)本申请实施例中用户经营标签筛选假定已以某种方式确定了目标用户。7)用户经营标签筛选阶段，各场景的绝对统计量和相对统计量设置，以及二者如何结合定义场景的偏好的计算方式，在实践中不应局限于实施例中的具体值及实现方式，而应该理解为构造二分类交易场景偏好标签的要素。

综上，本申请实施例的数据处理方法、装置、设备及存储介质，可以获取多组用户交易特征，多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征。接着，按照聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果；其中，聚类维度包括P层交易统计时间段，P层交易统计时间段中的每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合。然后，根据聚类结果，确定与业务场景对应的用户经营标签，用户经营标签包括用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。这样，在按照聚类维度和P层交易统计时间段中的每层交易统计时间段，利用N个聚类算法分别对每组用户交易特征进行聚类的优势，生成更合理的簇结构，结合用户交易在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度，有利于获取目标用户交易特征关于各类簇模糊隶属信息，有助于进一步精细化用户端的标签，进而使得服务平台获取到更为丰富的用户特征，以便在运用机器学习方法挖掘用户端关于不同场景和不同层交易统计时间段的隐式交易模式，并通过从粗到细的交易统计时间段逐层次转换，从大规模交易模式中寻找有助于理解能影响用户关于不同场景的交易偏好的有效特征组合，丰富标签体系的构造逻辑，提高服务平台根据标签为用户提供针对性的服务的准确性。以及，基于用户的各渠道交易数据在消费基础特征上的分布，兼顾了卡基和账基因素。除了用户经营标签生成方式和筛选方式外，无需额外技术实现改造，且减少对业务经验的依赖程度；在综合利用多种聚类策略(聚类集成)下，每层交易特征能兼顾多种聚类假设的优势，生成更合理的簇结构。结合用户交易关于各类簇模糊隶属信息，有助于进一步精细化客群圈选。

另外，按照K个业务场景中的第k个业务场景，基于用户经营标签，构建用户端的绝对语义标签和相对语义标签；其中，绝对语义标签用于表征用户端在第p层交易统计时间段和M个地域的第m个地域内相对于预设阈值的交易偏好，相对语义标签用于表征用户端在第p层交易统计时间段和M个地域的第m个地域内相对于M个地域的交易偏好；通过绝对语义标签和相对语义标签，对用户经营标签进行校正，得到与业务场景对应的目标用户经营标签。由此，结合交易场景双量化偏好特点筛选所生成的多层次标签，有助于形成具有地区差异性的标签组合；用户经营标签表达能力和体量丰富后，不仅有助于补充现有标签体系，而且有助于开展场景营销及在跨机构用户合作经营中优化联合建模的效果。

需要说明的是，本申请实施例中提供的数据处理方法，由于是以目标端模式服务持卡人，其交易渠道及场景与本申请实施例所涉及的转接清算系统基本一致，与之相关的用户经营策略可能参照持卡人交易流水的建模结果作匹配，所以，可以应用于金融机构的高净值用户发现、睡眠卡激活等卡基业务的场景，这使得本申请实施例中关注的用户经营标签构造的共性技术可能为金融机构所用。另外，由于不是所有标签都能对特定的用户经营业务有所贡献，用户画像标签筛选是标准化工作，这使得本申请实施例中提供的数据处理方法还可以应用于层次化用户经营标签筛选的应用场景。

基于相同的发明构思，本申请还提供了一种数据处理装置。具体结合图2进行详细说明。

图2是本申请一个实施例提供的数据处理装置的结构示意图。

在本申请一些实施例中，图2所示数据处理装置可以设置于本申请实施例服务端中。

如图2所示，该数据处理装置20具体可以包括：

获取模块201，用于获取多组用户交易特征，多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征；

聚类模块202，用于按照聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果；其中，聚类维度包括P层交易统计时间段，P层交易统计时间段中的每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合；

确定模块203，用于根据聚类结果，确定与业务场景对应的用户经营标签，用户经营标签包括用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。

下面分别对本申请实施例中数据处理装置20进行详细说明。

在一种或者多种可选的实施例中，目标用户交易特征包括卡基特征和账基特征，其中，卡基特征包括至少一个支付卡的交易流水特征，账基特征包括至少一个交易账户的交易流水特征，基于此，本申请实施例中的数据处理装置20还可以包括提取模块；其中，

获取模块201还可以用于，从目标端获取业务关注数据，目标端包括发卡端、服务受理端、服务端、商户端中的至少一种，业务关注数据包括目标端存储的针对用户端的用户交易转接清算所涉及的各类型实体及交易本身的数据；

提取模块，用于从业务关注数据中提取用户端的卡基特征和账基特征。

在另一种或者多种可选的实施例中，聚类结果包括与卡基特征对应的第一聚类结果和与账基特征对应的第二聚类结果，基于此，本申请实施例中的聚类模块202具体可以用于，按照聚类维度，通过N个聚类算法对卡基特征分别进行N次有差异性的聚类，得到第一聚类结果，其中，第一聚类结果包括卡基特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合；以及，

在又一种或者多种可选的实施例中，聚类维度还包括M个地域；聚类结果包括针对M个地域中第m个地域内，每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合。

在再一种或者多种可选的实施例中，聚类维度还包括K个业务场景；

聚类结果包括针对K个业务场景中第k个业务场景下，每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内、且与N个聚类算法中第n个聚类算法对应的类簇集合；

或者，

聚类结果包括针对K个业务场景中第k个业务场景和M个地域中第m个地域内，每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内、且与N个聚类算法中第n个聚类算法对应的类簇集合。

在再一种或者多种可选的实施例中，聚类维度包括P层交易统计时间段、M个地域和K个业务场景；基于此，本申请实施例中的数据处理装置20还可以包括统计模块；其中，

获取模块201还可以用于，以K个业务场景中第k个业务场景为单位，从每组用户交易特征中，获取第p层交易统计时间段内的M个地域的第m个地域的基础用户交易特征；

统计模块，用于统计基础用户交易特征的T组业务属性；

聚类模块202还用于，按照第p层交易统计时间段、第m个地域和第k个业务场景，通过N个聚类算法，分别对每组用户交易特征中的目标用户交易特征进行聚类，得到每组用户交易特征中的目标用户交易特征在第p层交易统计时间段、第m个地域和第k个业务场景内、与N个聚类算法中第n个聚类算法对应的第一类簇集合；以及，按照第p层交易统计时间段、第m个地域和第k个业务场景，通过N个聚类算法，分别对T组业务属性中第t组业务属性和与第t组业务属性对应的目标基础用户交易特征进行聚类，得到目标基础用户交易特征在第p层交易统计时间段、第m个地域和第k个业务场景内、与N个聚类算法中第n个聚类算法对应的、且第t组业务属性对应的第二类簇集合；

确定模块203还用于，将第一类簇集合和第二类簇集合确定为聚类结果。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括第一计算模块和第一评估模块；其中，

确定模块203还用于，根据聚类结果，确定类簇平均信息熵，类簇平均信息熵包括目标用户交易特征在第k个业务场景和第m个地域内、第t组业务属性的n个聚类算法对应的第j个类簇组成的、相对于同一个业务属性在第n’个聚类算法对应的类簇集合的平均信息熵；

第一计算模块，用于根据类簇平均信息熵，计算目标用户交易特征的基础聚类平均信息熵，基础聚类平均信息熵包括目标用户交易特征在第k个业务场景和第m个地域内、第t组业务属性的n个聚类算法对应的类簇集合相对于同一个业务属性在N个聚类算法中每个聚类算法对应的类簇集合的平均信息熵；

第一评估模块，用于以第k个业务场景下的基础聚类平均信息熵为评估条件，评估聚类结果，得到目标聚类结果；

确定模块203还可以用于，根据目标聚类结果，确定与业务场景对应的用户经营标签。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括筛选模块、第一移除模块和执行模块；其中，

筛选模块，用于根据基础聚类平均信息熵，从聚类结果中筛选目标类簇集合；

第一移除模块，用于从聚类结果集合中移除类簇集合，得到当前聚类结果；

执行模块，用于将当前聚类结果确定为聚类结果，重复执行根据聚类结果，确定类簇平均信息熵，并根据类簇平均信息熵，计算目标用户交易特征的基础聚类平均信息熵的过程；以及，直至在重复执行的次数满足预设条件的情况下，将重复执行的次数满足预设条件的次数对应的当前聚类结果集合确定为目标聚类结果；或者，直至在连续h轮的基础聚类平均信息熵之间的差值小于或等于预设阈值的情况下，将连续h轮的最后一轮对应的当前聚类结果集合确定为目标聚类结果。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括第二计算模块；其中，

第二计算模块，用于通过相似性计算算法，计算每组用户交易特征中的目标用户交易特征在第p层交易统计时间段、第m个地域和第k个业务场景内、针对第t组业务属性且与n个聚类算法对应的类簇集合的相似性程度；

确定模块203还用于，将每组用户交易特征中的目标用户交易特征分别在第p层交易统计时间段、第m个地域和第k个业务场景内、针对第t组业务属性且与n个聚类算法对应的类簇集合的相似性程度确定为用户经营标签。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括构建模块和校正模块；其中，

构建模块，用于按照K个业务场景中的第k个业务场景，基于用户经营标签，构建用户端的绝对语义标签和相对语义标签；其中，绝对语义标签用于表征用户端在第p层交易统计时间段和M个地域的第m个地域内相对于预设阈值的交易偏好，相对语义标签用于表征用户端在第p层交易统计时间段和M个地域的第m个地域内相对于M个地域的交易偏好；

校正模块，用于通过绝对语义标签和相对语义标签，对用户经营标签进行校正，得到与业务场景对应的目标用户经营标签。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括第二评估模块；其中，

第二评估模块，用于按照P层交易统计时间段中时长满足预设要求的第一目标层交易统计时间段，通过预设入模稳定性指标对绝对语义标签和相对语义标签进行评估，得到第一评估结果；

确定模块203还用于，在第一评估结果表征绝对语义标签和相对语义标签在第一目标层交易统计时间段的稳定性满足预设条件的情况下，将与评估结果对应的用户经营标签确定为目标用户经营标签。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括第三评估模块；其中，

第三评估模块，用于在第一评估结果表征绝对语义标签和相对语义标签在第一目标层交易统计时间段的稳定性不满足预设条件的情况下，按照第二目标层交易时间段，通过预设入模稳定性指标对绝对语义标签和相对语义标签进行评估，得到第二评估结果，第二目标层交易时间段的时长小于第一目标层交易时间段、且为第一目标层交易时间段的相邻层的交易时间段；

确定模块203还用于，根据第二评估结果，确定为目标用户经营标签。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括第二移除模块；其中，

第二移除模块，用于在第二评估结果表征绝对语义标签和相对语义标签在第二目标层交易统计时间段的稳定性不满足预设条件、且第二目标层交易统计时间段为P层交易统计时间段中的终止层交易统计时间段情况下，从用户经营标签中移除与第二评估结果对应的用户经营标签，得到目标用户经营标签。

在再一种或者多种可选的实施例中，本申请实施例中的数据处理装置20还可以包括第三移除模块；其中，

第三移除模块，用于在第一评估结果表征绝对语义标签和相对语义标签在第一目标层交易统计时间段的稳定性不满足预设条件、且在P层交易统计时间段中没有第二目标层交易统计时间段的情况下，从用户经营标签中移除与第二评估结果对应的用户经营标签，得到目标用户经营标签。

由此，可以获取多组用户交易特征，多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征。接着，按照聚类维度，通过N个聚类算法分别对每组用户交易特征进行聚类，得到聚类结果；其中，聚类维度包括P层交易统计时间段，P层交易统计时间段中的每层交易统计时间段的时长不同，聚类结果包括每组用户交易特征在P层交易统计时间段的第p层交易统计时间段内且与N个聚类算法中第n个聚类算法对应的类簇集合。然后，根据聚类结果，确定与业务场景对应的用户经营标签，用户经营标签包括用于表征每组用户交易特征中的目标用户交易特征在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。这样，在按照聚类维度和P层交易统计时间段中的每层交易统计时间段，利用N个聚类算法分别对每组用户交易特征进行聚类的优势，生成更合理的簇结构，结合用户交易在第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度，有利于获取目标用户交易特征关于各类簇模糊隶属信息，有助于进一步精细化用户端的标签，进而使得服务平台获取到更为丰富的用户特征，以便在运用机器学习方法挖掘用户端关于不同场景和不同层交易统计时间段的隐式交易模式，并通过从粗到细的交易统计时间段逐层次转换，从大规模交易模式中寻找有助于理解能影响用户关于不同场景的交易偏好的有效特征组合，丰富标签体系的构造逻辑，提高服务平台根据标签为用户提供针对性的服务的准确性。

基于相同的发明构思，本申请还提供了一种计算机设备。具体结合图3进行详细说明。

图3是本申请一个实施例提供的计算机设备的结构示意图。

如图3所示，该计算机设备可以包括本申请实施例中涉及的下述中的至少一种：电子设备、服务器。其中，该计算机设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在综合网关容灾设备的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括固态存储(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种数据处理方法。

在一个示例中，计算机设备还可包括通信接口303和总线310。其中，如图3所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将流量控制设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该数据处理设备可以执行本申请实施例中的数据处理方法，从而实现结合图1至图2描述的数据处理方法和装置。

另外，结合上述实施例中的数据处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种数据处理方法，包括：

获取多组用户交易特征，所述多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征；

按照聚类维度，通过N个聚类算法分别对所述每组用户交易特征进行聚类，得到聚类结果；其中，所述聚类维度包括P层交易统计时间段，所述P层交易统计时间段中的每层交易统计时间段的时长不同，所述聚类结果包括所述每组用户交易特征在所述P层交易统计时间段的第p层交易统计时间段内且与所述N个聚类算法中第n个聚类算法对应的类簇集合；

根据所述聚类结果，确定与业务场景对应的用户经营标签，所述用户经营标签包括用于表征所述每组用户交易特征中的目标用户交易特征在所述第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。

2.根据权利要求1所述的方法，其中，所述目标用户交易特征包括卡基特征和账基特征，其中，所述卡基特征包括至少一个支付卡的交易流水特征，所述账基特征包括至少一个交易账户的交易流水特征；

所述获取多组用户交易特征，包括：

从目标端获取业务关注数据，所述目标端包括发卡端、服务受理端、服务端、商户端中的至少一种，所述业务关注数据包括所述目标端存储的针对用户端的用户交易转接清算所涉及的各类型实体及交易本身的数据；

从所述业务关注数据中提取所述用户端的卡基特征和账基特征。

3.根据权利要求2所述的方法，其中，所述聚类结果包括与所述卡基特征对应的第一聚类结果和与所述账基特征对应的第二聚类结果；

所述按照聚类维度，通过N个聚类算法分别对所述每组用户交易特征进行聚类，得到聚类结果，包括：

按照所述聚类维度，通过N个聚类算法对所述卡基特征分别进行N次有差异性的聚类，得到所述第一聚类结果，其中，所述第一聚类结果包括卡基特征在所述P层交易统计时间段的第p层交易统计时间段内且与所述N个聚类算法中第n个聚类算法对应的类簇集合；以及，

按照所述聚类维度，通过N个聚类算法对所述账基特征分别进行N次有差异性的聚类，得到所述第二聚类结果，其中，所述第二聚类结果包括账基特征在所述P层交易统计时间段的第p层交易统计时间段内且与所述N个聚类算法中第n个聚类算法对应的类簇集合。

4.根据权利要求1所述的方法，其中，所述聚类维度还包括M个地域；所述聚类结果包括针对所述M个地域中第m个地域内，所述每组用户交易特征在所述P层交易统计时间段的第p层交易统计时间段内且与所述N个聚类算法中第n个聚类算法对应的类簇集合。

5.根据权利要求1或4所述的方法，其中，所述聚类维度还包括K个业务场景；

所述聚类结果包括针对所述K个业务场景中第k个业务场景下，所述每组用户交易特征在所述P层交易统计时间段的第p层交易统计时间段内、且与所述N个聚类算法中第n个聚类算法对应的类簇集合；

或者，

所述聚类结果包括针对所述K个业务场景中第k个业务场景和所述M个地域中第m个地域内，所述每组用户交易特征在所述P层交易统计时间段的第p层交易统计时间段内、且与所述N个聚类算法中第n个聚类算法对应的类簇集合。

6.根据权利要求1-5任意一项所述的方法，其中，所述聚类维度包括P层交易统计时间段、M个地域和K个业务场景；所述按照聚类维度，通过N个聚类算法分别对所述每组用户交易特征进行聚类，得到聚类结果，包括：

以所述K个业务场景中第k个业务场景为单位，从所述每组用户交易特征中，获取所述第p层交易统计时间段内的所述M个地域的第m个地域的基础用户交易特征；

统计所述基础用户交易特征的T组业务属性；

按照第p层交易统计时间段、第m个地域和第k个业务场景，通过N个聚类算法，分别对所述每组用户交易特征中的目标用户交易特征进行聚类，得到所述每组用户交易特征中的目标用户交易特征在所述第p层交易统计时间段、第m个地域和第k个业务场景内、与所述N个聚类算法中第n个聚类算法对应的第一类簇集合；以及，按照第p层交易统计时间段、第m个地域和第k个业务场景，通过N个聚类算法，分别对所述T组业务属性中第t组业务属性和与所述第t组业务属性对应的目标基础用户交易特征进行聚类，得到所述目标基础用户交易特征在所述第p层交易统计时间段、第m个地域和第k个业务场景内、与所述N个聚类算法中第n个聚类算法对应的、且所述第t组业务属性对应的第二类簇集合；

将所述第一类簇集合和所述第二类簇集合确定为所述聚类结果。

7.根据权利要求6所述的方法，其中，所述根据所述聚类结果，确定与业务场景对应的用户经营标签，包括：

根据所述聚类结果，确定类簇平均信息熵，所述类簇平均信息熵包括目标用户交易特征在第k个业务场景和第m个地域内、第t组业务属性的所述n个聚类算法对应的第j个类簇组成的、相对于同一个业务属性在第n’个聚类算法对应的类簇集合的平均信息熵；

根据所述类簇平均信息熵，计算所述目标用户交易特征的基础聚类平均信息熵，所述基础聚类平均信息熵包括所述目标用户交易特征在第k个业务场景和第m个地域内、第t组业务属性的所述n个聚类算法对应的类簇集合相对于同一个业务属性在N个聚类算法中每个聚类算法对应的类簇集合的平均信息熵；

以所述第k个业务场景下的基础聚类平均信息熵为评估条件，评估所述聚类结果，得到目标聚类结果；

根据所述目标聚类结果，确定与业务场景对应的用户经营标签。

8.根据权利要求7所述的方法，其中，所述以所述第k个业务场景下的基础聚类平均信息熵为评估条件，评估所述聚类结果，得到目标聚类结果，包括：

根据所述基础聚类平均信息熵，从所述聚类结果中筛选目标类簇集合；

从所述聚类结果集合中移除所述类簇集合，得到当前聚类结果；

将所述当前聚类结果确定为所述聚类结果，重复执行根据所述聚类结果，确定类簇平均信息熵，并根据所述类簇平均信息熵，计算所述目标用户交易特征的基础聚类平均信息熵的过程；

直至在重复执行的次数满足预设条件的情况下，将重复执行的次数满足预设条件的次数对应的当前聚类结果集合确定为目标聚类结果；或者，直至在连续h轮的基础聚类平均信息熵之间的差值小于或等于预设阈值的情况下，将所述连续h轮的最后一轮对应的当前聚类结果集合确定为目标聚类结果。

9.根据权利要求7或8所述的方法，其中，所述根据所述目标聚类结果，确定与业务场景对应的用户经营标签，包括：

通过相似性计算算法，计算所述每组用户交易特征中的目标用户交易特征在所述第p层交易统计时间段、第m个地域和第k个业务场景内、针对第t组业务属性且与所述n个聚类算法对应的类簇集合的相似性程度；

将所述每组用户交易特征中的目标用户交易特征分别在所述第p层交易统计时间段、第m个地域和第k个业务场景内、针对第t组业务属性且与所述n个聚类算法对应的类簇集合的相似性程度确定为所述用户经营标签。

10.根据权利要求1所述的方法，其中，所述方法还包括：

按照K个业务场景中的第k个业务场景，基于所述用户经营标签，构建所述用户端的绝对语义标签和相对语义标签；其中，所述绝对语义标签用于表征所述用户端在所述第p层交易统计时间段和M个地域的第m个地域内相对于预设阈值的交易偏好，所述相对语义标签用于表征所述用户端在所述第p层交易统计时间段和M个地域的第m个地域内相对于所述M个地域的交易偏好；

通过所述绝对语义标签和相对语义标签，对所述用户经营标签进行校正，得到与所述业务场景对应的目标用户经营标签。

11.根据权利要求10所述的方法，其中，所述通过所述绝对语义标签和相对语义标签，对所述用户经营标签进行校正，得到与所述业务场景对应的目标用户经营标签，包括：

按照所述P层交易统计时间段中时长满足预设要求的第一目标层交易统计时间段，通过预设入模稳定性指标对所述绝对语义标签和相对语义标签进行评估，得到第一评估结果；

在所述第一评估结果表征所述绝对语义标签和相对语义标签在所述第一目标层交易统计时间段的稳定性满足预设条件的情况下，将与所述评估结果对应的用户经营标签确定为所述目标用户经营标签。

12.根据权利要求11所述的方法，其中，所述通过所述绝对语义标签和相对语义标签，对所述用户经营标签进行校正，得到与所述业务场景对应的目标用户经营标签，包括：

在所述第一评估结果表征所述绝对语义标签和相对语义标签在所述第一目标层交易统计时间段的稳定性不满足预设条件的情况下，按照第二目标层交易时间段，通过所述预设入模稳定性指标对所述绝对语义标签和相对语义标签进行评估，得到第二评估结果，所述第二目标层交易时间段的时长小于所述第一目标层交易时间段、且为所述第一目标层交易时间段的相邻层的交易时间段；

根据所述第二评估结果，确定为所述目标用户经营标签。

13.根据权利要求12所述的方法，其中，所述通过所述绝对语义标签和相对语义标签，对所述用户经营标签进行校正，得到与所述业务场景对应的目标用户经营标签，包括：

在所述第二评估结果表征所述绝对语义标签和相对语义标签在所述第二目标层交易统计时间段的稳定性不满足预设条件、且所述第二目标层交易统计时间段为所述P层交易统计时间段中的终止层交易统计时间段情况下，从所述用户经营标签中移除与所述第二评估结果对应的用户经营标签，得到所述目标用户经营标签。

14.根据权利要求12所述的方法，其中，所述通过所述绝对语义标签和相对语义标签，对所述用户经营标签进行校正，得到与所述业务场景对应的目标用户经营标签，包括：

在所述第一评估结果表征所述绝对语义标签和相对语义标签在所述第一目标层交易统计时间段的稳定性不满足预设条件、且在所述P层交易统计时间段中没有所述第二目标层交易统计时间段的情况下，从所述用户经营标签中移除与所述第二评估结果对应的用户经营标签，得到所述目标用户经营标签。

15.一种数据处理装置，包括：

获取模块，用于获取多组用户交易特征，所述多组用户交易特征中的每组用户交易特征包括用户端的目标用户交易特征；

聚类模块，用于按照聚类维度，通过N个聚类算法分别对所述每组用户交易特征进行聚类，得到聚类结果；其中，所述聚类维度包括P层交易统计时间段，所述P层交易统计时间段中的每层交易统计时间段的时长不同，所述聚类结果包括所述每组用户交易特征在所述P层交易统计时间段的第p层交易统计时间段内且与所述N个聚类算法中第n个聚类算法对应的类簇集合；

确定模块，用于根据所述聚类结果，确定与业务场景对应的用户经营标签，所述用户经营标签包括用于表征所述每组用户交易特征中的目标用户交易特征在所述第p层交易统计时间段内且与第n个聚类算法对应的聚类簇之间相似性程度。

16.一种计算机设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-14任意一项所述的数据处理方法。

17.一种存储介质，所述存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-14任意一项所述的数据处理方法。