CN116071150A

CN116071150A - 数据处理方法、银行产品推广、风控系统、服务器及介质

Info

Publication number: CN116071150A
Application number: CN202310155652.1A
Authority: CN
Inventors: 朱杰; 郭立帆; 曾海峰; 陈风
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-05

Abstract

本申请实施例提供数据处理方法、银行产品推广、风控系统、服务器及介质。该方法包括：获取用于表示银行用户交易行为的脱敏处理后的交易数据；基于交易数据中包括交易方信息、交易摘要和附言中至少一个子数据，构建包含有各子数据之间逻辑关系的自然语言文本；将包含有各子数据之间逻辑关系的自然语言文本输入预训练自然语言模型，确定用于表征交易行为的商业目的的行为标签；基于用户的至少一个行为标签生成用户画像。不直接使用交易数据对用户的交易行为进行行为标签的标记，而是将其转换为自然语言文本，在该自然语言文本中体现各子数据逻辑关系，模型对其进行行为标签的标记，能够有效提升交易数据行为标记效率以及建立用户画像的准确率。

Description

数据处理方法、银行产品推广、风控系统、服务器及介质

技术领域

本申请涉及计算机技术领域，尤其涉及数据处理方法、银行产品推广、风控系统、服务器及介质。

背景技术

在传统银行应用场景中，会根据银行管理需要，为各个银行用户建立用户画像。具体来说，通常会利用机器学习模型，根据人为指定规则建立用户画像。然而，若要确保用户画像准确，需要准备大量银行用户相关交易数据作为训练样本对机器学习模型进行训练，当数据结构或者数据属性发生变化之后，需要利用新的数据对机器学习模型进行重新训练。因此，训练样本生成、模型训练等工作都需要消耗大量人力物力。

发明内容

为解决或改善现有技术中存在的问题，本申请各实施例提供了数据处理方法、银行产品推广、风控系统、服务器及介质。

第一方面，在本申请的一个实施例中，提供了一种数据处理方法。该方法包括：

获取用于表示银行用户交易行为的脱敏处理后的交易数据；

基于所述交易数据中包括交易方信息、交易摘要和附言中至少一个子数据，构建包含有各子数据之间逻辑关系的自然语言文本；

将包含有各所述子数据之间逻辑关系的自然语言文本输入预训练自然语言模型，确定用于表征所述交易行为的商业目的的行为标签；

基于所述用户的至少一个所述行为标签生成用户画像。

第二方面，本申请的一个实施例中，提供了一种银行产品推广系统，该系统包括：

服务器端，用于执行第一方面所述数据处理方法。其中，行为标签是基于历史交易数据生成的符合银行产品推广需求的标签。

客户端，用于获取用户的脱敏处理后的交易数据，并将所述交易数据发送给所述服务器端。

第三方面，本申请的一个实施例中，提供了一种银行风控系统，该系统包括：

服务器端，用于执行第一方面所述数据处理方法。其中，行为标签是基于历史交易数据生成的符合银行风控需求的标签。

第四方面，在本申请的一个实施例中，提供了一种云服务器，包括存储器及处理器；其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于实现第一方面所述的数据处理方法。

第五方面，在本申请的一个实施例中，提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如第一方面所述的数据处理方法。

本申请实施例提供的技术方案，在根据权限获取到银行用户交易行为相关的已经完成脱敏处理的交易数据后，先将交易数据转化为自然语言文本。在交易数据当中包含有多个子数据，比如，交易方信息(包括交易双方的信息)、交易摘要和附言等等。在转换得到的自然语言文本中，由前文所述的多个子数据构成，并且表达清楚各个子数据之间的逻辑关系，使得这些子数据不再相互孤立。在得到自然语言文本之后，进一步将自然语言文本输入到预训练自然语言模型，进而利用自然语言模型确定用于表征该银行用户交易行为的商业目的的行为标签。进而，基于得到的该银行用户的至少一个行为标签构建该银行用户的用户画像。通过上述方案，不直接使用交易数据对用户的交易行为进行行为标签的标记，而是先将其转换为自然语言文本，在该自然语言文本中充分体现交易数据中各子数据逻辑关系，然后利用预训练自然语言模型对其进行行为标签的标记，能够有效提升对交易数据进行行为标记的准确率和工作效率，以及基于交易数据建立用户画像的准确率和效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的流程示意图；

图2为本申请实施例提供的模型训练方法的流程示意图；

图3为本申请实施例提供的银行产品推广系统的结构示意图；

图4为本申请实施例提供的银行风控系统的结构示意图；

图5为本申请实施例举例说明的用户画像建立的流程示意图；

图6为本申请实施例提供的数据处理装置的结构示意图；

图7为本申请实施例提供的一种云服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。此外，下文描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在银行应用场景中，为了更好的为用户提供服务，通常会对各个用户建立用户画像。在建立用户画像的时候，通常是基于用户在该银行的基础交易数据以及用户的属性信息等综合构建。然而，这样的构建结果得到的用户画像只是由工作人员为用户定义的一些标签，准确性不高，而且难以实现实时性更新。还有一些现有技术中，利用传统机器学习模型，比如，支持向量机(Support Vector Machine，SVM)。这种方案需要人工制定规则，做大量特征工程，从银行大量的用户数据中识别出有效的用户的交易数据，需要很高的人工成本和时间成本。在制作特征工程的时候，需要针对不同的数据类型或数据结构进行针对性制作，制作成本升高。此外，若被用于输入传统机器学习模型中的数据类型或数据结构发生变化，为了确保传统机器学习模型输出的用户画像结果的准确率，需要利用新的数据结构或者数据类型对机器学习模型重新训练，训练过程所需要付出的时间成本和人工成本都会很高。因此，需要一种能够有效提升用户画像创建效率的方案。

术语解释：

用户画像：用户信息标签化，地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。

下面将结合具体实施例对本申请实现的技术方案进行解释说明。

如图1为本申请实施例提供的一种数据处理方法的流程示意图。该方法可以应用于服务端。该方法具体包括如下步骤：

101：获取用于表示银行用户交易行为的脱敏处理后的交易数据。

102：基于所述交易数据中包括交易方信息、交易摘要和附言中至少一个子数据，构建包含有各子数据之间逻辑关系的自然语言文本。

103：将包含有各所述子数据之间逻辑关系的自然语言文本输入预训练自然语言模型，确定用于表征所述交易行为的商业目的的行为标签。

104：基于所述用户的至少一个所述行为标签生成用户画像。

需要说明的是，在本申请中所涉及的用户相关的交易数据为脱敏数据或统计学数据。举例来说，对用户相关的原始数据进行脱敏处理：包括用户基本身份信息，以及用户通过客户端或者柜台执行的交易行为(比如，某笔交易中交易双方的真实账户名)、交易频次、交易总金额等等。

本方案所说的预训练自然语言模型是基于大规模中文预训练模型并利用金融领域专业样本对该模型继续训练(continual training)得到的，能够很好的实现对金融领域文本很好的语言处理结果。利用该模型，可以对交易数据相关的自然语言文本内容的精准识别处理，而不同于传统机器学习模型中对交易数据进行分析处理。

这里所说的银行用户交易行为可以是用户通过各种方式(比如，自助柜员机、自助提款机、智能终端APP、柜台等)进行账款交易(比如，转账、还款、理财、借贷等)。在执行交易行为后得到的交易数据中，通常包含有交易方信息(包括交易接收方、交易发起方)为身份信息、用户产品属性、职业等，经过脱敏处理后具体交易方信息可以仅仅通过数字、代码等进行表示。交易摘要用于记录交易基本信息，比如，金额、时间等，方便用户日后查看。附言，是交易发起方通过简短文本概述本次交易的商业目的，该附言可自动生成，比如，交易接收方为供电局，则可自动生成附言“支付居民用电XX元”；也可以由用户手动编辑，比如“向XX提供借款XX元”。

在一条交易数据中，虽然包含有交易方信息、交易摘要等子数据，但是，各个子数据之间的逻辑关系并没有充分体现。本方案通过对附言进行解读，进而理解本笔交易的商业目的生成包含有各个子数据之间逻辑关系的自然语言文本。当然，有的交易数据中可能没有附言，但是可以根据该用户的历史交易数据或者交易方信息推测出本次交易的商业目的，进而生成包含有各个子数据之间逻辑关系的自然语言文本。具体的将交易数据转换为自然语言文本的过程将在下述实施例中举例说明。

在得到自然语言文本之后，可以将自然语言文本输入到前文所说的预训练自然语言模型中，进而，利用该预训练自然语言模型对该用户交易行为进行识别，得到用于表征该交易行为的商业目的的行为标签。在本申请方案中，利用预训练自然语言模型对自然语言文本进行处理，而未直接将交易数据输入该模型当中，能够有效实现交易数据与预训练自然语言模型的解耦。比如，当交易数据的数据属性、数据类型等发生变化的时候，只需要对交易数据转换为自然语言文本的转换模板进行简单修改就可以了，自然语言文本格式不需要修改，也就意味着当交易数据的数据属性、数据类型发生变化的时候并不需要对预训练自然语言模型进行重新训练。不直接使用交易数据对用户的交易行为进行行为标签的标记，而是先将其转换为自然语言文本，在该自然语言文本中充分体现交易数据中各子数据逻辑关系，然后利用预训练自然语言模型对其进行行为标签的标记，能够有效降低预训练自然语言模型与交易数据之间的耦合关系，减轻交易数据变动对该预训练自然语言模型的不利影响，能够提升对交易数据进行行为标记的准确率和工作效率，以及基于交易数据建立用户画像的准确率和效率。

此外需要说明的是，利用预训练自然语言模型得到的是交易行为对应的行为标签，而不是直接得到用户画像，当银行产品需求发生变化的时候，需要对用户画像内容进行调整。此时，不需要对预训练自然语言模型进行重新训练，只需要建立行为标签与新得到的用户画像信息之间的对应关系。能够有效降低预训练自然语言模型与用户画像之间的耦合关系，减轻用户画像变动对该预训练自然语言模型的不利影响。

这里所说的商业目的比如可以是资产增值需求的商业目的、消费需求的商业目的、贷款需求的商业目的等等。

在本申请的一个或者多个实施例中，所述行为标签的生成方式：根据关键字段从用户的交易流水数据获取历史交易数据；生成符合银行产品需求的用于表征所述历史交易数据的商业目的的行为标签。

需要说明的是，这里所说的行为标签是需要由银行专业人员根据银行产品需求或者银行工作人员使用需求所设定的用于表征该交易行为商业目的且便于工作人员理解的行为标签。具体来说，银行运营当中会时刻产生大量的交易流水数据，这些交易流水数据当中，有些是有商业价值的(比如，向特定基金账户、保险账户转账的流水数据)，有些是没有商业价值的(比如，每天都会支付的通勤费用)。因此，需要根据关键字段从用户众多的交易流水数据中获取有效的历史交易数据。进而，由银行工作人员根据工作经验、专业知识、产品需求等综合分析确定出行为标签，以便工作人员通过行为标签可以直接了解到该笔交易的商业目的。

为了获得更加全面的行为标签，需要银行工作人员针对各种类型的交易数据进行分析并标记对应的行为标签。具体来说，银行产品需求可以包括：拓展新客户产品、理财营销产品、用户风控产品等等。针对同一笔交易数据，从不同的银行产品需求的角度可以创建出不同的行为标签。所得到的行为标签越全面，在建立用户画像的时候越准确。所得到的行为标签可以是对应于多种银行产品需求，并根据银行产品需求对行为标签进行分组。同一个行为标签可能同时适用于多种银行产品需求。通过上述方式得到的行为标签能够更加符合银行产品需求同时还便于工作人员对行为标签的理解。这里所说的行为标签比如可以是投资、借贷、划拨、经营等等。

在本申请的一个或者多个实施例中，如图2为本申请实施例提供的模型训练方法的流程示意图。从图2中可以看到，所述预训练自然语言模型的训练方式具体包括如下步骤：

201：基于历史交易数据，以及用于表征所述历史交易数据的商业目的的行为标签，构建为训练样本。

202：将所述训练样本输入待训练的自然语言模型，对待训练的自然语言模型中浅层进行训练后得到训练好的所述预训练自然语言模型。

在实际应用中，通过前文所述方案，可以知道每笔历史交易数据对应的行为标签，进而，基于历史交易数据和行为标签构建训练样本，进而，利用训练样本对待训练的自然语言模型进行训练。

需要说明的是，这里所说的预训练自然语言模型可以利用卷积神经网络，比如VGG-16构建的模型。由于卷积神经网络中层数比较多，利用大量基础样本完成训练后，在实际应用中，还需要根据实际金融数据训练样本进行微调(f i ne-tun i ng)。为了减轻微调工作量，可以对该卷积网络中的深层进行固定，仅对浅层进行微调。需要说明的是，对哪些浅层进行微调以及调整到什么程度，需要根据用户实际需求确定。为了减轻调整的工作量、提高调整效率，可以选择少量的浅层进行微调。若此时微调效果不佳，则可以增加需要微调的浅层的数量。通过上述方式，满足对自然语言文本数据处理需求的同时，尽可能减少对卷积神经网络优化的工作量。

如步骤201所述，所述基于历史交易数据，以及用于表征所述历史交易数据的商业目的的行为标签，构建为训练样本，包括：

201a：获取历史交易数据以及用于描述所述历史交易数据的商业目的的所述行为标签。

201b：将历史交易数据按照预设模板转换为自然语言文本样本。

201c：基于所述自然语言文本样本和所述行为标签训练得到预训练自然语言模型。

如前文所述可知，获取历史交易数据之后，将由银行工作人员根据实际银行产品需求建立对应的行为标签。

同时，还需要对历史交易数据进行处理。如前文所述可知，待训练的自然语言模型，是用于对自然语言文本进行处理的模型。换言之，在对该自然语言模型进行训练的时候，输入的训练样本不是历史交易数据，而应该是按照预设目标对历史交易数据进行格式转换之后得到的自然语言文本样本。也就是，建立基于某个历史交易数据得到的自然语言文本样本和行为标签之间的对应关系。进而，将自然语言文本样本和行为标签建立训练样本，并利用该训练样本针对待训练的自然语言模型的浅层进行针对性微调。不需要对该模型的深层进行训练。该模型整体是利用大量样本训练得到的具有广泛通用性应变，在具体应用过程中，根据模型使用效果对模型浅层进行针对性微调训练，从而能够有效提升模型输出结果的精准效果，同时还有效降低或避免对模型训练的高时间成本、高人工成本。

举例来说，例如，预设模版定义为“【交易摘要】，本方户名+借贷标志+对方户名，+附言。”，这样一条交易行为的结构化数据则被转化成“【银联代收】，张三支付中国银行浙江分公司2000元，(特约)中国银行浙江分行(个人贷款还款)。”

在本申请的一个或者多个实施例中，所述基于所述用户的至少一个所述行为标签生成用户画像，包括：

基于银行产品需求，选择所需的所述行为标签；

利用所选择的所述行为标签，构建符合至少一种银行产品需求的用户画像。

在实际应用中，为了满足银行工作人员负责的各种银行产品需求，在建立用户画像的时候，需要进行更加精准分类。比如，针对风控产品创建用户画像，则需要选择与风控相关的至少一个行为标签。在创建用户画像的时候，由银行工作人员根据实际工作需求构建出能够准确描述用户风控相关特征的用户画像。这里所说的用户画像，比如可以是用户类型、用户级别、行为偏好等等。进而结合得到的各种行为标签，建立符合至少一种银行产品需求的用户画像。每个用户可以有多组用户画像，并且，用户画像会根据实际的银行产品需求进行创建和调整。

进一步地，当银行产品需求发生变化时，从多个所述行为标签中选择符合新的银行产品需求的至少一个行为标签；基于所述符合新的银行产品需求的至少一个行为标签，生成新的用户画像。

在本申请技术方案中，用户画像是基于行为标签建立的，换言之，行为标签足够丰富，能够满足建立各种用户画像的需求。因此，当银行产品需求发生变化之后，比如，有新的理财产品推广需求，需要基于现有的行为标签构建新银行产品需求对应的新的用户画像。由于在本申请技术方案中，利用预训练自然语言模型得到的输出结果为行为标签，而不是用户画像，因此，当用户画像进行调整的时候，只需要对行为标签与用户画像之间的对应关系进行调整。而不需要对行为标签进行调整，换言之，银行产品需求发生变化的时候，不需要对预训练自然语言模型进行重新训练，使得银行产品需求、用户画像均与预训练自然语言模型之间不具有强耦合关系。能够有效降低模型训练成本，提高模型普适性。

需要说明的是，若当前已有行为标签不能满足新的银行产品需求，则需要针对新银行产品需求建立新的行为标签。即便需要建立新的行为标签，也可以有效降低工作量。因为，在本方案中，行为标签是基于预训练自然语言模型得到的，只需要对浅层进行重新训练即可，不需要对深层进行训练，从而能够有效缩短对模型训练的时间，提高模型精准度的同时降低训练成本。

在本申请的一个或者多个实施例中，基于所述用户的至少一个所述行为标签生成用户画像之后，还包括：

根据用户画像按照银行产品需求对用户进行群组分类；

根据用户所述交易行为的产生触点，确定将银行产品推送到所述用户的推送方式；

将所述银行产品按照所述推送方式推送到对应群组中的用户。

在实际应用中，利用上述方案，可以得到各个用户分别对应的至少一个用户画像。根据用户画像与银行产品需求之间的对应关系，对用户进行分类，也就是将对应于同一类银行产品需求的用户分到同一群组当中。

这里所说的用户的交易行为产生触点，可以理解为用户交易行为发生途径和方式。比如，有的用户的交易行为是通过智能终端APP产生的，有的用户的交易行为是通过柜台产生的，有的用户的交易行为是通过自助柜员机产生的。不同的交易行为产生触点，表示用户能够成功接收银行产品推送信息的推送方式。

在进行推送的时候，为了提高推送效率，可以根据前文得到的推送方式将银行产品推送到群组中各个用户。通过上述方式，能够有效提高推广效率和推广准确率。

在本申请的一个或者多个实施例中，还包括：当交易数据的数据结构和/或者数据属性发生变化的时候，根据所述数据结构和/或所述数据属性的变化对转换关系进行调整，以使得基于调整后的转换关系得到符合预设转换模板的所述自然语言文本。

在实际应用中，不同银行之间的交易数据的数据结构或者数据属性可能不同。同一银行不同类型银行产品对应的交易数据的数据结构或者数据属性之间也可能不同。如前文所述，交易数据不被直接输入到预训练自然语言模型当中，实现了交易数据与预训练自然语言模型的解耦。当交易数据的数据结构和/或者数据属性发生变化的时候，根据所述数据结构和/或所述数据属性的变化对转换关系进行调整，不需要重新训练预训练自然语言模型，可以基于调整后的转换关系得到符合预设转换模板的所述自然语言文本，能够有效提高工作效率和模型普适性。

在本申请的一个或者多个实施例中，所述自然语言文本的生成方式包括：提取所述交易数据中包含的所述附言和/或所述交易方信息；根据附言的解析结果和/或交易方信息的产品属性，选择对应的预设转换模板得到所述自然语言文本。

在实际应用中，交易数据往往被直接用到机器学习模型当中。然而，单纯的交易数据无法充分体现出其中各个子数据之间的逻辑关系。因此，需要结合具体信息来分析一遍得到包含有准确逻辑关系的自然语言文本。例如，可以对附言进行解析(比如，附言可以是借款、还款、理财等等)，或者对交易方信息的产品属性(比如，交易接收方是供电局、交易接收方是基金公司、交易接收方是保险公司、交易接收方是银行理财账号等)。当然，若交易摘要中包含有价值的文本信息，也可以针对交易摘要进行文本信息提取。根据具体的附言的解析结果和/或交易方信息的产品属性，选择对应的预设转换模板得到所述自然语言文本。

下面，将针对不同的应用场景进行具体举例说明。

本申请实施例提供一种银行产品推广系统。如图3为本申请实施例提供的银行产品推广系统的结构示意图。该系统具体包括：服务器端31和客户端32。

服务器端31，用于执行如下步骤：

获取用于表示银行用户交易行为的脱敏处理后的交易数据；

基于所述用户的至少一个所述行为标签生成用户画像。其中，行为标签是基于历史交易数据生成的符合银行产品推广需求的标签。

客户端32，用于获取用户的脱敏处理后的交易数据，并将所述交易数据发送给所述服务器端。

服务器端31，还用于执行生成行为标签。具体包括：

根据关键字段从用户的交易流水数据获取历史交易数据；

生成符合银行产品需求的用于表征所述历史交易数据的商业目的的行为标签。

服务器端31，还用于对预训练自然语言模型进行训练。具体包括：

基于历史交易数据，以及用于表征所述历史交易数据的商业目的的行为标签，构建为训练样本；

将所述训练样本输入待训练的自然语言模型，对待训练的自然语言模型中浅层进行训练后得到训练好的所述预训练自然语言模型。

服务器端31，还用于获取历史交易数据以及用于描述所述历史交易数据的商业目的的所述行为标签；

将历史交易数据按照预设模板转换为自然语言文本样本；

基于所述自然语言文本样本和所述行为标签训练得到预训练自然语言模型。

服务器端31，还用于基于银行产品需求，选择所需的所述行为标签；

服务器端31，还用于根据用户画像按照银行产品需求对用户进行群组分类；

服务器端31，还用于当交易数据的数据结构和/或者数据属性发生变化的时候，根据所述数据结构和/或所述数据属性的变化对转换关系进行调整，以使得基于调整后的转换关系得到符合预设转换模板的所述自然语言文本。

服务器端31，还用于当银行产品需求发生变化时，从多个所述行为标签中选择符合新的银行产品需求的至少一个行为标签；

基于所述符合新的银行产品需求的至少一个行为标签，生成新的用户画像。

服务器端31，还用于提取所述交易数据中包含的所述附言和/或所述交易方信息；

根据附言的解析结果和/或交易方信息的产品属性，选择对应的预设转换模板得到所述自然语言文本。

本申请实施例提供一种银行风控系统。如图4为本申请实施例提供的银行风控系统的结构示意图。该系统具体包括：服务器端41和客户端42。

服务器端41，用于执行获取用于表示银行用户交易行为的脱敏处理后的交易数据；

基于所述用户的至少一个所述行为标签生成用户画像。其中，行为标签是基于历史交易数据生成的符合银行产品推广需求的标签。其中，行为标签是基于历史交易数据生成的符合银行风控需求的标签。

客户端42，用于获取用户的脱敏处理后的交易数据，并将所述交易数据发送给所述服务器端。

服务器端41，还用于执行生成行为标签。具体包括：

根据关键字段从用户的交易流水数据获取历史交易数据；

服务器端41，还用于对预训练自然语言模型进行训练。具体包括：

服务器端41，还用于获取历史交易数据以及用于描述所述历史交易数据的商业目的的所述行为标签；

将历史交易数据按照预设模板转换为自然语言文本样本；

服务器端41，还用于基于银行产品需求，选择所需的所述行为标签；

服务器端41，还用于根据用户画像按照银行产品需求对用户进行群组分类；

服务器端41，还用于当交易数据的数据结构和/或者数据属性发生变化的时候，根据所述数据结构和/或所述数据属性的变化对转换关系进行调整，以使得基于调整后的转换关系得到符合预设转换模板的所述自然语言文本。

服务器端41，还用于当银行产品需求发生变化时，从多个所述行为标签中选择符合新的银行产品需求的至少一个行为标签；

服务器端41，还用于提取所述交易数据中包含的所述附言和/或所述交易方信息；

为了便于理解，下面将结合附图对本申请技术方案的实现过程具体举例说明。如图5为本申请实施例举例说明的用户画像建立的流程示意图。

具体包括如下步骤：

步骤1、根据银行内部的用户交易流水数据，挖掘出交易的主要schema字段，留下行业下核心的属性项以判断每笔交易的目的，例如，交易金额、交易日期、交易发起方和交易接收方的户名、附言、交易摘要的代码描述等。将挖掘出的该结构化数据并转换为自然语言文本作为预训练自然语言模型的输入。

步骤2、在获取到用户交易行为数据之后，需要结合工作人员经验和银行工作人员的专业知识根据银行产品具体需求定义出行为标签，例如投资、借贷、划拨、经营等等。

步骤3、用户交易行为标签体系建立之后，需要在大规模中文预训练自然语言模型上fine-tuning出一个交易行为识别模型。

因为前文所说的预训练自然语言模型是一个自然语言领域的预训练模型，只能输入自然语言文本，所以首先将步骤1取到的结构化文本根据自定义模版进行转化变为自然语言文本。例如，模版定义为“【摘要代码描述】，本方户名+借贷标志+对方户名，+附言备注。”，这样一条交易行为的结构化数据则被转化成“【银联代收】，张三支付中国银行浙江分公司2000元，(特约)中国银行浙江分行(个人贷款还款)。”在结构化数据转为自然语言文本之后，根据工作人员经验和银行工作人员专业知识对少量样本进行人工打标。在得到少量有标签的样本数据后，基于预训练自然语言模型为基准模型，进行fine-tuning，最终得到用户一个交易行为识别的模型。

步骤4、在用户画像建立阶段，基于步骤3得到的交易行为识别模型，对每个用户近期一段时间内的每笔交易数据进行自动化的分类，打上行为标签。在得到用户每笔交易行为的商业目的之后，在此基础上建立出用户画像。

步骤5、在完成上述步骤自动化识别交易行为以及生成行为标签后，得到用户画像。银行的产品经理再也不需要自己去撒网式的做营销、拓客等，可以根据用户的近期倾向实现精准营销、拓客、风控等应用，人效得到了大力提升。例如，工资代发、主营账户通常粘性较高、经营支出账户通常会有大量备付资金沉淀等等。

使用基于自定义的转换模版的方式将银行的结构化交易数据转化为自然语言文本的方式，进而将用户交易行为识别任务转化为自然语言处理领域中的一个文本分类问题，减轻模型训练工作量。同时，实现了交易数据与预训练自然语言模型之间的隔离。

基于同样的思路，本身实施例还提供一种数据处理装置。如图6为本申请实施例提供的数据处理装置的结构示意图。从图6中可以看到，所述装置包括：

获取模块61，用于获取用于表示银行用户交易行为的脱敏处理后的交易数据。

文本构建模块62，用于基于所述交易数据中包括交易方信息、交易摘要和附言中至少一个子数据，构建包含有各子数据之间逻辑关系的自然语言文本。

确定模块63，用于将包含有各所述子数据之间逻辑关系的自然语言文本输入预训练自然语言模型，确定用于表征所述交易行为的商业目的的行为标签。

生成模块64，用于基于所述用户的至少一个所述行为标签生成用户画像。

生成模块64，还用于根据关键字段从用户的交易流水数据获取历史交易数据；

可选地，还包括训练模块65，用于基于历史交易数据，以及用于表征所述历史交易数据的商业目的的行为标签，构建为训练样本；

文本构建模块62，用于获取历史交易数据以及用于描述所述历史交易数据的商业目的的所述行为标签；

将历史交易数据按照预设模板转换为自然语言文本样本；

生成模块64，还用于基于银行产品需求，选择所需的所述行为标签；

可选地，还包括推送模块66，用于根据用户画像按照银行产品需求对用户进行群组分类；

文本构建模块62，用于当交易数据的数据结构和/或者数据属性发生变化的时候，根据所述数据结构和/或所述数据属性的变化对转换关系进行调整，以使得基于调整后的转换关系得到符合预设转换模板的所述自然语言文本。

可选地，生成模块64，还用于当银行产品需求发生变化时，从多个所述行为标签中选择符合新的银行产品需求的至少一个行为标签；

可选地，生成模块64，还用于提取所述交易数据中包含的所述附言和/或所述交易方信息；根据附言的解析结果和/或交易方信息的产品属性，选择对应的预设转换模板得到所述自然语言文本。

本申请一个实施例还提供一种云服务器。该云服务器为计算单元中主节点电子设备。如图7为本申请实施例提供的一种云服务器的结构示意图。该云服务器包括存储器701、处理器702及通信组件703；其中，

所述存储器701，用于存储程序；

所述处理器702，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

获取用于表示银行用户交易行为的脱敏处理后的交易数据；

基于所述用户的至少一个所述行为标签生成用户画像。

可选地，处理器702用于根据关键字段从用户的交易流水数据获取历史交易数据；

可选地，处理器702用于基于历史交易数据，以及用于表征所述历史交易数据的商业目的的行为标签，构建为训练样本；

可选地，处理器702用于获取历史交易数据以及用于描述所述历史交易数据的商业目的的所述行为标签；

将历史交易数据按照预设模板转换为自然语言文本样本；

可选地，处理器702用于基于银行产品需求，选择所需的所述行为标签；

可选地，处理器702用于根据用户画像按照银行产品需求对用户进行群组分类；

可选地，处理器702用于当交易数据的数据结构和/或者数据属性发生变化的时候，根据所述数据结构和/或所述数据属性的变化对转换关系进行调整，以使得基于调整后的转换关系得到符合预设转换模板的所述自然语言文本。

可选地，处理器702用于当银行产品需求发生变化时，从多个所述行为标签中选择符合新的银行产品需求的至少一个行为标签；

可选地，处理器702用于提取所述交易数据中包含的所述附言和/或所述交易方信息；

上述存储器701可被配置为存储其它各种数据以支持在云服务器上的操作。这些数据的示例包括用于在云服务器上操作的任何应用程序或方法的指令。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器

(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

进一步地，本实施例中的所述处理器702可以具体是：可编程交换处理芯片，该可编程交换处理芯片中配置有数据复制引擎，能对接收到的数据进行复制。

上述处理器702在执行存储器中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。进一步，如图7所示，云服务器还包括：电源组件704等其它组件。

本申请实施例还提供一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行图1对应实施例所述的方法。

基于上述实施例，在根据权限获取到银行用户交易行为相关的已经完成脱敏处理的交易数据后，先将交易数据转化为自然语言文本。在交易数据当中包含有多个子数据，比如，交易方信息(包括交易双方的信息)、交易摘要和附言等等。在转换得到的自然语言文本中，由前文所述的多个子数据构成，并且表达清楚各个子数据之间的逻辑关系，使得这些子数据不再相互孤立。在得到自然语言文本之后，进一步将自然语言文本输入到预训练自然语言模型，进而利用自然语言模型确定用于表征该银行用户交易行为的商业目的的行为标签。进而，基于得到的该银行用户的至少一个行为标签构建该银行用户的用户画像。通过上述方案，不直接使用交易数据对用户的交易行为进行行为标签的标记，而是先将其转换为自然语言文本，在该自然语言文本中充分体现交易数据中各子数据逻辑关系，然后利用预训练自然语言模型对其进行行为标签的标记，能够有效提升对交易数据进行行为标记的准确率和工作效率，以及基于交易数据建立用户画像的准确率和效率。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取用于表示银行用户交易行为的脱敏处理后的交易数据；

基于所述用户的至少一个所述行为标签生成用户画像。

2.根据权利要求1所述的方法，其特征在于，所述行为标签的生成方式：

根据关键字段从用户的交易流水数据获取历史交易数据；

3.根据权利要求2所述的方法，其特征在于，所述预训练自然语言模型的训练方式：

将所述训练样本输入待训练的自然语言模型，对所述待训练的自然语言模型中浅层进行训练后得到训练好的所述预训练自然语言模型。

4.根据权利要求3所述的方法，其特征在于，所述基于历史交易数据，以及用于表征所述历史交易数据的商业目的的行为标签，构建为训练样本，包括：

获取历史交易数据以及用于描述所述历史交易数据的商业目的的所述行为标签；

将历史交易数据按照预设模板转换为自然语言文本样本；

5.根据权利要求1所述的方法，其特征在于，所述基于所述用户的至少一个所述行为标签生成用户画像，包括：

基于银行产品需求，选择所需的所述行为标签；

6.根据权利要求5所述的方法，其特征在于，基于所述用户的至少一个所述行为标签生成用户画像之后，还包括：

根据用户画像按照银行产品需求对用户进行群组分类；

7.根据权利要求1所述的方法，其特征在于，还包括：

当交易数据的数据结构和/或者数据属性发生变化的时候，根据所述数据结构和/或所述数据属性的变化对转换关系进行调整，以使得基于调整后的转换关系得到符合预设转换模板的所述自然语言文本。

8.根据权利要求1所述的方法，其特征在于，还包括：

当银行产品需求发生变化时，从多个所述行为标签中选择符合新的银行产品需求的至少一个行为标签；

9.根据权利要求1所述的方法，其特征在于，所述自然语言文本的生成方式包括：

提取所述交易数据中包含的所述附言和/或所述交易方信息；

10.一种银行产品推广系统，其特征在于，所述系统包括：

服务器端，用于执行权利要求1至9中任一项所述的方法；其中，行为标签是基于历史交易数据生成的符合银行产品推广需求的标签；

11.一种银行风控系统，其特征在于，所述系统包括：

服务器端，用于执行权利要求1至9中任一项所述的方法；其中，行为标签是基于历史交易数据生成的符合银行风控需求的标签；

12.一种云服务器，包括存储器及处理器；其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于实现上述执行权利要求1至9中任一项所述的方法。

13.一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如执行权利要求1至9中任一项所述的方法。