CN113222732A

CN113222732A - 信息处理方法、装置、设备及存储介质

Info

Publication number: CN113222732A
Application number: CN202110536768.0A
Authority: CN
Inventors: 付煜; 谭洁帆; 刘凌志
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-06
Anticipated expiration: 2041-05-17

Abstract

本申请提供一种信息处理方法、装置、设备及存储介质，该方法包括：获取目标用户的历史数据，历史数据包括画像数据和行为数据，根据画像数据，确定目标用户的画像特征之间的关联关系，根据行为数据，确定目标用户的行为之间的时序关系，根据关联关系及时序关系，预测目标用户对应各属性的概率值，基于概率值，预测目标用户的目标属性。本申请能够更加准确地预测目标用户的目标属性。

Description

信息处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种信息处理方法、装置、设备及存储介质。

背景技术

面对互联网金融业务中的潜在风险，金融风险审计将审计力量着重放在高风险领域，力求规避审计风险。预测金融审计中的金融风险事项，对于提高金融治理水平、维护国家金融安全具有重要的作用。

目前，预测金融风险的主要方法是通过长期观测某类型的风险事项，以专家经验的工作方式对风险事项进行预测，即专家在长时间对于某类型的风险事项进行审计工作的过程中，会从问题发生的用户或机构上，总结出容易发生此类问题的用户特征和前置条件，从而对具备了特定的用户特征或特定前置条件的对象进行风险事项的预测。但是，上述基于专家经验通过人工对金融风险进行预测的方式，效率低，且不能够准确地预测金融风险。

发明内容

本申请提供一种信息处理方法、装置、设备及存储介质，以解决基于专家经验通过人工对金融风险进行预测的方式，存在的效率低，且不能够准确地预测金融风险的问题。

第一方面，本申请提供一种信息处理方法，包括：

获取目标用户的历史数据，历史数据包括画像数据和行为数据；

根据画像数据，确定目标用户的画像特征之间的关联关系；

根据行为数据，确定目标用户的行为之间的时序关系；

根据关联关系及时序关系，预测目标用户对应各属性的概率值；

基于概率值，预测目标用户的目标属性。

可选的，根据行为数据，确定目标用户的行为之间的时序关系，包括：确定目标用户在各时刻对应的行为数据；针对每一时刻对应的行为数据进行独热编码，生成目标用户的行为特征集；根据行为特征集，确定目标用户的行为之间的时序关系。

可选的，根据行为特征集，确定目标用户的行为之间的时序关系，包括：将行为特征集输入至组合预测模型包括的时序关系模型，确定目标用户的行为之间的时序关系，时序关系模型用于反映用户在不同时刻的行为之间的时序关系。

可选的，根据画像数据，确定目标用户的画像特征之间的关联关系，包括：根据画像数据，生成目标用户的画像特征集；将画像特征集输入至组合预测模型包括的关联关系模型，确定目标用户的画像特征之间的关联关系，关联关系模型用于反映用户的画像特征间的关联关系。

可选的，关联关系和时序关系均表现为概率值，根据关联关系及时序关系，预测目标用户对应各属性的概率值，包括：将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各属性的概率值。

第二方面，本申请提供一种组合预测模型的训练方法，组合预测模型包括时序关系模型和关联关系模型，该训练方法包括：

获取样本数据，样本数据包括多个抽样用户的画像数据和行为数据；

针对每一抽样用户，执行以下操作：

根据抽样用户的画像数据，生成画像特征集；

根据抽样用户的行为数据，生成行为特征集；

将画像特征集输入关联关系模型，得到抽样用户的画像特征之间的关联关系；

将行为特征集输入时序关系模型，得到抽样用户的行为之间的时序关系；

将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测抽样用户对应各属性的概率值；

根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识，调整初始组合预测模型的模型参数，直至初始组合预测模型的损失值小于或等于预设损失值，得到组合预测模型。

可选的，根据抽样用户的行为数据，生成行为特征集，包括：确定抽样用户在各时刻对应的行为数据；针对每一时刻对应的行为数据进行独热编码，生成抽样用户的行为特征集。

第三方面，本申请提供一种信息处理装置，包括：

获取模块，用于获取目标用户的历史数据，历史数据包括画像数据和行为数据；

第一确定模块，用于根据画像数据，确定目标用户的画像特征之间的关联关系；

第二确定模块，用于根据行为数据，确定目标用户的行为之间的时序关系；

第一预测模块，用于根据关联关系及时序关系，预测目标用户对应各属性的概率值；

第二预测模块，用于基于概率值，预测目标用户的目标属性。

可选的，第二确定模块具体用于：确定目标用户在各时刻对应的行为数据；针对每一时刻对应的行为数据进行独热编码，生成目标用户的行为特征集；根据行为特征集，确定目标用户的行为之间的时序关系。

可选的，第二确定模块具体用于：将行为特征集输入至组合预测模型包括的时序关系模型，确定目标用户的行为之间的时序关系，时序关系模型用于反映用户在不同时刻的行为之间的时序关系。

可选的，第一确定模块具体用于：根据画像数据，生成目标用户的画像特征集；将画像特征集输入至组合预测模型包括的关联关系模型，确定目标用户的画像特征之间的关联关系，关联关系模型用于反映用户的画像特征间的关联关系。

可选的，第一预测模块具体用于：将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各属性的概率值。

第四方面，本申请提供一种组合预测模型的训练装置，组合预测模型包括时序关系模型和关联关系模型，该训练装置包括：

获取模块，用于获取样本数据，样本数据包括多个抽样用户的画像数据和行为数据；

训练模块，用于针对每一抽样用户，执行以下操作：

根据抽样用户的画像数据，生成画像特征集；

根据抽样用户的行为数据，生成行为特征集；

可选的，训练模块具体用于：确定抽样用户在各时刻对应的行为数据；针对每一时刻对应的行为数据进行独热编码，生成抽样用户的行为特征集。

第五方面，本申请提供一种电子设备，包括：存储器和处理器；

存储器用于存储程序指令；

处理器用于调用存储器中的程序指令执行如本申请第一方面所述的信息处理方法。

第六方面，本申请提供一种电子设备，包括：存储器和处理器；

存储器用于存储程序指令；

处理器用于调用存储器中的程序指令执行如本申请第二方面所述的组合预测模型的训练方法。

第七方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序指令，计算机程序指令被执行时，实现如本申请第一方面所述的信息处理方法。

第八方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序指令，计算机程序指令被执行时，实现如本申请第二方面所述的组合预测模型的训练方法。

第九方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本申请第一方面所述的信息处理方法。

第十方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本申请第二方面所述的组合预测模型的训练方法。

本申请提供的信息处理方法、装置、设备及存储介质，通过获取目标用户的历史数据，历史数据包括画像数据和行为数据，根据画像数据，确定目标用户的画像特征之间的关联关系，根据行为数据，确定目标用户的行为之间的时序关系，根据关联关系及时序关系，预测目标用户对应各属性的概率值，基于概率值，预测目标用户的目标属性。由于本申请在预测目标用户的目标属性时，能够结合目标用户的画像数据和行为数据，根据画像数据获得的画像特征之间的关联关系以及根据行为数据获得的行为之间的时序关系，预测目标用户对应各属性的概率值，与基于专家经验通过人工对金融风险进行预测的方式相比，效率更高，且能够更加准确地预测目标用户的目标属性 (即金融风险)。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的确定风险用户的流程图；

图2为本申请一实施例提供的应用场景示意图；

图3为本申请一实施例提供的信息处理方法的流程图；

图4为本申请另一实施例提供的信息处理方法的流程图；

图5为本申请一实施例提供的对目标用户各时刻对应的行为数据进行独热编码的示意图；

图6为本申请一实施例提供的传统的深广模型的示意图；

图7为本申请一实施例提供的改进的深广模型的示意图；

图8为本申请一实施例提供的组合预测模型的训练方法的流程图；

图9为本申请一实施例提供的通过组合预测模型预测用户风险的示意图；

图10为本申请一实施例提供的信息处理装置的结构示意图；

图11为本申请一实施例提供的组合预测模型的训练装置的结构示意图；

图12为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请涉及的部分技术术语进行解释说明：

交易流水数据，即用户的银行卡消费、转账、入账记录等。

历史行为数据，即用户的理财行为、大额转账行为、贷款行为、信用卡消费、逾期行为等。

用户行为建模，即对于复杂的用户行为(操作行为，交易行为)进行抽象表达的过程。

时间序列特征，即对于历史交易数据这一类具有时间顺序性的数据提取到的与时间相关的特征，表现为一个特征序列(token)。

多标签分类，即对于目标集同时标注多个标签，可以提高分类或预测模型的准确率。

面对互联网金融业务中的潜在风险，金融审计突出风险审计已是大势所趋。它将审计力量着重放在高风险领域，力求规避审计风险。预测金融审计中的风险事项，加强对重点金融机构审计监督，防范和化解金融风险，对于提高金融治理水平、维护国家金融安全具有重要的作用。风险审计需要通过海量的用户历史数据(比如用户基本信息、交易流水数据、历史行为数据等) 识别潜在的具有风险嫌疑的用户。

随着银行业的发展壮大，在银行内外有着各种部门机构对银行内部员工和外部用户进行金融审计。金融风险审计将过去的以贷款风险审计为主扩大到经营风险、市场风险、盈利风险和政策风险等更多领域的全面风险审计，主要关注重大和可疑金融业务，避免审计人员陷于大量繁杂的金融业务而失去审计目标。对金融风险进行系统的分析和评价，主要分析外部环境因素对内部控制的影响，将发觉风险的时点提前到事件发生之前，是减少风险事件发生概率、维系银行健康发展的重要课题。图1为本申请一实施例提供的确定风险用户的流程图。如图1所示，用户A在某银行开户一张储蓄卡后，会在该账户信息中存储申办人的个人信息和账户信息。银行会在用户A对该账户进行每一次交易时，将交易的信息存储在交易流水表中。用户A在某项网络活动平台会绑定交易账号，并参与该项网络活动，会根据该项网络活动进行转账行为，在交易明细表留下交易记录。审计人员根据用户A的账户交易明细的特征(比如：快入快出、多地转入、零存整取等)，将用户A纳入该项网络活动的高风险名单，并实施现场审计，审计证实用户A涉及该项网络活动。此过程中的用户A即为涉及某项网络活动的金融风险客户，这不仅可能给银行带来名誉风险，还可能给个人的家庭带来永久的伤害。

另外，还有以风险为导向，对业务庞杂、数据众多的金融企业进行的金融创新审计，对于金融审计者来说任务艰巨。金融创新审计的重点是审查高度复杂和投机性强的交易及表外业务等创新业务，目的是为防范和化解由金融创新所带来的各种金融风险服务。金融创新审计从事后间断性审计向全过程在线持续审计转变。在日新月异的互联网金融背景下的金融创新审计需要调整审计对象，将网络平台的审计纳入审计范围，降低区块链金融的风险，不断满足互联网金融业务规制的要求。

目前银行审计工作中，对于预测风险的方案主要为：长期观测某类型的风险事项，以专家经验的工作方式对风险事项进行预测。这种方案的流程大致可以分为三个步骤：风险线索获取、专家审计和形成预测模型。其中，风险线索获取是指，从原始数据中，根据特定风险事项的特征进行编模获取，例如：要获取“在个人贷款一个月内，将贷款资金流入股市”的风险线索，将交易明细数据和个贷借款凭证基础表进行连表比对，得到风险线索数据。专家审计阶段是指，某一审计人员在常年对于特定几个风险事项审计，会知晓对于特定人群，发生此类风险的可能性非常高，例如：对于“在个人贷款一个月内，将贷款资金流入股市”，男性人数大于女性人数，年龄集中分布在 40岁左右。最后，对于效果优异的关联方法建立预测模型，例如：某审计平台会按月运算“信用卡逾期超过5天的机构和用户名单”作为用户黑名单之一，常年储备和使用。上述专家经验法基于专家的先验知识，根据经验做出判断。这种人工标注的方法在数据量巨大的情景下费时费力，需要消耗巨大的人力成本和时间成本，且这种方法由于带有较强的主观性，且在数据量巨大的情况下难以发现隐藏的风险预测影响因素，对于未确定原因的风险类别难以做出准确地识别和预测。对于专家经验的方式而言，只能从表面的数据进行总结，例如：个人信息、资金流水信息等，无法全方位根据用户行为信息，对风险线索发生概率进行总结。

还可以基于传统机器学习方法构建模型进行风险预测。这种方法通常包括数据处理，模型构建，模型优化和结果预测几个部分。数据处理包括两个部分，根据用户数据计算特征以及对历史数据进行标注(此处指标注为哪类风险)。模型构建则是根据不同的机器学习算法(支持向量机、朴素贝叶斯等) 构建模型，模型优化则是根据原始标注过的数据划分为训练集和验证集来训练模型，最后是优化模型，优化模型的参数，得到最终预测准确率最高的模型，并使用该模型进行结果预测。对于基于传统机器学习算法构建模型的预测方法而言，存在以下问题：(1)特征也需要人工计算，缺乏先验知识难以提出具有代表性的特征；(2)在处理大数据问题时，算法的复杂性和计算能力不够，不适用于大数据场景；(3)无法贴合正常的用户交易情境，由于没有考虑到银行用户行为的连续性和行为发生的场景，所以构建出来的模型往往难以准确预测用户风险；(4)忽视了用户的特性，即用户的个性对于其行为和最终风险产生带来的影响，不同性别，不同年龄，不同背景，不同职业，不同经济实力的人肯定具有不同的风险。

基于上述问题，本申请提供一种信息处理方法、装置、设备及存储介质，通过用户的历史行为形成用户基于时间顺序的行为链(即行为序列)，根据用户的带有时间特征的行为序列和带有个性化特征的用户基本信息数据构建风险预测模型，从而更加准确地预测用户风险。

以下，首先对本申请提供的方案的应用场景进行示例说明。

图2为本申请一实施例提供的应用场景示意图。如图2所示，本应用场景中，客户端210向服务器220发起针对一用户的金融风险预测请求，服务器220对该用户进行金融风险预测。其中，服务器220对该用户进行金融风险预测的具体实现过程可以参见下述各实施例的方案。

需要说明的是，图2仅是本申请实施例提供的一种应用场景的示意图，本申请实施例不对图2中包括的设备进行限定，也不对图2中设备之间的位置关系进行限定。例如，在图2所示的应用场景中，还可以包括数据存储设备，该数据存储设备相对客户端210或者服务器备220可以是外部存储器，也可以是集成在客户端210或者服务器220中的内部存储器。

接下来，通过具体实施例介绍信息处理方法。

图3为本申请一实施例提供的信息处理方法的流程图。本申请实施例的方法可以应用于电子设备中，该电子设备可以是服务器或服务器集群等。如图3所示，本申请实施例的方法包括：

S301、获取目标用户的历史数据，历史数据包括画像数据和行为数据。

本申请实施例中，示例性地，可以获取目标用户一段时间内的历史数据，比如获取目标用户近10年的历史数据。该历史数据包括目标用户的行为数据，该行为数据比如为目标用户的历史交易明细数据、资金流水数据和系统交互行为数据等，其中，历史交易明细数据比如为目标用户的银行卡消费、转账、入账记录等。该历史数据包括目标用户的画像数据，该画像数据比如为目标用户的性别信息、年龄信息、资金持有信息和用户购买理财产品信息等。

S302、根据画像数据，确定目标用户的画像特征之间的关联关系。

该步骤中，在获得了目标用户的画像数据后，可以根据该画像数据，确定目标用户的画像特征之间的关联关系。对于如何确定目标用户的画像特征之间的关联关系，可参考相关技术或者后续实施例，此处不再赘述。

S303、根据行为数据，确定目标用户的行为之间的时序关系。

该步骤中，在获得了目标用户的行为数据后，可以根据该行为数据，确定目标用户的行为之间的时序关系。对于如何确定目标用户的行为之间的时序关系，可参考相关技术或者后续实施例，此处不再赘述。

S304、根据关联关系及时序关系，预测目标用户对应各属性的概率值。

在获得了目标用户的关联关系及时序关系后，可以根据该关联关系及该时序关系，预测目标用户对应各属性的概率值。可以理解，预测目标用户对应各属性的概率值即为预测目标用户对应各种风险的概率值。示例性地，预测目标用户对应信用卡逾期风险的概率值、涉及某项网络活动的风险概率值等。可以根据关联关系及时序关系，预测目标用户对应一种风险的概率值，也可以预测目标用户对应多种风险的概率值，即同时获得目标用户对应多种风险的概率值。对于如何预测目标用户对应各属性的概率值，可参考相关技术或者后续实施例，此处不再赘述。

S305、基于概率值，预测目标用户的目标属性。

在获得了目标用户对应各属性的概率值后，可以基于各属性的概率值，预测目标用户的目标属性，比如可以基于目标用户产生各种风险的概率，预测目标用户可能产生哪几类风险。示例性地，获得了目标用户对应信用卡逾期风险的概率值比如为93.5％、涉及某项网络活动的风险概率值比如为4.1％，则可以预测目标用户为信用卡逾期风险用户，目标用户不为涉及某项网络活动的风险用户。

本申请实施例提供的信息处理方法，通过获取目标用户的历史数据，历史数据包括画像数据和行为数据，根据画像数据，确定目标用户的画像特征之间的关联关系，根据行为数据，确定目标用户的行为之间的时序关系，根据关联关系及时序关系，预测目标用户对应各属性的概率值，基于概率值，预测目标用户的目标属性。由于本申请实施例在预测目标用户的目标属性时，能够结合目标用户的画像数据和行为数据，根据画像数据获得的画像特征之间的关联关系以及根据行为数据获得的行为之间的时序关系，预测目标用户对应各属性的概率值，与基于专家经验通过人工对金融风险进行预测的方式相比，效率更高，且能够更加准确地预测目标用户的目标属性(即金融风险)。

图4为本申请另一实施例提供的信息处理方法的流程图。在上述实施例的基础上，本申请实施例对如何进行信息处理进行进一步说明。如图4所示，本申请实施例的方法可以包括：

S401、获取目标用户的历史数据，历史数据包括画像数据和行为数据。

该步骤的具体描述可以参见图3所示实施例中S301的相关描述，此处不再赘述。

本申请实施例中，图3中S302步骤可以进一步细化为如下所述的S402 至S403两个步骤：

S402、根据画像数据，生成目标用户的画像特征集。

在获得了目标用户的画像数据后，可以根据该画像数据，生成目标用户的画像特征集(即个性特征集)。示例性地，用户画像数据基本都是离散值，使用向量进行表示即可。例如，画像数据为目标用户的性别信息，该性别信息分为、男女，分别使用0、1进行表示；画像数据为目标用户的年龄信息，则可以用不同的年龄范围区间进行表示。因此，可以根据画像数据，生成目标用户的画像特征集。

S403、将画像特征集输入至组合预测模型包括的关联关系模型，确定目标用户的画像特征之间的关联关系。

其中，关联关系模型用于反映用户的画像特征间的关联关系。

该步骤中，可以理解，组合预测模型为预先训练好的模型，组合预测模型包括关联关系模型。组合预测模型可以理解为深广模型，组合预测模型包括的关联关系模型可以理解为深广模型包括的广度模型，该广度模型反映了用户的画像特征间的关联关系。该广度模型可以为预先训练好的任何一类可以实现记忆机制的传统机器学习算法模型，比如为线性模型(Linear)、朴素贝叶斯、支持向量机(Support Vector Machine，SVM)、多层感知机等。当广度模型选用线性模型时，该线性模型表示为y＝Wx+b，其中，W为权重，x 为输入，b为偏置量，y为模型的输出。该步骤中，在获得了目标用户的画像特征集后，将画像特征集输入至组合预测模型包括的关联关系模型，可以确定目标用户的画像特征之间的关联关系。可选的，该关联关系表现为概率值。示例性地，将画像特征集(比如包括目标用户的性别、年龄等)输入至广度模型(比如为SVM)，则可以确定目标用户对应信用卡逾期风险的概率值比如为90％、涉及某项网络活动的风险概率值比如为2％。

本申请实施例中，图3中S303步骤可以进一步细化为如下所述的S404 至S406三个步骤：

S404、确定目标用户在各时刻对应的行为数据。

在获得了目标用户的行为数据后，可以确定目标用户在各时刻对应的行为数据。示例性地，可以确定目标用户在比如一个月内对应的行为数据，该行为数据比如为用户是否发生过信用卡逾期的行为、用户是否参与过某项网络活动的行为等。

S405、针对每一时刻对应的行为数据进行独热编码，生成目标用户的行为特征集。

该步骤中的独热(One-Hot)编码，又称为一位有效编码，主要是采用K 位状态寄存器来对K个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值，然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，根据不同分类值标记为1。例如，红黄蓝三种颜色，使用One-Hot编码即为红(001)，绿(010)，蓝(100)。该步骤中，在确定了目标用户在各时刻对应的行为数据后，可以针对每一时刻对应的行为数据进行独热编码，生成目标用户的行为特征集(即时序行为特征集)。具体地，根据目标用户在各时刻对应的行为数据构建出目标用户的时序行为，并提取对应目标用户的时序行为的特征表示，即将目标用户的典型行为按照时间序列展开，然后根据该行为的发生与否使用One-Hot进行编码，得到N位的代码表示。示例性地，图5为本申请一实施例提供的对目标用户各时刻对应的行为数据进行独热编码的示意图。如图5所示，在时间T₀至T_N-1范围内，对应每一个时间，比如时间T₀，预设了不同的用户行为，如图5中的用户行为1至用户行为M的用户行为链，判断目标用户是否出现用户行为1至用户行为M中的用户行为，比如目标用户出现了用户行为1，则对应One-Hot编码的最右边一位为1，其余各位均为0。通过上述方式，可以对T₀至T_N-1中每一时间对应的行为数据进行独热编码，生成目标用户的行为特征集。

S406、根据行为特征集，确定目标用户的行为之间的时序关系。

在获得了目标用户的行为特征集后，可以根据该行为特征集，确定目标用户的行为之间的时序关系。

进一步地，根据行为特征集，确定目标用户的行为之间的时序关系，可以包括：将行为特征集输入至组合预测模型包括的时序关系模型，确定目标用户的行为之间的时序关系，时序关系模型用于反映用户在不同时刻的行为之间的时序关系。

可以理解，组合预测模型为预先训练好的模型，组合预测模型包括时序关系模型。组合预测模型可以理解为深广模型，组合预测模型包括的时序关系模型可以理解为深广模型包括的深度模型，该深度模型反映了用户在不同时刻的行为之间的时序关系。该深度模型可以为循环神经网络(Recurrent Neural Network，RNN)，这里的RNN表示一类通过加入循环层实现深度模型的记忆机制的网络模型，比如为长短期记忆网络(Long Short-Term Memory， LSTM)、门控循环单元(Gated Recurrent Unit，GRU)、双向循环神经网络(Bidirectional-Recurrent Neural Network，Bi-RNN)、双向长短期记忆网络(Bidirectional-Long Short-Term Memory，Bi-LSTM)、基于注意力机制的循环神经网络等。在获得了目标用户的行为特征集后，可以将行为特征集输入至组合预测模型包括的时序关系模型，确定目标用户的行为之间的时序关系。可选的，该时序关系表现为概率值。示例性地，深度模型为RNN，将图5所示的目标用户的行为特征集输入至深度模型RNN，则可以确定目标用户对应信用卡逾期风险的概率值比如为95％、涉及某项网络活动的风险概率值比如为5％。

本申请实施例中，图3中S304步骤可以进一步细化为如下所述的S407 步骤：

S407、将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各属性的概率值。

在获得了目标用户的画像特征之间的关联关系以及目标用户的行为之间的时序关系后，可以将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各属性的概率值。示例性地，关联关系包含的概率值有：目标用户对应信用卡逾期风险的概率值比如为90％、涉及某项网络活动的风险概率值比如为2％，时序关系包含的概率值有：目标用户对应信用卡逾期风险的概率值比如为95％、涉及某项网络活动的风险概率值比如为 5％。将目标用户对应信用卡逾期风险的两个概率值90％和95％按照3:7的比例进行加权，可以获得目标用户对应信用卡逾期风险的概率值为93.5％。将目标用户对应涉及某项网络活动风险的两个概率值2％和5％按照3:7的比例进行加权，可以获得目标用户对应涉及某项网络活动风险的概率值为4.1％。

S408、基于概率值，预测目标用户的目标属性。

本申请实施例提供的信息处理方法，通过获取目标用户的历史数据，历史数据包括画像数据和行为数据，根据画像数据，生成目标用户的画像特征集，将画像特征集输入至组合预测模型包括的关联关系模型，确定目标用户的画像特征之间的关联关系，确定目标用户在各时刻对应的行为数据，针对每一时刻对应的行为数据进行独热编码，生成目标用户的行为特征集，根据行为特征集，确定目标用户的行为之间的时序关系，将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各属性的概率值，基于概率值，预测目标用户的目标属性。由于本申请实施例在预测目标用户的目标属性时，根据关联关系模型确定目标用户的画像特征之间的关联关系，根据时序关系模型确定目标用户的行为之间的时序关系，将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各属性的概率值，与基于专家经验通过人工对金融风险进行预测的方式相比，效率更高，且能够更加准确地预测目标用户的目标属性(即金融风险)。

图6为本申请一实施例提供的传统的深广模型的示意图，如图6所示，传统的深广模型包括线性模型(可以理解为广度模型)、深度神经网络(可以理解为深度模型)，其中，深度神经网络包括隐藏层，该深广模型的具体实现可以参见相关技术，此处不再赘述。

图7为本申请一实施例提供的改进的深广模型的示意图，如图7所示，该改进的深广模型包括支持向量机(即广度模型)、循环神经网络(即深度模型)，其中，具体地，根据提取到的特征个数可以确定输入神经元的个数和隐藏层的层数，根据需要预测的风险类别可以确定输出神经元的个数，即可得到循环神经网络的结构。通过循环神经网络的循环层，使得深度模型不仅具有泛化能力，还具有记忆能力，可以根据历史数据进行预测。图7所示的改进的深广模型即为本申请上述实施例中的组合预测模型，将目标用户的画像特征集(即个性特征1至个性特征n)输入至支持向量机，将目标用户的行为特征集(即时序行为特征集)输入至循环神经网络，经过S型函数(即sigmoid 函数)输出目标用户对应各风险类别(即风险类别1至风险类别m)的概率值。

图8为本申请一实施例提供的组合预测模型的训练方法的流程图。在上述实施例的基础上，本申请实施例对如何训练获得组合预测模型进行说明。

如图8所示，本申请实施例的方法包括：

S801、获取样本数据，样本数据包括多个抽样用户的画像数据和行为数据。

示例性地，可以选取比如近10年(也可为其他粒度)风险审计用户的历史数据做为样本数据，样本数据包括多个抽样用户的画像数据和行为数据。采用比如十重交叉验证(也可以为五重交叉验证或者其他多重交叉验证，本申请不以此为限制)将样本数据划分为训练集、测试集和验证集三部分，使用训练集的数据训练模型，其中，使用比如网格搜索的方法对模型参数进行调优；使用测试集的数据测试模型；使用验证集的数据验证模型。

针对每一抽样用户，执行以下步骤S802至S808：

S802、根据抽样用户的画像数据，生成画像特征集。

在获得了抽样用户的画像数据后，可以根据抽样用户的画像数据，生成画像特征集。具体生成画像特征集的方式可以参见图4所示实施例中S402的相关描述，此处不再赘述。

S803、根据抽样用户的行为数据，生成行为特征集。

在获得了抽样用户的行为数据后，可以根据抽样用户的行为数据，生成行为特征集。

进一步地，根据抽样用户的行为数据，生成行为特征集，可以包括：确定抽样用户在各时刻对应的行为数据；针对每一时刻对应的行为数据进行独热编码，生成抽样用户的行为特征集。

示例性地，可以确定目标用户在比如一个月内对应的行为数据。具体针对每一时刻对应的行为数据进行独热编码，生成抽样用户的行为特征集的方式可以参见图4所示实施例中S405的相关描述，此处不再赘述。

S804、将画像特征集输入关联关系模型，得到抽样用户的画像特征之间的关联关系。

示例性地，关联关系模型为图7所示的支持向量机，在获得了抽样用户的画像特征集后，将该画像特征集输入支持向量机，得到抽样用户的画像特征之间的关联关系。

S805、将行为特征集输入时序关系模型，得到抽样用户的行为之间的时序关系。

示例性地，时序关系模型为图7所示的循环神经网络，在获得了抽样用户的行为特征集后，将该行为特征集输入循环神经网络，得到抽样用户的行为之间的时序关系。

S806、将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测抽样用户对应各属性的概率值。

在获得了抽样用户的画像特征之间的关联关系以及抽样用户的行为之间的时序关系后，可以将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测抽样用户对应各属性的概率值。具体可以参见图4所示实施例中S407的相关描述，此处不再赘述。

S807、根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识，调整初始组合预测模型的模型参数。

示例性地，抽样用户对应的属性标识可以理解为抽样用户对应的风险标识，该风险标识是通过以下方式获得的：将抽样用户的样本数据进行打标，即：首先确定时间粒度，如图5所示的T₀，T₀比如可以表示一个月的时间，那么根据抽样用户对应的预测风险类别对抽样用户的样本数据进行打标，比如T₀时间对于风险类别1至风险类别m，出现了风险类别1、风险类别2和风险类别m，则对应的风险标识(即标签)为1100...1；然后确定时间范围，如图5所示的T₀至T_N-1，可以从T₀到T_N-1分别将抽样用户的样本数据进行打标，获得对应每一个时间的风险标识。在获得了抽样用户对应各属性的概率值以及抽样用户对应的属性标识后，可以调整初始组合预测模型的模型参数，具体参数调优的方式比如为网格搜索。

S808、判断初始组合预测模型的损失值是否小于或等于预设损失值。

示例性地，初始组合预测模型使用的损失函数为logistic损失函数。在基于抽样用户对应各属性的概率值以及抽样用户对应的属性标识，对初始组合预测模型的模型参数进行调整时，判断初始组合预测模型的损失值是否小于或等于预设损失值。示例性地，通过反向传播算法(Back Propagation Through Time，BPTT)判断初始组合预测模型的损失值是否小于或等于预设损失值，即获得的预测准确率是否趋于稳定，当预测准确率越来越稳定，保持在一个较高点上下波动即为收敛了。具体通过BPTT实现初始组合预测模型收敛的方式可以参见相关技术，此处不再赘述。

若初始组合预测模型的损失值小于或等于预设损失值，则执行步骤S809；若初始组合预测模型的损失值大于预设损失值，则针对下一个抽样用户执行步骤S802至S808。

S809、得到组合预测模型。

若初始组合预测模型的损失值大于预设损失值，则表示组合预测模型收敛了，进而得到预测效果最优的参数配置和和该配置下的组合预测模型。

本申请实施例提供的组合预测模型的训练方法，由于结合了关联关系模型和时序关系模型对目标用户的目标属性进行预测，因此，能够更加准确地预测目标用户的目标属性。

图9为本申请一实施例提供的通过组合预测模型预测用户风险的示意图，如图9所示，首先，获取目标用户的历史数据(即用户数据)，用户数据包括用户画像数据和用户行为数据(即时间序列数据)。根据用户画像数据，生成目标用户的画像特征集(即用户个性特征集)，将目标用户个性特征集输入至改进的深广模型(如图7所示的改进的深广模型)包括的广度模型(比如为支持向量机)，确定目标用户的画像特征之间的关联关系。根据目标用户的时间序列数据，进行行为建模，即将用户典型风险行为(比如理财产品购买行为等)按照时间序列展开，得到用户行为序列，然后根据该行为的发生与否使用One-Hot进行编码，得到目标用户行为编码表示，该目标用户行为编码表示即为目标用户的行为特征集，也是包含时序特征的目标用户行为矩阵。将目标用户行为矩阵输入至改进的深广模型(如图7所示的改进的深广模型) 包括的深度模型(比如为循环神经网络)，确定目标用户的行为之间的时序关系。将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各风险(需要说明的是，具体的风险类别和用户典型风险行为一一对应)的概率值，基于该概率值，预测目标用户的可能产生哪几类风险，比如目标用户为理财产品购买风险用户。

综上，本申请提供的技术方案，至少具有如下优势：

(1)能够对用户行为进行合理的特征抽取和表示，通过分别抽取用户的画像信息(个性特征)和历史交易信息(时序特征)构建用户完整的行为情境。

(2)提供了一种自动预测用户风险的方法。通过将深度模型加入循环机制，可以确保对于交易信息的记忆性，通过多标签分类预测方法改进原有模型只能预测某一种风险出现与否的特性，实现对多种风险是否同时出现，及出现概率的预测。

(3)可以发掘风险预测结果的隐含关系，分析用户风险的可能影响因素，提炼作为专家经验并改进现有的预测方法。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图10为本申请一实施例提供的信息处理装置的结构示意图，如图10所示，本申请实施例的信息处理装置1000包括：获取模块1001、第一确定模块1002、第二确定模块1003、第一预测模块1004和第二预测模块1005。其中：

获取模块1001，用于获取目标用户的历史数据，历史数据包括画像数据和行为数据。

第一确定模块1002，用于根据画像数据，确定目标用户的画像特征之间的关联关系。

第二确定模块1003，用于根据行为数据，确定目标用户的行为之间的时序关系。

第一预测模块1004，用于根据关联关系及时序关系，预测目标用户对应各属性的概率值。

第二预测模块1005，用于基于概率值，预测目标用户的目标属性。

在一些实施例中，第二确定模块1003可以具体用于：确定目标用户在各时刻对应的行为数据；针对每一时刻对应的行为数据进行独热编码，生成目标用户的行为特征集；根据行为特征集，确定目标用户的行为之间的时序关系。

可选的，第二确定模块1003可以具体用于：将行为特征集输入至组合预测模型包括的时序关系模型，确定目标用户的行为之间的时序关系，时序关系模型用于反映用户在不同时刻的行为之间的时序关系。

在一些实施例中，第一确定模块1002可以具体用于：根据画像数据，生成目标用户的画像特征集；将画像特征集输入至组合预测模型包括的关联关系模型，确定目标用户的画像特征之间的关联关系，关联关系模型用于反映用户的画像特征间的关联关系。

可选的，第一预测模块1004可以具体用于：将关联关系包含的概率值和时序关系包含的概率值进行加权处理，预测目标用户对应各属性的概率值。

本申请实施例的装置，可以用于执行上述任一方法实施例中信息处理方法的方案，其实现原理和技术效果类似，此处不再赘述。

图11为本申请一实施例提供的组合预测模型的训练装置的结构示意图，组合预测模型包括时序关系模型和关联关系模型。如图11所示，本申请实施例的组合预测模型的训练装置1100包括：获取模块1101和训练模块1102。

其中：

获取模块1101，用于获取样本数据，样本数据包括多个抽样用户的画像数据和行为数据。

训练模块1102，用于针对每一抽样用户，执行以下操作：

根据抽样用户的画像数据，生成画像特征集；

根据抽样用户的行为数据，生成行为特征集；

在一些实施例中，训练模块1102可以具体用于：确定抽样用户在各时刻对应的行为数据；针对每一时刻对应的行为数据进行独热编码，生成抽样用户的行为特征集。

本申请实施例的装置，可以用于执行上述任一方法实施例中组合预测模型的训练方法的方案，其实现原理和技术效果类似，此处不再赘述。

图12为本申请一实施例提供的电子设备的结构示意图。示例性地，电子设备可以被提供为一服务器或计算机。参照图12，电子设备1200包括处理组件1201，其进一步包括一个或多个处理器，以及由存储器1202所代表的存储器资源，用于存储可由处理组件1201的执行的指令，例如应用程序。存储器1202中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1201被配置为执行指令，以执行上述任一方法实施例。

电子设备1200还可以包括一个电源组件1203被配置为执行电子设备 1200的电源管理，一个有线或无线网络接口1204被配置为将电子设备1200 连接到网络，和一个输入输出(I/O)接口1205。电子设备1200可以操作基于存储在存储器1202的操作系统，例如Windows ServerTM，Mac OS XTM， UnixTM,LinuxTM，FreeBSDTM或类似。

本申请还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现如上信息处理方法的方案。

本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上的信息处理方法的方案。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器 (SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路 (Application SpecificIntegrated Circuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于信息处理装置中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种信息处理方法，其特征在于，包括：

获取目标用户的历史数据，所述历史数据包括画像数据和行为数据；

根据所述画像数据，确定所述目标用户的画像特征之间的关联关系；

根据所述行为数据，确定所述目标用户的行为之间的时序关系；

根据所述关联关系及所述时序关系，预测所述目标用户对应各属性的概率值；

基于所述概率值，预测所述目标用户的目标属性。

2.根据权利要求1所述的信息处理方法，其特征在于，所述根据所述行为数据，确定所述目标用户的行为之间的时序关系，包括：

确定所述目标用户在各时刻对应的行为数据；

针对每一时刻对应的行为数据进行独热编码，生成所述目标用户的行为特征集；

根据所述行为特征集，确定所述目标用户的行为之间的时序关系。

3.根据权利要求2所述的信息处理方法，其特征在于，所述根据所述行为特征集，确定所述目标用户的行为之间的时序关系，包括：

将所述行为特征集输入至组合预测模型包括的时序关系模型，确定所述目标用户的行为之间的时序关系，所述时序关系模型用于反映用户在不同时刻的行为之间的时序关系。

4.根据权利要求1所述的信息处理方法，其特征在于，所述根据所述画像数据，确定所述目标用户的画像特征之间的关联关系，包括：

根据所述画像数据，生成所述目标用户的画像特征集；

将所述画像特征集输入至组合预测模型包括的关联关系模型，确定所述目标用户的画像特征之间的关联关系，所述关联关系模型用于反映用户的画像特征间的关联关系。

5.根据权利要求1至4中任一项所述的信息处理方法，其特征在于，所述关联关系和所述时序关系均表现为概率值，所述根据所述关联关系及所述时序关系，预测所述目标用户对应各属性的概率值，包括：

将所述关联关系包含的概率值和所述时序关系包含的概率值进行加权处理，预测所述目标用户对应各属性的概率值。

6.一种组合预测模型的训练方法，其特征在于，所述组合预测模型包括时序关系模型和关联关系模型，所述训练方法包括：

获取样本数据，所述样本数据包括多个抽样用户的画像数据和行为数据；

针对每一抽样用户，执行以下操作：

根据抽样用户的画像数据，生成画像特征集；

根据抽样用户的行为数据，生成行为特征集；

将所述画像特征集输入所述关联关系模型，得到抽样用户的画像特征之间的关联关系；

将所述行为特征集输入所述时序关系模型，得到抽样用户的行为之间的时序关系；

将所述关联关系包含的概率值和所述时序关系包含的概率值进行加权处理，预测抽样用户对应各属性的概率值；

根据抽样用户对应各属性的概率值以及抽样用户对应的属性标识，调整初始组合预测模型的模型参数，直至所述初始组合预测模型的损失值小于或等于预设损失值，得到所述组合预测模型。

7.根据权利要求6所述的组合预测模型的训练方法，其特征在于，所述根据抽样用户的行为数据，生成行为特征集，包括：

确定抽样用户在各时刻对应的行为数据；

针对每一时刻对应的行为数据进行独热编码，生成抽样用户的行为特征集。

8.一种信息处理装置，其特征在于，包括：

获取模块，用于获取目标用户的历史数据，所述历史数据包括画像数据和行为数据；

第一确定模块，用于根据所述画像数据，确定所述目标用户的画像特征之间的关联关系；

第二确定模块，用于根据所述行为数据，确定所述目标用户的行为之间的时序关系；

第一预测模块，用于根据所述关联关系及所述时序关系，预测所述目标用户对应各属性的概率值；

第二预测模块，用于基于所述概率值，预测所述目标用户的目标属性。

9.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被执行时，实现如权利要求1至7任一项所述的方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。