CN113535800A

CN113535800A - 信贷场景下的特征表示方法、电子设备和存储介质

Info

Publication number: CN113535800A
Application number: CN202110621222.5A
Authority: CN
Inventors: 陈冬雨; 宋万鹏
Original assignee: Tongdun Technology Co ltd; Tongdun Holdings Co Ltd
Current assignee: Tongdun Technology Co ltd; Tongdun Holdings Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-10-22

Abstract

本申请涉及信贷场景下的特征表示方法、电子设备和存储介质，属于机器学习领域，该方法包括：根据日志数据构造多维度的用户行为序列，其中日志数据来自金融机构服务器；对用户行为序列通过Embedding进行向量表征，并形成向量矩阵；将多维度的向量矩阵进行拼接，并通过深度学习模型抽取关键信息；对抽取了关键信息的矩阵采用注意力池化机制进行池化，得到表示的向量特征。因此，通过本申请实施例能够直接从金融机构粒度进行特征表示，相较于行业分类的多头特征，本申请实施例表示的特征粒度更细、信息表达更精准；其次，能够实现特征开发的完全自动化，不仅节约时间成本还极大的提升了开发效率；而且，能充分捕捉用户在金融机构的行为顺序关系信息。

Description

信贷场景下的特征表示方法、电子设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及信贷场景下的特征表示方法、电子设备和存储介质。

背景技术

风控模型是指以用户在规定期限内是否会违约作为预测目标，通过机器学习算法构建的二分类模型，其输出的结果为用户违约的概率。而在训练模型之前，需要将原始数据转变为模型的训练数据，即进行特征的表示。传统的信贷风控建模场景下的用户特征表示方法中，如多头借贷行为(Multi-Loan)类特征(一种描述用户在多家金融机构借贷行为的统计指标，例如，计算得到用户过去30天内在银行行业下有5次申贷行为)，主要通过特征工程对各维度信息如行业分类、事件类型、时间窗口时长等进行交叉统计，以此构建特征。而且，模型开发人员在训练模型前还需要对所有构建的特征进行去冗余、去噪等多轮的人工筛选，最终得到表示的特征，以作为模型的入模特征变量。所以，传统的特征表示方法有以下几个缺点：

(1)特征的开发需要大量时间，尤其是对各类金融机构的打标工作，需要依靠人工对上千家机构进行精细的行业分类，不仅时间成本大，而且效率很低；

(2)特征的细分粒度只能细分到行业分类，在同一个行业分类下的金融机构，无法做进一步的区分；

(3)只能获取相应的交叉统计信息，无法获取用户各个行为之间的顺序关系信息。

相关技术中，针对传统特征表示方法时间成本大、效率低以及获得的特征信息不够精准的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种信贷场景下的特征表示方法、电子设备和存储介质，以至少解决相关技术中特征开发时间成本大、效率低以及获得的特征信息不够精准的问题。

第一方面，本申请实施例提供了一种信贷场景下的特征表示方法，包括：根据日志数据构造多维度的用户行为序列，其中，所述日志数据来自金融机构服务器；对所述用户行为序列通过Embedding进行向量表征，并形成向量矩阵；将多维度的向量矩阵进行拼接，并通过深度学习模型抽取关键信息；对抽取了关键信息的矩阵采用注意力池化(Attentionpooling)机制进行池化，得到表示的向量特征。

在其中一些实施例中，所述的根据日志数据构造多维度的用户行为序列包括：根据日志数据中的事件所属金融机构、事件类型和事件发生时间，构造出三个维度的用户行为序列，所述三个维度的用户行为序列包括金融机构信息、事件类型信息和事件间的时间差信息。

在其中一些实施例中，所述的将多维度的向量矩阵进行拼接包括：将所述金融机构信息表示为向量矩阵(L*D)，所述事件类型信息表示为向量矩阵(L*D)，所述事件间的时间差信息表示为向量矩阵(L*1)，并进行矩阵纵向拼接，其中，L表示长度，D表示维度。

在其中一些实施例中，所述的根据日志数据构造多维度的用户行为序列包括：对预设时间内同一用户在同一金融机构发生的事件所对应的用户行为序列进行去重，并保留发生时间最早的事件所对应的用户行为序列。

在其中一些实施例中，所述的根据日志数据构造多维度的用户行为序列包括：将各维度的用户行为序列对齐至规定长度，若所述用户行为序列长度小于所述规定长度，则用数字标识0补齐；若所述用户行为序列长度大于所述规定长度，则保留所述规定长度的最近发生的事件所对应的用户行为序列。

在其中一些实施例中，所述的通过深度学习模型抽取关键信息包括：将拼接的向量矩阵输入长短期记忆网络模型(可简称为“LSTM模型”，Long Short-Term Memory)以抽取关键信息。

在其中一些实施例中，在由所述Embedding、所述长短期记忆网络模型、所述注意力池化机制和分类器构成综合神经网络模型，且所述分类器用于对所述向量特征进行学习以预测风险结果的情况下，所述方法还包括：所述综合神经网络模型在训练的过程中，通过梯度反向传播，迭代更新所述Embedding、所述长短期记忆网络模型、所述注意力池化机制和所述分类器的参数，直至所述综合神经网络模型收敛。

在其中一些实施例中，所述的对抽取了关键信息的矩阵采用注意力池化机制进行池化，得到表示的向量特征包括：通过注意力机制计算所述用户行为序列中每个事件与当前事件的相似度得分以赋予每个事件不同的权重；对抽取了关键信息的矩阵元素进行加权平均，得到表示的向量特征。

第二方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项所述的方法。

第三方面，本申请实施例提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项所述的方法。

本申请实施例的信贷场景下的特征表示方法包括：根据日志数据构造多维度的用户行为序列，其中，该日志数据来自金融机构服务器；对用户行为序列通过Embedding进行向量表征，并形成向量矩阵；将多维度的向量矩阵进行拼接，并通过深度学习模型抽取关键信息；对抽取了关键信息的矩阵采用注意力池化机制进行池化，得到表示的向量特征。因此，通过本申请实施例能够直接从金融机构粒度进行特征表示，相较于行业分类的多头特征，本申请实施例表示的特征粒度更细、信息表达更精准；其次，能够实现特征开发的完全自动化，不仅节约时间成本还极大的提升了开发效率；而且，能充分捕捉用户在金融机构的行为顺序关系信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的信贷场景下的特征表示方法的流程图；

图2是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请的信贷场景涉及金融机构，具体涉及从事信贷业务的受监管机构监管的银行、持牌消费金融公司等机构。金融机构服务器中的日志数据中每一条记录即为用户在某金融机构的一次行为记录，包含用户id、事件发生时间、金融机构id、以及事件类型等等，该事件类型例如为申贷、注册、登录、绑卡或取款等。

为了解决本申请的技术问题，本申请的发明人发现金融机构服务器中的日志数据所含维度尤其丰富，如每一个用户事件对应的金融机构id、事件类型、事件发生时间等数据特别重要，且该类行为本身具有时间序列的特点。基于此，本申请实施例提出一种信贷场景下的特征表示方法，图1是根据本申请实施例的信贷场景下的特征表示方法的流程图，如图1所示，该方法包括以下步骤：

S100：根据日志数据构造多维度的用户行为序列，其中，该日志数据来自金融机构服务器；

S200：对用户行为序列通过Embedding进行向量表征，并形成向量矩阵；

S300：将多维度的向量矩阵进行拼接，并通过深度学习模型抽取关键信息；

S400：对抽取了关键信息的矩阵采用注意力池化机制进行池化，得到表示的向量特征。

上述Embedding用以表征类别特征信息的N维向量。

通过上述方式，可以直接从金融机构粒度进行特征表示，相较于行业分类的多头特征，本申请实施例能够达到粒度更细、信息表达更精准的有益效果。另外，不仅对特征表示实现完全自动化，提高效率，而且能够充分捕捉用户在金融机构的行为顺序关系信息。

为了对本申请实施例进行更清楚的说明，下文对上述各步骤进行详细的阐述。

步骤S100：根据日志数据构造多维度的用户行为序列，其中，该日志数据来自金融机构服务器。

该步骤主要用于对原始数据的预处理，例如，从金融机构服务器中获取日志数据，再从日志数据中选取最具有代表性的三个用户行为维度，包括事件所属金融机构、事件类型以及事件发生时间。然后，按时间先后顺序排序，构造出每个用户的行为序列，各维度的用户行为序列形式如下：

金融机构信息：[机构1,机构2,机构3，……，机构n]；

事件类型信息：[事件1,事件2,事件3，……，事件n]；

事件间的时间差信息：[时间差1,时间差2,时间差3，……，时间差n]。

需要说明的是，在事件发生时间的维度上，本申请实施例使用用户两两事件间的时间差以表达用户的行为频繁程度。

考虑到由于部分金融机构同一天内对同一用户进行大量频繁查询，所以该部分金融机构产生大量的重复数据会致使用户行为序列失真。为了确保用户行为序列更真实地反应事件的频繁程度以及事件所属金融机构的先后顺序，需要对预设时间内同一用户在同一金融机构发生的事件所对应的用户行为序列进行去重，并保留发生时间最早的事件所对应的用户行为序列。例如，对一天内同一用户在同一机构的行为记录进行去重，仅保留发生时间最早的记录。

接着，对金融机构信息与事件类型信息进行编码，将其从字符串类型的文字内容映射成数字标识，例如，该数字标识从1开始编码。

优选的，将各维度的用户行为序列对齐至规定长度L(一个整数)，对于小于L的用户行为序列，补充数字标识0(数字标识0在后续各步骤中将不参与计算)；而对于大于L的用户行为序列，考虑到用户近期的行为更能反应其当前的状态，所以保留序列中最近的L次行为，即，保留规定长度L的最近发生的事件所对应的用户行为序列。

步骤S200：对用户行为序列通过Embedding进行向量表征，并形成向量矩阵。

该步骤主要用于特征构建，例如，金融机构以及事件类型的数字标识都以其对应的维度D(一个整数)进行向量表征，每个用户的各维度序列即为一个(L*D)的向量矩阵，所以得到金融机构的向量矩阵(L*D)、事件类型的向量矩阵(L*D)、事件间的时间差的向量矩阵(L*1)。

步骤S300：将多维度的向量矩阵进行拼接，并通过深度学习模型抽取关键信息。

根据本申请实施例的向量矩阵，通过纵向能够比较事件的历史及现状，因此，将上述金融机构的向量矩阵(L*D)、事件类型的向量矩阵(L*D)和事件间的时间差的向量矩阵(L*1)进行纵向拼接。然后，将拼接的向量矩阵作为深度学习模型的输入。

作为一个示例，上述深度学习模型为长短期记忆网络模型，主要通过三个阶段实现对用户行为序列进行关键信息抽取：

(1)遗忘阶段：在用户的行为序列t时刻，LSTM模型会选择性遗忘t-1时刻所传来的非重要信息；

(2)记忆阶段：LSTM模型会选择性地记忆t时刻的重要行为信息输入；

接着，LSTM模型将以上两个阶段的结果相加后，传递给t+1时刻；

(3)输出阶段：LSTM模型会输出当前t时刻的结果。

运用以上三个阶段，LSTM模型从用户行为序列的初时刻至末时刻，都会记忆所有历史重要信息并输出。

步骤S400：对抽取了关键信息的矩阵采用注意力池化机制进行池化，得到表示的向量特征。

本申请实施例的Attention pooling与其他池化方法不同，一般的方法认为用户历史行为序列中每一次行为所占重要度是相同的，而本申请实施例的Attention pooling运用注意力机制计算用户行为序列中每个事件与当前事件的相似度得分，以此赋予每个事件不同的权重，再对抽取了关键信息的矩阵元素进行加权平均，实现了加权融合的池化效果，使得整个特征表达更能体现用户的重要行为信息。

因此，相对于传统特征的开发需要大量时间，尤其是需要人工对上千家金融机构的行业细分打标，且传统特征只能细分到行业分类，在同一个行业分类下的金融机构无法做进一步的区分。本申请实施例基于用户行为序列的向量特征表示方法，直接从金融机构粒度进行特征表示，并随深度学习模型一同迭代优化，粒度更细、信息更精准。

另外，传统特征只是各维度的交叉统计信息，无法捕捉获取用户各个行为之间的顺序关系信息。而本申请实施例能通过深度学习模型充分捕捉用户在各个金融机构的行为关系信息。

进一步的，本申请实施例可以由Embedding、长短期记忆网络模型、注意力池化机制和分类器构成综合神经网络模型，其中分类器用于对向量特征进行学习以预测风险结果。从而，综合神经网络模型在训练的过程中，通过梯度反向传播，迭代更新Embedding、长短期记忆网络模型、注意力池化机制和分类器的参数，直至综合神经网络模型收敛。需要说明的是，本领域技术人员可以知晓梯度反向传播的技术手段，故此部分不做赘述。

因此，用于对金融机构、事件类型和事件间的时间差各维度信息进行向量表征的Embedding、LSTM模型以及Attention pooling中的参数在初始化时随机生成，而后在综合神经网络模型的训练过程中更新参数值。

作为一个示例，上述分类器由多个深度学习全连接层构成，从而能够预测用户的信贷违约风险。具体的，将全连接层部分定义为h∈R^p，映射公式如下：

h＝α(ωx+b)

其中，x为上述用户的行为序列表达，α为激活函数，在本发明中所使用的是ReLu激活函数；ω是权重矩阵；b为偏置。本发明实施例使用了两层全连接，分别为512与256维。接着模型连接维度为1的输出层，具体可表示为：

其中，h为上述分类器的输出结果，σ为sigmoid激活函数，其将最终结果映射在(0,1)之间。最终得到的P，即为模型对用户做出的信贷违约风险的预测概率。需要说明的是，R^p表示的是p维空间，

与

的含义与上文ω、b一样，表示权重矩阵与偏置，不同的是

维度为1。

基于上述内容，综合神经网络模型在训练的过程中，通过梯度反向传播，迭代更新Embedding、长短期记忆网络模型、注意力池化机制和分类器的参数，当综合神经网络模型收敛后，表示的向量特征也变得更为精准。

因此，本申请实施例在端到端的模型训练过程中，对Embedding不断进行优化迭代，实现对用户特征表示方法的优化，从而学习出更能反应用户风险的特征表示，以此代替传统的人工特征工程步骤，不依赖人工业务经验，实现完全自动化，为信贷场景风控模型的效果与开发效率带来提升。基于此，通过本申请实施例的综合神经网络模型得到的信贷风险预测结果准确性也很高。

需要说明的是，上述端到端学习是指输入端到输出端直接由神经网络模型相连接，由神经网络模型自动学习特征，不再通过人工构造特征。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的信贷场景下的特征表示方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种信贷场景下的特征表示方法。

本申请的一个实施例中还提供了一种电子设备，该电子设备可以是终端。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信贷场景下的特征表示方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图2是根据本申请实施例的电子设备的内部结构示意图，如图2所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图2所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种信贷场景下的特征表示方法，数据库用于存储数据。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种信贷场景下的特征表示方法，其特征在于，包括：

根据日志数据构造多维度的用户行为序列，其中，所述日志数据来自金融机构服务器；

对所述用户行为序列通过Embedding进行向量表征，并形成向量矩阵；

将多维度的向量矩阵进行拼接，并通过深度学习模型抽取关键信息；

对抽取了关键信息的矩阵采用注意力池化机制进行池化，得到表示的向量特征。

2.根据权利要求1所述的方法，其特征在于，所述的根据日志数据构造多维度的用户行为序列包括：

根据日志数据中的事件所属金融机构、事件类型和事件发生时间，构造出三个维度的用户行为序列，所述三个维度的用户行为序列包括金融机构信息、事件类型信息和事件间的时间差信息。

3.根据权利要求2所述的方法，其特征在于，所述的将多维度的向量矩阵进行拼接包括：

将所述金融机构信息表示为向量矩阵(L*D)，所述事件类型信息表示为向量矩阵(L*D)，所述事件间的时间差信息表示为向量矩阵(L*1)，并进行矩阵纵向拼接，其中，L表示长度，D表示维度。

4.根据权利要求1所述的方法，其特征在于，所述的根据日志数据构造多维度的用户行为序列包括：

对预设时间内同一用户在同一金融机构发生的事件所对应的用户行为序列进行去重，并保留发生时间最早的事件所对应的用户行为序列。

5.根据权利要求1所述的方法，其特征在于，所述的根据日志数据构造多维度的用户行为序列包括：

将各维度的用户行为序列对齐至规定长度，若所述用户行为序列长度小于所述规定长度，则用数字标识0补齐；若所述用户行为序列长度大于所述规定长度，则保留所述规定长度的最近发生的事件所对应的用户行为序列。

6.根据权利要求1所述的方法，其特征在于，所述的通过深度学习模型抽取关键信息包括：

将拼接的向量矩阵输入长短期记忆网络模型以抽取关键信息。

7.根据权利要求6所述的方法，其特征在于，在由所述Embedding、所述长短期记忆网络模型、所述注意力池化机制和分类器构成综合神经网络模型，且所述分类器用于对所述向量特征进行学习以预测风险结果的情况下，所述方法还包括：

所述综合神经网络模型在训练的过程中，通过梯度反向传播，迭代更新所述Embedding、所述长短期记忆网络模型、所述注意力池化机制和所述分类器的参数，直至所述综合神经网络模型收敛。

8.根据权利要求1所述的方法，其特征在于，所述的对抽取了关键信息的矩阵采用注意力池化机制进行池化，得到表示的向量特征包括：

通过注意力机制计算所述用户行为序列中每个事件与当前事件的相似度得分以赋予每个事件不同的权重；

对抽取了关键信息的矩阵元素进行加权平均，得到表示的向量特征。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至8中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至8中任一项所述的方法。