CN111210335B

CN111210335B - 用户风险识别方法、装置及电子设备

Info

Publication number: CN111210335B
Application number: CN201911290952.0A
Authority: CN
Inventors: 赵楠
Original assignee: Beijing Qilu Information Technology Co Ltd
Current assignee: Beijing Qilu Information Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-11-14
Anticipated expiration: 2039-12-16
Also published as: CN111210335A

Abstract

本公开涉及一种用户风险识别方法、装置、电子设备及计算机可读介质。该方法包括：获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；根据所述终端应用列表生成用户特征向量；将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及在所述风险评分大于阈值时，将所述用户确定为高风险用户。本公开涉及的用户风险识别方法、装置、电子设备及计算机可读介质，能够通过直观的方式量化用户终端上各个应用之间的关系，进而提取用户特征，并结合多维度的用户信息对用户进行风险识别，提高风险识别的准确率。

Description

用户风险识别方法、装置及电子设备

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种用户风险识别方法、装置、电子设备及计算机可读介质。

背景技术

随着经济的发展，为了满足其自身发展的需要，个人用户或者企业用户经常由金融服务机构进行借款活动，对于金融服务机构而言，用户的借款活动很可能会给金融服务公司带来风险。在还款期限届满之前，借款人(信贷用户)财务商务状况的重大不利变化很可能影响其履约能力，从而发生呆账、坏账等风险，因此，为了降低此类风险的发生概率，金融服务机构需要对借款人进行风险评估，根据风险评估结果，金融服务公司可拒绝为金融风险较高、不能还款的用户提供服务。

目前，金融风险的判别经常是通过对用户的基础信息和行为信息的进行分析获得，可例如，基础信息可包括用户的年龄、性别、职业、地域等等，行为信息可包括用户的借款信息、还款信息、违约信息等等。如何挖掘出更多的能够反映用户某一方面特征的信息，以对用户的金融风险进行更加全面的分析和判别，是目前广泛关注的课题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种用户风险识别方法、装置、电子设备及计算机可读介质，能够通过直观的方式量化用户终端上各个应用之间的关系，进而提取用户特征，并结合多维度的用户信息对用户进行风险识别，提高风险识别的准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种用户风险识别方法，该方法包括：获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；根据所述终端应用列表生成用户特征向量；将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及在所述风险评分大于阈值时，将所述用户确定为高风险用户。

可选地，包括：提取所述终端应用列表中的多个应用信息；以及将所述多个应用信息和用户特征向量字典进行比较以生成所述用户特征向量。

可选地，将所述多个应用信息和用户特征向量字典进行比较以生成所述用户特征向量，包括：根据应用名称由所述用户特征向量字典中确定多个向量；以及将所述多个向量进行组合生成所述用户特征向量。

可选地，还包括：通过历史用户的终端应用列表对长短期记忆网络进行训练生成用户特征向量字典。

可选地，通过历史用户的终端应用列表对长短期记忆网络进行训练生成用户特征向量字典，包括：基于对历史用户的金融信息的分析生成正样本用户集合和负样本用户集合；分别获取正样本用户集合和负样本用户集合中的多个历史用户的终端应用列表，所述终端应用列表中包括已安装的应用信息；基于所述终端应用列表分别生成正样本应用集合和负样本应用集合；通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典。

可选地，基于所述终端应用列表分别生成正样本应用集合和负样本应用集合，包括：分别统计正样本用户集合和负样本用户集合中终端应用列表中各应用的安装数量；基于正样本用户集合和负样本用户集合中的所述安装数量，确定多个目标应用；以及通过所述多个目标应用生成所述正样本应用集合和负样本应用集合。

可选地，通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典，包括：对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理，生成正样本向量集合和负样本向量集合；以及通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典。

可选地，通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典，包括：将正样本向量集合和负样本向量集合输入所述长短期记忆网络；长短期记忆网络依据正样本向量集合和负样本向量集合之间的相互依赖关系，为应用名称对应的向量分配不同的权重；在训练函数满足阈值时，通过应用名称和对应的权重生成所述用户特征向量字典。

可选地，还包括：通过历史用户的金融信息和用户向量字典对机器学习模型进行训练，生成所述用户风险模型。

可选地，通过历史用户的金融信息和用户向量字典对机器学习模型进行训练，包括：通过历史用户的金融信息和用户向量字典对深度学习模型进行训练。

根据本公开的一方面，提出一种用户风险识别装置，该装置包括：信息模块，用于获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；向量模块，用于根据所述终端应用列表生成用户特征向量；评分模块，用于将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及判断模块，用于在所述风险评分大于阈值时，将所述用户确定为高风险用户。

可选地，所述向量模块，包括：提取单元，用于提取所述终端应用列表中的多个应用信息；以及比较单元，用于将所述多个应用信息和用户特征向量字典进行比较以生成所述用户特征向量。

可选地，所述比较单元，还用于根据应用名称由所述用户特征向量字典中确定多个向量；以及将所述多个向量进行组合生成所述用户特征向量。

可选地，还包括：字典模块，用于通过历史用户的终端应用列表对长短期记忆网络进行训练生成用户特征向量字典。

可选地，所述字典模块，包括：样本单元，用于基于对历史用户的金融信息的分析生成正样本用户集合和负样本用户集合；列表单元，用于分别获取正样本用户集合和负样本用户集合中的多个历史用户的终端应用列表，所述终端应用列表中包括已安装的应用信息；集合单元，用于基于所述终端应用列表分别生成正样本应用集合和负样本应用集合；训练单元，用于通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典。

可选地，所述集合单元，还用于分别统计正样本用户集合和负样本用户集合中终端应用列表中各应用的安装数量；基于正样本用户集合和负样本用户集合中的所述安装数量，确定多个目标应用；以及通过所述多个目标应用生成所述正样本应用集合和负样本应用集合。

可选地，所述训练单元，还用于对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理，生成正样本向量集合和负样本向量集合；以及通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典。

可选地，所述训练单元，还用于将正样本向量集合和负样本向量集合输入所述长短期记忆网络；长短期记忆网络依据正样本向量集合和负样本向量集合之间的相互依赖关系，为应用名称对应的向量分配不同的权重；在训练函数满足阈值时，通过应用名称和对应的权重生成所述用户特征向量字典。

可选地，还包括：模型模块，用于通过历史用户的金融信息和用户向量字典对机器学习模型进行训练，生成所述用户风险模型。

可选地，所述模型模块，还用于通过历史用户的金融信息和用户向量字典对深度学习模型进行训练。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的用户风险识别方法、装置、电子设备及计算机可读介质，获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；根据所述终端应用列表生成用户特征向量；将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及在所述风险评分大于阈值时，将所述用户确定为高风险用户的方式，能够通过直观的方式量化用户终端上各个应用之间的关系，进而提取用户特征，并结合多维度的用户信息对用户进行风险识别，提高风险识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种用户风险识别方法及装置的系统框图。

图2是根据一示例性实施例示出的一种用户风险识别方法的流程图。

图3是根据另一示例性实施例示出的一种用户风险识别方法的流程图。

图4是根据另一示例性实施例示出的一种用户风险识别方法的流程图。

图5是根据一示例性实施例示出的一种用户风险识别装置的框图。

图6是根据另一示例性实施例示出的一种用户风险识别装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

随着互联网信息技术的发展，智能手机已经成为人们日常生活中不可或缺的一部分。各式各样的APP实现着不同的功能，为人们的生活提供了便利与乐趣。手机上的APP安装信息与用户的个人偏好密不可分，或者说，一个人的APP安装情况已经可以看做对这个人的一种描述特征，用以更好地了解客户、感知客户风险、推测客户的偏好等个人特征。

本公开的发明人发现，目前对于APP安装信息的特征挖掘主要有两种方法，一种是对单个APP在二到三级目录下的分类统计，这种分类信息可以看成是把单个APP信息放在更粗的粒度上观测，以此作为客户的特征，而这样做，除了在一些强金融属性的分类或欺诈类下的分类变量，其他的一般APP分类对探知客户风险来说往往效果不够好；另一种是在单个APP内部，分析和统计记录了客户详细使用情况的埋点数据，而这种单个APP内部的埋点数据比较隐私且不易获得，往往只有特定APP商户能够获取。

因此，本公开把APP安装列表看做一个整体去分析，利用APP安装列表的整体性，去描述和推测客户的喜好，对比分类信息来说，可以更准确地描述客户偏好；而作为用户在注册或申请时就能够采集到的数据，对比埋点数据来说，有更广泛的应用空间。下面结合具体的实施例对本公开中的用户风险模型生成方法进行详细描述。

如图1所示，系统架构10可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如金融服务类应用、购物类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的金融服务类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户数据进行分析等处理，并将处理结果(例如训练完毕的用户风险模型或者通过用户风险模型对用户进行的风险评分)反馈给金融服务网站的管理员。

服务器105可例如基于对多个用户的金融信息的分析生成正样本用户集合和负样本用户集合；服务器105可例如分别获取正样本用户集合和负样本用户集合中的多个用户的终端应用列表，所述终端应用列表中包括已安装的应用信息；服务器105可例如基于所述终端应用列表分别生成正样本应用集合和负样本应用集合；服务器105可例如通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典；服务器105可例如基于所述特征向量字典生成用户风险模型。

服务器105还可例如获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；服务器105还可例如根据所述终端应用列表生成用户特征向量；服务器105还可例如将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；服务器105还可例如将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，服务器105中的一部分可例如用于通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典；以及基于所述特征向量字典生成用户风险模型；以及服务器105中的一部分还可例如用于将所述用户特征向量和金融信息输入所述用户风险模型中生成风险评分，所述风险评分用于描述所述当前用户具备金融风险的概率。

本公开的用户风险识别方法，考虑到客户APP安装列表的整体性，结合NLP领域的词嵌入(word embedding)思想，将客户的APP安装列表整体当做一个语句，训练出安装覆盖较高的常用APP词向量编码，作为描述客户的特征，预测风险。

需要说明的是，本公开实施例所提供的用户风险识别方法可以由服务器105执行，相应地，用户风险识别装置可以设置于服务器105中。而提供给用户进行金融服务平台浏览的网页端一般位于终端设备101、102、103中。

图2是根据另一示例性实施例示出的一种用户风险识别方法的流程图。用户风险识别方法20至少包括S202至S208。

如图2所示，在S202中，获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息。可例如，对于新加入金融服务平台的客户，获取其用户终端上的APP安装列表和其对应的金融信息，金融信息可包括年龄、职业、收入、地域等。

在S204中，根据所述终端应用列表生成用户特征向量。可包括：提取所述终端应用列表中的多个应用信息；以及将所述多个应用信息和用户特征向量字典进行比较以生成所述用户特征向量。

在一个实施例中，将所述多个应用信息和用户特征向量字典进行比较以生成所述用户特征向量，包括：根据应用名称由所述用户特征向量字典中确定多个向量；以及将所述多个向量进行组合生成所述用户特征向量。

在S206中，将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率。

在S208中，在所述风险评分大于阈值时，将所述用户确定为高风险用户。可例如，通过经验数据生成评分阈值，评分阈值还可根据时间或者使用地域进行更改。

根据本公开的用户风险识别方法，获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；根据所述终端应用列表生成用户特征向量；将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及在所述风险评分大于阈值时，将所述用户确定为高风险用户的方式，能够通过直观的方式量化用户终端上各个应用之间的关系，进而提取用户特征，并结合多维度的用户信息对用户进行风险识别，提高风险识别的准确率。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图3是根据一示例性实施例示出的一种用户风险识别方法的流程图。用户风险识别方法30至少包括步骤S302至S310。

如图3所示，在S302中，基于对多个用户的金融信息的分析生成正样本用户集合和负样本用户集合。包括：由用户的金融信息中提取借款时间、还款时间、欠款金额；根据借款时间、还款时间、欠款金额和预设策略为所述用户分配正样本标签或负样本标签。

更具体的，可首先随机抽取用户数据生成样本，可例如定义好客户(正样本)、坏客户(负样本)的观测期和逾期天数阈值，可例如前3～6期内逾期10～15天为坏客户，逾期在3天以内为好客户。

在S304中，分别获取正样本用户集合和负样本用户集合中的多个用户的终端应用列表，所述终端应用列表中包括已安装的应用信息。

在S306中，基于所述终端应用列表分别生成正样本应用集合和负样本应用集合。可包括：分别统计正样本用户集合和负样本用户集合中终端应用列表中各应用的安装数量；基于正样本用户集合和负样本用户集合中的所述安装数量，确定多个目标应用；以及通过所述多个目标应用生成所述正样本应用集合和负样本应用集合。

在一个实施例中，基于正样本用户集合和负样本用户集合中的所述安装数量，确定多个目标应用，包括：将正样本用户集合和负样本用户集合中的应用按照其对应的安装数量进行排序；以及在正样本用户集合和负样本用户集合中分别根据所述排序依次选取预订数量个应用作为目标应用。

更具体的，可提取全部样本客户的APP安装列表，并按照安装人数进行排序统计，考虑到数据的复杂度和模型的计算效率，可提取安装量top 300个APP作为训练词向量字典的目标APP。

在S308中，通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典。包括：对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理，生成正样本向量集合和负样本向量集合；以及通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典。

“通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典”的相关内容将在图4对应的实施例中进行详细描述。

在S310中，基于所述特征向量字典生成用户风险模型。包括：通过所述用户特征向量字典和用户金融信息对机器学习模型进行训练，生成所述用户风险模型。

更具体的，可通过深度学习的方法或其他常规的风险模型，结合用户进行信息进而挖掘更多可用变量、提高风险模型的预测效果。

图4是根据另一示例性实施例示出的一种用户风险识别方法的流程图。图4所示的流程是对图2所示的流程中S208“通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典”的详细描述。

如图4所示，在S402中，对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理，生成正样本向量集合和负样本向量集合。可例如将目标应用的数量作为编码维度对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理(onehot编码)。

可例如采用one hot编码，对300个目标APP进行向量初始化，即对每个APP用一个300维的one hot编码向量表示。其中，One hot：是一种把词汇表中的单词或者短语映射成由实数构成的向量的技术，是指将所有词排成一列，对于词A，只有在它的位置1，其他位置0，维度就是所有词的数目。

在S404中，将正样本向量集合和负样本向量集合输入所述长短期记忆网络。长短期记忆网络(Long Short-Term Memory)是一种时间循环神经网络，是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。

在S406中，长短期记忆网络依据正样本向量集合和负样本向量集合之间的相互依赖关系，为应用名称对应的向量分配不同的权重。

在S408中，在训练函数满足阈值时，通过应用名称和对应的权重生成所述用户特征向量字典。

通过LSTM模型，对初始化的APP向量进行训练，得到词向量字典。这里采用LSTM主要是考虑到APP安装列表的序列性，LSTM能够更好的捕捉到词语之间的相互依赖关系。同时，还可用用drop out和权重衰减机制，避免词向量训练过拟合；其中，Drop out是在每个训练批次的前向传播中，以概率p保留部分神经元。目的是简化神经网络的复杂度，降低过拟合风险。

还可例如，将训练好的词向量作为特征，放到测试集中的客户APP安装列表中测试模型的预测性能，可以直接用准确率作为模型评价指标。当模型的预测结果较为准确、且预测性能较为稳定后，可以已经训练好的APP词向量字典保存，进行实际应用。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种用户风险识别装置的框图。如图5所示，用户风险识别装置50包括：信息模块502，向量模块504，评分模块506，判断模块508。

信息模块502用于获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；

向量模块504用于根据所述终端应用列表生成用户特征向量；所述向量模块504包括：提取单元，用于提取所述终端应用列表中的多个应用信息；以及比较单元，用于将所述多个应用信息和用户特征向量字典进行比较以生成所述用户特征向量。所述比较单元，还用于根据应用名称由所述用户特征向量字典中确定多个向量；以及将所述多个向量进行组合生成所述用户特征向量。

评分模块506用于将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及

判断模块508用于在所述风险评分大于阈值时，将所述用户确定为高风险用户。

图6是根据另一示例性实施例示出的一种用户风险识别装置的框图。如图6所示，用户风险识别装置60在用户风险识别装置50基础上还包括：字典模块602，模型模块604。

字典模块602用于通过历史用户的终端应用列表对长短期记忆网络进行训练生成用户特征向量字典。所述字典模块602包括：样本单元，用于基于对历史用户的金融信息的分析生成正样本用户集合和负样本用户集合；列表单元，用于分别获取正样本用户集合和负样本用户集合中的多个历史用户的终端应用列表，所述终端应用列表中包括已安装的应用信息；集合单元，用于基于所述终端应用列表分别生成正样本应用集合和负样本应用集合；所述集合单元，还用于分别统计正样本用户集合和负样本用户集合中终端应用列表中各应用的安装数量；基于正样本用户集合和负样本用户集合中的所述安装数量，确定多个目标应用；以及通过所述多个目标应用生成所述正样本应用集合和负样本应用集合。

字典模块602还包括：训练单元，用于通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典。所述训练单元，还用于对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理，生成正样本向量集合和负样本向量集合；以及通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典。所述训练单元，还用于将正样本向量集合和负样本向量集合输入所述长短期记忆网络；长短期记忆网络依据正样本向量集合和负样本向量集合之间的相互依赖关系，为应用名称对应的向量分配不同的权重；在训练函数满足阈值时，通过应用名称和对应的权重生成所述用户特征向量字典。

模型模块604用于通过历史用户的金融信息和用户向量字典对机器学习模型进行训练，生成所述用户风险模型。所述模型模块604还用于通过历史用户的金融信息和用户向量字典对深度学习模型进行训练。

根据本公开的用户风险识别装置，获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；根据所述终端应用列表生成用户特征向量；将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及在所述风险评分大于阈值时，将所述用户确定为高风险用户的方式，能够通过直观的方式量化用户终端上各个应用之间的关系，进而提取用户特征，并结合多维度的用户信息对用户进行风险识别，提高风险识别的准确率。

图7是根据一示例性实施例示出的一种电子设备的框图。

下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图2，图3，图4中所示的步骤。

所述存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备700’(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图8所示，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；根据所述终端应用列表生成用户特征向量；将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及在所述风险评分大于阈值时，将所述用户确定为高风险用户。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种用户风险识别方法，其特征在于，包括：

将包含多个应用信息的历史用户的终端应用列表作为整体；

通过历史用户的终端应用列表对长短期记忆网络进行训练生成用户特征向量字典；将终端应用列表整体当做一个语句，训练出安装覆盖较高的词向量，作为描述用户的特征向量字典；

获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；

提取所述终端应用列表中的多个应用信息；

将所述多个应用信息和用户特征向量字典进行比较；

根据应用名称由所述用户特征向量字典中确定多个向量；

将所述多个向量进行组合生成所述用户特征向量；

将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及

在所述风险评分大于阈值时，将所述用户确定为高风险用户。

2.如权利要求1所述的方法，其特征在于，通过历史用户的终端应用列表对长短期记忆网络进行训练生成用户特征向量字典，包括：

基于对历史用户的金融信息的分析生成正样本用户集合和负样本用户集合；

分别获取正样本用户集合和负样本用户集合中的多个历史用户的终端应用列表，所述终端应用列表中包括已安装的应用信息；

基于所述终端应用列表分别生成正样本应用集合和负样本应用集合；

通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典。

3.如权利要求2所述的方法，其特征在于，基于所述终端应用列表分别生成正样本应用集合和负样本应用集合，包括：

分别统计正样本用户集合和负样本用户集合中终端应用列表中各应用的安装数量；

基于正样本用户集合和负样本用户集合中的所述安装数量，确定多个目标应用；以及

通过所述多个目标应用生成所述正样本应用集合和负样本应用集合。

4.如权利要求2所述的方法，其特征在于，通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典，包括：

对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理，生成正样本向量集合和负样本向量集合；以及

通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典。

5.如权利要求4所述的方法，其特征在于，通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典，包括：

将正样本向量集合和负样本向量集合输入所述长短期记忆网络；

长短期记忆网络依据正样本向量集合和负样本向量集合之间的相互依赖关系，为应用名称对应的向量分配不同的权重；

在训练函数满足阈值时，通过应用名称和对应的权重生成所述用户特征向量字典。

6.如权利要求1所述的方法，其特征在于，还包括：

通过历史用户的金融信息和用户向量字典对机器学习模型进行训练，生成所述用户风险模型。

7.如权利要求6所述的方法，其特征在于，通过历史用户的金融信息和用户向量字典对机器学习模型进行训练，包括：

通过历史用户的金融信息和用户向量字典对深度学习模型进行训练。

8.一种用户风险识别装置，其特征在于，包括：

字典模块，用于将包含多个应用信息的历史用户的终端应用列表作为整体；通过历史用户的终端应用列表对长短期记忆网络进行训练生成用户特征向量字典；将终端应用列表整体当做一个语句，训练出安装覆盖较高的词向量，作为描述用户的特征向量字典；

信息模块，用于获取用户的金融信息和终端应用列表，所述终端应用列表中包括已安装的应用信息；

向量模块，用于提取所述终端应用列表中的多个应用信息；将所述多个应用信息和用户特征向量字典进行比较；根据应用名称由所述用户特征向量字典中确定多个向量；将所述多个向量进行组合生成所述用户特征向量；

评分模块，用于将所述用户特征向量和金融信息输入用户风险模型中生成风险评分，所述用户风险模型用于描述所述用户具备金融风险的概率；以及

判断模块，用于在所述风险评分大于阈值时，将所述用户确定为高风险用户。

9.如权利要求8所述的装置，其特征在于，所述字典模块，包括：

样本单元，用于基于对历史用户的金融信息的分析生成正样本用户集合和负样本用户集合；

列表单元，用于分别获取正样本用户集合和负样本用户集合中的多个历史用户的终端应用列表，所述终端应用列表中包括已安装的应用信息；

集合单元，用于基于所述终端应用列表分别生成正样本应用集合和负样本应用集合；

训练单元，用于通过长短期记忆网络对正样本应用集合和负样本应用集合进行训练，生成用户特征向量字典。

10.如权利要求9所述的装置，其特征在于，所述集合单元，还用于分别统计正样本用户集合和负样本用户集合中终端应用列表中各应用的安装数量；基于正样本用户集合和负样本用户集合中的所述安装数量，确定多个目标应用；以及通过所述多个目标应用生成所述正样本应用集合和负样本应用集合。

11.如权利要求9所述的装置，其特征在于，所述训练单元，还用于对正样本应用集合和负样本应用集合中的应用名称进行向量独热编码处理，生成正样本向量集合和负样本向量集合；以及通过正样本向量集合和负样本向量集合对所述长短期记忆网络进行训练，生成所述用户特征向量字典。

12.如权利要求11所述的装置，其特征在于，所述训练单元，还用于

将正样本向量集合和负样本向量集合输入所述长短期记忆网络；长短期记忆网络依据正样本向量集合和负样本向量集合之间的相互依赖关系，为应用名称对应的向量分配不同的权重；在训练函数满足阈值时，通过应用名称和对应的权重生成所述用户特征向量字典。

13.如权利要求8所述的装置，其特征在于，还包括：

模型模块，用于通过历史用户的金融信息和用户向量字典对机器学习模型进行训练，生成所述用户风险模型。

14.如权利要求13所述的装置，其特征在于，所述模型模块，还用于

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。