CN111178687A - 金融风险分类方法、装置及电子设备 - Google Patents
金融风险分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111178687A CN111178687A CN201911263303.1A CN201911263303A CN111178687A CN 111178687 A CN111178687 A CN 111178687A CN 201911263303 A CN201911263303 A CN 201911263303A CN 111178687 A CN111178687 A CN 111178687A
- Authority
- CN
- China
- Prior art keywords
- user
- word vector
- information
- model
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 256
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000004927 fusion Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000012552 review Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 11
- 238000007726 management method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000009434 installation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Finance (AREA)
- Educational Administration (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种金融风险分类方法、装置、电子设备及计算机可读介质。该方法包括:获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。本公开涉及的金融风险分类方法、装置、电子设备及计算机可读介质,能够适应的分析不同用户的风险水平,实现风险管控的闭环运行,为管理人员提供分析和处置依据,降低人工审核带来的风险。
Description
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种金融风险分类方法、装置、电子设备及计算机可读介质。
背景技术
个人用户或者企业用户经常由金融服务机构进行借款活动,对于金融服务机构而言,用户的借款活动很可能会给金融服务公司带来风险。目前,金融风险的判别经常是通过对用户的基础信息和行为信息的进行分析获得,可例如,基础信息可包括用户的年龄、性别、职业、地域等等,行为信息可包括用户的借款信息、还款信息、违约信息等等。如何挖掘出更多的能够反映用户某一方面特征的信息,以对用户的金融风险进行更加全面的分析和判别,是目前广泛关注的课题。
在实际风控中,提前预知和得到相应的风险手法往往是必要的和有价值的。主要原因在于不同风险手法有相应的风控手段,比如恶意违约,对于恶意违约案件应该能观察到恶意违约用户的行为和特征表现,如果把特征做成模型的变量和策略便能对风险防控起到很积极的作用。目前的实际操作中,主要通过审理人员查看案件的方式,判断案件是否是属于已知的风险,并挖掘可能出现的未知风险。
现有的技术对于app信息的风险感知多集中于客户的app分类信息和人工经验,每次出现一个新的案件后,需要由审理的同事划定范围后进行查看。这样导致的结果是过度的使用了人力,而且人力可能会过度疲劳导致出错。使用传统统计模型则依赖于人工的经验,需要对用户app信息进行精细的分析和异常信息表达,耗时耗力。
因此,需要一种新的金融风险分类方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种金融风险分类方法、装置、电子设备及计算机可读介质,能够适应的分析不同用户的风险水平,实现风险管控的闭环运行,为管理人员提供分析和处置依据,降低人工审核带来的风险。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种金融风险分类方法,该方法包括:获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
可选地,还包括:获取历史用户的风险分类标识和终端应用列表;对所述历史用户的终端应用列表中的应用信息进行处理,生成历史用户的词向量信息;以及通过所述历史用户的词向量信息和其对应的风险分类标识对多层感知机模型进行训练,生成所述用户风险分类模型。
可选地,还包括:通过历史用户的终端应用列表和快速文本分类法生成第一词向量模型;和/或通过历史用户的终端应用列表和词向量转换法生成第二词向量模型。
可选地,将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息,包括:将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成多个第一词向量和多个第二词向量;以及将所述多个第一词向量和所述多个第二词向量进行信息融合,生成所述用户的词向量信息。
可选地,将所述多个第一词向量和所述多个第二词向量进行信息融合,生成所述用户的词向量信息,包括:通过多个第一词向量和所述多个第二词向量生成多个应用词向量;以及将多个应用词向量进行信息融合生成所述用户的词向量信息。
可选地,通过多个第一词向量和所述多个第二词向量生成多个应用词向量,包括:获取单一应用信息对应的第一词向量和第二词向量;对所述第一词向量和第二词向量进行信息融合生成应用词向量;以及通过所述终端应用类别中的所有应用信息对应的多个第一词向量和所述多个第二词向量生成所述多个应用词向量。
可选地,对所述第一词向量和第二词向量进行信息融合生成应用词向量,包括:通过加权平均的方式对所述第一词向量和第二词向量进行信息融合生成所述应用词向量。
可选地,将所述用户的词向量信息输入用户风险分类模型中生成该用户的风险分类标识及其对应的风险概率,还包括:在所述用户的风险分类标识为未知标识时,为所述用户确定目标分类标识;以及通过所述用户的终端应用列表和所述目标分类标识对多层感知机模型进行再次训练以更新所述用户风险分类模型。
可选地,为所述用户确定目标分类标识,包括:通过其他风险分类模型为所述用户确定目标分类标识。
可选地,还包括:根据用户的风险分类标识及其对应的风险概率为所述用户生成金融服务策略。
根据本公开的一方面,提出一种金融风险分类装置,该装置包括:列表模块,用于获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;向量模块,用于将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及模型模块,用于将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
可选地,还包括:第一模型训练模块,用于获取历史用户的风险分类标识和终端应用列表;对所述历史用户的终端应用列表中的应用信息进行处理,生成历史用户的词向量信息;以及通过所述历史用户的词向量信息和其对应的风险分类标识对多层感知机模型进行训练,生成所述用户风险分类模型。
可选地,还包括:第二模型训练模块,用于通过历史用户的终端应用列表和快速文本分类法生成第一词向量模型;和/或第三模型训练模块,用于通过历史用户的终端应用列表和词向量转换法生成第二词向量模型。
可选地,所述向量模块,包括:输入单元,用于将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成多个第一词向量和多个第二词向量;以及融合单元,用于将所述多个第一词向量和所述多个第二词向量进行信息融合,生成所述用户的词向量信息。
可选地,所述融合单元,还用于通过多个第一词向量和所述多个第二词向量生成多个应用词向量;以及将多个应用词向量进行信息融合生成所述用户的词向量信息。
可选地,所述融合单元,还用于获取单一应用信息对应的第一词向量和第二词向量;对所述第一词向量和第二词向量进行信息融合生成应用词向量;以及通过所述终端应用类别中的所有应用信息对应的多个第一词向量和所述多个第二词向量生成所述多个应用词向量。
可选地,所述融合单元,还用于通过加权平均的方式对所述第一词向量和第二词向量进行信息融合生成所述应用词向量。
可选地,还包括:模型更新模块,用于在所述用户的风险分类标识为未知标识时,为所述用户确定目标分类标识;以及通过所述用户的终端应用列表和所述目标分类标识对多层感知机模型进行再次训练以更新所述用户风险分类模型。
可选地,模型更新模块,还用于通过其他风险分类模型为所述用户确定目标分类标识。
可选地,还包括:策略模块,用于根据用户的风险分类标识及其对应的风险概率为所述用户生成金融服务策略。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的金融风险分类方法、装置、电子设备及计算机可读介质,获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得的方式,能够适应的分析不同用户的风险水平,实现风险管控的闭环运行,为管理人员提供分析和处置依据,降低人工审核带来的风险。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种金融风险分类方法及装置的系统框图。
图2是根据一示例性实施例示出的一种金融风险分类方法的流程图。
图3是根据另一示例性实施例示出的一种金融风险分类方法的流程图。
图4是根据另一示例性实施例示出的一种金融风险分类方法的流程图。
图5是根据另一示例性实施例示出的一种金融风险分类方法的示意图。
图6是根据另一示例性实施例示出的一种金融风险分类方法的流程图。
图7是根据一示例性实施例示出的一种金融风险分类装置的框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
图9是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
随着互联网信息技术的发展,智能手机已经成为人们日常生活中不可或缺的一部分。各式各样的APP实现着不同的功能,为人们的生活提供了便利与乐趣。手机上的APP安装信息与用户的个人偏好密不可分,或者说,一个人的APP安装情况已经可以看做对这个人的一种描述特征,用以更好地了解客户、感知客户风险、推测客户的偏好等个人特征。
本公开的发明人发现,目前对于APP安装信息的特征挖掘主要有两种方法,一种是对单个APP在二到三级目录下的分类统计,这种分类信息可以看成是把单个APP信息放在更粗的粒度上观测,以此作为客户的特征,而这样做,除了在一些强金融属性的分类或欺诈类下的分类变量,其他的一般APP分类对探知客户风险来说往往效果不够好;另一种是在单个APP内部,分析和统计记录了客户详细使用情况的埋点数据,而这种单个APP内部的埋点数据比较隐私且不易获得,往往只有特定APP商户能够获取。
因此,本公开把APP安装列表看做一个整体去分析,利用APP安装列表的整体性,去描述和推测客户的喜好,对比分类信息来说,可以更准确地描述客户偏好;而作为用户在注册或申请时就能够采集到的数据,对比埋点数据来说,有更广泛的应用空间。下面结合具体的实施例对本公开中的金融风险分类方法进行详细描述。
图1是根据一示例性实施例示出的一种金融风险分类方法及装置的系统框图。
如图1所示,系统架构10可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如金融服务类应用、购物类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的金融服务类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户数据进行分析等处理,并将处理结果(例如风险分类标识及其对应的风险概率)反馈给金融服务网站的管理员。
服务器105可例如获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;服务器105可例如将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;服务器105可例如将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
服务器105还可例如获取历史用户的风险分类标识和终端应用列表;服务器105还可例如对所述历史用户的终端应用列表中的应用信息进行处理,生成历史用户的词向量信息;服务器105还可例如通过所述历史用户的词向量信息和其对应的风险分类标识对多层感知机模型进行训练,生成所述用户风险分类模型。
服务器105还可例如通过历史用户的终端应用列表和快速文本分类法生成第一词向量模型;和/或通过历史用户的终端应用列表和词向量转换法生成第二词向量模型。。
服务器105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本公开实施例所提供的金融风险分类方法可以由服务器105执行,相应地,金融风险分类装置可以设置于服务器105中。而提供给用户进行金融服务平台浏览的网页端一般位于终端设备101、102、103中。
图2是根据一示例性实施例示出的一种金融风险分类方法的流程图。金融风险分类方法20至少包括步骤S202至S206。
如图2所示,在S202中,获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息。
在S204中,将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息。包括:将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成多个第一词向量和多个第二词向量;以及将所述多个第一词向量和所述多个第二词向量进行信息融合(meta-embedding),生成所述用户的词向量信息。其中,信息融合是一种用户词向量融合的一种新方案。借助不同embeddings(离散数据连续化方法)之间的互补性,同时使用多个embedddings做信息融合。
在一个实施例中,还包括:通过历史用户的终端应用列表和快速文本分类法生成第一词向量模型;和/或通过历史用户的终端应用列表和词向量转换法生成第二词向量模型。
更具体的,可通过快速文本分类法(fasttext方法)生成第一词向量模型,fastText是一种Facebook AI Research在16年开源的一个文本分类器。其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分类效果的同时,大大缩短了训练时间。
更具体的,可通过词向量转换法(word2vec)生成第二词向量模型,word2vec是一款用于词向量计算的工具,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;该工具得到的词向量(word embedding),可以很好地度量词与词之间的相似性。
“将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息”将在图4对应的实施例中,进行详细描述。
在S206中,将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
在一个实施例中,还包括:根据用户的风险分类标识及其对应的风险概率为所述用户生成金融服务策略。
根据本公开的金融风险分类方法,获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得的方式,能够适应的分析不同用户的风险水平,实现风险管控的闭环运行,为管理人员提供分析和处置依据,降低人工审核带来的风险。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种金融风险分类方法的流程图。
如图3所示,在S302中,获取历史用户的风险分类标识和终端应用列表。
在S304中,对所述历史用户的终端应用列表中的应用信息进行处理,生成历史用户的词向量信息。
在S306中,通过所述历史用户的词向量信息和其对应的风险分类标识对多层感知机模型进行训练,生成所述用户风险分类模型。
使用多层感知机(MLP)来对用户的风险进行分级,主要思想就是基于对用户的app信息的meta-embedding进行分析,将其与已知的风险分类进行关联,得出用户在不同的风险分级下的信息表达,进而实现风险的提前预判和分级
可例如将用户风险进行分级,由于神经网络可以近似提供不同用户置信水平,因此在用户通过多层感知机得到不同的置信值,例如0.1代表用户约为10%的几率存在风险,0.9代表用户约为90%的几率存在风险,基于多层感知机对于用户风险置信水平的预测,可以将风险分为高中低的不同风险等级。对于高风险用户进行管控,低风险用户进行通过,而中风险用户进入下游,通过核查等机制对中风险进行进一步分级和分类。
图4是根据另一示例性实施例示出的一种金融风险分类方法的流程图。图4所示的流程是对图2所示的流程中S204“将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息”的详细描述。
如图4所示,在S402中,将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成多个第一词向量和多个第二词向量。
在S404中,获取单一应用信息对应的第一词向量和第二词向量。针对单个app使用fasttext和word2vec进行预测,获得单个app的fasttext向量表达和word2vec的向量表达。
在S406中,对所述第一词向量和第二词向量进行信息融合生成应用词向量。可例如,通过加权平均的方式对所述第一词向量和第二词向量进行信息融合生成所述应用词向量。将单个app的两种词嵌入表达向量加权平均获得单个app的meta-embedding表达。
通过对每个app信息进行meta-embedding化,获得每个app的meta-embedding向量
在S408中,通过所述终端应用类别中的所有应用信息对应的多个第一词向量和所述多个第二词向量生成所述多个应用词向量。
在S410中,将多个应用词向量进行信息融合生成所述用户的词向量信息。可例如,通过加权平均的方式对多个应用词向量进行信息融合生成所述应用词向量。可例如,加权平均所有app的meta-embedding向量得到最终的客户的词向量信息。
图5是根据另一示例性实施例示出的一种金融风险分类方法的示意图。如图5所示,首先将客户的app信息转换为列表层面的app-meta-embedding向量。然后使用已有的app信息数据进行预训练模型的训练获得fasttext模型和word2vec模型。将app数据输入到训练好的word2vec和fasttext中,即可获得向量。针对单个app使用fasttext和word2vec进行预测,获得单个app的fasttext向量表达和word2vec向量表达,之后将单个app的2种词嵌入表达加权平均获得单个app的信息融合表达。针对每个app信息进行信息融合化,获得每个app的融合向量。加权平均所有app的融合向量得到最终的客户的特征数据。
图6是根据另一示例性实施例示出的一种金融风险分类方法的流程图。
如图6所示,在S602中,通过历史用户的风险分类标识和终端应用列表对多层感知机模型进行训练,生成所述用户风险分类模型。
在S604中,将所述用户的词向量数据输入用户风险分类模型中生成该用户的风险分类标识及其对应的风险概率。
在S606中,在所述用户的风险分类标识为未知标识时,为所述用户确定目标分类标识。包括:通过其他风险分类模型为所述用户确定目标分类标识。
在S608中,通过所述用户的终端应用列表和所述目标分类标识对多层感知机模型进行再次训练以更新所述用户风险分类模型。
使用多层感知机(MLP)来对用户的风险进行分级,主要思想就是基于对用户的app信息的meta-embedding进行分析,将其与已知的风险分类进行关联,得出用户在不同的风险分级下的信息表达,进而实现风险的提前预判和分级
在所述用户的风险分类标识为未知标识时,使用其他的方式检测新的异常风险。新分类给标签,并将新的分类标签加入MLP模型中训练后,继续用MLP或其他模型确定异常风险。
根据本公开的金融风险分类方法,能够学习已有风险,对已有风险进行精准判断。能代替人工分析已有的风险手法,从而得到精准的风险手法的感知。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图7是根据一示例性实施例示出的一种金融风险分类装置的框图。如图7所示,金融风险分类装置70包括:列表模块702,向量模块704,模型模块706,训练模块708,模型更新模块710。
列表模块702用于获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;
向量模块704用于将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;所述向量模块704包括:输入单元,用于将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成多个第一词向量和多个第二词向量;以及融合单元,用于将所述多个第一词向量和所述多个第二词向量进行信息融合,生成所述用户的词向量信息。所述融合单元,还用于通过多个第一词向量和所述多个第二词向量生成多个应用词向量;以及将多个应用词向量进行信息融合生成所述用户的词向量信息。
所述融合单元,还用于获取单一应用信息对应的第一词向量和第二词向量;对所述第一词向量和第二词向量进行信息融合生成应用词向量;以及通过所述终端应用类别中的所有应用信息对应的多个第一词向量和所述多个第二词向量生成所述多个应用词向量。所述融合单元,还用于通过加权平均的方式对所述第一词向量和第二词向量进行信息融合生成所述应用词向量。
模型模块706用于将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
训练模块708用于进行模型训练,训练模块708包括:第一模型训练模块,用于获取历史用户的风险分类标识和终端应用列表;对所述历史用户的终端应用列表中的应用信息进行处理,生成历史用户的词向量信息;以及通过所述历史用户的词向量信息和其对应的风险分类标识对多层感知机模型进行训练,生成所述用户风险分类模型。第二模型训练模块,用于通过历史用户的终端应用列表和快速文本分类法生成第一词向量模型;第三模型训练模块,用于通过历史用户的终端应用列表和词向量转换法生成第二词向量模型。
模型更新模块710用于在所述用户的风险分类标识为未知标识时,为所述用户确定目标分类标识;以及通过所述用户的终端应用列表和所述目标分类标识对多层感知机模型进行再次训练以更新所述用户风险分类模型。模型更新模块710还用于通过其他风险分类模型为所述用户确定目标分类标识。
还可包括:策略模块,用于根据用户的风险分类标识及其对应的风险概率为所述用户生成金融服务策略。
根据本公开的金融风险分类装置,获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得的方式,能够适应的分析不同用户的风险水平,实现风险管控的闭环运行,为管理人员提供分析和处置依据,降低人工审核带来的风险。
图8是根据一示例性实施例示出的一种电子设备的框图。
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图2,图3,图4,图6中所示的步骤。
所述存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
所述存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备800’(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器860可以通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图9所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种金融风险分类方法,其特征在于,包括:
获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;
将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及
将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
2.如权利要求1所述的方法,其特征在于,还包括:
获取历史用户的风险分类标识和终端应用列表;
对所述历史用户的终端应用列表中的应用信息进行处理,生成历史用户的词向量信息;以及
通过所述历史用户的词向量信息和其对应的风险分类标识对多层感知机模型进行训练,生成所述用户风险分类模型。
3.如权利要求1-2所述的方法,其特征在于,还包括:
通过历史用户的终端应用列表和快速文本分类法生成第一词向量模型;和/或
通过历史用户的终端应用列表和词向量转换法生成第二词向量模型。
4.如权利要求1-3所述的方法,其特征在于,将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息,包括:
将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成多个第一词向量和多个第二词向量;以及
将所述多个第一词向量和所述多个第二词向量进行信息融合,生成所述用户的词向量信息。
5.如权利要求1-4所述的方法,其特征在于,将所述多个第一词向量和所述多个第二词向量进行信息融合,生成所述用户的词向量信息,包括:
通过多个第一词向量和所述多个第二词向量生成多个应用词向量;以及
将多个应用词向量进行信息融合生成所述用户的词向量信息。
6.如权利要求1-5所述的方法,其特征在于,通过多个第一词向量和所述多个第二词向量生成多个应用词向量,包括:
获取单一应用信息对应的第一词向量和第二词向量;
对所述第一词向量和第二词向量进行信息融合生成应用词向量;以及
通过所述终端应用类别中的所有应用信息对应的多个第一词向量和所述多个第二词向量生成所述多个应用词向量。
7.如权利要求1-6所述的方法,其特征在于,对所述第一词向量和第二词向量进行信息融合生成应用词向量,包括:
通过加权平均的方式对所述第一词向量和第二词向量进行信息融合生成所述应用词向量。
8.一种金融风险分类装置,其特征在于,包括:
列表模块,用于获取用户的终端应用列表,所述终端应用列表中包括已安装的应用信息;
向量模块,用于将所述终端应用列表中的应用信息分别输入第一词向量模型和第二词向量模型,生成所述用户的词向量信息;以及
模型模块,用于将所述用户的词向量信息输入用户风险分类模型中生成所述用户的风险分类标识及其对应的风险概率,所述用户风险分类模型通过多层感知机模型训练获得。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911263303.1A CN111178687B (zh) | 2019-12-11 | 2019-12-11 | 金融风险分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911263303.1A CN111178687B (zh) | 2019-12-11 | 2019-12-11 | 金融风险分类方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178687A true CN111178687A (zh) | 2020-05-19 |
CN111178687B CN111178687B (zh) | 2024-04-26 |
Family
ID=70657143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911263303.1A Active CN111178687B (zh) | 2019-12-11 | 2019-12-11 | 金融风险分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178687B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966730A (zh) * | 2020-10-23 | 2020-11-20 | 北京淇瑀信息科技有限公司 | 基于常驻地的风险预测方法、装置和电子设备 |
CN112348660A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 生成风险警示信息的方法、装置及电子设备 |
CN112784219A (zh) * | 2021-02-08 | 2021-05-11 | 北京淇瑀信息科技有限公司 | 基于app指数的用户风险预测方法、装置及电子设备 |
CN113591065A (zh) * | 2021-07-21 | 2021-11-02 | 上海淇玥信息技术有限公司 | 基于app安装列表分群的用户设备认证方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150067867A1 (en) * | 2013-08-30 | 2015-03-05 | Bank Of America Corporation | Risk Identification |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN107705156A (zh) * | 2017-10-16 | 2018-02-16 | 深圳大宇无限科技有限公司 | 用户特征分析方法及装置 |
CN108170818A (zh) * | 2017-12-29 | 2018-06-15 | 深圳市金立通信设备有限公司 | 一种文本分类方法、服务器及计算机可读介质 |
CN110134793A (zh) * | 2019-05-28 | 2019-08-16 | 电子科技大学 | 文本情感分类方法 |
CN110134948A (zh) * | 2019-04-23 | 2019-08-16 | 北京淇瑀信息科技有限公司 | 一种基于文本数据的金融风险控制方法、装置和电子设备 |
-
2019
- 2019-12-11 CN CN201911263303.1A patent/CN111178687B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150067867A1 (en) * | 2013-08-30 | 2015-03-05 | Bank Of America Corporation | Risk Identification |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN107705156A (zh) * | 2017-10-16 | 2018-02-16 | 深圳大宇无限科技有限公司 | 用户特征分析方法及装置 |
CN108170818A (zh) * | 2017-12-29 | 2018-06-15 | 深圳市金立通信设备有限公司 | 一种文本分类方法、服务器及计算机可读介质 |
CN110134948A (zh) * | 2019-04-23 | 2019-08-16 | 北京淇瑀信息科技有限公司 | 一种基于文本数据的金融风险控制方法、装置和电子设备 |
CN110134793A (zh) * | 2019-05-28 | 2019-08-16 | 电子科技大学 | 文本情感分类方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348660A (zh) * | 2020-10-21 | 2021-02-09 | 上海淇玥信息技术有限公司 | 生成风险警示信息的方法、装置及电子设备 |
CN112348660B (zh) * | 2020-10-21 | 2023-09-26 | 上海淇玥信息技术有限公司 | 生成风险警示信息的方法、装置及电子设备 |
CN111966730A (zh) * | 2020-10-23 | 2020-11-20 | 北京淇瑀信息科技有限公司 | 基于常驻地的风险预测方法、装置和电子设备 |
CN112784219A (zh) * | 2021-02-08 | 2021-05-11 | 北京淇瑀信息科技有限公司 | 基于app指数的用户风险预测方法、装置及电子设备 |
CN112784219B (zh) * | 2021-02-08 | 2023-12-22 | 北京淇瑀信息科技有限公司 | 基于app指数的用户风险预测方法、装置及电子设备 |
CN113591065A (zh) * | 2021-07-21 | 2021-11-02 | 上海淇玥信息技术有限公司 | 基于app安装列表分群的用户设备认证方法、装置及设备 |
CN113591065B (zh) * | 2021-07-21 | 2024-06-04 | 上海淇玥信息技术有限公司 | 基于app安装列表分群的用户设备认证方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111178687B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210335B (zh) | 用户风险识别方法、装置及电子设备 | |
CN112348660B (zh) | 生成风险警示信息的方法、装置及电子设备 | |
CN111178687B (zh) | 金融风险分类方法、装置及电子设备 | |
CN111191677B (zh) | 用户特征数据生成方法、装置及电子设备 | |
CN111145009A (zh) | 用户贷后风险评估方法、装置及电子设备 | |
CN111210336A (zh) | 用户风险模型生成方法、装置及电子设备 | |
CN114358147B (zh) | 异常账户识别模型的训练方法、识别方法、装置及设备 | |
CN113297287B (zh) | 用户策略自动部署方法、装置及电子设备 | |
US12050625B2 (en) | Systems and methods for classifying imbalanced data | |
CN111191893B (zh) | 风控文本处理方法、装置及电子设备 | |
CN110310123B (zh) | 风险判断方法和装置 | |
CN112348321A (zh) | 风险用户的识别方法、装置及电子设备 | |
CN112015562A (zh) | 基于迁移学习的资源分配方法、装置及电子设备 | |
US11860727B2 (en) | Data quality-based computations for KPIs derived from time-series data | |
CN110348999B (zh) | 金融风险敏感用户识别方法、装置及电子设备 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN113610625A (zh) | 逾期风险警示方法、装置及电子设备 | |
CN113610366A (zh) | 风险警告生成方法、装置及电子设备 | |
CN111582649B (zh) | 基于用户app独热编码的风险评估方法、装置和电子设备 | |
CN114742645B (zh) | 基于多阶段时序多任务的用户安全等级识别方法及装置 | |
CN113568739B (zh) | 用户资源额度分配方法、装置及电子设备 | |
CN111626438B (zh) | 基于模型迁移的用户策略分配方法、装置及电子设备 | |
CN116113963A (zh) | 源于人工决策的机器学习模型训练 | |
CN112348661A (zh) | 基于用户行为轨迹的服务策略分配方法、装置及电子设备 | |
CN111582648A (zh) | 用户策略生成方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |