CN112115258B - 一种用户的信用评价方法、装置、服务器及存储介质 - Google Patents

一种用户的信用评价方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN112115258B
CN112115258B CN201910537507.3A CN201910537507A CN112115258B CN 112115258 B CN112115258 B CN 112115258B CN 201910537507 A CN201910537507 A CN 201910537507A CN 112115258 B CN112115258 B CN 112115258B
Authority
CN
China
Prior art keywords
character
characters
sequence
vector
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910537507.3A
Other languages
English (en)
Other versions
CN112115258A (zh
Inventor
黎新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910537507.3A priority Critical patent/CN112115258B/zh
Publication of CN112115258A publication Critical patent/CN112115258A/zh
Application granted granted Critical
Publication of CN112115258B publication Critical patent/CN112115258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

本申请公开了一种方法、装置、服务器及存储介质,方法包括:获得字符序列,字符序列为依据目标数据构建的,且字符序列中包括至少一个字符;获取每个字符的字符向量,字符向量之间排序组成字符向量序列;将字符向量序列输入到训练模型,得到训练模型输出的结果;其中,训练模型为利用至少两个具有标签的样本训练得到。可见,本申请中不再以由字符组成的词组或文本为基础进行处理,而是对独立的字符为基础进行处理,由此即使出现新的词组,也可以将新的词组拆成字符再进行处理,由此来提高对用户的评价的准确性。

Description

一种用户的信用评价方法、装置、服务器及存储介质
技术领域
本申请涉及信用评价技术领域,尤其涉及一种用户的信用评价方法、装置、服务器及存储介质。
背景技术
随着技术的发展,在对用户的信用进行评价时,除了考虑用户在银行的交易行为,还会将用户在互联网平台上进行的网络行为作为对用户进行信用评价的基础,如用户在互联网平台上的社交行为、购物行为、阅读转发文章行为、搜索行为等等。
目前,通常将用户网络行为中的输入数据输入到基于文本序列构建的模型中,从而由模型输出该用户的信用评分,用以判断是否为该用户继续提供贷款服务或者是否对用户的贷款额度进行调整。
但是,在模型的输入中出现其词库中没有的新词组时,模型可能会因为无法识别新词组而使得输出的结果不准确的情况,导致对用户的信用评价准确性较低。
发明内容
有鉴于此,本申请提供一种用户的信用评价方法、装置、服务器及存储介质,以提高对用户的信用评价的准确性。
为实现上述目的,一方面,本申请提供了一种用户的信用评价方法,包括:
获得待评价的目标用户对应的字符序列,所述字符序列为依据所述目标用户的历史搜索行为数据构建的,且所述字符序列中包括至少一个字符;
获取每个所述字符的字符向量,所述字符向量之间排序组成字符向量序列;
将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
在一种可能的实现方式中,所述获取每个所述字符的字符向量,包括:
在字符与字符向量的映射关系中,获得每个所述字符的字符向量;
其中,所述字符与字符向量的映射关系为通过对至少两个输入字符分别进行向量转换得到的,所述输入字符基于历史数据生成,所述历史数据为至少两个网络用户的历史搜索行为数据。
可选的,所述输入字符基于历史数据生成,包括:
获得至少两个网络用户的历史搜索行为数据;
提取所述历史搜索行为数据中的字符,以得到历史字符串,所述历史字符串中的字符按照输入时间顺序排序;
对所述历史字符串进行字符切割,得到至少两个输入字符。
可选的,通过对至少两个输入字符分别进行向量转换得到所述字符与字符向量的映射关系,包括:
将至少两个输入字符中的字符分别进行向量化,得到每个所述输入字符的初始向量;
为每个所述初始向量设置至少两个维度,每个所述维度上具有维度值;
对所述维度值进行归一化,得到每个所述输入字符的字符向量;
基于所述输入字符及其字符向量,生成字符与字符向量的映射关系。
在一种可能的实现方式中,所述获得待评价的目标用户对应的字符序列,包括:
获得待评价的目标用户的历史搜索行为数据;
对所述目标用户的历史搜索行为数据进行处理,以得到字符序列,所述字符序列中包括至少一个字符。
可选的,所述对所述目标用户的历史搜索行为数据进行处理,以得到字符序列,包括:
对所述目标用户的历史搜索行为数据进行字符提取,得到目标字符串,所述目标字符串中的字符按照输入时间顺序排序;
对所述目标字符串中的字符进行切割,以得到字符序列,所述字符序列中字符的顺序与所述输入时间顺序一致。
可选的,所述训练模型为利用至少两个具有信用评价标签的样本训练得到,包括::
获得至少两个样本,每个所述样本具有预设的信用评价标签;
基于所述样本及其信用评价标签,对基于卷积神经网络的训练模型进行训练。
又一方面,本申请还提供了一种用户的信用评价装置,包括:
序列获取单元,用于获得待评价的目标用户对应的字符序列,所述字符序列为依据所述目标用户的历史搜索行为数据构建的,且所述字符序列中包括至少一个字符;
字符处理单元,用于获取每个所述字符的字符向量,所述字符向量之间排序组成字符向量序列;
向量处理单元,用于将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
可选的,所述字符处理单元包括:
向量获得子单元,用于在字符与字符向量的映射关系中,获得每个所述字符的字符向量;
映射生成子单元,用于通过对至少两个输入字符分别进行向量转换得到字符与字符向量的映射关系,所述输入字符基于历史数据生成,所述历史数据为至少两个网络用户的历史搜索行为数据。
可选的,所述序列获取单元包括:
数据获得子单元,用于获得待评价的目标用户的历史搜索行为数据;
序列获取子单元,用于对所述目标用户的历史搜索行为数据进行处理,以得到字符序列,所述字符序列中包括至少一个字符。
又一方面,本申请还提供了一种服务器,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获得待评价的目标用户对应的字符序列,所述字符序列为依据所述目标用户的历史搜索行为数据构建的,且所述字符序列中包括至少一个字符;
获取每个所述字符的字符向量,所述字符向量之间排序组成字符向量序列;
将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
又一方面,本申请还提供了存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项所述的用户的信用评价方法。
由上述方案可知,本申请所提供的一种用户的信用评价方法、装置服务器及存储介质,通过对待评价的目标用户的历史搜索行为数据进行处理,以此来得到由字符组成的字符序列,进而在获得针对每个字符的字符向量之后,由此将字符向量组成的序列输入到训练模型中就可以得到目标用户的信用评价结果。可见,本申请中不再以由字符组成的词组或文本为基础进行处理,而是对独立的字符为基础进行处理,由此即使出现新的词组,也可以将新的词组拆成字符再进行处理,从而避免了新词组出现时训练模型无法识别而使得输出的结果不准确的情况,由此来提高对用户的信用评价的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例的一种用户的信用评价系统的组成框架示意图;
图2示出了本申请实施例的一种实现用户的信用评价的后台服务器的硬件组成结构示意图;
图3示出了本申请实施例的一种用户的信用评价方法的一种流程示意图;
图4示出了本申请实施例中有关映射关系的示意图;
图5示出了本申请实施例的一种用户的信用评价方法在实现中的过程示意图;
图6示出了本申请实施例的一种用户的信用评价装置一个实施例的组成结构示意图。
具体实施方式
本申请的方案可以基于用户在网络平台上进行的各种网络行为,对用户的信用指数进行评价,以扩展对用户信用评价的数据基础,从而提高对用户信用评价的准确性。
其中,网络平台可以理解为互联网金融、保险、电商等平台,用户在网络平台上能够进行各种网络行为,如社交行为、购物行为、阅读转发文章行为、搜索行为、地理位置相关的行为(打车、餐饮、住宿等)等。例如,用户在网络平台上进行搜索行为,以快速获取网络平台的相关内容信息。用户的搜索行为主要包括输入搜索文本到搜索引擎、点击搜索引擎返回的搜索结果列表、多次修改搜索文本以获得满意的搜索结果等。
需要说明的是,在网络平台上,不同的网络行为会产生不同的用户行为日志数据,相应的,提供金融服务的机构可以通过对用户行为日志数据进行加工处理,得到用户关于社会关系、消费水平、兴趣特点、地理位置等特征的特征向量,从而结合训练模型得到该用户的信用评价标签,如是否违约或者违约的风险标签等。
例如,用户通过浏览器等搜索引擎中输入提问语句,该提问语句表现了用户在某个时间段内的信息需求。例如,用户在一段时间内经常输入母婴相关的语句进行网络搜索,则用户很可能是一个已婚的孕妇;经常输入汽车保险相关问句的用户,很可能拥有汽车或者打算给汽车买保险的用户,等等。同时,用户进行搜索行为所输入的问句也能体现出用户的信用指数及相应的风险特征。例如,用户经常输入“借钱”、“p2p”、“理财产品”等语句进行信息搜索,则可以表征出用户最近的财务状态,如用户最近的财务状况存在风险或者用户最近的财务状态良好,相应的,提供金融服务的机构可以通过对用户经常输入的这些文本语句进行加工处理,结合训练模型得到该用户最近的信用评分的等级,从而决定是否要提供金融服务或者对服务的等级进行调整。例如:审核贷款资质、审批贷款额度、保险额度调整、商品白条额度审核和调整等服务。
而本申请的发明人在经过研究后发现:将用户网络行为中的输入数据输入到基于文本序列的主题训练模型中来得到对用户的信用进行评价时,是对用户输入数据中的词组或短文本进行处理,而如果在用户输入数据中出现训练模型的词库中没有出现过的新词组或新文本时,训练模型则可能会因为没有训练基础而无法识别新词组或新文本,可能会将新词组或新文本直接丢弃,由此使得模型的输出结果出现偏差,导致对用户的信用评分的准确性降低。
因此,本申请的发明人进一步进行研究发现,即使是新词组或新文本均是由多个单个的字符进行组合排列形成的,因此,为了避免出现新词而使得信用评价准确率降低的情况,可以对训练模型的输入进行改变,将输入给训练模型的词组或文本转换成字符的序列,而转换出来的字符对于训练模型来说肯定是可以识别的,之后训练模型就可以通过对这些字符转换成的字符向量进行处理,从而避免新词组或新文本无法识别而使得训练模型的输出结果出现偏差的情况,从而提高对用户的信用评分的准确性。
为了便于理解,本文中先对本申请的方案所适用的系统进行介绍,参考图1,其示出了本申请一种用户的信用评价系统的一种组成架构示意图。
由图1中可知,该系统中可以包括有:应用服务器10、终端20、后台服务器30和日志服务器40,应用服务器10、终端20、后台服务器30和日志服务器40之间通过网络实现通信连接。其中,应用服务器10为向用户提供网络服务的网络服务器,如web服务器提供搜索或购物服务等,而用户可以通过终端20从应用服务器10获得相应的服务。
其中,终端20可以为手机、pad、电脑等客户端,在终端20上可以配置有搜索引擎或购物应用等网络应用,用户可以通过这些网络应用进行多种网络行为,如输入文本数据进行信息搜索等行为,以向应用服务器10要求相应的网络服务。
例如,用户在手机上打开搜索引擎,并在搜索界面中输入“理财产品”的文本,点击搜索界面上的控件,由搜索引擎将关于“理财产品”的信息通过界面返回给用户。
再如,用户在手机上打开购物应用,并在产品搜索框中输入“连衣裙”的文本,点击搜索空间,购物应用将购物网站中关于连衣裙的链接反馈到手机的购物应用上,用户可以通过点击链接进入到该连衣裙产品所在的网站地址,以浏览产品信息。
而用户通过终端20在应用服务器10上进行网络行为时,用户的网络行为会产生相应的用户行为日志数据,该用户行为日志数据可以存储在日志服务器40上,也可以存储在与日志服务器40相关联的其他服务器上,用户行为日志记录有用户身份标识、用户进行网络行为的时间、网络行为的类型、用户的输入数据、对网络行为的响应时长及对网络行为的输出数据等,也就是说,用户行为日志数据就是记录哪个用户在哪些时间对谁进行了哪些类型的网络行为,等等。
相应的,用户通过终端20在应用服务器10上进行网络行为后,后台服务器30可以在日志服务器40上收集某个目标用户进行网络行为的用户行为日志数据,并进行筛选提取等处理之后,得到该目标用户进行历史网络行为所输入的文本数据,如“理财产品”和“连衣裙”等,在对这些文本数据进行字符处理之后,得到由字符组成的字符序列,区别于词组或短文本,之后,后台服务器30对字符序列中的字符进行向量转换,得到由这些字符的字符向量组成的字符向量序列,再将这个字符向量序列输入到提前训练好的或者当前训练完成的训练模型中,从而得到训练模型输出的该目标用户的信用评价结果。
需要说明的是,以上是以各服务器分别为一台独立的服务器为例进行说明,但是可以理解的是,在实际应用中,应用服务器也可以被替换为应用服务器集群,或者由多台应用服务器构成的分布式集群,后台服务器和日志服务器也可以集成到应用服务器中。
其中,为了实现各服务器上相应的功能,服务器的存储器中需要存储实现相应功能的程序。为了便于理解各个服务器的硬件构成,下面以后台服务器为例进行介绍。如图2中所示,为本申请的后台服务器的一种组成结构示意图,本实施例中的后台服务器30可以包括有:处理器201、存储器202、通信接口203、输入单元204、显示器205和通信总线206。
其中,处理器201、存储器202、通信接口203、输入单元204、显示器205、均通过通信总线206完成相互间的通信。
在本实施例中,该处理器201,可以为中央处理器(CentralProcessing Unit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器201可以调用存储器202中存储的程序。具体的,处理器201可以执行以下用户的信用评价方法的实施例中后台服务器侧所执行的操作。
存储器202中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获得待评价的目标用户对应的字符序列,所述字符序列为依据所述目标用户的历史搜索行为数据构建的,且所述字符序列中包括至少一个字符;
获取每个所述字符的字符向量,所述字符向量之间排序组成字符向量序列;
将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
在一种可能的实现方式中,该存储器202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如字符显示等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,用户输入数据等等。
此外,存储器202可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口203可以为通信模块的接口,如GSM模块的接口。
当然,图2所示的后台服务器的结构并不构成对本申请实施例中后台服务器的限定,在实际应用中后台服务器可以包括比图2所示的更多或更少的部件,或者组合某些部件。
可以理解的是,应用服务器、日志服务器与后台服务器的硬件组成相似,不同之处仅在于应用服务器、日志服务器中处理器执行的操作,以及存储器中存储的程序不同。
结合以上共性,参考图3,其示出了本申请一种用户的信用评价方法一个实施例的流程示意图,本实施例中的方法可以包括有:
S301:获得待评价的目标用户对应的字符序列。
其中,字符序列为基于目标用户的历史搜索行为数据构建的,且字符序列中包括至少一个字符。目标用户的历史搜索行为是指目标用户在应用服务器上进行历史搜索行为所产生的数据,该历史搜索行为数据可以通过日志服务器中的用户行为日志数据来获得,之后,对该历史搜索行为数据进行处理,得到字符序列。
其中,目标用户的历史搜索行为数据中至少包括目标用户进行历史搜索行为所输入的文本数据。
需要说明的是,目标用户是指需要进行信用评价的网络用户,该目标用户可以根据需求来设置,例如,某个银行机构需要对目标用户的信用进行评价时,可以在目标用户的授权或其他合法委托下,将目标用户的姓名及身份证号码等信息提交给后台服务器,后台服务器在确定目标用户之后,获得该目标用户在进行历史搜索行为时所输入的文本数据。
在一种可能的实现方式中,后台服务器可以首先从日志服务器中读取与该目标用户相关的所有用户行为日志数据,从而对用户行为日志数据进行解析之后,提取出目标用户在进行历史搜索行为时所输入的文本数据,如用户A在搜索引擎中输入的“理财产品”的文本数据。之后,后台服务器可以对目标用户的历史搜索行为数据如文本等直接按照字符的输入时间顺序进行字符提取,从而得到一个目标字符串,该目标字符串中的字符按照输入时间顺序进行排序,之后,后台服务器对目标字符串中的字符进行切割,字符之间独立,以得到包含这些切割来的字符的字符序列。
其中,字符序列是由字符按照一定的顺序排列组成的,其中排列顺序可以为字符的输入时间顺序。
例如,后台服务器对用户在进行搜索时所产生的日志数据中提取出用户所输入的文本数据“理财产品”,之后按照文本中每个字符的时间先后顺序排列,将字符拼接成一个长文本字符串,如“理”、“财”、“产”和“品”拼接成的字符串;
之后,后台服务器将“理”、“财”、“产”和“品”拼接成的字符串按照字符进行切割,得到单个字符排成序列的字符序列:“理”、“财”、“产”和“品”。
S302:获取每个字符的字符向量。
其中,字符向量之间排序组成字符向量序列。其中,每个字符的字符向量具有至少两个维度,在每个维度上字符向量具有一个维度值,而这个维度值则表示字符向量对应的字符的下一个字符属于当前维度上的字符的概率。例如,字符向量具有固定维度如200维或100维,字符向量在每个维度上具有一个概率值,该概率值是指预测当前字符的下一个字符属于该维度上的字的概率。
在一种可能的实现方式中,本实施例中后台服务器可以利用语言模型直接对每个字符分别进行向量转换,得到每个字符的字符向量,而这些字符的字符向量仍然按照输入时间顺序组成字符向量序列。
例如,在后台服务器中搭建并训练一个基于字模型的语言模型,该语言模型将字符序列中的字符作为模型输入进行处理,得到由字符向量组成的字符向量序列。
可选的,语言模型可以为时间递归神经网络LSTM(Long Short-Term Memory)模型,在LSTM中,首先将每个字符进行向量化,并把每个字符的向量转成固定维度,如200维或100维,再对每个维度上的维度值进行归一化,由此得到字符向量,而在字符向量中可以各维度上的维度值来预测下一个字符。其中,在LSTM中,可以在神经网络全连接层Dense(#vocab_size)上将每个字符转换成维度为vocab_size的字符向量,再利用softmax对字符向量中每个维度上的维度值进行归一化,最终得到字符向量中每个维度上的概率值,该概率值是指预测当前字符的下一个字符属于该维度上的字的概率。
例如,对于“宝”、“马”、“汽”的字符序列利用语言模型进行训练之后,得到字符向量序列,其中每个字符向量中具有至少两个维度,每个维度上的维度值表示当前字符的下一个字符属于该维度上的字的概率,如字符“汽”的向量中的“车”维度上的值表示下一个字符是“车”的概率,在“焊”维度上的值表示下一个字符是“焊”的概率。
在另一种可能的实现方式中,本实施例中后台服务器中可以利用字符与字符向量的映射关系中获得每个字符的字符向量,而字符与字符向量的映射关系中包括至少两个映射关系,每个映射关系为一个字符和一个字符向量之间的映射关系。可见,后台服务器中无需对字符进行向量转换等处理,即可基于字符与字符向量的映射关系来获得每个字符的字符向量,由此节省对用户进行信用评价所消耗的时长,提高对用户进行信用评价的效率。
其中,字符与字符向量的映射关系为预先通过至少两个输入字符分别进行向量转换得到的,而输入字符基于历史数据生成,这里的历史数据则是至少两个网络用户的历史搜索行为数据。也就是说,字符与字符向量的映射关系是预先基于包含或者不包含目标用户的至少两个网络用户在应用服务器上进行历史搜索行为所对应的数据得到。
可以理解的是,本实施例中的网络用户是指在应用服务器上进行过历史搜索行为的用户,可以包含全局的所有用户,也可以包含其中的大部分用户,网络用户越多,本实施例中所生成的字符与字符向量的映射关系越丰富也越精确。
可选的,后台服务器在基于历史数据生成输入字符时,可以通过以下方式实现:
首先,获得至少两个网络用户的历史搜索行为数据,例如,后台服务器可以在日志服务器中读取出这些网络用户在应用服务器中进行历史搜索行为时所生成的用户行为日志数据,之后,对用户行为日志数据进行解析之后,提取出这些网络用户在进行历史搜索行为时所输入的文本数据,即历史搜索行为数据,如用户B在搜索引擎中输入的“理财产品”的文本数据,用户C在搜索引擎中输入的“p2p”的文本数据。
之后,后台服务器可以对这些网络用户的历史搜索行为数据如文本等直接按照字符的输入时间顺序进行字符提取,从而得到一个历史字符串,该历史字符串中的字符按照输入时间顺序进行排序,之后,后台服务器对历史字符串中的字符进行切割,字符之间独立,得到至少两个输入字符。
可选的,后台服务器在通过至少两个输入字符分别进行向量转换得到映射关系时,可以通过以下方式实现:
首先,将至少两个输入字符中的字符分别进行向量化,以得到每个输入字符的初始向量,之后再对每个输入字符的初始向量设置多个维度,其中包括维度数量的设置,而设置的每个维度上具有维度值,最后再对维度值进行归一化,以得到每个输入字符的字符向量,由此,就可以基于输入字符及其字符向量来生成每个字符与相应字符向量的映射关系,如图4中所示。
例如,在后台服务器中搭建并训练一个基于字模型的语言模型,该语言模型将至少两个输入字符作为模型输入进行处理,得到这些输入字符的字符向量之后,生成相应的字符与字符向量的映射关系。
可选的,语言模型为LSTM时,首先将每个输入字符进行向量化,并把每个字符的向量转成固定维度,如200维,再对每个维度上的维度值进行归一化,由此得到每个输入字符的字符向量。其中,在LSTM中,可以在Dense(#vocab_size)上将每个输入字符转换成维度为vocab_size的字符向量,再利用softmax对字符向量中每个维度上的维度值进行归一化,最终得到字符向量中每个维度上的概率值,再基于每个输入字符与其字符向量之间的对应关系,生成字符与字符向量的映射关系。
S303:将字符向量序列输入到训练模型,得到训练模型输出的目标用户的信用评价结果。
其中,训练模型基于至少两个样本进行训练来得到,且每个样本具有预设的信用评价标签。而信用评价标签可以采用信用等级或者信用评分来表示,如信用等级高、信用等级中、信用等级低或者信用评分90、信用评分60、信用评分30等。
在一种可能的实现方式中,后台服务器预先搭建并训练好训练模型,具体的,后台服务器可以首先从具有预设的信用评价标签的样本中选取出训练样本,其中训练样本可以为字符序列格式的样本,也可以为文本序列格式的样本,由此,通过对这些训练样本及其信用评价标签进行逻辑回归,从而对初始搭建的数学模型进行训练,在数学模型中的模型参数在训练过程中确定之后,即可完成训练模型的构建。后续在需要对某个用户进行信用评价时,可以将用户输入数据的字符向量序列输入到该训练模型中,从而得到训练模型输出的该用户的信用评价结果。
可选的,后台服务器中所构建的训练模型可以为基于卷积神经网络CNN(Convolutional Neural Networks)的计算模型,而且,该训练模型中的卷积层数量、卷积核长度和卷积核数量等参数可以根据所需的评价需求来设置。例如,为了增加模型的视野,可以采用层次结构的卷积神经网络算法来构建训练模型,例如,第一层卷基层卷积核长度为2,第二层也是2,那么总的视野长度为2*2,视野的增加,意味着本实施例中所构建的训练模型能够处理更长的词语或文本,而每层卷积层的卷积核长度设置为较小的值,如低于某个阈值如4的值,可以加快训练模型的处理速率。由此,本实施例中通过设置卷积核长度为较小的值并且设置卷积层为至少两层,可以在增大处理数据的范围的同时能够加快处理效率。
在一种可能的实现方式中,在将字符向量序列输入到训练模型之后,训练模型经过以下处理,输出目标用户的信用评价结果:
首先,将字符向量序列输入到第一层卷积层,在第一层卷基层上进行卷积处理,其中,第一层卷积层的卷积核长度可以为2;
之后,将第一层卷积层的处理结果输入到第二层卷积层上,在第二层卷积层上进行卷积处理,而第二层卷积层的卷积核长度可以为2或3,以增加视野,能够对多个字符组成的词或文本进行卷积处理,而在每层的卷积层中卷积核长度并不超过阈值,均为较小的数值,由此避免卷积速率太慢的情况;
之后,在Dense上将第二层卷积层输出的卷积结果中的特征向量设置维度,其中包括设置维度的数量,设置维度数量之后的向量中在每个维度上具有维度值;
最后,利用sofmax对Dense层所设置的各维度上的维度值进行归一化,最终目标用户的信用评价结果。
其中,目标用户的信用评价结果可以为一个数值,如是否存在违约风险的值或者违约风险的概率值;或者,目标用户的信用评价结果也可以为多个数值,这些数值分别对应目标用户在多个信用评价等级或或多个信用评分上的概率值,由此,后台服务器将目标用户的信用评价结果通过网络或通信线路输出给需求方如互联网金融机构,由互联网金融机构决定是否对目标用户提供相应的金融服务。
由上述方案可知,本实施例中,通过对待评价的目标用户的历史搜索行为数据进行处理,以此来得到由字符组成的字符序列,进而在获得针对每个字符的字符向量之后,由此将字符向量组成的序列输入到训练模型中就可以得到目标用户的信用评价结果。可见,本申请中不再以由字符组成的词组或文本为基础进行处理,而是对独立的字符为基础进行处理,由此即使出现新的词组,也可以将新的词组拆成字符再进行处理,从而避免了新词组出现时训练模型无法识别而使得输出的结果不准确的情况,由此来提高对用户的信用评价的准确性。
为了便于理解,以下结合图5所示的后台服务器在对用户进行信用评价时的逻辑架构图,对本方案在实际应用中的示例进行介绍:
首先,本方案中主要依赖于两个数学模型:
1)基于字粒度的层次卷积神经网络模型,特征粒度选择字符粒度特征,主要用于对目标用户对应的字符向量序列进行卷积处理,输出目标用户的信用评价结果;
2)预训练的语言模型,主要基于字符输入的预训练,获取每个字符的全局向量,为层次卷积神经网络模型提供字符向量的词典,实现对层次卷积神经网络模型的初始化。
如图5中的S511-S514所示,为利用语言模型预先对全局网络用户的历史搜索行为数据进行处理,来输出在应用服务器为网络用户提供服务时所有或大部分由网络用户所输入字符的字符向量:
首先,后台服务器预先从日志服务器中读取所有网络用户的用户行为日志数据,进而获取到网络用户的历史搜索行为数据,如搜索query序列,以将搜索query序列转成字符的序列,再进行处理,得到字符向量,如下:
1)query序列以Q={q1,q2,…,qm}表示,m为网络用户进行历史搜索行为的query数量,按照短文本qi(1<=i<=m)的输入时间先后顺序排列,拼接成一个长文本字符串S。
2)把长文本字符串S切分成字符序列(w1w2…wn)。
3)语言模型可以使用LSTM模型实现,S511中对每个query的每个字符进行向量化embedding,把每个query的字符序列转成一个向量序列,之后S512和S513中把每个query的向量序列的每个字符向量转成一个固定维度描述(例如200维),而然这个向量中维度上的维度值可以计算下一个字是“车”的概率。例如,在LSTM模型中,概率的计算是通过Dense(#vocab_size)来实现,其中,#vocab_size表示字符的总个数,通过Dense层,得到一个维度为#vocab_size的向量。最后,在S514中用Softmax归一化后,该向量的每个维度的维度值表示下一个字是该维度对应的字的概率。
可见,基于字符的语言模型的训练用全量的大数量作为输入,保证了输出出来的字符向量能代表更多的全局语义信息,而输出的字符向量可以为层次卷积神经网络做初始化。
如图5中的S521-S525所示,为利用CNN模型基于目标用户对应的字符序列对目标用户进行信用评价,输出目标用户的信用评价结果:
1)在获得目标用户的字符序列之后,利用语言模型输出的字符向量,在S521中获得每个字符的字符向量描述,以形成字符向量序列;
2)通过S522中第一层卷积层和S523中第二层卷积层的卷积计算,输出特征向量给dense层,在S524中的Dense层上设置2个维度,每个维度上具有维度值,在S525中对维度值进行归一化,归一化的维度值表示目标用户信用违约的概率和信用不违约的概率。
可见,本实施例中,后台服务器中进行模型初始化时,CNN模型用语言模型获取的字符向量(charEmbedding),作为CNN模型输入层的charEmbedding,从而对目标用户的每个字符都能够得到准确的向量描述;
而在CNN模型中,可以从业务数据库中获取到正样本和负样本,其中,一个样本的query文本数据构成一个训练样本。对于CNN来说,输入是样本的query文本,输出是softmax归一化的概率值p,计算概率p与真实的query文本的概率标签之间的误差loss,通过误差反向传播,调整CNN模型的模型参数,直到误差loss收敛到稳定状态,完成CNN模型的训练,用以对用户的信用评价。
可见,在CNN模型中,字符粒度的模型会导致损失“词”这个级别的语义信息(例如“奶粉”被拆分成“奶”和“粉”),因此选用CNN模型来获取局部的语义信息,而且CNN模型把相邻的字符(例如相邻2个或3个字符),通过卷积核把相邻字符的信息作为一个整体处理(例如,把“奶”和“粉”两个字一起卷积,相当于获取到“奶粉”这个词的语义信息)。
另外,字符粒度(输入为字符粒度)的CNN模型不需要考虑新词问题。例如新词“螳螂借钱”,基于词粒度(输入为词粒度)的CNN模型因为词库没有这个词,只好把这个词丢弃。但是字符粒度的CNN模型不存在这个问题,因为“螳螂借钱”这个词的语义可以通过“螳”、“螂”、“借”、“钱”四个字的语义,再用CNN卷积处理学习出来。
而且,本实施例中可以采用两层的CNN结构,如,每层CNN的卷积核长度filter_size都为2,卷积核数量n_filters为100。采用层次结构可以增加模型的视野(例如第一层filter_size为2,第二层也为2,则总的视野长度为2*2=4)。视野的增加,意味着模型能处理更长的词语(例如“螳螂借钱”的长度为4,两层CNN恰好可以捕获到)。每层CNN的filter_size设置为较小的值(例如2),可以加速训练速度,与此同时,通过层次的CNN模型,保证模型的视野能扩展到合适的较大的范围。
也就是说,本实施例中采用基于字符粒度的文本建模方案,解决了因为新词问题带来的评价准确性不佳的问题;而且,采用基于字符粒度的文本建模方案,能够极大的降低了特征维度(以字符替换字符组成的词组,使得由千万维降低到几万维),而且模型的存储和运行空间能够降低到基于词粒度的方案的10%以下。
另外,本实施例中不需要对文本进行主题分类,避免了分类效果差导致的风控模型效果不佳的问题。进一步的,本实施例中基于全局数据用无监督学习进行预训练,并用预训练的语言模型对CNN模型进行初始化,降低训练难度和成本,并且提升评价效果。
需要说明的是,本申请中的方案可以应用在互联网平台信用评分场景,主要用于对互联网用户的信用评分,进而基于用户的信用评分,决定是否给用户开放信用借款额度以及额度调整等服务。
除此之外,本申请中的方案也可以应用到其他对用户的预测领域,这取决于不同的目标(例如信用评分的目标是是否违约)。如果把目标变成其他领域的目标,例如用户画像(是否结婚、是否在职等);保险领域的是否存在出险风险等,本申请的方案均适用,所形成的技术方案均在本申请的保护范围内。
综上,本申请中通过用字粒度的CNN模型对用户行为序列进行深度学习,并使用全局数据训练的语言模型对CNN模型进行初始化,由此,CNN模型输出的结果能够映射到用户的风险概率。在具体应用中,本申请能够扩展风险评分的数据领域,证明社交平台的搜索query能有效应用于信用评分领域,进一步的,本申请提升了信用评分的准确率(区分好坏用户的能力指标)以及增强评分系统的稳定性。
又一方面,本申请还提供了一种用户的信用评价装置,如图6中所示,其示出了本申请一种用户的信用评价装置一个实施例的组成示意图,本实施例的装置可以应用于后台服务器,该装置可以包括:
序列获取单元601,用于获得待评价的目标用户对应的字符序列,所述字符序列为依据所述目标用户的历史搜索行为数据构建的,且所述字符序列中包括至少一个字符;
字符处理单元602,用于获取每个所述字符的字符向量,所述字符向量之间排序组成字符向量序列;
向量处理单元603,用于将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
可选的,所述字符处理单元602包括有:
向量获得子单元,用于在字符与字符向量的映射关系中,获得每个所述字符的字符向量;
映射生成子单元,用于通过对至少两个输入字符分别进行向量转换得到字符与字符向量的映射关系,所述输入字符基于历史数据生成,所述历史数据为至少两个网络用户的历史搜索行为数据。
可选的,序列获取单元601包括:
数据获取子单元,用于获得待评价的目标用户的历史搜索行为数据;
序列获取子单元,用于对所述目标用户的历史搜索行为数据进行处理,以得到字符序列,所述字符序列中包括至少一个字符。
另一方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例中后台服务器侧所执行的用户的信用评价方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种用户的信用评价方法,其特征在于,包括:
获得待评价的目标用户的历史搜索行为数据;
对所述目标用户的历史搜索行为数据进行字符提取,得到目标字符串,所述目标字符串中的字符按照输入时间顺序排序;
对所述目标字符串中的字符进行切割,以得到字符序列,所述字符序列中字符的顺序与所述输入时间顺序一致,且所述字符序列中包括至少一个字符;
在字符与字符向量的映射关系中,获取每个所述字符的字符向量,所述字符向量之间排序组成字符向量序列;所述字符与字符向量的映射关系为通过基于字模型的语言模型对至少两个输入字符分别进行向量转换得到的,所述输入字符基于历史数据生成,所述历史数据为至少两个网络用户的历史搜索行为数据;
将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;所述训练模型为基于字粒度的层次卷积神经网络模型;所述基于字模型的语言模型所输出的字符向量用于对所述基于字粒度的层次卷积神经网络模型进行初始化;所述基于字粒度的层次卷积神经网络模型通过卷积核学习相邻字符作为一个整体的语义信息;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
2.根据权利要求1所述的方法,其特征在于,所述输入字符基于历史数据生成,包括:
获得至少两个网络用户的历史搜索行为数据;
提取所述历史搜索行为数据中的字符,以得到历史字符串,所述历史字符串中的字符按照输入时间顺序排序;
对所述历史字符串进行字符切割,得到至少两个输入字符。
3.根据权利要求1所述的方法,其特征在于,通过对至少两个输入字符分别进行向量转换得到所述字符与字符向量的映射关系,包括:
将至少两个输入字符中的字符分别进行向量化,得到每个所述输入字符的初始向量;
为每个所述初始向量设置至少两个维度,每个所述维度上具有维度值;
对所述维度值进行归一化,得到每个所述输入字符的字符向量;
基于所述输入字符及其字符向量,生成字符与字符向量的映射关系。
4.根据权利要求1所述的方法,其特征在于,所述训练模型为利用至少两个具有信用评价标签的样本训练得到,包括:
获得至少两个样本,每个所述样本具有预设的信用评价标签;
基于所述样本及其信用评价标签,对基于卷积神经网络的训练模型进行训练。
5.一种用户的信用评价装置,其特征在于,包括:
序列获取单元,用于获得待评价的目标用户的历史搜索行为数据;对所述目标用户的历史搜索行为数据进行字符提取,得到目标字符串,所述目标字符串中的字符按照输入时间顺序排序;对所述目标字符串中的字符进行切割,以得到字符序列,所述字符序列中字符的顺序与所述输入时间顺序一致,且所述字符序列中包括至少一个字符;
向量获得子单元,用于在字符与字符向量的映射关系中,获得每个所述字符的字符向量;
映射生成子单元,用于通过基于字模型的语言模型对至少两个输入字符分别进行向量转换得到字符与字符向量的映射关系,所述输入字符基于历史数据生成,所述历史数据为至少两个网络用户的历史搜索行为数据;
向量处理单元,用于将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;所述训练模型为基于字粒度的层次卷积神经网络模型;所述基于字模型的语言模型所输出的字符向量用于对所述基于字粒度的层次卷积神经网络模型进行初始化;所述基于字粒度的层次卷积神经网络模型通过卷积核学习相邻字符作为一个整体的语义信息;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
6.一种服务器,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获得待评价的目标用户的历史搜索行为数据;
对所述目标用户的历史搜索行为数据进行字符提取,得到目标字符串,所述目标字符串中的字符按照输入时间顺序排序;
对所述目标字符串中的字符进行切割,以得到字符序列,所述字符序列中字符的顺序与所述输入时间顺序一致,且所述字符序列中包括至少一个字符;
在字符与字符向量的映射关系中,获取每个所述字符的字符向量,所述字符向量之间排序组成字符向量序列;所述字符与字符向量的映射关系为通过基于字模型的语言模型对至少两个输入字符分别进行向量转换得到的,所述输入字符基于历史数据生成,所述历史数据为至少两个网络用户的历史搜索行为数据;
将所述字符向量序列输入到训练模型,得到所述训练模型输出的所述目标用户的信用评价结果;所述训练模型为基于字粒度的层次卷积神经网络模型;所述基于字模型的语言模型所输出的字符向量用于对所述基于字粒度的层次卷积神经网络模型进行初始化;所述基于字粒度的层次卷积神经网络模型通过卷积核学习相邻字符作为一个整体的语义信息;
其中,所述训练模型为利用至少两个具有信用评价标签的样本训练得到。
7.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至4任一项所述的用户的信用评价方法。
CN201910537507.3A 2019-06-20 2019-06-20 一种用户的信用评价方法、装置、服务器及存储介质 Active CN112115258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537507.3A CN112115258B (zh) 2019-06-20 2019-06-20 一种用户的信用评价方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537507.3A CN112115258B (zh) 2019-06-20 2019-06-20 一种用户的信用评价方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN112115258A CN112115258A (zh) 2020-12-22
CN112115258B true CN112115258B (zh) 2023-09-26

Family

ID=73795750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537507.3A Active CN112115258B (zh) 2019-06-20 2019-06-20 一种用户的信用评价方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN112115258B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221989B (zh) * 2021-04-30 2022-09-02 浙江网商银行股份有限公司 基于分布式的评估模型训练方法、系统以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN108446374A (zh) * 2018-03-16 2018-08-24 北京三快在线科技有限公司 用户意图预测方法、装置、电子设备、存储介质
CN108648074A (zh) * 2018-05-18 2018-10-12 深圳壹账通智能科技有限公司 基于支持向量机的贷款评估方法、装置及设备
CN109615454A (zh) * 2018-10-30 2019-04-12 阿里巴巴集团控股有限公司 确定用户金融违约风险的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797992A (zh) * 2017-11-10 2018-03-13 北京百分点信息科技有限公司 命名实体识别方法及装置
CN108446374A (zh) * 2018-03-16 2018-08-24 北京三快在线科技有限公司 用户意图预测方法、装置、电子设备、存储介质
CN108648074A (zh) * 2018-05-18 2018-10-12 深圳壹账通智能科技有限公司 基于支持向量机的贷款评估方法、装置及设备
CN109615454A (zh) * 2018-10-30 2019-04-12 阿里巴巴集团控股有限公司 确定用户金融违约风险的方法及装置

Also Published As

Publication number Publication date
CN112115258A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
US11907274B2 (en) Hyper-graph learner for natural language comprehension
CN108304526B (zh) 一种数据处理方法、装置及服务器
CN104781837B (zh) 用于通过使用基于事件的情绪分析来形成预测的系统和方法
US20190236139A1 (en) Natural language generation using pinned text and multiple discriminators
CN110222167B (zh) 一种获取目标标准信息的方法和系统
CN106649282A (zh) 基于统计的机器翻译方法、装置及电子设备
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
Shankar et al. An overview and empirical comparison of natural language processing (NLP) models and an introduction to and empirical application of autoencoder models in marketing
WO2014152442A1 (en) System and method for determining and utilizing successful observed performance
Ishaq et al. Extensive hotel reviews classification using long short term memory
CN111429214B (zh) 一种基于交易数据的买卖双方匹配方法及装置
Meoli et al. Machine-learning forecasting of successful ICOs
CN113378090B (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
CN112115258B (zh) 一种用户的信用评价方法、装置、服务器及存储介质
CN112182126A (zh) 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN109635289B (zh) 词条分类方法及审计信息抽取方法
Deshai et al. Deep learning hybrid approaches to detect fake reviews and ratings
US20220083570A1 (en) Enhanced data driven intelligent cloud advisor system
Sisodia et al. Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews
CN116541517A (zh) 文本信息处理方法、装置、设备、软件程序以及存储介质
CN113886539A (zh) 话术推荐方法、装置、客服设备及存储介质
Kamal et al. A Comprehensive Review on Summarizing Financial News Using Deep Learning
Rajesh Study on product opinion analysis for customer satis-faction on e-commerce websites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035460

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant