CN110109994A

CN110109994A - 包含结构化和非结构化数据的汽车金融风控模型

Info

Publication number: CN110109994A
Application number: CN201910390762.XA
Authority: CN
Inventors: 施铭铮; 刘占辉
Original assignee: Xiamen Pencil Head Information Technology Co Ltd
Current assignee: Xiamen Pencil Head Information Technology Co Ltd
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-09
Anticipated expiration: 2039-05-10
Also published as: CN110109994B

Abstract

本发明公开了包含结构化和非结构化数据的汽车金融风控模型，所述包含结构化和非结构化数据的汽车金融风控模型的实现步骤如下：数据预处理，分词，n‑grams算法，PCA算法，训练，PCA反向算法，集合运算，循环，合并，该包含结构化和非结构化数据的汽车金融风控模型设计合理，能够有效的增加风控模型输入的特征数，从而能够直接提高风控模型预测的准确度。

Description

包含结构化和非结构化数据的汽车金融风控模型

技术领域

本发明是包含结构化和非结构化数据的汽车金融风控模型，属于汽车金融风控技术领域。

背景技术

汽车金融的业务系统通常都会包含结构化数据和非结构化数据，结构化数据常见的例子就是关系型数据库中的表，表的一个列代表一个特征，而表的一行代表一个样本，同时，汽车金融业务过程中又会产生大量的非结构化数据，比如业务流程中业务员输入的文本信息，非结构化数据中包含了大量的信息，有些信息可能在结构化数据中并没有体现出来，我们可以对非结构化数据进行挖掘并提取相应的特征，把非结构化数据中有用的信息加入到风控模型中。

显而易见的是，非结构化数据是没有固定的结构的，比如说，一个客户订单中可能有几十个字的文本，而另一个订单中却有几百个字的文本，也就是说不同的订单中，文本的长度是不一致的，我们的第一个目标是运用算法把非结构化数据转化为结构化数据，从而可以和原来的结构化数据合并一起输入到模型中，但是当文本数据转化为结构化数据时可能会生成几万个甚至是几十万个的特征，而一个常见的汽车金融的业务数据库只有几千个到几万个订单，所以把文本转化成的特征全部输入到模型中是不实际的，我们需要有更好的办法。

所以，发明一种能够把文本数据转换成结构化数据的新的算法具有重要意义，这个算法能够对文本数据进行转换并提取最有用的特征，并能够保证重要的文本信息不会丢失，为此，本发明提出一种包含结构化和非结构化数据的汽车金融风控模型。

发明内容

针对现有技术存在的不足，本发明目的是提供包含结构化和非结构化数据的汽车金融风控模型，以解决上述背景技术中提出的问题，本发明设计合理，能够有效的增加风控模型输入的特征数，从而能够直接提高风控模型预测的准确度。

为实现上述目的，本发明提供如下技术方案：包含结构化和非结构化数据的汽车金融风控模型，所述包含结构化和非结构化数据的汽车金融风控模型的实现步骤如下：

步骤一：数据预处理；结构化数据为一张表，记为表S，表S的主键是订单ID，而非结构化数据中，文本可能被存放在不同的表或文件中，需要把同一订单的各个文本片段合并成一个文档，合并的结果是一个包含两列的表（记为表U），第一列是订单ID，第二列是与这个订单有关的所有文本组成的文档；

步骤二：分词；对文档进行分词，比如，有个文档是{“申请人有很多收入，无信用卡欠款”}，分词的结果为{“申请人”，“有”，“很多”，“收入”，“无”，“信用卡”，“欠款”}，分词的时候会过滤掉停用词，标点符号就是常见的停用词，分词的结果可以看成是关键词的集合，如果把一个关键词当成是一个特征，那么在上面的例子中分词结果就包含七个特征；

步骤三：n-grams算法；假设现在有另一个文档{“申请人无收入，有很多信用卡欠款”}，这个文档的分词结果为{“申请人”，“无”，“收入”，“有”，“很多”，“信用卡”，“欠款”}，这个例子和步骤二中的例子的意思是相反的，但是分词后如果只是独立的看每个关键词的话，两个例子都包含相同的关键词，所以如果要把两个例子的意思区分开，还需要考虑文字的上下文，在这个步骤中，使用n个连续关键词（n-grams）算法来提取文本中上下文的语义，即在文本中提取n个连续的关键词作为特征，n是用户可以自定义的参数，比如n=3，如果n=3的话，在本例中可以提取出的特征有（“申请人”，“无”，“收入”），（“有”，“很多”，“信用卡”），（“很多”，“信用卡”，“欠款”）等，参数n=3也同时包含连续的两个关键词组成的特征和单个的关键词的特征，比如（“申请人”，“无”），（“无”，“收入”），（“申请人”），（“无”）等，应用n个连续关键词算法后，从输入的文本数据中将可以提取出几万个到几十万个特征，把这些特征的集合记为f_old；

步骤四：PCA算法；现在需要用PCA算法，即在特征集f_old所在的几万维的坐标系中生成一个新的坐标系，并在这个新的坐标系中选择最重要的m个维度，m是用户自定义的参数，比如可以设m=5，把每个维度设为一个新的特征，这些新的特征的集合记为f_new；

步骤五：训练；此步骤中，把步骤四得到的新的特征集f_new与步骤一中的结构化表S合并，并把合并后的大表输入到一个机器学习的训练算法，这个算法需要可以输出特征重要性排序及权重，通常的选择是随机森林或LightGBM等；

步骤六：PCA反向算法；得到新特征集f_new的特征权重及排序后，就可以用PCA的反向算法得到步骤三中的旧特征集f_old的权重及排序，反向算法计算后，旧特征集中的绝大部分特征的权重将为零，可以选择所有的权重大于零的旧特征，或选择所有权重值大于一个用户定义的最小值的旧特征，把这些选中的旧特征记为f_{old_selected}；

步骤七：集合运算；在此步骤中，做两个集合运算，定义一个新的集合f_{new_all}并把它的初始值设为空集，然后做如下的集合运算：

f_{new_all}=f_{new_all}+f_new

f_old=f_old-f_{old_selected}；

步骤八：循环；步骤七集合运算得到的新的集合f_old将作为参数传入步骤四中，循环步骤四到步骤七直到集合f_{new_all}的元素数量到达用户定义的值为止；

步骤九：合并；在此步骤中，把从步骤八得到的f_{new_all}与结构化表S通过订单ID合并得到算法最终的输出f_out。

一实施例中：所述步骤七中的公式中的加号“+”指的是集合的并运算，减号“-”指的是集合的减运算。

一实施例中：所述步骤五中如果选择的训练算法不能输出特征重要性排序，比如神经网络算法，仍然可以用模型解析算法，比如LIME，得到特征的权重及排序。

一实施例中：所述步骤四中因为f_new中的新的特征是从新的坐标系中选出来的，所以它们是和步骤三中的特征f_old是不一样的，需要用PCA的反向算法才能把f_new转换回f_old。

采用上述技术方案后，一方面，在汽车金融的业务中有大量的有用信息被隐藏在非结构化数据中，比如业务员输入的文本数据还有业务员与客户的通话录音等，能够使用本发明提出的算法对文本数据进行挖掘，并把它们转化为结构化数据从而可以和原有的结构化数据合并输入到风控模型中，如果有通话录音，也可以把音频转化为文本，并用类似的方法处理，这样不同格式的数据就不再零散的放置在不同的地方，而是由统一的算法合并到一起，并最终由统一的风控模型一起训练，这样就大大增加了风控模型输入的特征数，从而直接提高风控模型预测的准确度；

另一方面，本发明的风控模型不再是一个黑盒模型，风控模型将不仅提供一个预测的分数，还会输出影响这个分数的各个特征及它们的权重，用户将可以看到是哪些特征影响到了模型的预测结果，虽然用PCA算法把高维坐标系转换到低维坐标系，但是当得到低维坐标系的坐标后（即权重），能够用PCA的反向算法得到高维坐标系的坐标或权重，而高维坐标系的一个维度对应一个包含n个连续关键词的特征，也就是说，用户同样可以知道是哪些文本中的关键词（或组合）影响了模型的预测；

此外，本发明能够把文本数据转换成结构化数据，能够对文本数据进行转换并提取最有用的特征，并且能够保证重要的文本信息不会丢失。

附图说明

图1为本发明包含结构化和非结构化数据的汽车金融风控模型的具体实现流程图；

图2为本发明包含结构化和非结构化数据的汽车金融风控模型的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图2，本发明提供包含结构化和非结构化数据的汽车金融风控模型，所述包含结构化和非结构化数据的汽车金融风控模型的实现步骤如下：

步骤一：数据预处理；数据处理使用的编程语言是Python，结构化数据保存在关系型数据库MySQL中，非结构化数据保存在ApacheHadoop及ApacheHbase中；

步骤二：分词；分词使用一个Python库：结巴（jieba）中文分词，这个库的github地址是：https://github.com/fxsjy/jieba，同时需要根据业务场景定义停用词集合；

步骤三：n-grams算法；n个连续关键词的算法使用scikit-learn的TfidfVectorizer类，在初始化TfidfVectorizer类时的一个重要参数是“ngram_range”，这个参数指定连续关键词的个数范围，范围设为从1到3，即输出的特征将包含一个关键词，两个连续的关键词，及三个连续的关键词；

步骤四：PCA算法；PCA算法使用scikit-learn的decomposition.PCA类，使用这个类需要在输入数据前对数据进行标准化，使用scikit-learn的StandardScaler类对数据进行标准化，同时，在这一步中需要选择新的坐标系中最重要的m个维度，参数m是由用户决定的，参数m设置的较小的话，比如m=5，就需要更多的循环和更多的计算时间，但是循环较多的话将可以抵消因为第五步中训练算法的超参数的随机性带来的影响；

步骤五：训练；训练算法可以选择随机森林或LightGBM，如果选择scikit-learn的RandomForestClassifier类，那么在算法训练结束后可以用这个类的“feature_importances_”属性得到新特征集f_new的权重，如果需要用到模型解析算法，那么可以用LIME（LocalInterpretableModel-AgnosticExplanations）算法，LIME算法的github地址是：https://github.com/marcotcr/lime；

步骤六：PCA反向算法；因为在步骤四中用decomposition.PCA类，所以PCA的反向算法用decomposition.PCA类中的“inverse_transform(X)”方法，这个方法的输入参数X即为上一步“feature_importances_”属性输出的新特征集f_new的权重，可以把新特征集f_new的权重看作是新坐标系的坐标，新坐标系的每个维度即为新特征集f_new中的一个特征，inverse_transform方法将会把新坐标系的坐标转换回旧坐标系的坐标，旧坐标系的坐标即为旧特征集f_old中每个特征的权重；

步骤七：集合运算；此步骤中f_{new_all}只初始化一次，当算法在第四步到第七步之间循环时，f_{new_all}不会再次初始化；

步骤八与步骤九：循环与合并；步骤九得到的最后的表f_out是包含结构化数据S中所有特征及文本数据中最重要特征f_{new_all}的一个表，比如说结构化数据S中有500个特征（列），而文本数据中提取了300个特征（列），那么算法最后的输出是一个800列的表，这个表的行数为订单的数量，表f_out将可以作为各种风控模型的输入数据。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.包含结构化和非结构化数据的汽车金融风控模型，其特征在于，所述包含结构化和非结构化数据的汽车金融风控模型的实现步骤如下：

f_{new_all}=f_{new_all}+f_new

f_old=f_old-f_{old_selected}；

2.根据权利要求1所述的包含结构化和非结构化数据的汽车金融风控模型，其特征在于：所述步骤七中的公式中的加号“+”指的是集合的并运算，减号“-”指的是集合的减运算。

3.根据权利要求1所述的包含结构化和非结构化数据的汽车金融风控模型，其特征在于：所述步骤五中如果选择的训练算法不能输出特征重要性排序，比如神经网络算法，仍然可以用模型解析算法，比如LIME，得到特征的权重及排序。

4.根据权利要求1所述的包含结构化和非结构化数据的汽车金融风控模型，其特征在于：所述步骤四中因为f_new中的新的特征是从新的坐标系中选出来的，所以它们是和步骤三中的特征f_old是不一样的，需要用PCA的反向算法才能把f_new转换回f_old。