CN110109994B - 包含结构化和非结构化数据的汽车金融风控系统 - Google Patents

包含结构化和非结构化数据的汽车金融风控系统 Download PDF

Info

Publication number
CN110109994B
CN110109994B CN201910390762.XA CN201910390762A CN110109994B CN 110109994 B CN110109994 B CN 110109994B CN 201910390762 A CN201910390762 A CN 201910390762A CN 110109994 B CN110109994 B CN 110109994B
Authority
CN
China
Prior art keywords
new
algorithm
old
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910390762.XA
Other languages
English (en)
Other versions
CN110109994A (zh
Inventor
施铭铮
刘占辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Qianbitou Information Technology Co ltd
Original Assignee
Xiamen Qianbitou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Qianbitou Information Technology Co ltd filed Critical Xiamen Qianbitou Information Technology Co ltd
Priority to CN201910390762.XA priority Critical patent/CN110109994B/zh
Publication of CN110109994A publication Critical patent/CN110109994A/zh
Application granted granted Critical
Publication of CN110109994B publication Critical patent/CN110109994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Abstract

本发明公开了包含结构化和非结构化数据的汽车金融风控系统,所述包含结构化和非结构化数据的汽车金融风控系统的实现步骤如下:数据预处理,分词,n‑grams算法,PCA算法,训练,PCA反向算法,集合运算,循环,合并,该包含结构化和非结构化数据的汽车金融风控系统设计合理,能够有效的增加风控模型输入的特征数,从而能够直接提高风控模型预测的准确度。

Description

包含结构化和非结构化数据的汽车金融风控系统
技术领域
本发明是包含结构化和非结构化数据的汽车金融风控系统,属于汽车金融风控技术领域。
背景技术
汽车金融的业务系统通常都会包含结构化数据和非结构化数据,结构化数据常见的例子就是关系型数据库中的表,表的一个列代表一个特征,而表的一行代表一个样本,同时,汽车金融业务过程中又会产生大量的非结构化数据,比如业务流程中业务员输入的文本信息,非结构化数据中包含了大量的信息,有些信息可能在结构化数据中并没有体现出来,我们可以对非结构化数据进行挖掘并提取相应的特征,把非结构化数据中有用的信息加入到风控模型中。
显而易见的是,非结构化数据是没有固定的结构的,比如说,一个客户订单中可能有几十个字的文本,而另一个订单中却有几百个字的文本,也就是说不同的订单中,文本的长度是不一致的,我们的第一个目标是运用算法把非结构化数据转化为结构化数据,从而可以和原来的结构化数据合并一起输入到模型中,但是当文本数据转化为结构化数据时可能会生成几万个甚至是几十万个的特征,而一个常见的汽车金融的业务数据库只有几千个到几万个订单,所以把文本转化成的特征全部输入到模型中是不实际的,我们需要有更好的办法。
所以,发明一种能够把文本数据转换成结构化数据的新的算法具有重要意义,这个算法能够对文本数据进行转换并提取最有用的特征,并能够保证重要的文本信息不会丢失,为此,本发明提出一种包含结构化和非结构化数据的汽车金融风控系统。
发明内容
针对现有技术存在的不足,本发明目的是提供包含结构化和非结构化数据的汽车金融风控系统,以解决上述背景技术中提出的问题,本发明设计合理,能够有效的增加风控模型输入的特征数,从而能够直接提高风控模型预测的准确度。
为实现上述目的,本发明提供如下技术方案:包含结构化和非结构化数据的汽车金融风控系统,所述包含结构化和非结构化数据的汽车金融风控系统的实现步骤如下:
步骤一:数据预处理;结构化数据为一张表,记为表S,表S的主键是订单ID,而非结构化数据中,文本可能被存放在不同的表或文件中,需要把同一订单的各个文本片段合并成一个文档,合并的结果是一个包含两列的表(记为表U),第一列是订单ID,第二列是与这个订单有关的所有文本组成的文档;
步骤二:分词;对文档进行分词,比如,有个文档是{“申请人有很多收入,无信用卡欠款”},分词的结果为{“申请人”,“有”,“很多”,“收入”,“无”,“信用卡”,“欠款”},分词的时候会过滤掉停用词,标点符号就是常见的停用词,分词的结果可以看成是关键词的集合,如果把一个关键词当成是一个特征,那么在上面的例子中分词结果就包含七个特征;
步骤三:n-grams算法;假设现在有另一个文档{“申请人无收入,有很多信用卡欠款”},这个文档的分词结果为{“申请人”,“无”,“收入”,“有”,“很多”,“信用卡”,“欠款”},这个例子和步骤二中的例子的意思是相反的,但是分词后如果只是独立的看每个关键词的话,两个例子都包含相同的关键词,所以如果要把两个例子的意思区分开,还需要考虑文字的上下文,在这个步骤中,使用n个连续关键词(n-grams)算法来提取文本中上下文的语义,即在文本中提取n个连续的关键词作为特征,n是用户可以自定义的参数,比如n=3,如果n=3的话,在本例中可以提取出的特征有(“申请人”,“无”,“收入”),(“有”,“很多”,“信用卡”),(“很多”,“信用卡”,“欠款”)等,参数n=3也同时包含连续的两个关键词组成的特征和单个的关键词的特征,比如(“申请人”,“无”),(“无”,“收入”),(“申请人”),(“无”)等,应用n个连续关键词算法后,从输入的文本数据中将可以提取出几万个到几十万个特征,把这些特征的集合记为fold
步骤四:PCA算法;现在需要用PCA算法,即在特征集fold所在的几万维的坐标系中生成一个新的坐标系,并在这个新的坐标系中选择最重要的m个维度,m是用户自定义的参数,比如可以设m=5,把每个维度设为一个新的特征,这些新的特征的集合记为fnew
步骤五:训练;此步骤中,把步骤四得到的新的特征集fnew与步骤一中的结构化表S合并,并把合并后的大表输入到一个机器学习的训练算法,这个算法需要可以输出特征重要性排序及权重,通常的选择是随机森林或LightGBM等;
步骤六:PCA反向算法;得到新特征集fnew的特征权重及排序后,就可以用PCA的反向算法得到步骤三中的旧特征集fold的权重及排序,反向算法计算后,旧特征集中的绝大部分特征的权重将为零,可以选择所有的权重大于零的旧特征,或选择所有权重值大于一个用户定义的最小值的旧特征,把这些选中的旧特征记为fold_selected
步骤七:集合运算;在此步骤中,做两个集合运算,定义一个新的集合fnew_all并把它的初始值设为空集,然后做如下的集合运算:
fnew_all=fnew_all+fnew
fold=fold-fold_selected
步骤八:循环;步骤七集合运算得到的新的集合fold将作为参数传入步骤四中,循环步骤四到步骤七直到集合fnew_all的元素数量到达用户定义的值为止;
步骤九:合并;在此步骤中,把从步骤八得到的fnew_all与结构化表S通过订单ID合并得到算法最终的输出fout
一实施例中:所述步骤七中的公式中的加号“+”指的是集合的并运算,减号“-”指的是集合的减运算。
一实施例中:所述步骤五中如果选择的训练算法不能输出特征重要性排序,比如神经网络算法,仍然可以用模型解析算法,比如LIME,得到特征的权重及排序。
一实施例中:所述步骤四中因为fnew中的新的特征是从新的坐标系中选出来的,所以它们是和步骤三中的特征fold是不一样的,需要用PCA的反向算法才能把fnew转换回fold
采用上述技术方案后,一方面,在汽车金融的业务中有大量的有用信息被隐藏在非结构化数据中,比如业务员输入的文本数据还有业务员与客户的通话录音等,能够使用本发明提出的算法对文本数据进行挖掘,并把它们转化为结构化数据从而可以和原有的结构化数据合并输入到风控模型中,如果有通话录音,也可以把音频转化为文本,并用类似的方法处理,这样不同格式的数据就不再零散的放置在不同的地方,而是由统一的算法合并到一起,并最终由统一的风控模型一起训练,这样就大大增加了风控模型输入的特征数,从而直接提高风控模型预测的准确度;
另一方面,本发明的风控模型不再是一个黑盒模型,风控模型将不仅提供一个预测的分数,还会输出影响这个分数的各个特征及它们的权重,用户将可以看到是哪些特征影响到了模型的预测结果,虽然用PCA算法把高维坐标系转换到低维坐标系,但是当得到低维坐标系的坐标后(即权重),能够用PCA的反向算法得到高维坐标系的坐标或权重,而高维坐标系的一个维度对应一个包含n个连续关键词的特征,也就是说,用户同样可以知道是哪些文本中的关键词(或组合)影响了模型的预测;
此外,本发明能够把文本数据转换成结构化数据,能够对文本数据进行转换并提取最有用的特征,并且能够保证重要的文本信息不会丢失。
附图说明
图1为本发明包含结构化和非结构化数据的汽车金融风控系统的具体实现流程图;
图2为本发明包含结构化和非结构化数据的汽车金融风控系统的步骤流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图2,本发明提供包含结构化和非结构化数据的汽车金融风控系统,所述包含结构化和非结构化数据的汽车金融风控系统的实现步骤如下:
步骤一:数据预处理;数据处理使用的编程语言是Python,结构化数据保存在关系型数据库MySQL中,非结构化数据保存在ApacheHadoop及ApacheHbase中;
步骤二:分词;分词使用一个Python库:结巴(jieba)中文分词,这个库的github地址是:https://github.com/fxsjy/jieba,同时需要根据业务场景定义停用词集合;
步骤三:n-grams算法;n个连续关键词的算法使用scikit-learn的TfidfVectorizer类,在初始化TfidfVectorizer类时的一个重要参数是“ngram_range”,这个参数指定连续关键词的个数范围,范围设为从1到3,即输出的特征将包含一个关键词,两个连续的关键词,及三个连续的关键词;
步骤四:PCA算法;PCA算法使用scikit-learn的decomposition.PCA类,使用这个类需要在输入数据前对数据进行标准化,使用scikit-learn的StandardScaler类对数据进行标准化,同时,在这一步中需要选择新的坐标系中最重要的m个维度,参数m是由用户决定的,参数m设置的较小的话,比如m=5,就需要更多的循环和更多的计算时间,但是循环较多的话将可以抵消因为第五步中训练算法的超参数的随机性带来的影响;
步骤五:训练;训练算法可以选择随机森林或LightGBM,如果选择scikit-learn的RandomForestClassifier类,那么在算法训练结束后可以用这个类的“feature_importances_”属性得到新特征集fnew的权重,如果需要用到模型解析算法,那么可以用LIME(LocalInterpretableModel-AgnosticExplanations)算法,LIME算法的github地址是:https://github.com/marcotcr/lime;
步骤六:PCA反向算法;因为在步骤四中用decomposition.PCA类,PCA的反向算法用decomposition.PCA类中的“inverse_transform(X)”方法,这个方法的输入参数X即为上一步“feature_importances_”属性输出的新特征集fnew的权重,可以把新特征集fnew的权重看作是新坐标系的坐标,新坐标系的每个维度即为新特征集fnew中的一个特征,inverse_transform方法将会把新坐标系的坐标转换回旧坐标系的坐标,旧坐标系的坐标即为旧特征集fold中每个特征的权重;
步骤七:集合运算;此步骤中fnew_all只初始化一次,当算法在第四步到第七步之间循环时,fnew_all不会再次初始化;
步骤八与步骤九:循环与合并;步骤九得到的最后的表fout是包含结构化数据S中所有特征及文本数据中最重要特征fnew_all的一个表,比如说结构化数据S中有500个特征(列),而文本数据中提取了300个特征(列),那么算法最后的输出是一个800列的表,这个表的行数为订单的数量,表fout将可以作为各种风控模型的输入数据。
采用上述技术方案后,一方面,在汽车金融的业务中有大量的有用信息被隐藏在非结构化数据中,比如业务员输入的文本数据还有业务员与客户的通话录音等,能够使用本发明提出的算法对文本数据进行挖掘,并把它们转化为结构化数据从而可以和原有的结构化数据合并输入到风控模型中,如果有通话录音,也可以把音频转化为文本,并用类似的方法处理,这样不同格式的数据就不再零散的放置在不同的地方,而是由统一的算法合并到一起,并最终由统一的风控模型一起训练,这样就大大增加了风控模型输入的特征数,从而直接提高风控模型预测的准确度;
另一方面,本发明的风控模型不再是一个黑盒模型,风控模型将不仅提供一个预测的分数,还会输出影响这个分数的各个特征及它们的权重,用户将可以看到是哪些特征影响到了模型的预测结果,虽然用PCA算法把高维坐标系转换到低维坐标系,但是当得到低维坐标系的坐标后(即权重),能够用PCA的反向算法得到高维坐标系的坐标或权重,而高维坐标系的一个维度对应一个包含n个连续关键词的特征,也就是说,用户同样可以知道是哪些文本中的关键词(或组合)影响了模型的预测;
此外,本发明能够把文本数据转换成结构化数据,能够对文本数据进行转换并提取最有用的特征,并且能够保证重要的文本信息不会丢失。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (2)

1.包含结构化和非结构化数据的汽车金融风控系统,其特征在于,所述包含结构化和非结构化数据的汽车金融风控系统的实现步骤如下:
步骤一:数据预处理;结构化数据为一张表,记为表S,表S的主键是订单ID,而非结构化数据中,文本被存放在不同的表或文件中,需要把同一订单的各个文本片段合并成一个文档,合并的结果是一个包含两列的表,第一列是订单ID,第二列是与这个订单有关的所有文本组成的文档;
步骤二:分词;对文档进行分词,分词的时候会过滤掉停用词,分词的结果看成是关键词的集合,把一个关键词当成是一个特征,上述分词具体是采用n-grams算法,但是分词后只是独立的看每个关键词,在这个步骤中,使用n个连续关键词算法来提取文本中上下文的语义,即在文本中提取n个连续的关键词作为特征,n是用户可以自定义的参数,应用n个连续关键词算法后,从输入的文本数据中将可以提取出几万个到几十万个特征,把这些特征的集合记为fold
步骤三:PCA算法;现在需要用PCA算法,在特征集fold所在的几万维的坐标系中生成一个新的坐标系,并在这个新的坐标系中选择最重要的m个维度,m是用户自定义的参数,把每个维度设为一个新的特征,这些新的特征的集合记为fnew
步骤四:训练;此步骤中,把步骤三得到的新的特征集fnew与步骤一中的结构化表S合并,并把合并后的大表输入到一个机器学习的训练算法,这个算法需要可以输出特征重要性排序及权重;
步骤五:PCA反向算法;PCA的反向算法用decomposition.PCA类中的“inverse_transform(X)”方法,得到新特征集fnew的特征权重及排序后,就可以用PCA的反向算法得到步骤三中的旧特征集fold的权重及排序,反向算法计算后,旧特征集中的绝大部分特征的权重将为零,可以选择所有的权重大于零的旧特征,或选择所有权重值大于一个用户定义的最小值的旧特征,把这些选中的旧特征记为fold_selected
步骤六:集合运算;在此步骤中,做两个集合运算,定义一个新的集合fnew_all并把它的初始值设为空集,然后做如下的集合运算:
fnew_all=fnew_all+fnew
fold=fold-fold_selected
步骤七:循环;步骤七集合运算得到的新的集合fold将作为参数传入步骤四中,循环步骤四到步骤七直到集合fnew_all的元素数量到达用户定义的值为止;
步骤八:合并;在此步骤中,把从步骤八得到的fnew_all与结构化表S通过订单ID合并得到算法最终的输出fout
所述步骤六中的公式中的加号“+”指的是集合的并运算,减号“-”指的是集合的交运算。
2.根据权利要求1所述的包含结构化和非结构化数据的汽车金融风控系统,其特征在于:所述步骤五中如果选择的训练算法不能输出特征重要性排序,仍然可以用模型解析算法,得到特征的权重及排序。
CN201910390762.XA 2019-05-10 2019-05-10 包含结构化和非结构化数据的汽车金融风控系统 Active CN110109994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910390762.XA CN110109994B (zh) 2019-05-10 2019-05-10 包含结构化和非结构化数据的汽车金融风控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910390762.XA CN110109994B (zh) 2019-05-10 2019-05-10 包含结构化和非结构化数据的汽车金融风控系统

Publications (2)

Publication Number Publication Date
CN110109994A CN110109994A (zh) 2019-08-09
CN110109994B true CN110109994B (zh) 2021-07-30

Family

ID=67489541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910390762.XA Active CN110109994B (zh) 2019-05-10 2019-05-10 包含结构化和非结构化数据的汽车金融风控系统

Country Status (1)

Country Link
CN (1) CN110109994B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532158B (zh) * 2019-09-03 2024-01-19 南方电网科学研究院有限责任公司 操作数据的安全评估方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427759A (zh) * 2018-03-19 2018-08-21 四川意高汇智科技有限公司 用于海量数据处理的实时数据计算方法
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106995B2 (en) * 2017-02-23 2021-08-31 International Business Machines Corporation Automatic segmentation of a collection of user profiles

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427759A (zh) * 2018-03-19 2018-08-21 四川意高汇智科技有限公司 用于海量数据处理的实时数据计算方法
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Autoencoder网络的数据降维和重构;胡昭华等;《电子与信息学报》;20090515;全文 *

Also Published As

Publication number Publication date
CN110109994A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN109271521B (zh) 一种文本分类方法及装置
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
US11288324B2 (en) Chart question answering
Benchimol et al. Text mining methodologies with R: An application to central bank texts
CN110765260A (zh) 一种基于卷积神经网络与联合注意力机制的信息推荐方法
US10699112B1 (en) Identification of key segments in document images
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
Madhavan Mastering python for data science
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
Gallo et al. Semantic text encoding for text classification using convolutional neural networks
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN110109994B (zh) 包含结构化和非结构化数据的汽车金融风控系统
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
Chopra et al. Data Science with Python: Combine Python with machine learning principles to discover hidden patterns in raw data
US11880394B2 (en) System and method for machine learning architecture for interdependence detection
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
CN111046934B (zh) 一种swift报文软条款识别方法及装置
RU2755606C2 (ru) Способ и система классификации данных для выявления конфиденциальной информации в тексте
WO2021137942A1 (en) Pattern generation
Michael et al. Htr engine based on nns p3
Kaikaus et al. Truth or fiction: Multimodal learning applied to earnings calls
CN112559841A (zh) 物品评论的处理方法、系统、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant