CN107481132A - 一种信用评估方法及系统、存储介质及终端设备 - Google Patents

一种信用评估方法及系统、存储介质及终端设备 Download PDF

Info

Publication number
CN107481132A
CN107481132A CN201710651715.7A CN201710651715A CN107481132A CN 107481132 A CN107481132 A CN 107481132A CN 201710651715 A CN201710651715 A CN 201710651715A CN 107481132 A CN107481132 A CN 107481132A
Authority
CN
China
Prior art keywords
credit
text message
classification
participle
feature words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710651715.7A
Other languages
English (en)
Inventor
张鹏
何同国
曾毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Yun Zhong Data Technology Co Ltd
Shanghai Pre Long Mdt Infotech Ltd
Original Assignee
Fuzhou Yun Zhong Data Technology Co Ltd
Shanghai Pre Long Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Yun Zhong Data Technology Co Ltd, Shanghai Pre Long Mdt Infotech Ltd filed Critical Fuzhou Yun Zhong Data Technology Co Ltd
Priority to CN201710651715.7A priority Critical patent/CN107481132A/zh
Publication of CN107481132A publication Critical patent/CN107481132A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种信用评估方法及系统、存储介质及终端设备,包括以下步骤:对信贷审核中所获取的文本信息进行分类,得到各个类别的文本信息;针对每个类别的文本信息进行文本分词,以获得该类别的特征词;基于各个类别的特征词建立信用评估模型;根据待评估客户的文本信息和所述信用评估模型,得到待评估客户的信用评估结果。本发明的信用评估方法及系统、存储介质及终端设备的适用范围广,能够满足各种特点的客户的信用评估需求,且评估结果精准。

Description

一种信用评估方法及系统、存储介质及终端设备
技术领域
本发明涉及信息处理的技术领域,特别是涉及一种信用评估方法及系统、存储介质及终端设备。
背景技术
信用评估是指信使用专家判断或数学分析方法,对个人和企业履约各种承诺能力和信誉程度进行全面评价,并用简单明了的符号或文字表达出来,以满足社会需要的市场行为。
在金融领域,尤其是信贷审核时需要对客户进行信用评估,以判断其是否具有履行信贷约定的能力和信誉程度,从而将客户标识为优质客户(信用较好)或劣质客户(信用较差)。
现有技术中主要采用一定的评分模型来判断客户的信用优劣。具体地,基于客户针对评分模型的得分来判断其信用的优劣,进而确定是否批准其信贷请求。然而,这种方式受限于评分模型,不能全面反映客户的信用状态,无法满足各种特点的客户的信用评估需求,导致信用评估结果不够精准。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种信用评估方法及系统、存储介质及终端设备,基于信贷审核中所获取的非结构化文本信息中所提取的特征词构建信用评估模型,并根据该信用评估模型实现待评估客户的信用评估。
为实现上述目的及其他相关目的,本发明提供一种信用评估方法,包括以下步骤:对信贷审核中所获取的文本信息进行分类,得到各个类别的文本信息;针对每个类别的文本信息进行文本分词,以获得该类别的特征词;基于各个类别的特征词建立信用评估模型;根据待评估客户的文本信息和所述信用评估模型,得到待评估客户的信用评估结果。
于本发明一实施例中,所述文本信息包括保险银行支付类、贷款理财信用类、生活消费类和其他类。
于本发明一实施例中,针对每个类别的文本信息进行文本分词,以获得该类别的特征词包括以下步骤:
采用停用词库和金融行业自定义词库,基于分词技术每个类别的文本信息进行分词;
计算出每个类别所获取的分词的TF-IDF词频,选取TF-IDF词频由高到低的第一预设数量的分词;
基于TF-IDF词频由高到低的第一预设数量的分词,计算每个分词的信息增益,选取信息增益由高到低的第二预设数量的分词;所述第二预设数量小于所述第一预设数量;
对所述第二预设数量的分词进行筛选、优化、组合,获取该类别的特征词。
于本发明一实施例中,基于各个类别的特征词建立信用评估模型包括以下步骤:
获取各个类别的特征词的0/1变量和TF-IDF词频;当文本信息中包含某一特征词时,该特征词的0/1变量为1;当文本信息中不包含某一特征词时,该特征词的0/1变量为0;
基于特征词的0/1变量和TF-IDF词频,采用二分类Logistic回归算法构建信用评估模型。
相应地,本发明还提供一种信用评估系统,包括分类模块、特征词获取模块、模型建立模块和评估模块;
所述分类模块用于对信贷审核中所获取的文本信息进行分类,得到各个类别的文本信息;
所述特征词获取模块用于针对每个类别的文本信息进行文本分词,以获得该类别的特征词;
所述模型建立模块用于基于各个类别的特征词建立信用评估模型;
所述评估模块用于根据待评估客户的文本信息和所述信用评估模型,得到待评估客户的信用评估结果。
于本发明一实施例中,所述文本信息包括保险银行支付类、贷款理财信用类、生活消费类和其他类。
于本发明一实施例中,所述特征词获取模块执行以下操作:
采用停用词库和金融行业自定义词库,基于分词技术每个类别的文本信息进行分词;
计算出每个类别所获取的分词的TF-IDF词频,选取TF-IDF词频由高到低的第一预设数量的分词;
基于TF-IDF词频由高到低的第一预设数量的分词,计算每个分词的信息增益,选取信息增益由高到低的第二预设数量的分词;所述第二预设数量小于所述第一预设数量;
对所述第二预设数量的分词进行筛选、优化、组合,获取该类别的特征词。
于本发明一实施例中,所述模型建立模块执行以下操作:
获取各个类别的特征词的0/1变量和TF-IDF词频;当文本信息中包含某一特征词时,该特征词的0/1变量为1;当文本信息中不包含某一特征词时,该特征词的0/1变量为0;
基于特征词的0/1变量和TF-IDF词频,采用二分类Logistic回归算法构建信用评估模型。
另外,本发明还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述信用评估方法。
最后,本发明还提供一种终端设备,包括通信器、处理器及存储器;
所述通信器用于获取信贷审核中的文本信息和待评估客户的文本信息;
所述存储器用于存储计算机程序;
所述处理器用于根据所获取的信贷审核中的文本信息和待评估客户的文本信息,执行所述存储器存储的计算机程序,以使所述终端设备执行上述任一项所述信用评估方法。
如上所述,本发明的信用评估方法及系统、存储介质及终端设备,具有以下有益效果:
(1)基于信贷审核中所获取的文本信息中所提取的特征词构建信用评估模型,并根据该信用评估模型实现待评估客户的信用评估;
(2)实现了基于非结构化文本信息分类功能的信用评估,能够利用文本信息充分理解客户行为,并合理评估客户征信;
(3)信用评估模型的适用范围广,能够满足各种特点的客户的信用评估需求,且评估结果精准。
附图说明
图1显示为本发明的信用评估方法于一实施例中的流程图;
图2显示为本发明的信用评估系统于一实施例中的结构示意图;
图3显示为本发明的终端设备于一实施例中的结构示意图。
元件标号说明
1 信用评估系统
11 分类模块
12 特征词获取模块
13 模型建立模块
14 评估模块
3 终端设备
31 通信器
32 处理器
33 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的信用评估方法及系统、存储介质及终端设备应用于信贷审核的过程中,将信贷审核中所获取的非结构化文本信息作为训练样本,采用训练样本中所提取的特征词构建信用评估模型,并根据该信用评估模型实现待评估客户的信用评估。
如图1所示,于一实施例中,本发明的信用评估方法,包括以下步骤:
步骤S1、对信贷审核中所获取的文本信息进行分类,得到各个类别的文本信息。
具体地,将信贷审核中所获取的文本信息作为训练样本,对训练样本进行分类,从而得到各个类别的文本信息。之所以进行文本信息的分类,是因为相同的词在不同类别里面代表的含义不同。例如,在生活消费里面出现的“人民币”代表个人消费情况;在银行通知类文本里面出现的“人民币”代表个人收入或支出。因此,一个词的分类需要组合其他词汇来进行判断。
其中,文本分类技术(Text Classification)作为数据挖掘技术的一个分支,已广泛的应用于Web挖掘、文献查找、信息检索等多个方面。文本分类技术产生于20世纪60年代,到目前为止它的发展经历了理论产生、工程研究、机器学习等阶段。文本分类技术利用对文本所包含知识的自动学习、建立分类器,根据待分类文档的内容自动实现类别的划分。分类过程不需要人工的干预,具有效率高,准确率高的特点。
在信贷审核领域,依据应用场景,将文本信息分为以下四个大类:
(1)保险银行支付类;
(2)贷款理财信用类;
(3)生活消费;
(4)其他类。
需要说明的是,本发明中所指的其他类是指除保险银行支付类、贷款理财信用类和生活消费类外的类别。
优选地,将每个文本信息按照关键词进行分类。一般来说,需要针对各类别的文本信息建立一系列的关键词列表。根据类别关键词表来匹配文本信息中的词汇,若当前文本信息的内容中在某类关键词列表中的出现数目多,则判定该文本信息属于该类别。基于关键词的分类技术具有实现简单、处理高效的特点,但是需要人工的对类别关键词列表进行构建,而且需要及时的更新。这是因为非结构化文本信息的语言组织形式是在不断变化中的,例如:“请汇款”,可以通过形式改变为“请:)汇Жξ款*^”等方式避开关键词的匹配。
具体地,基于文本信息中包含的主题关键词进行分类,以形成信息分类码表。其中,针对信贷审核领域,关键词可以特殊符号“【】”中的词。
优选地,采用以下两种方式对关键词进行处理,以得到文本信息的分类:
(1)采用正则表达式对关键词进行处理,得到文本信息的分类。
正则表达式(RE,Regular Expression)是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。具体地,给定一个正则表达式和一个字符串,首先判断给定的字符串是否符合正则表达式的过滤逻辑;若符合,则从字符串中获取所需的特定部分。因此,正则表达式的灵活性、逻辑性和功能性非常的强,可以迅速地用极简单的方式达到字符串的复杂控制。
(2)采用了行业名单模糊匹配的方式,不断收集行业名单,通过匹配文本信息中的主题关键词和行业名单,来得到文本信息的分类。
步骤S2、针对每个类别的文本信息进行文本分词,以获得该类别的特征词。
具体地,针对每个类别的文本信息,采用分词技术进行文本分词,从而获得该类别的特征词。优选地,本发明中所涉及的分词是指中文分词。中文分词(Chinese WordSegmentation)是指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
于本发明一实施例中,针对每个类别的文本信息进行文本分词,以获得该类别的特征词包括以下步骤:
1)采用停用词库和金融行业自定义词库,基于分词技术每个类别的文本信息进行分词。
由于本发明涉及信贷审核领域,现有的分词算法中没有金融相关的词库,故本发明须自己构建金融行业自定义词库。
优选地,本发明采用jieba(结巴)分词技术实现每个类别的文本信息的分词。结巴分词是国内程序员用Python开发的一个中文分词模块。由于结巴分词是成熟的现有技术,故在此不再赘述。当然,本发明还可以采用盘古分词、庖丁解牛、搜狗分词、SCWS分词等技术实现文本信息的分词。
2)计算出每个类别所获取的分词的TF-IDF词频,选取TF-IDF词频由高到低的第一预设数量的分词。
统计发现,重复次数过高的词汇其重要性有可能较低,相反,若一个词的出现频率较低,并且内容包含该词汇的文本数目较小,即该词的包含面较小,那么也需要将其考虑进能够反映文本意思的重要词汇当中。TF-IDF词频计算方法称为特征词频(Term Frequency,TF)逆向文件频率法(Inverse Document Frequency,IDF)。该方法包括以下步骤:
a)计算特征词频tf
通常认为某词汇在文本中的重复频率越高,就越能代表包含该词汇的文本。因此TF法用词汇在相同文本中的重复频率来表示权重,设某词汇为w,其在文本中重复的次数为f,那么该词的特征词频为tf=f。
b)计算逆向文件频率idf
一个词如果出现的频率很低,则它应该是反映该文本的重要词汇。也就是说一个词语在越多的文档中出现,则对于文本类别的区分能力越弱。故idf=log(N/DF)。其中,N表示文档总数,DF(Document Frequency)表示文件频率值,即含有当前词汇的文档的数量。
c)计算TF-IDF词频W
W=tf*idf
其中,第一预设数量可根据实际分词数量进行设置。
3)基于TF-IDF词频由高到低的第一预设数量的分词,计算每个分词的信息增益,选取信息增益由高到低的第二预设数量的分词;所述第二预设数量小于所述第一预设数量。
每个文本都可以由若干分词特征组成。针对一个分词特征,系统有它和没它的时候信息量各是多少,两者的差值就是这个分词特征给系统带来的信息量,即信息增益(Information Gain,IG)。因此,带来的信息越多,表明该分词特征越重要。因此,通过计算每个分词的信息增益,进一步筛选出重要性级别更高的第二预设数量的分词。通常,根据实际情况确定第二预设数量的大小。
4)对所述第二预设数量的分词进行筛选、优化、组合,获取该类别的特征词。
具体地,可通过人工筛选、优化、组合的方式来获取该类别的特征词,也可通过一定的算法来筛选、优化、组合分词,以得到该类别的特征词。
步骤S3、基于各个类别的特征词建立信用评估模型。
具体地,针对训练样本中各个类别的特征词,采用一定的算法训练得到信用评估模型。需要说明的是,该信用评估模型是基于所有分类的文本信息的特征词实现的。特征词的TF-IDF词频即体现了该特征词的占比。
优选地,在建立信用评估模型时,采用前进法(stepwise)选择变量。
于本发明一实施例中,基于各个类别的特征词建立信用评估模型包括以下步骤:
A)获取各个类别的特征词的0/1变量和TF-IDF词频;当文本信息中包含某一特征词时,该特征词的0/1变量为1;当文本信息中不包含某一特征词时,该特征词的0/1变量为0;
B)基于特征词的0/1变量和TF-IDF词频,采用二分类Logistic回归算法构建信用评估模型。
步骤S4、根据待评估客户的文本信息和所述信用评估模型,得到待评估客户的信用评估结果,从而能够利用文本信息充分理解客户行为,并合理评估客户征信。
具体地,对于待评估客户的文本信息,通过上述的分类、特征词获取的处理,可获得对应的特征词,将待评估客户的特征词应用到所述信用评估模型即可得到待评估客户的信用评估结果,即优质客户或劣质客户。
如图2所示,于一实施例中,本发明的信用评估系统1包括分类模块11、特征词获取模块12、模型建立模块13和评估模块14。
分类模块11用于对信贷审核中所获取的文本信息进行分类,得到各个类别的文本信息。
具体地,将信贷审核中所获取的文本信息作为训练样本,对训练样本进行分类,从而得到各个类别的文本信息。之所以进行文本信息的分类,是因为相同的词在不同类别里面代表的含义不同。例如,在生活消费里面出现的“人民币”代表个人消费情况;在银行通知类文本里面出现的“人民币”代表个人收入或支出。因此,一个词的分类需要组合其他词汇来进行判断。
其中,文本分类技术(Text Classification)作为数据挖掘技术的一个分支,已广泛的应用于Web挖掘、文献查找、信息检索等多个方面。文本分类技术产生于20世纪60年代,到目前为止它的发展经历了理论产生、工程研究、机器学习等阶段。文本分类技术利用对文本所包含知识的自动学习、建立分类器,根据待分类文档的内容自动实现类别的划分。分类过程不需要人工的干预,具有效率高,准确率高的特点。
在信贷审核领域,依据应用场景,将文本信息分为以下四个大类:
(1)保险银行支付类;
(2)贷款理财信用类;
(3)生活消费;
(4)其他类。
需要说明的是,本发明中所指的其他类是指除保险银行支付类、贷款理财信用类和生活消费类外的类别。
优选地,将每个文本信息按照关键词进行分类。一般来说,需要针对各类别的文本信息建立一系列的关键词列表。根据类别关键词表来匹配文本信息中的词汇,若当前文本信息的内容中在某类关键词列表中的出现数目多,则判定该文本信息属于该类别。基于关键词的分类技术具有实现简单、处理高效的特点,但是需要人工的对类别关键词列表进行构建,而且需要及时的更新。这是因为非结构化文本信息的语言组织形式是在不断变化中的,例如:“请汇款”,可以通过形式改变为“请:)汇Жξ款*^”等方式避开关键词的匹配。
具体地,基于文本信息中包含的主题关键词进行分类,以形成信息分类码表。其中,针对信贷审核领域,关键词可以特殊符号“【】”中的词。
优选地,采用以下两种方式对关键词进行处理,以得到文本信息的分类:
(1)采用正则表达式对关键词进行处理,得到文本信息的分类。
正则表达式(RE,Regular Expression)是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。具体地,给定一个正则表达式和一个字符串,首先判断给定的字符串是否符合正则表达式的过滤逻辑;若符合,则从字符串中获取所需的特定部分。因此,正则表达式的灵活性、逻辑性和功能性非常的强,可以迅速地用极简单的方式达到字符串的复杂控制。
(2)采用了行业名单模糊匹配的方式,不断收集行业名单,通过匹配文本信息中的主题关键词和行业名单,来得到文本信息的分类。
特征词获取模块12与分类模块11相连,用于针对每个类别的文本信息进行文本分词,以获得该类别的特征词。
具体地,针对每个类别的文本信息,采用分词技术进行文本分词,从而获得该类别的特征词。优选地,本发明中所涉及的分词是指中文分词。中文分词(Chinese WordSegmentation)是指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
于本发明一实施例中,针对每个类别的文本信息进行文本分词,以获得该类别的特征词包括以下步骤:
1)采用停用词库和金融行业自定义词库,基于分词技术每个类别的文本信息进行分词。
由于本发明涉及信贷审核领域,现有的分词算法中没有金融相关的词库,故本发明须自己构建金融行业自定义词库。
优选地,本发明采用jieba(结巴)分词技术实现每个类别的文本信息的分词。结巴分词是国内程序员用Python开发的一个中文分词模块。由于结巴分词是成熟的现有技术,故在此不再赘述。当然,本发明还可以采用盘古分词、庖丁解牛、搜狗分词、SCWS分词等技术实现文本信息的分词。
2)计算出每个类别所获取的分词的TF-IDF词频,选取TF-IDF词频由高到低的第一预设数量的分词。
统计发现,重复次数过高的词汇其重要性有可能较低,相反,若一个词的出现频率较低,并且内容包含该词汇的文本数目较小,即该词的包含面较小,那么也需要将其考虑进能够反映文本意思的重要词汇当中。TF-IDF词频计算方法称为特征词频(Term Frequency,TF)逆向文件频率法(Inverse Document Frequency,IDF)。该方法包括以下步骤:
a)计算特征词频tf
通常认为某词汇在文本中的重复频率越高,就越能代表包含该词汇的文本。因此TF法用词汇在相同文本中的重复频率来表示权重,设某词汇为w,其在文本中重复的次数为f,那么该词的特征词频为tf=f。
b)计算逆向文件频率idf
一个词如果出现的频率很低,则它应该是反映该文本的重要词汇。也就是说一个词语在越多的文档中出现,则对于文本类别的区分能力越弱。故idf=log(N/DF)。其中,N表示文档总数,DF(Document Frequency)表示文件频率值,即含有当前词汇的文档的数量。
c)计算TF-IDF词频W
W=tf*idf
其中,第一预设数量可根据实际分词数量进行设置。
3)基于TF-IDF词频由高到低的第一预设数量的分词,计算每个分词的信息增益,选取信息增益由高到低的第二预设数量的分词;所述第二预设数量小于所述第一预设数量。
每个文本都可以由若干分词特征组成。针对一个分词特征,系统有它和没它的时候信息量各是多少,两者的差值就是这个分词特征给系统带来的信息量,即信息增益(Information Gain,IG)。因此,带来的信息越多,表明该分词特征越重要。因此,通过计算每个分词的信息增益,进一步筛选出重要性级别更高的第二预设数量的分词。通常,根据实际情况确定第二预设数量的大小。
4)对所述第二预设数量的分词进行筛选、优化、组合,获取该类别的特征词。
具体地,可通过人工筛选、优化、组合的方式来获取该类别的特征词,也可通过一定的算法来筛选、优化、组合分词,以得到该类别的特征词。
模型建立模块13与特征词获取模块12相连,用于基于各个类别的特征词建立信用评估模型。
具体地,针对训练样本中各个类别的特征词,采用一定的算法训练得到信用评估模型。需要说明的是,该信用评估模型是基于所有分类的文本信息的特征词实现的。特征词的TF-IDF词频即体现了该特征词的占比。
优选地,在建立信用评估模型时,采用前进法(stepwise)选择变量。
于本发明一实施例中,基于各个类别的特征词建立信用评估模型包括以下步骤:
A)获取各个类别的特征词的0/1变量和TF-IDF词频;当文本信息中包含某一特征词时,该特征词的0/1变量为1;当文本信息中不包含某一特征词时,该特征词的0/1变量为0;
B)基于特征词的0/1变量和TF-IDF词频,采用二分类Logistic回归算法构建信用评估模型。
评估模块14与模型建立模块13相连,用于根据待评估客户的文本信息和所述信用评估模型,得到待评估客户的信用评估结果,从而能够利用文本信息充分理解客户行为,并合理评估客户征信。
具体地,对于待评估客户的文本信息,通过上述的分类、特征词获取的处理,可获得对应的特征词,将待评估客户的特征词应用到所述信用评估模型即可得到待评估客户的信用评估结果,即优质客户或劣质客户。
本发明的存储介质上存储有计算机程序,该程序被处理器执行时实现上述任一项所述信用评估方法。
优选地,存储介质包括ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图3所示,于一实施例中,本发明的终端设备3包括通信器31、处理器32及存储器33。
所述通信器31用于获取信贷审核中的文本信息和待评估客户的文本信息。
所述存储器33用于存储计算机程序。
所述处理器32用于根据所获取的信贷审核中的文本信息和待评估客户的文本信息,执行所述存储器存储的计算机程序,以使所述终端设备执行上述任一项所述信用评估方法。
优选地,处理器32可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明的信用评估方法及系统、存储介质及终端设备基于信贷审核中所获取的文本信息中所提取的特征词构建信用评估模型,并根据该信用评估模型实现待评估客户的信用评估;实现了基于非结构化文本信息分类功能的信用评估,能够利用文本信息充分理解客户行为,并合理评估客户征信;信用评估模型的适用范围广,能够满足各种特点的客户的信用评估需求,且评估结果精准。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种信用评估方法,其特征在于:包括以下步骤:
对信贷审核中所获取的文本信息进行分类,得到各个类别的文本信息;
针对每个类别的文本信息进行文本分词,以获得该类别的特征词;
基于各个类别的特征词建立信用评估模型;
根据待评估客户的文本信息和所述信用评估模型,得到待评估客户的信用评估结果。
2.根据权利要求1所述的信用评估方法,其特征在于:所述文本信息包括保险银行支付类、贷款理财信用类、生活消费类和其他类。
3.根据权利要求1所述的信用评估方法,其特征在于:针对每个类别的文本信息进行文本分词,以获得该类别的特征词包括以下步骤:
采用停用词库和金融行业自定义词库,基于分词技术每个类别的文本信息进行分词;
计算出每个类别所获取的分词的TF-IDF词频,选取TF-IDF词频由高到低的第一预设数量的分词;
基于TF-IDF词频由高到低的第一预设数量的分词,计算每个分词的信息增益,选取信息增益由高到低的第二预设数量的分词;所述第二预设数量小于所述第一预设数量;
对所述第二预设数量的分词进行筛选、优化、组合,获取该类别的特征词。
4.根据权利要求1所述的信用评估方法,其特征在于:基于各个类别的特征词建立信用评估模型包括以下步骤:
获取各个类别的特征词的0/1变量和TF-IDF词频;当文本信息中包含某一特征词时,该特征词的0/1变量为1;当文本信息中不包含某一特征词时,该特征词的0/1变量为0;
基于特征词的0/1变量和TF-IDF词频,采用二分类Logistic回归算法构建信用评估模型。
5.一种信用评估系统,其特征在于:包括分类模块、特征词获取模块、模型建立模块和评估模块;
所述分类模块用于对信贷审核中所获取的文本信息进行分类,得到各个类别的文本信息;
所述特征词获取模块用于针对每个类别的文本信息进行文本分词,以获得该类别的特征词;
所述模型建立模块用于基于各个类别的特征词建立信用评估模型;
所述评估模块用于根据待评估客户的文本信息和所述信用评估模型,得到待评估客户的信用评估结果。
6.根据权利要求5所述的信用评估系统,其特征在于:所述文本信息包括保险银行支付类、贷款理财信用类、生活消费类和其他类。
7.根据权利要求5所述的信用评估系统,其特征在于:所述特征词获取模块执行以下操作:
采用停用词库和金融行业自定义词库,基于分词技术每个类别的文本信息进行分词;
计算出每个类别所获取的分词的TF-IDF词频,选取TF-IDF词频由高到低的第一预设数量的分词;
基于TF-IDF词频由高到低的第一预设数量的分词,计算每个分词的信息增益,选取信息增益由高到低的第二预设数量的分词;所述第二预设数量小于所述第一预设数量;
对所述第二预设数量的分词进行筛选、优化、组合,获取该类别的特征词。
8.根据权利要求5所述的信用评估系统,其特征在于:所述模型建立模块执行以下操作:
获取各个类别的特征词的0/1变量和TF-IDF词频;当文本信息中包含某一特征词时,该特征词的0/1变量为1;当文本信息中不包含某一特征词时,该特征词的0/1变量为0;
基于特征词的0/1变量和TF-IDF词频,采用二分类Logistic回归算法构建信用评估模型。
9.一种存储介质,其特征在于:其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至4中任一项所述信用评估方法。
10.一种终端设备,其特征在于:包括通信器、处理器及存储器;
所述通信器用于获取信贷审核中的文本信息和待评估客户的文本信息;
所述存储器用于存储计算机程序;
所述处理器用于根据所获取的信贷审核中的文本信息和待评估客户的文本信息,执行所述存储器存储的计算机程序,以使所述终端设备执行上述任一项所述信用评估方法。
CN201710651715.7A 2017-08-02 2017-08-02 一种信用评估方法及系统、存储介质及终端设备 Pending CN107481132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710651715.7A CN107481132A (zh) 2017-08-02 2017-08-02 一种信用评估方法及系统、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710651715.7A CN107481132A (zh) 2017-08-02 2017-08-02 一种信用评估方法及系统、存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN107481132A true CN107481132A (zh) 2017-12-15

Family

ID=60598193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710651715.7A Pending CN107481132A (zh) 2017-08-02 2017-08-02 一种信用评估方法及系统、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN107481132A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898476A (zh) * 2018-06-14 2018-11-27 中国银行股份有限公司 一种贷款客户信用评分方法和装置
CN109558592A (zh) * 2018-11-29 2019-04-02 上海点融信息科技有限责任公司 基于人工智能获取客户信用风险评估信息的方法及设备
CN110046981A (zh) * 2018-01-15 2019-07-23 腾讯科技(深圳)有限公司 一种信用评估方法、装置及存储介质
CN110083759A (zh) * 2019-03-15 2019-08-02 深圳壹账通智能科技有限公司 舆论信息爬取方法、装置、计算机设备及存储介质
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN110362825A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种基于文本的金融数据抽取方法、装置和电子设备
CN110544155A (zh) * 2019-09-02 2019-12-06 中诚信征信有限公司 用户信用评分的获取方法、获取装置、服务器及存储介质
CN112069288A (zh) * 2019-05-23 2020-12-11 中国移动通信集团河南有限公司 数据的处理方法、装置和电子设备
CN112819610A (zh) * 2021-02-26 2021-05-18 重庆度小满优扬科技有限公司 信用的评估方法、信用评估模型的训练方法以及设备
CN113408266A (zh) * 2020-12-02 2021-09-17 腾讯科技(深圳)有限公司 文本处理方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
CN105488599A (zh) * 2015-12-29 2016-04-13 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN105512191A (zh) * 2015-11-25 2016-04-20 南京莱斯信息技术股份有限公司 一种具备人工行为学习能力的行业特征分析器
CN105528465A (zh) * 2016-02-03 2016-04-27 天弘基金管理有限公司 信用状况评估方法及装置
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763431A (zh) * 2010-01-06 2010-06-30 电子科技大学 基于海量网络舆情信息的pl聚类处理方法
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN105512191A (zh) * 2015-11-25 2016-04-20 南京莱斯信息技术股份有限公司 一种具备人工行为学习能力的行业特征分析器
CN105488599A (zh) * 2015-12-29 2016-04-13 杭州数梦工场科技有限公司 预测文章热度的方法和装置
CN105528465A (zh) * 2016-02-03 2016-04-27 天弘基金管理有限公司 信用状况评估方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046981A (zh) * 2018-01-15 2019-07-23 腾讯科技(深圳)有限公司 一种信用评估方法、装置及存储介质
CN110046981B (zh) * 2018-01-15 2022-03-08 腾讯科技(深圳)有限公司 一种信用评估方法、装置及存储介质
CN108898476A (zh) * 2018-06-14 2018-11-27 中国银行股份有限公司 一种贷款客户信用评分方法和装置
CN109558592A (zh) * 2018-11-29 2019-04-02 上海点融信息科技有限责任公司 基于人工智能获取客户信用风险评估信息的方法及设备
CN110083759A (zh) * 2019-03-15 2019-08-02 深圳壹账通智能科技有限公司 舆论信息爬取方法、装置、计算机设备及存储介质
CN112069288A (zh) * 2019-05-23 2020-12-11 中国移动通信集团河南有限公司 数据的处理方法、装置和电子设备
CN110362825A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种基于文本的金融数据抽取方法、装置和电子设备
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN110544155A (zh) * 2019-09-02 2019-12-06 中诚信征信有限公司 用户信用评分的获取方法、获取装置、服务器及存储介质
CN110544155B (zh) * 2019-09-02 2023-05-19 中诚信征信有限公司 用户信用评分的获取方法、获取装置、服务器及存储介质
CN113408266A (zh) * 2020-12-02 2021-09-17 腾讯科技(深圳)有限公司 文本处理方法、装置、设备以及存储介质
CN112819610A (zh) * 2021-02-26 2021-05-18 重庆度小满优扬科技有限公司 信用的评估方法、信用评估模型的训练方法以及设备

Similar Documents

Publication Publication Date Title
CN107481132A (zh) 一种信用评估方法及系统、存储介质及终端设备
Sadiq et al. Discrepancy detection between actual user reviews and numeric ratings of Google App store using deep learning
Xiao et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction
Natesan Ramamurthy et al. Model agnostic multilevel explanations
US11074412B1 (en) Machine learning classification system
CN109918499A (zh) 一种文本分类方法、装置、计算机设备及存储介质
EP3846034A1 (en) Systems and methods for automated testing using artificial intelligence techniques
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
Florez-Lopez et al. Modelling credit risk with scarce default data: on the suitability of cooperative bootstrapped strategies for small low-default portfolios
CN114077836A (zh) 一种基于异构神经网络的文本分类方法及装置
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
Zhang et al. An attention‐based Logistic‐CNN‐BiLSTM hybrid neural network for credit risk prediction of listed real estate enterprises
Kadam et al. Word embedding based multinomial naive bayes algorithm for spam filtering
Lakshmi et al. Association rule mining based fuzzy manta ray foraging optimization algorithm for frequent itemset generation from social media
CN111061876A (zh) 事件舆情数据分析方法及装置
CN115994331A (zh) 基于决策树的报文分拣方法及装置
Salih et al. C4. 5 versus other decision trees: A review
Gupta et al. Food Review Analysis and Sentiment Prediction using Machine Learning Models
Pradeepa et al. HGATT_LR: transforming review text classification with hypergraphs attention layer and logistic regression
US20240126977A1 (en) Method and system for classifying one or more hyperlinks in a document
Sunil et al. Customer review classification using machine learning and deep learning techniques
KR102497436B1 (ko) 음성 신호를 포함하는 컨텐츠를 기반으로 타겟 단어와 관련된 정보를 획득하는 방법
Rethmeier et al. Self-supervised contrastive zero to few-shot learning from small, long-tailed text data
Fields Sensitivity of Machine Learning Algorithms to Dataset Drift for the Natural Language Processing Application of Spam Filters
Alshemaimri et al. GCN-Based Issues Classification in Software Repository

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171215

RJ01 Rejection of invention patent application after publication