CN110232328A - 一种征信报告解析方法、装置及计算机可读存储介质 - Google Patents
一种征信报告解析方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110232328A CN110232328A CN201910428124.2A CN201910428124A CN110232328A CN 110232328 A CN110232328 A CN 110232328A CN 201910428124 A CN201910428124 A CN 201910428124A CN 110232328 A CN110232328 A CN 110232328A
- Authority
- CN
- China
- Prior art keywords
- report
- parsing
- text
- content
- analyzed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 38
- 238000013145 classification model Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 13
- 230000001755 vocal effect Effects 0.000 claims description 10
- 238000013479 data entry Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims 1
- 230000015654 memory Effects 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种征信报告解析方法、装置及计算机可读存储介质。该方法包括:设备获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,并对该征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告进行训练,以获取图像识别模型和文本分类模型,然后将待分析的征信报告输入到该图像识别模型以获得待分析的征信报告的文本内容,再将该文本内容输入到该文本分类模型以输出解析报告。采用本发明实施例,能够提高对征信报告的分析速度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种征信报告解析方法、装置及计算机可读存储介质。
背景技术
个人征信报告是反应个人信用最真实、直观的材料,通过个人征信报告获取个人的信用情况,从而决策是否给予信用贷款是国内金融信贷机构通行的做法。
然而一份征信报告的内容非常多,通常都有十多页以上,如果人工读取全部内容并录入模型,则工作量极其庞大,人工成本较高。并且对于信贷而言该征信报告中并非全部内容均有用。因此,如何快速精准地获取个人征信报告中对信贷有帮助的信息是本领域的技术人员正在研究的技术问题。
发明内容
本发明实施例公开了一种征信报告解析方法、装置及计算机可读存储介质,能够提升获取征信报告信息的效率和准确度。
第一方面,本发明实施例提供了一种征信报告解析方法,该方法包括:
获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;
对所述多个征信报告和所述多个征信报告的文本内容进行训练以获得图像识别模型,以及对所述多个征信报告的文本内容和解析报告进行训练以获得文本分类模型;
将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;
将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
在上述方法中,设备通过大量的征信报告数据训练图像识别模型和文本分类模型,然后将待分析的征信报告输入到该图像识别模型以获得文本内容,再将该文本内容输入到该文本分类模型以输出解析报告。由于图像识别模型和文本分类模型是根据大量征信报告数据训练得到,因此基于该图像识别模型和文本分类模型预测的解析报告准确度非常高。另外,对待分析的征信报告的分析过程中,完全由设备自动完成,无需人为参与,极大地提高了对征信报告的分析速度。
基于第一方面,在其中一种可选的实现方式中,所述征信报告的解析报告包括:所述任意一个征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
基于第一方面,在其中一种可选的实现方式中,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告,包括:
提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;
将所述结构化数据输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
基于第一方面,在其中一种可选的实现方式中,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,还包括:
根据所述解析报告筛选出符合预设条件的征信报告;
获取所述符合预设条件的征信报告对应的人工解析报告,若所述符合预设条件的征信报告对应的人工解析报告与所述符合预设条件的征信报告的解析报告之间的相似率低于阈值,则通过所述符合预设条件的征信报告、所述符合预设条件的征信报告的文本内容和所述符合预设条件的征信报告对应的人工解析报告更新所述图像识别模型和所述文本分类模型。
这种实现方式通过对符合预设条件的征信报告进行人工解析,并利用人工解析报告重新训练模型的方式,提高了模型的准确度,从而提高了解析报告的准确度。
基于第一方面,在其中一种可选的实现方式中,所述根据所述解析报告筛选出符合预设条件的征信报告包括:
若所述解析报告包括所述征信报告的风险等级信息,则筛选出所述风险等级信息中包含预设等级信息的征信报告;
若所述解析报告包括所述征信报告的风险评分,则筛选出所述风险评分在阈值范围内的征信报告;
若所述解析报告包括所述征信报告的不超过预设字符数的针对风险的文字描述,则筛选出所述针对风险的文字描述中包含预设字段的征信报告。
基于第一方面,在其中一种可选的实现方式中,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,所述根据所述解析报告筛选出符合预设条件的征信报告之前,还包括:
保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
这种实现方式通过保存并训练每次的征信报告、文本内容以及解析报告,实现了不断的更新模型训练样本,提高模型的准确度,从而提高解析报告的准确度。
第二方面,本发明实施例提供了一种征信报告解析装置,包括:
获取单元,用于获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;
训练单元,用于对所述多个征信报告和所述多个征信报告的文本内容进行训练以获得图像识别模型,以及对所述多个征信报告的文本内容和解析报告进行训练以获得文本分类模型;
第一解析单元,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;
第二解析单元,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
基于第二方面,在其中一种可选的实现方式中,任意一个征信报告的解析报告包括:所述任意一个征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
基于第二方面,在其中一种可选的实现方式中,所述第二解析单元包括:
结构化子单元,用于提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;
解析子单元,用于将所述结构化数据输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
基于第二方面,在其中一种可选的实现方式中,所述装置还包括:
筛选单元,用于在将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告;
获取训练单元,用于获取所述符合预设条件的征信报告对应的人工解析报告,若所述符合预设条件的征信报告对应的人工解析报告与所述符合预设条件的征信报告的解析报告之间的相似率低于阈值,则通过所述符合预设条件的征信报告、所述符合预设条件的征信报告的文本内容和所述符合预设条件的征信报告对应的人工解析报告更新所述图像识别模型和所述文本分类模型。
基于第二方面,在其中一种可选的实现方式中,所述筛选单元具体包括:
在将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,若所述解析报告包括所述征信报告的风险等级信息,则筛选出所述风险等级信息中包含预设等级信息的征信报告;
若所述解析报告包括所述征信报告的风险评分,则筛选出所述风险评分在阈值范围内的征信报告;
若所述解析报告包括所述征信报告的不超过预设字符数的针对风险的文字描述,则筛选出所述针对风险的文字描述中包含预设字段的征信报告。
基于第二方面,在其中一种可选的实现方式中,所述装置还包括:
保存单元,用于在将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,所述设备根据所述解析报告筛选出符合预设条件的征信报告之前,保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
需要说明的是,第二方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述,此处不再赘述。
第三方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。
需要说明的是,第三方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图作简单地介绍。
图1是本发明实施例提供的一种征信报告解析设备的结构示意图;
图2是本发明实施例提供的一种征信报告解析方法的流程示意图;
图3是本发明实施例提供的一种征信报告解析方法的图像识别成功率与样本数量之间的关系图;
图4是本发明实施例提供的一种征信报告解析方法的文本分类成功率与样本数量之间的关系图。
图5是本发明实施例提供的一种征信报告解析方法的非结构化文本图;
图6是本发明实施例提供的一种征信报告解析方法的结构性文本图;
图7是本发明实施例提供的一种征信报告解析装置的结构示意图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行描述。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。在本申请说明书中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本说明书中使用的术语“设备”、“单元”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,设备可以是但不限于,处理器,数据处理平台,计算设备,计算机,2个或更多个计算机等。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
为了更好的理解本发明实施例提供的一种征信报告解析方法、装置及计算机可读存储介质,下面先对本发明实施例的征信报告解析方法的系统架构进行描述。本申请实施例的征信报告解析方法可以由设备来执行,该设备可以指一个服务器、或者由多个服务器组成的服务器集群、或者其他具有计算能力的设备。
参阅图1,图1是本方案实施例提供的征信报告解析方法的设备示意图。设备10可以包括处理器101、存储器104和通信模块105,处理器101、存储器104和通信模块105可以通过总线106相互连接。存储器104可以是高速随机存储记忆体(Random Access Memory,RAM)存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器104可选的还可以是至少一个位于远离前述处理器101的存储系统。存储器104用于存储应用程序代码,可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序;通信模块105用于与外部设备进行信息交互,其中可以包括用来进行无线、有线或其他通信方式的单元。可选的,可以将103部分中用于实现接收功能的器件视为接收单元,将用于实现发送功能的器件视为发送单元,即103部分包括接收单元和发送单元;处理器101也可以称为处理单元,处理单板,处理模块,处理装置等。处理器可以是中央处理器(centralprocessing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。当处理器101调用存储器104的征信报告解析程序时,执行图2所示的方法。
在具体实现中,征信报告解析设备10可以包括移动手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动互联网设备(Mobile Internet Device,MID)、智能穿戴设备(如智能手表、智能手环)等各种用户可以使用的设备,本申请实施例不作具体限定。
可选的,该设备可以为一个或多个服务器(多个服务器可以构成一个服务器集群),服务器上需要运行有相应的服务器端程序来提供相应的征信报告解析服务,如数据库服务、数据解析、决策执行等等。
下面结合图2就本申请的征信报告解析方法进行说明,如图2所示,其为本申请实施例提供的一种征信报告解析方法的流程示意图,该方法可以基于图1所示的设备来实现,该方法可以包括但不限于以下步骤:
步骤S201:获取多个征信报告以及多个征信报告中每个征信报告的文本内容和解析报告。
具体地,设备获取输入的多个征信报告以及多个征信报告中每个征信报告的文本内容和解析报告,其中,输入的征信报告为图片文件,可以是PDF格式文件、JPG格式文件等,征信报告的文本内容可以是人工读取征信报告后按照该征信报告显示的内容编辑出来的文本内容,也可以是别的设备通过图像识别技术、关键字识别技术等读取征信报告后解析出的文本内容,解析报告可以是人工阅读征信报告后按照信贷需求从中总结出的对信贷有帮助的评价,也可以是别的设备读取征信报告后解析出的评价。其中,解析报告相当于是对征信报告中对有利于信贷参考的信息的浓缩,其文字篇幅远远小于征信报告的篇幅,可以包括每个征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述,例如,该解析报告可以为评价个人信用好坏的一个分值,如100分,95分等;再如,该解析报告可以为评价个人信用好坏的评语,如“良好”、“较差”等;再如,该解析报告可以为评价个人信用好坏的等级,如“A”、“B”、“C”等。从样本的规格来看,一份征信报告的图片文件有10多页,对应的文本内容有几百或几千字,而对应的解析报告只有几个或者几十个字。为了便于理解,表1从数据“规格”上示意了5份样本数据。
表1
样本数据 | 图片文件 | 文本内容 | 解析报告 |
样本数据1 | 12页PDF | 1000个字 | 6个字 |
样本数据2 | 18页PDF | 1500个字 | 6个字 |
样本数据3 | 15页PDF | 1400个字 | 6个字 |
样本数据4 | 20页PDF | 1800个字 | 6个字 |
样本数据5 | 18页PDF | 1600个字 | 6个字 |
步骤S202:对多个征信报告和多个征信报告的文本内容进行训练以获得图像识别模型,以及对多个征信报告的文本内容和解析报告进行训练以获得文本分类模型。
具体地,获取到多个征信报告以及多个征信报告中每个征信报告的文本内容和解析报告后,设备对多个征信报告和多个征信报告的文本内容进行训练以获得图像识别模型,在训练图像识别模型时,用到的信息主要是样本数据中多个征信报告的图片文件和文本内容,对大量的样本数据进行分析即可得到征信报告的图片文件转换为文本内容的规律,这种规律可以通过数学表达式来表示,这些数据表达式就构成了我们所说的图像识别模型,该图像识别模型可以用来识别待分析的征信报告的图片文件中的文本内容。
在训练图像识别模型的过程中,采用的训练算法此处不作限定,可选的,采用长短期记忆人工神经网络(Long-Short Term Memory,LSTM)进行训练。这样得到的图像识别模型就是基于LSTM的模型,能够有效地识别征信报告的上下文信息的关系。
在本申请实施例中,参与训练的样本数据越多则训练出的图像识别模型的识别成功率越高,图3示意了识别成功率与样本数量之间的关系。
相应地,设备对多个征信报告的文本内容和解析报告进行训练以获得文本分类模型,在训练文本分类模型时,用到的信息主要是样本数据中的文本内容和解析报告(即已知的分类标签),对大量的样本数据进行分析即可得到文本内容转换为解析报告的规律,这种规律可以通过数学表达式来表示,这些数据表达式就构成了我们所说的文本分类模型。可以用于对待分类的文本内容进行分类。
在训练文本分类模型的过程中,采用的算法此处不作限定,可选的,可以采用快速训练模型(FastText模型),该FastText模型基于由词到向量(word to vector,word2vec)的思想的单层神经网络,指数级缩短训练时间,并通过语言模型(N-gram)特征保存词序列信息以达到更好的文本理解效果。在训练文本分类模型的过程中,在使用该样本数据中的文本内容时,可以先提取该文本内容中的关键词,得到词向量,这样一来,每一个样本数据就对应一个词向量和一个分类标签,对各个样本数据各自对应的词向量和分类标签进行训练就可以得到该文本分类模型。
在本申请实施例中,参与训练的样本数据越多则训练出的文本分类模型的分类成功率越高,图4示意了识别成功率与样本数量之间的关系。
步骤S203:将待分析的征信报告输入到图像识别模型以获得待分析的征信报告的文本内容。
具体地,获取图像识别模型和文本分类模型后,设备将待分析的征信报告的图片文件输入到图像识别模型,以获得待分析的征信报告的文本内容,通过图像识别模型识别出的文本内容通常为非结构化文本,图5示意了一份非结构化文本以方便理解。
步骤S204:将文本内容输入到文本分类模型以获得待分析的征信报告的解析报告。
具体地,设备获得待分析的征信报告的文本内容后,将该文本内容输入到文本分类模型,该文本分类模型可以先将该文本内容转换为结构性文本,如图6所示,然后从该结构性文本中提取关键词,提取关键词的方法可以是基于机器学习的方式将文本内容中的词语映射到一个更抽象的向量空间中,每一个词语通过高维向量表示,该向量空间中两点之间的距离就对应两个词语的相似程度,根据该相似程度提取关键词,并根据关键词得到词向量,然后将该词向量输入到该文本分类模型,该文本分类模型会输出一个分类标签,该分类标签就是我们需要的解析报告,能够简洁直观地反映该待分析的征信报告中记录的征信状况。例如,该分类模型输出的分类标签为“信用分数80,信用良好”;再如,该分类模型输出的分类标签为“信用分数50,信用较差”。该待分析的征信报告的解析报告能够在贷款环节供信贷机构进行风险控制,最大限度地降低信贷机构的风险。
在其中一个实施方式中,设备获得待分析的征信报告的文本内容后,将该文本内容输入到文本分类模型,获得待分析的征信报告的解析报告之后,根据该解析报告筛选出符合预设条件的征信报告,举例来说,若解析报告为评价个人信用好坏的一个分值,如100分,95分等,则预设条件可以为解析报告的分值在65至75分之间;若该解析报告为评价个人信用好坏的文字描述,如“良好”、“较差”等,则预设条件可以为解析报告的文字描述中包含“良好”;若该解析报告为评价个人信用好坏的等级,如“A”、“B”、“C”等,则预设条件可以为解析报告的等级为“B”;筛选出的征信报告通常为评分或等级居中的,是因为居中的评分或等级如果有误差则会导致明显不良后果。例如,等级从高到低依次为很好、较好、较差、很差,那么对于一个要贷款的用户来说,很好和较好都可以对其贷款,较差和很差都不能对其贷款,因此如果因为一点误差将本来“较好”的征信报告分类为了“较差”,那么就导致本来能贷款的客户变成了不能贷款的客户;而如果因为误差将“很差”分类为了“较差”,则对客户能否贷款没有本质影响。
设备根据该解析报告筛选出符合预设条件的征信报告后,输出该征信报告,提示客户端人工对这部分解析报告对应的征信报告生成人工解析报告,获取该人工解析报告,若人工生成的解析报告与设备生成的解析报告之间的评分或等级相同率低于阈值,则对这部分征信报告、文本内容和人工解析报告进行重新训练以获得图像识别模型和文本分类模型。举例来说,解析报告为评价个人信用好坏的等级,预设条件为解析报告的等级为“B”,则设备从多个解析报告中筛选出个人信用等级为B的解析报告,并输出个人信用等级为B的解析报告对应的征信报告到客户端,提示人工对这部分解析报告对应的征信报告进行人工解析,并生成人工解析报告输入到设备中,设备获取到该人工解析报告后,将该人工解析报告描述的等级与设备生成的解析报告描述的等级进行比对,设置阈值为70%,若这部分征信报告中人工解析报告描述的等级与设备生成的解析报告描述的等级相同率低于70%,则认为该图像识别模型和文本分类模型精度不高,那么,将人工生成的这部分解析报告及相应的征信报告作为新的训练样本,重新训练模型。在训练图像识别模型的过程中,可以采用长短期记忆人工神经网络(Long-Short Term Memory,LSTM)进行训练。这样得到的图像识别模型就是基于LSTM的模型,能够有效地识别征信报告的上下文信息的关系。在训练文本分类模型的过程中,可以采用FastText模型,该FastText模型基于word2vec思想的单层神经网络,指数级缩短训练时间,并通过N-gram特征保存词序列信息以达到更好的文本理解效果。在使用该新的训练样本中的文本内容时,可以先提取该文本内容中的关键词,得到词向量,这样一来,每一个样本数据就对应一个词向量和一个分类标签,对各个样本数据各自对应的词向量和分类标签进行训练就可以得到该文本分类模型。这种实施方式通过对符合预设条件的征信报告进行人工解析,并利用人工解析报告重新训练模型的方式,提高了模型的准确度,从而提高了解析报告的准确度。
在其中一个实施方式中,在设备根据解析报告筛选出符合预设条件的征信报告之前,并获得待分析的征信报告的文本内容后,将该待分析的文本内容输入到文本分类模型,获得待分析的征信报告的解析报告,设备保存该待分析的征信报告、文本内容以及解析报告,以用于下一次训练图像识别模型和文本分类模型。这种实现方式通过保存并训练每次的征信报告、文本内容以及解析报告,实现了不断的更新模型训练样本,提高模型的准确度,从而提高解析报告的准确度。
实施本申请实施例,设备通过大量的征信报告数据训练图像识别模型和文本分类模型,然后将待分析的征信报告输入到该图像识别模型以获得文本内容,再将该文本内容输入到该文本分类模型以输出解析报告。由于图像识别模型和文本分类模型是根据大量征信报告数据训练得到,因此基于该图像识别模型和文本分类模型预测的解析报告准确度非常高。另外,对待分析的征信报告的分析过程中,完全由设备自动完成,无需人为参与,极大地提高了对征信报告的分析速度。
为了便于更好地实施本申请实施例的上述方案,本申请还对应提供了一种征信报告解析装置,下面结合附图来进行详细说明:
如图7所示,本申请实施例提供一种征信报告解析装置70的结构示意图,征信报告解析装置70可以包括:获取单元701、训练单元702、第一输入获得单元703和第二输入获得单元704,其中,
获取单元701,用于获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,其中,每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;
其中,任意一个征信报告的解析报告包括:所述任意一个征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
训练单元702,用于对所述多个征信报告和所述多个征信报告的文本内容进行训练以获得图像识别模型,以及对所述多个征信报告的文本内容和解析报告进行训练以获得文本分类模型;
第一解析单元703,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;
第二解析单元704,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
在其中一种实施例中,第二解析单元包括:
结构化子单元,用于提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;
解析子单元,用于将所述结构化数据输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
在其中一种实施例中,所述装置还包括:
筛选单元705,用于在将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告;
获取训练单元706,用于获取所述符合预设条件的征信报告的人工解析报告,若所述符合预设条件的征信报告的人工解析报告与所述符合预设条件的征信报告的解析报告之间的相同率低于阈值,则通过所述符合预设条件的征信报告、所述符合预设条件的征信报告的文本内容和所述符合预设条件的征信报告的人工解析报告更新所述图像识别模型和所述文本分类模型。
在其中一种实施例中,所述装置还包括:
保存单元707,用于在将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,所述设备根据所述解析报告筛选出符合预设条件的征信报告之前,保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
需要说明的是,本申请实施例中图7所描述的装置中各功能单元的功能可参见上述图2中所述的方法实施例中步骤S201-步骤S204的相关描述,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述,然而,在实施例所要求保护的本申请过程中,本领域技术人员可理解并实现公开实施例的其他变化。
Claims (10)
1.一种征信报告解析方法,其特征在于,包括:
获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;
对所述多个征信报告和所述多个征信报告的文本内容进行训练以获得图像识别模型,以及对所述多个征信报告的文本内容和解析报告进行训练以获得文本分类模型;
将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;
将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
2.根据权利要求1所述的方法,其特征在于,所述征信报告的解析报告包括:
所述征信报告的风险等级信息或风险评分或不超过预设字符数的针对风险的文字描述。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告,包括:
提取所述文本内容中的关键信息并对所述关键信息进行结构化处理,获取结构化数据;
将所述结构化数据输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,还包括:
根据所述解析报告筛选出符合预设条件的征信报告;
获取所述符合预设条件的征信报告对应的人工解析报告,若所述符合预设条件的征信报告对应的人工解析报告与所述符合预设条件的征信报告的解析报告之间的相似率低于阈值,则通过所述符合预设条件的征信报告、所述符合预设条件的征信报告的文本内容和所述符合预设条件的征信报告对应的人工解析报告更新所述图像识别模型和所述文本分类模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述解析报告筛选出符合预设条件的征信报告包括:
若所述解析报告包括所述征信报告的风险等级信息,则筛选出所述风险等级信息中包含预设等级信息的征信报告;
若所述解析报告包括所述征信报告的风险评分,则筛选出所述风险评分在阈值范围内的征信报告;
若所述解析报告包括所述征信报告的不超过预设字符数的针对风险的文字描述,则筛选出所述针对风险的文字描述中包含预设字段的征信报告。
6.根据权利要求4所述的方法,其特征在于,所述将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,所述根据所述解析报告筛选出符合预设条件的征信报告之前,还包括:
保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
7.一种征信报告解析装置,其特征在于,包括:
获取单元,用于获取多个征信报告以及所述多个征信报告中每个征信报告的文本内容和解析报告,其中,所述每个征信报告的解析报告用于描述所述每个征信报告反映的风险情况;
训练单元,用于对所述多个征信报告和所述多个征信报告的文本内容进行训练以获得图像识别模型,以及对所述多个征信报告的文本内容和解析报告进行训练以获得文本分类模型;
第一解析单元,用于将待分析的征信报告输入到所述图像识别模型以获得所述待分析的征信报告的文本内容;
第二解析单元,用于将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
筛选单元,用于在将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告;
获取训练单元,用于获取所述符合预设条件的征信报告对应的人工解析报告,若所述符合预设条件的征信报告对应的人工解析报告与所述符合预设条件的征信报告的解析报告之间的相似率低于阈值,则通过所述符合预设条件的征信报告、所述符合预设条件的征信报告的文本内容和所述符合预设条件的征信报告对应的人工解析报告更新所述图像识别模型和所述文本分类模型。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
保存单元,用于在将所述文本内容输入到所述文本分类模型以获得所述待分析的征信报告的解析报告之后,根据所述解析报告筛选出符合预设条件的征信报告之前,保存所述待分析的征信报告、所述待分析的征信报告的文本内容以及所述待分析的征信报告的解析报告,以用于下一次训练图像识别模型和文本分类模型。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910428124.2A CN110232328A (zh) | 2019-05-21 | 2019-05-21 | 一种征信报告解析方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910428124.2A CN110232328A (zh) | 2019-05-21 | 2019-05-21 | 一种征信报告解析方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232328A true CN110232328A (zh) | 2019-09-13 |
Family
ID=67860910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910428124.2A Pending CN110232328A (zh) | 2019-05-21 | 2019-05-21 | 一种征信报告解析方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232328A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985574A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 医疗图像的识别方法、装置、设备及存储介质 |
CN112581699A (zh) * | 2020-12-23 | 2021-03-30 | 华言融信科技成都有限公司 | 信用报告自助解读设备 |
CN114139526A (zh) * | 2021-10-11 | 2022-03-04 | 深圳市房帮帮互联网科技有限公司 | 一种新的征信报告pdf解析方法,处理和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038834A (ja) * | 2002-07-08 | 2004-02-05 | Fujitsu Ltd | クレジットカード処理システムのサーバ、記録媒体及びプログラム |
US20060106866A1 (en) * | 2004-10-29 | 2006-05-18 | Kenneth Green | Methods and systems for scanning and monitoring content on a network |
CN101035092A (zh) * | 2005-12-28 | 2007-09-12 | 索尼株式会社 | 信息处理设备、方法、和程序以及存储该程序的记录介质 |
US20080040259A1 (en) * | 2006-03-01 | 2008-02-14 | Sheffield Financial Llc | Systems, Methods and Computer-Readable Media for Automated Loan Processing |
CN103425640A (zh) * | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答系统及方法 |
CN107958204A (zh) * | 2017-10-27 | 2018-04-24 | 深圳市牛鼎丰科技有限公司 | 征信报告识别方法、装置、计算机设备及存储介质 |
CN108830696A (zh) * | 2018-07-02 | 2018-11-16 | 平安科技(深圳)有限公司 | 征信报告解析处理方法、装置、计算机设备及存储介质 |
-
2019
- 2019-05-21 CN CN201910428124.2A patent/CN110232328A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038834A (ja) * | 2002-07-08 | 2004-02-05 | Fujitsu Ltd | クレジットカード処理システムのサーバ、記録媒体及びプログラム |
US20060106866A1 (en) * | 2004-10-29 | 2006-05-18 | Kenneth Green | Methods and systems for scanning and monitoring content on a network |
CN101035092A (zh) * | 2005-12-28 | 2007-09-12 | 索尼株式会社 | 信息处理设备、方法、和程序以及存储该程序的记录介质 |
US20080040259A1 (en) * | 2006-03-01 | 2008-02-14 | Sheffield Financial Llc | Systems, Methods and Computer-Readable Media for Automated Loan Processing |
CN103425640A (zh) * | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答系统及方法 |
CN107958204A (zh) * | 2017-10-27 | 2018-04-24 | 深圳市牛鼎丰科技有限公司 | 征信报告识别方法、装置、计算机设备及存储介质 |
CN108830696A (zh) * | 2018-07-02 | 2018-11-16 | 平安科技(深圳)有限公司 | 征信报告解析处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
CHENG-LUNG HUANG ET AL: "Credit scoring with a data mining approach based on support vector machines", 《EXPERT SYSTEMS WITH APPLICATIONS》, vol. 33, no. 4, pages 847 - 856 * |
杨乐: "商业银行征信管理系统的设计与开发", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019, no. 05, pages 138 - 567 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985574A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 医疗图像的识别方法、装置、设备及存储介质 |
CN112581699A (zh) * | 2020-12-23 | 2021-03-30 | 华言融信科技成都有限公司 | 信用报告自助解读设备 |
CN114139526A (zh) * | 2021-10-11 | 2022-03-04 | 深圳市房帮帮互联网科技有限公司 | 一种新的征信报告pdf解析方法,处理和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN109685056B (zh) | 获取文档信息的方法及装置 | |
CN109284371B (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
CN111368042A (zh) | 智能问答方法、装置、计算机设备及计算机存储介质 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
Dhingra et al. | Linguistic knowledge as memory for recurrent neural networks | |
CN109284372A (zh) | 用户操作行为分析方法、电子装置及计算机可读存储介质 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN113282729B (zh) | 基于知识图谱的问答方法及装置 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN114281984A (zh) | 一种风险检测方法、装置、设备及计算机可读存储介质 | |
CN113255331A (zh) | 文本纠错方法、装置及存储介质 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN111242710A (zh) | 业务的分类处理方法、装置、服务平台及存储介质 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
CN110782221A (zh) | 一种面试智能评测系统及方法 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN111159370A (zh) | 一种短会话新问题生成方法、存储介质和人机交互装置 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN115906797A (zh) | 文本实体对齐方法、装置、设备及介质 | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190913 |