CN110502473A - 一种征信文件自动化处理方法 - Google Patents
一种征信文件自动化处理方法 Download PDFInfo
- Publication number
- CN110502473A CN110502473A CN201910798634.9A CN201910798634A CN110502473A CN 110502473 A CN110502473 A CN 110502473A CN 201910798634 A CN201910798634 A CN 201910798634A CN 110502473 A CN110502473 A CN 110502473A
- Authority
- CN
- China
- Prior art keywords
- file
- processing method
- format
- pdf format
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000010276 construction Methods 0.000 claims description 3
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种征信文件自动化处理方法,包括以下步骤获取PDF格式的征信文件;将所述PDF格式的征信文件转化为预设格式的文件;利用风控模型对所述预设格式的文件进行评分。本发明可以对征信文件进行自动化处理,减少了人力成本,提升了处理效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种征信文件自动化处理方法。
背景技术
征信报告分为个人信用报告以及企业信用报告,是由中国人民银行征信中心出具的记载个人信用信息的记录,用于查询个人或企业的社会信用。征信报告一般以PDF格式的征信文件存在。
一方面,征信文件蕴藏大量隐私信息,一旦泄露,对企业、对个人将造成巨大影响。另一方面,现在用人成本高昂,人工处理效率也不甚理想。
因此,亟需研发一种征信文件自动化处理方法来提高公司的竞争实力,防止客户征信泄露。
发明内容
针对现有技术中的缺陷,本发明提供一种征信文件自动化处理方法,包括以下步骤:
获取PDF格式的征信文件;
将所述PDF格式的征信文件转化为预设格式的文件;
利用风控模型对所述预设格式的文件进行评分。
优选地,通过以下步骤获取PDF格式的征信文件:
检测当前邮件标题是否包含预设的征信文件的关键字;
在检测到当前邮件标题包含预设的征信文件的关键字时,从云服务器获取当前邮件附件中的所述PDF格式的征信文件。
优选地,所述预设的征信文件的关键字为信用报告、征信报告或征信文件。
优选地,通过以下步骤构建风控模型:
获取历史风险要素和预测的未来风险要素;
根据所述历史风险要素和预测的未来风险要素构建风控模型。
优选地,在利用风控模型对所述预设格式的文件进行评分后,还包括以下步骤:从云服务器删除已完成评分的邮件和PDF格式的征信文件。
优选地,根据以下步骤将所述PDF格式的征信文件转化为预设格式的文件:
解析所述PDF格式的征信文件,以得到解析后的对象;
将所述对象重新组成对象;
将重新组成的对象进行分块,并将分块后的结果以所述预设格式输出。
优选地,解析所述PDF格式的征信文件,以得到解析后的对象,包括以下步骤:
解析所述PDF格式的征信文件的自身语言结构,并从中查找trailer标签;
从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
优选地,所述将所述字节重新组成对象,包括以下步骤:
将所述char对象通过相应算法重新组成对象,并设置重新组成的对象的相应的坐标数据和参数数据。
优选地,将分块后的结果以JSON格式输出。
优选地,所述对象包括字符串、行、页。
本发明的有益效果体现在:
1)本发明获取PDF格式的征信文件,将PDF格式的征信文件转化为预设格式的文件,利用风控模型对预设格式的文件进行评分,可以对征信文件进行自动化处理,减少了人力成本,提升了处理效率。
2)由于征信文件蕴藏大量隐私信息,本发明在处理完征信文件后从云服务器及时删除已完成评分的邮件和PDF格式的征信文件,可以防止客户征信泄露。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为征信文件自动化处理方法的流程图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
图1为征信文件自动化处理方法的流程图。如图1所示,包括以下步骤S1至S3。
在步骤S1中,获取PDF格式的征信文件。
征信报告分为个人信用报告以及企业信用报告,是由中国人民银行征信中心出具的记载个人信用信息的记录,用于查询个人或企业的社会信用。征信报告一般以PDF格式的征信文件存在。
征信报告包括:①个人基本信息,包括姓名、证件类型及号码、通讯地址、联系方式、婚姻状况、居住信息、职业信息等;②信用交易信息,包括信用卡信息、贷款信息、其他信用信息;③其他信息,如个人公积金、养老金信息等。
在具体实施中,客户将征信文件发到阿里云邮箱,定时检测当前邮件标题是否包含预设的征信文件的关键字,若是,则从云服务器获取当前邮件附件中的PDF格式的征信文件;若否,则不作处理。预设的征信文件的关键字一般设定为:信用报告、征信报告或征信文件。
在步骤S2中,将PDF格式的征信文件转化为预设格式的文件。
首先,解析PDF格式的征信文件,以得到解析后的对象,所述对象包括字符串、行、页。具体地,①解析PDF格式的征信文件的自身语言结构,并从中查找trailer标签;②从trailer标签中查找stream流对象,并从stream流对象中获取char对象。
其次,将所述对象重新组成对象。具体地,将char对象通过相应算法重新组成对象,并设置重新组成的对象的相应的坐标数据和参数数据。在处理过程中,为了正确判断对象是否为同一行、同一字符串,首先将char对象按照y坐标降序排序,再按照x坐标升序排序,从而在排序过程中,消除了y轴坐标的误差。
最后,将重新组成的对象进行分块,并将分块后的结果以所述预设格式输出。优选地,将分块后的结果以JSON格式输出。
在步骤S3中,利用风控模型对所述预设格式的文件进行评分。
具体地,获取历史风险要素和预测的未来风险要素,根据所述历史风险要素和预测的未来风险要素构建风控模型。一般,风险要素可以包括:违约、逾期、婚姻、资产等。
本实施例获取PDF格式的征信文件,将PDF格式的征信文件转化为预设格式的文件,利用风控模型对预设格式的文件进行评分,可以对征信文件进行自动化处理,减少了人力成本,提升了处理效率。
在一个优选的实施例中,在步骤S3之后,还包括步骤:从云服务器删除已完成评分的邮件和PDF格式的征信文件。
由于征信文件蕴藏大量隐私信息,本实施例在处理完征信文件后从云服务器及时删除已完成评分的邮件和PDF格式的征信文件,可以防止客户征信泄露。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
Claims (10)
1.一种征信文件自动化处理方法,其特征在于,包括以下步骤:
获取PDF格式的征信文件;
将所述PDF格式的征信文件转化为预设格式的文件;
利用风控模型对所述预设格式的文件进行评分。
2.根据权利要求1所述的征信文件自动化处理方法,其特征在于,通过以下步骤获取PDF格式的征信文件:
检测当前邮件标题是否包含预设的征信文件的关键字;
在检测到当前邮件标题包含预设的征信文件的关键字时,从云服务器获取当前邮件附件中的所述PDF格式的征信文件。
3.根据权利要求1所述的征信文件自动化处理方法,其特征在于,所述预设的征信文件的关键字为信用报告、征信报告或征信文件。
4.根据权利要求1所述的征信文件自动化处理方法,其特征在于,通过以下步骤构建风控模型:
获取历史风险要素和预测的未来风险要素;
根据所述历史风险要素和预测的未来风险要素构建风控模型。
5.根据权利要求1所述的征信文件自动化处理方法,其特征在于,在利用风控模型对所述预设格式的文件进行评分后,还包括以下步骤:
从云服务器删除已完成评分的邮件和PDF格式的征信文件。
6.根据权利要求1所述的征信文件自动化处理方法,其特征在于,根据以下步骤将所述PDF格式的征信文件转化为预设格式的文件:
解析所述PDF格式的征信文件,以得到解析后的对象;
将所述对象重新组成对象;
将重新组成的对象进行分块,并将分块后的结果以所述预设格式输出。
7.根据权利要求6所述的征信文件自动化处理方法,其特征在于,解析所述PDF格式的征信文件,以得到解析后的对象,包括以下步骤:
解析所述PDF格式的征信文件的自身语言结构,并从中查找trailer标签;
从所述trailer标签中查找stream流对象,并从所述stream流对象中获取char对象。
8.根据权利要求7所述的征信文件自动化处理方法,其特征在于,所述将所述字节重新组成对象,包括以下步骤:
将所述char对象通过相应算法重新组成对象,并设置重新组成的对象的相应的坐标数据和参数数据。
9.根据权利要求6所述的征信文件自动化处理方法,其特征在于,将分块后的结果以JSON格式输出。
10.根据权利要求6所述的征信文件自动化处理方法,其特征在于,所述对象包括字符串、行、页。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910798634.9A CN110502473A (zh) | 2019-08-27 | 2019-08-27 | 一种征信文件自动化处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910798634.9A CN110502473A (zh) | 2019-08-27 | 2019-08-27 | 一种征信文件自动化处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110502473A true CN110502473A (zh) | 2019-11-26 |
Family
ID=68590095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910798634.9A Pending CN110502473A (zh) | 2019-08-27 | 2019-08-27 | 一种征信文件自动化处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502473A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080425A (zh) * | 2019-12-11 | 2020-04-28 | 深圳盈佳信联科技有限公司 | 应收账款资产权益核查系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140289098A1 (en) * | 2004-09-15 | 2014-09-25 | Rebecca B. Walzak | System and Method for Analyzing Financial Risk |
CN105740434A (zh) * | 2016-02-01 | 2016-07-06 | 腾讯科技(深圳)有限公司 | 网络信息评分方法及装置 |
CN108876133A (zh) * | 2018-06-07 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 基于业务信息的风险评估处理方法、装置、服务器和介质 |
CN109065109A (zh) * | 2018-06-28 | 2018-12-21 | 杭州势成科技有限公司 | 一种pdf文件解析方法及系统 |
CN109376534A (zh) * | 2018-09-26 | 2019-02-22 | 百度在线网络技术(北京)有限公司 | 用于检测应用的方法和装置 |
CN110088792A (zh) * | 2016-11-14 | 2019-08-02 | 李先宽 | 使用移动设备的金融支付方法和支付系统 |
-
2019
- 2019-08-27 CN CN201910798634.9A patent/CN110502473A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140289098A1 (en) * | 2004-09-15 | 2014-09-25 | Rebecca B. Walzak | System and Method for Analyzing Financial Risk |
CN105740434A (zh) * | 2016-02-01 | 2016-07-06 | 腾讯科技(深圳)有限公司 | 网络信息评分方法及装置 |
CN110088792A (zh) * | 2016-11-14 | 2019-08-02 | 李先宽 | 使用移动设备的金融支付方法和支付系统 |
CN108876133A (zh) * | 2018-06-07 | 2018-11-23 | 中国平安人寿保险股份有限公司 | 基于业务信息的风险评估处理方法、装置、服务器和介质 |
CN109065109A (zh) * | 2018-06-28 | 2018-12-21 | 杭州势成科技有限公司 | 一种pdf文件解析方法及系统 |
CN109376534A (zh) * | 2018-09-26 | 2019-02-22 | 百度在线网络技术(北京)有限公司 | 用于检测应用的方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111080425A (zh) * | 2019-12-11 | 2020-04-28 | 深圳盈佳信联科技有限公司 | 应收账款资产权益核查系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582861B (zh) | 一种数据隐私信息检测系统 | |
US8131685B1 (en) | Duplicate account identification and scoring | |
US20160147943A1 (en) | Semantic Address Parsing Using a Graphical Discriminative Probabilistic Model | |
US20080154927A1 (en) | Use of federation services and transformation services to perform extract, transform, and load (etl) of unstructured information and associated metadata | |
US20190392038A1 (en) | Methods, devices and systems for data augmentation to improve fraud detection | |
CN104915334A (zh) | 一种基于语义分析的招投标项目关键信息自动化提取方法 | |
CN104184653B (zh) | 一种消息过滤的方法和装置 | |
US20240054802A1 (en) | System and method for spatial encoding and feature generators for enhancing information extraction | |
CN106227808B (zh) | 一种去除邮件干扰信息的方法以及垃圾邮件判定方法 | |
CN110990390A (zh) | 数据协同处理方法、装置、计算机设备和存储介质 | |
CN106920070A (zh) | 一种简历收集方法、装置及系统 | |
CN107679977A (zh) | 一种基于语义分析的税务管理平台及实现方法 | |
CN107861944A (zh) | 一种基于Word2Vec的文本标签提取方法及装置 | |
CN105992171A (zh) | 一种文本信息的处理方法和装置 | |
CN103929499B (zh) | 一种物联网异构标识识别方法和系统 | |
CN110046648A (zh) | 基于至少一个业务分类模型进行业务分类的方法及装置 | |
CN101753474A (zh) | 用于电子邮件的处理方法和系统 | |
CN109446299A (zh) | 基于事件识别的搜索电子邮件内容的方法及系统 | |
CN110502473A (zh) | 一种征信文件自动化处理方法 | |
CN105160036B (zh) | 一种企业非银信息查询方法 | |
CN113902574A (zh) | 协议数据处理方法、装置、计算机设备及存储介质 | |
CN113360685A (zh) | 笔记内容处理方法、装置、设备和介质 | |
CN113537878A (zh) | 包裹派送方法、装置、设备及存储介质 | |
CN107609870A (zh) | 用于pos的多应用密钥管理方法、系统及pos终端 | |
CN116860856A (zh) | 一种财务数据处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191126 |