CN110990397A - 一种征信数据提取方法及设备 - Google Patents

一种征信数据提取方法及设备 Download PDF

Info

Publication number
CN110990397A
CN110990397A CN201911060340.2A CN201911060340A CN110990397A CN 110990397 A CN110990397 A CN 110990397A CN 201911060340 A CN201911060340 A CN 201911060340A CN 110990397 A CN110990397 A CN 110990397A
Authority
CN
China
Prior art keywords
title
data
credit investigation
labels
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911060340.2A
Other languages
English (en)
Inventor
张明
高晓冬
薛雨祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oriental Micro Silver Technology Beijing Co Ltd
Original Assignee
Oriental Micro Silver Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oriental Micro Silver Technology Beijing Co Ltd filed Critical Oriental Micro Silver Technology Beijing Co Ltd
Priority to CN201911060340.2A priority Critical patent/CN110990397A/zh
Publication of CN110990397A publication Critical patent/CN110990397A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种征信数据提取方法及设备,通过获取征信报文;解析征信报文,获取标题名称及数据字段,建立每个标题名称对应的标题标签及每个数据字段对应的数据标签,根据标题名称之间的上下级关系及标题名称与数据字段的对应关系,建立标题标签与数据标签的标签对应关系;获取用户输入的查询信息,根据查询信息查询对应的查询标题标签,根据标签对应关系查询标题标签及数据标签,输出标题标签及数据标签对应的标题名称及数据字段。通过应用本申请的技术方案,建立了系统的征信信息提取模型,既能准确的从征信报文中提取各个数据,又能在用户查询时准确显示用户需要的所有信息,使征信信息的获取更加准确、省心省力提高了用户体验。

Description

一种征信数据提取方法及设备
技术领域
本发明涉及数据提取领域,特别是指一种征信数据提取方法及设备。
背景技术
征信记录了个人或企业等用户过去的信用行为,这些行为将影响用户未来的经济活动,这些行为体现于用户信用报告中,这就是常说的“信用记录”。信用本质是一种债权债务关系,这也就是说,这些用户从事经济金融活动的信用状况将被记录到“经济身份证”上,成为与用户永远相伴的档案。征信的出现让银行了解用户信用状况的方式变的简单。但是,由于征信记录一般是由人工评审得出的结果并生成人工的报告记录,由于人工记载格式的多样性,致使银行在进行信用审查时只能通过人工获取报告记录,从而导致征信审查过程中出现过多不必要的失误或过错。
发明内容
有鉴于此,本发明的目的在于提出一种征信数据提取方法及设备,用以提供一种准确高效提取征信数据的方案。
基于上述目的,一方面,本发明提供了一种征信数据提取方法,包括:
获取征信报文;
解析所述征信报文,获取标题名称及数据字段,建立每个所述标题名称对应的标题标签及每个所述数据字段对应的数据标签,根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系;
获取用户输入的查询信息,根据所述查询信息确定对应的查询标题标签,根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段。
在一些实施方式中,所述获取征信报文,具体包括:
获取原始征信报文,通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文。
在一些实施方式中,所述通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文,具体包括:
利用Python程序对所述原始征信报文进行标题化解析,确定所述原始征信报文中的各个标题及所述各个标题之间的从属关系,确定各个标题对应的数据信息,根据所述从属关系及所述数据信息建立所述征信报文。
在一些实施方式中,所述根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系,具体包括:
根据所述上下级关系及所述对应关系,建立最低级标题标签与所述数据标签的最低级标签对应关系;
建立高级标题标签与对应的所有中间标题标签或所述最低级标题标签,建立标题标签对应关系,所述中间标题标签比所述高级标题标签低一级。
在一些实施方式中,所述根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段,具体包括:
根据所述标签对应关系确定所述查询标题标签的所有中间标题标签,逐级最终确定对应的所有最低级标题标签及所对应的数据标签;
确定所述查询标题标签、所有所述中间标题标签、所有所述最低级标题标签及所述数据标签对应的所述标题名称及所述数据字段,输出所述标题名称及所述数据字段。
另一方面,本发明还提供了一种征信数据提取设备,包括:
获取模块,获取征信报文;
对应模块,解析所述征信报文,获取标题名称及数据字段,建立每个所述标题名称对应的标题标签及每个所述数据字段对应的数据标签,根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系;
输出模块,获取用户输入的查询信息,根据所述查询信息确定对应的查询标题标签,根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段。
在一些实施方式中,所述获取模块获取征信报文,具体包括:
获取原始征信报文,通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文。
在一些实施方式中,所述获取模块通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文,具体包括:
利用Python程序对所述原始征信报文进行标题化解析,确定所述原始征信报文中的各个标题及所述各个标题之间的从属关系,确定各个标题对应的数据信息,根据所述从属关系及所述数据信息建立所述征信报文。
在一些实施方式中,所述对应模块根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系,具体包括:
根据所述上下级关系及所述对应关系,建立最低级标题标签与所述数据标签的最低级标签对应关系;
建立高级标题标签与对应的所有中间标题标签或所述最低级标题标签,建立标题标签对应关系,所述中间标题标签比所述高级标题标签低一级。
在一些实施方式中,所述输出模块根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段,具体包括:
根据所述标签对应关系确定所述查询标题标签的所有中间标题标签,逐级最终确定对应的所有最低级标题标签及所对应的数据标签;
确定所述查询标题标签、所有所述中间标题标签、所有所述最低级标题标签及所述数据标签对应的所述标题名称及所述数据字段,输出所述标题名称及所述数据字段。
从上面所述可以看出,本发明提供的一种征信数据提取方法及设备,通过获取征信报文;解析征信报文,获取标题名称及数据字段,建立每个标题名称对应的标题标签及每个数据字段对应的数据标签,根据标题名称之间的上下级关系及标题名称与数据字段的对应关系,建立标题标签与数据标签的标签对应关系;获取用户输入的查询信息,根据查询信息查询对应的查询标题标签,根据标签对应关系查询标题标签及数据标签,输出标题标签及数据标签对应的标题名称及数据字段。通过应用本申请的技术方案,建立了系统的征信信息提取模型,既能准确的从征信报文中提取各个数据,又能在用户查询时准确显示用户需要的所有信息,同时,通过设立标签使查询、提取过程变的快捷方便,节约存储空间、加快反应速度,使征信信息的获取更加准确、省心省力提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提出的一种征信数据提取方法的流程示意图;
图2为本发明实施例提出的一种征信报文的示意图;
图3为本发明实施例提出的一种易于提取的征信报文的示意图;
图4为本发明实施例提出的一种征信数据提取设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件、物件或者方法步骤涵盖出现在该词后面列举的元件、物件或者方法步骤及其等同,而不排除其他元件、物件或者方法步骤。
如背景技术所言,征信在促进信用经济发展和社会信用体系建设中发挥着重要的基础作用。一是防范信用风险。征信降低了交易中参与各方的信息不对称,避免因信息不对称而带来的交易风险,从而起到风险判断和揭示的作用;二是扩大信用交易。征信解决了制约信用交易的瓶颈问题,促成信用交易的达成,促进金融信用产品和商业信用产品的创新,有效扩大信用交易的范围和方式,带动信用经济规模的扩张;三是提高经济运行效率。通过专业化的信用信息服务,降低了交易中的信息收集成本,缩短了交易时间,拓宽了交易空间,提高了经济主体的运行效率,促进经济社会发展;四是推动社会信用体系建设。征信业是社会信用体系建设的重要组成部分,发展征信业有助于遏制不良信用行为的发生,使守信者利益得到更大的保障,有利于维护良好的经济和社会秩序,促进社会信用体系建设的不断发展完善。然而目前,市场中并无公开且完善的征信数据提取方案,来供应征信数据。流放在市场上的征信数据大部分都是文本形式的征信报告,而非结构化数据,征信报告只能人工来评审,人工评审可能会出现信贷员的主观感受、个人情绪等因素对贷款信用卡申请结果产生影响。
针对上述问题,本申请实施例提供了一种征信数据提取方法,通过对征信报告中的各级标题信息进行标签标注,并建立对应数据的数据标签,再建立标签之间的对应关系,最终通过标签直接对应到所有需要标题及最终的数据,进而提供一种准确、省心省力的征信数据提取方法,以方便用户快速获得想要的全部征信信息。
以下结合附图,详细说明本说明书实施例提供的技术方案。
如图1所示,为本实施例的一种征信数据提取方法的流程示意图,该方法具体包括以下步骤:
步骤101,获取征信报文。
本步骤旨在,得到征信报告。其中,征信报告是指能够反映目标对象信用信息的报告或报表,目标对象一般是个人或者企业等,其报告或报表本身一般为pdf格式文件或相似格式文件。征信报告中记载着关于目标对象的基础信息、社会关系、收支信息、信贷信息等等征信相关信息,如图2所示。其获取报文的途径可以为很多种,例如:通过接收用户手动输入的报文来获取、通过互联网查询需要的报文并获取、通过专用的对接接口由第三方直接将报文传输过来进行获取等等。
同时,本步骤中获取到的征信报文可以是原始的pdf格式的征信报文,或是对原始征信报文进行了预处理的处理后报文。其报文本身只要是能完整反映目标对象的全部征信信息即可。例如:直接将第三方提供的原始征信报告作为征信报文进行后续操作;将获得的原始征信报告的信息利用程序设计语言进行解析并提取全部信息之后重新生成一个新的易于提取数据的征信报文,其中,程序设计语言可以为:Python、perl、ruby、C结构化程序设计语言、C++、JAVA等等;将获得的原始征信报告的信息利用程序设计语言进行解析之后利用结构化查询语言(SQL语句等)进行简单的数据筛选之后将关键信息重新生成一个新的易于提取数据的征信报文等等。
可以看出获得的征信报文可以为很多种形式,其只要能包含目标对象的全部或需要的征信信息,就可以算为本申请限定的征信报文,其不同的获得方法或不同的征信报文形式,均不会影响本发明的保护范围。
步骤102,解析所述征信报文,获取标题名称及数据字段,建立每个所述标题名称对应的标题标签及每个所述数据字段对应的数据标签,根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系。
本步骤旨在,对征信报文中的标题及数据建立标签,并建立标签之间的相互关系。如上一步骤所述,征信报文可以为原始的pdf等格式报告、也可以是进行了预处理的易于提取信息的报文,从而,其解析过程可以是针对原始的pdf等格式报告的文档进行逆向破解并读取或pdf的格式图片进行图片扫描等,或是对易于提取信息的报文进行简单的对应之后直接进行读取。获取到征信报文中所有的标题名称及数据字段,其中,标题名称是指反应报文中各个区域的预设信息,且标题可以存在父标题及子标题,例如:父标题:个人信用报告、个人基本信息、信息概要、信贷交易信息明细、非信贷交易信息明细、公共信息明细、查询记录、报告说明等等,而单独一个父标题下可以包含子标题,如:身份信息、性别、通讯地址、编号、配偶信息、姓名、居住信息等等,同时子标题下可以还包含更细化的更低级标题,在此申请人不再一一列举。其中,数据字段是指目标对象最终填入的信息,其往往与最低级的标题对应,同时数据字段的内容可以是文字数据、也可以是数字数据,例如:作为示例性别标题对应的数据字段为男,手机号码标题对应的数据字段为13700000000等。
之后,建立每个标题名称对应的标题标签及每个数据字段对应的数据标签。其中,标题标签及数据标签其本身仅是一个指示标记,用于直接指示到对应的内容,由于标记本身占用存储空间非常小,进而可以快速存储、反应,同时节约存储空间。
再之后,根据标题名称之间的上下级关系及标题名称与数据字段的对应关系,建立标题标签与数据标签的标签对应关系。从前述可知,标题名称之间可以存在上下级关系,同时数据字段往往是与最低级的标题名称有直接连接,进而其对应关系可以为:一级标题与其全部下级的标题:二级、三级、四级等标题之间建立对应关系并最终对应到相关联的全部数据字段。也可以为:根据当前标题的等级建立当前标题与其对应的下一级标题之间的对应关系,例如:当前标题为三级标题,并存在这个三级标题之下的四级标题,则建立这个三级标题与其下面的所有四级标题之间的对应关系;当前标题为三级标题,不存在其之下的四级标题,则建立这个三级标题与对应的数据字段之间的对应关系等等以此类推。还可以为:根据当前标题的等级确定其之下的所有低等级标题,并最终确定对应的所有数据字段,建立当前标题与所有数据字段之间的联系。例如:当前标题为二级标题,并存在这个二级标题之下的三级标题及四级标题,四级标题与数据字段对应,则将二级标题与所有四级标题对应的数据字段进行对应,作为一种示例:如当前标题为联系方式,其下级标题为手机号码、固定电话等,再下级标题为第一手机号码、第二手机号码、第一固定电话、第二固定电话等,对应的数据字段为13700000000、13800000000、010-11111111、010-22222222等,则直接建立联系方式与所述数据字段13700000000、13800000000、010-11111111、010-22222222等之间的对应,以此类推。由于标签是与标题名称及数据字段一一对应的,则标签对应关系也可根据前述分为多种情况。
可见,不同的解析方式及不同的对应方式只要能达到相应的目的,不同的方法均不会影响本发明的保护范围。
步骤103,获取用户输入的查询信息,根据所述查询信息确定对应的查询标题标签,根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段。
本步骤旨在,根据用户输入的查询信息,输出对应的标题名称及数据字段。其中,查询信息是指用户想要获取的资料信息,其表现形式可以为用户手动输入的想要查询的标题名称、也可以为用户根据终端提示进行选择的目标名称、也可以是服务器根据预设条件对终端进行主动提取的目标字段等等。由于查询信息是针对于征信报文的,则查询信息的内容必然也对应一个用户想要查询的标题标签,即查询标题标签。进而可以根据标题标签及标签对应关系,找到最终需要输出的数据标签及相应的标题标签。再根据对应关系输出标题名称及数据字段。
其中,根据前一步骤可知,标签对应关系的表现形式可以是很多种,其在本步骤中的表现形式也各不相同,在此就不再一一列举重复阐述。
最后,将所有检索出的标题名称及数据字段进行输出。根据不同的应用场景和实施需要,具体的输出方式可以灵活选择。
例如,对于本实施例的方法在单一设备上执行的应用场景,可以将标题名称及数据字段直接在当前设备的显示部件(显示器、投影仪等)上以显示的方式输出,使得当前设备的操作者能够从显示部件上直接看到标题名称及数据字段组成的内容。
又如,对于本实施例的方法在多个设备组成的系统上执行的应用场景,可以将标题名称及数据字段通过任意的数据通信方式(有线连接、NFC、蓝牙、wifi、蜂窝移动网络等)发送至系统内的其他作为接收方的预设设备上,以使得接收到标题名称及数据字段组成的内容的预设设备可以对其进行后续处理。可选的,该预设设备可以是预设的服务器,服务器一般设置在云端,作为数据的处理和存储中心,其能够对标题名称及数据字段组成的内容进行存储和分发;其中,分发的接收方是终端设备,该些终端设备的持有者或操作者可以是用户、目标对象的人员、税务机构的管理人员、银行机构的管理人员等。
再如,对于本实施例的方法在多个设备组成的系统上执行的应用场景时,可以将标题名称及数据字段通过任意的数据通信方式直接发送至预设的终端设备,终端设备可以是前述段落列举中的一种或多种。
通过应用本申请的技术方案,该方案通过获取征信报文;解析征信报文,获取标题名称及数据字段,建立每个标题名称对应的标题标签及每个数据字段对应的数据标签,根据标题名称之间的上下级关系及标题名称与数据字段的对应关系,建立标题标签与数据标签的标签对应关系;获取用户输入的查询信息,根据查询信息查询对应的查询标题标签,根据标签对应关系查询标题标签及数据标签,输出标题标签及数据标签对应的标题名称及数据字段。通过应用本申请的技术方案,建立了系统的征信信息提取模型,既能准确的从征信报文中提取各个数据,又能在用户查询时准确显示用户需要的所有信息,同时,通过设立标签使查询、提取过程变的快捷方便,节约存储空间、加快反应速度,使征信信息的获取更加准确、省心省力提高了用户体验。
在本申请的可选实施例中,为了准确获取征信报文内的信息,并将征信报文信息转换为较为容易读取的形式。所述获取征信报文,具体包括:
获取原始征信报文,通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文。
如图3所示,为一种对原始征信报文进行解析后生成的一种易于读取的征信报文的示意图。
进一步的,在本申请的可选实施例中,为了针对现有应用场景中绝大部分征信报文为pdf格式报文,并且使自身快速解读文档文件,并基于原始文件生成一种利用提取信息的征信报文。所述通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文,具体包括:
利用Python程序对所述原始征信报文进行标题化解析,确定所述原始征信报文中的各个标题及所述各个标题之间的从属关系,确定各个标题对应的数据信息,根据所述从属关系及所述数据信息建立所述征信报文。
在本申请的可选实施例中,为了准确建立标签之间的对应关系,同时节约存储空间,使每个标签的对应关系不至于太多太复杂。所述根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系,具体包括:
根据所述上下级关系及所述对应关系,建立最低级标题标签与所述数据标签的最低级标签对应关系;
建立高级标题标签与对应的所有中间标题标签或所述最低级标题标签,建立标题标签对应关系,所述中间标题标签比所述高级标题标签低一级。
作为一种示例,一级标题为:个人基本信息;二级标题为:身份信息、配偶信息、居住信息;三级标题为:二级标题身份信息下的性别、出生日期、婚姻状况、学历;数据字段为:男、2000年1月1日、已婚、本科。则三级标题为最低级标题,则建立的对应关系为:性别(男)、出生日期(2000年1月1日)、婚姻状况(已婚)、学历(本科);当高级标题标签对应一级标题时,则其与最低级标题(三级标题)之间存在中间标题(二级标题),则高级标题标签建立的对应关系为:个人基本信息(身份信息、配偶信息、居住信息);当高级标题标签对应二级标题身份信息时,则其与最低级标题(三级标题)之间不存在中间标题,则高级标题标签建立的对应关系为:身份信息(性别、出生日期、婚姻状况、学历)。即本方案仅存储当前标签与其下一级标签之间的对应关系,只有最低级的标题标签与数据标签建立对应关系。这样的对应方式可以极大的简化对应关系的复杂程度的,同时通过逐级查询,也不影响通过上级标题标签查看全部下级标签乃至数据标签。极大的节约了存储空间,并且加快了系统的相应速度。
在本申请的可选实施例中,为了准确展示用户想要看到的全部信息,在用户查询高级标题标签时能够显示这个标签下的全部标题标签及最终的数据标签,进而通过对应显示标题名称及数据字段。所述根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段,具体包括:
根据所述标签对应关系确定所述查询标题标签的所有中间标题标签,逐级最终确定对应的所有最低级标题标签及所对应的数据标签;
确定所述查询标题标签、所有所述中间标题标签、所有所述最低级标题标签及所述数据标签对应的所述标题名称及所述数据字段,输出所述标题名称及所述数据字段。
在具体的应用场景中,征信数据提取的具体流程为:
(1)运行程序根据已知征信报告文件存储路径获取pdf格式的征信报告;
(2)调用Python程序解析pdf格式征信报告文件生成excel格式征信报文,并存储指定文件夹中;
(3)使用Java程序解析excel格式征信报文;
(4)使用Java程序建立标签与标题名称、数据字段之间及标签与标签之间的对应关系,以供查询时可以快速、准确的进行查询。
通过Python程序读取pdf格式的征信报告,如图2所示,分别根据征信报告中的大标题:个人信用报告、个人基本信息、信息概要、信贷交易信息明细、非信贷交易信息明细、公共信息明细、查询记录、报告说明,单独获取一个大模块中标题数据信息,再进行细分,具体到:(一)身份信息、性别、通讯地址、编号、(二)配偶信息、姓名、(三)居住信息、编号等小标题,依次读取pdf格式的征信报告文件中的信息,结构化到Excel文件中,如图3所示,并将Excel文件存储在指定文件夹中,以作后用。
根据excel格式征信报文文件中的标题进行分类,分别分为一级标题标签、二级标题标签、三级标题标签、数据标签。例如,一级标题标签:附件、个人信用报告、个人基本信息、信息概要、信贷交易信息明细、非信贷交易信息明细、公共信息明细、查询记录、报告说明等;二级标题标签:(一)身份信息(二)、配偶信息(三)居住信息、编号、(四)职业信息、(一)个人信用报告“数字解读”、(二)信贷交易信息提示、(三)信贷交易违约信息概要、(四)信贷交易授信及负债信息概要、(五)非信贷交易信息概要、(六)公共信息概要等;三级标题标签:(授信机构版)、被查询者姓名、其他证件信息、证件类型、防欺诈警示、生效日期、异议信息提示、性别、通讯地址、编号等。数据标签与excel格式征信报文中的数据字段一一对应。之后建立标签对应关系,具体的分为两步:(1)分类:解析中使用Java语言中的XSSFWorkbook进行解读Excel文件,先判断excel格式征信报文中存在的Sheet工作簿,获取每个Sheet中的总行数,进行行读取,再依次读取数据库中的标签映射表,进行分类;(2)赋值:使用Document对象创建一级标签、二级标签、三级标签、四级标签、数据标签等,在行读取数据时,根据已从映射表中读取到的数据进行分类赋值,当一个一级模块读取完成后(判断下一行是否为一级模块来判断,二级模块、数据模块也是一样),把一级标签root.addContent(ones),添加到root(主标签)中,并以此类推。
基于同一发明构思,本发明实施例还提供了一种征信数据提取设备,如图4所示,包括:
获取模块401,获取征信报文;
对应模块402,解析所述征信报文,获取标题名称及数据字段,建立每个所述标题名称对应的标题标签及每个所述数据字段对应的数据标签,根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系;
输出模块403,获取用户输入的查询信息,根据所述查询信息确定对应的查询标题标签,根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段。
在一个可选的实施例中,所述获取模块401获取征信报文,具体包括:
获取原始征信报文,通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文。
在一个可选的实施例中,所述获取模块401通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文,具体包括:
利用Python程序对所述原始征信报文进行标题化解析,确定所述原始征信报文中的各个标题及所述各个标题之间的从属关系,确定各个标题对应的数据信息,根据所述从属关系及所述数据信息建立所述征信报文。
在一个可选的实施例中,所述对应模块402根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系,具体包括:
根据所述上下级关系及所述对应关系,建立最低级标题标签与所述数据标签的最低级标签对应关系;
建立高级标题标签与对应的所有中间标题标签或所述最低级标题标签,建立标题标签对应关系,所述中间标题标签比所述高级标题标签低一级。
在一个可选的实施例中,所述输出模块403根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段,具体包括:
根据所述标签对应关系确定所述查询标题标签的所有中间标题标签,逐级最终确定对应的所有最低级标题标签及所对应的数据标签;
确定所述查询标题标签、所有所述中间标题标签、所有所述最低级标题标签及所述数据标签对应的所述标题名称及所述数据字段,输出所述标题名称及所述数据字段。
上述实施例的设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种征信数据提取方法,其特征在于,包括:
获取征信报文;
解析所述征信报文,获取标题名称及数据字段,建立每个所述标题名称对应的标题标签及每个所述数据字段对应的数据标签,根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系;
获取用户输入的查询信息,根据所述查询信息确定对应的查询标题标签,根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段。
2.根据权利要求1所述的方法,其特征在于,所述获取征信报文,具体包括:
获取原始征信报文,通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文。
3.根据权利要求2所述的方法,其特征在于,所述通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文,具体包括:
利用Python程序对所述原始征信报文进行标题化解析,确定所述原始征信报文中的各个标题及所述各个标题之间的从属关系,确定各个标题对应的数据信息,根据所述从属关系及所述数据信息建立所述征信报文。
4.根据权利要求1所述的方法,其特征在于,所述根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系,具体包括:
根据所述上下级关系及所述对应关系,建立最低级标题标签与所述数据标签的最低级标签对应关系;
建立高级标题标签与对应的所有中间标题标签或所述最低级标题标签,建立标题标签对应关系,所述中间标题标签比所述高级标题标签低一级。
5.根据权利要求1所述的方法,其特征在于,所述根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段,具体包括:
根据所述标签对应关系确定所述查询标题标签的所有中间标题标签,逐级最终确定对应的所有最低级标题标签及所对应的数据标签;
确定所述查询标题标签、所有所述中间标题标签、所有所述最低级标题标签及所述数据标签对应的所述标题名称及所述数据字段,输出所述标题名称及所述数据字段。
6.一种征信数据提取设备,其特征在于,包括:
获取模块,获取征信报文;
对应模块,解析所述征信报文,获取标题名称及数据字段,建立每个所述标题名称对应的标题标签及每个所述数据字段对应的数据标签,根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系;
输出模块,获取用户输入的查询信息,根据所述查询信息确定对应的查询标题标签,根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段。
7.根据权利要求6所述的设备,其特征在于,所述获取模块获取征信报文,具体包括:
获取原始征信报文,通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文。
8.根据权利要求7所述的设备,其特征在于,所述获取模块通过程序设计语言对所述原始征信报文进行标题化解析,生成所述征信报文,具体包括:
利用Python程序对所述原始征信报文进行标题化解析,确定所述原始征信报文中的各个标题及所述各个标题之间的从属关系,确定各个标题对应的数据信息,根据所述从属关系及所述数据信息建立所述征信报文。
9.根据权利要求6所述的设备,其特征在于,所述对应模块根据所述标题名称之间的上下级关系及所述标题名称与所述数据字段的对应关系,建立所述标题标签与所述数据标签的标签对应关系,具体包括:
根据所述上下级关系及所述对应关系,建立最低级标题标签与所述数据标签的最低级标签对应关系;
建立高级标题标签与对应的所有中间标题标签或所述最低级标题标签,建立标题标签对应关系,所述中间标题标签比所述高级标题标签低一级。
10.根据权利要求6所述的设备,其特征在于,所述输出模块根据所述标签对应关系查询所述查询标题标签对应的所有所述标题标签及所有所述数据标签,输出所述标题标签及所述数据标签对应的所述标题名称及所述数据字段,具体包括:
根据所述标签对应关系确定所述查询标题标签的所有中间标题标签,逐级最终确定对应的所有最低级标题标签及所对应的数据标签;
确定所述查询标题标签、所有所述中间标题标签、所有所述最低级标题标签及所述数据标签对应的所述标题名称及所述数据字段,输出所述标题名称及所述数据字段。
CN201911060340.2A 2019-11-01 2019-11-01 一种征信数据提取方法及设备 Pending CN110990397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911060340.2A CN110990397A (zh) 2019-11-01 2019-11-01 一种征信数据提取方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911060340.2A CN110990397A (zh) 2019-11-01 2019-11-01 一种征信数据提取方法及设备

Publications (1)

Publication Number Publication Date
CN110990397A true CN110990397A (zh) 2020-04-10

Family

ID=70082924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911060340.2A Pending CN110990397A (zh) 2019-11-01 2019-11-01 一种征信数据提取方法及设备

Country Status (1)

Country Link
CN (1) CN110990397A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613988A (zh) * 2020-12-31 2021-04-06 中国农业银行股份有限公司 一种生成征信指标信息的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404660A (zh) * 2015-11-05 2016-03-16 上海智臻智能网络科技股份有限公司 多级数据存储方法及装置、多级数据结构、信息检索方法
CN107992585A (zh) * 2017-12-08 2018-05-04 北京百度网讯科技有限公司 通用标签挖掘方法、装置、服务器及介质
CN108171600A (zh) * 2018-01-19 2018-06-15 深圳前海大数金融服务有限公司 征信报告解析方法、服务器及存储介质
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN109255128A (zh) * 2018-10-11 2019-01-22 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404660A (zh) * 2015-11-05 2016-03-16 上海智臻智能网络科技股份有限公司 多级数据存储方法及装置、多级数据结构、信息检索方法
CN107992585A (zh) * 2017-12-08 2018-05-04 北京百度网讯科技有限公司 通用标签挖掘方法、装置、服务器及介质
CN108171600A (zh) * 2018-01-19 2018-06-15 深圳前海大数金融服务有限公司 征信报告解析方法、服务器及存储介质
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN109255128A (zh) * 2018-10-11 2019-01-22 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613988A (zh) * 2020-12-31 2021-04-06 中国农业银行股份有限公司 一种生成征信指标信息的方法及装置

Similar Documents

Publication Publication Date Title
US11636553B2 (en) Electronic receipt-linking database system
CN104579909B (zh) 一种用户信息的分类、用户分组信息的获取方法和设备
US11373251B1 (en) System and method to augment electronic documents with externally produced metadata to improve processing
CN110798567A (zh) 短信分类显示方法及装置、存储介质、电子设备
CN109582859B (zh) 保险推送方法、装置、计算机设备及存储介质
CN105589911A (zh) 客户价值评估方法及系统
CN110717754A (zh) 商品的交易方法、服务器、用户端、实验室端及系统
CN113139869A (zh) 一种征信授权查询处理方法和装置
CN111145031B (zh) 一种保险业务定制方法、装置及系统
CN110020196B (zh) 一种基于不同数据源的用户分析方法和装置及计算设备
CN110990397A (zh) 一种征信数据提取方法及设备
CN111858686B (zh) 数据显示方法、装置、终端设备及存储介质
CN111209488B (zh) 信息分享方法以及装置
CN115563176A (zh) 一种电子商务数据处理系统及方法
CN115408598A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN115471228A (zh) 金融业务凭证检核方法、装置、设备及存储介质
CN111626881B (zh) 年金组合风险管理系统、方法、服务器及存储介质
CN112508472A (zh) 多人查看同一账号下订单信息的方法及系统
CN111127102A (zh) 平台积分交易方法、装置、电子设备及存储介质
CN110609894A (zh) 基于文字挖掘的资料交换平台及利用其的方法
CN108520334A (zh) 一种职业征信方法和装置
CN112486964B (zh) 一种目标识别方法及设备
CN111178029A (zh) 一种通用发票模板设置方法及系统
KR102228159B1 (ko) 시장조사용 포지셔닝 맵 생성장치 및 방법
CN115577093A (zh) 金融信息的ai分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 10-7, 10-8, 10 Qingyun Road, Jiangbei District, Chongqing 400025

Applicant after: Dongfang Weiyin Technology Co.,Ltd.

Address before: 10-7, 10-8, 10 Qingyun Road, Jiangbei District, Chongqing 400025

Applicant before: Oriental micro bank technology (Chongqing) Co.,Ltd.

Address after: 10-7, 10-8, 10 Qingyun Road, Jiangbei District, Chongqing 400025

Applicant after: Oriental micro bank technology (Chongqing) Co.,Ltd.

Address before: 100044 4th floor, Ronghui international building, building 1, courtyard 42, gaoliangxie street, Haidian District, Beijing

Applicant before: Oriental micro silver technology (Beijing) Co.,Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200410