CN112634069A - 核保请求处理方法、装置、计算机设备和存储介质 - Google Patents

核保请求处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112634069A
CN112634069A CN202011626411.3A CN202011626411A CN112634069A CN 112634069 A CN112634069 A CN 112634069A CN 202011626411 A CN202011626411 A CN 202011626411A CN 112634069 A CN112634069 A CN 112634069A
Authority
CN
China
Prior art keywords
entities
entity
relationship
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011626411.3A
Other languages
English (en)
Inventor
邱少斌
杨正超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiping Finance Technology Services Shanghai Co ltd
Original Assignee
Taiping Finance Technology Services Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiping Finance Technology Services Shanghai Co ltd filed Critical Taiping Finance Technology Services Shanghai Co ltd
Priority to CN202011626411.3A priority Critical patent/CN112634069A/zh
Publication of CN112634069A publication Critical patent/CN112634069A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种核保请求处理方法、装置、计算机设备和存储介质。所述方法包括:接收核保请求,所述核保请求携带有企业标识;在预先生成的目标知识图谱中确定与所述企业标识对应的目标子图;将所述目标子图进行向量化得到待处理向量;将所述待处理向量输入至预先训练得到的保单风险识别模型中,得到与所述待处理向量对应的风险指标;根据所述风险指标对所述核保请求进行处理。采用本方法能够提高处理效率。

Description

核保请求处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据处理技术领域,特别是涉及一种核保请求处理方法、装置、计算机设备和存储介质。
背景技术
知识图谱(Knowledge Graph)又称科学知识图谱,是图书情报学领域的概念,用于绘制、分析和显示学科或学术研究主体之间的相互联系,是揭示显示科学知识发展进程与结构关系的可视化工具。
在通过知识图谱进行核保处理的时候,需要将待核保数据输入至知识图谱中,以在知识图谱中进行传播,最后根据传播的路径得到核保结果。
但是每次核保请求均需要输入至知识图谱中导致数据处理量大,占用了大量的计算机资源,效率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种提高处理效率的核保请求处理方法、装置、计算机设备和存储介质。
一种核保请求处理方法,所述方法包括:
接收核保请求,所述核保请求携带有企业标识;
在预先生成的目标知识图谱中确定与所述企业标识对应的目标子图;
将所述目标子图进行向量化得到待处理向量;
将所述待处理向量输入至预先训练得到的保单风险识别模型中,得到与所述待处理向量对应的风险指标;
根据所述风险指标对所述核保请求进行处理。
在其中一个实施例中,所述目标知识图谱的生成方式包括:
获取关系型数据库中的数据,并将所述关系型数据库中的数据同步至图数据库得到初始知识图谱;
获取所述初始知识图谱中各个实体之间的关系的种类、实体之间的关系的发生时间以及每一类实体之间的关系的数量属性值;
根据所获取的实体之间的关系的种类、发生时间以及每一类实体之间的关系的数量属性值,对所述初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱。
在其中一个实施例中,所述方法还包括:
根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整。
在其中一个实施例中,所述根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整,包括:
获取针对所述实体之间的关系的强度的量化值分区;
根据所述量化值分区对所述目标知识图谱中的实体之间的关系的强度进行调整;
根据调整了所述实体之间的关系的强度的目标知识图谱对保单风险识别模型进行更新;
判断更新后的所述保单风险识别模型的性能是否提升,若是,则通过调整后的所述实体之间的关系的强度更新所述目标知识图谱。
在其中一个实施例中,所述对所述初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱之后,还包括:
根据所述目标知识图谱生成初始子图;
按照预设规则对所述初始子图进行关系预测得到新增的实体间关系;
通过所述新增的实体间关系对所述初始子图进行更新,并根据更新后的初始子图对所述目标知识图谱进行更新。
在其中一个实施例中,所述按照预设规则对所述初始子图进行关系预测得到新增的实体间关系,包括:
按照预设规则对所述初始子图进行关系预测得到新增实体间的连接关系;
获取用于预测所述新增实体间连接关系的所述知识图谱中的实体间关系的强度;
根据所获取的所述知识图谱中的实体间关系的强度,得到所述新增实体间连接关系的强度;
根据所述新增实体间连接关系以及所述新增实体间连接关系的强度得到新增的实体间关系。
在其中一个实施例中,所述在预先生成的目标知识图谱中确定与所述企业标识对应的目标子图,包括:
在预先生成的目标知识图谱中确定与所述企业标识对应的目标同质子图和目标异质子图,所述目标同质子图是与所述企业标识对应的企业实体的实体类型相同的实体组成的,所述目标异质子图是与所述企业标识对应的企业实体以及与所述企业实体的实体类型不相同的实体组成的;所述将所述目标子图进行向量化得到待处理向量,包括:
分别将所述目标同质子图和所述目标异质子图进行向量化得到待处理向量。
在其中一个实施例中,所述保单风险识别模型的训练方式包括:
根据预先生成的目标知识图谱构建样本子图,所述预先生成的目标知识图谱中包括通用风险企业实体以及团体风险企业实体;
将所述样本子图进行向量化得到样本向量;
对所述样本向量进行训练得到保单风险识别模型。
在其中一个实施例中,所述对所述样本向量进行训练得到保单风险识别模型,包括:
对所述样本向量进行训练得到,并计算保单风险识别模型的评价指标;
获取所述评价指标与风险指标划分阈值的对应关系;
根据所述对应关系确定目标评价指标和目标风险指标划分阈值,并确定所述目标评价指标对应的保单风险识别模型作为训练完成的保单风险识别模型。
在其中一个实施例中,所述根据所述风险指标对所述核保请求进行处理,包括:
根据所述风险指标划分阈值确定所述风险指标的指标区间;
获取与所述指标区域对应的处理分支;
根据所述处理分支对所述核保请求进行处理。
在其中一个实施例中,所述接收核保请求之后,还包括:
判断企业风险库中是否存在与所述企业标识对应的企业;
若是,则将所述核保请求发送至人工核保终端。
在其中一个实施例中,所述将所述关系型数据库中的数据同步至图数据库得到初始知识图谱,包括:
获取预先定义的数据字典;
获取根据所述数据字典以及关系型数据库所配置的映射关系,所述映射关系是所述数据字典中的属性信息与所述关系型数据库中对应数据表中的字段的对应关系;
遍历所述数据字典以根据所述映射关系生成与所述数据字典中的数据对应的数据抽取脚本;
通过所述数据抽取脚本对所述数据表中的数据进行抽取;
将抽取后的数据同步至图数据库得到初始知识图谱。
在其中一个实施例中,所述将抽取后的数据同步至图数据库得到初始知识图谱,包括:
将所抽取的数据转换为与图数据库的入库接口对应的多元数组;
通过所述入库接口将所述多元数组同步至所述图数据库得到初始知识图谱。
在其中一个实施例中,所述数据字典包括实体信息、实体间属性关系信息以及属性信息,其中所述属性信息包括与实体信息的实体属性信息以及实体间属性关系的属性信息。
在其中一个实施例中,所述遍历所述数据字典以根据所述映射关系生成与所述数据字典中的数据对应的数据抽取脚本,包括:
遍历所述数据字典中的实体信息,以得到待处理属性信息,所述待处理属性信息包括实体信息对应的实体属性信息,或者待处理属性信息包括实体信息对应的实体属性信息、所述实体间属性关系信息中所涉及的实体信息的实体属性信息以及实体间属性关系对应的属性信息;
根据所述映射关系生成与所述待处理属性信息对应的数据抽取脚本。
在其中一个实施例中,所述遍历所述数据字典中的实体信息,以得到待处理属性信息,包括:
遍历所述数据字典中的所有的实体信息,以得到待处理属性信息;
所述根据所述映射关系生成与所述待处理属性信息对应的数据抽取脚本,包括:
根据所述映射关系一次性生成与所述待处理属性信息对应的数据抽取脚本。
在其中一个实施例中,所述遍历所述数据字典中的实体信息,以得到待处理属性信息,包括:
遍历所述数据字典中的当前实体信息,以得到与所述当前实体信息对应的当前待处理属性信息;
所述根据所述映射关系生成与所述待处理属性信息对应的数据抽取脚本,包括:
根据所述映射关系生成与所述当前待处理属性信息对应的数据抽取脚本,并判断所述数据字典中是否还存在未遍历到的实体信息,若存在,则获取下一未遍历到的实体信息作为当前实体信息,并继续得到与所述当前实体信息对应的当前待处理属性信息,直至所述数据字典中的实体信息均遍历完成。
在其中一个实施例中,所述遍历所述数据字典中的实体信息,以得到待处理属性信息,包括:
判断所述数据字典中的实体信息是否存在父级实体;
当所述实体信息存在父级实体时,则查询实体关系,并获取与所述实体关系对应的实体间属性关系信息;
获取所述实体间属性关系信息中所涉及的实体信息的实体属性信息作为待处理属性信息。
在其中一个实施例中,所述遍历所述数据字典以根据所述映射关系生成与所述数据字典中的数据对应的数据抽取脚本,包括:
遍历所述数据字典确定所述数据字典中的数据的主键;
根据所述映射关系以及所述主键生成与所述数据字典中的数据对应的数据抽取脚本。
在其中一个实施例中,所述初始知识图谱包括企业实体、人员实体、风险实体、企业实体与企业实体之间的关系、企业实体与人员实体之间的关系以及企业实体与风险实体之间的关系。
一种核保请求处理装置,所述装置包括:
接收模块,用于接收核保请求,所述核保请求携带有企业标识;
第一子图获取模块,用于在预先生成的目标知识图谱中确定与所述企业标识对应的目标子图;
第一向量化模块,用于将所述目标子图进行向量化得到待处理向量;
模型处理模块,用于将所述待处理向量输入至预先训练得到的保单风险识别模型中,得到与所述待处理向量对应的风险指标;
请求处理模块,用于根据所述风险指标对所述核保请求进行处理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。上述核保请求处理方法、装置、计算机设备和存储介质,不再在知识图谱中进行大量的传播,而是获取到与企业标识对应的目标子图,并将目标子图向量化后得到待处理向量,从而根据预先训练得到的保单风险识别模型中得到对应的风险指标,进而对核保请求进行处理,提高了处理的效率。
附图说明
图1为一个实施例中配核保请求处理方法的应用环境图;
图2为一个实施例中核保请求处理方法的流程示意图;
图3为一个实施例中的关系强度调整步骤的流程图;
图4为一个实施例中的关系强度的示意图;
图5为图4所示例子中关系强度量化后的示意图;
图6为一个实施例中的目标知识图谱中的关系图;
图7为图6所示实施例中的关系图对应的同质子图;
图8为图7所示实施例中的同质子图对应的完善子图;
图9为一个实施例中的评价指标与风险指标划分阈值的对应关系图;
图10为一个实施例中的配置化的数据同步方法的流程图;
图11为一个实施例中的数据字典的示意图;
图12为一个实施例中的持股关系的初始知识图谱的示意图;
图13为一个实施例中的分支机构的初始知识图谱的示意图;
图14为一个实施例中的企业实体与人员实体之间的关系的初始知识图谱的示意图;
图15为一个实施例中的企业实体与风险实体之间的关系的知识图谱的示意图;
图16为一个实施例中数据抽取脚本的生成流程图;
图17为另一个实施例中数据抽取脚本的生成流程图;
图18为一个实施例核保请求处理装置的结构框图;
图19为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的核保请求处理方法,可以应用于如图1所示的应用环境中。其中,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在此,以服务器为例进行说明,服务器102可以接收核保请求,该核保请求携带有企业标识,这样服务器102可以在预先生成的目标知识图谱中确定与企业标识对应的目标子图;然后将目标子图进行向量化得到待处理向量;最后将待处理向量输入至预先训练得到的保单风险识别模型中,得到与待处理向量对应的风险指标;服务器102根据风险指标对核保请求进行处理,例如发送至人工核保终端104等。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种核保请求处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:接收核保请求,核保请求携带有企业标识。
具体地,该核保请求是终端发送至服务器的,例如在进行团体客户业务开展中的核保环节,需要根据团体客户对应的企业进行风险预测。其中企业标识是用于唯一表征企业的。
此外,可选地接收核保请求之后,还包括:判断企业风险库中是否存在与企业标识对应的企业;若是,则将核保请求发送至人工核保终端,这样不再需要进行后续的处理,提高了处理效率。
S204:在预先生成的目标知识图谱中确定与企业标识对应的目标子图。
具体地,目标知识图谱是根据大数据所生成的,其可以包括企业实体、人员实体、风险实体、企业实体与企业实体之间的关系、企业实体与人员实体之间的关系以及企业实体与风险实体之间的关系。
子图是用于表征与企业存在关系的其他实体的范围的,其也可以包括企业实体、人员实体、风险实体、企业实体与企业实体之间的关系、企业实体与人员实体之间的关系以及企业实体与风险实体之间的关系。其中子图分为同质子图和异质子图,同质子图是与企业标识对应的企业实体的实体类型相同的实体组成的,异质子图是与企业标识对应的企业实体的实体类型不相同的实体组成的。
因此服务器在接收到核保请求后,根据企业标识在知识图谱中进行传播,得到满足预设传播停止条件的同质子图和异质子图,其中预设传播停止条件可以为传播次数,例如2次等。
S206:将目标子图进行向量化得到待处理向量。
具体地,针对同质子图和异质子图之间结构不同的特点,针对同质子图选取LINE(Large-scale Information Network Embedding)算法将同质子图转化为向量表示;针对异质子图,采用Metapath2vec的算法将图结构转化为向量表示。
S208:将待处理向量输入至预先训练得到的保单风险识别模型中,得到与待处理向量对应的风险指标。
具体地,保单风险识别模型是预先进行训练得到的,其输入是同质子图和异质子图向量化后的向量,输出是对应的企业的风险指标。其中该保单风险识别模型可以为LightGBM机器学习模型,所采用的训练的风险企业样本为通用风险样本和针对团体客户的特定风险样本。
服务器对将同质子图和异质子图向量化操作之后,将得到的向量化的待处理向量输入至保单风险识别模型中,从而可以得到与待处理向量对应的风险指标。
S210:根据风险指标对核保请求进行处理。
具体地,服务器中可以预先存储有风险指标对应的核保处理流程,这样当服务器得到对应的风险指标后,则查询预先存储的风险指标对应的核保处理流程,然后根据对应的核保流程进行处理。
其中,服务器在得到风险指标后,可以根据预先设置的阈值对风险指标进行处理,以将风险指标对应的企业划分为有风险企业和无风险企业,对应的处理意见为放行和人工核保两种方式。
其中根据风险指标对核保请求进行处理,包括:根据风险指标划分阈值确定风险指标的指标区间;获取与指标区域对应的处理分支;根据处理分支对核保请求进行处理。
此外,可选地,服务器还可以对有风险企业和无风险企业对应的指标区间进行更为细致的划分,例如对于无风险企业则根据1/n和2/n分位数进行划分,而对于有风险企业则根据中位数进行划分等。
其中此处以阈值为0.6为例进行说明,对于大于0.6和小于0.6的指标区间进行更细的划分:对所有样本企业的风险指标进行排序。对小于0.6的指标区间,按照1/3分位数和2/3分位数进行划分,划分之后得到的区间风险等级指定为无、低和中低,对大于0.6的指标区间,按照中位数进行划分,划分之后得到的区间风险等级指定为中高和高。
划分之后的结果即指标标准如下:
Figure BDA0002873167900000091
Figure BDA0002873167900000101
这样服务器依据风险等级为中高和高的企业,进行人工核保,如果最后明确拒保的情况,则把该企业存入公司的企业风险库,并标注拒保原因,之后再进行核保的时候,服务器则可以先通过企业风险库进行核查,如果该企业在风险库里存在,则直接进行人工核保,根据核保结果,决定将该企业从风险库移除或者保持不变,形成风险库的闭环,增强企业风控能力。依据保单风险识别模型及人工核保结果,建立企业风险库,增强公司在核保环节的风险控制,提高了风险控制的效率。
上述核保请求处理方法,不再在知识图谱中进行大量的传播,而是获取到与企业标识对应的目标子图,并将目标子图向量化后得到待处理向量,从而根据预先训练得到的保单风险识别模型中得到对应的风险指标,进而对核保请求进行处理,提高了处理的效率。
在其中一个实施例中,目标知识图谱的生成方式包括:获取关系型数据库中的数据,并将关系型数据库中的数据同步至图数据库得到初始知识图谱;获取初始知识图谱中各个实体之间的关系的种类、实体之间的关系的发生时间以及每一类实体之间的关系的数量属性值;根据所获取的实体之间的关系的种类、发生时间以及每一类实体之间的关系的数量属性值,对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱。
具体地,关系型数据库是存储了各个实体以及实体间的关系的数据库,服务器可以通过配置化的方式将关系型数据库中的数据同步至图数据库中得到初始知识图谱,具体可以参见下文。在完成初始知识图谱后,服务器还需要对初始知识图谱中实体与实体之间的关系进行量化,例如根据各个实体之间的关系的种类、实体之间的关系的发生时间以及每一类实体之间的关系的数量属性值对实体之间的关系进行量化得到关系强度,其中量化结果为具体的数值大小,数值越大代表实体之间的联系越为紧密,数值越小代表实体之间的联系越弱。后续使用交叉验证的办法对量化的数值进行验证和调整。
具体地,服务器可以通过经验模型对实体之间的关系进行量化得到关系强度,其中经验模型可以为:
r=f(g,t,c)
其中,r表示量化的实体之间的关系;g表示为关系种类;t表示该种类发生的最新时间与当前时间的距离;c表示关系的数量属性值,对于持股和投资方面,数量表示的为资金数量或者关联种类的数量,对于风险相关的种类,数量为风险实体所包含风险事件数量。
将关系强度量化为数值,反映了实体之间的关联程度的强弱,使用具体数值代替了原有工商企业图谱中关系仅为是和否的两种状态,为衡量企业之间的关系提供更多的信息,并且在后续的保单风险识别模型中使用量化结果为图结构中的边提供权重大小,提升模型对风险企业其关联企业以及风险关联企业的学习能力。并且当企业情况或者风险发生变化的时候,其变化能够直接体现在量化强度的数值上,从而通过风险评分同时改变企业风险评分。
其中,在根据所获取的实体之间的关系的种类、发生时间以及每一类实体之间的关系的数量属性值,对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱的步骤,具体包括:
确定影响因素,总体上影响因素分为三种影响因素:关系种类、关系发生时间和实例包含的具体数量。其中关系种类主要分为持有股份、分支机构、担任职位以及和风险关系;风险关系又划分为四种风险关系:法律诉讼、经营风险、财务风险和产权风险。
建立关系强度量化经验模型
对于持有股份:
Figure BDA0002873167900000121
其中,c1表示持有股份比,c2表示直接关联企业数量。
对于分支机构
Figure BDA0002873167900000122
其中,c表示直接关联企业数量。
对于人在企业中担任职务:
Figure BDA0002873167900000123
其中c表示直接关联人员数量,g′为
Figure BDA0002873167900000124
对于法律诉讼关系:
Figure BDA0002873167900000125
其中,c为企业诉讼条数总数,t为诉讼发生的最新时间与当前时间距离的月数。
对于经营异常关系:
Figure BDA0002873167900000126
其中,c为企业经营风险条数总数,t为经营风险发生的最新时间与当前时间距离的月数。
对于财务风险:
Figure BDA0002873167900000127
其中,c为企业财务风险条数总数,t为财务风险发生的最新时间与当前时间距离的月数。
对于产权风险:
Figure BDA0002873167900000131
其中,c为企业产权风险条数总数,t为产权风险发生的最新时间与当前时间距离的月数。
此外,对于两个实体之间存在多个关系的,关系强度采取直接线性叠加的方式。
上述实施例中,在完成初始知识图谱后,根据不同的影响因素,对图谱中实体与实体之前的关系进行强度大小的量化。
在其中一个实施例中,上述核保请求处理方法还包括:根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整。
具体地,参见图3所示,图3为一个实施例中的关系强度调整步骤的流程图,该关系强度调整步骤可以包括:根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整,包括:获取针对实体之间的关系的强度的量化值分区;根据量化值分区对目标知识图谱中的实体之间的关系的强度进行调整;根据调整了实体之间的关系的强度的目标知识图谱对保单风险识别模型进行更新;判断更新后的保单风险识别模型的性能是否提升,若是,则通过调整后的实体之间的关系的强度更新目标知识图谱。
具体地,初步通过经验模型确定实体之间的关系之后,后续对关系强度进行验证并且进行调整,使用方法:A/B测试结合人工调整。
为了方便说明,举例如下:存在一个投资类型公司的企业1,关联关系如下:与企业1直接存在的关联有四家企业:企业2、企业3、企业4,其中企业2、3、4是企业1存在投资关系的企业:企业1持有企业2的10.12%股份、持有企业3的18.9%的股份、持有企业4的20.3%的股份,并且企业5是企业1的分支机构。同样的,企业2与企业6存在诉讼关系,并且企业2存在经营异常;其中企业董事(个人)占有企业3的股份20%,具体可以参见图4所示,图4为一个实施例中的关系强度调整步骤的例子示意图,其中对于持股关系,上述企业关联示意图中企业1和企业2的关系强度量化为0.6*10.12%*(1/4),即为0.015。而对于诉讼关系,如企业2和企业6之间的存在的一条一年前的诉讼关系的关系强度为0.3*(1/12)*1,即0.025。对于经营异常关系,如企业2存在一个包含2条经营异常的实体,其中最近一次经营异常的发生时间是在一年前,则关系强度为0.5*(1/12)*2,即0.08同样对其它关系带入上述经验模型,最终经过关系强度量化后的示意图参见图5所示。
参见图5所示,关系量化模型中存在一个关系强度为0.11的关系,首先对量化值分区,分为(0,0.2],(0.2,0.4],(0.4,0.6](0.6,0.8](0.8,1]五个分区,然后量化值在第一个分区内,则第一个分区中取值为量化值0.11,第二个分区取中值0.3,后续分区依次取值为0.5,0.7,0.9;然后取这些值使用保单风险识别模型进行A/B测试,如果评分模型效果存在提升,则选取提升的分区的中值或者选取人工调整之后的数值。
上述实施例中,使用交叉验证的办法对量化的数值进行验证和调整。
在其中一个实施例中,对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱之后,还包括:根据目标知识图谱生成初始子图;按照预设规则对初始子图进行关系预测得到新增的实体间关系;通过新增的实体间关系对初始子图进行更新,并根据更新后的初始子图对目标知识图谱进行更新。
具体地,子图包括同质子图和异质子图,服务器可以根据企业资产关系和风险关系,建立出企业和企业之间关联关系的同质子图;使用社区发现算法,对建立的工商企业图谱划分成不同的社区,即异质子图。在同质子图和异质子图这两种子图的基础上,使用制定的推理规则将企业之间隐藏的关联关系连接起来,即根据同质子图和异质子图来进行关系预测得到新增的实体间关系。
在其中一个实施例中,按照预设规则对初始子图进行关系预测得到新增的实体间关系,包括:按照预设规则对初始子图进行关系预测得到新增实体间的连接关系;获取用于预测新增实体间连接关系的知识图谱中的实体间关系的强度;根据所获取的知识图谱中的实体间关系的强度,得到新增实体间连接关系的强度;根据新增实体间连接关系以及新增实体间连接关系的强度得到新增的实体间关系。
具体地,对于企业A、企业B和企业C,企业A和企业B之间存在关系,企业B和企业C存在关系,对于企业A和企业C之间的推理规则如下:
Figure BDA0002873167900000151
对于企业B为企业A分支机构的情况,企业B和企业C之间关系强度r>0.18以及企业B对企业C为绝对控股的情况下,则认为企业A和企业C之间存在直接的关联关系;对于企业A持有企业B的80%及以上的股份,企业B和企业C之间关系强度r>0.18以及企业B对企业C为绝对控股的情况下,则认为企业A和企业C之间存在直接的关联关系。
推理出的关系对应的关系强度:
Figure BDA0002873167900000152
其中,r′表示推断出新关系的关系强度,s表示参与推理的关系对应的关系强度
即经过推理规则得到的关系的关系强度为:参与推理出该关系的所有关系的关系强度的均值。
同质子图直接的表现了企业之间的关联关系,异质子图通过划分社区将结构上联系紧密的实体划分出来,后续结合向量化方法将同质子图和异质子图进行向量化后进行分保单风险识别模型的训练输入,从而对企业之间关联关系以及对隐藏风险的挖掘。在企业关联子图的基础上,结合制定的推理规则将企业之间隐藏的关联关系连接起来,应用专业知识发现隐藏的关系,则能更好的将专业知识结合到模型中去,从而提升模型发现隐藏风险的能力。
具体地,结合图6至图8所示,其中图6为一个实施例中的目标知识图谱中的关系图,图7为图6所示实施例中的关系图对应的同质子图;图8为图7所示实施例中的同质子图对应的完善子图。
其中,服务器首先构建基于资产关系的同质子图同质图表示的是图中实体类型为相同类型的图,子图中同质子图的构建主要为企业之间的关系之间的子图。基于资产关系的同质图的构造通过企业之间的持股关系将有着资产关系的企业关联起来。
然后服务器构建异质子图,其中异质子图为图中实体类型为存在不同类型的图,构建即是选取构建好的企业工商图谱的一部分。构建异质子图采取使用社区发现算法:Louvain算法。
最后服务器融合推理规则,将符合推理的情况生成的新的关联关系添加的同质子图和异质子图上。
结合图6,存在以下企业1持股的企业2也投资了企业3和企业4,同时企业3也对企业4进行了投资,且企业3为企业5的分支机构,则可以建立同质子图如图7所示。构建完子图之后,服务器在子图的基础上,使用制定的推理规则,进行子图的完善。如上述基于资产关系构建的同质子图中,企业3为企业5的分支机构且企业3和企业4的关系强度大于0.1,则认为企业5和企业4同样存在关系,则同质子图更新为图8所示的完善子图。且企业5和企业4的关系强度初始化为企业5和企业3之间的关系强度与企业3和企业4之间的关系强度的均值。
上述实施例中,在建立高密子图的基础上进行后续的处理。在构建的子图的基础上,根据制定的推理规则,找出隐藏关系。
在其中一个实施例中,在预先生成的目标知识图谱中确定与企业标识对应的目标子图,包括:在预先生成的目标知识图谱中确定与企业标识对应的目标同质子图和目标异质子图,目标同质子图是与企业标识对应的企业实体的实体类型相同的实体组成的,目标异质子图是与企业标识对应的企业实体以及与企业实体的实体类型不相同的实体组成的;将目标子图进行向量化得到待处理向量,包括:分别将目标同质子图和目标异质子图进行向量化得到待处理向量。
具体地,针对同质子图和异质子图之间结构不同的特点,针对同质子图选取LINE(Large-scale Information Network Embedding)算法将同质子图转化为向量表示;针对异质子图,采用Metapath2vec的算法将图结构转化为向量表示。
在向量化操作后,服务器将同质子图和异质子图向量化操作之后,将得到的向量化的待处理向量输入至保单风险识别模型中,从而可以得到与待处理向量对应的风险指标。
在其中一个实施例中,保单风险识别模型的训练方式包括:根据预先生成的目标知识图谱构建样本子图,预先生成的目标知识图谱中包括通用风险企业实体以及团体风险企业实体;将样本子图进行向量化得到样本向量;对样本向量进行训练得到保单风险识别模型。
具体地,所采集通用风险样本:即来源于工商公示系统所公示的存在风险的企业名单,该部分名单为普通的风险企业样本。比如国家企业信用信息公示系统以及各个省份的信息公示系统。所建立针对团体客户的特定风险样本是在公司的团体客户保险业务场景中,对团体客户进行人工核保的时候,通过一定的规则判定该企业存在一定的风险,被公司明确拒保,该企业将会放入公司的风险库中。在理赔环节,公司在对一些团体客户进行核赔的时候,通过人工审核,发现该团体客户存在欺诈,或者洗钱的嫌疑,公司也会将该团体客户放入风险库里边。
其中针对同质子图和异质子图之间结构不同的特点,针对同质子图选取LINE(Large-scale Information Network Embedding)算法将同质子图转化为向量表示;针对异质子图,采用Metapath2vec的算法将图结构转化为向量表示。
最后,评分模型训练将经过向量化操作之后,将得到的向量化的东西传入LightGBM机器学习模型,模型训练采用的风险企业样本为通用风险样本和针对团体客户的特定风险样本。
在其中一个实施例中,对样本向量进行训练得到保单风险识别模型,包括:对样本向量进行训练得到,并计算保单风险识别模型的评价指标;获取评价指标与风险指标划分阈值的对应关系;根据对应关系确定目标评价指标和目标风险指标划分阈值,并确定目标评价指标对应的保单风险识别模型作为训练完成的保单风险识别模型。
其中,在实际应用中,服务器构建的同质子图和异质子图使用对应的向量化的方法将图结构的数据映射为低维向量,后续接入LightGBM机器学习模型,通过机器学习模型训练得到评分模型。经过机器学习模型,对于每个企业都给出对应的风险概率值,取值在0-1之间,对得到的评分结果结合实际业务情况进行划定阈值,风险评分值大于等于该阈值的为风险企业,风险评分值小于该阈值的为无风险企业。
其中,上述的目标风险指标划分阈值的生成方式可以包括:首先对于所建立的保单风险识别模型通过评价指标进行评价,具体的评价指标包括:
准确率:
Figure BDA0002873167900000181
召回率
Figure BDA0002873167900000182
其中,TP、FP和FN分别为
Figure BDA0002873167900000183
可以看出,精确率是针对预测结果而言的,它表示的是预测为风险企业的样本中有多少是真正的风险企业;召回率是针对来的样本而言的,它表示的是样本中的风险样本有多少被预测正确了。
参见图9所示,服务器分别作出不同风险指标划分阈值下准确率和召回率的情况,然后根据需要选取对应的目标风险指标划分阈值和目标评价指标。
例如,准确率和召回率的曲线在阈值选风险值约取0.6的时候交叉,选取此处为阈值,可以综合考虑准确率和召回率的情况,并且此时准确率和召回率都有着较好的表现,因此最终选取模型结果风险值大于等于0.6的值为风险企业,模型评分值小于0.6的为无风险企业。
在其中一个实施例中,参见图10,图10为一个实施例中的配置化的数据同步方法的流程图,将关系型数据库中的数据同步至图数据库得到初始知识图谱的步骤包括以下步骤:
S1002:获取预先定义的数据字典。
具体地,数据字典是预先根据业务需求所生成的,包括实体信息、实体间属性关系信息以及属性信息,其中属性信息包括与实体信息的实体属性信息以及实体间属性关系的属性信息。具体地,可以参见图11所示,图11为一个实施例中的数据字典的示意图。服务器可以预先获取到业务需求相关的实体、属性以及关系,然后将这些作为元数据存储到数据字典中,而图数据库则是根据数据字典中定义的结构去存储。
其中,数据字典的定义方法可以包括:首先创建实体信息字典,实体信息描述实体类型、实体名称、父级实体、与父级实体的关系名、关系类型。如:企业实体与人员实体,人员的父级实体为企业。两者的关系是人员是企业的员工。例:
实体类型 实体名称 父级实体 实体间关系名
企业实体 企业
人员实体 人员 企业实体 员工
其次,创建实体属性信息字典。实体属性信息描述属性名、所属的实体、属性的数据类型、是否主键。如:人员有名字、年龄、性别、就职企业、就职年数、身份证等属性,其中身份证为人员实体主键。企业有企业名称、性质等属性,其中企业名称为企业实体的主键。例:
Figure BDA0002873167900000191
Figure BDA0002873167900000201
最后,创建实体间属性关系信息字典,也就是实体存在关系时,通过实体属性表达的,需要建立该些实体属性之间的关系,描述实体间是通过哪些属性存在关系的。如:人员通过就职企业属性与企业的名称属性产生关系。
子实体属性 父实体属性
就职企业 企业名称
S1004:获取根据数据字典以及关系型数据库所配置的映射关系,映射关系是数据字典中的属性信息与关系型数据库中对应数据表中的字段的对应关系。
具体地,映射关系是数据字典中的属性信息与关系型数据库中对应数据表中的字段的对应关系,具体地,结合图3所示,数据字典中的属性信息是与关系型数据库中的数据表的字段对应的。该映射关系是由用户预先配置的。当业务数据发生改变的时候,用户可以修改对应的数据字典,并获取到所修改的数据字典中的数据对应的属性信息,进而建立该属性信息与关系型数据库中的数据表的字段的映射关系,例如所修改的是实体信息,则可以获取到实体信息对应的实体属性信息,所修改的是实体间属性关系信息,则可以获取到实体间属性关系信息对应的属性信息。此外,当数据表中的字段发生改变的时候,用户也可以直接修改对应的映射关系,例如服务器可以查询修改的字段,然后调整映射关系中对应的字段即可。
具体地,此处以图数据库实体属性与关系型数据库的数据映射为例进行说明,其描述实体属性所对应的关系型数据库中所属的数据表以及字段。如:人员的名字属性通过映射关系具体指向人员表的名字字段。人员的年龄通过映射指向了人员表的年龄。例:
属性名 所属表 所属字段
名字 人员表 名字
身份证 人员表 身份证
就职企业 人员表 就职企业
企业名称 企业表 企业名称
企业性质 企业表 企业性质
因此本实施例中通过预设映射关系,当数据表或者是数据字典发生改变的时候,则仅需要调整对应的数据字典和映射关系即可,而不需要重新编写代码等,提高了处理的效率。
S1006:遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本。
具体地,数据抽取脚本可以是数据库语言编写的脚本,例如服务器可以预设有与数据字典中的数据对应的脚本模板,这样当遍历到对应的数据的时候,则获取到对应的脚本模板,并根据所遍历到的数据的映射关系对脚本模板进行调整得到数据抽取脚本。
其中为了保证各个数据的唯一性,在生成数据抽取脚本的时候,若所抽取的字段对应的属性信息不是主键(可以唯一表征实体信息),则需要通过该属性信息对应的主键来生成数据抽取脚本,保证所抽取的数据的唯一性,且数据库语言可以采用SQL语言,这样服务器可以根据映射关系来动态组装SQL脚本用来进行数据抽取。
此外,为了提高效率,在每次同步数据的时候,可以首先判断数据字典以及映射关系是否发生过变化,若是没有发生变化,则直接采用上次生成的SQL脚本,否则,则可以获取变化了的数据字典以及映射关系,并仅需要根据变化了的数据字典以及映射关系生成对应的SQL脚本。
S1008:通过数据抽取脚本对数据表中的数据进行抽取。
S1010:将抽取后的数据同步至图数据库得到初始知识图谱。
具体地,服务器在生成数据抽取脚本后,则可以通过该数据抽取脚本对关系型数据库中的数据进行抽取,并将抽取后的数据同步至图数据库,且为了平衡关系型数据库和图数据库,可以在服务器中建立中间件,例如消息队列,这样将从关系型数据库中抽取的数据放在消息队列中,然后再提取出来同步至图数据库中。
上述配置化的数据同步方法,预先定义了数据字典,这样可以方便地管理图数据库的元数据,且预先配置了数据字典和关系型数据库对应的映射关系,这样可以实现通用的数据同步,即当数据表或数据字典等发生改变时,则不需要重新开发代码,仅需要修改该配置的映射关系即可,从而遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本,从而根据数据抽取脚本即可以对数据进行抽取,并将抽取后的数据同步至图数据库即可。
此外,为了方便说明本申请中的初始知识图谱,此处进行详细说明,该初始知识图谱除了抽象出人和企业两种实体外,还抽取出风险作为工商企业知识图谱的实体,然后创建企业、人员、风险实体以及之间的关系:企业和企业之间的关系、企业与人员之间的关系、风险之间的关系。风险作为实体参与后续的风险评分的建立,结合后续关联强度量化模型,将风险量化为具体的数值,为模型提供更详细的信息,提高模型的准确率。
具体地,服务器根据关系型数据库创建企业实体,企业实体的属性主要有:实体的主键(属于技术字段)、企业的唯一Key值(KeyNo,属于业务字段)、企业名称、企业曾用名、企业曾用名修改日期、法人名称、注册号、社会统一信用代码、组织机构代码、省份、企业状态、是否IPO上市、证券号、企业类型、登记机关、注册资金、成立日期、吊销日期、营业开始日期、营业结束日期、发照日期、企业类型、公司地址、经营范围、实缴资本、参保人数、人员规模、联系方式、邮箱、网址和数据更新日期。
然后服务器创建人员实体,人员实体的属性主要有:实体的主键(属于技术字段)、人员的唯一Key值(KeyNo,属于业务字段)、人员姓名、人员生日和数据更新日期。
此外,服务器还需要创建企业和企业之间关系,企业与企业之间的关系主要有:持股关系、分支机构。持股关系属性主要有:出资比例、认缴出资额、持股数和数据更新日期;分支机构关系上面无其他属性。
服务器创建企业和人员之间的关系,企业和人员的关系主要有:持股比例、董事长、董事、执行董事、法定代表人等。对于人和企业存在多种关系的使用多条关系表示。
服务器创建风险相关的实体与关系将企业的风险相关信息创建为实体,风险信息的记录条数作为实体的属性。风险相关信息主要有:行政处罚、动产抵押、股权出质、经营异常、纳税信用等级执行等。风险实体名称为:“企业名称”拼接“_风险名称”,风险实体与企业的关系名称:为此风险的名称。风险实体的属性有:实体的主键,风险实体的唯一Key(KeyNo,属于业务字段),实体名称,风险记录条数,数据更新日期。
具体地,参见图12至15所示,图12为一个实施例中的持股关系的初始知识图谱的示意图,图13为一个实施例中的分支机构的初始知识图谱的示意图,图14为一个实施例中的企业实体与人员实体之间的关系的初始知识图谱的示意图,图15为一个实施例中的企业实体与风险实体之间的关系的知识图谱的示意图。
如图12所示的与A公司存在持股关系的企业:B持有C公司的50.71%的股份,C公司持有A公司75.10%的股份,同样的D和E公司分别持有A公司12.45%的股份。同时A也持有F公司的100%的股份。
如图13所示,A公司分支机构图所示,A公司的分支结构有B公司、C公司、D公司、E公司、F公司和G公司。
如图14所示,展示的为A公司与人员的关系,M在A公司担任的职务为董事长和董事,并且持有77.80%的股份。N持有公司10.12%的股份。P持有10.07%的股份,Q持有2.01%的股份。
如图15所示,企业实体“A”对应的行政处罚实体“A-行政处罚”,两个实体之间的关系名称:“行政处罚”。
在其中一个实施例中,将抽取后的数据同步至图数据库,包括:将所抽取的数据转换为与图数据库的入库接口对应的多元数组;通过入库接口将多元数组同步至图数据库。
具体地,图数据库的入库接口一般是提供多元数组格式,例如三元数组,因此服务器可以将抽取的数据组装成可同步至图数据库的三元数组,例如获取到预设的转换规则,并根据转换规则将所抽取的数据转换为三元数组,其中三元数组的格式可以为:
实体属性信息三元组如:<主键><属性名>“属性值”;
实体间属性关系信息三元组如:<父主键><关系名><子主键>;
实体间属性关系的关系属性三元组如:<父主键><关系名><子主键>(属性A=值A,属性B=值B,...)。
上述实施例中,预先根据图数据库的入库接口对数据进行转换,可以提高入库的效率。
在其中一个实施例中,遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本,包括:遍历数据字典中的实体信息,以得到待处理属性信息,待处理属性信息包括实体信息对应的实体属性信息,或者待处理属性信息包括实体信息对应的实体属性信息、实体间属性关系信息中所涉及的实体信息的实体属性信息以及实体间属性关系对应的属性信息;根据映射关系生成与待处理属性信息对应的数据抽取脚本。
具体地,所需要生成数据抽取脚本的一共有3种类型,一种是实体属性信息的数据抽取脚本,第二种是实体间属性关系信息中所涉及的实体信息的实体属性信息的数据抽取脚本,即实体关系是通过实体属性来表征的,因此确定实体存在关系后,需要抽取该实体关系,也就是根据对应的实体属性来进行抽取;第三种是实体间属性关系对应的属性信息,即关系对应的属性信息。而这三种属性信息都是以实体信息为基本的,例如实体属性,则是遍历到该实体时,都会获取到实体属性,因此需要直接根据关联关系进行抽取即可,实体关系,则是通过实体属性来表征的,因此在确定实体间存在关系的时候,也是首先获取实体信息进行判断;关系属性,则是在实体间存在关系后,进一步确定该关系的属性,需要说明的是有的关系是没有关系属性的,这和用户的配置有关。
因此服务器仅需要遍历数据字典中的实体信息,即可以生成上述三种数据抽取脚本,例如依次获取到数据字典中的实体信息以得到对应的待处理信息,例如该实体信息是单独的,不与其他的实体信息发生关系,则仅需要获取到实体信息对应的实体属性信息。若实体信息与其他的实体发生关系,例如存在父级实体,则服务器获取到父级实体的实体间关系,并查询对应的实体属性信息,即使得产生了实体关系的实体属性信息。
其中判断实体是否为单独的实体可以包括:遍历数据字典中的实体信息,以得到待处理属性信息,包括:判断数据字典中的实体信息是否存在父级实体;当实体信息存在父级实体时,则查询实体关系,并获取与实体关系对应的实体间属性关系信息;获取实体间属性关系信息中所涉及的实体信息的实体属性信息作为待处理属性信息。即通过实体是否存在父级实体来进行判断,且若存在父级实体,则进一步地判断该实体关系是否存在关系属性,若存在,则可以获取实体间属性关系对应的属性信息,否则继续处理下一实体信息。
这样服务器在得到待处理属性信息后,则根据属性信息的类型来生成对应的数据抽取脚本,且遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本,包括:遍历数据字典确定数据字典中的数据的主键;根据映射关系以及主键生成与数据字典中的数据对应的数据抽取脚本,即为了保证数据的唯一性,需要引入主键来进行数据抽取脚本的生成,避免属性的内容相同但实质是为不同的数据的错误同步,具体地,包括以下三种类型:
第一种,组装抽取实体属性的动态SQL:实体属性的同步需要确定是哪个实体,哪个属性,属性的值是什么。因此服务器通过实体信息、属性信息、属性映射的数据表的字段产生动态SQL查询语句。如:抽取人员实体的名字属性时,名字属性所属的表是人员表,主键是身份证即用于确定是哪个实体,字段是人员表的名字字段。组装出的动态SQL为:SELECT人员表.身份证,名字,人员表.名字FROM人员表。最终转化三元组数据为<555x><名字><张三>.(含义:555X实体的名字是张三)。
第二种,组装抽取实体关系的动态SQL(即实体间属性关系信息),实体与实体的关系需要确定哪个实体与哪个实体存在什么关系。如抽取人员与企业之间存在的员工关系。通过人员身份证确定是哪个人员实体,通过人员所属的企业关联出企业的实体,通过企业名字确定是哪个企业实体。通过实体信息中的关系名确定实体间存在什么关系。最后,通过映射信息组装出动态SQL:SELECT企业表.名称,员工,人员表.身份证FROM企业表INNERJOIN人员表ON企业表.名称=人员表.就职企业。
第三种,组装抽取关系属性的动态SQL(即存在实体关系的该关系的属性),如就职年数是人员与企业存在员工关系的年数,即关系的属性。查询实体信息、实体属性关系、映射、递归父级实体产生SQL查询语句SELECT企业表.名称,员工,人员表.身份证,人员表.就职年数FROM企业表INNER JOIN人员表ON企业表.名称=人员表.就职企业。
具体地,参见图16所示,图16为一个实施例中数据抽取脚本的生成流程图,该数据抽取脚本的生成过程可以是包括两部分,即遍历数据字典中的实体信息,以得到待处理属性信息,包括:遍历数据字典中的所有的实体信息,以得到待处理属性信息;根据映射关系生成与待处理属性信息对应的数据抽取脚本,包括:根据映射关系一次性生成与待处理属性信息对应的数据抽取脚本。
服务器按照顺序遍历数据字典中的实体信息,并判断该实体信息是否存在父级实体,若不存在,则直接查询实体属性信息,并预先缓存记录。若存在父级实体,则获取实体关系,并查询该实体关系所涉及的实体属性信息,这样拼接得到属性映射,从而可以获取到映射的属性信息,以及该关系的属性信息,其可选地,可以继续查询该父级实体是否存在父级实体,直至查询完成,则继续获取下一实体信息。
服务器在遍历完实体信息后,则服务器可以对所记录的属性信息进行分类判断并按类生成对应的数据抽取脚本,例如实体关系类,则按照拼接SELECT父实体主键,关系名,子实体主键FROM表。若是实体属性,则按照拼接SELECT主键,属性名,字段FROM表。若是关系属性,则按照拼接SELECT实体主键,关系名,子实体主键,属性名,字段FROM表。
上述实施例中,先遍历数据字典中的所有实体信息,以得到待处理属性信息,这样在得到所有的待处理属性信息后,才会对属性信息的类型进行判断以按照类型进行拼接。
具体地,参见图17所示,图17为另一个实施例中数据抽取脚本的生成流程图,该数据抽取脚本的生成过程可以是一个循环的过程,具体可以包括:遍历数据字典中的当前实体信息,以得到与当前实体信息对应的当前待处理属性信息;根据映射关系生成与当前待处理属性信息对应的数据抽取脚本,并判断数据字典中是否还存在未遍历到的实体信息,若存在,则获取下一未遍历到的实体信息作为当前实体信息,并继续得到与当前实体信息对应的当前待处理属性信息,直至数据字典中的实体信息均遍历完成。
例如,遍历数据字典中的实体信息,并判断当前实体信息是否存在有父级实体信息;若当前实体信息存在父级实体信息,则查询当前实体信息与对应的父级实体信息所对应的实体间属性关系信息;根据映射关系生成与所查询的属性信息对应的数据抽取脚本;获取实体间属性关系信息对应的属性信息;根据映射关系生成与所获取的属性信息对应的数据抽取脚本;获取与当前实体信息对应的实体属性信息;根据映射关系生成与所获取的实体属性信息对应的数据抽取脚本;若当前实体不存在父级实体信息,则获取与当前实体信息对应的实体属性信息;根据映射关系生成与所获取的实体属性信息对应的数据抽取脚本。
具体地,服务器可以遍历数据字典,以获取到当前实体信息,以对当前实体信息进行处理,直至生成了当前实体信息对应的当前待处理属性信息,然后根据该当前待处理属性信息生成对应的数据抽取脚本。
例如,服务器按照顺序遍历数据字典中的实体信息,并判断该实体信息是否存在父级实体,若不存在,则直接查询实体属性信息,若存在,则获取实体关系,并查询该实体关系所涉及的实体属性信息,这样拼接得到属性映射,从而可以获取到映射的属性信息,然后根据该属性信息以及映射关系来生成数据抽取脚本。并判断该实体关系是否存在有对应的关系属性信息,若存在,则可以获取到关系属性信息,并根据关系属性信息以及映射关系来生成数据抽取脚本,并继续获取下一实体信息,若不存在,则继续获取下一实体信息。
上述实施例中,依次遍历数据字典中的实体信息,以得到当前实体信息对应的所有的属性信息,并根据该属性信息生成对应的数据抽取脚本,就是一个一个的实体信息生成对应的数据抽取脚本,这样不需要后续的再次判断,简化操作。
应该理解的是,虽然上述的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述的流程图的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图18所示,提供了一种核保请求处理装置,包括:
接收模块100,用于接收核保请求,核保请求携带有企业标识;
第一子图获取模块200,用于在预先生成的目标知识图谱中确定与企业标识对应的目标子图;
第一向量化模块300,用于将目标子图进行向量化得到待处理向量;
模型处理模块400,用于将待处理向量输入至预先训练得到的保单风险识别模型中,得到与待处理向量对应的风险指标;
请求处理模块500,用于根据风险指标对核保请求进行处理。
在其中一个实施例中,上述的核保请求处理装置还可以包括:
同步模块,用于获取关系型数据库中的数据,并将关系型数据库中的数据同步至图数据库得到初始知识图谱;
数据获取模块,用于获取初始知识图谱中各个实体之间的关系的种类、实体之间的关系的发生时间以及每一类实体之间的关系的数量属性值;
强度更新模块,用于根据所获取的实体之间的关系的种类、发生时间以及每一类实体之间的关系的数量属性值,对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱。
在其中一个实施例中,上述的核保请求处理装置还可以包括:
调整模块,用于根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整。
在其中一个实施例中,上述的调整模块可以包括:
分区获取单元,用于获取针对实体之间的关系的强度的量化值分区;
调整单元,用于根据量化值分区对目标知识图谱中的实体之间的关系的强度进行调整;
更新单元,用于根据调整了实体之间的关系的强度的目标知识图谱对保单风险识别模型进行更新;
输出单元,用于判断更新后的保单风险识别模型的性能是否提升,若是,则通过调整后的实体之间的关系的强度更新目标知识图谱。
在其中一个实施例中,上述的核保请求处理装置还可以包括:
第二子图生成模块,用于根据目标知识图谱生成初始子图;
新增关系预测模块,用于按照预设规则对初始子图进行关系预测得到新增的实体间关系;
子图更新模块,用于通过新增的实体间关系对初始子图进行更新,并根据更新后的初始子图对目标知识图谱进行更新。
在其中一个实施例中,上述的新增关系预测模块包括:
连接关系预测单元,用于按照预设规则对初始子图进行关系预测得到新增实体间的连接关系;
强度计算单元,用于获取用于预测新增实体间连接关系的知识图谱中的实体间关系的强度;根据所获取的知识图谱中的实体间关系的强度,得到新增实体间连接关系的强度;
新增关系确定单元,用于根据新增实体间连接关系以及新增实体间连接关系的强度得到新增的实体间关系。
在其中一个实施例中,上述的第一子图获取模块200还用于在预先生成的目标知识图谱中确定与企业标识对应的目标同质子图和目标异质子图,目标同质子图是与企业标识对应的企业实体的实体类型相同的实体组成的,目标异质子图是与企业标识对应的企业实体以及与企业实体的实体类型不相同的实体组成的;
第一向量化模块300还用于分别将目标同质子图和目标异质子图进行向量化得到待处理向量。
在其中一个实施例中,上述的核保请求处理装置还可以包括:
样本获取模块,用于根据预先生成的目标知识图谱构建样本子图,预先生成的目标知识图谱中包括通用风险企业实体以及团体风险企业实体;
第二向量化模块,用于将样本子图进行向量化得到样本向量;
训练模块,用于对样本向量进行训练得到保单风险识别模型。
在其中一个实施例中,上述训练模块包括:
评价指标计算单元,用于对样本向量进行训练得到,并计算保单风险识别模型的评价指标;
对应关系获取单元,用于获取评价指标与风险指标划分阈值的对应关系;
训练单元,用于根据对应关系确定目标评价指标和目标风险指标划分阈值,并确定目标评价指标对应的保单风险识别模型作为训练完成的保单风险识别模型。
在其中一个实施例中,上述请求处理模块500包括:
指标区域确定单元,用于根据风险指标划分阈值确定风险指标的指标区间;
处理分支获取单元,用于获取与指标区域对应的处理分支;
处理单元,用于根据处理分支对核保请求进行处理。
在其中一个实施例中,上述的核保请求处理装置还可以包括:
判断模块,用于判断企业风险库中是否存在与企业标识对应的企业;
发送模块,用于若是,则将核保请求发送至人工核保终端。
在其中一个实施例中,上述同步模块可以包括:数据字典获取模块,用于获取预先定义的数据字典;
映射关系获取模块,用于获取根据数据字典以及关系型数据库所配置的映射关系,映射关系是数据字典中的属性信息与关系型数据库中对应数据表中的字段的对应关系;
数据抽取脚本生成模块,用于遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本;
数据抽取模块,用于通过数据抽取脚本对数据表中的数据进行抽取;
同步模块,用于将抽取后的数据同步至图数据库得到初始知识图谱。
在其中一个实施例中,上述同步模块可以包括:
转换单元,用于将所抽取的数据转换为与图数据库的入库接口对应的多元数组;
同步单元,用于通过入库接口将多元数组同步至图数据库得到初始知识图谱。
在其中一个实施例中,数据字典包括实体信息、实体间属性关系信息以及属性信息,其中属性信息包括与实体信息的实体属性信息以及实体间属性关系的属性信息。
在其中一个实施例中,上述数据抽取脚本生成模块可以包括:
遍历单元,用于遍历数据字典中的实体信息,以得到待处理属性信息,待处理属性信息包括实体信息对应的实体属性信息,或者待处理属性信息包括实体信息对应的实体属性信息、实体间属性关系信息中所涉及的实体信息的实体属性信息以及实体间属性关系对应的属性信息;
第一脚本生成单元,用于根据映射关系生成与待处理属性信息对应的数据抽取脚本。
在其中一个实施例中,上述遍历单元还用于遍历数据字典中的所有的实体信息,以得到待处理属性信息;
上述第一脚本生成单元还用于根据映射关系一次性生成与待处理属性信息对应的数据抽取脚本。
在其中一个实施例中,上述遍历单元还用于遍历数据字典中的当前实体信息,以得到与当前实体信息对应的当前待处理属性信息;
上述第一脚本生成单元还用于根据映射关系生成与当前待处理属性信息对应的数据抽取脚本,并判断数据字典中是否还存在未遍历到的实体信息,若存在,则获取下一未遍历到的实体信息作为当前实体信息,并继续得到与当前实体信息对应的当前待处理属性信息,直至数据字典中的实体信息均遍历完成。
在其中一个实施例中,上述遍历单元包括:
判断子单元,用于判断数据字典中的实体信息是否存在父级实体;
查询子单元,用于当实体信息存在父级实体时,则查询实体关系,并获取与实体关系对应的实体间属性关系信息;
获取子单元,用于获取实体间属性关系信息中所涉及的实体信息的实体属性信息作为待处理属性信息。
在其中一个实施例中,上述的数据抽取脚本生成模块可以包括:
主键确定单元,用于遍历数据字典确定数据字典中的数据的主键;
第二脚本生成单元,用于根据映射关系以及主键生成与数据字典中的数据对应的数据抽取脚本。
在其中一个实施例中,初始知识图谱包括企业实体、人员实体、风险实体、企业实体与企业实体之间的关系、企业实体与人员实体之间的关系以及企业实体与风险实体之间的关系。
关于核保请求处理装置的具体限定可以参见上文中对于核保请求处理方法的限定,在此不再赘述。上述核保请求处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图19所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于临时存储所抽取的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种核保请求处理方法。
本领域技术人员可以理解,图19中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收核保请求,核保请求携带有企业标识;在预先生成的目标知识图谱中确定与企业标识对应的目标子图;将目标子图进行向量化得到待处理向量;将待处理向量输入至预先训练得到的保单风险识别模型中,得到与待处理向量对应的风险指标;根据风险指标对核保请求进行处理。
在一个实施例中,处理器执行计算机程序时所实现的目标知识图谱的生成方式包括:获取关系型数据库中的数据,并将关系型数据库中的数据同步至图数据库得到初始知识图谱;获取初始知识图谱中各个实体之间的关系的种类、实体之间的关系的发生时间以及每一类实体之间的关系的数量属性值;根据所获取的实体之间的关系的种类、发生时间以及每一类实体之间的关系的数量属性值,对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整。
在一个实施例中,处理器执行计算机程序时所实现的根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整,包括:获取针对实体之间的关系的强度的量化值分区;根据量化值分区对目标知识图谱中的实体之间的关系的强度进行调整;根据调整了实体之间的关系的强度的目标知识图谱对保单风险识别模型进行更新;判断更新后的保单风险识别模型的性能是否提升,若是,则通过调整后的实体之间的关系的强度更新目标知识图谱。
在一个实施例中,处理器执行计算机程序时所实现的对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱之后,还包括:根据目标知识图谱生成初始子图;按照预设规则对初始子图进行关系预测得到新增的实体间关系;通过新增的实体间关系对初始子图进行更新,并根据更新后的初始子图对目标知识图谱进行更新。
在一个实施例中,处理器执行计算机程序时所实现的按照预设规则对初始子图进行关系预测得到新增的实体间关系,包括:按照预设规则对初始子图进行关系预测得到新增实体间的连接关系;获取用于预测新增实体间连接关系的知识图谱中的实体间关系的强度;根据所获取的知识图谱中的实体间关系的强度,得到新增实体间连接关系的强度;根据新增实体间连接关系以及新增实体间连接关系的强度得到新增的实体间关系。
在一个实施例中,处理器执行计算机程序时所实现的在预先生成的目标知识图谱中确定与企业标识对应的目标子图,包括:在预先生成的目标知识图谱中确定与企业标识对应的目标同质子图和目标异质子图,目标同质子图是与企业标识对应的企业实体的实体类型相同的实体组成的,目标异质子图是与企业标识对应的企业实体以及与企业实体的实体类型不相同的实体组成的;将目标子图进行向量化得到待处理向量,包括:分别将目标同质子图和目标异质子图进行向量化得到待处理向量。
在一个实施例中,处理器执行计算机程序时所实现的保单风险识别模型的训练方式包括:根据预先生成的目标知识图谱构建样本子图,预先生成的目标知识图谱中包括通用风险企业实体以及团体风险企业实体;将样本子图进行向量化得到样本向量;对样本向量进行训练得到保单风险识别模型。
在一个实施例中,处理器执行计算机程序时所实现的对样本向量进行训练得到保单风险识别模型,包括:对样本向量进行训练得到,并计算保单风险识别模型的评价指标;获取评价指标与风险指标划分阈值的对应关系;根据对应关系确定目标评价指标和目标风险指标划分阈值,并确定目标评价指标对应的保单风险识别模型作为训练完成的保单风险识别模型。
在一个实施例中,处理器执行计算机程序时所实现的根据风险指标对核保请求进行处理,包括:根据风险指标划分阈值确定风险指标的指标区间;获取与指标区域对应的处理分支;根据处理分支对核保请求进行处理。
在一个实施例中,处理器执行计算机程序时所实现的接收核保请求之后,还包括:判断企业风险库中是否存在与企业标识对应的企业;若是,则将核保请求发送至人工核保终端。
在一个实施例中,处理器执行计算机程序时所实现的将关系型数据库中的数据同步至图数据库得到初始知识图谱,包括:获取预先定义的数据字典;获取根据数据字典以及关系型数据库所配置的映射关系,映射关系是数据字典中的属性信息与关系型数据库中对应数据表中的字段的对应关系;遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本;通过数据抽取脚本对数据表中的数据进行抽取;将抽取后的数据同步至图数据库得到初始知识图谱。
在一个实施例中,处理器执行计算机程序时所实现的将抽取后的数据同步至图数据库得到初始知识图谱,包括:将所抽取的数据转换为与图数据库的入库接口对应的多元数组;通过入库接口将多元数组同步至图数据库得到初始知识图谱。
在一个实施例中,处理器执行计算机程序时所涉及的数据字典包括实体信息、实体间属性关系信息以及属性信息,其中属性信息包括与实体信息的实体属性信息以及实体间属性关系的属性信息。
在一个实施例中,处理器执行计算机程序时所实现的遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本,包括:遍历数据字典中的实体信息,以得到待处理属性信息,待处理属性信息包括实体信息对应的实体属性信息,或者待处理属性信息包括实体信息对应的实体属性信息、实体间属性关系信息中所涉及的实体信息的实体属性信息以及实体间属性关系对应的属性信息;根据映射关系生成与待处理属性信息对应的数据抽取脚本。
在一个实施例中,处理器执行计算机程序时所实现的遍历数据字典中的实体信息,以得到待处理属性信息,包括:遍历数据字典中的所有的实体信息,以得到待处理属性信息。处理器执行计算机程序时所实现的根据映射关系生成与待处理属性信息对应的数据抽取脚本,包括:根据映射关系一次性生成与待处理属性信息对应的数据抽取脚本。
在一个实施例中,处理器执行计算机程序时所实现的遍历数据字典中的实体信息,以得到待处理属性信息,包括:遍历数据字典中的当前实体信息,以得到与当前实体信息对应的当前待处理属性信息。处理器执行计算机程序时所实现的根据映射关系生成与待处理属性信息对应的数据抽取脚本,包括:根据映射关系生成与当前待处理属性信息对应的数据抽取脚本,并判断数据字典中是否还存在未遍历到的实体信息,若存在,则获取下一未遍历到的实体信息作为当前实体信息,并继续得到与当前实体信息对应的当前待处理属性信息,直至数据字典中的实体信息均遍历完成。
在一个实施例中,处理器执行计算机程序时所实现的遍历数据字典中的实体信息,以得到待处理属性信息,包括:判断数据字典中的实体信息是否存在父级实体;当实体信息存在父级实体时,则查询实体关系,并获取与实体关系对应的实体间属性关系信息;获取实体间属性关系信息中所涉及的实体信息的实体属性信息作为待处理属性信息。
在一个实施例中,处理器执行计算机程序时所实现的遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本,包括:遍历数据字典确定数据字典中的数据的主键;根据映射关系以及主键生成与数据字典中的数据对应的数据抽取脚本。
在一个实施例中,处理器执行计算机程序时所涉及的初始知识图谱包括企业实体、人员实体、风险实体、企业实体与企业实体之间的关系、企业实体与人员实体之间的关系以及企业实体与风险实体之间的关系。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收核保请求,核保请求携带有企业标识;在预先生成的目标知识图谱中确定与企业标识对应的目标子图;将目标子图进行向量化得到待处理向量;将待处理向量输入至预先训练得到的保单风险识别模型中,得到与待处理向量对应的风险指标;根据风险指标对核保请求进行处理。
在一个实施例中,计算机程序被处理器执行时所实现的目标知识图谱的生成方式包括:获取关系型数据库中的数据,并将关系型数据库中的数据同步至图数据库得到初始知识图谱;获取初始知识图谱中各个实体之间的关系的种类、实体之间的关系的发生时间以及每一类实体之间的关系的数量属性值;根据所获取的实体之间的关系的种类、发生时间以及每一类实体之间的关系的数量属性值,对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整。
在一个实施例中,计算机程序被处理器执行时所实现的根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整,包括:获取针对实体之间的关系的强度的量化值分区;根据量化值分区对目标知识图谱中的实体之间的关系的强度进行调整;根据调整了实体之间的关系的强度的目标知识图谱对保单风险识别模型进行更新;判断更新后的保单风险识别模型的性能是否提升,若是,则通过调整后的实体之间的关系的强度更新目标知识图谱。
在一个实施例中,计算机程序被处理器执行时所实现的对初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱之后,还包括:根据目标知识图谱生成初始子图;按照预设规则对初始子图进行关系预测得到新增的实体间关系;通过新增的实体间关系对初始子图进行更新,并根据更新后的初始子图对目标知识图谱进行更新。
在一个实施例中,计算机程序被处理器执行时所实现的按照预设规则对初始子图进行关系预测得到新增的实体间关系,包括:按照预设规则对初始子图进行关系预测得到新增实体间的连接关系;获取用于预测新增实体间连接关系的知识图谱中的实体间关系的强度;根据所获取的知识图谱中的实体间关系的强度,得到新增实体间连接关系的强度;根据新增实体间连接关系以及新增实体间连接关系的强度得到新增的实体间关系。
在一个实施例中,计算机程序被处理器执行时所实现的在预先生成的目标知识图谱中确定与企业标识对应的目标子图,包括:在预先生成的目标知识图谱中确定与企业标识对应的目标同质子图和目标异质子图,目标同质子图是与企业标识对应的企业实体的实体类型相同的实体组成的,目标异质子图是与企业标识对应的企业实体以及与企业实体的实体类型不相同的实体组成的;将目标子图进行向量化得到待处理向量,包括:分别将目标同质子图和目标异质子图进行向量化得到待处理向量。
在一个实施例中,计算机程序被处理器执行时所实现的保单风险识别模型的训练方式包括:根据预先生成的目标知识图谱构建样本子图,预先生成的目标知识图谱中包括通用风险企业实体以及团体风险企业实体;将样本子图进行向量化得到样本向量;对样本向量进行训练得到保单风险识别模型。
在一个实施例中,计算机程序被处理器执行时所实现的对样本向量进行训练得到保单风险识别模型,包括:对样本向量进行训练得到,并计算保单风险识别模型的评价指标;获取评价指标与风险指标划分阈值的对应关系;根据对应关系确定目标评价指标和目标风险指标划分阈值,并确定目标评价指标对应的保单风险识别模型作为训练完成的保单风险识别模型。
在一个实施例中,计算机程序被处理器执行时所实现的根据风险指标对核保请求进行处理,包括:根据风险指标划分阈值确定风险指标的指标区间;获取与指标区域对应的处理分支;根据处理分支对核保请求进行处理。
在一个实施例中,计算机程序被处理器执行时所实现的接收核保请求之后,还包括:判断企业风险库中是否存在与企业标识对应的企业;若是,则将核保请求发送至人工核保终端。
在一个实施例中,计算机程序被处理器执行时所实现的将关系型数据库中的数据同步至图数据库得到初始知识图谱,包括:获取预先定义的数据字典;获取根据数据字典以及关系型数据库所配置的映射关系,映射关系是数据字典中的属性信息与关系型数据库中对应数据表中的字段的对应关系;遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本;通过数据抽取脚本对数据表中的数据进行抽取;将抽取后的数据同步至图数据库得到初始知识图谱。
在一个实施例中,计算机程序被处理器执行时所实现的将抽取后的数据同步至图数据库得到初始知识图谱,包括:将所抽取的数据转换为与图数据库的入库接口对应的多元数组;通过入库接口将多元数组同步至图数据库得到初始知识图谱。
在一个实施例中,计算机程序被处理器执行时所涉及的数据字典包括实体信息、实体间属性关系信息以及属性信息,其中属性信息包括与实体信息的实体属性信息以及实体间属性关系的属性信息。
在一个实施例中,计算机程序被处理器执行时所实现的遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本,包括:遍历数据字典中的实体信息,以得到待处理属性信息,待处理属性信息包括实体信息对应的实体属性信息,或者待处理属性信息包括实体信息对应的实体属性信息、实体间属性关系信息中所涉及的实体信息的实体属性信息以及实体间属性关系对应的属性信息;根据映射关系生成与待处理属性信息对应的数据抽取脚本。
在一个实施例中,计算机程序被处理器执行时所实现的遍历数据字典中的实体信息,以得到待处理属性信息,包括:遍历数据字典中的所有的实体信息,以得到待处理属性信息。计算机程序被处理器执行时所实现的根据映射关系生成与待处理属性信息对应的数据抽取脚本,包括:根据映射关系一次性生成与待处理属性信息对应的数据抽取脚本。
在一个实施例中,计算机程序被处理器执行时所实现的遍历数据字典中的实体信息,以得到待处理属性信息,包括:遍历数据字典中的当前实体信息,以得到与当前实体信息对应的当前待处理属性信息。计算机程序被处理器执行时所实现的根据映射关系生成与待处理属性信息对应的数据抽取脚本,包括:根据映射关系生成与当前待处理属性信息对应的数据抽取脚本,并判断数据字典中是否还存在未遍历到的实体信息,若存在,则获取下一未遍历到的实体信息作为当前实体信息,并继续得到与当前实体信息对应的当前待处理属性信息,直至数据字典中的实体信息均遍历完成。
在一个实施例中,计算机程序被处理器执行时所实现的遍历数据字典中的实体信息,以得到待处理属性信息,包括:判断数据字典中的实体信息是否存在父级实体;当实体信息存在父级实体时,则查询实体关系,并获取与实体关系对应的实体间属性关系信息;获取实体间属性关系信息中所涉及的实体信息的实体属性信息作为待处理属性信息。
在一个实施例中,计算机程序被处理器执行时所实现的遍历数据字典以根据映射关系生成与数据字典中的数据对应的数据抽取脚本,包括:遍历数据字典确定数据字典中的数据的主键;根据映射关系以及主键生成与数据字典中的数据对应的数据抽取脚本。
在一个实施例中,计算机程序被处理器执行时所涉及的初始知识图谱包括企业实体、人员实体、风险实体、企业实体与企业实体之间的关系、企业实体与人员实体之间的关系以及企业实体与风险实体之间的关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (23)

1.一种核保请求处理方法,其特征在于,所述方法包括:
接收核保请求,所述核保请求携带有企业标识;
在预先生成的目标知识图谱中确定与所述企业标识对应的目标子图;
将所述目标子图进行向量化得到待处理向量;
将所述待处理向量输入至预先训练得到的保单风险识别模型中,得到与所述待处理向量对应的风险指标;
根据所述风险指标对所述核保请求进行处理。
2.根据权利要求1所述的方法,其特征在于,所述目标知识图谱的生成方式包括:
获取关系型数据库中的数据,并将所述关系型数据库中的数据同步至图数据库得到初始知识图谱;
获取所述初始知识图谱中各个实体之间的关系的种类、实体之间的关系的发生时间以及每一类实体之间的关系的数量属性值;
根据所获取的实体之间的关系的种类、发生时间以及每一类实体之间的关系的数量属性值,对所述初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整。
4.根据权利要求3所述的方法,其特征在于,所述根据训练得到的保单风险识别模型对实体之间的关系的强度进行调整,包括:
获取针对所述实体之间的关系的强度的量化值分区;
根据所述量化值分区对所述目标知识图谱中的实体之间的关系的强度进行调整;
根据调整了所述实体之间的关系的强度的目标知识图谱对保单风险识别模型进行更新;
判断更新后的所述保单风险识别模型的性能是否提升,若是,则通过调整后的所述实体之间的关系的强度更新所述目标知识图谱。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述对所述初始知识图谱中的各个实体之间的关系的强度进行更新得到目标知识图谱之后,还包括:
根据所述目标知识图谱生成初始子图;
按照预设规则对所述初始子图进行关系预测得到新增的实体间关系;
通过所述新增的实体间关系对所述初始子图进行更新,并根据更新后的初始子图对所述目标知识图谱进行更新。
6.根据权利要求5所述的方法,其特征在于,所述按照预设规则对所述初始子图进行关系预测得到新增的实体间关系,包括:
按照预设规则对所述初始子图进行关系预测得到新增实体间的连接关系;
获取用于预测所述新增实体间连接关系的所述知识图谱中的实体间关系的强度;
根据所获取的所述知识图谱中的实体间关系的强度,得到所述新增实体间连接关系的强度;
根据所述新增实体间连接关系以及所述新增实体间连接关系的强度得到新增的实体间关系。
7.根据权利要求1至4任意一项所述的方法,其特征在于,所述在预先生成的目标知识图谱中确定与所述企业标识对应的目标子图,包括:
在预先生成的目标知识图谱中确定与所述企业标识对应的目标同质子图和目标异质子图,所述目标同质子图是与所述企业标识对应的企业实体的实体类型相同的实体组成的,所述目标异质子图是与所述企业标识对应的企业实体以及与所述企业实体的实体类型不相同的实体组成的;所述将所述目标子图进行向量化得到待处理向量,包括:
分别将所述目标同质子图和所述目标异质子图进行向量化得到待处理向量。
8.根据权利要求1至4任意一项所述的方法,其特征在于,所述保单风险识别模型的训练方式包括:
根据预先生成的目标知识图谱构建样本子图,所述预先生成的目标知识图谱中包括通用风险企业实体以及团体风险企业实体;
将所述样本子图进行向量化得到样本向量;
对所述样本向量进行训练得到保单风险识别模型。
9.根据权利要求8所述的方法,其特征在于,所述对所述样本向量进行训练得到保单风险识别模型,包括:
对所述样本向量进行训练得到,并计算保单风险识别模型的评价指标;
获取所述评价指标与风险指标划分阈值的对应关系;
根据所述对应关系确定目标评价指标和目标风险指标划分阈值,并确定所述目标评价指标对应的保单风险识别模型作为训练完成的保单风险识别模型。
10.根据权利要求9所述的方法,其特征在于,所述根据所述风险指标对所述核保请求进行处理,包括:
根据所述风险指标划分阈值确定所述风险指标的指标区间;
获取与所述指标区域对应的处理分支;
根据所述处理分支对所述核保请求进行处理。
11.根据权利要求1至4任意一项所述的方法,其特征在于,所述接收核保请求之后,还包括:
判断企业风险库中是否存在与所述企业标识对应的企业;
若是,则将所述核保请求发送至人工核保终端。
12.根据权利要求2至4任意一项所述的方法,其特征在于,所述将所述关系型数据库中的数据同步至图数据库得到初始知识图谱,包括:
获取预先定义的数据字典;
获取根据所述数据字典以及关系型数据库所配置的映射关系,所述映射关系是所述数据字典中的属性信息与所述关系型数据库中对应数据表中的字段的对应关系;
遍历所述数据字典以根据所述映射关系生成与所述数据字典中的数据对应的数据抽取脚本;
通过所述数据抽取脚本对所述数据表中的数据进行抽取;
将抽取后的数据同步至图数据库得到初始知识图谱。
13.根据权利要求12所述的方法,其特征在于,所述将抽取后的数据同步至图数据库得到初始知识图谱,包括:
将所抽取的数据转换为与图数据库的入库接口对应的多元数组;
通过所述入库接口将所述多元数组同步至所述图数据库得到初始知识图谱。
14.根据权利要求12或13所述的方法,其特征在于,所述数据字典包括实体信息、实体间属性关系信息以及属性信息,其中所述属性信息包括与实体信息的实体属性信息以及实体间属性关系的属性信息。
15.根据权利要求14所述的方法,其特征在于,所述遍历所述数据字典以根据所述映射关系生成与所述数据字典中的数据对应的数据抽取脚本,包括:
遍历所述数据字典中的实体信息,以得到待处理属性信息,所述待处理属性信息包括实体信息对应的实体属性信息,或者待处理属性信息包括实体信息对应的实体属性信息、所述实体间属性关系信息中所涉及的实体信息的实体属性信息以及实体间属性关系对应的属性信息;
根据所述映射关系生成与所述待处理属性信息对应的数据抽取脚本。
16.根据权利要求15所述的方法,其特征在于,所述遍历所述数据字典中的实体信息,以得到待处理属性信息,包括:
遍历所述数据字典中的所有的实体信息,以得到待处理属性信息;
所述根据所述映射关系生成与所述待处理属性信息对应的数据抽取脚本,包括:
根据所述映射关系一次性生成与所述待处理属性信息对应的数据抽取脚本。
17.根据权利要求15所述的方法,其特征在于,所述遍历所述数据字典中的实体信息,以得到待处理属性信息,包括:
遍历所述数据字典中的当前实体信息,以得到与所述当前实体信息对应的当前待处理属性信息;
所述根据所述映射关系生成与所述待处理属性信息对应的数据抽取脚本,包括:
根据所述映射关系生成与所述当前待处理属性信息对应的数据抽取脚本,并判断所述数据字典中是否还存在未遍历到的实体信息,若存在,则获取下一未遍历到的实体信息作为当前实体信息,并继续得到与所述当前实体信息对应的当前待处理属性信息,直至所述数据字典中的实体信息均遍历完成。
18.根据权利要求15至17任意一项所述的方法,其特征在于,所述遍历所述数据字典中的实体信息,以得到待处理属性信息,包括:
判断所述数据字典中的实体信息是否存在父级实体;
当所述实体信息存在父级实体时,则查询实体关系,并获取与所述实体关系对应的实体间属性关系信息;
获取所述实体间属性关系信息中所涉及的实体信息的实体属性信息作为待处理属性信息。
19.根据权利要求15至17任意一项所述的方法,其特征在于,所述遍历所述数据字典以根据所述映射关系生成与所述数据字典中的数据对应的数据抽取脚本,包括:
遍历所述数据字典确定所述数据字典中的数据的主键;
根据所述映射关系以及所述主键生成与所述数据字典中的数据对应的数据抽取脚本。
20.根据权利要求12所述的方法,其特征在于,所述初始知识图谱包括企业实体、人员实体、风险实体、企业实体与企业实体之间的关系、企业实体与人员实体之间的关系以及企业实体与风险实体之间的关系。
21.一种核保请求处理装置,其特征在于,所述装置包括:
接收模块,用于接收核保请求,所述核保请求携带有企业标识;
第一子图获取模块,用于在预先生成的目标知识图谱中确定与所述企业标识对应的目标子图;
第一向量化模块,用于将所述目标子图进行向量化得到待处理向量;
模型处理模块,用于将所述待处理向量输入至预先训练得到的保单风险识别模型中,得到与所述待处理向量对应的风险指标;
请求处理模块,用于根据所述风险指标对所述核保请求进行处理。
22.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至20中任一项所述的方法的步骤。
23.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至20中任一项所述的方法的步骤。
CN202011626411.3A 2020-12-30 2020-12-30 核保请求处理方法、装置、计算机设备和存储介质 Pending CN112634069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011626411.3A CN112634069A (zh) 2020-12-30 2020-12-30 核保请求处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011626411.3A CN112634069A (zh) 2020-12-30 2020-12-30 核保请求处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112634069A true CN112634069A (zh) 2021-04-09

Family

ID=75290014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011626411.3A Pending CN112634069A (zh) 2020-12-30 2020-12-30 核保请求处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112634069A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410071A (zh) * 2018-09-17 2019-03-01 平安科技(深圳)有限公司 核保数据处理方法、装置、计算机设备和存储介质
CN109800335A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 企业图谱的生成方法、装置、计算机设备和存储介质
CN110163741A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 基于信贷风控模型的信贷决策方法、装置、设备及介质
CN110390465A (zh) * 2019-06-18 2019-10-29 深圳壹账通智能科技有限公司 业务数据的风控分析处理方法、装置和计算机设备
CN111340246A (zh) * 2020-02-26 2020-06-26 未来地图(深圳)智能科技有限公司 用于企业智能决策分析的处理方法、装置和计算机设备
CN112131409A (zh) * 2020-09-30 2020-12-25 上海商汤临港智能科技有限公司 核保方法、装置、设备、系统及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410071A (zh) * 2018-09-17 2019-03-01 平安科技(深圳)有限公司 核保数据处理方法、装置、计算机设备和存储介质
CN109800335A (zh) * 2019-01-23 2019-05-24 平安科技(深圳)有限公司 企业图谱的生成方法、装置、计算机设备和存储介质
CN110163741A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 基于信贷风控模型的信贷决策方法、装置、设备及介质
CN110390465A (zh) * 2019-06-18 2019-10-29 深圳壹账通智能科技有限公司 业务数据的风控分析处理方法、装置和计算机设备
CN111340246A (zh) * 2020-02-26 2020-06-26 未来地图(深圳)智能科技有限公司 用于企业智能决策分析的处理方法、装置和计算机设备
CN112131409A (zh) * 2020-09-30 2020-12-25 上海商汤临港智能科技有限公司 核保方法、装置、设备、系统及存储介质

Similar Documents

Publication Publication Date Title
Wang et al. An improved boosting based on feature selection for corporate bankruptcy prediction
US8489502B2 (en) Methods and systems for multi-credit reporting agency data modeling
CN110489561A (zh) 知识图谱构建方法、装置、计算机设备和存储介质
Wang et al. Use of data envelopment analysis in assessing information technology impact on firm performance
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
US20190347718A1 (en) Loan audit system and method with chained confidence scoring
US20210089667A1 (en) System and method for implementing attribute classification for pii data
CN112364182A (zh) 基于图特征的企业风险传导预测方法、设备及存储介质
Tariq et al. Loan default prediction model using sample, explore, modify, model, and assess (SEMMA)
CN116401379A (zh) 金融产品数据推送方法、装置、设备及存储介质
Di Castri et al. Financial authorities in the era of data abundance: Regtech for regulators and suptech solutions
Buchanan et al. The local impacts of World Bank development projects near sites of conservation significance
Cristea Emerging IT technologies for accounting and auditing practice
CN114493686A (zh) 一种运营内容生成推送方法及装置
Agosto et al. Bayesian learning models to measure the relative impact of ESG factors on credit ratings
Trofimov et al. Optimal database design for the storage of financial information relating to real estate investments
US20220164374A1 (en) Method of scoring and valuing data for exchange
CN112634069A (zh) 核保请求处理方法、装置、计算机设备和存储介质
CN114692785A (zh) 行为分类方法、装置、设备及存储介质
Zang Construction of Mobile Internet Financial Risk Cautioning Framework Based on BP Neural Network
Morales et al. Credit risk analysis model in microfinance institutions in Peru through the use of Bayesian networks
Mohapatra et al. Multi-criteria decision-making methods for large scale DataBase
Haile Data Analytics in Financial Institutions: How Text Analytics Can Help in Risk Management
Pincovsky et al. Machine Learning applied to credit analysis: a Systematic Literature Review
Rodin Growing small businesses using software system for intellectual analysis of financial performance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination