CN112597775A

CN112597775A - 信贷风险预测方法及装置

Info

Publication number: CN112597775A
Application number: CN202011482748.1A
Authority: CN
Inventors: 卢业; 左金柱; 谢超; 林露蕃
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-02

Abstract

本申请实施例提供一种信贷风险预测方法及装置，可用于人工智能技术领域，方法包括：将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型，以使该多维度信贷风险预测模型输出目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果；根据目标金融用户在各个维度分别对应的第一信贷风险预测结果融合生成该目标金融用户的第二信贷风险预测结果；输出目标金融用户的第二信贷风险预测结果和目标金融用户对应的金融关联数据。本申请能够有效提高信贷风险预测的准确性、全面性及可靠性，且能够有效提高输出的信贷风险预测结果的信息全面性，进而能够有效提高基于信贷风险预测结果进行信贷风险防控的效率、准确性及可靠性。

Description

信贷风险预测方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及人工智能技术领域，具体涉及信贷风险预测方法及装置。

背景技术

近年来，随着商业银行等金融机构的经营规模不断扩大、金融业务范围的不断拓宽，操作风险的发生概率也随之提高，因此，对于金融机构来说，建立信贷风险防控系统是当务之急。由于信贷风险管理涉及到金融机构中多个部门的各项业务信贷板块，在较为传统的信贷风险防控系统中，主要依赖专家规则以及如巴塞尔协议等规定中的各种指标，而由于这些指标和规则强烈依赖于人工经验，因此对于尚未发现的异常点无从入手，使得传统的信贷风险防控系统的智能化程度低。

目前，为了提高信贷风险防控系统的智能化程度，现有的信贷风险防控方式将人工智能技术应用至信贷风险预测中，根据历史数据的风险防控结果来预测尚未发现的异常点，进而实现对信贷风险的智能预测。

然而，尽管现有的信贷风险防控方式在一定程度上提高了预测的智能化程度，但由于其防控角度单一，因此依然无法保证信贷风险防控结果的准确性；同时，由于现有的信贷风险防控方式直接将预测结果呈现给金融机构的防控人员，仍需要防控人员结合多种数据之后才能够获取防控对象的防控结果，因此也消耗了大量的人力成本和时间成本，极大影响了信贷风险防控效率。

发明内容

针对现有技术中的问题，本申请提供一种信贷风险预测方法及装置，能够有效提高信贷风险预测的准确性、全面性及可靠性，且能够有效提高输出的信贷风险预测结果的信息全面性，进而能够有效提高基于信贷风险预测结果进行信贷风险防控的效率、准确性及可靠性。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种信贷风险预测方法，包括：

将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型，以使该多维度信贷风险预测模型输出所述目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果；

根据所述目标金融用户在各个所述维度分别对应的第一信贷风险预测结果融合生成该目标金融用户的第二信贷风险预测结果；

输出所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的金融关联数据。

进一步地，所述输出所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的金融关联数据，包括：

获取所述目标金融用户对应的容忍度阈值；

基于所述容忍度阈值、所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的关联数据，生成以图结构数据显示的第三信贷风险防控结果；

输出所述第三信贷风险防控结果以显示该第三信贷风险防控结果。

进一步地，在所述将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型之前，还包括：

接收信贷风险预测请求，其中，该信贷风险预测请求中包括目标金融用户的唯一标识；

自预设的金融用户知识图谱中查找所述目标金融用户的唯一标识，若查找到该目标金融用户的唯一标识，则基于该唯一标识自所述金融用户知识图谱中提取所述目标金融用户的金融关联数据。

进一步地，还包括：

若未在所述金融用户知识图谱查找到所述目标金融用户的唯一标识，则应用预设的数据采集引擎抓取该目标金融用户的关联数据；

基于所述金融用户知识图谱对应的资源描述框架，自所述关联数据中抽取所述目标金融用户的实体三元组数据，并将该实体三元组数据和所述目标金融用户的唯一标识加入所述金融用户知识图谱中，以在该金融用户知识图谱中形成所述目标金融用户对应的金融关联数据。

构建用于建立金融用户知识图谱的资源描述框架；

应用预设的数据采集引擎抓取各个金融用户的关联数据；

对各个所述金融用户的关联数据进行预处理，并基于所述资源描述框架，自预处理后的各个所述金融用户的关联数据中抽取各个所述金融用户的实体三元组数据，并建立新的金融用户知识图谱或更新预存储的金融用户知识图谱，以自所述金融用户知识图谱中提取任意数量的金融用户的金融关联数据。

进一步地，所述对各个所述金融用户的关联数据进行预处理，并基于所述资源描述框架，自预处理后的各个所述金融用户的关联数据中抽取各个所述金融用户的实体三元组数据，以建立新的金融用户知识图谱或更新预存储的金融用户知识图谱，包括：

对各个金融用户的关联数据进行数据类型划分，以形成对应的结构数据、半结构数据和非结构数据；

基于预设的直接映射或映射规则定义方式，将所述结构数据中的与所述资源描述框架对应的实体三元组数据映射到所述金融用户知识图谱的对应位置；

根据预设的命名实体识别方式，将所述半结构数据和非结构数据中的与所述资源描述框架对应的实体三元组数据映射到所述金融用户知识图谱的对应位置。

自当前的所述金融用户知识图谱中获取各个所述金融用户各自对应的金融关联数据；

应用各个所述金融用户各自对应的金融关联数据以及标签生成训练数据集，其中，所述标签用于表示对应的金融用户在各个所述维度的历史信贷风险结果；

基于所述训练数据集训练预设的机器学习模型，以生成或更新用于获取金融用户在多维度各自对应的第一信贷风险预测结果的多维度信贷风险预测模型。

第二方面，本申请提供一种信贷风险预测装置，包括：

模型预测模块，用于将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型，以使该多维度信贷风险预测模型输出所述目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果；

多维度融合模块，用于根据所述目标金融用户在各个所述维度分别对应的第一信贷风险预测结果融合生成该目标金融用户的第二信贷风险预测结果；

数据输出模块，用于输出所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的金融关联数据。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的信贷风险预测方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的信贷风险预测方法。

由上述技术方案可知，本申请提供的一种信贷风险预测方法及装置，方法将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型，以使该多维度信贷风险预测模型输出所述目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果；根据所述目标金融用户在各个所述维度分别对应的第一信贷风险预测结果融合生成该目标金融用户的第二信贷风险预测结果；输出所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的金融关联数据；通过多维度信贷风险预测模型的应用，能够从多个维度获取目标金融用户的信贷风险预测结果，即各个第一信贷风险预测结果，而后再根据各个第一信贷风险预测结果生成目标金融用户整体上的第二信贷风险预测结果，进而能够有效提高信贷风险预测结果的准确性及全面性，解决了现有的信贷风险防控方式存在的由于其防控角度单一而无法保证信贷风险防控结果的准确性的问题；同时，通过输出目标金融用户的第二信贷风险预测结果和金融关联数据等，能够全面地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，使得防控人员无需再查找其他信息即能够快速获知目标金融用户总体的信贷风险，进而决定是否对目标金融用户采取信贷风险防控措施。也就是说，本申请能够有效提高信贷风险预测的准确性、全面性及可靠性，且能够有效提高输出的信贷风险预测结果的信息全面性，进而能够有效提高基于信贷风险预测结果进行信贷风险防控的效率、准确性及可靠性，有效节省人力及时间成本，并能够提高防控人员的用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的信贷风险预测方法的第一种流程示意图。

图2是本申请实施例中的信贷风险预测方法中步骤300的具体流程示意图。

图3是本申请实施例中的信贷风险预测方法的第二种流程示意图。

图4是本申请实施例中的信贷风险预测方法的第三种流程示意图。

图5是本申请实施例中的信贷风险预测方法中步骤410至步骤430的流程示意图。

图6是本申请实施例中的信贷风险预测方法中步骤430的具体流程示意图。

图7是本申请实施例中的信贷风险预测方法中步骤410至步骤460的流程示意图。

图8是本申请实施例中的信贷风险预测装置的结构示意图。

图9是本申请应用实例中的智能信贷风险防控系统的结构示意图。

图10是本申请应用实例中的信贷风险知识图谱平台的结构示意图。

图11是本申请应用实例中的数据采集单元的逻辑处理结构示意图。

图12是本申请应用实例中的数据清洗单元的知识提取具体流程示意图。

图13是本申请应用实例中的数据采集单元的采集流程和所述数据清洗单元的知识提取流程的处理逻辑示意图。

图14是本申请应用实例中的步骤S103的具体流程示意图。

图15是本申请应用实例中的智能检索交互系统的结构示意图。

图16是本申请应用实例中的智能检索交互系统的数据融合流程示意图。

图17是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请公开的信贷风险预测方法和装置可用于人工智能技术领域，也可用于除人工智能之外的任意领域，本申请公开的信贷风险预测方法和装置的应用领域不做限定。

针对现有的信贷风险预测系统防控角度单一，无法保证信贷风险防控结果的准确性的问题，以及由于现有的信贷风险防控方式直接将预测结果呈现给金融机构的防控人员，仍需要防控人员结合多种数据之后才能够获取防控对象的防控结果，因此也消耗了大量的人力成本和时间成本，极大影响了信贷风险防控效率的问题，本申请提供一种信贷风险预测方法、信贷风险预测装置、电子设备和计算机可读存储介质，通过多维度信贷风险预测模型的应用，能够从多个维度获取目标金融用户的信贷风险预测结果，即各个第一信贷风险预测结果，而后再根据各个第一信贷风险预测结果生成目标金融用户整体上的第二信贷风险预测结果，进而能够有效提高信贷风险预测结果的准确性及全面性，解决了现有的信贷风险防控方式存在的由于其防控角度单一而无法保证信贷风险防控结果的准确性的问题；同时，通过输出目标金融用户的第二信贷风险预测结果和金融关联数据等，能够全面地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，使得防控人员无需再查找其他信息即能够快速获知目标金融用户总体的信贷风险，进而决定是否对目标金融用户采取信贷风险防控措施。

具体通过下述各个实施例及应用实例分别进行详细说明。

为了解决现有的信贷风险预测方式存在的覆盖面单一而导致的准确性差且输出内容较为片面等问题，本申请提供一种信贷风险预测方法的实施例，参见图1，所述信贷风险预测方法具体包含有如下内容：

步骤100：将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型，以使该多维度信贷风险预测模型输出所述目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果。

在本申请的一个或多个实施例中，目标金融用户是指金融机构的服务对象，具体可以指企业、组织或个人等等，本申请对此不做限制。

在本申请的一个或多个实施例中，多维度中的维度可以基于金融机构的需求进行预先设置，例如，多维度可以包含有：公司治理维度、行业风险维度及经营管理维度等等。

基于此，在步骤100中，多维度信贷风险预测模型输出所述目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果可以指目标金融用户分别在公司治理维度、行业风险维度及经营管理维度的信贷风险预测结果。

可以理解的是，所述多维度信贷风险预测模型可以应用预设的模型训练算法对预设的机器学习模型进行训练得到，所述模型训练算法包括但不限于风险传递算法及图嵌入算法等。

在步骤100中，第一信贷风险预测结果是指所述目标金融用户在各个预设的维度分别对应的初始信贷风险预测结果。

步骤200：根据所述目标金融用户在各个所述维度分别对应的第一信贷风险预测结果融合生成该目标金融用户的第二信贷风险预测结果。

在步骤200中，将所述目标金融用户在各个所述维度分别对应的第一信贷风险预测结果进行数据融合，具体方式可以采用：根据预先设置的各个维度的权重与占比对各个所述第一信贷风险预测结果进行数据融合，得到目标金融用户的总体信贷风险预估值，也就是步骤200所述的第二信贷风险预测结果。

可以理解的是，步骤200中融合生成过程所采用的数据融合算法包括但不限于卡尔曼滤波法、贝叶斯估计法、平均加权法、D－S(Dempster－Shafer)证据推理法及神经网络算法等。

步骤300：输出所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的金融关联数据。

从上述描述可知，本申请实施例提供的信贷风险预测方法，通过多维度信贷风险预测模型的应用，能够从多个维度获取目标金融用户的信贷风险预测结果，即各个第一信贷风险预测结果，而后再根据各个第一信贷风险预测结果生成目标金融用户整体上的第二信贷风险预测结果，进而能够有效提高信贷风险预测结果的准确性及全面性，解决了现有的信贷风险防控方式存在的由于其防控角度单一而无法保证信贷风险防控结果的准确性的问题；同时，通过输出目标金融用户的第二信贷风险预测结果和金融关联数据等，能够全面地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，使得防控人员无需再查找其他信息即能够快速获知目标金融用户总体的信贷风险，进而决定是否对目标金融用户采取信贷风险防控措施。

为了直观地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，在本申请提供的信贷风险预测方法的一个实施例中，参见图2，所述信贷风险预测方法中的步骤300具体包含有如下内容：

步骤310：获取所述目标金融用户对应的容忍度阈值。

步骤320：基于所述容忍度阈值、所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的关联数据，生成以图结构数据显示的第三信贷风险防控结果。

步骤330：输出所述第三信贷风险防控结果以显示该第三信贷风险防控结果。

具体来说，可以根据金融机构针对目标金融用户设定的容忍度阈值，将企业、人物、产品、地点及信贷风险预警信息之间关系结果以可视化展现的方式形成第三信贷风险防控结果，而后将第三信贷风险防控结果输出以使第三信贷风险防控结果在前端页面展示出来。该信贷风险预警信息即至所述第二信贷风险预测结果。

从上述描述可知，本申请实施例提供的信贷风险预测方法，能够直观地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，不易遗漏有效信息，以进一步提高基于信贷风险预测结果进行信贷风险防控的效率及准确性。

为了有效提高目标金融用户的金融关联数据的提取效率及全面性，在本申请提供的信贷风险预测方法的一个实施例中，参见图3，所述信贷风险预测方法中的步骤100之前还具体包含有如下内容：

步骤010：接收信贷风险预测请求，其中，该信贷风险预测请求中包括目标金融用户的唯一标识；

步骤020：自预设的金融用户知识图谱中查找所述目标金融用户的唯一标识，若查找到该目标金融用户的唯一标识，则基于该唯一标识自所述金融用户知识图谱中提取所述目标金融用户的金融关联数据。

可以理解的是，所述唯一标识是指能够唯一指示目标金融用户在金融机构的身份信息的标识，可以直接采用手机号码、身份证件号码等标识，也可以基于预设的编码方式，根据用户身份信息编码得到该目标金融用户在金融机构内的唯一标识。

从上述描述可知，本申请实施例提供的信贷风险预测方法，能够有效提高目标金融用户的金融关联数据的提取效率及全面性，以进一步提高信贷风险预测的效率及准确性。

为了有效提高目标金融用户的金融关联数据的提取效率及全面性，在本申请提供的信贷风险预测方法的一个实施例中，参见图4，所述信贷风险预测方法中的步骤010之后以及步骤100之前还具体包含有如下内容：

步骤030：若未在所述金融用户知识图谱查找到所述目标金融用户的唯一标识，则应用预设的数据采集引擎抓取该目标金融用户的关联数据。

在本申请的一个或多个实施例中，所述目标金融用户的关联数据或者金融用户的关联数据是指数据采集引擎自互联网的网页中抓取的用户相关信息，例如公司或个人介绍网页的源码等等。

步骤040：基于所述金融用户知识图谱对应的资源描述框架，自所述关联数据中抽取所述目标金融用户的实体三元组数据，并将该实体三元组数据和所述目标金融用户的唯一标识加入所述金融用户知识图谱中，以在该金融用户知识图谱中形成所述目标金融用户对应的金融关联数据。

具体来说，可以将目标金融用户的关联数据以企业本体的资源描述框架RDF(Resource Description Framework)对应的实体三元组(实体—属性—属性值，或者，实体—关系—实体)的方式存储。实体命名识别模型包括但不限于HanLP基于隐马尔可夫模型(Hidden Markov Model，HMM)、基于自定义词典模型HanLP(Han Language Processing)等等。关系抽取方法包括但不限于用基于神经网络的依存句法分析器、基于最大熵的依存句法分析器。

为了有效提高目标金融用户的金融关联数据的提取效率及全面性，在本申请提供的信贷风险预测方法的一个实施例中，参见图5，所述信贷风险预测方法在步骤100之前或者在执行任意步骤之时或之后还具体包含有如下内容：

步骤410：构建用于建立金融用户知识图谱的资源描述框架。

在步骤410中，可以通过本体需求分析、考察可复用本体、建立领域核心概念、建立概念分层次、定义类和创建属性，以及本体评价和进化6个步骤，深入分析金融信贷风险相关知识，对已有的结构化数据集进行整体分析，通过分析领域内概念和属性之间的语义关联，构建企业本体的资源描述框架RDF图。构建本体的方法包括但不限于骨架法Skeletal法、TOVE法、七步法等。

步骤420：应用预设的数据采集引擎抓取各个金融用户的关联数据。

步骤430：对各个所述金融用户的关联数据进行预处理，并基于所述资源描述框架，自预处理后的各个所述金融用户的关联数据中抽取各个所述金融用户的实体三元组数据，并建立新的金融用户知识图谱或更新预存储的金融用户知识图谱，以自所述金融用户知识图谱中提取任意数量的金融用户的金融关联数据。

为了进一步提高目标金融用户的金融关联数据的提取效率及全面性，在本申请提供的信贷风险预测方法的一个实施例中，参见图6，所述信贷风险预测方法的步骤430还具体包含有如下内容：

步骤431：对各个金融用户的关联数据进行数据类型划分，以形成对应的结构数据、半结构数据和非结构数据。

步骤432：基于预设的直接映射或映射规则定义方式，将所述结构数据中的与所述资源描述框架对应的实体三元组数据映射到所述金融用户知识图谱的对应位置。

步骤433：根据预设的命名实体识别方式，将所述半结构数据和非结构数据中的与所述资源描述框架对应的实体三元组数据映射到所述金融用户知识图谱的对应位置。

具体来说，结构化数据通过直接映射或映射规则定义的方法，分析结构化数据中包含的语义信息，将数据表中的数据映射到知识图谱的对应位置，形成RDF数据，半结构化和非结构化数据通过命名实体识别、关系抽取等技术对文本数据进行处理。命名实体识别技术包括但不限于件随机场模型(Conditional Random Field)、双向长短时记忆循环神经网络模型(Recurrent Neural Network)和注意力机制模型(Attention)。

为了有效提高目标金融用户的信贷风险预测的智能化程度、准确性及全面性，在本申请提供的信贷风险预测方法的一个实施例中，参见图7，所述信贷风险预测方法的步骤430之后或者在任意获取到金融用户知识图谱的步骤之后还具体包含有如下内容：

步骤440：自当前的所述金融用户知识图谱中获取各个所述金融用户各自对应的金融关联数据。

步骤450：应用各个所述金融用户各自对应的金融关联数据以及标签生成训练数据集，其中，所述标签用于表示对应的金融用户在各个所述维度的历史信贷风险结果。

步骤460：基于所述训练数据集训练预设的机器学习模型，以生成或更新用于获取金融用户在多维度各自对应的第一信贷风险预测结果的多维度信贷风险预测模型。

从上述描述可知，本申请实施例提供的信贷风险预测方法，能够有效提高目标金融用户的信贷风险预测的智能化程度、准确性及全面性，且能够有效提高信贷风险预测的效率。

从软件层面来说，为了解决现有的信贷风险预测方式存在的覆盖面单一而导致的准确性差且输出内容较为片面等问题，本申请提供一种用于执行所述信贷风险预测方法中全部或部分内容的信贷风险预测装置的实施例，参见图8，所述信贷风险预测装置具体包含有如下内容：

模型预测模块10，用于将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型，以使该多维度信贷风险预测模型输出所述目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果。

在模型预测模块10中，多维度信贷风险预测模型输出所述目标金融用户在各个预设的维度分别对应的第一信贷风险预测结果可以指目标金融用户分别在公司治理维度、行业风险维度及经营管理维度的信贷风险预测结果。

在模型预测模块10中，第一信贷风险预测结果是指所述目标金融用户在各个预设的维度分别对应的初始信贷风险预测结果。

多维度融合模块20，用于根据所述目标金融用户在各个所述维度分别对应的第一信贷风险预测结果融合生成该目标金融用户的第二信贷风险预测结果。

在多维度融合模块20中，将所述目标金融用户在各个所述维度分别对应的第一信贷风险预测结果进行数据融合，具体方式可以采用：根据预先设置的各个维度的权重与占比对各个所述第一信贷风险预测结果进行数据融合，得到目标金融用户的总体信贷风险预估值，也就是多维度融合模块20所述的第二信贷风险预测结果。

可以理解的是，多维度融合模块20中融合生成过程所采用的数据融合算法包括但不限于卡尔曼滤波法、贝叶斯估计法、平均加权法、D－S(Dempster－Shafer)证据推理法及神经网络算法等。

数据输出模块30，用于输出所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的金融关联数据。

本申请提供的信贷风险预测装置的实施例具体可以用于执行上述实施例中的信贷风险预测方法的实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

从上述描述可知，本申请实施例提供的信贷风险预测装置，通过多维度信贷风险预测模型的应用，能够从多个维度获取目标金融用户的信贷风险预测结果，即各个第一信贷风险预测结果，而后再根据各个第一信贷风险预测结果生成目标金融用户整体上的第二信贷风险预测结果，进而能够有效提高信贷风险预测结果的准确性及全面性，解决了现有的信贷风险防控方式存在的由于其防控角度单一而无法保证信贷风险防控结果的准确性的问题；同时，通过输出目标金融用户的第二信贷风险预测结果和金融关联数据等，能够全面地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，使得防控人员无需再查找其他信息即能够快速获知目标金融用户总体的信贷风险，进而决定是否对目标金融用户采取信贷风险防控措施。

为了直观地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，在本申请提供的信贷风险预测装置的一个实施例中，所述信贷风险预测装置中的数据输出模块30具体用于执行下述内容：

步骤310：获取所述目标金融用户对应的容忍度阈值。

从上述描述可知，本申请实施例提供的信贷风险预测装置，能够直观地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，不易遗漏有效信息，以进一步提高基于信贷风险预测结果进行信贷风险防控的效率及准确性。

为了有效提高目标金融用户的金融关联数据的提取效率及全面性，在本申请提供的信贷风险预测装置的一个实施例中，所述信贷风险预测装置还具体用于执行下述内容：

从上述描述可知，本申请实施例提供的信贷风险预测装置，能够有效提高目标金融用户的金融关联数据的提取效率及全面性，以进一步提高信贷风险预测的效率及准确性。

具体来说，可以将目标金融用户的关联数据以企业本体的资源描述框架RDF(Resource Description Framework)对应的实体三元组(实体—属性—属性值，或者，实体—关系—实体)的方式存储。实体命名识别模型包括但不限于HanLP基于隐马尔可夫模型(Hidden Markov Model，HMM)、基于自定义词典模型HanLP(Han Language Processing)等等。关系抽取装置包括但不限于用基于神经网络的依存句法分析器、基于最大熵的依存句法分析器。

步骤410：构建用于建立金融用户知识图谱的资源描述框架。

在步骤410中，可以通过本体需求分析、考察可复用本体、建立领域核心概念、建立概念分层次、定义类和创建属性，以及本体评价和进化6个步骤，深入分析金融信贷风险相关知识，对已有的结构化数据集进行整体分析，通过分析领域内概念和属性之间的语义关联，构建企业本体的资源描述框架RDF图。构建本体的装置包括但不限于骨架法Skeletal法、TOVE法、七步法等。

为了进一步提高目标金融用户的金融关联数据的提取效率及全面性，在本申请提供的信贷风险预测装置的一个实施例中，所述信贷风险预测装置还具体用于执行下述内容：

具体来说，结构化数据通过直接映射或映射规则定义的装置，分析结构化数据中包含的语义信息，将数据表中的数据映射到知识图谱的对应位置，形成RDF数据，半结构化和非结构化数据通过命名实体识别、关系抽取等技术对文本数据进行处理。命名实体识别技术包括但不限于件随机场模型Conditional Random Field、双向长短时记忆循环神经网络模型Recurrent Neural Network和注意力机制模型Attention。

为了有效提高目标金融用户的信贷风险预测的智能化程度、准确性及全面性，在本申请提供的信贷风险预测装置的一个实施例中，所述信贷风险预测装置还具体用于执行下述内容：

从上述描述可知，本申请实施例提供的信贷风险预测装置，能够有效提高目标金融用户的信贷风险预测的智能化程度、准确性及全面性，且能够有效提高信贷风险预测的效率。

为了进一步说明本方案，本申请还提供一种应用基于智能检索和知识图谱技术的信贷风险预测系统实现的信贷风险预测方法的具体应用实例，涉及知识图谱、机器学习、大数据、智能检索技术领域，本申请应用实例克服了现有商业银行信贷审批场景中，对商业银行信息获取不对称、不全面导致贷款企业或者个人存在金融欺诈风险的不足，提供了一种基于智能检索和知识图谱技术的智能信贷风险防控系统及方法。此系统及方法可以利用大数据、知识图谱技术对企业或者个人相关的多源信息整合到金融知识图谱中，并通过智能检索形成风险防范评级，对贷款企业或者个人可能存在的风险进行全面的分析和评估，从而有效实现商业银行金融风险防控。

本申请应用实例提供了一种基于智能检索和知识图谱技术的智能信贷风险防控系统，参见图9，主要包括信贷风险知识图谱平台1和智能检索交互系统2。信贷风险知识图谱平台1主要利用大数据处理、机器学习等技术构建企业或者个人风险知识图谱，通过图谱呈现的上市公司、人物、组织机构、行业等实体信息以及实体之间的关系信息，可以帮助从业者更加直观地了解和检索相关实体和关系信息，帮助商业银进行企业或者个人风险预测、关联企业等分析与应用。智能检索交互系统2基于前面构建的企业/个人风险知识图谱，利用深度学习技术，结合知识库构建智能检索交互系统，用户通过检索需要贷款的企业或者个人，反馈给用户设置在不同阈值下的风险值，并以3D可视化的方式展现出来。

其中信贷风险知识图谱平台1可通过移动或者有线网络与智能检索交互系统2建立连接，具体的：

信贷风险知识图谱平台1负责从本地与网络上爬取企业或者个人的相关知识，利用知识抽取技术让文本数据变成机器能够识别的形式，然后进行模型训练，构建信贷风险领域知识图谱，并构造信贷风险领域知识图谱基础知识库。

智能检索交互系统2，用于对知识图谱数据信息进行接收，分类训练，运用机器学习模型优化算法结构和流程，并及时反馈给用户设置在不同阈值下的风险值，并以3D可视化的方式展现出来。

(一)信贷风险知识图谱平台1

参见图10，信贷风险知识图谱平台1包括数据采集单元11、数据清洗单元12和数据存储单元13，具体来说：

(1)数据采集单元11，负责利用爬虫技术、扫描监测技术以比较全面地获取企业或者个人信贷风险数据和相关事件的数据信息。

(2)数据清洗单元12，负责从结构化、半结构化和非结构化等不同来源、不同结构的数据中抽取信息，并对这些信息进行处理，得到构建知识图谱需要的资源描述框架RDF实体三元组(实体—属性—属性值，或者，实体—关系—实体)。结构化数据通过直接映射或映射规则定义的方法，分析结构化数据中包含的语义信息，将数据表中的数据映射到知识图谱的对应位置，形成RDF数据，半结构化和非结构化数据通过命名实体识别、关系抽取等技术对文本数据进行处理。命名实体识别技术包括但不限于件随机场模型(ConditionalRandom Field)、双向长短时记忆循环神经网络(Recurrent Neural Network)模型和注意力机制模型(Attention)。

数据存储单元13，负责以“图数据结构”来表现和存储数据，并实现了快速查询。数据库存储形式包括但不限于以NOSQL图形数据库为代表的Neo4j数据库。

参见图11，所述数据采集单元11的逻辑处理结构包括：数据采集引擎模块1101、爬虫模块1102、调度器模块1103、下载器模块1104、项目管道模块1105、下载器中间件模块1106和爬虫中间件模块1107，具体来说：

(1)数据采集引擎模块1101，负责爬虫、项目管道、下载器、调度器之间的通讯、信号与数据传递等。

(2)爬虫模块1102，负责处理所有的回应，获得项目管道需要的字段数据并分析其中的出局，接着将后续要处理url提交给引擎，最后再次进入调度器。

(3)调度器模块1103，负责接收引擎发送过来的请求，然后将其通过一定的方式进行整理排列。

(4)下载器模块1104，负责响应数据采集引擎1101发送的请求，并将其获取到的回应交还给数据采集引擎1101，交由爬虫来处理。

(5)项目管道模块1105，负责处理爬虫中获取到的数据，并进行后期处理。

(6)下载器中间件模块1106，负责自定义扩展下载功能的组件。

(7)爬虫中间件模块1107，负责自定义扩展爬虫中间通信以及扩展操作引擎的功能组件。

参见图12，所述数据清洗单元12的知识提取具体流程如下：

步骤S101：企业/个人本体构建。该步骤通过本体需求分析、考察可复用本体、

建立领域核心概念、建立概念分层次、定义类和创建属性，以及本体评价和进化多个步骤，深入分析金融信贷风险相关知识，对已有的结构化数据集进行整体分析，通过分析领域内概念和属性之间的语义关联，构建企业本体的RDF(资源描述框架)图。构建本体的方法包括但不限于Skeletal法(骨架法)、TOVE法、七步法等。

步骤S102：企业/个人知识抽取。该步骤从结构化、半结构化和非结构化等不同来源、不同结构的数据中抽取信息，并通过命名实体识别、关系抽取等技术对这些信息进行处理，得到构建知识图谱需要的实体三元组。

步骤S103：企业/个人知识实体融合。该步骤对异构数据执行实体对齐和实体匹配等步骤，解决数据冲突问题，包括实体属性值不一致、实体属性缺失等，从而保证知识图谱中的数据一致性和准确性。

步骤S104：知识存储。该步骤在对不同来源、不同形态的数据实现融合后，将这些数据存入数据库，用于支撑知识推理、知识计算等上层应用。存储方式包括但不限于Neo4j，Orient DB和Titan。

参见图13，所述数据采集单元11的采集流程和所述数据清洗单元12的知识提取流程的具体展开内容如下：

步骤S1201：爬取相关信息模块。该模块首先从企业/个人网站爬取相关信息，比如，从某网站爬取相关网页。爬虫算法包括但不限于通用网络爬虫、聚焦网络爬虫、增量式网络爬虫。

步骤S1202：解析网页信息。该模块将爬取的信息进行解析，比如，“上市公司股票代码列表”得到上交所3685家和深交所2394家上市公司和相应股票代码列表。

步骤S1203：生产企业/个人相关网页。该模块在解析网页信息后，生成企业/个人相关网页，比如，用股票代码分别生成网易财经、同花顺公司介绍网页的URL地址。

步骤S1204：爬取相关企业/个人相关网页模块。该模块根据URL地址，通过关键字找到企业信息，得到公司/个人介绍网页的源码。

步骤S1205：解析网页模块。该模块对得到的网页进行解析，并对网页中的冗余信息和不相关信息进行过滤，得到较为纯净的语料。解析算法包括但不限于信息提取技术规则包括但不限于正则表达式法、自然语言处理法、包装器归纳法。

步骤S1206：存储信息模块。该模块在得到纯净语料后，通过实体命名识别和关系抽取后，将相关信息以实体三元组(实体—属性—属性值或实体—关系—实体)的方式存储。实体命名识别模型包括但不限于HanLP基于隐马尔可夫模型HMM(Hidden MarkovModel)、HanLP基于自定义词典模型。关系抽取方法包括但不限于用基于神经网络的依存句法分析器、基于最大熵的依存句法分析器。

参见图14，步骤S103的具体执行过程如下：

步骤S1301：判断不同信息来源的实体是否为同一实体，实体命名是否完全匹配。

步骤S1302：针对无歧义的实体名称，可直接进行匹配。

步骤S1303：针对实体名称简写与实体名称存在差异的情况，利用基于孪生神经网络的实体对齐算法进行实体命名相似度计算，得到实体的相似度得分。

步骤S1304：判断实体匹配相似度得分是否大于阈值。

步骤S1305：大于阈值的实体可进行匹配。

步骤S1306：小于阈值的实体则不进行匹配。

(二)智能检索交互系统2

参见图15，智能检索交互系统2包括：企业/个人风险预警模型训练单元21、信贷风险值预估单元22、实体信息检索单元23，具体来说：

(1)企业/个人风险预警模型训练单元21，负责在信贷风险知识图谱平台1构建信贷风险知识图谱后，利用深度学习技术对信贷风险知识图谱中获得的数据进行模型训练，得到企业/个人在不同维度(公司治理、行业风险、经营管理等)下的信贷风险预估值。模型训练算法包括但不限于风险传递算法、图嵌入算法。

(2)信贷风险值预估单元22，负责从企业/个人风险预警模型训练单元21中获取的不同维度(公司治理、行业风险、经营管理等)的信贷风险预估值，根据权重与占比进行融合，得到一个企业/个人总体信贷风险预估值。融合算法包括但不限于卡尔曼滤波法、贝叶斯估计法、平均加权法、D－S(Dempster－Shafer)证据推理法、神经网络算法等。

(3)实体信息检索单元23，后台端负责从信贷风险知识图谱平台中的数据库操作实现，将请求传递到后台，后台通过对数据库进行操作，根据用户设定的容忍度阈值将企业、人物、产品、地点、信贷风险预警之间关系结果以可视化展现的方式，在前端页面展示出来。

参见图16，智能检索交互系统2的数据融合流程如下：

步骤S2201：分析数据源。用Spearman计算和分析每种数据源之间的关系。

步骤S2202：设定数据权重。赋予高相似度的数据源较高的权重，设定它的关系权重值。

步骤S2203：计算数据源。计算各数据源与最优解之间的相似度，从而计算出每种数据源的寻优权重值。

步骤S2204：得到综合风险预估值。根据步骤S2202中的关系权重值与步骤S2203中的寻优权重值的乘积之和，算出综合权重，综合权重和每种数据源的信贷风险预估值乘积之和就是多源数据融合的综合信贷风险预估值。

综上所述，本申请应用实例提供一种基于智能检索和知识图谱技术的智能信贷风险防控系统及方法，利用智能检索、知识图谱和机器学习对贷款人可能存在的风险进行全面分析和评估，从而有效防范金融欺诈，并能够通过模型训练不断优化算法。一方面，及时发现关联企业之间违背资本真实性原则频繁调拨资金，利用关联交易或不合理的转移定价抽逃资金等违法行为。另一方面，提高客户身份识别的技术和能力，实现客户尽职调查，实现大额交易和可疑交易及时发现和报告，使银行能够较好地履行反洗钱义务。

从硬件层面来说，为了解决现有的信贷风险预测方式存在的覆盖面单一而导致的准确性差且输出内容较为片面等问题，本申请提供一种用于实现所述信贷风险预测方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

图17为本申请实施例的电子设备9600的系统构成的示意框图。如图17所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图17是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，信贷风险预测功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

从上述描述可知，本申请实施例提供的电子设备，通过多维度信贷风险预测模型的应用，能够从多个维度获取目标金融用户的信贷风险预测结果，即各个第一信贷风险预测结果，而后再根据各个第一信贷风险预测结果生成目标金融用户整体上的第二信贷风险预测结果，进而能够有效提高信贷风险预测结果的准确性及全面性，解决了现有的信贷风险防控方式存在的由于其防控角度单一而无法保证信贷风险防控结果的准确性的问题；同时，通过输出目标金融用户的第二信贷风险预测结果和金融关联数据等，能够全面地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，使得防控人员无需再查找其他信息即能够快速获知目标金融用户总体的信贷风险，进而决定是否对目标金融用户采取信贷风险防控措施。

在另一个实施方式中，信贷风险预测装置可以与中央处理器9100分开配置，例如可以将信贷风险预测装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现信贷风险预测功能。

如图17所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图17中所示的所有部件；此外，电子设备9600还可以包括图17中没有示出的部件，可以参考现有技术。

如图17所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的信贷风险预测方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的信贷风险预测方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

从上述描述可知，本申请实施例提供的计算机可读存储介质，通过多维度信贷风险预测模型的应用，能够从多个维度获取目标金融用户的信贷风险预测结果，即各个第一信贷风险预测结果，而后再根据各个第一信贷风险预测结果生成目标金融用户整体上的第二信贷风险预测结果，进而能够有效提高信贷风险预测结果的准确性及全面性，解决了现有的信贷风险防控方式存在的由于其防控角度单一而无法保证信贷风险防控结果的准确性的问题；同时，通过输出目标金融用户的第二信贷风险预测结果和金融关联数据等，能够全面地向金融机构的防控人员展示目标金融用户的信贷风险预测关联内容，使得防控人员无需再查找其他信息即能够快速获知目标金融用户总体的信贷风险，进而决定是否对目标金融用户采取信贷风险防控措施。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信贷风险预测方法，其特征在于，包括：

2.根据权利要求1所述的信贷风险预测方法，其特征在于，所述输出所述目标金融用户的第二信贷风险预测结果和所述目标金融用户对应的金融关联数据，包括：

获取所述目标金融用户对应的容忍度阈值；

3.根据权利要求1所述的信贷风险预测方法，其特征在于，在所述将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型之前，还包括：

4.根据权利要求3所述的信贷风险预测方法，其特征在于，还包括：

5.根据权利要求1所述的信贷风险预测方法，其特征在于，在所述将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型之前，还包括：

构建用于建立金融用户知识图谱的资源描述框架；

应用预设的数据采集引擎抓取各个金融用户的关联数据；

6.根据权利要求5所述的信贷风险预测方法，其特征在于，所述对各个所述金融用户的关联数据进行预处理，并基于所述资源描述框架，自预处理后的各个所述金融用户的关联数据中抽取各个所述金融用户的实体三元组数据，以建立新的金融用户知识图谱或更新预存储的金融用户知识图谱，包括：

7.根据权利要求5所述的信贷风险预测方法，其特征在于，在所述将当前的目标金融用户对应的金融关联数据输入预设的多维度信贷风险预测模型之前，还包括：

8.一种信贷风险预测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述的信贷风险预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述的信贷风险预测方法。