CN113610626A - 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 - Google Patents

银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113610626A
CN113610626A CN202110843161.7A CN202110843161A CN113610626A CN 113610626 A CN113610626 A CN 113610626A CN 202110843161 A CN202110843161 A CN 202110843161A CN 113610626 A CN113610626 A CN 113610626A
Authority
CN
China
Prior art keywords
credit risk
data
entities
entity
bank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110843161.7A
Other languages
English (en)
Inventor
陈远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202110843161.7A priority Critical patent/CN113610626A/zh
Publication of CN113610626A publication Critical patent/CN113610626A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质,涉及大数据技术领域,该方法包括:采集银行客户的信贷风险数据;构建信贷风险本体数据,定义实体、属性和关系;将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性;提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合;基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。本发明可以构建银行信贷风险识别知识图谱。

Description

银行信贷风险识别知识图谱构建方法、装置、计算机设备及计 算机可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质。
背景技术
近年来,商业银行主动适应互联网信息化浪潮,积极发展线上信贷业务。线上信贷优势明显:一是金融信贷规模较大,商业银行普遍具有良好的信任度,拥有完整的信贷产品体系,客户资源丰富;二是数据资源丰富,可靠性高,拥有大量真实客户金融业务数据;三是银行网点分布范围广,具有竞争优势,能有效满足客户个性化、定制化的金融信贷业务需求。商业银行依据其自身优势利用互联网技术发展信贷业务能够高效经营管理,同时也增加了商业银行信贷业务风险识别的复杂性与全面性。
同时,随着信息技术的发展,人们经历了以网页链接为核心的Web 1.0时代和以数据链接为核心的Web 2.0时代,目前正迈向以知识相互关联为主要特征的“Web3.0”时代。然而目前互联网信息数据规模庞大,数据来源丰富,并且很多数据都是以无序的半结构化或非结构化形式存在,传统的数据管理方式受到了一定的制约。知识图谱(Knowledge Graph)的出现,为解决这些问题提供了新的思路。知识图谱(Knowledge Graph)概念于2012年由Google正式提出。目前知识图谱相关技术得到大力发展,从模型定义到构建技术再到实用环境都有了彻头彻尾的改变,知识图谱已被广泛应用于个性化推荐、个人语音助手、社区问答等领域。国内外互联网公司纷纷推出了自己的知识图谱产品,如微软的Satori、百度的“知心”、搜狗的“知立方”等。
目前,越来越多的金融机构开始探索构建自己的金融知识图谱。金融知识图谱已应用于反欺诈、精准营销等领域。例如,在反欺诈场景中,通过将与贷款人相关的多源数据整合到知识图谱中,可以对贷款人可能存在的风险进行全面分析和评估,从而有效防范金融欺诈;在精准营销场景中,企业可以利用知识图谱分析用户行为,为潜在客户构建精准的用户画像,从而对其进行精准推送。尽管大量的知识图谱日益涌现,但面向金融企业领域的知识图谱还相对匮乏。此外,大多数工作都只关注知识图谱构建过程中的某一环节,如数据表示、存储和抽取等。同时,在商业银行的实际经营过程中,对于信贷风险的识别问题始终是一个核心问题。互联网信贷的不断发展使得信贷风险普遍存在,导致信贷风险呈现出多样化趋势,增加了商业银行信贷风险识别的难度,传统的信贷风险管理多通过对拟授信主体特征如负债、资产状况、现金流水等方面进行严格的准入审核,但这些都无法判断主体间的关联风险。因此,研究金融领域知识图谱的构建具有重要的意义和价值。
发明内容
本发明实施例提出一种银行信贷风险识别知识图谱构建方法,用以构建银行信贷风险识别知识图谱,该方法包括:
采集银行客户的信贷风险数据;
基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系;
将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的;
提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;
对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系;
基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。
本发明实施例提出一种银行信贷风险识别知识图谱构建装置,用以构建银行信贷风险识别知识图谱,该装置包括:
数据采集模块,用于采集银行客户的信贷风险数据;
本体构建模块,用于基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系;
信贷风险实体及属性确定模块,用于将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的;
信贷风险关系确定模块,用于提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;
数据融合模块,用于对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系;
知识图谱构建模块,用于基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。
本发明实施例还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述银行信贷风险识别知识图谱构建方法。
本发明实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述银行信贷风险识别知识图谱构建方法的计算机程序。
在本发明实施例中,采集银行客户的信贷风险数据;基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系;将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的;提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系;基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。在上述过程中,通过将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,数据融合等步骤,构建出了准确度高的银行信贷风险识别知识图谱。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中银行信贷风险识别知识图谱构建方法的流程图;
图2为本发明实施例中知识图谱构建的原理图;
图3为本发明实施例中构建本体RDF的三元组图示例;
图4为本发明实施例中深度学习网络模型的训练步骤的训练步骤;
图5为本发明实施例中银行信贷风险识别知识图谱构建装置的示意图;
图6为本发明实施例中银行信贷风险识别知识图谱构建装置的另一示意图;
图7为本发明实施例中计算机设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
首先,对本发明实施例中涉及到的术语进行解释。
自顶向下(Top-Down):首先从最顶层的概念开始,然后逐步进行细化,形成结构良好的层次结构,在定义好数据模式后,再把实体逐个添加到概念中。
自底向上(Bottom-Up):首先对实体进行归纳组织,形成底层的概念,然后逐步往上抽象,形成上层的概念。
本体:是指可共享的概念模型的明确形式化规范说明,即标准化的术语结构。
RDF(Resource Description Framework):是一种用于描述语义网资源及其关系的标记语言。
三元组:描述语义网数据的一种语法形式,通常以“主语-谓语-宾语”的形式来表示数据,其中主语表示实体,谓语用来描述实体所具有的相关属性(即主语和宾语之间的关系),宾语表示属性对应的属性值,属性值既可以是实体也可以是文本。
图1为本发明实施例中银行信贷风险识别知识图谱构建方法的流程图,如图1所示,该方法包括:
步骤101,采集银行客户的信贷风险数据;
步骤102,基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系;
步骤103,将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的;
步骤104,提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;
步骤105,对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系;
步骤106,基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。
在本发明实施例中,通过将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,数据融合等步骤,构建出了准确度高的银行信贷风险识别知识图谱。
具体实施时,知识图谱主要有两种构建方式:自顶向下(Top-Down)和自底向上(Bottom-Up)。本发明实施例中采用的是自顶向下的知识图谱构建方法。图2为本发明实施例中知识图谱构建的原理图,数据收集对应步骤101,本体构建对应步骤102,知识抽取对应步骤103和步骤104,知识融合对应步骤105,至此,可以获得知识图谱,知识存储是指对构建的知识图谱进行存储,知识应用是指对知识图谱的运用。
在步骤101中,知识图谱是上层应用的基础,构建的基础是要把知识从不同结构的数据源中抽取出来。在一实施例中,所述信贷风险数据的类型包括结构化数据、半结构化数据和非结构化数据。结构化数据是指可以使用关系型数据库表示和存储的数据,如关系数据库存储的数据;非结构化数据,就是没有固定结构的数据,各种文本文档、图片、音频等都是非结构化的数据类型;半结构化数据是介于以上两者之间,常见的有HTML、JSON、XML等数据格式。
在一实施例中,所述信贷风险数据的来源包括银行、征信公司、保险行业、互联网公开欺诈黑名单、行业黑名单联盟、社交媒体信息中的其中的一种或任意组合。数据的来源既可以是企业的内部数据,也可以是相关行业的外部数据。数据的收集尽最大的可能获取同行业领域内的各种数据,以满足数据完整性需求。
在步骤102中,基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系。本体提供了上层的数据模式,是实体存在的形式化描述,是知识图谱的重要组成部分。本体构建的任务是确认信贷风险业务领域中需要定义哪些实体、属性和关系。领域本体构建流程包含以下6个步骤:本体需求分析、考察可复用本体、建立领域核心概念、建立概念分层次、定义类和创建属性、本体评价和进化。针对不同的领域和不同的实际需求,领域本体构建的过程也各不相同。目前,比较被认可的构建本体的方法有:Skeletal法(又称骨架法)、TOVE法、七步法等。图3为本发明实施例中构建本体RDF的三元组图示例。
知识抽取是从结构化、半结构化和非结构化的不同来源、不同结构的数据中抽取企业相关知识的过程。知识抽取主要包括实体识别和实体关系识别两部分,其中步骤103为实体识别,步骤104为实体关系识别。
实体识别就是将非结构化或半结构化的数据转换为结构化数据的过程,主要包括人名、地名、机构名、专有名词等类别的垂直领域实体。实体识别的实现主要依靠前期大量的人工标注数据,从标注好的数据里面识别出实体。不同的数据类型有不同的识别方法,如果是结构化的数据可以直接进行知识融合,而半结构化数据或者非结构化数据则需要利用自动化或半自动化的方法,从中识别出所有实体、属性以及实体间的关系后,才能完成知识融合。在半结构化数据和非结构化数据中,很多实体的属性值并没有被识别,且这些数据大多以文本形式存在。这些文本主要有3种类别:1)含有超链接信息的文本;2)有明显语义标记的文本,实体之间用一致的标点符号分隔,且不存在歧义;3)没有明显语义边界的长文本,实体之间没有分隔符。实体识别的质量会对后续知识应用的效果产生较大的影响。
本发明实施例提出一种基于深度学习的实体识别方法,即将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的,在上述方法中国,先要训练深度学习网络模型,图4为本发明实施例中深度学习网络模型的训练步骤的训练步骤,包括:
步骤401,构建每个实体所属种类与序号的词典;
步骤402,将信贷风险数据中的每个词语与词典中的序号进行对应,形成词语、种类、序号的对应关系;
步骤403,将信贷风险数据中的每个词语转换为词向量;
步骤404,以所述词向量为输入,以词语、种类、序号的对应关系为输出,训练深度学习网络模型,获得预先训练好的深度学习网络模型。
上述步骤401和步骤402是预处理步骤,在深度学习网络模型中,输入的是词对应的词向量,因此需要先将词转化为对应的序号再映射成词向量,然后才能输入到深度学习网络模型中进行训练。对于实体的识别,需要先构建一个词典,然后根据特定领域的特征对实体进行分类。比如对于银行领域,普通的人名、地名、机构名分类不足以概括银行领域中的实体量,因此需要工作人员对实体进一步地细分,然后将每个种类定义为一个序号,再将每一个词对应到词典中的序号,形成词、种类和序号的对应关系。最后就可以使用统一的标注模式来进行实体的标记。
在一实施例中,将信贷风险数据中的每个词语转换为向量,包括:
采用BERT方法来将信贷风险数据中的每个词语转换为one-hot词向量。
BERT方法的优点是融合了Transformer来编码,预测词的时候同时考虑了上下文的特征,对句子的向量化转换达到了更好的效果。
在一实施例中,在采用BERT方法来将信贷风险数据中的每个词语转换为one-hot词向量之后,还包括:
采用word2vec方法来对one-hot词向量进行降维。
在上述实施例中,进行降维是因为one-hot向量带来的问题是大量的稀疏矩阵以及维度太大,而且忽略了句中字间的关联,降维后可避免上述问题。
在一实施例中,所述深度学习网络模型为LSTM-CRF神经网络模型。
LSTM-CRF神经网络模型中的LSTM(Long Short Term Memory Network,长短时记忆网络)在RNN的基础上,通过加入门控机制等方法有效地解决了梯度消失等问题,而且在文本语序处理时将当前分组序列之前的信息也都考虑了进去,有效地解决了文本语序等问题。
具体实施时,在深度学习网络的输出层对标注结果进行预测的时候,可以使用softmax函数计算标签概率值,但是softmax层对于标签预测是相互独立的,无法利用序列中相邻标签的关系。LSTM的优点是能够通过双向的设置学习到观测序列(输入的字)之间的依赖。在训练过程中,LSTM能够根据目标(比如识别实体)自动提取观测序列的特征。在文本中,词与词之间,即标注之间是有一定关系的,LSTM在解决NER这类序列标注任务时,虽然可以省去很繁杂的特征工程,但是也存在无法学习标注上下文的缺点。而CRF的优点就是能对隐含状态建模,学习状态序列的特点,通过引入标签的转移得分矩阵来计算整体序列的最优解然后进行优化操作,避免了softmax层预测标签不合理的问题。本发明实施例采用的是在LSTM后面再加一层CRF,形成LSTM-CRF神经网络模型,以获得两者的优点。
在步骤104中,提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系,在知识图谱中实体关系的抽取丰富了实体,同时为上层应用提供了支持。实体关系的抽取是汇集了多种类型数据的信息,结合了不同类型数据源中特定的实体属性数据,实现了对实体关系的全面描述和有效信息的全方位考察。
举例说明,如“建信金融科技有限责任公司成立于2018年4月18日”,句法分析的结果为〈建信金融科技有限责任公司(主语)〉〈成立于(谓语)〉〈2018年4月18日(宾语)〉,最后将依存句法分析的结果转化为三元组形式“〈实体1〉〈关系〉〈实体2〉”。具体如表1所示。
表1
实体1 关系 实体2
建信金融科技有限责任公司 隶属于 建设银行
建信金融科技有限责任公司 成立于 2018年4月18日
建信金融科技有限责任公司 法人代表 朱玉红
建信金融科技有限责任公司 注册资金 16亿元
建信金融科技有限责任公司 外文名称 CCB Fintech
在一实施例中,对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,包括:
从多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系中提取上下文语义特征;
基于所述上下文语义特征进行信贷风险实体、信贷风险实体的属性和信贷风险关系的对齐,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系。
在上述实施例中,由于信贷风险的多个数据集在展示实体信息时会用不同的实体名称表示,这给知识融合造成了极大的困扰,因此需要找到正确的实体名称与之对应,进而将数据融入已有的知识库。实体对齐是知识融合过程中的主要挑战,旨在判断两个或者多个不同信息来源的实体是否为同一实体。例如,“建信金融科技有限责任公司”和“建信金科”描述的其实是同一实体,可以合并。实体对齐主要有两个方向:1)实体名的完全匹配;2)实体名的相似度计算。第一种方式主要针对无歧义的实体名称;第二种方式主要针对实体名称简写与实体名称存在差异的情况。实体对齐的常用方法可分为3类:基于概率模糊匹配的实体对齐、基于距离度量的实体对齐和基于机器学习方法的实体对齐。基于概率模糊匹配的实体对齐方法主要考虑两个实体各自属性的相似性,但忽略了实体间的关系。基于距离度量的实体对齐方法与概率匹配算法类似,都是基于属性域加权的成对比较方法。这两者的主要区别在于基于距离度量的方法更加注重相似性度量函数的设计,且不需要训练样本。上述两种实体对齐算法过分依赖于相似性度量函数,在上述实施例中,采用的是基于机器学习的实体对齐方法,即基于所述上下文语义特征进行信贷风险实体、信贷风险实体的属性和信贷风险关系的对齐,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系。
在一实施例中,所述方法还包括:
将所述银行信贷风险识别知识图谱采用图数据库的结构进行存储。
在一实施例中,所述图数据库包括Neo4j,OrientDb或Titan。
具体实施时,在对不同来源、不同形态的银行信贷风险数据实现融合后,需要将这些数据存入数据库,用于支撑知识推理、知识计算等上层应用。目前图结构存储有两种通用的存储方案:RDF存储和图数据库。图数据库的结构定义相比RDF数据库更为通用,实现了对图结构中的节点、边以及属性的存储。由于知识图谱中存储的大都是关联密集型的数据,而图数据库更能方便地存储这一类型数据,因此图数据成为了主流的存储方式。图数据库以“图数据结构”来表现和存储数据,并实现了快速查询。它将节点与节点之间的关系以键值对(key,value)的形式进行组织、索引和存储,并且图数据库的这种数据结构在大规模知识图谱上的查询和搜索效率也得到了显著提高。此外,图数据库的设计非常灵活,当加入新的属性或数据时,不需要重构网络。目前比较流行的是使用Neo4j图数据库来存储知识图谱。
在完成知识图谱构建之后,可使用交互式的知识图谱查询分析界面对银行信贷风险进行识别和研究。例如:可以根据条件对客户进行筛选,通过关键字可以进行精准或模糊查询,并将结果在知识图谱中可视化展示;当某客户的信贷风险发生变动,可以通过知识图谱的关联查询把与该客户直接或者间接关联的客户查找出来,挖掘出关联客户潜在的信贷风险。
本发明实施例提出的方法可以达到如下的有益效果:
1、由于传统的定性调研管理方法和量化评级风险模型在识别信贷风险时存在局限性、高成本、难以识别关联风险以及过于依赖工作人员的经验和专业能力等问题,本发明实施例利用知识图谱可以识别关联风险,发现潜在的信贷风险,同时利用知识图谱来辅助识别风险,可以节约成本,大幅度摆脱严重依赖工作人员的经验和专业能力的限制;
2、在当下线上信贷业务需求爆发增长的背景下,信贷风险识别的难度大大增加,对风险识别的要求也越来越高,为了顺应互联网信贷业务的发展,本发明实施例提供了基于知识图谱的手段来分析和识别信贷风险,可以大大提高工作效率,满足互联网信贷的需求;
3、目前商业银行行业的知识图谱研究还处于起步阶段,并且大多数的工作都只关注知识图谱构建过程中的某一环节,缺少一套完整的知识图谱构建及应用的流程,本发明实施例提出了一套完整的商业银行领域知识图谱的构建及应用方案,具有重要的意义和有益的效果。
本发明实施例还提出一种银行信贷风险识别知识图谱构建装置,其原理与银行信贷风险识别知识图谱构建方法类似,这里不再赘述。
图5为本发明实施例中银行信贷风险识别知识图谱构建装置的示意图,如图5所示,该装置包括:
数据采集模块501,用于采集银行客户的信贷风险数据;
本体构建模块502,用于基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系;
信贷风险实体及属性确定模块503,用于将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的;
信贷风险关系确定模块504,用于提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;
数据融合模块505,用于对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系;
知识图谱构建模块506,用于基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。
在一实施例中,所述信贷风险数据的类型包括结构化数据、半结构化数据和非结构化数据。
在一实施例中,所述信贷风险数据的来源包括银行、征信公司、保险行业、互联网公开欺诈黑名单、行业黑名单联盟、社交媒体信息中的其中的一种或任意组合。
图6为本发明实施例中银行信贷风险识别知识图谱构建装置的示意图,在一实施例中,所述装置还包括模型训练模块507,用于:
构建每个实体所属种类与序号的词典;
将信贷风险数据中的每个词语与词典中的序号进行对应,形成词语、种类、序号的对应关系;
将信贷风险数据中的每个词语转换为词向量;
以所述词向量为输入,以词语、种类、序号的对应关系为输出,训练深度学习网络模型,获得预先训练好的深度学习网络模型。
在一实施例中,模型训练模块具体用于:
采用BERT方法来将信贷风险数据中的每个词语转换为one-hot词向量。
在一实施例中,模型训练模块还用于:
采用word2vec方法来对one-hot词向量进行降维。
在一实施例中,所述深度学习网络模型为LSTM-CRF神经网络模型。
在一实施例中,数据融合模块具体用于:
从多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系中提取上下文语义特征;
基于所述上下文语义特征进行信贷风险实体、信贷风险实体的属性和信贷风险关系的对齐,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系。
在一实施例中,所述装置还包括存储模块508,用于:
将所述银行信贷风险识别知识图谱采用图数据库的结构进行存储。
在一实施例中,所述图数据库包括Neo4j,OrientDb或Titan。
本发明实施例提出的装置可以达到如下的有益效果:
1、由于传统的定性调研管理方法和量化评级风险模型在识别信贷风险时存在局限性、高成本、难以识别关联风险以及过于依赖工作人员的经验和专业能力等问题,本发明实施例利用知识图谱可以识别关联风险,发现潜在的信贷风险,同时利用知识图谱来辅助识别风险,可以节约成本,大幅度摆脱严重依赖工作人员的经验和专业能力的限制;
2、在当下线上信贷业务需求爆发增长的背景下,信贷风险识别的难度大大增加,对风险识别的要求也越来越高,为了顺应互联网信贷业务的发展,本发明实施例提供了基于知识图谱的手段来分析和识别信贷风险,可以大大提高工作效率,满足互联网信贷的需求;
3、目前商业银行行业的知识图谱研究还处于起步阶段,并且大多数的工作都只关注知识图谱构建过程中的某一环节,缺少一套完整的知识图谱构建及应用的流程,本发明实施例提出了一套完整的商业银行领域知识图谱的构建及应用方案,具有重要的意义和有益的效果。
本申请的实施例还提供一种计算机设备,图7为本发明实施例中计算机设备的示意图,该计算机设备能够实现上述实施例中的银行信贷风险识别知识图谱构建方法中全部步骤,所述计算机设备具体包括如下内容:
处理器(processor)701、存储器(memory)702、通信接口(CommunicationsInterface)703和通信总线704;
其中,所述处理器701、存储器702、通信接口703通过所述通信总线704完成相互间的通信;所述通信接口703用于实现服务器端设备、检测设备以及用户端设备等相关设备之间的信息传输;
所述处理器701用于调用所述存储器702中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的银行信贷风险识别知识图谱构建方法中的全部步骤。
本发明实施例提出的计算机设备可以达到如下的有益效果:
1、由于传统的定性调研管理方法和量化评级风险模型在识别信贷风险时存在局限性、高成本、难以识别关联风险以及过于依赖工作人员的经验和专业能力等问题,本发明实施例利用知识图谱可以识别关联风险,发现潜在的信贷风险,同时利用知识图谱来辅助识别风险,可以节约成本,大幅度摆脱严重依赖工作人员的经验和专业能力的限制;
2、在当下线上信贷业务需求爆发增长的背景下,信贷风险识别的难度大大增加,对风险识别的要求也越来越高,为了顺应互联网信贷业务的发展,本发明实施例提供了基于知识图谱的手段来分析和识别信贷风险,可以大大提高工作效率,满足互联网信贷的需求;
3、目前商业银行行业的知识图谱研究还处于起步阶段,并且大多数的工作都只关注知识图谱构建过程中的某一环节,缺少一套完整的知识图谱构建及应用的流程,本发明实施例提出了一套完整的商业银行领域知识图谱的构建及应用方案,具有重要的意义和有益的效果。
本申请的实施例还提供一种计算机可读存储介质,能够实现上述实施例中的银行信贷风险识别知识图谱构建方法中全部步骤,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的银行信贷风险识别知识图谱构建方法的全部步骤。
本发明实施例提出的计算机可读存储介质可以达到如下的有益效果:
1、由于传统的定性调研管理方法和量化评级风险模型在识别信贷风险时存在局限性、高成本、难以识别关联风险以及过于依赖工作人员的经验和专业能力等问题,本发明实施例利用知识图谱可以识别关联风险,发现潜在的信贷风险,同时利用知识图谱来辅助识别风险,可以节约成本,大幅度摆脱严重依赖工作人员的经验和专业能力的限制;
2、在当下线上信贷业务需求爆发增长的背景下,信贷风险识别的难度大大增加,对风险识别的要求也越来越高,为了顺应互联网信贷业务的发展,本发明实施例提供了基于知识图谱的手段来分析和识别信贷风险,可以大大提高工作效率,满足互联网信贷的需求;
3、目前商业银行行业的知识图谱研究还处于起步阶段,并且大多数的工作都只关注知识图谱构建过程中的某一环节,缺少一套完整的知识图谱构建及应用的流程,本发明实施例提出了一套完整的商业银行领域知识图谱的构建及应用方案,具有重要的意义和有益的效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种银行信贷风险识别知识图谱构建方法,其特征在于,包括:
采集银行客户的信贷风险数据;
基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系;
将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的;
提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;
对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系;
基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。
2.如权利要求1所述的银行信贷风险识别知识图谱构建方法,其特征在于,所述信贷风险数据的类型包括结构化数据、半结构化数据和非结构化数据。
3.如权利要求1所述的银行信贷风险识别知识图谱构建方法,其特征在于,所述预先训练好的深度学习网络模型的训练步骤如下:
构建每个实体所属种类与序号的词典;
将信贷风险数据中的每个词语与词典中的序号进行对应,形成词语、种类、序号的对应关系;
将信贷风险数据中的每个词语转换为词向量;
以所述词向量为输入,以词语、种类、序号的对应关系为输出,训练深度学习网络模型,获得预先训练好的深度学习网络模型。
4.如权利要求3所述的银行信贷风险识别知识图谱构建方法,其特征在于,将信贷风险数据中的每个词语转换为向量,包括:
采用BERT方法来将信贷风险数据中的每个词语转换为one-hot词向量。
5.如权利要求4所述的银行信贷风险识别知识图谱构建方法,其特征在于,在采用BERT方法来将信贷风险数据中的每个词语转换为one-hot词向量之后,还包括:
采用word2vec方法来对one-hot词向量进行降维。
6.如权利要求1所述的银行信贷风险识别知识图谱构建方法,其特征在于,所述深度学习网络模型为LSTM-CRF神经网络模型。
7.如权利要求1所述的银行信贷风险识别知识图谱构建方法,其特征在于,对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,包括:
从多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系中提取上下文语义特征;
基于所述上下文语义特征进行信贷风险实体、信贷风险实体的属性和信贷风险关系的对齐,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系。
8.如权利要求1所述的银行信贷风险识别知识图谱构建方法,其特征在于,还包括:
将所述银行信贷风险识别知识图谱采用图数据库的结构进行存储。
9.如权利要求8所述的银行信贷风险识别知识图谱构建方法,其特征在于,所述图数据库包括Neo4j,OrientDb或Titan。
10.一种银行信贷风险识别知识图谱构建装置,其特征在于,包括:
数据采集模块,用于采集银行客户的信贷风险数据;
本体构建模块,用于基于所述信贷风险数据,构建信贷风险本体数据,定义实体、属性和关系;
信贷风险实体及属性确定模块,用于将信贷风险数据输入至预先训练好的深度学习网络模型中,获得多个信贷风险实体,确定每个信贷风险实体的属性,所述预先训练好的深度学习网络模型是以信贷风险数据为输入,以定义的实体为输出进行训练获得的;
信贷风险关系确定模块,用于提取信贷风险实体的属性之间的关系,基于定义的属性,确定多个信贷风险关系;
数据融合模块,用于对多个信贷风险实体、信贷风险实体的属性和多个信贷风险关系进行数据融合,获得数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系;
知识图谱构建模块,用于基于数据融合后的信贷风险实体、信贷风险实体的属性和信贷风险关系,构建银行信贷风险识别知识图谱。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至9任一项所述方法的计算机程序。
CN202110843161.7A 2021-07-26 2021-07-26 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 Pending CN113610626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843161.7A CN113610626A (zh) 2021-07-26 2021-07-26 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843161.7A CN113610626A (zh) 2021-07-26 2021-07-26 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113610626A true CN113610626A (zh) 2021-11-05

Family

ID=78338332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843161.7A Pending CN113610626A (zh) 2021-07-26 2021-07-26 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113610626A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282498A (zh) * 2021-12-29 2022-04-05 贵州电力交易中心有限责任公司 一种应用于电力交易的数据知识处理系统
CN116308754A (zh) * 2023-03-22 2023-06-23 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282498A (zh) * 2021-12-29 2022-04-05 贵州电力交易中心有限责任公司 一种应用于电力交易的数据知识处理系统
CN116308754A (zh) * 2023-03-22 2023-06-23 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法
CN116308754B (zh) * 2023-03-22 2024-02-13 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法

Similar Documents

Publication Publication Date Title
CN109684440A (zh) 基于层级标注的地址相似度度量方法
Xie et al. A novel text mining approach for scholar information extraction from web content in Chinese
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
Kaza et al. Evaluating ontology mapping techniques: An experiment in public safety information sharing
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN112100322A (zh) 一种基于知识图谱的api元素比较结果自动生成方法
Verma et al. A novel approach for text summarization using optimal combination of sentence scoring methods
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN117033571A (zh) 知识问答系统构建方法及系统
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
Konys et al. Ontology learning approaches to provide domain-specific knowledge base
Wang Computer and Information Sciences
Bella et al. ATLaS: A framework for traceability links recovery combining information retrieval and semi-supervised techniques
Rawat et al. Topic modelling of legal documents using NLP and bidirectional encoder representations from transformers
CN113946686A (zh) 电力营销知识图谱构建方法及系统
CN111126073B (zh) 语义检索方法和装置
Samosir et al. Identifying Requirements Association Based on Class Diagram Using Semantic Similarity
CN116383395A (zh) 一种水文模型领域知识图谱的构建方法
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
Li Feature and variability extraction from natural language software requirements specifications
Younas et al. An Artificial Intelligence Approach for Word Semantic Similarity Measure of Hindi Language.
Zhu et al. Construction of transformer substation fault knowledge graph based on a depth learning algorithm
Azeroual A text and data analytics approach to enrich the quality of unstructured research information
CN111859969B (zh) 数据分析方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination