CN112699249A

CN112699249A - 基于知识图谱的信息处理方法、装置、设备及存储介质

Info

Publication number: CN112699249A
Application number: CN202011638630.3A
Authority: CN
Inventors: 冯云青; 周骏; 李丽; 程思睿; 陈超峰; 金杨一叶
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-23
Anticipated expiration: 2040-12-31
Also published as: CN112699249B

Abstract

本说明书实施例提供了一种基于知识图谱的信息处理方法、装置、设备及存储介质，该方法包括：基于指定数据形成命名实体属性表和命名实体关系表；指定数据包括非结构化数据；根据命名实体属性表和命名实体关系表构建命名实体关系图谱；对命名实体关系图谱进行图表示学习，获得命名实体关系图谱中的风险节点及非风险节点的分布；对风险节点进行综合风险传导预测，获得风险节点的综合风险传导概率值；并对风险节点进行单一风险事件影响分析，以预测单一风险事件对风险源的指定度以内节点的影响程度值；将分布、综合风险传导概率值及影响程度值增加至命名实体关系图谱中。本说明书实施例可以提高命名实体的信息认知能力和风险识别能力。

Description

基于知识图谱的信息处理方法、装置、设备及存储介质

技术领域

本说明书涉及数据挖掘技术领域，尤其是涉及一种基于知识图谱的信息处理方法、装置、设备及存储介质。

背景技术

数据挖掘是一种决策支持过程，它主要基于人工智能(例如机器学习)、模式识别等技术，高度自动化地分析大量数据，以从中挖掘出潜在的有用的信息和知识。目前数据挖掘已广泛应用于生产控制、市场分析、工程设计、商务管理和科学探索等领域。

例如，对于企业(如金融机构等)而言，常利用可以用结构数据表述的数据挖掘业务风险(即进行风险预测)。在很多情况下，一些复杂的难以用表结构数据表述清楚的关系信息也可能会对业务风险产生影响。然而，由于这些关系信息难以被发现，在进行风险预测时往往被忽略，从而影响了企业的信息认知能力和风险识别能力。

发明内容

本说明书实施例的目的在于提供一种基于知识图谱的信息处理方法、装置、设备及存储介质，以提高命名实体的信息认知能力和风险识别能力。

为达到上述目的，一方面，本说明书实施例提供了一种基于知识图谱的信息处理方法，包括：

基于指定数据形成命名实体属性表和命名实体关系表；所述指定数据包括非结构化数据；

根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱；所述命名实体关系图谱中，节点表示命名实体，边表示命名实体之间的关联关系；

对所述命名实体关系图谱进行图表示学习，获得所述命名实体关系图谱中的风险节点及非风险节点的分布；

对所述风险节点进行综合风险传导预测，获得所述风险节点的综合风险传导概率值；并对所述风险节点进行单一风险事件影响分析，以预测所述单一风险事件对风险源的指定度以内节点的影响程度值；

将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中。

在本说明书一实施例中，所述基于指定数据形成命名实体属性表和命名实体关系表，包括：

从交易数据中提取命名实体的交易关系数据，并剔除所述交易关系数据中的脏数据；

利用预设的正则表达式及规则，从外部数据中提取命名实体标识信息；所述外部数据包括工商数据、征信数据和舆情数据；

利用预设的词嵌入模型，分别对所述交易关系数据及所述命名实体标识信息进行标准化，从而形成标准化的交易关系数据及命名实体标识信息；

利用预设的深度特征合成算法，将所述标准化的交易关系数据及命名实体标识信息进行特征合成，获得命名实体属性表和命名实体关系表。

在本说明书一实施例中，所述根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱，包括：

确定基于中文社群标准的本体结构；

从所述命名实体属性表和所述命名实体关系表中抽取命名实体数据；

将所述命名实体数据整合至所述本体结构中，获得命名实体关系图谱。

在本说明书一实施例中，所述对所述命名实体关系图谱进行图表示学习，包括:

利用预设的图嵌入算法对命名实体关系图谱进行节点嵌入处理，获得节点向量；

利用预设的降维算法对所述节点向量进行聚类，获得风险节点及非风险节点的分布。

在本说明书一实施例中，所述对所述风险节点进行综合风险传导预测，包括：

为命名实体关系图谱中每个节点所连的边赋予权重；

根据个性化网页排名算法模拟每个风险节点在命名实体关系图谱中的风险传导过程，以预测所述命名实体关系图谱中的风险节点发生风险后，对所述命名实体关系图谱中所有节点的综合风险影响，从而获得每个风险节点在其风险传导趋于稳态分布时的综合风险传导概率值。

在本说明书一实施例中，所述对所述风险节点进行单一风险事件影响分析，包括：

根据风险源发生的风险事件的评价指标值及所述风险源的指定度以内节点，构建节点与其关联的风险事件的二维稀疏矩阵；

根据矩阵分解算法对所述二维稀疏矩阵中的缺失值进行填补预测，从而获得单一风险事件对所述风险源的指定度以内节点的影响程度值。

在本说明书一实施例中，在所述将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中之后，还包括：

将接收到的以自然语言表达的提问文本转换为图查询语句；

根据所述图查询语句从命名实体关系图谱中查询答案并返回。

另一方面，本说明书实施例还提供了一种基于知识图谱的信息处理装置，包括：

属性关系获取模块，用于基于指定数据形成命名实体属性表和命名实体关系表；所述指定数据包括非结构化数据；

关系图谱构建模块，用于根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱；

图表示学习模块，用于对所述命名实体关系图谱进行图表示学习，获得该图谱中的风险节点及非风险节点的分布；

风险传导预测模块，用于对所述风险节点进行综合风险传导预测，获得所述风险节点的综合风险传导概率值；并对所述风险节点进行单一风险事件影响分析，以预测所述单一风险事件对风险源的指定度以内节点的影响程度值；

关系图谱更新模块，用于将所述综合风险传导概率值及所述分布及所述影响程度值增加至所述命名实体关系图谱中。

另一方面，本说明书实施例还提供了一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时，执行上述方法的指令。

另一方面，本说明书实施例还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器运行时，执行上述方法的指令。

由以上本说明书实施例提供的技术方案可见，在本说明书实施例中，可以基于包含结构化数据、非结构化数据(包括半结构化数据)等在内的指定数据，形成命名实体属性表和命名实体关系表，因此根据命名实体属性表和命名实体关系表构建出的命名实体关系图谱，可以更全面反映命名实体及其相互之间的关联关系，从而提高了命名实体(例如企业)的认识能力。不仅如此，本说明书实施例还可以对命名实体关系图谱进行图表示学习，获得其中的风险节点及非风险节点的分布，在此基础上还可以通过对风险节点进行综合风险传导预测和单一风险事件影响分析，对应获得风险节点的综合风险传导概率值，以及单一风险事件对风险源的指定度以内节点的影响程度值，然后将上述的分布及综合风险传导概率值及影响程度值增加至命名实体关系图谱，从而使得命名实体关系图谱不仅包含了命名实体的属性画像特征和关联关系画像特征，还包含了命名实体的更为全面的风险画像特征，从而提高了命名实体(例如企业)的风险识别能力。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本说明书一些实施例中基于知识图谱的信息处理方法的流程图；

图2示出了本说明书一实施例中构建出的命名实体关系图谱的示意图；

图3示出了本说明书一实施例中基于图表示学习获得的风险节点及非风险节点的分布示意图；

图4示出了本说明书一实施例中对风险节点进行单一风险事件影响分析的示意图；

图5示出了本说明书一实施例中风险节点A的风险传导过程示意图；

图6示出了本说明书一实施例中将提问文本转换为图查询语句的示意图；

图7示出了本说明书一实施例基于知识图谱的信息装置的结构框图；

图8示出了根据本说明书实施例计算机设备的结构框图。

【附图标记说明】

70、属性关系获取模块；

71、关系图谱构建模块；

72、图表示学习模块；

73、风险传导预测模块；

74、关系图谱更新模块；

802、计算机设备；

804、处理器；

806、存储器；

808、驱动机构；

810、输入/输出模块；

812、输入设备；

814、输出设备；

816、呈现设备；

818、图形用户接口；

820、网络接口；

822、通信链路；

824、通信总线。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书实施例的基于知识图谱的信息处理方法可以应用于服务端。在本说明书一实施例中，所述服务端可以为具有运算和网络交互功能的计算机设备；也可以为运行于该计算机设备中，为数据处理和网络交互提供业务逻辑的软体。

参考图1所示，在本说明书一些实施例中，基于知识图谱的信息处理方法可以包括以下步骤：

S101、基于指定数据形成命名实体属性表和命名实体关系表；所述指定数据包括非结构化数据。

S102、根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱；所述命名实体关系图谱中，节点表示命名实体，边表示命名实体之间的关联关系。

S103、对所述命名实体关系图谱进行图表示学习，获得所述命名实体关系图谱中的风险节点及非风险节点的分布。

S104、对所述风险节点进行综合风险传导预测，获得所述风险节点的综合风险传导概率值；并对风险节点进行单一风险事件影响分析，以预测单一风险事件对风险源的指定度以内节点的影响程度值；

S105、将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中。

在本说明书实施例中，可以基于包含结构化数据、非结构化数据(包括半结构化数据)等在内的指定数据，形成命名实体属性表和命名实体关系表，因此根据命名实体属性表和命名实体关系表构建出的命名实体关系图谱，可以更全面反映命名实体及其相互之间的关联关系，从而提高了命名实体(例如企业)的认识能力。不仅如此，本说明书实施例还可以对命名实体关系图谱进行图表示学习，获得其中的风险节点及非风险节点的分布，在此基础上还可以通过对风险节点进行综合风险传导预测和单一风险事件影响分析，对应获得风险节点的综合风险传导概率值，以及单一风险事件对风险源的指定度以内节点的影响程度值，然后将上述的分布及综合风险传导概率值及影响程度值增加至命名实体关系图谱，从而使得命名实体关系图谱不仅包含了命名实体的属性画像特征和关联关系画像特征，还包含了命名实体的更为全面的风险画像特征，从而提高了命名实体(例如企业)的风险识别能力。

在本说明书的实施例中，命名实体(Named Entity)是指具有特定意义的实体。例如，在一示例性实施例中，命名实体可以包括人名、地名、机构名、数字、日期、货币、地址等所有以名称为标识的实体。

本说明书的实施例中，指定数据可以包括命名实体的结构化数据(例如交易数据)、半结构化数据和非结构化数据。例如，在本说明书一实施例中，指定数据可以包括内部数据(例如交易数据等)和外部数据。其中，外部数据可以包括工商数据(例如名称、组织机构代码、税务登记证、统一社会信用代码、营业场所(地址)等)、征信数据(例如企业信用信息、个人信用信息等)和舆情数据。其中，舆情数据即是指舆论情况数据，具体而言是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，作为主体的公众对作为客体的企业、个人及其他各类组织及其政治、社会、道德等形象方面的取向产生和持有的社会态度。

在本说明书的实施例中，通过指定数据形成命名实体属性表和命名实体关系表，实现了将与命名实体有关的结构化数据和非结构化数据(包括半结构化数据)进行整合，从而有利于后续构建出更加精确的命名实体关系图谱。

在本说明书一些实施例中，所述基于指定数据形成命名实体属性表和命名实体关系表，可以包括以下：

1)、从交易数据(即历史交易数据)中提取命名实体的交易关系数据，并剔除所述交易关系数据中的脏数据。

交易数据例如可以包括但不限于货币资金借款、外汇买卖、有价证券交易等的交易数据。从这些历史交易数据可以提取出命名实体的交易关系数据。例如A银行向B企业借款100万，则A银行和B企业这两个命名实体之间就存在借贷关系。由于交易数据的数据量庞大，为了降低实现成本，在实际实施时可以根据需要从中选择一部分数据。例如，在一示例性实施例中，可以设置时间窗口(例如最近6个月、最近一年、最近3年等等)，以根据时间窗口选取一部分交易数据进行处理。

交易数据中一般会包含脏数据，而脏数据通常会对数据挖掘产生负面影响，因此需要将其剔除。其中，脏数据可以包括重复数据值、数值异常大的数据、数值异常小的数据、缺失和/或不完整的数据等。例如，在本说明书一实施例中，可以基于高斯混合模型和具有噪声的基于密度的聚类方法(Hierarchical Density-Based Spatial Clustering ofApplications with Noise，HDBSCAN)聚类算法等，对选取的交易数据进行数据清洗，以剔除其中的脏数据。

2)、利用预设的正则表达式及规则，从外部数据中提取命名实体标识信息。

相对于内部数据，外部数据可能包含了更多的非结构化数据(包括半结构化数据)，为了能够从中提取所需的文本信息。可以预先定义正则表达式及抽取规则，然后根据正则表达式及抽取规则，从外部数据中自动识别并抽取出任意指定的文本(例如命名实体标识信息等)。例如，在本说明书一实施例中，可以通过正则表达式+Shell命令快速抽取所需要的命名实体标识信息(例如身份证号码、组织机构代码、税务登记证、统一社会信用代码等)。

3)、利用预设的词嵌入(Word Embedding)模型，分别对所述交易关系数据及所述命名实体标识信息进行标准化，从而形成标准化的交易关系数据及命名实体标识信息。

考虑到存储信息标准差异等因素，内部数据和外部数据之间可能不匹配，因此，可以利用预设的词嵌入模型分别对交易关系数据及名实体标识信息进行标准化(即向量化)，从而形成标准化的交易关系数据及命名实体标识信息。如此，有利于增强匹配的有效性。在本说明书一实施例中，预设的词嵌入模型例如可以为Word2Vector或Sequence2Vector等。

4)、利用预设的深度特征合成(Deep Feature Synthesis，DFS)算法(也可以采用其他任何合适的特征合成算法)，将所述标准化的交易关系数据及命名实体标识信息进行特征合成，获得命名实体属性表和命名实体关系表。

通过特征合成可以在交易关系数据和命名实体标识信息的基础上，挖掘或衍生出更多的特征数据(例如多层隐性交易关系、复杂隐性集团关系、多层隐性担保关系、隐性法人控制关系、复杂隐性高管任职关系、多层隐性投资关系，以及复杂企业客户资金流向、公司客户供应链上下游关系和非合规担保圈发现等等)。在此基础上，就可以利用聚类分析等数据处理技术，从这些数据中分别整理出命名实体的属性数据及相互之间的关联关系，从而形成命名实体属性表和命名实体关系表。

本说明书实施例中的命名实体属性表也可以称为节点表，其主要用于描述命名实体的属性信息。在本说明书一实施例中，属性信息例如可以包括但不限于命名实体的各类标识信息、经营信息、行业信息、舆情信息等。

本说明书实施例中的命名实体关系表也可以称为边表，其主要用于描述命名实体之间的关联关系信息。在本说明书一实施例中，关联关系信息例如可以包括但不限于命名实体的交易关系、对外投资关系、法人关系、任职关系、担保关系、股东关系等。

在本说明书一些实施例中，所述根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱，可以包括以下步骤：

1)、确定基于中文社群标准的本体结构。

在本说明书的实施例中，可以根据需要自定义本体结构。其中，本体结构可以理解为知识图谱模板；在本体结构中，节点为命名实体属性模板，边为命名实体之间的关联关系模板。为了提高所要构建的命名实体关系图谱的规范性和通用性，在本说明书一实施例中，可以基于中文社群标准(CnSchema)自定义名为企业关联关系(Corp_Relation_Schema)的本体结构。具体而言，CnSchema的上位本体概念中的Cns_Top、Cns_Struct以及Cns_Organization是已有的行业标准，在本说明书的实施例中可以引用和继承这个标准，从而形成企业关联关系(Corp_Relation_Schema)的本体结构。其中，Cns_Top为CnSchema的顶层实体分类概念体系，主要定义了事物(Thing)的顶层概念体系。Cns_struct主要用于定义常用的命名实体分类、属性、命名实体属性模版。Cns_organization针对中国企业的工商行政管理信息给出了基础数据模型。Cns_organization是以组织机构为中心，通过股东、法人、高管等关系关联到相关的组织机构和自然人，从而完整支持了工商总局企业注册信息，并且还支持了股权变更事件以及公司信息变更事件的记录。

2)、从所述命名实体属性表和所述命名实体关系表中抽取命名实体数据。

在确定了基于中文社群标准的本体结构后，可以从所述命名实体属性表和所述命名实体关系表中抽取命名实体数据(例如命名实体属性数据、命名实体关系数据)，以用于填充至自定义的本体结构中。

3)、将所述命名实体数据整合至所述本体结构中，获得命名实体关系图谱。

在本说明书一实施例中，可以从命名实体属性表中抽取命名实体标识信息，并将其添加至本体结构的节点中，然后从命名实体属性表中抽取命名实体属性数据，并添加至对应的节点中。在完成本体结构中每个节点的标识及属性赋值后，可以从命名实体关系表中抽取命名实体关系数据，并添加至对应的边中。如此，就形成了包含命名实体属性和命名实体关系的命名实体关系图谱。

如图2所示，在一示例性实施例中，构建出的命名实体关系图谱可以如图2所示。在图2中，包含有节点A、节点B、节点C、节点D、节点E、节点F、节点G、节点H、节点I、节点J和节点K，共11个节点(这里仅为了形象地示例性说明，在实际实施时，构建出的命名实体关系图谱要复杂的多)。其中，任意两个节点之间的连线即为反应这两个节点之间关联关系的边。例如，在节点B和节点G之间有连线，这表明节点B和节点G之间存在某个或某些直接的关联关系。而在节点A和节点E之间无连线，这表明节点A和节点E之间不存在直接的关联关系。

本领域技术人员可以理解，图2中所示的命名实体关系图谱仅为了示例性说明。在本说明书另一实施例中，命名实体关系图谱中一条边也可以仅表示节点之间的一种关系，在此情况下，当两个节点之间存在多种直接的关联关系时，可以通过连接这两个节点的多条边来表示它们之间的多种直接的关联关系。在本说明书其他的实施例中，命名实体关系图谱中的边还可以是有向边，以便于更精准刻画节点之间的关联关系。相应的，在此情况下，命名实体关系图谱也就变成了一种有向图。

在本说明书的实施例中，通过对所述命名实体关系图谱进行图表示学习，可以获得所述命名实体关系图谱中的风险节点及非风险节点的分布，以便于后续进行风险传导分析。

在本说明书一些实施例中，所述对所述命名实体关系图谱进行图表示学习可以包括:以下步骤：

1)、利用预设的图嵌入算法对命名实体关系图谱进行节点嵌入处理，获得节点向量。

利用预设的图嵌入算法对命名实体关系图谱进行节点嵌入处理，是为了对命名实体关系图谱进行节点采样(即获得节点向量)。在本说明书一实施例中，预设的图嵌入算法可以为node2vec、deepwalk或structure2vec等。

例如，以node2vec为例，可以采用node2vec中的Alias采样算法对命名实体关系图谱进行节点采样，以完成节点图嵌入的计算，从而在一定程度上集成了每个风险节点的相邻节点的风险信息和结构隐含信息。

2)、利用预设的降维算法对所述节点向量进行聚类，获得风险节点及非风险节点的分布。因此，通过对所述命名实体关系图谱进行图表示学习，可以将命名实体关系图谱中的高纬拓扑结构特征映射为二维特征(即风险节点和非风险节点)，从而清晰刻画不同命名实体(这里指风险节点和非风险节点)在群体中的分布。

例如，在本说明书一实施例中，可以利用LargeVis算法对所述节点向量进行聚类，并还可以展示嵌入后的节点聚类效果。例如，图3所示的示例性实施例中示出了节点向量的聚类结果；在图3中，黑色的圆表示风险节点，白色圆表示非风险节点。

为了识别命名实体关系图谱中单一风险事件的风险源确定，以及单一风险事件对风险源的指定度以内节点的影响程度值，可以对命名实体关系图谱中各个风险节点进行单一风险事件影响分析。其中，风险源为风险节点之一。其中，指定度可以根据业务需求并考虑计算量确定。较佳的，对于多数应用场景而言，指定度以内节点可以为三度以内的节点。在本说明书中，指定度以内节点可以是指：距离风险源为指定跳数以内的节点。例如，在图2中，从B节点到F节点，要经过BG、GH和HF三跳，则G节点、H节点和F节点均为B节点三度以内的节点(这里以其中一条传播路径为例进行说明)。

在本说明书一些实施例中，所述对所述风险节点进行单一风险事件影响分析可以包括如下步骤：

(1)、根据风险源发生的风险事件的评价指标值及所述风险源的指定度以内节点，构建节点与其关联的风险事件的二维稀疏矩阵。例如，在本说明书一实施例中，二维稀疏矩阵的行维度为多个节点，列维度为多件舆情风险事件，则矩阵中的元素A_i，j代表单一舆情风险事件j对节点i的直接风险影响(即风险源发生的风险事件的评价指标值(例如风险评分等))；若无，则元素取值为空。

例如，在如图4所示的实施例中，首先构建了基于企业和舆情风险事件的二维稀疏矩阵(即图4中的初始矩阵A)，初始矩阵A中的行维度为m个企业，初始矩阵A中的列维度为n件舆情风险事件。在初始矩阵A中，除有初始评分的位置(即图4中标有对号的位置)非空外，其余位置取值均为空，该初始评分刻画了单一舆情事件对所关联企业的影响程度，初始评分越大，企业受到该单一舆情事件的风险影响程度越高。

(2)、根据矩阵分解算法对所述二维稀疏矩阵中的缺失值进行填补预测，从而获得单一风险事件对所述风险源的指定度以内节点的影响程度值。此外，还可以通过设置阈值筛选单一事件中重点受影响节点。

为便于理解，首先对矩阵分解(Matrix Decomposition)算法进行简要说明。矩阵分解技术一般应用于商品推荐领域，方法就是把原来构建的大矩阵，近似的分解成小矩阵的乘积，在实际推荐计算时不再使用大矩阵，而是使用分解得到的两个小矩阵。具体来说就是，假设用户的评分矩阵X为m乘n维的大矩阵，即一共有m个用户和n件物品，通过一套算法转化为两个矩阵U(m*k维)和V(k*n维)的乘积，算法包括特征值分解、奇异值分解(SVD)、考虑偏置的SVD++等，转化过程中需要矩阵X和矩阵U、V乘积的对应元素误差达到最小。

结合图4所示，考虑到实际情况中单个企业可能受多个舆情风险事件的影响，企业舆情风险事件的数量可能远大于企业的数量，所构建的初始矩阵A并非方阵，所以在本说明书的实施例中使用了奇异值分解SVD算法进行矩阵分解，分解的过程与传统机器学习寻参过程相同，通过初始化分解后的两个矩阵U和V的元素值，将A中实际值与近似矩阵UV中的预测值的误差作为损失函数，按照梯度下降的方向不断更新矩阵U和矩阵V中的元素，最终得到的矩阵U的行维度m包含了所有的企业，列维度k则代表了企业的某些风险特征；矩阵V的行维度k代表了企业舆情风险事件的某些风险特征，列维度n包含了所有的舆情风险事件。矩阵U和矩阵V的乘积将会是一个满秩矩阵，矩阵的所有元素非空，从而实现了对初始矩阵A中缺失值元素的填补，达到预测单一舆情风险事件对非直接关联企业的风险影响程度预测分析。

为了识别命名实体关系图谱中各风险节点的风险蔓延对综合风险影响，从而提高对风险节点的风险识别能力，可以对命名实体关系图谱中各个风险节点进行综合风险传导预测。

在本说明书一些实施例中，所述对所述风险节点进行综合风险传导预测可以包括如下步骤：

1)、为命名实体关系图谱中每个节点所连的边赋予权重。

对于同一个风险源A(即某个风险节点A)的相邻节点而言，当这些相邻节点与风险源A的关联关系不同(不同的关联关系含有不同的业务含义)时，风险源A对这些相邻节点的风险影响一般是不同的。因此，为了提高综合风险传导预测的准确性，可以根据关联关系等因素，为命名实体关系图谱中每个节点所连的边赋予权重，即为命名实体关系图谱中的每个关联关系设置综合风险传导权重。

例如，在一示例性实施例中，一个命名实体关系图谱中，关联关系的综合风险传导权重可以设置如下：

Weight＝3*E_法人+2*E_实控+3*E_集团+3*E_任职+2*E_担保+W_交易+W_股东+W_投资

其中，E_法人为法人关系风险传导权重，E_实控为实际控制人关系风险传导权重，E_集团为集团关系风险传导权重，E_任职为任职人关系风险传导权重，E_担保为担保人关系风险传导权重，W_交易为交易关系风险传导权重，W_股东为股东关系风险传导权重，W_投资为投资人风险传导权重，Weight为风险源的综合风险传导权重。

传统传播算法风险的转移及迭代计算以转移概率矩阵为基础。在本说明书实施例中，考虑到风险业务场景下的风险转移，选择以不同关系类型赋予不同权重的方式进行边的权重加权计算风险转移值，更符合马尔科夫链的逻辑，在该问题下精确度也更高。

2)、根据个性化网页排名(Personalized PageRank，PPR)算法模拟每个风险节点在命名实体关系图谱中的风险传导过程，以预测所述命名实体关系图谱中的风险节点发生风险后，对所述命名实体关系图谱中所有节点的综合风险影响，从而获得每个风险节点在其风险传导趋于稳态分布时的综合风险传导概率值。为便于理解，先对网页排名(PageRank)算法和Personalized PageRank进行简要说明。

PageRank算法是用于计算Web中网页的权威值(或重要性)。PageRank算法认为一个网页的权威值可以通过网络的链接结构来传递，在Web的链接图中，如果存在一个页面q指向另一个页面p的链接，则表明q对p的认可(vote)，即q将自己的权威值部分传递给了p。因此，一方面，指向一个页面p的页面越多，则该页面得到的权威值越高；另一方面，指向页面p的页面，如自身的权威值越高，则p得到的权威值也越高。基于以上递归定义的标准，Page提出运用随机行走模型(Random Walk Model)来计算Web页面的权威值。随机行走模型是指：一个人在网络上浏览网页，每看过一个网页之后就会随机点击网页上的链接访问新的网页。如果当前这个人浏览的网页x已经确定，那么网页x上每个链接被点击的概率也是确定的。在这种条件下，这个人点击了无限多次链接后，恰好停留在每个网页上的概率值是可以计算得到的。随机行走模型一个显著的特点为：每一次迭代的结果只与前一次有关，与更早的结果完全无关，这种过程又被称为马尔可夫过程(Markov Process)或马尔可夫链(Markov Chain)。

Personalized PageRank算法继承了上述PageRank算法的思想，利用数据模型(图)链接结构来递归地计算各节点的权重，即模拟用户通过点击链接随机访问图中节点的行为(随机行走模型))算稳态分布下各节点得到的随机访问概率。Personalized PageRank与PageRank的最大区别在于随机行走中的跳转行为。为了保证随机行走中各节点的访问概率能够反映出用户的偏好，Personalized PageRank算法要求在随机行走中的每次跳转不可随机选择到任意节点，用户只能跳转到一些特定的节点，即代表用户偏好的那些节点。因此，在稳定状态下，用户所偏好的那些节点和相关的节点总能够获得较高的访问概率。在本说明书一些实施例中，对于命名实体关系图谱中的每个风险节点而言，基于全图(即整个命名实体关系图谱)节点所连边的权重，可以利用Personalized PageRank算法迭代计算汇聚图谱中所有风险节点的综合风险传导概率值，并据此不断迭代更新自身的综合风险传导概率值。而在不断迭代过程中，图谱中所有风险节点的综合风险传导概率值将趋于一个稳态分布，从而实现了对图谱中所有风险节点的综合风险传导过程模拟。

上述的综合风险传导概率值反映了风险节点受命名实体关系图谱中其他节点的综合风险影响大小；风险传导概率值越大，表明在全网络综合风险传播影响下，节点受到的风险影响越大，反之亦然。对于全网络综合风险传播后的每个节点，通过将其在稳态分布下的风险传导概率值与预设的概率阈值进行比较，可以确定该节点受到综合风险传播的影响，并确定其是否因受风险影响而变为新的风险节点。

鉴于Personalized Pagerank算法作为无监督类模型，无法直观衡量模型传播效果。在本说明书一实施例中，还可以结合图嵌入算法和降维可视化算法(例如node2vec算法+LargeVis算法等)对预测结果进行降维可视化处理，从而动态展示综合风险蔓延直至收敛的整个过程。例如，在图5所示的示例性实施例中示出了风险节点A的风险传导过程。在图5中，业务风险由风险节点A开始蔓延至节点C和节点K，又由节点C和节点K分别对应蔓延至节点I和节点J后收敛(即达到了稳态分布)。在本说明书一些实施例中，将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中是指：给每个节点对应增加风险源、风险属性(或非风险属性)，并给每个边增加对应的综合风险传导概率值属性。如此，使得命名实体关系图谱不仅包含了命名实体的属性画像特征和关联关系画像特征，还包含了命名实体的风险画像特征，从而提高了命名实体(例如企业)的风险识别能力。

在本说明书一些实施例中，在所述将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中之后，还可以提供基于命名实体关系图谱的应用服务。以下举例说明。

在本说明书一些实施例中，在将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中之后，当接收到用户可通过客户端发起的，以自然语言表达的提问文本时，可以将其转换为图查询语句，然后根据所述图查询语句从命名实体关系图谱中查询答案并返回。

在本说明书一实施例中，问答服务可以遵循Rest架构规范的应用编程接口(RestApplication Programming Interface，RestAPI)的形式提供调用。此外，结合前端服务框架，还可以自定义不同等级命名实体(例如风险客户)的可视化颜色及风险动态传播路径，实现问答结果的可视化展示。

在本说明书一实施例中，上述查询可以包括节点属性查询、边属性查询(即关联关系查询)以及路径查询(即风险传导路径查询)等。在本说明书一实施例中，节点属性可以区分为企业节点属性、自然人节点属性等；边属性可以区分为投资属性、法人属性、任职属性、股东属性、实际控制人属性、交易属性、集团属性、担保属性等；涉及到的重要字段例如包括:节点名称、客户标识、风险评分(即综合风险传导概率值)、风险源、担保金额、交易金额等。

针对命名实体关系图谱的查询是一种图数据查询，其与以往针对表结构数据查询是不一样的。对于对表数据查询，一般可以通过结构化查询语言(Structured QueryLanguage，SQL)查询语句完成。而对于图数据查询可以通过图查询语句(比如Cypher查询语句等)来完成。然而，但在实际运用过程中，用户学习掌握一门图查询语言(如Cypher等)需要有一定的技术门槛，这不利于应用的推广。因此，在本说明书一实施例中，为了降低图谱查询的技术难度，并利于应用的推广使用，可以允许用户通过客户端发起以自然语言表达的提问文本(例如“XX企业的投资关系有哪些”)，然后可以采用自然语言处理技术将这种提问文本转换成Cypher查询语句，然后根据Cypher查询语句对命名实体关系图谱进行数据查询，并返回查询结构。

结合图6所示，在本说明书一实施例中，将接收到的以自然语言表达的提问文本转换为图查询语句的过程可以包括如下步骤：

1)、文本规范化。

可以利用正则表达式及条件随机场(conditional random field，CRF)等算法，对输入的自然语句(例如图6中的“XX集团的法人是谁”)进行格式统一，从而转换成标准文本。其中，格式统一可以包括全半角转换、无意义字符去除、数值规范化等。

2)、意图识别

可以使用深度学习模型及槽位解析等方法进行意图识别(即问题匹配)，以确定标准文本对应问题的类型，从而确定相应的自然语言解析方式。其中，深度学习模型例如可以为卷积神经网络(Convolutional Neural Networks，CNN)+Softmax分类模型等。例如在图6所示的示例性实施例中，通过对“XX集团的法人是谁”进行意图识别，可以确定问题类型为：确定法人关系。

3)、自然语言解析

在确定标准文本对应问题的类型后，可以根据问题类型对命名实体关系图谱进行

命名实体识别(Named Entity Recognition，NER)。例如在图6所示的示例性实施例中，通过对命名实体关系图谱进行识别，可以从中识别并抽取出“XX集团(企业)”这个命名实体。在此基础上，通过“企业→法人→人”的图结构映射，可以生成“XX→法人→人”的问答结构。在进行命名实体抽取时，可以采用双向循环神经网络(Bi-directional LongShort-Term Memory，BiLSTM)+CRF模型等方式实现。

4)、Cypher语句生成

在生成问答结构后，可以通过Cypherbuilder的语法组装器对问答结构的每一部分进行组装，从而可以生成可实时查询的图查询Cypher语句。例如在图6所示的示例性实施例中，可以将“XX→法人→人”的问答结构组装成如下的图查询Cypher语句：

MATCH p＝(n1)<-[r:Faren]-(n{nodetype:"个人"})

WHERE

n1.nodename＝～'.XX.*'

RETURN p

LIMIT 2000

应当理解的是，以上采用Cypher语言实现图查询仅是示例性举例说明，在本说明书其他的实施例中，根据需要也可以采用其他的图查询语言(例如Gremlin和SPARQL(SPARQL Protocol and RDF Query Language)等)实现。

在本说明书一些实施例中，在所述将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中之后，当接收到用户通过客户端发起的，针对命名实体关系图谱的展示请求时，还可以三维展示所述命名实体关系图谱。

例如，在本说明书一实施例中，可以采用Web 3D技术(例如WebGL中的ThreeJS)实现图谱3D效果展示。在本说明书另一实施例中，还可以采用完全四叉树算法，并配合Websocket技术实现大规模复杂图数据展示。在本说明书又一实施例中，还可以通过社区发现、拓扑算法、聚类算法、标签传播或3D力布局等算法，实现3D可视化布局，以充分展现命名实体关系图谱的数据特征。

对于命名实体关系图谱中的每个节点而言，其综合风险传导概率值仅能反映该节点在全网所受的综合风险影响，而将综合风险传导概率值与单一风险事件对风险源的指定度以内节点的影响程度值相结合，则不仅可以获知该节点在全网所受的综合风险，还可以进一步获知该综合风险是由哪些风险源和哪些风险事件造成的，以及各风险事件对该节点的影响程度。在本说明书一实施例中，上述客户端的可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中，智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然，所述客户端并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软体。

与上述基于知识图谱的信息处理方法对应，本说明书实施例还提供了基于知识图谱的信息处理装置。参考图7所示，在本说明书一些实施例中，所述基于知识图谱的信息处理装置可以包括：

属性关系获取模块70，可以用于基于指定数据形成命名实体属性表和命名实体关系表；所述指定数据包括非结构化数据；

关系图谱构建模块71，可以用于根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱；

图表示学习模块72，可以用于对所述命名实体关系图谱进行图表示学习，获得该图谱中的风险节点及非风险节点的分布；

风险传导预测模块73，可以用于对所述风险节点进行综合风险传导预测，获得所述风险节点的综合风险传导概率值；并对风险节点进行单一风险事件影响分析，以预测单一风险事件对风险源的指定度以内节点的影响程度值；

关系图谱更新模块74，可以用于将所述综合风险传导概率值及所述分布及所述影响程度值增加至所述命名实体关系图谱中。

在本说明书一实施例中，所述基于指定数据形成命名实体属性表和命名实体关系表，可以包括：

在本说明书一实施例中，所述根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱，可以包括：

确定基于中文社群标准的本体结构；

在本说明书一实施例中，所述对所述命名实体关系图谱进行图表示学习，可以包括:

在本说明书一实施例中，所述对所述风险节点进行综合风险传导预测，可以包括：

为命名实体关系图谱中每个节点所连的边赋予权重；

在本说明书一实施例中，所述对所述风险节点进行单一风险事件影响分析，可以包括：

在本说明书一实施例中，所述基于知识图谱的信息处理装置还可以包括：

图查询服务模块，其可以用于将接收到的以自然语言表达的提问文本转换为图查询语句；根据所述图查询语句从命名实体关系图谱中查询答案并返回。

三维展示模块，其可以用于当接收到针对命名实体关系图谱的展示请求时，三维展示所述命名实体关系图谱。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

虽然上文描述的过程流程包括以特定顺序出现的多个操作，但是，应当清楚了解，这些过程可以包括更多或更少的操作，这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

在本说明书一些实施例中还提供一种计算机设备802。如图8所示，所述计算机设备802可以包括一个或多个处理器804，诸如一个或多个中央处理单元(CPU)或图形处理器(GPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备802还可以包括任何存储器806，其用于存储诸如代码、设置、数据等之类的任何种类的信息，一具体实施方式中，存储器806上并可在处理器804上运行的计算机程序，所述计算机程序被所述处理器804运行时，可以执行根据上述方法的指令。非限制性的，比如，存储器806可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备802的固定或可移除部件。在一种情况下，当处理器804执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备802可以执行相关联指令的任一操作。计算机设备802还包括用于与任何存储器交互的一个或多个驱动机构808，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备802还可以包括输入/输出模块810(I/O)，其用于接收各种输入(经由输入设备812)和用于提供各种输出(经由输出设备814)。一个具体输出机构可以包括呈现设备816和相关联的图形用户接口818(GUI)。在其他实施例中，还可以不包括输入/输出模块810(I/O)、输入设备812以及输出设备814，仅作为网络中的一台计算机设备。计算机设备802还可以包括一个或多个网络接口820，其用于经由一个或多个通信链路822与其他设备交换数据。一个或多个通信总线824将上文所描述的部件耦合在一起。

通信链路822可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路822可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器，使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理器上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算机设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于知识图谱的信息处理方法，其特征在于，包括：

2.如权利要求1所述的基于知识图谱的信息处理方法，其特征在于，所述基于指定数据形成命名实体属性表和命名实体关系表，包括：

3.如权利要求1所述的基于知识图谱的信息处理方法，其特征在于，所述根据所述命名实体属性表和所述命名实体关系表构建命名实体关系图谱，包括：

确定基于中文社群标准的本体结构；

4.如权利要求1所述的基于知识图谱的信息处理方法，其特征在于，所述对所述命名实体关系图谱进行图表示学习，包括:

5.如权利要求1所述的基于知识图谱的信息处理方法，其特征在于，所述对所述风险节点进行综合风险传导预测，包括：

为命名实体关系图谱中每个节点所连的边赋予权重；

6.如权利要求1所述的基于知识图谱的信息处理方法，其特征在于，所述对所述风险节点进行单一风险事件影响分析，包括：

7.如权利要求1所述的基于知识图谱的信息处理方法，其特征在于，在所述将所述分布、所述综合风险传导概率值及所述影响程度值增加至所述命名实体关系图谱中之后，还包括：

将接收到的以自然语言表达的提问文本转换为图查询语句；

8.一种基于知识图谱的信息处理装置，其特征在于，包括：

风险传导预测模块，用于对所述风险节点进行综合风险传导预测，获得所述风险节点的综合风险传导概率值；并对每个所述风险节点进行单一风险事件影响分析，以预测所述单一风险事件对该风险节点的指定度以内节点的影响程度值；

9.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。