CN113836244B

CN113836244B - 样本获取方法、模型训练方法、关系预测方法及装置

Info

Publication number: CN113836244B
Application number: CN202111132807.7A
Authority: CN
Inventors: 张雷; 刘静蕾; 张莹莹; 连代星; 庞德智; 王顺利; 程仕湘; 李胜男; 尹洋标; 袁东
Original assignee: Tianhong Asset Management Co ltd
Current assignee: Tianhong Asset Management Co ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-04-07
Anticipated expiration: 2041-09-27
Also published as: CN113836244A

Abstract

本申请提供一种样本获取方法、模型训练方法、关系预测方法及装置，涉及计算机技术领域。该方法通过获取关系知识图谱，然后从关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体，获取每个第一类实体对的联合重要度，然后将初始采样概率与联合重要度相乘，得到每个第一类实体对的采样概率，再根据全部第一类实体对的采样概率对多个第一类实体对进行采样，得到作为负样本的实体对，这样可从所有的第一类实体对中按照采样概率采样部分的第一类实体对作为模型训练的负样本，可有效减少模型训练的数据量，减少服务器硬件资源的占用，提高服务器性能，进而提高模型训练效率。

Description

样本获取方法、模型训练方法、关系预测方法及装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种样本获取方法、模型训练方法、关系预测方法及装置。

背景技术

知识图谱是一种特殊的图类型的数据结构，其中，每个节点是一种实体，边代表实体之间的一种关系，在利用知识图谱进行数据分析时，如利用知识图谱中的信息进行隐藏关系的预测，预测的方式一般是采用神经网络模型进行预测。

在对神经网络模型进行训练的过程中，需要采集大量的数据，现有的方式是直接将所有的知识图谱的数据均输入模型进行训练，而由于知识图谱的数据量庞大，这样在训练模型时，需要耗费服务器大量的硬件资源，从而影响服务器性能，使得模型训练效率不高。

发明内容

本申请实施例的目的在于提供一种样本获取方法、模型训练方法、关系预测方法及装置，用以改善现有技术中将所有的数据输入模型进行训练，而耗费服务器大量的硬件资源，影响服务器性能，使得模型训练效率不高的问题。

第一方面，本申请实施例提供了一种样本获取方法，所述方法包括：

获取关系知识图谱，所述关系知识图谱包括多个实体以及多个实体之间的关系；

根据实体间的关系从所述关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体；

根据每个第一类实体对中两个实体在所述关系知识图谱中的重要度计算第一类实体对的联合重要度；

将初始采样概率与所述联合重要度相乘，得到每个第一类实体对的采样概率；

根据全部第一类实体对的采样概率对所述多个第一类实体对进行采样，得到作为负样本的实体对。

在上述实现过程中，通过获取关系知识图谱，然后从关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体，获取每个第一类实体对的联合重要度，然后将初始采样概率与联合重要度相乘，得到每个第一类实体对的采样概率，再根据全部第一类实体对的采样概率对多个第一类实体对进行采样，得到作为负样本的实体对，这样可从所有的第一类实体对中按照采样概率采样部分的第一类实体对作为模型训练的负样本，可有效减少模型训练的数据量，减少服务器硬件资源的占用，提高服务器性能，进而提高模型训练效率。

可选地，所述根据每个第一类实体对中两个实体在所述关系知识图谱中的重要度计算第一类实体对的联合重要度，包括：

获取每个第一类实体对中每个实体在所述关系知识图谱中的度和/或集聚系数，所述度和/或集聚系数表征实体在所述关系知识图谱中的重要度；

根据每个第一类实体对中每个实体的度和/或集聚系数计算获得每个第一类实体对的联合重要度。

在上述实现过程中，由于度和/或集聚系数能够准确反映实体在关系知识图谱中的重要程度，所以通过度和/或集聚系数来计算实体对的联合重要度，更准确。

可选地，通过以下计算公式计算获得每个实体对的联合重要度：

w＝multinomia l(N，D^0.5+C^0.5)；

其中，w表示联合重要度，multinomial表示采样概率函数，D表示实体的度，C表示实体的集聚系数，N为所述关系知识图谱中的实体数量。

可选地，所述方法还包括：

从所述关系知识图谱中筛选出作为正样本的第二类实体对，每个第二类实体对包括具有直接关系的两个实体。这样可以使得模型学习到正样本之间的关联关系，进而提高模型训练的精度。

可选地，所述实体为企业或自然人，所述多个实体之间的关系包括企业与自然人之间的关系、自然人与自然人之间的关系和/或企业与企业之间的关系，从而可以将这些实体以及实体之间的关系输入模型进行训练，后续可利用模型来预测企业与自然人之间、自然人与自然人之间和/或企业与企业之间更多隐藏的关系，进而有利于利用这些关系进行数据分析，如信用风险风险、财务风险分析等。

第二方面，本申请实施例提供了一种模型训练方法，所述方法包括：

获取训练样本，所述训练样本包括通过第一方面提供的方法获得的负样本以及正样本；

将所述训练样本输入关系预测模型中，获取所述关系预测模型输出的针对各个样本中两个实体具有关系的概率；

根据所述概率与对应样本的标签数据计算损失；

根据所述损失更新所述关系预测模型的网络参数。

在上述实现过程中，由于获取的负样本是经过采样后的，所以将负样本和正样本输入关系预测模型进行训练，能够减少训练的数据量，减少服务器的硬件资源占用，提高模型的训练效率。

第三方面，本申请实施例提供了一种关系预测方法，所述方法包括：

获取待预测关系知识图谱，所述待预测关系知识图谱包括多个实体以及多个实体之间的关系；

从所述待预测关系知识图谱中筛选出多个待预测实体对，每个待预测实体对包括不具有直接关系的两个实体；

将所述多个待预测实体对输入关系预测模型中，通过所述关系预测模型预测每个待预测实体对中两个实体具有关系的概率；

根据所述概率确定每个待预测实体对中两个实体的关联关系；

其中，所述关系预测模型为通过第二方面提供的方法训练获得的。

在上述实现过程中，由于关系预测模型是通过上述过程训练得到的，所以，在进行关系预测时，能够准确预测出两个实体间的隐藏关系。

第四方面，本申请实施例提供了一种样本获取装置，所述装置包括：

图谱获取模块，用于获取关系知识图谱，所述关系知识图谱包括多个实体以及多个实体之间的关系；

筛选模块，用于根据实体间的关系从所述关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体；

重要度获取模块，用于根据每个第一类实体对中两个实体在所述关系知识图谱中的重要度计算第一类实体对的联合重要度；

概率获取模块，用于将初始采样概率与所述联合重要度相乘，得到每个第一类实体对的采样概率；

采样模块，用于根据全部第一类实体对的采样概率对所述多个第一类实体对进行采样，得到作为负样本的实体对。

可选地，所述重要度获取模块，用于获取每个第一类实体对中每个实体在所述关系知识图谱中的度和/或集聚系数，所述度和/或集聚系数表征实体在所述关系知识图谱中的重要度；根据每个第一类实体对中每个实体的度和/或集聚系数计算获得每个第一类实体对的联合重要度。

w＝multinomia l(N，D^0.5+C^0.5)；

可选地，所述装置还包括：

正样本获取模块，用于从所述关系知识图谱中筛选出作为正样本的第二类实体对，每个第二类实体对包括具有直接关系的两个实体。

可选地，所述实体为企业或自然人，所述多个实体之间的关系包括企业与自然人之间的关系、自然人与自然人之间的关系和/或企业与企业之间的关系。

第五方面，本申请实施例提供了一种模型训练装置，所述装置包括：

训练样本获取模块，用于获取训练样本，所述训练样本包括通过第一方面提供的方法获得的负样本以及正样本；

输入模块，用于将所述训练样本输入关系预测模型中，获取所述关系预测模型输出的针对各个样本中两个实体具有关系的概率；

损失计算模块，用于根据所述概率与对应样本的标签数据计算损失；

参数更新模块，用于根据所述损失更新所述关系预测模型的网络参数。

第六方面，本申请实施例提供了一种关系预测装置，所述装置包括：

待预测图谱获取模块，用于获取待预测关系知识图谱，所述待预测关系知识图谱包括多个实体以及多个实体之间的关系；

实体筛选模块，用于从所述待预测关系知识图谱中筛选出多个待预测实体对，每个待预测实体对包括不具有直接关系的两个实体；

预测模块，用于将所述多个待预测实体对输入关系预测模型中，通过所述关系预测模型预测每个待预测实体对中两个实体具有关系的概率；

关系确定模块，用于根据所述概率确定每个待预测实体对中两个实体的关联关系；

第七方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第八方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种样本获取方法的流程图；

图2为本申请实施例提供的一种关系知识图谱的示意图；

图3为本申请实施例提供的另一种关系知识图谱的示意图；

图4为本申请实施例提供的一种模型训练方法的流程图；

图5为本申请实施例提供的一种关系预测方法的流程图；

图6为本申请实施例提供的一种样本获取装置的结构框图；

图7为本申请实施例提供的一种模型训练装置的结构框图；

图8为本申请实施例提供的一种关系预测装置的结构框图；

图9为本申请实施例提供的一种用于执行样本获取方法、模型训练方法或关系预测方法的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上，鉴于此，本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

本申请实施例提供一种样本获取方法，该方法通过获取关系知识图谱，然后从关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体，获取每个第一类实体对的联合重要度，然后将初始采样概率与联合重要度相乘，得到每个第一类实体对的采样概率，再根据全部第一类实体对的采样概率对多个第一类实体对进行采样，得到作为负样本的实体对，这样可从所有的第一类实体对中按照采样概率采样部分的第一类实体对作为模型训练的负样本，可有效减少模型训练的数据量，减少服务器硬件资源的占用，提高服务器性能，进而提高模型训练效率。并且，也可以避免由于样本数量过多而导致训练出的模型快速过拟合的问题，以及通过一定的采样概率采样获得负样本，可以避免负样本的数量远大于正样本的数量而导致数据严重不均衡，影响模型的预测性能的问题。

下面结合各个附图对本申请的样本获取方法进行详细介绍。

请参照图1，图1为本申请实施例提供的一种样本获取方法的流程图，该方法包括如下步骤：

步骤S110：获取关系知识图谱，所述关系知识图谱包括多个实体以及多个实体之间的关系。

在一些应用场景中，关系知识图谱可以是指企业与企业之间、企业与自然人、自然人与自然人之间的关系知识图谱，其中，自然人可以是指企业的股东、高管等，在这种场景下，关系知识图谱中的实体则为企业或自然人，多个实体之间的关系则包括企业与自然人之间的关系(股东关系、高管关系、裁判文书关系(原被告)等)、自然人与自然人之间的关系(如亲属关系(父子、兄弟、夫妻)、朋友关系、合伙关系、校友关系等)和/或企业与企业之间的关系(如投资控股关系、担保关系、抵质押关系、上下游合作关系等)，这样后续可以通过关系预测模型来预测不具有直接关系的实体之间的隐藏关系。

在其他应用场景下，关系知识图谱还可以是用户的社会关系知识图谱，这种场景下，关系知识图谱中的实体是指用户，实体之间的关系是指用户之间的社会关系(如朋友关系、亲属关系、合作关系等)，这样后续可以通过关系预测模型来预测关系知识图谱中用户之间的隐藏社会关系。

又或者，在其他应用场景下，关系知识图谱还可以是用户行为的关系知识图谱，这种场景下，关系知识图谱中的实体是指用户行为和用户，实体之间的关系是指用户行为之间的关系(爱看电影的行为、爱购买某样商品的行为等)，这样后续可以通过关系预测模型来预测关系知识图谱中用户行为之间的隐藏关系，从而可获得用户行为，有利于利用用户行为来进行商品推荐、信息推送等。

本申请实施例中以关系知识图谱中实体为企业或自然人为例进行说明。其关系知识图谱可以是从网络上爬取后存储在服务器中的，若在需要进行样本获取时，则可直接从服务器中读取出关系知识图谱即可。或者若网络上爬取的关系知识图谱不完善，本申请实施例中还可以对初始的关系知识图谱进行完善，即从网络中获取更多的关系来构建关系知识图谱。

例如，可以使用自然语言处理(Natural Language Processing，NLP)技术从新闻、年报、公告、工商信息中提取企业、自然人的关系型数据信息，企业关系可包括股权、担保、抵押、质押等，自然人关系可包括亲友、同事、同乡、校友等关系，当然这些关系可以根据实际需求灵活删减。

在获取企业关系信息后可构建企业画像以及在获取自然人关系信息后可构建自然人画像，企业画像可包括财务、股权结果、舆情、行业地位等，人物画像可包括基础属性和动态属性，基础信息包括姓名、籍贯、毕业院校、年龄等其他信息，动态属性主要包括职务变迁、法规类负面信息(如失信、裁判文书等)、负面舆情指数等信息。

然后可利用这些信息从中挖掘出更多的两个自然人之间的关系，具体可以使用机器学习方法进行训练预测，如使用梯度提升模型(Extreme Gradient Boosting，XGBoost)模型，该模型训练过程中所使用的训练样本可以包括股东关联度、新闻中同一文本中出现同一名字的次数、姓名形似度指标，样本标签可以通过已经确定的自然人关系来确定，最后可以利用训练后的模型预测出两个自然人之间的存在关系的概率，如果概率大于设定值，则可在构建关系知识图谱时，在关系知识图谱中将这两个自然人对应的实体连接。

其中，姓名形式度可以通过判断两个姓名是否是同姓，如果不是，则形式度为0，如果两个姓名是同姓，且两个姓名中包含有相同字，则其形式度可以为一定数值，该数值可以根据实际需求设置。

股东关联度可以是根据企业的关联图谱来确定的，关联图谱是根据企业工商数据中企业和企业的股权关系、企业和股东、企业和高管之间的关系构建的。股东关联度可以使用Dijkstra算法对关联图谱进行遍历而获得的，如图2所示的关联图谱，使用Dijkstra算法，从起始点开始，使用贪心算法的策略，每次遍历到始点距离最近且未访问过的顶点的邻接节点，直到扩展到终点为止，图2中，(1,5)这个点计算得出的最短路径是1->3->5，将该路径各条边加权后的权重是7，所以这两个股东之间的股东关联度即为7，按照同样的方式，可以算出关联图谱中每两个节点之间的股东关联度。

所以，可以通过上述方式预测出更多自然人之间的关系，然后对初始的关系知识图谱进行完善，以构建更完整、包含更多信息的关系知识图谱。

需要说明的是，上述构建的关系知识图谱可以是实体数量庞大的知识图谱，而为了减少计算量，在实际应用中，在确定负样本时，可以从大的关系知识图谱中选择一小部分的关系知识图谱，然后从这小部分的关系知识图谱中确定负样本，然后继续重复“从大的关系知识图谱中选择一小部分的关系知识图谱，然后从这小部分的关系知识图谱中确定负样本”这一过程，如此可获得较多数量的负样本。

步骤S120：根据实体间的关系从所述关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体。

例如，可以对关系知识图谱进行遍历，然后从中获得不具有直接关系的两个实体，不具有直接关系可以理解为是两个实体之间没有直接相连的边，即在关系知识图谱中没有直接关系，而实际上可能两个实体之间具有隐藏的关系，本申请中后续希望通过关系预测模型能够预测出这种隐藏的关系。如图3所示，其中，第一类实体对可包括(a,c)、(b,d)。当然，实际的关系知识图谱的实体数量庞大，所以，获取的第一类实体对的数量也较多。

步骤S130：根据每个第一类实体对中两个实体在所述关系知识图谱中的重要度计算第一类实体对的联合重要度。

第一类实体对可以是指用于训练关系预测模型的负样本，但是从关系知识图谱中提取出来的第一类实体对的数量庞大，如果全部输入关系预测模型进行训练，可能影响服务器性能，导致模型训练效率低，所以，还需要对第一类实体对进行采样，以采样出一部分的第一类实体对输入关系预测模型进行训练。

由于在金融研究中，关系知识图谱中不同邻居节点的重要性不同，在进行关系预测时，需要关系预测模型尽可能从众多具有连接关系的节点之间学习到关联性，以便于后续能更准确地挖掘出隐藏关系，所以，和众多企业和自然人有关联的节点比孤立节点更重要，在进行采样时，应该尽可能选取这些节点来作为第一类实体对。

所以，可以获取每个第一类实体对的联合重要度，该联合重要度为根据每个第一类实体对中两个实体在关系知识图谱中的重要度来确定的，这样在采样时，可以以实体对的联合重要度来考量，以获得更多的采样联合重要度大的实体对，这样采样所得到的负样本大概率具有丰富的连接关系。

步骤S140：将初始采样概率与所述联合重要度相乘，得到每个第一类实体对的采样概率。

采样概率是指每个第一类实体对被采样到的概率，联合重要度越大，该实体对的采样概率越大。

在确定每个第一类实体对的采样概率的方式中，可以先获取每个第一类实体对的初始采样概率，各个第一类实体对的初始采样概率均相同，然后将初始采样概率与联合重要度相乘，则得到每个第一类实体对的采样概率。

其中，初始采样概率是指各个第一类实体对的平均概率，如有5个第一类实体对，则每个第一类实体对的初始采样概率均为1/5，这样每个第一类实体对在进行采样时，所能够被采样到的概率是相同的，并不能区分这些第一类实体对的重要性。由于每个第一类实体对的联合重要度不同，所以将初始采样概率与联合重要度相乘，获得的乘积即为每个第一类实体对的采样概率。

例如，初始采样概率为p，则每个第一类实体对的采样概率为w*p，这样可以通过联合重要度将各个第一类实体对的采样概率进行区分，在采样时就不是均匀采样了(即每个第一类实体对被采样到的概率是不一样的)，这样采样概率大的第一类实体对更容易被采样到，这些采样概率大的第一类实体对则有更大的可能加入到关系预测模型的训练样本中，从而关系预测模型能够基于这些第一类实体对学习到更多的隐藏关系，使得最终训练获得的关系预测模型的精确度更高。

需要说明的是，各个第一类实体对的初始采样概率也可以是不相同的，可以是人为随机设置的，这样则可通过实体对的联合重要度对初始采样概率进行修正，从而获得更合理的采样概率，以对负样本进行更合理的采样，使得采样的负样本更多是对模型训练有利的样本。

该方式中，将初始采样概率与联合重要度相乘，这样可以利用联合重要度影响实体对的采样概率，从而采样所得到的负样本大概率是具有丰富的连接关系，有利于提高模型的训练精度。

步骤S150：根据全部第一类实体对的采样概率对所述多个第一类实体对进行采样，得到作为负样本的实体对。

由于直接利用全部的关系知识图谱的数据进行训练，训练数据量大，会影响服务器性能，比如服务器不支持如此庞大的数据量运算，则可能会使得服务器宕机、卡死或者响应时长变长等问题，从而影响模型训练效率。所以还需要对第一类实体对进行采样，从中采样出用于进行模型训练的负样本。

如每次获取一定数量的实体对作为负样本输入关系预测模型进行训练，则在每次采样时，采样概率大的第一类实体对能够更容易被采样到，所以，根据采样概率对多个第一类实体对进行采样时，采样概率大的第一类实体对能够有更多次机会被输入到关系预测模型进行训练，这样在每次训练模型时，输入的负样本都是联合重要度较大的样本，从而能够有效提高模型的预测精度。

在上述实现过程中，从所有的第一类实体对中按照采样概率采样部分的第一类实体对作为模型训练的负样本，可有效减少模型训练的数据量，减少服务器硬件资源的占用，提高服务器性能，进而提高模型训练效率。

在上述实施例的基础上，在获取每个第一类实体对的联合重要度的实现方式中，可以获取每个第一类实体对中每个实体的度和/或集聚系数，度和/或集聚系数即可用于表征实体在关系知识图谱中的重要程度，然后根据每个第一类实体对中每个实体的度和/或集聚系数计算获得每个第一类实体对的联合重要度。

其中，实体的度是指在关系知识图谱中与该实体相连的边的个数，实体的集聚系数是指这个实体的聚类程度，如一个实体有K个邻居顶点，这K个邻居顶点之间实际存在的边的个数比上这个K个邻居顶点最多可能存在边的个数

这个比值就是这个实体的集聚系数。

例如，对于图3中的实体对(a,c)，其中，a的度即为2，c的度也为2，a的集聚系数为0，b的集聚系数也为0。

同理，按照同样的方式可获得每个第一类实体对中每个实体的度和/或集聚系数。

在计算每个第一类实体对的联合重要度时，可采用如下计算公式：

w＝multinomia l(N，D^0.5+C^0.5)；

其中，w表示联合重要度，multinomial表示采样概率函数，其是指tensorflow或pytorch中的采样概率函数，即实际上可以认为是一种归一化函数，表示各个实体的w的和值为1，D表示实体的度，C表示实体的集聚系数，N为关系知识图谱中的实体数量。

在上述获取多个第一类实体对时，可以对关系知识图谱进行遍历，如以一个实体作为起始点，然后将其他与该实体不具有直接关系的实体作为终点，起始点和终点可组合成一个第一类实体对，然后可继续遍历第二个实体，继续作为起始点，选取其他不具有直接关系的实体作为终点，如此可获得多个第一类实体对。此时所获得的多个第一类实体对可以认为是一种有向图，如可以包括(A,B)和(B,A)这两个第一类实体对。在确定第一类实体对的联合重要度时，针对这两个实体对，如针对(A,B)，可获取B的度和集聚系数，然后带入上述计算公式中，计算出的w即可作为该实体对(A,B)的联合重要度。按照同样的方式，针对实体对(B,A)，可以获取A的度和集聚系数，然后带入上述计算公式中，计算出的w即可作为该实体对(B,A)的联合重要度。

当然，为了避免重复，可以从这两个实体对中确定出最终的实体对，如选择联合重要度大的实体对作为最终的第一类实体对，即只保留其中一个，然后继续后续按照采样概率进行采样的步骤。

或者，也可以先保留两个实体对，认为这两个实体对不是重复的实体对。或者，也可以在保留这两个实体对后，若后续按照采样概率同时采样到两个实体对后，将其中一个剔除即可，选择其中一个作为负样本的实体对。

或者，也可以将两个实体对的联合重要度求平均，其平均值作为其中一个实体对的联合重要度，如平均值为实体对(A,B)的联合重要度，将实体对(B,A)从第一类实体对中剔除即可，或者反过来，平均值作为实体对(B,A)的联合重要度，将实体对(A,B)从第一类实体对中剔除。

可以理解地，上式还可以基于实际情况进行变形，如：w＝multinomial(N,xD^α+yC^β)；其中，x和y的值可以根据实际需求设置，如在x等于0时，则第一类实体对的联合重要度只基于实体的集聚系数确定，在y等于0时，第一类实体对的联合重要度只基于实体的度确定，在x和y不等于0时，第一类实体对的联合重要度基于实体的度和集聚系数确定。而α，β的值也可以根据实际需求灵活设置，可以理解地，x,y，α，β这四个变量在不同的应用场景下可设置不同的值，来达到更好地效果。

在上述实施例的基础上，用于进行关系预测模型的训练样本还可以包括正样本，使得模型可以学习正样本中两个实体之间的关系，所以，还可以从关系知识图谱中筛选出作为正样本的第二类实体对，每个第二类实体对包括具有之间关系的两个实体。这样可以使得模型学习到正样本之间的关联关系，进而提高模型训练的精度。

其中，具有直接关系是指两个实体之间通过边连接，如图3中，第二类实体对则包括(a,b)、(a,d)、(b,c)、(c,d)，每个第二类实体对中的两个实体之间都通过边连接。所以，可以对关系知识图谱进行遍历，然后从中获得第二类实体对，第二类实体对可作为关系预测模型训练时的正样本。

可以理解地，如果正样本的数量也很大，影响服务器性能，则也可以对正样本进行采样，也可按照上述对负样本进行采样的方式，计算每个正样本的联合重要度，然后根据联合重要度计算得到每个正样本的采样概率，然后对多个正样本进行采样，以获得用于输入关系预测模型的训练样本，具体的实现过程可参照上述实施例的描述，在此不过多赘述。

在上述实施例的基础上，在获得正样本和负样本后，可以利用这些样本对关系预测模型进行训练，其训练过程如图4所示，包括如下步骤：

步骤S210：获取训练样本。

训练样本包括上述实施例获得的正样本和负样本。

步骤S220：将训练样本输入关系预测模型中，获取关系预测模型输出的针对各个样本中两个实体具有关系的概率。

在一些实施方式中，关系预测模型可以为图卷积神经网络(Graph ConvolutionalNetwork，GCN)，由于GCN模型可以直接将网络结构使用邻接矩阵的方式输入到模型中，从而避免更多信息损失，准确度更高。

关系预测模型可以对训练样本进行关系预测，其预测的思想是通过使用所需预测的节点对(即实体对)的节点表示，计算两个实体之间存在链接可能性的得分，这个得分可以表征两个实体具有关系的概率，训练的过程可以是对比两个相连接节点之间的得分与任意一对节点之间的得分的差异，有连接的得分一般高于无连接的得分。

步骤S230：根据概率与对应样本的标签数据计算损失。

其中，损失函数可以采用交叉熵损失函数、贝叶斯个性化排序损失函数、间隔损失函数等，将模型输出的概率与对应的标签数据输入到相应的损失函数中，即可计算获得对应的损失。

步骤S240：根据损失更新关系预测模型的网络参数。

在获得损失后，可判断损失是否超出预设范围，若超出，则将损失传回关系预测模型中，对关系预测模型的网络参数进行更新。循环上述过程，继续对关系预测模型进行训练。在损失函数达到收敛，如损失小于预设值，或者当迭代次数达到预设次数时，表示满足模型训练终止条件，则模型训练完成，获得训练好的关系预测模型。

在获得训练好的关系预测模型后，即可利用关系预测模型进行关系预测，预测过程如图5所示，包括如下步骤：

步骤S310：获取待预测关系知识图谱，所述待预测关系知识图谱包括多个实体以及多个实体之间的关系。

待预测关系知识图谱中的实体是指企业或自然人，实体之间的关系是指企业与企业、企业与自然人、自然人与自然人之间的关系，由于在待预测关系知识图谱中，不具有直接关系的两个实体之间可能有隐藏的关联，只是在待预测关系知识图谱中无法体现(即在待预测关系知识图谱中没有将这两个实体直接相连，所以不容易看出这两个实体之间的关系)，而通过人工来分析这种隐藏关系则耗时耗力，且仅依靠人工来推理分析，也无法准确、全面的分析出各个不具有直接联系的两个实体之间是否有关联，进而导致在后续进行信用分析或者财务分析时，无法准确分析出企业或自然人存在的风险问题。所以，本申请中可以通过关系预测模型来准确预测两个实体之间隐藏的关联关系，进而可从中挖掘出更多的关联关系，以便于在后续进行风险分析时，能够根据更多的关联关系评估企业或自然人存在的风险。

步骤S320：从所述待预测关系知识图谱中筛选出多个待预测实体对，每个待预测实体对包括不具有直接关系的两个实体。

如待预测关系知识图谱中企业a和企业b没有直接关系，但是企业a是有自然人A控股，而企业b有自然人A持股，那么这两个企业就具有隐藏的关系，即都有自然人A持股。所以，本申请中为了找出更多这样的隐藏关系，需要先从待预测知识图谱中筛选出多个待预测实体对，这些待预测实体对中包括不具有直接关系的两个实体。

步骤S330：将所述多个待预测实体对输入关系预测模型中，通过所述关系预测模型预测每个待预测实体对中两个实体具有关系的概率。

其中，多个待预测实体对的形式如上述的负样本类似。由于关系预测模型是通过上述训练方法获得的，在训练过程中，关系预测模型能够学习到两个不具有连接关系的实体之间的隐藏关系，所以，通过关系预测模型对多个待预测实体对进行预测，可以更准确地预测出待预测实体对中两个实体之间具有关系的概率，该概率也可以用得分来表征，即关系预测模型输出的是两个实体之间具有链接关系的得分。

步骤S340：根据所述概率确定每个待预测实体对中两个实体的关联关系。

在获得概率后，可以根据概率来判断两个实体的关联关系，如概率大于设定值，则认为两个实体之间具有关联关系，以及具体的关联关系。这样在预测企业或自然人的关系中，可以通过关系预测模型来挖掘出更多的企业与企业之间的关系、企业与自然人之间的关系、自然人与自然人之间的关系，且通过上述的训练过程，能够更准确地预测出这些关系。

请参照图6，图6为本申请实施例提供的一种样本获取装置400的结构框图，该装置400可以是电子设备上的模块、程序段或代码。应理解，该装置400与上述图1方法实施例对应，能够执行图1方法实施例涉及的各个步骤，该装置400具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置400包括：

图谱获取模块410，用于获取关系知识图谱，所述关系知识图谱包括多个实体以及多个实体之间的关系；

筛选模块420，用于根据实体间的关系从所述关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体；

重要度获取模块430，用于根据每个第一类实体对中两个实体在所述关系知识图谱中的重要度计算第一类实体对的联合重要度；

概率获取模块440，用于将初始采样概率与所述联合重要度相乘，得到每个第一类实体对的采样概率；

采样模块450，用于根据全部第一类实体对的采样概率对所述多个第一类实体对进行采样，得到作为负样本的实体对。

可选地，所述重要度获取模块430，用于获取每个第一类实体对中每个实体的度和/或集聚系数，所述度和/或集聚系数表征实体在所述关系知识图谱中的重要度；根据每个第一类实体对中每个实体的度和/或集聚系数计算获得每个第一类实体对的联合重要度。

w＝multinomia l(N，D^0.5+C^0.5)；

可选地，所述装置400还包括：

请参照图7，图7为本申请实施例提供的一种模型训练装置500的结构框图，该装置500可以是电子设备上的模块、程序段或代码。应理解，该装置500与上述图4方法实施例对应，能够执行图4方法实施例涉及的各个步骤，该装置500具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置500包括：

训练样本获取模块510，用于获取训练样本，所述训练样本包括通过上述的样本获取方法获得的负样本以及正样本；

输入模块520，用于将所述训练样本输入关系预测模型中，获取所述关系预测模型输出的针对各个样本中两个实体具有关系的概率；

损失计算模块530，用于根据所述概率与对应样本的标签数据计算损失；

参数更新模块540，用于根据所述损失更新所述关系预测模型的网络参数。

请参照图8，图8为本申请实施例提供的一种关系预测装置600的结构框图，该装置600可以是电子设备上的模块、程序段或代码。应理解，该装置与上述图5方法实施例对应，能够执行图5方法实施例涉及的各个步骤，该装置600具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置600包括：

待预测图谱获取模块610，用于获取待预测关系知识图谱，所述待预测关系知识图谱包括多个实体以及多个实体之间的关系；

实体筛选模块620，用于从所述待预测关系知识图谱中筛选出多个待预测实体对，每个待预测实体对包括不具有直接关系的两个实体；

预测模块630，用于将所述多个待预测实体对输入关系预测模型中，通过所述关系预测模型预测每个待预测实体对中两个实体具有关系的概率；

关系确定模块640，用于根据所述概率确定每个待预测实体对中两个实体的关联关系；

其中，所述关系预测模型为通过上述的模型训练方法训练获得的。

需要说明的是，本领域技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再重复描述。

请参照图9，图9为本申请实施例提供的一种用于执行样本获取方法、模型训练方法或关系预测方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器710，例如CPU，至少一个通信接口720，至少一个存储器730和至少一个通信总线740。其中，通信总线740用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口720用于与其他节点设备进行信令或数据的通信。存储器730可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器730可选的还可以是至少一个位于远离前述处理器的存储装置。存储器730中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器710执行时，电子设备执行上述图1、图4或图6所示方法过程。

可以理解，图9所示的结构仅为示意，所述电子设备还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。图9中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，执行如图1、图4或图6所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：获取关系知识图谱，所述关系知识图谱包括多个实体以及多个实体之间的关系；根据实体间的关系从所述关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体；根据每个第一类实体对中两个实体在所述关系知识图谱中的重要度计算第一类实体对的联合重要度；将初始采样概率与所述联合重要度相乘，得到每个第一类实体对的采样概率；根据全部第一类实体对的采样概率对所述多个第一类实体对进行采样，得到作为负样本的实体对。

综上所述，本申请实施例提供一种样本获取方法、模型训练方法、关系预测方法及装置，通过获取关系知识图谱，然后从关系知识图谱中筛选出多个第一类实体对，每个第一类实体对包括不具有直接关系的两个实体，获取每个第一类实体对的联合重要度，然后将初始采样概率与联合重要度相乘，得到每个第一类实体对的采样概率，再根据全部第一类实体对的采样概率对多个第一类实体对进行采样，得到作为负样本的实体对，这样可从所有的第一类实体对中按照采样概率采样部分的第一类实体对作为模型训练的负样本，可有效减少模型训练的数据量，减少服务器硬件资源的占用，提高服务器性能，进而提高模型训练效率。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种样本获取方法，其特征在于，所述方法包括：

从新闻、年报、公告或工商信息中获取关系知识图谱，所述关系知识图谱包括多个实体以及多个实体之间的关系，所述实体为企业或自然人，所述多个实体之间的关系包括企业与自然人之间的关系、自然人与自然人之间的关系和/或企业与企业之间的关系；

根据全部第一类实体对的采样概率对所述多个第一类实体对进行采样，得到作为负样本的第一类实体对，并从所述关系知识图谱中筛选出作为正样本的第二类实体对，每个第二类实体对包括具有直接关系的两个实体；

其中，所述负样本和所述正样本用于训练关系预测模型，所述关系预测模型用于预测待预测实体对中两个实体具有关系的概率，并根据所述概率确定所述待预测实体对中两个实体的关联关系，所述关系预测模型是使用训练样本训练获得的，所述训练样本包括：股东关联度、新闻中同一文本中出现同一名字的次数、姓名形似度指标。

2.根据权利要求1所述的方法，其特征在于，所述根据每个第一类实体对中两个实体在所述关系知识图谱中的重要度计算第一类实体对的联合重要度，包括：

3.根据权利要求2所述的方法，其特征在于，通过以下计算公式计算获得每个实体对的联合重要度：

；

4.一种模型训练方法，其特征在于，所述方法包括：

获取训练样本，所述训练样本包括通过权利要求1所述方法获得的负样本以及正样本，所述训练样本包括：股东关联度、新闻中同一文本中出现同一名字的次数、姓名形似度指标；

根据所述概率与对应样本的标签数据计算损失；

根据所述损失更新所述关系预测模型的网络参数；

其中，所述正样本是从关系知识图谱中筛选出的，所述关系知识图谱是从新闻、年报、公告或工商信息中获取的，所述关系知识图谱包括多个实体以及多个实体之间的关系，所述实体为企业或自然人，所述多个实体之间的关系包括企业与自然人之间的关系、自然人与自然人之间的关系和/或企业与企业之间的关系。

5.一种关系预测方法，其特征在于，所述方法包括：

从新闻、年报、公告或工商信息中获取待预测关系知识图谱，所述待预测关系知识图谱包括多个实体以及多个实体之间的关系，所述实体为企业或自然人，所述多个实体之间的关系包括企业与自然人之间的关系、自然人与自然人之间的关系和/或企业与企业之间的关系；

其中，所述关系预测模型为通过权利要求4所述的方法中的训练样本训练获得的，所述训练样本包括：股东关联度、新闻中同一文本中出现同一名字的次数、姓名形似度指标。

6.一种样本获取装置，其特征在于，所述装置包括：

图谱获取模块，用于从新闻、年报、公告或工商信息中获取关系知识图谱，所述关系知识图谱包括多个实体以及多个实体之间的关系，所述实体为企业或自然人，所述多个实体之间的关系包括企业与自然人之间的关系、自然人与自然人之间的关系和/或企业与企业之间的关系；

采样模块，用于根据全部第一类实体对的采样概率对所述多个第一类实体对进行采样，得到作为负样本的第一类实体对，并从所述关系知识图谱中筛选出作为正样本的第二类实体对，每个第二类实体对包括具有直接关系的两个实体；

7.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-5任一所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-5任一所述的方法。