CN114579766A

CN114579766A - 知识图谱构建方法、装置、设备、存储介质和程序产品

Info

Publication number: CN114579766A
Application number: CN202210251340.6A
Authority: CN
Inventors: 何辉; 常梦圆; 祝放; 徐聿帆
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-03

Abstract

本申请涉及一种知识图谱构建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取初始知识图谱；获取待处理文本，并对所述待处理文本进行信息抽取得到待处理信息；将所述待处理信息与所述初始知识图谱中的初始信息进行模糊匹配，以对所述初始信息进行过滤；基于所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息；根据所述目标信息、所述待处理信息以及所述初始知识图谱进行目标知识图谱的构建。采用本方法能够方便知识图谱的构建。

Description

知识图谱构建方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及人工智能技术领域，特别是涉及一种知识图谱构建方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

银行金融领域的信贷服务是银行业务的重点业务之一，信贷业务又称为信贷资产或贷款业务，是商业银行最重要的资产业务，其通过放款回收本金和利息，扣除成本后获得利润，所以信贷是商业银行的主要盈利手段。因此针对信贷业务的放款对象需要进行严格的资质审查和信用评估。但是由于某些信息的迟滞性，例如：金融处罚、劳动纠纷等此类金融案件，会使得银行人员对于信用信息的评估出现偏差。因此，诸如裁判文书此类具有法律约束的书面结论具有非常高的实用价值，因此，对裁判文书中关键信息进行抽取就显得尤为重要。通过利用裁判文书中有用金融信息并结合我行庞大的信息系统建立相应的金融资金知识图谱，可以对银行的金融风险分析提供重要依据和手段。

传统技术中，无法对已有的金融信息系统和抽取得到的实体信息进行相互之间的关联，因此基于裁判文书的金融资金转移知识图谱的构建难度较大。

发明内容

基于此，有必要针对上述技术问题，提供一种能够方便知识图谱的构建的知识图谱构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供一种知识图谱构建方法，所述方法包括：

获取初始知识图谱；

获取待处理文本，并对所述待处理文本进行信息抽取得到待处理信息；

将所述待处理信息与所述初始知识图谱中的初始信息进行模糊匹配，以对所述初始信息进行过滤；

基于所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息；

根据所述目标信息、所述待处理信息以及所述初始知识图谱进行目标知识图谱的构建。

在其中一个实施例中，所述基于所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息，包括以下至少一种：

计算过滤后的所述初始信息与所述待处理信息的第一字符距离，根据所述第一字符距离对过滤后的所述初始信息进行筛选得到目标信息；

获取过滤后的所述初始信息的第一辅助信息，以及所述待处理信息对应的第二辅助信息，基于所述第一辅助信息、所述第二辅助信息、所述初始信息以及所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息。

在其中一个实施例中，所述基于所述第一辅助信息、所述第二辅助信息、所述初始信息以及所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息，包括：

获取辅助信息和所述待处理信息的类型权重；

计算过滤后的所述初始信息与所述待处理信息的第一字符距离，以及所述第一辅助信息和所述第二辅助信息的第二字符距离；

根据所述第一字符距离、所述第二字符距离以及所述类型权重计算每一过滤后的所述初始信息的相似指标值；

根据所述相似指标值对过滤后的所述初始信息进行筛选得到目标信息。

在其中一个实施例中，所述获取辅助信息和所述待处理信息的类型权重，包括：

确定过滤后的所述初始信息的数量；

根据所述初始信息的数量确定所述初始信息的类型权重，并根据所述初始信息的类型权重计算得到辅助信息的类型权重。

在其中一个实施例中，所述对所述待处理文本进行信息抽取得到待处理信息，包括：

通过预先训练得到的文本信息提取模型对所述待处理文本进行信息抽取得到待处理信息；

所述文本信息提取模型的训练方法包括：

获取样本文本；

对所述样本文本进行分词处理得到初始分词；

对所述初始分词进行识别确定待处理分词，并获取所述待处理分词对应的目标文本；

对所述目标文本中的初始分词进行重匹配得到目标分词；

根据所述目标分词对初始模型进行训练得到文本信息提取模型。

在其中一个实施例中，所述对所述目标文本中的初始分词进行重匹配得到目标分词，包括：

对所述目标文本中的初始分词进行组合得到组合分词；

通过所述组合分词在所述样本文本中的词频、所述组合分词的词长以及所述组合分词的句法结构其中至少一个，对所述组合分词进行处理得到目标分词。

第二方面，本申请还提供一种知识图谱构建装置，所述装置包括：

初始知识图谱获取模块，用于获取初始知识图谱；

信息抽取模块，用于获取待处理文本，并对所述待处理文本进行信息抽取得到待处理信息；

过滤模块，用于将所述待处理信息与所述初始知识图谱中的初始信息进行模糊匹配，以对所述目标信息进行过滤；

筛选模块，用于基于所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息；

构建模块，用于根据所述目标信息、所述待处理信息以及所述初始知识图谱进行目标知识图谱的构建。

第三方面，本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任意一个实施例中的方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个实施例中的方法的步骤。

第五方面，本申请还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任意一个实施例中的方法的步骤。

上述知识图谱构建方法、装置、计算机设备、存储介质和计算机程序产品，可以通过抽取得到的待处理信息对初始知识图谱进行构建，且构建时，先进行模糊匹配以过滤掉无用的初始信息，然后再根据待处理信息对初始信息进行筛选，以确定目标信息，从而根据目标信息和初始信息构建目标知识图谱，这样依据已有的初始知识图谱构建目标知识图谱，方便目标知识图谱的构建。

附图说明

图1为一个实施例中知识图谱构建方法的应用环境图；

图2为一个实施例中知识图谱构建方法的流程示意图；

图3为一个实施例中的实体链接与关系信息注入示意图；

图4为一个实施例中文本信息提取模型的训练方法的流程图；

图5为一个实施例中资金转移知识图谱构建示意图；

图6为一个实施例中知识图谱构建装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的知识图谱构建方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。

其中，服务器104可以获取到数据库中存储的初始知识图谱，并获取到待处理文本，例如接收终端102发送的待处理文本，或者从其他的服务器爬取到的待处理文本等等，这样对待处理文本进行信息抽取得到待处理信息，这样为了将待处理信息添加到初始知识图谱中，服务器104将待处理信息与初始知识图谱中的初始信息进行模糊匹配，以对初始信息进行过滤；基于待处理信息对过滤后的初始信息进行筛选得到目标信息，从而根据目标信息、待处理信息以及初始知识图谱进行目标知识图谱的构建。

上述实施例中，可以通过抽取得到的待处理信息对初始知识图谱进行构建，且构建时，先进行模糊匹配以过滤掉无用的初始信息，然后再根据待处理信息对初始信息进行筛选，以确定目标信息，从而根据目标信息和初始信息构建目标知识图谱，这样依据已有的初始知识图谱构建目标知识图谱，方便目标知识图谱的构建。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种知识图谱构建方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：获取初始知识图谱。

具体地，初始知识图谱是预先生成的第一类知识图谱，后续生成的目标知识图谱是在该初始知识图谱基础之上添加目标信息得到的。在其中一个优选的实施例中，该初始知识图谱可以是已有的原始金融风险知识图谱，该初始知识图谱中没有裁判文书等信息，本申请的目的就是在初始知识图谱中添加裁判文书等信息，以使得所构建的目标知识图谱更加全面。

S204：获取待处理文本，并对待处理文本进行信息抽取得到待处理信息。

具体地，待处理文本可以包括初始知识图谱中没有记录的信息的文本，例如裁判文书，待处理信息则是对待处理文本进行信息抽取后所得到的信息，其可以包括实体和关系。

其中，服务器获取待处理文本，然后对待处理文本进行信息抽取以得到相应的实体和相互关系，例如实体-关系-实体。其中服务器对待处理文本进行信息抽取时可以基于bert模型结合重匹配算法等等建立法律文书中金融实体与关系抽取模型，并抽取相应的实体和相互关系。

S206：将待处理信息与初始知识图谱中的初始信息进行模糊匹配，以对初始信息进行过滤。

具体地，模糊匹配是指将待处理信息与初始知识图谱中的初始信息匹配时采用模糊匹配的方式，这样可以过滤掉大部分无关信息。

具体地，服务器在进行模糊匹配时，可以先将待处理信息中的实体与初始知识图谱中的初始信息中的实体信息进行模糊匹配，若是通过模糊匹配能单独且唯一地确定对应匹配成功的实体，则直接根据匹配成功的实体，将对应的关系和关联实体插入至初始知识图谱中，若是不能单独且唯一地确定对应匹配成功的实体，还可以通过下文的步骤进行筛选，包括通过关系来进行辅助过滤，直至能够唯一地确定对应的实体，或者是无匹配成功的实体等。

其中，在其他的实施例中，服务器还可以先对关系进行匹配，然后通过实体来进行辅助筛选，在此不做具体的限定。

S208：基于待处理信息对过滤后的初始信息进行筛选得到目标信息。

具体地，目标信息是与待处理信息匹配成功的信息，其中在模糊匹配后若是初始信息的数量还不唯一，则服务器继续对初始信息进行筛选，其中筛选的方式可以是基于字符距离和/或辅助信息的相似度来进行筛选。

在其中一个实施例中，服务器可以先通过字符距离对过滤后的初始信息进行筛选，若是得到的初始信息是唯一的，则直接添加至直至图谱中，若是得到的初始信息不唯一，则服务器可以基于辅助信息的相似度来进行筛选，例如基于待处理信息和目标信息的相似度，以及辅助信息的相似度来计算得到一个综合的相似度，最后根据综合的相似度来进行排序，获取到排序最高的初始信息作为与待处理信息匹配成功的信息。其中当待处理信息是实体时，辅助信息则是关系，当待处理信息是关系时，则辅助信息是实体，且在该实施例中，由于实体至少存在两个，所以可以计算得到对应实体的相似度，获取多个实体的相似度的均值作为实体相似度，再获取关系相似度，这样根据实体相似度和关系相似度计算得到综合的相似度。

S210：根据目标信息、待处理信息以及初始知识图谱进行目标知识图谱的构建。

具体地，在该实施例中，目标信息是与待处理信息匹配的，这样根据初始知识图谱中的目标信息的位置，将待处理信息添加至初始知识图谱中得到目标知识图谱。具体地，待处理信息是实体时，则根据目标信息确定待处理信息入谱位置，然后将待处理信息关联的关系以及实体添加至目标知识图谱中。当待处理信息是关系时，则根据目标信息确定待处理信息入谱位置，然后将待处理信息关联的实体添加至知识图谱中。

其中为了使得本领域技术人员充分理解本申请，下面将各个情况分实施例进行说明：

第一种是：待处理信息是实体，且该实体在初始知识图谱中，但是实体对应的关系以及关联实体中的至少一个不在初始知识图谱中，这样直接根据目标信息，将实体对应的关系以及关联实体中对应的不在初始知识图谱中的信息添加至初始知识图谱中。

第二种是：待处理信息是实体，且该实体在初始知识图谱中，但是实体对应的关系和关联实体均在初始知识图谱中，这样就不需要往初始知识图谱中添加信息了。

第三种是：待处理信息是关系，且该关系在初始知识图谱中，但该关系对应的关联实体中的至少一个不在初始知识图谱中，这样直接根据目标信息，将关系对应的实体中不在初始知识图谱中的实体添加至初始知识图谱中。

第四种是：待处理信息是关系，且该关系在初始知识图谱中，但该关系对应的关联实体均在初始知识图谱中，这样就不需要往初始知识图谱中添加信息了。

但是需要说明的一点是上述第二种和第四种情况一般不会出现，因为原初始知识图谱中并不存在裁判文书类的关系和实体。而后续随着裁判文书类的关系和实体的添加，初始知识图谱中的关系和实体的量变多，则有可能出现第二种和第四种情况。

上述知识图谱构建方法，可以通过抽取得到的待处理信息对初始知识图谱进行构建，且构建时，先进行模糊匹配以过滤掉无用的初始信息，然后再根据待处理信息对初始信息进行筛选，以确定目标信息，从而根据目标信息和初始信息构建目标知识图谱，这样依据已有的初始知识图谱构建目标知识图谱，方便目标知识图谱的构建。

在其中一个实施例中，基于待处理信息对过滤后的初始信息进行筛选得到目标信息，包括以下至少一种：计算过滤后的初始信息与待处理信息的第一字符距离，根据第一字符距离对过滤后的初始信息进行筛选得到目标信息；获取过滤后的初始信息的第一辅助信息，以及待处理信息对应的第二辅助信息，基于第一辅助信息、第二辅助信息、初始信息以及待处理信息对过滤后的初始信息进行筛选得到目标信息。

其中本实施例中主要介绍对过滤后的初始信息进行筛选的两种方式：

第一种是根据距离进行计算，其中，实体和关系的实际距离计算即是从字面进行相似度计算每步通过增删操作最终替换为另一个字符的操作，并对总编辑步骤除以最长词长进行打分，其中最长词长是计算距离的两个信息中词长最长的一个信息对应的词长。

第二种是基于辅助信息进行计算，其中当过滤后的初始信息为实体时，则辅助信息为关系，当过滤后的初始信息为关系时，则辅助信息为实体。服务器计算过滤后的初始信息与对应的待处理信息的第一相似度，以及过滤后的初始信息对应的第一辅助信息和待处理信息对应的第二辅助信息的第二相似度。然后根据计算得到的第一相似度和第二相似度来计算对过滤后的初始信息进行筛选得到目标信息。

在其中一个实施例中，基于第一辅助信息、第二辅助信息、初始信息以及待处理信息对过滤后的初始信息进行筛选得到目标信息，包括：获取辅助信息和待处理信息的类型权重；计算过滤后的初始信息与待处理信息的第一字符距离，以及第一辅助信息和第二辅助信息的第二字符距离；根据第一字符距离、第二字符距离以及类型权重计算每一过滤后的初始信息的相似指标值；根据相似指标值对过滤后的初始信息进行筛选得到目标信息。

其中上述的类型权重是指实体权重和关系权重，在其中一个优选的实施例中，服务器可以预先配置实体权重和关系权重，这样采用固定的权重来进行计算。在更为优选的一个实施例中，获取辅助信息和待处理信息的类型权重，包括：确定过滤后的初始信息的数量；根据初始信息的数量确定初始信息的类型权重，并根据初始信息的类型权重计算得到辅助信息的类型权重。具体地，服务器先确定过滤后的初始信息的数量，然后根据该数量确定初始信息的类型权重，例如服务器可以预先存储有数量和对应的类型权重的关联关系，通过查表的方式查到与数量对应的类型权重。在其他的实施例中，服务器还可以设定类型权重计算函数等等，通过将过滤后的初始信息的数量输入至该类型权重计算函数即可以得到初始信息的类型权重。然后通过一减去初始信息的类型权重得到辅助信息的类型权重。本领域技术人员可以理解的是，类型权重的计算方式还可以包括其他方式，上述的类型权重的计算方式仅为其中的实施例，并不对本申请作出限制。

具体地，为了方便理解，本申请给出以下实施例：

为了将抽取的结构化的待处理信息与预设置中的风险图谱进行数据链接，本申请可以通过以下步骤进行处理：

先对从法律文书中抽取的每个实体和关系针对原始图谱实体和关系构建函数f₁(t)，g₁(t)，该函数可以是建立从法律文书中抽取的每个实体和关系针对原始图谱实体和关系的相似度，即每一个法律文书中抽取的每个实体和关系与对应的原始图谱实体和关系的相似度。

然后对每个抽取的实体和关系，对原始图谱内实体和关系首先进行模糊匹配计算，设置相应阈值过滤无用实体和关系。

第三，对过滤后的剩余实体和关系进行距离计算和/或评分计算，以最后筛选得到目标实体和目标关系。

第四，将目标实体和目标关系添加至原始图谱中。

其中对于第二步和第三步，服务器先进行模糊匹配滤除掉无用的实体和关系。这样获取到与从法律文书中抽取的每个实体和关系对应的剩余的实体和关系。若是剩余的实体和关系具有唯一性，则将其作为目标实体和关系(注意本段中和的作用仅是为了说明存在两种情况，实体和关系，并不是说明每次都具有实体和关系，其可以是单独对实体进行处理，或者是单独对关系处理，亦或者是并行处理两者)。

若是剩余的实体和关系不具有唯一性，则继续后续处理，例如计算从法律文书中抽取的每个实体和关系与对应的剩余的实体和关系的距离，具体的计算方式参见上文，若是剩余的实体和关系具有唯一性，则将其作为目标实体和关系(注意本段中和的作用仅是为了说明存在两种情况，实体和关系，并不是说明每次都具有实体和关系，其可以是单独对实体进行处理，或者是单独对关系处理，亦或者是并行处理两者)。

若是剩余的实体和关系不具有唯一性，则继续进行评分处理，即获取到辅助信息，根据辅助信息再对剩余的实体和关系进行过滤，直至剩余的实体和关系具有唯一性或者是具有优先级，选择唯一的或者是优先级最高的实体和关系。

其中，为了方便理解，结合图3所示，图3为一个实施例中的实体链接与关系信息注入示意图，在该实施例中，张三欠款李四三千元，张三地址南京玄武，李四地址北京朝阳，对原始图谱中每个点进行方程构建，如图谱中有如下点：张三：地址南京玄武门、李四：地址北京朝阳区、王二：地址上海黄埔区、王五：地址上海长宁区、张三胖：地址苏州姑苏区和相应的点所拥有的属性，通过计算每个点的得分，可以得到如下：张三得分(0.91，0)，其中0.91和0分别表示距离以及评分。李四得分(0，0.91)，王二得分(0，0)，王五得分(0，0)，张三胖得分(0.32，0)，通过排序可以得到裁判文书中张三对应原始图谱张三，裁判文书中李四对应原始图谱李四，于是将其写入到原始图谱，并在原始图谱中新建点边关系：欠款，对象：张三、李四。

通过上述方法可以将裁判文书内抽取到的信息写入初始图谱内，并将实体信息和实体关系进行进一步完善。

在其中一个实施例中，对待处理文本进行信息抽取得到待处理信息，包括：通过预先训练得到的文本信息提取模型对待处理文本进行信息抽取得到待处理信息。

具体可以参见图4所示，图4为一个实施例中文本信息提取模型的训练方法的流程图，该训练方法可以包括：

S402：获取样本文本。

具体地，样本文本可以是指裁判文书等，本实施例中主要是对提升对判书中具体资金的流入方与流出方的识别精度。具体地，服务器可以一次获取多个样本文本以实现并行处理，例如同分配服务以均衡各个参与处理的服务器的处理量，从而实现负载均衡和并行处理。在其他的实施例中，服务器还可以串行处理等等。

S404：对样本文本进行分词处理得到初始分词。

具体地，分词处理可以是通过任意的分词算法实现，例如HMM，即隐马尔科夫模型，服务器通过其选择的至少一个分词算法对样本文本进行分词处理得到初始分词。其中需要说明的是，此处的初始分词是对样本文本的粗略的分词，其可能由于分词算法固有的属性而导致分词存在误差。在其中一个可选的实施例中，服务器可以通过多种分词算法对样本文本进行分词，并综合多种分词算法的分词结果以得到初始分词。但是本领域技术人员可以确定的是，由于分词算法的固有的误差，所得到的初始分词仍可能存在误差。

在其中一个优选的实施例中，通过分词算法对样本文本进行分词处理可以得到初始分词，以及初始分词对应的词性，这样在裁判文书信息提取的时候，可以根据词性以及后续所确定的待处理分词以得到实体以及关系，例如待处理分词一般是预先设置的关系，这样在该关系前后预设距离处所出现的目标分词即为实体，这样可以根据语义识别的结果(本申请中并不重点描述，其中语义识别可以是现有的任意一种语义识别方法)、关系以及实体得到实体以及关系。

S406：对初始分词进行识别确定待处理分词，并获取待处理分词对应的目标文本。

具体地，待处理分词是从初始分词中筛选得到的，也就是说待处理分词对应的集合是初始分词对应的集合的子集。

在其中一个可选的实施例中，服务器中可以存储有预先配置得到的关键词集合，服务器通过模糊匹配等算法将初始分词与该关键词集合中的关键词进行匹配以确定待处理分词，即与关键词集合中的关键词匹配成功的初始分词作为待处理分词。预先配置的关键词集合是用户预先设置的，其主要是用于描述关系的出现在裁判文书中的词，在其他的实施例中其还可以包括用于描述实体的词，在此不做具体的限定。服务器通过模糊匹配的方式对初始分词进行筛选以得到待处理分词，以避免由于关键词词典内罗列的词较少而导致匹配出现遗漏的情况。

在其中一个实施例中，上述的方法还包括：将模糊匹配确定的且与不在关键词集合中的待处理分词，添加至关键词集合中。

在其中一个实施例中，目标文本是与待处理分词对应的，根据该待处理分词从样本文本中选取对应部分作为目标文本。例如目标文本可以是待处理分词所在的目标段落，当目标段落较短，例如字数低于一定值时，目标文本还可以包括目标段落之前或之后一定数量的段落。在其他的实施例中目标文本还可以是根据待处理分词所确定的预设数量的段落，或者是预设数量的行数所对应的文本，甚至是预设数量的字数所对应的文本等等。在此不具体限制目标文本的选择方式。但是为了方便操作，在一个优选的实施例中，获取待处理分词对应的目标文本，包括：获取待处理分词所在的段落作为待处理分词对应的目标文本。

S408：对目标文本中的初始分词进行重匹配得到目标分词。

具体地，目标分词是对目标文本中的初始分词进行重匹配得到的。需要说明的是，无论以何种方式确定目标文本，当目标文本中存在多个待处理分词时，则根据待处理分词确定的目标文本需要进行去重处理，以保证仅对一个目标文本进行重匹配操作。

其中重匹配是对目标文本中的初始分词进行重新匹配的方法，其主要原因是初始分词在分词时存在误差，例如“中国工商银行湖北分行某某支行”会切分成：中国、工商、银行、湖北分行、某某、支行，该分词并不是想要的，因此会利用重匹配操作进行词句的重组合。具体地，其可以对目标文本中的初始分词进行重新组合，其中组合的方式可以是任意相邻的分词进行组合，其可以是由两个相邻、三个相邻等等初始分词进行组合，在一个优选的实施例中，服务器可以预先设定初始分词组合的最大分词数量，这样避免分词过长导致处理效率降低。

其中在对初始分词组合后，服务器对组合后的初始分词(其中包括初始分词本身，以及由至少两个初始分组组合得到的组合分词)进行判定以得到目标分词，例如根据语义、在初始文本中的词频以及词长中任意一项进行判定。在一个优选的实施例中，服务器可以首先根据语义对组合后的初始分词进行筛选以删除没有具体语义的组合后的初始分词，例如服务器可以根据词性进行判断，以删除掉句子或者是无含义的组合后的初始分词。若删除后，涉及相同初始分词的组合后的初始分词(即组合分词)仅剩一个分词，则直接输出，否则服务器根据组合后的初始分词在初始文本中的词频再一次进行筛选，若是涉及相同初始分词的组合后的初始分词(即组合分词)仅剩一个分词，则直接输出，否则服务器继续根据词长进行筛选，例如选择词长最长的一个组合分词作为目标分词。这样可以准确地对样本文本进行分词处理。

S410：根据目标分词对初始模型进行训练得到文本信息提取模型。

具体地，初始模型可以是任意的模型，其可以仅是模型的架构，或者是已经训练好的对文本识别的模型，例如bert模型，这样根据目标分词通过迁移学习的方式进行训练得到文本信息提取模型。

这样通过文本信息提取模型实现对裁判文书中资金具体金额的流入与流出识别，通过创建裁判文书关键字词库、文本信息提取模型以及模糊匹配算法等，在裁判文书的资金流转场景取得很好的实体关系的抽取效果。

上述实施例中，先对样本文本进行分词得到初始分词，然后确定初始分词中的待处理分词，这样根据待处理分词确定对应的目标文本，再对目标文本中的初始分词进行重匹配得到目标分词，使得分词结果更为准确，这样更为准确的目标分词进行训练得到的文本信息提取模型也更为准确，进而后续用该文本信息提取模型进行文本提取所得到的文本也更为准确。

在其中一个实施例中，对目标文本中的初始分词进行重匹配得到目标分词，包括：对目标文本中的初始分词进行组合得到组合分词；通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个，对组合分词进行处理得到目标分词。

具体地，其可以对目标文本中的初始分词进行重新组合，其中组合的方式可以是任意相邻的分词进行组合，其可以是由两个相邻、三个相邻等等初始分词进行组合，在一个优选的实施例中，服务器可以预先设定初始分词组合的最大分词数量，这样避免分词过长导致处理效率降低。

为了方便本领域技术人员的理解，下面结合具体的实施例进行说明：由于裁判文书中涉及较多的公司名称、人名等因此传统的HMM模型会将公司名称切分为多个词，例如：’中国公司银行有限公司’，则被切分为’中国’、’工商’、’银行’、’有限’、’公司’五个词组成，诸如此类，因此需要对切分好的词组集合M，进行重匹配，本实施例利用关键词集合S1利用模糊匹配方法将关键词附近词组进行组合得到集合S2，并将集合S2在裁判文书T1中进行词频搜索，并对集合S2内结果进行对比，通过对比词长与词频确定新目标，其具体算法步骤如下：

首先对分词集合M对关键词集合S1附近词组进行抽取，利用模糊匹配算法获得多个组合S2。

然后利用裁判文书T1对组合S2内词组进行词频统计。

第三对比集合S2内词组的语义、词长与词频，确定新的词组word。

最后依据确定的词组，对集合M进行重组，获得新集合M1。

具体地，为了方便理解，结合图5所示，图5为一个实施例中资金转移知识图谱构建示意图，在该实施例中，主要分为3个步骤：

基于bert模型结合重匹配方法建立远程监督(其中远程监督可以是指对抽取的实体和关系进行审核判断)和开放域信息抽取算法，建立法律文书中金融实体与关系抽取模型，并抽取相应的实体和相互关系(target、relation、target)。利用已有的金融信息系统，建立原始金融风险知识图谱，例如获取到已有的结构化金融信息，利用资金转移关系建立初始金融风险知识图谱；利用抽取的实体和关系信息，采用模糊匹配和关系匹配算法，对原始金融风险知识图谱进行实体连接和实体信息注入，完善金融风险知识图谱。

其中，抽取的实体和关系信息，采用模糊匹配和关系匹配算法，对原始金融风险知识图谱进行实体连接和实体信息注入，完善金融风险知识图谱，可以包括(此处主要以实体为主进行介绍，关系的方法类似)：建立原始实体评分模型，通过模糊匹配过滤实体，计算实体相似度，确定连接实体，并注入实体，完善新金融资金转移图谱。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的知识图谱构建方法的知识图谱构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个知识图谱构建装置实施例中的具体限定可以参见上文中对于知识图谱构建方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种知识图谱构建装置，包括：初始知识图谱获取模块601、信息抽取模块602、过滤模块603、筛选模块604和构建模块605，其中：

初始知识图谱获取模块601，用于获取初始知识图谱；

信息抽取模块602，用于获取待处理文本，并对待处理文本进行信息抽取得到待处理信息；

过滤模块603，用于将待处理信息与初始知识图谱中的初始信息进行模糊匹配，以对初始信息进行过滤；

筛选模块604，用于基于待处理信息对过滤后的初始信息进行筛选得到目标信息；

构建模块605，用于根据目标信息、待处理信息以及初始知识图谱进行目标知识图谱的构建。

在其中一个实施例中，上述筛选模块604所实现的基于待处理信息对过滤后的初始信息进行筛选得到目标信息，包括以下至少一种：计算过滤后的初始信息与待处理信息的第一字符距离，根据第一字符距离对过滤后的初始信息进行筛选得到目标信息；获取过滤后的初始信息的第一辅助信息，以及待处理信息对应的第二辅助信息，基于第一辅助信息、第二辅助信息、初始信息以及待处理信息对过滤后的初始信息进行筛选得到目标信息。

在其中一个实施例中，上述筛选模块604包括：

权重获取单元，用于获取辅助信息和待处理信息的类型权重；

字符距离计算单元，用于计算过滤后的初始信息与待处理信息的第一字符距离，以及第一辅助信息和第二辅助信息的第二字符距离；

相似指标值计算单元，用于根据第一字符距离、第二字符距离以及类型权重计算每一过滤后的初始信息的相似指标值；

筛选单元，用于根据相似指标值对过滤后的初始信息进行筛选得到目标信息。

在其中一个实施例中，上述权重获取单元包括：

数量确定子单元，用于确定过滤后的初始信息的数量；

权重获取子单元，用于根据初始信息的数量确定初始信息的类型权重，并根据初始信息的类型权重计算得到辅助信息的类型权重。

在其中一个实施例中，上述信息抽取模块602还用于通过预先训练得到的文本信息提取模型对待处理文本进行信息抽取得到待处理信息。

上述知识图谱构建装置还可以包括：

样本文本获取模块，用于获取样本文本；

分词模块，用于对样本文本进行分词处理得到初始分词；

目标文本获取模块，用于对初始分词进行识别确定待处理分词，并获取待处理分词对应的目标文本；

重匹配模块，用于对目标文本中的初始分词进行重匹配得到目标分词；

训练模块，用于根据目标分词对初始模型进行训练得到文本信息提取模型。

在其中一个实施例中，上述重匹配模块可以包括：

组合单元，用于对目标文本中的初始分词进行组合得到组合分词；

目标分词获取单元，用于通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个，对组合分词进行处理得到目标分词。

上述知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始知识图谱和待处理文本等等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识图谱构建方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取初始知识图谱；获取待处理文本，并对待处理文本进行信息抽取得到待处理信息；将待处理信息与初始知识图谱中的初始信息进行模糊匹配，以对初始信息进行过滤；基于待处理信息对过滤后的初始信息进行筛选得到目标信息；根据目标信息、待处理信息以及初始知识图谱进行目标知识图谱的构建。

在一个实施例中，处理器执行计算机程序时所实现的基于待处理信息对过滤后的初始信息进行筛选得到目标信息，包括以下至少一种：计算过滤后的初始信息与待处理信息的第一字符距离，根据第一字符距离对过滤后的初始信息进行筛选得到目标信息；获取过滤后的初始信息的第一辅助信息，以及待处理信息对应的第二辅助信息，基于第一辅助信息、第二辅助信息、初始信息以及待处理信息对过滤后的初始信息进行筛选得到目标信息。

在一个实施例中，处理器执行计算机程序时所实现的基于第一辅助信息、第二辅助信息、初始信息以及待处理信息对过滤后的初始信息进行筛选得到目标信息，包括：获取辅助信息和待处理信息的类型权重；计算过滤后的初始信息与待处理信息的第一字符距离，以及第一辅助信息和第二辅助信息的第二字符距离；根据第一字符距离、第二字符距离以及类型权重计算每一过滤后的初始信息的相似指标值；根据相似指标值对过滤后的初始信息进行筛选得到目标信息。

在一个实施例中，处理器执行计算机程序时所实现的获取辅助信息和待处理信息的类型权重，包括：确定过滤后的初始信息的数量；根据初始信息的数量确定初始信息的类型权重，并根据初始信息的类型权重计算得到辅助信息的类型权重。

在一个实施例中，处理器执行计算机程序时所实现的对待处理文本进行信息抽取得到待处理信息，包括：通过预先训练得到的文本信息提取模型对待处理文本进行信息抽取得到待处理信息；处理器执行计算机程序时所实现的文本信息提取模型的训练方法包括：获取样本文本；对样本文本进行分词处理得到初始分词；对初始分词进行识别确定待处理分词，并获取待处理分词对应的目标文本；对目标文本中的初始分词进行重匹配得到目标分词；根据目标分词对初始模型进行训练得到文本信息提取模型。

在一个实施例中，处理器执行计算机程序时所实现的对目标文本中的初始分词进行重匹配得到目标分词，包括：对目标文本中的初始分词进行组合得到组合分词；通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个，对组合分词进行处理得到目标分词。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取初始知识图谱；获取待处理文本，并对待处理文本进行信息抽取得到待处理信息；将待处理信息与初始知识图谱中的初始信息进行模糊匹配，以对初始信息进行过滤；基于待处理信息对过滤后的初始信息进行筛选得到目标信息；根据目标信息、待处理信息以及初始知识图谱进行目标知识图谱的构建。

在一个实施例中，计算机程序被处理器执行时所实现的基于待处理信息对过滤后的初始信息进行筛选得到目标信息，包括以下至少一种：计算过滤后的初始信息与待处理信息的第一字符距离，根据第一字符距离对过滤后的初始信息进行筛选得到目标信息；获取过滤后的初始信息的第一辅助信息，以及待处理信息对应的第二辅助信息，基于第一辅助信息、第二辅助信息、初始信息以及待处理信息对过滤后的初始信息进行筛选得到目标信息。

在一个实施例中，计算机程序被处理器执行时所实现的基于第一辅助信息、第二辅助信息、初始信息以及待处理信息对过滤后的初始信息进行筛选得到目标信息，包括：获取辅助信息和待处理信息的类型权重；计算过滤后的初始信息与待处理信息的第一字符距离，以及第一辅助信息和第二辅助信息的第二字符距离；根据第一字符距离、第二字符距离以及类型权重计算每一过滤后的初始信息的相似指标值；根据相似指标值对过滤后的初始信息进行筛选得到目标信息。

在一个实施例中，计算机程序被处理器执行时所实现的获取辅助信息和待处理信息的类型权重，包括：确定过滤后的初始信息的数量；根据初始信息的数量确定初始信息的类型权重，并根据初始信息的类型权重计算得到辅助信息的类型权重。

在一个实施例中，计算机程序被处理器执行时所实现的对待处理文本进行信息抽取得到待处理信息，包括：通过预先训练得到的文本信息提取模型对待处理文本进行信息抽取得到待处理信息；计算机程序被处理器执行时所实现的文本信息提取模型的训练方法包括：获取样本文本；对样本文本进行分词处理得到初始分词；对初始分词进行识别确定待处理分词，并获取待处理分词对应的目标文本；对目标文本中的初始分词进行重匹配得到目标分词；根据目标分词对初始模型进行训练得到文本信息提取模型。

在一个实施例中，计算机程序被处理器执行时所实现的对目标文本中的初始分词进行重匹配得到目标分词，包括：对目标文本中的初始分词进行组合得到组合分词；通过组合分词在样本文本中的词频、组合分词的词长以及组合分词的句法结构其中至少一个，对组合分词进行处理得到目标分词。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：获取初始知识图谱；获取待处理文本，并对待处理文本进行信息抽取得到待处理信息；将待处理信息与初始知识图谱中的初始信息进行模糊匹配，以对初始信息进行过滤；基于待处理信息对过滤后的初始信息进行筛选得到目标信息；根据目标信息、待处理信息以及初始知识图谱进行目标知识图谱的构建。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种知识图谱构建方法，其特征在于，所述方法包括：

获取初始知识图谱；

2.根据权利要求1所述的方法，其特征在于，所述基于所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息，包括以下至少一种：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一辅助信息、所述第二辅助信息、所述初始信息以及所述待处理信息对过滤后的所述初始信息进行筛选得到目标信息，包括：

获取辅助信息和所述待处理信息的类型权重；

4.根据权利要求3所述的方法，其特征在于，所述获取辅助信息和所述待处理信息的类型权重，包括：

确定过滤后的所述初始信息的数量；

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述对所述待处理文本进行信息抽取得到待处理信息，包括：

所述文本信息提取模型的训练方法包括：

获取样本文本；

对所述样本文本进行分词处理得到初始分词；

对所述目标文本中的初始分词进行重匹配得到目标分词；

6.根据权利要求5所述的方法，其特征在于，所述对所述目标文本中的初始分词进行重匹配得到目标分词，包括：

对所述目标文本中的初始分词进行组合得到组合分词；

7.一种知识图谱构建装置，其特征在于，所述装置包括：

初始知识图谱获取模块，用于获取初始知识图谱；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。