CN116226404A

CN116226404A - 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统

Info

Publication number: CN116226404A
Application number: CN202310235160.3A
Authority: CN
Inventors: 宋兆祺; 孙浩然; 陈秋鸣; 王美玲; 杨凤龙
Original assignee: Fujian Medical University
Current assignee: Fujian Medical University
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-06

Abstract

本发明公开了知识图谱构建技术领域的一种针对肠‑脑轴的知识图谱构建方法及知识图谱系统，知识图谱系统包括文献知识爬取模块，用于文献知识自动爬取；信息抽取模块，用于命名实体识别和关系抽取，得到三元组数据；知识图谱补全模块，用于推理出缺失和遗漏的关系，并采用TransH算法将知识图谱补全；知识图谱融合模块，用于选出最优模型进行实体对齐；数据集序列化模块，用于将数据集序列化；知识图谱储存及可视化模块，用于将知识数据进行可视化展示。本发明爬取肠‑脑轴文献知识，并利用爬取到的新的有关肠‑脑轴的知识对肠‑脑轴的知识图谱进行补全，便于人们及时获取到最新且完整的肠‑脑轴知识图谱并探索与学习。

Description

一种针对肠-脑轴的知识图谱构建方法及知识图谱系统

技术领域

本发明属于知识图谱构建技术领域，具体是一种针对肠-脑轴的知识图谱构建方法及知识图谱系统。

背景技术

脑-肠轴指的是大脑与肠道间的双向信息交流网络，广义上包括神经交互通路，神经内分泌和神经免疫途径，肠道微生物群等。

现如今，有关肠道微生物调控宿主中枢神经系统的研究成果散布在各个网站以及出版社，并且大多数是以非结构化或者半结构化的自由文本存在的。该种形式不便于人们对未知领域的探索与学习，也无法进行计算机读取致使人工智能不能在该领域开拓应用。

然而，基于知识图谱的微生物平台有能力将人类探索积累的知识让机器可读，并具有可解释性以增强使用者对信息准确性的可信度，从而搜索潜在关系以支持更好的决策。通过知识图谱整合各种相关资源并推断肠道微生物与中枢神经系统的潜在关联，更全面地认识精神疾病的发病机理并为进一步优化治疗措施提供思路。

发明内容

本发明的目的是提供一种针对肠-脑轴的知识图谱构建方法及知识图谱系统，以解决背景技术中存在的问题。

为了实现上述目的，一方面，本发明提供了一种针对肠-脑轴的知识图谱系统，包括：

文献知识爬取模块，根据关键词定时对文献数据库内的文献知识自动爬取，将爬取的数据形成数据流；

信息抽取模块，用于基于文献知识爬取模块形成的数据流，进行命名实体识别和关系抽取，得到三元组数据；

知识图谱补全模块，用于基于原有知识图谱里已经存在的关系，推理出缺失和遗漏的关系，并采用TransH算法将知识图谱补全；

知识图谱融合模块，用于对实体数据进行替换缩写、移除特殊符号等预处理操作；进行同源数据去重，并将每个知识图谱中的相似实体映射到同一模块中；基于分类、聚类思路对实体对齐效果进行评估，选出最优模型进行实体对齐；

数据集序列化模块，用于创建RDF数据集，并使用Turtle法将数据集序列化；

知识图谱储存及可视化模块，用于将RDF形式的知识数据导入到Neo4j中存储，并进行可视化展示。

进一步，文献知识爬取模块根据microbiota,gut-brain axis,neurodevelopment,autism,anxiety,depression关键词进行文献知识自动爬取。

进一步，信息抽取模块包括：

命名实体识别单元，用于对文献知识爬取模块爬取到的文献知识内具有特定意义或者指代性强的实体进行命名和分类；

关系抽取单元，用于基于命名实体识别单元对实体的命名和分类进行关系抽取。

进一步，关系抽取单元基于现有的完整外部知识库进行关系抽取。

进一步，知识图谱储存及可视化模块可通过查询语言Cypher对指定知识进行查询。

另一方面，本发明提供了一种针对肠-脑轴的知识图谱构建方法，包括如下步骤：

S1、文献知识爬取，根据关键词定时对文献数据库内的文献知识自动爬取，将爬取的数据形成数据流；

S2、信息抽取，基于S1形成的数据流，进行命名实体识别和关系抽取，得到三元组数据；

S3、补全知识图谱，基于原有知识图谱里已经存在的关系，推理出缺失和遗漏的关系，并采用TransH算法将知识图谱补全；

S4、知识图谱融合，首先对实体数据进行替换缩写、移除特殊符号等预处理操作；然后进行同源数据去重，并将每个知识图谱中的相似实体映射到同一模块中；最后，基于分类、聚类思路对实体对齐效果进行评估，选出最优模型进行实体对齐；

S5、数据集序列化，利用RDF序列化知识图谱三元组数据，创建RDF数据集，并使用Turtle法将数据集序列化；

S6、知识图谱存储及可视化，将RDF形式的知识数据导入到Neo4j中存储，并进行可视化展示。

进一步，S2的命名实体识别包括如下步骤：

S101、人工标注,通过标注工具Label Studio对S1爬取到的小部分文献知识内的文本数据集进行人工标注；

S102、词嵌入，将文本中的词语转换成词向量，具体是通过skipgram的word2vec方法，将文本映射到数值的向量空间中；

S103、命名实体识别，构建命名神经网络模型，采用BiLSTM-CRF模型，将词嵌入得到的词向量输入命名神经网络模型中，进行迭代训练，通过迭代训练后的命名神经网络模型得到命名实体和实体类型。

进一步，S2的关系抽取包括如下步骤：

S201、特征选择：选择词法特征、句法特征和实体标签特征；

S202、关系抽取：构建关系抽取深度学习模型，采用PCNN进行训练和预测，基于S103得到命名实体和实体类型，通过关系抽取深度学习模型得到预测的实体对的关系，并通过在线学习策略，对深度学习模型进行更新优化，得到关系抽取结果。

进一步，S4的预处理操作通过如下方式进行，检索三元组数据中是否有缩写情况，将其改正为对应的完整微生物或者精神疾病名称；设置固定的实体格式；移除空格、单引号、双引号等标点符号和特殊字符。

进一步，S4的同源数据去重通过如下方式进行，基于微生物菌群建立与微生物菌群数量对应的模块，将每个知识图谱中的微生物实体归类至对应的模块中，通过Proj函数对每个知识图谱的各模块进行子模块划分。

采用上述方案有以下有益效果：

1、相较于现有技术，本发明爬取肠-脑轴文献知识，并利用爬取到的新的有关肠-脑轴的知识对肠-脑轴的知识图谱进行补全，便于人们及时获取到最新且完整的肠-脑轴知识图谱并探索与学习。

2、本发明通过文献知识爬取模块，根据关键词定时对文献数据库内的文献知识自动爬取，这样的定时自动爬取操作能够定时对肠－脑轴知识图谱内的内容进行更新，使肠-脑轴知识图谱内容与时俱进。

3、本发明基于现有的完整外部知识库进行关系抽取，较好地解决了缺少标注数据的难题，避免了关系抽取神经网络预测准确率低下的问题，且提高了该模型的拟合程度。

4、本发明在知识图谱融合前，充分考虑实体的类别归属以及文本相似性，模块式的划分使得只需要在最大可能存在潜在对齐关系的模块内部两两比对，降低实体对齐时的无效比对尝试，加快了系统运行的速度，减少了计算资源空间的浪费。

5、本发明基于分类、聚类思路对实体对齐效果进行评估，选出最优模型进行实体对齐，可以确定实体对齐任务准确度最高的模型，从而提升知识融合的可信度。

6、本发明针对肠-脑轴的知识图谱的构建方法是透明化的，并不像传统机器学习算法——黑盒实验，机器实际学习到何种知识我们无处考究。知识图谱有能力将人类探索积累的知识让机器可读，并具有可解释性以增强使用者对信息准确性的可信度，从而搜索潜在关系以支持更好的决策。

7、利用Neo4j对知识图谱进行存储和可视化处理，将抽象的数据映射到实际的一个个节点的形式来对图谱进行展示；并可通过Cypher查询语言快速筛选出相应的肠道微生物和精神疾病的关系，从而起到多跳问答知识推理的功能。

附图说明

图1为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的总流程图；

图2为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的系统框架图；

图3为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的BiLSTM-CRF模型图；

图4为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的数据流与模型之间形成的闭环流程图；

图5为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的知识融合示意图；

图6为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的知识融合目的示意图；

图7为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的知识融合流程图；

图8为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的最优对齐模型流程图；

图9为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的层次聚类原理示意图；

图10为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的Turtle形成的RDF文件示例图；

图11为本发明针对肠-脑轴的知识图谱构建方法及知识图谱系统实施例的Turtle方法的部分代码解释表。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例基本如附图1所示：一种针对肠-脑轴的知识图谱构建方法及知识图谱系统，具体实施过程如下：

S1、文献知识爬取模块进行文献知识爬取，根据关键词定时对文献数据库内的文献知识自动爬取，并形成数据流。

具体是利用python爬虫根据microbiota,gut-brain axis,neurodevelopment,autism,anxiety,depression关键词对PubMed、Springer和Google Scholar等文献数据库中的文献知识间隔一个月时间进行一次自动爬取，获取目前最前沿的肠-脑轴领域的相关研究成果。

S2、信息抽取模块进行信息抽取，基于S1中定时爬取所形成的数据流，进行命名实体识别和关系抽取，得到三元组数据。

命名实体识别单元进行命名实体识别包括如下步骤：

S101、人工标注,通过标注工具Label Studio对S1爬取到的小部分文献知识内的文本数据集进行人工标注，标注内容包括实体所属的类别和实体的起始位置。人工标注数据后续作为命名神经网络模型迭代的训练集。

S102、词嵌入，将文本中的词语转换成词向量，具体是通过skipgram的word2vec方法，将文本映射到数值的向量空间中。

S103、命名实体识别，使用Pytorch架构构建命名神经网络模型，采用BiLSTM-CRF模型，将词嵌入得到的词向量输入命名神经网络模型中，进行迭代训练：

在BiLSTM的输出层后还添加了线性层,将BiLSTM产生的隐藏层输出结果投影到特定类别标签的预测概率区间。

CRF为条件随机场，是给定输入序列的条件下,求解输出序列的条件概率分布模型，加入CRF层能很好地降低犯该种错误的概率。

CRF定义发射分数和转移分数。发射分数指的是当前的字确定为该标签的概率，转移分数指的是该模型定义或假设的从一个类别到另一个类别的转移概率，通常是转移分数矩阵形式。而CRF的损失函数由真实路径的概率分数和总路径的概率分数两部分所构成。如下，每一条路径的得分是Pi，总计N条路径，S代表每一条路径的得分，e是自然常数，则总路径的分数为：

按照上述的定义，真实路径的概率分数是所有路径里面最高的。因此，我们定义CRF的损失函数，模型将根据损失函数进行反向传播，参数也会在不断迭代中得到更新，P_Realpath°

代表真实路径的分数：

并通过迭代训练后的命名神经网络得到命名实体和实体类型。

关系抽取单元进行关系抽取包括如下步骤：

S201、特征选择：选择词法特征(Lexical features)、句法特征(Syntacticfeatures)和实体标签特征(Named entity tag features)；上述特征均对实体对的关系确定有较大的影响。

S202、关系抽取：构建关系抽取深度学习模型，采用PCNN进行训练和预测：

将关系抽取深度学习模型基于MiKG进行训练，然后高效地完成关系抽取的预测工作。MiKG是现有的肠脑轴领域较为完善的知识图谱，它集成融合了UMLS、KEGG、Mesh、SNOMEDCT等大型数据库，实体、关系覆盖面广，有效的提升关系抽取深度学习模型的训练效果。

将模型所识别出来的实体以及关系与原先模型预测的关系和MiKG外部知识库进行比较，将与知识库具有差异的视为新知识，再将新知识纳入训练模型的知识库中，重新对抽取深度学习模型进行训练，在数据流与模型之间形成了一个完整的闭环，使抽取深度学习模型具有实时更新和优化的优点。

基于S103得到命名实体和实体类型，通过抽取深度学习模型最终得到关系抽取结果。

S3、知识图谱补全模块进行补全知识图谱，基于原有知识图谱里已经存在的关系，首先推理出缺失和遗漏的关系。

G＝{E,R,F}

上式中G代表的是知识图谱，E表示所有实体的集合，R表示所有关系的集合，F为所有三元组的集合。

我们进行知识图谱补全目的是预测出当前知识图谱中缺失的三元组，其定义如下：

上式中h和t代表头部实体以及尾部实体，r代表头尾部实体之间的关系，F代表目前知识图谱中已经存在的所有三元组，E代表目前知识图谱中已经存在的所有实体的集合，R代表目前知识图谱中已经存在的所有关系的集合。

在上一步骤中提到的预测出当前知识图谱中缺失的三元组F'可以分成3个子任务：

头实体预测：(？,r,t)

关系预测：(h,？,t)

尾实体预测：(h,r,？)

如上所示的三个子任务中，表示要预测的部分，而另外两部分是已知的。然后再采用TransH算法将知识图谱补全。

S4、知识图谱融合模块进行知识图谱融合，首先对实体数据进行替换缩写、移除特殊符号等预处理操作，检索三元组数据中是否有缩写情况，将其改正为对应的完整微生物或者精神疾病名称；设置固定的实体格式；移除空格、单引号、双引号等标点符号和特殊字符。

然后进行同源数据去重，并将每个知识图谱中的相似实体映射到同一模块中，对每一个数据库或者知识图谱进行去除重复实体三元组操作，最大程度地降低后续实体对齐的候选集的数据量，加快实体对齐的运行时间。

鉴于肠道微生物可以被划分成厚壁菌门、拟杆菌门、变形菌门、放线菌门、疣微球菌门、梭杆菌门、蓝藻菌门、螺旋体门、VadinBE97门九大菌群，我们将每个数据库或者知识图谱中的微生物实体归类到九个模块之中，然后再根据Proj函数对每个数据库的九大模块进行子模块划分——即字符表达相似的实体又可被划分为同一模块中。

Proj函数的映射规则是将任意长度的输入，通过内部算法变成固定长度的输出。

Proj函数公式：

Proj(x,n)＝W_i

其中，x代表知识图谱中某一实体，n代表截取前n个字符进行映射，W_i代表该实体映射到的模块。

如若出现Proj映射的子模块数量庞大的情况，即反映出该知识图谱的实体的字符串形式相似度不显著；可以利用Canopy聚类算法进行重新划分子模块。

通过One-Hot编码对实体向量化以便于后续距离计算。

首先，确定Canopy算法中两个距离阈值，分别为M1，M2(M1>M2).

然乎，随机取某一模块中的一个实体作为中心实体，计算知识图谱中所有实体到中心实体Q的余弦距离。(步骤1)

利用余弦距离衡量实体的相似度：

其中，x,y分别代表两个不同的实体向量，x_iy_i代表两向量的第i个分量，n代表实体向量维度。

最后，将所有余弦距离小于M1的实体都合并到以中心实体Q为中心的一类中，将所有余弦距离小于M2的实体，都从模块中删除。(步骤2)

重复步骤1到2，直到该模块为空，即可形成多个实体子模块，降低实体对齐的工作量。

如附图8所示，基于分类、聚类思路对实体对齐效果进行评估：

依旧保持知识在模块块步骤的向量化形式，通过自定义一种相似度比较方法去匹配具有潜在对齐关系的实体。

定义实体之间的对齐函数：

/>

其中，S(x,y,T₁)代表实体之间对齐函数，J(x_i,y_i)代表Jaccard相似度函数，x,y分别代表两个不同的实体向量，x_i,y_i代表两向量的第i个分量，n代表实体向量维度,T₁代表对齐阈值——当大T₁于时，1代表两实体对齐；当小于等于T₁时，0代表两实体不能对齐。

Jaccard相似度函数：

其中，x_i,y_i同上公式含义。

通过对所有模块中30％的知识进行人工实体对齐作为有监督对齐的正确标签，然后使用RandomForest和SVM算法(实际操作中不局限于此两种算法)分别进行交叉验证(20％数据)，寻找使对齐准确率达到最高的T₁以及)a_i(i＝1 to n)；利用余下的10％的数据集对两个模型进行测试对比，选择准确率最高的模型。

利用上述方法找到不同知识图谱之间对应模块的对齐最优模型，然后进行全模块实体对齐，完成实体对齐任务。

聚类方向：

其中包含基于距离的聚类以及基于相关性的聚类。

(1)基于距离的聚类：层次聚类

将模块中的每一个微生物或者精神疾病作为一个独立的类别，两两计算它们之间的欧式距离。

欧式距离计算公式：

其中，d(x,y)代表两实体间的欧式距离，x,y分别代表两个不同的实体向量，x_i,y_i代表两向量的第i个分量，n代表实体向量维度。

将距离最小的两类实体集合并成一类(相当于总类别数减少一类)，然后再重新计算任意两类之间的距离，继续合并，直至整个模块只剩下一类。由于聚类树自顶向下会有许多种聚类组合，所以需要反复实验确定最优的聚类阈值。

(2)基于相关系数的聚类：

实体相关性分析是指对指定模块两个或多个具备相关性的实体变量进行分析，从而衡量两个实体变量的相关密切程度；并且相关性不等于因果性，而是综合各种维度进行的关联性。

对任意两个实体向量计算皮尔逊相关系数，衡量它们之间的相似程度。

皮尔逊相关系数：

其中，R代表任意两个实体之间的皮尔逊相关系数，

分别代表两个不同的实体均值向量，x_i,y_i代表两向量的第i个分量，n代表实体向量维度。/>

将处于该模块的所有高相关度的实体聚合成一类，互不相关的单独一类，从而达到实体对齐的任务。

通过权衡分类方向模型和聚类方向模型的准确率、精确率、召回率以及模型的运行时间来决定一种实体对齐的最终方法。

同时，创建知识记忆库，记录对齐频率显著的实体名称。

S5、数据集序列化模块利用RDF序列化知识图谱三元组数据，创建RDF数据集，并使用Turtle法将数据集序列化。

如附图10为Turtle序列化方法处理形成的RDF文件示例，其部分代码解释如附图11所示；据附图11我们对Turtle示例代码的第8行进行如下解释：大肠杆菌与抑郁症之间存在着联系，且大肠杆菌会增加患抑郁症的风险。像这样的一行代码就表示了类似于<实体，关系，实体>这一形式的三元组，两个实体分别为大肠杆菌和抑郁症，关系为Increase。

S6、知识图谱储存及可视化模块进行知识图谱存储及可视化，将RDF形式的知识数据导入到Neo4j中存储，并进行可视化展示；同时，还可以使用查询语言Cypher对指定知识进行查询。

以上所述的仅是本发明的实施例，方案中公知的具体结构和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种针对肠-脑轴的知识图谱系统，其特征在于：包括：

文献知识爬取模块，用于根据关键词定时对文献数据库内的文献知识自动爬取，将爬取的数据形成数据流；

2.根据权利要求1所述的针对肠-脑轴的知识图谱系统，其特征在于：文献知识爬取模块根据microbiota,gut-brainaxis,neurodevelopment,autism,anxiety,depression关键词进行文献知识自动爬取。

3.根据权利要求1所述的针对肠-脑轴的知识图谱系统，其特征在于：信息抽取模块包括：

4.根据权利要求1所述的针对肠-脑轴的知识图谱系统，其特征在于：关系抽取单元基于现有的完整外部知识库进行关系抽取。

5.根据权利要求1所述的针对肠-脑轴的知识图谱系统，其特征在于：知识图谱储存及可视化模块可通过查询语言Cypher对指定知识进行查询。

6.一种针对肠-脑轴的知识图谱构建方法，其特征在于：包括如下步骤：

7.根据权利要求6所述的针对肠-脑轴的知识图谱构建方法，其特征在于：S2的命名实体识别包括如下步骤：

S101、人工标注,通过标注工具LabelStudio对S1爬取到的小部分文献知识内的文本数据集进行人工标注；

8.根据权利要求6所述的针对肠-脑轴的知识图谱构建方法，其特征在于：S2的关系抽取包括如下步骤：

S201、特征选择：选择词法特征、句法特征和实体标签特征；

9.根据权利要求6所述的针对肠-脑轴的知识图谱构建方法，其特征在于：S4的预处理操作通过如下方式进行，检索三元组数据中是否有缩写情况，将其改正为对应的完整微生物或者精神疾病名称；设置固定的实体格式；移除空格、单引号、双引号等标点符号和特殊字符。

10.根据权利要求6所述的针对肠-脑轴的知识图谱构建方法，其特征在于：S4的同源数据去重通过如下方式进行，基于微生物菌群建立与微生物菌群数量对应的模块，将每个知识图谱中的微生物实体归类至对应的模块中，通过Proj函数对每个知识图谱的各模块进行子模块划分。