CN111949802A

CN111949802A - 医学领域知识图谱的构建方法、装置、设备及存储介质

Info

Publication number: CN111949802A
Application number: CN202010785288.3A
Authority: CN
Inventors: 张圣
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-17
Anticipated expiration: 2040-08-06
Also published as: CN111949802B; WO2021139247A1

Abstract

本发明公开了一种医学领域知识图谱的构建方法、装置、设备及存储介质，该构建方法包括：获取通用知识图谱中的全部三元组集合，并从三元组集合中获取待识别三元组，从待识别三元组中确定待识别第一实体和待识别第二实体；采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体；当待识别第一实体和待识别第二实体同时为医学领域实体时，确定待识别三元组为目标三元组；将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合并构建医学领域知识图谱。通过上述方式，本发明能够从通用知识图谱中自动识别医学领域知识，并自动构建高质量且覆盖各种类型的医学领域知识图谱，效率高、人力成本低且覆盖面广。

Description

医学领域知识图谱的构建方法、装置、设备及存储介质

技术领域

本发明涉及知识图谱技术领域，特别是涉及一种医学领域知识图谱的构建方法、装置、设备及存储介质。

背景技术

医学知识图谱对于医学基础研究、智慧医疗、临床诊断决策等方面都有重要的意义，此外，医学知识图谱的应用也非常广泛，比如基于医学知识图谱的智能搜索、智能问答、智能推荐、辅助诊断等方面。

但是，目前市场上高质量的医学领域知识图谱较少，大部分都是医学领域细分的知识图谱，比如基因-疾病-靶标知识图谱、基因-物质-交互关系知识库等，目前还没有比较全面的覆盖各种类型的医学知识的高质量医学知识图谱。目前高质量的医学知识图谱的构建方式主要还是基于专家构建，专家构建的知识图谱质量虽高，但覆盖的医学知识很少。现有的构建医学知识图谱主要思路是从医学文献中进行关系抽取获取知识构建知识图谱，但是关系抽取模型标签数据集的标注获取同样需要花费大量的专家人力，而且目前最优的基于深度学习关系抽取效果离真实可用还有很大距离。

发明内容

本发明提供一种医学领域知识图谱的构建方法、装置、设备及存储介质，能够从已有的海量的高质量的通用知识图谱中自动识别医学领域知识，从而可以自动构建高质量且覆盖各种类型的医学知识的医学领域知识图谱，效率高、人力成本低且覆盖面广。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种医学领域知识图谱的构建方法，包括：

获取通用知识图谱中的全部三元组集合，并从所述三元组集合中获取待识别三元组，从所述待识别三元组中确定待识别第一实体和待识别第二实体；

采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体，所述医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层；

当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时，确定所述待识别三元组为目标三元组；

将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合，并根据新的医学领域三元组集合构建医学领域知识图谱。

根据本发明的一个实施例，所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤包括：

采用所述医学领域实体识别模型识别所述待识别第一实体是否为医学领域实体；

当所述医学领域实体识别模型输出第一预设阈值时，则确定所述待识别第一实体为医学领域实体，当所述医学领域实体识别模型输出第二预设阈值时，则确定所述待识别第一实体为非医学领域实体；

采用医学领域实体识别模型识别所述待识别第二实体是否为医学领域实体；

当所述医学领域实体识别模型输出第一预设阈值时，则确定所述待识别第二实体为医学领域实体，当所述医学领域实体识别模型输出第二预设阈值时，则确定所述待识别第二实体为非医学领域实体。

根据本发明的一个实施例，在所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤之前还包括：

构建所述医学领域实体识别模型；

对所述医学领域实体识别模型进行训练。

根据本发明的一个实施例，所述对所述医学领域实体识别模型进行训练的步骤包括：

获取所述待识别第一实体或所述待识别第二实体的描述文本信息，所述描述文本信息包括多个词汇；

对所述描述文本信息进行嵌入处理，获得每个词汇的词向量和词性向量；

将所述词向量和所述词性向量进行串联拼接处理，获得拼接向量；

将所述拼接向量输入循环神经网络中学习每个词汇的上下文语义，获得所述词汇的隐藏向量；

采用注意力机制对所述隐藏向量进行特征提取，获得注意力向量；

将所述注意力向量输入全连接网络中进行分类识别，输出识别结果。

根据本发明的一个实施例，所述对所述描述文本信息进行嵌入处理，获得每个词汇的词向量和词性向量的步骤包括：

将所述词汇输入词嵌入模型中，获得所述词向量；

对所述词汇进行词性标注处理，将所述词性标注处理结果输入词性嵌入模型中，获得所述词性向量。

根据本发明的一个实施例，所述采用注意力机制对所述隐藏向量进行特征提取，获得注意力向量的步骤包括：

计算每个所述隐藏向量的权重；

计算所述权重和所述隐藏向量的加权和，获得所述注意力向量。

根据本发明的一个实施例，所述将所述注意力向量输入全连接网络中进行分类识别，输出识别结果的步骤按照如下公式进行：

y＝softmax(w*s)，其中，w为参数，s为注意力向量，softmax为分类任务的激活函数，y为输出的识别结果，y取0或1，y取0时，表示所述待识别第一实体或所述待识别第二实体为非医学领域实体，y取1时，表示所述待识别第一实体或所述待识别第二实体为医学领域实体。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种医学领域知识图谱的构建装置，包括：

获取模块，用于获取通用知识图谱中的全部三元组集合，并从所述三元组集合中获取待识别三元组，从所述待识别三元组中确定待识别第一实体和待识别第二实体；

识别模块，用于采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体；

确定模块，用于当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时，确定所述待识别三元组为目标三元组；

图谱构建模块，用于将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合，并根据新的医学领域三元组集合构建医学领域知识图谱。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的医学领域知识图谱的构建方法。

为解决上述技术问题，本发明采用的再一个技术方案是：提供一种计算机存储介质，存储有能够实现上述医学领域知识图谱的构建方法的程序文件。

本发明的有益效果是：基于医学领域实体识别模型，从已有的海量的高质量的通用知识图谱中自动识别医学领域知识，从而可以自动构建高质量且覆盖各种类型的医学知识的医学领域知识图谱，解决了现有的基于专家构建的医学知识图谱的人力成本高、知识规模少以及覆盖医学知识种类范围少等问题。

附图说明

图1是本发明第一实施例的医学领域知识图谱的构建方法的流程示意图；

图2是本发明第二实施例的医学领域知识图谱的构建方法的流程示意图；

图3是本发明实施例的医学领域实体识别模型的网络结构示意图；

图4是本发明实施例的医学领域实体识别模型的训练步骤的流程示意图；

图5是本发明第一实施例的医学领域知识图谱的构建装置的结构示意图；

图6是本发明第二实施例的医学领域知识图谱的构建装置的结构示意图；

图7是本发明实施例的计算机设备的结构示意图；

图8是本发明实施例的计算机存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1是本发明第一实施例的医学领域知识图谱的构建方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该方法包括步骤：

步骤S101：获取通用知识图谱中的全部三元组集合，并从三元组集合中获取待识别三元组，从待识别三元组中确定待识别第一实体和待识别第二实体。

在步骤S101中，通用知识图谱包括英文通用知识图谱和中文通用知识图谱，其中，中文通用知识图谱包括百度知识图谱、搜狗知立方、zhishime、复旦CN-DBpedia等，英文通用知识图谱包括freebase、wikidata、probase等，知识图谱的存储格式为三元组，知识图谱中的每一条知识称为三元组。在本实施例中，三元组可分为(实体，关系，实体)，因此，待识别实体可包括待识别第一实体和待识别第二实体。

步骤S102：采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体，医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。

在步骤S102中，采用医学领域实体识别模型分别识别第一实体和待识别第二实体是否为医学领域实体。本实施例在识别待识别第一实体和待识别第二实体时不分先后顺序。本实施例的嵌入层对待识别第一实体和待识别第二实体对应的描述文本信息进行词嵌入处理和词性嵌入处理，拼接层对词嵌入处理结果和词性嵌入处理结果进行拼接处理，循环神经网络层对拼接处理结果进行深度学习，注意力机制层对深度学习结果进行特征提取，全连接层采用分类任务的激活函数对特征提取结果进行分类识别并输出识别结果。

在采用医学领域实体识别模型识别第一实体是否为医学领域实体的步骤中，当医学领域实体识别模型的识别结果为“1”时，则确定待识别第一实体为医学领域实体，当医学领域实体识别模型的识别结果为“0”时，则确定待识别第一实体为非医学领域实体。

在采用医学领域实体识别模型识别第二实体是否为医学领域实体的步骤中，当医学领域实体识别模型的识别结果为“1”时，则确定待识别第二实体为医学领域实体，当医学领域实体识别模型的识别结果为“0”时，则确定待识别第二实体为非医学领域实体。

步骤S103：当待识别第一实体和待识别第二实体同时为医学领域实体时，确定待识别三元组为目标三元组。

在步骤S103中，仅当待识别第一实体和待识别第二实体均为医学领域实体时，确定待识别三元组为目标三元组，当待识别第一实体和待识别第二实体中仅其中一个确定为医学领域实体时，待识别三元组为非目标三元组。

步骤S104：将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合，并根据新的医学领域三元组集合构建医学领域知识图谱。

本发明第一实施例的医学领域知识图谱的构建方法通过医学领域实体识别模型，从已有的海量的高质量的通用知识图谱中自动识别医学领域知识，从而可以自动构建高质量且覆盖各种类型的医学知识的医学领域知识图谱，解决了现有的基于专家构建的医学知识图谱的人力成本高、知识规模少以及覆盖医学知识种类范围少等问题。该构建方法具有很好的迁移性，除了应用于医学领域，还可以迁移到其他领域，例如娱乐圈、金融、法律等。

图2是本发明第二实施例的医学领域知识图谱的构建方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图2所示的流程顺序为限。如图2所示，该方法包括步骤：

步骤S201：构建医学领域实体识别模型。

在步骤S201中，请参见图3，医学领域实体识别模型的网络结构包括词嵌入层31、词性嵌入层32、与词嵌入层31和词性嵌入层32连接的拼接层33、与拼接层33连接的循环神经网络层34、与循环神经网络层34的注意力机制层35以及与注意力机制层连接35的全连接层36。在本实施例中，词嵌入层31将待识别实体对应的描述文本信息中的词汇转换为词向量，本实施例的词嵌入层31采用预训练Bert模型而不是Word2vec模型，Bert模型是在通用语料文本进行预训练，在医学领域NLP任务上效果一般，但本实施例将Bert模型使用1000万的医学文献语料进行了预训练，从而可以适应于医学领域的NLP任务；词性嵌入层32将描述文本信息中每个词汇的词性转换为词性向量，在获取每个词汇的词性时需要对每个词汇进行词性标注，本实施例的词性嵌入层32采用Word2vec模型；拼接层33用于将每个词汇的词向量和词性向量进行串联拼接，获得每个词汇的拼接向量，拼接之后每个词汇的维度等于每个词汇的词嵌入的维度加上词性嵌入的维度；循环神经网络层34采用Bi-GRU模型，GRU是常用的循环神经网络的核单元，是对LSTM的改进，Bi-GRU模型可以很好地学习每个词汇在句子中的前向以及后向的语义(上下文语义)；注意力机制层35可以综合句子中学习到的所有词的语义，从而获取得到更深层的语义表示；全连接层36采用分类任务的激活函数对注意力机制层35的输出结果进行分类识别并输出识别结果。

步骤S202：对医学领域实体识别模型进行训练。

在步骤S202中，请参见图4，包括以下步骤：

步骤S401：获取待识别第一实体或待识别第二实体的描述文本信息，描述文本信息包括多个词汇；

步骤S402：对描述文本信息进行嵌入处理，获得每个词汇的词向量和词性向量；

在步骤S402中，将词汇输入词嵌入模型中，获得词向量；对词汇进行词性标注处理，将词性标注处理结果输入词性嵌入模型中，获得词性向量。

步骤S403：将词向量和词性向量进行串联拼接处理，获得拼接向量；

在步骤S403中，每个词汇的拼接向量为e_i＝(e_word_i:e_pos_i)，其中，e为拼接向量，i为词汇的个数，i＝1,…n，e_word_i表示词向量，e_pos_i表示词性向量。

此时，每个词汇的维度为dim(e_i)＝dim(e_word_i)+dim(e_pos_i)，其中，i为词汇的个数，i＝1,…n。

步骤S404：将拼接向量输入循环神经网络中学习每个词汇的上下文语义，获得词汇的隐藏向量；

步骤S405：采用注意力机制对隐藏向量进行特征提取，获得注意力向量；

在步骤S405中，首先计算每个隐藏向量的权重；再计算权重和隐藏向量的加权和，获得注意力向量。

计算每个隐藏向量的权重按照如下公式进行：

其中，e为拼接向量，i为词汇的个数，i＝1,…n，a为隐藏向量的权重，h为隐藏向量。

计算权重和隐藏向量的加权和，获得注意力向量按照如下公式进行：S＝∑_ia_ih_i，其中，s表示注意力向量，i为词汇的个数，i＝1,…n，a为隐藏向量的权重，h为隐藏向量。

步骤S406：将注意力向量输入全连接网络中进行分类识别，输出识别结果。

在步骤S406中，按照如下公式进行：y＝softmax(w*s)，其中，w为参数，s为注意力向量，softmax为分类任务的激活函数，y为输出的识别结果，y取0或1，y取0时，表示待识别实体为非医学领域实体，y取1时，表示待识别实体为医学领域实体。

本实施例的步骤S201、步骤S202可在步骤S203之前，也可在步骤S203之后。

步骤S203：获取通用知识图谱中的全部三元组集合，并从三元组集合中获取待识别三元组，从待识别三元组中确定待识别第一实体和待识别第二实体。

在本实施例中，图2中的步骤S203和图1中的步骤S101类似，为简约起见，在此不再赘述。

步骤S204：采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体，医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。

在本实施例中，图2中的步骤S204和图1中的步骤S102类似，为简约起见，在此不再赘述。

步骤S205：当待识别第一实体和待识别第二实体同时为医学领域实体时，确定待识别三元组为目标三元组。

在本实施例中，图2中的步骤S205和图1中的步骤S103类似，为简约起见，在此不再赘述。

步骤S206：将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合，并根据新的医学领域三元组集合构建医学领域知识图谱。

在本实施例中，图2中的步骤S206和图1中的步骤S104类似，为简约起见，在此不再赘述。

本发明第二实施例的医学领域知识图谱的构建方法在第一实施例的基础上，通过基于深度学习设计并训练了医学领域实体识别模型，可以判别实体是否为医学领域实体，该医学领域实体识别模型使用了循环神经网络、注意力机制等多种结构，并且融合了多种嵌入信息，能够准确、快速地从已有的海量的高质量的通用知识图谱中自动识别医学领域知识。

图5是本发明第一实施例的医学领域知识图谱的构建装置的结构示意图。如图5所示，该装置50包括获取模块51、识别模块52、确定模块53和图谱构建模块54。

获取模块51用于获取通用知识图谱中的全部三元组集合，并从三元组集合中获取待识别三元组，从待识别三元组中确定待识别第一实体和待识别第二实体。

识别模块52与获取模块51耦接，用于采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体，医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。

确定模块53与识别模块52耦接，用于当待识别第一实体和待识别第二实体同时为医学领域实体时，确定待识别三元组为目标三元组。

图谱构建模块54与确定模块53耦接，用于将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合，并根据新的医学领域三元组集合构建医学领域知识图谱。

图6是本发明第二实施例的医学领域知识图谱的构建装置的结构示意图。如图6所示，该装置60包括模型构建模块61、模型训练模块62、获取模块63、识别模块64、确定模块65和图谱构建模块66。

模型构建模块61用于构建医学领域实体识别模型。

模型训练模块62与模型构建模块61耦接，用于对医学领域实体识别模型进行训练。

获取模块63用于获取通用知识图谱中的全部三元组集合，并从三元组集合中获取待识别三元组，从待识别三元组中确定待识别第一实体和待识别第二实体。

识别模块64分别与模型训练模块62、获取模块63耦接，用于采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体，医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。

确定模块65与识别模块64耦接，用于当待识别第一实体和待识别第二实体同时为医学领域实体时，确定待识别三元组为目标三元组。

图谱构建模块66与确定模块65耦接，用于将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合，并根据新的医学领域三元组集合构建医学领域知识图谱。

请参见图7，图7为本发明实施例的计算机设备的结构示意图。该计算机设备70包括：存储器71、处理器72及存储在存储器上并可在处理器72上运行的计算机程序，处理器72执行计算机程序时实现上述的医学领域知识图谱的构建方法。

参阅图8，图8为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件81，其中，该程序文件81可以以软件产品的形式存储在上述计算机存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种医学领域知识图谱的构建方法，其特征在于，包括：

2.根据权利要求1所述的构建方法，其特征在于，所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤包括：

3.根据权利要求1所述的构建方法，其特征在于，在所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤之前还包括：

构建所述医学领域实体识别模型；

对所述医学领域实体识别模型进行训练。

4.根据权利要求3所述的构建方法，其特征在于，所述对所述医学领域实体识别模型进行训练的步骤包括：

5.根据权利要求4所述的构建方法，其特征在于，所述对所述描述文本信息进行嵌入处理，获得每个词汇的词向量和词性向量的步骤包括：

将所述词汇输入词嵌入模型中，获得所述词向量；

6.根据权利要求4所述的构建方法，其特征在于，所述采用注意力机制对所述隐藏向量进行特征提取，获得注意力向量的步骤包括：

计算每个所述隐藏向量的权重；

7.根据权利要求4所述的构建方法，其特征在于，所述将所述注意力向量输入全连接网络中进行分类识别，输出识别结果的步骤按照如下公式进行：

8.一种医学领域知识图谱的构建装置，其特征在于，包括：

9.一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的医学领域知识图谱的构建方法。

10.一种计算机存储介质，其特征在于，存储有能够实现如权利要求1-7中任一项所述的医学领域知识图谱的构建方法的程序文件。