CN110390021A

CN110390021A - 药品知识图谱构建方法、装置、计算机设备及存储介质

Info

Publication number: CN110390021A
Application number: CN201910511946.7A
Authority: CN
Inventors: 李春宇; 朱威; 倪渊; 谢国彤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-10-29

Abstract

本发明公开了药品知识图谱构建方法、装置、计算机设备及存储介质，该方法包括：获取药品数据源；识别所述药品数据源中属于实体类型的实体；计算各所述实体之间的相似度，当各所述相似度均低于预设阈值时，则提取各所述实体；根据提取的各所述实体，在药品数据源中识别出各所述实体之间的实体关系；及基于各所述实体及各所述实体关系，构建药品知识图谱。本发明提供的药品知识图谱构建方法、计算机及存储介质，是以国内的药品为数据源，并且进行相似度比较，避免出现实体重复，从而构建出基于我国药品的知识图谱，填补了国内的药品知识图谱的空白。

Description

药品知识图谱构建方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种药品知识图谱构建方法、构建装置、计算机设备及存储介质。

背景技术

知识图谱(Knowledge Graph)本质上是一种语义网络。其节点代表实体 (Entity)或者概念(Concept)，边代表实体或概念之间的各种语义关系。它是一种只是管理与服务模式，能够将各个领域琐碎、零散的知识相互连接，从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的指示系统。现在，人们已经开始将知识图谱应用在综合性知识检索以及问答、决策支持等智能系统中。例如，知识图谱已经在金融、法律、医疗等领域有了成功应用。但是在药品上，国内市场上还没一个完整的、成熟的知识图谱，虽然中医药知识图谱建立相对较完善，但都是经过多年的人工构建，耗时时间长。同时，RxNorm药品标准图谱在美国已广泛用于临床信息系统中药物数据的交互、统计及共享，但是由于国内药品与国际药品并不相同，因此无法应用于我国市场以及临床。

发明内容

有鉴于此，本发明提出一种药品知识图谱构建方法、装置、计算机设备及存储介质，能够通过该构建方法构建出符合我国药品的知识图谱。

首先，为实现上述目的，本发明提出一种药品知识图谱构建方法，该方法包括步骤：

获取药品数据源；

识别所述药品数据源中属于实体类型的实体；

计算各所述实体之间的相似度，当各所述相似度均低于预设阈值时，则提取各所述实体；

根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系；及

基于各所述实体及各所述实体关系，构建药品知识图谱。

进一步地，所述识别所述药品数据源中属于实体类型的实体的步骤之后，所述方法还包括：计算各所述实体之间的相似度，当存在所述相似度不低于预设阈值时，则在相比较的两个所述实体中提取一个所述实体。进一步地，

进一步地，所述根据提取的各所述实体，构建相应的实体关系的步骤之后，所述方法还包括：检查各所述实体关系，当各所述实体关系符合已建立的逻辑冲突约束原则，获取各所述实体关系。

进一步地，所述识别所述药品数据源中属于实体类型的实体的步骤之前，所述方法还包括:

利用标注集方法，标注所述药品数据源中的文本信息，获取标注结果；

根据所述标注结果，获取所述药品数据源中文本信息的向量信息；及

根据所述向量信息，基于双向长短时记忆循环神经网络模型和条件随机场，识别所述药品数据源中属于实体类型的实体。

进一步地，所述利用标注集方法，标注所述药品数据源中的信息，获取标注结果的步骤，所述方法还包括:

利用标注集方法，标注所述药品数据源中的每一个字，获取每个字的字标识；及

以所述药品数据源中的一个句子为单位，根据所述字标识，获取所述句子的字序列。

进一步地，所述根据所述向量信息，基于双向长短时记忆循环神经网络模型和条件随机场，识别所述药品数据源中属于实体类型的实体的步骤包括：

将所述向量信息作为双向长短时记忆循环神经网络模型的输入分别从左至右和从右至左扫描，对应获取第一输出序列和第二输出序列；

拼接所述第一输出序列和所述第二输出序列，获取隐状态向量，抽取所述隐状态向量的特征，根据所述特征，计算所述句子中每个字对应的可能标签的概率；

基于条件随机场，以所述药品数据源中的每一个句子为单位，获取第三输出序列及所述第三输出序列对应的标签序列；及

根据所述句子中每个字对应的可能标签的概率，计算所述标签序列的得分值，根据所述得分值，选取最优标签序列。

进一步地，所述根据提取的各所述实体，构建相应的实体关系的步骤包括：

根据预先创建的第一训练集，训练所述双向长短时记忆循环神经网络模型中的第一神经网络单元，获取所述第一训练集的输入数据在所述第一神经网络单元中转化的第一向量；

根据预先创建的第二训练集，训练所述双向长短时记忆循环神经网络模型中的第二神经网络单元，获取所述第二训练集的输入数据在所述第二神经网络单元中转化的第二向量；

将所述第二向量作为所述第一神经网络单元的注意力特征，加权所述第一神经网络单元的训练结果，构建任意两个实体的关系抽取模型；

将所述第一向量作为所述第二神经网络单元的注意力特征，加权所述第二神经网络单元的训练结果，构建任意两个实体的知识表示模型；及

根据所述关系抽取模型和所述知识表示模型，构建相应的实体关系。

为实现上述目的，本发明提出一种药品知识图谱构建装置，该装置包括：

获取模块，用于获取药品数据源；

第一识别模块，用于识别所述药品数据源中属于实体类型的实体；

计算模块，用于计算各所述实体之间的相似度，当各所述相似度均低于预设阈值时，则提取各所述实体；

第二识别模块，用于根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系；及

构建模块，用于基于各所述实体及各所述实体关系，构建药品知识图谱。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

相较于现有技术，本发明所提出的药品知识图谱构建方法、装置、计算机设备及存储介质，是以国内的药品数据为数据源，并且进行相似度比较，避免出现实体重复，从而构建出基于我国药品的知识图谱，填补了国内的药品知识图谱的空白。

附图说明

图1是本发明第一实施例之药品知识图谱构建方法的流程示意图；

图2是本发明第二实施例之药品知识图谱构建方法的流程示意图；

图3是本发明第三实施例之药品知识图谱构建方法的流程示意图；

图4是本发明第四实施例之药品知识图谱构建方法的流程示意图；

图5是本发明第五实施例之药品知识图谱构建方法的流程示意图；

图6是本发明第六实施例之药品知识图谱构建方法的流程示意图；

图7是本发明第七实施例之药品知识图谱构建方法的流程示意图；及

图8是本发明所提供的药品知识图谱构建装置的方框示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参考图1，第一实施例提供了一种药品知识图谱构建方法。该构建方法包括：

步骤S110：获取药品数据源。

具体地，药品数据源可以是从医药网中获取的药品数据，也可以是从医学指南中获取的药品数据，还可以通过其他可靠医学数据来获取药品数据，在此不做限定。其中，对于结构化药品数据直接存储作为后续使用，对于非结构化药品数据在存储后用于后续的实体识别。在本实施例中，药品数据源来自于药监局公开的药品说明书，保证了药品数据来源的真实性、可靠性和准确性。

步骤S120：识别药品数据源中属于实体类型的实体。

具体地，在获取药品数据源之后，从该药品数据源中识别出属于所需实体类型的实体。实体是指构成整个知识图谱的最基本单元形态。在医学领域的知识图谱中，实体类型通常是指疾病、药品、症状、治疗方法等这样的医学名词。其中，该实体类型包括药品、疾病、症状、人群、身体部位及物质成分。具体而言，该步骤就是把症状、疾病及药品等各实体类型相关的概念识别出来。例如，在药品说明书所公开的信息中，一一识别出属于药品的实体，属于疾病的实体，属于症状的实体，属于身体部位的实体，属于物质成分的实体。在一实施例中，在复方板蓝根颗粒的药品说明书中，可以识别出药品名称的实体，即复方板蓝根颗粒，物质成分的实体，即板蓝根、大青叶。辅料为蔗糖、淀粉等等其他各实体类型所对应的实体。

步骤S130：计算各实体之间的相似度，当各相似度均低于预设阈值时，则提取各实体。

具体地，计算出其中一个实体与识别出的其他各实体之间的相似度，当该相似度低于预设阈值时，提取出该实体，再计算下一个实体与其他各实体之间的相似度，依次计算出各实体之间的相似度，从而提取出相似度低于预设阈值的实体，避免了实体之间的重复性。预设阈值可根据实际情况设定。

步骤S140：根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系。

具体地，在一篇药品说明书的一段话或一句话中提取出各实体后，再在该段话或该句话中识别出各实体之间的实体关系。其中，实体关系主要指适应症、药品禁忌、药品副作用、药物相互作用、主要成分、药代动力学(药品吸收部位、代谢部位、分布部位、排泄部位)例如，药品说明书指出：健康志愿者服用酮康唑后导致甲磺酸伊马替尼在人身体内药物暴露量大大增加，因此两者不能同时服用。其中，酮康唑和甲磺酸伊马替尼均为识别出的实体，而服用酮康唑后导致甲磺酸伊马替尼在人身体内药物暴露量大大增加，则识别出酮康唑和甲磺酸伊马替尼两个实体关系为药品相互作用关系，不能同时服用。

步骤S150:基于各实体及各实体关系，构建药品知识图谱。

具体地，以识别出的各实体为节点，各实体关系作为有向线段，从而创建出相应的药品知识图谱。在一实施例中，可以节点表示药品、疾病等，以有向线段表示药品与疾病之间的实体关系等，以此类推，构建出药品知识图谱。也可以根据需要增加其他概念或实体来作为节点，本实施例不做限定。

该实施方式所提供的药品知识图谱构建方法，是以国内的药品数据为数据源，并且进行相似度比较，避免出现实体重复，从而构建出基于我国药品的知识图谱，填补了国内的药品知识图谱的空白。

在第二实施例中，请参考图2，步骤210-220和步骤240-250与第一实施例中的步骤110-120和步骤140-150相同，不再一一赘述。该方法包括：

步骤S210：获取药品数据源。

步骤S220：识别所述药品数据源中属于实体类型的实体。

步骤S230：计算各实体之间的相似度，当存在相似度不低于预设阈值时，则在相比较的两个实体中提取一个实体。

具体地，计算出其中一个实体与识别出的其他各实体之间的相似度，当存在其中一个相似度不低于预设阈值时，则在该相似度所对应的两个实体中选取其中一个，避免了实体之间的重复性。预设阈值可根据实际情况设定。

步骤S240：根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系。

步骤S250：基于各所述实体及各所述实体关系，构建药品知识图谱。

在本实施例中，通过在相似度不低于预设阈值的两个实体中选取一个，从而避免了实体之间的重复性，相应的构建出药品知识图谱。

在第三实施例中，请参考图3，步骤310-340和步骤360与第一实施例中的步骤110-140和步骤150相同，不再一一赘述。该方法包括：

步骤S310：获取药品数据源。

步骤S320：识别所述药品数据源中属于实体类型的实体。

步骤S330：计算各所述实体之间的相似度，当各所述相似度均低于预设阈值时，则提取各所述实体。

步骤S340：根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系。

步骤S350：检查各所述实体关系，当各所述实体关系符合已建立的逻辑冲突约束原则，获取各所述实体关系。

具体地，对所建立的各实体关系逐一检查，当所建立的各实体关系均满足已建立的逻辑冲突原则，则获取各实体关系，作为后期的药品知识图谱的基础。当所建立的各实体关系存在不满足已建立的逻辑冲突原则，则舍弃该实体关系或者以其他方式进行处理，以避免出现逻辑相冲突。如药品与疾病的实体关系中，同时出现了适应症关系与禁忌关系，可选择其一或其他方式来避免逻辑冲突。

步骤S360：基于各所述实体及各所述实体关系，构建药品知识图谱。

在第四实施例中，请参考图4，步骤410和步骤450-470与第一实施例中的步骤110和步骤130-150相同，不再一一赘述。该方法包括：

步骤S410：获取药品数据源。

步骤S420：利用标注集方法，标注所述药品数据源中的文本信息，获取标注结果。

具体地，采用标注集方法，对药品数据源中的文本信息进行标注，从而获得标注结果。例如，标注集方法可以是BIO，BIOES等。本实施例中，标注集采用BIO标注集，即B-DRUG、I-DRUG代表药品名称首字、药品名称非首字，B-DIS、I-DIS代表疾病名首字、疾病名非首字，B-SYM、I-SYM代表症状名首字、症状名非首字，O代表该字不属于命名实体的一部分。例如，蛇胆川贝枇杷膏用于治疗咳嗽。蛇字标注为B-DRUG，胆、川、贝、枇、杷、膏字标注为I-DRUG，用、于、治、疗字标注为O，咳字标注为B-DIS，嗽字标注为I-DIS。对于药品数据源中的文本信息可以根据该例子进行标注，也可采用其他标注集方法进行标注。采用标注集是为了尽可能的减少噪点，从而识别及提取出的实体准确率更高。

步骤S430：根据所述标注结果，获取所述药品数据源中文本信息的向量信息。

具体地，根据在步骤S101中的标注结果，从而获取到每个字的标注结果，再根据该标注结果，获得每个字的向量信息。例如，将每个字的标注结果转换为one-hot向量，再将每个字的one-hot向量映射为低维稠密的字向量，然后将该句子中的每个字的字向量进行依次组合排列，从而获得整个句子的向量信息。

步骤S440：根据所述向量信息，基于双向长短时记忆循环神经网络模型和条件随机场，识别所述药品数据源中属于实体类型的实体。

具体地，基于双向长短时记忆循环神经网络模型和条件随机场，根据所获得的每个字的向量信息，识别出药品名称对应的实体，疾病对应的实体，症状对应的实体等等。

步骤S450：计算各所述实体之间的相似度，当各所述相似度均低于预设阈值时，则提取各所述实体。

步骤S460：根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系。

步骤S470：基于各所述实体及各所述实体关系，构建药品知识图谱。

在第五个实施例中，请参考图5，第四个实施例中的步骤420包括：

步骤S510：利用标注集方法，标注所述药品数据源中的每一个字，获取每个字的字标识。

本实施例中，标注集采用BIO标注集，即B-DRUG、I-DRUG代表药品名称首字、药品名称非首字，B-DIS、I-DIS代表疾病名首字、疾病名非首字， B-SYM、I-SYM代表症状名首字、症状名非首字，O代表该字不属于命名实体的一部分。例如，蛇胆川贝枇杷膏用于治疗咳嗽。蛇字标注为B-DRUG，胆、川、贝、枇、杷、膏字标注为I-DRUG，用、于、治、疗字标注为O，咳字标注为B-DIS，嗽字标注为I-DIS。按照该方法获得该药品数据源中每一个字的字标识。

步骤S520：以所述药品数据源中的一个句子为单位，根据所述字标识，获取所述句子的字序列。

具体地，以药品数据源中的句子为单位，根据上述实施例每个字的字标识，从而获取到该句子的字序列。例如以句子为单位，将一个含有n个字的句子记作x＝(x₁,x₂,...,x_n)，其中x_i表示句子的第i个字在字典中的id，进而可以得到每个字的one-hot向量，维数是字典大小。然后将该句子中的每个字的字向量进行依次组合排列，从而获得整个句子的向量信息。

在第六实施例中，请参考图6，第四个实施例中的步骤S440包括：

步骤S610：将所述向量信息作为双向长短时记忆循环神经网络模型的输入分别从右至左和从左至右扫描，对应获取第一输出序列和第二输出序列。

具体地，双向长短时记忆循环神经网络模型包含两个双向长短时记忆循环神经网络(LSTM)单元，第一个对句子从左到右进行扫描，第二个对句子从右至左进行扫描。该双向长短时记忆循环神经网络模型不仅能捕捉到当前词之前的上下文信息，也能够捕捉到它之后的上下文信息。第一个对应的输出序列为第二个对应的输出序列为

步骤S620：拼接所述第一输出序列和所述第二输出序列，获取隐状态向量，抽取所述隐状态向量的特征，根据所述特征，计算所述句子中每个字对应的可能标签的概率。

具体地，将第一输出序列和第二输出序列进行拼接，获取完整的隐状态向量，将该完整的隐状态向量从m维映射到k维，k表示标注集的标签数，即标签数代表着实体类型的总个数，标签和实体类型一一对应，从而得到自动提取的句子特征，记作P＝(p₁,p₂,...,p_n)∈R_n×k，可以把p_i∈R_k的每一维p_ij都视作将字x_i分类到第j个标签的打分值，根据P可计算出句子中每个字x_i对应的可能标签的概率Z_i。

步骤S630：基于条件随机场，以所述药品数据源中的每一个句子为单位，获取第三输出序列及所述第三输出序列对应的标签序列。

具体地，将所述药品数据源中的每一个句子为单位，该句子记为x＝(x₁, x₂,...,x_n)，作为条件随机场的输入，计算并获取该句子的第三输出序列，并计算出该第三输出序列的对应的标签序列y＝(y₁,y₂,...,y_n)。

步骤S640：根据所述句子中每个字对应的可能标签的概率，计算所述标签序列的得分值，根据所述得分值，选取最优标签序列。

具体地，句子中每个字x_i对应的可能标签的概率Z_i，计算该标签序列y＝(y₁,y₂,...,y_n)的得分值s(x，y)，并将得分最高的标签序列作为最优标签序列其中，代表第i个字x_i获得标签y_i的概率，代表标签y_i-1与标签y_i之间的转移概率。该最优的标签序列所代表的的即是识别出的实体。

在第七个实施例中，请参考图7，第一个实施例中的步骤S140包括：

步骤S710：根据预先创建的第一训练集，训练所述双向长短时记忆循环神经网络模型中的第一神经网络单元，获取所述第一训练集的输入数据在所述第一神经网络单元中转化的第一向量。

具体地，根据药品数据源，构建由多个句子为输入数据，以及每个句子中内的任意两个实体的关系为分类结果，组成第一训练集，将第一训练集中的句子输入到第一神经网络单元中，对第一训练集中句子包含的两个实体构建词向量序列；通过卷积操作，池化操作和非线性操作将该词向量序列转化为句子的向量表达。

步骤S720：根据预先创建的第二训练集，训练所述双向长短时记忆循环神经网络模型中的第二神经网络单元，获取所述第二训练集的输入数据在所述第二神经网络单元中转化的第二向量。

具体地，第二训练集由多个知识图谱中的三元组(h，r，t)组成的。其中，该三元组中，h代表头实体，t代表尾实体，r描述h和r之间的关系。以头实体和尾实体作为第二训练集的输入数据，基于三元组的能量函数，获取该三元组的条件概率，从而实现对第二神经网络单元的训练。

步骤S730：将所述第二向量作为所述第一神经网络单元的注意力特征，加权所述第一神经网络单元的训练结果，构建任意两个实体的关系抽取模型。

具体地，包含实体对的第j个句子的关联程度定义为e_j＝r_ht·tanh(W_sy_j+b_s) 其中，W_s、b_s代表将文本表示映射到图谱唯独上的变换矩阵与偏置向量。所以注意力机制对每个句子的权重定义为：

其中，m代表实体对对应的句子总数。这些句子在注意力机制引导之后的综合表示为：

其中，综合表示将被应用在第一神经网络单元之中取代原有的单一句子表示。在第一神经网络中添加了由第二神经网络中尸体堆的隐式关系构建的注意力机制后，即构建成了用于对句子中实体在知识图谱中关系分类的关系抽取模型。

步骤S740：将所述第一向量作为所述第二神经网络单元的注意力特征，加权所述第二神经网络单元的训练结果，构建任意两个实体的知识表示模型.

具体地，包含实体对的第j个句子的关联程度定义为

其中，W_s、b_s代表将文本表示映射到图谱唯独上的变换矩阵与偏置向量， M代表进行文本分类的语义关系向量矩阵。所以注意力机制对每个实体的权重定义为：

其中，n代表实体对总数。这些实体对在注意力机制引导之后的综合表示为：

其中，图谱关系的综合表示将被应用在具体的第二神经网络单元之中取代原有的单一关系表示。在第二神经网络中添加了由第一神经网络中提取的语义信息构建注意力机制后，即构建成了用于对两个实体进行知识图谱中关系分类的知识表示模型。

步骤S750：根据所述关系抽取模型和所述知识表示模型，构建相应的实体关系。

具体地，将关系抽取模型和知识表示模型的输入端口融合，形成统一的输入端口，同时将关系抽取模型和知识表示模型的输出端口融合，形成统一的输出端口，从而构建了基于知识与文本互注意力机制，使得两者可以互补、融合，识别出的实体关系也更可靠。

在八个实施例中，第一个实施例中的步骤S110之前，该方法还包括：

步骤S810：采集药品说明书，根据所述药品说明书，创建药品数据源。

具体地，可通过网络采集或扫描采集等方式来采集药品说明书，从而创建处药品数据源。

请参考图8，本发明还提供一种药品知识图谱构建装置800，该装置800 包括：

获取模块810，用于获取药品数据源。具体地，药品数据源可以是从医药网中获取的药品数据，也可以是从医学指南中获取的药品数据，还可以通过其他可靠医学数据来获取药品数据，在此不做限定。

第一识别模块820，用于识别所述药品数据源中属于实体类型的实体。具体地，在获取药品数据源之后，从该药品数据源中识别出属于所需实体类型的实体。

计算模块830，用于计算各所述实体之间的相似度，当各所述相似度均低于预设阈值时，则提取各所述实体。具体地，计算出其中一个实体与识别出的其他各实体之间的相似度，当该相似度低于预设阈值时，提取出该实体，再计算下一个实体与其他各实体之间的相似度，依次计算出各实体之间的相似度，从而提取出相似度低于预设阈值的实体，避免了实体之间的重复性。预设阈值可根据实际情况设定。

第二识别模块840，用于根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系。具体地，在一篇药品说明书的一段话或一句话中提取出各实体后，再在该段话或该句话中识别出各实体之间的实体关系。

构建模块850，用于基于各所述实体及各所述实体关系，构建药品知识图谱。具体地，以识别出的各实体为节点，各实体关系作为有向线段，从而创建出相应的药品知识图谱。

本发明还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过装置总线相互通信连接的存储器、处理器等。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储电子装置20，被处理器执行时实现本发明的数据可视化方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种药品知识图谱构建方法，其特征在于，所述方法包括步骤：

获取药品数据源；

识别所述药品数据源中属于实体类型的实体；

基于各所述实体及各所述实体关系，构建药品知识图谱。

2.如权利要求1所述的药品知识图谱构建方法，其特征在于，所述识别所述药品数据源中属于实体类型的实体的步骤之后，所述方法还包括：计算各所述实体之间的相似度，当存在所述相似度不低于预设阈值时，则在相比较的两个所述实体中提取一个所述实体。

3.如权利要求1所述的药品知识图谱构建方法，其特征在于，所述根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系的步骤之后，所述方法还包括：检查各所述实体关系，当各所述实体关系符合已建立的逻辑冲突约束原则，获取各所述实体关系。

4.如权利要求1所述的药品知识图谱构建方法，其特征在于，所述识别所述药品数据源中属于实体类型的实体的步骤之前，所述方法还包括:

5.如权利要求4所述的药品知识图谱构建方法，其特征在于，所述利用标注集方法，标注所述药品数据源中的信息，获取标注结果的步骤，所述方法还包括:

6.如权利要求4所述的药品知识图谱构建方法，其特征在于，所述根据所述向量信息，基于双向长短时记忆循环神经网络模型和条件随机场，识别所述药品数据源中属于实体类型的实体的步骤包括：

7.如权利要求1所述的药品知识图谱构建方法，其特征在于，所述根据提取的各所述实体，在所述药品数据源中识别出各所述实体之间的实体关系的步骤包括：

8.一种药品知识图谱构建装置，其特征在于，所述装置包括：

获取模块，用于获取药品数据源；

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述药品知识图谱构建方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至8任一项所述药品知识图谱构建方法的步骤。