CN110390021A - 药品知识图谱构建方法、装置、计算机设备及存储介质 - Google Patents
药品知识图谱构建方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110390021A CN110390021A CN201910511946.7A CN201910511946A CN110390021A CN 110390021 A CN110390021 A CN 110390021A CN 201910511946 A CN201910511946 A CN 201910511946A CN 110390021 A CN110390021 A CN 110390021A
- Authority
- CN
- China
- Prior art keywords
- entity
- drug
- data source
- knowledge mapping
- drug data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Abstract
本发明公开了药品知识图谱构建方法、装置、计算机设备及存储介质,该方法包括:获取药品数据源;识别所述药品数据源中属于实体类型的实体;计算各所述实体之间的相似度,当各所述相似度均低于预设阈值时,则提取各所述实体;根据提取的各所述实体,在药品数据源中识别出各所述实体之间的实体关系;及基于各所述实体及各所述实体关系,构建药品知识图谱。本发明提供的药品知识图谱构建方法、计算机及存储介质,是以国内的药品为数据源,并且进行相似度比较,避免出现实体重复,从而构建出基于我国药品的知识图谱,填补了国内的药品知识图谱的空白。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种药品知识图谱构建方法、构 建装置、计算机设备及存储介质。
背景技术
知识图谱(Knowledge Graph)本质上是一种语义网络。其节点代表实体 (Entity)或者概念(Concept),边代表实体或概念之间的各种语义关系。它 是一种只是管理与服务模式,能够将各个领域琐碎、零散的知识相互连接, 从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的指示系统。 现在,人们已经开始将知识图谱应用在综合性知识检索以及问答、决策支持 等智能系统中。例如,知识图谱已经在金融、法律、医疗等领域有了成功应 用。但是在药品上,国内市场上还没一个完整的、成熟的知识图谱,虽然中 医药知识图谱建立相对较完善,但都是经过多年的人工构建,耗时时间长。 同时,RxNorm药品标准图谱在美国已广泛用于临床信息系统中药物数据的交 互、统计及共享,但是由于国内药品与国际药品并不相同,因此无法应用于 我国市场以及临床。
发明内容
有鉴于此,本发明提出一种药品知识图谱构建方法、装置、计算机设备 及存储介质,能够通过该构建方法构建出符合我国药品的知识图谱。
首先,为实现上述目的,本发明提出一种药品知识图谱构建方法,该方 法包括步骤:
获取药品数据源;
识别所述药品数据源中属于实体类型的实体;
计算各所述实体之间的相似度,当各所述相似度均低于预设阈值时,则 提取各所述实体;
根据提取的各所述实体,在所述药品数据源中识别出各所述实体之间的 实体关系;及
基于各所述实体及各所述实体关系,构建药品知识图谱。
进一步地,所述识别所述药品数据源中属于实体类型的实体的步骤之后, 所述方法还包括:计算各所述实体之间的相似度,当存在所述相似度不低于 预设阈值时,则在相比较的两个所述实体中提取一个所述实体。进一步地,
进一步地,所述根据提取的各所述实体,构建相应的实体关系的步骤之 后,所述方法还包括:检查各所述实体关系,当各所述实体关系符合已建立 的逻辑冲突约束原则,获取各所述实体关系。
进一步地,所述识别所述药品数据源中属于实体类型的实体的步骤之前, 所述方法还包括:
利用标注集方法,标注所述药品数据源中的文本信息,获取标注结果;
根据所述标注结果,获取所述药品数据源中文本信息的向量信息;及
根据所述向量信息,基于双向长短时记忆循环神经网络模型和条件随机 场,识别所述药品数据源中属于实体类型的实体。
进一步地,所述利用标注集方法,标注所述药品数据源中的信息,获取 标注结果的步骤,所述方法还包括:
利用标注集方法,标注所述药品数据源中的每一个字,获取每个字的字 标识;及
以所述药品数据源中的一个句子为单位,根据所述字标识,获取所述句 子的字序列。
进一步地,所述根据所述向量信息,基于双向长短时记忆循环神经网络 模型和条件随机场,识别所述药品数据源中属于实体类型的实体的步骤包括:
将所述向量信息作为双向长短时记忆循环神经网络模型的输入分别从左 至右和从右至左扫描,对应获取第一输出序列和第二输出序列;
拼接所述第一输出序列和所述第二输出序列,获取隐状态向量,抽取所 述隐状态向量的特征,根据所述特征,计算所述句子中每个字对应的可能标 签的概率;
基于条件随机场,以所述药品数据源中的每一个句子为单位,获取第三 输出序列及所述第三输出序列对应的标签序列;及
根据所述句子中每个字对应的可能标签的概率,计算所述标签序列的得 分值,根据所述得分值,选取最优标签序列。
进一步地,所述根据提取的各所述实体,构建相应的实体关系的步骤包 括:
根据预先创建的第一训练集,训练所述双向长短时记忆循环神经网络模 型中的第一神经网络单元,获取所述第一训练集的输入数据在所述第一神经 网络单元中转化的第一向量;
根据预先创建的第二训练集,训练所述双向长短时记忆循环神经网络模 型中的第二神经网络单元,获取所述第二训练集的输入数据在所述第二神经 网络单元中转化的第二向量;
将所述第二向量作为所述第一神经网络单元的注意力特征,加权所述第 一神经网络单元的训练结果,构建任意两个实体的关系抽取模型;
将所述第一向量作为所述第二神经网络单元的注意力特征,加权所述第 二神经网络单元的训练结果,构建任意两个实体的知识表示模型;及
根据所述关系抽取模型和所述知识表示模型,构建相应的实体关系。
为实现上述目的,本发明提出一种药品知识图谱构建装置,该装置包括:
获取模块,用于获取药品数据源;
第一识别模块,用于识别所述药品数据源中属于实体类型的实体;
计算模块,用于计算各所述实体之间的相似度,当各所述相似度均低于预 设阈值时,则提取各所述实体;
第二识别模块,用于根据提取的各所述实体,在所述药品数据源中识别 出各所述实体之间的实体关系;及
构建模块,用于基于各所述实体及各所述实体关系,构建药品知识图谱。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器 以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执 行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算 机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
相较于现有技术,本发明所提出的药品知识图谱构建方法、装置、计算 机设备及存储介质,是以国内的药品数据为数据源,并且进行相似度比较, 避免出现实体重复,从而构建出基于我国药品的知识图谱,填补了国内的药 品知识图谱的空白。
附图说明
图1是本发明第一实施例之药品知识图谱构建方法的流程示意图;
图2是本发明第二实施例之药品知识图谱构建方法的流程示意图;
图3是本发明第三实施例之药品知识图谱构建方法的流程示意图;
图4是本发明第四实施例之药品知识图谱构建方法的流程示意图;
图5是本发明第五实施例之药品知识图谱构建方法的流程示意图;
图6是本发明第六实施例之药品知识图谱构建方法的流程示意图;
图7是本发明第七实施例之药品知识图谱构建方法的流程示意图;及
图8是本发明所提供的药品知识图谱构建装置的方框示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施 例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领 域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都 属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的, 而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数 量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该 特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领 域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实 现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之 内。
请参考图1,第一实施例提供了一种药品知识图谱构建方法。该构建方法 包括:
步骤S110:获取药品数据源。
具体地,药品数据源可以是从医药网中获取的药品数据,也可以是从医 学指南中获取的药品数据,还可以通过其他可靠医学数据来获取药品数据, 在此不做限定。其中,对于结构化药品数据直接存储作为后续使用,对于非 结构化药品数据在存储后用于后续的实体识别。在本实施例中,药品数据源 来自于药监局公开的药品说明书,保证了药品数据来源的真实性、可靠性和 准确性。
步骤S120:识别药品数据源中属于实体类型的实体。
具体地,在获取药品数据源之后,从该药品数据源中识别出属于所需实 体类型的实体。实体是指构成整个知识图谱的最基本单元形态。在医学领域 的知识图谱中,实体类型通常是指疾病、药品、症状、治疗方法等这样的医 学名词。其中,该实体类型包括药品、疾病、症状、人群、身体部位及物质 成分。具体而言,该步骤就是把症状、疾病及药品等各实体类型相关的概念 识别出来。例如,在药品说明书所公开的信息中,一一识别出属于药品的实 体,属于疾病的实体,属于症状的实体,属于身体部位的实体,属于物质成 分的实体。在一实施例中,在复方板蓝根颗粒的药品说明书中,可以识别出 药品名称的实体,即复方板蓝根颗粒,物质成分的实体,即板蓝根、大青叶。 辅料为蔗糖、淀粉等等其他各实体类型所对应的实体。
步骤S130:计算各实体之间的相似度,当各相似度均低于预设阈值时, 则提取各实体。
具体地,计算出其中一个实体与识别出的其他各实体之间的相似度,当 该相似度低于预设阈值时,提取出该实体,再计算下一个实体与其他各实体 之间的相似度,依次计算出各实体之间的相似度,从而提取出相似度低于预 设阈值的实体,避免了实体之间的重复性。预设阈值可根据实际情况设定。
步骤S140:根据提取的各所述实体,在所述药品数据源中识别出各所述 实体之间的实体关系。
具体地,在一篇药品说明书的一段话或一句话中提取出各实体后,再在 该段话或该句话中识别出各实体之间的实体关系。其中,实体关系主要指适 应症、药品禁忌、药品副作用、药物相互作用、主要成分、药代动力学(药 品吸收部位、代谢部位、分布部位、排泄部位)例如,药品说明书指出:健 康志愿者服用酮康唑后导致甲磺酸伊马替尼在人身体内药物暴露量大大增加, 因此两者不能同时服用。其中,酮康唑和甲磺酸伊马替尼均为识别出的实体, 而服用酮康唑后导致甲磺酸伊马替尼在人身体内药物暴露量大大增加,则识 别出酮康唑和甲磺酸伊马替尼两个实体关系为药品相互作用关系,不能同时 服用。
步骤S150:基于各实体及各实体关系,构建药品知识图谱。
具体地,以识别出的各实体为节点,各实体关系作为有向线段,从而创 建出相应的药品知识图谱。在一实施例中,可以节点表示药品、疾病等,以 有向线段表示药品与疾病之间的实体关系等,以此类推,构建出药品知识图 谱。也可以根据需要增加其他概念或实体来作为节点,本实施例不做限定。
该实施方式所提供的药品知识图谱构建方法,是以国内的药品数据为数 据源,并且进行相似度比较,避免出现实体重复,从而构建出基于我国药品 的知识图谱,填补了国内的药品知识图谱的空白。
在第二实施例中,请参考图2,步骤210-220和步骤240-250与第一实施例 中的步骤110-120和步骤140-150相同,不再一一赘述。该方法包括:
步骤S210:获取药品数据源。
步骤S220:识别所述药品数据源中属于实体类型的实体。
步骤S230:计算各实体之间的相似度,当存在相似度不低于预设阈值时, 则在相比较的两个实体中提取一个实体。
具体地,计算出其中一个实体与识别出的其他各实体之间的相似度,当 存在其中一个相似度不低于预设阈值时,则在该相似度所对应的两个实体中 选取其中一个,避免了实体之间的重复性。预设阈值可根据实际情况设定。
步骤S240:根据提取的各所述实体,在所述药品数据源中识别出各所述 实体之间的实体关系。
步骤S250:基于各所述实体及各所述实体关系,构建药品知识图谱。
在本实施例中,通过在相似度不低于预设阈值的两个实体中选取一个, 从而避免了实体之间的重复性,相应的构建出药品知识图谱。
在第三实施例中,请参考图3,步骤310-340和步骤360与第一实施例中的 步骤110-140和步骤150相同,不再一一赘述。该方法包括:
步骤S310:获取药品数据源。
步骤S320:识别所述药品数据源中属于实体类型的实体。
步骤S330:计算各所述实体之间的相似度,当各所述相似度均低于预设 阈值时,则提取各所述实体。
步骤S340:根据提取的各所述实体,在所述药品数据源中识别出各所述 实体之间的实体关系。
步骤S350:检查各所述实体关系,当各所述实体关系符合已建立的逻辑 冲突约束原则,获取各所述实体关系。
具体地,对所建立的各实体关系逐一检查,当所建立的各实体关系均满 足已建立的逻辑冲突原则,则获取各实体关系,作为后期的药品知识图谱的 基础。当所建立的各实体关系存在不满足已建立的逻辑冲突原则,则舍弃该 实体关系或者以其他方式进行处理,以避免出现逻辑相冲突。如药品与疾病 的实体关系中,同时出现了适应症关系与禁忌关系,可选择其一或其他方式 来避免逻辑冲突。
步骤S360:基于各所述实体及各所述实体关系,构建药品知识图谱。
在第四实施例中,请参考图4,步骤410和步骤450-470与第一实施例中的 步骤110和步骤130-150相同,不再一一赘述。该方法包括:
步骤S410:获取药品数据源。
步骤S420:利用标注集方法,标注所述药品数据源中的文本信息,获取 标注结果。
具体地,采用标注集方法,对药品数据源中的文本信息进行标注,从而 获得标注结果。例如,标注集方法可以是BIO,BIOES等。本实施例中,标注 集采用BIO标注集,即B-DRUG、I-DRUG代表药品名称首字、药品名称非首 字,B-DIS、I-DIS代表疾病名首字、疾病名非首字,B-SYM、I-SYM代表症状 名首字、症状名非首字,O代表该字不属于命名实体的一部分。例如,蛇胆川 贝枇杷膏用于治疗咳嗽。蛇字标注为B-DRUG,胆、川、贝、枇、杷、膏字标 注为I-DRUG,用、于、治、疗字标注为O,咳字标注为B-DIS,嗽字标注为I-DIS。 对于药品数据源中的文本信息可以根据该例子进行标注,也可采用其他标注 集方法进行标注。采用标注集是为了尽可能的减少噪点,从而识别及提取出 的实体准确率更高。
步骤S430:根据所述标注结果,获取所述药品数据源中文本信息的向量 信息。
具体地,根据在步骤S101中的标注结果,从而获取到每个字的标注结果, 再根据该标注结果,获得每个字的向量信息。例如,将每个字的标注结果转 换为one-hot向量,再将每个字的one-hot向量映射为低维稠密的字向量,然后 将该句子中的每个字的字向量进行依次组合排列,从而获得整个句子的向量 信息。
步骤S440:根据所述向量信息,基于双向长短时记忆循环神经网络模型 和条件随机场,识别所述药品数据源中属于实体类型的实体。
具体地,基于双向长短时记忆循环神经网络模型和条件随机场,根据所 获得的每个字的向量信息,识别出药品名称对应的实体,疾病对应的实体, 症状对应的实体等等。
步骤S450:计算各所述实体之间的相似度,当各所述相似度均低于预设 阈值时,则提取各所述实体。
步骤S460:根据提取的各所述实体,在所述药品数据源中识别出各所述 实体之间的实体关系。
步骤S470:基于各所述实体及各所述实体关系,构建药品知识图谱。
在第五个实施例中,请参考图5,第四个实施例中的步骤420包括:
步骤S510:利用标注集方法,标注所述药品数据源中的每一个字,获取 每个字的字标识。
本实施例中,标注集采用BIO标注集,即B-DRUG、I-DRUG代表药品 名称首字、药品名称非首字,B-DIS、I-DIS代表疾病名首字、疾病名非首字, B-SYM、I-SYM代表症状名首字、症状名非首字,O代表该字不属于命名实 体的一部分。例如,蛇胆川贝枇杷膏用于治疗咳嗽。蛇字标注为B-DRUG, 胆、川、贝、枇、杷、膏字标注为I-DRUG,用、于、治、疗字标注为O,咳字标注为B-DIS,嗽字标注为I-DIS。按照该方法获得该药品数据源中每一个 字的字标识。
步骤S520:以所述药品数据源中的一个句子为单位,根据所述字标识, 获取所述句子的字序列。
具体地,以药品数据源中的句子为单位,根据上述实施例每个字的字标 识,从而获取到该句子的字序列。例如以句子为单位,将一个含有n个字的 句子记作x=(x1,x2,...,xn),其中xi表示句子的第i个字在字典中的id,进而 可以得到每个字的one-hot向量,维数是字典大小。然后将该句子中的每个字 的字向量进行依次组合排列,从而获得整个句子的向量信息。
在第六实施例中,请参考图6,第四个实施例中的步骤S440包括:
步骤S610:将所述向量信息作为双向长短时记忆循环神经网络模型的输 入分别从右至左和从左至右扫描,对应获取第一输出序列和第二输出序列。
具体地,双向长短时记忆循环神经网络模型包含两个双向长短时记忆循 环神经网络(LSTM)单元,第一个对句子从左到右进行扫描,第二个对句子 从右至左进行扫描。该双向长短时记忆循环神经网络模型不仅能捕捉到当前 词之前的上下文信息,也能够捕捉到它之后的上下文信息。第一个对应的输 出序列为第二个对应的输出序列为
步骤S620:拼接所述第一输出序列和所述第二输出序列,获取隐状态向 量,抽取所述隐状态向量的特征,根据所述特征,计算所述句子中每个字对 应的可能标签的概率。
具体地,将第一输出序列和第二输出序列进行拼接,获取完整的隐状态 向量,将该完整的隐状态向量从m维映射到k维,k表示标注集的标签数,即标 签数代表着实体类型的总个数,标签和实体类型一一对应,从而得到自动提 取的句子特征,记作P=(p1,p2,...,pn)∈Rn×k,可以把pi∈Rk的每一维pij都视作 将字xi分类到第j个标签的打分值,根据P可计算出句子中每个字xi对应的可能 标签的概率Zi。
步骤S630:基于条件随机场,以所述药品数据源中的每一个句子为单位, 获取第三输出序列及所述第三输出序列对应的标签序列。
具体地,将所述药品数据源中的每一个句子为单位,该句子记为x=(x1, x2,...,xn),作为条件随机场的输入,计算并获取该句子的第三输出序列,并计 算出该第三输出序列的对应的标签序列y=(y1,y2,...,yn)。
步骤S640:根据所述句子中每个字对应的可能标签的概率,计算所述标 签序列的得分值,根据所述得分值,选取最优标签序列。
具体地,句子中每个字xi对应的可能标签的概率Zi,计算该标签序列y=(y1,y2,...,yn)的得分值s(x,y),并将得分最高的标签序列作为最优标签序列 其中, 代表第i个字xi获得标签yi的概率, 代表标签yi-1与标签yi之间的转移概率。该最优的标签序列所代表的的即 是识别出的实体。
在第七个实施例中,请参考图7,第一个实施例中的步骤S140包括:
步骤S710:根据预先创建的第一训练集,训练所述双向长短时记忆循环 神经网络模型中的第一神经网络单元,获取所述第一训练集的输入数据在所 述第一神经网络单元中转化的第一向量。
具体地,根据药品数据源,构建由多个句子为输入数据,以及每个句子 中内的任意两个实体的关系为分类结果,组成第一训练集,将第一训练集中 的句子输入到第一神经网络单元中,对第一训练集中句子包含的两个实体构 建词向量序列;通过卷积操作,池化操作和非线性操作将该词向量序列转化 为句子的向量表达。
步骤S720:根据预先创建的第二训练集,训练所述双向长短时记忆循环 神经网络模型中的第二神经网络单元,获取所述第二训练集的输入数据在所 述第二神经网络单元中转化的第二向量。
具体地,第二训练集由多个知识图谱中的三元组(h,r,t)组成的。其 中,该三元组中,h代表头实体,t代表尾实体,r描述h和r之间的关系。以 头实体和尾实体作为第二训练集的输入数据,基于三元组的能量函数,获取 该三元组的条件概率,从而实现对第二神经网络单元的训练。
步骤S730:将所述第二向量作为所述第一神经网络单元的注意力特征, 加权所述第一神经网络单元的训练结果,构建任意两个实体的关系抽取模型。
具体地,包含实体对的第j个句子的关联程度定义为ej=rht·tanh(Wsyj+bs) 其中,Ws、bs代表将文本表示映射到图谱唯独上的变换矩阵与偏置向量。所 以注意力机制对每个句子的权重定义为:
其中,m代表实体对对应的句子总数。这些句子在注意力机制引导之后 的综合表示为:
其中,综合表示将被应用在第一神经网络单元之中取代原有的单一句子 表示。在第一神经网络中添加了由第二神经网络中尸体堆的隐式关系构建的 注意力机制后,即构建成了用于对句子中实体在知识图谱中关系分类的关系 抽取模型。
步骤S740:将所述第一向量作为所述第二神经网络单元的注意力特征, 加权所述第二神经网络单元的训练结果,构建任意两个实体的知识表示模型.
具体地,包含实体对的第j个句子的关联程度定义为
其中,Ws、bs代表将文本表示映射到图谱唯独上的变换矩阵与偏置向量, M代表进行文本分类的语义关系向量矩阵。所以注意力机制对每个实体的权 重定义为:
其中,n代表实体对总数。这些实体对在注意力机制引导之后的综合表示 为:
其中,图谱关系的综合表示将被应用在具体的第二神经网络单元之中取 代原有的单一关系表示。在第二神经网络中添加了由第一神经网络中提取的 语义信息构建注意力机制后,即构建成了用于对两个实体进行知识图谱中关 系分类的知识表示模型。
步骤S750:根据所述关系抽取模型和所述知识表示模型,构建相应的实 体关系。
具体地,将关系抽取模型和知识表示模型的输入端口融合,形成统一的 输入端口,同时将关系抽取模型和知识表示模型的输出端口融合,形成统一 的输出端口,从而构建了基于知识与文本互注意力机制,使得两者可以互补、 融合,识别出的实体关系也更可靠。
在八个实施例中,第一个实施例中的步骤S110之前,该方法还包括:
步骤S810:采集药品说明书,根据所述药品说明书,创建药品数据源。
具体地,可通过网络采集或扫描采集等方式来采集药品说明书,从而创 建处药品数据源。
请参考图8,本发明还提供一种药品知识图谱构建装置800,该装置800 包括:
获取模块810,用于获取药品数据源。具体地,药品数据源可以是从医药 网中获取的药品数据,也可以是从医学指南中获取的药品数据,还可以通过 其他可靠医学数据来获取药品数据,在此不做限定。
第一识别模块820,用于识别所述药品数据源中属于实体类型的实体。具 体地,在获取药品数据源之后,从该药品数据源中识别出属于所需实体类型 的实体。
计算模块830,用于计算各所述实体之间的相似度,当各所述相似度均低 于预设阈值时,则提取各所述实体。具体地,计算出其中一个实体与识别出 的其他各实体之间的相似度,当该相似度低于预设阈值时,提取出该实体, 再计算下一个实体与其他各实体之间的相似度,依次计算出各实体之间的相 似度,从而提取出相似度低于预设阈值的实体,避免了实体之间的重复性。 预设阈值可根据实际情况设定。
第二识别模块840,用于根据提取的各所述实体,在所述药品数据源中识 别出各所述实体之间的实体关系。具体地,在一篇药品说明书的一段话或一 句话中提取出各实体后,再在该段话或该句话中识别出各实体之间的实体关 系。
构建模块850,用于基于各所述实体及各所述实体关系,构建药品知识图 谱。具体地,以识别出的各实体为节点,各实体关系作为有向线段,从而创 建出相应的药品知识图谱。
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、 笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机 柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。 本实施例的计算机设备至少包括但不限于:可通过装置总线相互通信连接的 存储器、处理器等。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、 卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随 机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务 器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相 应功能。本实施例的计算机可读存储介质用于存储电子装置20,被处理器执 行时实现本发明的数据可视化方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器, 空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种药品知识图谱构建方法,其特征在于,所述方法包括步骤:
获取药品数据源;
识别所述药品数据源中属于实体类型的实体;
计算各所述实体之间的相似度,当各所述相似度均低于预设阈值时,则提取各所述实体;
根据提取的各所述实体,在所述药品数据源中识别出各所述实体之间的实体关系;及
基于各所述实体及各所述实体关系,构建药品知识图谱。
2.如权利要求1所述的药品知识图谱构建方法,其特征在于,所述识别所述药品数据源中属于实体类型的实体的步骤之后,所述方法还包括:计算各所述实体之间的相似度,当存在所述相似度不低于预设阈值时,则在相比较的两个所述实体中提取一个所述实体。
3.如权利要求1所述的药品知识图谱构建方法,其特征在于,所述根据提取的各所述实体,在所述药品数据源中识别出各所述实体之间的实体关系的步骤之后,所述方法还包括:检查各所述实体关系,当各所述实体关系符合已建立的逻辑冲突约束原则,获取各所述实体关系。
4.如权利要求1所述的药品知识图谱构建方法,其特征在于,所述识别所述药品数据源中属于实体类型的实体的步骤之前,所述方法还包括:
利用标注集方法,标注所述药品数据源中的文本信息,获取标注结果;
根据所述标注结果,获取所述药品数据源中文本信息的向量信息;及
根据所述向量信息,基于双向长短时记忆循环神经网络模型和条件随机场,识别所述药品数据源中属于实体类型的实体。
5.如权利要求4所述的药品知识图谱构建方法,其特征在于,所述利用标注集方法,标注所述药品数据源中的信息,获取标注结果的步骤,所述方法还包括:
利用标注集方法,标注所述药品数据源中的每一个字,获取每个字的字标识;及
以所述药品数据源中的一个句子为单位,根据所述字标识,获取所述句子的字序列。
6.如权利要求4所述的药品知识图谱构建方法,其特征在于,所述根据所述向量信息,基于双向长短时记忆循环神经网络模型和条件随机场,识别所述药品数据源中属于实体类型的实体的步骤包括:
将所述向量信息作为双向长短时记忆循环神经网络模型的输入分别从左至右和从右至左扫描,对应获取第一输出序列和第二输出序列;
拼接所述第一输出序列和所述第二输出序列,获取隐状态向量,抽取所述隐状态向量的特征,根据所述特征,计算所述句子中每个字对应的可能标签的概率;
基于条件随机场,以所述药品数据源中的每一个句子为单位,获取第三输出序列及所述第三输出序列对应的标签序列;及
根据所述句子中每个字对应的可能标签的概率,计算所述标签序列的得分值,根据所述得分值,选取最优标签序列。
7.如权利要求1所述的药品知识图谱构建方法,其特征在于,所述根据提取的各所述实体,在所述药品数据源中识别出各所述实体之间的实体关系的步骤包括:
根据预先创建的第一训练集,训练所述双向长短时记忆循环神经网络模型中的第一神经网络单元,获取所述第一训练集的输入数据在所述第一神经网络单元中转化的第一向量;
根据预先创建的第二训练集,训练所述双向长短时记忆循环神经网络模型中的第二神经网络单元,获取所述第二训练集的输入数据在所述第二神经网络单元中转化的第二向量;
将所述第二向量作为所述第一神经网络单元的注意力特征,加权所述第一神经网络单元的训练结果,构建任意两个实体的关系抽取模型;
将所述第一向量作为所述第二神经网络单元的注意力特征,加权所述第二神经网络单元的训练结果,构建任意两个实体的知识表示模型;及
根据所述关系抽取模型和所述知识表示模型,构建相应的实体关系。
8.一种药品知识图谱构建装置,其特征在于,所述装置包括:
获取模块,用于获取药品数据源;
第一识别模块,用于识别所述药品数据源中属于实体类型的实体;
计算模块,用于计算各所述实体之间的相似度,当各所述相似度均低于预设阈值时,则提取各所述实体;
第二识别模块,用于根据提取的各所述实体,在所述药品数据源中识别出各所述实体之间的实体关系;及
构建模块,用于基于各所述实体及各所述实体关系,构建药品知识图谱。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述药品知识图谱构建方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至8任一项所述药品知识图谱构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511946.7A CN110390021A (zh) | 2019-06-13 | 2019-06-13 | 药品知识图谱构建方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910511946.7A CN110390021A (zh) | 2019-06-13 | 2019-06-13 | 药品知识图谱构建方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110390021A true CN110390021A (zh) | 2019-10-29 |
Family
ID=68285323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910511946.7A Pending CN110390021A (zh) | 2019-06-13 | 2019-06-13 | 药品知识图谱构建方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110390021A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837565A (zh) * | 2019-11-14 | 2020-02-25 | 中山大学 | 实现药品推荐的模型训练方法、装置及计算计设备 |
CN111159422A (zh) * | 2019-12-26 | 2020-05-15 | 武汉海云健康科技股份有限公司 | 药品的知识图谱构建方法及系统、服务器及介质 |
CN111221979A (zh) * | 2019-12-31 | 2020-06-02 | 北京左医健康技术有限公司 | 药品知识图谱构建方法及系统 |
CN111241212A (zh) * | 2020-01-20 | 2020-06-05 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置、存储介质、电子设备 |
CN111383732A (zh) * | 2020-03-23 | 2020-07-07 | 平安医疗健康管理股份有限公司 | 一种基于互斥识别的药品审核方法、装置、计算机系统及可读存储介质 |
CN111402070A (zh) * | 2020-03-23 | 2020-07-10 | 平安医疗健康管理股份有限公司 | 医疗信息识别方法、装置、计算机设备及存储介质 |
CN111552811A (zh) * | 2020-04-24 | 2020-08-18 | 深圳数联天下智能科技有限公司 | 知识图谱中信息补全的方法、装置、计算机设备和存储介质 |
CN111723570A (zh) * | 2020-06-09 | 2020-09-29 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及系统 |
CN111951979A (zh) * | 2020-08-13 | 2020-11-17 | 上海森亿医疗科技有限公司 | 药物信息标准化方法、药物信息标准化与检索平台和设备 |
CN112182252A (zh) * | 2020-11-09 | 2021-01-05 | 浙江大学 | 基于药品知识图谱的智能用药问答方法及其设备 |
CN112231416A (zh) * | 2020-10-14 | 2021-01-15 | 中国平安人寿保险股份有限公司 | 知识图谱本体更新方法、装置、计算机设备及存储介质 |
WO2021159733A1 (zh) * | 2020-09-07 | 2021-08-19 | 平安科技(深圳)有限公司 | 医学属性知识图谱构建方法、装置、设备及介质 |
CN113449113A (zh) * | 2020-03-27 | 2021-09-28 | 京东数字科技控股有限公司 | 一种知识图谱构建方法、装置、电子设备及存储介质 |
CN114005507A (zh) * | 2021-09-23 | 2022-02-01 | 厦门大学 | 一种基于知识图谱的临床用药风险评估方法和系统 |
WO2022021958A1 (zh) * | 2020-07-30 | 2022-02-03 | 北京京东拓先科技有限公司 | 药品知识图谱的构建方法和装置 |
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN117438104A (zh) * | 2023-12-21 | 2024-01-23 | 成都市第一人民医院 | 一种智能药品预警方法、电子设备以及计算机存储介质 |
CN111914095B (zh) * | 2020-06-20 | 2024-04-19 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147556A1 (en) * | 2015-11-24 | 2017-05-25 | International Business Machines Corporation | Knowledge-based editor with natural language interface |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
US20170300470A1 (en) * | 2016-04-15 | 2017-10-19 | Marca Research & Development International, Llc | Systems and methods for identifying evidentiary information |
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
-
2019
- 2019-06-13 CN CN201910511946.7A patent/CN110390021A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170147556A1 (en) * | 2015-11-24 | 2017-05-25 | International Business Machines Corporation | Knowledge-based editor with natural language interface |
US20170300470A1 (en) * | 2016-04-15 | 2017-10-19 | Marca Research & Development International, Llc | Systems and methods for identifying evidentiary information |
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837565A (zh) * | 2019-11-14 | 2020-02-25 | 中山大学 | 实现药品推荐的模型训练方法、装置及计算计设备 |
CN110837565B (zh) * | 2019-11-14 | 2022-08-12 | 中山大学 | 实现药品推荐的模型训练装置及计算机设备 |
CN111159422A (zh) * | 2019-12-26 | 2020-05-15 | 武汉海云健康科技股份有限公司 | 药品的知识图谱构建方法及系统、服务器及介质 |
CN111221979B (zh) * | 2019-12-31 | 2021-05-28 | 北京左医健康技术有限公司 | 药品知识图谱构建方法及系统 |
CN111221979A (zh) * | 2019-12-31 | 2020-06-02 | 北京左医健康技术有限公司 | 药品知识图谱构建方法及系统 |
CN111241212A (zh) * | 2020-01-20 | 2020-06-05 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置、存储介质、电子设备 |
CN111241212B (zh) * | 2020-01-20 | 2023-10-24 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置、存储介质、电子设备 |
CN111383732A (zh) * | 2020-03-23 | 2020-07-07 | 平安医疗健康管理股份有限公司 | 一种基于互斥识别的药品审核方法、装置、计算机系统及可读存储介质 |
CN111402070A (zh) * | 2020-03-23 | 2020-07-10 | 平安医疗健康管理股份有限公司 | 医疗信息识别方法、装置、计算机设备及存储介质 |
CN111383732B (zh) * | 2020-03-23 | 2023-04-18 | 平安医疗健康管理股份有限公司 | 一种基于互斥识别的药品审核方法、装置、计算机系统及可读存储介质 |
CN113449113A (zh) * | 2020-03-27 | 2021-09-28 | 京东数字科技控股有限公司 | 一种知识图谱构建方法、装置、电子设备及存储介质 |
CN111552811A (zh) * | 2020-04-24 | 2020-08-18 | 深圳数联天下智能科技有限公司 | 知识图谱中信息补全的方法、装置、计算机设备和存储介质 |
CN111552811B (zh) * | 2020-04-24 | 2023-06-02 | 深圳数联天下智能科技有限公司 | 知识图谱中信息补全的方法、装置、计算机设备和存储介质 |
CN111723570A (zh) * | 2020-06-09 | 2020-09-29 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN111914095B (zh) * | 2020-06-20 | 2024-04-19 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及系统 |
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及系统 |
WO2022021958A1 (zh) * | 2020-07-30 | 2022-02-03 | 北京京东拓先科技有限公司 | 药品知识图谱的构建方法和装置 |
CN111951979A (zh) * | 2020-08-13 | 2020-11-17 | 上海森亿医疗科技有限公司 | 药物信息标准化方法、药物信息标准化与检索平台和设备 |
WO2021159733A1 (zh) * | 2020-09-07 | 2021-08-19 | 平安科技(深圳)有限公司 | 医学属性知识图谱构建方法、装置、设备及介质 |
CN112231416A (zh) * | 2020-10-14 | 2021-01-15 | 中国平安人寿保险股份有限公司 | 知识图谱本体更新方法、装置、计算机设备及存储介质 |
CN112182252A (zh) * | 2020-11-09 | 2021-01-05 | 浙江大学 | 基于药品知识图谱的智能用药问答方法及其设备 |
CN114005507A (zh) * | 2021-09-23 | 2022-02-01 | 厦门大学 | 一种基于知识图谱的临床用药风险评估方法和系统 |
CN115019906B (zh) * | 2022-06-06 | 2024-04-16 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN117438104A (zh) * | 2023-12-21 | 2024-01-23 | 成都市第一人民医院 | 一种智能药品预警方法、电子设备以及计算机存储介质 |
CN117438104B (zh) * | 2023-12-21 | 2024-03-22 | 成都市第一人民医院 | 一种智能药品预警方法、电子设备以及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390021A (zh) | 药品知识图谱构建方法、装置、计算机设备及存储介质 | |
Wang et al. | Learning visual relationship and context-aware attention for image captioning | |
You et al. | Visual sentiment analysis by attending on local image regions | |
Luo et al. | Unsupervised Neural Aspect Extraction with Sememes. | |
Xu et al. | Sentiment analysis of social images via hierarchical deep fusion of content and links | |
Hu et al. | Deep learning for fake news detection: A comprehensive survey | |
CN109635280A (zh) | 一种基于标注的事件抽取方法 | |
Murthy et al. | Center-focusing multi-task CNN with injected features for classification of glioma nuclear images | |
Zhang et al. | Cross-modal image sentiment analysis via deep correlation of textual semantic | |
Duarte et al. | A review of semi-supervised learning for text classification | |
CN109446333A (zh) | 一种实现中文文本分类的方法及相关设备 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
Bae et al. | Flower classification with modified multimodal convolutional neural networks | |
Sun et al. | Video question answering: a survey of models and datasets | |
Peng et al. | Unsupervised cross-domain named entity recognition using entity-aware adversarial training | |
CN110442859A (zh) | 标注语料生成方法、装置、设备及存储介质 | |
Joshua Thomas et al. | A deep learning framework on generation of image descriptions with bidirectional recurrent neural networks | |
Liu et al. | Deep neural network-based recognition of entities in Chinese online medical inquiry texts | |
CN114822874B (zh) | 一种基于特征偏差对齐的方剂功效分类方法 | |
Zhang et al. | Robust neural relation extraction via multi-granularity noises reduction | |
Zhang et al. | Transfer correlation between textual content to images for sentiment analysis | |
Cinelli et al. | Automatic event identification and extraction from daily drilling reports using an expert system and artificial intelligence | |
Chen et al. | Improving deep forest by exploiting high-order interactions | |
Ma et al. | A time-series based aggregation scheme for topic detection in Weibo short texts | |
Alahmadi et al. | TAAM: Topic-aware abstractive arabic text summarisation using deep recurrent neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |