CN111831908A - 医疗领域知识图谱构建方法、装置、设备及存储介质 - Google Patents

医疗领域知识图谱构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111831908A
CN111831908A CN202010592333.3A CN202010592333A CN111831908A CN 111831908 A CN111831908 A CN 111831908A CN 202010592333 A CN202010592333 A CN 202010592333A CN 111831908 A CN111831908 A CN 111831908A
Authority
CN
China
Prior art keywords
knowledge
entity
data
medical field
updating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010592333.3A
Other languages
English (en)
Inventor
张圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010592333.3A priority Critical patent/CN111831908A/zh
Priority to PCT/CN2020/119374 priority patent/WO2021139282A1/zh
Publication of CN111831908A publication Critical patent/CN111831908A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及到智慧城市中智慧医疗领域,公开了一种医疗领域知识图谱构建方法,包括:对医学领域相关的垂直性网站进行知识抽取,存入知识库;以及,对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将识别到的所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;对所述知识库中的数据进行知识加工;对知识加工后的数据进行质量评估;将通过质量评估的数据构建成知识图谱。所述领域识别模型和构建完成知识图谱可以存储及应用于区块链中。本申请的医疗领域知识图谱构建方法,可以构建健全的医疗领域知识图谱,具有良好的迁移性,可用于其他领域知识图谱构建。

Description

医疗领域知识图谱构建方法、装置、设备及存储介质
技术领域
本申请涉及到智慧城市中智慧医疗领域,特别是涉及到一种医疗领域知识图谱构建方法、装置、设备及存储介质。
背景技术
近年来,基于知识图谱的问答系统则成为各行业研究和应用的热点方向。知识图谱将知识用三元组(实体、关系/属性、属性值)的方式表达,做到人类易懂组织形式,使用图作为表示知识的数据结构,因此称为知识图谱。用图的节点来表示客观世界的概念和实体或是他们的属性值,用节点之间的边表示概念和实际的关系或属性,节点-边-节点组成了表示知识和事实的陈述语句。而且应用知识图谱在语义层面表示客观世界的知识和事实,能够建立各种智能应用,具有集成和积累的特性。基于知识图谱构建问答系统在数据上具有以下优势:(1)利用数据关联度解决语义理解智能化程度问题;(2)利用数据精度解决回答准确率问题;(3)利用三元组的数据结构化提高问题检索效率。
高质量的医学知识图谱是智慧医疗、精准智能医疗的重要基础。发明人意识到,目前市场上高质量的医学领域知识图谱较少,因为目前专业性较强的知识图谱构建过程的数据源选择具有局限性,一般仅在领域相关的垂直性网站上进行抽取,而忽略了百科类网站中的相关知识数据,百科类网站中具有各个领域的大量的知识数据,知识抽取工作相对复杂和繁琐。
发明内容
本申请的主要目的为提供一种医疗领域知识图谱构建方法、装置、设备及存储介质,旨在解决如何构建健全的医疗领域知识图谱的技术问题。
为了实现上述发明目的,本申请提出一种医疗领域知识图谱构建方法,包括:
对医学领域相关的垂直性网站进行知识抽取,存入知识库;以及,
对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将识别到的所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;
对所述知识库中的数据进行知识加工;
对知识加工后的数据进行质量评估;
将通过质量评估的数据构建成医疗领域知识图谱;
将所述医疗领域知识图谱应用于医学相关知识智能问答。
进一步地,所述将识别到的所述实体文本输入到预先训练的实体领域识别模型中的步骤包括:
将实体文本分词处理,输入到Token Embedding层,得到词向量e1,e2…,en
将词向量e1,e2…,en输入LSTM层,得到隐藏向量h1,h2…,hn
将隐藏向量进行Attention计算得到表征向量v,Attention计算过程如下:
Figure BDA0002556090240000021
v=∑iαihi,i=1,…,n;
将表征向量v输入全连接层得到输出结果,具体公式为y=sigmoid(W*v),其中y为所述识别结果,识别结果包括1和0,分别对应医学领域实体和非医学领域实体,W是参数,sigmoid是激活函数。
进一步地,所述对抽取的数据进行知识加工的步骤包括:
对抽取到的实体数据的属性和属性值进行规范化;
对抽取到的实体数据进行多值属性处理。
进一步地,所述对抽取到的实体数据的属性和属性值进行规范化的方法包括:
利用文本相似度计算的方法对抽取到的实体数据的属性和属性值进行规范化;或者,
利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化。
进一步地,所述对知识加工后的知识数据进行质量评估的步骤包括:
利用数据来源的数据对知识加工后的知识数据进行交叉检验;
将交叉检验不通过的知识数据通过众包算法分配给人工进行评估。
进一步地,在所述将通过质量评估的数据构建成医疗领域知识图谱的步骤之后还包括,对知识图谱进行更新,其中更新方法为:
利用基于统计学泊松分布公式
Figure BDA0002556090240000031
预测知识图谱中实体的更新频率,其中Estimation(e)是实体的更新频率,T(e)表示实体的存在时间周期,X(e)表示实体e在时间周期T(e)内变化的次数;
根据所述更新频率对知识图谱中的实体数据进行智能更新。
进一步地,所述根据所述更新频率次对知识图谱中的实体数据进行智能更新的步骤包括:
根据所述更新频率确定实体的更新周期;
基于当前时间以及所述实体的更新周期,确定所述实体所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新知识图谱中实体对应的属性值。
本申请实施例还提供一种医疗领域知识图谱构建装置,包括:
第一知识抽取单元,用于对医学领域相关的垂直性网站进行知识抽取,存入知识库;
第二知识抽取单元,用于对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;
知识加工单元,用于对所述知识库中的数据进行知识加工;
质量评估单元,用于对知识加工后的知识数据进行质量评估;
构建单元,用于将通过质量评估的知识数据构建成医疗领域知识图谱;
智能问答单元,用于将所述医疗领域知识图谱应用于医学相关知识智能问答。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的医疗领域知识图谱构建方法、装置、设备及存储介质,可以构建高质量的医疗领域知识图谱,并可以以较小的代价实现知识图谱的实时更新,同时具有良好的迁移性,用于其他领域的知识图谱的构建和更新。
附图说明
图1为本申请一实施例的医疗领域知识图谱构建方法的流程示意图;
图2为本申请一实施例的医疗领域知识图谱构建装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种医疗领域知识图谱构建方法,包括步骤:
S1、对医学领域相关的垂直性网站进行知识抽取,存入知识库;以及,
S2、对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将识别到的所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;
S3、对所述知识库中的数据进行知识加工;
S4、对知识加工后的数据进行质量评估;
S5、将通过质量评估的数据构建成医疗领域知识图谱;
S6、将所述医疗领域知识图谱应用于医学相关知识智能问答。
如上述步骤S1~S2所述,知识图谱的建立首先要对数据源的原始数据进行知识抽取。一般来说原始数据分为结构化数据、半结构化数据和非结构化数据,根据不同的数据类型,采用不同的方法进行处理。一般医疗领域的高质量的数据源是垂直性网站和对应领域的百科类网站,这种数据源的数据一般是半结构化和非结构化的数据,所以本发明的知识图谱的构建方法主要针对于半结构化和非结构化的数据的知识源进行知识抽取。对于疫苗类的垂直性网站,其知识内容大都是和疫苗知识相关的,可以直接进行数据抽取;对于百科类网站,里面也包含了大量的医学等领域的实体,但是百科类网站也包含大量其他领域的实体,所以需要识别出医学领域实体。这里采用了预先训练完成的实体领域识别模型,可以对数据中的实体进行领域识别,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库中,这样保证了知识图谱的数据来源的广泛性和专业性。
如上述步骤S3所述,需要对在数据源抽取到的知识数据进行知识加工。知识加工是指对多个知识库中的知识进行整合,形成一个知识库的过程。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识加工的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。比如,对于历史人物曹操的描述,在百度百科、互动百科、维基百科等不同的知识库中,描述有一些差别,曹操所属时代,百度百科为东汉,互动百科为东汉末年,维基百科为东汉末期;曹操的主要成就,百度百科为“实行屯田制,安抚流民消灭群雄,统一北方,奠定曹魏政权的基础,开创建安文学,提倡薄葬”,互动百科为“统一北方”,维基百科为“统一了东汉帝国核心地区”。由此可以看出,不同的知识库对于同一个实体的描述,还是有一些差异,所属时代的描述差别在于年代的具体程度,主要成就的差别在于成就的范围不同,等等,通过知识加工,可以将不同知识库中的知识进行互补融合,形成全面、准确、完整的实体描述。知识加工过程中,主要涉及到的工作就是实体规范化,也包括属性规范化、值规范化、以及多值属性的处理,可以通过相似度计算,人工众包、启发式规则等方法来实现。
如上述步骤S4所述,质量评估就是对最后的结果数据进行评估,将合格的数据放入知识图谱中。质量评估可以通过利用数据来源的数据对知识加工后的知识数据进行交叉检验,也可以由人工众包的方式进行人工评估。
如上述步骤S5~S6所述,将通过质量评估的知识数据构建成知识图谱。对于医疗领域的知识图谱,一般采用自顶向下的构建方式。自顶向下的构建方式,是指先确定知识图谱的数据模型,再根据模型去填充具体数据,最终形成医疗领域知识图谱。所述医疗领域知识图谱可以应用于医学相关知识问答,为患者和医生提供帮助。
在一个具体的实施例中,所述将识别到的所述实体文本输入到预先训练的实体领域识别模型中的步骤包括:
S21、将实体文本分词处理,输入到Token Embedding层,得到词向量e1,e2…,en
S22、将词向量e1,e2…,en输入LSTM层,得到隐藏向量h1,h2…,hn
S23、将隐藏向量进行Attention计算得到表征向量v,Attention计算过程如下:
Figure BDA0002556090240000061
v=∑iαihi,i=1,…,n
S24、将表征向量v输入全连接层得到输出结果,具体公式为y=sigmoid(W*v),其中y为所述识别结果,识别结果包括1和0,分别对应医学领域实体和非医学领域实体,W是参数,sigmoid是激活函数。
如上所述,对于实体的文本描述信息中的每一个word,输入Token Embedding层,将单词转化为词向量e1,e2…,en,词向量携带了单词语义信息,然后将词向量输入LSTM层,得到隐藏向量h1,h2…,hn,每个隐藏向量都携带了一部分句子信息,然后进行Attention操作得到当前句子的表征向量,最后将表征向量输入到全连接层得到输出标签,即为模型识别到的类别。具体地,输出的结果分类为1和0,其中1表示是医学领域(疫苗、疾病、基因、蛋白等)的实体,0表示是其他领域的实体。
在一个具体的实施例中,所述对抽取的数据进行知识加工的步骤包括:
S31、对抽取到的实体数据的属性和属性值进行规范化;
S32、对抽取到的实体数据进行多值属性处理。
如上所述,需要对在数据源抽取到的知识数据进行知识加工。不同的网站,收集知识的侧重点不同,对于同一个实体,有网站上的信息的可能侧重于其本身某个方面的描述,有的网站可能侧重于描述实体与其它实体的关系,知识加工的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。对属性和属性值的规范化就是指对实体三元组中描述的规范化。例如:疫苗作用原理、疫苗作用机制是同一种关系类型,可以将其统一为疫苗作用原理,这就是属性规范化的过程。同样的,也需要的属性值进行规范化处理。对于有多个属性值的实体和实体属性,需要对多值进行处理,方便知识的储存,若不进行处理,也会影响知识图谱的下游应用。例如:关于麻腮风疫苗的适用症的知识(麻腮风疫苗,适用症,麻疹、腮腺炎、风疹)通过多值属性处理为(麻腮风疫苗,适用症,麻疹)、(麻腮风疫苗,适用症,腮腺炎)、(麻腮风疫苗,适用症,风疹)。多值属性处理可以通过一个值分割算法根据分割符如标点符号和空格等将属性值划分多个部分,对分割前后进行打分,分割后的属性值对应到了实体则加分,反之则减分,根据得分判断是否进行分割。
在一个具体的实施例中,所述对抽取到的实体数据的属性和属性值进行规范化的方法包括:
S311、利用文本相似度计算的方法对抽取到的实体数据的属性和属性值进行规范化;或者,
S312、利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化。
如上所述,可以利用文本相似度计算的方法对实体数据的属性和属性值进行规范化,采用机器学习的方法利用神经网络模型去对实体数据的属性和属性值进行语义分析,基于余弦相似度的算法计算实体数据属性之间的相似度和数值型之间的相似度,对于相似度达到预设阈值的属性或属性值规范为同一种。可以统计在数据抽取过程中实体数据的属性或属性值的出现频次,对于相似度达到预设阈值的属性或属性值,将其规范为在数据抽取过程中出现频次最高的属性或属性值。对于具体领域如疫苗领域的知识图谱,也可以利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化,这样可以更大程度的保证知识图谱的准确性。
在一个具体的实施例中,所述对知识加工后的知识数据进行质量评估的步骤包括:
S41、利用数据来源的数据对知识加工后的知识数据进行交叉检验;
S42、将交叉检验不通过的知识数据通过众包算法分配给人工进行评估。
如上所述,质量评估是对知识加工后的知识进行质量评估,从而保证知识图谱中知识的质量。在此实施例中,首先利用数据来源的数据对知识加工后的知识数据进行交叉检验。交叉检验的过程可以通过预先训练的神经网络模型实现。对于交叉检验通过的知识数据可以保存起来以构建知识图谱,对于交叉检验不通过的知识数据,可以通过人工众包的方式进行人工评估。所述众包算法是指将众包任务分配给人工的算法,人工众包虽然成本较高,但是具有更好的专业性和更高的准确定,对于机器无法完成的质量评估,可以采用人工处理的方式来进行,这样操作既提高了效率又保证了质量。
在一个实施例中,在所述将通过质量评估的数据构建成医疗领域知识图谱的步骤之后还包括,对知识图谱进行更新,其中更新方法为:
S61、利用基于统计学泊松分布公式
Figure BDA0002556090240000081
预测知识图谱中实体的更新频率,其中Estimation(e)是实体的更新频率,T(e)表示实体的存在时间周期,X(e)表示实体e在时间周期T(e)内变化的次数;
S62、根据所述更新频率对知识图谱中的实体数据进行智能更新。
如上所述,现实世界的知识是在不断变化的,如果不进行及时更新会导致知识图谱的知识过时,从而影响知识图谱的下游应用。一个最常用的方法是周期全量更新,这也是很多知识图谱的更新策略,这种方式会消耗大量的时间和网络带宽资源。本申请可以对知识图谱中的实体进行更新频次预测,可以有效的识别出发生变化的实体以及新出现的实体,以较小的代价实现知识图谱的实时更新。知识图谱中的实体数据来自于各个数据源,而数据源中的数据和实体的更新频次有关。这里使用了基于统计学泊松分布假设的实体更新频率估计方案,其中Estimation(e)是实体e的更新频率估计值,该估计值由实体更新频率估计算法得到。Estimation(e)是实体的更新频率估计,关于实体的更新频率估计是基于统计学的一个假设,事件的变化(这里指数据的变化)服从泊松分布。总的变化次数/时间间隔就是一个有效地变化频率估计,具体公式如下:
Figure BDA0002556090240000082
其中T(e)表示实体的存在时间周期,X(e)表示实体e在时间周期T(e)内变化的次数。
在一个具体的实施例中,所述根据所述更新频率次对知识图谱中的实体数据进行智能更新的步骤包括:
S621、根据所述更新频率确定实体的更新周期;
S622、基于当前时间以及所述实体的更新周期,确定所述实体所对应的属性值的下次更新时间;
S623、根据所述属性值的下次更新时间,更新知识图谱中实体对应的属性值。
如上所述,因为知识是在不断变化的,如果不进行及时更新会导致知识图谱的知识过时,从而影响知识图谱的下游应用。假设某知识数据实体经过模型预测,其更新频率是约每月更新一次,在一次更新过后,一个月之后再次对此实体数据进行更新即可,这样知识图谱在每次更新时,只需要更新一小部分变化的实体即可保证整个知识图谱的鲜度。
在一个实施例中,用于实体识别和实体领域识别的模型、构建完成的医疗领域知识图谱相关数据等信息均可以存储与区块链中,在区块链网络中实现如上所述的医疗领域知识图谱构建方法。
如上所述,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请实施例的医疗领域知识图谱构建及更新方法,可以自动构建医疗领域知识图谱,有效减少人力成本,同时保证图谱的质量,并以较小的代价实现对知识图谱的更新,该方法具有良好的迁移性,同样适用于其他领域的知识图谱的构建和更新,并已经落地应用于多个实际的知识图谱中,取得了良好的效果。
参照图2,本申请实施例中还提供一种医疗领域知识图谱构建装置,包括:
第一知识抽取单元1,用于对医学领域相关的垂直性网站进行知识抽取,存入知识库;
第二知识抽取单元2,用于对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;
知识加工单元3,用于对所述知识库中的数据进行知识加工;
质量评估单元4,用于对知识加工后的知识数据进行质量评估;
构建单元5,用于将通过质量评估的知识数据构建成医疗领域知识图谱;
智能问答单元6,用于将所述医疗领域知识图谱应用于医学相关知识智能问答。
在一个具体的实施例中,所述第二知识抽取单元2包括:
词向量获取单元,用于将实体文本分词处理,输入到TokenEmbedding层,得到词向量e1,e2…,en
隐藏向量获取单元,用于将词向量e1,e2…,en输入LSTM层,得到隐藏向量h1,h2…,hn
表征向量获取单元,用于将隐藏向量进行Attention计算得到表征向量v;
输出结果获取单元,用于将表征向量v输入全连接层得到输出结果。
在一个具体的实施例中,所述知识加工单元3包括:
规范化单元,用于对抽取到的实体数据的属性和属性值进行规范化;
多值属性处理单元,用于对抽取到的实体数据进行多值属性处理。
在一个具体的实施例中,所述规范化单元包括:
相似度计算单元,用于利用文本相似度计算的方法对抽取到的实体数据的属性和属性值进行规范化;
人工众包单元,用于利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化。
在一个具体的实施例中,所述质量评估单元4包括:
检验单元,用于利用数据来源的数据对知识加工后的知识数据进行交叉检验;
分配单元,用于将交叉检验不通过的知识数据通过众包算法分配给人工进行评估。
在一个实施例中,所述医疗领域知识图谱构建装置还包括更新单元,用于对知识图谱进行更新。
在一个具体的实施例中,所述更新单元包括:
更新频率预测单元,用于利用基于统计学泊松分布公式预测知识图谱中实体的更新频率;
智能更新单元,用于根据所述更新频率对知识图谱中的实体数据进行智能更新。
如上所述,可以理解地,本发明中提出的所述医疗领域知识图谱构建装置的各组成部分可以实现如上所述医疗领域知识图谱构建方法任一项的功能,具体结构不再赘述。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用知识图谱相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗领域知识图谱构建方法。
上述处理器执行上述的医疗领域知识图谱构建方法,包括:对医学领域相关的垂直性网站进行知识抽取,存入知识库;以及,对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将识别到的所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;对所述知识库中的数据进行知识加工;对知识加工后的数据进行质量评估;将通过质量评估的数据构建成医疗领域知识图谱;将所述医疗领域知识图谱应用于医学相关知识智能问答。
在一个实施例中,所述将识别到的所述实体文本输入到预先训练的实体领域识别模型中的步骤包括:将实体文本分词处理,输入到TokenEmbedding层,得到词向量e1,e2…,en;将词向量e1,e2…,en输入LSTM层,得到隐藏向量h1,h2…,hn;将隐藏向量进行Attention计算得到表征向量v,Attention计算过程如下:
Figure BDA0002556090240000121
v=∑iαihi,i=1,…,n
将表征向量v输入全连接层得到输出结果,具体公式为y=sigmoid(W*v),其中y为所述识别结果,识别结果包括1和0,分别对应医学领域实体和非医学领域实体,W是参数,sigmoid是激活函数。
在一个具体的实施例中,所述对抽取的数据进行知识加工的步骤包括:对抽取到的实体数据的属性和属性值进行规范化;对抽取到的实体数据进行多值属性处理。
在一个具体的实施例中,所述对抽取到的实体数据的属性和属性值进行规范化的方法包括:利用文本相似度计算的方法对抽取到的实体数据的属性和属性值进行规范化;或者,利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化。
在一个具体的实施例中,所述对知识加工后的知识数据进行质量评估的步骤包括:利用数据来源的数据对知识加工后的知识数据进行交叉检验;将交叉检验不通过的知识数据通过众包算法分配给人工进行评估。
在一个实施例中,在所述将通过质量评估的数据构建成医疗领域知识图谱的步骤之后还包括,对知识图谱进行更新,其中更新方法为:利用基于统计学泊松分布公式
Figure BDA0002556090240000131
预测知识图谱中实体的更新频率,其中Estimation(e)是实体的更新频率,T(e)表示实体的存在时间周期,X(e)表示实体e在时间周期T(e)内变化的次数;根据所述更新频率对知识图谱中的实体数据进行智能更新。
在一个具体的实施例中,所述根据所述更新频率次对知识图谱中的实体数据进行智能更新的步骤包括:根据所述更新频率确定实体的更新周期;基于当前时间以及所述实体的更新周期,确定所述实体所对应的属性值的下次更新时间;根据所述属性值的下次更新时间,更新知识图谱中实体对应的属性值。
本发明一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现医疗领域知识图谱构建方法,包括步骤:对医学领域相关的垂直性网站进行知识抽取,存入知识库;以及,对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将识别到的所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;对所述知识库中的数据进行知识加工;对知识加工后的数据进行质量评估;将通过质量评估的数据构建成医疗领域知识图谱;将所述医疗领域知识图谱应用于医学相关知识智能问答。
在一个实施例中,所述将识别到的所述实体文本输入到预先训练的实体领域识别模型中的步骤包括:将实体文本分词处理,输入到TokenEmbedding层,得到词向量e1,e2…,en;将词向量e1,e2…,en输入LSTM层,得到隐藏向量h1,h2…,hn;将隐藏向量进行Attention计算得到表征向量v,Attention计算过程如下:
Figure BDA0002556090240000132
v=∑iαihi,i=1,…,n
将表征向量v输入全连接层得到输出结果,具体公式为y=sigmoid(W*v),其中y为所述识别结果,识别结果包括1和0,分别对应医学领域实体和非医学领域实体,W是参数,sigmoid是激活函数。
在一个具体的实施例中,所述对抽取的数据进行知识加工的步骤包括:对抽取到的实体数据的属性和属性值进行规范化;对抽取到的实体数据进行多值属性处理。
在一个具体的实施例中,所述对抽取到的实体数据的属性和属性值进行规范化的方法包括:利用文本相似度计算的方法对抽取到的实体数据的属性和属性值进行规范化;或者,利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化。
在一个具体的实施例中,所述对知识加工后的知识数据进行质量评估的步骤包括:利用数据来源的数据对知识加工后的知识数据进行交叉检验;将交叉检验不通过的知识数据通过众包算法分配给人工进行评估。
在一个实施例中,在所述将通过质量评估的数据构建成医疗领域知识图谱的步骤之后还包括,对知识图谱进行更新,其中更新方法为:利用基于统计学泊松分布公式
Figure BDA0002556090240000141
预测知识图谱中实体的更新频率,其中Estimation(e)是实体的更新频率,T(e)表示实体的存在时间周期,X(e)表示实体e在时间周期T(e)内变化的次数;根据所述更新频率对知识图谱中的实体数据进行智能更新。
在一个具体的实施例中,所述根据所述更新频率次对知识图谱中的实体数据进行智能更新的步骤包括:根据所述更新频率确定实体的更新周期;基于当前时间以及所述实体的更新周期,确定所述实体所对应的属性值的下次更新时间;根据所述属性值的下次更新时间,更新知识图谱中实体对应的属性值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种医疗领域知识图谱构建方法,其特征在于,包括:
对医学领域相关的垂直性网站进行知识抽取,存入知识库;以及,
对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将识别到的所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;
对所述知识库中的数据进行知识加工;
对知识加工后的数据进行质量评估;
将通过质量评估的数据构建成医疗领域知识图谱;
将所述医疗领域知识图谱应用于医学相关知识智能问答。
2.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,所述将识别到的所述实体文本输入到预先训练的实体领域识别模型中的步骤包括:
将实体文本分词处理,输入到Token Embedding层,得到词向量e1,e2…,en
将词向量e1,e2…,en输入LSTM层,得到隐藏向量九1,九2…,九n
将隐藏向量进行Attention计算得到表征向量v,Attention计算过程如下:
Figure FDA0002556090230000011
v=∑iαihi,i=1,...,n;
将表征向量v输入全连接层得到输出结果,具体公式为y=sigmoid(W*v),其中y为所述识别结果,识别结果包括1和0,分别对应医学领域实体和非医学领域实体,W是参数,sigmoid是激活函数。
3.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,所述对抽取的数据进行知识加工的步骤包括:
对抽取到的实体数据的属性和属性值进行规范化;
对抽取到的实体数据进行多值属性处理。
4.根据权利要求3所述的医疗领域知识图谱构建方法,其特征在于,所述对抽取到的实体数据的属性和属性值进行规范化的方法包括:
利用文本相似度计算的方法对抽取到的实体数据的属性和属性值进行规范化;或者,
利用人工众包的方法对抽取到的实体数据的属性和属性值进行规范化。
5.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,所述对知识加工后的知识数据进行质量评估的步骤包括:
利用数据来源的数据对知识加工后的知识数据进行交叉检验;
将交叉检验不通过的知识数据通过众包算法分配给人工进行评估。
6.根据权利要求1所述的医疗领域知识图谱构建方法,其特征在于,在所述将通过质量评估的数据构建成医疗领域知识图谱的步骤之后还包括,对知识图谱进行更新,其中更新方法为:
利用基于统计学泊松分布公式
Figure FDA0002556090230000021
预测知识图谱中实体的更新频率,其中Estimation(e)是实体的更新频率,T(e)表示实体的存在时间周期,X(e)表示实体e在时间周期T(e)内变化的次数;
根据所述更新频率对知识图谱中的实体数据进行智能更新。
7.根据权利要求6所述的医疗领域知识图谱构建方法,其特征在于,所述根据所述更新频率次对知识图谱中的实体数据进行智能更新的步骤包括:
根据所述更新频率确定实体的更新周期;
基于当前时间以及所述实体的更新周期,确定所述实体所对应的属性值的下次更新时间;
根据所述属性值的下次更新时间,更新知识图谱中实体对应的属性值。
8.一种医疗领域知识图谱构建装置,其特征在于,包括:
第一知识抽取单元,用于对医学领域相关的垂直性网站进行知识抽取,存入知识库;
第二知识抽取单元,用于对百科类网站进行知识抽取,对抽取到的知识数据进行实体文本识别,将所述实体文本输入到预先训练的实体领域识别模型中,将识别结果为医疗领域实体的实体文本所对应的知识数据存入所述知识库;
知识加工单元,用于对所述知识库中的数据进行知识加工;
质量评估单元,用于对知识加工后的知识数据进行质量评估;
构建单元,用于将通过质量评估的知识数据构建成医疗领域知识图谱;
智能问答单元,用于将所述医疗领域知识图谱应用于医学相关知识智能问答。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010592333.3A 2020-06-24 2020-06-24 医疗领域知识图谱构建方法、装置、设备及存储介质 Pending CN111831908A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010592333.3A CN111831908A (zh) 2020-06-24 2020-06-24 医疗领域知识图谱构建方法、装置、设备及存储介质
PCT/CN2020/119374 WO2021139282A1 (zh) 2020-06-24 2020-09-30 医疗领域知识图谱构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010592333.3A CN111831908A (zh) 2020-06-24 2020-06-24 医疗领域知识图谱构建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111831908A true CN111831908A (zh) 2020-10-27

Family

ID=72899410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010592333.3A Pending CN111831908A (zh) 2020-06-24 2020-06-24 医疗领域知识图谱构建方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111831908A (zh)
WO (1) WO2021139282A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656692A (zh) * 2021-08-17 2021-11-16 中国平安财产保险股份有限公司 基于知识迁移算法的产品推荐方法、装置、设备及介质
CN113990473A (zh) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN115080762A (zh) * 2022-06-17 2022-09-20 瀚云瑞科技(北京)有限公司 一种考试知识图谱关系建立方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643821B (zh) * 2021-10-13 2022-02-11 浙江大学 一种多中心知识图谱联合决策支持方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103636A (zh) * 2011-01-18 2011-06-22 南京信息工程大学 一种面向深层网页的增量信息获取方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
US20190252074A1 (en) * 2016-10-25 2019-08-15 Koninklijke Philips N.V. Knowledge graph-based clinical diagnosis assistant

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180218126A1 (en) * 2017-01-31 2018-08-02 Pager, Inc. Determining Patient Symptoms and Medical Recommendations Based on Medical Information
CN109471948A (zh) * 2018-11-08 2019-03-15 威海天鑫现代服务技术研究院有限公司 一种老年健康领域知识问答系统构建方法
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103636A (zh) * 2011-01-18 2011-06-22 南京信息工程大学 一种面向深层网页的增量信息获取方法
US20190252074A1 (en) * 2016-10-25 2019-08-15 Koninklijke Philips N.V. Knowledge graph-based clinical diagnosis assistant
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656692A (zh) * 2021-08-17 2021-11-16 中国平安财产保险股份有限公司 基于知识迁移算法的产品推荐方法、装置、设备及介质
CN113656692B (zh) * 2021-08-17 2023-05-30 中国平安财产保险股份有限公司 基于知识迁移算法的产品推荐方法、装置、设备及介质
CN113990473A (zh) * 2021-10-28 2022-01-28 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN115080762A (zh) * 2022-06-17 2022-09-20 瀚云瑞科技(北京)有限公司 一种考试知识图谱关系建立方法及系统

Also Published As

Publication number Publication date
WO2021139282A1 (zh) 2021-07-15

Similar Documents

Publication Publication Date Title
CN111831908A (zh) 医疗领域知识图谱构建方法、装置、设备及存储介质
CN113516297B (zh) 基于决策树模型的预测方法、装置和计算机设备
CN110798502B (zh) 基于微服务框架的灰度发布方法、装置和计算机设备
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
WO2022095434A1 (zh) 基于自编码器的数据异常识别方法、装置和计算机设备
CN112464117A (zh) 请求处理方法、装置、计算机设备和存储介质
CN113642039A (zh) 单证模板的配置方法、装置、计算机设备和存储介质
CN112163131A (zh) 业务数据查询平台的配置方法、装置、计算机设备及介质
CN111768001A (zh) 语言模型的训练方法、装置和计算机设备
CN111506710B (zh) 基于谣言预测模型的信息发送方法、装置和计算机设备
CN111259167B (zh) 用户请求风险识别方法及装置
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN112036749A (zh) 基于医疗数据识别风险用户的方法、装置和计算机设备
CN113435990B (zh) 基于规则引擎的凭证生成方法、装置和计算机设备
CN113761375A (zh) 基于神经网络的消息推荐方法、装置、设备及存储介质
CN112364136B (zh) 关键词生成方法、装置、设备及存储介质
CN113656588A (zh) 基于知识图谱的数据对码方法、装置、设备和存储介质
CN113327037A (zh) 基于模型的风险识别方法、装置、计算机设备和存储介质
CN110597977B (zh) 数据处理方法、装置、计算机设备和存储介质
CN115130545A (zh) 数据处理方法、电子设备、程序产品及介质
CN114547053A (zh) 基于系统的数据处理方法、装置、计算机设备和存储介质
CN114238768A (zh) 资讯信息的推送方法、装置、计算机设备和存储介质
CN114398183A (zh) 基于区块链的任务分配方法、装置、设备以及存储介质
CN113849662A (zh) 基于模型的信息生成方法、装置、计算机设备和存储介质
CN114186646A (zh) 区块链异常交易识别方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination