CN112420212B - 一种脑卒中医疗知识图谱的构建方法 - Google Patents
一种脑卒中医疗知识图谱的构建方法 Download PDFInfo
- Publication number
- CN112420212B CN112420212B CN202011352468.9A CN202011352468A CN112420212B CN 112420212 B CN112420212 B CN 112420212B CN 202011352468 A CN202011352468 A CN 202011352468A CN 112420212 B CN112420212 B CN 112420212B
- Authority
- CN
- China
- Prior art keywords
- cerebral apoplexy
- entity
- medical knowledge
- knowledge
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 210000004556 brain Anatomy 0.000 title claims abstract description 20
- 239000003814 drug Substances 0.000 title claims abstract description 14
- 208000006011 Stroke Diseases 0.000 claims abstract description 198
- 230000002490 cerebral effect Effects 0.000 claims abstract description 154
- 206010008190 Cerebrovascular accident Diseases 0.000 claims abstract description 153
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 208000024891 symptom Diseases 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 238000000265 homogenisation Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 229940079593 drug Drugs 0.000 claims description 2
- 230000001225 therapeutic effect Effects 0.000 claims description 2
- 239000002585 base Substances 0.000 description 44
- 201000010099 disease Diseases 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 208000023516 stroke disease Diseases 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000031226 Hyperlipidaemia Diseases 0.000 description 1
- 208000032382 Ischaemic stroke Diseases 0.000 description 1
- 244000297179 Syringa vulgaris Species 0.000 description 1
- 235000004338 Syringa vulgaris Nutrition 0.000 description 1
- 244000223014 Syzygium aromaticum Species 0.000 description 1
- 235000016639 Syzygium aromaticum Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 239000002220 antihypertensive agent Substances 0.000 description 1
- 229940127088 antihypertensive drug Drugs 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 208000026106 cerebrovascular disease Diseases 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000000302 ischemic effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Abstract
本发明公开了一种脑卒中医疗知识图谱的构建方法,所述方法如下:S1、构建脑卒中疾病词典;S2、构建脑卒中本体库和脑卒中本体库的模式层,并生成模式层的规则;S3、从信息库中获取脑卒中疾病及其相关的医学知识并进行实体对齐和相似度计算,然后基于本体库模式层的规则添加到脑卒中本体库中;S4、不断重复步骤S3,以对脑卒中本体库进行更新和完善,进而可获得脑卒中医疗知识图谱;步骤S5、计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的医疗知识图谱的质量。本发明中构建了一个覆盖全面、结构完整、知识描述准确的脑卒中医学知识图谱,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
Description
技术领域
本发明属于医疗技术领域,具体涉及了一种脑卒中医疗知识图谱的构建方法。
背景技术
随着城市化进程和社会老龄化加速,脑卒中已经成为致死率和致残率第一的疾病,具有高发病率、高致残率、高死亡率、高复发率、高经济负担五大特点,在我国脑卒中防治报告2019中提到,2018年我国居民因脑血管病致死的比例超过20%,致死率长期居于首位且逐年上升。而目前对于脑卒中的研究主要集中在防治上,由于脑卒中涉及到多种并发症,治疗手段也很多,有关于脑卒中的医疗实体错综复杂,运用医疗知识图谱会对此起到积极作用,
从上个世纪九十年代的语义网络,到2012年Google正式提出知识图谱(KnowledgeGraph),再发展到现在的公开知识库以及大量的通用知识图谱涌现,证明对于知识图谱的研究及应用已经在各行业各领域引起极大的关注,知识图谱可以简单的划分成通用知识图谱和领域知识图谱两类,通用知识图谱有很多,研究领域中的大型公开的知识库,如基于维基百科词条中抽取结构化知识的DBpedia、集成了部分中文信息的连接数据库YAGO、社区伙伴贡献的大型合作型知识库Freebase、中文的开放型知识图谱库OpenKG等;工程领域的谷歌公司用在Google搜索引擎上的的Knowledge Graph、百度公司用作百度搜索的知识图谱“知心”、搜狗用在Sougo搜索的“知立方”等。
得益于互联网技术的不断发展,知识的储存和共享愈发便捷,医疗领域知识能借助互联网相互交融、交叉发展,越来越多的技术被运用到医疗领域中,为智慧医疗领域添砖加瓦,而知识图谱本质上是一种揭示实体之间的关系的语义网络,网络中的节点代表着实体,节点间的边表示实体与实体间的关系,知识图谱在医疗领域的应用前景非常广阔,将知识图谱运用到医疗领域中的智能问答、疾病辅助诊断、风险评估以及决策系统等方面都能起到关键作用,医疗知识图谱蕴含大量疾病知识与症状特征,实体和概念覆盖面更广、语义关系更多样,能够作为机器语言认知的基础。
鉴于此,本发明以脑卒中及其相关医学知识作为契入点,对脑卒中知识图谱进行研究,提出了一种脑卒中医疗知识图谱的构建方法。
发明内容
本发明的目的是提供一种脑卒中医疗知识图谱的构建方法,构建了一个覆盖全面、结构完整、知识描述准确的脑卒中医学知识图谱,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
为解决上述技术问题,本发明提供一种脑卒中医疗知识图谱的构建方法,所述方法包括以下步骤:
S1、基于国际标准医学术语集并通过人工参与的方式构建脑卒中疾病词典;
S2、根据脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则;
S3、从信息库中获取脑卒中疾病及其相关的医学知识,并对获取的医学知识进行实体对齐和相似度计算,然后基于本体库模式层的规则将与脑卒中本体库中实体匹配的医学知识添加到脑卒中本体库中;
S4、不断重复步骤S3,以对脑卒中本体库进行更新和完善,进而可获得脑卒中医疗知识图谱。
优选地,所述步骤S1的具体实现方式包括:
S11、通过人工参与的方式调用国际标准医学术语集并初步建立概念分类体系;
S12、同时利用人工对所调用的国际标准医学术语集进行标注分析以建立关系分类体系;
S13、对所建立的概念分类体系和关系分类体系进行对比评估,从而构建脑卒中疾病词典。
优选地,所述步骤S3的具体实现方式包括:
S31、采用分布式爬虫从垂直医学网站和众包性质的百科网站中爬取脑卒中疾病及其相关的医学知识,并将所爬取的医学知识以三元组<head,relation,tail>形式储存在Neo4J图数据库中;
S32、将从公开知识库中获取的通用知识图谱医学知识直接进行整合,并将所整合的医学知识以三元组<head,relation,tail>形式储存在Neo4J图数据库中;
S33、将Neo4J图数据库中储存的从步骤S31和步骤S32获取的医学知识映射到连续的低维向量空间中并以实体向量表示以进行实体对齐,然后计算出实体之间的语义结构信息的相似度;
S34、基于本体库模式层的规则将所计算的相似度高的医学知识添加到脑卒中本体库中。
优选地,所述步骤S33的具体实现方式包括:
S331、利用TransD模型将Neo4J图数据库中储存的从步骤S31和步骤S32获取的医学知识映射到连续的低维向量空间中以实体向量表示,其中TransD模型表示为:
式(1)中,h表示头实体节点,t表示尾实体节点,r表示头实体节点与尾实体节点之间的关系,L1/L2表示计算时使用L1的距离或使用L2的距离,L1表示r向量到h向量的平移距离,L2表示r向量到t向量的平移距离,其中,Mh=rphp+I,Mt=rptp+I,I表示单位矩阵,p表示投影,hp、rp、tp分别为三元组<head,relation,tail>的投影向量;
S332、将同类实体的相同属性的不同表达方式进行属性对齐得到异构数据源,然后根据本体库模式层的规则对异构数据源的属性值进行规范化处理;
S333、计算属性对齐和规范化处理后实体的语义结构信息的相似度,从而确定该医学知识中实体与脑卒中本体库中实体之间的关系,其计算公式表示为:
式(2)中,W1,W2表示两个实体,k表示权重参数,N表示可调节参数,i,j表示实体的属性名称,lcs(i,j)表示实体属性名称i和j的最大公共子序列的长度,li表示实体W1中词的长度,lj表示实体W2中词的长度。
优选地,所述异构数据源的属性值进行规范化处理具体包括:对数值型属性值的度量单位进行统一;对字符串类型属性值中带有的空格符和换行符进行删除;将区间型属性值的上限和下限储存于列表中;将实体对象型属性值储存于列表中且不进行属性对齐操作。
优选地,所述脑卒中本体库中的实体包括基于医学主题词表和ICD-10编码。
优选地,所述步骤S3中的医学知识包括脑卒中疾病数据,以及治疗手段、症状、检查方法和药品。
优选地,所述步骤S4中通过人工干预的方式对所获得的脑卒中医疗知识图谱边界进行限定以保证脑卒中医疗知识图谱不会在广度上无限延伸。
优选地,所述步骤S4的具体实现方式包括:不断从信息库中获取脑卒中疾病及其相关的医学知识,并进行实体对齐和相似度计算,然后根据当前脑卒中本体库的模式层的关系类型对获取的医学知识进行判定,当获取的医学知识的关系类型存在当前脑卒中本体库的模式层中且其头实体节点和尾节点节点类型已知时,则将所获取的医学知识链接到脑卒中本体库已有的实体关系上,若脑卒中本体库中没有对应的实体关系,则在当前脑卒中本体库的模式层中添加新的实体关系;当获取的医学知识所连接的头实体节点和尾实体节点只有一个能在当前脑卒中本体库的模式层中找到对应的关系类型时,则将该未知关系类型的实体进行抽取并计算其出现的次数,然后对其熵值做均一化处理,并将熵值较大的关系类型与实体类型作为候选模式添加到模式层,进而不断更新脑卒中医疗知识图谱。
优选地,还包括步骤S5、计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的脑卒中医疗知识图谱的质量。
与现有技术相比,本发明首先结合国际标准医学术语集并通过人工参与方式构建脑卒中疾病词典,基于脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则;然后不断从垂直领域医学网站和众包网站百度百科上爬取脑卒中疾病相关医学知识以三元组形式储存,并将所爬取的脑卒中医学知识与公开知识库中抽取的脑卒中医学知识进行实体对齐和相似度计算,并基于脑卒中本体库模式层的规则将相似度高的实体关系添加到脑卒中本体库中进行脑卒中医疗知识图谱的建模、更新和完善,从而获得脑卒中医疗知识图谱,同时通过人工干预的方式对所获得的脑卒中医疗知识图谱的边界进行限定,以及对脑卒中医疗知识图谱的知识进行质量评估。本发明构建了一个覆盖全面、结构完整、知识描述准确的脑卒中医学知识图谱,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
附图说明
图1是本发明一种脑卒中医疗知识图谱的构建方法的步骤流程图,
图2是本发明中构建脑卒中疾病词典的方法流程图,
图3是本发明中获取和处理医学知识的方法流程图,
图4是本发明中三元组医学知识处理方法的流程图,
图5是本发明中疾病实体类部分属性示意图,
图6是本发明中脑卒中疾病信息部分知识图谱的示意图,
图7是本发明中高血脂实体结构的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
如图1、图5所示,一种脑卒中医疗知识图谱的构建方法,所述方法包括以下步骤:
S1、基于国际标准医学术语集并通过人工参与的方式构建脑卒中疾病词典;
S2、根据脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则;
S3、从信息库中获取脑卒中疾病及其相关的医学知识,对获取的医学知识进行实体对齐和相似度计算,然后基于本体库模式层的规则将与脑卒中本体库中实体匹配的医学知识添加到脑卒中本体库中;
S4、不断重复步骤S3,以对脑卒中本体库进行更新和完善,进而可获得脑卒中医疗知识图谱;
S5、计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的脑卒中医疗知识图谱的质量。
本实施例中,首先结合国际标准医学术语集并通过人工参与方式构建脑卒中疾病词典,基于脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则,所述规则基于国际标准医学术语集的规范表述和人工标注,通过这些规则能够对歧义词、属性值等进行约束;然后不断从垂直领域医学网站和众包网站百度百科上爬取脑卒中疾病相关医学知识以三元组形式储存,并将所爬取的脑卒中医学知识与公开知识库中抽取的脑卒中医学知识进行实体对齐和相似度计算,并基于本体库模式层规则将相似度高的实体关系添加到脑卒中本体库中进行脑卒中医疗知识图谱的建模;再不断重复获取脑卒中医学知识进行实体对齐和相似度计算,并基于脑卒中本体库模式层的规则将相似度高的实体关系添加到脑卒中本体库中进行更新和完善,从而获得脑卒中医疗知识图谱;最后还可以通过人工干预的方式对所获得的脑卒中医疗知识图谱的边界进行限定,保证脑卒中医疗知识图谱不会在广度上无限延伸,同时,还通过计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的脑卒中医疗知识图谱的质量。所述的脑卒中医学知识图谱具有覆盖全面、结构完整和知识描述准确的特点,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
如图2所示,所述步骤S1的具体实现方式包括:
S11、通过人工参与的方式调用国际标准医学术语集并初步建立概念分类体系;
S12、同时利用人工对所调用的国际标准医学术语集进行标注分析以建立关系分类体系;
S13、对所建立的概念分类体系和关系分类体系进行对比评估,从而构建脑卒中疾病词典。
本实施例中,通过人工参与的方式调用标准医学术语集,并初步建立实体概念的分类体系;然后利用人工对实体概念进行标注和分析以建立实体关系分类体系;最后对实体的概念分类体系和关系分类体系进行对比评估,从而构建脑卒中疾病词典。
如图3所示,所述步骤S3的具体实现方式包括:
S31、采用分布式爬虫从垂直医学网站和众包性质的百科网站中爬取脑卒中疾病及其相关的医学知识,并将所爬取的医学知识以三元组<head,relation,tail>形式储存在Neo4J图数据库中;
S32、将从公开知识库中获取的通用知识图谱医学知识直接进行整合,并将所整合的医学知识以三元组<head,relation,tail>形式储存在Neo4J图数据库中;
S33、将Neo4J图数据库中储存的从步骤S31和步骤S32获取的医学知识映射到连续的低维向量空间中并以实体向量表示以进行实体对齐,然后计算出实体之间的语义结构信息的相似度;
S34、基于本体库模式层的规则将所计算的相似度高的医学知识添加到脑卒中本体库中。
本实施例中,在脑卒中疾病词典的指导下,利用分布式爬虫从垂直医学网站和众包性质的百科网站中爬取脑卒中疾病相关的医学知识并以三元组<head,relation,tail>形式储存在Neo4J图数据库中(见表1,表1示出了缺血性脑卒中描述三元组,其中head表示头实体节点,tail表示尾实体节点,relation表示头实体节点与尾实体节点之间的关系),同时从公开知识库(本实施例中是以华东理工大学的中文症状库为例)抽取通用知识图谱的医学知识以三元组<head,relation,tail>形式储存在Neo4J图数据库中,再将Neo4J图数据库中储存的医学知识进行实体对齐和语义结构信息相似度计算,最后基于本体库模式层的规则将语义结构信息相似度高的医学知识添加到脑卒中本体库中。
表1缺血性脑卒中描述三元组
本实施例中,由于所获取的医学知识均以轻量级的JSON文件进行保存,因此首先需要对所获取的医学知识进行数据清洗,即对缺省、乱码和非法字符进行清理。其中,所述医学知识包括脑卒中疾病相关医学知识,以及治疗手段、治疗方法、症状、检查方法和药物等属性和关系数据(如近义关系、属性关系以及约束关系等,如图5所示,图5示出了一种疾病实体类部分属性),其主要为患者提供脑卒中疾病自查以及给医生医学知识库作参考。
如图4所示,所述步骤S33的具体实现方式包括:
S331、利用TransD模型将Neo4J图数据库中储存的从步骤S31和步骤S32获取的医学知识映射到连续的低维向量空间中以实体向量表示,其中TransD模型表示为:
式(1)中,h表示头实体节点,t表示尾实体节点,r表示头实体节点与尾实体节点之间的关系,L1/L2表示计算时使用L1的距离或使用L2的距离,L1表示r向量到h向量的平移距离,L2表示r向量到t向量的平移距离,其中,Mh=rphp+I,Mt=rptp+I,I表示单位矩阵,p表示投影,对于医学知识的三元组<head,relation,tail>而言,我们定义其三元组中h向量、r向量和t向量对应的投影向量为hp、rp和tp;
S332、将同类实体的相同属性的不同表达方式进行属性对齐得到异构数据源,然后根据本体库模式层的规则对异构数据源的属性值进行规范化处理,本实施例中基于本体库模式层规则中的约束规则对异构数据源的属性值进行规范化处理,包括:对数值型属性值的度量单位进行统一;对字符串类型属性值中带有的空格符和换行符进行删除;将区间型属性值的上限和下限储存于列表中;将实体对象型属性值储存于列表中且不进行属性对齐操作;
S333、计算属性对齐和规范化处理后实体的语义结构信息的相似度,从而确定该医学知识中实体与脑卒中本体库中实体之间的关系,其计算公式表示为:
式(2)中,W1,W2表示两个实体,k表示权重参数,N表示可调节参数,i,j表示实体的属性名称,lcs(i,j)表示实体属性名称i和j的最大公共子序列的长度,li表示实体W1中词的长度,lj表示实体W2中词的长度。
本实施例中,所述TransD模型在语义关系复杂的医疗知识图谱中通过映射矩阵将头实体节点和尾实体节点映射到关系的低维向量空间中来表示语义结构,与TransE模型相比较,能够更好的捕捉到结构化医疗知识数据之间的非线性关系,降低了实体节点向量化过程的损失,故能在脑卒中本体库中发挥更大的作用。实体属性对齐的作用是提高实体链接的准确率,由于脑卒中领域内的实体属性较少,因此,我们可根据脑卒中本体库的约束规则构建实体属性映射表,然后将同类实体的相同属性的不同表达方式进行对齐,再根据脑卒中本体库模式层的约束规则对异构数据源的属性值进行规范化处理,最后计算实体语义结构的相似度并根据所计算的相似度值确定该医学知识中实体与脑卒中本体库中实体之间的关系,从而决定是否将该医学知识添加(即链接)到脑卒中医疗知识图谱中进行更新和完善。
本实施例中,实体对齐是指将异构数据源知识库中的各个实体归并为现实世界中的一个具有全局唯一标识的实体,之后将对齐的实体链接到脑卒中医疗知识图谱中,而构建脑卒中疾病词典的过程中已经实现了实体对齐,故在实体对齐阶段仅需要对实体属性进行对齐即可,见表2,表2示出了异构数据源的部分实体属性对齐映射表。其中,所述脑卒中本体库中的实体包括基于医学主题词表和ICD-10编码,人工参与标注脑卒中疾病,按照不同类型进行分类,分别从病因、诊断方法、鉴别学、流行病学、并发症、既往病史、预防和复发等多个维度对脑卒中疾病进行描述。
表2异构数据源的部分实体属性对齐映射表
其中,通过人工干预的方式对所获得的医疗知识图谱边界进行相应处理以保证医疗知识图谱不会在广度上无限延伸,其具体实现方式为:。
其中,所述步骤S4的具体实现方式包括:不断从信息库中获取脑卒中疾病及其相关的医学知识,并进行实体对齐和相似度计算,然后根据当前脑卒中本体库的模式层的关系类型对获取的医学知识进行判定,当获取的医学知识的关系类型存在当前脑卒中本体库的模式层中且其头实体节点和尾节点节点类型已知时,则将所获取的医学知识链接到脑卒中本体库已有的实体关系上,若脑卒中本体库中没有对应的实体关系,则在当前脑卒中本体库的模式层中添加新的实体关系;当获取的医学知识所连接的头实体节点和尾实体节点只有一个能在当前脑卒中本体库的模式层中找到对应的关系类型时,则将该未知关系类型的实体进行抽取并计算其出现的次数,然后对其熵值做均一化处理,并将熵值较大的关系类型与实体类型作为候选模式添加到模式层,进而不断更新脑卒中医疗知识图谱。
本实施例中,由于所述脑卒中疾病词典是根据实际需求进行制定,而脑卒中本体库的模式层是根据脑卒中疾病词典进行定义的,因此,在实际应用上很难保证脑卒中模式层能够涵盖所有的数据模式,考虑到我们从异构数据源中获取的数据中存在一些未被定义清晰但是具有研究价值的数据模式,我们将会从这些新的数据中归纳出新的数据模式,完善补充之前所构建的脑卒中本体库,进而获取一个覆盖全面、结构完整、知识描述准确的脑卒中医学知识图谱,为后续的脑卒中智能问答系统以及辅助决策系统奠定基础。
为了更好的理解发明的工作原理和技术效果,下面用一个实验予以说明。
实验数据包括两部分,其中一部分数据通过自己编写的爬虫程序从寻医问药网以及百度百科上爬取的与脑卒中相关的医学知识数据;另一部分数据是从OpenKG上获取的公开中文症状库中抽取出来有关于脑卒中的部分医学知识三元组。实验数据一共有关于脑卒中的相关实体4112个,属性类型8类(包括疾病名称、简介、易发病人群、病因、治疗手段、就诊周期、预防措施和治愈概率),实体关系类型10类,见表3(表3示出了脑卒中医疗知识图谱实体关系类型),实体类型7类,见表4(表4示出了脑卒中医疗知识图谱实体类型)。
表3脑卒中医疗知识图谱实体关系类型表
表4脑卒中医疗知识图谱实体类型表
本实验首先是在人工参与的情况下通过半自动标注制定出脑卒中疾病词典,结合国际通用医学术语集构建出初步的脑卒中本体库和本体库模式层;然后设计爬虫程序并结合数据清洗对寻医问药网、丁香园、百度百科这三类网站的公开文本数据进行筛选爬取,再抽取华东理工大学构建的中文症状库中的医学知识作为脑卒中医疗知识图谱的补充,同时将所获取的医学知识以三元组形式存储在Neo4J图数据库中;再通过对Neo4J图数据库中储存的医学知识进行实体对齐和语义结构信息的相似度计算,基于本体库模式层规则将相似度高的医学知识添加到脑卒中本体库中并不断迭代更新脑卒中医疗知识图谱,使其不断完善而又保留边界,从而形成脑卒中医疗知识图谱的领域封闭。
本次实验随机抽取了200维度的头实体h、尾实体t和关系r的三元组进行训练,选取TransD模型为主要研究模型与TransE模型进行对比,试验验证方法为交叉验证,将随机抽取的向量按照70%的数据作为训练集,30%的数据作为测试集,采用精确度(precision)、召回率(Recall)和F1值作为评价指标,实验重复进行10并取平均值作为最后的模型评估结果,见表5(表5示出了Trans系列模型参数值%)。
表5 Trans系列模型参数表%
从表5中可以看出,TransD模型的表现优于TransE模型,在准确率、召回率和F1值三个方面,TransD模型较TransE模型均有不同程度的提高,故TransD模型在语义关系复杂的医疗知识图谱中,通过映射矩阵将头实体、尾实体映射到关系的低维向量空间中来表示语义结构,能够更好的捕捉到结构化医学知识之间的非线性关系,降低了实体节点向量化过程的损失,因此采用TransD模型更加合理,能在脑卒中本体库发挥更大作用。
如图6所示,由于高血压患者属于脑卒中疾病高发人群,我们在数据库中可以通过查询语句对脑卒中的诱发因素高血压的降压药信息进行查询,此时图6的数据库将返回到如图7所示的子图中,由于寻医问药网站以及丁香园网站本身属于一个医患交流平台,所以上面会有大部分患者向医学专家提出的咨询,同时将这部分数据也爬取下来,即可初步的构造一个智能问答系统。因此,本发明中所构建的脑卒中医疗知识图谱能够用于简单的问答系统上,为脑卒中人工智能的落地义工了数据支撑。
需要说明的是,本发明中经过不断更新和完善的脑卒中本体库模式层和已有的模式层同时存在的情况下,对已经融合进脑卒中医疗知识图谱的医学知识进行类型约束和值约束,使数据层满足脑卒中本体库模式层中定义的规则,进而实现模式层检验。所述规则库和数据层是根据脑卒中疾病词典构建的本体库模式层所生成,规则库中包括实体类型检测和属性值区间检测等。
以上对本发明所提供的一种脑卒中医疗知识图谱的构建方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (6)
1.一种脑卒中医疗知识图谱的构建方法,其特征在于,所述方法包括以下步骤:
S1、基于国际标准医学术语集并通过人工参与的方式构建脑卒中疾病词典,具体实现方式包括:
S11、通过人工参与的方式调用国际标准医学术语集并初步建立概念分类体系;
S12、同时利用人工对所调用的国际标准医学术语集进行标注分析以建立关系分类体系;
S13、对所建立的概念分类体系和关系分类体系进行对比评估,从而构建脑卒中疾病词典;
S2、根据脑卒中疾病词典构建脑卒中本体库和脑卒中本体库的模式层,并生成脑卒中本体库模式层的规则;
S3、从信息库中获取脑卒中疾病及其相关的医学知识,对获取的医学知识进行实体对齐和相似度计算,然后基于本体库模式层的规则将与脑卒中本体库中实体匹配的医学知识添加到脑卒中本体库中,具体实现方式包括:
S31、采用分布式爬虫从垂直医学网站和众包性质的百科网站中爬取脑卒中疾病及其相关的医学知识,并将所爬取的医学知识以三元组<head,relation,tail>形式储存在Neo4J图数据库中;
S32、将从公开知识库中获取的通用知识图谱医学知识直接进行整合,并将所整合的医学知识以三元组<head,relation,tail>形式储存在Neo4J图数据库中;
S33、将Neo4J图数据库中储存的从步骤S31和步骤S32获取的医学知识映射到连续的低维向量空间中并以实体向量表示以进行实体对齐,然后计算出实体之间的语义结构信息的相似度,具体为:
S331、利用TransD模型将Neo4J图数据库中储存的从步骤S31和步骤S32获取的医学知识映射到连续的低维向量空间中以实体向量表示,其中TransD模型表示为:
式(1)中,h表示头实体节点,t表示尾实体节点,r表示头实体节点与尾实体节点之间的关系,L1/L2表示计算时使用L1的距离或使用L2的距离,L1表示r向量到h向量的平移距离,L2表示r向量到t向量的平移距离,其中,Mh=rphp+I,Mt=rptp+I,I表示单位矩阵,p表示投影,hp、rp、tp分别为三元组<head,relation,tail>的投影向量;
S332、将同类实体的相同属性的不同表达方式进行属性对齐得到异构数据源,然后根据本体库模式层的规则对异构数据源的属性值进行规范化处理,其中,异构数据源的属性值进行规范化处理具体包括:对数值型属性值的度量单位进行统一;对字符串类型属性值中带有的空格符和换行符进行删除;将区间型属性值的上限和下限储存于列表中;将实体对象型属性值储存于列表中且不进行属性对齐操作;
S333、计算属性对齐和规范化处理后实体的语义结构信息的相似度,从而确定该医学知识中实体与脑卒中本体库中实体之间的关系,其计算公式表示为:
式(2)中,W1,W2表示两个实体,k表示权重参数,N表示可调节参数,i,j表示实体的属性名称,lcs(i,j)表示实体属性名称i和j的最大公共子序列的长度,li表示实体W1中词的长度,lj表示实体W2中词的长度;
S34、基于本体库模式层的规则将所计算的相似度高的医学知识添加到脑卒中本体库中;
S4、不断重复步骤S3,以对脑卒中本体库进行更新和完善,进而可获得脑卒中医疗知识图谱。
2.如权利要求1所述的脑卒中医疗知识图谱的构建方法,其特征在于,所述脑卒中本体库中的实体包括基于医学主题词表和ICD-10编码。
3.如权利要求2所述的脑卒中医疗知识图谱的构建方法,其特征在于,所述步骤S3中的医学知识包括脑卒中疾病数据,以及治疗手段、症状、检查方法和药品。
4.如权利要求3所述的脑卒中医疗知识图谱的构建方法,其特征在于,所述步骤S4中通过人工干预的方式对所获得的脑卒中医疗知识图谱边界进行限定以保证脑卒中医疗知识图谱不会在广度上无限延伸。
5.如权利要求4所述的脑卒中医疗知识图谱的构建方法,其特征在于,所述步骤S4的具体实现方式包括:不断从信息库中获取脑卒中疾病及其相关的医学知识,并进行实体对齐和相似度计算,然后根据当前脑卒中本体库的模式层的关系类型对获取的医学知识进行判定,当获取的医学知识的关系类型存在当前脑卒中本体库的模式层中且其头实体节点和尾节点节点类型已知时,则将所获取的医学知识链接到脑卒中本体库已有的实体关系上,若脑卒中本体库中没有对应的实体关系,则在当前脑卒中本体库的模式层中添加新的实体关系;当获取的医学知识所连接的头实体节点和尾实体节点只有一个能在当前脑卒中本体库的模式层中找到对应的关系类型时,则将该未知关系类型的实体进行抽取并计算其出现的次数,然后对其熵值做均一化处理,并将熵值较大的关系类型与实体类型作为候选模式添加到模式层,进而不断更新脑卒中医疗知识图谱。
6.如权利要求5所述的脑卒中医疗知识图谱的构建方法,其特征在于,还包括步骤S5、计算脑卒中医疗知识图谱中医学知识的置信度,并舍弃置信度低的医学知识以保证所获得的脑卒中医疗知识图谱的质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352468.9A CN112420212B (zh) | 2020-11-27 | 2020-11-27 | 一种脑卒中医疗知识图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011352468.9A CN112420212B (zh) | 2020-11-27 | 2020-11-27 | 一种脑卒中医疗知识图谱的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112420212A CN112420212A (zh) | 2021-02-26 |
CN112420212B true CN112420212B (zh) | 2023-12-26 |
Family
ID=74843633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011352468.9A Active CN112420212B (zh) | 2020-11-27 | 2020-11-27 | 一种脑卒中医疗知识图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420212B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113380400A (zh) * | 2021-07-07 | 2021-09-10 | 中国科学院空间应用工程与技术中心 | 一种基于知识图谱和深度学习的中医智能诊疗辅助系统 |
CN113221541A (zh) * | 2021-07-09 | 2021-08-06 | 清华大学 | 一种数据提取方法及装置 |
CN115036034B (zh) * | 2022-08-11 | 2022-11-08 | 之江实验室 | 一种基于患者表征图的相似患者识别方法及系统 |
CN117577348B (zh) * | 2024-01-15 | 2024-03-29 | 中国医学科学院医学信息研究所 | 一种循证医学证据的识别方法及相关装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107657063A (zh) * | 2017-10-30 | 2018-02-02 | 合肥工业大学 | 医学知识图谱的构建方法及装置 |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110609910A (zh) * | 2019-09-18 | 2019-12-24 | 金色熊猫有限公司 | 医学知识图谱构建方法及装置、存储介质和电子设备 |
CN110825721A (zh) * | 2019-11-06 | 2020-02-21 | 武汉大学 | 大数据环境下高血压知识库构建与系统集成方法 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
-
2020
- 2020-11-27 CN CN202011352468.9A patent/CN112420212B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
CN107657063A (zh) * | 2017-10-30 | 2018-02-02 | 合肥工业大学 | 医学知识图谱的构建方法及装置 |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109509556A (zh) * | 2018-11-09 | 2019-03-22 | 天津开心生活科技有限公司 | 知识图谱生成方法、装置、电子设备及计算机可读介质 |
CN110222201A (zh) * | 2019-06-26 | 2019-09-10 | 中国医学科学院医学信息研究所 | 一种专病知识图谱构建方法及装置 |
CN110609910A (zh) * | 2019-09-18 | 2019-12-24 | 金色熊猫有限公司 | 医学知识图谱构建方法及装置、存储介质和电子设备 |
CN110825721A (zh) * | 2019-11-06 | 2020-02-21 | 武汉大学 | 大数据环境下高血压知识库构建与系统集成方法 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112420212A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112420212B (zh) | 一种脑卒中医疗知识图谱的构建方法 | |
CN106919671B (zh) | 一种中医文本病案挖掘与辅助决策智能系统 | |
US11921769B2 (en) | Ontology mapping method and apparatus | |
CN111639190A (zh) | 医疗知识图谱构建方法 | |
CN109543047A (zh) | 一种基于医疗领域网站的知识图谱构建方法 | |
CN112786194A (zh) | 基于人工智能的医学影像导诊导检系统、方法及设备 | |
CN111785368A (zh) | 基于医疗知识图谱的分诊方法、装置、设备及存储介质 | |
CN110189831B (zh) | 一种基于动态图序列的病历知识图谱构建方法及系统 | |
CN111813957A (zh) | 基于知识图谱的医疗导诊方法和可读存储介质 | |
CN106951684A (zh) | 一种医学疾病诊断记录中实体消歧的方法 | |
Cheng et al. | Research on medical knowledge graph for stroke | |
CN110600121B (zh) | 一种基于知识图谱病因初步诊断方法 | |
CN110838368A (zh) | 一种基于中医临床知识图谱的机器人主动问诊方法 | |
WO2011013007A2 (en) | Ontological information retrieval system | |
CN112635071B (zh) | 融合中西医知识的糖尿病知识图谱构建方法 | |
CN111768869B (zh) | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
CN113851219A (zh) | 一种基于多模态知识图谱的智能导诊方法 | |
La-Ongsri et al. | Incorporating ontology-based semantics into conceptual modelling | |
Mulwad et al. | Automatically generating government linked data from tables | |
CN111309930B (zh) | 一种基于表示学习的医学知识图谱实体对齐方法 | |
CN113111657A (zh) | 一种跨语言知识图谱对齐与融合方法、装置及存储介质 | |
CN117056493A (zh) | 基于病历知识图谱的大语言模型医疗问答系统 | |
CN116805013A (zh) | 一种基于知识图谱的中医药视频检索模型 | |
Liu et al. | PatientEG dataset: bringing event graph model with temporal relations to electronic medical records |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |