CN112635071B - 融合中西医知识的糖尿病知识图谱构建方法 - Google Patents

融合中西医知识的糖尿病知识图谱构建方法 Download PDF

Info

Publication number
CN112635071B
CN112635071B CN202011567113.1A CN202011567113A CN112635071B CN 112635071 B CN112635071 B CN 112635071B CN 202011567113 A CN202011567113 A CN 202011567113A CN 112635071 B CN112635071 B CN 112635071B
Authority
CN
China
Prior art keywords
entity
medicine
western medicine
chinese
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011567113.1A
Other languages
English (en)
Other versions
CN112635071A (zh
Inventor
郭一楠
王斌
巩敦卫
张永凯
卜渊
任冲
于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou City Hospital Of Tcm
China University of Mining and Technology CUMT
China University of Mining and Technology Beijing CUMTB
Original Assignee
Xuzhou City Hospital Of Tcm
China University of Mining and Technology CUMT
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou City Hospital Of Tcm, China University of Mining and Technology CUMT, China University of Mining and Technology Beijing CUMTB filed Critical Xuzhou City Hospital Of Tcm
Priority to CN202011567113.1A priority Critical patent/CN112635071B/zh
Publication of CN112635071A publication Critical patent/CN112635071A/zh
Application granted granted Critical
Publication of CN112635071B publication Critical patent/CN112635071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种融合中西医知识的糖尿病知识图谱构建方法,涉及医学知识图谱技术领域。首先,构建疾病层、症状症候层和治疗层,组成关于糖尿病的融合中西医知识的实体概念层;然后,将获得数据填入融合中西医知识的实体概念层,对中西医数据进行标注并识别,从而获得中医医学实体和西医医学实体;设立概念定义模块、实体分类模块、属性划分模块、关系匹配模块、构建模块,对得到的中西医实体进行处理,构建出知识图谱。本发明将融合中西医知识的糖尿病知识图谱的构建进行流程化,更好的处理中西医的医药实体和语义关系,并且根据实体概念层中治疗层的设定和属性划分模块的设定,解决治疗相关实体的数量缺乏和分类不够系统等问题,其步骤简单,实现方便,可以有效解决糖尿病在中医上定义模糊的问题。

Description

融合中西医知识的糖尿病知识图谱构建方法
技术领域
本发明设计一种糖尿病知识图谱构建方法,尤其适用于医疗咨询与辨析使用的融合中西医知识的糖尿病知识图谱构建方法,属于医学知识图谱技术领域。
背景技术
医学知识图谱采用计算机数据存储和可视化技术,通过人工智能算法,实现对复杂医学知识的关联认知和深入理解,进而为辅助医学诊疗、病历质控、智能导诊、自动化核保等多种医疗任务的实现奠定技术基础。
现有的通用医学知识图谱,比如OpenKG内的中医知识图谱和中文医学知识图谱CMeKG,其包含的医学实体数量级较大,有关病、症、药、诊疗的实体种类数量丰富,但是实体的知识层次浅,关系深度不够复杂,单一医学实体的信息丰富程度低,针对具体某一疾病,知识的质量难以达到实用的水平,其对应的医药症状关系无法体现。
对于构建包含丰富医学实体,知识层次深,可以达到实用水平的医学知识图谱来说,将中医和西医知识结合起来具有必要性,因为中医和西医有着各自的优势和不足,中医学在传统医学中理论完整、经验丰富,而西医吸取先进医疗技术,具有先进性。
目前,医疗知识图谱领域的研究主要围绕通用医疗知识图谱和中医知识图谱构建展开,核心探讨医疗知识图谱构建中的医药实体和关系的获取方法、电子病历的优化处理机制、基于中医语义关系的中医知识图谱构建策略,以及基于本体的医学知识图谱构建方法等。
在通用医疗知识图谱领域,华东理工大学构建了中文症状库(Tong Ruan,MengjieWang,JianSun,et al.An automatic approach for constructing a knowledge base ofsymptoms in Chinese[J].Journal of Biomedical Semantics,2017,8(33):71-79);中国医学科学院医学信息研究所构建了医药卫生知识服务系统知识图谱(刘燕,傅智杰,李姣,等.医学百科知识图谱构建[J].中华医学图书情报杂志,2018,27(6):28-34)。昝红英等针对多源医疗文本,制定了医学命名实体和实体关系的标注体系和规范,构建了CMeKG知识图谱,涉及20余万医学实体,以及100余万概念关系实例和属性三元组,为医疗问答系统和智能辅助诊疗等领域奠定了专业知识基础(昝红英,窦华溢,贾玉祥,关同峰,奥德玛,张坤丽,穗志方.基于多来源文本的中文医学知识图谱的构建.郑州大学学报(理学版),2020,2:45-51)。
在中医知识图谱领域,中国中医科学院中医药信息研究所基于已有的中医药学语言系统(贾李蓉,于彤,崔蒙,等.中医药学语言系统研究进展[J].中国数字医学,2014,9(10):57-62)构建了中医药知识图谱(贾李蓉,刘静,于彤,等.中医药知识图谱构建[J].医学信息学杂志,2015,36(8):51-59);上海曙光医院和华东理工大学构建了中医药知识图谱(阮彤,孙程琳,王昊奋,等.中医药知识图谱构建与应用[J].医学信息学杂志,2016,37(4):8-13);
针对医学实体和关系的获取,专利(史亚,飞朱健,张国香.一种医疗知识图谱的构建系统和构建方法.中国,CN110111905A)通过对医学病历进行实体识别和异构数据融合,获得实体,并通过归一化算法和点互信息算法分析实体之间的关系强度,确定不同实体之间的相关关系;专利(唐公成,徐雷.医疗知识图谱构建方法.中国,CN111639190A)利用多重网络知识库获取医疗文本数据,包括疾病描述、症状描述、问答、评论等;基于词典和规则,提取医学实体及其关系;刘勇等采用实体识别、实体关系和属性抽取、知识融合等自然语言处理相关技术,在语义层面对医学大数据进行了统一表达和组织,建立了医学知识服务和应用(刘勇,齐梦霁.基于糖尿病防治的医学知识图谱构建的研究.医学信息,2020,18:11-14);专利(张德政,金佩,谢永红,张妍,贾麒.一种中医理论典籍的知识图谱构建方法.中国,CN109190113A)构建了中医理论典籍中的实体和动词词典,并根据词典对中医典籍中实体进行标注,通过基于字符的双向长短期记忆网络和基于条件随机场的循环神经网络进行实体识别,采用结合注意力机制的双向门控循环单元神经网络进行关系抽取,获取实体之间的关系。在结合中医医案的知识图谱构建方面,专利(翁衡,林瑞生,陈嘉焕,练文华,周翰.一种中医药知识图谱的构建方法.中国,CN106933983B)从中医药文献和相关文本中提取知识元和样本关系,并采用深度学习,将知识元和样本之间的关联关系转换为有向网络向量模型;通过赋予每个知识单元的个体距离信息,反映其关联关系。该方法能较好的体现症候与用户群体、证型与用户群体之间的关联关系,以及常用药对语义检索。
综上所述,在目前的医疗知识图谱中,强调医学实体的数量和种类的丰富程度,改进并提升实体和关系的获取方法,但是缺乏融合中西医知识的知识图谱构建方法的相关研究;此外,现有的医疗知识图谱虽然实体数量大,关联疾病种类多,但是针对某一疾病的实体信息丰富程度低且类别分析较粗,使对应的医药症状关系无法充分体现。
发明内容
针对上述技术的不足之处,提供一种充分结合中西医知识的糖尿病知识图谱构建方法,将中西医概念充分对应,并提供丰富药物治疗相关实体的类别和属性信息,实现特定疾病的自动查询。
为实现上述技术目的,本发明融合中西医知识的糖尿病知识图谱构建方法,其步骤如下:
S1:结合糖尿病病理特点,根据中西医治理与防护方法,搭建疾病层、症状症候层和治疗层,组成关于糖尿病的融合中西医知识实体概念层的基本框架;在疾病层,根据糖尿病并发症较多特点,设立糖尿病并发症类别,由于在中医中没有糖尿病这个明确概念,因此再增设糖尿病通常具有的“十高一低”症状类别,通过症状症候层与这两部分实体类别的对应,将糖尿病概念进行明确;在症状症候层组成的实体是与疾病层中的糖尿病并发症或者“十高一低”有关的症状实体和症候实体;在治疗层,将中西医治疗方法和药物进行类别划分,并且将实体的自身属性信息以及与其属性相关的实体加以丰富,从而组成用于治疗症状症候层中的症状症候实体的治疗方法实体、药物实体以及药物的属性实体;
S2:根据S1得到的实体概念层的基本框架需要,通过网络以及数据库、图书馆获取关于糖尿病的中西医相关数据;
S3:对获得的中西医数据进行清洗与整理,将重复冗杂以及无用的数据去除,再对获得的清洗与整理后的中西医数据进行格式整理;
S4:根据整理好的中西医数据内容进行分词或者分字处理,并根据S1实体概念层对中西医数据中一段文字内包含的实体类别,使用“BIOES”标注法进行标注,从而确定中西医数据内包含实体的类别;然后采用深度学习方法,对中医数据和西医数据进行命名实体识别,得到中医医学实体和西医医学实体;
S5:设立概念定义模块、实体分类模块、属性划分模块、关系匹配模块、构建模块,对得到的中西医学实体进行处理,构建知识图谱;
首先,将步骤S4得到的实体分别输入实体概念层,搭建疾病层、症状症候层和治疗层,然后,通过实体分类模块,结合深度学习方法和语义距离比较,实现实体分类,将中西医数据中都有记载的糖尿病症状以及对应的治疗与防护方法,依条目分别录入不同的中西医通用实体,再将只有中医记载的糖尿病症状以及对应的治疗与防护方法和中医具有的特有概念,包括中医辨证、治疗法、方剂,分别录入不同的中医特有实体,再将只有西医记载的糖尿病症状以及对应的治疗与防护方法和西医具有的特殊概念,包括OTC分型,分别录入不同的西医特有实体;
再通过属性划分模块,将治疗层中的中西医实体进行属性归类,根据属性归类的不同,将其设为实体或者其他实体的属性信息,这样对底层药物实体及其属性实体进行丰富;
随后,根据关系匹配模块,将中西医实体之间可能存在的关系进行对应,给中西医实体之间连接和中西医实体连接到中西医通用实体提供理论基础;
最后,通过构建模块,将实体分类模块得到的实体在实体概念层的对应层,结合中西医特点进行分配,并根据实体概念层中的实体自身关系和实体分类模块确定的类型进行实体连接,形成三元组,进而构成基于三元组的知识图谱,并进行可视化展示;
S6:将用户问句关键词转化为数据库查询语句,根据建立的糖尿病医学知识图谱内容,以分词或者分字的查询方式,输出有关联的中西医通用实体内容,当查询到用户问句关键词仅与中医特有实体或者西医特有实体存在关联时,输出中医特有实体或者西医特有实体中的关联症状与治疗方法,同时标注该内容仅属于中医或者西医专有。
步骤S2利用以下方式,获取关于糖尿病的中西医相关数据:
S21:根据构建的实体概念网络,采用网络爬虫,在糖尿病相关的医药网站上进行数据抓取;
S22:根据糖尿病中医分型,从中医典籍、医药文献中提取糖尿病中医诊疗方法。
步骤S3构建的实体概念层包含:
疾病层:
为解决中西医在糖尿病诊疗过程中的病症表述不一致问题,结合西医的生化检验指标与病症的关联关系,以及中医对糖尿病的三种分型(包括阴虚热盛、气阴两虚、阴阳两虚),在实体概念层对糖尿病中医诊疗中的“十高一低”进行实体类别建立,分别包括高血压、高血脂、高胰岛素血症、高尿酸血症、高炎性反应、高血黏度、高微量白蛋白尿、高脂肪肝、高体重、高炎性反应、免疫力低下;进而,将列出的十一个实体类别,与其对应的中西医相关的症状和症候相连接;
根据糖尿病多伴随并发症的特点,在实体概念层的疾病类别中设立并发症的实体类别,并且根据西医分类定义并发症的方法,将其划分为十二种具体类别,分别为神经系统类、心血管系统、消化系统、血液系统、泌尿系统、内分泌系统、呼吸系统、运动系统、皮肤黏膜系统、生殖系统、视觉系统类、口腔系统类;在西医方面,将并发症实体类别与对应的西医症状连接,在中医方面,将糖尿病并发症在中医数据中寻找相对应的症状和症候,并与其建立连接;
症状、症候层:
参考中西医诊疗时的特点,将中医辩证与西医辨病相结合,辩证是指通过症状总结归纳出证侯,是指反应疾病当前的情况,再由证侯确定治疗方法和具体的方药;而辨病是指由症状推出病,后续再由疾病推出相关症侯,最后由症侯确定治疗方法和具体的方药,即将“症候”与上层疾病层相连接,再与症候相关的“症状”相连接,然后增加“检查方法”和“部位”等实体类别,丰富关联实体信息;
治疗层:
治疗层与症状症候层的实体“症状”连接,治疗层包括实体类别“治法”,药物类的实体“西药”、“中成药”、“中草药”、“方剂”以及药物的属性信息;
中成药实体的属性信息类别包括:用法用量、贮藏、成分、OTC类型、功能主治、性状、药品类型、规格、药品监管分级、注意事项、适应症;
中草药实体的属性信息类别包括:用法用量、属、贮藏、入药部位、采收时间、分布区域、目、毒性、科、门、纲、界、功能主治、毒性;
西药实体的属性信息类别包括:通用名、用途分类、贮藏、成分、OTC类型、不良反应、分类、药物相互作用、性状、禁忌、注意事项、药品类型、药品监管分级、有效期、商品名、英文名称、适应症;
中药方剂实体的属性信息类别包括:禁忌症、用法、用量、组成、功能、适应症、疗效、方源、加减;
实体概念层的构建模块包括:
概念定义模块:用于对实体概念层进行定义;
实体分类模块:用于将中西医医药实体划分为中西医通用实体类别,中医特有实体类别和西医特有实体类别;中西医通用实体类别在中西医中具有通用定义;
属性划分模块:用于将治疗层中的中西医实体进行属性归类,根据属性归类的不同将其设为实体或者其他实体的属性信息;
关系匹配模块:用于根据中医实体和西医实体之间存在的医学关系,将中西医通用实体和中西医特有实体进行医学关系匹配,确定连接关系;
构建模块:将实体分类模块得到的实体,在实体概念层的对应层级,结合中西医特点进行分配,并根据实体概念层中的实体自身关系和实体分类模块确定的类型进行实体连接,形成三元组,进而形成基于三元组的知识图谱,并进行可视化展示;
概念定义模块具体包括:
对实体概念层进行定义,实体概念层GS=<Na,Nb,Nc,R>,其中,Na、Nb、Nc分别为疾病层、症状症候层和治疗层的中西医实体类别,R为实体之间的关系,R代表的两实体之间的关系不存在方向;实体概念网络中的每一个实体类别N=<S,P,V>,S为实体类别的具体实体描述,P为实体属性,V为实体属性值,属性主要指实体可能具有的属性、特征、特点及参数;实体之间的关系R具有的属性定义为H;
实体分类模块的具体包括:
将实体概念层中的中医实体类别N和西医实体类别N西进行分类,采用深度学习对中医医药数据和西医医药数据进行命名实体识别,获得中西医的医药实体及其类别,再使用词向量模型word2vec对中西医医药数据中的文本进行联合训练,得到将中西医语义信息结合的医药文本向量后,将已经获得的中西医医药实体类别向量提取出来,其中,实体类别名称完全相同的中西医实体类别不做比较,直接作为中西医通用实体,实体类别不完全相同的中西医实体,通过计算中西医实体类别向量的欧式距离来确定其匹配度,公式如下:
其中,A、B为对应的中医实体类别和西医实体类别,d为两个实体类别之间的欧氏距离,a、b分别为相应的中西医实体类别的语言向量,i为向量维数;若比较的实体类别字数不同,则维数不同,缺少的维数对应的语义向量数值设为0;
得到实体类别不完全相同的中西医实体之间的欧式距离后,根据匹配度阈值来确定待比较的中西医实体是否为中西医通用实体类别,其中,匹配度阈值是所有具有相同名称和属性的中医实体之间语义距离的平均值;
为匹配度阈值,当/>时,两个中西医实体类别构成通用实体类别,当/>时,两个中西医实体类别分别作为相应的特有实体类别,/>的确定公式如下:
其中,c和c西分别代表具有相同名称和属性的中西医实体语义向量,m代表具有相同名称和属性的中西医实体对的数量;
属性划分模块的具体包括为:
部分实体类别包含的属性信息类别量明显多于其他,如药品相关的实体类别包含很多属性信息类别,将实体类别的属性信息类别划分为治疗相关、疾病相关、使用方法相关、贮藏相关以及自身属性相关,其中治疗相关、疾病相关的属性信息类别与概念实体层相关联,作为对应实体类别的下层实体类别与其从属的实体类别相连接;而属于使用方法相关的属性信息类别与实体概念层相关性较小,作为对应实体类别所包含的实体S的属性信息P;属于贮藏相关、自身属性相关的属性信息类别与对应的实体类别相关性较大,同样作为对应实体类别所包含的实体S的属性信息P。
关系匹配模块具体包括:
进行中医实体与西医实体之间连接时,由于两者的医药关系意义并不完全相同,会存在中医实体连接到西医实体的情况,需要对中西医中具有相近意义的关系进行归纳,根据中医实体和西医实体之间存在的医学关系,将中西医通用实体和中西医特有实体进行匹配,并加以连接;这样可以让中西医的医学实体之间的关系进行联系,如某中医症状可以用某西药治疗,那么他们各自本身的医药关系就需要中西医的匹配对应;
定义医实体与西医实体之间的关系R=<Ra,Rb,Rc>,Ra为西医特有实体关系;Rb为中医特殊实体关系,Rc为两者通用实体关系。
构建模块的具体包括:
在实体概念层中定义中西医通用实体,中西医特有实体,其中在疾病层,“十高一低”实体为中西医通用实体类别,由于糖尿病在中医范畴没有明确定义,所以糖尿病并发症实体类别中包含中西医通用并发症实体和西医特有并发症实体;在症状症候层,症候为中医特有实体类别,症状分为中西医通用实体类别和中西医特有实体类别,在治疗层,治法、方剂、中草药为中医特有实体类别,西药为西医特有实体类别,中成药为中西医通用实体类别;
疾病层与症状症候层连接时,处理与糖尿病有关的实体,将糖尿病与“中西医通用症状”和“西医症状相连接”,在处理“十高一低”实体类别中的中西医实体时,将其中的中医特有实体和中西医通用实体与“症候”实体类别连接,西医特有实体与“西医症状”连接;糖尿病并发症实体类别中,中西医通用实体与“症候”连接,西医特有实体与“西医症状”连接;
在症候相关实体与症状相关实体连接时,将“症候”实体与“中医症状”和“中西医通用症状”连接;三种症状实体都与“部位”和“检查方法”连接;
将属于实体概念层的中医实体与西医实体进行连接时,若某一实体类别与中西医实体类别都有具有相关性,则根据关系匹配模块匹配后,将该关系类别R的属性H设为中西医通用关系;
实体分类模块得到中西医通用实体类别、中医特有实体类别和西医特有实体类别,通过以下模式将实体通过医学关系进行连接:
SS1:疾病层、症状症候层以及治疗层中的中医实体类别N之间的连接以及西医实体N西之间的连接;
SS2:通过关系匹配模块定义的中西医对应关系,将中西医通用实体类别连接到与其具有相关性的中医实体类别或者西医实体类别;
由于实体类别下存在多个实体,不同实体存在的关系不同,因此存在以下模式:
SS3:实体类别对应的属于该类别的实体S之间存在的关系较少,需要将该实体连接到与其具有医学关系的实体类别,比如某些糖尿病并发症无法找到对应的中医症候,则直接与对应的症状相连接;
SS4:实体类别对应的属于该类别的实体S关系复杂,则该实体类别可能与多个实体类别相连接,比如某一症状存在的治疗方式很多,包含治疗方法、方剂、西药;
在步骤S4的实施过程中还包括以下步骤;
S41:对西医数据进行分词处理,将抓取的医学词条转化为可被程序读取的文件格式,得到准确的医疗实体词边界;
S42:对中医文本进行分字处理,选用单个字当做分词输入;
S43:使用BIOES标注方法对获得的中西医文本数据进行标注,标注的类别根据已构建的实体概念网络进行定义;
S44:将标注后的中西医语料和标注的标签序列转化为词向量;
S45:采用深度学习方法进行命名实体识别,预测中西医实体的类别标签,得到医学实体的实体类别。
有益效果:
本申请针对实体概念层的构建提出了疾病层、症状症候层和治疗层的分层构建方式,并根据实体概念层的构建,提供了概念定义模块、实体分类模块、属性划分模块、关系匹配模块、构建模块,定义了融合中西医知识的糖尿病知识图谱中的实体和关系,将融合中西医知识的糖尿病知识图谱的实体概念层构建进行流程化,更好的处理中西医的医药实体和语义关系,并且根据实体概念层中治疗层的设定和属性划分模块的设定,解决了治疗相关的实体属性不够丰富和系统的问题;本专利根据糖尿病的病例特点,增设对糖尿病并发症在知识图谱中处理和构建的方法,并且使用知识图谱将中医上与糖尿病有关的辩证和治疗与西医对应数据结合起来,解决了糖尿病在中医上定义模糊的问题。
附图说明
图1为本发明融合中西医知识的糖尿病知识图谱的构建步骤;
图2为本发明融合中西医知识的糖尿病知识图谱实体概念层;
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明的融合中西医知识的糖尿病知识图谱构建方法,其步骤如下:
S1:结合糖尿病病理特点,根据中西医治理与防护方法,搭建疾病层、症状症候层和治疗层,组成关于糖尿病的融合中西医知识实体概念层的基本框架;在疾病层:根据糖尿病并发症较多特点,设立糖尿病并发症类别,由于在中医中没有糖尿病这个明确概念,因此再增设糖尿病通常具有的“十高一低”症状类别,通过症状症候层与这两部分实体类别的对应,将糖尿病概念进行明确;在症状症候层:组成的实体是与疾病层中的糖尿病并发症或者“十高一低”有关的症状实体和症候实体;在治疗层:将中西医治疗方法和药物进行类别划分,并且将实体的自身属性信息以及描述其属性的实体进行丰富,组成的实体为治疗症状症候层中的症状症候实体的治疗方法实体、药物实体以及药物的属性实体;
S2:根据S1得到的实体概念层的基本框架需要,通过网络以及数据库图书馆获取关于糖尿病的中西医相关数据;首先根据构建的实体概念网中的实体类别在百度百科、丁香园、寻医问诊网等医药网站采用网络爬虫的方式进行数据提取,利用html标签和正则表达式,从网络数据源抽取中西医实体表示;然后,根据中医中的症、候、型,以及糖尿病中医分型,从中医典籍《伤寒论》、《糖尿病中医临床询证指南》等中医典籍,提取糖尿病中医诊疗手段,构建相应的中医实体;最后,对获得的中西医数据进行清洗与整理,将重复冗杂以及无用的数据去除,再对获得的清洗与整理后的的中西医数据进行格式整理;
S3:对获得的中西医数据进行清洗与整理,将重复冗杂以及无用的数据去除,再对获得的清洗与整理后的的中西医数据进行格式整理;
首先,统一所获得数据的存储格式、编码方案,采用JSON的存储格式,编码方案采用UTF-8,方便后续在软件中的读取;然后,使用Python中的pandas工具包读取JSON格式的原始数据文件,查询并去除中医文本中与医学实体无关的语气助词和虚词“之、乎、者、则、而、焉”;最后,去除逗号、句号、分号以外的标点符号,再以所有标点符号作为标志,将语料素材切分为长度适中的中文字符串,每一字符串最大数不超过20。
实体概念层包含:
疾病层:
为解决中西医在糖尿病诊疗过程中的病症表述不一致问题,结合西医的生化检验指标与病症的关联关系,以及中医对糖尿病的三种分型(包括阴虚热盛、气阴两虚、阴阳两虚),在实体概念层对糖尿病中医诊疗中的“十高一低”进行实体类别建立,分别包括高血压、高血脂、高胰岛素血症、高尿酸血症、高炎性反应、高血黏度、高微量白蛋白尿、高脂肪肝、高体重、高炎性反应、免疫力低下;进而,将列出的十一个实体类别,与其对应的中西医相关的症状和症候相连接;
根据糖尿病多伴随并发症的特点,在实体概念层的疾病类别中设立并发症的实体类别,并且根据西医学分类定义并发症的十二种具体划分类别,分别为神经系统类、心血管系统、消化系统、血液系统、泌尿系统、内分泌系统、呼吸系统、运动系统、皮肤黏膜系统、生殖系统、视觉系统类、口腔系统类;同时将并发症类别其对应的西医症状连接,在中医方面,将糖尿病并发症在中医数据中寻找相对应的症状和症候并与其连接;
症状、症候层:
参考中西医诊疗时的特点,将中医辩证与西医辨病相结合,辩证是指通过症状总结归纳出证侯,反映疾病当前的情况,再由证侯确定治疗方法和具体的方药;而辨病是指由症状推出病,后续再由疾病推出相关证侯,最后由证侯确定治疗方法和具体的方药,即将“症候”与上层疾病层相连接,再与症候相关的“症状”相连接,然后增加实体类别“检查方法”和“部位”与“症状”对其进行丰富;
治疗层:
治疗层与症状、症候层的实体“症状”连接,治疗层包括实体类别“治法”,药物类的实体“西药”、“中成药”、“中草药”、“方剂”以及药物的属性信息;
中成药实体下的属性信息类别包括:用法用量、贮藏、成分、OTC类型、功能主治、性状、药品类型、规格、药品监管分级、注意事项、适应症;
中草药实体下的属性信息类别包括:用法用量、属、贮藏、入药部位、采收时间、分布区域、目、毒性、科、门、纲、界、功能主治、毒性;
西药实体下的属性信息类别包括:通用名、用途分类、贮藏、成分、OTC类型、不良反应、分类、药物相互作用、性状、禁忌、注意事项、药品类型、药品监管分级、有效期、商品名、英文名称、适应症;
中药方剂实体下的属性信息类别包括:禁忌症、用法、用量、组成、功能、适应症、疗效、方源、加减;
构建模块包括:
概念定义模块:用于对实体概念层进行定义;
实体分类模块:用于将中西医医药实体划分为中西医通用实体类别,中医特有实体类别和西医特有实体类别;
属性划分模块:用于将治疗层中的中西医实体进行属性归类,根据属性归类的不同将其设为实体或者其他实体的属性信息;
关系匹配模块:用于获得中西医通用实体和中西医特有实体后,中西医通用实体和中西医特有实体之间进行连接,由于存在中医实体和西医实体连接的情况,因此将中医实体和西医实体之间存在的医学关系进行对应;
构建模块:将实体分类模块得到的实体在实体概念层的对应层结合中西医特点进行分配,并将根据实体概念层中的实体自身存在的关系和实体分类模块确定的类型进行连接,形成三元组,并基于三元组构成知识图谱,进行可视化展示;
概念定义模块具体包括:
对实体概念层进行定义,实体概念层GS=<Na,Nb,Nc,R>,其中,Na、Nb、Nc分别为疾病层、症状症候层和治疗层的中西医实体类别,R为实体之间的关系,R代表的两实体之间的关系不存在方向;实体概念网络中的每一个实体类别N=<S,P,V>,S为实体类别下的具体实体,P为实体属性,V为实体属性值,属性主要指实体可能具有的属性、特征、特点及参数;实体之间的关系R具有的属性定义为H;
下面具体举例说明:N=<糖尿病,胰岛素,治疗>,代表“糖尿病”与“胰岛素”之间的关系为“治疗”;N=<胰岛素,用药方式,口服>,代表实体“胰岛素”中属性“用药方式”的值为“口服”;
实体分类模块的具体包括:
将实体概念层中的中医实体类别N和西医实体类别N西进行分类,采用深度学习对中医医药数据和西医医药数据进行命名实体识别,获得中西医的医药实体及其类别,再使用词向量模型word2vec对中西医医药数据中的文本进行联合训练,得到将中西医语义信息结合的医药文本向量后,将已经获得的中西医医药实体类别向量提取出来,其中,实体类别名称完全相同的中西医实体类别不做比较,直接作为中西医通用实体,实体类别不完全相同的中西医实体,通过计算中西医实体类别向量的欧式距离来确定其匹配度,公式如下:
其中,A、B为对应的中医实体类别和西医实体类别,d为两个实体类别之间的欧氏距离,a、b分别为相应的中西医实体类别的语言向量,i为向量维数;若比较的实体类别字数不同,则维数不同,缺少的维数对应的语义向量数值设为0;
得到实体类别不完全相同的中西医实体之间的欧式距离后,根据匹配度阈值来确定待比较的中西医实体是否为中西医通用实体类别,其中,匹配度阈值是所有具有相同名称和属性的中医实体之间语义距离的平均值;
为匹配度阈值,当/>时,两个中西医实体类别构成通用实体类别,当/>时,两个中西医实体类别分别作为相应的特有实体类别,/>的确定公式如下:
其中,c和c西分别代表具有相同名称和属性的中西医实体语义向量,m代表具有相同名称和属性的中西医实体对的数量;
属性划分模块的具体包括为:
部分实体类别包含的属性信息类别量明显多于其他,如药品相关的实体类别包含很多属性信息类别,将实体类别的属性信息类别划分为治疗相关、疾病相关、使用方法相关、贮藏相关以及自身属性相关,其中治疗相关、疾病相关的属性信息类别与概念实体层相关联,作为对应实体类别的下层实体类别与其从属的实体类别相连接;而属于使用方法相关的属性信息类别与实体概念层相关性较小,作为对应实体类别所包含的实体S的属性信息P;属于贮藏相关、自身属性相关的属性信息类别与对应的实体类别相关性较大,同样作为对应实体类别所包含的实体S的属性信息P。
关系匹配模块具体包括:
进行中医实体与西医实体之间连接时,由于两者的医药关系意义并不完全相同,会存在中医实体连接到西医实体的情况,需要对中西医中具有相近意义的关系进行归纳,根据中医实体和西医实体之间存在的医学关系,将中西医通用实体和中西医特有实体进行匹配,并加以连接;这样可以让中西医的医学实体之间的关系进行联系,如某中医症状可以用某西药治疗,那么他们各自本身的医药关系就需要中西医的匹配对应;
定义医实体与西医实体之间的关系R=<Ra,Rb,Rc>,Ra为西医特有实体关系;Rb为中医特殊实体关系,Rc为两者通用实体关系。
具体的,在中西惯用词方面,将糖尿病与其并发症的从属关系,以及糖尿病与“十高一低”的包含/被包含关系相对应;
中医的“治法”与“方剂”,“方剂”与“中草药”等之间的关系与西医的组成关系相对应;
在病症判断、治疗方面,中医糖尿病中存在的病症关系“伤、困、易伤、犯、袭、闭”等以及症候关系与西医的因果关系相对应;
中医的“症状”与“治法”、“方剂”等之间的“治愈、转归”等关系与西医的治疗/被治疗关系相对应;
中药与“禁忌症”和“功效”等以及“方剂”和“中草药”的“相侮、相乘、相克、相生”等关系与西医的相互作用相对应。
构建模块的具体包括:
在实体概念层中定义中西医通用实体,中西医特有实体,其中在疾病层,“十高一低”实体为中西医通用实体类别,由于糖尿病在中医范畴没有明确定义,所以糖尿病并发症实体类别中包含中西医通用并发症实体和西医特有并发症实体;在症状症候层,症候为中医特有实体类别,症状分为中西医通用实体类别和中西医特有实体类别,在治疗层,治法、方剂、中草药为中医特有实体类别,西药为西医特有实体类别,中成药为中西医通用实体类别;
疾病层与症状症候层连接时,处理与糖尿病有关的实体,将糖尿病与“中西医通用症状”和“西医症状相连接”,在处理“十高一低”实体类别中的中西医实体时,将其中的中医特有实体和中西医通用实体与“症候”实体类别连接,西医特有实体与“西医症状”连接;糖尿病并发症实体类别中,中西医通用实体与“症候”连接,西医特有实体与“西医症状”连接;
在症候相关实体与症状相关实体连接时,将“症候”实体与“中医症状”和“中西医通用症状”连接;三种症状实体都与“部位”和“检查方法”连接;
在症状症候层与治疗层连接时,“中医症状”与“治法”、“中成药”和“方剂”连接;“中西医通用症状”与“中成药”和“西药”连接,“西医症状”与“西药”连接;“治法”与“方剂”连接;“方剂”和“中成药”与“中草药”连接;“中成药”、“西药”、“方剂”和“中草药”都与其对应的属性实体连接;
将属于实体概念层的中医实体与西医实体进行连接时,若某一实体类别与中西医实体类别都有具有相关性,则根据关系匹配模块匹配后,将该关系类别R的属性H设为中西医通用关系;
实体分类模块得到中西医通用实体类别、中医特有实体类别和西医特有实体类别,通过以下模式将实体通过医学关系进行连接:
SS1:疾病层、症状症候层以及治疗层中的中医实体类别之间的连接以及西医实体之间的连接;
SS2:通过关系匹配模块定义的中西医对应关系,将中西医通用实体类别连接到与其具有相关性的中医实体类别或者西医实体类别;
由于实体类别下存在多个实体,不同实体存在的关系不同,因此存在以下模式:
SS3:实体类别对应的属于该类别的实体S之间存在的关系较少,需要将该实体连接到与其具有医学关系的实体类别,比如某些糖尿病并发症无法找到对应的中医症候,则直接与对应的症状相连接;
SS4:实体类别对应的属于该类别的实体S关系复杂,则该实体类别可能与多个实体类别相连接,比如某一症状存在的治疗方式很多,包含治疗方法、方剂、西药;
S4:根据整理好的中西医数据内容进行分词或者分字处理,并根据S1实体概念层对中西医数据中一段文字内包含的实体类别,采用“BIOES”标注法进行标注,从而确定中西医数据内包含实体的类别;采用深度学习方法,对中医数据和西医数据进行命名实体识别,得到中医医学实体西医医学实体;
S41:对西医数据进行分词处理,将抓取的医学词条转化为可被程序读取的文件格式,得到准确的医疗实体词边界;
S42:对中医文本进行分字处理,选用单个字当做分词输入;
S43:使用BIOES标注方法对获得的中西医文本数据进行标注,标注的类别根据已构建的实体概念网络进行定义;
S44:将标注后的中西医语料和标注的标签序列转化为词向量;
S45:采用深度学习方法进行命名实体识别,预测中西医实体的类别标签,得到医学实体的实体类别。
S5:设立概念定义模块、实体分类模块、属性划分模块、关系匹配模块、构建模块来对将得到的中西医实体进行处理,构建知识图谱;
首先,将步骤S4得到的实体分别输入实体概念层中,搭建疾病层、症状症候层和治疗层;然后,将通过实体分类模块,采用深度学习方法和语义距离比较结合的实体分类方法,将中西医均有记载的糖尿病症状,以及对应的治疗与防护方法依条目分别录入不同的中西医通用实体,将只有中医记载的糖尿病症状以及对应的治疗与防护方法和中医具有的特有概念,包括中医辨证、治疗法、方剂,分别录入不同的中医特有实体,将只有西医记载的糖尿病症状以及对应的治疗与防护方法和西医具有的特殊概念,包括OTC分型,分别录入不同的西医特有实体;
再通过属性划分模块,将治疗层中的中西医实体进行属性归类,根据属性归类的不同将其设为实体或者其他实体的属性信息,这样对底层药物实体及其属性实体进行丰富;
随后,根据关系匹配模块,将中西医实体之间可能存在的关系进行对应,给中西医实体之间连接和中西医实体连接到中西医通用实体提供理论基础;
最后,通过构建模块将实体分类模块得到的实体在实体概念层的对应层结合中西医特点进行分配,并将根据实体概念层中的实体自身存在的关系和实体分类模块确定的类型进行连接,形成三元组,并基于三元组构成知识图谱,进行可视化展示;
S6:将用户问句关键词转化为数据库查询语句,根据建立的糖尿病医学知识图谱内容,以分词或者分字的查询方式,将有关系的中西医通用实体中内容输出,当查询到用户问句关键词仅存在与中医特有实体或者西医特有实体时,则输出中医特有实体或者西医特有实体中有关的症状与治疗方法的内容,同时标注该内容仅属于中医或者西医专有。
在构建模块中,将获得的医学实体及其关系组成的三元组,通过图关系数据库Neo4j进行可视化展示:
表1中西医通用实体类别
表2西医实体类别
表3中医实体类别
表4属性信息类别
表5药品属性
表6实体之间关系划分
/>
/>

Claims (3)

1.一种融合中西医知识的糖尿病知识图谱构建方法,其特征在于步骤如下:
S1:结合糖尿病病理特点,根据中西医治理与防护方法,搭建疾病层、症状症候层和治疗层,组成关于糖尿病的融合中西医知识实体概念层的基本框架;在疾病层根据糖尿病并发症较多特点,设立糖尿病并发症类别,由于在中医中没有糖尿病这个明确概念,因此再增设糖尿病具有的“十高一低”症状类别,通过症状症候层与这两部分实体类别的对应,将糖尿病概念进行明确;在症状症候层组成的实体是与疾病层中的糖尿病并发症或者“十高一低”有关的症状实体和症候实体;在治疗层,将中西医治疗方法和药物进行类别划分,并且将实体的自身属性信息以及与其属性相关的实体加以丰富,从而组成用于治疗症状症候层中的症状症候实体的治疗方法实体、药物实体以及药物的属性实体;
S2:根据S1得到的实体概念层的基本框架需要,通过网络以及数据库、图书馆获取关于糖尿病的中西医相关数据;
S3:对获得的中西医数据进行清洗与整理,将重复冗杂以及无用的数据去除,再对获得的清洗与整理后的中西医数据进行格式整理;
S4:根据整理好的中西医数据内容进行分词或者分字处理,并根据S1实体概念层对中西医数据中一段文字内包含的实体类别,使用“BIOES”标注法进行标注,从而确定中西医数据内包含实体的类别;然后采用深度学习方法,对中医数据和西医数据进行命名实体识别,得到中医医学实体和西医医学实体;
S5:设立概念定义模块、实体分类模块、属性划分模块、关系匹配模块、构建模块,对得到的中西医学实体进行处理,构建知识图谱;
首先,将步骤S4得到的实体分别输入实体概念层,搭建疾病层、症状症候层和治疗层,然后,通过实体分类模块,结合深度学习方法和语义距离比较,实现实体分类,将中西医数据中都有记载的糖尿病症状以及对应的治疗与防护方法,依条目分别录入不同的中西医通用实体,再将只有中医记载的糖尿病症状以及对应的治疗与防护方法和中医具有的特有概念,包括中医辨证、治疗法、方剂,分别录入不同的中医特有实体,再将只有西医记载的糖尿病症状以及对应的治疗与防护方法和西医具有的特殊概念,包括OTC分型,分别录入不同的西医特有实体;
再通过属性划分模块,将治疗层中的中西医实体进行属性归类,根据属性归类的不同,将其设为实体或者其他实体的属性信息,这样对底层药物实体及其属性实体进行丰富;
随后,根据关系匹配模块,将中西医实体之间可能存在的关系进行对应,给中西医实体之间连接和中西医实体连接到中西医通用实体提供理论基础;
最后,通过构建模块,将实体分类模块得到的实体在实体概念层的对应层,结合中西医特点进行分配,并根据实体概念层中的实体自身关系和实体分类模块确定的类型进行实体连接,形成三元组,进而构成基于三元组的知识图谱,并进行可视化展示;
S6:将用户问句关键词转化为数据库查询语句,根据建立的糖尿病医学知识图谱内容,以分词或者分字的查询方式,输出有关联的中西医通用实体内容,当查询到用户问句关键词仅与中医特有实体或者西医特有实体存在关联时,输出中医特有实体或者西医特有实体中的关联症状与治疗方法,同时标注该内容仅属于中医或者西医专有;
步骤S3构建的实体概念层包含:
疾病层:
为解决中西医在糖尿病诊疗过程中的病症表述不一致问题,结合西医的生化检验指标与病症的关联关系,以及中医对糖尿病的三种分型包括阴虚热盛、气阴两虚、阴阳两虚,在实体概念层对糖尿病中医诊疗中的“十高一低”进行实体类别建立,分别包括高血压、高血脂、高胰岛素血症、高尿酸血症、高炎性反应、高血黏度、高微量白蛋白尿、高脂肪肝、高体重、高炎性反应、免疫力低下;进而,将列出的十一个实体类别,与其对应的中西医相关的症状和症候相连接;
根据糖尿病多伴随并发症的特点,在实体概念层的疾病类别中设立并发症的实体类别,并且根据西医分类定义并发症的方法,将其划分为十二种具体类别,分别为神经系统类、心血管系统、消化系统、血液系统、泌尿系统、内分泌系统、呼吸系统、运动系统、皮肤黏膜系统、生殖系统、视觉系统类、口腔系统类;在西医方面,将并发症实体类别与对应的西医症状连接,在中医方面,将糖尿病并发症在中医数据中寻找相对应的症状和症候,并与其建立连接;
症状症候层:
参考中西医诊疗时的特点,将中医辩证与西医辨病相结合,辩证是指通过症状总结归纳出证侯,是指反应疾病当前的情况,再由证侯确定治疗方法和具体的方药;而辨病是指由症状推出病,后续再由疾病推出相关症侯,最后由症侯确定治疗方法和具体的方药,即将“症候”与上层疾病层相连接,再与症候相关的“症状”相连接,然后增加“检查方法”和“部位”实体类别,丰富关联实体信息;
治疗层:
治疗层与症状症候层的实体“症状”连接,治疗层包括实体类别“治法”,药物类的实体“西药”、“中成药”、“中草药”、“方剂”以及药物的属性信息;
中成药实体的属性信息类别包括:用法用量、贮藏、成分、OTC类型、功能主治、性状、药品类型、规格、药品监管分级、注意事项和适应症;
中草药实体的属性信息类别包括:用法用量、属、贮藏、入药部位、采收时间、分布区域、目、毒性、科、门、纲、界、功能主治和毒性;
西药实体的属性信息类别包括:通用名、用途分类、贮藏、成分、OTC类型、不良反应、分类、药物相互作用、性状、禁忌、注意事项、药品类型、药品监管分级、有效期、商品名、英文名称和适应症;
中药方剂实体的属性信息类别包括:禁忌症、用法、用量、组成、功能、适应症、疗效、方源和加减;
实体概念层的构建模块包括:
概念定义模块:用于对实体概念层进行定义;
实体分类模块:用于将中西医医药实体划分为中西医通用实体类别,中医特有实体类别,西医特有实体类别;中西医通用实体类别在中西医中具有通用定义;
属性划分模块:用于将治疗层中的中西医实体进行属性归类,根据属性归类的不同将其设为实体或者其他实体的属性信息;
关系匹配模块:用于根据中医实体和西医实体之间存在的医学关系,将中西医通用实体和中西医特有实体进行医学关系匹配,确定连接关系;
构建模块:将实体分类模块得到的实体,在实体概念层的对应层级,结合中西医特点进行分配,并根据实体概念层中的实体自身关系和实体分类模块确定的类型进行实体连接,形成三元组,进而形成基于三元组的知识图谱,并进行可视化展示;
概念定义模块具体包括:
对实体概念层进行定义,实体概念层GS=<Na,Nb,Nc,R>,其中,Na、Nb、Nc分别为疾病层、症状症候层和治疗层的中西医实体类别,R为实体之间的关系,R代表的两实体之间的关系不存在方向;实体概念网络中的每一个实体类别N=<S,P,V>,S为实体类别的具体实体描述,P为实体属性,V为实体属性值,属性指实体可能具有的属性、特征、特点及参数;实体之间的关系R具有的属性定义为H;
实体分类模块具体包括:
S61:采用深度学习方法获得中西医的医药实体及其类别,再使用词向量模型对中西医医药数据中的文本进行联合训练,从而得到结合中西医语义信息的医药文本向量;
S62:在中西医医药文本中提取中西医医药实体类别,其中,实体类别名称完全相同的中西医实体类别不做比较,直接作为中西医通用实体,实体类别不完全相同的中西医实体,通过计算中西医实体类别向量的欧式距离来确定其匹配度,公式如下:
其中,A、B为对应的中医实体类别和西医实体类别,d为两个实体类别之间的欧氏距离,a、b分别为相应的中西医实体对应的向量,n为向量维数,i为维数标号;若比较的实体类别字数不同,则维数不同,缺少的维数对应的语义向量数值设为0;
S63:得到实体类别不完全相同的中西医实体之间的欧式距离后,根据匹配度阈值来确定待比较的中西医实体是否为中西医通用实体类别,其中,匹配度阈值是所有具有相同名称和属性的中医实体之间语义距离的平均值;
为匹配度阈值,当/>时,两个中西医实体类别构成通用实体类别,当/>时,两个中西医实体类别分别作为相应的特有实体类别,/>的确定公式如下:
其中,c和c西分别代表具有相同名称和属性的中西医实体语义向量,m代表具有相同名称和属性的中西医实体对的数量;
属性划分模块的具体包括为:
S71:根据中西医知识以及治疗层存在的实体类型,将实体类别的属性信息划分为“治疗相关”、“疾病相关”、“使用方法相关”、“贮藏相关”以及“自身属性相关”五种类别;
S72:根据属性信息的类别不同,将其设定为实体或者其他实体包含的属性信息;
其中,属于“治疗相关”、“疾病相关”类型的属性信息与概念实体层相关联,作为对应实体类别的下层实体类别与其从属的实体类别相连接;
属于“使用方法相关”类型的属性信息与实体概念层相关性较小,作为对应实体类别所包含的实体S属性信息P;
属于“贮藏相关”、“自身属性相关”的属性信息与对应的实体类别相关性较大,同样作为对应实体类别所包含的实体S属性信息P;
关系匹配模块的结构为:
根据中医实体和西医实体之间存在的医学关系,将中西医通用实体和中西医特有实体进行匹配,并加以连接;定义中医实体与西医实体之间的关系R=<Ra,Rb,Rc>,Ra为西医特有实体关系;Rb为中医特有实体关系,Rc为两者通用实体关系;
S81:具体的,在中西惯用词方面;将糖尿病与其并发症的从属关系,以及糖尿病与“十高一低”的包含/被包含关系相对应;中医的“治法”与“方剂”,“方剂”与“中草药”之间的关系与西医的组成关系相对应;
S82:在病症判断、治疗方面;
中医糖尿病中存在的病症关系“伤、困、易伤、犯、袭、闭”以及症候关系与西医的因果关系相对应;
中医的“症状”与“治法”、“方剂”之间的“治愈、转归”关系与西医的治疗/被治疗关系相对应;
中药与“禁忌症”和“功效”以及“方剂”和“中草药”的“相侮、相乘、相克、相生”关系与西医的相互作用相对应;
构建模块具体包括:
S91:针对实体分类模块获得的分类节点,根据中西医知识,在实体概念层中定义中西医通用实体、中医特有实体和西医特有实体:
其中,在疾病层,“十高一低”实体为中西医通用实体类别,由于糖尿病在中医范畴没有明确定义,所以糖尿病并发症实体类别中包含中西医通用并发症实体和西医特有并发症实体;
在症状症候层,症候为中医特有实体类别,症状分为中西医通用实体类别和中医特有实体类别、西医特有实体类别;
在治疗层,治法、方剂、中草药为中医特有实体类别,西药为西医特有实体类别,中成药为中西医通用实体类别;
S92:根据关系匹配模块得到的匹配医学关系,将实体概念层中的医学实体在层级内以及层级间进行连接;
疾病层与症状症候层连接时,处理与糖尿病有关的实体,将糖尿病与“中西医通用症状”和“西医症状相连接”,在处理“十高一低”实体类别中的中西医实体时,将其中的中医特有实体和中西医通用实体与“症候”实体类别连接,西医特有实体与“西医症状”连接;糖尿病并发症实体类别中,中西医通用实体与“症候”连接,西医特有实体与“西医症状”连接;
在症候相关实体与症状相关实体连接时,将“症候”实体与“中医症状”和“中西医通用症状”连接;三种症状实体都与“部位”和“检查方法”连接;
在症状症候层与治疗层连接时,“中医症状”与“治法”、“中成药”和“方剂”连接;“中西医通用症状”与“中成药”和“西药”连接,“西医症状”与“西药”连接;“治法”与“方剂”连接;“方剂”和“中成药”与“中草药”连接;“中成药”、“西药”、“方剂”和“中草药”都与其对应的属性实体连接。
2.根据权利要求1所述的一种融合中西医知识的糖尿病知识图谱构建方法,其特征在于,利用以下方式获取关于糖尿病的中西医相关数据:
S21:根据构建的实体概念网络,采用网络爬虫,在糖尿病相关的医药网站上进行数据抓取;
S22:根据糖尿病中医分型,从中医典籍、医药文献中提取糖尿病中医诊疗方法。
3.根据权利要求1所述的一种融合中西医知识的糖尿病知识图谱构建方法,其特征在于,步骤S4包括以下实施步骤;
S41:对西医数据进行分词处理,将抓取的医学词条转化为可被程序读取的文件格式,得到准确的医疗实体词边界;
S42:对中医文本进行分字处理,选用单个字当做分词输入;
S43:使用BIOES标注方法对获得的中西医文本数据进行标注,标注的类别根据已构建的实体概念网络进行定义;
S44:将标注后的中西医语料和标注的标签序列转化为词向量;
S45:采用深度学习方法进行命名实体识别,预测中西医实体的类别标签,得到医学实体的实体类别。
CN202011567113.1A 2020-12-25 2020-12-25 融合中西医知识的糖尿病知识图谱构建方法 Active CN112635071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011567113.1A CN112635071B (zh) 2020-12-25 2020-12-25 融合中西医知识的糖尿病知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011567113.1A CN112635071B (zh) 2020-12-25 2020-12-25 融合中西医知识的糖尿病知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN112635071A CN112635071A (zh) 2021-04-09
CN112635071B true CN112635071B (zh) 2024-03-01

Family

ID=75325070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011567113.1A Active CN112635071B (zh) 2020-12-25 2020-12-25 融合中西医知识的糖尿病知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN112635071B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966057B (zh) * 2021-04-22 2022-08-12 上海深杳智能科技有限公司 知识图谱构建方法、系统、信息处理系统、终端及介质
CN113128233B (zh) * 2021-05-11 2022-07-19 济南大学 一种心理疾病知识图谱的构建方法及系统
CN113190689B (zh) * 2021-05-25 2023-04-18 广东电网有限责任公司广州供电局 一种电力安全知识图谱的构建方法、装置、设备和介质
CN113806553A (zh) * 2021-09-08 2021-12-17 曲剑 一种中西医健康知识图谱系统及构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN111341456A (zh) * 2020-02-21 2020-06-26 中南大学湘雅医院 糖尿病足知识图谱生成方法、装置及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145744B (zh) * 2017-05-08 2018-03-02 合肥工业大学 医学知识图谱的构建方法、装置及辅助诊断方法
US20190198137A1 (en) * 2017-12-26 2019-06-27 International Business Machines Corporation Automatic Summarization of Patient Data Using Medically Relevant Summarization Templates

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN111341456A (zh) * 2020-02-21 2020-06-26 中南大学湘雅医院 糖尿病足知识图谱生成方法、装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱丹.名老中医治疗脂肪性肝病的证治规律研究及知识图谱构建探索.《中国博士学位论文全文数据库 医药卫生科技辑》.2019,(第11期),E056-15. *

Also Published As

Publication number Publication date
CN112635071A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112635071B (zh) 融合中西医知识的糖尿病知识图谱构建方法
US11176150B2 (en) Method and system for text understanding in an ontology driven platform
Tange et al. Medical narratives in electronic medical records
Meystre et al. Automation of a problem list using natural language processing
CN107368547A (zh) 一种基于深度学习的智能医疗自动问答方法
Kokla et al. A review of geospatial semantic information modeling and elicitation approaches
CN114664463A (zh) 一种全科医生诊疗辅助系统
CN116805013A (zh) 一种基于知识图谱的中医药视频检索模型
Wang A novel Chinese traditional medicine prescription recommendation system based on knowledge graph
Kroll et al. A discovery system for narrative query graphs: entity-interaction-aware document retrieval
Koshman et al. An unsupervised approach to structuring and analyzing repetitive semantic structures in free text of electronic medical records
CN112883172B (zh) 一种基于双重知识选择的生物医学问答方法
Soualmia et al. Combining different standards and different approaches for health information retrieval in a quality-controlled gateway
An Construction and application of Chinese breast cancer knowledge graph based on multi-source heterogeneous data
Tolksdorf et al. Organizing knowledge in a semantic web for pathology
CN116644719B (zh) 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用
Xiong et al. Precision Nursing Research Based on Multimodal Knowledge Graph
CN113177416B (zh) 一种联合序列标注和模式匹配的事件元素检测方法
Jiménez-Ruiz et al. The management and integration of biomedical knowledge: application in the Health-e-Child Project (Position Paper)
Simonet et al. Ontologies in the health field
Karystianis Extraction and representation of key characteristics from epidemiological literature
Tu et al. KG-PRE-view: Democratizing a TVCG Knowledge Graph through Visual Explorations
Chen et al. A System for Recognizing Entities and Extracting Relations from Electronic Medical Records
CN117059261A (zh) 一种基于多模态知识图谱的畜禽疾病诊断方法及系统
CN115910260A (zh) 一种基于知识图谱的人工智能慢病管理办法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant