CN110377755A - 基于药品说明书的合理用药知识图谱构建方法 - Google Patents
基于药品说明书的合理用药知识图谱构建方法 Download PDFInfo
- Publication number
- CN110377755A CN110377755A CN201910593831.7A CN201910593831A CN110377755A CN 110377755 A CN110377755 A CN 110377755A CN 201910593831 A CN201910593831 A CN 201910593831A CN 110377755 A CN110377755 A CN 110377755A
- Authority
- CN
- China
- Prior art keywords
- relationship
- drug
- knowledge
- package insert
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 135
- 229940079593 drug Drugs 0.000 title claims abstract description 110
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000010801 machine learning Methods 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims description 29
- 230000003993 interaction Effects 0.000 claims description 28
- 201000010099 disease Diseases 0.000 claims description 18
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 18
- 206010067484 Adverse reaction Diseases 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 230000008485 antagonism Effects 0.000 claims description 10
- 230000006838 adverse reaction Effects 0.000 claims description 6
- 239000004615 ingredient Substances 0.000 claims description 6
- 230000008406 drug-drug interaction Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 206010013710 Drug interaction Diseases 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 208000024891 symptom Diseases 0.000 claims description 3
- -1 trade name Substances 0.000 claims description 3
- 230000008676 import Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 208000036647 Medication errors Diseases 0.000 abstract description 2
- 229960003556 aminophylline Drugs 0.000 description 7
- FQPFAHBPWDRTLU-UHFFFAOYSA-N aminophylline Chemical compound NCCN.O=C1N(C)C(=O)N(C)C2=C1NC=N2.O=C1N(C)C(=O)N(C)C2=C1NC=N2 FQPFAHBPWDRTLU-UHFFFAOYSA-N 0.000 description 5
- FAKRSMQSSFJEIM-RQJHMYQMSA-N captopril Chemical compound SC[C@@H](C)C(=O)N1CCC[C@H]1C(O)=O FAKRSMQSSFJEIM-RQJHMYQMSA-N 0.000 description 4
- 229960000830 captopril Drugs 0.000 description 4
- CGIGDMFJXJATDK-UHFFFAOYSA-N indomethacin Chemical compound CC1=C(CC(O)=O)C2=CC(OC)=CC=C2N1C(=O)C1=CC=C(Cl)C=C1 CGIGDMFJXJATDK-UHFFFAOYSA-N 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 210000004204 blood vessel Anatomy 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229960000905 indomethacin Drugs 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 206010013654 Drug abuse Diseases 0.000 description 1
- 206010019280 Heart failures Diseases 0.000 description 1
- 208000001953 Hypotension Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003276 anti-hypertensive effect Effects 0.000 description 1
- 206010002906 aortic stenosis Diseases 0.000 description 1
- 210000001367 artery Anatomy 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 208000012866 low blood pressure Diseases 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 150000003180 prostaglandins Chemical class 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000011117 substance-related disease Diseases 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000012622 synthetic inhibitor Substances 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于药品说明书的合理用药知识图谱构建方法,包括以下步骤:S10、抽取药品说明书,通过专家标注法对其中的实体和关系进行归纳,形成实体和关系标引规则库;S20、通过半监督学习方法,基于专家标注的数据以及机器学习规则训练机器学习模型;S30、使用已训练好的机器学习模型,对未标注的药品说明书进行预测标注,形成药品关系的知识图谱。本发明利用自然语言处理和知识图谱技术,基于药品说明书构建合理用药知识库,能够有助于规避用药差错,防范医疗风险,提高临床用药安全性。本发明的方法具备自动化构建能力,通过机器学习提高构建精度。
Description
技术领域
本发明涉及知识图谱领域,特别是涉及一种基于药品说明书的合理用药知识图谱构建方法。
背景技术
随着科学的进步与时代的发展,知识爆炸对医师工作提出了严峻挑战,医学领域的知识更新和增长,也超出了医师的学习和掌握限度。药物的多样性和患者不同的病理特点使药物治疗复杂化,多种因素都会对用药种类和剂量产生影响,单纯靠医师的个人判断力往往不够。传统合理用药系统中药学知识库主要依靠专业人员手工构建,人力成本较高,知识库准确度也不高,无法满足医院电子处方审核的要求。
知识图谱包含了丰富的语义信息,以结构化的形式来表示真实世界中的实体或概念以及它们之间的关联关系,其本质是一张巨大的语义网络图,将海量知识以更直观的方式展示在用户面前。目前知识图谱在互联网搜索及信息推荐系统中有较成熟的应用,但在药品领域尚无成熟公开的药品知识图谱。现有技术中虽然也有药品知识图谱的构建方法,但这些知识图谱都是依靠人工或正则表达式规则提取结构化数据来构建,人工的方法虽然提取的结构化知识比较精确,但是消耗人力、时间较多,并且人工长时间操作容易引起疲劳造成误差。基于正则表达式规则的方法依靠机器虽然比较节省时间,但是正则方法只适合简单的规则,针对中文的复杂情况,正则表达式的误差会比较高。
药品说明书是药品情况说明重要来源之一,也是医师、药师、护师和病人治疗用药时的科学依据,但是目前基于国内外药品说明书所有药物实体关系(包含给药途径、重复用药、药物相互作用、适应症、不良反应、禁忌症、老年用药、儿童用药、妊娠用药等)构建药物-诊断-临床诊疗数据进行推理的知识图谱的研究还很少。
发明内容
发明目的:针对现有技术的不足,本发明提出一种基于药品说明书的合理用药知识图谱构建方法,基于机器学习算法总结归纳出完整的药品实体和关系,提高合理用药知识图谱构建自动化程度和精度,保障患者用药安全。
技术方案:本发明所述的一种基于药品说明书的合理用药知识图谱构建方法,包括以下步骤:
S10、抽取药品说明书,通过专家标注法对其中的实体和关系进行归纳,形成实体和关系标引规则库;
S20、通过半监督学习方法,基于专家标注的规则以及机器学习规则训练机器学习模型;
S30、使用已训练好的机器学习模型,对未标注的药品说明书进行预测标注,并形成药品关系的知识图谱。
进一步地,所述步骤S10包括:
S11、通过网络爬虫爬取医药网站的药品说明书,并保存到本地;
S12、针对爬取的数据进行命名实体识别与关系抽取,形成实体1、实体2、……、实体n和关系1、关系2、……、关系n的标引规则库;
S13、以药品名称作为第一实体,药品说明书中识别的实体作为第二实体,其与药品名称对应的关系作为关系,得到<第一实体-关系-第二实体>这样的三元组数据。
得到三元组数据后,使用Neo4j图形数据库存储数据。
进一步地,所述标注实体包括:药品名称、商品名、化学名称、英文名、汉语拼音、成分-主要成分、成分-分子式、成分-分子量、成分-复方成分、成分-辅料、成分-含量、性状、规格、生产企业、批准文号、不良反应-疾病、贮藏-温度-光照-湿度、用法用量-起始剂量-低值、相互作用-其他、注意事项-检验相关、药物禁忌-人群、不良反应-症状、用法用量-疾病状态-低值、相互作用-药品名称、适应症-疾病类别、相互作用-结果、药品名称、药物禁忌-禁用、相互作用-药品类别、用法用量-给药频次-低值、规格、给药途径、注意事项-人群、注意事项-疾病相关、用法用量-疾病名称。
所述标注关系包括:主要成分、药物间相互作用、适应症、禁忌症、不良反应。所述药物相互作用关系包括:相互作用药品名称导致关系、相互作用药品类别协同关系、相互作用药品类别导致关系、互作用药品类别拮抗关系、相互作用药品名称拮抗关系。
所述关系的提取方法包括:直接提取关系和基于机器学习的文本分类法提取关系。
进一步地,所述步骤S20中机器学习模型包括:CRF,BiLSTM,BERT中的任一种或多种。所述机器学习模型训练时通过最大化对数似然函数来求解模型的最优参数。
进一步地,所述步骤S30包括:根据机器学习模型的预测结果,得到相应药品说明书的标注规则,根据这些规则得到三元组;将由机器学习模型产生的三元组与领域专家标注产生的三元组一起导入Neo4j图数据库中,得到最终产生的知识图谱。
本发明基于药品说明书的内容构建三元组,基于图的推理则将知识图谱视为图,以实体为节点,以关系或属性为边,利用关系路径来找到节点间的多步路径,三元组的边的特征来预测一条可能的边的存在。通过数据挖掘的方法从知识图谱中抽取一些规则,然后把这些规则应用到知识图谱上,推出新的关系。而路径排序方法则是根据两个实体间连通路径作为特征来判断两个实体是否属于某个关系。如在已建立起药品关系的知识图谱后,就可以推理出当前医生给出的处方单是否是合理用药。
有益效果:本发明利用自然语言处理和知识图谱技术,基于药品说明书构建合理用药知识库,能够有助于规避用药差错,防范医疗风险,提高临床用药安全性。本发明的方法具备自动化构建能力,通过机器学习提高构建精度。
附图说明
图1是本发明提供的一种药品知识图谱的构建方法实施例流程图;
图2是本发明提供的基于专家共识的合理用药标注规则;
图3是本发明实施例提供的关系抽取示意图;
图4是本发明实施例提供的药品知识图谱示意图;
图5是本发明实施例提供的BiLSTM模型结构;
图6是本发明实施例提供的合理用药知识库。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明提供的一种药品知识图谱的构建方法包括:
步骤S10,抽取药品说明书,对其中的实体和关系进行归纳,形成实体和关系标引规则库。
包括以下步骤:
步骤S11,通过网络爬虫爬取医药网站的药品说明书,并保存到本地。
利用互联网搜寻可靠、权威的医疗数据来源,按照疾病所属用药利用多线程技术分段爬取全部数据,保证涵盖全部药品大类内容。具体地,网络爬虫获取药品所在URL,爬取URL内的HTML数据;通过解析HTML中的数据,抽取其中与药品相关的内容如文本、图片、超链接等,再将解析的数据保存到本地,用于进一步的结构化。
步骤S12,针对爬取的数据进行命名实体识别与关系抽取,形成实体1、实体2、……、实体n和关系1、关系2、……、关系n的标引规则库,用于后续算法设计。
由于药品说明书是由领域内专家制定编写,没有考虑计算机的处理,说明书文本都是无结构的自然语言形式的自由文本,因此增加了机器理解的难度。在标注前可以先通过分词工具将爬取的内容处理为与药品相关的若干特征词汇。再分析数据结构,包括药物间相互作用、适应症、禁忌症、用法用量等。图2示出了根据实施例的基于专家共识的合理用药标注规则,通过专家知识对已爬取的部分药品说明书的文本内容进行标注,用于命名实体识别与关系抽取。图2左边第一列表达的含义是在临床医生开药的时候,需要对处方做剂量范围、相互作用、配伍禁忌、适应症、不良反应、重复用药、超多日用量等的审查。例如最上面一列针对剂量范围的审查,剂量范围是药品合理性审查的一个功能,包含给药单位(计算方式有按体重、体表和常规计算);按人群划分,儿童、成人、老人,不同的人群的次剂量和日剂量的低值和高值是不一样的;还有不同诊断(ICD编码)的病人用药剂量也可能不同。做这个标引规则库的目的是为后面构建标引的实体和关系打基础。应当理解,图2所给出的专家标引规则库仅是举例说明的作用,而不是限制本发明的方法必须基于该规则库施行。
标注实体包括但不限于:药品名称、商品名、化学名称、英文名、汉语拼音、成分-主要成分、成分-分子式、成分-分子量、成分-复方成分、成分-辅料、成分-含量、性状、规格、生产企业、批准文号、不良反应-疾病、贮藏-温度-光照-湿度、用法用量-起始剂量-低值、相互作用-其他、注意事项-检验相关、药物禁忌-人群、不良反应-症状、用法用量-疾病状态-低值、相互作用-药品名称、适应症-疾病类别、相互作用-结果、药品名称、药物禁忌-禁用、相互作用-药品类别、用法用量-给药频次-低值、规格、给药途径、注意事项-人群、注意事项-疾病相关、用法用量-疾病名称。
标注关系包括但不限于:主要成分、药物间相互作用、适应症、禁忌症、不良反应。
标注关系分两种,一种关系是实体直接与药品说明书进行关系,此时提取实体后不需要进行关系抽取或者直接用规则生成关系,例如主要成分,药品成分的实体被识别后,药品名称与药品成分实体的关系即是“主要成分”;另一种关系是说明书的实体与实体之间的关系,而不是实体与药品说明书之间的关系,此时需要进行关系抽取,例如相互作用、适应症、禁忌症、不良反应。在药品说明书中,如果疾病名称实体被识别,可能无法判断是适应症或是禁忌症的关系,此时需要该实体与实体所在语句及上下文结合判断。包括:1)提取到语句所在标题得到关系,如“禁忌”,则对应关系为禁忌症;2)使用机器学习算法进行学习,如输入实体与所在语句,输出对应关系。利用机器学习做关系抽取的本质是文本分类,可以使用BilSTM模型进行任务,与下述结合图5举例的命名实体识别中不同的是,BilSTM最后一层不是crf层,而是最后第二层的一个非线性和作为输出,作为分类的所在类别。
进一步地,药物间相互作用关系包括:相互作用药品名称导致关系、相互作用药品类别协同关系、相互作用药品类别导致关系、互作用药品类别拮抗关系、相互作用药品名称拮抗关系。如图3所示,对卡托普利片的处理中,根据说明书中记载的与其他药物的相互作用,分别提取出相互作用药品类别协同关系、相互作用药品类别导致关系、相互作用药品名称导致关系、相互作用药品类别拮抗关系、相互作用药品名称拮抗关系,例如,通过说明书中“与其它扩血管药同用可能致低血压”的描述,得到卡托普利片与扩血管药这一类药的“相互作用-药品类别”实体内容以及与该类药的“相互作用-结果”实体内容,通过这两个实体,得到“相互作用药品类别协同关系”。再例如,通过说明书中“与内源性前列腺素合成抑制剂如吲哚美辛同用,将使本品降压作用减弱”的描述,可以得到卡托普利片与内源性前列腺素合成抑制剂这一类药的“相互作用-药品类别”实体内容以及与该类药的“相互作用-结果”实体内容,通过这两个实体,得到“相互作用药品类别拮抗关系”;还可以得到卡托普利片与吲哚美辛这一药品的“相互作用-药品名称”实体内容以及与该药的“相互作用-结果”实体内容,通过这两个实体,得到“相互作用药品名称拮抗关系”。
以药品名称作为第一实体,药品说明书中的实体作为第二实体,其与药品名称对应的关系作为关系,最终得到<第一实体-关系-第二实体>这样的三元组数据。构建的知识图谱如图4所示,以氨茶碱为例,三元组分别为<氨茶碱片-主要成分-氨茶碱>,<氨茶碱注射液-主要成分-氨茶碱>,<氨茶碱片-适应症-慢性喘息性支气管炎>等,氨茶碱既作为自身的第一实体,也可能在别的说明书中以第二实体出现。使用Neo4j图形数据库存储一部分结构化的数据,便于进行算法设计。
步骤S13,在知识图谱构建后,搭配分词、检索、排除、统计等算法,在知识图谱中搜索,合并知识图谱中的冗余节点,删除无用节点,提升用药正确率。
步骤S20,通过半监督学习方法,基于专家标注的规则和机器学习规则训练机器学习模型。
基于机器学习算法,对已有的药理学、ICD(International Classification ofDiseases)编码、医学词典等语料库进行学习,总结归纳出完整的药品实体和关系。机器学习模型包括并不限于:条件随机场模型(Conditional Random Field,CRF),双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM),双向编码器表征模型(Bidirectional Encoder Representations from Transformers,BERT)等。
机器学习将标注的数据划分为:训练集、测试集、验证集。通过训练集训练模型,通过验证集验证训练过程中的性能,训练后通过测试集测试模型性能。
训练提升模型性能的手段包括但不限于:
数据增强:使用文本数据的数据增强方法,增加训练样本,以减少过拟合的可能。
超参调整:使用SGD,ADAM,BGD,RMSPROP等优化算法,避免训练过程中模型参数陷入局部极小值。
模型融合:使用多种算法进行预测,如BiLSTM,CRF,BERT等,不同算法在学习的时候可以学到不同的特征,以此可以提高预测的精度。
举例如下:
如图5所示,以BiLSTM做命名实体识别为例,该机器学习模型包括6层,在第一层输入句子,在第6层输出句子序列的标注。首先由领域专家标注实体,如BMEO标注:对O于O心B力M衰M竭E及O严O重O主B动M脉M瓣M狭M窄E的O患O者O,这里B:实体首字,M:实体中字,E:实体尾字,O:非实体。
模型训练的目的是,当输入“对于心力衰竭及严重主动脉瓣狭窄的患者”时,希望模型的输出与专家标注的一致,即也为“OOBMMEOOOBMMMMEOOO”,其他标注过的药品说明书同理。通过训练好的模型,就可以代替专家标注所有的药品说明书。
训练初始阶段,模型性能不高,输出可能为“OOOOOOOOOBEBMEOOOO”等结果,通过与专家标注的结果比较,进行不断迭代的训练,最终获得学习一个较好的模型。模型训练时可通过最大化对数似然函数来求解模型的最优参数。
步骤S30,使用已训练好的机器学习模型,预测未标注的药品说明书。
根据预测结果,可知相应药品说明书的标注规则,根据这些规则可得到三元组。
步骤S40、将由机器学习模型产生的三元组与领域专家标注产生的三元组一起导入Neo4j图数据库中,得到最终产生的知识图谱。
通过上述步骤可以得到基于药品说明书的合理用药知识图谱,并提高了合理用药知识图谱构建自动化程度和精度,保障患者用药安全合理用药。如图6所示的应用中,已构建三种药的关系,其中A药和C药可以治疗糖尿病,但是C药禁忌包含孕妇,此时医生若给孕妇开C药,算法就会在知识图谱中查询到禁忌,提醒医生用药合理性。
本发明利用自然语言处理和知识图谱技术,构建合理用药知识库,规避了用药差错,防范了医疗风险,减少了医患纠纷,节省了医疗资源,提高了临床用药安全性。
Claims (10)
1.一种基于药品说明书的合理用药知识图谱构建方法,其特征在于,包括以下步骤:
S10、抽取药品说明书,通过专家标注法对其中的实体和关系进行归纳,形成实体和关系标引规则库;
S20、通过半监督学习方法,基于专家标注的规则以及机器学习规则训练机器学习模型;
S30、使用已训练好的机器学习模型,对未标注的药品说明书进行预测标注,形成药品关系的知识图谱。
2.根据权利要求1所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所述步骤S10包括:
S11、通过网络爬虫爬取医药网站的药品说明书,并保存到本地;
S12、针对爬取的数据进行命名实体识别与关系抽取,形成实体1、实体2、……、实体n和关系1、关系2、……、关系n的标引规则库;
S13、以药品名称作为第一实体,药品说明书中识别的实体作为第二实体,其与药品名称对应的关系作为关系,得到<第一实体-关系-第二实体>这样的三元组数据,使用Neo4j图形数据库存储数据。
3.根据权利要求2所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所述步骤S10还包括:在知识图谱构建后,搭配分词、检索、排除、统计算法,在知识图谱中搜索,合并知识图谱中的冗余节点,删除无用节点。
4.根据权利要求2所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所标注的实体包括:药品名称、商品名、化学名称、英文名、汉语拼音、成分-主要成分、成分-分子式、成分-分子量、成分-复方成分、成分-辅料、成分-含量、性状、规格、生产企业、批准文号、不良反应-疾病、贮藏-温度-光照-湿度、用法用量-起始剂量-低值、相互作用-其他、注意事项-检验相关、药物禁忌-人群、不良反应-症状、用法用量-疾病状态-低值、相互作用-药品名称、适应症-疾病类别、相互作用-结果、药品名称、药物禁忌-禁用、相互作用-药品类别、用法用量-给药频次-低值、规格、给药途径、注意事项-人群、注意事项-疾病相关、用法用量-疾病名称。
5.根据权利要求2所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所抽取的关系包括:主要成分、药物间相互作用、适应症、禁忌症、不良反应。
6.根据权利要求5所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所述药物相互作用关系包括:相互作用药品名称导致关系、相互作用药品类别协同关系、相互作用药品类别导致关系、互作用药品类别拮抗关系、相互作用药品名称拮抗关系。
7.根据权利要求2所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所述关系的抽取方法包括:直接提取关系和基于机器学习的文本分类法提取关系。
8.根据权利要求1所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所述步骤S20中机器学习模型包括:CRF,BiLSTM,BERT中的任一种或多种。
9.根据权利要求8所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所述机器学习模型训练时通过最大化对数似然函数来求解模型的最优参数。
10.根据权利要求1所述的基于药品说明书的合理用药知识图谱构建方法,其特征在于,所述步骤S30包括:根据机器学习模型的预测结果,得到相应药品说明书的标注规则,根据这些规则得到三元组;将由机器学习模型产生的三元组与领域专家标注产生的三元组一起导入Neo4j图数据库中,得到最终产生的知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593831.7A CN110377755A (zh) | 2019-07-03 | 2019-07-03 | 基于药品说明书的合理用药知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593831.7A CN110377755A (zh) | 2019-07-03 | 2019-07-03 | 基于药品说明书的合理用药知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377755A true CN110377755A (zh) | 2019-10-25 |
Family
ID=68251876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910593831.7A Pending CN110377755A (zh) | 2019-07-03 | 2019-07-03 | 基于药品说明书的合理用药知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377755A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827966A (zh) * | 2019-11-11 | 2020-02-21 | 重庆亚德科技股份有限公司 | 一种区域单病种监管系统 |
CN111128334A (zh) * | 2019-11-06 | 2020-05-08 | 泰康保险集团股份有限公司 | 处方生成系统的学习方法、装置、电子设备及存储介质 |
CN111125309A (zh) * | 2019-12-23 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 自然语言处理方法、装置及计算设备、存储介质 |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
CN111221979A (zh) * | 2019-12-31 | 2020-06-02 | 北京左医健康技术有限公司 | 药品知识图谱构建方法及系统 |
CN111415719A (zh) * | 2020-03-24 | 2020-07-14 | 京东方科技集团股份有限公司 | 患者用药教育的推送方法及装置、电子设备及介质 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
CN111723570A (zh) * | 2020-06-09 | 2020-09-29 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN111738014A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种药物分类方法、装置、设备及存储介质 |
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及系统 |
CN111951979A (zh) * | 2020-08-13 | 2020-11-17 | 上海森亿医疗科技有限公司 | 药物信息标准化方法、药物信息标准化与检索平台和设备 |
CN111985224A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 用药说明文本处理方法、装置、设备及存储介质 |
CN112053760A (zh) * | 2020-08-12 | 2020-12-08 | 北京左医健康技术有限公司 | 用药指导方法、用药指导装置及计算机可读存储介质 |
CN112308492A (zh) * | 2020-11-10 | 2021-02-02 | 济南浪潮高新科技投资发展有限公司 | 基于深度学习与知识图谱融合的仓库管理方法及系统 |
CN112507138A (zh) * | 2020-12-28 | 2021-03-16 | 医渡云(北京)技术有限公司 | 专病知识图谱构建方法及装置、介质及电子设备 |
CN113033203A (zh) * | 2021-02-05 | 2021-06-25 | 浙江大学 | 一种面向医药说明书文本的结构化信息抽取方法 |
CN113076301A (zh) * | 2021-03-31 | 2021-07-06 | 北京搜狗科技发展有限公司 | 一种构建知识库的方法、信息查询方法、装置及设备 |
CN113077873A (zh) * | 2021-05-06 | 2021-07-06 | 井颐医疗信息技术(杭州)有限公司 | 一种中医临床决策支持系统及方法 |
CN113724830A (zh) * | 2021-08-31 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的用药风险检测方法及相关设备 |
CN113744891A (zh) * | 2021-09-15 | 2021-12-03 | 浙江工商大学 | 一种药品知识图谱表示学习方法 |
CN113779179A (zh) * | 2021-09-29 | 2021-12-10 | 北京雅丁信息技术有限公司 | 一种基于深度学习和知识图谱的icd智能编码的方法 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
WO2022021958A1 (zh) * | 2020-07-30 | 2022-02-03 | 北京京东拓先科技有限公司 | 药品知识图谱的构建方法和装置 |
CN114582459A (zh) * | 2022-01-27 | 2022-06-03 | 中南大学湘雅三医院 | 基于诊疗数据的信息处理方法、装置、设备及存储介质 |
CN114882985A (zh) * | 2022-07-11 | 2022-08-09 | 北京泽桥医疗科技股份有限公司 | 基于数据库和ai算法识别的医药多媒体管理系统及方法 |
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN115658924A (zh) * | 2022-11-14 | 2023-01-31 | 智慧眼科技股份有限公司 | 诊疗知识图谱构建方法及其应用方法、装置和存储介质 |
CN116959747A (zh) * | 2023-06-09 | 2023-10-27 | 北京好心情互联网医院有限公司 | 药物相互作用提示方法、装置、设备及存储介质 |
CN117272941A (zh) * | 2023-09-21 | 2023-12-22 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备、计算机可读存储介质及产品 |
CN117423428A (zh) * | 2023-12-18 | 2024-01-19 | 西南医科大学附属医院 | 一种基于数据分析的麻醉药剂输送智能管理系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090012842A1 (en) * | 2007-04-25 | 2009-01-08 | Counsyl, Inc., A Delaware Corporation | Methods and Systems of Automatic Ontology Population |
CN109062983A (zh) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | 用于医学健康知识图谱的命名实体识别方法及系统 |
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109710738A (zh) * | 2018-12-24 | 2019-05-03 | 广州天鹏计算机科技有限公司 | 药物问询方法、装置、系统、计算机设备和存储介质 |
-
2019
- 2019-07-03 CN CN201910593831.7A patent/CN110377755A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090012842A1 (en) * | 2007-04-25 | 2009-01-08 | Counsyl, Inc., A Delaware Corporation | Methods and Systems of Automatic Ontology Population |
CN109062983A (zh) * | 2018-07-02 | 2018-12-21 | 北京妙医佳信息技术有限公司 | 用于医学健康知识图谱的命名实体识别方法及系统 |
CN109190113A (zh) * | 2018-08-10 | 2019-01-11 | 北京科技大学 | 一种中医理论典籍的知识图谱构建方法 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109710738A (zh) * | 2018-12-24 | 2019-05-03 | 广州天鹏计算机科技有限公司 | 药物问询方法、装置、系统、计算机设备和存储介质 |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128334A (zh) * | 2019-11-06 | 2020-05-08 | 泰康保险集团股份有限公司 | 处方生成系统的学习方法、装置、电子设备及存储介质 |
CN110827966A (zh) * | 2019-11-11 | 2020-02-21 | 重庆亚德科技股份有限公司 | 一种区域单病种监管系统 |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
CN111125309A (zh) * | 2019-12-23 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 自然语言处理方法、装置及计算设备、存储介质 |
CN111221979A (zh) * | 2019-12-31 | 2020-06-02 | 北京左医健康技术有限公司 | 药品知识图谱构建方法及系统 |
CN111221979B (zh) * | 2019-12-31 | 2021-05-28 | 北京左医健康技术有限公司 | 药品知识图谱构建方法及系统 |
CN111415719A (zh) * | 2020-03-24 | 2020-07-14 | 京东方科技集团股份有限公司 | 患者用药教育的推送方法及装置、电子设备及介质 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
CN111723570A (zh) * | 2020-06-09 | 2020-09-29 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
WO2021139101A1 (zh) * | 2020-06-09 | 2021-07-15 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN111723570B (zh) * | 2020-06-09 | 2023-04-28 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN111738014A (zh) * | 2020-06-16 | 2020-10-02 | 北京百度网讯科技有限公司 | 一种药物分类方法、装置、设备及存储介质 |
CN111738014B (zh) * | 2020-06-16 | 2023-09-08 | 北京百度网讯科技有限公司 | 一种药物分类方法、装置、设备及存储介质 |
CN111914095B (zh) * | 2020-06-20 | 2024-04-19 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及系统 |
CN111914095A (zh) * | 2020-06-20 | 2020-11-10 | 武汉海云健康科技股份有限公司 | 一种药品相互作用关系抽取方法及系统 |
WO2022021958A1 (zh) * | 2020-07-30 | 2022-02-03 | 北京京东拓先科技有限公司 | 药品知识图谱的构建方法和装置 |
CN112053760A (zh) * | 2020-08-12 | 2020-12-08 | 北京左医健康技术有限公司 | 用药指导方法、用药指导装置及计算机可读存储介质 |
CN112053760B (zh) * | 2020-08-12 | 2021-07-27 | 北京左医健康技术有限公司 | 用药指导方法、用药指导装置及计算机可读存储介质 |
CN111951979A (zh) * | 2020-08-13 | 2020-11-17 | 上海森亿医疗科技有限公司 | 药物信息标准化方法、药物信息标准化与检索平台和设备 |
CN111985224A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 用药说明文本处理方法、装置、设备及存储介质 |
CN112308492A (zh) * | 2020-11-10 | 2021-02-02 | 济南浪潮高新科技投资发展有限公司 | 基于深度学习与知识图谱融合的仓库管理方法及系统 |
CN112507138A (zh) * | 2020-12-28 | 2021-03-16 | 医渡云(北京)技术有限公司 | 专病知识图谱构建方法及装置、介质及电子设备 |
CN112507138B (zh) * | 2020-12-28 | 2022-10-21 | 医渡云(北京)技术有限公司 | 专病知识图谱构建方法及装置、介质及电子设备 |
CN113033203A (zh) * | 2021-02-05 | 2021-06-25 | 浙江大学 | 一种面向医药说明书文本的结构化信息抽取方法 |
CN113076301A (zh) * | 2021-03-31 | 2021-07-06 | 北京搜狗科技发展有限公司 | 一种构建知识库的方法、信息查询方法、装置及设备 |
CN113077873A (zh) * | 2021-05-06 | 2021-07-06 | 井颐医疗信息技术(杭州)有限公司 | 一种中医临床决策支持系统及方法 |
CN113724830B (zh) * | 2021-08-31 | 2024-04-30 | 深圳平安智慧医健科技有限公司 | 基于人工智能的用药风险检测方法及相关设备 |
CN113724830A (zh) * | 2021-08-31 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的用药风险检测方法及相关设备 |
CN113744891B (zh) * | 2021-09-15 | 2024-05-10 | 浙江工商大学 | 一种药品知识图谱表示学习方法 |
CN113901207A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN113901207B (zh) * | 2021-09-15 | 2024-04-26 | 昆明理工大学 | 一种基于数据增强和半监督学习的药物不良反应检测方法 |
CN113744891A (zh) * | 2021-09-15 | 2021-12-03 | 浙江工商大学 | 一种药品知识图谱表示学习方法 |
CN113779179B (zh) * | 2021-09-29 | 2024-02-09 | 北京雅丁信息技术有限公司 | 一种基于深度学习和知识图谱的icd智能编码的方法 |
CN113779179A (zh) * | 2021-09-29 | 2021-12-10 | 北京雅丁信息技术有限公司 | 一种基于深度学习和知识图谱的icd智能编码的方法 |
CN114582459A (zh) * | 2022-01-27 | 2022-06-03 | 中南大学湘雅三医院 | 基于诊疗数据的信息处理方法、装置、设备及存储介质 |
CN114582459B (zh) * | 2022-01-27 | 2023-04-18 | 中南大学湘雅三医院 | 基于诊疗数据的信息处理方法、装置、设备及存储介质 |
CN115019906B (zh) * | 2022-06-06 | 2024-04-16 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN114882985A (zh) * | 2022-07-11 | 2022-08-09 | 北京泽桥医疗科技股份有限公司 | 基于数据库和ai算法识别的医药多媒体管理系统及方法 |
CN115658924A (zh) * | 2022-11-14 | 2023-01-31 | 智慧眼科技股份有限公司 | 诊疗知识图谱构建方法及其应用方法、装置和存储介质 |
CN116959747A (zh) * | 2023-06-09 | 2023-10-27 | 北京好心情互联网医院有限公司 | 药物相互作用提示方法、装置、设备及存储介质 |
CN117272941A (zh) * | 2023-09-21 | 2023-12-22 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备、计算机可读存储介质及产品 |
CN117423428A (zh) * | 2023-12-18 | 2024-01-19 | 西南医科大学附属医院 | 一种基于数据分析的麻醉药剂输送智能管理系统及方法 |
CN117423428B (zh) * | 2023-12-18 | 2024-02-13 | 西南医科大学附属医院 | 一种基于数据分析的麻醉药剂输送智能管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377755A (zh) | 基于药品说明书的合理用药知识图谱构建方法 | |
CN112487202B (zh) | 融合知识图谱与bert的中文医学命名实体识别方法、装置 | |
CN110032648A (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
Demner-Fushman et al. | Answering clinical questions with knowledge-based and statistical techniques | |
CN110222201A (zh) | 一种专病知识图谱构建方法及装置 | |
CN111048167B (zh) | 一种层级式病例结构化方法及系统 | |
CN107993724A (zh) | 一种医学智能问答数据处理的方法及装置 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
CN106909783A (zh) | 一种基于时间线的病历文本医学知识发现方法 | |
CN110189831A (zh) | 一种基于动态图序列的病历知识图谱构建方法及系统 | |
WO2011013007A2 (en) | Ontological information retrieval system | |
CN113688255A (zh) | 一种基于中文电子病历的知识图谱构建方法 | |
CN114255884A (zh) | 一种高血压药物治疗知识图谱构建方法以及装置 | |
CN116805013A (zh) | 一种基于知识图谱的中医药视频检索模型 | |
CN110188170A (zh) | 一种多入口医学问句模板装置及其方法 | |
Yang et al. | PPIExtractor: a protein interaction extraction and visualization system for biomedical literature | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
Galitsky | Multi-case-based reasoning by syntactic-semantic alignment and discourse analysis | |
CN110060749A (zh) | 基于sev-sdg-cnn的电子病历智能诊断方法 | |
Liu et al. | Research on named entity recognition of Traditional Chinese Medicine chest discomfort cases incorporating domain vocabulary features | |
CN113314236A (zh) | 一种面向高血压的智能问答系统 | |
Song et al. | Deep convolutional neural network based medical concept normalization | |
Wang et al. | Automatic ICD-10 coding based on multi-head attention mechanism and gated residual network | |
Zhao et al. | Design and construction of knowledge graph of Electronic Medical Record based on BiLSTM-CRF | |
Wang et al. | Medical Entity Recognition Based on BiLSTM with Knowledge Graph and Attention Mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |
|
RJ01 | Rejection of invention patent application after publication |