CN111916216A - 一种基于深度学习的医药知识图谱构建方法及系统 - Google Patents

一种基于深度学习的医药知识图谱构建方法及系统 Download PDF

Info

Publication number
CN111916216A
CN111916216A CN202010767903.8A CN202010767903A CN111916216A CN 111916216 A CN111916216 A CN 111916216A CN 202010767903 A CN202010767903 A CN 202010767903A CN 111916216 A CN111916216 A CN 111916216A
Authority
CN
China
Prior art keywords
medical
knowledge graph
knowledge
answer
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010767903.8A
Other languages
English (en)
Inventor
汪礼君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010767903.8A priority Critical patent/CN111916216A/zh
Publication of CN111916216A publication Critical patent/CN111916216A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种知识图谱的技术领域,揭露了一种基于深度学习的医药知识图谱构建方法,包括:获取医药网站中的相关医药知识信息,并对医药网站内容进行解析;完成对解析内容的数据清洗;利用基于词典的切分算法对解析内容进行切分处理;设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,并根据匹配分数的分布特征进行参数精调,实现少样本下的知识图谱训练。本发明还提供了一种基于深度学习的医药知识图谱构建系统。本发明实现了知识图谱的构建。

Description

一种基于深度学习的医药知识图谱构建方法及系统
技术领域
本发明涉及知识图谱的技术领域,尤其涉及一种基于深度学习的医药知识图谱构建方法及系统。
背景技术
随着信息技术的高速发展,大数据已成为人们谈论的热点名词,随之而来的是数据量的爆发、数据形式的多样化,传统的数据存储和分析方式,已经无法应对和满足人们对大数据分析的要求,从而引发人们对新的数据表示存储方式——知识图谱的研究热潮。
知识图谱的本质是一种叫做语义网络的知识库,用来描述真实世界中那些客观存在的实体、概念和这些实体概念之间的关联关系。存储结构上为一对有向图结构,图中的结点对应着实体或是概念,图中的有向边对应着实体和概念之间的复杂的语义关系。
现有的知识存储技术在早期探索了以不同语义、句法特征为基础的特征工程方法,这些方法的优势在于具有较强的可解释性,但通常需要大量人工特征选择,特征设计的不足和底层语法工具的错误都可能导致知识存储效果较差;基于深度学习的知识存储模型将知识存储的效果提升到了新的水平,但这些模型通常只关注数据集中包含的信息,对于医药专业知识等外部信息缺乏考虑机制;基于知识和任务的方法在通用领域知识存储方面达到了不错的效果,但仍然缺乏对医药行业知识的考虑,同时,模型设计了较为复杂的机制,参数较多,在医药少样本数据上进行训练时容易造成训练难、过拟合等问题,达不到良好效果。
鉴于此,如何利用少样本数据进行模型的训练,进行知识图谱的构建,并利用所构建的知识图谱进行医药领域的知识问答,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种基于深度学习的医药知识图谱构建方法,通过定义医药知识图谱中的实体、关系和属性,构建医药知识图谱,并结合迁移学习进行医药知识图谱的构建,同时根据所构建的知识图谱进行医药领域的知识问答。
为实现上述目的,本发明提供的一种基于深度学习的医药知识图谱构建方法,包括:
获取医药网站中的相关医药知识信息,并对医药网站内容进行解析;
完成对解析内容的数据清洗;
利用基于词典的切分算法对解析内容进行切分处理;
设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;
基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;
将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,并根据匹配分数的分布特征进行参数精调,实现少样本下的知识图谱训练。
可选地,所述对医药网站内容进行解析,包括:
解析出疾病的基本信息、发病原因、预防措施、检查项目、治疗信息、饮食保健信息和用药信息;
其中,单条数据的存储格式为:{‘url’:‘data’,‘basic_info’:‘data’,‘cause_info’:‘data’,‘prevent_info’:‘data’,‘symptom_info’:‘data’,‘inspect_info’:‘data’‘treat_info’:‘data’,‘food_info’:‘data’,‘drug_info’:‘data’};
将所有的疾病名称和网站中医生评论模块中评论者姓名单独抓取存储为文本格式。
可选地,所述对所解析内容进行数据清洗,包括:
通过设置停用词表来过滤“症状信息”中包含的错误信息,停用词表的设置采用数据抓取阶段保存的网站医生评论区医生姓名信息、基本字母表“a-z”和数字表“0-9”共同构成停用词表;
对于原始信息中“检查信息”中只保存了二级页面的url和页面的html文本内容,通过调用Python的Parse软件包重新解析html内容,从html中解析出“检查名称”和“检查描述”信息以{‘name’:‘data’,‘desc’:‘data’}的格式更新数据库相关信息。
可选地,所述基于词典的切分算法的流程为:
根据所述医药知识词典分别进行前向词典最大匹配以及后向词典最大匹配,根据匹配结果进行初步分词;
将前向最大匹配的分词结果和后向最大匹配的分词结果进行比较,采用启发式规则,若正反向分词结果词数不同,那么取分词数量少的分词结果作为最终结果;若分词结果数相同,说明正反向分词结果没有歧义,返回任意分词结果。
可选地,所述进行基于医药知识图谱的语义表示,包括:
1)将实体语句中的每个词语通过词嵌入层建模为嵌入式表达vi,并利用BiLSTM计算得出实体语句序列中的每个词语的语义表示
Figure BDA0002615377700000031
并通过池化机制计算得到实体语句的总体语义表示
Figure BDA0002615377700000032
Figure BDA0002615377700000033
2)通过图嵌入的方式预训练得到实体的词嵌入信息et,i,通过计算语句序列中的所有词汇与知识图谱实体的n元相似度,将相似度最高的k个实体信息引入到语句表示训练过程中;
3)对于序列中的第t个词语,对应的实体集合表示为et={e1,t,...,ek,t},第t步的上下文相关知识表达的产生方式如下:
Figure BDA0002615377700000034
Figure BDA0002615377700000035
其中:
Ws,Wk,wm为预设置的权重矩阵;
at,i为第i个实体相对于第t个词的注意力权重;
Figure BDA0002615377700000036
为上下文相关的知识表示;
et,i为实体的词嵌入信息;
mt,i为词嵌入信息的和;
4)采用卷积神经网络处理注意力加权后的知识向量,得到局部知识信息
Figure BDA0002615377700000037
Figure BDA0002615377700000038
其中:
Wconv为卷积层的权重矩阵;
bconv为卷积层的偏置向量;
将滤波器的输出结果在特征维度上相连接得到最终的知识向量语义表示为:
Figure BDA0002615377700000041
其中:
fi为第i个卷积核的输出特征。
可选地,所述基于注意力机制进行知识图谱网络的构建,包括:
1)计算得到问答句相关性的权重矩阵
Figure BDA0002615377700000042
其中Ae和Qe为问答语句基于知识图谱的语句表示;
2)针对不同的问答向量,采用如下方式计算问答的相关性矩阵:
RA=softmax(R)
RQ=softmax(RT)
其中:
RA为答案的相关性矩阵;
RQ为问题的相关性矩阵;
3)整合问答两侧的矩阵表述形成新的矩阵表述:
Qsum=QeRQ
Asum=AeRQ
其中:
Asum为线性加权的答案侧表述;
Qsum为线性加权的问题侧表述;
4)得到问答两侧转换后的表达后,通过剩余网络将自注意力表达映射回到较低维度空间中:
Qself=max(0,QsumU)W+Qsum
Aself=max(0,AsumU)W+Asum
其中:
U表示特征经过转换器机制后的特征维度;
W表示剩余网络的网络权重;
5)采用一次Bi LSTM对全部信息进行整合,将最后一个信息步的向量输出作为问答两侧的向量表达,进入文本匹配网络进行匹配:
Qfinal=BiLSTM(Qself)
Afinal=BiLSTMA(Aself)
6)针对问答对向量q和a的最终向量记为
Figure BDA0002615377700000043
Figure BDA0002615377700000044
为Qfinal,Afinal最后一个时间步的取值,并将
Figure BDA0002615377700000045
作为当前医药问题的回答;
所述基于知识图谱的医药问答模型的损失函数为:
Figure BDA0002615377700000046
其中:
yi为候选答案是否符合问题的标签;
pi为softmax层的概率输出;
θ为模型的所有参数;
λ为防止模型过拟合的参数,本发明将其设为0.2。
可选地,所述将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,包括:
根据富样本数据集进行知识图谱网络模型的预训练,得到预训练模型fθ,通过模型fθ后得到特征向量
Figure BDA0002615377700000051
将答案选择问题建模为排序问题,采用逐点训练进行计算;
在得到特征向量
Figure BDA0002615377700000052
后采用单层全连接网络与softmax层计算相关性匹配分数:
yi=softmax(WTfθ(xi))
其中:
W为单层全连接网络权重参数;
xi为问题的特征向量;
yi为输出的答案。
此外,为实现上述目的,本发明还提供一种基于深度学习的医药知识图谱构建系统,所述系统包括:
医药知识获取装置,用于获取医药网站中的相关医药知识信息;
医药知识处理器,用于对医药网站内容进行解析,同时完成解析内容的数据清洗,并利用基于词典的切分算法对解析内容进行切分处理;
医药知识图谱构建装置,用于设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示,同时基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有医药知识图谱构建指令,所述医药知识图谱构建指令可被一个或者多个处理器执行,以实现如上所述的基于深度学习的医药知识图谱构建的实现方法的步骤。
相对于现有技术,本发明提出一种基于深度学习的医药知识图谱构建方法,该技术具有以下优势:
首先,现有知识图谱构建技术并未涉及医药领域。因此本发明利用爬虫等相关技术,抓取医疗网站原始数据,并通过数据处理和清洗转化为结构化数据存储,并通过预构建医药知识词典,本发明根据所述医药知识词典分别进行前向词典最大匹配以及后向词典最大匹配,根据匹配结果进行初步分词,将前向最大匹配的分词结果和后向最大匹配的分词结果进行比较,采用启发式规则返回字数较少的分词结果,通过对分词结果进行分析,本发明构建7种知识图谱实体类型以及7种知识图谱属性类型以完成医药知识图谱实体关系的设计。
同时,针对问答模型对医药专业知识利用不足的问题,本发明在基于知识图谱的医药问答模型中通过注意力机制将医药知识图谱上的医药知识关系引入到问答过程,首先本发明通过图嵌入的方式预训练得到实体的词嵌入信息,通过计算语句序列中的所有词汇与知识图谱实体的n元相似度,将相似度最高的k个实体信息引入到语句表示训练过程中,并利用BiLSTM模型进行上下文相关知识的表达,得到注意力加权后的知识向量,采用卷积神经网络处理注意力加权后的知识向量,得到局部知识信息。为了进一步提高模型针对问答语句的特征提取能力,本发明提出了问答语句的双向注意力交互机制,通过分别对问句和答句两侧的矩阵表述进行整合,得到线性加权的问答侧表述,并通过剩余网络将自注意力问答侧表述映射回到较低维度空间中,采用一次Bi LSTM对全部信息进行整合,将最后一个信息步的向量输出作为问答两侧的向量表达,以实现对医药知识领域的自动问答处理。
针对医药问答数据量较少的现状,本发明提出了基于迁移学习的少样本医药问答模型。模型在富样本通用问答数据集上进行预训练,再通过模型迁移、参数共享,在少样本医药问答数据集上进行精调。
附图说明
图1为本发明一实施例提供的一种基于深度学习的医药知识图谱构建方法的流程示意图;
图2为本发明一实施例提供的一种基于深度学习的医药知识图谱构建系统的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
通过定义医药知识图谱中的实体、关系和属性,构建医药知识图谱,并结合迁移学习进行医药知识图谱的构建,同时根据所构建的知识图谱进行医药领域的知识问答。参照图1所示,为本发明一实施例提供的基于深度学习的医药知识图谱构建方法示意图。
在本实施例中,基于深度学习的医药知识图谱构建方法包括:
S1、获取医药网站中的相关医药知识信息,并对医药网站内容进行解析,同时完成解析内容的数据清洗。
首先,本发明从医药网站上抓取疾病的基本信息、发病原因、病情预防、病情症状、检查信息、治疗信息、饮食保健信息和用药信息的相关信息,在本发明一个实施例中,本发明通过使用Python语言编写爬虫脚本来抓取相关页面获取信息;
进一步地,本发明解析了疾病的基本信息、发病原因、预防措施、检查项目、治疗信息、饮食保健信息和用药信息,其中,单条数据的存储格式为:{‘url’:‘data’,‘basic_info’:‘data’,‘cause_info’:‘data’,‘prevent_info’:‘data’,‘symptom_info’:‘data’,‘inspect_info’:‘data’‘treat_info’:‘data’,‘food_info’:‘data’,‘drug_info’:‘data’};同时本发明将所有的疾病名称和网站中医生评论模块中评论者姓名单独抓取存储为文本格式。
在本发明所述数据清洗阶段需要完成对原始数据中非格式化数据格式化操作,对原始数据中错误数据进行删除。通过对原始数据的取样分析发现,提取的原始数据中,“症状信息”包含了除症状以外的信息,如包含了不属于症状信息的医生姓名信息;原始数据的“检查信息”中,保存的是二级页面的url和抓取未解析的html文本内容;“并发症”信息中包含了疾病前缀,如“支气管肺炎肺不张”;
针对原始数据所存在的以上问题,本发明通过设置停用词表来过滤“症状信息”中包含的错误信息,停用词表的设置采用数据抓取阶段保存的网站医生评论区医生姓名信息、基本字母表“a-z”和数字表“0-9”共同构成停用词表;
对于原始信息中“检查信息”中只保存了二级页面的url和页面的html文本内容,本发明通过调用Python的Parse软件包重新解析html内容,从html中解析出“检查名称”和“检查描述”信息以{‘name’:‘data’,‘desc’:‘data’}的格式更新数据库相关信息。
S2、利用基于词典的切分算法对解析内容进行切分处理。
进一步地,对于所解析的医药内容,本发明通过预构建医药知识词典,并利用基于词典的切分算法对所述解析内容进行切分处理,所述切分算法的算法流程为:
根据所述医药知识词典分别进行前向词典最大匹配以及后向词典最大匹配,根据匹配结果进行初步分词;
将前向最大匹配的分词结果和后向最大匹配的分词结果进行比较,采用启发式规则,若正反向分词结果词数不同,那么取分词数量少的分词结果作为最终结果;若分词结果数相同,说明正反向分词结果没有歧义,返回任意分词结果。
S3、设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示。
进一步地,本发明通过构建7种知识图谱实体类型以及7种知识图谱属性类型以完成医药知识图谱实体关系的设计,所述知识图谱实体类型包括:诊断检查项目、医疗科目、症状、在售药品、药品、食物、疾病,所述知识图谱属性类型包括:疾病名称、疾病介绍、病因、治疗方式、治疗概率、预防措施、治愈概率以及疾病易感人群。
进一步地,根据所设计的医药知识图谱实体关系,本发明进行基于医药知识图谱的语义表示,所述基于医药知识图谱的语义表示流程为:
1)将实体语句中的每个词语通过词嵌入层建模为嵌入式表达vi,并利用BiLSTM计算得出实体语句序列中的每个词语的语义表示
Figure BDA0002615377700000081
并通过池化机制计算得到实体语句的总体语义表示
Figure BDA0002615377700000082
Figure BDA0002615377700000083
2)通过图嵌入的方式预训练得到实体的词嵌入信息et,i,通过计算语句序列中的所有词汇与知识图谱实体的n元相似度,将相似度最高的k个实体信息引入到语句表示训练过程中;
3)对于序列中的第t个词语,对应的实体集合表示为et={e1,t,...,ek,t},第t步的上下文相关知识表达的产生方式如下:
Figure BDA0002615377700000091
Figure BDA0002615377700000092
其中:
Ws,Wk,wm为预设置的权重矩阵;
at,i为第i个实体相对于第t个词的注意力权重;
Figure BDA0002615377700000093
为上下文相关的知识表示;
et,i为实体的词嵌入信息;
mt,i为词嵌入信息的和;
4)采用卷积神经网络处理注意力加权后的知识向量,得到局部知识信息
Figure BDA0002615377700000094
Figure BDA0002615377700000095
其中:
Wconv为卷积层的权重矩阵;
bconv为卷积层的偏置向量;
将滤波器的输出结果在特征维度上相连接得到最终的知识向量语义表示为:
Figure BDA0002615377700000096
其中:
fi为第i个卷积核的输出特征。
S4、基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答。
进一步地,为了增强问答对序列间的语义交互,本发明基于注意力机制进行基于知识图谱网络的构建,并实现了基于知识图谱的医药问答,所述知识图谱网络的的构建过程为:
1)计算得到问答句相关性的权重矩阵
Figure BDA0002615377700000097
其中Ae和Qe为问答语句基于知识图谱的语句表示;
2)针对不同的问答向量,采用如下方式计算问答的相关性矩阵:
RA=softmax(R)
RQ=softmax(RT)
其中:
RA为答案的相关性矩阵;
RQ为问题的相关性矩阵;
3)整合问答两侧的矩阵表述形成新的矩阵表述:
Qsum=QeRQ
Asum=AeRQ
其中:
Asum为线性加权的答案侧表述;
Qsum为线性加权的问题侧表述;
4)得到问答两侧转换后的表达后,通过剩余网络将自注意力表达映射回到较低维度空间中:
Qself=max(0,QsumU)W+Qsum
Aself=max(0,AsumU)W+Asum
其中:
U表示特征经过转换器机制后的特征维度;
W表示剩余网络的网络权重;
5)采用一次Bi LSTM对全部信息进行整合,将最后一个信息步的向量输出作为问答两侧的向量表达,进入文本匹配网络进行匹配:
Qfinal=BiLSTMQ(Qself)
Afinal=BiLSTMA(Aself)
6)针对问答对向量q和a的最终向量记为
Figure BDA0002615377700000101
Figure BDA0002615377700000102
为Qfinal,Afinal最后一个时间步的取值,并将
Figure BDA0002615377700000103
作为当前医药问题的回答。
所述基于知识图谱的医药问答模型的损失函数为:
Figure BDA0002615377700000104
其中:
yi为候选答案是否符合问题的标签;
pi为softmax层的概率输出;
θ为模型的所有参数;
λ为防止模型过拟合的参数,本发明将其设为0.2。
S5、将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,并根据匹配分数的分布特征进行参数精调,实现少样本下的知识图谱训练。
进一步地,本发明根据富样本数据集进行知识图谱网络模型的预训练,得到预训练模型fθ,通过模型fθ后得到特征向量
Figure BDA0002615377700000105
将答案选择问题建模为排序问题,采用逐点训练进行计算;因此本发明在得到特征向量
Figure BDA0002615377700000106
后采用单层全连接网络与softmax层计算相关性匹配分数:
yi=softmax(WTfθ(xi))
其中:
W为单层全连接网络权重参数;
xi为问题的特征向量;
yi为输出的答案;
进一步地,本发明根据匹配分数的分布特征进行网络参数的优化,所述网络参数θ的优化过程为:
Figure BDA0002615377700000111
其中:
η为学习率参数,本发明将其设为0.8;
Figure BDA0002615377700000112
为问答模型中目标域的泛化误差;
ζ为源域和目标域之间的分布差异。
下面通过一个算法实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境部署在Pytorch深度学习框架中,处理器为Inter(R)Core(TM)i5-7300HQ CPU@2.50GHZ,显卡为GeForce GTX1040,内存为16G,开发环境为python3.6,开发工具为Anaconda科学计算库;对比算法模型为记忆网络模型,基于单词级别循环神经网络模型以及基于注意力机制的卷积神经网络模型。
在本发明所述算法实验中,数据集为主要来自于医药网站的医药数据、手工构建的问题数据和Simple Question简单问答对数据集,Simple Question简单问答对数据集是基于Free Base知识库的基准数据集,提供了一组单一关系问题,每个问题附有一个的答案,是当前大多数问答系统测试使用的基准数据集。该数据集被分为训练集(79590)、验证集(10845)和测试集(21687)。该基准测试集还提供了两个Free Base子集:FB2M和FB5M,分别包含2M和5M实体。本发明将数据集中的问题数据分别输入到训练模型中,将所生成的答案同训练集中的答案进行匹配,匹配结果记为问答模型的正确率。
根据实验结果,记忆网络模型的医药知识问答正确率为75.82%,基于单词级别循环神经网络模型的医药知识问答正确率为81.13%,基于注意力机制的卷积神经网络模型的医药知识问答正确率为84.83%,本发明所述算法的医药知识问答正确率为88.92%,相较于对比算法,本发明所提出的基于深度学习的医药知识图谱构建方法具有更高的医药知识问答正确率。
发明还提供一种基于深度学习的医药知识图谱构建系统。参照图2所示,为本发明一实施例提供的基于深度学习的医药知识图谱构建系统的内部结构示意图。
在本实施例中,所述基于深度学习的医药知识图谱构建系统1至少包括医药知识获取装置11、医药知识处理器12、医药知识图谱构建装置13,通信总线14,以及网络接口15。
其中,医药知识获取装置11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
医药知识处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。医药知识处理器12在一些实施例中可以是基于深度学习的医药知识图谱构建系统1的内部存储单元,例如该基于深度学习的医药知识图谱构建系统1的硬盘。医药知识处理器12在另一些实施例中也可以是基于深度学习的医药知识图谱构建系统1的外部存储设备,例如基于深度学习的医药知识图谱构建系统1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,医药知识处理器12还可以既包括基于深度学习的医药知识图谱构建系统1的内部存储单元也包括外部存储设备。医药知识处理器12不仅可以用于存储安装于基于深度学习的医药知识图谱构建系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
医药知识图谱构建装置13在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行医药知识处理器12中存储的程序代码或处理数据,例如医药知识图谱构建程序指令等。
通信总线14用于实现这些组件之间的连接通信。
网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于深度学习的医药知识图谱构建系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及基于深度学习的医药知识图谱构建系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于深度学习的医药知识图谱构建系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,医药知识处理器12中存储有基于深度学习的医药知识图谱构建程序指令;医药知识图谱构建装置13执行医药知识处理器12中存储的医药知识图谱构建程序指令的步骤,与基于深度学习的医药知识图谱构建方法的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有医药知识图谱构建程序指令,所述医药知识图谱构建程序指令可被一个或多个处理器执行,以实现如下操作:
获取医药网站中的相关医药知识信息,并对医药网站内容进行解析;
完成对解析内容的数据清洗;
利用基于词典的切分算法对解析内容进行切分处理;
设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;
基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;
将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,并根据匹配分数的分布特征进行参数精调,实现少样本下的知识图谱训练。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于深度学习的医药知识图谱构建方法,其特征在于,所述方法包括:
获取医药网站中的相关医药知识信息,并对医药网站内容进行解析;
完成对解析内容的数据清洗;
利用基于词典的切分算法对解析内容进行切分处理;
设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;
基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;
将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,并根据匹配分数的分布特征进行参数精调,实现少样本下的知识图谱训练。
2.如权利要求1所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述对医药网站内容进行解析,包括:
解析出疾病的基本信息、发病原因、预防措施、检查项目、治疗信息、饮食保健信息和用药信息;
其中,单条数据的存储格式为:{‘url’:‘data’,‘basic_info’:‘data’,‘cause_info’:‘data’,‘prevent_info’:‘data’,‘symptom_info’:‘data’,‘inspect_info’:‘data’‘treat_info’:‘data’,‘food_info’:‘data’,‘drug_info’:‘data’};
将所有的疾病名称和网站中医生评论模块中评论者姓名单独抓取存储为文本格式。
3.如权利要求2所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述对所解析内容进行数据清洗,包括:
通过设置停用词表来过滤“症状信息”中包含的错误信息,停用词表的设置采用数据抓取阶段保存的网站医生评论区医生姓名信息、基本字母表“a-z”和数字表“0-9”共同构成停用词表;
对于原始信息中“检查信息”中只保存了二级页面的url和页面的html文本内容,通过调用Python的Parse软件包重新解析html内容,从html中解析出“检查名称”和“检查描述”信息以{‘name’:‘data’,‘desc’:‘data’}的格式更新数据库相关信息。
4.如权利要求3所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述基于词典的切分算法的流程为:
根据所述医药知识词典分别进行前向词典最大匹配以及后向词典最大匹配,根据匹配结果进行初步分词;
将前向最大匹配的分词结果和后向最大匹配的分词结果进行比较,采用启发式规则,若正反向分词结果词数不同,那么取分词数量少的分词结果作为最终结果;若分词结果数相同,说明正反向分词结果没有歧义,返回任意分词结果。
5.如权利要求4所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述进行基于医药知识图谱的语义表示,包括:
1)将实体语句中的每个词语通过词嵌入层建模为嵌入式表达vi,并利用BiLSTM计算得出实体语句序列中的每个词语的语义表示
Figure FDA0002615377690000021
并通过池化机制计算得到实体语句的总体语义表示
Figure FDA0002615377690000022
Figure FDA0002615377690000023
2)通过图嵌入的方式预训练得到实体的词嵌入信息et,i,通过计算语句序列中的所有词汇与知识图谱实体的n元相似度,将相似度最高的k个实体信息引入到语句表示训练过程中;
3)对于序列中的第t个词语,对应的实体集合表示为et={e1,t,…,ek,t},第t步的上下文相关知识表达的产生方式如下:
Figure FDA0002615377690000024
Figure FDA0002615377690000025
Figure FDA0002615377690000026
其中:
Ws,Wk,wm为预设置的权重矩阵;
at,i为第i个实体相对于第t个词的注意力权重;
Figure FDA0002615377690000027
为上下文相关的知识表示;
et,i为实体的词嵌入信息;
mt,i为词嵌入信息的和;
4)采用卷积神经网络处理注意力加权后的知识向量,得到局部知识信息
Figure FDA0002615377690000031
Figure FDA0002615377690000032
其中:
Wconv为卷积层的权重矩阵;
bconv为卷积层的偏置向量;
将滤波器的输出结果在特征维度上相连接得到最终的知识向量语义表示为:
Figure FDA0002615377690000033
其中:
fi为第i个卷积核的输出特征。
6.如权利要求5所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述基于注意力机制进行知识图谱网络的构建,包括:
1)计算得到问答句相关性的权重矩阵
Figure FDA0002615377690000034
其中Ae和Qe为问答语句基于知识图谱的语句表示;
2)针对不同的问答向量,采用如下方式计算问答的相关性矩阵:
RA=softmax(R)
RQ=softmax(RT)
其中:
RA为答案的相关性矩阵;
RQ为问题的相关性矩阵;
3)整合问答两侧的矩阵表述形成新的矩阵表述:
Qsum=QeRQ
Asum=AeRQ
其中:
Asum为线性加权的答案侧表述;
Qsum为线性加权的问题侧表述;
4)得到问答两侧转换后的表达后,通过剩余网络将自注意力表达映射回到较低维度空间中:
Qself=max(0,QsumU)W+Qsum
Aself=max(0,AsumU)W+Asum
其中:
U表示特征经过转换器机制后的特征维度;
W表示剩余网络的网络权重;
5)采用一次BiLSTM对全部信息进行整合,将最后一个信息步的向量输出作为问答两侧的向量表达,进入文本匹配网络进行匹配:
Qfinal=BiLSTMQ(Qself)
Afinal=BiLSTMA(Aself)
6)针对问答对向量q和a的最终向量记为
Figure FDA0002615377690000041
Figure FDA0002615377690000042
为Qfinal,Afinal最后一个时间步的取值,并将
Figure FDA0002615377690000043
作为当前医药问题的回答;
所述基于知识图谱的医药问答模型的损失函数为:
Figure FDA0002615377690000044
其中:
yi为候选答案是否符合问题的标签;
pi为softmax层的概率输出;
θ为模型的所有参数;
λ为防止模型过拟合的参数,本发明将其设为0.2。
7.如权利要求6所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,包括:
根据富样本数据集进行知识图谱网络模型的预训练,得到预训练模型fθ,通过模型fθ后得到特征向量
Figure FDA0002615377690000045
将答案选择问题建模为排序问题,采用逐点训练进行计算;
在得到特征向量
Figure FDA0002615377690000046
后,采用单层全连接网络与softmax层计算相关性匹配分数:
yi=softmax(WTfθ(xi))
其中:
W为单层全连接网络权重参数;
xi为问题的特征向量;
yi为输出的答案。
8.一种基于深度学习的医药知识图谱构建系统,其特征在于,所述系统包括:
医药知识获取装置,用于获取医药网站中的相关医药知识信息;
医药知识处理器,用于对医药网站内容进行解析,同时完成解析内容的数据清洗,并利用基于词典的切分算法对解析内容进行切分处理;
医药知识图谱构建装置,用于设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示,同时基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有医药知识图谱构建程序指令,所述医药知识图谱构建程序指令可被一个或者多个处理器执行,以实现如权利要求1至7中任一项所述的一种基于深度学习的医药知识图谱构建的实现方法的步骤。
CN202010767903.8A 2020-08-03 2020-08-03 一种基于深度学习的医药知识图谱构建方法及系统 Withdrawn CN111916216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010767903.8A CN111916216A (zh) 2020-08-03 2020-08-03 一种基于深度学习的医药知识图谱构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010767903.8A CN111916216A (zh) 2020-08-03 2020-08-03 一种基于深度学习的医药知识图谱构建方法及系统

Publications (1)

Publication Number Publication Date
CN111916216A true CN111916216A (zh) 2020-11-10

Family

ID=73287108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010767903.8A Withdrawn CN111916216A (zh) 2020-08-03 2020-08-03 一种基于深度学习的医药知识图谱构建方法及系统

Country Status (1)

Country Link
CN (1) CN111916216A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064883A (zh) * 2022-01-17 2022-02-18 北京融华汇投资管理有限公司 基于精准算法和大数据的医药知识快速学习系统及方法
CN114840684A (zh) * 2022-04-25 2022-08-02 平安普惠企业管理有限公司 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN115797737A (zh) * 2022-06-28 2023-03-14 合肥工业大学 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法
CN117476163A (zh) * 2023-12-27 2024-01-30 万里云医疗信息科技(北京)有限公司 用于确定疾病结论的方法、装置以及存储介质
CN117592567A (zh) * 2023-11-21 2024-02-23 广州方舟信息科技有限公司 药品问答模型训练方法、装置、电子设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064883A (zh) * 2022-01-17 2022-02-18 北京融华汇投资管理有限公司 基于精准算法和大数据的医药知识快速学习系统及方法
CN114064883B (zh) * 2022-01-17 2022-04-29 北京融华汇投资管理有限公司 基于精准算法和大数据的医药知识快速学习系统及方法
CN114840684A (zh) * 2022-04-25 2022-08-02 平安普惠企业管理有限公司 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN115797737A (zh) * 2022-06-28 2023-03-14 合肥工业大学 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法
CN115797737B (zh) * 2022-06-28 2023-11-28 合肥工业大学 一种耦合知识图谱与深度神经网络的遥感图像挖掘方法
CN117592567A (zh) * 2023-11-21 2024-02-23 广州方舟信息科技有限公司 药品问答模型训练方法、装置、电子设备和存储介质
CN117592567B (zh) * 2023-11-21 2024-05-28 广州方舟信息科技有限公司 药品问答模型训练方法、装置、电子设备和存储介质
CN117476163A (zh) * 2023-12-27 2024-01-30 万里云医疗信息科技(北京)有限公司 用于确定疾病结论的方法、装置以及存储介质
CN117476163B (zh) * 2023-12-27 2024-03-08 万里云医疗信息科技(北京)有限公司 用于确定疾病结论的方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
CN111916216A (zh) 一种基于深度学习的医药知识图谱构建方法及系统
CN112786194A (zh) 基于人工智能的医学影像导诊导检系统、方法及设备
US10140272B2 (en) Dynamic context aware abbreviation detection and annotation
CN113871003A (zh) 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
CN111274373A (zh) 一种基于知识图谱的电子病历问答方法及系统
CN111316281A (zh) 基于机器学习的自然语言情境中数值数据的语义分类
CN111209384A (zh) 基于人工智能的问答数据处理方法、装置及电子设备
Santander-Cruz et al. Semantic feature extraction using SBERT for dementia detection
CN115292457B (zh) 知识问答方法、装置、计算机可读介质及电子设备
CN113707307A (zh) 病情分析方法、装置、电子设备及存储介质
US20210287800A1 (en) Ai supported personalized, natural language-based patient interface for medical-bot
CN113488157B (zh) 智能导诊处理方法、装置、电子设备及存储介质
CN112071429A (zh) 一种基于知识图谱的医疗自动问答系统构建方法
CN113571184B (zh) 一种用于精神健康测评的对话交互设计方法及系统
CN115394393A (zh) 智能诊疗数据处理方法、装置、电子设备及存储介质
JP2023514023A (ja) 質問の検索装置、質問の検索方法、デバイス、および記憶媒体
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN114610902A (zh) 一种基于知识图谱的家禽疾病诊断系统
CN116992839B (zh) 病案首页自动生成方法、装置及设备
CN113436754A (zh) 一种智能终端问诊的医疗软件及其方法
CN112115240A (zh) 分类处理方法、装置、服务器和存储介质
CN117747087A (zh) 问诊大模型的训练方法、基于大模型的问诊方法和装置
CN117854715B (zh) 基于问诊分析的智能助诊系统
CN116168793A (zh) 体检数据的处理分析方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201110

WW01 Invention patent application withdrawn after publication