CN111949802B - 医学领域知识图谱的构建方法、装置、设备及存储介质 - Google Patents

医学领域知识图谱的构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111949802B
CN111949802B CN202010785288.3A CN202010785288A CN111949802B CN 111949802 B CN111949802 B CN 111949802B CN 202010785288 A CN202010785288 A CN 202010785288A CN 111949802 B CN111949802 B CN 111949802B
Authority
CN
China
Prior art keywords
entity
medical field
identified
vector
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010785288.3A
Other languages
English (en)
Other versions
CN111949802A (zh
Inventor
张圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010785288.3A priority Critical patent/CN111949802B/zh
Priority to PCT/CN2020/118499 priority patent/WO2021139247A1/zh
Publication of CN111949802A publication Critical patent/CN111949802A/zh
Application granted granted Critical
Publication of CN111949802B publication Critical patent/CN111949802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医学领域知识图谱的构建方法、装置、设备及存储介质,该构建方法包括:获取通用知识图谱中的全部三元组集合,并从三元组集合中获取待识别三元组,从待识别三元组中确定待识别第一实体和待识别第二实体;采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体;当待识别第一实体和待识别第二实体同时为医学领域实体时,确定待识别三元组为目标三元组;将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合并构建医学领域知识图谱。通过上述方式,本发明能够从通用知识图谱中自动识别医学领域知识,并自动构建高质量且覆盖各种类型的医学领域知识图谱,效率高、人力成本低且覆盖面广。

Description

医学领域知识图谱的构建方法、装置、设备及存储介质
技术领域
本发明涉及知识图谱技术领域,特别是涉及一种医学领域知识图谱的构建方法、装置、设备及存储介质。
背景技术
医学知识图谱对于医学基础研究、智慧医疗、临床诊断决策等方面都有重要的意义,此外,医学知识图谱的应用也非常广泛,比如基于医学知识图谱的智能搜索、智能问答、智能推荐、辅助诊断等方面。
但是,目前市场上高质量的医学领域知识图谱较少,大部分都是医学领域细分的知识图谱,比如基因-疾病-靶标知识图谱、基因-物质-交互关系知识库等,目前还没有比较全面的覆盖各种类型的医学知识的高质量医学知识图谱。目前高质量的医学知识图谱的构建方式主要还是基于专家构建,专家构建的知识图谱质量虽高,但覆盖的医学知识很少。现有的构建医学知识图谱主要思路是从医学文献中进行关系抽取获取知识构建知识图谱,但是关系抽取模型标签数据集的标注获取同样需要花费大量的专家人力,而且目前最优的基于深度学习关系抽取效果离真实可用还有很大距离。
发明内容
本发明提供一种医学领域知识图谱的构建方法、装置、设备及存储介质,能够从已有的海量的高质量的通用知识图谱中自动识别医学领域知识,从而可以自动构建高质量且覆盖各种类型的医学知识的医学领域知识图谱,效率高、人力成本低且覆盖面广。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种医学领域知识图谱的构建方法,包括:
获取通用知识图谱中的全部三元组集合,并从所述三元组集合中获取待识别三元组,从所述待识别三元组中确定待识别第一实体和待识别第二实体;
采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体,所述医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层;
当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时,确定所述待识别三元组为目标三元组;
将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱。
根据本发明的一个实施例,所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤包括:
采用所述医学领域实体识别模型识别所述待识别第一实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第一实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第一实体为非医学领域实体;
采用医学领域实体识别模型识别所述待识别第二实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第二实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第二实体为非医学领域实体。
根据本发明的一个实施例,在所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤之前还包括:
构建所述医学领域实体识别模型;
对所述医学领域实体识别模型进行训练。
根据本发明的一个实施例,所述对所述医学领域实体识别模型进行训练的步骤包括:
获取所述待识别第一实体或所述待识别第二实体的描述文本信息,所述描述文本信息包括多个词汇;
对所述描述文本信息进行嵌入处理,获得每个词汇的词向量和词性向量;
将所述词向量和所述词性向量进行串联拼接处理,获得拼接向量;
将所述拼接向量输入循环神经网络中学习每个词汇的上下文语义,获得所述词汇的隐藏向量;
采用注意力机制对所述隐藏向量进行特征提取,获得注意力向量;
将所述注意力向量输入全连接网络中进行分类识别,输出识别结果。
根据本发明的一个实施例,所述对所述描述文本信息进行嵌入处理,获得每个词汇的词向量和词性向量的步骤包括:
将所述词汇输入词嵌入模型中,获得所述词向量;
对所述词汇进行词性标注处理,将所述词性标注处理结果输入词性嵌入模型中,获得所述词性向量。
根据本发明的一个实施例,所述采用注意力机制对所述隐藏向量进行特征提取,获得注意力向量的步骤包括:
计算每个所述隐藏向量的权重;
计算所述权重和所述隐藏向量的加权和,获得所述注意力向量。
根据本发明的一个实施例,所述将所述注意力向量输入全连接网络中进行分类识别,输出识别结果的步骤按照如下公式进行:
y=softmax(w*s),其中,w为参数,s为注意力向量,softmax为分类任务的激活函数,y为输出的识别结果,y取0或1,y取0时,表示所述待识别第一实体或所述待识别第二实体为非医学领域实体,y取1时,表示所述待识别第一实体或所述待识别第二实体为医学领域实体。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种医学领域知识图谱的构建装置,包括:
获取模块,用于获取通用知识图谱中的全部三元组集合,并从所述三元组集合中获取待识别三元组,从所述待识别三元组中确定待识别第一实体和待识别第二实体;
识别模块,用于采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体;
确定模块,用于当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时,确定所述待识别三元组为目标三元组;
图谱构建模块,用于将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的医学领域知识图谱的构建方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,存储有能够实现上述医学领域知识图谱的构建方法的程序文件。
本发明的有益效果是:基于医学领域实体识别模型,从已有的海量的高质量的通用知识图谱中自动识别医学领域知识,从而可以自动构建高质量且覆盖各种类型的医学知识的医学领域知识图谱,解决了现有的基于专家构建的医学知识图谱的人力成本高、知识规模少以及覆盖医学知识种类范围少等问题。
附图说明
图1是本发明第一实施例的医学领域知识图谱的构建方法的流程示意图;
图2是本发明第二实施例的医学领域知识图谱的构建方法的流程示意图;
图3是本发明实施例的医学领域实体识别模型的网络结构示意图;
图4是本发明实施例的医学领域实体识别模型的训练步骤的流程示意图;
图5是本发明第一实施例的医学领域知识图谱的构建装置的结构示意图;
图6是本发明第二实施例的医学领域知识图谱的构建装置的结构示意图;
图7是本发明实施例的计算机设备的结构示意图;
图8是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的医学领域知识图谱的构建方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取通用知识图谱中的全部三元组集合,并从三元组集合中获取待识别三元组,从待识别三元组中确定待识别第一实体和待识别第二实体。
在步骤S101中,通用知识图谱包括英文通用知识图谱和中文通用知识图谱,其中,中文通用知识图谱包括百度知识图谱、搜狗知立方、zhishime、复旦CN-DBpedia等,英文通用知识图谱包括freebase、wikidata、probase等,知识图谱的存储格式为三元组,知识图谱中的每一条知识称为三元组。在本实施例中,三元组可分为(实体,关系,实体),因此,待识别实体可包括待识别第一实体和待识别第二实体。
步骤S102:采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体,医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。
在步骤S102中,采用医学领域实体识别模型分别识别第一实体和待识别第二实体是否为医学领域实体。本实施例在识别待识别第一实体和待识别第二实体时不分先后顺序。本实施例的嵌入层对待识别第一实体和待识别第二实体对应的描述文本信息进行词嵌入处理和词性嵌入处理,拼接层对词嵌入处理结果和词性嵌入处理结果进行拼接处理,循环神经网络层对拼接处理结果进行深度学习,注意力机制层对深度学习结果进行特征提取,全连接层采用分类任务的激活函数对特征提取结果进行分类识别并输出识别结果。
在采用医学领域实体识别模型识别第一实体是否为医学领域实体的步骤中,当医学领域实体识别模型的识别结果为“1”时,则确定待识别第一实体为医学领域实体,当医学领域实体识别模型的识别结果为“0”时,则确定待识别第一实体为非医学领域实体。
在采用医学领域实体识别模型识别第二实体是否为医学领域实体的步骤中,当医学领域实体识别模型的识别结果为“1”时,则确定待识别第二实体为医学领域实体,当医学领域实体识别模型的识别结果为“0”时,则确定待识别第二实体为非医学领域实体。
步骤S103:当待识别第一实体和待识别第二实体同时为医学领域实体时,确定待识别三元组为目标三元组。
在步骤S103中,仅当待识别第一实体和待识别第二实体均为医学领域实体时,确定待识别三元组为目标三元组,当待识别第一实体和待识别第二实体中仅其中一个确定为医学领域实体时,待识别三元组为非目标三元组。
步骤S104:将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱。
本发明第一实施例的医学领域知识图谱的构建方法通过医学领域实体识别模型,从已有的海量的高质量的通用知识图谱中自动识别医学领域知识,从而可以自动构建高质量且覆盖各种类型的医学知识的医学领域知识图谱,解决了现有的基于专家构建的医学知识图谱的人力成本高、知识规模少以及覆盖医学知识种类范围少等问题。该构建方法具有很好的迁移性,除了应用于医学领域,还可以迁移到其他领域,例如娱乐圈、金融、法律等。
图2是本发明第二实施例的医学领域知识图谱的构建方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限。如图2所示,该方法包括步骤:
步骤S201:构建医学领域实体识别模型。
在步骤S201中,请参见图3,医学领域实体识别模型的网络结构包括词嵌入层31、词性嵌入层32、与词嵌入层31和词性嵌入层32连接的拼接层33、与拼接层33连接的循环神经网络层34、与循环神经网络层34的注意力机制层35以及与注意力机制层连接35的全连接层36。在本实施例中,词嵌入层31将待识别实体对应的描述文本信息中的词汇转换为词向量,本实施例的词嵌入层31采用预训练Bert模型而不是Word2vec模型,Bert模型是在通用语料文本进行预训练,在医学领域NLP任务上效果一般,但本实施例将Bert模型使用1000万的医学文献语料进行了预训练,从而可以适应于医学领域的NLP任务;词性嵌入层32将描述文本信息中每个词汇的词性转换为词性向量,在获取每个词汇的词性时需要对每个词汇进行词性标注,本实施例的词性嵌入层32采用Word2vec模型;拼接层33用于将每个词汇的词向量和词性向量进行串联拼接,获得每个词汇的拼接向量,拼接之后每个词汇的维度等于每个词汇的词嵌入的维度加上词性嵌入的维度;循环神经网络层34采用Bi-GRU模型,GRU是常用的循环神经网络的核单元,是对LSTM的改进,Bi-GRU模型可以很好地学习每个词汇在句子中的前向以及后向的语义(上下文语义);注意力机制层35可以综合句子中学习到的所有词的语义,从而获取得到更深层的语义表示;全连接层36采用分类任务的激活函数对注意力机制层35的输出结果进行分类识别并输出识别结果。
步骤S202:对医学领域实体识别模型进行训练。
在步骤S202中,请参见图4,包括以下步骤:
步骤S401:获取待识别第一实体或待识别第二实体的描述文本信息,描述文本信息包括多个词汇;
步骤S402:对描述文本信息进行嵌入处理,获得每个词汇的词向量和词性向量;
在步骤S402中,将词汇输入词嵌入模型中,获得词向量;对词汇进行词性标注处理,将词性标注处理结果输入词性嵌入模型中,获得词性向量。
步骤S403:将词向量和词性向量进行串联拼接处理,获得拼接向量;
在步骤S403中,每个词汇的拼接向量为ei=(e_wordi:e_posi),其中,e为拼接向量,i为词汇的个数,i=1,…n,e_wordi表示词向量,e_posi表示词性向量。
此时,每个词汇的维度为dim(ei)=dim(e_wordi)+dim(e_posi),其中,i为词汇的个数,i=1,…n。
步骤S404:将拼接向量输入循环神经网络中学习每个词汇的上下文语义,获得词汇的隐藏向量;
步骤S405:采用注意力机制对隐藏向量进行特征提取,获得注意力向量;
在步骤S405中,首先计算每个隐藏向量的权重;再计算权重和隐藏向量的加权和,获得注意力向量。
计算每个隐藏向量的权重按照如下公式进行:
Figure BDA0002621723480000091
其中,e为拼接向量,i为词汇的个数,i=1,…n,a为隐藏向量的权重,h为隐藏向量。
计算权重和隐藏向量的加权和,获得注意力向量按照如下公式进行:S=∑iaihi,其中,s表示注意力向量,i为词汇的个数,i=1,…n,a为隐藏向量的权重,h为隐藏向量。
步骤S406:将注意力向量输入全连接网络中进行分类识别,输出识别结果。
在步骤S406中,按照如下公式进行:y=softmax(w*s),其中,w为参数,s为注意力向量,softmax为分类任务的激活函数,y为输出的识别结果,y取0或1,y取0时,表示待识别实体为非医学领域实体,y取1时,表示待识别实体为医学领域实体。
本实施例的步骤S201、步骤S202可在步骤S203之前,也可在步骤S203之后。
步骤S203:获取通用知识图谱中的全部三元组集合,并从三元组集合中获取待识别三元组,从待识别三元组中确定待识别第一实体和待识别第二实体。
在本实施例中,图2中的步骤S203和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S204:采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体,医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。
在本实施例中,图2中的步骤S204和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S205:当待识别第一实体和待识别第二实体同时为医学领域实体时,确定待识别三元组为目标三元组。
在本实施例中,图2中的步骤S205和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S206:将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱。
在本实施例中,图2中的步骤S206和图1中的步骤S104类似,为简约起见,在此不再赘述。
本发明第二实施例的医学领域知识图谱的构建方法在第一实施例的基础上,通过基于深度学习设计并训练了医学领域实体识别模型,可以判别实体是否为医学领域实体,该医学领域实体识别模型使用了循环神经网络、注意力机制等多种结构,并且融合了多种嵌入信息,能够准确、快速地从已有的海量的高质量的通用知识图谱中自动识别医学领域知识。
图5是本发明第一实施例的医学领域知识图谱的构建装置的结构示意图。如图5所示,该装置50包括获取模块51、识别模块52、确定模块53和图谱构建模块54。
获取模块51用于获取通用知识图谱中的全部三元组集合,并从三元组集合中获取待识别三元组,从待识别三元组中确定待识别第一实体和待识别第二实体。
识别模块52与获取模块51耦接,用于采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体,医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。
确定模块53与识别模块52耦接,用于当待识别第一实体和待识别第二实体同时为医学领域实体时,确定待识别三元组为目标三元组。
图谱构建模块54与确定模块53耦接,用于将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱。
图6是本发明第二实施例的医学领域知识图谱的构建装置的结构示意图。如图6所示,该装置60包括模型构建模块61、模型训练模块62、获取模块63、识别模块64、确定模块65和图谱构建模块66。
模型构建模块61用于构建医学领域实体识别模型。
模型训练模块62与模型构建模块61耦接,用于对医学领域实体识别模型进行训练。
获取模块63用于获取通用知识图谱中的全部三元组集合,并从三元组集合中获取待识别三元组,从待识别三元组中确定待识别第一实体和待识别第二实体。
识别模块64分别与模型训练模块62、获取模块63耦接,用于采用医学领域实体识别模型分别识别待识别第一实体和待识别第二实体是否为医学领域实体,医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层。
确定模块65与识别模块64耦接,用于当待识别第一实体和待识别第二实体同时为医学领域实体时,确定待识别三元组为目标三元组。
图谱构建模块66与确定模块65耦接,用于将目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱。
请参见图7,图7为本发明实施例的计算机设备的结构示意图。该计算机设备70包括:存储器71、处理器72及存储在存储器上并可在处理器72上运行的计算机程序,处理器72执行计算机程序时实现上述的医学领域知识图谱的构建方法。
参阅图8,图8为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种医学领域知识图谱的构建方法,其特征在于,包括:
获取通用知识图谱中的全部三元组集合,并从所述三元组集合中获取待识别三元组,从所述待识别三元组中确定待识别第一实体和待识别第二实体;
采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体,所述医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层;所述嵌入层包括词嵌入层和词性嵌入层,所述词嵌入层采用预训练Bert模型将待识别实体对应的描述文本信息中的词汇转换为词向量,所述词性嵌入层采用Word2vec模型将所述描述文本信息中每个词汇的词性转换为词性向量,所述拼接层用于将每个词汇的词向量的维度和词性向量的维度进行串联拼接;
当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时,确定所述待识别三元组为目标三元组;
将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱;
所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤包括:
采用所述医学领域实体识别模型识别所述待识别第一实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第一实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第一实体为非医学领域实体;
采用医学领域实体识别模型识别所述待识别第二实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第二实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第二实体为非医学领域实体;
在所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤之前还包括:
构建所述医学领域实体识别模型;
对所述医学领域实体识别模型进行训练;
所述对所述医学领域实体识别模型进行训练的步骤包括:
获取所述待识别第一实体或所述待识别第二实体的描述文本信息,所述描述文本信息包括多个词汇;
对所述描述文本信息进行嵌入处理,获得每个词汇的词向量和词性向量;
将所述词向量和所述词性向量进行串联拼接处理,获得拼接向量;
将所述拼接向量输入循环神经网络中学习每个词汇的上下文语义,获得所述词汇的隐藏向量;
采用注意力机制对所述隐藏向量进行特征提取,获得注意力向量;
将所述注意力向量输入全连接网络中进行分类识别,输出识别结果。
2.根据权利要求1所述的构建方法,其特征在于,所述对所述描述文本信息进行嵌入处理,获得每个词汇的词向量和词性向量的步骤包括:
将所述词汇输入词嵌入模型中,获得所述词向量;
对所述词汇进行词性标注处理,将所述词性标注处理结果输入词性嵌入模型中,获得所述词性向量。
3.根据权利要求1所述的构建方法,其特征在于,所述采用注意力机制对所述隐藏向量进行特征提取,获得注意力向量的步骤包括:
计算每个所述隐藏向量的权重;
计算所述权重和所述隐藏向量的加权和,获得所述注意力向量。
4.根据权利要求1所述的构建方法,其特征在于,所述将所述注意力向量输入全连接网络中进行分类识别,输出识别结果的步骤按照如下公式进行:
Figure DEST_PATH_IMAGE001
,其中,w为参数,s为注意力向量,
Figure 266277DEST_PATH_IMAGE002
为分类任务的激活函数,y为输出的识别结果,y取0或1,y取0时,表示所述待识别第一实体或所述待识别第二实体为非医学领域实体,y取1时,表示所述待识别第一实体或所述待识别第二实体为医学领域实体。
5.一种医学领域知识图谱的构建装置,其特征在于,包括:
获取模块,用于获取通用知识图谱中的全部三元组集合,并从所述三元组集合中获取待识别三元组,从所述待识别三元组中确定待识别第一实体和待识别第二实体;
识别模块,用于采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体;所述医学领域实体识别模型的网络结构包括依次连接的嵌入层、拼接层、循环神经网络层、注意力机制层以及全连接层;所述嵌入层包括词嵌入层和词性嵌入层,所述词嵌入层采用预训练Bert模型将待识别实体对应的描述文本信息中的词汇转换为词向量,所述词性嵌入层采用Word2vec模型将所述描述文本信息中每个词汇的词性转换为词性向量,所述拼接层用于将每个词汇的词向量的维度和词性向量的维度进行串联拼接;
所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤包括:
采用所述医学领域实体识别模型识别所述待识别第一实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第一实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第一实体为非医学领域实体;
采用医学领域实体识别模型识别所述待识别第二实体是否为医学领域实体;
当所述医学领域实体识别模型输出第一预设阈值时,则确定所述待识别第二实体为医学领域实体,当所述医学领域实体识别模型输出第二预设阈值时,则确定所述待识别第二实体为非医学领域实体;
确定模块,用于当所述待识别第一实体和所述待识别第二实体同时为医学领域实体时,确定所述待识别三元组为目标三元组;
图谱构建模块,用于将所述目标三元组插入医学领域三元组集合中形成新的医学领域三元组集合,并根据新的医学领域三元组集合构建医学领域知识图谱;
所述医学领域知识图谱的构建装置还包括:
模型构建模块,用于在所述采用医学领域实体识别模型分别识别所述待识别第一实体和所述待识别第二实体是否为医学领域实体的步骤之前,构建所述医学领域实体识别模型;
模型训练模块,用于对所述医学领域实体识别模型进行训练;
所述对所述医学领域实体识别模型进行训练的步骤包括:
获取所述待识别第一实体或所述待识别第二实体的描述文本信息,所述描述文本信息包括多个词汇;
对所述描述文本信息进行嵌入处理,获得每个词汇的词向量和词性向量;
将所述词向量和所述词性向量进行串联拼接处理,获得拼接向量;
将所述拼接向量输入循环神经网络中学习每个词汇的上下文语义,获得所述词汇的隐藏向量;
采用注意力机制对所述隐藏向量进行特征提取,获得注意力向量;
将所述注意力向量输入全连接网络中进行分类识别,输出识别结果。
6.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的医学领域知识图谱的构建方法。
7.一种计算机存储介质,其特征在于,存储有能够实现如权利要求1-4中任一项所述的医学领域知识图谱的构建方法的程序文件。
CN202010785288.3A 2020-08-06 2020-08-06 医学领域知识图谱的构建方法、装置、设备及存储介质 Active CN111949802B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010785288.3A CN111949802B (zh) 2020-08-06 2020-08-06 医学领域知识图谱的构建方法、装置、设备及存储介质
PCT/CN2020/118499 WO2021139247A1 (zh) 2020-08-06 2020-09-28 医学领域知识图谱的构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010785288.3A CN111949802B (zh) 2020-08-06 2020-08-06 医学领域知识图谱的构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111949802A CN111949802A (zh) 2020-11-17
CN111949802B true CN111949802B (zh) 2022-11-01

Family

ID=73331761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010785288.3A Active CN111949802B (zh) 2020-08-06 2020-08-06 医学领域知识图谱的构建方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN111949802B (zh)
WO (1) WO2021139247A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327691B (zh) * 2021-06-01 2022-08-12 平安科技(深圳)有限公司 基于语言模型的问询方法、装置、计算机设备及存储介质
CN113470775B (zh) * 2021-07-23 2023-06-16 深圳平安智慧医健科技有限公司 信息采集方法、装置、设备及存储介质
CN113590843B (zh) * 2021-08-06 2023-06-23 中国海洋大学 一种融合分子结构特征的知识表示学习方法
CN113626609B (zh) * 2021-08-10 2024-03-26 南方电网数字电网研究院有限公司 电力计量知识图谱构建方法、装置、设备和存储介质
CN113704497B (zh) * 2021-08-31 2024-01-26 平安科技(深圳)有限公司 医疗知识图谱的填补方法、装置、计算机设备及存储介质
CN114121212B (zh) * 2021-11-19 2024-04-02 东南大学 一种基于知识图谱和群表示学习的中药处方生成方法
US20240303507A1 (en) * 2022-03-30 2024-09-12 Beijing Boe Technology Development Co., Ltd. Method and device for recommending goods, method and device for training goods knowledge graph, and method and device for training model
CN115169326B (zh) * 2022-04-15 2024-07-19 长河信息股份有限公司 一种中文关系抽取方法、装置、终端及存储介质
CN115168599B (zh) * 2022-06-20 2023-06-20 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN117012374B (zh) * 2023-10-07 2024-01-26 之江实验室 一种融合事件图谱和深度强化学习的医疗随访系统及方法
CN118571502B (zh) * 2024-08-02 2024-10-18 之江实验室 基于知识引导域自适应的多中心医学数据处理方法、系统、设备、介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359297A (zh) * 2018-09-20 2019-02-19 清华大学 一种关系抽取方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019839B (zh) * 2018-01-03 2021-11-05 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109284396A (zh) * 2018-09-27 2019-01-29 北京大学深圳研究生院 医学知识图谱构建方法、装置、服务器及存储介质
US10783330B2 (en) * 2018-10-19 2020-09-22 QwikIntelligence, Inc. Understanding natural language using tumbling-frequency phrase chain parsing
CN109902171B (zh) * 2019-01-30 2020-12-25 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN110825721B (zh) * 2019-11-06 2023-05-02 武汉大学 大数据环境下高血压知识库构建与系统集成方法
CN110888944B (zh) * 2019-11-20 2023-04-28 中山大学 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN111274394B (zh) * 2020-01-16 2022-10-25 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
CN111368528B (zh) * 2020-03-09 2022-07-08 西南交通大学 一种面向医学文本的实体关系联合抽取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359297A (zh) * 2018-09-20 2019-02-19 清华大学 一种关系抽取方法及系统

Also Published As

Publication number Publication date
WO2021139247A1 (zh) 2021-07-15
CN111949802A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111949802B (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109522553B (zh) 命名实体的识别方法及装置
CN110019843B (zh) 知识图谱的处理方法及装置
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
CN113204952A (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN110750998B (zh) 一种文本输出方法、装置、计算机设备和存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN115563619B (zh) 基于文本预训练模型的漏洞相似性对比方法及系统
CN113536784B (zh) 文本处理方法、装置、计算机设备和存储介质
CN114398866A (zh) 基于预测模型的文本匹配方法、装置、设备及存储介质
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN114357164A (zh) 情感-原因对抽取方法、装置、设备及可读存储介质
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN117235137A (zh) 一种基于向量数据库的职业信息查询方法及装置
CN112380861A (zh) 模型训练方法、装置及意图识别方法、装置
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN111401070B (zh) 词义相似度确定方法及装置、电子设备及存储介质
CN111931503A (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN115438718A (zh) 情感识别方法、装置、计算机可读存储介质及终端设备
CN113806475B (zh) 信息回复方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40040354

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant