CN113656604B - 基于异构图神经网络的医疗术语规范化系统及方法 - Google Patents

基于异构图神经网络的医疗术语规范化系统及方法 Download PDF

Info

Publication number
CN113656604B
CN113656604B CN202111213727.4A CN202111213727A CN113656604B CN 113656604 B CN113656604 B CN 113656604B CN 202111213727 A CN202111213727 A CN 202111213727A CN 113656604 B CN113656604 B CN 113656604B
Authority
CN
China
Prior art keywords
nodes
node
medical term
medical
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111213727.4A
Other languages
English (en)
Other versions
CN113656604A (zh
Inventor
李劲松
杨宗峰
辛然
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111213727.4A priority Critical patent/CN113656604B/zh
Publication of CN113656604A publication Critical patent/CN113656604A/zh
Application granted granted Critical
Publication of CN113656604B publication Critical patent/CN113656604B/zh
Priority to PCT/CN2022/116967 priority patent/WO2023065858A1/zh
Priority to JP2023536585A priority patent/JP7432802B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于异构图神经网络的医疗术语规范化系统及方法,首先对各种类型的医疗术语构建关键的信息单元,实现医疗术语的结构化表示,并基于信息单元构建包含各种类型医疗术语的知识图谱。基于此知识图谱构建包含各种类型医疗术语的异构图神经网络,在异构图神经网络的训练过程中综合考虑图的临近节点分布和节点内容编码,用于进行医疗术语规范化。本发明能够充分利用同类医疗术语的信息单元互相之间关联与差异的知识,同时容纳各种类型的医疗术语,能够全面学习医疗领域的知识,并且能够方便地将新类型的医疗术语增加到系统中,减少了新类型医疗术语规范化的工作量。

Description

基于异构图神经网络的医疗术语规范化系统及方法
技术领域
本发明属于中文医学术语标准化及多中心医学信息平台技术领域,尤其涉及一种基于异构图神经网络的医疗术语规范化系统及方法。
背景技术
医疗信息化进程中一个重要的研究方向就是将更高性能的机器学习和人工智能技术应用于解决实际的临床问题。人工智能技术的一个优点是可以从海量数据中发现复杂的规律和特征,因此综合利用多家医疗机构的医疗数据进行分析挖掘和模型设计,进而为医疗研究、临床决策工作提供支持成为医疗信息化的必然趋势。而由于不同医疗机构采用的信息标准众多,并且经常会人为地产出半结构化和非结构化的数据,导致整合利用不同来源的医疗数据变得异常困难。医疗术语是组成医疗数据的基础要素,建立完善的医疗术语规范化体系可以将不同来源的医疗数据对齐到统一的标准和结构,进而为临床决策和医疗研究工作提供更大规模和更高质量的数据。医疗术语主要包括临床操作过程中产生的药物、医学检查、疾病等类型的术语。不同类型的医疗术语会包含特定的关键维度的信息,我们将其定义为医疗术语的信息单元。例如,药物术语“5%葡萄糖注射液(基)500毫升”包含如表1所示的信息单元:
表1 药物术语信息单元示例
Figure 432124DEST_PATH_IMAGE001
检查术语“左手指正侧位_X”包含如表2所示的信息单元:
表2 检查术语信息单元示例
Figure 913921DEST_PATH_IMAGE002
某些信息单元由其它更细粒度的信息单元组成,分别将其定义为一级信息单元和二级信息单元,例如表1中药物术语包含一级信息单元“药物成分”、“药物剂型”、“药物剂量”和“药物规格”,其中“药物规格”信息单元由二级信息单元“数值”(500)和“计量单位”(毫升)组成。给定一组医疗术语的信息单元即可确定一条完整的医疗术语。
在实际临床操作中由于各医疗机构采用的信息标准差异和医护人员个人习惯差异等原因,会产生大量不规范的医疗术语,主要表现为关键信息单元的冗余或缺失、表达方式不规范、数量单位不统一等问题,例如下列药物术语的含义完全相同,但是形式上差异较大:“左氧氟沙星片(可乐必妥)500毫克”和“可乐必妥 0.5g/片”。医疗术语规范化的目标就是识别出含义完全相同但字面形式不同的医疗术语,以便统一它们的表达方式,同时区分出含义不同的医疗术语,最终促进医疗数据整体的规范化。
传统的医疗术语规范化方法是针对某个单一类别的医疗术语,通过机器学习或人工校验的方法来理解每条医疗术语的含义,标注出语义相同的医疗术语。这样的方法将每条医疗术语作为一个整体,忽略了医疗术语内部固有的信息单元的结构,主要的缺点是:(1)无法有效地利用信息单元互相之间关联与差异的知识。同一条医疗术语的不同维度的信息单元之间的关联和差异会包含丰富的医疗领域知识,而现有的做法没有显式地对这些知识进行结构化表示和利用;(2)不同类型的医疗术语会包含相同或有关联的信息单元,而过去的医疗术语规范化工作都是针对单一类别的医疗术语分别开发独立的系统,这样做一方面工作量过大,另一方面也无法综合利用不同类型医疗术语的信息单元中的知识;(3)会将多余的信息纳入考虑范围。由于表达不规范等原因,大多数医疗术语除了关键的信息单元之外,还会包含一些多余的字符,这些字符与医疗术语整体的含义几乎没有关联,而且作为噪声会使医疗术语的含义产生偏差。
发明内容
本发明的目的在于针对目前医疗术语规范化方法的缺点,基于医疗术语自身的特性,提出一种基于异构图神经网络的医疗术语规范化系统及方法。本发明对所有医疗术语构建新型的基于信息单元的知识图谱,并在知识图谱的基础上通过改进的异构图神经网络进行医疗术语的规范化,有效利用医疗术语信息单元中的知识,获取更准确的医疗术语规范化结果。
本发明的目的是通过以下技术方案来实现的:本发明为了在医疗术语规范化的过程中充分利用医疗术语自身蕴含的医疗领域知识,首先对各种类型的医疗术语构建关键的信息单元,实现医疗术语的结构化表示,并基于信息单元构建包含各种类型医疗术语的知识图谱。基于此知识图谱构建包含各种类型医疗术语的异构图神经网络,在异构图神经网络的训练过程中综合考虑图的临近节点分布和节点内容编码,用于进行医疗术语规范化。通过这种方法,本发明能够充分利用同类医疗术语的信息单元互相之间关联与差异的知识,同时在系统中容纳各种类型的医疗术语,能够全面学习医疗领域的知识,并且能够方便地将新类型的医疗术语增加到系统中,减少了新类型医疗术语规范化的工作量。在对医疗术语提取信息单元的过程中会丢弃多余的字符和信息,避免引入过多的噪声和误差。
本发明一方面公开了一种基于异构图神经网络的医疗术语规范化系统,包括:
(1)信息单元构建模块:对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
进一步地,所述医疗术语的类型包括药物术语、疾病术语、手术术语、检验术语和检查术语。
进一步地,所述信息单元构建模块中,序列标注模型为BiLSTM-CRF模型;在作为训练数据的医疗术语上标注出每个信息单元的区间,同时标明非信息单元的字符,使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余字符。
进一步地,所述信息单元构建模块中,对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算。
进一步地,所述异构图神经网络模块中,用
Figure 202951DEST_PATH_IMAGE003
表示医疗术语知识图谱中的所有节 点的集合,对于
Figure 86593DEST_PATH_IMAGE004
,记
Figure 435666DEST_PATH_IMAGE005
为其节点内容,
Figure 670338DEST_PATH_IMAGE006
为其内容编码;对于节点内容为 数值型的节点
Figure 494550DEST_PATH_IMAGE007
,其内容编码为:
Figure 498279DEST_PATH_IMAGE008
其中
Figure 752674DEST_PATH_IMAGE005
为节点
Figure 209063DEST_PATH_IMAGE007
本身的数值;
Figure 839895DEST_PATH_IMAGE009
表示单位向量,随机初始化并通过异构图 神经网络训练得到;
对于节点内容为计量单位的节点
Figure 698130DEST_PATH_IMAGE007
,其节点内容是由基础单位和运算符号组成的 序列,设
Figure 389005DEST_PATH_IMAGE010
,其中
Figure 332691DEST_PATH_IMAGE011
为基础单位或运算符号,
Figure 501635DEST_PATH_IMAGE012
Figure 417638DEST_PATH_IMAGE007
的序列 长度,则内容编码为:
Figure 404049DEST_PATH_IMAGE013
其中
Figure 710396DEST_PATH_IMAGE014
为异构图神经网络训练得到的参数矩阵;
Figure 807665DEST_PATH_IMAGE015
为每种基础单位或运算符 号的语义向量,随机初始化并通过异构图神经网络训练得到;
Figure 250279DEST_PATH_IMAGE016
为向量拼接运算符;
对于节点内容为文本型的节点
Figure 407591DEST_PATH_IMAGE007
,使用预训练的语言模型计算
Figure 201235DEST_PATH_IMAGE007
的语义向量作为
Figure 102195DEST_PATH_IMAGE007
的初始化的内容编码,并通过后续的异构图神经网络继续训练内容编码。
进一步地,对于节点内容为文本型的节点
Figure 661964DEST_PATH_IMAGE007
,预训练的语言模型采用BERT模型,计 算方式为:
Figure 990178DEST_PATH_IMAGE017
其中
Figure 5538DEST_PATH_IMAGE018
为BERT模型第
Figure 710189DEST_PATH_IMAGE019
层的隐藏状态,
Figure 127395DEST_PATH_IMAGE020
为第
Figure 626509DEST_PATH_IMAGE021
层的输入值:
Figure 129166DEST_PATH_IMAGE022
,其中
Figure 106349DEST_PATH_IMAGE023
Figure 643641DEST_PATH_IMAGE024
均为训 练得到的参数,
Figure 313657DEST_PATH_IMAGE025
Figure 631506DEST_PATH_IMAGE026
的维度,
Figure 287746DEST_PATH_IMAGE027
为BERT模型第k层的隐藏状态;若BERT模型一共有m层, 则节点
Figure 804178DEST_PATH_IMAGE007
的初始化的内容编码为
Figure 520461DEST_PATH_IMAGE028
进一步地,所述异构图神经网络模块中,基于医疗术语知识图谱中节点自身及其 临近节点的内容编码来计算每个节点的向量表示;对于医疗术语知识图谱中的节点
Figure 122344DEST_PATH_IMAGE029
,用
Figure 582275DEST_PATH_IMAGE030
表示从
Figure 953214DEST_PATH_IMAGE007
出发的箭头直接指向的节点的集合,如果
Figure 837469DEST_PATH_IMAGE007
表示医疗术语节点,那么
Figure 661068DEST_PATH_IMAGE030
Figure 924690DEST_PATH_IMAGE007
的一级信息单元集合,
Figure 150135DEST_PATH_IMAGE031
Figure 473800DEST_PATH_IMAGE007
的二级信息单元集合;定义
Figure 50275DEST_PATH_IMAGE007
的临 近节点集合
Figure 852009DEST_PATH_IMAGE030
为:
Figure 931961DEST_PATH_IMAGE032
Figure 426527DEST_PATH_IMAGE007
的向量表示
Figure 224719DEST_PATH_IMAGE033
的计算方式为:
Figure 564564DEST_PATH_IMAGE034
其中
Figure 764601DEST_PATH_IMAGE035
为权重参数,具体计算如下:
Figure 430069DEST_PATH_IMAGE036
其中
Figure 449978DEST_PATH_IMAGE037
Figure 859093DEST_PATH_IMAGE038
Figure 913637DEST_PATH_IMAGE039
为训练得到的矩阵参数,
Figure 812323DEST_PATH_IMAGE040
为 非线性激活函数。
进一步地,所述异构图神经网络模块中,训练的第一个阶段,将可以训练的参数集 合记为
Figure 457543DEST_PATH_IMAGE041
,则训练的目标是优化如下目标函数:
Figure 529405DEST_PATH_IMAGE042
其中
Figure 110559DEST_PATH_IMAGE043
表示从节点
Figure 117829DEST_PATH_IMAGE007
预测其临近节点
Figure 112330DEST_PATH_IMAGE044
的概率;
训练的第二个阶段,任意两个医疗术语节点的相似度的计算公式为:
Figure 863248DEST_PATH_IMAGE045
其中
Figure 892384DEST_PATH_IMAGE007
Figure 804976DEST_PATH_IMAGE046
为医疗术语知识图谱中的医疗术语节点,
Figure 552352DEST_PATH_IMAGE047
Figure 841383DEST_PATH_IMAGE007
Figure 725025DEST_PATH_IMAGE046
的相似 度,Wb均为训练得到的参数;
在医疗术语规范化训练数据中,设与医疗术语节点
Figure 808519DEST_PATH_IMAGE007
含义相同的医疗术语节点集 合为
Figure 777612DEST_PATH_IMAGE048
,与
Figure 870332DEST_PATH_IMAGE007
含义不相同的医疗术语节点集合为
Figure 608481DEST_PATH_IMAGE049
,则训练样本的标签
Figure 456352DEST_PATH_IMAGE050
为:
Figure 581915DEST_PATH_IMAGE051
第二阶段的目标为最小化如下损失函数L
Figure 212748DEST_PATH_IMAGE052
进一步地,所述预测结果输出模块中,对于待规范的医疗术语节点
Figure 70982DEST_PATH_IMAGE053
,基于训练完 成的异构图神经网络计算
Figure 761858DEST_PATH_IMAGE053
与医疗术语知识图谱中其它医疗术语节点的相似度并排序,取 其中与
Figure 643226DEST_PATH_IMAGE053
相似度最大的医疗术语节点
Figure 874487DEST_PATH_IMAGE054
Figure 587228DEST_PATH_IMAGE055
对相似度设置阈值
Figure 449005DEST_PATH_IMAGE056
,若
Figure 83249DEST_PATH_IMAGE057
,则认为
Figure 180518DEST_PATH_IMAGE053
Figure 623131DEST_PATH_IMAGE054
的含义相同,即得到
Figure 452547DEST_PATH_IMAGE053
的规 范化结果;否则认为
Figure 308508DEST_PATH_IMAGE053
与医疗术语知识图谱中其它医疗术语节点的含义均不相同,
Figure 209468DEST_PATH_IMAGE053
有独 立的含义。
本发明另一方面公开了一种基于异构图神经网络的医疗术语规范化方法,包括以下步骤:
(1)对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
本发明的有益效果是:本发明对不同类型的医疗术语定义了统一的信息单元结构,实现了相对统一的结构化表示,因此在进行医疗术语规范化过程中能够更好地利用医疗领域的知识,充分学习同类医疗术语之间以及不同类医疗术语之间包含的信息单元的关联和差异。通过将所有医疗术语整合到知识图谱中,由统一的异构图神经网络实现了不同类型的医疗术语规范化工作,在提高医疗术语规范化工作效率的同时能够提高输出结果的完整性和统一性。
附图说明
图1为本发明实施例提供的基于异构图神经网络的医疗术语规范化系统结构图;
图2为本发明实施例提供的序列标注模型训练数据;
图3为本发明实施例提供的医疗术语知识图谱示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明中,医疗术语规范化指:结合医疗领域的知识和自然语言处理方法,分析真实临床环境中产生的各种医疗术语,识别出含义相同的医疗术语并区分含义不相同的医疗术语,使在一定范围内的医疗术语得到统一,以获得最佳秩序和社会效益的过程。建立统一的医疗术语标准及术语集有助于解决术语重复、内涵不清、语义表达和理解不一致等问题,对有效推动医学信息在更大范围和更深层次上的传播、共享和使用具有重要意义。
异构图神经网络指:传统的深度学习方法在线性和矩阵形状的数据上取得了巨大成功,但许多实际应用场景中的数据是图形结构的。近年来研究人员借鉴了卷积网络、循环网络的思想,定义和设计了用于处理图数据的图神经网络模型。普通的图神经网络针对节点和关系类型比较单一的图,仅使用图的临近节点信息即可获得良好的性能。而真实世界中的图数据通常节点和关系类型众多,差异较大,这种类型的图被称为异构图。在训练异构图神经网络的过程中,由于不同类型节点的内容包含的特征差别较大,信息维度不一,因此在使用图的临近节点信息的同时需要考虑节点的内容编码信息。
本发明实施例提供一种基于异构图神经网络的医疗术语规范化系统,如图1所示,该系统包括以下模块:
一、信息单元构建模块,包括:
(1)对每种类型的医疗术语定义关键的信息单元;医疗术语类型包括药物术语、疾病术语、手术术语、检验术语和检查术语,信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;
(2)利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
二、医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
三、异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;
所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级,经过的所有节点;
所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
四、预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
下面详细说明每个模块的实现过程:
一、信息单元构建模块
(1)定义医疗术语的信息单元。目前已有一些国际通用的医疗术语标准集,对特定的单一类别的医疗术语定义了关键维度的信息单元,然而不同类型的医疗术语标准集互相之间并没有建立信息单元之间的关联关系,导致过去的医疗术语规范化过程中利用的信息只能局限于单一类别的医疗术语内部,而忽略了大量有用的信息。本发明结合现有的国际通用的医疗术语标准集和实际临床过程中的专家知识,对各种类型的医疗术语统一定义了关键的信息单元,并且定义详细的一级信息单元和二级信息单元结构。目前本发明已经实现的医疗术语类型包括药物术语、疾病术语、手术术语、检验术语和检查术语,若后续需要对新类型的医疗术语做规范化,在对新类型的医疗术语定义信息单元之后可以方便地将其扩展到本发明的系统中。已经实现的医疗术语的信息单元具体定义如表3所示。
表3 医疗术语的信息单元
Figure 772167DEST_PATH_IMAGE058
(2)构建信息单元库。利用序列标注模型对医疗术语中的每个字符预测其属于每种信息单元的概率,从而识别出医疗术语中包含的所有信息单元,实现医疗术语的结构化表示。本实施例中使用的序列标注模型为BiLSTM-CRF模型,该模型首先通过BiLSTM网络来理解医疗术语上下文的信息,然后基于BiLSTM网络在医疗术语每个字符位置的输出值构造状态概率和转移概率矩阵,并构建CRF模型,在序列标注任务上取得了较好的效果。为序列标注模型构建训练数据的过程如图2所示,在作为训练数据的医疗术语上标注出每个信息单元的区间,同时也会标明非信息单元的字符,从而使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余的字符,避免向后续的异构图神经网络引入过多的噪声。
(3)需要特别注意表3中多种一级信息单元均包含数值和计量单位二级信息单元,而医疗术语中原始的数值和计量单位分布的跨度和稀疏性会比较大,从而增加异构图神经网络训练的难度。为了解决这一问题,首先对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算,其中基础单位包括:ml(毫升)、mg(毫克)、mm(毫米)、s(秒)、mol(物质的量)、u(单位)、iu(国际单位)、count(计数)、型、级、期,运算符号包括乘法和除法。一共产生90个规范化的计量单位。例如:原始计量单位是l(升),对应的数值为1,规范化后的计量单位是ml(毫升),对应的数值相应换算为1000。
二、医疗术语知识图谱模块
基于信息单元构建模块构建的信息单元库,构建包含多种类型医疗术语的知识图谱,如图3所示。其中包含两大类型的节点:圆形节点表示医疗术语节点,矩形节点表示信息单元节点,而每一大类型节点内部又包含多种细分种类的节点,例如医疗术语节点包含“药物术语”节点、“疾病术语”节点等,信息单元节点包含“药物剂量”节点、“数值”节点等。边包括两种关系:1)医疗术语和信息单元之间的包含关系;2)一级信息单元和二级信息单元之间的包含关系。一级信息单元和二级信息单元的划分范围对不同类型的医疗术语可能会发生变化,例如对于疾病术语,“疾病主体”是它的一级信息单元,而对于手术术语来说,“疾病主体”是一级信息单元“疾病性质”中包含的二级信息单元。
三、异构图神经网络模块
(1)异构图指的是节点和关系类型比较复杂的图,图3所示的医疗术语知识图谱就是一种异构图。普通的图神经网络针对节点和关系类型比较单一的图,只依靠图的临近节点信息即可获得良好的性能。而在训练异构图神经网络的过程中,由于不同类型节点的内容包含的特征差别较大,信息维度不一,因此需要同时考虑图的临近节点分布信息和节点内容编码信息。而在计算节点内容编码时,本发明针对不同类型的节点分别设计合适的计算方法。
(2)计算不同类型节点的内容编码。用
Figure 100380DEST_PATH_IMAGE059
表示图3中的医疗术语知识图谱中的所有 节点的集合,对于
Figure 136249DEST_PATH_IMAGE060
,记
Figure 575320DEST_PATH_IMAGE061
为其节点内容,
Figure 992526DEST_PATH_IMAGE062
为其内容编码,则不同类型节 点的内容编码的计算方式如下:
对于节点内容为数值型的节点
Figure 757220DEST_PATH_IMAGE063
,其内容编码为:
Figure 259877DEST_PATH_IMAGE064
其中
Figure 502639DEST_PATH_IMAGE061
为节点
Figure 39931DEST_PATH_IMAGE063
本身的数值;
Figure 709947DEST_PATH_IMAGE065
表示单位向量,随机初始化并通过异构图 神经网络训练得到;
对于节点内容为计量单位的节点
Figure 434320DEST_PATH_IMAGE063
,其节点内容是由基础单位和运算符号组成的 序列,设
Figure 480773DEST_PATH_IMAGE066
,其中
Figure 200468DEST_PATH_IMAGE067
为基础单位或运算符号,
Figure 713489DEST_PATH_IMAGE068
Figure 925158DEST_PATH_IMAGE063
的序列 长度,则内容编码为:
Figure 509723DEST_PATH_IMAGE069
其中
Figure 83924DEST_PATH_IMAGE070
为异构图神经网络训练得到的参数矩阵;
Figure 971109DEST_PATH_IMAGE071
为每种基础单位或运算符 号的语义向量,随机初始化并通过异构图神经网络训练得到;
Figure 60288DEST_PATH_IMAGE072
为向量拼接运算符;
对于节点内容为文本型的节点
Figure 55401DEST_PATH_IMAGE063
,使用预训练的语言模型计算
Figure 546425DEST_PATH_IMAGE063
的语义向量作为
Figure 604511DEST_PATH_IMAGE063
的初始化的内容编码,并通过后续的异构图神经网络继续训练内容编码。本实施例中使 用的预训练的语言模型为BERT模型,计算方式为:
Figure 915407DEST_PATH_IMAGE073
其中
Figure 717140DEST_PATH_IMAGE074
为BERT模型第
Figure 62671DEST_PATH_IMAGE075
层的隐藏状态,
Figure 291658DEST_PATH_IMAGE076
为第
Figure 89850DEST_PATH_IMAGE077
层的输入值:
Figure 695275DEST_PATH_IMAGE078
,其中
Figure 895312DEST_PATH_IMAGE079
Figure 560780DEST_PATH_IMAGE080
均为训 练得到的参数,
Figure 580688DEST_PATH_IMAGE081
Figure 989804DEST_PATH_IMAGE082
的维度,
Figure 309927DEST_PATH_IMAGE083
为BERT模型第k层的隐藏状态;若BERT模型一共有m层, 则节点
Figure 880717DEST_PATH_IMAGE063
的初始化的内容编码为
Figure 653501DEST_PATH_IMAGE084
,本实施例取m=12。
(3)在异构图神经网络中,基于医疗术语知识图谱中节点自身及其临近节点的内 容编码来计算每个节点的向量表示。对于医疗术语知识图谱中的节点
Figure 597798DEST_PATH_IMAGE085
,用
Figure 506849DEST_PATH_IMAGE086
表 示从
Figure 514119DEST_PATH_IMAGE063
出发的箭头直接指向的节点的集合,如果
Figure 508620DEST_PATH_IMAGE063
表示医疗术语节点,那么
Figure 259538DEST_PATH_IMAGE086
Figure 226357DEST_PATH_IMAGE063
的 一级信息单元集合,
Figure 201266DEST_PATH_IMAGE087
Figure 683063DEST_PATH_IMAGE063
的二级信息单元集合。定义
Figure 299989DEST_PATH_IMAGE063
的临近节点集合
Figure 58998DEST_PATH_IMAGE086
为:
Figure 532704DEST_PATH_IMAGE088
Figure 377164DEST_PATH_IMAGE063
的向量表示
Figure 594518DEST_PATH_IMAGE089
的计算方式为:
Figure 208034DEST_PATH_IMAGE090
其中
Figure 852641DEST_PATH_IMAGE091
为权重参数,代表节点
Figure 184397DEST_PATH_IMAGE092
对于节点
Figure 939863DEST_PATH_IMAGE063
的重要性,其中
Figure 670534DEST_PATH_IMAGE092
可以是
Figure 220464DEST_PATH_IMAGE063
自身或
Figure 39516DEST_PATH_IMAGE063
的临近节点,具体计算如下:
Figure 598673DEST_PATH_IMAGE093
其中
Figure 983518DEST_PATH_IMAGE094
Figure 579716DEST_PATH_IMAGE095
Figure 417222DEST_PATH_IMAGE096
为训练得到的矩阵参数,
Figure 514491DEST_PATH_IMAGE097
为 非线性激活函数,本实施例中取
Figure 957104DEST_PATH_IMAGE098
。由于节点之间相对的 重要性是不对称的,因此
Figure 114416DEST_PATH_IMAGE099
也是不对称的,即
Figure 642481DEST_PATH_IMAGE100
(4)异构图神经网络的训练。训练过程分为两个阶段:1)将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;2)将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度。
在训练过程的第一阶段,将可以训练的参数集合记为
Figure 215544DEST_PATH_IMAGE101
,则训练的目标是优化如下 目标函数:
Figure 637299DEST_PATH_IMAGE102
其中
Figure 837948DEST_PATH_IMAGE103
表示从节点
Figure 977943DEST_PATH_IMAGE063
预测其临近节点
Figure 292380DEST_PATH_IMAGE104
的概率。
在训练过程的第二阶段,任意两个医疗术语节点的相似度的计算公式为:
Figure 834220DEST_PATH_IMAGE105
其中
Figure 208701DEST_PATH_IMAGE063
Figure 835991DEST_PATH_IMAGE106
为医疗术语知识图谱中的医疗术语节点,
Figure 954120DEST_PATH_IMAGE107
Figure 22570DEST_PATH_IMAGE063
Figure 692586DEST_PATH_IMAGE106
相似度,Wb均为训练得到的参数。在医疗术语规范化训练数据中,设与医疗术语节点
Figure 682539DEST_PATH_IMAGE063
含义相同 的医疗术语节点集合为
Figure 728992DEST_PATH_IMAGE108
,与
Figure 855211DEST_PATH_IMAGE063
含义不相同的医疗术语节点集合为
Figure 696128DEST_PATH_IMAGE109
,则训练样本的标签
Figure 173377DEST_PATH_IMAGE110
为:
Figure 757942DEST_PATH_IMAGE111
第二阶段的目标为最小化如下损失函数
Figure 735738DEST_PATH_IMAGE112
Figure 747556DEST_PATH_IMAGE113
四、预测结果输出模块
对于待规范的医疗术语节点
Figure 977680DEST_PATH_IMAGE114
,基于训练完成的异构图神经网络计算
Figure 834778DEST_PATH_IMAGE115
与医疗术 语知识图谱中其它医疗术语节点的相似度并排序,取其中与
Figure 201168DEST_PATH_IMAGE115
相似度最大的医疗术语节点
Figure 649467DEST_PATH_IMAGE116
Figure 570150DEST_PATH_IMAGE117
对相似度设置阈值
Figure 496517DEST_PATH_IMAGE118
,若
Figure 717414DEST_PATH_IMAGE119
,则认为
Figure 71035DEST_PATH_IMAGE115
Figure 744593DEST_PATH_IMAGE116
的含义相同,即得到
Figure 474652DEST_PATH_IMAGE115
的规 范化结果;否则认为
Figure 550055DEST_PATH_IMAGE115
与医疗术语知识图谱中其它医疗术语节点的含义均不相同,
Figure 74577DEST_PATH_IMAGE115
有独 立的含义。本实施例中取
Figure 235431DEST_PATH_IMAGE120
例如在对药物术语“氯化钾针(大冢生产)10% 10毫升*1支”进行规范化时,计算它与其它药物术语节点的相似度如表4所示,则可知和它含义相同的药物术语节点为相似度最高的“氯化钾针10ml:1g大冢制药有限公司”。
表4 异构图神经网络计算医疗术语节点相似度
Figure 503602DEST_PATH_IMAGE121
本发明实施例还提供一种基于异构图神经网络的医疗术语规范化方法,该方法包括:
(1)对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;该步骤的实现参照信息单元构建模块。
(2)基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方。
(3)基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
该步骤的实现参照异构图神经网络模块。
(4)将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果;该步骤的实现参照预测结果输出模块。
本发明对多种医疗术语定义并识别其包含的信息单元,实现医疗术语的结构化表示。医疗术语的结构化表示的结果不仅能够提高医疗术语规范化的效果,同时也会极大地促进医疗信息化工作的各个方面;本发明基于医疗术语的信息单元构建了新型的针对医疗术语的知识图谱,能够有效地促进包括医疗术语规范化在内的各项医疗信息化工作;本发明针对医疗术语规范化工作构造了新型的异构图神经网络,由统一的模型实现不同类型医疗术语规范化,同时针对不同类型的信息单元分别实现了合适的内容编码方式,并且对异构图神经网络设计了分阶段的训练方式。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种基于异构图神经网络的医疗术语规范化系统,其特征在于,该系统包括:
(1)信息单元构建模块:对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
2.根据权利要求1所述的系统,其特征在于,所述医疗术语的类型包括药物术语、疾病术语、手术术语、检验术语和检查术语。
3.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,序列标注模型为BiLSTM-CRF模型;在作为训练数据的医疗术语上标注出每个信息单元的区间,同时标明非信息单元的字符,使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余字符。
4.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算。
5.根据权利要求1所述的系统,其特征在于,所述异构图神经网络模块中,用
Figure DEST_PATH_IMAGE001
表示医疗 术语知识图谱中的所有节点的集合,对于
Figure 568023DEST_PATH_IMAGE002
,记
Figure DEST_PATH_IMAGE003
为其节点内容,
Figure 743789DEST_PATH_IMAGE004
为其内 容编码;对于节点内容为数值型的节点
Figure DEST_PATH_IMAGE005
,其内容编码为:
Figure 731337DEST_PATH_IMAGE006
其中
Figure DEST_PATH_IMAGE007
为节点
Figure 17962DEST_PATH_IMAGE005
本身的数值;
Figure 610617DEST_PATH_IMAGE008
表示单位向量,随机初始化并通过异构图神经 网络训练得到;
对于节点内容为计量单位的节点
Figure 927591DEST_PATH_IMAGE005
,其节点内容是由基础单位和运算符号组成的序 列,设
Figure DEST_PATH_IMAGE009
,其中
Figure 402435DEST_PATH_IMAGE010
为基础单位或运算符号,
Figure DEST_PATH_IMAGE011
Figure 492750DEST_PATH_IMAGE005
的序列长 度,则内容编码为:
Figure 205491DEST_PATH_IMAGE012
其中
Figure 926323DEST_PATH_IMAGE013
为异构图神经网络训练得到的参数矩阵;
Figure DEST_PATH_IMAGE014
为每种基础单位或运算符号的 语义向量,随机初始化并通过异构图神经网络训练得到;
Figure 389927DEST_PATH_IMAGE015
为向量拼接运算符;
对于节点内容为文本型的节点
Figure 221617DEST_PATH_IMAGE005
,使用预训练的语言模型计算
Figure 54444DEST_PATH_IMAGE005
的语义向量作为
Figure 946177DEST_PATH_IMAGE005
的 初始化的内容编码,并通过后续的异构图神经网络继续训练内容编码。
6.根据权利要求5所述的系统,其特征在于,对于节点内容为文本型的节点
Figure 130033DEST_PATH_IMAGE005
,预训练 的语言模型采用BERT模型,计算方式为:
Figure DEST_PATH_IMAGE016
其中
Figure 562152DEST_PATH_IMAGE017
为BERT模型第
Figure DEST_PATH_IMAGE018
层的隐藏状态,
Figure 16529DEST_PATH_IMAGE019
为第
Figure DEST_PATH_IMAGE020
层的输入值:
Figure 875901DEST_PATH_IMAGE021
,其中
Figure DEST_PATH_IMAGE022
Figure 547053DEST_PATH_IMAGE023
均为训 练得到的参数,
Figure 251704DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
的维度,
Figure 357326DEST_PATH_IMAGE027
为BERT模型第k层的隐藏状态;若BERT模型一共有m层, 则节点
Figure 856440DEST_PATH_IMAGE005
的初始化的内容编码为
Figure DEST_PATH_IMAGE028
7.根据权利要求1所述的系统,其特征在于,所述异构图神经网络模块中,基于医疗术 语知识图谱中节点自身及其临近节点的内容编码来计算每个节点的向量表示;对于医疗术 语知识图谱中的节点
Figure 14889DEST_PATH_IMAGE029
,用
Figure DEST_PATH_IMAGE030
表示从
Figure 788810DEST_PATH_IMAGE005
出发的箭头直接指向的节点的集合,如果
Figure 185156DEST_PATH_IMAGE005
表示医疗术语节点,那么
Figure 855172DEST_PATH_IMAGE030
Figure 471223DEST_PATH_IMAGE005
的一级信息单元集合,
Figure 252098DEST_PATH_IMAGE031
Figure 768530DEST_PATH_IMAGE005
的二级 信息单元集合;定义
Figure 609447DEST_PATH_IMAGE005
的临近节点集合
Figure 211329DEST_PATH_IMAGE030
为:
Figure DEST_PATH_IMAGE032
Figure 327053DEST_PATH_IMAGE005
的向量表示
Figure 697991DEST_PATH_IMAGE033
的计算方式为:
Figure DEST_PATH_IMAGE034
其中
Figure 8012DEST_PATH_IMAGE035
为权重参数,具体计算如下:
Figure DEST_PATH_IMAGE036
其中
Figure 628349DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
Figure 282185DEST_PATH_IMAGE039
为训练得到的矩阵参数,
Figure DEST_PATH_IMAGE040
为非线 性激活函数。
8.根据权利要求1所述的系统,其特征在于,所述异构图神经网络模块中,训练的第一 个阶段,将可以训练的参数集合记为
Figure 817551DEST_PATH_IMAGE041
,则训练的目标是优化如下目标函数:
Figure DEST_PATH_IMAGE042
其中
Figure 265850DEST_PATH_IMAGE043
表示从节点
Figure 842325DEST_PATH_IMAGE005
预测其临近节点
Figure DEST_PATH_IMAGE044
的概率;
训练的第二个阶段,任意两个医疗术语节点的相似度的计算公式为:
Figure 299851DEST_PATH_IMAGE045
其中
Figure 379802DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE046
为医疗术语知识图谱中的医疗术语节点,
Figure 264582DEST_PATH_IMAGE047
Figure 564238DEST_PATH_IMAGE005
Figure 294297DEST_PATH_IMAGE046
的相似度,Wb均为训练得到的参数;
在医疗术语规范化训练数据中,设与医疗术语节点
Figure 228755DEST_PATH_IMAGE005
含义相同的医疗术语节点集合为
Figure DEST_PATH_IMAGE048
,与
Figure 550015DEST_PATH_IMAGE005
含义不相同的医疗术语节点集合为
Figure 835502DEST_PATH_IMAGE049
,则训练样本的标签
Figure DEST_PATH_IMAGE050
为:
Figure 634831DEST_PATH_IMAGE051
第二阶段的目标为最小化如下损失函数L
Figure DEST_PATH_IMAGE052
9.根据权利要求1所述的系统,其特征在于,所述预测结果输出模块中,对于待规范的 医疗术语节点
Figure 721998DEST_PATH_IMAGE053
,基于训练完成的异构图神经网络计算
Figure 683001DEST_PATH_IMAGE053
与医疗术语知识图谱中其它医 疗术语节点的相似度并排序,取其中与
Figure DEST_PATH_IMAGE054
相似度最大的医疗术语节点
Figure 721364DEST_PATH_IMAGE055
Figure DEST_PATH_IMAGE056
对相似度设置阈值
Figure 324384DEST_PATH_IMAGE057
,若
Figure DEST_PATH_IMAGE058
,则认为
Figure 531636DEST_PATH_IMAGE053
Figure 132382DEST_PATH_IMAGE055
的含义相同,即得到
Figure 392462DEST_PATH_IMAGE053
的规 范化结果;否则认为
Figure 2435DEST_PATH_IMAGE054
与医疗术语知识图谱中其它医疗术语节点的含义均不相同,
Figure 31571DEST_PATH_IMAGE053
有独 立的含义。
10.一种基于异构图神经网络的医疗术语规范化方法,其特征在于,包括以下步骤:
(1)对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
CN202111213727.4A 2021-10-19 2021-10-19 基于异构图神经网络的医疗术语规范化系统及方法 Active CN113656604B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111213727.4A CN113656604B (zh) 2021-10-19 2021-10-19 基于异构图神经网络的医疗术语规范化系统及方法
PCT/CN2022/116967 WO2023065858A1 (zh) 2021-10-19 2022-09-05 基于异构图神经网络的医疗术语规范化系统及方法
JP2023536585A JP7432802B2 (ja) 2021-10-19 2022-09-05 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111213727.4A CN113656604B (zh) 2021-10-19 2021-10-19 基于异构图神经网络的医疗术语规范化系统及方法

Publications (2)

Publication Number Publication Date
CN113656604A CN113656604A (zh) 2021-11-16
CN113656604B true CN113656604B (zh) 2022-02-22

Family

ID=78494655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111213727.4A Active CN113656604B (zh) 2021-10-19 2021-10-19 基于异构图神经网络的医疗术语规范化系统及方法

Country Status (3)

Country Link
JP (1) JP7432802B2 (zh)
CN (1) CN113656604B (zh)
WO (1) WO2023065858A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656604B (zh) * 2021-10-19 2022-02-22 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法
CN114496302A (zh) * 2021-12-29 2022-05-13 深圳云天励飞技术股份有限公司 药物适应症的预测方法及相关设备
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116312915B (zh) * 2023-05-19 2023-09-19 之江实验室 一种电子病历中药物术语标准化关联方法及系统
CN117009839B (zh) * 2023-09-28 2024-01-09 之江实验室 基于异构超图神经网络的患者聚类方法和装置
CN117497111B (zh) * 2023-12-25 2024-03-15 四川省医学科学院·四川省人民医院 一种基于深度学习实现疾病名称标准化分级的系统
CN117688974B (zh) * 2024-02-01 2024-04-26 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788213B2 (en) 2007-06-08 2010-08-31 International Business Machines Corporation System and method for a multiple disciplinary normalization of source for metadata integration with ETL processing layer of complex data across multiple claim engine sources in support of the creation of universal/enterprise healthcare claims record
WO2018209254A1 (en) * 2017-05-11 2018-11-15 Hubspot, Inc. Methods and systems for automated generation of personalized messages
EP3637435A1 (en) * 2018-10-12 2020-04-15 Fujitsu Limited Medical diagnostic aid and method
US11381651B2 (en) * 2019-05-29 2022-07-05 Adobe Inc. Interpretable user modeling from unstructured user data
CN110349639B (zh) * 2019-07-12 2022-01-04 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN112035451A (zh) 2020-08-25 2020-12-04 上海灵长软件科技有限公司 数据校验优化的处理方法、装置、电子设备与存储介质
CN112271001B (zh) * 2020-11-17 2022-08-16 中山大学 一种应用异构图神经网络的医疗咨询对话系统及方法
CN112542223A (zh) * 2020-12-21 2021-03-23 西南科技大学 一种从中文电子病历构建医疗知识图谱的半监督学习方法
CN113010685B (zh) * 2021-02-23 2022-12-06 安徽讯飞医疗股份有限公司 医学术语标准化方法、电子设备和存储介质
CN113191156A (zh) * 2021-04-29 2021-07-30 浙江禾连网络科技有限公司 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法
CN113377897B (zh) * 2021-05-27 2022-04-22 杭州莱迈医疗信息科技有限公司 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN113345545B (zh) 2021-07-28 2021-10-29 北京惠每云科技有限公司 临床数据的稽查方法、装置、电子设备及可读存储介质
CN113436698B (zh) 2021-08-27 2021-12-07 之江实验室 融合自监督和主动学习的医学术语自动标准化系统及方法
CN113656604B (zh) * 2021-10-19 2022-02-22 之江实验室 基于异构图神经网络的医疗术语规范化系统及方法

Also Published As

Publication number Publication date
JP2024500400A (ja) 2024-01-09
CN113656604A (zh) 2021-11-16
JP7432802B2 (ja) 2024-02-16
WO2023065858A1 (zh) 2023-04-27

Similar Documents

Publication Publication Date Title
CN113656604B (zh) 基于异构图神经网络的医疗术语规范化系统及方法
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
Dediu et al. Abstract profiles of structural stability point to universal tendencies, family-specific factors, and ancient connections between languages
CN106682397A (zh) 一种基于知识的电子病历质控方法
Dey et al. Representation of developer expertise in open source software
Sankaranarayanan et al. COVID-19 mortality prediction from deep learning in a large multistate electronic health record and laboratory information system data set: Algorithm development and validation
Liu et al. An explainable knowledge distillation method with XGBoost for ICU mortality prediction
Hassani et al. The science of statistics versus data science: What is the future?
Data et al. Mortality Prediction in the ICU
Shahin et al. Artificial intelligence: from buzzword to useful tool in clinical pharmacology
Atanasov et al. Human forest vs. random forest in time-sensitive Covid-19 clinical trial prediction
CN114386436B (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
Chen et al. Syntactic type-aware graph attention network for drug-drug interactions and their adverse effects extraction
Yu et al. The effect of mentee and mentor gender on scientific productivity of applicants for NIH training fellowships
Qi et al. Recurrence Prediction and Risk Classification of COPD Patients Based on Machine Learning.
CN110827966A (zh) 一种区域单病种监管系统
Riezler et al. Validity, Reliability, and Significance
Ciaperoni Efficient and trustworthy methods for knowledge discovery
Wang et al. A Model for Predicting Physical Health of College Students Based on Semantic Web and Deep Learning Under Cloud Edge Collaborative Architecture
An et al. Knowledge-Enhanced Difference-Aware Clinical Time Series Representation Learning for Diagnosis Prediction
Ma et al. Study on Contribution of Different Journal Evaluation Indicators to Impact Factor Based on Machine Learning
Kang et al. Scientific Networks
Skirgård Disentangling Ancestral State Reconstruction in historical linguistics: Comparing classic approaches and new methods using Oceanic grammar
Yang et al. Cautious explorers generate more future academic impact
CN115238700A (zh) 基于多任务学习的生物医学实体抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant