CN113656604B - 基于异构图神经网络的医疗术语规范化系统及方法 - Google Patents
基于异构图神经网络的医疗术语规范化系统及方法 Download PDFInfo
- Publication number
- CN113656604B CN113656604B CN202111213727.4A CN202111213727A CN113656604B CN 113656604 B CN113656604 B CN 113656604B CN 202111213727 A CN202111213727 A CN 202111213727A CN 113656604 B CN113656604 B CN 113656604B
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- medical term
- medical
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于异构图神经网络的医疗术语规范化系统及方法,首先对各种类型的医疗术语构建关键的信息单元,实现医疗术语的结构化表示,并基于信息单元构建包含各种类型医疗术语的知识图谱。基于此知识图谱构建包含各种类型医疗术语的异构图神经网络,在异构图神经网络的训练过程中综合考虑图的临近节点分布和节点内容编码,用于进行医疗术语规范化。本发明能够充分利用同类医疗术语的信息单元互相之间关联与差异的知识,同时容纳各种类型的医疗术语,能够全面学习医疗领域的知识,并且能够方便地将新类型的医疗术语增加到系统中,减少了新类型医疗术语规范化的工作量。
Description
技术领域
本发明属于中文医学术语标准化及多中心医学信息平台技术领域,尤其涉及一种基于异构图神经网络的医疗术语规范化系统及方法。
背景技术
医疗信息化进程中一个重要的研究方向就是将更高性能的机器学习和人工智能技术应用于解决实际的临床问题。人工智能技术的一个优点是可以从海量数据中发现复杂的规律和特征,因此综合利用多家医疗机构的医疗数据进行分析挖掘和模型设计,进而为医疗研究、临床决策工作提供支持成为医疗信息化的必然趋势。而由于不同医疗机构采用的信息标准众多,并且经常会人为地产出半结构化和非结构化的数据,导致整合利用不同来源的医疗数据变得异常困难。医疗术语是组成医疗数据的基础要素,建立完善的医疗术语规范化体系可以将不同来源的医疗数据对齐到统一的标准和结构,进而为临床决策和医疗研究工作提供更大规模和更高质量的数据。医疗术语主要包括临床操作过程中产生的药物、医学检查、疾病等类型的术语。不同类型的医疗术语会包含特定的关键维度的信息,我们将其定义为医疗术语的信息单元。例如,药物术语“5%葡萄糖注射液(基)500毫升”包含如表1所示的信息单元:
表1 药物术语信息单元示例
检查术语“左手指正侧位_X”包含如表2所示的信息单元:
表2 检查术语信息单元示例
某些信息单元由其它更细粒度的信息单元组成,分别将其定义为一级信息单元和二级信息单元,例如表1中药物术语包含一级信息单元“药物成分”、“药物剂型”、“药物剂量”和“药物规格”,其中“药物规格”信息单元由二级信息单元“数值”(500)和“计量单位”(毫升)组成。给定一组医疗术语的信息单元即可确定一条完整的医疗术语。
在实际临床操作中由于各医疗机构采用的信息标准差异和医护人员个人习惯差异等原因,会产生大量不规范的医疗术语,主要表现为关键信息单元的冗余或缺失、表达方式不规范、数量单位不统一等问题,例如下列药物术语的含义完全相同,但是形式上差异较大:“左氧氟沙星片(可乐必妥)500毫克”和“可乐必妥 0.5g/片”。医疗术语规范化的目标就是识别出含义完全相同但字面形式不同的医疗术语,以便统一它们的表达方式,同时区分出含义不同的医疗术语,最终促进医疗数据整体的规范化。
传统的医疗术语规范化方法是针对某个单一类别的医疗术语,通过机器学习或人工校验的方法来理解每条医疗术语的含义,标注出语义相同的医疗术语。这样的方法将每条医疗术语作为一个整体,忽略了医疗术语内部固有的信息单元的结构,主要的缺点是:(1)无法有效地利用信息单元互相之间关联与差异的知识。同一条医疗术语的不同维度的信息单元之间的关联和差异会包含丰富的医疗领域知识,而现有的做法没有显式地对这些知识进行结构化表示和利用;(2)不同类型的医疗术语会包含相同或有关联的信息单元,而过去的医疗术语规范化工作都是针对单一类别的医疗术语分别开发独立的系统,这样做一方面工作量过大,另一方面也无法综合利用不同类型医疗术语的信息单元中的知识;(3)会将多余的信息纳入考虑范围。由于表达不规范等原因,大多数医疗术语除了关键的信息单元之外,还会包含一些多余的字符,这些字符与医疗术语整体的含义几乎没有关联,而且作为噪声会使医疗术语的含义产生偏差。
发明内容
本发明的目的在于针对目前医疗术语规范化方法的缺点,基于医疗术语自身的特性,提出一种基于异构图神经网络的医疗术语规范化系统及方法。本发明对所有医疗术语构建新型的基于信息单元的知识图谱,并在知识图谱的基础上通过改进的异构图神经网络进行医疗术语的规范化,有效利用医疗术语信息单元中的知识,获取更准确的医疗术语规范化结果。
本发明的目的是通过以下技术方案来实现的:本发明为了在医疗术语规范化的过程中充分利用医疗术语自身蕴含的医疗领域知识,首先对各种类型的医疗术语构建关键的信息单元,实现医疗术语的结构化表示,并基于信息单元构建包含各种类型医疗术语的知识图谱。基于此知识图谱构建包含各种类型医疗术语的异构图神经网络,在异构图神经网络的训练过程中综合考虑图的临近节点分布和节点内容编码,用于进行医疗术语规范化。通过这种方法,本发明能够充分利用同类医疗术语的信息单元互相之间关联与差异的知识,同时在系统中容纳各种类型的医疗术语,能够全面学习医疗领域的知识,并且能够方便地将新类型的医疗术语增加到系统中,减少了新类型医疗术语规范化的工作量。在对医疗术语提取信息单元的过程中会丢弃多余的字符和信息,避免引入过多的噪声和误差。
本发明一方面公开了一种基于异构图神经网络的医疗术语规范化系统,包括:
(1)信息单元构建模块:对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
进一步地,所述医疗术语的类型包括药物术语、疾病术语、手术术语、检验术语和检查术语。
进一步地,所述信息单元构建模块中,序列标注模型为BiLSTM-CRF模型;在作为训练数据的医疗术语上标注出每个信息单元的区间,同时标明非信息单元的字符,使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余字符。
进一步地,所述信息单元构建模块中,对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算。
进一步地,所述异构图神经网络模块中,基于医疗术语知识图谱中节点自身及其
临近节点的内容编码来计算每个节点的向量表示;对于医疗术语知识图谱中的节点
,用表示从出发的箭头直接指向的节点的集合,如果表示医疗术语节点,那么为的一级信息单元集合,为的二级信息单元集合;定义的临
近节点集合为:
训练的第二个阶段,任意两个医疗术语节点的相似度的计算公式为:
第二阶段的目标为最小化如下损失函数L:
本发明另一方面公开了一种基于异构图神经网络的医疗术语规范化方法,包括以下步骤:
(1)对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
本发明的有益效果是:本发明对不同类型的医疗术语定义了统一的信息单元结构,实现了相对统一的结构化表示,因此在进行医疗术语规范化过程中能够更好地利用医疗领域的知识,充分学习同类医疗术语之间以及不同类医疗术语之间包含的信息单元的关联和差异。通过将所有医疗术语整合到知识图谱中,由统一的异构图神经网络实现了不同类型的医疗术语规范化工作,在提高医疗术语规范化工作效率的同时能够提高输出结果的完整性和统一性。
附图说明
图1为本发明实施例提供的基于异构图神经网络的医疗术语规范化系统结构图;
图2为本发明实施例提供的序列标注模型训练数据;
图3为本发明实施例提供的医疗术语知识图谱示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明中,医疗术语规范化指:结合医疗领域的知识和自然语言处理方法,分析真实临床环境中产生的各种医疗术语,识别出含义相同的医疗术语并区分含义不相同的医疗术语,使在一定范围内的医疗术语得到统一,以获得最佳秩序和社会效益的过程。建立统一的医疗术语标准及术语集有助于解决术语重复、内涵不清、语义表达和理解不一致等问题,对有效推动医学信息在更大范围和更深层次上的传播、共享和使用具有重要意义。
异构图神经网络指:传统的深度学习方法在线性和矩阵形状的数据上取得了巨大成功,但许多实际应用场景中的数据是图形结构的。近年来研究人员借鉴了卷积网络、循环网络的思想,定义和设计了用于处理图数据的图神经网络模型。普通的图神经网络针对节点和关系类型比较单一的图,仅使用图的临近节点信息即可获得良好的性能。而真实世界中的图数据通常节点和关系类型众多,差异较大,这种类型的图被称为异构图。在训练异构图神经网络的过程中,由于不同类型节点的内容包含的特征差别较大,信息维度不一,因此在使用图的临近节点信息的同时需要考虑节点的内容编码信息。
本发明实施例提供一种基于异构图神经网络的医疗术语规范化系统,如图1所示,该系统包括以下模块:
一、信息单元构建模块,包括:
(1)对每种类型的医疗术语定义关键的信息单元;医疗术语类型包括药物术语、疾病术语、手术术语、检验术语和检查术语,信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;
(2)利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
二、医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
三、异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;
所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级,经过的所有节点;
所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
四、预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
下面详细说明每个模块的实现过程:
一、信息单元构建模块
(1)定义医疗术语的信息单元。目前已有一些国际通用的医疗术语标准集,对特定的单一类别的医疗术语定义了关键维度的信息单元,然而不同类型的医疗术语标准集互相之间并没有建立信息单元之间的关联关系,导致过去的医疗术语规范化过程中利用的信息只能局限于单一类别的医疗术语内部,而忽略了大量有用的信息。本发明结合现有的国际通用的医疗术语标准集和实际临床过程中的专家知识,对各种类型的医疗术语统一定义了关键的信息单元,并且定义详细的一级信息单元和二级信息单元结构。目前本发明已经实现的医疗术语类型包括药物术语、疾病术语、手术术语、检验术语和检查术语,若后续需要对新类型的医疗术语做规范化,在对新类型的医疗术语定义信息单元之后可以方便地将其扩展到本发明的系统中。已经实现的医疗术语的信息单元具体定义如表3所示。
表3 医疗术语的信息单元
(2)构建信息单元库。利用序列标注模型对医疗术语中的每个字符预测其属于每种信息单元的概率,从而识别出医疗术语中包含的所有信息单元,实现医疗术语的结构化表示。本实施例中使用的序列标注模型为BiLSTM-CRF模型,该模型首先通过BiLSTM网络来理解医疗术语上下文的信息,然后基于BiLSTM网络在医疗术语每个字符位置的输出值构造状态概率和转移概率矩阵,并构建CRF模型,在序列标注任务上取得了较好的效果。为序列标注模型构建训练数据的过程如图2所示,在作为训练数据的医疗术语上标注出每个信息单元的区间,同时也会标明非信息单元的字符,从而使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余的字符,避免向后续的异构图神经网络引入过多的噪声。
(3)需要特别注意表3中多种一级信息单元均包含数值和计量单位二级信息单元,而医疗术语中原始的数值和计量单位分布的跨度和稀疏性会比较大,从而增加异构图神经网络训练的难度。为了解决这一问题,首先对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算,其中基础单位包括:ml(毫升)、mg(毫克)、mm(毫米)、s(秒)、mol(物质的量)、u(单位)、iu(国际单位)、count(计数)、型、级、期,运算符号包括乘法和除法。一共产生90个规范化的计量单位。例如:原始计量单位是l(升),对应的数值为1,规范化后的计量单位是ml(毫升),对应的数值相应换算为1000。
二、医疗术语知识图谱模块
基于信息单元构建模块构建的信息单元库,构建包含多种类型医疗术语的知识图谱,如图3所示。其中包含两大类型的节点:圆形节点表示医疗术语节点,矩形节点表示信息单元节点,而每一大类型节点内部又包含多种细分种类的节点,例如医疗术语节点包含“药物术语”节点、“疾病术语”节点等,信息单元节点包含“药物剂量”节点、“数值”节点等。边包括两种关系:1)医疗术语和信息单元之间的包含关系;2)一级信息单元和二级信息单元之间的包含关系。一级信息单元和二级信息单元的划分范围对不同类型的医疗术语可能会发生变化,例如对于疾病术语,“疾病主体”是它的一级信息单元,而对于手术术语来说,“疾病主体”是一级信息单元“疾病性质”中包含的二级信息单元。
三、异构图神经网络模块
(1)异构图指的是节点和关系类型比较复杂的图,图3所示的医疗术语知识图谱就是一种异构图。普通的图神经网络针对节点和关系类型比较单一的图,只依靠图的临近节点信息即可获得良好的性能。而在训练异构图神经网络的过程中,由于不同类型节点的内容包含的特征差别较大,信息维度不一,因此需要同时考虑图的临近节点分布信息和节点内容编码信息。而在计算节点内容编码时,本发明针对不同类型的节点分别设计合适的计算方法。
(3)在异构图神经网络中,基于医疗术语知识图谱中节点自身及其临近节点的内
容编码来计算每个节点的向量表示。对于医疗术语知识图谱中的节点,用表
示从出发的箭头直接指向的节点的集合,如果表示医疗术语节点,那么为的
一级信息单元集合,为的二级信息单元集合。定义的临近节点集合为:
(4)异构图神经网络的训练。训练过程分为两个阶段:1)将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;2)将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度。
在训练过程的第二阶段,任意两个医疗术语节点的相似度的计算公式为:
其中和为医疗术语知识图谱中的医疗术语节点,为和相似度,W和b均为训练得到的参数。在医疗术语规范化训练数据中,设与医疗术语节点含义相同
的医疗术语节点集合为,与含义不相同的医疗术语节点集合为,则训练样本的标签为:
四、预测结果输出模块
例如在对药物术语“氯化钾针(大冢生产)10% 10毫升*1支”进行规范化时,计算它与其它药物术语节点的相似度如表4所示,则可知和它含义相同的药物术语节点为相似度最高的“氯化钾针10ml:1g大冢制药有限公司”。
表4 异构图神经网络计算医疗术语节点相似度
本发明实施例还提供一种基于异构图神经网络的医疗术语规范化方法,该方法包括:
(1)对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;该步骤的实现参照信息单元构建模块。
(2)基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方。
(3)基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
该步骤的实现参照异构图神经网络模块。
(4)将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果;该步骤的实现参照预测结果输出模块。
本发明对多种医疗术语定义并识别其包含的信息单元,实现医疗术语的结构化表示。医疗术语的结构化表示的结果不仅能够提高医疗术语规范化的效果,同时也会极大地促进医疗信息化工作的各个方面;本发明基于医疗术语的信息单元构建了新型的针对医疗术语的知识图谱,能够有效地促进包括医疗术语规范化在内的各项医疗信息化工作;本发明针对医疗术语规范化工作构造了新型的异构图神经网络,由统一的模型实现不同类型医疗术语规范化,同时针对不同类型的信息单元分别实现了合适的内容编码方式,并且对异构图神经网络设计了分阶段的训练方式。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于异构图神经网络的医疗术语规范化系统,其特征在于,该系统包括:
(1)信息单元构建模块:对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)医疗术语知识图谱模块:基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)异构图神经网络模块:基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)预测结果输出模块:将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
2.根据权利要求1所述的系统,其特征在于,所述医疗术语的类型包括药物术语、疾病术语、手术术语、检验术语和检查术语。
3.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,序列标注模型为BiLSTM-CRF模型;在作为训练数据的医疗术语上标注出每个信息单元的区间,同时标明非信息单元的字符,使得序列标注模型能够丢弃对医疗术语整体含义无影响的多余字符。
4.根据权利要求1所述的系统,其特征在于,所述信息单元构建模块中,对数值和计量单位做初步的规范化,将原始计量单位规范化为单个基础单位或多个基础单位通过不同的运算符号组合在一起,并且对数值做相应换算。
10.一种基于异构图神经网络的医疗术语规范化方法,其特征在于,包括以下步骤:
(1)对每种类型的医疗术语定义关键的信息单元;所述信息单元包括一级信息单元和二级信息单元,以及两级信息单元之间的包含关系;利用序列标注模型对所有医疗术语在字符级别上识别其中包含的信息单元,构建信息单元库;
(2)基于医疗术语和信息单元的关系,构建医疗术语知识图谱,知识图谱的节点包括医疗术语节点和信息单元节点,边为有向边,边包括两种关系:医疗术语和信息单元之间的包含关系、一级信息单元和二级信息单元之间的包含关系,边的方向为从包含方指向被包含方;
(3)基于医疗术语知识图谱的临近节点分布和节点内容编码,训练异构图神经网络;所述临近节点为从一个节点出发,沿医疗术语知识图谱边的方向跳转两级经过的所有节点;所述节点内容编码具体为:
对于节点内容为数值型的节点,其内容编码等于节点本身的数值与异构图神经网络训练得到的单位向量的乘积;
对于节点内容为计量单位的节点,其内容编码的计算过程为:通过异构图神经网络训练得到每种基础单位和运算符号的语义向量,将该节点包含的所有基础单位和运算符号的语义向量拼接后,经过非线性转换得到内容编码;
对于节点内容为文本型的节点,其内容编码通过预训练的语言模型得到;
训练的第一个阶段:将临近节点分布和节点内容编码作为输入,训练的目标是最大化每个节点的临近节点对它的条件概率,得到每个节点的向量表示;
训练的第二个阶段:将节点的向量表示作为输入,计算任意两个医疗术语节点的相似度,训练的目标是最大化含义相同的医疗术语节点的相似度;
(4)将待规范的医疗术语节点输入训练好的异构图神经网络中,得到待规范的医疗术语节点与医疗术语知识图谱中其它医疗术语节点的相似度排序,输出医疗术语规范化结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213727.4A CN113656604B (zh) | 2021-10-19 | 2021-10-19 | 基于异构图神经网络的医疗术语规范化系统及方法 |
PCT/CN2022/116967 WO2023065858A1 (zh) | 2021-10-19 | 2022-09-05 | 基于异构图神经网络的医疗术语规范化系统及方法 |
JP2023536585A JP7432802B2 (ja) | 2021-10-19 | 2022-09-05 | 異種グラフニューラルネットワークに基づく医療用語正規化システム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111213727.4A CN113656604B (zh) | 2021-10-19 | 2021-10-19 | 基于异构图神经网络的医疗术语规范化系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656604A CN113656604A (zh) | 2021-11-16 |
CN113656604B true CN113656604B (zh) | 2022-02-22 |
Family
ID=78494655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111213727.4A Active CN113656604B (zh) | 2021-10-19 | 2021-10-19 | 基于异构图神经网络的医疗术语规范化系统及方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7432802B2 (zh) |
CN (1) | CN113656604B (zh) |
WO (1) | WO2023065858A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656604B (zh) * | 2021-10-19 | 2022-02-22 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
CN114496302A (zh) * | 2021-12-29 | 2022-05-13 | 深圳云天励飞技术股份有限公司 | 药物适应症的预测方法及相关设备 |
CN114003791B (zh) * | 2021-12-30 | 2022-04-08 | 之江实验室 | 基于深度图匹配的医疗数据元自动化分类方法及系统 |
CN116386895B (zh) * | 2023-04-06 | 2023-11-28 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116312915B (zh) * | 2023-05-19 | 2023-09-19 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN117009839B (zh) * | 2023-09-28 | 2024-01-09 | 之江实验室 | 基于异构超图神经网络的患者聚类方法和装置 |
CN117497111B (zh) * | 2023-12-25 | 2024-03-15 | 四川省医学科学院·四川省人民医院 | 一种基于深度学习实现疾病名称标准化分级的系统 |
CN117688974B (zh) * | 2024-02-01 | 2024-04-26 | 中国人民解放军总医院 | 基于知识图谱的生成式大模型建模方法、系统及设备 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7788213B2 (en) | 2007-06-08 | 2010-08-31 | International Business Machines Corporation | System and method for a multiple disciplinary normalization of source for metadata integration with ETL processing layer of complex data across multiple claim engine sources in support of the creation of universal/enterprise healthcare claims record |
WO2018209254A1 (en) * | 2017-05-11 | 2018-11-15 | Hubspot, Inc. | Methods and systems for automated generation of personalized messages |
EP3637435A1 (en) * | 2018-10-12 | 2020-04-15 | Fujitsu Limited | Medical diagnostic aid and method |
US11381651B2 (en) * | 2019-05-29 | 2022-07-05 | Adobe Inc. | Interpretable user modeling from unstructured user data |
CN110349639B (zh) * | 2019-07-12 | 2022-01-04 | 之江实验室 | 一种基于通用医疗术语库的多中心医疗术语标准化系统 |
CN111400560A (zh) * | 2020-03-10 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种基于异构图神经网络模型进行预测的方法和系统 |
CN112035451A (zh) | 2020-08-25 | 2020-12-04 | 上海灵长软件科技有限公司 | 数据校验优化的处理方法、装置、电子设备与存储介质 |
CN112271001B (zh) * | 2020-11-17 | 2022-08-16 | 中山大学 | 一种应用异构图神经网络的医疗咨询对话系统及方法 |
CN112542223A (zh) * | 2020-12-21 | 2021-03-23 | 西南科技大学 | 一种从中文电子病历构建医疗知识图谱的半监督学习方法 |
CN113010685B (zh) * | 2021-02-23 | 2022-12-06 | 安徽讯飞医疗股份有限公司 | 医学术语标准化方法、电子设备和存储介质 |
CN113191156A (zh) * | 2021-04-29 | 2021-07-30 | 浙江禾连网络科技有限公司 | 一种基于医学知识图谱与预训练模型的医学检查项目标准化的系统与方法 |
CN113377897B (zh) * | 2021-05-27 | 2022-04-22 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN113345545B (zh) | 2021-07-28 | 2021-10-29 | 北京惠每云科技有限公司 | 临床数据的稽查方法、装置、电子设备及可读存储介质 |
CN113436698B (zh) | 2021-08-27 | 2021-12-07 | 之江实验室 | 融合自监督和主动学习的医学术语自动标准化系统及方法 |
CN113656604B (zh) * | 2021-10-19 | 2022-02-22 | 之江实验室 | 基于异构图神经网络的医疗术语规范化系统及方法 |
-
2021
- 2021-10-19 CN CN202111213727.4A patent/CN113656604B/zh active Active
-
2022
- 2022-09-05 WO PCT/CN2022/116967 patent/WO2023065858A1/zh active Application Filing
- 2022-09-05 JP JP2023536585A patent/JP7432802B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2024500400A (ja) | 2024-01-09 |
CN113656604A (zh) | 2021-11-16 |
JP7432802B2 (ja) | 2024-02-16 |
WO2023065858A1 (zh) | 2023-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113656604B (zh) | 基于异构图神经网络的医疗术语规范化系统及方法 | |
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
Dediu et al. | Abstract profiles of structural stability point to universal tendencies, family-specific factors, and ancient connections between languages | |
CN106682397A (zh) | 一种基于知识的电子病历质控方法 | |
Dey et al. | Representation of developer expertise in open source software | |
Sankaranarayanan et al. | COVID-19 mortality prediction from deep learning in a large multistate electronic health record and laboratory information system data set: Algorithm development and validation | |
Liu et al. | An explainable knowledge distillation method with XGBoost for ICU mortality prediction | |
Hassani et al. | The science of statistics versus data science: What is the future? | |
Data et al. | Mortality Prediction in the ICU | |
Shahin et al. | Artificial intelligence: from buzzword to useful tool in clinical pharmacology | |
Atanasov et al. | Human forest vs. random forest in time-sensitive Covid-19 clinical trial prediction | |
CN114386436B (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
Chen et al. | Syntactic type-aware graph attention network for drug-drug interactions and their adverse effects extraction | |
Yu et al. | The effect of mentee and mentor gender on scientific productivity of applicants for NIH training fellowships | |
Qi et al. | Recurrence Prediction and Risk Classification of COPD Patients Based on Machine Learning. | |
CN110827966A (zh) | 一种区域单病种监管系统 | |
Riezler et al. | Validity, Reliability, and Significance | |
Ciaperoni | Efficient and trustworthy methods for knowledge discovery | |
Wang et al. | A Model for Predicting Physical Health of College Students Based on Semantic Web and Deep Learning Under Cloud Edge Collaborative Architecture | |
An et al. | Knowledge-Enhanced Difference-Aware Clinical Time Series Representation Learning for Diagnosis Prediction | |
Ma et al. | Study on Contribution of Different Journal Evaluation Indicators to Impact Factor Based on Machine Learning | |
Kang et al. | Scientific Networks | |
Skirgård | Disentangling Ancestral State Reconstruction in historical linguistics: Comparing classic approaches and new methods using Oceanic grammar | |
Yang et al. | Cautious explorers generate more future academic impact | |
CN115238700A (zh) | 基于多任务学习的生物医学实体抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |