CN111382272B - 一种基于知识图谱的电子病历icd自动编码方法 - Google Patents

一种基于知识图谱的电子病历icd自动编码方法 Download PDF

Info

Publication number
CN111382272B
CN111382272B CN202010156828.1A CN202010156828A CN111382272B CN 111382272 B CN111382272 B CN 111382272B CN 202010156828 A CN202010156828 A CN 202010156828A CN 111382272 B CN111382272 B CN 111382272B
Authority
CN
China
Prior art keywords
vector
icd
medical record
electronic medical
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010156828.1A
Other languages
English (en)
Other versions
CN111382272A (zh
Inventor
滕飞
杨维
陈俐
黄路非
李暄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202010156828.1A priority Critical patent/CN111382272B/zh
Publication of CN111382272A publication Critical patent/CN111382272A/zh
Application granted granted Critical
Publication of CN111382272B publication Critical patent/CN111382272B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于知识图谱的电子病历ICD自动编码方法,涉及自然语言处理技术领域,其将电子病历字符序列中的字符映射为d维的字符嵌入矩阵,采用向量表示方法将电子病历字符序列X向量化,采用CNN网络从输入特征向量中学习到文本语义信息;构建临床医学知识图谱,采用图嵌入表示方法,根据临床医学知识图谱和ICD编码信息得到图嵌入表示Yg;采用注意力机制,根据上层序列向量H和图嵌入表示Yg计算得到高级别序列向量V;对高级别序列向量V进行标签判定,得到预测标签,使用正确标签和预测标签的二元交叉熵作为目标函数,完成电子病历ICD自动编码。本发明能减少研究时间和匹配错误,可以吸纳医生经验,能够仅提取局部有用信息。

Description

一种基于知识图谱的电子病历ICD自动编码方法
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种基于知识图谱的电子病历ICD自动编码方法。
背景技术
国际疾病分类(ICD),是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,令疾病成为一个有序的树状组合。通用的疾病分类使得病案信息共享成为可能。随着医疗信息化的快速发展和编码人员的紧缺,为每份电子病历快速准确分配ICD编码成为了当前的研究任务。ICD编码不仅能够统一规范疾病名称,并且能够反映国家卫生状况。同时,疾病分类也是医保付费的重要依据。
传统的ICD编码方法主要是基于字符串匹配的方法与基于字词特征的机器学习方法。其中,基于字符串的方法首先根据各地运行的疾病分类版本和扩充的疾病别名,人工总结归纳出相应的疾病分类库,然后通过字符串匹配的方法进行ICD编码。基于机器学习的方法,首先人工提取病历数据的字词特征,然后将特征转换为数值型特征向量;对特征向量进行选择后用机器学习方法训练。但是,基于字符串匹配的方式仅仅使用医生手写诊断名称与疾病分类名称匹配,医生习惯的差异与疾病分类库的缺失难以保证做到正确分类。而机器学习方法需要人工构建特征,并且病历数据一般为超长的自由文本,只根据字词特征会忽视了上下文语义关系。在自然语言处理领域,各类神经网络模型能够自动捕捉语义特征而不需手工抽取,同时知识图谱也为海量的文本数据表达、组织、管理以及利用提供了一种更为有效的方式。通过对现有的专利及相关技术的检索发现,现有的ICD编码方法采用递归神经网络对病案首页与ICD编码构建预测深度学习模型;利用患者的电子病历、缴费记录以及ICD疾病知识库对预测深度学习模型进行扩展训练构建深度学习模型。除此之外,一些研究人员利用注意力机制增强文本表示,对病案首页的主要诊断进行自动ICD编码。
虽然现存的基于深度学习的ICD编码方法可以在一定程度上避免对手工特征的依赖,但它们都忽略了ICD编码是建立在临床经验知识的基础上,同时只利用主要诊断进行编码无法解决编码过程中存在一对多的问题。对于ICD编码任务,虽然循环神经网络可以学习到文本的长期依赖性,但是对于电子病历这种超长文本,尽管提供了潜在的有效信息,但还存在大量无关的噪声数据,导致ICD自动编码误码率高。
发明内容
为了电子病历语句过长、自动编码过程缺乏临床经验等现象导致的ICD自动编码误码率高的问题,同时避免对手工特征的依赖,本发明提出了一种基于知识图谱的电子病历ICD自动编码方法。
本发明采取的技术方案如下:
本发明提供了一种基于知识图谱的电子病历ICD自动编码方法,包括以下步骤:
S1、根据电子病历得到电子病历字符序列X,将电子病历字符序列X中的字符映射为d维的字符嵌入矩阵W;
S2、根据字符嵌入矩阵W,采用向量表示方法将电子病历字符序列X向量化,得到输入特征向量X*
S3、采用CNN网络从输入特征向量X*中学习到文本语义信息,得到上层序列向量H;
S4、构建临床医学知识图谱,采用图嵌入表示方法,根据临床医学知识图谱和ICD编码信息得到图嵌入表示Yg
S5、采用注意力机制,根据上层序列向量H和图嵌入表示Yg计算得到高级别序列向量V;
S6、对高级别序列向量V进行标签判定,得到预测标签,使用正确标签和预测标签的二元交叉熵作为目标函数,完成电子病历ICD自动编码。
进一步地,所述步骤S1的具体方法为:
令n为电子病历字符表中不同的字符数量,对电子病历字符表中的每一个字符随机初始化d维向量,得到字符嵌入矩阵W:
Figure BDA0002404363670000021
其中,每一个行向量代表一个唯一字符。
更进一步地,所述步骤S2的具体方法为:
将电子病历字符序列X中每个字符均转换成低维实值向量,且均由字符嵌入矩阵W中属于Rn×d的一个向量编码表示,其中d是字符向量的维度,n是固定大小的输入字符表;
电子病历字符序列X经向量表示后,获得输入特征向量
Figure BDA0002404363670000031
其中k表示序列字符的数量。
更进一步地,所述步骤S3的具体方法为:
采用CNN网络通过卷积操作(*)从输入特征向量X*中学习到文本语义信息特征H*,计算公式为:
H*=g(Wc*x* i:i+f-1+bc) i∈[1,2,...,n-f+1] (2)
其中*代表卷积操作,Wc为需要学习的权重矩阵,f表示卷积核的大小,bc表示偏置向量;
对文本语义信息特征H*进行maxpooling操作,扩大句子的感受野,继而得到上层序列向量H={h1,h2,h3,...,hk}。
更进一步地,所述步骤S4中,临床医学知识图谱的构建方法是:在医学资源文库中进行数据爬取,将爬取到的数据进行预处理后,利用医学实体与预处理后的数据之间的关系组成RDF三元组,所有的三元组即为最终的临床医学知识图谱。
更进一步地,所述医学资源文库包括疾病百科和CMKD;所述医学实体包括疾病、症状、药品、部位和科室。
更进一步地,所述步骤S4的具体方法为:
S41、对临床医学知识图谱中实体节点随机初始化后的向量N进行优化,得到实体节点的表示;
S42、令1阶相似度衡量相邻的两个实体节点之间相似性,令2阶相似度衡量两个实体节点的邻居集合的相似程度;采用1阶相似度对相邻实体节点进行优化,使临床医学知识图谱中相邻的两个实体节点对应的嵌入向量在隐藏空间接近,计算公式如下:
Figure BDA0002404363670000032
其中,ym与yj分别代表临床医学知识图谱中不重复的两个实体节点;nd代表临床医学知识图谱中总的实体节点数量;
采用2阶相似度对具有相似结构的实体节点进行优化,使用实体节点的邻接矩阵进行输入,使得结构相似实体节点具有相似的表示向量,sj包含了实体节点yj的邻居节点信息,计算公式如下:
Figure BDA0002404363670000041
根据公式(5)得到图嵌入表示的总优化目标:
l=L1st+αL2st+βLreg (5)
其中,α和β代表权重参数,Lreg代表正则化项;
S43、根据公式(3)、(4)、(5)计算得到临床医学知识图谱嵌入矩阵G,通过完全匹配或者部分匹配方式与ICD编码信息互联,得到图嵌入表示Yg∈Rl×dg,其中,l表示ICD标签个数,dg表示图嵌入维度。
更进一步地,所述步骤S5的具体方法为:
根据上层序列向量H={h1,h2,h3,...,hk}和图嵌入表示
Figure BDA0002404363670000042
获得高级别序列向量V:
A=SoftMax(HTWgYg) (6)
V=AH (7)
其中,Wg表示模型注意力层的权重矩阵,矩阵A中的每一个向量t表示第t个字符所对应的权重向量,SoftMax(x)=exp(xt)/∑texp(xt);
经过注意力操作后得到高级别序列向量
Figure BDA0002404363670000043
更进一步地,所述步骤S6的具体方法为:
构建l个节点组成的全连接层,从高级别序列向量V中获取sigmoid分类器,l对应ICD标签的数量,通过sigmoid分类器获得每个ICD编码的预测概率,并根据公式(8)获得预测标签
Figure BDA0002404363670000044
Figure BDA0002404363670000045
其中,σ(x)=1/exp(-x),Wo表示全连接层的权重参数;
使用正确标签和预测标签的二元交叉熵作为目标函数:
Figure BDA0002404363670000051
其中,θ代表所有训练参数,Yr∈{0,1}表示第r个ICD编码的真实结果值;
Figure BDA0002404363670000052
是预测为第r个ICD编码的概率。
与现有技术相比,本发明具有以下有益效果:
1)能够自动抽取特征,不依赖手工特征,不完全依赖于医生手写疾病,减少研究时间,减少匹配错误;
2)通过临床医学知识图谱,可以吸纳医生经验,解决自动编码过程缺乏临床经验的问题;
3)采用CNN模型和maxpooling操作,能够排除病历文本中的大量无关信息,提取局部有用信息;
4)采用注意力机制能够进一步提取与ICD信息关系密切的文本。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是实施例中所述基于知识图谱的电子病历ICD自动编码方法流程图;
图2是实施例中ICD自动编码框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参照图1和图2,本实施例提供了一种基于知识图谱的电子病历ICD自动编码方法,包括以下步骤:
S1、根据电子病历得到电子病历字符序列X,将电子病历字符序列X中的字符映射为d维的字符嵌入矩阵W。
在本实施例中,将电子病历中所有的字符经过数据预处理提取出来然后去重形成电子病历字符序列X,手工设定需要的字符嵌入维度d;同时为了广泛适应输入字符,设置未识别字符UNK代替所有未在电子病历字符序列X中的字符。
在本实施例中,令n为电子病历字符表中不同的字符数量,对电子病历字符表中的每一个字符随机初始化d维向量,得到字符嵌入矩阵W:
Figure BDA0002404363670000061
其中,每一个行向量代表一个唯一字符。
S2、根据字符嵌入矩阵W,采用向量表示方法将电子病历字符序列X向量化,得到输入特征向量X*,即:将电子病历自然语句中的每个字映射到嵌入矩阵中的低维向量。
如图2中的输入层,将电子病历字符序列X每个字符xi转换成一个低维实值向量wi,每个字符的向量由字符嵌入矩阵W∈Rn×d中的一个向量编码表示,其中d是字符向量的维度,n是固定大小的输入字符表。
对于输入的病历序列X,经向量表示后,获得输入特征向量
Figure BDA0002404363670000062
k表示序列字符的数量。
S3、采用CNN网络从输入特征向量X*中学习到文本语义信息,得到上层序列向量H。
电子病历的特征是纯文本的无结构数据,并且拥有超长的文本长度以及大量与ICD编码的无关信息;在本实施例中,利用CNN能够较为准确地提取句子局部核心特征,同时共享卷积核,对高维数据处理无压力。具体为:采用CNN网络通过卷积操作(*)从输入特征向量X*中学习到文本语义信息特征H*,计算公式为:
H*=g(Wc*x* i:i+f-1+bc) i∈[1,2,...,n-f+1] (2)
其中*代表卷积操作,Wc为需要学习的权重矩阵,f表示卷积核的大小,bc表示偏置向量;
对文本语义信息特征H*进行maxpooling操作,扩大句子的感受野,继而得到上层序列向量H={h1,h2,h3,...,hk}。
S4、构建临床医学知识图谱,采用图嵌入表示方法,根据临床医学知识图谱和ICD编码信息得到图嵌入表示Yg
在本实施例中,ICD编码信息是全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,仍保留了ICD的简称,并被统称为ICD-10。
在本实施例中,临床医学知识图谱的构建方法是:在医学资源文库中进行数据爬取,将爬取到的数据进行预处理后,利用医学实体与预处理后的数据之间的关系组成RDF三元组,所有的三元组即为最终的临床医学知识图谱。医学资源文库包括疾病百科和CMKD;医学实体包括疾病、症状、药品、部位和科室。知识图谱将各类数据元素串联起来,捕捉不同知识之间直接关系或者潜在关系。
如图2所示,本实施例采用图嵌入方法SDNE,从知识图谱和ICD编码信息得到对应的图嵌入表示Yg。具体方法为:
S41、对临床医学知识图谱中实体节点随机初始化后的向量N进行优化,得到实体节点的表示;
S42、令1阶相似度衡量相邻的两个实体节点之间相似性,令2阶相似度衡量两个实体节点的邻居集合的相似程度;采用1阶相似度对相邻实体节点进行优化,使临床医学知识图谱中相邻的两个实体节点对应的嵌入向量在隐藏空间接近,计算公式如下:
Figure BDA0002404363670000071
其中,ym与yj分别代表临床医学知识图谱中不重复的两个实体节点;nd代表临床医学知识图谱中总的实体节点数量;
采用2阶相似度对具有相似结构的实体节点进行优化,使用实体节点的邻接矩阵进行输入,使得结构相似实体节点具有相似的表示向量,sj包含了实体节点yj的邻居节点信息,计算公式如下:
Figure BDA0002404363670000072
根据公式(5)得到图嵌入表示的总优化目标:
L=L1st+αL2st+βLreg (5)
其中,α和β代表权重参数,Lreg代表正则化项;
S43、根据公式(3)、(4)、(5)计算得到临床医学知识图谱嵌入矩阵G,通过完全匹配或者部分匹配方式与ICD编码信息互联,得到图嵌入表示
Figure BDA0002404363670000087
其中,l表示ICD标签个数,dg表示图嵌入维度。
S5、采用注意力机制,根据上层序列向量H和图嵌入表示Yg计算得到高级别序列向量V。
在一份文本中,往往对结果做出最大贡献的只有一部分连续字符;本实施例采用注意力机制,将知识图谱的知识与抽取的病历文本特征结合,捕捉对预测结果有突出贡献的片段;首先对每一个图嵌入向量
Figure BDA0002404363670000081
进行线性加权,得到的数据与CNN中的输出H={h1,h2,h3,...,hk}进行注意力匹配,得到每一段序列分别在不同的ICD中的权重表示,其中“1”表示该片段能够完全影响结果,“0”表示该片段独立于结果之外;对于第t个序列片段ht,经序列片段内部单词的线性加权后,ht被重新表示为
Figure BDA0002404363670000082
根据上层序列向量H={h1,h2,h3,...,hk}和图嵌入表示
Figure BDA0002404363670000083
获得高级别序列向量V:
A=SoftMax(HTWgYg) (6)
V=AH (7)
其中,Wg表示模型注意力层的权重矩阵,矩阵A中的每一个向量t表示第t个字符所对应的权重向量,SoftMax(x)=exp(xt)/∑texp(xt);
经过注意力操作后得到高级别序列向量
Figure BDA0002404363670000084
S6、对高级别序列向量V进行标签判定,得到预测标签,使用正确标签和预测标签的二元交叉熵作为目标函数,完成电子病历ICD自动编码。
构建l个节点组成的全连接层,从高级别序列向量V中获取sigmoid分类器,l对应ICD标签的数量,通过sigmoid分类器获得每个ICD编码的预测概率,并根据公式(8)获得预测标签
Figure BDA0002404363670000085
Figure BDA0002404363670000086
其中,σ(x)=1/exp(-x),Wo表示全连接层的权重参数;
使用正确标签和预测标签的二元交叉熵作为目标函数:
Figure BDA0002404363670000091
其中,θ代表所有训练参数,Yr∈{0,1}表示第r个ICD编码的真实结果值;
Figure BDA0002404363670000092
是预测为第r个ICD编码的概率,即:预测结果值。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于知识图谱的电子病历ICD自动编码方法,其特征在于,包括以下步骤:
S1、根据电子病历得到电子病历字符序列X,将电子病历字符序列X中的字符映射为d维的字符嵌入矩阵W;
S2、根据字符嵌入矩阵W,采用向量表示方法将电子病历字符序列X向量化,得到输入特征向量X*
S3、采用CNN网络从输入特征向量X*中学习到文本语义信息,得到上层序列向量H;
S4、构建临床医学知识图谱,采用图嵌入表示方法,根据临床医学知识图谱和ICD编码信息得到图嵌入表示Yg
S5、采用注意力机制,根据上层序列向量H和图嵌入表示Yg计算得到高级别序列向量V;
S6、对高级别序列向量V进行标签判定,得到预测标签,使用正确标签和预测标签的二元交叉熵作为目标函数,完成电子病历ICD自动编码。
2.根据权利要求1所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S1的具体方法为:
令n为电子病历字符表中不同的字符数量,对电子病历字符表中的每一个字符随机初始化d维向量,得到字符嵌入矩阵W:
Figure FDA0002404363660000011
其中,每一个行向量代表一个唯一字符。
3.根据权利要求2所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S2的具体方法为:
将电子病历字符序列X中每个字符均转换成低维实值向量,且均由字符嵌入矩阵W中属于Rn×d的一个向量编码表示,其中d是字符向量的维度,n是固定大小的输入字符表;
电子病历字符序列X经向量表示后,获得输入特征向量
Figure FDA0002404363660000012
其中k表示序列字符的数量。
4.根据权利要求3所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S3的具体方法为:
采用CNN网络通过卷积操作(*)从输入特征向量X*中学习到文本语义信息特征H*,计算公式为:
H*=g(Wc*x* i:i+f-1+bc) i∈[1,2,…,n-f+1] (2)
其中*代表卷积操作,Wc为需要学习的权重矩阵,f表示卷积核的大小,bc表示偏置向量;
对文本语义信息特征H*进行maxpooling操作,扩大句子的感受野,继而得到上层序列向量H={h1,h2,h3,...,hk}。
5.根据权利要求4所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S4中,临床医学知识图谱的构建方法是:在医学资源文库中进行数据爬取,将爬取到的数据进行预处理后,利用医学实体与预处理后的数据之间的关系组成RDF三元组,所有的三元组即为最终的临床医学知识图谱。
6.根据权利要求5所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述医学资源文库包括疾病百科和CMKD;所述医学实体包括疾病、症状、手术、药品、部位和科室。
7.根据权利要求5所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S4的具体方法为:
S41、对临床医学知识图谱中实体节点随机初始化后的向量N进行优化,得到实体节点的表示;
S42、令1阶相似度衡量相邻的两个实体节点之间相似性,令2阶相似度衡量两个实体节点的邻居集合的相似程度;采用1阶相似度对相邻实体节点进行优化,使临床医学知识图谱中相邻的两个实体节点对应的嵌入向量在隐藏空间接近,计算公式如下:
Figure FDA0002404363660000021
其中,ym与yj分别代表临床医学知识图谱中不重复的两个实体节点;nd代表临床医学知识图谱中总的实体节点数量;
采用2阶相似度对具有相似结构的实体节点进行优化,使用实体节点的邻接矩阵进行输入,使得结构相似实体节点具有相似的表示向量,sj包含了实体节点yj的邻居节点信息,计算公式如下:
Figure FDA0002404363660000031
根据公式(5)得到图嵌入表示的总优化目标:
L=L1st+αL2st+βLreg (5)
其中,α和β代表权重参数,Lreg代表正则化项;
S43、根据公式(3)、(4)、(5)计算得到临床医学知识图谱嵌入矩阵G,通过完全匹配或者部分匹配方式与ICD编码信息互联,得到图嵌入表示
Figure FDA0002404363660000032
其中,l表示ICD标签个数,dg表示图嵌入维度。
8.根据权利要求7所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S5的具体方法为:
根据上层序列向量H={h1,h2,h3,...,hk}和图嵌入表示
Figure FDA0002404363660000033
获得高级别序列向量V:
A=SoftMax(HTWgYg) (6)
V=AH (7)
其中,Wg表示模型注意力层的权重矩阵,矩阵A中的每一个向量t表示第t个字符所对应的权重向量,SoftMax(x)=exp(xt)/∑texp(xt);
经过注意力操作后得到高级别序列向量
Figure FDA0002404363660000034
9.根据权利要求8所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S6的具体方法为:
构建l个节点组成的全连接层,从高级别序列向量V中获取sigmoid分类器,l对应ICD标签的数量,通过sigmoid分类器获得每个ICD编码的预测概率,并根据公式(8)获得预测标签
Figure FDA0002404363660000035
Figure FDA0002404363660000036
其中,σ(x)=1/exp(-x),Wo表示全连接层的权重参数;
使用正确标签和预测标签的二元交叉熵作为目标函数:
Figure FDA0002404363660000041
其中,θ代表所有训练参数,Yr∈{0,1}表示第r个ICD编码的真实结果值;
Figure FDA0002404363660000042
是预测为第r个ICD编码的概率。
CN202010156828.1A 2020-03-09 2020-03-09 一种基于知识图谱的电子病历icd自动编码方法 Expired - Fee Related CN111382272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010156828.1A CN111382272B (zh) 2020-03-09 2020-03-09 一种基于知识图谱的电子病历icd自动编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010156828.1A CN111382272B (zh) 2020-03-09 2020-03-09 一种基于知识图谱的电子病历icd自动编码方法

Publications (2)

Publication Number Publication Date
CN111382272A CN111382272A (zh) 2020-07-07
CN111382272B true CN111382272B (zh) 2022-11-01

Family

ID=71222614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010156828.1A Expired - Fee Related CN111382272B (zh) 2020-03-09 2020-03-09 一种基于知识图谱的电子病历icd自动编码方法

Country Status (1)

Country Link
CN (1) CN111382272B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230253117A1 (en) * 2020-08-14 2023-08-10 Siemens Healthcare Diagnostics Inc. Estimating patient risk of cytokine storm using knowledge graphs
CN112102937B (zh) 2020-11-13 2021-02-12 之江实验室 一种慢性病辅助决策的患者数据可视化方法及系统
CN112183026B (zh) * 2020-11-27 2021-11-23 北京惠及智医科技有限公司 Icd编码方法、装置、电子设备和存储介质
CN112542243B (zh) * 2020-12-05 2024-06-04 东软教育科技集团有限公司 一种icu电子病历知识图谱构建方法、系统和存储介质
CN112635001B (zh) * 2020-12-21 2023-04-07 山东众阳健康科技集团有限公司 一种icd编码数据处理方法、系统、存储介质及设备
CN112686306B (zh) * 2020-12-29 2023-03-24 山东众阳健康科技集团有限公司 基于图神经网络的icd手术分类自动匹配方法及系统
CN112836512B (zh) * 2021-01-27 2022-07-19 山东众阳健康科技集团有限公司 基于自然语义处理和知识图谱的icd-11编码检索方法
CN112599213B (zh) * 2021-03-04 2021-05-25 联仁健康医疗大数据科技股份有限公司 一种分类编码确定方法、装置、设备及存储介质
CN113343638B (zh) * 2021-05-10 2023-10-13 武汉大学 面向精细化内容重组的服务内容多重语义自动编码方法
CN113407645B (zh) * 2021-05-19 2024-06-11 福建福清核电有限公司 一种基于知识图谱的声像档案智能编研方法
CN113436694B (zh) * 2021-05-21 2023-06-27 山东大学 小样本电子病历icd代码预测方法及系统
CN113420561B (zh) * 2021-07-14 2022-12-13 上海浦东发展银行股份有限公司 一种命名实体识别方法、装置、设备及存储介质
CN113434626B (zh) * 2021-08-27 2021-12-07 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN114023412B (zh) * 2021-11-23 2024-06-21 大连海事大学 基于联合学习和去噪机制的icd代码预测方法及系统
KR102588270B1 (ko) * 2021-11-24 2023-10-12 한국과학기술원 의료 데이터 임베딩 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
CN113990495B (zh) * 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN114528944B (zh) * 2022-02-24 2023-08-01 西南交通大学 一种医疗文本编码方法、装置、设备及可读存储介质
CN115035975A (zh) * 2022-05-05 2022-09-09 深圳市铱硙医疗科技有限公司 基于卒中、认知障碍患者使用的康复管理方法及装置
CN114943314B (zh) * 2022-07-26 2023-03-24 牛津大学(苏州)科技有限公司 基于icd诊断码的对象划分方法、存储介质及电子病历系统
CN118230978B (zh) * 2024-05-27 2024-08-13 之江实验室 一种疾病风险预测方法、系统、电子设备、介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109585020A (zh) * 2018-11-27 2019-04-05 华侨大学 一种运用卷积神经网络对疾病风险预测的模型
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110263167A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 医疗实体分类模型生成方法、装置、设备和可读存储介质
CN110660459A (zh) * 2019-08-30 2020-01-07 腾讯科技(深圳)有限公司 用于病案质控的方法、装置、服务器以及存储介质
CN110750642A (zh) * 2019-09-28 2020-02-04 北京航空航天大学 一种基于cnn的中文关系分类方法及系统
CN111402974A (zh) * 2020-03-06 2020-07-10 西南交通大学 一种基于深度学习的电子病历icd自动编码方法
CN114528944A (zh) * 2022-02-24 2022-05-24 西南交通大学 一种医疗文本编码方法、装置、设备及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155951B2 (en) * 2003-06-12 2012-04-10 Patrick William Jamieson Process for constructing a semantic knowledge base using a document corpus
US8229881B2 (en) * 2007-07-16 2012-07-24 Siemens Medical Solutions Usa, Inc. System and method for creating and searching medical ontologies
US10509889B2 (en) * 2014-11-06 2019-12-17 ezDI, Inc. Data processing system and method for computer-assisted coding of natural language medical text
US11024424B2 (en) * 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
US11176441B2 (en) * 2018-05-01 2021-11-16 International Business Machines Corporation Neural network architecture for performing medical coding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109585020A (zh) * 2018-11-27 2019-04-05 华侨大学 一种运用卷积神经网络对疾病风险预测的模型
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110263167A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 医疗实体分类模型生成方法、装置、设备和可读存储介质
CN110660459A (zh) * 2019-08-30 2020-01-07 腾讯科技(深圳)有限公司 用于病案质控的方法、装置、服务器以及存储介质
CN110750642A (zh) * 2019-09-28 2020-02-04 北京航空航天大学 一种基于cnn的中文关系分类方法及系统
CN111402974A (zh) * 2020-03-06 2020-07-10 西南交通大学 一种基于深度学习的电子病历icd自动编码方法
CN114528944A (zh) * 2022-02-24 2022-05-24 西南交通大学 一种医疗文本编码方法、装置、设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Classifying medical relations in clinical text via convolutional neural networks;He B等;《Artificial Intelligence in Medicine》;20190131;43-49 *
Explainable Prediction of Medical Codes With Knowledge Graphs;Fei Teng等;《frontiers in bioengineering and biotechnology》;20200814;1-11 *
基于CNN-BiLSTM模型的在线医疗实体抽取研究;陈德鑫等;《图书情报工作》;20190620;105-113 *

Also Published As

Publication number Publication date
CN111382272A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
CN110334219B (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
JP7459386B2 (ja) グラフニューラルネットワークに基づく疾患診断予測システム
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN109949936B (zh) 一种基于深度学习混合模型的再住院风险预测方法
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN110032739A (zh) 中文电子病历命名实体抽取方法及系统
CN113486667A (zh) 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113704546A (zh) 基于空间时序特征的视频自然语言文本检索方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN113553440B (zh) 一种基于层次推理的医学实体关系抽取方法
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111881292B (zh) 一种文本分类方法及装置
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN116312915B (zh) 一种电子病历中药物术语标准化关联方法及系统
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN117312989A (zh) 一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN118171653B (zh) 一种基于深度神经网络的健康体检文本治理方法
Dahl et al. Applications of machine learning in document digitisation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221101

CF01 Termination of patent right due to non-payment of annual fee