CN111382272B

CN111382272B - 一种基于知识图谱的电子病历icd自动编码方法

Info

Publication number: CN111382272B
Application number: CN202010156828.1A
Authority: CN
Inventors: 滕飞; 杨维; 陈俐; 黄路非; 李暄
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2022-11-01
Anticipated expiration: 2040-03-09
Also published as: CN111382272A

Abstract

本发明公开了一种基于知识图谱的电子病历ICD自动编码方法，涉及自然语言处理技术领域，其将电子病历字符序列中的字符映射为d维的字符嵌入矩阵，采用向量表示方法将电子病历字符序列X向量化，采用CNN网络从输入特征向量中学习到文本语义信息；构建临床医学知识图谱，采用图嵌入表示方法，根据临床医学知识图谱和ICD编码信息得到图嵌入表示Y_g；采用注意力机制，根据上层序列向量H和图嵌入表示Y_g计算得到高级别序列向量V；对高级别序列向量V进行标签判定，得到预测标签，使用正确标签和预测标签的二元交叉熵作为目标函数，完成电子病历ICD自动编码。本发明能减少研究时间和匹配错误，可以吸纳医生经验，能够仅提取局部有用信息。

Description

一种基于知识图谱的电子病历ICD自动编码方法

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种基于知识图谱的电子病历ICD自动编码方法。

背景技术

国际疾病分类(ICD)，是WHO制定的国际统一的疾病分类方法，它根据疾病的病因、病理、临床表现和解剖位置等特性，令疾病成为一个有序的树状组合。通用的疾病分类使得病案信息共享成为可能。随着医疗信息化的快速发展和编码人员的紧缺，为每份电子病历快速准确分配ICD编码成为了当前的研究任务。ICD编码不仅能够统一规范疾病名称，并且能够反映国家卫生状况。同时，疾病分类也是医保付费的重要依据。

传统的ICD编码方法主要是基于字符串匹配的方法与基于字词特征的机器学习方法。其中，基于字符串的方法首先根据各地运行的疾病分类版本和扩充的疾病别名，人工总结归纳出相应的疾病分类库，然后通过字符串匹配的方法进行ICD编码。基于机器学习的方法，首先人工提取病历数据的字词特征，然后将特征转换为数值型特征向量；对特征向量进行选择后用机器学习方法训练。但是，基于字符串匹配的方式仅仅使用医生手写诊断名称与疾病分类名称匹配，医生习惯的差异与疾病分类库的缺失难以保证做到正确分类。而机器学习方法需要人工构建特征，并且病历数据一般为超长的自由文本，只根据字词特征会忽视了上下文语义关系。在自然语言处理领域，各类神经网络模型能够自动捕捉语义特征而不需手工抽取，同时知识图谱也为海量的文本数据表达、组织、管理以及利用提供了一种更为有效的方式。通过对现有的专利及相关技术的检索发现，现有的ICD编码方法采用递归神经网络对病案首页与ICD编码构建预测深度学习模型；利用患者的电子病历、缴费记录以及ICD疾病知识库对预测深度学习模型进行扩展训练构建深度学习模型。除此之外，一些研究人员利用注意力机制增强文本表示，对病案首页的主要诊断进行自动ICD编码。

虽然现存的基于深度学习的ICD编码方法可以在一定程度上避免对手工特征的依赖，但它们都忽略了ICD编码是建立在临床经验知识的基础上，同时只利用主要诊断进行编码无法解决编码过程中存在一对多的问题。对于ICD编码任务，虽然循环神经网络可以学习到文本的长期依赖性，但是对于电子病历这种超长文本，尽管提供了潜在的有效信息，但还存在大量无关的噪声数据，导致ICD自动编码误码率高。

发明内容

为了电子病历语句过长、自动编码过程缺乏临床经验等现象导致的ICD自动编码误码率高的问题，同时避免对手工特征的依赖，本发明提出了一种基于知识图谱的电子病历ICD自动编码方法。

本发明采取的技术方案如下：

本发明提供了一种基于知识图谱的电子病历ICD自动编码方法，包括以下步骤：

S1、根据电子病历得到电子病历字符序列X，将电子病历字符序列X中的字符映射为d维的字符嵌入矩阵W；

S2、根据字符嵌入矩阵W，采用向量表示方法将电子病历字符序列X向量化，得到输入特征向量X^*；

S3、采用CNN网络从输入特征向量X^*中学习到文本语义信息，得到上层序列向量H；

S4、构建临床医学知识图谱，采用图嵌入表示方法，根据临床医学知识图谱和ICD编码信息得到图嵌入表示Y_g；

S5、采用注意力机制，根据上层序列向量H和图嵌入表示Y_g计算得到高级别序列向量V；

S6、对高级别序列向量V进行标签判定，得到预测标签，使用正确标签和预测标签的二元交叉熵作为目标函数，完成电子病历ICD自动编码。

进一步地，所述步骤S1的具体方法为：

令n为电子病历字符表中不同的字符数量，对电子病历字符表中的每一个字符随机初始化d维向量，得到字符嵌入矩阵W：

其中，每一个行向量代表一个唯一字符。

更进一步地，所述步骤S2的具体方法为：

将电子病历字符序列X中每个字符均转换成低维实值向量，且均由字符嵌入矩阵W中属于R^n×d的一个向量编码表示，其中d是字符向量的维度，n是固定大小的输入字符表；

电子病历字符序列X经向量表示后，获得输入特征向量

其中k表示序列字符的数量。

更进一步地，所述步骤S3的具体方法为：

采用CNN网络通过卷积操作(*)从输入特征向量X^*中学习到文本语义信息特征H^*，计算公式为：

H^*＝g(W_c*x^* _i:i+f-1+b_c) i∈[1,2,...,n-f+1] (2)

其中*代表卷积操作，W_c为需要学习的权重矩阵，f表示卷积核的大小，b_c表示偏置向量；

对文本语义信息特征H^*进行maxpooling操作，扩大句子的感受野，继而得到上层序列向量H＝{h₁,h₂,h₃,...,h_k}。

更进一步地，所述步骤S4中，临床医学知识图谱的构建方法是：在医学资源文库中进行数据爬取，将爬取到的数据进行预处理后，利用医学实体与预处理后的数据之间的关系组成RDF三元组，所有的三元组即为最终的临床医学知识图谱。

更进一步地，所述医学资源文库包括疾病百科和CMKD；所述医学实体包括疾病、症状、药品、部位和科室。

更进一步地，所述步骤S4的具体方法为：

S41、对临床医学知识图谱中实体节点随机初始化后的向量N进行优化，得到实体节点的表示；

S42、令1阶相似度衡量相邻的两个实体节点之间相似性，令2阶相似度衡量两个实体节点的邻居集合的相似程度；采用1阶相似度对相邻实体节点进行优化，使临床医学知识图谱中相邻的两个实体节点对应的嵌入向量在隐藏空间接近，计算公式如下：

其中，y_m与y_j分别代表临床医学知识图谱中不重复的两个实体节点；n_d代表临床医学知识图谱中总的实体节点数量；

采用2阶相似度对具有相似结构的实体节点进行优化，使用实体节点的邻接矩阵进行输入，使得结构相似实体节点具有相似的表示向量，s_j包含了实体节点y_j的邻居节点信息，计算公式如下：

根据公式(5)得到图嵌入表示的总优化目标：

l＝L_1st+αL_2st+βL_reg (5)

其中，α和β代表权重参数，L_reg代表正则化项；

S43、根据公式(3)、(4)、(5)计算得到临床医学知识图谱嵌入矩阵G，通过完全匹配或者部分匹配方式与ICD编码信息互联，得到图嵌入表示Y_g∈R^l×dg，其中，l表示ICD标签个数，d_g表示图嵌入维度。

更进一步地，所述步骤S5的具体方法为：

根据上层序列向量H＝{h₁,h₂,h₃,...,h_k}和图嵌入表示

获得高级别序列向量V：

A＝SoftMax(H^TW_gY_g) (6)

V＝AH (7)

其中，W_g表示模型注意力层的权重矩阵，矩阵A中的每一个向量t表示第t个字符所对应的权重向量，SoftMax(x)＝exp(x_t)/∑_texp(x_t)；

经过注意力操作后得到高级别序列向量

更进一步地，所述步骤S6的具体方法为：

构建l个节点组成的全连接层，从高级别序列向量V中获取sigmoid分类器，l对应ICD标签的数量，通过sigmoid分类器获得每个ICD编码的预测概率，并根据公式(8)获得预测标签

其中，σ(x)＝1/exp(-x)，W_o表示全连接层的权重参数；

使用正确标签和预测标签的二元交叉熵作为目标函数：

其中，θ代表所有训练参数，Y_r∈{0,1}表示第r个ICD编码的真实结果值；

是预测为第r个ICD编码的概率。

与现有技术相比，本发明具有以下有益效果：

1)能够自动抽取特征，不依赖手工特征，不完全依赖于医生手写疾病，减少研究时间，减少匹配错误；

2)通过临床医学知识图谱，可以吸纳医生经验，解决自动编码过程缺乏临床经验的问题；

3)采用CNN模型和maxpooling操作，能够排除病历文本中的大量无关信息，提取局部有用信息；

4)采用注意力机制能够进一步提取与ICD信息关系密切的文本。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是实施例中所述基于知识图谱的电子病历ICD自动编码方法流程图；

图2是实施例中ICD自动编码框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参照图1和图2，本实施例提供了一种基于知识图谱的电子病历ICD自动编码方法，包括以下步骤：

S1、根据电子病历得到电子病历字符序列X，将电子病历字符序列X中的字符映射为d维的字符嵌入矩阵W。

在本实施例中，将电子病历中所有的字符经过数据预处理提取出来然后去重形成电子病历字符序列X，手工设定需要的字符嵌入维度d；同时为了广泛适应输入字符，设置未识别字符UNK代替所有未在电子病历字符序列X中的字符。

在本实施例中，令n为电子病历字符表中不同的字符数量，对电子病历字符表中的每一个字符随机初始化d维向量，得到字符嵌入矩阵W：

其中，每一个行向量代表一个唯一字符。

S2、根据字符嵌入矩阵W，采用向量表示方法将电子病历字符序列X向量化，得到输入特征向量X^*，即：将电子病历自然语句中的每个字映射到嵌入矩阵中的低维向量。

如图2中的输入层，将电子病历字符序列X每个字符x_i转换成一个低维实值向量wⁱ，每个字符的向量由字符嵌入矩阵W∈R^n×d中的一个向量编码表示，其中d是字符向量的维度，n是固定大小的输入字符表。

对于输入的病历序列X，经向量表示后，获得输入特征向量

k表示序列字符的数量。

S3、采用CNN网络从输入特征向量X^*中学习到文本语义信息，得到上层序列向量H。

电子病历的特征是纯文本的无结构数据，并且拥有超长的文本长度以及大量与ICD编码的无关信息；在本实施例中，利用CNN能够较为准确地提取句子局部核心特征，同时共享卷积核，对高维数据处理无压力。具体为：采用CNN网络通过卷积操作(*)从输入特征向量X^*中学习到文本语义信息特征H^*，计算公式为：

H^*＝g(W_c*x^* _i:i+f-1+b_c) i∈[1,2,...,n-f+1] (2)

S4、构建临床医学知识图谱，采用图嵌入表示方法，根据临床医学知识图谱和ICD编码信息得到图嵌入表示Y_g。

在本实施例中，ICD编码信息是全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》，仍保留了ICD的简称，并被统称为ICD-10。

在本实施例中，临床医学知识图谱的构建方法是：在医学资源文库中进行数据爬取，将爬取到的数据进行预处理后，利用医学实体与预处理后的数据之间的关系组成RDF三元组，所有的三元组即为最终的临床医学知识图谱。医学资源文库包括疾病百科和CMKD；医学实体包括疾病、症状、药品、部位和科室。知识图谱将各类数据元素串联起来，捕捉不同知识之间直接关系或者潜在关系。

如图2所示，本实施例采用图嵌入方法SDNE，从知识图谱和ICD编码信息得到对应的图嵌入表示Y_g。具体方法为：

根据公式(5)得到图嵌入表示的总优化目标：

L＝L_1st+αL_2st+βL_reg (5)

其中，α和β代表权重参数，L_reg代表正则化项；

S43、根据公式(3)、(4)、(5)计算得到临床医学知识图谱嵌入矩阵G，通过完全匹配或者部分匹配方式与ICD编码信息互联，得到图嵌入表示

其中，l表示ICD标签个数，d_g表示图嵌入维度。

S5、采用注意力机制，根据上层序列向量H和图嵌入表示Y_g计算得到高级别序列向量V。

在一份文本中，往往对结果做出最大贡献的只有一部分连续字符；本实施例采用注意力机制，将知识图谱的知识与抽取的病历文本特征结合，捕捉对预测结果有突出贡献的片段；首先对每一个图嵌入向量

进行线性加权，得到的数据与CNN中的输出H＝{h₁,h₂,h₃,...,h_k}进行注意力匹配，得到每一段序列分别在不同的ICD中的权重表示，其中“1”表示该片段能够完全影响结果，“0”表示该片段独立于结果之外；对于第t个序列片段h_t，经序列片段内部单词的线性加权后，h_t被重新表示为