CN111462896B

CN111462896B - 一种基于病案的实时智能辅助icd编码系统和方法

Info

Publication number: CN111462896B
Application number: CN202010244659.7A
Authority: CN
Inventors: 古平; 肖涵月; 王成尧; 张程; 卢勇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-04-18
Anticipated expiration: 2040-03-31
Also published as: CN111462896A

Abstract

本发明公开一种基于病案的实时智能辅助ICD编码系统和方法，通过医院的病历数据库中获取病案信息；对病案信息进行预处理与特征向量构建从而得到两类训练样本集；基于训练样本集，对主编码模型进行训练从而得到seq2seq+attention模型；基于训练样本集，对漏诊检测模型进行训练；分别获取主编码模型和漏诊检测模型推荐的ICD编码和置信度，并推荐给医生确认。本发明通过自动疾病名称对齐技术构建训练样本集，减小了人工构造样本集的成本。通过深度学习技术，将不同风格下医生书写的诊断名称准确编码为标准的ICD疾病名称和编码，提高了ICD编码的准确率。利用深度学习模型对病历文本进行实时分析，辅助医生发现可能的漏写、错写的疾病诊断，提升了系统的查全率。

Description

一种基于病案的实时智能辅助ICD编码系统和方法

技术领域

本发明涉及ICD编码技术领域，特别涉及一种基于病案的实时智能辅助ICD编码系统和方法。

背景技术

疾病诊断相关分组(DRGs)是一种“以病人为中心”的病例组合系统，也是控制医疗付费，医院精细化管理及医疗评价的一项有效的工具，其主要数据来源于病案首页。国际疾病分类(ICD)是一种对不同类型的疾病及与健康相关的问题进行编码和分类的国际标准。DRGs入组的第一道门坎即是ICD-10疾病编码，所以ICD疾病编码直接影响DRGs的顺利开展。

目前实际应用中，由医院产生ICD的编码过程难以满足包括医院在内各种管理需求。在我国，对疾病分类进行编码的工作主要是由医院的病案科(室)的编码员负责，但编码员常常为其繁杂的查找方法、低质低效的查找结果、枯燥的工作内容所烦扰；厚重的分类修订本既不易携带，也不易于翻阅，若要高质量的编码，疾病统计工作量会远远大于医院已有的病案科人力所能承担的负荷，所以很多时候难以确保编码的准确性，更何况很多中小医院连合格的编码员都没有。为解决手工ICD编码耗时费力、成本昂贵、稳定性差等问题，研究者们开始研究通过计算机辅助进行ICD自动编码的各类方法和系统。包括基于规则的ICD编码系统、基于机器学习的ICD编码系统和基于深度学习的编码。

但现有技术中均存在以下问题：

1.编码系统多采用事后编码而非实时编码机制，即编码任务通常由病案小组的编码人员在病人出院后才完成。编码人员并不真正了解患者的实际情况，也存在对医生书写病历误解的可能性。因此，事后由病案小组编码的方式相比由医生实时进行ICD编码，存在更多的编码错误。

2.现有方法灵活性不够，难以适应不同医生的诊断书写风格，导致编码准确性不高。如基于规则的编码系统需要维护一个庞大的规则库，占用大量的存储空间；且该系统一旦迁移到其它医院，可能由于医生书写风格的改变，如多字、少字、同义词替换等，导致无法映射得到正确的ICD编码。

3.编码所用信息不全，导致系统准确率和查全率不高。医院病案中病历文本和医生(手写)诊断是两个最重要的编码依据，多数已有研究要么只对病历文本进行深度学习，但考虑到ICD编码的种类多达3万种，因此查准率不高；要么只关注医生诊断，一旦医生出现漏写、错写，则系统查全率降低。

发明内容

针对现有技术中ICD编码准确率和及时性低的问题，本发明提出一种基于病案的实时智能辅助ICD编码系统,辅助医生在编写病案的过程中，通过对其书写诊断和病历文本的实时分析，推荐与该病案最接近的ICD疾病编码给医生。

为了实现上述目的，本发明提供以下技术方案：

一种基于病案的实时智能辅助ICD编码系统，包括特征向量构建模块、主编码模块、漏诊检测模块以及ICD编码模块；其中，

特征向量构建模块，用于根据病案数据构建样本集，所述样本集包括医生书写的疾病诊断名的特征字向量矩阵、标准ICD名称的特征字向量矩阵和病历文本的特征词向量矩阵；

主编码模块，用于根据疾病名称样本集训练构建seq2seq+attention模型，并输出第一ICD编码及名称；

漏诊检测模块，用于根据病案数据中的病历文本进行训练，输出第二ICD编码及名称；

ICD编码模块，用于结合主编码模块和漏诊检测模块的输出，实时推荐第三ICD编码及名称给医生。

优选的，还包括数据获取模块和数据预处理模块；其中，

数据获取模块，用于从病历库中获取病案数据；

数据预处理模块，用于对病案数据进行分词、去噪，重构基于二元组<医生书写诊断名，标准ICD名称>的疾病名称样本集。

优选的，还包括修正模块；所述修正模块，用于根据医生反馈的修正ICD编码及名称，以修正疾病名称样本集。

本发明还提供一种基于病案的实时智能辅助ICD编码方法，包括以下步骤：

S1：从医院的病历数据库中获取病案数据；所述病案数据包括入院描述记录、出院描述记录、首次病程记录、化验检查记录、医生入院诊断、病历文本、医生出院诊断和标准ICD编码及名称；

S2：对病案数据进行预处理与特征向量构建从而得到疾病名称样本集和病历文本样本集；

S3：基于疾病名称样本集，对主编码模型进行训练，从而得到seq2seq+attention模型，将疾病名称样本集输入seq2seq+attention模型，从而输出第一ICD编码及名称；

S4：基于病历文本样本集，输入训练完成的漏诊检测模型，输出第二ICD编码及名称；

S5：结合主编码模型和漏诊检测模型的输出，推荐第三ICD编码及名称给医生进行确认。

优选的，所述S2包括以下步骤：

S2-1：构建主编码模型所需的疾病名称样本集，包括医生书写的疾病诊断名序列x＝{x₁,x₂,…,x_n},x_n为第n条医生书写的疾病诊断名，标准ICD疾病名称序列y＝{y₁,y₂,…,y_m},y_m表示第m条标准ICD疾病名称；

S2-2：对病历文本样本集进行中文分词从而构建词典，并分别训练词典的字、词向量；

S2-3：对疾病名称样本集中每个样本，构建基于字的特征向量表示：所述疾病名称样本集包括医生书写的疾病诊断名特征字向量矩阵

表示第n个位置上医生书写的疾病诊断名的字向量，以及对应标准ICD疾病名称的特征字向量矩阵

表示第n个位置上标准ICD疾病名称的字向量；

S2-4：对病历文本样本集中每个样本，构建基于词的特征向量表示：所述病历文本样本集包括病案的词特征向量矩阵

表示第n个位置上病历文本的词向量，以及每个病案对应的已知ICD疾病名称矩阵

表示第n个已知ICD疾病名称。

优选的，所述S2-1中，疾病名称样本集的构建包括：

a.对于每个字序列x_n，分别与序列y中所有子序列进行计算得到相似度：

公式(1)中，similarity表示相似度，lcs表示求最长公共子序列的长度函数，len表示求长度函数，x_n表示第n条疾病诊断名，y_m表示第m条标准ICD疾病名称；

b.选择与x_n相似度最大的y_m,若相似度大于阈值δ,则将<x_n,y_m>添加到主编码模型的疾病名称样本集中，并从序列y中删除y_m；

c.重复步骤a、b，直至遍历完序列x，从而得到疾病名称样本集。

优选的，所述S3具体包括以下步骤：

S3-1：构建编码器，计算编码器t时刻隐藏层的状态h_t：

公式(2)中，h_t表示编码器t时刻隐藏层的状态，relu表示激活函数,U、W表示编码器循环神经网络权重矩阵，

表示t时刻医生书写的疾病诊断名的字向量，h_t-1表示编码器t-1时刻隐藏层的状态；

S3-2：构建解码器，输入编码器t时刻隐藏层的状态h_t，获取t时刻解码器输出字的概率分布向量：

o_t＝softmax(V*h_t) (3)

公式(3)中，o_t是表示t时刻解码器输出字的概率分布向量；h_t表示t时刻隐藏层的状态；V为循环神经网络权重矩阵；softmax表示激活函数；

S3-3：引入attention机制，通过结合每个i时刻解码器的隐藏层状态s_i与j时刻编码器的隐藏层状态h_j，计算得到权重计算分数：

e_ij＝V^Ttanh(Ws_i,Uh_j) (4)

公式(4)中，e_ij表示解码器i时刻计算的对应编码器j时刻隐藏层状态h_j的权重计算分数，V、W、U表示循环神经网络权重矩阵，V^T表示权重转置矩阵，s_i表示i时刻解码器的隐藏层状态，h_j表示j时刻编码器的隐藏层状态，tanh表示双曲正切函数；

再计算解码器i时刻对应的编码器所有隐藏层状态的加权平均c，并与解码器的隐藏层状态s_t相结合起来得到新的解码器隐藏层状态s′_t，通过softmax函数得到主编码模型输出的字概率向量o′_t，从而得到解码器输出的字序列，即可得到第一ICD编码及名称；

公式(5)中，c表示所有时刻编码器隐藏层状态的加权平均,T_x表示编码器隐藏层状态个数，α_ij表示解码器i时刻计算的编码器j时刻隐藏层状态h_j的权重；

s′_t＝tanh(W*[c_t；s_t])，o′_t＝softmax(s′_t*W) (6)

公式(6)中，s′_t表示解码器新的隐藏层状态，W表示权重矩阵，c_t表示t时刻编码器隐藏层状态的加权平均，s_t表示t时刻解码器的隐藏层状态s_t，softmax是激活函数，用作多分类，tanh表示双曲正切函数。

优选的，所述S4具体包括以下步骤：

S4-1：在漏诊检测模型的输入端，输入病历文本的特征词向量矩阵

并在卷积核上经过卷积得到卷积特征：

公式(7)中，A_r表示窗口r的卷积特征，w’表示漏诊检测模型中待学习的权重矩阵，

表示输入特征词向量矩阵

的第l行到l+r-1行，r为窗口的大小，d为偏置参数，f为激活函数，·为点积运算；

S4-2：向下滑动窗口，可得到卷积特征向量A＝[A₁,A₂,…,A_n-r+1],n表示漏诊检测模型输入的词语个数；然后进行池化操作，从每个滑动窗口产生的特征向量A中筛选出p个最大的特征，然后将这些特征拼接起来构成病历文本向量表示V＝(v₁,v₂,…,v_p),p为卷积核的个数；

S4-3：获取病历文本向量表示V后，接入一个全连接层，输出所属ICD编码及名称的概率，从而输出第二ICD编码及名称：

q_t＝softmax(U*V) (8)

公式(8)中，q_t表示根据病历文本分析，样本所属标准ICD类别的概率，U为权重矩阵，V为病历文本向量表示。

综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

1)在无需人工干预的情况下，自动构建ICD编码系统所需疾病映射关系训练样本集，减小了人工构造样本集的成本。

2)通过深度学习技术，将不同风格下医生书写的诊断名称准确编码为标准的ICD疾病名称和编码，提高了ICD编码的准确率。

3)利用深度学习模型对病历文本进行实时分析，辅助医生发现可能的漏写、错写的疾病诊断，提升系统的查全率。

附图说明：

图1为根据本发明示例性实施例的一种基于病案的实时智能辅助ICD编码系统示意图。

图2为根据本发明示例性实施例的一种基于病案的实时智能辅助ICD编码方法流程示意图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种基于病案的实时智能辅助ICD编码系统，包括数据获取模块、数据预处理模块、特征向量构建模块、主编码模块、漏诊检测模块、ICD编码模块以及修正模块；

本实施例中，数据获取模块的输出端与数据预处理模块的输入端连接，数据预处理模块的输出端与特征向量构建模块的输入端连接，特征向量构建模块的的输出端分别与主编码模块和漏诊检测模块的输入端连接，ICD编码模块的输入端分别与主编码模块和漏诊检测模块的输出端连接，ICD编码模块的的输出端输出ICD编码给医生。

数据获取模块，用于获取ICD编码模块所需的训练病案数据，构建训练资料库；

数据预处理模块，用于对病案数据进行分词、去噪，重构基于二元组<医生书写诊断名，标准ICD名称>的疾病名称样本集；

特征向量构建模块，用于根据病案数据构建样本集，所述样本集包括疾病名称样本集和病历文本样本集，疾病名称样本集包括医生书写的疾病诊断名的特征字向量矩阵、标准ICD名称的特征字向量矩阵；病历文本样本集包括病历文本的特征词向量矩阵；

主编码模块：用于根据疾病名称样本集训练构建seq2seq+attention模型，并输出第一ICD编码及名称，并输出第一ICD编码及名称。

漏诊检测模块，基于病历文本样本集和给定ICD编码，训练漏诊检测模型为textCNN模型，并输出第二ICD编码及名称。

ICD编码模块，用于结合主编码模型和漏诊检测模型结果，实时推荐第三ICD编码及名称给医生，并提供人工干预机制。

修正模块，用于根据医生的反馈信息，修正疾病名称样本集中二元组<医生书写诊断名，标准ICD编码及名称>的错误，提高系统精度。

本发明旨在让医生参与到编码工作中来，利用seq2seq模型对病人疾病诊断名称进行建模，利用textCNN模型对病人病历文本进行建模。医生填写完病人的病案信息后，seq2seq模型作为主诊断模型，推荐与医生书写诊断相对应的ICD编码及名称供医生判断决策，同时textCNN作为漏诊检测模型，综合seq2seq模型的结果，发现医生可能遗漏的ICD编码及名称，最终实现辅助医生实时进行ICD编码及名称的任务。本发明利用医生和系统之间的实时交互，还能不断修正系统错误，从而提高系统的编码精度。

如图2所示，本发明还提供一种基于病案的实时智能辅助ICD编码方法，包括以下步骤：

S1：从医院的病历数据库获取所需病案数据。

本实施例中，训练病案数据包括：入院描述记录、出院描述记录、首次病程记录、化验检查记录、医生入院诊断、医生出院诊断、标准ICD编码及名称、病历文本等。

S2：对病案数据进行预处理与特征向量构建从而得到疾病名称样本集和病历文本样本集。

S2-1：构建主编码模型所需的疾病名称样本集：

本实施例中，主编码模型为seq2seq模型。假定某病案数据中，医生书写的疾病诊断名序列x＝{x₁,x₂,…,x_n},x_n为第n条疾病诊断名，标准ICD疾病名称y＝{y₁,y₂,…,y_m},y_m表示第m条标准ICD疾病名称，且y_m为x_n唯一对应的标准ICD疾病名称。

考虑到疾病名称样本集中<x_n,y_m>之间对应关系无法保证，因此需要先对其进行预处理，构建关系正确的疾病名称样本集，即二元组<医生书写的疾病诊断名，标准ICD疾病名称>：

a.对于每个x_n，分别与序列y中所有子序列进行计算得到相似度：

公式(1)中，similarity表示相似度，lcs表示求最长公共子序列的长度函数，len表示求长度函数。

b.选择与x_n相似度最大的y_m,若相似度大于阈值δ,则将<x_n,y_m>添加到主编码模型的疾病名称样本集中，并从序列y中删除y_m。

S2-2：对病历文本样本集进行中文分词从而构建词典，并分别训练词典的字、词向量。

首先利用分词工具将病历文本划分为单个的词，再通过Word2Vec或Glove等词向量工具训练产生词典及向量表示；类似的，将病历文本直接分解为单个的字符，再通过Word2Vec或Glove等训练产生字典及向量表示。

S2-3：对疾病名称样本集中每个样本，构建基于字的特征向量表示。

本实施例中，训练样本集包括医生书写的疾病诊断名的特征字向量矩阵

表示第n个位置对应标准ICD疾病名称的字向量。

表示第n个已知ICD疾病名称。

S3：基于疾病名称样本集，对主编码模型进行训练，从而得到seq2seq+attention模型，将疾病名称样本集输入seq2seq+attention模型，从而输出第一ICD编码及名称。

S3-1：构建seq2seq模型编码器，输入与医生书写的疾病诊断名相对应的特征字向量矩阵

得到隐藏层的状态h_t。

本实施例中，编码器的编码端采用循环神经网络，如RNN,LSTM,GRU等。以RNN为例，通过获取t时刻医生书写的疾病诊断名的字向量

结合t-1时间点的隐藏层的状态,从而获得t时间点的隐藏层的状态h_t。

隐藏层的状态h_t可表示为：

表示t时刻医生书写的疾病诊断名的字向量，h_t-1表示编码器t-1时刻隐藏层的状态。

S3-2：构建seq2seq模型解码器，输入隐藏层的状态h_t，获取t时刻解码器输出词典中字的概率分布向量。

本实施例中，解码器的解码端也是一个循环神经网络，如RNN,LSTM,GRU等。以RNN为例，输入t时刻标准ICD名称相对应的特征向量，和t-1时刻解码器的隐藏层状态s_t-1，从而获得t时刻解码器的隐藏层状态s_t以及输出o_t，o_t是一个n维向量，表示属于训练样本集中字的概率分布向量:

o_t＝softmax(V*h_t) (3)

公式(3)中，o_t表示解码器t时刻输出字的概率分布向量；h_t表示t时刻隐藏层的状态；V为循环神经网络权重矩阵；softmax是激活函数，用作多分类,它能将向量一个n维向量转换到另一个n维实向量中，使得每一个元素的范围

都在(0,1)之间，并且所有元素的和为1。

seq2seq模型作用可以理解为将一个序列“翻译”成另一个序列，即将医生书写的诊断翻译成标准ICD诊断，是从字到字的翻译。解码器每个时刻的输出是一个目标字典中字的概率分布向量，预测时选择概率最大的那个字作为模型的当前时刻的输出。

S3-3：引入attention机制，通过结合每个i时刻解码器的隐藏层状态s_i与j时刻编码器的隐藏层状态h_j，计算得到权重计算分数，用来计算编码器隐藏状态的权重，对于解码器的每一个时刻i,都要计算编码器所有隐藏状态的权重：

e_ij＝V^Ttanh(Ws_i,Uh_j) (4)

公式(4)中，e_ij表示解码器i时刻计算的对应编码器j时刻隐藏层状态h_j的权重计算分数，V、W、U表示权重矩阵，V^T表示权重转置矩阵，s_i表示i时刻解码器的隐藏层状态，h_j表示j时刻编码器的隐藏层状态，tanh表示双曲正切函数。

再计算每一个编码器i时刻隐藏层状态h_i的权重，从而得到上下文向量c,即解码器i时刻对应的编码器所有隐藏层状态的加权平均，

公式(5)中，c表示所有时刻编码器隐藏层状态的加权平均,T_x表示编码器隐藏层状态个数，α_ij表示解码器i时刻计算的编码器j时刻隐藏层状态h_j的权重，

公式(6)中，α_ij表示解码器i时刻计算的编码器j时刻隐藏层状态h_j的权重，e_ij表示解码器i时刻计算的编码器j时刻隐藏层状态h_j的权重计算分数，T_x表示编码器隐藏层状态个数，k代表编码器的k时刻，e_ik代表解码器i时刻计算的编码器k时刻隐藏层状态h_k的权重计算分数，这个得分用来计算编码器k时刻隐藏状态h_k的权重。

之后将得到的上下文向量c与解码器的隐藏层状态s_t结合起来得到新的解码器隐藏层状态s′_t，通过softmax函数得到主编码模型输出的字概率向量o′_t，从而得到解码器输出的字序列，即可得到第一ICD编码及名称。

s′_t＝tanh(W*[c_t；s_t])，o′_t＝softmax(s′_t*W) (7)

公式(7)中，s′_t表示解码器新的隐藏层状态，W表示权重矩阵，c_t表示t时刻编码器隐藏层状态的加权平均，s_t表示t时刻解码器的隐藏层状态s_t，softmax是激活函数，用作多分类，tanh表示双曲正切函数。

S3-4：初始化权重矩阵参数，训练主编码模型,将编码器最后t时刻的隐藏状态h_t作为解码器的初始状态，最后利用解码器输出计算交叉熵损失函数，建立训练完成的主编码模型。

编码器在t时刻的损失函数Loss_t为：

公式(8)中，k表示训练样本集中字的种类数量，即医生书写的疾病诊断名的种类数量，y是实际标签，即one_hot向量；y_i表示分量，如果实际的字是i，则y_i＝1，否则y_i＝0；o′_t表示主编码模型输出字的概率分布向量，由于分量只有一个1,其余全为0，损失函数可以表示成：loss_t＝-logp_i。

因此主编码模型的损失函数为：

公式(9)中，J表示主编码模型的损失函数，N表示时刻数的总量，Loss_t表示编码器在t时刻的损失函数Loss_t。

最小主编码模型的损失函数，利用优化方法进行权重的更新，最终得到训练完成的主编码模型，即seq2seq+attention的模型。

S4：基于训练病案数据中的病历文本，对漏诊检测模型完成训练，并输出第二ICD编码及名称。

本实施例中，对训练病案数据中的病历文本进行分词，可得到病历文本的特征词向量矩阵

表示第n个位置上病历文本的词向量，病历文本的特征词向量矩阵

输入漏诊检测模型(例如为textCNN模型)进行训练，可得到对应的第二ICD编码及名称。

S4-1：在漏诊检测模型的输入端，输入病历文本对应的特征词向量矩阵

每一个窗口的特征词向量在卷积核上经过一次卷积，得到卷积特征：

公式(10)中，A表示卷积特征，w’表示漏诊检测模型中待学习的权重矩阵，

表示输入特征词向量矩阵

的第l行到l+r-1行，r为窗口的大小，d为偏置参数，f为激活函数，·为点积运算。

S4-2：向下滑动窗口，分别在卷积核上卷积操作可得到A₁,A₂…等，然后将它们拼接起来得到特征向量A＝[A₁,A₂,…,A_n-r+1],n表示漏诊检测模型输入的词语个数，通过定义不同的窗口，提取出不同的特征向量，构成卷积层的输出；然后进行池化操作，从每个滑动窗口产生的特征向量A中筛选出p个最大的特征，然后将这些特征拼接起来构成病历文本向量表示V＝(v₁,v₂,…,v_p),p为卷积核的个数。

S4-3：获取病历文本向量表示V后，接入一个全连接层，并使用softmax函数输出所属ICD名称的概率，从而输出第二ICD编码及名称：

q_t＝softmax(U*V) (11)

公式(11)中，q_t表示根据病历文本分析，样本所属标准ICD类别的概率；U为权重矩阵；V表示医生书写的疾病诊断名文本的向量。

利用漏诊检测模型输出与实际目标值计算损失函数：

公式(12)中，Loss表示漏诊检测模型的交叉熵损失函数；

表示训练样本集中词的种类数量，即ICD种类数量；y_i是实际标签，如果实际的ICD是i，则y_i＝1，否则y_i＝0；o′_t表示主编码模型输出字的概率分布向量。

最小化漏诊检测模型的交叉熵损失函数，利用优化方法进行权重的更新，最终建立漏诊检测模型，即TextCNN模型。

S5:ICD编码模型的最终结果由漏诊检测模型与seq2seq模型结果求并集，如果存在漏诊检测模型中有但seq2seq模型没有的ICD编码，作为可疑的第三ICD编码推荐给医生。

为获得seq2seq模型编码结果，需要对医生书写的每一个疾病诊断返回其ICD编码及其置信度。方法为：将解码器中每一时刻输出概率最大的字作为主编码模型当前时刻的输出，并且将它作为解码器下一时刻的输入，最后获取主编码模型的输出序列；找出每一个输出序列与所有标准疾病名称中公共子序列最长的，将这个标准疾病名称对应的ICD编码作为推荐ICD编码,置信度为(公共子序列长度)/(标准疾病名称长度)。

为获得漏诊检测模型编码结果，需要将当前输入病历文本输入到TextCNN模型中，并选择模型输出中预测值高于σ的K个ICD类别，σ为人工设定的阈值。

如果医生对推荐的某个ICD编码及名称有异议，可以修改或取消。当医生需要修改某推荐的ICD编码及名称时，系统将自动推荐该疾病下相似的其它ICD疾病编码和名称，供医生选择。医生也可通过浏览方式手动选择其它ICD编码及名称。

S6：对医生干预并修改的ICD编码，意味着模型推荐有误，需要记录下本次修正的新的二元组信息<医生书写诊断名，修正的ICD编码及名称>，并更新训练样本集中。通过重新训练并更新主编码模型，可以不断提高本系统的ICD编码及名称的准确率。

本发明利用医生对患者病情熟悉，业务知识丰富的优点，将ICD编码环节前置，通过系统实时辅助医生编码的方式，在提高编码正确率的同时大大降低医生的工作量。

将ICD编码及名称问题视为一个“语言翻译”问题，利用深度学习中的seq2seq模型，实现了一种新的ICD编码及名称自动编码方式，不受传统规则系统的限制，对不同书写风格有更好的兼容性。

在获取的训练样本集中，无需人工指定“医生书写诊断名”与“标准ICD编码及名称”之间的映射关系，可通过本专利以无监督的方式自动构建，并提供错误修复机制自我完善该训练样本集。利用深度学习模型对病历文本进行理解和分析，辅助医生发现可能的漏写、错写的疾病诊断，提升系统的查全率。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种基于病案的实时智能辅助ICD编码系统，其特征在于，包括特征向量构建模块、主编码模块、漏诊检测模块以及ICD编码模块；其中，

构建编码器，计算编码器t时刻隐藏层的状态h_t：

构建解码器，输入编码器t时刻隐藏层的状态h_t，获取t时刻解码器输出字的概率分布向量：

o_t＝softmax(V*h_t) (3)

引入attention机制，通过结合每个i时刻解码器的隐藏层状态s_i与j时刻编码器的隐藏层状态h_j，计算得到权重计算分数：

e_ij＝V^Ttanh(Ws_i,Uh_j) (4)

再计算解码器i时刻对应的编码器所有隐藏层状态的加权平均c，并与解码器的隐藏层状态s_t相结合起来得到新的解码器隐藏层状态s'_t，通过softmax函数得到主编码模型输出的字概率向量o'_t，从而得到解码器输出的字序列，即可得到第一ICD编码及名称；

s'_t＝tanh(W*[c_t；s_t])，o'_t＝softmax(s'_t*W) (6)

公式(6)中，s'_t表示解码器新的隐藏层状态，W表示权重矩阵，c_t表示t时刻编码器隐藏层状态的加权平均，s_t表示t时刻解码器的隐藏层状态s_t，softmax是激活函数，用作多分类，tanh表示双曲正切函数；

在漏诊检测模型的输入端，输入病历文本的特征词向量矩阵

并在卷积核上经过卷积得到卷积特征：

表示输入特征词向量矩阵

向下滑动窗口，可得到卷积特征向量A＝[A₁,A₂,…,A_n-r+1],n表示漏诊检测模型输入的词语个数；然后进行池化操作，从每个滑动窗口产生的特征向量A中筛选出p个最大的特征，然后将这些特征拼接起来构成病历文本向量表示V＝(v₁,v₂,…,v_p),p为卷积核的个数；

获取病历文本向量表示V后，接入一个全连接层，输出所属ICD编码及名称的概率，从而输出第二ICD编码及名称：

q_t＝softmax(U*V) (8)

公式(8)中，q_t表示根据病历文本分析，样本所属标准ICD类别的概率；U为权重矩阵；V为病历文本向量表示；

2.如权利要求1所述的一种基于病案的实时智能辅助ICD编码系统，其特征在于，还包括数据获取模块和数据预处理模块；其中，

数据获取模块，用于从病历库中获取病案数据；

3.如权利要求1所述的一种基于病案的实时智能辅助ICD编码系统，其特征在于，还包括修正模块；所述修正模块，用于根据医生反馈的修正ICD编码及名称，以修正疾病名称样本集。

4.一种基于病案的实时智能辅助ICD编码方法，其特征在于，包括以下步骤：

S3-1：构建编码器，计算编码器t时刻隐藏层的状态h_t：

o_t＝softmax(V*h_t) (3)

e_ij＝V^Ttanh(Ws_i,Uh_j) (4)

s'_t＝tanh(W*[c_t；s_t])，o'_t＝softmax(s'_t*W) (6)

并在卷积核上经过卷积得到卷积特征：

表示输入特征词向量矩阵

q_t＝softmax(U*V) (8)

5.如权利要求4所述的一种基于病案的实时智能辅助ICD编码方法，其特征在于，所述S2包括以下步骤：

S2-1：构建主编码模型所需的疾病名称样本集，包括医生书写的疾病诊断名序列x＝{x₁,x₂,…,x_n},x_n为第n条医生书写的疾病诊断名，标准ICD疾病名称序列y＝{y₁,y₂,…,y_m},y_m表示第m条标准ICD疾病名称，且y_m为x_n唯一对应的标准ICD疾病名称；

表示第n个位置上标准ICD疾病名称的字向量；

表示第n个已知ICD疾病名称。

6.如权利要求5所述的一种基于病案的实时智能辅助ICD编码方法，其特征在于，所述S2-1中，疾病名称样本集的构建包括：