CN115270715B - 一种面向电子病历的智能辅助icd自动编码方法及系统 - Google Patents

一种面向电子病历的智能辅助icd自动编码方法及系统 Download PDF

Info

Publication number
CN115270715B
CN115270715B CN202111558533.8A CN202111558533A CN115270715B CN 115270715 B CN115270715 B CN 115270715B CN 202111558533 A CN202111558533 A CN 202111558533A CN 115270715 B CN115270715 B CN 115270715B
Authority
CN
China
Prior art keywords
convolution
residual
icd
matrix
electronic medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111558533.8A
Other languages
English (en)
Other versions
CN115270715A (zh
Inventor
程铭
李霏
雍刘亮
葛晓伟
梁盼
赵晓雷
熊蜀峰
牛承志
骆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Zhengzhou University
Original Assignee
First Affiliated Hospital of Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Zhengzhou University filed Critical First Affiliated Hospital of Zhengzhou University
Priority to CN202111558533.8A priority Critical patent/CN115270715B/zh
Publication of CN115270715A publication Critical patent/CN115270715A/zh
Application granted granted Critical
Publication of CN115270715B publication Critical patent/CN115270715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种面向电子病历的智能辅助ICD自动编码方法及系统,使用语料对BERT模型进行预训练后,获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达,之后使用含有多个尺度的卷积模块捕获不同长度的文本模式,并通过残差网络扩大接受域;接着,使用标签感知的注意力机制捕获与每个ICD代码最相关的n个连续出现的词语;最后,为临床记录分配ICD编码;本发明的方法和系统可分析医生所撰写电子病历中的疾病描述,自动给出患者的标准疾病诊断编码。

Description

一种面向电子病历的智能辅助ICD自动编码方法及系统
技术领域
本发明属于电子病历自动编码技术领域,具体涉及一种面向电子病历的智能辅助ICD 自动编码方法及系统。
背景技术
国际疾病分类(International Classification of Diseases,ICD),是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。传统的病例编码方法是由医院专门的编码员负责,手工进行ICD的编码,但编码效率低,人力成本高,目前在医院中普遍实行了电子病历,对病例的存储和统计工作有了很大的帮助。但是,与手写病例相同,在医疗临床中,电子病历的文本信息也充斥着各种医学术语、表述晦涩和含糊,且每个电子病历通常需要会涉及到多个标签;而且,临床记录往往拥有非常长的字符序列,但是其中仅有少部分关键文本片段与某一特定的ICD编码相关,同时,ICD编码的标签空间非常庞大,在ICD-9-CM中有超过22000个编码,而在新版的ICD-10-CM中有超过170000个编码,庞大的标签空间意味着标签分布存在不平衡的问题。因此,针对电子病历的自动ICD编码分类,因此目前并没有很好的方法或系统能够精确的实现电子病历的ICD 编码。
发明内容
本发明的目的是克服现有技术的不足而提供一种面向电子病历的智能辅助ICD自动编码方法。
本发明的技术方案如下:
本发明提出了一种面向电子病历的智能辅助ICD自动编码方法,包括以下步骤:
步骤1,用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练;其中,需要将语料按照BERT模型要求的格式输入,
步骤2,使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达;
步骤3,使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取,多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征,接着通过残差卷积层扩大接受范围,捕获更长的文本特征;所述残差卷积层包含多个并行的残差单元;
步骤4,每个ICD编码对应一个ICD编码标签,为每个ICD编码分配一个注意力向量,以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息,并构建注意力矩阵,构建方法如下:
首先将多尺度残差卷积神经网络的输出矩阵Xres变换矩阵维度,使输出矩阵Xres的第二维与标签向量的第二维一致,
Xr=tanh(XresWatt)
公式中,
Figure SMS_1
为改变维度后矩阵,
Figure SMS_2
为权重矩阵,然后为每个标签l生成注意力向量,并为每个编码生成注意力得分,得到注意力矩阵:
Figure SMS_3
Figure SMS_4
公式中,
Figure SMS_5
为标签l的向量表示,softmax为归一化指数函数,
Figure SMS_6
为在标签l前提下文档表示矩阵中第i行的注意力得分,
Figure SMS_7
为文档表示矩阵,Xr为标签l有关的行的加权平均值;
步骤5,ICD编码拥有树状层次结构关系,通过GCN图卷积网络捕捉ICD编码标签间的依赖关系(GCN网络需要训练来更新每个标签的向量表示,标签指得是ICD编码),并选取GCN图卷积神经网络输出的最后一层所形成的矩阵
Figure SMS_8
的子集
Figure SMS_9
作为最终的标签矩阵;
步骤6,根据步骤4得到的注意力矩阵
Figure SMS_10
和步骤5中的标签矩阵作为电子病历的分配类别,定义如下:
Figure SMS_11
公式中,
Figure SMS_12
为标签l的分类向量,
Figure SMS_13
为预测结果,表示是否将该标签分配给病人;
步骤7,通过最小化真实值yl与预测值
Figure SMS_14
的二元交叉熵损失函数来继续训练,使损失函数最小化:
损失函数:
Figure SMS_15
进一步的,在步骤2中,首先使用病历文本语料对BERT模型进行预训练,之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达,公式表示为:
X=BERT0(zn)
Figure SMS_16
公式中,X表示电子病历的向量表示,vi表示ICD编码向量表示,zn表示一段电子病历中临床记录的字的索引,n是电子病历临床记录的序列长度,
Figure SMS_17
表示第i条ICD编码描述的字索引;字索引是将文本中每个字用一个整数来表示;输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”,“[CLS]”是一个特殊索引,BERT会在“[CLS]”索引的位置输出一个向量,用来表示整句的隐含语义信息;对于医生录入的病历记录,保留BERT 输出的整个向量序列,
Figure SMS_18
对于第i条编码描述,只取“[CLS]”索引对应的向量
Figure SMS_19
表示所有ICD标签的向量表示,m表示ICD编码个数。
进一步的,步骤3中,特征抽取采用两个部分,分别为多尺度卷积层和残差卷积层,多尺度卷积层可以使用多个不同尺度的一维卷积模块捕获多种长度的文本模式,接着通过残差卷积层扩大接受范围,捕获更长的文本模式:
①多尺度卷积层
多尺度卷积层包含多个并行的不同尺度的一维卷积单元;假设多尺度卷积层拥有m个不同尺度的卷积核,它们对应的尺寸分别为
Figure SMS_20
对于给定的临床记录输入矩阵
Figure SMS_21
多尺度卷积操作可以被形式化地定义为:
Figure SMS_22
Figure SMS_23
其中,Λ(X,Wm)表示对矩阵X进行卷积操作,
Figure SMS_24
对应着权重矩阵,dc表示每个卷积层的特征映射维度,sm表示m种不同卷积尺度,
Figure SMS_25
为输入矩阵X的子矩阵,分别表示临床记录文本的第j个到第j+sm-1个字符的输入矩阵;最终的输出为m个特征矩阵,
Figure SMS_26
②残差卷积层
残差卷积层包含多个并行的残差单元,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,
Figure SMS_27
每个残差单元包含3个一维卷积单元,该单元可以通过扩大接受域来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;
接下来,以第k个尺度的卷积单元的输出矩阵Xk为第k个残差单元的输入为例,将残差单元形式化地定义为:
Figure SMS_28
Figure SMS_29
Figure SMS_30
其中,
Figure SMS_31
为残差单元中第ki个卷积单元的权重矩阵,具体的
Figure SMS_32
Figure SMS_33
每个残差单元输出为
Figure SMS_34
其中dr表示每个残差卷积层的特征映射维度;与多尺度卷积类似,采用与多尺度卷积层相同的方式对输入矩阵进行填充,以保证输出矩阵和临床记录矩阵的序列长度一致。
进一步的,步骤3中,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元对应3个一维卷积单元。
进一步的,步骤3中,所述残差卷积层最终输出所述残差单元的拼接,公式表达为:
Figure SMS_35
dres=(m×dr)
公式中,Xres表示残差卷积层最终输出,
Figure SMS_36
表示每个残差单元输出, k=1,2,…,m,其中dr表示每个残差卷积层的特征映射维度。
进一步的,步骤5中,针对标签l的向量表示vl,通过ICD编码标签的父标签和子标签间的依赖关系进行向量更新,第k次更新vl如下:
Figure SMS_37
其中,令
Figure SMS_38
f是激活函数,
Figure SMS_39
是权重矩阵,P和C分别是标签l的父标签集合和子标签集合。
本发明还提出了一种面向电子病历的智能辅助ICD自动编码系统,包括特征向量构建层、特征抽取层、标签感知的注意力层、标签结构抽取层和输出层;
特征向量构建层,利用训练后的BERT模型获取和标准疾病诊断ICD编码的向量表达;
特征抽取层,用于对待提取的电子病历记录使用含有多个尺度的卷积单元捕获不同长度的文本模式,并通过残差网络扩大接受域,捕获更长的文本模式,最终输出特征矩阵;
标签感知的注意力层,为每个ICD编码分配一个注意力向量,并为每个ICD编码生成注意力得分,得到临床记录注意力矩阵
标签结构抽取层,通过GCN图卷积网络捕捉标签间的依赖关系;并选取GCN图卷积神经网络输出的最后一层所形成的矩阵
Figure SMS_40
的子集
Figure SMS_41
作为最终的标签矩阵;
输出层,根据标签感知的注意力层输出的临床记录注意力矩阵和标签结构抽取层输出的标签矩阵为临床记录分配ICD编码类别。
本发明的工作原理是,自动ICD编码可以被视作基于临床记录的多标签文本分类问题,由于临床记录实例i的编码可以被表示成将标签空间中的所有标签l∈L映射到,(yi,l∈ {0,1}),yi,l=1表示将标签l分配给实例i;为了实现ICD编码自动分离,首先,使用含有多个尺度的卷积模块捕获不同长度的文本模式,并通过残差网络扩大接受域;接着,使用标签感知的注意力机制捕获与每个ICD代码最相关的n个连续出现的词语(n-gram),以克服临床记录冗长的问题;最后,通过|L|个二元分类器为临床记录分配ICD编码,实现ICD 分类。
与现有技术相比,本发明的有益效果是:
本发明可分析医生所撰写电子病历中的疾病描述,自动给出患者的标准疾病诊断编码的推荐;
利用专门的语料对BERT模型进行预训练,并将BERT模型的输出结果利用多尺度残差卷积神经网络进行特征提取,同时构建ICD标签编码矩阵,最终实现电子病历的ICD自动编码,相比于人工编码,可极大的提高病例的ICD分类效率;
本发明利用多尺度残差卷积神经网络进行特征提取,可灵活捕获多种长度的文本模式;构建的注意力矩阵模型可实现捕获文本与ICD编码之间的关联,防止标签的遗漏。
附图说明
图1为本发明实施例方法的流程图。
图2为现有的疾病诊断ICD编码与一并诊断名称的示意。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种面向电子病历的智能辅助ICD自动编码方法,包括以下步骤:
步骤1,用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练;其中,需要将语料按照BERT模型要求的格式输入,
步骤2,使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达;
其中,电子病历中疾病诊断描述包括诊疗经过和出院诊断文本,本发明中的电子病历与临床记录含义相同;
如图2所示,现有的标准疾病诊断编码包括疾病诊断编码:疾病诊断名称,例如,A09.901胃肠炎,A09.902结肠炎,A09.903婴儿腹泻,A09.904出血性肠炎;
例:患者电子病历中的诊疗经过:入院后完善相关检查;CT:诊断意见:考虑肠梗阻,粘连性(疑似)请结合临床;肠系膜、双侧腹股沟区可见增大淋巴结影;左侧睾丸未见;双肺底少许炎症;排除手术禁忌症后于2019年11月15日在全麻下行肠粘连松解术+小肠次全切除术+右半结肠切除术+左侧隐睾切除术,术后出现胃瘫及肠梗阻征象,给予对症支持治疗后不缓解,复查造影及消化内镜:见小肠上端狭窄,排除禁忌症后,于2019年12月 25日在全麻下行肠粘连松解术;术后恢复可,现患者一般情况可,生命体征平稳,现患者家属要求出院,告知出院后注意事项后给予办理出院。
出院诊断:1、肠粘连松解术+小肠次全切术+右半结肠切除术+左侧隐睾切除术2、肝功能损伤3、短肠综合征(疑似)
针对上述案例的电子病例的疾病描述,推荐的患者的标准疾病诊断编码为:主要诊断: K56.701不全性肠梗阻,其他诊断:K72.905肝功能不全、K91.201短肠综合征、Q53.102 单侧腹腔型隐睾;
步骤3,使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取,多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征,接着通过残差卷积层扩大接受范围,捕获更长的文本特征;所述残差卷积层包含多个并行的残差单元;
步骤4,采用一种标签感知的注意力机制克服临床记录中关键信息分散的问题:由于 ICD编码和ICD编码标签是一一对应的,如09.901胃肠炎,“09.901”是疾病诊断编码 ICD编码,“胃肠炎”是ICD编码的标签;因此在本步骤中,对ICD编码分配注意力向量也是为ICD编码标签分类一个注意力向量,具体的,为每个ICD编码分配一个注意力向量,以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息,并构建注意力矩阵,构建方法如下:
首先将多尺度残差卷积神经网络的输出矩阵Xres变换矩阵维度,使输出矩阵Xres的第二维与标签向量的第二维一致,
Xr=tanh(XresWatt)
公式中,
Figure SMS_42
为改变维度后矩阵,
Figure SMS_43
为权重矩阵,然后为每个标签l生成注意力向量,并为每个编码生成注意力得分,得到注意力矩阵:
Figure SMS_44
Figure SMS_45
公式中,
Figure SMS_46
为标签l的向量表示,softmax为归一化指数函数,
Figure SMS_47
为在标签l前提下文档表示矩阵中第i行的注意力得分,
Figure SMS_48
为文档表示矩阵,Xr为标签l有关的行的加权平均值;
步骤5,ICD编码拥有树状层次结构关系,通过GCN图卷积网络捕捉ICD编码标签间的依赖关系,以缓解标签不平衡问题,GCN网络需要训练来更新每个标签l向量表示,针对标签l的向量表示vl,因为ICD编码存在天然的树状层次关系,每个编码均存在父标签和子标签,可通过GCN捕捉通过ICD编码标签的父标签和子标签间的依赖关系进行向量更新,第k次更新vl如下:
Figure SMS_49
其中,令
Figure SMS_50
f是激活函数,
Figure SMS_51
是权重矩阵,P和C分别是标签l的父标签集合和子标签集合,P和C分别是标签l的父标签集合和子标签集合;选取GCN图卷积神经网络输出的最后一层所形成的矩阵
Figure SMS_52
的子集
Figure SMS_53
作为最终的标签矩阵;
需要说明的是,在进行标签结构抽取时,本发明使用的是整个“国家临床版2.0疾病诊断编码(ICD-10)”的编码,其中包含了在测试的数据集中没有的编码。
步骤6,根据步骤4得到的注意力矩阵
Figure SMS_54
和步骤5中的标签矩阵作为电子病历的分配类别,定义如下:
Figure SMS_55
公式中,
Figure SMS_56
为标签l的分类向量,
Figure SMS_57
为预测结果,表示是否将该标签分配给病人;
步骤7,通过最小化真实值yl与预测值
Figure SMS_58
的二元交叉熵损失函数来继续训练,使损失函数最小化:
损失函数:
Figure SMS_59
进一步的,在步骤2中,首先使用病历文本语料对BERT模型进行预训练,之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达,公式表示为:
X=BERT0(zn)
Figure SMS_60
公式中,X表示电子病历的向量表示,vi表示ICD编码向量表示,zn表示一段电子病历中临床记录的字的索引,n是电子病历临床记录的序列长度,
Figure SMS_61
表示第i条ICD编码描述的字索引;字索引是将文本中每个字用一个整数来表示;输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”,“[CLS]”是一个特殊索引,BERT会在“[CLS]”索引的位置输出一个向量,用来表示整句的隐含语义信息;对于医生录入的病历记录,保留BERT 输出的整个向量序列,
Figure SMS_62
对于第i条编码描述,只取“[CLS]”索引对应的向量
Figure SMS_63
表示所有ICD标签的向量表示,m表示ICD编码个数。
进一步的,步骤3中,特征抽取采用两个部分,分别为多尺度卷积层和残差卷积层,多尺度卷积层可以使用多个不同尺度的一维卷积模块捕获多种长度的文本模式,接着通过残差卷积层扩大接受范围,捕获更长的文本模式:
①多尺度卷积层
多尺度卷积层包含多个并行的不同尺度的一维卷积单元;假设多尺度卷积层拥有m个不同尺度的卷积核,它们对应的尺寸分别为
Figure SMS_64
对于给定的临床记录输入矩阵
Figure SMS_65
多尺度卷积操作可以被形式化地定义为:
Figure SMS_66
Figure SMS_67
其中,Λ(X,Wm)表示对矩阵X进行卷积操作,
Figure SMS_68
对应着权重矩阵,dc表示每个卷积层的特征映射维度,sm表示m种不同卷积尺度,
Figure SMS_69
为输入矩阵X的子矩阵,分别表示临床记录文本的第j个到第j+sm-1个字符的输入矩阵;最终的输出为m个特征矩阵,
Figure SMS_70
②残差卷积层
残差卷积层包含多个并行的残差单元,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,
Figure SMS_71
每个残差单元包含3个一维卷积单元,该单元可以通过扩大接受域来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;
接下来,以第k个尺度的卷积单元的输出矩阵Xk为第k个残差单元的输入为例,将残差单元形式化地定义为:
Figure SMS_72
Figure SMS_73
Figure SMS_74
其中,
Figure SMS_75
为残差单元中第ki个卷积单元的权重矩阵,具体的
Figure SMS_76
Figure SMS_77
每个残差单元输出为
Figure SMS_78
其中dr表示每个残差卷积层的特征映射维度;与多尺度卷积类似,采用与多尺度卷积层相同的方式对输入矩阵进行填充,以保证输出矩阵和临床记录矩阵的序列长度一致;所述残差卷积层最终输出所述残差单元的拼接,公式表达为:
Figure SMS_79
dres=(m×dr)
公式中,Xres表示残差卷积层最终输出,
Figure SMS_80
表示每个残差单元输出, k=1,2,…,m,其中dr表示每个残差卷积层的特征映射维度。
进一步的,步骤3中,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元对应3个一维卷积单元;残差单元可以通过扩大接受范围来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;假设第k个单元的卷积核的宽度为sk=3,多核卷积单元的输出X k的接受范围为3,即可以捕获tri-gram的特征,残差卷积单元第一层输出可以捕获 5-gram的特征,第二层输出可以捕获7-gram的特征,短路操作可以保持原有特征,从而防止网络退化。
进一步的,步骤1中所使用的BERT预训练语料包括真实的医疗机构的电子病历数据以及在互联网上爬取的临床文本;语料库包括不同的医学领域:心血管病学、脑科学、肾脏病学、妇产科学、胃肠外科学等;对于BERT模型的预训练,我们从现有的BERT检查点开始训练(checkpoint);现有基础BERT预训练模型采用google提供的中文 chinese_BERT_base_L-12_H-768_A-12;
真实的医疗机构的电子病历语料示例:
①胃肠外科学语料:患者以“进食哽咽感三个月”为主诉,初诊为“贲门肿瘤”,于2015年11月19日收入我科;于2015年11月25日全麻下行“食管下段贲门癌根治术(食管部分切除、贲门切除、胃部分切除、食管残胃主动脉弓下机械吻合、淋巴结清扫术),胸膜粘连烙断术”术程顺利,术后给予抗感染、祛痰、对症营养支持治疗;恢复良好;术后病理示:(贲门)中-低分化腺癌,浸润全层,两切缘未见癌,淋巴结转移癌(自检1/3,食管旁0/1,胃左0/4,胃小弯0/1,下肺韧带0/1);
②风湿免疫科语料:1年前无明显诱因出现双腕关节、足趾关节肿胀、疼痛,晨起加重,活动后减轻,受凉后加重,伴左上肢、腋窝多发包块,无红肿热痛,无发热、咳嗽,无光过敏、胸闷、气短,后自行给予止痛膏后疼痛减轻,后疼痛反复;11月前就诊于湖北省同济医院,诊断“类风湿关节炎”,给予“强的松5mg每早1片、迪巧每次1片每天 2次、甲氨蝶呤每周4片、叶酸片每周1片、来氟米特每次1片每天2次”口服1月,上述症状缓解,未再服用口服药治疗;3月前无明显诱因上述症状加重,再次就诊于湖北省同济医院,给予“强的松、甲氨蝶呤、叶酸、来氟米特、羟氯喹、帕夫林、纷乐”口服 1月后,自觉效果差,后就诊于当地诊所,给予中药治疗(具体药物不详),效果差;半月前无明显诱因出现右右上肢伸直后手指颤抖,为进一步诊疗,来我院,门诊以“类风湿关节炎”收住我科,自发病以来,食欲正常,睡眠正常,大小便正常,精神正常,体重无减轻;
互联网爬取的临床语料示例:叶酸含有丰富的营养成分,女性在怀孕早期可以选择适当的补充叶酸的方法来避免出现胎儿发育不良的症状,及时补充叶酸,可以避免女性怀孕期间胎儿出现神经管发育不良的危害,女性在怀孕期间出现了明显的贫血的症状,也可以适当的补充叶酸,但是一定要根据医生建议合理调整,也可以选择其他食疗方法来缓解贫血的症状;1、女性孕期贫血也可以通过补充叶酸的方法来有效的改善贫血的现象,可以避免胎儿早产或者发育畸形的现象,对胎儿的健康成长有很好的辅助效果,也可以适当通过食疗来补铁补血;2、孕妇如果出现了贫血的症状,也可以选择适当的吃一些叶酸进行调养平时多注意身体护理,可以选择食疗来进行滋补,适当的吃一些阿胶糕或者红枣粥都能够起到一定的补血作用;3、通过叶酸片具有一定的补铁补血和提高人体免疫力的效果,但是女性怀孕期间应该慎重的使用叶酸片,怀孕三个月之后应该停止使用药品,如果出现了贫血的症状,也可以选择食疗来辅助治疗疾病。
本发明还提出了一种面向电子病历的智能辅助ICD自动编码系统,包括特征向量构建层、特征抽取层、标签感知的注意力层、标签结构抽取层和输出层;
特征向量构建层,利用训练后的BERT模型获取和标准疾病诊断ICD编码的向量表达;
特征抽取层,用于对待提取的电子病历记录使用含有多个尺度的卷积单元捕获不同长度的文本模式,并通过残差网络扩大接受域,捕获更长的文本模式,最终输出特征矩阵;
标签感知的注意力层,为每个ICD编码分配一个注意力向量,并为每个ICD编码生成注意力得分,得到临床记录注意力矩阵
标签结构抽取层,通过GCN图卷积网络捕捉标签间的依赖关系;并选取GCN图卷积神经网络输出的最后一层所形成的矩阵
Figure SMS_81
的子集
Figure SMS_82
作为最终的标签矩阵;
输出层,根据标签感知的注意力层输出的临床记录注意力矩阵和标签结构抽取层输出的标签矩阵为临床记录分配ICD编码类别;
本系统是一种基于多尺度过滤器残差图卷积神经网络的ICD自动编码系统,实现了电子病历的ICD自动编码。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种面向电子病历的智能辅助ICD自动编码方法,其特征在于,包括以下步骤:
步骤1,用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练;
步骤2,使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达;
在步骤2中,首先使用病历文本语料对BERT模型进行预训练,之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达,公式表示为:
X=BERT0(zn)
Figure FDA0004126791160000011
公式中,X表示电子病历的向量表示,vi表示ICD编码向量表示,zn表示一段电子病历中临床记录的字的索引,n是电子病历临床记录的序列长度,
Figure FDA0004126791160000012
表示第i条ICD编码描述的字索引;字索引是将文本中每个字用一个整数来表示;输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”,“[CLS]”是一个特殊索引,BERT会在“[CLS]”索引的位置输出一个向量,用来表示整句的隐含语义信息;对于医生录入的病历记录,保留BERT输出的整个向量序列,
Figure FDA0004126791160000013
对于第i条编码描述,只取“[CLS]”索引对应的向量
Figure FDA0004126791160000014
表示所有ICD标签的向量表示,m表示ICD编码个数;
步骤3,使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取,多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征,接着通过残差卷积层扩大接受范围,捕获更长的文本特征;所述残差卷积层包含多个并行的残差单元;
步骤4,每个ICD编码对应一个ICD编码标签,为每个ICD编码分配一个注意力向量,以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息,并构建注意力矩阵,构建方法如下:
首先将多尺度残差卷积神经网络的输出矩阵Xres变换矩阵维度,使输出矩阵Xres的第二维与标签向量的第二维一致,
Xr=tanh(XresWatt)
公式中,
Figure FDA0004126791160000021
为改变维度后矩阵,
Figure FDA0004126791160000022
为权重矩阵,然后为每个标签l生成注意力向量,并为每个编码生成注意力得分,得到注意力矩阵:
Figure FDA0004126791160000023
Figure FDA0004126791160000024
公式中,
Figure FDA0004126791160000025
为标签l的向量表示,softmax为归一化指数函数,
Figure FDA0004126791160000026
为在标签l前提下文档表示矩阵中第i行的注意力得分,
Figure FDA0004126791160000027
为文档表示矩阵,Xr为标签l有关的行的加权平均值;
步骤5,ICD编码拥有树状层次结构关系,通过GCN图卷积网络捕捉ICD编码标签间的依赖关系,GCN网络需要训练来更新每个标签的向量表示,选取GCN图卷积神经网络输出的最后一层所形成的矩阵
Figure FDA0004126791160000028
的子集
Figure FDA0004126791160000029
作为最终的标签矩阵;
步骤6,根据步骤4得到的注意力矩阵
Figure FDA00041267911600000210
和步骤5中的标签矩阵作为电子病历的分配类别,定义如下:
Figure FDA00041267911600000211
公式中,
Figure FDA00041267911600000212
为标签l的分类向量,
Figure FDA00041267911600000213
为预测结果,表示是否将该标签分配给病人。
2.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于:还包括步骤7,通过最小化真实值yl与预测值
Figure FDA00041267911600000214
的二元交叉熵损失函数来继续训练,使损失函数最小化:
损失函数:
Figure FDA0004126791160000031
3.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于,步骤3中,特征抽取采用两个部分,分别为多尺度卷积层和残差卷积层:
①多尺度卷积层
多尺度卷积层包含多个并行的不同尺度的一维卷积单元;假设多尺度卷积层拥有m个不同尺度的卷积核,它们对应的尺寸分别为
Figure FDA0004126791160000032
对于给定的临床记录输入矩阵
Figure FDA0004126791160000033
多尺度卷积操作被形式化地定义为:
Figure FDA0004126791160000034
Figure FDA0004126791160000035
其中,Λ(X,Wm)表示对矩阵X进行卷积操作,
Figure FDA0004126791160000036
对应着权重矩阵,dc表示每个卷积层的特征映射维度,sm表示m种不同卷积尺度,
Figure FDA0004126791160000037
为输入矩阵X的子矩阵,分别表示临床记录文本的第j个到第j+sm-1个字符的输入矩阵;最终的输出为m个特征矩阵,
Figure FDA0004126791160000038
②残差卷积层
残差卷积层包含多个并行的残差单元,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,
Figure FDA0004126791160000039
每个残差单元包含3个一维卷积单元,该单元通过扩大接受域来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;
接下来,以第k个尺度的卷积单元的输出矩阵Xk为第k个残差单元的输入为例,将残差单元形式化地定义为:
Figure FDA0004126791160000041
Figure FDA0004126791160000042
Figure FDA0004126791160000043
其中,
Figure FDA0004126791160000044
为残差单元中第ki个卷积单元的权重矩阵,具体的
Figure FDA0004126791160000045
Figure FDA0004126791160000046
每个残差单元输出为
Figure FDA0004126791160000047
其中dr表示每个残差卷积层的特征映射维度;与多尺度卷积类似,采用与多尺度卷积层相同的方式对输入矩阵进行填充,以保证输出矩阵和临床记录矩阵的序列长度一致。
4.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于:步骤3中,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元对应3个一维卷积单元。
5.根据权利要求3所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于:步骤3中,所述残差卷积层最终输出所述残差单元的拼接,公式表达为:
Figure FDA0004126791160000048
dres=(m×dr)
公式中,Xres表示残差卷积层最终输出,
Figure FDA0004126791160000049
表示每个残差单元输出,k=1,2,…,m,其中dr表示每个残差卷积层的特征映射维度。
6.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于:步骤5中,针对标签l的向量表示vl,通过ICD编码标签的父标签和子标签间的依赖关系进行向量更新,第k次更新vl如下:
Figure FDA00041267911600000410
其中,令
Figure FDA00041267911600000411
f是激活函数,
Figure FDA00041267911600000412
是权重矩阵,P和C分别是标签l的父标签集合和子标签集合。
CN202111558533.8A 2021-12-17 2021-12-17 一种面向电子病历的智能辅助icd自动编码方法及系统 Active CN115270715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111558533.8A CN115270715B (zh) 2021-12-17 2021-12-17 一种面向电子病历的智能辅助icd自动编码方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111558533.8A CN115270715B (zh) 2021-12-17 2021-12-17 一种面向电子病历的智能辅助icd自动编码方法及系统

Publications (2)

Publication Number Publication Date
CN115270715A CN115270715A (zh) 2022-11-01
CN115270715B true CN115270715B (zh) 2023-04-18

Family

ID=83758514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111558533.8A Active CN115270715B (zh) 2021-12-17 2021-12-17 一种面向电子病历的智能辅助icd自动编码方法及系统

Country Status (1)

Country Link
CN (1) CN115270715B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708339B (zh) * 2024-02-05 2024-04-23 中南大学 一种基于预训练语言模型的icd自动编码方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3637431A1 (en) * 2018-10-12 2020-04-15 Fujitsu Limited Medical diagnostic aid and method
CN111540468B (zh) * 2020-04-21 2023-05-16 重庆大学 一种诊断原因可视化的icd自动编码方法与系统
CN111709233B (zh) * 2020-05-27 2023-04-18 西安交通大学 基于多注意力卷积神经网络的智能导诊方法及系统

Also Published As

Publication number Publication date
CN115270715A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Yamaguchi et al. Predicting the debonding of CAD/CAM composite resin crowns with AI
Solares et al. Deep learning for electronic health records: A comparative review of multiple deep neural architectures
US10784000B2 (en) Medical system interface apparatus and methods to classify and provide medical data using artificial intelligence
CN109670179B (zh) 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法
CN109710670B (zh) 一种将病历文本从自然语言转换为结构化元数据的方法
CN109741806B (zh) 一种医学影像诊断报告辅助生成方法及其装置
Nori et al. Simultaneous modeling of multiple diseases for mortality prediction in acute hospital care
CN110348019B (zh) 一种基于注意力机制的医疗实体向量转化方法
US20230207136A1 (en) Methods and systems for generating a vibrant compatbility plan using artificial intelligence
Li et al. MLEC-QA: A Chinese multi-choice biomedical question answering dataset
CN115270715B (zh) 一种面向电子病历的智能辅助icd自动编码方法及系统
CN110674641B (zh) 基于gpt-2模型的中文电子病历实体识别方法
CN112949308A (zh) 基于功能结构的中文电子病历命名实体识别方法及系统
Carroll et al. Vasopressin rescue for in-pediatric intensive care unit cardiopulmonary arrest refractory to initial epinephrine dosing: A prospective feasibility pilot trial
CN107705853A (zh) 临床营养风险筛查方法及系统
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
Yu et al. Identification of pediatric respiratory diseases using a fine-grained diagnosis system
Fang et al. The patterns and social determinants of breastfeeding in 12 selected regions in China: a population-based cross-sectional study
Tran et al. Exploiting the UMLS Metathesaurus for extracting and categorizing concepts representing signs and symptoms to anatomically related organ systems
CN114582353A (zh) 基于语音识别的电子病历自动生成方法及系统
Lee et al. Multimodal lecture presentations dataset: Understanding multimodality in educational slides
Chen et al. Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model
Dai et al. Phenotyping hypotensive patients in critical care using hospital discharge summaries
CN114758743A (zh) 信息预测方法、装置、存储介质及计算机设备
Zhou et al. Chronic disease diagnosis model based on convolutional neural network and ensemble learning method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant