CN115270715B - 一种面向电子病历的智能辅助icd自动编码方法及系统 - Google Patents
一种面向电子病历的智能辅助icd自动编码方法及系统 Download PDFInfo
- Publication number
- CN115270715B CN115270715B CN202111558533.8A CN202111558533A CN115270715B CN 115270715 B CN115270715 B CN 115270715B CN 202111558533 A CN202111558533 A CN 202111558533A CN 115270715 B CN115270715 B CN 115270715B
- Authority
- CN
- China
- Prior art keywords
- convolution
- residual
- icd
- matrix
- electronic medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000003745 diagnosis Methods 0.000 claims abstract description 34
- 201000010099 disease Diseases 0.000 claims abstract description 33
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 33
- 230000014509 gene expression Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 81
- 238000000605 extraction Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 229910052799 carbon Inorganic materials 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 125000000524 functional group Chemical group 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 3
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 20
- OVBPIULPVIDEAO-UHFFFAOYSA-N N-Pteroyl-L-glutaminsaeure Natural products C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)NC(CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-UHFFFAOYSA-N 0.000 description 10
- 229960000304 folic acid Drugs 0.000 description 10
- 235000019152 folic acid Nutrition 0.000 description 10
- 239000011724 folic acid Substances 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 208000002193 Pain Diseases 0.000 description 9
- 230000036407 pain Effects 0.000 description 9
- 208000024891 symptom Diseases 0.000 description 9
- 208000007502 anemia Diseases 0.000 description 6
- 230000035935 pregnancy Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 208000028659 discharge Diseases 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 230000007170 pathology Effects 0.000 description 4
- 238000002271 resection Methods 0.000 description 4
- 238000002560 therapeutic procedure Methods 0.000 description 4
- 206010000050 Abdominal adhesions Diseases 0.000 description 3
- 208000005577 Gastroenteritis Diseases 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 210000002318 cardia Anatomy 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 206010011498 Cryptorchism Diseases 0.000 description 2
- 206010058314 Dysplasia Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 206010049416 Short-bowel syndrome Diseases 0.000 description 2
- 201000000160 cryptorchidism Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000001605 fetal effect Effects 0.000 description 2
- 210000003754 fetus Anatomy 0.000 description 2
- 230000002496 gastric effect Effects 0.000 description 2
- 238000002695 general anesthesia Methods 0.000 description 2
- 238000007453 hemicolectomy Methods 0.000 description 2
- 208000003243 intestinal obstruction Diseases 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 210000001165 lymph node Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002980 postoperative effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 206010039073 rheumatoid arthritis Diseases 0.000 description 2
- 210000000813 small intestine Anatomy 0.000 description 2
- 210000002784 stomach Anatomy 0.000 description 2
- 230000008961 swelling Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010008479 Chest Pain Diseases 0.000 description 1
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 208000004232 Enteritis Diseases 0.000 description 1
- 108010010803 Gelatin Proteins 0.000 description 1
- 208000000857 Hepatic Insufficiency Diseases 0.000 description 1
- 206010019663 Hepatic failure Diseases 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 206010021518 Impaired gastric emptying Diseases 0.000 description 1
- 206010062717 Increased upper airway secretion Diseases 0.000 description 1
- 208000019637 Infantile Diarrhea Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- FBOZXECLQNJBKD-ZDUSSCGKSA-N L-methotrexate Chemical compound C=1N=C2N=C(N)N=C(N)C2=NC=1CN(C)C1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 FBOZXECLQNJBKD-ZDUSSCGKSA-N 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 208000005107 Premature Birth Diseases 0.000 description 1
- 206010036590 Premature baby Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000025747 Rheumatic disease Diseases 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 230000003872 anastomosis Effects 0.000 description 1
- 230000002924 anti-infective effect Effects 0.000 description 1
- 210000002376 aorta thoracic Anatomy 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 230000036528 appetite Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 201000011603 cardia cancer Diseases 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 206010009887 colitis Diseases 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000001079 digestive effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002526 effect on cardiovascular system Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 208000001288 gastroparesis Diseases 0.000 description 1
- 229920000159 gelatin Polymers 0.000 description 1
- 239000008273 gelatin Substances 0.000 description 1
- 235000019322 gelatine Nutrition 0.000 description 1
- 235000011852 gelatine desserts Nutrition 0.000 description 1
- 230000002008 hemorrhagic effect Effects 0.000 description 1
- 208000008384 ileus Diseases 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- VHOGYURTWQBHIL-UHFFFAOYSA-N leflunomide Chemical compound O1N=CC(C(=O)NC=2C=CC(=CC=2)C(F)(F)F)=C1C VHOGYURTWQBHIL-UHFFFAOYSA-N 0.000 description 1
- 229960000681 leflunomide Drugs 0.000 description 1
- 210000003041 ligament Anatomy 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 210000000713 mesentery Anatomy 0.000 description 1
- 229960000485 methotrexate Drugs 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 239000002674 ointment Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 208000026435 phlegm Diseases 0.000 description 1
- 210000004224 pleura Anatomy 0.000 description 1
- 235000021395 porridge Nutrition 0.000 description 1
- 229940102542 prednisone 5 mg Drugs 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000552 rheumatic effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000036262 stenosis Effects 0.000 description 1
- 208000037804 stenosis Diseases 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 210000001550 testis Anatomy 0.000 description 1
- 210000001226 toe joint Anatomy 0.000 description 1
- 229940126680 traditional chinese medicines Drugs 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 210000003857 wrist joint Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种面向电子病历的智能辅助ICD自动编码方法及系统,使用语料对BERT模型进行预训练后,获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达,之后使用含有多个尺度的卷积模块捕获不同长度的文本模式,并通过残差网络扩大接受域;接着,使用标签感知的注意力机制捕获与每个ICD代码最相关的n个连续出现的词语;最后,为临床记录分配ICD编码;本发明的方法和系统可分析医生所撰写电子病历中的疾病描述,自动给出患者的标准疾病诊断编码。
Description
技术领域
本发明属于电子病历自动编码技术领域,具体涉及一种面向电子病历的智能辅助ICD 自动编码方法及系统。
背景技术
国际疾病分类(International Classification of Diseases,ICD),是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。传统的病例编码方法是由医院专门的编码员负责,手工进行ICD的编码,但编码效率低,人力成本高,目前在医院中普遍实行了电子病历,对病例的存储和统计工作有了很大的帮助。但是,与手写病例相同,在医疗临床中,电子病历的文本信息也充斥着各种医学术语、表述晦涩和含糊,且每个电子病历通常需要会涉及到多个标签;而且,临床记录往往拥有非常长的字符序列,但是其中仅有少部分关键文本片段与某一特定的ICD编码相关,同时,ICD编码的标签空间非常庞大,在ICD-9-CM中有超过22000个编码,而在新版的ICD-10-CM中有超过170000个编码,庞大的标签空间意味着标签分布存在不平衡的问题。因此,针对电子病历的自动ICD编码分类,因此目前并没有很好的方法或系统能够精确的实现电子病历的ICD 编码。
发明内容
本发明的目的是克服现有技术的不足而提供一种面向电子病历的智能辅助ICD自动编码方法。
本发明的技术方案如下:
本发明提出了一种面向电子病历的智能辅助ICD自动编码方法,包括以下步骤:
步骤1,用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练;其中,需要将语料按照BERT模型要求的格式输入,
步骤2,使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达;
步骤3,使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取,多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征,接着通过残差卷积层扩大接受范围,捕获更长的文本特征;所述残差卷积层包含多个并行的残差单元;
步骤4,每个ICD编码对应一个ICD编码标签,为每个ICD编码分配一个注意力向量,以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息,并构建注意力矩阵,构建方法如下:
首先将多尺度残差卷积神经网络的输出矩阵Xres变换矩阵维度,使输出矩阵Xres的第二维与标签向量的第二维一致,
Xr=tanh(XresWatt)
步骤5,ICD编码拥有树状层次结构关系,通过GCN图卷积网络捕捉ICD编码标签间的依赖关系(GCN网络需要训练来更新每个标签的向量表示,标签指得是ICD编码),并选取GCN图卷积神经网络输出的最后一层所形成的矩阵的子集作为最终的标签矩阵;
进一步的,在步骤2中,首先使用病历文本语料对BERT模型进行预训练,之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达,公式表示为:
X=BERT0(zn)
公式中,X表示电子病历的向量表示,vi表示ICD编码向量表示,zn表示一段电子病历中临床记录的字的索引,n是电子病历临床记录的序列长度,表示第i条ICD编码描述的字索引;字索引是将文本中每个字用一个整数来表示;输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”,“[CLS]”是一个特殊索引,BERT会在“[CLS]”索引的位置输出一个向量,用来表示整句的隐含语义信息;对于医生录入的病历记录,保留BERT 输出的整个向量序列,对于第i条编码描述,只取“[CLS]”索引对应的向量表示所有ICD标签的向量表示,m表示ICD编码个数。
进一步的,步骤3中,特征抽取采用两个部分,分别为多尺度卷积层和残差卷积层,多尺度卷积层可以使用多个不同尺度的一维卷积模块捕获多种长度的文本模式,接着通过残差卷积层扩大接受范围,捕获更长的文本模式:
①多尺度卷积层
…
其中,Λ(X,Wm)表示对矩阵X进行卷积操作,对应着权重矩阵,dc表示每个卷积层的特征映射维度,sm表示m种不同卷积尺度,为输入矩阵X的子矩阵,分别表示临床记录文本的第j个到第j+sm-1个字符的输入矩阵;最终的输出为m个特征矩阵,
②残差卷积层
残差卷积层包含多个并行的残差单元,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元包含3个一维卷积单元,该单元可以通过扩大接受域来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;
接下来,以第k个尺度的卷积单元的输出矩阵Xk为第k个残差单元的输入为例,将残差单元形式化地定义为:
其中,为残差单元中第ki个卷积单元的权重矩阵,具体的 每个残差单元输出为其中dr表示每个残差卷积层的特征映射维度;与多尺度卷积类似,采用与多尺度卷积层相同的方式对输入矩阵进行填充,以保证输出矩阵和临床记录矩阵的序列长度一致。
进一步的,步骤3中,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元对应3个一维卷积单元。
进一步的,步骤3中,所述残差卷积层最终输出所述残差单元的拼接,公式表达为:
dres=(m×dr)
进一步的,步骤5中,针对标签l的向量表示vl,通过ICD编码标签的父标签和子标签间的依赖关系进行向量更新,第k次更新vl如下:
本发明还提出了一种面向电子病历的智能辅助ICD自动编码系统,包括特征向量构建层、特征抽取层、标签感知的注意力层、标签结构抽取层和输出层;
特征向量构建层,利用训练后的BERT模型获取和标准疾病诊断ICD编码的向量表达;
特征抽取层,用于对待提取的电子病历记录使用含有多个尺度的卷积单元捕获不同长度的文本模式,并通过残差网络扩大接受域,捕获更长的文本模式,最终输出特征矩阵;
标签感知的注意力层,为每个ICD编码分配一个注意力向量,并为每个ICD编码生成注意力得分,得到临床记录注意力矩阵
输出层,根据标签感知的注意力层输出的临床记录注意力矩阵和标签结构抽取层输出的标签矩阵为临床记录分配ICD编码类别。
本发明的工作原理是,自动ICD编码可以被视作基于临床记录的多标签文本分类问题,由于临床记录实例i的编码可以被表示成将标签空间中的所有标签l∈L映射到,(yi,l∈ {0,1}),yi,l=1表示将标签l分配给实例i;为了实现ICD编码自动分离,首先,使用含有多个尺度的卷积模块捕获不同长度的文本模式,并通过残差网络扩大接受域;接着,使用标签感知的注意力机制捕获与每个ICD代码最相关的n个连续出现的词语(n-gram),以克服临床记录冗长的问题;最后,通过|L|个二元分类器为临床记录分配ICD编码,实现ICD 分类。
与现有技术相比,本发明的有益效果是:
本发明可分析医生所撰写电子病历中的疾病描述,自动给出患者的标准疾病诊断编码的推荐;
利用专门的语料对BERT模型进行预训练,并将BERT模型的输出结果利用多尺度残差卷积神经网络进行特征提取,同时构建ICD标签编码矩阵,最终实现电子病历的ICD自动编码,相比于人工编码,可极大的提高病例的ICD分类效率;
本发明利用多尺度残差卷积神经网络进行特征提取,可灵活捕获多种长度的文本模式;构建的注意力矩阵模型可实现捕获文本与ICD编码之间的关联,防止标签的遗漏。
附图说明
图1为本发明实施例方法的流程图。
图2为现有的疾病诊断ICD编码与一并诊断名称的示意。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种面向电子病历的智能辅助ICD自动编码方法,包括以下步骤:
步骤1,用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练;其中,需要将语料按照BERT模型要求的格式输入,
步骤2,使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达;
其中,电子病历中疾病诊断描述包括诊疗经过和出院诊断文本,本发明中的电子病历与临床记录含义相同;
如图2所示,现有的标准疾病诊断编码包括疾病诊断编码:疾病诊断名称,例如,A09.901胃肠炎,A09.902结肠炎,A09.903婴儿腹泻,A09.904出血性肠炎;
例:患者电子病历中的诊疗经过:入院后完善相关检查;CT:诊断意见:考虑肠梗阻,粘连性(疑似)请结合临床;肠系膜、双侧腹股沟区可见增大淋巴结影;左侧睾丸未见;双肺底少许炎症;排除手术禁忌症后于2019年11月15日在全麻下行肠粘连松解术+小肠次全切除术+右半结肠切除术+左侧隐睾切除术,术后出现胃瘫及肠梗阻征象,给予对症支持治疗后不缓解,复查造影及消化内镜:见小肠上端狭窄,排除禁忌症后,于2019年12月 25日在全麻下行肠粘连松解术;术后恢复可,现患者一般情况可,生命体征平稳,现患者家属要求出院,告知出院后注意事项后给予办理出院。
出院诊断:1、肠粘连松解术+小肠次全切术+右半结肠切除术+左侧隐睾切除术2、肝功能损伤3、短肠综合征(疑似)
针对上述案例的电子病例的疾病描述,推荐的患者的标准疾病诊断编码为:主要诊断: K56.701不全性肠梗阻,其他诊断:K72.905肝功能不全、K91.201短肠综合征、Q53.102 单侧腹腔型隐睾;
步骤3,使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取,多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征,接着通过残差卷积层扩大接受范围,捕获更长的文本特征;所述残差卷积层包含多个并行的残差单元;
步骤4,采用一种标签感知的注意力机制克服临床记录中关键信息分散的问题:由于 ICD编码和ICD编码标签是一一对应的,如09.901胃肠炎,“09.901”是疾病诊断编码 ICD编码,“胃肠炎”是ICD编码的标签;因此在本步骤中,对ICD编码分配注意力向量也是为ICD编码标签分类一个注意力向量,具体的,为每个ICD编码分配一个注意力向量,以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息,并构建注意力矩阵,构建方法如下:
首先将多尺度残差卷积神经网络的输出矩阵Xres变换矩阵维度,使输出矩阵Xres的第二维与标签向量的第二维一致,
Xr=tanh(XresWatt)
步骤5,ICD编码拥有树状层次结构关系,通过GCN图卷积网络捕捉ICD编码标签间的依赖关系,以缓解标签不平衡问题,GCN网络需要训练来更新每个标签l向量表示,针对标签l的向量表示vl,因为ICD编码存在天然的树状层次关系,每个编码均存在父标签和子标签,可通过GCN捕捉通过ICD编码标签的父标签和子标签间的依赖关系进行向量更新,第k次更新vl如下:
需要说明的是,在进行标签结构抽取时,本发明使用的是整个“国家临床版2.0疾病诊断编码(ICD-10)”的编码,其中包含了在测试的数据集中没有的编码。
进一步的,在步骤2中,首先使用病历文本语料对BERT模型进行预训练,之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达,公式表示为:
X=BERT0(zn)
公式中,X表示电子病历的向量表示,vi表示ICD编码向量表示,zn表示一段电子病历中临床记录的字的索引,n是电子病历临床记录的序列长度,表示第i条ICD编码描述的字索引;字索引是将文本中每个字用一个整数来表示;输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”,“[CLS]”是一个特殊索引,BERT会在“[CLS]”索引的位置输出一个向量,用来表示整句的隐含语义信息;对于医生录入的病历记录,保留BERT 输出的整个向量序列,对于第i条编码描述,只取“[CLS]”索引对应的向量表示所有ICD标签的向量表示,m表示ICD编码个数。
进一步的,步骤3中,特征抽取采用两个部分,分别为多尺度卷积层和残差卷积层,多尺度卷积层可以使用多个不同尺度的一维卷积模块捕获多种长度的文本模式,接着通过残差卷积层扩大接受范围,捕获更长的文本模式:
①多尺度卷积层
…
其中,Λ(X,Wm)表示对矩阵X进行卷积操作,对应着权重矩阵,dc表示每个卷积层的特征映射维度,sm表示m种不同卷积尺度,为输入矩阵X的子矩阵,分别表示临床记录文本的第j个到第j+sm-1个字符的输入矩阵;最终的输出为m个特征矩阵,
②残差卷积层
残差卷积层包含多个并行的残差单元,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元包含3个一维卷积单元,该单元可以通过扩大接受域来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;
接下来,以第k个尺度的卷积单元的输出矩阵Xk为第k个残差单元的输入为例,将残差单元形式化地定义为:
其中,为残差单元中第ki个卷积单元的权重矩阵,具体的 每个残差单元输出为其中dr表示每个残差卷积层的特征映射维度;与多尺度卷积类似,采用与多尺度卷积层相同的方式对输入矩阵进行填充,以保证输出矩阵和临床记录矩阵的序列长度一致;所述残差卷积层最终输出所述残差单元的拼接,公式表达为:
dres=(m×dr)
进一步的,步骤3中,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元对应3个一维卷积单元;残差单元可以通过扩大接受范围来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;假设第k个单元的卷积核的宽度为sk=3,多核卷积单元的输出X k的接受范围为3,即可以捕获tri-gram的特征,残差卷积单元第一层输出可以捕获 5-gram的特征,第二层输出可以捕获7-gram的特征,短路操作可以保持原有特征,从而防止网络退化。
进一步的,步骤1中所使用的BERT预训练语料包括真实的医疗机构的电子病历数据以及在互联网上爬取的临床文本;语料库包括不同的医学领域:心血管病学、脑科学、肾脏病学、妇产科学、胃肠外科学等;对于BERT模型的预训练,我们从现有的BERT检查点开始训练(checkpoint);现有基础BERT预训练模型采用google提供的中文 chinese_BERT_base_L-12_H-768_A-12;
真实的医疗机构的电子病历语料示例:
①胃肠外科学语料:患者以“进食哽咽感三个月”为主诉,初诊为“贲门肿瘤”,于2015年11月19日收入我科;于2015年11月25日全麻下行“食管下段贲门癌根治术(食管部分切除、贲门切除、胃部分切除、食管残胃主动脉弓下机械吻合、淋巴结清扫术),胸膜粘连烙断术”术程顺利,术后给予抗感染、祛痰、对症营养支持治疗;恢复良好;术后病理示:(贲门)中-低分化腺癌,浸润全层,两切缘未见癌,淋巴结转移癌(自检1/3,食管旁0/1,胃左0/4,胃小弯0/1,下肺韧带0/1);
②风湿免疫科语料:1年前无明显诱因出现双腕关节、足趾关节肿胀、疼痛,晨起加重,活动后减轻,受凉后加重,伴左上肢、腋窝多发包块,无红肿热痛,无发热、咳嗽,无光过敏、胸闷、气短,后自行给予止痛膏后疼痛减轻,后疼痛反复;11月前就诊于湖北省同济医院,诊断“类风湿关节炎”,给予“强的松5mg每早1片、迪巧每次1片每天 2次、甲氨蝶呤每周4片、叶酸片每周1片、来氟米特每次1片每天2次”口服1月,上述症状缓解,未再服用口服药治疗;3月前无明显诱因上述症状加重,再次就诊于湖北省同济医院,给予“强的松、甲氨蝶呤、叶酸、来氟米特、羟氯喹、帕夫林、纷乐”口服 1月后,自觉效果差,后就诊于当地诊所,给予中药治疗(具体药物不详),效果差;半月前无明显诱因出现右右上肢伸直后手指颤抖,为进一步诊疗,来我院,门诊以“类风湿关节炎”收住我科,自发病以来,食欲正常,睡眠正常,大小便正常,精神正常,体重无减轻;
互联网爬取的临床语料示例:叶酸含有丰富的营养成分,女性在怀孕早期可以选择适当的补充叶酸的方法来避免出现胎儿发育不良的症状,及时补充叶酸,可以避免女性怀孕期间胎儿出现神经管发育不良的危害,女性在怀孕期间出现了明显的贫血的症状,也可以适当的补充叶酸,但是一定要根据医生建议合理调整,也可以选择其他食疗方法来缓解贫血的症状;1、女性孕期贫血也可以通过补充叶酸的方法来有效的改善贫血的现象,可以避免胎儿早产或者发育畸形的现象,对胎儿的健康成长有很好的辅助效果,也可以适当通过食疗来补铁补血;2、孕妇如果出现了贫血的症状,也可以选择适当的吃一些叶酸进行调养平时多注意身体护理,可以选择食疗来进行滋补,适当的吃一些阿胶糕或者红枣粥都能够起到一定的补血作用;3、通过叶酸片具有一定的补铁补血和提高人体免疫力的效果,但是女性怀孕期间应该慎重的使用叶酸片,怀孕三个月之后应该停止使用药品,如果出现了贫血的症状,也可以选择食疗来辅助治疗疾病。
本发明还提出了一种面向电子病历的智能辅助ICD自动编码系统,包括特征向量构建层、特征抽取层、标签感知的注意力层、标签结构抽取层和输出层;
特征向量构建层,利用训练后的BERT模型获取和标准疾病诊断ICD编码的向量表达;
特征抽取层,用于对待提取的电子病历记录使用含有多个尺度的卷积单元捕获不同长度的文本模式,并通过残差网络扩大接受域,捕获更长的文本模式,最终输出特征矩阵;
标签感知的注意力层,为每个ICD编码分配一个注意力向量,并为每个ICD编码生成注意力得分,得到临床记录注意力矩阵
输出层,根据标签感知的注意力层输出的临床记录注意力矩阵和标签结构抽取层输出的标签矩阵为临床记录分配ICD编码类别;
本系统是一种基于多尺度过滤器残差图卷积神经网络的ICD自动编码系统,实现了电子病历的ICD自动编码。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种面向电子病历的智能辅助ICD自动编码方法,其特征在于,包括以下步骤:
步骤1,用来自临床电子病历、医学文献和互联网上爬取的语料对BERT模型进行预训练;
步骤2,使用BERT模型获取电子病历中疾病诊断描述和标准疾病诊断ICD编码的向量表达;
在步骤2中,首先使用病历文本语料对BERT模型进行预训练,之后使用BERT模型获取疾病诊断描述和标准疾病诊断编码的向量表达,公式表示为:
X=BERT0(zn)
公式中,X表示电子病历的向量表示,vi表示ICD编码向量表示,zn表示一段电子病历中临床记录的字的索引,n是电子病历临床记录的序列长度,表示第i条ICD编码描述的字索引;字索引是将文本中每个字用一个整数来表示;输入到BERT模型的字索引的构成为“[CLS]”+文本+“[SEP]”,“[CLS]”是一个特殊索引,BERT会在“[CLS]”索引的位置输出一个向量,用来表示整句的隐含语义信息;对于医生录入的病历记录,保留BERT输出的整个向量序列,对于第i条编码描述,只取“[CLS]”索引对应的向量表示所有ICD标签的向量表示,m表示ICD编码个数;
步骤3,使用多尺度残差卷积神经网络对BERT模型的输出文本的向量表达进行特征提取,多尺度残差卷积神经网络先使用多个不同尺度的一维卷积单元捕获多种长度的文本特征,接着通过残差卷积层扩大接受范围,捕获更长的文本特征;所述残差卷积层包含多个并行的残差单元;
步骤4,每个ICD编码对应一个ICD编码标签,为每个ICD编码分配一个注意力向量,以确保能够捕捉到电子病历中记录的所有与该ICD编码相关的关键信息,并构建注意力矩阵,构建方法如下:
首先将多尺度残差卷积神经网络的输出矩阵Xres变换矩阵维度,使输出矩阵Xres的第二维与标签向量的第二维一致,
Xr=tanh(XresWatt)
步骤5,ICD编码拥有树状层次结构关系,通过GCN图卷积网络捕捉ICD编码标签间的依赖关系,GCN网络需要训练来更新每个标签的向量表示,选取GCN图卷积神经网络输出的最后一层所形成的矩阵的子集作为最终的标签矩阵;
3.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于,步骤3中,特征抽取采用两个部分,分别为多尺度卷积层和残差卷积层:
①多尺度卷积层
…
其中,Λ(X,Wm)表示对矩阵X进行卷积操作,对应着权重矩阵,dc表示每个卷积层的特征映射维度,sm表示m种不同卷积尺度,为输入矩阵X的子矩阵,分别表示临床记录文本的第j个到第j+sm-1个字符的输入矩阵;最终的输出为m个特征矩阵,
②残差卷积层
残差卷积层包含多个并行的残差单元,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元包含3个一维卷积单元,该单元通过扩大接受域来捕获更长的文本特征,并使用短路连接保证网络性能不会下降;
接下来,以第k个尺度的卷积单元的输出矩阵Xk为第k个残差单元的输入为例,将残差单元形式化地定义为:
4.根据权利要求1所述的面向电子病历的智能辅助ICD自动编码方法,其特征在于:步骤3中,将m个并行的残差单元与多尺度卷积层中对应的一维卷积单元相连,每个残差单元的卷积核大小与对应的一维卷积单元保持一致,每个残差单元对应3个一维卷积单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558533.8A CN115270715B (zh) | 2021-12-17 | 2021-12-17 | 一种面向电子病历的智能辅助icd自动编码方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111558533.8A CN115270715B (zh) | 2021-12-17 | 2021-12-17 | 一种面向电子病历的智能辅助icd自动编码方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270715A CN115270715A (zh) | 2022-11-01 |
CN115270715B true CN115270715B (zh) | 2023-04-18 |
Family
ID=83758514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111558533.8A Active CN115270715B (zh) | 2021-12-17 | 2021-12-17 | 一种面向电子病历的智能辅助icd自动编码方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270715B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708339B (zh) * | 2024-02-05 | 2024-04-23 | 中南大学 | 一种基于预训练语言模型的icd自动编码方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3637431A1 (en) * | 2018-10-12 | 2020-04-15 | Fujitsu Limited | Medical diagnostic aid and method |
CN111540468B (zh) * | 2020-04-21 | 2023-05-16 | 重庆大学 | 一种诊断原因可视化的icd自动编码方法与系统 |
CN111709233B (zh) * | 2020-05-27 | 2023-04-18 | 西安交通大学 | 基于多注意力卷积神经网络的智能导诊方法及系统 |
-
2021
- 2021-12-17 CN CN202111558533.8A patent/CN115270715B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115270715A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yamaguchi et al. | Predicting the debonding of CAD/CAM composite resin crowns with AI | |
Solares et al. | Deep learning for electronic health records: A comparative review of multiple deep neural architectures | |
US10784000B2 (en) | Medical system interface apparatus and methods to classify and provide medical data using artificial intelligence | |
CN109670179B (zh) | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 | |
CN109710670B (zh) | 一种将病历文本从自然语言转换为结构化元数据的方法 | |
CN109741806B (zh) | 一种医学影像诊断报告辅助生成方法及其装置 | |
Nori et al. | Simultaneous modeling of multiple diseases for mortality prediction in acute hospital care | |
CN110348019B (zh) | 一种基于注意力机制的医疗实体向量转化方法 | |
US20230207136A1 (en) | Methods and systems for generating a vibrant compatbility plan using artificial intelligence | |
Li et al. | MLEC-QA: A Chinese multi-choice biomedical question answering dataset | |
CN115270715B (zh) | 一种面向电子病历的智能辅助icd自动编码方法及系统 | |
CN110674641B (zh) | 基于gpt-2模型的中文电子病历实体识别方法 | |
CN112949308A (zh) | 基于功能结构的中文电子病历命名实体识别方法及系统 | |
Carroll et al. | Vasopressin rescue for in-pediatric intensive care unit cardiopulmonary arrest refractory to initial epinephrine dosing: A prospective feasibility pilot trial | |
CN107705853A (zh) | 临床营养风险筛查方法及系统 | |
CN112541066A (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
Yu et al. | Identification of pediatric respiratory diseases using a fine-grained diagnosis system | |
Fang et al. | The patterns and social determinants of breastfeeding in 12 selected regions in China: a population-based cross-sectional study | |
Tran et al. | Exploiting the UMLS Metathesaurus for extracting and categorizing concepts representing signs and symptoms to anatomically related organ systems | |
CN114582353A (zh) | 基于语音识别的电子病历自动生成方法及系统 | |
Lee et al. | Multimodal lecture presentations dataset: Understanding multimodality in educational slides | |
Chen et al. | Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model | |
Dai et al. | Phenotyping hypotensive patients in critical care using hospital discharge summaries | |
CN114758743A (zh) | 信息预测方法、装置、存储介质及计算机设备 | |
Zhou et al. | Chronic disease diagnosis model based on convolutional neural network and ensemble learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |