CN111540468A - 一种诊断原因可视化的icd自动编码方法与系统 - Google Patents

一种诊断原因可视化的icd自动编码方法与系统 Download PDF

Info

Publication number
CN111540468A
CN111540468A CN202010318879.XA CN202010318879A CN111540468A CN 111540468 A CN111540468 A CN 111540468A CN 202010318879 A CN202010318879 A CN 202010318879A CN 111540468 A CN111540468 A CN 111540468A
Authority
CN
China
Prior art keywords
diagnosis
data
doctor
vector
icd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010318879.XA
Other languages
English (en)
Other versions
CN111540468B (zh
Inventor
古平
王成尧
肖涵月
张程
卢勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010318879.XA priority Critical patent/CN111540468B/zh
Publication of CN111540468A publication Critical patent/CN111540468A/zh
Application granted granted Critical
Publication of CN111540468B publication Critical patent/CN111540468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种诊断原因可视化的ICD自动编码方法与系统,包括以下步骤:从病历文档库中获取病历数据,构建多标签分类数据集;对数据集进行预处理,将多标签分类的数据集转变为多个单标签分类的数据集;基于多个单标签分类的数据集完成层次注意力神经网络模型的训练;将医生书写诊断数据和病情描述数据输入到训练完成的层次注意力神经网络模型,从而得到预测ICD编码及名称;根据预测ICD名称,从病情描述数据提取对应的句子作为诊断原因可视化。本发明同时将医生书写诊断与病历描述数据作为模式特征,巧妙利用医生书写诊断作为分类过程中的监督信息,将传统多标签分类转化为更简单的单标签分类问题,从而提高了模型编码的准确性。

Description

一种诊断原因可视化的ICD自动编码方法与系统
技术领域
本发明涉及ICD编码技术领域,特别涉及一种诊断原因可视化的ICD自动编码方法与系统。
背景技术
随着医保政策的不断改革与落实,医院对病案的管理也更加标准化,电子病历作为医疗数据的载体被广泛应用。其中疾病分类编码是病案管理的主要工作之一,编码之后的电子病历能让医疗数据的管理和分析更加便捷。更精确的疾病分类能够加强医疗管理质量,让诊断检查、药品的决定、手术的安排更加合理有针对性。
国际疾病分类(ICD/International Classification of Diseases,)是由世界卫生组织维护的一个医疗分类系统,提供了疾病、病症、损伤、体征、症状等的诊断代码分级,目前作为一种主流编码使用。
目前对于疾病诊断编码工作,国内医院主要通过病案科室工作人员的手工编码完成,工作内容比较繁杂,同时难以避免因为疏忽而造成的编码错误。在临床的使用中,不同的医师有着不同的书写习惯,部分医师在填写诊断书时对疾病诊断名称把握不准确、不完整或者不规范,给编码工作带来了许多困难。
为了改进现有的编码工作现状,出现了一些运用计算机技术的编码方法例如基于联想匹配树的方法、基于Doc2vec与卷积神经网络的方法、基于多标签注意力卷积网络方法、融合条目词嵌入和注意力机制的自动ICD编码方法以及其他非神经网络的经典算法。
但现有技术存在以下问题:现有ICD编码方法和系统准确率不高,主要原因在于无论是深度模型还是其它机器学习模型,均只利用局部病历文本进行学习和分析,在ICD编码种类多达3万种的情况下,多标签分类很容易产生错误的ICD编码;自动编码结果缺乏可解释性,大多数的深度学习模型如同一个黑盒子,只能简单的给出预测结果,但做出该诊断和分类的具体原因确很模糊,这与实际编码人员的工作过程大相径庭,也增加了错误ICD编码被发现的难度。
发明内容
针对现有技术中ICD编码准确率低的问题,本发明提出一种诊断原因可视化的ICD自动编码方法与系统,通过利用医生在病案中书写的诊断名产生分类意图,并通过层次注意力模型推荐该病案相对应的ICD编码,以提高准确率。
为了实现上述目的,本发明提供以下技术方案:
一种诊断原因可视化的ICD自动编码系统,包括医生书写诊断编码模块、句编码模块、全文编码模块、ICD编码预测模块以及诊断原因可视化模块;其中,
所述医生书写诊断编码模块,用于将医生书写诊断数据进行编码,并生成医生书写诊断注意力向量;
所述句编码模块,用于根据医生书写诊断注意力向量,将注意力分配到语句的不同词条上,通过循环神经网络得到病情描述数据的句编码向量集合;
所述全文编码模块,用于根据医生书写诊断注意力向量,将注意力分配到病历的不同语句上,通过循环神经网络产生病情描述数据的编码向量;
所述ICD编码预测模块,用于对待预测病历和给定的医生书写诊断序列,输出预测ICD编码;
所述诊断原因可视化模块,用于对模型输出的每种预测ICD编码,基于注意力机制,提取在病历文本中相关的词或语句作为诊断理由依据。
优选的,还包括病历数据采集模块和数据预处理模块;其中,
所述病历数据采集模块,用于采集病历数据以构建多标签分类的数据集,所述数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据;
所述数据预处理模块,用于对多标签分类的数据集进行去噪和格式标准化,以及训练词向量模型,同时将多标签分类的数据集转变为单标签多分类的数据集。
本发明还提供一种诊断原因可视化的ICD自动编码方法,具体包括以下步骤:
S1:从病历文档库中获取病历数据构建多标签分类的数据集,多标签分类的数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据;
S2:对数据集进行预处理,并训练词向量模型,将多标签分类的数据集转变为单标签多分类的数据集,单标签多分类的数据集包括单个医生书写诊断、病情描述数据的句子集合、与单个医生书写诊断对应的单个标准ICD编码;
S3:基于单标签多分类的数据集完成层次注意力神经网络模型的训练;
S4:将待预测的医生书写诊断数据和病情描述数据输入到训练完成的层次注意力神经网络模型,从而得到预测ICD编码和名称;
S5:根据预测ICD编码和名称,从病情描述数据提取对应的句子作为诊断原因可视化。
优选的,所述S2,具体包括以下步骤:
S2-1:对多标签分类的数据集中原始病情描述数据和原始医生书写诊断数据进行清洗,从而得到病情描述数据和医生书写诊断数据,并训练词向量模型;
S2-2:将病情描述数据以句子为单位进行划分,得到病情描述数据的句子集合S={S1,S2,…,Sn},Sn表示病情描述数据的第n个句子;
S2-3:将多标签分类的数据集数据集中标准ICD编码数据与医生书写诊断数据进行一一对齐,从而将多标签分类数据集转化为单标签多分类数据集。
优选的,所述S2-3中,对齐的具体方法为:
S2-3-1:通过分隔符将医生书写诊断数据、标准ICD编码数据分别分为多个独立的医生书写诊断与标准ICD编码,得到医生书写诊断集合A={A1,A2,…Ai},Ai表示第i个医生书写诊断,以及标准ICD编码疾病名称集合B={B1,B2,…Bj},Bj表示第j个标准ICD编码疾病名称,并使用以下公式进行相似度计算:
Figure BDA0002460562750000041
公式(1)中,similarity(Ai,Bj)表示单个医生书写诊断Ai和单个标准ICD编码疾病名称Bj集合之间的相似度,lcs(Ai,Bj)代表集合Ai与Bj中最长公共子串的长度,len(Ai)代表单个医生书写诊断Ai的字符串的长度;
S2-3-2:对于任意一个医生书写诊断Ai,计算其与每一个标准ICD编码疾病名称Bj的相似度,并取出相似度最高的标准ICD编码疾病名称Bj;若相似度大于或等于阈值similarity阈值,则与该医生书写诊断对齐得到<Ai,Bj>,并将Ai与Bj从原有集合中删除;若低于阈值similarity阈值,则视为医生书写诊断无法与标准ICD编码匹配,将Ai从医生书写诊断集合中删除;重复进行直到集合A或B为空。
优选的,所述S3中,层次注意力神经网络模型的训练步骤为:
S3-1:以单个词条为单位将每个医生书写诊断进行分词,得到医生书写诊断的词条集合,并配合训练完成的词向量模型进行映射,获取其词向量形式,从而得到医生书写诊断的输入向量C={Ci1,Ci2,…,Cim},Cim表示第i个医生书写诊断的第m个词向量;
S3-2:对医生书写诊断的输入向量C进行编码,并生成医生书写诊断注意力向量hz
S3-3:将病情描述数据的每个语句Sn使用分词工具进行分词得到对应词条,并配合训练完成的词向量模型进行映射,获取其词向量形式,得到病情描述数据第n个句子的输入向量D=[Dn1,Dn2,…,Dnk],Dnk表示病情描述数据中第n个句子的第k个词向量,同时引入医生书写诊断注意力向量hz,得到病情描述数据的句编码向量集合
Figure BDA0002460562750000051
Figure BDA0002460562750000052
公式(2)中,
Figure BDA0002460562750000053
表示病情描述数据中第n个句子的句编码向量;hnk表示Dnk输入到句编码模块的循环神经网络模型后的隐藏状态;W1为可学习的参数;αnk表示第n个句子的第k个词的注意力分配值;unk表示词向量Dnk与注意力向量hz在词向量空间中的余弦相似度;hz表示医生书写诊断注意力向量,k表示第k个词;
S3-4:结合医生书写诊断注意力向量hz和病情描述数据的句编码向量集合
Figure BDA0002460562750000054
完成对病情描述数据中文档内容的编码,得到病情描述数据的编码向量:
Figure BDA0002460562750000055
公式(3)中,v表示病情描述数据的编码向量;βn表示第n个句子的注意力权重,注意力权重越高代表该句子在病情描述数据中的重要性更高;
Figure BDA0002460562750000056
表示病情描述数据中第n个句子的句编码向量;un表示词向量空间中医生书写诊断注意力向量hz与病情描述数据中第n个句子的句编码向量
Figure BDA0002460562750000057
的余弦相似度,W2为可学习的参数;hz表示医生书写诊断注意力向量;
S3-5:结合病情描述数据的编码向量v和医生书写诊断注意力向量hz,拼接为最后的完整向量表示[v hz],在层次注意力神经网络模型的最后一层使用该完整向量[v hz]进行全连接分类输出,并使用sigmoid激活函数将每一个标签的预测概率输出值映射到区间[0,1];
S3-6:采用二分类交叉熵(binary crossentropy)计算损失函数L,公式如下:
Figure BDA0002460562750000061
公式(6)中,yi表示数据集中给定样本标签[y1,y2,…yn]中第i个标签的真实标注分类;pi表示模型预测输出第i个标签预测为真的概率,即单标签多分类的数据集中,样本预测为第i个标签对应的标准ICD编码的概率;
当模型分类性能在测试集上不再提升时,停止模型的训练,保存当前模型参数权重,到此完成模型的训练。
优选的,所述S5中,诊断原因可视化的方法为:
S5-1:对于每一个医生书写诊断Ai,都会进行一次单标签分类运算,从模型中提取该次预测运算中句子层次的注意力权重分配参数βi,即每一个医生书写诊断Ai,病情描述数据中每个句子都有相对应的一个注意力权重分配参数βi,并从大到小进行排序,得到大小排列的若干权重参数集合[β12,…βm],βm表示第m个权重参数,根据权重参数从病情描述数据句子集合S中取出前K个与之对应的句子,作为该次分类的诊断理由依据;
S5-2:重复步骤S5-1直到医生书写诊断集合中每一个医生书写诊断Ai都得到预测ICD名称与对应的诊断原因可视化。
综上所述,由于采用了上述技术方案,与现有技术相比,本发明至少具有以下有益效果:
1.将医生书写诊断与病历描述数据作为模式特征,巧妙利用医生书写诊断作为分类过程中的监督信息,将传统多标签分类转化为更简单的单标签分类问题,提高了模型编码的准确性。
2.利用医生书写诊断作为注意力机制,改进了传统神经网络模型,通过对文本中与当前诊断相关的词、语句等分配不同的注意力,使得ICD编码的正确性和合理性得到支持。
3.与传统方法和模型的“黑盒”特性不同,在实现ICD自动编码的同时,可以以更透明的方式呈现每种疾病编码的具体原因,增加了结果的可解释性,更符合医院编码人员的使用习惯。
附图说明:
图1为根据本发明示例性实施例的一种诊断原因可视化的ICD自动编码系统示意图。
图2为根据本发明示例性实施例的一种诊断原因可视化的ICD自动编码方法流程示意图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示,本发明提供一种诊断原因可视化的ICD自动编码系统,包括病历数据采集模块、数据预处理模块、医生书写诊断编码模块、句编码模块、全文编码模块、ICD编码预测模块以及诊断原因可视化模块;
本实施例中,病历数据采集模块的输出端与数据预处理模块的输入端连接,数据预处理模块的输出端分别与医生书写诊断编码模块和句编码模块的第一输入端连接,医生书写诊断编码模块的输出端分别与句编码模块第二输入端、全文编码模块的第一输入端和ICD编码预测模块的第一输入端连接,句编码的输出端与全文编码模块的第二输入端连接,全文编码模块的输出端与ICD编码预测模块的第二输入端连接,ICD编码预测模块的第一输出端输出预测ICD编码给医生,ICD编码预测模块的第二输出端与诊断原因可视化模块的输入端连接。
病历数据采集模块,用于采集病历数据,构建多标签分类的数据集,多标签分类的数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据,即多标签分类的数据集中每条训练数据包括:至少一条医生书写诊断数据、1条病情描述数据、至少一条标准ICD编码数据。
数据预处理模块,用于对多标签分类的数据集进行去噪和格式标准化等操作,训练词向量模型,同时将多标签分类的数据集转变为单标签多分类的数据集。
医生书写诊断编码模块,用于将医生书写诊断数据进行编码,并生成医生书写诊断注意力向量。
句编码模块,用于根据医生书写诊断注意力向量,将注意力分配到语句的不同词条上,通过循环神经网络得到病情描述数据的句编码向量集合。
全文编码模块,用于根据医生书写诊断注意力向量,将注意力分配到病历的不同语句上,通过循环神经网络产生病情描述数据的编码向量。
ICD编码预测模块,用于对待预测病历和给定的医生书写诊断序列,输出预测ICD编码。
诊断原因可视化模块,用于对模型输出的每种预测ICD编码,基于注意力机制,提取在病历文本中相关的词或语句作为诊断理由依据。
如图2所示,本发明还提供一种诊断原因可视化的ICD自动编码方法,具体包括以下步骤:
S1:从病历文档库中获取病历数据作为数据集,数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据。
本实施例中,获取的病历数据包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据(这里加上原始是为了后续预处理,已进行区别。)。其中医生书写诊断数据,为医生在出院记录中书写的1~多条病情诊断数据;原始病情描述数据,应是与所述医生书写诊断数据因果关系最强的病情描述,包括但不限于主诉、现病史以及首次病程等数据;标准ICD编码数据,为人工标注的正确ICD编码,每个病历数据中的ICD编码数量根据病人具体病情为一个或多个。因此ICD编码问题表现为多标签分类问题,即数据集中一条病情记录可能对应有k个ICD编码(标签)。。
S2:对数据集进行预处理,将多标签分类的数据集转变为单标签多分类的数据集,单标签多分类数据集包括单个医生书写诊断、病情描述数据的句子集合、与单个医生书写诊断对应的单个标准ICD编码。
本实施例中,通过删除数据集中不完整或有明显错误的内容,保证数据内容的正确性与规范性。
S2-1:对数据集中原始病情描述数据和原始医生书写诊断数据使用计算机算法进行清洗,从而分别得到标准、格式规范的病情描述数据和医生书写诊断数据。
其中清洗方法包括但不限于:(1)将阿拉伯数字转换为中文数字;(2)将医学上专业名词的英文字母缩写还原为中文完整名称;(3)删除不正常或不标准的文字,如在病历中重复多次的同一段不相关文字,或在输入过程中失误操作造成的无意义文字输入。
本实施例中,将病情描述数据作为语料,使用词向量工具(如Word2Vec)训练词向量模型。
S2-2:将病情描述数据以句子为单位进行划分,得到病情描述数据的句子集合S={S1,S2,…,Sn},Sn表示病情描述数据的第n个句子。
本实施例中,将病情描述数据以句子为单位进行划分,划分点可以参考常见句末标点符号,如句号、感叹号、问号等;为防止分句数目过多的情况,可将长度过短的句子并入相邻的前一句话中,从而得到病情描述数据的句子集合S={S1,S2,…,Sn},Sn表示病情描述数据的第n个句子。
S2-3:将数据集中标准ICD编码数据与医生书写诊断数据进行一一对齐,从而多标签分类数据集转化为单标签多分类数据集,即将数据集中一条含有k个ICD编码(标签)的数据划分为k条单标签数据,其中每条单标签数据只含有一个ICD编码(标签)。对齐方法如下:
S2-3-1:对医生书写诊断数据与标准ICD编码数据,如果存在多个医生书写诊断与标准ICD编码,先通过分隔符,如“,”或“;”等,将它们分为多个独立的医生书写诊断与标准ICD编码,可得到医生书写诊断集合A={A1,A2,…Ai},Ai表示第i个医生书写诊断,与标准ICD编码疾病名称集合B={B1,B2,…Bj},Bj表示第j个标准ICD编码疾病名称,使用以下公式进行相似度计算:
Figure BDA0002460562750000101
公式(1)中,similarity(Ai,Bj)表示单个医生书写诊断Ai和单个标准ICD编码疾病名称Bj集合之间的相似度,lcs(Ai,Bj)代表集合A与B中最长公共子串的长度,len(Ai)代表单个医生书写诊断Ai的字符串的长度;
S2-3-2:对于任意一个医生书写诊断Ai,使用公式(1)计算其与每一个标准ICD编码疾病名称Bj的相似度,并取出相似度最高对应的标准ICD编码疾病名称Bj;若相似度大于或等于阈值similarity阈值,则与该医生书写诊断对齐得到<Ai,Bj>,并将Ai与Bj从原有集合中删除;若低于阈值similarity阈值,则视为医生书写诊断无法与标准ICD编码匹配,那么从完整ICD列表中进行精准度阈值更高的相似度匹配,然后将Ai从医生书写诊断集合中删除。重复进行直到集合A或B为空。
对齐操作的好处是,将一个多标签分类的样本变为了多个单标签多分类样本,单标签多分类样本的内容包括三部分:医生书写诊断Ai;病情描述数据的句子Sn;与医生书写诊断Ai对应的标准ICD编码Bj,这样可减少数据集的复杂度,提高计算的速度与精度。
将医生书写诊断集合中的每一个医生书写诊断Ai与病情描述数据的句子S={S1,S2,…,Sn}共同作为一个单标签多分类待测样本。至此,将原本为多标签分类的单条待预测样本预处理为多条单标签多分类待预测样本,得到层次注意力神经网络模型需要的输入内容。
S3:完成层次注意力神经网络模型的训练,并输入单标签多分类数据集。
本实施例中,层次注意力神经网络模型接收三个部分数据:医生书写诊断Ai和病情描述数据的句子Sn作为输入,标准ICD编码Bj作为输出。
S3-1:获取医生书写诊断的输入向量,并输入医生书写诊断编码模块。
对每个医生书写诊断Ai,以单个词条为单位进行分词,得到医生书写诊断的词条集合,则对每个词条来说,配合词向量模型进行映射,获取其词向量形式,从而得到医生书写诊断的输入向量C={Ci1,Ci2,…,Cim},Cim表示第i个医生书写诊断的第m个词向量,并将医生书写诊断的输入向量C输入到医生书写诊断编码模块中循环神经网络的输入层。
S3-2:对医生书写诊断的输入向量C进行编码,并生成医生书写诊断注意力向量hz
本实施例中,将医生书写诊断的输入向量C={Ci1,Ci2,…,Cim}通过GRU(GateRecurrent Unit)循环神经网络层编码为医生书写诊断向量表示序列。GRU中包含重置门rt和更新门zt,这两种门共同控制GRU的状态更新。
本实施例中,在医生书写诊断向量表示序列输入的第t个时刻,GRU的隐藏状态ht由如下公式进行计算:
Figure BDA0002460562750000121
zt=σ(Wχt+Uht-1+b),
Figure BDA0002460562750000122
公式(2)中,ht表示t时刻GRU的隐藏状态;ht-1表示t-1时刻GRU的隐藏状态;zt表示GRU的更新门,决定了旧状态与新状态在t时刻的保留比例;⊙表示数乘向量操作;
Figure BDA0002460562750000123
表示t时刻GRU的备选隐藏状态,σ表示sigmoid激活函数;χt代表t时刻的输入内容(即医生书写诊断的输入向量C),W、U和b为模型中可学习的参数。
本实施例中,重置门rt决定了t-1时刻GRU的隐藏状态ht-1对t时刻GRU的备选隐藏状态
Figure BDA0002460562750000124
的影响程度,其计算公式如下:
rt=σ(Wχt+Uht-1+b) (3)
重置门rt和更新门zt的计算公式一样,但因位于模型中不同的位置,因此起到不同的功能作用。
即运用GRU层进行医生书写诊断的编码,医生书写诊断张量全部经过GRU运算后,将GRU层隐藏单元的末状态(即z时刻的隐藏层状态)hz作为医生书写诊断的注意力向量。
S3-3:将病情描述数据分解成多个词条,配合词向量模型得到病情描述数据的输入向量,并输入到句编码模块,同时引入注意力向量hz作为外部意图,以实现注意力在不同词条上的分配,得到病情描述数据的句编码向量集合。
本实施例中,将病情描述数据的句子集合S中每个语句Sn使用分词工具(如jieba)进行分词得到对应词条,对于单个词条,配合词向量模型(如Word2Vec等)进行映射,获取其词向量形式;直到将每个词条进行向量化,可得到病情描述数据中第n个句子的输入向量D=[Dn1,Dn2,…,Dnk],Dnk表示病情描述数据中第n个句子的第k个词向量;并将病情描述数据的输入向量D输入到句编码模块的循环神经网络模型(GRU)输入层,同时引入医生书写诊断注意力向量hz作为外部意图,以实现注意力在不同词条上的分配,从而得到相应的句编码向量
Figure BDA0002460562750000131
以及整个病情描述数据的句编码向量集合
Figure BDA0002460562750000132
Figure BDA0002460562750000133
unk=tanh[(hzW1)·hnk],
Figure BDA0002460562750000134
公式(4)中,
Figure BDA0002460562750000135
表示病情描述数据中第n个句子的句编码向量;hnk表示Dnk输入到句编码模块的循环神经网络模型后的隐藏状态;W1为可学习的参数;αnk表示第n个句子的第k个词的注意力分配值;unk表示词向量Dnk与hz在词向量空间中的余弦相似度;hz表示医生书写诊断注意力向量,k表示第k个词。
S3-4:结合医生书写诊断注意力向量hz和病情描述数据的句编码向量集合
Figure BDA0002460562750000136
使用GRU完成对病情描述中所有文档内容的编码,得到病情描述数据的编码向量:
Figure BDA0002460562750000137
公式(5)中,v表示病情描述数据的编码向量;βn表示第n个句子的注意力权重,注意力权重越高代表该句子在病情描述数据中的重要性更高;
Figure BDA0002460562750000138
表示病情描述数据中第n个句子的句编码向量;un表示词向量空间中医生书写诊断注意力向量hz与病情描述数据中第n个句子的句编码向量
Figure BDA0002460562750000139
的余弦相似度;W2为可学习的参数;hz表示医生书写诊断注意力向量。
S3-5:结合病情描述数据的编码向量v和医生书写诊断注意力向量hz,拼接为最后的完整向量表示[v hz],在层次注意力神经网络模型的最后一层使用该完整向量[v hz]进行全连接分类输出,并使用激活函数:
Figure BDA0002460562750000141
将每一个标签的预测概率输出值映射到区间[0,1],以满足损失函数的运算条件。
S3-6:层次注意力神经网络模型的训练过程中,输出层的内容为one-hot化的标准ICD编码疾病名称Bj,one-hot映射之后输出层的内容为[y1,y2,…yn],yn表示标准ICD编码Bj在one-hot向量中对应下标的标签;只有Bj对应下标的yn的值为“1”,[y1,y2,…yn]中除yn的所有的值皆为“0”。训练时模型输出层中的输出内容为[y1,y2,…yn],即该条训练样本中标准ICD编码疾病名称Bj经过one-hot映射之后的向量,只有Bj对应下标的标签yn的值为“1”,其余值皆为“0”,训练集中的所有参与训练的标准ICD编码中,每一个编码在one-hot向量中对应且仅对应一个特定的下标,互不重复。
由于层次注意力神经网络模型输出层的每一个标签只有两个分类,即“1”代表属于该标签和“0”不属于该标签,所以采用二分类交叉熵(binary crossentropy)计算损失函数L,公式如下:
Figure BDA0002460562750000142
公式(6)中,其中yi表示数据集中给定样本标签[y1,y2,…yn]中第i个标签的真实标注分类;pi表示根据医生书写诊断的输入向量C和病情描述数据的输入向量D,模型输出层第i个标签预测为真的概率,即单标签多分类的数据集预测中,样本为第i个标签对应的标准ICD编码的概率;在后向反馈中使用Adam优化器进行损失函数最小化。划分一小部分(例如5%)单标签多分类的数据集为不参与训练的测试集,在训练过程中使用测试集观察模型分类性能,当模型分类性能在测试集上不再提升时停止模型的训练,保存当前模型参数权重,到此完成模型的训练。
S4:将待预测的医生书写诊断数据和病情描述数据输入到训练完成的层次注意力模型,从而得到预测ICD编码和名称。
S4-1:以词条为单位对医生书写诊断数据进行拆分,结合词向量模型,获取医生书写诊断的输入向量C,并输入医生书写诊断编码模块。
本实施例中,对于每个医生书写诊断Ai,以单个词条为单位进行分词,得到医生书写诊断的词条集合,则对每个词来说,配合词向量模型进行映射,获取其词向量形式,从而得到医生书写诊断的输入向量C={Ci1,Ci2,…,Cim},Cim表示第i个医生书写诊断的第m个词向量。
S4-2:将病情描述数据分解成多个词条,配合词向量模型得到病情描述数据的输入向量D。
本实施例中,将病情描述数据的句子集合S中每个语句Sn使用分词工具(如jieba)进行分词得到对应词条,对于单个词条,配合词向量模型(如Word2Vec等),通过查表获取其词向量形式;直到将每个词条进行向量化,可得到病情描述数据中第n个句子的输入向量D=[Dn1,Dn2,…,Dnk],Dnk表示病情描述数据中第n个句子的第k个词。
S4-3:将医生书写诊断的输入向量C和病情描述数据的输入向量D输入到训练完成的层次注意力模型中,前向反馈得到输出层内容[p1,p2,…pn],其中pi代表第i个标签的预测概率,取概率最大的标签作为预测分类。
S5:诊断原因可视化。
本实施例中,根据注意力机制的特性,拥有更大注意力权重的病情描述数据中的句子在该次预测中的重要性更高,相应的,注意力权重高的病情描述数据中的句子与预测ICD编码有更高的相关性,将其提取作为诊断分类的理由依据。诊断原因可视化分为以下子步骤:
S5-1:对于每一个医生书写诊断Ai,都会进行一次单标签分类运算,从模型中提取该次预测运算中句子层次的注意力权重分配参数((即对每一个医生书写诊断Ai,病情描述中每个句子都有一个对应的注意力分配参数βi),将该权重分配参数集合从大到小进行排序,得到大小排列的若干最大权重参数集合[β12,…βm],βm表示第m个权重参数,根据最大的前K个权重参数从病情描述数据句子集合{S1,S2,…Sn}中取出与之对应的K个句子,例如β1对应的句子就是S1,以此作为该次分类的诊断理由依据。
S5-2:重复步骤S5-1直到医生书写诊断集合中每一个医生书写诊断Ai都得到预测结果输出与诊断原因可视化,至此完成待测样本的完整预测与诊断原因可视化。
传统方法和模型的“黑盒”中只能看到输出的ICD编码,但不知道输出这些ICD编码对应的原因,这样增加了不确定性,也不方便进行追溯。而本发明在实现ICD自动编码输出的同时,可以更透明的方式呈现每种疾病编码的具体原因,将对应的数据提取出来作为诊断原因,这样增加了输出结果的可解释性,更符合医院编码人员的使用习惯。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (7)

1.一种诊断原因可视化的ICD自动编码系统,其特征在于,包括医生书写诊断编码模块、句编码模块、全文编码模块、ICD编码预测模块以及诊断原因可视化模块;其中,
所述医生书写诊断编码模块,用于将医生书写诊断数据进行编码,并生成医生书写诊断注意力向量;
所述句编码模块,用于根据医生书写诊断注意力向量,将注意力分配到语句的不同词条上,通过循环神经网络得到病情描述数据的句编码向量集合;
所述全文编码模块,用于根据医生书写诊断注意力向量,将注意力分配到病历的不同语句上,通过循环神经网络产生病情描述数据的编码向量;
所述ICD编码预测模块,用于对待预测病历和给定的医生书写诊断序列,输出预测ICD编码;
所述诊断原因可视化模块,用于对模型输出的每种预测ICD编码,基于注意力机制,提取在病历文本中相关的词或语句作为诊断理由依据。
2.如权利要求1所述的一种诊断原因可视化的ICD自动编码系统,其特征在于,还包括病历数据采集模块和数据预处理模块;其中,
所述病历数据采集模块,用于采集病历数据以构建多标签分类的数据集,所述数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据;
所述数据预处理模块,用于对多标签分类的数据集进行去噪和格式标准化,训练词向量模型,同时将多标签分类的数据集转变为单标签多分类的数据集。
3.一种诊断原因可视化的ICD自动编码方法,其特征在于,具体包括以下步骤:
S1:从病历文档库中获取病历数据构建多标签分类的数据集,多标签分类的数据集包括原始医生书写诊断数据、原始病情描述数据、标准ICD编码数据;
S2:对数据集进行预处理,并训练词向量模型,将多标签分类的数据集转变为单标签多分类的数据集,单标签多分类的数据集包括单个医生书写诊断、病情描述数据的句子集合、与单个医生书写诊断对应的单个标准ICD编码;
S3:基于单标签多分类的数据集完成层次注意力神经网络模型的训练;
S4:将待预测的医生书写诊断数据和病情描述数据输入到训练完成的层次注意力神经网络模型,从而得到预测ICD编码和名称;
S5:根据预测ICD编码和名称,从病情描述数据提取对应的句子作为诊断原因可视化。
4.如权利要求3所述的一种诊断原因可视化的ICD自动编码方法,其特征在于,所述S2,具体包括以下步骤:
S2-1:对多标签分类的数据集中原始病情描述数据和原始医生书写诊断数据进行清洗,从而得到病情描述数据和医生书写诊断数据,并训练词向量模型;
S2-2:将病情描述数据以句子为单位进行划分,得到病情描述数据的句子集合S={S1,S2,…,Sn},Sn表示病情描述数据的第n个句子;
S2-3:将多标签分类的数据集数据集中标准ICD编码数据与医生书写诊断数据进行一一对齐,从而将多标签分类数据集转化为单标签多分类数据集。
5.如权利要求4所述的一种诊断原因可视化的ICD自动编码方法,其特征在于,所述S2-3中,对齐的具体方法为:
S2-3-1:通过分隔符将医生书写诊断数据、标准ICD编码数据分别分为多个独立的医生书写诊断与标准ICD编码,得到医生书写诊断集合A={A1,A2,…Ai},Ai表示第i个医生书写诊断,以及标准ICD编码疾病名称集合B={B1,B2,…Bj},Bj表示第j个标准ICD编码疾病名称,并使用以下公式进行相似度计算:
Figure FDA0002460562740000031
公式(1)中,similarity(Ai,Bj)表示单个医生书写诊断Ai和单个标准ICD编码疾病名称Bj集合之间的相似度,lcs(Ai,Bj)代表集合Ai与Bj中最长公共子串的长度,len(Ai)代表单个医生书写诊断Ai的字符串的长度;
S2-3-2:对于任意一个医生书写诊断Ai,计算其与每一个标准ICD编码疾病名称Bj的相似度,并取出相似度最高的标准ICD编码疾病名称Bj;若相似度大于或等于阈值similarity阈值,则与该医生书写诊断对齐得到<Ai,Bj>,并将Ai与Bj从原有集合中删除;若低于阈值similarity阈值,则视为医生书写诊断无法与标准ICD编码匹配,将Ai从医生书写诊断集合中删除;重复进行直到集合A或B为空。
6.如权利要求3所述的一种诊断原因可视化的ICD自动编码方法,其特征在于,所述S3中,层次注意力神经网络模型的训练步骤为:
S3-1:以单个词条为单位将每个医生书写诊断进行分词,得到医生书写诊断的词条集合,并配合训练完成的词向量模型进行映射,获取其词向量形式,从而得到医生书写诊断的输入向量C={Ci1,Ci2,…,Cim},Cim表示第i个医生书写诊断的第m个词向量;
S3-2:对医生书写诊断的输入向量C进行编码,并生成医生书写诊断注意力向量hz
S3-3:将病情描述数据的每个语句Sn使用分词工具进行分词得到对应词条,并配合训练完成的词向量模型进行映射,获取其词向量形式,得到病情描述数据第n个句子的输入向量D=[Dn1,Dn2,…,Dnk],Dnk表示病情描述数据中第n个句子的第k个词向量,同时引入医生书写诊断注意力向量hz,得到病情描述数据的句编码向量集合
Figure FDA0002460562740000032
Figure FDA0002460562740000033
公式(2)中,
Figure FDA0002460562740000041
表示病情描述数据中第n个句子的句编码向量;hnk表示Dnk输入到句编码模块的循环神经网络模型后的隐藏状态;W1为可学习的参数;αnk表示第n个句子的第k个词的注意力分配值;unk表示词向量Dnk与注意力向量hz在词向量空间中的余弦相似度;hz表示医生书写诊断注意力向量,k表示第k个词;
S3-4:结合医生书写诊断注意力向量hz和病情描述数据的句编码向量集合
Figure FDA0002460562740000042
完成对病情描述数据中文档内容的编码,得到病情描述数据的编码向量:
Figure FDA0002460562740000043
公式(3)中,v表示病情描述数据的编码向量;βn表示第n个句子的注意力权重,注意力权重越高代表该句子在病情描述数据中的重要性更高;
Figure FDA0002460562740000044
表示病情描述数据中第n个句子的句编码向量;un表示词向量空间中医生书写诊断注意力向量hz与病情描述数据中第n个句子的句编码向量
Figure FDA0002460562740000045
的余弦相似度,W2为可学习的参数;hz表示医生书写诊断注意力向量;
S3-5:结合病情描述数据的编码向量v和医生书写诊断注意力向量hz,拼接为最后的完整向量表示[v hz],在层次注意力神经网络模型的最后一层使用该完整向量[v hz]进行全连接分类输出,并使用sigmoid激活函数将每一个标签的预测概率输出值映射到区间[0,1];
S3-6:采用二分类交叉熵(binary crossentropy)计算损失函数L,公式如下:
Figure FDA0002460562740000046
公式(6)中,yi表示数据集中给定样本标签[y1,y2,…yn]中第i个标签的真实标注分类;pi表示模型预测输出第i个标签预测为真的概率,即单标签多分类的数据集中,样本预测为第i个标签对应的标准ICD编码的概率;
当模型分类性能在测试集上不再提升时,停止模型的训练,保存当前模型参数权重,到此完成模型的训练。
7.如权利要求3所述的一种诊断原因可视化的ICD自动编码方法,其特征在于,所述S5中,诊断原因可视化的方法为:
S5-1:对于每一个医生书写诊断Ai,都会进行一次单标签分类运算,从模型中提取该次预测运算中句子层次的注意力权重分配参数βi,即每一个医生书写诊断Ai,病情描述数据中每个句子都有相对应的一个注意力权重分配参数βi,并从大到小进行排序,得到大小排列的若干权重参数集合[β12,…βm],βm表示第m个权重参数,根据权重参数从病情描述数据句子集合S中取出前K个与之对应的句子,作为该次分类的诊断理由依据;
S5-2:重复步骤S5-1直到医生书写诊断集合中每一个医生书写诊断Ai都得到预测ICD名称与对应的诊断原因可视化。
CN202010318879.XA 2020-04-21 2020-04-21 一种诊断原因可视化的icd自动编码方法与系统 Active CN111540468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010318879.XA CN111540468B (zh) 2020-04-21 2020-04-21 一种诊断原因可视化的icd自动编码方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010318879.XA CN111540468B (zh) 2020-04-21 2020-04-21 一种诊断原因可视化的icd自动编码方法与系统

Publications (2)

Publication Number Publication Date
CN111540468A true CN111540468A (zh) 2020-08-14
CN111540468B CN111540468B (zh) 2023-05-16

Family

ID=71979428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010318879.XA Active CN111540468B (zh) 2020-04-21 2020-04-21 一种诊断原因可视化的icd自动编码方法与系统

Country Status (1)

Country Link
CN (1) CN111540468B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016279A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 电子病历结构化方法、装置、计算机设备和存储介质
CN112417872A (zh) * 2020-10-20 2021-02-26 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN112530582A (zh) * 2020-12-11 2021-03-19 万达信息股份有限公司 一种辅助死因分类编码的智能系统
CN112562849A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种基于层次结构和共现结构的临床自动诊断方法及系统
CN112561894A (zh) * 2020-12-22 2021-03-26 中国科学院苏州生物医学工程技术研究所 针对ct图像的电子病历智能生成方法及系统
CN112635001A (zh) * 2020-12-21 2021-04-09 山东众阳健康科技集团有限公司 一种icd编码数据处理方法、系统、存储介质及设备
CN113436694A (zh) * 2021-05-21 2021-09-24 山东大学 小样本电子病历icd代码预测方法及系统
CN113505208A (zh) * 2021-07-09 2021-10-15 福州大学 一种融合多路注意力机制的智能对话系统
CN114388085A (zh) * 2021-11-23 2022-04-22 皖南医学院第一附属医院(皖南医学院弋矶山医院) 一种基于病案的实时智能辅助icd编码方法及系统
CN115270718A (zh) * 2022-07-26 2022-11-01 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统
CN115270715A (zh) * 2021-12-17 2022-11-01 郑州大学第一附属医院 一种面向电子病历的智能辅助icd自动编码方法及系统
CN116127402A (zh) * 2022-09-08 2023-05-16 天津大学 一种融合icd层级特征的drg自动分组方法及系统
CN116564509A (zh) * 2023-07-11 2023-08-08 四川省医学科学院·四川省人民医院 一种用于高压氧舱内患者的体征数据处理方法
CN117059231A (zh) * 2023-10-10 2023-11-14 首都医科大学附属北京友谊医院 用于机器学习中医医案的方法及智能诊疗系统
TWI825467B (zh) * 2021-08-23 2023-12-11 緯創資通股份有限公司 資料分析系統及資料分析方法
CN117390064A (zh) * 2023-12-12 2024-01-12 天津南大通用数据技术股份有限公司 一种基于可嵌入子图的数据库查询优化方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107603A (ja) * 2003-09-26 2005-04-21 Yuyama Manufacturing Co Ltd Icdコード付与装置
US20080288292A1 (en) * 2007-05-15 2008-11-20 Siemens Medical Solutions Usa, Inc. System and Method for Large Scale Code Classification for Medical Patient Records
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107705839A (zh) * 2017-10-25 2018-02-16 山东众阳软件有限公司 疾病自动编码方法及系统
CN109065157A (zh) * 2018-08-01 2018-12-21 中国人民解放军第二军医大学 一种疾病诊断标准化编码推荐列表确定方法及系统
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质
CN110827929A (zh) * 2019-11-05 2020-02-21 中山大学 疾病分类编码识别方法、装置、计算机设备及存储介质
CN111026841A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种基于检索和深度学习的自动编码方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005107603A (ja) * 2003-09-26 2005-04-21 Yuyama Manufacturing Co Ltd Icdコード付与装置
US20080288292A1 (en) * 2007-05-15 2008-11-20 Siemens Medical Solutions Usa, Inc. System and Method for Large Scale Code Classification for Medical Patient Records
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法
CN107705839A (zh) * 2017-10-25 2018-02-16 山东众阳软件有限公司 疾病自动编码方法及系统
CN109065157A (zh) * 2018-08-01 2018-12-21 中国人民解放军第二军医大学 一种疾病诊断标准化编码推荐列表确定方法及系统
CN110297908A (zh) * 2019-07-01 2019-10-01 中国医学科学院医学信息研究所 诊疗方案预测方法及装置
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质
CN110827929A (zh) * 2019-11-05 2020-02-21 中山大学 疾病分类编码识别方法、装置、计算机设备及存储介质
CN111026841A (zh) * 2019-11-27 2020-04-17 云知声智能科技股份有限公司 一种基于检索和深度学习的自动编码方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张虹科等: "基于融合条目词嵌入和注意力机制的自动 ICD 编码" *
王成尧: "基于深度学习的病案ICD自动编码研究" *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016279B (zh) * 2020-09-04 2023-11-14 平安科技(深圳)有限公司 电子病历结构化方法、装置、计算机设备和存储介质
CN112016279A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 电子病历结构化方法、装置、计算机设备和存储介质
CN112417872A (zh) * 2020-10-20 2021-02-26 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN112417872B (zh) * 2020-10-20 2022-08-05 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN112562849A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种基于层次结构和共现结构的临床自动诊断方法及系统
CN112562849B (zh) * 2020-12-08 2023-11-17 中国科学技术大学 一种基于层次结构和共现结构的临床自动诊断方法及系统
CN112530582A (zh) * 2020-12-11 2021-03-19 万达信息股份有限公司 一种辅助死因分类编码的智能系统
CN112530582B (zh) * 2020-12-11 2023-11-14 万达信息股份有限公司 一种辅助死因分类编码的智能系统
CN112635001B (zh) * 2020-12-21 2023-04-07 山东众阳健康科技集团有限公司 一种icd编码数据处理方法、系统、存储介质及设备
CN112635001A (zh) * 2020-12-21 2021-04-09 山东众阳健康科技集团有限公司 一种icd编码数据处理方法、系统、存储介质及设备
CN112561894A (zh) * 2020-12-22 2021-03-26 中国科学院苏州生物医学工程技术研究所 针对ct图像的电子病历智能生成方法及系统
CN112561894B (zh) * 2020-12-22 2023-11-28 中国科学院苏州生物医学工程技术研究所 针对ct图像的电子病历智能生成方法及系统
CN113436694B (zh) * 2021-05-21 2023-06-27 山东大学 小样本电子病历icd代码预测方法及系统
CN113436694A (zh) * 2021-05-21 2021-09-24 山东大学 小样本电子病历icd代码预测方法及系统
CN113505208B (zh) * 2021-07-09 2024-02-02 福州大学 一种融合多路注意力机制的智能对话系统
CN113505208A (zh) * 2021-07-09 2021-10-15 福州大学 一种融合多路注意力机制的智能对话系统
TWI825467B (zh) * 2021-08-23 2023-12-11 緯創資通股份有限公司 資料分析系統及資料分析方法
CN114388085A (zh) * 2021-11-23 2022-04-22 皖南医学院第一附属医院(皖南医学院弋矶山医院) 一种基于病案的实时智能辅助icd编码方法及系统
CN115270715A (zh) * 2021-12-17 2022-11-01 郑州大学第一附属医院 一种面向电子病历的智能辅助icd自动编码方法及系统
CN115270718B (zh) * 2022-07-26 2023-10-10 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统
CN115270718A (zh) * 2022-07-26 2022-11-01 中国医学科学院阜外医院 一种疾病编码的自动编目方法及系统
CN116127402B (zh) * 2022-09-08 2023-08-22 天津大学 一种融合icd层级特征的drg自动分组方法及系统
CN116127402A (zh) * 2022-09-08 2023-05-16 天津大学 一种融合icd层级特征的drg自动分组方法及系统
CN116564509B (zh) * 2023-07-11 2023-09-01 四川省医学科学院·四川省人民医院 一种用于高压氧舱内患者的体征数据处理方法
CN116564509A (zh) * 2023-07-11 2023-08-08 四川省医学科学院·四川省人民医院 一种用于高压氧舱内患者的体征数据处理方法
CN117059231A (zh) * 2023-10-10 2023-11-14 首都医科大学附属北京友谊医院 用于机器学习中医医案的方法及智能诊疗系统
CN117059231B (zh) * 2023-10-10 2023-12-22 首都医科大学附属北京友谊医院 用于机器学习中医医案的方法及智能诊疗系统
CN117390064A (zh) * 2023-12-12 2024-01-12 天津南大通用数据技术股份有限公司 一种基于可嵌入子图的数据库查询优化方法
CN117390064B (zh) * 2023-12-12 2024-03-19 天津南大通用数据技术股份有限公司 一种基于可嵌入子图的数据库查询优化方法

Also Published As

Publication number Publication date
CN111540468B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN109599185B (zh) 疾病数据处理方法、装置、电子设备及计算机可读介质
Banerjee et al. Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort
US10929420B2 (en) Structured report data from a medical text report
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
Yu et al. Automatic ICD code assignment of Chinese clinical notes based on multilayer attention BiRNN
CN111222340B (zh) 基于多标准主动学习的乳腺电子病历实体识别系统
CN107247881A (zh) 一种多模态智能分析方法及系统
CN111538845A (zh) 一种构建肾病专科医学知识图谱的方法、模型及系统
CN108091397B (zh) 一种缺血性心脏病患者的出血事件预测方法
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
CN109994216A (zh) 一种基于机器学习的icd智能诊断编码方法
CN105868526B (zh) 基于鲁棒张量保持的儿童社区获得性肺炎数据处理系统及方法
CN111462896A (zh) 一种基于病案的实时智能辅助icd编码系统和方法
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN111584021A (zh) 病案信息校验方法、装置、电子设备及存储介质
CN115062165B (zh) 基于读片知识图谱的医学影像诊断方法及装置
CN111785387B (zh) 一种使用Bert做疾病标准化映射分类的方法及系统
Kaur et al. A systematic literature review of automated ICD coding and classification systems using discharge summaries
CN113901207A (zh) 一种基于数据增强和半监督学习的药物不良反应检测方法
CN113851208A (zh) 基于显式主题分配技术的医疗检查推荐系统及方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114242194A (zh) 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法
CN112420148A (zh) 一种基于人工智能的医学影像报告质控系统、方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant