CN114528944A - 一种医疗文本编码方法、装置、设备及可读存储介质 - Google Patents

一种医疗文本编码方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114528944A
CN114528944A CN202210169875.9A CN202210169875A CN114528944A CN 114528944 A CN114528944 A CN 114528944A CN 202210169875 A CN202210169875 A CN 202210169875A CN 114528944 A CN114528944 A CN 114528944A
Authority
CN
China
Prior art keywords
word
document
clinical
word embedding
icd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210169875.9A
Other languages
English (en)
Other versions
CN114528944B (zh
Inventor
滕飞
周晓敏
张恩铭
马征
黄路非
李暄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202210169875.9A priority Critical patent/CN114528944B/zh
Publication of CN114528944A publication Critical patent/CN114528944A/zh
Application granted granted Critical
Publication of CN114528944B publication Critical patent/CN114528944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明提供了一种医疗文本编码方法、装置、设备及可读存储介质,所述方法包括:获取第一文档集合;基于临床文档,利用词嵌入技术生成词嵌入矩阵;基于临床文档、词嵌入矩阵和卷积神经网络得到上层序列向量;基于上层序列向量和词嵌入矩阵得到每个临床文档所对应的句子向量;基于每个临床文档所对应的句子向量得到初步的分类器;基于第一文档集合和临床文档所对应的句子向量得到最终的分类器,使用最终的分类器对临床文档进行ICD编码。本发明关注了罕见疾病编码,提高了编码员对罕见病的重视。并且本发明能够自动抽取特征,不依赖手工特征,对不同医生的书写风格进行了缓和,可以减少研究时间和减少匹配错误。

Description

一种医疗文本编码方法、装置、设备及可读存储介质
技术领域
本发明涉及数据技术领域,具体而言,涉及一种医疗文本编码方法、装置、设备及可读存储介质。
背景技术
目前,在临床中频繁出现的编码(我们称之为频繁编码)只占据总编码数量的很少一部分,而临床中很少出现的编码(我们称之为少样本编码)却占据了总编码数量的大部分。例如,在医学数据集MIMIC-III中除去不可见编码,可见编码有8,922个。其中,有5,386个编码只出现了1到10次。存在这种现象的原因是在临床中存在较多的罕见疾病,例如儿童早衰症等,其发病几率非常低。这对编码员的知识储备提出了巨大的要求,并且编码员也需要查阅相关资料才可以完成编码,这大大降低了编码效率,同时ICD代码的长尾分布意味着自动编码也是一个非常大的挑战。
发明内容
本发明的目的在于提供一种医疗文本编码方法、装置、设备及可读存储介质,以改善上述问题。
为了实现上述目的,本申请实施例提供了如下技术方案:
一方面,本申请实施例提供了一种医疗文本编码方法,所述方法包括:
获取第一文档集合,所述第一文档集合中包括至少一条临床文档;
基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;
基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;
基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;
基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;
基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
第二方面,本申请实施例提供了一种医疗文本编码装置,所述装置包括获取模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块和替换模块。
获取模块,用于获取第一文档集合,所述第一文档集合中包括至少一条临床文档;
第一计算模块,用于基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;
第二计算模块,用于基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;
第三计算模块,用于基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;
第四计算模块,用于基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;
替换模块,用于基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
第三方面,本申请实施例提供了一种医疗文本编码设备,所述设备包括存储器和处理器。存储器用于存储计算机程序;处理器用于执行所述计算机程序时实现上述医疗文本编码方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述医疗文本编码方法的步骤。
本发明的有益效果为:
1、在本发明中,利用元网络将元知识从数据丰富的频繁ICD编码转移到数据贫乏的少样本ICD编码,解决少样本编码标注实例少的问题,并且提高了少样本ICD编码的性能。同时对于ICD编码任务,虽然卷积神经网络可以学习到文本相关语义,但是对于临床文档这种超长文本,不仅提供了潜在的有效信息,还存在大量无关的噪声数据,因此本实施例还采用标签注意力机制捕捉病历文本中与ICD编码密切相关的部分。同时利用特征表示还缓解医生书写风格不同的问题。
2、本发明能够自动抽取特征,不依赖手工特征,对不同医生的书写风格进行了缓和,可以减少研究时间和减少匹配错误。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中所述的医疗文本编码方法流程示意图;
图2是本发明实施例中所述的医疗文本编码装置结构示意图;
图3是本发明实施例中所述的医疗文本编码设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号或字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
如图1所示,本实施例提供了一种医疗文本编码方法,该方法包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。
步骤S1、获取第一文档集合,所述第一文档集合中包括至少一条临床文档;
步骤S2、基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;
步骤S3、基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;
步骤S4、基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;
步骤S5、基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;
步骤S6、基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
本实施例的目的是解决少样本ICD编码标注实例少、不同医生对病例书写风格不同的ICD自动编码误码率高的问题,同时避免对手工特征的依赖;
因此,在本实施例中,利用元网络将元知识从数据丰富的频繁ICD编码转移到数据贫乏的少样本ICD编码,解决少样本编码标注实例少的问题,并且提高了少样本ICD编码的性能。同时对于ICD编码任务,虽然卷积神经网络可以学习到文本相关语义,但是对于临床文档这种超长文本,不仅提供了潜在的有效信息,还存在大量无关的噪声数据,因此本实施例还采用标签注意力机制捕捉病历文本中与ICD编码密切相关的部分。同时利用特征表示还缓解医生书写风格不同的问题。进而本实施例能够自动抽取特征,不依赖手工特征,对不同医生的书写风格进行了缓和,可以减少研究时间和减少匹配错误。
在本公开的一种具体实施方式中,所述步骤S2,还可以包括步骤S21、步骤S22、步骤S23和步骤S24。
步骤S21、获取词嵌入维度d和预设词,d为介于100-300的正整数;
步骤S22、提取所述临床文档中的所有词并去重,得到第一词表;
步骤S23、用所述预设词代替所有未在所述第一词表中出现的词,得到第二词表;
步骤S24、对所述第二词表中的每一个词随机初始化d维向量,得到所述词嵌入矩阵。
在本实施例中,词嵌入维度d可以根据用户的需求进行自定义设置;在本实施例中,所述预设词可以为“UNK”。
在本公开的一种具体实施方式中,所述步骤S3,还可以包括步骤S31、步骤S32和步骤S33。
步骤S31、将所述临床文档中的每个词转换成一个低维向量,得到输入特征矩阵,其中,将所述临床文档中的每个词的向量由所述词嵌入矩阵中对应词的向量来进行表示;
步骤S32、在卷积神经网络中设置词嵌入维度、滤波器宽度和滤波器输出大小;
步骤S33、利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息,得到所述上层序列向量。
在本实施例中,将所述临床文档中的每个词的向量由所述词嵌入矩阵中对应词的向量来进行表示可以理解为:例如临床文档中包含词“I”,那么就在所述词嵌入矩阵中找到“I”所对应的向量,然后将其作为临床文档中“I”所对应的向量;
本实施例中的词嵌入维度与步骤S21中的词嵌入维度d相同;
临床文档的特征一般是纯文本的无结构数据,并且拥有超长的文本长度以及大量与ICD编码的无关信息;利用卷积神经网络能够较为准确地提取句子局部核心特征,同时共享卷积核,对高维数据处理无压力。
在本公开的一种具体实施方式中,所述步骤S4,还可以包括步骤S41、步骤S42、步骤S43和步骤S44。
步骤S41、获取每个ICD编码描述;
步骤S42、将所述ICD编码描述中所有词小写并删除停止词,得到删除后的ICD编码描述;
步骤S43、在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量,查找后进行平均计算,得到每个ICD编码描述所对应的ICD编码描述向量;
步骤S44、将所述上层序列向量和全部的所述ICD编码描述向量共同经过标签注意力机制,得到每个所述临床文档所对应的句子向量,所述句子向量中包含每种ICD编码的特征表示。
在本实施例中,采用ICD编码描述,能够更好的提取每个ICD编码的语义信息;同时由于临床文本很长,并且每个文档有多个标签,每个标签的相关信息可能分散在整个文档中,因此针对这个问题,本实施例采用标签注意力机制,通过此种方法可以进一步的提取与ICD编码信息关系密切的文本。
在本公开的一种具体实施方式中,所述步骤S5,还可以包括步骤S51、步骤S52和步骤S53。
步骤S51、获取所述临床文档所对应的每个ICD编码的真实值;
步骤S52、将每个所述临床文档所对应的句子向量依次经过全连接层和sigmoid激活函数,得到每个所述临床文档所对应的每个ICD编码的预测值;
步骤S53、将所述真实值和所述预测值的二元交叉熵作为目标损失函数,基于所有的所述真实值和所述预测值,最小化目标损失函数,得到所述初步的分类器,所述初步的分类器中包括所述分类器权重,所述分类器权重由每个频繁ICD编码的分类器权重和每个少样本ICD编码的分类器权重组成。
在本实施例中,所述临床文档所对应的每个ICD编码的真实值可以是用户直接输入,同时所述临床文档所对应的每个ICD编码的真实值可以理解为对一篇临床文档来讲,若这篇临床文档的ICD编码为第一ICD编码和第二ICD编码,此处的第一ICD编码和第二ICD编码为ICD编码的一种,那么就将第一ICD编码和第二ICD编码所对应的数值设置为1,而其他的ICD编码所对应的数值均设置为0;
在本实施例中,
Figure DEST_PATH_IMAGE001
,其中,W表示所述分类器权重,
Figure 681349DEST_PATH_IMAGE002
为所有的频繁ICD编码的分类器权重,所有的频繁ICD编码的分类器权重中包括每个频繁ICD编码的分类器权重,
Figure DEST_PATH_IMAGE003
为所有的少样本ICD编码的分类器权重,所有的少样本ICD编码的分类器权重中包括每个少样本ICD编码的分类器权重;
在本公开的一种具体实施方式中,所述步骤S6,还可以包括步骤S61、步骤S62、步骤S63和步骤S64。
步骤S61、基于所述第一文档集合和所述临床文档所对应的句子向量,得到每个频繁ICD编码平均后的特征表示和每个少样本ICD编码平均后的特征表示;
步骤S62、将每个频繁ICD编码平均后的特征表示映射到其相应的分类器权重,并通过最小化公式(1)获得元知识,所述公式(1)为:
Figure 454133DEST_PATH_IMAGE004
(1)
公式(1)中,
Figure DEST_PATH_IMAGE005
为所述元知识;
Figure 2358DEST_PATH_IMAGE006
为所述频繁ICD编码的序号;
Figure DEST_PATH_IMAGE007
为所述频繁ICD 编码的总数;
Figure 176988DEST_PATH_IMAGE008
为第
Figure 777733DEST_PATH_IMAGE006
个所述频繁ICD编码的分类器权重,
Figure DEST_PATH_IMAGE009
为第r个所述频繁 ICD编码平均后的特征表示,
Figure 303393DEST_PATH_IMAGE010
是损失函数输出值;
步骤S63、基于所述元知识,通过公式(2)计算得到所有的少样本ICD编码的新的分类器权重,所述公式(2)为:
Figure DEST_PATH_IMAGE011
(2)
公式(2)中,
Figure 647786DEST_PATH_IMAGE012
为所有的少样本ICD编码的新的分类器权重;
Figure DEST_PATH_IMAGE013
为所述元知识;
Figure 427655DEST_PATH_IMAGE014
为所有的少样本ICD编码的平均特征表示;其中,所有的少样本ICD编码的平均特征表示包括每个少样本ICD编码平均后的特征表示;
步骤S64、基于所有的频繁ICD编码的分类器权重和所有的少样本ICD编码的新的分类器权重,通过公式(3)计算得到新的分类器权重,所述公式(3)为:
Figure DEST_PATH_IMAGE015
(3)
公式(3)中,
Figure 996039DEST_PATH_IMAGE016
为新的分类器权重;
Figure DEST_PATH_IMAGE017
为所有的频繁ICD编码的分类器权重;
Figure 477836DEST_PATH_IMAGE018
为所有的少样本ICD编码的新的分类器权重。
在本实施例中通过元网络将元知识从数据丰富的频繁ICD编码转移到数据贫乏的少样本ICD编码,在不影响频繁ICD编码性能的情况下对少样本ICD编码的性能进行了改进。通过元网络的知识转移,能解决自动编码过程中少样本缺乏标注实例的问题;
本实施例在不依赖任务外部数据的情况下,利用频繁ICD编码丰富的知识提高了少样本ICD编码的分类性能,并提升ICD自动编码性能;同时本实施例的方法可以扩展到医院的辅助编码任务中。
在本公开的一种具体实施方式中,所述步骤S61,还可以包括步骤S611、步骤S612和步骤S613。
步骤S611、对包含同一个所述频繁ICD编码的临床文档进行集合,得到第二文档集合;
步骤S612、在所述第二文档集合中选取预设数量的临床文档进行集合,得到第三文档集合;
步骤S613、对所述第三文档集合中所有的所述临床文档所对应的句子向量中包含的此个所述频繁ICD编码的特征表示求取平均值,得到此个所述频繁ICD编码平均后的特征表示。
本实施例中的方案可以理解为:例如在全部的临床文档中文档1、文档2、文档3和文档4的ICD编码都包含第一频繁ICD编码,其中第一频繁ICD编码为频繁ICD编码中的一种,那么就将文档1、文档2、文档3和文档4进行集合,集合后在文档1、文档2、文档3和文档4中选取一些文档,例如选取文档2、文档3和文档4,然后再将文档2、文档3和文档4所对应的句子向量中包含的第一频繁ICD编码的特征表示集合在一起求取平均值,就得到第一频繁ICD编码平均后的特征表示。
在本公开的一种具体实施方式中,所述步骤S61,还可以包括步骤S614、步骤S615和步骤S616。
步骤S614、对包含同一个所述少样本ICD编码的临床文档进行集合,得到第四文档集合;
步骤S615、在所述第四文档集合中选取预设数量的临床文档进行集合,得到第五文档集合;
步骤S616、对所述第五文档集合中所有的所述临床文档所对应的句子向量中包含的此个所述少样本ICD编码的特征表示求取平均值,得到此个所述少样本ICD编码平均后的特征表示。
实施例2
如图2所示,本实施例提供了一种医疗文本编码装置,所述装置包括获取模块701、第一计算模块702、第二计算模块703、第三计算模块704、第四计算模块705和替换模块706。
获取模块701,用于获取第一文档集合,所述第一文档集合中包括至少一条临床文档;
第一计算模块702,用于基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;
第二计算模块703,用于基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;
第三计算模块704,用于基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;
第四计算模块705,用于基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;
替换模块706,用于基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
在本实施例中,利用元网络将元知识从数据丰富的频繁ICD编码转移到数据贫乏的少样本ICD编码,解决少样本编码标注实例少的问题,并且提高了少样本ICD编码的性能。同时对于ICD编码任务,虽然卷积神经网络可以学习到文本相关语义,但是对于临床文档这种超长文本,不仅提供了潜在的有效信息,还存在大量无关的噪声数据,因此本实施例还采用标签注意力机制捕捉病历文本中与ICD编码密切相关的部分。同时利用特征表示还缓解医生书写风格不同的问题。进而本实施例能够自动抽取特征,不依赖手工特征,对不同医生的书写风格进行了缓和,可以减少研究时间和减少匹配错误。
在本公开的一种具体实施方式中,所述第一计算模块702,还包括第一获取单元7021、提取单元7022、代替单元7023和初始化单元7024。
第一获取单元7021,用于获取词嵌入维度d和预设词,d为介于100-300的正整数;
提取单元7022,用于提取所述临床文档中的所有词并去重,得到第一词表;
代替单元7023,用于用所述预设词代替所有未在所述第一词表中出现的词,得到第二词表;
初始化单元7024,用于对所述第二词表中的每一个词随机初始化d维向量,得到所述词嵌入矩阵。
在本公开的一种具体实施方式中,所述第二计算模块703,还包括转化单元7031、设置单元7032和学习单元7033。
转化单元7031,用于将所述临床文档中的每个词转换成一个低维向量,得到输入特征矩阵,其中,将所述临床文档中的每个词的向量由所述词嵌入矩阵中对应词的向量来进行表示;
设置单元7032,用于在卷积神经网络中设置词嵌入维度、滤波器宽度和滤波器输出大小;
学习单元7033,用于利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息,得到所述上层序列向量。
在本公开的一种具体实施方式中,所述第三计算模块704,还包括第二获取单元7041、删除单元7042、第一计算单元7043和第二计算单元7044。
第二获取单元7041,用于获取每个ICD编码描述;
删除单元7042,用于将所述ICD编码描述中所有词小写并删除停止词,得到删除后的ICD编码描述;
第一计算单元7043,用于在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量,查找后进行平均计算,得到每个ICD编码描述所对应的ICD编码描述向量;
第二计算单元7044,用于将所述上层序列向量和全部的所述ICD编码描述向量共同经过标签注意力机制,得到每个所述临床文档所对应的句子向量,所述句子向量中包含每种ICD编码的特征表示。
在本公开的一种具体实施方式中,所述第四计算模块705,还包括第三获取单元7051、第三计算单元7052和第四计算单元7053。
第三获取单元7051,用于获取所述临床文档所对应的每个ICD编码的真实值;
第三计算单元7052,用于将每个所述临床文档所对应的句子向量依次经过全连接层和sigmoid激活函数,得到每个所述临床文档所对应的每个ICD编码的预测值;
第四计算单元7053,用于将所述真实值和所述预测值的二元交叉熵作为目标损失函数,基于所有的所述真实值和所述预测值,最小化目标损失函数,得到所述初步的分类器,所述初步的分类器中包括所述分类器权重,所述分类器权重由每个频繁ICD编码的分类器权重和每个少样本ICD编码的分类器权重组成。
在本公开的一种具体实施方式中,所述替换模块706,还包括第五计算单元7061、第六计算单元7062、第七计算单元7063和第八计算单元7064。
第五计算单元7061,用于基于所述第一文档集合和所述临床文档所对应的句子向量,得到每个频繁ICD编码平均后的特征表示和每个少样本ICD编码平均后的特征表示;
第六计算单元7062,用于将每个频繁ICD编码平均后的特征表示映射到其相应的分类器权重,并通过最小化公式(1)获得元知识,所述公式(1)为:
Figure DEST_PATH_IMAGE019
(1)
公式(1)中,
Figure 642232DEST_PATH_IMAGE020
为所述元知识;r为所述频繁ICD编码的序号;
Figure DEST_PATH_IMAGE021
为所述频繁ICD编码的总数;
Figure 525875DEST_PATH_IMAGE022
为第r个所述频繁ICD编码的分类器权重,
Figure 734002DEST_PATH_IMAGE023
为第r个所述频繁ICD编码平均后的特征表示,
Figure 437516DEST_PATH_IMAGE024
是损失函数输出值;
第七计算单元7063,用于基于所述元知识,通过公式(2)计算得到所有的少样本ICD编码的新的分类器权重,所述公式(2)为:
Figure 123712DEST_PATH_IMAGE025
(2)
公式(2)中,
Figure 861861DEST_PATH_IMAGE026
为所述所有的少样本ICD编码的新的分类器权重;
Figure 240890DEST_PATH_IMAGE027
为所述元知识;
Figure 182432DEST_PATH_IMAGE028
为所有的少样本ICD编码的平均特征表示;
第八计算单元7064,用于基于所有的频繁ICD编码的分类器权重和所有的少样本ICD编码的新的分类器权重,通过公式(3)计算得到新的分类器权重,所述公式(3)为:
Figure DEST_PATH_IMAGE029
(3)
公式(3)中,
Figure 937899DEST_PATH_IMAGE030
为新的分类器权重;
Figure DEST_PATH_IMAGE031
为所有的频繁ICD编码的分类器权重;
Figure 796133DEST_PATH_IMAGE032
为所述所有的少样本ICD编码的新的分类器权重。
在本公开的一种具体实施方式中,所述第五计算单元7061,还包括第一集合子单元70611、第二集合子单元70612和计算子单元70613。
第一集合子单元70611,用于对包含同一个所述频繁ICD编码的临床文档进行集合,得到第二文档集合;
第二集合子单元70612,用于在所述第二文档集合中选取预设数量的临床文档进行集合,得到第三文档集合;
第一计算子单元70613,用于对所述第三文档集合中所有的所述临床文档所对应的句子向量中包含的此个所述频繁ICD编码的特征表示求取平均值,得到此个所述频繁ICD编码平均后的特征表示。
在本公开的一种具体实施方式中,所述第五计算单元7061,还包括第三集合子单元70614、第四集合子单元70615和第二计算子单元70616。
第三集合子单元70614,用于对包含同一个所述少样本ICD编码的临床文档进行集合,得到第四文档集合;
第四集合子单元70615,用于在所述第四文档集合中选取预设数量的临床文档进行集合,得到第五文档集合;
第二计算子单元70616,用于对所述第五文档集合中所有的所述临床文档所对应的句子向量中包含的此个所述少样本ICD编码的特征表示求取平均值,得到此个所述少样本ICD编码平均后的特征表示。
需要说明的是,关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
实施例3
相应于上面的方法实施例,本公开实施例还提供了医疗文本编码设备,下文描述的医疗文本编码设备与上文描述的医疗文本编码方法可相互对应参照。
图3是根据一示例性实施例示出的医疗文本编码设备800的框图。如图3所示,该医疗文本编码设备800可以包括:处理器801,存储器802。该医疗文本编码设备800还可以包括多媒体组件803,输入/输出(I/O)接口804,以及通信组件805中的一者或多者。
其中,处理器801用于控制该医疗文本编码设备800的整体操作,以完成上述的医疗文本编码方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该医疗文本编码设备800的操作,这些数据例如可以包括用于在该医疗文本编码设备800上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该医疗文本编码设备800与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件805可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,该医疗文本编码设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的医疗文本编码方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的医疗文本编码方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器802,上述程序指令可由该医疗文本编码设备800的处理器801执行以完成上述的医疗文本编码方法。
实施例4
相应于上面的方法实施例,本公开实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的医疗文本编码方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的医疗文本编码方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种医疗文本编码方法,其特征在于,包括:
获取第一文档集合,所述第一文档集合中包括至少一条临床文档;
基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;
基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;
基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;
基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;
基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
2.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述临床文档,利用词嵌入技术生成词嵌入矩阵,包括:
获取词嵌入维度d和预设词,d为介于100-300的正整数;
提取所述临床文档中的所有词并去重,得到第一词表;
用所述预设词代替所有未在所述第一词表中出现的词,得到第二词表;
对所述第二词表中的每一个词随机初始化d维向量,得到所述词嵌入矩阵。
3.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量,包括:
将所述临床文档中的每个词转换成一个低维向量,得到输入特征矩阵,其中,将所述临床文档中的每个词的向量由所述词嵌入矩阵中对应词的向量来进行表示;
在卷积神经网络中设置词嵌入维度、滤波器宽度和滤波器输出大小;
利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息,得到所述上层序列向量。
4.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量,包括:
获取每个ICD编码描述;
将所述ICD编码描述中所有词小写并删除停止词,得到删除后的ICD编码描述;
在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量,查找后进行平均计算,得到每个ICD编码描述所对应的ICD编码描述向量;
将所述上层序列向量和全部的所述ICD编码描述向量共同经过标签注意力机制,得到每个所述临床文档所对应的句子向量,所述句子向量中包含每种ICD编码的特征表示。
5.一种医疗文本编码装置,其特征在于,包括:
获取模块,用于获取第一文档集合,所述第一文档集合中包括至少一条临床文档;
第一计算模块,用于基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;
第二计算模块,用于基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;
第三计算模块,用于基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;
第四计算模块,用于基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;
替换模块,用于基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
6.根据权利要求5所述的医疗文本编码装置,其特征在于,第一计算模块,包括:
第一获取单元,用于获取词嵌入维度d和预设词,d为介于100-300的正整数;
提取单元,用于提取所述临床文档中的所有词并去重,得到第一词表;
代替单元,用于用所述预设词代替所有未在所述第一词表中出现的词,得到第二词表;
初始化单元,用于对所述第二词表中的每一个词随机初始化d维向量,得到所述词嵌入矩阵。
7.根据权利要求5所述的医疗文本编码装置,其特征在于,第二计算模块,包括:
转化单元,用于将所述临床文档中的每个词转换成一个低维向量,得到输入特征矩阵,其中,将所述临床文档中的每个词的向量由所述词嵌入矩阵中对应词的向量来进行表示;
设置单元,用于在卷积神经网络中设置词嵌入维度、滤波器宽度和滤波器输出大小;
学习单元,用于利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息,得到所述上层序列向量。
8.根据权利要求5所述的医疗文本编码装置,其特征在于,第三计算模块,包括:
第二获取单元,用于获取每个ICD编码描述;
删除单元,用于将所述ICD编码描述中所有词小写并删除停止词,得到删除后的ICD编码描述;
第一计算单元,用于在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量,查找后进行平均计算,得到每个ICD编码描述所对应的ICD编码描述向量;
第二计算单元,用于将所述上层序列向量和全部的所述ICD编码描述向量共同经过标签注意力机制,得到每个所述临床文档所对应的句子向量,所述句子向量中包含每种ICD编码的特征表示。
9.一种医疗文本编码设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述医疗文本编码方法的步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述医疗文本编码方法的步骤。
CN202210169875.9A 2022-02-24 2022-02-24 一种医疗文本编码方法、装置、设备及可读存储介质 Active CN114528944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210169875.9A CN114528944B (zh) 2022-02-24 2022-02-24 一种医疗文本编码方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210169875.9A CN114528944B (zh) 2022-02-24 2022-02-24 一种医疗文本编码方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114528944A true CN114528944A (zh) 2022-05-24
CN114528944B CN114528944B (zh) 2023-08-01

Family

ID=81624415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210169875.9A Active CN114528944B (zh) 2022-02-24 2022-02-24 一种医疗文本编码方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114528944B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1363200A2 (en) * 2002-05-13 2003-11-19 Knowledgenetica Corporation Multi-dimensional method and apparatus for automated language interpretation
US20150302436A1 (en) * 2003-08-25 2015-10-22 Thomas J. Reynolds Decision strategy analytics
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
US20200210526A1 (en) * 2019-01-02 2020-07-02 Netapp, Inc. Document classification using attention networks
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN112579778A (zh) * 2020-12-23 2021-03-30 重庆邮电大学 基于多层次的特征注意力的方面级情感分类方法
US20210319859A1 (en) * 2020-04-14 2021-10-14 International Business Machines Corporation Model augmented medical coding
WO2021205065A1 (en) * 2020-04-09 2021-10-14 Nokia Technologies Oy Training a data coding system comprising a feature extractor neural network
CN113779244A (zh) * 2021-08-23 2021-12-10 华南师范大学 文档情感分类方法、装置、存储介质以及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1363200A2 (en) * 2002-05-13 2003-11-19 Knowledgenetica Corporation Multi-dimensional method and apparatus for automated language interpretation
US20150302436A1 (en) * 2003-08-25 2015-10-22 Thomas J. Reynolds Decision strategy analytics
US20200210526A1 (en) * 2019-01-02 2020-07-02 Netapp, Inc. Document classification using attention networks
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
WO2021205065A1 (en) * 2020-04-09 2021-10-14 Nokia Technologies Oy Training a data coding system comprising a feature extractor neural network
US20210319859A1 (en) * 2020-04-14 2021-10-14 International Business Machines Corporation Model augmented medical coding
CN112579778A (zh) * 2020-12-23 2021-03-30 重庆邮电大学 基于多层次的特征注意力的方面级情感分类方法
CN113779244A (zh) * 2021-08-23 2021-12-10 华南师范大学 文档情感分类方法、装置、存储介质以及电子设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SVETLA BOYTCHEVA 等: "Risk Factors Extraction from Clinical Texts based on Linked Open Data", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING》, pages 161 - 167 *
W. TIMOTHY GARVEY 等: "Proposal for a Scientifically Correct and Medically Actionable Disease Classification System (ICD) for Obesity", 《CLINICAL TRIALS AND INVESTIGATIONS》, pages 484 - 492 *
ZHENJUN HU 等: "VisANT 4.0: Integrative network platform to connect genes, drugs, diseases and therapies", 《NUCLEIC ACIDS RESEARCH》, vol. 41, pages 225 - 231 *
周晓敏 等: "基于元网络的自动国际疾病分类编码模型", 《计算机应用》, pages 1 - 9 *
张玉 等: "MeSH和本体在医学知识组织中的应用", 《医学信息学杂志》, vol. 32, no. 6, pages 49 - 53 *
林瑜 等: "基于集成学习模型预测重症患者再入重症监护病房的风险", 《北京大学学报(医学版)》, vol. 53, no. 3, pages 566 - 572 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382272A (zh) * 2020-03-09 2020-07-07 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法
CN111382272B (zh) * 2020-03-09 2022-11-01 西南交通大学 一种基于知识图谱的电子病历icd自动编码方法

Also Published As

Publication number Publication date
CN114528944B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
Wood et al. The sequence memoizer
Pan et al. Product quantization with dual codebooks for approximate nearest neighbor search
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN112434131A (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN111814479B (zh) 一种企业简称生成及其模型的训练方法及装置
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN115408495A (zh) 基于多模态检索和关键词提取的社交文本增强方法与系统
CN114528944B (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN112836019A (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
CN116737877A (zh) 基于注意力网络对抗哈希的跨模态检索方法及设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN109815475B (zh) 文本匹配方法、装置、计算设备及系统
CN108292307A (zh) 具有对压缩数据的快速操作的前缀Burrow-Wheeler变换
CN114297022A (zh) 云环境异常检测方法、装置、电子设备和存储介质
Zhong et al. Deep convolutional hamming ranking network for large scale image retrieval
CN112765937A (zh) 文本正则方法、装置、电子设备及存储介质
CN105808723B (zh) 基于图片语义和视觉散列的图片检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant