CN108231146A

CN108231146A - 一种基于深度学习的医疗记录模型构建方法、系统及装置

Info

Publication number: CN108231146A
Application number: CN201711247467.6A
Authority: CN
Inventors: 朱佳; 杨芬; 黄昌勤
Original assignee: Guangzhou Van Ping Electronic Technology Co Ltd; South China Normal University
Current assignee: Guangdong SUCHUANG Data Technology Co.,Ltd.
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-06-29
Anticipated expiration: 2037-12-01
Also published as: CN108231146B

Abstract

本发明公开了一种基于深度学习的医疗记录模型构建方法、系统及装置，方法包括获取医疗记录；对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量；根据生成的单词级向量、记录级向量和病人级向量，采用循环神经网络构建医疗记录模型。系统包括获取模块、聚合训练模块以及模型构建模块。装置包括存储器和处理器。本发明充分利用包括患者个人资料、检验数值和病历记录等自由文本记录进行模型构建，提高了医疗记录模型的预测准确性；另外，本发明采用循环神经网络构建医疗记录模型，相较于选用现有主题模型或者学习直接的单词表述的方法，减少了计算量且提高了构建模型的效率。本发明可广泛应用于自然语言处理领域。

Description

一种基于深度学习的医疗记录模型构建方法、系统及装置

技术领域

本发明涉及自然语言处理领域，尤其是一种基于深度学习的医疗记录模型构建方法、系统及装置。

背景技术

近年来，随着电子健康记录(EHR)的出现，许多人尝试将机器学习方法应用于患者数据以解决诸如生存分析、因果推断和死亡率预测之类的问题。EHR 数据库中数据量庞大的记录通常包含大量的数值特征，比如患者统计资料(年龄、性别、民族等)、实验室测量数值(如血气、液体平衡、生命特征等)、疾病和医疗程序的二元指标，以及自由文本的医疗记录等。虽然数值类的指标可以直接应用于大多数机器学习模型，但对于医生护士所写的医疗记录，研究人员使用的现有技术是选用现有的主题模型或者学习直接的单词表述，但由于记录的数据量庞大且无规律，导致这些现有技术的计算量很大，模型构建以及深度学习的效率很低；另外，对于由无序的单词组合而成的患者医疗记录，现有对医疗记录进行处理的技术无法充分利用自由文本的医疗记录单词(例如病历中的病情描述)，导致最终模型的预测准确率很低。

发明内容

为解决上述技术问题，本发明的第一个目的在于：提供一种计算量小、效率高且准确率高的，基于深度学习的医疗记录模型构建方法。

本发明的第二个目的在于：提供一种计算量小、效率高且准确率高的，基于深度学习的医疗记录模型构建系统。

本发明的第三个目的在于：提供一种计算量小、效率高且准确率高的，基于深度学习的医疗记录模型构建装置。

本发明所采取的第一个技术方案是：

一种基于深度学习的医疗记录模型构建方法，包括以下步骤：

获取医疗记录，其中，所述医疗记录包括患者个人资料、检验数值和病历记录；

对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量；

根据生成的单词级向量、记录级向量和病人级向量，采用循环神经网络构建医疗记录模型。

进一步，所述获取医疗记录这一步骤，具体为：

从临床记录和外部数据中获取医疗记录，其中，所述外部数据包括医学杂志和医学一体化语言系统。

进一步，所述对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量这一步骤，包括以下步骤：

根据获取的医疗记录，制作词汇表，其中，所述词汇表包括与单词配对的否定词；

根据获取的医疗记录，确定待预测目标的时长；

根据制作的词汇表训练词向量，生成单词级向量；

对生成的单词级向量进行聚合，生成记录级向量和病人级向量。

进一步，所述根据制作的词汇表训练词向量，生成单词级向量这一步骤，具体为：

采用Word2Vec或Glove模型算法，通过不同的词序对同一医疗记录的多个副本进行并行处理；

根据并行处理的结果，生成单词级向量。

进一步，所述对生成的单词级向量进行聚合这一步骤中，聚合的内容包括单词级向量的平均值、最大值、最小值和总数。

进一步，所述根据生成的单词级向量、记录级向量和病人级向量，采用循环神经网络构建医疗记录模型这一步骤，包括以下步骤：

采用基于计数的循环神经网络学习单词级词向量，并聚合形成记录级模型；

采用循环神经网络学习单词级向量、记录级向量以及病人级向量，构建医疗记录模型。

进一步，还包括根据待预测目标的时长，采用序贯模型对构建的医疗记录模型进行准确性评估的步骤。

进一步，所述根据待预测目标的时长，采用序贯模型对构建的医疗记录模型进行准确性评估这一步骤，包括以下步骤：

根据医疗相关属性和待预测目标的时长，采用序贯模型对单词级向量进行评价，其中，医疗相关属性包括国家药物档案参考术语；

根据预设数据库和待预测目标的时长，采用序贯模型对记录级向量进行评价；

根据实际预测指标和待预测目标的时长，采用序贯模型对病人级向量进行评价，其中，实际预测指标包括死亡率、未来入院可能性、未来急诊次数和常见疾病。

其中，预设数据库包括i2b2机构发布的2008肥胖挑战数据集等。

本发明采取的第二个技术方案是：

一种基于深度学习的医疗记录模型构建系统，包括：

获取模块，用于获取医疗记录，其中，所述医疗记录包括患者个人资料、检验数值、病例和病历；

聚合训练模块，用于对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量；

模型构建模块，用于根据生成的单词级向量、记录级向量和病人级向量，采用循环神经网络构建医疗记录模型。

本发明采取的第三个技术方案是：

一种基于深度学习的医疗记录模型构建装置，包括：

存储器，用于存储程序；

处理器，执行所述程序，以用于：

本发明的方法的有益效果是：本发明的方法包括获取医疗记录，对获取的医疗记录进行聚合训练，以及采用循环神经网络构建医疗记录模型的步骤，本发明充分利用包括患者个人资料、检验数值和病历记录等自由文本记录进行模型构建，提高了医疗记录模型的预测准确性；另外，本发明采用循环神经网络构建医疗记录模型，相较于选用现有主题模型或者学习直接的单词表述的方法，减少了计算量且提高了构建模型的效率。

本发明的系统的有益效果是：本发明的系统包括获取模块、聚合训练模块和模型构建模块，本发明充分利用包括患者个人资料、检验数值和病历记录等自由文本记录进行模型构建，提高了医疗记录模型的预测准确性；另外，本发明通过模型构建模块采用循环神经网络构建医疗记录模型，相较于选用现有主题模型或者学习直接的单词表述的方法，减少了计算量且提高了构建模型的效率。

本发明的装置的有益效果是：本发明的装置包括存储器和处理器，本发明充分利用包括患者个人资料、检验数值和病历记录等自由文本记录进行模型构建，提高了医疗记录模型的预测准确性；另外，本发明通过处理器采用循环神经网络构建医疗记录模型，相较于选用现有主题模型或者学习直接的单词表述的方法，减少了计算量且提高了构建模型的效率。

附图说明

图1为本发明一种基于深度学习的医疗记录模型构建方法的步骤流程图；

图2为实施例一可治疗和可预防的医疗相关属性评价柱状示意图；

图3为实施例一i2b2肥胖挑战测试组15个目标的微平均F1数值柱状示意图；

图4为实施例一死亡率和应用预测任务的评价柱状示意图；

图5为实施例一对未来疾病预测的评价柱状示意图；

图6为词向量验证组的微平均F1数值柱状示意图。

具体实施方式

参照图1，一种基于深度学习的医疗记录模型构建方法，包括以下步骤：

进一步作为优选的实施方式，所述获取医疗记录这一步骤，具体为：

进一步作为优选的实施方式，所述对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量这一步骤，包括以下步骤：

根据获取的医疗记录，确定待预测目标的时长；

根据制作的词汇表训练词向量，生成单词级向量；

现有技术在制作词汇表的过程中将所有否定词进行剔除，这样会丢失否定词在医疗记录中的特殊意义，例如病人的病例中出现“无味觉”，去掉否定词后便与原意相反，影响模型构建的准确性；本发明制作的词汇表包括了与单词配对的否定词，能够表达具有特殊意义的医疗记录，提高了模型构建的准确性。

进一步作为优选的实施方式，所述根据制作的词汇表训练词向量，生成单词级向量这一步骤，具体为：

根据并行处理的结果，生成单词级向量。

进一步作为优选的实施方式，所述对生成的单词级向量进行聚合这一步骤中，聚合的内容包括单词级向量的平均值、最大值、最小值和总数。

进一步作为优选的实施方式，所述根据生成的单词级向量、记录级向量和病人级向量，采用循环神经网络构建医疗记录模型这一步骤，包括以下步骤：

其中，基于计数是指通过输入医疗记录中的单词集合来计算可训练的向量，具体采用了池化聚合算法，然后将可训练的向量合并并输送至神经网络的其它部分。

进一步作为优选的实施方式，还包括根据待预测目标的时长，采用序贯模型对构建的医疗记录模型进行准确性评估的步骤。

其中，序贯是指事先不规定总的实验次数，而是先进行少量样本的实验，然后根据少量样本实验的结果决定后续实验的次数。

进一步作为优选的实施方式，所述根据待预测目标的时长，采用序贯模型对构建的医疗记录模型进行准确性评估这一步骤，包括以下步骤：

与图1的方法相对应，本发明一种基于深度学习的医疗记录模型构建系统，包括：

与图1的方法相对应，本发明一种基于深度学习的医疗记录模型构建装置，包括：

存储器，用于存储程序；

处理器，执行所述程序，以用于：

下面结合说明书附图和具体实施例对本发明作进一步的解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

实施例一

现有技术对于EHR中医疗记录的处理一般是选用现有的主题模型或者学习直接的单词表述，但由于记录的数据量庞大且无规律，导致这些现有技术的计算量很大，模型构建以及深度学习的效率很低；另外，对于由无序的单词组合而成的患者医疗记录，现有对医疗记录进行处理的技术无法充分利用记录中的单词，导致最终模型的预测准确率很低。针对上述问题，本发明提出了一种基于深度学习的医疗记录模型构建方法、系统及装置。本发明先通过获取医疗记录，然后对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量，接着根据生成的单词级向量、记录级向量和病人级向量，最后采用循环神经网络构建医疗记录模型，本发明充分利用包括患者个人资料、检验数值和病历记录等自由文本记录进行模型构建，提高了医疗记录模型的预测准确性；另外，本发明采用循环神经网络构建医疗记录模型，相较于选用现有主题模型或者学习直接的单词表述的方法，减少了计算量且提高了构建模型的效率。

本发明一种基于深度学习的医疗记录模型构建方法的具体步骤流程如下：

S1、获取医疗记录，其中，所述医疗记录包括患者个人资料、检验数值和病历记录；

S2、对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量；

其中，步骤S2具体包括以下步骤：

S11、根据获取的医疗记录，制作词汇表，其中，所述词汇表包括与单词配对的否定词；

S12、根据获取的医疗记录，确定待预测目标的时长；

S13、根据制作的词汇表训练词向量，生成单词级向量；

S14、对生成的单词级向量进行聚合，生成记录级向量和病人级向量，其中，聚合的内容包括单词级向量的平均值、最大值、最小值和总数。

步骤S13具体包括以下步骤：

S131、采用Word2Vec或Glove模型算法，通过不同的词序对同一医疗记录的多个副本进行并行处理；

S132、根据并行处理的结果，生成单词级向量。

S3、根据生成的单词级向量、记录级向量和病人级向量，采用循环神经网络构建医疗记录模型；

步骤S3具体包括以下步骤：

S31、采用基于计数的循环神经网络学习单词级词向量，并聚合形成记录级模型；

S32、采用循环神经网络学习单词级向量、记录级向量以及病人级向量，构建医疗记录模型。

S4、根据待预测目标的时长，采用序贯模型对构建的医疗记录模型进行准确性评估；

步骤S4具体包括以下步骤：

S41、根据医疗相关属性和待预测目标的时长，采用序贯模型对单词级向量进行评价，其中，医疗相关属性包括国家药物档案参考术语；

S42、根据预设数据库和待预测目标的时长，采用序贯模型对记录级向量进行评价；

S43、根据实际预测指标和待预测目标的时长，采用序贯模型对病人级向量进行评价，其中，实际预测指标包括死亡率、未来入院可能性、未来急诊次数和常见疾病。

参照图2，以国家药物档案参考术语(NDF-RT)为例，本实施例通过医疗相关属性来评价单词级向量。本实施例选用May-Treat(可治疗)和May-Prevent (可预防)这对药物与疾病之间的关系，假设有两种疾病d1、d2和两类药物 m1、m2，他们之间形成的关系r为两组数据(d1，m1)和(d2，m2)，判断各组数据的向量空间是否满足以下公式：其中，e_d1、e_d2、 e_m1以及e_m2分别代表d1、d2、m1以及m2所对应的向量空间。

如图2所示，GloVe-300-W10-R2表示使用临床记录训练的GloVe向量，其长度为300，窗口尺寸为10，临床记录在语料库中重复两次；MCEMJ(Medical Concept Embeddingsfrom Medical Journal)，表示“取自医学杂志的医学概念向量”； MaxGRU300-MCEMJ是用MCEMJ初始化的有GRU300个单元的循环神经网络。尽管Glove向量的随机词序以及词汇表比MCEMJ大两倍，但是GloVe向量表现好于MCEMJ向量。

参照图3，本实施例选用i2b2机构(i2b2机构是由美国国立卫生研究院资助的一个中心机构，曾组织了多次国际范围内的医学信息抽取测评任务，推动了电子病历语料标注和医学自然语言处理的发展)发布的2008肥胖挑战数据集来对记录级向量进行评价，该公开数据集包含大约1230条临床记录及15个表型目标如气喘和肥胖症等。该数据集分为两大类：一是取自记录中的明确表述的文本任务，二是取自医生直感和判断的直观任务。

为方便评价，我们考虑用微平均过的F1(F1分数是统计学中用来衡量二分类模型精确度的一种指标，它同时兼顾了分类模型的准确率和召回率，F1分数可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0) 作为主要度量。本实施例采用记录的原始词袋编码作为基准线。

总的来说，不同模型产生的准确率并无太大差异。同时，用max算子合并记录中的词向量，通常产生的结果比使用平均值(mean)、最小值(min)、总值(sum) 更佳。最后，基准线在文本任务和直观任务之间的表现，比较构建的基于词向量的模型，有一较大的落差，这说明，目标变得越复杂，词向量的表现越稳定。

参照图4和图5，本实施例使用训练学习的词向量作为输入，观察各种预测任务的表现。此外，为保留实际应用中医疗保健预测任务的样本数相对较少的缺点，本实施例使用较少的训练组(分别为500个病人和2000个病人)来进行预测任务的评价(结果是20次测试的平均值)。

本实施例使用词向量来预测病人在“目标年代”(目标年代是指预设的6个月关注期时长，其中，将每个病人上一年的医疗数据作为输入进行预测)的各种状况，具体包括病人死亡率、未来入院可能性、未来急诊次数以及6种最常见疾病(甲状腺异常、心脏节律障碍、糖尿病、颈椎病、脂质代谢紊乱、原发性高血压)的未来发展趋势等。

本实施例中的评价模型都是在每个训练组基础上，用Ridge逻辑回归训练，再使用glmnet算法进行5次交叉验证后得到的。结果进一步平均20个样本训练组的数值。如图4和图5所示的GloVe方法的窗口尺寸均为7且记录均经过2 次再取样。此外，所有词向量(包括GloVe和MCEMJ)的聚合都包括其最大值、最小值和平均值，从而提高模型的预测准确率。

基准线是适合病人医史记录的原始词袋编码的Ridge逻辑回归结果，其词汇表仅限于训练组中出现最频繁的部分单词。由图4可知，除了死亡预测之外，大部分模型的预测结果均优于基准线，序列模型得到的是最佳结果。

综上所述，本发明一种基于深度学习的医疗记录模型构建方法、系统及装置具有以下优点：

1)、本发明充分利用包括患者个人资料、检验数值和病历记录等自由文本记录进行模型构建，提高了医疗记录模型的预测准确性；

2)、本发明采用循环神经网络构建医疗记录模型，相较于选用现有主题模型或者学习直接的单词表述的方法，减少了计算量且提高了构建模型的效率；

3)、本发明从病人的临床记录中可以训练学习单词级向量、记录级向量以及病人级向量，通过使用相应的评价任务，能够实现对特定疾病或特殊人群的预测分析，且预测结果的准确性高；

4)、本发明通过循环神经网络构建多个医疗记录模型，能够抓住比基准线模型更多的记录中包含的语义信息，提高了预测的准确率；

5)、本发明采用序贯模型对训练的词向量进行评价，减少了词向量的训练时间以及模型微调的工作量，可以将模型进行灵活转换以用于解决其它特殊的子问题。

6)、本发明采用循环神经网络构建的医疗记录模型，可用于开发疾病监控等其他新技术，例如开发新的基于GloVe或word2vec的表达式，从而充分考虑医疗记录的特定结构(如负采样时的样本否定词以及每一迭代词组的样本窗户尺寸等)，对于病人疾病的预防以及应对具有重要意义。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于深度学习的医疗记录模型构建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的医疗记录模型构建方法，其特征在于：所述获取医疗记录这一步骤，具体为：

3.根据权利要求1所述的一种基于深度学习的医疗记录模型构建方法，其特征在于：所述对获取的医疗记录进行聚合训练，生成单词级向量、记录级向量和病人级向量这一步骤，包括以下步骤：

根据获取的医疗记录，确定待预测目标的时长；

根据制作的词汇表训练词向量，生成单词级向量；

4.根据权利要求3所述的一种基于深度学习的医疗记录模型构建方法，其特征在于：所述根据制作的词汇表训练词向量，生成单词级向量这一步骤，具体为：

根据并行处理的结果，生成单词级向量。

5.根据权利要求4所述的一种基于深度学习的医疗记录模型构建方法，其特征在于：所述对生成的单词级向量进行聚合这一步骤中，聚合的内容包括单词级向量的平均值、最大值、最小值和总数。

6.根据权利要求4所述的一种基于深度学习的医疗记录模型构建方法，其特征在于：所述根据生成的单词级向量、记录级向量和病人级向量，采用循环神经网络构建医疗记录模型这一步骤，包括以下步骤：

7.根据权利要求3所述的一种基于深度学习的医疗记录模型构建方法，其特征在于：还包括根据待预测目标的时长，采用序贯模型对构建的医疗记录模型进行准确性评估的步骤。

8.根据权利要求7所述的一种基于深度学习的医疗记录模型构建方法，其特征在于：所述根据待预测目标的时长，采用序贯模型对构建的医疗记录模型进行准确性评估这一步骤，包括以下步骤：

9.一种基于深度学习的医疗记录模型构建系统，其特征在于：包括：

10.一种基于深度学习的医疗记录模型构建装置，其特征在于：包括：

存储器，用于存储程序；

处理器，执行所述程序，以用于：