CN111666762A

CN111666762A - 一种基于多任务学习的肠癌诊断电子病历属性值抽取方法

Info

Publication number: CN111666762A
Application number: CN202010429765.2A
Authority: CN
Inventors: 杜明; 周军锋; 徐波; 刘国华; 左彦飞; 庞敏敏; 张弘; 王文坤; 王璿
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-15
Anticipated expiration: 2040-05-20
Also published as: CN111666762B

Abstract

本发明公开了基于多任务学习的肠癌诊断电子病历属性值抽取方法，具体为一种端到端的神经网络模型从文本的多个实例中提取属性值。首先，对于每个实例使用预训练的词嵌入来更好地初始化神经网络模型中的参数。其次，使用领域语料库(训练数据)对其进行微调来捕获特定领域的语义/知识。然后，使用BiLSTM层来考虑多条句子上下文信息，以获得更好的句子表示。接着，考虑到并非所有句子对每一个属性提取器都有用，本发明使用注意力机制为不同的属性提取器选择最重要的实例，并相应地减少其它实例所带来的噪声。最后，在输出层使用多任务学习机制，共同学习相关任务以同时解决多个多类问题任务，从而获得更好的结果并减少过拟合的风险。同时，还对每个任务的损失贡献做出了不同重要性的区分。

Description

一种基于多任务学习的肠癌诊断电子病历属性值抽取方法

技术领域

本发明涉及一种基于多任务学习的肠癌诊断电子病历属性值抽取方法，特别是针对肠癌电子病历进行属性值抽取，完成后结构化任务，属于信息技术领域。

背景技术

伴随着信息技术的迅速发展，给医院的信息化建设带来了技术支持，使得许多医院已经着手于医院信息系统(hospital Information System,HIS)的建设。我国人口众多，每个时间点都发生着不同大小的医疗事件，由此产生了海量的医疗数据。其中，电子病历(EMR)数据中蕴含着大量患者的疾病信息和医疗知识，受到了科研工作者的广泛关注。

电子病历(EMR)数据是患者就诊过程中产生并被记录的临床资源，主要是由医生、护士等医疗工作人员通过填写医院信息系统表单而产生的文字、图形、图表、符号等数字化信息。电子病历系统相较于传统的纸质病历，它有效地提高了医生的工作质量和工作效率，减少了医疗错误，降低了医疗成本，规范了医疗行为和过程管理。但是，海量的电子病历数据是医学领域的宝贵财富，目前仅是将这些信息存储和管理起来，没有进行有效地分析和挖掘其潜在的医学用途，不能为临床医疗决策提供支持。

伴随着计算机硬件、大数据和人工智能的发展，计算机算法被不断提出和更新，已经能够精准的从海量数据中挖掘出其潜在的有价值的信息，从而帮助提升医院的整体医疗质量，加快医院信息化建设的步伐。但是，想要充分利用电子病历中的宝贵信息就必须先将其非结构化数据进行抽取成结构化数据，例如医生对患者病情的描述信息、医生给患者提供的治疗方案、用药记录等等。其中，数据挖掘和信息处理的最有效的手段是自然语言处理中文本分类和序列标注方法。我们需要充分利用这些方法，将电子病历数据中有效的信息抽取出来，帮助医疗科研人员进行二次利用，降低科研人员的工作难度和复杂程度，提高数据挖掘的效率和质量，推进医学领域的信息化建设。同时，对电子病历数据进行分析挖掘，发现病历潜在的医学知识，对疾病做出准确地趋势分析。

近年来，由于自然语言处理(Natural Language Processing，NLP)和深度学习(DeepLearning)拥有自动提取特征、构建复杂模型以及处理图像的能力，具有良好的泛化能力，被广泛地应用在各个领域中。这种自动提取特征的能力，非常适合用于处理医学数据分析所面临的问题，引起了医学领域研究者的思考，如何有效地将这些技术应用在电子病历数据的挖掘中。电子病历数据里面包含了患者从入院到出院的所有信息，包括患者的基本信息、住院时间、病情描述、手术记录、用药记录、出院时间等。如果通过自然语言处理技术将这些信息进行有效地利用，那么对于整个医院的信息化建设会有很大的提升。其中，文本数据是电子病历中最重要的部分之一，处理好文本数据是要想有效的利用电子病历中的宝贵信息的必然选择。因此，电子病历后结构化的研究成为了挖掘电子病历潜在信息的前提。

面对目前这种现状，学者们进行了多次尝试，提出了多种解决办法。目前为止，对电子病历进行后结构化操作存在两种方法，分别是结构化数据输入(Structured DataEntry,SDE)和自然语言处理(NaturalLanguageProcessing,NLP)^[1]。下面介绍五种目前国内外正在使用或研究中的电子病历后结构化方法^[2]。

(1)基于固定表单的录入方法：该方法是最早被使用于临床，其技术实现路线简单，但缺点也是很明显的。首先，医生对病人的诊断思路的连贯性被表单结构严格限制，不符合医生书写病历的习惯。接着，由于病症复杂多样，医生对患者的病情描述信息点可能存在差异，固定表单的结构需要十分详尽，故制作需要大量的时间去推敲，十分浪费时间。最后，结构比较死板，难以实现医生的灵活配置，不利于对系统进行维护。综上所述，基于固定表单的录入方法虽然实现了病历数据的结构化，但是也牺牲了数据录入的灵活性与方便性，也不利于日后的维护。

(2)基于开放式的结构化录入方法：电子病历系统内有很多模板，医生根据患者病情的需要调用不同的模板，多种模板对应着多种表单结构，从而应对复杂的医疗文书录入。同时，医生也可以以自然语言的形式进行病历录入，既可以兼顾医生书写病历的连贯性，又提高医生的录入速度和病历的准确性。缺点是自由录入的部分就无法结构化，同时模板中的结构只能删除，无法添加，导致该方法灵活性上仍有待于提高。

(3)基于语义分析自动实现结构化方法：首先由医生自由录入一段文本，然后通过计算机进行语义分析提取关键字，最终实现文本结构化。但是，在医疗领域中诊断疾病的书写本身拥有较强的规则性和规范性，若使用语义分析来完成结构化任务，结果的准确率是难以得到保证的。因此，基于语义分析自动实现结构化方法还不成熟，正处于探索阶段，从未在真实的临床应用中使用。

(4)基于机器学习方法实现结构化：利用统计学习方法来抽取电子病历中实体，实现电子病历结构化，主要使用支持向量机(Support Vector Machine，SVM)、条件随机场(CRF)、朴素贝叶斯(Naive Bayes，NB)和隐马尔可夫模型(Hidden Markov Model，HMM)等机器学习方法。例如，张蕾^[3]等人先使用LLE算法对高维医学数据进行特征提取，再使用支持向量机对降维后的医学特征进行分类。张金龙^[4]使用条件随机场，又额外加入外部上下文特征，进行中文医疗机构实体的识别。

(5)基于深度学习方法实现结构化：使用神经网络来完成电子病历信息抽取任务，将有效的医学信息挖掘出来，实现非结构化或半结构化的文本转化成结构化的数据。近年来，命名实体识别、文本分类、序列标注等相关技术在电子病历后结构化中起到非常重要的作用。比如Li^[5]等人使用RNN神经网络建立了生物医学命名实体识别系统(bio-NER)，可以高效、准确地识别电子病历文本中的实体。李丽双^[6]使用CNN-BiLSTM-CRF进行生物医学文本的实体识别。

目前，由于深度学习和自然语言处理在其它领域中有着不俗地表现，医疗研究者们正尝试用深度学习方法来解决医学领域的问题。其中，使用自然语言处理的好处是可以自动地编码医学信息，且医务人员也不需要改变描述病情的书写方式。自然语言处理中文本分类等技术最为受到关注。例如，Zhang^[7]首先提出了使用字符级嵌入作为模型输入，并借助卷积神经网络来完成文本分类任务。Zhang和Johnson提出DPCNN^[8]模型，使用一种单词级别的深度CNN模型，来学习文本的全局特征来解决分类问题。Kim^[9]提出的TextCNN模型，首先使用多个不同的卷积核来捕捉文本中的语义信息，接着使用最大池化层来捕捉文本中最重要的特征，最后使用全连接层整合所有的文本特征，以此来提高模型捕捉特征的质量。但是，这些模型优先考虑了文本顺序所带来的信息，没有考虑全局中词共现问题，它们会携带大量的长距离信息。为了解决这个问题，Yao^[10]等人提出TextGCN模型，可以捕获全局的词贡献所带类的信息，得到了较好的文本分类结果。Google提出的BERT模型^[11]，突破了静态词向量无法解决一词多义的问题，在文本分类领域具有较强的竞争优势。对于文本分类任务，学者们近期的关注点是将BiLSTM和注意力机制^[12-13]进行结合，注意力机制会在中间状态给不同的表示赋予不同的权重，最后加权求和得到最后的输出。近年来，深度学习被广泛使用且拥有着良好的实验效果，因此基于深度学习的多任务学习方法最受学者们欢迎^[14-15]。相比于其它两种多任务学习方法，基于深度学习的多任务学习方法拥有强大的自动提取特征的能力、构建复杂模型的能力以及图像处理的能力，对模型的训练有一定的帮助。

上述涉及的公开文献如下：

[1]吴伶俐,刘洪星.基于XML的结构化电子病历系统设计[J].计算机工程与设计,2007(02):473-476.

[2]于一,廖睿,叶大田.电子病历结构化方法概述[J].北京生物学工程，2017,26(1):103-106.

[3]张蕾,何萍,荣静.基于降维和支持向量机的医学诊断[J].计算机时代,2018(11):60-63.

[4]张金龙,王石,钱存发.基于CRF和规则的中文医疗机构名称识别[J].计算机应用与软件,2014,31(03):159-162.

[5]Li,L.,Jin,L.,Jiang,Y.,Huang,D.:Recognizing biomedical namedentities based on the sentence vector/twin word embeddings conditionedbidirectional lstm.In:China N ational Conference on Chinese ComputationalLinguistics International Symposium on Natural Language Processing Based onNaturally Annotated Big Data(2016)

[6]李丽双,郭元凯.基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J].中文信息学报,2018,32(01):116-122.

[7]Zhang,X.,Zhao,J.,LeCun,Y.:Character-level convolutional networksfor text classif ication.In:Cortes,C.,Lawrence,N.D.,Lee,D.D.,Sugiyama,M.,Garnett,R.(eds.)Advances in Neural Information Processing Systems 28,pp.649-657.Curran Associat es,Inc.(2015)

[8]Johnson,R.,Zhang,T.:Deep pyramid convolutional neural networks fortext categoriz ation.In:Proceedings of the 55th Annual Meeting of theAssociation for Computation al Linguistics(Volume 1:Long Papers).pp.562–570(2017)

[9]Kim,Y.:Convolutional neural networks for sentenceclassification.In:Proceedings of the 2014Conference on Empirical Methods inNatural Language Processing,EMNLP 2014.pp.1746–1751(2014)

[10]Yao,L.,Mao,C.,Luo,Y.:Graph convolutional networks for textclassification.In:A AAI(2018).

[11]Devlin,J.,Chang,M.,Lee,K.,Toutanova,K.:BERT:pre-training of deepbidi-rectio nal transformers for language understanding.In:Proceedings of the2019Conference of the North American Chapter of the Association forComputational Linguistics:Hu man Language Technologies,NAACL-HLT 2019,Minneapolis,MN,USA,June 2-7,2019,Volume 1(Long and Short Papers).pp.4171–4186(2019)

[12]Zhou,X.,Wan,X.,Xiao,J.:Attention-based lstm network for cross-lingual sentiment classification.In:EMNLP.pp.247–256(2016)

[13]Yang,Z.,Yang,D.,Dyer,C.,He,X.,Smola,A.J.,Hovy,E.H.:Hierarchicalattention networks for document classification.In:HLT-NAACL(2016)

[14]Noushahr,H.G.,Ahmadi,S.:Multitask learning for textclassification with deep neural networks.In:Research and Development inIntelligent Systems XXXIII-Incorporati ng Applications and Innovations inIntelligent Systems XXIV.Proceedings of AI-2016,The Thirty-Sixth SGAIInternational Conference on Innovative Techniques and Applic ations ofArtificial Intelligence,Cambridge,UK,December 13-15,2016.pp.119–133(2016)

[15]Yousif,A.,Niu,Z.,Nyamawe,A.S.:Citation classification usingmultitask convolution al neural network model.In:Knowledge Science,Engineering and Management-11th International Conference,KSEM 2018,Changchun,China,August 17-19,2018,Proce edings,Part II.pp.232–243(2018)

发明内容

近年来，深度学习方法得到广泛的应用，具有良好的泛化能力，引起了医学领域研究者的广泛关注，致使电子病历文本所蕴含的信息正在被挖掘。然而，大多数进行信息挖掘的方法是基于结构化的电子病历数据，但可用的结构化数据极少，因此本发明的目的是如何将非结构化的肠癌诊断电子病历文本通过深度学习技术转化为结构化数据。

为了解决上述技术问题，本发明的研究任务是对上海市某大型三甲医院的真实肠癌电子病历临床数据进行抽取属性值。利用深度学习和自然语言处理技术，完成了非结构化的肠癌电子病历文本转化为结构化数据的任务。例如，在图1中，有3个关于肠癌诊断的病理报告。这些报告是非结构化的文本，包含大量有关肠癌的描述性信息，比如描述癌症指标状态的属性(上切端的癌累及情况、下切端的癌累及情况、基底切端的癌累及情况、脉管侵犯情况和神经侵犯情况等)。这些信息很容易为人类所理解，但数据量过于庞大，仅仅依靠人工处理过于浪费人力。为了从电子病历中获取更完整且详细的信息，借助计算机算法完成了从非结构化肠癌病历文本中抽取成结构化信息的任务，如图1所示。但是，在完成的过程中，遇到了以下多种挑战。

(1)由于肠癌数据存在着隐私性，最终得到的实验数据量有限。但是，在模型的训练过程中，数据量不足容易出现过拟合情况。

(2)由于电子病历中具有较多医学领域的专业术语，通用的词嵌入不能充分地表示肠癌数据，因为它无法捕获特定领域的语义/知识。例如，在公开的词嵌入表示中，均不存在“上切端”这个专业名词的词嵌入表示，这不利于模型实验效果的提升。

(3)由于肠癌临床数据的信息量较大，每条肠癌诊断文本均由多个句子构成，而且每条句子均可能在描述不同的肠癌癌症属性，每条句子呈现出短文本的特性，较难处理。

依据以上三个挑战，对肠癌文本进行仔细地研究后，给出了具体的解决策略，最终实现了非结构化肠癌诊断文本到结构化数据的转变。以下是针对三个挑战，本发明的创新之处在于以下三点：

(1)首先，为了解决数据量不足的问题，本发明提出使用多任务学习机制同时完成多个属性值的抽取任务。本发明使用多任务学习机制的原因是，多任务学习机制可以使多个任务之间的数据和参数进行共享，在一定程序上可以弱化神经网络学习的能力来防止过拟合。同时，还可以得到一个优质的表示来提高所有任务的实验效果。

(2)其次，针对通用词嵌入不能充分表示领域知识的问题，本发明使用通用的词嵌入来初始化模型参数，然后通过微调以捕获特定领域的语义/知识，使它可以更好地表示肠癌数据，帮助模型实现最好的实验效果。

(3)最后，考虑到肠癌诊断文本的特殊性(不同句子在讲述不同肠癌属性)，呈现短文本的特性，本发明决定将文本切分成多个句子，每一个句子包含一种属性，分别送到BiLSTM中学习句子表示；同时，考虑到并非所有句子对每一个属性提取器都有用，本发明还使用注意力机制为不同属性提取器来选择最重要实例，并相应地减少其它实例所带来的噪声，具体包括以下步骤：

步骤一、对于每个实例使用预训练的词嵌入来初始化神经网络模型中的参数；

步骤二、使用训练数据对步骤一中所述实例进行微调来捕获特定领域的语义/知识；

步骤三、使用BiLSTM层来考虑多条句子上下文信息，以获得更好的句子表示；

步骤四、使用注意力机制为不同的属性提取器选择最重要的实例，并相应地减少其它实例所带来的噪声；

步骤五、在输出层使用多任务学习机制，共同学习相关任务以同时解决多个多类问题任务，从而获得更好的结果并减少过拟合的风险。

附图说明

图1为某肠癌诊断文本抽取结果示意图；

图2为使用文本分类提取属性值任务的基本框架；

图3为使用多任务学习从癌症样本中提取某些癌症指标状态的示例。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

该框架如图2所示。本发明使用一种端到端的神经网络模型从文本的多个实例中提取属性值。首先，对于每个实例使用预训练的词嵌入来更好地初始化神经网络模型中的参数。其次，使用领域语料库(训练数据)对其进行微调来捕获特定领域的语义/知识。然后，使用BiLSTM层来考虑多条句子上下文信息，以获得更好的句子表示。接着，考虑到并非所有句子对每一个属性提取器都有用，本发明使用注意力机制为不同的属性提取器选择最重要的实例，并相应地减少其它实例所带来的噪声。最后，在输出层使用多任务学习机制，共同学习相关任务以同时解决多个多类问题任务，从而获得更好的结果并减少过拟合的风险。同时，本章节还对每个任务的损失贡献做出了不同重要性的区分。

本发明主要介绍神经网络模型(MT-MI-BiLSTM-ATT)的实现，它解决了从癌症文本中提取多个癌症指标状态的问题。图3显示了使用多任务学习机制从癌症样本中提取某些癌症指标状态的示例，其中癌症指标包括上切端的癌累及情况、下切端的癌累及情况、基底切端的癌累及情况、神经侵犯情况与脉管侵犯情况这五种。癌症指标的状态具有三个标签，分别是{是，否，未知}。现在，本小节从下到上逐一介绍神经网络中的神经层。

(1)词向量化

如图3所示，对于每个癌症标本e∈E(E为癌症标本数据集)，首先将其文本切成句子/段s_e，然后将其作为癌症样本的一个实例。接着，对于每个实例/句子，将句子分为单词。为了避免进行复杂的特征工程，使用预训练的词嵌入，它是在大型的通用的语料上得到的。但是，由于本文的数据集属于医学领域范畴，通用词嵌入的性能发挥有限，因为它无法捕获特定领域的语义/知识。例如，预训练的公开的词嵌入表示中，均不存在“上切端”这个专有名词的词嵌入，将影响该属性提取器的实验效果。

因此，在本发明中，首先使用预训练的词嵌入来初始化我们的模型，然后使用肠癌电子病历文本数据对其进行微调，以此来获得更好的字符嵌入表示。

(2)BiLSTM层

经过词向量化后，肠癌文本转化成词嵌入矩阵作为模型的输入，本模型使用循环神经网络(RNN)的变种-长短期记忆神经网络(LSTM)。由于RNN采用循环递归的方式处理历史数据进行建模，其适用于处理时间、空间序列等具有强关联性的信息。但是，随着其模型网络的发展和更替，出现了梯度消失或者梯度爆炸的问题，不能完美地解决比较复杂的序列数据。因此，本发明选择了使用长短期记忆网络(LSTM)。

对于许多分类任务的结果需要前向和后向的输入共同确定，尤其是使用后向输入，对模型效果的提升更加明显。但是，LSTM的隐藏状态仅从前向获取信息，而对其后向信息一无所知。一个经过验证的工作是使用双向长期短期记忆神经网络(BiLSTM)，基本思想是将前向序列表示和后向序列表示视为两个独立的隐藏状态序列，分别使用它们去捕获前向和后向信息，然后将这两个隐藏状态连接起来以形成最终输出。因此，本发明使用BiLSTM层来考虑文本上下文的信息，希望可以获得更好的句子/实例表达。将从输出门得到的信息分别传送到BiLSTM的前向序列和后向序列中，对于每个句子s_ei，我们使用隐藏的向量h_i表示它：

h_i＝[h_i，1，h_i，2，...，h_i，j，...，h_i，w] (1)

其中h_i，j是句子s_ei的第j个单词的隐藏向量表示，将前向LSTM表示和后向LSTM表示通过非线性变换连接起来。前向LSTM表示带有文本的标准序列，后向LSTM表示带有相反的序列：

(3)Attention层

在该属性值提取任务中，并非所有实例/句子对每一个属性提取器的训练都有用。例如，在图3-2中，癌症文本中有五个句子。仅只有第一个句子“上切端未见癌累及”，对于“上切端的癌累及情况”的属性提取器有用，剩下的四个句子对于该属性提取器均属于噪声数据。

因此，本发明使用注意力机制为不同的属性提取器选择最重要的实例，从而动态减少噪声实例的权重。具体来说，本发明使用HAN模型提出的注意力机制来表示所有实例/句子h，其定义如下：

h＝∑_iα_ih_i (3)

其中h_i是第i个实例，而α_i是h_i实例的权重，定义如下：

m_i＝tanh(w_sh_i+b_s) (5)

其中，m_s和m_i是实例/句子级别的上下文向量，w_s和b_s是一个单层的感知机参数用于得到m_i的隐含表示，这些参数均于训练过程中随机初始化和联合学习。

(4)多任务输出

本发明研究的问题是从一段肠癌样本中提取多个癌症指标的状态，因此模型选择使用多任务学习机制同时抽取多个属性值，从而获得更好的结果并减少过拟合的风险。在Attention层输出后，所有实例表示h被输送到不同的输出层。同时，本发明使用softmax函数获得多个分类结果。

P_c＝softmax(w_ch+b_c) (6)

其中P_c是任务c的预测概率，w_c是权重参数，b_c是偏差矢量。

(5)模型训练

对于模型的训练，本发明优化器使用的是随机梯度下降(StochasticGradientDescent，SGD)，损失函数使用的是交叉熵(Cross Entropy)。同时，本发明为每个任务的损失函数对最终损失的贡献分配了不同的权重。

其中γ_c表示每个任务c的权重，C表示所有任务的个数，P_i，j代表模型的预测结果，t_i，j代表真实结果，N表示训练样本数，M是类别数。

Claims

1.一种基于多任务学习的肠癌诊断电子病历属性值抽取方法，其特征在于，包括以下步骤：