CN109800411B

CN109800411B - 临床医疗实体及其属性抽取方法

Info

Publication number: CN109800411B
Application number: CN201811476992.XA
Authority: CN
Inventors: 汤步洲; 石雪; 陈清财; 王晓龙; 熊英; 蒋德焕
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2023-07-18
Anticipated expiration: 2038-12-03
Also published as: CN109800411A

Abstract

本申请涉及一种临床医疗实体及其属性抽取方法。该方法包括：3个模块：(1)预处理；(2)句子的信息全面性表示；(3)临床医疗实体及其属性抽取的联合学习。其中联合学习方法主要包括两种方式：(1)串行联合方式；(2)并行联合方式。串行联合方式又分为3个子模块：(1)临床医疗实体‑属性识别；(2)临床医疗实体‑属性关系抽取；(3)联合学习；并行联合方式是采用序列标注的方法进行临床医疗实体及其属性联合抽取。该方法对临床医疗辅助决策、临床医疗研究等具有重要意义。

Description

临床医疗实体及其属性抽取方法

技术领域

本发明涉及一种临床医疗实体及其属性抽取方法，主要应用于智慧医疗的临床医疗知识挖掘、辅助临床医疗决策等方面。

背景技术

随着医疗健康服务不断向信息化和智能化发展，临床医疗数据得到了大量的积累。这些数据蕴含着大量丰富的医疗知识和患者的健康信息，这些知识和信息可以极大地促进医疗知识创新和发展、循证医疗、辅助临床以及医疗决策等。非结构化的临床医疗数据中包含着大量的专业术语，在其至上，信息抽取便成为了挖掘医疗知识的第一步，其中医疗实体及其属性的抽取是关键内容，医疗实体及其属性抽取，既包括医疗实体和属性的识别，也包括二者搭配关系的抽取。

目前，在医疗领域，针对电子病历、各种医疗报告、医学文献等的实体识别研究已有不少，同时，实体关系抽取的研究再近些年来也取得了不少优秀的成果，采用的方法主要有基于规则和知识的方法、统计机器学习方法以及两者的结合。基于规则和知识的方法需要大量领域知识和人力劳动，且可移植性差。统计机器学习方法需要手工设计出大量可靠的特征来提高实体识别性能。

近年来，基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展，命名实体识别和关系抽取也不例外。对于通用领域命名实体识别，早期的基于窗口的深层神经网络模型性能已超过统计机器学习方法，目前主流的命名实体识别模型为神经网络与CRF算法相结合的模型。对于通用领域关系抽取，2012年就出现使用RNN来解决关系抽取问题，最近也提出一种基于端到端神经网络的关系抽取模型。但在临床医疗领域，基于规则和知识的方法和统计机器学习方法仍然是医疗实体及其属性识别的主流技术。

对于实体识别和关系抽取两个任务，通常采取的是流水线方法，即先识别命名实体，然后基于已经识别出的命名实体进行关系抽取，但该方法忽略了这两个任务之间的内在联系和依赖关系。与流水线方法不同的是，联合学习模型是使用单个的模型来抽取命名实体和关系，它可以有效整合实体和关系的内在信息。

本发明针对临床医疗实体识别和关系抽取两个问题，设计了临床医疗实体及其属性联合抽取方法。该方法包括两种方式：1)先识别临床医疗实体-属性，再抽取实体-属性关系，最后做联合，简称“串行联合”；2)临床医疗实体-属性识别和实体-属性关系抽取并行进行，简称“并行联合”，把临床医疗实体及属性联合抽取任务转化成序列标注问题进行处理。其中，“串行联合”抽取方法具有以下特点：1)在一个统一的框架下对临床医疗实体和属性识别及其之间关系抽取进行建模。2)临床医疗实体与属性之间的关系抽取引入临床医疗知识中定义的医疗实体及其属性之间的关系约束。3)采用一个有偏置的线性损失函数对联合学习模型进行训练。

发明内容

为了解决临床医疗实体及其属性抽取问题，本发明提供了两种临床医疗实体及其属性抽取的联合学习方法。

本发明解决现有技术问题所采用的技术方案为提供两种基于神经网络的临床医疗实体及其属性联合抽取模型，针对临床医疗实体及其属性“串行联合”抽取方法，所述方法包括：

(1)采用基于规则的方法对原始电子病历进行数据清洗、章节头检测、句子边界检测、Tokenization预处理；

(2)利用深度学习算法对输入语句进行表示，包括CNN-RNN句子表示、多通道句子表示和Seq2Seq句子表示；

(3)将临床医疗实体-属性识别任务看作一个序列标注问题，采用Begin InsideLast Outside Unit表示方法，即“BILOU”表示方法对包含临床医疗实体和属性的句子进行标注：首先利用Attention机制对句子中每一个词与其他词之间的相关性进行建模，然后利用NN方法和结构化预测方法完成序列标注；

(4)根据临床医疗实体和属性之间的修饰约束关系对所有可能的实体-属性对候选进行过滤；

(5)将过滤之后的关系候选通过神经网络框架对实体-属性关系候选进行表示；

(6)将临床医疗实体-属性关系抽取任务看作一个分类问题，利用NN对表示后的实体-属性对候选进行关系分类；

(7)在模型的训练过程中，对实体-属性识别的损失函数L_e和实体-属性关系抽取的损失函数L_r的进行线性组合：

L＝αL_e+(1-α)L_r

其中，α是一个组合系数，用于调节每部分的权重，α越大，表示实体-属性识别对模型的影响越大，反之亦然，L_e和L_r均采用交叉熵作为实体和属性识别的损失函数。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，采用向量分布式表示词、词性、依存关系等，可通过CNN-RNN句子表示、多通道句子表示和Seq2Seq句子表示等多种表示方法对输入语句进行编码表示，其中CNN-RNN句子表示的具体方法是：

(1)通过分布式表示学习算法(如Continuous Bag-Of-Word、Skip-Gram等)在大量的医疗文本上学习得到可泛用的、良好的词向量分布式表示，词向量不仅解决了one-hot表示带来的维数灾难问题，并且词向量蕴含了词汇的语义信息，为后面的工作打下良好的基础；

(2)利用现有的自然语言处理工具包获取每个词的词性，并将词性向量进行随机初始化，在模型训练过程中对其不断进行调整；

(3)将步骤(1)所得的词向量w_t与步骤(2)所得的词性向量p_t进行拼接，形成新的词向量[w_t；p_t]作为句子表示模块的输入；

(4)对医疗文本句子中的每一个词选取一个固定大小(如1、2、3等)的上下文窗口，利用一定数量(如50、100、150等)的卷积核对窗口中的上下文进行卷积和池化操作，得到每一个词所在医疗文本句子中的局部上下文语义信息；

(5)卷积层主要包含两种基本计算：其一为特征提取，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征，一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射，网络的每个计算层由多个特征映射组成，每个特征映射平面上所有神经元的权值相等，特征映射结构采用非线性函数作为卷积网络的激活函数，增强模型表征能力，使得特征映射具有位移不变性；

(6)卷积层后面紧接一个池化层，池化层的特征图与前一卷积层的特征图相连，进一步进行特征提取并减少模型参数数量，具体的池化操作可以采用平均池化和最大池化；

(7)将融合词的局部上下文语义信息表示的特征向量通过双向LSMT进一步获取输入序列中每个词的完整全局上下文信息表示，即每一个输入序列通过向前和向后LSTM网络；

(8)在双向LSTM网络中，常规的神经元被存储单元所代替。每个存储单元包含一个输入门i_t、一个输出门o_t和一个忘记门f_t，分别用来控制输入信息存储在存储单元的比例、历史信息被遗忘的比例和输出信息被传输到下一节点的比例。每个存储单元有三个输入：当前n维输入向量x_t，上一时刻输出隐状态h_t-1和上一时刻记忆细胞c_t-1，通过以下计算生成当前隐状态输出h_t：

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1+b⁽ⁱ⁾),

f_t＝σ(W^(f)x_t+U^(f)h_t-1+b^(f)),

o_t＝σ(W^(o)x_t+U^(o)h_t-1+b^(o)),

u_t＝tanh(W^(u)x_t+U^(u)h_t-1+b^(u)),

c_t＝i_t*u_t+f_t*c_t-1,

h_t＝o_t*tanh(c_t),

其中，σ表示logistic函数，*表示点乘运算，W和U是权重矩阵，b是偏置；

(9)双向LSTM即每一个输入序列通过向前和向后两个LSTM层，而且至两个LSTM都连接着一个输出层，但隐藏层的两个向前向后LSTM层之间没有信息流。这个结构提供了对输入序列的每个点获取完整的上下文信息；

(10)对于正向LSTM，样本将按照x₁x₂…x_n的顺序输入到网络中，而后得到一组状态输出h_f1h_f2…h_fn；对于反向LSTM，样本将按照x_nx_n-1…x₁的顺序输入到网络中，而后得到一组状态输出h_bnh_bn-1…h_b1，然后将两组状态输出序列合并得到句子表示h＝h₁h₂…h_n＝[h_f1；h_b1][h_f2；h_b2]…[h_fn；h_bn]。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，采用向量分布式表示词、词性、依存关系等，可通过CNN-RNN句子表示、多通道句子表示和Seq2Seq句子表示等多种表示方法对输入语句进行编码表示，其中多通道句子表示的具体方法是：

(1)同上述CNN-RNN句子表示的具体方法(1)至(3)；

(2)将输入语句的词表示向量流入多层双向LSTM层获取输入语句不同深度层次的特征表示，即第一层双向LSTM的输出作为第二层双向LSTM的输入，第二层双向LSTM的输出作为第三层双向LSTM的输入，以此类推；

(3)将每一层双向LSTM输出的词表示向量进行拼接合并得到基于多通道的向量表示，其中每一层双向LSTM即为一个通道，基于不同通道得到的信息表示可获取输入语句的不同深度层次的语义信息，融合多个通道的信息，使得句子的表示带有更多更丰富的语义信息；

(4)该方法可引入更多特征(如词性、依存句法等)作为模型的另外一个通道，进一步特高句子的表征能力。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，采用向量分布式表示词、词性、依存关系等，可通过CNN-RNN句子表示、多通道句子表示和Seq2Seq句子表示等多种表示方法对输入语句进行编码表示，其中Seq2Seq句子表示的具体方法是：

(1)同上述CNN-RNN句子表示的具体方法(1)至(3)；

(2)当前时间的隐藏状态是由上一时间的状态和当前时间的输入x共同决定的，最后得到基于整个句子的一个语义表示，可采用将最后的一个时间状态隐藏层的输出作为整个句子的一个语义表示或将各个时间状态隐藏层的输出汇总作为整个句子的一个语义表示；

(3)Encoder将输入序列流入RNN/LSTM/GRU模型中，当前时间的隐藏状态是由上一时间的状态和当前时间的输入x共同决定，最后将整个句子的一个语义表示浓缩到一个固定维度的向量c中，可直接采用最后的一个时间状态隐藏层的输出作为整个句子的一个语义表示或将各个时间状态隐藏层的输出汇总作为整个句子的一个语义表示，Encoder过程为知识的学习过程：

h_t＝f(x_t,h_t-1)

其中f是激活函数，隐藏层输出c，可以看成整个句子的一个语义表示；

(3)Decoder根据基于该语句存储信息的向量c获得句子的目标表示，即根据给定的语义向量c和输出序列y₁,y₂,…y_t-1来预测下一个输出词y_t,Decoder过程为知识的应用过程：

h_t＝f(y_t-1,h_t-1,c)

p(y_t|y_t-1,…,y₁,c)＝g(y_t-1,h_t,c)

其中f和g都是激活函数，g函数一般是softmax函数。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性识别任务转换为序列标注问题，利用attention机制对句子中每一个词与其他词之间的相关性进行建模，具体方法为：

(1)计算每个词i的句子表示部分的输出向量h_i与句子中其他词j(j≠i)的词向量h_j的相似度,最常见的方法如下所示:

(2)通过softmax函数将其归一化处理，进而计算出每个词的权重因子，计算公式如下所示:

(3)利用这些权重对每个词的词向量进行加权求和，获得融合句子中其他词语对当前词的语义贡献信息的Attention向量：

(4)拼接合并Attention向量和当前词向量作为该词的向量表示。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性识别任务转换为序列标注问题，通过attention机制后，采用NN方法、结构化预测等方法获取实体-属性标签，其中NN解码的具体方法为：

(1)采用“BILOU”(Begin,Inside,Last,Outside,Unit)表示方法对包含中文临床医疗实体和属性的句子进行表示；

(2)多层神经网络由三部分组成：输入层,隐藏层,输出层，其中输入层和输出层只有1层，隐藏层可以有N(N＝1,2,3,…)层。一层隐藏层神经网络就是一层特征层次，每一个神经元可以类似看作一个特征属性；

(3)将当前词的Attention向量表示h_t和前一个词的预测标签向量l_t-1拼接合并作为多层神经网络的输入向量，通过多层神经网络得到相应的隐状态h_t ^entity，输出层利用传统的softmax函数来计算每个实体-属性标签的概率分布，取概率最大的标签作为该词的预测标签具体计算公式如下：

其中，W是权值矩阵，b表示偏差向量，N_e是总标签数量。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性识别任务转换为序列标注问题，通过attention机制后，采用NN方法、结构化预测(CRF、SSVM等)方法获取实体-属性标签，其中采用CRF的具体方法为：

(2)将当前词的向量表示h_t和前一个词的预测标签向量l_t-1拼接合并作为CRF的输入向量。在预测标签时，CRF是基于全局范围内统计归一化的条件状态转移概率矩阵，再预测出一条指定的样本的每个词的标签，得到最佳的标签序列。定义标签序列为隐状态序列Y＝{y₁,y₂,…,y_T}，输入语句为观测序列X＝{x₁,x₂,…,x_T}，其条件概率为：

其中，Z(X)是归一化因子，使得所有状态序列的概率和为1，f_k(y_i-1,y_i,x_i)是关于观测序列和位置i及i-1标签的转移特征函数，f'_k(y_i,x_i)是关于观测序列和位置i标签的表现特征函数，w_k和w'_k为对应特征函数相关的权值；

(3)CRF在训练的过程中最大化目标函数，采用梯度上升，优化函数的计算公式如下：

其中，w为权值向量，为特征向量，/>为正确的实体-属性标签序列；

(4)CRF在推理过程中利用Viterbi算法进行最大值的搜寻，获取最佳标签序列的计算公式如下：

其中，|Y|表示所有可能的实体-属性标签序列集，为预测的实体-属性标签序列。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性关系抽取任务转换为多分类问题，通过深度神经网络架构(如Bi-SeqLSTM、Bi-TreeLSTM、CNN等)对实体-属性候选进行表示，其中CNN候选关系表示的具体方法如下：

(1)在进入网络之前，先根据临床医疗实体和属性之间的修饰约束关系对所有可能的实体-属性候选进行过滤，这一过滤可以很好地解决由没有关系的候选对所造层的冗余信息问题；

(2)CNN分为四层：输入层、Attention层、卷积层、池化层。在输入层将目标实体和属性所在语句作为输入，每个词被表示为[h_t；l_t](h_t是第t个词在句子表示部分的输出向量，l_t是实体-属性标签向量)，由于目标实体和属性可能包含两个或更多词，所以累加这些词的向量信息来表示实体或属性，例如和/>中EA1和EA2表示第一和第二实体或属性中的索引集合；

(3)在Attention层对实体或属性与其他词语之间的相关性进行建模，假设H＝[h₁,…,h_r1,,…,h_r2,…,h_n]为句子中所有词语向量拼接构成的向量矩阵，其中n为句子中词语的数量，计算实体或属性对于句子中其他词语的相似度并使用softmax函数进行归一化处理得到权重，利用这些权重对每个词的词向量进行加权求和得到Attention向量，最后，将Attention向量与原始词语向量进行拼接。

(4)在卷积层滤波器滑过输入序列S＝[w₁,w₂,…,h_r1,…,w_n,…,h_r2,…,w_m]获得语义特征cⁱ：

其中，表示第i个滤波器，/>为对应偏置，k为滑动窗口的大小，/>为滤波器/>从序列中第l个词到第l+k-1个词提取的特征。因此，对给定输入序列得到的特征被表示为/>

(5)在池化层根据实体和属性所在位置为界限，将输入序列分为3段{c⁽¹¹⁾，c⁽¹²⁾，c⁽¹³⁾},并对每段采用最大池化操作来保留最显著的特征p ^ij＝max(c^(ij))(1≤i≤n,1≤j≤3)，将每段最显著特征拼接合并得到候选关系表示向量h_r＝[p¹¹；p¹²；p¹³；…；pⁿ³]，其中n为卷积核数量。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性关系抽取任务转换为多分类问题，通过深度神经网络架构(如Bi-SeqLSTM、Bi-TreeLSTM、CNN等)对实体-属性候选进行表示，其中Bi-SeqLSTM候选关系表示的具体方法如下：

(2)将过滤之后实体-属性候选通过基于序列的双向LSTM进行实体-属性候选表示，将候选关系中实体、属性以及实体和属性之间的语句作为神经网络的第一层输入，其中每个SeqLSTM存储单元的输入向量是由实体或属性在句子编码部分得到的表示向量h_t和实体或属性预测标签结果向量l_t组成[h_t；l_t]；

(3)利用Attention机制对实体或属性与其他词语之间的相关性进行建模；

(4)通过双向LSTM对关系进行编码，其目标实体和属性之间的上下文片段被表示为h_fr＝[h_fr→；h_fr←](h_fr→和h_fr←分别是双向LSTM前向和后向的输出)，通过合并h_fr、第一个实体或属性编码h_r1和第二个实体或属性编码h_r2得到实体和属性以及其上下文的表示向量h_r＝[h_fr；h_r1；h_r2]作为候选关系的表示向量。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性关系抽取任务转换为多分类问题，通过深度神经网络架构(如Bi-SeqLSTM、Bi-TreeLSTM、CNN等)对实体-属性候选进行表示，其中Bi-TreeLSTM候选关系表示的具体方法如下：

(2)在基于序列的LSTM中添加句子结构特征来加强深层语义学习，即通过利用现有的自然语言工具包对输入语句进行依存句法分析，构建起依存句法树，然后将这种树状结构输入到Bi-LSTM。其Bi-TreeLSTM的构建依赖于目标实体与属性之间的SDP(最短依赖路径，the Shortest Dependency Path)，即目标实体和属性在依存句法分析树中的最小公共父节点与目标实体和属性之间的路径输入到BiLSTM中；

(3)每个词由句子表示部分的向量表示h_t、临床医疗实体-属性识别的输出标签向量l_t和依存关系向量d_t三部分合并作为每个LSTM单元的输入向量:x_t＝[h_t；l_t；d_t]；

(4)利用Attention机制对实体或属性与其他词语之间的相关性进行建模；

(5)在TreeLSTM中，常规的神经元，即一个将S型激活应用于其输入线性组合的单位，被存储单元所代替。每个存储单元包含一个输入门i_t、一个输出门o_t和一个忘记门f_t。每个存储单元有三个输入：当前n维输入向量x_t,该节点的孩子节点的输出隐状态h_t-child和该节点的孩子节点的记忆细胞c_t-child,假设当前节点的所有孩子为C(t)，通过以下计算生成当前隐状态输出h_t：

h_t＝o_t⊙tanh(c_t)

(6)通过Bi-TreeLSTM对实体-属性关系向量进行编码表示，最终得到实体和属性以及其上下文的表示向量h_r＝[↑h_pr；↓h_pr1；↓h_pr2；h_r1；h_r2]作为候选关系的表示向量，其中h_r1和h_r2分别为第一和第二实体或属性在句子表示模块的输出向量表示，↑h_pr为最小公共父节点(根节点)在Bi-TreeLSTM自底向上的输出向量，↓h_pr1和↓h_pr2为目标实体或属性(叶子节点)在Bi-TreeLSTM自顶向下的输出向量。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性关系抽取任务转换为多分类问题，通过深度神经网络架构NN对实体-属性候选进行表示进行分类预测关系标签，具体方法如下：

(1)将h_r通过一层神经网络得到目标实体和属性的隐状态向量表示

(2)采用softmax函数计算其目标实体和属性之间关系的概率分布，并选取概率最大的标签作为关系的预测标签。具体计算公式如下：

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“串行联合”学习方法中，将临床医疗实体-属性识别任务与临床医疗实体-属性关系抽取任务联合学习，主要通过上述各模块之间参数共享，并采用一个有偏置的线性损失函数进行参数学习和模型训练，具体方法如下：

(1)引入交叉熵作为实体和属性识别的损失函数L_e和实体与属性之间关系抽取的损失函数L_r:

其中，|D_s|是训练集中的语句总数，|S_i|是语句长度，是第i个句子中w_t的正确标签向量，/>是第i个句子中w_t的预测标签的概率分布，|D_r|是训练集中实体与属性的关系总数，/>是训练集中第i个实体与属性关系的正确标签向量，/>是训练集中第i个实体与属性关系的预测标签的概率分布；

(2)联合学习最终的损失函数是L_e与L_r的线性组合，α充当组合偏置系数，α越大，训练时就越看重临床医疗实体-属性识别，反之，α越小，训练时就越看重临床医疗实体-属性关系抽取，计算公式如下：

L＝αL_e+(1-α)L_r

本发明解决现有技术问题所采用的技术方案为提供两种基于神经网络的临床医疗实体及其属性联合抽取模型，针对临床医疗实体及其属性“并行联合”抽取方法，具体结构如下：

针对临床医疗实体及其属性“并行联合”抽取方法，所述方法包括：

A.对原始电子病历进行一系列预处理工作；

B.通过CNN-RNN句子表示、多通道句子表示和Seq2Seq句子表示等方法得到句子的全面性信息表示；

C.采用单标签方法或多标签方法把临床医疗实体及属性联合抽取问题转化成序列标注问题，同时获取实体-属性标签和关系标签。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“并行联合”学习方法的步骤C上，考虑到一个临床医疗实体属性通常仅修饰与之相邻的临床医疗实体，假设每一个临床医疗实体仅修饰一个临床医疗实体，这样可以把临床医疗实体-属性关系抽取任务简化成判断每一个临床医疗属性是修饰它前一个临床医疗实体还是它后一个临床医疗实体，这一信息可以加在临床医疗实体-属性识别任务中进行处理。这样，临床医疗实体及属性抽取任务就可以转化成单标签序列标注问题。

本发明的进一步技术方案是：在基于临床医疗实体及其属性抽取的“并行联合”学习方法的步骤C上，单标签的表示方法是不完备的。为缓解丢失问题，考虑给句子中的每个词同时打上多个标签，每一组标签对应一个实体-属性关系。具体来讲，对多组标签拟采用以下两种方式进行处理：(1)将多组标签合并成一个标签，采用单标签表示类似的方法进行建模；(2)采用多任务学习的方式对每一组标签分别建模之后再进行联合。

本发明的有益效果：本发明提出一种临床医疗文本及属性的抽取方法，在原有的采用流水线学习方法解决实体-属性识别与实体-属性关系抽取这两个任务的基础上，提出临床医疗文本及其属性的联合抽取方法，它具有有效整合实体属性以及其关系的内在信息、提高实体属性的识别率以及关系抽取的正确率等优点。

附图说明

图1为临床医疗实体及其属性“串行联合”抽取方法框架图。

图2为CNN-RNN句子表示流程图。

图3为多通道句子表示流程图。

图4为Seq2Seq句子表示流程图。

图5为计算句子中每一个词与其他词之间的Attention机制流程图。

图6为基于NN的实体-属性识别方法流程图。

图7为基于CRF的实体-属性识别方法流程图。

图8为基于CNN的实体-属性关系抽取方法流程图。

图9为基于Bi-SeqLSTM的实体-属性关系抽取方法流程图。

图10为基于Bi-TreeLSTM的实体-属性关系抽取方法流程图。

图11为临床医疗实体及其属性“并行联合”(单标签表示)示例图。

图12为临床医疗实体及其属性“并行联合”(多标签表示)示例图。

具体实施方式

以下结合附图对本发明临床医疗实体及其属性联合抽取方法进行详细说明：

如图1所示，本发明的具体实施方式是：临床医疗实体及其属性联合抽取可采用“串行联合”方法，其神经网络架构包括如下3部分：

句子表示模块：主要解决输入语句的向量表示问题。该层合并词向量和词性向量通过步骤1流入句子表示模块，其输出的句子表示向量分别通过步骤2和步骤3流入临床医疗实体-属性识别和临床医疗实体-属性关系抽取模块；

临床医疗实体-属性识别：主要完成临床医疗实体和属性识别。该层采用序列标注的方法获取实体标签，其预测标签向量和句子表示模块的输出向量表示拼接合并通过步骤3流入临床医疗实体-属性关系抽取模块；

临床医疗实体-属性关系抽取：主要完成临床医疗实体和属性关系抽取。该层置于临床医疗实体及属性联合抽取模型顶部，采用分类的方法获取关系标签。

如图2所示，具体为CNN-RNN句子表示的流程图，包括如下几个步骤：

步骤1输入层：归属于图1中句子表示模块，通过合并词向量与词性向量得到句子表示模块的输入向量。

步骤2确定滑动窗口：归属于图1中句子表示模块，设定一个固定大小的上下文窗口和一定数量的卷积核。

步骤3CNN层：归属于图1中句子表示模块，对步骤2所得的每个窗口进行卷积操作和池化操作得到融合局部上下文信息的向量表示。

步骤4双向LSTM层：归属于图1中句子表示模块，将步骤3所得的向量表示分别按照x₁,x₂,…,x_n和x_n,x_n-1,…,x₁的顺序输入Cell中，分别得到状态输出{h₁,h₂,…,h_n}和{h_n,h_n-1,…,h₁}，按照下面的形式把两组状态变量拼起来{[h₁,h₁],[h₂,h₂],…,[h_n,h_n]}得到融合全局上下文信息的向量表示。

如图3所示，具体为多通道句子表示的流程图，包括如下几个步骤：

步骤1输入层：归属于图1中句子表示模块，通过词向量与词性向量拼接得到序列层的输入向量。

步骤2第一通道(第一层双向LSTM)：归属于图1中句子表示模块，分别将步骤1的输入向量按照x₁,x₂,…,x_n和x_n,x_n-1,…,x₁的顺序输入Cell中，分别得到状态输出{h₁,h₂,…,h_n}和{h_n,h_n-1,…,h₁}，按照下面的形式把两组状态变量拼起来{[h₁,h₁],[h₂,h₂],…,[h_n,h_n]}输入到第二通道(双向LSTM)中。

步骤3第二通道(第二层双向LSTM)：归属于图1中句子表示模块，将步骤2的第一通道(第一层双向LSTM)输出向量输入第二通道(第二层双向LSTM)中

步骤4将步骤3的第二通道(第二层双向LSTM)输出向量输入第三通道(第三层双向LSTM)中以此类推，经过多个通道(多层双向LSTM)得到不同通道表示向量。

步骤5输出层：将上述步骤中各通道的输出向量拼接合并，得到最后的多通道向量表示。

如图4所示，具体为Seq2Seq句子表示的流程图，包括如下几个步骤：

步骤1Encoder层：归属于图1中句子表示模块，将词向量与词性向量拼接合并作为输入序列流入RNN/LSTM/GRU中，最后得到基于整个句子的一个语义表示c。

步骤2Decoder层：归属于图1中句子表示模块，根据步骤1所得的语义向量c和输出序列y₁,y₂,…y_t1的向量表示来预测下一个输出词的向量表示。

如图5所示，为计算句子中每一个词与其他词之间的Attention机制流程图，包括如下几个步骤：

步骤1利用当前词语的向量分别与句子中其他词语进行相似度计算，并进行归一化处理得到其他词语相对于当前词语的权重。

步骤2利用该权重向量对所有词语向量进行加权求和，生成当前词语上下文的Attention向量。

步骤3将当前词语的原始向量与该Attention向量进行拼接。

如图6所示，具体基于NN的实体-属性识别方法流程图，包括如下几个步骤：

步骤1隐藏层：归属于图1中临床医疗实体-属性识别模块，合并前一时刻预测标签向量和当前时刻句子表示向量通过一层神经网络得到相应的隐状态。

步骤2softmax层：归属于图1中临床医疗实体-属性识别模块，利用传统的softmax函数来计算每个实体-属性标签的概率分布，取概率最大的标签作为该词的预测标签。

如图7所示，具体为基于CRF的实体-属性识别方法流程图，包括如下几个步骤：

步骤1输入层：归属于图1中句子表示模块，将句子表示模块的输出序列流入CRF中。

步骤2CRF序列标注层：归属于图1中临床医疗实体-属性识别模块，利用CRF得到基于整个样本概率最大的标签序列。

如图8所示具体为基于CNN的实体-属性关系候选表示方法流程图，包括如下几个步骤：

步骤1输入层：归属于图1中句子表示模块和临床医疗实体-属性识别模块，将句子表示模块输出向量与实体-属性预测标签向量合并作为CNN的输入向量。

步骤2Attention层：归属于图1中临床医疗实体-属性关系抽取模块，利用Attention机制引入实体或属性与其他词语之间的相关性信息。

步骤3卷积层：归属于图1中临床医疗实体-属性关系抽取模块，基于上下文窗口得到的向量进行卷积处理。

步骤4池化层：归属于图1中临床医疗实体-属性关系抽取模块，对前一卷积层的特征图进行最大池化操作得到候选关系表示。

步骤5softmax层：归属于图1中临床医疗实体-属性关系抽取模块，基于候选关系表示采用softmax函数进行关系分类。

如图9所示具体为基于Bi-SeqLSTM的实体-属性关系候选表示方法流程图，包括如下几个步骤：

步骤1约束层：归属于图1中临床医疗实体-属性关系抽取模块，根据临床医疗实体和属性之间的修饰约束关系对所有可能的实体-属性候选进行过滤。

步骤2输入层：归属于图1中临床医疗实体-属性关系抽取模块，将候选关系中实体、属性以及实体和属性之间的语句作为神经网络的第一层输入，将句子表示模块的输出向量和临床医疗实体-属性识别模块的预测标签向量的合并作为每个词被表示，利用Attention机制对句子实体或属性与其他词之间的相关性进行表示。

步骤3Bi-SeqLSTM层：归属于图1中临床医疗实体-属性关系抽取模块，通过Bi-SeqLSTM对关系进行编码，得到第一个实体或属性编码和第二个实体或属性编码得到实体和属性以及其上下文的表示向量。

步骤4softmax层：归属于图1中临床医疗实体-属性关系抽取模块，将步骤2所得的表示向量通过softmax函数进行关系分类。

如图10所示具体为基于Bi-TreeLSTM的实体-属性关系候选表示方法流程图，包括如下几个步骤：

步骤2输入层：归属于图1中临床医疗实体-属性关系抽取模块，对输入语句进行依存分析构建起依存句法树，然后将这种树状结构输入到Bi-LSTM，将句子表示部分的输出向量、实体-属性预测标签向量和依赖于当前词的依存关系向量表示合并作为每个词被表示，利用Attention机制对句子实体或属性与其他词之间的相关性进行表示。

步骤3Bi-TreeLSTM层：归属于图1中临床医疗实体-属性关系抽取模块，通过Bi-TreeLSTM对关系进行编码，得到实体和属性以及其上下文的表示向量。

如图11所示，具体为临床医疗实体及其属性“并行联合”(单标签表示)示例图，其中，两个属性“四肢皮肤”和“正常”的表示标签末尾的R和L分别表示与前面和后面一个实体结合，即“四肢皮肤”应该修饰“划伤”，“正常”应该修饰“膝腱反射”。

如图12所示，具体为临床医疗实体及其属性“并行联合”(多标签表示)示例图。

本发明提出一种临床医疗文本及属性的抽取方法，在原有的采用流水线学习方法解决实体-属性识别与实体-属性关系抽取这两个任务的基础上，提出临床医疗文本及其属性的联合抽取方法，它具有有效整合实体属性以及其关系的内在信息、提高实体属性的识别率以及关系抽取的正确率等优点。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，所述方法包括如下步骤：

(3)将临床医疗实体-属性识别任务看作一个序列标注问题，采用Begin Inside LastOutside Unit表示方法，即“BILOU”表示方法对包含临床医疗实体和属性的句子进行标注：首先利用Attention机制对句子中每一个词与其他词之间的相关性进行建模，然后利用NN方法和结构化预测方法完成序列标注；

(6)将临床医疗实体-属性关系抽取任务看作一个分类问题，利用NN方法对表示后的实体-属性对候选进行关系分类；

L＝αL_e+(1-α)L_r

2.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，该方法采用CNN-RNN句子表示对临床医疗句子进行编码得到融合词的局部上下文信息和句子的全局上下文信息的向量表示，该向量表示是语句的一个表征，使语句中每个词包含了所在语句的背景信息，CNN-RNN句子表示的主要步骤包括：

(1)采用常用的字词分布式表示学习算法在大量医疗领域相关的文本上训练得到词向量分布式表示；

(2)对医疗文本句子中的每一个词选取一个固定大小的上下文窗口，利用CNN对每一个词所在医疗文本句子中的局部上下文语义信息进行表示，即得到融合词的局部上下文信息的向量表示；

(3)将融合词的局部上下文语义信息表示的特征向量进一步通过双向RNN获取句子的全局上下文语义信息表示。

3.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，该方法采用多通道句子表示对临床医疗句子进行编码捕捉输入语句更多不同的语义信息的向量表示，将输入映射到不同的通道刻画出输入语句不同的语义信息，融合多个通道的信息，使网络能够学习出更丰富的特征，多通道句子表示的主要步骤包括：

(1)将输入语句的词表示向量作为第一层双向RNN的输入，第一层双向RNN的输出作为第二层双向RNN的输入，以此类推；

(2)将每一层双向RNN输出的特征向量进行合并得到基于多通道的向量表示；

(3)引入更多特征作为模型的另外一个通道，进一步特高句子的表征能力。

4.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，该方法采用Seq2Seq句子表示对临床医疗句子进行表示，Seq2Seq句子表示是通过深度神经网络模型将一个作为输入的序列映射为一个作为输出的序列，这一过程由编码输入与解码输出两个环节组成，主要步骤包括：

(1)编码器将一个语句的信息浓缩到一个固定维度的向量c中，为知识的学习过程；

(2)解码器根据基于语句存储信息的向量c获得句子的目标表示，为知识的应用过程。

5.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，临床医疗实体-属性识别任务利用Attention机制对句子中每一个词与其他词之间的相关性进行建模，主要步骤包括：

(1)利用当前词语的向量分别与句子中其他词语计算相似度并进行归一化，进而计算出其他词语相对于当前词语的权重；

(2)然后利用该权重向量对所有词语向量进行加权求和，生成当前词语上下文的注意力向量；

(3)将当前词语的原始向量与该Attention向量进行拼接作为该词的向量表示。

6.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，临床医疗实体-属性识别任务采用基于神经网络架构的NN方法将临床医疗实体-属性识别问题看作一个序列标注问题，主要步骤包括：

(1)采用“BILOU”表示方法对包含中文临床医疗实体和属性的句子进行标注；

(2)采用一个2层神经网络进行序列标注，将当前词的向量表示h_t和前一个词的预测标签向量l_t-1作为多层神经网络的输入，得到相应的隐状态h_t ^entity；

(3)在输出层利用传统的softmax函数来计算每个实体-属性标签的概率分布，取概率最大的标签作为该词的预测标签。

7.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，临床医疗实体-属性识别任务采用基于结构化预测方法将临床医疗实体-属性识别问题看作一个序列标注问题，主要步骤包括：

(2)为了获取相邻标签之间的依赖关系，随机初始化一个转移矩阵对各个标签之间的依赖关系进行学习，并将上一层网络输出的词向量序列作为一个标签表现矩阵；

(3)训练阶段，在训练集上通过动态规划算法来极大化对数似然函数，进而优化整个神经网络模型的参数；

(4)测试阶段，利用维特比Viterbi算法来寻评分最大的标签序列作为最终的预测标签序列。

8.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，将过滤后的实体-属性对候选通过CNN进行表示，CNN输出向量再通过一层神经网络得到相应的隐状态然后通过softmax函数将其关系抽取问题看作一个多分类问题，计算各类关系的概率分布，最终输出预测关系标签，其中CNN分为四层：输入层、Attention层、卷积层、池化层；其中，主要步骤包括：

(1)输入层：将目标实体和属性所在语句作为输入，每个词被表示为[h_t；l_t]，根据实体和属性所在位置为界限，将输入序列分为3段，由于目标实体和属性可能包含两个或更多词，累加这些词的向量信息来表示实体或属性，其中h_t是第t个词在句子表示部分的输出向量，l_t是实体-属性标签向量；

(2)Attention层：利用Attention机制对实体或属性与其他词语之间的相关性进行建模,通过将实体或属性向量与每个词语的向量进行向量乘积，计算出每个词语的权重，然后再对所有词语的向量进行加权求和，得到每个词最终的向量表示；

(3)卷积层：固定卷积核的大小和数量滑过输入长度为m的输入序列S＝[w₁,w₂,…,c_r1,…,w_n,…,c_r2,…,w_m]获得局部语义特征，其中w为每个词，c_r1和c_r2分别代表两个实体或属性；

(4)池化层：对每段采用最大池化操作来保留最显著的特征p^ij，对每段最显著特征拼接合并得到融合实体和属性及其上下文信息的表示向量h_r＝[p¹¹；p¹²；p¹³；…；pⁿ³]，其中n为卷积核数量，1<＝i<＝n,1<＝j<＝3。

9.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，临床医疗实体-属性关系抽取任务采用Bi-TreeLSTM方法对将过滤后的临床医疗实体-属性对候选进行表示，Bi-TreeLSTM输出向量再通过一层神经网络得到相应的隐状态然后通过softmax函数将其关系抽取问题看作一个多分类问题，计算各类关系的概率分布，最终输出预测关系标签，Bi-TreeLSTM编码表示的主要步骤包括：

(1)利用现有的自然语言工具包对输入语句进行依存句法分析，构建起依存句法树，然后将这种树状结构输入到Bi-LSTM，其Bi-TreeLSTM的构建依赖于目标实体与属性之间的最短依赖路径SDP，即目标实体和属性在依存句法分析树中的最小公共父节点与目标实体和属性之间的路径输入到BiLSTM中；

(2)将当前词表示向量、临床医疗实体-属性识别的预测标签向量和依赖于当前词的依存关系向量三部分合并作为每个LSTM单元的输入向量；

(3)利用Attention机制对实体或属性与其他词语之间的相关性进行建模，通过将实体或属性向量与每个词语的向量进行向量乘积，计算出每个词语的权重，然后再对所有词语的向量进行加权求和，得到每个词最终的向量表示；

(4)通过Bi-TreeLSTM对实体-属性关系向量进行编码表示，最终得到实体和属性以及其上下文的表示向量h_r＝[↑h_pr；↓h_pr1；↓h_pr2；h_r1；h_r2]，其中h_r1和h_r2分别为第一和第二实体或属性在句子表示模块的输出向量表示，↑h_pr为最小公共父节点在Bi-TreeLSTM自底向上的输出向量，↓h_pr1和↓h_pr2为目标实体或属性在Bi-TreeLSTM自顶向下的输出向量。

10.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，临床医疗实体-属性关系抽取部分采用Bi-SeqLSTM模型对将过滤后的临床医疗实体-属性对候选进行表示，Bi-SeqLSTM输出向量再通过一层神经网络得到相应的隐状态然后通过softmax函数将其关系抽取问题看作一个多分类问题，计算各类关系的概率分布，最终输出预测关系标签，Bi-SeqLSTM编码表示的主要步骤包括：

(1)利用候选关系中实体、属性以及实体和属性之间的语句构建Bi-SeqLSTM；

(2)将每个词向量表示、临床医疗实体-属性识别的预测标签向量合并作为每个LSTM单元的输入向量；

(4)通过Bi-LSTM对关系进行编码，其目标实体和属性之间的上下文片段被表示为h_fr＝[h_fr→；h_fr←]，通过合并h_fr、第一个实体或属性编码h_r1和第二个实体或属性编码h_r2得到实体和属性以及其上下文的表示向量h_r＝[h_fr；h_r1；h_r2]，其中h_fr→和h_fr←分别是Bi-LSTM前向和后向的输出。

11.根据权利要求1所述的临床医疗实体及其属性“串行联合”抽取方法，其特征在于，实体-属性识别和实体-属性关系抽取任务共享句子表示所得到包括表示向量、POS表示向量、依存关系表示向量的向量表征信息、实体-属性标签向量和损失函数，实体-属性识别的输出结果和句子表示的输出结果作为实体-属性关系抽取输入，最后通过反向传播算法来更新参数并进行模型学习。