CN110569343A

CN110569343A - 一种基于问答的临床文本结构化的方法

Info

Publication number: CN110569343A
Application number: CN201910757519.7A
Authority: CN
Inventors: 翟洁; 邱家辉; 叶琪; 薛魁; 阮彤; 周扬名
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-12-13
Anticipated expiration: 2039-08-16
Also published as: CN110569343B

Abstract

本发明提供一种基于问答的临床文本结构化方法，包括以下步骤：首先，将临床文本X和查询文本Q集成输入到采用预训练语言模型BERT训练，输出对应X和Q的上下文表征向量V_s；将结果输入到临床命名实体识别模型，输出命名实体信息和标注序列I_nt和I_nq；然后，将标注序列I_nt、I_nq集成为命名实体信息I_n，然后将隐藏的上下文表征信息V_s和命名实体信息I_n集成为H_i；最后，利用H_i计算回答Q在X中的开始、结束位置索引值，得到答案文本。本发明实验结果表明基于问答的临床文本结构化方法在EM评分和F₁评分方面明显优于BERT‑Base方法。

Description

一种基于问答的临床文本结构化的方法

技术领域

本发明涉及临床文本结构化技术领域，更为具体地，尤其涉及一种基于问答的临床文本结构化方法。

背景技术

电子健康记录(EHR)是以个人健康、保健和治疗为中心的数字记录，EHR系统可以让医疗保健变得更为智能、安全、高效。从电子健康记录中提取大量医疗研究数据的过程中，临床文本结构化是至关重要的一环。临床文本基本是自然语言文本，是非结构化的数据，需要对文本进行预处理，从中提取患者症状、疾病、检验、检查等数据，得到结构化的数据。文本结构化后的数据可有助于生物医学的系统研发和科学研究。临床文本中数据的人工抽取费时费力，因此数据的自动抽取成为研究热点。

目前临床文本结构化的自动化方法有如下几种：1)基于规则和字典的临床文本结构化方法；2)端到端的临床文本结构化方法；3)工作流式的临床文本结构化方法。基于规则和字典的抽取方法需要大量人工制定的抽取规则，代价较高。端到端的临床文本结构化方法解决了该问题，但仍有如下两个问题亟待解决：1) 不同的临床文本结构化任务的数据输出格式不统一。例如从文本中提取分类信息或其他特定信息、依据文本中信息推导出对应信息等诸如此类的临床文本结构化任务，要分别为每个任务构建相应的模型，每个模型均需要大量对应的标注数据及不同的输出格式。2)为了训练神经网络，需要标注大量数据，耗费人力。工作流式的临床文本结构化方法将完整的处理过程分解为多个步骤，提高了临床文本结构化的性能，然而随着流水线的深度增加，错误传播的几率也更大。

发明内容

本发明为解决上述技术问题，提供一种基于问答的临床文本结构化方法。将一般的临床文本结构化任务转换为从临床段落文本中抽取和问题最相关答案的任务。其特征在于，包括以下步骤：

A1，将临床文本X和查询文本Q集成输入到上下文表征模型，上下文表征模型采用预训练语言模型BERT，输出对应临床文本X和查询文本Q的上下文表征向量V_s；

A2，将临床文本X和查询文本Q分别输入临床命名实体识别模型，输出命名实体信息，并分别得到具有BIEOS标注机制的 one-hot实体信息的标注序列I_nt和I_nq；

A3，将标注序列I_nt、I_nq集成为命名实体信息I_n，然后将隐藏的上下文表征信息V_s和命名实体信息I_n集成为H_i；

A4，利用H_i计算回答查询文本Q在临床文本X中的开始、结束位置索引值，得到答案文本，即结构化后的结果。

优选地，在所述步骤A1中，对于临床文本X和查询文本Q 的输入形式为’[CLS]Q[SEP]X[SEP]’，查询文本Q和临床文本X的二进制位置编码分别为0和1，输入中的每个中文字均映射为一个预训练的特征向量e_i，，位置编码和掩码矩阵自动构建，生成绝对的位置信息，并消除零填充的影响，最后由BERT-Base模型生成关于临床文本X和查询文本Q信息的上下文表征向量V_s。

优选地，在所述步骤A2中，将临床文本X和查询文本Q 分别输入到临床命名实体识别模型，临床命名实体识别模型为具有条件随机场的残差膨胀卷积神经网络模型，选用语料库进行训练，得到临床文本X和查询文本Q依据BIEOS标注机制的one-hot 实体信息的标注序列I_nt和I_nq。

优选地，在所述步骤A3中，采用两个阶段对信息进行集成，第一阶段将命名实体信息I_nt、I_nq集成为I_n，第二阶段将隐藏的上下文表征信息V_s和命名实体信息I_n集成为H_i，其中，

第一阶段的集成采用转换的方法，利用多头自注意力机制为 I_nt、I_nq编码,集成的表示为：

I_n＝[Attention₁(W_q1Q′，W_k1K，W_v1V)；

...；Attention_h(Q′，K，V)]W_o

其中h是头的数目，W_o表示投影到连接矩阵的维度，Attention的表示如下：

第二阶段的集成采用连接的方法，集成的表示如下：

H_i＝[I_n；V_s]。

优选地，在所述步骤A4中，利用集成的表示H_i去计算回答查询文本Q所对应的答案在临床文本X中的开始、结束位置索引值，将该计算问题转换为分类问题，即预测临床文本X中的每个字的位置是否为回答查询文本Q的开始位置或结束位置，利用前馈网络精简和计算每个字H_f的评分，维度为<l_s，2>，即表示每个字对应的概率得分，其中l_s表示输入序列的长度，

H_f＝FFN(H_i)

然后对两个维度分别进行SoftMax计算，得到概率表示。loss 函数的计算过程定义如下，

其中，O_s＝softmax(permute(H_f)₀)表示每个字是答案起始字的概率评分，，O_e＝softmax(permute(H_f)₁)表示每个字是答案结尾字的概率评分，y_s和y_e表示正确答案的概率评分，分别表示每个字在临床文本X中作为答案起始和终止位置的概率，最后得到答案文本，即结构化后的结果。

优选地，基于问答的临床文本结构化方法，其特征在于，所述方法还包括：利用两阶段训练机制加速训练的过程，第一阶段直接把BERT模型向最终问题做适配，训练得到微调后的BERT 权重。第二阶段把实体信息引入模型，同时加载一阶段训练好的参数，再训练得到最终的模型。

优选地，在所述步骤A2中，其特征在于，所述方法还包括：选用的语料库包括：具有手术词、检查结果、检查指标、检查项、中医症状、单位词、数词、形容词、中心词、用药方法、药物词、时间词、日期、时间点、时间段、部位词后缀、症状后缀、其它词、不能词、中医部位、体征、副词、发展词、可能词、否定词、坐标词、存在词、性质词、情景限定词、感觉词、方位词、标点符号、样貌词、治疗术语、疾病后缀、疾病词、症状词、程度词、等级词、能够词、连接词、部位词、需要词、颜色词共计44种的实体类型。

本发明的基于问答的临床文本结构化方法，主要贡献点为：

1)创建了基于问答的临床文本结构化方法，统一了多个临床文本结构化任务的输出格式，得到可共享的数据集，从而解决了数据短缺的问题，实现了全面改善，同时该方法的深度远低于流水线方法的深度，错误传播的几率也随之降低；

2)本发明将临床命名实体信息和预训练的语言模型集成在一起，并提出了两阶段训练机制以加速训练过程，实验结果表明基于问答的临床文本结构化方法的EM(问答完全匹配)评分和 F1评分达到91.84分和93.75分，相比于BERT-Base方法结果提高了5.64分和3.69分。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面，其中，

图1示出本发明基于问答的临床文本结构化方法的示意性流程图；

图2示出本发明基于问答的临床文本结构化方法实施例；

图3示出本发明基于问答的临床文本结构化方法的示意性架构图。

具体实施方式

为了使本申请所揭示的技术内容更加详尽与完备，可参照附图以及本发明的下述具体实施例，附图中相同的标记代表相同或相似的组件。然而，本领域的普通技术人员应当理解，下文中所提供的实施例并非用来限制本发明所涵盖的范围。此外，附图仅仅用于示意性地加以说明，并未依照其原尺寸进行绘制。

请参考图1，图1为本申请实施例提供的一种基于问答的临床文本结构化方法的示意性流程图，如图1所示，本申请实施例提供的一种基于问答的临床文本结构化方法可以包括以下步骤：

A1，基于问答的临床文本结构化方法通过上下文表征模型获取对应临床文本和查询文本的上下文表征向量。

将临床文本X和查询文本Q集成输入到上下文表征模型，上下文表征模型采用预训练语言模型BERT，输出对应临床文本X和查询文本Q的上下文表征向量V_s。

A2，基于问答的临床文本结构化方法获取对应临床文本和查询文本的命名实体信息的标注序列。

将临床文本X和查询文本Q分别输入临床命名实体识别模型，输出命名实体信息，并分别得到具有BIEOS标注机制的one-hot 实体信息的标注序列I_nt和I_nq；

A3，基于问答的临床文本结构化方法将上下文表征信息和命名实体信息进行集成。

将标注序列I_nt、I_nq集成为命名实体信息I_n，然后将隐藏的上下文表征信息V_s和命名实体信息I_n集成为H_i；

A4，基于问答的临床文本结构化方法获取答案文本，即结构化后的结果。

利用H_i计算回答查询文本Q在临床文本X中的开始、结束位置索引值，得到答案文本，即结构化后的结果。

请参考图2，图2示出本发明基于问答的临床文本结构化方法实施例。

在该实施例中，临床文本X为“远端胃切除标本：小弯长 11.5cm，大弯长17.0cm。距上切端6.0cm、下切端8.0cm”，问题Q为“上切缘距离？”，答案V来自于文本X中索引位置32-37的子串“6.0cm”；

在上述实施例中，设段落文本为X＝<x₁,x₂,...,x_n>,基于问答的临床文本结构化方法将临床文本结构化问题看作依据段落文本X中内容得到一对值<Q,V>，Q表示查询的问题，V表示查询的结果，首先，找到和问题Q相关的文本X；然后，通过BERT 转换模型从段落文本X中生成最终的答案V；答案V是文本X中与问题相关的文本<x_i,x_i+1,x_i+2 ...,x_j>(1<＝i<j<＝n)。

请参考图3，图3示出本发明基于问答的临床文本结构化方法的示意性架构图。其中，基于问答的临床文本结构化方法的架构包括：

1)临床文本和查询文本的上下文表征

对于临床文本X和查询文本Q的输入形式为’[CLS]Q[SEP]X [SEP]’，查询文本Q和临床文本X的二进制位置编码分别为0和1，输入中的每个中文字均映射为一个预训练的特征向量e_i，，位置编码和掩码矩阵自动构建，生成绝对的位置信息，并消除零填充的影响，最后由BERT-Base模型生成关于临床文本X和查询文本Q 信息的上下文表征向量V_s。

2)临床命名实体信息

将临床文本X和查询文本Q分别输入到临床命名实体识别模型，临床命名实体识别模型为具有条件随机场的残差膨胀卷积神经网络模型，选用语料库进行训练，得到临床文本X和查询文本Q依据BIEOS标注机制的one-hot实体信息的标注序列I_nt和 I_nq。一个实施例如表I所示，“远端胃切除”标注为“手术”，“11.5”标注为数字，“cm”标注为单位。命名实体标注序列构成的形式是one-hot类型。X和Q的命名实体标注序列分别表示为I_nt和I_nq。

选用的语料库包括：具有手术词、检查结果、检查指标、检查项、中医症状、单位词、数词、形容词、中心词、用药方法、药物词、时间词、日期、时间点、时间段、部位词后缀、症状后缀、其它词、不能词、中医部位、体征、副词、发展词、可能词、否定词、坐标词、存在词、性质词、情景限定词、感觉词、方位词、标点符号、样貌词、治疗术语、疾病后缀、疾病词、症状词、程度词、等级词、能够词、连接词、部位词、需要词、颜色词共计44种的实体类型。

表I命名实体特征标注示例

3)集成的方法

采用两个阶段对信息进行集成，第一阶段将命名实体信息 I_nt、I_nq集成为I_n，第二阶段将隐藏的上下文表征信息V_s和命名实体信息I_n集成为H_i，其中，

I_n＝[Attention₁(W_q1Q′，W_k1K，W_v1V)；

...；Attention_h(Q′，K，V)]W_o

第二阶段的集成采用连接的方法，集成的表示如下：

H_i＝[I_n；V_s]。

4)关于答案文本的预测

利用集成的表示H_i去计算回答查询文本Q所对应的答案在临床文本X中的开始、结束位置索引值，将该计算问题转换为分类问题，即预测临床文本X中的每个字的位置是否为回答查询文本Q的开始位置或结束位置，利用前馈网络精简和计算每个字H_f的评分，维度为<l_s，2>，即表示每个字对应的概率得分，其中l_s表示输入序列的长度，

H_f＝FFN(H_i)

其中，O_s＝softmax(permute(H_f)₀)表示每个字是答案起始字的概率评分，O_e＝softmax(permute(H_f)₁)表示每个字是答案结尾字的概率评分，y_s和y_e表示正确答案的概率评分，分别表示每个字在临床文本X中作为答案起始和终止位置的概率，最后得到答案文本，即结构化后的结果。

5)两阶段训练机制

利用两阶段训练机制加速训练的过程，第一阶段直接把 BERT模型向最终问题做适配，训练得到微调后的BERT权重。第二阶段把实体信息引入模型，同时加载一阶段训练好的参数，再训练得到最终的模型。

具体的实施例：

1)数据集

本发明的数据集来源于瑞金医院胃肠外科。数据集包含17,833 个句子，826,987个字符和2,714个问答对。不同类型实体的详细统计数据列于表II中。

表II不同类型实体的统计数据

2)实验设置

本发明利用带有TensorFlow后端的Keras库，每个模型在单个NVIDIA GeForce GTX1080 Ti GPU上运行。模型由Adam优化算法训练，学习速率设置为5×10^-5，其它参数与默认设置相同。批量大小设置为3或4。

3)基于问答的临床文本结构化方法与BERT-Base方法的比较

目前在问答领域BERT-Base方法的性能是最优的，因此将本发明提出的QA-临床文本结构化方法与BERT-Base方法进行了实验对比。实验结果如表III所示(注：EM表示问答完全匹配)。从实验结果得知：基于问答的临床文本结构化方法的性能优于 BERT-Base方法。

表III基于问答的临床文本结构化方法与 BERT-Base方法的比较结果

消融分析

为了分析本发明提出的基于问答的临床文本结构化方法中关键部件的影响，进行了消融分析。分析结果如表IV所示。由分析结果可知：实体命名信息与两阶段训练机制同时利用，效果最优。

表IV关键部件的影响

可以理解的是，对于本领域的普通技术人员来说，可以根据本发明的技术构思来做出其他各种相应的改变和变形，而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims

1.一种基于问答的临床文本结构化方法，其特征在于，包括以下步骤：

A2，将临床文本X和查询文本Q分别输入临床命名实体识别模型，输出命名实体信息，并分别得到具有BIEOS标注机制的one-hot实体信息的标注序列I_nt和I_nq；

2.根据权利要求1所述的一种基于问答的临床文本结构化方法，其特征在于：在所述步骤A1中，对于临床文本X和查询文本Q的输入形式为’[CLS]Q[SEP]X[SEP]’，查询文本Q和临床文本X的二进制位置编码分别为0和1，输入中的每个中文字均映射为一个预训练的特征向量e_i，，位置编码和掩码矩阵自动构建，生成绝对的位置信息，并消除零填充的影响，最后由BERT-Base模型生成关于临床文本X和查询文本Q信息的上下文表征向量V_s。

3.根据权利要求1所述的一种基于问答的临床文本结构化方法，其特征在于：在所述步骤A2中，将临床文本X和查询文本Q分别输入到临床命名实体识别模型，临床命名实体识别模型为具有条件随机场的残差膨胀卷积神经网络模型，选用语料库进行训练，得到临床文本X和查询文本Q依据BIEOS标注机制的one-hot实体信息的标注序列I_nt和I_nq。

4.根据权利要求1所述的一种基于问答的临床文本结构化方法，其特征在于：在所述步骤A3中，采用两个阶段对信息进行集成，第一阶段将命名实体信息I_nt、I_nq集成为I_n，第二阶段将隐藏的上下文表征信息V_s和命名实体信息I_n集成为H_i，其中，

第一阶段的集成采用转换的方法，应用多头自注意力机制为I_nt、I_nq编码,集成的表示为：

I_n＝[Attention₁(W_q1Q′，W_k1K，W_v1V)；

...；Attention_h(Q′，K，V)]W_o

第二阶段的集成采用连接的方法，集成的表示如下：

H_i＝[I_n；V_s]。

5.根据权利要求1所述的一种基于问答的临床文本结构化方法，其特征在于：在所述步骤A4中，利用集成的表示H_i去计算回答查询文本Q所对应的答案在临床文本X中的开始、结束位置索引值，将该计算问题转换为分类问题，即预测临床文本X中的每个字的位置是否为回答查询文本Q的开始位置或结束位置，应用前馈网络精简和计算每个字H_f的评分，维度为<l_s，2>，即表示每个字对应的概率得分，其中l_s表示输入序列的长度，

H_f＝FFN(H_i)

然后对两个维度分别进行SoftMax计算，得到概率表示。loss函数的计算过程定义如下，

6.根据权利要求1所述的一种基于问答的临床文本结构化方法，其特征在于，所述方法还包括：应用两阶段训练机制加速训练的过程，第一阶段直接把BERT模型向最终问题做适配，训练得到微调后的BERT权重；第二阶段把实体信息引入模型，同时加载一阶段训练好的参数，再训练得到最终的模型。

7.根据权利要求3所述的一种基于问答的临床文本结构化方法，其特征在于，选用的语料库包括：具有手术词、检查结果、检查指标、检查项、中医症状、单位词、数词、形容词、中心词、用药方法、药物词、时间词、日期、时间点、时间段、部位词后缀、症状后缀、其它词、不能词、中医部位、体征、副词、发展词、可能词、否定词、坐标词、存在词、性质词、情景限定词、感觉词、方位词、标点符号、样貌词、治疗术语、疾病后缀、疾病词、症状词、程度词、等级词、能够词、连接词、部位词、需要词、颜色词共计44种的实体类型。