CN113033203A

CN113033203A - 一种面向医药说明书文本的结构化信息抽取方法

Info

Publication number: CN113033203A
Application number: CN202110162263.2A
Authority: CN
Inventors: 陈珂; 崔婷婷; 陈刚; 寿黎但; 胡天磊; 伍赛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-25

Abstract

本发明公开了一种面向医药说明书文本的结构化信息抽取方法，属于医疗自然语言处理技术领域。首先，采用一种面向无标注数据的基于对抗迁移学习的实体识别模型，进行医药说明书文本的初步实体识别。接着，在实体识别基础上，提出一种用法用量表抽取新任务，即将用法用量文本中复杂的知识结构以表格的形式抽取出来。并针对此任务，设计一种基于特征融合的表抽取算法，来进行说明书用法用量的表抽取。最后，在实体识别的基础上，采用一种基于医疗实体字符注意力机制的关系抽取方法，来对实体之间的关系进行抽取。本发明提出的结构化信息抽取方法可以解决医药说明书文本的复杂信息抽取问题。

Description

一种面向医药说明书文本的结构化信息抽取方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种面向中文医疗文本的结构化信息抽取方法。

背景技术

医药说明书作为用户选择和使用药品的指南，其中包含着丰富的实体和关系等信息，抽取出这些结构化的信息，对医学研究和临床诊断具有重要意义。实体识别和关系抽取技术，能够从非结构化的文本中抽取出结构化的信息，是医疗文本处理任务的基础。

面向医药说明书的结构化信息抽取第一步需要进行实体识别，当前主流的基于深度学习的实体关系识别方法需要大量的标注语料来进行训练，但是在中文医疗领域，尤其是医药说明书，标注好的数据远少于未标注的数据，而且由于医疗数据的特殊性，医疗数据的标注需要特定领域专家来指导进行，而且需要较多的人来标注，需要耗费大量的人力物力财力，显然代价是昂贵的，所以医药文本的信息抽取任务受到一定的限制，需要相关的方法来解决标注数据不足的问题。

医药说明书的用法用量文本具有复杂的知识结构，同一种药品，针对不同疾病，具有不同的用法，即使是针对用同一种疾病，不同时期，也具有不同的用量，传统的实体和关系不能准确定义这种结构，如何在实体识别的基础上将用法用量以结构化的形式从说明书中抽取出来，使得抽取结果能够形象描述这种知识结构，即不同的条件对应于不同的用法用量，是一个新的任务和挑战。

将实体从说明书文本中抽取出来后，实体之间可能蕴含着丰富的关系，比如“适用”、“治疗”等关系，还包括“禁忌”、“不适用”等关系，后者可能对用户的用药指导更重要，但是因为这些关系较少往往不能准确识别出来，即存在“长尾分布”问题，如何将这这些关系准确地识别出来，也是一个需要解决的问题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种面向医药说明书文本的结构化信息抽取方法。

本发明的目的是通过以下技术方案来实现的：一种面向医药说明书文本的结构化信息抽取方法，包括以下步骤：

(1)命名实体识别：针对未标注的说明书文本，采用对抗迁移学习技术来进行初步命名实体识别；

(2)说明书的用法用量表抽取：利用说明书文本中包含的特征，采用基于特征融合的用法用量表抽取算法得到结构化的用法用量表信息；

(3)医疗关系抽取：利用组成医疗实体的字符可以表达丰富的语义信息这一特征，结合注意力机制，来对实体之间的关系进行抽取，最终得到结构化的医疗实体关系三元组信息。

进一步地：所述步骤(1)包括以下子步骤：

(1.1)输入为源领域和目标领域的文本，首先进行字符嵌入，采用BERT预训练模型获得基于上下文的词向量表示；

(1.2)将提取到的特征向量x作为接下来特征提取层的输入，该层采用BiLSTM来对输入向量进行特征提取，其中x_S∈S和x_T∈T分别表示来自源域和目标域的输入文本。BiLSTM网络在LSTM的基础上，采用了双向结构，分别从前向后和从后向前提取序列特征，更好地从时序特征角度对本方法特征进行提取，因此更适用于文本处理任务，隐藏层的状态h_i可以表示如下：

其中，

和

分别表示LSTM网络中第i个单元的前向和后向隐藏状态，+表示连接操作。(1.3)将BiLSTM的特征提取结果输入对抗训练层，该层首先利用源领域数据训练一个实体分类器，该分类器是前馈神经网络后接条件随机场CRF分类模型，对提取到的数据和特征进行实体识别，其损失函数定义如下：

接着训练一个领域鉴别器，领域鉴别器是前馈神经网络后接Softmax模型，其损失涵数定义如下：

通过训练使得模型最终不能区分源域和目标域，使得特征提取器具有领域不变性，源领域训练的模型可以应用到目标领域。

(1.4)通过以上步骤，最终得到一个在医药说明书领域具有较好的实体识别效果的模型。

进一步地：步骤(2)包括以下子步骤：

(2.1)用法用量表抽取是本发明提出的新任务，对该任务的形式化定义如下：

表抽取的输入为文本T和文本中包含的实体集合E，输出为table＝{t₁，t₂，...t_k...，t_n}，其中t_k表示表格中的一行内容，而且t_k＝{condition，dosage}表示在某一条件(condition)下该药品的用法用量(dosage)。

(2.2)基于表抽取新任务，采用一种基于特征融合的表抽取方法，该方法包括数据预处理、特征提取和分组匹配三部分。

(2.3)在进行表抽取之前需要对文本进行相关的预处理，主要包括位置标注、数据清洗、医疗实体标注和指代消解几部分。

(2.4)在完成数据预处理之后，开始对说明书文本进行特征提取，主要提取三种特征，分别为实体特征、线索词特征和上下文特征。

(2.5)根据提取到的文本特征，对实体进行分组，每一组作为表格的一行内容输出。

4.如权利要求1中所述的方法，其特征在于：步骤(3)中所采用的关系抽取算法主要包括以下步骤：

(3.1)输入为待抽取关系的语句和对应的头实体、尾实体，第一步需要将输入映射为低维向量表示，假定给定的输入语句由n个字符组成，即S＝{s₁，s₂，...，s_n}，经过映射的向量表示为R＝{r₁，r₂，...，r_n}。假定实体包含m个字符，即E＝{c₁，c₂，...，c_m}，其中每个符号c_i通过映射矩阵M被映射为特征向量e_i，实体最终被表示为向量E＝{e₁，e₂，...，e_m}。

(3.2)完成向量映射后，接下来需要对组成输入进行特征编码。在对句子进行编码时，输入语句为R＝{r₁，r₂，...，r_n}，则前向LSTM的隐藏状状态H_f表示为：

反向LSTM的编码结果H_b表示为：

最终经过编码的句子隐藏状态为H_s：

H_s＝{h₁，h₂，...，h_n}

其中，

给定实体输入E＝{e₁，e₂，...，e_m}，采用BiLSTM对实体进行编码后，最终实体的隐藏状态表示为：

H_e＝BLSTM{e₁，e₂，...，e_m}

接着将隐藏层状态的平均池化结果作为实体经过编码后的最终输出形式，头尾实体最终编码向量分别为

和

(3.3)对句子和实体进行特征编码之后，接着采用注意力机制来充分利用组成实体的字符所提供的语义信息，将实体编码向量与语句编码向量进行注意力计算，从而选择出与给定的输入查询最相关的部分作为接下来分类层的输入。最终对抽取出实体之间的关系，得到实体关系三元组。

本发明的有益效果是，本发明提出结构化信息抽取方法首先能够有效解决医药说明书领域标注数据不足的问题，充分利用已有的相关标注数据，来实现说明书领域的实体抽取；并且新提出的表抽取作为一种新的信息抽取任务，能够解决说明书用法用量文本的具有复杂层次结构的知识抽取问题；最后，提出的基于注意力机制的关系抽取算法，充分利用了组成医疗实体的字符可以表达丰富的语义信息这一特点，即使是对数量较少的关系，也可以准确识别出来。

附图说明

图1是本发明提出面向医药说明书文本的结构化信息抽取方法流程图；

图2是基于对抗迁移学习的实体识别模型图；

图3是基于特征融合的表抽取流程图；

图4是基于字符注意力机制的关系抽取流程图。

具体实施方式

本发明提出一种面向医药说明书文本的结构化信息抽取方法，抽取流程框架如附图1所示，本方法能够从非结构化的文本中抽取出结构化的表信息和实体关系三元组信息，具体包括以下步骤：

1、命名实体识别：针对医药说明书领域标注数据不足的问题，提出一种基于对抗迁移学习的实体识别模型，该模型充分利用已有的相关领域的标注数据，通过基于对抗训练的迁移学习，得到一个在医药说明书领域具有较好的实体识别效果的模型。包括以下子步骤：

1.1如附图2所示，命名实体识别的第一步是对输入字符进行特征嵌入，来获取基于上下文的词向量表示。BERT预训练任务是一个多任务模型，包括掩膜语言模型MLM(Masked Language Model)任务和下一句子预测NSP(Next Sentence Prediction)任务，前者是指在训练的过程中随机掩盖掉一些单词，然后通过上下文预测该单词，是为了更好地训练文本的双向表示，后者在训练时，对于真实存在的两个语句，采用50％的概率随机选择一个语句替换第二个语句，然后判断第二个语句是否为第一个语句的下文，从而更好地学习两个语句之间的语义联系。针对同样的单词在不同的上下文语境中表达不同的语义这一问题，BERT可以很好地解决，所以本方法将输入语句通过BERT转化为特征向量，接着作为下一层特征提取器BiLSTM的输入。

1.2接着将BERT提取到的特征向量x作为接下来的双向LSTM的输入，其中x_S∈S和x_T∈T分别表示来自源域和目标域的输入文本。单向LSTM网络在传播中仅仅利用了过去的信息而忽略了将来的信息，而在文本处理任务中前后文的信息都很重要，所以本方法采用双向LSTM来进行特征提取，BiLSTM网络在LSTM的基础上，采用了双向结构，分别从前向后和从后向前提取序列特征，更好地从时序特征角度对本方法特征进行提取，因此更适用于文本处理任务。由于BiLSTM出色的特征提取能力，本方法在对输入文本向量化后接着采用双向LSTM提取句子中的序列特征和上下文表示信息，并将结果分别输入到对抗训练层的实体分类器、领域鉴别器和目标域自动编码器中。

1.3对抗训练层主要包括实体分类器、领域鉴别器和目标域自动编码器，实体分类器的输入为特征提取器的输出，该分类器是前馈神经网络后接条件随机场CRF分类模型，对提取到的数据和特征进行实体识别，采用CRF进行实体识别更考虑语义上下文，使得网络更适合命名实体识别任务，实体分类器通过在训练过程中学习预测实体的标签从而获取实体分类能力。领域鉴别器是前馈神经网络后接Softmax模型，对提取到的特征和数据进行领域鉴别，即识别输入数据是来自源领域还是目标领域，通过训练领域鉴别器最终不能区分源域和目标域，使得特征提取器具有领域不变性。目标域自动编码器使得特征提取器提取有助于实体识别的领域特有特征，因为只提取两个领域的共同特征会忽略了目标域独有的特征，从而限制目标域实体分类器的分类能力，所以采用目标域特征性编码器来重构目标域数据，使得提取到的特征具有领域独特性。

1.4通过以上步骤，最终得到一个在医药说明书领域具有较好的实体识别效果的模型。

2、说明书用法用量表抽取：提出一种基于医药说明书用法用量文本的表抽取任务，即将用法用量文本中复杂的知识结构以表格的形式抽取出来，表格中的每行都表示成Condition-Dosage的形式，其中Condition表示条件，Dosage表示在该条件下的用法用量，并针对该任务，设计一种基于特征融合的表抽取方法，充分利用文本中包含的丰富线索词等特征，从而实现说明书用法用量表抽取。包括以下子步骤：

2.1如附图3所示，表抽取流程包括数据预处理、特征提取和分组匹配三部分；

2.2数据预处理主要包括位置标注、数据清洗、医疗实体标注和指代消解几部分。

位置标注：实体识别结果包含实体id、实体类型、实体名和实体位置，实体位置表示自该段文本的起始位置开始到实体第一个字符的距离，根据实体位置和实体包含的字符数，确定该实体在文本中的起始和结束位置，接着采用实体id将实体在开始和结束位置标注出来。经过位置标注的说明书文本已经将初步识别出的实体在文本中都标注出来，作为解下来的医疗实体标注的基础。因为从网站爬取的说明书文本包含很多无关字符以及HTML标签，给接下来的抽取任务增加了难度，所以接下来进行数据清洗。

数据清洗：直接从网页爬取的说明书文本包含很多无关字符和标签，数据清洗需要去除这些HTML标签，但是有些标签可以表示丰富的语义信息，本方法在处理这些标签时采用特殊符号替代，比如 在超文本标记语言中表示换行，一般表示一种用法用量描述的结束，所以采用句子分隔符来替代 ，表示强调，在说明书文本中，主要是为了着重强调该药品适用的疾病，所以采用疾病类型标签来替代等。本方法针对这些可以表示特殊语义信息的标签，在进行数据清洗的时候，首先遍历文本，完成特殊符号替代，之后采用正则匹配成对删除HTML标签以及无关字符。

医疗实体标注：位置标注以及数据清洗完成之后，接下来需要对每个位置的实体打标签，即为每个医疗实体根据其类型打上语义标签，作为接下来的特征提取的基础。

指代消解：说明书文本中常见“本品”、“如上”等名词，比如“本品适用于敏感菌所致的呼吸道感染”中“本品”代表说明书对应的主体药品，“治疗不稳定性心绞痛，用法用量如上，参照急性心肌梗死”中没有给出治疗心绞痛疾病时具体的用法用量，而是参照上一种疾病的治疗方法等。这些指代用户可以很好地理解，但是计算机无法理解，所以需要在抽取之前进行指代消解。指代消解指将文本中出现的代词替换成其对应的包含具体含义的词，本方法是将这些指示代词替换为其对应的实体或者标签，替代“本品”为药品实体，“本症”为症状实体等，而对于文本中出现的指代对象不是实体的代词，比如“如上”，本方法采用特征标签标记，在抽取过程中遇到此类标签时将抽取的上一组内容作为本组的用法用量。

2.3在完成数据预处理之后，开始对说明书文本进行特征提取，本方法主要提取三种特征分别为实体特征、线索词特征和上下文特征。

实体特征：各种类型的实体类型标签本方法已经在数据预处理中标注好鉴于用法用量中的用药方法、用药剂量、用药频次和用药间隔每一种实体类型在表格的每一行中只能出现一次所以通过计算每种实体出现的次数作为实体数量特征。

线索词特征：说明书文本种包含很多线索词比如<start>和<end>分别表示表抽取的开始和结束分割号<SE>表示一行内容的抽取开始或者结束等本方法在抽取过程中主要根据这些线索词作为首要依据来划分表格不同行。

上下文特征：根据说明书文本的语言结构特点每条用法用量内容都具有相似的上下文表达当{MEDGFRIN}语句出现即dosage中四个实体类型同时连续出现时可认为dosage完成抽取表格的一行也完成抽取当condition中的三个实体类型{DNSTPA}都完全出现时也可认为完成条件的抽取所以通过记录语句中出现的标签作为上下文特征作为接下来分组的依据。

(2.4)根据提取到的文本特征，对实体进行分组，每一组作为表格的一行内容输出.分组匹配算法见如下算法1。

算法1.用法用量表抽取分组匹配详细算法

输入：数据预处理完成的说明书文本

输出：table

3、医疗关系抽取：提出一种基于医疗实体字符注意力机制的关系抽取方法，该方法充分利用组成医疗实体的字符可以表达丰富的语义信息这一特点，结合注意力机制来对实体之间的关系进行抽取。具体内容如下：

关系抽取流程图如附图4所示，其中r_i表示表示句子向量化后每个语句的第i个字符向量，

和

分别表示头实体和尾实体中第i个字符输入对应的嵌入向量，q和r_e分别由头尾实体的特征编码向量

和

通过不同的方式计算而来，权重参数α_i由q和隐藏状态h通过注意力函数计算得而来。

3.1嵌入层对输入语句和实体进行向量化编码，将输入映射为低维向量表示，当对语句进行编码时，首先需要对组成句子的字符转化为其对应的向量，每个字符相对于实体的距离也是一个重要的特征，所以该距离也通过预训练的映射矩阵转化为对应的向量。对实体进行编码时，将组成实体的字符映射为其对应的向量。假定给定的输入语句由n个字符组成，即S＝{s₁，s₂，...，s_n}，输入语句最终经过映射的向量表示为R＝{r₁，r₂，...，r_n}。每个实体的向量映射类似于句子，组成实体的每个字符经过向量矩阵映射为对应的向量表示，假定实体包含m个字符，即E＝{c₁，c₂，...，c_m}，其中每个符号c_i通过映射矩阵M被映射为特征向量e_i，实体最终被表示为向量E＝{e₁，e₂，...，e_m}。

3.2经过对比和分析，同样采用BiLSTM作为编码器对输入信息进行处理，因为BiLSTM在给定实体的字符组成信息时，对句子的特征提取表现出更好的性能，其次，与基于CNN的模型相比，基于LSTM的模型在与下一步的注意力机制相结合时具有更明确的语义，而且BiLSTM相对于其它复杂的神经网络具有更简单的结构，这意味着它具有更少的参数和更快的计算速度。在对句子进行编码时，输入语句为R＝{r₁，r₂，...，r_n}，则前向LSTM的隐藏状状态H_f为：

反向LSTM的编码结果H_b为：

最终经过编码的句子隐藏状态为H_s为：

H_s＝{h₁，h₂，...，h_n}

其中，

H_e＝BLSTM{e₁，e₂，...，e_m}

和

3.3对句子和实体进行特征编码之后，接着采用注意力机制来充分利用组成实体的字符所提供的语义信息。注意力机制在很多自然语言处理任务中都有广泛应用，比如问答和机器翻译，旨在选择出与给定的输入查询最相关的部分。在当前大部分的NLP任务中，输入状态v也被用作关键词k，在本方法的模型中也是如此，本模型中采用输入语句的编码输出结果H_s作为k和v。经过注意力计算的语句表示为r_s，计算方式如下：

r_s＝αV

其中，V是LSTM对输入句子的编码后的隐藏状态H_s，α为注意力向量，α是由查询q和关键词k计算而来的，本方法中k也用H_s表示，所以α的计算过程如下：

α＝softmax(f_attention(q，H_s))

注意力函数f_attention的计算方式有多种形式，乘是被经常使用的方式，所以本方法也采用这种计算方式，则此时α表示为：

α＝softmax(qWH_s)

其中W是一个参数矩阵。

在关系抽取任务中没有查询q，本方法采用头实体和尾实体的编码向量

和

来表示。在知识图谱表示中假设，给定三元组(h，l，t)，其中h和t分别表示头实体和尾实体，l表示两个实体之间的关系，则三元组的嵌入式向量满足h+l＝t，即两个实体之间的向量差可以表示关系。基于此假设，q表示为：

所以输入语句最终经过注意力机制后的输出为：

3.4模型接着将注意力计算结果r_s和头尾实体联合向量表示r_e输入到全连接层，进行特征交互，接着再通过Softmax函数完成关系分类，其中r_e的计算方式如下：

Softmax层计算公式如下：

其中，r_s和r_e分别表示句子和实体对应的特征向量，W和B表示参数矩阵，

是概率向量，该向量的每一个维度对应于每种标签的预测概率，

表示概率最大值为y时对应的标签种类。

模型采用交叉熵作为目标函数，计算方式如下：

其中，m表示样本总数，y_i表示经过Softmax函数预测的标签，

为其对应的真实标签，θ表示模型参数。