CN108427717B

CN108427717B - 一种基于逐步扩展的字母类语系医疗文本关系抽取方法

Info

Publication number: CN108427717B
Application number: CN201810115953.0A
Authority: CN
Inventors: 罗杰; 杨云龙; 金豪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2021-09-03
Anticipated expiration: 2038-02-06
Also published as: CN108427717A

Abstract

一种基于逐步扩展的字母类语系医疗文本关系抽取方法：(1)将医疗文本划分成句子，识别出句子中的实体；(2)统计每个句子中实体对的频率，将出现频率最高的少量实体对作为种子元组；(3)使用种子元组识别出匹配的五元组，通过特征选择，构建词向量生成五元组向量(4)对五元组向量聚类，选用类中心作为关系模板，抽取出符合该模板表达关系的实体对加入到种子元组中，重复(3)(4)步骤，直到迭代结束。本发明利用医疗文本中实体对上下文的语义特性，构造特征明显、利于聚类的特征向量，使用类中心作为关系模板，反复迭代抽取出医疗文本中的实体关系，算法可以在大量未标注关系的非结构化文本中使用，并保证了较高的精确率和召回率。

Description

一种基于逐步扩展的字母类语系医疗文本关系抽取方法

技术发明领域

本发明涉及非结构化医疗文本范畴下，可对大量无关系标注数据集的输入流创建基于逐步扩展的字母类语系医疗文本关系抽取方法,字母类语系可以是德文、法文、英文等与英文有相似的其他字母类语系。

背景技术

自动从医疗文本中进行关系抽取是计算机科技工作者广泛研究的问题。目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取，并且关系抽取技术不具有在医疗不同领域的可迁移性。与此同时，仅仅靠手工去发现这些医疗文本中有用的信息，为医生和患者提供方便，将会越来越复杂、困难。总而言之，目前的技术对于日益增长的非结构化医疗文本关系抽取是有很大的限制。

发明内容

目前的医疗关系抽取主要集中在对有标注的少量特定数据集进行关系分类的抽取，并且关系抽取技术不具有在医疗不同领域的可迁移性。

本发明要解决的技术问题：针对现有的医疗关系抽取技术主要集中在对有标注的少量特定数据集进行关系分类的抽取，以及关系抽取技术不具有在医疗不同领域的可迁移性的缺陷，本发明提出了一种基于逐步扩展的字母类语系医疗文本关系抽取方法，该方法填补了现有技术的空白，针对不同医疗领域，该方法具有很好的迁移性，而且可对大量无关系标注数据集的输入流，创建基于逐步扩展的字母类语系医疗文本关系抽取。

本发明采用的技术方案：一种基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征与步骤如下：

(1)将输入的医疗文本划分成句子，并使用实体识别技术，通过加载SNOMED 医学字典库，识别出句子中的实体，并将句子切分，生成五元组句子；其中，每个五元组句子中只包含两个实体对；

(2)统计每个五元组句子中实体对的频率，将出现频率最高的少量实体对作为种子元组；

(3)使用种子元组识别出匹配的五元组句子，通过特征选择，选择每个五元组句子中每个单词的四个特征：用word2vec得到的每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP₁、每个单词距离第二个实体的距离特征DisP₂、每个单词的词性特征POS，然后生成五元组向量；

(4)对五元组向量进行聚类，选用类中心作为关系模板，抽取出符合该关系模板表达关系的新的五元组句子，将新的五元组句子对应的新的实体对加入到种子元组中，重复(3)(4)步骤，直到没有新的实体对产生。

上述基于逐步扩展的字母类语系医疗文本关系抽取方法中，所述的步骤(1) 进一步包括：

(1a)对输入文本集合，根据自然语言符号，将其划分成句子集合 S＝{s₁,s₂,…,s_n}，并去除掉句子中的停用词，其中n代表文本中总共有n个句子；

(1b)对于每一个句子s_i＝w_i1w_i2…w_im，加载SNOMED字典库，使用正向匹配算法识别出句子中的实体：

然后使用启发式的算法，合并产生关于疾病和症状有关的相邻新实体(比如e_i2e_i3)，其中e_ix(0≤x≤m)代表识别出来的实体，num(e_ix)代表一个实体中单词个数，m代表句子s_i有m个单词；

(1c)将实体识别后的句子切分，保证每个句子切分后只出现两个实体，生成五元组句子，产生五元组句子集合S′＝{s₁′,s₂′,…,s_k′}，其中k≥n。

s_i＝<pre_i,e_i1,mid_i,e_i2,suf_i>

其中，(e_i1，e_i2)构成实体对，pre_i是实体e_i1的前缀单词序列，mid_i是e_i1和e_i2之间的词序列，suf_i是e_i2之后的词序列。

上述基于逐步扩展的字母类语系医疗文本关系抽取方法中，所述的步骤(2) 进一步包括：

(2a)使用统计算法，统计五元组句子集合S′中每个五元组句子中的实体对，得到实体对频次，用哈希表保存，其中关键码值中的key是实体对，value是频次；将实体对按照频次从高到低的顺序排序，筛选出少量出现频次最高的实体对作为种子元组；

上述基于逐步扩展的字母类语系医疗文本关系抽取方法中，所述的步骤(3) 进一步包括：

(3a)使用种子元组从五元组句子集合S′中识别出匹配的五元组句子；

(3b)使用word2vec训练得到五元组句子集合S′中每个五元组句子s_i′中每个单词的词向量特征W；

(3c)得到五元组句子s_i′中每个单词w_ij距离第一个实体e_i1的距离特征DisP₁，每个单词w_ij距离第二个实体e_i2的距离特征DisP₂，每个单词w_ij的词性特征POS；

(3d)这样一个单词共有四个局部特征W、DisP₁、DisP₂、POS，对应于四个维度的特征空间，w∈D₁×D₂×D₃×D₄，D_t是第t个局部特征库；使用特征向量矩阵，将单词的每个特征映射成向量形式；其中M^t∈R^u×N(t＝1,2,3,4)是第t个局部特征空间的向量矩阵，其中u表示第t个局部特征空间中特征向量的维度 (比如M^t的每一列是第t个特征空间中的一个特征向量)，N表示该第t个局部特征空间中字典Dic的大小(比如第一个局部特征空间，单词很多，字典就会很大,单词个数等于字典的大小)；当t＝1时，M¹是使用word2vec在语料上训练出来的词向量矩阵；当t≥2时，M^t是随机生成的矩阵，随机生成的矩阵包括以下矩阵：每个单词距离第一个实体的距离矩阵，每个单词距离第二个实体的距离矩阵，每个单词的词性矩阵；

(3e)对于一个五元组句子s_i′：

s′_i＝<pre_i,e_i1,mid_i,e_i2,suf_i>

其中e_i1的前缀单词个数和e_i2的后缀单词个数可以通过参数Pre_WN控制前缀个数、通过参数Suf_WN控制后缀个数；当t＝1时，每个词w′_ij(j＝1,2,…,m)在

会有一个长度为u＝50词向量

当t≥2时，假定

是第t个局部特征空间中的一个0-1(one hot)向量，该0-1向量长度为N，由该特征空间中的字典Dic匹配得到，所以

每个词最终得到词向量为：

其中“。”符号表示链接操作；

(3f)根据词向量，可以生成每个五元组特征向量，特征向量不包含实体：

上述基于逐步扩展的字母类语系医疗文本关系抽取方法中，所述的步骤(4) 进一步包括：

(4a)对生成的五元组向量进行聚类，选取类中心作为关系模板；

(4b)两个五元组向量的匹配度公式为：

Sim(t₁,t₂)，t₁对应五元组<pre₁,e₁,mid₁,e′₁,suf₁>，t₂对应五元组 <pre₂,e₂,mid₂,e′₂,suf₂>。

其中e₁,e′₁,e₂,e′₂标注的实体；元组聚类过程，需要使用匹配度函数Sim计算两个五元组特征向量的相似性，相似性达到最小阈值T_sim，才能聚到一类，聚类时使用single-pass clustering algorithm算法；

(4c)对于每个类中的所有元组:t₁,t₂,t₃,…,t_n，

是类中心向量：

聚类结束时，使用类中心作为候选向量模板，与候选向量模板相似度最大的五元组句子为候选关系模板，本次迭代得到候选向量模板和候选关系模板后，本次迭代和上一次迭代产生的候选关系模板使用Sim函数进行置信度计算，选用置信度高于阈值P_conf的候选关系模板作为关系模板，并迭代进行实体对抽取，置信度低于阈值的关系模板丢弃。

(2b)对于已经得到的种子元组，能够通过人工干预进行修改，包括适当添加或减少种子实体对，使之后关系抽取过程的效果更好。

步骤(3d)中，当t＝1时，u＝50，代表使用word2vec对每个单词训练的向量维度，该维度在实验中表达词义的效果最好；当t≥2时，综合实验效果和矩阵的大小对计算效率的影响，设置u＝5；

步骤(3e)中，当t＝1时，词向量

长度为u＝50，

的长度均为 u＝5，每个单词最终会得到一个长度为65的特征向量。

步骤(3e)中，将参数Pre_WN和参数Suf_WN均设置为3，pre_i＝w_i1w_i2w_i3， suf_i＝w_i(r-2)w_i(r-1)w_i(r)，

该五元组中由r个单词组成,这r个单词种类有p个(p≤r)。

本发明所述的字母类语系医疗文本可以是德文、法文、英文等与英文有相似的其他字母类语系医疗文本。

本发明具有以下优点：

(1)本发明使用文本中较为普遍的词特征和句子特征，作为元组向量，这样就不用针对不同的文本去提取不同特征。

(2)同时，本发明也不用考虑标记数据量不足而无法对大量的文本进行准确的关系抽取，因为对于大量文本，本发明提供的方法只要使用少量的数据进行参数训练，就可以使该方法对于医疗领域的文本保持较高的准确率和精确率。

(3)此外，针对不同医疗领域，本发明提供的方法具有有很好的迁移性，可对大量无关系标注数据集的输入流创建基于逐步扩展的字母类语系医疗文本关系抽取方法。

附图说明

图1为基于逐步扩展的字母类语系医疗文本关系抽取方法整体流程图；

图2为本发明中切分五元组句子示意图；

图3为本发明的整体实现流程。

具体实施方式

下面参考附图，对本发明的实施例进行详细的说明。

首先对本发明的方法原理进行说明。

逐步扩展的方法在诸多研究领域有广泛应用，特别是针对没有标注标签的数据有很好的操作性和应用性。在使用逐步扩展的方法对字母类语系医疗文本进行关系抽取时，有两个关键步骤：关键步骤(1)、准确的实体识别技术；关键步骤(2)、选择合适的特征生成特征向量，对向量进行聚类。这两个关键步骤可以对每次迭代的产生结果的准确性有很大的保证，同时可以确保本次产生的结果对下次迭代的准确性有正反馈的影响。同时，增量聚类的方法可以在大规模的文本中使用。

本发明主要包括的核心思想：使用实体识别方法，通过加载SNOMED医学库，对医疗文本中的疾病和症状实体进行识别；选择合适的特征，保证了算法在不同医疗文本的可迁移性；在逐步扩展过程中采用single-pass clustering algorithm方法对特征向量进行聚类，保证了方法的关系抽取的精确率和召回率。

下面参见附图1－3对本发明提供的基于逐步扩展的字母类语系医疗文本关系抽取方法进行具体描述：

(1)、将输入的字母类语系医疗文本划分成句子，并使用实体识别技术，通过加载SNOMED医学字典库，识别出句子中的实体，并将句子切分，生成五元组句子；其中，每个五元组句子中只包含两个实体对；

(1b)对于每一个句子s_i＝w_i1w_i2…w_im，加载SNOMED字典库，使用正向匹配算法识别出句子中的实体。

(1c)将实体识别后的句子切分，保证每个句子切分后只出现两个实体，具体切分方法参见附图2，产生新的五元组句子集合S′＝{s₁′,s₂′,…,s_k′}，k≥n。

s′_i＝<pre_i,e_i1,mid_i,e_i2,suf_i>

(2)、统计每个句子中实体对的频率，将出现频率最高的少量实体对作为种子元组：

(2a)使用统计算法，统计五元组句子集合S′中每个句子中的实体对，得到实体对频次，用哈希表保存，其中key是实体对，value是频次。将实体对按照频次从高到低的顺序排序，筛选出少量出现频次最高的实体对作为种子元组；

(2b)对于已经得到的种子元组，可以进行人工干预修改，适当添加或减少种子实体对，使之后关系抽取过程的效果更好。

(3)、使用种子元组识别出匹配的五元组句子，通过特征选择，选择每个五元组句子中每个单词的四个特征：用word2vec得到每个单词的词向量特征W、每个单词距离第一个实体的距离特征DisP₁、每个单词距离第二个实体的距离特征DisP₂、每个单词的词性特征POS，然后生成五元组向量：

(3c)得到五元组句子s_i′中每个单词w_ij距离第一个实体e_i1的距离特征DisP₁，每个单词w_ij距离第二个实体e_i2的距离特征DisP₂，每个单词w_ij的词性特征POS； (3d)这样一个单词共有四个局部特征W、DisP₁、DisP₂、POS，对应于四个维度的特征空间，w∈D₁×D₂×D₃×D₄，D_t是第t个局部特征库；使用特征向量矩阵，将单词的每个特征映射成向量形式；其中M^t∈R^u×N(t＝1,2,3,4)是第t个局部特征空间的向量矩阵，其中u表示第t个局部特征空间中特征向量的维度(比如M^t的每一列是第t个特征空间中的一个特征向量)，N表示该第t个局部特征空间中字典Dic的大小(比如第一个局部特征空间，单词很多，字典就会很大, 单词个数等于字典的大小)；当t＝1时，M¹是使用word2vec在语料上训练出来的词向量矩阵，其中u＝50，代表使用word2vec对每个单词训练的向量维度，该维度表达词义的效果最好；当t≥2时，M^t是随机生成的矩阵，随机生成的矩阵包括以下矩阵：每个单词距离第一个实体的距离矩阵，每个单词距离第二个实体的距离矩阵，每个单词的词性矩阵，综合实验效果和矩阵的大小对计算效率的影响，设置u＝5；

(3e)对于一个五元组句子s_i′：

s′_i＝<pre_i,e_i1,mid_i,e_i2,suf_i>

其中，e_i1的前缀单词个数和e_i2的后缀单词个数可以通过参数Pre_WN(前缀个数)和Suf_WN(后缀个数)控制，此处设置为3，pre_i＝w_i1w_i2w_i3，suf_i＝w_i(r-2)w_i(r-1)w_i(r)，

该五元组中由r个单词组成,这r个单词种类有p个(p≤r)；当t＝1时，每个词w_ij′(j＝1,2,…,m)在

会有一个长度为u＝50 词向量

当t≥2时，假定

是第t个局部特征空间中的一个0-1(one hot) 向量，该0-1向量长度为N，由该特征空间中的字典Dic匹配得到，所以

每个词最终得到词向量为：

其中“。”符号表示链接操作，

的长度均为u＝5，每个单词最终会得到一个长度为65的特征向量；

(4)、对五元组向量进行聚类，选用类中心作为关系模板，抽取出符合该模板表达关系的新的五元组，将其中新的实体对加入到种子元组中，重复(3) (4)步骤，直到没有新的实体对产生：

(4b)两个五元组向量的匹配度公式为：

Sim(t₁,t₂)，t₁对应五元组<pre₁,e₁,mid₁,e′₁,suf₁>，t₂对应五元组 <pre₂,e₂,mid₂,e₂,suf₂>。

(4c)对于每个类中的所有元组:t₁,t₂,t₃,…,t_n，

是类中心向量：

综上所述，根据上述方法即可完成基于逐步扩展方法对字母类语系医疗文本关系抽取。

对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此，具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此，在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下，可对其作出各种修改。

Claims

1.一种基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：步骤如下：

(1)将输入的医疗文本，根据自然语言符号，将其划分成句子集合S＝{s₁,s₂,…,s_n}，并去除掉句子中的停用词，其中n代表文本中总共有n个句子；对于每一个句子s_i＝w_i1 w_i2 …w_im，加载SNOMED字典库，使用正向匹配算法识别出句子中的实体：

然后使用启发式的算法，合并关于疾病和症状有关的相邻新实体，其中e_ix代表识别出来的实体，0≤x≤m，num(e_ix)代表一个实体中单词个数，m代表句子s_i有m个单词；将实体识别后的句子切分，保证每个句子切分后只出现两个实体，生成五元组句子，形成五元组句子集合S'＝{s'₁,s'₂,…,s'_k}，其中k≥n；

s′_i＝<pre_i,e_i1,mid_i,e_i2,suf_i>

其中，(e_i1,e_i2)构成实体对，pre_i是实体e_i1的前缀单词序列，mid_i是e_i1和e_i2之间的词序列，suf_i是e_i2之后的词序列；

(4)对生成的五元组向量进行聚类，选取类中心作为关系模板，抽取出符合该关系模板表达关系的新的五元组句子，将新的五元组句子对应的新的实体对加入到种子元组中，两个五元组向量的匹配度公式为：Sim(t₁,t₂)，t₁对应五元组<pre₁,e₁,mid₁,e'₁,suf₁>，t₂对应五元组<pre₂,e₂,mid₂,e'₂,suf₂>；

其中e₁,e'₁,e₂,e'₂标注的实体；元组聚类过程，需要使用匹配度函数Sim计算两个五元组特征向量的相似性，相似性达到最小阈值T_sim，才能聚到一类，聚类时使用single-passclusteringalgorithm算法；

对于每个类中的所有元组：t₁,t₂,t₃,…,t_n，类中心向量

为：

聚类结束时，使用类中心作为候选向量模板，与候选向量模板相似度最大的五元组句子为候选关系模板，本次迭代得到候选向量模板和候选关系模板后，本次迭代和上一次迭代产生的候选关系模板使用Sim函数进行置信度计算，选用置信度高于阈值P_conf的候选关系模板作为关系模板，并迭代进行实体对抽取，置信度低于阈值的关系模板丢弃；

重复步骤(3)(4)，直到没有新的实体对产生。

2.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：所述的步骤(2)进一步包括：

(2a)使用统计算法，统计五元组句子集合S'中每个五元组句子中的实体对，得到实体对频次，用哈希表保存，其中关键码值中的key是实体对，value是频次；将实体对按照频次从高到低的顺序排序，筛选出少量出现频次最高的实体对作为种子元组。

3.根据权利要求1所述的基于逐步扩展的字母类语系医疗文本关系抽取方法，其特征在于：所述的步骤(3)进一步包括：

(3a)使用种子元组从五元组句子集合S'中识别出匹配的五元组句子；

(3b)使用word2vec训练得到五元组句子集合S'中每个五元组句子s'_i中每个单词的词向量特征W；

(3c)得到五元组句子s'_i中每个单词w_ij距离第一个实体e_i1的距离特征DisP₁，每个单词w_ij距离第二个实体e_i2的距离特征DisP₂，每个单词w_ij的词性特征POS；

(3d)这样一个单词共有四个局部特征W、DisP₁、DisP₂、POS，对应于四个维度的特征空间，w∈D₁×D₂×D₃×D₄，D_t是第t个局部特征库；使用特征向量矩阵，将单词的每个特征映射成向量形式；其中M^t∈R^u×N(t＝1,2,3,4)是第t个局部特征空间的向量矩阵，其中u表示第t个局部特征空间中特征向量的维度，N表示该第t个局部特征空间中字典Dic的大小；当t＝1时，M¹是使用word2vec在语料上训练出来的词向量矩阵；当t≥2时，M^t是随机生成的矩阵，随机生成的矩阵包括以下矩阵：每个单词距离第一个实体的距离矩阵，每个单词距离第二个实体的距离矩阵，每个单词的词性矩阵；

(3e)对于一个五元组句子s'_i：

s′_i＝<pre_i,e_i1,mid_i,e_i2,suf_i>

其中e_i1的前缀单词个数和e_i2的后缀单词个数通过参数Pre_WN控制前缀个数、通过参数Suf_WN控制后缀个数；当t＝1时，每个词w'_ij(j＝1,2,…,m)在