CN110738052A

CN110738052A - 一种基于特征字的半监督中医命名实体获取方法

Info

Publication number: CN110738052A
Application number: CN201910930733.8A
Authority: CN
Inventors: 周洪伟; 伍小劲; 刘亮亮; 谢琪; 曹馨宇; 林睿凡; 张妮楠
Original assignee: Chinese Academy of Medical Sciences CAMS
Current assignee: Chinese Academy of Medical Sciences CAMS; China Academy of Chinese Medical Sciences CACMS
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-31

Abstract

本发明提供一种基于特征字的半监督中医命名实体获取方法，涉及人工智能及中文自然语言处理技术领域。针对目前中医命名实体获取方法的召回率和准确率不够好的这种问题，该方法使用通识类语料和中医相关语料训练出字向量加权组合，并对于中医领域特殊的特征词的字向量进行特殊处理，并使用半监督的方法进行训练语料的扩充，在减少训练标注数据的情况下，使模型在中医命名实体获取上取得较好的效果，有效提升了中医语料中的命名实体的抽取效果。

Description

一种基于特征字的半监督中医命名实体获取方法

技术领域

本发明涉及人工智能及中文自然语言处理技术领域，尤其涉及一种基于特征字的半监督中医命名实体获取方法。

背景技术

中医语料中的命名实体抽取是自然语言处理的应用之一，同样也是自然语言处理中的一项难点，由于中医命名实体的语言形式多为古文或半白话文，并且在中医古籍和医案中，即使相同含义的命名实体，但也常有不同的表达方式。同时，中医命名实体又分有多种种类，包括：疾病、症状、证候、中药、方剂等。当前已有的获取方法在处理效果上也不尽完善，同时各种方法对于训练语料上需要大量的人工标注数据，时间和人力代价很大。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于特征字的半监督中医命名实体获取方法，在减少人工数据标注的同时，完善中医命名实体的获取效果，获取中医语料中的命名实体。

为解决上述技术问题，本发明所采取的技术方案是：一种基于特征字的半监督中医命名实体获取方法，包括以下步骤：

步骤1、以字为单位，使用大规模通识类语料训练用于中医命名实体抽取的字向量；

步骤1.1、使用中医类别的语料对用于中医命名实体抽取的字向量进行训练，得到训练的字向量

w_i表示第i个字，i＝1，2，...，M，M表示整体训练字向量的语料中出现的字所在字表大小，默认为汉字的个数；

步骤1.2、使用通识百科类语料进行字向量的训练，得到训练的字向量

步骤1.3、自定义权重λ，将两部分语料训练的字向量进行加权整合，形成最终训练的字向量，如下公式所示：

其中，0≤λ≤1；

步骤2、收集整理特征字集合表，划分为不同类别的子集合，将步骤1最终训练形成的字向量按是否属于特征字进行不同处理，对特征字字向量及非特征字向量进行特殊填充；

步骤2.1、收集整理中医命名实体中出现频率大于设定阈值T的字作为特征字，整合为特征字集合表；

步骤2.2、将不同种类的特征字进行类别划分，对每一类别的特征字的字向量加长一定维度进行扩展，加长的维度使用高斯分布初始化的数值，如下公式所示：

其中，w_i∈Q表示w_i属于特征字的总集合，Q为特征字集合表中特征字总集合，

为对特征字的字向量增加的维度，其生成公式为：

其中，为指示函数，如下公式所示：

表示字w_i是否属于特征字子集P_j，如果字或词w_i属于集合P_j，用w_ij∈P_j来表示，j＝1，2，...，N，

表示集合P_j，j＝1，2，...，N的并集组成特征字总集合Q；

扩展后的特征字的字向量维度表示为：

其中，e_m：N(0，1)，m＝1，2，...，k，即e_m的取值属于均值为0，方差为1的正态分布；

步骤2.3、对非特征字的字向量进行加长至与特征字的字向量同样的维度，但加长的维度使用0进行填充，如下公式所示：

其中，

表示w_i不属于特征字的总集合；对于Embedding_ZERO，其生成公式为：

步骤3、对中医类别的术语抽取数据集中各类中医命名实体进行标注及划分；

步骤3.1、采用“BIO”标注形式对数据集中数据进行标注，标注的类别包括中药、方剂、证候、症状和疾病；

步骤3.2、对标注数据进行划分，划分出80％标注数据集作为训练集，同时划分10％标注数据集作为测试集，以及10％标注数据集作为验证集；

步骤4、建立中医命名实体获取模型，并使用半监督学习，进行模型阶段一训练，使用训练后模型对大规模未标注数据集进行中医命名实体预测，得到预测数据集；

步骤4.1、采用BiLSTM-CRF的深度学习模型作为中医命名实体获取模型的隐含层和输出层，使用步骤2整合而成的特征字字向量与非特征字字向量作为中医命名实体获取模型输入层，并使用步骤3已标注后的训练集和标注后的测试集进行模型阶段一训练；

步骤4.2、采用半监督的学习方法，使用步骤4.1中训练后模型对大规模未标注数据集进行中医命名实体预测，学习到更广泛的数据分析特征，此处同样以特征字和非特征字的字向量作为模型输入层，BiLSTM-CRF作为模型的隐含层和输出层；

步骤5、整合预测数据集和标注数据集，进行模型阶段二训练，得到最终的中医命名实体获取模型；

步骤5.1、将步骤4.2中半监督学习方法对大规模未标注数据集进行中医命名实体预测后的结果，与步骤3.2中标注的训练集进行数据集整合；

步骤5.2、使用步骤4中BiLSTM-CRF模型在整合后的数据集中进行阶段二训练，得到最终的中医命名实体获取模型；

步骤6、基于步骤5中训练的最终中医命名实体获取模型对中医语料中的命名实体进行抽取。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于特征字的半监督中医命名实体获取方法，在三个方面提升了中医语料中的命名实体的抽取效果：1)本发明将中医类语料和百科类语料训练的词向量进行自定义权重结合，提升了对于中医富含偏向于古文和半白话文的表述方式的命名实体的抽取效果；2)本发明基于半监督的学习方法，在减少人工标注代价下，学习到更广泛的未标注中医命名实体数据的特征分布，提升了模型的特征学习和实体抽取效果；3)本发明整理中医命名实体特征字集合表，对属于特征字和不属于特征字的字向量进行不同的处理，有效学习了中医命名实体中特征字和非特征字的不同数据分布特点，提升了模型的实体的抽取效果。

附图说明

图1为本发明实施例提供的一种基于特征字的半监督中医命名实体获取方法的流程图；

图2为本发明实施例提供的进行填充后的字向量生成图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种基于特征字的半监督中医命名实体获取方法，如图1所示，包括以下步骤：

步骤1.1、使用中医类别的语料(如医案、中医古籍等)对用于中医命名实体抽取的字向量进行训练，得到训练的字向量

步骤1.2、使用通识百科类语料(如百度百科或WIKI百科语料等)进行字向量的训练，得到训练的字向量

字向量是整个中医命名实体获取模型的输入，对于一般通识类语料中的命名实体，可使用预训练好后的词向量或字向量作为输入。对于中医命名实体，因实体的上下文多以古文或半白话文形式进行表述，同时又结合有白话文的表述，因此使用通识类语料训练的字向量，以及结合基于中医语料训练的字向量，对于实体抽取结果将会有所提升。本实施例中，使用大规模通识类语料如维基百科或百度百科语料，同时使用中医类别的语料，如：医案、中医古籍等分别进行字向量的训练。

其中具体的训练采用Word2Vec的训练模型，最终训练出对于每个字符的向量表示，维度可自定义，一般为100维。以字符“痛”为例，在进行语料训练后将呈现出如下表示：

该向量将包含该字符的本身的特征信息，同时包含该字符在训练语料中的上下文特征信息。

其中，0≤λ≤1；

使用自定义的权重将两部分语料训练的字向量进行加权的整合形成最终的字向量。基于通识语料训练的字向量和中医语料训练的字向量包含了两种语料类别下的信息，使用自定义的权重将两者进行结合，可以使得字向量从形式上包含两种通识类实体和中医命名实体，两种语境下的信息。

为对特征字的字向量增加的维度，其生成公式为：

其中，

为指示函数，如下公式所示：

表示集合P_j，j＝1，2，...，N的并集组成特征字总集合Q；

扩展后的特征字的字向量维度表示为：

其中，

本实施例中，对于中医类命名实体语料进行标注，对如：症状、证候、中药、疾病、方剂等各种类别的数据进行字符级的特征分析，将字频率大于一定阈值的字进行提取，并按字的类别整合为不同类别的特征字，本实施例中共整理有39类特征字类别，具体如表1所示的部分特征字字表；

表1部分特征字表

本实施例中，对每一类别的特征字的字向量进行加长一定维度，加长的维度使用正态分布数值初始化的数值，对非特征字的字向量进行加长同样的维度，但加长的维度只使用0进行填充。具体参考如图2所示的字向量生成图：

在图2中，基于以上已有的通识类和中医语料训练得到字向量，采用自设定的权重，将两种语料训练得到的字向量进行整合。图2中设定得到的字向量为N维。在此基础上，将特征字字表中的字按类别生成K维的字向量拼接在相应的字向量之后，每一种类别的字向量使用正态分布的随机数进行填充，如若不是特征字字表中的字，则使用0进行填充K维拼接在相应的字向量之后。本实施例中，实验效果较好的参数：N＝100、K＝20。

本实施例中，经过多次开放的测试，实验采用2万字标注训练语料对10万字未标注语料进行中医命名实体标签预测，在5千字的测试集语料中达到79％的F1值。相较于仅使用2万字的标注训练语料，对5千字的测试语料进行验证，本发明的中医命名实体获取模型在实体抽取效果上，F1值提高5％。在使用自定义特征字字表进行字向量优化后，本发明的中医命名实体获取模型在实体抽取效果上，F1值提高3％。总体上，本发明的基于特征字的半监督中医命名实体获取方法在减少训练数据标注的情况下，实现了较好的中医命名实体获取效果，方法具有扩展和使用价值。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。