CN105787461B

CN105787461B - 基于文本分类和条件随机场的文献不良反应实体识别方法

Info

Publication number: CN105787461B
Application number: CN201610147449.XA
Authority: CN
Inventors: 张引; 张月娇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2019-07-23
Anticipated expiration: 2036-03-15
Also published as: CN105787461A

Abstract

本发明公开了一种基于文本分类和条件随机场的中药文献不良反应实体识别方法。首先，将文献全文转换为文本信息，结构化其内容。然后对文献中的段落进行语句分割，以句子为单位进行特征提取。根据语句特征提取的结果采用文本分类模型对语句进行分类，标记出包含不良反应实体的语句。之后，对这些判断为包含不良反应实体的语句进行特征提取，根据特征提取的结果采用训练好的条件随机场模型进行不良反应实体识别，标记出实体类别。本发明针对中药不良反应文献特点，使用文本分类模型对文献语句进行分类，同时结合中药领域知识对判断为包含不良反应的实体的语句进行不良反应实体识别，从而达到提高文献不良反应实体识别的效果。

Description

基于文本分类和条件随机场的文献不良反应实体识别方法

技术领域

本发明涉及文本分类和基于条件随机场的序列标注领域，特别涉及一种基于文本分类和条件随机场的中药文献不良反应实体识别方法。

背景技术

近几十年来，中药的疗效在国内外获得普遍认可，各种中药制剂的出现使得中药的使用更为方便，促进了中药更为广泛的应用。但与此同时，中药导致的不良反应报告逐年递增，且不乏因其不良反应致死的案例。中药不良反应信息多包含在文献之中，文献为自由文本，从中获取信息十分耗时耗力。鉴于上述情况，本专利专注于如何从文献全文中挖掘不良反应实体。由于文献全文中包含不良反应实体的语句所占比例偏小，直接使用条件随机场进行不良反应实体识别会造成一定误差，影响识别结果，故需要对此进行改进，从而提高不良反应实体识别的效果。

发明内容

本发明的目的在于针对中药不良反应文献特点，使用文本分类模型对文献语句进行分类，同时结合中药领域知识对判断为包含不良反应的实体的语句进行不良反应实体识别，从而提高文献不良反应实体识别的效果。

为了实现上述目的，本发明提供了一种基于文本分类和条件随机场的中药文献不良反应实体识别方法，所述方法包括以下步骤：

步骤1：将文献全文转换为文本信息，结构化其内容；

步骤2：对文献中的段落进行语句分割，以句子为单位进行特征提取；

步骤3：根据语句特征提取的结果采用训练的文本分类模型对语句进行分类，标记出包含不良反应实体的语句；

步骤4：对判断为包含不良反应实体的语句进行特征提取；

步骤5：根据特征提取的结果采用训练的条件随机场模型对判断为包含不良反应实体的语句进行不良反应实体识别，标记出实体类别。

作为优选，所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法，步骤1中所述的文献全文为中药不良反应全文文献，该步骤进一步包含：

步骤1-1：使用OCR技术将文献全文转换为文本信息；

步骤1-2：使用启发式规则进行全文文本信息噪声去除；

步骤1-3：使用启发式规则进行全文文本信息标题标记；

步骤1-4：除标题外，全文文本信息段落合并，将文献全文结构化为标题+段落内容的格式。

作为优选，所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法，步骤2中所述的语句特征提取为使用分词工具对语句进行分词，以此为基础构建VSM空间向量模型和ADR特征。

作为优选，所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法，步骤3中所述的文本分类算法为支持向量机。

作为优选，所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法，步骤4中所述包含不良反应实体的语句提取的特征为词本身特征、词上下文特征，以及使用中医主题词表构建的特征。

作为优选，所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法，步骤5中所述的条件随机场模型为线性链式结构，标记的实体类别为BIO三类，B表示不良反应实体起始，I表示包含在不良反应实体内，O表示不包含在不良反应实体之中。

本发明与现有技术相比具有的有益效果：

1.使用文本分类对中药不良反应文献进行预处理，从而减少了不良反应信息稀疏对于文献中不良反应实体识别效果的影响；

2.与传统CRF模型识别效果相比，本方法对于文献全文中的识别效果更优，能够更好地识别出文献中的不良反应实体；

3.提出了中医药主题词表在中药文献全文挖掘中的使用方法，并可扩展至中药文献其他类型实体识别之中。

附图说明

图1是本发明的不良反应实体识别方法整体流程图

图2是使用本发明方法从中药文献中发现的新不良反应实体。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

一种基于文本分类和条件随机场的中药文献不良反应实体识别方法，包括以下步骤：

(1)中药文献全文预处理

使用OCR技术将文献全文转换为文本信息，使用启发式规则进行全文文本信息噪声去除和标题标记，将标题之外的全文文本信息段落合并，将文献全文结构化为“标题+段落内容”的格式。

(2)语句分割及特征提取

使用正则表达式("[？？.。！！\\n]")对文献中的段落进行语句分割，使用自然语言处理工具对文献语句进行分词，将所有文献的分词结果构成一张词表，去除停用词和低频词，以新词表长度为向量维度构建VSM空间向量模型，每条语句的具体表现形式如下：

sen_j＝(w_1,j,w_2,j,...,w_t,j)

其中j为语句编号，t为词表的维度，每一维对应一个词，如果某个词在文档中出现，则w_i,j的值为非零。根据w_i,j所取值的不同，可以构建不同的特征。除此之外，每条语句再添加一项ADR特征，该特征使用词表长度有限的WHO-ADR术语表，若当前语句中包含WHO不良反应术语表中的词语，该维向量为1，否则为0。

(3)文本分类

根据文献语句特征提取结果，使用支持向量机训练的文本分类模型对语句进行分类，标记出语句中是否包含不良反应实体。

(4)实体识别特征提取

对标记为包含不良反应的语句进行特征提取，特征包括词本身特征、词上下文特征，以及使用领域知识——中医主题词表构建的特征。假设当前字为w₀，则w_-2、w_-1表示当前字的前两个字，w₁、w₂表示当前字的后两个字，使用领域知识构建的特征如下所示：

特征	特征值表示	特征	特征值表示
				F1	f(w<sub>-2</sub>w<sub>-1</sub>)	F6	f(w<sub>-2</sub>w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>)
F2	f(w<sub>1</sub>w<sub>2</sub>)	F7	f(w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>w<sub>2</sub>)
				F3	f(w<sub>-2</sub>w<sub>-1</sub>w<sub>0</sub>)	F8	f(w<sub>-2</sub>w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>w<sub>2</sub>)
F4	f(w<sub>0</sub>w<sub>1</sub>w<sub>2</sub>)	F9	f(w<sub>-1</sub>w<sub>0</sub>)
				F5	f(w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>)	F10	f(w<sub>0</sub>w<sub>1</sub>)

其中f为特征函数，表示当前字的上下文是否为中医药主题词表中的词语。

(5)不良反应实体识别

根据特征提取的结果采用训练所得的条件随机场模型对判断为包含不良反应实体的语句进行不良反应实体识别，标记出实体类别，该类别为BIO三类，B表示不良反应实体起始，I表示包含在不良反应实体内，O表示不包含在不良反应实体之中。

实施例

如图1所示，本发明一种基于文本分类和条件随机场的中药文献不良反应实体识别方法，包括以下步骤：

(1)使用OCR技术将文献全文转换为文本信息，使用启发式规则进行全文文本信息噪声去除和标题标记，将标题之外的全文文本信息段落合并，将文献全文结构化为“标题+段落内容”的格式。

(2)从文献库中选取语料，使用正则表达式("[？？.。！！\\n]")对文献中的段落进行语句分割，对文献全文语句进行类型标注，即该语句是否包含不良反应实体，然后进行SVM和ADR特征提取，使用SVM构建文献不良反应语句分类模型。对包含不良反应实体的语句进行不良反应实体标注，标注的类别为BIO三类，B表示不良反应实体起始，I表示包含在不良反应实体内，O表示不包含在不良反应实体之中，使用开源工具CRF++对这些标注数据进行训练，从而获取用于不良反应实体识别的CRF模型。

(3)对于经过预处理的每篇文献，使用正则表达式("[？？.。！！\\n]")对文献中的段落进行语句分割，使用自然语言处理工具对文献语句进行分词，利用文献高频词表，为文献中每条语句构建VSM空间向量模型，使用WHO-ADR不良反应术语表为语句构建ADR特征，而后使用步骤2中所述SVM分类模型对文献中的语句进行分类，判断该语句中是否包含不良反应实体。

(4)对标记为包含不良反应的语句进行特征提取，特征包括词本身特征、词上下文特征，以及使用领域知识——中医主题词表构建的特征，根据特征提取的结果使用训练所得的CRF模型进行不良反应实体识别，从而实现不良反应实体的自动化识别以及除WHO-ADR术语表外的新的不良反应实体的发现，如图2所示。

Claims

1.一种基于文本分类和条件随机场的中药文献不良反应实体识别方法，其特征在于包括以下步骤：

步骤1：将文献全文转换为文本信息，结构化其内容；

步骤4：对判断为包含不良反应实体的语句进行特征提取；

步骤5：根据特征提取的结果采用训练的条件随机场模型对判断为包含不良反应实体的语句进行不良反应实体识别，标记出实体类别；

步骤1中所述的文献全文为中药不良反应全文文献，该步骤进一步包含步骤1-1~步骤1-4：

步骤1-1：使用OCR技术将文献全文转换为文本信息；

步骤1-2：使用启发式规则进行全文文本信息噪声去除；

步骤1-3：使用启发式规则进行全文文本信息标题标记；

步骤1-4：除标题外，全文文本信息段落合并，将文献全文结构化为标题+段落内容的格式；

步骤2中所述的语句特征提取具体为使用分词工具对语句进行分词，以此为基础构建VSM空间向量模型和ADR特征；

步骤3中所述的文本分类算法为支持向量机；

步骤4中所述包含不良反应实体的语句提取的特征为词本身特征、词上下文特征以及使用中医主题词表构建的特征；

步骤5中所述的条件随机场模型为线性链式结构，标记的实体类别为BIO三类，B表示不良反应实体起始，I表示包含在不良反应实体内，O表示不包含在不良反应实体之中。