CN105787461B - 基于文本分类和条件随机场的文献不良反应实体识别方法 - Google Patents
基于文本分类和条件随机场的文献不良反应实体识别方法 Download PDFInfo
- Publication number
- CN105787461B CN105787461B CN201610147449.XA CN201610147449A CN105787461B CN 105787461 B CN105787461 B CN 105787461B CN 201610147449 A CN201610147449 A CN 201610147449A CN 105787461 B CN105787461 B CN 105787461B
- Authority
- CN
- China
- Prior art keywords
- adverse reaction
- sentence
- reaction entity
- entity
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/13—Type of disclosure document
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本分类和条件随机场的中药文献不良反应实体识别方法。首先,将文献全文转换为文本信息,结构化其内容。然后对文献中的段落进行语句分割,以句子为单位进行特征提取。根据语句特征提取的结果采用文本分类模型对语句进行分类,标记出包含不良反应实体的语句。之后,对这些判断为包含不良反应实体的语句进行特征提取,根据特征提取的结果采用训练好的条件随机场模型进行不良反应实体识别,标记出实体类别。本发明针对中药不良反应文献特点,使用文本分类模型对文献语句进行分类,同时结合中药领域知识对判断为包含不良反应的实体的语句进行不良反应实体识别,从而达到提高文献不良反应实体识别的效果。
Description
技术领域
本发明涉及文本分类和基于条件随机场的序列标注领域,特别涉及一种基于文本分类和条件随机场的中药文献不良反应实体识别方法。
背景技术
近几十年来,中药的疗效在国内外获得普遍认可,各种中药制剂的出现使得中药的使用更为方便,促进了中药更为广泛的应用。但与此同时,中药导致的不良反应报告逐年递增,且不乏因其不良反应致死的案例。中药不良反应信息多包含在文献之中,文献为自由文本,从中获取信息十分耗时耗力。鉴于上述情况,本专利专注于如何从文献全文中挖掘不良反应实体。由于文献全文中包含不良反应实体的语句所占比例偏小,直接使用条件随机场进行不良反应实体识别会造成一定误差,影响识别结果,故需要对此进行改进,从而提高不良反应实体识别的效果。
发明内容
本发明的目的在于针对中药不良反应文献特点,使用文本分类模型对文献语句进行分类,同时结合中药领域知识对判断为包含不良反应的实体的语句进行不良反应实体识别,从而提高文献不良反应实体识别的效果。
为了实现上述目的,本发明提供了一种基于文本分类和条件随机场的中药文献不良反应实体识别方法,所述方法包括以下步骤:
步骤1:将文献全文转换为文本信息,结构化其内容;
步骤2:对文献中的段落进行语句分割,以句子为单位进行特征提取;
步骤3:根据语句特征提取的结果采用训练的文本分类模型对语句进行分类,标记出包含不良反应实体的语句;
步骤4:对判断为包含不良反应实体的语句进行特征提取;
步骤5:根据特征提取的结果采用训练的条件随机场模型对判断为包含不良反应实体的语句进行不良反应实体识别,标记出实体类别。
作为优选,所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法,步骤1中所述的文献全文为中药不良反应全文文献,该步骤进一步包含:
步骤1-1:使用OCR技术将文献全文转换为文本信息;
步骤1-2:使用启发式规则进行全文文本信息噪声去除;
步骤1-3:使用启发式规则进行全文文本信息标题标记;
步骤1-4:除标题外,全文文本信息段落合并,将文献全文结构化为标题+段落内容的格式。
作为优选,所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法,步骤2中所述的语句特征提取为使用分词工具对语句进行分词,以此为基础构建VSM空间向量模型和ADR特征。
作为优选,所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法,步骤3中所述的文本分类算法为支持向量机。
作为优选,所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法,步骤4中所述包含不良反应实体的语句提取的特征为词本身特征、词上下文特征,以及使用中医主题词表构建的特征。
作为优选,所述的基于文本分类和条件随机场的中药文献不良反应实体识别方法,步骤5中所述的条件随机场模型为线性链式结构,标记的实体类别为BIO三类,B表示不良反应实体起始,I表示包含在不良反应实体内,O表示不包含在不良反应实体之中。
本发明与现有技术相比具有的有益效果:
1.使用文本分类对中药不良反应文献进行预处理,从而减少了不良反应信息稀疏对于文献中不良反应实体识别效果的影响;
2.与传统CRF模型识别效果相比,本方法对于文献全文中的识别效果更优,能够更好地识别出文献中的不良反应实体;
3.提出了中医药主题词表在中药文献全文挖掘中的使用方法,并可扩展至中药文献其他类型实体识别之中。
附图说明
图1是本发明的不良反应实体识别方法整体流程图
图2是使用本发明方法从中药文献中发现的新不良反应实体。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
一种基于文本分类和条件随机场的中药文献不良反应实体识别方法,包括以下步骤:
(1)中药文献全文预处理
使用OCR技术将文献全文转换为文本信息,使用启发式规则进行全文文本信息噪声去除和标题标记,将标题之外的全文文本信息段落合并,将文献全文结构化为“标题+段落内容”的格式。
(2)语句分割及特征提取
使用正则表达式("[??.。!!\\n]")对文献中的段落进行语句分割,使用自然语言处理工具对文献语句进行分词,将所有文献的分词结果构成一张词表,去除停用词和低频词,以新词表长度为向量维度构建VSM空间向量模型,每条语句的具体表现形式如下:
senj=(w1,j,w2,j,...,wt,j)
其中j为语句编号,t为词表的维度,每一维对应一个词,如果某个词在文档中出现,则wi,j的值为非零。根据wi,j所取值的不同,可以构建不同的特征。除此之外,每条语句再添加一项ADR特征,该特征使用词表长度有限的WHO-ADR术语表,若当前语句中包含WHO不良反应术语表中的词语,该维向量为1,否则为0。
(3)文本分类
根据文献语句特征提取结果,使用支持向量机训练的文本分类模型对语句进行分类,标记出语句中是否包含不良反应实体。
(4)实体识别特征提取
对标记为包含不良反应的语句进行特征提取,特征包括词本身特征、词上下文特征,以及使用领域知识——中医主题词表构建的特征。假设当前字为w0,则w-2、w-1表示当前字的前两个字,w1、w2表示当前字的后两个字,使用领域知识构建的特征如下所示:
特征 | 特征值表示 | 特征 | 特征值表示 |
F1 | f(w<sub>-2</sub>w<sub>-1</sub>) | F6 | f(w<sub>-2</sub>w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>) |
F2 | f(w<sub>1</sub>w<sub>2</sub>) | F7 | f(w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>w<sub>2</sub>) |
F3 | f(w<sub>-2</sub>w<sub>-1</sub>w<sub>0</sub>) | F8 | f(w<sub>-2</sub>w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>w<sub>2</sub>) |
F4 | f(w<sub>0</sub>w<sub>1</sub>w<sub>2</sub>) | F9 | f(w<sub>-1</sub>w<sub>0</sub>) |
F5 | f(w<sub>-1</sub>w<sub>0</sub>w<sub>1</sub>) | F10 | f(w<sub>0</sub>w<sub>1</sub>) |
其中f为特征函数,表示当前字的上下文是否为中医药主题词表中的词语。
(5)不良反应实体识别
根据特征提取的结果采用训练所得的条件随机场模型对判断为包含不良反应实体的语句进行不良反应实体识别,标记出实体类别,该类别为BIO三类,B表示不良反应实体起始,I表示包含在不良反应实体内,O表示不包含在不良反应实体之中。
实施例
如图1所示,本发明一种基于文本分类和条件随机场的中药文献不良反应实体识别方法,包括以下步骤:
(1)使用OCR技术将文献全文转换为文本信息,使用启发式规则进行全文文本信息噪声去除和标题标记,将标题之外的全文文本信息段落合并,将文献全文结构化为“标题+段落内容”的格式。
(2)从文献库中选取语料,使用正则表达式("[??.。!!\\n]")对文献中的段落进行语句分割,对文献全文语句进行类型标注,即该语句是否包含不良反应实体,然后进行SVM和ADR特征提取,使用SVM构建文献不良反应语句分类模型。对包含不良反应实体的语句进行不良反应实体标注,标注的类别为BIO三类,B表示不良反应实体起始,I表示包含在不良反应实体内,O表示不包含在不良反应实体之中,使用开源工具CRF++对这些标注数据进行训练,从而获取用于不良反应实体识别的CRF模型。
(3)对于经过预处理的每篇文献,使用正则表达式("[??.。!!\\n]")对文献中的段落进行语句分割,使用自然语言处理工具对文献语句进行分词,利用文献高频词表,为文献中每条语句构建VSM空间向量模型,使用WHO-ADR不良反应术语表为语句构建ADR特征,而后使用步骤2中所述SVM分类模型对文献中的语句进行分类,判断该语句中是否包含不良反应实体。
(4)对标记为包含不良反应的语句进行特征提取,特征包括词本身特征、词上下文特征,以及使用领域知识——中医主题词表构建的特征,根据特征提取的结果使用训练所得的CRF模型进行不良反应实体识别,从而实现不良反应实体的自动化识别以及除WHO-ADR术语表外的新的不良反应实体的发现,如图2所示。
Claims (1)
1.一种基于文本分类和条件随机场的中药文献不良反应实体识别方法,其特征在于包括以下步骤:
步骤1:将文献全文转换为文本信息,结构化其内容;
步骤2:对文献中的段落进行语句分割,以句子为单位进行特征提取;
步骤3:根据语句特征提取的结果采用训练的文本分类模型对语句进行分类,标记出包含不良反应实体的语句;
步骤4:对判断为包含不良反应实体的语句进行特征提取;
步骤5:根据特征提取的结果采用训练的条件随机场模型对判断为包含不良反应实体的语句进行不良反应实体识别,标记出实体类别;
步骤1中所述的文献全文为中药不良反应全文文献,该步骤进一步包含步骤1-1~步骤1-4:
步骤1-1: 使用OCR技术将文献全文转换为文本信息;
步骤1-2: 使用启发式规则进行全文文本信息噪声去除;
步骤1-3: 使用启发式规则进行全文文本信息标题标记;
步骤1-4: 除标题外,全文文本信息段落合并,将文献全文结构化为标题+段落内容的格式;
步骤2中所述的语句特征提取具体为使用分词工具对语句进行分词,以此为基础构建VSM空间向量模型和ADR特征;
步骤3中所述的文本分类算法为支持向量机;
步骤4中所述包含不良反应实体的语句提取的特征为词本身特征、词上下文特征以及使用中医主题词表构建的特征;
步骤5中所述的条件随机场模型为线性链式结构,标记的实体类别为BIO三类,B表示不良反应实体起始,I表示包含在不良反应实体内,O表示不包含在不良反应实体之中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610147449.XA CN105787461B (zh) | 2016-03-15 | 2016-03-15 | 基于文本分类和条件随机场的文献不良反应实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610147449.XA CN105787461B (zh) | 2016-03-15 | 2016-03-15 | 基于文本分类和条件随机场的文献不良反应实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105787461A CN105787461A (zh) | 2016-07-20 |
CN105787461B true CN105787461B (zh) | 2019-07-23 |
Family
ID=56393675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610147449.XA Active CN105787461B (zh) | 2016-03-15 | 2016-03-15 | 基于文本分类和条件随机场的文献不良反应实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105787461B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107783958B (zh) * | 2016-08-31 | 2021-07-02 | 科大讯飞股份有限公司 | 一种目标语句识别方法及装置 |
CN107797981B (zh) * | 2016-08-31 | 2021-06-04 | 科大讯飞股份有限公司 | 一种目标文本识别方法及装置 |
CN107193959B (zh) * | 2017-05-24 | 2020-11-27 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN107808124B (zh) * | 2017-10-09 | 2019-03-26 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
US11100287B2 (en) * | 2018-10-30 | 2021-08-24 | International Business Machines Corporation | Classification engine for learning properties of words and multi-word expressions |
CN110209812B (zh) * | 2019-05-07 | 2022-04-22 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN113158073A (zh) * | 2021-03-25 | 2021-07-23 | 上海基绪康生物科技有限公司 | 一种从社交媒体中自动发掘不良药物反应的方法 |
CN114579740B (zh) * | 2022-01-20 | 2023-12-05 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099298B2 (en) * | 2007-02-14 | 2012-01-17 | Genelex, Inc | Genetic data analysis and database tools |
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
-
2016
- 2016-03-15 CN CN201610147449.XA patent/CN105787461B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
CN104933164A (zh) * | 2015-06-26 | 2015-09-23 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
Non-Patent Citations (1)
Title |
---|
基于评论挖掘的药物副作用发现;程亮喜;《大连理工大学 硕士学位论文》;20141028;正文第6页至第36页 |
Also Published As
Publication number | Publication date |
---|---|
CN105787461A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787461B (zh) | 基于文本分类和条件随机场的文献不良反应实体识别方法 | |
Hasan et al. | Stance classification of ideological debates: Data, models, features, and constraints | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
Oudah et al. | A pipeline Arabic named entity recognition using a hybrid approach | |
JP5599662B2 (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
CN104298665A (zh) | 一种中文文本中评价对象的识别方法及装置 | |
CN104063502B (zh) | 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法 | |
CN105701084A (zh) | 一种基于互信息的文本分类的特征提取方法 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
CN104199846A (zh) | 基于维基百科的评论主题词聚类方法 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
Tkaczyk et al. | A modular metadata extraction system for born-digital articles | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
Jianqiang et al. | Combining semantic and prior polarity for boosting twitter sentiment analysis | |
Massung et al. | Structural parse tree features for text representation | |
CN105335350A (zh) | 一种基于集成学习的语种识别方法 | |
KR101070371B1 (ko) | 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체 | |
Flisar et al. | Enhanced feature selection using word embeddings for self-admitted technical debt identification | |
Shah et al. | A deep learning approach for Hindi named entity recognition | |
CN111221976A (zh) | 基于bert算法模型的知识图谱构建方法 | |
Alotaibi et al. | Mapping Arabic Wikipedia into the named entities taxonomy | |
Kawahara et al. | Single Classifier Approach for Verb Sense Disambiguation based on Generalized Features. | |
Oo et al. | An analysis of ambiguity detection techniques for software requirements specification (SRS) | |
CN104750484B (zh) | 一种基于最大熵模型的代码摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |