CN107818083A - 基于三层条件随机场的疾病数据命名实体识别方法及系统 - Google Patents
基于三层条件随机场的疾病数据命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN107818083A CN107818083A CN201710906128.8A CN201710906128A CN107818083A CN 107818083 A CN107818083 A CN 107818083A CN 201710906128 A CN201710906128 A CN 201710906128A CN 107818083 A CN107818083 A CN 107818083A
- Authority
- CN
- China
- Prior art keywords
- random field
- layer
- layers
- text data
- disease
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了基于三层条件随机场的疾病数据命名实体识别方法及系统,该方法包括步骤:获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行属性信息识别,输出第一层识别文本数据;将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果。本发明通过三层条件随机场模型来对儿童疾病数据进行命名实体识别,将复杂的任务转换成三个任务分别分配给三个条件随机场模型来处理,从而提高了识别的效率和准确率。本发明可广泛应用于命名实体识别领域。
Description
技术领域
本发明涉及命名实体识别领域,尤其涉及基于三层条件随机场的疾病数据命名实体识别方法及系统。
背景技术
条件随机场模型是自然语言处理领域常用的模型之一,广泛应用于句法分析、词性标注、命名实体识别等。条件随机场是一个无向图模型,最常用的结构为线性链结构,该模型有效的克服了隐马尔可夫模型条件独立性假设及最大熵模型标注偏置的问题,可以使用字、词、词性等上下文特征,也可以引用字典和规则等外部特征。在命名实体识别的研究中,条件随机场在英文实体识别的应用已经非常成熟,在国内,在中文命名实体的识别应用中的研究相对较少,特别是对医学领域的实体识别,利用条件随机场对疾病数据进行命名实体的识别,是一个非常有研究价值的方向。
目前命名实体识别工作大都使用单层模型和一些规则策略相结合的方式,而在单层模型方面,条件随机场的效果比其他模型效果更好。但在复杂的实体识别中,单层条件随机场模型需要考虑数据在全局的分布,还因为特征选取多、训练参数多、训练代价大、复杂度高,所以导致单层条件随机场模型在复杂的实体识别方面效果不理想。在儿童疾病数据方面,儿童疾病中复杂的命名实体结构复杂,长度不一,用传统的单层模型识别方法实体准确率较低,在特征选取方面不能发挥较好的优势,导致实体识别效果不佳。
发明内容
为了解决上述技术问题,本发明的目的是提供一种高效率和高准确度的儿童疾病数据命名实体识别方法。
本发明的另一目的是提供一种高效率和高准确度的儿童疾病数据命名实体识别系统。
本发明方法所采用的技术方案是:基于三层条件随机场的疾病数据命名实体识别方法,包括以下步骤:
获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据;
将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;
将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果。
进一步,所述记录信息为儿童疾病文本数据中记录有疾病数据命名实体的句子信息,所述三层条件随机场模型的第二层对简单部位名称和基本疾病名称进行实体识别,所述三层条件随机场模型的第三层对部位名称、疾病名称以及症状名称进行实体识别。
进一步,所述获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据这一步骤具体包括以下步骤:
获取儿童疾病文本数据,从儿童疾病文本数据中获取第一训练集和第一测试集;
对第一训练集和第一测试集进行句子标识;
获取第一训练特征并生成第一训练特征函数,获取第一测试特征并生成第一测试特征函数;
对第一训练集进行参数估计,结合第一训练特征和第一训练特征函数进行三层条件随机场模型的第一层条件随机场学习;
根据三层条件随机场模型的第一层条件随机场学习结果生成第一条件随机场训练模型;
用第一条件随机场训练模型对第一训练集进行记录信息识别,并输出记录信息识别文本数据,所述记录信息识别文本数据作为三层条件随机场模型的第二层训练集的输入;
结合第一测试特征和第一测试特征函数,利用第一条件随机场训练模型对第一测试集进行测试,输出记录信息测试文本数据,所述记录信息测试文本数据作为三层条件随机场模型的第二层测试集的输入。
进一步,所述第一训练特征或第一测试特征包括句子特征、句子边界特征以及第一上下文特征。
进一步,所述对第一训练集和第一测试集进行句子标识这一步骤包括对第一训练集进行句子语料标注的步骤,所述对第一训练集进行句子语料标注的步骤具体包括以下步骤:
获取8种标签:MB、ME、C、R、G、K、H和O;其中,MB、ME、C、R、G、K、H和O分别代表病历记录开头、病历记录结尾、诊断属性、入院情况属性、病程与诊疗结果属性、出院情况属性、出院医嘱属性和其他;
用所述8种标签对第一训练集进行标注。
进一步,所述将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据这一步骤具体包括以下步骤:
从记录信息识别文本数据中获取第二训练集,从记录信息测试文本数据中获取第二测试集;
对第二训练集和第二测试集进行简单命名实体标识;
获取第二训练特征并生成第二训练特征函数,获取第二测试特征并生成第二测试特征函数;
对第二训练集进行参数估计,结合第二训练特征和第二训练特征函数进行三层条件随机场模型第二层的条件随机场学习;
根据三层条件随机场模型第二层的条件随机场学习结果生成第二条件随机场训练模型;
用第二条件随机场训练模型对第二训练集进行简单命名实体识别,并输出简单识别文本数据,所述简单识别文本数据作为三层条件随机场模型的第三层训练集的输入;
结合第二测试特征和第二测试特征函数,利用第二条件随机场训练模型对第二测试集进行测试,输出简单测试文本数据,所述简单测试文本数据作为三层条件随机场模型的第三层测试集的输入。
进一步,所述将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果这一步骤具体包括以下步骤:
从简单识别文本数据中获取第三训练集,从简单测试文本数据中获取第三测试集;
对第三训练集和第三测试集进行复杂命名实体标识;
获取第三训练特征并生成第三训练特征函数,获取第三测试特征并生成第三测试特征函数;
对第三训练集进行参数估计,结合第三训练特征和第三训练特征函数进行三层条件随机场模型第三层的条件随机场学习;
根据三层条件随机场模型第三层的条件随机场学习结果生成第三条件随机场训练模型;
结合第三测试特征和第三测试特征函数,利用第三条件随机场训练模型对第三测试集进行测试,输出最终命名实体识别结果。
进一步,所述对第三训练集和第三测试集进行复杂命名实体标识这一步骤包括对第三训练集进行复杂语料标注的步骤,所述对第三训练集进行复杂语料标注这一步骤具体包括以下步骤:
将部位名称实体标记为P,症状名称实体标记为S,疾病名称实体标记为D;
结合P、S、D和BIEO编码,获得10种标签:PB、PI、PE、SB、SI、SE、DB,DI、DE和O;其中,PB、PI、PE、SB、SI、SE、DB、DI、DE和O分别代表部位首部、部位内部、部位尾部、症状首部、症状内部、症状尾部、疾病首部、疾病内部、疾病尾部和其他;
用所述10种标签对第三训练集进行标注。
进一步,所述第二训练特征或第二测试特征包括字符特征、第一词边界特征以及第二上下文特征,所述第三训练特征或第三测试特征包括组合特征、第二词边界特征以及第三上下文特征。
本发明系统所采用的技术方案是:基于三层条件随机场的疾病数据命名实体识别系统,该系统包括:
第一识别模块,用于获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据;
第二识别模块,用于将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;
第三识别模块,用于将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果。
本发明方法的有益效果是:本发明方法通过三层条件随机场模型来对儿童疾病数据进行命名实体识别,三层条件随机场模型的第一层先将记录信息识别出来,接着把第一层识别的数据文本作为三层条件随机场模型的第二层的输入文本,在第二层中识别出简单命名实体,最后把第二层识别出来的数据文本作为条件随机场模型的第三层的输入文本,在第三层中对复杂命名实体进行识别,将复杂的任务转换成三个相对简单的任务,减轻每一层的识别任务,从而提高了每一层的识别效率,进而提高了命名实体的识别效率。因为各层之间可以进行信息的转移,高层利用了低层的结果信息,因此增加高层的可利用特性,从而提高了命名实体的识别准确度。
本发明系统的有益效果是:本发明系统通过三层条件随机场模型来对儿童疾病数据进行命名实体识别,三层条件随机场模型的第一层先将记录信息识别出来,接着把第一层识别的数据文本作为三层条件随机场模型的第二层的输入文本,在第二层中识别出简单命名实体,最后把第二层识别出来的数据文本作为条件随机场模型的第三层的输入文本,在第三层中对复杂命名实体进行识别,将复杂的任务转换成三个相对简单的任务,减轻每一层的识别任务,从而提高了每一层的识别效率,进而提高了命名实体的识别效率。因为各层之间可以进行信息的转移,高层利用了低层的结果信息,因此增加了高层的可利用特性,从而提高了命名实体的识别准确度。
附图说明
图1是本发明基于三层条件随机场的疾病数据命名实体识别方法的流程图;
图2是本发明基于三层条件随机场的疾病数据命名实体识别方法的一具体实施例流程图;
图3是三层条件随机场模型第一层识别的一种具体实施流程图;
图4是三层条件随机场模型第二层识别的一种具体实施流程图;
图5是三层条件随机场模型第三层识别的一种具体实施流程图;
图6是本发明基于三层条件随机场的疾病数据命名实体识别系统的结构框图。
具体实施方式
如图1所示,基于三层条件随机场的疾病数据命名实体识别方法,该方法具体包括以下步骤:
获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据;
将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;
将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果。
进一步作为优选的实施方式,所述记录信息为儿童疾病文本数据中记录有疾病数据命名实体的句子信息,所述三层条件随机场模型的第二层对简单部位名称和基本疾病名称进行实体识别,所述三层条件随机场模型的第三层对部位名称、疾病名称以及症状名称进行实体识别。
进一步作为优选的实施方式,所述获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据这一步骤具体包括以下步骤:
获取儿童疾病文本数据,从儿童疾病文本数据中获取第一训练集和第一测试集;
对第一训练集和第一测试集进行句子标识;
获取第一训练特征并生成第一训练特征函数,获取第一测试特征并生成第一测试特征函数;
对第一训练集进行参数估计,结合第一训练特征和第一训练特征函数进行三层条件随机场模型的第一层条件随机场学习;
根据三层条件随机场模型的第一层条件随机场学习结果生成第一条件随机场训练模型;
用第一条件随机场训练模型对第一训练集进行记录信息识别,并输出记录信息识别文本数据,所述记录信息识别文本数据作为三层条件随机场模型的第二层训练集的输入;
结合第一测试特征和第一测试特征函数,利用第一条件随机场训练模型对第一测试集进行测试,输出记录信息测试文本数据,所述记录信息测试文本数据作为三层条件随机场模型的第二层测试集的输入。
进一步作为优选的实施方式,所述第一训练特征或第一测试特征包括句子特征、句子边界特征以及第一上下文特征。
进一步作为优选的实施方式,所述对第一训练集和第一测试集进行句子标识这一步骤包括对第一训练集进行句子语料标注的步骤,所述对第一训练集进行句子语料标注的步骤具体包括以下步骤:
获取8种标签:MB、ME、C、R、G、K、H和O;其中,MB、ME、C、R、G、K、H和O分别代表病历记录开头、病历记录结尾、诊断属性、入院情况属性、病程与诊疗结果属性、出院情况属性、出院医嘱属性和其他;
用所述8种标签对第一训练集进行标注。
进一步作为优选的实施方式,所述将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据这一步骤具体包括以下步骤:
从记录信息识别文本数据中获取第二训练集,从记录信息测试文本数据中获取第二测试集;
对第二训练集和第二测试集进行简单命名实体标识;
获取第二训练特征并生成第二训练特征函数,获取第二测试特征并生成第二测试特征函数;
对第二训练集进行参数估计,结合第二训练特征和第二训练特征函数进行三层条件随机场模型第二层的条件随机场学习;
根据三层条件随机场模型第二层的条件随机场学习结果生成第二条件随机场训练模型;
用第二条件随机场训练模型对第二训练集进行简单命名实体识别,并输出简单识别文本数据,所述简单识别文本数据作为三层条件随机场模型的第三层训练集的输入;
结合第二测试特征和第二测试特征函数,利用第二条件随机场训练模型对第二测试集进行测试,输出简单测试文本数据,所述简单测试文本数据作为三层条件随机场模型的第三层测试集的输入。
进一步作为优选的实施方式,所述将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果这一步骤具体包括以下步骤:
从简单识别文本数据中获取第三训练集,从简单测试文本数据中获取第三测试集;
对第三训练集和第三测试集进行复杂命名实体标识;
获取第三训练特征并生成第三训练特征函数,获取第三测试特征并生成第三测试特征函数;
对第三训练集进行参数估计,结合第三训练特征和第三训练特征函数进行三层条件随机场模型第三层的条件随机场学习;
根据三层条件随机场模型第三层的条件随机场学习结果生成第三条件随机场训练模型;
结合第三测试特征和第三测试特征函数,利用第三条件随机场训练模型对第三测试集进行测试,输出最终命名实体识别结果。
进一步作为优选的实施方式,所述对第三训练集和第三测试集进行复杂命名实体标识这一步骤包括对第三训练集进行复杂语料标注的步骤,所述对第三训练集进行复杂语料标注这一步骤具体包括以下步骤:
将部位名称实体标记为P,症状名称实体标记为S,疾病名称实体标记为D;
结合P、S、D和BIEO编码,获得10种标签:PB、PI、PE、SB、SI、SE、DB,DI、DE和O;其中,PB、PI、PE、SB、SI、SE、DB、DI、DE和O分别代表部位首部、部位内部、部位尾部、症状首部、症状内部、症状尾部、疾病首部、疾病内部、疾病尾部和其他;
用所述10种标签对第三训练集进行标注。
进一步作为优选的实施方式,所述第二训练特征或第二测试特征包括字符特征、第一词边界特征以及第二上下文特征,所述第三训练特征或第三测试特征包括组合特征、第二词边界特征以及第三上下文特征。
本发明方法一具体实施例
如图2所示,基于三层条件随机场的疾病数据命名实体识别方法,该方法具体包括以下步骤:
S1、根据儿童疾病数据及命名实体的特点,建立三层条件随机场模型。
S2、获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据;所述记录信息为儿童疾病文本数据中记录有疾病数据命名实体的句子信息。
S3、将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;所述三层条件随机场模型的第二层对简单部位名称和基本疾病名称进行实体识别。
S4、将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果;所述三层条件随机场模型的第三层对部位名称、疾病名称以及症状名称进行实体识别。
在儿童疾病文本数据中,通常将所有的非结构化病历记录放在一个文本中,一个文本中记录了若干份病人病历信息,每份病历信息之间没有明显的标签和间隔来区分,且每一份病历信息中包括记录时间、入院时间、出院时间、初步诊断、出院诊断、手术基本信息、入院情况、病程和诊疗结果、出院医嘱等属性信息,并且每条属性信息间也没有明显的结构化标签。因此,需要识别出不同的病历信息具有一定的难度,如果直接在非结构化病历记录中进行命名实体识别,将会降低识别的效率。所以本发明通过使用三层条件随机场模型的第一层(以下简称第一层)来识别出不同的病历信息,并在病历信息中识别出含有命名实体的属性信息,将这些属性信息组成记录信息;将第一层识别的记录信息输入到三层条件随机场模型的第二层(以下简称第二层)进行简单命名实体识别,再将第二层识别到文本数据输入到三层条件随机场模型的第三层(以下简称第三层)进行复杂命名实体识别,从而识别出儿童疾病数据中的命名实体。
所述第二层对简单部位名称和基本疾病名称进行实体识别,而在第三层对部位名称、疾病名称及症状名称进行实体识别,把第二层识别的输出文本当作第三层的输入文本,提高命名实体识别准确率。因为儿童疾病数据中,含有大量构词复杂的命名实体,我们称这些命名实体为复杂命名实体,复杂命名实体是由简单命名实体加上其他词语构成,比如:身体部位名称一般是由若干个简单的部位实体组成或者由简单的部位实体和形容词组成;症状名称一般由身体部位名称、形容词及动词等组成;疾病名称一般由形容词、部位名称和基本疾病名称组成。为了更好地识别这些命名实体,本发明首先利用第二层进行简单命名实体的识别,识别任务包括识别出简单部位名称及基本疾病名称,所述简单部位名称及基本疾病名称的简单命名实体示例如下表1所示。在第三层识别部位名称、疾病名称及症状名称,这三类命名实体中存在大量的复杂命名实体,这些复杂命名实体长度不一、构成复杂,而且复杂命名实体内部包含有简单命名实体,还包含形容词或动词等。部位名称、疾病名称及症状名称这三类命名实体示例如下表2所示。
表1
类别 | 样例 |
简单部位名称 | 手、足、胸、肺等。 |
基本疾病名称 | 炎、病、症等 |
表2
根据儿童疾病数据的特点,直接在儿童疾病文本数据进行部位名称、症状名称、疾病名称三类命名实体进行识别是个相对复杂的任务,利用三层条件随机场模型可以将这个复杂的任务转换成三个相对简单的任务,使得每一层都有较高的识别效率,并且层级之间可以进行信息的转移,高层可以利用低层的结果信息,这样增加了高层的可利用特性,从而提高了识别效率和准确率。
如图3所示,所述步骤S2具体包括以下步骤:
S21、获取儿童疾病文本数据,从儿童疾病文本数据中获取第一训练集和第一测试集。
S22、对第一训练集和第一测试集进行句子标识。
步骤S22中包括对第一训练集进行句子语料标注的步骤,该步骤具体包括以下步骤:
获取8种标签:MB、ME、C、R、G、K、H和O;其中,MB、ME、C、R、G、K、H和O分别代表病历记录开头、病历记录结尾、诊断属性、入院情况属性、病程与诊疗结果属性、出院情况属性、出院医嘱属性和其他;
用所述8种标签对第一训练集进行标注。
每一份病历信息包括记录时间、入院时间、出院时间、初步诊断、出院诊断、手术基本信息、入院情况、病程和诊疗结果、出院医嘱等属性信息,在记录信息标注的过程中,选出每份病历信息开头常用的句子或者有代表病历信息记录开始的句子,用标签MB来标注该句子;选出每份病历信息常用于结尾的句子或者有代表病历信息结束的句子,用标签ME来标注;根据各种属性信息特性,用标签C、R、G、K和H对属性信息进行标注,用标签O来标注其他没有包含命名实体的句子信息。对记录信息进行标注后,对标注后的记录信息文本进行语料分词和词性标注。这种句子标注方法,简单方便,容易实现。
S23、获取第一训练特征并生成第一训练特征函数,获取第一测试特征并生成第一测试特征函数。
在句子标识后的第一训练集和第一测试集中提取第一训练特征或第一测试特征,提取的第一训练特征或第一测试特征包括句子特征、句子边界特征及第一上下文特征,这三种特征描述如下:
(1)句子特征
以句子为单位,选取常用于病历记录的开头或者病历记录的结尾的句子,对每条病历记录的开头及结尾相应的句子进行标识,再根据属性信息的特征对每条病历记录中的属性信息中的相应句子进行标识,不同属性信息的句子分别用不同的符号来标识,同一属性下的句子用相同的符号标识。
(2)句子边界特征
句子边界特征包括对病历记录开头句子边界、结尾句子边界的词特征以及病历记录中相应的属性信息包含的句子边界特征,句子边界特征可以很好的反映句子边界位置信息。
(3)第一上下文特征
疾病文本上下文中会有相应的上下文窗口,这里的上下文窗口是指当前位置词与前后若干个词所组成的观察窗口,上下文特征是指在上下文窗口长度内观察值之间的相互依赖关系,同时也可以很好的反映句子内部词之间的关系以及句子与句子间的关系。由于第一层是基于句子的识别,所以在上下文窗口选择中选择的长度会较长。
S24、对第一训练集进行参数估计,结合第一训练特征和第一训练特征函数进行三层条件随机场模型的第一层条件随机场学习。
S25、根据三层条件随机场模型的第一层条件随机场学习结果生成第一条件随机场训练模型。
S26、用第一条件随机场训练模型对第一训练集进行属性信息识别,并输出记录信息识别文本数据,所述记录信息识别文本数据作为第二层训练集的输入。
S27、结合第一测试特征和第一测试特征函数,利用第一条件随机场训练模型对第一测试集进行测试,输出记录信息测试文本数据,所述记录信息测试文本数据作为第二层测试集的输入。
在疾病文本数据中,通常是将所有的非结构化病历记录信息放在一个疾病文本中,这个文本中包含了若干条病历记录信息,每条病历记录信息间没有明显的标签和间隔来区分,且每一条病历记录信息包括记录时间、入院时间、出院时间、初步诊断、出院诊断、手术基本信息、入院情况、病程和诊疗结果、出院医嘱等属性信息,且每条属性信息间也没有明显的结构化标签。通过第一层,从疾病文本数据中的病历记录信息中识别出含有命名实体的各类属性信息,将识别出来的各类属性信息组成记录信息,再将识别出来的记录信息文本数据输送给第二层进行命名实体识别。
如图4所示,所述步骤S3具体包括以下步骤:
S31、从记录信息识别文本数据中获取第二训练集,从记录信息测试文本数据中获取第二测试集。
S32、对第二训练集和第二测试集进行简单命名实体标识。
步骤S32中包括对第二训练集进行简单语料标注的步骤,该步骤具体包括以下步骤:
将简单部位名称实体标记为P,基本疾病名称实体标记为D;
结合P、D和BIEO编码,得到7种标签:PB、PI、PE、DB、DI、DE和O;其中,PB、PI、PE、DB、DI、DE和O分别代表部位首部、部位内部、部位尾部、疾病首部、疾病内部、疾病尾部和其他;
用所述7种标签对第二训练集进行标注。
下面结合具体例子说明简单语料标注过程,例如句子:“咽稍充血,扁桃体肿大,口腔陈旧性溃疡”。根据低层条件随机场语料标注的格式,我们可以将这个句子标注为如下序列:“咽/PB稍/O充/DB血/DE,/O扁/PB桃/PI体/PE肿/DB/大/O,/O口/PB腔/PB陈/O旧/O性/O溃/DB疡/DE”,此时的输入序列为X={咽稍充血,扁桃体肿大,口腔陈旧性溃疡},对应的输出序列为Y={PB,O,DB,DE,O,PB,PI,PE,DB,O,O,PB,PB,O,O,O,DB,DE}。这种语料标注方法简单方便,容易标注,通过这种语料标注文本训练出来的训练模型识别能力更强。
S33、获取第二训练特征并生成第二训练特征函数,获取第二测试特征并生成第二测试特征函数。
在简单命名实体标识后的第二训练集和第二测试集中提取第二训练特征或第二测试特征,提取的第二训练特征或第二测试特征包括字符特征、第一词边界特征及第二上下文特征,这三种特征描述如下:
(1)字符特征
字符是表达文本的最基本元素,文本的字符可以是标点符号、汉字、英文字母和数字等。
(2)第一词边界特征
第一词边界特征可以很好的反映词的边界位置信息,通过BIEO编码模式来表示输入的儿童疾病数据的词边界特征。其中B代表命名实体的开头,I代表命名实体的非边界部分,E代表命名实体的结尾部分,O代表非命名实体。
(3)第二上下文特征
在儿童疾病数据上下文中会有相应的上下文窗口,所述的上下文窗口是指某个词和该词前后若干个词所组成的观察窗口,第二上下文特征是指在上下文窗口长度内,窗口观察值之间的相互依赖关系。第二上下文特征可以很好的表达实体内部间的依赖关系,也可以表达实体内部与外部的关系。第二层识别简单的命名实体,实体长度相对于较短,所以第二上下文特征所选择的窗口长度也相应较小。
S34、对第二训练集进行参数估计,结合第二训练特征和第二训练特征函数进行三层条件随机场模型第二层的条件随机场学习。
S35、根据三层条件随机场模型第二层的条件随机场学习结果生成第二条件随机场训练模型。
S36、用第二条件随机场训练模型对第二训练集进行简单命名实体识别,并输出简单识别文本数据,所述简单识别文本数据作为三层条件随机场模型的第三层训练集的输入。
S37、结合第二测试特征和第二测试特征函数,利用第二条件随机场训练模型对第二测试集进行测试,输出简单测试文本数据,所述简单测试文本数据作为三层条件随机场模型的第三层测试集的输入。
步骤S3基于条件随机场进行简单命名实体识别,需要识别的简单命名实体有两类:简单部位名称和基本疾病名称,简单部位名称包括胆囊、脾、胰等,疾病名称包括病、症、炎等。
如图5所示,所述步骤S4具体包括以下步骤:
S41、从简单识别文本数据中获取第三训练集,从简单测试文本数据中获取第三测试集。
S42、对第三训练集和第三测试集进行复杂命名实体标识。
步骤S42中包括对第三训练集进行复杂语料标注的步骤,该步骤具体包括以下步骤:
将部位名称实体标记为P,症状名称实体标记为S,疾病名称实体标记为D;
结合P、S、D和BIEO编码,获得10种标签:PB、PI、PE、SB、SI、SE、DB,DI、DE和O;其中,PB、PI、PE、SB、SI、SE、DB、DI、DE和O分别代表部位首部、部位内部、部位尾部、症状首部、症状内部、症状尾部、疾病首部、疾病内部、疾病尾部和其他;
用所述10种标签对第三训练集进行标注。
下面结合以结合具体例子行说明复杂语料标注过程,例如有输入句子为:“咽稍充血,扁桃体肿大,口腔陈旧性溃疡”。根据第三层条件随机场模型的语料标注方法和第二层识别出来的两类命名实体,第二层识别出的简单部位名称用np来进行标识,识别出来的基本疾病名称用nd进行标识,可以对输入序列进行标注如下:“咽/nr/SB稍/d/SI充血/nd/SE,/x/O扁桃体/np/SB肿大/nd/SE,/x/O口腔/np/SB陈旧/nr/SI性/n/SI溃疡/nd/SE”。此时的输入序列为X={咽稍充血,扁桃体肿大,口腔陈旧性溃疡},对应的输出序列为Y={SB,SI,SE,O,SB,SE,SB,SI,SI,SE}。根据这种语料标注方法,处理第三训练集,再用第三训练集去训练第三条件随机场训练模型。这种语料标注方法简单方便,容易标注,通过这种标注文本训练出来的训练模型识别能力更强。
S43、获取第三训练特征并生成第三训练特征函数,获取第三测试特征并生成第三测试特征函数。
在复杂命名实体标识后的第三训练集和第三测试集中提取第三训练特征或第三测试特征,提取的第三训练特征或第二测试特征包括组合特征、第二词边界特征及第三上下文特征,这三种特征描述如下:
(1)组合特征
根据部位名称、疾病名称及症状名称这三类复杂命名实体的构词特点,结合实体特征和词性特征形成组合特征,所述实体特征为第二层识别的简单命名实体,包含有简单部位名称及基本疾病名称;所述词性特征则是描述不同词的信息,每个词的词性是通过结巴分词器来给出。
(2)第二词边界特征
第二词边界特征可以很好的反映词的边界位置信息,通过BIEO编码模式来表示输入的儿童疾病数据的词边界特征。其中B代表命名实体的开头,I代表命名实体的非边界部分,E代表命名实体的结尾部分,O代表非命名实体。
(3)第三上下文特征
在第二层输出的简单识别文本上下文中有相应的上下文窗口,所述的上下文窗口是指某个词和该词前后若干个词所组成的观察窗口,第三上下文特征是指在上下文窗口长度内,窗口观察值之间的相互依赖关系。第三上下文特征可以很好的表达实体内部间的依赖关系,也可以表达实体内部与外部的关系。第三层识别的三类实体比较复杂,长度不一,所以第二上下文特征所选择的窗口长度比简单命名实体识别窗口长度大。
S44、对第三训练集进行参数估计,结合第三训练特征和第三训练特征函数进行三层条件随机场模型第三层的条件随机场学习。
S45、根据三层条件随机场模型第三层的条件随机场学习结果生成第三条件随机场训练模型。
S46、结合第三测试特征和第三测试特征函数,利用第三条件随机场训练模型对第三测试集进行测试,输出最终命名实体识别结果。
在步骤S4中通过组合特征巧妙使得特征更加丰富及有针对性,能够增强模型对命名实体的识别能力。
通过本具体实施例中三层条件随机场模型实体识别方法和单层条件随机场实体识别方法分别对1150份儿童疾病数据进行命名实体识别,比对两者命名实体识别的结果如表3,通过表3可以明显的看出双层模型较单层模型的F值上,部位名称实体识别提高了3.12%,症状名称实体识别提高了3.21%,疾病名称实体识别提高了3.74%。从表3中可以轻易看出三层条件随机场模型实体识别方法的识别准确率更高。
表3
如图6所示,对于上述方法,其所对应的基于三层条件随机场的疾病数据命名实体识别系统,该系统包括:
第一识别模块,用于获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行属性信息识别,输出第一层识别文本数据;
第二识别模块,用于将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;
第三识别模块,用于将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,包括以下步骤:
获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据;
将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;
将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果。
2.根据权利要求1所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述记录信息为儿童疾病文本数据中记录有疾病数据命名实体的句子信息,所述三层条件随机场模型的第二层对简单部位名称和基本疾病名称进行实体识别,所述三层条件随机场模型的第三层对部位名称、疾病名称以及症状名称进行实体识别。
3.根据权利要求1所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据这一步骤具体包括以下步骤:
获取儿童疾病文本数据,从儿童疾病文本数据中获取第一训练集和第一测试集;
对第一训练集和第一测试集进行句子标识;
获取第一训练特征并生成第一训练特征函数,获取第一测试特征并生成第一测试特征函数;
对第一训练集进行参数估计,结合第一训练特征和第一训练特征函数进行三层条件随机场模型的第一层条件随机场学习;
根据三层条件随机场模型的第一层条件随机场学习结果生成第一条件随机场训练模型;
用第一条件随机场训练模型对第一训练集进行记录信息识别,并输出记录信息识别文本数据,所述记录信息识别文本数据作为三层条件随机场模型的第二层训练集的输入;
结合第一测试特征和第一测试特征函数,利用第一条件随机场训练模型对第一测试集进行测试,输出记录信息测试文本数据,所述记录信息测试文本数据作为三层条件随机场模型的第二层测试集的输入。
4.根据权利要求3所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述第一训练特征或第一测试特征包括句子特征、句子边界特征以及第一上下文特征。
5.根据权利要求3所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述对第一训练集和第一测试集进行句子标识这一步骤包括对第一训练集进行句子语料标注的步骤,所述对第一训练集进行句子语料标注的步骤具体包括以下步骤:
获取8种标签:MB、ME、C、R、G、K、H和O;其中,MB、ME、C、R、G、K、H和O分别代表病历记录开头、病历记录结尾、诊断属性、入院情况属性、病程与诊疗结果属性、出院情况属性、出院医嘱属性和其他;
用所述8种标签对第一训练集进行标注。
6.根据权利要求3所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据这一步骤具体包括以下步骤:
从记录信息识别文本数据中获取第二训练集,从记录信息测试文本数据中获取第二测试集;
对第二训练集和第二测试集进行简单命名实体标识;
获取第二训练特征并生成第二训练特征函数,获取第二测试特征并生成第二测试特征函数;
对第二训练集进行参数估计,结合第二训练特征和第二训练特征函数进行三层条件随机场模型第二层的条件随机场学习;
根据三层条件随机场模型第二层的条件随机场学习结果生成第二条件随机场训练模型;
用第二条件随机场训练模型对第二训练集进行简单命名实体识别,并输出简单识别文本数据,所述简单识别文本数据作为三层条件随机场模型的第三层训练集的输入;
结合第二测试特征和第二测试特征函数,利用第二条件随机场训练模型对第二测试集进行测试,输出简单测试文本数据,所述简单测试文本数据作为三层条件随机场模型的第三层测试集的输入。
7.根据权利要求6所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果这一步骤具体包括以下步骤:
从简单识别文本数据中获取第三训练集,从简单测试文本数据中获取第三测试集;
对第三训练集和第三测试集进行复杂命名实体标识;
获取第三训练特征并生成第三训练特征函数,获取第三测试特征并生成第三测试特征函数;
对第三训练集进行参数估计,结合第三训练特征和第三训练特征函数进行三层条件随机场模型第三层的条件随机场学习;
根据三层条件随机场模型第三层的条件随机场学习结果生成第三条件随机场训练模型;
结合第三测试特征和第三测试特征函数,利用第三条件随机场训练模型对第三测试集进行测试,输出最终命名实体识别结果。
8.根据权利要求7所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述对第三训练集和第三测试集进行复杂命名实体标识这一步骤包括对第三训练集进行复杂语料标注的步骤,所述对第三训练集进行复杂语料标注这一步骤具体包括以下步骤:
将部位名称实体标记为P,症状名称实体标记为S,疾病名称实体标记为D;
结合P、S、D和BIEO编码,获得10种标签:PB、PI、PE、SB、SI、SE、DB,DI、DE和O;其中,PB、PI、PE、SB、SI、SE、DB、DI、DE和O分别代表部位首部、部位内部、部位尾部、症状首部、症状内部、症状尾部、疾病首部、疾病内部、疾病尾部和其他;
用所述10种标签对第三训练集进行标注。
9.根据权利要求7所述的基于三层条件随机场的疾病数据命名实体识别方法,其特征在于,所述第二训练特征或第二测试特征包括字符特征、第一词边界特征以及第二上下文特征,所述第三训练特征或第三测试特征包括组合特征、第二词边界特征以及第三上下文特征。
10.基于三层条件随机场的疾病数据命名实体识别系统,其特征在于,该系统包括:
第一识别模块,用于获取儿童疾病文本数据,将儿童疾病文本数据输入三层条件随机场模型的第一层进行记录信息识别,输出第一层识别文本数据;
第二识别模块,用于将第一层识别文本数据输入三层条件随机场模型的第二层进行简单命名实体识别,输出第二层识别文本数据;
第三识别模块,用于将第二层识别文本数据输入三层条件随机场模型的第三层进行复杂命名实体识别,输出最终命名实体识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710906128.8A CN107818083A (zh) | 2017-09-29 | 2017-09-29 | 基于三层条件随机场的疾病数据命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710906128.8A CN107818083A (zh) | 2017-09-29 | 2017-09-29 | 基于三层条件随机场的疾病数据命名实体识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107818083A true CN107818083A (zh) | 2018-03-20 |
Family
ID=61607202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710906128.8A Pending CN107818083A (zh) | 2017-09-29 | 2017-09-29 | 基于三层条件随机场的疾病数据命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818083A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110069779A (zh) * | 2019-04-18 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 医疗文本的症状实体识别方法及相关装置 |
CN110414395A (zh) * | 2019-07-18 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN111429985A (zh) * | 2020-03-02 | 2020-07-17 | 北京嘉和海森健康科技有限公司 | 电子病历数据处理方法及系统 |
CN113435203A (zh) * | 2021-08-30 | 2021-09-24 | 华南师范大学 | 多模态命名实体识别方法、装置以及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
-
2017
- 2017-09-29 CN CN201710906128.8A patent/CN107818083A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110035210A1 (en) * | 2009-08-10 | 2011-02-10 | Benjamin Rosenfeld | Conditional random fields (crf)-based relation extraction system |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
彭新茗: "基于多层学习的病历实体识别算法设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王云吉: "基于层叠条件随机场的电子病历命名实体识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110032648B (zh) * | 2019-03-19 | 2021-05-07 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110069779A (zh) * | 2019-04-18 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 医疗文本的症状实体识别方法及相关装置 |
CN110069779B (zh) * | 2019-04-18 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 医疗文本的症状实体识别方法及相关装置 |
CN110414395A (zh) * | 2019-07-18 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN110414395B (zh) * | 2019-07-18 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 内容识别方法、装置、服务器及存储介质 |
CN111429985A (zh) * | 2020-03-02 | 2020-07-17 | 北京嘉和海森健康科技有限公司 | 电子病历数据处理方法及系统 |
CN111429985B (zh) * | 2020-03-02 | 2023-10-27 | 北京嘉和海森健康科技有限公司 | 电子病历数据处理方法及系统 |
CN113435203A (zh) * | 2021-08-30 | 2021-09-24 | 华南师范大学 | 多模态命名实体识别方法、装置以及电子设备 |
CN113435203B (zh) * | 2021-08-30 | 2021-11-30 | 华南师范大学 | 多模态命名实体识别方法、装置以及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818083A (zh) | 基于三层条件随机场的疾病数据命名实体识别方法及系统 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN107133224B (zh) | 一种基于主题词的语言生成方法 | |
Neuendorf | Content analysis and thematic analysis | |
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN109192300A (zh) | 智能问诊方法、系统、计算机设备和存储介质 | |
CN106776711A (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
Guest et al. | Applied thematic analysis | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN110032648A (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN107247881A (zh) | 一种多模态智能分析方法及系统 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN108829818A (zh) | 一种文本分类方法 | |
CN106919793A (zh) | 一种医疗大数据的数据标准化处理方法及装置 | |
CN110472229A (zh) | 序列标注模型训练方法、电子病历处理方法及相关装置 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
CN106599933A (zh) | 一种基于联合深度学习模型的文本情感分类方法 | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
CN107247702A (zh) | 一种文本情感分析处理方法和系统 | |
CN111737975A (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN105894088A (zh) | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180320 |