CN106598950B

CN106598950B - 一种基于混合层叠模型的命名实体识别方法

Info

Publication number: CN106598950B
Application number: CN201611205879.9A
Authority: CN
Inventors: 贾大宇; 王国仁; 信俊昌; 聂铁铮
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2019-02-05
Anticipated expiration: 2036-12-23
Also published as: CN106598950A

Abstract

一种基于混合层叠模型的命名实体识别方法，包括：预处理；利用自适应的选择方式，在隐马尔科夫模型和条件随机场模型中，选择出F值较高的作为自适应的统计识别模型，对预处理后的已识别语料进行初步的命名实体识别，得到初步的命名实体识别结果；构建由知识库和识别规则库构成基础词典；利用基础词典，采用自适应的统计识别模型，对初步的命名实体识别结果进行二次识别，分析二次识别结果的F值，更新基础词典；构建混合层叠模型，对预处理后的待识别语料逐层进行识别，将当前层识别出的识别结果添加到基础词典中供下一层识别使用，最后得到待识别语料中的人名实体、地名实体和机构名实体。本发明的识别准确率和识别召回率有显著提高。

Description

一种基于混合层叠模型的命名实体识别方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于混合层叠模型的命名实体识别方法。

背景技术

伴随着互联网、云计算、移动媒体和物联网等新兴网络的应用，催生了大量用户创造内容的Web2.0技术，使Web应用进入大数据时代，搜索引擎、电子商务、社交网站等一系列互联网衍生业务迅速发展。现时代的大数据具有4个特点，分别为数据量大，数据结构多样性，数据产生的快，具有很高的商业价值。针对大量数据，并不是所有信息都是有用的数据。这就导致大量无效数据与有价值的数据并存的现象出现。因此，在大数据时代如何从庞大的数据集合中找寻出有价值的数据成为目前信息技术的主要挑战。信息抽取技术正是在这个背景下产生的。

信息抽取技术的起源可以追溯到上个世纪70年代，第一个商用信息抽取系统JASPER应用于路透社公司，可以为金融交易员提供实时财经新闻。20世纪80年代末开始，消息理解系列会议的召开使得信息抽取研究迅速发展，使得信息抽取技术从特定领域走向了开放领域，从特定格式的数据类型到无结构化的文本数据类型，从新闻、邮件、论文到所有普通的网页中信息，从手工建模到利用机器学习等统计方法建模。现在信息抽取已经融入到了我们的生活当中，而在信息抽取中，最重要的部分之一就是命名实体识别。

在实际的命名实体识别工作中，由于实体大部分都不在分词系统词典收录的词中，所以识别命名实体的困难主要在于：(1)命名实体数量巨大，同时在文字的创造中，新的名称不断出现，命名实体不可能全部都在收录的词典中；(2)在不同场景和领域下，命名实体的意义有所不同；(3)某些类型的实体名称不断变化，并且没有严格的规律可以遵循，其中以机构名最为复杂；(4)命名实体总有缩写形式出现；(5)实体类型存在歧义性；(6)命名实体表达形式多样；(7)实体名和普通名词之间存在歧义性等。对上述难点进行了优化、解决后，可将成熟的实体识别技术带到学术领域、商品搜索领域等。

对于很多命名实体来说，命名实体本身并不是孤立的，命名实体间存在着互相嵌套的特点。例如：地名中嵌套着一些名人的人名，人名中嵌套着地名，特别是在机构名中嵌套着大量的人名、地名和机构名等。这种命名实体中相互嵌套的现象极大的提升了识别复杂命名实体的难度。

发明内容

本发明提出的一种基于混合层叠模型的命名实体识别方法，在人名实体、地名实体和机构名实体识别准确率和识别召回率方面都有显著的提高。

本发明的技术方案如下：

一种基于混合层叠模型的命名实体识别方法，包括以下步骤：

步骤1：预处理：对已识别语料和待识别语料均进行分词和词性标注处理，并将已识别语料分为训练语料和不重叠测试语料；

步骤2：利用自适应的选择方式，在隐马尔科夫模型和条件随机场模型中，选择出F值较高的作为自适应的统计识别模型，对预处理后的已识别语料进行初步的命名实体识别，得到初步的命名实体识别结果；

步骤2-1：利用隐马尔科夫模型对训练语料进行训练，得到隐马尔科夫模型的参数库，即确定了隐马尔科夫模型；利用条件随机场模型对训练语料进行训练，得到条件随机场模型的参数库，即确定了条件随机场模型；

步骤2-2：采用数理统计中的系统抽样调查方法，对不重叠测试语料进行抽样；

步骤2-3：利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型，分别对步骤2-2中抽样得到的不重叠测试语料进行测试，得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果，针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值；

步骤2-4：根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值，自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型，对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别，得到基于自适应的统计识别模型的初步的命名实体识别结果。

步骤3：构建用于命名实体识别的知识库，在知识库的基础上制定识别规则，并构成识别规则库，由知识库和识别规则库构成基础词典；利用构建的基础词典，采用自适应的统计识别模型，对初步的命名实体识别结果进行二次识别，分析得到的二次识别结果的F值，并更新基础词典；

步骤3-1：构建用于命名实体识别的知识库，知识库包括人名知识库、地名知识库和机构名知识库，分别存储了常用的人名、地名和机构名；在知识库的基础上制定识别规则，识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系，由这些识别规则构成识别规则库，识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库，由知识库和识别规则库构成基础词典；

步骤3-2：利用构建的基础词典，采用自适应的统计识别模型，对初步的命名实体识别结果进行二次识别，得到二次识别结果；

步骤3-3：计算二次识别结果的F值，若二次识别结果的F值没有达到设定的要求，则提出新的识别规则或者修改原有的识别规则，添加到基础词典中，对基础词典进行更新，并返回步骤3-1进行再次识别；若二次识别结果的F值达到了设定的要求，则保存基础词典。

步骤4：构建混合层叠模型，包括三层采用自适应的统计识别模型的子模型，分别为人名实体识别模型、地名实体识别模型和机构名实体识别模型，利用基于混合层叠模型对预处理后的待识别语料逐层进行识别，混合层叠模型的每一层都利用基础词典，采用自适应的统计识别模型进行识别，并且将当前层识别出的识别结果添加到基础词典中，供下一层识别使用，最后得到待识别语料中的人名实体、地名实体和机构名实体。

步骤4-1：混合层叠模型第一层为人名实体识别模型，在人名实体识别模型中，利用基础词典，通过自适应的统计识别的模型，对预处理后的待识别语料进行识别，得到人名实体；将识别出来的人名实体补充到基础词典的人名知识库中，更新基础词典，作为第二层地名识别的基础词典；

步骤4-2：混合层叠模型第二层为地名实体识别模型，在地名实体识别模型中，利用步骤4-1中得到的基础词典，通过自适应的统计识别模型，对预处理后的待识别语料进行识别，得到地名实体；将识别出来的地名实体补充到基础词典的地名知识库中，更新基础词典，作为第三层机构名识别的基础词典；

步骤4-3：混合层叠模型第三层为机构名实体识别模型，在机构名实体识别模型中，利用步骤4-2中得到的基础词典，通过自适应的统计识别模型，对预处理后的待识别语料进行识别，得到机构名实体；将识别出来的机构名实体补充到基础词典的机构名知识库中，更新基础词典。

本发明的有益效果如下：

本发明是一种基于混合层叠模型的命名实体识别方法。在相同的训练集下，基于本发明方法的人名实体、地名实体和机构名实体识别结果与基于目前原有的识别方法的识别结果，即基于前人提出的规则与隐马尔科夫模型相结合的模型的识别结果、规则与条件随机场相结合的模型的识别结果、基于层叠的隐马尔科夫识别模型识别的识别结果等方面，在识别准确率和识别召回率方面都有显著的提高。

附图说明

图1为本发明具体实施方式中的基于混合层叠模型的命名实体识别方法的流程图；

图2为本发明具体实施方式中的预处理过程示意图，(a)为已识别语料预处理过程示意图，(b)为待识别语料预处理过程示意图；

图3为本发明具体实施方式中的初步的命名实体识别过程示意图；

图4为本发明具体实施方式中的基础词典的构建过程图；

图5为本发明具体实施方式中的混合层叠模型识别过程图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细说明。

识别准确率和识别召回率是用来评价命名实体识别结果的质量的，识别准确率是指检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率；识别召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率；F值是识别准确率和识别召回率的加权调和平均值，即

由此可知，F值是综合了识别准确率和识别召回率的结果，当F值较高时，则说明试验方法比较有效。

一种基于混合层叠模型的命名实体识别方法，混合层叠模型共有三层，第一层主要是通过人名实体识别模型，完成人名实体识别，第二层主要是通过地名实体识别模型，完成地名实体识别，第三层主要是通过机构名实体识别模型，完成机构名实体识别；混合层叠模型的每一层都采用了本发明提出的自适应的统计识别模型和基础词典。识别中每一层都将本层识别出的识别结果添加到基础词典中，供混合层叠模型下一层识别使用。该混合层叠模型不仅结合了不同统计模型的识别优点，还充分利用了实体间互相存在嵌套的特点，大大提升了人名实体、地名实体和机构名实体的识别准确率。

一种基于混合层叠模型的命名实体识别方法，如图1所示，包括以下步骤：

步骤1：预处理：对已识别语料和待识别语料均进行分词和词性标注处理，并将已识别语料分为训练语料和不重叠测试语料；如图2所示，其中图2(a)为已识别语料预处理过程示意图，图2(b)为待识别语料预处理过程示意图，在分词和词性标注过程中可以利用目前现有的自然语言处理工具，如：中科院ICTCLAS分词软件等。

步骤2：利用自适应的选择方式，在隐马尔科夫模型和条件随机场模型中，选择出F值较高的作为自适应的统计识别模型，对预处理后的已识别语料进行初步的命名实体识别，得到初步的命名实体识别结果；如图3所示，步骤2具体包括如下步骤：

步骤3：构建用于命名实体识别的知识库，在知识库的基础上制定识别规则，并构成识别规则库，由知识库和识别规则库构成基础词典；利用构建的基础词典，采用自适应的统计识别模型，对初步的命名实体识别结果进行二次识别，分析得到的二次识别结果的F值，并更新基础词典；如图4所示，步骤3具体包括以下步骤：

步骤4：构建混合层叠模型，包括三层采用自适应的统计识别模型的子模型，分别为人名实体识别模型、地名实体识别模型和机构名实体识别模型，利用基于混合层叠模型对预处理后的待识别语料逐层进行识别，混合层叠模型的每一层都利用基础词典，采用自适应的统计识别模型进行识别，并且将当前层识别出的识别结果添加到基础词典中，供下一层识别使用，最后得到待识别语料中的人名实体、地名实体和机构名实体；如图5所示，步骤4具体包括如下步骤：

虽然以上描述了本发明的具体实施方式，但是本领域内的熟练的技术人员应当理解，这些仅是举例说明，本发明是一种基于混合层叠模型的命名实体识别方法，因此举例说明仅仅是为了说明识别机制的核心思想。在之后的研究中可以对这些实施方式做出多种变更或者修改，而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于混合层叠模型的命名实体识别方法，其特征在于，包括以下步骤：

步骤2：利用自适应的选择方式，在隐马尔科夫模型和条件随机场模型中，选择出F值较高的作为自适应的统计识别模型，对预处理后的已识别语料进行初步的命名实体识别，得到初步的命名实体识别结果；F值是识别准确率和识别召回率的加权调和平均值；

步骤4：构建混合层叠模型，包括三层采用自适应的统计识别模型的子模型，分别为人名实体识别模型、地名实体识别模型和机构名实体识别模型，利用混合层叠模型对预处理后的待识别语料逐层进行识别，混合层叠模型的每一层都利用基础词典，采用自适应的统计识别模型进行识别，并且将当前层识别出的识别结果添加到基础词典中，供下一层识别使用，最后得到待识别语料中的人名实体、地名实体和机构名实体。

2.根据权利要求1所述的一种基于混合层叠模型的命名实体识别方法，其特征在于，所述的步骤2包括以下步骤：

3.根据权利要求1所述的一种基于混合层叠模型的命名实体识别方法，其特征在于，所述的步骤3包括以下步骤：

4.根据权利要求1所述的一种基于混合层叠模型的命名实体识别方法，其特征在于，所述的步骤4包括以下步骤：