CN103164426B

CN103164426B - 一种命名实体识别的方法及装置

Info

Publication number: CN103164426B
Application number: CN201110414467.7A
Authority: CN
Inventors: 刘志超; 于晓明; 杨建武
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Beijing Founder Electronics Co Ltd
Priority date: 2011-12-13
Filing date: 2011-12-13
Publication date: 2015-10-28
Anticipated expiration: 2031-12-13
Also published as: US20140172774A1; CN103164426A; EP2752776A4; EP2752776A1; JP2014529787A; WO2013086998A1

Abstract

本申请公开了一种用于识别命名实体的识别模型生成方法及装置、以及一种命名实体识别的方法及装置，所述命名实体识别方法包括：获得待训练文本的第一特征信息集；基于第一识别模型对待训练文本的第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体，所述K为大于或等于零、但小于等于M的整数。

Description

一种命名实体识别的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种命名实体识别的方法及装置。

背景技术

随着计算机网络规模的日益扩大，大量的信息以电子文档的形式出现在人们面前，互联网已成为海量信息的载体。人们迫切希望计算机能够从海量信息中抽取出有用的信息，而信息抽取的主要任务之一就是命名实体识别(Named Entity Recognized，NER)。

命名实体是指被命名的唯一确定的具有特定意义的最小信息单位——专有名称和数量短语。主要包括有七种类型的命名实体：人名、地名、组织名、日期、时间、货币值和百分数。命名实体识别的主要是任务是识别出文本中的命名实体并加以归类。

在这七种命名实体中，由于人名、地名和组织名等命名实体具有开放性和发展性的特点，并且形成规律具有很大的随机性，所以对它们的识别会有较多的错选或漏选，现在大多数命名实体识别的研究都集中在这三种命名实体的识别技术上。

基于条件随机场(conditional random fields)的命名实体识别，是目前常用的一种命名实体识别方法。该方法将命名实体识别过程分为两层，底层的条件随机场模型仅以观察值为条件，用于简单命名实体的识别。然后，将识别的结果传递到高层识别模型，这样高层模型的输入变量不仅包含观察值，还包含底层模型的简单识别结果，从而为高层条件随机场模型识别复杂命名实体打下基础。

然而在实现本申请实施例中技术方案的过程中，本申请人发现现有技术至少存在如下缺点：

由于现有技术中，只是基于条件随机场的两层模型对命名实体进行识别，而没有考虑到识别出的命名实体的正确与否，所以存在着识别不够准确的技术问题。

发明内容

本发明提供一种命名实体识别的方法及装置，用以解决现有技术中，由于只是基于条件随机场的两层模型对命名实体进行识别，而没有考虑到识别出的命名实体的正确与否，所以存在着识别不够准确的技术问题。

本发明通过本申请中的实施例，提供如下技术方案：

一方面，本发明通过本申请中的一个实施例，提供如下技术方案：

一种用于识别命名实体的识别模型生成方法，包括：

获得待训练文本的第一特征信息集；

对待训练文本的第一特征信息集进行训练，获得第一识别模型；

基于所述第一识别模型对所述第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

对所述第二特征信息集中进行训练，获得错误驱动模型。

进一步的，所述获得第一特征信息集，具体为：

获得待训练文本的第三特征信息集；

对待训练文本的第三特征信息集进行训练，获得第三识别模型；

基于所述第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体，其中所述N为大于或等于零，但是小于等于M的整数。

进一步的，所述获得待训练文本的第三特征信息集，具体为：

获得所述待训练文本；

将所述待训练文本划分为至少一个待训练短句；

获得用于标记所述至少一个待训练短句的标记集合；

基于所述标记集合对所述至少一个待训练短句进行标记，获得第三特征信息集。

进一步的，所述第三特征信息集具体包括：

所述至少一个待训练短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。

另一方面，本发明通过本申请中的另一实施例提供如下技术方案：

一种命名实体识别的方法，包括如下步骤：

获得待训练文本的第一特征信息集；

基于第一识别模型对待训练文本的第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体，所述K为大于或等于零、但小于等于M的整数。

进一步的，所述获得待训练文本的第一特征信息集，具体为：

获得待识别文本的第三特征信息集；

基于第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体，所述N为大于或等于零，但小于或等于M的整数。

进一步的，所述基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体之后，还包括：

获取所述K个命名实体的种类信息、位置信息、词性信息。

进一步的，所述获得待识别文本的第三特征信息集，具体为：

获得所述待识别文本；

将所述待识别文本划分为至少一个待识别短句；

获得用于标记所述至少一个待识别短句的标记集合；

基于所述标记集合对所述至少一个待识别短句进行标记，获得第三特征信息集。

进一步的，所述第一特征信息集具体包括：

所述至少一个待识别短句中的词边界信息、上下文信息、词性信息、字信息以及标点符号信息。

一种用于识别命名实体的识别模型生成装置，包括：

第一特征信息集合获得模块：用户获得待训练文本的第一特征信息集；

第一训练模块获得模块：用于对待训练文本的第一特征信息集进行训练，获得第一识别模型；

第二特征信息集获得模块：基于所述第一识别模型对所述第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

错误驱动模型获得模块：用于对所述第二特征信息集中进行训练，获得错误驱动模型。

进一步的，所述第一特征信息集获得模块，具体包括：

第三特征信息集获得单元：用于获得待训练文本的第三特征信息集；

第三识别模型获得单元：用于对待训练文本的第三特征信息集进行训练，获得第三识别模型；

第一特征信息集获得单元：用于基于所述第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体，其中所述N为大于或等于零，但是小于等于M的整数。

进一步的，所述第三特征信息集获得单元，具体包括：

待训练文本获得单元：用于获得所述待训练文本；

划分单元：用于将所述待训练文本划分为至少一个待训练短句；

标记集合获得单元：用于获得用于标记所述至少一个待训练短句的标记集合；

标记单元：用于基于所述标记集合对所述至少一个待训练短句进行标记，获得第三特征信息集。

一种命名实体识别的装置，包括：

第一特征信息集获得模块：用于获得待训练文本的第一特征信息集；

第二特征信息集获得模块：用于基于第一识别模型对待训练文本的第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

错误纠正模块：用于基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体，所述K为大于或等于零、但小于等于M的整数。

进一步的，所述第一特征信息集获得模块，主要包括：

第三特征信息集获得单元：用于获得待识别文本的第三特征信息集；

第一特征信息集获得单元：用于基于第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体，所述N为大于或等于零，但小于或等于M的整数。

进一步的，还包括：

K个命名实体信息单元：用于基于所述错误驱动模型对所述第三特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体之后，获取所述K个命名实体的种类信息、位置信息、词性信息。

进一步的，所述第三特征信息集获得单元，具体包括：

待识别文本获得单元：用于获得所述待识别文本；

划分单元：用于将所述待识别文本划分为至少一个待识别短句；

标记集合获得单元：用于获得用于标记所述至少一个待识别短句的标记集合；

标记单元：用于基于所述标记集合对所述至少一个待识别短句进行标记，获得第三特征信息集。

上述技术方案中的一个或多个技术方案，具有如下技术效果或优点：

由于采用了在基于条件随机场模型识别命名实体的基础上采用了错误驱动模型对条件随机场模型识别出的命名实体进行错误纠正的技术方案，故而达到了提高命名实体识别准确性、其中简单命名实体的识别准确率达到97.35、复杂命名实体识别准确率达到87.6％的技术效果。

附图说明

图1为本申请实施例一中识别命名实体的识别模型生成方法的流程图；

图2为本申请实施例一中获得待训练文本的第一特征信息集的流程图；

图3为本申请实施例一中获得待训练文本的第三特征信息集的流程图；

图4为本申请实施例一、二中待训练文本和待识别文本的第一特征信息集的标准模式；

图5为本申请实施例二中命名实体识别的方法的流程图；

图6为本申请实施例二中获得待识别文本的第一特征信息集的流程图；

图7为本申请实施例二中获得待识别文本的第一特征信息集的流程图；

图8为本申请实施例三中识别命名实体的识别模型生成装置的方框图；

图9为本申请实施例四中命名实体识别的装置的方框图。

具体实施方式

为了使本申请所属技术领域中的技术人员更清楚地理解本申请，下面结合附图，通过具体实施例对本申请技术方案作详细描述。

请参考图1至图4，本申请实施例一提供一种用于识别命名实体的识别模型生成方法，包括如下步骤：

S101：获得待训练文本的第一特征信息集；

进一步的，所述获得第一特征信息集，如图2所示，具体为：

S201：获得待训练文本的第三特征信息集；

进一步的，所述获得待训练文本的第三特征信息集，如图3所示，具体为：

S301：获得所述待训练文本；

S302：将所述待训练文本划分为至少一个待训练短句；

S303：获得用于标记所述至少一个待训练短句的标记集合；

S304：基于所述标记集合对所述至少一个待训练短句进行标记，获得第三特征信息集。

进一步的，所述第三特征信息集具体包括：

在具体实施过程中，如图4所示，假设待训练文本为“张三主持会议通过九届全国人大一次会议有关议案本报北京”，那么先基于一定的规则，将这段待训练文本划分成待训练短句。

空行404：表示各个待训练短句之间的分割线。

然后可以获得用户标记所述至少一个待训练短句的标记集合，在本申请实施例一中，标记集合为：

C＝{BR，IR，BT，IT，BS，IS，BZ，IZ}

其中：BR标记人名的第一个字；

IR标记人名的其余字；

BT标记机构名的第一个字；

IT标记机构名的其余字；

BS标记地名的第一个字；

IS标记机构名的其余字；

BZ标记其他命名实体的第一个字；

IZ标记其他命名实体的其余字。

但是在具体实施过程中，标记集合不限于C＝{BR，IR，BT，IT，BS，IS，BZ，IZ}的形式，只要本申请所属领域的技术人员所设置的标记所达到的技术效果与本申请达到的技术效果相同，都属于本申请发明思想概念范围内。

然后经过标记，待训练文本就被处理成如图3所示的条件随机场训练所需的第三特征信息集的模式。其中：

401：指的是一个文字的特征信息；

402：是文字的标记集合；

403：指的是多个文字的特征信息。

在具体实施过程中，条件随进场训练所需的第三特征信息集，不限于如图4所示的模式，可能根据具体情况，增加一些参数或者减少一些参数，但是只要本申请所属领域的技术人员所选择的第一特征信息集和本申请所达到的技术效果相同，都属于本申请发明思想概念的范围内。

S202：对待训练文本的第三特征信息集进行训练，获得第三识别模型；

在具体实施过程中，对待训练文本的第三特征信息集进行训练时，是基于一第三特征模板进行训练的。

S203：基于所述第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，其中所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别获得的N个命名实体，其中所述N为大于或等于零，但是小于等于M的整数。

S102：对待训练文本的第一特征信息集进行训练，获得第一识别模型；

在具体实施过程中，对待训练文本的第一特征信息集进行训练，是基于一第一特征模板进行训练的。

S103：基于所述第一识别模型对所述第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

S104：对所述第二特征信息集进行训练，获得错误驱动模型。

在具体实施过程中，对第二特征信息集进行训练，是基于一第二特征模板进行训练的。

另外，获得的错误驱动模型，主要是用于识别第二特征信息集中获得的M个命名实体是否识别错误。

在具体实施过程中，第一特征模板、第二特征模板以及第三特征模板，可以在多个特征模板中经过多次优化，选择识别效果最好的特征模板。其具体优化方式可以是：在基于第一特征模板对第一特征信息集进行识别获得简单识别模型后，对其进行识别，然后调整第一特征模板，再对第一特征信息集进行识别，然后再识别，以此选择最优的第一特征模板，第二特征模板、第三特征模板的选择过程和第一特征模板的选择过程类似；也可以是：先选择第一特征模板、第二特征模板、第三特征模板，然后对第一特征信息集进行识别，获得简单识别模型、复杂识别模型和错误驱动模型，最后总体进行识别，以选择最优的特征模板。但是，在具体实施过程中，第一特征模板、第二特征模板、第三特征模板的选择方式不限于上述方式，只要本申请所属领域的技术人员所选择的第一特征模板、第二特征模板、第三特征模板所达到的技术效果与本申请所达到的技术效果等同，都属于本申请的发明思想概念范围以内。

请参考图5，本申请实施例二提供一种命名实体识别的方法，包括如下步骤：

S501：获得待识别文本的第一特征信息集；

进一步的，所述获得待识别文本的第一特征信息集，如图6所示，具体为：

S601：获得待识别文本的第三特征信息集；

进一步的，所述获得待识别文本的第三特征信息集，如图7所示，具体为：

S701：获得所述待识别文本；

S702：将所述待识别文本划分为至少一个待识别短句；

S703：获得用于标记所述至少一个待识别短句的标记集合；

S704：基于所述标记集合对所述至少一个待识别短句进行标记，获得第三特征信息集。

进一步的，所述第一特征信息集具体包括：

在具体实施过程中，获得待识别文本的第三特征信息集和获得待训练文本的第一特征信息集，其获得过程差不多，以待识别文本为“张三主持会议通过九届全国人大一次会议有关议案本报北京”为例，那么先将所述待识别文本处理成如图4所示的第三特征信息集的形式。当然，在具体实施过程中，生成待训练文本和待识别文本的第三特征信息集是两个完全不同的过程，所以基于不同的条件因素，即是是相同的文本，所生成的待训练文本的第三特征信息集和待识别文本的第三特征信息集也未必相同。

S602：基于第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体，所述N为大于或等于零，但小于或等于M的整数。

S502：基于第一识别模型对待训练文本的第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

在具体实施过程中，第二识别模型识别的命名实体中是所有命名实体中较为简单、容易识别的部分。假设基于第二识别模型对前面的待识别文本进行识别，获得的命名实体为“张三”“北京”。那么先将这两个命名实体于第二特征信息集中进行标记，其标记方式和第一特征信息集的标记方式相同，也是采用的标记集合C对其进行标记，当然也可以采用其他第一识别模型能够识别的标记方式。

S503：基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体，所述K为大于或等于零、但小于等于M的整数。

由于，基于第一识别模型和第二识别模型识别出的命名实体中可能存在错误的命名实体，所以要基于错误驱动模型对其进行修正。例如，前面识别出三个命名实体“张三”“北京”“全国人”，经过错误驱动模型判断“全国人”识别错误，应该是“全国人大”，所以对其进行修正。最后获得三个命名实体为“张三”“北京”“全国人大”。

获取所述K个命名实体的种类信息、位置信息、词性信息。

在具体实施过程中，由于识别出的命名实体未必能直接应用，所以还要提取出命名实体的各种属性信息，比如种类信息、位置信息和词性信息，以满足不同应用场合的需求。当然，在具体实施过程中，提取出的属性信息不限于命名实体的种类信息、位置信息和词性信息，只要本申请所属领域的技术人员所提取出的属性信息所达到的技术效果和本申请所达到的技术效果等同，都属于本申请的发明思想概念范围内。

请参考图8，本申请实施例三提供一种用于识别命名实体的识别模型生成装置，如图8所示，包括：

第一特征信息集合获得模块801：用户获得待训练文本的第一特征信息集；

进一步的，所述第一特征信息集获得模块，具体包括：

进一步的，所述第三特征信息集获得单元，具体包括：

待训练文本获得单元：用于获得所述待训练文本；

第一训练模块获得模块802：用于对待训练文本的第一特征信息集进行训练，获得第一识别模型；

第二特征信息集获得模块803：基于所述第一识别模型对所述第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

错误驱动模型获得模块804：用于对所述第二特征信息集中进行训练，获得错误驱动模型。

由于本申请实施三中的装置为与实施本申请实施例一中的方法所对应的装置，所以基于本申请实施例一中的方法，本领域所属技术人员能够了解本申请实施三中的装置的具体实施方法以及本申请实施三的装置的各种变化形式。所以在此对于该装置的运行不再详细介绍，只要本领域所属技术人员基于本申请实施例一中的方法所采用的装置，都属于本申请所欲保护的范围。

请参考图9，本申请实施例四提供一种命名实体识别的装置，包括如下结构：

第一特征信息集获得模块901：用于获得待训练文本的第一特征信息集；

进一步的所述第一特征信息集获得模块901，主要包括：

进一步的所述第三特征信息集获得单元，具体包括：

待识别文本获得单元：用于获得所述待识别文本；

第二特征信息集获得模块902：用于基于第一识别模型对待训练文本的第一特征信息集进行识别，获得第二特征信息集，所述第二特征信息集包含通过所述第一识别模型对所述第一特征信息集进行识别而获得的M个命名实体，所述M为大于或等于零的整数；

错误纠正模块903：用于基于错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体，所述K为大于或等于零、但小于等于M的整数。

进一步的，所述装置还包括：

由于本申请实施四中的装置为与实施本申请实施例二中的方法所对应的装置，所以基于本申请实施例二中的方法，本领域所属技术人员能够了解本申请实施四中的装置的具体实施方法以及本申请实施四的装置的各种变化形式。所以在此对于该装置的运行不再详细介绍，只要本领域所属技术人员基于本申请实施例二中的方法所采用的装置，都属于本申请所欲保护的范围。

由于采用了在基于条件随机场模型识别命名实体的基础上采用了错误驱动模型对条件随机场模型识别出的命名实体进行错误纠正的技术方案，故而达到了提高命名实体识别准确性的技术效果。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种用于识别命名实体的识别模型生成方法，其特征在于，包括：

获得待训练文本的第一特征信息集；

对所述第二特征信息集中进行训练，获得错误驱动模型。

2.如权利要求1所述的方法，其特征在于，所述获得第一特征信息集，具体为：

获得待训练文本的第三特征信息集；

3.如权利要求2所述的方法，其特征在于，所述获得待训练文本的第三特征信息集，具体为：

获得所述待训练文本；

将所述待训练文本划分为至少一个待训练短句；

获得用于标记所述至少一个待训练短句的标记集合；

4.如权利要求3所述的方法，其特征在于，所述第三特征信息集具体包括:

5.一种命名实体识别的方法，其特征在于，包括：

获得待训练文本的第一特征信息集，所述获得待训练文本的第一特征信息集，具体为：

获得待识别文本的第三特征信息集；

基于第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体，所述N为大于或等于零，但小于或等于M的整数；

6.如权利要求5所述的方法，其特征在于，所述基于所述错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体之后，还包括：

获取所述K个命名实体的种类信息、位置信息、词性信息。

7.如权利要求5所述的方法，其特征在于，所述获得待识别文本的第三特征信息集，具体为：

获得所述待识别文本；

将所述待识别文本划分为至少一个待识别短句；

获得用于标记所述至少一个待识别短句的标记集合；

8.如权利要求7所述的方法，其特征在于，所述第一特征信息集具体包括:

9.一种用于识别命名实体的识别模型生成装置，其特征在于，包括：

10.如权利要求9所述的装置，其特征在于，所述第一特征信息集获得模块，具体包括：

11.如权利要求10所述的装置，其特征在于，所述第三特征信息集获得单元，具体包括：

待训练文本获得单元：用于获得所述待训练文本；

12.一种命名实体识别的装置，其特征在于，包括：

第一特征信息集获得模块：用于获得待训练文本的第一特征信息集，所述第一特征信息集获得模块，主要包括：

第一特征信息集获得单元：用于基于第三识别模型对所述第三特征信息集进行识别，获得第一特征信息集，所述第一特征信息集包含通过所述第三识别模型对所述第三特征信息集进行识别而获得的N个命名实体，所述N为大于或等于零，但小于或等于M的整数；

13.如权利要求12所述的装置，其特征在于，还包括：

K个命名实体信息单元：用于基于所述错误驱动模型对所述第二特征信息集中的所述M个命名实体进行错误纠正，获得K个命名实体之后，获取所述K个命名实体的种类信息、位置信息、词性信息。

14.如权利要求12所述的装置，其特征在于，所述第三特征信息集获得单元，具体包括：

待识别文本获得单元：用于获得所述待识别文本；