CN114912455B

CN114912455B - 命名实体识别的方法和装置

Info

Publication number: CN114912455B
Application number: CN202210816952.5A
Authority: CN
Inventors: 张超华; 魏海巍; 刘凯
Original assignee: Gongdao Network Technology Co ltd
Current assignee: Gongdao Network Technology Co ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-09-30
Anticipated expiration: 2042-07-12
Also published as: CN114912455A

Abstract

说明书披露一种命名实体识别的方法和装置。一种命名实体识别的方法，其中预先存储有命名实体识别模型、文本类型和实体标注模式三者之间的映射关系，该方法包括：获取待进行命名实体识别的目标文本，并确定该目标文本的文本类型；确定对目标文本进行命名实体识别的目标命名实体识别模型；在上述映射关系中查找与目标文本类型和目标命名实体识别模型对应的实体标注模式作为目标实体标注模式；采用目标实体标注模式对目标文本进行命名实体标注，得到目标标注结果；将目标标注结果输入目标命名实体识别模型，得到目标文本的命名实体识别结果。应用本申请提供的技术方案选择实体标注模式，能够获得更优的识别效果，使命名实识别的准确率得到保障。

Description

命名实体识别的方法和装置

技术领域

本说明书涉及自然语言处理领域，尤其涉及一种命名实体识别的方法和装置。

背景技术

命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，最常见的四个实体类型是：PER（人物），LOC（地点），ORG（组织），或 GPE（地缘政治实体（geo-political entity））。命名实体标注是命名实体识别的第一步，命名实体标注是通过不同的标签，将文本中的命名实体与非实体分别进行标注，而命名实体识别则是在标注好的文本中识别出命名实体及其实体类型。命名实体标注可以采用不同的实体标注模式，而针对采用不同实体标注模式标注后的文本，在进行命名实体识别时，识别的准确率不同。

发明内容

有鉴于此，本说明书提供一种命名实体识别的方法与装置。

具体地，本说明书是通过如下技术方案实现的：

根据本申请的第一方面，提供一种命名实体识别的方法，该方法中预先存储有命名实体识别模型、文本类型和实体标注模式三者之间的映射关系，该方法包括：

获取待进行命名实体识别的目标文本，并确定所述目标文本的文本类型；

确定对所述目标文本进行命名实体识别的目标命名实体识别模型；

在所述映射关系中查找与所述目标文本类型和所述目标命名实体识别模型对应的实体标注模式作为目标实体标注模式；

采用所述目标实体标注模式对所述目标文本进行命名实体标注，得到目标标注结果；

将所述目标标注结果输入所述目标命名实体识别模型，得到所述目标文本的命名实体识别结果。

可选的，所述映射关系的构建方法包括：

获取不同文本类型的样本文本在不同实体标注模式下的标注结果；

针对每种命名实体识别模型，基于已训练的该种命名实体识别模型和所述标注结果确定每种文本类型的样本文本在各不同实体标注模式下的命名实体识别效果；

针对每种文本类型，根据相同实体标注模式下属于该文本类型的样本文本的所述命名实体识别效果确定所述命名实体识别模型对采用所述实体标注模式标注的该类型文本进行命名实体识别的综合识别效果；

确定综合识别效果符合效果约束条件的实体标注模式，并保存该实体标注模式与所述文本类型和所述命名实体识别模型三者之间的映射关系。

可选的，所述基于已训练的该种命名实体识别模型和所述标注结果确定每种文本类型的样本文本在各不同实体标注模式下的命名实体识别效果，包括：

针对每种文本类型的样本文本，将所述样本文本的在不同实体标注模式下的标注结果分别输入已训练的对应所述文本类型和所述实体标注模式的该种命名实体识别模型，得到所述命名实体模型输出的对应所述实体标注模式的命名实体识别结果；

确定所述命名实体识别结果与所述样本文本的真实命名实体识别结果之间的差异作为所述样本文本在对应实体标注模式下的命名实体识别效果。

可选的，所述获取不同文本类型的样本文本在不同实体标注模式下的标注结果，包括：

针对每个样本文本，采用第一实体标注模式对所述样本文本进行命名实体标注，得到对应的第一标注结果；

获取第一实体标注模式与第二实体标注模式之间的标注结果转换规则；

采用所述标注结果转换规则对所述第一标注结果进行转换，得到所述样本文本在第二实体标注模式下的第二实体标注结果。

针对每个样本文本，分别采用不同的实体标注模式对所述样本文本进行命名实体标注，得到所述样本文本在对应实体标注模式下的标注结果。

可选的，所述效果约束条件包括：综合识别效果最优。

可选的，所述实体标注模式包括以下一种或多种：IO、IOB2、IOE2、IOBES、BI、IE、BIES。

根据本申请的第二方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现本申请第一方面提供的命名实体识别的方法。

根据本申请的第三方面，提供一种命名实体识别的装置，该装置中预先存储有命名实体识别模型、文本类型和实体标注模式三者之间的映射关系，该装置包括：

类型确定模块，用于获取待进行命名实体识别的目标文本，并确定所述目标文本的文本类型；

模型确定模块，用于确定对所述目标文本进行命名实体识别的目标命名实体识别模型；

模式查找模块，用于在所述映射关系中查找与所述目标文本类型和所述目标命名实体识别模型对应的实体标注模式作为目标实体标注模式；

文本标注模块，用于采用所述目标实体标注模式对所述目标文本进行命名实体标注，得到目标标注结果；

实体识别模块，用于将所述目标标注结果输入所述目标命名实体识别模型，得到所述目标文本的命名实体识别结果。

根据本申请的第四方面，提供一种根据本申请的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现以实现本申请第一方面提供的命名实体识别的方法。

本说明书一个实施例实现了，预先存储命名实体识别模型、文本类型和实体标注模式三者之间的映射关系，该映射关系以在文本类型与命名实体识别模型确定的情况下，采用对应的实体标注模式进行标注后的文本的命名实体识别准确率较高为目标构建，进而在对目标文本进行命名实体识别时，在所述映射关系中查找与目标文本类型和目标命名实体识别模型对应的实体标注模式对目标文本进行命名实体标注，从而确保采用所述目标实名实体识别模型对标注后的目标文本进行命名实体识别的准确率。

附图说明

图1是本说明书一示例性实施例示出的一种命名实体识别的方法的流程示意图。

图2是本说明书一示例性实施例示出的一种构建命名实体识别模型、文本类型和实体标注模式三者映射关系的流程示意图。

图3是本说明书一示例性实施例示出的一种计算机设备结构示意图。

图4是本说明书一示例性实施例示出的一种命名实体识别的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先对命名实体识别进行简单介绍，命名实体识别（Named Entity Recognition，简称NER），又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，具体可分为三大类（实体类、时间类和数字类）和七小类（人名、机构名、地名、时间、日期、货币和百分比），是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。

在进行命名实体识别时，第一步可以对所需进行识别的文本进行命名实体标注，命名实体标注即采用标签对文本中的字符进行标记，标签可以针对一个字符，也可以针对一个片段，本实施例中，以对单个字符进行标注为例进行说明。命名实体标注就是通过不同的标签来标记出文本中的各个字符，以标注出对应的字符是命名实体还是非命名实体，以及命名实体的类型等。

命名实体标注采用的标签通常包含前缀与后缀。对于属于命名实体的字符，标签的前缀用来表示该字符为命名实体及在一个命名实体中处于什么位置，而标签的后缀用来表示该命名实体的类别；对于属于非命名实体的字符，通常只有前缀，可用来表示该字符属于非命名实体，但也有标注方式为非命名实体标注增加后缀，此时非命名实体字符前缀表示该字符处于非命名实体的位置，而后缀表示该字符属于非命名实体。命名实体标注有多种常见的实体标注模式，本实施例中，应用的实体标注模式包括：IO、IOB2、IOE2、IOBES、BI、IE、BIES。

以本实施例中使用的七种实体标注模式为例，其各自标注规则为：

IO：在该实体标注模式下，命名实体的各字符的标签前缀为“I”，标签后缀为命名实体类型；非命名实体各字符的标签均为“O”。

IOB2：在该实体标注模式下，命名实体的第一个字符的标签前缀为“B”，后缀为命名实体类型；命名实体除首字符外的剩余字符的标签前缀为“I”，后缀为命名实体类型；而非命名实体的标签仍均为“O”。

IOE2：在该实体标注模式下，命名实体的第一个字符的标签前缀为“B”，后缀为命名实体类型；命名实体最后一个字符的标签前缀为“E”，后缀为命名实体类型；而除首字符及尾字符外，命名实体包括的剩余字符前缀为“I”，后缀为命名实体类型；非命名实体的标签仍均为“O”。

IOBES：在该实体标注模式下，当命名实体包括大于一个字符时，命名实体的首字符的标签前缀为“B”，后缀为命名实体类型；命名实体的最后一个字符的标签前缀为“E”，后缀为命名实体类型；而除首字符及尾字符外，命名实体剩余字符前缀为“I”，后缀为命名实体类型；当命名实体只包含一个字符时，则该命名实体的单个字符标签前缀为“S”，后缀仍为命名实体类型；非命名实体的标签仍均为“O”。

BI：该标注模式是基于 IOB2 的改进，在该实体标注模式下，命名实体的标注方式均与IOB2的标注方式相同，但为非实体部分也增加了后缀。对非命名实体，非命名实体首字符的标签前缀为“B”，标签后缀为“O”；而非命名实体除首字符外的其余字符标签前缀为“I”，标签后缀仍为“O”。

IE：该实体标注模式是基于 IOE2的改进，在该模式下，命名实体的标注方式均与IOE2的标注方式相同，但为非实体部分也增加了后缀。对于非命名实体，非命名实体最后一个字符的标签前缀为“E”，标签后缀为“O”；而非命名实体除最后一个字符外的其余字符标签前缀为“I”，标签后缀仍为“O”。BIES：该实体标注模式下，对命名实体的标注方式与IOBES 相同，而对非命名实体的标注方式与IOBES 实体标注模式下命名实体的标注方式相似。即对于非命名实体，当非命名实体大于一个字符时，非命名实体首字符的标签前缀为“B”，标签后缀为“O”；非命名实体最后一个字符的标签前缀为“E”，标签后缀为“O”；而非命名实体除首字符外的其余字符标签前缀为“I”，标签后缀仍为“O”；当非命名实体仅包括一个字符时，则该字符的标签前缀为“S”，标签后缀为“O”。

以语句“张三抵杭并去了人民法院”为例，当使用上述各实体标注模式进行标注时，其标注结果如表1所示。其中标签前缀上文中已经有所解释，各命名实体的标签后缀为该命名实体的类型，例如“PER”为人名，“LOC”表示地名，“ORG”则是机构名。

对于采用不同实体标注模式标注后的文本，即便采用相同的命名实体识别模型进行命名实体识别，由于不同标注模式的规则差异，在识别时可能出现部分前后缀识别不全面等问题，导致识别结果的准确率往往也不同。目前，在进行命名实体识别时，通常随机或者依据经验选择实体标注模式，往往无法选取到适当的实体标注模式，进而导致后续命名实体识别的准确率不佳。

针对上述问题，本申请提供一种命名实体识别的方法和装置，预先存储有命名实体识别模型、文本类型与实体标注模式三者之间的映射关系，该映射关系以在文本类型与命名实体识别模型确定的情况下，采用对应的实体标注模式进行标注后的文本的命名实体识别准确率较高为目标构建。使用该映射关系选择实体标注模式，就能够获得更优的识别效果，使命名实识别的准确率得到保障。

本申请中，文本分为多种类型，以法律文书为例，文本类型可包括侦查文书、检察文书、诉讼文书、公证文书、仲裁文书等。在其他应用场景中，可根据实际需要对文本类型进行划分。

而不同类型文本的数据结构往往不同，例如数据的分布、实体类型、所属领域、数据的均衡性、大小、每个文本句子序列的长度等。由于这些差异，不同类型的文本即便采用相同的实体标注模式进行标注后再采用相同的命名实体识别模型进行命名实体识别，识别准确率也会出现不同的表现。本申请对文本类型进行区分，针对每种文本类型分别确定不同命名实体识别模型下命名实体识别效果较优的实体标注模式，突破了命名实体识别领域中通过改进命名实体识别模型等模型层面优化来提高命名实体识别准确率的惯性思维，在数据层面上实现了对命名实体识别准确率的优化。

本申请中的命名实体识别模型也有多种，可以是任意能够对标注后的文本内容进行命名实体识别的命名实体识别模型，例如HMM（Hidden Markov Model，隐马尔可夫模型）、BERT（Bidirectional Encoder Representation from Transformer）、CRF（ConditionalRandom Field，条件随机场）及BiLSTM（Bi-directional Long Short-Term Memory，双向长短时记忆循环神经网络）+CRF模型等。对于模型限定的必要性在于，即便是同一个已完成命名实体标注的文本，采用不同的命名实体识别模型进行命名实体识别的准确率也不会不同。本申请在对文本类型进行区分的基础上，还会对命名实体识别模型进行区分，可有效确保命名实体识别的准确率。

以文本类型包括侦查文书、检察文书、诉讼文书、公证文书、仲裁文书为例，假设拟使用HMM与BERT两种命名实体识别模型对文本进行命名实体识别，预先存储的映射关系可如表2所示。请参考表2，当需要对侦查文书使用HMM模型进行命名实体识别时，其对应的实体标注模式为IOB2，当需要对侦查文书使用BERT模型进行命名实体识别时，其对应的实体标注模式为IOBES等。

图1为本申请提供的一种命名实体识别方法的流程图，该方法可以包括以下步骤：

S102，获取待进行命名实体识别的目标文本，并确定所述目标文本的文本类型。

在本步骤中，首先获取待进行命名实体识别的目标文本，并确定所述目标文本的文本类型。所述目标文本可以为司法领域的文本，例如法律文书；所述目标文本也可以为医疗领域的文本，例如医学文献等。本申请后续以法律文书为例进行说明。

在一个例子中，目标文本中可以带有表征文本类型的标签，在获取到所述目标文本后，可根据其类型标签确定所述目标文本的文本类型，例如所述目标文本的文本类型为侦查文书。

在另一个例子中，目标文本中也可能未携带表征文本类型的标签。这种情况可以在获取目标文本后，根据目标文本的内容识别出其文本类型。例如，可通过文本标题或文本内容关键词等识别出该文本的类型。

举例来说，某目标文本的标题为“张三劳务仲裁文书”，即可从其标题中识别出该文本类型为仲裁文书。

S104，确定对所述目标文本进行命名实体识别的目标命名实体识别模型。

在本实施例中，在对目标文本进行命名实体识别时，通常会预先指定有对所述目标文本进行命名实体识别的命名实体识别模型（后续称为目标命名实体识别模型），例如由用户预先指定要使用的目标命名实体识别模型。在本步骤中，可获取预先指定的需要使用的所述目标命名实体识别模型。所述目标命名实体识别模型可以采用上文提到的HMM模型、BERT模型或者CRF模型及BiLSTM+CRF模型等。

S106，在所述映射关系中查找与所述目标文本类型和所述目标命名实体识别模型对应的实体标注模式作为目标实体标注模式。

在本实施例中，可在预先存储的命名实体识别模型、文本类型和实体标注模式三者之间的映射关系中查找与所述目标文本类型、目标命名实体识别模型对应的实体标注模式作为目标实体标注模式。

仍以表2所示的映射关系为例，本步骤即通过目标文本类型与目标命名实体识别模型，在所述映射关系中查找出目标实体标注模式。例如，当目标文本类型为检察文书，且对该目标文本进行识别的目标命名实体模型为BERT模型时，查表可得此时的目标实体标注模式为IOE2；当目标文本类型为公证文书，且对该目标文本进行识别的目标命名实体模型为HMM模型时，查表可得此时的目标实体标注模式为IE。

S108，采用所述目标实体标注模式对所述目标文本进行命名实体标注，得到目标标注结果。

S110，将所述目标标注结果输入所述目标命名实体识别模型，得到所述目标文本的命名实体识别结果。

基于前述步骤106，在查找到所述目标实体标注模式后，可采用所述目标实体标注模式对所述目标文本进行命名实体标注，然后将得到的目标标注结果输入已训练的目标实体识别模型，得到所述已训练的目标实体识别模型输出的命名实体识别结果。

由以上描述可以看出，本申请可预先存储命名实体识别模型、文本类型和实体标注模式三者之间的映射关系，该映射关系以在文本类型与命名实体识别模型确定的情况下，采用对应的实体标注模式进行标注后的文本的命名实体识别准确率较高为目标构建，进而在对目标文本进行命名实体识别时，在所述映射关系中查找与目标文本类型和目标命名实体识别模型对应的实体标注模式对目标文本进行命名实体标注，从而确保采用所述目标实名实体识别模型对标注后的目标文本进行命名实体识别的准确率。

下面分别通过样本文本的命名实体标注、命名实体识别模型的训练以及映射关系的构建三个方面对本申请的实现过程进行详细描述。

一、样本文本的命名实体标注

在本申请中，可先获取用于对命名实体识别模型进行训练的多种文本类型的样本文本。仍以前述法律文书为例，所述样本文本的文本类型可包括侦查文书、检察文书、诉讼文书、公证文书、及仲裁文书等。

在本申请中，在对命名实体识别模型进行训练前，可先对各样本文本进行命名实体标注，针对每个样本文本，可采用不同的实体标注模式对其进行命名实体标注，得到各种实体标注模式下的标注结果。

在一个例子中，针对每一样本文本，可先采用一种实体标注模式对其进行标注，该实体标注模式可称为第一实体标注模式，进而得到所述样本文本在该第一实体标注模式下的第一标注结果。然后，可根据不同实体标注模式之间的标注结果转换规则对所述第一标注结果进行转换，得到所述样本文本在其他实体标注模式下的标注结果。例如，可采用第一实体标注模式和第二实体标注模式之间的标注结果转换规则对所述第一标注结果进行转换，得到所述样本文本在第二实体标注模式下的第二实体标注结果。

在本实施例中，第一实体标注模式可以采用除IO模式外的其他任意实体标注模式，因IO模式仅能标注出命名实体与非实体，对于相邻的命名实体无法进行区分，因此无法与其他的实体标注模式进行转换，故不能作为第一实体标注模式。

在本实施例中，所述标注结果转换规则可通过分析不同实体标注模式之间的标注规则来确定。举例来说，假设第一实体标注模式为IOB2模式，第二实体标注模式为IOE2模式，这两种实体标注模式下命名实体的第一个以及最后一个字符的标签前缀不同，IOB2模式下命名实体的第一个字符标签前缀为“B”，最后一个字符的标签前缀为“I”，IOE2模式下命名实体的第一个字符标签前缀为“I”，最后一个字符的标签前缀为“E”，则该第一实体标注模式与该第二实体标注模式之间的标注结果转换规则可包括：将第一实体标注结果中命名实体的第一个字符标签前缀由“B”转换为“I”，最后一个字符的标签前缀由“I”转换为“E”。其他不同实体标注模式之间的标注结果转换规则类似，本申请不再一一赘述。

在另一个例子中，针对每一样本文本，也可分别采用不同的实体标注模式对该样本文本进行命名实体标注，得到与所述实体标注模式对应的标注结果。

以采用前述7种实体标注模式对样本文本进行标注为例，针对每个样本文本，均可得到7种标注结果，每个标注结果对应一种实体标注模式。

二、命名实体识别模型的训练

在本申请中，可采用标注后的样本文本对各个命名实体识别模型进行训练，以便后续采用已训练的命名实体识别模型来构建命名实体识别模型、文本类型和实体标注模式三者之间的映射关系。

在本申请中，针对每种命名实体识别模型，可采用不同类型的样本文本在不同的实体标注模式下的标注结果分别对该命名实体识别模型进行训练，得到与文本类型和实体标注模式对应的已训练的命名实体识别模型。

以命名实体识别模型是HMM模型为例，仍假设文本类型为侦查文书、检察文书、诉讼文书、公证文书、仲裁文书这5类，实体标注模式为前述7种。在对HMM模型进行训练时，可先选取侦查文书样本，并获取采用IO模式对侦查文书样本进行标注后得到的标注结果对HMM模型进行训练，得到与文本类型侦查文书、IO模式对应的已训练的HMM模型。类似的，可训练得到与文本类型侦查文书和其他6种实体标注模式分别对应的HMM模型，即针对文本类型侦查文书，请参考表3，可训练得到7种分别对应不同实体标注模式的HMM模型。进一步的，可训练得到与各文本类型和实体标注模式对应的HMM模型，共计可训练得到35个HMM模型。

在本申请中，可从命名实体标注完成的样本文本中获取一定比例的样本文本来进行命名实体识别模型的训练，所述比例也预先设置，例如85%、90%等。

举例来说，仍以HMM模型、侦查文书类型、IO模式为例，可从采用IO模式标注之后的侦查文书样本中获取90%的侦查文书样本的标注结果，然后采用这些标注结果对HMM模型进行训练，得到与侦查文书和IO模型对应的已训练的HMM模型。

其中，HMM模型的具体训练过程可参考相关技术，例如将每个侦查文书样本的标注结果输入初始HMM模型，得到初始HMM模型预测出的命名实体识别结果，然后根据该命名实体识别结果和真实命名实体识别结果（样本标签）之间的差异更新初始HMM模型的参数，以完成一次迭代训练。迭代停止的条件可以为迭代次数到达预设迭代次数，或差异小于阈值等，本申请在此不再一一赘述。

三、映射关系的构建

图2为本申请提供的一种命名实体识别模型、文本类型和实体标注模式三者之间的映射关系构建方法的流程图，请参考图2，该方法可以包括以下步骤：

S202，获取不同文本类型的样本文本在不同实体标注模式下的标注结果。

在本申请中，所述标注结果可采用前述样本文本的命名实体标注方法标注得到。本步骤针对某一种文本类型以及某一种实体标注模式，也可选取一定比例的样本文本来进行映射关系的构建，所述比例也可预先设置，例如15%、10%等。可选的，可将采用同一实体标注模式标注的同一种文本类型的样本文本划分为两部分，其中一部分（例如90%）用于训练命名实体识别模型，另一部分（例如10%）用于构建映射关系。

仍以侦查文书类型、IO模式为例，可从采用IO模式标注之后的侦查文书样本中获取10%的侦查文书样本的标注结果来进行映射关系的构建。

S204，针对每种命名实体识别模型，基于已训练的该种命名实体识别模型和所述标注结果确定每种文本类型的样本文本在各不同实体标注模式下的命名实体识别效果。

在本申请中，可将前述步骤202中获取到的标注结果分别输入到文本类型与实体标注模式对应的已训练的命名实体识别模型中，得到该命名实体识别模型预测出的对应所述实体标注模式的命名实体识别结果，然后根据该命名实体识别结果和真实命名实体识别结果之间的差异确定对应的命名实体识别效果。

仍以HMM模型、侦查文书类型、IO模式为例，可将前述步骤202中获取到的采用IO模式标注之后的侦查文书样本的标注结果输入与侦查文书类型、IO模式对应的已训练的HMM模型（表3示出的HMM模型1）中，得到HMM模型1预测出的命名实体识别结果，然后可基于该命名实体识别结果和该样本文本的真实命名实体识别结果之间的差异确定该样本文本的命名实体识别效果。

在本实施例中，上述差异可以通过精确率、召回率、F1分数等体现。其中，精确率可以为预测结果中的真实命名实体结果占预测出的所有命名实体结果的比例。召回率可以为预测结果中的真实命名实体结果占所有真实命名实体结果的比例。而F1分数是中和了精确率和召回率的指标。

举例来说，假设某一条样本文本的真实命名实体识别结果（即样本标签）为50个命名实体，而已训练是命名实体识别模型对其进行预测，预测到的命名实体只有35个，并且错误地将5个非命名实体识别为命名实体。在这个例子中，命名实体识别的精确率为35/40，召回率为35/50。

在本实施例中，所述命名实体识别效果可以就是前述命名实体识别结果和真实命名实体识别结果之间的差异，例如精确率、召回率等；所述命名实体识别效果也可是对所述差异、模型训练耗时、命名实体识别耗时进行综合分析得到的结果，例如，可以采用精确率来表示前述命名实体识别结果和真实命名实体识别结果之间的差异，并将该差异结合命名实体识别的耗时综合得出命名实体识别效果。

举例来说，可将命名实体识别结果和真实命名实体识别结果之间的差异在分析命名实体识别效果时所占的权重设为70%，将采用目标命名实体识别模型进行命名实体识别时的耗时在分析命名实体识别效果时所占的权重设为30%，综合上述二者的权重确定对应的命名实体识别效果。

在本步骤中，可得到每个样本文本在不同实体标注模式和不同命名实体识别模型下的命名实体识别效果。

S206，针对每种文本类型，根据相同实体标注模式下属于该文本类型的样本文本的所述命名实体识别效果确定所述命名实体识别模型对采用所述实体标注模式标注的该类型文本进行命名实体识别的综合识别效果。

基于前述步骤204，在得到每个样本文本在不同实体标注模式和不同命名实体识别模型下的命名实体识别效果后，针对每种文本类型和每类命名实体识别模型，可统计不同实体标注模式的综合识别结果。

请参考表4的示例，仍以HMM模型、侦查文书类型为例，可综合侦查文书样本在IO模式下的命名实体识别效果，得到采用IO模式对侦查文书进行标注后采用HMM模型进行命名实体识别的综合识别效果1。类似的，还可分别得到采用IOB2等其他6种实体标注模式标注对侦查文书进行标注后采用HMM模型进行命名实体识别的综合识别效果2-7。

在本实施例中，所述综合识别效果可以为各样本文本识别效果的平均值、和值、中位数等，本申请对此不作特殊限制。

S208，确定综合识别效果符合效果约束条件的实体标注模式，并保存该实体标注模式与所述文本类型和所述命名实体识别模型三者之间的映射关系。

在本实施例中，针对同一种文本类型，可对比采用不同实体标注模式进行标注后再采用同类命名实体识别模型进行命名实体识别后的综合识别效果，然后选取综合识别效果符合效果约束条件的实体标注模式，例如综合识别效果最优的实体标注模式等，并保存该实体标注模式、该文本类型以及该命名实体识别模型三者之间的映射关系。

请继续参考表4的示例，假设综合识别效果1-7中综合识别效果5最优，例如综合识别效果5的效果分值最高，进而可构建HMM模型、侦查文书和BI实体标注模式三者之间的映射关系并存储。

基于本实施例，可确定出每种文本类型、每种命名实体识别模型对应的识别效果最优的实体标注模式，进而构建出文本类型、命名实体识别模型和实体标注模式三者之间的映射关系，后续在进行命名实体识别时，基于该映射关系查找到相应的实体标注模式对目标文本进行标注，可有效提高命名实体识别的准确性。

采用上述映射关系的构建方法，针对每类型文本样本文本在使用各种命名实体识别模型进行识别，并对其采用不同标注模式的识别效果差异进行分析与对比，得到其中识别效果最优的标注模式。使得在该映射关系中，与文本类型与命名实体识别模型对应的实体标注模式为在多种实体标注模式中，用来对目标文本类型进行标注并使用目标命名实体识别模型进行识别时，识别效果最好的实体标注模式。

图3是一示例性实施例提供的一种设备的示意结构图。请参考图3，在硬件层面，该设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

与前述命名实体识别方法的实施例相对应，本说明书还提供了命名实体识别的装置的实施例，参见图4所示，该装置可以应用于图3所示的设备中，该装置可以包括：

类型确定模块402，用于获取待进行命名实体识别的目标文本，并确定所述目标文本的文本类型；

模型确定模块404，用于确定对所述目标文本进行命名实体识别的目标命名实体识别模型；

模式查找模块406，用于在所述映射关系中查找与所述目标文本类型和所述目标命名实体识别模型对应的实体标注模式作为目标实体标注模式；

文本标注模块408，用于采用所述目标实体标注模式对所述目标文本进行命名实体标注，得到目标标注结果；

实体识别模块410，用于将所述目标标注结果输入所述目标命名实体识别模型，得到所述目标文本的命名实体识别结果。

可选的，所述映射关系的构建方法包括：

可选的，所述效果约束条件包括：综合识别效果最优。

与前述命名实体识别方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

可选的，所述映射关系的构建方法包括：

可选的，所述效果约束条件包括：综合识别效果最优。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种命名实体识别的方法，其特征在于，预先存储有命名实体识别模型、文本类型和实体标注模式三者之间的映射关系，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述映射关系的构建方法包括：

3.根据权利要求2所述的方法，其特征在于，所述基于已训练的该种命名实体识别模型和所述标注结果确定每种文本类型的样本文本在各不同实体标注模式下的命名实体识别效果，包括：

针对每种文本类型的样本文本，将所述样本文本的在不同实体标注模式下的标注结果分别输入已训练的对应所述文本类型和所述实体标注模式的该种命名实体识别模型，得到该种命名实体识别模型输出的对应所述实体标注模式的命名实体识别结果；

4.根据权利要求2所述的方法，其特征在于，所述获取不同文本类型的样本文本在不同实体标注模式下的标注结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述获取不同文本类型的样本文本在不同实体标注模式下的标注结果，包括：

6.根据权利要求2所述的方法，其特征在于，所述效果约束条件包括：综合识别效果最优。

7.根据权利要求1所述的方法，其特征在于，所述实体标注模式包括以下一种或多种：

IO、IOB2、IOE2、IOBES、BI、IE、BIES。

8.一种命名实体识别的装置，其特征在于，预先存储有命名实体识别模型、文本类型和实体标注模式三者之间的映射关系，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。