CN110472062A

CN110472062A - 识别命名实体的方法及装置

Info

Publication number: CN110472062A
Application number: CN201910624534.4A
Authority: CN
Inventors: 王振杰
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-19
Anticipated expiration: 2039-07-11
Also published as: CN110472062B

Abstract

本申请提供了一种识别命名实体的方法及装置，能够提高在识别命名实体时的准确率；该方法包括：获取各个样本文本分别对应的特征向量序列和实体类型标注序列；将本轮未完成训练的特征向量序列中任一特征向量序列作为当前特征向量序列；基于特征提取网络和维度变换网络，获取与当前特征向量序列中每个词汇向量分别对应的维度变换向量；基于当前特征向量序列的维度变换向量和实体类型标注序列，调整特征提取网络、维度变换网络以及条件随机场模型的参数；重复上述过程直至所有特征向量序列均完成本轮训练；经过多轮训练，得到命名实体识别模型；基于命名实体识别模型，获取待识别文本的命名实体识别结果。

Description

识别命名实体的方法及装置

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种识别命名实体的方法及装置。

背景技术

在自然语言处理过程中，命名实体识别是最基本也是应用最广泛的一种，它是识别文本中具有特定意义的实体；命名实体主要包括人名、地名、机构名、专有名词等。同时，命名实体识别也是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。

当前的是识别命名实体的方法存在识别不准确的问题。

发明内容

有鉴于此，本申请实施例的目的在于提供一种识别命名实体的方法及装置，能够提高在识别命名实体时的准确率。

第一方面，本申请实施例提供了一种识别命名实体的方法，该方法包括：

获取多个样本文本中每个所述样本文本分别对应的特征向量序列和实体类型标注序列；其中，每个所述特征向量序列中包括与所述样本文本中各个词汇分别对应的词汇向量；所述实体类型标注序列中包括与所述样本文本中各个词汇分别对应的实体类型的标注标签；

将本轮未完成训练的特征向量序列中任一特征向量序列作为当前特征向量序列；

基于特征提取网络和维度变换网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的维度变换向量；其中，所述维度变换向量中的各个元素与不同实体类型一一对应；所述维度变换向量中的各个元素的值，表征与所述维度变换向量对应的词汇被预测为与该元素对应的实体类型的概率；

基于所述当前特征向量序列的维度变换向量和实体类型标注序列，调整所述特征提取网络、所述维度变换网络以及条件随机场模型的参数；所述条件随机场模型用于基于所述维度变换向量输出与所述特征向量序列对应的各个实体类型预测序列的得分；所述实体类型预测序列中包括与所述样本文本中各个词汇分别对应的实体类型的预测标签；

将所述当前特征向量序列作为本轮完成训练的特征向量序列，并返回将本轮未完成训练的特征向量序列中任一特征向量序列作为当前特征向量序列的步骤，直至所有特征向量序列均完成本轮训练，完成对所述特征提取网络、所述维度变换网络以及条件随机场模型的本轮训练；

经过对所述特征提取网络、所述维度变换网络以及条件随机场模型的多轮训练，得到命名实体识别模型；

基于所述命名实体识别模型，获取待识别文本的命名实体识别结果。

第二方面，本申请实施例还提供一种识别命名实体的装置，该装置包括：

获取模块，用于获取多个样本文本中每个所述样本文本分别对应的特征向量序列和实体类型标注序列；其中，每个所述特征向量序列中包括与所述样本文本中各个词汇分别对应的词汇向量；所述实体类型标注序列中包括与所述样本文本中各个词汇分别对应的实体类型的标注标签；

训练模块，用于采用下述方式训练得到实体识别模型：将本轮未完成训练的特征向量序列中任一特征向量序列作为当前特征向量序列；

识别模块，用于基于所述命名实体识别模型，获取待识别词汇串的命名实体识别结果。

第三方面，本申请实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面任一种可能的实施方式中的步骤。

本申请实施例通过样本文本训练特征提取网络、维度变换网络以及条件随机场模型，以得到命名实体识别模型，在原有神经网络的基础上，增加了条件随机场对实体识别结果的约束，使得命名实体识别模型能够学习到待识别文本中不同词汇的实体类型识别结果之间的依赖关系，进而采用本申请实施例中得到的命名实体识别模型对待识别文本进行命名实体识别时，具有更高的准确率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种识别命名实体的方法的流程图；

图2示出了本申请实施例所提供的识别命名实体的方法中，得到实体识别模型的具体方法的流程图；

图3示出了本申请实施例所提供的识别命名实体的方法中，获取与当前特征向量序列中的每个词汇向量对应的维度变换向量的具体方法的流程图；

图4示出了本申请实施例所提供的识别命名实体的方法中，基于命名实体识别模型，获取待识别文本的命名实体识别结果的具体方法的流程图；

图5示出了本申请实施例所提供的一种训练命名实体识别模型的方法的流程图；

图6示出了本申请实施例所提供的一种识别命名实体的装置的示意图；

图7示出了本申请实施例所提供的一种练命名实体识别模型的装置的示意图；

图8示出了本申请实施例所提供的一种计算机设备80的示意图；

图9示出了本申请实施例所提供的另一种计算机设备90的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

经研究发现，当前命名实体识别的主要技术方法分为：基于规则和词典的方法、基于统计的方法、基于神经网络的方法等。

基于规则的方法多采用语言学专家手工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法，以模式和词汇串相匹配为主要手段，这类系统大多依赖于知识库和词典的建立。规则往往依赖于具体语言、领域和文本风格，编制过程耗时且难以涵盖所有的语言现象，容易产生错误，系统可移植性不好，对于不同的系统需要语言学专家重新书写规则；基于规则的方法的另外一个缺点是代价太大，存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

基于统计机器学习的方法主要包括：隐马尔可夫模型、最大熵、支持向量机、条件随机场(Conditional Random Fields，CRF)等。其虽然解决了基于规则的方法所存在的各种问题，但基于统计的方法对特征选取的要求较高，需要从文本中选择对该项任务有影响的各种特征，并将这些特征加入到特征向量中。基于统计的方法对语料库的依赖也比较大，而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少。

基于神经网络的方法主要包括：卷积神经网络和循环神经网络。这种方法虽然不依赖特征选取和语料库，但存在输出之间相互独立，如果输出的文本中不同词汇的实体类型识别结果之间具有较强的依赖关系，则基于神经网络的方法就无法对这些依赖关系进行建模，造成识别的准确率较低的问题。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种识别命名实体的方法进行详细介绍，本申请实施例所提供的识别命名实体的方法的执行主体可以是具有一定计算能力的计算机设备。该方法在执行时所使用的计算机设备可以是一台，也可以是多台。下面以执行主体为一台计算机设备对本申请实施例提供的别命名实体的方法加以说明。

实施例一

参见图1所示，为本申请实施例一提供的识别命名实体的方法的流程图，方法包括步骤S101～S109，其中：

S101：获取多个样本文本中每个所述样本文本分别对应的特征向量序列和实体类型标注序列；其中，每个所述特征向量序列中包括与所述样本文本中各个词汇分别对应的词汇向量；所述实体类型标注序列中包括与所述样本文本中各个词汇分别对应的实体类型的标注标签。

S102：将本轮未完成训练的特征向量序列中任一特征向量序列作为当前特征向量序列。

S103：基于特征提取网络和维度变换网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的维度变换向量。

S104：基于所述当前特征向量序列的维度变换向量和实体类型标注序列，调整所述特征提取网络、所述维度变换网络以及条件随机场模型的参数。

S105：将所述当前特征向量序列作为本轮完成训练的特征向量序列。

S106：检测是否所有特征向量序列均完成本轮训练；如果否，则跳转至S102；如果是，则跳转至S107；

S107：完成对特征提取网络、所述维度变换网络以及条件随机场模型的本轮训练；

S108：经过对所述特征提取网络、所述维度变换网络以及条件随机场模型的多轮训练，得到命名实体识别模型。

S109：基于所述命名实体识别模型，获取所述待识别文本的命名实体识别结果。

I：在上述S101中，样本文本可以是针对某个领域的专有文本，也可以是不限制领域的文本。样本文本可以是从预设的网络平台上爬取获得，也可以通过线下收集获得。

示例性的，在从预设的网络平台上通过爬取的方式获得样本文本时，首先要从该网络平台上爬取一定数量的语料，然后针对语料进行去除标点符号的处理，以获得样本文本；或者还可以针对爬取到的语料进行切分处理，例如将语料按照标点符号进行切分，获得切分语句，并基于各个切分语句获得样本文本。

示例性的，可以采用下述方式获得各个样本文本对应的特征向量序列：

针对每个样本文本，获取该样本文本中各个词汇分别对应的词汇向量；根据该样本文本中各个词汇的先后顺序，基于该样本文本中各个词汇分别对应的词汇向量构成特征向量序列。

此处，样本文本中可以仅包括由一个字符构成的词汇；此时，可以采用字嵌入的方式得到样本文本中各个词汇的词汇向量。

样本文本中可以仅包括由至少两个字符构成的词汇，此时，可以采用词嵌入的方式得到样本文本中各个词汇的词汇向量。

样本文本中的词汇还可以即包括由一个字符构成的词汇，又包括由至少两个字符构成的词汇，此时，可以采用字嵌入和词嵌入结合的方式得到样本文本中各个词汇的词汇向量。

以字嵌入的方式得到词汇的词汇向量为例，可以采用如下字嵌入的方式得到词汇的词汇向量：

(1)采用独热one-hot编码的方式，将样本文本中的各个词汇转化为独热向量表示；可以将该独热向量直接作为各个词汇的词汇向量；另外，由于词汇的种类过多，所通过独热编码的方式形成的各个词汇的独热向量为维度较大的稀疏矩阵，因此还可以将各个词汇的独热向量进行维度变换，并将各个词汇的独热向量在维度变换后形成的向量作为各个词汇的词汇向量。

(2)采用Word2Vec算法得到样本文本中的各个词汇的词汇向量。

实体类型标注序列是人工为样本文本中的各个词汇分别标注的该词汇所属的实体类型的标注标签构成的序列。

示例性的，在进行命名实体的识别时，如果命名实体包括：人名、地名、机构名、专有名，则对应的类别有5类，分别为：人名、地名、机构名、专有名以及非命名实体；若分别以A、B、C、D、E这5个标签分别表示这5个类别，若一个样本文本为：“今天我去M市吃了凉粉”，与该样本文本对应的词汇分别为：今天、我、去、M市、吃、了、凉粉，这些词汇对应的词汇向量分别为：x1、x2、x3、x4、x5、x6、x7，各个词汇的类别分别为：非命名实体、非命名实体、非命名实体、地名、非命名实体、非命名实体、专有名，则该样本文本对应的特征向量序列为：(x1，x2，x3，x4，x5，x6，x7)，对应的实体类型标注序列为：(E，E，E，B，E，E，D)。

Ⅱ：在上述S102中：

在对特征提取网络、维度变换网络以及条件随机场模型(下称目标模型)进行训练，得到命名实体识别模型的时候，会采用多个样本文本对目标模型进行多轮训练。

在每一轮训练时，要将所有样本文本的特征向量序列依次作为输入，输入至目标模型中，对目标模型进行训练。在不同轮训练时，相同样本文本的特征向量作为输入的次序，可以相同也可以不同。

且在每一轮训练时，已经输入至目标模型的特征向量序列，为在本轮完成训练的特征向量序列；还未输入到至目标模型的特征向量序列，为本轮未完成训练的特征向量序列。

Ⅲ：在上述S103中：

特征向量序列中的每个词汇向量分别对应一个维度变换向量；例如特征向量序列由10个词汇构成，则该特征向量序列在经过特征提取网络和维度变换网络后，能够得到10个维度变换向量。

维度变换向量中的各个元素与不同实体类型一一对应；维度变换向量中的各个元素的值，表征与维度变换向量对应的词汇被预测为与该元素对应的实体类型的概率。

例如，若模型能够识别的实体类型包括：非实体、地名、人名和机构名共四种，则维度变换向量中的元素有4个，4个元素与非实体、地名、人名和机构名一一对应。

在本申请实施例中，特征提取网络包括：第一特征提取网络以及第二特征提取网络。第一特征提取网络和第二特征提取网络分别用于采用不同的参数，对特征向量序列中的各个词汇向量进行特征提取，也即，第一特征提取网络和第二特征提取网络能够分别学习到特征向量序列的不同特征，并对词汇向量进行特征提取。维度变换网络则基于第一特征提取网络和第二特征提取网络所提取的特征，进行进一步的变换，以得到当前特征向量序列中各个词汇向量分别对应的维度变换向量。

示例性的，第一特征提取网络可以为简单循环单元(Simple Recurrent Unit，SRU)、循环神经网络(Recurrent Neural Networks，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)中任意一种。

具体地，参见图2所示，本申请实施例提供一种基于特征提取网络和维度变换网络，获取与当前特征向量序列中的每个词汇向量分别对应的维度变换向量的具体方法，包括：

S201：将当前特征向量序列输入至第一特征提取网络，获取与当前特征向量序列中的每个词汇向量分别对应的第一中间特征向量。

此处，可以采用下述方式获取第一中间特征向量：

将当前特征向量序列中的各个词汇向量依次正序输入至第一特征提取网络中，并在将任一词汇向量作为当前词汇向量输入至第一特征提取网络中时，还将与当前词汇向量最近的前一词汇向量对应的第一中间状态向量输入至第一特征提取网络中，获取与当前词汇向量对应的第一中间特征向量，以及从第一特征提取网络中的第一目标网络层获取与当前词汇向量对应的第一中间状态向量。

具体地，在依次将每个特征向量序列作为当前特征向量序列输入至第一特征提取网络之前，要先将第一特征提取网络进行初始化，初始化时，除了要初始化第一特征提取网络中各层神经网络的相关参数，还要将第一中间状态向量进行初始化。

在输入至第一特征提取网络中的当前词汇向量为所有特征向量序列中的第一个词汇向量时，第一特征提取网络能够基于该初始化得到的第一中间状态向量，以及该当前词汇向量，得到与该当前词汇向量对应的第一中间特征向量，以及从第一特征提取网络中的第一目标网络层获取与该当前词汇向量对应的第一中间状态向量。

在输入至第一特征提取网络中的当前词汇向量并非所有特征向量序列中的第一个词汇向量时，但为当前特征向量序列中的第一个词汇向量时，此时，第一特征提取网络基于距离当前特征向量序列最近的前一特征向量序列中最后一个词汇向量对应的第一中间状态向量，以及当前词汇向量，得到当前词汇向量对应的第一中间特征向量以及与该当前特征向量对应的第一中间状态向量。

在当前输入至第一特征提取网络中的当前词汇向量既非所有特征向量序列中的第一个词汇向量，又非当前特征向量序列中的第一个词汇向量时，第一特征提取网络基于当前特征向量序列中距离当前词汇向量最近的前一词汇向量对应的第一中间状态向量，以及当前词汇向量，得到当前词汇向量对应的第一中间特征向量以及与当前特征向量对应的第一中间状态向量。

例如，特征向量序列包括：

X1：(x₁₁、x₁₂、x₁₃、……、x_1n)；

X2：(x₂₁、x₂₂、x₂₃、……、x_2n)；

……

Xi：(x_i1、x_i2、x_i3、……、x_in)。

在训练时，首先将第一特征提取网络的参数以及第一中间状态向量进行初始化，得到F0。然后依次将X1～Xi输入至第一特征提取网络中。

在输入X1时，是按照x₁₁至x_1n的顺序输入。

若输入至第一特征提取网络中的词汇向量为x₁₁，则第一特征提取网络根据初始化形成的第一中间状态向量F₀以及x₁₁得到词汇向量x₁₁对应的第一中间特征向量，以及与x₁₁对应的第一中间状态向量F₁₁。

若输入至第一特征提取网络中的词汇向量为x₂₁，则第一特征提取网络根据与x_1n对应的第一中间状态向量F1n以及x₂₁，得到x₂₁对应的第一中间特征向量，以及与x₂₁对应的第一中间状态向量F₂₁。

若输入至第一特征提取网络中的词汇向量为x₂₂，则第一特征提取网络根据与x₂₁对应的第一中间状态向量F₂₁以及x₂₂，得到x₂₂对应的第一中间特征向量，以及与x₂₂对应的第一中间状态向量F₂₂。

其他情况类似，在此不再赘述。

示例性的，本申请实施以第一特征提取网络为SRU为例，对特征向量序列的处理过程加以说明：

若特征向量序列X为：x₁、x₂、x₃、……、x_t-1、x_t、x_t+1、……、x_n。

其中，x_t表示当前输入至第一特征提取网络的词汇向量。

则与该x_t对应的第一中间特征向量h_t满足：

f_t＝σ(W_fx_t+b_f)；

r_t＝σ(W_rx_t+b_r)；

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t。

其中，表示对x_t做线性变换；W、W_f、W_r分别为第一特征向量序列中的参数矩阵；b_f、b_r分别表示偏置单元向量；c_t-1表示前一词汇向量x_t-1对应的第一中间状态向量；c_t表示当前词汇向量x_t对应的第一中间状态向量。σ()和g()均为门函数。

S202：将当前特征向量序列输入至第二特征提取网络，获取与当前特征向量序列中的每个词汇向量分别对应的第二中间特征向量。

此处，S201和S202并无执行的先后顺序。

可以采用下述方式获取第二中间特征向量：

将当前特征向量序列中的各个词汇向量依次逆序输入至第二特征提取网络中，并在将任一词汇向量作为当前词汇向量输入至第二特征提取网络中时，还将与当前词汇向量最近的后一词汇向量对应的第二中间状态向量输入至第二特征提取网络中，获取与当前词汇向量对应的第二中间特征向量，以及从第二特征提取网络中的第二目标网络层获取与当前词汇向量对应的第二中间状态向量。

具体地，在依次将每个特征向量序列作为当前特征向量序列输入至第二特征提取网络之前，要先将第二特征提取网络进行初始化，初始化时，除了要初始化第二特征提取网络中各层神经网络的相关参数，还要将第二中间状态向量进行初始化。

例如，特征向量序列包括：

X1：(x₁₁、x₁₂、x₁₃、……、x_1n)；

X2：(x₂₁、x₂₂、x₂₃、……、x_2n)；

……

Xi：(x_i1、x_i2、x_i3、……、x_in)。

在训练时，首先将第一特征提取网络的参数以及第一中间状态向量进行初始化，得到G0。然后依次将X1～Xi输入至第一特征提取网络中。

在输入X1时，是按照x_1n至x₁₁的顺序输入。

若输入至第二特征提取网络中的词汇向量为x_1n，则第二特征提取网络根据初始化形成的第二中间状态向量G₀以及x_1n得到词汇向量x_1n对应的第二中间特征向量，以及与x_1n对应的第二中间状态向量G_1n。

若输入至第二特征提取网络中的词汇向量为x_2n，则第二特征提取网络根据与x_2n对应的第二中间状态向量G11以及m_2n，得到x_2n对应的第二中间特征向量，以及与x_2n对应的第二中间状态向量G_2n。

若输入至第二特征提取网络中的词汇向量为x₂₂，则第二特征提取网络根据与x₂₃对应的第二中间状态向量G₂₃以及x₂₂，得到x₂₂对应的第二中间特征向量，以及与x₂₂对应的第一中间状态向量G₂₂。

其他情况类似，在此不再赘述。

若特征向量序列X为：(x₁、x₂、x₃、……、x_t-1、x_t、x_t+1、……、xn,)。

其中，x_t表示当前输入至第一特征提取网络的词汇向量。

则与该x_t对应的第一中间特征向量h_t满足：

f_t＝σ(W_fx_t+b_f)；

r_t＝σ(W_rx_t+b_r)；

h_t＝r_t⊙g(c_t)+(1-r_t)⊙x_t。

其中，表示对x_t做线性变换；W、W_f、W_r分别为第一特征向量序列中的参数矩阵；b_f、b_r分别表示偏置单元向量；c_t+1表示后一词汇向量x_t+1对应的第一中间状态向量；c_t表示当前词汇向量x_t对应的第一中间状态向量。σ()和g()均为门函数。

S203：将当前特征向量序列中每个词汇向量分别对应的第一中间特征向量和第二中间特征向量进行拼接，形成与每个词汇向量分别对应的拼接向量。

S204：将与每个词汇向量分别对应的拼接向量输入至维度变换网络，获取与每个词汇向量分别对应的维度变换向量。

此处，维度变换向量可以是一个神经网络中的全连接层，该全连接层能够实现对拼接向量的维度变换，且使得维度变换后所形成的维度变换向量中的每个元素都会受到拼接向量中所有元素的影响，从而学习并继承到拼接向量所具有的特征。

又由于拼接向量是采用第一中间特征向量和第二中间特征向量进行拼接而成，因此所形成的拼接向量实际上能够表征两个特征提取网络为词汇向量分别提取到的不同特征，进而维度变换向量也能继承到两个特征提取网络为词汇向量分别提取的不同特征。

Ⅳ：在上述S104中：

条件随机场模型用于基于维度变换向量输出与当前特征向量序列对应的各个实体类型预测序列的得分。

实体类型预测序列中包括与样本文本中各个词汇分别对应的实体类型的预测标签。

与当前特征向量序列对应的多个实体类型预测序列，是指当前特征向量序列对应的样本文本有可能取到的所有预测标签序列。例如，若分类有2种，分别为A和B，样本文本包括词汇：S1、S2和S3；则与该样本文本的特征向量序列对应的实体类型预测序列分别为：(A，A，A)、(A，A，B)、(A，B，A)、(A，B，B)、(B，A，A)、(B，A，B)、(B，B，A)、(B，B，B)共8种。类似的，若特征向量序列中包括10个词汇向量，命名实体的类别有5种，则可能的实体类型预测序列包括：10⁵种。

具体地，参见图3所示，本申请实施例体提供一种基于当前特征向量序列的维度变换向量和实体类型标注序列，调整特征提取网络、维度变换网络以及条件随机场模型的参数的具体方法，包括：

S301：将当前特征向量序列中每个词汇向量分别对应的维度变换向量输入至条件随机场模型，确定与当前特征向量序列对应的多个实体类型预测序列中各个实体类型预测序列分别对应的得分。

此处，与每个实体类型预测序列分别对应的得分，用于表征当前特征向量序列对应的样本文本被预测为该实体类型预测序列的概率。

具体地，可以采用下述方式确定与当前特征向量序列对应的多个实体类型预测序列中各个实体类型预测序列分别对应的得分：

针对每个实体类型预测序列，根据该实体类型预测序列中的各个预测标签分别对应的目标概率，确定该实体类型预测序列对应的初始得分；以及，基于条件随机场模型，根据该实体类型预测序列中每相邻的两个预测标签对应的转移概率，获取与该实体类型预测序列对应的转移得分；将初始得分以及转移得分求和，得到与该实体类型预测序列对应的得分。

其中，任一预测标签的目标概率，为该预测标签对应的词汇，在与该词汇的维度变换向量中被预测为该预测标签的概率；

a、可以采用下述示例得到各个实体类型预测序列的初始得分：针对N个样本文本中的第j个样本文本包括m个词汇，各个词汇分别对应的词汇向量为：x_j1～x_jm。则该样本文本的词汇向量序列为：

X_j＝(x_j1，x_j2，……，x_jm)。

基于特征提取网络和维度变换网络，获取其中的词汇向量x_jt对应的维度变换向量O_jt为：

其中，n_class表示分类的数量，且分别与类别一一对应。

也即：o_jt ^k表示词汇向量序列X_j中的词汇向量x_jt被预测为类别y^k的概率，记作p(y_jt＝y^k)＝o_jt ^k。其中k表示第k个类别，且k＝1，2，……，n_class。t表示第t个词汇向量，且t＝1，2，……，m。

针对与特征向量序列X_j对应的任一实体类型预测序列Y_j＝(y_j1,y_j2,……，y_jm)，其初始得分S₁(X_j,Y_j)满足：

例如，一个样本文本，包括3个词汇，各个词汇分别对应的词汇向量为：x₁～x₁₀。则该样本文本的词汇向量序列为：X＝(x₁，x₂，x₃)。对应的分类共有2个，分别为y¹～y²，则基于特征提取网络和维度变换网络，则：

第1个词汇向量x₁对应的维度变换向量O₁为：O₁＝(o₁ ¹,o₁ ²)；也即，预测词汇向量x₁的分类为y¹的概率为o₁ ¹，预测词汇向量x₁的分类为y²的概率为o₁ ²；

第2个词汇向量x₂对应的维度变换向量O₂为：O₂＝(o₂ ¹,o₂ ²)；也即，预测词汇向量x₂的分类为y¹的概率为o₂ ¹，预测词汇向量x₂的分类为y²的概率为o₂ ²；

第3个词汇向量x₃对应的维度变换向量O₃为：O₃＝(o₃ ¹,o₃ ²)；也即，预测词汇向量x₃的分类为y¹的概率为o₃ ¹，预测词汇向量x₃的分类为y²的概率为o₃ ²；

可能的预测标签向量序列包括：

(y¹,y¹,y¹)、(y¹,y²,y¹)、(y¹,y¹,y²)、(y¹,y²,y²)；

(y²,y¹,y¹)、(y²,y²,y¹)、(y²,y¹,y²)、(y²,y²,y²)。

标签向量序列(y¹,y¹,y¹)对应的基础得分为：o₁ ¹+o₂ ¹+o₃ ¹；

标签向量序列(y¹,y²,y¹)对应的基础得分为：o₁ ¹+o₂ ²+o₃ ¹；

……

标签向量序列(y²,y²,y²)对应的基础得分为：o₁ ²+o₂ ²+o₃ ²。

b：可以采用下述示例得到各个实体类型预测序列的转移得分：

在CRF中存在一条概率转移矩阵A，该概率转移矩阵中的每个元素，表示标签y^g转移标签y^h的概率，其中，g＝1，2，……，n_class；h＝1，2，……，n_class

也即，A_gh＝p(y_it＝y^h|y_it-1＝y^g)。

例如，若有5个分类，则得到的概率转移矩阵为：

此处，概率转移矩阵可以预先根据爬取到的语料获取，也可以初始化得到，并在对特征提取网络、维度变换网络以及条件随机场模型进行训练的过程中，将该概率转移矩阵也作为参数调整的目标。

则对于输入的特征向量序列X_j＝(x_j1，x_j2，……，x_jm)，对应的实体类型预测序列Y_j＝(y_j1,y_j2,……，y_jm)的转移得分为：

则，对于给定的特征向量序列x1～xm，与其对应的多个实体类型预测序列中，任一实体类型预测序列的得分S＝S1+S2，满足：

S302：根据得分，调整特征提取网络、维度变换网络以及条件随机场模型的参数。

此处，可以采用下述方式调整特征提取网络、维度变换网络以及条件随机场模型的参数：

根据各个实体类型预测序列对应的得分，以及与实体类型标注序列相同的实体类型预测序列对应的得分，确定模型损失；根据模型损失，调整特征提取网络、维度变换网络以及条件随机场模型的参数。

示例性的，对于多个样本文本中的第j个的样本文本：X_j＝(x_j1，x_j2，……，x_jm)，其实体类型标注序列为：

Y_j＝(y_j1,y_j2,……，y_jm)；

其损失函数如下：

其中，在该损失函数中，表示第j个样本文本下，与该第j个样本文本对应的实体类型标注序列相同的实体类型预测序列对应的得分。表示第j个样本文本下，对所有实体类型预测序列对应的得分求和。

根据梯度下降优化算法，调整特征提取网络、维度变换网络以及条件随机场模型中的参数，调整参数的过程即为最小化损失函数loss的过程，进而可以求得特征提取网络、维度变换网络以及条件随机场模型中参数的估计值，完成对特征提取网络、维度变换网络以及条件随机场模型参数的调整。

V：在上述S109中，参见图4所示，可以采用下述方式基于命名实体识别模型，获取待识别文本的命名实体识别结果：

S401：获取待识别文本的待识别特征向量序列。待识别特征向量序列中，包括待识别文本中各个词汇分别对应的待识别词汇向量。

S402：将待识别文本的待识别特征向量序列输入至特征提取网络和维度变换网络，获取与待识别特征向量序列中的每个待识别词汇向量分别对应的待识别维度变换向量。

S403：将待识别维度变换向量输入至条件随机场模型，获得与待识别特征向量序列对应的各个预测标签序列的得分；

S404：将与待识别特征向量序列对应的各个预测标签序列中，得分最高的预测标签序列作为待识别特征向量序列对应的目标标签序列，并基于目标标签序列作为待识别文本的命名实体识别结果。

其中，上述S401～S403的执行过程，与模型训练过程中S101和S102的过程类似，在此不再赘述。

实施例二：

参见图5所示，本申请实施例还提供一种训练命名实体识别模型的方法，该方法包括：

S501：获取多个样本文本中每个样本文本分别对应的特征向量序列和实体类型标注序列；其中，每个特征向量序列中包括与样本文本中各个词汇分别对应的词汇向量；实体类型标注序列中包括与样本文本中各个词汇分别对应的实体类型的标注标签；

S502：将本轮未完成训练的特征向量序列中任一特征向量序列作为当前特征向量序列；

S503：基于特征提取网络和维度变换网络，获取与当前特征向量序列中的每个词汇向量分别对应的维度变换向量；其中，维度变换向量中的各个元素与不同实体类型一一对应；维度变换向量中的各个元素的值，表征与维度变换向量对应的词汇被预测为与该元素对应的实体类型的概率；

S504：基于当前特征向量序列的维度变换向量和实体类型标注序列，调整特征提取网络、维度变换网络以及条件随机场模型的参数；条件随机场模型用于基于维度变换向量输出与特征向量序列对应的各个实体类型预测序列的得分；实体类型预测序列中包括与样本文本中各个词汇分别对应的实体类型的预测标签；

S505：将当前特征向量序列作为本轮完成训练的特征向量序列。

S506：检测是否所有特征向量序列均完成本轮训练；如果否，则跳转至S502；如果是，则跳转至S507；

S507：完成对特征提取网络、维度变换网络以及条件随机场模型的本轮训练；

S508：经过对特征提取网络、维度变换网络以及条件随机场模型的多轮训练，得到命名实体识别模型。

上述S501～S508的具体实现方式与上述S101～S108类似，在此不再赘述。

基于同一发明构思，本申请实施例中还提供了识别命名实体的方法对应的识别命名实体的装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述识别命名实体的方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例三

参照图6所示，为本申请实施例三提供的一种识别命名实体的装置的示意图，所述装置包括：获取模块61、训练模块62、识别模块63；其中：

获取模块61，用于获取多个样本文本中每个所述样本文本分别对应的特征向量序列和实体类型标注序列；其中，每个所述特征向量序列中包括与所述样本文本中各个词汇分别对应的词汇向量；所述实体类型标注序列中包括与所述样本文本中各个词汇分别对应的实体类型的标注标签；

训练模块62，用于采用下述方式训练得到实体识别模型：

识别模块63，用于基于所述命名实体识别模型，获取待识别词汇串的命名实体识别结果。

一种可能的实施方式中，所述特征提取网络包括：第一特征提取网络和第二特征提取网络；训练模块62，具体用于采用下述方式基于特征提取网络和维度变换网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的维度变换向量：

将所述当前特征向量序列输入至第一特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第一中间特征向量，以及将所述当前特征向量序列输入至第二特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第二中间特征向量；

将所述当前特征向量序列中每个词汇向量分别对应的第一中间特征向量和第二中间特征向量进行拼接，形成与每个词汇向量分别对应的拼接向量；

将与每个所述词汇向量分别对应的所述拼接向量输入至维度变换网络，获取与每个所述词汇向量分别对应的维度变换向量。

一种可能的实施方式中，训练模块62，具体用于采用下述方式将所述当前特征向量序列输入至第一特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第一中间特征向量：

将所述当前特征向量序列中的各个词汇向量依次正序输入至所述第一特征提取网络中，并在将任一词汇向量作为当前词汇向量输入至所述第一特征提取网络中时，还将与所述当前词汇向量最近的前一词汇向量对应的第一中间状态向量输入至所述第一特征提取网络中，获取与所述当前词汇向量对应的第一中间特征向量，以及从所述第一特征提取网络中的第一目标网络层获取与所述当前词汇向量对应的第一中间状态向量。

一种可能的实施方式中，训练模块62，具体用于采用下述方式将所述当前特征向量序列输入至第二特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第二中间特征向量：

将所述当前特征向量序列中的各个词汇向量依次逆序输入至所述第二特征提取网络中，并在将任一词汇向量作为当前词汇向量输入至所述第二特征提取网络中时，还将与所述当前词汇向量最近的后一词汇向量对应的第二中间状态向量输入至所述第二特征提取网络中，获取与所述当前词汇向量对应的第二中间特征向量，以及从所述第二特征提取网络中的第二目标网络层获取与所述当前词汇向量对应的第二中间状态向量。

一种可能的实施方式中，训练模块62，具体用于采用下述方式基于所述当前特征向量序列的维度变换向量和实体类型标注序列，调整所述特征提取网络、所述维度变换网络以及条件随机场模型的参数：

将所述当前特征向量序列中每个所述词汇向量分别对应的维度变换向量输入至所述条件随机场模型，确定与所述当前特征向量序列对应的多个实体类型预测序列中各个实体类型预测序列分别对应的得分；

根据所述得分，调整所述特征提取网络、所述维度变换网络以及所述条件随机场模型的参数。

一种可能的实施方式中，训练模块62，具体用于采用下述方式将所述当前特征向量序列中每个所述词汇向量分别对应的维度变换向量输入至所述条件随机场模型，确定与所述当前特征向量序列对应的多个实体类型预测序列中各个实体类型预测序列分别对应的得分：

针对每个所述实体类型预测序列，根据该实体类型预测序列中的各个预测标签分别对应的目标概率，确定该实体类型预测序列对应的初始得分；任一预测标签的目标概率，为该预测标签对应的词汇，在与该词汇的维度变换向量中被预测为该预测标签的概率；

以及，基于所述条件随机场模型，根据该实体类型预测序列中每相邻的两个预测标签对应的转移概率，获取与该实体类型预测序列对应的转移得分；

将所述初始得分以及所述转移得分求和，得到与该实体类型预测序列对应的得分。

一种可能的实施方式中，训练模块62，具体用于采用下述方式根据所述得分，调整所述特征提取网络、所述维度变换网络以及所述条件随机场模型的参数：

根据各个所述实体类型预测序列对应的得分，以及与所述实体类型标注序列相同的实体类型预测序列对应的得分，确定模型损失；

根据所述模型损失，调整所述特征提取网络、所述维度变换网络以及所述条件随机场模型的参数。

一种可能的实施方式中，特征提取网络包括：简单循环单元SRU。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

实施例四

参见图7所示，本申请实施例中还提供了训练命名实体识别模型的方法对应的训练命名实体识别模型的装置，该装置包括：第二获取模块71、以及第二训练模块72；其中：

第二获取模块71，用于获取多个样本文本中每个所述样本文本分别对应的特征向量序列和实体类型标注序列；其中，每个所述特征向量序列中包括与所述样本文本中各个词汇分别对应的词汇向量；所述实体类型标注序列中包括与所述样本文本中各个词汇分别对应的实体类型的标注标签；

第二训练模块72，用于采用下述方式训练得到实体识别模型：

实施例五

本申请实施例还提供了一种计算机设备80，如图8所示，为本申请实施例提供的计算机设备80结构示意图，包括：处理器81、存储器82、和总线83。所述存储器82存储有所述处理器81可执行的机器可读指令(比如，图6中的装置中获取模块61、训练模块62、识别模块63对应的执行指令等)，当计算机设备80运行时，所述处理器81与所述存储器82之间通过总线83通信，所述机器可读指令被所述处理器81执行时执行如下处理：

一种可能的实施方式中，处理器81执行的指令中，所述特征提取网络包括：第一特征提取网络和第二特征提取网络；

所述基于特征提取网络和维度变换网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的维度变换向量，包括：

一种可能的实施方式中，处理器81执行的指令中，所述将所述当前特征向量序列输入至第一特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第一中间特征向量，包括：

一种可能的实施方式中，处理器81执行的指令中，所述将所述当前特征向量序列输入至第二特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第二中间特征向量，包括：

一种可能的实施方式中，处理器81执行的指令中，所述基于所述当前特征向量序列的维度变换向量和实体类型标注序列，调整所述特征提取网络、所述维度变换网络以及条件随机场模型的参数，包括：

一种可能的实施方式中，处理器81执行的指令中，所述将所述当前特征向量序列中每个所述词汇向量分别对应的维度变换向量输入至所述条件随机场模型，确定与所述当前特征向量序列对应的多个实体类型预测序列中各个实体类型预测序列分别对应的得分，包括：

一种可能的实施方式中，处理器81执行的指令中，所述根据所述得分，调整所述特征提取网络、所述维度变换网络以及所述条件随机场模型的参数，包括：

一种可能的实施方式中，处理器81执行的指令中，特征提取网络包括：简单循环单元SRU。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的识别命名实体的方法的步骤。

本申请实施例所提供的识别命名实体的方法计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的识别命名实体的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

实施例六

本申请实施例还提供了一种计算机设备90，如图9所示，为本申请实施例提供的计算机设备90结构示意图，包括：处理器91、存储器92、和总线93。所述存储器92存储有所述处理器91可执行的机器可读指令(比如，图7中的装置中第二获取模块71、以及第二训练模块72对应的执行指令等)，当计算机设备90运行时，所述处理器91与所述存储器92之间通过总线93通信，所述机器可读指令被所述处理器91执行时执行如下处理：

经过对所述特征提取网络、所述维度变换网络以及条件随机场模型的多轮训练，得到命名实体识别模型。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的训练命名实体识别模型的方法的步骤。

本申请实施例所提供的识别命名实体的方法、训练命名实体识别模型的方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种识别命名实体的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括：第一特征提取网络和第二特征提取网络；

3.根据权利要求2所述的方法，其特征在于，所述将所述当前特征向量序列输入至第一特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第一中间特征向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述当前特征向量序列输入至第二特征提取网络，获取与所述当前特征向量序列中的每个所述词汇向量分别对应的第二中间特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述当前特征向量序列的维度变换向量和实体类型标注序列，调整所述特征提取网络、所述维度变换网络以及条件随机场模型的参数，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述当前特征向量序列中每个所述词汇向量分别对应的维度变换向量输入至所述条件随机场模型，确定与所述当前特征向量序列对应的多个实体类型预测序列中各个实体类型预测序列分别对应的得分，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述得分，调整所述特征提取网络、所述维度变换网络以及所述条件随机场模型的参数，包括：

8.根据权利要求1所述的方法，其特征在于，特征提取网络包括：简单循环单元SRU。

9.一种识别命名实体的装置，其特征在于，该装置包括：

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任意一项所述的方法的步骤。