CN114722822A

CN114722822A - 命名实体识别方法、装置、设备和计算机可读存储介质

Info

Publication number: CN114722822A
Application number: CN202210282587.4A
Authority: CN
Inventors: 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-08
Anticipated expiration: 2042-03-22
Also published as: WO2023178802A1; CN114722822B

Abstract

本发明涉及人工智能技术领域，提供一种命名实体识别方法、装置、设备和计算机可读存储介质，命名实体识别方法包括获取预先训练好的命名实体识别模型，获取待识别的第一语句并输入至命名实体识别模型，以使命名实体识别模型执行以下命名实体识别处理：对第一语句进行分词处理，得到包括多个拆分词的第二语句；对多个拆分词进行特征提取得到多个词嵌入特征向量；根据多个词嵌入特征向量对第二语句进行处理得到多个跨域信息特征；通过信息瓶颈层对多个跨域信息特征进行处理得到多个信息瓶颈特征；采用分类函数对多个信息瓶颈特征进行分类识别，确定对应的命名实体类别，能够对命名实体中的未登录词进行更好的识别，提高命名实体识别的准确度。

Description

命名实体识别方法、装置、设备和计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种命名实体识别方法、装置、设备和计算机可读存储介质。

背景技术

随着人工智能的不断发展，基于深度学习的自然语言处理相关技术取得了很大的进步，命名实体识别(Named Entities Recognition，NER)是自然语言处理的一个基础任务，其目的是识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等，命名实体识别在信息检索、问答系统、机器翻译等应用领域起到重要的作用。相关技术一般使用条件随机场(Conditional Random Field，CRF)序列模型进行文本中的命名实体识别，这种方法能够学习到人工标注的数据，但对未标注的数据或者未登录词的识别效果不好，影响命名实体识别的准确度。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种命名实体识别方法、装置、设备和计算机可读存储介质，能够对命名实体中的未登录词进行更好的识别，提高命名实体识别的准确度。

第一方面，本发明实施例提供了一种命名实体识别方法，包括：

获取预先训练好的命名实体识别模型，其中，所述命名实体识别模型包括信息瓶颈层；

获取待识别的第一语句，将所述第一语句输入至所述命名实体识别模型，以使所述命名实体识别模型执行以下命名实体识别处理:

对所述第一语句进行分词处理，得到包括多个拆分词的第二语句；

对多个所述拆分词进行特征提取得到多个词嵌入特征向量；

根据多个所述词嵌入特征向量对所述第二语句进行跨域信息处理，得到多个跨域信息特征；

通过所述信息瓶颈层对多个所述跨域信息特征进行处理，得到多个信息瓶颈特征；

采用分类函数对多个所述信息瓶颈特征进行分类识别，确定与所述第一语句对应的命名实体类别。

在上述的命名实体识别方法中，所述根据多个所述词嵌入特征向量对所述第二语句进行跨域信息处理，得到多个跨域信息特征，包括：

根据多个所述词嵌入特征向量确定多个边界向量，其中，所述边界向量包括起点词嵌入特征和终点词嵌入特征；

根据每个所述边界向量确定对应的长度向量；

根据多个所述边界向量和多个所述长度向量得到多个跨域信息特征。

在上述的命名实体识别方法中，所述根据多个所述词嵌入特征向量确定多个边界向量，包括：

根据多个词嵌入特征向量确定多个起点词嵌入特征和多个终点词嵌入特征；

将每个所述起点词嵌入特征和对应的终点词嵌入特征进行拼接处理，得到多个边界向量。

在上述的命名实体识别方法中，所述根据每个所述边界向量确定对应的长度向量，包括：

根据每个所述边界向量确定对应的跨域长度；

根据每个所述跨域长度和预设维度得到对应的长度向量，其中，所述长度向量的当前维度与所述跨域长度对应。

在上述的命名实体识别方法中，所述命名实体识别模型根据以下训练步骤得到：

获取预标注的训练数据集，其中，所述训练数据集中各训练数据为携带命名实体及标注类别的标注句子；

获取每个所述标注句子的替换类别句子，其中，所述替换类别句子包括相同类别句子和不同类别句子；

根据所述标注句子、所述相同类别句子和所述不同类别句子，计算得到第一损失值；

根据所述第一损失值训练初始模型，得到训练好的命名实体识别模型。

在上述的命名实体识别方法中，所述根据所述标注句子、所述相同类别句子和所述不同类别句子，计算得到第一损失值，包括：

根据所述标注句子、所述相同类别句子和所述不同类别句子，计算得到对应的第一瓶颈特征、第二瓶颈特征和第三瓶颈特征；

根据所述第一瓶颈特征、所述第二瓶颈特征和所述第三瓶颈特征计算得到第一损失值。

在上述的命名实体识别方法中，所述根据所述第一瓶颈特征、所述第二瓶颈特征和所述第三瓶颈特征计算得到第一损失值，包括：

根据所述第一瓶颈特征计算得到第二损失值；

根据所述第一瓶颈特征、所述第二瓶颈特征和所述第三瓶颈特征计算得到第三损失值；

根据所述第二损失值和所述第三损失值计算得到第一损失值。

第二方面，本发明实施例还提供了一种命名实体识别装置，包括：

第一获取模块，用于获取预先训练好的命名实体识别模型；

第二获取模块，用于获取待识别的第一语句，将所述第一语句输入至所述命名实体识别模型，以使所述命名实体识别模型执行命名实体识别处理；

其中，命名实体识别模型包括：

分词模块，用于对所述第一语句进行分词处理，得到包括多个拆分词的第二语句；

特征提取模块，用于对多个所述拆分词进行特征提取得到多个词嵌入特征向量；

跨域处理模块，用于根据多个所述词嵌入特征向量对所述第二语句进行跨域信息处理，得到多个跨域信息特征；

信息瓶颈模块，用于对多个所述跨域信息特征进行处理，得到多个信息瓶颈特征；

分类模块，用于采用分类函数对多个所述信息瓶颈特征进行分类识别，确定与所述第一语句对应的命名实体类别。

第三方面，本发明实施例还提供了一种计算机设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的命名实体识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上述第一方面所述的命名实体识别方法。

本发明实施例包括：获取预先训练好的命名实体识别模型，其中，所述命名实体识别模型包括信息瓶颈层；获取待识别的第一语句，将所述第一语句输入至所述命名实体识别模型，以使所述命名实体识别模型执行以下命名实体识别处理:对所述第一语句进行分词处理，得到包括多个拆分词的第二语句；对多个所述拆分词进行特征提取得到多个词嵌入特征向量；根据多个所述词嵌入特征向量对所述第二语句进行跨域信息处理，得到多个跨域信息特征；通过所述信息瓶颈层对多个所述跨域信息特征进行处理，得到多个信息瓶颈特征；采用分类函数对多个所述信息瓶颈特征进行分类识别，确定与所述第一语句对应的命名实体类别。根据本发明实施例的技术方案，通过获取预先训练好的命名实体识别模型，将获取的待识别的第一语句输入至命名实体识别模型执行命名实体识别处理，命名实体识别模型基于第一语句进行分词处理，得到的第二语句包括有多个拆分词，通过对多个拆分词进行特征提取得到多个词嵌入特征向量，能够有效地反映语义信息，便于准确识别未登陆词，通过对第二语句进行跨域信息处理，得到多个跨域信息特征，能够将拆分词的信息提供给命名实体识别模型，有利于提高命名实体识别模型的识别效率，通过信息瓶颈层对多个跨域信息特征进行处理，得到多个信息瓶颈特征，最后采用分类函数对多个信息瓶颈特征进行分类识别，确定对应的命名实体类别，通过利用信息瓶颈特征，更加有效地进行特征提取，能够对命名实体中的未登录词进行更好的识别，有利于提高命名实体识别的准确度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的命名实体识别方法的流程图；

图2是本发明一个实施例提供的命名实体识别处理过程的流程图；

图3是本发明一个实施例提供的信息瓶颈层的结构示意图；

图4是本发明另一个实施例提供的命名实体识别方法的流程图；

图5是本发明另一个实施例提供的命名实体识别方法的流程图；

图6是本发明另一个实施例提供的命名实体识别方法的流程图；

图7是本发明另一个实施例提供的命名实体识别方法的流程图；

图8是本发明另一个实施例提供的命名实体识别方法的流程图；

图9是本发明另一个实施例提供的命名实体识别方法的流程图；

图10是本发明一个实施例提供的命名实体识别装置的结构示意图；

图11是本发明一个实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

相关技术一般使用CRF序列模型进行文本中的命名实体识别，这种方法能够学习到人工标注的数据，但对未标注的数据或者未登录词的识别效果不好，而随着社会的进步和发展，互联网上生成了越来越多的未登录词，对含有未登录词的文本进行命名实体识别的准确度不高。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，本发明第一方面实施例提供一种命名实体识别方法，命名实体识别方法包括但不限于有步骤S110和步骤S120：

步骤S110：获取预先训练好的命名实体识别模型，其中，命名实体识别模型包括信息瓶颈层；

需要说明的是，命名实体识别模型已预先训练好，通过获取命名实体识别模型，能够对待识别文本进行命名实体的识别，另外，命名实体识别模型中包括有信息瓶颈层，主要目的是减少参数的数量，从而减少计算量，且在降维之后可以更加有效、直观地进行数据的训练和特征提取。

步骤S120：获取待识别的第一语句，将第一语句输入至命名实体识别模型，以使命名实体识别模型执行命名实体识别处理。

需要说明的是，第一语句可以从互联网中获取，主要是指需要识别命名实体类型的待识别数据，其中，命名实体主要包括人名、地名、机构名、专有名词等以名称为标识的实体，还可以包括数字、日期、货币、地址等实体，例如，待识别的第一语句可以包括待识别的组织机构名称(ORG)，第一语句为“苹果是公司”，其中，苹果为命名实体。通过将待识别的第一语句输入至命名实体识别模型中，通过命名实体识别模型能够有效地进行特征提取，有利于提高命名实体识别的准确度。

如图2所示，命名实体识别处理过程包括但不限于有步骤S131至步骤S135：

步骤S131：对第一语句进行分词处理，得到包括多个拆分词的第二语句；

通过对第一语句进行分词处理，得到分词后的第二语句，便于更好地进行命名实体识别，分词工具采用jieba，也可以使用其它分词工具，例如stanford分词器。

当对第一语句进行分词处理时，通过识别第一语句中对应的文本顺序，并根据文本顺序对第一语句进行分词，得到多个拆分词，通过多个拆分词构成第二语句，例如，当第一语句为“苹果是公司”，得到的分词结果是[苹果，是，公司]，其中，“苹果”、“是”、“公司”是拆分词。另外，分词处理中还包括去除一些高频词汇和低频词汇，以及去掉一些无意义的符号等。

步骤S132：对多个拆分词进行特征提取得到多个词嵌入特征向量；

通过将第一语句进行分词处理，得到多个拆分词，通过命名实体识别模型对多个拆分词进行特征提取可以获得第二语句的多个词嵌入特征向量，可以理解的是，每个拆分词均有对应的词嵌入特征向量，词嵌入特征向量能够反映拆分词的语法及语义信息，便于有效地识别未登陆词。

具体地，命名实体识别模型中还包括语言模型，分词处理后的第二语句通过基于变换器的双向编码器表示技术(Bidirectional Encoder Representations fromTransformers，BERT)模型获得词嵌入特征向量，BERT模型是一种深度双向的、无监督的语言表示模型，具有双向Transformer编码器，通过双向Transformer编码器的处理，能充分考虑拆分词之间的关系，使得命名实体识别更加准确。需要说明的是，词嵌入特征向量还可以通过其它语言模型获得，例如基于全局信息的词向量(Global Vectors for WordRepresentation，GloVe)模型。

步骤S133：根据多个词嵌入特征向量对第二语句进行跨域信息处理，得到多个跨域信息特征；

需要说明的是，由于待识别的文本很多时候是由多个拆分词组成的，根据多个词嵌入特征向量对第二语句进行跨域信息处理，得到多个跨域信息特征，跨域信息特征能够将多个拆分词组成的第二语句的个数信息及关联信息提供给命名实体识别模型，从而提高命名实体识别模型的识别效率。

步骤S134：通过信息瓶颈层对多个跨域信息特征进行处理，得到多个信息瓶颈特征；

信息瓶颈层能够保留跨域信息特征中的必要信息，通过将多个跨域信息特征输入至信息瓶颈层进行处理，能够得到对应的信息瓶颈特征，更加有效地进行特征提取，通过利用信息瓶颈特征，能够对命名实体中的未登录词进行更好的识别。

如图3所示，需要说明的是，信息瓶颈层是由一个多层感知机(MultilayerPerceptron，MLP)组成，MLP是由两个线性(Linear)层和一个ReLu激活函数组成，线性层、Relu激活函数和线性层依次连接，信息瓶颈层能够保留输入数据的必要信息，升维后，能够使得信息更加丰富，另外加上ReLU激活函数，在降维之后，可以保持所有的必要信息不丢失，便于后续的数据训练和特征提取。

步骤S135：采用分类函数对多个信息瓶颈特征进行分类识别，确定与第一语句对应的命名实体类别。

其中，命名实体类别是指命名实体所归属的类别，通过采用分类函数对多个信息瓶颈特征进行分类识别，能够确定与第一语句对应的命名实体类别，从而便于将对应的命名实体进行类别标注，例如，对于“苹果是公司”，苹果所对应的命名实体类别是组织机构名称(ORG)。需要说明的是，通过对多个信息瓶颈特征进行分类识别，可能输出多个命名实体类别或者仅输出一个命名实体类别。

需要说明的是，分类函数采用的是softmax函数。分类loss计算如下：

score(z_i,y_i)＝exp(z_i,y_i)；

其中，z_i是第i类信息瓶颈特征，y_i是第i类命名实体类别；Y是命名实体类别集合；score(z_i，y_i)是第i类命名实体类别的得分值；y_i可以通过命名实体识别模型学习，反映的是预测值，Loss是损失值，用于反映真实值与预测值之间的损失值。

根据本发明实施例的技术方案，通过获取预先训练好的命名实体识别模型，将获取的待识别的第一语句输入至命名实体识别模型执行命名实体识别处理，命名实体识别模型基于第一语句进行分词处理，得到的第二语句包括有多个拆分词，通过对多个拆分词进行特征提取得到多个词嵌入特征向量，能够有效地反映语义信息，便于准确识别未登陆词，通过对第二语句进行跨域信息处理，得到多个跨域信息特征，能够将拆分词的信息提供给命名实体识别模型，有利于提高命名实体识别模型的识别效率，通过信息瓶颈层对多个跨域信息特征进行处理，得到多个信息瓶颈特征，最后采用分类函数对多个信息瓶颈特征进行分类识别，确定对应的命名实体类别，通过利用信息瓶颈特征，更加有效地进行特征提取，能够对命名实体中的未登录词进行更好的识别，有利于提高命名实体识别的准确度。

如图4所示，在上述的命名实体识别方法中，步骤S133中根据多个词嵌入特征向量对第二语句进行跨域信息处理，得到多个跨域信息特征，包括但不限于步骤S210至步骤S230：

步骤S210：根据多个词嵌入特征向量确定多个边界向量，其中，边界向量包括起点词嵌入特征和终点词嵌入特征；

步骤S220：根据每个边界向量确定对应的长度向量；

步骤S230：根据多个边界向量和多个长度向量得到多个跨域信息特征。

通过对第二语句进行跨域信息处理，跨域信息特征包括两个部分：

第一部分是边界向量

第二部分是长度向量

对于边界向量，由于第二语句中包括多个拆分词，每个拆分词均有对应的词嵌入特征向量，通过对多个拆分词进行特征提取能够得到多个词嵌入特征向量，边界向量

由起点词嵌入特征h_bi和对应的终点词嵌入特征h_ei组成，即

需要说明的是，起点词嵌入特征表示边界向量的起点词的特征向量，终点词嵌入特征表示边界向量的终点词的特征向量。对于长度向量，每个边界向量均有对应的长度向量，长度向量用于反映起点词与终点词的距离；通过边界向量

和长度向量

能够组成跨域信息特征

可以理解的是，第二语句具有多个词嵌入特征向量，通过多个词嵌入特征向量相互组合能够得到多个边界向量，同时能够确定多个长度向量，从而对于第二语句可以有多个跨域信息特征。基于词嵌入特征向量得到第二语句的跨域信息特征，令拆分词在神经网络中以向量表示，将词嵌入特征向量和跨域信息特征引入命名实体识别模型，使命名实体识别模型能够胜任更复杂的情境，例如处理具有专业词汇以及专业词汇之间的相互关系的文本，有利于提高最终的命名实体识别的准确度。

如图5所示，在上述的命名实体识别方法中，步骤S210中根据多个词嵌入特征向量确定多个边界向量，包括但不限于步骤S310和步骤S320：

步骤S310：根据多个词嵌入特征向量确定多个起点词嵌入特征和多个终点词嵌入特征；

步骤S320：将每个起点词嵌入特征和对应的终点词嵌入特征进行拼接处理，得到多个边界向量。

可以理解的是，起点词嵌入特征和终点词嵌入特征是从多个词嵌入特征向量中确定，起点词嵌入特征表示边界向量的起点词的特征向量，终点词嵌入特征表示边界向量的终点词的特征向量。通过将起点词嵌入特征h_bi和终点词嵌入特征h_ei进行拼接处理后组成边界向量

通过将起点词嵌入特征和终点词嵌入特征进行拼接处理，即表示进行特征交叉融合，使得边界向量具有特征融合特性，从而能够有效提升命名实体识别模型的识别准确度。

具体地，以第一语句是“苹果是公司”为例，分词后的第二语句是[苹果，是，公司]，得到的多个边界向量是(1，1)，(1，2)，(1，3)，(2，2)，(2，3)，(3，3)，数字表示拆分词在第二语句中的位置，(1，1)代表将“苹果”这个词的词嵌入特征向量(双份)拼接起来，(1，3)代表将“苹果”和“公司”两个词的词嵌入特征向量拼接起来，其中，“苹果”是起点词，“公司”是终点词。

如图6所示，在上述的命名实体识别方法中，步骤S220中根据每个边界向量确定对应的长度向量，包括但不限于步骤S410和步骤S420：

步骤S410：根据每个边界向量确定对应的跨域长度；

步骤S420：根据每个跨域长度和预设维度得到对应的长度向量，其中，长度向量的当前维度与跨域长度对应。

通过获得多个边界向量，可以确定每个边界向量对应的长度向量，长度向量由词与词的跨域长度来决定，当获取边界向量后，通常操作是得到边界向量对应的跨域长度，根据跨域长度和预设维度得到对应的长度向量，长度向量的当前维度与跨域长度对应。例如，根据边界向量(1，1)确定的跨域长度是0，长度向量的维度是一个超参数，设置的预设维度为10，根据跨域长度可以确定长度向量的当前维度，将当前维度的值设为1，其它维度的值都为0，则得到的长度向量为[1，0，0，0，0，0，0，0，0，0]，若(1，3)的跨域长度为2，那对应的长度向量是[0，0，1，0，0，0，0，0，0，0]。通过将两个拆分词转换成固定长度的向量表示，便于进行数据处理，基于边界向量和长度向量组成的跨域信息特征，能够有效地反映组成待识别文本的拆分词之间的关联，从而大大提高命名实体识别的准确度。

如图7所示，在上述的命名实体识别方法中，命名实体识别模型根据以下训练步骤得到：

步骤S510：获取预标注的训练数据集，其中，训练数据集中各训练数据为携带命名实体及标注类别的标注句子；

步骤S520：获取每个标注句子的替换类别句子，其中，替换类别句子包括相同类别句子和不同类别句子；

步骤S530：根据标注句子、相同类别句子和不同类别句子，计算得到第一损失值；

步骤S540：根据第一损失值训练初始模型，得到训练好的命名实体识别模型。

通过使用预先标注好的训练数据集进行模型训练，训练数据集中的各条训练数据是指以人工的方法把句子中的命名实体以及其类别进行标注的标注句子，例如，对于“苹果是公司”，将苹果标注为ORG(组织机构名称)，得到的标注句子携带有命名实体及标注类别。为每一条训练数据用其它具有相同类别实体以及不同类别实体的句子替换，即获取每个标注句子的替换类别句子，例如，“谷歌是公司”(相同类别句子)，“张三是公司”(不同类别句子)，根据标注句子、相同类别句子、不同类别句子计算得到第一损失值，由于第一损失值综合了相同类别实体数据和不同类别实体数据，根据第一损失值不断调整命名实体识别模型的参数，有利于提高模型的识别效果，进而提高命名实体识别的准确性。

需要说明的是，在获取训练数据时，首先获取原始数据以及原始数据中命名实体对应的标注类别，将标注类别写入原始数据中，得到携带有命名实体及标注类别的标注句子，例如，当标注类别为组织机构名称时，标注句子的形式可以为：[ORG]+原始数据。

可以理解的是，基于训练好的命名实体识别模型，通过将待识别的第一语句输入至命名实体识别模型，能够高效地实现对命名实体类别的识别。

如图8所示，在上述的命名实体识别方法中，步骤S530中根据标注句子、相同类别句子和不同类别句子，计算得到第一损失值，包括但不限于步骤S610和步骤S620：

步骤S610：根据标注句子、相同类别句子和不同类别句子，计算得到对应的第一瓶颈特征、第二瓶颈特征和第三瓶颈特征；

步骤S620：根据第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第一损失值。

具体地，标注句子是“苹果是公司”，相同类别句子是“谷歌是公司”，不同类别句子是“张三是公司”，通过计算得到“苹果是公司”，“谷歌是公司”和“张三是公司”对应的信息瓶颈特征，即分别得到第一瓶颈特征、第二瓶颈特征和第三瓶颈特征，基于第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第一损失值，以第一损失值为目标训练模型，得到训练好的命名实体识别模型。通过利用信息瓶颈特征，能够有效地保留输入数据的必要信息，能够对命名实体中的未登录词进行更好的识别。

需要说明的是，在命名实体识别模型的信息瓶颈层能够获得第一瓶颈特征、第二瓶颈特征和第三瓶颈特征。

如图9所示，在上述的命名实体识别方法中，步骤S620中根据第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第一损失值，包括但不限于步骤S710至步骤S730：

步骤S710：根据第一瓶颈特征计算得到第二损失值；

步骤S720：根据第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第三损失值；

步骤S730：根据第二损失值和第三损失值计算得到第一损失值。

需要说明的是，第一瓶颈特征对应标注句子，标注句子用于训练命名实体识别模型，基于第一瓶颈特征初步计算出第二损失值，另外，根据第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第三损失值，通过第三损失值修正第二损失值，得到第一损失值，以最小化第一损失值为目标，训练命名实体识别模型，使得命名实体识别模型能够学习得到提取命名实体的类别的能力。

基于上述的命名实体识别方法中，第二损失值根据以下公式得到：

score(z_i,y_i)＝exp(z_i,y_i)；

其中，L_base是第二损失值，z_i是第i类信息瓶颈特征，y_i是第i类命名实体类别；Y是命名实体类别集合；score(z_i，y_i)是第i类命名实体类别的得分值。

第三损失值根据以下公式得到：

其中，L_gi是第三损失值，z₁是第一瓶颈特征，z₂是第二瓶颈特征，z₃是第三瓶颈特征，gw函数是cosin的相似度计算；Ep是期望计算。

第一损失值根据以下公式得到：

L＝L_base+γ*L_gi；

其中，L是第一损失值，L_base是第二损失值，L_gi是第三损失值，γ是超参数，用来调整L_gi的权重影响。

需要说明的是，在训练模型的过程中，首先获取标注句子，例如，标注句子是“苹果是公司”，进一步获取“苹果是公司”的替换类别句子，分别为“谷歌是公司”、“张三是公司”，将“苹果是公司”、“谷歌是公司”、“张三是公司”同时输入至命名实体识别模型，在信息瓶颈层得到对应的第一瓶颈特征z₁、第二瓶颈特征z₂、第三瓶颈特征z₃，基于第一瓶颈特征z₁计算得到第二损失值L_base，基于第一瓶颈特征z₁、第二瓶颈特征z₂和第三瓶颈特征z₃计算得到第三损失值L_gi，第三损失值L_gi可以使命名实体识别模型学习到相同命名实体类别和不同命名实体类别之间的相似度。计算得到第二损失值L_base和第三损失值L_gi后，首先根据γ调整L_gi的权重影响，本实施例将γ设置为0.3，再将调整后的L_gi与L_base相加，基于第二损失值L_base和调整后的第三损失值L_gi的求和结果，得到第一损失值L，以最小化第一损失值L为目标，不断更新命名实体识别模型的参数。

本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本发明实施例的命名实体识别方法可以应用于信息检索、问答系统、机器翻译、情感分析等自然语言处理应用领域中。

基于上述命名实体识别方法，下面分别提出本发明的命名实体识别装置、计算机设备和计算机可读存储介质的各个实施例。

如图10所示，本发明第二方面实施例提供一种命名实体识别装置1000，图10是本发明一个实施例提供的命名实体识别装置1000的结构示意图。本发明实施例的命名实体识别装置1000包括但不限于第一获取模块1010和第二获取模块1020，具体地，第一获取模块1010用于获取预先训练好的命名实体识别模型1030；第二获取模块1020用于获取待识别的第一语句，将第一语句输入至命名实体识别模型1030，以使命名实体识别模型1030执行命名实体识别处理；其中，命名实体识别模型1030包括：分词模块1031、特征提取模块1032、跨域处理模块1033、信息瓶颈模块1034、分类模块1035。分词模块1031用于对第一语句进行分词处理，得到包括多个拆分词的第二语句；特征提取模块1032用于对多个拆分词进行特征提取得到多个词嵌入特征向量；跨域处理模块1033用于根据多个词嵌入特征向量对第二语句进行跨域信息处理，得到多个跨域信息特征；信息瓶颈模块1034用于对多个所述跨域信息特征进行处理，得到多个信息瓶颈特征；分类模块1035用于采用分类函数对多个信息瓶颈特征进行分类识别，确定与第一语句对应的命名实体类别。

根据本发明实施例的命名实体识别装置，通过获取预先训练好的命名实体识别模型，将获取的待识别的第一语句输入至命名实体识别模型执行命名实体识别处理，命名实体识别模型基于第一语句进行分词处理，得到的第二语句包括有多个拆分词，通过对多个拆分词进行特征提取得到多个词嵌入特征向量，能够有效地反映语义信息，便于准确识别未登陆词，通过对第二语句进行跨域信息处理，得到多个跨域信息特征，能够将拆分词的信息提供给命名实体识别模型，有利于提高命名实体识别模型的识别效率，通过信息瓶颈模块对多个跨域信息特征进行处理，得到多个信息瓶颈特征，最后采用分类函数对多个信息瓶颈特征进行分类识别，确定对应的命名实体类别，通过利用信息瓶颈特征，更加有效地进行特征提取，能够对命名实体中的未登录词进行更好的识别，有利于提高命名实体识别的准确度。

在上述的命名实体识别装置中，根据多个词嵌入特征向量对第二语句进行跨域信息处理，得到多个跨域信息特征，具体包括：

根据多个词嵌入特征向量确定多个边界向量，其中，边界向量包括起点词嵌入特征和终点词嵌入特征；

根据每个边界向量确定对应的长度向量；

根据多个边界向量和多个长度向量得到多个跨域信息特征。

在上述的命名实体识别装置中，根据多个词嵌入特征向量确定多个边界向量，具体包括：

将每个起点词嵌入特征和对应的终点词嵌入特征进行拼接处理，得到多个边界向量。

在上述的命名实体识别装置中，根据每个边界向量确定对应的长度向量，具体包括：

根据每个边界向量确定对应的跨域长度；

根据每个跨域长度和预设维度得到对应的长度向量，其中，长度向量的当前维度与跨域长度对应。

在上述的命名实体识别装置中，命名实体识别模型根据以下训练步骤得到：

获取预标注的训练数据集，其中，训练数据集中各训练数据为携带命名实体及标注类别的标注句子；

获取每个标注句子的替换类别句子，其中，替换类别句子包括相同类别句子和不同类别句子；

根据标注句子、相同类别句子和不同类别句子，计算得到第一损失值；

根据第一损失值训练初始模型，得到训练好的命名实体识别模型。

在上述的命名实体识别装置中，根据标注句子、相同类别句子和不同类别句子，计算得到第一损失值，具体包括：

根据标注句子、相同类别句子和不同类别句子，计算得到对应的第一瓶颈特征、第二瓶颈特征和第三瓶颈特征；

根据第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第一损失值。

在上述的命名实体识别装置中，根据第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第一损失值，具体包括：

根据第一瓶颈特征计算得到第二损失值；

根据第一瓶颈特征、第二瓶颈特征和第三瓶颈特征计算得到第三损失值；

根据第二损失值和第三损失值计算得到第一损失值。

需要说明的是，本发明实施例的命名实体识别装置的具体实施方式及对应的技术效果，可对应参照上述命名实体识别方法的具体实施方式及对应的技术效果。

如图11所示，本发明的第三方面实施例还提供了一种计算机设备1100，该计算机设备1100包括：存储器1110、处理器1120及存储在存储器1110上并可在处理器1120上运行的计算机程序。

处理器1120和存储器1110可以通过总线或者其他方式连接。存储器1110作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器1110可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器1110可选包括相对于处理器1120远程设置的存储器，这些远程存储器可以通过网络连接至该发号器组件。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。本领域技术人员可以理解的是，图11中示出的计算机设备1100并不构成对本发明实施例的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。实现上述实施例的命名实体识别方法所需的非暂态软件程序以及指令存储在存储器1110中，当被处理器1120执行时，执行上述实施例的命名实体识别方法，例如，执行以上描述的图1、图2以及图4至图9中的方法步骤。

根据本发明实施例的计算机设备，通过获取预先训练好的命名实体识别模型，将获取的待识别的第一语句输入至命名实体识别模型执行命名实体识别处理，命名实体识别模型基于第一语句进行分词处理，得到的第二语句包括有多个拆分词，通过对多个拆分词进行特征提取得到多个词嵌入特征向量，能够有效地反映语义信息，便于准确识别未登陆词，通过对第二语句进行跨域信息处理，得到多个跨域信息特征，能够将拆分词的信息提供给命名实体识别模型，有利于提高命名实体识别模型的识别效率，通过信息瓶颈层对多个跨域信息特征进行处理，得到多个信息瓶颈特征，最后采用分类函数对多个信息瓶颈特征进行分类识别，确定对应的命名实体类别，通过利用信息瓶颈特征，更加有效地进行特征提取，能够对命名实体中的未登录词进行更好的识别，有利于提高命名实体识别的准确度。

另外，本发明的第四方面实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于执行上述的命名实体识别方法。例如，被上述命名实体识别装置的一个处理器执行，可使得上述处理器执行上述实施例中的命名实体识别方法，例如，执行以上描述的图1、图2以及图4至图9中的方法步骤。

根据本发明实施例的计算机可读存储介质，通过获取预先训练好的命名实体识别模型，将获取的待识别的第一语句输入至命名实体识别模型执行命名实体识别处理，命名实体识别模型基于第一语句进行分词处理，得到的第二语句包括有多个拆分词，通过对多个拆分词进行特征提取得到多个词嵌入特征向量，能够有效地反映语义信息，便于准确识别未登陆词，通过对第二语句进行跨域信息处理，得到多个跨域信息特征，能够将拆分词的信息提供给命名实体识别模型，有利于提高命名实体识别模型的识别效率，通过信息瓶颈层对多个跨域信息特征进行处理，得到多个信息瓶颈特征，最后采用分类函数对多个信息瓶颈特征进行分类识别，确定对应的命名实体类别，通过利用信息瓶颈特征，更加有效地进行特征提取，能够对命名实体中的未登录词进行更好的识别，有利于提高命名实体识别的准确度。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种命名实体识别方法，其特征在于，包括：

对多个所述拆分词进行特征提取得到多个词嵌入特征向量；

2.根据权利要求1所述的命名实体识别方法，其特征在于，所述根据多个所述词嵌入特征向量对所述第二语句进行跨域信息处理，得到多个跨域信息特征，包括：

根据每个所述边界向量确定对应的长度向量；

3.根据权利要求2所述的命名实体识别方法，其特征在于，所述根据多个所述词嵌入特征向量确定多个边界向量，包括：

4.根据权利要求2所述的命名实体识别方法，其特征在于，所述根据每个所述边界向量确定对应的长度向量，包括：

根据每个所述边界向量确定对应的跨域长度；

5.根据权利要求1所述的命名实体识别方法，其特征在于，所述命名实体识别模型根据以下训练步骤得到：

6.根据权利要求5所述的命名实体识别方法，其特征在于，所述根据所述标注句子、所述相同类别句子和所述不同类别句子，计算得到第一损失值，包括：

7.根据权利要求6所述的命名实体识别方法，其特征在于，所述根据所述第一瓶颈特征、所述第二瓶颈特征和所述第三瓶颈特征计算得到第一损失值，包括：

根据所述第一瓶颈特征计算得到第二损失值；

8.一种命名实体识别装置，其特征在于，包括：

第一获取模块，用于获取预先训练好的命名实体识别模型；

其中，所述命名实体识别模型包括：

9.一种计算机设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的命名实体识别方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至7中任意一项所述的命名实体识别方法。