CN114611517B

CN114611517B - 基于深度学习的命名实体识别方法、装置、设备和介质

Info

Publication number: CN114611517B
Application number: CN202210255150.1A
Authority: CN
Inventors: 姜鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2023-07-25
Anticipated expiration: 2042-03-15
Also published as: CN114611517A; WO2023173556A1

Abstract

本申请涉及自然语言处理技术领域，提出了一种基于深度学习的命名实体识别方法、装置、设备和介质，方法包括：从待处理句子识别出多个候选span，以识别出长度不超过预设识别长度阈值的、所有可能的候选span，进而组成候选span集合，解决跨度较长的嵌套实体无法识别的问题；对候选span集合中的候选span进行筛选，目的是将低质量的候选span剔除，得到至少一个第一正向span，从而减少后续的计算开销；通过第一神经网络预测第一正向span对应的边界偏移值，得到目标span；通过第二神经网络预测目标span对应的实体分类。如此，能够基于预测的边界偏移值对span边界进行微调，使最终的目标span尽可能与真实的span重叠，达到或接近完全重叠的理想状态，从而提高实体识别准确性。

Description

基于深度学习的命名实体识别方法、装置、设备和介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于深度学习的命名实体识别方法、装置、电子设备和计算机可读存储介质。

背景技术

命名实体识别(Named Entity Recognition,简称NER)是自然语言处理中的一项基础性任务，广泛用于知识抽取、图谱构建等下游任务中，其主要任务是抽取文本中涉及到的实体名词，具体而言是识别每个实体的起始/结束索引位置以及实体类别。

常规的实体识别是通过深度学习中的序列标注模型对文本语句中的每个语义单元进行标注，从而获得语义单元的唯一标签，通过对标签进行组合得到实体片段。在实际任务中，常出现一些文本语句存在着嵌套实体，这里的嵌套实体是指组成一个实体的多个名词中，存在着个别名词属于另一类别的实体。然而，常规的序列标注模型无法解决嵌套实体识别的问题。

对于嵌套实体的识别，相关技术提出了一种将序列分类任务的目标从单标签变为多标签的方法，也有提出基于阅读理解(MRC)的实体识别方法、基于超图的实体识别方法等，但是这些方法仍无法解决跨度较大的嵌套实体的识别问题。

发明内容

本申请实施例的主要目的在于提出一种基于深度学习的命名实体识别方法、装置、电子设备和计算机可读存储介质，旨在解决跨度较大的嵌套实体的识别问题。

为实现上述目的，本申请实施例的第一方面提出了一种基于深度学习的命名实体识别方法，所述方法包括：获取待处理句子；基于不同的预设识别长度从所述待处理句子识别出多个候选span，得到候选span集合，其中，所述预设识别长度小于预设识别长度阈值，所述候选span集合包括多个长度小于等于所述预设识别长度阈值的候选span；对所述候选span集合中的候选span进行筛选，得到至少一个第一正向span；通过预设的第一神经网络预测所述第一正向span对应的边界偏移值；根据所述第一正向span对应的边界偏移值，调整所述第一正向span的边界，并基于调整边界后的所述第一正向span得到目标span；通过预设的第二神经网络预测所述目标span对应的实体分类。

根据本申请一些实施例提供的基于深度学习的命名实体识别方法，所述对所述候选span集合中的候选span进行筛选，得到至少一个第一正向span，包括：获取预设的真实span集合；将候选span与所述真实span集合进行IOU计算，得到所述候选span对应的IOU值；根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span。

根据本申请一些实施例提供的基于深度学习的命名实体识别方法，所述根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span，包括：从所述候选span集合中获取IOU值大于预设IOU阈值的所述候选span，并将获取的所述候选span作为第二正向span；获取各个所述第二正向span对应的嵌入向量；将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率；将正向样本预测概率大于预设正向样本预测概率阈值的所述第二正向span作为所述第一正向span。

根据本申请一些实施例提供的基于深度学习的命名实体识别方法，所述第三神经网络包括至少两层第一BI-LSTM网络和第一全连接网络，其中，所述至少两层第一BI-LSTM网络依次连接，所述第一全连接网络与最后一层所述第一BI-LSTM网络连接；所述将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率，包括：将所述第二正向span对应的嵌入向量输入至所述第三神经网络的第一层所述第一BI-LSTM网络；由所述第三神经网络的最后一层所述第一BI-LSTM网络输出所述第二正向span对应的特征向量；由所述第三神经网络的第一全连接网络利用sigmoid函数对所述第二正向span的特征向量进行处理，输出所述第二正向span对应的正向样本预测概率。

根据本申请一些实施例提供的基于深度学习的命名实体识别方法，所述第二正向span包括多个token，所述第二正向span对应的嵌入向量由多个token的嵌入向量拼接形成，所述token嵌入向量通过如下公式表示：

h_i＝E(t_i)+P_i；

其中，h_i表示第i个token的嵌入向量，E(t_i)表示第i个token的词嵌入向量，P_i表示第i个token的位置嵌入向量。

根据本申请一些实施例提供的基于深度学习的命名实体识别方法，所述第一神经网络为回归算法模型；所述通过预设的第一神经网络预测所述第一正向span对应的边界偏移值，包括：根据预设的多个边界移动单位对所述第一正向span的边界进行移动，得到多个第三正向span；将所述多个第三正向span对应的token特征向量进行拼接，得到拼接特征向量；由所述回归算法模型通过如下公式计算所述第一正向span对应的边界偏移值：

offset＝W₂·GELU(W₁h+b₁)+b₂；

其中，所述offset表示所述第一正向span对应的边界偏移值，所述GELU(·)表示所述回归算法模型中的激活函数，所述h表示所述第一正向span对应的拼接特征向量，所述W₁表示第一权重矩阵，所述W₂表示第二权重矩阵，所述b₁表示第一偏置参数，所述b₂表示第二偏置参数。

根据本申请一些实施例提供的基于深度学习的命名实体识别方法，所述第二神经网络包括至少两层第二BI-LSTM网络和第二全连接网络，其中，所述至少两层第二BI-LSTM网络依次连接，所述第二全连接网络与最后一层所述第二BI-LSTM网络连接；所述通过预设的第二神经网络预测所述目标span对应的实体分类，包括：将所述目标span输入至所述第二神经网络的第一层所述第二BI-LSTM网络；由所述第二神经网络的最后一层所述第二BI-LSTM网络输出所述目标span对应的特征向量；由所述第二神经网络的第二全连接网络利用softmax函数对所述目标span的特征向量进行处理，输出所述目标span对应的实体分类。

为实现上述目的，本申请实施例的第二方面提出了一种基于深度学习的命名实体识别装置，所述装置包括：

获取模块，用于获取待处理句子；

候选span确定模块，用于基于不同的预设识别长度对所述待处理句子进行遍历，得到候选span集合，其中，所述预设识别长度小于预设识别长度阈值，所述候选span集合包括多个长度小于等于所述预设识别长度阈值的候选span；

筛选模块，用于对所述候选span集合中的候选span进行筛选，得到至少一个第一正向span；

第一预测模块，用于通过预设的第一神经网络预测所述第一正向span对应的边界偏移值；

目标span确定模块，用于根据所述第一正向span对应的边界偏移值，对所述第一正向span进行边界调整，并基于调整边界后的所述第一正向span得到目标span；

第二预测模块，用于通过预设的第二神经网络预测所述目标span对应的实体分类。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，包括：至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上第一方面任一项实施例所述的基于深度学习的命名实体识别方法。

为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面任一项实施例所述的基于深度学习的命名实体识别方法。

本申请实施例提出了一种基于深度学习的命名实体识别方法、装置、电子设备和计算机可读存储介质，首先基于不同的预设识别长度从所述待处理句子识别出多个候选span，以识别出长度不超过预设识别长度阈值的、所有可能的候选span，进而组成候选span集合，解决跨度较长的嵌套实体无法识别的问题。然后对所述候选span集合中的候选span进行筛选，目的是将低质量的候选span剔除，得到至少一个第一正向span，从而减少后续的计算开销；通过预设的第一神经网络预测所述第一正向span对应的边界偏移值；根据所述第一正向span对应的边界偏移值，调整所述第一正向span的边界，并基于调整边界后的所述第一正向span得到目标span；通过预设的第二神经网络预测所述目标span对应的实体分类。如此，能够基于预测的边界偏移值对span边界进行微调，使最终的目标span尽可能与真实的span重叠，达到或接近完全重叠的理想状态，从而提高实体识别准确性。

附图说明

图1是本申请提供的一个示例性文本语句中的实体分布示意图；

图2是本申请实施例的提供的一种基于深度学习的命名实体识别方法的流程示意图；

图3是图2中的步骤S130的子步骤示意图；

图4是图3中的步骤S133的子步骤示意图；

图5是本申请的一个实施例提供的第三神经网络的结构示意图；

图6是图4中的步骤S1333的子步骤示意图；

图7是图2中的步骤S140的子步骤示意图；

图8是本申请的一个实施例提供的第二神经网络的结构示意图；

图9是图2中的步骤S160的子步骤示意图；

图10是本申请实施例的提供的一种基于深度学习的命名实体识别装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(NLP，Natural Language Processing)：NLP是一种专业分析人类语言的人工智能，其工作原理大概是：接收自然语言，这种语言是通过人类的自然使用演变而来的，人类每天都用它来交流转译自然语言；通过基于概率的算法分析自然语言并输出结果。

命名实体识别(Named Entity Recognition，NER)：NER属于NLP中一个关键性基础任务，概念从字面意思上就可以理解，即识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

嵌入(embedding)：embedding是一种向量表征，是指用一个低维的向量表示一个物体，该物体可以是一个词，或是一个商品，或是一个电影等等；这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义，比如embedding(复仇者联盟)和embedding(钢铁侠)之间的距离就会很接近，但embedding(复仇者联盟)和embedding(乱世佳人)的距离就会远一些。embedding实质是一种映射，从语义空间到向量空间的映射，同时尽可能在向量空间保持原样本在语义空间的关系，如语义接近的两个词汇在向量空间中的位置也比较接近。embedding能够用低维向量对物体进行编码还能保留其含义，常应用于机器学习，在机器学习模型构建过程中，通过把物体编码为一个低维稠密向量再传给DNN，以提高效率。

常规的实体识别是通过深度学习中的序列标注模型对文本语句中的每个语义单元进行标注，从而获得语义单元的唯一标签，通过对标签进行组合得到实体片段。在实际任务中，常出现一些文本语句存在着嵌套实体，这里的嵌套实体是指组成一个实体的多个名词中，存在着个别名词属于另一类别的实体。

举例来说，请参见图1，图1所示的文本语句“The US Supreme Court will heararguments from both sides on Friday and Florida's Leon County Circuit Courtwill consider the arguments on disputed state ballots on Saturday.”示例中，标注了ORG(组织)和GPE(地缘政治)两类实体，其中“Florida”与“Leon County”都是GPE类型的实体，同时又是“Florida’s Leon County Circuit Court”这个ORG类型实体的一部分，即存在嵌套实体，且该实体跨度明显较长。

对于嵌套实体的识别，相关技术提出了一种将序列分类任务的目标从单标签变为多标签的方法，也有提出基于阅读理解(MRC)的实体识别方法、基于超图的实体识别方法等，但是这些方法仍无法解决跨度较大的嵌套实体的识别问题

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的命名实体识别方法，涉及人工智能及自然语言处理技术领域。本申请实施例提供的命名实体识别方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现命名实体识别方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

请参见图2，图2示出了本申请实施例的提出的一种基于深度学习的命名实体识别方法的流程示意图。如图2所示，本申请实施例提供的命名实体识别方法包括但不限于如下步骤：

步骤S110，获取待处理句子。

可以理解的是，这里待处理句子是由多个词组成的句子，因此待处理句子也看作是一个词序列。

步骤S120，基于不同的预设识别长度从所述待处理句子识别出多个候选span，得到候选span集合，其中，所述预设识别长度小于预设识别长度阈值，所述候选span集合包括多个长度小于等于所述预设识别长度阈值的候选span。

示例性的，预设识别长度阈值为L，进而确定预设识别长度为1、2、……、L，然后基于各个预设识别长度，遍历句子中的词以提取出所有可能的候选span。例如，第一轮先基于预设识别长度为1对待处理句子进行遍历，得到长度为1的多个候选span；第二轮基于预设识别长度为2对待处理句子进行遍历，得到长度为1的多个候选span；如此类推，直至最后一轮基于预设识别长度为L对待处理句子进行遍历，得到长度为L的多个候选span。如此，可以获得长度小于等于L的所有可能的span，并将获得的span组成候选span集合，候选span集合中的每个span即为候选span。

应能理解，本申请实施例能够识别长度最大为L的实体，而设置识别长度阈值L的目的是为了避免无限制长度带来的计算开销，具体实现时，本领域技术人员可根据实际需求灵活地设置L的数值。例如，针对图1所示示例，当将L的值设置为7，即能够识别图1中跨度较大的ORG实体。由此可见，本申请能在一定程度上解决跨度较大的嵌套实体的识别问题。

步骤S130，对所述候选span集合中的候选span进行筛选，得到至少一个第一正向span。

可以理解的是，为了节约后续步骤的计算开销，可以先对步骤S120获得的候选span进行筛选，以剔除一些质量较低的候选span，减小后续步骤要处理的span数量。

具体的，请参见图3，步骤S130可以通过如下步骤S131-S132实现：

步骤S131，获取预设的真实span集合；

步骤S132，将候选span与所述真实span集合进行IOU计算，得到所述候选span对应的IOU值；

步骤S133，根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span。

可以理解的是，真实span集合是通过收集多个真实的span而形成的。为了对所有候选span进行筛选，可以将候选span与真实span集合进行IOU计算，得到候选span对应的IOU值，然后基于各个候选span对应的IOU值，将所有候选span分为正向span和负向span两大类，进而将负向span剔除，仅保留正向span。

具体的，可以通过如下公式(1)实现候选span与所述真实span集合的IOU计算：

其中，A表示候选span，B表示真实span集合，IoU(A,B)表示候选span的IOU值。

可以理解的是，IoU(A,B)是候选span与真实span集合的交集与并集的比，显然二者重叠度越高分值越大。如果候选span与真实span集合重叠度较高，说明该候选span质量越高，可作为正向span；反之则证明该候选span质量低，可作为负向span。

作为一种可选的实现方式，可以根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所有候选span中，选取IOU值最大的K个候选span作为所述第一正向span，这里假定候选span集合有N个候选span，0＜K＜N。

作为另一种可选的实现方式，请参见图4，步骤S133具体可以通过如下步骤实现：

步骤S1331，从所述候选span集合中获取IOU值大于预设IOU阈值的所述候选span，并将获取的所述候选span作为第二正向span；

可以理解的是，在计算出各个候选span集合的IOU值之后，按照IOU值由大到小对所有候选span进行排序，然后基于预设的筛选个数或者筛选比例，选取前K个候选span作为第二正向span，这里假定候选span集合有N个候选span，0＜K＜N。

步骤S1332，获取各个所述第二正向span对应的嵌入向量。

可以理解的是，所述第二正向span是由多个token组成，所述第二正向span的嵌入向量对应由多个token的嵌入向量拼接形成。

可以理解的是，在实体识别中，除了token本身的词义信息外，在句子中的位置信息也很重要，为此，本申请实施例的第二正向span还引入了token的位置信息。具体的，所述token嵌入向量通过如下公式(2)表示：

h_i＝E(t_i)+P_i (2)

步骤S1333，将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率。

示例性的，第三神经网络可以采用BI-LSTM网络+全连接网络的架构，BI-LSTM网络用于对第二正向span对应的嵌入向量进行特征提取，然后通过全连接网络对提取的特征进行概率计算，得到第二正向span的正向样本预测概率。这里正向样本预测概率表征第三神经网络对第二正向span属于正向样本的预测概率。

步骤S1334，将正向样本预测概率大于预设正向样本预测概率阈值的所述第二正向span作为所述第一正向span。

可以理解的是，预先设置一个正向样本预测概率阈值，当第三神经网络输出的正向样本预测概率大于预设正向样本预测概率阈值，则将对应的第二正向span确定为第一正向span。

可以理解的是，本实施例中通过IOU值和网络预测，实现对候选span双重筛选，最终得到的第一正向span为质量较高的span，与真实的span重叠度较高。

作为一种具体示例，步骤S1333中的第三神经网络包括至少两层第一BI-LSTM网络和第一全连接网络，其中，所述至少两层第一BI-LSTM网络依次连接，所述第一全连接网络与最后一层所述第一BI-LSTM网络连接。请参见图5，图5示出了本申请一个实施例提供的第三神经网络的结构示意图，在图4所示的示例中，第三神经网络包括两层第一BI-LSTM网络和一层第一全连接网络，两层第一BI-LSTM网络依次堆叠，第一全连接网络与最后一层所述第一BI-LSTM网络连接。

请参见图6，基于上述示例提供的第三神经网络，步骤S1333具体可以通过如下步骤实现：

步骤S1333a，将所述第二正向span对应的嵌入向量输入至所述第三神经网络的第一层所述第一BI-LSTM网络；

步骤S1333b，由所述第三神经网络的最后一层所述第一BI-LSTM网络输出所述第二正向span对应的特征向量；

步骤S1333c，由所述第三神经网络的第一全连接网络对所述第二正向span的特征向量进行处理，输出所述第二正向span对应的正向样本预测概率。

由于这里是要实现区分第二正向span属于正向样本还是负向样本的二分类预测，因此可以利用sigmoid函数，输出所述第二正向span对应的正向样本预测概率。

可以理解的是，第三神经网络采用多层BI-LSTM网络，可以增强第三神经网络的特征提取能力，以使提取出的第二正向span的特征更加精确。通过多层BI-LSTM网络对第二正向span对应的嵌入向量进行特征提取后，由全连接网络利用sigmoid函数对提取的特征进行概率计算，得到第二正向span的正向样本预测概率。

步骤S140，通过预设的第一神经网络预测所述第一正向span对应的边界偏移值。

可以理解的是，虽然经过步骤S130能够得到与真实的实体span重合度较高的span，但是大部分情况下，经过步骤S130得到的第一正向span与真实的实体span只是部分重叠且重叠部分较大。例如，以图1所示的示例为例，经过步骤S130得到了第一正向span“from both sides”，span边界为(7,9),而真实的实体span为“both sides”，边界为(8,9)。所以步骤S140的主要目的是预测第一正向span对应的边界偏移值，以基于预测的边界偏移值对步骤S130得到的第一正向span进行边界微调，使之尽可能与真实的span重叠度更大，理想状态下完全重叠。

为了实现预测span对应的边界偏移值的目的，所述第一神经网络可以采用回归算法模型，通过回归算法模型预测第一正向span的正确边界。

基于所述第一神经网络采用回归算法模型，请参见图7，步骤S140具体可以通过如下：

步骤S141，根据预设的多个边界移动单位对所述第一正向span的边界进行移动，得到多个第三正向span。

举例来说，考虑到边界可能会向左或向右偏移，因此可以对span进行扩展，以span(7,9)为例，在计算左侧边界的时候，可以把左侧边界分别向左或向右分别移动0、1、2个单位，即得到(5,9)、(6，9)、(7,9)、(8,9)、(9,9)，在此过程中可能会遇到左边界小于0或左边界超过右边界的情况，此类情况下，我们会用原span替代。同理，处理右边界的时候，则保持左边界位置不变，将右边界进行移动。如此，通过对第一正向span的边界进行移动，可以得到多个第三正向span。

步骤S142，将所述多个第三正向span对应的token特征向量进行拼接，得到拼接特征向量。

步骤S143，由所述回归算法模型通过如下公式(3)计算所述第一正向span对应的边界偏移值：

offset＝W₂·GELU(W₁h+b₁)+b₂ (3)

步骤S150，根据所述第一正向span对应的边界偏移值，调整所述第一正向span的边界，并基于调整边界后的所述第一正向span得到目标span。

继续以span(7,9)为例，经过回归算法模型的预测，offset＝(0.63,-0.15)，即得到的新边界为(7.63,8.85)，整数化处理后得到(8,9)，如此便可以得到span正确的边界。

步骤S160，通过预设的第二神经网络预测所述目标span对应的实体分类。

在通过对第一正向span进行调整得到目标span后，即能够对目标span进行实体分类的预测。

作为一个示例，所述第二神经网络包括至少两层第二BI-LSTM网络和第二全连接网络，其中，所述至少两层第二BI-LSTM网络依次连接，所述第二全连接网络与最后一层所述第二BI-LSTM网络连接。请参见图8，图8示出了本申请一个实施例提供的第二神经网络的结构示意图，在图8所示的示例中，第二神经网络包括两层第二BI-LSTM网络和一层第二全连接网络，两层第二BI-LSTM网络依次堆叠，第二全连接网络与最后一层所述第二BI-LSTM网络连接。

基于上述示例提供的第二神经网络，请参见图9，步骤S160具体可以通过如下步骤实现：

步骤S161，将所述目标span输入至所述第二神经网络的第一层所述第二BI-LSTM网络；

步骤S162，由所述第二神经网络的最后一层所述第二BI-LSTM网络输出所述目标span对应的特征向量；

步骤S163，由所述第二神经网络的第二全连接网络利用softmax函数对所述目标span的特征向量进行处理，输出所述目标span对应的实体分类。

可以理解的是，第二神经网络采用多层BI-LSTM网络，可以增强第二神经网络的特征提取能力，以使提取出的目标span的特征更加精确。通过多层BI-LSTM网络对目标span进行特征提取后，由全连接网络利用softmax函数对提取的特征进行概率计算，得到目标span对应各个实体分类的概率，进而基于计算出的概率确定目标span对应的实体分类。可以理解，由于这里是要做多分类的概率计算，因而采用softmax函数进行概率计算。

本申请实施例提出了一种基于深度学习的命名实体识别方法，首先基于不同的预设识别长度从所述待处理句子识别出多个候选span，以识别出长度不超过预设识别长度阈值的、所有可能的候选span，进而组成候选span集合，解决跨度较长的嵌套实体无法识别的问题。然后对所述候选span集合中的候选span进行筛选，目的是将低质量的候选span剔除，得到至少一个第一正向span，从而减少后续的计算开销；通过预设的第一神经网络预测所述第一正向span对应的边界偏移值；根据所述第一正向span对应的边界偏移值，调整所述第一正向span的边界，并基于调整边界后的所述第一正向span得到目标span；通过预设的第二神经网络预测所述目标span对应的实体分类。如此，能够基于预测的边界偏移值对span边界进行微调，使最终的目标span尽可能与真实的span重叠，达到或接近完全重叠的理想状态，从而提高实体识别准确性。

请参见图10，本申请实施例提出了一种基于深度学习的命名实体识别装置，所述装置包括：

获取模块，用于获取待处理句子；

作为示例，所述筛选模块，具体可以包括：

IOU计算单元，用于获取预设的真实span集合，将候选span与所述真实span集合进行IOU计算，得到所述候选span对应的IOU值；

第一筛选单元，用于根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span。

作为示例，所述第一筛选单元具体用于：从所述候选span集合中获取IOU值大于预设IOU阈值的所述候选span，并将获取的所述候选span作为第二正向span；获取各个所述第二正向span对应的嵌入向量；将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率；将正向样本预测概率大于预设正向样本预测概率阈值的所述第二正向span作为所述第一正向span。

作为示例，所述第三神经网络包括至少两层第一BI-LSTM网络和第一全连接网络，其中，所述至少两层第一BI-LSTM网络依次连接，所述第一全连接网络与最后一层所述第一BI-LSTM网络连接；所述将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率，包括：将所述第二正向span对应的嵌入向量输入至所述第三神经网络的第一层所述第一BI-LSTM网络；由所述第三神经网络的最后一层所述第一BI-LSTM网络输出所述第二正向span对应的特征向量；由所述第三神经网络的第一全连接网络利用sigmoid函数对所述第二正向span的特征向量进行处理，输出所述第二正向span对应的正向样本预测概率。

作为示例，所述第二正向span包括多个token，所述第二正向span对应的嵌入向量由多个token的嵌入向量拼接形成，所述token嵌入向量通过如下公式表示：

h_i＝E(t_i)+P_i；

作为示例，所述第一神经网络为回归算法模型；所述通过预设的第一神经网络预测所述第一正向span对应的边界偏移值，包括：根据预设的多个边界移动单位对所述第一正向span的边界进行移动，得到多个第三正向span；将所述多个第三正向span对应的token特征向量进行拼接，得到拼接特征向量；由所述回归算法模型通过如下公式计算所述第一正向span对应的边界偏移值：

offset＝W₂·GELU(W₁h+b₁)+b₂；

其中，offset表示所述第一正向span对应的边界偏移值，所述GELU(·)表示所述回归算法模型中的激活函数，所述h表示所述第一正向span对应的拼接特征向量，所述W₁表示第一权重矩阵，所述W₂表示第二权重矩阵，所述b₁表示第一偏置参数，所述b₂表示第二偏置参数。

作为示例，所述第二神经网络包括至少两层第二BI-LSTM网络和第二全连接网络，其中，所述至少两层第二BI-LSTM网络依次连接，所述第二全连接网络与最后一层所述第二BI-LSTM网络连接；所述通过预设的第二神经网络预测所述目标span对应的实体分类，包括：将所述目标span输入至所述第二神经网络的第一层所述第二BI-LSTM网络；由所述第二神经网络的最后一层所述第二BI-LSTM网络输出所述目标span对应的特征向量；由所述第二神经网络的第二全连接网络利用softmax函数对所述目标span的特征向量进行处理，输出所述目标span对应的实体分类。

本申请实施例还提出了一种电子设备，包括：

至少一个处理器；

以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上任一项实施例所述的基于深度学习的命名实体识别方法。

本申请实施例还提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项实施例所述的基于深度学习的命名实体识别方法。

上述各实施例可以结合使用，不同实施例之间名称相同的模块可相同可不同。

上述对本申请特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备、计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于深度学习的命名实体识别方法，其特征在于，所述方法包括：

获取待处理句子；

基于不同的预设识别长度从所述待处理句子识别出多个候选span，得到候选span集合，其中，所述预设识别长度小于预设识别长度阈值，所述候选span集合包括多个长度小于等于所述预设识别长度阈值的候选span；

对所述候选span集合中的候选span进行筛选，得到至少一个第一正向span；

根据预设的多个边界移动单位对所述第一正向span的边界进行移动，得到多个第三正向span；

将所述多个第三正向span对应的token特征向量进行拼接，得到拼接特征向量；

由第一神经网络通过如下公式计算所述第一正向span对应的边界偏移值：，其中，所述第一神经网络为回归算法模型，所述表示所述第一正向span对应的边界偏移值，所述/>（˙）表示所述回归算法模型中的激活函数，所述/>表示所述第一正向span对应的拼接特征向量，所述/>表示第一权重矩阵，所述/>表示第二权重矩阵，所述/>表示第一偏置参数，所述/>表示第二偏置参数；

根据所述第一正向span对应的边界偏移值，调整所述第一正向span的边界，并基于调整边界后的所述第一正向span得到目标span；

将所述目标span输入至第二神经网络的第一层第二BI-LSTM网络，其中，所述第二神经网络包括至少两层第二BI-LSTM网络和第二全连接网络，所述至少两层第二BI-LSTM网络依次连接，所述第二全连接网络与最后一层第二BI-LSTM网络连接；

由所述第二神经网络的最后一层第二BI-LSTM网络输出所述目标span对应的特征向量；

由所述第二神经网络的第二全连接网络利用softmax函数对所述目标span的特征向量进行处理，输出所述目标span对应的实体分类。

2.根据权利要求1所述的方法，其特征在于，所述对所述候选span集合中的候选span进行筛选，得到至少一个第一正向span，包括：

获取预设的真实span集合；

将候选span与所述真实span集合进行IOU计算，得到所述候选span对应的IOU值；

根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span。

3.根据权利要求2所述的方法，其特征在于，所述根据所述候选span集合中各个所述候选span对应的IOU值，从所述候选span集合的所述候选span中确定所述第一正向span，包括：

从所述候选span集合中获取IOU值大于预设IOU阈值的所述候选span，并将获取的所述候选span作为第二正向span；

获取各个所述第二正向span对应的嵌入向量；

将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率；

将正向样本预测概率大于预设正向样本预测概率阈值的所述第二正向span作为所述第一正向span。

4.根据权利要求3所述的方法，其特征在于，所述第三神经网络包括至少两层第一BI-LSTM网络和第一全连接网络，其中，所述至少两层第一BI-LSTM网络依次连接，所述第一全连接网络与最后一层所述第一BI-LSTM网络连接；

所述将所述第二正向span对应的嵌入向量输入至预设的第三神经网络，使所述第三神经网络输出所述第二正向span对应的正向样本预测概率，包括：

将所述第二正向span对应的嵌入向量输入至所述第三神经网络的第一层所述第一BI-LSTM网络；

由所述第三神经网络的最后一层所述第一BI-LSTM网络输出所述第二正向span对应的特征向量；

由所述第三神经网络的第一全连接网络利用sigmoid函数对所述第二正向span的特征向量进行处理，输出所述第二正向span对应的正向样本预测概率。

5.根据权利要求4所述的方法，其特征在于，所述第二正向span包括多个token，所述第二正向span对应的嵌入向量由多个token的嵌入向量拼接形成，所述token嵌入向量通过如下公式表示：

；

其中，表示第i个token的嵌入向量，/>表示第i个token的词嵌入向量，/>表示第i个token的位置嵌入向量。

6.一种基于深度学习的命名实体识别装置，其特征在于，所述装置包括：

获取模块，用于获取待处理句子；

第一预测模块，用于根据预设的多个边界移动单位对所述第一正向span的边界进行移动，得到多个第三正向span，将所述多个第三正向span对应的token特征向量进行拼接，得到拼接特征向量，由第一神经网络通过如下公式计算所述第一正向span对应的边界偏移值：，其中，所述第一神经网络为回归算法模型，所述/>表示所述第一正向span对应的边界偏移值，所述/>（˙）表示所述回归算法模型中的激活函数，所述/>表示所述第一正向span对应的拼接特征向量，所述/>表示第一权重矩阵，所述/>表示第二权重矩阵，所述/>表示第一偏置参数，所述/>表示第二偏置参数；

第二预测模块，用于将所述目标span输入至第二神经网络的第一层第二BI-LSTM网络，由所述第二神经网络的最后一层第二BI-LSTM网络输出所述目标span对应的特征向量，由所述第二神经网络的第二全连接网络利用softmax函数对所述目标span的特征向量进行处理，输出所述目标span对应的实体分类，其中，所述第二神经网络包括至少两层第二BI-LSTM网络和第二全连接网络，所述至少两层第二BI-LSTM网络依次连接，所述第二全连接网络与最后一层第二BI-LSTM网络连接。

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一项所述的基于深度学习的命名实体识别方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的基于深度学习的命名实体识别方法。