CN113326701A

CN113326701A - 嵌套实体识别方法、装置、计算机设备及存储介质

Info

Publication number: CN113326701A
Application number: CN202110682529.6A
Authority: CN
Inventors: 王�锋; 郭东波; 叶朝鹏; 石志伟
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-31

Abstract

本申请公开一种嵌套实体识别方法、装置、计算机设备及存储介质，包括：获取待识别的目标语句；根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量；将所述序列向量输入至预设的实体识别模型中，其中，所述实体识别模型为预先训练至收敛状态，用于识别文字信息中实体词语指针的神经网络模型；读取所述实体识别模型输出的多个实体词语指针，并基于预设的至少两个分类类别，计算各分类类别与各实体词语指针之间的置信度；根据所述置信度确定所述各分类类别对应的实体词语指针，并生成所述各分类类别的分类结果。实现了对目标语句中嵌套重复实体的“一次多类”识别，提高了识别的效率。

Description

嵌套实体识别方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及文字信息处理领域，尤其是一种嵌套实体识别方法、装置、计算机设备及存储介质。

背景技术

在互联网领域的搜索、推荐和用户画像分析等需要将嵌套实体词语识别方法作为基础模块，例如用户搜索时，搜索框对用户搜索的词汇联想，可以引导用户搜索想要搜索的商品，提高搜索效率，而词汇联想中的联想词需要基于商品库中的商品，嵌套实体的识别就可以识别出商品名称。根据用户的搜索，识别出搜索关键词，例如商品词、品牌等，可以提高搜索精排的效果。同时用户的搜索商品、点击商品、加购和下单商品登行为，可以使用嵌套实体识别方法识别出用户这些行为的偏好，用于用户画像分析。

本发明创造的发明人在研究中发现，现行的嵌套实体识别存在嵌套实体问题(实体重叠问题)，如Apple iPhone 11作为语句识别时会出现两个实体Apple和Apple iPhone11分别代表品牌和商品名称两个实体。而传统提取法由于每一个类别只能有一个分类类别，无法解决这类问题。

发明内容

本发明实施例提供一种能够对嵌套实体进行全局分类的嵌套实体识别方法、装置、计算机设备及存储介质。

为解决上述技术问题，本发明创造的实施例采用的一个技术方案是：提供一种嵌套实体识别方法，包括：

获取待识别的目标语句；

根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量；

将所述序列向量输入至预设的实体识别模型中，其中，所述实体识别模型为预先训练至收敛状态，用于识别文字信息中实体词语的神经网络模型；

读取所述实体识别模型输出的多个实体词语指针，并基于预设的至少两个分类类别，计算各分类类别与各实体词语指针之间的置信度；

根据所述置信度确定所述各分类类别对应的实体词语指针，并生成所述各分类类别的分类结果。

可选地，所述获取待识别的目标语句包括：

采集目标用户的用户信息、商品信息和/或用户行为信息；

将所述用户信息、商品信息和/或用户行为信息通过文字信息进行描述生成所述目标语句。

可选地，所述序列向量包括词语向量，所述根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量包括：

根据所述目标语句，确定所述目标语句的多个语句变量；

根据各语句变量生成所述目标语句对应的语句矩阵，并将所述各语句变量以二进制的方式嵌入至所述语句矩阵中，生成所述目标语句的词语向量。

可选地，所述序列向量包括位置向量，所述根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量包括：

获取所述各语句变量的位置信息，其中，所述位置信息包括所述各语句变量之间的相对位置信息；

根据预设的旋转式位置编码对所述位置信息进行编码，生成所述各语句变量对应的绝对位置信息，其中，所述各语句变量的绝对位置信息通过所述位置信息进行表达；

基于所述绝对位置信息，生成所述目标语句的位置向量。

可选地，所述读取所述实体识别模型输出的多个实体词语指针，并基于预设的至少两个分类类别，计算各分类类别与各实体词语指针之间的置信度包括：

提取预设的至少两个分类类别；

根据所述实体识别模型的损失函数，计算所述各分类类别与所述多个实体词语指针之间的特征距离；

基于预设的sigmoid函数和所述特征距离，计算所述各分类类别与各实体词语指针之间的置信度。

可选地，所述根据所述置信度确定所述各分类类别对应的实体词语指针，并生成所述各分类类别的分类结果包括：

将所述各分类类别中对应置信度最大的实体词语指针，确定为对应分类类别的实体词语指针；

在所述目标语句中提取与所述实体词语指针对应的实体词语；

根据所述实体词语生成所述各分类类别的分类结果。

可选地，所述实体识别模型还包括损失函数，所述损失函数的特征描述为：

其中，所述Pα表示所述目标语句的中类型为α的实体词语指针集合，Qα表示所述目标语句非实体词语或者类型非α的实体的词语指针集合，切i≤j的组合。

为解决上述技术问题，本发明实施例还提供一种嵌套实体识别装置，所述嵌套实体识别装置包括：

获取模块，用于获取待识别的目标语句；

处理模块，用于根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量；

分类模块，用于将所述序列向量输入至预设的实体识别模型中，其中，所述实体识别模型为预先训练至收敛状态，用于识别文字信息中实体词语的神经网络模型；

计算模块，用于读取所述实体识别模型输出的多个实体词语指针，并基于预设的至少两个分类类别，计算各分类类别与各实体词语指针之间的置信度；

执行模块，用于根据所述置信度确定所述各分类类别对应的实体词语指针，并生成所述各分类类别的分类结果。

可选地，所述嵌套实体识别装置还包括：

第一采集子模块，用于采集目标用户的用户信息、商品信息和/或用户行为信息；

第一转换子模块，用于将所述用户信息、商品信息和/或用户行为信息通过文字信息进行描述生成所述目标语句。

可选地，所述序列向量包括词语向量，所述嵌套实体识别装置还包括：

第一确认子模块，用于根据所述目标语句，确定所述目标语句的多个语句变量；

第一生成子模块，用于根据各语句变量生成所述目标语句对应的语句矩阵，并将所述各语句变量以二进制的方式嵌入至所述语句矩阵中，生成所述目标语句的词语向量。

可选地，所述序列向量包括位置向量，所述嵌套实体识别装置还包括：

第一获取子模块，用于获取所述各语句变量的位置信息，其中，所述位置信息包括所述各语句变量之间的相对位置信息；

第二生成子模块，用于根据预设的旋转式位置编码对所述位置信息进行编码，生成所述各语句变量对应的绝对位置信息，其中，所述各语句变量的绝对位置信息通过所述位置信息进行表达；

第一执行子模块，用于基于所述绝对位置信息，生成所述目标语句的位置向量。

可选地，所述嵌套实体识别装置还包括：

第一提取子模块，用于提取预设的至少两个分类类别；

第二计算子模块，用于根据所述实体识别模型的损失函数，计算所述各分类类别与所述多个实体词语指针之间的特征距离；

第二执行子模块，用于基于预设的sigmoid函数和所述特征距离，计算所述各分类类别与各实体词语指针之间的置信度。

可选地，所述嵌套实体识别装置还包括：

第二确认子模块，用于将所述各分类类别中对应置信度最大的实体词语指针，确定为对应分类类别的实体词语指针；

第二提取子模块，用于在所述目标语句中提取与所述实体词语指针对应的实体词语；

第三执行子模块，用于根据所述实体词语生成所述各分类类别的分类结果。

为解决上述技术问题本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述嵌套实体识别方法的步骤。

为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述嵌套实体识别方法的步骤。

本发明实施例的有益效果是：通过将需要进行实体词语提取的目标语句进行编码，生成方便实体识别模型处理的序列向量，将序列向量输入至实体识别模型中进行实体词语指针提取，提取得到的实体词语指针指向目标语句中的嵌套实体，避免通过词典进行指定分类，拓宽了实体提取的应用场景。通过实体识别模型生成多个实体词语指针后，根据设定的分类类别，分别计算出各个分类类别与多个实体词语指针之间的置信度，再根据置信度确定出各个分类类别对应的分类结果，每个分类类别的分类结果的确定都通过与全量实体词语指针的置信度计算得出，实现了对目标语句中嵌套重复实体的“一次多类”识别，提高了识别的效率。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个具体实施例的嵌套实体识别方法的基本流程示意图；

图2为本申请一个具体实施例的生成目标语句的流程示意图；

图3为本申请一个具体实施例的第一种向量转换方法的流程示意图；

图4为本申请一个具体实施例的第二种向量转换方法的流程示意图；

图5为本申请一个具体实施例的生成分类置信度的流程示意图；

图6为本申请一个具体实施例的生成分类结果的流程示意图；

图7为本申请一个实施例的嵌套实体识别装置基本结构示意图；

图8为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，执行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

请参阅图1，图1为本实施例嵌套实体识别方法的基本流程示意图。

如图1所示，一种嵌套实体识别方法，包括：

S1100、获取待识别的目标语句；

获取需要进行实体词语识别的目标语句。目标语句的获取，能够是读取用户或者指定用户的用户信息，例如：用户姓名、年龄、性别、爱好或者历史交易习惯等信息。上述用户信息可能通过离散的文字形式存在，通过拼接的方式，将其拼接为目标语句。在一些实施方式中，目标语句为用户在搜索引擎中输入的商品名、服务名或者其他搜索信息。在另一些实施方式中，目标语句能够为用户在门户网站、电商网站或者其他网页中点击、浏览或者拖拽商品的行为，上述行为在转化为目标语句时，需要对上述用户行为进行文字转换，例如，用户浏览商品的行为，需要转化为文字信息：用户张XX，在18：XX(表示时间)时通过XX平台网站浏览了X牌旅游鞋。用户行为和文字信息之间的转换能够通过预设的转换脚本进行转换，也可以通过训练至收敛状态的卷积神经网络、深度神经网络或者循环神经网络模型进行转换。

需要指出的是，本实施方式中的目标语句能够是(不限于)：词语、语句、一段文字信息或者多段文字信息。

本实施方式中的嵌套实体是指，在目标语句中包含的商品、服务或者品牌等名词。但是，嵌套实体的含义不局限于此，根据具体应用场景的不同，在一些实施方式中，嵌套实体能够为动词、形容词或者量词等词语。

S1200、根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量；

根据预设的编码规则对目标语句进行编码处理，编码处理的过程就是将目标语句进行向量化。

在一些实施方式中，预设的编码规则为：one-hot编码。One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。通过one-hot编码对目标语句进行编码时，需要对目标语句进行分词，将目标语句转化为一个个字符，然后，根据字符构建矩阵的纵坐标，并将字符本身作为矩阵的竖坐标构建向量矩阵。最后，将每个字符通过二进制的方式嵌入到向量矩阵中，生成目标语句的词语向量。

在一些实施方式中，预设的编码规则为：旋转式位置编码。旋转式位置编码(RoPE)来作为相对位置编码，旋转式位置编码是一个变换矩阵Ri，满足关系RiT Rj＝Rj-1，其中，RiT表示对Ri进行了转置，使其横坐标与纵坐标发生了转换。上述公式中我们能够看出，当前字符的绝对位置与变换矩阵Ri的转置矩阵进行内积后，能够用于表示前一位置字符的绝对位置，也就是说可以通过字符的绝对位置表示字符之间的相对位置，使后续的模型能够根据字符之间的相对位置和绝对位置进行词语分类，使分类的结果更加的精准。通过旋转式位置编码目标语句中各个字符的位置进行编码后，生成目标语句的位置向量。

在一些实施方式中，需要同步提取目标语句的语句向量和位置向量，并将语句向量和位置向量都输入至实体识别模型中。

S1300、将所述序列向量输入至预设的实体识别模型中，其中，所述实体识别模型为预先训练至收敛状态，用于识别文字信息中实体词语指针的神经网络模型；

将转换得到的目标语句的序列向量输入至预设的实体识别模型中。其中，实体识别模型通过预先训练已经训练至收敛状态，即实体识别模型已经经过训练且已经达到了训练设定的收敛条件，能够对目标语句中的实体词语进行提取。

实体识别模型在进行训练时，需要对训练样本进行标注，进行标注时，不仅仅标准训练样本中的一个实体词语，而是根据训练样本的实际情况，标注一个、两个、三个或者更多个实体词语，且标记出相互之间重叠的实体词语，这样经过训练得到的实体识别模型能够识别出目标语句中的多个实体词语。

实体识别模型能够通过指针网络(Pointer Network)训练得到。但是，实体识别模型的结构不局限于此，在一些实施方式中，实体识别模型能够由Seq2Seq模型或者Attention训练得到。

实体识别模型能够通过指针网络训练得到时，实体识别模型的输出不是具体的实体词语，其结果是直接指向实体识别模型的输入，也就是目标语句，即实体识别模型的输出在输入中。因此，实体识别模型输出的是实体词语指针，在实体词语指针中记载实体词语指针对应的实体词语在目标语句中的起始位置和结束位置，根据该起始位置和结束位置，能够确定出实体词语指针对应的实体词语。

S1400、读取所述实体识别模型输出的多个实体词语指针，并基于预设的至少两个分类类别，计算各分类类别与各实体词语指针之间的置信度；

读取目标语句中输出的多个实体词语指针，然后，读取预先建立的分类类别，例如品牌、商品名称或者商品型号等分类类别。但是，分类类别的设置不局限于此，根据具体应用场景的不同，可以根据满足场景使用的要求进行自定义设置。本实施方式，分类类别的设置不局限于两个，在一些实施方式中，分类类别的设置能够为三个、四个或者更多个。

计算第一个分类类别与每一个实体词语指针的特征之间的置信度，然后计算第二个分类类别与每一个实体词语指针的特征之间的置信度，以此类推，直至计算完最后一个分类类别与每一个实体词语指针的特征之间的置信度后为止。

由此能够看出，在实体识别模型后设置多个并列的分类层或者全连接层，分类层或者全连接层与分类类别一一对应，就能够实现对目标语句中多个嵌套实体词语的分类。在一些实施方式中，在实体识别模型后设置一个分类层或者全连接层，通过对分类层或者全连接层进行复用，实现对多个嵌套实体词语的分类，通过针对不同分类类别调用不同权重参数的方式，就能够实现对多个分类类别的分别分类。通过对计算得到的实体词语指针进行全局的分类，实现了对目标语句中多种类型实体词语的分类，提高了分类效率和准确度，减少了模型数量，降低了运算能耗。

S1500、根据所述置信度确定所述各分类类别对应的实体词语指针，并生成所述各分类类别的分类结果。

当计算得到各分类类别与各实体词语指针之间的置信度后，将第一个分类类别中置信度最大的实体词语指针确定为该分类类别对应的实体词语指针；将第二个分类类别中置信度最大的实体词语指针确定为该分类类别对应的实体词语指针；以此类推，直至将所有分类类别对应的实体词语指针均确定下来。

根据每一个分类类别对应的实体词语指针，在目标语句中确定每个实体词语指针在目标语句中的起始位置和结束位置，然后，根据其实位置和结束位置确定出一个完整的实体词语，最后，将实体词语作为实体词语指针对应的分类结果。

通过将需要进行实体词语提取的目标语句进行编码，生成方便实体识别模型处理的序列向量，将序列向量输入至实体识别模型中进行实体词语指针提取，提取得到的实体词语指针指向目标语句中的嵌套实体，避免通过词典进行指定分类，拓宽了实体提取的应用场景。

通过实体识别模型生成多个实体词语指针后，根据设定的分类类别，分别计算出各个分类类别与多个实体词语指针之间的置信度，再根据置信度确定出各个分类类别对应的分类结果，每个分类类别的分类结果的确定都通过与全量实体词语指针的置信度计算得出，实现了对目标语句中嵌套重复实体的“一次多类”识别，提高了识别的效率。

在一些实施方式中，目标语句的元数据来源于用户信息、商品信息和/或用户行为信息等信息数据。请参阅图2，图2为本实施例生成目标语句的流程示意图。

如图2所示S1100包括：

S1111、采集目标用户的用户信息、商品信息和/或用户行为信息；

当本实施方式中的嵌套实体识别方法，应用于电商购物的应用场景中时，目标语句的元数据来源于用户信息、商品信息和/或用户行为信息。通过用户账户、用户端追踪或者服务器端信息调用，可以获得上述信息。

S1112、将所述用户信息、商品信息和/或用户行为信息通过文字信息进行描述生成所述目标语句。

将采集得到的用户信息、商品信息和/或用户行为信息通过文字信息进行描述生成所述目标语句。

当目标语句的元数据为用户信息时，用户信息包括(不限于)用户姓名、年龄、性别、爱好或者历史交易习惯等信息。上述用户信息可能通过离散的文字形式存在，通过拼接的方式，将其拼接为目标语句。

当目标语句的元数据为用户在语音或者文字输入的商品名时，需要对语音信息进行文字转化生成对应的目标语句。而当用户通过多个输入行为输入商品品牌和商品名称时，需要通过拼接的方式将其转化为完整的目标语句。

当目标语句的元数据为用户行为数据时。用户在门户网站、电商网站或者其他网页中点击、浏览或者拖拽商品的行为，上述行为在转化为目标语句时，需要对上述用户行为进行文字转换，例如，用户浏览商品的行为，需要转化为文字信息：用户张XX，在18：XX(表示时间)时通过XX平台网站浏览了X牌旅游鞋。用户行为和文字信息之间的转换能够通过预设的转换脚本进行转换，也可以通过训练至收敛状态的卷积神经网络、深度神经网络或者循环神经网络模型进行转换。

在一些实施方式中，目标语句的元数据也能够是用户信息、商品信息和用户行为信息三者的结合数据，当元数据为结合数据时，需要根据信息类型依次对上述信息进行拼接，并且在不同信息类型位置设置表明其类型的标记，以便于对上述类型的数据进行单独取用。

在一些实施方式中，序列向量包括词语向量，需要将目标语句转换为词语向量后，在输入到实体识别模型中。请参阅图3，图3为本实施例第一种向量转换方法的流程示意图。

如图3所示，S1200包括：

S1211、根据所述目标语句，确定所述目标语句的多个语句变量；

在进行目标语句实体词语提取之前，需要对目标语句进行向量化，通过分词的方式，将目标语句划分为一个一个独立的字符，例如，将“我要买X牌睡衣”进行单字分词，划分为“我”“要”“买”“X”“牌”“睡”“衣”七个独立字符。经过分词划分后的单个字符就是目标语句的语句变量。将每个语句变量根据设定映射规则，映射成为不同的正整数，例如，将“我”“要”“买”“X”“牌”“睡”“衣”映射为1、2、3、4、5、6、7数字，就完成了语句变量的映射。

S1212、根据各语句变量生成所述目标语句对应的语句矩阵，并将所述各语句变量以二进制的方式嵌入至所述语句矩阵中，生成所述目标语句的词语向量。

根据语句变量的数量建立矩阵框架，语句变量的矩阵规模与数据变量成正比，矩阵规模＝语句变量数量*语句变量的数量。例如，当语句变量为“我”“要”“买”“X”“牌”“睡”“衣”这7个字时，矩阵的规模为7*7的矩阵。

将矩阵构建完成后，需要各语句变量以二进制的方式嵌入至语句矩阵中，请参阅列表1：

列表1

	我	要	买	X	牌	睡	衣
								我	1	0	0	0	0	0	0
要	0	1	0	0	0	0	0
								买	0	0	1	0	0	0	0
X	0	0	0	1	0	0	0
								牌	0	0	0	0	1	0	0
睡	0	0	0	0	0	1	0
								衣	0	0	0	0	0	0	1

将各语句变量以二进制的方式嵌入至语句矩阵中，就完成了对词语向量的构建。通过这种方式构建的词语向量无需通过词典构建庞大复杂的矩阵，降低了后续计算的难度。

在一些实施方式中，序列向量还包括位置向量，位置向量能够表示出每个语句变量在目标语句的位置，有利于实体识别模型识别字符之间的相关性，提高实体词语指针提取的准确率。请参阅图4，图4为本实施例第二种向量转换方法的流程示意图。

S1221、获取所述各语句变量的位置信息，其中，所述位置信息包括所述各语句变量之间的相对位置信息；

获取各个语句变量的位置信息，位置信息包括每个语句变量在目标语句中的顺序位置，即排在第一位的语句变量位置信息为1，第二位的语句变量位置信息为2，依此类推确定每一个语句变量的位置信息。

位置信息中还包括各语句变量之间的相对位置关系，即通过前一个语句变量的位置信息表述后一个语句变量的位置，例如，第二个语句变量的位置是在前一个语句变量的位置基础上加1。通过这种相关性得到各个句变量之间的相对位置信息。

S1222、根据预设的旋转式位置编码对所述位置信息进行编码，生成所述各语句变量对应的绝对位置信息，其中，所述各语句变量的绝对位置信息通过所述位置信息进行表达；

根据预设的旋转式位置编码对位置信息进行编码，生成各语句变量对应的绝对位置信息。本实施方式中，我们将通过相对位置关系换算得到的语句变量的位置关系称之为绝对位置关系。

旋转式位置编码。旋转式位置编码(RoPE)来作为相对位置编码，旋转式位置编码是一个变换矩阵Ri，满足关系RiT Rj＝Rj-1，其中，RiT表示对Ri进行了转置，使其横坐标与纵坐标发生了转换。上述公式中我们能够看出，当前字符的绝对位置与变换矩阵Ri的转置矩阵进行内积后，能够用于表示前一位置字符的绝对位置，也就是说可以通过字符的绝对位置表示字符之间的相对位置，使后续的模型能够根据字符之间的相对位置和绝对位置进行词语分类，使分类的结果更加的精准。通过旋转式位置编码目标语句中各个字符的位置进行编码后，生成目标语句的位置向量。

S1223、基于所述绝对位置信息，生成所述目标语句的位置向量。

通过上述计算，得到每个语句变量的绝对位置信息后，将每个语句变量的绝对位置信息进行二进制转换，生成目标语句的位置向量。

在一些实施方式中，当实体识别模型提取出目标语句中的多个实体词语指针，需要根据要求对每个分类类别进行分类，得到不同分类类别的分类结果。请参阅图5，图5为本实施例生成分类置信度的流程示意图。

如图5所示S1400包括：

S1411、提取预设的至少两个分类类别；

本实施方式中，为了实现多类别实体词语的提取，需要预先设置分类类别，例如品牌、商品名称或者商品型号等分类类别。但是，分类类别的设置不局限于此，根据具体应用场景的不同，可以根据满足场景使用的要求进行自定义设置。本实施方式，分类类别的设置不局限于两个，在一些实施方式中，分类类别的设置能够为三个、四个或者更多个。

多个分类类别设置实现的方法为：在实体识别模型后设置多个并列的分类层或者全连接层，分类层或者全连接层与分类类别一一对应，就能够实现对目标语句中多个嵌套实体词语的分类。在一些实施方式中，在实体识别模型后设置一个分类层或者全连接层，通过对分类层或者全连接层进行复用，实现对多个嵌套实体词语的分类，通过针对不同分类类别调用不同权重参数的方式，就能够实现对多个分类类别的分别分类。

S1412、根据所述实体识别模型的损失函数，计算所述各分类类别与所述多个实体词语指针之间的特征距离；

通过实体识别模型的损失函数计算各分类类别与多个实体词语指针之间的特征距离。计算方式为：计算第一个分类类别与每一个实体词语指针的特征之间的特征距离，然后计算第二个分类类别与每一个实体词语指针的特征之间的特征距离，以此类推，直至计算完最后一个分类类别与每一个实体词语指针的特征之间的特征距离后为止。

本实施方式中，使用softmax函数+交叉熵损失函数作为实体识别模型的混合损失函数。损失函数的特征描述为：

S1413、基于预设的sigmoid函数和所述特征距离，计算所述各分类类别与各实体词语指针之间的置信度。

计算得到每个分类类别与每个实体词语指针之间的特征距离后，需要对计算得到的特征距离进行归一化，即将特征距离这个实数投影到(0,1)的区间内。这一步的运算通过sigmoid函数进行，将每个特征距离都映射到(0,1)区间内时，映射的取值就是每个分类类别与各实体词语指针之间的置信度。

在一些实施方式中，确定个分类类别与各实体词语指针之间的置信度后，需要确定每一分类类别唯一对应的一个实体词语指针。请参阅图6，图6为本实施例生成分类结果的流程示意图。

如图6所示，S1500包括：

S1511、将所述各分类类别中对应置信度最大的实体词语指针，确定为对应分类类别的实体词语指针；

S1512、在所述目标语句中提取与所述实体词语指针对应的实体词语；

根据每一个分类类别对应的实体词语指针，在目标语句中确定每个实体词语指针在目标语句中的起始位置和结束位置，然后，根据其实位置和结束位置确定出一个完整的实体词语。

S1513、根据所述实体词语生成所述各分类类别的分类结果。

得到分类类别对应的实体词语后，该实体词语即为该分类类别的分类结果。依次得到每个分类类别的实体词语后，就完成了对目标语句的多类别分类。

上述嵌套实体识别方法，当目标语句序列长度为n，当只有一种实体词语要识别，且每个待识别实体词语是该目标语句的一个连续片段，长度不限，并且可以相互嵌套(两个实体词语之间有交集)，则该目标语句有n(n+1)/2个候选实体，即长度为n的目标语句有n(n+1)/2个不同的连续子序列，这些子序列包含了所有可能的实体词语，而我们要做的就是从这n(n+1)/2个“候选实体词语”里边挑出真正的实体词语，将其转化为“n(n+1)/2选k”的多标签分类问题。如果有m种分类类别需要识别，那么就做成了m个“n(n+1)/2选k”的多标签分类问题。解决了现有技术中不能进行多类别分类的问题。

为解决上述技术问题，本发明实施例还提供嵌套实体识别装置。具体请参阅图7，图7为本实施例嵌套实体识别装置基本结构示意图。

如图7所示，一种嵌套实体识别装置，包括：获取模块1100、处理模块1200、分类模块1300、计算模块1400和执行模块1500。其中，获取模块1100用于获取待识别的目标语句；处理模块1200用于根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量；分类模块1300用于将所述序列向量输入至预设的实体识别模型中，其中，所述实体识别模型为预先训练至收敛状态，用于识别文字信息中实体词语的神经网络模型；计算模块1400用于读取所述实体识别模型输出的多个实体词语指针，并基于预设的至少两个分类类别，计算各分类类别与各实体词语指针之间的置信度；执行模块1500用于根据所述置信度确定所述各分类类别对应的实体词语指针，并生成所述各分类类别的分类结果。

嵌套实体识别装置通过将需要进行实体词语提取的目标语句进行编码，生成方便实体识别模型处理的序列向量，将序列向量输入至实体识别模型中进行实体词语指针提取，提取得到的实体词语指针指向目标语句中的嵌套实体，避免通过词典进行指定分类，拓宽了实体提取的应用场景。通过实体识别模型生成多个实体词语指针后，根据设定的分类类别，分别计算出各个分类类别与多个实体词语指针之间的置信度，再根据置信度确定出各个分类类别对应的分类结果，每个分类类别的分类结果的确定都通过与全量实体词语指针的置信度计算得出，实现了对目标语句中嵌套重复实体的“一次多类”识别，提高了识别的效率。

在一些实施方式中，第一采集子模块和第一转换子模块。其中，第一采集子模块用于采集目标用户的用户信息、商品信息和/或用户行为信息；第一转换子模块用于将所述用户信息、商品信息和/或用户行为信息通过文字信息进行描述生成所述目标语句。

在一些实施方式中，所述序列向量包括词语向量，所述嵌套实体识别装置还包括：第一确认子模块和第一生成子模块。其中，第一确认子模块用于根据所述目标语句，确定所述目标语句的多个语句变量；第一生成子模块用于根据各语句变量生成所述目标语句对应的语句矩阵，并将所述各语句变量以二进制的方式嵌入至所述语句矩阵中，生成所述目标语句的词语向量。

在一些实施方式中，所述序列向量包括位置向量，所述嵌套实体识别装置还包括：第一获取子模块、第二生成子模块和第一执行子模块。其中，第一获取子模块用于获取所述各语句变量的位置信息，其中，所述位置信息包括所述各语句变量之间的相对位置信息；第二生成子模块用于根据预设的旋转式位置编码对所述位置信息进行编码，生成所述各语句变量对应的绝对位置信息，其中，所述各语句变量的绝对位置信息通过所述位置信息进行表达；第一执行子模块用于基于所述绝对位置信息，生成所述目标语句的位置向量。

在一些实施方式中，所述嵌套实体识别装置还包括：第一提取子模块、第二计算子模块和第二执行子模块。其中，第一提取子模块用于提取预设的至少两个分类类别；第二计算子模块用于根据所述实体识别模型的损失函数，计算所述各分类类别与所述多个实体词语指针之间的特征距离；第二执行子模块用于基于预设的sigmoid函数和所述特征距离，计算所述各分类类别与各实体词语指针之间的置信度。

在一些实施方式中，所述嵌套实体识别装置还包括：第二确认子模块、第二提取子模块和第三执行子模块。其中，第二确认子模块用于将所述各分类类别中对应置信度最大的实体词语指针，确定为对应分类类别的实体词语指针；第二提取子模块用于在所述目标语句中提取与所述实体词语指针对应的实体词语；第三执行子模块用于根据所述实体词语生成所述各分类类别的分类结果。

在一些实施方式中，所述实体识别模型还包括损失函数，所述损失函数的特征描述为：

为解决上述技术问题，本发明实施例还提供计算机设备。具体请参阅图8，图8为本实施例计算机设备基本结构框图。

如图8所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种嵌套实体识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种嵌套实体识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图7中获取模块1100、处理模块1200、分类模块1300、计算模块1400和执行模块1500的具体功能，存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有嵌套实体识别装置中执行所有子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过将需要进行实体词语提取的目标语句进行编码，生成方便实体识别模型处理的序列向量，将序列向量输入至实体识别模型中进行实体词语指针提取，提取得到的实体词语指针指向目标语句中的嵌套实体，避免通过词典进行指定分类，拓宽了实体提取的应用场景。通过实体识别模型生成多个实体词语指针后，根据设定的分类类别，分别计算出各个分类类别与多个实体词语指针之间的置信度，再根据置信度确定出各个分类类别对应的分类结果，每个分类类别的分类结果的确定都通过与全量实体词语指针的置信度计算得出，实现了对目标语句中嵌套重复实体的“一次多类”识别，提高了识别的效率。

本发明还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例嵌套实体识别方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种嵌套实体识别方法，其特征在于，包括：

获取待识别的目标语句；

将所述序列向量输入至预设的实体识别模型中，其中，所述实体识别模型为预先训练至收敛状态，用于识别文字信息中实体词语指针的神经网络模型；

2.根据权利要求1所述的嵌套实体识别方法，其特征在于，所述获取待识别的目标语句包括：

采集目标用户的用户信息、商品信息和/或用户行为信息；

3.根据权利要求1所述的嵌套实体识别方法，其特征在于，所述序列向量包括词语向量，所述根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量包括：

根据所述目标语句，确定所述目标语句的多个语句变量；

4.根据权利要求3所述的嵌套实体识别方法，其特征在于，所述序列向量包括位置向量，所述根据预设的编码规则对所述目标语句进行编码处理，生成所述目标语句的序列向量包括：

基于所述绝对位置信息，生成所述目标语句的位置向量。

5.根据权利要求1所述的嵌套实体识别方法，其特征在于，所述读取所述实体识别模型输出的多个实体词语指针，并基于预设的至少两个分类类别，计算各分类类别与各实体词语指针之间的置信度包括：

提取预设的至少两个分类类别；

6.根据权利要求1所述的嵌套实体识别方法，其特征在于，所述根据所述置信度确定所述各分类类别对应的实体词语指针，并生成所述各分类类别的分类结果包括：

根据所述实体词语生成所述各分类类别的分类结果。

7.根据权利要求1-6任意一项所述的嵌套实体识别方法，其特征在于，所述实体识别模型还包括损失函数，所述损失函数的特征描述为：

8.一种嵌套实体识别装置，其特征在于，所述嵌套实体识别装置包括：

获取模块，用于获取待识别的目标语句；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述嵌套实体识别方法的步骤。

10.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述嵌套实体识别方法的步骤。