CN112131880B

CN112131880B - 一种命名实体识别方法、装置及系统

Info

Publication number: CN112131880B
Application number: CN202011026656.2A
Authority: CN
Inventors: 杨铭; 陈杨君; 刘设伟; 伍志; 王觅
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2023-11-07
Anticipated expiration: 2040-09-25
Also published as: CN112131880A

Abstract

本发明提供一种命名实体识别方法、装置及系统，用于解决现有技术中存在的由于无法识别非连续实体，导致漏识别和错误识别的技术问题，所述方法包括：基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得待识别文本数据对应的得分矩阵，其中，命名实体识别模型为文本数据和得分矩阵的函数关系模型，得分矩阵用于表示文本数据中每个字在各标签类别下的得分，标签类别为将文本数据以堆栈格式存储时的入栈动作标识；基于待识别文本数据对应的得分矩阵，获得将待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，基于每个字对应的入栈动作标识，确定待识别文本数据的命名实体识别结果。

Description

一种命名实体识别方法、装置及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种命名实体识别方法、装置及系统。

背景技术

命名实体识别(Named entity recognition，NER)，也称为实体抽取或实体提取，是信息提取的一个子任务，旨在将文本中的命名实体定位并分类为预先定义的类别，如人名、组织机构名、地名、特定类物品名等。然而，现阶段命名实体识别任务的相关研究多数是限定在所要识别的文本中的实体是连续实体的假设下，而实际上文本中部分实体会存在由无关字词造成的断连现象，如“重疾险对肺部结果为结节者拒保”，文本中包括“重疾险”这一保险产品类实体以及“肺结节”这一疾病类实体，但“肺结节”实体因“部结果为”等无关字词存在，造成断连，即文本中的“肺部结果为结节”可视为非连续实体。可见，现有技术存在由于无法识别非连续实体，导致漏识别和错误识别的问题。

发明内容

本申请实施例提供一种命名实体识别方法、装置及系统，用于解决现有技术中存在的由于无法识别非连续实体，导致漏识别和错误识别的技术问题。

第一方面，为解决上述技术问题，本申请实施例提供一种命名实体识别方法，该方法的技术方案如下：

基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得所述待识别文本数据对应的得分矩阵，其中，所述命名实体识别模型为文本数据和得分矩阵的函数关系模型，所述得分矩阵用于表示所述文本数据中每个字在各标签类别下的得分，所述标签类别为将所述文本数据以堆栈格式存储时的入栈动作标识；

基于所述待识别文本数据对应的得分矩阵，获得将所述待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，基于所述每个字对应的入栈动作标识，确定所述待识别文本数据的命名实体识别结果。

在本申请实施例中，首先基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得待识别文本数据对应的得分矩阵，其中，命名实体识别模型为文本数据和得分矩阵的函数关系模型，得分矩阵用于表示文本数据中每个字在各标签类别下的得分，标签类别为将文本数据以堆栈格式存储时的入栈动作标识，再基于待识别文本数据对应的得分矩阵，获得将待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，基于每个字对应的入栈动作标识，确定待识别文本数据的命名实体识别结果，使得不仅可以识别文本中的连续实体，也可以识别文本中的非连续实体，从而极大地丰富命名实体识别任务的识别结果，极大地减少漏识别和错误识别。

一种可选实施方式中，所述命名实体识别模型是通过如下方式获得的：

获取第一训练文本集，其中，所述第一训练文本集为预设领域的堆栈标记文本数据的集合，所述堆栈标记文本数据为以堆栈格式存储的标记了实体的位置序号以及类别的文本数据；

将所述第一训练文本集中的堆栈标记文本数据转化为字向量矩阵；

将所述字向量矩阵输入长短期记忆网络LSTM中进行训练，获得所述命名实体识别模型，其中，所述LSTM包括多个门结构和细胞单元，各个门和细胞单元的计算公式具体为：

其中，σ为Sigmoid激活函数，tanh为双曲正切激活函数，x_t为t时刻的字向量，i_t为t时刻输入门的输出向量，f_t为t时刻遗忘门的输出向量,c_t和c_t-1为t时刻和t-1时刻的细胞单元的记忆流状态，o_t为t时刻输出门的输出向量，h_t和h_t-1分别表示t时刻和t-1时刻隐藏层的输出向量，w_xi表示字向量和输入门的权值矩阵，w_hi表示隐藏层和输入门的权值矩阵，w_ci表示细胞单元和输入门的权值矩阵，b_i、b_f、b_o、b_c分别表示输入门、遗忘门、输出门、细胞单元的偏置参数。

一种可选实施方式中，获取第一训练文本集，包括：

获取第二训练文本集，其中，所述第二训练文本集为所述预设领域的非结构化文本数据的集合；

将所述第二训练文本集中的非结构化文本数据转化为标记文本数据，获得第三训练文本集，其中，所述标记文本数据为标记了实体的位置序号以及类别的文本数据；

将所述第三训练文本集中的标记文本数据转化为所述堆栈标记文本数据，获得所述第一训练文本集。

一种可选实施方式中，将所述第二训练文本集中的非结构化文本数据转化为标记文本数据，包括：

对所述第二训练文本集中的非结构化文本数据进行文本预处理，其中，所述文本预处理包括去除特殊符号以及繁简体转换；

对所述文本预处理后的非结构化文本数据进行实体标记，确定实体的位置序号以及类别，获得所述标记文本数据。

一种可选实施方式中，将所述第三训练文本集中的标记文本数据转化为所述堆栈标记文本数据，包括：

将所述标记文本数据中每个字按序排列存储于缓存区，并根据所述标记文本数据标记的实体的位置序号以及类别，确定所述缓存区中每位序列元素对应的入栈动作标识；

基于所述序列元素对应的入栈动作标识，将所述缓存区中的每位序列元素按序入栈，获得所述堆栈标记文本数据。

一种可选实施方式中，所述入栈动作标识包括第一入栈动作标识、第二入栈动作标识、第三入栈动作标识以及第四入栈动作标识；

其中，所述第一入栈动作标识用于表示在文本数据中每个字按序排列存储于缓存区后，将所述缓存区的序列元素按序入栈时丢弃所述第一入栈动作标识对应的序列元素；所述第二入栈动作标识用于表示将所述第二入栈动作标识对应的序列元素移动到堆栈中；所述第三入栈动作标识用于表示暂停所述缓存区中序列元素的入栈动作，将堆栈中的两个序列元素合并为一个序列元素；所述第四入栈动作标识用于表示堆栈中的序列元素为已完成元素，并标记所述已完成元素的实体类别。

一种可选实施方法中，基于所述待识别文本数据对应的得分矩阵，获得将所述待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，包括：

基于所述待识别文本数据对应的得分矩阵，对所述待识别文本数据中每个字在各标签类别下的得分进行归一化处理，获得所述待识别文本数据中每个字在各标签类别下的得分的置信度，其中，所述置信度为每个字在各标签类别下的得分与每个字在所有标签类别下的总得分的比值；

在所述每个字在各标签类别下的得分的置信度中选取比值最大的作为目标置信度，确定所述目标置信度对应的标签类别为所述每个字对应的入栈动作标识。

第二方面，本申请实施例提供一种命名实体识别装置，包括：

第一获得模块，用于基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得所述待识别文本数据对应的得分矩阵，其中，所述命名实体识别模型为文本数据和得分矩阵的函数关系模型，所述得分矩阵用于表示所述文本数据中每个字在各标签类别下的得分，所述标签类别为将所述文本数据以堆栈格式存储时的入栈动作标识；

确定模块，用于基于所述待识别文本数据对应的得分矩阵，获得将所述待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，基于所述每个字对应的入栈动作标识，确定所述待识别文本数据的命名实体识别结果。

一种可选实施方式中，所述装置还包括第二获得模块，所述第二获得模块用于：

一种可选实施方式中，所述第二获得模块，具体用于：

一种可选实施方法中，所述确定模块，具体用于：

第三方面，本申请实施例提供一种命名实体识别系统，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行第一方面中的任一种实施方式包括的步骤。

第四方面，本申请实施例提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面中的任一种实施方式包括的步骤。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。

图1为本申请实施例中的一种命名实体识别系统的结构示意图；

图2a为本申请实施例中的一种命名实体识别方法的流程示意图；

图2b为本申请实施例中的将标记文本数据转化为堆栈标记文本数据的流程示意图；

图3为本申请实施例中的一种命名实体识别装置的结构示意图；

图4为本申请实施例中的一种命名实体识别系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，能够以不同于此处的顺序执行所示出或描述的步骤。

本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中，“至少一个”可以表示至少两个，例如可以是两个、三个或者更多个，本申请实施例不做限制。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

命名实体识别旨在将文本中的命名实体定位并分类为预先定义的类别。然而，现阶段命名实体识别任务的相关研究多数是限定在所要识别的文本中的实体是连续实体的假设下，而实际上文本中部分实体会存在由无关字词造成的断连现象，如“重疾险对肺部结果为结节者拒保”，文本中包括“重疾险”这一保险产品类实体以及“肺结节”这一疾病类实体，但“肺结节”实体因“部结果为”等无关字词存在，造成断连，即文本中的“肺部结果为结节”可视为非连续实体。可见，现有技术存在由于无法识别非连续实体，导致漏识别和错误识别的问题。

鉴于此，本申请实施例提供一种命名实体识别方法，该方法首先获取第一训练文本集，其中，第一训练文本集为预设领域的堆栈标记文本数据的集合，堆栈标记文本数据为以堆栈格式存储的标记了实体的位置序号以及类别的文本数据，然后基于第一训练文本集和长短期记忆网络(Long Short-Term Memory，LSTM)，获得命名实体识别模型，其中，命名实体识别模型为文本数据和得分矩阵的函数关系模型，再基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得待识别文本数据对应的得分矩阵，基于待识别文本数据对应的得分矩阵，获得将待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，基于每个字对应的入栈动作标识，确定待识别文本数据的命名实体识别结果，使得不仅可以识别文本中的连续实体，也可以识别文本中的非连续实体，从而极大地丰富命名实体识别任务的识别结果，极大地减少漏识别和错误识别。

为了更好的理解上述技术方案，下面通过说明书附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

图1为本申请实施例所提供方法可适用的一种命名实体识别系统的结构，当然本申请实施例所提供的方法可以适用到多种命名实体识别系统上，应当理解图1所示的命名实体识别系统是对可适用本申请实施例所提供方法的命名实体识别系统的详细的说明，而不是对可适用本申请实施例所提供方法的命名实体识别系统的限定。

图1所示的命名实体识别系统包括存储器101、处理器102、总线接口103。存储器101以及处理器102通过总线接口103连接。存储器101用于存储程序指令。处理器102用于调用存储器101中存储的程序指令，按照获得的程序指令执行命名实体识别方法中包括的所有步骤。

请参见图2a，为本申请实施例提供的一种命名实体识别方法，该方法可以由前述图1所示的命名实体识别系统执行。该方法的具体流程描述如下。

步骤201：基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得所述待识别文本数据对应的得分矩阵，其中，所述命名实体识别模型为文本数据和得分矩阵的函数关系模型，所述得分矩阵用于表示所述文本数据中每个字在各标签类别下的得分，所述标签类别为将所述文本数据以堆栈格式存储时的入栈动作标识。

在本申请实施例中，命名实体识别模型是通过如下方式获得的：先获取第一训练文本集，再基于第一训练文本集和LSTM，获得命名实体识别模型，其中，第一训练文本集为预设领域的堆栈标记文本数据的集合，堆栈标记文本数据为以堆栈格式存储的标记了实体的位置序号以及类别的文本数据，命名实体识别模型为文本数据和得分矩阵的函数关系模型，得分矩阵用于表示文本数据中每个字在各标签类别下的得分，标签类别为将文本数据以堆栈格式存储时的入栈动作标识。

在具体的实施过程中，首先获取第二训练文本集，其中，第二训练文本集为预设领域的非结构化文本数据的集合，非结构化文本数据是以文本(如字符、数字、标点、各种可打印的符号等)作为数据形式的非结构化的数据，非结构化或半结构化文本数据的典型代表是图书馆数据库中的文档，这些文档可能包含结构字段，如标题、作者、出版日期、长度、分类等，也可能包含大量非结构化文本成分，如摘要和正文内容。

在获取第二训练文本集之后，将第二训练文本集中的非结构化文本数据转化为标记文本数据，获得第三训练文本集，其中，标记文本数据为标记了实体的位置序号以及类别的文本数据，具体的，对第二训练文本集中的非结构化文本数据进行文本预处理，其中，文本预处理包括去除特殊符号以及繁简体转换，对文本预处理后的非结构化文本数据进行实体标记，确定实体的位置序号以及类别，获得标记文本数据，其中，可以人工对文本预处理后的非结构化文本数据进行实体标记，也可以编写相应的程序对文本预处理后的非结构化文本数据进行实体标记，本申请对此不作限制。

为了便于理解，下面以举例的形式进行说明：

例如，对非结构化文本“该重疾险对肺部为结节拒保”进行实体标记，预设的实体类别包括“保险产品类”和“疾病类”，实体标记的结果为(重²疾³险⁴，PRD)和(肺⁶结⁹节¹⁰，DIS)，其中，“2，3，4”、“6，9，10”记录实体在文本中的位置序号，“重疾险”、“肺结节”记录实体信息，“PRD”、“DIS”记录实体类别，分别表示“保险产品类”和“疾病类”。

在获取第三训练文本集之后，将第三训练文本集中的标记文本数据转化为堆栈标记文本数据，获得第一训练文本集，具体的，首先将标记文本数据中每个字按序排列存储于缓存区，并根据标记文本数据标记的实体的位置序号以及类别，确定缓存区中每位序列元素对应的入栈动作标识，其中，序列元素可以为一个字，也可以为至少两个字的集合，缓存区中的每位序列元素与标记文本数据中的每个字一一对应，然后基于序列元素对应的入栈动作标识，将缓存区中的每位序列元素按序入栈，获得堆栈标记文本数据。其中，入栈动作标识包括第一入栈动作标识(OUT)、第二入栈动作标识(SHIFT)、第三入栈动作标识(REDUCE)以及第四入栈动作标识(COMPLETE)，OUT用于表示在文本数据中每个字按序排列存储于缓存区后，将缓存区的序列元素按序入栈时丢弃OUT对应的序列元素，SHIFT用于表示将SHIFT对应的序列元素移动到堆栈中，REDUCE用于表示暂停缓存区中序列元素的入栈动作，将堆栈中REDUCE对应的序列元素与REDUCE对应的序列元素的前一个序列元素合并为一个序列元素，COMPLETE用于表示堆栈中的序列元素为已完成元素，并标记已完成元素的实体类别。

为了便于理解，下面以举例的形式进行说明：

例如，将上述“该重疾险对肺部为结节拒保”的实体标记结果转化为堆栈标记，预设的实体类别包括“保险产品类”和“疾病类”，转化过程如图2b所示：

(1)“该重疾险对肺部为结节拒保”的首位元素“该”的入栈标识为“OUT”，丢弃元素“该”；

(2)“重”、“疾”、“险”三个元素组合起来为“重疾险”这一“保险产品类”实体，“重疾险对肺部为结节拒保”的首位元素“重”的入栈标识为SHIFT，元素“重”进入堆栈；

(3)同理“疾险对肺部为结节拒保”的首位元素“疾”的入栈标识也是SHIFT，元素“疾”进入堆栈，元素“疾”的入栈标识还包括REDUCE，通过REDUCE将已入栈的元素“重”、“疾”合并为“重疾”，缓存区序列元素不变；

(4)同理“险对肺部为结节拒保”的首位元素“险”的入栈标识为SHIFT，元素“险”进入到堆栈，元素“险”的入栈标识还包括REDUCE，通过REDUCE将已入栈的元素“重疾”、“险”合并为“重疾险”，缓存区序列元素不变，元素“险”的入栈标识还包括COMPLETE-PRD，通过COMPLETE-PRD表示已入栈的元素“重疾险”为已完成元素，并附带实体类别信息“保险产品类”，缓存区序列元素不变；

(5)“对肺部为结节拒保”的首位元素“对”的入栈标识为“OUT”，丢弃元素“对”；

(6)“肺”、“结”、“节”三个元素组合起来为“肺结节”这一“疾病类”实体，“肺部为结节拒保”的首位元素“肺”的入栈标识为SHIFT，元素“肺”进入堆栈；

(7)“部为结节拒保”的首位元素“部”的入栈标识为“OUT”，丢弃元素“部”，“为结节拒保”的首位元素“为”的入栈标识为“OUT”，丢弃元素“为”；

(8)同理“结节拒保”的首位元素“结”的入栈标识为SHIFT，元素“结”进入到堆栈，元素“结”的入栈标识还包括REDUCE，通过REDUCE将已入栈的元素“肺”、“结”合并为“肺结”，缓存区序列元素不变；

(9)同理“节拒保”的首位元素“节”的入栈标识为SHIFT，元素“节”进入到堆栈，元素“节”的入栈标识还包括REDUCE，通过REDUCE将已入栈的元素“肺结”、“节”合并为“肺结节”，缓存区序列元素不变，元素“节”的入栈标识还包括COMPLETE-DIS，通过COMPLETE-DIS表示已入栈的元素“肺结节”为已完成元素，并附带实体类别信息“疾病类”，缓存区序列元素不变；

(10)“拒保”的首位元素“拒”的入栈标识为“OUT”，丢弃元素“拒”，“保”的入栈标识为“OUT”，丢弃元素“保”。

在获取第一训练文本集之后，将第一训练文本集中的堆栈标记文本数据转化为字向量矩阵，将字向量矩阵输入LSTM中进行训练，获得命名实体识别模型，其中，LSTM包括多个门结构和细胞单元，各个门和细胞单元的计算公式具体为：

其中，σ为Sigmoid激活函数，tanh为双曲正切激活函数，x_t为t时刻的字向量，i_t为t时刻输入门的输出向量，f_t为t时刻遗忘门的输出向量,c_t和c_t-1为t时刻和t-1时刻的细胞单元的记忆流状态，o_t为t时刻输出门的输出向量，h_t和h_t-1分别表示t时刻和t-1时刻隐藏层的输出向量，w_xi表示字向量和输入门的权值矩阵，w_hi表示隐藏层和输入门的权值矩阵，w_ci表示细胞单元和输入门的权值矩阵，b_i、b_f、b_o、b_c分别表示输入门、遗忘门、输出门、细胞单元的偏置参数，权值矩阵和偏置参数都是先随机初始化，然后在模型训练中自动修正，最后会随神经网络得到最终的权值。

在获得命名实体识别模型之后，基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得待识别文本数据对应的得分矩阵P∈R^n*k，其中，n为待识别文本数据的字数，k为标签类别，得分矩阵用于表示文本数据中每个字在各标签类别下的得分，标签类别为将文本数据以堆栈格式存储时的入栈动作标识。为了便于理解，下面以举例的形式进行说明：

例如，待识别文本数据“糖尿病买重疾险”对应的得分矩阵P∈R^7*5，即P是一个7*5的实数矩阵，其中，7表示该待识别文本数据“糖尿病买重疾险”有7个字，5表示每个字对应有5种标签类别(OUT，SHIFT，REDUCE，COMPLETE-PRD，COMPLETE-DIS)。

步骤202：基于所述待识别文本数据对应的得分矩阵，获得将所述待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，基于所述每个字对应的入栈动作标识，确定所述待识别文本数据的命名实体识别结果。

在本申请实施例中，在获得待识别文本数据对应的得分矩阵之后，首先基于待识别文本数据对应的得分矩阵，获得将待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，具体的，基于待识别文本数据对应的得分矩阵，对待识别文本数据中每个字在各标签类别下的得分进行归一化处理，获得待识别文本数据中每个字在各标签类别下的得分的置信度，其中，置信度为每个字在各标签类别下的得分与每个字在所有标签类别下的总得分的比值，在每个字在各标签类别下的得分的置信度中选取比值最大的作为目标置信度，确定目标置信度对应的标签类别为每个字对应的入栈动作标识。然后基于每个字对应的入栈动作标识，确定待识别文本数据的命名实体识别结果。

为了便于理解，下面以举例的形式进行说明：

例如，对于上述待识别文本数据“糖尿病买重疾险”对应的得分矩阵P∈R^7*5，P₁₁＝10是“糖”在OUT标签类别下的归一化处理后的得分，P₁₂＝65是“糖”在SHIFT标签类别下的归一化处理后的得分，P₁₁＝5是“糖”在REDUCE标签类别下的归一化处理后的得分，P₁₁＝10是“糖”在COMPLETE-PRD标签类别下的归一化处理后的得分，P₁₁＝10是“糖”在COMPLETE-DIS标签类别下的归一化处理后的得分，确定“糖”在SHIFT标签类别下的归一化处理后的得分的置信度为6.5，是“糖”在各标签类别下的归一化处理后的得分的置信度中比值最大的，确定SHIFT标签类别为“糖”对应的入栈动作标识。

依次类推，确定SHIFT标签类别和REDUCE标签类别为“尿”对应的入栈动作标识，确定SHIFT标签类别、REDUCE标签类别和COMPLETE-DIS标签类别为“病”对应的入栈动作标识，从而确定待识别文本数据中的“糖尿病”是“疾病类”实体。

基于同一发明构思，本申请实施例提供一种命名实体识别装置，该命名实体识别装置能够实现前述的命名实体识别方法对应的功能。该命名实体识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。该命名实体识别装置可以由芯片系统实现，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。请参见图3所示，该命名实体识别装置包括第一获得模块301、确定模块302，其中：

第一获得模块301，用于基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得所述待识别文本数据对应的得分矩阵，其中，所述命名实体识别模型为文本数据和得分矩阵的函数关系模型，所述得分矩阵用于表示所述文本数据中每个字在各标签类别下的得分，所述标签类别为将所述文本数据以堆栈格式存储时的入栈动作标识；

确定模块302，用于基于所述待识别文本数据对应的得分矩阵，获得将所述待识别文本数据以堆栈格式存储时每个字对应的入栈动作标识，基于所述每个字对应的入栈动作标识，确定所述待识别文本数据的命名实体识别结果。

一种可选实施方式中，所述第一获得模块301，具体用于：

一种可选实施方式中，所述第二获得模块，具体用于：

一种可选实施方法中，所述确定模块302，具体用于：

基于同一发明构思，本申请实施例提供一种命名实体识别系统，请参见图4所述，该命名实体识别系统包括至少一个处理器402，以及与至少一个处理器连接的存储器401，本申请实施例中不限定处理器402与存储器401之间的具体连接介质，图4是以处理器402和存储器401之间通过总线400连接为例，总线400在图4中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不以此为限。总线400可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，存储器401存储有可被至少一个处理器402执行的指令，至少一个处理器402通过调用存储器401存储的指令，可以执行前述的命名实体识别方法中所包括的步骤。其中，处理器402是命名实体识别系统的控制中心，可以利用各种接口和线路连接整个命名实体识别系统的各个部分，通过执行存储在存储器401内的指令，从而实现命名实体识别系统的各种功能。可选的，处理器402可包括一个或多个处理单元，处理器402可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器402中。在一些实施例中，处理器402和存储器401可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器401作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器401可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器401是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器401还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

处理器402可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的命名实体识别方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

通过对处理器402进行设计编程，可以将前述实施例中介绍的命名实体识别方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行前述的命名实体识别方法的步骤，如何对处理器402进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如前述的命名实体识别方法的步骤。

在一些可能的实施方式中，本申请提供的命名实体识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在命名实体识别系统上运行时，程序代码用于使该命名实体识别系统执行本说明书上述描述的根据本申请各种示例性实施方式的命名实体识别方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种命名实体识别方法，其特征在于，包括：

基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得所述待识别文本数据对应的得分矩阵，其中，所述命名实体识别模型为文本数据和得分矩阵的函数关系模型，所述得分矩阵用于表示所述文本数据中每个字在各标签类别下的得分，所述标签类别为将所述文本数据以堆栈格式存储时的入栈动作标识，所述命名实体识别模型是通过如下方式获得的：获取第一训练文本集，其中，所述第一训练文本集为预设领域的堆栈标记文本数据的集合，所述堆栈标记文本数据为以堆栈格式存储的标记了实体的位置序号以及类别的文本数据；将所述第一训练文本集中的堆栈标记文本数据转化为字向量矩阵；将所述字向量矩阵输入长短期记忆网络LSTM中进行训练，获得所述命名实体识别模型；

在所述每个字在各标签类别下的得分的置信度中选取最大置信度作为目标置信度，确定所述目标置信度对应的标签类别为所述每个字对应的入栈动作标识；

基于所述每个字对应的入栈动作标识，确定所述待识别文本数据的命名实体识别结果。

2.如权利要求1所述的方法，其特征在于，获取第一训练文本集，包括：

3.如权利要求2所述的方法，其特征在于，将所述第二训练文本集中的非结构化文本数据转化为标记文本数据，包括：

4.如权利要求3所述的方法，其特征在于，将所述第三训练文本集中的标记文本数据转化为所述堆栈标记文本数据，包括：

5.如权利要求1或4所述的方法，其特征在于，所述入栈动作标识包括第一入栈动作标识、第二入栈动作标识、第三入栈动作标识以及第四入栈动作标识；

其中，所述第一入栈动作标识用于表示在文本数据中每个字按序排列存储于缓存区后，将所述缓存区的序列元素按序入栈时丢弃所述第一入栈动作标识对应的序列元素；所述第二入栈动作标识用于表示将所述第二入栈动作标识对应的序列元素移动到堆栈中；所述第三入栈动作标识用于表示暂停所述缓存区中序列元素的入栈动作，将堆栈中所述第三入栈动作标识对应的序列元素与所述第三入栈动作标识对应的序列元素的前一个序列元素合并为一个序列元素；所述第四入栈动作标识用于表示堆栈中的序列元素为已完成元素，并标记所述已完成元素的实体类别。

6.一种命名实体识别装置，其特征在于，包括：

第一获得模块，用于基于命名实体识别模型，对待识别文本数据进行命名实体识别，获得所述待识别文本数据对应的得分矩阵，其中，所述命名实体识别模型为文本数据和得分矩阵的函数关系模型，所述得分矩阵用于表示所述文本数据中每个字在各标签类别下的得分，所述标签类别为将所述文本数据以堆栈格式存储时的入栈动作标识，所述命名实体识别模型是通过如下方式获得的：获取第一训练文本集，其中，所述第一训练文本集为预设领域的堆栈标记文本数据的集合，所述堆栈标记文本数据为以堆栈格式存储的标记了实体的位置序号以及类别的文本数据；将所述第一训练文本集中的堆栈标记文本数据转化为字向量矩阵；将所述字向量矩阵输入长短期记忆网络LSTM中进行训练，获得所述命名实体识别模型；

确定模块，用于基于所述待识别文本数据对应的得分矩阵，对所述待识别文本数据中每个字在各标签类别下的得分进行归一化处理，获得所述待识别文本数据中每个字在各标签类别下的得分的置信度，其中，所述置信度为每个字在各标签类别下的得分与每个字在所有标签类别下的总得分的比值；在所述每个字在各标签类别下的得分的置信度中选取最大置信度作为目标置信度，确定所述目标置信度对应的标签类别为所述每个字对应的入栈动作标识；基于所述每个字对应的入栈动作标识，确定所述待识别文本数据的命名实体识别结果。

7.一种命名实体识别系统，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求1-5任一项所述的方法包括的步骤。

8.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1-5任一项所述的方法包括的步骤。