CN110287479A

CN110287479A - 命名实体识别方法、电子装置及存储介质

Info

Publication number: CN110287479A
Application number: CN201910419895.5A
Authority: CN
Inventors: 韦峰; 徐国强; 邱寒
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2019-09-27
Anticipated expiration: 2039-05-20
Also published as: CN110287479B; WO2020232861A1

Abstract

本发明涉及计算机信息技术领域，提供了一种命名实体识别方法、电子装置及计算机存储介质，该方法包括：将接收到的待识别文本输入word2vec模型得到第一词向量，对所述待识别文本进行分词处理后输入ELMO模型，得到第二词向量，将所述第一词向量和所述第二词向量进行加权求和，利用双向LSTM模型对所述加权求和得到的结果进行处理，转换成文本特征序列，将所述文本特征输入至CRF模型处理，即得到得到命名实体识别结果。本发明利用ELMO模型深度考虑待识别文本在上下语义语法的不同表达以及在不同语言环境的表达意思，通过多个模型以不同层次处理待识别文本的信息，从而提高命名实体识别的准确率。

Description

命名实体识别方法、电子装置及存储介质

技术领域

本发明涉及计算机信息技术领域，尤其涉及一种命名实体识别方法、电子装置及存储介质。

背景技术

在信息抽取、实体链接等自然语言处理任务的场景中，常常需要进行命名实体识别(NamedEntity Recognition，NER)。其中，NER是指在文档集合中识别出特定类型的事物名称或符号的过程。

相关技术在进行命名实体识别时，一般采用条件随机场算法(ConditionalRandom Field，CRF)或单向循环神经网络(Recurrent Neural Network，RNN)等模型对待识别文本进行识别。

然而，由于无论采用CRF还是采用单向RNN进行识别，得到的语义信息比较有限，因此，识别的准确率不高。

发明内容

本发明的目的在于提供一种命名实体识别方法、电子装置及计算机存储介质，旨在利用ELMO模型充分考虑待识别文本上下语义表达及语境变化表达，从而提高命名实体识别的准确率。

为实现上述目的，本发明提供一种命名实体识别方法，该方法包括：

接收步骤：接收待识别文本；

第一处理步骤：将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量；

第二处理步骤：对所述待识别文本进行分词处理，得到待识别文本中每一句/段对应的第一分词集合，将所述第一分词集合输入预先训练的ELMO模型，以ELMO模型输出的词向量作为所述待识别文本的第二词向量；

加权步骤：将所述第一词向量和所述第二词向量进行加权求和，得到加权求和结果；

序列生成步骤：将所述加权求和结果输入双向LSTM模型处理，得到文本特征序列；

命名识别步骤：将所述文本特征序列输入条件随机场CRF模型处理，得到所述待识别文本的命名实体识别结果。

优选的，所述ELMO模型的训练过程包括：

A1，从预设语料库中获取预设数量的指定文本，对所述指定文本进行分句及分词处理，得到所述指定文本中每一句对应的第二分词集合；

A2，确定所述第二分词集合中各分词对应的词向量，将所述第二分词集合中各分词及所述分词对应的词向量作为样本数据；

A3，利用所述样本数据对双向LSTM模型进行训练，得到所述ELMO模型。

优选的，所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括：

获取数据集，将数据集划分为训练集、验证集和测试集，其中，所述数据集包括文本资源、已标注命名实体及词向量；

根据所述训练集对初始双向LSTM模型及初始CRF模型进行训练，得到训练后的双向LSTM模型及CRF模型；

根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证；

当验证通过后，采用测试集对验证通过的双向LSTM模型及CRF模型进行测试，测试通过得到目标双向LSTM模型及目标CRF模型。

优选的，所述文本资源包括：

获取初始文本资源，对初始文本资源进行预处理，得到语句序列；

对语句序列进行分词处理，得到至少一个词序列；

按照词频对词序列中的词进行排序，确定每个词对应的标签信息，得到多个词与标签信息的组合，将词与标签信息的组合作为最终的文本资源。

优选的，所述命名识别步骤包括：

对所述文本特征序列中的每一个词语进行特征标注；

利用CRF模型从预先训练的语料标签库识别与所述词语的特征标注相对应的词标签，将识别到的词标签的信息作为所述命名实体识别结果。

此外，为实现上述目的，本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的命名实体识别程序，所述命名实体识别程序被所述处理器执行时实现如下步骤：

接收步骤：接收待识别文本；

优选的，所述ELMO模型的训练过程包括如下步骤：

根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证；

优选的，所述文本资源包括：

对语句序列进行分词处理，得到至少一个词序列；

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括命名实体识别程序，所述命名实体识别程序被处理器执行时，可实现如上任意一项所述的命名实体识别方法。

本发明的有益效果：

将接收到的待识别文本输入word2vec模型得到第一词向量，对所述待识别文本进行分词处理后输入ELMO模型，得到第二词向量，将所述第一词向量和所述第二词向量进行加权求和，利用双向LSTM模型对所述加权求和得到的结果进行处理，转换成文本特征序列，将所述文本特征输入至CRF模型处理，即得到得到命名实体识别结果；利用ELMO模型，使待识别文本被充分考虑上下语义及语言环境，得到更为贴近待识别文本的语义信息，通过双向LSTM模型及CRF模型处理，使得到的命名实体识别准确率提高。

附图说明

图1为本发明命名实体识别方法较佳实施例的运行环境图；

图2为图1中的命名实体识别程序运行时执行ELMO模型训练的示意图；

图3为本发明命名实体识别方法应用的各模型协同运作的示意图；

图4为本发明命名实体识别程序实施例的程序模块图；

图5为本发明命名实体识别方法较佳施例的流程图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1所示，为本发明命名实体识别方法较佳实施例的运行环境图。电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的命名实体识别程序10。需要指出的是，图1仅示出了具有组件11-13的电子装置1，但是应当理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件，例如存储本发明一实施例中的命名实体识别程序10等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行与所述其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行命名实体识别程序10等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述电子装置1与其他电子设备之间建立通信连接。

所述命名实体识别程序10存储在存储器11中，包括存储在存储器11中的计算机可读指令，该计算机可读指令可被处理器12执行，以实现本申请各实施例的方法。

在一实施例中，上述命名实体识别程序10被所述处理器12执行时实现如下步骤：

接收步骤：接收待识别文本。

当有命名实体识别需求时，用户可以开启命名实体识别的客户端应用程序，通过该客户端获取待识别文本。

例如，可以针对某小说文本进行命名实体识别，根据用户的选择操作，当用户选择小说文本中的一段内容后，获取命名实体识别指令，根据该命名实体识别指令触发将小说文本中被选择的一段内容作为获取到的待识别文本，当终端获取到待识别文本后，将其发送至服务器，服务器由此获取到待识别文本。

第一处理步骤：将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量。

由于深度学习模型接受数字的输入，而不是字符串，因而在获取到待识别文本后，需要将待识别文本转换成词向量的形式。常见的词向量训练表示方法有word2vec和glove，本实施例采用word2vec模型来实现。

word2vec是一个常见的分布式词向量表示方法，通过学习文本用词向量的方式表征词的语义信息，可将相似的词的距离拉的很近。

第二处理步骤：对所述待识别文本进行分词处理，得到待识别文本中每一句/段对应的第一分词集合，将所述第一分词集合输入预先训练的ELMO模型，以ELMO模型输出的词向量作为所述待识别文本的第二词向量。

由于第一词向量不能完全体现出某一个词在具体语境中所代表的意思，为了提高命名实体识别的准确性，需进一步提高单个词对应的词向量的准确性。

进一步地，所述ELMO模型的训练过程包括如下步骤：

应当理解的是，本发明所述双向LSTM模型，即通常说的Bi-LSTM模型。参照图2所示，为图1中的命名实体识别程序运行时执行ELMO模型训练的示意图。在所述ELMO模型训练中，对于所述样本数据中某一个词语P，一个L层的双向LSTM模型能够有2L+1个词向量表示:

其中

R_k表示第L层双向LSTM模型的词向量；

X^LM表示待识别文本的初始词向量；

表示第L层前后词向量；

由此，一个词语在双向LSTM模型中有多层词向量的表示，将双向LSTM模型的多层组合表示为ELMO模型。

在本实施例中，ELMO模型作为一种新的词向量的表达方式，能够充分考虑待识别文本在上下语义表达及语境变化的不同表达，从而提高命名实体识别的准确率。

例如：针对某一词多义的词汇w＝“苹果”

文本序列1＝“我买了六斤苹果。”

文本序列2＝“我买了一个苹果7。”

上面两个文本序列中都出现了“苹果”这个词汇，但是在不同的句子中，它们的含义显示是不同的，第一个属于水果领域，第二个属于电子产品领域。

通过使用ELMO模型，能够准确的辨别词语在语境中的表达意思，提高命名实体的准确性。

加权步骤：将所述第一词向量和所述第二词向量进行加权求和，得到加权求和结果。

通过加权求和的方式，能够更好的利用词向量的动态权重信息，更准确的体现出对待识别文本所要命名实体识别的效果。

在一种实现方式中，本发明实施例引入了Attention机制。具体实施时，采用Attention模型可动态地训练词向量的权重，对词向量进行数据加权变换。

Attention模型是深度学习模拟人脑的注意力模型。

例如，当观赏一幅画时，虽然看到整幅画的全貌，但是深入仔细地观察时，其实眼睛聚焦的就只有很小的一块，这个时候大脑主要关注在这一小块图案上，也就是说这个时候人脑对整幅图的关注并不是均衡的，是有一定的权重区分的。

在一种实现方式中，可直接将第二词向量放在第一词向量后面，用以共同表征一个词的词义；或者

将第一词向量按照其对应的权重进行处理，得到处理后的第一词向量，将第二词向量按照其对应的权重进行处理，得到处理后的第二词向量，最后，将处理后的第一词向量与处理后的第二词向量进行求和，得到加权求和结果。

序列生成步骤：将所述加权求和结果输入双向LSTM模型处理，得到文本特征序列。

由于，日常生活中所说的语句存在前后关联关系，排列在后面的词语可能影响前面词语的意思表达，所以，为更好的处理词向量，双向LSTM模型在处理词句时分别从前后两个不同的方向进行传播，避免了在处理序列数据时只收到前时刻数据的影响，确保待识别文本命名实体识别的准确性。

本发明实施例利用双向LSTM模型构建与上下文相关的动态词向量表示。

在传统的机器学习任务中，CRF是根据海量的特征工程提取足够的不同维度的特征，然后根据这些特征做序列标注。实际应用中，CRF模型是一种端到端的深度学习模型，它是在给定需要标记的观察序列(词、句子数值等)的条件下，计算整个标记序列的联合概率分布。

在一种实现方式中，根据双向LSTM得到的文本特征序列M(如M1、M2…Mn)，可以采用局部最优解，算出文本特征序列可能的序列K(如K1、K2…Kn)的概率分布，也就是最终的文本标签，即命名实体识别结果。

参照图3所示，为本发明命名实体识别方法应用的各模型协同运作的示意图。基于上述过程，本方案采用了多个模型组合的方式：利用word2vec训练出第一词向量，利用ELMO模型训练出结合上下文语义语境的第二词向量，并对第一词向量和第二词向量通过Attention机制进行加权求和，然后输入到双向LSTM模型中处理，利用双向LSTM模型对词向量进行双向传播，得到的特征文本序列输入CRF模型，通过CRF模型对特征文本序列进行概率分布优化，得到输出每个词的标签，即得到命名实体识别结果。

进一步地，所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括：

根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证；

进一步地，所述文本资源包括：

对语句序列进行分词处理，得到至少一个词序列；

例如，对于初始文本“我很高兴，明天我要去北京出差，顺便参观北京人民大会堂，北京故宫博物馆。”，进行分词处理得到“我”、“明天”、“北京”、“出差”，对每一个分词进行序列标注，如：“B1”、“B2”、“B3”、“B4”，按照词出现的频率对分词进行标记，如“1”、“2”、“3”、“4”，得到词与标签信息的组合，即得到最终的文本资源。如下表格所示：

可选地，对初始文本资源进行预处理，可以进一步减少干扰，提高识别的准确性。

在一种实施方式中，对初始文本资源进行预处理，得到语句序列，包括但不限于：对初始文本资源进行词过滤及特殊字符过滤，得到语句序列。

其中，词过滤可以是过滤一些停用词、词频小于一定值的词等等，特殊字符包括但不限于停用字符、无意义字符等。

参照图4所示，为本发明命名实体识别程序实施例的程序模块图。

在一个实施例中，命名实体识别程序10包括：接收模块101、处理模块102、序列模块103、命名模块104。所述模块101-104所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

接收模块101，用于接收待识别文本。

处理模块102，用于将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量；

对所述待识别文本进行分词处理，得到待识别文本中每一句/段对应的第一分词集合，将所述第一分词集合输入预先训练的ELMO模型，以ELMO模型输出的词向量作为所述待识别文本的第二词向量；及

将所述第一词向量和所述第二词向量进行加权求和，得到加权求和结果。

序列模块103，用于将所述加权求和结果输入双向LSTM模型处理，得到文本特征序列。

命名模块104，用于将所述文本特征序列输入条件随机场CRF模型处理，得到所述待识别文本的命名实体识别结果。

参照图5所示，为本发明命名实体识别方法较佳施例的流程图。本实施例为一种命名实体识别方法，该方法包括：

步骤S210，接收待识别文本。

步骤S220，将所述待识别文本输入word2vec模型得到所述待识别文本的第一词向量。

步骤S230，对所述待识别文本进行分词处理，得到待识别文本中每一句/段对应的第一分词集合，将所述第一分词集合输入预先训练的ELMO模型，以ELMO模型输出的词向量作为所述待识别文本的第二词向量。

进一步地，所述ELMO模型的训练过程包括：

其中

R_k表示第L层双向LSTM模型的词向量；

X^LM表示待识别文本的初始词向量；

表示第L层前后词向量；

例如：针对某一词多义的词汇w＝“苹果”

文本序列1＝“我买了六斤苹果。”

文本序列2＝“我买了一个苹果7。”

步骤S240，将所述第一词向量和所述第二词向量进行加权求和，得到加权求和结果。

Attention模型是深度学习模拟人脑的注意力模型。

步骤S250，将所述加权求和结果输入双向LSTM模型处理，得到文本特征序列。

步骤S260，将所述文本特征序列输入条件随机场CRF模型处理，得到所述待识别文本的命名实体识别结果。

进一步地，所述步骤S250中的双向LSTM模型及步骤S260中的CRF模型的训练过程包括：

根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证；

进一步地，所述文本资源包括：

对语句序列进行分词处理，得到至少一个词序列；

进一步地，所述CRF模型包括：

接收所述文本特征序列，将所述文本特征序列中的每一个词语进行特征标注；

在CRF模型中预先训练的语料标签库识别与所述词语的特征标注相对应的词标签，将词标签的信息作为命名实体识别的信息，得到命名实体识别的结果。

可选地，得到命名实体识别结果后，可以单独显示识别结果，也可以在所述待识别文本的基础上显示识别结果。

例如，对于待识别文本“小明，你不是喜欢爬山吗？这周六天气不错，咱们一起去爬泰山吧，约上其他几个好朋友一起出发。”，应用本方案进行命名实体识别后，识别出的命名实体“小明”、“周六”、“泰山”被标注显示出来。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括命名实体识别程序，所述命名实体识别程序被处理器执行时，可实现如下操作：

接收步骤：接收待识别文本；

本发明计算机可读存储介质具体实施方式与上述命名实体识别方法和电子装置各实施例基本相同，在此不作累述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种命名实体识别方法，该方法包括：

接收步骤：接收待识别文本；

2.如权利要求1所述的命名实体识别方法，其特征在于，所述ELMO模型的训练过程包括：

3.如权利要求1所述的命名实体识别方法，其特征在于，所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括：

根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证；

4.如权利要求3所述的命名实体识别方法，其特征在于，所述文本资源包括：

对语句序列进行分词处理，得到至少一个词序列；

5.如权利要求1所述的命名实体识别方法，其特征在于，所述命名识别步骤包括：

对所述文本特征序列中的每一个词语进行特征标注；

6.一种电子装置，其特征在于，该电子装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的命名实体识别程序，所述命名实体识别程序被所述处理器执行时实现如下步骤：

接收步骤：接收待识别文本；

7.如权利要求6所述的电子装置，其特征在于，所述ELMO模型的训练过程包括如下步骤：

8.如权利要求6所述的电子装置，其特征在于，所述序列生成步骤中的双向LSTM模型及命名识别步骤中的CRF模型的训练过程包括：

根据所述验证集对训练后的双向LSTM模型及CRF模型进行验证；

9.如权利要求8所述的电子装置，其特征在于，所述文本资源包括：

对语句序列进行分词处理，得到至少一个词序列；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括命名实体识别程序，所述命名实体识别程序被处理器执行时，可实现如权利要求1至5中任意一项所述的命名实体识别方法的步骤。