CN110232192A

CN110232192A - 电力术语命名实体识别方法及装置

Info

Publication number: CN110232192A
Application number: CN201910533838.XA
Authority: CN
Inventors: 陈振宇; 赵振强; 刘金波; 黄运豪; 李大鹏; 林静怀; 李立新; 谢培元; 狄方春; 刘力; 陈郑平; 范海威; 李振文; 陈雪净; 谢巧云; 季晓慧
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Hunan Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Hunan Electric Power Co Ltd; State Grid Fujian Electric Power Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-13

Abstract

本发明实施例公开了一种电力术语命名实体识别方法，包括，获取电力文本信息，将所述电力文本信息输入至预先训练的字向量模型，得到映射后的具有预设维数的文本信息向量；将所述文本信息向量输入至预先训练的双向长短期记忆网络模型，得到所述文本信息向量的双向特征；将所述双向特征输入至预先训练的条件随机场模型，输出符合语义规则的标记序列，实现对电力术语的实体识别。本发明在双向长短期记忆网络模型之后接入条件随机场模型，避免了直接由双向长短期记忆网络模型输出相互独立导致的语法错误问题，且条件随机场模型能够考虑标注的文本信息输出之间的顺序，保证输出的标签符合正常语法表达，保证识别准确性。

Description

电力术语命名实体识别方法及装置

技术领域

本发明实施例涉及数据挖掘技术领域，具体涉及一种电力命名实体识别方法及装置。

背景技术

命名实体识别(Name Entity Recognition，简称NER)是指从文本中识别出特定领域专有名词或其他特定术语的一项技术，是文本数据挖掘的关键技术之一，也是文本结构化、信息抽取、知识图谱、问答系统、句法分析、机器翻译等应用领域的重要基础工作。对于文本内容的实体识别可以使相关行业从业者能够快速的从海量文本中分析得到具体实体的相关信息。

目前解决各领域命名实体识别问题的方法主要分为以下三类方法：

(1)基于规则的方法，此类方法采用相关技术领域的语言学专家手工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、位值词(如尾词)、中心词等方法，以模式和字符串相匹配为主要手段，此类方法在构造规则的过程中往往需要大量的语言学知识，不同语言的识别规则不尽相同，而且需要谨慎处理规则之间的冲突问题；此外，构建规则的过程费时费力、可移植性较差。

(2)基于统计学的方法，主要包括：隐马尔可夫模型、最大熵、支持向量机、条件随机场等。基于统计的方法对特征选取的要求较高，需要从文本中选择对该项任务有影响的各种特征，并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性，考虑选择能有效反映该类实体特性的特征集合。另外，此类方法对语料库的依赖也比较大，而可以用来建设和评估命名实体识别系统的大规模通用语料库又比较少，这是此种方法的又一大制约。

(3)基于神经网络的方法，此类方法使得模型训练成为一个端到端的整体过程，而非传统的pipeline，不依赖特征工程，是一种数据驱动的方法；但网路变种多、对参数依赖大，模型可解释性差。此外，这种方法的一个缺点是对每个token打标签的过程中是独立的分类，不能直接利用上文已经预测的标签(只能靠隐状传递上文信息)，进而导致预测出的标签序列可能不是符合语意规则的。

目前已有的中文文本实体识别模型及框架大多只对普通新闻文本的实体能够取得较好的识别效果，而对于专业领域，如电力、医学、互联网等邻域实体的识别需要模型学习到相关领域的实体特征，且不同领域由于各自实体的特征类型与参数不同，训练好的模型不具有较好的泛化性和迁移性，导致常规的实体识别方法与模型对这些专业领域的实体无法取得较好的识别效果。

因此，研究并设计针对电力领域较高效准确的命名实体识别技术和方法，有助于在大数据背景下对于电力非结构化文本关键内容的快速提取和分析，有助于推动我国的智能电网体系的建设进程。

发明内容

为此，本发明实施例提供一种电力术语实体识别方法及装置，以解决现有技术中由于传统电力文本实体识别存在语法输出不合理和模型泛化不足而导致的识别准确率不高的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面提供一种电力术语实体识别方法，包括如下步骤：

获取电力文本信息，将所述电力文本信息输入至预先训练的字向量模型，得到映射后的具有预设维数的文本信息向量；

将所述文本信息向量输入至预先训练的双向长短期记忆网络模型，得到所述文本信息向量的双向特征；

将所述双向特征输入至预先训练的条件随机场模型，输出符合语义规则的标记序列，实现对电力术语的实体识别。

进一步地，所述双向长短期记忆网络模型通过以下步骤训练：

构建实体字典；

以实体字典中标注的实体为输入样本，输入至预先训练的字向量模型，得到标注的实体对应的字向量，作为训练语料；

用所述训练语料训练所述双向长短期记忆网络模型。

进一步地，实体字典的构建包括如下步骤：

获取原始语料；

对所述原始语料以词为切分单位进行切分，获得词语切分语料集；

采用空间距离算法对所述词语切分语料集进行计算，构建实体字典。

进一步地，所述字向量为100维的向量。

进一步地，在所述输出符合语义规则的标记序列后，还包括使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。

本发明的另一方面提供一种电力术语实体识别装置，其特征在于，包括文本信息向量模块、特征输出模块及实体识别模块；

其中，所述文本信息向量模块用于获取电力文本信息，将所述电力文本信息输入至预先训练的字向量模型，得到映射后的具有预设维数的文本信息向量；

所述特征输出模块用于将所述文本信息向量输入至预先训练的双向长短期记忆网络模型，得到所述文本信息向量的双向特征；

将所述双向特征输入至预先训练的条件随机场模型，输出符合语义规则的输出标记序列，实现对电力术语的实体识别。

进一步地，所述特征输出模块包括，字典构建模块、训练语料获得模块和训练模块；其中，

所述字典构建模块用于构建实体字典；

训练语料获得模块用于以实体字典中标注的实体为输入样本，输入至预先训练的字向量模型，得到标注的实体对应的字向量，作为训练语料；

所述训练模块用于用所述训练语料训练所述双向长短期记忆网络模型。

进一步地，所述字典构建模块包括原始语料获取模块、切分模块和算法计算模块；其中，

所述原始语料获取模块用于获取原始语料；

所述切分模块用于对所述原始语料以词为切分单位或者以字为切分单位进行切分，获得词语切分语料集或字符切分语料集；

所述算法计算模块用于采用空间距离算法对所述词语切分语料集进行计算，构建实体字典。

进一步地，所述向量模型采用字向量模型，所述字向量模型将所述文本信息训练成100维的向量。

进一步地，在所述实体识别模块之后还包括参数优化模块，用于使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。

本发明实施例具有如下优点：

本发明在双向长短期记忆网络模型之后接入条件随机场模型，对电力文本信息进行识别，避免了直接由双向长短期记忆网络模型输出相互独立导致的语法错误问题，且条件随机场模型具有标签之间的转移特征，会考虑标注的文本信息输出之间的顺序性，因此保证了输出的标签符合正常的语法表达，保证了识别的准确性。

进一步的，在构建基础实体字典中，通过对初始文本进行词向量训练(word2vec)得到词向量模型。根据词向量模型中词义信息与空间位置距离相关的特性，通过部分已有的或易于获取的实体作为搜索起点，多次迭代搜索词向量模型空间中距离相近的实体，减少了构造实体字典过程中的工作量，有效的丰富了实体字典。

进一步的，在对电力实体的标注过程中，本发明将基础实体的前向修饰名词一并标注。使用此种标注策略避免了不同实体标注为同一个实体的现象，使得实体信息更加具体化和完整化，减少了实体识别过程中的实体识别不全的现象。

进一步的，在将文本向神经网络进行输入的过程中，使用训练好的字向量模型对语句中的每个字符进行向量映射，从而得到每一个字符的向量输入。相较于普通的离散化字符表示方式，字向量表示方式由于基于训练语料的学习得到，从而蕴含了部分语料特征，从而能够提高模型的识别效果。相较于词向量作为输入，字向量具有规模小，未登录项少，计算速度快等优点的同时还可以避免由于句子在分词阶段时产生的分词错误而导致的语义错误。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例1提供的一种电力术语实体识别方法流程框图；

图2为本发明提供的双向长短期记忆网络结构；

图3为本发明提供的词向量模型构建实体字典流程；

图4为本发明Bi-LSTM与CRF组合模型结构图；

图5为本发明实施例2提供的一种电力术语实体识别方法优选实施方式流程框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1是本发明实施例1提供的一种电力术语实体识别方法流程框图，具体包括如下步骤：

S1：获取电力文本信息，将所述电力文本信息输入至预先训练的字向量模型，得到映射后的具有预设维数的文本信息向量；

S2：将所述文本信息向量输入至预先训练的双向长短期记忆网络模型，得到所述文本信息向量的双向特征；

S3：将所述双向特征输入至预先训练的条件随机场模型，输出符合语义规则的标记序列，实现对电力术语的实体识别。

命名实体识别(Named Entity Recognition，简称NER)是指从文本中识别出特定领域专有名词或其他特定术语的一项技术手段，是文本数据挖掘的关键技术之一，也是文本结构化、信息抽取、知识图谱、问答系统、句法分析、机器翻译等应用的重要基础工作。对于文本内容的实体识别可以使相关行业从业者能够快速的从海量文本中分析得到具体实体的相关信息。

上述电力文本信息是指电力专业领域的文本信息。

上述字向量模型的获得为本领域现有技术，在此不再赘述。

上述文本信息中的每一个句子用one-hot形式表示，此过程中利用预先训练好的字向量模型vec2.model将句子中的每一个字符映射为一个100维的向量表示。使用字向量而非词向量作为输入，可以避免由于句子在分词阶段时产生的分词错误而导致的语义错误，从而影响后续模型对于句子特征的学习。另外字向量模型相对于词向量模型具有规模小，未登录项少，计算速度快等优点。

需要说明的是，上述文本信息向量可以是80维-200维，在本发明中优选为100维。

上述双向长短期记忆网络(Bi-directional Long Short-Term Memory)是LSTM的一个变体，参见图2为本发明提供的双向长短期记忆网络结构，其原理是将两个时序方向相反的长短时记忆网络结构连接到同一输出，以此来获取历史和未来信息。因此相比于其他的RNN网络需要等到后面的时间节点才能获取未来信息，该网络结构可以更充分的利用上下文信息。我们利用该网络结构这一优势，用LSTM对每个句子进行前向和后向的计算，然后将得到的两个结果向量进行拼接得到最终的隐层表示。图2表示的是Bi-LSTM模型在时间上的展开，前向LSTM网络依次接受由embedding层第1个时刻到第t个时刻的输入x₁到x_t，并依次计算前向隐藏状态反向的LSTM网络同样接受第t时刻到第1个时刻的输入x₁到x_t，并相应的计算反向隐藏状态这样我们就得到了每个时刻前向和后向的双向特征，之后对两个方向上的特征进行拼接得到一个双向表达：

这样向量h_t就包含了上下文的信息，相比单向LSTM模型的输出结果，双向表达的h_t更关注标注的实体与当前词周围的信息，有利于模型学习实体周围的特征，减少计算代价，提高效率。

上述双向长短期记忆网络模型通过以下步骤训练：

构建实体字典；

用所述训练语料训练所述双向长短期记忆网络模型。

上述实体字典的构建方式如下步骤：

获取原始语料；

对所述原始语料以词为切分单位或者以字为切分单位进行切分，获得词语切分语料集或字符切分语料集；

具体的，上述实体字典的构建步骤可以描述为：

在字典的构建过程中，将需要处理原始语料(RawData)经过以词语切分单位和以字符为切分单位的操作之后分别获得词语切分语料集(WordData1)字符切分语料集(WordData2)，之后对两个语料集分别词和字的向量模型训练(word2vec),分别获得词向量模型vec1.model和字向量模型vec2.model。优选的，设定词向量维度为100维。由于词向量模型中各词语之间的词义相似度可以用词向量空间中的距离具有相关性，词义特征越相近的两个词语在词向量空间中距离越近。本次发明提出并使用了一种通过词向量空间中相似词语来搜索构建实体字典的方法。

首先收集一些易于获取的实体作为搜索起点，通过词向量模型得到与这些实体在向量空间上相近的词语，多次迭代搜索规定数量内的最近词语，并通过人工筛选获得正确的实体，从而构建并丰富标注字典中的实体。流程如图3所示，为本发明提供的词向量模型构建实体字典构建和完善流程。具体为，人工构建字典，采用空间距离算法对所述词语切分语料集进行计算，搜索语词向量相近的实体，搜索到的实体再进行进一步的人工筛选，保存至构建的字典中，实现对实体字典的构建和完善。

CRF即条件随机场(Conditional Random Fields)，是在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型，它是一种判别式的概率无向图模型。在自然语言处理中，它是用于标注和划分序列数据的概率化模型，根据CRF的定义，相对序列就是给定观测序列X和输出序列Y，然后通过定义条件概率P(Y|X)来描述模型，图4为本发明Bi-LSTM与CRF组合模型结构图。

CRF能够通过考虑相邻标签的关系获得一个全局最优的标记序列。我们将CRF融合到Bi-LSTM模块中，对Bi-LSTM输出进行处理，获得全局最优的标记序列。对于一个句子s＝{w₁，w₂，...w_n}送入网络中训练，定义矩阵P是Bi-LSTM层的输出结果，其中P的大小n×m，n是字符个数，m是标签种类。定义p_ij代表句子中第i个单词第j个标签的概率。

对于一个预测序列y＝{y₁，y₂，...，y_n}，它的概率可以表示为：

式中，矩阵A是转移矩阵，例如A_ij表示由标签i转移到j的概率即转移矩阵，y₀、y_n则是预测句子起始和结束的标记。对K(X，y)进行指数化和标准化，得到在原语句S的条件下产生标记序列y的概率为：

式中，代表可能的标记值。

为使得正确标注的序列的概率最大，所以采用对数最大似然估计得到模型的标注序列似然函数：

其中，Y_X表示所有可能的标记集合，包括不符合BMESO标记规则的标记序列。通过式(4)得到符合语义规则约束的输出序列。

参见图5为本发明实施例2提供的一种电力术语实体识别方法优选实施方式流程框图。本发明实施例可选的实施方式还包括，在所述输出符合语义规则的标记序列后，还包括使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。其具体过称为，CRF利用原始语料的一部分以词为单位进行切分，获得分词切分语料集，将该语料集输入至预先训练的词向量模型(即Vec1.model)后，通过空间距离算法完善实体字典。利用原始语料的另一部分以字为单位进行切分，获得字符切分语料集，将该字符切分语料集输入至实体字典进行标注，并将标注的字符切分语料集输入至预先训练的字向量模型(即Vec2.model)后，将获得的字向量输入至Bi-LSTM模型(即Bi-LSTM层)，将输出结果输入至CRF模型(即CRF层)，将最终识别出的实体与预先存储在训练语料中的实体采用Adam算法进行损失计算，实时对所述双向长短期记忆网络模型和所述条件随机场模型的参数进行调整。

上述Adam是一种对随机梯度下降法的扩展算法。属于现有技术，在此不再赘述。

本发明实施例可选的实施方式还包括，在训练过程中于神经网络部分加入dropout以防止模型的过拟合，提高模型的泛化能力。

预测时，由式(5)输出得到整体概率最大的一组序列：

其中,argmax函数为基于动态规划的Viterbi算法，利用该算法求解输出最优的标注序列,即完成模型的输出。

下面通过一个例子来对本发明一种电力术语实体识别方法进行说明。

例如，将电力文本信息“电能质量控制器”输入至预先构建的实体字典，实体字典对该电力文本进行标注，并通过实体字典匹配到实体的基础部分“控制器”，之后对标注的文本信息输入至双向长短期记忆网络模型，进行前向搜索实体修饰名词，之后前向搜索得到实体修饰名词“电能”、“质量”，从而组合形成完成实体。

所述字典构建模块用于构建实体字典；

所述原始语料获取模块用于获取原始语料；

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种电力术语命名实体识别方法，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述双向长短期记忆网络模型通过以下步骤训练：

构建实体字典；

用所述训练语料训练所述双向长短期记忆网络模型。

3.根据权利要求2所述的方法，其特征在于，实体字典的构建包括如下步骤：

获取原始语料；

4.根据权利要求1所述的方法，其特征在于，所述字向量为100维的向量。

5.根据权利要求1所述的方法，其特征在于，在所述输出符合语义规则的标记序列后，还包括使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。

6.一种电力术语实体识别装置，其特征在于，包括文本信息向量模块、特征输出模块及实体识别模块；

7.根据权利要求6所述的装置，其特征在于，所述特征输出模块包括，字典构建模块、训练语料获得模块和训练模块；其中，

所述字典构建模块用于构建实体字典；

8.根据权利要求7所述的装置，其特征在于，所述字典构建模块包括原始语料获取模块、切分模块和算法计算模块；其中，

所述原始语料获取模块用于获取原始语料；

9.根据权利要求6所述的装置，其特征在于，所述向量模型采用字向量模型，所述字向量模型将所述文本信息训练成100维的向量。

10.根据权利要求6所述的装置，其特征在于，在所述实体识别模块之后还包括参数优化模块，用于使用Adam优化算法调整所述双向长短期记忆网络模型和所述条件随机场模型的参数。