CN109657230A

CN109657230A - 融合词向量和词性向量的命名实体识别方法及装置

Info

Publication number: CN109657230A
Application number: CN201811316154.6A
Authority: CN
Inventors: 陆宇杰; 李勇; 罗大卫; 张发幼
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-04-19
Anticipated expiration: 2038-11-06
Also published as: CN109657230B

Abstract

本发明公开了一种融合词向量和词性向量的命名实体识别方法及装置，所述方法包括：对原始语料数据进行处理，获取序列训练数据以及序列测试数据；训练所述原始语料数据中的原文数据获取词向量和词性向量，并生成词向量矩阵和词性向量矩阵；利用所述序列训练数据以及词向量矩阵和词性向量矩阵对预先构建的模型进行训练，所述模型至少包括用于融合不同类型的信息的第一非线性转化层；将待测文本序列化生成序列待测数据后输入所述训练好的模型，获取序列化的预测结果；利用实体标签和其编号的对照词典的反向词典，将序列化的预测结果转化为可读的实体标签。本发明通过预先构建的模型对文本信息进行命名实体识别，能有效地提高命名实体识别的正确率。

Description

融合词向量和词性向量的命名实体识别方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种融合词向量和词性向量的命名实体识别方法及装置。

背景技术

命名实体识别(Named Entity Recognition，NER)，也称为实体检测、实体组块、实体抽取，是信息抽取的一个子任务，旨在定位文本中的实体，并将它们分类到预定义好的类别中。根据任务不同，可以预定义不同的实体类别，常见的有人名、地名、公司名、组织名等；而细分领域的实体类别，则更加地多样化。NER技术在事件检测、信息检索、机器翻译等场景中均有应用。特别地，在基于知识图谱的问答系统、任务驱动的多轮对话等场景中，NER是关键技术，其准确度对整个系统的鲁棒性有很大的影响。比如，在基于知识图谱的问答系统中，用户提问“刘若英语怎么样？”，如果无法准确地识别提问中的人名“刘若”，那么系统将无法有效地识别问题的语义，从而无法给出合理的回答。

传统的NER技术可以分为基于词典或规则的方法和基于机器学习的方法。但是，这两种方法或多或少都存在一定缺陷：

基于词典或规则的方法一般要事先建立一个实体库和规则库，虽然识别准确率(precision)高，但召回率(recall)低(也就是说不能识别不在库中和不满足规则的实体)。

基于机器学习的方法则将NER问题看成是序列标注(Sequence Labelling)问题，有基于隐马尔可夫模型(Hidden Markov Model，HMM)的模型、基于条件随机场(Conditional Random Field，CRF)的模型、逐次使用常规分类器(比如支持向量机)的模型等方法。基于HMM的模型可以最优化整个序列的概率，但它仅观察当前词和前一个词的语境，所以对语境的利用有限；逐次分类模型可以基于更大的语境窗口对当前词进行分类，但它没有考虑序列的整体概率。相比之下，基于CRF的模型结合了以上两种方法的优点，即使用较长语境信息，同时也考虑序列的整体概率。因此，CRF在NER任务中被广泛使用，但CRF的缺陷是特征空间稀疏，并且对训练语料中未出现的词的预测效果不好。

自2006年以来，深度学习技术逐步兴起，并被成功地应用在了多个领域。在自然语言处理领域，深度学习能以一种新的视角给出解决方案。基于深度学习的NER，可以通过深度网络，更加充分地获取当前词的语义和语境信息。常见的深度学习框架，一般是使用单层的对词向量的非线性转化(比如CNN，或LSTM)，或者是在单层非线性转化的基础上，再接上一层CRF层(比如LSTM+CRF)，但是这些方法不能有效地保证NER的正确率。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种融合词向量和词性向量的命名实体识别方法及装置，以克服现有技术中对语境的利用有限、对训练语料中未出现的词的预测效果不好等问题。

为解决上述技术问题，本发明采用的技术方案是：

一方面，提供了一种融合词向量和词性向量的命名实体识别方法，所述方法包括如下步骤：

S1：对原始语料数据进行处理，获取序列训练数据以及序列测试数据；

S2：训练所述原始语料数据中的原文数据获取词向量和词性向量，并生成词向量矩阵和词性向量矩阵；

S3：利用所述序列训练数据以及词向量矩阵和词性向量矩阵对预先构建的模型进行训练，所述模型至少包括用于融合不同类型的信息的第一非线性转化层；

S4：将待测文本序列化生成序列待测数据后输入所述训练好的模型，获取序列化的预测结果；

S5：利用实体标签和其编号的对照词典的反向词典，将序列化的预测结果转化为可读的实体标签。

进一步的，所述步骤S1具体包括：

S1.1：对原始语料中原文数据以及标注数据进行预处理，获取格式数据；

S1.2：将所述格式数据划分为训练数据和测试数据；

S1.3：对所述训练数据和测试数据进行序列化处理，生成序列训练数据以及序列测试数据。

进一步的，所述步骤S1.1具体包括：

S1.1.1：对所述原文数据的文本进行分词，获取词列表以及词性列表；

S1.1.2：从所述标注数据中获取实体列表以及实体类别列表；

S1.1.3：合并所述词列表以及实体列表，生成词的实体标签列表；

S1.1.4：根据所述词列表中的句点符号，对所述原文数据的文本进行分句；

S1.1.5：将所述词列表、词性列表以及实体标签列表按行写入文件，生成格式数据。

进一步的，所述步骤S1.3具体包括：

S1.3.1：读取所述训练数据，根据词、词性、实体标签的出现频率，生成词和其编号的对照词典、词性和其编号的对照词典以及实体标签和其编号的对照词典：

S1.3.2：使用所述词和其编号、词性和其编号以及实体标签和其编号的对照词典，对所述训练数据以及测试数据进行序列化，分别生成序列化的训练数据以及测试数据；

S1.3.3：分别对所述序列化的训练数据以及测试数据中句子的长度进行标准化处理，生成序列训练数据以及序列测试数据。

进一步的，所述步骤S2具体包括：

S2.1：根据所述原文数据，生成词向量和词性向量；

S2.2：根据序列训练数据中的词和词性，生成词向量矩阵和词性向量矩阵。

进一步的，所述步骤S3具体包括：

S3.1：所述模型的嵌入层将输入的所述序列训练数据向量化，生成句子对应的词向量和词性向量；

S3.2：所述模型的第二非线性转化层对所述句子的词向量进行非线性转化，提取句子中词的语境信息；

S3.3：所述模型的连接层将提取到的词的语境信息和与其对应的词性向量进行拼接；

S3.4：所述模型的第一非线性转化层融合连接层中的词的语境信息和与其对应的词性向量；

S3.5：所述模型的CRF层对接所述第一非线性转化层，输出实体标签的预测值；

S3.6：所述模型使用交叉商损失函数描述实体标签的预测值与真值之间的差距；

S3.7：重复步骤S3.1至S3.6，训练模型的参数，当模型训练轮数达到预设值时，模型训练终止；

S3.8：使用所述序列测试数据对所述训练后的模型进行测试。

进一步的，所述步骤S4具体包括：

S4.1：使用所述词和其编号、词性和其编号以及实体标签和其编号的对照词典，对所述待测数据进行序列化，将所述待测数据中的符号信息转化为编号信息，生成序列待测数据；

S4.2：使用所述训练好的模型，对序列待测数据进行预测，得到序列化的预测结果。

另一方面，提供了一种融合词向量和词性向量的命名实体识别装置，所述装置包括：

数据获取模块，用于对原始语料数据进行处理，获取序列训练数据以及序列测试数据；

向量矩阵获取模块，用于训练所述原始语料数据中的原文数据获取词向量和词性向量，并生成词向量矩阵和词性向量矩阵；

训练模块，用于利用所述序列训练数据以及词向量矩阵和词性向量矩阵对预先构建的模型进行训练，所述模型至少包括用于融合不同类型的信息的第一非线性转化层；

预测模块，用于将待测文本序列化生成序列待测数据后输入所述训练好的模型，获取序列化的预测结果；

预测结果转化模块，用于利用实体标签和其编号的对照词典的反向词典，将序列化的预测结果转化为可读的实体标签。

进一步的，所述数据获取模块包括：

数据预处理单元，用于对原始语料中原文数据以及标注数据进行预处理，获取格式数据；

数据划分单元，用于将所述格式数据划分为训练数据和测试数据；

数据序列化单元，用于对所述训练数据和测试数据进行序列化处理，生成序列训练数据以及序列测试数据。

进一步的，所述数据预处理单元包括：

分词子单元，用于对所述原始语料中原文数据的文本进行分词，获取词列表以及词性列表；

标注子单元，用于从所述标注数据中获取实体列表以及实体类别列表；

合并子单元，用于合并所述词列表以及实体列表，生成词的实体标签列表；

分句子单元，用于根据所述词列表中的句点符号，对所述原文数据的文本进行分句；

生成子单元，用于将所述词列表、词性列表以及实体标签列表按行写入文件，生成格式数据。

进一步的，所述数据序列化单元包括：

对照词典生成子单元，用于读取所述训练数据，根据词、词性、实体标签的出现频率，生成词和其编号的对照词典、词性和其编号的对照词典以及实体标签和其编号的对照词典；

信息转化子单元，用于使用所述词和其编号、词性和其编号以及实体标签和其编号的对照词典，对所述训练数据以及测试数据中进行序列化，分别生成序列化的训练数据以及测试数据；

长度标准化子单元，用于分别对所述序列化的训练数据以及测试数据中句子的长度进行标准化处理，生成序列训练数据以及序列测试数据。

进一步的，所述向量矩阵获取模块包括：

向量生成单元，用于根据所述原文数据，生成词向量和词性向量；

向量矩阵生成单元，用于根据序列训练数据中的词和词性，生成词向量矩阵和词性向量矩阵。

进一步的，所述训练模块具体用于：

所述模型的嵌入层将输入的所述序列训练数据向量化，生成句子对应的词向量和词性向量；

所述模型的第二非线性转化层对所述句子的词向量进行非线性转化，提取句子中词的语境信息；

所述模型的连接层将提取到的词的语境信息和与其对应词性向量进行拼接；

所述模型的第一非线性转化层融合连接层中的词的语境信息和与其对应的词性向量；

所述模型的CRF层对接所述第一非线性转化层，输出实体标签的预测值；

所述模型使用交叉商损失函数描述实体标签的预测值与真值之间的差距；

重复上述步骤，训练模型的参数，当模型训练轮数达到预设值时，模型训练终止；

使用所述序列测试数据对所述训练后的模型进行测试。

进一步的，所述预测模块包括：

转化单元，用于使用所述词和其编号、词性和其编号以及实体标签和其编号的对照词典，对所述待测数据中进行序列化，将所述待测数据中的符号信息转化为编号信息，生成序列待测数据；

预测单元，用于使用所述训练好的模型，对序列待测数据进行预测得到序列化的预测结果。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的融合词向量和词性向量的命名实体识别方法及装置，不仅利用词向量的非线性转化，还使用了词性向量的信息，为了融合这两种不同性质的向量，预先构建的模型增加了一个非线性转化层，最后再接上CRF层。因此，本发明中预先构建的模型是一个融合了词性信息的、拥有双层非线性转化的模型。本发明实施例中预先构建的模型在词向量的基础上，可以充分利用词性特征，与传统的单纯使用词向量的深度命名实体识别(NER)模型(比如，LSTM-CRF)相比更具有优势。传统的LSTM-CRF的各个标签的综合F1-Score在85％左右，而本发明提出的Concat-Fusion-CRF的综合F1-Score可达89％，效果提升明显，能有效地提高命名实体识别(NER)的正确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的融合词向量和词性向量的命名实体识别方法的流程图；

图2是根据一示例性实施例示出的对原始语料数据进行处理，获取序列训练数据以及序列测试数据的流程图；

图3是根据一示例性实施例示出的对原始语料中原文数据以及标注数据进行预处理，获取格式数据的流程图；

图4是根据一示例性实施例示出的对所述训练数据和测试数据进行序列化处理，生成序列训练数据以及序列测试数据的流程图；

图5是根据一示例性实施例示出的训练所述原始语料中的原文数据获取词向量和词性向量，并生成词向量矩阵和词性向量矩阵的流程图；

图6是根据一示例性实施例示出的利用所述序列训练数据以及词向量矩阵和词性向量矩阵对预先构建的模型进行训练的流程图；

图7是根据一示例性实施例示出将待测文本序列化生成序列待测数据后输入所述训练好的模型，获取序列化的预测结果的流程图；

图8是根据一示例性实施例示出的融合词向量和词性向量的命名实体识别装置的结构示意图；

图9是根据一示例性实施例示出的融合词向量和词性向量的命名实体识别装置中预先构建的模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了使本领域技术人员更好地理解，以下先对本发明实施例涉及到的相关术语做简要介绍：

词：词的文字本身。

词向量：词的向量化表示，每个词用一个多维的向量来表示。

词性：词的性质。通常将词分为两类12种词性。一类是实词：名词、动词、形容词、数词、副词、拟声词、量词和代词，一类是虚词：介词、连词、助词和叹词。

词性向量：词性的向量化表示，每种词性用一个多维向量来表示。

图1是根据一示例性实施例示出的融合词向量和词性向量的命名实体识别方法的流程图，参照图1所示，所述方法包括如下步骤：

S1：对原始语料数据进行处理，获取序列训练数据以及序列测试数据。

具体的，通常命名实体识别的原始语料数据以原文数据(记为OrgData)与标注数据(记为AnnData)分开的方式保存。这种原始语料的保存方式不能直接用于深度学习的训练和测试，因此需要将它们转化成训练和测试时可用的格式。转化包括两个阶段，一是将原始语料转化为格式数据，二是将格式语料转化为序列数据。如此，可获得能直接用于深度学习的序列训练数据以及序列测试数据。

S2：训练所述原始语料数据中的原文数据获取词向量和词性向量，并生成词向量矩阵和词性向量矩阵。

具体的，训练模型时，除了需要序列训练数据和序列测试数据外，还需要输入词向量和词性向量。词向量可以通过多种方式获得，可以是随机生成的、基于大规模的相关语料或通用语料训练的、或者是基于原文数据(OrgData)训练的(本发明实施例中，是基于原文数据训练向量的)。训练的工具可以采用fastText、Word2Vec、Glove等。词性向量训练与词向量类似，不同的是，需要基于词性序列进行。这些事先准备的词向量称为WordEmbedding，词性向量称为POSEmbedding。

因为序列训练数据中的词汇量要小于词向量WordEmbedding的大小，为了方便模型训练，进一步生成仅关乎序列训练数据的词向量矩阵(WordMatrix)。类似的，可以生成词性向量矩阵(POSMatrix)。序列训练数据和向量矩阵(WordMatrix、POSMatrix)是本发明实施例中的模型的输入，模型输出为各个词对应的预测实体标签。

S3：利用所述序列训练数据以及词向量矩阵和词性向量矩阵对预先构建的模型进行训练，所述模型至少包括用于融合不同类型的信息的第一非线性转化层。

具体的，将序列训练数据以及词向量矩阵和词性向量矩阵输入预先构建的模型中，对模型进行训练。本发明实施例中，预先构建的模型包括Concat-Fusion-CRF模型，模型至少包括用于融合不同类型的信息的第一非线性转化层(也称融合层)。该模型拼接句子的词向量和词性向量。对于词向量，施加BiLSTM(双向LSTM)的非线性变化；对于词性向量，直接使用它本身。其中，词向量是可训练的，词性向量是不可训练的。为了更好的融合词向量和词性向量，本发明实施例中的模型的第一非线性转化层对于拼接后的词向量和词性向量再次使用BiLSTM非线性转化。这一层也称为Fusion层，Fusion层的转化所得的输出再被输入给最后的CRF层，由CRF层完成序列最优化的工作。

本发明实施例中，模型的训练方式采用mini-batch方法。模型随机的从序列训练数据中选择一个BatchSize的批数据(mini-batch)进行学习，训练模型的参数。当模型的训练轮数达到预设的MaxEpoch时，模型训练终止。具体的，损失函数采用标签间的分类交叉商误差函数，模型参数的更新方法(即优化器)可以为SGD、Adam等。误差函数的公式如下：

其中，为句子的预测序列，为句子的真值序列，为词在句子中的序号。训练时，每次从序列训练数据中选取BatchSize批数据更新模型的参数。当训练进行MaxEpoch轮后，训练停止。为了方便调整参数，本发明实施例所涉及的参数均使用配置文件进行管理。

S4：将待测文本序列化生成序列待测数据后输入所述训练好的模型，获取序列化的预测结果。

具体的，有用户输入需要测试的文本(如新句子)时，需要先对待测文本进行分词，并获取词性信息，将待测文本转化为序列化数据后输入给训练好的模型，获取待测文本的标签预测序列(即序列化的预测结果)。

具体的，通过处理标签预测序列(即序列化的预测结果)，可以获取命名实体识别(NER)字符串及其对应的类别(即可读的实体标签)。

图2是根据一示例性实施例示出的对原始语料数据进行处理，获取序列训练数据以及序列测试数据的流程图，参照图2所示，其包括如下步骤：

S1.1：对原始语料中原文数据以及标注数据进行预处理，获取格式数据。

具体的，原始语料中原文数据以及标注数据不能直接用于深度学习的训练，需要先对它们进行格式转化。

S1.2：将所述格式数据划分为训练数据和测试数据。

具体的，为了满足训练模型和测试模型效果的需要，可将格式数据进一步分割为两部分，即训练数据(TrainData)和测试数据(TestData)。其中测试数据规模较小，并且数据内容完全不同于训练数据。

具体的，为了使预先构建的模型能更高效地使用数据，需进一步序列化训练数据和测试数据。因为训练模型时，只能观察训练语料，所以基于训练数据进行序列化(不在训练数据中的词视为未知词汇)。

图3是根据一示例性实施例示出的对原始语料中原文数据以及标注数据进行预处理，获取格式数据的流程图，参照图3所示，其包括如下步骤：

S1.1.1：对所述原文数据的文本进行分词，获取词列表以及词性列表。

具体的，先对原文数据(OrgData)中的文本信息(例如文章)进行分词并获取每个词的对应词性，最终获取词列表(及其文中起止索引)以及词性列表。

S1.1.2：从所述标注数据中获取实体列表以及实体类别列表。

具体的，从标注数据(AnnData)中提取人工标注好的实体信息，包括实体列表(及其文中起止索引)、实体类别列表。

S1.1.3：合并所述词列表以及实体列表，生成词的实体标签列表。

具体的，根据词列表(及其文中起止索引)与实体列表(及其文中起止索引)，合并生成词的实体标签列表。这里需要说明的是，标注方案可以采用BIO2、BMEWO等。在本发明实施例中，标注方案采用BIO2方案，如公司名的开始标为B-COMP，公司名称的持续标为I-COMP，其他的实体类别类似，没有实体的地方标注O。

S1.1.4：根据所述词列表中的句点符号，对所述原文数据的文本进行分句。

具体的，模型输入是以句子为单位的，因此还需对文本信息进行分句。可以根据词列表中的句点符号，对文本信息进行分句。

具体的，转化后，一个句子的每个词有三个信息，词本身、词的词性、词的实体分类。其中，前两类信息是模型的输入数据，后一类信息是模型的输出数据。将所述词列表、词性列表以及实体标签列表按行写入文件，不同的句子之间用空行隔开，生成格式数据。

举个例子，假设有句子：“祺鲲科技CEO朱绍康作主题发言。”。它在标注数据AnnData中的对应的人工标注为：

标签序号	实体类别	实体开始	实体结束	实体字符串
					T1	公司名	0	3	祺鲲科技
T2	高管名	7	9	朱绍康

根据上述步骤，例句可转化为如下格式：

图4是根据一示例性实施例示出的对所述训练数据和测试数据进行序列化处理，生成序列训练数据以及序列测试数据的流程图，参照图4所示，其包括如下步骤：

S1.3.1：读取所述训练数据，根据词、词性、实体标签的出现频率，生成词和其编号的对照词典、词性和其编号的对照词典以及实体标签和其编号的对照词典。

具体的，先统计训练数据中每个词的出现频率，按词频排序，选出词频大于等于2的词(本发明实施例中，预设的词的最小出现频率为2)，生成词和其编号的对照词典Word2ID。特别的，编号0预留给“PAD”，编号WordNum(词汇总数)+1预留给未知词汇“UNK”。Word2ID的例子有：{′PAD′：0，′，′：1，′的′：2，′。′：3，′链′：4，′区块′：5，…，′UNK′：23292}。类似的，参照词的序列化，可以生成词性和其编号的对照词典POS2ID以及实体标签和其编号的对照词典NER2ID。和词的序列化不同，词性和实体标签的种类一般比较固定，数量有限，所以不设最小出现频率。POS2ID的例子有：{′PAD′：0，′n′：1，′V′：2，′x′：3，′uj′：4，′m′：5，…，′UNK′：57}，NER2ID的例子有：{′PAD′：0，′O′：1，′I-ORGA′：2，′B-COMP′：3，′B-COIN′：4，′B-ORGA′：5，′B-PROJ′，…，′UNK′：14}。

S1.3.2：使用所述词和其编号、词性和其编号以及实体标签和其编号的对照词典，对所述训练数据以及测试数据中进行序列化，分别生成序列化的训练数据以及测试数据。

具体的，使用各个对照词典Word2ID、POS2ID、NER2ID，对训练数据以及测试数据进行序列化，生成序列化的训练数据以及测试数据。比如，例句的词序列化结果是[5095，4954，174，535，10483，3845，1010，4027，3]，词性序列化结果是[43，1，1，10，16，2，1，2，3]，实体标签序列化结果是[2，8，8，1，9，1，1，1，1]。要注意的是，实体标签序列化结果也是训练数据的正确解标签(真值)。

具体的，本发明实施例的模型的输入数据需要长度一致。因此，需要统一不同句子的长度。预设句子的统一长度为MaxLength，对于长度小于预设值MaxLength的句子，用0进行填充，对于长度大于预设值MaxLength的句子则将超出部分截去。预设值MaxLength可依据语料实际情况来定，在本发明实施例中，预设值MaxLength为100。

图5是根据一示例性实施例示出的训练所述原始语料中的原文数据获取词向量和词性向量，并生成词向量矩阵和词性向量矩阵的流程图，参照图5所示，其包括如下步骤：

S2.1：根据所述原文数据生成词向量和词性向量。

具体的，本发明实施例的词向量和词性向量均是基于OrgData本身所训练的(初期实验表明，其他方式获得的词向量并无优势)。训练用的方法采用fastText，词向量和词性向量的最小词和词性出现频率均为2，词向量矩阵的行宽WordEmbeddingSize和词性向量矩阵的行宽POSEmbeddingSize均为200。

一般而言，预训练的词向量的词汇数量要远大于TrainData序列化时需要用到的词汇数量WordNum，而Word2ID中的词汇才是模型学习时，真正需要用到或者更新的词汇。因此，将Word2ID词汇的词向量，单独生成一个矩阵WordMatrix。WordMatrix的每一行对应Word2ID的词汇的一个词，再加上“PAD”和“UNK”，WordMatrix的形状为(WordNum+2，WordEmbeddingSize)。类似地，可以生成词性向量矩阵(POSMatrix)。

图6是根据一示例性实施例示出的利用所述序列训练数据以及词向量矩阵和词性向量矩阵对预先构建的模型进行训练的流程图，参照图6所示，其包括如下步骤：

S3.1：所述模型的嵌入层将输入的所述序列训练数据向量化，生成句子对应的词向量和词性向量。

具体的，模型的嵌入层就是将句子向量化过程，词列表和词性列表都将被转化为其对应的向量表示。在本发明实施例中，词向量是可训练的，词性向量是不可训练的。

S3.2：所述模型的第二非线性转化层对所述句子的词向量进行非线性转化，提取句子中词的语境信息。

具体的，本发明实施例中包括两个非线性转化层(BiLSTM层)，BiLSTM层包含双向的LSTM单元。其中，模型的第二非线性转化层对词向量进行非线性转化，提取词的语境信息。双向LSTM相比于单向LSTM的优势在于，可以同时观察一段时间内，关于当前词的过去和未来信息。

S3.3：所述模型的连接层将提取到的词的语境信息和与其对应词性向量进行拼接。

具体的，模型的连接层拼接第二非线性转化层提取的词的语境信息以及嵌入层的词性向量中的原始词性信息。

S3.4：所述模型的第一非线性转化层融合连接层中的词的语境信息和与其对应的词性向量。

具体的，模型的第一非线性转化层也包含双向的LSTM单元，用于融合连接层中的两类不同类型的信息，即词的语境信息以及词性向量中的原始词性信息。

S3.5：所述模型的CRF层对接所述第一非线性转化层，输出实体标签的预测值。

S3.6：所述模型使用交叉商损失函数描述实体标签的预测值与真值之间的差距。

具体的，通过将模型的预测值与真值标签进行对照，可以计算损失函数的值。

S3.7：重复步骤S3.1至S3.6，训练模型的参数，当模型训练轮数达到预设值时，模型训练终止。

具体的，本实施例中，批数据的BatchSize为100，使用Adam优化器。随着训练的进行，优化器降低损失函数的值，不断更新模型的参数。

S3.8使用所述序列测试数据对所述训练后的模型进行测试。

具体的，为了测试模型的泛化能力，模型训练好后，使用序列测试数据对训练后的模型进行评价。也就是说，基于序列测试数据评价模型的泛化表现，评价方法选用各类别实体标签预测值的加权正确率、召回率和F1-Score。这里需要说明的是，F1-Score是正确率和召回率的调和平均数，兼顾了分类模型的正确率和召回率。因为命名实体识别一般会识别多个类别，比如公司、人民、地名等，所以会计算每个类别的正确率、召回率、F1-Score，加权得到一个总的评价。为了更合理地反应预测效果，评价的实体标签中去除占比很大的O标签。

除此之外，为了防止模型发生过拟合，本发明实施例中的模型还增加了过滤层(Dropout层)。

图7是根据一示例性实施例示出的将待测文本序列化生成序列待测数据后输入所述训练好的模型，获取序列化的预测结果的流程图，参照图7所示，其包括如下步骤：

S4.1：使用所述词和其编号、词性和其编号以及实体标签和其编号的对照词典，对所述待测数据中进行序列化，将所述待测数据中的符号信息转化为编号信息，生成序列待测数据。

具体的，先用对照词典Word2ID、POS2ID以及NER2ID对待测数据进行序列化，将待测数据中的符号信息转化为编号信息，生成序列待测数据。

具体的，将序列待测数据输入训练好的模型中，得到序列化的预测结果，然后使用NER2ID的反向词典，将序列化的预测结果转化为可读的实体标签。

图8是根据一示例性实施例示出的融合词向量和词性向量的命名实体识别装置的结构示意图，参照图8所示，所述装置包括：

数据获取模块，用于对原始语料数据进行处理，获取序列训练数据以及序列测试数据。

具体的，原始语料的保存方式不能直接用于深度学习的训练，因此需要将它们转化成训练用格式，即将原始语料数据转化为可直接用于深度学习的训练的序列训练数据以及序列测试数据。

向量矩阵获取模块，用于训练所述原始语料数据中的原文数据获取词向量和词性向量，并生成词向量矩阵和词性向量矩阵。

具体的，在本发明实施例中，词向量和词性向量是基于所述原始语料中的原文数据训练获取的，然后再根据词向量生成词向量矩阵(WordMatrix)，类似的，根据词性向量生成词性向量矩阵(POSMatrix)。

训练模块，用于利用所述序列训练数据以及词向量矩阵和词性向量矩阵对预先构建的模型进行训练，所述模型至少包括用于融合不同类型的信息的第一非线性转化层。

具体的，本发明实施例中，预先构建的模型包括Concat-Fusion-CRF模型。

图9是根据一示例性实施例示出的融合词向量和词性向量的命名实体识别装置中预先构建的模型的结构示意图，参照图9所示，该模型包括：

输入层，用于提供给用户在使用对照词典Word2ID、POS2ID以及NER2ID对待测数据进行序列化，生成序列待测数据后输入模型；

嵌入层，用于将输入的序列训练数据以及序列待测数据向量化，生成对应的词向量和词性向量；

过滤层(Dropout层)，用于防止模型发生过拟合；

第二非线性转化层，用于对词向量进行非线性转化，提取词的语境信息；

连接层，用于拼接第二非线性转化层提取的词的语境信息以及嵌入层的词性向量中的原始词性信息；

第一非线性转化层(也称融合层)，用于融合连接层中的不同类型的信息的；

CRF层，用于对接第一非线性转化层，输出实体标签的预测值。

标签层，用于根据实体标签的预测值输出每个值的真值标签，生成序列化的预测结果。

预测模块，用于将待测文本序列化生成序列待测数据后输入所述训练好的模型，获取序列化的预测结果。

进一步的，所述数据获取模块包括：

进一步的，所述数据预处理单元包括：

进一步的，所述数据序列化单元包括：

进一步的，所述向量矩阵获取模块包括：

进一步的，所述训练模块具体用于：

使用所述序列测试数据对所述训练后的模型进行测试。

进一步的，所述预测模块包括：

综上所述，本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的融合词向量和词性向量的命名实体识别方法及装置，不仅利用词向量的非线性转化，还使用了词性向量的信息，为了融合这两种不同性质的向量，预先构建的模型增加了一个非线性转化层，最后再接上CRF层。因此，本发明中预先构建的模型是一个融合了词性信息的、拥有双层非线性转化的模型。本发明实施例中预先构建的模型在词向量的基础上，可以充分利用词性特征，与传统的单纯使用词向量的深度命名实体识别(NER)模型(比如，LSTM～CRF)相比更具有优势。传统的LSTM-CRF的各个标签的综合F1-Score在85％左右，而本发明提出的Concat-Fusion-CRF的综合F1-Score可达89％，效果提升明显，能有效地提高命名实体识别(NER)的正确率。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的融合词向量和词性向量的命名实体识别装置在触发命名实体识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的融合词向量和词性向量的命名实体识别装置与融合词向量和词性向量的命名实体识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合词向量和词性向量的命名实体识别方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的融合词向量和词性向量的命名实体识别方法，其特征在于，所述步骤S1具体包括：

S1.2：将所述格式数据划分为训练数据和测试数据；

3.根据权利要求2所述的融合词向量和词性向量的命名实体识别方法，其特征在于，所述步骤S1.1具体包括：

S1.1.2：从所述标注数据中获取实体列表以及实体类别列表；

4.根据权利要求2所述的融合词向量和词性向量的命名实体识别方法，其特征在于，所述步骤S1.3具体包括：

S1.3.1：读取所述训练数据，根据词、词性、实体标签的出现频率，生成词和其编号的对照词典、词性和其编号的对照词典以及实体标签和其编号的对照词典；

5.根据权利要求1至4任意一项所述的融合词向量和词性向量的命名实体识别方法，其特征在于，所述步骤S2具体包括：

S2.1：根据所述原文数据，生成词向量和词性向量；

6.根据权利要求1至4任意一项所述的融合词向量和词性向量的命名实体识别方法，其特征在于，所述步骤S3具体包括：

S3.8：使用所述序列测试数据对所述训练后的模型进行测试。

7.根据权利要求1至4任意一项所述的融合词向量和词性向量的命名实体识别方法，其特征在于，所述步骤S4具体包括：

8.一种融合词向量和词性向量的命名实体识别装置，其特征在于，所述装置包括：

9.根据权利要求8所述的融合词向量和词性向量的命名实体识别装置，其特征在于，所述数据获取模块包括：

10.根据权利要求9所述的融合词向量和词性向量的命名实体识别装置，其特征在于，所述数据预处理单元包括：

11.根据权利要求9所述的融合词向量和词性向量的命名实体识别装置，其特征在于，所述数据序列化单元包括：

12.根据权利要求8至11任意一项所述的融合词向量和词性向量的命名实体识别装置，其特征在于，所述向量矩阵获取模块包括：

13.根据权利要求8至11任意一项所述的融合词向量和词性向量的命名实体识别装置，其特征在于，所述训练模块具体用于：

重复上述步骤，，训练模型的参数，当模型训练轮数达到预设值时，模型训练终止；

使用所述序列测试数据对所述训练后的模型进行测试。

14.根据权利要求8至11任意一项所述的融合词向量和词性向量的命名实体识别装置，其特征在于，所述预测模块包括：