CN109062893A

CN109062893A - 一种基于全文注意力机制的商品名称识别方法

Info

Publication number: CN109062893A
Application number: CN201810768223.0A
Authority: CN
Inventors: 苏锦钿; 李鹏飞; 周炀
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2018-12-21
Anticipated expiration: 2038-07-13
Also published as: CN109062893B

Abstract

本发明公开了一种基于全文注意力机制的商品名称识别方法，包括：建立加入全文注意力机制的深度神经网络模型，在深度神经网络模型中加入全文注意力层，在全文注意力层当中，将全文的信息用词嵌入向量的方法来表示；接着，对于要标注的每一个词语，计算它们和全文注意力层词向量的相似性，从而让词语获得对全文的“注意力权重”，即让词语关注到文档的上下文信息，利用注意力权重和，计算出每一个词语的额外特征，用以进行商品名称的识别。本发明方法能够有效的从不规则的文本中提取出商品名，并解决了同一种商品在上下文识别不一致的问题，提高了识别的准确率。

Description

一种基于全文注意力机制的商品名称识别方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于全文注意力机制的商品名称识别方法。

背景技术

命名实体识别是信息抽取的一项子任务，旨在识别出文本中的专有名词，并对它们进行分类。传统的命名实体任务有：人名、地名、机构名等。这是自然语言处理领域中一个相当重要的基础任务，比如：搜索引擎、问答系统、推荐系统、翻译系统等。而近年来，随着电子商务的不断发展，针对电商领域的命名实体识别任务也开始为人们所关注，人们迫切需要从海量的、不规则的文本中提取出商品的名称，并将其用于智能客服、广告推荐等领域。

对于这个问题，经典的研究主要是基于归纳商品字典、完善正则表达式、界定规、构造隐马尔科夫模型、构造最大熵模型和构造条件随机场模型等方法，这些方法的缺点在于，它们无法对词语潜在的语义进行建模，只能通过增加外部特征来达到提升效果的目的。

而近几年来，随着深度学习的不断发展，很多学者开始利用深层神经网络来对文本建模，这些模型能够捕获到文本潜在的语义信息，大大减少了人工提取特征的工作量，具体到商品名称识别，目前较好的模型有BI-LSTM+CRF模型，CNN+CRF模型，这些模型基本上都是用了word-embedding技术，这能解决词典高维稀疏的问题，具有很强的泛化能力，使得我们不必统计完整的商品词典，同时，神经网络和CRF的结合，能够解决商品名识别标注矛盾的问题，提高识别准确率。然而，这些研究忽略了商品名识别不一致的问题，也就是说，同一个商品，在文本中的不同位置，被识别成了不同的类别。比如，“苹果”和“苹果手机”同时都在一篇文档中出现，但是如果应用上面所说的模型，有可能“苹果”被标注成水果，“苹果手机”则被标注成商品，出现这个问题的原因在于，模型并没有考虑到文档全文的信息，如果知道这篇文章是在讲手机相关的内容，那么“苹果”更大概率是一种商品。因此，提供一种基于全文注意力机制的商品名称识别方法，具有重要的现实意义。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于全文注意力机制的商品名称识别方法，基于深度学习技术，能够有效的从不规则的文本中提取出商品名，并解决了同一种商品在上下文识别不一致的问题，提高了识别的准确率。

本发明的目的通过以下的技术方案实现：一种基于全文注意力机制的商品名称识别方法，包括：建立加入全文注意力机制的深度神经网络模型，在深度神经网络模型中加入全文注意力层，在全文注意力层当中，将全文的信息用词嵌入向量的方法来表示；接着，对于要标注的每一个词语，计算它们和全文注意力层词向量的相似性，从而让词语获得对全文的“注意力权重”，即让词语关注到文档的上下文信息，利用注意力权重和，计算出每一个词语的额外特征，用以进行商品名称的识别。

优选的，加入全文注意力机制的深度神经网络模型包括：输入层、编码层、全文注意力层、输出层、提取层；

第一层是输入层，首先利用预训练好的词向量，将全文分词后的结果映射为向量矩阵，并将额外的词性信息编码为one-hot特征，拼接在向量矩阵后，形成模型的输入；

第二层是编码层，针对文章中的每一个句子，使用双向循环神经网络来进行编码；

第三层是全文注意力层，由于第二层已经对文中的每一个句子进行了建模，全文注意力层的任务是为每一个词语引入全文的信息，得到蕴含更多信息的编码；

第四层是输出层，考虑相邻标签之间的关系，加入标签转移得分，和全文注意力层输出的分数相结合，预测全局最优的标注序列；

最后一层是提取层，根据上一层输出的标注序列，提取出自定义商品名标注，并将其背后的文本拼接起来，从而识别、得到商品名。

优选的，输入层将词语序列转换成词语的特征向量，以传递给编码层处理，这一层的特征向量是由两种特征向量拼接而成，包括预训练词向量和词性特征向量；其中，预训练词向量的维度为N维，词性特征由NLTK给出，用随机初始化的方法将每种词性映射到指定维度的向量，最终，将词向量和词性特征向量拼接在一起，代表词语的特征向量。

优选的，编码层针对输入层的每一个句子特征向量，进行神经网络的前向传播，这一层使用两个独立的循环神经网络，首先使用前向LSTM学习词语的前向依赖关系，然后使用后向LSTM学习词语的后向依赖关系，最后将它们拼接成词语的总向量，此时词语的总向量就包含了句子内的上下文信息。

优选的，全文注意力层为编码层的每一个词语增加额外的全文特征；在这一层中，对于每一个词语，模型使用欧氏距离相似度函数计算当前词语向量和全文的每一个词语向量的相似性，得到注意力权重，用注意力权重和对应的全文向量相乘，得到当前词语的全局特征向量；最后，将全局特征向量拼接在原有的词语总向量之后，形成最终的词语输出向量。

优选的，输出层根据全文注意力层的输出词语向量，为词语预测对应的标签；这一层是一个标签联合预测的CRF层，借鉴条件随机场模型全局优化的思想，考虑相邻两个输出标签之间的关系，最后得到最优的标签序列。

优选的，在模型的训练过程中，使用dropout技术防止过拟合。

优选的，在模型的训练过程中，使用Adam优化器以自适应地计算每个参数的学习率。

本发明与现有技术相比，具有如下优点和有益效果：

本发明通过结合全文注意力的方法，给出一种基于深度学习技术的商品名识别方法，能够有效的从不规则的文本中提取出商品名，并解决了同一种商品在上下文识别不一致的问题，提高了识别的准确率。

本方法充分利用了神经网络注意力机制的优点，灵活的将全文信息以“注意力”的形式输入神经网络，使得神经网络能够关注到被忽略的重要的商品信息，从而最终输出更加准确的商品名。本发明可以应用到各种电子商务的场景当中，为许多应高级用提供底层基础服务。

附图说明

图1为实施例提供的商品名自动识别模型总体结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

一种基于全文注意力机制的商品名称识别方法，加入全文注意力机制的深度神经网络模型，将其应用在商品名自动识别当中。

模型的改进思路主要在于全文注意力层。在这一层当中，将全文的信息用词嵌入向量的方法来表示，接着，对于要标注的每一个词语，用欧式距离相似度函数计算它们和全文注意力层词向量的相似性，从而让词语获得对全文的“注意力权重”，即让词语关注到文档的上下文信息。最后，利用注意力权重和，计算出每一个词语的额外特征，传递到输出层。这样一来，每一个词语就能额外获取到全文的信息，从而解决商品名标注不一致的问题。

具体来说，模型分为输入层、编码层、全文注意力层、输出层、提取层。

第一层是输入层，首先利用预训练好的词向量，将全文分词后的结果映射为向量矩阵，并将额外的词性信息编码为one-hot特征，拼接在向量矩阵后，形成模型的输入。

第二层是编码层，针对文章中的每一个句子，使用双向循环神经网络来进行编码，它在前向网络中，让词语获得句子级别的上文信息，在后向网络中，让词语获得句子级别的下文信息。

第三层是全文注意力层，由于第二层已经对文中的每一个句子进行了建模，全文注意力层的任务是为每一个词语引入全文的信息，得到蕴含更多信息的编码，旨在解决商品名识别前后不一致的问题。

第四层是输出层，这一层使用了CRF模型的转移矩阵，考虑了相邻标签之间的关系，加入标签转移得分，和全文注意力层输出的分数相结合，预测全局最优的标注序列。

所提出的商品名自动识别方法包括以下步骤：

步骤1：模型第一层将词语序列转换成词语的特征向量，以传递给编码层处理，这一层的特征向量是由两种特征向量拼接而成，包括预训练词向量和词性特征向量。其中，预训练词向量的维度为100维，词性特征由NLTK给出，用随机初始化的方法将每种词性映射到指定维度的向量。最终，将词向量和词性特征向量拼接在一起，代表词语的特征向量。

步骤2：模型第二层针对第一层的每一个句子特征向量，进行神经网络的前向传播。这一层使用两个独立的循环神经网络，首先使用前向LSTM学习词语的前向依赖关系，然后使用后向LSTM学习词语的后向依赖关系，最后将它们拼接成词语的总向量，此时词语的总向量就包含了句子内的上下文信息。

步骤3：模型第三层为第二层的每一个词语增加额外的全文特征。由于输入层、编码层的处理都是句子级别的，所以它们无法获取全文的信息。而在这一层中，对于每一个词语，模型使用欧氏距离相似度函数计算当前词语向量和全文的每一个词语向量的相似性，得到注意力权重，用注意力权重和对应的全文向量相乘，得到当前词语的全局特征向量。最后，将全局特征向量拼接在原有的词语总向量之后，形成最终的词语输出向量。

步骤4：模型第四层的任务是根据全文注意力层的输出词语向量，为词语预测对应的标签。这一层是一个标签联合预测的CRF层，借鉴了条件随机场模型全局优化的思想，考虑了相邻两个输出标签之间的关系，最后得到最优的标签序列。

在模型的训练过程中，使用了dropout技术防止过拟合，使用了Adam优化器以自适应地计算每个参数的学习率。

步骤5：模型的最后一层用于提取商品名，由步骤4，已经可以得到文本中每一个词语的标签，而这个步骤则是根据自定义商品名背后的标签，提取出原文词语，将这些词语拼接在一起，从而得到商品名。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于全文注意力机制的商品名称识别方法，其特征在于，包括：建立加入全文注意力机制的深度神经网络模型，在深度神经网络模型中加入全文注意力层，在全文注意力层当中，将全文的信息用词嵌入向量的方法来表示；接着，对于要标注的每一个词语，计算它们和全文注意力层词向量的相似性，从而让词语获得对全文的“注意力权重”，即让词语关注到文档的上下文信息，利用注意力权重和，计算出每一个词语的额外特征，用以进行商品名称的识别。

2.根据权利要求1所述的基于全文注意力机制的商品名称识别方法，其特征在于，加入全文注意力机制的深度神经网络模型包括：输入层、编码层、全文注意力层、输出层、提取层；

3.根据权利要求1所述的基于全文注意力机制的商品名称识别方法，其特征在于，输入层将词语序列转换成词语的特征向量，以传递给编码层处理，这一层的特征向量是由两种特征向量拼接而成，包括预训练词向量和词性特征向量；其中，预训练词向量的维度为N维，词性特征由NLTK给出，用随机初始化的方法将每种词性映射到指定维度的向量，最终，将词向量和词性特征向量拼接在一起，代表词语的特征向量。

4.根据权利要求1所述的基于全文注意力机制的商品名称识别方法，其特征在于，编码层针对输入层的每一个句子特征向量，进行神经网络的前向传播，这一层使用两个独立的循环神经网络，首先使用前向LSTM学习词语的前向依赖关系，然后使用后向LSTM学习词语的后向依赖关系，最后将它们拼接成词语的总向量，此时词语的总向量就包含了句子内的上下文信息。

5.根据权利要求1所述的基于全文注意力机制的商品名称识别方法，其特征在于，全文注意力层为编码层的每一个词语增加额外的全文特征；在这一层中，对于每一个词语，模型使用欧氏距离相似度函数计算当前词语向量和全文的每一个词语向量的相似性，得到注意力权重，用注意力权重和对应的全文向量相乘，得到当前词语的全局特征向量；最后，将全局特征向量拼接在原有的词语总向量之后，形成最终的词语输出向量。

6.根据权利要求1所述的基于全文注意力机制的商品名称识别方法，其特征在于，输出层根据全文注意力层的输出词语向量，为词语预测对应的标签；这一层是一个标签联合预测的CRF层，借鉴条件随机场模型全局优化的思想，考虑相邻两个输出标签之间的关系，最后得到最优的标签序列。

7.根据权利要求1所述的基于全文注意力机制的商品名称识别方法，其特征在于，在模型的训练过程中，使用dropout技术防止过拟合。

8.根据权利要求1所述的基于全文注意力机制的商品名称识别方法，其特征在于，在模型的训练过程中，使用Adam优化器以自适应地计算每个参数的学习率。