CN108984532A

CN108984532A - 基于层次嵌入的方面抽取方法

Info

Publication number: CN108984532A
Application number: CN201810840667.0A
Authority: CN
Inventors: 刘漳辉; 肖顺鑫; 郭昆; 陈羽中
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-11

Abstract

本发明涉及一种基于层次嵌入的方面抽取方法，对原始语料执行多阶段的预处理操作，使用字符层次的嵌入和双向循环神经网络获得词的高层次特征，通过级联词嵌入与字符嵌入特征以作为词层次双向循环神经网络的输入，获得最终标注结果。本发明提出的一种基于层次嵌入的方面抽取方法，有效地提高方面抽取模型自动化的程度。

Description

基于层次嵌入的方面抽取方法

技术领域

本发明涉及自然语言处理中的细粒度情感分析领域，特别是一种基于层次嵌入的方面抽取方法。

背景技术

随着信息时代的到来，网络观点调查已经逐步取代了传统纸质问卷调查，不仅包括商品评论领域，还涉及社会公众事件、外交以及国家政策等领域。但是随着互联网便利性的增强，网络上涌现出大量的用户生成内容，除了新闻报道等客观信息外，带有主观色彩的评论数据也占据了很大一部分，且呈现出大数据化的发展趋势。对这些海量的数据进行细粒度的情感分析(又称观点挖掘)，不仅有利于发现、分析及控制舆论，还可以帮助生产者改进产品、服务质量，以及帮助消费者做出购买决策。

对评论文本进行细粒度情感分析，即挖掘出文本中的评价对象(又称方面)、观点词及观点持有者。如在笔记本电脑评论“Thebattery life is long”中，观点持有者即发布这条评论的消费者，用观点词“long”对方面短语“battery life”进行描述。现如今，观点挖掘技术被广泛应用于自然语言处理、人工智能等领域。

现有的方面抽取研究大多集中于基于规则或基于传统机器学习模型的方法。基于规则的方法简单易行、执行效率高，但性能严重依赖于专家制定的规则质量和语料中语法的正确性；基于传统机器学习模型的方法，大多采用HMM模型和CRF模型，本质上是将方面抽取看成是一个序列标注任务，获得比基于规则更高的性能，但是该类方法需要大量的特征工程，性能也严重依赖于所选特征的质量。

发明内容

本发明的目的在于提供一种基于层次嵌入的方面抽取方法，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种基于层次嵌入的方面抽取方法，按照如下步骤实现：

步骤S1：对在线评论文本进行预处理；

步骤S2：对低频词进行过滤，过滤掉文本中出现频次小于预设阈值的单词；

步骤S3：进行字符嵌入和单词嵌入初始化；

步骤S4：通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征；

步骤S5：将词嵌入特征和字符层次的词特征进行级联，通过采用词层次的双向循环神经网络获得最终的标注结果。

在本发明一实施例中，在所述步骤S1中，所述预处理还包括如下步骤：

步骤S11：进行分词处理；采用NLTK工具提供的正则分词器，并设置正则匹配规则；

步骤S12：进行特殊符号处理；移除文本中出现的各种标点符号；

步骤S13：进行数字处理；将语料中的所有数字都用单词“DIGIT”进行替换；

步骤S14：进行转小写处理；将同一个单词的不同大小写形式都转换成统一的小写形式；

步骤S15：进行词形还原处理；采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式；

步骤S16：进行词干提取处理；采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。

在本发明一实施例中，在所述步骤S2中，还包括如下步骤：

步骤S21：选定低频词过滤阈值；根据如下公式过滤掉出现频次小于过滤阈值的单词；

L_w＝{w_i|f_i＜F}

其中，f_i为单词w_i在所有语料中出现过的次数，F为相应的低频词过滤阈值，且F∈{1，2，3，4，5，6，7，8，9，10}；

步骤S22：进行低频词过滤；根据所选定的低频词过滤阈值，过滤掉所用到的语料中，出现次数少于该阈值的所有低频词。

在本发明一实施例中，在所述步骤S3中，还包括如下步骤：

步骤S31：采用Google Embeddings初始化词嵌入；该Google Embeddings在谷歌新闻语料上通过采用基于词袋的模型进行训练建立，其中，每个单词都被表示成一个固定维度为300维的向量；将经预处理和低频词过滤后的所有单词使用Google Embeddings进行向量化，如果该单词不存在于Google Embedding，则将该单词标记为“UNKONWN”并进行相应的向量化；

步骤S32：采用Amazon Embeddings初始化词嵌入；该Amazon Embeddings在Amazon商品评论语料上采用基于词袋的模型进行训练建立，其中，每个单词都被表示成一个固定维度为300维的向量；将经预处理和低频词过滤后的所有单词使用Amazon Embeddings进行向量化，如果该单词不存在于Amazon Embeddings，则将该单词标记为“UNKONWN”并进行相应的向量化；

步骤S33：随机初始化词嵌入；将每个单词随机初始化为预设固定维数的向量，向量中的每一维的数值都介于0到1之间，其维数d_w＝{50，100，150，200，250，300}；

步骤S34：随机初始化字符嵌入；将单词中的每个字符都随机初始化为预设固定维数的向量，向量中的每一维的数值都介于0到1之间，其维数d_c＝150。

在本发明一实施例中，在所述步骤S4中，还包括如下步骤：

步骤S41：将每个单词W_i都表示成相应的字符序列，w_i＝{c_i1，c_i2，...，c_ij}；

步骤S42：将每个单词对应字符序列中的每个字符，使用字符嵌入进行向量化处理；

步骤S43：将字符序列按序输入到一个字符层次的双向长短期记忆网络中，其中，正向长短期记忆网络的输入序列为{c_i1，c_i2，...，c_ij}，反向长短期记忆网络的输入序列为{c_ij，c_ij-1，...，c_i1}，一个长短期记忆网络的隐藏层单元计算公式如下：

i_t＝σ(X_ix_t+H_ih_t-1+M_im_t-1+b_i)，

f_t＝σ(X_fx_t+H_fh_t-1+M_fm_t-1+b_f)，

m_t＝f_t⊙m_t-1+i_t⊙τ(X_mx_t+H_mh_t-1+b_m)

o_t＝σ(X_ox_t+H_oh_t-1+M_om_t+b_o)，

h_t＝o_t⊙τ(m_t)，

其中，x_t为当前时刻的输入，h_t-1、m_t-1分别为上一时刻隐藏层的输出和记忆细胞的输出，i_t、f_t、m_t和o_t分别为当前时刻输入门、遗忘门、记忆细胞和输出门的状态，h_t为该循环神经网络在t时刻的输出，门函数σ为sigmoid激活函数，τ为双曲正切函数，符号⊙代表两个向量对应元素的乘积，X_i、H_i、M_i、b_i、X_f、H_f、M_f、b_f、X_m、H_m、b_m、X_o、H_o、M_o和b_o为网络中的不同层之间的连接边的权重；

步骤S44：将正向隐藏层输出向量与反向隐藏层输出向量进行级联，获得单词的字符层次的词特征，计算公式如下：

其中，为正向隐藏层输出向量，为反向隐藏层输出向量，h_t为级联后的向量。

在本发明一实施例中，在所述步骤S5中，还包括如下步骤：

步骤S51：将每条句子s表示为相应的单词序列，s＝(w₁，w₂，...，w_T)；

步骤S52：对每条句子中的单词，使用词嵌入进行向量化处理；

步骤S53：将每个单词的词嵌入向量与其字符层次的词特征向量进行级联，作为一个词层次的双向长短期记忆网络的输入；

步骤S54：将词层次双向长短期记忆网络的正向和反向隐藏层输出进行级联；

步骤S55：将级联后的向量输入到网络输出层以进行分类，得到每个单词是否为方面词；使用softmax作为输出层的映射器，它会获得当前单词属于各个类别的概率分布，其计算公式如下：

P(y_t|h_t)＝softmax(Wh_t+b)

其中，为word-biLSTM隐藏层与网络输出层之间的权重矩阵，|h_t|为的隐藏层的维度，b为偏差向量，N＝3为所有的类别数，即“B”、“I”、“O”三种。

相较于现有技术，本发明具有以下有益效果：

第一，设计一个包含多阶段的预处理流程，为后续步骤提供一个可靠的输入。

第二，利用提出的网络训练随机初始化的词嵌入和字符嵌入，可用于某些不具有预训练嵌入空间的领域。

第三，使用一个字符层次的嵌入和双向长短期记忆网络，可以有效捕获单词内部的语义信息。本发明提出的一种基于层次嵌入的方面抽取方法，比基于规则、基于传统机器学习和基于基本深度学习方法在方面词识别上具有更高的性能和更好的自动化能力。

附图说明

图1为本发明实施例中基于层次嵌入的方面抽取方法的网络结构图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提出一种基于层次嵌入的方面抽取方法，如图1所示，按照如下步骤实现：

步骤S1：对在线评论文本进行预处理，包括词干提取、词形还原等预处理操作；

步骤S3：进行字符嵌入和单词嵌入初始化，包括使用多种预训练模型初始化方式和随机初始化方式；

进一步的，在本实施例中，在步骤S1中，预处理还包括如下步骤：

步骤S11：对输入样本数据进行分词处理；采用NLTK工具提供的正则分词器，并自定义设置正则匹配规则；

步骤S12：进行特殊符号处理；移除文本中出现的对方面抽取没有帮助的特殊符号，包括分号、句号、感叹号等各种标点符号；

步骤S13：进行数字处理；由于不同数字在语料抽取中都起到相同的作用，将语料中的所有数字都用单词“DIGIT”进行替换；

步骤S15：进行词形还原处理；即将一个词的各种形式还原到一般形式，如将过去时态的“drove”还原到一般形式“drive”，采用NLTK工具提供的词形还原功能；

步骤S16：进行词干提取处理；即提取一个单词的词干或词根形式，如将“effective”处理成“effect”，采用NLTK工具提供的词干提取功能。

进一步的，在本实施例中，在步骤S2中，还包括如下步骤：

L_w＝{w_i|f_i＜F}

进一步的，在本实施例中，在步骤S3中，还包括如下步骤：

步骤S31：采用Google Embeddings初始化词嵌入；该Google Embeddings在谷歌新闻语料上通过采用基于词袋的模型(CBOW)进行训练建立，其中，每个单词都被表示成一个固定维度为300维的向量；将经预处理和低频词过滤后的所有单词使用Google Embeddings进行向量化，如果该单词不存在于Google Embedding，则将该单词标记为“UNKONWN”并进行相应的向量化；

步骤S32：采用Amazon Embeddings初始化词嵌入；该Amazon Embeddings在Amazon商品评论语料上采用基于词袋的模型(CBOW)进行训练建立，其中，每个单词都被表示成一个固定维度为300维的向量；将经预处理和低频词过滤后的所有单词使用AmazonEmbeddings进行向量化，如果该单词不存在于Amazon Embeddings，则将该单词标记为“UNKONWN”并进行相应的向量化；

步骤S33：随机初始化词嵌入；除了采用以上两种预训练初始化方式外，还可以采用随机初始化的方式，将每个单词随机初始化为预设固定维数的向量，向量中的每一维的数值都介于0到1之间，其维数d_w＝{50，100，150，200，250，300}；

进一步的，在本实施例中，在步骤S4中，还包括如下步骤：

i_t＝σ(X_ix_t+H_ih_t-₁+M_im_t-1+b_i)，

f_t＝σ(X_fx_t+H_fh_t-1+M_fm_t-1+b_f)，

m_t＝f_t⊙m_t-1+i_t⊙τ(X_mx_t+H_mh_t-1+b_m)

o_t＝σ(X_ox_t+H_oh_t-1+M_om_t+b_o)，

h_t＝o_t⊙τ(mt)，

其中，x_t为当前时刻的输入，h_t-1、m_t-1分别为上一时刻隐藏层的输出和记忆细胞的输出，i_t、f_t、m_t和o_t分别为当前时刻输入门、遗忘门、记忆细胞和输出门的状态，h_t为该循环神经网络在t时刻的输出，门函数σ为sigmoid激活函数，τ为双曲正切函数，符号⊙代表两个向量对应元素的乘积，X_i、H_i、M_i、b_i、X_f、H_f、M_f、b_f、X_m、H_m、b_m、X_o、H_o、M_o和b_o为网络中的不同层之间的连接边的权重，均为网络需要学习的参数。

进一步的，在本实施例中，在步骤S5中，还包括如下步骤：

P(y_t|h_t)＝softmax(Wh_t+b)

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于层次嵌入的方面抽取方法，其特征在于，按照如下步骤实现：

步骤S1：对在线评论文本进行预处理；

步骤S3：进行字符嵌入和单词嵌入初始化；

2.根据权利要求1所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S1中，所述预处理还包括如下步骤：

3.根据权利要求1所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S2中，还包括如下步骤：

L_w＝{w_i|f_i＜F}

4.根据权利要求1所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S3中，还包括如下步骤：

5.根据权利要求1所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S4中，还包括如下步骤：

i_t＝σ(X_ix_t+H_ih_t-1+M_im_t-1+b_i)，

f_t＝σ(X_fx_t+H_fh_t-1+M_fm_t-1+b_f)，

m_t＝f_t⊙m_t-1+i_t⊙τ(X_mx_t+H_mh_t-1+b_m)

o_t＝σ(X_ox_t+H_oh_t-1+M_om_t+b_o)，

h_t＝o_t⊙τ(m_t)，

6.根据权利要求5所述的基于层次嵌入的方面抽取方法，其特征在于，在所述步骤S5中，还包括如下步骤：

P(y_t|h_t)＝softmax(Wh_t+b)