CN110046356A

CN110046356A - 标签嵌入在微博文本情绪多标签分类中的应用研究

Info

Publication number: CN110046356A
Application number: CN201910345877.7A
Authority: CN
Inventors: 不公告发明人
Original assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Current assignee: Zhongsen Yunchain (chengdu) Technology Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-07-23
Anticipated expiration: 2039-04-26
Also published as: CN110046356B

Abstract

本发明提供了一种标签嵌入在微博文本情绪多标签分类中的应用研究方法，通过将多标签看作特殊单标签，直接利用标签嵌入算法，来解决多标签分类问题。本发明首先根据原始多标签间的欧式距离及代价信息，利用多维定标方法将各个多标签嵌入到嵌入空间中，然后将微博文本进行特征提取及表示，再训练情绪多标签编码器，学习多标签嵌入的函数，并训练从文本特征空间映射到嵌入空间的分析器，最后利用分析器及编/解码映射关系来预测文本情绪。

Description

标签嵌入在微博文本情绪多标签分类中的应用研究

技术领域

本发明属于自然语言处理领域，涉及一种将标签嵌入应用于多标签分类的方法。

背景技术

随着人们对社交平台的普遍使用，微博作为一个重要的社交平台，已经成为人们表达观点和宣泄情绪的重要方式之一。海量的微博文本中蕴含着许多潜在的有价值信息，这些信息可以反映出用户对某事物的态度和喜好，因此微博文本情绪可以作为向用户推荐商品、文章及相关服务的重要参考方式。

近几年来，现有工作提出了多种解决文本情绪分析的方法。但是许多方法的实际效果并不理想。比如，某些研究虽然采用机器学习的方法，但是仅将情绪分类问题看作单标签分类问题，并未考虑到文本情绪复杂性。然而情绪往往比较复杂，即使一条短文本中也可能包含多种情绪，使得提取出的文本特征不够准确。因此，传统的多标签分类可能对最终分析结果不够准确。

已有的文本情绪分析方面的研究已经提出了不同的解决方法，但很多方法的实际效果并不理想，例如：①基于词典的方法未能深入考虑到文本上下文信息，使得提取出的文本特征不够准确；②某些研究虽然采用机器学习的方法，但是仅将情绪分类问题看作单标签分类问题，并未考虑到文本情绪复杂性。然而情绪往往比较复杂，即使一条短文本中也可能包含多种情绪，所以将情绪分类问题看作单标签分类问题可能使最终分析结果不够准确；③某些研究即使将情绪分析问题看做多标签分类问题，但其中部分研究将情绪多标签看作多个单标签的组合，然后对每个标签分别训练分类器，最后将每个分类器结果作为最终预测结果，该种策略是一类较主流的方法，但实际分类效果往往依赖于一系列人为设定的阈值，使人为因素对分析效果造成较大影响。

为了解决现有工作的不足，我们提出一种结合多标签嵌入的多标签分类模型。我们贡献在于如下两个方面：第一，我们的模型在嵌入过程中同时考虑欧式距离和海明损失信息，提高了标签嵌入效果；第二，我们的模型可以解决新标签缺失问题，并且为嵌入标签向量解码构建相应的映射关系，这种映射关系能够对预测出的嵌入向量进行解码，最终输出预测的情绪多标签，提高了对新标签的嵌入有效性和标签映射关系对嵌入标签解码的有效性。

发明内容

该发明是在微博文本情绪上采用标签嵌入算法而开发的多标签分类系统，通过同时考虑欧式距离和海明损失信息，提高标签嵌入效果，从而提高多标签分类的性能。

本发明的技术方案是：一种采用标签嵌入的多标签分类方法，其特征在于，包括以下步骤：

步骤1：收集微博文本数据，并进行预处理。

步骤2：将每个情绪多标签看作一种特殊单标签，如果多标签中某一单标签值不同则该多标签便被视作不同的标签。然后根据原始标签间的欧氏距离及代价信息嵌入到较低维的嵌入空间。

通过欧式距离函数，得到计算真实标签y_i与预测标签之间的距离，其分解模型如下：

其中，y＝{y₁,y₂,...,y_k}为标签集合，y是8维的情绪标签，d_ij表示标签y_i与y_j的距离，y_im表示标签y_i中第m个向量值，同理

通过海明损失函数，计算标签代价矩阵，其分解模型如下：

计算标签嵌入信息diff，其分解模型如下：

diff＝D+δ(C) (3)

使用多维定标方法进行嵌入。

步骤3：通过文本表示方法对微博文本进行特征提取。

步骤4：训练情绪多标签编码器，其损失函数如下：

步骤5：训练文本分析器和编码/解码器。

步骤6：利用分析器和编码/解码器来预测文本情绪。

所述步骤2多维定标流程如下：

构造矩阵

构造矩阵B＝(b_ij),其中

求解B的特征值并从大到小排列，使得λ₁≥λ₂≥...≥λ_i。

计算贡献率a_1,m和a_2,m，其中：

定义表示矩阵B中对应于特征值λ₁,λ₂,...,λ_m的正交变换向量，使得令则的行向量则为所求解。

所述步骤3文本特征提取，首先，对文本语句进行分词处理，将语句转化为一系列词的序列。然后，剔除所有分词中无实际意义的词及符号。再加载词向量训练工具，并设置相应参数。最后利用训练工具训练词向量模型并格式化输出词向量。

所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示，该种嵌入层思想是首先根据训练好的词向量模型构建相应词典，使得每个词都有一个相应的索引值，然后将每个待表示文本表示为该一个指定维度的索引列表，接着构建一个指定文本长度及字典长度的嵌入层，并将所有词向量依次作为嵌入层的权重。

所述步骤本发明的有益效果为，已知微博文本信息，提出了一种基于标签嵌入的多标签分类模型，解决了新标签缺失的多标签分类问题。

附图说明

图1为本发明的流程示意图。

图2为标签信息处理过程图。

图3为情绪多标签文本分类器结构图。

图4为情绪多标签编码器神经网络结构图。

具体实施方式

下面结合附图，详细描述本发明的技术方案：

如图1所示，本发明的主要流程为：

步骤1：收集微博文本数据，并采用word2vec与jieba等工具对微博文本进行预处理。

步骤2：采用多维定标方法，将预处理后的标签嵌入到低维嵌入空间，在进行标签嵌入过程中考虑使用原始标签间的欧式距离及海明损失信息：

通过海明损失函数，计算标签代价矩阵，其分解模型如下：

通过使用欧式距离公式，已知8维情绪标签集合y＝{y₁,y₂,...,y_k}，求出真实标签y_i与预测标签y_j之间的距离，其分解模型如下：

其中，d_ij表示标签y_i与y_j之间的距离，表示标签中第m个向量值，同理y_im。

计算标签嵌入信息diff，其分解模型如下：

diff＝D+δ(C) (3)

使用多维定标方法将各个多标签嵌入到嵌入空间中。

步骤3：采用结合词典和词向量的嵌入层文本表示方法对微博文本进行特征提取。

步骤4：训练情绪多标签编码器，得到多标签的嵌入信息。如图2所示，其损失函数如下：

步骤5：利用提取出的文本向量训练文本分析器。

步骤6：在实验验证集上选出编码器/解码器和分析器模型后，使用测试集中的数据对模型进行预测。

所述步骤2多维定标流程如下：

构造矩阵

构造矩阵B＝(b_ij),其中

求解B的特征值并从大到小排列，使得λ₁≥λ₂≥...≥λ_i。

计算贡献率a_1,m和a_2,m，其中：

所述步骤3文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示，首先根据训练好的词向量模型构建相应词典，使得每个词都有一个相应的索引值，然后将每个待表示文本表示为该一个指定维度的索引列表，接着构建一个指定文本长度及字典长度的嵌入层，并将所有词向量依次作为嵌入层的权重。

Claims

1.本发明提供了一种标签嵌入在微博文本情绪多标签分类中的应用研究方法，包括以下步骤：

步骤1：对文本语料库进行预处理。

步骤2：将预处理后的数据进行基于欧式距离及海明损失信息的标签嵌入。

步骤3：提取微博文本特征并表示。

步骤4：训练将标签从原始标签空间中映射到嵌入空间的编码器，学习出标签嵌入函数。

步骤5：训练从文本特征空间映射到嵌入空间的分析器。

步骤6：结合分析器及解码映射关系对文本进行情绪多标签分类预测。

2.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：将文本语料库中的文本情绪分为Anxiety、Surprise、Sorrow、Love、Joy、Hate、Anger、Expect八种情绪。

3.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：所述步骤1对微博文本语料库进行预处理，包括分词及去除停用词等操作。

4.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：所述步骤2采用标签空间维度归约类的标签嵌入算法，使得嵌入标签在嵌入空间中的距离与原始标签间距离及代价相似。

5.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：所述步骤3通过提取微博文本特征，并结合向量空间模型将文本向量化表示。

6.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：所述步骤4训练情绪多标签编码器，将标签从原始标签空间中映射到嵌入空间中，并学得其嵌入函数表达。

7.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：所述步骤5训练从文本特征空间映射到嵌入空间的分析器。

8.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：所述步骤6结合分析器及解码映射关系对文本进行情绪多标签分类预测。

9.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：其中标签嵌入流程如下：

a.从所有语句标签中选出具有代表性的标签，得到标签矩阵Y。

b.通过标签矩阵Y中所有标签两两之间的海明损失函数得到代价矩阵C。

c.通过计算矩阵Y中所有标签两两之间的欧式距离得到距离矩阵D。

d.需要进行嵌入的信息用diff表示，其分解模型如下：

diff＝D+δ(C) (1)

其中δ()表示一个单调函数，其目的是为了将标签间的代价信息进行放大或缩小。

e.采用多维定标算法进行标签嵌入。

10.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：其中情绪多标签编码器的损失函数如下：

11.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：其中文本特征提取流程如下：

a.对文本语句进行分词处理，将语句转化为一系列词的序列。

b.剔除所有分词中无实际意义的词及符号。

c.加载词向量训练工具，并设置相应参数。

d.利用训练工具训练词向量模型并格式化输出词向量。

12.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：其中文本特征提取中还使用keras提供的嵌入层并结合词典模型进行文本特征提取及表示，该种嵌入层思想是首先根据训练好的词向量模型构建相应词典，使得每个词都有一个相应的索引值，然后将每个待表示文本表示为该一个指定维度的索引列表，接着构建一个指定文本长度及字典长度的嵌入层，并将所有词向量依次作为嵌入层的权重。

13.根据权利要求1所述的研究技术，设计实现的标签嵌入在微博文本情绪多标签分类中的应用研究方法中，其特征在于：其中多维定标流程如下：

a.构造矩阵

b.构造矩阵B＝(b_ij),其中

c.求解B的特征值并从大到小排列，使得λ₁≥λ₂≥...≥λ_i。

d.计算贡献率a_1,m和a_2,m，其中：

e.定义表示矩阵B中对应于特征值λ₁,λ₂,...,λ_m的正交变换向量，使得令则的行向量则为所求解。