CN107656990A

CN107656990A - 一种基于字和词两个层面特征信息的文本分类方法

Info

Publication number: CN107656990A
Application number: CN201710825546.4A
Authority: CN
Inventors: 杜婷婷; 常会友
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-02-02

Abstract

本发明公开了一种基于字和词两个层面特征信息的文本分类方法。步骤包括：利用神经网络模型进行字词向量联合预训练，得到词语的初始化词向量和汉字的初始化字向量表示；将短文本表示成其中各个词语词向量组成的矩阵，利用卷积神经网络进行特征提取，得到词语层特征；将短文本表示成其中各个汉字字向量组成的矩阵，利用卷积神经网络进行特征提取，得到汉字层特征；将词语层特征和汉字层特征进行连接，得到短文本的特征向量表示；利用全连接层对文本进行分类，采用随机梯度下降法进行模型的训练，得到分类模型。本发明能够提取字的表示和词的表示两个层面的特征，改善短文本语义信息不足的问题，充分挖掘短文本的语义信息，使短文本的分类更加准确。

Description

一种基于字和词两个层面特征信息的文本分类方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于字和词两个层面特征信息的文本分类方法。

背景技术

机器学习方法的性能通常依赖于特征的表示，传统的机器学习方法中，最关键的部分是模型特征的选择，而特征的选择需要特定领域的专家才能有效的完成，这使得机器学习研究的门槛很高，不仅需要有机器学习相关知识，还需要有任务相关领域的领域专家帮助其设计特征，而设计特征也是一个消耗大量时间和精力的过程，这也体现了传统机器学习的弱点，即难以从数据中抽取和组织区分性强的信息。随着表示学习的提出和发展，这个问题得到了改善。表示学习是一种让抽取供其他预测模型使用的特征信息更加简易的数据表示的学习方法。

在自然语言处理领域，一般认为最基础的语义单元为词，目前已经有大量的基于词语单元的词表示的学习方法，例如Skip-gram、CBOW、NNLM等模型，这些模型都是基于分布式假说，即通过目标词和上下文词语之间的关系进行建模。但是不同于英文，词语是最小的包含语义的单元，中文的最小语言单位是字，一些词语的语义信息同样也体现在组成这个词语的字中，也就是中文的字也是包含一定程度语义信息的。例如，词语“光明”，表示明亮的意思，组成这个词的字“光”表示太阳、火等放射出来使人感到明亮的东西，“明”表示亮，这次词语中字的语义信息也正体现了这个词语的语义信息。

由于中文短文本包含的词语数量少，短文本的语义信息有限，短文本分类时可供分类器利用的信息少，如果能更加充分的挖掘短文本中包含的语义信息，有效利用文本中字与字之间的关系，以及字与词之间的关系，能够丰富文本的语义信息，为文本的表示带来提升，提高分类器的效果。因此，挖掘出字层面的特征信息很有必要。

综上所述，现有的基于词向量的文本表示方式忽略了字层面的语义信息，故对其加以改进是有必要的。

发明内容

为了克服现有技术的不足，本发明提出一种基于字和词两个层面特征信息的文本分类方法，是一种结合汉字和词语两个层面特征信息的中文短文本分类方法。该方法提出联合预训练字向量和词向量，在传统模型只训练词向量的基础上，同时训练一份字向量；提出结合字和词语两个层面的语义信息来表示短文本，再利用卷积神经网络分别提取字和词语层面的局部特征信息，连接成短文本的向量化表示，较传统的基于词向量的表示方法而言，更加充分的挖掘了短文本中所包含的特征，为文本分类器提供了更多的语义信息。

为了实现上述目的，本发明采用的技术方案为：

一种基于字和词两个层面特征信息的文本分类方法，所述方法包括以下步骤：

A、利用神经网络对预训练语料文本中的字词进行联合预训练，得到词语和字的初始化向量；

B、将各个词语的词向量连接成矩阵，同时将各个汉字的字向量连接成矩阵，利用卷积核对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作提取对应的局部特征；

C、利用最大池化操作提取步骤B中得到的词语层面局部特征的最优值和字层面局部特征的最优值；

D、将步骤C中得到的词语层面特征向量与字层面特征向量连接，形成短文本的特征向量表示；

E、利用全连接神经网络层对短文本进行分类，使用随机梯度下降算法对模型参数进行训练，得到分类模型和调整之后的字向量和词向量；

F、将需要分类的新的短文本输入模型进行分类，得到分类结果。

本发明旨在提出一种结合汉字和词语两个层面的特征信息对中文短文本进行分类的方法，在预训练词向量的同时训练字向量，将短文本分别表示成其中词语的词向量组成的矩阵和其中字的字向量组成的矩阵，并利用卷积神经网络对这两个矩阵分别进行词语层面和字层面的特征提取，得到文本的向量表示，然后通过全连接神经网络对文本进行分类，最后得到分类结果。

优选的，步骤A的具体实现方式为：

随机初始化预训练语料文本中词语和字的向量，词语和字向量的维度相同；将中心词表示成其上下文词语的词向量和其中字的字向量的加权平均，基于word2vec的skip-gram模型对上下文窗口中的词语及其组成汉字进行训练，得到各个词语和字的向量表示。

优选的，步骤B中，将短文本根据其中词语的预训练词向量连接成矩阵，矩阵的大小是固定的，通过对训练文本的统计，得到文本的最大词长度，将不足这个长度的文本利用填充向量填充至同样大小。

优选的，步骤B中，将短文本根据其中字的预训练字向量连接成矩阵，矩阵的大小是固定的，通过对训练文本的统计，得到文本的最大字长度，将不足这个长度的文本利用填充向量填充至同样大小。

优选的，步骤B中，对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作的卷积核对应区域大小相同，即如果对词向量连接成矩阵进行卷积操作的是一个卷积n个词向量的卷积核，则对字向量连接成矩阵进行卷积操作的是一个卷积该n个词语中汉字的字向量的卷积核。

优选的，对于未在预训练语料中出现的词语，根据该词语中字的字向量进行初始化。

本发明的特点和优点为：

针对目前主流的基于词向量的文本表示方法，提出一种结合字层面特征和词语层面特征的短文本表示方式。

由于短文本包含词语少，语义信息有限，提供给文本分类器的有用信息少，挖掘短文本中字层面特征能够弥补这个问题，丰富文本的语义信息。

同时，该方法能够更好的表示预训练预料中未出现的词语，通过该词语中的字的字向量的加权平均来初始化该词语的词向量。相较于传统方法中的随机初始化词向量，能够为卷积神经网络提供更有意义的初始值。

本发明能够提取字的表示和词的表示两个层面的特征，改善短文本语义信息不足的问题，充分挖掘短文本的语义信息，使短文本的分类更加准确。本发明提供的结合字和词语两个层面特征的短文本分类方法，可用于进行微博或者商品评价之类的短小中文文本的归类、情感分类等任务上。

附图说明

图1是本发明方法的流程图；

图2是本发明联合预训练字向量和词向量的网络结构示意图；

图3是本发明利用卷积神经网络进行字和词语层面特征提取的网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的基本思想是：在利用语料库预训练词向量的同时训练字向量，并将短文本分别表示成其中词语的词向量组成的矩阵和其中字的字向量组成的矩阵，利用卷积神经网络对这两个矩阵分别进行词语层面和字层面的特征提取，得到文本的向量表示，然后通过全连接神经网络对文本进行分类，得到分类结果。

参见图1，本发明提出的一种基于字和词两个层面特征信息的文本分类方法，具体步骤如下：

A、利用wrod2vec中的基于Hierarchical softmax的skip-gram模型，以及Wikipedia中文语料对字词进行联合训练，模型如图2所示，其中投影层是对词向量和字向量取平均：

其中表示词向量，表示字向量，β是超参数，用来衡量词向量和字向量的权重。

在模型利用随机梯度下降进行训练的过程中，将梯度同时贡献到词向量和字向量上，更新公式如下：

其中，L表示目标函数，η表示学习率，|w|表示词语w中所包含的汉字个数。

模型训练的结果是同时得到语料中词语和字的初始化向量。

设短文本的所含词语个数为n，所含字个数为m。

B、将短文本中词语的词向量连接成矩阵如图3左边部分所示，对于预训练语料中未登录的词语，利用其中字的字向量进行加权平均初始化：

将矩阵利用填充向量填充至最大文本长度，使所有短文本都具有相同长度，其中填充向量为零向量。然后对矩阵利用卷积核进行卷积操作提取局部特征，公式为：

v_k＝f(W·x_i:i+h-1+b)

其中v_k表示卷积核提取的特征值的其中一个分量，f是双曲正切函数，x_i:i+h-1表示长度为h的卷积窗口，由h个词语的词向量连接组成，W是卷积核的参数，b是偏移量。该卷积核提取的特征向量为：

v＝[v₁,v₂,...,v_n-h+1]

图3左侧部分是词语层面的卷积神经网络，图中举例三个不同大小的卷积核，分别为h＝3,4,5，对于长度为6个词的短文本，对应产生长度为4,3,2的特征向量。

C、利用最大池化操作提取步骤B中得到的词语层面局部特征的最优值：

max(v₁,v₂,...,v_n-h+1)

一个卷积核经过最大池化操作产生一个值，如图3所示，举例的三个卷积核产生一个维度为3的特征向量。

D、将短文本中字的字向量连接成矩阵由于汉字较于词语来说数量更少，不容易出现未登录字。将矩阵利用填充向量填充至最大文本长度，其中填充向量为零向量。

利用与步骤B中对应相同局部大小的卷积核进行卷积操作提取局部特征，相同局部大小指的是步骤B中如果卷积窗口大小为h个词语，则此处的卷积窗口大小为这h个词语中包含的字的个数，设为h′。在图3中，右边部分是字层面卷积神经网络，设每个词语都是两个字组成的，则对应的卷积核的大小分别为h′＝6,8,10。卷积公式为：

v′_k＝f(W·x_i:i+h′-1+b)

其中v′_k表示卷积核提取的字层面特征向量的其中一个分量，f是双曲正切函数，x_i:i+h′-1表示长度为h′的卷积窗口，由h′个字的字向量连接组成，W是卷积核的参数，b是偏移量。该卷积核提取的字层面特征向量为：

v′＝[v′₁,v′₂,...,v′_n-h′+1]

在图3中，大小分别为h′＝6,8,10的卷积核会产生长度分别为3,5,7的特征向量。

E、利用最大池化操作提取步骤D中得到的字层面局部特征的最优值：

max(v′₁,v′₂,...,v′_n-h′+1)

在图3中，三个卷积核经过最大池化操作，产生一个长度为3的特征向量。

F、将C中得到的词语层面特征向量与E中得到的字层面特征连接，形成短文本的向量表示x_d，向量维度为词语层面卷积核的个数与字层面卷积核的个数之和，在图3的例子中，这个短文本的向量维度是6。

G、利用全连接神经网络层对短文本进行分类：

z_d＝tanh(Ux_d+p)，y_d＝tanh(Vz_d+q)

其中，U,V是权值矩阵，p,q是偏置向量。

为了让y_d表示文本d属于各个类别的概率，对y_d做归一化操作：

其中C_i表示第i个类别，|C|表示类别总数。

使用随机梯度下降算法对模型参数进行训练，得到分类模型以及调整之后的字向量和词向量。

H、将需要分类的新的短文本输入模型进行分类，得到分类结果。

Claims

1.一种基于字和词两个层面特征信息的文本分类方法，其特征在于，所述方法包括以下步骤：

A、利用神经网络对字词进行联合预训练，得到词语和字的初始化向量；

B、将词语的词向量连接成矩阵，同时将字向量连接成矩阵，利用卷积核对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作提取对应的局部特征；

D、将步骤C中得到的词语层面特征向量与字层面特征连接，形成短文本的特征向量表示；

E、利用全连接神经网络对短文本进行分类，使用随机梯度下降算法对模型参数进行训练，得到分类模型和调整之后的字向量和词向量；

2.根据权利要求1所述的方法，其特征在于，步骤A的具体实现方式为：

随机初始化预训练语料文本中词语和字的向量，词语和字向量的维度相同；将中心词表示成其上下文词语的词向量和这些词语中汉字的字向量的加权平均，基于word2vec的skip-gram模型对上下文窗口中的词语及其组成汉字进行训练，得到各个词语和字的向量表示。

3.根据权利要求1所述的方法，其特征在于：步骤B中，将短文本根据其中词语的预训练词向量连接成矩阵，矩阵的大小是固定的，通过对训练文本的统计，得到文本的最大词长度，将不足这个长度的文本利用填充向量填充至同样大小。

4.根据权利要求1所述的方法，其特征在于：步骤B中，将短文本根据其中字的预训练字向量连接成矩阵，矩阵的大小是固定的，通过对训练文本的统计，得到文本的最大字长度，将不足这个长度的文本利用填充向量填充至同样大小。

5.根据权利要求1所述的方法，其特征在于：步骤B中，对词向量连接成矩阵和字向量连接成矩阵分别进行卷积操作的卷积核对应的区域大小相同，即当对词向量连接成矩阵进行卷积操作的是一个卷积n个词向量的卷积核，则对字向量连接成矩阵进行卷积操作的是一个卷积该n个词语中字向量的卷积核。

6.根据权利要求3所述的方法，其特征在于：对于未在预训练语料中出现的词语，根据该词语中字的字向量进行初始化。