CN106339718A

CN106339718A - 一种基于神经网络的分类方法及装置

Info

Publication number: CN106339718A
Application number: CN201610685799.1A
Authority: CN
Inventors: 李寿山; 张栋; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-08-18
Filing date: 2016-08-18
Publication date: 2017-01-18

Abstract

本申请公开一种基于神经网络的分类方法及装置，所述方法和装置通过对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示；并基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，最终实现了根据样本特征的学习结果构建分类器，使得后续可利用该分类器对待测样本进行分类。由此可知，本申请实现了一种基于神经网络的分类方案，相比于传统的最大熵分类、支持向量机的分类等线性分类方式，基于神经网络的分类方法可以更为有效地学习训练样本的样本特征，从而可带来较高的分类性能。

Description

一种基于神经网络的分类方法及装置

技术领域

本发明属于自然语言处理及模式识别领域，尤其涉及一种基于神经网络的分类方法及装置。

背景技术

随着互联网的快速发展，网络交易日渐普及，随之而来的是网络上的商品评论数量越来越多，形成海量的评论文本信息。这些海量的文本信息一般带有明显的情感色彩,具有很高的价值，对其进行情感分析及研究，能够对企业、政府、个人等进行决策提供有效的帮助。

情感分析自从2002年由Bo Pang提出之后，获得了很大程度的研究，特别是在在线评论的情感倾向性分析上获得了很大的发展，情感分类是情感分析中一项重要的研究任务，其主要是根据作者/评论者所表达的观点和态度实现对文本进行分类。传统的情感分类方法，主要运用的是线性分类器实现分类，比如最大熵分类器、支持向量机的分类器等，这些分类器的性能有限，往往不能带来很好的分类效果，基于此，本领域需提供一种非线性的分类性能较高的分类方案。

发明内容

有鉴于此，本发明的目的在于提供一种基于神经网络的分类方法及装置，旨在解决目前的线性分类方式存在的分类性能较低的问题，以进一步提高情感分类的分类性能。

为此，本发明公开如下技术方案：

一种基于神经网络的分类方法，包括：

获取训练样本；

对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示；

基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，并根据样本特征的学习结果构建分类器，以使得基于所述分类器对待测样本进行分类。

上述方法，优选的，所述获取训练样本包括：

从预定数据源中抓取预定条数的文本数据，并将抓取的所述预定条数的文本数据作为训练样本。

上述方法，优选的，所述对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示包括：

对所述训练样本中的每条文本数据进行单词分割，得到所述文本数据的单词序列；

采用预定方式，生成所述单词序列中的每个单词的向量表示；

基于所述单词序列中每个单词的向量表示，生成所述文本数据的分布式语义表示。

上述方法，优选的，所述基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，并根据样本特征的学习结果构建分类器包括：

基于卷积神经网络分类方式中包括的卷积层，对分布式语义表示形式的所述训练样本进行特征捕捉处理；

基于卷积神经网络分类方式中包括的最大池化层，对所述特征捕捉处理的处理结果进行最大特征选择处理；

基于卷积神经网络分类方式中包括的全连接层，对所述最大特征选择处理的处理结果进行最大特征映射处理；

基于所述最大特征映射处理的处理结果，构建分类器。

上述方法，优选的，还包括：

基于所述待测样本的分类类别及实际类别，验证所述分类器的分类准确性。

一种基于神经网络的分类装置，包括：

样本获取模块，用于获取训练样本；

样本处理模块，用于对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示；

分类器构建模块，用于基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，并根据样本特征的学习结果构建分类器，以使得基于所述分类器对待测样本进行分类。

上述装置，优选的，所述样本获取模块包括：

文本抓取单元，用于从预定数据源中抓取预定条数的文本数据，并将抓取的所述预定条数的文本数据作为训练样本。

上述装置，优选的，所述样本处理模块包括：

文本分割单元，用于对所述训练样本中的每条文本数据进行单词分割，得到所述文本数据的单词序列；

单词向量生成单元，用于采用预定方式，生成所述单词序列中的每个单词的向量表示；

文本向量生成单元，用于基于所述单词序列中每个单词的向量表示，生成所述文本数据的分布式语义表示。

上述装置，优选的，所述分类器构建模块包括：

特征捕捉单元，用于基于卷积神经网络分类方式中包括的卷积层，对分布式语义表示形式的所述训练样本进行特征捕捉处理；

最大特征选择单元，用于基于卷积神经网络分类方式中包括的最大池化层，对所述特征捕捉处理的处理结果进行最大特征选择处理；

最大特征映射单元，用于基于卷积神经网络分类方式中包括的全连接层，对所述最大特征选择处理的处理结果进行最大特征映射处理；

分类器构建单元，用于基于所述最大特征映射处理的处理结果，构建分类器。

上述装置，优选的，还包括：

准确性验证模块，用于基于所述待测样本的分类类别及实际类别，验证所述分类器的分类准确性。

由以上方案可知，本申请公开的基于神经网络的分类方法及装置，通过对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示；并基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，最终实现了根据样本特征的学习结果构建分类器，使得后续可利用该分类器对待测样本进行分类。由此可知，本申请实现了一种基于神经网络的分类方案，相比于传统的最大熵分类、支持向量机的分类等线性分类方式，基于神经网络的分类方法可以更为有效地学习训练样本的样本特征，从而可带来较高的分类性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的基于神经网络的分类方法流程图；

图2是基于卷积神经网络的分级处理示意图；

图3是本发明实施例二提供的基于神经网络的分类方法流程图；

图4-图5是本发明实施例三提供的基于神经网络的分类装置的结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

情感分类：sentiment classification，是指文本的情感极性，就是将提供的文本分类到正确的情感类别中，一般来说，分类类别包括正面/正向评价和负面/负向评价。

数据抽取：Data Extraction，指的是在原本杂乱的数据中，获得分布在各个类别，不同的时间段的数据，比如本发明具体选择2002年以前的数据和2012年以后的数据作为示例数据，这就需要通过程序过滤不需要的数据，选择有用的数据存储到本地电脑中。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例一提供一种基于神经网络的分类方法，该方法适用于但不限于对文本数据进行情感极性分类，参考图1示出的分类方法流程图，该方法可以包括以下步骤：

S101：获取训练样本。

本实施例以情感分类为例对本申请方法进行阐述，具体地，本实施例提出一种基于神经网络的情感分类方案。

其中，神经网络算法(Artificial Neural Networks，ANN)：是20世纪40年代后出现的。它是由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。BP(Back Propagation)算法又称为误差反向传播算法，是人工神经网络中的一种监督式的学习算法，BP神经网络算法在理论上可以逼近任意函数，其基本的结构由非线性变化单元组成，具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定，灵活性很大，在优化、信号处理与模式识别、智能控制、故障诊断等许多领域都有着广泛的应用前景。

本发明的基于神经网络的分类方法的基本构思是：抽取一定数目的主题的评论文本，一部分作为训练数据/训练样本，其余的部分作为测试数据/测试样本，对每个主题的训练数据和测试数据，生成其分布式语义表示；之后基于卷积神经网络分类方法，学习训练数据的特征并训练分析器，从而在此基础上可利用训练所得的分类器对测试数据进行分类。

在以上阐述的基础上，本步骤具体通过数据抽取，从亚马逊商品评论数据集里抽取四个主题的文本数据:electronic、kitchen、movies、video，每个主题抽取2002年以前和2012年以后产生的评论，且每个主题在每个时段抽取正负各2000条评论，即相当于每个主题抽取8000条评论，四个主题共32000条。其中，利用2002年以前的评论数据作为训练样本，利用2012以后的评论数据作为测试样本。所抽取的四个主题的评论文本的示例具体可参考以下的表1。

表1

S102：对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示。

在获得训练样本的基础上，本步骤通过以下过程对训练样本进行分布式语义表示处理，以得到训练样本的分布式语义表示：对所述训练样本中的每条文本数据进行单词分割，得到所述文本数据的单词序列；采用预定方式，生成所述单词序列中的每个单词的向量表示；基于所述单词序列中每个单词的向量表示，生成所述文本数据的分布式语义表示。

具体地，本实施例首先对生成分布式语义表示的过程中所涉及的符号作出以下定义：

文本集合(Text)：T；

单词(word)：w，具体使用长度为d的列向量表示；

语境(context):c，指以单词w为中心，向前k个单词，向后k个单词所形成的短语中包含的单词；

模型参数：θ；

条件概率p(c|w)：当w出现时，某一语境c出现的概率；

C(w)：在文本集合T中，单词w出现过的语境包含的单词的集合；其中，语境中的单词c，使用长度为d的列向量表示，c∈C(w)；所述c和w均表示单词，但申请人认为，即使对于同一个单词，比如apple，它作为普通单词和作为语境中的单词是的向量表示是不同的，因此本实施例使用不同的符号来表示语境中的单词和普通单词。

V：文本集合对应的词汇表；

D：所有单词w和它的语境C(w)构成的组合的集合。

在以上定义的基础上，接下来本实施例对生成分布式语义表示的过程进行详细描述。

针对训练样本中的每一评论文本，首先，对该评论文件进行单词分割，得到该评论文本的单词序列，之后，本实施采用Skip-gram(词跳跃模式)方式生成所述单词序列中每一单词的向量表示。

Skip-gram的目标是寻找参数集合θ来最大化如下条件概率的乘积：

\arg \max_{θ} \underset{w &Element; T e x t}{Π} [\underset{c &Element; C (w)}{Π} p (c | w; θ)] - - - (1)

以上的式(1)等同于下式：

\arg \max_{θ} \underset{(w, c) &Element; D}{Π} p (c | w; θ) - - - (2)

使用逻辑回归的扩展Softmax[4]对θ进行形式化处理，使得条件概率转化为下式：

p (c | w; θ) = \frac{e^{v_{c} \cdot v_{w}}}{Σ_{c^{'} &Element; C} e^{v_{c^{'}} \cdot v_{w}}} - - - (3)

其中，vc和vw分别是c和w的列向量，维度为d。C是所有语境中的单词构成的集合，等同于词汇表V。参数θ就是vc和vw中每一维度的具体取值，参数的总数为|C|×|V|×d。将式(3)代入式(2)，并于等式两边取对数可得到以下的式(4)：

\arg \max_{θ} \underset{(w, c) &Element; D}{Σ} \log p (c | w) = \underset{(w, c) &Element; D}{Σ} (\log e^{v_{c} \cdot v_{w}} - l o g \underset{c^{'}}{Σ} e^{v_{c^{'}} \cdot v_{w}}) - - - (4)

通过训练得到的单词的向量表示vw能够使得条件概率p(c|w)最大化，则vw是w的好的表示。此处潜在的基本假设是：相似的单词拥有相似的语境，换言之，特定的语境只有确定的语义才能够与之匹配。通过最大化条件概率，使得单词和语境之间的对应关系最大化，进而满足了基本假设：相似的单词拥有相似的语境。而满足条件概率最大化的单词矢量，也就成为了单词语义的合理表示，即所述vw可以作为单词w的合理的向量表示。

在生成单词序列中各个单词的向量表示的基础上，可基于各个单词的向量表示，生成单词序列对应的向量表示序列，该向量表示序列即为所述单词序列对应的评论文本的分布式语义表示。

采用以上处理过程，可得到训练样本中每个样本的分布式语义表示。

除此之外，由于在基于神经网络训练得出分类器，并利用分类器对待测样本进行分类时，同样需向分类器输入分布式语义表示形式的待测样本，从而，此处继续采用以上的分布式语义表示的生成过程对待测样本进行处理，从而得到待测样本的分布式语义表示。

S103：基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，并根据样本特征的学习结果构建分类器，以使得基于所述分类器对待测样本进行分类。

在以上步骤的基础上，本步骤继续基于分布式语义表示形式的训练样本训练分类器。

其中，基于卷积神经网络训练分类器的过程具体是通过学习训练样本的样本特征对分类器模型中的参数(待优化参数具有随机的初始化值)进行优化的过程。

接下来对基于卷积神经网络分类方法训练分类器的过程进行描述。

如图2所示，卷积神经网络共包含四个处理层：卷积层、最大池化层、全连接层及softmax(软最大化)层。其中，在构建分类器过程中，将训练样本的分布式语义表示从卷积层输入，卷积层用来通过以下的式(5)-(7)捕捉输入的各种特征(从训练样本包含的各单词向量的特征中捕捉较优特征)：

y_{i}^{l} = σ (W \cdot X_{i : i + h - 1} + b) - - - (5)

y^{l} = [y_{1}^{l}, y_{2}^{l}, ..., y_{n - h + 1}^{l}] - - - (6)

Y＝[y¹；y²；…；y^L] (7)

其中，W表示原始文本特征的权重矩阵，b表示偏置参数用来控制整个公式的大小，σ表示激活函数，表示第l个卷积核在第i个词到第i+h-1个词之间作用后的结果；y^l表示第l个卷积核在一条数据上运算后得到的结果；Y表示所有L个卷积核在一条数据上运算后得到的结果。

最大池化层用来选择这些这特征中值最大的特征：

\hat{Y} = \max [y^{1}, y^{2}, ..., y^{L}] - - - (8)

全连接层用来通过以下式(9)把这些值最大的特征映射到同一个维度：

g = φ (θ^{T} \hat{Y} + b) - - - (9)

其中，θ^T表示经特征提取后的文本特征的权重矩阵，b表示偏置参数用来控制整个公式的大小，φ表示激活函数。

在从卷积层输入各训练样本，并依次在卷基层、最大池化层、全连接层对训练样本进行处理的基础上，可充分学习训练样本的样本特征，实现对分类器模型中的参数W、θ^T及b进行优化，在此基础上，可基于优化的参数利用分类器模型构建分类器，最终构建的分类器参考以下式(10)：

P_{i} = \frac{\exp (g^{'} [i])}{Σ_{j = 1}^{2} \exp (g^{'} [j])} - - - (10)

其中，exp表示指数函数e，i表示g的第i个分量，P表示分类概率，如样本分类为正向或负向的概率等。

后续，在有分类任务时，可在所述softmax层利用所述分类器对待测样本进行分类，例如具体对本实施例提供的所述2012年之后的各条文本数据进行情感极性分类等。

由以上方案可知，本申请公开的基于神经网络的分类，通过对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示；并基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，最终实现了根据样本特征的学习结果构建分类器，使得后续可利用该分类器对待测样本进行分类。由此可知，本申请实现了一种基于神经网络的分类方案，相比于传统的最大熵分类、支持向量机的分类等线性分类方式，基于神经网络的分类方法可以更为有效地学习训练样本的样本特征，从而可带来较高的分类性能。

实施例二

本实施例二中，参考图3示出的基于神经网络的分类方法流程图，所述方法还可以包括以下步骤：

S104：基于所述待测样本的分类类别及实际类别，验证所述分类器的分类准确性。

本实施例具体对实施例一中基于卷积神经网络分类方法训练得到的分类器进行准确性验证，在本申请提供的四个主题数据的示例中，具体将2012年之后每个主题的4000条评论文本作为待测样本，并利用基于卷积神经网络分类方法训练得到的分类器对该待测样本进行分类。

在分类的基础上，将分类所得的类别标签与每个主题中的所述4000条评论文本的实际类别进行比较(相同则分类准确，不同则分类错误)，以此得出所述目标分类器的准确率，实现对该目标分类器的准确性进行验证。

参考以下的表2，表2示出了本申请的基于卷积神经网络分类方法训练的分类器的分类准确率数据。

表2

由表2可知，本申请基于神经网络的分类器的情感分类准确率达到80％以上，准确率较高，从而本申请方案的分类方法具有较好的前景。

实施例三

本实施例三公开一种基于神经网络的分类装置，该装置与以上各实施例公开的基于神经网络的分类方法相对应。

相应于实施例一，参考图4示出的基于神经网络的分类装置的结构示意图，该装置可以包括样本获取模块100、样本处理模块200和分类器构建模块300。

样本获取模块100，用于获取训练样本。

所述样本获取模块100包括文本抓取单元，用于从预定数据源中抓取预定条数的文本数据，并将抓取的所述预定条数的文本数据作为训练样本。

样本处理模块200，用于对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示。

所述样本处理模块200包括文本分割单元、单词向量生成单元和文本向量生成单元。

分类器构建模块300，用于基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，并根据样本特征的学习结果构建分类器，以使得基于所述分类器对待测样本进行分类。

所述分类器构建模块300包括特征捕捉单元、最大特征选择单元、最大特征映射单元和分类器构建单元。

最大特征选择单元，用于基于卷积神经网络分类方式中包括的最大池化层，对特征捕捉处理的处理结果进行最大特征选择处理；

最大特征映射单元，用于基于卷积神经网络分类方式中包括的全连接层，对最大特征选择处理的处理结果进行最大特征映射处理；

相应于实施例二，参考图5示出的基于神经网络的分类装置的结构示意图，所述装置还可以包括准确性验证模块400，用于基于所述待测样本的分类类别及实际类别，验证所述分类器的分类准确性。

对于本发明实施例三公开的基于神经网络的分类装置而言，由于其与实施例一至实施例二公开的基于神经网络的分类方法相对应，所以描述的比较简单，相关相似之处请参见实施例一至实施例二中基于神经网络的分类方法部分的说明即可，此处不再详述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于神经网络的分类方法，其特征在于，包括：

获取训练样本；

2.根据权利要求1所述的方法，其特征在于，所述获取训练样本包括：

3.根据权利要求2所述的方法，其特征在于，所述对训练样本进行分布式语义表示处理，得到训练样本的分布式语义表示包括：

4.根据权利要求3所述的方法，其特征在于，所述基于卷积神经网络分类方式，学习分布式语义表示形式的所述训练样本的样本特征，并根据样本特征的学习结果构建分类器包括：

基于所述最大特征映射处理的处理结果，构建分类器。

5.根据权利要求1-4任意一项所述的方法，其特征在于，还包括：

6.一种基于神经网络的分类装置，其特征在于，包括：

样本获取模块，用于获取训练样本；

7.根据权利要求6所述的装置，其特征在于，所述样本获取模块包括：

8.根据权利要求7所述的装置，其特征在于，所述样本处理模块包括：

9.根据权利要求8所述的装置，其特征在于，所述分类器构建模块包括：

10.根据要求6-9任意一项所述的装置，其特征在于，还包括：