CN108399230A

CN108399230A - 一种基于卷积神经网络的中文财经新闻文本分类方法

Info

Publication number: CN108399230A
Application number: CN201810147792.3A
Authority: CN
Inventors: 吴佳萍; 谢志峰; 黄东晋; 丁友东
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2018-08-14

Abstract

本发明公开了一种基于卷积神经网络的中文财经新闻文本分类方法，主要分为词向量训练、文本预处理、神经网络模型训练、新闻分类四个部分。使用大规模财经新闻语料，通过无监督学习的方法，训练获得一个广义通用的财经类词向量模型，并有效地将词向量引入到卷积神经网络模型的训练中，通过动态调整词向量的方法増加模型的统计信息。使用的卷积网络模型结构简单，针对小样本集也能表现优异的性能，不仅有效解决中文财经新闻分类问题，还充分证明了卷积神经网络在处理文本分类问题中的有效性。

Description

一种基于卷积神经网络的中文财经新闻文本分类方法

技术领域

本发明涉及计算机自然语言处理领域，特别涉及一种基于卷积神经网络的中文财经新闻文本分类方法。

背景技术

财经新闻的内容覆盖了与经济相关的所有领域，包括从生产到消费，从农村到城市，从微观到宏观，从经济工作到社会、政治生活等。简练的文字涵盖海量的信息，同时由于互联网的出现，其传播速度得到迅速提高，读者可以第一时间了解相关信息，特别对企业家与投资者而言，财经新闻是其判断市场变化的重要依据。但面对新闻数据呈爆炸式增长且杂乱无章序的现象，用户获取有用信息的难度同比增加，对海量财经新闻正负性的分类存在迫切需要，然而当前对于财经新闻的分类研究却很少，至今没有一种有效的分类方法被提出。如何利用当前计算机技术实现对财经新闻的有效分类，是一个急需解决的问题。

实现财经新闻分类的基础是文本分类技术。应用文本分类方法可以有效解决信息紊乱的问题，较大程度地帮助用户定位有用信息。目前，传统的文本分类方法及其存在的缺陷有：1)支持向量机(SVM)：对缺失数据敏感，且在非线性问题上无通用解决方案；2)决策树分类：不适用训练大样本集，在噪声影响下容易导致过分拟合；3)朴素贝叶斯分类：假设条件在现实中无法满足，不能达到各属性相互独立，影响正确分类。

相比传统的分类方法，近年来兴起的人工神经网络方法则表现出了良好的智能特性：1)自适应性：对周围环境具有学习适应能力；2)容错性：对噪声和信息缺失的敏感程度低；3)模式识别性：能很好得识别多变量的模式。

文本分类是自然语言处理中常见的任务，根据学习方法可分为有监督学习和无监督学习。目前大部分研究方法都采用有监督得学习方式，如基于文本特征向量相关性方法、基于遗传算法的方法、基于关联的方法、基于EM算法的方法等都是典型的有监督学习方法。

2003年，Bengio等最早提出用神经网络构建二元语言模型NNLM(Neural NetworkLan-guage Model)，实现将词映射转换到低维实数向量，提出可以通过词之间的距离来判断各词的语义相似度，同时结合非线性神经网络提出了n-gram模型。

Andriy Mnih等人则提出通过层次Log-Bilinear模型来进行语言模型训练。

Socher等人使用基于词向量的递归神经网络，实现对文本的向量表示，该网络可以有效用于文本分析。

John Son提出基于词表达方式的卷积神经网络模型，显示了词序特征在文本分类中的有效性。

Collobert等结合多层一维卷积神经网络实现了同时包含处理词性标注、语块切分、命名实体识别、语义角色标注四个典型自然语言处理任务的SENNA系统，并取得了当时最好的性能效果。

Mikolov借鉴Log-Bilinear模型的思想，通过添加隐藏层的多次递归提高了语言模型性能，在词预测的准确率方面超越了当时最好的基准系统。

Zhou等提出一种称为主动深度网络(Active deep network,ADN)的半监督学习算法用于解决情感分类问题。

Blunsom等在2014年提出动态卷积神经网络句子语义模型，在StanfordSentiment Treebank的二元分类与多元分类上再次取得一定的进步。

Kim将Collobert构建的CNN模型结合1000亿个单词训练的向量模型应用于电影评论分类中，取得了了88.1％的当时最好性能。

在硬件方面，基于神经网络的预训练过程通常需要高性能计算的支持，如图形处理单元GPU、多核计算等。同时RBM、Auto-encoders为深度神经网络结构中的组成单元提供算法支持。

发明内容

本发明的目的是在于针对现今财经领域内新闻数据杂乱无章、缺乏自动高效管理等问题，提供一种基于卷积神经网络的中文财经新闻分类方法。

本发明的目的通过以下技术方案来达到：

一种基于卷积神经网络的中文财经新闻文本分类方法，实现对财经新闻正负性的分类；具体操作步骤如下：

1)词向量训练：将分好词的语料文本使用神经网络来训练，在训练过程中生成一组向量，将每个词映射到一个n维词向量；

2)文本预处理：利用训练好的词向量模型将待训练样本转化为以词向量为元素的序列表示，得到一个2维矩阵，用于后续神经网络的训练；

3)CNN模型训练：将训练集通过多块卷积神经网络进行有监督的学习训练；

4)新闻分类：通过使用softmax方式完成对句子的分类。

所述步骤1)中，使用Google公司开源的word2vec工具训练一个财经类词向量模型，对数据的处理包括：去除非法字符、停用词处理、分词处理、编码处理四部分；中文文本与英文文本主要不同之处是不存在天然分隔符，因此需要进行分词处理，同时，中文文本都存在半角、全角两种字符，需要对文本进行编码规范；训练所得的财经类词向量用于完成财经类NLP中词性标注、命名实体识别、短语识别、语义角色标注的任务。

所述步骤2)中，文本预处理时将财经新闻的数据集，标注为正负两类，对经济市场产生积极正面影响的标注为正，对经济市场产生滞后影响或报道负面的标注为负，并利用JIEBA分词工具对实验数据集进行分词、去除非法字符、停用词处理。

所述步骤3)中，使用的卷积神经网络是前馈神经网络的一种，由卷积层和池化层叠加组合而成；卷积层作为特征提取层，通过滤波器提取局部特征，经过卷积核函数运算产生特征图，输出到池化层，池化层属于特征映射层，对卷积层产生的特征图进行降采样，输出局部最优特征；具体包括：

(1)词向量层：将词序列中的元素转化为词向量，令x_i∈R^k为第i个词对应的k维词向量，长度为n的句子表示为：

其中⊕为级联运算符，则x_i:i+h-1表示由第i到第i+h-1个词组成的局部特征矩阵；

(2)卷积层：对不同大小的滤波器建立不同的卷积层，若滤波器大小为h*k，其中h为卷积核窗口中的词数量，则对输入的特征矩阵进行卷积操作后，生成特征c_i为：

c_i＝f(w·x_i:i+h-1+b) (2)

其中b∈R为偏差项，w∈R^h*k为卷积核的权重矩阵，f是卷积核函数；该滤波器应用于句子{x_1:h,x_2:h+1,...,x_n-h+1:n}得到特征图C为：

C＝[c₁,c₂,c₃,c₄,...,c_n-h+1] (3)

其中c∈R^n-h+1；

(3)池化层：池化层采用max-over-time pooling方法进行特征采样，对卷积层的输出特征进一步抽象，保留最重要的特征

(4)全连接层：全连接层由池化层输出的多个特征向量构成，若有大小不同的滤波器p种，每种滤波的数量为q，则全连接层的特征向量为V为：

在模型训练阶段，采用Adadelta Update Rule进行随机梯度下降更新模型。

所述步骤4)中，输出层使用全连接的softmax层完成分类任务，通过动态调整词向量増加神经网络句子模型的统计语义信息，有效提升模型的分类能力。

与现有技术相比，本发明的有益效果是：

本发明方法不仅有效解决了中文财经新闻的分类问题，还充分证明了卷积神经网络在自然语言处理文本分类中的有效性。而通过word2vec训练得到的财经类词向量作为广义通用的语言信息，可被重复用做不同神经网络的句子输入，同时也表明word2vec在自然语言处理中重要意义。

附图说明

图1是本发明方法整体流程图。

图2是卷积神经网络模型示意图。

图3是word2vec词语相似度比较示意图。

具体实施方式

本发明的优先实施例结合附图说明如下：

如图1所示，一种基于卷积神经网络的中文财经新闻文本分类方法，使用大规模财经新闻语料，通过无监督学习的方法，训练获得一个广义通用的财经类词向量模型，并有效地将词向量引入到卷积神经网络模型的训练中，通过动态调整词向量的方法増加模型的统计信息。

本实例共采集新浪财经7*24小时平台上28万条最新财经资讯；采集搜狗词库中12965个财经相关词汇的百度百科内容；同花顺财经网上证A股、深证A股、中小板及创业板全部共2768个股票相关简介及百度百科内容。

1)词向量训练：将分好词的语料文本使用神经网络来训练，在训练过程中生成一组向量，将每个词映射到一个n维词向量。word2vec模型有两种，分别是CBOW模型及Skip-gram模型。实例采用的是Skip-gram模型。训练参数参见表1。

表1

训练语料中共包含55745009个词汇，通过训练共得到222950个词汇的向量表示。以词语“中国银行”为例，可以得到其向量位置及其与其他词汇向量的相似度，参见图3。

2)文本预处理：使用的数据集包含8138条财经新闻，标注为正负两类，对经济市场产生积极正面影响的标注为正，对经济市场产生滞后影响或报道负面的标注为负，参见表2。

表2

经人工标注，正向新闻4121条，负向新闻4017，最长文本长度为50。利用训练好的词向量模型将待训练样本转化为以词向量为元素的序列表示，得到一个2维矩阵，用于后续神经网络的训练。

3)CNN模型训练：将训练集通过多块卷积神经网络进行有监督得学习训练。模型机构参见图2。采用表3所示的卷积神经网络模型可调参数设置，使用窗口大小为3，4，5的滤波器各100个。

表3

在模型训练阶段，采用Zeiler在2012年提出的Adadelta Update Rule进行随机梯度下降更新模型，参数取0.5。

使用静态词向量和动态词向量两种不同形式的通道模式。

CNN静态词向量，使用word2vec词向量，在训练过程中保持所有词向量静态。若存在新词汇不在word2vec词向量模型中，则随机初始化。

CNN动态词向量，使用word2vec词向量，但需重新做预训练，根据不同任务对所有词向量进行调整。

4)新闻分类：通过使用softmax方式完成对句子的分类。为了降低其他随机因素对上述变化的影响，该实例进行十折交叉验证(10-fold cross-validation)来评估方法的准确性。将样本数据分成十组，轮流将九组数据作为训练集用于训练，剩下一组为测试集，即每组数据依次作为测试集使用。每次测试均得到一个正确率，最后取十次测试结果的平均值用于总体评估。在两种模式下结果正确率见表4。

表4

以上所述仅为本发明的实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于卷积神经网络的中文财经新闻文本分类方法，实现对财经新闻正负性的分类；其特征在于，具体操作步骤如下：

4)新闻分类：通过使用softmax方式完成对句子的分类。

2.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法，其特征在于，所述步骤1)中，使用Google公司开源的word2vec工具训练一个财经类词向量模型，对数据的处理包括：去除非法字符、停用词处理、分词处理、编码处理四部分；中文文本与英文文本主要不同之处是不存在天然分隔符，因此需要进行分词处理，同时，中文文本都存在半角、全角两种字符，需要对文本进行编码规范；训练所得的财经类词向量用于完成财经类NLP中词性标注、命名实体识别、短语识别、语义角色标注的任务。

3.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法，其特征在于，所述步骤2)中，文本预处理时将财经新闻的数据集，标注为正负两类，对经济市场产生积极正面影响的标注为正，对经济市场产生滞后影响或报道负面的标注为负，并利用JIEBA分词工具对实验数据集进行分词、去除非法字符、停用词处理。

4.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法，其特征在于，所述步骤3)中，使用的卷积神经网络是前馈神经网络的一种，由卷积层和池化层叠加组合而成；卷积层作为特征提取层，通过滤波器提取局部特征，经过卷积核函数运算产生特征图，输出到池化层，池化层属于特征映射层，对卷积层产生的特征图进行降采样，输出局部最优特征；具体包括：

其中为级联运算符，则x_i:i+h-1表示由第i到第i+h-1个词组成的局部特征矩阵；

c_i＝f(w·x_i:i+h-1+b) (2)

C＝[c₁,c₂,c₃,c₄,...,c_n-h+1] (3)

其中c∈R^n-h+1；

5.根据权利要求1所述的基于卷积神经网络的中文财经新闻文本分类方法，其特征在于，所述步骤4)中，输出层使用全连接的softmax层完成分类任务，通过动态调整词向量増加神经网络句子模型的统计语义信息，有效提升模型的分类能力。