CN110069632A

CN110069632A - 一种集成浅层语义表示向量的深度学习文本分类方法

Info

Publication number: CN110069632A
Application number: CN201910284980.5A
Authority: CN
Inventors: 王华珍; 李小整; 何霆; 贺惠新; 李弼程
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-30
Anticipated expiration: 2039-04-10
Also published as: CN110069632B

Abstract

本发明公开了一种集成浅层语义表示向量的深度学习文本分类方法，方法包括：首先对文本语料训练词嵌入向量，其次利用领域词汇字典作为浅层语义词汇，基于浅层语义词汇，生成文本语料中每一个词的浅层语义向量表达。接下来将两个词向量进行加权拼接作为新的词向量输入到CNN模型中，进行特征提取和模型训练，构建文本分类器。本发明解决基于大数据驱动的词向量表达缺少词法特征和知识表示，难以真正理解词汇语义信息的缺陷，使得模型具有更加丰富的特征表达和更高的分类性能。

Description

一种集成浅层语义表示向量的深度学习文本分类方法

技术领域

本发明涉及深度学习与文本分类领域，特别是涉及一种集成浅层语义表示向量的深度学习文本分类方法。

背景技术

文本分类指对大量的非结构化文本语料按照给定的分类体系进行类别归属预测的过程。随着深度学习技术的突破，以word2vec为代表的词嵌入技术和以卷积神经网络为代表的深度学习模型在文本分类上取得不错的效果。但总体而言，在准确性和可靠性上还远未能达到实用水平，这是由深度学习的先验知识缺失所造成的。因为大数据驱动的深度学习模型只会发现数据集中统计意义上的结论，难以有效利用先验知识。将先验知识融入到深度学习模型是一种解决深度学习瓶颈的思路。浅层语义是一种有效的常识知识提取和表达方式，因此研究集成浅层语义的深度学习具有重要的理论价值和研究意义。

发明内容

本发明提供了一种集成浅层语义表示向量的深度学习文本分类方法SEV-CNN(Semantic Embedding Vector Convolutional Neural Network)，其克服了基于大数据驱动的词向量表达缺少词法特征和知识表示，难以真正理解词汇语义信息的缺陷。

本发明解决其技术问题所采用的技术方案是：

一种集成浅层语义表示向量的深度学习文本分类方法，包括以下步骤：

S1：输入文本语料，采用结巴分词工具对语料进行分词；

S2：基于步骤S1中得到的词语，利用word2vec工具生成每一个词q_i的词向量表达L_w；

S3：基于浅层语义词汇Dict，生成每一个词q_i的浅层语义向量表达S_c；

S31：从以下八个方面来挖掘行业词汇从而构建浅层语义词典：(1)开源词典D_open；(2)否定副词词典D_not；(3)程度副词词典D_adv；(4)网络词典D_net；(5)符号词典D_emoticon；(6)语气词词典D_mood；(7)领域词典D_profession；(8)其他包括手工构建的词典D_other。

S32：构建浅层语义向量Sc＝(x_open，x_not，x_adv，x_net，x_emoticon，x_mood，x_profession，x_other)，区别于L_w中每个x_i表示一个单独的元素，S_c中每个x_i并不表示单个元素而是可能包含多个元素，其元素个数由对应词典规模大小决定。以x_open为例，其对应开源词典D_open，若词典D_open的规模为3，则x_open是一个3维的one-hot向量。

S4：将word2vec词向量表达L_w和浅层语义向量表达S_c进行加权拼接，生成深度学习输入向量[L_w：S_c]；

S5：基于步骤S4中得到的合成向量[L_w：S_c]构建CNN分类模型。

S51：准备有监督文本学习样本集D＝[文本语料X、文本类别Y]，其中每一个样本由一条文本语料及其对应的标签所形成。

S52：初始化CNN网络；

S53：基于样本集D训练CNN网络；

S54：基于步骤S53中得到CNN网络，将一条被测语料x送入CNN进行前向传播计算，得到其预测类别y′。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明在构建词向量表达时分两部分，一部分是利用已有的文本语料通过神经网络模型训练词嵌入向量，这时的词向量是大数据驱动的，具有统计学意义。另一部分是利用领域词汇资源作为浅层语义词汇来构建浅层语义向量，这时的词向量是先验知识驱动的，具有语义特征。对两个词向量进行拼接作为新的词向量输入到CNN模型中，进行特征提取和模型训练，达到有效利用先验知识的目的。

附图说明

图1为本发明的集成浅层语义表示向量的深度学习文本分类方法的示意图；

图2为本发明的集成浅层语义表示向量的深度学习文本分类方法示意图；

图3为MR数据集6种词向量维度precision指标对比效果图；

图4为MR数据集6种词向量维度accuracy指标对比效果图；

图5为MR数据集6种词向量维度F1-score指标对比效果图；

图6为SST-1数据集6种词向量维度accuracy指标对比效果图；

图7为SST-2数据集6种词向量维度precision指标对比效果图；

图8为SST-2数据集6种词向量维度accuracy指标对比效果图；

图9为SST-2数据集6种词向量维度F1-score指标对比效果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

参见图1和图2所示，本发明的一种集成浅层语义表示向量的深度学习文本分类方法，包括以下步骤：(1)构建词嵌入向量；(2)构建浅层语义向量；(3)构建CNN文本分类器。

以情感分类为例，选择3个情感数据集进行实验，以期用语料的多样性验证本发明SEV-CNN的有效性。数据集的相关统计信息如表1所示。

表1三个数据集相关统计信息

其中，MR：电影评论数据，每一句代表一个电影评论，包括“积极”和“消极”2个类别；SST-1：斯坦福情绪树库，提供划分好的train/dev/test，包含very positive,positive,neutral,negative,very negative共5个类别；SST-2：与SST-1相同，但去掉了“neural”类别，并归并为二分类数据集，即包含positive和negative共2个类别。

本发明具体步骤如下：

步骤一：词向量表示

在词嵌入向量生成阶段，本发明采用包含互联网50000条“积极”和“消极”二分类的IMDB影评数据集和本文实验的3个情感数据集共82,130条语料作为词向量预训练语料库，分别训练50维和300维的词向量。词嵌入向量的生成方法是Google开源的词向量训练工具，同时也采用Google用十多亿个新闻单词用word2vec预训练的300维新闻语料词向量googlenews-vecctors-negative300.bin进行对比实验。这意味着词嵌入向量有50维和300维两种情况。其中，50维是本文自己训练的，而300维大部分采用Google预训练的300维词向量，对于语料中出现过而google预训练300维新闻词向量中没有出现的词或短语，则采用自建语料库预训练的300维词向量代替。因word2vec模型参数对词向量表示效果和分类模型性能起着决定性作用，故需合理设置word2vec每个参数值表2所示。

表2 word2vec模型参数

步骤二：浅层语义向量表示

在浅层语义向量生成阶段，经调研发现可以从8个不同的方面构建情感分析领域的词汇资源，即意味着情感分类的浅层语义词汇可以来源于8个不同的方面：

1)开源词典：国外的有SentiWordNet和Inquirei，国内有知网HowNet词典和同义词词林、大连理工大学和台湾大学等高校提供的情感词汇库；

2)否定副词词典：否定副词是用于否定后面词语的副词，常见否定词如“不”、“没有”、“没”、“无”、“非”等；

3)程度副词词典：如知网提供的程度副词分为6个等级，分别为极其、很、较、稍、欠、超；

4)网络词典：网络新词即多在网络上流行的非正式语言，多由谐音、错别字改成，也有象形字词，在情感分析领域应用越来越广泛。如“新手”不叫新手叫“菜鸟”，“这样子”不叫这样子叫“酱紫”。百度引擎和搜狐引擎集合了现在广为流行的网络用语，有较好的网络新词覆盖率；

5)符号词典：随着表情符号的流行，人们越来越趋向于用表情符号表达自己的观点，加入符号表情分析可大大提高情感分析效率；

6)语气词词典：语气词在中文表达中经常流露出情感倾向，如“哎呀”，“啊”，“哇塞”等。百度百科提供了76个语气词的词典，还可继续进行扩展；

7)领域词典：情感分类相关的词典，主要指的是情感类别体系，如知网的HowNet情感词典分为正面情感词，正面评价词，负面情感词，负面评价词；

8)其他：对于前面七个方面未涉及的词典，可以通过自己构建的方式获得适合某个特定任务的词汇资源。

根据以上领域词汇的获取方法，本发明收集了二分类情感词典D_open(15907个单词或短语)和1-6个等级的程度副词词典D_adv(共170个单词或短语)。以这2种来源方式的词典为基础，构建大小为3803条短语的浅层语义词典，具体如表3所示。

表3情感领域浅层语义词典

根据上表的开源词典D_open和否定副词词典D_not可以对文本语料的每个词构建浅层语义向量S_c＝(x_open,x_not)。当把词嵌入向量和浅层语义向量进行拼接成向量[L_w:S_c]时，可以获得(x₁,x₂,...,x₅₀,x_open,x_adv)或(x₁,x₂,...,x₃₀₀,x_open,x_adv)这两种拼接向量，以作为深度学习输入。

步骤三：CNN文本分类模型构建

本发明采用卷积神经网络CNN为基础模型来构建情感分类研究模型，模型参数和架构如表4所示。在将文本语料输入CNN模型时，需要将其转化成一个矩阵样本，比如转化为一个90*50的矩阵数据，其表示该文本语料包含90个词语，每个词语的向量维度是50维。而由于原始数据中不同文本语料长度不同，如果选择最短的文本作为统一长度可能会将重要信息截取掉，选择最长的文本长度会使得其它短的文本添加过多无用消息(填充0)并且增加模型训练难度。其中关于文本长度的选择，本发明取每个数据集的平均长度，分别是20、18和19。并进一步对文本的填充方式和截取方式进行深入研究，以填充方式和截取方式的组合来展示算法有效性的验证。其中，pre指对文本进行头部截取或头部填充，post指对文本进行尾部截取或尾部填充；pre_post指对长文本进行头部截取，对短文本进行尾部填充。

表4 CNN模型参数

对于拼接合成向量[L_w:S_c]各个元素的值，本发明采用了固定权重和动态权重的两种方式，前者标记为static，指在训练过程中词向量的值不进行更新变化，即无权重方式，后者标记为dynamic，指词向量权重参与优化过程，在模型训练时会进行动态更新。同时我们采用Precision，Accuracy，F1-score作为评价指标。

下面针对仅word2vec的词嵌入向量L_w(50维或300维)、词嵌入向量L_w+浅层语义向量x_open(50维+x_open或300维+x_open)、词嵌入向量L_w+浅层语义向量x_open+x_adv(50维+x_open+x_adv或300维+x_open+x_adv)共3种词向量进行对比实验，实验结果如图3至图9所示。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种集成浅层语义表示向量的深度学习文本分类方法，其特征在于，包括以下步骤：

S1：输入文本语料，采用结巴分词工具对语料进行分词；

S3：基于浅层语义词汇Dict，生成每一个词q_i的浅层语义向量表达S_c，如下：

S31：从以下八个方面来挖掘行业词汇从而构建浅层语义词典：(1)开源词典D_open；(2)否定副词词典D_not；(3)程度副词词典D_adv；(4)网络词典D_net；(5)符号词典D_emoticon；(6)语气词词典D_mood；(7)领域词典D_profession；(8)其他包括手工构建的词典D_other；

S32：构建浅层语义向量S_c＝(x_open，x_not，x_adv，x_net，x_emoticon，x_mood，x_profession，x_other)，区别于L_w中每个x_i表示一个单独的元素，S_c中每个x_i并不表示单个元素而是可能包含多个元素，其元素个数由对应词典规模大小决定；

S4：将word2vec词向量表达L_w和浅层语义向量表达S_c进行拼接，生成深度学习输入向量[L_w:S_c]；

S5：基于步骤S4中得到的合成向量[L_w:S_c]构建CNN分类模型，如下：

S52：初始化CNN网络；

S53：基于样本集D训练CNN网络；