CN110263154A

CN110263154A - 一种网络舆情情感态势量化方法、系统及存储介质

Info

Publication number: CN110263154A
Application number: CN201910411349.7A
Authority: CN
Inventors: 张毅
Original assignee: Ai Media Guangzhou Number Of Poly Information Consulting Ltd By Share Ltd
Current assignee: Ai Media Guangzhou Number Of Poly Information Consulting Ltd By Share Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-20

Abstract

本发明公开了一种网络舆情情感态势量化方法、系统及存储介质，方法包括：获取待量化的语料库；采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型；获取网络舆情监测对象的关键词作为目标关键词；根据语料模型计算情感语料和目标关键词的距离；根据计算的距离计算目标关键词的情感值。本发明通过Word2vec神经网络算法获得的词向量包含了上下文的信息，且压缩了数据规模；通过目标关键词与情感语料的距离得到目标关键词的情感值，能量化情感倾向结果；采用Word2vec神经网络算法这一无监督的机器学习方法进行全自动舆情情感量化，不需要进行人工标注。本发明可广泛应用于舆情监控领域。

Description

一种网络舆情情感态势量化方法、系统及存储介质

技术领域

本发明涉及舆情监控领域，尤其是一种网络舆情情感态势量化方法、系统及存储介质。

背景技术

舆情监控，整合了互联网信息采集技术及信息智能处理技术，通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦，实现用户的网络舆情监测和新闻专题追踪等信息需求，形成简报、报告、图表等分析结果，为客户全面掌握群众思想动态，做出正确舆论引导，提供分析依据。

在舆情监控中，情感分析能分析舆情监测对象(如机构、企业、品牌、人物等)的情感情况(如倾向或趋势等)，是反映舆论情况的一种重要手段。现有的情感分析方法主要分以下两种：

(一)基于词典的方法：主要通过制定一系列的情感词典和规则，对文本进行段落拆借、句法分析，计算情感值，最后以情感值作为文本的情感倾向依据。这种方法有许多局限性，最重要的一点是它忽略了上下文的信息，导致分析的结果不够准确。

(二)基于机器学习的方法：大多数情况下可将这个问题转化为一个分类问题来看待，对于情感极性的判断，该方法将目标情感粗略分为3类：正面、负面和中性，不能进一步量化情感倾向结果，不够直观。该方法对训练文本进行人工标标注，然后进行有监督的机器学习。例如现在较为常见的基于大规模语料库的机器学习等。然而人工标注并进行有监督的机器学习意味着不能做到全自动化，需要一定人工成本。

发明内容

为解决上述技术问题，本发明实施例的目的在于：提供一种准确、直观和成本低的网络舆情情感态势量化方法、系统及存储介质。

本发明实施例所采取的第一技术方案是：

一种网络舆情情感态势量化方法，包括以下步骤：

获取待量化的语料库；

采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型；

获取网络舆情监测对象的关键词作为目标关键词；

根据语料模型计算情感语料和目标关键词的距离；

根据计算的距离计算目标关键词的情感值。

进一步，所述获取待量化的语料库这一步骤，具体包括：

初始化，载入预设的词库；

从网络舆情的语料库中获取初始语料并输入；

对初始语料进行文本语料处理，所述文本语料处理包括切词、词性标记、过滤、去停用词和计算词频。

进一步，所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型这一步骤，具体包括：

导入第一时间内的新语料库；

根据导入的新语料库采用Word2vec神经网络算法的CBOW和Skip-gram方法训练语料模型；

保存最新的语料模型作为短期模型，同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存；

加载最新的短期模型和长期模型。

进一步，所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型这一步骤，还具体包括：

采用层次Softmax方法加速语料模型的训练过程。

进一步，所述短期模型存储于短期语料库，所述长期语料模型存储于长期语料库，所述长期语料库由短期语料库组成。

进一步，所述根据语料模型计算情感语料和目标关键词的距离这一步骤，具体为：

根据语料模型的词向量采用基于词典的方法计算情感语料和目标关键词的距离。

进一步，所述根据计算的距离计算目标关键词的情感值这一步骤，具体为：

对计算的距离进行降维处理和归一量化计算，得到目标关键词的情感值。

本发明实施例所采取的第二技术方案是：

一种网络舆情情感态势量化系统，包括：

第一获取模块，用于获取待量化的语料库；

训练模块，用于采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型；

第二获取模块，用于获取网络舆情监测对象的关键词作为目标关键词；

距离计算模块，用于根据语料模型计算情感语料和目标关键词的距离；

情感值计算模块，用于根据计算的距离计算目标关键词的情感值。

本发明实施例所采取的第三技术方案是：

一种网络舆情情感态势量化系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如本发明所述的一种网络舆情情感态势量化方法。

本发明实施例所采取的第四技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现如本发明所述的一种网络舆情情感态势量化方法。

上述本发明实施例中的一个或多个技术方案具有如下优点：本发明实施例采用Word2vec 神经网络算法对对待量化的语料库进行词向量训练，得到用词向量表示的语料模型，再计算目标关键词与情感语料的距离，最后根据计算的距离得到目标关键词的情感值，通过 Word2vec神经网络算法获得的词向量包含了上下文的信息，更加准确且压缩了数据规模；通过目标关键词与情感语料的距离得到目标关键词的情感值，能量化情感倾向结果，精确反映了网络舆情的实时热点；采用Word2vec神经网络算法这一无监督的机器学习方法来取代有监督的机器学习方法进行全自动舆情情感量化，不需要进行人工标注，成本更低。

附图说明

图1为本发明实施例提供的一种网络舆情情感态势量化方法流程图；

图2为本发明实施例CBOW方法的算法原理示图；

图3为本发明实施例CBOW方法的架构图；

图4为本发明实施例kip-gram模型的算法原理示图；

图5为本发明实施例层次Softmax方法加速语料模型训练过程的算法原理示图；

图6为本发明实施例哈夫曼树的结构示意图；

图7为本发明具体实施例网络舆情情感态势量化方案的实现流程图；

图8为本发明具体实施例语料模型训练的一种具体实施流程图。

具体实施方式

首先对本发明涉及的名词术语进行解释和说明：

Word2vec：是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec 中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

词袋模型(Bag-of-words model)：是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下，像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现，这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在计算机视觉领域。词袋模型被广泛应用在文件分类领域，词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在DistributionalStructure的文章。

统计语言模型(Statistical Language Model)，是今天所有自然语言处理的基础，并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。统计语言模型直观地解决了一个问题：一个句子是否合理，就看它的可能性大小如何。至于可能性就用概率来衡量。

假定S表示某一个有意义的句子，由一连串特定顺序排列的词W1，W2，…，Wn组成，这里n是句子的长度(句子中词汇的个数)。于是S出现的可能性也就是数学上所说的S的概率P(S)＝P(W1，W2，...，Wn)。

利用条件概率公式，以上算式可以展开为：

P(W1，W2，...，Wn)＝P(W1)*P(W2|W1)*P(W3|W1，W2)...P(Wn|W1，W2，...，Wn-1)

其中P(W1)表示第一个词W1出现的概率；P(W2|W1)是在已知第一个词的前提下，第二个词出现的概率；以此类推，词Wn出现的概率取决于它前面所有的词。俄国数学家马尔可夫(Andrey Markov)提出假设任意一个词Wi出现的概率只同它前面的词Wi-1有关，S出现的概率就变得简单了：

P(S)＝P(W1)*P(W2|W1)*P(W3|W2)...P(Wn|Wn-1)

上述公式就是统计语言模型的二元模型(Bigram Model)。接下来的问题就是如何计算 P(Wn|Wn-1)，根据概率论，该公式可以变化为：

P(Wn|Wn-1)＝P(Wn-1，Wn)/P(Wn-1)

因为在互联网时代有大量的语料库(Corpus)可以作为训练样本，所以只要数一数Wn-1、 Wn这对词在语料库中前后相邻出现了多少次，以及Wn-1本身在相同的语料库中出现了多少次，就可得到P(Wn|Wn-1)。

kip-gram模型：一个简单但却非常实用的模型，用于使用当前词来预测上下文词汇。在自然语言处理中，语料的选取是一个相当重要的问题:第一，语料必须充分。一方面词典的词量要足够大，另一方面要尽可能多地包含反映词语之间关系的句子，例如，只有“鱼在水中游”这种句式在语料中尽可能地多，模型才能够学习到该句中的语义和语法关系，这和人类学习自然语言一个道理，重复的次数多了，也就会模仿了；第二，语料必须准确。也就是说所选取的语料能够正确反映该语言的语义和语法关系，这一点似乎不难做到，例如中文里，《人民日报》的语料比较准确。但是，更多的时候，并不是语料的选取引发了对准确性问题的担忧，而是处理的方法。n元模型中，因为窗口大小的限制，导致超出窗口范围的词语与当前词之间的关系不能被正确地反映到模型之中，如果单纯扩大窗口大小又会增加训练的复杂度。Skip-gram模型的提出很好地解决了这些问题。顾名思义，Skip-gram就是“跳过某些符号”，例如，句子“某国足球踢得真是太烂了”有4个3元词组，分别是“某国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”，可是我们发现，这个句子的本意就是“某国足球太烂”可是上述4个3元词组并不能反映出这个信息。Skip-gram模型却允许某些词被跳过，因此可以组成“某国足球太烂”这个3元词组。如果允许跳过2个词，即 2-Skip-gram。

词向量：具有良好的语义特性，是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以，可以将词向量的每一维称为一个词语特征。词向量具有多种形式，distributed representation是其中一种。一个distributedrepresentation是一个稠密、低维的实值向量。distributed representation的每一维表示词语的一个潜在特征，该特征捕获了有用的句法和语义特性。可见，distributedrepresentation中的distributed一词体现了词向量这样一个特点：将词语的不同句法和语义特征分布到它的每一个维度去表示。

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。

参照图1，本发明实施例提供了一种网络舆情情感态势量化方法，包括以下步骤：

获取待量化的语料库；

获取网络舆情监测对象的关键词作为目标关键词；

根据语料模型计算情感语料和目标关键词的距离；

根据计算的距离计算目标关键词的情感值。

具体地，待量化的语料库可以通过互联网收集当前最近一段时间内的各种新闻数据等网络舆情数据来实时获取或预先收集得到。该待量化的语料库还可以按照时间维度进行更新。

Word2vec神经网络算法，属于无监督的机器学习算法的一种，不需要预先进行人工标注，能提升训练效率和降低人工成本。

网络舆情监测对象可以是机构、企业、品牌、人物等。

情感语料和目标关键词的距离可以是高维度的距离，如马氏距离、余弦距离等。

根据语料模型计算情感语料和目标关键词的距离时，可以采用基于词典的方法。

得到情感语料和目标关键词的距离后，可通过降维处理、归一化处理等方式得到目标关键词的情感值。

本实施例采用了无监督学习的word2vec方法，能利用CBOW或者Skip-gram算法获取训练集中每个单词的最优词向量。这些词向量已经包含了上下文的信息，而且数据规模与初始相比也得到较大压缩。通过word2vec深度学习获得的词向量后，再利用基于词典的方法可计算出目标单词与情感词汇的距离，最后统计分析即可得出目标关键词的情感值。本实施例的方法结合全面覆盖且精准的信息采集模块，使得计算出的情感值可精确反映实时热点新闻等热点舆情。

总体而言，本实施例采用了经过调优的词向量为基准的分析方法，解决了忽略上下文语境信息的局限性，大大压缩了数据规模，并结合精准的数据采集模块，实现了全自动舆情情感分析和量化。

进一步作为优选的实施方式，所述获取待量化的语料库这一步骤，具体包括：

初始化，载入预设的词库；

从网络舆情的语料库中获取初始语料并输入；

具体地，预设的词库可以包含文章、评论等文本语料内容，其为切词做好了准备。

网络舆情的语料库可以通过从互联网收集当前最近一段时间内的各种新闻数据等网络舆情数据并进行筛选后获得。

初始语料是将要被处理的文本语料内容。

进一步作为优选的实施方式，所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型这一步骤，具体包括：

导入第一时间内的新语料库；

加载最新的短期模型和长期模型。

具体地，第一时间是预设的时段周期，可以是一天、一周等时间。

CBOW使用文本语料的上下文词汇来预测当前词，其具体结构如图2和图3所示。从图 3可以看出，CBOW在输入层Input layer中，乘以投影矩阵获得结果，而在隐藏层Hiddenlayer 中，将多个向量叠加合并为一个向量并输出。

Skip-gram模型使用当前词来预测上下文词汇，其具体结构如和图4所示。

本实施例保存训练得到的最新的语料模型作为短期模型，同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存，这样即可按照时间维度生成长期语料模型，该长期语料模型可供新的语料模型训练时被调用来提供历史先验知识，有助于提升模型训练的性能。距离当前时间第二时间内是指最近一段时间(如最近3天，最近一周等等)。第二时间可根据实际的需要预先设定或选取，如3天，一周，半个月等等。

进一步作为优选的实施方式，所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型这一步骤，还具体包括：

采用层次Softmax方法加速语料模型的训练过程。

具体地，本实施例采用层次Softmax方法加速语料模型的训练过程，如图5所示，具体实现过程包括：

1)将语料库词典中的每个词表示为高维向量；

2)采用层次Softmax方法(Hierarchical Softmax)来加速神经网络语言模型(即语料模型)。

3)对于每个词的词向量归一化降维后得出的一维数值表示每个词在句子中的联合概率函数。

4)同时学习词向量和联合概率函数参数。

层次Softmax的核心内容是哈夫曼树(Huffman Tree)，如图6所示，树的核心概念是出现概率越高的符号使用较短的编码(层次越浅)，出现概率低的符号则使用较长的编码(层次越深)。

本实施例可以采用层次Softmax方法加速语料模型的训练过程，有效提升了训练的效率。

进一步作为优选的实施方式，所述短期模型存储于短期语料库，所述长期语料模型存储于长期语料库，所述长期语料库由短期语料库组成。

具体地，长期语料库由多个短期语料库组成，二者的数据存储格式一样，区别在于长期语料库和短期语料库中语料的时间跨度不同导致得出的词向量结果不同。

本实施例通过将语料库划分为长期语料库和短期语料库，从而既能通过短期语料库存储和获取最新的语料内容来得到时下网络舆情的最新热点信息，又能通过长期语料库按时间维度来累积得到网络舆情的历史数据形成训练的先验知识，更加全面和高效。

进一步作为优选的实施方式，所述根据语料模型计算情感语料和目标关键词的距离这一步骤，具体为：

具体地，本实施例采用基于词典的方法来计算情感语料和目标关键词的高维距离，该距离反映了目标关键词与情感语料的相似度，该距离越近，相似度越高，属于该情感语料的可能性也越大。

进一步作为优选的实施方式，所述根据计算的距离计算目标关键词的情感值这一步骤，具体为：

具体地，计算出目标关键词与情感语料的距离后，可通过降维处理和归一化处理得到目标关键词的情感值，从而将网络舆情情感态势量化为直观数值，更加精准。

针对现有情感分析方法分析结果不准确、不直观和需要人工成本的问题，本发明具体实施例基于Word2vec神经网络算法与热点舆情监控技术，提出了一种新的网络舆情情感态势量化方案，以将舆情监测对象(如机构、企业、品牌、人物等)的情感值进行量化，反映当前舆论情况。该方案采用的是无监督学习的word2vec方法，其本质是利用CBOW或者Skip-gram算法获取训练集(即待量化的语料库)中每个单词的最优词向量。这些词向量已经包含了上下文的信息，而且数据规模与初始相比也得到较大压缩。该方案通过word2vec深度学习获得的词向量后，再利用基于词典的方法计算出目标关键词与情感词汇的距离，统计分析得出目标关键词的情感值。该方案结合全面覆盖且精准的信息采集模块，计算出的情感值可精确反映实时热点新闻。总体而言，该方案采用了经过调优的词向量为基准的分析方法，解决了忽略语境信息的局限性，大大压缩数据规模，并结合精准的数据采集模块，实现全自动舆情情感分析和量化。

如图7所示，该方案具体包括以下步骤：

a.初始化，载入自定义词库(包括文章、评论等文本语料内容，做好切词准备)；

b.初始语料输入(即获取将要被处理的文本语料内容)；

c.语料文本处理：包括切词、词性标记、过滤、去停用词、计算词频等；

d.语料模型训练：将新的多维词向量结果，加入短期语料库训练；

e.关键词输入：将监测对象的关键词加入计算；

f.关键词与情感语料距离计算：计算关键词到情感语料的高维距离；

g.距离结果处理(包括结果降维处理和归一量化计算)，计算情感值；

h.输出结果数值。

其中，如图8所示，步骤d的语料模型训练的具体过程包括：

S1.加载语料模型：加载读取已有的长期语料模型；

S2.导入新语料库：导入时段周期内已经过切词过滤后的全量新语料库；

S3.训练语料模型：使用CBOW和Skip-gram方法训练语料模型；

S4.保存语料模型：根据时间维度保存最新的语料模型，同时将最近一段时间的多个语料模型合并计算为长期语料模型并保存；

S5.模型加载使用：加载最新的短期模型和长期模型，并提供调用服务。

与图1的方法相对应，本发明实施例还提供了一种网络舆情情感态势量化系统，包括：

第一获取模块，用于获取待量化的语料库；

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现如图1所述的一种网络舆情情感态势量化方法。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种网络舆情情感态势量化方法，其特征在于：包括以下步骤：

获取待量化的语料库；

获取网络舆情监测对象的关键词作为目标关键词；

根据语料模型计算情感语料和目标关键词的距离；

根据计算的距离计算目标关键词的情感值。

2.根据权利要求1所述的一种网络舆情情感态势量化方法，其特征在于：所述获取待量化的语料库这一步骤，具体包括：

初始化，载入预设的词库；

从网络舆情的语料库中获取初始语料并输入；

3.根据权利要求1所述的一种网络舆情情感态势量化方法，其特征在于：所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型这一步骤，具体包括：

导入第一时间内的新语料库；

加载最新的短期模型和长期模型。

4.根据权利要求3所述的一种网络舆情情感态势量化方法，其特征在于：所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练，得到用词向量表示的语料模型这一步骤，还具体包括：

采用层次Softmax方法加速语料模型的训练过程。

5.根据权利要求3所述的一种网络舆情情感态势量化方法，其特征在于：所述短期模型存储于短期语料库，所述长期语料模型存储于长期语料库，所述长期语料库由短期语料库组成。

6.根据权利要求1所述的一种网络舆情情感态势量化方法，其特征在于：所述根据语料模型计算情感语料和目标关键词的距离这一步骤，具体为：

7.根据权利要求1所述的一种网络舆情情感态势量化方法，其特征在于：所述根据计算的距离计算目标关键词的情感值这一步骤，具体为：

8.一种网络舆情情感态势量化系统，其特征在于：包括：

第一获取模块，用于获取待量化的语料库；

9.一种网络舆情情感态势量化系统，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7所述的一种网络舆情情感态势量化方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述的一种网络舆情情感态势量化方法。