CN110263154A - 一种网络舆情情感态势量化方法、系统及存储介质 - Google Patents

一种网络舆情情感态势量化方法、系统及存储介质 Download PDF

Info

Publication number
CN110263154A
CN110263154A CN201910411349.7A CN201910411349A CN110263154A CN 110263154 A CN110263154 A CN 110263154A CN 201910411349 A CN201910411349 A CN 201910411349A CN 110263154 A CN110263154 A CN 110263154A
Authority
CN
China
Prior art keywords
corpus
model
opinion
emotion
target keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910411349.7A
Other languages
English (en)
Inventor
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ai Media Guangzhou Number Of Poly Information Consulting Ltd By Share Ltd
Original Assignee
Ai Media Guangzhou Number Of Poly Information Consulting Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ai Media Guangzhou Number Of Poly Information Consulting Ltd By Share Ltd filed Critical Ai Media Guangzhou Number Of Poly Information Consulting Ltd By Share Ltd
Priority to CN201910411349.7A priority Critical patent/CN110263154A/zh
Publication of CN110263154A publication Critical patent/CN110263154A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种网络舆情情感态势量化方法、系统及存储介质,方法包括:获取待量化的语料库;采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;获取网络舆情监测对象的关键词作为目标关键词;根据语料模型计算情感语料和目标关键词的距离;根据计算的距离计算目标关键词的情感值。本发明通过Word2vec神经网络算法获得的词向量包含了上下文的信息,且压缩了数据规模;通过目标关键词与情感语料的距离得到目标关键词的情感值,能量化情感倾向结果;采用Word2vec神经网络算法这一无监督的机器学习方法进行全自动舆情情感量化,不需要进行人工标注。本发明可广泛应用于舆情监控领域。

Description

一种网络舆情情感态势量化方法、系统及存储介质
技术领域
本发明涉及舆情监控领域,尤其是一种网络舆情情感态势量化方法、系统及存储介质。
背景技术
舆情监控,整合了互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
在舆情监控中,情感分析能分析舆情监测对象(如机构、企业、品牌、人物等)的情感情况(如倾向或趋势等),是反映舆论情况的一种重要手段。现有的情感分析方法主要分以下两种:
(一)基于词典的方法:主要通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后以情感值作为文本的情感倾向依据。这种方法有许多局限性,最重要的一点是它忽略了上下文的信息,导致分析的结果不够准确。
(二)基于机器学习的方法:大多数情况下可将这个问题转化为一个分类问题来看待,对于情感极性的判断,该方法将目标情感粗略分为3类:正面、负面和中性,不能进一步量化情感倾向结果,不够直观。该方法对训练文本进行人工标标注,然后进行有监督的机器学习。例如现在较为常见的基于大规模语料库的机器学习等。然而人工标注并进行有监督的机器学习意味着不能做到全自动化,需要一定人工成本。
发明内容
为解决上述技术问题,本发明实施例的目的在于:提供一种准确、直观和成本低的网络舆情情感态势量化方法、系统及存储介质。
本发明实施例所采取的第一技术方案是:
一种网络舆情情感态势量化方法,包括以下步骤:
获取待量化的语料库;
采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;
获取网络舆情监测对象的关键词作为目标关键词;
根据语料模型计算情感语料和目标关键词的距离;
根据计算的距离计算目标关键词的情感值。
进一步,所述获取待量化的语料库这一步骤,具体包括:
初始化,载入预设的词库;
从网络舆情的语料库中获取初始语料并输入;
对初始语料进行文本语料处理,所述文本语料处理包括切词、词性标记、过滤、去停用词和计算词频。
进一步,所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,具体包括:
导入第一时间内的新语料库;
根据导入的新语料库采用Word2vec神经网络算法的CBOW和Skip-gram方法训练语料模型;
保存最新的语料模型作为短期模型,同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存;
加载最新的短期模型和长期模型。
进一步,所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,还具体包括:
采用层次Softmax方法加速语料模型的训练过程。
进一步,所述短期模型存储于短期语料库,所述长期语料模型存储于长期语料库,所述长期语料库由短期语料库组成。
进一步,所述根据语料模型计算情感语料和目标关键词的距离这一步骤,具体为:
根据语料模型的词向量采用基于词典的方法计算情感语料和目标关键词的距离。
进一步,所述根据计算的距离计算目标关键词的情感值这一步骤,具体为:
对计算的距离进行降维处理和归一量化计算,得到目标关键词的情感值。
本发明实施例所采取的第二技术方案是:
一种网络舆情情感态势量化系统,包括:
第一获取模块,用于获取待量化的语料库;
训练模块,用于采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;
第二获取模块,用于获取网络舆情监测对象的关键词作为目标关键词;
距离计算模块,用于根据语料模型计算情感语料和目标关键词的距离;
情感值计算模块,用于根据计算的距离计算目标关键词的情感值。
本发明实施例所采取的第三技术方案是:
一种网络舆情情感态势量化系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明所述的一种网络舆情情感态势量化方法。
本发明实施例所采取的第四技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如本发明所述的一种网络舆情情感态势量化方法。
上述本发明实施例中的一个或多个技术方案具有如下优点:本发明实施例采用Word2vec 神经网络算法对对待量化的语料库进行词向量训练,得到用词向量表示的语料模型,再计算目标关键词与情感语料的距离,最后根据计算的距离得到目标关键词的情感值,通过 Word2vec神经网络算法获得的词向量包含了上下文的信息,更加准确且压缩了数据规模;通过目标关键词与情感语料的距离得到目标关键词的情感值,能量化情感倾向结果,精确反映了网络舆情的实时热点;采用Word2vec神经网络算法这一无监督的机器学习方法来取代有监督的机器学习方法进行全自动舆情情感量化,不需要进行人工标注,成本更低。
附图说明
图1为本发明实施例提供的一种网络舆情情感态势量化方法流程图;
图2为本发明实施例CBOW方法的算法原理示图;
图3为本发明实施例CBOW方法的架构图;
图4为本发明实施例kip-gram模型的算法原理示图;
图5为本发明实施例层次Softmax方法加速语料模型训练过程的算法原理示图;
图6为本发明实施例哈夫曼树的结构示意图;
图7为本发明具体实施例网络舆情情感态势量化方案的实现流程图;
图8为本发明具体实施例语料模型训练的一种具体实施流程图。
具体实施方式
首先对本发明涉及的名词术语进行解释和说明:
Word2vec:是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec 中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
词袋模型(Bag-of-words model):是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在计算机视觉领域。词袋模型被广泛应用在文件分类领域,词出现的频率可以用来当作训练分类器的特征。关于"词袋"这个用字的由来可追溯到泽里格·哈里斯于1954年在DistributionalStructure的文章。
统计语言模型(Statistical Language Model),是今天所有自然语言处理的基础,并且广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。统计语言模型直观地解决了一个问题:一个句子是否合理,就看它的可能性大小如何。至于可能性就用概率来衡量。
假定S表示某一个有意义的句子,由一连串特定顺序排列的词W1,W2,…,Wn组成,这里n是句子的长度(句子中词汇的个数)。于是S出现的可能性也就是数学上所说的S的概率P(S)=P(W1,W2,...,Wn)。
利用条件概率公式,以上算式可以展开为:
P(W1,W2,...,Wn)=P(W1)*P(W2|W1)*P(W3|W1,W2)...P(Wn|W1,W2,...,Wn-1)
其中P(W1)表示第一个词W1出现的概率;P(W2|W1)是在已知第一个词的前提下,第二个词出现的概率;以此类推,词Wn出现的概率取决于它前面所有的词。俄国数学家马尔可夫(Andrey Markov)提出假设任意一个词Wi出现的概率只同它前面的词Wi-1有关,S出现的概率就变得简单了:
P(S)=P(W1)*P(W2|W1)*P(W3|W2)...P(Wn|Wn-1)
上述公式就是统计语言模型的二元模型(Bigram Model)。接下来的问题就是如何计算 P(Wn|Wn-1),根据概率论,该公式可以变化为:
P(Wn|Wn-1)=P(Wn-1,Wn)/P(Wn-1)
因为在互联网时代有大量的语料库(Corpus)可以作为训练样本,所以只要数一数Wn-1、 Wn这对词在语料库中前后相邻出现了多少次,以及Wn-1本身在相同的语料库中出现了多少次,就可得到P(Wn|Wn-1)。
kip-gram模型:一个简单但却非常实用的模型,用于使用当前词来预测上下文词汇。在自然语言处理中,语料的选取是一个相当重要的问题:第一,语料必须充分。一方面词典的词量要足够大,另一方面要尽可能多地包含反映词语之间关系的句子,例如,只有“鱼在水中游”这种句式在语料中尽可能地多,模型才能够学习到该句中的语义和语法关系,这和人类学习自然语言一个道理,重复的次数多了,也就会模仿了;第二,语料必须准确。也就是说所选取的语料能够正确反映该语言的语义和语法关系,这一点似乎不难做到,例如中文里,《人民日报》的语料比较准确。但是,更多的时候,并不是语料的选取引发了对准确性问题的担忧,而是处理的方法。n元模型中,因为窗口大小的限制,导致超出窗口范围的词语与当前词之间的关系不能被正确地反映到模型之中,如果单纯扩大窗口大小又会增加训练的复杂度。Skip-gram模型的提出很好地解决了这些问题。顾名思义,Skip-gram就是“跳过某些符号”,例如,句子“某国足球踢得真是太烂了”有4个3元词组,分别是“某国足球踢得”、“足球踢得真是”、“踢得真是太烂”、“真是太烂了”,可是我们发现,这个句子的本意就是“某国足球太烂”可是上述4个3元词组并不能反映出这个信息。Skip-gram模型却允许某些词被跳过,因此可以组成“某国足球太烂”这个3元词组。如果允许跳过2个词,即 2-Skip-gram。
词向量:具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。所以,可以将词向量的每一维称为一个词语特征。词向量具有多种形式,distributed representation是其中一种。一个distributedrepresentation是一个稠密、低维的实值向量。distributed representation的每一维表示词语的一个潜在特征,该特征捕获了有用的句法和语义特性。可见,distributedrepresentation中的distributed一词体现了词向量这样一个特点:将词语的不同句法和语义特征分布到它的每一个维度去表示。
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。
参照图1,本发明实施例提供了一种网络舆情情感态势量化方法,包括以下步骤:
获取待量化的语料库;
采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;
获取网络舆情监测对象的关键词作为目标关键词;
根据语料模型计算情感语料和目标关键词的距离;
根据计算的距离计算目标关键词的情感值。
具体地,待量化的语料库可以通过互联网收集当前最近一段时间内的各种新闻数据等网络舆情数据来实时获取或预先收集得到。该待量化的语料库还可以按照时间维度进行更新。
Word2vec神经网络算法,属于无监督的机器学习算法的一种,不需要预先进行人工标注,能提升训练效率和降低人工成本。
网络舆情监测对象可以是机构、企业、品牌、人物等。
情感语料和目标关键词的距离可以是高维度的距离,如马氏距离、余弦距离等。
根据语料模型计算情感语料和目标关键词的距离时,可以采用基于词典的方法。
得到情感语料和目标关键词的距离后,可通过降维处理、归一化处理等方式得到目标关键词的情感值。
本实施例采用了无监督学习的word2vec方法,能利用CBOW或者Skip-gram算法获取训练集中每个单词的最优词向量。这些词向量已经包含了上下文的信息,而且数据规模与初始相比也得到较大压缩。通过word2vec深度学习获得的词向量后,再利用基于词典的方法可计算出目标单词与情感词汇的距离,最后统计分析即可得出目标关键词的情感值。本实施例的方法结合全面覆盖且精准的信息采集模块,使得计算出的情感值可精确反映实时热点新闻等热点舆情。
总体而言,本实施例采用了经过调优的词向量为基准的分析方法,解决了忽略上下文语境信息的局限性,大大压缩了数据规模,并结合精准的数据采集模块,实现了全自动舆情情感分析和量化。
进一步作为优选的实施方式,所述获取待量化的语料库这一步骤,具体包括:
初始化,载入预设的词库;
从网络舆情的语料库中获取初始语料并输入;
对初始语料进行文本语料处理,所述文本语料处理包括切词、词性标记、过滤、去停用词和计算词频。
具体地,预设的词库可以包含文章、评论等文本语料内容,其为切词做好了准备。
网络舆情的语料库可以通过从互联网收集当前最近一段时间内的各种新闻数据等网络舆情数据并进行筛选后获得。
初始语料是将要被处理的文本语料内容。
进一步作为优选的实施方式,所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,具体包括:
导入第一时间内的新语料库;
根据导入的新语料库采用Word2vec神经网络算法的CBOW和Skip-gram方法训练语料模型;
保存最新的语料模型作为短期模型,同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存;
加载最新的短期模型和长期模型。
具体地,第一时间是预设的时段周期,可以是一天、一周等时间。
CBOW使用文本语料的上下文词汇来预测当前词,其具体结构如图2和图3所示。从图 3可以看出,CBOW在输入层Input layer中,乘以投影矩阵获得结果,而在隐藏层Hiddenlayer 中,将多个向量叠加合并为一个向量并输出。
Skip-gram模型使用当前词来预测上下文词汇,其具体结构如和图4所示。
本实施例保存训练得到的最新的语料模型作为短期模型,同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存,这样即可按照时间维度生成长期语料模型,该长期语料模型可供新的语料模型训练时被调用来提供历史先验知识,有助于提升模型训练的性能。距离当前时间第二时间内是指最近一段时间(如最近3天,最近一周等等)。第二时间可根据实际的需要预先设定或选取,如3天,一周,半个月等等。
进一步作为优选的实施方式,所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,还具体包括:
采用层次Softmax方法加速语料模型的训练过程。
具体地,本实施例采用层次Softmax方法加速语料模型的训练过程,如图5所示,具体实现过程包括:
1)将语料库词典中的每个词表示为高维向量;
2)采用层次Softmax方法(Hierarchical Softmax)来加速神经网络语言模型(即语料模型)。
3)对于每个词的词向量归一化降维后得出的一维数值表示每个词在句子中的联合概率函数。
4)同时学习词向量和联合概率函数参数。
层次Softmax的核心内容是哈夫曼树(Huffman Tree),如图6所示,树的核心概念是出现概率越高的符号使用较短的编码(层次越浅),出现概率低的符号则使用较长的编码(层次越深)。
本实施例可以采用层次Softmax方法加速语料模型的训练过程,有效提升了训练的效率。
进一步作为优选的实施方式,所述短期模型存储于短期语料库,所述长期语料模型存储于长期语料库,所述长期语料库由短期语料库组成。
具体地,长期语料库由多个短期语料库组成,二者的数据存储格式一样,区别在于长期语料库和短期语料库中语料的时间跨度不同导致得出的词向量结果不同。
本实施例通过将语料库划分为长期语料库和短期语料库,从而既能通过短期语料库存储和获取最新的语料内容来得到时下网络舆情的最新热点信息,又能通过长期语料库按时间维度来累积得到网络舆情的历史数据形成训练的先验知识,更加全面和高效。
进一步作为优选的实施方式,所述根据语料模型计算情感语料和目标关键词的距离这一步骤,具体为:
根据语料模型的词向量采用基于词典的方法计算情感语料和目标关键词的距离。
具体地,本实施例采用基于词典的方法来计算情感语料和目标关键词的高维距离,该距离反映了目标关键词与情感语料的相似度,该距离越近,相似度越高,属于该情感语料的可能性也越大。
进一步作为优选的实施方式,所述根据计算的距离计算目标关键词的情感值这一步骤,具体为:
对计算的距离进行降维处理和归一量化计算,得到目标关键词的情感值。
具体地,计算出目标关键词与情感语料的距离后,可通过降维处理和归一化处理得到目标关键词的情感值,从而将网络舆情情感态势量化为直观数值,更加精准。
针对现有情感分析方法分析结果不准确、不直观和需要人工成本的问题,本发明具体实施例基于Word2vec神经网络算法与热点舆情监控技术,提出了一种新的网络舆情情感态势量化方案,以将舆情监测对象(如机构、企业、品牌、人物等)的情感值进行量化,反映当前舆论情况。该方案采用的是无监督学习的word2vec方法,其本质是利用CBOW或者Skip-gram算法获取训练集(即待量化的语料库)中每个单词的最优词向量。这些词向量已经包含了上下文的信息,而且数据规模与初始相比也得到较大压缩。该方案通过word2vec深度学习获得的词向量后,再利用基于词典的方法计算出目标关键词与情感词汇的距离,统计分析得出目标关键词的情感值。该方案结合全面覆盖且精准的信息采集模块,计算出的情感值可精确反映实时热点新闻。总体而言,该方案采用了经过调优的词向量为基准的分析方法,解决了忽略语境信息的局限性,大大压缩数据规模,并结合精准的数据采集模块,实现全自动舆情情感分析和量化。
如图7所示,该方案具体包括以下步骤:
a.初始化,载入自定义词库(包括文章、评论等文本语料内容,做好切词准备);
b.初始语料输入(即获取将要被处理的文本语料内容);
c.语料文本处理:包括切词、词性标记、过滤、去停用词、计算词频等;
d.语料模型训练:将新的多维词向量结果,加入短期语料库训练;
e.关键词输入:将监测对象的关键词加入计算;
f.关键词与情感语料距离计算:计算关键词到情感语料的高维距离;
g.距离结果处理(包括结果降维处理和归一量化计算),计算情感值;
h.输出结果数值。
其中,如图8所示,步骤d的语料模型训练的具体过程包括:
S1.加载语料模型:加载读取已有的长期语料模型;
S2.导入新语料库:导入时段周期内已经过切词过滤后的全量新语料库;
S3.训练语料模型:使用CBOW和Skip-gram方法训练语料模型;
S4.保存语料模型:根据时间维度保存最新的语料模型,同时将最近一段时间的多个语料模型合并计算为长期语料模型并保存;
S5.模型加载使用:加载最新的短期模型和长期模型,并提供调用服务。
与图1的方法相对应,本发明实施例还提供了一种网络舆情情感态势量化系统,包括:
第一获取模块,用于获取待量化的语料库;
训练模块,用于采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;
第二获取模块,用于获取网络舆情监测对象的关键词作为目标关键词;
距离计算模块,用于根据语料模型计算情感语料和目标关键词的距离;
情感值计算模块,用于根据计算的距离计算目标关键词的情感值。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
与图1的方法相对应,本发明实施例还提供了一种网络舆情情感态势量化系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如本发明所述的一种网络舆情情感态势量化方法。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于实现如图1所述的一种网络舆情情感态势量化方法。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种网络舆情情感态势量化方法,其特征在于:包括以下步骤:
获取待量化的语料库;
采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;
获取网络舆情监测对象的关键词作为目标关键词;
根据语料模型计算情感语料和目标关键词的距离;
根据计算的距离计算目标关键词的情感值。
2.根据权利要求1所述的一种网络舆情情感态势量化方法,其特征在于:所述获取待量化的语料库这一步骤,具体包括:
初始化,载入预设的词库;
从网络舆情的语料库中获取初始语料并输入;
对初始语料进行文本语料处理,所述文本语料处理包括切词、词性标记、过滤、去停用词和计算词频。
3.根据权利要求1所述的一种网络舆情情感态势量化方法,其特征在于:所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,具体包括:
导入第一时间内的新语料库;
根据导入的新语料库采用Word2vec神经网络算法的CBOW和Skip-gram方法训练语料模型;
保存最新的语料模型作为短期模型,同时将距离当前时间第二时间内的所有语料模型合并为长期语料模型并保存;
加载最新的短期模型和长期模型。
4.根据权利要求3所述的一种网络舆情情感态势量化方法,其特征在于:所述采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型这一步骤,还具体包括:
采用层次Softmax方法加速语料模型的训练过程。
5.根据权利要求3所述的一种网络舆情情感态势量化方法,其特征在于:所述短期模型存储于短期语料库,所述长期语料模型存储于长期语料库,所述长期语料库由短期语料库组成。
6.根据权利要求1所述的一种网络舆情情感态势量化方法,其特征在于:所述根据语料模型计算情感语料和目标关键词的距离这一步骤,具体为:
根据语料模型的词向量采用基于词典的方法计算情感语料和目标关键词的距离。
7.根据权利要求1所述的一种网络舆情情感态势量化方法,其特征在于:所述根据计算的距离计算目标关键词的情感值这一步骤,具体为:
对计算的距离进行降维处理和归一量化计算,得到目标关键词的情感值。
8.一种网络舆情情感态势量化系统,其特征在于:包括:
第一获取模块,用于获取待量化的语料库;
训练模块,用于采用Word2vec神经网络算法对待量化的语料库进行词向量训练,得到用词向量表示的语料模型;
第二获取模块,用于获取网络舆情监测对象的关键词作为目标关键词;
距离计算模块,用于根据语料模型计算情感语料和目标关键词的距离;
情感值计算模块,用于根据计算的距离计算目标关键词的情感值。
9.一种网络舆情情感态势量化系统,其特征在于:包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7所述的一种网络舆情情感态势量化方法。
10.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7任一项所述的一种网络舆情情感态势量化方法。
CN201910411349.7A 2019-05-17 2019-05-17 一种网络舆情情感态势量化方法、系统及存储介质 Pending CN110263154A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411349.7A CN110263154A (zh) 2019-05-17 2019-05-17 一种网络舆情情感态势量化方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411349.7A CN110263154A (zh) 2019-05-17 2019-05-17 一种网络舆情情感态势量化方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN110263154A true CN110263154A (zh) 2019-09-20

Family

ID=67913271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411349.7A Pending CN110263154A (zh) 2019-05-17 2019-05-17 一种网络舆情情感态势量化方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110263154A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111107416A (zh) * 2019-12-16 2020-05-05 北京爱奇艺科技有限公司 一种弹幕屏蔽方法、装置及电子设备
CN111160037A (zh) * 2019-12-02 2020-05-15 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN111581982A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种基于本体的医疗纠纷案件舆情预警等级的预测方法
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112487188A (zh) * 2020-12-03 2021-03-12 中邮信息科技(北京)有限公司 一种舆情监测方法、装置、电子设备和存储介质
CN113505581A (zh) * 2021-07-27 2021-10-15 北京工商大学 基于apso-lstm网络的教育大数据文本分析方法
CN113569008A (zh) * 2021-07-20 2021-10-29 南京市栖霞区民政事务服务中心 一种基于社区治理数据的大数据分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN109558484A (zh) * 2018-10-24 2019-04-02 浙江华云信息科技有限公司 基于相似度词序矩阵的电力客服工单情感量化分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN109558484A (zh) * 2018-10-24 2019-04-02 浙江华云信息科技有限公司 基于相似度词序矩阵的电力客服工单情感量化分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
吴惠凡: "《新媒体环境下的政府新闻发布与舆论引导 问题、理念与机制》", 31 December 2018, 中国传媒大学出版社 *
梁翼园: "基于改进的Word2vec的评论情感倾向性分析", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
王名扬等: "结合word2vec与扩充情感词典的微博多元情感分类研究", 《东北师大学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160037A (zh) * 2019-12-02 2020-05-15 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN111107416A (zh) * 2019-12-16 2020-05-05 北京爱奇艺科技有限公司 一种弹幕屏蔽方法、装置及电子设备
CN111581982A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种基于本体的医疗纠纷案件舆情预警等级的预测方法
CN111581982B (zh) * 2020-05-06 2023-02-17 首都师范大学 一种基于本体的医疗纠纷案件舆情预警等级的预测方法
CN112115331A (zh) * 2020-09-21 2020-12-22 朱彤 基于分布式网络爬虫与nlp的资本市场舆情监测方法
CN112487188A (zh) * 2020-12-03 2021-03-12 中邮信息科技(北京)有限公司 一种舆情监测方法、装置、电子设备和存储介质
CN113569008A (zh) * 2021-07-20 2021-10-29 南京市栖霞区民政事务服务中心 一种基于社区治理数据的大数据分析方法及系统
CN113505581A (zh) * 2021-07-27 2021-10-15 北京工商大学 基于apso-lstm网络的教育大数据文本分析方法

Similar Documents

Publication Publication Date Title
CN110263154A (zh) 一种网络舆情情感态势量化方法、系统及存储介质
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN110853625A (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
Singh et al. Youtube comments sentiment analysis
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN107239455B (zh) 核心词识别方法及装置
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Spiccia et al. A word prediction methodology for automatic sentence completion
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
CN111368540A (zh) 一种基于语义角色分析的关键词信息抽取方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN109977397A (zh) 基于词性组合的新闻热点提取方法、系统及存储介质
CN115994544A (zh) 平行语料筛选方法、平行语料筛选设备和可读存储介质
Wang et al. Natural language processing systems and Big Data analytics
CN103119585B (zh) 知识获取装置及方法
CN115526176A (zh) 文本识别方法及装置、电子设备、存储介质
CN106681982B (zh) 英文长篇小说摘要生成方法
Altaf et al. Efficient natural language classification algorithm for detecting duplicate unsupervised features
Shih et al. Improved Rapid Automatic Keyword Extraction for Voice-based Mechanical Arm Control.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190920