CN110162626A - 一种基于双向lstm的舆情情感热度熵的计算方法 - Google Patents
一种基于双向lstm的舆情情感热度熵的计算方法 Download PDFInfo
- Publication number
- CN110162626A CN110162626A CN201910344893.4A CN201910344893A CN110162626A CN 110162626 A CN110162626 A CN 110162626A CN 201910344893 A CN201910344893 A CN 201910344893A CN 110162626 A CN110162626 A CN 110162626A
- Authority
- CN
- China
- Prior art keywords
- text information
- term vector
- information
- emotion
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于双向LSTM的舆情情感热度熵的计算方法,包括以下步骤:数据采集:采集在线上发布的文本信息及所述文本信息的动态信息;数据预处理:提炼所述文本信息的文字内容,得到预处理后的文本信息;统计各文本信息的动态信息;输出词向量表达:将所述预处理后的文本信息,代入Word2vec模型生成词向量表达;处理文本的词向量表达,得到情感系数:将所述文本信息的词向量表达代入BILSTM模型输出情感系数E;情感热度熵输出:根据情感系数E和舆情热度数据得出情感热度熵。本发明的目的在于通过结合Word2vec词向量表示、双向LSTM情感分析、信息熵技术的特点和优势,挖掘网络舆情热度及大众情感倾向的特征,为相关部门掌握网络舆情发展动态、引导舆情走向提供依据。
Description
技术领域
本发明涉及一种舆情情感热度熵的计算方法,具体涉及一种基于双向LSTM的舆情情感热度熵的计算方法,属于网络舆论监管领域。
背景技术
随着互联网的普及,我国的互联网上的信息呈现爆炸式增长形成网络舆情。微博作为中国最大的信息分享、传播以及获取平台已经成为当代网络舆情传播的主要载体。通过微博舆情分析可以快速获取民众对某舆情事件的情感及关注程度,进而为相关部门舆情监控提供决策支持。但是,目前的舆情分析方法没有将舆情热度的分析和舆情情感分析有效融合,没有直观的舆情事件影响力分析的量化方法。要解决这一问题,主要考虑到舆情分析中遇到的几个问题:一、微博数据大规模获取;二、微博文本数据的序列化表示;三、文本情感分类;四、微博舆情影响力合适的量化表示方法。
虽然微博官方提供了一些API数据接口,可免费获取微博数据,但是因微博平台不是完全开放的,所以对用户的访问会有所限制,采用API数据接口只适合爬取少量数据的应用场景,若需要大规模的数据,需另辟蹊径。
随着近年来各种深度神经网络的快速发展,卷积神经网络、生成对抗网络等应用于其他领域的神经网络模型也被尝试着用于自然语言处理,并取得了一定的效果。本发明提出了使用双向长短期记忆神经网络结构,实现微博文本情感分类。计算微博舆情情感系数。
词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
熵的概念来自于热力学,是评估系统状态不确定性的一种指标。在信息论理论中信息熵的描述:一个事件信息量的大小与该信息发生的概率呈反比。结合熵的概念,将舆情情感系数与热度系数结合。
因此,如何提供一种基于双向LSTM的舆情情感热度熵的计算方法,能够有效的挖掘网络舆情热度及大众情感倾向的特征,为相关部门掌握网络舆情发展动态、引导舆情走向提供依据。已成为所述领域技术人员亟待解决的技术问题。
发明内容
针对上述现有技术的不足,本发明的目的在于通过结合Word2vec词向量表示、双向LSTM情感分析、信息熵技术的特点和优势,挖掘网络舆情热度及大众情感倾向的特征,为相关部门掌握网络舆情发展动态、引导舆情走向提供依据。本发明提供一种基于双向LSTM的舆情情感热度熵的计算方法,包括以下步骤:1)采集在线上发布的文本信息(例如:微博)及所述文本信息的动态信息。2)提炼所述文本信息的文字内容,得到预处理后的文本信息。统计各文本信息的动态信息,得到舆情热度数据。3)将所述预处理后的文本信息,代入预先训练过的Word2vec模型生成词向量表达。4)将所述文本信息的词向量表达代入预先训练过的BILSTM(双向长短时记忆网络)模型对词向量进行情感分类,并输出情感系数E。5)根据情感系数E和舆情热度数据得出情感热度熵。
根据本发明的实施方案,提供一种基于双向LSTM的舆情情感热度熵的计算方法:
一种基于双向LSTM的舆情情感热度熵的计算方法,包括以下步骤:
1)数据采集:采集在线上发布的文本信息及所述文本信息的动态信息。
2)数据预处理:提炼所述文本信息的文字内容,得到预处理后的文本信息。统计各文本信息的动态信息,得到舆情热度数据。
3)输出词向量表达:将所述预处理后的文本信息,代入预先训练过的Word2vec模型生成词向量表达。
4)处理文本的词向量表达,得到情感系数:将所述文本信息的词向量表达代入预先训练过的BILSTM模型对词向量进行情感分类,并输出情感系数E。
5)情感热度熵输出:根据情感系数E和舆情热度数据得出情感热度熵。
作为优选,步骤1)中的动态信息包括:所述文本信息的发布量A、转发量B、评论量C、点赞量D。
作为优选,所述动态信息以天为单位进行统计。
作为优选,在线上发布的文本信息为微博上发布的文本信息。
作为优选,所述文本信息的情感热度熵的计算公式为:
其中,E为文本信息的情感系数。
作为优选,步骤3)中,预先训练过的Word2vec模型的预先训练方法为:将维基百科公开中文文本数据集作为训练集代入Word2vec模型中,通过分布式词向量表示方法构建预先训练过的Word2vec模型,并生成词向量列表。
作为优选,预先训练过的Word2vec模型输出的词向量维度size设置为200。采用skip-gram算法。窗口大小设置为5。
作为优选,步骤4)中,预先训练过的BILSTM模型的预先训练方法为:将COAE2012、COAE2013微博情感分析数据作为模型训练数据代入BILSTM模型中训练,从而得到预先训练过的BILSTM模型。
作为优选,模型训练数据包括:M%的情感倾向为正面类别的样本、N%的情感倾向为负面类别的样本、O%的情感倾向为中性类别的样本,M为10-50,N为10-50,O为20-80。优选M为20-40,N为20-40,O为20-60。更优选M为30-40,N为30-40,O为20-40。
作为优选,步骤4)具体为:
a:在嵌入层中,将文本信息嵌入BILSTM模型:利用Word2vec模型训练过程中生成的词向量列表,在词向量列表中搜索所述文本信息的各个词语所对应的词向量,并将该词向量与文本信息中的词语合并,生成带词向量的文本信息。作为优选,输入文本信息或词向量的序列长度为D,序列长度不足D的文本信息或词向量的空余部分用0填充,序列长度超过D的文本信息或词向量的超出部分截断,D为30-200。优选D为50-150。更优选D为80-100。
b:在双向LSTM层中,构造正向LSTM神经网络和反向LSTM神经网络。正向LSTM神经网络按照从头到尾的顺序读取完整的带词向量的文本信息并输出多个正向文本信息向量特征。反向LSTM神经网络按照从尾到头的顺序读取完整的带词向量的文本信息并输出多个反向文本信息向量特征。
c:在聚合层中,将双向LSTM层得到的正向文本信息向量特征和反向文本信息向量特征,根据带词向量的文本信息的顺序,逐个拼接成带词向量特征的文本信息块。
d:在最大池化层中,对聚合层中的带词向量特征的文本信息块进行最大池化操作,从而得到多个显著向量特征组。
e:在全连接层中,将多个显著向量特征组汇聚为最终用于情感分类的深度词向量特征组。
f:在分类器Softmax层中,通过Softmax分类器对深度词向量特征组进行处理,判别深度词向量特征组中各个词向量特征的情感极性,并进行情感极性统计,输出每个文本信息的情感系数E。
作为优选,步骤f)中,所述情感极性分为:正面、中性、负面。在情感极性统计中将情感极性为正面的词向量特征记为1分,将情感极性为中性的词向量特征记为0分,将情感极性为负面的词向量特征记为-1分。再将上述分数带入情感系数E公式中:
其中,n为该文本信息对应的深度词向量特征组中词向量特征的个数,ei为第i个词向量特征的情感极性分数。
作为优选,步骤1)中,采集在线上发布的文本信息及所述文本信息的动态信息的方法步骤为:
a)统计网页信息:将待抓取的网页的URL整理成待处理URL列表。
b)网页信息抓取:Spider模块逐个抓取待处理URL列表中各个URL的文本信息和文本动态信息。
c)问题URL暂存:将需要继续爬取的URL保存到待下载的Request队列中,等待Spider模块继续抓取。
d)网页信息存储:Spider模块将抓取到的文本信息和文本的动态信息按照文本信息分组,存入到本地的MongoDB数据库。
e)重复步骤b)-d),完成待处理URL列表中所有URL的网页信息抓取。
作为优选,在步骤b)中,Spider模块通过回调函数中对响应的网页进行抓取。Spider模块通过调度函数对Request队列的网页进行抓取。
作为优选,在步骤2)中所述得到预处理后的文本信息具体为:
a)基于分词工具对每一个文本信息进行分词,得到分词词组。
b)基于停用词表对分词词组进行去停用词处理,得到去停词处理后的词组。
c)参照正则表达式,删除去停词处理后的词组中的特定术语缩写字符串、用户昵称字符串、URL字符串、标点符号字符串、表情符号字符串,得到预处理后的文本信息。
在本发明中,通过数据采集线上发布的文字信息和文字信息的动态信息,如微博等。将文字信息进行预处理,提炼文字信息的文字内容,得到预处理后的文本信息。对文字信息的动态信息进行统计输出舆情热度数据,如统计微博的发布量A、转发量B、评论量C及点赞量D。动态信息的热情热度数据越大,说明该文本信息传播得越广。针对预处理后的文本信息,带入预先训练过的Word2vec模型生成词向量表达。词向量表达包含文本信息的文字及关系特征等词向量。再将词向量表达带入预先训练过的BILSTM(双向长短时记忆网络)模型,对词向量表达中各个词向量进行情感分类,和统计得分,从而输出文本信息的情感系数E。情感系数E从整体向体现了该文本信息的正面、负面或中性的情感。最后将情感系数E与舆情热度数据结合得出该条文本的情感热度熵。这个情感情感热度熵以情感系数E作为基础感情基调,以舆情热度数据来反映该基础感情基调的影响力。因此最终所得到的文本的情感热度熵,能够有效的挖掘网络舆情热度及大众情感倾向的特征,为相关部门掌握网络舆情发展动态、引导舆情走向提供依据。
需要说明的是,文本信息可以包括:用户发布的微博内容和该微博内容下的评论内容。文本信息可以单指用户发布的微博内容。文本信息也可以单指某微博内容下的评论内容。
在本发明中,文本信息的动态信息包括发布量A、转发量B、评论量C、点赞量D。通过系统的统计文本信息的发布量A、转发量B、评论量C、点赞量D,能够全面的了解该文本信息在互联网上的扩散程度。能够有效的体现该文本信息的热度。
在本发明中,所有的动态信息均以时间为单位进行统计和分类。从而能够监控和了解该条文本信息的扩散速度。优选的,动态信息可以是以分、时、天、周、月、年为时间单位进行统计。从而可以根究需求对文本信息的扩散速度进行了解。针对不同情感系数E的文本信息,可以采用不同的是时间单位进行统计。
需要进一步说明的是,随着时间的延长微博下的评论会越来越多,评论内容的情感会随着时间的推移而改变。那么文本信息的情感系数E,即评论内容的情感系数E的绝对值服从正态分布N(u,σ2),其中u为情感系数E的绝对值均值,σ为情感系数E的绝对值方差。
其中情感系数E的绝对值均值u的计算公式为:
情感系数E的绝对值方差σ的计算公式为:
当情感系数E的绝对值大于u+σ值时,表示该文本信息的情感处于强烈状态,需要重点关注,则在对该文本信息的跟踪统计时,以分为时间单位进行数据统计。若在三十分钟内该文本的动态信息存在爆发式增长的情况,说明该事件为网络的热点爆点,需要政府单位及时注意。
当情感系数E的绝对值处于【u-σ,u+σ】值域内时,表示该文本的情感处于较强烈状态,但仍需跟踪统计。可采用天、或周为时间单位,对该条文本进行跟踪。当该文本的动态信息数值,随着时间推移逐渐趋向于0,说明该文本信息失去热度,可以放弃跟踪。若该文本的动态信息数值,随着时间的推移一直保持比较高的值,说明该文本信息一直有人关注,说明该文本信息背后的问题和热点一直没有消除,需要政府部门进行人工判别。
当情感系数E的绝对值小于u-σ值时,表示该文本的情感处于不强烈状态,可以不进行跟踪统计。
需要说明的是,该方案还能深度的对动态信息进行分析。如具体的统计转发人的身份信息和地理信息,即可得出该文本信息具体在某个区域的扩张速度更快。如果在某一地区区域内的人转发量特别多,说明该文本信息是该区域的热点事件。如强拆,斗殴,医闹事件等。如果在职业领域的人转发量特别多,说明该文本信息是该领域的热点事件。如传销、违法销售等。政府部门需及时通知相关单位关注处理。
在本发明中,文本信息的情感热度熵的计算公式为:
取动态信息的倒数,能够将庞大的动态信息的变化范围汇总到【0,1】的区间内进行处理。在对动态信息的倒数进行对数运算,该对数运算是以10为底数的对数运算。能够准确地体现出,动态信息的倒数的值准确地平铺到Y轴的负轴上。由于对数函数的特性,其【0,1】区间内的函数的斜率大,即能够将标准值域【0,1】内的数值投影到,整个Y轴的负轴上。这样就能够对动态信息所体现的热度进行分级。即,取动态信息的倒数是将庞大的动态信息数据进行标准化运算,缩小的【0,1】的值域内。接着对动态信息的倒数进行对数运算,则将整个动态信息倒数的范围平铺在Y轴的负轴上,因为值域大能够更好的进行分级。从而能够对动态信息的热度进行标准化的分级。公式上的负号,将动态信息倒数的对数取正。使其成为增函数。更好地与情感系数E进行结合。能够单纯的反映出该文本信息的热度值。
在本申请中,预先训练过的Word2vec模型是通过维基百科公开中文文本数据集进行训练的,其能够既高效又有效的使Word2vec模型具有将文本信息转化成准确的词向量的能力。将预先训练过的Word2vec模型输出的词向量维度size设置为200。采用skip-gram算法。窗口大小设置为5。能够更有效的输出词向量表达。
在本申请中,预先训练过的BILSTM(双向长短时记忆网络)模型是通过COAE2012、COAE2013微博情感分析数据作为数据集进行训练,其能够使BILSTM(双向长短时记忆网络)模型快速的具有对词向量情感分类的判别能力。在COAE2012、COAE2013微博情感分析数据中选用M%作为情感倾向为正类别的样本,N%作为情感倾向为正类别的样本、O%作为情感倾向为正类别的样本。以此来对BILSTM(双向长短时记忆网络)模型进行训练和测试。具体的其中整体数据的80%用来进行训练,20%用来进行测试。
在本申请中,BILSTM(双向长短时记忆网络)模型的网络结构如下:
嵌入层,通过Word2vec对语料库的训练得到词向量列表,然后在词向量列表中搜索文本的各个词语所对应的词向量并将其合并。输入的文本序列长度(词向量序列个数)设定为80,不足80的用0填充,超过80的截断。
Bi-LSTM层,该层相当于特征抽取部分,通过构造两个LSTM神经网络来实现从两个相反的方向获取信息,更有利于从整体上捕捉句子的长依赖关系以及文本的深层语义表达,两个神经网络的输入一致。
聚合层:该层主要是将上一层得到的LSTM前向传播输出向量以及LSTM反向传播输出向量拼接起来。
最大池化层。该层主要进行最大池化操作以获取向量中最显著的特征值,在一定程度上降低了数据稀疏性对分类器性能的影响。同时由于每条输入文本包含的词语数量不一致,通过池化操作也可得到定长的特征向量。
全连接层:上述过程描述了双向LSTM的特征提取过程,而所有文本的特征会在全连接层汇聚为最终用于情感分类的深度词向量特征。
分类器Softmax层:通过Softmax分类器产生分类结果。全连接层输出的特征M会利用Softmax输出情感极性的判别类别(正面1、中性0、负面-1),且在训练过程中采用反向传播算法对网络中的参数进行梯度更新。
需要说明的是,正面词如:“好、美、帅、棒、爱等”,中性词如:“去、走、跑、购物、家、房间等”,负面词如:“狠、讨厌、艹、杀、炸、毒、砍等”。一句话包含多种情感极性的词,因此需要通过统计才能得出最能代表该文本信息的情感属性,即情感系数E。
在本申请中,情感系数E公式为:
情感系数E即为,将文本信息中各个词向量特征的情感进行判别计分求和,将求和除以总的词向量特征数,即可得到该文本信息的情感系数E。
在本申请中,通过网络爬虫技术获取网页上的文本信息和文本信息的动态信息。通过前期筛选,可以梳理出待抓取的网页的URL列表(具体网址列表),启动Spider模块对URL列表内的各个URL代表网页
进行信息抓取,Spider模块先将URL网页下载到缓存,在抓取文本信息及文本信息附带的动态信息。过程当中如遇到问题,如URL网页下载过慢,或网络连接不正常,则将需要继续抓取的URL网页的URL存入待下载的Request队列中,优先进行后续URL网页的抓取。待第一遍抓取结束后,再通过调度器调度Request队列中的URL下载URL网页进行抓取。直至将所有URL的网页信息全部抓取完毕。抓取到的文本信息和文本的动态信息按照文本信息分组,存入到本地的MongoDB数据库。
在本申请中,通过抓取得到的文本信息需要先进行预处理后,才能进行下一步的输出词向量表达。这一过程中,首先对文本信息进行分词,拆分出句子中的名词、动词、副词、形容词等。再根据停用词表进行停用词处理,即筛掉停用词。最后去除文本特定术语缩写、用户昵称、URL、标点符号、表情符号等字符串,得到预处理后的文本信息。
需要说明的是,停用词表为哈工大以及百度提供的停用词表。
在本申请中,BILSTM为双向长短时记忆网络,LSTM为长短时记忆网络。
与现有技术相比,本发明具有以下有益效果:
能够直观有效的挖掘网络舆情热度及大众情感倾向的特征,为相关部门掌握网络舆情发展动态、引导舆情走向提供依据。
附图说明
图1为本发明基于双向LSTM的舆情情感热度熵的计算方法的流程图;
图2为本发明采用Spider模块进行URL网页信息抓取的流程图;
图3为本发明BILSTM(双向长短时记忆网络)模型网络结构示意图。
具体实施方式
根据本发明的实施方案,提供一种基于双向LSTM的舆情情感热度熵的计算方法:
一种基于双向LSTM的舆情情感热度熵的计算方法,包括以下步骤:
1)数据采集:采集在线上发布的文本信息及所述文本信息的动态信息。
2)数据预处理:提炼所述文本信息的文字内容,得到预处理后的文本信息。统计各文本信息的动态信息,得到舆情热度数据。
3)输出词向量表达:将所述预处理后的文本信息,代入预先训练过的Word2vec模型生成词向量表达。
4)处理文本的词向量表达,得到情感系数:将所述文本信息的词向量表达代入预先训练过的BILSTM模型对词向量进行情感分类,并输出情感系数E。
5)情感热度熵输出:根据情感系数E和舆情热度数据得出情感热度熵。
作为优选,步骤1)中的动态信息包括:所述文本信息的发布量A、转发量B、评论量C、点赞量D。
作为优选,所述动态信息以天为单位进行统计。
作为优选,在线上发布的文本信息为微博上发布的文本信息。
作为优选,所述文本信息的情感热度熵的计算公式为:
其中,E为文本信息的情感系数。
作为优选,步骤3)中,预先训练过的Word2vec模型的预先训练方法为:将维基百科公开中文文本数据集作为训练集代入Word2vec模型中,通过分布式词向量表示方法构建预先训练过的Word2vec模型,并生成词向量列表。
作为优选,预先训练过的Word2vec模型输出的词向量维度size设置为200。采用skip-gram算法。窗口大小设置为5。
作为优选,步骤4)中,预先训练过的BILSTM模型的预先训练方法为:将COAE2012、COAE2013微博情感分析数据作为模型训练数据代入BILSTM模型中训练,从而得到预先训练过的BILSTM模型。
作为优选,模型训练数据包括:M%的情感倾向为正面类别的样本、N%的情感倾向为负面类别的样本、O%的情感倾向为中性类别的样本,M为10-50,N为10-50,O为20-80。优选M为20-40,N为20-40,O为20-60。更优选M为30-40,N为30-40,O为20-40。
作为优选,步骤4)具体为:
a:在嵌入层中,将文本信息嵌入BILSTM模型:利用Word2vec模型训练过程中生成的词向量列表,在词向量列表中搜索所述文本信息的各个词语所对应的词向量,并将该词向量与文本信息中的词语合并,生成带词向量的文本信息。作为优选,输入文本信息或词向量的序列长度为D,序列长度不足D的文本信息或词向量的空余部分用0填充,序列长度超过D的文本信息或词向量的超出部分截断,D为30-200。优选D为50-150。更优选D为80-100。
b:在双向LSTM层中,构造正向LSTM神经网络和反向LSTM神经网络。正向LSTM神经网络按照从头到尾的顺序读取完整的带词向量的文本信息并输出多个正向文本信息向量特征。反向LSTM神经网络按照从尾到头的顺序读取完整的带词向量的文本信息并输出多个反向文本信息向量特征。
c:在聚合层中,将双向LSTM层得到的正向文本信息向量特征和反向文本信息向量特征,根据带词向量的文本信息的顺序,逐个拼接成带词向量特征的文本信息块。
d:在最大池化层中,对聚合层中的带词向量特征的文本信息块进行最大池化操作,从而得到多个显著向量特征组。
e:在全连接层中,将多个显著向量特征组汇聚为最终用于情感分类的深度词向量特征组。
f:在分类器Softmax层中,通过Softmax分类器对深度词向量特征组进行处理,判别深度词向量特征组中各个词向量特征的情感极性,并进行情感极性统计,输出每个文本信息的情感系数E。
作为优选,步骤f)中,所述情感极性分为:正面、中性、负面。在情感极性统计中将情感极性为正面的词向量特征记为1分,将情感极性为中性的词向量特征记为0分,将情感极性为负面的词向量特征记为-1分。再将上述分数带入情感系数E公式中:
其中,n为该文本信息对应的深度词向量特征组中词向量特征的个数,ei为第i个词向量特征的情感极性分数。
作为优选,步骤1)中,采集在线上发布的文本信息及所述文本信息的动态信息的方法步骤为:
a)统计网页信息:将待抓取的网页的URL整理成待处理URL列表。
b)网页信息抓取:Spider模块逐个抓取待处理URL列表中各个URL的文本信息和文本动态信息。
c)问题URL暂存:将需要继续爬取的URL保存到待下载的Request队列中,等待Spider模块继续抓取。
d)网页信息存储:Spider模块将抓取到的文本信息和文本的动态信息按照文本信息分组,存入到本地的MongoDB数据库。
e)重复步骤b)-d),完成待处理URL列表中所有URL的网页信息抓取。
作为优选,在步骤b)中,Spider模块通过回调函数中对响应的网页进行抓取。Spider模块通过调度函数对Request队列的网页进行抓取。
作为优选,在步骤2)中所述得到预处理后的文本信息具体为:
a)基于分词工具对每一个文本信息进行分词,得到分词词组。
b)基于停用词表对分词词组进行去停用词处理,得到去停词处理后的词组。
c)参照正则表达式,删除去停词处理后的词组中的特定术语缩写字符串、用户昵称字符串、URL字符串、标点符号字符串、表情符号字符串,得到预处理后的文本信息。
实施例1
一种基于双向LSTM的舆情情感热度熵的计算方法,包括以下步骤:
1)数据采集:采集在线上发布的文本信息及所述文本信息的动态信息。
2)数据预处理:提炼所述文本信息的文字内容,得到预处理后的文本信息。统计各文本信息的动态信息,得到舆情热度数据。
3)输出词向量表达:将所述预处理后的文本信息,代入预先训练过的Word2vec模型生成词向量表达。
4)处理文本的词向量表达,得到情感系数:将所述文本信息的词向量表达代入预先训练过的BILSTM模型对词向量进行情感分类,并输出情感系数E。
5)情感热度熵输出:根据情感系数E和舆情热度数据得出情感热度熵。
实施例2
重复实施例1,只是步骤1)中的动态信息包括:所述文本信息的发布量A、转发量B、评论量C、点赞量D。所述动态信息以天为单位进行统计。在线上发布的文本信息为微博上发布的文本信息。
实施例3
重复实施例2,只是文本信息的情感热度熵的计算公式为:
其中,E为文本信息的情感系数。
实施例4
重复实施例3,只是步骤3)中,
步骤3)中,预先训练过的Word2vec模型的预先训练方法为:将维基百科公开中文文本数据集作为训练集代入Word2vec模型中,通过分布式词向量表示方法构建预先训练过的Word2vec模型,并生成词向量列表。预先训练过的Word2vec模型输出的词向量维度size设置为200。采用skip-gram算法。窗口大小设置为5。
实施例5
重复实施例4,只是步骤4)中,预先训练过的BILSTM模型的预先训练方法为:将COAE2012、COAE2013微博情感分析数据作为模型训练数据代入BILSTM模型中训练,从而得到预先训练过的BILSTM模型。模型训练数据包括:M%的情感倾向为正面类别的样本、N%的情感倾向为负面类别的样本、O%的情感倾向为中性类别的样本,M为20,N为20,O为60。
实施例6
重复实施例5,只是步骤4)具体为:
a:在嵌入层中,将文本信息嵌入BILSTM模型:利用Word2vec模型训练过程中生成的词向量列表,在词向量列表中搜索所述文本信息的各个词语所对应的词向量,并将该词向量与文本信息中的词语合并,生成带词向量的文本信息。作为优选,输入文本信息或词向量的序列长度为D,序列长度不足D的文本信息或词向量的空余部分用0填充,序列长度超过D的文本信息或词向量的超出部分截断,D为30-200。优选D为50-150。更优选D为80-100。
b:在双向LSTM层中,构造正向LSTM神经网络和反向LSTM神经网络。正向LSTM神经网络按照从头到尾的顺序读取完整的带词向量的文本信息并输出多个正向文本信息向量特征。反向LSTM神经网络按照从尾到头的顺序读取完整的带词向量的文本信息并输出多个反向文本信息向量特征。
c:在聚合层中,将双向LSTM层得到的正向文本信息向量特征和反向文本信息向量特征,根据带词向量的文本信息的顺序,逐个拼接成带词向量特征的文本信息块。
d:在最大池化层中,对聚合层中的带词向量特征的文本信息块进行最大池化操作,从而得到多个显著向量特征组。
e:在全连接层中,将多个显著向量特征组汇聚为最终用于情感分类的深度词向量特征组。
f:在分类器Softmax层中,通过Softmax分类器对深度词向量特征组进行处理,判别深度词向量特征组中各个词向量特征的情感极性,并进行情感极性统计,输出每个文本信息的情感系数E。
实施例7
重复实施例6,只是步骤f)中,所述情感极性分为:正面、中性、负面。在情感极性统计中将情感极性为正面的词向量特征记为1分,将情感极性为中性的词向量特征记为0分,将情感极性为负面的词向量特征记为-1分。再将上述分数带入情感系数E公式中:
其中,n为该文本信息对应的深度词向量特征组中词向量特征的个数,ei为第i个词向量特征的情感极性分数。
实施例8
重复实施例7,只是
步骤1)中,采集在线上发布的文本信息及所述文本信息的动态信息的方法步骤为:
a)统计网页信息:将待抓取的网页的URL整理成待处理URL列表。
b)网页信息抓取:Spider模块逐个抓取待处理URL列表中各个URL的文本信息和文本动态信息。
c)问题URL暂存:将需要继续爬取的URL保存到待下载的Request队列中,等待Spider模块继续抓取。
d)网页信息存储:Spider模块将抓取到的文本信息和文本的动态信息按照文本信息分组,存入到本地的MongoDB数据库。
e)重复步骤b)-d),完成待处理URL列表中所有URL的网页信息抓取。
实施例9
重复实施例8,只是在步骤b)中,Spider模块通过回调函数中对响应的网页进行抓取。Spider模块通过调度函数对Request队列的网页进行抓取。
实施例10
重复实施例9,只是在步骤2)中所述得到预处理后的文本信息具体为:
a)基于分词工具对每一个文本信息进行分词,得到分词词组。
b)基于停用词表对分词词组进行去停用词处理,得到去停词处理后的词组。
c)参照正则表达式,删除去停词处理后的词组中的特定术语缩写字符串、用户昵称字符串、URL字符串、标点符号字符串、表情符号字符串,得到预处理后的文本信息。
Claims (10)
1.一种基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:包括以下步骤:
1)数据采集:采集在线上发布的文本信息及所述文本信息的动态信息;
2)数据预处理:提炼所述文本信息的文字内容,得到预处理后的文本信息;统计各文本信息的动态信息,得到舆情热度数据;
3)输出词向量表达:将所述预处理后的文本信息,代入预先训练过的Word2vec模型生成词向量表达;
4)处理文本的词向量表达,得到情感系数:将所述文本信息的词向量表达代入预先训练过的BILSTM模型对词向量进行情感分类,并输出情感系数E;
5)情感热度熵输出:根据情感系数E和舆情热度数据得出情感热度熵。
2.根据权利要求1所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:步骤1)中的动态信息包括:所述文本信息的发布量A、转发量B、评论量C、点赞量D;作为优选,所述动态信息以天为单位进行统计;和/或
在线上发布的文本信息为微博上发布的文本信息。
3.根据权利要求2所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:所述文本信息的情感热度熵的计算公式为:
其中,E为文本信息的情感系数。
4.根据权利要求1-3中任一项所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:步骤3)中,预先训练过的Word2vec模型的预先训练方法为:将维基百科公开中文文本数据集作为训练集代入Word2vec模型中,通过分布式词向量表示方法构建预先训练过的Word2vec模型,并生成词向量列表;
作为优选,预先训练过的Word2vec模型输出的词向量维度size设置为200;采用skip-gram算法;窗口大小设置为5。
5.根据权利要求1-4中任一项所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:步骤4)中,预先训练过的BILSTM模型的预先训练方法为:将COAE2012、COAE2013微博情感分析数据作为模型训练数据代入BILSTM模型中训练,从而得到预先训练过的BILSTM模型;
作为优选,模型训练数据包括:M%的情感倾向为正面类别的样本、N%的情感倾向为负面类别的样本、O%的情感倾向为中性类别的样本,M为10-50,N为10-50,O为20-80;优选M为20-40,N为20-40,O为20-60;更优选M为30-40,N为30-40,O为20-40。
6.根据权利要求4或5中任一项所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:步骤4)具体为:
a:在嵌入层中,将文本信息嵌入BILSTM模型:利用Word2vec模型训练过程中生成的词向量列表,在词向量列表中搜索所述文本信息的各个词语所对应的词向量,并将该词向量与文本信息中的词语合并,生成带词向量的文本信息;作为优选,输入文本信息或词向量的序列长度为D,序列长度不足D的文本信息或词向量的空余部分用0填充,序列长度超过D的文本信息或词向量的超出部分截断,D为30-200;优选D为50-150;更优选D为80-100;
b:在双向LSTM层中,构造正向LSTM神经网络和反向LSTM神经网络;正向LSTM神经网络按照从头到尾的顺序读取完整的带词向量的文本信息并输出多个正向文本信息向量特征;反向LSTM神经网络按照从尾到头的顺序读取完整的带词向量的文本信息并输出多个反向文本信息向量特征;
c:在聚合层中,将双向LSTM层得到的正向文本信息向量特征和反向文本信息向量特征,根据带词向量的文本信息的顺序,逐个拼接成带词向量特征的文本信息块;
d:在最大池化层中,对聚合层中的带词向量特征的文本信息块进行最大池化操作,从而得到多个显著向量特征组;
e:在全连接层中,将多个显著向量特征组汇聚为最终用于情感分类的深度词向量特征组;
f:在分类器Softmax层中,通过Softmax分类器对深度词向量特征组进行处理,判别深度词向量特征组中各个词向量特征的情感极性,并进行情感极性统计,输出每个文本信息的情感系数E。
7.根据权利要求6所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:步骤f)中,所述情感极性分为:正面、中性、负面;在情感极性统计中将情感极性为正面的词向量特征记为1分,将情感极性为中性的词向量特征记为0分,将情感极性为负面的词向量特征记为-1分;再将上述分数带入情感系数E公式中:
其中,n为该文本信息对应的深度词向量特征组中词向量特征的个数,ei为第i个词向量特征的情感极性分数。
8.根据权利要求1-7中任一项所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:步骤1)中,采集在线上发布的文本信息及所述文本信息的动态信息的方法步骤为:
a)统计网页信息:将待抓取的网页的URL整理成待处理URL列表;
b)网页信息抓取:Spider模块逐个抓取待处理URL列表中各个URL的文本信息和文本动态信息;
c)问题URL暂存:将需要继续爬取的URL保存到待下载的Request队列中,等待Spider模块继续抓取;
d)网页信息存储:Spider模块将抓取到的文本信息和文本的动态信息按照文本信息分组,存入到本地的MongoDB数据库;
e)重复步骤b)-d),完成待处理URL列表中所有URL的网页信息抓取。
9.根据权利要求8所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:在步骤b)中,Spider模块通过回调函数中对响应的网页进行抓取;Spider模块通过调度函数对Request队列的网页进行抓取。
10.根据权利要求1-9中任一项所述的基于双向LSTM的舆情情感热度熵的计算方法,其特征在于:在步骤2)中所述得到预处理后的文本信息具体为:
a)基于分词工具对每一个文本信息进行分词,得到分词词组;
b)基于停用词表对分词词组进行去停用词处理,得到去停词处理后的词组;
c)参照正则表达式,删除去停词处理后的词组中的特定术语缩写字符串、用户昵称字符串、URL字符串、标点符号字符串、表情符号字符串,得到预处理后的文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910344893.4A CN110162626A (zh) | 2019-04-26 | 2019-04-26 | 一种基于双向lstm的舆情情感热度熵的计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910344893.4A CN110162626A (zh) | 2019-04-26 | 2019-04-26 | 一种基于双向lstm的舆情情感热度熵的计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110162626A true CN110162626A (zh) | 2019-08-23 |
Family
ID=67640212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910344893.4A Pending CN110162626A (zh) | 2019-04-26 | 2019-04-26 | 一种基于双向lstm的舆情情感热度熵的计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162626A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516166A (zh) * | 2019-08-30 | 2019-11-29 | 北京明略软件系统有限公司 | 舆情事件处理方法、装置、处理设备及存储介质 |
CN111259674A (zh) * | 2020-01-13 | 2020-06-09 | 济南浪潮高新科技投资发展有限公司 | 基于gan网络的文字校对和情感分析方法、设备及介质 |
CN111414475A (zh) * | 2020-03-03 | 2020-07-14 | 北京明略软件系统有限公司 | 文本情感信息的识别方法和装置 |
CN111506793A (zh) * | 2020-04-16 | 2020-08-07 | 上海浩方信息技术有限公司 | 基于情感挖掘实现能源电力舆情分析处理的方法 |
CN111694959A (zh) * | 2020-06-08 | 2020-09-22 | 谢沛然 | 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统 |
CN113626672A (zh) * | 2021-02-26 | 2021-11-09 | 新大陆数字技术股份有限公司 | 基于rcnn网络的舆情分析方法及系统 |
CN115688024A (zh) * | 2022-09-27 | 2023-02-03 | 哈尔滨工程大学 | 基于用户内容特征和行为特征的网络异常用户预测方法 |
CN115982473A (zh) * | 2023-03-21 | 2023-04-18 | 环球数科集团有限公司 | 一种基于aigc的舆情分析编排系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246463A1 (en) * | 2012-03-16 | 2013-09-19 | Microsoft Corporation | Prediction and isolation of patterns across datasets |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
CN109408633A (zh) * | 2018-09-17 | 2019-03-01 | 中山大学 | 一种多层注意力机制的循环神经网络模型的构建方法 |
-
2019
- 2019-04-26 CN CN201910344893.4A patent/CN110162626A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246463A1 (en) * | 2012-03-16 | 2013-09-19 | Microsoft Corporation | Prediction and isolation of patterns across datasets |
CN106126558A (zh) * | 2016-06-16 | 2016-11-16 | 东软集团股份有限公司 | 一种舆情监控方法及装置 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
CN109408633A (zh) * | 2018-09-17 | 2019-03-01 | 中山大学 | 一种多层注意力机制的循环神经网络模型的构建方法 |
Non-Patent Citations (1)
Title |
---|
任勉等: "基于双向LSTM模型的文本情感分类", 《计算机工程与设计》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516166A (zh) * | 2019-08-30 | 2019-11-29 | 北京明略软件系统有限公司 | 舆情事件处理方法、装置、处理设备及存储介质 |
CN111259674A (zh) * | 2020-01-13 | 2020-06-09 | 济南浪潮高新科技投资发展有限公司 | 基于gan网络的文字校对和情感分析方法、设备及介质 |
CN111259674B (zh) * | 2020-01-13 | 2023-07-25 | 山东浪潮科学研究院有限公司 | 基于gan网络的文字校对和情感分析方法、设备及介质 |
CN111414475A (zh) * | 2020-03-03 | 2020-07-14 | 北京明略软件系统有限公司 | 文本情感信息的识别方法和装置 |
CN111506793A (zh) * | 2020-04-16 | 2020-08-07 | 上海浩方信息技术有限公司 | 基于情感挖掘实现能源电力舆情分析处理的方法 |
CN111694959A (zh) * | 2020-06-08 | 2020-09-22 | 谢沛然 | 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统 |
CN113626672A (zh) * | 2021-02-26 | 2021-11-09 | 新大陆数字技术股份有限公司 | 基于rcnn网络的舆情分析方法及系统 |
CN115688024A (zh) * | 2022-09-27 | 2023-02-03 | 哈尔滨工程大学 | 基于用户内容特征和行为特征的网络异常用户预测方法 |
CN115982473A (zh) * | 2023-03-21 | 2023-04-18 | 环球数科集团有限公司 | 一种基于aigc的舆情分析编排系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162626A (zh) | 一种基于双向lstm的舆情情感热度熵的计算方法 | |
CN106598944B (zh) | 一种民航安保舆情情感分析方法 | |
Palangi et al. | Deep sentence embedding using long short-term memory networks: Analysis and application to information retrieval | |
Dunn et al. | Searchqa: A new q&a dataset augmented with context from a search engine | |
Ratkiewicz et al. | Detecting and tracking the spread of astroturf memes in microblog streams | |
JP5904559B2 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN103793503B (zh) | 一种基于web文本的观点挖掘与分类的方法 | |
CN109492157A (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN104991956B (zh) | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 | |
Yang et al. | Mave: A product dataset for multi-source attribute value extraction | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
JP6403382B2 (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
CN107220352A (zh) | 基于人工智能构建评论图谱的方法和装置 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN105630890B (zh) | 基于智能问答系统会话历史的新词发现方法及系统 | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
CN109635107A (zh) | 多数据源的语义智能分析及事件场景还原的方法及装置 | |
CN108536781A (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
Feng et al. | Analysis of the attention to COVID-19 epidemic based on visibility graph network | |
Abrigo et al. | A comparative analysis of N-Gram deep neural network approach to classifying human perception on Dengvaxia | |
Chansanam et al. | Thai Twitter sentiment analysis: Performance monitoring of politics in Thailand using text mining techniques | |
Zheng et al. | Architecture Descriptions Analysis Based on Text Mining and Crawling Technology | |
Risne et al. | Text summarization using transfer learnin: Extractive and abstractive summarization using bert and gpt-2 on news and podcast data | |
Chenxi et al. | Research on Post Earthquake Public Opinion Analysis Based on XLNet-BiGRU-A Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190823 |