CN109299277A - 舆情分析方法、服务器及计算机可读存储介质 - Google Patents

舆情分析方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN109299277A
CN109299277A CN201811389856.7A CN201811389856A CN109299277A CN 109299277 A CN109299277 A CN 109299277A CN 201811389856 A CN201811389856 A CN 201811389856A CN 109299277 A CN109299277 A CN 109299277A
Authority
CN
China
Prior art keywords
news
data
analysis
level
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811389856.7A
Other languages
English (en)
Inventor
任江涛
刘健诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201811389856.7A priority Critical patent/CN109299277A/zh
Publication of CN109299277A publication Critical patent/CN109299277A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情分析方法,包括以下步骤:根据一级标签获取一级数据,所述一级数据包括新闻数据以及所述新闻数据对应的评论数据;根据二级标签在所述一级数据中获取二级数据,并提取所述二级数据中的新闻要素;根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合;根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向。本发明还公开了一种服务器以及计算机可读存储介质。本发明实现准确获取热点事件的新闻数据以及评论数据,并准确分析所述热点事件的舆情的情感倾向。

Description

舆情分析方法、服务器及计算机可读存储介质
技术领域
本发明涉及数据处理分析技术领域,尤其涉及一种舆情分析方法、服务器以及计算机可读存储介质。
背景技术
随着移动互联网技术的不断发展,人们在移动互联网上获取资讯和信息变得愈发便捷,发表言论、评论的时间成本、操作成本和渠道成本也在不断降低,大大提高了人们输出观点的积极性。互联网上的各大新闻门户网站以及社交网络平台每天都产生海量的新闻资讯以及与新闻资讯相关联的评论,这些新闻资讯和评论构成了网络舆情分析的重要内容。
目前,网络舆情分析主要针对短文本,无法覆盖长文本新闻和评论,导致损失了大量以长文本形式呈现的舆情信息,难以形成更为全面和准确的舆情。
发明内容
本发明的主要目的在于提供一种舆情分析方法、服务器以及计算机可读存储介质,旨在准确获取热点事件的新闻数据以及评论数据,并准确分析所述热点事件的舆情的情感倾向。
为实现上述目的,本发明提供一种舆情分析方法,所述舆情分析方法包括以下步骤:
根据一级标签获取一级数据,所述一级数据包括新闻数据以及所述新闻数据对应的评论数据;
根据二级标签在所述一级数据中获取二级数据,并提取所述二级数据中的新闻要素,所述二级数据是根据所述二级标签对所述一级数据进行分类得到的数据,所述二级标签为所述一级标签的子标签;
根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合;
根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向。
可选的,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤包括:
根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合;
根据所述新闻要素在同一所述聚类集合中确定同一事件的所述新闻集合。
可选的,所述根据所述新闻要素在同一所述聚类集合中确定同一事件的所述新闻集合的步骤包括:
判断同一所述聚类集合的新闻数据在所述新闻要素上是否匹配;
在所述新闻数据在所述新闻要素上匹配时,将所述新闻数据作为同一事件的所述新闻集合。
可选的,所述根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合的步骤包括:
获取所述二级数据的新闻数据的聚类特征;
计算所述聚类特征的余弦相似度矩阵;
根据所述预设聚类算法对所述余弦相似度矩阵进行运算,得到多个所述聚类集合。
可选的,所述根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向的步骤包括:
根据所述新闻数据获取所述新闻数据的情感倾向;
根据所述评论数据获取所述评论数据的情感倾向;
根据所述新闻数据的情感倾向以及所述评论数据的情感倾向确定所述事件的舆情的情感倾向。
可选的,所述根据所述新闻数据获取所述新闻数据的情感倾向的步骤包括:
获取所述新闻数据的每个句子的情感倾向;
根据所述新闻数据中所有句子的情感倾向作为所述新闻数据的情感倾向。
可选的,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤之后,还包括:
根据所述新闻集合的新闻数据确定所述新闻集合的标题以及内容;
根据所述标题以及所述内容生成所述事件的新闻摘要。
可选的,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤之后,还包括:
获取所述新闻集合的评论数据的余弦相似度矩阵以及关键词;
根据预定聚类算法对所述余弦相似度矩阵进行运算,得到多个评论集合;
根据所述关键词与所述评论集合之间的余弦相似度确定所述评论集合的评论摘要。
为实现上述目的,本发明还提供一种服务器,所述服务器包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的舆情分析程序,所述舆情分析程序被所述处理器执行时实现上述舆情分析方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有舆情分析程序,所述舆情分析程序被处理器执行时实现上述舆情分析方法的步骤。
本发明提供的舆情分析方法、服务器以及计算机可读存储介质,通过一级标签获取一级数据,根据二级标签在一级数据中获取二级数据,并提取二级数据的新闻要素,根据新闻要素对二级数据进一步聚类生成同一事件的新闻集合,并对新闻集合的新闻数据以及评论数据进行舆情分析,实现准确获取事件的新闻数据以及评论数据,并准确分析事件的舆情的情感倾向。
附图说明
图1为本发明实施例方案涉及的终端的硬件运行环境示意图;
图2为本发明舆情分析方法第一实施例的流程示意图;
图3为本发明舆情分析方法第二实施例的流程示意图;
图4为本发明舆情分析方法第三实施例的流程示意图;
图5为本发明舆情分析方法第四实施例的流程示意图;
图6为本发明舆情分析方法第五实施例的流程示意图;
图7为本发明舆情分析方法第六实施例的流程示意图;
图8为本发明舆情分析方法第七实施例的流程示意图;
图9为本发明舆情分析方法第八实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种舆情分析方法,实现准确获取热点事件的新闻数据以及评论数据,并准确分析所述热点事件的舆情的情感倾向。
如图1所示,图1是本发明实施例方案涉及的终端的硬件运行环境示意图。
本发明实施例终端可以是服务器。
如图1所示,该终端可以包括:处理器1001,例如CPU,存储器1003,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端的结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1003中可以包括操作系统以及舆情分析程序。
在图1所示的终端中,处理器1001可以用于调用存储器1003中存储的舆情分析程序,并执行以下操作:
根据一级标签获取一级数据,所述一级数据包括新闻数据以及所述新闻数据对应的评论数据;
根据二级标签在所述一级数据中获取二级数据,并提取所述二级数据中的新闻要素,所述二级数据是根据所述二级标签对所述一级数据进行分类得到的数据,所述二级标签为所述一级标签的子标签;
根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合;
根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向。
进一步地,处理器1001可以调用存储器1003中存储的舆情分析程序,还执行以下操作:
根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合;
根据所述新闻要素在同一所述聚类集合中确定同一事件的所述新闻集合。
进一步地,处理器1001可以调用存储器1003中存储的舆情分析程序,还执行以下操作:
判断同一所述聚类集合的新闻数据在所述新闻要素上是否匹配;
在所述新闻数据在所述新闻要素上匹配时,将所述新闻数据作为同一事件的所述新闻集合。
进一步地,处理器1001可以调用存储器1003中存储的舆情分析程序,还执行以下操作:
获取所述二级数据的新闻数据的聚类特征;
计算所述聚类特征的余弦相似度矩阵;
根据所述预设聚类算法对所述余弦相似度矩阵进行运算,得到多个所述聚类集合。
进一步地,处理器1001可以调用存储器1003中存储的舆情分析程序,还执行以下操作:
根据所述新闻数据获取所述新闻数据的情感倾向;
根据所述评论数据获取所述评论数据的情感倾向;
根据所述新闻数据的情感倾向以及所述评论数据的情感倾向确定所述事件的舆情的情感倾向。
进一步地,处理器1001可以调用存储器1003中存储的舆情分析程序,还执行以下操作:
获取所述新闻数据的每个句子的情感倾向;
根据所述新闻数据中所有句子的情感倾向作为所述新闻数据的情感倾向。
进一步地,处理器1001可以调用存储器1003中存储的舆情分析程序,还执行以下操作:
根据所述新闻集合的新闻数据确定所述新闻集合的标题以及内容;
根据所述标题以及所述内容生成所述事件的新闻摘要。
进一步地,处理器1001可以调用存储器1003中存储的舆情分析程序,还执行以下操作:
获取所述新闻集合的评论数据的余弦相似度矩阵以及关键词;
根据预定聚类算法对所述余弦相似度矩阵进行运算,得到多个评论集合;
根据所述关键词与所述评论集合之间的余弦相似度确定所述评论集合的评论摘要。
参照图2,在第一实施例中,所述舆情分析方法包括:
步骤S10、根据一级标签获取一级数据,所述一级数据包括新闻数据以及所述新闻数据对应的评论数据;
本实施例中,一级数据包括新闻数据以及所述新闻数据对应的评论数据,所述一级数据的来源可以是新闻门户网站以及社交网络平台,比如腾讯新闻、网易新闻、新浪新闻、新浪微博、微信公众号等。
具体地,利用爬虫程序从新闻门户网站以及社交网络平台按照一级标签爬取新闻数据以及所述新闻数据下的评论数据,所述一级标签可以是“娱乐”、“体育”、“新闻”、“财经”、“科技”、“汽车”等。
在获取到一级数据后,根据所述一级数据构建原始数据库。所述原始数据库的框架参数至少包括新闻ID、新闻来源、新闻主题、新闻链接、新闻标题、新闻发表时间、新闻关键词、新闻描述、新闻作者、新闻内容、爬取时间以及新闻评论。
步骤S20、根据二级标签在所述一级数据中获取二级数据,并提取所述二级数据中的新闻要素,所述二级数据是根据所述二级标签对所述一级数据进行分类得到的数据,所述二级标签为所述一级标签的子标签;
本实施例中,二级标签为一级标签的子标签,比如,一级标签为“娱乐”,二级标签为“明星”、“电影”、“电视剧”、“综艺”等。根据二级标签对一级数据进一步分类细化,即所述二级数据是根据所述二级标签对所述一级数据进行分类得到的新闻数据以及评论数据。
具体地,利用文本分类模型获取二级数据,所述文本分类模型可以是TextCNN,所述文本分类模型的模型参数如下:
本实施例中,新闻要素至少包括新闻ID、新闻标题、新闻描述、新闻内容、组织机构、省份地点、城市地点以及人物等。具体地,利用命名实体识别技术对新闻数据中的新闻要素进行抽取并结构化。可采用BiLSTM+CRF模型进行新闻要素的抽取,模型参数如下:
参数名称 参数解释 参数数值
Embedding_dim 字向量维度 300
Drop_keep_prob Drop保留比例 0.5
Learning_rate 学习率 0.001
Hidden_dim 隐藏层神经元 300
Gradient_clipping 梯度裁剪 5.0
抽取新闻要素后的输出结果表设计如下:
字段 描述
Id 新闻id
Title 新闻标题
Description 新闻描述
Content 新闻内容
Organization 组织机构
Place-province 省份地点
Place-city 城市地点
People 人物
步骤S30、根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合;
本实施例中,采用基于机器学习的文本聚类算法对二级数据进行聚类,得到多个聚类集合。获取二级数据的新闻数据的聚类特征,并计算所述聚类特征的余弦相似度矩阵,根据预设聚类算法对余弦相似度矩阵进行运算,得到多个聚类集合。需要说明的是,所述聚类特征是用于对二级数据执行聚类操作的特征,比如,所述聚类特征可以是新闻标题。优选的,所述预设聚类算法为Affinity Propagation聚类算法。
具体地,利用分词工具(比如Jieba)对新闻数据进行分词,并且去除无语义信息的停用词;利用预设的语料训练词向量模型,获取所述新闻标题中各个词汇的向量表示,再计算新闻标题中各个词汇的TF-IDF值,两者相乘得到所述新闻标题的向量表示;计算各个新闻标题的余弦相似度得到余弦相似度矩阵;根据利用Affinity Propagation聚类算法对余弦相似度矩阵进行聚类,从而得到多个聚类集合。
具体地,在同一聚类集合中,根据新闻要素进一步筛选在新闻要素上相匹配的新闻数据,并将匹配的新闻数据作为新闻集合。优选的,将在新闻要素上存在完全重合或部分重合的新闻数据作为同一事件的新闻集合。
需要说明的是,在新闻集合的新闻数据的数量大于预设数量时,可视为热点事件,优选的,预设数量为1000。
步骤S40、根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向。
本实施例中,分别对新闻集合的新闻数据的情感倾向以及评论数据的情感倾向进行分析。可利用情感分类模型来分析新闻数据的情感倾向以及评论数据的情感倾向。情感分类模型将情感倾向分为Positive(积极)、Neutral(中性)、Negative(消极),分类粒度为一个句子。针对新闻数据,对新闻数据的每个句子进行分析,新闻数据的情感倾向根据所有句子的情感倾向来确定,比如,在大多数句子的情感倾向为积极时,那么该新闻数据的情感倾向判定为积极。针对短文本的评论数据,若评论数据只有一个句子,则评论数据的情感倾向根据该句的情感倾向来确定。以一个句子为例,情感分类模型的应用步骤如下:对文本进行分词;根据词向量,获取文本的向量表示;利用情感分类模型获取文本的情感倾向。
根据新闻集合中所有新闻数据的情感倾向以及所有评论数据的情感倾向确定事件的情感倾向。事件在新闻数据上的情感倾向可根据各个情感倾向下的新闻数据的数量来确定,比如积极的新闻数据的数量最多,那么事件在新闻数据上的情感倾向判定为积极;事件在评论数据上的情感倾向可根据各个情感倾向下的评论数据的数量来确定,比如消极的评论数据的数量最多,那么事件在评论数据上的情感倾向判定为消极。
在获取事件的舆情的情感倾向后,可输出至预设移动终端。具体地,可分别输出新闻数据的情感倾向以及评论数据的情感倾向,或者,综合新闻数据的情感倾向以及评论数据的情感倾向得到一个总的情感倾向,并输出总的情感倾向。输出方式可以是文字、图表、语音等,比如以扇形图的方式输出事件的舆情的情感倾向。
在第一实施例中,通过一级标签获取一级数据,根据二级标签在一级数据中获取二级数据,并提取二级数据的新闻要素,根据新闻要素对二级数据进一步聚类生成同一事件的新闻集合,并对新闻集合的新闻数据以及评论数据进行舆情分析,实现准确获取事件的新闻数据以及评论数据,并准确分析事件的舆情的情感倾向。
在第二实施例中,如图3所示,在上述图2所示的实施例基础上,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤包括:
步骤S31、根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合;
步骤S32、根据所述新闻要素在同一所述聚类集合中确定同一事件的所述新闻集合。
本实施例中,利用分词工具(比如Jieba)对新闻数据进行分词,并且去除无语义信息的停用词;利用预设的语料训练词向量模型,获取所述新闻标题中各个词汇的向量表示,再计算新闻标题中各个词汇的TF-IDF值,两者相乘得到所述新闻标题的向量表示;计算各个新闻标题的余弦相似度,得到余弦相似度矩阵;根据利用Affinity Propagation聚类算法对余弦相似度矩阵进行聚类,从而得到多个聚类集合。
在同一聚类集合中,根据新闻要素进一步筛选在新闻要素上相匹配的新闻数据,并将匹配的新闻数据作为新闻集合。优选的,将在新闻要素上存在完全重合或部分重合的新闻数据作为同一事件的新闻集合。
在第二实施例中,根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合;根据新闻要素在同一聚类集合中确定同一事件的新闻集合。这样,实现准确获取事件的新闻数据以及评论数据。
在第三实施例中,如图4所示,在上述图2至图3任一项所示的实施例基础,所述根据所述新闻要素在同一所述聚类集合中确定同一事件的所述新闻集合的步骤包括:
步骤S321、判断同一所述聚类集合的新闻数据在所述新闻要素上是否匹配;
步骤S322、在所述新闻数据在所述新闻要素上匹配时,将所述新闻数据作为同一事件的所述新闻集合。
本实施例中,在同一聚类集合中,根据新闻要素进一步筛选在新闻要素上相匹配的新闻数据,并将匹配的新闻数据作为新闻集合。优选的,将在新闻要素上存在完全重合或部分重合的新闻数据作为同一事件的新闻集合。部分重合的比例可根据实际应用进行设置,本发明不做具体限定。
在第三实施例中,判断同一聚类集合的新闻数据在新闻要素上是否匹配,若匹配,将新闻数据作为同一事件的新闻集合。这样,实现准确获取事件的新闻数据以及评论数据。
在第四实施例中,如图5所示,在上述图2至图4任一项所示的实施例基础上,所述根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合的步骤包括:
步骤S311、获取所述二级数据的新闻数据的聚类特征;
步骤S312、计算所述聚类特征的余弦相似度矩阵;
步骤S313、根据所述预设聚类算法对所述余弦相似度矩阵进行运算,得到多个所述聚类集合。
本实施例中,所述聚类特征为新闻标题,所述预设聚类算法为AffinityPropagation聚类算法。具体地,利用分词工具(比如Jieba)对新闻数据进行分词,并且去除无语义信息的停用词;利用预设的语料训练词向量模型,获取所述新闻标题中各个词汇的向量表示,再计算新闻标题中各个词汇的TF-IDF值,两者相乘得到所述新闻标题的向量表示;计算各个新闻标题的余弦相似度,得到余弦相似度矩阵;根据利用AffinityPropagation聚类算法对余弦相似度矩阵进行聚类,从而得到多个聚类集合。
在第四实施例中,对二级数据的新闻数据的聚类特征的余弦相似度矩阵进行运算,得到多个所述聚类集合,这样,实现对二级数据的聚类。
在第五实施例中,如图6所示,在上述图2至图5任一项所示的实施例基础上,所述根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向的步骤包括:
步骤S41、根据所述新闻数据获取所述新闻数据的情感倾向;
步骤S42、根据所述评论数据获取所述评论数据的情感倾向;
步骤S43、根据所述新闻数据的情感倾向以及所述评论数据的情感倾向确定所述事件的舆情的情感倾向。
本实施例中,分别对新闻集合的新闻数据的情感倾向以及评论数据的情感倾向进行分析。可利用情感分类模型来分析新闻数据的情感倾向以及评论数据的情感倾向。情感分类模型将情感倾向分为Positive(积极)、Neutral(中性)、Negative(消极),分类粒度为一个句子。针对新闻数据,对新闻数据的每个句子进行分析,新闻数据的情感倾向根据所有句子的情感倾向来确定,比如,在大多数句子的情感倾向为积极时,那么该新闻数据的情感倾向判定为积极。针对短文本的评论数据,若评论数据只有一个句子,则评论数据的情感倾向根据该句的情感倾向来确定。以一个句子为例,情感分类模型的应用步骤如下:对文本进行分词;根据词向量,获取文本的向量表示;利用情感分类模型获取文本的情感倾向。
根据新闻集合中所有新闻数据的情感倾向以及所有评论数据的情感倾向确定事件的情感倾向。事件在新闻数据上的情感倾向可根据各个情感倾向下的新闻数据的数量来确定,比如积极的新闻数据的数量最多,那么事件在新闻数据上的情感倾向判定为积极;事件在评论数据上的情感倾向可根据各个情感倾向下的评论数据的数量来确定,比如消极的评论数据的数量最多,那么事件在评论数据上的情感倾向判定为消极。
在第五实施例中,根据新闻数据的情感倾向以及评论数据的情感倾向确定事件的舆情的情感倾向,这样,根据热点事件的新闻数据以及评论数据准确分析舆情的情感倾向。
在第六实施例中,如图7所示,在上述图2至图6任一项所示的实施例基础上,所述根据所述新闻数据获取所述新闻数据的情感倾向的步骤包括:
步骤S411、获取所述新闻数据的每个句子的情感倾向;
步骤S412、根据所述新闻数据中所有句子的情感倾向作为所述新闻数据的情感倾向。
本实施例中,分别对新闻集合的新闻数据的情感倾向以及评论数据的情感倾向进行分析。可利用情感分类模型来分析新闻数据的情感倾向以及评论数据的情感倾向。情感分类模型将情感倾向分为Positive(积极)、Neutral(中性)、Negative(消极),分类粒度为一个句子。针对新闻数据,对新闻数据的每个句子进行分析,新闻数据的情感倾向根据所有句子的情感倾向来确定,比如,在大多数句子的情感倾向为积极时,那么该新闻数据的情感倾向判定为积极。针对短文本的评论数据,若评论数据只有一个句子,则评论数据的情感倾向根据该句的情感倾向来确定。以一个句子为例,情感分类模型的应用步骤如下:对文本进行分词;根据词向量,获取文本的向量表示;利用情感分类模型获取文本的情感倾向。
在第六实施例中,通过分析句子的情感倾向获取新闻数据以及评论数据的情感倾向,这样,实现准确分析事件的舆情的情感倾向。
在第七实施例中,如图8所示,在上述图2至图7任一项所示的实施例基础上,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤之后,还包括:
步骤S50、根据所述新闻集合的新闻数据确定所述新闻集合的标题以及内容;
步骤S60、根据所述标题以及所述内容生成所述事件的新闻摘要。
本实施例中,在新闻集合的新闻数据的数量大于预设数量时,可视为热点事件,优选的,预设数量为1000。选取新闻集合中某个新闻数据的标题作为新闻集合的标题,选取该新闻数据的内容作为新闻集合的内容,选取的新闻数据可以是新闻集合中的第一条新闻数据。
需要说明的是,在进行下一轮热点事件提取之前,将新爬取的新闻与热点事件进行相似度比较,当相似度高于预定阈值时,将新爬取的新闻归为同类热点事件。具体地,计算热点事件的标题与新爬取新闻的标题的词向量的余弦相似度;计算热点事件的标题与新爬取新闻的标题的编辑距离;获取余弦相似度与编辑距离的加权平均结果,若加权平均结果大于预定阈值,则将新爬取的新闻归为同类热点事件,所述预定阈值可以是0.8。
在获取了事件的新闻摘要后,可对用户进行推送,优选的,推送至预设移动终端。
在第七实施例中,生成事件的新闻摘要,以在向用户推送事件时,用户可以快捷了解事件内容。
在第八实施例中,如图9所示,在上述图2至图8任一项所示的实施例基础上,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤之后,还包括:
步骤S70、获取所述新闻集合的评论数据的余弦相似度矩阵以及关键词;
步骤S80、根据预定聚类算法对所述余弦相似度矩阵进行运算,得到多个评论集合;
步骤S90、根据所述关键词与所述评论集合之间的余弦相似度确定所述评论集合的评论摘要。
本实施例中,预定聚类算法可以是k-Means聚类算法。从网上获取公开的、高质量的词向量,并基于此词向量获取同一新闻集合的评论数据的向量表示;根据评论数据的向量表示计算各个评论数据之间的余弦相似度,得到余弦相似度矩阵;根据k-Means聚类算法对余弦相似度矩阵进行运算,得到多个评论集合。
可利用Textrank算法提取同一评论集合的评论数据的关键词。计算关键词与所述评论集合的各条评论数据之间的余弦相似度,将余弦相似度最高的评论数据作为评论集合的评论摘要。
在获取了各个评论集合的评论摘要后,可对用户进行推送,也可结合新闻摘要对用户进行推送,优选的,推送至预设移动终端。
在第八实施例中,生成评论摘要,以在向用户推送事件时,用户可以快捷了解事件的舆论情况。
此外,本发明还提出一种服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的舆情分析程序,所述处理器执行所述舆情分析程序时实现如上述服务器为执行主体下的所述舆情分析方法的步骤。
此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质包括舆情分析程序,所述舆情分析程序被处理器执行时实现如上述服务器为执行主体下的所述舆情分析方法的步骤。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是电视机,手机,计算机,服务器,空气调节器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种舆情分析方法,其特征在于,所述舆情分析方法包括以下步骤:
根据一级标签获取一级数据,所述一级数据包括新闻数据以及所述新闻数据对应的评论数据;
根据二级标签在所述一级数据中获取二级数据,并提取所述二级数据中的新闻要素,所述二级数据是根据所述二级标签对所述一级数据进行分类得到的数据,所述二级标签为所述一级标签的子标签;
根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合;
根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向。
2.如权利要求1所述的舆情分析方法,其特征在于,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤包括:
根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合;
根据所述新闻要素在同一所述聚类集合中确定同一事件的所述新闻集合。
3.如权利要求2所述的舆情分析方法,其特征在于,所述根据所述新闻要素在同一所述聚类集合中确定同一事件的所述新闻集合的步骤包括:
判断同一所述聚类集合的新闻数据在所述新闻要素上是否匹配;
在所述新闻数据在所述新闻要素上匹配时,将所述新闻数据作为同一事件的所述新闻集合。
4.如权利要求2所述的舆情分析方法,其特征在于,所述根据预设聚类算法对所述二级数据进行运算,得到多个聚类集合的步骤包括:
获取所述二级数据的新闻数据的聚类特征;
计算所述聚类特征的余弦相似度矩阵;
根据所述预设聚类算法对所述余弦相似度矩阵进行运算,得到多个所述聚类集合。
5.如权利要求1所述的舆情分析方法,其特征在于,所述根据所述新闻集合的新闻数据以及所述新闻数据对应的评论数据确定所述事件的舆情的情感倾向的步骤包括:
根据所述新闻数据获取所述新闻数据的情感倾向;
根据所述评论数据获取所述评论数据的情感倾向;
根据所述新闻数据的情感倾向以及所述评论数据的情感倾向确定所述事件的舆情的情感倾向。
6.如权利要求5所述的舆情分析方法,其特征在于,所述根据所述新闻数据获取所述新闻数据的情感倾向的步骤包括:
获取所述新闻数据的每个句子的情感倾向;
根据所述新闻数据中所有句子的情感倾向作为所述新闻数据的情感倾向。
7.如权利要求1所述的舆情分析方法,其特征在于,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤之后,还包括:
根据所述新闻集合的新闻数据确定所述新闻集合的标题以及内容;
根据所述标题以及所述内容生成所述事件的新闻摘要。
8.如权利要求1所述的舆情分析方法,其特征在于,所述根据所述新闻要素对所述二级数据聚类生成同一事件的新闻集合的步骤之后,还包括:
获取所述新闻集合的评论数据的余弦相似度矩阵以及关键词;
根据预定聚类算法对所述余弦相似度矩阵进行运算,得到多个评论集合;
根据所述关键词与所述评论集合之间的余弦相似度确定所述评论集合的评论摘要。
9.一种服务器,其特征在于,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的舆情分析程序,所述舆情分析程序被所述处理器执行时实现如权利要求1至8中任一项所述的舆情分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有舆情分析程序,所述舆情分析程序被处理器执行时实现如权利要求1至8中任一项所述的舆情分析方法的步骤。
CN201811389856.7A 2018-11-20 2018-11-20 舆情分析方法、服务器及计算机可读存储介质 Pending CN109299277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811389856.7A CN109299277A (zh) 2018-11-20 2018-11-20 舆情分析方法、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811389856.7A CN109299277A (zh) 2018-11-20 2018-11-20 舆情分析方法、服务器及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109299277A true CN109299277A (zh) 2019-02-01

Family

ID=65143247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811389856.7A Pending CN109299277A (zh) 2018-11-20 2018-11-20 舆情分析方法、服务器及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109299277A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008390A (zh) * 2019-02-27 2019-07-12 深圳壹账通智能科技有限公司 应用程序的评估方法、装置、计算机设备及存储介质
CN110362987A (zh) * 2019-06-29 2019-10-22 南京理工大学 一种密码强度的轻量级评估算法
CN110414232A (zh) * 2019-06-26 2019-11-05 腾讯科技(深圳)有限公司 恶意程序预警方法、装置、计算机设备及存储介质
CN110489523A (zh) * 2019-07-31 2019-11-22 西安理工大学 一种基于网购评价的细粒度情感分析方法
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN111782907A (zh) * 2020-07-01 2020-10-16 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN114913012A (zh) * 2022-05-06 2022-08-16 刘星 一种基于人工智能的股票舆情监测方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012849A1 (en) * 2012-07-06 2014-01-09 Alexander Ulanov Multilabel classification by a hierarchy
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN106446189A (zh) * 2016-09-29 2017-02-22 广州艾媒数聚信息咨询股份有限公司 一种资讯推荐方法及系统
CN106934049A (zh) * 2017-03-16 2017-07-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140012849A1 (en) * 2012-07-06 2014-01-09 Alexander Ulanov Multilabel classification by a hierarchy
CN104598532A (zh) * 2014-12-29 2015-05-06 中国联合网络通信有限公司广东省分公司 一种信息处理方法及装置
CN106446189A (zh) * 2016-09-29 2017-02-22 广州艾媒数聚信息咨询股份有限公司 一种资讯推荐方法及系统
CN106934049A (zh) * 2017-03-16 2017-07-07 天闻数媒科技(北京)有限公司 一种新闻选题分析方法及装置
CN107908694A (zh) * 2017-11-01 2018-04-13 平安科技(深圳)有限公司 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
巫宗宾: "大数据在网络舆情分析中的应用研究", 《信息与电脑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008390A (zh) * 2019-02-27 2019-07-12 深圳壹账通智能科技有限公司 应用程序的评估方法、装置、计算机设备及存储介质
CN110414232A (zh) * 2019-06-26 2019-11-05 腾讯科技(深圳)有限公司 恶意程序预警方法、装置、计算机设备及存储介质
CN110362987A (zh) * 2019-06-29 2019-10-22 南京理工大学 一种密码强度的轻量级评估算法
CN110489523A (zh) * 2019-07-31 2019-11-22 西安理工大学 一种基于网购评价的细粒度情感分析方法
CN110489523B (zh) * 2019-07-31 2021-12-17 西安理工大学 一种基于网购评价的细粒度情感分析方法
CN110516067A (zh) * 2019-08-23 2019-11-29 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN110516067B (zh) * 2019-08-23 2022-02-11 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN111782907A (zh) * 2020-07-01 2020-10-16 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN111782907B (zh) * 2020-07-01 2024-03-01 北京知因智慧科技有限公司 新闻分类方法、装置及电子设备
CN113689299A (zh) * 2021-05-10 2021-11-23 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN113689299B (zh) * 2021-05-10 2023-10-20 深圳价值在线信息科技股份有限公司 新闻信息指数模型的构建方法及新闻信息分析方法
CN114913012A (zh) * 2022-05-06 2022-08-16 刘星 一种基于人工智能的股票舆情监测方法和系统

Similar Documents

Publication Publication Date Title
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN108536681B (zh) 基于情感分析的智能问答方法、装置、设备及存储介质
CN108959270B (zh) 一种基于深度学习的实体链接方法
CN104915446B (zh) 基于新闻的事件演化关系自动提取方法及其系统
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN110309114B (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN113094552A (zh) 视频模板的搜索方法、装置、服务器及可读存储介质
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN109325124B (zh) 一种情感分类方法、装置、服务器和存储介质
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN109949799B (zh) 一种语义解析方法及系统
CN112015928B (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN107203520A (zh) 酒店情感词典的建立方法、评论的情感分析方法及系统
CN107665188B (zh) 一种语义理解方法及装置
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN111506794A (zh) 一种基于机器学习的谣言管理方法和装置
Thorogood et al. Computationally Created Soundscapes with Audio Metaphor.
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
CN111199151A (zh) 数据处理方法、及数据处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201