CN109284432A - 基于大数据平台的网络舆情分析系统 - Google Patents

基于大数据平台的网络舆情分析系统 Download PDF

Info

Publication number
CN109284432A
CN109284432A CN201810961969.3A CN201810961969A CN109284432A CN 109284432 A CN109284432 A CN 109284432A CN 201810961969 A CN201810961969 A CN 201810961969A CN 109284432 A CN109284432 A CN 109284432A
Authority
CN
China
Prior art keywords
text
big data
module
public opinion
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810961969.3A
Other languages
English (en)
Inventor
佘平
徐逢澍
李程
张慧萍
刘立
李宁波
冯馨锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 32 Research Institute
Original Assignee
CETC 32 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 32 Research Institute filed Critical CETC 32 Research Institute
Priority to CN201810961969.3A priority Critical patent/CN109284432A/zh
Publication of CN109284432A publication Critical patent/CN109284432A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据平台的网络舆情分析系统,其特征在于,包括:采集存储层:对网页中的数据进行采集、存储至大数据数据库和索引构建;分析层:通过大数据内存计算框架对接大数据数据库中的数据进行舆情信息的分析;呈现层:呈现当前的舆情状态。本发明采用大数据思路来解决互联网中的舆情处理,可以满足海量舆情数据的存储,同时利用大数据在海量数据下的机器挖掘的能力,使得海量数据下舆情在自然语言处理,情感分析,热点事情提取更加精准。

Description

基于大数据平台的网络舆情分析系统
技术领域
本发明涉及数据处理领域,具体地,涉及基于大数据平台的网络舆情分析系统。
背景技术
随着互联网的高速发展,互联网中的信息在爆发式增长,传统的数据处理已经 不合适处理这样的数据。互联网环境下的网络舆情并不是网络世界中直接存在的数 据,而是通过相关技术从海量网络数据中经过提取并分析得来的结果。
采用大数据思路来解决互联网中的舆情处理是一种可行的思路,但是目前没有过相关的技术文献供参考。因此,提供一种基于大数据平台的网络舆情分析系统是 目前相关技术领域的研发方向。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于大数据平台的网络舆情分析系统。
根据本发明提供的一种基于大数据平台的网络舆情分析系统,包括:
采集存储层:对网页中的数据进行采集、存储至大数据数据库和索引构建;
分析层:通过大数据内存计算框架对接大数据数据库中的数据进行舆情信息的分析;
呈现层:呈现当前的舆情状态。
较佳的,所述采集存储层包括:
网络爬虫模块:采用网络爬虫对网页中的数据进行爬取;
数据存储模块:将爬取的数据存入大数据数据库;
索引构建模块:在存入数据的同时启动索引后端服务,按时间顺序进行数据库的舆 情内容访问,并根据内容进行倒排索引构建。
较佳的,所述网络爬虫模块在爬取的同时结合当前互联网搜索引擎的结果进行爬取 修正,不同的网站对象采用不同的网络爬虫模块进行爬取,爬取的结果以文本的方式统一存储到大数据数据库。
较佳的,所述数据存储模块以网页地址和时间戳组成主键,以网页内容为数据值,构建舆情原始内容数据集。
较佳的,所述分析层包括:
文本特征提取模块:对所述采集存储层采集到的数据进行解析梳理,得到文本特征 值;
文本分类模块:采用分类器,根据文本特征对网页内容进行分类;
热点聚类模块:对于当天各个类下的文本根据特征向量分别作K均值聚类,生成当日的热点事件,以各个类的质心作为整个热点的特征向量;
舆情热点分析模块:使用分类器对各个网页文本进行正负面分类,并对每个热点事 件进行统计,以描述热点事件整体情感倾向或敏感倾向;
热点事件态势预测模块:对热点事件再次进行聚类,以生成对各个热点事件基于时 间轴的摘要汇总,对事件的情感倾向或敏感倾向进行线性回归预测。
较佳的,所述文本特征提取模块包括:
文本清洗:对html源网页进行去标签化处理,提取网页中的中英文文本内容,并对gbk、gb2312编码的中文做内码转换,统一成utf8编码;
文本分词:通过词库,对文本进行分词;
文本特征提取:计算文本中各个词语的TF-IDF值,对网页文本构建词频特征向量,并将特征值存储于大数据数据库。
较佳的,所述文本分类模块采用朴素贝叶斯分类器进行分类。
较佳的,所述K均值聚类对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
较佳的,所述舆情热点分析模块使用支持向量机分类器对各个网页文本进行正负面 分类。
较佳的,所述呈现层包括:
-根据用户的关键字进行定向爬取和呈现;
-搜索指定的网页内容;
-通过关键字进行舆情报告分析;
-对当前爬取的舆情进行总体状况统计;
-对舆情发展的趋势进行阈值设置,当敏感信息超过设定值后报警。
与现有技术相比,本发明具有如下的有益效果:
1)由于舆情数据爬取通过多种爬虫形式实现,系统支持的内容更加丰富,同 时结合当前的互联网搜索引擎进行修正,充分考虑大家获取舆情信息的途径,使得 系统中舆情内容来源更加合理。
2)采用大数据Hbase存储,匹配互联网下舆情的海量数据存储需求,同时具 备可扩展的数据存储、高性能的数据访问。在Hbase基础上又结合ElasticSearch 加快舆情内容检索,进一步加速舆情内容的访问查询。
3)在舆情内容先分类的基础上,通过聚类分析出热点,再使用机器学习的多 种算法进行分析,在多维度上呈现当前舆情的情感性,敏感性、以及发展态势预测。 为用户或企业进行决策提供重要的依据。
4)系统具备高扩展性,系统采用多对象爬虫和多算法分析,用户可以很方便 的集成特定的网页爬虫和内容分析引擎,构建自己特色的舆情分析策略,专业化实 现舆情系统。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的系统架构图;
图2为本发明舆情信息采集的原理图;
图3为本发明舆情信息分析的原理图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人 员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于 本发明的保护范围。
如图1所示,本发明提供的一种基于大数据平台的网络舆情分析系统主要分为三层:采集存储层,分析层和呈现层。
1.信息采集存储层
该层主要功能是对数据进行采集、存储和索引构建。包括如下一些模块:
●网络爬虫
该模块主要采用网络爬虫对网页(网页、微博、博客、论坛以及微信公众号等)进行原始内容爬取。在爬取的同时结合当前互联网搜索引擎比如baidu等的结果进行爬取 修正,使得爬取的内容更贴合舆情来源,由于网站或论坛的结构不一样,不同的网站对 象采用不同的爬虫模块进行爬取,爬取的结果以文本的方式统一存储到大数据数据库 Hbase。
●数据存储
将爬虫爬取的网页原始数据存入Hbase列式数据库,以网络地址和时间戳组成主键, 以网络内容为数据值,构建舆情原始内容数据集。
●索引构建
舆情系统采用ElasticSearch作为搜索引擎,系统再数据存储进Hbase的同时会启动索引后端服务,按时间序进行Hbase数据库的舆情内容访问,并根据内容进行倒排索 引构建,构建索引后,用户可以通过搜索引擎快速搜索舆情内容。
2.舆情信息分析层
在网络舆情数据存储完成和索引构建好之后,系统通过Spark大数据内存计算框架 对接Hbase中的文本数据进行舆情信息的分析,主要包含以下几个模块:
●文本特征提取模块
文本特征提取模块是将采集层得到的网页源码进行解析处理,得到采集网页文本的 特征值。
文本特征提取模块主要步骤包括:
1)文本清洗:
负责对html源网页进行去标签化处理,提取网页中的中英文文本内容,并对gbk、gb2312编码的中文做内码转换,统一成utf8编码。
2)文本分词:
通过现有词库,负责对文本进行分词。此功能支持处理英文,支持去除停用词和低频词,支持词库扩展。
3)文本特征提取:
系统通过词频-逆文档频率算法(TF-IDF)构建特征向量,该算法可以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
其中TF(Term Frequency),表示词条在文章中出现的频率,IDF(InverseDocument Frequency),表示如果包含某个词的文档越少,则这个词的区分度就越大,也就是IDF 越大。
计算步骤如下:
TF=该词在文章中的出现次数/文章总词语数
IDF=log(文档总数/包含该词的文档数+1)
TF-IDF=TF*IDF
系统通过计算文本中各个词语的TF-IDF值,对网页文本构建词频特征向量,并将特征值存储于HBase。
●文本分类模块
此模块采用朴素贝叶斯(Naive Bayes)分类器,根据文本特征对网页内容进行分类,分成社会、财经、军事、文化、科技、汽车、房产、体育、娱乐、健康等板块。
朴素贝叶斯(Naive Bayes)核心部分是贝叶斯公式:
P(X|Y)=P(Y|X)*P(X)/P(Y)
其中P(X)叫做先验概率,P(X|Y)叫做后验概率,P(Y|X)叫做似然估计。
在文本分类中,可将Y理解成“特征”,把X理解成“类别”,则贝叶斯公式可理解 为:
P(类别|特征)=P(特征|类别)*P(类别)/P(特征)
当使用朴素贝叶斯分类器对文本分类时,只要判断P(某类别|特征)是否大于其他类 别即可确定此文本属于哪一类题材。
●热点聚类模块
此模块对于当天各个板块采集的文本根据特征向量分别作K均值聚类(K-means),生成当日的热点事件,以各个类的质心作为整个热点的特征向量。
K均值(K-means)算法对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。算法步骤如 下:
选择K个点作为初始质心
repeat
将每个点指派到最近的质心,形成K个簇
重新计算每个簇的质心
until簇不发生变化或达到最大迭代次数
在此模块中,热点事件即为某一簇。而热门度即可量化为每一簇所包含的文本特征 值的数量。此外,对于文本聚类,文本特征向量之间的距离可用余弦距离求得。其公式如下:
其中,在此模型中,X变量为文本1的特征向量,Y变量为文本2的特征向量,sim(X,Y) 为文本1和文本2的相似距离,为特征向量X和Y的点乘,||x||·||y||为特征向量X和Y和L2乘积。
●舆情热点分析模块
此模块使用现有的支持向量机(Support Vector Machine)分类器对各个网页文本 进行正面/负面分类,并对每个热点事件进行统计,以描述热点事件整体情感倾向/敏感倾向。
支持向量机(SVM)算法是根据有限的样本信息,在模型的复杂性与学习能力之间寻求最佳折中,以求获得最好的推广能力。
其主要思想是寻找一个超平面,使得离超平面比较近的点能有更大的间距。为了找 到超平面,需要得到距离其最近的样本点作为支持向量。SVM的损失函数为:
s.t.yi(wT·Φ(xi)+b)≥1,i=1,2,…,n
其中,。可将此损失函数使用KKT条件方法转换,经过对偶转换及求导可得到支持向量。在此模型中,xi:i文本的特征向量,yi为i文本的分类值,w,b为基于文本特征 向量找到超平面的系数,s.t.代表求解最小值的约束条件。
●热点事件态势预测
此模块对热点事件再次进行聚类,以生成对各个热点事件基于时间轴的摘要汇总, 对事件的情感倾向/敏感倾向进行线性回归(Linear Regression)预测。
假设舆情倾向与时间满足线性关系,如下:
hθ=θTx
其损失函数为:
为了使得J(θ)最小,可使用随机梯度下降法,从而求得参数向量θ。
在此模块中,x为时间,h为舆情倾向值,根据过去的舆情倾向数据可以得到一个模型(参数向量θ),并用此模型对舆情倾向的未来趋势做出预测。
3.舆情信息呈现层
舆情系统呈现给用户是当前的网络上的舆情状态,并提供实时的搜索和分析功能, 主要的呈现功能如下:
1)基于用户的关键字的原始网页内容列表。用户在系统里设置关键字,系统根据关键字进行定向爬取,并将最新的内容信息呈现在系统里。
2)舆情内容搜索引擎。用户可以在现有的舆情系统进行搜索当前其关心的网页内容。
3)舆情分析报告。用户通过关键字进行舆情报告分析,舆情系统以多维度方式呈现用户关心的舆情,主要是当前网络上相对该关键字的是否敏感,是正面信息 还是负面信息,和其热点的相关的其他热点事件,以及当前热点事件的发展趋 势,帮助用户针对该舆情事件进行决策提供依据,分析结果以报告形式呈现给 用户。
4)舆情统计状态信息。舆情会对当前爬取的舆情信息进行总体状态统计,按时间、来源、数据进行多方面的信息呈现。
5)告警和预警信息。对舆情发展的趋势进行阈值设置,当敏感信息超过设定值后给与用户报警,报警方式支持网站通知、email、短信等。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及 其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制 器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装 置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、 模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、 单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上 述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改, 这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的 特征可以任意相互组合。

Claims (10)

1.一种基于大数据平台的网络舆情分析系统,其特征在于,包括:
采集存储层:对网页中的数据进行采集、存储至大数据数据库和索引构建;
分析层:通过大数据内存计算框架对接大数据数据库中的数据进行舆情信息的分析;
呈现层:呈现当前的舆情状态。
2.根据权利要求1所述的基于大数据平台的网络舆情分析系统,其特征在于,所述采集存储层包括:
网络爬虫模块:采用网络爬虫对网页中的数据进行爬取;
数据存储模块:将爬取的数据存入大数据数据库;
索引构建模块:在存入数据的同时启动索引后端服务,按时间顺序进行数据库的舆情内容访问,并根据内容进行倒排索引构建。
3.根据权利要求2所述的基于大数据平台的网络舆情分析系统,其特征在于,所述网络爬虫模块在爬取的同时结合当前互联网搜索引擎的结果进行爬取修正,不同的网站对象采用不同的网络爬虫模块进行爬取,爬取的结果以文本的方式统一存储到大数据数据库。
4.根据权利要求2所述的基于大数据平台的网络舆情分析系统,其特征在于,所述数据存储模块以网页地址和时间戳组成主键,以网页内容为数据值,构建舆情原始内容数据集。
5.根据权利要求1所述的基于大数据平台的网络舆情分析系统,其特征在于,所述分析层包括:
文本特征提取模块:对所述采集存储层采集到的数据进行解析梳理,得到文本特征值;
文本分类模块:采用分类器,根据文本特征对网页内容进行分类;
热点聚类模块:对于当天各个类下的文本根据特征向量分别作K均值聚类,生成当日的热点事件,以各个类的质心作为整个热点的特征向量;
舆情热点分析模块:使用分类器对各个网页文本进行正负面分类,并对每个热点事件进行统计,以描述热点事件整体情感倾向或敏感倾向;
热点事件态势预测模块:对热点事件再次进行聚类,以生成对各个热点事件基于时间轴的摘要汇总,对事件的情感倾向或敏感倾向进行线性回归预测。
6.根据权利要求5所述的基于大数据平台的网络舆情分析系统,其特征在于,所述文本特征提取模块包括:
文本清洗:对html源网页进行去标签化处理,提取网页中的中英文文本内容,并对gbk、gb2312编码的中文做内码转换,统一成utf8编码;
文本分词:通过词库,对文本进行分词;
文本特征提取:计算文本中各个词语的TF-IDF值,对网页文本构建词频特征向量,并将特征值存储于大数据数据库。
7.根据权利要求5所述的基于大数据平台的网络舆情分析系统,其特征在于,所述文本分类模块采用朴素贝叶斯分类器进行分类。
8.根据权利要求5所述的基于大数据平台的网络舆情分析系统,其特征在于,所述K均值聚类对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
9.根据权利要求5所述的基于大数据平台的网络舆情分析系统,其特征在于,所述舆情热点分析模块使用支持向量机分类器对各个网页文本进行正负面分类。
10.根据权利要求1所述的基于大数据平台的网络舆情分析系统,其特征在于,所述呈现层包括:
-根据用户的关键字进行定向爬取和呈现;
-搜索指定的网页内容;
-通过关键字进行舆情报告分析;
-对当前爬取的舆情进行总体状况统计;
-对舆情发展的趋势进行阈值设置,当敏感信息超过设定值后报警。
CN201810961969.3A 2018-08-22 2018-08-22 基于大数据平台的网络舆情分析系统 Pending CN109284432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810961969.3A CN109284432A (zh) 2018-08-22 2018-08-22 基于大数据平台的网络舆情分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810961969.3A CN109284432A (zh) 2018-08-22 2018-08-22 基于大数据平台的网络舆情分析系统

Publications (1)

Publication Number Publication Date
CN109284432A true CN109284432A (zh) 2019-01-29

Family

ID=65182917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810961969.3A Pending CN109284432A (zh) 2018-08-22 2018-08-22 基于大数据平台的网络舆情分析系统

Country Status (1)

Country Link
CN (1) CN109284432A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096652A (zh) * 2019-05-06 2019-08-06 上海汽车集团股份有限公司 舆情风向标指数计算方法及装置、可读存储介质
CN110472119A (zh) * 2019-07-17 2019-11-19 广东鼎义互联科技股份有限公司 一种应用于政务舆情分析平台
CN111125584A (zh) * 2019-12-23 2020-05-08 杭州安恒信息技术股份有限公司 一种基于舆情分析的消费返利平台识别方法
CN111538888A (zh) * 2020-06-05 2020-08-14 国网山东省电力公司检修公司 基于主动监测引擎和大数据的网络舆情烈度演化分析系统
CN111680226A (zh) * 2020-06-16 2020-09-18 杭州安恒信息技术股份有限公司 网络舆情分析方法、装置、系统、设备及可读存储介质
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质
CN112214658A (zh) * 2019-07-10 2021-01-12 武汉朗立创科技有限公司 基于网络爬虫的数据分析系统
CN112381317A (zh) * 2020-11-26 2021-02-19 方是哲如管理咨询有限公司 一种组织行为分析和结果预测大数据平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504081A (zh) * 2014-12-25 2015-04-08 北京东方剪报国际信息咨询有限公司 全媒体检测及监播大数据行为智能分析系统
CN104504151A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 微信舆情监测系统
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN104965823A (zh) * 2015-07-30 2015-10-07 成都鼎智汇科技有限公司 一种基于大数据的观点抽取方法
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN107193867A (zh) * 2017-04-07 2017-09-22 广东精点数据科技股份有限公司 基于大数据的热点话题分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504081A (zh) * 2014-12-25 2015-04-08 北京东方剪报国际信息咨询有限公司 全媒体检测及监播大数据行为智能分析系统
CN104504151A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 微信舆情监测系统
CN104933093A (zh) * 2015-05-19 2015-09-23 武汉泰迪智慧科技有限公司 基于大数据的地区舆情监控及决策辅助系统和方法
CN104965823A (zh) * 2015-07-30 2015-10-07 成都鼎智汇科技有限公司 一种基于大数据的观点抽取方法
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法
CN107193867A (zh) * 2017-04-07 2017-09-22 广东精点数据科技股份有限公司 基于大数据的热点话题分析方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096652A (zh) * 2019-05-06 2019-08-06 上海汽车集团股份有限公司 舆情风向标指数计算方法及装置、可读存储介质
CN112214658A (zh) * 2019-07-10 2021-01-12 武汉朗立创科技有限公司 基于网络爬虫的数据分析系统
CN110472119A (zh) * 2019-07-17 2019-11-19 广东鼎义互联科技股份有限公司 一种应用于政务舆情分析平台
CN111125584A (zh) * 2019-12-23 2020-05-08 杭州安恒信息技术股份有限公司 一种基于舆情分析的消费返利平台识别方法
CN111125584B (zh) * 2019-12-23 2023-06-06 杭州安恒信息技术股份有限公司 一种基于舆情分析的消费返利平台识别方法
CN111538888A (zh) * 2020-06-05 2020-08-14 国网山东省电力公司检修公司 基于主动监测引擎和大数据的网络舆情烈度演化分析系统
CN111680226A (zh) * 2020-06-16 2020-09-18 杭州安恒信息技术股份有限公司 网络舆情分析方法、装置、系统、设备及可读存储介质
CN112183093A (zh) * 2020-11-02 2021-01-05 杭州安恒信息安全技术有限公司 一种企业舆情分析方法、装置、设备及可读存储介质
CN112381317A (zh) * 2020-11-26 2021-02-19 方是哲如管理咨询有限公司 一种组织行为分析和结果预测大数据平台

Similar Documents

Publication Publication Date Title
CN109284432A (zh) 基于大数据平台的网络舆情分析系统
Wongthongtham et al. Ontology-based approach for identifying the credibility domain in social Big Data
Hua et al. Microblog entity linking with social temporal context
Rafea et al. Topic detection approaches in identifying topics and events from Arabic corpora
Liang et al. Expert finding for microblog misinformation identification
CN107506472A (zh) 一种学生浏览网页分类方法
Ma et al. Typifier: Inferring the type semantics of structured data
Mu et al. Lifecycle-based event detection from microblogs
Hu et al. Unsupervised software repositories mining and its application to code search
Li et al. Tweet topic classification using distributed language representations
Lu et al. Domain-oriented topic discovery based on features extraction and topic clustering
Pandya et al. Mated: metadata-assisted twitter event detection system
Campbell et al. Content+ context networks for user classification in twitter
Wang et al. Emotional contagion-based social sentiment mining in social networks by introducing network communities
Shu et al. Automatic extraction of web page text information based on network topology coincidence degree
Lu et al. Web Entity Detection for Semi-structured Text Data Records with Unlabeled Data.
Bagdouri et al. Profession-based person search in microblogs: Using seed sets to find journalists
Singh et al. Sentiment and mood analysis of weblogs using POS tagging based approach
Ibtihel et al. A deep learning-based ranking approach for microblog retrieval
Boutalbi et al. Machine learning for text anomaly detection: A systematic review
Alashri et al. Lexi-augmenter: Lexicon-based model for tweets sentiment analysis
Yuan et al. OPO: Online public opinion analysis system over text streams
Yang et al. Detecting tag spams for social bookmarking Websites using a text mining approach
Ma et al. Leveraging hypergraph random walk tag expansion and user social relation for microblog recommendation
Sajeev A community based web summarization in near linear time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190129