CN105630970A - 社会媒体数据处理系统及方法 - Google Patents
社会媒体数据处理系统及方法 Download PDFInfo
- Publication number
- CN105630970A CN105630970A CN201510990027.4A CN201510990027A CN105630970A CN 105630970 A CN105630970 A CN 105630970A CN 201510990027 A CN201510990027 A CN 201510990027A CN 105630970 A CN105630970 A CN 105630970A
- Authority
- CN
- China
- Prior art keywords
- topic
- microblog
- text
- event
- social media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 title claims abstract description 7
- 230000008451 emotion Effects 0.000 claims abstract description 78
- 238000004458 analytical method Methods 0.000 claims abstract description 58
- 239000013598 vector Substances 0.000 claims description 20
- 230000002996 emotional effect Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 8
- 244000097202 Rathbunia alamosensis Species 0.000 claims description 6
- 235000009776 Rathbunia alamosensis Nutrition 0.000 claims description 6
- 238000002203 pretreatment Methods 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 claims description 6
- 238000013079 data visualisation Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims description 3
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000010195 expression analysis Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000252168 Ictiobus Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
社会媒体数据处理系统及方法,属于互联网领域。本发明旨在深入分析微博大数据焦点事件及情感分布,进行社会舆情进行检测。本发明系统包括:用于采集实时微博数据采集的数据模块;用于文本噪声和文本分析的预处理模块;用于事件发现和情感分析的浅层分析模块;用于情感归因分析和基于用户画像的情感分析的深层透视模块;用于社会媒体数据可视化显示模块;本发明方法包括:步骤一、采集实时的微博数据;步骤二、根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;步骤三、对处理后的文本进行浅层分析;步骤四、根据浅层分析进行深层透视;步骤五、根据浅层分析和深层透视进行社会媒体数据可视化显示。本发明用于社会舆情监测。
Description
技术领域
本发明具体涉及社会媒体数据处理系统及方法;属于互联网领域。
背景技术
互联网Web2.0时代的开启和社会媒体(如:微信、微博)的出现使得大量用户从被动的在网络上接收知识转变为海量网络数据的产生者。据统计,互联网上的数据每年将增长50%,每两年便将翻一番,网络大数据应运而生。日前,大数据的研究和应用价值已在很多领域初见端倪。例如:在零售业,可以在大数据中挖掘出高消费者和高影响者两类有价值客户进行产品推荐和口碑宣传,与社交网络相结合创造出新的商品营销模式。此外,社交网络中的大数据也为很多政治选举提供了新的宣传手段,最典型的如“在Facebook上开展的奥巴马的总统竞选运动”。
随着大数据理念和相关技术的不断深入,大数据应用也在慢慢向社会治理领域渗透。2015年8月31日,国务院以国发〔2015〕50号印发《促进大数据发展行动纲要》。大数据发展与“提升政府治理能力现代化”紧紧相连,成为全文亮点。大数据将如何助力政府治理,以改善百姓民生和社会服务成为大家最为关注的两大话题。众所周知,爆炸性增长的大数据蕴藏着巨大的价值,因此寻求有效的大数据处理技术、方法和手段成为基于大数据进行社会治理的最本质的需求。
在众多的大数据形式中,社会媒体数据,如微博和微信数据,是一种有效的洞察民情,观测大众行为的数据形式。例如,当某一焦点事件发生时,大量民众在微博上发表自己的观点,我们可以通过观测相关的微博大数据来统计获取民众对于该事件的情感分布趋势,继而协助相关部门进行社会治理策略的提出和实施。此外,微博大数据还可以挖掘出民众普遍关注的话题类型、暴露出民众的整体情绪趋势,供舆情部门监测。
目前国内外已经有多项借助微博或推特(Twitter)来进行浅层社会治理和分析的技术和系统。Zhao等人构建了一个MoodLens的中文微博情感分析系统,将微博的情感分为愤怒、厌恶、高兴和低落四类,进行异常或突发事件的监测(文献[1]JichangZhao,LiDong,JunjieWuandKeXu.MoodLens:AnEmoticon-BasedSentimentAnalysisSystemforChineseTweetsinWeibo.KDD2012.1528-1531)。Wang等人构建了一个实时的预测2012年美国大选结果的系统,该系统通过统计在Twitter上民众对于四位候选人的情感分布来进行结果预测([2]HaoWang,DoganCan,AbeKazemzadeh,FrancoisBarandShrikanthNarayanan.ASystemforReal-timeTwitterSentimentAnalysisof2012U.S.PresidentialElectionCycle.ACL.2012.115-120)。Ciot等人研究了Twitter上进行用户性别预测的算法([3]MorganeCiot,MorganSondereggerandDerekRuths.GenderInferenceofTwitterUsersinNon-EnglishContexts.EMNLP.2013.1136–1145.)。Diao等人研究了如何在Twitter上实时发现突发事件([4]QimingDiao,JingJiang,FeidaZhuandEe-PengLim.FindingBurstyTopicsfromMicroblogs.ACL.2012.536–544.)。Jennifer等人研究了在Twitter上某个事件的发生时间预测算法([5]JenniferWilliamsandGrahamKatz.ExtractingandmodelingdurationsforhabitsandeventsfromTwitter.ACL.2012.223–227)。其中基于机器学习(如:支持向量机)和丰富特征的方法是最经典和快速的方法[7](SaifM.Mohammad,SvetlanaKiritchenko,andXiaodanZhu(Co-firstauthors).2013.NRC-Canada:BuildingtheState-of-the-ArtinSentimentAnalysisofTweets.InProceedingsoftheInternationalWorkshoponSemanticEvaluation,Atlanta,USA.)。然而,所用到的特征语义信息不足。
近年来,随着深度学习在自然语言处理的深入发展,深度学习技术在情感分类领域也取得了较好的效果([8]RichardSocher,AlexPerelygin,JeanWu,JasonChuang,ChrisManning,AndrewNgandChrisPotts.RecursiveDeepModelsforSemanticCompositionalityOveraSentimentTreebank.ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP2013).),其中词向量包含了丰富的语义信息,采用了词向量和经典特征相结合的方法[9](DuyuTang,FuruWei,NanYang,MingZhou,TingLiu,BingQin.LearningSentiment-SpecificWordEmbeddingforTwitterSentimentClassification.Proceedingofthe52thAnnualMeetingoftheAssociationforComputationalLinguistics(ACL2014).),取得了较好的性能。
以上文献中有代表性的系统和算法均是围绕微博或Twitter大数据中焦点事件抽取和情感分析这样两大项任务进行的,属于浅层的大数据分析结果显示,存在的问题是缺乏事件和情感的深层透视。这些传统的系统和研究往往只关注民众关心的焦点事件是什么,情绪走向是什么。如图1a所示,基于自然语言处理技术可以对2015年5月29日的微博大数据进行分析,挖掘出全国10大焦点事件以及每个事件的民众情感分布,属于浅层分析,分析出的结果为相关部门提供一定的预警信号。对于社会治理而言,相关部门更关心的是为何某一事件的发生会产生异常情绪,什么样的人群会导致某些情绪的产生等深入的原因剖析,基于此来指导社会治理方案的制定。如图1b所示,看到民众对于“长江游轮倾覆”事件的情绪分布后,相关部门更想知道为何会有人喜悦,为何会有人愤怒等异常情绪的形成原因。如图1c所示,如果用户想知道针对同一焦点事件不同的用户画像(性别、职业、年龄等)产生的情感分布的差别是什么,用以框定某一异常情绪的用户群体进行监测。相比微博大数据的浅层分析和呈现而言,深层透视能够更精准的聚焦原因和人群,显然对社会治理有更大的帮助。
发明内容
本发明旨在深入分析微博大数据,多角度展示焦点事件及其情感分布,进而提出了一种社会媒体数据处理系统及方法。本发明的方案是:采集实时微博数据,并对采集的实时微博数据进行文本预处理,进行浅层分析,根据浅层分析进一步进行深层透视,将浅层分析和深层透视进行社会焦点可视化展示。
社会媒体数据处理系统包括:
用于采集实时微博数据的数据模块;
用于文本噪声和文本分析的预处理模块;
用于事件发现和情感分析的浅层分析模块;
用于情感归因分析和基于用户画像的情感分析的深层透视模块;
用于社会媒体数据的可视化显示模块;
其中,所述的预处理模块包括文本噪声预处理模块和文本分析预处理模块;
其中,所述的浅层分析模块包括事件发现模块和情感分析模块;
其中,所述的深层透视模块包括情感归因分析模块和基于用户画像的情感分析模块;
社会媒体数据处理方法包括如下步骤:
步骤一、采集实时的微博数据;
步骤二、根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;
步骤三、对处理后的文本进行浅层分析;
步骤四、根据浅层分析进行深层透视;
步骤五、根据浅层分析和深层透视进行社会媒体数据可视化显示。
其中,所述步骤一采集实时的微博数据;
选择新浪微博数据作为实时的数据来源,实时微博的数据格式如表1所示:
表1
其中所述步骤二根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;
所述的文本噪声预处理步骤包括:去广告、去水军和文本去重;
收集400条广告标记短语,排除广告对后续的事件发现和情感分类的干扰,过滤带有广告词汇的微博;并结合新浪微博数据中心的水军过滤算法,初步过滤掉水文;对于微博存在表述重复的现象,进行去重处理;
所述的文本分析预处理步骤包括:字符的替换、分词和词性标注;
为了排除用户信息(例如“张三”)和短链接信息(例如“http://t.cn/Ryrc”)后续的事件发现和情感分类的干扰,对的文本进行替换或屏蔽;进一步通过语言技术平台云(LanguageTechnologyPlatform,LTP)对文本进行精准的分词和词性标注;
其中,所述的步骤三、对处理后的文本进行浅层分析
浅层分析每隔两个小时实时更新当天的焦点事件,实时对焦点事件进行民众情感的分析。如图1a右侧所示的焦点事件以及情感分布。如图1a中地图,颜色从深至浅代表了情绪指数(喜悦情绪)由高至低。社会媒体数据处理的浅层分析实时给出全国各省民众的整体情绪指数及各省民众关心的焦点事件。
社会媒体数据的浅层分析主要包括:事件发现和情感分析;
所述的事件发现是根据实时微博焦点事件抽取框架,利用启发式规则和聚类算法([6]YanyanZhao,BingQin,TingLiuandDuyuTang.SocialSentimentSensor:aVisualizationSystemforTopicDetectionandTopicSentimentAnalysisonMicroblog.MultimediaToolsandApplications.2014.8);
实时微博焦点事件抽取框架包括:
(1)话题发现:候选热点话题发现;
(2)话题聚类:候选热点话题聚类;
对于任意一个话题标签ti,获取所有的包含话题标签的微博wi;统计wi中出现的所有词语及其频率,并将长尾的低频词去掉,设置阈值为2,每一个话题标签表示成一个词语向量tvi={w1,w2,...,wni},其中的ni表示包含话题标签ti的微博集合wi中包含的过滤掉长尾以后的词语的个数;
整合所有话题标签对应的词语向量中包含的词语,构建一个统一的词表V={w1,w2,...,wN},其中的N表示词表中包含的词语总个数,每一个词语都对应一个唯一的索引值;
根据TF-IDF算法,将所有话题标签对应的词语向量映射为与V对应的TF-IDF值向量,即将话题标签ti的原始词语向量tvi={w1,w2,...,wni}映射为tni={tfidf1,tfidf2,...,tfidfN},N值与词表V取值相同;每一个词语的TF-IDF值的公式如(1)及(2)所示:
公式(1)表示词项频率的计算公式,式中的f(w,t)表示词语w在话题标签t对应的相关微博集合W中出现的次数;公式(2)表示词语w的逆文档频率,式中的T表示话题标签的集合,NT表示T的取值;
计算微博话题标签之间的相似度,两个话题标签ti与tj之间的相似度计算转换为对应的TF-IDF向量tni和tnj之间的相似度计算;使用余弦相似度来计算两个话题标签之间的相似度,计算如公式(3)所示:
通过层次聚类算法如公式(1),公式(2)和公式(3)得到一系列的簇的集合TC={tc1{t1,...,ti},...,tck{t1,...,tp}},每一个聚簇tci代表一个微博话题,其中TC包含若干个表达微博话题的话题标签;聚簇内出现次数最多的话题标签来代表相应的话题簇。
(3)话题排序:对聚类得到的话题聚簇进行排序,排序靠前的即为焦点事件;
通过话题发现和话题聚类后得到的一系列微博话题簇,一个话题聚簇tc的热度如公式(4):
Popu(tc)=Freq(tc)×Spec(tc)(4)
公式(4)中的第一个因子Freq(tc)表示影响微博话题热度的每一个话题相关的微博消息数,Freq(tc)是话题聚簇tc所对应的相关微博文本的数量的总和;公式(4)中的第二个因子Spec(tc)表示影响微博话题热度的相关话题的历史事件;
通过使用微博话题热度评估算法,为每一个微博话题聚簇都计算得到一个热度分值Popu(tc),根据热度分值Popu(tc)对所有微博话题聚簇的热度进行排序,获得微博热点话题;
所述的情感分析是焦点事件的情绪分类,基于情感词和基于分类器进行情感分析,如图1a所示的焦点事件的情绪分布;针对一条包含焦点事件的微博,判断它所表达的情绪是“喜悦”、“愤怒”、“悲伤”、“恐惧”还是“惊奇”;
其中,所述的步骤四、根据浅层分析进行深层透视;
社会媒体数据的深层透视包括:情感归因分析和基于用户画像的情感分析;
所述的情感归因分析,使用自动抽取用户自然标注的Hashtag作为子事件的算法来解释焦点事件的原因分析;如图3所示,“长江游轮倾覆”事件的“喜悦”和“愤怒”两种情绪的原因分析;图3a和图3b中所示,子事件“沉船内部有生命迹象”和“载客458人已救起8人”的情绪分布中“喜悦”的情绪占据了一定的比重,这两个子事件可以用来解释“长江游轮倾覆”事件所表露出的“喜悦”情绪。图3c中所示,子事件“乘客家属收到诈骗短信”的情绪分布中“愤怒”的情绪占据了大部分的比重,子事件可以用来解释“长江游轮倾覆”事件所表露出的“愤怒”情绪。
所述的基于用户画像的情感分析;
用户画像包括性别,地域,职业,年龄,不同的用户画像角度展示出不同的用户群体对同一事件的情绪反馈;如图1c所示,不同性别的用户对“文章出轨事件”的情绪反馈不同;图4a和图4b分别展示了对“长江游轮倾覆”事件用户在省份和性别这两个维度上面的微博数量。
本发明的有益效果:
1、构建一个实时的面向互联网微博大数据的中文舆情监测平台—社会媒体数据处理系统;社会媒体数据处理系统与现有技术相比不仅可以展示社会焦点事件的浅层分析结果,还可以进行社会焦点事件的深层透视;
2、社会媒体数据处理系统可以深层透视焦点事件的情感分布原因;
3、社会媒体数据处理系统可以深层透视议论焦点事件的人群的分布;
4、社会媒体数据处理系统将用户的各个画像角度与情绪分析相结合,用户角度对焦点事件的深层次透视,加强对社会舆情的检测。
附图说明
图1是每日微博焦点事件浅层分析与深层透视图;其中,图1a是每日微博焦点事件发现与情感分布展示(浅层分析)图;图1b是每日微博焦点事件的情感分布原因剖析(深层透视)图;图1c是焦点事件的不同用户画像(性别)的情感分布展示(深层透视)图;
图2是社会媒体数据处理的系统流程图;
图3是“长江游轮倾覆”事件的情绪归因分析图;其中,图3a和图3b是“长江游轮倾覆”事件的“喜悦”情绪归因分析图;图3c是“长江游轮倾覆”事件的“愤怒”情绪归因分析图;
图4是“长江游轮倾覆”事件的不同省用户及不同性别用户微博数图;图4a是“长江游轮倾覆”事件的不同省用户微博数图;图4b是“长江游轮倾覆”事件的不同性别用户微博数图。
具体实施方式
具体实施方式一:本实施方式的一种社会媒体数据处理系统,采集实时微博数据的,并对采集的实时微博数据进行文本预处理,进行浅层分析,根据浅层分析进一步进行深层透视,将浅层分析和深层透视进行社会媒体数据可视化展示;
社会媒体数据处理系统包括:
用于采集实时微博数据的数据模块;
用于文本噪声和文本分析的预处理模块;
用于事件发现和情感分析的浅层分析模块;
用于情感归因分析和基于用户画像的情感分析的深层透视模块;
用于社会媒体数据的可视化显示模块。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述的预处理模块包括文本噪声预处理模块和文本分析预处理模块;
文本噪声预处理模块用于去广告、去水军和文本去重;
文本分析预处理模块用于字符的替换、分词和词性标注。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述的浅层分析模块包括事件发现模块和情感分析模块;
事件发现模块用于话题发现,话题聚类,话题排序;
情感分析模块用于判断情绪的表达“喜悦”、“愤怒”、“悲伤”、“恐惧”还是“惊奇”。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述的深层透视模块包括情感归因分析模块和基于用户画像的情感分析模块;
情感归因分析模块用于情绪的表达原因分析;
基于用户画像的情感分析模块用于不同用户情绪的不同表达原因分析。
具体实施方式五:本实施方式的社会媒体数据处理系统的实现方法包括如下步骤:
步骤一、采集实时的微博数据;
步骤二、根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;
步骤三、对处理后的文本进行浅层分析;
步骤四、根据浅层分析进行深层透视;
步骤五、根据浅层分析和深层透视进行社会媒体数据可视化显示。
具体实施方式六:本实施方式的与具体实施方式五不同的是:所述步骤一采集实时的微博数据;
选择新浪微博数据作为实时的数据来源,实时微博的数据格式如表1所示:
表1
具体实施方式七:本实施方式的与具体实施方式六不同的是:所述步骤二根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;
文本噪声预处理步骤包括:去广告、去水军和文本去重;
收集400条广告标记短语,排除广告对后续的事件发现和情感分类的干扰,过滤带有广告词汇的微博;并结合新浪微博数据中心的水军过滤算法,初步过滤部分水文;对于微博存在表述重复的现象,进行去重处理;
文本分析预处理步骤包括:字符的替换、分词和词性标注;
为了排除用户信息(例如“张三”)和短链接信息(例如“http://t.cn/Ryrc”)后续的事件发现和情感分类的干扰,对的文本进行替换或屏蔽;进一步通过语言技术平台云(LanguageTechnologyPlatform,LTP)对文本进行精准的分词和词性标注;
具体实施方式八:本实施方式与具体实施方式七不同的是:所述的步骤三、对处理后的文本进行浅层分析:
浅层分析每隔两个小时实时更新当天的焦点事件,实时对焦点事件进行民众情感的分析。如图1a右侧所示的焦点事件以及情感分布。如图1a中地图,颜色从深至浅代表了情绪指数(喜悦情绪)由高至低。社会媒体数据的浅层分析还可以实时给出全国各省民众的整体情绪指数,及各省民众关心的焦点事件。
具体实施方式九:本实施方式的与具体实施方式八不同的是:所述的浅层分析主要包括:事件发现和情感分析:
所述的事件发现是根据实时微博焦点事件抽取框架,利用启发式规则和聚类算法[6],(YanyanZhao,BingQin,TingLiuandDuyuTang.SocialSentimentSensor:aVisualizationSystemforTopicDetectionandTopicSentimentAnalysisonMicroblog.MultimediaToolsandApplications.2014.8);实时微博焦点事件抽取框架包括:
(1)话题发现:候选热点话题发现;
(2)话题聚类:候选热点话题聚类;
对于任意一个话题标签ti,获取所有的包含话题标签的微博wi;统计wi中出现的所有词语及其频率,并将长尾的低频词去掉,设置阈值为2,每一个话题标签表示成一个词语向量tvi={w1,w2,...,wni},其中的ni表示包含话题标签ti的微博集合wi中包含的过滤掉长尾以后的词语的个数;
整合所有话题标签对应的词语向量中包含的词语,构建一个统一的词表V={w1,w2,...,wN},其中的N表示词表中包含的词语总个数,每一个词语都对应一个唯一的索引值;
根据TF-IDF算法,将所有话题标签对应的词语向量映射为与V对应的TF-IDF值向量,即将话题标签ti的原始词语向量tvi={w1,w2,...,wni}映射为tni={tfidf1,tfidf2,...,tfidfN},N值与词表V取值相同;每一个词语的TF-IDF值的公式如(1)及(2)所示:
公式(1)表示词项频率的计算公式,式中的f(w,t)表示词语w在话题标签t对应的相关微博集合W中出现的次数;公式(2)表示词语w的逆文档频率,式中的T表示话题标签的集合,NT表示T的取值;
计算微博话题标签之间的相似度,两个话题标签ti与tj之间的相似度计算转换为对应的TF-IDF向量tni和tnj之间的相似度计算;使用余弦相似度来计算两个话题标签之间的相似度,计算如公式(3)所示:
通过层次聚类算法如公式(1),公式(2)和公式(3)得到一系列的簇的集合TC={tc1{t1,...,ti},...,tck{t1,...,tp}},每一个聚簇tci代表一个微博话题,其中TC包含若干个表达微博话题的话题标签;聚簇内出现次数最多的话题标签来代表相应的话题簇。
(3)话题排序:对聚类得到的话题聚簇进行排序,排序靠前的即为焦点事件;
通过话题发现和话题聚类后得到的一系列微博话题簇,一个话题聚簇tc的热度如公式(4):
Popu(tc)=Freq(tc)×Spec(tc)(4)
公式(4)中的第一个因子Freq(tc)表示影响微博话题热度的每一个话题相关的微博消息数,Freq(tc)是话题聚簇tc所对应的相关微博文本的数量的总和;公式(4)中的第二个因子Spec(tc)表示影响微博话题热度的相关话题的历史事件;
通过使用微博话题热度评估算法,为每一个微博话题聚簇都计算得到一个热度分值Popu(tc),根据热度分值Popu(tc)对所有微博话题聚簇的热度进行排序,获得微博热点话题;
所述的情感分析是焦点事件的情绪分类,基于情感词和基于分类器进行情感分析,如图1a所示的焦点事件的情绪分布;针对一条包含焦点事件的微博,判断它所表达的情绪是“喜悦”、“愤怒”、“悲伤”、“恐惧”还是“惊奇”;
具体实施方式十:本实施方式的与具体实施方式九不同的是:所述的步骤四、根据浅层分析进行深层透视;
社会媒体数据的深层透视包括:情感归因分析和基于用户画像的情感分析;
所述的情感归因分析,使用自动抽取用户自然标注的Hashtag作为子事件的算法来解释焦点事件的原因分析;如图3所示,“长江游轮倾覆”事件的“喜悦”和“愤怒”两种情绪的原因分析;图3a和图3b中所示,子事件“沉船内部有生命迹象”和“载客458人已救起8人”的情绪分布中“喜悦”的情绪占据了一定的比重,这两个子事件可以用来解释“长江游轮倾覆”事件所表露出的“喜悦”情绪。图3c中所示,子事件“乘客家属收到诈骗短信”的情绪分布中“愤怒”的情绪占据了大部分的比重,子事件可以用来解释“长江游轮倾覆”事件所表露出的“愤怒”情绪。
用户画像包括性别,地域,职业,年龄,不同的用户画像角度展示出不同的用户群体对同一事件的情绪反馈;如图1c所示,不同性别的用户对“文章出轨事件”的情绪反馈不同;图4a和图4b分别展示了对“长江游轮倾覆”事件用户在省份和性别这两个维度上面的微博数量。
Claims (10)
1.社会媒体数据处理系统,其特征在于,所述的社会媒体数据处理系统包括:
用于采集实时微博数据的数据模块;
用于文本噪声和文本分析的预处理模块;
用于事件发现和情感分析的浅层分析模块;
用于情感归因分析和基于用户画像的情感分析的深层透视模块;
用于社会媒体数据的可视化显示模块。
2.根据权利要求1社会媒体数据处理系统,其特征在于,所述的预处理模块包括文本噪声预处理模块和文本分析预处理模块;
文本噪声预处理模块用于去广告、去水军和文本去重;
文本分析预处理模块用于字符的替换、分词和词性标注。
3.根据权利要求1社会媒体数据处理系统,其特征在于,所述的浅层分析模块包括事件发现模块和情感分析模块;
事件发现模块用于话题发现,话题聚类,话题排序;
情感分析模块用于判断情绪的表达“喜悦”、“愤怒”、“悲伤”、“恐惧”还是“惊奇”。
4.根据权利要求1社会媒体数据处理系统,其特征在于,所述的深层透视模块包括情感归因分析模块和基于用户画像的情感分析模块;
情感归因分析模块用于情绪的表达原因分析;
基于用户画像的情感分析模块用于不同用户情绪的不同表达原因分析。
5.社会媒体数据处理方法,其特征在于,所述的社会媒体数据处理方法包括如下步骤:
步骤一、采集实时的微博数据;
步骤二、根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;
步骤三、对处理后的文本进行浅层分析;
步骤四、根据浅层分析进行深层透视;
步骤五、根据浅层分析和深层透视进行社会媒体数据可视化显示。
6.根据权利要求5社会媒体数据处理方法,其特征在于,所述步骤一采集实时的微博数据:选择新浪微博数据作为实时的数据来源。
7.根据权利要求6社会媒体数据处理方法,其特征在于,所述步骤二根据采集的实时的微博数据进行文本噪声预处理和文本分析预处理;
文本噪声预处理步骤包括:去广告、去水军和文本去重;
收集400条广告标记短语,排除广告对后续的事件发现和情感分类的干扰,过滤带有广告词汇的微博;并结合新浪微博数据中心的水军过滤算法,初步过滤掉水文;对于微博存在表述重复的现象,进行去重处理;
对于微博存在表述重复的现象,进行去重处理;
文本分析预处理步骤包括:字符的替换、分词和词性标注;
为了排除用户信息和短链接信息后续的事件发现和情感分类的干扰,对的文本进行替换或屏蔽;进一步通过语言技术平台云LanguageTechnologyPlatform,对文本进行精准的分词和词性标注。
8.根据权利要求7社会媒体数据处理方法,其特征在于,所述的步骤三对处理后的文本进行浅层分析:
浅层分析每隔两个小时实时更新当天的焦点事件,实时对焦点事件进行民众情感的分析。
9.根据权利要求8社会媒体数据处理方法,其特征在于,所述的浅层分析主要包括:事件发现和情感分析;
所述的事件发现是根据实时微博焦点事件抽取框架,利用启发式规则和聚类算法;实时微博焦点事件抽取框架包括:
(1)话题发现:候选热点话题发现;
(2)话题聚类:候选热点话题聚类;
对于任意一个话题标签ti,获取所有的包含话题标签的微博wi;统计wi中出现的所有词语及其频率,并将长尾的低频词去掉,设置阈值为2,每一个话题标签表示成一个词语向量其中的ni表示包含话题标签ti的微博集合wi中包含的过滤掉长尾以后的词语的个数;
整合所有话题标签对应的词语向量中包含的词语,构建一个统一的词表V={w1,w2,...,wN},其中的N表示词表中包含的词语总个数,每一个词语都对应一个唯一的索引值;
根据TF-IDF算法,将所有话题标签对应的词语向量映射为与V对应的TF-IDF值向量,即将话题标签ti的原始词语向量映射为tni={tfidf1,tfidf2,...,tfidfN},N值与词表V取值相同;每一个词语的TF-IDF值的公式如(1)及(2)所示:
公式(1)表示词项频率的计算公式,式中的f(w,t)表示词语w在话题标签t对应的相关微博集合W中出现的次数;公式(2)表示词语w的逆文档频率,式中的T表示话题标签的集合,NT表示T的取值;
计算微博话题标签之间的相似度,两个话题标签ti与tj之间的相似度计算转换为对应的TF-IDF向量tni和tnj之间的相似度计算;使用余弦相似度来计算两个话题标签之间的相似度,计算如公式(3)所示:
通过层次聚类算法如公式(1),公式(2)和公式(3)得到一系列的簇的集合TC={tc1{t1,...,ti},...,tck{t1,...,tp}},每一个聚簇tci代表一个微博话题,其中TC包含若干个表达微博话题的话题标签;聚簇内出现次数最多的话题标签来代表相应的话题簇;
(3)话题排序:对聚类得到的话题聚簇进行排序,排序靠前的即为焦点事件;
通过话题发现和话题聚类后得到的一系列微博话题簇,一个话题聚簇tc的热度如公式(4):
Popu(tc)=Freq(tc)×Spec(tc)(4)
公式(4)中的第一个因子Freq(tc)表示影响微博话题热度的每一个话题相关的微博消息数,Freq(tc)是话题聚簇tc所对应的相关微博文本的数量的总和;公式(4)中的第二个因子Spec(tc)表示影响微博话题热度的相关话题的历史事件;
通过使用微博话题热度评估算法,为每一个微博话题聚簇都计算得到一个热度分值Popu(tc),根据热度分值Popu(tc)对所有微博话题聚簇的热度进行排序,获得微博热点话题;
所述的情感分析是焦点事件的情绪分类,基于情感词和基于分类器进行情感分析;针对一条包含焦点事件的微博,判断它所表达的情绪是“喜悦”、“愤怒”、“悲伤”、“恐惧”还是“惊奇”。
10.根据权利要求9社会媒体数据处理方法,其特征在于,所述的步骤四根据浅层分析进行深层透视:
深层透视包括:情感归因分析和基于用户画像的情感分析;
所述的情感归因分析,使用自动抽取用户自然标注的Hashtag作为子事件的算法来解释焦点事件的原因分析;
所述的基于用户画像的情感分析包括:用户的性别,地域,职业,年龄,不同的用户画像角度展示出不同的用户群体对同一事件的情绪反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510990027.4A CN105630970A (zh) | 2015-12-24 | 2015-12-24 | 社会媒体数据处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510990027.4A CN105630970A (zh) | 2015-12-24 | 2015-12-24 | 社会媒体数据处理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105630970A true CN105630970A (zh) | 2016-06-01 |
Family
ID=56045903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510990027.4A Pending CN105630970A (zh) | 2015-12-24 | 2015-12-24 | 社会媒体数据处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105630970A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250419A (zh) * | 2016-07-22 | 2016-12-21 | 乐视控股(北京)有限公司 | 一种数据处理方法和装置 |
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
CN106649875A (zh) * | 2017-01-04 | 2017-05-10 | 成都四方伟业软件股份有限公司 | 舆情大数据的可视化系统 |
CN108073604A (zh) * | 2016-11-10 | 2018-05-25 | 北京国双科技有限公司 | 文本处理方法及装置 |
CN108090048A (zh) * | 2018-01-12 | 2018-05-29 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
CN108829668A (zh) * | 2018-05-30 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108897784A (zh) * | 2018-06-08 | 2018-11-27 | 北京航空航天大学 | 一个基于社交媒体的突发事件多维分析系统 |
CN108959453A (zh) * | 2018-06-14 | 2018-12-07 | 中南民族大学 | 基于文本聚类的信息提取方法、装置及可读存储介质 |
CN109240558A (zh) * | 2018-07-23 | 2019-01-18 | 中国农业大学 | 一种面向多用户微博的情感引发原因标注方法及系统 |
CN109670045A (zh) * | 2018-11-02 | 2019-04-23 | 天津大学 | 基于本体模型和多核支持向量机的情感原因抽取方法 |
CN110909529A (zh) * | 2019-11-27 | 2020-03-24 | 国网能源研究院有限公司 | 一种公司形象提升系统的用户情感分析和预判系统 |
CN111444404A (zh) * | 2020-03-19 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于微博的社会舆情监测系统及其监测方法 |
CN113378565A (zh) * | 2021-05-18 | 2021-09-10 | 北京邮电大学 | 多源数据融合的事件分析方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN104537097A (zh) * | 2015-01-09 | 2015-04-22 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
-
2015
- 2015-12-24 CN CN201510990027.4A patent/CN105630970A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN104537097A (zh) * | 2015-01-09 | 2015-04-22 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
Non-Patent Citations (3)
Title |
---|
YANYAN ZHAO ET AL: "Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on microblog", 《MULTIMEDIA TOOLS AND APPLICATIONS》 * |
YANYAN ZHAO ET AL: "What Causes Different Emotion Distributions of a Hot Event? A Deep Event-Emotion Analysis System on Microblogs", 《NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》 * |
李泽魁 等: "中文微博情感倾向性分析特征工程", 《山西大学学报(自然科学版)》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250419A (zh) * | 2016-07-22 | 2016-12-21 | 乐视控股(北京)有限公司 | 一种数据处理方法和装置 |
CN108073604A (zh) * | 2016-11-10 | 2018-05-25 | 北京国双科技有限公司 | 文本处理方法及装置 |
CN106611052B (zh) * | 2016-12-26 | 2019-12-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
CN106611052A (zh) * | 2016-12-26 | 2017-05-03 | 东软集团股份有限公司 | 文本标签的确定方法及装置 |
CN106649875A (zh) * | 2017-01-04 | 2017-05-10 | 成都四方伟业软件股份有限公司 | 舆情大数据的可视化系统 |
CN106649875B (zh) * | 2017-01-04 | 2020-04-07 | 成都四方伟业软件股份有限公司 | 舆情大数据的可视化系统 |
CN108090048A (zh) * | 2018-01-12 | 2018-05-29 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
CN108090048B (zh) * | 2018-01-12 | 2021-05-25 | 安徽大学 | 一种基于多元数据分析的高校评价系统 |
CN108829668A (zh) * | 2018-05-30 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108829668B (zh) * | 2018-05-30 | 2021-11-16 | 平安科技(深圳)有限公司 | 文本信息的生成方法、装置、计算机设备及存储介质 |
CN108897784A (zh) * | 2018-06-08 | 2018-11-27 | 北京航空航天大学 | 一个基于社交媒体的突发事件多维分析系统 |
CN108959453A (zh) * | 2018-06-14 | 2018-12-07 | 中南民族大学 | 基于文本聚类的信息提取方法、装置及可读存储介质 |
CN108959453B (zh) * | 2018-06-14 | 2021-08-27 | 中南民族大学 | 基于文本聚类的信息提取方法、装置及可读存储介质 |
CN109240558A (zh) * | 2018-07-23 | 2019-01-18 | 中国农业大学 | 一种面向多用户微博的情感引发原因标注方法及系统 |
CN109670045A (zh) * | 2018-11-02 | 2019-04-23 | 天津大学 | 基于本体模型和多核支持向量机的情感原因抽取方法 |
CN110909529A (zh) * | 2019-11-27 | 2020-03-24 | 国网能源研究院有限公司 | 一种公司形象提升系统的用户情感分析和预判系统 |
CN110909529B (zh) * | 2019-11-27 | 2023-03-24 | 国网能源研究院有限公司 | 一种公司形象提升系统的用户情感分析和预判系统 |
CN111444404A (zh) * | 2020-03-19 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于微博的社会舆情监测系统及其监测方法 |
CN113378565A (zh) * | 2021-05-18 | 2021-09-10 | 北京邮电大学 | 多源数据融合的事件分析方法、装置、设备及存储介质 |
CN113378565B (zh) * | 2021-05-18 | 2022-11-04 | 北京邮电大学 | 多源数据融合的事件分析方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105630970A (zh) | 社会媒体数据处理系统及方法 | |
Salloum et al. | Mining social media text: extracting knowledge from Facebook | |
Alessia et al. | Approaches, tools and applications for sentiment analysis implementation | |
Thakkar et al. | Approaches for sentiment analysis on twitter: A state-of-art study | |
Adedoyin-Olowe et al. | A survey of data mining techniques for social media analysis | |
Nagy et al. | Crowd sentiment detection during disasters and crises. | |
Nooralahzadeh et al. | 2012 Presidential Elections on Twitter--An Analysis of How the US and French Election were Reflected in Tweets | |
Alamsyah et al. | Dynamic large scale data on twitter using sentiment analysis and topic modeling | |
CN105868185A (zh) | 一种购物评论情感分析中基于词性标注的词典构建方法 | |
CN106779827A (zh) | 一种互联网用户行为采集及分析检测的大数据方法 | |
Kar et al. | Finding opinion strength using fuzzy logic on web reviews | |
Yeole et al. | Opinion mining for emotions determination | |
US11269928B2 (en) | Identification and analysis of cohesive and topic-focused groups of user accounts from user-generated content on electronic communication platforms | |
AlKhatib et al. | A sentiment reporting framework for major city events: Case study on the China-United States trade war | |
Fornacciari et al. | A case-study for sentiment analysis on twitter. | |
Li et al. | Lifecycle research of social media rumor refutation effectiveness based on machine learning and visualization technology | |
Stahl et al. | A survey of data mining techniques for social network analysis | |
Chen et al. | Lexicon based Chinese language sentiment analysis method | |
Gottipati et al. | Analyzing tweets on new norm: work from home during COVID-19 outbreak | |
Santarcangelo et al. | Social opinion mining: an approach for Italian language | |
Barros et al. | Scientific knowledge percolation process and social impact: A case study on the biotechnology and microbiology perceptions on Twitter | |
Setyawan et al. | Sentiment Analysis of Public Responses on Indonesia Government Using Naïve Bayes and Support Vector Machine | |
Nam et al. | The Life and Death of Neologisms: On What Basis Shall We Include Neologisms in the Dictionary? | |
Norah et al. | An Effective Text Classifier Using Machine Learning for Identifying Tweets’ Polarity Concerning Terrorist Connotation | |
O’HALLORAN et al. | Big Data and managing multimodal complexity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160601 |
|
WD01 | Invention patent application deemed withdrawn after publication |