CN103150432A - 一种网络舆情分析方法 - Google Patents

一种网络舆情分析方法 Download PDF

Info

Publication number
CN103150432A
CN103150432A CN2013100721373A CN201310072137A CN103150432A CN 103150432 A CN103150432 A CN 103150432A CN 2013100721373 A CN2013100721373 A CN 2013100721373A CN 201310072137 A CN201310072137 A CN 201310072137A CN 103150432 A CN103150432 A CN 103150432A
Authority
CN
China
Prior art keywords
theme
text
page
sentence
body part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100721373A
Other languages
English (en)
Other versions
CN103150432B (zh
Inventor
高云棋
田丹
郭成林
刘红玉
刘丹
彭春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Original Assignee
NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd filed Critical NINGBO CHENGDIAN TAIKE ELECTRONIC INFORMATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN201310072137.3A priority Critical patent/CN103150432B/zh
Publication of CN103150432A publication Critical patent/CN103150432A/zh
Application granted granted Critical
Publication of CN103150432B publication Critical patent/CN103150432B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种网络舆情分析方法,具体通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式,并根据匹配的结果将文章表示为若干主题,通过为每种主题设定权值并计算页面的权值和,从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配,同时免去了聚类、分类等复杂步骤,能够在保证一定准确度的情况下能综合各种指标,对各种页面进行高速舆情分析,达到最快的分析速度。

Description

一种网络舆情分析方法
技术领域
本发明属于网络信息处理技术领域,具体涉及一种网络舆情分析方法。 
背景技术
随着互联网技术的不断发展,网络已经成为人们相互交流的重要的平台之一。由于互联网的自由和开放性,任何人均可以在论坛、博客、微博等新兴媒体上发布言论,同时也带来了互联网舆情和不良信息传播等一系列问题,一旦某条信息没有及时被监测到,就很容易引发谣言散播,甚至引发群体性事件,从而为社会带来不稳定因素。因而,有必要提出一种快速、有效的方法,对海量规模的网页进行有针对性的舆情判定。 
CN101408883公开了一种网络舆情观点收集方法,该方案主要包括以下步骤:(1)、从爬虫数据库中的信息文档中提取出热点词,根据热点词,提取热点词相关的信息文档,构成该热点词相关的热点事件文档集;(2)、在热点事件文档集中,提取信息文档中的关键句,构成关键句集,在提取关键句过程中,在该关键句句末添加网民的身份标记,以标记该关键句的所属用户;(3)、对关键句集中的关键句进行聚类,对聚类结果按每类句子数对其排序,取句子数最高的前M类,形成M类观点主题句集;(4)、建立不同类别的情感词库,情感词库中的每一个词语对应一个权值,对M类观点主题句集分别标注其对应的情感词库,然后依据情感词库,分别对M类观点主题句集中的关键句的情感词进行情感标记,然后根据情感标记计算出每个关键句的情感倾向值,再依据关键句的网民的身份标记,计算出每个网民在该观点主题下的情感倾向值,从而得到某一热点事件的网络舆情观点。 
此该方案虽然能够解决舆情判定的问题,但是仍存在以下问题:1、由于使用聚类和情感分析方法需要分词和词性标注,耗时较长,同时聚类本身也是较为耗时的过程;2、非新闻页面的标点使用不正规,经常出现以空格代替标点、错用标点等情况,难以准确提取主题句,而微博因为文字长度较短,更无法以主题句为基本单位进行分析;3、无法根据用户需求进一步筛选特定舆情信息,如按地区进行筛选、按内容进行筛选等。 
发明内容
本发明的目的是为了解决上述方案中舆情分析耗时较长且准确度不足这一技术问题,提出了一种网络舆情分析方法。 
本发明的技术方案为:一种网络舆情分析方法,具体包括如下步骤: 
S1:参数初始化: 
待匹配的关键词表,包含若干个用于描述舆情信息的关键词,以及该关键词对应的主题编号;待匹配的关键句式表,包含若干个描述舆情信息的句式的正则表达式,以及该关键句 式的所述主题编号;主题编号到主题性质与主题权值的映射表; 
S2:从待匹配的关键词表中读入每个要匹配的关键词,并将每个词语加入到AC自动机的词语树前缀中,完成词语树构建; 
S3:从待匹配的关键句式表中读入每种句式对应的正则表达式; 
S4:读入待分析页面,提取待分析页面的正文部分; 
S5:遍历正文,匹配正文中出现的关键词并计算出每一个关键词出现的次数,同时根据待匹配的关键词表查询出每个关键词对应的主题编号; 
S6:将正文部分中的内容根据标点或者空格划分为若干句,删去其中字数小于θs的句子,对于剩余的句子,进行关键句式匹配,其中,θs为预先设置的最小句子长度阈值; 
S7:根据步骤S5和S6匹配结果,确定正文部分的主题组合; 
S8:根据映射表,以及步骤S7得到的正文部分的主题组合,按如下公式计算正文的舆情指数: 
R=A1SS+A2SN-A3SP-A4SI-A5SF; 
其中,SS为正文中出现的敏感类问题的权值和,SN为负面情感主题的权值和,SP为正面情感主题的权值和,SI为非舆情类主题的权值和,SF为描述国外情形主题的权值和,A1、A2、A3、A4、A5为预先设置的经验参数; 
S9:根据步骤S7和S8结果,若R≥Tr且正文中不包含用户设定的过滤关键字,同时正文描述内容涉及地区与用户设定的关注地区一致,则认定该正文为用户关心的舆情信息,其中,Tr为预先设置的认定某一页面为舆情的最小门限值。 
上述步骤S4提取待分析页面的正文部分的具体过程如下: 
S401:利用正则表达式匹配方法,根据页面的原始URL地址,以及页面HTML代码中包含的关键代码,判断出页面的所述类型; 
S402:如果页面属于某一新闻网站或者博客,则提取所有页面段落,并将页面的标题以单独段落计入正文;如果页面属于某一论坛,对于每个讨论帖,将发帖人的主帖部分和该讨论帖内发帖人字数大于θf的回帖合并作为正文,并将其他字数大于2θf的跟帖作为单独的正文进行分析,其中,θf为预先设置的一个论坛回帖可以被分析所需的最小字数;如果页面属于某一微博客,将每条字数大于的θm发言看作正文并进行单独分析,其中,θm为预先设置的微博跟帖可以被分析所需的最小字数。 
上述步骤S6进行关键句式匹配的具体过程如下: 
S601:读出待匹配的关键句式表中的一个正则表达式,用该正则表达式匹配该句子; 
S602:若S601所述正则表达式匹配成功,则认定该句子为正则表达式对应的关键句式, 记录该句式对应的主题编号,并将该句式出现次数增加1;若S601所述正则匹配不成功,则继续执行步骤S601,直到所有正则表达式匹配完毕。 
上述步骤S7中确定正文部分的主题组合具体为:对于长文本,某一主题内包含的主题词或者关键句要在文中出现的次数不小于θz1次,则认为正文部分涉及该主题;对于短文本,某一主题内包含的主题词或者关键句在文中出现的次数不小于θz2,则认为正文部分涉及该主题,其中,θz1、θz2为预先设置的阈值。 
进一步的,上述长文本具体为新闻、博客和论坛正文;所述的短文本具体为论坛回帖或者微博。 
本发明的有益效果为:本发明的方法通过使用AC自动机和正则表达式匹配出正文中的关键词和关键句式,并根据匹配的结果将文章表示为若干主题,通过为每种主题设定权值并计算页面的权值和,从而快速、准确的分析并判断页面是否属于舆情。本发明的方法以主题匹配代替简单舆情分析中的词语匹配,同时免去了聚类、分类等复杂步骤,能够在保证一定准确度的情况下能综合各种指标,对各种页面进行高速舆情分析,达到最快的分析速度。 
附图说明
图1为本发明网络舆情分析方法实施过程流程示意图。 
具体实施方式
下面结合附图和具体实施例对本发明做进一步的说明。 
本发明网络舆情分析方法实施过程流程示意图如图1所示,具体包括如下步骤: 
S1:初始化参数: 
待匹配的关键词表Tw如表1所示,该关键词表使用LDA对20000个训练文本进行自动分析后得到,总共200个主题,其中每个主题包含30个关键词,以及该关键词的所述主题编号,一个关键词可以同时属于多个主题;待匹配的关键句式表Ts如表2所示,其中包含若干关键句式的正则表达式描述,以及该关键句式对应的主题编号;主题编号到主题性质与主题权值的映射表Tm如表3所示,其中,主题性质取:S-敏感话题,N-负面描写,P-正面描写,F-国外内容,I-与舆情无关。 
这里的主题为一组相关词语或者句式的组合,出自论文“Probabilistic Topic Models,Signal Processing Magazine,第27卷,55-65,David M.Blei等”标题中topic一词的翻译,具体描述一类事物或者事物的某一种特征,如颜色、形状等,在本实施例中也可以用来表示情感、地区等特征。 
本实施过程中用到的其它参数初始化如下:一个论坛回帖或者微博跟帖可以被分析所 需的最小字数θf=30和θm=10;最小句子长度θs=6个中文汉字长度;认定一篇新闻或者博客或者论坛的主贴部分涉及某一主题所需要出现的最小主题词个数或者次数θz1=4,认定一个论文跟帖或者微博发言涉及某一主题所需出现的最小主题词个数或者次数θz2=1;A1-A5为计算舆情指数R时所需要的经验参数,取值分别为1.8、8、10、5、8;Tr=200为认定一篇文章为舆情的最小门限值;用户关注所有地区,且没有设定任何屏蔽关键字。 
LDA出自论文“Latent Dirichlet Allocation,Journal of Machine Learning Research,第三卷,993-1022页,David M.Blei等”,用于分析大量文本中出现的主题,并提取每个主题包含的词语。 
表1 
词语 主题编号 词语 主题编号 词语 主题编号
情况 9 政府 83 拆迁 96
问题 9 影响 83 房屋 96
落实 9 事件 83 补偿 96
保障 9 利益 83 拆除 96
监督 9 关注 83 房屋 96
老人 129 学校 156 卖淫 192
母亲 129 学生 156 抢劫 192
父亲 129 教师 156 案件 192
父母 129 班主任 156 抓获 192
家人 129 高校 156 嫌疑人 192
表2 
关键句式对应的未编译的正则表达式 主题编号
连.*都.*得不到 42
(弃|置).*不顾 42
还.*清白 42
致.*的.*公开信 61
[0040]  表3 
主题编号 主题性质 主题权值
9 N 10
83 N 15
96 S 100
129 I 0
156 S 10
192 S 80
S2:从S1所述的Tw中读入每个要匹配的关键词,并将每个词语加入到AC自动机的词语树中,完成词语树构建过程。 
这里的AC自动机为Aho-Corasick多模匹配算法的另一种说法,由Alfred V.Aho和Margaret J.Corasick最先提出,用于实现高速匹配一段文字出是否出现多个关键词中的一个或者若干个;词语树前缀一种AC自动机使用的数据结构,用于表示待匹配的关键词。 
S3:从S2所述的Ts中读入每种句式对应的正则表达式,这里将正则表达式编译并读入内存以加快正则表达式的匹配速度; 
S4:读入待分析页面,提取页面的正文部分,本实施例中所使用页面来自腾讯网某一新闻。 
这里正文的提取方法可以按步骤S401-S402进行: 
S401:使用正则表达式匹配方法,根据页面的原始URL地址http://news.qq.com/a/20100220/000882.htm,以及页面HTML代码中包含的关键代码<a href="http://news.qq.com">新闻中心</a>,判断出页面的所述类型为新闻; 
S402:如果页面属于某一新闻网站或者博客,则提取所有页面段落,并将其标题以单独段落计入正文,根据S401匹配结果,得到页面对应正文。 
如果页面属于某一论坛,对于每个讨论帖,将发帖人的主帖部分和该讨论帖内发帖人字数大于30字的回帖合并作为正文,并将其它字数大于60字的跟帖作为单独的正文进行分析,根据S401匹配结果,此条步骤被跳过。 
如果页面属于某一微博客,将每条字数大于的10字发言视作正文进行单独分析,根据S401匹配结果,此条步骤被跳过。 
S5:遍历正文,使用S2所述关键词匹配单元匹配正文中出现的关键词并计算出每一个 关键词出现的次数,同时根据表Tw查询出每个关键词所述的主题编号。 
S6:将正文部分中根据标点或者空格划分为若干句,删去其中字数小于6的句子,对于剩余的每一句话,可以按以下步骤进行关键句式匹配: 
S601:从内存中读出Ts的一个编译后的正则表达式,用该正则表达式匹配该句子; 
S602:若S601所述正则表达式匹配成功,则认定该句子为正则表达式对应的关键句式,记录该句式对应的主题编号,并将该句式出现次数增加1;若S601所述正则匹配不成功,则继续步骤S601,直到所有正则表达式匹配完毕。 
S7:根据S5和S6匹配结果,确定正文部分的主题组合,具体方法为,对于新闻或者微博,某一主题内包含的主题词或者关键句要在文中出现4次,而对于论坛回帖和微博要出现1次,即认为正文涉及该主题。本例中正文的主题组合为9、83、96、129、156。 
S8:根据映射表Tm,以及S7所述的正文部分的主题组合,按如下公式计算正文的舆情指数: 
R=1.8SS+8SN-10SS-5SI-8SF
其中,SS为文章中出现的敏感类问题的权值和,SN为负面情感主题的权值和,SP为正面情感主题的权值和,SI为非舆情类主题的权值和,SF为描述国外情形主题的权值和; 
带入S7的结果并参考映射表,由于本例中正文的情感倾向为严重负向,且不涉及无关话题也没有描述国外情形的词语,最终计算结果为R=1.8*(100+10)+8*(10+15)=398; 
S9:根据S7和S8结果,因为R=398>200,且描述地区与用户关注地区一致,同时该主题没有用户设定的屏蔽关键字,因而认定此页面为用户所关注的舆情信息。 
本发明的方法具有如下几个优点: 
1、使用的AC自动机和正则表达式匹配均为高速方法,可以有效降低时间开销; 
2、通过根据正文部分中的关键词和关键句将正文表示为若干主题的组合,除了可以判断页面内容外,还可以同时判断出页面的情感倾向、地区相关等信息,进一步简化整个分析的过程; 
3、每一个主题都是一组有实际意义的词语或者句式集合,因而可以根据正文的主题表示帮助用户根据内容或者地区偏好过滤用户不关心的舆情。 
根据实际测试,在20000个关键词和1000条关键句式的规模下,分析一篇200句篇幅的页面只需要不到0.1秒时间。 
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和 组合,这些变形和组合仍然在本发明的保护范围内。 

Claims (5)

1.一种网络舆情分析方法,具体包括如下步骤:
S1:参数初始化:
待匹配的关键词表,包含若干个用于描述舆情信息的关键词,以及该关键词对应的主题编号;待匹配的关键句式表,包含若干个描述舆情信息的句式的正则表达式,以及该关键句式的所述主题编号;主题编号到主题性质与主题权值的映射表;
S2:从待匹配的关键词表中读入每个要匹配的关键词,并将每个词语加入到AC自动机的词语树前缀中,完成词语树构建;
S3:从待匹配的关键句式表中读入每种句式对应的正则表达式;
S4:读入待分析页面,提取待分析页面的正文部分;
S5:遍历正文,匹配正文中出现的关键词并计算出每一个关键词出现的次数,同时根据待匹配的关键词表查询出每个关键词对应的主题编号;
S6:将正文部分中的内容根据标点或者空格划分为若干句,删去其中字数小于θs的句子,对于剩余的句子,进行关键句式匹配,其中,θs为预先设置的最小句子长度阈值;
S7:根据步骤S5和S6匹配结果,确定正文部分的主题组合;
S8:根据映射表,以及步骤S7得到的正文部分的主题组合,按如下公式计算正文的舆情指数:
R=A1SS+A2SN-A3SP-A4SI-A5SF
其中,SS为文章中出现的敏感类问题的权值和,SN为负面情感主题的权值和,SP为正面情感主题的权值和,SI为非舆情类主题的权值和,SF为描述国外情形主题的权值和,A1、A2、A3、A4、A5为预先设置的经验参数;
S9:根据步骤S7和S8结果,若R≥Tr且文章中不包含用户设定的过滤关键字,同时文章描述内容涉及地区与用户设定的关注地区一致,则认定该正文为用户关心的舆情信息,其中,Tr为预先设置的认定一篇文章为舆情的最小门限值。
2.根据权利要求1所述的网络舆情分析方法,其特征在于,所述步骤S4提取待分析页面的正文部分的具体过程如下:
S401:利用正则表达式匹配方法,根据页面的原始URL地址,以及页面HTML代码中包含的关键代码,判断出页面的所述类型;
S402:如果页面属于某一新闻网站或者博客,则提取所有文章段落,并将文章的标题以单独段落计入正文;如果页面属于某一论坛,对于每个讨论帖,将发帖人的主帖部分和该讨论帖内发帖人字数大于θf的回帖合并作为正文,并将其他字数大于2θf的跟帖作为单独的正文进行分析,其中,θf为预先设置的一个论坛回帖可以被分析所需的最小字数;如果页面属于某一微博客,将每条字数大于的θm发言看作正文并进行单独分析,其中,θm为预先设置的微博跟帖可以被分析所需的最小字数。
3.根据权利要求1所述的网络舆情分析方法,其特征在于,所述步骤S6进行关键句式匹配的具体过程如下:
S601:读出待匹配的关键句式表中的一个正则表达式,用该正则表达式匹配该句子;
S602:若S601所述正则表达式匹配成功,则认定该句子为正则表达式对应的关键句式,记录该句式对应的主题编号,并将该句式出现次数增加1;若S601所述正则匹配不成功,则继续执行步骤S601,直到所有正则表达式匹配完毕。
4.根据权利要求1所述的网络舆情分析方法,其特征在于,所述步骤S7中确定正文部分的主题组合具体为:对于长文本,某一主题内包含的主题词或者关键句要在文中出现的次数不小于θz1次,则认为正文部分涉及该主题;对于短文本,某一主题内包含的主题词或者关键句在文中出现的次数不小于θz2,则认为正文部分涉及该主题,其中,θz1、θz2为预先设置的阈值。
5.根据权利要求1所述的网络舆情分析方法,其特征在于,所述的长文本具体为新闻、博客和论坛正文;所述的短文本具体为论坛回帖或者微博。
CN201310072137.3A 2013-03-07 2013-03-07 一种网络舆情分析方法 Expired - Fee Related CN103150432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310072137.3A CN103150432B (zh) 2013-03-07 2013-03-07 一种网络舆情分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310072137.3A CN103150432B (zh) 2013-03-07 2013-03-07 一种网络舆情分析方法

Publications (2)

Publication Number Publication Date
CN103150432A true CN103150432A (zh) 2013-06-12
CN103150432B CN103150432B (zh) 2016-05-11

Family

ID=48548508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310072137.3A Expired - Fee Related CN103150432B (zh) 2013-03-07 2013-03-07 一种网络舆情分析方法

Country Status (1)

Country Link
CN (1) CN103150432B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN105589953A (zh) * 2015-12-21 2016-05-18 南通大学 一种突发公共卫生事件互联网文本抽取方法
CN105701097A (zh) * 2014-11-25 2016-06-22 四三九九网络股份有限公司 一种基于社交网络平台的舆情分析方法及系统
CN105956740A (zh) * 2016-04-19 2016-09-21 北京深度时代科技有限公司 一种基于文本逻辑特征的语义风险计算方法
CN106156170A (zh) * 2015-04-16 2016-11-23 北大方正集团有限公司 舆情分析方法及装置
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN106933798A (zh) * 2015-12-31 2017-07-07 北京城市网邻信息技术有限公司 信息分析的方法及装置
CN103778200B (zh) * 2014-01-09 2017-08-08 中国科学院计算技术研究所 一种报文信息源抽取方法及其系统
CN107169092A (zh) * 2017-05-12 2017-09-15 暴风体育(北京)有限责任公司 交互过程中智能识别并处理敏感内容的方法及系统
CN107729337A (zh) * 2016-08-11 2018-02-23 北京国双科技有限公司 事件的监测方法和装置
CN108304571A (zh) * 2018-02-22 2018-07-20 湘潭大学 基于粒子模型话题分析算法的便携式网络舆情分析系统
CN108932291A (zh) * 2018-05-23 2018-12-04 福建亿榕信息技术有限公司 电网舆情评价方法、存储介质及计算机
CN109543089A (zh) * 2018-11-30 2019-03-29 南方电网科学研究院有限责任公司 一种网络安全情报数据的分类方法、系统及相关装置
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN112183067A (zh) * 2020-09-23 2021-01-05 夏一雪 一种大数据环境下网络舆情人工智能分析系统
CN113157858A (zh) * 2021-03-25 2021-07-23 上海柏观数据科技有限公司 一种基于情感词匹配与频度结合的情感程度检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007131213A2 (en) * 2006-05-05 2007-11-15 Visible Technologies, Inc. Systems and methods for consumer-generated media reputation management
US20070294281A1 (en) * 2006-05-05 2007-12-20 Miles Ward Systems and methods for consumer-generated media reputation management
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
US20100275128A1 (en) * 2006-05-05 2010-10-28 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007131213A2 (en) * 2006-05-05 2007-11-15 Visible Technologies, Inc. Systems and methods for consumer-generated media reputation management
US20070294281A1 (en) * 2006-05-05 2007-12-20 Miles Ward Systems and methods for consumer-generated media reputation management
US20100275128A1 (en) * 2006-05-05 2010-10-28 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
CN101819573A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种自适应的网络舆情识别方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778200B (zh) * 2014-01-09 2017-08-08 中国科学院计算技术研究所 一种报文信息源抽取方法及其系统
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统
CN105701097A (zh) * 2014-11-25 2016-06-22 四三九九网络股份有限公司 一种基于社交网络平台的舆情分析方法及系统
CN105701097B (zh) * 2014-11-25 2018-11-09 四三九九网络股份有限公司 一种基于社交网络平台的舆情分析方法及系统
CN106156170B (zh) * 2015-04-16 2019-05-14 北大方正集团有限公司 舆情分析方法及装置
CN106156170A (zh) * 2015-04-16 2016-11-23 北大方正集团有限公司 舆情分析方法及装置
CN104951548A (zh) * 2015-06-24 2015-09-30 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN104951548B (zh) * 2015-06-24 2018-04-20 烟台中科网络技术研究所 一种负面舆情指数的计算方法及系统
CN105589953A (zh) * 2015-12-21 2016-05-18 南通大学 一种突发公共卫生事件互联网文本抽取方法
CN106933798A (zh) * 2015-12-31 2017-07-07 北京城市网邻信息技术有限公司 信息分析的方法及装置
CN106933798B (zh) * 2015-12-31 2020-09-08 北京城市网邻信息技术有限公司 信息分析的方法及装置
CN105956740A (zh) * 2016-04-19 2016-09-21 北京深度时代科技有限公司 一种基于文本逻辑特征的语义风险计算方法
CN105956740B (zh) * 2016-04-19 2019-12-31 北京深度时代科技有限公司 一种基于文本逻辑特征的语义风险计算方法
CN107729337A (zh) * 2016-08-11 2018-02-23 北京国双科技有限公司 事件的监测方法和装置
CN107729337B (zh) * 2016-08-11 2020-05-22 北京国双科技有限公司 事件的监测方法和装置
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN107169092A (zh) * 2017-05-12 2017-09-15 暴风体育(北京)有限责任公司 交互过程中智能识别并处理敏感内容的方法及系统
CN108304571A (zh) * 2018-02-22 2018-07-20 湘潭大学 基于粒子模型话题分析算法的便携式网络舆情分析系统
CN108304571B (zh) * 2018-02-22 2020-10-09 湘潭大学 基于粒子模型话题分析算法的便携式网络舆情分析系统
CN108932291A (zh) * 2018-05-23 2018-12-04 福建亿榕信息技术有限公司 电网舆情评价方法、存储介质及计算机
CN108932291B (zh) * 2018-05-23 2022-08-23 福建亿榕信息技术有限公司 电网舆情评价方法、存储介质及计算机
CN109543089A (zh) * 2018-11-30 2019-03-29 南方电网科学研究院有限责任公司 一种网络安全情报数据的分类方法、系统及相关装置
CN112183067A (zh) * 2020-09-23 2021-01-05 夏一雪 一种大数据环境下网络舆情人工智能分析系统
CN112183067B (zh) * 2020-09-23 2022-05-27 夏一雪 一种大数据环境下网络舆情人工智能分析系统
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法
CN113157858A (zh) * 2021-03-25 2021-07-23 上海柏观数据科技有限公司 一种基于情感词匹配与频度结合的情感程度检测方法

Also Published As

Publication number Publication date
CN103150432B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN103150432B (zh) 一种网络舆情分析方法
CN102866989B (zh) 基于词语依存关系的观点抽取方法
CN104679728B (zh) 一种文本相似度检测方法
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN104881402B (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和系统
CN102163187B (zh) 文档标记方法和装置
CN102096680A (zh) 信息有效性分析的方法和装置
CN101894102A (zh) 一种主观性文本情感倾向性分析方法和装置
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN103678564A (zh) 一种基于数据挖掘的互联网产品调研系统
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
CN101609459A (zh) 一种情感特征词提取系统
CN103294664A (zh) 开放领域新词发现的方法及系统
CN104915443B (zh) 一种中文微博评价对象的抽取方法
CN103902619B (zh) 一种网络舆情监控方法及系统
Younes et al. Constructing linguistic resources for the Tunisian dialect using textual user-generated contents on the social web
Janssen NeoTag: a POS Tagger for Grammatical Neologism Detection.
CN104731812A (zh) 一种基于文本情感倾向识别的舆情检测方法
CN102236650A (zh) 用于修正和/或扩展情感词典的方法和装置
CN104899335A (zh) 一种对网络舆情信息进行情感分类的方法
CN106294316A (zh) 一种基于词典的文本情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160511

Termination date: 20170307