CN107066585B - 一种概率主题计算与匹配的舆情监测方法及系统 - Google Patents

一种概率主题计算与匹配的舆情监测方法及系统 Download PDF

Info

Publication number
CN107066585B
CN107066585B CN201710248537.3A CN201710248537A CN107066585B CN 107066585 B CN107066585 B CN 107066585B CN 201710248537 A CN201710248537 A CN 201710248537A CN 107066585 B CN107066585 B CN 107066585B
Authority
CN
China
Prior art keywords
document
theme
public sentiment
content
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710248537.3A
Other languages
English (en)
Other versions
CN107066585A (zh
Inventor
马坤
周劲
于自强
纪科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN201710248537.3A priority Critical patent/CN107066585B/zh
Publication of CN107066585A publication Critical patent/CN107066585A/zh
Application granted granted Critical
Publication of CN107066585B publication Critical patent/CN107066585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种概率主题计算与匹配的舆情监测方法及系统;包括:数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档进行主题匹配;中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,对合并后的内容进行分词,分词后去掉停用词;主题估计:对分词后的内容估计出主题库与历史文档主题集;主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集,从而实现舆情监测。

Description

一种概率主题计算与匹配的舆情监测方法及系统
技术领域
本发明涉及一种概率主题计算与匹配的舆情监测方法及系统。
背景技术
互联网成为继报纸、广播、电视之后的第四媒体,每天会产生大量的类似论坛、博客、微博、微信等媒体数据。网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。随着社交媒体的爆炸性增长,自动化舆情分析与监控可为多个领域或行业提供决策支持。然而,现有技术主要通过文本匹配实现舆情监测,缺乏语义支持,匹配后监测结果的排序并不一定完全准确。
大数据环境下,计算机辅助内容数据自动化分析技术是舆情监测的关键。现有技术主要存在三类内容分析方法:
(1)基于情感词典的内容分析:该方法将搜索关键词与预定义的标准词典进行匹配。然而,由于每个单词组合可以仅具有用于所有文本的一个固定的含义,所以这些手工创建的单词索引通常是不充分且有限的。除此之外,内容匹配不能考虑到语义相似的同义词;
(2)基于头词和修饰符共现的统计方法:不同于能够理解语言细微差别的程序员,该方法从大量内容文本中统计特定关键词隐藏的真实含义。该方法的缺点是不能发现未知知识;
(3)基于分类的内容分析:该方法使用神经网络、支持向量机、朴素贝叶斯、最大熵等建模对文本进行分类。然而,分类方法也不能发现隐藏的主题。
发明内容
本发明的目的就是对互联网媒体内容进行监测,及时发现网络舆情,提供一种概率主题计算与匹配的舆情监测方法及系统,本系统具有实时性,通过数据采集、主题计算与主题匹配实现舆情监测。
为了实现上述目的,本发明采用如下技术方案:
一种概率主题计算与匹配的舆情监测方法,包括:
步骤(1):数据采集:
步骤(101):数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;
步骤(102):存储推送:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配;
步骤(2):主题计算:
步骤(201):中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;
步骤(202):主题估计:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;
步骤(3):主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。
所述步骤(3)包括如下步骤:
步骤(301):文档分发:按轮询模式将数据采集实时推送的文档并行分发下去;
步骤(302):中文分词:将分发得到的每个文档的标题与对应内容合并后,用条件随机场CRF算法进行分词,然后去掉停用词;
步骤(303):主题推断:采用Gibbs抽样对分词后的内容和主题估计得到的主题库推断出实时文档主题集;
步骤(304):关键词匹配:将实时文档主题集与用户输入的舆情监测关键词进行匹配;
步骤(305):排序:按照文档评分从高到低对匹配后的文档集进行排序形成有序文档集。
一种概率主题计算与匹配的舆情监测方法,还包括:
步骤(4):舆情监测:根据步骤(3)得到的有序文档集中的排序,得出舆情的监控情况,排序越靠前的,越是当前舆情关注的热点。
所述数据源包括:论坛、博客、微博或微信。
所述爬虫集群包括:爬虫1、...、爬虫n。
所述规则库包括一组选择器。
所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档。所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器。
所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;
所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;
所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素等选择相应的元素。
主题计算中的主题估计,将主题估计抽象为Map任务与Reduce任务进行计算,步骤为:
Map任务,求解隐变量:为每个关键词随机生成一个主题,为每个文档计算伪频数,计算主题的后验概率;
Reduce任务,求解模型参数:将每个主题关键词的伪频数叠加后标准化,计算出每个主题的关键词分布与每个文档的主题分布;
主题存储:由每个主题的关键词分布归纳出后验概率最大的前M个主题,形成主题库。每个文档的主题分布中选择概率最大的前N个,形成文档主题集。
所述文档评分为文档相关度和文档助推值的乘积。
所述文档相关度为舆情监测关键词与文档主题的近似度,先计算舆情监测关键词与实际文档主题中的每个关键词的近似度,然后计算每个近似度与域助推值乘积,然后对所有的乘积进行求和。所述域助推值反映了文档中每个主题的重要程度,其值为该文档主题的后验概率。
所述文档助推值为文档重复次数、情感度、PageRank三者的乘积;
所述文档重复次数为该文档在采集数据出现的重复次数,重复次数越高说明该文档越热门;
所述情感度为该文档的情感评分,情感评分采用递归深度语义组合模型计算,情感评分越高说明该文档越积极,情感评分越低说明该文档越消极;情感评分五级制,-2分表示非常消极、-1表示消极、0表示中性、1表示积极、2表示积极;
所述PageRank反映了该文档的原始网页的链接引用情况,PageRank越高说明该文档的原始网页被引用的次数越高,即该文档越热门。
一种概率主题计算与匹配的舆情监测系统,包括:数据采集模块、主题计算模块和主题匹配模块;
所述数据采集模块,包括:
数据采集解析单元:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;
存储推送单元:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至主题匹配模块进行主题匹配;
所述主题计算模块,包括:
中文分词单元:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;
主题估计单元:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;
所述主题匹配模块:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。
所述主题匹配模块包括:
文档分发单元:按轮询模式将数据采集实时推送的文档并行分发下去;
中文分词单元:将分发得到的每个文档的标题与对应内容合并后,用条件随机场CRF算法进行分词,然后去掉停用词;
主题推断单元:采用Gibbs抽样对分词后的内容和主题估计得到的主题库推断出实时文档主题集;
关键词匹配单元:将实时文档主题集与用户输入的舆情监测关键词进行匹配;
排序单元:按照文档评分从高到低对匹配后的文档集进行排序形成有序文档集。
一种概率主题计算与匹配的舆情监测系统,还包括:
舆情监测模块:根据主题匹配模块得到的有序文档集中的排序,得出舆情的监控情况,排序越靠前的,越是当前舆情关注的热点。
关于专业术语的解释:
爬虫,也称作网页蜘蛛,是一种按照一定的规则自动地获取网页内容的程序或者脚本。
Gibbs抽样,吉布斯抽样,已知样本中一个属性在其它所有属性下的条件概率,然后利用这个条件概率来分布产生各个属性的样本值。
流处理是一种实时处理,输入和输出均为数据流。基于流处理的数据缓存即时一致网络拓扑包含多种数据处理,每种数据处理并发运行。
选择器,也称作HTML选择器,是一种模式,用于从页面HTML中选择相应的元素。
Map任务,MapReduce编程模型中的映射任务,用来把一组键值对映射成一组新的键值对。
Reduce任务,MapReduce编程模型中的化简任务,将上述键值对按键进行合并。
条件随机场(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
本发明的有益效果:
1、易扩展:文档爬取的规则库基于多种选择器,易扩展;
2、主题估计批处理:主题计算中的主题估计通过调度批量任务来进行映射、化简,实现主题估计批处理;
3、主题匹配具有高实时性:本发明提供的主题匹配基于流处理的网络拓扑实现中文分词、主题推断、主题匹配过程,数据处理不存储中间结果,数据处理具有即时性。
附图说明
图1概率主题计算与匹配的舆情监测系统结构图;
图2基于选择器的文档爬取流程;
图3主题估计流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1-3所示,一种概率主题计算与匹配的舆情监测系统,包括:数据采集、主题计算、主题匹配。
所述数据采集包括数据源、爬虫集群、全文检索系统、规则库。所述数据采集主要是从数据源的页面HTML中解析出媒体数据。所述数据源可能是论坛、博客、微博、微信等。所述爬虫集群由爬虫1、...、爬虫n等一组爬虫组成。爬虫集群中的爬虫1、...、爬虫n实时采集数据源中媒体数据,采集的一条媒体数据称作一篇文档,包含标题、时间与内容等属性。所述爬虫集群采用异步方式将采集到的文档存储在全文检索系统,采用同步方法将采集到的文档推送至主题匹配。爬虫集群中的爬虫1、...、爬虫n按照规则库解析采集到的页面HTML,所述规则库由一组选择器构成。
所述主题计算包括中文分词、主题估计、文档主题集、主题库。所述主题计算读取全文检索系统中的文档,计算出所有主题构成主题库,计算出每个文档的主题即文档主题集。所述中文分词将每个文档的标题与内容合并后进行分词,分词算法采用条件随机场(CRF),然后去掉常用停用词。所述主题估计采用Gibbs抽样对分词后的内容估计出主题库与文档主题集。
所述主题匹配,基于流处理网络进行数据处理,包括文档分发、中文分词、主题推断、主题匹配、有序文档集。所述主题匹配将数据采集实时推送的文档推断出文档主题集,并将该文档主题集与舆情监测关键词进行匹配,得到有序文档集。所述文档分发按轮询模式将数据采集实时推送的文档分发到不同的中文分词。所述中文分词将每个文档的标题与内容合并后进行分词,分词算法采用条件随机场(CRF),然后去掉常用停用词。所述主题推断采用Gibbs抽样对分词后的内容和主题计算的主题库推断出文档主题集。所述关键词匹配将文档主题集与舆情监测关键词进行匹配,得出匹配的有序文档集合。
所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档。所述选择器有三种,分别是元素选择器、属性选择器、联合选择器。
所述元素选择器通过HTML标签名称、HTML标签ID、HTML标签类名等选择相应的元素;
所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配、HTML标签属性值正则匹配等选择相应的元素;
所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素、相同父母元素的子元素等选择相应的元素。
主题计算中的主题估计,将主题估计抽象为Map任务与Reduce任务进行计算,步骤为:
Map任务,求解隐变量:为每个关键词随机生成一个主题,为每个文档计算伪频数,计算主题的后验概率;
Reduce任务,求解模型参数:将每个主题关键词的伪频数叠加后标准化,计算出每个主题的关键词分布与每个文档的主题分布;
主题存储:由每个主题的关键词分布归纳出概率最大的前M个主题,形成主题库。每个文档的主题分布中选择概率最大的前N个,形成文档主题集。
主题匹配按照文档评分对匹配后的文档集进行排序形成有序文档集。所述文档评分为文档相关度和文档助推值的乘积。所述文档相关度为舆情监测关键词与文档主题的近似度,即舆情监测关键词与文档主题中的每个关键词的近似度与域助推值乘积的求和。所述域助推值反映了文档中每个主题的重要程度,其值为该文档主题的后验概率。所述文档助推值为文档重复次数、情感度、PageRank三者的乘积。所述文档重复次数为该文档在采集数据出现的重复次数,重复次数越高说明该文档越热门。所述情感度为该文档的情感评分,情感评分采用递归深度语义组合模型计算,情感评分越高说明该文档越积极,情感评分越低说明该文档越消极。情感评分五级制,-2分表示非常消极、-1表示消极、0表示中性、1表示积极、2表示积极。所述PageRank反映了该文档的原始网页的链接引用情况,PageRank越高说明该文档的原始网页被引用的次数越高,即该文档越热门。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种概率主题计算与匹配的舆情监测方法,其特征是,包括:
步骤(1):数据采集:
步骤(101):数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;
所述规则库包括一组选择器;
所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档;所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器;
所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;
所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;
所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素选择相应的元素;
步骤(102):存储推送:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配;
步骤(2):主题计算:
步骤(201):中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;
步骤(202):主题估计:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;
步骤(3):主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。
2.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,
所述步骤(3)包括如下步骤:
步骤(301):文档分发:按轮询模式将数据采集实时推送的文档并行分发下去;
步骤(302):中文分词:将分发得到的每个文档的标题与对应内容合并后,用条件随机场CRF算法进行分词,然后去掉停用词;
步骤(303):主题推断:采用Gibbs抽样对分词后的内容和主题估计得到的主题库推断出实时文档主题集;
步骤(304):关键词匹配:将实时文档主题集与用户输入的舆情监测关键词进行匹配;
步骤(305):排序:按照文档评分从高到低对匹配后的文档集进行排序形成有序文档集。
3.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,还包括:
步骤(4):舆情监测:根据步骤(3)得到的有序文档集中的排序,得出舆情的监控情况,排序越靠前的,越是当前舆情关注的热点。
4.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,
主题计算中的主题估计,将主题估计抽象为Map任务与Reduce任务进行计算,步骤为:
Map任务,求解隐变量:为每个关键词随机生成一个主题,为每个文档计算伪频数,计算主题的后验概率;
Reduce任务,求解模型参数:将每个主题关键词的伪频数叠加后标准化,计算出每个主题的关键词分布与每个文档的主题分布;
主题存储:由每个主题的关键词分布归纳出后验概率最大的前M个主题,形成主题库;每个文档的主题分布中选择概率最大的前N个,形成文档主题集。
5.如权利要求2所述的一种概率主题计算与匹配的舆情监测方法,其特征是,
所述文档评分为文档相关度和文档助推值的乘积;
所述文档相关度为舆情监测关键词与文档主题的近似度,先计算舆情监测关键词与实际文档主题中的每个关键词的近似度,然后计算每个近似度与域助推值乘积,然后对所有的乘积进行求和;所述域助推值反映了文档中每个主题的重要程度,其值为该文档主题的后验概率。
6.如权利要求5所述的一种概率主题计算与匹配的舆情监测方法,其特征是,
所述文档助推值为文档重复次数、情感度、PageRank三者的乘积;
所述文档重复次数为该文档在采集数据出现的重复次数,重复次数越高说明该文档越热门;
所述情感度为该文档的情感评分,情感评分采用递归深度语义组合模型计算,情感评分越高说明该文档越积极,情感评分越低说明该文档越消极;情感评分五级制,-2分表示非常消极、-1表示消极、0表示中性、1表示积极、2表示积极;
所述PageRank反映了该文档的原始网页的链接引用情况,PageRank越高说明该文档的原始网页被引用的次数越高,即该文档越热门。
7.一种概率主题计算与匹配的舆情监测系统,其特征是,包括:数据采集模块、主题计算模块和主题匹配模块;
所述数据采集模块,包括:
数据采集解析单元:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;
所述规则库包括一组选择器;
所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档;所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器;
所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;
所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;
所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素选择相应的元素;
存储推送单元:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至主题匹配模块进行主题匹配;
所述主题计算模块,包括:
中文分词单元:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;
主题估计单元:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;
所述主题匹配模块:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。
8.如权利要求7所述的系统,其特征是,
所述主题匹配模块包括:
文档分发单元:按轮询模式将数据采集实时推送的文档并行分发下去;
中文分词单元:将分发得到的每个文档的标题与对应内容合并后,用条件随机场CRF算法进行分词,然后去掉停用词;
主题推断单元:采用Gibbs抽样对分词后的内容和主题估计得到的主题库推断出实时文档主题集;
关键词匹配单元:将实时文档主题集与用户输入的舆情监测关键词进行匹配;
排序单元:按照文档评分从高到低对匹配后的文档集进行排序形成有序文档集。
9.如权利要求7所述的系统,其特征是,还包括:
舆情监测模块:根据主题匹配模块得到的有序文档集中的排序,得出舆情的监控情况,排序越靠前的,越是当前舆情关注的热点。
CN201710248537.3A 2017-04-17 2017-04-17 一种概率主题计算与匹配的舆情监测方法及系统 Active CN107066585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710248537.3A CN107066585B (zh) 2017-04-17 2017-04-17 一种概率主题计算与匹配的舆情监测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710248537.3A CN107066585B (zh) 2017-04-17 2017-04-17 一种概率主题计算与匹配的舆情监测方法及系统

Publications (2)

Publication Number Publication Date
CN107066585A CN107066585A (zh) 2017-08-18
CN107066585B true CN107066585B (zh) 2019-10-01

Family

ID=59599455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710248537.3A Active CN107066585B (zh) 2017-04-17 2017-04-17 一种概率主题计算与匹配的舆情监测方法及系统

Country Status (1)

Country Link
CN (1) CN107066585B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256005A (zh) * 2018-01-02 2018-07-06 深圳壹账通智能科技有限公司 互联网产品监控方法及终端设备
CN109189934B (zh) * 2018-11-13 2024-07-19 平安科技(深圳)有限公司 舆情推荐方法、装置、计算机设备及存储介质
CN109492162A (zh) * 2018-11-23 2019-03-19 四川工大创兴大数据有限公司 一种智能化粮情监测方法及其系统
CN112148936A (zh) * 2020-10-10 2020-12-29 广州瀚信通信科技股份有限公司 一种基于scrapy爬虫架构及文本分析的商旅舆情分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN105550365A (zh) * 2016-01-15 2016-05-04 中国科学院自动化研究所 一种基于文本主题模型的可视化分析系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8954425B2 (en) * 2010-06-08 2015-02-10 Microsoft Corporation Snippet extraction and ranking

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN105550365A (zh) * 2016-01-15 2016-05-04 中国科学院自动化研究所 一种基于文本主题模型的可视化分析系统

Also Published As

Publication number Publication date
CN107066585A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
Nodarakis et al. Large Scale Sentiment Analysis on Twitter with Spark.
Garg et al. The structure of word co-occurrence network for microblogs
CN107066585B (zh) 一种概率主题计算与匹配的舆情监测方法及系统
Ahlgren Research on sentiment analysis: the first decade
Lipczak et al. The impact of resource title on tags in collaborative tagging systems
Pablos et al. V3: Unsupervised generation of domain aspect terms for aspect based sentiment analysis
Peng et al. High quality information extraction and query-oriented summarization for automatic query-reply in social network
Zubiaga et al. Content-based clustering for tag cloud visualization
Gong et al. Phrase-based hashtag recommendation for microblog posts.
Franzoni et al. Automated classification of book blurbs according to the emotional tags of the social network Zazie
Najadat et al. Automatic keyphrase extractor from arabic documents
Sendi et al. Possibilistic interest discovery from uncertain information in social networks
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Du et al. Recommendation of academic papers based on heterogeneous information networks
Godoy et al. Leveraging semantic similarity for folksonomy-based recommendation
Mozafari et al. Content similarity analysis of written comments under posts in social media
Osiński et al. Dimensionality reduction techniques for search results clustering
Abd Allah et al. Contribution to the methods of indexing Arabic textual documents to improve the performance of IRS
Angdresey et al. Classification and Sentiment Analysis on Tweets of the Ministry of Health Republic of Indonesia
Alorini et al. Machine learning enabled sentiment index estimation using social media big data
Kannan et al. Text document clustering using statistical integrated graph based sentence sensitivity ranking algorithm
Nodarakis et al. MR-SAT: a MapReduce algorithm for big data sentiment analysis on Twitter
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
Hemavathi et al. Information extraction from social media: Clustering and labelling microblogs
Pandit et al. A query specific graph based approach to multi-document text summarization: simultaneous cluster and sentence ranking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant