CN113468868A - 一种基于nlp的实时网络热点内容分析方法 - Google Patents
一种基于nlp的实时网络热点内容分析方法 Download PDFInfo
- Publication number
- CN113468868A CN113468868A CN202110767096.4A CN202110767096A CN113468868A CN 113468868 A CN113468868 A CN 113468868A CN 202110767096 A CN202110767096 A CN 202110767096A CN 113468868 A CN113468868 A CN 113468868A
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- words
- heat
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000008859 change Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 13
- 230000007704 transition Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 241000282994 Cervidae Species 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于NLP的实时网络热点内容分析方法,利用搜索引擎对关键词进行搜索,获取到网络数据内容,通过分词模型对文本进行数据预处理,从而达到计算机自动识别语句含义的效果;利用预处理后的文本数据,通过采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估,得到某话题实时的热度值;并利用关键词提取技术,可以得到与该话题相关的文本内容;利用所分析好的热度值数据和相关文本数据,可以以折线图或词云图等图例形式直观地展示,更好的观测某话题的热度变化情况。
Description
技术领域
本发明涉及计算机领域和自然语言处理领域,特别涉及一种基于NLP的实时网络热点内容分析方法。
背景技术
在大数据时代,互联网信息呈现海量、动态、多样的异质性特征,由于大量的相关性和零星因素,使得舆情更加复杂多变,传统的舆情监测研究和判断方法难以奏效。海量数据强化了社会舆论的“瞎子和大象”效应,极端观点更容易通过网络乘数效应放大,从而强化了舆论的极端情绪。在信息分散的大数据时代,舆论管理也越来越困难,因此加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。
如今互联网技术迅猛发展,网络成为人们获取信息的主要渠道。由于网络信息高速传播以及信息量大的特性,如何在较短时间内快速准确地发现网络热点信息,成为数据挖掘与自然语言处理领域研究的热点。网络热点信息是对社会各阶级领域所关注话题的阐述,尤其舆情分析可以透过现象真正挖掘事情的本质。目前,国内外学者主要从两个方面对话题发现技术进行研究。在话题发现模型选择方面,有经常使用的LDA模型(三层贝叶斯概率模型)进行话题发现,但是过于复杂,效率不高;在话题发现算法方面,有学者提出在线话题发现算法和增量全局的K-Means算法进行话题发现,但是这些方法比较传统,适应场景有限。
基于这些算法的不足,本发明通过采用话题热度计算方法计算某话题的热度值,并对话题文本中分词集合进行热度评估,计算出每个分词的热度值,可以有效的对网络热点信息进行分析处理,从而实时对话题热度进行评估,提取关键信息,实时观测网络热点信息变化情况。
发明内容
为克服上述现有技术的不足,本发明的目的是提供一种基于NLP的实时网络热点内容分析方法,实现网络热点信息进行预处理、热点信息话题热度评估、网络热点信息关键词提取等功能。
为了实现上述目的,本发明采用的技术方案是:
一种基于NLP的实时网络热点内容分析方法,利用搜索引擎对关键词进行搜索,获取到网络文本数据,即文本语料库,通过分词模型对文本数据预处理,采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估,并利用关键词提取技术,可以得到与该话题相关的文本内容,其特征在于,包括以下步骤:
步骤S1,通过爬取或者下载网站的公开语料库,获得网络文本数据,对获取的网络文本数据进行预处理,主要是对网络文本数据进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤网络文本数据中出现频率很高,但无实际意义的词,获得预处理数据;
步骤S2,利用话题热度计算方法对话题热度指数进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;
步骤S3,利用步骤S1的预处理数据,基于TF-IDF算法进行关键词抽取,使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的话题热度计算方法计算与话题相关的关键词的热度值,根据所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图图例对分析的数据进行可视化展示,可观测网络热点内容的变化。
所述步骤S1包括以下步骤:
步骤S11,利用TF-IDF算法对网络文本数据进行中文分词,根据词频和逆文档频率相乘,得到一个词的TF-IDF值,当某个词在文本中的TF-IDF越大,说明这个词的在文本中的重要性越高;
步骤S12,利用词性标注模型标注这些词语的词性,即确定它们在这句话中是名词还是代词或其它语气词,词性标注采用基于统计最大概率输出词性的方法;
步骤S13,网络文本数据已分成单个词语,对于没有实用价值的语气助词、虚词、感叹词进行去停用词操作。
所述步骤S11包括以下步骤:
1)计算词频TF:
2)计算逆文档频率:
3)计算TF-IDF:
TF-IDF=词频TF×逆文档频率IDF。
所述步骤S12中,通过HMM隐马尔科夫模型标注词性,观测序列为分词后的语句,隐藏序列为经过标注后的词性标注序列;初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到,观测序列到隐藏序列的计算通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到,得到隐藏序列后,就完成了词性标注过程。
所述步骤S13中,去停用词就是过滤掉一些无实际意义的词,将从如下三个方面进行去停用词:
1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;
2)依据词的长度判断,将长度为1的词去除;
3)依据停用词表判断,停用词表中收录了2000多个无用词,可将停用词表中含有的词进行去除。
所述步骤S2中,对话题文本热度进行计算,具体过程如下:
Sheat=100+25*Nretweet+8*Ncomment+3*Nlike (1)
其中Sheat表示某话题的热度值;100表示某话题的基础热度值;Nretweet表示某话题的转发量;Ncomment表示某话题的评论量;Nlike表示某话题的点赞量;25、8、3分别代表转发量、评论量、点赞量所占权重。
所述步骤S3中,关键词抽取,选择TF-IDF算法,得到关键词集合,然后计算每个关键词权重,按照权重从高到低排序,TF-IDF权重公式中,TFij表示一个词ti在文本dj中出现的频率,计算公式如下所示:
IDF是逆向文件频率,IDFi由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到,计算公式如下所示:
根据以上,TF-IDF权重计算公式如下所示:
TFIDFi,j=TFij*IDFi (4)
其中,nij表示词ti在文本dj出现的次数;∑knkj表示文本dj中所有词出现的总次数;|D|表示语料库中的文件总数;|{j:ti∈dj}|表示包含词语ti的文件数目,即nij≠0的文件数目,如果该词语不在语料库中,就会导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|。
根据TF-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重,依据步骤S2的热度计算方法,可以计算该文本内容的热度值,从而遍历分词集合,计算出该文本中每个分词的热度值,并对计算结果进行从大到小排序,可以选出前n个分词进行结果分析和展示,每个分词热度计算过程如下:
Pheat=wi*Sheat (5)
Pheat表示分词集合中每个分词的热度值;wi表示分词集合中第i个分词的权重;Sheat表示进行文本分词前文本的整体热度值。
通过计算分词集合中每个分词的热度之后,得到与话题相关的词语及其热度值,通过echarts中词云图图例形式进行可视化展示,可直观地观测网络热点信息的变化情况。
本发明的有益效果是:
本发明提供一种基于NLP的实时网络热点内容分析方法及其系统,针对在网络热点信息分析中对网络文本数据预处理中的特征词进行选择、热点话题发现和热度评估等问题进行解决,通过利用TF-IDF方法实现特征词选择,并利用话题热度计算方法计算话题热度,从而对网络热点数据文本进行分析提取关键信息。
本发明可以对网络热点信息数据进行保存、处理、分析,利用文本数据预处理方法对文本数据进行中文分词、词性标注、去停用词,并对话题热度采用话题热度计算方法进行计算,对属于热点话题下的文本进行深度分析从而提取关键词,再进行可视化展示,可直观地观测话题热度的变化情况。
附图说明
图1为本发明网络热点信息分析的流程图。
图2为文本数据预处理流程图。
具体实施方式
下面结合附图对本发明的作进一步的详细说明,但是本发明不局限于以下实施例。
如图1所示为本发明的网络热点信息分析的工作图,一种基于NLP的实时网络热点内容分析方法及其系统,主要是对网络热点数据的预处理,预处理阶段经过中文分词、词性标注和去停用词操作;接着是对话题进行热度评估,通过使用话题热度计算方法计算话题热度,然后使用TF-IDF算法进行关键词提取,保存在分词集合中,从而利用热度计算方法计算集合中每个关键词的热度值,把分析好的数据进行保存和展示。
如图2所示为本发明的网络文本数据预处理流程图,利用结巴分词中的中文分词、词性标注和去停用词和存储特征词功能,对文本数据进行预处理操作。
参照图1、图2,一种基于NLP的实时网络热点内容分析方法及其系统,利用搜索引擎对关键词进行搜索,获取到网络数据内容(文本语料库),通过分词模型对文本进行数据预处理,采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估,并利用关键词提取技术,可以得到与该话题相关的文本内容,具体包括以下步骤:
步骤S1,网络文本数据来源主要是通过爬取或者下载网站的公开语料库,对获取的网络文本数据进行数据的预处理操作。主要是对文本进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤一些文本中出现频率很高,但实际意义又不大的词;
步骤S2,利用话题热度计算方法对话题热度进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;
步骤S3,利用步骤S1的预处理数据,基于TF-IDF算法进行关键词抽取,TF-IDF是一种用于信息检索与文本挖掘的常用加权技术,使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的热度计算方法,来计算与话题相关的关键词的热度值。可以根据自己所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图等图例对分析的数据进行可视化展示,从而细致地观测网络热点内容变化。
所述步骤S1包括以下步骤:
步骤S11,利用TF-IDF算法进行中文分词,根据词频和逆文档频率相乘,来得到一个词的TF-IDF值,当某个词在文本中的TF-IDF越大,说明这个词的在文本中的重要性越高;
步骤S12,经过步骤S11后,就需要利用词性标注模型,来标注这些词语的词性,即确定它们在这句话中是名词还是代词等,词性标注主要可以分为基于规则和基于统计的方法,本发明采用基于统计最大概率输出词性方法;
步骤S13,经过步骤S12后,文本数据已分成一个一个词语,对于一些没有实用价值的语气助词、虚词、感叹词,例如:“了”,“吗”等进行去停用词操作。
所述步骤S11又包括三个步骤,可参考上文中IF-IDF算法中1)计算词频(TF)、2)计算逆文档频率(IDF)、3)计算TF-IDF过程。
所示步骤S12中,通过HMM隐马尔科夫模型来进行词性标注。观测序列即为分词后的语句,隐藏序列即为经过标注后的词性标注序列。初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到。观测序列到隐藏序列的计算可以通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到。得到隐藏序列后,就完成了词性标注过程。
所述步骤S13中,停用词在一定程度上相当于过滤词,去停用词就是过滤掉一些无实际意义的词,但过滤词的范围更大,将从如下三个方面进行去停用词:
1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;
2)依据词的长度判断,将长度为1的词去除;
3)依据停用词表判断,停用词表中收录了2000多个无用词,可以将停用此表中含有的词进行去除。
所述步骤S2中,需要对话题文本热度进行计算,主要是采用本发明的话题热度计算方法,具体信息可参考算式(1)的计算过程说明。
所述步骤S3中,需进行关键词抽取,本发明选择TF-IDF算法,得到关键词集合,然后计算每个关键词权重,按照权重从高到低排序。TF-IDF权重公式中,TFij表示一个词ti在文本dj中出现的频率,计算方法可参考算式(2)~(4)。
根据TF-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重,依据步骤S2的热度计算方法,可以计算该文本内容的热度值,从而遍历分词集合,计算出该文本中每个分词的热度值,并对计算结果进行从大到小排序,可以选出前n个分词进行结果分析和展示,每个分词热度计算过程可参考算式(5)。
经过计算分词集合中每个分词的热度之后,可以得到与话题相关的词语及其热度值,通过echarts中词云图等图例形式进行可视化展示,从而直观地观测网络热点信息的变化情况。
Claims (9)
1.一种基于NLP的实时网络热点内容分析方法,其特征在于,包括以下步骤:
步骤S1,通过爬取或者下载网站的公开语料库,获得网络文本数据,对获取的网络文本数据进行预处理,主要是对网络文本数据进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤网络文本数据中出现频率很高,但无实际意义的词,获得预处理数据;
步骤S2,利用话题热度计算方法对话题热度指数进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;
步骤S3,利用步骤S1的预处理数据,基于TF-IDF算法进行关键词抽取,使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的话题热度计算方法计算与话题相关的关键词的热度值,根据所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图图例对分析的数据进行可视化展示,可观测网络热点内容的变化。
2.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法及其系统,其特征在于,所述步骤S1包括以下步骤:
步骤S11,利用TF-IDF算法对网络文本数据进行中文分词,根据词频和逆文档频率相乘,得到一个词的TF-IDF值,当某个词在文本中的TF-IDF越大,说明这个词的在文本中的重要性越高;
步骤S12,利用词性标注模型标注这些词语的词性,词性标注采用基于统计最大概率输出词性的方法;
步骤S13,网络文本数据已分成单个词语,对于没有实用价值的语气助词、虚词、感叹词进行去停用词操作。
4.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S12中,通过HMM隐马尔科夫模型标注词性,观测序列为分词后的语句,隐藏序列为经过标注后的词性标注序列;初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到,观测序列到隐藏序列的计算通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到,得到隐藏序列后,就完成了词性标注过程。
5.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S13中,将从如下三个方面进行去停用词:
1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;
2)依据词的长度判断,将长度为1的词去除;
3)依据停用词表判断,停用词表中收录了2000多个无用词,可将停用词表中含有的词进行去除。
6.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S2中,对话题文本热度进行计算,具体过程如下:
Sheat=100+25*Nretweet+8*Ncomment+3*Nlike (1)
其中Sheat表示某话题的热度值;100表示某话题的基础热度值;Nretweet表示某话题的转发量;Ncomment表示某话题的评论量;Nlike表示某话题的点赞量;25、8、3分别代表转发量、评论量、点赞量所占权重。
7.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S3中,关键词抽取,选择TF-IDF算法,得到关键词集合,然后计算每个关键词权重,按照权重从高到低排序,TF-IDF权重公式中,TFij表示一个词ti在文本dj中出现的频率,计算公式如下所示:
IDF是逆向文件频率,IDFi由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到,计算公式如下所示:
根据以上,TF-IDF权重计算公式如下所示:
TFIDFi,j=TFij*IDFi (4)
其中,nij表示词ti在文本dj出现的次数;∑knkj表示文本dj中所有词出现的总次数;|D|表示语料库中的文件总数;|{j:ti∈dj}|表示包含词语ti的文件数目,即nij≠0的文件数目,如果该词语不在语料库中,就会导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|。
8.根据权利要求7所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,根据TD-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重,依据步骤S2的热度计算方法,可以计算该文本内容的热度值,从而遍历分词集合,计算出该文本中每个分词的热度值,并对计算结果进行从大到小排序,可以选出前n个分词进行结果分析和展示,每个分词热度计算过程如下:
Pheat=wi*Sheat (5)
Pheat表示分词集合中每个分词的热度值;wi表示分词集合中第i个分词的权重;Sheat表示进行文本分词前文本的整体热度值。
9.根据权利要求8所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,通过计算分词集合中每个分词的热度之后,得到与话题相关的词语及其热度值,通过echarts中词云图图例形式进行可视化展示,可直观地观测网络热点信息的变化情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767096.4A CN113468868B (zh) | 2021-07-07 | 2021-07-07 | 一种基于nlp的实时网络热点内容分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767096.4A CN113468868B (zh) | 2021-07-07 | 2021-07-07 | 一种基于nlp的实时网络热点内容分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468868A true CN113468868A (zh) | 2021-10-01 |
CN113468868B CN113468868B (zh) | 2024-05-24 |
Family
ID=77878874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110767096.4A Active CN113468868B (zh) | 2021-07-07 | 2021-07-07 | 一种基于nlp的实时网络热点内容分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468868B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775974A (zh) * | 2023-06-29 | 2023-09-19 | 中咨高技术咨询中心有限公司 | 一种信息的筛选方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN113032557A (zh) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种基于频繁词集与bert语义的微博热点话题发现方法 |
-
2021
- 2021-07-07 CN CN202110767096.4A patent/CN113468868B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN113032557A (zh) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种基于频繁词集与bert语义的微博热点话题发现方法 |
Non-Patent Citations (2)
Title |
---|
吴柳;程恺;胡琪;: "基于文本挖掘的论坛热点问题时变分析", 软件, no. 04, 15 April 2017 (2017-04-15) * |
田煜;: "基于语义情感分析的网络热点爬虫舆情分析系统", 软件, no. 08, 15 August 2020 (2020-08-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775974A (zh) * | 2023-06-29 | 2023-09-19 | 中咨高技术咨询中心有限公司 | 一种信息的筛选方法 |
CN116775974B (zh) * | 2023-06-29 | 2024-02-23 | 中咨高技术咨询中心有限公司 | 一种信息的筛选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113468868B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN108090048B (zh) | 一种基于多元数据分析的高校评价系统 | |
CN111767741A (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN108549647B (zh) | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN108363748B (zh) | 基于知乎的话题画像系统及话题画像方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
Saad et al. | Evaluation of support vector machine and decision tree for emotion recognition of malay folklores | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN108595411B (zh) | 一种同主题文本集合中多文本摘要获取方法 | |
CN113268603A (zh) | 一种新闻舆情知识图谱的构建方法及装置、介质、设备 | |
CN113468868B (zh) | 一种基于nlp的实时网络热点内容分析方法 | |
CN111598691B (zh) | 信用债发债主体违约风险评估方法、系统及装置 | |
Tariku et al. | Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
CN109726938B (zh) | 一种基于深度学习的学生思政状况预警方法 | |
Schirmer et al. | A new dataset for topic-based paragraph classification in genocide-related court transcripts | |
CN114443930A (zh) | 一种新闻舆情智能监测分析方法、系统及计算机存储介质 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
WO2019132648A1 (en) | System and method for identifying concern evolution within temporal and geospatial windows | |
CN113641788B (zh) | 一种基于无监督的长短影评细粒度观点挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |