CN113468868A - 一种基于nlp的实时网络热点内容分析方法 - Google Patents

一种基于nlp的实时网络热点内容分析方法 Download PDF

Info

Publication number
CN113468868A
CN113468868A CN202110767096.4A CN202110767096A CN113468868A CN 113468868 A CN113468868 A CN 113468868A CN 202110767096 A CN202110767096 A CN 202110767096A CN 113468868 A CN113468868 A CN 113468868A
Authority
CN
China
Prior art keywords
word
topic
words
heat
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110767096.4A
Other languages
English (en)
Other versions
CN113468868B (zh
Inventor
高岭
周冰
王峥
杨冠华
王祎昊
任杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202110767096.4A priority Critical patent/CN113468868B/zh
Publication of CN113468868A publication Critical patent/CN113468868A/zh
Application granted granted Critical
Publication of CN113468868B publication Critical patent/CN113468868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于NLP的实时网络热点内容分析方法,利用搜索引擎对关键词进行搜索,获取到网络数据内容,通过分词模型对文本进行数据预处理,从而达到计算机自动识别语句含义的效果;利用预处理后的文本数据,通过采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估,得到某话题实时的热度值;并利用关键词提取技术,可以得到与该话题相关的文本内容;利用所分析好的热度值数据和相关文本数据,可以以折线图或词云图等图例形式直观地展示,更好的观测某话题的热度变化情况。

Description

一种基于NLP的实时网络热点内容分析方法
技术领域
本发明涉及计算机领域和自然语言处理领域,特别涉及一种基于NLP的实时网络热点内容分析方法。
背景技术
在大数据时代,互联网信息呈现海量、动态、多样的异质性特征,由于大量的相关性和零星因素,使得舆情更加复杂多变,传统的舆情监测研究和判断方法难以奏效。海量数据强化了社会舆论的“瞎子和大象”效应,极端观点更容易通过网络乘数效应放大,从而强化了舆论的极端情绪。在信息分散的大数据时代,舆论管理也越来越困难,因此加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时应对网络突发的公共事件和全面掌握社情民意很有意义。
如今互联网技术迅猛发展,网络成为人们获取信息的主要渠道。由于网络信息高速传播以及信息量大的特性,如何在较短时间内快速准确地发现网络热点信息,成为数据挖掘与自然语言处理领域研究的热点。网络热点信息是对社会各阶级领域所关注话题的阐述,尤其舆情分析可以透过现象真正挖掘事情的本质。目前,国内外学者主要从两个方面对话题发现技术进行研究。在话题发现模型选择方面,有经常使用的LDA模型(三层贝叶斯概率模型)进行话题发现,但是过于复杂,效率不高;在话题发现算法方面,有学者提出在线话题发现算法和增量全局的K-Means算法进行话题发现,但是这些方法比较传统,适应场景有限。
基于这些算法的不足,本发明通过采用话题热度计算方法计算某话题的热度值,并对话题文本中分词集合进行热度评估,计算出每个分词的热度值,可以有效的对网络热点信息进行分析处理,从而实时对话题热度进行评估,提取关键信息,实时观测网络热点信息变化情况。
发明内容
为克服上述现有技术的不足,本发明的目的是提供一种基于NLP的实时网络热点内容分析方法,实现网络热点信息进行预处理、热点信息话题热度评估、网络热点信息关键词提取等功能。
为了实现上述目的,本发明采用的技术方案是:
一种基于NLP的实时网络热点内容分析方法,利用搜索引擎对关键词进行搜索,获取到网络文本数据,即文本语料库,通过分词模型对文本数据预处理,采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估,并利用关键词提取技术,可以得到与该话题相关的文本内容,其特征在于,包括以下步骤:
步骤S1,通过爬取或者下载网站的公开语料库,获得网络文本数据,对获取的网络文本数据进行预处理,主要是对网络文本数据进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤网络文本数据中出现频率很高,但无实际意义的词,获得预处理数据;
步骤S2,利用话题热度计算方法对话题热度指数进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;
步骤S3,利用步骤S1的预处理数据,基于TF-IDF算法进行关键词抽取,使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的话题热度计算方法计算与话题相关的关键词的热度值,根据所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图图例对分析的数据进行可视化展示,可观测网络热点内容的变化。
所述步骤S1包括以下步骤:
步骤S11,利用TF-IDF算法对网络文本数据进行中文分词,根据词频和逆文档频率相乘,得到一个词的TF-IDF值,当某个词在文本中的TF-IDF越大,说明这个词的在文本中的重要性越高;
步骤S12,利用词性标注模型标注这些词语的词性,即确定它们在这句话中是名词还是代词或其它语气词,词性标注采用基于统计最大概率输出词性的方法;
步骤S13,网络文本数据已分成单个词语,对于没有实用价值的语气助词、虚词、感叹词进行去停用词操作。
所述步骤S11包括以下步骤:
1)计算词频TF:
Figure BDA0003152172740000021
2)计算逆文档频率:
Figure BDA0003152172740000031
3)计算TF-IDF:
TF-IDF=词频TF×逆文档频率IDF。
所述步骤S12中,通过HMM隐马尔科夫模型标注词性,观测序列为分词后的语句,隐藏序列为经过标注后的词性标注序列;初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到,观测序列到隐藏序列的计算通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到,得到隐藏序列后,就完成了词性标注过程。
所述步骤S13中,去停用词就是过滤掉一些无实际意义的词,将从如下三个方面进行去停用词:
1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;
2)依据词的长度判断,将长度为1的词去除;
3)依据停用词表判断,停用词表中收录了2000多个无用词,可将停用词表中含有的词进行去除。
所述步骤S2中,对话题文本热度进行计算,具体过程如下:
Sheat=100+25*Nretweet+8*Ncomment+3*Nlike (1)
其中Sheat表示某话题的热度值;100表示某话题的基础热度值;Nretweet表示某话题的转发量;Ncomment表示某话题的评论量;Nlike表示某话题的点赞量;25、8、3分别代表转发量、评论量、点赞量所占权重。
所述步骤S3中,关键词抽取,选择TF-IDF算法,得到关键词集合,然后计算每个关键词权重,按照权重从高到低排序,TF-IDF权重公式中,TFij表示一个词ti在文本dj中出现的频率,计算公式如下所示:
Figure BDA0003152172740000032
IDF是逆向文件频率,IDFi由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到,计算公式如下所示:
Figure BDA0003152172740000033
根据以上,TF-IDF权重计算公式如下所示:
TFIDFi,j=TFij*IDFi (4)
其中,nij表示词ti在文本dj出现的次数;∑knkj表示文本dj中所有词出现的总次数;|D|表示语料库中的文件总数;|{j:ti∈dj}|表示包含词语ti的文件数目,即nij≠0的文件数目,如果该词语不在语料库中,就会导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|。
根据TF-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重,依据步骤S2的热度计算方法,可以计算该文本内容的热度值,从而遍历分词集合,计算出该文本中每个分词的热度值,并对计算结果进行从大到小排序,可以选出前n个分词进行结果分析和展示,每个分词热度计算过程如下:
Pheat=wi*Sheat (5)
Pheat表示分词集合中每个分词的热度值;wi表示分词集合中第i个分词的权重;Sheat表示进行文本分词前文本的整体热度值。
通过计算分词集合中每个分词的热度之后,得到与话题相关的词语及其热度值,通过echarts中词云图图例形式进行可视化展示,可直观地观测网络热点信息的变化情况。
本发明的有益效果是:
本发明提供一种基于NLP的实时网络热点内容分析方法及其系统,针对在网络热点信息分析中对网络文本数据预处理中的特征词进行选择、热点话题发现和热度评估等问题进行解决,通过利用TF-IDF方法实现特征词选择,并利用话题热度计算方法计算话题热度,从而对网络热点数据文本进行分析提取关键信息。
本发明可以对网络热点信息数据进行保存、处理、分析,利用文本数据预处理方法对文本数据进行中文分词、词性标注、去停用词,并对话题热度采用话题热度计算方法进行计算,对属于热点话题下的文本进行深度分析从而提取关键词,再进行可视化展示,可直观地观测话题热度的变化情况。
附图说明
图1为本发明网络热点信息分析的流程图。
图2为文本数据预处理流程图。
具体实施方式
下面结合附图对本发明的作进一步的详细说明,但是本发明不局限于以下实施例。
如图1所示为本发明的网络热点信息分析的工作图,一种基于NLP的实时网络热点内容分析方法及其系统,主要是对网络热点数据的预处理,预处理阶段经过中文分词、词性标注和去停用词操作;接着是对话题进行热度评估,通过使用话题热度计算方法计算话题热度,然后使用TF-IDF算法进行关键词提取,保存在分词集合中,从而利用热度计算方法计算集合中每个关键词的热度值,把分析好的数据进行保存和展示。
如图2所示为本发明的网络文本数据预处理流程图,利用结巴分词中的中文分词、词性标注和去停用词和存储特征词功能,对文本数据进行预处理操作。
参照图1、图2,一种基于NLP的实时网络热点内容分析方法及其系统,利用搜索引擎对关键词进行搜索,获取到网络数据内容(文本语料库),通过分词模型对文本进行数据预处理,采用一种计算话题热度值的计算方法对话题的文本数据进行热度评估,并利用关键词提取技术,可以得到与该话题相关的文本内容,具体包括以下步骤:
步骤S1,网络文本数据来源主要是通过爬取或者下载网站的公开语料库,对获取的网络文本数据进行数据的预处理操作。主要是对文本进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤一些文本中出现频率很高,但实际意义又不大的词;
步骤S2,利用话题热度计算方法对话题热度进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;
步骤S3,利用步骤S1的预处理数据,基于TF-IDF算法进行关键词抽取,TF-IDF是一种用于信息检索与文本挖掘的常用加权技术,使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的热度计算方法,来计算与话题相关的关键词的热度值。可以根据自己所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图等图例对分析的数据进行可视化展示,从而细致地观测网络热点内容变化。
所述步骤S1包括以下步骤:
步骤S11,利用TF-IDF算法进行中文分词,根据词频和逆文档频率相乘,来得到一个词的TF-IDF值,当某个词在文本中的TF-IDF越大,说明这个词的在文本中的重要性越高;
步骤S12,经过步骤S11后,就需要利用词性标注模型,来标注这些词语的词性,即确定它们在这句话中是名词还是代词等,词性标注主要可以分为基于规则和基于统计的方法,本发明采用基于统计最大概率输出词性方法;
步骤S13,经过步骤S12后,文本数据已分成一个一个词语,对于一些没有实用价值的语气助词、虚词、感叹词,例如:“了”,“吗”等进行去停用词操作。
所述步骤S11又包括三个步骤,可参考上文中IF-IDF算法中1)计算词频(TF)、2)计算逆文档频率(IDF)、3)计算TF-IDF过程。
所示步骤S12中,通过HMM隐马尔科夫模型来进行词性标注。观测序列即为分词后的语句,隐藏序列即为经过标注后的词性标注序列。初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到。观测序列到隐藏序列的计算可以通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到。得到隐藏序列后,就完成了词性标注过程。
所述步骤S13中,停用词在一定程度上相当于过滤词,去停用词就是过滤掉一些无实际意义的词,但过滤词的范围更大,将从如下三个方面进行去停用词:
1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;
2)依据词的长度判断,将长度为1的词去除;
3)依据停用词表判断,停用词表中收录了2000多个无用词,可以将停用此表中含有的词进行去除。
所述步骤S2中,需要对话题文本热度进行计算,主要是采用本发明的话题热度计算方法,具体信息可参考算式(1)的计算过程说明。
所述步骤S3中,需进行关键词抽取,本发明选择TF-IDF算法,得到关键词集合,然后计算每个关键词权重,按照权重从高到低排序。TF-IDF权重公式中,TFij表示一个词ti在文本dj中出现的频率,计算方法可参考算式(2)~(4)。
根据TF-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重,依据步骤S2的热度计算方法,可以计算该文本内容的热度值,从而遍历分词集合,计算出该文本中每个分词的热度值,并对计算结果进行从大到小排序,可以选出前n个分词进行结果分析和展示,每个分词热度计算过程可参考算式(5)。
经过计算分词集合中每个分词的热度之后,可以得到与话题相关的词语及其热度值,通过echarts中词云图等图例形式进行可视化展示,从而直观地观测网络热点信息的变化情况。

Claims (9)

1.一种基于NLP的实时网络热点内容分析方法,其特征在于,包括以下步骤:
步骤S1,通过爬取或者下载网站的公开语料库,获得网络文本数据,对获取的网络文本数据进行预处理,主要是对网络文本数据进行分词和去停用词,分词是将一个文字序列切分成一个个词或短语,分词后就需要通过标注模型来标注这些词语的词性,并使用停用词列表过滤网络文本数据中出现频率很高,但无实际意义的词,获得预处理数据;
步骤S2,利用话题热度计算方法对话题热度指数进行计算,主要依据话题的转发量、评论量和点赞量进行考量,根据话题的发布时间可以记录每天的热度指数,并以图例的方式进行可视化展示;
步骤S3,利用步骤S1的预处理数据,基于TF-IDF算法进行关键词抽取,使用Jieba实现TF-IDF算法会返回几个TF/IDF权重最大的关键词和权重值,然后利用步骤S2的话题热度计算方法计算与话题相关的关键词的热度值,根据所需选择与话题相关的关键词的数量,并计算其热度值,利用词云图图例对分析的数据进行可视化展示,可观测网络热点内容的变化。
2.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法及其系统,其特征在于,所述步骤S1包括以下步骤:
步骤S11,利用TF-IDF算法对网络文本数据进行中文分词,根据词频和逆文档频率相乘,得到一个词的TF-IDF值,当某个词在文本中的TF-IDF越大,说明这个词的在文本中的重要性越高;
步骤S12,利用词性标注模型标注这些词语的词性,词性标注采用基于统计最大概率输出词性的方法;
步骤S13,网络文本数据已分成单个词语,对于没有实用价值的语气助词、虚词、感叹词进行去停用词操作。
3.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S11包括以下步骤:
1)计算词频TF:
Figure FDA0003152172730000021
2)计算逆文档频率:
Figure FDA0003152172730000022
3)计算TF-IDF:
TF-IDF=词频TF×逆文档频率IDF。
4.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S12中,通过HMM隐马尔科夫模型标注词性,观测序列为分词后的语句,隐藏序列为经过标注后的词性标注序列;初始概率、发射概率和转移概率和分词中的含义大同小异,可以通过大规模语料统计得到,观测序列到隐藏序列的计算通过viterbi算法,利用统计得到的初始概率、发射概率和转移概率来得到,得到隐藏序列后,就完成了词性标注过程。
5.根据权利要求2所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S13中,将从如下三个方面进行去停用词:
1)依据词性判断,将副词、语气词、连词、语气词、感叹词去除;
2)依据词的长度判断,将长度为1的词去除;
3)依据停用词表判断,停用词表中收录了2000多个无用词,可将停用词表中含有的词进行去除。
6.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S2中,对话题文本热度进行计算,具体过程如下:
Sheat=100+25*Nretweet+8*Ncomment+3*Nlike (1)
其中Sheat表示某话题的热度值;100表示某话题的基础热度值;Nretweet表示某话题的转发量;Ncomment表示某话题的评论量;Nlike表示某话题的点赞量;25、8、3分别代表转发量、评论量、点赞量所占权重。
7.根据权利要求1所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,所述步骤S3中,关键词抽取,选择TF-IDF算法,得到关键词集合,然后计算每个关键词权重,按照权重从高到低排序,TF-IDF权重公式中,TFij表示一个词ti在文本dj中出现的频率,计算公式如下所示:
Figure FDA0003152172730000031
IDF是逆向文件频率,IDFi由总文件数目除以包含该词语的文件数目,再将得到的商取对数得到,计算公式如下所示:
Figure FDA0003152172730000032
根据以上,TF-IDF权重计算公式如下所示:
TFIDFi,j=TFij*IDFi (4)
其中,nij表示词ti在文本dj出现的次数;∑knkj表示文本dj中所有词出现的总次数;|D|表示语料库中的文件总数;|{j:ti∈dj}|表示包含词语ti的文件数目,即nij≠0的文件数目,如果该词语不在语料库中,就会导致分母为0,因此一般情况下使用1+|{j:ti∈dj}|。
8.根据权利要求7所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,根据TD-IDF算法可以得到网络文本数据中所有文本的分词集合及其权重,依据步骤S2的热度计算方法,可以计算该文本内容的热度值,从而遍历分词集合,计算出该文本中每个分词的热度值,并对计算结果进行从大到小排序,可以选出前n个分词进行结果分析和展示,每个分词热度计算过程如下:
Pheat=wi*Sheat (5)
Pheat表示分词集合中每个分词的热度值;wi表示分词集合中第i个分词的权重;Sheat表示进行文本分词前文本的整体热度值。
9.根据权利要求8所述的一种基于NLP的实时网络热点内容分析方法,其特征在于,通过计算分词集合中每个分词的热度之后,得到与话题相关的词语及其热度值,通过echarts中词云图图例形式进行可视化展示,可直观地观测网络热点信息的变化情况。
CN202110767096.4A 2021-07-07 2021-07-07 一种基于nlp的实时网络热点内容分析方法 Active CN113468868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110767096.4A CN113468868B (zh) 2021-07-07 2021-07-07 一种基于nlp的实时网络热点内容分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110767096.4A CN113468868B (zh) 2021-07-07 2021-07-07 一种基于nlp的实时网络热点内容分析方法

Publications (2)

Publication Number Publication Date
CN113468868A true CN113468868A (zh) 2021-10-01
CN113468868B CN113468868B (zh) 2024-05-24

Family

ID=77878874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110767096.4A Active CN113468868B (zh) 2021-07-07 2021-07-07 一种基于nlp的实时网络热点内容分析方法

Country Status (1)

Country Link
CN (1) CN113468868B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775974A (zh) * 2023-06-29 2023-09-19 中咨高技术咨询中心有限公司 一种信息的筛选方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN113032557A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于频繁词集与bert语义的微博热点话题发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019227710A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN113032557A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于频繁词集与bert语义的微博热点话题发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴柳;程恺;胡琪;: "基于文本挖掘的论坛热点问题时变分析", 软件, no. 04, 15 April 2017 (2017-04-15) *
田煜;: "基于语义情感分析的网络热点爬虫舆情分析系统", 软件, no. 08, 15 August 2020 (2020-08-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775974A (zh) * 2023-06-29 2023-09-19 中咨高技术咨询中心有限公司 一种信息的筛选方法
CN116775974B (zh) * 2023-06-29 2024-02-23 中咨高技术咨询中心有限公司 一种信息的筛选方法

Also Published As

Publication number Publication date
CN113468868B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN108090048B (zh) 一种基于多元数据分析的高校评价系统
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN108549647B (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN108363748B (zh) 基于知乎的话题画像系统及话题画像方法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN111694927B (zh) 一种基于改进词移距离算法的文档自动评阅方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
Saad et al. Evaluation of support vector machine and decision tree for emotion recognition of malay folklores
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN108595411B (zh) 一种同主题文本集合中多文本摘要获取方法
CN113268603A (zh) 一种新闻舆情知识图谱的构建方法及装置、介质、设备
CN113468868B (zh) 一种基于nlp的实时网络热点内容分析方法
CN111598691B (zh) 信用债发债主体违约风险评估方法、系统及装置
Tariku et al. Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN109726938B (zh) 一种基于深度学习的学生思政状况预警方法
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
CN114443930A (zh) 一种新闻舆情智能监测分析方法、系统及计算机存储介质
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN115130453A (zh) 互动信息生成方法和装置
WO2019132648A1 (en) System and method for identifying concern evolution within temporal and geospatial windows
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant