CN113032557A - 一种基于频繁词集与bert语义的微博热点话题发现方法 - Google Patents

一种基于频繁词集与bert语义的微博热点话题发现方法 Download PDF

Info

Publication number
CN113032557A
CN113032557A CN202110182129.9A CN202110182129A CN113032557A CN 113032557 A CN113032557 A CN 113032557A CN 202110182129 A CN202110182129 A CN 202110182129A CN 113032557 A CN113032557 A CN 113032557A
Authority
CN
China
Prior art keywords
topic
microblog
word
bert
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110182129.9A
Other languages
English (en)
Other versions
CN113032557B (zh
Inventor
刘梦颖
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110182129.9A priority Critical patent/CN113032557B/zh
Publication of CN113032557A publication Critical patent/CN113032557A/zh
Application granted granted Critical
Publication of CN113032557B publication Critical patent/CN113032557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于频繁词集与BERT语义的微博热点话题发现方法,首先对微博文本分别进行频繁词集挖掘和BERT句向量表示,构建基于频繁词集和BERT句向量的文本双表示模型计算文本融合相似度进行话题谱聚类,再引入H指数进行热点话题评估,然后构建基于频繁词集与BERT语义的文本双表示模型,最后进行热点话题评估分析。本发明通过分析现有的话题热度计算方法,提出用话题词热度、用户参与度并结合H指数来计算微博话题热度值,更符合微博传播特性,从更全面的角度对话题热度进行评估。

Description

一种基于频繁词集与BERT语义的微博热点话题发现方法
技术领域
本发明属于短文本聚类技术研究领域,尤其涉及一种基于频繁词集与 BERT语义的微博热点话题发现方法。
背景技术
当今社会是一个网络化的时代,随着信息技术和网络技术的快速发展,通过互联网传播的信息量更是呈爆炸式增长。微博作为当下常用的社交网络新媒体平台,每天都有大量的包含社会各方面的信息流出,已经成为越来越多的用户发布和获取信息的重要渠道。
微博凭借其平台的开放性、内容简洁性和低门槛等特性,成为越来越多的网民获取新闻时事、自我表达以及社会公共舆论的重要平台。微博作为当代生活中重要的舆论发生地,已经成为热点话题传播的重要媒介。目前情况来看,微博热点话题时常会对社会的影响力很大,其影响范围、扩散速度都是意料之外的。因此,准确挖掘微博中的热点话题对于事件监测、观点挖掘、舆情控制等具有极其重要的作用。如何挖掘和处理微博数据已经成为国内外学者的研究热点,其中对中文微博平台的热点话题发现是微博研究领域的一个重点课题。
传统的热点话题发现主要是针对长文本信息算法研究的,比如新闻报道,博客信息,网页信息等。针对长文本信息的分类、聚类方法都已经比较成熟,针对不同的应用场景都有比较权威的分析方法。但由于中文短文本具有长度短,上下文信息和统计信息很少等特点,适用于中文长文本信息的数据挖掘方法不太适用于中文短文本信息的数据挖掘。目前针对中文短文本信息的数据挖掘方法还处于探索研究阶段,没有普遍适用的权威方法。
发明内容
针对传统的微博热点话题发现方法仅考虑词的统计信息而忽略语义导致聚类结果不准确、热点话题发现效果差等问题,本发明提出一种基于频繁词集与 BERT语义的微博热点话题发现方法。首先对微博文本分别进行频繁词集挖掘和 BERT句向量表示,构建基于频繁词集和BERT句向量的文本双表示模型计算文本融合相似度进行话题谱聚类,再引入H指数进行热点话题评估。
为实现上述发明目的,本发明按照图1所示流程,采用以下技术方案:
步骤1、获取微博数据集。
步骤1.1、在新浪微博平台上随机爬取海量微博数据作为训练BERT预训练模型的数据集。
步骤1.2、采用爬虫技术以定主题的方式爬取某段时间内微博热点话题数据集。
步骤2、数据预处理及特征词汇提取。
步骤2.1、对获取的微博数据集中的热点话题数据进行预处理,包括数据清洗、中文分词处理、停用词处理。
步骤2.2、使用TF-IDF和TextRank进行特征词汇提取。
步骤3、构建基于频繁词集与BERT语义的文本双表示模型。
步骤3.1、对处理后的微博热点话题数据集进行频繁词集挖掘,并计算频繁词集相似度。
步骤3.2、对处理后的微博热点话题数据集进行BERT句向量表示,并计算 BERT语义相似度。
步骤3.3、利用频繁词集相似度和BERT语义相似度构建文本双表示模型计算微博文本融合相似度进行话题谱聚类。
步骤4、热点话题评估分析。通过引入H指数并结合话题词热度和用户参与度两个维度对话题聚类结果进行热度值计算。
附图说明
图1.本发明的流程图。
图2.不同数据量下三种聚类方法的轮廓系数。
图3.不同数据量下三种聚类方法的CH值。
具体实施方式
结合本发明的技术方案,具体实施方式如下:
步骤1、获取微博数据集
通过对新浪开放平台API进行分析,利用python爬虫技术在新浪微博上采集了两类数据,第一类是随机爬取的微博文本共3.609GB,作为BERT语言模型的训练数据;第二类是采用定主题的方式爬取了2020年11月5日至12月3日之间的微博数据,包含微博内容数据和微博用户数据两部分。
通过对微博内容数据集进行筛选,选取了某病毒、5G、直播三个主题,每个主题下5个热点话题,共5359条数据,该数据集没有进行对主题及话题的人工标注;与之对应微博用户数据集共4611条。数据集的详细信息如表1~3所示。
表1某病毒主题下话题数据详细信息
Figure RE-GDA0003062697210000031
表25G主题下话题数据详细信息
Figure RE-GDA0003062697210000032
表3直播主题下话题数据详细信息
Figure RE-GDA0003062697210000033
步骤2、数据预处理及特征词汇提取
数据预处理主要是过滤微博中的无用信息,减小噪声数据对实验结果的影响。本发明微博数据预处理主要包括数据清洗、中文分词处理和停用词处理。
(1)数据清洗:过滤掉微博数据中对主题提取无意义的英文、数字、标点符号、特殊符号及各种表情符号,并剔除了字数小于6的无意义微博文本。尽可能的排除无关信息带来的干扰,降低数据噪声。
(2)中文分词处理:采用jieba分词工具包实现分词。
(3)停用词处理:通过使用构建的停用词表去除文本中出现较为频繁,但又没有什么实际意义的停用词,主要包括语气助词、副词、介词、连词等。比如“的”、“了”、“这”、“吗”等。去掉停用词不仅可以降低表现力弱的词对处理结果产生较大的干扰,又可以为后续的文本表示降低特征维度。
本发明充分考虑TF-IDF和TextRank的优缺点,分别使用二者提取关键词并进行合并形成关键词集合,使用该集合对微博文本进行初步过滤。
步骤3、构建基于频繁词集与BERT语义的文本双表示模型
本发明采用频繁词集和BERT语义两个维度进行微博文本表示。
频繁词集相似度采用Jaccard相似度来进行度量,如公式(1)所示:
Figure RE-GDA0003062697210000041
其中M和N表示两个不同的微博热点话题文本,M.txt和N.txt表示由频繁词集表示的微博热点话题文本,count(M.txt∩M.txt)表示两个微博文本共有的频繁词集的个数,count(M.txt∩M.txt)表示两个微博文本一共含有的频繁词集的个数,Jaccard_Sim(M,N)表示两个微博热点话题文本之间的频繁词集相似度。
BERT句向量语义相似度采用两个文本之间的余弦距离来表示,如公式(2) 所示:
Figure RE-GDA0003062697210000042
其中M.vec和N.vec由BERT模型训练而得到的微博热点话题文本句向量, Vec_Sim(M,N)表示两个微博热点话题文本之间的BERT语义相似度。
最终文本相似度采用加权集成策略由频繁词集相似度和BERT语义相似度得到,如公式(3)所示:
Sim(M,N)=αJaccard_Sim(M,N)+(1-α)Vec_Sim(M,N) (3)
其中Sim(M,N)表示两个微博热点话题文本最终的融合相似度,α是调节权重的重要参数。
步骤4、热点话题评估分析
话题热度计算方法
通过对中文微博话题传播规律进行分析,综合考虑影响微博热点话题的影响因素,通过引入文献计量学中的H指数并选取话题词热度和用户参与度这两个维度对包含话题词的微博文本进行话题热度值计算,综合得出微博热点话题。
话题词热度:首先将某个话题词所在微博的被转发数、被评论数、被点赞数分别从高到低进行排序,直至前H篇微博的被转发数、被评论数、被点赞数各不少于H,得出某话题词的H指数。从而用H指数来判断包含某话题词的微博热度。如公式(4)所示:
Figure RE-GDA0003062697210000051
其中Hz,Hp,Hd分别是包含某话题词所在微博的被转发、被评论、被点赞的H指数,Lp为描述某话题的话题词热度值。
用户参与度:假设粉丝数达到10万的用户为大用户。用户参与度由包含话题词的微博总条数,包含话题词的微博参与用户数,和参与用户中大用户数量来度量。如公式(5)所示:
Figure RE-GDA0003062697210000052
其中sum是包含某话题词的微博总数,sum_user是包含某话题词的微博参与用户数,user_v是参与用户中大用户数,Lu为描述某话题的话题词用户参与度。
设某话题包含k个话题词,综合话题词热度和用户参与度得出话题的热度计算如公式(6)所示:
Figure RE-GDA0003062697210000053
其中i是某话题所包含每个话题词,k是某话题所包含的话题词总数,L是微博话题热度值。
对于微博热点话题的热度估计,目前没有一个统一的衡量标准,最直接的是通过话题中文本的频数来进行。通过分析现有的话题热度计算方法,提出用话题词热度、用户参与度并结合H指数来计算微博话题热度值。本方法更符合微博传播特性,从更全面的角度对话题热度进行评估。
实验结果及分析
(1)基于频繁词集与BERT语义的文本双表示模型聚类有效性实验
为验证本发明提出的基于频繁词集与BERT语义的文本双表示模型进行主题聚类的有效性,采用轮廓系数(Silhouette Coefficient)和Calinski-Harabaz指数作为本实验的评价标准,分别对比了以下三种文本表示方法:
方法1:本发明基于频繁词集与BERT语义的文本双表示模型谱聚类。
方法2:基于频繁词集的单一文本表示谱聚类。
方法3:本发明基于频繁词集与BERT语义的文本双表示模型K-means聚类。
在实验过程中,分别使用这三种方法在不同的数据量下进行实验,记录不同方法在每次实验中聚类结果的轮廓系数和CH值。重复实验多次,记录多个轮廓系数和CH值,并计算得到对应文本表示方法的平均轮廓系数和平均CH值。分析实验结果,在不同的数据量下,本发明基于频繁词集与BERT语义的文本双表示模型谱聚类结果在轮廓系数和CH值上均优于基于频繁词集的单一文本表示谱聚类算法,同时也表明使用谱聚类算法在微博短文本上的聚类效果要明显优于 K-means算法。文本双表示模型既使用频繁词集挖掘考虑了短文本的统计信息,又通过BERT句向量中融入了更多的语法、词法以及语义信息,从而能更准确的表示文本中词语之间的潜在语义关系,达到了很好的聚类实验效果。
(2)话题热度评估实验
利用本发明提出的话题热度计算公式分别计算了每个主题下各个话题的热度值,通过与真实的新浪微博排名进行对比,如表4~6所示,可以发现本发明提出的话题热度计算方法计算出来的热度值排名与真实的微博热度值排名一致,从而验证了本发明提出的热度评估方法的有效性。
表4某病毒主题下话题热度实验结果
Figure RE-GDA0003062697210000061
表55G主题下话题热度实验结果
Figure RE-GDA0003062697210000071
表6直播主题下话题热度实验结果
Figure RE-GDA0003062697210000072

Claims (4)

1.一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:该方法包括如下步骤:
步骤1、获取微博数据集;
步骤1.1、在微博平台上随机爬取海量微博数据作为训练BERT预训练模型的数据集;
步骤1.2、采用爬虫技术以定主题的方式爬取某段时间内微博热点话题数据集;
步骤2、数据预处理及特征词汇提取;
步骤2.1、对获取的微博数据集中的热点话题数据进行预处理,包括数据清洗、中文分词处理、停用词处理;
步骤2.2、使用TF-IDF和TextRank进行特征词汇提取;
步骤3、构建基于频繁词集与BERT语义的文本双表示模型;
步骤3.1、对处理后的微博热点话题数据集进行频繁词集挖掘,并计算频繁词集相似度;
步骤3.2、对处理后的微博热点话题数据集进行BERT句向量表示,并计算BERT语义相似度;
步骤3.3、利用频繁词集相似度和BERT语义相似度构建文本双表示模型计算微博文本融合相似度进行话题谱聚类;
步骤4、热点话题评估分析;通过引入H指数并结合话题词热度和用户参与度两个维度对话题聚类结果进行热度值计算。
2.根据权利要求1所述的一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:微博数据预处理包括数据清洗、中文分词处理和停用词处理;
(1)数据清洗:过滤掉微博数据中对主题提取无意义的英文、数字、标点符号、特殊符号及各种表情符号,并剔除了字数小于6的无意义微博文本;
(2)中文分词处理:采用jieba分词工具包实现分词;
(3)停用词处理:通过使用构建的停用词表去除文本中出现频繁没有实际意义的停用词;使用TF-IDF和TextRank提取关键词并进行合并形成关键词集合,使用该关键词集合对微博文本进行初步过滤。
3.根据权利要求1所述的一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:采用频繁词集和BERT语义两个维度进行微博文本表示;
频繁词集相似度采用Jaccard相似度来进行度量,如公式(1)所示:
Figure FDA0002941730660000021
其中M和N表示两个不同的微博热点话题文本,M.txt和N.txt表示由频繁词集表示的微博热点话题文本,count(M.txt∩M.txt)表示两个微博文本共有的频繁词集的个数,count(M.txt∩M.txt)表示两个微博文本一共含有的频繁词集的个数,Jaccard_Sim(M,N)表示两个微博热点话题文本之间的频繁词集相似度;
BERT句向量语义相似度采用两个文本之间的余弦距离来表示,如公式(2)所示:
Figure FDA0002941730660000022
其中M.vec和N.vec由BERT模型训练而得到的微博热点话题文本句向量,Vec_Sim(M,N)表示两个微博热点话题文本之间的BERT语义相似度;
最终文本相似度采用加权集成策略由频繁词集相似度和BERT语义相似度得到,如公式(3)所示:
Sim(M,N)=αJaccard_Sim(M,N)+(1-α)Vec_Sim(M,N) (3)
其中Sim(M,N)表示两个微博热点话题文本最终的融合相似度,α是调节权重参数。
4.根据权利要求1所述的一种基于频繁词集与BERT语义的微博热点话题发现方法,其特征在于:引入文献计量学中的H指数并选取话题词热度和用户参与度这两个维度对包含话题词的微博文本进行话题热度值计算,综合得出微博热点话题;
话题词热度:首先将某个话题词所在微博的被转发数、被评论数、被点赞数分别从高到低进行排序,直至前H篇微博的被转发数、被评论数、被点赞数各不少于H,得出某话题词的H指数;从而用H指数来判断包含某话题词的微博热度;如公式(4)所示:
Figure FDA0002941730660000023
其中Hz,Hp,Hd分别是包含某话题词所在微博的被转发、被评论、被点赞的H指数,Lp为描述某话题的话题词热度值;
用户参与度:假设粉丝数达到10万的用户为大用户;用户参与度由包含话题词的微博总条数,包含话题词的微博参与用户数,和参与用户中大用户数量来度量;如公式(5)所示:
Figure FDA0002941730660000031
其中sum是包含某话题词的微博总数,sum_user是包含某话题词的微博参与用户数,user_v是参与用户中大用户数,Lu为描述某话题的话题词用户参与度;
设某话题包含k个话题词,综合话题词热度和用户参与度得出话题的热度计算如公式(6)所示:
Figure FDA0002941730660000032
其中i是某话题所包含每个话题词,k是某话题所包含的话题词总数,L是微博话题热度值。
CN202110182129.9A 2021-02-09 2021-02-09 一种基于频繁词集与bert语义的微博热点话题发现方法 Active CN113032557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110182129.9A CN113032557B (zh) 2021-02-09 2021-02-09 一种基于频繁词集与bert语义的微博热点话题发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110182129.9A CN113032557B (zh) 2021-02-09 2021-02-09 一种基于频繁词集与bert语义的微博热点话题发现方法

Publications (2)

Publication Number Publication Date
CN113032557A true CN113032557A (zh) 2021-06-25
CN113032557B CN113032557B (zh) 2024-03-29

Family

ID=76461383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110182129.9A Active CN113032557B (zh) 2021-02-09 2021-02-09 一种基于频繁词集与bert语义的微博热点话题发现方法

Country Status (1)

Country Link
CN (1) CN113032557B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468868A (zh) * 2021-07-07 2021-10-01 西北大学 一种基于nlp的实时网络热点内容分析方法
CN113705247A (zh) * 2021-10-27 2021-11-26 腾讯科技(深圳)有限公司 主题模型效果评估方法、装置、设备、存储介质和产品
CN114722896A (zh) * 2022-03-05 2022-07-08 昆明理工大学 融合近邻标题图的新闻话题发现方法
CN115017320A (zh) * 2022-08-08 2022-09-06 杭州实在智能科技有限公司 结合词袋模型和深度学习模型的电商文本聚类方法及系统
JP7138981B1 (ja) 2021-08-11 2022-09-20 Croco株式会社 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570167A (zh) * 2016-11-08 2017-04-19 南京理工大学 基于融合知识的主题模型的微博话题发现方法
CN110489548A (zh) * 2019-07-12 2019-11-22 北京邮电大学 一种基于语义、时间和社交关系的中文微博话题检测方法及系统
CN111309911A (zh) * 2020-02-17 2020-06-19 昆明理工大学 面向司法领域的案件话题发现方法
CN112257429A (zh) * 2020-10-16 2021-01-22 北京工商大学 基于bert-btm网络的微博突发事件检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570167A (zh) * 2016-11-08 2017-04-19 南京理工大学 基于融合知识的主题模型的微博话题发现方法
CN110489548A (zh) * 2019-07-12 2019-11-22 北京邮电大学 一种基于语义、时间和社交关系的中文微博话题检测方法及系统
CN111309911A (zh) * 2020-02-17 2020-06-19 昆明理工大学 面向司法领域的案件话题发现方法
CN112257429A (zh) * 2020-10-16 2021-01-22 北京工商大学 基于bert-btm网络的微博突发事件检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李伟;贾彩燕;: "基于词共现网络的微博话题发现方法", 数据采集与处理, no. 01, pages 190 - 198 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468868A (zh) * 2021-07-07 2021-10-01 西北大学 一种基于nlp的实时网络热点内容分析方法
CN113468868B (zh) * 2021-07-07 2024-05-24 西北大学 一种基于nlp的实时网络热点内容分析方法
JP7138981B1 (ja) 2021-08-11 2022-09-20 Croco株式会社 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム
JP2023025933A (ja) * 2021-08-11 2023-02-24 Croco株式会社 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム
CN113705247A (zh) * 2021-10-27 2021-11-26 腾讯科技(深圳)有限公司 主题模型效果评估方法、装置、设备、存储介质和产品
CN113705247B (zh) * 2021-10-27 2022-02-11 腾讯科技(深圳)有限公司 主题模型效果评估方法、装置、设备、存储介质和产品
CN114722896A (zh) * 2022-03-05 2022-07-08 昆明理工大学 融合近邻标题图的新闻话题发现方法
CN115017320A (zh) * 2022-08-08 2022-09-06 杭州实在智能科技有限公司 结合词袋模型和深度学习模型的电商文本聚类方法及系统

Also Published As

Publication number Publication date
CN113032557B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN113032557B (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN106202211B (zh) 一种基于微博类型的集成微博谣言识别方法
CN107193797B (zh) 中文微博的热点话题检测及趋势预测方法
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN109684646A (zh) 一种基于话题影响力的微博话题情感分析方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN103955453B (zh) 一种从文档集中自动发现新词的方法及装置
CN106354818B (zh) 基于社交媒体的动态用户属性提取方法
CN106202053B (zh) 一种社交关系驱动的微博主题情感分析方法
CN105354216B (zh) 一种中文微博话题信息处理方法
CN110489745B (zh) 基于引文网络的论文文本相似性的检测方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN111309864B (zh) 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
CN102169496A (zh) 基于锚文本分析的领域术语自动生成方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN110728144B (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN113407842B (zh) 模型训练方法、主题推荐理由的获取方法及系统、电子设备
CN113988053A (zh) 一种热词提取方法及装置
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Campbell et al. Content+ context networks for user classification in twitter
CN105468780A (zh) 一种微博文本中产品名实体的规范化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant