CN107193797B - 中文微博的热点话题检测及趋势预测方法 - Google Patents

中文微博的热点话题检测及趋势预测方法 Download PDF

Info

Publication number
CN107193797B
CN107193797B CN201710284285.XA CN201710284285A CN107193797B CN 107193797 B CN107193797 B CN 107193797B CN 201710284285 A CN201710284285 A CN 201710284285A CN 107193797 B CN107193797 B CN 107193797B
Authority
CN
China
Prior art keywords
topic
microblog
heat
hot
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710284285.XA
Other languages
English (en)
Other versions
CN107193797A (zh
Inventor
于瑞国
原旭莹
于健
喻梅
徐天一
尚鸿运
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710284285.XA priority Critical patent/CN107193797B/zh
Publication of CN107193797A publication Critical patent/CN107193797A/zh
Application granted granted Critical
Publication of CN107193797B publication Critical patent/CN107193797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘、自然语言处理和信息检索领域,为提出一种中文微博的热点话题检测及趋势预测方法,能够有效克服传统话题检测及预测技术在计算微博热度时,往往过高计算意见领袖和粉丝数量的影响,忽略了话题的真正影响力体现在微博内容本身的问题;同时能够克服传统话题检测及预测技术中在计算话题热度时,只从语义上判断词语和文档所属的话题,忽略了在一个文档与所属话题内其他文档相似度较低时的问题。本发明采用的技术方案是,中文微博的热点话题检测及趋势预测方法,步骤如下:步骤一:数据采集和存储;步骤二:数据预处理;步骤三:话题抽取;步骤四:热点话题识别;步骤五:话题趋势预测。本发明主要应用于信息检索场合。

Description

中文微博的热点话题检测及趋势预测方法
技术领域
本发明属于数据挖掘、自然语言处理和信息检索领域,涉及主题检测与跟踪技术和话题预测技术,尤其是微博应用环境下热点话题检测与趋势预测方法。具体讲,涉及中文微博的热点话题检测及趋势预测方法。
背景技术
目前在话题检测及预测的相关技术中,传统的微博热度计算中认为领袖和粉丝数量对微博的影响力有推动作用,而事实上,微博影响力取决于消息传播的深度和广度,而非粉丝数量,“僵尸粉”的泛滥使基于粉丝数目的评价体系缺乏科学性,粉丝对意见领袖的崇拜与追捧心理使得意见领袖的博文有较高的转评赞指标,而热点话题是指社会热点,并不包括意见领袖所发布的私人生活微博。
在基于词频的话题热度计算上,潜在狄利克雷模型(LDA)仅在语义上判断词语和文档所属的话题。当一个文档与所属话题内的其他文档相似度比较低时,该文档的热度对整个话题的热度是一种假性促进。
发明内容
为克服现有技术的不足,本发明旨在提出一种中文微博的热点话题检测及趋势预测方法,能够有效克服传统话题检测及预测技术在计算微博热度时,往往过高计算意见领袖和粉丝数量的影响,忽略了话题的真正影响力体现在微博内容本身的问题;同时能够克服传统话题检测及预测技术中在计算话题热度时,只从语义上判断词语和文档所属的话题,忽略了在一个文档与所属话题内其他文档相似度较低时的问题。本发明采用的技术方案是,中文微博的热点话题检测及趋势预测方法,步骤如下:
步骤一:数据采集和存储:通过网络爬虫技术及新浪提供的开发API,均衡采集各类用户的微博数据;
步骤二:数据预处理:将获取的微博数据转化为词条串,分别进行无效信息过滤和分词与停用词处理,将原始微博预料精简为能代表微博内容的微博词集;
步骤三:话题抽取:输入预处理后的微博词集,采用LDA算法抽取微博话题;
步骤四:热点话题识别:去除对粉丝数量的直接计算,添加受众反应特征修正单条微博热度计算公式,利用微博的语义概率计算单条微博对所属话题的热值贡献度,形成完整的LDA驱动的基于内容的热点话题检测算法LDA-CHA;
步骤五:话题趋势预测:计算预测阶段的话题热度值和某话题微博内容参与率,建立以话题热度状态为隐含序列,以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型CPHMM预测话题热度趋势。
一个实例中具体步骤包括:
步骤S0101:首先提取微博数据,通过网络爬虫技术及新浪微博提供的开发API,均衡采集涵盖社会问题、教育、科技、娱乐领域的微博数据;
步骤S0201:去除微博内容文本中无意义的文字内容或符号,对过滤后的微博内容进行分词及词性标注,词性标注后去除文本中的停用词;
步骤S0301:采用话题去噪策略,来提高LDA话题抽取结果的聚合程度,设已经抽取的k个主题,文档-主题概率阈值为PF,去噪策略如公式(1)所示:
Figure GDA0001368107110000021
其中,T为去噪后主题集合,TPj为主题集中第j个主题,主题由文档
Figure GDA0001368107110000022
组成,最终由dj篇文档组成,dj取值为1至m,
Figure GDA0001368107110000023
表示在文档-主题矩阵中文档Di属于主题TPj的概率值;
步骤S0401:从非语义角度重新计算同一话题下文本内容的相似度,校正话题的热度计算,定义单条微博热度SMH的计算方法如公式(2)所示:
Figure GDA0001368107110000024
其中,mt表示转发数量,mc和ma分别表示评论数量和点赞数量,ρ,μ,
Figure GDA0001368107110000025
分别代表各特征因子的权重;
步骤S0402:所有去噪后文档包含的词都作为特征词,重复的词只采用一次,根据设置的文本特征值和特征权重构建微博文本的空间向量模型,采用余弦相似度计算两个文档间的距离,得到话题热度TH如公式(3)所示:
Figure GDA0001368107110000026
其中,MHi表示第i条微博对话题的热值贡献度,i取值为1至N,TCD表示话题聚合程度;
步骤S0403:采用准确率评价微博热点话题检测性能,评估采用Kendall’s Tau相关系数和平均排序分;
步骤S0501:将所有微博的整体时间跨度分割成r个时间段,对给定话题,计算其每个时间段内的微博内容参与率MCP;
步骤S0502:利用Viterbi算法评估训练模型的可信度,利用后向概率对剩余时间段做话题热度状态预测,根据实际话题热度状态序列分析预测结果准确性;
步骤S0503:按照话题热度值计算方法计算训练集中的话题热度值,得到话题热度状态序列,与后向算法得到的话题热度状态序列进行比较,算出误差值。
本发明的特点及有益效果是:
本发明首先根据微博内容的转评赞传播特征,构建新的话题热度计算方法,并在话题抽取完成后提出一种去噪策略;其次,基于热点话题下的话题状态,通过CPHMM模型对热点话题未来热度趋势进行预测。本发明充分考虑了微博文本的语义、词频及传播特征,能够相对正确地预测热点话题的短期热度发展趋势。
基于内容的热点话题检测与预测方法,充分考虑了微博文本语义和词频特征以及传播特征,修正了意见领袖在热点话题传播上的夸大作用,能够精确地给出话题热度排名,并能相对正确地预测热点话题的短期热度发展趋势。
附图说明:
图1为微博热点话题检测与趋势预测的总体流程图。
图2准确率P对比结果
在图2中,有3组LDA-CHA的准确率显著高于其他对比算法,并且3组结果为热度排名较高的结果,说明LDA-CHA能保证较高的准确率,总上准确率都高于LDA-HA。
图3模型预测结果误差对比
在图3中,针对热度排名前10的话题,CPHMM模型更接近真实热度变化情况,证明CPHMM模型在社会热点话题趋势预测方面可信度较高。
具体实施方式
本发明提出一种中文微博的热点话题检测及趋势预测方法,包含以下步骤:
步骤一:数据采集和存储。通过网络爬虫技术及新浪提供的开发API,均衡采集各类用户的微博数据。
步骤二:数据预处理。将获取的微博数据转化为词条串,分别进行无效信息过滤和分词与停用词处理,将原始微博预料精简为能代表微博内容的微博词集。
步骤三:话题抽取。输入预处理后的微博词集,采用LDA算法抽取微博话题,本发明提出一种话题去噪策略,来提高LDA话题抽取结果的聚合程度,筛除每个话题下与之不太相关的文档。
步骤四:热点话题识别。去除对粉丝数量的直接计算,添加受众反应特征修正单条微博热度计算公式,利用微博的语义概率计算单条微博对所属话题的热值贡献度,形成完整的LDA驱动的基于内容的热点话题检测算法(LDA-CHA)。
步骤五:话题趋势预测。计算预测阶段的话题热度值和某话题微博内容参与率,建立以话题热度状态为隐含序列,以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型(CPHMM)预测话题热度趋势。
本发明算法的基准实验采用SP&HA聚类热点话题检测算法,热度计算采用基于意见领袖的博文热度计算方法。完整的热点话题检测算法为LDA-CHA。另一对比实验将LDA-CHA中的话题热度计算方法替换为SP&HA中的计算策略,该算法标记为LDA-HA。三个方法均得到100个按热度排序的话题。
对每组话题结果,取热度TopN的话题内容,回归文档人工归纳话题内容,与数据集标注的热点话题比对,记录属于标注热点范围的数量,对三组热点检测结果依次计算准确率P,对比结果如图1所示。
从直接证明预测算法预测效果的角度进行对比试验,基准实验选取基于意见领袖参与状态突发事件下热点话题趋势预测的模型λ'。
根据本发明改进的话题热度计算策略,计算10个话题测试集数据在5个测试时段的热度值,进而形成10组长度为5的热度状态序列。结果如图2所示。
基于内容的热点话题检测与预测方法,充分考虑了微博文本语义和词频特征以及传播特征,修正了意见领袖在热点话题传播上的夸大作用,能够精确地给出话题热度排名,并能相对正确地预测热点话题的短期热度发展趋势。
本发明提供了一种中文微博的热点话题检测及趋势预测方法,包括:
步骤S0101:首先提取微博数据,通过网络爬虫技术及新浪微博提供的开发API,均衡采集涵盖社会问题、教育、科技、娱乐等领域的微博数据。
步骤S0201:去除微博内容文本中无意义的文字内容或符号,对过滤后的微博内容进行分词及词性标注,词性标注后去除文本中的停用词。
步骤S0301:本发明针对LDA模型进行改进,提出一种话题去噪策略,来提高LDA话题抽取结果的聚合程度,设已经抽取的k个主题,文档-主题概率阈值为PF,去噪策略如公式(1)所示。
Figure GDA0001368107110000041
其中,T为去噪后主题集合,TPj为主题集中第j个主题,主题由文档
Figure GDA0001368107110000042
组成,最终由dj篇文档组成,dj取值为1至m,
Figure GDA0001368107110000043
表示在文档-主题矩阵中文档Di属于主题TPj的概率值。
步骤S0401:本发明对传统的微博热度计算公式进行改进,从非语义角度重新计算同一话题下文本内容的相似度,校正话题的热度计算。定义单条微博热度SMH的计算方法如公式(2)所示。
Figure GDA0001368107110000044
其中,mt表示转发数量,mc和ma分别表示评论数量和点赞数量,ρ,μ,
Figure GDA0001368107110000045
分别代表各特征因子的权重。
步骤S0402:所有去噪后文档包含的词都作为特征词,重复的词只采用一次,根据设置的文本特征值和特征权重构建微博文本的空间向量模型,采用余弦相似度计算两个文档间的距离,得到话题热度TH如公式(3)所示。
Figure GDA0001368107110000046
其中,MHi表示第i条微博对话题的热值贡献度,i取值为1至N,TCD表示话题聚合程度。
步骤S0403:采用准确率评价微博热点话题检测性能,评估采用Kendall’s Tau相关系数和平均排序分。
步骤S0501:将所有微博的整体时间跨度分割成r个时间段,对给定话题,可以计算其每个时间段内的微博内容参与率MCP。
步骤S0502:利用Viterbi算法评估训练模型的可信度,利用后向概率对剩余时间段做话题热度状态预测,根据实际话题热度状态序列分析预测结果准确性。
步骤S0503:按照话题热度值计算方法计算训练集中的话题热度值,得到话题热度状态序列,与后向算法得到的话题热度状态序列进行比较,算出误差值。
本发明首先根据微博内容的转评赞传播特征,构建新的话题热度计算方法,并在话题抽取完成后提出一种去噪策略;其次,基于热点话题下的话题状态,通过CPHMM模型对热点话题未来热度趋势进行预测。本发明充分考虑了微博文本的语义、词频及传播特征,能够相对正确地预测热点话题的短期热度发展趋势。

Claims (1)

1.一种中文微博的热点话题检测及趋势预测方法,其特征是,步骤如下:
步骤一:数据采集和存储:通过网络爬虫技术及新浪提供的开发API,均衡采集各类用户的微博数据;
步骤二:数据预处理:将获取的微博数据转化为词条串,分别进行无效信息过滤和分词与停用词处理,将原始微博语料精简为能代表微博内容的微博词集;
步骤三:话题抽取:输入预处理后的微博词集,采用LDA算法抽取微博话题;
步骤四:热点话题识别:去除对粉丝数量的直接计算,添加受众反应特征修正单条微博热度计算公式,利用微博的语义概率计算单条微博对所属话题的热值贡献度,形成完整的LDA驱动的基于内容的热点话题检测算法LDA-CHA;
步骤五:话题趋势预测:计算预测阶段的话题热度值和某话题微博内容参与率,建立以话题热度状态为隐含序列,以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型CPHMM预测话题热度趋势;
具体步骤包括:
步骤S0101:首先提取微博数据,通过网络爬虫技术及新浪微博提供的开发API,均衡采集涵盖社会问题、教育、科技、娱乐领域的微博数据;
步骤S0201:去除微博内容文本中无意义的文字内容或符号,对过滤后的微博内容进行分词及词性标注,词性标注后去除文本中的停用词;
步骤S0301:采用话题去噪策略,来提高LDA话题抽取结果的聚合程度,设已经抽取的k个主题,文档-主题概率阈值为PF,去噪策略如公式(1)所示:
Figure FDA0002469885480000011
其中,T为去噪后主题集合,TPj为主题集中第j个主题,主题由文档
Figure FDA0002469885480000016
组成,最终由dj篇文档组成,dj取值为1至m,
Figure FDA0002469885480000012
表示在文档-主题矩阵中文档Di属于主题TPj的概率值;
步骤S0401:从非语义角度重新计算同一话题下文本内容的相似度,校正话题的热度计算,定义单条微博热度SMH的计算方法如公式(2)所示:
Figure FDA0002469885480000014
其中,mt表示转发数量,mc和ma分别表示评论数量和点赞数量,ρ,μ,
Figure FDA0002469885480000015
分别代表各特征因子的权重;
步骤S0402:所有去噪后文档包含的词都作为特征词,重复的词只采用一次,根据设置的文本特征值和特征权重构建微博文本的空间向量模型,采用余弦相似度计算两个文档间的距离,得到话题热度TH如公式(3)所示:
Figure FDA0002469885480000013
其中,MHi表示第i条微博对话题的热值贡献度,i取值为1至N,TCD表示话题聚合程度;
步骤S0403:采用准确率评价微博热点话题检测性能,评估采用Kendall’s Tau相关系数和平均排序分;
步骤S0501:将所有微博的整体时间跨度分割成r个时间段,对给定话题,计算其每个时间段内的微博内容参与率MCP;
步骤S0502:利用Viterbi算法评估训练模型的可信度,利用后向概率对剩余时间段做话题热度状态预测,根据实际话题热度状态序列分析预测结果准确性;
步骤S0503:按照话题热度值计算方法计算训练集中的话题热度值,得到话题热度状态序列,与后向算法得到的话题热度状态序列进行比较,算出误差值。
CN201710284285.XA 2017-04-26 2017-04-26 中文微博的热点话题检测及趋势预测方法 Active CN107193797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710284285.XA CN107193797B (zh) 2017-04-26 2017-04-26 中文微博的热点话题检测及趋势预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710284285.XA CN107193797B (zh) 2017-04-26 2017-04-26 中文微博的热点话题检测及趋势预测方法

Publications (2)

Publication Number Publication Date
CN107193797A CN107193797A (zh) 2017-09-22
CN107193797B true CN107193797B (zh) 2020-08-18

Family

ID=59873598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710284285.XA Active CN107193797B (zh) 2017-04-26 2017-04-26 中文微博的热点话题检测及趋势预测方法

Country Status (1)

Country Link
CN (1) CN107193797B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015965A (zh) * 2020-08-27 2020-12-01 中国搜索信息科技股份有限公司 一种新媒体稿件热度计算方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107895053B (zh) * 2017-12-13 2021-09-24 福州大学 基于话题簇动量模型的新兴热点话题检测系统及方法
CN109977393B (zh) * 2017-12-28 2021-09-03 中国科学院计算技术研究所 一种基于内容争议性的流行新闻预测方法和系统
CN108596239B (zh) * 2018-04-20 2021-12-31 南京航空航天大学 一种基于马尔科夫链和动态回溯的主题热度趋势预测方法
CN108833266B (zh) * 2018-07-04 2021-01-08 奇酷互联网络科技(深圳)有限公司 动态分享消息的管理方法、管理设备、存储介质及终端
CN109344319B (zh) * 2018-11-01 2021-08-24 中国搜索信息科技股份有限公司 一种基于集成学习的线上内容热度预测方法
CN109446329B (zh) * 2018-11-08 2022-02-22 大连瀚闻资讯有限公司 一种舆情分析的热点识别方法
CN109582771B (zh) * 2018-11-26 2022-11-25 国网湖南省电力有限公司 面向电力领域基于移动应用的智能客户交互方法
CN111859230B (zh) * 2019-04-30 2024-02-06 北京智慧星光信息技术有限公司 一种用于监控互联网信息的热点趋势的控制方法
CN110134788B (zh) * 2019-05-16 2021-05-11 杭州师范大学 一种基于文本挖掘的微博发布优化方法及系统
CN112650847B (zh) * 2019-10-11 2023-05-09 中国农业科学院农业信息研究所 一种科技研究热点主题预测方法
CN110929145B (zh) * 2019-10-17 2023-07-21 平安科技(深圳)有限公司 舆情分析方法、装置、计算机装置及存储介质
CN112069387B (zh) * 2020-11-12 2021-02-26 北京智慧星光信息技术有限公司 互联网事件传播爆发预测方法、装置、电子设备及介质
CN116362210B (zh) * 2023-06-01 2023-08-01 环球数科集团有限公司 一种基于aigc技术的热点资讯生成编辑系统
CN117078341A (zh) * 2023-08-18 2023-11-17 时趣互动(北京)科技有限公司 一种品牌营销活动分析展示方法、系统、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933129B (zh) * 2015-06-12 2019-04-30 百度在线网络技术(北京)有限公司 基于微博的事件脉络获取方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745000A (zh) * 2014-01-24 2014-04-23 福州大学 一种中文微博客的热点话题检测方法
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104834632A (zh) * 2015-05-13 2015-08-12 北京工业大学 一种基于语义扩充的微博话题检测和热度评估方法
CN105068991A (zh) * 2015-07-30 2015-11-18 成都鼎智汇科技有限公司 一种基于大数据的舆情发现方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015965A (zh) * 2020-08-27 2020-12-01 中国搜索信息科技股份有限公司 一种新媒体稿件热度计算方法
CN112015965B (zh) * 2020-08-27 2021-06-29 中国搜索信息科技股份有限公司 一种新媒体稿件热度计算方法

Also Published As

Publication number Publication date
CN107193797A (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN107193797B (zh) 中文微博的热点话题检测及趋势预测方法
CN106570708B (zh) 一种智能客服知识库的管理方法及系统
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN107423440B (zh) 一种基于情感分析的问答上下文切换与强化选择方法
CN103226580B (zh) 一种面向交互文本的话题识别方法
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN109271634B (zh) 一种基于用户情感倾向感知的微博文本情感极性分析方法
CN107895000B (zh) 一种基于卷积神经网络的跨领域语义信息检索方法
CN105354216B (zh) 一种中文微博话题信息处理方法
CN108304479B (zh) 一种基于图结构过滤的快速密度聚类双层网络推荐方法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN106339495A (zh) 一种基于层次增量聚类的话题检测方法及系统
CN110321421B (zh) 用于网站知识社区系统的专家推荐方法及计算机存储介质
CN111309864B (zh) 一种微博热点话题的用户群体情感倾向迁移动态分析方法
CN113032557B (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
WO2015021937A1 (zh) 用户推荐方法和装置
CN110134788B (zh) 一种基于文本挖掘的微博发布优化方法及系统
CN108280164A (zh) 一种基于类别相关单词的短文本过滤与分类方法
CN114819148B (zh) 基于不确定性估计知识蒸馏的语言模型压缩方法
CN102662987B (zh) 一种基于百度百科的网络文本语义的分类方法
CN113988053A (zh) 一种热词提取方法及装置
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN111930931A (zh) 一种摘要评价方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant