CN107193797A - 中文微博的热点话题检测及趋势预测方法 - Google Patents
中文微博的热点话题检测及趋势预测方法 Download PDFInfo
- Publication number
- CN107193797A CN107193797A CN201710284285.XA CN201710284285A CN107193797A CN 107193797 A CN107193797 A CN 107193797A CN 201710284285 A CN201710284285 A CN 201710284285A CN 107193797 A CN107193797 A CN 107193797A
- Authority
- CN
- China
- Prior art keywords
- topic
- msub
- mrow
- microblogging
- microblog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000013277 forecasting method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 14
- 244000046052 Phaseolus vulgaris Species 0.000 claims abstract description 9
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 10
- 244000097202 Rathbunia alamosensis Species 0.000 claims description 6
- 235000009776 Rathbunia alamosensis Nutrition 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 206010037660 Pyrexia Diseases 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000006116 polymerization reaction Methods 0.000 claims description 5
- 238000000205 computational method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 210000003813 thumb Anatomy 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据挖掘、自然语言处理和信息检索领域,为提出一种中文微博的热点话题检测及趋势预测方法,能够有效克服传统话题检测及预测技术在计算微博热度时,往往过高计算意见领袖和粉丝数量的影响,忽略了话题的真正影响力体现在微博内容本身的问题;同时能够克服传统话题检测及预测技术中在计算话题热度时,只从语义上判断词语和文档所属的话题,忽略了在一个文档与所属话题内其他文档相似度较低时的问题。本发明采用的技术方案是,中文微博的热点话题检测及趋势预测方法,步骤如下:步骤一:数据采集和存储;步骤二:数据预处理;步骤三:话题抽取;步骤四:热点话题识别;步骤五:话题趋势预测。本发明主要应用于信息检索场合。
Description
技术领域
本发明属于数据挖掘、自然语言处理和信息检索领域,涉及主题检测与跟踪技术和话题预测技术,尤其是微博应用环境下热点话题检测与趋势预测方法。具体讲,涉及中文微博的热点话题检测及趋势预测方法。
背景技术
目前在话题检测及预测的相关技术中,传统的微博热度计算中认为领袖和粉丝数量对微博的影响力有推动作用,而事实上,微博影响力取决于消息传播的深度和广度,而非粉丝数量,“僵尸粉”的泛滥使基于粉丝数目的评价体系缺乏科学性,粉丝对意见领袖的崇拜与追捧心理使得意见领袖的博文有较高的转评赞指标,而热点话题是指社会热点,并不包括意见领袖所发布的私人生活微博。
在基于词频的话题热度计算上,潜在狄利克雷模型(LDA)仅在语义上判断词语和文档所属的话题。当一个文档与所属话题内的其他文档相似度比较低时,该文档的热度对整个话题的热度是一种假性促进。
发明内容
为克服现有技术的不足,本发明旨在提出一种中文微博的热点话题检测及趋势预测方法,能够有效克服传统话题检测及预测技术在计算微博热度时,往往过高计算意见领袖和粉丝数量的影响,忽略了话题的真正影响力体现在微博内容本身的问题;同时能够克服传统话题检测及预测技术中在计算话题热度时,只从语义上判断词语和文档所属的话题,忽略了在一个文档与所属话题内其他文档相似度较低时的问题。本发明采用的技术方案是,中文微博的热点话题检测及趋势预测方法,步骤如下:
步骤一:数据采集和存储:通过网络爬虫技术及新浪提供的开发API,均衡采集各类用户的微博数据;
步骤二:数据预处理:将获取的微博数据转化为词条串,分别进行无效信息过滤和分词与停用词处理,将原始微博预料精简为能代表微博内容的微博词集;
步骤三:话题抽取:输入预处理后的微博词集,采用LDA算法抽取微博话题;
步骤四:热点话题识别:去除对粉丝数量的直接计算,添加受众反应特征修正单条微博热度计算公式,利用微博的语义概率计算单条微博对所属话题的热值贡献度,形成完整的LDA驱动的基于内容的热点话题检测算法LDA-CHA;
步骤五:话题趋势预测:计算预测阶段的话题热度值和某话题微博内容参与率,建立以话题热度状态为隐含序列,以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型CPHMM预测话题热度趋势。
一个实例中具体步骤包括:
步骤S0101:首先提取微博数据,通过网络爬虫技术及新浪微博提供的开发API,均衡采集涵盖社会问题、教育、科技、娱乐领域的微博数据;
步骤S0201:去除微博内容文本中无意义的文字内容或符号,对过滤后的微博内容进行分词及词性标注,词性标注后去除文本中的停用词;
步骤S0301:采用话题去噪策略,来提高LDA话题抽取结果的聚合程度,设已经抽取的k个主题,文档-主题概率阈值为PF,去噪策略如公式(1)所示:
其中,T为去噪后主题集合,TPj为主题集中第j个主题,主题由文档组成,最终由dj篇文档组成,dj取值为1至m,表示在文档-主题矩阵中文档Di属于主题TPj的概率值;
步骤S0401:从非语义角度重新计算同一话题下文本内容的相似度,校正话题的热度计算,定义单条微博热度SMH的计算方法如公式(2)所示:
其中,mt表示转发数量,mc和ma分别表示评论数量和点赞数量,ρ,μ,分别代表各特征因子的权重;
步骤S0402:所有去噪后文档包含的词都作为特征词,重复的词只采用一次,根据设置的文本特征值和特征权重构建微博文本的空间向量模型,采用余弦相似度计算两个文档间的距离,得到话题热度TH如公式(3)所示:
其中,MHi表示第i条微博对话题的热值贡献度,i取值为1至N,TCD表示话题聚合程度;
步骤S0403:采用准确率评价微博热点话题检测性能,评估采用Kendall’s Tau相关系数和平均排序分;
步骤S0501:将所有微博的整体时间跨度分割成r个时间段,对给定话题,计算其每个时间段内的微博内容参与率MCP;
步骤S0502:利用Viterbi算法评估训练模型的可信度,利用后向概率对剩余时间段做话题热度状态预测,根据实际话题热度状态序列分析预测结果准确性;
步骤S0503:按照话题热度值计算方法计算训练集中的话题热度值,得到话题热度状态序列,与后向算法得到的话题热度状态序列进行比较,算出误差值。
本发明的特点及有益效果是:
本发明首先根据微博内容的转评赞传播特征,构建新的话题热度计算方法,并在话题抽取完成后提出一种去噪策略;其次,基于热点话题下的话题状态,通过CPHMM模型对热点话题未来热度趋势进行预测。本发明充分考虑了微博文本的语义、词频及传播特征,能够相对正确地预测热点话题的短期热度发展趋势。
基于内容的热点话题检测与预测方法,充分考虑了微博文本语义和词频特征以及传播特征,修正了意见领袖在热点话题传播上的夸大作用,能够精确地给出话题热度排名,并能相对正确地预测热点话题的短期热度发展趋势。
附图说明:
图1热点话题检测与趋势预测流程
图1为微博热点话题检测与趋势预测的总体流程图。
图2准确率P对比结果
在图2中,有3组LDA-CHA的准确率显著高于其他对比算法,并且3组结果为热度排名较高的结果,说明LDA-CHA能保证较高的准确率,总上准确率都高于LDA-HA。
图3模型预测结果误差对比
在图3中,针对热度排名前10的话题,CPHMM模型更接近真实热度变化情况,证明CPHMM模型在社会热点话题趋势预测方面可信度较高。
具体实施方式
本发明提出一种中文微博的热点话题检测及趋势预测方法,包含以下步骤:
步骤一:数据采集和存储。通过网络爬虫技术及新浪提供的开发API,均衡采集各类用户的微博数据。
步骤二:数据预处理。将获取的微博数据转化为词条串,分别进行无效信息过滤和分词与停用词处理,将原始微博预料精简为能代表微博内容的微博词集。
步骤三:话题抽取。输入预处理后的微博词集,采用LDA算法抽取微博话题,本发明提出一种话题去噪策略,来提高LDA话题抽取结果的聚合程度,筛除每个话题下与之不太相关的文档。
步骤四:热点话题识别。去除对粉丝数量的直接计算,添加受众反应特征修正单条微博热度计算公式,利用微博的语义概率计算单条微博对所属话题的热值贡献度,形成完整的LDA驱动的基于内容的热点话题检测算法(LDA-CHA)。
步骤五:话题趋势预测。计算预测阶段的话题热度值和某话题微博内容参与率,建立以话题热度状态为隐含序列,以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型(CPHMM)预测话题热度趋势。
本发明算法的基准实验采用SP&HA聚类热点话题检测算法,热度计算采用基于意见领袖的博文热度计算方法。完整的热点话题检测算法为LDA-CHA。另一对比实验将LDA-CHA中的话题热度计算方法替换为SP&HA中的计算策略,该算法标记为LDA-HA。三个方法均得到100个按热度排序的话题。
对每组话题结果,取热度TopN的话题内容,回归文档人工归纳话题内容,与数据集标注的热点话题比对,记录属于标注热点范围的数量,对三组热点检测结果依次计算准确率P,对比结果如图1所示。
从直接证明预测算法预测效果的角度进行对比试验,基准实验选取基于意见领袖参与状态突发事件下热点话题趋势预测的模型λ'。
根据本发明改进的话题热度计算策略,计算10个话题测试集数据在5个测试时段的热度值,进而形成10组长度为5的热度状态序列。结果如图2所示。
基于内容的热点话题检测与预测方法,充分考虑了微博文本语义和词频特征以及传播特征,修正了意见领袖在热点话题传播上的夸大作用,能够精确地给出话题热度排名,并能相对正确地预测热点话题的短期热度发展趋势。
本发明提供了一种中文微博的热点话题检测及趋势预测方法,包括:
步骤S0101:首先提取微博数据,通过网络爬虫技术及新浪微博提供的开发API,均衡采集涵盖社会问题、教育、科技、娱乐等领域的微博数据。
步骤S0201:去除微博内容文本中无意义的文字内容或符号,对过滤后的微博内容进行分词及词性标注,词性标注后去除文本中的停用词。
步骤S0301:本发明针对LDA模型进行改进,提出一种话题去噪策略,来提高LDA话题抽取结果的聚合程度,设已经抽取的k个主题,文档-主题概率阈值为PF,去噪策略如公式(1)所示。
其中,T为去噪后主题集合,TPj为主题集中第j个主题,主题由文档组成,最终由dj篇文档组成,dj取值为1至m,表示在文档-主题矩阵中文档Di属于主题TPj的概率值。
步骤S0401:本发明对传统的微博热度计算公式进行改进,从非语义角度重新计算同一话题下文本内容的相似度,校正话题的热度计算。定义单条微博热度SMH的计算方法如公式(2)所示。
其中,mt表示转发数量,mc和ma分别表示评论数量和点赞数量,ρ,μ,分别代表各特征因子的权重。
步骤S0402:所有去噪后文档包含的词都作为特征词,重复的词只采用一次,根据设置的文本特征值和特征权重构建微博文本的空间向量模型,采用余弦相似度计算两个文档间的距离,得到话题热度TH如公式(3)所示。
其中,MHi表示第i条微博对话题的热值贡献度,i取值为1至N,TCD表示话题聚合程度。
步骤S0403:采用准确率评价微博热点话题检测性能,评估采用Kendall’s Tau相关系数和平均排序分。
步骤S0501:将所有微博的整体时间跨度分割成r个时间段,对给定话题,可以计算其每个时间段内的微博内容参与率MCP。
步骤S0502:利用Viterbi算法评估训练模型的可信度,利用后向概率对剩余时间段做话题热度状态预测,根据实际话题热度状态序列分析预测结果准确性。
步骤S0503:按照话题热度值计算方法计算训练集中的话题热度值,得到话题热度状态序列,与后向算法得到的话题热度状态序列进行比较,算出误差值。
本发明首先根据微博内容的转评赞传播特征,构建新的话题热度计算方法,并在话题抽取完成后提出一种去噪策略;其次,基于热点话题下的话题状态,通过CPHMM模型对热点话题未来热度趋势进行预测。本发明充分考虑了微博文本的语义、词频及传播特征,能够相对正确地预测热点话题的短期热度发展趋势。
Claims (2)
1.一种中文微博的热点话题检测及趋势预测方法,其特征是,步骤如下:
步骤一:数据采集和存储:通过网络爬虫技术及新浪提供的开发API,均衡采集各类用户的微博数据;
步骤二:数据预处理:将获取的微博数据转化为词条串,分别进行无效信息过滤和分词与停用词处理,将原始微博预料精简为能代表微博内容的微博词集;
步骤三:话题抽取:输入预处理后的微博词集,采用LDA算法抽取微博话题;
步骤四:热点话题识别:去除对粉丝数量的直接计算,添加受众反应特征修正单条微博热度计算公式,利用微博的语义概率计算单条微博对所属话题的热值贡献度,形成完整的LDA驱动的基于内容的热点话题检测算法LDA-CHA;
步骤五:话题趋势预测:计算预测阶段的话题热度值和某话题微博内容参与率,建立以话题热度状态为隐含序列,以话题的内容参与状态和话题热度状态为理论基础的隐马尔科夫预测模型CPHMM预测话题热度趋势。
2.如权利要求1所述的中文微博的热点话题检测及趋势预测方法,其特征是,一个实例中具体步骤包括:
步骤S0101:首先提取微博数据,通过网络爬虫技术及新浪微博提供的开发API,均衡采集涵盖社会问题、教育、科技、娱乐领域的微博数据;
步骤S0201:去除微博内容文本中无意义的文字内容或符号,对过滤后的微博内容进行分词及词性标注,词性标注后去除文本中的停用词;
步骤S0301:采用话题去噪策略,来提高LDA话题抽取结果的聚合程度,设已经抽取的k个主题,文档-主题概率阈值为PF,去噪策略如公式(1)所示:
<mrow>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>T</mi>
<mo>=</mo>
<mo>{</mo>
<msub>
<mi>TP</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>TP</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>TP</mi>
<mi>k</mi>
</msub>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mi>T</mi>
<mi>P</mi>
<mo>=</mo>
<mo>{</mo>
<msub>
<mi>D</mi>
<mrow>
<mn>1</mn>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>D</mi>
<mrow>
<mn>2</mn>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>D</mi>
<mrow>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mi>j</mi>
</mrow>
</msub>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>D</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>&Element;</mo>
<mo>{</mo>
<msub>
<mi>D</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>D</mi>
<mn>2</mn>
</msub>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<msub>
<mi>D</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<msubsup>
<mi>&theta;</mi>
<msub>
<mi>D</mi>
<mi>i</mi>
</msub>
<mrow>
<msub>
<mi>TP</mi>
<mi>j</mi>
</msub>
</mrow>
</msubsup>
<mo>></mo>
<mi>P</mi>
<mi>F</mi>
<mo>}</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,T为去噪后主题集合,TPj为主题集中第j个主题,主题由文档组成,最终由dj篇文档组成,dj取值为1至m,表示在文档-主题矩阵中文档Di属于主题TPj的概率值;
步骤S0401:从非语义角度重新计算同一话题下文本内容的相似度,校正话题的热度计算,定义单条微博热度SMH的计算方法如公式(2)所示:
其中,mt表示转发数量,mc和ma分别表示评论数量和点赞数量,ρ,μ,分别代表各特征因子的权重;
步骤S0402:所有去噪后文档包含的词都作为特征词,重复的词只采用一次,根据设置的文本特征值和特征权重构建微博文本的空间向量模型,采用余弦相似度计算两个文档间的距离,得到话题热度TH如公式(3)所示:
<mrow>
<mi>T</mi>
<mi>H</mi>
<mo>=</mo>
<mi>T</mi>
<mi>C</mi>
<mi>D</mi>
<mo>&times;</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>MH</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,MHi表示第i条微博对话题的热值贡献度,i取值为1至N,TCD表示话题聚合程度;
步骤S0403:采用准确率评价微博热点话题检测性能,评估采用Kendall’s Tau相关系数和平均排序分;
步骤S0501:将所有微博的整体时间跨度分割成r个时间段,对给定话题,计算其每个时间段内的微博内容参与率MCP;
步骤S0502:利用Viterbi算法评估训练模型的可信度,利用后向概率对剩余时间段做话题热度状态预测,根据实际话题热度状态序列分析预测结果准确性;
步骤S0503:按照话题热度值计算方法计算训练集中的话题热度值,得到话题热度状态序列,与后向算法得到的话题热度状态序列进行比较,算出误差值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710284285.XA CN107193797B (zh) | 2017-04-26 | 2017-04-26 | 中文微博的热点话题检测及趋势预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710284285.XA CN107193797B (zh) | 2017-04-26 | 2017-04-26 | 中文微博的热点话题检测及趋势预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107193797A true CN107193797A (zh) | 2017-09-22 |
CN107193797B CN107193797B (zh) | 2020-08-18 |
Family
ID=59873598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710284285.XA Active CN107193797B (zh) | 2017-04-26 | 2017-04-26 | 中文微博的热点话题检测及趋势预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107193797B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895053A (zh) * | 2017-12-13 | 2018-04-10 | 福州大学 | 基于话题簇动量模型的新兴热点话题检测系统及方法 |
CN108596239A (zh) * | 2018-04-20 | 2018-09-28 | 南京航空航天大学 | 一种基于马尔科夫链和动态回溯的主题热度趋势预测方法 |
CN109344319A (zh) * | 2018-11-01 | 2019-02-15 | 中国搜索信息科技股份有限公司 | 一种基于集成学习的线上内容热度预测方法 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
CN109582771A (zh) * | 2018-11-26 | 2019-04-05 | 国网湖南省电力有限公司 | 面向电力领域基于移动应用的智能客户交互方法 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN110134788A (zh) * | 2019-05-16 | 2019-08-16 | 杭州师范大学 | 一种基于文本挖掘的微博发布优化方法及系统 |
WO2020007266A1 (zh) * | 2018-07-04 | 2020-01-09 | 奇酷互联网络科技(深圳)有限公司 | 动态分享消息的管理方法、管理设备、存储介质及终端 |
CN110929145A (zh) * | 2019-10-17 | 2020-03-27 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、计算机装置及存储介质 |
CN111859230A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网信息的热点趋势的控制方法 |
CN112069387A (zh) * | 2020-11-12 | 2020-12-11 | 北京智慧星光信息技术有限公司 | 互联网事件传播爆发预测方法、装置、电子设备及介质 |
CN112650847A (zh) * | 2019-10-11 | 2021-04-13 | 中国农业科学院农业信息研究所 | 一种科技研究热点主题预测方法 |
CN116362210A (zh) * | 2023-06-01 | 2023-06-30 | 环球数科集团有限公司 | 一种基于aigc技术的热点资讯生成编辑系统 |
CN117078341A (zh) * | 2023-08-18 | 2023-11-17 | 时趣互动(北京)科技有限公司 | 一种品牌营销活动分析展示方法、系统、终端及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015965B (zh) * | 2020-08-27 | 2021-06-29 | 中国搜索信息科技股份有限公司 | 一种新媒体稿件热度计算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN104834632A (zh) * | 2015-05-13 | 2015-08-12 | 北京工业大学 | 一种基于语义扩充的微博话题检测和热度评估方法 |
CN105068991A (zh) * | 2015-07-30 | 2015-11-18 | 成都鼎智汇科技有限公司 | 一种基于大数据的舆情发现方法 |
US20160364488A1 (en) * | 2015-06-12 | 2016-12-15 | Baidu Online Network Technology (Beijing) Co., Ltd | Microblog-based event context acquiring method and system |
-
2017
- 2017-04-26 CN CN201710284285.XA patent/CN107193797B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN104216954A (zh) * | 2014-08-20 | 2014-12-17 | 北京邮电大学 | 突发事件话题状态的预测装置及预测方法 |
CN104834632A (zh) * | 2015-05-13 | 2015-08-12 | 北京工业大学 | 一种基于语义扩充的微博话题检测和热度评估方法 |
US20160364488A1 (en) * | 2015-06-12 | 2016-12-15 | Baidu Online Network Technology (Beijing) Co., Ltd | Microblog-based event context acquiring method and system |
CN105068991A (zh) * | 2015-07-30 | 2015-11-18 | 成都鼎智汇科技有限公司 | 一种基于大数据的舆情发现方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895053A (zh) * | 2017-12-13 | 2018-04-10 | 福州大学 | 基于话题簇动量模型的新兴热点话题检测系统及方法 |
CN107895053B (zh) * | 2017-12-13 | 2021-09-24 | 福州大学 | 基于话题簇动量模型的新兴热点话题检测系统及方法 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN108596239B (zh) * | 2018-04-20 | 2021-12-31 | 南京航空航天大学 | 一种基于马尔科夫链和动态回溯的主题热度趋势预测方法 |
CN108596239A (zh) * | 2018-04-20 | 2018-09-28 | 南京航空航天大学 | 一种基于马尔科夫链和动态回溯的主题热度趋势预测方法 |
WO2020007266A1 (zh) * | 2018-07-04 | 2020-01-09 | 奇酷互联网络科技(深圳)有限公司 | 动态分享消息的管理方法、管理设备、存储介质及终端 |
CN109344319B (zh) * | 2018-11-01 | 2021-08-24 | 中国搜索信息科技股份有限公司 | 一种基于集成学习的线上内容热度预测方法 |
CN109344319A (zh) * | 2018-11-01 | 2019-02-15 | 中国搜索信息科技股份有限公司 | 一种基于集成学习的线上内容热度预测方法 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
CN109582771A (zh) * | 2018-11-26 | 2019-04-05 | 国网湖南省电力有限公司 | 面向电力领域基于移动应用的智能客户交互方法 |
CN111859230A (zh) * | 2019-04-30 | 2020-10-30 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网信息的热点趋势的控制方法 |
CN111859230B (zh) * | 2019-04-30 | 2024-02-06 | 北京智慧星光信息技术有限公司 | 一种用于监控互联网信息的热点趋势的控制方法 |
CN110134788A (zh) * | 2019-05-16 | 2019-08-16 | 杭州师范大学 | 一种基于文本挖掘的微博发布优化方法及系统 |
CN112650847A (zh) * | 2019-10-11 | 2021-04-13 | 中国农业科学院农业信息研究所 | 一种科技研究热点主题预测方法 |
CN112650847B (zh) * | 2019-10-11 | 2023-05-09 | 中国农业科学院农业信息研究所 | 一种科技研究热点主题预测方法 |
CN110929145A (zh) * | 2019-10-17 | 2020-03-27 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、计算机装置及存储介质 |
WO2021073271A1 (zh) * | 2019-10-17 | 2021-04-22 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、计算机装置及存储介质 |
CN112069387A (zh) * | 2020-11-12 | 2020-12-11 | 北京智慧星光信息技术有限公司 | 互联网事件传播爆发预测方法、装置、电子设备及介质 |
CN116362210A (zh) * | 2023-06-01 | 2023-06-30 | 环球数科集团有限公司 | 一种基于aigc技术的热点资讯生成编辑系统 |
CN117078341A (zh) * | 2023-08-18 | 2023-11-17 | 时趣互动(北京)科技有限公司 | 一种品牌营销活动分析展示方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107193797B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193797A (zh) | 中文微博的热点话题检测及趋势预测方法 | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN103617157B (zh) | 基于语义的文本相似度计算方法 | |
CN104216954B (zh) | 突发事件话题状态的预测装置及预测方法 | |
Lee et al. | When twitter meets foursquare: tweet location prediction using foursquare | |
CN103049470B (zh) | 基于情感相关度的观点检索方法 | |
CN106599181A (zh) | 一种基于主题模型的新闻热点检测方法 | |
CN103235772A (zh) | 一种文本集人物关系自动提取方法 | |
Li et al. | Location inference for non-geotagged tweets in user timelines | |
CN104679738B (zh) | 互联网热词挖掘方法及装置 | |
CN103198228B (zh) | 基于广义关系隐话题模型的关系网络链接预测方法 | |
CN104636325B (zh) | 一种基于极大似然估计确定文档相似度的方法 | |
CN104008187B (zh) | 一种基于最小编辑距离的半结构化文本匹配方法 | |
CN109408802A (zh) | 一种提升句向量语义的方法、系统及存储介质 | |
CN106156333A (zh) | 一种融合社会化信息的改进单类协同过滤方法 | |
CN111241425B (zh) | 一种基于层次注意力机制的poi推荐方法 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN106202065A (zh) | 一种跨语言话题检测方法及系统 | |
Basudhar et al. | Reliability assessment using probabilistic support vector machines | |
CN100543735C (zh) | 基于文档结构的文档相似性度量方法 | |
CN109992784A (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
CN105740448A (zh) | 面向话题的多微博时序文摘方法 | |
Budhiraja et al. | A supervised learning approach for heading detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |