CN110428102B - 基于hc-tc-lda的重大事件趋势预测方法 - Google Patents

基于hc-tc-lda的重大事件趋势预测方法 Download PDF

Info

Publication number
CN110428102B
CN110428102B CN201910701134.9A CN201910701134A CN110428102B CN 110428102 B CN110428102 B CN 110428102B CN 201910701134 A CN201910701134 A CN 201910701134A CN 110428102 B CN110428102 B CN 110428102B
Authority
CN
China
Prior art keywords
words
topic
time slice
lda
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910701134.9A
Other languages
English (en)
Other versions
CN110428102A (zh
Inventor
谷雨
彭俊利
耿小航
张震
彭博远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910701134.9A priority Critical patent/CN110428102B/zh
Publication of CN110428102A publication Critical patent/CN110428102A/zh
Application granted granted Critical
Publication of CN110428102B publication Critical patent/CN110428102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开基于HC‑TC‑LDA的重大事件趋势预测方法。首先,采用网络爬虫爬取专题新闻数据;然后,利用主题模型抽取特征,并针对LDA主题模型存在大量噪声词,且必须凭借经验手动设置主题数目的问题,设计了融合层次聚类、单词贡献度、LDA的主题模型HC‑TC‑LDA;最后,采用机器学习分类模型构建重大事件趋势预测模型。本发明方法的预测性能优于依赖专家知识进行特征指标构建的传统方法,能有效实现重大事件趋势的高精度预测,并且在方法普适性与时效性上该方法均具有一定优势,无需更多的领域专家知识,为战略决策制定提供一定的辅助支持,具有广阔的应用前景。

Description

基于HC-TC-LDA的重大事件趋势预测方法
技术领域
本发明属于自然语言处理领域,涉及一种从海量数据中自动提取特征,并通过特征对重大事件的趋势变化进行预测的方法。
背景技术
重大事件指由某些原因、条件引起,对国家和社会产生巨大影响的事件。近年来,重大事件频发,为使相关部门能够对其提前采取预防措施或反制手段,研究重大事件的趋势预测是极其重要且紧迫的。
重大事件趋势预测是根据事件发展的连续性将数据按时间顺序排列,把重大事件未来的趋势变化分为多个类别或具体值,并对其进行定量预测。对于这类问题,国际关系领域的主流方法是采用事件数据分析法进行定量分析。事件数据分析就是从新闻报道、历史资料等多源信息中提取出对重大事件有一定影响力的相关事件记录,构建事件数据库,再通过一定的统计分析方法,尝试寻找出重大事件的变化规律和趋势。但该方法对领域专家的依赖性强,通过专家对数据进行筛选虽然能提高预测的准确率,但随着大数据时代的来临,新闻数据量呈指数级增长,完全依靠专家进行分析非常费时费力,甚至是一件无法完成的任务。
面对互联网中的海量数据,使用机器学习、自然语言处理(NaturalLanguageProcessing, NLP)技术进行事件预测成为研究的热点,已经有国际关系领域的研究者将其中部分技术应用到了国际重大事件的趋势预测。但在国际关系领域中的重大事件趋势预测中,仅在数值分析环节运用了机器学习算法,特征的筛选依然需要专家完成,自动化程度低,局限性大。
本发明针对当下基于海量新闻数据的重大事件趋势预测方法在特征构建上存在的自动化程度低和局限性大的问题,设计了一种基于层次聚类(HierarchicalClustering, HC)、单词贡献度(Term Contribution, TC)与潜在Dirichlet分布(LatentDirichlet Allocation, LDA)主题模型的重大事件趋势预测方法。首先,采用网络爬虫爬取专题新闻数据;然后,利用主题模型抽取特征,并针对LDA主题模型存在大量噪声词,且必须凭借经验手动设置主题数目的问题,设计了融合层次聚类、单词贡献度、LDA的主题模型HC-TC-LDA;最后,采用机器学习分类模型构建重大事件趋势预测模型。
发明内容
本发明方法的目的在于,解决基于海量新闻数据的重大事件趋势预测方法在特征构建上存在的自动化程度低和局限性大的问题。借鉴传统方法量化思想,综合利用网络爬虫、自然语言处理、机器学习等人工智能技术,分别从数据采集,特征构建、建模与预测三方面对现有方法进行优化改进。
本发明采用的技术方案包括以下步骤:
步骤(1).选取与重大事件的关联性高的若干目标网站,然后采用网络爬虫技术从中采集数据,并存入MySQL数据库。
步骤(2).划分时间片、确定趋势量化打分公式,并得到各时间片内新闻报道对应的量化趋势等级。
步骤(3).构建半结构化数据,利用HC-TC-LDA主题模型抽取数据集中具有表征性的特征词。
步骤(4).计算出每个时间片的特征向量,并进行数据对齐操作,构建预测数据集。
步骤(5).将预测数据集输入机器学习分类模型进行参数训练,获得重大事件趋势预测模型。
本发明与现有技术相比,其优点为:(1)从自然语言处理视角出发,采用改进的特征词自动抽取技术能高效实现对新闻数据特征集的构建; (2)相比传统方法,本发明更加智能与自动化,大大降低了重大事件趋势预测的时间与人力成本;(3)设计了一种新的单词贡献度计算方法,通过该计算方法得到的单词贡献度保留了单词在数据集中的完整语义信息,提高了特征词与噪声之间的区分度;(4)本方法中设计的HC-TC-LDA主题模型解决了传统主题模型中必须凭借经验手动设置主题数目的问题,并且引入的单词贡献度很好的提高了提取特征词的表征性。
附图说明
图1为基于网络爬虫技术的新闻数据采集流程图。
图2为基于HC-TC-LDA的重大事件趋势预测的流程图。
图3为重大事件A行为各月的趋势变化值在时间轴上的分布图。
具体实施方式
以下结合附图对本发明作进一步说明。
根据附图2所示,本发明的具体步骤如下:
步骤(1).选取新闻报道与重大事件的关联性高的若干目标网站,然后采用网络爬虫技术从上述目标网站采集数据(如图1所示),并将数据存入MySQL数据库。
步骤(2). 首先根据事件数据分析法中的事件量化思想确定事件打分公式并确定分值对应的趋势等级区间;然后划分时间片,根据上述事件打分公式为各时间片打分,确定每个时间片的趋势等级。
步骤(3). 构建半结构化数据,运用HC-TC-LDA主题模型抽取特征词。
3.1人为设置层次聚类HC的文本相似度阈值,自动获取MySQL数据库数据的主题数目K
3.2计算MySQL数据库中数据集中单词的贡献度TC值。
设数据集中共有W个单词,w(1≤wW)表示其中的第w个单词,现有的单词贡献度计算公式为
Figure 457574DEST_PATH_IMAGE002
(1)
其中
Figure 38728DEST_PATH_IMAGE004
表示单词w在第i个文档
Figure 810113DEST_PATH_IMAGE006
中的文档频率-逆文档频率权值(tf- idf)。从公式(1)可知这种方法将不同文本中相同单词的tf-idf(0≤tf-idf≤1)值进行两两相乘再相加求取单词贡献度,但数据集中每个单词的tf(0≤tf≤1)值是单词的文档频率,在每篇文本中的值都不同,表示单词在文档中的重要程度;idf值是单词的逆文档频率,不管出现在数据集中的哪篇文档中,其idf值均相同,表示单词在数据集中的重要程度。现有方法将tf-idf值融合后再两两相乘求取单词贡献度的做法大大弱化了idf(0≤idf≤1)所含的语义信息,即弱化了单词在整个数据集中的重要程度。这导致噪声词和特征词的TC值更加接近,降低了区分度。
为解决这一问题,本发明设计了一种新计算方法,先将每篇文档中相同单词的tf值进行两两相乘再相加的操作,得到根据tf值计算出的单词权值,最后将该值与idf相乘,这样得到的单词贡献度不仅保留了由tf值计算得到的权值,而且保留了idf值包含的完整语义信息,增加了特征词与噪声词的区分度。本发明设计的计算公式为
Figure 211138DEST_PATH_IMAGE008
(2)
其中,tf wi 表示单词w在第i篇文档中的文档频率tf值,idf w 表示单词w的逆文档频率idf值。
3.3将LDA的主题数目设为步骤3.1获得到的K,并使用LDA计算主题-词汇概率分布
Figure 227636DEST_PATH_IMAGE010
,设每个主题有V个词,单词w在主题k(0≤kK)下的概率分布计算公式为
Figure 663296DEST_PATH_IMAGE012
(3)
其中,
Figure 871161DEST_PATH_IMAGE014
表示除了当前词w以外主题中属于词项v的个数,β是常数。
3.4将单词贡献度与LDA融合,提取主题词。
设主题k下单词w的概率分布可表示为
Figure 556221DEST_PATH_IMAGE016
,单词w的贡献度为TC(w),融合后的概率值
Figure 376409DEST_PATH_IMAGE018
的计算公式为
Figure 400997DEST_PATH_IMAGE020
(4)
设每个主题下提取n个主题词,则根据融合后的主题-词汇概率分布,提取出每个主题下融合后概率值最大的前n个词汇作为每个主题的特征词。
步骤(4). 基于上一步获得的各主题下的特征词,计算每个主题在各个时间片下的值,获取特征向量,并进行数据对齐操作,构建预测数据集。
4.1获取特征向量。
每个主题在各时间片的量化值为各主题内所有特征词在各时间片新闻报道中出现的总次数与该时间片新闻报道的总词数的比值。假设有K个主题,
Figure 77966DEST_PATH_IMAGE022
表示第i个主题的量化值,a表示第i个主题下所有特征词在时间片T下出现的总次数,S表示时间片T下所有新闻报道的总词数,则在时间片T下,主题值X k 的计算公式为:
Figure 957978DEST_PATH_IMAGE024
(5)
时间片T的主题向量
Figure 50699DEST_PATH_IMAGE026
为:
Figure 460952DEST_PATH_IMAGE028
(6)
4.2对数据进行对齐操作,构建预测数据集。
设当前时间片为T时间片,则T-m时间片表示相对于T时间片的第T-m个时间片,将T-mT时间片融合后的主题向量对应T+1时间片的重大事件趋势等级,作为样本集输入机器学习分类模型的训练数据集,其中主题向量为输入,重大事件趋势等级为输出。
此处的融合是将这m个时间片的主题向量进行拼接或向量各维度相加求平均值,得到最终用于输入模型的向量。
步骤(5). 将步骤(4)获得的样本集输入机器学习分类模型进行参数训练,获得重大事件趋势预测模型。
为验证本发明的有效性,以重大事件A行为趋势预测为研究对象对本发明设计的预测方法进行验证,并与基于专家知识的传统方法预测结果进行对比分析。
按步骤(1)进行分析后,选择目标网站,爬取了2006年1月至2018年3月的中文新闻报道数据。
按步骤(2)阐述,将2006年1月至2017年2月数据用作构建模型,2017年3月至2018年3月数据用作预测验证。结合部分专家知识,针对重大事件A问题,以“月”作为时间片单位,并确定重大事件A行为趋势量化公式。
结合趋势量化公式与爬取新闻报道,对各月的重大事件A行为趋势值进行计算。
按步骤(3)阐述,运用本发明中设计的HC-TC-LDA主题模型提取特征词。设置超参数时,将层次聚类的文本相似度阈值为0.5;设定LDA超参数α=50/K(K为主题数),β=0.01,这是常用设置。最终得到24个主题。
根据抽取的特征词,统计各时间片下各主题内特征词的总词频,将时间片内的新闻数据根据主题量化方法转换为主题向量。将T月的主题向量作为自变量,T+1月的重大事件A行为趋势等级作为因变量输入多项式逻辑回归模型,进行模型的参数估计。
最后,将预测数据纳入训练得到的预测模型,在预测的13个月中,有6个月的预测结果与实际情况不同,准确率为53.8%。最后,将2006年4月至2018年3月共144个月的主题向量纳入预测模型进行检验,结果显示预测正确的月数为126个,准确率达到87.5%。
上述模型采用的是T月数据预测T+1月的重大事件A行为,接着分别采用T-1、T月以及T-2、T-1、T月数据预测T+1月的重大事件A行为,试图分析比较在时间轴上不同时间段事件对趋势变化的影响,通过实验对比发现,使用T-1、T月数据预测T+1月的重大事件A行为整体效果最好,所以,T+1月重大事件的发展趋势不仅与T月的事件有关,T-1甚至更早时间段发生的事件都会对T+1月的趋势变化产生不可忽视的影响。详细预测结果如表1 所示。
表1 使用不同数量时间片进行预测的结果对比
Figure DEST_PATH_IMAGE029
表格最后一行列出了基于专家知识的传统方法预测2006年4月至2018年3月重大事件A行为趋势等级的准确率,由结果可知,本发明挖掘出了新闻中的重要特征,泛化能力比传统方法更强,采用同样数量的时间片进行预测,验证集准确率以及全时段准确率均高于传统方法的准确率。
本发明设计的基于HC-TC-LDA的重大事件趋势预测方法在重大事件A行为趋势预测问题上表现良好,预测结果表明,在爬取数据分布的全部时间段上,针对重大事件A行为趋势预测的方法准确率最高达到了90.2%,预测性能优于依赖专家知识进行特征指标构建的传统方法,能有效进行重大事件的趋势预测。
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。

Claims (1)

1.基于HC-TC-LDA的重大事件趋势预测方法,其特征在于该方法包括以下步骤:
步骤(1).选取新闻报道与重大事件的关联性高的若干目标网站,然后采用网络爬虫技术从上述目标网站采集数据,并将数据存入MySQL数据库;
步骤(2).首先根据事件数据分析法中的事件量化思想确定事件打分公式并确定分值对应的趋势等级区间;然后划分时间片,根据上述事件打分公式为各时间片打分,确定每个时间片的趋势等级;
步骤(3).构建半结构化数据,运用HC-TC-LDA主题模型抽取特征词;
3.1人为设置层次聚类HC的文本相似度阈值,自动获取MySQL数据库数据的主题数目K;
3.2计算MySQL数据库中数据集中单词的贡献度TC值:
设数据集中共有W个单词,w(1≤w≤W)表示其中的第w个单词;
先将每篇文档中相同单词的tf值进行两两相乘再相加的操作,得到根据tf值计算出的单词权值,最后将该值与idf相乘,这样得到的单词贡献度不仅保留了由tf值计算得到的权值,而且保留了idf值包含的完整语义信息,增加了特征词与噪声词的区分度;见如下公式:
Figure FDA0002150823980000011
其中,tfwi表示单词w在第i篇文档中的文档频率tf值,idfw表示单词w的逆文档频率idf值;
3.3将LDA的主题数目设为步骤3.1获得到的K,并使用LDA计算主题-词汇概率分布φ,设每个主题有V个词,单词w在主题k(0≤k≤K)下的概率分布计算公式为
Figure FDA0002150823980000012
其中,
Figure FDA0002150823980000013
表示除了当前词w以外主题k中属于词项v的个数,β是常数;
3.4将单词贡献度与LDA融合,提取主题词;
设主题k下单词w的概率分布可表示为φ(wk),单词w的贡献度为TC(w),融合后的概率值φ(wk-tc)的计算公式为
φ(wk-tc)=φ(wk)+TC(w) (4)
设每个主题下提取n个主题词,则根据融合后的主题-词汇概率分布,提取出每个主题下融合后概率值最大的前n个词汇作为每个主题的特征词;
步骤(4).基于上一步获得的各主题下的特征词,计算每个主题在各个时间片下的值,获取特征向量,并进行数据对齐操作,构建预测数据集;
4.1获取特征向量;
每个主题在各时间片的量化值为各主题内所有特征词在各时间片新闻报道中出现的总次数与该时间片新闻报道的总词数的比值;假设有K个主题,Xk(k∈1,2,···,K)表示第i个主题的量化值,a表示第i个主题下所有特征词在时间片T下出现的总次数,S表示时间片T下所有新闻报道的总词数,则在时间片T下,主题值Xk的计算公式为:
Figure FDA0002150823980000021
时间片T的主题向量
Figure FDA0002150823980000022
为:
Figure FDA0002150823980000023
4.2对数据进行对齐操作,构建预测数据集;
设当前时间片为T时间片,则T-m时间片表示相对于T时间片的第T-m个时间片,将T-m至T时间片融合后的主题向量对应T+1时间片的重大事件趋势等级,作为样本集输入机器学习分类模型的训练数据集,其中主题向量为输入,重大事件趋势等级为输出;
此处的融合是将这m个时间片的主题向量进行拼接或向量各维度相加求平均值,得到最终用于输入模型的向量;
步骤(5).将步骤(4)获得的样本集输入机器学习分类模型进行参数训练,获得重大事件趋势预测模型。
CN201910701134.9A 2019-07-31 2019-07-31 基于hc-tc-lda的重大事件趋势预测方法 Active CN110428102B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910701134.9A CN110428102B (zh) 2019-07-31 2019-07-31 基于hc-tc-lda的重大事件趋势预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910701134.9A CN110428102B (zh) 2019-07-31 2019-07-31 基于hc-tc-lda的重大事件趋势预测方法

Publications (2)

Publication Number Publication Date
CN110428102A CN110428102A (zh) 2019-11-08
CN110428102B true CN110428102B (zh) 2021-11-09

Family

ID=68411754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910701134.9A Active CN110428102B (zh) 2019-07-31 2019-07-31 基于hc-tc-lda的重大事件趋势预测方法

Country Status (1)

Country Link
CN (1) CN110428102B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220855B (zh) * 2021-05-27 2022-07-22 浙江大学 基于it技术问答网站的计算机技术领域发展趋势分析方法
CN113837283B (zh) * 2021-09-26 2024-01-30 华北电力大学 一种基于均值聚类与线性判别的热带气旋等级划分方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430563B2 (en) * 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例;马红等;《现代图书情报技术》;20161225(第12期);全文 *
基于LDA的新闻话题子话题划分方法;赵爱华等;《小型微型计算机系统》;20130415(第04期);全文 *
基于突发主题词和凝聚式层次聚类的微博突发事件检测研究;丁晟春等;《现代图书情报技术》;20160825;全文 *
结合卷积神经网络和Topic2Vec的新闻主题演变分析;徐月梅等;《数据分析与知识发现》;20180925(第09期);全文 *

Also Published As

Publication number Publication date
CN110428102A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN113302634B (zh) 学习和预测关键短语以及生成预测的系统、介质和方法
CN111581983B (zh) 基于群体分析的网络舆论事件中社会关注热点的预测方法
Meng et al. Rating the crisis of online public opinion using a multi-level index system
Paul et al. Compass: Spatio temporal sentiment analysis of US election what twitter says!
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
Kirelli et al. Sentiment analysis of shared tweets on global warming on twitter with data mining methods: a case study on Turkish language
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
CN111753093A (zh) 一种网络舆情危机等级评价方法和装置
Li et al. Improving user attribute classification with text and social network attention
CN110428102B (zh) 基于hc-tc-lda的重大事件趋势预测方法
Tuke et al. Pachinko Prediction: A Bayesian method for event prediction from social media data
Ezzeldin et al. Metaresearching structural engineering using text mining: Trend identifications and knowledge gap discoveries
Wang et al. Textual sentiment of Chinese microblog toward the stock market
CN112733538B (zh) 一种基于文本的本体构建方法及装置
Carvalho et al. Analysing the importance of variables for sewer failure prediction
Yu et al. Exploiting structured news information to improve event detection via dual-level clustering
Alamsyah et al. A progress on the personality measurement model using ontology based on social media text
Gutsche Automatic weak signal detection and forecasting
Li et al. Evaluating the rationality of judicial decision with LSTM-based case modeling
Xie et al. Predicating paper influence in academic network
Ni Legal Early Warning of Public Crisis in Network Public Opinion Events Based on Emotional Tendency
Pei [Retracted] Construction of a Legal System of Corporate Social Responsibility Based on Big Data Analysis Technology
CN108038790B (zh) 一种内外数据融合的态势分析系统
Midhunchakkaravarthy et al. Evaluation of product usability using improved FP-growth frequent itemset algorithm and DSLC–FOA algorithm for alleviating feature fatigue
Huang Deep Learning for Fake News Detection: Theories and Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant