CN110428102A - 基于hc-tc-lda的重大事件趋势预测方法 - Google Patents
基于hc-tc-lda的重大事件趋势预测方法 Download PDFInfo
- Publication number
- CN110428102A CN110428102A CN201910701134.9A CN201910701134A CN110428102A CN 110428102 A CN110428102 A CN 110428102A CN 201910701134 A CN201910701134 A CN 201910701134A CN 110428102 A CN110428102 A CN 110428102A
- Authority
- CN
- China
- Prior art keywords
- topic
- words
- time slice
- word
- lda
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013277 forecasting method Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 4
- 238000011002 quantification Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 abstract description 6
- 230000009193 crawling Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000007796 conventional method Methods 0.000 abstract 1
- 230000006399 behavior Effects 0.000 description 20
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开基于HC‑TC‑LDA的重大事件趋势预测方法。首先,采用网络爬虫爬取专题新闻数据;然后,利用主题模型抽取特征,并针对LDA主题模型存在大量噪声词,且必须凭借经验手动设置主题数目的问题,设计了融合层次聚类、单词贡献度、LDA的主题模型HC‑TC‑LDA;最后,采用机器学习分类模型构建重大事件趋势预测模型。本发明方法的预测性能优于依赖专家知识进行特征指标构建的传统方法,能有效实现重大事件趋势的高精度预测,并且在方法普适性与时效性上该方法均具有一定优势,无需更多的领域专家知识,为战略决策制定提供一定的辅助支持,具有广阔的应用前景。
Description
技术领域
本发明属于自然语言处理领域,涉及一种从海量数据中自动提取特征,并通过特征对重大事件的趋势变化进行预测的方法。
背景技术
重大事件指由某些原因、条件引起,对国家和社会产生巨大影响的事件。近年来,重大事件频发,如朝鲜核行为、南海事件等,为使相关部门能够对其提前采取预防措施或反制手段,研究重大事件的趋势预测是极其重要且紧迫的。
重大事件趋势预测是根据事件发展的连续性将数据按时间顺序排列,把重大事件未来的趋势变化分为多个类别或具体值,并对其进行定量预测。对于这类问题,国际关系领域的主流方法是采用事件数据分析法进行定量分析。事件数据分析就是从新闻报道、历史资料等多源信息中提取出对重大事件有一定影响力的相关事件记录,构建事件数据库,再通过一定的统计分析方法,尝试寻找出重大事件的变化规律和趋势。但该方法对领域专家的依赖性强,通过专家对数据进行筛选虽然能提高预测的准确率,但随着大数据时代的来临,新闻数据量呈指数级增长,完全依靠专家进行分析非常费时费力,甚至是一件无法完成的任务。
面对互联网中的海量数据,使用机器学习、自然语言处理(NaturalLanguageProcessing,NLP)技术进行事件预测成为研究的热点,已经有国际关系领域的研究者将其中部分技术应用到了国际重大事件的趋势预测。但在国际关系领域中的重大事件趋势预测中,仅在数值分析环节运用了机器学习算法,特征的筛选依然需要专家完成,自动化程度低,局限性大。
本发明针对当下基于海量新闻数据的重大事件趋势预测方法在特征构建上存在的自动化程度低和局限性大的问题,设计了一种基于层次聚类(HierarchicalClustering,HC)、单词贡献度(Term Contribution,TC)与潜在Dirichlet分布(LatentDirichlet Allocation,LDA)主题模型的重大事件趋势预测方法。首先,采用网络爬虫爬取专题新闻数据;然后,利用主题模型抽取特征,并针对LDA主题模型存在大量噪声词,且必须凭借经验手动设置主题数目的问题,设计了融合层次聚类、单词贡献度、LDA的主题模型HC-TC-LDA;最后,采用机器学习分类模型构建重大事件趋势预测模型。
发明内容
本发明方法的目的在于,解决基于海量新闻数据的重大事件趋势预测方法在特征构建上存在的自动化程度低和局限性大的问题。借鉴传统方法量化思想,综合利用网络爬虫、自然语言处理、机器学习等人工智能技术,分别从数据采集,特征构建、建模与预测三方面对现有方法进行优化改进。
本发明采用的技术方案包括以下步骤:
步骤(1).选取与重大事件的关联性高的若干目标网站,然后采用网络爬虫技术从中采集数据,并存入MySQL数据库。
步骤(2).划分时间片、确定趋势量化打分公式,并得到各时间片内新闻报道对应的量化趋势等级。
步骤(3).构建半结构化数据,利用HC-TC-LDA主题模型抽取数据集中具有表征性的特征词。
步骤(4).计算出每个时间片的特征向量,并进行数据对齐操作,构建预测数据集。
步骤(5).将预测数据集输入机器学习分类模型进行参数训练,获得重大事件趋势预测模型。
本发明与现有技术相比,其优点为:(1)从自然语言处理视角出发,采用改进的特征词自动抽取技术能高效实现对新闻数据特征集的构建;(2)相比传统方法,本发明更加智能与自动化,大大降低了重大事件趋势预测的时间与人力成本;(3)设计了一种新的单词贡献度计算方法,通过该计算方法得到的单词贡献度保留了单词在数据集中的完整语义信息,提高了特征词与噪声之间的区分度;(4)本方法中设计的HC-TC-LDA主题模型解决了传统主题模型中必须凭借经验手动设置主题数目的问题,并且引入的单词贡献度很好的提高了提取特征词的表征性。
附图说明
图1为基于网络爬虫技术的新闻数据采集流程图。
图2为基于HC-TC-LDA的重大事件趋势预测的流程图。
图3为朝核行为各月的趋势变化值在时间轴上的分布图。
具体实施方式
以下结合附图对本发明作进一步说明。
根据附图2所示,本发明的具体步骤如下:
步骤(1).选取新闻报道与重大事件的关联性高的若干目标网站,然后采用网络爬虫技术从上述目标网站采集数据(如图1所示),并将数据存入MySQL数据库。
步骤(2).首先根据事件数据分析法中的事件量化思想确定事件打分公式并确定分值对应的趋势等级区间;然后划分时间片,根据上述事件打分公式为各时间片打分,确定每个时间片的趋势等级。
步骤(3).构建半结构化数据,运用HC-TC-LDA主题模型抽取特征词。
3.1人为设置层次聚类HC的文本相似度阈值,自动获取MySQL数据库数据的主题数目K。
3.2计算MySQL数据库中数据集中单词的贡献度TC值。
设数据集中共有W个单词,w(1≤w≤W)表示其中的第w个单词,现有的单词贡献度计算公式为
其中f(t,di)表示单词w在第i个文档di中的文档频率-逆文档频率权值(tf-idf)。从公式(1)可知这种方法将不同文本中相同单词的tf-idf(0≤tf-idf≤1)值进行两两相乘再相加求取单词贡献度,但数据集中每个单词的tf(0≤tf≤1)值是单词的文档频率,在每篇文本中的值都不同,表示单词在文档中的重要程度;idf值是单词的逆文档频率,不管出现在数据集中的哪篇文档中,其idf值均相同,表示单词在数据集中的重要程度。现有方法将tf-idf值融合后再两两相乘求取单词贡献度的做法大大弱化了idf(0≤idf≤1)所含的语义信息,即弱化了单词在整个数据集中的重要程度。这导致噪声词和特征词的TC值更加接近,降低了区分度。
为解决这一问题,本发明设计了一种新计算方法,先将每篇文档中相同单词的tf值进行两两相乘再相加的操作,得到根据tf值计算出的单词权值,最后将该值与idf相乘,这样得到的单词贡献度不仅保留了由tf值计算得到的权值,而且保留了idf值包含的完整语义信息,增加了特征词与噪声词的区分度。本发明设计的计算公式为
其中,tfwi表示单词w在第i篇文档中的文档频率tf值,idfw表示单词w的逆文档频率idf值。
3.3将LDA的主题数目设为步骤3.1获得到的K,并使用LDA计算主题-词汇概率分布φ,设每个主题有V个词,单词w在主题k(0≤k≤K)下的概率分布计算公式为
其中,表示除了当前词w以外主题k中属于词项v的个数,β是常数。
3.4将单词贡献度与LDA融合,提取主题词。
设主题k下单词w的概率分布可表示为φ(wk),单词w的贡献度为TC(w),融合后的概率值φ(wk-tc)的计算公式为
φ(wk-tc)=φ(wk)+TC(w) (4)
设每个主题下提取n个主题词,则根据融合后的主题-词汇概率分布,提取出每个主题下融合后概率值最大的前n个词汇作为每个主题的特征词。
步骤(4).基于上一步获得的各主题下的特征词,计算每个主题在各个时间片下的值,获取特征向量,并进行数据对齐操作,构建预测数据集。
4.1获取特征向量。
每个主题在各时间片的量化值为各主题内所有特征词在各时间片新闻报道中出现的总次数与该时间片新闻报道的总词数的比值。假设有K个主题,Xk(k∈1,2,···,K)表示第i个主题的量化值,a表示第i个主题下所有特征词在时间片T下出现的总次数,S表示时间片T下所有新闻报道的总词数,则在时间片T下,主题值Xk的计算公式为:
时间片T的主题向量为:
4.2对数据进行对齐操作,构建预测数据集。
设当前时间片为T时间片,则T-m时间片表示相对于T时间片的第T-m个时间片,将T-m至T时间片融合后的主题向量对应T+1时间片的重大事件趋势等级,作为样本集输入机器学习分类模型的训练数据集,其中主题向量为输入,重大事件趋势等级为输出。
此处的融合是将这m个时间片的主题向量进行拼接或向量各维度相加求平均值,得到最终用于输入模型的向量。
步骤(5).将步骤(4)获得的样本集输入机器学习分类模型进行参数训练,获得重大事件趋势预测模型。
为验证本发明的有效性,以朝鲜核行为趋势预测为研究对象对本发明设计的预测方法进行验证,并与基于专家知识的传统方法预测结果进行对比分析。
按步骤(1)进行分析后,选择韩国国际广播电台(KBS World Radio)北韩专栏(http://world.kbs.co.kr/service/contents_list.htm?lang=c&menu_cate= northkorea)作为目标网站,爬取了2006年1月至2018年3月的中文新闻报道数据。
按步骤(2)阐述,将2006年1月至2017年2月数据用作构建模型,2017年3月至2018年3月数据用作预测验证。结合部分专家知识,针对朝核问题,以“月”作为时间片单位,并确定如下所示的朝核行为趋势量化公式:
15枚中短程弹道导弹或潜射导弹=1枚远程或洲际导弹=1枚火箭=1次核试验=15分
结合趋势量化公式与爬取新闻报道,对各月的朝核行为趋势值进行计算。例如在2006年7月的新闻报道中,朝鲜于7月5日发射了6枚短程导弹,参照公式,2006年7月的朝核行为趋势值为6。结合量化得分绘制2006年1月至2017年9月朝核行为趋势统计图,结果如附图3所示。根据各月朝鲜核行为趋势值的分布情况,对各月下计算的趋势值进行离散化表示,将朝核行为划分成三类趋势等级:无核行为(C1)、轻度核行为(C2)、重度核行为(C3),三类核行为对应的分值区间分别为0,1~14,≥15。
按步骤(3)阐述,运用本发明中设计的HC-TC-LDA主题模型提取特征词。设置超参数时,将层次聚类的文本相似度阈值为0.5;设定LDA超参数α=50/K(K为主题数),β=0.01,这是常用设置。最终得到24个主题,抽取的部分主题特征如表1所示。
表1部分主题及其特征词
根据抽取的特征词,统计各时间片下各主题内特征词的总词频,将时间片内的新闻数据根据主题量化方法转换为主题向量。将T月的主题向量作为自变量,T+1月的核行为趋势等级作为因变量输入多项式逻辑回归模型,进行模型的参数估计。
最后,将预测数据纳入训练得到的预测模型,在预测的13个月中,有6个月的预测结果与实际情况不同,准确率为53.8%。最后,将2006年4月至2018年3月共144个月的主题向量纳入预测模型进行检验,结果显示预测正确的月数为126个,准确率达到87.5%。
上述模型采用的是T月数据预测T+1月的朝鲜核行为,接着分别采用T-1、T月以及T-2、T-1、T月数据预测T+1月的朝鲜核行为,试图分析比较在时间轴上不同时间段事件对趋势变化的影响,通过实验对比发现,使用T-1、T月数据预测T+1月的朝鲜核行为整体效果最好,所以,T+1月重大事件的发展趋势不仅与T月的事件有关,T-1甚至更早时间段发生的事件都会对T+1月的趋势变化产生不可忽视的影响。详细预测结果如表2所示。
表2使用不同数量时间片进行预测的结果对比
表格最后一行列出了基于专家知识的传统方法预测2006年4月至2018年3月朝鲜核行为趋势等级的准确率,由结果可知,本发明挖掘出了新闻中的重要特征,泛化能力比传统方法更强,采用同样数量的时间片进行预测,验证集准确率以及全时段准确率均高于传统方法的准确率。
本发明设计的基于HC-TC-LDA的重大事件趋势预测方法在朝核行为趋势预测问题上表现良好,预测结果表明,在爬取数据分布的全部时间段上,针对朝核行为趋势预测的方法准确率最高达到了90.2%,预测性能优于依赖专家知识进行特征指标构建的传统方法,能有效进行重大事件的趋势预测。
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。
Claims (1)
1.基于HC-TC-LDA的重大事件趋势预测方法,其特征在于该方法包括以下步骤:
步骤(1).选取新闻报道与重大事件的关联性高的若干目标网站,然后采用网络爬虫技术从上述目标网站采集数据,并将数据存入MySQL数据库;
步骤(2).首先根据事件数据分析法中的事件量化思想确定事件打分公式并确定分值对应的趋势等级区间;然后划分时间片,根据上述事件打分公式为各时间片打分,确定每个时间片的趋势等级;
步骤(3).构建半结构化数据,运用HC-TC-LDA主题模型抽取特征词;
3.1人为设置层次聚类HC的文本相似度阈值,自动获取MySQL数据库数据的主题数目K;
3.2计算MySQL数据库中数据集中单词的贡献度TC值:
设数据集中共有W个单词,w(1≤w≤W)表示其中的第w个单词;
先将每篇文档中相同单词的tf值进行两两相乘再相加的操作,得到根据tf值计算出的单词权值,最后将该值与idf相乘,这样得到的单词贡献度不仅保留了由tf值计算得到的权值,而且保留了idf值包含的完整语义信息,增加了特征词与噪声词的区分度;见如下公式:
其中,tfwi表示单词w在第i篇文档中的文档频率tf值,idfw表示单词w的逆文档频率idf值;
3.3将LDA的主题数目设为步骤3.1获得到的K,并使用LDA计算主题-词汇概率分布φ,设每个主题有V个词,单词w在主题k(0≤k≤K)下的概率分布计算公式为
其中,表示除了当前词w以外主题k中属于词项v的个数,β是常数;
3.4将单词贡献度与LDA融合,提取主题词;
设主题k下单词w的概率分布可表示为φ(wk),单词w的贡献度为TC(w),融合后的概率值φ(wk-tc)的计算公式为
φ(wk-tc)=φ(wk)+TC(w) (4)
设每个主题下提取n个主题词,则根据融合后的主题-词汇概率分布,提取出每个主题下融合后概率值最大的前n个词汇作为每个主题的特征词;
步骤(4).基于上一步获得的各主题下的特征词,计算每个主题在各个时间片下的值,获取特征向量,并进行数据对齐操作,构建预测数据集;
4.1获取特征向量;
每个主题在各时间片的量化值为各主题内所有特征词在各时间片新闻报道中出现的总次数与该时间片新闻报道的总词数的比值;假设有K个主题,Xk(k∈1,2,···,K)表示第i个主题的量化值,a表示第i个主题下所有特征词在时间片T下出现的总次数,S表示时间片T下所有新闻报道的总词数,则在时间片T下,主题值Xk的计算公式为:
时间片T的主题向量为:
4.2对数据进行对齐操作,构建预测数据集;
设当前时间片为T时间片,则T-m时间片表示相对于T时间片的第T-m个时间片,将T-m至T时间片融合后的主题向量对应T+1时间片的重大事件趋势等级,作为样本集输入机器学习分类模型的训练数据集,其中主题向量为输入,重大事件趋势等级为输出;
此处的融合是将这m个时间片的主题向量进行拼接或向量各维度相加求平均值,得到最终用于输入模型的向量;
步骤(5).将步骤(4)获得的样本集输入机器学习分类模型进行参数训练,获得重大事件趋势预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910701134.9A CN110428102B (zh) | 2019-07-31 | 2019-07-31 | 基于hc-tc-lda的重大事件趋势预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910701134.9A CN110428102B (zh) | 2019-07-31 | 2019-07-31 | 基于hc-tc-lda的重大事件趋势预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428102A true CN110428102A (zh) | 2019-11-08 |
CN110428102B CN110428102B (zh) | 2021-11-09 |
Family
ID=68411754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910701134.9A Active CN110428102B (zh) | 2019-07-31 | 2019-07-31 | 基于hc-tc-lda的重大事件趋势预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428102B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220855A (zh) * | 2021-05-27 | 2021-08-06 | 浙江大学 | 基于it技术问答网站的计算机技术领域发展趋势分析方法 |
CN113837283A (zh) * | 2021-09-26 | 2021-12-24 | 华北电力大学 | 一种基于均值聚类与线性判别的热带气旋等级划分方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130204885A1 (en) * | 2012-02-02 | 2013-08-08 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
US20180307680A1 (en) * | 2015-12-29 | 2018-10-25 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Keyword recommendation method and system based on latent dirichlet allocation model |
-
2019
- 2019-07-31 CN CN201910701134.9A patent/CN110428102B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130204885A1 (en) * | 2012-02-02 | 2013-08-08 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN104199974A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种面向微博的动态主题检测与演变追踪方法 |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
US20180307680A1 (en) * | 2015-12-29 | 2018-10-25 | Guangzhou Shenma Mobile Information Technology Co., Ltd. | Keyword recommendation method and system based on latent dirichlet allocation model |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
Non-Patent Citations (4)
Title |
---|
丁晟春等: "基于突发主题词和凝聚式层次聚类的微博突发事件检测研究", 《现代图书情报技术》 * |
徐月梅等: "结合卷积神经网络和Topic2Vec的新闻主题演变分析", 《数据分析与知识发现》 * |
赵爱华等: "基于LDA的新闻话题子话题划分方法", 《小型微型计算机系统》 * |
马红等: "共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例", 《现代图书情报技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220855A (zh) * | 2021-05-27 | 2021-08-06 | 浙江大学 | 基于it技术问答网站的计算机技术领域发展趋势分析方法 |
CN113837283A (zh) * | 2021-09-26 | 2021-12-24 | 华北电力大学 | 一种基于均值聚类与线性判别的热带气旋等级划分方法 |
CN113837283B (zh) * | 2021-09-26 | 2024-01-30 | 华北电力大学 | 一种基于均值聚类与线性判别的热带气旋等级划分方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110428102B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113302634B (zh) | 学习和预测关键短语以及生成预测的系统、介质和方法 | |
CN102937960B (zh) | 突发事件热点话题的识别与评估装置 | |
CN103176985A (zh) | 一种及时高效的互联网信息爬取方法 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN106874419B (zh) | 一种多粒度实时热点聚合方法 | |
CN110428102B (zh) | 基于hc-tc-lda的重大事件趋势预测方法 | |
KR20140081721A (ko) | 텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체 | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
Yang et al. | Large language models for automated q&a involving legal documents: a survey on algorithms, frameworks and applications | |
Parolin et al. | Hanke: Hierarchical attention networks for knowledge extraction in political science domain | |
Chen et al. | Research on clustering analysis of Internet public opinion | |
Li et al. | Evaluating the rationality of judicial decision with LSTM-based case modeling | |
Gutsche | Automatic weak signal detection and forecasting | |
CN115858763A (zh) | 多模态数据融合的城管事件分析方法及其应用 | |
CN109871429A (zh) | 融合Wikipedia分类及显式语义特征的短文本检索方法 | |
Gomes et al. | Effort estimation in named entity tagging tasks | |
KR102617839B1 (ko) | 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘 | |
CN111737976B (zh) | 一种旱灾风险预测方法及系统 | |
Sliva et al. | The soma terror organization portal (stop): Social network and analytic tools for the real-time analysis of terror groups | |
van Hoof et al. | Googling Politics? The Computational Identification of Political and News-related Searches from Web Browser Histories | |
Andrian et al. | Implementation Of Naïve Bayes Algorithm In Sentiment Analysis Of Twitter Social Media Users Regarding Their Interest To Pay The Tax | |
Ariansyah et al. | STB Sentiment Analysis Classification Multiclass Modeling Using Calibrated Classifier With SGDC Tuning As Basis and Sigmoid Method | |
Mentzingen et al. | Automation of legal precedents retrieval: findings from a rapid literature review | |
Vanderstichele | The Normative Value of Legal Analytics. Is There a Case for Statistical Precedent? | |
CN111223026B (zh) | 垃圾危机转化智能管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |