CN110428102A

CN110428102A - 基于hc-tc-lda的重大事件趋势预测方法

Info

Publication number: CN110428102A
Application number: CN201910701134.9A
Authority: CN
Inventors: 谷雨; 彭俊利; 耿小航; 张震; 彭博远
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-08
Anticipated expiration: 2039-07-31
Also published as: CN110428102B

Abstract

本发明公开基于HC‑TC‑LDA的重大事件趋势预测方法。首先，采用网络爬虫爬取专题新闻数据；然后，利用主题模型抽取特征，并针对LDA主题模型存在大量噪声词，且必须凭借经验手动设置主题数目的问题，设计了融合层次聚类、单词贡献度、LDA的主题模型HC‑TC‑LDA；最后，采用机器学习分类模型构建重大事件趋势预测模型。本发明方法的预测性能优于依赖专家知识进行特征指标构建的传统方法，能有效实现重大事件趋势的高精度预测，并且在方法普适性与时效性上该方法均具有一定优势，无需更多的领域专家知识，为战略决策制定提供一定的辅助支持,具有广阔的应用前景。

Description

基于HC-TC-LDA的重大事件趋势预测方法

技术领域

本发明属于自然语言处理领域，涉及一种从海量数据中自动提取特征，并通过特征对重大事件的趋势变化进行预测的方法。

背景技术

重大事件指由某些原因、条件引起，对国家和社会产生巨大影响的事件。近年来，重大事件频发，如朝鲜核行为、南海事件等，为使相关部门能够对其提前采取预防措施或反制手段，研究重大事件的趋势预测是极其重要且紧迫的。

重大事件趋势预测是根据事件发展的连续性将数据按时间顺序排列，把重大事件未来的趋势变化分为多个类别或具体值，并对其进行定量预测。对于这类问题，国际关系领域的主流方法是采用事件数据分析法进行定量分析。事件数据分析就是从新闻报道、历史资料等多源信息中提取出对重大事件有一定影响力的相关事件记录，构建事件数据库，再通过一定的统计分析方法，尝试寻找出重大事件的变化规律和趋势。但该方法对领域专家的依赖性强，通过专家对数据进行筛选虽然能提高预测的准确率，但随着大数据时代的来临，新闻数据量呈指数级增长，完全依靠专家进行分析非常费时费力，甚至是一件无法完成的任务。

面对互联网中的海量数据，使用机器学习、自然语言处理(NaturalLanguageProcessing,NLP)技术进行事件预测成为研究的热点，已经有国际关系领域的研究者将其中部分技术应用到了国际重大事件的趋势预测。但在国际关系领域中的重大事件趋势预测中，仅在数值分析环节运用了机器学习算法，特征的筛选依然需要专家完成，自动化程度低，局限性大。

本发明针对当下基于海量新闻数据的重大事件趋势预测方法在特征构建上存在的自动化程度低和局限性大的问题，设计了一种基于层次聚类(HierarchicalClustering,HC)、单词贡献度(Term Contribution,TC)与潜在Dirichlet分布(LatentDirichlet Allocation,LDA)主题模型的重大事件趋势预测方法。首先，采用网络爬虫爬取专题新闻数据；然后，利用主题模型抽取特征，并针对LDA主题模型存在大量噪声词，且必须凭借经验手动设置主题数目的问题，设计了融合层次聚类、单词贡献度、LDA的主题模型HC-TC-LDA；最后，采用机器学习分类模型构建重大事件趋势预测模型。

发明内容

本发明方法的目的在于，解决基于海量新闻数据的重大事件趋势预测方法在特征构建上存在的自动化程度低和局限性大的问题。借鉴传统方法量化思想，综合利用网络爬虫、自然语言处理、机器学习等人工智能技术，分别从数据采集，特征构建、建模与预测三方面对现有方法进行优化改进。

本发明采用的技术方案包括以下步骤：

步骤(1).选取与重大事件的关联性高的若干目标网站，然后采用网络爬虫技术从中采集数据，并存入MySQL数据库。

步骤(2).划分时间片、确定趋势量化打分公式，并得到各时间片内新闻报道对应的量化趋势等级。

步骤(3).构建半结构化数据，利用HC-TC-LDA主题模型抽取数据集中具有表征性的特征词。

步骤(4).计算出每个时间片的特征向量，并进行数据对齐操作，构建预测数据集。

步骤(5).将预测数据集输入机器学习分类模型进行参数训练，获得重大事件趋势预测模型。

本发明与现有技术相比，其优点为：(1)从自然语言处理视角出发，采用改进的特征词自动抽取技术能高效实现对新闻数据特征集的构建；(2)相比传统方法，本发明更加智能与自动化，大大降低了重大事件趋势预测的时间与人力成本；(3)设计了一种新的单词贡献度计算方法，通过该计算方法得到的单词贡献度保留了单词在数据集中的完整语义信息，提高了特征词与噪声之间的区分度；(4)本方法中设计的HC-TC-LDA主题模型解决了传统主题模型中必须凭借经验手动设置主题数目的问题，并且引入的单词贡献度很好的提高了提取特征词的表征性。

附图说明

图1为基于网络爬虫技术的新闻数据采集流程图。

图2为基于HC-TC-LDA的重大事件趋势预测的流程图。

图3为朝核行为各月的趋势变化值在时间轴上的分布图。

具体实施方式

以下结合附图对本发明作进一步说明。

根据附图2所示，本发明的具体步骤如下：

步骤(1).选取新闻报道与重大事件的关联性高的若干目标网站，然后采用网络爬虫技术从上述目标网站采集数据(如图1所示)，并将数据存入MySQL数据库。

步骤(2).首先根据事件数据分析法中的事件量化思想确定事件打分公式并确定分值对应的趋势等级区间；然后划分时间片，根据上述事件打分公式为各时间片打分，确定每个时间片的趋势等级。

步骤(3).构建半结构化数据，运用HC-TC-LDA主题模型抽取特征词。

3.1人为设置层次聚类HC的文本相似度阈值，自动获取MySQL数据库数据的主题数目K。

3.2计算MySQL数据库中数据集中单词的贡献度TC值。

设数据集中共有W个单词，w(1≤w≤W)表示其中的第w个单词，现有的单词贡献度计算公式为

其中f(t,d_i)表示单词w在第i个文档d_i中的文档频率-逆文档频率权值(tf-idf)。从公式(1)可知这种方法将不同文本中相同单词的tf-idf(0≤tf-idf≤1)值进行两两相乘再相加求取单词贡献度，但数据集中每个单词的tf(0≤tf≤1)值是单词的文档频率，在每篇文本中的值都不同，表示单词在文档中的重要程度；idf值是单词的逆文档频率，不管出现在数据集中的哪篇文档中，其idf值均相同，表示单词在数据集中的重要程度。现有方法将tf-idf值融合后再两两相乘求取单词贡献度的做法大大弱化了idf(0≤idf≤1)所含的语义信息，即弱化了单词在整个数据集中的重要程度。这导致噪声词和特征词的TC值更加接近，降低了区分度。

为解决这一问题，本发明设计了一种新计算方法，先将每篇文档中相同单词的tf值进行两两相乘再相加的操作，得到根据tf值计算出的单词权值，最后将该值与idf相乘，这样得到的单词贡献度不仅保留了由tf值计算得到的权值，而且保留了idf值包含的完整语义信息，增加了特征词与噪声词的区分度。本发明设计的计算公式为

其中，tf_wi表示单词w在第i篇文档中的文档频率tf值，idf_w表示单词w的逆文档频率idf值。

3.3将LDA的主题数目设为步骤3.1获得到的K，并使用LDA计算主题-词汇概率分布φ，设每个主题有V个词，单词w在主题k(0≤k≤K)下的概率分布计算公式为

其中，表示除了当前词w以外主题k中属于词项v的个数，β是常数。

3.4将单词贡献度与LDA融合，提取主题词。

设主题k下单词w的概率分布可表示为φ(w_k)，单词w的贡献度为TC(w)，融合后的概率值φ(w_k-tc)的计算公式为

φ(w_k-tc)＝φ(w_k)+TC(w) (4)

设每个主题下提取n个主题词，则根据融合后的主题-词汇概率分布，提取出每个主题下融合后概率值最大的前n个词汇作为每个主题的特征词。

步骤(4).基于上一步获得的各主题下的特征词，计算每个主题在各个时间片下的值，获取特征向量，并进行数据对齐操作，构建预测数据集。

4.1获取特征向量。

每个主题在各时间片的量化值为各主题内所有特征词在各时间片新闻报道中出现的总次数与该时间片新闻报道的总词数的比值。假设有K个主题，X_k(k∈1,2,···,K)表示第i个主题的量化值，a表示第i个主题下所有特征词在时间片T下出现的总次数，S表示时间片T下所有新闻报道的总词数，则在时间片T下，主题值X_k的计算公式为：

时间片T的主题向量为：

4.2对数据进行对齐操作，构建预测数据集。

设当前时间片为T时间片，则T-m时间片表示相对于T时间片的第T-m个时间片，将T-m至T时间片融合后的主题向量对应T+1时间片的重大事件趋势等级，作为样本集输入机器学习分类模型的训练数据集，其中主题向量为输入，重大事件趋势等级为输出。

此处的融合是将这m个时间片的主题向量进行拼接或向量各维度相加求平均值，得到最终用于输入模型的向量。

步骤(5).将步骤(4)获得的样本集输入机器学习分类模型进行参数训练，获得重大事件趋势预测模型。

为验证本发明的有效性，以朝鲜核行为趋势预测为研究对象对本发明设计的预测方法进行验证，并与基于专家知识的传统方法预测结果进行对比分析。

按步骤(1)进行分析后，选择韩国国际广播电台(KBS World Radio)北韩专栏(http://world.kbs.co.kr/service/contents_list.htm？lang＝c&menu_cate＝ northkorea)作为目标网站，爬取了2006年1月至2018年3月的中文新闻报道数据。

按步骤(2)阐述，将2006年1月至2017年2月数据用作构建模型，2017年3月至2018年3月数据用作预测验证。结合部分专家知识，针对朝核问题，以“月”作为时间片单位，并确定如下所示的朝核行为趋势量化公式：

15枚中短程弹道导弹或潜射导弹＝1枚远程或洲际导弹＝1枚火箭＝1次核试验＝15分

结合趋势量化公式与爬取新闻报道，对各月的朝核行为趋势值进行计算。例如在2006年7月的新闻报道中，朝鲜于7月5日发射了6枚短程导弹，参照公式，2006年7月的朝核行为趋势值为6。结合量化得分绘制2006年1月至2017年9月朝核行为趋势统计图，结果如附图3所示。根据各月朝鲜核行为趋势值的分布情况，对各月下计算的趋势值进行离散化表示，将朝核行为划分成三类趋势等级：无核行为(C1)、轻度核行为(C2)、重度核行为(C3)，三类核行为对应的分值区间分别为0，1～14，≥15。

按步骤(3)阐述，运用本发明中设计的HC-TC-LDA主题模型提取特征词。设置超参数时，将层次聚类的文本相似度阈值为0.5；设定LDA超参数α＝50/K(K为主题数)，β＝0.01，这是常用设置。最终得到24个主题，抽取的部分主题特征如表1所示。

表1部分主题及其特征词

根据抽取的特征词，统计各时间片下各主题内特征词的总词频，将时间片内的新闻数据根据主题量化方法转换为主题向量。将T月的主题向量作为自变量，T+1月的核行为趋势等级作为因变量输入多项式逻辑回归模型，进行模型的参数估计。

最后，将预测数据纳入训练得到的预测模型，在预测的13个月中，有6个月的预测结果与实际情况不同，准确率为53.8％。最后，将2006年4月至2018年3月共144个月的主题向量纳入预测模型进行检验，结果显示预测正确的月数为126个，准确率达到87.5％。

上述模型采用的是T月数据预测T+1月的朝鲜核行为，接着分别采用T-1、T月以及T-2、T-1、T月数据预测T+1月的朝鲜核行为，试图分析比较在时间轴上不同时间段事件对趋势变化的影响，通过实验对比发现，使用T-1、T月数据预测T+1月的朝鲜核行为整体效果最好，所以，T+1月重大事件的发展趋势不仅与T月的事件有关，T-1甚至更早时间段发生的事件都会对T+1月的趋势变化产生不可忽视的影响。详细预测结果如表2所示。

表2使用不同数量时间片进行预测的结果对比

表格最后一行列出了基于专家知识的传统方法预测2006年4月至2018年3月朝鲜核行为趋势等级的准确率，由结果可知，本发明挖掘出了新闻中的重要特征，泛化能力比传统方法更强，采用同样数量的时间片进行预测，验证集准确率以及全时段准确率均高于传统方法的准确率。

本发明设计的基于HC-TC-LDA的重大事件趋势预测方法在朝核行为趋势预测问题上表现良好，预测结果表明，在爬取数据分布的全部时间段上，针对朝核行为趋势预测的方法准确率最高达到了90.2％，预测性能优于依赖专家知识进行特征指标构建的传统方法，能有效进行重大事件的趋势预测。

上述实施例并非是对于本发明的限制，本发明并非仅限于上述实施例，只要符合本发明要求，均属于本发明的保护范围。

Claims

1.基于HC-TC-LDA的重大事件趋势预测方法，其特征在于该方法包括以下步骤：

步骤(1).选取新闻报道与重大事件的关联性高的若干目标网站，然后采用网络爬虫技术从上述目标网站采集数据，并将数据存入MySQL数据库；

步骤(2).首先根据事件数据分析法中的事件量化思想确定事件打分公式并确定分值对应的趋势等级区间；然后划分时间片，根据上述事件打分公式为各时间片打分，确定每个时间片的趋势等级；

步骤(3).构建半结构化数据，运用HC-TC-LDA主题模型抽取特征词；

3.1人为设置层次聚类HC的文本相似度阈值，自动获取MySQL数据库数据的主题数目K；

3.2计算MySQL数据库中数据集中单词的贡献度TC值：

设数据集中共有W个单词，w(1≤w≤W)表示其中的第w个单词；

先将每篇文档中相同单词的tf值进行两两相乘再相加的操作，得到根据tf值计算出的单词权值，最后将该值与idf相乘，这样得到的单词贡献度不仅保留了由tf值计算得到的权值，而且保留了idf值包含的完整语义信息，增加了特征词与噪声词的区分度；见如下公式：

其中，tf_wi表示单词w在第i篇文档中的文档频率tf值，idf_w表示单词w的逆文档频率idf值；

其中，表示除了当前词w以外主题k中属于词项v的个数，β是常数；

3.4将单词贡献度与LDA融合，提取主题词；

φ(w_k-tc)＝φ(w_k)+TC(w) (4)

设每个主题下提取n个主题词，则根据融合后的主题-词汇概率分布，提取出每个主题下融合后概率值最大的前n个词汇作为每个主题的特征词；

步骤(4).基于上一步获得的各主题下的特征词，计算每个主题在各个时间片下的值，获取特征向量，并进行数据对齐操作，构建预测数据集；

4.1获取特征向量；

每个主题在各时间片的量化值为各主题内所有特征词在各时间片新闻报道中出现的总次数与该时间片新闻报道的总词数的比值；假设有K个主题，X_k(k∈1,2,···,K)表示第i个主题的量化值，a表示第i个主题下所有特征词在时间片T下出现的总次数，S表示时间片T下所有新闻报道的总词数，则在时间片T下，主题值X_k的计算公式为：

时间片T的主题向量为：

4.2对数据进行对齐操作，构建预测数据集；

设当前时间片为T时间片，则T-m时间片表示相对于T时间片的第T-m个时间片，将T-m至T时间片融合后的主题向量对应T+1时间片的重大事件趋势等级，作为样本集输入机器学习分类模型的训练数据集，其中主题向量为输入，重大事件趋势等级为输出；

此处的融合是将这m个时间片的主题向量进行拼接或向量各维度相加求平均值，得到最终用于输入模型的向量；