CN108595593A

CN108595593A - 基于主题模型的会议研究热点与发展趋势信息分析方法

Info

Publication number: CN108595593A
Application number: CN201810354714.0A
Authority: CN
Inventors: 姜�远; 宋歌; 詹德川
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2018-09-28
Anticipated expiration: 2038-04-19
Also published as: CN108595593B

Abstract

本发明公开了一种基于主题模型的会议研究热点与发展趋势信息分析方法，包括从网络上利用爬虫获取相关会议文章与Reweight训练数据构建步骤，特征关键词提取与主题模型训练步骤，研究热点与发展趋势分析步骤；首先利用爬虫收集一定数量的各个会议的录用文章，经过文本格式转换与处理后得到原始文本数据集，并通过Reweight的方式按照年份构建训练数据，然后对数据集进行关键词的提取，结合关键词列表，逐年训练主题模型，最后利用训练得到的主题模型中的各个主题分布的变化对该会议的研究热点和发展趋势进行分析。与现有的分析方法相比，本发明的方法分析方式新颖，分析覆盖范围广泛，并易于推广。

Description

基于主题模型的会议研究热点与发展趋势信息分析方法

技术领域

本发明涉及一种基于主题模型的会议研究热点与发展趋势信息分析方法，属于数据处理分析技术领域。

背景技术

随着人类的发展，科学技术的进步，人们对科研的热情和重视日益增加，越来越多的人选择投身于科研事业，而作为科研结果的一个重要产出载体——科学文献的数量也以极快的速度增长着。充分了解自己所在领域的研究热点和发展趋势对每一位科研人员来说都是极为重要的。然而，目前科学文献在发表的时候，只有极少数的会议会将录取的文献按照主题来划分，而不管是哪一领域，科研人员都不可能读完所有本领域已发表的文献，那么面对数量如此之大的无标记文本，科研人员很难从整体上把握该领域的发展趋势。

近年来，主题模型的广泛应用帮助人们在一定程度上解决了大量文本数据无标记的问题。利用主题模型，人们可以将文献进行归纳分类，也可以在语料库中对相似文章进行搜索。但是，目前大部分这类方法仅仅能够做到对静态语料库进行分类，而当语料库是随时间变化的时候，它们并不能够将时间变化体现在分析结果中。于此同时，主题模型的一个重要参数——主题数目，目前在训练时，都是人为设定且固定不变的，而我们知道，随着时间的推移，每个领域都会不断诞生新的主题，而有些主题也会慢慢无人问津，因此，如何从数据中察觉数据的变化，并准确的捕捉和表达数据的变化成为了主题模型中一个重要问题。

想要达到捕捉数据的变化的目的，首先要找到数据发生变化时，训练模型得到的结果会发生何种变化。通过对主题模型的训练过程的研究发现，首先，当数据发生变化时，训练用的关键词会发生变化，更重要的是，主题模型将每一个主题表达成了关键词上的分布，而当数据发生变化的时候，分布也将随之改变。因此，为了解决词表变化的问题，我们将数据以Reweight的方式按照年份组合起来，即保证了关键词列表的完整性，也强调了时间的变化，同时，我们通过衡量各个分布之间的差异性从而获得各个主题之间的差异，达到捕捉和表达数据变化的目的，进而分析出该领域的研究热点和发展趋势。

发明内容

发明目的：目前要对大量的无标记的科学文献进行分析进而得到该领域的研究热点和发展趋势，需要很好地将数据随时间发展的变化捕捉和表达出来，这是目前方法所不足的地方。本发明提供一种基于主题模型的会议研究热点与发展趋势信息分析方法，具体来说，首先收集一定量的学术会议录用文献，然后对文献进行格式转换、Reweight重构、提取关键词等处理，再训练主题模型，最后利用主题模型中产生的主题分布之间的关系，将数据随时间的变化表示出来，达到逐年对该领域会议的研究热点和发展趋势进行分析的目的。

技术方案：一种基于主题模型的会议研究热点与发展趋势信息分析方法，包括：会议文章收集与Reweight训练数据构建，利用爬虫收集一定数量的各个会议的录用文章，经过文本格式转换与处理得到原始文本数据集，再通过Reweight的方式按照年份构建训练数据；特征关键词提取与主题模型训练，对数据集进行关键词的提取，结合关键词列表，逐年训练主题模型；研究热点与发展趋势分析，利用训练得到的主题模型中的各个主题分布的变化对该会议的研究热点和发展趋势进行分析。

所述会议文章收集与格式转换步骤具体为：

步骤100，分析会议官方网站，针对网站信息特点，书写爬虫脚本；

步骤101，利用步骤100中的爬虫脚本获取该会议各个年份的所有录用文章的列表以及各个文章的链接，并通过文章链接按照会议、年份分别进行下载，得到该会议所有文章的PDF版本；

步骤102，对步骤101收集到的文章进行格式转换，去除文章中的图像等非文本信息，将每篇文章转换为一个单纯由字符串构成的新的文本；

步骤103，对步骤102处理后的文本文件进行去停词处理，得到该会议的所有文本，形成该会议的语料库；

步骤104，将步骤103中得到的该会议的语料库按照年份分割，得到各个年份的小语料库；

步骤105，用步骤104得到的小语料库，按照年份，以Reweight的方式分别构建各个年份的新的语料库，每一年的语料库的构建过程是：以不同的比例权重将各个小语料库添加到新的语料库中，如按照权重6:1，即在新的语料库中重复添加本年份小语料库6次，添加其余年份小语料库1次，以此构建该会议各个年份的新的语料库；

所述特征关键词提取与主题模型训练的具体步骤为：

步骤200，对步骤104处理后的该会议的所有文本进行TF-IDF分析，得到每篇文章中各个词的TF-IDF值即重要程度；

步骤201，利用步骤200中得到的结果，将TF-IDF值大于0.4的词提取出来，形成该会议的特征词列表；

步骤202，利用步骤201中得到的特征词列表对该会议所有文本再次进行过滤，去除不在特征词列表中的词，得到该会议的用于训练模型的原始语料库；

步骤203，人工观察该会议第一年语料库特征，给出第一年主题数目N_topic；

步骤204，将步骤203得到的N_topic作为参数，利用该会议第一年语料库训练主题模型－隐狄利克雷模型(Latent Dirichlet Allocation)训练得到每个主题在各个关键词上的分布概率P_{topic_n}以及每个主题的前10个代表关键词W_{topic_n}；

步骤205，人工观察步骤204得到的结果，确认各个主题，并调整主题数目N_topic，重复步骤203－204，直到得到的主题分类符合真实情况，保存最后一次训练得到的每个主题在各个关键词上的分布概率P_{topic_n_firstyear}；

所述研究热点与发展趋势分析的具体步骤为：

步骤300，除第一年外，该会议的每一年的主题模型训练，均以前一年的主题数目N_{topic_lastyear}作为参数训练隐狄利克雷模型，训练得到每个主题在各个关键词上的分布P_{topic_n_this} _year以及每个主题的前10个代表关键词W_{topic_n_thisyear}；

步骤301，利用步骤300中得到本年的每个主题在各个关键词上的分布概率P_{topic_n_thisyear}与保存的前一年的每个主题在各个关键词上的分布概率P_{topic_n_lastyear}，进行前后两年的主题对齐，即找到本年的每个主题在前一年对应的是哪个主题：分别计算本年P_{topic_n_thisyear}与前一年的P_{topic_n_lastyear}中的每一个主题间的相对熵的值，得到一个大小为topic_n*topic_n的相对熵矩阵，每一行的最小值对应的主题即为该行主题在前一年的主题；

步骤302，分析步骤301得到的对齐结果，结合W_{topic_n_thisyear}，分三种情况进行处理；

步骤303，若前一年某一主题在本年只有一个主题与之对齐，则分析两年间该主题的相对熵是否超过阈值，若超过阈值则该主题可能发生了很大的变化，需要人工观察变化趋势，并判断是否需要合并或分割本年的主题；

步骤304，若前一年某一主题在本年有多个主题与之对齐，则计算本年的与之对齐的几个主题之间的相对熵的值，合并相对熵小于阈值的主题，人工观察相对熵大于阈值的主题的变化趋势；

步骤305，若前一年的某一主题在本年没有主题与之对齐，则人工观察该主题是否在本年沉寂或是并入其它主题当中去，并判断是否需要分割本年的某一主题；

步骤306，经过300-305步骤的训练与分析，对本年结果进行主题的合并或分割，得到新的主题分布概率P_{topic_n_this} _{year_new}取代模型最开始获得的主题分布概率进行保存，并更新主题数目N_topic作为下一年训练的参数；

步骤307，统计每年各个主题下的文章数目，生成该会议研究热点与主题趋势分析图。

有益效果：与现有技术相比，本发明提供的基于主题模型的会议研究热点与发展趋势信息分析方法，首先按照时间对数据进行Reweight处理，将时间因素体现在模型中，其次利用主题模型产出的主题分布对主题变化做出了衡量，使得模型可以根据数据来改变主题数目，最后结合人工分析，得到该领域的研究热点和发展趋势分析结果。

附图说明

图1为本发明的会议文章收集与格式转换步骤流程图；

图2为本发明的特征关键词提取、Reweight训练数据构建与主题模型训练步骤流程图；

图3为本发明的研究热点与发展趋势分析步骤流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

会议文章收集与Reweight训练数据构建的工作流程图如图1所示。

首先，分析会议官方网站，针对网站信息特点，书写爬虫脚本(步骤100)；

其次，运行爬虫脚本，获取该会议各个年份的所有录用文章的列表以及各个文章的链接，并通过文章链接按照会议、年份分别进行下载，得到该会议所有文章的PDF版本(步骤101)；

再对收集到的文章进行格式转换，去除文章中的图像等非文本信息，将每篇文章转换为一个单纯由字符串构成的新的文本(步骤102)；

然后，对上一步处理后的文本文件进行去停词处理，形成该会议的语料库(步骤103)；

接着，将上一步中得到的该会议的语料库按照年份分割，得到各个年份的小语料库(步骤104)；

最后，用上一步得到的小语料库，按照年份，以Reweight的方式分别构建各个年份的新的语料库，每一年的语料库的构建过程是：以不同的比例权重将各个小语料库添加到新的语料库中，如按照权重6:1，即在新的语料库中重复添加本年份小语料库6次，添加其余年份小语料库1次，以此构建该会议各个年份的新的语料库(步骤105)；

特征关键词提取与主题模型训练的工作流程图如图2所示。

以步骤104的文本作为输入，对该会议的所有文本进行TF-IDF分析，得到每篇文章中各个词的TF-IDF值(步骤200)；

然后，利用上一步的结果，将TF-IDF值大于0.4的词提取出来，形成该会议的特征词列表(步骤201)；

得到特征词列表后，利用特征词里表对该会议所有文本再次进行过滤，去除不在特征词列表中的词，得到该会议的用于训练模型的原始语料库(步骤202)；

接着，人工观察该会议第一年语料库特征，给出第一年主题数目N_topic(步骤203)；

将上一步得到的N_topic作为参数，利用该会议第一年语料库训练主题模型－隐狄利克雷模型(Latent Dirichlet Allocation)训练得到每个主题在各个关键词上的分布P_{topic_n}以及每个主题的前10个代表关键词W_{topic_n}(步骤204)；

最后，人工观察上一步得到的结果，确认各个主题，并根据确认后的主题情况，调整主题数目N_topic，重复执行上两步，直到得到的主题分类符合真实情况，保存最后一次训练得到的每个主题在各个关键词上的分布概率P_{topic_n_firstyear}(步骤205)；

研究热点与发展趋势分析的工作流程图如图3所示：

首先以本年语料库作为输入，以前一年的主题数目N_{topic_lastyear}作为参数训练隐狄利克雷模型，训练得到每个主题在各个关键词上的分布P_{topic_n_this} _year以及每个主题的前10个代表关键词W_{topic_n_thisyear}(步骤300)；

接着进行主题对齐，即找到本年的每个主题在前一年对应的是哪个主题：利用上一步中得到本年的每个主题在各个关键词上的分布P_{topic_n_thisyear}与保存的前一年的每个主题在各个关键词上的分布P_{topic_n_lastyear}，分别计算本年P_{topic_n_thisyear}与前一年的P_{topic_n_lastyear}中的每一个主题间的相对熵的值，得到一个大小为topic_n*topic_n的相对熵矩阵，每一行的最小值对应的主题即为该行主题在前一年的主题(步骤301)；

然后，分析主题对齐结果，结合W_{topic_n_thisyear}，分三种情况进行处理(步骤302)；

若前一年某一主题在本年只有一个主题与之对齐，则分析两年间该主题的相对熵是否超过阈值，若超过阈值则该主题可能发生了很大的变化，需要人工观察变化趋势，并判断是否需要合并或分割本年的主题(步骤303)；

若前一年某一主题在本年有多个主题与之对齐，则计算本年的与之对齐的几个主题之间的相对熵的值，合并相对熵小于阈值的主题，人工观察相对熵大于阈值的主题的变化趋势(步骤304)；

若前一年的某一主题在本年没有主题与之对齐，则人工观察该主题是否在本年沉寂或是并入其它主题当中去，并判断是否需要分割本年的某一主题(步骤305)；

经过对本年主题模型结果的分析，对本年结果进行主题的合并或分割，得到新的主题分布P_{topic_n_this year_new}取代模型最开始获得的主题分布进行保存，并更新主题数目N_topic作为下一年训练的参数(步骤306)；

最后统计每年各个主题下的文章数目，生成该会议研究热点与主题趋势分析图(步骤307)。

Claims

1.一种基于主题模型的会议研究热点与发展趋势信息分析方法，其特征在于，包括：会议文章收集与Reweight训练数据构建，利用爬虫收集一定数量的各个会议的录用文章，经过文本格式转换与处理得到原始文本数据集，再通过Reweight的方式按照年份构建训练数据；特征关键词提取与主题模型训练，对数据集进行关键词的提取，结合关键词列表，逐年训练主题模型；研究热点与发展趋势分析，利用训练得到的主题模型中的各个主题分布的变化对该会议的研究热点和发展趋势进行分析。

2.如权利要求1所述的基于主题模型的会议研究热点与发展趋势信息分析方法，其特征在于，述会议文章收集与Reweight训练数据构建步骤具体为：

步骤100，根据会议官方网站，书写爬虫脚本；

步骤101，利用步骤100中的爬虫脚本获取该会议各个年份的所有录用文章的列表以及各个文章的链接，并通过文章链接按照会议、年份分别进行下载，得到该会议所有文章；

步骤102，对步骤101收集到的文章进行格式转换，去除文章中的非文本信息，将每篇文章转换为一个单纯由字符串构成的新的文本；

步骤105，用步骤104得到的小语料库，按照年份，以Reweight的方式分别构建各个年份的新的语料库，每一年的语料库的构建过程是：以不同的比例权重将各个小语料库添加到新的语料库中，以此构建该会议各个年份的新的语料库。

3.如权利要求2所述的基于主题模型的会议研究热点与发展趋势信息分析方法，其特征在于，所述特征关键词提取与主题模型训练的具体步骤为：

步骤204，将步骤203得到的N_topic作为参数，利用该会议第一年语料库训练主题模型－隐狄利克雷模型训练得到每个主题在各个关键词上的分布概率P_{topic_n}以及每个主题的前10个代表关键词W_{topic_n}；

步骤205，人工观察步骤204得到的结果，确认各个主题，并调整主题数目N_topic，重复步骤203－204，直到得到的主题分类符合真实情况，保存最后一次训练得到的每个主题在各个关键词上的分布概率P_{topic_n_firstyear}。

4.如权利要求3所述的基于主题模型的会议研究热点与发展趋势信息分析方法，其特征在于，所述研究热点与发展趋势分析的具体步骤为：

步骤300，除第一年外，该会议的每一年的主题模型训练，均以前一年的主题数目N_{topic_lastyear}作为参数训练隐狄利克雷模型，训练得到每个主题在各个关键词上的分布P_{topic_n_this year}以及每个主题的前10个代表关键词W_{topic_n_thisyear}；

步骤306，经过300-305步骤的训练与分析，对本年结果进行主题的合并或分割，得到新的主题分布概率P_{topic_n_this year_new}取代模型最开始获得的主题分布概率进行保存，并更新主题数目N_topic作为下一年训练的参数；

5.如权利要求2所述的基于主题模型的会议研究热点与发展趋势信息分析方法，其特征在于，用上一步得到的小语料库，按照年份，以Reweight的方式分别构建各个年份的新的语料库，每一年的语料库的构建过程是：以比例权重6:1将各个小语料库添加到新的语料库中，在新的语料库中重复添加本年份小语料库6次，添加其余年份小语料库1次，以此构建该会议各个年份的新的语料库。