CN108595593A - 基于主题模型的会议研究热点与发展趋势信息分析方法 - Google Patents
基于主题模型的会议研究热点与发展趋势信息分析方法 Download PDFInfo
- Publication number
- CN108595593A CN108595593A CN201810354714.0A CN201810354714A CN108595593A CN 108595593 A CN108595593 A CN 108595593A CN 201810354714 A CN201810354714 A CN 201810354714A CN 108595593 A CN108595593 A CN 108595593A
- Authority
- CN
- China
- Prior art keywords
- theme
- year
- meeting
- topic
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 43
- 238000011160 research Methods 0.000 title claims abstract description 36
- 238000011161 development Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 57
- 241000270322 Lepidosauria Species 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims abstract 2
- 230000018109 developmental process Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 8
- 238000004321 preservation Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型的会议研究热点与发展趋势信息分析方法,包括从网络上利用爬虫获取相关会议文章与Reweight训练数据构建步骤,特征关键词提取与主题模型训练步骤,研究热点与发展趋势分析步骤;首先利用爬虫收集一定数量的各个会议的录用文章,经过文本格式转换与处理后得到原始文本数据集,并通过Reweight的方式按照年份构建训练数据,然后对数据集进行关键词的提取,结合关键词列表,逐年训练主题模型,最后利用训练得到的主题模型中的各个主题分布的变化对该会议的研究热点和发展趋势进行分析。与现有的分析方法相比,本发明的方法分析方式新颖,分析覆盖范围广泛,并易于推广。
Description
技术领域
本发明涉及一种基于主题模型的会议研究热点与发展趋势信息分析方法,属于数据处理分析技术领域。
背景技术
随着人类的发展,科学技术的进步,人们对科研的热情和重视日益增加,越来越多的人选择投身于科研事业,而作为科研结果的一个重要产出载体——科学文献的数量也以极快的速度增长着。充分了解自己所在领域的研究热点和发展趋势对每一位科研人员来说都是极为重要的。然而,目前科学文献在发表的时候,只有极少数的会议会将录取的文献按照主题来划分,而不管是哪一领域,科研人员都不可能读完所有本领域已发表的文献,那么面对数量如此之大的无标记文本,科研人员很难从整体上把握该领域的发展趋势。
近年来,主题模型的广泛应用帮助人们在一定程度上解决了大量文本数据无标记的问题。利用主题模型,人们可以将文献进行归纳分类,也可以在语料库中对相似文章进行搜索。但是,目前大部分这类方法仅仅能够做到对静态语料库进行分类,而当语料库是随时间变化的时候,它们并不能够将时间变化体现在分析结果中。于此同时,主题模型的一个重要参数——主题数目,目前在训练时,都是人为设定且固定不变的,而我们知道,随着时间的推移,每个领域都会不断诞生新的主题,而有些主题也会慢慢无人问津,因此,如何从数据中察觉数据的变化,并准确的捕捉和表达数据的变化成为了主题模型中一个重要问题。
想要达到捕捉数据的变化的目的,首先要找到数据发生变化时,训练模型得到的结果会发生何种变化。通过对主题模型的训练过程的研究发现,首先,当数据发生变化时,训练用的关键词会发生变化,更重要的是,主题模型将每一个主题表达成了关键词上的分布,而当数据发生变化的时候,分布也将随之改变。因此,为了解决词表变化的问题,我们将数据以Reweight的方式按照年份组合起来,即保证了关键词列表的完整性,也强调了时间的变化,同时,我们通过衡量各个分布之间的差异性从而获得各个主题之间的差异,达到捕捉和表达数据变化的目的,进而分析出该领域的研究热点和发展趋势。
发明内容
发明目的:目前要对大量的无标记的科学文献进行分析进而得到该领域的研究热点和发展趋势,需要很好地将数据随时间发展的变化捕捉和表达出来,这是目前方法所不足的地方。本发明提供一种基于主题模型的会议研究热点与发展趋势信息分析方法,具体来说,首先收集一定量的学术会议录用文献,然后对文献进行格式转换、Reweight重构、提取关键词等处理,再训练主题模型,最后利用主题模型中产生的主题分布之间的关系,将数据随时间的变化表示出来,达到逐年对该领域会议的研究热点和发展趋势进行分析的目的。
技术方案:一种基于主题模型的会议研究热点与发展趋势信息分析方法,包括:会议文章收集与Reweight训练数据构建,利用爬虫收集一定数量的各个会议的录用文章,经过文本格式转换与处理得到原始文本数据集,再通过Reweight的方式按照年份构建训练数据;特征关键词提取与主题模型训练,对数据集进行关键词的提取,结合关键词列表,逐年训练主题模型;研究热点与发展趋势分析,利用训练得到的主题模型中的各个主题分布的变化对该会议的研究热点和发展趋势进行分析。
所述会议文章收集与格式转换步骤具体为:
步骤100,分析会议官方网站,针对网站信息特点,书写爬虫脚本;
步骤101,利用步骤100中的爬虫脚本获取该会议各个年份的所有录用文章的列表以及各个文章的链接,并通过文章链接按照会议、年份分别进行下载,得到该会议所有文章的PDF版本;
步骤102,对步骤101收集到的文章进行格式转换,去除文章中的图像等非文本信息,将每篇文章转换为一个单纯由字符串构成的新的文本;
步骤103,对步骤102处理后的文本文件进行去停词处理,得到该会议的所有文本,形成该会议的语料库;
步骤104,将步骤103中得到的该会议的语料库按照年份分割,得到各个年份的小语料库;
步骤105,用步骤104得到的小语料库,按照年份,以Reweight的方式分别构建各个年份的新的语料库,每一年的语料库的构建过程是:以不同的比例权重将各个小语料库添加到新的语料库中,如按照权重6:1,即在新的语料库中重复添加本年份小语料库6次,添加其余年份小语料库1次,以此构建该会议各个年份的新的语料库;
所述特征关键词提取与主题模型训练的具体步骤为:
步骤200,对步骤104处理后的该会议的所有文本进行TF-IDF分析,得到每篇文章中各个词的TF-IDF值即重要程度;
步骤201,利用步骤200中得到的结果,将TF-IDF值大于0.4的词提取出来,形成该会议的特征词列表;
步骤202,利用步骤201中得到的特征词列表对该会议所有文本再次进行过滤,去除不在特征词列表中的词,得到该会议的用于训练模型的原始语料库;
步骤203,人工观察该会议第一年语料库特征,给出第一年主题数目Ntopic;
步骤204,将步骤203得到的Ntopic作为参数,利用该会议第一年语料库训练主题模型-隐狄利克雷模型(Latent Dirichlet Allocation)训练得到每个主题在各个关键词上的分布概率Ptopic_n以及每个主题的前10个代表关键词Wtopic_n;
步骤205,人工观察步骤204得到的结果,确认各个主题,并调整主题数目Ntopic,重复步骤203-204,直到得到的主题分类符合真实情况,保存最后一次训练得到的每个主题在各个关键词上的分布概率Ptopic_n_firstyear;
所述研究热点与发展趋势分析的具体步骤为:
步骤300,除第一年外,该会议的每一年的主题模型训练,均以前一年的主题数目Ntopic_lastyear作为参数训练隐狄利克雷模型,训练得到每个主题在各个关键词上的分布Ptopic_n_this year以及每个主题的前10个代表关键词Wtopic_n_thisyear;
步骤301,利用步骤300中得到本年的每个主题在各个关键词上的分布概率Ptopic_n_thisyear与保存的前一年的每个主题在各个关键词上的分布概率Ptopic_n_lastyear,进行前后两年的主题对齐,即找到本年的每个主题在前一年对应的是哪个主题:分别计算本年Ptopic_n_thisyear与前一年的Ptopic_n_lastyear中的每一个主题间的相对熵的值,得到一个大小为topic_n*topic_n的相对熵矩阵,每一行的最小值对应的主题即为该行主题在前一年的主题;
步骤302,分析步骤301得到的对齐结果,结合Wtopic_n_thisyear,分三种情况进行处理;
步骤303,若前一年某一主题在本年只有一个主题与之对齐,则分析两年间该主题的相对熵是否超过阈值,若超过阈值则该主题可能发生了很大的变化,需要人工观察变化趋势,并判断是否需要合并或分割本年的主题;
步骤304,若前一年某一主题在本年有多个主题与之对齐,则计算本年的与之对齐的几个主题之间的相对熵的值,合并相对熵小于阈值的主题,人工观察相对熵大于阈值的主题的变化趋势;
步骤305,若前一年的某一主题在本年没有主题与之对齐,则人工观察该主题是否在本年沉寂或是并入其它主题当中去,并判断是否需要分割本年的某一主题;
步骤306,经过300-305步骤的训练与分析,对本年结果进行主题的合并或分割,得到新的主题分布概率Ptopic_n_this year_new取代模型最开始获得的主题分布概率进行保存,并更新主题数目Ntopic作为下一年训练的参数;
步骤307,统计每年各个主题下的文章数目,生成该会议研究热点与主题趋势分析图。
有益效果:与现有技术相比,本发明提供的基于主题模型的会议研究热点与发展趋势信息分析方法,首先按照时间对数据进行Reweight处理,将时间因素体现在模型中,其次利用主题模型产出的主题分布对主题变化做出了衡量,使得模型可以根据数据来改变主题数目,最后结合人工分析,得到该领域的研究热点和发展趋势分析结果。
附图说明
图1为本发明的会议文章收集与格式转换步骤流程图;
图2为本发明的特征关键词提取、Reweight训练数据构建与主题模型训练步骤流程图;
图3为本发明的研究热点与发展趋势分析步骤流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
会议文章收集与Reweight训练数据构建的工作流程图如图1所示。
首先,分析会议官方网站,针对网站信息特点,书写爬虫脚本(步骤100);
其次,运行爬虫脚本,获取该会议各个年份的所有录用文章的列表以及各个文章的链接,并通过文章链接按照会议、年份分别进行下载,得到该会议所有文章的PDF版本(步骤101);
再对收集到的文章进行格式转换,去除文章中的图像等非文本信息,将每篇文章转换为一个单纯由字符串构成的新的文本(步骤102);
然后,对上一步处理后的文本文件进行去停词处理,形成该会议的语料库(步骤103);
接着,将上一步中得到的该会议的语料库按照年份分割,得到各个年份的小语料库(步骤104);
最后,用上一步得到的小语料库,按照年份,以Reweight的方式分别构建各个年份的新的语料库,每一年的语料库的构建过程是:以不同的比例权重将各个小语料库添加到新的语料库中,如按照权重6:1,即在新的语料库中重复添加本年份小语料库6次,添加其余年份小语料库1次,以此构建该会议各个年份的新的语料库(步骤105);
特征关键词提取与主题模型训练的工作流程图如图2所示。
以步骤104的文本作为输入,对该会议的所有文本进行TF-IDF分析,得到每篇文章中各个词的TF-IDF值(步骤200);
然后,利用上一步的结果,将TF-IDF值大于0.4的词提取出来,形成该会议的特征词列表(步骤201);
得到特征词列表后,利用特征词里表对该会议所有文本再次进行过滤,去除不在特征词列表中的词,得到该会议的用于训练模型的原始语料库(步骤202);
接着,人工观察该会议第一年语料库特征,给出第一年主题数目Ntopic(步骤203);
将上一步得到的Ntopic作为参数,利用该会议第一年语料库训练主题模型-隐狄利克雷模型(Latent Dirichlet Allocation)训练得到每个主题在各个关键词上的分布Ptopic_n以及每个主题的前10个代表关键词Wtopic_n(步骤204);
最后,人工观察上一步得到的结果,确认各个主题,并根据确认后的主题情况,调整主题数目Ntopic,重复执行上两步,直到得到的主题分类符合真实情况,保存最后一次训练得到的每个主题在各个关键词上的分布概率Ptopic_n_firstyear(步骤205);
研究热点与发展趋势分析的工作流程图如图3所示:
首先以本年语料库作为输入,以前一年的主题数目Ntopic_lastyear作为参数训练隐狄利克雷模型,训练得到每个主题在各个关键词上的分布Ptopic_n_this year以及每个主题的前10个代表关键词Wtopic_n_thisyear(步骤300);
接着进行主题对齐,即找到本年的每个主题在前一年对应的是哪个主题:利用上一步中得到本年的每个主题在各个关键词上的分布Ptopic_n_thisyear与保存的前一年的每个主题在各个关键词上的分布Ptopic_n_lastyear,分别计算本年Ptopic_n_thisyear与前一年的Ptopic_n_lastyear中的每一个主题间的相对熵的值,得到一个大小为topic_n*topic_n的相对熵矩阵,每一行的最小值对应的主题即为该行主题在前一年的主题(步骤301);
然后,分析主题对齐结果,结合Wtopic_n_thisyear,分三种情况进行处理(步骤302);
若前一年某一主题在本年只有一个主题与之对齐,则分析两年间该主题的相对熵是否超过阈值,若超过阈值则该主题可能发生了很大的变化,需要人工观察变化趋势,并判断是否需要合并或分割本年的主题(步骤303);
若前一年某一主题在本年有多个主题与之对齐,则计算本年的与之对齐的几个主题之间的相对熵的值,合并相对熵小于阈值的主题,人工观察相对熵大于阈值的主题的变化趋势(步骤304);
若前一年的某一主题在本年没有主题与之对齐,则人工观察该主题是否在本年沉寂或是并入其它主题当中去,并判断是否需要分割本年的某一主题(步骤305);
经过对本年主题模型结果的分析,对本年结果进行主题的合并或分割,得到新的主题分布Ptopic_n_this year_new取代模型最开始获得的主题分布进行保存,并更新主题数目Ntopic作为下一年训练的参数(步骤306);
最后统计每年各个主题下的文章数目,生成该会议研究热点与主题趋势分析图(步骤307)。
Claims (5)
1.一种基于主题模型的会议研究热点与发展趋势信息分析方法,其特征在于,包括:会议文章收集与Reweight训练数据构建,利用爬虫收集一定数量的各个会议的录用文章,经过文本格式转换与处理得到原始文本数据集,再通过Reweight的方式按照年份构建训练数据;特征关键词提取与主题模型训练,对数据集进行关键词的提取,结合关键词列表,逐年训练主题模型;研究热点与发展趋势分析,利用训练得到的主题模型中的各个主题分布的变化对该会议的研究热点和发展趋势进行分析。
2.如权利要求1所述的基于主题模型的会议研究热点与发展趋势信息分析方法,其特征在于,述会议文章收集与Reweight训练数据构建步骤具体为:
步骤100,根据会议官方网站,书写爬虫脚本;
步骤101,利用步骤100中的爬虫脚本获取该会议各个年份的所有录用文章的列表以及各个文章的链接,并通过文章链接按照会议、年份分别进行下载,得到该会议所有文章;
步骤102,对步骤101收集到的文章进行格式转换,去除文章中的非文本信息,将每篇文章转换为一个单纯由字符串构成的新的文本;
步骤103,对步骤102处理后的文本文件进行去停词处理,得到该会议的所有文本,形成该会议的语料库;
步骤104,将步骤103中得到的该会议的语料库按照年份分割,得到各个年份的小语料库;
步骤105,用步骤104得到的小语料库,按照年份,以Reweight的方式分别构建各个年份的新的语料库,每一年的语料库的构建过程是:以不同的比例权重将各个小语料库添加到新的语料库中,以此构建该会议各个年份的新的语料库。
3.如权利要求2所述的基于主题模型的会议研究热点与发展趋势信息分析方法,其特征在于,所述特征关键词提取与主题模型训练的具体步骤为:
步骤200,对步骤104处理后的该会议的所有文本进行TF-IDF分析,得到每篇文章中各个词的TF-IDF值即重要程度;
步骤201,利用步骤200中得到的结果,将TF-IDF值大于0.4的词提取出来,形成该会议的特征词列表;
步骤202,利用步骤201中得到的特征词列表对该会议所有文本再次进行过滤,去除不在特征词列表中的词,得到该会议的用于训练模型的原始语料库;
步骤203,人工观察该会议第一年语料库特征,给出第一年主题数目Ntopic;
步骤204,将步骤203得到的Ntopic作为参数,利用该会议第一年语料库训练主题模型-隐狄利克雷模型训练得到每个主题在各个关键词上的分布概率Ptopic_n以及每个主题的前10个代表关键词Wtopic_n;
步骤205,人工观察步骤204得到的结果,确认各个主题,并调整主题数目Ntopic,重复步骤203-204,直到得到的主题分类符合真实情况,保存最后一次训练得到的每个主题在各个关键词上的分布概率Ptopic_n_firstyear。
4.如权利要求3所述的基于主题模型的会议研究热点与发展趋势信息分析方法,其特征在于,所述研究热点与发展趋势分析的具体步骤为:
步骤300,除第一年外,该会议的每一年的主题模型训练,均以前一年的主题数目Ntopic_lastyear作为参数训练隐狄利克雷模型,训练得到每个主题在各个关键词上的分布Ptopic_n_this year以及每个主题的前10个代表关键词Wtopic_n_thisyear;
步骤301,利用步骤300中得到本年的每个主题在各个关键词上的分布概率Ptopic_n_thisyear与保存的前一年的每个主题在各个关键词上的分布概率Ptopic_n_lastyear,进行前后两年的主题对齐,即找到本年的每个主题在前一年对应的是哪个主题:分别计算本年Ptopic_n_thisyear与前一年的Ptopic_n_lastyear中的每一个主题间的相对熵的值,得到一个大小为topic_n*topic_n的相对熵矩阵,每一行的最小值对应的主题即为该行主题在前一年的主题;
步骤302,分析步骤301得到的对齐结果,结合Wtopic_n_thisyear,分三种情况进行处理;
步骤303,若前一年某一主题在本年只有一个主题与之对齐,则分析两年间该主题的相对熵是否超过阈值,若超过阈值则该主题可能发生了很大的变化,需要人工观察变化趋势,并判断是否需要合并或分割本年的主题;
步骤304,若前一年某一主题在本年有多个主题与之对齐,则计算本年的与之对齐的几个主题之间的相对熵的值,合并相对熵小于阈值的主题,人工观察相对熵大于阈值的主题的变化趋势;
步骤305,若前一年的某一主题在本年没有主题与之对齐,则人工观察该主题是否在本年沉寂或是并入其它主题当中去,并判断是否需要分割本年的某一主题;
步骤306,经过300-305步骤的训练与分析,对本年结果进行主题的合并或分割,得到新的主题分布概率Ptopic_n_this year_new取代模型最开始获得的主题分布概率进行保存,并更新主题数目Ntopic作为下一年训练的参数;
步骤307,统计每年各个主题下的文章数目,生成该会议研究热点与主题趋势分析图。
5.如权利要求2所述的基于主题模型的会议研究热点与发展趋势信息分析方法,其特征在于,用上一步得到的小语料库,按照年份,以Reweight的方式分别构建各个年份的新的语料库,每一年的语料库的构建过程是:以比例权重6:1将各个小语料库添加到新的语料库中,在新的语料库中重复添加本年份小语料库6次,添加其余年份小语料库1次,以此构建该会议各个年份的新的语料库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810354714.0A CN108595593B (zh) | 2018-04-19 | 2018-04-19 | 基于主题模型的会议研究热点与发展趋势信息分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810354714.0A CN108595593B (zh) | 2018-04-19 | 2018-04-19 | 基于主题模型的会议研究热点与发展趋势信息分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595593A true CN108595593A (zh) | 2018-09-28 |
CN108595593B CN108595593B (zh) | 2021-11-23 |
Family
ID=63611244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810354714.0A Active CN108595593B (zh) | 2018-04-19 | 2018-04-19 | 基于主题模型的会议研究热点与发展趋势信息分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595593B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961694A (zh) * | 2021-09-22 | 2022-01-21 | 福建亿榕信息技术有限公司 | 一种基于会议的公司各单位运作情况辅助分析方法及系统 |
CN114201962A (zh) * | 2021-12-03 | 2022-03-18 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
US20170116203A1 (en) * | 2013-12-02 | 2017-04-27 | Qbase, LLC | Method of automated discovery of topic relatedness |
CN106777043A (zh) * | 2016-12-09 | 2017-05-31 | 宁波大学 | 一种基于lda的学术资源获取方法 |
CN106815297A (zh) * | 2016-12-09 | 2017-06-09 | 宁波大学 | 一种学术资源推荐服务系统与方法 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107247728A (zh) * | 2017-05-02 | 2017-10-13 | 北京小度信息科技有限公司 | 文本处理方法、装置及计算机存储介质 |
CN107679228A (zh) * | 2017-10-23 | 2018-02-09 | 合肥工业大学 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
-
2018
- 2018-04-19 CN CN201810354714.0A patent/CN108595593B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170116203A1 (en) * | 2013-12-02 | 2017-04-27 | Qbase, LLC | Method of automated discovery of topic relatedness |
CN105335349A (zh) * | 2015-08-26 | 2016-02-17 | 天津大学 | 一种基于时间窗口的lda微博主题趋势检测方法及装置 |
CN106777043A (zh) * | 2016-12-09 | 2017-05-31 | 宁波大学 | 一种基于lda的学术资源获取方法 |
CN106815297A (zh) * | 2016-12-09 | 2017-06-09 | 宁波大学 | 一种学术资源推荐服务系统与方法 |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107247728A (zh) * | 2017-05-02 | 2017-10-13 | 北京小度信息科技有限公司 | 文本处理方法、装置及计算机存储介质 |
CN107679228A (zh) * | 2017-10-23 | 2018-02-09 | 合肥工业大学 | 一种基于短文本扩展和概念漂移检测的短文本数据流分类方法 |
Non-Patent Citations (3)
Title |
---|
GUOQING ZHENG 等: "Learning to Reweight Terms with Distributed Representations", 《ACM》 * |
QIUXING CHEN 等: "SHORT TEXT CLASSIFICATION BASED ON LDA TOPIC MODEL", 《IEEE》 * |
YANGQIU SONG 等: "Topic and Keyword Re-ranking for LDA-based Topic Modeling", 《ACM》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113961694A (zh) * | 2021-09-22 | 2022-01-21 | 福建亿榕信息技术有限公司 | 一种基于会议的公司各单位运作情况辅助分析方法及系统 |
CN114201962A (zh) * | 2021-12-03 | 2022-03-18 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
CN114201962B (zh) * | 2021-12-03 | 2023-07-25 | 中国中医科学院中医药信息研究所 | 一种论文新颖性分析方法、装置、介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108595593B (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN106055538B (zh) | 主题模型和语义分析相结合的文本标签自动抽取方法 | |
CN106682411B (zh) | 一种将体检诊断数据转化为疾病标签的方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN104778209B (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN105354333B (zh) | 一种基于新闻文本的话题提取方法 | |
CN108121829A (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
CN107315738B (zh) | 一种文本信息的创新度评估方法 | |
CN104991891B (zh) | 一种短文本特征提取方法 | |
CN106021222B (zh) | 一种科研文献主题演化的分析方法和装置 | |
CN106055539B (zh) | 姓名消歧的方法和装置 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN105824959A (zh) | 舆情监控方法及系统 | |
CN104504024B (zh) | 基于微博内容的关键词挖掘方法及系统 | |
Lossio-Ventura et al. | Biotex: A system for biomedical terminology extraction, ranking, and validation | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN108108482B (zh) | 一种文景转换中实现场景真实性增强的方法 | |
CN108280164A (zh) | 一种基于类别相关单词的短文本过滤与分类方法 | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
CN105869058B (zh) | 一种多层潜变量模型用户画像提取的方法 | |
CN109165040A (zh) | 一种基于随机森林模型的代码抄袭嫌疑检测的方法 | |
Alwidian et al. | Text data mining: a proposed framework and future perspectives | |
CN108595593A (zh) | 基于主题模型的会议研究热点与发展趋势信息分析方法 | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 22 Hankou Road, Gulou District, Nanjing, Jiangsu 210008 Applicant after: Nanjing University Address before: No. 163 Xianlin Avenue, Qixia District, Nanjing, Jiangsu 210046 Applicant before: Nanjing University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |