CN111198897A - 科研热点主题分析方法、装置与电子设备 - Google Patents

科研热点主题分析方法、装置与电子设备 Download PDF

Info

Publication number
CN111198897A
CN111198897A CN201811374249.3A CN201811374249A CN111198897A CN 111198897 A CN111198897 A CN 111198897A CN 201811374249 A CN201811374249 A CN 201811374249A CN 111198897 A CN111198897 A CN 111198897A
Authority
CN
China
Prior art keywords
topic
theme
scientific research
document
evolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811374249.3A
Other languages
English (en)
Other versions
CN111198897B (zh
Inventor
高万林
何东彬
王敏娟
郝霞
张国锋
张莉
王兵兵
赵龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201811374249.3A priority Critical patent/CN111198897B/zh
Publication of CN111198897A publication Critical patent/CN111198897A/zh
Application granted granted Critical
Publication of CN111198897B publication Critical patent/CN111198897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种科研热点主题分析方法、装置与电子设备,其中所述方法包括:建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。本发明实施例依据文献结构信息和主题所属信息构建主题演化图,并通过主题演化图,将主题描述优化、主题排序和主题演化结合起来,在提高时间效率的前提下获取更准确结果。

Description

科研热点主题分析方法、装置与电子设备
技术领域
本发明实施例涉及科研文献主题挖掘技术领域,更具体地,涉及一种科研热点主题分析方法、装置与电子设备。
背景技术
在科研分析工作中,从海量的文献信息中有效的发掘出热点科研主题以及热点主题发展变化的情况,正逐渐成为当前科研相关管理部门和科研工作者所关注的问题。
在传统的科研数据分析方法中,引入了概率主题模型的机器学习方法,该模型的使用,为从事科研数据分析的科研人员提供了一种新的研究思路。同时,从科研人员个人角度来说,及时了解其研究领域内的热点动态和自己研究方向的契合程度,对于自身科研方向和进展的安排与调整也具有积极的作用。
概率主题模型拓展了目前文本挖掘技术的范畴,相比文本挖掘技术(如向量空间模型)的传统方法,针对词频的统计不仅从文档角度,还从语料库角度入手,通过先验概率分布描述词频的分布,将传统的文档-词结构模型改进为文档-主题-词三重层次的概率主题模型。从而,把原本在高维稀疏的词空间表示的文本形式转换为低维的主题空间表示,并逐渐成为机器学习、自然语言处理等领域中的重要研究课题。同时,在科研检索、舆情监控、文本挖掘、推荐系统、活动检测中获得了广泛应用。
通常科研文献包含了更加丰富的结构信息,例如文献的作者、发表的时间、参考文献等,对科研主题的发现有一定的影响,而且科研文献具有一定的传承性,利用其引用信息,对主题演化的研究具有积极的作用。
但是,目前的概率主题模型在运算效率上相对较低,并且准确度不高,发现的主题中可能混有背景等无意义的主题,对主题描述的可解释性也不强,因此很难进行优化和利用。
发明内容
为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种科研热点主题分析方法、装置与电子设备,用以在提高时间效率的前提下获取更准确的结果,更好的量化热点主题。
第一方面,本发明实施例提供一种科研热点主题分析方法,包括:
建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
第二方面,本发明实施例提供一种科研热点主题分析装置,包括:
预处理模块,用于建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
输出模块,用于基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
第三方面,本发明实施例提供一种电子设备,包括:至少一个存储器、至少一个处理器、通信接口和总线;所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口用于所述电子设备与科研文献获取设备之间的信息传输;所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上第一方面所述的科研热点主题分析方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上第一方面所述的科研热点主题分析方法。
本发明实施例提供的科研热点主题分析方法、装置与电子设备,通过构建一种概率主题层次组合模型,根据主题发现的结果,依据文献结构信息和主题所属信息构建主题演化图,并通过主题演化图,将主题描述优化、主题排序和主题演化结合起来,在提高时间效率的前提下获取更准确结果。另外,通过排序能够更好的量化热点主题,通过给出每个主题的文献推荐列表,能够获取更准确的趋势演化分析结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的科研热点主题分析方法的流程示意图;
图2为根据本发明实施例提供的科研热点主题分析方法中建立的概率主题层次组合模型的结构示意图;
图3为本发明另一实施例提供的科研热点主题分析方法的流程示意图;
图4为本发明实施例提供的科研热点主题分析装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明实施例的一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明实施例保护的范围。
本发明实施例通过对当前主流的推断算法进行分析,针对应用场景对算法进行加速和优化,以获取更佳的时空效率。与现有技术相比,本发明提供可对科研文献构建一种概率主题层次组合模型,上层模型通过文献的主题分布来构建文献网络的依赖关系,采用一种网络链接分析和随机游走算法来计算文档权值,并据此过滤非重要文献,下层通过LDA拓展模型产生文档和词,上下层通过一个联合分布函数对文档结构信息和内容信息进行结合。
根据主题发现的结果,依据文献结构信息和主题所属信息构建主题演化图,每个节点代表一个主题,由于引用的时间属性,主题间的有向边表明主题间的依赖发展关系。通过主题演化图,将主题描述优化、主题排序和主题演化结合起来,在提高时间效率的前提下获取更准确结果,通过排序更好的量化热点主题,并能给出每个主题的文献推荐列表,最终获得一个基于机器学习的科研热点发掘与趋势演化研究模型。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。
图1为本发明一实施例提供的科研热点主题分析方法的流程示意图,包括:
S101,建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库。
可以理解为,本步骤进行数据的预处理,以行业数据为例,建立基于科研文献引用网络,采用随机游走算法计算每篇文档的文献排序权重(File Rank Weight,FRW),并按一定条件过滤文献。即,首先进行目标语料库的建立,包括文献的选取,停用词表等的建立。之后进行科研文献的摘要和引用的分别抽取,对摘要和引用文本内容进行分割和清洗,获取引文数据并分别建立欧美和中国的科技文献语料库。
例如,在对语料库中文献经过清洗后,利用网络链接分析和随机游走算法,根据文献中的引用关系,迭代计算出每个文献的FRW,并过滤掉FRW低于特定阈值的旧文献。其中,如果特定文献由于没有引用关系,则FRW按系统默认阈值赋值。
其中的科研文献数据可以是来自于公开发表的科研学术论文、报告,所述文档网络是文献引用关系网络。
S102,基于概率主题层次组合模型,对获取的引文数据和语料库进行评价筛选,获取热点科研主题。
可以理解为,本步骤利用一种可以综合利用多源信息的概率主题层次组合模型,对上述步骤获取的引文数据和语料库进行评价筛选,并通过对筛选出的结果进行排序,最终发现热点科研主题。
其中,概率主题层次组合模型包括上层和下层两个层次的分模型。下层模型发现的主题结果采用互信息方法进行主题词筛选,以优化主题表现。
本发明实施例提供的科研热点主题分析方法,通过设置相应的执行模块,通过构建一种层次主题组合模型,根据主题发现的结果,依据文献结构信息和主题所属信息构建主题演化图,并通过主题演化图,将主题描述优化、主题排序和主题演化结合起来,在提高时间效率的前提下获取更准确结果。另外,通过排序能够更好的量化热点主题,通过给出每个主题的文献推荐列表,能够获取更准确的趋势演化分析结果。
可以理解的是,主题的排序,通过主题影响度(TopicRankScore,TRS)来实现,排在前面的即是当前科研中的热点主题。因此建立如下计算公式计算主题影响度:
TRS=αTIk+βTSk+(1-α-β)TCRk
其中,TRS为主题影响度,TI为主题之间的关联度(Topic Influence),这个要参考词项显著度,TS为Topic Strength,为主题强度概率和,来自主题模型的挖掘结果,TCR为TopicCitesRank,是PageRank改进算法利用文献引用信息,建立文献网络,计算文献权重,并根据主题所属的文献计算出的主题权重。
在上述各实施例的基础上,在获取热点科研主题的步骤之后,本发明实施例的方法还包括:基于概率主题层次组合模型模拟出的主题信息及分布,将不同主题视为节点,建立节点之间的有向边连接,形成主题演化图,以获取主题趋势和不同主题间的演化发展情况。
可以理解为,本发明实施例在上述实施例的基础上,进一步将不同主题视为节点,建立有向主题演化图,以获得主题趋势和不同主题间演化发展目的。如将不同主题视为节点,通过不同主题间共词和共引关系,建立节点之间的有向边连接,通过特定算法,根据引用本身的时间属性,根据预处理文档的FRW,计算每个主题中的文献依赖关系强度,并将其投射到时间轴上,合并统计得到主题间演化发展情况。
在上述各实施例的基础上,在基于概率主题层次组合模型,对获取的引文数据和语料库进行评价筛选的步骤之前,本发明实施例的方法还包括:采用马尔科夫随机场,通过对主题分布变量进行描述,构建基于概率主题层次组合模型的上层,以通过主题分布之间的关系来解释文档网络的依赖性;采用潜在狄利克雷分布算法,对语料库中的文献进行建模,构建基于概率主题层次组合模型的下层,以产生文献和词。
可以理解为,在进行本发明实施例概率主题层次组合模型的应用之前,先对该模型进行建立。即分别采用马尔科夫随机场对概率主题层次组合模型的上层,采用潜在狄利克雷分布算法对概率主题层次组合模型的下层进行建立。
如图2所示,为根据本发明实施例提供的科研热点主题分析方法中建立的概率主题层次组合模型的结构示意图,所建立的概率主题层次组合模型可以综合利用多源信息,且包含两个层次,其中上层使用马尔科夫随机场通过对主题分布变量进行描述,通过主题分布之间的关系来解释文档网络的依赖性,下层使用潜在狄利克雷分布模型对语料库中的文献进行建模,产生文献和词。
进一步的,本发明实施例还对上述概率主题层次组合模型的推断算法进行优化,以提高模型的预测能力。其中,对推断算法的优化在熵框架下进行,针对层次模型的要求,重点解决Gibbs采样过程的时间效率的问题。
根据主题相关性或基于熵框架下的网格搜索算法,找到一种合理设置K值的方法,以提高模型的预测能力;同时对当前主流推断算法Gibbs Sampling的使用场景,给出加速算法的优化版本,提高算法的时间效率。
其中,在基于概率主题层次组合模型,对获取的引文数据和语料库进行评价筛选的步骤之后,本发明实施例的方法还包括:基于主题拓展模型,对主题进行挖掘,获取潜在主题,并通过困惑度和SKL对概率主题模型生成主题质量进行评价,结合评价标准建立主题结果集;基于主题结果集,构建主题节点集,获取主题推荐文献列表。
本发明实施例在上述实施例计算每个主题中的文献依赖关系强度的基础上,将其投射到时间轴上,合并统计得到主题间演化发展情况,形成主题演化图。在此基础上,利用主题拓展模型,对主题进行挖掘,获取潜在主题,并通过困惑度和SKL对概率主题模型生成主题质量进行评价,如果符合评价标准,则建立主题结果集,如果不符合则进一步进行优化调整,进行主题挖掘。经上述处理过程,在获得不同主题间趋势演化和发展的情况的同时,获得每个主题中最具代表性的科研文献列表,即推荐文献列表。
可以理解的是,其中的主题拓展模型即为图2中所示的概率主题层次组合模型,其实质上是一种概率主题层次组合模型(hierarchal Dependent Latent DirichletAllocation,HDLDA)。由于是基于LDA的层次组合模型,是LDA的拓展,也称为LDA拓展模型
其中,根据上述各实施例可选的,基于主题结果集,构建主题节点集,获取主题推荐文献列表的步骤具体包括:构建模型对主题结果集中的主题结果进行分析处理,并根据隐含狄利克雷分布模型模拟出的主题信息及分布,将不同主题视为节点,通过不同主题间的共词和共引关系,建立节点之间的有向边连接,获取主题推荐文献列表。
可以理解为,在根据上述实施例建立主题结果集的基础上,通过建立概率主题层次组合模型,利用所建立的模型对主题结果集中的主题结果进行分析处理。同时,利用隐含狄利克雷分布模型对主题信息及分布进行模拟,得到对主题信息及分布的模拟结果。之后,结合所建立模型对主题结果的分析处理结果和隐含狄利克雷分布模型对主题信息及分布的模拟结果,将不同主题视为节点,通过不同主题间的共词和共引关系,建立节点之间的有向边连接。在此基础上计算主题的综合特征值,并根据综合特征值获取主题推荐文献列表。
其中,根据上述各实施例可选的,获取主题趋势和不同主题间的演化发展情况的步骤具体包括:基于引用本身的时间属性和预处理文档的文献排序权重,计算每个主题中的文献依赖关系强度;将文献依赖关系强度投射到时间轴上,并通过合并统计得到主题间演化发展情况,形成主题演化图;基于主题演化图,获取不同主题间趋势演化和发展的情况。
可以理解为,根据上述各实施例,可以分析科研文献间的引用关系,并可以计算得到对预处理文档的文献排序权重,本发明实施例可以基于上述引用本身的时间属性和预处理文档的文献排序权重,计算每个主题中的文献依赖关系强度,并将该文献依赖关系强度投射到时间轴上。之后,可合并统计得到主题间演化发展情况,形成主题演化图,以获得不同主题间趋势演化和发展的情况,同时可获得每个主题中最具代表性的科研文献列表。
其中,根据上述各实施例可选的,基于主题演化图,获取不同主题间趋势演化和发展的情况的步骤具体包括:根据主题演化图进行主题分析,建立年度主题权重矩阵,并以年为单位,利用最小二乘法对各个重要科技主题的时序权重变化进行计算和拟合,获取对每个科技主题发展趋势的定量预测及分析。
可以理解为,本发明实施例在利用主题演化图进行主题趋势和不同主题间演化发展的分析时,首先建立年度主题权重矩阵(M×K),并以年为单位,之后利用最小二乘法对各个重要科技主题的时序权重变化进行计算和拟合,最终实现对每个科技主题发展趋势的定量预测及分析。
为进一步说明本发明实施例的技术方案,本发明实施例根据上述各实施例提供如下实施例的处理流程,但不对本发明实施例的保护范围进行限制。
图3为本发明另一实施例提供的科研热点主题分析方法的流程示意图,如图3所示:
首先,是数据的预处理部分,进行目标语料库的建立,包括文献的选取,停用词表的建立。之后进行科研文献的摘要和引用的分别抽取,对摘要和引用文本内容进行分割和清洗,分别建立欧美和中国的科技文献语料库。
利用文献的引用信息,将每篇文档作为一个节点,建立文献网络,采用一种网络链接分析和随机游走算法,计算语料库中每篇文档的FRW(File Rank Weight),并根据FRW值从语料库中滤除低于特定阈值的旧文献。
其次,是主题发现与算法优化过程,在该部分,构建如图1所示为一种可以综合利用多源信息的概率主题二层组合模型,其中上层使用马尔科夫随机场通过对主题分布变量进行描述,并通过其对文档网络的依赖关系建模,下层使用传统主题模型来产生文档,应用于科研文献主题的发现和演化跟踪。
根据主题相关性或基于熵框架下的网格搜索算法,找到一种合理设置K值的方法,以提高模型的预测能力;同时对当前主流推断算法Gibbs Sampling的使用场景,给出加速算法的优化版本,提高算法的时间效率。
最后,是模型构建过程中对主题结果的分析处理步骤。根据隐含狄利克雷分布模型模拟出的主题信息及分布,将不同主题视为节点,通过不同主题间的共词和共引关系,建立节点之间的有向边连接,通过特定算法,根据引用本身的时间属性以及预处理文档的FRW,计算每个主题中的文献依赖关系强度,并将其投射到时间轴上,合并统计得到主题间演化发展情况,形成主题演化图,以获得不同主题间趋势演化和发展的情况。
可以理解的是,其中的特定算法可以是一种随机游走算法,可借鉴谷歌的PageRank算法,但是会根据科研文献的特点,调整参数进行优化,同时优化算法效率,通常的做法是改变PageRank算法中的d值,如果语料库中所有文档的平均引用数是mean(M),则d值=4.5/mean(M)。
同时,获得每个主题中最具代表性的科研文献列表。建立年度主题权重矩阵(M×K),以年为单位,利用最小二乘法对各个重要科技主题的时序权重变化进行计算和拟合,最终实现对每个科技主题发展趋势的定量预测及分析。
综上可见,在本发明实施例中,基于层次潜在狄利克雷分布的科研热点主题组合模型构建方法为科研工作者发掘研究热点提供了一种新的方法与思路,该方法不仅将原本在高维稀疏的词空间表示的文本形式转换为在低维的主题空间上表示,并利用科研文献的结构信息,形成文档网络和主题演化图,提高了主题发现和趋势演化分析的质量。
作为本发明实施例的另一个方面,本发明实施例根据上述各实施例提供一种科研热点主题分析装置,该装置用于在上述各实施例中实现科研热点主题的分析。因此,在上述各实施例的科研热点主题分析方法中的描述和定义,可以用于本发明实施例中各个执行模块的理解,具体可参考上述实施例,此处不在赘述。
根据本发明实施例的一个实施例,科研热点主题分析装置的结构如图4所示,为本发明实施例提供的科研热点主题分析装置的结构示意图,该装置可以用于实现上述各方法实施例中科研热点主题的分析,该装置包括:预处理模块401和输出模块402。其中:
预处理模块401用于建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;输出模块402用于基于概率主题层次组合模型,对获取的引文数据和语料库进行评价筛选,获取热点科研主题。
具体而言,首先预处理模块401进行数据的预处理。以行业数据为例,预处理模块401首先进行目标语料库的建立,包括文献的选取,停用词表等的建立。之后,预处理模块401进行科研文献的摘要和引用的分别抽取,对摘要和引用文本内容进行分割和清洗,获取引文数据并分别建立欧美和中国的科技文献语料库。
然后,输出模块402利用一种可以综合利用多源信息的概率主题层次组合模型,对上述步骤获取的引文数据和语料库进行评价筛选,并通过对筛选出的结果进行排序,最终发现热点科研主题。
本发明实施例提供的科研热点主题分析装置,通过设置相应的执行模块,通过构建一种层次主题组合模型,根据主题发现的结果,依据文献结构信息和主题所属信息构建主题演化图,并通过主题演化图,将主题描述优化、主题排序和主题演化结合起来,在提高时间效率的前提下获取更准确结果。另外,通过排序能够更好的量化热点主题和有效滤除无意义主题,通过给出每个主题的文献推荐列表,能够获取更准确的趋势演化分析结果。
可以理解的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且,本发明实施例的科研热点主题分析装置利用上述各程序模块,能够实现上述各方法实施例的科研热点主题分析流程,在用于实现上述各方法实施例中科研热点主题的分析时,本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同,可以参考上述各方法实施例,此处不再赘述。
作为本发明实施例的又一个方面,本实施例根据上述各实施例提供一种电子设备,参考图5,为本发明实施例提供的电子设备的实体结构示意图,包括:至少一个存储器501、至少一个处理器502、通信接口503和总线504。
其中,存储器501、处理器502和通信接口503通过总线504完成相互间的通信,通信接口503用于该电子设备与科研文献获取设备之间的信息传输;存储器501中存储有可在处理器502上运行的计算机程序,处理器502执行该计算机程序时,实现如上述各实施例所述的科研热点主题分析方法。
可以理解为,该电子设备中至少包含存储器501、处理器502、通信接口503和总线504,且存储器501、处理器502和通信接口503通过总线504形成相互间的通信连接,并可完成相互间的通信,如处理器502从存储器501中读取科研热点主题分析方法的程序指令等。另外,通信接口503还可以实现该电子设备与科研文献获取设备之间的通信连接,并可完成相互间信息传输,如通过通信接口503实现对科研热点主题的分析等。
电子设备运行时,处理器502调用存储器501中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;基于概率主题层次组合模型,对获取的引文数据和语料库进行评价筛选,获取热点科研主题等。
上述的存储器501中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。或者,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行如上述各实施例所述的科研热点主题分析方法,例如包括:建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;基于概率主题层次组合模型,对获取的引文数据和语料库进行评价筛选,获取热点科研主题等。
本发明实施例提供的电子设备和非暂态计算机可读存储介质,通过执行上述各实施例所述的科研热点主题分析方法,通过构建一种概率主题层次组合模型,根据主题发现的结果,依据文献结构信息和主题所属信息构建主题演化图,并通过主题演化图,将主题描述优化、主题排序和主题演化结合起来,在提高时间效率的前提下获取更准确结果。另外,通过排序能够更好的量化热点主题和有效滤除无意义主题结果,通过给出每个主题的文献推荐列表,能够获取更准确的趋势演化分析结果。
可以理解的是,以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,既可以位于一个地方,或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解,各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令,用以使得一台计算机设备(如个人计算机,服务器,或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。
另外,本领域内的技术人员应当理解的是,在本发明实施例的申请文件中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的说明书中,说明了大量具体细节。然而应当理解的是,本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个,在上面对本发明实施例的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明实施例的单独实施例。
最后应说明的是:以上实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述实施例对本发明实施例进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims (10)

1.一种科研热点主题分析方法,其特征在于,包括:
建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
2.根据权利要求1所述的方法,其特征在于,在所述获取热点科研主题的步骤之后,还包括:
基于所述概率主题层次组合模型模拟出的主题信息及分布,将不同主题视为节点,建立节点之间的有向边连接,形成主题演化图,以获取主题趋势和不同主题间的演化发展情况。
3.根据权利要求2所述的方法,其特征在于,在所述基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选的步骤之前,还包括:
采用马尔科夫随机场,通过对主题分布变量进行描述,构建所述基于概率主题层次组合模型的上层,以通过主题分布之间的关系来解释文档网络的依赖性;
采用潜在狄利克雷分布模型,对所述语料库中的文献进行建模,构建所述基于概率主题层次组合模型的下层,以产生文献和词。
4.根据权利要求3所述的方法,其特征在于,在所述基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选的步骤之后,还包括:
基于主题拓展模型,对主题进行挖掘,获取潜在主题,并通过困惑度和SKL对概率主题模型生成主题质量进行评价,结合评价标准建立主题结果集;
基于所述主题结果集,构建主题节点集,获取主题推荐文献列表。
5.根据权利要求4所述的方法,其特征在于,所述基于所述主题结果集,构建主题节点集,获取主题推荐文献列表的步骤具体包括:
构建模型对所述主题结果集中的主题结果进行分析处理,并根据隐含狄利克雷分布模型模拟出的主题信息及分布,将不同主题视为节点,通过不同主题间的共词和共引关系,建立节点之间的有向边连接,获取所述主题推荐文献列表。
6.根据权利要求4所述的方法,其特征在于,所述获取主题趋势和不同主题间的演化发展情况的步骤具体包括:
基于引用本身的时间属性和预处理文档的文献排序权重,计算每个主题中的文献依赖关系强度;
将所述文献依赖关系强度投射到时间轴上,并通过合并统计得到主题间演化发展情况,形成主题演化图;
基于所述主题演化图,获取不同主题间趋势演化和发展的情况。
7.根据权利要求6所述的方法,其特征在于,所述基于所述主题演化图,获取不同主题间趋势演化和发展的情况的步骤具体包括:
根据所述主题演化图进行主题分析,建立年度主题权重矩阵,并以年为单位,利用最小二乘法对各个重要科技主题的时序权重变化进行计算和拟合,获取对每个科技主题发展趋势的定量预测及分析。
8.一种科研热点主题分析装置,其特征在于,包括:
预处理模块,用于建立基于科研文献的引用网络,并采用随机游走算法,计算每篇文档的文献排序权重,以过滤文献,获取引文数据和语料库;
输出模块,用于基于概率主题层次组合模型,对获取的所述引文数据和语料库进行评价筛选,获取热点科研主题。
9.一种电子设备,其特征在于,包括:至少一个存储器、至少一个处理器、通信接口和总线;
所述存储器、所述处理器和所述通信接口通过所述总线完成相互间的通信,所述通信接口还用于所述电子设备与科研文献获取设备之间的信息传输;
所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至7中任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任一所述的方法。
CN201811374249.3A 2018-11-19 2018-11-19 科研热点主题分析方法、装置与电子设备 Active CN111198897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811374249.3A CN111198897B (zh) 2018-11-19 2018-11-19 科研热点主题分析方法、装置与电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811374249.3A CN111198897B (zh) 2018-11-19 2018-11-19 科研热点主题分析方法、装置与电子设备

Publications (2)

Publication Number Publication Date
CN111198897A true CN111198897A (zh) 2020-05-26
CN111198897B CN111198897B (zh) 2023-06-13

Family

ID=70745772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811374249.3A Active CN111198897B (zh) 2018-11-19 2018-11-19 科研热点主题分析方法、装置与电子设备

Country Status (1)

Country Link
CN (1) CN111198897B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286988A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质
CN112417084A (zh) * 2020-11-20 2021-02-26 厦门大学 交通违法行为分析方法、系统、电子设备及存储介质
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统
CN113921082A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 基因搜索权重调整方法、计算机存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160041961A1 (en) * 2014-08-07 2016-02-11 John Romney Apparatus and method for processing citations within a document
CN106021222A (zh) * 2016-05-09 2016-10-12 浙江农林大学 一种科研文献主题演化的分析方法和装置
CN106250438A (zh) * 2016-07-26 2016-12-21 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN106682172A (zh) * 2016-12-28 2017-05-17 江苏大学 一种基于关键词的文献研究热点推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160041961A1 (en) * 2014-08-07 2016-02-11 John Romney Apparatus and method for processing citations within a document
CN106021222A (zh) * 2016-05-09 2016-10-12 浙江农林大学 一种科研文献主题演化的分析方法和装置
CN106250438A (zh) * 2016-07-26 2016-12-21 上海交通大学 基于随机游走模型的零引用文章推荐方法及系统
CN106682172A (zh) * 2016-12-28 2017-05-17 江苏大学 一种基于关键词的文献研究热点推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王平: "基于层次概率主题模型的科技文献主题发现及演化", 《图书情报工作》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286988A (zh) * 2020-10-23 2021-01-29 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质
CN112286988B (zh) * 2020-10-23 2023-07-25 平安科技(深圳)有限公司 医疗文献排序方法、装置、电子设备及存储介质
CN112417084A (zh) * 2020-11-20 2021-02-26 厦门大学 交通违法行为分析方法、系统、电子设备及存储介质
CN113722424A (zh) * 2021-07-20 2021-11-30 山东电力研究院 一种基于新闻事件的科研方向推荐方法及系统
CN113722424B (zh) * 2021-07-20 2024-02-02 国网山东省电力公司电力科学研究院 一种基于新闻事件的科研方向推荐方法及系统
CN113921082A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 基因搜索权重调整方法、计算机存储介质及电子设备
CN113921082B (zh) * 2021-10-27 2023-04-07 云舟生物科技(广州)股份有限公司 基因搜索权重调整方法、计算机存储介质及电子设备

Also Published As

Publication number Publication date
CN111198897B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN111581983B (zh) 基于群体分析的网络舆论事件中社会关注热点的预测方法
CN111198897A (zh) 科研热点主题分析方法、装置与电子设备
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN111310139B (zh) 行为数据识别方法、装置及存储介质
CN111047563B (zh) 一种应用于医学超声图像的神经网络构建方法
KR101616544B1 (ko) Lda를 이용한 특허 문헌 분석 방법
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN111160959B (zh) 一种用户点击转化预估方法及装置
CN116611546B (zh) 基于知识图谱的目标研究区域滑坡预测方法及系统
CN111090811A (zh) 一种海量新闻热点话题提取方法和系统
KR101625124B1 (ko) 특허 정량분석을 이용한 기술평가 방법
CN116866054A (zh) 公共信息安全监测系统及其方法
Keyvanpour A survey on community detection methods based on the nature of social networks
CN103324641A (zh) 信息记录推荐方法和装置
CN113723747A (zh) 分析报告生成方法、电子设备及可读存储介质
CN116383521B (zh) 主题词挖掘方法及装置、计算机设备及存储介质
CN112463974A (zh) 知识图谱建立的方法和装置
US11782923B2 (en) Optimizing breakeven points for enhancing system performance
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和系统
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
Broda et al. Evaluation method for automated wordnet expansion
CN117743564B (zh) 一种科技政策信息自动抽取与推荐方法及系统
CN115269948B (zh) 支持时空数据智能尺度变换的变尺度数据分析方法及装置
CN111428118B (zh) 一种检测事件可靠性的方法及电子设备
Sudarno et al. Building AHP–Promethee model for deciding level status floods disaster in edge computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant