CN116415593B - 一种研究前沿识别方法、系统、电子设备及存储介质 - Google Patents
一种研究前沿识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116415593B CN116415593B CN202310183787.9A CN202310183787A CN116415593B CN 116415593 B CN116415593 B CN 116415593B CN 202310183787 A CN202310183787 A CN 202310183787A CN 116415593 B CN116415593 B CN 116415593B
- Authority
- CN
- China
- Prior art keywords
- topic
- theme
- basic
- identified
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011160 research Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000005065 mining Methods 0.000 claims abstract description 68
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 38
- 238000005070 sampling Methods 0.000 claims description 36
- 238000009826 distribution Methods 0.000 claims description 35
- 238000010586 diagram Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 32
- 239000013598 vector Substances 0.000 description 15
- 238000007619 statistical method Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004138 cluster model Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种研究前沿识别方法、系统、电子设备及存储介质,方法包括:获取待识别数据集;将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。本发明提供的研究前沿识别方法,能够获取精确度较高的前沿主题识别结果,便于为科技创新部署提供可参考性较高的决策支撑,可实施性较强。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种研究前沿识别方法、系统、电子设备及存储介质。
背景技术
前沿研究指引着学科发展的方向。因此,及时准确地识别研究前沿,可以有助于把握学科领域关键技术、研究热点、了解学科领域的重大理论问题和技术开发难点,分析和判断学科领域新一轮技术革命的突破口,为科技创新部署供科学的决策支撑。
目前的前沿识别方法,通常基于论文或专利等科技文献的引用数据,进行前沿性分析,然而,仅考虑引用数据的分析方式,容易导致研究前沿识别的精确度较低,识别结果的可参考性较差,不利于为科技创新部署提供科学的决策支撑,且可实施性较差。
发明内容
本发明提供一种研究前沿识别方法、系统、电子设备及存储介质,用以解决现有技术中研究前沿识别的精确度较低,识别结果的可参考性较差的问题。
本发明提供一种研究前沿识别方法,包括:
获取待识别数据集;
将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;
根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;
基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。
可选的,将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
按照预设的文档抽取概率,从待识别数据集中抽取一待识别文档;
将所述待识别文档输入所述基础主题模型中的狄利克雷分布主题子模型,获取所述待识别文档的主题分布,所述主题分布通过从所述待识别文档的第一狄利克雷分布中抽取得到;
从所述主题分布中抽取待识别数据集中任一个词的目标主题;
基于所述目标主题,在所述待识别数据集的第二狄利克雷分布中进行抽样,获取所述目标主题对应的主题词分布结果;
基于预设的抽样规则,从所述主题词分布结果中抽样出至少一个基础主题;进而基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题,所述语料库为所述待识别数据集对应的库。
可选的,基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题的步骤包括:
根据所述主题生成概率,确定所述待识别数据集生成的基础主题的中间数量;
基于待识别数据集中的待识别文档,获取中间数量的基础主题;
基于预设的困惑度指标,确定所述待识别数据集中基础主题的目标数量;
基于所述目标数量,对所述中间数量的基础主题进行筛选,获取目标数量的基础主题。
可选的,将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
将所述待识别数据集输入所述组合主题子模型,获取所述待识别数据集中待识别文档的上下文词嵌入数据、以及词袋数据;
对所述上下文词嵌入数据进行编码,获取编码数据;
基于所述词袋数据和所述编码数据,进行语义相似度映射,获取词潜在表示;
基于预设的高斯分布,对所述词潜在表示进行变分采样,获取变分采样数据;
对所述变分采样数据进行解码,获取重建后的词袋表示,将重建后的词袋表示作为所述基础主题。
可选的,根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题的步骤包括:
根据所述前沿指标体系,获取至少一个所述基础主题的指标性参数,所述指标性参数至少包括以下之一:新兴度参数、创新性参数、交叉性参数、关注度参数和中心性参数;
基于所述指标性参数,对所述基础主题进行筛选,获取至少一个所述前沿主题。
可选的,所述新兴度参数的获取步骤包括:若当前基础主题的待识别文档的数据源为项目,则获取当前基础主题对应的所有项目的立项年份之和,基于所述立项年份之和与项目数量,获取所述新兴度参数;
若当前基础主题的待识别文档的数据源为论文,则获取当前基础主题对应的所有论文的论文出版年参数、参考文献出版年参数、施引文献出版年参数;基于预设的出版年权重、所述论文出版年参数、参考文献出版年参数、施引文献出版年参数,获取所述新兴度参数。
可选的,基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别的步骤包括:
将所述前沿主题的一个或多个主题词输入预设的词功能识别模型进行分类,获取所述主题词的类别,对所述主题词的类别进行可视化显示;
和/或按照所述前沿主题对应的待识别数据集中待识别文档的时间顺序,对所述待识别文档中前沿主题的主题词进行切片划分,获取多个时间切片,每个时间切片均包括一个或多个前沿主题的主题词;对每个时间切片下的主题词进行聚类,获取聚类结果;获取相邻所述时间切片内任两个前沿主题之间的余弦相似度;基于所述聚类结果和所述余弦相似度,获取主题演化路径图。
本发明还提供一种研究前沿识别系统,包括:
数据集获取模块,用于获取待识别数据集;
基础主题挖掘模块,用于将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋及语义相似度构建的模型;
前沿主题挖掘模块,用于根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;
前沿识别模块,用于基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述研究前沿识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述研究前沿识别方法。
本发明的有益效果:本发明提供的研究前沿识别方法、系统、电子设备及存储介质,通过获取待识别数据集;将待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;根据预设的前沿指标体系,对基础主题进行前沿主题挖掘,获取至少一个前沿主题;基于前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。能够获取精确度较高的前沿主题识别结果,便于为科技创新部署提供可参考性较高的决策支撑,可实施性较强。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的研究前沿识别方法的流程示意图;
图2是本发明提供的研究前沿识别方法中狄利克雷分布主题子模型进行基础主题挖掘的流程示意图;
图3是本发明提供的研究前沿识别方法中组合主题子模型进行基础主题挖掘的流程示意图;
图4是本发明提供的研究前沿识别方法中组合主题子模型的结构示意图;
图5是本发明提供的研究前沿识别方法中进行前沿主题挖掘的流程示意图;
图6是本发明提供的研究前沿识别方法中进行主题词功能识别的流程示意图;
图7是本发明提供的研究前沿识别方法中进行主题演化分析的流程示意图;
图8是本发明提供的研究前沿识别系统的一结构示意图;
图9是本发明提供的研究前沿识别系统的另一结构示意图;
图10是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着研究技术的不断发展,前沿研究在人工智能及情报学研究等学科领域得到了较为广泛的应用。其中,人工智能是研究如何使用计算机模拟人的思维和行动的学科,目前已成为全球科技的重要战略发展方向。为了响应全力抢占人工智能至高点的国家战略,计算机科学、哲学、经济学和情报学等各个领域的研究人员都在对人工智能开展研究。而情报学研究,则以数据为支撑,融合技术专家的智慧,可使用多种前沿识别技术,开展人工智能的研究前沿的识别和跟踪。目前的前沿识别方法所获得的研究前沿识别的精确度较低,识别结果的可参考性较差。因此,本发明提出一种研究前沿识别方法、系统、电子设备及存储介质,通过获取待识别数据集;将待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;根据预设的前沿指标体系,对基础主题进行前沿主题挖掘,获取至少一个前沿主题;基于前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。能够获取精确度较高的前沿主题识别结果,便于为科技创新部署提供可参考性较高的决策支撑,灵活度较高,成本较低。
下面以实施例的方式,结合图1-图10描述本发明提供的研究前沿识别方法、系统、电子设备及存储介质。
请参考图1,本实施例提供的研究前沿识别方法,包括:
S101:获取待识别数据集。具体地,所述待识别数据集包括一个或多个待识别文档。所述待识别数据集从预设的语料库中获取。
S102:将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布(LatentDirichlet Allocation,LDA)主题子模型、组合主题子模型(CombinedTM),所述组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型。
需要说明的是,主题模型是一种以非监督学习的方式对文本集的隐含语义结构进行聚类的统计模型。上述S102步骤中,将待识别数据集输入狄利克雷分布主题子模型进行基础主题挖掘,获取一个或多个基础主题;或者,将待识别数据集输入组合主题子模型进行基础主题挖掘,获取一个或多个基础主题;又或者,将待识别数据集分别输入狄利克雷分布主题子模型与组合主题子模型进行基础主题挖掘,获取狄利克雷分布主题子模型的输出结果与组合主题子模型的输出结果,基于预先设置的输出规则,获取一个或多个基础主题。所述输出规则可以根据实际情况进行设置,如将狄利克雷分布主题子模型的输出结果中的主题与组合主题子模型的输出结果中的主题共同作为基础主题等。通过将待识别数据集输入待识别数据集输入狄利克雷分布主题子模型、组合主题子模型中的至少之一进行基础主题挖掘,能够获取准确度与贴合度较高的基础主题。
S103:根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题。
需要提及的是,通过根据预设的前沿指标体系,对获取的基础主题进行前沿主题挖掘与判断,能够获取精确度较高的前沿主题。
S104:基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。通过对前沿主题的主题词进行功能识别,能够较好地实现对前沿主题的主题词的功能分类,便于识别前沿主题的功能类型,如研究对象、研究问题、研究方法和其他等。另外,通过对前沿主题进行主题演化分析,能够较好地体现前沿主题的演变过程,便于为科技创新部署提供较细致的决策支撑。
在一些实施例中,还包括:基于所述前沿主题,对前沿主题分布进行可视化显示,完成研究前沿识别。前沿主题分布包括:前沿主题分布数据、以及前沿主题中主题词的概率。通过对前沿主题分布进行可视化显示,能够较好地为用户展示研究前沿的分布情况。
请参考图2,为了较好地实现文档主题的聚类,在一些实施例中,利用预设的狄利克雷分布主题子模型和/或组合主题子模型进行基础主题挖掘,其中,利用狄利克雷分布主题子模型进行基础主题挖掘步骤包括:
S201:按照预设的文档抽取概率,从待识别数据集中抽取一待识别文档。
具体地,所述文档抽取概率可以根据实际需求进行设置,如1/50等。每个待识别数据集均包括多个待识别文档,通过按照预设的文档抽取概率,从待识别数据集中抽取一待识别文档,能够便于对抽取的待识别文档进行基础主题挖掘。
S202:将所述待识别文档输入所述基础主题模型中的狄利克雷分布主题子模型,获取所述待识别文档的主题分布,所述主题分布通过从所述待识别文档的第一狄利克雷分布中抽取得到。
S203:从所述主题分布中抽取待识别数据集中任一个词的目标主题。
S204:基于所述目标主题,在所述待识别数据集的第二狄利克雷分布中进行抽样,获取所述目标主题对应的主题词分布结果。
S205:基于预设的抽样规则,从所述主题词分布结果中抽样出至少一个基础主题;
S206:基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题,所述语料库为所述待识别数据集对应的库。通过利用预设的狄利克雷分布主题子模型进行基础主题挖掘,能够较好地实现对文本潜在语义和主题信息的深度挖掘,获取精确度较高的基础主题。
具体地,获取所述主题生成概率的数学表达为:
;
其中,表示主题生成概率,/>表示生成的基础主题,/>表示基础主题中的主题词,/>表示主题分布/>的先验分布参数,/>表示主题词分布结果的先验分布参数,/>为基础主题的数量,/>为总的待识别文档的数量。
在一些实施例中,基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题的步骤包括:
S2061:根据所述主题生成概率,确定所述待识别数据集生成的基础主题的中间数量。
S2062:基于待识别数据集中的待识别文档,获取中间数量的基础主题。即重复上述S201-S205步骤,直到获取目标数量的基础主题。
S2063:基于预设的困惑度指标,确定所述待识别数据集中基础主题的目标数量。
需要说明的是,困惑度表示待识别文档所属的主题数量的不确定性,当困惑度曲线达到最低或逐渐趋于稳定状态时,此时主题数量取值为较优主题数。因此,基于困惑度指标来确定待识别数据集中基础主题的目标数量,能够获取较优的主题数。具体地,获取困惑度的数学表达为:
;
其中,表示待识别数据集的困惑度曲线,/>为总的待识别文档的数量,/>表示待识别数据集D中任一待识别文档中的单词集合,/>表示待识别数据集中每一个词出现的概率,/>表示第d个待识别文档中出现的词语总数。
S2064:基于所述目标数量,对所述中间数量的基础主题进行筛选,获取目标数量的基础主题。具体地,筛选规则可以根据实际情况进行设置,如随机筛选等,此处不再赘述。
请参考图3,在一些实施例中,利用预设的组合主题子模型进行基础主题挖掘的步骤包括:
S301:将所述待识别数据集输入所述组合主题子模型,获取所述待识别数据集中待识别文档的上下文词嵌入数据、以及词袋数据。
需要说明的是,所述组合主题子模型是一种情景化主题模型,即具有上下文文档嵌入和较强的表达主题一致性的能力的主题模型。所述组合主题子模型包括:一用于获取上下文词嵌入数据的深度神经网络与一词袋网络,所述深度神经网络可以采用BERT(Bidirectional Encoder Representation from Transformer,一种预训练语言表示)网络结构。具体地,将待识别数据集分别输入所述组合主题子模型的深度神经网络与词袋网络中,获取所述深度神经网络输出的上下文词嵌入数据与词袋网络输出的词袋数据。可以理解的,上下文词嵌入数据表示深度神经网络(如BERT)的嵌入层(Embedding)输出的数据。
S302:对所述上下文词嵌入数据进行编码,获取编码数据。即利用所述组合主题子模型中的编码器网络对所述上下文嵌入数据进行编码,获取编码数据。通过对上下文词嵌入数据进行编码,便于后续进行语义相似度映射。
S303:基于所述词袋数据和所述编码数据,进行语义相似度映射,获取词潜在表示。即基于词袋数据与编码数据之间的语义相似度,建立词袋数据和编码数据之间的映射关系,确定每个词的词潜在表示。
S304:基于预设的高斯分布,对所述词潜在表示进行变分采样,获取变分采样数据。即高斯分布的基础上,对词潜在表示进行变分采样,获取变分采样数据。其中,表示数学期望,/>表示标准差。
S305:对所述变分采样数据进行解码,获取重建后的词袋表示,将重建后的词袋表示作为所述基础主题。具体地,将所述变分采样数据输入所述组合主题子模型中的解码网络进行解码,获取重建后的词袋表示,即使得解码器网络重建当前待识别文档的词袋表示,进而将重建后的词袋表示作为基础主题。词袋表示指词袋类型的数据,其包括多个词。
图4示出了组合主题子模型的结构示意图,如图4所示,组合主题子模型将一用于获取上下文词嵌入数据的深度神经网络与一词袋(BOW)网络相结合。利用深度神经网络的嵌入层获取待识别数据集的上下文词嵌入数据,利用词袋网络获取待识别数据集的词袋数据。然后利用组合主题子模型中的编码器网络对所述上下文嵌入数据进行编码,获取编码数据。再联合词袋数据与编码数据,进行语义相似度映射,获取词潜在表示。之后基于预设的高斯分布,对词潜在表示进行变分采样,获取变分采样数据。最后对变分采样数据进行解码,获取重建后的词袋表示,并将重建后的词袋表示作为所述基础主题。通过上述模型结构,能够产生或生成相比于传统的基于概率统计的主题模型更有意义和连贯的基础主题,模型的整体连贯性较优。
在一些实施例中,还可以利用狄利克雷分布主题子模型、组合主题子模型共同进行基础主题挖掘,将两个子模型的输出结果共同作为获取的基础主题。以此提高基础主题挖掘的准确度。
请参考图5,在一些实施例中,根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题的步骤包括:
S501:根据所述前沿指标体系,获取至少一个所述基础主题的指标性参数,所述指标性参数至少包括以下之一:新兴度参数、创新性参数、交叉性参数、关注度参数和中心性参数。
其中,新兴度参数指研究主题时间的新颖性,从时间维度上看越是新出现的主题越容易包含最新的研究内容,也更有可能成为研究前沿。创新性参数是指内容上的创新性,突出强调研究主题内容上的突破性与引领性。主题下的主题词越新颖,主题的创新性越高。交叉性参数是指学科交叉的广度。多学科的交叉促使科学研究成果跨领域应用的机会增加,出现创新性影响的概率加大。关注度参数是指研究内容在时间跨度内受关注水平,受关注程度高的内容能够代表当前阶段领域发展的水平,或是能够影响领域未来的发展趋势。因此,需要针对主题的受关注程度进行度量,分析主题的前瞻性。中心性参数是用来度量节点在网络中的重要性的参数。选取主题词作为节点,通过评价核心节点,以此揭示主题研究的热点。
S502:基于所述指标性参数,对所述基础主题进行筛选,获取至少一个所述前沿主题。
具体地,基于所述指标性参数和预先设置的阈值,对所述基础主题进行筛选,获取至少一个所述前沿主题。例如:对所述指标性参数中的新兴度参数、创新性参数、交叉性参数、关注度参数和中心性参数分别设置相应的阈值,若新兴度参数、创新性参数、交叉性参数、关注度参数和中心性参数均超出相应的阈值,则确定当前的基础主题为前沿主题等。通过基于上述指标性参数对基础主题进行筛选,能够获取精确度较高的前沿主题,具有较优的可参考性。
在一些实施例中,所述新兴度参数的获取步骤包括:
若当前基础主题的待识别文档的数据源为项目,则获取当前基础主题对应的所有项目的立项年份之和,基于所述立项年份之和与项目数量,获取所述新兴度参数。即新兴度参数(项目平均立项年份)=当前基础主题对应的所有项目的立项年份之和/项目数量。
若当前基础主题的待识别文档的数据源为论文,则获取当前基础主题对应的所有论文的论文出版年参数、参考文献出版年参数、施引文献出版年参数;基于预设的出版年权重、所述论文出版年参数、参考文献出版年参数、施引文献出版年参数,获取所述新兴度参数。
所述论文出版年参数为当前基础主题对应的所有论文的出版年份平均值与当前基础主题对应的论文的最新出版年份的比值,即论文出版年参数=当前基础主题对应的所有论文的出版年份平均值/当前基础主题对应的论文的最新出版年份。
所述参考文献出版年参数为当前基础主题对应的所有论文中参考文献的出版年份平均值与当前基础主题对应的论文中最新参考文献的出版年份的比值,即参考文献出版年参数=当前基础主题对应的所有论文中参考文献的出版年份平均值/当前基础主题对应的论文中最新参考文献的出版年份。
所述施引文献出版年参数为当前基础主题对应的所有论文中施引文献的出版年份的平均值与当前基础主题对应的论文中最新施引文献的出版年份的比值,即施引文献出版年参数=当前基础主题对应的所有论文中施引文献的出版年份的平均值/当前基础主题对应的论文中最新施引文献的出版年份。
在一些实施例中,通过检测主题词成为突发词概率的高低,计算判断主题创新性。进一步地,所述创新性参数的获取步骤包括:
利用预设的状态机模型,对所述基础主题中的主题词按照时间序列进行突发词检测,获取所述主题词中突发词的概率值;基于所述突发词的概率值,获取所述创新性参数。即采用预设的状态机模型,使用对时间序列数据进行建模,时间序列数据状态的转变标志着突发事件的出现,进而获取所述创新性参数。具体地,创新性参数=所述主题词中突发词的概率值之和。
基础主题内包含研究领域涉及的多少,可以反应研究内容的交叉性。因此,在一些实施例中,所述交叉性参数的获取步骤包括:基于当前基础主题对应的所有待识别文档的研究领域数量、以及当前基础主题对应的待识别文档的数量,获取所述交叉性参数。即交叉性参数(研究领域平均分类数量)=当前基础主题对应的所有待识别文档的研究领域数量/当前基础主题对应的待识别文档(项目/论文)的数量。
在一些实施例中,所述关注度参数的获取步骤包括:若当前基础主题的待识别文档的数据源为项目,则获取当前基础主题对应的所有项目的平均资助时长、平均资助强度、项目平均增长率和项目主题强度;基于预设的第一关注度权重、所述平均资助时长、平均资助强度、项目平均增长率和项目主题强度,获取所述关注度参数。例如:对平均资助时长、平均资助强度、项目平均增长率和项目主题强度分别设置不同的权重,进而获取所述关注度参数。可以理解的,项目是否受到关注和支持,可以从项目获得的资助时间长短、获得的资金数额高低、项目数量和经费的每年变化幅度以及项目数量的占比强度来反映,因此,通过获取当前基础主题对应的所有项目的平均资助时长、平均资助强度、项目平均增长率和项目主题强度,并基于预设的第一关注度权重、所述平均资助时长、平均资助强度、项目平均增长率和项目主题强度,获取所述关注度参数,能够获取精准度较高的关注度参数。
具体地,平均资助时长=当前基础主题对应的所有项目的资助时长之和/项目数量;
平均资助强度=当前基础主题对应的所有项目的资助资金之和/项目数量;
项目平均增长率=0.5*当前基础主题对应的项目的数量增长率+0.5*当前基础主题对应的项目的经费增长率;其中,当前基础主题对应的项目的数量增长率=(第二年数量-第一年数量)/第一年数量,当前基础主题对应的项目的经费增长率=(第二年经费-第一年经费)/第一年经费。
项目主题强度=当前基础主题对应的项目数量/待识别数据集中所有基础主题对应的项目数量。
若当前基础主题的待识别文档的数据源为论文,则获取当前基础主题对应的所有论文的平均被引次数、论文平均增长率、论文主题强度;基于预设的第二关注度权重、所述平均被引次数、论文平均增长率、论文主题强度,获取所述关注度参数。
具体地,平均被引次数=当前基础主题对应的所有论文的被引次数平均值/当前基础主题对应的所有论文的被引次数最大值。
论文平均增长率=当前基础主题对应的论文每年的增长率之和/当前基础主题对应的论文年份数量。其中,当前基础主题对应的论文每年的增长率=(当前基础主题对应的论文第二年的数量-当前基础主题对应的论文第一年的数量)/当前基础主题对应的论文第一年的数量。
论文主题强度=当前基础主题对应的论文数量/待识别数据集中所有基础主题对应的论文数量。
在一些实施例中,所述中心性参数的获取步骤包括:获取当前基础主题的所有主题词;统计每两个所述主题词在同一待识别文档中出现的次数,基于统计的次数,构建主题词共现矩阵;以所述主题词共现矩阵中的单词为节点、以单词之间的共现次数为边的权重,构建无向图;通过对所述无向图进行迭代处理,获取所述中心性参数。即通过对所述无向图进行迭代处理或计算,得到主题网络聚类系数中心度,主题网络聚类系数中心度越高,其对应的主题中心性越高,因此,将主题网络聚类系数中心度作为中心性参数,以此提高对中心性的衡量与判断。
请参考图6,为较好地实现研究前沿识别,本发明提出,基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。主题词功能识别和主题演化分析可以同时进行,也可以单独进行。其中,基于所述前沿主题,进行主题词功能识别的步骤包括:
S601:将所述前沿主题的一个或多个主题词输入预设的词功能识别模型进行分类,获取所述主题词的类别。
需要说明的是,所述词功能识别模型可以采用BERT模型进行词功能识别。通过将前沿主题的主题词输出BERT模型,获取短文本向量表示,再将短文本向量表示输入BERT模型的短文本分类网络进行分类,获取前沿主题的主题词的类别。其中,将前沿主题的主题词输出BERT模型,获取短文本向量表示的步骤包括:首先,对输入的短文本(前沿主题的主题词)进行预处理,预处理包括:词性还原、单复数转换、连接词切分、分词等;然后,对预处理后的短语进行特征提取,获取短语的特征向量,之后,对短语中每个单词的特征向量进行拼接,获取所述短文本向量表示。另外需要说明的是,BERT模型的短文本分类网络包括:嵌入层(Embedding)、编码层(Transformer encoder)、卷积层、池化层、融合层、全连接层和Softmax分类层。
关于短文本分类网络的训练步骤如下:
首先,获取训练集,所述训练集包括:多个训练样本、以及训练样本对应的真实类别,其中,/>表示第/>个训练样本,/>表示第/>个训练样本对应的真实类别,/>表示样本数量。
其次,对所述训练集进行预训练,获取预训练数据集,其中,/>为预训练后的第/>个训练样本的短文本向量,/>为预训练后的第/>个训练样本对应的真实类别,/>为预训练后的样本的数量。训练集/>的预训练的步骤包括分词、分词上下句预测等。
然后,对所述预训练数据集中的预训练数据进行特征提取,获取特征向量,其中,/>为第/>个预训练数据对应的句子级别的特征向量。
再将特征向量输入Softmax分类层,获取预测文本类别。
最后,基于预测文本类别和对应的真实类别之间的差距,对短文本分类网络进行迭代训练,获取较优的短文本分类网络。
另外,短文本分类网络的训练过程中,最大序列长度可设置为512。全连接层用于计算Sigmoid,可设置MLP(多层感知机,Multilayer Perceptron)隐层向量为128。网络训练时,batch_size(一次训练所抓取的样本的数量)可设置为20;学习速率可设置为0.0001;warm_up(预热学习率)比例设置为0.1;使用偏移修正的Adam(一种优化器)优化算法以使训练过程更快收敛并获得更小的损失;训练过程中可通过调整训练步数来提升模型学习效果,可最终设置学习步数10000步。短文本分类网络中底层的网络往往学习到比较通用的特征信息,而顶层的网络一般会学习到具体下游任务的特征信息。因此,在网络训练时,保留底部1-3层的网络权重参数,对于顶部4-12层的网络权重参数则适用预训练参数进行初始化并进行训练学习。以此提高词功能识别模型的精确度。
S602:对所述主题词的类别进行可视化显示。通过对主题词的类别进行可视化显示,能够便于用户对前沿主题的主题词的类别进行较清晰的识别。
需要提及的是,在实际应用过程中,当需要进行主题词功能识别时,用户选择已经训练好的词功能识别模型,对当前前沿主题下的主题词或关键词进行功能识别。首先,加载训练好的词功能识别模型;其次,加载当前前沿主题的主题词或关键词,并对当前前沿主题的主题词或关键词进行预处理(如分词等)和向量化表示,获取待输入数据;最后,将所述待输入数据输入词功能识别模型进行识别与分类,获取主题词的类别并进行可视化显示。
请参考图7,主题演化是描述前沿主题随时间的发展过程,展示不同时间下前沿主题之间的关联性,并从中发现前沿主题之间的演变关系。在一些实施例中,基于所述前沿主题,进行主题演化分析的步骤包括:
S701:按照所述前沿主题对应的待识别数据集中待识别文档的时间顺序,对所述待识别文档中前沿主题的主题词进行切片划分,获取多个时间切片,每个时间切片均包括一个或多个前沿主题的主题词。一个主题的主题词可能会出现在多个时间切片中。
S702:对每个时间切片下的主题词进行聚类,获取聚类结果。每个聚类结果用于表示演化路径图中的一个主题节点,主题节点名称为聚类中心词。对每个时间切片下的主题词进行聚类的方法可采用K-means(K均值聚类算法)方法等,例如:首先,采用预设的Word2Vec预训练模型获取主题词的向量表示;其次,使用将该向量表示作为K-means的输入,并进行聚类学习;在多个聚类模型中选择一较佳的聚类模型;最后获取最佳聚类模型中的聚类中心词及聚类结果,并使用聚类中的词语向量的平均值表示当前聚类向量,使用聚类中心词表示当前聚类名称或主题节点名称。
S703:获取相邻所述时间切片内任两个前沿主题之间的余弦相似度。并将所述余弦相似度作为主题演化的概率值,将该概率值作为演化路径图中的边的权重。不同年份间的前沿主题演化关系使用边来表示。
S704:基于所述聚类结果和所述余弦相似度,获取主题演化路径图。即将聚类结果表示演化路径图中的主题节点,主题节点名称为聚类中心词,并且,设置主题演化概率值的阈值,在主题演化路径中仅保留概率值大于该主题演化概率值的阈值的边,进而基于上述时间切片、主题节点、边、预设的主题演化权值,绘制或获取主题演化路径图,并进行可视化显示。实现对前沿主题的演化。通过对主题演化路径图进行可视化显示,可直接查看前沿主题随不同年份的演化情况及演化概率。
在一些实施例中,还可以将前沿主题的主题词划分为主题表征词(前沿主题的主题词)和主题关键词(前沿主题对应的待识别文档的关键词字段内容)这两种内容形式的主题词,基于内容形式的不同,可根据实际需要,对主题表征词和主题关键词中的任一内容形式的词进行主题演化分析。
关于主题演化分析,通过对抽象的主题分布、主题演化及主题内容下的统计分析进行页面可视化的展示,为专家或用户深入分析论文/项目的前沿主题提供了技术支持,提供具体化的主题数据展示。
在一些实施例中,本实施例提供的研究前沿识别方法还可用于进行多维度统计分析,包括:作者分析、机构分析、国家分析等。其中,作者统计分析指统计一个前沿主题下的作者数量,使用柱状图或其他统计图形进行展示,数据及可视化结果可供下载。机构统计分析指统计一个前沿主题下的机构数量,使用柱状图或其他统计图形进行展示,数据及可视化结果可供下载。国家统计分析指统计一个前沿主题下的国家数量,使用柱状图或其他统计图形进行展示,数据及可视化结果可供下载。
下面对本发明提供的研究前沿识别系统进行描述,下文描述的研究前沿识别系统与上文描述的研究前沿识别方法可相互对应参照。
请参考图8,本实施例提供的一种研究前沿识别系统,包括:
数据集获取模块801,用于获取待识别数据集;
基础主题挖掘模块802,用于将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋及语义相似度构建的模型;即基于狄利克雷分布主题子模型和组合主题子模型中的至少之一,挖掘基础主题,并获取表示基础主题的主题词(特征词)。
前沿主题挖掘模块803,用于根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;所述前沿主题挖掘模块803还用于进行指标定义。
前沿识别模块804,用于基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。本实施例中的研究前沿识别系统,能够获取精确度较高的前沿主题识别结果,便于为科技创新部署提供可参考性较高的决策支撑,可实施性较强。
请参考图9,本实施例提供的另一种研究前沿识别系统,包括:基础层、数据层、分析层和应用层。
所述基础层包括主机、服务器、网络与安全设备、存储与备份设备、高性能计算设备等硬件,是支撑系统运行与算法计算的基础设施。
所述数据层包括数据处理和数据存储库,为系统的应用提供数据支撑。数据处理流程涉及筛选、清洗、转换、集成等一系列操作。通过对原始数据中存在的缺失、偏差等缺陷问题进行分析与处理,完成数据清洗与规范化。数据存储库包括:应用数据库和实验数据库。将科技文献数据、领域词表等数据的预处理数据,存储到应用数据库。将词功能识别模型的功能识别训练数据,存储到实验数据库。
所述分析层包括:基础主题挖掘模块802、前沿主题挖掘模块803、前沿识别模块804,所述前沿识别模块804包括:用于基于主题时间序列进行主题聚类的主题演化分析单元8041和用于进行词功能识别模型训练与模型运行(模型推理)的主题词功能识别单元8042。
所述应用层用于数据的分析结果的可视化展示。通过图、表等形式为用户提供前沿主题分布、前沿主题挖掘、主题演化路径图、主题词/关键词功能识别、统计分析等服务。
在一些实施例中,基础主题挖掘模块802将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
按照预设的文档抽取概率,从待识别数据集中抽取一待识别文档;
将所述待识别文档输入所述基础主题模型中的狄利克雷分布主题子模型,获取所述待识别文档的主题分布,所述主题分布通过从所述待识别文档的第一狄利克雷分布中抽取得到;
从所述主题分布中抽取待识别数据集中任一个词的目标主题;
基于所述目标主题,在所述待识别数据集的第二狄利克雷分布中进行抽样,获取所述目标主题对应的主题词分布结果;
基于预设的抽样规则,从所述主题词分布结果中抽样出至少一个基础主题;进而基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题,所述语料库为所述待识别数据集对应的库。
在一些实施例中,基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题的步骤包括:
根据所述主题生成概率,确定所述待识别数据集生成的基础主题的中间数量;
基于待识别数据集中的待识别文档,获取中间数量的基础主题;
基于预设的困惑度指标,确定所述待识别数据集中基础主题的目标数量;
基于所述目标数量,对所述中间数量的基础主题进行筛选,获取目标数量的基础主题。
在一些实施例中,基础主题挖掘模块802将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
将所述待识别数据集输入所述组合主题子模型,获取所述待识别数据集中待识别文档的上下文词嵌入数据、以及词袋数据;
对所述上下文词嵌入数据进行编码,获取编码数据;
基于所述词袋数据和所述编码数据,进行语义相似度映射,获取词潜在表示;
基于预设的高斯分布,对所述词潜在表示进行变分采样,获取变分采样数据;
对所述变分采样数据进行解码,获取重建后的词袋表示,将重建后的词袋表示作为所述基础主题。
在一些实施例中,前沿主题挖掘模块803根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题的步骤包括:
根据所述前沿指标体系,获取至少一个所述基础主题的指标性参数,所述指标性参数至少包括以下之一:新兴度参数、创新性参数、交叉性参数、关注度参数和中心性参数;
基于所述指标性参数,对所述基础主题进行筛选,获取至少一个所述前沿主题。
在一些实施例中,所述新兴度参数的获取步骤包括:若当前基础主题的待识别文档的数据源为项目,则获取当前基础主题对应的所有项目的立项年份之和,基于所述立项年份之和与项目数量,获取所述新兴度参数;
若当前基础主题的待识别文档的数据源为论文,则获取当前基础主题对应的所有论文的论文出版年参数、参考文献出版年参数、施引文献出版年参数;基于预设的出版年权重、所述论文出版年参数、参考文献出版年参数、施引文献出版年参数,获取所述新兴度参数。
在一些实施例中,前沿识别模块804基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别的步骤包括:
将所述前沿主题的一个或多个主题词输入预设的词功能识别模型进行分类,获取所述主题词的类别,对所述主题词的类别进行可视化显示;
和/或按照所述前沿主题对应的待识别数据集中待识别文档的时间顺序,对所述待识别文档中前沿主题的主题词进行切片划分,获取多个时间切片,每个时间切片均包括一个或多个前沿主题的主题词;对每个时间切片下的主题词进行聚类,获取聚类结果;获取相邻所述时间切片内任两个前沿主题之间的余弦相似度;基于所述聚类结果和所述余弦相似度,获取主题演化路径图。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行研究前沿识别方法,该方法包括:获取待识别数据集;将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的研究前沿识别方法,该方法包括:获取待识别数据集;将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的研究前沿识别方法,该方法包括:获取待识别数据集;将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种研究前沿识别方法,其特征在于,包括:
获取待识别数据集;
将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋、以及上下文词之间的语义相似度构建的模型;
根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;
基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别;
将所述待识别数据集输入所述狄利克雷分布主题子模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
按照预设的文档抽取概率,从待识别数据集中抽取一待识别文档;
将所述待识别文档输入所述基础主题模型中的狄利克雷分布主题子模型,获取所述待识别文档的主题分布,所述主题分布通过从所述待识别文档的第一狄利克雷分布中抽取得到;
从所述主题分布中抽取待识别数据集中任一个词的目标主题;
基于所述目标主题,在所述待识别数据集的第二狄利克雷分布中进行抽样,获取所述目标主题对应的主题词分布结果;
基于预设的抽样规则,从所述主题词分布结果中抽样出至少一个基础主题;进而基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题,所述语料库为所述待识别数据集对应的库;
将所述待识别数据集输入所述组合主题子模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
将所述待识别数据集输入所述组合主题子模型,获取所述待识别数据集中待识别文档的上下文词嵌入数据、以及词袋数据;
对所述上下文词嵌入数据进行编码,获取编码数据;
基于所述词袋数据和所述编码数据,进行语义相似度映射,获取词潜在表示;
基于预设的高斯分布,对所述词潜在表示进行变分采样,获取变分采样数据;
对所述变分采样数据进行解码,获取重建后的词袋表示,将重建后的词袋表示作为所述基础主题。
2.根据权利要求1所述的研究前沿识别方法,其特征在于,基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题的步骤包括:
根据所述主题生成概率,确定所述待识别数据集生成的基础主题的中间数量;
基于待识别数据集中的待识别文档,获取中间数量的基础主题;
基于预设的困惑度指标,确定所述待识别数据集中基础主题的目标数量;
基于所述目标数量,对所述中间数量的基础主题进行筛选,获取目标数量的基础主题。
3.根据权利要求1所述的研究前沿识别方法,其特征在于,根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题的步骤包括:
根据所述前沿指标体系,获取至少一个所述基础主题的指标性参数,所述指标性参数至少包括以下之一:新兴度参数、创新性参数、交叉性参数、关注度参数和中心性参数,所述新兴度参数指研究主题时间的新颖性,所述创新性参数是指内容上的创新性,所述交叉性参数是指学科交叉的广度,所述关注度参数是指研究内容在时间跨度内受关注水平,所述中心性参数是用来度量主题词在主题网络中的重要性的参数;
基于所述指标性参数,对所述基础主题进行筛选,获取至少一个所述前沿主题。
4.根据权利要求3所述的研究前沿识别方法,其特征在于,
所述新兴度参数的获取步骤包括:若当前基础主题的待识别文档的数据源为项目,则获取当前基础主题对应的所有项目的立项年份之和,基于所述立项年份之和与项目数量,获取所述新兴度参数;
若当前基础主题的待识别文档的数据源为论文,则获取当前基础主题对应的所有论文的论文出版年参数、参考文献出版年参数、施引文献出版年参数;基于预设的出版年权重、所述论文出版年参数、参考文献出版年参数、施引文献出版年参数,获取所述新兴度参数。
5.根据权利要求1所述的研究前沿识别方法,其特征在于,基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别的步骤包括:
将所述前沿主题的一个或多个主题词输入预设的词功能识别模型进行分类,获取所述主题词的类别,对所述主题词的类别进行可视化显示;
和/或按照所述前沿主题对应的待识别数据集中待识别文档的时间顺序,对所述待识别文档中前沿主题的主题词进行切片划分,获取多个时间切片,每个时间切片均包括一个或多个前沿主题的主题词;对每个时间切片下的主题词进行聚类,获取聚类结果;获取相邻所述时间切片内任两个前沿主题之间的余弦相似度;基于所述聚类结果和所述余弦相似度,获取主题演化路径图。
6.一种研究前沿识别系统,其特征在于,包括:
数据集获取模块,用于获取待识别数据集;
基础主题挖掘模块,用于将所述待识别数据集输入预设的基础主题模型进行基础主题挖掘,获取一个或多个基础主题,所述基础主题模型至少包括以下之一:狄利克雷分布主题子模型、组合主题子模型,所述组合主题子模型为基于词袋及语义相似度构建的模型;
前沿主题挖掘模块,用于根据预设的前沿指标体系,对所述基础主题进行前沿主题挖掘,获取至少一个前沿主题;
前沿识别模块,用于基于所述前沿主题,进行主题词功能识别和/或主题演化分析,完成研究前沿识别;
所述基础主题挖掘模块将所述待识别数据集输入所述狄利克雷分布主题子模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
按照预设的文档抽取概率,从待识别数据集中抽取一待识别文档;
将所述待识别文档输入所述基础主题模型中的狄利克雷分布主题子模型,获取所述待识别文档的主题分布,所述主题分布通过从所述待识别文档的第一狄利克雷分布中抽取得到;
从所述主题分布中抽取待识别数据集中任一个词的目标主题;
基于所述目标主题,在所述待识别数据集的第二狄利克雷分布中进行抽样,获取所述目标主题对应的主题词分布结果;
基于预设的抽样规则,从所述主题词分布结果中抽样出至少一个基础主题;进而基于预设的语料库的主题生成概率、以及预设的困惑度指标,获取目标数量的基础主题,所述语料库为所述待识别数据集对应的库;
所述基础主题挖掘模块将所述待识别数据集输入所述组合主题子模型进行基础主题挖掘,获取一个或多个基础主题的步骤包括:
将所述待识别数据集输入所述组合主题子模型,获取所述待识别数据集中待识别文档的上下文词嵌入数据、以及词袋数据;
对所述上下文词嵌入数据进行编码,获取编码数据;
基于所述词袋数据和所述编码数据,进行语义相似度映射,获取词潜在表示;
基于预设的高斯分布,对所述词潜在表示进行变分采样,获取变分采样数据;
对所述变分采样数据进行解码,获取重建后的词袋表示,将重建后的词袋表示作为所述基础主题。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述研究前沿识别方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述研究前沿识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310183787.9A CN116415593B (zh) | 2023-02-28 | 2023-02-28 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310183787.9A CN116415593B (zh) | 2023-02-28 | 2023-02-28 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116415593A CN116415593A (zh) | 2023-07-11 |
CN116415593B true CN116415593B (zh) | 2023-10-31 |
Family
ID=87057338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310183787.9A Active CN116415593B (zh) | 2023-02-28 | 2023-02-28 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415593B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932686B (zh) * | 2023-09-19 | 2024-01-23 | 苏州元脑智能科技有限公司 | 主题挖掘方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021222A (zh) * | 2016-05-09 | 2016-10-12 | 浙江农林大学 | 一种科研文献主题演化的分析方法和装置 |
CN112633011A (zh) * | 2020-12-30 | 2021-04-09 | 清华大学 | 融合词语义与词共现信息的研究前沿识别方法及设备 |
CN115017315A (zh) * | 2022-06-09 | 2022-09-06 | 北京市科学技术研究院 | 一种前沿主题识别方法、系统及计算机设备 |
CN115099188A (zh) * | 2022-06-22 | 2022-09-23 | 南京邮电大学 | 一种基于词嵌入和生成式神经网络的主题挖掘方法 |
CN115713085A (zh) * | 2022-10-31 | 2023-02-24 | 北京市农林科学院 | 文献主题内容分析方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013138859A1 (en) * | 2012-03-23 | 2013-09-26 | Bae Systems Australia Limited | System and method for identifying and visualising topics and themes in collections of documents |
US11636355B2 (en) * | 2019-05-30 | 2023-04-25 | Baidu Usa Llc | Integration of knowledge graph embedding into topic modeling with hierarchical Dirichlet process |
-
2023
- 2023-02-28 CN CN202310183787.9A patent/CN116415593B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021222A (zh) * | 2016-05-09 | 2016-10-12 | 浙江农林大学 | 一种科研文献主题演化的分析方法和装置 |
CN112633011A (zh) * | 2020-12-30 | 2021-04-09 | 清华大学 | 融合词语义与词共现信息的研究前沿识别方法及设备 |
CN115017315A (zh) * | 2022-06-09 | 2022-09-06 | 北京市科学技术研究院 | 一种前沿主题识别方法、系统及计算机设备 |
CN115099188A (zh) * | 2022-06-22 | 2022-09-23 | 南京邮电大学 | 一种基于词嵌入和生成式神经网络的主题挖掘方法 |
CN115713085A (zh) * | 2022-10-31 | 2023-02-24 | 北京市农林科学院 | 文献主题内容分析方法及装置 |
Non-Patent Citations (2)
Title |
---|
2013-2018年全球玉米育种研究发展态势分析;齐世杰 等;《中国农业科技导报》(第2期);第12-21页 * |
基于主题扩散演化滞后的研究前沿趋势预测方法研究;刘自强 等;《情报理论与实践》;第1-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116415593A (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107085581B (zh) | 短文本分类方法和装置 | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
CN110750640B (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN109933686B (zh) | 歌曲标签预测方法、装置、服务器及存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
KR20200007713A (ko) | 감성 분석에 의한 토픽 결정 방법 및 장치 | |
Pembeci | Using word embeddings for ontology enrichment | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN112464656A (zh) | 关键词抽取方法、装置、电子设备和存储介质 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN116415593B (zh) | 一种研究前沿识别方法、系统、电子设备及存储介质 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN111540470B (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN115481219A (zh) | 一种基于语法序列嵌入模型的售电公司评价情感分类方法 | |
Zanuz et al. | Fostering judiciary applications with new fine-tuned models for legal named entity recognition in portuguese | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Achilles et al. | Using Surface and Semantic Features for Detecting Early Signs of Self-Harm in Social Media Postings. | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
Nguyen et al. | A model of convolutional neural network combined with external knowledge to measure the question similarity for community question answering systems | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
Lai et al. | An unsupervised approach to discover media frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |