CN115017315A - 一种前沿主题识别方法、系统及计算机设备 - Google Patents
一种前沿主题识别方法、系统及计算机设备 Download PDFInfo
- Publication number
- CN115017315A CN115017315A CN202210649852.8A CN202210649852A CN115017315A CN 115017315 A CN115017315 A CN 115017315A CN 202210649852 A CN202210649852 A CN 202210649852A CN 115017315 A CN115017315 A CN 115017315A
- Authority
- CN
- China
- Prior art keywords
- document
- matrix
- similarity
- text
- literature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种前沿主题识别方法、系统及计算机设备。所述方法包括:选择面向领域的文献作为数据集,将数据集进行预处理;根据文献共被引关系,构建引文耦合矩阵并进行标准化,生成文献关系标准矩阵;利用LDA模型进行文本建模,生成文献相似矩阵;将文献相似矩阵和文献关系标准化矩阵进行线性融合,形成文本相似矩阵;利用社团发现,得到主题簇,对所述主题簇进行可视化描述,得到对所述面向领域的文献的前沿主题的识别结果。本发明的方法在同时分析结构和语义层面有较高的效率,在关键词消歧、人工解读方面有较高的准确度,克服了以往单一维度分析文本的弊端,同时解决了文本相似度、融合的问题,可广泛应用于结构和语义的文本分析中。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种前沿主题识别方法、系统及计算机设备。
背景技术
当今世界正处在科技创新突破和新科技革命的前夜,科技发展的交叉性、复杂性和多样性特征日益显著,学科间、门类间的交叉与融合日渐普遍。科学研究前沿(Scientific Research Front)是一个研究领域的最新趋势和概念现状。从上世纪六十年代就开始了对研究前沿的探索,但针对科学前沿的研究热潮是在2005年之后才兴起。它涵盖内容广泛,综合了科学学、图书馆学、情报学、人工智能、内容可视化与网络方面的学科内容。近年来,前沿研究的学术关注度不断提高,与其相同或相近的术语还有新兴主题/领域研究、话题跟踪、趋势探测、科学研究热点、颠覆性技术预测、突破性技术预测等。
科学研究前沿往往来源于新的科学发现或科学进展,而这些新的科学发现或进展有可能快速地吸引领域内科学家的注意,科学家引用原始论文继续发表论文使这个领域呈现出膨胀的趋势。因此,研究前沿的产生往往伴随着相应的文献计量学特征出现,典型的有:新主题词大量出现,而且增速很大;词间关系或主题关系受到其他学科的影响而发生变化;主题词含义由于新现象的出现而含义发生变化;某主题的文章发表数量发生异常变化,可能突增或者突减;代表新领域的新期刊可能会出现;科学引文网络或期刊网络发生异常变化、知识结构发生重大变化等。对于这些外部特征的监测有可能探测到可能的研究前沿。
长期以来,人们开展科学前沿探测的方法有德尔菲调查法、文献计量法等,随着智能技术的发展,机器学习、知识图谱等技术和方法也逐步应用于前沿识别,以上方法都在研究实践中得到广泛应用。从方法归类上分为基于引文聚类、基于主题词突增的计量方法;另一类是围绕指标含义的定量化表述及筛选(例如,新颖性、创新性、前瞻性等)。随着数据源的不断丰富,面临着多种数据源,数据互补和校正的视角,基于异源数据进行融合探测科技发展的研究开始兴起,从单一的论文转向论文、专利、基金项目、报告等开源数据的融合,而这种融合不是单一的在计量特征上的融合,而是深入知识单元层面的融合。
而在计量方法中,针对科学前沿研究的相关方法基本上都是基于论文引文或主题词特征的高共现或关系聚类,通过时间演化,揭示相关领域的科学前沿。这类高共现或强关系通常表明行动者彼此之间具有高度的互动,在某些存在的互动关系形态上较亲密。因此,在科学前沿探测中更易被识别确认。
同时,由于学科知识的复杂性,研究前沿探测中也出现了一些现象值得深入研究,如单一方法的运用,很多数据挖掘算法通常会将关注数据模型的一个方面,其他维度予以舍弃,但实际上,其他维度所隐藏的重要信息代表的情况,特别是那些低支持度、高置信度的主题更值得关注;其次,在研究前沿的主题聚类过程中,由于共词分析采用的是高频词,那些相对低频的主题所组成的类团,在聚类中无法体现,导致无法反映学科全貌;最后,单一方法或关系揭示出的微观内容是片面而有限的,在开源情报数据环境中,面向领域的研判和预警需要更多的数据信息进行聚合、融合。
发明内容
本发明实施例公开一种前沿主题识别方法、系统及计算机设备,用以解决传统计量层面的分析无法深入语义,以及主题发现层面无法进行更好解读的问题。
第一方面,本发明实施例提出一种前沿主题识别方法,包括:步骤1,选择面向领域的文献作为数据集,并将所述数据集进行预处理;步骤2,根据文献共被引关系,构建引文耦合矩阵并进行标准化,生成文献关系标准矩阵;步骤3,利用LDA模型进行文本建模,得到文档的主题概率分布,并从内容层面计算文献相似度,生成文献相似矩阵;步骤4,将所述文献相似矩阵和文献关系标准化矩阵进行线性融合,形成文本相似矩阵;步骤5,利用社团发现,得到主题簇,对所述主题簇进行可视化描述,得到对所述面向领域的文献的前沿主题的识别结果。
第二方面,本发明实施例提出一种前沿主题识别系统,包括:预处理模块,用于选择面向领域的文献作为数据集,并将所述数据集进行预处理;文献关系矩阵生成模块,用于根据文献共被引关系,构建引文耦合矩阵并进行标准化,生成文献关系标准矩阵;文献相似矩阵生成模块,用于利用LDA模型进行文本建模,得到文档的主题概率分布,并从内容层面计算文献相似度,生成文献相似矩阵;数据融合模块,用于将所述文献相似矩阵和文献关系标准化矩阵进行线性融合,形成文本相似矩阵;数据分析模块,用于利用社团发现,得到主题簇,并对所述主题簇进行可视化描述,得到对所述面向领域的文献的前沿主题的识别结果。
第三方面,本发明实施例提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的前沿主题识别方法。
第四方面,本发明实施例提出一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如上述实施例所述的前沿主题识别方法。
本发明实施例公开的前沿主题识别方法、系统及计算机设备,面向文本的结构和语义融合,以“实体-关系”、“语义-结构”相结合的思想,基于文本建模、相似度构建、语义结构融合、主题自动识别,进行前沿主题的探测,同时进行结构分析方法研究,探索情报研究中的工程实现问题。本发明的前沿主题识别方法在同时分析结构和语义层面有较高的效率,在关键词消歧、人工解读方面有较高的准确度,克服了以往方法中单一维度分析文本的弊端,同时解决了文本相似度、融合的问题,可广泛应用于结构和语义的文本分析中。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的前沿主题识别方法的处理流程图;
图2为本发明一具体实施例中的基于LDA建模得到的Topic-doc矩阵的部分截图;
图3为本发明一具体实施例中的文献相似矩阵的部分截图;
图4为本发明一具体实施例中的应用社团识别算法生成的主题可视化的效果示意图;
图5为本发明实施例的前沿主题识别系统的结构示意图;
图6本发明实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
在本发明中,需要理解的是:
NPG:Nature Publication Group,自然出版集团。
NI:Nature Index,自然指数,是依托于全球顶级期刊,统计各高校、科研院所(国家)在国际上最具影响力的研究型学术期刊上发表论文数量的数据库。
LDA:Latent DirichletAllocation,隐含狄利克雷分布,是一个集合概率模型,主要用于处理离散的数据集合,目前主要用在数据挖掘中的文本挖掘(Text Mining)和自然语言处理中,主要是用来降低维度的。
JCR:Journal Citation Reports,期刊引文报告。
C-value:C-value方法的基本思想是先用语言规则得到候选术语集,然后使用统计信息来进行过滤。
TF-IDF:Term Frequency-Inverse Document Frequency,词频-逆文档频率,是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
LSA:Latent Semantic Analysis,潜在语义分析。
LSI:Latent Semantic Index,潜在语义索引。
PLSA:Probabilitistic Latent Semantic Analysis,概率潜在语义分析。
ESI:Essential Science Indicators,基本科学指标数据库。
引文耦合网络:研究某领域论文参考文献因引用关系形成的网络。若两篇文档拥有共同的参考文献越多,则两篇文献的引文耦合度越大,静态关联程度越高,其相关性越强。引文耦合强度愈大,说明两篇文献的内容关联、学科关联越紧密。
社团识别:一般由关键词、文献、作者等文献著录实体,因共现、引用等关系形成的复杂网络,通过聚类等算法以及主题识别相关的方法分析。
聚类:聚类是无监督学习的典型算法,不需要标记结果。试图探索和发现一定的模式,用于发现共同的群体,按照内在相似性将数据划分为多个类别使得内内相似性大,内间相似性小。
文本相似度:指在挖掘文本时文本与文本之间的相似程度。
结构分析:一般指文本或文献的外部特征分析。
目前来讲,在语义和结构结合层面,目前存在着要么图情领域围绕科学计量层面进行文献外部特征描述,包括关键词、作者、引文、期刊等的共现、引用等关系分析;要么计算机领域围绕语义和内容分析,都存在着维度的缺失;另外,在传统特征提取和文本相似度层面,还存在着以下弊端:形成的主题簇是由文章组成的,需要一套识别方法确定聚类文献的内容特征;对于词的预处理要求高,无法应对词义消歧的问题;仅仅利用统计层面的词频或者共词频率,较少的考虑到主题、主题词、文章三方面的语义关系。
基于以上缺陷,本发明实施例以“实体-关系”、“语义-结构”相结合的思想,基于文本建模、相似度构建、语义结构融合、主题自动识别,进行前沿主题的探测,同时进行结构分析方法研究,探索情报研究中的工程实现问题,并提出当前研究主题、交叉融合领域等,以期对面向领域的知识结构内容进行更加全面、深入、细致地解读,以解决传统计量层面的分析无法深入语义,以及主题发现层面无法进行更好的解读的问题,从而帮助科研人员发现热点、未来研究方向以及前沿领域。
图1为本发明实施例的前沿主题识别方法的处理流程图。如图1所示,本实施例的方法包括:
步骤S101,选择面向领域的文献作为数据集,并将所述数据集进行预处理;
步骤S102,根据文献共被引关系,构建引文耦合矩阵并进行标准化,生成文献关系标准矩阵;
步骤S103,利用LDA模型进行文本建模,得到文档的主题概率分布,并从内容层面计算文献相似度,生成文献相似矩阵;
步骤S104,将所述文献相似矩阵和文献关系标准化矩阵进行线性融合,形成文本相似矩阵;
步骤S105,利用社团发现,得到主题簇,对所述主题簇进行可视化描述,得到对所述面向领域的文献的前沿主题的识别结果。
具体实施时,在所述步骤S101中,将所述数据集进行预处理,具体包括将文本进行向量化,生成文本-特征词矩阵以及文本-引文矩阵。文本向量化是进行自然语言处理,例如语义分析和数据融合的基本前提。
在步骤S102中,为避免共被引引起的时滞性,在文献关系建立上采用了引文耦合,并进行标准化。根据文献的耦合关系,计算两篇文献的标准共引度:
其中,Nx为文献x的参考文献数量,Ny为文献y的参考文献数量,Nxy为文献x与文献y共同的参考文献数量。
在文献内容分析层面,Whittaker最早提出共词分析假设前提,传统的共词分析借助包容指数和邻近指数、战略坐标、多维尺度等方法,广泛应用于揭示研究领域主题发展,利用共词分析方法进行了面向学科领域的研究热点、研究态势;近年来,研究人员通过对关键词加权、利用增补词典的分词技术基于作者关键词增加候选关键词、结合C-value、TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)改进关键词抽取计算模型以综合语言学规则及统计信息弥补单词语的语义度等方法进行文本向量的表达。挖掘潜在语义的知识模型有LSA(Latent Semantic Analysis,潜在语义分析)/LSI(LatentSemantic Index,潜在语义索引)、PLSA(Probabilitistic Latent Semantic Analysis,概率潜在语义分析)、LDA(Latent DirichletAllocation,隐含狄利克雷分布),PLSA较之LSA定义了概率模型,假设更符合文本特性。PLSA本身随着文档和主题词数量增加成线性增加,变得越来越庞大。Blei提出的LDA基于三层贝叶斯模型是完全概率模型,较之PLSA更加完备;其参数空间规模与隐含主题和词的数量决定,与文档规模无关,因此,LDA更适合在大规模语料库上构建模型。
LDA模型是文本建模中主题模型的一种,同时也是一个具有里程碑意义的主题模型,因为它首次正式将主题以隐变量的形式引入,形成一个三层贝叶斯模型,并且相比于之前和它最接近的PLSA文本模型,LDA的主题选取不再受训练集文本内容的束缚,是一个完全非监督且依据多个主题进行聚类的机器学习、数据挖掘领域的算法。
利用LDA模型对文本集建模可以得到文献-主题、主题-词分布矩阵,可以挖掘出文本潜在的语义知识。本发明实施例中,关键词的抽取来自于标题、摘要,并与作者自有关键词进行去重筛选清洗。建模过程选用Gibbs随机抽样算法,选用困惑度来确定最佳主题数,显示文本集中隐含主题间相对强弱的参数α=50/K,刻画隐含主题自身在词语上概率分布的参数β=0.01,主题数量依据计算模型的困惑度选取最优值。
基于LDA模型的文章映射的主题向量为di=(t1,t2,……,tK),两篇文章的相似度计算采用两个主题向量的余弦值:
其中,di和dj分别表示两篇文献映射的主题向量,Sim(di,dj)是基于LDA模型主题向量的余弦值测度的两篇文献的相似度。
在得到的文献相似矩阵中,如表1所示:
表1文献相似矩阵
doci | docj | sim |
… | … | … |
… | … | … |
… | … | … |
其中,doci与docj表示文献的唯一标识,sim是基于LDA模型主题向量的余弦值测度的文献之间的相似度。
考虑到引用动机的存在,并非标注的参考文献都是与文章核心思想相匹配的,基于这个假设,本发明在引文分析的基础上,考虑了文章隐含的语义。从另一个层面来讲,科技文献中所包含的信息不仅是词的集合,完全的识别文献中包含的主题内容,引文作为一个重要组成要素,很自然的应该参与到文献的主题内容构成中,将引文引入主题内容不仅能够丰富主题,更能年全方位的展示主题间的关联性。深层语义算法中有一大类是基于引文网络的算法,但基于引文的文献内容主题相似度的测算存在一定问题,一方面是由于出版时间相近等原因,造成两者没有引用关系;另一方面,两篇文献确实存在引用关系,但从引用动机的假设考虑,引用关系或许是无实际意义引用。
本发明实施例中,将步骤S102中基于引文耦合形成的文献关系标准矩阵与步骤S103中基于LDA形成的文献相似矩阵进行语义及结构融合。基于引文耦合网络(标准化值>=0.06),根据语义信息,对网络关联关系进行调整,并调整其权重λ:
其中,λ为设定的权重,为变量,在实际工作中,本领域技术人员可以根据需求和工作经验随时调动;SimLDA表示所述文献相似矩阵中的文献-文献相似值Sim值;citecouple表示所述文献关系标准化矩阵中的标准共引度;cite(i,j)是指任意两个节点i,j(节点是文献的映射)是否在基本引用网络中相邻,若cite(i,j)=0则不相邻,若cite(i,j)>0则相邻;
a和b为所述文献相似矩阵中的相似度的两个界限值,并且,查看基于构建的LDA建模及文献相似矩阵,可以确定a和b的值。
查看基于构建的LDA建模及文献相似矩阵,按相似度由高到低的顺序排序,选取top10%,top10%中最小值即为a;
查看基于构建的LDA建模及文献相似矩阵,按相似度由低到高降序排列,选取top10%,top10%中最大值即为b。
基于基本网络,如果两个节点间没有链接,且两点间的语义相似度高于所有节点两两间相似度的top10%(记做a,按相似度从大到小降序排列),则在基本网络的基础上添加链接;如果两个节点间有链接,且两点间的语义相似度高于基本网络中相邻节点的语义相似度的top10%(记做b,按相似度从小到大降序排列),则在基本网络的基础上添加链接。
遍历数据集,找出基于构建的LDA建模及文献相似矩阵中匹配的文献间的Sim值,并将其加入库表,形成如下表2的形式,以实现对网络关联关系的调整。
表2依据调整关联关系网络形成的新库表
ESI_ID1 | ESI_ID2 | normalized_cocited | sim |
5 | 7 | 0.08 | 0.95 |
在一个具体实施例中,表3为通过引文共被引得到的数据集,即基于引文耦合形成的文献关系标准矩阵,如下所示:
表3通过引文共被引得到数据集(文献关系标准矩阵)
ESI_ID1 | ESI_ID2 | normalized_cocited | |
1 | 7977 | 23008 | 0.119098266835083 |
2 | 8834 | 36261 | 0.0683408533502272 |
3 | 16079 | 46814 | 0.108253175473055 |
4 | 28990 | 44633 | 0.107211253483779 |
5 | 6962 | 12988 | 0.109108945117996 |
6 | 32334 | 33719 | 0.0816496580927726 |
7 | 28454 | 49202 | 0.0603984338889136 |
8 | 43396 | 46823 | 0.114285714285714 |
9 | 10672 | 35566 | 0.0753778361444409 |
表4为通过余弦值对基于LDA形成的文献相似矩阵,如下所示:
表4文献相似矩阵
利用线性融合公式(3)将上述两个矩阵(表3和表4所示)进行语义及结构融合。基于引文耦合网络(标准化值>=0.06),根据语义信息,对网络关联关系进行调整,并调整其权重λ。
本具体实施例中,暂将λ定为0.5,当然,可将λ设为变量,随时调动。基于基本网络,如果两个节点间没有链接,且两点间的语义相似度高于所有节点两两间相似度的top10%(记做a,按相似度从小到大降序排列),则在基本网络的基础上添加链接;如果两个节点间有链接,且两点间的语义相似度高于基本网络中相邻节点的语义相似度的top10%(记做b,按相似度从小到大降序排列)在基本网络的基础上添加链接。
遍历数据集后,即进行线性融合后,形成如下表5的形式:
表5融合后的文献相似度
doci | docj | sim |
1 | 2 | x |
1 | 3 | y |
… | … | … |
其中x,y均为0~1的数值。
具体实施时,在步骤S105中,利用社团发现,得到主题簇,对所述主题簇进行可视化描述,进行结构分析,从而得到对所述面向领域的文献的前沿主题的识别结果,以对当前研究热点和前沿方向进行识别。
社团划分与传统聚类的区别在于,社团划分注重复杂网络中节点与链接关系,传统聚类侧重文本内容本身的近似性。将数据源进行引文网络矩阵进行标准化;基于LDA主题模型,从内容层面计算了文献的相似度,得到文献-文献关系矩阵;基于引用关系与语义内容融合网络,从语义和结构两个方面综合分析,利用大规模社团发现Louvain算法进行社团划分,该算法是一种基于模块度的图算法模型,与普通的基于模块度和模块度增益不同的是:该算法速度很快,而且对一些点多边少的图,进行聚类效果特别明显,从画图的效果来说,速度提升很明显。Louvain算法过程分为两个阶段:第一阶段称为Modularityoptimization,主要是将每个节点划分到与其邻接的节点所在的社区中,以使得模块度的值不断变大;第二阶段称为CommunityAggregation,主要是将第一步划分出来的社区聚合成为一个点,即根据上一步生成的社区结构重新构造网络。重复以上的过程,直到网络中的结构不再改变为止。
在利用社团发现得到主题簇后,将进行主题可视化及描述。类团间和类团内的关系由上面步骤形成两个矩阵进行融合得到的融合矩阵,是描述节点与节点之间关系,可以得到类团内部文献和文献之间的关系以及类团外部的联系。关于类团的中心节点的坐标,这个可以随机选择一个节点,计算这个类团中度数最高的节点(链接最多的节点),依据整体布局,计算的是每个节点的位置,类团内的链接可依据以计算形成的相似矩阵得到。
类团间的链接,需要进行以下计算:假设两个类团A、B,A类团有x个节点,B类团有y个节点,则如果A、B两个类团节点均有链接,那么其链接的最大值为x*y,设实际链接数为z,则z/(x*y)则是归一化的类团间的链接,以一个类团为中心(假设该类团用M表示),计算与M相连类团的归一化链接,其布局可依据与M类团的距离与类团大小成反比进行。这样的方法可以先确定一个类团的中心节点的位置,以此确定其他中心节点的位置。关于文献的类团、领域、主题的对应关系,在形成的过程文件结果中可以查到,由此可以进行类团主题的自动描述。
以下通过一个具体实施例,再次阐述下本发明的前沿主题识别方法。
本发明实验数据来源选自Nature Index指标覆盖的68种期刊2014-2016年的数据,共计论文17万余篇,为避免共被引引起的时滞性,在文章关系建立上采用了引文耦合,并进行标准化。每年的数据分为两个表,一个表是当年各篇论文的主题及外部特征,另一个表是论文耦合关系及标准共引度,在数据库表中共有三个字段,ESI_ID1与ESI_ID2代表文献集中的任意两篇文献,用normalised_cocited表示标准共引度。
基于LDA建模及文献相似矩阵构建:
本实验选择主题数量K=50,迭代次数为2000次。得到Topic-doc(主题-文档)截图如图2所示。
基于LDA模型,根据上述的公式(2)计算文献之间的相似度,生成文献相似矩阵,如图3所示。文献相似矩阵中,doci与docj表示文档的唯一标识,sim是基于LDA模型主题向量的余弦值测度的文档的相似度。
最后,应用社团识别及主题可视化得到前沿主题识别结果,如图4所示,为应用社团识别算法分别生成的2014、2015、2016年的可视化效果图。
需要说明的是,本发明实施例中,选取了物理学领域、化学领域、生命科学领域、交叉学科领域以及地球与环境科学领域共5个领域的文献数据,作为数据集进行建模分析。本领域技术人员可以理解的是,图4仅仅为可视化效果的示意图,不同领域的数据及其社团划分、可视化描述的结果可以从效果图的不同灰度上进行区分。在实际应用中,本领域技术人员可以通过颜色区分、形状区分或者透视区分等各种方式很直观的看到前沿主题识别的可视化结果。
参考以上效果图,以2015年生命科学解析为例,从社团识别算法生成的可视化图中,本领域技术人员就可以分析出:
(1)整个生命科学研究的大类其热点演变的特点是从基础研究到临床转化研究发展;
(2)生物学大类中,蛋白质科学的研究已成规模,从分子层面用分子动力学开展蛋白质结构的模拟与预测、后基因组学与蛋白质科学交叉主题、生物燃料是其三个重要前沿方向;
(3)医学大类中,癌症研究是热点,主题覆盖范围最大,脑科学、神经系统疾病的研究、自身免疫性疾病以及以诱导多能干细胞为主要主题词的再生医学都成为当年的研究热点和前沿;
(4)社会医学研究更多的关注了公众健康,出现卫生保健、自测健康、心理健康等有关预防保健的特征词;
……等等。
因此,通过以上对前沿主题识别方法的实施例的描述,可以得知,本发明的方法在同时分析结构和语义层面有较高的效率,在关键词消歧、人工解读方面有较高的准确度,克服了以往方法中单一维度分析文本的弊端,同时解决了文本相似度、融合的问题,可广泛应用于结构和语义的文本分析中。
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的前沿主题识别系统进行介绍。该系统的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”和“单元”,可以是实现预定功能的软件和/或硬件。尽管以下实施例所描述的模块较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5为本发明实施例的前沿主题识别系统的结构示意图。如图5所示,本实施例的前沿主题识别系统包括:
预处理模块501,用于选择面向领域的文献作为数据集,并将所述数据集进行预处理;
文献关系矩阵生成模块502,用于根据文献共被引关系,构建引文耦合矩阵并进行标准化,生成文献关系标准矩阵;
文献相似矩阵生成模块503,用于利用LDA模型进行文本建模,得到文档的主题概率分布,并从内容层面计算文献相似度,生成文献相似矩阵;
数据融合模块504,用于将所述文献相似矩阵和文献关系标准化矩阵进行线性融合,形成文本相似矩阵;
数据分析模块505,用于利用社团发现,得到主题簇,并对所述主题簇进行可视化描述,得到对所述面向领域的文献的前沿主题的识别结果。
以上各模块的具体实施可以参见上述方法实施例的描述,重复之处不再赘述。此外,尽管在上文详细描述中提及了前沿主题识别系统的若干单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。同样,上文描述的一个单元的特征和功能也可以进一步划分为由多个单元来具体化。
本发明实施例还提供一种计算机设备,如图6所示,包括存储器61、处理器62及存储在存储器61上并可在处理器62上运行的计算机程序,所述处理器62执行所述计算机程序时,实现如上述实施例所述的前沿主题识别方法。
本发明实施例还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如上述实施例所述的前沿主题识别方法。
本发明实施例公开的前沿主题识别方法、系统及计算机设备、存储介质,面向文本的结构和语义融合,以“实体-关系”、“语义-结构”相结合的思想,基于文本建模、相似度构建、语义结构融合、主题自动识别,进行前沿主题的探测,同时进行结构分析方法研究,探索情报研究中的工程实现问题。本发明的前沿主题识别方法在同时分析结构和语义层面有较高的效率,在关键词消歧、人工解读方面有较高的准确度,克服了以往方法中单一维度分析文本的弊端,同时解决了文本相似度、融合的问题,可广泛应用于结构和语义的文本分析中。并且,本发明所实现的模型是一种结合引用和语义信息进行前沿主题识别及结构探测的模型,能够将领域结构、前沿方向和热点以可视化的形式提供给科研人员,为科技工作者对领域研究内容进行全面、细致、深入地解读,发现热点、未来研究方向以及前沿领域提供一个便利、高效的工具。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种前沿主题识别方法,其特征在于,包括:
步骤1,选择面向领域的文献作为数据集,并将所述数据集进行预处理;
步骤2,根据文献共被引关系,构建引文耦合矩阵并进行标准化,生成文献关系标准矩阵;
步骤3,利用LDA模型进行文本建模,得到文档的主题概率分布,并从内容层面计算文献相似度,生成文献相似矩阵;
步骤4,将所述文献相似矩阵和文献关系标准化矩阵进行线性融合,形成文本相似矩阵;
步骤5,利用社团发现,得到主题簇,对所述主题簇进行可视化描述,得到对所述面向领域的文献的前沿主题的识别结果。
2.根据权利要求1所述的前沿主题识别方法,其特征在于,在所述步骤1中,将所述数据集进行预处理,包括:
将文本进行向量化,生成文本-特征词矩阵以及文本-引文矩阵。
4.根据权利要求1所述的前沿主题识别方法,其特征在于,在所述步骤3中,利用LDA模型进行文本建模,得到文档的主题概率分布,并从内容层面计算文献相似度,生成文献相似矩阵,包括:
利用LDA模型进行文本建模,得到文档-主题、主题-词分布矩阵,挖掘出文本潜在的语义知识;
根据余弦方向计算文献之间的相似度,生成文献相似矩阵。
7.根据权利要求6所述的前沿主题识别方法,其特征在于,对于所述a和b的确定,包括:
查看基于构建的LDA建模及文献相似矩阵,按相似度由高到低的顺序排序,选取top10%,top10%中最小值即为a;
查看基于构建的LDA建模及文献相似矩阵,按相似度由低到高降序排列,选取top10%,top10%中最大值即为b。
8.一种前沿主题识别系统,其特征在于,包括:
预处理模块,用于选择面向领域的文献作为数据集,并将所述数据集进行预处理;
文献关系矩阵生成模块,用于根据文献共被引关系,构建引文耦合矩阵并进行标准化,生成文献关系标准矩阵;
文献相似矩阵生成模块,用于利用LDA模型进行文本建模,得到文档的主题概率分布,并从内容层面计算文献相似度,生成文献相似矩阵;
数据融合模块,用于将所述文献相似矩阵和文献关系标准化矩阵进行线性融合,形成文本相似矩阵;
数据分析模块,用于利用社团发现,得到主题簇,并对所述主题簇进行可视化描述,得到对所述面向领域的文献的前沿主题的识别结果。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1至7中任一项所述的前沿主题识别方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7中任一项所述的前沿主题识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210649852.8A CN115017315A (zh) | 2022-06-09 | 2022-06-09 | 一种前沿主题识别方法、系统及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210649852.8A CN115017315A (zh) | 2022-06-09 | 2022-06-09 | 一种前沿主题识别方法、系统及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017315A true CN115017315A (zh) | 2022-09-06 |
Family
ID=83073849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210649852.8A Pending CN115017315A (zh) | 2022-06-09 | 2022-06-09 | 一种前沿主题识别方法、系统及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017315A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415593A (zh) * | 2023-02-28 | 2023-07-11 | 北京市农林科学院 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
CN116644338A (zh) * | 2023-06-01 | 2023-08-25 | 北京智谱华章科技有限公司 | 基于混合相似度的文献主题分类方法、装置、设备及介质 |
CN117829608A (zh) * | 2024-01-08 | 2024-04-05 | 北京市科学技术研究院 | 社区管理风险点识别方法及装置、电子设备、存储介质 |
-
2022
- 2022-06-09 CN CN202210649852.8A patent/CN115017315A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415593A (zh) * | 2023-02-28 | 2023-07-11 | 北京市农林科学院 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
CN116415593B (zh) * | 2023-02-28 | 2023-10-31 | 北京市农林科学院 | 一种研究前沿识别方法、系统、电子设备及存储介质 |
CN116644338A (zh) * | 2023-06-01 | 2023-08-25 | 北京智谱华章科技有限公司 | 基于混合相似度的文献主题分类方法、装置、设备及介质 |
CN116644338B (zh) * | 2023-06-01 | 2024-01-30 | 北京智谱华章科技有限公司 | 基于混合相似度的文献主题分类方法、装置、设备及介质 |
CN117829608A (zh) * | 2024-01-08 | 2024-04-05 | 北京市科学技术研究院 | 社区管理风险点识别方法及装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uçkan et al. | Extractive multi-document text summarization based on graph independent sets | |
Weismayer et al. | Identifying emerging research fields: a longitudinal latent semantic keyword analysis | |
Chuang et al. | Termite: Visualization techniques for assessing textual topic models | |
Umer et al. | Scientific papers citation analysis using textual features and SMOTE resampling techniques | |
Jonnalagadda et al. | A new iterative method to reduce workload in systematic review process | |
EP3089052A1 (en) | A discovery informatics system, method and computer program | |
Avasthi et al. | Techniques, applications, and issues in mining large-scale text databases | |
CN115017315A (zh) | 一种前沿主题识别方法、系统及计算机设备 | |
da Silva Júnior et al. | A roadmap toward the automatic composition of systematic literature reviews | |
Role et al. | Beyond cluster labeling: Semantic interpretation of clusters’ contents using a graph representation | |
Karami | Fuzzy topic modeling for medical corpora | |
El-Rashidy et al. | Reliable plagiarism detection system based on deep learning approaches | |
Aoumeur et al. | Improving the polarity of text through word2vec embedding for primary classical arabic sentiment analysis | |
Nashipudimath et al. | An efficient integration and indexing method based on feature patterns and semantic analysis for big data | |
De Martino et al. | Multi-view overlapping clustering for the identification of the subject matter of legal judgments | |
Yousif et al. | Improving citation sentiment and purpose classification using hybrid deep neural network model | |
Rahul et al. | Social media sentiment analysis for Malayalam | |
Noh et al. | Document retrieval for biomedical question answering with neural sentence matching | |
Zelenkov | The topics dynamics in knowledge management research | |
Katsurai | Using word embeddings for library and information science research: A short survey | |
CN112800243A (zh) | 一种基于知识图谱的项目预算分析方法及系统 | |
Ai et al. | A two-stage entity event deduplication method based on graph node selection and node optimization strategy | |
Zhou et al. | Unsupervised technical phrase extraction by incorporating structure and position information | |
Wang et al. | Text Analysis and Visualization Research on the Hetu Dangse During the Qing Dynasty of China | |
Jiajia et al. | Clustering product features of online reviews based on nonnegative matrix tri-factorizations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |