CN112633011B

CN112633011B - 融合词语义与词共现信息的研究前沿识别方法及设备

Info

Publication number: CN112633011B
Application number: CN202011610820.4A
Authority: CN
Inventors: 周源; 刘宇飞; 谢力; 陈吉红; 郑文江
Original assignee: Strategic Consulting Center Of Chinese Academy Of Engineering; Tsinghua University; Huazhong University of Science and Technology
Current assignee: Strategic Consulting Center Of Chinese Academy Of Engineering; Tsinghua University; Huazhong University of Science and Technology
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-09-16
Anticipated expiration: 2040-12-30
Also published as: CN112633011A

Abstract

本发明属于数据挖掘与利用技术领域，公开了一种融合词语义与词共现信息的研究前沿识别方法及设备。该方法包括：对论文数据进行时间切片；从单一时间切片的论文数据中提取技术关键词；统计技术关键词的共现频率构建词共现网络；根据技术关键词的相似度形成语义相似度网络；融合词共现网络和语义相似度网络来构建语义共现网络，并将技术关键词聚类成多个簇团；对所有时间切片的语义共现网络都进行聚类；对相邻时间切片的簇团进行相似度计算形成主题演化脉络图；同时满足主题年龄短、主题发展率高、主题热度高的研究主题即为前沿主题，前沿主题中的热门技术即为研究前沿。本发明能够更加客观、准确地进行研究前沿的识别。

Description

融合词语义与词共现信息的研究前沿识别方法及设备

技术领域

本发明属于数据挖掘与利用技术领域，更具体地，涉及一种融合词语义与词共现信息的研究前沿识别方法及设备。

背景技术

当今世界，科学技术已经发展到了一个前所未有的高度。全球的科技创新呈现新的发展态势和特征，深刻认识并准确把握领域科技发展前沿及创新态势，对于创新战略前瞻部署、创新资源优化配置具有至关重要的作用。研究前沿是科技创新过程中最有潜力、最具前瞻性和引领性的研究方向。有效识别领域发展前沿，可以对未来的研究趋势做出有效预判，从而将人力、物力和财力精准投入到最具战略研究价值的科技前沿。如何在早期识别出研究前沿的预警信号，是一个对制定科学政策和进行科研评价极其重要的问题。

目前的前沿技术识别方法主要分为专家判断法和引文分析法。专家判断法是利用专家知识对研究问题进行主观的判断，利用专家智慧综合判断来的出最终结论。但是专家判断法也具有一些缺点：

1)专家判断的主观性强，同时专家的知识面存在局限，专家判断可能与客观事实存在巨大的偏差。

2)专家判断法需要协调许多的专家进行探讨决策，花费巨大的人力和物力同时其时效性也比较差。

引文分析法主要是利用文献和文献之间的引用关系来构建引文网络，对引文网络来进行分析识别研究前沿。但是引文分析法存在时间滞后性，可能会忽略潜在的研究前沿。

发明内容

针对现有研究前沿识别方法的缺陷，本发明提出了一种融合词语义与词共现信息的研究前沿识别方法及设备，其采用语义知识和共现关系相结合形成语义共现网络，再通过主题聚类进行知识的挖掘，最终从主题的演化的角度进行研究前沿的识别，本发明能够充分结合语义特征和文献计量特征动态的挖掘知识单元之间的结构关系，更好的进行研究前沿的识别。

为实现上述目的，按照本发明的一个方面，提供了一种融合词语义与词共现信息的研究前沿识别方法，包括如下步骤：

S1获取论文数据，按照时间进行切片；

S2读取单一时间切片的论文数据，从中提取各个论文的技术关键词；

S3统计各个技术关键词之间的共现频率，构建词共现网络；其中，网络节点表示技术关键词，网络的边表示该边两端所连接的技术关键词的共现频次，技术关键词共现的频次越高，则边的权重越大；

S4利用词向量嵌入表示技术关键词并计算技术关键词之间的相似度，形成技术关键词的语义相似度网络；

S5融合技术关键词的词共现网络和语义相似度网络来构建当前时间切片的语义共现网络，并使用拓扑聚类算法将技术关键词聚类成多个簇团；

S6循环步骤S2至S5，直至所有时间切片的语义共现网络都进行了聚类；

S7对相邻时间切片的簇团进行相似度的计算，形成主题的演化脉络图；

S8基于主题年龄、主题发展率和主题热度三个指标，按照预设的阈值，同时满足主题年龄短、主题发展率高、主题热度高的研究主题即为前沿主题，前沿主题中的热门技术即为研究前沿。

进一步地，在步骤S2中，技术关键词的来源包括从论文标题中提取的技术关键词和论文数据的技术关键词。

进一步地，论文数据的技术关键词直接认定为技术关键词，直接抽取并存储于数据库中；

论文文献标题的构成元素分别为名词或者名词短语、动词、语法词；从标题中抽取技术关键词的规则包括：

a.标题预处理；

b.通过动词、语法词来对标题进行分词操作；

c.出现在标题首部的名词性短语，或者，后跟动词或介词的名词性短语，认定为技术关键词。

进一步地，在步骤S3中，两个技术关键词在同一窗口中出现，视为存在共现关系，两个技术关键词共现的次数愈多，他们之间的共现强度越大，共现强度采用以下公式进行计算：

其中，C_ij表示共现强度，t_ij表示两个技术关键词i和j的共现次数，Max表示两个技术关键词i和j共现次数的最大值。

进一步地，在步骤S4中，设词向量的维度为n，则每个技术关键词均分别由一个n维词向量进行表示；技术关键词之间的相似度表示两个技术短语所含的语义的相似程度，采用以下公式进行计算：

其中，i和j分别是两个技术关键词的n维词向量表示，l_ij表示技术关键词i和j之间的相似度大小，l_ij越大表示两个技术关键词的语义越相似，<i，j>表示技术关键词i、j之间的欧式距离，||i||、||i||分别表示技术关键词i、j对应的n维词向量的模，i_k、j_k分别表示技术关键词i、j对应的n维词向量的中的第k个元素，k＝1，2，...，n。

进一步地，步骤S5中构建语义共现网络的方法如下：

对步骤S4中得到的技术关键词相似度进行判断，若两个技术关键词的相似度大于阈值，则认为这两个技术关键词具有相同的语义，将共现网络中的这两个技术关键词节点进行合并；若两个技术关键词的相似度小于阈值，则在语义共现网络中技术关键词所表示的节点之间的边的权重，则由相似度和共现度共同表示，公式如下：

x+y＝1.0

式中，n_ij表示语义共现网络中节点i、j之间的边的权重，n_ij越大边两端的节点的联系就越紧密，x和y分别表示共现强度C_ij与相似程度l_ij在边权重中所占的比例。

进一步地，步骤S7中，将语义共现网络聚类后的类团定义为研究主题，相邻时间切片间的主题的相似度采用TF/IDF余弦相似度进行计算，公式如下：

其中，W_i，j表示技术关键词i在研究主题j中的TF/IDF值，TF_i，j表示技术关键词i在研究主题j中出现的频率，N表示将语义共现网络聚类后的类团总数亦即研究主题的总数，DF表示N个类团中技术关键词i的数量；

若主题之间的相似度大于预设阈值，则认为他们之间存在演化关系，在技术演化脉络图中将这两个主题连起来。

进一步地，在步骤S8中，主题年龄、主题发展率、主题热度的评价规则如下：

主题年龄是指当前时间减去主题萌芽的时间，主题年龄大于预设阈值则为非前沿主题；其中，主题萌芽的时间为技术演化脉络图中与该主题相连的主题最早出现的时间；

主题发展率是指主题技术关键词出现次数的平均增长率，主题发展率小于预设阈值则为非前沿主题。

主题热度是指通过研究主题新增作者的比例来衡量研究主题的前沿性，公式如下：

其中，n_t表示当前时间切片内的某个研究主题中包含的主题数量，N_A表示该主题在整个演化路径中包含的所有作者的数量，若Au小于预设阈值，该主题则为非前沿主题。

按照本发明的另一方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如前任一项所述的融合词语义与词共现信息的研究前沿识别方法。

按照本发明的另一方面，提供了一种融合词语义与词共现信息的研究前沿识别设备，其特征在于，包括如前所述的计算机可读存储介质以及处理器，处理器用于调用和处理计算机可读存储介质中存储的计算机程序。

总体而言，本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1)相比于引文分析法的滞后性，本发明所提出的融合词语义与词共现信息的研究前沿识别方法，能够直接基于技术关键词的提取，实时的进行研究前沿的识别；

2)本发明结合了语义知识和技术关键词共现知识，同时挖掘了技术关键词之间的浅层联系和深层联系，提高了研究前沿识别的准确性；

3)本发明提供了研究前沿识别的一系列指标，能够更好的对研究前沿进行判断；

4)本发明提供了一套研究前沿识别的流程，通过该流程能够有效的研究某个领域的发展脉络和进行研究前沿的识别工作。

附图说明

图1是利用语义共现网络进行前沿技术识别的流程图；

图2是形成演化关系的流程图；

图3是主题前沿性评价的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本实施例优选的一种融合词语义与词共现信息的研究前沿识别方法，主要构思是采用语义知识和共现关系相结合形成语义共现网络，再通过拓扑聚类算法进行知识的挖掘，最终从主题的演化的角度进行研究前沿的识别。如图1所示，所述的方法包含以下步骤：

S1获取论文数据，并按照时间进行切片，分别储存到数据库中；

S2从数据库中加载单一时间切片的论文数据，获取论文的技术关键词；

S3统计技术关键词之间的共现频率，构建词共现网络，网络节点表示技术关键词，网络的边表示技术关键词的共现频次，技术关键词共现的频次越高，边的权重越大；

S5融合技术关键词的词共现网络和语义相似度网络来络构建语义共现网络，并使用拓扑聚类算法将技术关键词聚类成多个簇团；

S6循环步骤S2～S5，直至所有时间切片的语义共现网络都进行了聚类；

S7相邻时间切片的簇团进行相似度的计算，形成主题的演化脉络图；

S8利用“主题年龄”、“主题发展率”和“主题热度”三个指标来进行主题的前沿性评价，以此来识别研究前沿。

在步骤S1中，以时间为基准将论文数据进行切片，优选地，在本次实例中时间切片的长度为一年。不同切片的论文数据分别存储于数据库中，以便进行后面的步骤。

优选地，在步骤S2中，技术关键词的来源主要有两种：

1)从论文标题中提取的技术关键词。论文文献标题的构成元素分别为：名词或者名词短语、动词、语法词(介词，连词，冠词等)。技术名称在通常的情况下为名词或者名词性短语，因此，从标题中抽取技术关键词的规则为：a.标题预处理(处理大小写，去除各种非单词字符)；b.通过动词、语法词来对标题进行分词操作；c.出现在标题首部或者后跟动词(applied、used、based等)或介词(in、of、for、with等)的名词性短语，我们认定为技术关键词。

2)论文数据的技术关键词我们直接认定为技术关键词，直接抽取并存储于数据库中。

优选地，在步骤S3中，两个技术关键词在同一窗口中出现，他们之间便存在共现关系(本实施例中，同一个窗口表示同一篇论文，在其他实施例中，也可以由使用者自定义其他能够体现技术关键词关联性的窗口范围)。两个技术关键词共现的次数愈多，他们之间的共现强度越大，共现强度采用以下计算式：

其中，C_ij表示共现强度，t_ij表示两个技术关键词间的共现次数，Max表示两个节点共现次数的最大值。

优选地，在步骤S4中，技术关键词采用Word2vec词向量表示，在本次实例中词向量的维度为n。在进行词向量表示之后，所有的技术关键词均由n维向量进行表示。技术关键词的相似度表示两个技术短语所含的语义的相似程度，采用以下计算式进行计算：

优选地，在步骤S5中，结合技术关键词的共现关系和相似关系形成语义共现网络，具体实施办法如下所示：

步骤S4中得到的技术关键词相似度进行判断，若两个技术关键词的相似度大于阈值，则这两个技术关键词可认为具有相同的语义，考虑将共现网络中的两个技术关键词节点进行合并；若两个技术关键词的相似度小于阈值，则在网络中技术关键词所表示的节点间的边的权重则由相似度和共现度共同表示，计算式如下所示：

x+y＝1.0

式中，n_ij表示网络中边的权重，n_ij越大边两端的节点的联系就越紧密，x和y分别表示共现强度与相似程度在边权重中所占的比例。

优选地，步骤S5中，网络聚类的方式采用拓扑聚类，其基本思想是：聚类后的结果与聚类前的差距越大，这种聚类效果越好。关系紧密的技术关键词被聚类到同一个簇团里，关系稀疏的技术关键词被分割到不同的簇团里。

优选地，步骤S7中，这个步骤目的是为了研究不同时间切片中的研究主题是否存在一定的演化关系。本研究将语义共现网络聚类后的类团定义为研究主题，相邻切片间的主题的相似度采用TF/IDF余弦相似度进行计算，计算式如下所示：

其中，TF_i，j表示技术关键词i在研究主题j中出现的频率，N表示研究主题的总数，DF表示N个类团中包含技术关键词i的数量，W_i，j就是技术关键词i在研究主题j中的TF/IDF值。若主题之间的相似度大于阈值，则认为他们之间存在演化关系，则可在技术演化脉络图中将这两个主题连起来，演化关系的判断流程如图2所示，通过这一过程可以绘制出完整反映主题演化关系的技术演化脉络图。

优选地，在步骤S8中，我们设置了“主题年龄”，“主题发展率”和“主题热度”三个指标来判别主题是否是前沿主题，具体的实施方式为：

主题年龄：当前时间减去主题萌芽的时间，年龄大于阈值的则为非前沿主题，主题萌芽时间为演化脉络图中与该主题相连的主题最早出现的时间。

主题发展率：主题技术关键词出现次数的平均增长率，增长率小于阈值的则为非前沿主题。

主题热度：通过研究主题新增作者的比例来衡量研究主题的前沿性，计算式如下所示：

其中，n_t表示当前时间切片内的某个研究主题中包含的主题数量，N_A表示该主题在整个演化路径中包含的所有作者的数量，若Au小于阈值，该主题则为非前沿主题。

满足所有技术指标的研究主题，将其设置为前沿主题。前沿主题中的热门技术则为研究前沿。优选地，如图3所示，本实施例中按照主题年龄→主题发展率→主题热度的先后顺序进行前沿主题的判断和筛选。

通过以上步骤，可以生产某个领域的研究主题演化关系，并且得到该领域的研究前沿。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合词语义与词共现信息的研究前沿识别方法，其特征在于，包括如下步骤：

S1获取论文数据，按照时间进行切片；

步骤S5中构建语义共现网络的方法如下：

x+y＝1.0

式中，n_ij表示语义共现网络中节点i、j之间的边的权重，n_ij越大边两端的节点的联系就越紧密，x和y分别表示共现强度C_ij与相似程度l_ij在边权重中所占的比例；

2.如权利要求1所述的一种融合词语义与词共现信息的研究前沿识别方法，其特征在于，在步骤S2中，技术关键词的来源包括从论文标题中提取的技术关键词和论文数据的技术关键词。

3.如权利要求2所述的一种融合词语义与词共现信息的研究前沿识别方法，其特征在于，论文数据的技术关键词直接认定为技术关键词，直接抽取并存储于数据库中；

a.标题预处理；

b.通过动词、语法词来对标题进行分词操作；

4.如权利要求1所述的一种融合词语义与词共现信息的研究前沿识别方法，其特征在于，在步骤S3中，两个技术关键词在同一窗口中出现，视为存在共现关系，两个技术关键词共现的次数愈多，他们之间的共现强度越大，共现强度采用以下公式进行计算：

5.如权利要求1～4任一项所述的一种融合词语义与词共现信息的研究前沿识别方法，其特征在于，在步骤S4中，设词向量的维度为n，则每个技术关键词均分别由一个n维词向量进行表示；技术关键词之间的相似度表示两个技术短语所含的语义的相似程度，采用以下公式进行计算：

其中，i和j分别是两个技术关键词的n维词向量表示，l_ij表示技术关键词i和j之间的相似度大小，l_ij越大表示两个技术关键词的语义越相似，<i,j>表示技术关键词i、j之间的欧式距离，‖i‖、‖i‖分别表示技术关键词i、j对应的n维词向量的模，i_k、j_k分别表示技术关键词i、j对应的n维词向量的中的第k个元素，k＝1,2,…,n。

6.如权利要求1所述的一种融合词语义与词共现信息的研究前沿识别方法，其特征在于，步骤S7中，将语义共现网络聚类后的簇团定义为研究主题，相邻时间切片间的主题的相似度采用TF/IDF余弦相似度进行计算，公式如下：

其中，W_i,j表示技术关键词i在研究主题j中的TF/IDF值，TF_i,j表示技术关键词i在研究主题j中出现的频率，N表示将语义共现网络聚类后的簇团总数亦即研究主题的总数，DF表示N个类团中技术关键词i的数量；

7.如权利要求6所述的一种融合词语义与词共现信息的研究前沿识别方法，其特征在于，在步骤S8中，主题年龄、主题发展率、主题热度的评价规则如下：

主题发展率是指主题技术关键词出现次数的平均增长率，主题发展率小于预设阈值则为非前沿主题；

8.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1～7任一项所述的融合词语义与词共现信息的研究前沿识别方法。

9.一种融合词语义与词共现信息的研究前沿识别设备，其特征在于，包括如权利要求8所述的计算机可读存储介质以及处理器，处理器用于调用和处理计算机可读存储介质中存储的计算机程序。