CN113849656A

CN113849656A - 基于聚类图谱的技术文本挖掘方法和系统

Info

Publication number: CN113849656A
Application number: CN202110917999.6A
Authority: CN
Inventors: 焦建玲; 陈楚曦; 白羽; 杨冉冉
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-28

Abstract

本发明提供一种基于聚类图谱的技术文本挖掘方法和系统，涉及文本处理技术领域。本发明基于文献耦合方法构建技术聚类图谱，然后基于聚类图谱识别出技术的研究前沿；然后对前沿技术进行专利及引用信息的收集，进一步建立专利引用网络，通过动态前向引用全路径模型获取技术的关键发展路径图。动态前向引用全路径模型能有效提升关键发展路径图的识别精确度，充分挖掘其复杂引文网络中包含的信息，更重要的是实现了对位于关键发展路径图会聚位置的突破性技术的实时监测和预测。

Description

基于聚类图谱的技术文本挖掘方法和系统

技术领域

本发明涉及文本处理技术领域，具体涉及一种基于聚类图谱的技术文本挖掘方法和系统。

背景技术

聚类图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

以绿色技术为例，通过基于聚类图谱挖掘出绿色技术中的研究前沿是科研人员和决策者共同关心的焦点。已有学者尝试利用知识可视化图谱方法对绿色技术研究前沿进行探测，然而现有技术在探测研究前沿随时间演化情况后，未有进一步的对重点、要点前沿技术进行关键发展路径图挖掘与突破性技术监测，导致不能准确的挖掘出绿色技术中的关键发展路径图。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于聚类图谱的技术文本挖掘方法和系统，解决了现有技术不能准确的挖掘出技术中的关键发展路径图的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，本发明提供一种基于聚类图谱的技术文本挖掘方法，包括：

S1、获取技术文献耦合数据；

S2、基于所述技术文献耦合数据构建技术文献聚类图谱；

S3、基于所述聚类图谱识别出技术的研究前沿，所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容；

S4、获取所述研究前沿的引用信息，构建引用网络，基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。

优选的，所述S2包括：

S201、对所述文献耦合数据进行预处理；

S202、基于预处理后的文献耦合数据建立绿色技术的文献引用耦合矩阵；

S203、使用谱系聚类方法对文献引用耦合矩阵进行聚类分析，得到技术文献的聚类图谱。

优选的，所述S201包括：

基于所述文献耦合数据建立引文索引；去除引文索引中耦合强度未达到预设阈值的文献耦合数据。

优选的，所述S4包括：

S401、获取所述研究前沿的引用信息，构建引用网络；

S402、将所述引用网络表示为有向矩阵；

S403、计算所述有向矩阵中每个有向边的权重；

S404、基于每个有向边的权重确定引用网络中的所有关键发展路径图。

优选的，所述S402包括：

根据引用网络中n个引用文献的引用关系，建立n×n有向矩阵P，有向矩阵P中的节点代表文献；p_ij是方阵P的元素，是一个代表一个定向关系的“0-1”变量；当p_ij的值等于1时，表示文献j引用文献i，即从节点i到节点j有一个有向边；当p_ij的值等于0时，表示两个文献之间没有引用。

优选的，所述S403包括：

在有向矩阵中，引用文献v的文献的数量为文献v的出度，表示为d⁺(v)，d⁺(v)大于等于0；文献v引用的文献数量为入度，用d^-(v)表示；e_ij表示文献i指向节点j的有向边，其权重见公式(2)：

W(e_ij)＝[d⁺(i)+1]*[d⁺(j)+1] (2)

其中，d⁺(i)表示节点i的出度；d⁺(j)节点j的出度。

优选的，所述S404包括：

假设从起点s到终点t有n条路径，每条路径的权重为该路径上所有边的权重之和，记为正向引用路径权重FCPW，从点s到点t的n条路径的权重的集合表示为FCPWs，其中最大权重表示为MFCPW，见公式(3)：

MFCPW(p)＝max{W(e_pci)+MFCPW(c_i)}(i＝1，2…m) (3)

其中：MFCPW(p)表示从文献p到其所有终端的路径的最大权重；c_i(i＝1，2…m)表示引用文献p的文献，即引用网络中节点p的子节点；同样，MFCPW(c_i)是从文献c_i开始的路径的最大权重的集合；W(e_pci)是从节点p到节点c_i的有向边的权重；

采用R软件动态编程公式(3)，计算从引用网络中每个起点开始的所有路径的MFCPW，并将相应路径上的所有节点以路径演进图形式记录下来，进行分析并绘制技术关键发展路径图。

第三方面，本发明提供一种基于聚类图谱的技术文本挖掘系统，包括：

数据获取模块，用于获取技术文献耦合数据；

聚类图谱构建模块，用于基于技术文献耦合数据构建技术文献聚类图谱；

研究前沿识别模块，用于基于聚类图谱识别出技术的研究前沿，所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容；

关键发展路径图获取模块，获取所述研究前沿的引用信息，构建引用网络，基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。

第三方面，本发明提供一种计算机可读存储介质，其存储用于基于聚类图谱的技术文本挖掘的计算机程序，其中，所述计算机程序使得计算机执行如上述所述的基于聚类图谱的技术文本挖掘方法。

第四方面，本发明提供一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述所述的基于聚类图谱的技术文本挖掘方法。

(三)有益效果

本发明提供了一种基于聚类图谱的技术文本挖掘方法和系统。与现有技术相比，具备以下有益效果：

本发明基于文献耦合方法构建技术聚类图谱，然后基于聚类图谱识别出技术的研究前沿；然后对前沿技术进行专利及引用信息的收集，进一步建立专利引用网络，通过动态前向引用全路径模型获取技术的关键发展路径图。动态前向引用全路径模型能有效提升关键发展路径图的识别精确度，充分挖掘其复杂引文网络中包含的信息，更重要的是实现了对位于关键发展路径图会聚位置的突破性技术的实时监测和预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于聚类图谱的技术文本挖掘方法的框图；

图2为本发明实施例中2014-2018年绿色技术的技术文献聚类图谱；

图3为本发明实施例中2010-2014、2011-2015、2012-2016、2013-2017这四个时间段的绿色技术的技术文献聚类图谱；

图4为本发明实施例中绿色技术研究前沿的演变图；

图5为本发明实施例中的绿色技术的技术关键发展路径图示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于聚类图谱的技术文本挖掘方法和系统，解决了现有技术不能准确的挖掘出技术中的关键发展路径图的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

需要说明的是，本发明实施例是以绿色技术为例进行详细说明的，但不仅限于此，该方法也可用于其他领域的技术。

在科技迅猛发展的今天，准确、科学、迅速地把握某领域的研究前沿一直是科研人员和决策者共同关心的焦点，鉴于绿色技术的重要性，国内外一些学者逐渐将注意力转向对特定绿色技术研究前沿的探析上。然而研究前沿的瞬时特征，正给科研人员和决策者带来严峻挑战。因此了解绿色技术研究前沿的动态变化特征，紧跟绿色技术快速发展的步伐，从已有科学知识体系中探索一些新的趋势。本发明对绿色技术的研究前沿做了进一步研究，对技术重点研究前沿引文网络的技术演进路径进行识别，通过动态前向引用全路径模型获取技术的关键发展路径图。对有关技术管理部门明确发展重点，制定更为清晰的技术发展政策提供有效帮助。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种基于聚类图谱的技术文本挖掘方法，包括步骤S1～S4：

S1、获取技术文献耦合数据；

S2、基于技术文献耦合数据构建技术文献聚类图谱；

S3、基于聚类图谱识别出技术的研究前沿，所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容；

S4、获取研究前沿的引用信息，构建引用网络，基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。

本发明实施例基于文献耦合方法构建技术聚类图谱，然后基于聚类图谱识别出技术的研究前沿；然后对前沿技术进行专利及引用信息的收集，进一步建立专利引用网络，通过动态前向引用全路径模型获取技术的关键发展路径图。动态前向引用全路径模型能有效提升关键发展路径图的识别精确度，充分挖掘其复杂引文网络中包含的信息，更重要的是实现了对位于关键发展路径图会聚位置的突破性技术的实时监测——即发现了或能对现存关键技术领域产生颠覆性影响的两种突破性技术的存在，为技术的长期发展策略提供坚实的基础和正确的方向。

下面结合具体实施例对各个步骤进行详细说明：

在步骤S1中，获取技术文献耦合数据，具体实施过程如下：

在本发明实施例中，技术以绿色技术为例。通过计算机获取绿色技术的技术文献耦合数据。

技术文献耦合数据为1963年至2018年期间的WOS的SCI-E数据库中2010年至2018年间每年绿色领域被引用次数大于50的文章(这些文献的参考文献也包括在其中)，依次为625、560、484、438、435、415、382、280、235篇。在具体实施过程中，使用的搜索主题关键词包括“绿色技术”、“低碳技术”、“低碳能源技术”、“清洁技术”、“环境技术”、“绿色科技”、“可持续工程”。在获取相关数据后，人工检查并将其中与搜索主题词不相关的文献剔除。最终将文献耦合数据划分为：2010-2014、2011-2015、2012-2016、2013-2017、2014-2018这五个重叠的时间段，用以研究总体绿色技术领域随时间的演变情况。

在步骤S2中，基于文献耦合数据构建技术文献的聚类图谱，具体实施过程如下：

S201、对文献耦合数据进行预处理。具体为：

基于文献耦合数据建立引文索引；去除引文索引中耦合强度未达到预设阈值的文献。在本发明实施例中，耦合强度的预设阈值为10。这一步骤虽然减少了原始数据的数量，但同时也能够排除由检索方法产生的许多与该主题并不相关的数据，从而产生有意义的聚类结果同时减小误差。

S202、基于预处理后的文献耦合数据建立绿色技术的文献引用耦合矩阵。具体为：

文献引用耦合矩阵中的列元素是源文献，行元素是被引用文献，两个文献的耦合强度可以对它们分别对应的列元素求乘积得到。

使用谱系聚类方法对文献单元样本进行聚类分析。谱系聚类方法指一种逐次合并类的方法，最后得到一个聚类的二叉树聚类图，即聚类图谱。这种方法并不像单链聚类方法那样强调文献间的链接关系，它注重于产生单元数量比较均匀的文献簇。其基本思想是对于n个聚类单元，先计算其两两距离得到一个距离矩阵，然后把距离最近的两个单元合并为一类。在剩下的n-1个类中(每个单独的未合并的单元作为一个类)。计算这n-1个类两两之间的距离，将距离最近的两个类进行合并，重复进行，达到预先设定的类个数为止，最后剩余的独立单元则自动合并为一个类。

在聚类分析过程中，需要注意以下三个问题。

首先，距离的定义，本发明实施例中的距离由文献间的相似性得到，本发明实施例中采用Cosine相关系数来衡量文献间的相似性，通过对文献耦合次数进行标准化运算，转化成为取值在[0，1]之间的一个相似性系数S_ij：

其中：c_ij指的是文献i和文献j共同引用的文献数量，B为耦合网络所有边的总权重。N_i和N_j分别是文献i和文献j参考文献的数量。

其次，在进行谱系聚类时有很多计算类间距离的方法，本发明实施例采用最小离差平方和方法，这种方法能够使得合并类时导致的类内离差平方和的增量最小。

最后，确定类的个数也是一个比较复杂的问题。由于文献单元所具有的特殊性质，采用了经验值来确定类的个数。对于一个由4000个文献单元组成的样本来说，一般先产生10个左右的文献簇，然后会随着时间序列的延伸而进行调整。

对2010-2018年高被引且耦合强度大于10的文献进行耦合分析后，得到2010-2014、2011-2015、2012-2016、2013-2017、2014-2018这五个不同时间段的文献耦合聚类图谱，图2是对最近五年即2014-2018年的数据进行耦合分析后，得到的文献耦合聚类图谱，图3是对剩余四个时间滑动窗下的数据进行耦合分析后，得到文献耦合聚类图谱。

在步骤S3中，基于聚类图谱识别出技术的研究前沿，所述研究前沿包括所述聚类图谱上聚类数量最大的文献簇中技术文献研究的技术内容。具体实施过程如下：

根据聚类图谱中的聚类情况得到技术的研究前沿。在本发明实施例中，对绿色技术研究前沿进行归类命名，通过检查在该文献簇的文献题目中经常出现的词语或短语，并结合经济合作发展组织(OECD，2011)提供的指代现有和新出现的环境技术分类(the OECDindicator of environmentaltechnologies)中的七大类和三十七小类技术名称，给出对各个研究前沿准确的描述。

由图2可知2014-2018年绿色技术研究前沿中的145篇文献最终被分为12个类别，其中最大的聚类由20篇文献组成。最小的聚类仅包含2篇文献。而在对聚类情况进行整理合并后发现：

涵盖研究前沿文献数最多的技术领域为储能、氢能及燃料电池技术，总有35篇文献，占比达到总体的32.4％，是排名最末的提高输入输出效率的污染减排技术的17.5倍。占比第二与第三的技术为可再生能源与废物管理技术，分别是总量的的24.1％、13.6％。具体绿色技术研究前沿情况见表1。

表1 2014-2018年绿色技术研究前沿文献耦合聚类情况

同样地，由图3可知剩余四个时间滑动窗下的绿色技术研究前沿聚类情形。发现：从2012-2016年以及这之后的时间段内，涵盖研究前沿文献数最多的技术领域一直为储能、氢能及燃料电池技术。而在2011-2015及之前，涵盖研究前沿文献数最多的技术领域却为可再生能源年绿色技术。尤其是2010-2014年，氢能及燃料电池技术涵盖研究前沿文献数不到可再生能源的50％。

为了更好地了解这种变动过程，以及更加直观展现其他绿色技术研究前沿随时间的演化情况。我们对图2与图3中的五个重叠时间窗口下的文献耦合聚类结果进行整合，最终得到代表中国2010-2018年绿色技术研究前沿演变过程的图4。

可以看出:储能、氢能及燃料电池技术领域相关研究发展最为迅猛，确为最值得关注的绿色技术细分领域。

即研究前沿为研究前沿为储能、氢能及燃料电池技术。

S4、获取研究前沿的引用信息，构建引用网络，基于所述研究前沿、所述引用网络和动态前向引用全路径模型获取技术的关键发展路径图。具体实施过程如下：

S401、基于上述获取的研究前沿，获取研究前沿的引用信息，构建引用网络。具体为：

在本发明实施例中，研究前沿为储能、氢能及燃料电池技术。引用信息选用的文献为专利文献，为方便描述，后文统一用专利表述。通过“主IPC分类号+申请国”共同限定的方式在德温特专利数据库中对在中国申请的储能、氢能及燃料电池技术专利进行检索，获得申请人为中国的1963年至2018年期间的4397项专利，将专利数据作为研究前沿的引用信息。

通过ExcelVBA编程实现专利引用网络的构建(此方法为现有技术，此处不再赘述)。由于相关专利之间不一定都具有引用关系，将专利信息中著录的引用信息抓取出来，再构建引用关系网络。优点是方法的适用范围较广，只需要了解与技术相关的关键词并构建专利检索表达式即可。在专利引文网络的构建环节，采用C#编程方法清洗数据源，保留引用专利信息。

S402、将复杂的引用网络表示为有向矩阵。具体为：

根据所获得的n个专利之间的引用关系，建立n×n方阵P，P代表一个有向图。有向图中的节点代表专利。p_ij是矩阵P的元素，是一个代表一个定向关系的“0-1”变量。当p_ij的值等于1时，表示专利j引用专利i，即从节点i到节点j有一个有向边。当值等于0时，表示两个专利之间没有引用。

通过社会网络分析软件Ucinet，在本发明实施例中，为4397项储能、氢能及燃料电池专利建立专利引用矩阵。矩阵列标签为原专利号，行标签为被引用专利号，存在引用关系的记为1，不存在引用关系的记为0。

S403、计算有向矩阵中每个有向边的权重。具体为：

引入图论中的出度和入度概念。对于专利v而言，引用它的专利的数量可以被视为其出度，其被表示为d⁺(v)，并且d⁺(v)大于等于0。它引用的专利数量可以看作是入度，用d^-(v)表示。当d⁺(v)＝0时，点v是起点，即技术发展道路上的原创专利；当d^-(v)＝0时，点v是终点，即该路径上的所有专利中的最新专利。e_ij表示节点i指向节点j的有向边，其权重见公式(2)：

W(e_ij)＝[d⁺(i)+1]*[d⁺(j)+1] (2)

其中，d⁺(i)表示节点i的出度；d⁺(j)节点j的出度。

S404、基于每个有向边的权重确定引用网络中的所有关键发展路径图，关键发展路径图用于监测和预测技术的发展趋势。具体为：

假设从起点s到终点t有n条路径，每条路径的权重为该路径上所有边的权重之和，记为FCPW(正向引用路径权重)。从点s到点t的n条路径的权重的集合表示为FCPWs，其中最大权重表示为MFCPW，见公式(3)：

MFCPW(p)＝max{W(e_pci)+MFCPW(c_i)}(i＝1，2…m) (3)

其中：MFCPW(p)表示从专利p到其所有终端的路径的最大权重；c_i(i＝1，2…m)表示引用专利p的专利，即引用网络中节点p的子节点；同样，MFCPW(c_i)是从专利c_i开始的路径的最大权重的集合；W(e_pci)是从节点p到节点c_i的有向边的权重。

通过上述计算获得所有关键发展路径图，上面有245个专利保留。具体见表2：

表2发展路径上技术集群所含专利数及对应含义

在本发明实施例中，采用R软件动态编程公式(3)，计算从引用网络中每个起点开始的所有路径的MFCPW，并将相应路径上的所有节点以路径演进图形式记录下来。进行分析并绘制其技术进行分析并绘制其技术关键发展路径图，见图5(节点代表专利，边代表引用关系，圆形节点表示位于不同关键技术路径上的会聚专利)。

本发明实施例还提供一种基于聚类图谱的技术文本挖掘系统，包括：

数据获取模块，用于获取技术文献耦合数据；

理解的是，本发明实施例提供的基于聚类图谱的技术文本挖掘系统与上述基于聚类图谱的技术文本挖掘方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于聚类图谱的技术文本挖掘方法中的相应内容，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其存储用于基于聚类图谱的技术文本挖掘的计算机程序，其中，所述计算机程序使得计算机执行上述所述的基于聚类图谱的技术文本挖掘方法。

本发明实施例还提供一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行上述所述的基于聚类图谱的技术文本挖掘方法。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例中动态前向引用全路径模型能有效提升对专利集群的关键发展路径图的识别精确度，充分挖掘其复杂引文网络中包含的信息，更重要的是实现了对位于关键发展路径图会聚位置的突破性技术的实时监测——即发现了或能对现存关键技术领域产生颠覆性影响的两种突破性技术的存在，这为我国绿色技术的长期发展策略提供坚实的基础和正确的方向。

2、基于文献耦合引证准确、科学、迅速地识别出中国绿色技术研究的前沿领域。

3、按技术发展规律将时间分为五个重合的时间段，以详尽展示绿色技术研究的前沿领域的变动过程与演变情况。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于聚类图谱的技术文本挖掘方法，其特征在于，包括：

S1、获取技术文献耦合数据；

S2、基于所述技术文献耦合数据构建技术文献聚类图谱；

2.如权利要求1所述的基于聚类图谱的技术文本挖掘方法，其特征在于，所述S2包括：

S201、对所述文献耦合数据进行预处理；

3.如权利要求2所述的基于聚类图谱的技术文本挖掘方法，其特征在于，所述S201包括：

4.如权利要求1～3任一所述的基于聚类图谱的技术文本挖掘方法，其特征在于，所述S4包括：

S401、获取所述研究前沿的引用信息，构建引用网络；

S402、将所述引用网络表示为有向矩阵；

S403、计算所述有向矩阵中每个有向边的权重；

5.如权利要求4所述的基于聚类图谱的技术文本挖掘方法，其特征在于，所述S402包括：

6.如权利要求4所述的基于聚类图谱的技术文本挖掘方法，其特征在于，所述S403包括：

W(e_ij)＝[d⁺(i)+1]*[d⁺(j)+1] (2)

其中，d⁺(i)表示节点i的出度；d⁺(j)节点j的出度。

7.如权利要求4所述的基于聚类图谱的技术文本挖掘方法，其特征在于，所述S404包括：

MFCPW(p)＝max{W(e_pci)+MFCPW(c_i)}(i＝1，2…m) (3)

8.一种基于聚类图谱的技术文本挖掘系统，其特征在于，包括：

数据获取模块，用于获取技术文献耦合数据；

9.一种计算机可读存储介质，其特征在于，其存储用于基于聚类图谱的技术文本挖掘的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～7任一所述的基于聚类图谱的技术文本挖掘方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～7任一所述的基于聚类图谱的技术文本挖掘方法。