CN114510584B

CN114510584B - 文献识别方法、装置、电子设备以及计算机可读存储介质

Info

Publication number: CN114510584B
Application number: CN202210412169.2A
Authority: CN
Inventors: 郭双瑞; 褚晓泉; 段毅成; 殷俊; 仇瑜; 李青; 赵慧军; 赵姝; 刘德兵
Original assignee: Beijing Zhipu Huazhang Technology Co ltd; Anhui University
Current assignee: Beijing Zhipu Huazhang Technology Co ltd; Anhui University
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-12-13
Anticipated expiration: 2042-04-19
Also published as: CN114510584A

Abstract

本公开涉及数据分析技术领域，具体涉及一种文献识别方法、装置、电子设备以及计算机可读存储介质，该文献识别方法包括：构建候选文献数据集和候选文献引文集合；获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息，进而确定各候选文献的第一评估值；根据第一评估值过滤候选文献数据集得到候选文献过滤集；获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，确定各候选文献的第二评估值和第三评估值，根据第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献。根据本公开的方法提高了文献识别准确度。

Description

文献识别方法、装置、电子设备以及计算机可读存储介质

技术领域

本公开涉及数据分析技术领域，尤其涉及一种文献识别方法、装置、电子设备以及计算机可读存储介质。

背景技术

随着科技的快速发展，各个行业不断涌现出新技术。一项新的技术可以推动对应产业领域的发展、提升对应产业领域的能级。新的技术特别是颠覆性技术在国民经济发展中占据重要的战略地位，颠覆性技术的识别和判断有助于把握相关领域的技术发展方向和趋势，对于国家和企业的技术战略布局至关重要，进一步可以帮助国家和企业缩短创新周期，解决行业创新壁垒、构建新型技术集群。因此及时准确地对新技术进行预测对把握领域最新发展状况及未来发展趋势具有十分重要的意义。

现有技术中对新技术的预测一般利用专利分析、文献计量、数据挖掘等，主要依赖专家本身的知识经验对专利文献等数据进行分析，使得预测过程复杂且耗时耗力，虽然也有一些文献计量方法，但是缺乏对技术整体表现的综合评估，导致识别评估结果不精准。例如常规的颠覆性技术识别的方法主要包括基于专家评议的方法、基于技术演化的方法以及文献计量法，其中专家评议的方法：主要依靠专家本身的知识经验对技术的竞争力进行评估，但评估过程复杂且耗时耗力；基于技术演化的方法：根据技术在演化过程中的非线性跳跃来识别颠覆性技术，但难以定义颠覆性技术的性能表征，技术演化过程不完整；现有基于文献计量的方法如洛特卡定律、布拉德定律、齐普夫定律等方法只针对单一维度进行分析，缺乏对技术整体表现的综合评估，导致识别结果不精准。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开的第一个目的在于提出一种文献识别方法，以从多个角度对文献进行识别，提高文献识别准确度，从而提高了技术识别的准确度。

本公开的第二个目的在于提出一种文献识别装置。

本公开的第三个目的在于提出一种电子设备。

本公开的第四个目的在于提出一种非瞬时计算机可读存储介质。

为达上述目的，本公开第一方面实施例提出了一种文献识别方法，包括：

构建候选文献数据集，所述候选文献数据集包括多篇候选文献及对应的条目信息，利用所述条目信息构建候选文献引文集合；

根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的施引文献数目，以及所述各候选文献的各施引文献的权重和引用信息，并根据所述施引文献数目和所述权重和引用信息确定所述各候选文献的第一评估值；

根据所述各候选文献的第一评估值对所述候选文献数据集进行过滤，得到候选文献过滤集；

根据所述候选文献引文集合获取所述候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，以及各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，所述第一技术领域数目为施引文献的技术领域数目，所述第二技术领域数目为施引文献中非候选文献所属的技术领域数目，根据被引数目变化量确定各候选文献的第二评估值，并根据所述第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值；

根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值，并根据所述各候选文献的综合评估值从所述候选文献过滤集中确定目标文献。

本公开实施例的方法，基于构建的候选文献数据集获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息，进而确定各候选文献的第一评估值，根据第一评估值过滤候选文献数据集得到候选文献过滤集；获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，确定各候选文献的第二评估值和第三评估值，根据各候选文献的第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献，在这种情况下，利用候选文献被引用情况、候选文献在预设时间周期内的被引数目变化量以及候选文献的各施引文献的技术领域数目对候选文献识别，由此从多个角度对文献进行综合评估，提高了文献识别准确度，从而提高了技术识别的准确度。

在本公开第一方面实施例的一种文献识别方法中，所述根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的施引文献数目，以及所述各候选文献的各施引文献的权重和引用信息，并根据所述施引文献数目和所述权重和引用信息确定所述各候选文献的第一评估值包括：根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的施引文献数目；根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的各施引文献的被引数目，以及各候选文献的所有施引文献的被引数目总和，利用所述各施引文献的被引数目与所有施引文献的被引数目总和的比值获得所述各候选文献的各施引文献的权重；根据所述候选文献引文集合获取所述各候选文献的各施引文献的引用信息，所述引用信息包括第一引用信息和第二引用信息，所述第一引用信息基于所述施引文献是否引用所述候选文献获得，所述第二引用信息基于所述施引文献是否引用所述候选文献的参考文献获得；根据各施引文献的所述施引文献数目、所述权重、所述第一引用信息和所述第二引用信息确定所述各候选文献的第一评估值。

在本公开第一方面实施例的一种文献识别方法中，所述根据各施引文献的所述施引文献数目、所述权重、所述第一引用信息和所述第二引用信息确定所述各候选文献的第一评估值包括：计算各施引文献的所述第一引用信息与所述第二引用信息的乘积值；计算各施引文献的所述第一引用信息与2倍所述乘积值的差值；利用所述差值与所述各施引文献的权重的乘积，得到各施引文献的评估值；对各施引文献的评估值求和，然后除以所述施引文献数目获得平均值，所述平均值为所述各候选文献的第一评估值。

在本公开第一方面实施例的一种文献识别方法中，所述根据所述各候选文献的第一评估值对所述候选文献数据集进行过滤，得到候选文献过滤集包括：比较各候选文献的第一评估值与设定阈值，将所述候选文献数据集中候选文献的第一评估值小于所述设定阈值的候选文献进行过滤，得到候选文献过滤集。

在本公开第一方面实施例的一种文献识别方法中，所述根据被引数目变化量确定各候选文献的第二评估值包括：获取各候选文献自发布后每个预设时间周期内的被引数目变化量的最大值，所述最大值为各候选文献的第二评估值。

在本公开第一方面实施例的一种文献识别方法中，所述根据所述第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值包括：计算各候选文献的各施引文献的第二技术领域数目的和与第一技术领域数目的和的比值，所述比值为各候选文献的第三评估值。

在本公开第一方面实施例的一种文献识别方法中，所述根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值包括：计算各候选文献的第一评估值、第二评估值和第三评估值分别所占的比重；利用计算的比重计算各候选文献的第一评估值、第二评估值和第三评估值的熵，进而利用所述熵获取对应差异系数；利用差异系数获得各候选文献的第一评估值、第二评估值和第三评估值的权重；利用各候选文献的第一评估值、第二评估值和第三评估值以及对应的权重，获得各候选文献的综合评估值。

在本公开第一方面实施例的一种文献识别方法中，在获得各候选文献的综合评估值之前还包括：对候选文献过滤集进行过滤处理，所述过滤处理包括：针对候选文献过滤集，根据各候选文献的施引文献的发表时序信息绘制各候选文献的引文时序曲线；利用Kolmogorov-Smirnov拟合优度对各候选文献的引文时序曲线进行判断，过滤所有不属于经典引文曲线的候选文献，得到过滤后的候选文献过滤集。

在本公开第一方面实施例的一种文献识别方法中，所述根据所述各候选文献的综合评估值从所述候选文献过滤集中确定目标文献包括：对所述综合评估值进行排序，将从最大综合评估值开始的预设数量的综合评估值对应的候选文献识别为目标文献。

在本公开第一方面实施例的一种文献识别方法中，所述候选文献数据集为科技文献数据集，所述目标文献为颠覆性技术文献。

为达上述目的，本公开第二方面实施例提出了一种文献识别装置，包括：

获取模块，用于构建候选文献数据集，所述候选文献数据集包括多篇候选文献及对应的条目信息，利用所述条目信息构建候选文献引文集合；

处理模块，用于根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的施引文献数目，以及所述各候选文献的各施引文献的权重和引用信息，并根据所述施引文献数目和所述权重和引用信息确定所述各候选文献的第一评估值；根据所述各候选文献的第一评估值对所述候选文献数据集进行过滤，得到候选文献过滤集；根据所述候选文献引文集合获取所述候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，以及各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，所述第一技术领域数目为施引文献的技术领域数目，所述第二技术领域数目为施引文献中非候选文献所属的技术领域数目，根据被引数目变化量确定各候选文献的第二评估值，并根据所述第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值；

识别模块，用于根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值，并根据所述各候选文献的综合评估值从所述候选文献过滤集中确定目标文献。

本公开实施例的装置，处理模块基于获取模块构建的候选文献数据集获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息，进而确定各候选文献的第一评估值，根据第一评估值过滤候选文献数据集得到候选文献过滤集；获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，确定各候选文献的第二评估值和第三评估值，识别模块根据各候选文献的第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献，在这种情况下，利用候选文献被引用情况、候选文献在预设时间周期内的被引数目变化量以及候选文献的各施引文献的技术领域数目对候选文献识别，由此从多个角度对文献进行综合评估，提高了文献识别准确度，从而提高了技术识别的准确度。

为达上述目的，本公开第三方面实施例提出了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面实施例的基于科技文献的颠覆性技术识别方法。

为了实现上述目的，本公开第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开第一方面实施例的基于科技文献的颠覆性技术识别方法。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的一种文献识别方法的流程示意图；

图2为本公开实施例所提供的第一评估值获取方法的流程示意图；

图3为本公开实施例所提供的评估值权重获取方法的流程示意图；

图4为本公开实施例所提供的另一种文献识别方法的流程示意图；

图5为本公开实施例所提供的一种基于科技文献的颠覆性技术识别方法的流程示意图；

图6为本公开实施例提供的一种文献识别装置的结构示意图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开实施例的一些方面相一致的装置和方法的例子。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。还应当理解，本公开中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

图1为本公开实施例所提供的一种文献识别方法的流程示意图。本公开实施例提供了文献识别方法，以从多个角度对文献进行识别，提高文献识别准确度，从而提高了技术识别的准确度，如图1所示，该文献识别方法包括以下步骤：

步骤S101，构建候选文献数据集，候选文献数据集包括多篇候选文献及对应的条目信息，利用条目信息构建候选文献引文集合。

在步骤S101中，候选文献可以为科技文献。候选文献对应的条目信息可以包括但不限于doi号、引文、发表时间、发表期刊等信息，其中引文可以包括但不限于参考文献数目，各参考文献的doi号等信息。

在步骤S101中，利用条目信息构建候选文献引文集合的具体构建过程可以包括：利用各候选文献的条目信息中的doi号创建节点集合，节点集合中的各元素为各候选文献的doi号；利用各候选文献的条目信息中的引文信息创建边集合，边集合中的各元素表示某两个节点之间存在引用关系；基于节点集合和边集合获得候选文献引文集合。其中，doi号可以作为网络节点唯一标识创建节点集合，创建的节点集合V用

表示，节点集合中有k个元素，k表示候选文献数据集中候选文献数目。各元素为各候选文献的doi号。边集合E可以用

表示，边集合中有l个元素，l表示存在引用关系的节点的对数，其中元素e表示为某对节点（即两个节点）

中存在引用关系。候选文献引文集合可以用G=(V,E)表示。

步骤S102，根据候选文献引文集合获取候选文献数据集中各候选文献的施引文献数目，以及各候选文献的各施引文献的权重和引用信息，并根据施引文献数目和权重和引用信息确定各候选文献的第一评估值。

在步骤S102中，图2为本公开实施例所提供的第一评估值获取方法的流程示意图。如图2所示，第一评估值获取方法包括：根据候选文献引文集合获取候选文献数据集中各候选文献的施引文献数目（步骤S1021）；根据候选文献引文集合获取候选文献数据集中各候选文献的各施引文献的被引数目，以及各候选文献的所有施引文献的被引数目总和，利用各施引文献的被引数目与所有施引文献的被引数目总和的比值获得各候选文献的各施引文献的权重（步骤S1022）；根据候选文献引文集合获取各候选文献的各施引文献的引用信息，引用信息包括第一引用信息和第二引用信息，第一引用信息基于施引文献是否引用候选文献获得，第二引用信息基于施引文献是否引用候选文献的参考文献获得（步骤S1023）；根据各施引文献的施引文献数目、权重、第一引用信息和第二引用信息确定各候选文献的第一评估值（步骤S1024）。

在本实施例中，步骤S1021中可以用符号n表示任一个候选文献的施引文献数目，不同的候选文献的施引文献数目n可能相同也可能不同。步骤S1022中可以用符号

表示各候选文献的各施引文献的被引数目，同一个候选文献的不同施引文献的被引数目

可能相同也可能不同，同一个候选文献有n个施引文献的被引数目

。可以用符号

表示各施引文献的权重。

在步骤S1023中，第一引用信息可以用

表示，第二引用信息可以用

表示，第一引用信息基于施引文献是否引用候选文献获得，其中，若施引文献引用候选文献，则第一引用信息

取1，若施引文献没有引用候选文献，则第一引用信息

取0。第二引用信息基于施引文献是否引用候选文献的参考文献获得，其中，若施引文献引用候选文献的参考文献，则第二引用信息

取1，若施引文献没有引用候选文献的参考文献，则第二引用信息

取0。

在步骤S1024中，各候选文献的第一评估值的确定方法包括：计算各施引文献的第一引用信息与第二引用信息的乘积值；计算各施引文献的第一引用信息与2倍乘积值的差值；利用差值与各施引文献的权重的乘积，得到各施引文献的评估值；对各施引文献的评估值求和，然后除以施引文献数目获得平均值，平均值为各候选文献的第一评估值。各候选文献的第一评估值可以用Breakthrough表示。

以候选文献数据集中的一个候选文献为例，该候选文献的施引文献数目n，则各施引文献的权重

满足

。各候选文献的第一评估值Breakthrough满足：

。

在一些实施例中，若候选文献为科技文献，考虑到在颠覆性技术出现后的几年里，会逐渐得到认可并对主流技术发展产生冲击，越来越多的技术会基于颠覆性技术的方法进行改进，因此在一定时间内颠覆性技术的被引用次数会显著增加，同时对经典主流方法的引用会显著减少，在这种情况下，可以对候选文献公开后的一段时间内的第一评估值Breakthrough进行计算，结合该时间段内第一评估值Breakthrough的变化趋势评判该候选文献的突破性，若该候选文献在某个时间点前第一评估值Breakthrough较小，在某个时间点后显著增大，则说明该技术的突破性比较高，则该候选文献可能是颠覆性技术文献。另外各候选文献的第一评估值Breakthrough还考虑了候选文献引文集合的二阶引用关系，即施引文献与候选文献、以及施引文献与候选文献的参考文献，其中，参考文献也是体现技术研究的深度的依据，故第一评估值Breakthrough能够更加综合对候选文献的突破性进行评估。第一评估值Breakthrough指标值越接近1则说明该候选文献的技术越具有突破性。

步骤S103，根据各候选文献的第一评估值对候选文献数据集进行过滤，得到候选文献过滤集。

在步骤S103中，根据各候选文献的第一评估值对候选文献数据集进行过滤，得到候选文献过滤集包括：比较各候选文献的第一评估值与设定阈值，将候选文献数据集中候选文献的第一评估值小于设定阈值的候选文献进行过滤，得到候选文献过滤集。设定阈值例如可以是0.5。但本公开的预设数量不限于此。

在一些实施例中，在比较各候选文献的第一评估值与设定阈值之前，可以对计算得到的各候选文献的第一评估值进行升序或降序排列，此时在比较各候选文献的第一评估值与设定阈值时，例如可以从中值开始进行比较，当出现第一评估值小于设定阈值时，将序列中数值较小的一侧对应的候选文献过滤掉。

在另一些实施例中，在比较各候选文献的第一评估值与设定阈值之前，还可以利用排序算法根据候选文献的施引文献数目，对候选文献数据集进行逆向排序。

步骤S104，根据候选文献引文集合获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，以及各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，根据被引数目变化量确定各候选文献的第二评估值，并根据第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值。

在步骤S104中，根据被引数目变化量确定各候选文献的第二评估值包括：根据候选文献引文集合获取候选文献过滤集中各候选文献自公开后多个时间点的被引数目；计算多个预设时间周期内的被引数目变化量；选择各候选文献每个预设时间周期内的被引数目变化量的最大值，最大值为各候选文献的第二评估值。以预设时间周期是2年为例，第二评估值Innovation满足

。其中，

代表候选文献发布后的每两年被引数量之差。本公开的预设时间周期不限于此。

在一些实施例中，若候选文献为科技文献，考虑到颠覆性技术往往本身具有较高的创新度，在公开发布后会受到科学共同体的共同关注，因此在一定时间内与之相关的发文量与引文量会随着时间显著增加，通过对引文数量变化的分析，能够反映科技文献随着时间变化的动态价值，且反映了知识创新与传播的动态过程，在这种情况下，第二评估值Innovation反映了一篇科技文献在其提出后受到关注量变化的情况，第二评估值Innovation指标值越高，说明该候选文献的创新性获得认可的程度越高。

在步骤S104中，第一技术领域数目为施引文献的技术领域数目，第二技术领域数目为施引文献中非候选文献所属的技术领域数目。

在步骤S104中，根据第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值包括：计算各候选文献的各施引文献的第二技术领域数目的和与第一技术领域数目的和的比值，比值为各候选文献的第三评估值。各候选文献的第三评估值满足：

其中，n表示候选文献的施引文献数目，

表示施引文献的技术领域数目，

表示施引文献中非目标文献所属的技术领域数目。

在一些实施例中，若候选文献为科技文献，考虑到科技文献中存在一种引用关系网，这种引用关系可以用来解释学科之间的发展与联系，展望未来发展。颠覆性技术在后续发展中往往会对多个不同领域造成影响，为了衡量颠覆性技术的独创性，通过各候选文献的第三评估值对候选文献自身所处的技术领域信息进行衡量化。各候选文献的第三评估值指标反映了一篇科技文献的施引文献属于非原始科技文献自身技术领域的程度，各候选文献的第三评估值指标越高，说明目标文献对其他领域的影响程度就越深。

步骤S105，根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值，并根据各候选文献的综合评估值从候选文献过滤集中确定目标文献。

在步骤S105中，计算各候选文献的第一评估值、第二评估值和第三评估值的权重；利用各候选文献的第一评估值、第二评估值和第三评估值以及对应的权重，获得各候选文献的综合评估值。

在步骤S105中，图3为本公开实施例所提供的评估值权重获取方法的流程示意图。如图3所示，第一评估值、第二评估值和第三评估值的权重获取方法包括：计算各候选文献的第一评估值、第二评估值和第三评估值分别所占的比重（步骤S1051）；利用计算的比重计算各候选文献的第一评估值、第二评估值和第三评估值的熵，进而利用熵获取对应差异系数（步骤S1052）；利用差异系数获得各候选文献的第一评估值、第二评估值和第三评估值的权重（步骤S1053）。其中，可以用

表示第一评估值、第二评估值和第三评估值中各评估值的熵，各评估值的熵

满足：

式中

表示第i篇候选文献的第j项评估值所占的比重，j取1至3，分别对应第一评估值、第二评估值和第三评估值。差异系数

满足

。各评估值的权重

满足：

。

在本实施例中，根据各候选文献的综合评估值从候选文献过滤集中确定目标文献包括：对综合评估值进行排序，将从最大综合评估值开始的预设数量的综合评估值对应的候选文献识别为目标文献。其中，预设数量例如可以为50。但本公开的预设数量不限于此。

图4为本公开实施例所提供的另一种文献识别方法的流程示意图。图4所示的文献识别方法包括：

步骤S201，构建候选文献数据集，候选文献数据集包括多篇候选文献及对应的条目信息，利用条目信息构建候选文献引文集合。

具体过程参见上述步骤S101，此处不再赘述。

步骤S202，根据候选文献引文集合获取候选文献数据集中各候选文献的施引文献数目，以及各候选文献的各施引文献的权重和引用信息，并根据施引文献数目和权重和引用信息确定各候选文献的第一评估值。

具体过程参见上述步骤S102，此处不再赘述。

步骤S203，根据各候选文献的第一评估值对候选文献数据集进行过滤，得到候选文献过滤集。

具体过程参见上述步骤S103，此处不再赘述。

步骤S204，根据候选文献引文集合获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，以及各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，根据被引数目变化量确定各候选文献的第二评估值，并根据第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值。

具体过程参见上述步骤S104，此处不再赘述。

步骤S205，对候选文献过滤集进行过滤处理。

在步骤S205，过滤处理可以包括：针对候选文献过滤集，根据各候选文献的施引文献的发表时序信息绘制各候选文献的引文时序曲线；利用Kolmogorov-Smirnov拟合优度对各候选文献的引文时序曲线进行判断，过滤所有不属于经典引文曲线的候选文献，得到过滤后的候选文献过滤集。

在步骤S205，利用Kolmogorov-Smirnov拟合优度对各候选文献的引文时序曲线进行判断前可以使用Scipy库对对数正态函数进行拟合。

步骤S206，根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值，并根据各候选文献的综合评估值从过滤后的候选文献过滤集中确定目标文献。其中确定方法可以参照上述步骤S105。

以候选文献数据集是科技文献数据集为例，获得的目标文献为颠覆性技术文献，本公开涉及的文献识别方法为一种基于科技文献的颠覆性技术识别方法。

图5为本公开实施例所提供的一种基于科技文献的颠覆性技术识别方法的流程示意图。如图5所示，基于科技文献的颠覆性技术识别方法包括：

步骤1、科技文献信息预处理与节点集构建：首先确定候选文献数据集，例如候选科技文献集合DS，对候选文献数据集进行预处理（即数据清洗），然后基于科技文献条目信息（例如doi号、引文、发表时间、发表期刊等）；选取科技文献条目信息中的doi字段作为网络节点唯一标识，创建节点集合

，其中k为候选文献数据集中候选文献数目。步骤1中候选科技文献集合DS例如可以是论文数据集合。其中，预处理包括但不限于去重、过滤等方式。节点集合即为节点集。

步骤2、文献引文信息处理与边集构建：根据候选科技文献集DS中所包含的所有引文信息，根据用doi字段创建边集合

，其中e表示为某两个节点

中存在引用关系。其中，边集即为边集合。

步骤3、大规模引文网络构建：基于节点集合Vertex（Vertex可以简写为V）与边集合Edge（Edge可以简写为E）构建大规模科技文献引文网络G=(V,E)。

步骤4、节点突破性评估：利用第一评估值公式

，根据引文网络G中节点的引文结构来判断引文网络G中所有节点的突破性，Breakthrough的指标值越接近1则说明该候选文献的技术越具有突破性，n表示候选文献的施引文献数目，

表示第一引用信息，

表示第二引用信息。另外步骤4还需要对候选文献公开后的一段时间内的第一评估值Breakthrough进行计算，结合该时间段内第一评估值Breakthrough的变化趋势评判该候选文献的突破性。

步骤5、将第一评估值Breakthrough指标值小于设定阈值0.5的条目进行过滤，得到候选颠覆性技术文献集合DS’（即候选文献过滤集）。

步骤6、节点创新性评估：对候选颠覆性技术文献集DS’，使用第二评估值公式

，步骤6中根据候选文献的被引用变化情况来计算候选文献的创新性指标。

代表候选文献发布后的每两年被引数量之差，该两年为预设时间周期。第二评估值还可以基于重新设定的预设时间周期进行计算。

步骤7、节点独创性评估：对候选颠覆性技术文献集DS’，根据第三评估值公式

，计算每一篇候选文献的独创性指标。

步骤8、根据候选颠覆性技术论文集DS’，根据其施引文献发表时序信息并绘制其引文时序曲线，使用Scipy库对对数正态函数进行拟合并利用Kolmogorov-Smirnov（K-S）拟合优度对候选文献的引文时序曲线进行判断，过滤所有不属于经典引文曲线的候选文献，得到过滤后的颠覆性技术科技文献集合DS’’（即过滤后的候选文献过滤集）。

步骤9、对于第一评估值Uniquess、第二评估值Innovation、第三评估值Breakthrough利用熵值法确定指标权重。

具体地，设过滤后的颠覆性技术科技文献集合DS’’的指标矩阵为X，该指标矩阵满足

，其中

代表第i篇候选文献在第j项指标上的得分值。

首先对所有的指标值（即评估值）进行归一化处理：

其中，

表示在第j项指标上候选文献的最高的得分值，

表示在第j项指标上候选文献的最低的得分值，

代表归一化后的第i篇候选文献在第j项指标上的得分值。归一化后的指标矩阵满足

。

随后基于归一化后的指标矩阵计算第i篇候选文献的第j项指标值所占的比重：

接着计算第j项指标的熵值：

确定第j项指标的差异系数：

其中指标的差异系数越大，对于最后的评估的作用越大。

确定第j项指标的权重：

步骤10、根据计算得到的权重，综合第一评估值、第二评估值和第三评估值得到最终指标值Comprehensive（即综合指标），对最终指标值Comprehensive进行逆序排序，选择前TOP-50作为颠覆性技术文献进行推荐，从而实现颠覆性技术识别。该前TOP-50的颠覆性技术文献形成了颠覆性论文集合。另外步骤10中的50为预设数量，预设数量还可以为其他数值。

本公开实施例提出的文献识别方法，基于构建的候选文献数据集获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息，进而确定各候选文献的第一评估值，根据第一评估值过滤候选文献数据集得到候选文献过滤集；获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，确定各候选文献的第二评估值和第三评估值，根据各候选文献的第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献，在这种情况下，利用候选文献的施引文献和参考文献被引用情况、候选文献在预设时间周期内的被引数目变化量以及候选文献的各施引文献的技术领域数目对候选文献识别，由此从多个角度对文献进行综合评估，提高了文献识别准确度，从而提高了技术识别的准确度。若候选文献为科技文献，则本公开涉及的文献识别方法为一种基于科技文献的颠覆性技术识别方法，该颠覆性技术识别方法是多维颠覆性技术识别方法，该方法基于大规模科技文献的引文特征、时序信息以及科技文献的所有参考文献的引文特征计算三个评估值，根据科技文献引文信息构建网络并对相关技术进行突破性评估，根据科技文献年份引用变化情况判断技术创新型，根据科技文献引文结构的领域分布捕获颠覆性技术对其他技术领域的影响力，从技术传递的角度上对颠覆性技术进行独创性评估，从突破性、创新型、独创性和时序增长度四方面综合判断，把握颠覆性技术的不同方面的特征，实现从多个角度对颠覆性技术进行识别，提高了对科技文献识别准确度，从而能够更加准确的对科技文献的颠覆性进行量化，还弥补了单一特征不足，同时能够对技术创新流动过程进行捕获。

为了实现上述实施例，本公开还提出一种文献识别装置。图6为本公开实施例提供的一种文献识别装置的结构示意图。

如图6所示，该文献识别装置10包括获取模块11、处理模块12和识别模块13，其中：

获取模块11可以用于构建候选文献数据集，候选文献数据集包括多篇候选文献及对应的条目信息，利用条目信息构建候选文献引文集合；

处理模块12可以用于根据候选文献引文集合获取候选文献数据集中各候选文献的施引文献数目，以及各候选文献的各施引文献的权重和引用信息，并根据施引文献数目和权重和引用信息确定各候选文献的第一评估值；根据各候选文献的第一评估值对候选文献数据集进行过滤，得到候选文献过滤集；根据候选文献引文集合获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，以及各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，第一技术领域数目为施引文献的技术领域数目，第二技术领域数目为施引文献中非候选文献所属的技术领域数目，根据被引数目变化量确定各候选文献的第二评估值，并根据第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值；

识别模块13可以用于根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值，并根据各候选文献的综合评估值从候选文献过滤集中确定目标文献。

本公开实施例提出的文献识别装置，处理模块基于获取模块构建的候选文献数据集获取候选文献数据集中各候选文献的施引文献数目、各候选文献的各施引文献的权重和引用信息，进而确定各候选文献的第一评估值，根据第一评估值过滤候选文献数据集得到候选文献过滤集；获取候选文献过滤集中各候选文献在预设时间周期内的被引数目变化量，各候选文献的各施引文献的第一技术领域数目和第二技术领域数目，确定各候选文献的第二评估值和第三评估值，识别模块根据各候选文献的第一评估值、第二评估值和第三评估值从候选文献过滤集中确定目标文献，在这种情况下，利用候选文献的施引文献和参考文献被引用情况、候选文献在预设时间周期内的被引数目变化量以及候选文献的各施引文献的技术领域数目对候选文献识别，由此从多个角度对文献进行综合评估，提高了文献识别准确度，从而提高了技术识别的准确度。

需要说明的是，前述对文献识别方法实施例的解释说明也适用于该实施例的文献识别装置，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7为本公开实施例提供的一种电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴电子设备和其它类似的计算装置。本公开所示的部件、部件的连接和关系、以及部件的功能仅仅作为示例，并且不意在限制本公开中描述的和/或者要求的本公开的实现。

如图7所示，电子设备20包括计算单元21，其可以根据存储在只读存储器（ROM）22中的计算机程序或者从存储单元28加载到随机存取存储器（RAM）23中的计算机程序，来执行各种适当的动作和处理。在RAM 23中，还可存储电子设备20操作所需的各种程序和数据。计算单元21、ROM 22以及RAM 23通过总线24彼此相连。输入/输出（I/O）接口25也连接至总线24。电子设备20中的多个部件连接至I/O接口25，包括：输入单元26，例如键盘、鼠标等；输出单元27，例如各种类型的显示器、扬声器等；存储单元28，例如磁盘、光盘等，存储单元28与计算单元21通信连接；以及通信单元29，例如网卡、调制解调器、无线通信收发机等。通信单元29允许电子设备20通过诸如因特网的计算机网络和/或各种电信网络与其他电子设备交换信息/数据。

计算单元21可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元21的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元21执行上述所描述的各个方法和处理，例如执行文献识别方法。例如，在一些实施例中，执行文献识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元28。在一些实施例中，计算机程序的部分或者全部可以经由ROM 22和/或通信单元29而被载入和/或安装到电子设备20上。当计算机程序加载到RAM 23并由计算单元21执行时，可以执行上述描述的执行文献识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元21可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文献识别方法。

本公开中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑电子设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或电子设备使用或与指令执行系统、装置或电子设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或电子设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存电子设备、磁储存电子设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、互联网和区块链网络。计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本公开在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文献识别方法，其特征在于，包括：

根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值，并根据所述各候选文献的综合评估值从所述候选文献过滤集中确定目标文献；

其中，所述根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值包括：

计算各候选文献的第一评估值、第二评估值和第三评估值分别所占的比重；

利用计算的比重计算各候选文献的第一评估值、第二评估值和第三评估值的熵，进而利用所述熵获取对应差异系数；

利用差异系数获得各候选文献的第一评估值、第二评估值和第三评估值的权重；

利用各候选文献的第一评估值、第二评估值和第三评估值以及对应的权重，获得各候选文献的综合评估值。

2.根据权利要求1所述的文献识别方法，其特征在于，所述根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的施引文献数目，以及所述各候选文献的各施引文献的权重和引用信息，并根据所述施引文献数目和所述权重和引用信息确定所述各候选文献的第一评估值包括：

根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的施引文献数目；

根据所述候选文献引文集合获取所述候选文献数据集中各候选文献的各施引文献的被引数目，以及各候选文献的所有施引文献的被引数目总和，利用所述各施引文献的被引数目与所有施引文献的被引数目总和的比值获得所述各候选文献的各施引文献的权重；

根据所述候选文献引文集合获取所述各候选文献的各施引文献的引用信息，所述引用信息包括第一引用信息和第二引用信息，所述第一引用信息基于所述施引文献是否引用所述候选文献获得，所述第二引用信息基于所述施引文献是否引用所述候选文献的参考文献获得；

根据各施引文献的所述施引文献数目、所述权重、所述第一引用信息和所述第二引用信息确定所述各候选文献的第一评估值。

3.根据权利要求2所述的文献识别方法，其特征在于，所述根据各施引文献的所述施引文献数目、所述权重、所述第一引用信息和所述第二引用信息确定所述各候选文献的第一评估值包括：

计算各施引文献的所述第一引用信息与所述第二引用信息的乘积值；

计算各施引文献的所述第一引用信息与2倍所述乘积值的差值；

利用所述差值与所述各施引文献的权重的乘积，得到各施引文献的评估值；

对各施引文献的评估值求和，然后除以所述施引文献数目获得平均值，所述平均值为所述各候选文献的第一评估值。

4.根据权利要求1所述的文献识别方法，其特征在于，所述根据所述各候选文献的第一评估值对所述候选文献数据集进行过滤，得到候选文献过滤集包括：

比较各候选文献的第一评估值与设定阈值，将所述候选文献数据集中候选文献的第一评估值小于所述设定阈值的候选文献进行过滤，得到候选文献过滤集。

5.根据权利要求1所述的文献识别方法，其特征在于，所述根据被引数目变化量确定各候选文献的第二评估值包括：

获取各候选文献自发布后每个预设时间周期内的被引数目变化量的最大值，所述最大值为各候选文献的第二评估值。

6.根据权利要求1所述的文献识别方法，其特征在于，所述根据所述第一技术领域数目和第二技术领域数目确定各候选文献的第三评估值包括：

计算各候选文献的各施引文献的第二技术领域数目的和与第一技术领域数目的和的比值，所述比值为各候选文献的第三评估值。

7.根据权利要求1所述的文献识别方法，其特征在于，在获得各候选文献的综合评估值之前还包括：

对候选文献过滤集进行过滤处理，所述过滤处理包括：针对候选文献过滤集，根据各候选文献的施引文献的发表时序信息绘制各候选文献的引文时序曲线；利用Kolmogorov-Smirnov拟合优度对各候选文献的引文时序曲线进行判断，过滤所有不属于经典引文曲线的候选文献，得到过滤后的候选文献过滤集。

8.根据权利要求1所述的文献识别方法，其特征在于，所述根据所述各候选文献的综合评估值从所述候选文献过滤集中确定目标文献包括：对所述综合评估值进行排序，将从最大综合评估值开始的预设数量的综合评估值对应的候选文献识别为目标文献。

9.根据权利要求1-8中任一项所述的文献识别方法，其特征在于，所述候选文献数据集为科技文献数据集，所述目标文献为颠覆性技术文献。

10.一种文献识别装置，其特征在于，包括：

识别模块，用于根据各候选文献的第一评估值、第二评估值和第三评估值获得各候选文献的综合评估值，并根据所述各候选文献的综合评估值从所述候选文献过滤集中确定目标文献；

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的文献识别方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的文献识别方法。