CN116578751A - 一种主路径分析方法及装置 - Google Patents

一种主路径分析方法及装置 Download PDF

Info

Publication number
CN116578751A
CN116578751A CN202310851036.XA CN202310851036A CN116578751A CN 116578751 A CN116578751 A CN 116578751A CN 202310851036 A CN202310851036 A CN 202310851036A CN 116578751 A CN116578751 A CN 116578751A
Authority
CN
China
Prior art keywords
main path
node
network
nodes
sink
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310851036.XA
Other languages
English (en)
Other versions
CN116578751B (zh
Inventor
张婷
欧阳昭连
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medical Information CAMS
Original Assignee
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medical Information CAMS filed Critical Institute of Medical Information CAMS
Priority to CN202310851036.XA priority Critical patent/CN116578751B/zh
Publication of CN116578751A publication Critical patent/CN116578751A/zh
Application granted granted Critical
Publication of CN116578751B publication Critical patent/CN116578751B/zh
Priority to US18/529,648 priority patent/US20240104137A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种主路径分析方法及装置,方法包括:获取引文网络中源节点、汇节点和过程节点的节点分布信息;在节点分布信息满足预设分布条件的情况下,屏蔽引文网络中特定节点所连接的边,以得到引文网络的子网络,特定节点包括源节点和/或汇节点;保存特定节点的引用关系;获取子网络的第一主路径,并利用保存的特定节点的引用关系,在第一主路径中补充与第一主路径相关的引用关系,以得到引文网络的主路径,由此,在分析引文网络的主路径过程中,不需要计算特定节点所连接的边的权重,减少了计算量,从而降低主路径分析的耗时。并且在第一主路径上补充引文网络的特定节点和恢复了部分特定节点相连的引用关系,保证了主路径的完整性。

Description

一种主路径分析方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种主路径分析方法及装置。
背景技术
引文网络是由文献资料间引用和被引用的关系构成的一个有向无环图(DirectedAcyclic Graph,DAG),这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等。其中,每个文献资料作为引文网络中的一个节点,节点之间通过文献资料间的引用和被引用关系进行连接,以形成引文网络中两个节点之间的边。
在构建出引文网络后,利用主路径分析方式从引文网络中提取出用于体现技术发展主体脉络(也可以称为技术发展方向)的主路径。主路径分析方法主要是计算引文网络中每条边的权重,基于每条边的权重从引文网络中提取出主路径。但是,主路径分析方法存在耗时长的问题。
发明内容
本申请提供一种主路径分析方法及装置,用于在降低主路径分析的耗时的同时保证主路径的完整性。为实现上述目的,本申请提供如下技术方案:
第一方面,本申请提供一种主路径分析方法,所述方法包括:
获取引文网络中源节点、汇节点和过程节点的节点分布信息;
在所述节点分布信息满足预设分布条件的情况下,屏蔽所述引文网络中特定节点所连接的边,以得到所述引文网络的子网络,所述特定节点包括所述源节点和/或汇节点;
保存所述特定节点的引用关系,所述特定节点的引用关系用于得到特定节点所连接的边;
获取所述子网络的第一主路径,并利用保存的所述特定节点的引用关系,在所述第一主路径中补充与所述第一主路径相关的引用关系,以得到所述引文网络的主路径。
可选的,所述方法还包括:
利用所述主路径中的节点和边,构建主路径网络;
获取所述主路径网络的第二主路径;
若所述第二主路径与所述主路径不匹配,将所述主路径更新为所述第二主路径。
可选的,所述若所述第二主路径与所述主路径不匹配,将所述主路径更新为所述第二主路径包括:
若所述第二主路径与所述主路径不匹配,利用所述第二主路径中的节点和边,构建新的主路径网络,并获取所述新的主路径网络的第三主路径;
若所述第三主路径与所述第二主路径匹配,将所述主路径更新为所述第二主路径;
若所述第三主路径与所述第二主路径不匹配,将所述第二主路径更新为所述第三主路径,利用更新后的所述第二主路径中的节点和边,再次构建新的主路径网络,并获取再次构建的主路径网络的第三主路径,直至再次构建的主路径网络的第三主路径与更新后的所述第二主路径匹配,将所述主路径更新为所述更新后的所述第二主路径。
可选的,所述利用所述主路径中的节点和边,构建主路径网络包括:
在接收到用户触发了再次提取主路径的操作后,利用所述主路径中的节点和边,构建所述主路径网络;
或者
在所述主路径的路径参数满足预设主路径分析条件的情况下,利用所述主路径中的节点和边,构建所述主路径网络,其中所述路径参数包括所述过程节点在所述主路径中的占比、所述主路径中的节点数量和主路径总数中的至少一种参数。
可选的,所述利用保存的所述特定节点的引用关系,在所述第一主路径中补充与所述第一主路径相关的引用关系,以得到所述引文网络的主路径包括:
在所述特定节点包括所述源节点的情况下,利用所述源节点的引用关系,确定所述第一主路径中的起点所引用的所有源节点,基于所述所有源节点中各源节点的出度,选择添加至所述第一主路径中的源节点并恢复该源节点与所述第一主路径中的起点之间的边关系;
和/或
在所述特定节点包括所述汇节点的情况下,利用所述汇节点的引用关系,确定引用所述第一主路径中的终点的所有汇节点,基于所述所有汇节点中各汇节点的入度,选择添加至所述第一主路径中的汇节点并恢复该汇节点与所述第一主路径中的终点之间的边关系。
可选的,所述在所述节点分布信息满足预设分布条件的情况下,屏蔽所述引文网络中特定节点所连接的边,以及保存所述特定节点的引用关系包括:
在所述源节点在所述引文网络中的占比大于所述过程节点在所述引文网络中的占比的情况下,屏蔽所述源节点所连接的边,并保存所述源节点的引用关系;
和/或
在所述汇节点在所述引文网络中的占比大于所述过程节点在所述引文网络中的占比的情况下,屏蔽所述汇节点所连接的边,并保存所述汇节点的引用关系。
第二方面,本申请提供一种主路径分析装置,所述装置包括:
第一获取单元,用于获取引文网络中源节点、汇节点和过程节点的节点分布信息;
屏蔽单元,用于在所述节点分布信息满足预设分布条件的情况下,屏蔽所述引文网络中特定节点所连接的边,以得到所述引文网络的子网络,所述特定节点包括所述源节点和/或汇节点;
保存单元,用于保存所述特定节点的引用关系,所述特定节点的引用关系用于得到特定节点所连接的边;
第二获取单元,用于获取所述子网络的第一主路径;
补充单元,用于利用保存的所述特定节点的引用关系,在所述第一主路径中补充与所述第一主路径相关的引用关系,以得到所述引文网络的主路径。
可选的,所述装置还包括:
构建单元,用于利用所述主路径中的节点和边,构建主路径网络;
第三获取单元,用于获取所述主路径网络的第二主路径;
更新单元,用于若所述第二主路径与所述主路径不匹配,将所述主路径更新为所述第二主路径。
可选的,所述补充单元,用于在所述特定节点包括所述源节点的情况下,利用所述源节点的引用关系,确定所述第一主路径中的起点所引用的所有源节点,基于所述所有源节点中各源节点的出度,选择添加至所述第一主路径中的源节点并恢复该源节点与所述第一主路径中的起点之间的边关系;
和/或
在所述特定节点包括所述汇节点的情况下,利用所述汇节点的引用关系,确定引用所述第一主路径中的终点的所有汇节点,基于所述所有汇节点中各汇节点的入度,选择添加至所述第一主路径中的汇节点并恢复该汇节点与所述第一主路径中的终点之间的边关系。
第三方面,本申请提供一种存储介质,所述存储介质中存储有程序,所述程序被处理器执行时实现上述主路径分析方法。
由以上技术方案可知,在引文网络的节点分布信息满足预设分布条件的情况下,屏蔽特定节点所连接的边,以得到引文网络的子网络,这样子网络的节点数量大大减少,并且在获取子网络的第一主路径的过程中有效减少了计算量。在得到子网络的第一主路径之后,利用保存的特定节点的引用关系,在第一主路径中补充与第一主路径相关的引用关系,从而得到引文网络的主路径。由此,在分析引文网络的主路径过程中,不需要计算特定节点所连接的边的权重,减少了计算量,从而降低主路径分析的耗时。并且在第一主路径上补充了与第一主路径相关的引用关系,使得引文网络的主路径是信息完整的路径,保证了主路径的完整性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的有向无环图的示意图;
图2为本申请实施例提供的有向有环图的示意图;
图3为本申请实施例提供的主路径分析方法的一种流程图;
图4为本申请实施例提供的专利引文网络的示意图;
图5为本申请实施例提供的专利引文网络的子网络的示意图;
图6为本申请实施例提供的主路径分析方法的另一种流程图;
图7为本申请实施例提供的主路径分析装置的一种结构示意图;
图8为本申请实施例提供的主路径分析装置的另一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,对本申请实施例涉及的术语进行说明:
有向无环图(Directed Acyclic Graph,DAG):由节点(nodes)和节点之间带有单向箭头的连线组成,并且组成的图结构中不存在回路(或环路)。图1示出了有向无环图的一种示例,每个数字表示一个节点,如数字0可以表示有向无环图中的节点0,数字1可以表示有向无环图中的节点1,节点之间带有单向箭头的连线为两个节点之间的边。除了有向无环图之外,多个节点通过连线可以组成一个有向有环图,如图2所示,其中,0-1-2-4-0构成一个环路,本申请实施例中的引文网络是一个有向无环图。
节点的入度:节点被指向的箭头个数;
节点的出度:节点指出去的箭头个数;以图1为例,节点2的出度为1,入度为2。
节点类型:有向无环图包括源节点、汇节点、过程节点和独立节点,其中有向无环图的起点为源节点,有向无环图的终点是汇节点,以出度和入度说明,入度为0的节点为源节点,出度为0的节点为汇节点。出度和入度均为0的节点是独立节点;出度和入度均不为0的节点是过程节点。
专利引文网络:将每个专利视为有向无环图中的一个节点,一个专利拥有引用专利或被引专利或二者皆有,所有专利的引用关系构成专利引文网络。
主路径:也称为主脉络,指的是从引文网络的一个源节点到一个汇节点的路径;主路径上的节点视为研究过程中较为重要的内容/方向,以通过主路径上的节点形成技术发展主体脉络。一个引文网络可能包括多条主路径。
其中,引文网络的主路径可以基于引文网络中每条边的权重得到,例如,查找从引文网络的任意源节点到任意汇节点的所有可选路径,基于每条可选路径中每条边的权重计算每条可选路径的权重;从所有可选路径中选择权重最大的可选路径为引文网络的主路径。但是,引文网络中的节点数量众多,权重计算的耗时较长,尤其是在源节点和汇节点在引文网络中的占比较大时,在提取主路径时需要计算大量的任意源节点到任意汇节点的可选路径的权重,导致计算量巨大,从而增大了主路径分析的耗时。该问题随着引文网络中节点数量的增加越发严峻。
本申请实施例提供一种主路径分析方法,在分析引文网络的主路径过程中减少计算量,以降低主路径分析的耗时并能够保证主路径的完整性。图3示出了本申请实施例提供的主路径分析方法的一种流程图,可以包括以下步骤:
101、获取引文网络中源节点、汇节点和过程节点的节点分布信息。在本实施例中,引文网络可以是基于文献资料间引用和被引用关系预先构建好的一个有向无环图,引文网络的构建过程包括:获取文献资料的引用关系,基于文献资料的引用关系构建文献资料之间的连线,该连线作为文献资料之间的边,在基于文献资料的引用关系将所有文献资料连接后,得到文献资料的引文网络。
以专利引文网络为例,从下载的专利文件中提取每个专利的CP字段信息(即引用专利信息),以构成专利文件之间的专利引用关系,基于专利引用关系,构建一个作为专利引文网络的有向无环图,如图4示出的专利引文网络。其中,专利文件之间的专利引用关系指示出了两个专利文件的引用和被引用关系。以专利文件之间的专利引用关系构建专利文件之间的边,边的箭头指向是基于专利引用关系确定,如专利文件A引用专利文件B,则在专利文件A和专利文件B之间连接一条边,且边的箭头为从专利文件B指向专利文件A。在完成所有专利文件之间的连接后得到一个作为专利引文网络的有向无环图。
在本实施例中,节点分布信息用于指示节点在引文网络中的占比,即节点在引文网络中所占比重,任意类型节点的节点分布信息为该类型节点的数量占引文网络中节点总数量的比重。因为独立节点与其他节点不存在引用关系,使得独立节点与其他节点之间没有边连接,所以独立节点与主路径提取无关。
102、在节点分布信息满足预设分布条件的情况下,屏蔽引文网络中特定节点所连接的边,以得到引文网络的子网络,特定节点包括源节点和/或汇节点。
源节点表示一条技术发展主体脉络的起始,汇节点表示一条技术发展主体脉络的结尾,因此,引文网络中源节点和/或汇节点的数量较多,导致源节点和/或汇节点在引文网络中的占比较大。如图4所示专利引文网络中,源节点和汇节点在引文网络中的占比显著大于过程节点在引文网络中的占比,那么,在主路径分析过程中,源节点和汇节点所连接的边的权重计算会占用较大的计算量,从而增大主路径分析的耗时。针对该情况,本实施例可以屏蔽引文网络中源节点和/或汇节点相连的边,将源节点和/或汇节点暂时变为网络中的独立节点(独立节点不对主路径计算造成影响)。其中,屏蔽节点所连接的边是指禁用节点所连接的边,以在主路径分析过程中不再计算这些节点所连接的边的权重,以减少计算量。
在一些示例中,屏蔽节点所连接的边可以是断开节点所连接的边;在一些示例中,屏蔽节点所连接的边可以是删除节点所连接的边;通过屏蔽节点所连接的边的方式可以将一个引文网络划分成至少一个子网络。如图4所示的专利引文网络,在屏蔽节点所连接的边后,专利引文网络被划分成图5所示的两个子网络(子网络1和子网络2)。
在本实施例中,节点所连接的边是在节点的节点分布信息满足预设条件的情况下屏蔽。其中,预设条件用于指示屏蔽的节点所连接的边使得主路径分析的耗时增大。在源节点的节点分布信息满足预设条件时,屏蔽源节点所连接的边;在汇节点的节点分布信息满足预设条件时,屏蔽汇节点所连接的边。若源节点的节点分布信息满足预设条件、且汇节点的节点分布信息满足预设条件,则屏蔽这两种类型的节点所连接的边。
在一些示例中,预设条件可以包括:源节点在引文网络中的占比大于第一预设占比、和/或、汇节点在引文网络中的占比大于第二预设占比。在一些示例中,预设条件用于指示源节点与过程节点在引文网络中的分布比对情况、和/或、汇节点与过程节点在引文网络中的分布比对情况。例如,源节点在引文网络中的占比大于过程节点在引文网络中的占比的情况下,屏蔽引文网络中源节点所连接的边;和/或,在汇节点在引文网络中的占比大于过程节点在引文网络中的占比的情况下,屏蔽引文网络中汇节点所连接的边。在本实施例中,预设条件还可以设定源节点与过程节点的占比差距,在达到该占比差距时屏蔽引文网络中源节点所连接的边;和/或,在预设条件中设定汇节点与过程节点的占比差距,在达到该占比差距时屏蔽引文网络中汇节点所连接的边。
在这里需要说明的一点是:一条路径中的过程节点可以体现该条路径指示的技术发展主体脉络的技术发展过程,因此过程节点的重要程度大于源节点和汇节点的重要程度,引文网络中的过程节点包含了技术发展的绝大部分信息,从中提取的主路径能够代表技术发展主体脉络。
103、保存特定节点的引用关系,特定节点的引用关系用于得到特定节点所连接的边。其中,保存特定节点的引用关系的目的是为了能够正常恢复特定节点相连的边。例如在屏蔽源节点和/或汇节点相连的边后,引文网络的源节点和/或汇节点暂时转变为独立节点。子网络仅包含引文网络的过程节点,子网络的主路径可以反映引文网络中技术发展主体脉络的技术发展过程,但是丢失了该技术发展主体脉络在引文网络中的起始和结尾,而特定节点的引用关系能够补充该技术发展主体脉络在引文网络中的起始和结尾,保证技术发展主体脉络(即引文网络的主路径)的完整性。
特定节点的引用关系可以存储在外部文件中,外部文件与引文网络可以是一对一关系。在完成引文网络的主路径分析后,将该引文网络对应的外部文件删除或者删除该外部文件中保存的特定节点的引用关系。又或者,在外部文件中存储引文网络的标识(如引文网络的名称和/或编号等),一个引文网络的特定节点的引用关系与该引文网络的标识对应,以通过引文网络的标识区分特定节点所连接的边,防止错误使用特定节点相连的边的几率。
在本实施例中,若屏蔽了引文网络中源节点所连接的边,则保存源节点的引用关系;若屏蔽了引文网络中汇节点所连接的边,则保存汇节点的引用关系。
104、获取子网络的第一主路径。获取第一主路径的过程是:计算子网络的边的权重,基于边的权重和预设主路径搜索算法,从子网络中获取第一主路径。边的权重可通过预设边权算法,如搜索路径计数(SPC)、搜索路径链接计数(SPLC)、搜索路径节点对(SPNP)等中的至少一种算法计算边的权重;然后利用本地搜索(Local)、全局搜索(Global)和关键路线搜索(Key-Route)等中的至少一种算法搜索出第一主路径。
105、利用保存的特定节点的引用关系,在第一主路径中补充与第一主路径相关的引用关系,以得到引文网络的主路径。虽然第一主路径是子网络的主路径,但是第一主路径是由引文网络中的过程节点组成,使得第一主路径缺少引文网络中的源节点和/或汇节点(具体看屏蔽哪些边)及其边关系。由此,通过第一主路径得到引文网络的主路径时需要在第一主路径上添加缺少的节点以及恢复关键的边关系,以保证引文网络的主路径的完整性。关键的边关系可以是第一主路径中的节点(如起点和终点)相关的边关系。
在本实施例中,利用保存的特定节点的引用关系,在第一主路径上添加与该第一主路径的起点具有引用关系的一个源节点,并恢复与该源节点的边关系、和/或,在第一主路径上添加与该第一主路径的终点具有引用关系的一个汇节点,并恢复与该汇节点的边关系。其过程如下:
在特定节点包括源节点的情况下,利用源节点的引用关系,确定第一主路径中的起点所引用的所有源节点,基于所有源节点中各源节点的出度,选择添加至第一主路径中的源节点并恢复该源节点与第一主路径中的起点之间的边关系;例如,选择出度最大的源节点,在该源节点和第一主路径的起点之间增加连线,连接的箭头指向为从源节点指向起点,以符合源节点和起点的引用关系,从而该源节点作为了主路径的源节点。和/或,在特定节点包括汇节点的情况下,利用汇节点的引用关系,确定引用第一主路径中的终点的所有汇节点,基于所有汇节点中各汇节点的入度,选择添加至第一主路径中的汇节点并恢复该汇节点与第一主路径中的终点之间的边关系;例如,选择入度最大的汇节点,在该汇节点和第一主路径的终点之间增加连线,连接的箭头指向为从终点指向汇节点,以符合汇节点和终点的引用关系,从而该汇节点作为了主路径的汇节点。
假设从图5所示子网络1中获取如下三条第一主路径,编号为子网络1中的节点编号:
第一主路径1:23-25-28-32-34;第一主路径2:24-26-30-34;第一主路径3:24-26-31-34。因为在获取第一主路径之前进行了屏蔽源节点和汇节点相连边的操作,在获取到子网络1中的三条第一主路径后,对这三条第一主路径进行源节点和汇节点的添加及恢复关键的边关系。关键的边关系是第一主路径中的起点与所添加的源节点之间的边关系、第一主路径中的终点与所添加的汇节点之间的边关系。
从外部文件保存的引用关系中,查找到与节点23和节点24相关的源节点,与节点34相关的汇节点。例如,与节点23相关的源节点为[9],与节点24相关的源节点为[9],与节点34相关的汇节点为[35,36,37,38,47,48,49,50]。按汇节点的入度对所有汇节点进行筛选,保留下的汇节点有[35,38,50]。在上述三条第一主路径中添加源节点和汇节点,得到引文网络的九条主路径如下:
9-23-25-28-32-34-35、9-23-25-28-32-34-38、9-23-25-28-32-34-50、9-24-26-30-34-35、9-24-26-30-34-38、9-24-26-30-34-50、9-24-26-31-34-35、9-24-26-31-34-38、9-24-26-31-34-50。
由此,子网络的第一主路径是通过分析引文网络中各过程节点的边的权重得到,能够准确地从子网络中提取到表示技术发展过程的过程节点,而子网络的第一主路径中的各节点作为引文网络的主路径中的各过程节点,从而保证了主路径中各过程节点的准确度。在得到第一主路径后根据保存的源节点和/或汇节点的引用关系,在第一主路径上添加源节点和/或汇节点并恢复关键的边关系即可得到主路径,从而无需计算源节点和/或汇节点所连接边的权重,减少了计算量。在添加源节点和/或汇节点过程中,按照源节点的出度选择重要的源节点(如能够代表技术发展来源的源节点)、按照汇节点的入度选择重要的汇节点(如能够代表技术发展趋势的汇节点),提高主路径中源节点和汇节点的准确度并保证主路径的完整性。因此,屏蔽源节点和/或汇节点相连的边能够在不影响主路径提取准确性的同时极大降低主路径分析的计算量,添加(即补充)源节点和/或汇节点以及恢复边关系能保证主路径的完整性。
请参见图6,其示出了本申请实施例提供的主路径分析方法的另一种流程,可以包括以下步骤:
201至205、与上述步骤101至步骤105相同。
206、利用主路径中的节点和边,构建主路径网络。
可以理解的是:主路径中的节点和边是引文网络中较为重要(即权重较大)的节点和边,用这些节点和边构建的主路径网络是引文网络的一个子集,由此主路径网络可以视为能代表引文网络的精细网络。
在得到引文网络的主路径后,从主路径上提取存在引用关系的边,利用这些边构建主路径网络。以上述引文网络的九条主路径为例,从这九条主路径中提取到的边包括:9-23、9-24、23-25、25-28、28-32、32-34、34-35、34-38、34-50、24-26、26-30、30-34、34-35、34-38、34-50、26-31、31-34、34-35、34-38、34-50;然后利用这些边构建出一个主路径网络。
通常情况下,在第一主路径上添加源节点和/或汇节点及恢复其边关系可能导致引文网络的主路径数量较多,影响对引文网络的技术发展主体脉络的分析,因此在得到引文网络的主路径后,可以利用主路径构建出主路径网络,对主路径网络进行主路径分析,由此实现对引文网络的至少二次主路径分析,以达到精简引文网络的主路径的目的。
在一些示例中,构建主路径网络可以是每获取到一次主路径执行一次,在相邻两次获取的主路径相同(数量相同且每条主路径中的节点相同)的情况下,结束对引文网络的主路径分析。
在一些示例中,构建主路径网络可以是在接收到用户触发了再次提取主路径的操作后执行,如在得到引文网络的主路径后,展示主路径,以使得用户能够及时了解到引文网络的主路径是哪些。若用户认为引文网络的主路径较为复杂(如主路径的数量较多),则用户可以触发再次提取主路径的操作。
在一些示例中,构建主路径网络可以是在主路径的路径参数满足预设主路径分析条件的情况下执行。其中,路径参数包括过程节点在主路径中的占比、主路径中的节点数量和主路径总数中的至少一种参数。例如过程节点在主路径中的占比大于预设占比值,则构建主路径网络;又例如主路径总数大于预设总数,则构建主路径网络;又例如,虽然主路径总数小于预设总数,但是主路径中的节点数量大于预设节点数量或过程节点在主路径中的占比大于预设占比值,则构建主路径网络,预设占比值、预设总数和预设节点数量的取值不进行限定,且不对预设主路径分析条件进行穷举说明。
207、获取主路径网络的第二主路径。第二主路径为主路径网络的主路径,其获取过程可以参见上述104的说明,此处不再赘述。
208、若第二主路径与主路径不匹配,将主路径更新为第二主路径。若第二主路径与主路径匹配,说明主路径是精简且准确的路径,则维持主路径不变。若第二主路径与主路径不匹配,说明主路径可能不够精简,因此需要对主路径进行更新操作。因为主路径是从引文网络中获取到,第二主路径是从主路径网络中获取到,主路径网络中的节点数量明显小于引文网络中的节点数量,所以第二主路径的精简度大于主路径的精简度,由此在第二主路径与主路径不匹配时可以直接将主路径更新为第二主路径。其中,主路径是否精简可通过主路径的节点数量而定,如主路径的节点数量小于预设值,又如主路径的节点数量的占比小于预设占比。又或者,相邻两次提取到的主路径相同(说明主路径不会再更改),则确定主路径精简。
在一些场景中,若第二主路径中过程节点较少(如1个或2个),或者第二主路径中没有过程节点,那么通过该第二主路径难以分析技术发展主体脉络,则禁止将主路径更新为第二主路径,以维持主路径不变。
在一些场景中,虽然第二主路径相对于主路径较为精简,但是第二主路径是否精简无法确定,则在第二主路径与主路径不匹配,再次进行主路径网络构建以及获取主路径,直至从主路径网络中获取的主路径与引文网络的主路径匹配,以通过多次构建主路径网络以及获取主路径的方式,寻找到一个精简的主路径。其过程如下:
若第二主路径与主路径不匹配,利用第二主路径中的节点和边,构建新的主路径网络,并获取新的主路径网络的第三主路径;若第三主路径与第二主路径匹配,将主路径更新为第二主路径;若第三主路径与第二主路径不匹配,将第二主路径更新为第三主路径,利用更新后的第二主路径中的节点和边,再次构建新的主路径网络,并获取再次构建的主路径网络的第三主路径,直至再次构建的主路径网络的第三主路径与更新后的第二主路径匹配,将主路径更新为更新后的第二主路径。
若第三主路径与第二主路径匹配,说明第二主路径已经是精简且准确的路径,则可以将主路径更新为第二主路径;若第三主路径与第二主路径不匹配,说明第二主路径可能不够精简,且无法确定第三主路径是否是一个精简的主路径,则将第二主路径更新为第三主路径,再次构建主路径网络以及再次从主路径网络中获取主路径,直至再次构建的主路径网络的第三主路径与更新后的第二主路径匹配,将主路径更新为更新后的第二主路径。
举例说明:在获取到引文网络的主路径1至主路径9之后,利用主路径1至主路径9中的边,构建主路径网络1,从主路径网络1中获取到第二主路径1至第二主路径8。因为引文网络的主路径总数与主路径网络1的主路径总数不同,确定主路径与第二主路径不匹配,则利用第二主路径1至第二主路径8中的边,构建主路径网络2,从主路径网络2中获取到第三主路径1至第三主路径8。虽然主路径网络2的主路径总数与主路径网络1的主路径总数相同,但是主路径中的节点存在差异,确定第三主路径与第二主路径不匹配,则第二主路径更新为第三主路径1至第三主路径8,利用更新后的第二主路径(即第三主路径1至第三主路径8)中的边,构建主路径网络3,从主路径网络3中获取到第三主路径9至第三主路径17(即第二次提取到的第三主路径)。第二次提取到的第三主路径与更新后的第二主路径匹配,将主路径更新为更新后的第二主路径,即第三主路径1至第三主路径8。
在本实施例中,在得到引文网络的主路径后,利用主路径的节点和边,构建主路径网络,从主路径网络中获取第二主路径,进而基于第二主路径和主路径是否匹配来决定是否更新主路径,以完成对主路径的精简,从而有效清除引文网络的主路径提取过程中的冗余信息(与技术发展主体脉络无关或者关联性较低的节点),使得基于主路径网络更新后的主路径更能反映技术发展主体脉络,提高准确度。
与上述方法实施例相对应,本申请实施例还提供了一种主路径分析装置,其可选结构如图7所示,可以包括:第一获取单元10、屏蔽单元20、保存单元30、第二获取单元40和补充单元50。
第一获取单元10,用于获取引文网络中源节点、汇节点和过程节点的节点分布信息。节点分布信息用于指示节点在引文网络中的占比,即节点在引文网络中所占比重,任意类型节点的节点分布信息为该类型节点的数量占引文网络中节点总数量的比重。因为独立节点与其他节点不存在引用关系,使得独立节点与其他节点之间没有边连接,所以独立节点与主路径提取无关。
屏蔽单元20,用于在节点分布信息满足预设分布条件的情况下,屏蔽引文网络中特定节点所连接的边,以得到引文网络的子网络,特定节点包括源节点和/或汇节点。其中,屏蔽节点所连接的边是指禁用节点所连接的边,以在主路径分析过程中不再计算这些节点所连接的边的权重,以减少计算量。
在一些示例中,在源节点在引文网络中的占比大于过程节点在引文网络中的占比的情况下,屏蔽源节点所连接的边。和/或,在汇节点在引文网络中的占比大于过程节点在引文网络中的占比的情况下,屏蔽汇节点所连接的边。
保存单元30,用于保存特定节点的引用关系,特定节点的引用关系用于得到特定节点所连接的边。其中,保存特定节点的引用关系的目的是为了能够正常恢复特定节点相连的边。例如在屏蔽源节点和/或汇节点相连的边后,引文网络的源节点和/或汇节点暂时转变为独立节点。子网络仅包含引文网络的过程节点,子网络的主路径可以反映引文网络中技术发展主体脉络的技术发展过程,但是丢失了该技术发展主体脉络在引文网络中的起始和结尾,而特定节点的引用关系能够补充该技术发展主体脉络在引文网络中的起始和结尾,保证技术发展主体脉络(即引文网络的主路径)的完整性。
在本实施例中,若屏蔽了引文网络中源节点所连接的边,则保存源节点的引用关系;若屏蔽了引文网络中汇节点所连接的边,则保存汇节点的引用关系。
第二获取单元40,用于获取子网络的第一主路径,其过程可参见步骤104。
补充单元50,用于利用保存的特定节点的引用关系,在第一主路径中补充与第一主路径相关的引用关系,以得到引文网络的主路径。补充引用关系的可选过程可以是:在特定节点包括源节点的情况下,利用源节点的引用关系,确定第一主路径中的起点所引用的所有源节点,基于所有源节点中各源节点的出度,选择添加至第一主路径中的源节点并恢复该源节点与第一主路径中的起点之间的边关系。和/或,在特定节点包括汇节点的情况下,利用汇节点的引用关系,确定引用第一主路径中的终点的所有汇节点,基于所有汇节点中各汇节点的入度,选择添加至第一主路径中的汇节点并恢复该汇节点与第一主路径中的终点之间的边关系。
图8示出了本申请实施例提供的主路径分析装置的另一种可选结构,在图7基础上还可以包括:构建单元60、第三获取单元70和更新单元80。
构建单元60,用于利用主路径中的节点和边,构建主路径网络。如在得到引文网络的主路径后,从主路径上提取存在引用关系的边,利用这些边构建主路径网络。
在一些示例中,构建主路径网络可以在接收到用户触发了再次提取主路径的操作后执行。或者,在主路径的路径参数满足预设主路径分析条件的情况下执行,其中路径参数包括过程节点在主路径中的占比、主路径中的节点数量和主路径总数中的至少一种参数。
第三获取单元70,用于获取主路径网络的第二主路径。
更新单元80,用于若第二主路径与主路径不匹配,将主路径更新为第二主路径。若第二主路径与主路径匹配,说明主路径是精简且准确的路径,则维持主路径不变。若第二主路径与主路径不匹配,说明主路径可能不够精简,因此需要对主路径进行更新操作。
在一些示例中,更新单元80具体用于若第二主路径与主路径不匹配,利用第二主路径中的节点和边,构建新的主路径网络,并获取新的主路径网络的第三主路径;若第三主路径与第二主路径匹配,将主路径更新为第二主路径;若第三主路径与第二主路径不匹配,将第二主路径更新为第三主路径,利用更新后的第二主路径中的节点和边,再次构建新的主路径网络,并获取再次构建的主路径网络的第三主路径,直至再次构建的主路径网络的第三主路径与更新后的第二主路径匹配,将主路径更新为更新后的第二主路径。
在本实施例中,在得到引文网络的主路径后,利用主路径的节点和边,构建主路径网络,从主路径网络中获取第二主路径,进而基于第二主路径和主路径是否匹配来决定是否更新主路径,以完成对主路径的精简,从而有效清除引文网络的主路径提取过程中的冗余信息(与技术发展主体脉络无关或者关联性较低的节点),使得基于主路径网络更新后的主路径更能反映技术发展主体脉络,提高准确度。
所述主路径分析装置包括处理器和存储器,上述第一获取单元10、屏蔽单元20、保存单元30、第二获取单元40和补充单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来降低主路径分析的耗时,并保证主路径的完整性。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述主路径分析方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述主路径分析方法。
本申请实施例提供了一种设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的主路径分析方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行所述主路径分析方法。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种主路径分析方法,其特征在于,所述方法包括:
获取引文网络中源节点、汇节点和过程节点的节点分布信息;
在所述节点分布信息满足预设分布条件的情况下,屏蔽所述引文网络中特定节点所连接的边,以得到所述引文网络的子网络,所述特定节点包括所述源节点和/或汇节点;
保存所述特定节点的引用关系,所述特定节点的引用关系用于得到特定节点所连接的边;
获取所述子网络的第一主路径,并利用保存的所述特定节点的引用关系,在所述第一主路径中补充与所述第一主路径相关的引用关系,以得到所述引文网络的主路径。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述主路径中的节点和边,构建主路径网络;
获取所述主路径网络的第二主路径;
若所述第二主路径与所述主路径不匹配,将所述主路径更新为所述第二主路径。
3.根据权利要求2所述的方法,其特征在于,所述若所述第二主路径与所述主路径不匹配,将所述主路径更新为所述第二主路径包括:
若所述第二主路径与所述主路径不匹配,利用所述第二主路径中的节点和边,构建新的主路径网络,并获取所述新的主路径网络的第三主路径;
若所述第三主路径与所述第二主路径匹配,将所述主路径更新为所述第二主路径;
若所述第三主路径与所述第二主路径不匹配,将所述第二主路径更新为所述第三主路径,利用更新后的所述第二主路径中的节点和边,再次构建新的主路径网络,并获取再次构建的主路径网络的第三主路径,直至再次构建的主路径网络的第三主路径与更新后的所述第二主路径匹配,将所述主路径更新为所述更新后的所述第二主路径。
4.根据权利要求2所述的方法,其特征在于,所述利用所述主路径中的节点和边,构建主路径网络包括:
在接收到用户触发了再次提取主路径的操作后,利用所述主路径中的节点和边,构建所述主路径网络;
或者
在所述主路径的路径参数满足预设主路径分析条件的情况下,利用所述主路径中的节点和边,构建所述主路径网络,其中所述路径参数包括所述过程节点在所述主路径中的占比、所述主路径中的节点数量和主路径总数中的至少一种参数。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述利用保存的所述特定节点的引用关系,在所述第一主路径中补充与所述第一主路径相关的引用关系,以得到所述引文网络的主路径包括:
在所述特定节点包括所述源节点的情况下,利用所述源节点的引用关系,确定所述第一主路径中的起点所引用的所有源节点,基于所述所有源节点中各源节点的出度,选择添加至所述第一主路径中的源节点并恢复该源节点与所述第一主路径中的起点之间的边关系;
和/或
在所述特定节点包括所述汇节点的情况下,利用所述汇节点的引用关系,确定引用所述第一主路径中的终点的所有汇节点,基于所述所有汇节点中各汇节点的入度,选择添加至所述第一主路径中的汇节点并恢复该汇节点与所述第一主路径中的终点之间的边关系。
6.根据权利要求1至4中任意一项所述的方法,其特征在于,所述在所述节点分布信息满足预设分布条件的情况下,屏蔽所述引文网络中特定节点所连接的边,以及保存所述特定节点的引用关系包括:
在所述源节点在所述引文网络中的占比大于所述过程节点在所述引文网络中的占比的情况下,屏蔽所述源节点所连接的边,并保存所述源节点的引用关系;
和/或
在所述汇节点在所述引文网络中的占比大于所述过程节点在所述引文网络中的占比的情况下,屏蔽所述汇节点所连接的边,并保存所述汇节点的引用关系。
7.一种主路径分析装置,其特征在于,所述装置包括:
第一获取单元,用于获取引文网络中源节点、汇节点和过程节点的节点分布信息;
屏蔽单元,用于在所述节点分布信息满足预设分布条件的情况下,屏蔽所述引文网络中特定节点所连接的边,以得到所述引文网络的子网络,所述特定节点包括所述源节点和/或汇节点;
保存单元,用于保存所述特定节点的引用关系,所述特定节点的引用关系用于得到特定节点所连接的边;
第二获取单元,用于获取所述子网络的第一主路径;
补充单元,用于利用保存的所述特定节点的引用关系,在所述第一主路径中补充与所述第一主路径相关的引用关系,以得到所述引文网络的主路径。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
构建单元,用于利用所述主路径中的节点和边,构建主路径网络;
第三获取单元,用于获取所述主路径网络的第二主路径;
更新单元,用于若所述第二主路径与所述主路径不匹配,将所述主路径更新为所述第二主路径。
9.根据权利要求7或8所述的装置,其特征在于,所述补充单元,用于在所述特定节点包括所述源节点的情况下,利用所述源节点的引用关系,确定所述第一主路径中的起点所引用的所有源节点,基于所述所有源节点中各源节点的出度,选择添加至所述第一主路径中的源节点并恢复该源节点与所述第一主路径中的起点之间的边关系;
和/或
在所述特定节点包括所述汇节点的情况下,利用所述汇节点的引用关系,确定引用所述第一主路径中的终点的所有汇节点,基于所述所有汇节点中各汇节点的入度,选择添加至所述第一主路径中的汇节点并恢复该汇节点与所述第一主路径中的终点之间的边关系。
10.一种存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时实现如权利要求1至6中任意一项所述的主路径分析方法。
CN202310851036.XA 2023-07-12 2023-07-12 一种主路径分析方法及装置 Active CN116578751B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310851036.XA CN116578751B (zh) 2023-07-12 2023-07-12 一种主路径分析方法及装置
US18/529,648 US20240104137A1 (en) 2023-07-12 2023-12-05 Main path analysis method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310851036.XA CN116578751B (zh) 2023-07-12 2023-07-12 一种主路径分析方法及装置

Publications (2)

Publication Number Publication Date
CN116578751A true CN116578751A (zh) 2023-08-11
CN116578751B CN116578751B (zh) 2023-09-22

Family

ID=87536390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310851036.XA Active CN116578751B (zh) 2023-07-12 2023-07-12 一种主路径分析方法及装置

Country Status (2)

Country Link
US (1) US20240104137A1 (zh)
CN (1) CN116578751B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266144A1 (en) * 2006-05-09 2007-11-15 Johan Bollen Usage based indicators to assess the impact of scholarly works: architecture and method
US8630975B1 (en) * 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
CN112612785A (zh) * 2020-11-20 2021-04-06 北京理工大学 一种非常规能源技术关键发展路径动态监测方法
CN112836050A (zh) * 2021-02-04 2021-05-25 山东大学 针对关系不确定性的引文网络节点分类方法及系统
CN114756713A (zh) * 2022-03-17 2022-07-15 哈尔滨工业大学(威海) 一种基于多源交互融合的图表示学习方法
CN116383446A (zh) * 2023-04-06 2023-07-04 哈尔滨工程大学 一种基于异构引文网络的作者分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070266144A1 (en) * 2006-05-09 2007-11-15 Johan Bollen Usage based indicators to assess the impact of scholarly works: architecture and method
US8630975B1 (en) * 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
CN112612785A (zh) * 2020-11-20 2021-04-06 北京理工大学 一种非常规能源技术关键发展路径动态监测方法
CN112836050A (zh) * 2021-02-04 2021-05-25 山东大学 针对关系不确定性的引文网络节点分类方法及系统
CN114756713A (zh) * 2022-03-17 2022-07-15 哈尔滨工业大学(威海) 一种基于多源交互融合的图表示学习方法
CN116383446A (zh) * 2023-04-06 2023-07-04 哈尔滨工程大学 一种基于异构引文网络的作者分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
隗玲 等: "基于文献关联属性的引文网络主路径识别――以合成生物学领域为例", 情报学报, no. 04 *
隗玲 等: "引文网络主路径研究进展评述及展望", 情报理论与实践, vol. 39, no. 09 *

Also Published As

Publication number Publication date
CN116578751B (zh) 2023-09-22
US20240104137A1 (en) 2024-03-28

Similar Documents

Publication Publication Date Title
US10831562B2 (en) Method and system for operating a data center by reducing an amount of data to be processed
US11423053B2 (en) Log event cluster analytics management
CN104462668A (zh) 计算机实施的用于设计用二叉树来建模的工业产品的方法
CN111723148A (zh) 数据存储方法及装置、存储介质、电子装置
CN116822422B (zh) 数字逻辑电路的分析优化方法及相关设备
EP2980701B1 (en) Stream processing with context data affinity
CN113360581A (zh) 数据处理方法、装置及存储介质
Ahsaan et al. Big data analytics: challenges and technologies
CN113407551A (zh) 数据一致性确定方法、装置、设备及存储介质
CN116578751B (zh) 一种主路径分析方法及装置
CN112860412A (zh) 业务数据处理方法、装置、电子设备及存储介质
WO2023229784A1 (en) Allow list of container images based on deployment configuration at a container orchestration service
Chen et al. A fast algorithm for finding K shortest paths using generalized spur path reuse technique
CN111190896A (zh) 数据处理方法、装置、存储介质和计算机设备
CN114860732A (zh) 关键报表处理方法、装置、计算机设备及存储介质
CN115361295A (zh) 基于topsis的资源备份方法、装置、设备及介质
CN114281549A (zh) 数据的处理方法及装置
CN113656426A (zh) 分布式数据处理方法、装置及设备
US9158824B2 (en) Incremental aggregation-based event pattern matching
CN111930734A (zh) 基于任务和字段的数据下线方法及系统
Gambs et al. Mapreducing gepeto or towards conducting a privacy analysis on millions of mobility traces
CN109753405B (zh) 应用资源消耗的检测方法、装置、存储介质和电子设备
CN114268540B (zh) 规则引擎的优化方法、装置及设备
CN115168844B (zh) 基于数字化安全的档案信息处理方法及系统
CN111953614B (zh) 数据传输方法、装置、处理设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant