CN113779318B - 骨干网络提取方法、装置、计算机设备及存储介质 - Google Patents

骨干网络提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113779318B
CN113779318B CN202110908351.2A CN202110908351A CN113779318B CN 113779318 B CN113779318 B CN 113779318B CN 202110908351 A CN202110908351 A CN 202110908351A CN 113779318 B CN113779318 B CN 113779318B
Authority
CN
China
Prior art keywords
network
extracted
backbone
sub
bracket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110908351.2A
Other languages
English (en)
Other versions
CN113779318A (zh
Inventor
文天才
周雪忠
杨杰
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute Of Information On Traditional Chinese Medicine Cacms
Original Assignee
Institute Of Information On Traditional Chinese Medicine Cacms
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute Of Information On Traditional Chinese Medicine Cacms filed Critical Institute Of Information On Traditional Chinese Medicine Cacms
Priority to CN202110908351.2A priority Critical patent/CN113779318B/zh
Publication of CN113779318A publication Critical patent/CN113779318A/zh
Application granted granted Critical
Publication of CN113779318B publication Critical patent/CN113779318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息处理领域,具体涉及一种骨干网络提取方法、装置、计算机设备及存储介质,包括如下步骤:获取第一待提取网络;从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架;其中,所述第N+1待提取网络为从第N待提取网络中去除第N子骨干网络后得到的待提取网络,所述第N子骨干网络为从第N待提取网络中提取网络支架得到;对N个子骨干网络进行求和,形成所述骨干网络。所得到的骨干网络相比于现有的差异筛选算法所提取到的网络,更能够充分包含原始网络中的重要信息,便于所有局部重要信息都最终被保留下来。

Description

骨干网络提取方法、装置、计算机设备及存储介质
技术领域
本发明涉及信息处理领域,具体涉及一种骨干网络提取方法、装置、计算机设备及存储介质。
背景技术
在医药、生物、社会和通讯等领域均存在着复杂网络结构,但这些网络结构均存在着节点数量庞大、网络直径小、节点度的分布及网络支架的权重分布呈等幂率分布等特点,即大量的信息集中于网络中的小部分节点或网络支架,信息分布十分不均衡。因此,无论是对网络的可视化还是提取关键信息,都将变得非常困难。
解决上述问题的关键是对网络结构进行约简,减少网络中那些价值较低的信息、保留价值较高的信息,同时还要充分考虑到信息在网络结构中分布不均衡的特点,以对全局和局部的重要信息进行保留。目前针对复杂网络的约简方法主要为差异筛选算法(Disparity Filter,DF),该算法可在复杂网络中提取多尺度骨干网络,并且该算法考虑了复杂网络中节点度、网络支架的权重等全局和局部异质性来提取骨干网,可以用较少的节点尤其是网络支架来保留原始网络中的信息,同时也兼顾了局部重要信息的保留。
在多尺度复杂网络结构中,网络的密度越大需要越小的显著性水平才能提取到可观测的骨干网络,而显著性水平并没有一个推荐值,因此,显著性水平的选择依赖于想要得到的骨干网络结果的约简程度是否可接受。发明人在实际数据测试中发现,虽然差异筛选算法的目的是为了保护局部重要信息不被丢失,但由于使用全局统一的显著性水平,仍然可能导致局部信息未能通过显著性水平的显著性检验而被删除,从而导致所提取的骨干网络的重要信息缺失。
发明内容
因此,本发明要解决局部信息未能通过显著性水平的显著性检验而被删除,从而导致所提取的骨干网络的重要信息缺失的技术问题,从而提供一种骨干网络提取方法,包括如下步骤:
获取第一待提取网络;
从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架;其中,所述第N+1待提取网络为从第N待提取网络中去除第N子骨干网络后得到的待提取网络,所述第N子骨干网络为从第N待提取网络中提取网络支架得到;
对N个子骨干网络进行求和,形成所述骨干网络。
优选地,子骨干网络包括第一子骨干网络、第二子骨干网络、…、第N子骨干网络;所述从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架,包括:
从所述第一待提取网络中提取网络支架,得到第一子骨干网络,并从所述第一待提取网络中去除所述第一子骨干网络,得到第二待提取网络;
重复上述步骤,得到所述第二子骨干网络、…、第N子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架。
优选地,所述方法,包括:
计算任一所述网络支架相对于其两节点的标准化权重,获得所述网络支架的两节点在所述特定显著性水平下对应的最小归一化权重;
如果其中一标准化权重大于等于对应的最小归一化权重,另一标准化权重小于对应的最小归一化权重;
则判断两个所述标准化权重差的绝对值是否小于网络支架的重要性系数;其中,所述网络支架的重要性系数为所述网络支架的权重与两节点所有相邻网络支架权重和的占比;
如果两个所述标准化权重差的绝对值小于所述网络支架的重要性系数,则提取所述网络支架。
优选地,所述无法继续从第N+1待提取网络中提取到网络支架,包括:
如果两个所述标准化权重差的绝对值不小于所述网络支架的重要性系数,则不提取所述网络支架。
优选地,所述网络支架的重要性系数采用数学模型计算得到,所述数学模型为:
式中,表示网络支架(vi,vj)的重要性系数,wij表示网络支架(vi,vj)的权重;wia表示网络支架(vi,va)的权重,a∈[1,ki];wjb表示网络支架(vj,vb)的权重,b∈[1,kj];ki表示节点vi的度,kj表示节点vj的度。
优选地,所述方法,还包括:
判断两个所述标准化权重是否分别大于等于对应的最小归一化权重;
如果两个所述标准化权重分别大于等于对应的最小归一化权重,则提取所述网络支架。
优选地,所述方法,还包括:
判断两个所述标准化权重是否分别小于对应的最小归一化权重;
如果两个所述标准化权重分别小于对应的最小归一化权重,则不提取所述网络支架。
本发明还提供了一种骨干网络提取装置,包括:
获取模块,用于获取第一待提取网络;
提取模块,用于从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架;其中,所述第N+1待提取网络为从第N待提取网络中去除第N子骨干网络后得到的待提取网络,所述第N子骨干网络为从第N待提取网络中提取网络支架得到;
形成模块,用于对N个子骨干网络进行求和,形成所述骨干网络。
本发明还提供了一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行上述的骨干网络提取方法。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述的骨干网络提取方法。
本发明技术方案,具有如下优点:
1.本发明提供的骨干网络提取方法,从第一待提取网络中依次提取网络支架,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架,将所得到的N个子骨干网络进行求和形成骨干网络。所得到的骨干网络相比于现有的差异筛选算法所提取到的网络,更能够充分包含原始网络中的重要信息,便于所有局部重要信息都最终被保留下来。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1骨干网络提取方法的流程图;
图2为图1中步骤S102的流程图;
图3为本发明实施例1骨干网络提取方法中提取网络支架的流程图;
图4为本发明实施例1骨干网络提取方法中提取网络支架的另一流程图;
图5为本发明实施例1骨干网络提取方法中提取网络支架的又一流程图;
图6为本发明实施例1骨干网络提取方法中网络结构的示意图;
图7为本发明实施例2骨干网络提取装置的结构框图;
图8为本发明实施例3计算机设备的原理框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
生物、医药、社会及通讯等领域均存在着众多复杂网络结构,这些复杂网络结构都具有信息分布十分不均衡的特点,因此导致在对网络的可视化和/或提取关键信息上变得非常困难。
现有技术中,对网络结构的约简主要采用差异筛选算法(包括DF-OR算法和DF-AND算法),虽然该算法的目的主要是为了保护局部重要信息不被丢失,但由于使用全局统一的显著性水平,仍然可能会导致局部信息未能通过显著性水平的显著性检验而被删除,从而导致所提取的网络出现重要信息缺失的现象。
实施例1
本实施例提供了一种骨干网络提取方法,图1是说明根据本发明某些实施例,从第一待提取网络中依次提取网络支架,得到多个子骨干网络,对多个子骨干网络进行求和形成骨干网络的流程图。虽然下文描述的过程包括以特定的顺序出现的多个操作,但是应该清楚地了解到,这些过程也可以包括更多或者更少的操作,这些操作可以顺序执行或者并行执行(例如使用并行处理器或者多线程环境)。
本实施例提供了一种骨干网络提取方法,可用于对医药、生物、社会和通讯等领域中的复杂网络结构进行约简,形成包含大量重要信息的骨干网络。尤其是对由中医临床数据建立的复杂网络结构,所形成的骨干网络可反映核心病因病机和/或君臣佐使关系。如图1所示,所述骨干网络提取方法包括如下步骤:
S101、获取第一待提取网络。
在上述实施步骤中,第一待提取网络为最原始的网络结构,是由各个领域中众多数据所形成的,且所述第一待提取网络结构具有复杂、信息分布十分不均衡的特点。
举例来说,如图6所示,其示出了在临床医学中根据众多糖尿病患者所出现的症状所形成的第一待提取网络的网络结构。其中,第一待提取网络的各个节点为糖尿病患者所出现的症状,两个节点之间的连线表示两种症状同时在同一名患者身上出现,其中连线上的数字代表两种症状同时出现在同一名患者身上的频数。
S102、从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架。
在上述实施步骤中,第N+1待提取网络为从第N待提取网络中去除第N子骨干网络后得到的待提取网络,第N子骨干网络为从第N待提取网络中提取网络支架得到的。需要说明的是,所述网络支架为待提取网络中两节点的连线形成的边。例如,图6中节点③和节点④之间连线形成的边为所述网络支架。
需要说明的是,从待提取网络中提取网络支架得到子骨干网络是指,对待提取网络中所有的网络支架进行提取,如果网络支架满足预设提取条件,则提取所述网络支架;如果网络支架不满足预设提取条件,则不提取所述网络支架,提取到的所有网络支架形成子骨干网络。
对第一待提取网络进行网络支架的提取,将所有满足预设提取条件的网络支架均提取出来形成第一子骨干网络,第一待提取网络中去除第一子骨干网络形成第二待提取网络;对第二待提取网络进行网络支架的提取,将所有满足预设提取条件的网络支架均提取出来形成第二子骨干网络,第二待提取网络中去除第二子骨干网络形成第三待提取网络;以此类推,直至在对第N+1待提取网络进行网络支架的提取时,所有网络支架均不再满足预设提取条件,从而得到N个子骨干网络。
S103、对N个子骨干网络进行求和,形成所述骨干网络。
在上述实施步骤中,对所提取到的所有子骨干网络进行求和,得到骨干网络。所得到的骨干网络经过多次提取,每次提取均满足预设提取条件,从而可使得所有重要信息保存至骨干网络中。并且,还可对所提取到的所有子骨干网络进行层次标记,方便通过不同层次来观察约简后的网络。
其中,预设提取调节为在相同特定显著性水平下,能够通过特定显著性水平的检验。相比于现有的差异筛选算法,本实施例提供的骨干网络提取方法能够更加全面地保留原始网络中的重要信息。
在上述实施例中,从第一待提取网络中依次提取网络支架,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架,将所得到的N个子骨干网络进行求和形成骨干网络。所得到的骨干网络相比于现有的差异筛选算法所提取到的网络,更能够充分包含原始网络中的重要信息,便于所有局部重要信息都最终被保留下来。
举例来说,无向加权网络G(V,E,W)为第一待提取网络,其中V表示网络中所有节点的集合,E表示网络中所有网络支架的集合,W表示网络中网络支架的权重集合。无向加权网络G(V,E,W)可以用邻接矩阵表示如下:
设定特定显著性水平α,例如特定显著性水平α为0.05。从无向加权网络G(V,E,W)中提取网络支架得到第一子骨干网络Gbackbone 1,第一子骨干网络Gbackbone 1可用邻接矩阵表示如下:
将第一子骨干网络Gbackbone 1从第一待提取网络G(V,E,W)中减去得到第二待提取网络G1,第二待提取网络G1可用邻接矩阵表示如下:
以相同的特定显著性水平α,从第二待提取网络G1中提取得到第二子骨干网络Gbackbone 2,并将第二子骨干网络Gbackbone 2从第二待提取网络G1中减去得到第三待提取网络G2。重复上述步骤,直至在相同特定显著性水平α上无法提取到任何网络支架。对所提取到的子骨干网络进行层次标记并求和,得到多层的骨干网络。需要说明的是,本实施例所提供的骨干网络提取方法不仅适用于无向加权网络,还适用于有向加权网络。
在一个或多个实施例中,子骨干网络包括第一子骨干网络、第二子骨干网络、…、第N子骨干网络。如图2所示,得到N个子骨干网络包括如下步骤:
S201、从第一待提取网络中提取网络支架,得到第一子骨干网络,
在上述实施步骤中,从第一待提取网络中提取到所有满足预设提取条件的网络支架,所提取的网络支架形成第一子骨干网络。
S202、从第一待提取网络中去除第一子骨干网络,得到第二待提取网络。
在上述实施步骤中,将第一待提取网络中与第一子骨干网络相同的网络结构去除,形成第二待提取网络。
S203、判断在特定显著性水平下,是否无法继续从第二待提取网络中提取到网络支架。
在上述实施步骤中,如果无法从第二待提取网络种提取到网络支架,则执行步骤S204、终止对第二待提取网络的网络支架提取;如果还能继续从第二待提取网络中提取到网络支架,则返回步骤S201对第二待提取网络进行网络支架的提取。
在对后续的待提取网络进行网络支架的提取过程中,重复执行步骤S201至步骤S203的步骤,得到N个子骨干网络,直至无法在后续的待提取网络中提取到网络支架,则执行步骤S204。在一些实施例中,待提取网络中被提取的网络支架不再存在,即不需要再从待提取网络中减去所提取到的对应子骨干网络。
举例来说,对第一待提取网络进行网络支架的提取后形成第二待提取网络。对第二待提取网络执行步骤S201得到第二子骨干网络,执行步骤S202从第二待提取网络中去除第二子骨干网络形成第三待提取网络,执行步骤S203发现,在特定显著性水平α下,无法继续从第三待提取网络中提取到网络支架,则执行步骤S204终止对第三待提取网络的提取。此过程中,子骨干网络包括第一子骨干网络和第二子骨干网络。
在一个或多个实施例中,如图3至图5所示,在对待提取网络进行网络支架的提取过程中,包括如下步骤:
S301、计算任一所述网络支架相对于其两节点的标准化权重,获得所述网络支架的两节点在所述特定显著性水平下对应的最小归一化权重。
设定待提取网络G(V,E,W)由集合V、集合E和集合W构成,V非空,是由有限m个节点所构成的集合{v1,v2,v3,…,vm|m∈N+},m属于非零正整数集;E是节点对构成的网络支架集合{e1,e2,e3,…en|n∈N},n属于正整数集;W是由网络支架上权重构成的集合。
待提取网络G(V,E,W)中任一两节点可表示为节点vi、节点vj,节点vi和节点vj形成的网络支架可表示为(vi,vj),网络支架(vi,vj)的权重可表示为wij
在上述实施步骤中,网络支架的两节点在特定显著性水平下对应的最小归一化权重可通过查表或者计算获得,网络支架相对于节点的标准化权重可通过以下公式获得:
式中,pij表示标准化权重,wij表示网络支架(vi,vj)的权重,si表示节点vi的强度。
在获得网络支架相对于其两节点的标准化权重、节点对应的最小归一化权重后,比较标准化权重及最小归一化权重。如果出现其中一标准化权重大于等于对应的最小归一化权重,另一标准化权重小于对应的最小归一化权重的情况,即步骤S302、如果其中一标准化权重大于等于对应的最小归一化权重,另一标准化权重小于对应的最小归一化权重,则执行步骤S303。
S303、判断两个所述标准化权重差的绝对值是否小于网络支架的重要性系数。
在上述实施步骤中,网络支架的重要性系数为网络支架的权重与两节点所有相邻网络支架权重和的商,网络支架的重要性系数可采用数学模型计算得到,数学模型为:
式中,表示网络支架(vi,vj)的重要性系数,wij表示网络支架(vi,vj)的权重;wia表示网络支架(vi,va)的权重,a∈[1,ki];wjb表示网络支架(vj,vb)的权重,b∈[1,kj];ki表示节点vi的度,kj表示节点vj的度。
上述数学模型所表达的含义为:在一个网络中,网络支架(vi,vj)的权重wij与节点vi和节点vj所有相关网络支架权重的占比。当网络支架(vi,vj)是节点vi的唯一网络支架时,则退化为所述网络支架(vi,vj)相对于节点vi的标准化权重,反之亦然。在一些实施例中,数学模型可进行相应调整,例如增加相应的调整参数。
如果两个标准化权重差的绝对值小于网络支架的重要性系数,则执行步骤S304、提取所述网络支架;如果两个标准化权重差的绝对值不小于网络支架的重要性系数,则执行步骤S305、不提取所述网络支架。
举例来说,如图6所示,节点③、节点④和节点⑤可表示为节点v3、节点v4和节点v5,节点v3和节点v4形成的网络支架表示为(v3,v4)、节点v4和节点v5形成的网络支架表示为(v4,v5),由图6可计算得到:
网络支架(v3,v4)的权重:W3,4=8
网络支架(v4,v5)的权重:w4,5=3
节点v3的强度:s3=1+1+8=10
节点v4的强度:s4=1+2+3+8=14
节点v5的强度:s5=3
则:网络支架(v3,v4)相对节点v3的标准化权重:p(3,4) 3=8/10=0.8
网络支架(v3,v4)相对节点v4的标准化权重:p(3,4) 4=8/14=0.571
网络支架(v4,v5)相对节点v4的标准化权重:p(4,5) 4=3/14=0.214
网络支架(v4,v5)相对节点v5的标准化权重:p(4,5) 5=3/3=1
取显著性水平α=0.05,查下表1可获知各节点的最小归一化权重:
表1不同节点度k时的最小归一化权重(α=0.05)
查表1可得知,网络支架(v3,v4)相对节点v3的标准化权重大于节点v3对应的最小归一化权重、网络支架(v3,v4)相对节点v4的标准化权重小于节点v4对应的最小归一化权重,则:
网络支架(v3,v4)的重要性系数
|p(3,4) 3-p(3,4) 4|=|0.8-0.571|=0.229
由于0.229小于0.333,则提取网络支架(v3,v4)。
同理,网络支架(v4,v5)相对节点v4的标准化权重小于节点v4对应的最小归一化权重、网络支架(v4,v5)相对节点v5的标准化权重大于等于点v5对应的最小归一化权重,则:
网络支架(v4,v5)的重要性系数
|p(4,5) 4-p(4,5) 5|=|0.214-1|=0.786
由于0.786大于0.176,则不提取网络支架(v4,v5)。
在一个或多个实施例中,如图4所示,还可包括如下步骤:
S306、判断两个所述标准化权重是否分别大于等于对应的最小归一化权重。
在上述实施步骤中,如果两个标准化权重分别大于等于对应的最小归一化权重,则执行步骤S307、提取所述网络支架。
在一个或多个实施例中,如图5所示,还可包括如下步骤:
S308、判断两个所述标准化权重是否分别小于对应的最小归一化权重。
在上述实施步骤中,如果两个所述标准化权重分别小于对应的最小归一化权重,则执行步骤S309、不提取所述网络支架。
下面以中医药治疗3336例糖尿病患者的真实病例数据为例,来说明本实施例提供的骨干网络提取方法与现有的差异筛选算法(包括DF-OR算法和DF-AND算法)的差别。
数据中需要使用网络分析的数据集包括糖尿病合并疾病数据、中医证候诊断数据、症状体征数据、治则治法数据和中药配伍数据,这些数据的共同特征均为定性数据,即数据结果均以“有”或“无”表示。同时,不同变量可以同时出现,但他们之间并无前后或主次关系。另外,上述不同数据集规模不一样,症状体征规模最大节点最多共计816种涉及11万条记录,其次为中药配伍共计472种涉及11万条记录,合并疾病158种涉及1.6万条记录、中医证候414种涉及1.3万条记录,治则治法数据集规模最小共计198种涉及3.2万条记录。因此,分别使用合并疾病、中医证候诊断、症状体征、治则治法和中药配伍数据进行实验,分别利用差异筛选算法和本实施例提供的骨干网络提取方法进行比较。
利用原始数据对糖尿病合并疾病、中医证候诊断、症状体征、治则治法和中药配伍分别构建无向有权网络,网络参数如下表2所示,中药配伍网络中节点的平均度最大,图密度也最大,其次为症状体征网络和治则治法网络。
网络 节点数 边数 平均度 直径 图密度 平均路径
合并疾病 100 355 7.192 4 0.070 2.219
证候诊断 359 1847 10.163 6 0.029 2.673
症状体征 834 40946 98.192 3 0.118 1.903
治则治法 198 2283 23.061 4 0.117 2.091
中药配伍 470 28028 119.268 3 0.254 1.755
表2中医药治疗糖尿病网络统计量
针对上述已经构建的五个原始网络,我们分别利IHDF(本实施例提供的骨干网络提取方法)、DF-AND(现有差异筛选算法)和DF-OR(现有差异筛选算法)三种算法进行骨干网络提取和层次骨干发现,其对比实验具体结果如下:
(1)骨干网络提取结果对比
在不同显著性水平α下生成糖尿病合并疾病、证候诊断、症状体征、治则治法和中药配伍骨干网络,可以发现在生成的合并疾病和证候诊断骨干网络中,在相同显著性水平α下,IHDF算法比DF-AND算法可以得到更高的权重比,但其节点和网络支架的增加并不明显。
IHDF算法得到的骨干网络权重介于DF-AND算法和DF-OR算法之间,尤其是当显著性水平α介于0~0.3之间时表现尤为明显;尤其是在合并疾病网络中,在显著性水平α介于0~0.15时其权重比较已经接近于DF-OR算法,但其骨干网中网络支架和节点的比例确更接近于DF-AND算法,但在图密度更大、平均节点度更高的症状体征、治则治法和中药配伍网络中,IHDF算法得到的骨干网几乎等同于DF-AND算法。
(2)IHDF算法核心层效果评价
为了比较IHDF算法与另外两者的区别,取区分度最好的合并疾病网络和区分度最差的中药配伍网络来对比不同显著性水平α值下三种算法的详细差异。如下表3所示,表3中“%WT”表示骨干网络权重占原始网络权重比例,“%NT”表示骨干网络节点占原始网络节点比例,“%ET”表示骨干网络的网络支架占原始网络的网络支架比例。
表3不同显著性水平下糖尿病合并疾病和中药配伍第1层骨干网统计量
从表3中可以看出,即使在显著性水平α=0.001下,IHDF算法可以得到20%左右权重的骨干网络,但网络支架却只占原始网络的1%左右;当显著性水平α=0.05时,IHDF算法几乎可以得到50%左右的权重,但网络支架的比例不超过10%;当显著性水平α=0.5时,骨干网络已经保留了绝大部分原始网络的权重。相较于DF-AND算法,IHDF算法在多数情况下均可以以较少的网络支架和节点获得更大的权重,即使在中药配伍这样密度更高的网络里也可以发现同样的现象。并且IHDF算法要远优于DF-OR算法,可以在骨干网中以较低的网络支架和节点数达到更大比例的权重。
(3)IDHF算法多层效果评价
以上分析是利用三种算法对复杂网络中核心层的分析,如果在纪给定的显著性水平α下对网络进行层次剥离,则可以得到层次化的骨干网络。通过前述分析,取显著性水平α=0.01、0.05和0.1分别进行层次骨干网络的提取。显著性水平α越大得到的网络分层越多,在得到的最终分层骨干网络中,占原始网络的权重比例也越高。
表4不同显著性水平下糖尿病合并疾病和中药配伍分层骨干网统计量
从表4中可以看出,在任意显著性水平下,IHDF算法均可以得到更多的分层信息。在所得到的分层骨干网络中,整体权重比居于DF-AND算法和DF-OR算法之间。在合并疾病网络中,IHDF算法分层骨干网络的节点和网络支架比接近于DF-OR算法,在中药配伍网络中则更接近于DF-AND算法。可见,IHDF算法可以得到更加精细化的分层结构,尤其是在密度更高的网络中表现更为明显。
实施例2
本实施例提供了一种骨干网络提取装置,可用于对医药、生物、社会和通讯等领域中的复杂网络结构进行约简,形成包含大量重要信息的骨干网络。如图7所示,包括:
获取模块401,用于获取第一待提取网络。详细内容请参见实施例1中步骤S101的相关描述,此处不再赘述。
提取模块402,用于从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架;其中,所述第N+1待提取网络为从第N待提取网络中去除第N子骨干网络后得到的待提取网络,所述第N子骨干网络为从第N待提取网络中提取网络支架得到。详细内容请参见实施例1中步骤S102的相关描述,此处不再赘述。
形成模块403,用于对N个子骨干网络进行求和,形成所述骨干网络。详细内容请参见实施例1中步骤S103的相关描述,此处不再赘述。
在上述实施例中,提取模块402从第一待提取网络中依次提取网络支架,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架,形成模块403将所得到的N个子骨干网络进行求和形成骨干网络。所得到的骨干网络相比于现有的差异筛选算法所提取到的网络,更能够充分包含原始网络中的重要信息,便于所有局部重要信息都最终被保留下来。
实施例3
本实施例提供了一种计算机设备,如图5所示,该设备包括处理器501和存储器502,其中处理器501和存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器501可以为中央处理器(Central Processing Unit,CPU)。处理器501还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、图形处理器(Graphics Processing Unit,GPU)、嵌入式神经网络处理器(Neural-network ProcessingUnit,NPU)或者其他专用的深度学习协处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器502作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的骨干网络提取方法对应的程序指令/模块(如图4所示的获取模块401、提取模块402和形成模块403)。处理器501通过运行存储在存储器502中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例1中的骨干网络提取方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器501所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至处理器501。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器502中,当被所述处理器501执行时,执行如图1所示实施例中的骨干网络提取方法。
在本实施例中,存储器502存储有骨干网络提取方法的程序指令或模块,处理器501执行存储在存储器502内的程序指令或模块时,从第一待提取网络中依次提取网络支架,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架,将所得到的N个子骨干网络进行求和形成骨干网络。所得到的骨干网络相比于现有的差异筛选算法所提取到的网络,更能够充分包含原始网络中的重要信息,便于所有局部重要信息都最终被保留下来。
本发明实施例还提供一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的骨干网络提取方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种骨干网络提取方法,其特征在于,包括如下步骤:
获取第一待提取网络;所述第一待提取网络是根据糖尿病患者所出现的症状形成的网络结构,其中,所述第一待提取网络的各个节点为糖尿病患者所出现的症状,两个节点之间的连线表示两种症状同时在同一名患者身上出现,连线上的数字代表两种症状同时出现在同一名患者身上的频数;
从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架;其中,所述第N+1待提取网络为从第N待提取网络中去除第N子骨干网络后得到的待提取网络,所述第N子骨干网络为从第N待提取网络中提取网络支架得到;
对N个子骨干网络进行求和,形成所述骨干网络。
2.如权利要求1所述的骨干网络提取方法,其特征在于,子骨干网络包括第一子骨干网络、第二子骨干网络、…、第N子骨干网络;所述从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架,包括:
从所述第一待提取网络中提取网络支架,得到第一子骨干网络,并从所述第一待提取网络中去除所述第一子骨干网络,得到第二待提取网络;
重复上述步骤,得到所述第二子骨干网络、…、第N子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架。
3.如权利要求1或2所述的骨干网络提取方法,其特征在于,所述方法,包括:
计算任一所述网络支架相对于其两节点的标准化权重,获得所述网络支架的两节点在所述特定显著性水平下对应的最小归一化权重;
如果其中一标准化权重大于等于对应的最小归一化权重,另一标准化权重小于对应的最小归一化权重,则判断两个所述标准化权重差的绝对值是否小于网络支架的重要性系数;其中,所述网络支架的重要性系数为所述网络支架的权重与两节点所有相邻网络支架权重和的商;
如果两个所述标准化权重差的绝对值小于所述网络支架的重要性系数,则提取所述网络支架。
4.如权利要求3所述的骨干网络提取方法,其特征在于,所述无法继续从第N+1待提取网络中提取到网络支架,包括:
如果两个所述标准化权重差的绝对值不小于所述网络支架的重要性系数,则不提取所述网络支架。
5.如权利要求3或4所述的骨干网络提取方法,其特征在于,所述网络支架的重要性系数采用数学模型计算得到,所述数学模型为:
式中,Жij表示网络支架(vi,vj)的重要性系数,wij表示网络支架(vi,vj)的权重;wia表示网络支架(vi,va)的权重,a∈[1,ki];wjb表示网络支架(vj,vb)的权重,b∈[1,kj];ki表示节点vi的度,kj表示节点vj的度。
6.如权利要求3或4所述的骨干网络提取方法,其特征在于,所述方法,还包括:
判断两个所述标准化权重是否分别大于等于对应的最小归一化权重;
如果两个所述标准化权重分别大于等于对应的最小归一化权重,则提取所述网络支架。
7.如权利要求6所述的骨干网络提取方法,其特征在于,所述方法,还包括:
判断两个所述标准化权重是否分别小于对应的最小归一化权重;
如果两个所述标准化权重分别小于对应的最小归一化权重,则不提取所述网络支架。
8.一种骨干网络提取装置,其特征在于,包括:
获取模块,用于获取第一待提取网络;所述第一待提取网络是根据糖尿病患者所出现的症状形成的网络结构,其中,所述第一待提取网络的各个节点为糖尿病患者所出现的症状,两个节点之间的连线表示两种症状同时在同一名患者身上出现,连线上的数字代表两种症状同时出现在同一名患者身上的频数;
提取模块,用于从所述第一待提取网络中提取网络支架,得到第一子骨干网络,直至在特定显著性水平下,无法继续从第N+1待提取网络中提取到网络支架;其中,所述第N+1待提取网络为从第N待提取网络中去除第N子骨干网络后得到的待提取网络,所述第N子骨干网络为从第N待提取网络中提取网络支架得到;
形成模块,用于对N个子骨干网络进行求和,形成所述骨干网络。
9.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的骨干网络提取方法。
10.一种计算机可读存储介质,其特征在于,计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的骨干网络提取方法。
CN202110908351.2A 2021-08-09 2021-08-09 骨干网络提取方法、装置、计算机设备及存储介质 Active CN113779318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110908351.2A CN113779318B (zh) 2021-08-09 2021-08-09 骨干网络提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110908351.2A CN113779318B (zh) 2021-08-09 2021-08-09 骨干网络提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113779318A CN113779318A (zh) 2021-12-10
CN113779318B true CN113779318B (zh) 2024-03-19

Family

ID=78837158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110908351.2A Active CN113779318B (zh) 2021-08-09 2021-08-09 骨干网络提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113779318B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006238250A (ja) * 2005-02-28 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> バックボーンネットワーク、情報転送装置、情報転送方法、及び情報転送プログラム
CN110798802A (zh) * 2019-11-04 2020-02-14 北京理工大学 一种共享自行车骨架网络提取方法
CN111144407A (zh) * 2019-12-22 2020-05-12 浪潮(北京)电子信息产业有限公司 一种目标检测方法、系统、装置及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006238250A (ja) * 2005-02-28 2006-09-07 Nippon Telegr & Teleph Corp <Ntt> バックボーンネットワーク、情報転送装置、情報転送方法、及び情報転送プログラム
CN110798802A (zh) * 2019-11-04 2020-02-14 北京理工大学 一种共享自行车骨架网络提取方法
CN111144407A (zh) * 2019-12-22 2020-05-12 浪潮(北京)电子信息产业有限公司 一种目标检测方法、系统、装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
异构Ad hoc网络骨干网络的建立与性能分析;郭攀红;杨扬;李新友;;计算机科学(10);全文 *

Also Published As

Publication number Publication date
CN113779318A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN109935336B (zh) 一种儿童呼吸科疾病的智能辅助诊断系统
CN112037912B (zh) 基于医疗知识图谱的分诊模型训练方法、装置及设备
US11922654B2 (en) Mammographic image processing method and apparatus, system and medium
CN108682457B (zh) 患者长期预后定量预测和干预系统及方法
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN111899882A (zh) 一种预测癌症的方法及系统
CN111950408B (zh) 基于规则图的手指静脉图像识别方法、装置及存储介质
CN106202854A (zh) 规则管理方法、规则管理装置及疾病叙词表生成方法
CN111259157A (zh) 一种基于混合双向循环胶囊网络模型的中文文本分类方法
CN111326243B (zh) 分诊推荐方法、装置、电子设备和存储介质
CN113779318B (zh) 骨干网络提取方法、装置、计算机设备及存储介质
Wu et al. A deep neural network ensemble classifier with focal loss for automatic arrhythmia classification
CN107392976A (zh) 数据处理方法、装置及设备
CN114860886B (zh) 生成关系图的方法和确定匹配关系的方法、装置
CN113706459B (zh) 一种自闭症患者异常脑区的检测及模拟修复装置
CN115631823A (zh) 相似病例推荐方法及系统
CN113593698B (zh) 一种基于图注意网络的中医证型识别方法
CN109065154B (zh) 一种决策结果确定方法、装置、设备及可读存储介质
CN114996472A (zh) 一种基于关系抽取模型的样本优化方法及系统
CN107943982A (zh) 内置约束规则的k‑means文本聚类方法及装置
CN114188024A (zh) 基于畜禽疾病知识图谱的畜禽疾病的预测分类方法
Mayya et al. A novel medical support deep learning fusion model for the diagnosis of COVID-19
CN109657795B (zh) 一种基于属性选择的硬盘故障预测方法
CN115796235B (zh) 补充缺失数据的生成器模型训练方法和系统
Brida et al. Clustering of time series for the analysis of the covid-19 pandemic evolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant