CN110019845B - 一种基于知识图谱的社区演化分析方法及装置 - Google Patents
一种基于知识图谱的社区演化分析方法及装置 Download PDFInfo
- Publication number
- CN110019845B CN110019845B CN201910303799.4A CN201910303799A CN110019845B CN 110019845 B CN110019845 B CN 110019845B CN 201910303799 A CN201910303799 A CN 201910303799A CN 110019845 B CN110019845 B CN 110019845B
- Authority
- CN
- China
- Prior art keywords
- community
- communities
- similarity
- evolution
- time step
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 230000000052 comparative effect Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
- G06F16/3328—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages using graphical result space presentation or visualisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开公开了一种基于知识图谱的社区演化分析方法及装置,该方法包括:调取数据库中某领域特定时间的文献信息,构建待分析关系网络;检测每个时间步的待分析关系网络的社区结构;构建相同无序对比例矩阵计算相似性阈值,根据两个社区的所述相同无序对比例的值与相似性阈值判断两个社区间的相似性;根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列,同时检测社区生命周期中的关键事件,并统计所述关键事件的数量来反映社区的演化状况。
Description
技术领域
本公开属于网络识别的技术领域,涉及一种基于知识图谱的社区演化分析方法及装置。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着信息的爆炸和塌陷,许多信息已经超出了人们的关注范围,那么这些信息也将变得不再具有实用意义了。面对信息过剩的巨大压力,如何去驾驭信息而不是被信息驾驭成为人们面临的一个极大的挑战。在现实的社交网络中,人们越来越关注跟踪用户群的演变并检测他们可能经历的各种变化。在科研领域,科研工作者面对海量的文献信息却得不到自己需要的信息,因此可以借助数据挖掘技术使用社区演化算法跟踪科研网络中社区的演化,以此来反映学术研究的发展趋势。通过跟踪社区的演化,可以在中观层面上探索网络的变化,并可以将其用来分析学术研究者合作关系的变化趋势。
然而,发明人在研发过程中发现,传统的社区演化算法一般通过实验来确定相似性属性的阈值,而阈值的确定也完全依赖于实验的数据,过程过于复杂。
发明内容
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种基于知识图谱的社区演化分析方法及装置,解决了传统的社区演化算法需要做实验确定社区相似性属性阈值的问题,利用了方差的特性并根据实验数据的特点自动计算获得阈值,并且所提出的社区匹配方法允许非连续时间步跟踪社区的演化,使得能够更加精确地跟踪分析社区的演化。
根据本公开的一个或多个实施例的一个方面,提供一种基于知识图谱的社区演化分析方法。
一种基于知识图谱的社区演化分析方法,该方法包括:
调取数据库中某领域特定时间的文献信息,构建待分析关系网络;
检测每个时间步的待分析关系网络的社区结构;
构建相同无序对比例矩阵计算相似性阈值,根据两个社区的所述相同无序对比例的值与相似性阈值判断两个社区间的相似性;
根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列。
进一步地,在该方法中,采用Louvain社区发现算法检测每个时间步的待分析关系网络的社区结构。
进一步地,在该方法中,所述构建相同无序对比例矩阵计算相似性阈值的具体步骤包括:
采用所述待分析关系网络中的所有社区构建相同无序对比例矩阵;
采用最大类间方差法根据所述相同无序对比例矩阵计算相似性阈值。
进一步地,在该方法中,所述采用最大类间方差法根据所述相同无序对比例矩阵计算相似性阈值的具体步骤包括:
根据所述相同无序对比例矩阵获取矩阵内所有数据的序列,并按照从小到大的顺序排列;
得到将该序列分为两类类别的分割阈值;
分别计算两类类别中数据数量的均值和占总数据数量的比例;
根据算两类类别中数据数量的均值和占总数据数量的比例计算两类类别之间的方差;
将方差最大时的分割阈值作为相似性阈值。
进一步地,在该方法中,所述两个社区为所述待分析关系网络中不同时间步中的两个社区;所述两个社区间的相似性的具体计算步骤包括:
计算两个社区中无序对的数量的最大值;
计算两个社区中相同无序对的数量和两个社区中无序对的数量的最大值的商,得到两个社区相同无序对比例的值;
将两个社区相同无序对比例的值与相似性阈值进行比对,当两个社区相同无序对比例的值大于等于相似性阈值时,两个社区相似,否则,不相似。
进一步地,在该方法中,所述根据所述社区相似矩阵进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列的具体步骤包括:
对于某一时间步的一个社区,在所述社区相似矩阵中进行社区匹配,如果下一时间步有社区与该社区相似,则将其加入该社区的演化序列中,并给予演化标记,直到演化序列的最后一个社区在之后时间步中无相似社区则表示社区匹配结束,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列;
对于有演化标记的社区无需单独获取该社区的演化序列。
进一步地,在该方法中,在所述获得每个社区的演化序列的同时检测社区生命周期中的关键事件,并统计所述关键事件的数量;
所述关键事件为所述待分析关系网络中社区在随时间演化过程中的变化,包括继续事件、解散事件、形成事件、合并事件、分裂事件、缩小事件、扩展事件和重现事件;
所述继续事件为某一时间步的一个社区与下一时间步的另一社区间存在相同的无序对;
所述解散事件为某一时间步的一个社区与之后任何时间步的社区均无相似性;
所述形成事件为某一时间步的一个社区与之前任何时间步的社区均无相似性;
所述合并事件为某一时间步的两个社区与下一时间步的另一社区均有相似性;
所述分裂事件为某一时间步的一个社区与下一时间步的另两个社区均有相似性;
所述缩小事件为某一时间步的一个社区的无序对数量大于与其有相似性的下一时间步的另一社区的无序对数量;
所述扩展事件为某一时间步的一个社区的无序对数量小于与其有相似性的下一时间步的另一社区的无序对数量;
所述重现事件为某一时间步的一个社区与之前某一时间步的社区有相似性。
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于知识图谱的社区演化分析方法。
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于知识图谱的社区演化分析方法。
根据本公开的一个或多个实施例的一个方面,提供一种基于知识图谱的社区演化分析装置。
一种基于知识图谱的社区演化分析装置,基于所述的一种基于知识图谱的社区演化分析方法,包括:
网络构建模块,被配置为调取数据库中某领域特定时间的文献信息,构建待分析关系网络;
社区结构检测模块,被配置为检测每个时间步的待分析关系网络的社区结构;
社区相似性计算模块,被配置为构建相同无序对比例矩阵计算相似性阈值,根据两个社区的所述相同无序对比例的值与相似性阈值判断两个社区间的相似性;
社区演化分析模块,被配置为根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列。
本公开的有益效果:
(1)本公开提供的一种基于知识图谱的社区演化分析方法及装置,利用了方差的特性并根据实验数据的特点自动计算获得相似性阈值,可以自动确认相似性阈值的大小,解决了传统的社区演化算法需要做实验确定社区相似性属性阈值的问题;
(2)本公开提供的一种基于知识图谱的社区演化分析方法及装置,在社区匹配的过程中进行了优化,允许非连续时间步跟踪社区的演化,并重新定义了社区的关键事件,能够更加精确地跟踪社区的演化。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是根据一个或多个实施例的一种基于知识图谱的社区演化分析方法流程图;
图2是根据一个或多个实施例的研究者合作关系的社区演化分析方法流程图。
具体实施方式:
下面将结合本公开的一个或多个实施例中的附图,对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开的一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合,下面结合附图与实施例对本公开作进一步说明。
实施例一
根据本公开的一个或多个实施例的一个方面,提供一种基于知识图谱的社区演化分析方法。
如图1所示,一种基于知识图谱的社区演化分析方法,该方法包括:
步骤S1:调取数据库中某领域特定时间的文献信息,构建待分析关系网络;
步骤S2:检测每个时间步的待分析关系网络的社区结构;
步骤S3:构建相同无序对比例矩阵计算相似性阈值,根据两个社区的所述相同无序对比例的值与相似性阈值判断两个社区间的相似性;
步骤S4:根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列。
在本实施例中,以学术研究者的合作关系分析为例进行基于知识图谱的社区演化分析方法的说明。本实施例提出了一种基于知识图谱的研究社区演化算法并将其用来分析学术研究者的合作关系,以此来了解研究者合作圈子的变化趋势。
本实施例定义了社区相似性属性,提出了一种允许非连续时间步跟踪社区演化的社区匹配方法,并且重新定义了社区生命周期的“关键事件”,从而更加精确地跟踪社区的演化,如图2所示,基本步骤如下:
步骤S1:利用数据库中某领域特定时间的文献信息构建研究者合作关系网络;
步骤S2:使用经典的Louvain社区发现算法为每个时间步(年)的研究者合作关系网络检测出社区结构;
在本实施例的步骤S2中,Louvain算法的基本思想为首先不断地遍历网络中的节点,尝试将单个节点加入能够使模块度提升最大的社区中,直到所有节点都不再变化,然后处理之前得到的结果,将一个个小的社区归并为一个超节点来重新构建网络,这时边的权重为两个节点内所有原始节点的边权重的和。迭代以上步骤直至算法稳定。
步骤S3:根据社区相似性的定义构建一个相同无序对比例矩阵,然后使用最大类间方差法自动确认阈值k;
步骤S4:根据社区相似性属性构建社区相似矩阵,然后根据该矩阵获取每个社区的演化序列,并且在此过程中检测出社区生命周期中的“关键事件”。
获取社区演化序列,主要是根据社区相似性属性的定义进行社区匹配,首先采用上述获得的网络中的所有社区构建相同无序对比例矩阵,然后根据矩阵计算得到相似性阈值,接下来根据社区相似性属性进行社区匹配,依次获得每个社区的演化序列,以此来跟踪社区的演化。
在本实施例的步骤S3中,进行社区相似性属性的定义,由于网络中的社区结构反映的是节点与节点之间的关系,所以决定使用两个社区中相同无序对的数量来表示这两个社区的相似性,并用公式(1)表示:
其中,和代表研究者合作网络不同时间步中的社区,num表示两个社区中相同无序对的数量,和分别表示两个社区中边的数量,而k表示该相似性属性的阈值,即当两个社区相同无序对比例的值大于等于k时,两个社区相似,否则不相似。
自动确认阈值k即根据不同的实验数据确定不同的阈值k,其主要方法是通过引入方差的概念,计算被阈值k分割成的两个类别之间的方差大小。
其具体的计算方法是首先根据社区相似性属性获取整个网络的n*n的相同无序对比例矩阵M(n为网络中所有社区的数量),矩阵M主要表示研究者合作关系网络中被检测出来的所有社区相互之间的相同无序对数量的比例,然后利用矩阵M获取矩阵内所有数据的序列并且按照从小到大的顺序排列,其中k为该序列的分割阈值并将序列分为类别A和类别B两类,接着分别计算类别A和类别B中数据数量占总的数据数量的比例,并用公式(2)和公式(3)表示:
其中,NA和NB分别表示类别A和类别B中的数据数量,而N表示序列中总的数据数量。
分别计算类别A和类别B数据的均值,并用公式(4)和公式(5)表示:
其中,μA和μB分别为类别A和类别B中数据的均值,而f(x)为两个类别中对应的数据值。
计算类别A和类别B之间的方差V,并用公式(6)表示:
V=PA(μA-μ)2+PB(μB-μ)2 (6)
其中,μ为序列中所有数据的均值。
当方差V最大时,可以认为类别A和类别B之间的差异最大,即阈值为k时可以成功地将数据序列分为差异最大的两类数据。所以可以将序列中的数据依次代入公式(6)中计算出使方差V最大时的k值。
在本实施例的步骤S4中,进行社区的匹配,由于学术研究者的合作关系在下一个时间步消失后还有可能在之后的时间步中重新进行合作,所以提出了一种允许非连续时间步跟踪社区演化的匹配方法。
其具体的方法为:首先根据社区相似性属性判断网络中所有社区相互之间的相似性,构建一个n*n的社区相似性矩阵S,若两个社区相似,则矩阵中对应的值为1,否则为0。然后根据矩阵S依次获取网络中每个社区的演化序列。
以t时刻的社区为例,查找矩阵S如果t+1时刻的社区与社区相似,则将其加入到社区的演化序列中,并给予演化标记,如果t+2时刻的社区与社区相似也将该社区加入到社区的演化序列中并加以标记,以此类推,直到演化序列的最后一个社区在之后时间步中无相似社区则表示社区演化结束。
如果某个社区已经被标记为演化社区,则表示该社区是由其它社区演化而来的社区,因此不需要单独获取该社区的演化序列。
在本实施例的步骤S4中,检测“关键事件”主要是在社区匹配的过程中演化序列每增加一个社区便检测出一个唯一的关键事件即网络中的社区在随时间演化过程中可能会经历的变化(继续、解散、形成、合并、分裂、缩小、扩展、重现),最后统计关键事件的数量,以此来反映社区的演化状况。在该方法中,在所述获得每个社区的演化序列的同时检测社区生命周期中的关键事件,并统计所述关键事件的数量;
所述关键事件为所述待分析关系网络中社区在随时间演化过程中的变化,包括继续事件、解散事件、形成事件、合并事件、分裂事件、缩小事件、扩展事件和重现事件。
接下来,对社区生命周期中的关键事件进行定义说明。
实施例二
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于知识图谱的社区演化分析方法。
实施例三
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于知识图谱的社区演化分析方法。
这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。
在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开内容的各个方面。
实施例四
根据本公开的一个或多个实施例的一个方面,提供一种基于知识图谱的社区演化分析装置。
一种基于知识图谱的社区演化分析装置,基于所述的一种基于知识图谱的社区演化分析方法,包括:
网络构建模块,被配置为调取数据库中某领域特定时间的文献信息,构建待分析关系网络;
社区结构检测模块,被配置为检测每个时间步的待分析关系网络的社区结构;
社区相似性计算模块,被配置为构建相同无序对比例矩阵计算相似性阈值,根据两个社区的所述相同无序对比例的值与相似性阈值判断两个社区间的相似性;
社区演化分析模块,被配置为根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列。
应当注意,尽管在上文的详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本公开的有益效果:
(1)本公开提供的一种基于知识图谱的社区演化分析方法及装置,利用了方差的特性并根据实验数据的特点自动计算获得相似性阈值,可以自动确认相似性阈值的大小,解决了传统的社区演化算法需要做实验确定社区相似性属性阈值的问题;
(2)本公开提供的一种基于知识图谱的社区演化分析方法及装置,在社区匹配的过程中进行了优化,允许非连续时间步跟踪社区的演化,并重新定义了社区的关键事件,能够更加精确地跟踪社区的演化。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于知识图谱的社区演化分析方法,其特征在于,该方法包括:
调取数据库中某领域特定时间的文献信息,构建待分析关系网络;
检测每个时间步的待分析关系网络的社区结构;
采用所述待分析关系网络中的所有社区构建相同无序对比例矩阵计算相似性阈值,相同无序对比例矩阵主要表示研究者合作关系网络中被检测出来的所有社区相互之间的相同无序对数量的比例,根据两个社区的相同无序对比例的值与相似性阈值判断两个社区间的相似性;
根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列。
2.如权利要求1所述的一种基于知识图谱的社区演化分析方法,其特征在于,在该方法中,采用Louvain社区发现算法检测每个时间步的待分析关系网络的社区结构。
3.如权利要求1所述的一种基于知识图谱的社区演化分析方法,其特征在于,在该方法中,所述构建相同无序对比例矩阵计算相似性阈值的具体步骤包括:
采用所述待分析关系网络中的所有社区构建相同无序对比例矩阵;
采用最大类间方差法根据所述相同无序对比例矩阵计算相似性阈值。
4.如权利要求3所述的一种基于知识图谱的社区演化分析方法,其特征在于,在该方法中,所述采用最大类间方差法根据所述相同无序对比例矩阵计算相似性阈值的具体步骤包括:
根据所述相同无序对比例矩阵获取矩阵内所有数据的序列,并按照从小到大的顺序排列;
得到将该序列分为两类类别的分割阈值;
分别计算两类类别中数据数量的均值和占总数据数量的比例;
根据算两类类别中数据数量的均值和占总数据数量的比例计算两类类别之间的方差;
将方差最大时的分割阈值作为相似性阈值。
5.如权利要求1所述的一种基于知识图谱的社区演化分析方法,其特征在于,在该方法中,所述两个社区为所述待分析关系网络中不同时间步中的两个社区;所述两个社区间的相似性的具体计算步骤包括:
计算两个社区中无序对的数量的最大值;
计算两个社区中相同无序对的数量和两个社区中无序对的数量的最大值的商,得到两个社区相同无序对比例的值;
将两个社区相同无序对比例的值与相似性阈值进行比对,当两个社区相同无序对比例的值大于等于相似性阈值时,两个社区相似,否则,不相似。
6.如权利要求1所述的一种基于知识图谱的社区演化分析方法,其特征在于,在该方法中,所述根据所述社区相似矩阵进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列的具体步骤包括:
对于某一时间步的一个社区,在所述社区相似矩阵中进行社区匹配,如果下一时间步有社区与该社区相似,则将其加入该社区的演化序列中,并给予演化标记,直到演化序列的最后一个社区在之后时间步中无相似社区则表示社区匹配结束,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列;
对于有演化标记的社区无需单独获取该社区的演化序列。
7.如权利要求1所述的一种基于知识图谱的社区演化分析方法,其特征在于,在该方法中,在所述获得每个社区的演化序列的同时检测社区生命周期中的关键事件,并统计所述关键事件的数量;
所述关键事件为所述待分析关系网络中社区在随时间演化过程中的变化,包括继续事件、解散事件、形成事件、合并事件、分裂事件、缩小事件、扩展事件和重现事件;
所述继续事件为某一时间步的一个社区与下一时间步的另一社区间存在相同的无序对;
所述解散事件为某一时间步的一个社区与之后任何时间步的社区均无相似性;
所述形成事件为某一时间步的一个社区与之前任何时间步的社区均无相似性;
所述合并事件为某一时间步的两个社区与下一时间步的另一社区均有相似性;
所述分裂事件为某一时间步的一个社区与下一时间步的另两个社区均有相似性;
所述缩小事件为某一时间步的一个社区的无序对数量大于与其有相似性的下一时间步的另一社区的无序对数量;
所述扩展事件为某一时间步的一个社区的无序对数量小于与其有相似性的下一时间步的另一社区的无序对数量;
所述重现事件为某一时间步的一个社区与之前某一时间步的社区有相似性。
8.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求1-7任一项所述的一种基于知识图谱的社区演化分析方法。
9.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行如权利要求1-7任一项所述的一种基于知识图谱的社区演化分析方法。
10.一种基于知识图谱的社区演化分析装置,其特征在于,基于如权利要求1-7任一项所述的一种基于知识图谱的社区演化分析方法,包括:
网络构建模块,被配置为调取数据库中某领域特定时间的文献信息,构建待分析关系网络;
社区结构检测模块,被配置为检测每个时间步的待分析关系网络的社区结构;
社区相似性计算模块,被配置为采用所述待分析关系网络中的所有社区构建相同无序对比例矩阵计算相似性阈值,相同无序对比例矩阵主要表示研究者合作关系网络中被检测出来的所有社区相互之间的相同无序对数量的比例,根据两个社区的相同无序对比例的值与相似性阈值判断两个社区间的相似性;
社区演化分析模块,被配置为根据社区间的相似性构建社区相似矩阵,进行社区匹配,采用非连续时间步跟踪社区演化依次获得每个社区的演化序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910303799.4A CN110019845B (zh) | 2019-04-16 | 2019-04-16 | 一种基于知识图谱的社区演化分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910303799.4A CN110019845B (zh) | 2019-04-16 | 2019-04-16 | 一种基于知识图谱的社区演化分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019845A CN110019845A (zh) | 2019-07-16 |
CN110019845B true CN110019845B (zh) | 2021-04-09 |
Family
ID=67191458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910303799.4A Active CN110019845B (zh) | 2019-04-16 | 2019-04-16 | 一种基于知识图谱的社区演化分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019845B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680205B (zh) * | 2020-06-12 | 2023-07-04 | 杨鹏 | 一种基于事理图谱的事件演化分析方法及装置 |
CN112819049B (zh) * | 2021-01-22 | 2024-05-28 | 中国空间技术研究院 | 用于动态时序通信网络的分布式社区演化方法 |
CN113268492B (zh) * | 2021-04-09 | 2022-06-14 | 厦门攸信信息技术有限公司 | 一种基于时空知识图谱的风险溯源方法、系统及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853739A (zh) * | 2012-11-29 | 2014-06-11 | 中国移动通信集团公司 | 动态社会关系网络社区演化识别以及稳定社区提取方法 |
CN109166047A (zh) * | 2018-08-04 | 2019-01-08 | 福州大学 | 基于密度聚类的增量动态社区发现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060112146A1 (en) * | 2004-11-22 | 2006-05-25 | Nec Laboratories America, Inc. | Systems and methods for data analysis and/or knowledge management |
CN102270239A (zh) * | 2011-08-15 | 2011-12-07 | 哈尔滨工业大学 | 论坛中关联网络的演化分析方法 |
US20130268595A1 (en) * | 2012-04-06 | 2013-10-10 | Telefonaktiebolaget L M Ericsson (Publ) | Detecting communities in telecommunication networks |
-
2019
- 2019-04-16 CN CN201910303799.4A patent/CN110019845B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853739A (zh) * | 2012-11-29 | 2014-06-11 | 中国移动通信集团公司 | 动态社会关系网络社区演化识别以及稳定社区提取方法 |
CN109166047A (zh) * | 2018-08-04 | 2019-01-08 | 福州大学 | 基于密度聚类的增量动态社区发现方法 |
Non-Patent Citations (1)
Title |
---|
科研网络的社区发现及演化特征研究;汤强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415;第I143-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110019845A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829433B (zh) | 人脸图像识别方法、装置、电子设备及存储介质 | |
US10846052B2 (en) | Community discovery method, device, server and computer storage medium | |
CN110019845B (zh) | 一种基于知识图谱的社区演化分析方法及装置 | |
CN110288024B (zh) | 一种基于原型网络少样本学习的图像分类器构建、图像识别方法及系统 | |
CN109508879B (zh) | 一种风险的识别方法、装置及设备 | |
CN113360580A (zh) | 基于知识图谱的异常事件检测方法、装置、设备及介质 | |
CN114444619B (zh) | 样本生成方法、训练方法、数据处理方法以及电子设备 | |
CN113010896A (zh) | 确定异常对象的方法、装置、设备、介质和程序产品 | |
US20170147675A1 (en) | High dimensional clusters profile generation | |
US20200133981A1 (en) | Method and device for searching character string | |
CN113746780B (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
CN115632874A (zh) | 一种实体对象的威胁检测方法、装置、设备及存储介质 | |
CN113328994A (zh) | 一种恶意域名处理方法、装置、设备及机器可读存储介质 | |
CN115828160A (zh) | 基于大数据和云计算的数据挖掘方法和平台 | |
US10467538B2 (en) | Link de-noising in a network | |
CN117240632A (zh) | 一种基于知识图谱的攻击检测方法和系统 | |
CN117474091A (zh) | 一种知识图谱构建方法、装置、设备及存储介质 | |
CN113656797B (zh) | 行为特征提取方法以及行为特征提取装置 | |
CN110717086A (zh) | 一种海量数据聚类分析方法及装置 | |
CN115328621B (zh) | 基于区块链的事务处理方法、装置、设备及存储介质 | |
CN116846645A (zh) | 基于自监督协作对比学习的网络入侵检测方法及应用 | |
CN108011735B (zh) | 社区发现方法及装置 | |
CN110781410A (zh) | 一种社群检测方法及装置 | |
CN115545019A (zh) | 日志模板提取方法、设备、存储介质及程序产品 | |
CN114003648B (zh) | 风险交易团伙的识别方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |