CN112005525B - 用于从大、密集且噪声网络提取结构的系统和方法 - Google Patents
用于从大、密集且噪声网络提取结构的系统和方法 Download PDFInfo
- Publication number
- CN112005525B CN112005525B CN201880062841.1A CN201880062841A CN112005525B CN 112005525 B CN112005525 B CN 112005525B CN 201880062841 A CN201880062841 A CN 201880062841A CN 112005525 B CN112005525 B CN 112005525B
- Authority
- CN
- China
- Prior art keywords
- network
- nodes
- filtered
- node
- connection components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000001914 filtration Methods 0.000 claims abstract description 20
- 230000004044 response Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 28
- 238000000354 decomposition reaction Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 15
- 239000013598 vector Substances 0.000 description 9
- 238000013500 data storage Methods 0.000 description 8
- 238000000638 solvent extraction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000012804 iterative process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004870 electrical engineering Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种用于从网络提取结构的方法包括:接收边缘列表,其中所述边缘列表定义包括节点和将所述节点相互连接的边缘的网络,其中所述边缘定义连接的节点之间的关系的强度;和基于预定过滤器参数过滤来自所述边缘列表的节点,从而形成经过滤网络。所述方法进一步包括识别所述经过滤网络内的不同的连接组件,针对附加结构在所述不同的连接组件内的存在,分析所述经过滤网络的所述不同的连接组件中的每一个,其中所述附加结构被分解成附加不同的连接组件。所述方法进一步包括执行所述不同的连接组件中的每一个的树遍历,其中来自所述树遍历的所得阶层结构被合并以确定局部模块化最优,和响应于所述局部模块化最优产生所述网络内的结构组件。
Description
相关申请的交叉引用
本申请主张2018年7月31日提交且题为“用于从大、密集且噪声网络提取结构的系统和方法(Systems and Methods for Extracting Structure from Large,Dense,andNoisy Networks)”的美国专利申请第16/050,138号的权益,所述专利申请主张2017年8月1日提交且题为“用于提取大、密集且噪声网络中的结构的系统和方法(Systems andMethods for Extracting Structure in Large,Dense and Noisy Networks)”的美国临时专利申请第62/539,758号的优先权,所述专利的内容在此被以引用的方式全部并入。
技术领域
本说明书大体涉及用于从网络提取结构的系统和方法,并且更具体地说,涉及用于利用按迭代过程使用的过滤与分析方法的组合从大、密集且噪声网络提取结构的系统和方法。
背景技术
可将许多科学关注的系统表示为网络——通过边缘接合的节点的集合。实例包括因特网和万维网、代谢网络、食品网络、神经网络、通信和分布网络、社会网络和用于数据分析的大数据集合。即,网络模型可描述实体和它们连接的方式。然而,存在检测和表征这些大且通常噪声网络模型内的社区结构的问题。一般来说,问题是,定义下层网络结构的关系可受到不定义结构的关系(例如,网络模型内的所谓的“噪声”)遮蔽。现有方法不解决噪声关系,且因此常常不解决贯穿网络模型的下层结构。
发明内容
在一个实施例中,一种用于从网络提取结构的方法包括:由处理器接收边缘列表,其中所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络,其中所述一个或多个边缘定义连接的节点之间的关系的强度;和由处理器基于预定过滤器参数过滤来自所述边缘列表的一个或多个节点,从而形成经过滤网络。所述方法进一步包括:利用戴克斯特拉算法(Dijkstra's algorithm)识别所述经过滤网络内的一个或多个不同的连接组件;针对附加结构在所述一个或多个不同的连接组件内的存在,分析所述经过滤网络的所述一个或多个不同的连接组件中的每一个,其中所述附加结构被分解成附加不同的连接组件;执行所述不同的连接组件中的每一个的树遍历,其中来自所述树遍历的所得阶层结构被合并以确定局部模块化最优;和响应于所述局部模块化最优,产生所述网络内的一个或多个结构组件。
在另一实施例中,一种用于从网络提取结构的系统,包括处理器和耦合到所述处理器的非暂时性处理器可读存储器,所述非暂时性处理器可读存储器包括存储于其上的机器可读指令集。所述机器可读指令集在由所述处理器执行时使所述处理器:接收边缘列表,其中所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络,其中所述一个或多个边缘定义连接的节点之间的关系的强度;和基于预定过滤器参数滤出自所述边缘列表的一个或多个节点,从而形成经过滤网络。所述机器可读指令集可进一步使所述处理器:利用戴克斯特拉算法识别所述经过滤网络内的一个或多个不同的连接组件;针对附加结构在所述一个或多个不同的连接组件内的存在,分析所述经过滤网络的所述一个或多个不同的连接组件中的每一个,其中所述附加结构被分解成附加不同的连接组件;执行所述不同的连接组件中的每一个的树遍历,其中来自所述树遍历的所得阶层结构被合并以确定局部模块化最优;和响应于所述局部模块化最优,产生所述网络内的一个或多个结构组件。
在又一实施例中,一种用于从网络提取结构的计算机程序产品,其在由计算机执行时使所述计算机进行包括以下的步骤:接收边缘列表,其中所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络,其中所述一个或多个边缘定义连接的节点之间的关系的强度;基于预定过滤器参数滤出自所述边缘列表的一个或多个节点,从而形成经过滤网络;和利用戴克斯特拉算法识别所述经过滤网络内的一个或多个不同的连接组件。所述计算程序产品可进一步使所述计算机进行包括以下的步骤:针对附加结构在所述一个或多个不同的连接组件内的存在,分析所述经过滤网络的所述一个或多个不同的连接组件中的每一个,其中所述附加结构被分解成附加不同的连接组件;执行所述不同的连接组件中的每一个的树遍历,其中来自所述树遍历的所得阶层结构被合并以确定局部模块化最优;和响应于所述局部模块化最优,产生所述网络内的一个或多个结构组件。
结合图,鉴于以下详细描述,将更充分地理解由本文中描述的实施例提供的这些和附加特征。
附图说明
图中阐述的实施例在本质上是说明性和示范性的,且并不希望限制由权利要求书定义的标的。当结合以下图阅读时,可理解说明性实施例的以下详细描述,其中相似结构用相似参考数字指示,且其中:
图1示意性描绘根据本文中展示和描述的一个或多个实施例的用于从大、密集且噪声网络模型提取结构的实例计算网络;
图2示意性描绘根据本文中展示和描述的一个或多个实施例的从大、密集且噪声网络模型提取结构的实例计算装置;
图3图形描绘根据本文中展示和描述的一个或多个实施例的具有多个下层结构的大且密集网络;
图4A描绘根据本文中展示和描述的一个或多个实施例的用于确定下层结构的网络模型的一部分的阶层结构的图示性表示;
图4B描绘根据本文中展示和描述的一个或多个实施例的来自应用于用于确定下层结构的网络模型的函数拟合方法的结果的图形的图示性表示;
图5描绘根据本文中展示和描述的一个或多个实施例的图示性大、密集且噪声网络;
图6图形描绘根据本文中展示和描述的一个或多个实施例的从大、密集且噪声网络迭代提取结构的实例方法的流程图;
图7图示性描绘根据本文中展示和描述的一个或多个实施例的使用本文中描述的方法确定结构所根据的图示性网络。
具体实施方式
网络模型描述实体和它们连接的方式。作为非限制性实例,网络模型可用来描述书面文章与其间的引用之间的关系,或出版物之间的作者和共同原作者联系。举例来说,可存在具有数十亿个关系的数千万个文章和作者,因此提供显著大的网络。作为非限制性实例,出版物可具有定义出版物的一个或多个属性,诸如,原作者、内部引用、出生媒体、主题、出版和修订日期等。针对一个出版物的这些属性和其它中的每一个可与许多其它出版物联系在一起,这可形成出版物的网络模型。当出版物被添加或从网络模型去除时,如本文中还提及的社区或结构组件可形成且存在。确定此类社区可给系统(诸如,编目或搜索系统)或用户提供唯一社区集(即,网络化的出版物的群组),其可从由本文中描述的系统和方法确定的下层结构确定。
在此类网络模型内,可观测到密集关系群组,其表示网络模型中的下层结构。在以上提出的文章实例中,这些关系可表示文章的共同主题领域,或作者的社区。跨这种大网络提取这结构可能有挑战,并且存在用于识别这些群组的许多算法。在许多情况中,定义下层网络结构的关系可受到不定义结构的关系(所谓的“噪声”边缘)遮蔽。出于许多原因,可能并不可能先验知道哪些关系是结构性和哪些是噪声,这些原因可包括但不限于在表示出版物的网络模型内的大量节点(例如,多个出版物)。举例来说,在网络模型内的第一出版物和第二出版物可联系在一起,因为它们共享合著者,但那种联系可为“噪声”联系,因为联系第一与第二出版物的合著者可主要地更大体上对具有在第二出版物中论述的主题而非在第一出版物中论述的主题的出版物创作或投稿。因而,在一些情况中,由于不太重要但与第一与第二出版物之间的关系相关的联系(或如本文中提及的“边缘”),基于主题的社区可包括“噪声”成员。
一些用于提取网络中的结构的方法不解决噪声关系,且因此常常不解决贯穿网络模型的下层结构。本公开的实施例是针对用于提取大、密集且噪声网络模型中的结构的系统和方法,使用解决噪声关系迭代方法解决下层结构。
如本文中所描述,系统和方法从大、密集且噪声网络模型提取结构,这导致定义本文中还被称作网络模型内的结构组件的社区。这些结构组件可作为重新附接的网络而存储于数据存储组件内。此外,这些社区可由用于分析数据的其它应用和方法(诸如,从数据确定关系、趋势等的大数据集)利用。这些社区可由附加计算装置和系统用来建立知识库或识别数据之间的关系,这可改善从搜索算法返回的结果和/或通过基于由本文中描述的系统和方法揭示的关系的社区的预测性算法将对于另外有关内容的建议提供到用户。
现在在下文描述从大、密集且噪声网络模型提取结构的各种实施例。
现在参看所述图,图1描绘根据本文中展示和描述的一个或多个实施例的示范性计算机网络100,其图示用于从大、密集且噪声网络模型提取结构的系统的组件。如在图1中图示,网络100可包括诸如因特网的广域网、局域网(LAN)、移动通信网络、公共服务电话网络(PSTN)和/或其它网络,且可被配置成电子和/或通信连接用户计算装置102、用于从大、密集且噪声网络模型提取结构的提取计算机103和管理员计算装置104。
用户计算装置102可包括显示器102a、处理单元102b和输入装置102c,其中的每一个可通信耦合在一起和/或耦合到网络100。用户计算装置102可用来与前端应用程序接口连接,所述前端应用程序可利用用于从大、密集且噪声网络模型提取结构的系统和方法。在一些实施例中,可实施一个或多个用户计算装置以通过进行本文中描述的一个或多个具体步骤从大、密集和/或噪声网络模型提取结构。
另外,图1中包括的是管理员计算装置104。在用于从大、密集且噪声网络模型提取结构的计算装置103需要监管、更新或校正的情况下,管理员计算装置104可被配置成提供所要的监管、更新和/或校正。
应理解,虽然将用户计算装置102和管理员计算装置104描绘为个人计算机且将用于生成内容摘要的提取计算机103描绘为服务器,但这些只是实例。更具体地说,在一些实施例中,可将任一类型的计算装置(例如,移动计算装置、个人计算机、服务器等等)用于这些组件中的任一个。另外,虽然将这些计算装置中的每一个在图1中图示为单件硬件,但这也是实例。更具体地说,用户计算装置102、用于从大、密集且噪声网络模型提取结构的提取计算机103和管理员计算装置104中的每一个可表示多个计算机、服务器、数据库等。举例来说,用户计算装置102、用于从大、密集且噪声网络模型提取结构的提取计算机103和管理员计算装置104中的每一个可形成用于实施本文中描述的方法的分散式或网格计算框架。
图2描绘用于从大、密集且噪声网络模型提取结构的提取计算机103的内部组件。提取计算机103通常从如本文中描述的网络模型内过滤、识别、分析和产生一个或多个结构组件。根据本文中展示和描述的实施例,为了完成此项任务,用于从大、密集且噪声网络模型提取结构的提取计算机103可利用硬件、软件和/或固件。虽然在一些实施例中,提取计算机103可被配置为具有必要硬件、软件和/或固件的通用计算机,但在一些实施例中,提取计算机103可被配置为被具体设计成用于执行本文中描述的功能性的专用计算机。在提取计算机103是通用计算机的实施例中,应理解,如本文中描述的由提取计算机103完成的过程通过允许对大、密集且噪声网络模型的更高效存取来改善计算机功能性。
如还在图2中图示,提取计算机103可包括处理器230、输入/输出硬件232、网络接口硬件234、数据存储组件236(其存储边缘列表238a、连接的组件数据238b、被分解的连接的组件数据238c和例如呈重新附接的网络238d的形式的所得结构组件)和存储器240。存储器240可为机器可读存储器(其还可被称作非暂时性处理器可读存储器)。存储器240可被配置为易失性和/或非易失性存储器,且因而,可包括随机存储存储器(包括SRAM、DRAM和/或其它类型的随机存取存储器)、闪存、寄存器、压缩光碟(CD)、数字通用光碟(DVD)和/或其它类型的存储组件。另外,存储器240可被配置成存储操作逻辑242、过滤器逻辑244、连接的组件逻辑246、分解的逻辑248、树遍历逻辑250和重新附接的逻辑252,作为实例,其中的每一个可体现为计算机程序、固件或硬件,且将在本文中更详细地描述。逻辑接口246也包括在图2中,且可实施为总线或其它接口以有助于在提取计算机103的组件间的通信。
处理器230可包括被配置成接收并执行编程指令(诸如,来自数据存储组件236和/或存储器240)的任一(何)处理组件。所述指令可呈存储于数据存储组件236和/或存储器240中的机器可读指令集(例如,一个或多个编程指令)的形式。输入/输出硬件232可包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器,和/或用于接收、发送和/或呈现数据的其它装置。所述网络接口硬件234可包括任何有线或无线网络连接硬件,诸如,调制解调器、LAN端口、Wi-Fi卡、WiMax卡、移动通信硬件和/或用于与其它网络和/或装置通信的其它硬件。
应理解,数据存储组件236可驻留于提取计算机103局部和/或远离提取计算机103,且可被配置成存储一条或多条数据,用于由提取计算机103和/或其它组件存取。如在图2中图示,数据存储组件236存储例如边缘列表238a。边缘列表238a可为网络模型的数值表示。举例来说,边缘列表238a可为大、密集且通常噪声网络模型。边缘列表238a以网络图形描述节点的邻居的集合。换句话说,边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的边缘的网络。所述一个或多个边缘可通过例如与边缘或在图形空间中定义节点之间的距离的边缘的长度相关联的加权值进一步定义连接的节点之间的关系的强度。举例来说,具有长的长度的边缘可指示弱关系,而具有较短长度的边缘可指示比较长长度边缘强的关系。在一些实施例中,网络可通过邻接矩阵、邻接列表或其它数值/矩阵结构定义。
数据存储组件236还可存储连接的组件数据238b。连接的组件数据238b可含有关于网络作为部分连接的节点的表示的信息,所述信息已通过如本文中更详细描述的初始过滤操作产生。另外,被分解的连接的组件数据238c可包括在使用例如模块化频谱分解方法和/或Louvain方法分析后从连接的组件数据238b定义的网络模型的部分。即,被分解的连接的组件数据238c定义在一个或多个连接的组件238b内的附加结构。网络模型的部分可对应于例如但不限于来自万维网的网络模型的关于有关主题的网页的集合、来自社会网络的网络模型的社会单位或社区、来自具有基于司法权、时间、交叉引用等的关系的网络模型判例法的关于特定问题或主题的判例法。如本文中更详细描述的这些部分可包括可通过所述方法的附加迭代改进的甚至另外结构。
数据存储组件236还可包括从网络提取的关于定义一个或多个结构组件的重新附接的网络238d的数据。重新附接的网络238d可由边缘列表、邻接矩阵或网络模型的其它数值表示来表示。重新附接的网络238d可包括从定义在网络内存在的一个或多个个别社区结构的大、密集且噪声网络模型确定的一个或多个结构组件。举例来说,社区可为有关节点的群集,诸如,在其间共享一个或多个作者的文章的群组,或希望从大数据集合确定的任何其它属性。
存储器240中包括的是操作逻辑242、过滤器逻辑244、连接的组件逻辑246、分解的逻辑248、树遍历逻辑250和/或重新附接的逻辑252。操作逻辑242可包括操作系统和/或用于管理提取计算机103的组件的其它软件。过滤器逻辑244也可存储于存储器240中,且可含有用于基于预定过滤器参数从边缘列表滤出一个或多个节点从而形成经过滤网络的指令。举例来说,预定过滤器参数可为定义用于节点的连接数目(即,连接到节点的边缘的数目)的预定值,其也可被称作节点度。网络内的每个节点可具有到另一节点的至少一个连接。所述网络通过预定过滤器参数过滤以去除节点和/或边缘。在一个非限制性实例中,预定过滤器参数是节点度,即,从那个节点到网络内的所有其它节点的边缘的总数。在这个非限制性实例中,未良好连接且具有比预定数目少(例如,作为非限制性实例,少于1、2、3、4、5、6、7、8、9、10或更多个连接)的连接的节点被滤出网络。可在第一迭代中将预定过滤器参数保持为最小值,并且在持续迭代中调整(例如,增大或减小)。以这种方式去除节点减少了指示结构和噪声的节点和边缘两者。即,通过去除具有少于预定过滤器参数的节点,在网络模型内的节点的总数减少,从而有可能暴露在网络模型内的初始结构集合,或至少减小噪声或一些微小结构元素的初始集合,使得稍后的过程可更好地定义网络模型的下层结构。
存储器240还可包括连接的组件逻辑246。连接的组件逻辑246可包括用来识别经过滤网络内的一个或多个不同的连接组件的一个或多个算法,诸如,戴克斯特拉算法。举例来说,戴克斯特拉算法可产生定义所述网络内的第一节点与第二节点之间的最短路径的多个不同的连接组件。对于给定节点,戴克斯特拉算法可确定到给定节点连接到的众多其它节点的最短路径。这些中的每一个可组合以定义连接的组件。所述连接的组件可包括待进一步定义的社区的集合。
一般来说,戴克斯特拉算法的实施例可剖析网络模型以定义网络内的第一节点与第二节点之间的最短路径,从而产生从初始节点开始到网络模型内的一个或多个其它节点的路径和/或树。举例来说,戴克斯特拉算法可包括以下一般步骤。首先,将网络模型内的所有节点标记为未访问,例如,可形成所有未访问节点的列表,叫作未访问集合。其次,可对所有节点指派初始试验距离。可对初始节点指派值零,且将所有其它节点设定到无穷大。第三,开始于初始节点(即,在第一迭代中,其为当前节点),所述算法计算从当前节点到其相邻节点中的每一个的试验距离。将试验距离加到当前节点的值,并与针对相邻节点中的每一个确定的当前指派值比较。两个值中的较小值(即,试验距离或相邻节点的当前值,如果先前尚未比较所述节点,则所述值有可能无穷大)将被指派到相邻节点。举例来说,如果当前节点A用距离6标记且将其与邻居B连接的边缘具有长度2,则经过A到B的距离将为6+2=8。如果B先前用大于8的距离标记,则将其改成8。否则,保持当前值。第四,将当前节点标记为被访问,并从未访问集合去除。被访问的节点将从不会再次作检查。第五,如果已将目的地节点标记为被访问(即,当计划两个具体节点之间的路线时)或如果在未访问集合中的节点间的最小试验距离是无穷大(当计划完整遍历时;当不存在初始节点与其余未访问节点之间的连接时出现),则算法停止。否则,将用距当前节点的相邻节点的集合的最小试验距离标记的未访问节点选择并设定为新“当前节点”。算法然后返回到第三步骤并继续。
仍然参考存储器240,分解的逻辑248可存储于存储器240内。分解的逻辑248通常包括确定附加结构在连接的组件内的存在的一种或多种方法。举例来说,分解的逻辑248可完全或部分包括或另外实施模块化频谱分解方法,例如,如在纽曼(Newman)论文“网络中的模块化和社区结构(Modularity and community structure in networks)”中所描述,所述论述可在http://www.pnas.org/content/pnas/103/23/8577.full.pdf获得,其在此被以引用的方式全部并入。此外,应理解,可使用其它方法替代模块化频谱分解方法,例如但不限于,在德梅奥(De Meo)、帕斯奎尔(Pasquale)等人的“用于大型网络中的社区检测的一般化Louvain方法(Generalized Louvain Method for Community Detection in LargeNetwork)”(智能系统设计与应用(ISDA),2011年第11届,国际智能系统设计与应用大会,IEEE,第88-93页,2011)中描述的Louvain方法。此外,可使用针对附加结构在一个或多个不同的连接组件内的存在而分析经过滤网络的一个或多个不同的连接组件中每个连接组件的其他方法,当确定存在附加结构时,附加结构被分解成附加的不同的连接组件。
存储器240还可包括树遍历逻辑250。树遍历逻辑250可包括用于执行每一被分解的连接的组件的树遍历的指令。树遍历是指精确地访问(即,检查和/或更新)一次树数据结构(诸如,网络的阶层结构或其它树状表示)中的每一节点的过程的图形遍历形式。此类遍历是按访问所述节点的次序分类。通常存在遍历网络的节点的三个方式:按深度优先次序:按顺序、预排序和后排序。然而,存在其它树遍历算法,其集中于分析最有希望的移动,将在搜索空间的随机取样上的搜索树的扩展偏置。树遍历逻辑250还可包括用于合并所得结构(例如,阶层结构)的逻辑。可从针对不同的连接组件中的每一个执行树遍历来确定阶层结构。如本文中详细描述,可合并所得阶层结构以发现局部模块化最优。这提供可从网络内检索的许多结构组件。举例来说,当使用模块化频谱分解方法分析一个或多个不同的连接组件时,树遍历过程可开始于所得树的顶部,在顶部,当过程沿着树遍历时,组件被适当地分成子组件。当不存在留待分裂的组件或子组件时,过程停止。接下来,过程沿着所得树向上回移以通过模块化参数(例如,可通过用于网络模型的特征矩阵的特征向量表达的模块化参数)确定最优分裂在何处。在其它实施例中,例如,利用Louvain模块化方法的实施例,树遍历方法开始于所述节点且将节点接合在一起,逐步建立树,直到观测到模块化参数的最优。模块化参数的最优可首先通过在所有节点上操作来确定小社区(即,小结构组件),然后可将每一小社区分群成一个节点,并且可重复树遍历过程,直到不会出现模块化增加。
现参看图3,展示大且密集网络300的图形描绘。网络300的实体由节点302图示,且节点之间的关系由边缘表示。应注意,为了易于图示,在图3中未图示网络300的边缘。应理解,在网络300内可存在由于网络300内的噪声的大小、密度和量而可能不可见的下层结构。为了图示和解释的目的,以不同灰度值描绘展示总体网络300的下层结构的实体的结构(例如,结构组件304A-304E)。揭示下层结构的方法包括创建网络的表示(例如,在图3中描绘的表示),和然后使用本文中描述的方法识别结构。
如上所提到,参看图4,描绘网络的图示性表示和用于确定下层结构的方法的图形表示。网络的表示可为(不限于)边缘列表、邻接矩阵、邻接列表等。如本文中更详细地描述,网络模型的边缘列表通过两个节点之间的个别连接的列表定义。邻接矩阵是其行与列通过节点索引且其单元含有布尔(Boolean)值的矩阵,布尔值指示在对应于单元的行与列的节点之间是否存在边缘。网络模型的邻接列表使网络模型中的每一节点与其相邻节点或边缘的集合相关联。这个基本理念存在许多变化,差别在于其实施节点与集合之间的关联的方式的细节、在于其实施所述集合的方式、在于其包括节点和边缘两者还是只包括节点作为第一类别目标和在于使用何种类的目标表示节点和边缘。
关于用于确定网络中的下层结构的方法,可通过迭代过程,结合过滤利用例如但不限于以下方法:戴克斯特拉算法、频谱模块化分解方法、阶层结构化方法(例如,如由图4A中描绘的树结构展示)、函数拟合(例如,由来自适用于图4B中描绘的网络模型的函数拟合方法的结果的图形展示)。即,这些方法单独不够来准确地于网络内揭示(例如,在信号与噪声边缘之间区分)以确定下层结构,但当如本文中描述一起使用时,可用来确定定义共享类似关系类型的节点的通信的下层结构。
如本文中提及,将“噪声”定义为不对下层结构有大的影响的边缘。参看图5,描绘图示性大、密集且噪声网络模型。所述网络包括由定义连接的节点之间的关系的边缘504互连的多个节点502。噪声通常由随机边缘引起。实际中,由于不继续产生长期活动群集而是形成图形的密集组件的节点之间的机会交互(例如,共同合著者、在不同教授指导下致力于出版物的研究生,其中一个出版物关于应用数学并且另一个出版物关于电工程),出现随机边缘。所述边缘因此不指示结构,并且这些边缘的存在可遮蔽这个结构。应注意,网络是时变的,并且结构可演变。因此,在一个时间点的噪声边缘可随着时间流逝通过创建附加边缘504而日益变为中心,并且在未来某一时点,变为指示结构。在图5的实例中,均匀随机连接模型由网络的节点将社区i连接到社区j的概率Pij定义。社区可被称作有关节点或结构组件的群集。对于均匀随机连接模型,通过模块化频谱分解方法的可检测性的限制可被以数学方式证明为由给出。经验证据证明,所有方法具有检测限制。为了检测网络中的结构,人们需要将不同社区的节点之间的连接的概率Pij最小化和将同一社区的节点之间的连接的概率Pii最大化。然而,因为无法确定噪声与信号之间的差异,所以难以区别社区内与跨社区边缘,并且因此同时既将Pij最小化又将Pii最大化以揭示下层结构是有挑战性的。应理解,本公开的实施例不限于确定均匀随机连接的图形内的结构,并且此类图形仅作为实例提供。本文中描述的迭代方法可适用于任一类型的图形。
现参看图6和7,现将描述用于利用在迭代过程中使用的过滤与分析方法的组合从大、密集且噪声网络模型700提取结构的方法。图6描绘从大、密集且噪声网络模型700迭代提取结构的实例方法的流程图。图7图示性描绘网络700,可使用本文中关于图6描述的方法从所述网络确定结构。虽然图7提供相当简单的实例网络700,但这只是出于解释目的,并且应理解,本文中描述的系统和方法可实施于具有数百个、数千个、数百万个、数十亿个或更多节点和边缘的网络上。图7中描绘的网络700包括由边缘720-744互连的节点701-716。边缘720-744可各包括长度。长度可定义连接的节点720-744之间的关系的强度。在一些实施例中,边缘的长度与连接的节点720-744之间的关系的强度成反比。举例来说,长边缘长度可指示弱关系,而短边缘长度可指示连接的节点之间的强关系。另外,如上所述,每一节点可通过节点度定义,节点度指连接到特定节点的边缘的数目。举例来说,节点701具有节点度1,且节点702具有节点度5。节点之间的强或弱关系(例如,关系的程度或强度)可为所述节点共享的属性的数目的结果,例如,两个出版物可联系在一起,因为它们共享共同合著者。如果两个出版物还共享类似或有关主题等,则可定义较强联系。然而,这只是一个有限实例。网络的节点还可表示个别消费者和商业街(例如,实体商店、线上零售、电话商务等),其中消费者通过诸如购买频率、退货频率、重复购买频率等的习惯的集合与商业街和其他消费者有联系。当产生购买网络模型的消费者和街道的初始网络模型时,可通过模型内的其它者将属性或习惯的程度正规化。
现参看关于从大、密集且噪声网络模型700提取结构的方法的论述的图6和7,在框602,系统可接收边缘列表。边缘列表表示整个网络模型。所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络模型700,其中所述一个或多个边缘定义连接的节点之间的关系的强度。举例来说,在下表1中描绘用于网络模型700的边缘列表。
表1
在一些实施例中,边缘列表可包括仅节点矩阵,而在其它实施例中,可提供边缘识别符和/或边缘权重。此外,边缘列表只是用于定义和输入网络模型的表示的一个实例。可由提取计算机或其它计算系统接收和利用的其它实例表示可包括邻接矩阵、邻接列表等。
在框604,使用过滤方法基于预定过滤器参数过滤来自边缘列表的一个或多个节点,从而形成经过滤网络。所述预定过滤器参数可为节点度值,其在由过滤过程应用时过滤具有等于或小于预定过滤器参数的节点度的任何节点和有关边缘。举例来说,如果将预定过滤器参数设定到值二(2),则节点702、707和709将被过滤出网络,因为节点702、707和709具有两(2)个或更少的到其它节点的连接边缘。结果,在过滤过程中,至少两个独特结构变得显而易见。作为节点709去除的结果,包括节点713-716的节点群集与其余节点分开,从而提供所述群集可指示下层结构的初始指示。在这非限制性实例中,未良好连接的节点被滤出网络模型700。举例来说,具有少于预定数目个连接(例如,作为非限制性实例,具有2个或更少连接)的节点被滤出网络。在第一迭代中可将度过滤器的范围保持在最小值。以这种方式去除节点减少了指示结构和噪声的节点和边缘两者。然而,假定在结构存在的情况下节点更可能具有社区内连接,而非跨社区连接,则均匀的节点去除将减少跨社区边缘(Pij)比减少社区内边缘(Pii)要多。结果,可增强定义网络中的结构的能力。
如上提到,在框604,在网络内存在在过滤步骤后仍存在的不同的连接组件。在框606,发现不同的连接组件。作为一个非限制性实例,可使用戴克斯特拉算法识别连接的组件。戴克斯特拉算法可产生定义所述网络内的第一节点与第二节点之间的最短路径的多个不同的连接组件。对于给定节点,戴克斯特拉算法可确定到给定节点连接到的众多其它节点的最短路径,并输出定义这些路径的连接的组件。举例来说,可通过在下表2中的节点的以下列举来定义用于节点702的连接的组件。
表2
702→703→706 |
702→705 |
702→704→708→710 |
702→704→708→711 |
702→704→708→712 |
这些列举表示在作为本文中描述的过滤过程的结果而去除节点701、707和709后到经过滤网络内的许多端节点的最短路径。可针对网络内的其它节点中的每一个重复这过程,使得识别不同的连接组件。
对于在框606中确定的每一连接的组件,应用在框608和610处的过程。在框608,分析在框606中发现的连接的组件,且发现另外结构。即,针对附加结构在一个或多个不同的连接组件内的存在,分析经过滤网络的一个或多个不同的连接组件中的每一个,使得当确定附加结构的存在时,附加结构被分解成附加不同的连接组件。在一些实施例中,在框608描述的步骤的目标是确定节点内的划分,使得将节点分成两个或更多个群组,同时将在所述群组之间伸展的边缘的数目最小化。一个方法被称作“最小删节”方法。然而,这方法可定义最优划分,其中一个群组包括0或1,并且另一个群组包括所有其余节点。因此,可不仅仅基于哪一划分具有通信之间的最少数目个边缘,而且基于在社区之间存在比预期少的边缘来确定网络到社区的划分。在一些实施例中,可使用被称作模块化的措施来量化这个方法。
所述模块化是属于群组的边缘的数目减具有随机边缘的等效网络中的预期数目,直到一个倍增常数。模块化可为正或负,其中正值指示社区结构的可能存在。因此,系统可通过寻找具有正且大模块化值的网络的划分来搜索社区结构。在一些实施例中,为了使模块化过程可针对大网络问题工作,可使用探试法或外部优化。然而,如本文中描述,可按关注的网络的频谱性质来重新制定模块化过程。用来识别这个结构的非限制性实例方法包括模块化频谱分解方法。换句话说,使用针对参数(例如,模块化参数)优化连接的组件的技术。在一些实施例中,在框608,可利用频谱分解方法、阶层方法或函数拟合方法。作为非限制性实例,假设网络模型含有n个节点。对于网络模型到两个群组的特定划分,如果节点i属于群组1,则令si=1,并且如果节点I属于群组2,则令si=-1。令节点i与j之间的边缘的数目为Aij,其将通常为0或1,但在允许多个边缘的网络中,较大值是可能的。(量Aij是所谓的邻接矩阵的元素(即,其可从网络模型的边缘列表或其它矩阵表示产生))。同时,如果随机放置边缘,则节点i与j之间的边缘的预期数目为kikj/2m,其中ki和kj是节点的度,且是网络模型中的边缘的总数。因此,模块化Q由在属于同一群组的节点i、j的所有对上的的总和给出。
观测到,如果i与j在同一群组中,则量是1,且否则,是0,可将模块化表达为方程式1:
其中从所述观测得到第二相等性2m=∑ijAij。前因数1/4m只是常规。方程式1可因此按如方程式2的矩阵形式来写。
其中s是列向量,其元素是si,且已用在方程式3中表达的元素来定义实对称矩阵B。
其叫作模块化矩阵。注意,矩阵行和列中的每一个的元素总和是零,使得其始终具有特征向量(1,1,1,…),具有特征值零。给定方程式2,那么可将s写为B的正规化的特征向量ui的线性组合,使得其中/>然后,可发现方程式4,可将其表示如下:
其中βi是对应于特征向量ui的B的特征值。假定按降序β1≥β2≥…βn标注特征值。目标是通过选择网络模型的适当划分(通过等效地选择变址向量s的值)来使模块化最大化。这意味着选择s以便就涉及最大(即,正数最大)特征值的方程式4中的总和来说,集中尽可能多的权重。如果不存在关于s的选择的其它约束(除了正规化外),则可将s选择为与特征向量u1成比例。这将所有权重放在涉及最大特征值β1的项中,其它项自动为零,因为特征向量正交。
然而,存在关于由s的元素的限制强加到值±1的问题的另一约束,这意味着通常可不将s选择为与u1平行。然而,可通过使点积最大化来使其尽可能地平行。如果u1的对应元素是正,则通过设定si=+1来达成最大,且否则,si=-1。换句话说,其对应的元素为正的所有节点进入一个群组,并且所有其它的进入另一个群组。这然后给出用于划分网络的算法。即,所述算法计算模块化矩阵的主要特征向量,并根据这向量中的无的正负号将节点划分成两个群组。如所描述的算法只使用主要特征向量的元素的正负号,但量值也传达信息。对应于大量值的元素的节点对模块化(例如,由方程式4展示)起到大的影响,且对于小量值,则相反。替代地,如果我们将网络的最优划分分成两个群组,并且将节点从一个群组移动到另一个,则用于那个节点的向量元素给出有多少模块化将减小的指示:不能在不招致大的模块化惩罚的情况下移动对应于大量值的元素的节点,而可以相对极少的代价移动对应于较小元素的节点。因此,主要特征向量的元素测量每一节点属于其指派的社区的坚固程度,具有大向量元素的节点是其社区中的强中心成员,而具有较小元素的节点更有矛盾。
在一些实施例中,在框608,可将附加结构分解成附加不同的连接组件。举例来说,以上描述的频谱模块化分解方法可确定可跨边缘732进行基于特征向量的划分,从而形成另一群集(即,不同的连接组件)。举例来说,不受限制,在框608,频谱模块化分解方法形成至少三个不同的连接组件:具有节点702、703、704、705、706的群组1;具有节点708、710、711、712的群组2;和具有节点713、714、715和716的群组3。
再参看图6和7,在框610,系统可执行不同的连接组件中的每一个的树遍历,其中来自树遍历的所得阶层结构被合并以确定局部模块化最优。即,局部模块化最优可定义少于总体全局网络模型的识别的结构内的局部群集连接。举例来说,出版物的网络模型可具有各包括特定主题的一个或多个连接的组件(例如,结构),而在所述一个或多个连接的组件中的每一个内,更具体地基于原作者、子标题等之间的关系,可存在附加结构。局部模块化最优可定义这些附加结构的局部群集(例如,子社区)之间的划分。如上所述,执行树遍历可包括遍历每一被分解的连接的组件。即,树遍历是指精确地访问(即,检查和/或更新)一次树数据结构(诸如,网络的阶层结构或其它树状表示)中的每一节点的过程的图形遍历形式。合并所得阶层结构以发现局部模块化最优。这提供从网络内检索的许多结构组件。在以上提供的使用模块化频谱分解方法的实例中,过程开始于树的顶部,其中当所述过程沿着树遍历时,适当地将组件分成子组件。当不存在留待分裂的组件或子组件时,过程停止。接下来,过程沿着所得树向上移回以通过模块化参数查看最优分裂在哪里。响应于确定局部模块化最优,可从网络产生一个或多个结构组件。
在于框610产生一个或多个结构组件后,在框612,在框604处通过过滤去除的节点可重新附接。更具体地说,基于预定过滤器参数过滤的一个或多个节点中的经过滤节点可基于投票过程来重新附接。投票过程可包括确定节点应重新附接到哪一社区(例如,结构组件)。举例来说,如果滤出的节点原先具有到社区A的三个连接和到社区B的两个连接,那么特定节点可附接到社区A,因为其具有到社区A的更多连接。在一些实施例中,可考虑将节点连接到社区的边缘的长度。举例来说,如果滤出的节点原先具有到社区C的一个连接和到社区D的一个连接,但到社区D的连接由具有比将经过滤节点连接到社区C的边缘长的线长度的边缘定义,则经过滤节点可重新连接到社区C。因而,经过滤节点可未必重新附接于其被去除自的同一位置。
在一个迭代(框604-612)完成后,在框614可确定是否再次过滤和完成另一迭代或停止所述过程。确定可基于由通过所述方法的一个或多个迭代产生的一个或多个结构组件定义的社区的传导性。举例来说,为了确定社区的传导性,可利用以下过程。假定G=(V,E)表示网络的图形,则如下定义节点集合的传导性φ。令v为S中的节点度的总和,且令s为具有S中的一个端点和/>中的一个端点的边缘的数目,其中/>表示S的余集。然后,S的传导性为φ=s/v,或等效地φ=s/(s+2e),其中e是具有两个端点S的边缘的数目。更正式地,如果A是图形G的邻接矩阵,则:
其中A(S)=∑i∈S∑j∈VAij,在所述情况中,图形G的传导性是
因此,集合的传导性提供用于删节的质量的测量,或社区S的有关性。实际上,常注意到,应将社区看作具有比连接间多和/或好的内部连接的节点的集合。当对检测社区感兴趣且评估其质量时,小的传导性可为优选的(即,在社区内部密集联系且稀疏地联系到社区外的集合)。
如果决定再次过滤和执行另一迭代,那么在返回到框604以执行持续过滤过程前,在框616,可增大预定过滤器参数以去除在后续迭代期间对网络中的噪声有影响的更多元素。在一些实施例中,可减小预定过滤器参数以允许更多节点,例如,在于第一迭代期间排除过多的情况中。
与所述方法的附加迭代是否被执行以从大、密集且噪声网络模型提取结构无关,在本文中还被称作网络内的结构组件的所得通信可作为重新附接的网络存储于数据存储组件内。这些社区可由用于分析数据的其它应用和方法(明确地说,从数据确定关系、趋势等的大数据集)利用。在一些实施例中,形成网络的数据集是基于许多变量和许多关系,其将不通过剖析全部网络来可行性分析。然而,通过从大且密集信息网络提取结构,数据可变得更可管理以用于计算资源并提供更高效的分析结果。
还应理解,本文中展示和描述的系统和方法通过迭代过程从大、密集且噪声网络模型提取结构。所述过程通常包括接收边缘列表,所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络。所述方法进一步包括:基于预定过滤器参数从所述边缘列表滤出一个或多个节点,从而形成经过滤网络;利用戴克斯特拉算法识别所述经过滤网络内的一个或多个不同的连接组件;和针对附加结构在所述一个或多个不同的连接组件内的存在,分析所述经过滤网络的所述一个或多个不同的连接组件中的每一个,使得当确定附加结构的存在时,所述附加结构被分解成附加不同的连接组件。另外,可对不同的连接组件中的每一个执行树遍历,并且来自树遍历的所得阶层结构被合并以确定局部模块化最优。响应于从树遍历过程确定的局部模块化最优,可产生在网络内的一个或多个结构组件。
本文中使用的术语只是为了描述特定方面的目的,并且并不希望为限制性。如本文中所使用,单数形式“一(a和an)”和“所述”希望包括复数形式,包括“至少一个”,除非上下文另有清晰指示。“或”意味着“和/或”。如本文中所使用,术语“和/或”包括相关联的列出项中的一个或多个中的任何或所有组合。应进一步理解,术语“包括(comprises和/或comprising,或includes和/或including)”当在本说明书中使用时,指定所陈述特征、区域、整体、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、区域、整体、步骤、操作、元件、组件和/或其群组的存在或添加。术语“或其组合”意味着包括前述要素中的至少一个的组合。
注意,术语“大体上”和“约”可在本文中用来表示固有的不确定性程度,其可归因于任何定量比较、值、测量或其它表示。这些术语还在本文中用来表示定量表示可从所陈述参考变化而不导致讨论中的主体的基本功能的改变的程度。
虽然已在本文中说明和描述了特定实施例,但应理解,在不脱离所主张标的的精神和范围的情况下,可进行各种其它改变和修改。此外,虽然本文中已描述所主张标的的各种方面,但此类方面不需要按组合利用。因此希望所附权利要求书涵盖在所主张标的的范围内的所有此类改变和修改。
Claims (17)
1.一种用于从网络提取结构的方法,所述方法包括:
由处理器接收边缘列表,其中所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络,其中所述一个或多个边缘定义连接的节点之间的关系的强度,所述节点表征出版物;
由所述处理器基于预定过滤器参数过滤出来自所述边缘列表的一个或多个节点,从而形成经过滤网络;
利用戴克斯特拉算法识别所述经过滤网络内的一个或多个不同的连接组件;
针对附加结构在所述一个或多个不同的连接组件内的存在,分析所述经过滤网络的所述一个或多个不同的连接组件中的每一个,其中附加结构被分解成附加不同的连接组件;
执行所述不同的连接组件中的每一个的树遍历,其中来自所述树遍历的所得阶层结构被合并以确定局部模块化最优;
响应于所述局部模块化最优,产生所述网络内的一个或多个结构组件;以及
在执行所述树遍历后重新附接基于所述预定过滤器参数过滤的所述一个或多个节点中的经过滤节点,其中重新附接所述经过滤节点是基于投票过程,且其中基于所述经过滤节点与所述一个或多个结构组件的所述一个或多个节点之间的所述关系的所述强度将所述经过滤节点重新附接到所述一个或多个结构组件中的结构组件。
2.根据权利要求1所述的方法,进一步包括:
基于第二预定过滤器参数确定是否过滤所述网络;以及
基于所述网络内的所述一个或多个结构组件的节点之间的传导性完成所述方法的另一迭代。
3.根据权利要求2所述的方法,其中在第一迭代中的所述预定过滤器参数包括少于第二迭代中的第二预定数目个连接的第一预定数目个连接。
4.根据权利要求1所述的方法,其中所述一个或多个边缘中的每一个的长度与连接的节点之间的所述关系的所述强度成反比。
5.根据权利要求1所述的方法,其中分析所述一个或多个不同的连接组件中的每一个利用模块化频谱分解方法。
6.根据权利要求1所述的方法,其中所述预定过滤器参数是定义连接到节点的边缘的数目的预定值。
7.一种用于从网络提取结构的系统,其包括:
处理器;以及
耦合到所述处理器的非暂时性处理器可读存储器,所述非暂时性处理器可读存储器包括存储于其上的机器可读指令集,当所述机器可读指令集被所述处理器执行时使所述处理器执行以下方法步骤:
接收边缘列表,其中所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络,其中所述一个或多个边缘定义连接的节点之间的关系的强度,所述节点表征出版物;
基于预定过滤器参数滤出自所述边缘列表的一个或多个节点,从而形成经过滤网络;
利用戴克斯特拉算法识别所述经过滤网络内的一个或多个不同的连接组件;
针对附加结构在所述一个或多个不同的连接组件内的存在,分析所述经过滤网络的所述一个或多个不同的连接组件中的每一个,其中附加结构被分解成附加不同的连接组件;
执行所述不同的连接组件中的每一个的树遍历,其中来自所述树遍历的所得阶层结构被合并以确定局部模块化最优;
响应于所述局部模块化最优,产生所述网络内的一个或多个结构组件;以及
在执行所述树遍历后重新附接基于所述预定过滤器参数过滤的所述一个或多个节点中的经过滤节点,其中重新附接所述经过滤节点是基于投票过程,且其中基于所述经过滤节点与所述一个或多个结构组件的所述一个或多个节点之间的所述关系的所述强度将所述经过滤节点重新附接到所述一个或多个结构组件中的结构组件。
8.根据权利要求7所述的系统,其中所述机器可读指令集在被执行时进一步使所述处理器:
基于第二预定过滤器参数确定是否过滤所述网络;以及
基于所述网络内的所述一个或多个结构组件的节点之间的传导性完成所述方法的另一迭代。
9.根据权利要求8所述的系统,其中在第一迭代中的所述预定过滤器参数包括少于第二迭代中的第二预定数目个连接的第一预定数目个连接。
10.根据权利要求7所述的系统,其中所述一个或多个边缘中的每一个包括定义连接的节点之间的所述关系的所述强度的值。
11.根据权利要求7所述的系统,其中分析所述一个或多个不同的连接组件中的每一个利用模块化频谱分解方法。
12.根据权利要求7所述的系统,其中所述预定过滤器参数是定义连接到节点的边缘的数目的预定值。
13.根据权利要求7所述的系统,其中所述一个或多个边缘的第一边缘包括第一长度,且所述一个或多个边缘的第二边缘包括比所述第一边缘的所述第一长度长的第二长度,定义的关系弱于长度小于所述第二边缘的所述第一长度定义的关系。
14.一种用于从网络提取结构的非暂态计算机程序存储介质,其中,所述非暂态计算机程序存储介质存储有计算机程序指令,当所述指令被计算机执行时,使所述计算机执行以下方法步骤:
接收边缘列表,其中所述边缘列表定义包括多个节点和将所述多个节点中的一个或多个节点相互连接的一个或多个边缘的网络,其中所述一个或多个边缘定义连接的节点之间的关系的强度,所述节点表征出版物;
基于预定过滤器参数滤出自所述边缘列表的一个或多个节点,从而形成经过滤网络;
利用戴克斯特拉算法识别所述经过滤网络内的一个或多个不同的连接组件;
针对附加结构在所述一个或多个不同的连接组件内的存在,分析所述经过滤网络的所述一个或多个不同的连接组件中的每一个,其中将附加结构分解成附加不同的连接组件;
执行所述不同的连接组件中的每一个的树遍历,其中来自所述树遍历的所得阶层结构被合并以确定局部模块化最优;
响应于所述局部模块化最优,产生所述网络内的一个或多个结构组件;以及
在执行所述树遍历后重新附接基于所述预定过滤器参数过滤的所述一个或多个节点中的经过滤节点,其中重新附接所述经过滤节点是基于投票过程,且其中基于所述经过滤节点与所述一个或多个结构组件的所述一个或多个节点之间的所述关系的所述强度将所述经过滤节点重新附接到所述一个或多个结构组件中的结构组件。
15.根据权利要求14所述的非暂态计算机程序存储介质,其中,当所述指令被所述计算机执行时,被执行的所述方法步骤进一步包括:
基于第二预定过滤器参数确定是否过滤所述网络;以及
基于所述网络内的所述一个或多个结构组件的节点之间的传导性完成所述方法的另一迭代。
16.根据权利要求15所述的非暂态计算机程序存储介质,其中,当所述指令被所述计算机执行时,被执行的所述方法步骤进一步包括:
在第一迭代中的所述预定过滤器参数包括少于第二迭代中的第二预定数目个连接的第一预定数目个连接。
17.根据权利要求14所述的非暂态计算机程序存储介质,其中,当所述指令被所述计算机执行时,被执行的所述方法步骤进一步包括:
分析所述一个或多个不同的连接组件中的每一个利用模块化频谱分解方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762539758P | 2017-08-01 | 2017-08-01 | |
US62/539,758 | 2017-08-01 | ||
US16/050,138 US10826781B2 (en) | 2017-08-01 | 2018-07-31 | Systems and methods for extracting structure from large, dense, and noisy networks |
US16/050,138 | 2018-07-31 | ||
PCT/US2018/044824 WO2019028149A1 (en) | 2017-08-01 | 2018-08-01 | SYSTEMS AND METHODS FOR STRUCTURE EXTRACTION FROM DENSED, LOUD, AND LARGE DIMENSIONS |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112005525A CN112005525A (zh) | 2020-11-27 |
CN112005525B true CN112005525B (zh) | 2024-03-15 |
Family
ID=65230097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880062841.1A Active CN112005525B (zh) | 2017-08-01 | 2018-08-01 | 用于从大、密集且噪声网络提取结构的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10826781B2 (zh) |
JP (1) | JP6970275B2 (zh) |
CN (1) | CN112005525B (zh) |
AU (1) | AU2018312543B2 (zh) |
WO (1) | WO2019028149A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825935A (zh) * | 2019-09-26 | 2020-02-21 | 福建新大陆软件工程有限公司 | 社区核心人物挖掘方法、系统、电子设备及可读存储介质 |
CN111932386B (zh) * | 2020-09-09 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 用户账号确定方法及装置、信息推送方法及装置、电子设备 |
CN114928545B (zh) * | 2022-03-31 | 2024-02-06 | 中国电子科技集团公司第十五研究所 | 一种基于Spark的大规模流量数据关键节点计算方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101895436A (zh) * | 2009-05-20 | 2010-11-24 | 埃森哲环球服务有限公司 | 网络实时监测和控制系统 |
CN102177683A (zh) * | 2008-08-08 | 2011-09-07 | 惠普开发有限公司 | 端到端网络访问分析 |
CN102208989A (zh) * | 2010-03-30 | 2011-10-05 | 国际商业机器公司 | 网络可视化处理方法及设备 |
CN102662974A (zh) * | 2012-03-12 | 2012-09-12 | 浙江大学 | 一种基于邻接节点树的网络图索引方法 |
CN103026668A (zh) * | 2010-08-16 | 2013-04-03 | 瑞典爱立信有限公司 | 用于胖树网络的自动化业务工程 |
WO2015058308A1 (en) * | 2013-10-25 | 2015-04-30 | Sysomos L.P. | Systems and methods for identifying influencers and their communities in a social data network |
CN106411572A (zh) * | 2016-09-06 | 2017-02-15 | 山东大学 | 一种结合节点信息和网络结构的社区发现方法 |
CN106803803A (zh) * | 2015-11-26 | 2017-06-06 | 财团法人工业技术研究院 | 虚拟局域网络复原方法、系统及其装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832182A (en) | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
US7269587B1 (en) * | 1997-01-10 | 2007-09-11 | The Board Of Trustees Of The Leland Stanford Junior University | Scoring documents in a linked database |
US6003029A (en) | 1997-08-22 | 1999-12-14 | International Business Machines Corporation | Automatic subspace clustering of high dimensional data for data mining applications |
US6092072A (en) | 1998-04-07 | 2000-07-18 | Lucent Technologies, Inc. | Programmed medium for clustering large databases |
US9110985B2 (en) | 2005-05-10 | 2015-08-18 | Neetseer, Inc. | Generating a conceptual association graph from large-scale loosely-grouped content |
WO2011016281A2 (ja) * | 2009-08-06 | 2011-02-10 | 株式会社シーエーシー | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム |
JP5237977B2 (ja) * | 2010-01-21 | 2013-07-17 | 日本電信電話株式会社 | グラフの中心性のモニタリング装置及び方法及びプログラム |
US8396855B2 (en) * | 2010-05-28 | 2013-03-12 | International Business Machines Corporation | Identifying communities in an information network |
CN102724219B (zh) | 2011-03-29 | 2015-06-03 | 国际商业机器公司 | 网络数据的计算机处理方法及系统 |
CN103853726B (zh) * | 2012-11-29 | 2018-03-02 | 腾讯科技(深圳)有限公司 | 一种挖掘社区用户的方法及装置 |
GB2520051A (en) * | 2013-11-08 | 2015-05-13 | Ibm | Entitlement system and method for resources in a multi-computer system controlled by a single instance |
US9928624B2 (en) | 2014-10-14 | 2018-03-27 | International Business Machines Corporation | Visualization of relationships and strengths between data nodes |
CN104346481B (zh) | 2014-11-28 | 2018-01-16 | 西安电子科技大学 | 一种基于动态同步模型的社区检测方法 |
US9929909B2 (en) * | 2015-08-31 | 2018-03-27 | International Business Machines Corporation | Identifying marginal-influence maximizing nodes in networks |
CN105930856A (zh) | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
-
2018
- 2018-07-31 US US16/050,138 patent/US10826781B2/en active Active
- 2018-08-01 WO PCT/US2018/044824 patent/WO2019028149A1/en active Application Filing
- 2018-08-01 CN CN201880062841.1A patent/CN112005525B/zh active Active
- 2018-08-01 JP JP2020505787A patent/JP6970275B2/ja active Active
- 2018-08-01 AU AU2018312543A patent/AU2018312543B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102177683A (zh) * | 2008-08-08 | 2011-09-07 | 惠普开发有限公司 | 端到端网络访问分析 |
CN101895436A (zh) * | 2009-05-20 | 2010-11-24 | 埃森哲环球服务有限公司 | 网络实时监测和控制系统 |
CN102208989A (zh) * | 2010-03-30 | 2011-10-05 | 国际商业机器公司 | 网络可视化处理方法及设备 |
CN103026668A (zh) * | 2010-08-16 | 2013-04-03 | 瑞典爱立信有限公司 | 用于胖树网络的自动化业务工程 |
CN102662974A (zh) * | 2012-03-12 | 2012-09-12 | 浙江大学 | 一种基于邻接节点树的网络图索引方法 |
WO2015058308A1 (en) * | 2013-10-25 | 2015-04-30 | Sysomos L.P. | Systems and methods for identifying influencers and their communities in a social data network |
CN105849764A (zh) * | 2013-10-25 | 2016-08-10 | 西斯摩斯公司 | 用于识别社交数据网络中的影响者及其社区的系统和方法 |
CN106803803A (zh) * | 2015-11-26 | 2017-06-06 | 财团法人工业技术研究院 | 虚拟局域网络复原方法、系统及其装置 |
CN106411572A (zh) * | 2016-09-06 | 2017-02-15 | 山东大学 | 一种结合节点信息和网络结构的社区发现方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190044821A1 (en) | 2019-02-07 |
AU2018312543B2 (en) | 2022-09-29 |
AU2018312543A1 (en) | 2020-02-27 |
CN112005525A (zh) | 2020-11-27 |
US10826781B2 (en) | 2020-11-03 |
WO2019028149A1 (en) | 2019-02-07 |
JP2020529777A (ja) | 2020-10-08 |
JP6970275B2 (ja) | 2021-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Harenberg et al. | Community detection in large‐scale networks: a survey and empirical evaluation | |
Bedi et al. | Community detection in social networks | |
Liu et al. | Weighted graph clustering for community detection of large social networks | |
Şen et al. | Focal structures analysis: identifying influential sets of individuals in a social network | |
Yang et al. | Identifying points of interest by self-tuning clustering | |
CN105719191B (zh) | 多尺度空间下不确定行为语义的社交群体发现方法 | |
US20080034074A1 (en) | Determination of graph connectivity metrics using bit-vectors | |
CN112005525B (zh) | 用于从大、密集且噪声网络提取结构的系统和方法 | |
Gong et al. | Identification of multi-resolution network structures with multi-objective immune algorithm | |
Salter-Townshend et al. | Role analysis in networks using mixtures of exponential random graph models | |
Souam et al. | Dual modularity optimization for detecting overlapping communities in bipartite networks | |
Al Hasan | Methods and applications of network sampling | |
Cai et al. | Hierarchical clustering of bipartite networks based on multiobjective optimization | |
Ebden et al. | Network analysis on provenance graphs from a crowdsourcing application | |
Kas et al. | An incremental algorithm for updating betweenness centrality and k-betweenness centrality and its performance on realistic dynamic social network data | |
Boas et al. | Sensitivity of complex networks measurements | |
Saxena | Educational data mining: performance evaluation of decision tree and clustering techniques using weka platform | |
Kardeş et al. | Structural graph indexing for mining complex networks | |
Chandusha et al. | An empirical study on community detection algorithms | |
Schofield et al. | Quantum walk inspired algorithm for graph similarity and isomorphism | |
CN111726279A (zh) | 一种电子邮件网络的社区结构发现方法及系统 | |
Ferdowsi et al. | Tscda: A novel greedy approach for community discovery in networks | |
Ariadi et al. | A graph database supported GA-based approach to social network analysis | |
Krishnaraj et al. | Performance of procedures for identifying influentials in a social network: prediction of time and memory usage as a function of network properties | |
Farrag et al. | A proposed algorithm to detect the largest community based on depth level |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |