CN110199278A - 计算机网络中的高效数据传播 - Google Patents

计算机网络中的高效数据传播 Download PDF

Info

Publication number
CN110199278A
CN110199278A CN201680092048.7A CN201680092048A CN110199278A CN 110199278 A CN110199278 A CN 110199278A CN 201680092048 A CN201680092048 A CN 201680092048A CN 110199278 A CN110199278 A CN 110199278A
Authority
CN
China
Prior art keywords
edge
network
node
component
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680092048.7A
Other languages
English (en)
Inventor
T.埃姆里希
C.弗雷
M.伦茨
A.齐夫勒
R.穆尼尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN110199278A publication Critical patent/CN110199278A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

计算机网络中的高效数据传播。本发明涉及用于通过考虑运行时要求在技术网络(NW)中传播数据的方法和系统以及控制节点(10)。针对表示技术网络(NW)及其技术约束的概率图(G)生成组件树(CT)数据结构。在组件树(CT)上应用传播算法,其迭代地确定所生成的组件树(CT)中的最优边缘,其通过考虑技术网络约束并重新估计更新的组件树中的预期信息流来将去往和/或来自每个网络节点的到查询节点(Q)的预期信息流最大化,以便为技术网络(NW)中的节点提供结果(r)以进行数据传播,使得通过考虑技术网络约束来将信息流最大化。

Description

计算机网络中的高效数据传播
本发明涉及在大型网络(例如,通信网络)中可靠地传播数据分组或消息。
如今,技术电信或电气网络已经在我们的日常生活中变得无处不在,以接收和共享信息。每当我们在万维网上导航或在我们的蜂窝电话上发送文本消息时,我们都作为节点参与信息网络中。在这样的网络中,网络节点交换某种类别的信息:在无线传感器网络中,节点收集数据并旨在确保该数据通过网络传播:要么到目的地,诸如服务器节点,要么只是到尽可能多的其他节点。抽象地说,在所有的这些网络中,节点旨在贯穿网络传播它们的信息。在节点之间成功传播信息的事件受到固有的不确定性的影响。
在无线传感器、电信或电气网络中,链路可能是不可靠的并且可能以一定的概率出故障。概率图模型通常被用于以统一的方式处理这样的场景。在该模型中,每个边缘与存在概率相关联,以量化该边缘存在于图中的可能性。传统上,为了将两个节点之间成功通信的可能性最大化,通过将信息泛洪通过网络来传播信息。因此,接收一点信息的每个节点将继续与其所有邻居共享该信息。显然,这样的泛洪方法不适用于大型通信网络,因为两个网络节点之间的通信产生成本:例如微传感器网络中的传感器网络节点具有有限的计算能力、存储器资源和电源,需要电池电力来发送、接收和转发消息,并且还受它们的带宽限制。
在本发明中,处理以下问题。给定概率网络图G,其中边缘可以被激活用于通信,即能够传递信息,或保持不活跃。问题是,假设可以被激活的边缘的有限预算,从G中的单个节点Q向/从G中尽可能多的节点发送/接收信息。为了解决该问题,主要焦点在于选择要被激活的边缘上。
在现有技术中,挖掘概率图(又名不确定图)是已知的,并且最近已经在数据挖掘和数据库研究界中引起了很多关注,例如在A. Khan、F. Bonchi、A. Gionis和F. Gullo,Fast reliability search in uncertain graphs,在EDBT中,第535-546页,2014年中引起了很多关注。
子图可靠性。不确定图挖掘中的相关的基本问题是所谓的子图可靠性问题,它要求估计两个给定节点(的集合)是可达的概率。在通信网络的背景下很好地研究的这个问题,由于对大型网络的可扩展解决方案的需求,最近在数据库界已经复苏。该类别中的特定问题公式要求测量两个特定节点被连接的概率(所谓的双终端可靠性),网络中的所有节点成对被连接(所有终端可靠性),或者在给定子集中的所有节点都被成对连接(k终端可靠性)。扩展这些可靠性查询,其中指定了(一个或多个)源节点和汇聚节点,相应的图挖掘问题是针对给定的概率图找到最可靠的k终端子图的集合。所有这些问题定义具有共同点,即要到达的节点的集合是预先定义的,并且在激活边缘的数量中没有自由度——因此假设所有节点都尝试与它们所有邻居进行通信,我们认为这在许多应用中可能是过于昂贵的。
可靠性界限。在通信网络的背景下已经定义了关于(双终端)可靠性的若干下限。可以代替我们的采样方法使用这样的界限来估计通过将网络边缘添加到当前活跃集而获得的信息增益。然而,对于所有这些界限,获得这些界限的计算复杂度至少是网络节点的数量中的二次方,使得这些界限对于大型网络而言是不可行的。已经提出了非常简单但高效的界限,诸如使用两个节点之间的最可能路径作为它们的两个终端可靠性的下限。然而,可能的(非循环)路径的数量在图的边缘的数量中指数大的,使得在实践中,即使最可能的路径也将具有可忽略的概率,因此产生无用的上限。因此,由于这些概率界限对于实际使用都不是足够有效和高效,我们直接决定对其中不可能有精确推断的图的部分使用采样方法。
可靠的路径。在移动自组织网络中,边缘的不确定性可以被解释为两个节点之间的连接性。因此,该领域中的重要问题是针对约束的边缘预算将两个节点被连接的概率最大化。与自组织网络有关的现有技术与本申请的主要差异在于,到单个目的地的信息流被最大化,而不是一般的信息流。启发法不能被直接应用于未决问题,因为明显地,将到一个节点的流最大化可能损害到另一个节点的流。
因此,本发明的目的是以高效的方式改进网络中的数据传播。此外,这样的数据传播算法应该提供用于处理高效率(但是低信息流)和高信息流(但是用于计算信息流的指数运行时)之间的权衡的选项。因此,应通过计算数据传播结果来考虑运行时要求。此外,循环和非循环网络路径应该是可处理的并且被考虑。
根据本发明的第一方面,通过一种方法来实现上述目的,该方法用于通过处理用于激活技术网络中的所述连接(边缘)的技术网络约束来可靠地优化具有多个节点和边缘的技术网络中的数据传播,其中技术网络被表示为具有表示概率值的边缘的概率图,包括以下步骤:
-通过将概率图划分为独立组件来生成组件树作为技术网络的数据结构,独立组件表示概率图的子集并包括循环和非循环组件,其中组件树中的边缘表示组件之间的父子关系
-迭代地确定概率图中的最优边缘,其通过处理技术网络约束并通过以下操作来将去往和/或来自每个节点的到查询节点的预期信息流最大化
-执行蒙特卡罗采样,用于估计针对循环组件的预期信息流,以及
-分析地计算非循环组件的预期信息流
-用每个确定的最优边缘迭代地更新组件树并重新估计更新的组件树中的预期信息流
-计算最优边缘的集合并且基于此向技术网络中的节点提供结果用于数据传播,使得通过考虑技术网络约束和运行时要求来将信息流最大化,使得满足预定的运行时要求。
在下文中给出了术语的简短定义。
优化数据传播是指找到用于将去往和/或来自查询节点的信息或数据分发给多个网络节点的网络连接。在这方面中,“优化”是指信息流的最大化。因此,它旨在不一定到达所有网络节点,而是在成本约束下到达尽可能多的节点。优化是指考虑网络连接(链路)的不确定性并激活(仅)网络内的那些连接(边缘),其通常将节点之间的通信的概率最大化,并且因此将信息的流最大化。网络中的循环结构是可能的,并且被考虑用于数据传播及其优化。
本方法是考虑了网络节点的相互依赖性的总体方法。现有技术的启发法不能被直接应用于未决问题,因为将到一个节点的流最大化可能损害到另一个节点的流。在本发明和应用中,也针对网络中的信息传播考虑相互依赖性。
优化以可靠的方式被执行。这是指所有终端可靠性的背景,其具有有限的边缘的预算,其可以被激活以用于通过网络传播信息或数据。网络的所有或所选择的节点可以被激活用于数据传播。通常,技术网络中的边缘可以被激活(使用)用于通信,即能够传递信息,或保持不活跃(未使用)。
技术网络以概率图来表示,其中概率图中的边缘被分配有概率值,表示网络约束或有限技术转移能力的预算。可以为边缘分配特定故障率或丢失率的概率。例如,在传感器网络中,一些微传感器可能具有有限的计算能力,并且如果它们万一被激活用于发送或接收数据,则可能产生网络成本。其他节点可能仅经由具有低带宽的网络连接被连接到网络,使得在激活该节点时必须考虑性能影响。通常,可以激活边缘。因此,相应节点的可用性隐含地由边缘的激活产生,边缘具有作为叶结构或端点的节点。
组件树是用于存储与技术网络有关的传播和网络信息的数据结构。技术网络可以以具有节点和边缘的概率图来表示,其中节点表示实体(即硬件实体,比如服务器),并且边缘表示这些实体之间的链接或连接。如果连接被分配了可靠性,则这些可靠性被表示为边缘上的概率。图的组件树表示(表示技术网络)具有如下技术效果:算法能够尽可能高效(与运行时有关)地计算从图G中的某个单个节点Q去往/来自图中尽可能多的节点的信息流,并假设由于技术网络约束而可以激活有限的边缘的预算。根据本发明,提供了基本算法和其优化扩展,用于计算要被激活的边缘的选择。从拓扑的角度来看,组件树表示是生成树(spanning tree)。然而,与“正常”生成树的差异在于,代之以存储节点,组件被存储在组件树结构中。每个组件包括所有节点的集合的节点的子集。对于子集的所有节点,它们在组件内的相应可达性被存储。特别地,它们的可达性被存储在组件树结构中。
根据本发明的一个方面,该概率图被划分为独立组件,其使用称为组件树的组件树索引结构来索引。组件是节点(顶点)的集合连同所有信息必须流经的中枢顶点,以便到达应该针对其计算预期信息流的特定网络节点Q。然后,通过考虑独立组件之间的父子关系,在组件树结构中构造这些组件。如果组件P的信息流必须经由组件C被传递,则组件C是组件P的子节点。因此,组件树中的边缘表示相应组件之间的父子关系。
本发明涉及以可靠方式进行数据传播。通常,术语“可靠性”涉及网络执行诸如“通信”的期望操作的能力。在所有操作节点正在通信的情况下,可靠性度量被称为“所有终端可靠性”或“网络可靠性”。在图论的背景下,本发明涉及所谓的“终端可靠性”。终端可靠性是指从特定源节点找到路径或到达所有终端节点的概率。
技术网络约束是针对网络问题的参数值的集合。它们可以在该方法的配置阶段中被配置。约束可以例如是指有限的计算能力、有限的存储器资源和电源、用于发送、接收和/或转发消息或数据的有限电池电力以及最后但并非最不重要的有限带宽和/或节点的有限的可访问性或可用性。技术网络约束可以是指网络或通信预算。预算通常被约束(在实践中)。预算约束是由于两个或更多节点之间的通信成本造成的。在技术应用中,例如来自传感器网络节点的流式传输数据或者分散地监视和控制可再生能源,在预算约束下最大化信息流是重要的。优化算法是必要的,以便处理高效率(快速运行时,但较低信息流)和高信息流(低效率,长运行时,但优化的解决方案)之间的权衡。对于网络中的数据传播,必须考虑有限的预算或网络约束。通常,到达所有网络节点不是必要的,而是重要的是在成本约束下到达尽可能多的节点。本发明针对这个问题提供了自动解决方案。根据本发明的一个方面,网络约束可以随时间动态地改变,并且该改变也是通过执行重新计算和提供组件树结构的更新来处理结果的计算。
运行时要求可以以运行时参数来表示,该运行时参数可以在该方法的配置阶段中被配置。运行时要求可以按类别来分类,例如低、中或指数运行时。基于所确定的运行时要求,将选择适当的边缘选择算法用于执行,例如基于基本组件树的算法或记忆算法、基于置信区间的采样或延迟采样算法。
网络是技术网络。网络可以是电信网络、电网和/或WSN网络(WSN:无线传感器技术),其包括空间分布的自主传感器,以监视诸如温度、压力等的物理或环境条件,并且协作地通过网络将它们的数据传递到某个网络位置或查询节点。这些网络的拓扑可以从简单的星形网络变化到高级多跳无线网状网络。网络的跳之间的传播技术由根据本发明的优化方法来控制。
结果是网络边缘的列表,当激活时,它将具有优化的信息流,而同时符合技术网络约束并满足运行时要求。可以通过将运行时最小化来提供结果。因此,节点由边缘隐式给出。
更新组件树是指迭代地将边缘添加到独立组件树,该独立组件树已经被计算为在先前步骤中是最优的并且将其存储在组件树的更新版本中并且重新估计更新版本中的预期信息流。
根据本发明的优选实施例,通过应用启发法,利用组件树的特征来执行最优边缘的迭代确定。这具有如下技术效果:可以根据实际系统要求来控制和平衡算法的效率(运行时快或慢)和有效性(低或高信息流)之间的权衡的处理。
根据本发明的另一个优选实施例,启发法基于贪婪算法。概率图用作算法的输入,用于优化技术网络中的数据传播。
概率图具有源节点Q,该源节点Q可以由用户定义。在算法的开始时和在第一次迭代中,组件树表示是空的,因为没有关于要激活哪些边缘的可用信息。在每个迭代步骤中,只激活一个边缘,即已经被计算为是最优的边缘,并将其存储在更新的组件树表示中。因此,在每次迭代中,维护候选边缘的集合。为此理由,在假设边缘将被添加到组件树的情况下,通过计算信息流来探测候选边缘的集合中的每个边缘。在所有迭代之后,可以只选择具有最高信息流的边缘。这是可能的,因为候选列表在堆中被排序,即具有最高信息流的候选列表位于堆的顶部。在信息流中计算具有最大增益的边缘不是必要的。这具有重大的技术效果,因为性能可以被显著提高。
根据本发明的另一个优选实施例,通过组件执行以下操作来优化迭代地确定最优边缘:
-跳过执行蒙特卡罗采样的步骤,用于估计保持不变的循环组件的预期信息流,以及通过
-记忆和重新使用针对不变组件的信息流的计算值。
根据本发明的另一个优选实施例,通过删减采样和通过采样置信区间来优化蒙特卡罗采样,使得每当另一边缘以一定的置信度具有较高信息流时,就停止探测边缘。
根据本发明的另一个优选实施例,通过应用延迟采样来优化蒙特卡罗采样,所述延迟采样考虑相对于候选边缘的信息增益对候选边缘进行采样的成本,以便最小化要被采样的候选边缘的量。
根据本发明的另一个优选实施例,提供相对于运行时优化结果。为此理由,例如通过经由控制节点的输入接口读入运行时要求来确定该要求,这是可能的。然后,可以选择符合所确定的运行时要求的该边缘选择算法(用于应用)。这具有如下技术效果:平衡和动态调整有效性(短运行时,但具有低信息流)和效率(长运行时,但高信息流)之间的比率是可能的。
根据本发明的另一个优选实施例,由于技术网络约束或可以被激活的边缘的有限预算,可以被激活的技术网络中的边缘的数量是有限的。
根据本发明的另一个优选实施例,分析地计算非循环组件的预期信息流基于以下等式(等式(2)):
其中G=(V,E,W,P)是概率有向图,其中V是顶点v的集合,是边缘的集合,是将每个顶点映射到表示相应顶点的信息权重的正值的函数,并且其中是节点。
根据本发明的另一个优选实施例,通过从候选边缘的集合中选择局部最有希望的边缘来执行确定最优边缘,对于该候选边缘,预期信息流可以被最大化,其中如果候选边缘将被包括在技术网络的组件树表示中,则仅在受影响的组件树的那些组件上执行针对候选边缘的预期信息流的估计。
根据本发明的另一个优选实施例,该方法进一步包括以下步骤:
-高效地聚合概率图的独立子图,同时利用针对包含循环的图MaxFlow(G,Q,k)的组件的采样解决方案。
本发明的另一方面涉及一种计算机网络系统,所述计算机网络系统具有多个节点和节点之间的连接,其以概率图来表示,其中图的边缘被分配有概率值,所述概率值表示用于激活网络中的所述边缘的相应的技术网络约束,包括:
-控制节点,其适于通过执行如上所述的方法来控制网络中的数据的传播。
本发明的另一方面涉及一种计算机网络系统中的控制节点,所述计算机网络系统具有多个节点和节点之间的连接,其以概率图来表示,其中图的边缘被分配有概率值,所述概率值表示用于激活网络中的所述边缘的相应技术网络约束,其中控制节点适于通过执行如上所述的方法来控制网络中的数据的传播。
根据优选实施例,控制节点可以在发送节点上实现,用于向多个网络节点发送数据。
根据另一个优选实施例,控制节点在接收节点上实现,用于从包括传感器节点的多个网络节点接收数据。
控制节点可以是专用服务器节点,用于优化技术网络中的数据传播。然而,控制节点也可以通过安装用于执行上述方法的计算机算法在网络节点中的任何网络节点上实现。
附图说明
在下文中,将参考附图中图示的示例性实施例进一步描述本发明,其中:
图1以示意图的形式描绘了示例性地图示技术网络的原始图;
图2以示意图的形式描述了根据Dijkstra算法的最大生成树;
图3以示意图的形式描绘了最优五边缘流;
图4以示意图的形式描绘了可能世界(possible world)g1;
图5示意性地图示了根据本发明的实施例的具有到源节点Q的信息流的示例图,以及
图6通过示例示意性地图示了根据图5的图的组件树表示;
图7和14示意性地图示了基于图5和6的示例的边缘插入和组件树的更新的示例,特别地
图7图示了边缘a的插入;
图8示出了在图7中描绘的边缘a的插入之后组件树的更新;
图9图示了边缘b的插入;
图10示出了在图9中描绘的边缘b的插入之后组件树的更新;
图11图示了边缘c的插入;
图12示出了在图11中描绘的边缘c的插入之后组件树的更新;
图13图示了边缘d的插入;
图14示出了在图13中描绘的边缘d的插入之后组件树的更新;
图15描绘了根据本发明的优选实施例的用于执行用于优化技术网络中的数据传播的方法的流程图,以及
图16以示意图的形式描绘了示出了用于优化网络内的数据传播的控制节点的框图。
具体实施方式
在以下描述中,出于解释而非限制的目的,阐述了具体细节,诸如特定网络环境和通信标准等,以便提供对本发明的透彻理解。对于本领域技术人员来说将是显而易见的是,本发明可以在脱离这些具体细节的其他实施例中实施。例如,技术人员将理解,本发明可以用任何无线网络来实施,所述无线网络比如例如UMTS、GSM或LTE网络。作为另一个示例,本发明还可以在有线网络中实现,例如在任何基于IP的网络中实现。此外,本发明适用于在部署使用数据传播机制和数据路由的任何数据中心中实现。特别地,本发明可以被应用于云计算网络的技术执行(administration)或管理。
为了说明一般问题设置,参考图1。考虑图1中描绘的网络,其中任务是在给定要使用的有限的边缘的预算的情况下将从节点Q到其他节点的信息流最大化。与之后定义的一般问题相比,该示例假设所有节点的权重相等。网络的每个边缘都标记有表示成功通信的概率的概率值。对这个问题的直接解决方案是激活所有边缘。假设每个节点具有一个单位的信息,该解决方案的预期信息流可以被示出为≈2.51。在将信息流最大化的同时,该解决方案产生最大可能的通信成本。这些单目标解决方案之间的传统权衡是使用概率最大化Dijkstra生成树,如图2中描绘的那样。该设置中的预期信息流可以被示出为聚合到1.59个单位,同时需要激活六个边缘。然而,可以看出,图3中描绘的解决方案支配该解决方案:仅使用五个边缘,因此进一步降低了通信成本,同时实现了到Q的≈2.02个单位的信息的更高预期信息流。
根据本发明的方法的目的是高效地找到近似最优的子网,该子网在约束的边缘的预算下将预期信息的流最大化。在上面参考图1提到的示例中,计算了针对各种示例图的信息流。但实际上,该计算在图的边缘的数量上已经被证明为#P难的,并且因此分析地解决是不切实际的。此外,最佳选择边缘以将信息流最大化被证明是np-难的。这两个子问题定义了用该算法处理和解决的主要计算挑战。
问题定义
概率有向图由G=(V,E,W,P)给出,其中V是顶点的集合,是边缘的集合,是将每个顶点映射到表示相应顶点的信息权重的正值的函数,并且P:E→(0,1]是将每个边缘映射到其在G中存在的对应概率的函数。在下文中,假设不同边缘的存在彼此独立。让我们注意,我们的方法也适用于其他模型,诸如条件概率模型,只要用于概率图的样本的无偏提取的计算方法是可用的。对于条件概率模型,参考“M. Potamias、F. Bonchi、A. Gionis和G. Kollios,k-nearest neighbors in uncertain graphs,PVLDB,3(1):997-1008,2010年”。
在概率图G中,每个边缘的存在是随机变量。因此,G的拓扑也是随机变量。该随机变量的样本空间是所有可能图的集合。概率图G的可能图g=(Vg,Eg)是确定性图,其是表示G的边缘的随机变量的可能结果。图g包含G的边缘的子集,即。这样的可能的图的总数是2|E<1|,其中|E<1|表示具有P(e)<1的边缘的数量,因为对于每个这样的边缘,我们有关于该边是否存在于图中的两种情况。我们令W表示所有可能的图的集合。从表示概率图G的随机变量对图g进行采样的概率由以下采样或实现概率Pr(g)给出:
(1)。
图1示出了图4中的概率图G及其可能实现g1的示例。该概率图具有210=1024个可能世界。使用等式1,世界g1的概率由下式给出:
定义1(路径):
令G=(V,E,W,P)为概率图,并且令va、vb为两个节点,使得va≠vb。(非循环)路径path(va,vb)=va,v1,v2,…,vb是顶点的序列,使得
定义2(可达性):
如在“Jin、L. Liu和C. C. Aggarwal,Discovering highly reliable subgraphs inuncertain graphs,SIGKDD中,第992-1000页,2011年”中和“M. Kasari、H. Toivonen和P.Hintsanen,Fast discovery of reliable k-terminal subgraphs,M. J. Zaki、J. X.Yu、B. Ravindran和V. Pudi,编辑,PAKDD中,第6119卷,第168-177页,2010年”中定义的网络可达性问题计算在G中连接的两个节点i、j的二项式随机变量的可能性,形式上:
其中是指示函数,如果(确定性)可能图g中的节点i和j之间存在路径则返回一,并且否则返回零。对于给定的查询节点Q,我们的目标是优化信息增益,信息增益被定义为从Q可到达的节点的总权重。
定义3(预期信息流):
为节点,并且令G=(V,E,W,P)为概率图,则flow(Q,G)表示从Q可到达的V中所有节点的顶点权重的总和的随机变量,形式上:
由于期望的线性,并且利用W(v)是确定性的,我们可以将该随机变量的期望计算为
——称为等式(2)。
给定等式2中预期信息流的定义,我们现在可以陈述优化针对约束的边缘的预算的概率图G的预期信息流的形式问题定义。
定义4(最大预期信息流):
令G=(V,E,W,P)为概率图,令为查询节点,并且令k为非负整数。最大预期信息流
——称为等式(3);
是将约束为具有最多k个边缘的信息流Q最大化的G的子图。
高效地计算MaxFlow(G,Q,k)需要克服两个np-难子问题。首先,对于给定概率图G,到顶点Q的预期信息流E(flow(Q,G))的计算是np-难的。另外,选择k个顶点的最佳集合以最大化信息流MaxFlow(G,Q,k)的问题本身就是np-难问题,如以下中所示的那样。
定理1:即使对于任何概率图G,可以在O(1)中计算到顶点Q的预期信息流(Q,G),找到MaxFlow(G,Q,k)的问题仍然是np-难的。
路线图
为了计算MaxFlow(G,Q,k),我们首先需要高效的解决方案来近似从Q去往/来自单个节点v的可达性概率。该问题被证明是#P-难的。因此,与“组件树”有关的以下部分提出了近似技术,该技术利用了以Q为根的子图G的生成树的分支之间的随机独立性。该技术允许高效地聚合G的独立子图,同时利用针对包含循环的图MaxFlow(G,Q,k)的组件的采样解决方案。
一旦我们可以高效地近似从Q到每个节点的流,我们接下来就解决高效地找到子图MaxEFlow(G,Q,k)的问题,在给定第VII部分中的k个边缘的预算的情况下,该子图MaxEFlow(G,Q,k)产生接近最优的预期信息流。由于定理1的理论结果,我们提出启发法以从G中选择k个边缘。最后,实验结果支持我们的理论直觉,即我们对上述两个子问题的解决方案协同作用:我们的可达性概率估计利用相应子图的树状形状,而优化概率图G的最优解倾向于树状结构,以最大化具有到达Q的非零概率的节点的数量。
预期流估计
在该部分中,描述了根据本发明的优选实施例将如何估计给定子图的预期信息流。根据等式2,Q和节点v之间的可达性概率reach(Q,v,G)可以被用于计算总预期信息流E(flow(Q,G))。计算两个节点之间的可达性概率的这个问题已经被证明是#P难的,并且已经提出了采样解决方案来近似它。在该部分中,我们将提出我们的解决方案,以识别G的子图,针对G的子图,我们可以分析和高效地计算信息,使得昂贵的数字采样只需被应用于小子图。我们首先引入子图的蒙特卡罗采样的概念。
传统的蒙特卡罗采样
引理1:令G=(V,E,W,P)为不确定图,并且令S为从G的可能图的集合W中随机和无偏地提取的样本世界的集合。然后S中样本中的平均信息流
(4)
是预期信息流E(flow(Q,G))的无偏估计量,其中,reach(Q,v,g)是指示函数,如果(确定性)样本图g中的节点Q和v之间存在路径,则返回一,并且否则返回零。
对整个图G的朴素(Naive)采样有两个明显的缺点:首先,这种方法需要计算对可能大采样图的集合的可达性查询。其次,产生了相当大的近似误差。我们将通过首先描述可以如何处理非循环子图(即树)以便在没有采样的情况下精确且高效地计算信息流来解决这些缺点。对于循环子图,我们示出了可以如何使用采样信息流来计算完整图中的信息流。
利用非循环组件
将由根据本发明的算法利用的主要观察如下:如果在两个顶点之间仅存在一条可能的路径,那么我们可以高效地计算它们的可达性概率。
引理2:令G=(V,E,W,P)为概率图,并令。如果是A和B之间的唯一路径,即,不存在满足定义1的其他路径,则A和B之间的可达性概率等于path(A,B)的边缘概率乘积,即
接下来,我们将引理2推广到整个子图,使得该子图中的指定顶点Q具有到子图中所有其他顶点的唯一路径。为了识别这样的子图,我们将使用循环图的概念,它将非有向图中的循环定义为从一个顶点到其本身的路径,它最多使用所有其他顶点和边缘一次。使用引理2,我们现在可以定义以下定理,我们将在本说明书的其余部分中利用该定理。
定理2:令G=(V,E,G)为概率图,令为节点。如果G是非循环的,则可以高效地计算E(flow(Q,G))。
因此,非循环图由其中每个顶点具有到根的恰好一条路径的图来定义。我们的目标是识别违反非循环结构的G的子图,并独立处理这些子图。直观地说,这样的非树节点具有两个“父”节点,两个“父”节点两者都通向根。
定义5(循环顶点):
如果vi具有至少两个邻居vj、vk,使得存在路径path(vj,Q)和路径path(vk,Q),使得,则顶点是包含Q的循环子图的部分。我们将这样的顶点vi称为循环顶点,因为vi被包含在从根Q到其本身的循环路径path(Q,vj)、(vj,vi)、(vi,vk)、path(vk,Q)中。
从循环顶点vi流出的信息不能使用定理2来计算,因为存在多于一条到Q的路径。但是我们可以使用采样和利用引理1来估计流。在下一部分中,关于“组件树”,我们提出了索引结构,该索引结构可以被用于识别需要被采样的最小子图,同时将我们可以将引理2的分析解应用于其的子图最大化。
组件树
在该部分中,我们描述了将图划分为独立组件的新颖方法,我们使用称为组件树的新颖(基于组件树)索引结构对其进行索引。代替对整个不确定图进行采样,该索引结构的目的是将定理2用于非循环组件,并仅在循环组件中应用局部蒙特卡罗。在我们示出如何利用组件树进行高效信息流计算之前,我们首先给出如下的形式定义。
定义6(组件树):
令G=(V,E,W,P)为概率图,并且令为要针对其计算预期信息流的顶点。组件树CT是树结构,定义如下。
1)CT的每个节点都是组件。组件可以是循环组件或非循环组件。
2)非循环组件是在G中形成非循环子图的顶点的集合。这些节点中的一个被标记为中枢节点NC.hub。
3)循环组件是在G中形成循环子图的顶点的集合。函数将每个顶点映射到被连接到G中的中枢的v的可达性概率reach(v,hub)。
4)CT中的每个边缘用概率来标记。
5)对于每对(循环或非循环)组件(C1,C2),它保持顶点的交集是空的。因此,V中的每个顶点位于最多一个组件顶点集合中。
6)两个不同的组件可以具有相同的中枢顶点,并且一个组件的中枢顶点可以位于另一个组件的顶点集合中。
7)CT的根的中枢顶点是Q。
直观地说,组件是顶点连同中枢顶点的集合,所有信息都必须流经所述顶点连同中枢顶点以便到达Q。顶点的每个集合都保证具有这样的中枢顶点,但它可能是Q本身。组件树的思想是使用组件作为虚拟顶点,使得组件的所有顶点将它们的信息发送到它们的中枢,然后中枢将所有信息转发到下一个组件,直到到达组件树的根,其中所有信息都被发送到中枢顶点Q。
示例6.1:作为组件树的示例,考虑图5,其示出了具有省略边缘概率的概率图。任务是高效地近似到顶点Q的信息流。非循环组件由A=({1,2,3,6},Q)给出。对于该组件,我们可以利用定理2来分析计算从{1,2,3,6}中的任何节点到中枢Q的信息的流。循环组件由B=({4,5},3)定义,表示具有循环的子图。要是有循环,我们就不能利用定理2来计算{4,5}中的顶点到顶点3的流。但是我们可以对由{3,4,5}中的顶点生成的子图采样,以估计到顶点3的预期信息的流。给定该预期流,我们可以使用非循环组件A来分析计算从组件B的中枢顶点3被进一步传播到A的中枢顶点的预期信息,A的中枢顶点是Q。因此,组件B是图6中所示的组件树中的A的子节点,因为B将其信息传播到A。另一个循环组件是C=({7,8,9},6),对于该循环组件,我们可以使用蒙特卡罗采样来数字地估计从顶点7、8和9到中枢6的信息流。由于顶点6在A中,因此组件C是A的子节点。我们找到另一个循环组件D=({10,11},9),以及另外两个非循环组件E=({13,…,16},9)和F=({12},11)。
在该示例中,组件树的结构允许我们计算或近似从每个顶点到Q的预期信息流。为了该目的,仅两个组件需要被采样。在下文中,我们示出在插入新边缘的情况下如何维护组件树。这允许在每次插入之后更新到Q的预期信息流。利用仅包含一个组件的图是平凡组件树,我们可以使用结构归纳为任何子图构建组件树。
在下面的“最优边缘选择”部分中,我们将示出如何选择要被插入的有希望的边缘以最大化预期信息流。
更新CT表示
给定组件树CT,该部分示出了在给定新边缘c=(vsrc,vdest)插入到G中的情况下如何更新CT。在组件树的定义6之后,每个顶点被分配给单个非循环组件(由标志v.isNC指示)、单个循环组件(由v.isCC指示)或者无组件,并且因此与Q断开,由v.isNew指示。我们在该部分中导出的边缘插入算法在这些情况之间不同,如下:
情况I)vsrc.isNew和vdest.isNew:我们省略了这种情况,因为我们在下面的“最优边缘选择”部分中提出的边缘选择算法始终确保单个连接的组件,并且最初组件树仅包含顶点Q。
情况II)vsrc.isNew异或vdest.isNew:由于考虑了非有向边缘,我们不失一般性地假设vdest.isNew。因此vsrc已经被连接到组件树CT。
情况IIa):vsrc.isNC:在这种情况下,新的死端(dead end)被添加到非循环结构NCsrc,其保证保持非循环。我们将vdest添加到NCsrc.V。
情况IIb):vsrc.isCC:在这种情况下,新的死端被添加到循环结构CCsrc。该死端变成新的非循环组件NC=({vdest},vsrc)。直观地说,我们知道节点vdest没有其他选择,只能将其信息传播到vsrc。因此,vsrc变成vdest的中枢顶点。循环组件CCsrc将新的非循环组件NC添加到其子节点的列表。
情况III)vsrc和vdest属于相同组件。
情况IIIa)该组件是循环组件CC:在组件CC内的vsrc和vdest之间添加新边缘可能改变每个节点到达它们的中枢CC.hub的可达性CC。因此,需要对CC进行重新采样以对每个的可达性概率函数P(v)进行数值估计。
情况IIIb):该组件是非循环组件NC:在这种情况下,在非循环组件内创建新循环。我们需要
(i)识别由该循环影响的顶点的集合,
(ii)将这些顶点分成新的循环组件,以及
(iii)处理已经通过新循环从NC断开的顶点的集合。
这三个步骤由splitTree(NC,vsrc,vdest)函数执行,如下:
(i)我们通过识别新循环开始,如下:
比较vsrc和vdest到NC.hub的(唯一)路径,并且找到在两条路径中出现的第一个顶点。现在我们知道新的循环是path(,vsrc)、path(vdest)。
(ii)使用作为它们的中枢顶点,将所有的这些顶点添加到新的循环组件。NC中在它们的路径上具有的所有顶点(除了本身)都从NC移除。通过对CC.V中的顶点的子图进行采样来估计概率质量函数P(v)。新的循环组件CC被添加到NC的子节点的列表。
(iii)最后,由于CC的创建而已经从NC分离的NC的孤立点(orphan)需要被收集到新的非循环组件中。这样的孤立点必须在它们到NC.hub的路径上有循环CC的顶点。我们通过这些顶点对所有孤立点进行分组:对于每个,令orphani表示由vi分离的孤立点的集合(分离意味着vi是CC.V中在到NC.hub的路径上的第一个顶点)。对于每个这样的组,我们创建新的非循环组件NCi=(orphani,vi)。所有这些新的非循环组件变成NC的子节点。如果NC.V现在为空,因此NC的所有顶点都已重新分配给其他组件,则删除NC。
情况IV)vsrc和vdest属于不同的组件Csrc和Cdest。由于组件树CT是树,因此我们可以识别Csrc和Cdest的最低共同祖先Canc。边缘(vsrc,vdest)的插入已经产生了新的循环,其从Canc去往Csrc,然后经由新的边缘去往Cdest,并且然后回到Canc。该循环可以跨循环和非循环组件,所有这些都必须被调整以考虑新的循环。我们需要识别所有涉及的顶点以为创建新的循环组件,并且我们需要识别哪些部分保持非循环。在以下情况中,我们迭代地调整中涉及的所有组件。首先,我们初始化,其中vanc是如果Canc是非循环组件则循环在其中相遇的Canc中的顶点,否则为Canc.hub。令C表示当前被调整的组件:
情况IVa)C=Canc:在这种情况下,新循环可以从Canc中的两个不同的中枢顶点进入Canc。在这种情况下,我们应用情况III,将这两个顶点视为vsrc和vdest,因为这两个顶点已经经由大循环变成过渡连接。
情况IVb)C是循环组件:在这种情况下,C被新的循环组件吸收,因此,并且继承了来自C的所有子节点。该步骤的合理性在于C中的所有顶点都能够访问新的循环。
情况IVc)C是非循环组件:在这种情况下,从一个顶点v到C.hub的C中的一条路径现在被包含在循环中。该路径中包含的所有顶点都添加到并从C中移除。调用操作splitTree(C,v,C.hub)以创建新的非循环组件,所述组件已从C被分离并经由被连接到C。
插入示例(关于图7至14):
在下文中,我们使用图5的图及其对应的图6的组件树表示来插入附加边缘,并说明上面的“更新CT表示”部分的插入算法的有趣情况。
图7、9、11和13示出了曲线图G,并且图8、10、12和14描绘了在插入边缘之后的更新的组件树CT(其在之前的图中被描绘)。在这些图中,由于更好的可读性,因此省略了图G和组件树CT的参考标号。
我们通过图7中的针对情况II的示例开始。这里,我们插入新的边缘a=(8,17),从而将新的顶点17连接到组件树。由于顶点8属于循环组件C,因此我们应用情况IIb。创建新的非循环组件G=({17},8),并将其添加到C的子节点。图8示出了在插入边缘a之后的更新的组件树CT。
在图9中,我们代之以插入新的边缘b=(7,9)。在这种情况下,两个连接的顶点已经是组件树的部分,因此情况II不适用。我们发现两个顶点属于相同的组件C。因此,使用情况III并且更具体地,因为组件C是循环组件,所以应用情况IIIa。在这种情况下,没有组件需要被改变,但概率函数C.P(v)必须重新近似,因为节点6、7和8的概率将具有被连接到中枢顶点6的增加的概率,这是由于引导经由边缘b的新路径的存在。图10示出了插入边缘b之后的更新的组件树CT。
接下来,在图11中,边缘c被插入在顶点14和15之间。两个顶点都属于非循环组件E,因此在这里应用情况IIIb。在插入c之后,先前的非循环组件E=({13,14,15,16},9)现在包含涉及顶点13、14和15的循环。(i)我们通过考虑从顶点14和15到它们的中枢顶点9的先前路径来识别该循环。这些路径分别是(14,13,9)和(15,13,9)。该路径上的第一个共同顶点是13,从而识别新的循环。(ii)我们创建新的循环组件G=({14,15},13),其包含该循环的所有顶点,使用第一个共同顶点13作为中枢顶点。我们进一步从非循环组件E移除除了中枢顶点13之外的这些顶点;通过对G内的可达性概率进行采样来初始化概率函数G.P(v);并且G被添加到E的子节点的列表。(iii)最后,需要收集孤立点。这些节点是先前在G.V中具有节点顶点现在在它们到它们以前的中枢9的(先前唯一的)路径上已经变成循环的节点。没有一个孤立点在其到9的路径上具有顶点14,使得不为顶点14创建新的非循环组件。然而,我们发现一个顶点,即顶点16,在其到9的路径上具有15作为第一个移除顶点。因此,顶点16从组件E被移动到新的非循环组件H=({16},15)中,从而终止这种情况。总而言之,组件H中的顶点16现在将其信息流报告给组件G中的顶点15,对于该顶点,使用蒙特卡罗采样来近似到组件E中的顶点9的信息流,然后将该信息分析地传播到组件C中的顶点9,随后,完全这种方式传播的剩余流被近似地传播到组件A中的顶点6,这允许分析地计算到顶点Q的流。图12示出了在插入边缘c之后的更新的组件树CT。
对于最后的情况,即情况IV,考虑图13,其中新边缘d=(11;15)连接属于两个不同组件D和E的两个顶点。我们通过识别已经在组件树中创建的循环开始,包含组件D和E,并且在第一共同祖先组件C处相遇。对于循环(D,C,E)中的这些组件中的每个,使用情况IV的子情况之一。对于组件C,我们使C=Canc作为共同祖先组件,从而触发情况IVa。我们发现组件D和E两者都使用顶点9作为它们的中枢顶点vanc。因此,在组件C中产生的唯一循环是从顶点9到其本身的(平凡)循环(9),其不需要任何动作。我们初始化新的循环组件,它最初没有顶点,并且还没有计算的概率质量函数(运算符可以被读取为空(null)或未定义)并使用vanc=9作为中枢。对于组件D,我们应用情况IVb,因为D是循环组件,它被新的循环组件吸收,现在具有。对于非循环组件E,使用情况IVc。我们通过使用所包含的顶点15到中枢顶点9之间的path(15,13,9)来识别现在被包含在循环中的E内的路径。该路径上的所有节点都被添加到,现在具有。使用类似于情况III的splitTree操作,我们将孤立点收集到新的非循环组件中,创建G=({14},13)和H=({16},15)作为的子节点。最后,蒙特卡罗采样被用于近似针对每个的概率质量函数.P(v)。图14示出了插入边缘d之后的更新的组件树CT。
最优边缘选择
先前的部分提出了组件树,即用于在概率图中计算预期信息流的数据结构。基于该结构,在该部分中提出了用于找到接近最优的k个边缘的集合以最大化到顶点Q的信息流MaxEFlow(G,Q,k)(参见定义4)的启发法。因此,我们首先提出贪婪启发法,以迭代地将局部最有希望的边缘添加到当前结果。基于该贪婪方法,我们提出了改进,旨在将处理成本最小化,同时最大化预期信息流。
贪婪算法
旨在逐渐选择边缘,贪婪算法最初使用概率图,其不包含边缘。在每次迭代i中,维护候选边缘“candList”的集合,其包含在当前图Gi中被连接到Q但在Ei中尚未被选择的所有边缘。然后,每次迭代选择边缘e,其相加将到Q的信息流最大化,使得,其中
(5)。
为此目的,通过使用与上面的组件树有关的在该部分中提出的插入方法将每个边缘插入到当前组件树CT中来探测每个边缘。然后,估计由该插入产生的信息流中的增益。在k次迭代之后,返回图Gk=(V,Ek,P)。
组件记忆
我们引入了一种优化,通过利用组件树CT中不同组件之间的随机独立性,减少了针对其必须使用蒙特卡罗采样估计它们的可达性概率的循环组件的数量。在每次贪婪迭代期间,探测边缘candList的整个集合以进行插入。这些插入中的一些可能在组件树中产生新的循环,这由情况IIIa、IIIb和IV引起。使用组件记忆,算法为candList中的每个边缘e记忆在e的最后探测期间必须被采样的任何循环组件CC的概率质量函数。如果e再次在之后的迭代中被插入,则算法根据该组件内的顶点或根据已被插入该组件中的其他边缘来检查组件是否已改变。如果组件已保持不变,则代之以使用记忆的估计概率质量函数来跳过采样步骤。
采样置信区间
蒙特卡罗采样由参数样本大小控制,该参数样本大小对应于为近似循环组件到其中枢顶点的信息流而采取的样本的数量。在每次迭代中,我们可以通过为被探测的每个边缘的信息流引入置信区间来减少样本的量。思想是对任何探测边缘e的采样进行删减,对于这我们可以得出结论,在足够大的显著性水平α,在candList中必须存在另一个边缘e'≠e,使得仅基于当前的样本的数量,保证e'具有更高的信息流该e。为了生成这些置信区间,我们回想一下,根据等式4,到Q的预期信息流是每个单独顶点的信息流的总和的样本平均值。对于每个顶点v,随机可能被连接到Q的随机事件遵循具有未知的成功概率p的二项分布。为了估计p,给定数量S个样本和数量0≤s≤S的‘成功’样本,其中Q是从v可达的,我们借用来自统计学的技术来获得真实概率p的双边1-α置信区间。获得这样的置信区间的简单方法是通过应用统计学的中心极限定理以通过正态分布来近似二项分布。
定义7(α显著置信区间):
令S是从概率图G中提取的可能的图的集合,并且令是S中可能图的比值(fraction),其中Q是从v可到达的。具有1-α的可能性,
Q在概率图G中从v可到达的真实概率位于区间
(6)
中,其中z是标准正态分布的100_(1-0.5·a)百分位数。我们将下限表示为,并且将上限表示为。我们使用α=0.05。
为了获得到图G中的Q的预期信息流的下限,我们使用等式4使用每个顶点的下限流的总和来获得
以及上限
现在,如果lb>ub,则在贪婪算法的任何迭代i处,对于具有由下限的信息流的任何候选边缘,我们删减具有上限的任何其他候选边缘。这种删减的合理性在于,在1-α的置信度下,我们可以保证插入e'比插入e产生更少的信息增益。为了确保中心极限定理是适用的,如果已经为两个概率图提取了至少30个样本世界,则我们仅应用该删减步骤。
延迟采样
对于最后的启发法,我们减少了在贪婪算法的每次迭代中需要被执行的蒙特卡罗采样的数量,如上所述。简而言之,思想是,产生比所选边缘低得多的信息增益的边缘不太可能变成下一次迭代中具有最高信息增益的边缘。为此目的,我们引入了延迟采样启发法。在贪婪算法的任何迭代I中,令e表示最佳选择边缘,如在等式5中定义的那样。对于任何其他边缘,我们定义其可能性,作为通过添加边缘e'与在迭代中已经被选择的最佳边缘e相比较得到的信息的比值。此外,我们将成本cost(e')定义为需要采样以估计由添加边缘e'而产生的信息增益的边缘的数量。如果插入e'不产生任何新的循环,则cost(e')为零。现在,在其中边缘e'已经被探测到但未被选择的迭代i之后,我们定义采样延迟
,这意味着在贪婪算法的接下来的d次迭代中,e′将不被认为是候选者,如以上部分所述。延迟的这种定义做出了(假的)假设,即在每次迭代中,边缘的信息增益只能增加c>1的倍数,其中参数c被用于控制具有高采样成本和具有低信息增益的惩罚。作为示例,假设边缘e0具有选择的最佳边缘e的仅1%的信息增益,并且需要在探测时对包含10个边缘的新循环组件进行采样。此外,我们假设每次迭代(以及因此通过在图中插入其他边缘)的信息增益可能仅增加最多c=2的倍数。我们得到。因此,使用延迟采样并且使c=2,在边缘选择算法的接下来的九次迭代中将不考虑边缘e'。必须注意的是,这种延迟采样策略仅是启发法,并且不能给出针对信息增益中的变化的正确上限c。因此,延迟采样启发法可能导致具有最高信息增益的边缘不被选择,因为它可能仍然被暂停。我们的实验表明,即使对于低的c的值(即接近于1),其中对于大量的迭代,边缘被暂停,信息增益中的损失也是相当低的。
评估
根据定义4,该部分评估了我们提出的用于计算不确定图的接近最优子图的解决方案的效率和有效性,其在给定约束的边缘的数量的情况下将到源节点Q的信息流最大化。如上面在一般描述中所推动的,在不确定图上的信息传播的一个主要应用领域是:i)空间网络中的信息/数据传播,所述空间网络诸如无线网络或道路网络。此外,第二应用可以用于ii)社交网络中的信息/信任传播。这两种类型的不确定图具有极其不同的特性,其需要单独评估。空间网络遵循局部性假设,将成对可达节点的集合约束到空间距离。因此,取决于空间距离,一对两个随机选择的节点之间的平均最短路径可能是非常大的。相比之下,社交网络没有局部性假设,因此允许以非常少的跳移动通过网络。因此,在没有任何局部性假设的情况下,从查询节点在k跳中可到达的节点的集合在跳数上可能指数地变大。在遵循局部性假设的网络中,该数量在范围k内多项式增长,通常是二次的(在平面上的传感器和道路网络中),因为由循环覆盖的区域是其半径的二次方。我们的实验已经表明,在某些应用中明显存在但在其他应用中不存在的局部性假设对我们的算法(包括基线)的性能具有巨大影响。因此,我们分别评估两种情况。除了这两种情况之外,我们还评估以下参数,其中默认值指定如下:图的大小|V|=10000、平均顶点度d=2和边缘的预算k=100。
所有实验都是在具有Windows 10,64位,16.0 GB RAM与处理器单元Intel(R)Xeon(R) CPU E3-1220,3.10 Ghz的系统上评估的。所有算法都是用Java(版本1.8.0_91)实现的。
评估算法
我们在该部分中评估的算法被表示并描述如下:
朴素如其他地方所提出的,第一个竞争者朴素没有利用与“预期流估计”有关的部分的独立组件策略,并利用纯采样方法来估计可达性概率。为了选择边缘,贪婪方法选择局部最佳边缘,如“最优边缘选择”部分中所示,但不使用组件树部分中提出的组件树表示。我们使用5000个样本的恒定蒙特卡罗样本大小。
最短路径生成树,如“K. Sohrabi、J. Gao、V. Ailawadhi和G.J. Pottie,Protocols for self-organization of a wireless sensor network,IEEE personalcommunications,7(5):16-27,2000年”中描述的那样,被用于将无线传感器网络与汇聚节点互连。为了获得最大概率生成树,我们进行如下操作:每个边缘的概率P(e)被设置为P'(-log(P(e))。在节点Q处开始的变换图上运行传统的Dijkstra算法,在每次迭代中产生生成树,它将Q和连接到Q的任何节点之间的连接性概率最大化[32]。因为在每次迭代中,得到的图具有树结构,所以该方法可以充分利用第V部分的概念,完全不需要采样步骤。
采用在该部分中提出的组件树,该组件树与用于导出可达性概率的“预期流估计”有关。为了对循环组件进行采样,我们提取了5000个样本,以便与朴素进行公平比较。所有以下CT算法都建立在CT之上。
根据优选实施例,可以用记忆算法扩展基本CT算法。因此,针对每个候选边缘e,CT+M附加地维护来自最后的迭代的相应循环组件的pdf(作为信息流的度量)(参见“组件记忆”部分)。
根据另一个优选实施例,可以用置信区间的采样来扩展基本CT算法。因此,CT+M+CI确保每当另一个边缘以一定的置信度具有较高信息流时,就停止边缘的探测,如在“采样置信区间”部分中解释的那样。
根据另一个优选实施例,可以用延迟采样来扩展基本CT算法。因此,CT+M+DS尝试通过舍去在最后的迭代中具有小信息增益-成本比的边缘来在迭代中将候选边最小化(参见“延迟采样”部分)。默认情况下,我们将惩罚参数设置为c=2。
结合所有的以上概念。其他实施例涉及上面提到的算法和扩展的其他组合。
图15描绘了表示根据本发明的优选实施例的方法的可能工作流程的流程图。该方法例如可以在通用计算机上被实现为以Java的算法,并且可以在技术网络NW的一个网络节点上被执行。它还可以在多个网络节点上以分布式方式被执行。
在方法的开始之后,在步骤1中,确定技术网络约束或网络预算。受限网络预算可以指某些网络节点的可用性和相应的成本,涉及激活到该节点的相应网络链路。约束可以基于网络节点的受限可用性(带宽限制),或者可能是由于受限资源。约束可以被测量或可以经由输入接口II被读入。此外,确定运行时要求(例如,基于用户输入)是可能的。
在步骤2中,网络NW以具有节点和边缘的概率图并且通过考虑网络约束来表示。
在步骤3中将技术网络NW分解成独立的组件,并且在步骤4中,生成组件树数据结构CT。
在步骤5中,生成可能被迭代地添加到组件树CT的候选边缘的列表。
在步骤6中,迭代地计算针对候选边缘中的每个的预期信息流,以便选择该候选边缘用于插入(更新)组件树CT中,针对该组件树CT,预期信息流被最大化。这里,在步骤7中,在优选实施例中,处理运行时要求。根据运行时要求,选择并应用最优边缘选择算法。通常,在运行时要求被检测为是低的情况下,可以应用上述基本算法(CT算法)。在检测到较高运行时要求的情况下,应用针对上述基本最优边缘选择算法的优化算法(CT+M、CT+M+CI、CT+M+DS、CT+M+CI+DS)。优化算法的选择和执行在优化器中执行,以下在图16中示出。
在每个迭代步骤的结束时,组件树CT数据结构——其可以被存储在存储器MEM中——在步骤8中用所选择的边缘更新,即用已经被选择为关于信息流是最优的边缘更新,这意味着其中信息流可以被最大化。步骤8表示对步骤5到7的迭代,用于探测候选边缘以便插入组件树CT中并且在已经选择用于更新组件树CT的最佳边缘之后。
在已经提供了边缘的集合之后,在结束时自动计算结果r,其指定用于数据传播的那些网络节点,信息针对其将被最大化。与迭代同时并且在该计算期间,优化用于提供结果r的运行时。特别地,在步骤7中处理所确定的运行时要求以选择最优边缘选择算法。根据所确定的运行时要求,由优化器200应用相应的启发法,如下所述。在此之后,该方法将结束。
组件树CT用作根据本发明的CT算法的基础。组件以CT特定的方式被组织和索引。因此,在迭代的每个步骤中,激活一个边缘。边缘与组件的关联在时间上的每个点处是唯一的。在每次迭代中,CT树仅增加一个边缘。通过计算每个候选边缘的信息增益来处理在迭代中选择哪个边缘的问题。该算法选择相对于去往或来自网络NW中的指定源节点Q的信息流是最有希望的边缘的该边缘。算法使用组件树CT表示,以便在候选边缘将被包含在生成图或CT树中时仅通过考虑被影响的组件来计算候选边缘的信息增益。
上面提出的算法(CT、具有记忆M的CT以及附加地具有置信区间CI采样和附加地具有延迟采样DS)使用不同的启发法用于调整时间,以确定结果r与应当被用于信息流最大化的通信路径。
图16示出了控制节点10的框图,该控制节点10适用于控制网络NW中的数据或信息传播。控制节点10本身可以是技术网络NW的部分。网络NW本身及其技术约束和可选的运行时要求确定和/或经由输入接口II被转发到控制节点10。控制节点10包括处理器100。处理器100适用于为技术网络NW生成概率图G。替代地,概率图G可以在其他地方生成并且经由输入接口II被导入。图G中的边缘被分配有概率值,表示用于激活技术网络NW中的所述边缘的相应技术网络约束。处理器100进一步适用于提供或计算概率图G并适用于将概率图G分解成独立组件并且适用于生成组件树结构CT作为数据结构。存储器MEM存储组件树CT及其更新。另外,图G和候选边缘的候选列表也可以被存储在存储器MEM中。处理器100进一步适于迭代地确定所生成的组件树CT中的最优边缘,其通过处理所确定的技术网络约束并通过以下操作来将去往和/或来自每个节点的到查询节点Q的预期信息流最大化
-执行蒙特卡罗采样,用于估计针对组件树CT中的循环组件的预期信息流,以及
-分析地计算组件树CT中的非循环组件的预期信息流。
处理器100适于用每个确定的最优边缘迭代地更新组件树CT,并且适于重新估计更新的组件树中的预期信息流,并且适于计算最优边缘的集合并且基于此。结果r经由输出接口OI被提供。如图16中所示,结果r可以被用于控制网络操作。结果r可以被馈送到中央控制单元以用于操作网络NW,使得信息流被最大化并且运行时要求也被满足。结果r可以由网络节点的列表组成,对于数据传播,所述网络节点应该被涉及。
如在图16中可以看到的那样,控制节点10还可以包括优化器200。优化器200适于根据确定的运行时要求选择最优边缘选择算法。运行时要求可以在配置阶段中由用户(例如,网络管理员)指定。优化器200适于执行优化,减少每次迭代中的计算。在每次迭代中,必须计算每个组件树CT表示的信息流。根据上面描述的CT算法,如果CT表示的相同组件在连续迭代中受候选者影响,则仅计算一次信息流是可能的。这具有重大的性能优势。
最后,在上面的详细描述中,已经描述了在给定k个通信边缘的固定预算的情况下针对将不确定图中的信息流最大化的问题的实现和解决方案。我们确定了两个需要启发式解决方案的np-难子问题:
(i)计算给定子图的预期信息流,以及
(ii)选择最优的边缘的k个集合。
对于问题(i),我们开发了高级采样策略,该采样策略仅对我们无法针对其获得高效(和精确)的分析解决方案的图的部分执行昂贵的(和近似的)采样步骤。对于问题(ii),我们提出了我们的图G的组件树表示,其保持跟踪循环组件——针对其需要采样来估计信息流——以及非循环组件——针对其可以分析地计算信息流。在CT表示的基础上,我们引入了进一步的方法和启发法来处理有效性和效率之间的权衡。我们的评估表明,这些增强算法能够在有效时间内找到高质量的解决方案(即,具有高信息流的边缘的k个集合),尤其是在遵循局部性假设的图中,诸如道路网络和无线传感器网络。
出于说明和描述的目的,已经呈现了本发明的各种实施例的前述描述。不旨在穷尽或将本发明限于所公开的精确形式。根据上面的教导,许多修改和变型是可能的。意图在于本发明的范围不应由该详细描述来限制,而是应由附于此的权利要求来限制。以上说明书、示例和数据提供了对本发明的基础算法的完整描述。由于可以在不脱离本发明的精神和范围的情况下做出本发明的许多实施例,因此本发明存在于本文中之后所附的权利要求中。

Claims (16)

1.用于通过处理用于激活技术网络(NW)中的所述边缘的技术网络约束来可靠地优化具有多个节点和边缘的技术网络(NW)中的数据传播的方法,其中技术网络(NW)被表示为具有边缘和分配的概率值的概率图(G),包括以下步骤:
-通过将概率图(G)划分(3)为独立组件(A-F)来生成(2,4)组件树(CT)作为数据结构,独立组件(A-F)表示概率图(G)的子集并且包括循环和非循环组件,其中组件树(CT)中的边缘表示组件之间的父子关系
-迭代地确定(5,6,7,8)生成的组件树(CT)中的最优边缘,其通过处理技术网络约束并通过以下操作来将去往和/或来自每个网络节点的到查询节点(Q)的预期信息流最大化
--执行蒙特卡罗采样,用于估计针对循环组件的预期信息流,以及
--分析地计算非循环组件的预期信息流
-用每个确定的最优边缘迭代地更新(8)组件树(CT)并重新估计更新的组件树中的预期信息流
-计算(7)最优边缘的集合并且基于此向技术网络(NW)中的节点提供结果(r)用于数据传播,使得通过处理技术网络约束来将信息流最大化。
2.根据权利要求1所述的方法,其中通过应用启发法,利用组件树(CT)的特征来执行迭代地确定(5,6,7,8)最优边缘。
3.根据权利要求2所述的方法,其中启发法基于贪婪算法。
4.根据上述权利要求中的任一项所述的方法,其中通过组件记忆执行以下操作来优化迭代地确定(5,6,7,8)最优边缘:
-跳过执行蒙特卡罗采样的步骤,用于估计保持不变的循环组件的预期信息流,以及通过
-记忆和重新使用针对不变组件的信息流的计算值。
5.根据上述权利要求中的任一项所述的方法,其中通过删减采样和通过采样置信区间来优化蒙特卡罗采样,使得每当另一边缘以一定的置信度具有较高信息流时,就停止探测边缘。
6.根据上述权利要求中的任一项所述的方法,通过应用延迟采样来优化蒙特卡罗采样,所述延迟采样考虑用于相对于候选边缘的信息增益对候选边缘进行采样的成本,以便将要被采样的候选边缘的量最小化。
7.根据上述权利要求中的任一项所述的方法,其中所述方法包括以下步骤:
-确定对提供结果(r)的运行时要求,
使得通过选择边缘选择算法来执行最优边缘的迭代确定(5,6,7,8),使得满足所确定的运行时要求。
8.根据上述权利要求中的任一项所述的方法,其中由于技术网络约束,可以被激活的技术网络(NW)中的边缘的数量是有限的。
9.根据上述权利要求中的任一项所述的方法,其中分析地计算非循环组件的预期信息流基于以下等式:
其中G=(V,E,W,P)是概率有向图,其中V是顶点v的集合,是边缘的集合,是将每个顶点映射到表示相应顶点的信息权重的正值的函数,并且其中是节点。
10.根据上述权利要求中的任一项所述的方法,其中通过从候选边缘的集合中选择局部最有希望的边缘来执行确定(5,6,7,8)最优边缘,对于最优边缘,预期信息流可以被最大化,其中,如果候选边缘将被包括在技术网络(NW)的组件树(CT)中,则仅在受影响的组件树(CT)的那些组件上执行针对候选边缘的预期信息流的估计。
11.根据上述权利要求中的任一项所述的方法,其中,所述方法进一步包括:
-高效地聚合概率图(G)的独立子图,同时利用针对包含循环的图MaxFlow(G,Q,k)的组件的采样解决方案。
12.一种技术网络(NW)中的控制节点(10),所述技术网络(NW)具有多个节点和节点之间的连接,所述技术网络(NW)以概率图(G)来表示,其中图(G)中的边缘被分配有概率值,所述概率值表示用于激活技术网络(NW)中的所述边缘的相应技术网络约束,其中控制节点(10)包括:
-输入接口(II),用于确定技术网络参数和网络约束;
-处理器(100),其适用于为技术网络(NW)提供概率图(G)并且适用于将概率图(G)分解成独立组件,并且适用于生成组件树结构作为数据结构
-存储器(MEM),用于存储该数据结构;
-其中处理器(100)进一步适于迭代地确定所生成的组件树(CT)中的最优边缘,其通过处理所确定的技术网络约束并通过以下操作来将去往和/或来自每个节点的到查询节点(Q)的预期信息流最大化
--执行蒙特卡罗采样,用于估计针对组件树(CT)中的循环组件的预期信息流,以及
--分析地计算组件树(CT)中的非循环组件的预期信息流
-并且其中处理器(100)适于用每个确定的最优边缘迭代地更新组件树(CT)并且适于重新估计更新的组件树中的预期信息流,并且适于计算最优边缘的集合并且基于此
-其中控制节点(10)进一步包括输出接口(OI),用于向技术网络(NW)中的节点提供结果(r)用于数据传播,使得通过处理技术网络约束将信息流最大化。
13.根据直接在前的权利要求所述的控制节点(10),其中,控制节点(10)进一步包括优化器(200),所述优化器(200)适于确定运行时要求,并且适于应用优化算法用于处理处理器(100)的有效性和效率之间的权衡,用于提供结果(r)。
14.根据针对控制节点(10)的前述权利要求中的任一项所述的控制节点(10),其中,控制节点(10)在发送节点上实现,用于向多个网络节点发送数据。
15.根据针对控制节点(10)的前述权利要求中的任一项所述的控制节点(10),其中,控制节点(10)在接收节点上实现,用于从包括传感器节点的多个网络节点接收数据。
16.用于在具有多个节点和节点之间的连接的技术网络(NW)中使用的计算机网络系统,所述技术网络(NW)以概率图(G)来表示,其中图(G)中的边缘被分配有概率值,所述概率值表示用于激活网络中的所述边缘的相应技术网络约束,包括:
-控制节点(10),其适于根据上述方法权利要求中的任一项来控制技术网络(NW)中的数据的传播。
CN201680092048.7A 2016-11-25 2016-11-25 计算机网络中的高效数据传播 Pending CN110199278A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/078850 WO2018095539A1 (en) 2016-11-25 2016-11-25 Efficient data propagation in a computer network

Publications (1)

Publication Number Publication Date
CN110199278A true CN110199278A (zh) 2019-09-03

Family

ID=57482382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680092048.7A Pending CN110199278A (zh) 2016-11-25 2016-11-25 计算机网络中的高效数据传播

Country Status (4)

Country Link
US (1) US20200394249A1 (zh)
EP (1) EP3526682A1 (zh)
CN (1) CN110199278A (zh)
WO (1) WO2018095539A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114830609A (zh) * 2019-10-30 2022-07-29 西门子股份公司 调度通过电信网络的传输

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11699089B2 (en) * 2019-05-21 2023-07-11 Accenture Global Solutions Limited Quantum recommendation system
CN110991727A (zh) * 2019-11-28 2020-04-10 海南电网有限责任公司 一种基于潮流网损模型和线路约束模型的电网规划方法
DE102020208828A1 (de) * 2020-07-15 2022-01-20 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems
US11736385B1 (en) * 2022-08-17 2023-08-22 Juniper Networks, Inc. Distributed flooding technique

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431467A (zh) * 2008-12-18 2009-05-13 中国人民解放军国防科学技术大学 共享资源网络的实时任务接纳控制方法
CN101694521A (zh) * 2009-10-12 2010-04-14 茂名学院 一种基于概率图模型的目标预测跟踪方法
CN101835100A (zh) * 2010-04-22 2010-09-15 北京科技大学 一种基于认知自组织网的能量优化组播路由方法
CN104134159A (zh) * 2014-08-04 2014-11-05 中国科学院软件研究所 一种基于随机模型预测信息最大化传播范围的方法
CN105138667A (zh) * 2015-09-07 2015-12-09 中南大学 一种考虑时延约束的社会网络初始关键节点选取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431467A (zh) * 2008-12-18 2009-05-13 中国人民解放军国防科学技术大学 共享资源网络的实时任务接纳控制方法
CN101694521A (zh) * 2009-10-12 2010-04-14 茂名学院 一种基于概率图模型的目标预测跟踪方法
CN101835100A (zh) * 2010-04-22 2010-09-15 北京科技大学 一种基于认知自组织网的能量优化组播路由方法
CN104134159A (zh) * 2014-08-04 2014-11-05 中国科学院软件研究所 一种基于随机模型预测信息最大化传播范围的方法
CN105138667A (zh) * 2015-09-07 2015-12-09 中南大学 一种考虑时延约束的社会网络初始关键节点选取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114830609A (zh) * 2019-10-30 2022-07-29 西门子股份公司 调度通过电信网络的传输
CN114830609B (zh) * 2019-10-30 2024-03-26 西门子股份公司 调度通过电信网络的传输

Also Published As

Publication number Publication date
WO2018095539A1 (en) 2018-05-31
EP3526682A1 (en) 2019-08-21
US20200394249A1 (en) 2020-12-17

Similar Documents

Publication Publication Date Title
Ioannidis et al. Adaptive caching networks with optimality guarantees
CN110199278A (zh) 计算机网络中的高效数据传播
Oda et al. Evaluation of WMN-GA for different mutation operators
Konstantinidis et al. Multi-objective k-connected deployment and power assignment in wsns using a problem-specific constrained evolutionary algorithm based on decomposition
Amaldi et al. Design of wireless sensor networks for mobile target detection
CN104995870A (zh) 多目标服务器布局确定
Xiao et al. Maximizing precision for energy-efficient data aggregation in wireless sensor networks with lossy links
Saranraj et al. A novel data aggregation using multi objective based male lion optimization algorithm (DA-MOMLOA) in wireless sensor network
Phanish et al. Application-based optimization of multi-level clustering in ad hoc and sensor networks
Liu et al. Finding densest lasting subgraphs in dynamic graphs: A stochastic approach
Gao et al. Distributed resource management and matching in sensor networks
Sheena et al. Multi‐objective metaheuristic optimization‐based clustering with network slicing technique for Internet of Things‐enabled wireless sensor networks in 5G systems
Sheltami et al. A publish/subscribe middleware cost in wireless sensor networks: A review and case study
Paramasivam et al. Cor-ENTC: correlation with ensembled approach for network traffic classification using SDN technology for future networks
Singh et al. A partially observable MDP approach for sequential testing for infectious diseases such as covid-19
Vrbský et al. Clustering techniques for data network planning in Smart Grids
Stai et al. Hyperbolic embedding for efficient computation of path centralities and adaptive routing in large-scale complex commodity networks
CN115629883A (zh) 资源预测方法、装置、计算机设备及存储介质
Frey et al. Efficient information flow maximization in probabilistic graphs
Mochinski et al. Developing an Intelligent Decision Support System for large-scale smart grid communication network planning
Urwan et al. Position estimation in mixed indoor-outdoor environment using signals of opportunity and deep learning approach
Zhu et al. Segmenting a sensor field: Algorithms and applications in network design
Syarif et al. Performance analysis of evolutionary multi-objective based approach for deployment of wireless sensor network with the presence of fixed obstacles
Nesmachnow et al. Evolutionary algorithms applied to reliable communication network design
Barolli et al. A comparison study of chi-square and uniform distributions of mesh clients for different router replacement methods using wmn-psodga hybrid intelligent simulation system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190903