CN109145160A

CN109145160A - 概率图中选取关键边和优化关键边的方法及存储介质

Info

Publication number: CN109145160A
Application number: CN201710506511.4A
Authority: CN
Inventors: 林欣; 吴永成
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2019-01-04

Abstract

本发明提供一种概率图中选取关键边和优化关键边的方法及存储介质，所述在概率图中选取关键边的方法包括：输入概率图，所述概率图包括多个点、连接点的边及每条边存在的概率值；输入可达性查询，以查询所述多个点中两个点之间的可达性；查找所查询的两个点之间的所有路径；计算初始图质量；筛选所述所有路径中的边，若所计算的初始图质量小于N，则在所述所有路径中筛选出概率值小于N大于0的边，若所计算的初始图质量大于等于N，则在所述所有路径中筛选出概率值小于1大于等于N的边；以及计算并比较所筛选的每条边的边相关因子，并将边相关因子最大的边作为关键边。本发明提供的方法及存储介质能够高效地选取并优化关键边。

Description

概率图中选取关键边和优化关键边的方法及存储介质

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种概率图中选取关键边和优化关键边的方法及存储介质。

背景技术

图数据是一种结点和边在不同场合(应用)下被赋以特殊意义的数据形式。例如，社交网络是一种结点代表人物，边表示人物件联系的数据图；蛋白质网络则是酶之间相互作用的关系网络，等等。然而，很多情况下产生的数据并非准确，比如，数据源不可靠、数据内容歧义等。比如，当从学术网站(诸如DBLP，Digital Bibliography&Library Project，以作者为核心的一个计算机类英文文献的集成数据库系统；Google Scholar,谷歌学术搜索等)抓取的合著者关系网中出现不同作者相同作者名时，便会造成混淆；在计算机自动生成的知识图中，由于自然语言处理技术的不完善，实体间的关系就会不确定；在蛋白质间的交互关系知识由统计模型产生。为了捕捉数据中的这些不确定性，无向图模型已被广泛采用，图中边被赋以概率值以表示该边存在的概率。

当需要在这些概率图中执行可达性查询时，现有的算法通常较为复杂，系统计算时间过长，且准确率也有待提高。

发明内容

本发明为了克服上述现有技术存在的缺陷，提供一种概率图中选取关键边和优化关键边的方法及存储介质，以高效地选取并优化关键边。

根据本发明的一个方面，提供一种在概率图中选取关键边的方法，包括如下步骤：输入概率图，所述概率图包括多个点、连接点的边及每条边存在的概率值；输入可达性查询，以查询所述多个点中两个点之间的可达性；查找所查询的两个点之间的所有路径；计算初始图质量；筛选所述所有路径中的边，若所计算的初始图质量小于N，则在所述所有路径中筛选出概率值小于N大于0的边，若所计算的初始图质量大于等于N，则在所述所有路径中筛选出概率值小于1大于等于N的边，其中，N大于0小于1；以及计算并比较所筛选的每条边的边相关因子，并将边相关因子最大的边作为关键边。

可选地，所述计算并比较所筛选出的每条边的边相关因子，并将边相关因子最大的边作为关键边包括：将所筛选的每条边按概率值自上而下升序排列，形成第一列表L1；计算所筛选的每条边的边相关因子，将所筛选的每条边按边相关因子自上而下降序排列，形成第二列表L2；确定所述关键边，其中，自上而下依次选取第一列表L1的一条边和第二列表的L2的一条边，对于每次自所述第一列表L1和所述第二列表的L2选取的两条边，依据该两条边的边相关因子判断继续自所述第一列表L1和所述第二列表的L2选取下两条边或者确定所述关键边。

可选地，确定所述关键边包括：对于每次自所述第一列表L1和所述第二列表的L2选取的两条边，将所选的第二列表L2的一条边的边相关因子与所选的第一列表L1的一条边的概率值相除得到值P1，

当max(P2，P3)≤P1时，继续自所述第一列表L1和所述第二列表的L2选取下两条边，其中，P2和P3分别为计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子；

当max(P2，P3)＞P1时，将计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子较大的边作为所述关键边。

可选地，所述边相关因子依据如下公式计算：

其中，q表示可达性查询，e表示边，P_e表示边的概率值，G表示概率图子图，ε_e表示包含边e的路径集合，表示不包含边e的路径集合，Pr(G)表示图G的形成概率。

可选地，所述查找所查询的两个点之间的所有路径包括：采用深度优先搜索算法查找所查询的两个点之间的所有路径。

可选地，所述计算初始图质量包括：采用香农信息熵计算初始图质量。

可选地，所述查找所查询的两个点之间的所有路径之后且在所述计算初始图质量之前包括：采用蒙特卡洛算法近似计算所述可达性查询的可达性。

可选地，N为0.5。

根据本发明的又一方面，还提供一种优化概率图中关键边的方法，包括：如上所述的方法在概率图中选取关键边；利用众包平台将所述关键边发送至用户以供用户优化所述关键边。

根据本发明的又一方面，还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上所述的方法。

相比现有技术，本发明的优势在于：利用边相关因子库快速准确地选取可达性查询中使查询质量最大化的关键边。本发明还综合了香农信息论、图论关于最小路径算法及深度优先算法、蒙特卡洛算法等进一步加快了可达性查询中关键边的系统处理。此外，用户还可以通过众包平台优化关键边，从而提升概率图的质量。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1示出了根据本发明实施例的在概率图中选取关键边的流程图。

图2示出了根据本发明实施例的计算初始图质量的流程图。

图3示出了根据本发明实施例的确定关键边的流程图。

图4示出了根据本发明实施例的概率图的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员应意识到，没有所述特定细节中的一个或更多，或者采用其它的方法、组元、材料等，也可以实践本发明的技术方案。在其它情况下，不详细示出或描述公知结构、材料或者操作以避免模糊本发明。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

为了解决现有技术的缺陷，本发明提供一种概率图中选取关键边和优化关键边的方法及存储介质，以高效地选取并优化关键边。

本发明提供的在概率图中选取关键边的方法包括如下步骤：输入概率图，所述概率图包括多个点、连接点的边及每条边存在的概率值；输入可达性查询，以查询所述多个点中两个点之间的可达性；查找所查询的两个点之间的所有路径；计算初始图质量；筛选所述所有路径中的边，若所计算的初始图质量小于N，则在所述所有路径中筛选出概率值小于N大于0的边，若所计算的初始图质量大于等于N，则在所述所有路径中筛选出概率值小于1大于等于N的边，其中，N大于0小于1；以及计算并比较所筛选的每条边的边相关因子，并将边相关因子最大的边作为关键边。

下面结合附图说明在概率图中选取关键边的方法。首先参见图1至图3，图1示出了根据本发明实施例的在概率图中选取关键边的流程图。图2示出了根据本发明实施例的计算初始图质量的流程图。图3示出了根据本发明实施例的确定关键边的流程图。

首先步骤S110及S120，输入概率图及可达性查询。该两个步骤可同时或异步进行，本发明不限制该两个步骤的执行顺序。概率图包括多个点、连接点的边及每条边存在的概率值。可达性查询用于查询多个点中两个点之间的可达性。例如，可达性查询可以是点a至点c之间3条边是否可达。

然后执行步骤S130，计算概率图的初始图质量。可选地，可采用香农信息熵作为衡量概率图质量的模型来计算初始图质量。进一步地，计算概率图的初始图质量阶段的多个步骤可以参见图2。首先执行步骤S210(同步骤S110及S120)输入概率图及可达性查询。之后执行步骤S220，查找可达性查询的两个点之间的所有路径。可选地，步骤S220采用深度优先算法来查找该两个点之间的所有路径。

之后执行步骤S230，利用蒙特卡洛算法计算所要查询的可达性。可达性是一个衡量图中两点间连通情况的一个概率值。可达性的大小体现了从一顶点至另一顶点可以到达的概率。可达性用于后续步骤中计算图质量。计算可达性的公式为：

其中，R_q表示所要查询的两个点之间可到达的概率，SG表示满足查询q的可能图，Pr(SG)表示SG形成的概率。

蒙特卡洛算法是一种根据上面公式，对大型数据图近似计算可达性的方法。

最后执行步骤S240，采用香农信息熵计算概率图的初始图质量。

香农信息熵公式：

h(x)＝-xlogx

其中，h(x)表示概率x的信息熵。

初始图质量根据如下公式计算：

Q_q＝-R_qlogR_q-(1-R_q)log(1-R_q)

其中，Q_q为初始图质量，R_q为步骤S230中所计算的图初始可达性。

执行步骤S130后获得S140初始图质量，依据所计算的初始图质量执行步骤S150选出最大边相关因子，并在步骤S160将该最大边相关因子的边作为关键边。

进一步地，步骤S140至步骤S160可作为计算边相关因子的阶段，具体步骤可参见图3，

首先执行步骤S310，输入所计算的初始图质量。之后执行步骤S320，根据所计算的初始图质量筛选路径中的边。具体而言若所计算的初始图质量小于N，则在所述所有路径中筛选出概率值小于N大于0的边；若所计算的初始图质量大于等于N，则在所述所有路径中筛选出概率值小于1大于等于N的边，其中，N大于0小于1。可选地，在一些优选例中，N取值为0.5。之后执行步骤S330和步骤S340，计算并比较所筛选的每条边的边相关因子，并将边相关因子最大的边作为关键边。

具体而言，通过如下方式执行步骤S330和步骤S340：

将所筛选的每条边按概率值自上而下升序排列，形成第一列表L1。

计算所筛选的每条边的边相关因子，将所筛选的每条边按边相关因子自上而下降序排列，形成第二列表L2。

自上而下依次选取第一列表L1的一条边和第二列表的L2的一条边，对于每次自所述第一列表L1和所述第二列表的L2选取的两条边，将所选的第二列表L2的一条边的边相关因子与所选的第一列表L1的一条边的概率值相除得到值P1，

上述各个边相关因子依据如下公式计算：

下面结合图4的概率图描述本发明的一个具体实施例。图4中每个点可看作一个作者，连接各作者的每条边上的数值代表此条边存在的概率，比如边(ua，ub)上的值表示ua和ub之间有过合作关系的概率是0.6。实际的合著作者关系网远比图4所示大得多，此处仅以图4的简单示意图来说明本发明的算法。本领域技术人员可以理解，更多点和边的图也是本发明的处理对象。

当将图4的概率图作为输入后。输入一可达性查询：“ua和uc在3条边之内是否可达？”。在该概率图和可达性查询下，依据两个阶段选取关键边。

首先是计算初始图质量阶段。在该阶段首先利用深度优先搜索搜寻所有从ua到uc在3条边及以内可以达的路径。然后，利用蒙特卡洛算法近似计算ua至uc的可达性，即ua能在3条边及以内到达uc的概率(对应合著的应用场景，其实际的意义在于？作者ua和作者uc通过其他两个作者合著的概率？)。之后，采用香农信息熵作为衡量不确定图质量的模型，计算概率图的初始图质量。

接下来是，选出最大边相关因子的阶段。依据上一阶段计算出的初始图质量，若该初始图质量小于0.5，则在所搜索的路径中筛选出概率值大于0小于0.5的边，计算并比较每条边的边相关因子，最后选出边相关因子最大的边作为关键边；若该初始图质量大于等于0.5，则在所搜索的路径中筛选出概率值大于等于0.5小于1的边，计算并比较每条边的边相关因子，最后选出边相关因子最大的边作为关键边。

依据这两个阶段，可以快速有效地获得概率图针对该可达性查询的关键边。

进一步地，本发明还提供一种优化概率图中关键边的方法。依据上述图1至图3的流程图确定关键边后，可利用众包平台将关键边发送至用户以供用户优化所述关键边。具体而言，考虑到众包的不精确性，即众包的答案可能是错误的，则可在系统设置答案正确率为0.8，然后优化此关键边以提升查询结果的可靠性。对于一个查询，众包可能返回‘true’，亦可能返回‘false’，但是有一定的错误率。假设准确率Pc＝0.8(即错误率为0.2)。假设一条边的存在概率为Pe，对于这条边存在与否的众包查询，众包返回‘true’的概率：

Pr(true)＝Pc*Pe+(1-Pc)(1-Pe)

众包返回‘false’的概率为：1-Pr(true)。

根据众包结果优化关键边。

以上各个实施例的描述仅仅是示意性地，本领域技术人员还可以实现更多的变化例，在不背离本发明构思的前提下，步骤、模块的增加和省略都落入本发明的保护范围之内，在此不予赘述。

相比现有技术，本发明的优势在于：利用边相关因子库快速准确地选取可达性查询中使查询质量最大化的关键边。本发明还综合了香农信息论、图论关于最小路径算法及深度优先算法、蒙特卡洛算法等进一步加快了可达性查询中关键边的系统处理。此外，用户还可以通过众包平台优化关键边降低关键边的不确定度，从而提升概率图的质量和可达性查询的质量。

通过以上的实施方式的描述，本领域的技术人员易于理解，本公开实施例可以通过硬件实现，也可以通过软件结合必要的硬件的方式来实现。因此，本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员可以理解，附图只是示例实施方式的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上具体地示出和描述了本发明的示例性实施方式。应该理解，本发明不限于所公开的实施方式，相反，本发明意图涵盖包含在所附权利要求范围内的各种修改和等效置换。

Claims

1.一种在概率图中选取关键边的方法，其特征在于，包括如下步骤：

输入概率图，所述概率图包括多个点、连接点的边及每条边存在的概率值；

输入可达性查询，以查询所述多个点中两个点之间的可达性；

查找所查询的两个点之间的所有路径；

计算所述概率图的初始图质量；

筛选所述所有路径中的边，若所计算的初始图质量小于N，则在所述所有路径中筛选出概率值小于N大于0的边，若所计算的初始图质量大于等于N，则在所述所有路径中筛选出概率值小于1大于等于N的边，其中，N大于0小于1；以及

计算并比较所筛选的每条边的边相关因子，并将边相关因子最大的边作为关键边。

2.如权利要求1所述的方法，其特征在于，所述计算并比较所筛选出的每条边的边相关因子，并将边相关因子最大的边作为关键边包括：

将所筛选的每条边按概率值自上而下升序排列，形成第一列表L1；

计算所筛选的每条边的边相关因子，将所筛选的每条边按边相关因子自上而下降序排列，形成第二列表L2；

确定所述关键边，其中，自上而下依次选取第一列表L1的一条边和第二列表的L2的一条边，对于每次自所述第一列表L1和所述第二列表的L2选取的两条边，依据该两条边的边相关因子判断继续自所述第一列表L1和所述第二列表的L2选取下两条边或者确定所述关键边。

3.如权利要求2所述的方法，其特征在于，确定所述关键边包括：

对于每次自所述第一列表L1和所述第二列表的L2选取的两条边，将所选的第二列表L2的一条边的边相关因子与所选的第一列表L1的一条边的概率值相除得到值P1，

4.如权利要求1至3任一项所述的方法，其特征在于，所述边相关因子依据如下公式计算：

其中，q表示可达性查询，e表示边，P_e表示边的概率值，G表示概率图子图，ε_e表示包含边e的路径集合，ε_e表示不包含边e的路径集合，Pr(G)表示图G的形成概率。

5.如权利要求1至3任一项所述的方法，其特征在于，所述查找所查询的两个点之间的所有路径包括：

采用深度优先搜索算法查找所查询的两个点之间的所有路径。

6.如权利要求1至3任一项所述的方法，其特征在于，所述计算初始图质量包括：

采用香农信息熵计算初始图质量。

7.如权利要求1至3任一项所述的方法，其特征在于，所述查找所查询的两个点之间的所有路径之后且在所述计算初始图质量之前包括：

采用蒙特卡洛算法近似计算所述可达性查询的可达性。

8.如权利要求1至3任一项所述的方法，其特征在于，N为0.5。

9.一种优化概率图中关键边的方法，其特征在于，包括：

如权利要求1至8任一项所述的方法在概率图中选取关键边；

利用众包平台将所述关键边发送至用户以供用户优化所述关键边。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一项所述的方法。