CN109145160A - 概率图中选取关键边和优化关键边的方法及存储介质 - Google Patents

概率图中选取关键边和优化关键边的方法及存储介质 Download PDF

Info

Publication number
CN109145160A
CN109145160A CN201710506511.4A CN201710506511A CN109145160A CN 109145160 A CN109145160 A CN 109145160A CN 201710506511 A CN201710506511 A CN 201710506511A CN 109145160 A CN109145160 A CN 109145160A
Authority
CN
China
Prior art keywords
list
probability
paths
key side
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710506511.4A
Other languages
English (en)
Inventor
林欣
吴永成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201710506511.4A priority Critical patent/CN109145160A/zh
Publication of CN109145160A publication Critical patent/CN109145160A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种概率图中选取关键边和优化关键边的方法及存储介质,所述在概率图中选取关键边的方法包括:输入概率图,所述概率图包括多个点、连接点的边及每条边存在的概率值;输入可达性查询,以查询所述多个点中两个点之间的可达性;查找所查询的两个点之间的所有路径;计算初始图质量;筛选所述所有路径中的边,若所计算的初始图质量小于N,则在所述所有路径中筛选出概率值小于N大于0的边,若所计算的初始图质量大于等于N,则在所述所有路径中筛选出概率值小于1大于等于N的边;以及计算并比较所筛选的每条边的边相关因子,并将边相关因子最大的边作为关键边。本发明提供的方法及存储介质能够高效地选取并优化关键边。

Description

概率图中选取关键边和优化关键边的方法及存储介质
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种概率图中选取关键边和优化关键边的方法及存储介质。
背景技术
图数据是一种结点和边在不同场合(应用)下被赋以特殊意义的数据形式。例如,社交网络是一种结点代表人物,边表示人物件联系的数据图;蛋白质网络则是酶之间相互作用的关系网络,等等。然而,很多情况下产生的数据并非准确,比如,数据源不可靠、数据内容歧义等。比如,当从学术网站(诸如DBLP,Digital Bibliography&Library Project,以作者为核心的一个计算机类英文文献的集成数据库系统;Google Scholar,谷歌学术搜索等)抓取的合著者关系网中出现不同作者相同作者名时,便会造成混淆;在计算机自动生成的知识图中,由于自然语言处理技术的不完善,实体间的关系就会不确定;在蛋白质间的交互关系知识由统计模型产生。为了捕捉数据中的这些不确定性,无向图模型已被广泛采用,图中边被赋以概率值以表示该边存在的概率。
当需要在这些概率图中执行可达性查询时,现有的算法通常较为复杂,系统计算时间过长,且准确率也有待提高。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种概率图中选取关键边和优化关键边的方法及存储介质,以高效地选取并优化关键边。
根据本发明的一个方面,提供一种在概率图中选取关键边的方法,包括如下步骤:输入概率图,所述概率图包括多个点、连接点的边及每条边存在的概率值;输入可达性查询,以查询所述多个点中两个点之间的可达性;查找所查询的两个点之间的所有路径;计算初始图质量;筛选所述所有路径中的边,若所计算的初始图质量小于N,则在所述所有路径中筛选出概率值小于N大于0的边,若所计算的初始图质量大于等于N,则在所述所有路径中筛选出概率值小于1大于等于N的边,其中,N大于0小于1;以及计算并比较所筛选的每条边的边相关因子,并将边相关因子最大的边作为关键边。
可选地,所述计算并比较所筛选出的每条边的边相关因子,并将边相关因子最大的边作为关键边包括:将所筛选的每条边按概率值自上而下升序排列,形成第一列表L1;计算所筛选的每条边的边相关因子,将所筛选的每条边按边相关因子自上而下降序排列,形成第二列表L2;确定所述关键边,其中,自上而下依次选取第一列表L1的一条边和第二列表的L2的一条边,对于每次自所述第一列表L1和所述第二列表的L2选取的两条边,依据该两条边的边相关因子判断继续自所述第一列表L1和所述第二列表的L2选取下两条边或者确定所述关键边。
可选地,确定所述关键边包括:对于每次自所述第一列表L1和所述第二列表的L2选取的两条边,将所选的第二列表L2的一条边的边相关因子与所选的第一列表L1的一条边的概率值相除得到值P1,
当max(P2,P3)≤P1时,继续自所述第一列表L1和所述第二列表的L2选取下两条边,其中,P2和P3分别为计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子;
当max(P2,P3)>P1时,将计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子较大的边作为所述关键边。
可选地,所述边相关因子依据如下公式计算:
其中,q表示可达性查询,e表示边,Pe表示边的概率值,G表示概率图子图,εe表示包含边e的路径集合,表示不包含边e的路径集合,Pr(G)表示图G的形成概率。
可选地,所述查找所查询的两个点之间的所有路径包括:采用深度优先搜索算法查找所查询的两个点之间的所有路径。
可选地,所述计算初始图质量包括:采用香农信息熵计算初始图质量。
可选地,所述查找所查询的两个点之间的所有路径之后且在所述计算初始图质量之前包括:采用蒙特卡洛算法近似计算所述可达性查询的可达性。
可选地,N为0.5。
根据本发明的又一方面,还提供一种优化概率图中关键边的方法,包括:如上所述的方法在概率图中选取关键边;利用众包平台将所述关键边发送至用户以供用户优化所述关键边。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的方法。
相比现有技术,本发明的优势在于:利用边相关因子库快速准确地选取可达性查询中使查询质量最大化的关键边。本发明还综合了香农信息论、图论关于最小路径算法及深度优先算法、蒙特卡洛算法等进一步加快了可达性查询中关键边的系统处理。此外,用户还可以通过众包平台优化关键边,从而提升概率图的质量。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的在概率图中选取关键边的流程图。
图2示出了根据本发明实施例的计算初始图质量的流程图。
图3示出了根据本发明实施例的确定关键边的流程图。
图4示出了根据本发明实施例的概率图的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员应意识到,没有所述特定细节中的一个或更多,或者采用其它的方法、组元、材料等,也可以实践本发明的技术方案。在其它情况下,不详细示出或描述公知结构、材料或者操作以避免模糊本发明。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
为了解决现有技术的缺陷,本发明提供一种概率图中选取关键边和优化关键边的方法及存储介质,以高效地选取并优化关键边。
本发明提供的在概率图中选取关键边的方法包括如下步骤:输入概率图,所述概率图包括多个点、连接点的边及每条边存在的概率值;输入可达性查询,以查询所述多个点中两个点之间的可达性;查找所查询的两个点之间的所有路径;计算初始图质量;筛选所述所有路径中的边,若所计算的初始图质量小于N,则在所述所有路径中筛选出概率值小于N大于0的边,若所计算的初始图质量大于等于N,则在所述所有路径中筛选出概率值小于1大于等于N的边,其中,N大于0小于1;以及计算并比较所筛选的每条边的边相关因子,并将边相关因子最大的边作为关键边。
下面结合附图说明在概率图中选取关键边的方法。首先参见图1至图3,图1示出了根据本发明实施例的在概率图中选取关键边的流程图。图2示出了根据本发明实施例的计算初始图质量的流程图。图3示出了根据本发明实施例的确定关键边的流程图。
首先步骤S110及S120,输入概率图及可达性查询。该两个步骤可同时或异步进行,本发明不限制该两个步骤的执行顺序。概率图包括多个点、连接点的边及每条边存在的概率值。可达性查询用于查询多个点中两个点之间的可达性。例如,可达性查询可以是点a至点c之间3条边是否可达。
然后执行步骤S130,计算概率图的初始图质量。可选地,可采用香农信息熵作为衡量概率图质量的模型来计算初始图质量。进一步地,计算概率图的初始图质量阶段的多个步骤可以参见图2。首先执行步骤S210(同步骤S110及S120)输入概率图及可达性查询。之后执行步骤S220,查找可达性查询的两个点之间的所有路径。可选地,步骤S220采用深度优先算法来查找该两个点之间的所有路径。
之后执行步骤S230,利用蒙特卡洛算法计算所要查询的可达性。可达性是一个衡量图中两点间连通情况的一个概率值。可达性的大小体现了从一顶点至另一顶点可以到达的概率。可达性用于后续步骤中计算图质量。计算可达性的公式为:
其中,Rq表示所要查询的两个点之间可到达的概率,SG表示满足查询q的可能图,Pr(SG)表示SG形成的概率。
蒙特卡洛算法是一种根据上面公式,对大型数据图近似计算可达性的方法。
最后执行步骤S240,采用香农信息熵计算概率图的初始图质量。
香农信息熵公式:
h(x)=-xlogx
其中,h(x)表示概率x的信息熵。
初始图质量根据如下公式计算:
Qq=-RqlogRq-(1-Rq)log(1-Rq)
其中,Qq为初始图质量,Rq为步骤S230中所计算的图初始可达性。
执行步骤S130后获得S140初始图质量,依据所计算的初始图质量执行步骤S150选出最大边相关因子,并在步骤S160将该最大边相关因子的边作为关键边。
进一步地,步骤S140至步骤S160可作为计算边相关因子的阶段,具体步骤可参见图3,
首先执行步骤S310,输入所计算的初始图质量。之后执行步骤S320,根据所计算的初始图质量筛选路径中的边。具体而言若所计算的初始图质量小于N,则在所述所有路径中筛选出概率值小于N大于0的边;若所计算的初始图质量大于等于N,则在所述所有路径中筛选出概率值小于1大于等于N的边,其中,N大于0小于1。可选地,在一些优选例中,N取值为0.5。之后执行步骤S330和步骤S340,计算并比较所筛选的每条边的边相关因子,并将边相关因子最大的边作为关键边。
具体而言,通过如下方式执行步骤S330和步骤S340:
将所筛选的每条边按概率值自上而下升序排列,形成第一列表L1。
计算所筛选的每条边的边相关因子,将所筛选的每条边按边相关因子自上而下降序排列,形成第二列表L2。
自上而下依次选取第一列表L1的一条边和第二列表的L2的一条边,对于每次自所述第一列表L1和所述第二列表的L2选取的两条边,将所选的第二列表L2的一条边的边相关因子与所选的第一列表L1的一条边的概率值相除得到值P1,
当max(P2,P3)≤P1时,继续自所述第一列表L1和所述第二列表的L2选取下两条边,其中,P2和P3分别为计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子;
当max(P2,P3)>P1时,将计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子较大的边作为所述关键边。
上述各个边相关因子依据如下公式计算:
其中,q表示可达性查询,e表示边,Pe表示边的概率值,G表示概率图子图,εe表示包含边e的路径集合,表示不包含边e的路径集合,Pr(G)表示图G的形成概率。
下面结合图4的概率图描述本发明的一个具体实施例。图4中每个点可看作一个作者,连接各作者的每条边上的数值代表此条边存在的概率,比如边(ua,ub)上的值表示ua和ub之间有过合作关系的概率是0.6。实际的合著作者关系网远比图4所示大得多,此处仅以图4的简单示意图来说明本发明的算法。本领域技术人员可以理解,更多点和边的图也是本发明的处理对象。
当将图4的概率图作为输入后。输入一可达性查询:“ua和uc在3条边之内是否可达?”。在该概率图和可达性查询下,依据两个阶段选取关键边。
首先是计算初始图质量阶段。在该阶段首先利用深度优先搜索搜寻所有从ua到uc在3条边及以内可以达的路径。然后,利用蒙特卡洛算法近似计算ua至uc的可达性,即ua能在3条边及以内到达uc的概率(对应合著的应用场景,其实际的意义在于?作者ua和作者uc通过其他两个作者合著的概率?)。之后,采用香农信息熵作为衡量不确定图质量的模型,计算概率图的初始图质量。
接下来是,选出最大边相关因子的阶段。依据上一阶段计算出的初始图质量,若该初始图质量小于0.5,则在所搜索的路径中筛选出概率值大于0小于0.5的边,计算并比较每条边的边相关因子,最后选出边相关因子最大的边作为关键边;若该初始图质量大于等于0.5,则在所搜索的路径中筛选出概率值大于等于0.5小于1的边,计算并比较每条边的边相关因子,最后选出边相关因子最大的边作为关键边。
依据这两个阶段,可以快速有效地获得概率图针对该可达性查询的关键边。
进一步地,本发明还提供一种优化概率图中关键边的方法。依据上述图1至图3的流程图确定关键边后,可利用众包平台将关键边发送至用户以供用户优化所述关键边。具体而言,考虑到众包的不精确性,即众包的答案可能是错误的,则可在系统设置答案正确率为0.8,然后优化此关键边以提升查询结果的可靠性。对于一个查询,众包可能返回‘true’,亦可能返回‘false’,但是有一定的错误率。假设准确率Pc=0.8(即错误率为0.2)。假设一条边的存在概率为Pe,对于这条边存在与否的众包查询,众包返回‘true’的概率:
Pr(true)=Pc*Pe+(1-Pc)(1-Pe)
众包返回‘false’的概率为:1-Pr(true)。
根据众包结果优化关键边。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的方法。
以上各个实施例的描述仅仅是示意性地,本领域技术人员还可以实现更多的变化例,在不背离本发明构思的前提下,步骤、模块的增加和省略都落入本发明的保护范围之内,在此不予赘述。
相比现有技术,本发明的优势在于:利用边相关因子库快速准确地选取可达性查询中使查询质量最大化的关键边。本发明还综合了香农信息论、图论关于最小路径算法及深度优先算法、蒙特卡洛算法等进一步加快了可达性查询中关键边的系统处理。此外,用户还可以通过众包平台优化关键边降低关键边的不确定度,从而提升概率图的质量和可达性查询的质量。
通过以上的实施方式的描述,本领域的技术人员易于理解,本公开实施例可以通过硬件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员可以理解,附图只是示例实施方式的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
以上具体地示出和描述了本发明的示例性实施方式。应该理解,本发明不限于所公开的实施方式,相反,本发明意图涵盖包含在所附权利要求范围内的各种修改和等效置换。

Claims (10)

1.一种在概率图中选取关键边的方法,其特征在于,包括如下步骤:
输入概率图,所述概率图包括多个点、连接点的边及每条边存在的概率值;
输入可达性查询,以查询所述多个点中两个点之间的可达性;
查找所查询的两个点之间的所有路径;
计算所述概率图的初始图质量;
筛选所述所有路径中的边,若所计算的初始图质量小于N,则在所述所有路径中筛选出概率值小于N大于0的边,若所计算的初始图质量大于等于N,则在所述所有路径中筛选出概率值小于1大于等于N的边,其中,N大于0小于1;以及
计算并比较所筛选的每条边的边相关因子,并将边相关因子最大的边作为关键边。
2.如权利要求1所述的方法,其特征在于,所述计算并比较所筛选出的每条边的边相关因子,并将边相关因子最大的边作为关键边包括:
将所筛选的每条边按概率值自上而下升序排列,形成第一列表L1;
计算所筛选的每条边的边相关因子,将所筛选的每条边按边相关因子自上而下降序排列,形成第二列表L2;
确定所述关键边,其中,自上而下依次选取第一列表L1的一条边和第二列表的L2的一条边,对于每次自所述第一列表L1和所述第二列表的L2选取的两条边,依据该两条边的边相关因子判断继续自所述第一列表L1和所述第二列表的L2选取下两条边或者确定所述关键边。
3.如权利要求2所述的方法,其特征在于,确定所述关键边包括:
对于每次自所述第一列表L1和所述第二列表的L2选取的两条边,将所选的第二列表L2的一条边的边相关因子与所选的第一列表L1的一条边的概率值相除得到值P1,
当max(P2,P3)≤P1时,继续自所述第一列表L1和所述第二列表的L2选取下两条边,其中,P2和P3分别为计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子;
当max(P2,P3)>P1时,将计算P1时自所述第一列表L1和所述第二列表的L2选取的两条边的边相关因子较大的边作为所述关键边。
4.如权利要求1至3任一项所述的方法,其特征在于,所述边相关因子依据如下公式计算:
其中,q表示可达性查询,e表示边,Pe表示边的概率值,G表示概率图子图,εe表示包含边e的路径集合,εe表示不包含边e的路径集合,Pr(G)表示图G的形成概率。
5.如权利要求1至3任一项所述的方法,其特征在于,所述查找所查询的两个点之间的所有路径包括:
采用深度优先搜索算法查找所查询的两个点之间的所有路径。
6.如权利要求1至3任一项所述的方法,其特征在于,所述计算初始图质量包括:
采用香农信息熵计算初始图质量。
7.如权利要求1至3任一项所述的方法,其特征在于,所述查找所查询的两个点之间的所有路径之后且在所述计算初始图质量之前包括:
采用蒙特卡洛算法近似计算所述可达性查询的可达性。
8.如权利要求1至3任一项所述的方法,其特征在于,N为0.5。
9.一种优化概率图中关键边的方法,其特征在于,包括:
如权利要求1至8任一项所述的方法在概率图中选取关键边;
利用众包平台将所述关键边发送至用户以供用户优化所述关键边。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至8任一项所述的方法。
CN201710506511.4A 2017-06-28 2017-06-28 概率图中选取关键边和优化关键边的方法及存储介质 Pending CN109145160A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710506511.4A CN109145160A (zh) 2017-06-28 2017-06-28 概率图中选取关键边和优化关键边的方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710506511.4A CN109145160A (zh) 2017-06-28 2017-06-28 概率图中选取关键边和优化关键边的方法及存储介质

Publications (1)

Publication Number Publication Date
CN109145160A true CN109145160A (zh) 2019-01-04

Family

ID=64805526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710506511.4A Pending CN109145160A (zh) 2017-06-28 2017-06-28 概率图中选取关键边和优化关键边的方法及存储介质

Country Status (1)

Country Link
CN (1) CN109145160A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110146102A (zh) * 2019-06-04 2019-08-20 南方科技大学 路径规划方法、装置、设备和存储介质
CN111198933A (zh) * 2020-01-03 2020-05-26 北京明略软件系统有限公司 搜索目标实体的方法、装置、电子装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110146102A (zh) * 2019-06-04 2019-08-20 南方科技大学 路径规划方法、装置、设备和存储介质
CN111198933A (zh) * 2020-01-03 2020-05-26 北京明略软件系统有限公司 搜索目标实体的方法、装置、电子装置及存储介质

Similar Documents

Publication Publication Date Title
CN104462084B (zh) 基于多个查询提供搜索细化建议
US20100161532A1 (en) Determination of graph connectivity metrics using bit-vectors
CN110059264B (zh) 基于知识图谱的地点检索方法、设备及计算机存储介质
JP6608972B2 (ja) ソーシャルネットワークに基づいてグループを探索する方法、デバイス、サーバ及び記憶媒体
CN109948122B (zh) 输入文本的纠错方法、装置及电子设备
CN103761276A (zh) 一种树形结构数据比较的展示方法和装置
CN105956148A (zh) 资源信息的推荐方法和装置
JP2022073981A (ja) ソースコード取得
CN105488068A (zh) 搜索音乐和建立索引的方法及装置、搜索结果判断方法
CN111651641B (zh) 一种图查询方法、装置及存储介质
CN108228657B (zh) 一种关键字检索的实现方法及装置
CN104199969A (zh) 网页数据分析方法及装置
CN104933171B (zh) 兴趣点数据关联方法和装置
CN109145160A (zh) 概率图中选取关键边和优化关键边的方法及存储介质
CN112465637A (zh) 反洗钱智能自动导侦的方法、计算机可读存储介质
US20100005203A1 (en) Method of Merging and Incremantal Construction of Minimal Finite State Machines
CN114861593A (zh) 基于电路拓扑检查原理图网络的方法、装置、设备、介质
CN110737779A (zh) 知识图谱的构建方法、装置、存储介质和电子设备
Wang et al. Using DTW to measure trajectory distance in grid space
CN116881515B (zh) 对不同算法求解的电容结果进行比较的方法及电子设备
CN109471953A (zh) 一种语音数据检索方法及终端设备
CN103530345A (zh) 短文本特征扩展及拟合特征库构建方法、装置
JP2018077762A (ja) 画面認識装置、画面認識方法、および、画面認識プログラム
CN106649315A (zh) 处理路径导航的方法和装置
CN112988986A (zh) 人机交互方法、装置与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication