CN111198905B - 用于理解二分网络中的缺失链路的视觉分析框架 - Google Patents

用于理解二分网络中的缺失链路的视觉分析框架 Download PDF

Info

Publication number
CN111198905B
CN111198905B CN201911126664.1A CN201911126664A CN111198905B CN 111198905 B CN111198905 B CN 111198905B CN 201911126664 A CN201911126664 A CN 201911126664A CN 111198905 B CN111198905 B CN 111198905B
Authority
CN
China
Prior art keywords
missing
links
network
link
tuples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911126664.1A
Other languages
English (en)
Other versions
CN111198905A (zh
Inventor
赵健
弗朗辛·陈
P·邱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Publication of CN111198905A publication Critical patent/CN111198905A/zh
Application granted granted Critical
Publication of CN111198905B publication Critical patent/CN111198905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Fuzzy Systems (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于理解二分网络中的缺失链路的视觉分析框架。本文所述的示例实现方式涉及一种界面,其用于针对被表示为二分网络的数据计算缺失链路并显示缺失链路,以及用于改进现有技术中的链路预测算法的新颖方法。通过本文所述的示例实现方式,可以提高链路预测算法的准确度,从而向用户提供对二分网络中的数据的更准确理解。

Description

用于理解二分网络中的缺失链路的视觉分析框架
技术领域
本公开总体上涉及数据分析,更具体地,用于确定和可视化二分网络中的缺失链路。
背景技术
许多现实世界的复杂系统都可以建模为二分网络(双模网络),其中在网络中存在两种类型的节点并且链路仅存在于不同节点类型之间。二分关系的分析已经被用于各种应用领域中的数据分析,诸如利用基于点名表决记录的选民投票网络研究政治倾向以及研究生物信息学中的基因表达网络等。
针对这种网络的一个分析问题是链路预测(例如,检测缺失链路),该链路预测基于当前观察到的链路来推断节点之间有新的关系存在。这样的链路生成是有价值的,因为现实世界的数据可能是有噪声的或不完整的。但在通常情况下,链路预测算法的输出只是包含所有预测的缺失链路的得分或概率的列表,这很难加以解释而且这些结果可能是不准确的。
发明内容
在实践中,分析人员需要应用他们的领域知识来检查算法输出。为了解决现有技术的问题,在本公开中提出了用于检测和检查二分网络中的缺失链路的通用视觉分析框架。首先,该框架为二分网络提供了一种新颖的链路预测方法,这是一种利用网络中的二元组(biclique)的信息的集成(ensemble)方法。其次,通过基于度量(例如,计算节点中间性(betweenness))和基于模体(motif)(例如,检测分团(clique))的两种最常见的网络分析方法,利用交互式可视化来呈现检测到的缺失链路,并使得能够更好地理解缺失链路的含义和影响。
此外,现有技术系统没有解决检测和可视化缺失链路的问题。更具体地说,在示例实现方式中,采用了基于矩阵的设计,这是因为链路是我们框架中的焦点,并且需要在视觉上加以强调。
此外,用于网络的通用链路预测算法被大致分成了两大类别:基于学习的和基于相似度的。基于学习的方法将链路预测视为二元分类问题,并训练机器学习模型以预测每个未连接的节点对的类别标签(即,潜在链接为肯定的)。一种现有技术方法是基于特征的分类,该方法基于节点属性、拓扑结构、社会理论或它们的组合来提取特征。另一种方法是基于包括关系模型、实体关系模型等等的概率图模型。这些技术尽管有效但通用性较差,除了观察到的网络结构之外,它们通常还需要一些额外的信息(例如,语义节点属性)。然而,训练过的机器学习模型可能仅在具有特定特征的网络上表现良好(这取决于训练集)。
另一方面,基于相似度的方法尝试基于每个未连接的节点对来计算相似度得分,并对所有这些潜在链路进行排序。计算相似度度量的方法包括基于随机游走的模拟,以及基于近邻的量度(measure),诸如共同近邻、jaccard系数、adamic-adar系数以及优先连接。研究人员将相似度度量中的一些扩展至二分网络情况。示例实现方式通过将重要类型的结构信息集成到二分网络、二元组中以提高预测的性能,来提出一系列集成方法,从而往前再进了一步。
本公开的各方面包括一种方法,该方法可以包括对于被表示为二分网络的数据以及对于所述二分网络中的缺失链路的集合执行的以下步骤:基于所述二分网络中的二元组,计算所述集合中的所述缺失链路中的每一个的权重;执行链路预测算法,该链路预测算法被配置为合并所述缺失链路中的每一个的所述权重;以及提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的预测的缺失链路。
本公开的各方面还可以包括一种存储用于执行处理的指令的非暂时性计算机可读介质,所述指令包括:对于被表示为二分网络的数据以及对于所述二分网络中的缺失链路的集合:基于所述二分网络中的二元组,计算所述集合中的所述缺失链路中的每一个的权重;执行链路预测算法,该链路预测算法被配置为合并所述缺失链路中的每一个的所述权重;以及提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的预测的缺失链路。
本公开的各方面包括一种系统,该系统可以包括对于被表示为二分网络的数据以及对于所述二分网络中的缺失链路的集合,用于基于所述二分网络中的二元组来计算所述集合中的所述缺失链路中的每一个的权重的装置;用于执行被配置为合并所述缺失链路中的每一个的所述权重的链路预测算法的装置;以及用于提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的预测的缺失链路的装置。
本公开的各方面包括一种设备,该设备可以包括处理器,该处理器被配置为:对于被表示为二分网络的数据以及对于所述二分网络中的缺失链路的集合,基于所述二分网络中的二元组,计算所述集合中的所述缺失链路中的每一个的权重;执行被配置为合并所述缺失链路中的每一个的所述权重的链路预测算法;以及提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的预测的缺失链路。
附图说明
图1例示了根据一种示例实现方式的示例系统图。
图2例示了根据一种示例实现方式的二元组。
图3例示了根据一种示例实现方式的用于促进对缺失链路的视觉探索的示例界面。
图4(a)和图4(b)例示了根据一种示例实现方式的示例流程图。
图5以数字例示了每种条件下实验结果的平均性能。
图6例示了具有适用于示例实现方式的示例计算机装置的示例计算环境。
具体实施方式
下面的详细描述提供了本申请的附图和示例实现方式的进一步的细节。为清楚起见,省略了附图标号以及附图之间的冗余部件的描述。贯穿本说明书使用的术语只是作为示例提供的,而并非旨在进行限制。例如,根据具体实践本申请的实现方式的本领域普通技术人员的期望实现方式,术语“自动”的使用可能涉及全自动实现方式或者涉及用户或管理员对该实现的某些方面进行控制的半自动实现方式。选择可以由用户通过用户接口或其它输入装置来进行,或者可以通过期望的算法来实现。可以单独地或者组合地利用本文所述的示例实现方式,并且可以根据期望的实现方式通过任何手段来实现示例实现方式的功能。
如在此阐述的,术语“未连接的节点对”被定义为原始网络中未连接的节点。术语“缺失链路的集合”被定义为在未连接的节点之间存在的潜在链路。术语“预测的缺失链路”被定义为具有由本文所述的示例实现方式的算法生成的概率的缺失链路。
图1例示了根据示例实现方式的示例系统图。在本文所述的示例实现方式中,通过包括分析模块和可视化模块的框架来处理数据100。分析模块支持二分网络中的缺失链路预测101以及用于观察网络的两种最常见方式:包括节点度量103和子网模体102。本文所述的链路预测方法利用网络中的二元组的结构信息,该方法可以与任何现有技术的基于相似度的链路预测算法进行集成。可视化模块显示分析模块的所有输出,并使分析人员能够通过丰富的用户交互来探索数据。分析人员可以可视地调查所标识的缺失链路104、网络模体105以及节点度量106,并且通过比较关于原始网络的分析结果和添加了这些链路的网络的分析结果,来进一步检查特定链路的影响。
从形式上看,二分网络可以被定义为G=<X,Y,E>,其中,X和Y是两个不交叠的节点集合,而E是仅存在于X和Y之间的链路的集合,即,e=<x,y>∈E,其中,x∈X并且y∈Y。对于二分网络,所有可能链路的数量为|X|·|Y|,我们将这些链路指示为U。因此,链路预测问题是识别集合U-E中可能缺失哪些链路。
使用链路预测算法(特别是基于相似度的方法)首先计算每个未连接的节点对的相似度。基于相似度值,所述方法可以生成推荐的具有降低得分的缺失链路的排序列表。一种计算各节点对之间的相似度的方法是经由随机游走。测量相似度的另一种方法是基于两个节点的邻域(包括普通近邻、jaccard系数、adamic-adar系数以及优先连接)的比较。
基于上面的算法,本文所述的示例实现方式提供了一种新颖的方法,该方法在二分网络中集成了一种重要类型的结构,二元组(即,完全二分图)。从形式上看,将二元组定义为子网络,G′=<X′,Y′,E′>,其中,并且/>并且各个节点对之间都存在链路e=<x,y>∈E′,x∈X并且y∈Y。已经提出了许多算法来有效地检测网络中的所有二元组,并且在本文所述的示例实现方式中,测试了最大二元组枚举算法(MBEA)算法。
图2例示了根据示例实现方式的二元组。将两个二元组视为共同具有一些节点的两个团体;来自两个团体的非交叠节点之间的每个缺失链路都有助于形成使所有节点受益的更大团体。如果两个团体共同具有许多节点,则可以添加的几个缺失链路中的每个缺失链路都携带有更多的值,这是因为可以相当容易地形成更大的二元组。另一方面,如果两个团体的共同节点较少,则可能需要添加更多链路以将两个二元组合并成更大的二元组,并且缺失链路中的每一个携带更少的值。
遵循这种直觉,示例实现方式涉及一种对由上面基于相似度的方法生成的缺失链路列表进行重新排序的算法。在示例实现方式中,所提出的算法基于网络中的二元组的信息来计算所有缺失链路(图2的M4中)的权重we。链路的权重是在处理每对二元组时计算出的所有值的总和,其中,所述值是根据两个二元组的差异的大小以及它们的交叠来确定的。直观地,如图2所示,在每次迭代中计算出的值对应于相交的面积M1除以缺失部分的面积M4。然后,将权重和相似度得分用它们的最大值进行归一化,并且利用s′(x,y)=w(x,y)·x(x,y)生成具有新的得分的新排序列表。可以将上面的方法与任何现有通用的基于相似度的链路预测一起使用,以生成一系列算法。
然而,算法不是完美的;缺失链路预测可能是错误的。那是因为现实世界要复杂得多,而且在算法设计中很难考虑所有领域的每个细微差别。需要分析人员的先验知识,才能进一步检查算法的输出,该算法结合了人员的灵活性和机器的可量测性。
示例实现方式包括可视界面,以帮助分析人员更好地理解在二分网络中由前述方法所标识的缺失链路。该可视化模块涉及五个交互式协调的视图(如图3所示):用于支持探索缺失链路的网络视图和链路列表视图、用于提供模体分析的模体概述和细节视图、以及用于显示基于节点的度量的度量视图。这些视图以可视形式呈现了分析模块的输出,以使分析人员能够有效地回答有关缺失链路的问题内容、原因以及如何形成。
图3例示了根据示例实现方式的用于促进对缺失链路的视觉探索的示例界面。在图3的示例界面中,存在数个视图。首先,如界面窗格(a)所示的网络视图300显示二分网络的双邻接矩阵,其中行和列分别表示两种不同类型的节点。链路可以表示为行和列的交叉处的正方形。网络中的现有链路可以以第一色标(例如,黄绿色)示出,其中,色调反映链路的权重。如果是非加权网络,则所有链路均以最暗的色调显示(例如,绿色)。预测的缺失链路以第二色标(例如,白紫色)显示,其中,较深的颜色反映了链路预测算法所确定的较高的概率或得分。
此外,如界面窗格(b)所示的链路列表视图301被配置为按概率或得分线性地呈现缺失链路,其中,每个链路是以与网络视图300中的方式相似的方式来可视化的。提供了诸如链路的排序和连接节点的附加信息。该链路列表视图301与网络视图300被一起使用,使得分析人员能够从不同的角度更好地理解缺失链路预测。
在示例实现方式中,提供了各种界面功能。在网络视图300中,分析人员可以利用特定标准(诸如节点标签、平均预测得分以及检测到的缺失链路的总数)来将矩阵的行和列重新排序。分析人员还可以基于预测得分对矩阵进行过滤,例如,以显露算法所建议的最可能的缺失链路。此外,可以在可视化中应用和查看不同的链路预测算法,从而容易比较结果。
而且,分析人员可以探索链路预测结果并添加某些缺失链路,以利用下文中描述的模体和度量的视觉分析来检查所添加的这些缺失链路的影响。添加的链路在矩阵上被标记(例如,黑色十字),并且还显示在列表顶部。可以通过从矩阵中选择单个链路或一组链路来将它们一次性添加。
模体分析(Motif analysis)是理解网络的拓扑的一种主要方法。在二分网络中,二元组是最重要的结构模式之一。在界面窗格(c)中,有细节视图302,并且在界面窗格(d)中提供了概述303以用于按不同比例浏览模体。这两个视图提供了对网络中检测到的所有二元组的视觉探索,并且如果添加了某些缺失链路,则对结果的变化进行调查。在模体细节视图302中,以与网络视图300类似的视觉编码将二元组示出为矩阵的较小倍数。本质上,二元组是整个网络的双邻接矩阵的一部分。另外,模体概述303基于多维缩放(MDS)投影将所有二元组显示为二维空间中的点。两个二元组之间的距离是利用这两个二元组的每种类型的节点集之间的Jaccard距离之和来测量的。
为了支持分析人员对在添加了链路的网络和未添加链路的网络中检测到的两个二元组集合进行比较,模体细节视图302将所述二元组组织为三个列:去除的二元组、最新添加的二元组以及无变化的二元组,来与原始网络的二元组集合相比较;它们处于以不同的颜色(例如,红色、绿色以及灰色)表示的边界内。在每一列中,二元组的默认次序是按大小排序,该次序可以更改成其它排序标准。类似地,模体概述303以三种不同的颜色对这些二元组编码。
此外,可以使用Jaccard距离来计算添加的二元组与去除的二元组之间的相似度,以便于更好地理解结构变化以及缺失链路的影响。在模体细节视图302中,当分析人员将鼠标悬停(hover)在二元组上时,该信息被示出为连接相关二元组的链路,并且将链路的粗细映射到这些成对链路的相似度值。
计算节点度量是一种用于得到社会科学和其它领域的网络特征的图片的方法。界面窗格(e)中的度量视图304通过在传统的表格视图中呈现许多度量来支持这种分析,该表格视图包括有添加某些缺失链路之前和之后的程度、亲密度以及中间中心性。度量值的变化会突出显示(例如,用红色显示)。该表还与其它视图交互地链接。例如,将鼠标悬停在行上会着重强调网络视图301中的对应节点。由于可能会有大量的节点(行),因此还可以提供搜索功能,并且将鼠标悬停在其它视图中的节点上会自动导航至表中的对应行。
为了证实所提出的缺失链路预测方法的准确度,利用三个二分网络进行了定量实验,所述三个二分网络包括从大西洋风暴语料库中提取的加权人地网络、从Slack通信消息中检测到的加权用户对话二分网络以及在来自IEEE VIS出版语料库的作者与论文之间的未加权二分网络。
由于缺失链路没有真实情况可讲,因此测试会从原始网络中随机去除一定数量的链路,在该新的网络上应用链路预测算法,并且通过将检测到的缺失链路与去除(实际上缺失)的链路(即,真实情况)进行比较来测量性能。为了证实该集成方法,将五个现有的链路预测算法集成到该方法中,其包括普通近邻、jaccard系数、adamic-adar系数、优先连接以及随机游走方法。对于每种算法,为了在不同情形下测试该算法性能,测试会从输入网络中随机去除1%、2%、5%、10%以及15%的链路。对于这些条件中的每个条件,在随机链路去除五次的情况下执行实验,以便降低采样偏差。
图4(a)例示了根据示例实现方式的用于提出的算法的示例流程。
在400处,该流程检测二分网络G=<X,Y,E>内的二元组并将这些二元组合并到列表L={Ci=<Xi,Yi,Ei>}中,并且X和Y皆是二分网络中的相应网络内的节点的集合,并且E表示二分网络中存在的链路。根据期望的实现方式,可以通过任何方法来检测二元组。
在401处,该流程将所有缺失链路的权重初始化,其中,U是二分网络中可能存在的所有可能链路的集合。在示例实现方式中,根据期望的实现方式,该流程设定we←0或其它基值。
在402处,对于列表L中的具有基于交叠节点的数量和每对二元组的大小的满足阈值的得分o的每对二元组(Ci,Cj),如403所述,流程进行缺失链路的权重的计算。在示例实现方式中,所述得分可以基于满足阈值的交叠节点的数量和每对二元组的大小,并且可以将阈值对应地设定为期望的实现方式。用于计算得分o的示例公式可以如下:
如果o未能满足阈值,则丢弃该二元组对,然后考虑下一个二元组对。否则,流程进行至403,以计算这对二元组之间的缺失链路的权重。示例计算可以基于二元组对之间的交叠节点的数量以及基于节点的对应值(例如,二元组的大小)的链路所具有的影响来以增量方式进行。在示例实现方式中,进行这种计算的公式可以包括:
在404处,流程继续循环回至403的流程,直到处理了所有二元组对。
图4(b)例示了根据示例实现方式的示例总体流程。给定被表示为二分网络的数据以及二分网络中的缺失链路的集合,在410处,执行图4(a)的算法,以用于基于二分网络中的二元组来计算所述集合中的缺失链路中的每个缺失链路的权重。
在411处,该流程执行被配置为合并缺失链路中的每一个的权重的链路预测算法。可以将本领域中已知的任何链路预测算法用于此目的,诸如本文所述的算法。
在412处,该流程提供由链路预测算法选择的缺失链路的集合中的缺失链路作为二分网络的预测的缺失链路,如图3所示。这可以包括将二分网络呈现为双邻接矩阵,该双邻接矩阵包括表示二分网络中的第一类型的节点的行和表示第二类型的网络的行的列,该矩阵中的条目中的每一个表示第一类型的节点与第二类型的节点之间的链路,如图3所示。链路预测算法可以基于由链路预测算法针对满足阈值的特定链路获得的得分来选择预测的缺失链路,或者可以根据期望的实现方式在双邻接矩阵中显示所有缺失链路。如图3所示,提供由链路预测算法选择的缺失链路的集合中的缺失链路作为二分网络的预测的缺失链路的步骤可以包括根据由链路预测算法提供的得分来将所述条目表示为色调。此外,如图3所述,呈现二分网络的步骤可以包括提供被配置为根据选择的标准(节点的类型、平均得分等)对双邻接矩阵的行和列进行排序的界面。此外,如图3所示,提供由链路预测算法选择的缺失链路的集合中的缺失链路作为二分网络的预测的缺失链路的步骤可以包括根据概率线性地呈现预测的缺失链路。
图5以数字例示了每种条件下实验结果的平均性能。对于每种条件(即,在表格单元格中),三个数字表示(1)基线的平均度量,(2)所提出的方法的平均度量,以及(3)在五次运行(从原始数据集中去除了不同数量的链路)中所提出的方法的改进。每个数据集中的每个度量的最高性能和改进都以粗体突出显示。在每次运行中利用通过去除一定比例的链路而构建的输入网络来计算性能度量(R精确度或曲线下面积-精确召回率(AUC PR))。
根据这些结果,所提出的面向二元组的方法在所有条件下均提高了它们的基线,并且对于R精确度和AUC PR两者都有不同程度的改善。性能增益中的一些是很可观的,其中,针对未加权的大西洋风暴数据集,优先连接算法呈现了最大的改进(R精确度为0.564,AUC PR为0.557)。因此,通过如图4(a)和图4(b)中描述的算法的实现方式,可以实现对现有技术算法的改进,并且可以增强现有技术链路预测算法以更准确地检测缺失链路。
这样的示例实现方式特别适用于其中存在大量的数据并且数据包括可能是噪声的现实世界数据的大数据分析。例如,对于在确定基因表达中所使用的数据,基因与不同的状况有关,并且二分网络涉及第一类型的节点(基因)和第二类型的节点(可能发生的状况/疾病)。在实践中,因为状况和基因太多,所以对每种类型的基因组合进行实验是不切实际的。通过示例实现方式,可以对这样的二分网络进行分析,以通过缺失链路检测来识别基因的哪些组合很可能导致哪些状况,然后用户可以专注于那些特定的基因/状况实验。
在涉及药物发现的另一示例实现方式中,二分网络可涉及不同类型的分子和不同类型的状况(例如,副作用、疾病治疗功效)。药物发现会涉及大量的实验,因为可能存在用户可能会感兴趣的太多不同类型的分子和状况。通过应用如本文所述的算法,与现有技术的链路预测算法相比,可以更准确地确定药物分子组合与状况之间的因果关系,因此,用户可以专注于药物实验以相应地测试此类状况。
图6例示了具有适用于示例实现方式的示例计算机装置的示例计算环境。计算环境600中的计算机装置605可以包括一个或更多个处理单元、内核或处理器610、内存615(例如,RAM、ROM等)、内部存储器620(例如,磁性存储器、光学存储器、固态存储器和/或有机存储器)和/或I/O接口625,它们中的任一个都可以联结在用于传送信息的通信机构或总线630上或者嵌入在计算机装置605中。
计算机装置605可以以通信方式联结至输入/用户接口635和输出装置/接口640。输入/用户接口635和输出装置/接口640中的任一者或两者都可以是有线或无线接口,并且是可分离的。输入/用户接口635可以包括可被用于提供输入的物理的或虚拟的任何装置、组件、传感器或接口(例如,按钮、触摸屏接口、键盘、指向/光标控制、麦克风、摄像头、盲文、运动传感器、光学阅读器等)。输出装置/接口640可以包括显示器、电视机、监视器、打印机、扬声器、盲文等。在一些示例实现方式中,输入/用户接口635和输出装置/接口640可以嵌入计算机装置605中或与计算机装置605进行物理联结。在其它示例实现方式中,其它计算机装置可以充当或者提供计算机装置605的输入/用户接口635和输出装置/接口640的功能。在涉及触摸屏显示器、电视机显示器或任何其它形式的显示器的示例实现方式中,将显示器配置为提供例如在图3处例示的用户界面。
计算机装置605的示例可以包括但不限于高度移动的装置(例如,智能手机、车辆和其它机器中的装置、人类和动物携带的装置等)、移动装置(例如,平板电脑、笔记本电脑、膝上型电脑、个人计算机、便携式电视机、收音机等)以及非移动性设计的装置(例如,台式计算机、其它计算机、信息台、具有嵌入的和/或联结至其的一个或更多个处理器的电视机、收音机等)。
计算机装置605可以以通信方式联结(例如,经由I/O接口625)至外部存储器645和网络650,以与任何数量的连网组件、装置以及系统(包括配置相同或不同的一个或更多个计算机装置)进行通信。计算机装置605或任何连接的计算机装置都可以充当服务器、客户端、瘦服务器、通用机器、专用机器或另一标签,提供服务器、客户端、瘦服务器、通用机器、专用机器或另一标签的服务,或者被称为服务器、客户端、瘦服务器、通用机器、专用机器或另一标签。
I/O接口625可以包括但不限于使用任何通信或I/O协议或标准(例如,以太网、802.11x、通用系统总线、WiMax、调制解调器、蜂窝网络协议等)以用于向和/或从计算环境600中的至少所有的连接组件、装置以及网络传送信息的有线和/或无线接口。网络650可以是任何网络或网络的组合(例如,互联网、局域网、广域网、电话网、蜂窝网络、卫星网络等)。
计算机装置605可以使用计算机可用或计算机可读介质(包括暂时性介质和非暂时性介质)和/或使用该计算机可用或计算机可读介质(包括暂时性介质和非暂时性介质)来进行通信。暂时性介质包括传输介质(例如,金属线缆、光纤)、信号、载波等。非暂时性介质包括磁性介质(例如,磁盘和磁带)、光学介质(例如,CD ROM、数字视频光盘、蓝光光盘)、固态介质(例如,RAM、ROM、闪存、固态储存器)以及其它非易失性存储器或内存。
在一些示例计算环境中,可以使用计算机装置605来实现技术、方法、应用、处理或计算机可执行指令。计算机可执行指令可以从暂时性介质中检索,并且存储在非暂时性介质上并从中进行检索。可执行指令可以源自任何编程、脚本编制以及机器语言(例如,C、C++、C#、Java、Visual Basic、Python、Perl、JavaScript以及其它)中的一种或更多种。
可以将内存615配置为存储或管理例如在图4(a)和图4(b)处描述的流程中的要通过处理器610执行的算法以及要处理的数据。本文所述的示例实现方式可以根据期望的实现方式单独地或者按照彼此的任何组合来进行,并且不限于特定示例实现方式。
处理器610可以在自然或虚拟的环境中,在任何操作系统(OS)(未示出)下执行。可以部署一个或更多个应用,包括逻辑单元660、应用编程接口(API)单元665、输入单元670、输出单元675以及单元间通信机制695,该单元间通信机制695用于不同单元彼此通信、与OS通信以及与其它应用(未示出)通信。所描述的单元和元件可以在设计、功能、配置或实现方式上改变,并且不限于所提供的描述。处理器610可以具有被配置为执行从内存615加载的指令的物理处理器或中央处理单元(CPU)的形式。
在一些示例实现方式中,当API单元665接收到信息或执行指令时,可以将该信息或执行指令传送至一个或更多个其它单元(例如,逻辑单元660、输入单元670、输出单元675)。在一些情况下,逻辑单元660可以被配置为控制单元之间的信息流,并在上述一些示例实现方式中指导由API单元665、输入单元670、输出单元675所提供的服务。例如,一个或更多个处理或实现方式的流程可以由逻辑单元660单独地控制或者与API单元665结合来控制。可以将输入单元670配置为获取用于示例实现方式中描述的计算的输入,并且可以将输出单元675配置为提供基于示例实现方式中描述的计算的输出。
详细说明的一些部分从计算机内的运算的算法和符号表示方面进行了呈现。这些算法描述和符号表示是数据处理领域的技术人员所使用的方式,以向本领域其它技术人员传达他们创新的实质。算法是导致期望的最终状态或结果的一系列定义的步骤。在示例实现方式中,所执行的步骤需要对有形数量进行物理操纵以取得有形的结果。
除非另有具体说明,否则根据讨论将明白,应当领会到贯穿本说明书,利用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“显示”等的术语进行的讨论可以包括计算机系统或其它信息处理装置的动作和处理,所述动作和处理操纵表示为计算机系统的寄存器和存储器内的物理(电子)量的数据并将所述数据变换成类似地表示为计算机系统存储器或寄存器或者其它信息存储装置、传输装置或显示装置内的物理量的其它数据。
示例实现方式还可以涉及用于执行本文中的操作的设备。该设备可以是为所需目的而专门构造的,或者该设备可以包括由一个或更多个计算机程序选择性地启用或重新配置的一台或更多台通用计算机。可以将这样的计算机程序存储在诸如计算机可读存储介质或计算机可读信号介质之类的计算机可读介质中。计算机可读存储介质可以涉及有形介质,例如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态装置和驱动器或者适于存储电子信息的任何其它类型的有形或非暂时性介质。计算机可读信号介质可以包括诸如载波的介质。本文所呈现的算法和显示非固有地涉及任何特定计算机或其它设备。计算机程序可以涉及包括执行期望实现方式的操作的指令的纯软件实现方式。
各种通用系统可以与根据本文的示例的程序和模块一起使用,或者它可以证明构造更专用的设备以执行期望的方法步骤是方便的。另外,没有参考任何特定的编程语言来描述所述示例实现方式。应当清楚,可以使用多种编程语言来实现如本文所述的示例实现方式的教导。可以由一个或更多个处理装置(例如,中央处理单元(CPU)、处理器或控制器)来实现编程语言的指令。
如本领域已知的,可以通过硬件、软件或软件和硬件的一些组合来执行上述操作。可以使用电路和逻辑装置(硬件)来实现示例实现方式的各个方面,同时可以使用存储在机器可读介质(软件)上的指令来实现其它方面,如果由处理器执行,则该指令将使处理器执行用于实现本申请的实现方式的方法。此外,本申请的一些示例实现方式可以仅采用硬件来执行,而其它示例实现方式可以仅采用软件来执行。此外,所描述的各种功能可以在单个单元中执行,或者可以以任何数量的方式分布在多个组件中。当由软件执行时,所述方法可以由诸如通用计算机之类的处理器基于存储在计算机可读介质上的指令来执行。若需要的话,可以将指令以压缩和/或加密的格式存储在介质上。
此外,通过考虑本申请的说明书以及教导的实践,本申请的其它实现方式对于本领域技术人员将是显而易见的。所描述的示例实现方式的各个方面和/或组件可以单独使用或以任何组合使用。本说明书和示例实现方式仅仅被视为示例,并且本申请的真实范围和精神由所附权利要求来指示。

Claims (19)

1.一种用于确定二分网络中的缺失链路的集合的方法,所述方法包括以下步骤:
对于被表示为所述二分网络的数据以及对于所述二分网络中的所述缺失链路的集合:
基于所述二分网络中的二元组,计算所述集合中的所述缺失链路中的每一个的权重;
执行链路预测算法,该链路预测算法被配置为合并所述缺失链路中的每一个的所述权重;
提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的预测的缺失链路;以及
将所述二分网络呈现为双邻接矩阵,所述双邻接矩阵包括表示所述二分网络中的第一类型的节点的行和表示第二类型的网络的行的列,所述矩阵中的条目中的每一个表示所述第一类型的节点与所述第二类型的节点之间的链路,
其中,呈现所述二分网络的步骤包括:提供界面,所述界面被配置为根据预测的缺失链路中的每一个的得分来将所述矩阵中的所述条目中的每一个表示为色调,所述得分指示在所述第一类型的相应节点和所述第二类型的相应节点之间存在相应的预测的缺失链路的概率。
2.根据权利要求1所述的方法,其中,基于所述二分网络中的二元组来计算所述集合中的所述缺失链路中的每一个的权重的步骤包括:
对于具有基于满足阈值的交叠节点的数量和每对二元组的大小的得分的每对二元组,计算所述每对二元组之间的所述缺失链路的集合中的缺失链路的所述权重。
3.根据权利要求2所述的方法,其中,计算所述每对二元组之间的所述缺失链路的集合中的缺失链路的所述权重是基于所述交叠节点的数量和所述每对二元组的大小进行的。
4.根据权利要求1所述的方法,其中,由所述链路预测算法提供所述得分。
5.根据权利要求4所述的方法,其中,呈现所述二分网络的步骤包括:提供被配置为根据选择的标准对所述双邻接矩阵的行和列进行排序的所述界面。
6.根据权利要求1所述的方法,其中,提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的所述预测的缺失链路的步骤包括:根据概率线性地呈现所述预测的缺失链路。
7.一种存储用于执行处理的指令的非暂时性计算机可读介质,所述指令包括:
对于被表示为二分网络的数据以及对于所述二分网络中的缺失链路的集合:
基于所述二分网络中的二元组,计算所述集合中的所述缺失链路中的每一个的权重;
执行链路预测算法,该链路预测算法被配置为合并所述缺失链路中的每一个的所述权重;
提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的预测的缺失链路;以及
将所述二分网络呈现为双邻接矩阵,所述双邻接矩阵包括表示所述二分网络中的第一类型的节点的行和表示第二类型的网络的行的列,所述矩阵中的条目中的每一个表示所述第一类型的节点与所述第二类型的节点之间的链路,
其中,呈现所述二分网络的操作包括:提供界面,所述界面被配置为根据预测的缺失链路中的每一个的得分来将所述矩阵中的所述条目中的每一个表示为色调,所述得分指示在所述第一类型的相应节点和所述第二类型的相应节点之间存在相应的预测的缺失链路的概率。
8.根据权利要求7所述的非暂时性计算机可读介质,其中,基于所述二分网络中的二元组来计算所述集合中的所述缺失链路中的每一个的权重的操作包括:
对于具有基于满足阈值的交叠节点的数量和每对二元组的大小的得分的每对二元组,计算所述每对二元组之间的所述缺失链路的集合中的缺失链路的所述权重。
9.根据权利要求8所述的非暂时性计算机可读介质,其中,计算所述每对二元组之间的所述缺失链路的集合中的缺失链路的所述权重是基于所述交叠节点的数量和所述每对二元组的大小进行的。
10.根据权利要求7所述的非暂时性计算机可读介质,其中,由所述链路预测算法提供所述得分。
11.根据权利要求10所述的非暂时性计算机可读介质,其中,呈现所述二分网络的操作包括:提供被配置为根据选择的标准对所述双邻接矩阵的行和列进行排序的所述界面。
12.根据权利要求7所述的非暂时性计算机可读介质,其中,提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的所述预测的缺失链路的操作包括:根据概率线性地呈现所述预测的缺失链路。
13.一种用于确定二分网络中的缺失链路的集合的设备,该设备包括:
处理器,该处理器被配置为:
对于被表示为所述二分网络的数据以及对于所述二分网络中的所述缺失链路的集合:
基于所述二分网络中的二元组,计算所述集合中的所述缺失链路中的每一个的权重;
执行链路预测算法,该链路预测算法被配置为合并所述缺失链路中的每一个的所述权重;
提供由所述链路预测算法选择的所述缺失链路的集合中的缺失链路作为所述二分网络的预测的缺失链路;并且
将所述二分网络呈现为双邻接矩阵,所述双邻接矩阵包括表示所述二分网络中的第一类型的节点的行和表示第二类型的网络的行的列,所述矩阵中的条目中的每一个表示所述第一类型的节点与所述第二类型的节点之间的链路,
其中,所述处理器被配置为:提供界面,所述界面被配置为根据预测的缺失链路中的每一个的得分来将所述矩阵中的所述条目中的每一个表示为色调,所述得分指示在所述第一类型的相应节点和所述第二类型的相应节点之间存在相应的预测的缺失链路的概率。
14.根据权利要求13所述的设备,其中,所述处理器被配置为通过以下操作,基于所述二分网络中的二元组来计算所述集合中的所述缺失链路中的每一个的权重:
对于具有基于满足阈值的交叠节点的数量和每对二元组的大小的得分的每对二元组,计算所述每对二元组之间的所述缺失链路的集合中的缺失链路的所述权重。
15.根据权利要求14所述的设备,其中,所述处理器被配置为基于所述交叠节点的数量和所述每对二元组的大小,来计算所述每对二元组之间的所述缺失链路的集合中的缺失链路的所述权重。
16.根据权利要求13所述的设备,其中,由所述链路预测算法提供所述得分。
17.根据权利要求16所述的设备,其中,所述处理器被配置为呈现所述二分网络,呈现所述二分网络的操作包括提供被配置为根据选择的标准对所述双邻接矩阵的行和列进行排序的所述界面。
18.根据权利要求13所述的设备,其中,所述处理器被配置为通过根据概率线性地呈现所述预测的缺失链路,来提供由所述链路预测算法选择的所述缺失链路的集合中的所述缺失链路作为所述二分网络的所述预测的缺失链路。
19.根据权利要求13所述的设备,其中,所述处理器被配置为:
响应于对所述预测的缺失链路中的一个缺失链路的界面的选择:
通过将所述预测的缺失链路中的所选择的缺失链路添加在所述二分网络中,对所述预测的缺失链路中的所选择的缺失链路进行模体分析或度量分析中的至少一项分析;并且
提供所述预测的缺失链路中的所选择的缺失链路的所述模体分析或所述度量分析中的所述至少一项分析的结果。
CN201911126664.1A 2018-11-19 2019-11-18 用于理解二分网络中的缺失链路的视觉分析框架 Active CN111198905B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/194,877 2018-11-19
US16/194,877 US11176460B2 (en) 2018-11-19 2018-11-19 Visual analysis framework for understanding missing links in bipartite networks

Publications (2)

Publication Number Publication Date
CN111198905A CN111198905A (zh) 2020-05-26
CN111198905B true CN111198905B (zh) 2024-02-13

Family

ID=70727288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911126664.1A Active CN111198905B (zh) 2018-11-19 2019-11-18 用于理解二分网络中的缺失链路的视觉分析框架

Country Status (3)

Country Link
US (1) US11176460B2 (zh)
JP (1) JP7423998B2 (zh)
CN (1) CN111198905B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11228505B1 (en) * 2021-01-29 2022-01-18 Fujitsu Limited Explanation of graph-based predictions using network motif analysis
CN113434756B (zh) * 2021-06-18 2022-05-27 山东省人工智能研究院 基于图双向聚合网络链接预测模型的个性化评论推荐方法
CN114884565B (zh) * 2022-05-30 2023-05-09 南京大学 一种基于通信性能约束的大规模低轨卫星网络拓扑优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107833142A (zh) * 2017-11-08 2018-03-23 广西师范大学 学术社交网络科研合作者推荐方法
CN108108854A (zh) * 2018-01-10 2018-06-01 中南大学 城市路网链路预测方法、系统及存储介质
CN108811028A (zh) * 2018-07-23 2018-11-13 南昌航空大学 一种机会网络链路的预测方法、装置及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100205057A1 (en) * 2009-02-06 2010-08-12 Rodney Hook Privacy-sensitive methods, systems, and media for targeting online advertisements using brand affinity modeling
US20130245959A1 (en) * 2012-03-14 2013-09-19 Board Of Regents, The University Of Texas System Computer-Implementable Algorithm for Biomarker Discovery Using Bipartite Networks
US10643135B2 (en) * 2016-08-22 2020-05-05 International Business Machines Corporation Linkage prediction through similarity analysis
US20180089318A1 (en) * 2016-09-23 2018-03-29 Linkedin Corporation Two-sided network growth optimization in social networks
KR20200010172A (ko) * 2017-02-17 2020-01-30 킨디 인코포레이티드 네트워크 노드에서 소프트웨어 에이전트를 갖는 네트워크를 이용해 기계 학습하여 네트워크 노드를 순위화하는 방법 및 장치
US10361926B2 (en) * 2017-03-03 2019-07-23 Nec Corporation Link prediction with spatial and temporal consistency in dynamic networks
US10650559B2 (en) * 2018-04-30 2020-05-12 Robert Bosch Gmbh Methods and systems for simplified graphical depictions of bipartite graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506480A (zh) * 2017-09-13 2017-12-22 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107833142A (zh) * 2017-11-08 2018-03-23 广西师范大学 学术社交网络科研合作者推荐方法
CN108108854A (zh) * 2018-01-10 2018-06-01 中南大学 城市路网链路预测方法、系统及存储介质
CN108811028A (zh) * 2018-07-23 2018-11-13 南昌航空大学 一种机会网络链路的预测方法、装置及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Exploring biological interaction networks with tailored weighted quasi-bicliques;wen-chieh Chang;《BMC bioinformatics》;正文第2-5页 *
link prediction for bipartite social networks: the role of structural holes;Shuang Xia;《2012 IEEE》;正文第153-157页 *

Also Published As

Publication number Publication date
US20200160188A1 (en) 2020-05-21
CN111198905A (zh) 2020-05-26
JP2020098585A (ja) 2020-06-25
US11176460B2 (en) 2021-11-16
JP7423998B2 (ja) 2024-01-30

Similar Documents

Publication Publication Date Title
US8683389B1 (en) Method and apparatus for dynamic information visualization
CN111198905B (zh) 用于理解二分网络中的缺失链路的视觉分析框架
EP4006909B1 (en) Method, apparatus and device for quality control and storage medium
CN110515986B (zh) 一种社交网络图的处理方法、装置及存储介质
WO2022016556A1 (zh) 一种神经网络蒸馏方法以及装置
EP3731239A1 (en) Polypharmacy side effect prediction with relational representation learning
US10769136B2 (en) Generalized linear mixed models for improving search
WO2021143267A1 (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN109992676B (zh) 一种跨媒体资源检索方法及检索系统
WO2022213857A1 (zh) 动作识别方法和装置
JP2021193595A (ja) 会話推薦方法、装置及び機器
US20210157819A1 (en) Determining a collection of data visualizations
WO2022143482A1 (zh) 一种推荐方法、推荐网络及相关设备
US20220075808A1 (en) Method for determining competitive relation of points of interest, device
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
US20220284990A1 (en) Method and system for predicting affinity between drug and target
Lee et al. Benchmarking community detection methods on social media data
WO2023197910A1 (zh) 一种用户行为预测方法及其相关设备
CN116978483A (zh) 基于图神经网络和三维编码器的分子性质预测方法、系统
CN114547312B (zh) 基于常识知识图谱的情感分析方法、装置以及设备
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
Cai et al. Improved EfficientNet for corn disease identification
Sun et al. CANARY: An Adversarial Robustness Evaluation Platform for Deep Learning Models on Image Classification
CN114036267A (zh) 对话方法及系统
CN111985217A (zh) 一种关键词提取方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: Tokyo, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: Fuji Xerox Co.,Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant