CN114490833A - 一种图计算结果可视化方法和系统 - Google Patents

一种图计算结果可视化方法和系统 Download PDF

Info

Publication number
CN114490833A
CN114490833A CN202210352791.9A CN202210352791A CN114490833A CN 114490833 A CN114490833 A CN 114490833A CN 202210352791 A CN202210352791 A CN 202210352791A CN 114490833 A CN114490833 A CN 114490833A
Authority
CN
China
Prior art keywords
graph
data
screening
sub
graph data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210352791.9A
Other languages
English (en)
Other versions
CN114490833B (zh
Inventor
赵培龙
费冬妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210352791.9A priority Critical patent/CN114490833B/zh
Publication of CN114490833A publication Critical patent/CN114490833A/zh
Application granted granted Critical
Publication of CN114490833B publication Critical patent/CN114490833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种图计算结果可视化方法和系统。所述方法包括:接收图计算执行请求,所述图计算执行请求包括任务描述信息和采样量参数,其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据;根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据,其中,所述部分数据的数据量由所述采样量参数确定;将所述子图数据写入图数据库,以便向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。

Description

一种图计算结果可视化方法和系统
技术领域
本说明书涉及图计算领域,特别涉及一种图计算结果可视化方法和系统。
背景技术
图数据是一种高度结构化的数据,包含节点和边。节点可以表示实体,连接节点的边可以表示关系,图数据可以描述现实世界中存在的各种实体及其关系。对于大规模图,图分析一般需要提供子图数据作为输入。
目前,希望提供一种低成本且低时延的图计算方案,以便获取图分析所需的子图数据。
发明内容
本说明书实施例之一提供一种图计算结果可视化方法,包括:接收图计算执行请求,所述图计算执行请求包括任务描述信息和采样量参数,其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据;根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据,其中,所述部分数据的数据量由所述采样量参数确定;将所述子图数据写入图数据库,以便向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。
本说明书实施例之一提供一种图计算结果可视化系统,包括接收模块、图计算模块和写入模块。所述接收模块用于接收图计算执行请求,所述图计算执行请求包括任务描述信息和采样量参数,其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据。所述图计算模块用于根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据,其中,所述部分数据的数据量由所述采样量参数确定。所述写入模块用于将所述子图数据写入图数据库,以便向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。
本说明书实施例之一提供一种图计算结果可视化装置,包括处理器和存储设备,所述存储设备用于存储指令,其中,当所述处理器执行指令时,实现如本说明书任一实施例任一项所述的图计算结果可视化方法。
本说明书实施例之一提供一种图计算结果可视化系统,包括用户控制台、图计算引擎、图数据库和可视化前台。所述用户控制台用于接收图计算执行请求,所述图计算执行请求包括任务描述信息和采样量参数,其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据。所述图计算引擎用于根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据,其中,所述部分数据的数据量由所述采样量参数确定。所述图数据库用于存储所述子图数据。所述可视化前台用于向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的图计算结果可视化系统的架构示意图;
图2是根据本说明书一些实施例所示的图计算结果可视化方法的示例性流程图;
图3是根据本说明书一些实施例所示的图数据筛选的示例性流程图;
图4是根据本说明书一些实施例所示的图计算结果可视化系统的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本说明书涉及图数据的计算(即图计算),知识图谱是图数据的一种典型应用,本说明书将以知识图谱为主进行介绍,在无特别说明的情况下,知识图谱的相关术语的解释亦适用于其他图数据。
知识图谱,本质上,是一种揭示实体之间关系的语义网络。图谱中的节点表示实体。节点可以有多种类型,称作节点类型,用于指示各类实体。图谱中的边表示关系。边也可以有多种类型,称作边类型,用于指示各类关系。实体可以指现实世界中的事物,例如,人、地名、概念、药物、公司、用户等等。关系可用于表达不同实体之间的联系,例如,某人“居住在”北京、用户A和用户B是“好友”、张三和李四是“同事”、逻辑回归是深度学习的“先导知识”等等。
节点/边可以具有属性。可以理解,节点的属性即节点所表示的实体的属性,边属性即边所表示的关系的属性。例如,表示某种药物的节点的属性可以包括此药物的服用方法、服用频率、疗程、禁忌信息等,表示“曾服役于”的关系的属性可以包括服役的时长。
知识图谱可以是有向图或无向图,即,知识图谱中的边可以是有向的,也可以是无向的。有向的边可以是单向的,也可以是双向的,以指示关系的方向性。当知识图谱为无向图时,边可以表示关系不具有方向性或关系是双向的(如“朋友”关系)。指向一个节点的边可称作该节点的入边,从一个节点指出(即指向其它节点)的边可称作该节点的出边。双向或无向的边可称作该边连接的任一节点的出入边。在一些实施例中,出入边也可以指节点的出边与入边。对于有向图,边属性可以包括边的方向。
在两个节点之间连接的边的数量通常被称作“跳数”。当两个节点仅通过一条边连接时(或者说两个节点不间隔其他节点时),这两个节点间的跳数为1。当两个节点通过N(大于1)条边依次连接时(或者说两个节点间隔N-1个其他节点时),这两个节点间的跳数为N。如本文中所使用的,当两个节点之间的跳数为N(正整数)时,这两个节点互为彼此的第N跳节点。特别地,当两个节点之间的跳数为1时,也可以描述为这两个节点互为彼此的邻节点(邻居)。
节点的N跳子图是指以该节点为中心(也称作起点)且外围节点与该中心节点间的最大跳数为N的子图。外围节点指N跳子图中除中心节点以外的节点,对于N跳子图,其中的外围节点可以包括中心节点的第1跳节点、第2跳节点、…以及第N跳节点。如本文中所使用的,N跳子图的中心节点的第i跳节点也被称作该子图的第i跳节点。
子图数据可指图数据的子集(一部分)。具体地,子图数据可以包括与起点(或目标节点)相关的若干节点和/或边。例如,子图数据可以包含起点的1跳子图或2跳子图。又如,子图数据可以包含起点的至少部分邻居和/或连接起点的至少部分边。
在一些业务场景中,图分析可以指分析人员基于图数据进行规则挖掘,如,分析人员对图数据进行分析后得到规则。规则可以包括条件和响应,通俗来讲,规则在语义上可解释为“若...,则...”或“当...时,...”。在一些业务场景中,规则可以是节点分类的一般性原则。例如,在不良资产相关的业务场景中,希望通过图分析挖掘黑产用户的特征。其中,黑产用户可指有不良资产的用户。黑产用户的确定规则可指示满足某(些)条件的用户(节点)为黑产用户。即,当用户满足某(些)条件时,将其确定为黑产用户。在一些业务场景中,规则可以是某业务行为的实施原则。例如,在电商平台相关的业务场景中,希望通过图分析挖掘某款商品的潜在买家,相应的规则可指示当平台用户(节点)满足某(些)条件时向该用户推荐该款商品。在游戏平台相关的业务场景中,希望通过图分析挖掘某款游戏的潜在玩家,相应的规则可指示当平台用户(节点)满足某些条件时向该用户推荐该款游戏。在又一些业务场景中,规则可以是图数据中特定团体或组织的识别原则。例如,当某些节点(可以包括账号、支付机具等)之间满足某些转账频率和金额条件时,确定这些节点属于非正常运营组织。
在一些实施例中,为了进行规则挖掘,会对于大规模图,如上百万/千万/亿点边规模的知识图谱,进行全量图计算分析。全量图计算可以指图计算的范围包含图中所有点和/或所有边,再将图计算结果保存到数据仓库中。对于大规模图,全量图计算的计算成本和计算时延都非常高,输出的数据量大且存在大量冗余输出。数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。数据仓库具有相对简单的(Denormalized)表格结构,其中记录的主要是图计算的结果(如统计类结果),不能反映与计算结果相关的节点和/边的关联,进而难以支持图数据的可视化,从而不利于分析人员进行规则挖掘。
在一些实施例中,可以在图分析的上游环节接入业务系统,该业务系统可以根据固有的业务模式给出子图数据的筛选方式并将其提供给图计算系统,图计算系统只需要依据具体的筛选方式从图数据中确定部分数据并返回给上游业务系统,而无需进行费时耗力的全量图计算。但是这种做法不够通用化,仅能支持业务模式较为成熟、定义较为清晰的业务场景,无法满足多样化的业务需求。
为了兼顾计算的准确性和开销,本说明书实施例针对规则挖掘的场景提供了一种非全量图计算结果可视化方法和系统。在规则挖掘的场景中,用户(或业务方)往往并不需要全量图计算结果,而是根据基于初筛条件确定的子图数据即可进行更加精准的规则挖掘,有鉴于此,本说明书实施例提供的图计算结果可视化方法可以根据反映图数据筛选方式的任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据。其中,所述部分数据的数据量通过采样量参数确定。然后,将子图数据写入图数据库。任务描述信息可以是用户(或业务方)指定,也可以是根据最终的规则挖掘任务确定,通过任务描述信息可以灵活定义图数据的筛选方式,进而可以适应不同的业务需求。通过采样量参数实现图裁剪计算,可以避免全量图计算的高计算成本和高时间成本(即计算时延较低),输出(子图数据)的数据量也相应降低,可以节省存储成本以及减轻分析人员的工作量。通过支持可视化查询的图数据库存储子图数据,可以直观展示数据的关联过程,方便用户在后期进行更精准的规则挖掘。
图1是根据本说明书一些实施例所示的图计算结果可视化系统的架构示意图。
如图1所示,系统100可以包括用户控制台110、图计算引擎120、图数据库130和可视化前台140。
用户控制台110可以用于基于用户输入生成图计算执行请求,所述图计算执行请求可包括任务描述信息和采样量参数。其中,所述任务描述信息可反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据(即子图数据)。进而,用户控制台110可以将图计算执行请求提交至图计算引擎120。
图计算引擎120可以用于根据图计算执行请求中的任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据。其中,所述部分数据的数据量由图计算执行请求中的采样量参数确定。进而,图计算引擎120可以将子图数据写入图数据库130,以便向用户展示。
图数据库130可以用于存储子图数据。图数据库130可支持各类可视化协议,可视化前台140可视作图数据库130的客户端,通过可视化协议可以实现可视化前台140对图数据库130的访问,从而通过可视化前台140对从图数据库130获取的子图数据进行展示。
可视化前台140可以用于向用户展示从图数据库130获取的子图数据,进而使得用户(如分析人员)能够基于所述子图数据进行规则挖掘。具体地,用户可以通过可视化前台140向图数据库130发起对子图数据的查询请求,图数据库130响应于查询请求将子图数据发送给可视化前台140后,可视化前台140可以将子图数据渲染在图画布(电子画布)上,供用户查看。
在一些实施例中,系统100还可以包括消息通知台150。消息通知台150可以用于在完成图计算后向用户返回消息,以通知用户查询子图数据。当图计算引擎120已经筛选出子图数据或已经将子图数据写入图数据库时,可视为已经完成了图计算。可以理解,图计算引擎120可以驱使消息通知台150向用户返回消息。
可以理解,系统100的组件可以是硬件和/或软件实现的功能模块,可以分布在不同设备上,例如,用户控制台110/可视化前台140可以设置于用户端设备上,图计算引擎120/图数据库130/消息通知台150可以设置于服务端设备上。另外,多个组件可以集成在单个设备上,也可以分多个设备一一设置。例如,可以将用户控制台110设置在一台用户端设备上,并将可视化前台140设置在另一台用户端设备上,也可以将用户控制台110和可视化前台140设置在一台用户端设备上。关于系统100中各组件的更多功能可以参见流程200相应步骤的描述。
图2是根据本说明书一些实施例所示的图计算结果可视化方法的示例性流程图。流程200可以由图4所述的系统400执行。如图2所示,流程200可以包括以下步骤。
步骤210,接收图计算执行请求。在一些实施例中,步骤210可以由接收模块410执行。
所述图计算执行请求可以包括任务描述信息和采样量参数。其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据(即子图数据)。在一些实施例中,所述任务描述信息可以包含相关算法的标识,例如,可以基于PageRank算法筛选图数据,相应地,所述任务描述信息可以包含算法名称如PageRank。PageRank又称网页排名,在搜索引擎领域常被用于体现网页(每个网页可视为一个节点)的相关性/重要性,该算法的原理可拓展至体现节点的相关性/重要性。PageRank算法中,对于单个节点,可计算该节点的分数(也称作PR值),以量化节点的相关性/重要性。关于PageRank算法的更多细节,可以参考后文关于分数筛选的描述。
任务描述信息和/或采样量参数可以由用户指定。在一些实施例中,系统(如用户控制台110)可以提供任务描述信息的多个实例供用户选择,例如,可以提供多种筛选算法供用户选择。在一些实施例中,任务描述信息也可以由系统基于用户指定的最终规则挖掘任务生成。例如,用户指定的规则挖掘任务是确定黑产用户的规则,系统可以基于此确定任务描述信息包含PageRank算法。在一些实施例中,用户可以直接输入采样量参数,或者可以在采样量参数的系统默认值的基础上进行调整。
在一些实施例中,所述图计算执行请求还可以包括任务标识(或称作任务ID)。可以理解,任务标识可用于区分不同的图计算执行请求。
步骤220,根据所述图计算执行请求中的任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据。在一些实施例中,步骤220可以由图计算模块420执行。
其中,所述部分数据的数据量可由所述图计算执行请求中的采样量参数确定。在一些实施例中,图计算可以节点为计算单元,所述采样量参数可以指示所述部分数据的节点数量占所述图数据的节点数量的比例。在一些实施例中,图计算可以边为计算单元,所述采样量参数可以指示所述部分数据的边数量占所述图数据的边数量的比例。仅作为示例,对于15亿点边规模的图谱,采样量参数可以为百万分之一。需要注意的是,本说明书对图数据的采样策略不做具体限制,只要采样得到的部分数据的数据量满足采样量参数的约束即可。
关于图数据筛选的更多细节,可以参考图3及其相关描述。
步骤230,将所述子图数据写入图数据库。在一些实施例中,步骤230可以由写入模块430执行。
图数据库是用来处理图这种数据结构的数据库。区别于使用二维表格存储数据的关系型数据库,图数据库被归类为NoSQL(Not Only SQL)数据库的一种,也就是说图数据库属于非关系型数据库。关系型数据库不擅长处理数据之间的关系,而图数据库不仅能灵活处理数据之间的关系且在处理大量复杂关系时也能保持良好的性能。自然界中有各种各样的关系,关系型数据库只能把这些扁平化为表格形态的行列数据,而图数据基于图模型以一种直观的方式去描述这些关系,因而更为形象。借助可视化展示功能,图数据库可以让图查询和图分析变得很直观,用户体验十分友好。
在一些实施例中,图数据库可以基于键值对存储引擎(也称作KV存储引擎)实现。在将所述子图数据写入图数据库时,可以将图计算执行请求的任务标识作为键(key,简称k),所述子图数据作为值(value,简称v)。
在一些实施例中,在完成图计算后,如执行完步骤220或步骤230时,可以向用户发送消息,以通知所述用户查询所述子图数据。在一些实施例中,用户接收到消息后可以根据任务标识查询子图数据。
图3是根据本说明书一些实施例所示的图数据筛选的示例性流程图。如图3所示,流程300可以包括以下步骤。
步骤310,根据任务描述信息确定图数据的筛选方式。
在一些实施例中,图数据的筛选方式包括分数筛选和条件筛选。为了反映图数据的筛选方式,所述任务描述信息可以包括用于计算节点分数的预设算法的标识信息,或者包括筛选条件。
步骤320,基于所述筛选方式从部分数据的节点中筛选出多个目标节点。
对于分数筛选,可以按照预设算法计算所述部分数据中各节点的分数,进而根据各节点的分数排序(排名)从所述部分的节点中筛选出目标节点。仅作为示例,在不良资产相关的业务场景中,可以根据PageRank算法计算所述部分数据中各用户的PR值,进而将PR值靠前(如PR值越大排名越靠前)的预设数量/预设比例的用户确定为有嫌疑的黑产用户。在图分析过程中,可以确定相对精准的规则来识别黑产用户。
对于条件筛选,可以基于任务描述信息确定筛选条件,进而基于所述筛选条件从所述部分数据中筛选出目标节点。可以理解,通常这里的筛选条件相比后续规则挖掘确定的条件更宽松,或者说粒度更粗。
在一些实施例中,目标节点可以是满足所述筛选条件的节点。仅作为示例,在电商平台相关的业务场景中,为了推广某款白酒,所述筛选条件可以是购买过酒类商品(包含白酒、红酒、黄酒等)或相关商品(如酒杯、开酒工具)的平台用户。在图分析过程中,可以确定相对精准的条件来识别该款白酒的潜在买家。
在一些实施例中,可以基于所述筛选条件从所述部分数据中筛选出候选节点,以及通过一轮以上迭代确定目标节点。其中一轮迭代可以包括:基于当前轮候选节点的属性信息、关系信息(即边的信息)以及邻居信息中的一种或多种调整当前轮筛选条件;按照调整后的当前轮筛选条件从所述部分数据中再次筛选出下一轮的候选节点或者目标节点。应当理解,第一轮迭代的输入为基于任务描述信息中的筛选条件从所述部分数据中筛选出的候选节点,第一轮迭代调整前的当前轮筛选条件为前述筛选条件,最后一轮迭代的输出为目标节点。仅作为示例,在游戏平台相关的业务场景中,为了推广某款团队竞技类游戏,用于筛选第一轮候选节点的筛选条件可以是该款游戏已注册玩家的平台好友。在第一轮迭代中,发现当前轮候选用户(即已注册玩家的平台好友)中年龄超过40岁的用户游戏列表中不包含团队竞技类游戏,相应地,可以将筛选条件进一步调整为已注册玩家的适龄(不超过40岁)平台好友,并从所述部分数据中重新筛选得到下一轮的候选用户。在第二轮迭代中,发现当前轮候选用户中团队竞技类游戏的游戏时长超过100小时的用户在其他团队竞技类游戏的平均上线频率达到预设频率(如平均每周上线一次以上),相应地,可以将筛选条件进一步调整为团队竞技类游戏的游戏时长超过100小时的适龄(不超过40岁)平台好友,并从所述部分数据中重新筛选得到下一轮的候选用户。通过多轮迭代,最终筛选出的目标用户被认为与真实有意愿体验该款团队竞技类游戏的用户吻合度较高。
步骤330,从所述部分数据中获取与所述目标节点相关的若干节点和边,得到子图数据。
子图数据可以包含目标节点的N跳子图,如1跳子图或2跳子图,也可以包含目标节点的至少部分邻居和/或连接目标节点的至少部分边。在一些实施例中,可以预设若干节点和边的范围。例如,在获取目标节点后,可以从图数据中获取该目标节点的2跳子图作为所述子图数据。又例如,在获取目标节点后,可以从该目标节点的4跳子图中选择满足指定属性条件的兴趣邻居节点,并将目标节、兴趣邻居节点及其之间的边确定为所述子图数据。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图4是根据本说明书一些实施例所示的图计算结果可视化系统的示例性模块图。系统400可以在图计算引擎120上实现。如图4所示,系统400可以包括接收模块410、图计算模块420和写入模块430。
接收模块410可以用于接收图计算执行请求,所述图计算执行请求可以包括任务描述信息和采样量参数。其中,所述任务描述信息可以反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据。
图计算模块420可以用于根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据。其中,所述部分数据的数据量由所述采样量参数确定。
写入模块430可以用于将所述子图数据写入图数据库,以便向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。
应当理解,图4所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,图计算模块420和写入模块430可以是两个模块,也可以合并为一个模块。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过任务描述信息可以灵活定义图数据的筛选方式,进而可以适应不同的业务需求;(2)通过采样量参数实现图裁剪计算,可以避免全量图计算的高计算成本和高时间成本(即计算时延较低),输出(子图数据)的数据量也相应降低,可以节省存储成本以及减轻分析人员的工作量;(3)通过支持可视化查询的图数据库存储子图数据,可以直观展示数据的关联过程,方便用户在后期进行更精准的规则挖掘。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (13)

1.一种图计算结果可视化方法,包括:
接收图计算执行请求,所述图计算执行请求包括任务描述信息和采样量参数,其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据;
根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据;所述部分数据的数据量由所述采样量参数确定;
将所述子图数据写入图数据库,以便向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。
2.如权利要求1所述的方法,其中,所述根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据,包括:
根据所述任务描述信息确定图数据的筛选方式;
基于所述筛选方式从所述部分数据的节点中筛选出多个目标节点;
从所述部分数据中获取与所述目标节点相关的若干节点和边,得到所述子图数据。
3.如权利要求2所述的方法,其中,所述筛选方式包括分数筛选,所述基于所述筛选方式从所述部分数据的节点中筛选出多个目标节点,包括:
按照预设算法计算所述部分数据中各节点的分数;
根据各节点的分数排序从所述部分数据的节点中筛选出所述目标节点。
4.如权利要求2所述的方法,其中,所述筛选方式包括条件筛选,所述基于所述筛选方式从所述部分数据的节点中筛选出多个目标节点,包括:
基于所述任务描述信息确定筛选条件;
基于所述筛选条件从所述部分数据中筛选出所述目标节点。
5.如权利要求4所述的方法,其中,所述基于所述筛选条件从所述部分数据中筛选出所述目标节点,包括基于所述筛选条件从所述部分数据中筛选出候选节点,以及通过一轮以上迭代确定所述目标节点,其中一轮迭代包括:
基于当前轮候选节点的属性信息、关系信息以及邻居信息中的一种或多种调整当前轮筛选条件;
按照调整后的当前轮筛选条件从所述部分数据中再次筛选出下一轮的候选节点或者所述目标节点。
6.如权利要求1所述的方法,其中,所述图计算执行请求还包括任务标识。
7.如权利要求6所述的方法,其中,所述图数据库基于键值对存储引擎实现;在将所述子图数据写入图数据库时,将图计算执行请求的任务标识作为键,所述子图数据作为值。
8.如权利要求1所述的方法,其中,所述采样量参数指示所述部分数据的节点数量占所述图数据的节点数量的比例。
9.如权利要求1所述的方法,还包括:向所述用户发送消息,以通知所述用户查询所述子图数据。
10.一种图计算结果可视化系统,包括接收模块、图计算模块和写入模块;
所述接收模块用于接收图计算执行请求,所述图计算执行请求包括任务描述信息和采样量参数,其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据;
所述图计算模块用于根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据;所述部分数据的数据量由所述采样量参数确定;
所述写入模块用于将所述子图数据写入图数据库,以便向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。
11.一种图计算结果可视化装置,包括处理器和存储设备,所述存储设备用于存储指令,其中,当所述处理器执行指令时,实现如权利要求1~9中任一项所述的方法。
12.一种图计算结果可视化系统,包括用户控制台、图计算引擎、图数据库和可视化前台;
所述用户控制台用于接收图计算执行请求,所述图计算执行请求包括任务描述信息和采样量参数,其中,所述任务描述信息反映图数据的筛选方式,以便筛选出用于规则挖掘的图数据;
所述图计算引擎用于根据所述任务描述信息对图数据中的部分数据执行图计算,筛选出子图数据;所述部分数据的数据量由所述采样量参数确定;
所述图数据库用于存储所述子图数据;
所述可视化前台用于向用户展示所述子图数据,进而使得用户能够基于所述子图数据进行规则挖掘。
13.如权利要求12所述的系统,还包括消息通知台,所述消息通知台用于向用户返回消息,以通知所述用户查询所述子图数据。
CN202210352791.9A 2022-04-06 2022-04-06 一种图计算结果可视化方法和系统 Active CN114490833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210352791.9A CN114490833B (zh) 2022-04-06 2022-04-06 一种图计算结果可视化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210352791.9A CN114490833B (zh) 2022-04-06 2022-04-06 一种图计算结果可视化方法和系统

Publications (2)

Publication Number Publication Date
CN114490833A true CN114490833A (zh) 2022-05-13
CN114490833B CN114490833B (zh) 2022-10-11

Family

ID=81487863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210352791.9A Active CN114490833B (zh) 2022-04-06 2022-04-06 一种图计算结果可视化方法和系统

Country Status (1)

Country Link
CN (1) CN114490833B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742691A (zh) * 2022-05-19 2022-07-12 支付宝(杭州)信息技术有限公司 一种图数据采样方法和系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030219233A1 (en) * 2002-04-25 2003-11-27 Masaru Kimura DVD-video playback apparatus and subpicture stream playback control method
US20060062552A1 (en) * 2004-09-23 2006-03-23 Richard Lesser System and method of adapting sub-picture data for being displayed on mini-screens
US20160055665A1 (en) * 2014-08-21 2016-02-25 The Boeing Company Visualization and analysis of a topical element of a complex system
WO2017076296A1 (zh) * 2015-11-03 2017-05-11 华为技术有限公司 处理图数据的方法和装置
US20180096035A1 (en) * 2016-09-30 2018-04-05 Microsoft Technology Licensing, Llc. Query-time analytics on graph queries spanning subgraphs
US20180329958A1 (en) * 2017-05-12 2018-11-15 Battelle Memorial Institute Performance and usability enhancements for continuous subgraph matching queries on graph-structured data
CN110727804A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 利用知识图谱处理维修案例的方法、装置及电子设备
CN111324643A (zh) * 2020-03-30 2020-06-23 北京百度网讯科技有限公司 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
CN111611419A (zh) * 2019-02-26 2020-09-01 阿里巴巴集团控股有限公司 一种子图识别方法及装置
CN112508163A (zh) * 2020-11-23 2021-03-16 北京百度网讯科技有限公司 神经网络模型中子图的展示方法、装置和存储介质
CN113627479A (zh) * 2021-07-09 2021-11-09 中国科学院信息工程研究所 一种基于半监督学习的图数据异常检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030219233A1 (en) * 2002-04-25 2003-11-27 Masaru Kimura DVD-video playback apparatus and subpicture stream playback control method
US20060062552A1 (en) * 2004-09-23 2006-03-23 Richard Lesser System and method of adapting sub-picture data for being displayed on mini-screens
US20160055665A1 (en) * 2014-08-21 2016-02-25 The Boeing Company Visualization and analysis of a topical element of a complex system
WO2017076296A1 (zh) * 2015-11-03 2017-05-11 华为技术有限公司 处理图数据的方法和装置
US20180096035A1 (en) * 2016-09-30 2018-04-05 Microsoft Technology Licensing, Llc. Query-time analytics on graph queries spanning subgraphs
US20180329958A1 (en) * 2017-05-12 2018-11-15 Battelle Memorial Institute Performance and usability enhancements for continuous subgraph matching queries on graph-structured data
CN111611419A (zh) * 2019-02-26 2020-09-01 阿里巴巴集团控股有限公司 一种子图识别方法及装置
CN110727804A (zh) * 2019-10-11 2020-01-24 北京明略软件系统有限公司 利用知识图谱处理维修案例的方法、装置及电子设备
CN111324643A (zh) * 2020-03-30 2020-06-23 北京百度网讯科技有限公司 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
CN112508163A (zh) * 2020-11-23 2021-03-16 北京百度网讯科技有限公司 神经网络模型中子图的展示方法、装置和存储介质
CN113627479A (zh) * 2021-07-09 2021-11-09 中国科学院信息工程研究所 一种基于半监督学习的图数据异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUNZHE WANG等: ""Visualizing the Temporal Similarity Between Clusters of Dynamic Graphs"", 《 2019 IEEE 18TH INTERNATIONAL CONFERENCE ON COGNITIVE INFORMATICS & COGNITIVE COMPUTING (ICCI*CC)》 *
李龙洋等: ""spark环境下基于频繁边的大规模单图采样算法"", 《计算机研究与发展》 *
马曼青: ""针对社交网络表示学习的图采样设计"", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742691A (zh) * 2022-05-19 2022-07-12 支付宝(杭州)信息技术有限公司 一种图数据采样方法和系统
CN114742691B (zh) * 2022-05-19 2023-08-18 支付宝(杭州)信息技术有限公司 一种图数据采样方法和系统

Also Published As

Publication number Publication date
CN114490833B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US11645341B2 (en) Systems and methods for discovering social accounts
EP3477906B1 (en) Systems and methods for identifying and mitigating outlier network activity
US10296658B2 (en) Use of context-dependent statistics to suggest next steps while exploring a dataset
US11734233B2 (en) Method for classifying an unmanaged dataset
US20170236073A1 (en) Machine learned candidate selection on inverted indices
US9390142B2 (en) Guided predictive analysis with the use of templates
Goonetilleke et al. Twitter analytics: a big data management perspective
US20150242407A1 (en) Discovery of Data Relationships Between Disparate Data Sets
US20150242409A1 (en) Automated Data Shaping
KR102213627B1 (ko) 분석 소프트웨어 관리 시스템 및 분석 소프트웨어 관리 방법
US10915586B2 (en) Search engine for identifying analogies
US20190114325A1 (en) Method of facet-based searching of databases
Liu et al. Correlated aggregation operators for simplified neutrosophic set and their application in multi-attribute group decision making
CN113986933A (zh) 物化视图的创建方法、装置、存储介质及电子设备
US20220027827A1 (en) Benchmarking of user experience quality
Sidiropoulos et al. Ranking and identifying influential scientists versus mass producers by the Perfectionism Index
WO2016049034A1 (en) Guided data exploration
CN114490833B (zh) 一种图计算结果可视化方法和系统
US20180121824A1 (en) Artificial Intelligence for Decision Making Based on Machine Learning of Human Decision Making Process
US20160063394A1 (en) Computing Device Classifier Improvement Through N-Dimensional Stratified Input Sampling
CN113094444A (zh) 数据处理方法、数据处理装置、计算机设备和介质
US20160217216A1 (en) Systems, methods, and devices for implementing a referral search
US20230237076A1 (en) Automatically drawing infographics for statistical data based on a data model
US11663278B2 (en) Classifying job search queries for improved precision
US10275837B2 (en) Recommending a social structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant