CN105677801B - 一种基于图的数据处理方法和系统 - Google Patents
一种基于图的数据处理方法和系统 Download PDFInfo
- Publication number
- CN105677801B CN105677801B CN201511031504.0A CN201511031504A CN105677801B CN 105677801 B CN105677801 B CN 105677801B CN 201511031504 A CN201511031504 A CN 201511031504A CN 105677801 B CN105677801 B CN 105677801B
- Authority
- CN
- China
- Prior art keywords
- graph
- information
- data
- index
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于图的数据处理方法和系统。根据本发明的一个实施例,一种基于图的数据处理方法,维护以对象为顶点,对象与对象之间的关联信息为边的图,该方法包括:维护顶点信息和边信息,所述顶点信息是关于对象的关键信息,维护以对象的关键信息中的一项为键、以对象在该图中的位置信息为辅助信息的索引。
Description
技术领域
本发明的实施例涉及数据分析,并且具体地涉及基于图的数据处理方法和系统。
背景技术
现有的数据分析或者数据挖掘方法通常采用离线分析的方式。传统的数据处理模型和算法的缺点包括:不能在获取实时数据的同时,对数据进行有效的分析;以及不能快速地响应外部请求,基于最新的数据对外提供服务。
例如,现有的方案在对外提供数据服务时,往往需要对数据进行离线预处理和加工,将分析的结果存储在关系型数据库中。然后,响应于外部的请求,从该关系数据库中读取分析的结果。数据库中的分析结果需要被定期更新。在大数据场景下,这种方案会降低数据分析服务的效率和时效性。
发明内容
根据本发明的一个实施例,公开一种基于图的数据处理方法,维护以对象为顶点,对象与对象之间的关联信息为边的图,该方法包括:维护顶点信息和边信息,所述顶点信息是关于对象的关键信息,维护以对象的关键信息中的一项为键、以对象在该图中的位置信息为辅助信息的索引。
根据本发明的一个实施例,当对象的关键信息发生变化时,实时地更新该对象在该图中的顶点信息。
根据本发明的一个实施例,通过第一对象的关键信息利用该索引定位该第一对象在该图中的位置,根据该第一对象在该图中的位置找出与该第一对象关联的其它对象。
根据本发明的一个实施例,通过分布式架构存储所述图和所述索引。
根据本发明的一个实施例,所述对象包括银行卡用户和商户。
根据本发明的一个实施例,公开一种基于图的数据处理系统,该系统被配置成维护以对象为顶点,对象与对象之间的关联信息为边的图,该系统包括:图存储模块,用于维护顶点信息和边信息,该顶点信息是对象的关键信息,索引模块,用于维护以对象的关键信息中的一项为键、以对象在该图中的位置信息为辅助信息的索引。
根据本发明的一个实施例,该系统包括:数据更新模块,其被配置成当对象的关键信息发生变化时,实时地更新该对象在该图中的顶点信息。
根据本发明的一个实施例,该系统包括:图分析模块,其被配置成:通过第一对象的关键信息利用该索引模块定位该第一对象在该图中的位置,基于该图存储模块,根据该第一对象在该图中的位置找出与该第一对象关联的其它对象。
根据本发明的一个实施例,该系统被配置成:通过分布式架构存储所述图和所述索引。
本发明的技术方案通过缩短数据更新以及数据分析的时间,有效提升数据的时效性。有效解决了传统技术在大数据分析和服务方面的时效性问题。在大数据服务的场景下,更大地发挥数据的价值。
当结合附图阅读以下描述时也将理解本发明的实施例的其它特征和优势,其中附图借助于实例示出了本发明的实施例的原理。
附图说明
图1是根据本发明实施例的基于图的数据处理系统的示意图。
图2是根据本发明实施例的基于图的数据处理方法的流程图。
具体实施方式
在下文中,将结合实施例描述本发明的原理。应当理解的是,给出的实施例只是为了本领域技术人员更好地理解并且实践本发明,而不是限制本发明的范围。例如,本说明书中包含许多具体的实施细节不应被解释为对发明的范围或可能被要求保护的范围的限制,而是应该被视为特定于实施例的描述。例如,在各实施例的上下文描述的特征可被组合在单一实施例中来实施。在单一实施例的上下文中描述的特征可在多个实施例来实施。
本发明提出基于图存储模型对要处理的数据进行实时存储和更新。图是一种数据结构,定义为:graph=(V,E)。V是一个非空有限集合,代表顶点(节点),E代表边的集合,一般用(Vx,Vy)表示,其中,Vx,Vy属于V。若两个结点U、V之间有一条边连接,则称这两个结点U、V是关联的。可以用带权图表示两个相邻顶点之间的除连接关系以外的其它关系。基于这样的概念,本发明提出维护以对象为顶点,对象与对象之间的关联信息为边的图,以便基于图的关联模型和算法进行对象(个体)之间的关联分析来提高数据分析的性能和效率。在本发明中,个体可以是例如银行卡的用户或者任何使用网络服务(例如,网上购物)的用户。
图1是根据本发明实施例的基于图的数据处理系统的示意图。如图1所示,以虚线示出的基于图的数据处理系统,其可以包括图存储模块、索引模块、图分析模块。
图存储模块,用于维护顶点信息和边信息,该顶点信息是对象的关键信息。例如,当对象是银行卡用户时,对象的关键信息可以包括用户ID、用户年龄范围、或者消费事件;例如,当对象是商户时,对象的关键信息可以包括商户ID、商户类型等。边信息对象与对象之间的关联信息,例如基于用户和商户之间的消费事件产生的关联。如图所示,可以基于分布式架构存储所述图的顶点和边信息。
索引模块,用于维护以对象的关键信息的一项(例如,用户ID或者商户ID)为键、以对象在该图中的位置信息为辅助信息的索引。这里,位置信息指示该对象所对应的顶点在图的存储结构(例如,邻接矩阵、邻接表等)中的与其它对象的位置关系。图分析模块通过索引能够快速定位对象在图中的位置。如图所示,可以基于分布式架构存储所述索引。
图分析模块,其被配置成通过第一对象的关键信息利用该索引模块定位该第一对象在该图中的位置;以及基于该图存储模块,根据该第一对象在该图中的位置找出与该第一对象关联的其它对象。优选地,可以利用与图相关的各种算法来分析该对象。
基于图存储模块、索引模块、图分析模块可以高效地进行更新操作和分析操作。在更新操作过程中,当对象的关键信息发生变化时,实时地更新该对象在该图中的顶点信息。可选地,可以在基于图的数据处理系统设立更新模块。在分析操作过程中,可以接收外部请求,然后根据该请求包含的用户ID,通过索引模块得到该用户在图中的位置信息,然后利用该位置信息借助图分析模块的计算得到分析结果。得到的分析结果作为服务信息对外部提供。
示例性实施例可在硬件、软件或其组合中来实施。例如,本发明的某些方面可在硬件中实施,而其它方面则可在软件中实施。尽管本发明的示例性实施例的方面可被示出和描述为框图、流程图,但很好理解的是,这里描述的这些装置、或方法可在作为非限制性实例的系统中被实现为功能模块。此外,上述装置不应被理解为要求在所有的实施例中进行这种分离,而应该被理解为所描述的程序组件和系统通常可以被集成在单一的软件产品中或打包成多个软件产品。
图2是根据本发明实施例的基于图的数据处理方法的流程图。如图所示,在步骤201中,维护以对象为顶点,对象与对象之间的关联信息为边的图。在步骤202中,根据外部请求中的顶点信息,定位对象在图中的位置。在步骤203中,根据定位的位置,分析该对象与其它对象之间的关系。
优选地,在步骤201中,维护顶点信息和边信息,所述顶点信息是关于对象的关键信息,以及维护以对象的关键信息中的一项为键、以对象在该图中的位置信息为辅助信息的索引。
优选地,在步骤202中,当对象的关键信息发生变化时,实时地更新该对象在该图中的顶点信息。
优选地,在步骤203中,通过第一对象的关键信息利用该索引定位该第一对象在该图中的位置,根据该第一对象在该图中的位置找出与该第一对象关联的其它对象。例如,一个用户对象可以与多个商户对象关联。
图2所示的各个框可被视为方法步骤、和/或被视为由于运行计算机程序代码而导致的操作、和/或被视为构建为实施相关功能的多个耦合的逻辑电路元件。尽管操作按特定的顺序在图中被描绘,但这不应被理解为要求按照所示的特定顺序或按依次顺序来执行这些操作,或要求所有例示的操作被执行,以达到理想的结果。在某些情况下,多任务并行处理可能是有利的。
以下是基于图的数据处理方法和系统进行数据分析的示例过程。
A.数据实时写入更新
1.通过对外提供的数据写入接口服务将数据写入系统,该接口服务通过分布式架构对外提供高并发的数据写入能力;
2.以写入数据的对象的关键信息为图存储中顶点的信息,通过图存储模块进行图的更新,然后将数据写入到分布式存储器中;
3.以写入数据的对象的关键信息的一项为索引关键字,以该对象在图中存储的位置信息作为辅助信息,通过索引模块进行数据的写入和更新,然后将数据存储在分布式存储器中;
由此,通过索引服务构建快速的对象访问能力,通过图服务构建对象之间的关联关系,以支撑大规模数据的实时分析。
B.数据实时读取分析
1.通过对外提供的数据读取分析接口服务提供面向对象的实时分析服务,该接口服务通过分布式架构对外提供高并发的数据分析能力;
2.以需要访问的对象关键信息的一项为关键字,利用索引服务快速定位该对象在图中的位置信息;
3.通过获取的对象在图中的位置信息,对该对象进行数据分析和挖掘,例如,通过广度优先遍历算法进行对象的关联分析,快速识别该对象的潜在喜好对象(例如,合适于该用户的潜在商户);
由此,能够通过接口服务返回外部所需要的分析结果,基于分布式架构和高并发处理能力保障可靠的服务能力。
相关领域的技术人员当结合附图阅读前述说明书时,对本发明的前述示例性实施例的各种修改和变形对于相关领域的技术人员会变得明显。因此,本发明的实施例不限于所公开的特定实施例,并且变形例和其它实施例意在涵盖在所附权利要求的范围内。
Claims (2)
1.一种基于图的数据处理方法,其特征在于,维护以对象为顶点,对象与对象之间的关联信息为边的图,该方法包括:
维护顶点信息和边信息,所述顶点信息是关于对象的关键信息,
维护以对象的关键信息中的一项为键、以对象在该图中的位置信息为辅助信息的索引,其中,该方法还包括:
当对象的关键信息发生变化时,实时地更新该对象在该图中的顶点信息,
通过第一对象的关键信息利用该索引定位该第一对象在该图中的位置,
根据该第一对象在该图中的位置找出与该第一对象关联的其它对象,
其中,通过分布式架构存储所述图和所述索引,
其中,所述对象是银行卡用户,
其中,通过对外提供的数据写入接口服务将数据写入,该数据写入接口服务 通过分布式架构对外提供数据写入能力,以写入数据的对象的关键信息的一项为索引关键字,以该对象在图中存储的位置信息作为辅助信息,进行数据的写入和更新,将数据存储在分布式存储器中,通过对外提供的数据读取接口服务提供面向对象的实时分析服务,该数据读取接口服务通过分布式架构对外提供数据分析能力,以需要访问的对象关键信息的一项为关键字,利用索引服务定位该对象在图中的位置信息。
2.一种基于图的数据处理系统,其特征在于,该系统被配置成维护以对象为顶点,对象与对象之间的关联信息为边的图,该系统包括:
图存储模块,用于维护顶点信息和边信息,该顶点信息是对象的关键信息;
索引模块,用于维护以对象的关键信息中的一项为键、以对象在该图中的位置信息为辅助信息的索引;
数据更新模块,其被配置成当对象的关键信息发生变化时,实时地更新该对象在该图中的顶点信息;以及
图分析模块,其被配置成:
通过第一对象的关键信息利用该索引模块定位该第一对象在该图中的位置,
基于该图存储模块,根据该第一对象在该图中的位置找出与该第一对象关联的其它对象,其中,该系统被配置成:
通过分布式架构存储所述图和所述索引其中,
所述对象是银行卡用户,
其中,通过对外提供的数据写入接口服务将数据写入,该数据写入接口服务通过分布式架构对外提供数据写入能力,以写入数据的对象的关键信息的一项为索引关键字,以该对象在图中存储的位置信息作为辅助信息,通过索引模块进行数据的写入和更新,将数据存储在分布式存储器中,通过对外提供的数据读取接口服务提供面向对象的实时分析服务,该数据读取接口服务通过分布式架构对外提供数据分析能力,以需要访问的对象关键信息的一项为关键字,通过索引模块定位该对象在图中的位置信息。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511031504.0A CN105677801B (zh) | 2015-12-31 | 2015-12-31 | 一种基于图的数据处理方法和系统 |
TW105143384A TWI686704B (zh) | 2015-12-31 | 2016-12-27 | 基於圖的資料處理方法和系統 |
PCT/CN2016/112957 WO2017114455A1 (zh) | 2015-12-31 | 2016-12-29 | 一种基于图的数据处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511031504.0A CN105677801B (zh) | 2015-12-31 | 2015-12-31 | 一种基于图的数据处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105677801A CN105677801A (zh) | 2016-06-15 |
CN105677801B true CN105677801B (zh) | 2021-06-08 |
Family
ID=56298495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511031504.0A Active CN105677801B (zh) | 2015-12-31 | 2015-12-31 | 一种基于图的数据处理方法和系统 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN105677801B (zh) |
TW (1) | TWI686704B (zh) |
WO (1) | WO2017114455A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677801B (zh) * | 2015-12-31 | 2021-06-08 | 中国银联股份有限公司 | 一种基于图的数据处理方法和系统 |
CN107679160A (zh) * | 2017-09-28 | 2018-02-09 | 深圳市华傲数据技术有限公司 | 基于图数据库的数据处理方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915879A (zh) * | 2014-03-10 | 2015-09-16 | 华为技术有限公司 | 基于金融数据的社会关系挖掘的方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5761664A (en) * | 1993-06-11 | 1998-06-02 | International Business Machines Corporation | Hierarchical data model for design automation |
US8346474B2 (en) * | 2008-08-28 | 2013-01-01 | Honeywell International Inc. | Method of route retrieval |
US8527496B2 (en) * | 2010-02-11 | 2013-09-03 | Facebook, Inc. | Real time content searching in social network |
TWI432985B (zh) * | 2011-01-19 | 2014-04-01 | Univ Nat Cheng Kung | 演算法之本質資料傳輸率量化方法 |
US8984019B2 (en) * | 2012-11-20 | 2015-03-17 | International Business Machines Corporation | Scalable summarization of data graphs |
CN103345508B (zh) * | 2013-07-04 | 2016-09-21 | 北京大学 | 一种适用于社会网络图的数据存储方法及系统 |
TWI515576B (zh) * | 2013-12-30 | 2016-01-01 | 財團法人工業技術研究院 | 巨資系統的資料分派處理方法及其系統 |
CN105005931A (zh) * | 2014-04-24 | 2015-10-28 | 中国银联股份有限公司 | 转账交易的风险控制方法及装置 |
CN104809249A (zh) * | 2015-05-18 | 2015-07-29 | 北京嘀嘀无限科技发展有限公司 | 数据结构的处理方法和系统 |
CN105205104A (zh) * | 2015-08-26 | 2015-12-30 | 成都布林特信息技术有限公司 | 一种云平台数据获取方法 |
CN105677801B (zh) * | 2015-12-31 | 2021-06-08 | 中国银联股份有限公司 | 一种基于图的数据处理方法和系统 |
-
2015
- 2015-12-31 CN CN201511031504.0A patent/CN105677801B/zh active Active
-
2016
- 2016-12-27 TW TW105143384A patent/TWI686704B/zh active
- 2016-12-29 WO PCT/CN2016/112957 patent/WO2017114455A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915879A (zh) * | 2014-03-10 | 2015-09-16 | 华为技术有限公司 | 基于金融数据的社会关系挖掘的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
TWI686704B (zh) | 2020-03-01 |
TW201730785A (zh) | 2017-09-01 |
CN105677801A (zh) | 2016-06-15 |
WO2017114455A1 (zh) | 2017-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102880709B (zh) | 数据仓库管理系统和数据仓库管理方法 | |
CN109783490B (zh) | 数据融合方法、装置、计算机设备及存储介质 | |
CN109660574B (zh) | 数据提供方法及装置 | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN111709527A (zh) | 运维知识图谱库的建立方法、装置、设备及存储介质 | |
EP3887920A1 (en) | Graph decomposition for fraudulent transaction analysis | |
WO2017114276A1 (zh) | 基于图的分析用户的方法和系统 | |
US20160110645A1 (en) | System and method for dynamically updating event configuration rule for processing complex event | |
US11669301B2 (en) | Effectively fusing database tables | |
CN105095247A (zh) | 符号数据分析方法和系统 | |
US10423625B2 (en) | Exactly-once semantics for streaming analytics in non-idempotent output operations | |
US11823478B2 (en) | Pseudo labelling for key-value extraction from documents | |
CN105677801B (zh) | 一种基于图的数据处理方法和系统 | |
JP2023553220A (ja) | マルチインスタンスプロセスのためのプロセスマイニング | |
CN111475736A (zh) | 社区挖掘的方法、装置和服务器 | |
US10503696B1 (en) | Maintaining stable record identifiers in the presence of updated data records | |
US20150006498A1 (en) | Dynamic search system | |
CN110795470A (zh) | 一种关联数据获取方法、装置、设备及存储介质 | |
CN106407300B (zh) | 海量交通数据存储方法 | |
CN110019162B (zh) | 实现属性归一的方法和装置 | |
CN117216164A (zh) | 金融数据同步处理方法、装置、设备、介质和程序产品 | |
CN118094024A (zh) | 虚拟资源推送方法、装置、计算机设备和存储介质 | |
CN118069044A (zh) | 芯片数据存储方法、装置、设备、介质和产品 | |
CN118035423A (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN117407418A (zh) | 信息获取方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1226157 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |