CN110727680A - 一种数据关联存储方法、电子设备及存储介质 - Google Patents

一种数据关联存储方法、电子设备及存储介质 Download PDF

Info

Publication number
CN110727680A
CN110727680A CN201910913471.4A CN201910913471A CN110727680A CN 110727680 A CN110727680 A CN 110727680A CN 201910913471 A CN201910913471 A CN 201910913471A CN 110727680 A CN110727680 A CN 110727680A
Authority
CN
China
Prior art keywords
association
contact
data
terminal device
terminal equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910913471.4A
Other languages
English (en)
Other versions
CN110727680B (zh
Inventor
闫辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Upower Information Technology Co ltd
Original Assignee
Wuhan Austrian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Austrian Information Technology Co Ltd filed Critical Wuhan Austrian Information Technology Co Ltd
Priority to CN201910913471.4A priority Critical patent/CN110727680B/zh
Publication of CN110727680A publication Critical patent/CN110727680A/zh
Application granted granted Critical
Publication of CN110727680B publication Critical patent/CN110727680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种数据关联存储方法、电子设备及存储介质,该方法包括:基于Spark框架提取各数据库中与终端设备的联系人相关的数据表,将各数据表连接形成联系人数据集;通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中。通过该方案解决现有数据存储方式导致共有联系人处理分析效率低的问题,可以方便终端设备与共有联系人的关联分析,提高分析处理效率。

Description

一种数据关联存储方法、电子设备及存储介质
技术领域
本发明涉及大数据领域,尤其涉及一种数据关联存储方法、电子设备及存储介质。
背景技术
可移动设备中,一般会存储有联系人信息,在设备访问某一网站或app时,用户同意联系人的联系人获取请求后,后台服务器会收集用户终端的设备信息及联系人信息,对用户进行分析画像,方便进行内容推荐、数据备份等。
随着接入设备增多,服务器端数据处理量增大,若简单地将设备信息及联系人信息存储在数据库不同数据表中,设备间共同联系人的整合以及数据分析变得越来越困难。当前,针对设备共有联系人的数据分析,常需要遍历查询数据库中不同数据表,然后进行整合统计,而数据库中数据量较大,导致处理效率较低,同时会影响其他业务的进行。
发明内容
有鉴于此,本发明实施例提供了一种数据关联存储方法、电子设备及存储介质,以解决现有数据存储方式导致数据处理效率低的问题。
在本发明实施例的第一方面,提供了一种数据关联存储方法,包括:
基于Spark框架提取各数据库中与终端设备的联系人相关的数据表,将各数据表连接形成联系人数据集;
通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中。
在本发明实施例的第二方面,提供了一种电子设备,包括:
提取模块,用于基于Spark框架提取各数据库中与终端设备的联系人相关的数据表,将各数据表连接形成联系人数据集;
存储模块,用于通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中。
在本发明实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。
在本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例中,利用大数据并行计算框架Spark提取数据库中与设备联系人相关的数据表,连接各数据表后,通过图计算关联技术,对数据表进行关联分析,将各设备与联系人的关联信息存储至Redis集群中。从而解决了传统设备与联系人整合分析效率低的问题,基于设备与联系人的关联存储,可以方便数据查询提取,有效提高了数据处理效率。在海量移动设备之间的数据存在共性的整合场景下,有效获取移动设备之间的共同联系人信息,并提出了基于图计算的关联算法,通过该算法辅助进行数据关联、提取,从而达到高性能、高可靠、分布式结构处理的目的,同时也增强了服务器系统的扩展性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他附图。
图1为本发明的一个实施例提供的数据关联存储方法的流程示意图;
图2为本发明的一个实施例提供的数据关联存储的电子设备的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述,意指覆盖不排他的包含,如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。
请参阅图1,本发明实施例提供的一种数据关联存储方法的流程示意图,包括:
S101、基于Spark框架提取数据库中与终端设备的联系人相关的数据表,将各数据表连接形成联系人数据集;
所述Spark框架是一种为大规模数据处理提供的计算引擎。基于Spark框架获取各数据库中与终端设备联系相关的数据表,由于数据库中数据量较大,且存在数量实时加入数据库,传统的遍历查询数据库效率较低。
在数据中存储有与用户终端设备相关的数据项,如设备型号、接入IP、等,还包括与设备的联系人相关的数据项,如联系人号码、姓名、邮箱等。基于联系人信息可以对各终端设备进行关联,即当两台终端设备存在共同联系人,则可以将两台设备关联。
所述联系人数据集中至少包含有终端设备ID信息和联系人信息,将不同数据表通过join操作可将各数据表连接起来,形成终端设备ID信息与联系人信息关联的联系人数据集。
S102、通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中。
所述图计算关联技术是基于顶点和边描述数据对象之间关联关系的数据模型,基于图计算可以建立终端设备与共同联系人的关系模型。图计算可以面对大批量的图数据进行处理,按预定规则建立数据的关联并输出。
示例性的,整合的联系人数据集T(包含设备ID及联系人信息组成)后,可以由三部分组成,并以(key,value)表示:第一部分生成设备ID集X,由移动设备ID哈希值、移动设备ID组成;第二部分生成顶点集Y,由联系人号码哈希值、联系人信息组成;第三部分生成移动设备ID与联系人号码的边集Z,由移动设备ID哈希值、联系人号码哈希值组成。将顶点集Y和边集Z结合GraphX构建图,处理得到邻边信息集和入度为2及以上的号码集,再与设备ID集X进行关联分析后得到结果集,结果集由有关联设备ID及联系人信息组成,其原理是遍历入度号码集匹配邻边信息集和设备ID集,经排序、整合处理得到。再对关联分析后的结果集中的key值(即关联设备ID)进行拆分、分组处理得到设备之间的交集(由设备ID,关联设备ID集合组成),关联设备的共同联系人是由关联分析后得到的结果集经分组得到,最后上述关联关系数据存储到Redis中。
所述关联关系即终端设备与联系人的关联关系,基于终端设备具有的共同联系人,关联各终端设备及对应的共同联系人。
可选的,所述关联关系可包括:终端设备ID以及与终端设备ID存在共同联系人关联的其他终端设备ID集。
可选的,所述关联关系可包括:关联设备ID集以及关联设备间的共同联系人信息集。
对终端设备与联系人的关联关系进行过滤整合,并可以按照键值对应关系存储至Redis集群中,基于终端设备信息或联系人信息可以查询到具有共同联系人的终端设备及对应的共同联系人。
可选的,根据终端设备ID检索获取与所述终端设备ID有共同联系人的关联数据集,并生成所述终端设备ID对应的关联分析图,所述关联数据集中包括关联终端设备信息和共同联系人信息。
示例性的,假设设备ID为A(String),与A有共同联系人关联的终端设备集S(List[String])以及与其对应的共同好友集I(List[User]),则第一部分存储形式为(A,S),第二部分为(S,I),具体的,第一部分如(设备A,List[(A∩B,A∩B∩C)]),由移动设备ID与有关联的移动设备ID集组成;第二部分如(A∩B,List[P1,P2])由关联设备ID与联系人信息集组成(其中,A、B、C均为终端设备,P1、P2表示联系人),这样在数据可视化时从Redis根据设备ID,就可以获取到与不同设备的共同好友的分析图。
优选的,对关联关系数据设置指定的生存周期,到达生命周期后,Redis数据库会自动删除并释放内存,便于新的联系人数据加入,重新计算关联关系,完成数据之间的交替。
本实施例提供的方法,基于图计算关联技术获得终端设备与联系人的关联信息,可以方便查询及可视化分析,能有效提高数据处理效率。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定,
图2为本发明实施例二提供的一种数据关联存储的电子设备的结构示意图,该电子设备包括:
提取模块210,用于基于Spark框架提取各数据库中与终端设备的联系人相关的数据表,将各数据表连接形成联系人数据集;
存储模块220,用于通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中。
可选的,所述各终端设备与联系人的关联关系包括:终端设备ID以及与终端设备ID存在共同联系人关联的其他终端设备ID集。
可选的,所述关联关系还包括:关联设备ID集以及关联设备间的共同联系人信息集。
可选的,所述存储模块220还包括:
获取模块,用于根据终端设备ID检索获取与所述终端设备ID有共同联系人的关联数据集,并生成所述终端设备ID对应的关联分析图,所述关联数据集中包括关联终端设备信息和共同联系人信息。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括步骤S101至S102,所述的存储介质包括如:ROM/RAM、磁碟、光盘等。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据关联存储方法,其特征在于,包括:
基于Spark框架提取各数据库中与终端设备的联系人相关的数据表,将各数据表连接形成联系人数据集;
通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中。
2.根据权利要求1所述的方法,其特征在于,所述各终端设备与联系人的关联关系包括:
终端设备ID以及与终端设备ID存在共同联系人关联的其他终端设备ID集。
3.根据权利要求1所述的方法,其特征在于,所述各终端设备与联系人的关联关系包括:
关联设备ID集以及关联设备间的共同联系人信息集。
4.根据权利要求1所述的方法,其特征在于,所述通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中还包括:
根据终端设备ID检索获取与所述终端设备ID有共同联系人的关联数据集,并生成所述终端设备ID对应的关联分析图,所述关联数据集中包括关联终端设备信息和共同联系人信息。
5.一种电子设备,其特征在于,包括:
提取模块,用于基于Spark框架提取各数据库中与终端设备的联系人相关的数据表,将各数据表连接形成联系人数据集;
存储模块,用于通过图计算关联技术对所述联系人数据集进行关联分析,将各终端设备与联系人的关联关系存储至Redis集群中。
6.根据权利要求5所述的电子设备,其特征在于,所述各终端设备与联系人的关联关系包括:
终端设备ID以及与终端设备ID存在共同联系人关联的其他终端设备ID集。
7.根据权利要求5所述的电子设备,其特征在于,所述各终端设备与联系人的关联关系包括:
关联设备ID集以及关联设备间的共同联系人信息集。
8.根据权利要求5所述的电子设备,其特征在于,所述存储模块还包括:
获取模块,用于根据终端设备ID检索获取与所述终端设备ID有共同联系人的关联数据集,并生成所述终端设备ID对应的关联分析图,所述关联数据集中包括关联终端设备信息和共同联系人信息。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述数据关联存储方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述数据关联存储方法的步骤。
CN201910913471.4A 2019-09-25 2019-09-25 一种数据关联存储方法、电子设备及存储介质 Active CN110727680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910913471.4A CN110727680B (zh) 2019-09-25 2019-09-25 一种数据关联存储方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910913471.4A CN110727680B (zh) 2019-09-25 2019-09-25 一种数据关联存储方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110727680A true CN110727680A (zh) 2020-01-24
CN110727680B CN110727680B (zh) 2023-07-14

Family

ID=69219431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910913471.4A Active CN110727680B (zh) 2019-09-25 2019-09-25 一种数据关联存储方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110727680B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182422A (zh) * 2013-05-28 2014-12-03 中国电信股份有限公司 统一通讯录信息处理方法和系统
US20160092476A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing http and hdfs protocols
CN105577846A (zh) * 2015-12-09 2016-05-11 陈健 在用户间建立关联关系的方法和装置
US20160337278A1 (en) * 2015-05-15 2016-11-17 VoterCircle, Inc. Database systems and methods for integrating data items collected from multiple data sources
US9563687B1 (en) * 2014-11-13 2017-02-07 Amazon Technologies, Inc. Storage configuration in data warehouses
CN106778851A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于手机取证数据的社交关系预测系统及其方法
US20170288989A1 (en) * 2016-03-30 2017-10-05 Adobe Systems Incorporated Systems and Techniques for Determining Associations Between Multiple Types of Data in Large Data Sets
US20180262417A1 (en) * 2015-12-24 2018-09-13 Alibaba Group Holding Limited Method and apparatus for associating network item and calculating association information
CN109726203A (zh) * 2018-12-20 2019-05-07 四川新网银行股份有限公司 一种重构图的数据存储方法
CN109753590A (zh) * 2018-12-07 2019-05-14 中国银行业监督管理委员会福建监管局 一种查询关联信息的方法及终端
CN109800221A (zh) * 2019-02-01 2019-05-24 浪潮软件集团有限公司 一种海量数据关联关系分析方法、装置及系统
CN109903178A (zh) * 2019-04-04 2019-06-18 腾讯科技(深圳)有限公司 一种确定共同社交对象的方法、装置、系统及计算设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182422A (zh) * 2013-05-28 2014-12-03 中国电信股份有限公司 统一通讯录信息处理方法和系统
US20160092476A1 (en) * 2014-09-26 2016-03-31 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing http and hdfs protocols
US9563687B1 (en) * 2014-11-13 2017-02-07 Amazon Technologies, Inc. Storage configuration in data warehouses
US20160337278A1 (en) * 2015-05-15 2016-11-17 VoterCircle, Inc. Database systems and methods for integrating data items collected from multiple data sources
CN105577846A (zh) * 2015-12-09 2016-05-11 陈健 在用户间建立关联关系的方法和装置
US20180262417A1 (en) * 2015-12-24 2018-09-13 Alibaba Group Holding Limited Method and apparatus for associating network item and calculating association information
US20170288989A1 (en) * 2016-03-30 2017-10-05 Adobe Systems Incorporated Systems and Techniques for Determining Associations Between Multiple Types of Data in Large Data Sets
CN106778851A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于手机取证数据的社交关系预测系统及其方法
CN109753590A (zh) * 2018-12-07 2019-05-14 中国银行业监督管理委员会福建监管局 一种查询关联信息的方法及终端
CN109726203A (zh) * 2018-12-20 2019-05-07 四川新网银行股份有限公司 一种重构图的数据存储方法
CN109800221A (zh) * 2019-02-01 2019-05-24 浪潮软件集团有限公司 一种海量数据关联关系分析方法、装置及系统
CN109903178A (zh) * 2019-04-04 2019-06-18 腾讯科技(深圳)有限公司 一种确定共同社交对象的方法、装置、系统及计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毛辰阳: "基于Spark平台及话单分析的人物关系可视化的研究与应用", pages 138 - 982 *

Also Published As

Publication number Publication date
CN110727680B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN109816482B (zh) 电商平台的知识图谱构建方法、装置、设备及存储介质
CN108985954B (zh) 一种建立各标识的关联关系的方法以及相关设备
CN104537341B (zh) 人脸图片信息获取方法和装置
CN113392646A (zh) 一种数据中台系统、构建方法及装置
CN111651751B (zh) 安全事件的分析报告生成方法、装置、存储介质及设备
CN111127185A (zh) 信贷欺诈识别模型构建方法及装置
CN114722974B (zh) 基于事理逻辑和实体知识的多维度图谱融合方法
CN111400448A (zh) 对象的关联关系分析方法及装置
CN115858861A (zh) 视频浓缩方法、电子设备和计算机可读存储介质
CN108875050B (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN112822121A (zh) 流量识别方法、流量确定方法、知识图谱建立方法
CN114385668A (zh) 冷数据清理方法、装置、设备及存储介质
CN114791927A (zh) 一种数据分析方法和装置
CN107220262B (zh) 信息处理方法和装置
CN110209656B (zh) 数据处理方法及装置
CN110727680A (zh) 一种数据关联存储方法、电子设备及存储介质
WO2019153546A1 (zh) 万级维度数据生成方法、装置、设备以及存储介质
CN115829240A (zh) 一种提升甜面酱品质的发酵方法、装置、设备及存储介质
CN113326405B (zh) 基于bim技术的园区入驻推荐方法以及系统
CN115187731A (zh) 一种基于数字孪生的文物复原方法、系统及可存储介质
CN110727532B (zh) 一种数据修复方法、电子设备及存储介质
CN105512230A (zh) 数据存储方法及装置
CN105512232A (zh) 数据存储方法及装置
CN109885733B (zh) 针对目标生成树查询的图数据压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 430000, 1301, 13th Floor, Building 2, Phase I, Guanggu Optoelectronic Information Industry Innovation and Entrepreneurship Base, No. 2 Huanglongshan South Road, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee after: WUHAN UPOWER INFORMATION TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: 430000, No. 2, 5th Floor, Building 24, Zone 3, 3S Geospatial Information Industry Base, Wuda Science and Technology Park, Donghu Development Zone, Wuhan City, Hubei Province

Patentee before: WUHAN UPOWER INFORMATION TECHNOLOGY CO.,LTD.

Country or region before: China