CN105512167A - 一种基于混合数据库的多业务用户数据管理系统及其方法 - Google Patents

一种基于混合数据库的多业务用户数据管理系统及其方法 Download PDF

Info

Publication number
CN105512167A
CN105512167A CN201510731348.2A CN201510731348A CN105512167A CN 105512167 A CN105512167 A CN 105512167A CN 201510731348 A CN201510731348 A CN 201510731348A CN 105512167 A CN105512167 A CN 105512167A
Authority
CN
China
Prior art keywords
data
module
user data
cluster
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510731348.2A
Other languages
English (en)
Other versions
CN105512167B (zh
Inventor
倪晓睿
王立栩
冯粤松
麦江杨
黄飚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Guangxin Communications Services Co Ltd
Original Assignee
Guangdong Guangxin Communications Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Guangxin Communications Services Co Ltd filed Critical Guangdong Guangxin Communications Services Co Ltd
Priority to CN201510731348.2A priority Critical patent/CN105512167B/zh
Publication of CN105512167A publication Critical patent/CN105512167A/zh
Application granted granted Critical
Publication of CN105512167B publication Critical patent/CN105512167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于混合数据库的多业务用户数据管理系统及其方法,包括系统出口入口模块,所述出口入口模块用于导入和导出用户数据;分布式处理模块,所述分布式处理模块包括对数据分类模块、数据筛分录入模块、数据整合模块和数据查询模块;数据存储集群,所述数据存储集群包括关系型数据库集群、Hadoop集群和MongoDB集群。本发明采用传统关系型数据库与非关系型数据库相结合的方式对数据进行分类存储,这种混合数据库的存储模式发挥了关系型数据库在处理结构化数据时通用性强和保持数据一致性的优点,同时具备了非关系型数据库针对海量非结构化数据较强的读写能力以及架构模块高可扩展性等特点。

Description

一种基于混合数据库的多业务用户数据管理系统及其方法
技术领域
本发明涉及一种用户数据管理系统和方法,尤其是涉及一种基于混合数据库的多业务用户数据管理系统及其方法。
背景技术
关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。由于具有保持数据一致性、丰富的完整性、数据库维护量小、技术发展成熟等突出优势,关系型数据库已成为应用广泛的通用型数据库。但是近年来,随着互联网的兴起,传统的关系数据库在应付各行各业服务应用,特别是超大规模和高并发的SNS类型的web2.0纯动态网站及海量数据计算时已经显得力不从心,暴露了很多难以克服的问题,而非关系型数据库则由于本身高性能并发读写能力、海量数据的高效读写、高可扩展性和可用性等特点得到了非常迅速的发展。
与关系型数据库相比,非关系型数据库最大的优势是它们能高效地处理非结构化的数据,如字符文件、邮件、多媒体、社交媒体等。但非关系型数据库不支持SQL、支持的特性不够丰富、技术尚不成熟等缺点,制约了非关系型数据库的广泛应用。
发明内容
针对上述问题,本发明提出了一种基于混合数据库的多业务用户数据管理系统及其方法,其中采用关系型数据库和非关系型数据库相结合的方式对数据进行存储。
本发明提出一种基于混合数据库的多业务用户数据管理系统,包括:
系统出口入口模块,所述出口入口模块用于导入和导出用户数据;
分布式处理模块,所述分布式处理模块包括对所述用户数据进行数据分类的数据分类模块、对经分类后的用户数据进行筛选和清洗的数据筛分录入模块、对经筛选和清洗后的用户数据进行基础整合的数据整合模块、对经基础整合后的用户数据进行二次整合的数据查询模块;和
数据存储集群系统,所述数据存储集群包括用于存储结构化数据的关系型数据库集群,用于存储需要进行复杂计算的数据的Hadoop集群,用于存储非结构化数据的MongoDB集群。
进一步地,所述系统入口出口模块包括数据接入模块和权限控制模块,所述数据接入模块用于导入用户数据,所述权限控制模块用于处理外来请求权限校验和数据导出。
进一步地,所述数据分类模块、数据筛选录入模块、数据查询模块、数据整合模块之间数据的传输采用生产者消费者模式,并以Redisqueue作为集群消息队列。
进一步地,所述数据存储集群的关系型数据库集群为Redis集群。
本发明提供了一种基于混合数据库的多业务用户数据管理方法,包括如下步骤:
S1:将用户数据导入到系统入口出口模块;
S2:对所述用户数据进行数据分类;
S3:对经分类后的用户数据进行筛选和清洗;
S4:对经筛选和清洗后的用户数据进行基础整合;
S5:对经基础整合后的用户数据进行二次整合;
S6:对经二次整合后的用户数据进行存储,其中结构化数据存储在关系型数据库集群中,需要进行复杂计算的数据存储在Hadoop数据库集群中,非结构化数据存储在MongoDB数据库集群中。
进一步地,步骤S6中所述的关系型数据库集群为Redis数据库集群。
本发明采用传统关系型数据库与非关系型数据库相结合的方式对数据进行分类存储,这种混合数据库的存储模式发挥了关系型数据库在处理结构化数据时通用性强和保持数据一致性的优点,同时具备了非关系型数据库针对海量非结构化数据较强的读写能力以及架构模块高可扩展性等特点。
附图说明
图1是本发明一种基于混合数据库的多业务用户数据管理系统的一个实施例的结构示意图。
图2是本发明一种基于混合数据库的多业务用户数据管理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一种基于混合数据库的多业务用户数据管理系统,包括:
系统出口入口模块1,所述出口入口模块1用于导入和导出用户数据;
分布式处理模块2,所述分布式处理模块2包括对所述用户数据进行数据分类的数据分类模块21、对经分类后的用户数据进行筛选和清洗的数据筛分录入模块22、对经筛选和清洗后的用户数据基础整合的数据整合模块24、对经基础整合后的用户数据进行二次整合的数据查询模块23;和
数据存储集群系统3,所述数据存储集群模块3包括用于存储结构化数据的关系型数据库集群31,用于存储需要进行复杂计算的数据的Hadoop集群32,用于存储非结构化数据的MongoDB集群33。
在本发明一个优选的实施例中,所述系统入口出口模块1包括数据接入模块11和权限控制模块12,所述数据接入模块11用于导入用户数据,所述权限控制模块12用于处理外来请求权限校验和数据导出。针对数据的导入导出,本系统提供了http和文件型两种方式,其中http方式采用nginx+tomcat集群,以scaleout模式来实现大批量高并发数据的导入导出,可突破传统scaleup模式带来的性能瓶颈并减少开支;文件型导入导出则采用fastdfs集群文件服务器,可有效完成海量数据文件的导入导出。
在本发明的另一个优选的实施例中,所述数据分类模块21、数据筛选录入模块22、数据查询模块23、数据整合模块24之间数据的传输采用生产者消费者模式,并以Redisqueue作为集群消息队列。采用生产者消费者模式可通过自由增加或减少系统的节点数进行性能调节,降低系统间的耦合,实现自由增加或减少服务器而不需要改动任何其它的服务器。数据分类模块21主要提供业务分类服务;由数据分类模块21分类后进入数据筛选录入模块22,数据筛选录入模块22主要提供数据筛选、清洗服务;数据整合模块24是对所有录入的数据进行基础整合归纳;数据查询模块23主要是基于业务需求的个性化请求对初步整合归纳的录入数据进行二次整合分析,同时将整合数据中的结构化数据存储在关系型数据库中,充分发挥关系型数据库处理小数据通用性强及查询整合灵活多变的特点。
在本发明的某些实施例中,所述数据存储集群3的关系型数据库集群31为Redis集群。数据存储集群模块31包括有Redis集群31、Hadoop集群32、MongoDB集群33,分别提供了Redis、Hadoop、MongoDB三种数据库存储方式。其中Redis集群31采用master/slave的HA架构,主要用于队列管理及临时存储功能。Hadoop集群32包含了MR,hdfs,spark等Hadoop生态系统,主要提供基础存储能力和计算能力,同时具备K-mean算法,shift-k-mean算法,KNN算法,贝叶斯算法等基础算法,MongoDB集群33采用分片加上HA架构主要负责分类、筛选、清洗后的初始数据和二次整合数据的存储,以备数据查询系统进行数据查询与调用。
shift-k-mean算法主要通过对较为规范的样本点进行归类,初始k值为2,原因是线性多维空间点可以通过Y=K1X1+K2X2+K3X3......+K(n-1)X(n-1)+KnXn表示,而简写为Y=f(Xn),以其最简单地可看为一条直线,2个不在同一直线的随机坐标点可以定位出一条直线,因此以2为初始值,计算k-mean,以中心点离最远点的距离标为f1,阀值为f2(通过系统优化发现阀值选为各中心之间距离的中值*1.5为佳),当存在f1>f2时候则k值+1,新的中心点为该最远点,重新计算k-mean,重复直到f1<f2,由此算法可以解决在准确的大数据集里计算k-mean时难以准确设定k值的困难。由于本系统的数据来源于用户实际购买情况,数据精确且由数据分类模块21、数据筛选录入模块22对数据进行清洗,因此符合该算法使用场景。
请参见图2,本发明还提供了一种基于混合数据库的多业务用户数据管理方法,包括如下步骤:
S1:将用户数据导入到系统入口出口模块;
S2:对所述用户数据进行数据分类;
S3:对经分类后的用户数据进行筛选和清洗;
S4:对经筛选和清洗后的用户数据进行基础整合;
S5:对经基础整合后的用户数据进行二次整合;
S6:对经二次整合后的用户数据进行存储,其中结构化数据存储在关系型数据集群中,需要进行复杂计算的数据存储在Hadoop数据库集群中,非结构化数据存储在MongoDB数据库集群中。
进一步地,所述步骤S6中所述的关系型数据库集群为Redis数据库。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种基于混合数据库的多业务用户数据管理系统,其特征在于,包括:
系统出口入口模块,所述出口入口模块用于导入和导出用户数据;
分布式处理模块,所述分布式处理模块包括对所述用户数据进行数据分类的数据分类模块、对经分类后的用户数据进行筛选和清洗的数据筛分录入模块、对经筛选和清洗后的用户数据进行基础整合的数据整合模块、对经基础整合后的用户数据进行二次整合的数据查询模块;
数据存储集群,所述数据存储集群包括用于存储结构化数据的关系型数据库集群,用于存储需要进行复杂计算的数据的Hadoop集群,用于存储非结构化数据的MongoDB集群。
2.根据权利要求1所述的基于混合数据库的多业务用户数据管理系统,其特征在于,所述系统入口出口模块包括数据接入模块和权限控制模块,所述数据接入模块用于导入用户数据,所述权限控制模块用于处理外来请求权限校验和数据导出。
3.根据权利要求1所述的基于混合数据库的多业务用户数据管理系统,所述数据分类模块、数据筛选录入模块、数据查询模块、数据整合系统之间数据的传输采用生产者消费者模式,并以Redisqueue作为集群消息队列。
4.根据前述权利要求中的任一项所述的基于混合数据库的多业务用户数据管理系统,所述数据存储集群的关系型数据库集群为Redis集群。
5.一种基于混合数据库的多业务用户数据管理方法,其特征在于,包括如下步骤:
S1:将用户数据导入到系统入口出口模块;
S2:对所述用户数据进行数据分类;
S3:对经分类后的用户数据进行筛选和清洗;
S4:对经筛选和清洗后的用户数据进行基础整合;
S5:对经基础整合后的用户数据进行二次整合;
S6:对经二次整合后的用户数据进行存储,其中结构化数据存储在关系型数据库集群中,需要进行复杂计算的数据存储在Hadoop数据库集群中,非结构化数据存储在MongoDB数据库集群中。
6.根据权利要求5所述的基于混合数据库的多业务用户数据管理方法,其特征在于,步骤S6中所述的关系型数据库集群为Redis数据库集群。
CN201510731348.2A 2015-10-30 2015-10-30 一种基于混合数据库的多业务用户数据管理系统及其方法 Active CN105512167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510731348.2A CN105512167B (zh) 2015-10-30 2015-10-30 一种基于混合数据库的多业务用户数据管理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510731348.2A CN105512167B (zh) 2015-10-30 2015-10-30 一种基于混合数据库的多业务用户数据管理系统及其方法

Publications (2)

Publication Number Publication Date
CN105512167A true CN105512167A (zh) 2016-04-20
CN105512167B CN105512167B (zh) 2018-01-23

Family

ID=55720149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510731348.2A Active CN105512167B (zh) 2015-10-30 2015-10-30 一种基于混合数据库的多业务用户数据管理系统及其方法

Country Status (1)

Country Link
CN (1) CN105512167B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956029A (zh) * 2016-04-25 2016-09-21 吉林大学 混合存储架构下的数据访问方法
CN106227791A (zh) * 2016-07-20 2016-12-14 广东电网有限责任公司 一种数据存储架构
CN106598872A (zh) * 2017-01-03 2017-04-26 百融(北京)金融信息服务股份有限公司 智能设备应用程序处理系统和方法
CN106776903A (zh) * 2016-11-30 2017-05-31 国网重庆市电力公司电力科学研究院 一种适用于智能电网营配调的大数据共享系统及方法
CN106844546A (zh) * 2016-12-30 2017-06-13 江苏号百信息服务有限公司 基于Spark集群的多数据源位置信息融合方法及系统
CN107463661A (zh) * 2017-07-31 2017-12-12 小草数语(北京)科技有限公司 数据的导入方法及装置
CN108074086A (zh) * 2016-11-14 2018-05-25 咪咕音乐有限公司 计费系统
CN108123963A (zh) * 2018-01-19 2018-06-05 深圳市易仓科技有限公司 一种跨境电商的api辅助系统及处理方法
CN108536833A (zh) * 2018-04-12 2018-09-14 成都信息工程大学 一种分布式、面向大数据的数据库及其构建方法
CN108848108A (zh) * 2018-07-25 2018-11-20 贵州电网有限责任公司 基于移动互联网+的创新项目pdca过程管理平台
CN109165207A (zh) * 2018-07-16 2019-01-08 华南农业大学 基于Hadoop的饮用水海量数据存储管理方法和系统
CN109947706A (zh) * 2019-02-13 2019-06-28 上海泉涸信息科技有限公司 文件管理系统及文件管理方法
CN111897824A (zh) * 2020-03-25 2020-11-06 上海云励科技有限公司 数据操作方法、装置、设备和存储介质
CN113535746A (zh) * 2021-09-13 2021-10-22 环球数科集团有限公司 一种非关系型数据通过随机序列读写后控制一致性的方法
CN114841678A (zh) * 2022-06-28 2022-08-02 成都明途科技有限公司 岗位数据交换方法、数据交换系统,服务器及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073706A (zh) * 2010-12-30 2011-05-25 北京锐安科技有限公司 分布式文件存储系统和关系数据库的结合应用方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理系统及处理方法
CN104063372A (zh) * 2013-03-18 2014-09-24 江苏真云计算科技有限公司 混合数据库存储模型
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073706A (zh) * 2010-12-30 2011-05-25 北京锐安科技有限公司 分布式文件存储系统和关系数据库的结合应用方法
CN104063372A (zh) * 2013-03-18 2014-09-24 江苏真云计算科技有限公司 混合数据库存储模型
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104021194A (zh) * 2014-06-13 2014-09-03 浪潮(北京)电子信息产业有限公司 一种面向行业大数据多样性应用的混合型处理系统及处理方法
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956029B (zh) * 2016-04-25 2019-06-07 吉林大学 混合存储架构下的数据访问方法
CN105956029A (zh) * 2016-04-25 2016-09-21 吉林大学 混合存储架构下的数据访问方法
CN106227791A (zh) * 2016-07-20 2016-12-14 广东电网有限责任公司 一种数据存储架构
CN106227791B (zh) * 2016-07-20 2020-02-07 广东电网有限责任公司 一种数据存储架构
CN108074086A (zh) * 2016-11-14 2018-05-25 咪咕音乐有限公司 计费系统
CN106776903A (zh) * 2016-11-30 2017-05-31 国网重庆市电力公司电力科学研究院 一种适用于智能电网营配调的大数据共享系统及方法
CN106844546A (zh) * 2016-12-30 2017-06-13 江苏号百信息服务有限公司 基于Spark集群的多数据源位置信息融合方法及系统
CN106598872A (zh) * 2017-01-03 2017-04-26 百融(北京)金融信息服务股份有限公司 智能设备应用程序处理系统和方法
CN107463661A (zh) * 2017-07-31 2017-12-12 小草数语(北京)科技有限公司 数据的导入方法及装置
CN108123963A (zh) * 2018-01-19 2018-06-05 深圳市易仓科技有限公司 一种跨境电商的api辅助系统及处理方法
CN108536833A (zh) * 2018-04-12 2018-09-14 成都信息工程大学 一种分布式、面向大数据的数据库及其构建方法
CN109165207A (zh) * 2018-07-16 2019-01-08 华南农业大学 基于Hadoop的饮用水海量数据存储管理方法和系统
CN109165207B (zh) * 2018-07-16 2021-11-26 华南农业大学 基于Hadoop的饮用水海量数据存储管理方法和系统
CN108848108A (zh) * 2018-07-25 2018-11-20 贵州电网有限责任公司 基于移动互联网+的创新项目pdca过程管理平台
CN109947706A (zh) * 2019-02-13 2019-06-28 上海泉涸信息科技有限公司 文件管理系统及文件管理方法
CN111897824A (zh) * 2020-03-25 2020-11-06 上海云励科技有限公司 数据操作方法、装置、设备和存储介质
CN113535746A (zh) * 2021-09-13 2021-10-22 环球数科集团有限公司 一种非关系型数据通过随机序列读写后控制一致性的方法
CN113535746B (zh) * 2021-09-13 2021-11-23 环球数科集团有限公司 一种非关系型数据通过随机序列读写后控制一致性的方法
CN114841678A (zh) * 2022-06-28 2022-08-02 成都明途科技有限公司 岗位数据交换方法、数据交换系统,服务器及存储介质

Also Published As

Publication number Publication date
CN105512167B (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
CN105512167A (zh) 一种基于混合数据库的多业务用户数据管理系统及其方法
CN110618983B (zh) 基于json文档结构的工业大数据多维分析与可视化方法
Furht et al. Introduction to big data
CN104123374B (zh) 分布式数据库中聚合查询的方法及装置
CN112269792B (zh) 数据查询方法、装置、设备及计算机可读存储介质
CN103440288A (zh) 一种大数据存储方法及装置
US10268749B1 (en) Clustering sparse high dimensional data using sketches
CN103955502A (zh) 一种可视化olap的应用实现方法及系统
CN205750780U (zh) 一种基于混合数据库的多业务用户数据管理系统
Mohammed et al. A review of big data environment and its related technologies
CN104317789A (zh) 构建乘客社交网络的方法
CN102270232A (zh) 一种存储优化的语义数据查询系统
CN105159971B (zh) 一种云平台数据检索方法
Gao et al. Real-time social media retrieval with spatial, temporal and social constraints
CN106294805A (zh) 数据处理方法及装置
El Bousty et al. Investigating business intelligence in the era of big data: Concepts, benefits and challenges
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN112215655B (zh) 一种客户画像的标签管理方法及系统
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
Sabah et al. Big data with decision tree induction
Beri et al. Comparative analysis of big data management for social networking sites
CN113836141B (zh) 一种基于分布模型下的大数据交叉索引方法
CN110347755A (zh) 一种基于Hadoop和HBase的大数据多维数据分析方法及系统
US10397326B2 (en) IRC-Infoid data standardization for use in a plurality of mobile applications
CN114896285A (zh) 一种基于多维中间态聚合的银行流计算业务实时指标系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant