CN107958046A - 互联网金融大数据仓库分析挖掘方法 - Google Patents

互联网金融大数据仓库分析挖掘方法 Download PDF

Info

Publication number
CN107958046A
CN107958046A CN201711192002.5A CN201711192002A CN107958046A CN 107958046 A CN107958046 A CN 107958046A CN 201711192002 A CN201711192002 A CN 201711192002A CN 107958046 A CN107958046 A CN 107958046A
Authority
CN
China
Prior art keywords
data
data warehouse
mining method
big data
internet finance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711192002.5A
Other languages
English (en)
Inventor
张鹏程
黄凌鹏
官建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiao Hua Internet Financial Services (shenzhen) Co Ltd
Original Assignee
Xiao Hua Internet Financial Services (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiao Hua Internet Financial Services (shenzhen) Co Ltd filed Critical Xiao Hua Internet Financial Services (shenzhen) Co Ltd
Priority to CN201711192002.5A priority Critical patent/CN107958046A/zh
Publication of CN107958046A publication Critical patent/CN107958046A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种互联网金融大数据仓库分析挖掘方法,包括:第一步骤:执行数据同步集成,其中使用大数据工具将数据导入数据仓库中;第二步骤:执行数据处理,其中在数据仓库中进行数据处理,生成基于多维度的用于预定功能的中间表;第三步骤:使用大数据软件,对生成的中间表进行查询分析处理。

Description

互联网金融大数据仓库分析挖掘方法
技术领域
本发明涉及互联网金融领域;更具体地,本发明涉及一种互联网金融大数据仓库分析挖掘方法。
背景技术
信息时代,信息无处不在。对于互联网企业,随着业务的发展,用户的增长,版本的演进,历史数据的堆积,新数据源的接入,数据越来越表现出了以下4个特征:海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。
在互联网金融架构构建之初,业务架构主要是基于mysql、postgresql、oracle、DB2等关系型数据库,这些数据库支持OLTP事务处理,而对于金融业务,其中的核心业务如借款还款必须要用到事务处理。然而,互联网金融,既是金融也是互联网,用户的增多和历史数据的堆积,意味着数据规模在爆发性增长。移动互联网的快节奏,意味着数据流转的时效性。版本的演进,新数据源的接入,意味着数据类型多种多样,而数据对业务的推动性,意味着巨大的数据价值。
这一切,都是原有关系型数据库架构难以实现的。关系型数据库无法支持海量数据,对于动态的数据体系也不友好,单单是跨库联表查询就很难实现,对于其他数据类型尤其是非结构化数据类型(如json文件、nginx日志、数据类型和长度不定的文本数据等)也很难支持。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种针对互联网金融的大数据仓库分析挖掘方法,它整合现有大数据生态系统软件,使得大量的业务数据得以清洗、整合、入库,在数据仓库中进行数据统计、报表展示的浅层的数据分析,同时构建数据模型,进行深入的数据挖掘和机器学习。
根据本发明,提供了一种互联网金融大数据仓库分析挖掘方法,包括:
第一步骤:执行数据同步集成,其中使用大数据工具将数据导入数据仓库中;
第二步骤:执行数据处理,其中在数据仓库中进行数据处理,生成基于多维度的用于预定功能的中间表;
第三步骤:使用大数据软件,对生成的中间表进行查询分析处理。
优选地,查询分析处理包括数据展示,其中使用web数据展示工具,在界面上进行多重维度展示。
优选地,查询分析处理包括数据挖掘和机器学习,其中利用数据引擎对数据仓库进行查询,在数据引擎生成数据模型中间表,然后利用机器学习平台来构建模型。
优选地,所述数据包括关系型数据库表数据、日志文件数据、搜索服务器数据。
优选地,第一步骤在数据仓库的操作数据存储层实现。
优选地,第二步骤在数据仓库的数据集市层实现。
优选地,数据处理包括数据清洗和/或数据整合。
优选地,所述多维度包括用户维度、渠道维度、合同维度、账务维度。
优选地,所述预定功能包括用户画像功能、渠道分析功能、账务统计功能。
优选地,大数据软件包括hive软件、elasticsearch软件、presto软件。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例的互联网金融大数据仓库分析挖掘方法的流程图。
图2示意性地示出了根据本发明优选实施例的互联网金融大数据仓库分析挖掘方法的框图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
图1示意性地示出了根据本发明优选实施例的互联网金融大数据仓库分析挖掘方法的流程图,图2示意性地示出了根据本发明优选实施例的互联网金融大数据仓库分析挖掘方法的框图。
如图1和图2所示,根据本发明优选实施例的互联网金融大数据仓库分析挖掘方法包括:
第一步骤S1:执行数据同步集成,其中使用大数据工具将数据导入数据仓库中;
优选地,所述数据包括关系型数据库表数据、日志文件数据、搜索服务器(ElasticSearch)数据。
具体地,例如,第一步骤S1在数据仓库的操作数据存储(ODS,Operational DataStore)层实现。
第二步骤S2:执行数据处理,其中在数据仓库中进行数据处理,生成基于多维度的用于预定功能的中间表;
具体地,例如,第二步骤S2在数据仓库的数据集市(DW-DM)层实现。
具体地,例如,数据处理包括数据清洗和/或数据整合。
具体地,例如,所述多维度包括用户维度、渠道维度、合同维度、账务维度。
具体地,例如,所述预定功能包括用户画像功能、渠道分析功能、账务统计功能。
第三步骤S3:使用大数据软件,对生成的中间表进行查询分析处理。
大数据软件包括hive、elasticsearch、presto等。
具体地,例如,查询分析处理包括:
(1)数据展示:使用web数据展示工具(例如HUE,Zeppelin等),在界面上进行多重维度展示,例如对用户、金额、账期等多重维度进行展示。如统计报表供业务人员分析使用,监控报表对业务可能的异常进行监控报警。
(2)数据挖掘和机器学习:利用数据引擎(如presto)对数据仓库进行查询,在数据引擎可以生成数据模型中间表,然后利用机器学习平台(如sparkMlib、mahout、predictionIO等)来构建模型。
本发明根据离线同步方式(如sqoop等)和实时同步方式(如logstash、kinesis、kafka等)进行数据同步和集成。本发明根据金融业务的需要,构建数据仓库中的多种数据集市(如用户画像集市、用户行为集市、合同集市)。本发明提供数据平台,可查询数据仓库,进行各种数据分析。本发明在数据平台基础上,生成统计报表、监控报表,以供业务人员分析。生成机器学习模型,供机器学习和数据挖掘。
本发明实现了一种互联网金融数据仓库存储、数据分析、数据挖掘的方法和系统,能够快速接入关系型数据库的事务数据,并能整合多数据源的半结构化(如各种日志)、非结构化数据(如各种图像声音数据),极大的方便了数据统计和分析。
更具体地,传统的金融数据仓库存在以下缺点:1.实时性差。传统金融数据仓库一般只能基于天来统计,而无法做到按小时来统计甚至监控预警。2.扩展性差且性价比低。一旦数据量上升,传统金融数据仓库只能提升服务器性能,即耗时耗力升级困难,同时高性能服务器价格昂贵,且性能提升困难。3.对多数据源适应性差。必须将上面的半结构化数据、非结构化数据整合成表,耗费性能,同时带来不同程度的数据丢失。
与之对应:1.由于数据引擎既可以查询经过处理后的数据仓库,也可以查询实时增量的业务数据,因此本发明可以准实时的对业务数据进行统计和监控,及时发现某些渠道、步骤、应用页面的异常,实现实时的商业智能。2.大数据工具可以通过添加集群节点数目的方式轻松的实现扩展,且扩展过程中集群可以照常运行,集群节点性能相对廉价易得。3.对多种数据源都能很好的支持,采用各种序列化方式应对不同类型数据,同时通过分层将源数据存放,后续数据回溯和重跑也极为方便。
此外,需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种互联网金融大数据仓库分析挖掘方法,其特征在于包括:
第一步骤:执行数据同步集成,其中使用大数据工具将数据导入数据仓库中;
第二步骤:执行数据处理,其中在数据仓库中进行数据处理,生成基于多维度的用于预定功能的中间表;
第三步骤:使用大数据软件,对生成的中间表进行查询分析处理。
2.根据权利要求1所述的互联网金融大数据仓库分析挖掘方法,其特征在于,查询分析处理包括数据展示,其中使用web数据展示工具,在界面上进行多重维度展示。
3.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,查询分析处理包括数据挖掘和机器学习,其中利用数据引擎对数据仓库进行查询,在数据引擎生成数据模型中间表,然后利用机器学习平台来构建模型。
4.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,所述数据包括关系型数据库表数据、日志文件数据、搜索服务器数据。
5.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,第一步骤在数据仓库的操作数据存储层实现。
6.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,第二步骤在数据仓库的数据集市层实现。
7.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,数据处理包括数据清洗和/或数据整合。
8.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,所述多维度包括用户维度、渠道维度、合同维度、账务维度。
9.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,所述预定功能包括用户画像功能、渠道分析功能、账务统计功能。
10.根据权利要求1或2所述的互联网金融大数据仓库分析挖掘方法,其特征在于,大数据软件包括hive软件、elasticsearch软件、presto软件。
CN201711192002.5A 2017-11-24 2017-11-24 互联网金融大数据仓库分析挖掘方法 Pending CN107958046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711192002.5A CN107958046A (zh) 2017-11-24 2017-11-24 互联网金融大数据仓库分析挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711192002.5A CN107958046A (zh) 2017-11-24 2017-11-24 互联网金融大数据仓库分析挖掘方法

Publications (1)

Publication Number Publication Date
CN107958046A true CN107958046A (zh) 2018-04-24

Family

ID=61962474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711192002.5A Pending CN107958046A (zh) 2017-11-24 2017-11-24 互联网金融大数据仓库分析挖掘方法

Country Status (1)

Country Link
CN (1) CN107958046A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857768A (zh) * 2018-12-29 2019-06-07 电大在线远程教育技术有限公司 一种大数据聚合查询方法
CN110147360A (zh) * 2019-04-03 2019-08-20 深圳价值在线信息科技股份有限公司 一种数据整合方法、装置、存储介质和服务器
CN111159689A (zh) * 2019-12-30 2020-05-15 深圳市中易科技有限责任公司 一种支持多系统统一用户管理的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566981A (zh) * 2008-04-24 2009-10-28 长沙创智天马财务软件有限公司 分析处理系统中建立动态虚拟数据仓库的方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
CN107016501A (zh) * 2017-03-28 2017-08-04 浙江力太科技有限公司 一种高效的工业大数据多维分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566981A (zh) * 2008-04-24 2009-10-28 长沙创智天马财务软件有限公司 分析处理系统中建立动态虚拟数据仓库的方法
CN104933112A (zh) * 2015-06-04 2015-09-23 浙江力石科技股份有限公司 分布式互联网交易信息存储处理方法
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
CN107016501A (zh) * 2017-03-28 2017-08-04 浙江力太科技有限公司 一种高效的工业大数据多维分析方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857768A (zh) * 2018-12-29 2019-06-07 电大在线远程教育技术有限公司 一种大数据聚合查询方法
CN109857768B (zh) * 2018-12-29 2023-09-08 电大在线远程教育技术有限公司 一种大数据聚合查询方法
CN110147360A (zh) * 2019-04-03 2019-08-20 深圳价值在线信息科技股份有限公司 一种数据整合方法、装置、存储介质和服务器
CN110147360B (zh) * 2019-04-03 2021-07-30 深圳价值在线信息科技股份有限公司 一种数据整合方法、装置、存储介质和服务器
CN111159689A (zh) * 2019-12-30 2020-05-15 深圳市中易科技有限责任公司 一种支持多系统统一用户管理的方法及系统

Similar Documents

Publication Publication Date Title
US10268704B1 (en) Partitioned distributed database systems, devices, and methods
US8793285B2 (en) Multidimensional tags
CN111971666A (zh) 优化sql查询计划的维度上下文传播技术
CN103853818B (zh) 多维数据的处理方法和装置
CN110674228A (zh) 数据仓库模型构建和数据查询方法、装置及设备
US9934299B2 (en) Systems and methods for interest-driven data visualization systems utilizing visualization image data and trellised visualizations
US20140172776A1 (en) Column smart mechanism for column based database
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
WO2015060893A1 (en) Systems and methods for interest-driven data visualization systems utilizing visualization image data and trellised visualizations
US11886395B2 (en) Processes and systems for onboarding data for a digital duplicate
WO2013130870A1 (en) Interest-driven business intelligence systems and methods of data analysis using interest-driven data pipelines
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
McKnight Information management: strategies for gaining a competitive advantage with data
US10726005B2 (en) Virtual split dictionary for search optimization
CN107958046A (zh) 互联网金融大数据仓库分析挖掘方法
CN111611304A (zh) 知识驱动的联合大数据查询和分析平台
US20220114483A1 (en) Unified machine learning feature data pipeline
Ordonez et al. Extending ER models to capture database transformations to build data sets for data mining
Kumar et al. Knowledge discovery from data mining techniques
CN115408381A (zh) 数据处理方法及相关设备
CN112634004A (zh) 征信数据的血缘图谱分析方法与系统
CN116955468A (zh) 一种基于运行数据分析的生产设备可视化方法
CN106709029A (zh) 基于Hadoop和MySQL的文件分层处理方法及处理系统
CN116483822A (zh) 业务数据预警方法、装置、计算机设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180424

RJ01 Rejection of invention patent application after publication