CN108304454B - 基于大数据的发票数据实时聚合装置 - Google Patents

基于大数据的发票数据实时聚合装置 Download PDF

Info

Publication number
CN108304454B
CN108304454B CN201711369768.6A CN201711369768A CN108304454B CN 108304454 B CN108304454 B CN 108304454B CN 201711369768 A CN201711369768 A CN 201711369768A CN 108304454 B CN108304454 B CN 108304454B
Authority
CN
China
Prior art keywords
data
module
offset
result
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711369768.6A
Other languages
English (en)
Other versions
CN108304454A (zh
Inventor
李浩浩
李泽然
王春波
张泽
白光佩
刘冬娜
王彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ele Cloud Information Technology Co ltd
Original Assignee
Ele Cloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ele Cloud Information Technology Co ltd filed Critical Ele Cloud Information Technology Co ltd
Publication of CN108304454A publication Critical patent/CN108304454A/zh
Application granted granted Critical
Publication of CN108304454B publication Critical patent/CN108304454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例提供一种基于大数据的发票数据实时聚合装置,包括:数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据;数据处理模块对目标数据进行预处理,得到预处理数据;数据聚合模块对预处理数据进行聚合,得到结果数据;数据维度展现模块展现结果数据。本发明实施例的基于大数据的发票数据实时聚合装置,数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据,数据处理模块对目标数据进行预处理,得到预处理数据,数据聚合模块对预处理数据进行聚合,得到结果数据,数据维度展现模块展现结果数据,从而实现对电子发票数据的处理分析。

Description

基于大数据的发票数据实时聚合装置
技术领域
本发明涉及金融领域,特别是涉及一种基于大数据的发票数据实时聚合装置。
背景技术
电子发票是信息时代的产物,同普通发票一样,采用税务局统一发放的形式给商家使用,发票号码采用全国统一编码,采用统一防伪技术,分配给商家,在电子发票上附有电子税局的签名机制。
随着电子发票数量的增长,电子发票数据分析可以得出消费者消费习惯、产品销售情况等信息,如何进行电子发票数据进行分析是当前需要解决的技术问题。
发明内容
本发明实施例提供一种基于大数据的发票数据实时聚合装置,能够进行电子发票数据进行分析。
本发明实施例采用如下技术方案:
一种基于大数据的发票数据实时聚合装置,包括:
数据采集模块、数据处理模块、数据聚合模块、数据维度展现模块;
所述数据采集模块采集电子发票数据处理任务,根据所述数据处理任务采集对应的目标数据;
所述数据处理模块对所述目标数据进行预处理,得到预处理数据;
所述数据聚合模块对所述预处理数据进行聚合,得到结果数据;
所述数据维度展现模块展现所述结果数据。
可选的,还包括:数据缓存模块,所述数据缓存模块将所述目标数据缓存之内存中。
可选的,还包括:结果数据存储模块,所述结果数据存储模块将所述结果数据存储至mysql数据库中。
可选的,所述数据采集模块应用Flume采集所述电子发票数据处理任务。
可选的,所述数据处理模块采用Spark对所述目标数据进行预处理,得到所述预处理数据。
可选的,所述数据聚合模块采用Spark对所述预处理数据进行聚合,得到所述结果数据。
可选的,所述数据维度展现模块应用spring-mvc框架结合echarts展现所述结果数据。
本发明实施例的基于大数据的发票数据实时聚合装置,数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据,数据处理模块对目标数据进行预处理,得到预处理数据,数据聚合模块对预处理数据进行聚合,得到结果数据,数据维度展现模块展现结果数据,从而实现对电子发票数据的处理分析。
附图说明
图1示意性示出了本发明一实施例的基于大数据的发票数据实时聚合装置结构示意图之一;
图2示意性示出了本发明一实施例的基于大数据的发票数据实时聚合装置结构示意图之二。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
如图1所示,本发明实施例提供一种基于大数据的发票数据实时聚合装置,包括:数据采集模块11、数据处理模块12、数据聚合模块13、数据维度展现模块14;
数据采集模块11采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据;
数据处理模块12对目标数据进行预处理,得到预处理数据;
数据聚合模块13对预处理数据进行聚合,得到结果数据;
数据维度展现模块14展现结果数据。
在一个实施例中,如图2所示,该装置还包括:数据缓存模块15,数据缓存模块将目标数据缓存之内存中。
在一个实施例中,如图2所示,该装置还包括:结果数据存储模块16,结果数据存储模块将结果数据存储至mysql数据库中。
在一个实施例中,数据采集模块11应用Flume采集电子发票数据处理任务。
在一个实施例中,数据处理模块12采用Spark对目标数据进行预处理,得到预处理数据。
在一个实施例中,数据聚合模块13采用Spark对预处理数据进行聚合,得到结果数据。
在一个实施例中,数据维度展现模块14应用spring-mvc框架结合echarts展现结果数据。
本发明实施例中,Flume主要负责数据采集模块,Kafka主要负责数据缓存模块(将数据缓存在内存中)、Spark负责数据预处理以及实时聚合计算、Mysql负责存储结果数据,Echarts负责web层的图表展示。
本发明实施例中,Flume(分布式数据采集工具)中采集的数据主要来自于RabitMQ(数据消息队列)消息队列中,主动去消费队列中的数据,队列中的数据包括原始数据,Flume主要负责采集这些数据到kafka队列中,其中flume扮演一个kafka的生产者;Kafka(分布式消息队列)在整个项目中主要负责将原始数据缓存在一个topic中,作为spark(分布式内存计算引擎)的数据源;Spark作为一个最重要的消费者来消费kafka中缓存的原始数据,使用sparkstreaming(java版本)对缓存中的实时数据在基础数据的基础上做统计操作,例如,统计行业分布情况等,并且展示分布图;Mysql(关系型数据库)是本项目中的存储层,其中表的设计是比较关键的部分,其中主要分主表和结果表,主键关联方便查询。Echarts(图形化展示工具)为展示层,主要实时从MySQL查询数据展示在页面中,包括柱状图,环形图,折线图,地图,滚动数据(数字滚动实时递增)。
本发明实施例中,数据源可以在RabitMQ消息队列中,采用了一个别人的中间件使用flume将消息队列中的数据采集到我们负责缓存的kafka中,并对数据进行去重等预处理操作。
本发明实施例中对Kafka(分布式消息队列)数据重复消费和数据丢失解决:记录offset,下一个group consumer(组内消费者)可以接着记录的offset位置继续消费。其中,offset记录方案:每次消费时更新每个topic+partition(主题分区)位置的offset在内存中,Map<key,value>,key=topic+′-′+partition,value=offset,当调用关闭consumer(消费者)线程时,把上面Map(一种缓存数据的k-v存储的集合)的offset数据记录到文件中。下一次启动consumer,需要读取上一次的offset信息,方法是以当前的topic+partition为key,从上次的Map中去寻找offset。然后使用consumer.seek()(消费者的一个方法)方法指定到上次的offset位置。
本发明实施例应用spark消费kafka对列中的数据,并对各个指标和维度进行实时的计算聚合操作,将计算好的结果数据放置在预先设计好的mysql数据库中,利用spring-mvc框架结合echarts进行前端数据图表的展示。
本发明实施例可以实现将电子发票以图表的形式进行实时聚合计算,实时掌握发票流动、时间地域分布等,通过某些维度,对企业运营以及产品的输出带来决策引导。
如下就本发明实施例中发票数据的时间地域做详细介绍:MySQL中会存储根据时间地域维度使用spark(分布式内存计算引擎)计算好的实时数据,例如:数量展示柱状图,地区分布地图,以颜色深浅为例,颜色越深表示该地区数据量越大;MySQL中会存储一天中当前时刻的统计数量,展示一天中24个小时每个小时的统计,从中观察变化趋势。
本发明实施例中Spark实时计算详解如下:
Spark Streaming(实时计算框架)是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,即将Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加或者存储到外部设备(MySQL)。
本发明实施例对电子发票数据进行处理,从而可以从用户的日常消费中看到用户活动的地域、时间、以及全国范围内,人们的消费习惯,为数据挖掘以及分析提供可靠的方向。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于大数据的发票数据实时聚合装置,其特征在于,包括:
数据采集模块、数据缓存模块、数据处理模块、数据聚合模块、结果数据存储模块、数据维度展现模块;
所述数据采集模块采集电子发票数据处理任务,根据所述数据处理任务采集对应的目标数据,所述电子发票为全国用户的日常消费的电子发票;
所述数据缓存模块将所述目标数据缓存至内存中,通过分布式消息队列将数据缓存在内存中,解决数据重复消费和数据丢失;所述解决数据重复消费和数据丢失的方法为记录offset,下一个组内消费者可以接着记录的offset位置继续消费;其中,offset记录方案:每次消费时更新每个topic+partition位置的offset在内存中,Map为一种缓存数据的key-value存储的集合;Map<key,value>,key=topic+'-'+partition,value=offset,当调用关闭消费者线程时,把Map的offset数据记录到文件中;下一次启动消费者,需要读取上一次的offset信息,方法是以当前的topic+partition为key,从上次的Map中去寻找offset;然后指定到上次的offset位置;
所述数据处理模块对所述目标数据进行去重的预处理,得到预处理数据;
所述数据聚合模块对所述预处理数据进行聚合,得到结果数据;所述数据聚合模块采用Spark对所述预处理数据进行聚合,得到所述结果数据;
所述结果数据存储模块将所述结果数据存储至关系型数据库mysql数据库中,mysql中存储一天中根据时间地域维度使用spark计算好的实时数据;
所述数据维度展现模块展现所述结果数据;所述数据维度展现模块应用spring-mvc框架结合echarts展现一天中24小时每个小时统计的所述结果数据,所述结果数据为消费者消费习惯、产品销售情况、用户活动的地域和时间。
2.根据权利要求1所述的装置,其特征在于,所述数据采集模块应用分布式数据采集工具Flume采集所述电子发票数据处理任务。
3.根据权利要求1所述的装置,其特征在于,所述数据处理模块采用Spark对所述目标数据进行预处理,得到所述预处理数据。
CN201711369768.6A 2017-11-27 2017-12-18 基于大数据的发票数据实时聚合装置 Active CN108304454B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017112103055 2017-11-27
CN201711210305 2017-11-27

Publications (2)

Publication Number Publication Date
CN108304454A CN108304454A (zh) 2018-07-20
CN108304454B true CN108304454B (zh) 2022-05-17

Family

ID=62870603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711369768.6A Active CN108304454B (zh) 2017-11-27 2017-12-18 基于大数据的发票数据实时聚合装置

Country Status (1)

Country Link
CN (1) CN108304454B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325839A (zh) * 2018-09-20 2019-02-12 电子科技大学 一种基于大数据中心的增值税发票应用分析系统
CN110955654B (zh) * 2018-09-26 2023-10-31 北京国双科技有限公司 多维度的指标计算方法及装置
CN110399067A (zh) * 2019-07-31 2019-11-01 江苏满运软件科技有限公司 可视化埋点方法、装置、电子设备、存储介质
CN111222927A (zh) * 2019-12-26 2020-06-02 大象慧云信息技术有限公司 一种对发票数据的进行实时采集的方法及系统
CN111222930A (zh) * 2020-01-02 2020-06-02 大象慧云信息技术有限公司 支持大屏幕展示的发票监控方法、装置及系统
TWI813296B (zh) * 2022-05-19 2023-08-21 東方線上股份有限公司 生活圈推估系統與方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226624A (zh) * 2008-02-15 2008-07-23 上海申通轨道交通研究咨询有限公司 轨道交通票务数据分级分类处理系统及其方法
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN103870983A (zh) * 2014-02-28 2014-06-18 浪潮软件集团有限公司 一种基于云计算和密码技术的电子发票安全管理服务系统
CN104463644A (zh) * 2014-11-21 2015-03-25 重庆远见信息产业集团有限公司 一种采用机顶盒接收电子发票凭证的系统及方法
CN104463648A (zh) * 2014-12-29 2015-03-25 浪潮软件集团有限公司 一种基于网络发票的大数据系统及处理方法
CN104598634A (zh) * 2015-02-06 2015-05-06 浪潮集团有限公司 一种电子商务税源管理分析方法
CN106873945A (zh) * 2016-12-29 2017-06-20 中山大学 基于批处理和流式处理的数据处理架构及数据处理方法
CN107169143A (zh) * 2017-06-15 2017-09-15 易联众信息技术股份有限公司 一种高效的海量舆情数据信息集群匹配方法
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107292517A (zh) * 2017-06-20 2017-10-24 科技谷(厦门)信息技术有限公司 基于大数据分析的民航安保信息服务系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110238647A1 (en) * 2010-03-23 2011-09-29 Samtec Inc. System for event-based intelligent-targeting
US20150095200A1 (en) * 2013-09-30 2015-04-02 Ricoh Company, Ltd. Purchase Order Matching
CN106570690A (zh) * 2016-10-25 2017-04-19 王岱 一种数据采集方法、装置及系统
CN106919685A (zh) * 2017-03-02 2017-07-04 浪潮软件集团有限公司 一种海量数据文件处理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226624A (zh) * 2008-02-15 2008-07-23 上海申通轨道交通研究咨询有限公司 轨道交通票务数据分级分类处理系统及其方法
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN103870983A (zh) * 2014-02-28 2014-06-18 浪潮软件集团有限公司 一种基于云计算和密码技术的电子发票安全管理服务系统
CN104463644A (zh) * 2014-11-21 2015-03-25 重庆远见信息产业集团有限公司 一种采用机顶盒接收电子发票凭证的系统及方法
CN104463648A (zh) * 2014-12-29 2015-03-25 浪潮软件集团有限公司 一种基于网络发票的大数据系统及处理方法
CN104598634A (zh) * 2015-02-06 2015-05-06 浪潮集团有限公司 一种电子商务税源管理分析方法
CN106873945A (zh) * 2016-12-29 2017-06-20 中山大学 基于批处理和流式处理的数据处理架构及数据处理方法
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107169143A (zh) * 2017-06-15 2017-09-15 易联众信息技术股份有限公司 一种高效的海量舆情数据信息集群匹配方法
CN107292517A (zh) * 2017-06-20 2017-10-24 科技谷(厦门)信息技术有限公司 基于大数据分析的民航安保信息服务系统

Also Published As

Publication number Publication date
CN108304454A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304454B (zh) 基于大数据的发票数据实时聚合装置
CN110515990B (zh) 数据查询展示方法及查询展示系统
CN103336849B (zh) 一种数据库检索系统中提高检索速度的方法及装置
JP5238800B2 (ja) 更新パラメータを生成および相関するキーワードを表示するための方法および装置
KR100402913B1 (ko) 데이타베이스검색을위한병렬처리시스템
WO2017183065A1 (ja) リレーショナルデータベースのチューニング装置及び方法
CN107133342A (zh) 一种IndexR实时数据分析库
KR102641669B1 (ko) 선행지표 예측을 기반으로 한 추천 장치, 추천 시스템, 그 추천 방법, 및 이를 기록한 컴퓨터 판독가능 비휘발성 매체
CN104615526A (zh) 一种大数据平台的监控系统
WO2016160632A1 (en) Navigating event information
CN103488684A (zh) 基于缓存数据多线程处理的电力可靠性指标快速计算方法
CN102708525A (zh) 基于gpu加速的招聘职位智能推荐方法
US11762870B1 (en) Optimization of memory analytics
CA2821201A1 (en) Statistics forecast for range partitioned tables
US20200409955A1 (en) System and method for improved cache utilization using an organizational memory to generate a dashboard
CN108182244B (zh) 一种基于多层次列式存储结构的时序数据存储方法
CN113032420A (zh) 数据查询方法、装置和服务器
CN103944964A (zh) 一种分布式系统及根据该系统进行逐步扩容的方法
CN104765782B (zh) 一种索引排序更新方法及装置
CN105678452A (zh) 一种费用计提的方法及装置
JP2019527398A5 (zh)
CN108920516A (zh) 实时分析方法、系统、装置及计算机可读存储介质
CN110851494A (zh) 一种用于账单分析交易特征行为的方法和系统
US20240161198A1 (en) Custom data
CN106709029A (zh) 基于Hadoop和MySQL的文件分层处理方法及处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant