CN108304454A - 基于大数据的发票数据实时聚合装置 - Google Patents

基于大数据的发票数据实时聚合装置 Download PDF

Info

Publication number
CN108304454A
CN108304454A CN201711369768.6A CN201711369768A CN108304454A CN 108304454 A CN108304454 A CN 108304454A CN 201711369768 A CN201711369768 A CN 201711369768A CN 108304454 A CN108304454 A CN 108304454A
Authority
CN
China
Prior art keywords
data
module
preprocessed
result
invoice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711369768.6A
Other languages
English (en)
Other versions
CN108304454B (zh
Inventor
李浩浩
李泽然
王春波
张泽
白光佩
刘冬娜
王彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elephant Hui Yun Information Technology Co Ltd
Original Assignee
Elephant Hui Yun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elephant Hui Yun Information Technology Co Ltd filed Critical Elephant Hui Yun Information Technology Co Ltd
Publication of CN108304454A publication Critical patent/CN108304454A/zh
Application granted granted Critical
Publication of CN108304454B publication Critical patent/CN108304454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/10Tax strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明实施例提供一种基于大数据的发票数据实时聚合装置,包括:数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据;数据处理模块对目标数据进行预处理,得到预处理数据;数据聚合模块对预处理数据进行聚合,得到结果数据;数据维度展现模块展现结果数据。本发明实施例的基于大数据的发票数据实时聚合装置,数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据,数据处理模块对目标数据进行预处理,得到预处理数据,数据聚合模块对预处理数据进行聚合,得到结果数据,数据维度展现模块展现结果数据,从而实现对电子发票数据的处理分析。

Description

基于大数据的发票数据实时聚合装置
技术领域
本发明涉及金融领域,特别是涉及一种基于大数据的发票数据实时聚合装置。
背景技术
电子发票是信息时代的产物,同普通发票一样,采用税务局统一发放的形式给商家使用,发票号码采用全国统一编码,采用统一防伪技术,分配给商家,在电子发票上附有电子税局的签名机制。
随着电子发票数量的增长,电子发票数据分析可以得出消费者消费习惯、产品销售情况等信息,如何进行电子发票数据进行分析是当前需要解决的技术问题。
发明内容
本发明实施例提供一种基于大数据的发票数据实时聚合装置,能够进行电子发票数据进行分析。
本发明实施例采用如下技术方案:
一种基于大数据的发票数据实时聚合装置,包括:
数据采集模块、数据处理模块、数据聚合模块、数据维度展现模块;
所述数据采集模块采集电子发票数据处理任务,根据所述数据处理任务采集对应的目标数据;
所述数据处理模块对所述目标数据进行预处理,得到预处理数据;
所述数据聚合模块对所述预处理数据进行聚合,得到结果数据;
所述数据维度展现模块展现所述结果数据。
可选的,还包括:数据缓存模块,所述数据缓存模块将所述目标数据缓存之内存中。
可选的,还包括:结果数据存储模块,所述结果数据存储模块将所述结果数据存储至mysql数据库中。
可选的,所述数据采集模块应用Flume采集所述电子发票数据处理任务。
可选的,所述数据处理模块采用Spark对所述目标数据进行预处理,得到所述预处理数据。
可选的,所述数据聚合模块采用Spark对所述预处理数据进行聚合,得到所述结果数据。
可选的,所述数据维度展现模块应用spring-mvc框架结合echarts展现所述结果数据。
本发明实施例的基于大数据的发票数据实时聚合装置,数据采集模块采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据,数据处理模块对目标数据进行预处理,得到预处理数据,数据聚合模块对预处理数据进行聚合,得到结果数据,数据维度展现模块展现结果数据,从而实现对电子发票数据的处理分析。
附图说明
图1示意性示出了本发明一实施例的基于大数据的发票数据实时聚合装置结构示意图之一;
图2示意性示出了本发明一实施例的基于大数据的发票数据实时聚合装置结构示意图之二。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
如图1所示,本发明实施例提供一种基于大数据的发票数据实时聚合装置,包括:数据采集模块11、数据处理模块12、数据聚合模块13、数据维度展现模块14;
数据采集模块11采集电子发票数据处理任务,根据数据处理任务采集对应的目标数据;
数据处理模块12对目标数据进行预处理,得到预处理数据;
数据聚合模块13对预处理数据进行聚合,得到结果数据;
数据维度展现模块14展现结果数据。
在一个实施例中,如图2所示,该装置还包括:数据缓存模块15,数据缓存模块将目标数据缓存之内存中。
在一个实施例中,如图2所示,该装置还包括:结果数据存储模块16,结果数据存储模块将结果数据存储至mysql数据库中。
在一个实施例中,数据采集模块11应用Flume采集电子发票数据处理任务。
在一个实施例中,数据处理模块12采用Spark对目标数据进行预处理,得到预处理数据。
在一个实施例中,数据聚合模块13采用Spark对预处理数据进行聚合,得到结果数据。
在一个实施例中,数据维度展现模块14应用spring-mvc框架结合echarts展现结果数据。
本发明实施例中,Flume主要负责数据采集模块,Kafka主要负责数据缓存模块(将数据缓存在内存中)、Spark负责数据预处理以及实时聚合计算、Mysql负责存储结果数据,Echarts负责web层的图表展示。
本发明实施例中,Flume(分布式数据采集工具)中采集的数据主要来自于RabitMQ(数据消息队列)消息队列中,主动去消费队列中的数据,队列中的数据包括原始数据,Flume主要负责采集这些数据到kafka队列中,其中flume扮演一个kafka的生产者;Kafka(分布式消息队列)在整个项目中主要负责将原始数据缓存在一个topic中,作为spark(分布式内存计算引擎)的数据源;Spark作为一个最重要的消费者来消费kafka中缓存的原始数据,使用sparkstreaming(java版本)对缓存中的实时数据在基础数据的基础上做统计操作,例如,统计行业分布情况等,并且展示分布图;Mysql(关系型数据库)是本项目中的存储层,其中表的设计是比较关键的部分,其中主要分主表和结果表,主键关联方便查询。Echarts(图形化展示工具)为展示层,主要实时从MySQL查询数据展示在页面中,包括柱状图,环形图,折线图,地图,滚动数据(数字滚动实时递增)。
本发明实施例中,数据源可以在RabitMQ消息队列中,采用了一个别人的中间件使用flume将消息队列中的数据采集到我们负责缓存的kafka中,并对数据进行去重等预处理操作。
本发明实施例中对Kafka(分布式消息队列)数据重复消费和数据丢失解决:记录offset,下一个group consumer(组内消费者)可以接着记录的offset位置继续消费。其中,offset记录方案:每次消费时更新每个topic+partition(主题分区)位置的offset在内存中,Map<key,value>,key=topic+′-′+partition,value=offset,当调用关闭consumer(消费者)线程时,把上面Map(一种缓存数据的k-v存储的集合)的offset数据记录到文件中。下一次启动consumer,需要读取上一次的offset信息,方法是以当前的topic+partition为key,从上次的Map中去寻找offset。然后使用consumer.seek()(消费者的一个方法)方法指定到上次的offset位置。
本发明实施例应用spark消费kafka对列中的数据,并对各个指标和维度进行实时的计算聚合操作,将计算好的结果数据放置在预先设计好的mysql数据库中,利用spring-mvc框架结合echarts进行前端数据图表的展示。
本发明实施例可以实现将电子发票以图表的形式进行实时聚合计算,实时掌握发票流动、时间地域分布等,通过某些维度,对企业运营以及产品的输出带来决策引导。
如下就本发明实施例中发票数据的时间地域做详细介绍:MySQL中会存储根据时间地域维度使用spark(分布式内存计算引擎)计算好的实时数据,例如:数量展示柱状图,地区分布地图,以颜色深浅为例,颜色越深表示该地区数据量越大;MySQL中会存储一天中当前时刻的统计数量,展示一天中24个小时每个小时的统计,从中观察变化趋势。
本发明实施例中Spark实时计算详解如下:
Spark Streaming(实时计算框架)是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,即将Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作,将RDD经过操作变成中间结果保存在内存中。整个流式计算根据业务的需求可以对中间的结果进行叠加或者存储到外部设备(MySQL)。
本发明实施例对电子发票数据进行处理,从而可以从用户的日常消费中看到用户活动的地域、时间、以及全国范围内,人们的消费习惯,为数据挖掘以及分析提供可靠的方向。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于大数据的发票数据实时聚合装置,其特征在于,包括:
数据采集模块、数据处理模块、数据聚合模块、数据维度展现模块;
所述数据采集模块采集电子发票数据处理任务,根据所述数据处理任务采集对应的目标数据;
所述数据处理模块对所述目标数据进行预处理,得到预处理数据;
所述数据聚合模块对所述预处理数据进行聚合,得到结果数据;
所述数据维度展现模块展现所述结果数据。
2.根据权利要求1所述的装置,其特征在于,还包括:数据缓存模块,所述数据缓存模块将所述目标数据缓存之内存中。
3.根据权利要求1所述的装置,其特征在于,还包括:结果数据存储模块,所述结果数据存储模块将所述结果数据存储至关系型数据库mysql数据库中。
4.根据权利要求1至3中任一项所述的装置,其特征在于,所述数据采集模块应用分布式数据采集工具Flume采集所述电子发票数据处理任务。
5.根据权利要求1至3中任一项所述的装置,其特征在于,所述数据处理模块采用Spark对所述目标数据进行预处理,得到所述预处理数据。
6.根据权利要求1至3中任一项所述的装置,其特征在于,所述数据聚合模块采用Spark对所述预处理数据进行聚合,得到所述结果数据。
7.根据权利要求1至3中任一项所述的装置,其特征在于,所述数据维度展现模块应用spring-mvc框架结合echarts展现所述结果数据。
CN201711369768.6A 2017-11-27 2017-12-18 基于大数据的发票数据实时聚合装置 Active CN108304454B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017112103055 2017-11-27
CN201711210305 2017-11-27

Publications (2)

Publication Number Publication Date
CN108304454A true CN108304454A (zh) 2018-07-20
CN108304454B CN108304454B (zh) 2022-05-17

Family

ID=62870603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711369768.6A Active CN108304454B (zh) 2017-11-27 2017-12-18 基于大数据的发票数据实时聚合装置

Country Status (1)

Country Link
CN (1) CN108304454B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325839A (zh) * 2018-09-20 2019-02-12 电子科技大学 一种基于大数据中心的增值税发票应用分析系统
CN110399067A (zh) * 2019-07-31 2019-11-01 江苏满运软件科技有限公司 可视化埋点方法、装置、电子设备、存储介质
CN110955654A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 多维度的指标计算方法及装置
CN111222927A (zh) * 2019-12-26 2020-06-02 大象慧云信息技术有限公司 一种对发票数据的进行实时采集的方法及系统
CN111222930A (zh) * 2020-01-02 2020-06-02 大象慧云信息技术有限公司 支持大屏幕展示的发票监控方法、装置及系统
TWI813296B (zh) * 2022-05-19 2023-08-21 東方線上股份有限公司 生活圈推估系統與方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226624A (zh) * 2008-02-15 2008-07-23 上海申通轨道交通研究咨询有限公司 轨道交通票务数据分级分类处理系统及其方法
US20110238647A1 (en) * 2010-03-23 2011-09-29 Samtec Inc. System for event-based intelligent-targeting
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN103870983A (zh) * 2014-02-28 2014-06-18 浪潮软件集团有限公司 一种基于云计算和密码技术的电子发票安全管理服务系统
CN104463648A (zh) * 2014-12-29 2015-03-25 浪潮软件集团有限公司 一种基于网络发票的大数据系统及处理方法
CN104463644A (zh) * 2014-11-21 2015-03-25 重庆远见信息产业集团有限公司 一种采用机顶盒接收电子发票凭证的系统及方法
CN104598634A (zh) * 2015-02-06 2015-05-06 浪潮集团有限公司 一种电子商务税源管理分析方法
US20160225066A1 (en) * 2013-09-30 2016-08-04 Ricoh Company, Ltd. Processing Electronic Data Across Network Devices
CN106570690A (zh) * 2016-10-25 2017-04-19 王岱 一种数据采集方法、装置及系统
CN106873945A (zh) * 2016-12-29 2017-06-20 中山大学 基于批处理和流式处理的数据处理架构及数据处理方法
CN106919685A (zh) * 2017-03-02 2017-07-04 浪潮软件集团有限公司 一种海量数据文件处理方法
CN107169143A (zh) * 2017-06-15 2017-09-15 易联众信息技术股份有限公司 一种高效的海量舆情数据信息集群匹配方法
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107292517A (zh) * 2017-06-20 2017-10-24 科技谷(厦门)信息技术有限公司 基于大数据分析的民航安保信息服务系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226624A (zh) * 2008-02-15 2008-07-23 上海申通轨道交通研究咨询有限公司 轨道交通票务数据分级分类处理系统及其方法
US20110238647A1 (en) * 2010-03-23 2011-09-29 Samtec Inc. System for event-based intelligent-targeting
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
US20160225066A1 (en) * 2013-09-30 2016-08-04 Ricoh Company, Ltd. Processing Electronic Data Across Network Devices
CN103870983A (zh) * 2014-02-28 2014-06-18 浪潮软件集团有限公司 一种基于云计算和密码技术的电子发票安全管理服务系统
CN104463644A (zh) * 2014-11-21 2015-03-25 重庆远见信息产业集团有限公司 一种采用机顶盒接收电子发票凭证的系统及方法
CN104463648A (zh) * 2014-12-29 2015-03-25 浪潮软件集团有限公司 一种基于网络发票的大数据系统及处理方法
CN104598634A (zh) * 2015-02-06 2015-05-06 浪潮集团有限公司 一种电子商务税源管理分析方法
CN106570690A (zh) * 2016-10-25 2017-04-19 王岱 一种数据采集方法、装置及系统
CN106873945A (zh) * 2016-12-29 2017-06-20 中山大学 基于批处理和流式处理的数据处理架构及数据处理方法
CN106919685A (zh) * 2017-03-02 2017-07-04 浪潮软件集团有限公司 一种海量数据文件处理方法
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107169143A (zh) * 2017-06-15 2017-09-15 易联众信息技术股份有限公司 一种高效的海量舆情数据信息集群匹配方法
CN107292517A (zh) * 2017-06-20 2017-10-24 科技谷(厦门)信息技术有限公司 基于大数据分析的民航安保信息服务系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALI ADABI ET AL.: "SEADS: A modifiable platform for real time monitoring of residential appliance energy consumption", 《2015 SIXTH INTERNATIONAL GREEN AND SUSTAINABLE COMPUTING CONFERENCE》 *
陈银: "基于扫描笔的发票识别系统设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325839A (zh) * 2018-09-20 2019-02-12 电子科技大学 一种基于大数据中心的增值税发票应用分析系统
CN110955654A (zh) * 2018-09-26 2020-04-03 北京国双科技有限公司 多维度的指标计算方法及装置
CN110955654B (zh) * 2018-09-26 2023-10-31 北京国双科技有限公司 多维度的指标计算方法及装置
CN110399067A (zh) * 2019-07-31 2019-11-01 江苏满运软件科技有限公司 可视化埋点方法、装置、电子设备、存储介质
CN111222927A (zh) * 2019-12-26 2020-06-02 大象慧云信息技术有限公司 一种对发票数据的进行实时采集的方法及系统
CN111222930A (zh) * 2020-01-02 2020-06-02 大象慧云信息技术有限公司 支持大屏幕展示的发票监控方法、装置及系统
TWI813296B (zh) * 2022-05-19 2023-08-21 東方線上股份有限公司 生活圈推估系統與方法

Also Published As

Publication number Publication date
CN108304454B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN108304454A (zh) 基于大数据的发票数据实时聚合装置
US10691646B2 (en) Split elimination in mapreduce systems
Cui et al. Context preserving dynamic word cloud visualization
US10783213B2 (en) Flexible graph system for accessing organization information
Krstajic et al. Cloudlines: Compact display of event episodes in multiple time-series
CN103098002B (zh) 用于移动设备的信息的基于鱼眼表示
US20180024702A1 (en) Concurrent Display of Search Results from Differing Time-Based Search Queries Executed Across Event Data
CN108027763B (zh) 关系型数据库的调整装置和方法
CN104866434B (zh) 面向多应用的数据存储系统和数据存储、调用方法
CN104166651B (zh) 基于对同类数据对象整合的数据搜索的方法和装置
CN110291518A (zh) 合并树无用单元指标
CN107133342A (zh) 一种IndexR实时数据分析库
CN111475509A (zh) 一种基于大数据的用户画像和多维分析系统
CN109920506A (zh) 医疗统计报告生成方法、装置、设备及存储介质
US10997196B2 (en) Systems and methods for reducing data storage overhead
CN107710201A (zh) 存储数据和从位向量搜索索引取回数据
CN107577436A (zh) 一种数据存储方法及装置
Medeiros et al. The proper use of google trends in forecasting models
CN109657914A (zh) 信息推送方法、装置、计算机设备及存储介质
CN109767269A (zh) 一种游戏数据的处理方法和装置
CN113032420A (zh) 数据查询方法、装置和服务器
CN108920516A (zh) 实时分析方法、系统、装置及计算机可读存储介质
KR20160104067A (ko) 뉴스 타임라인 및 추천된 뉴스 에디션들의 발생
Bendre et al. Faster, higher, stronger: Redesigning spreadsheets for scale
JP2019527398A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant