CN110458678A - 一种基于hadoop校验的财务数据校验方法和系统 - Google Patents

一种基于hadoop校验的财务数据校验方法和系统 Download PDF

Info

Publication number
CN110458678A
CN110458678A CN201910731603.1A CN201910731603A CN110458678A CN 110458678 A CN110458678 A CN 110458678A CN 201910731603 A CN201910731603 A CN 201910731603A CN 110458678 A CN110458678 A CN 110458678A
Authority
CN
China
Prior art keywords
data
verification
financial
node
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910731603.1A
Other languages
English (en)
Other versions
CN110458678B (zh
Inventor
兰玉琳
孙玉芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Jincaiyun Enterprise Service Co ltd
Original Assignee
Weifang Engineering Vocational College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weifang Engineering Vocational College filed Critical Weifang Engineering Vocational College
Priority to CN201910731603.1A priority Critical patent/CN110458678B/zh
Publication of CN110458678A publication Critical patent/CN110458678A/zh
Application granted granted Critical
Publication of CN110458678B publication Critical patent/CN110458678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申请请求保护一种基于hadoop校验的财务数据校验方法和系统通过采用大数据Hadoop平台,MapReduce映射算法将财务分析系统中的校验进行整合化处理,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式,完成数据抽取、转换和装载。在新的系统保证下,校验部门可实施远程校验,无需进驻校验单位查看纸质财务档案,校验效率大大提高,校验时可直接调用某记账凭证下所有原始附件,即使对于基建、预决算这些几百上千页的资料也可以轻松调取,仅需做好权限设定、密级管理即可。

Description

一种基于hadoop校验的财务数据校验方法和系统
技术领域
本申请属于大数据云计算领域,具体地,涉及一种基于hadoop校验的财务数据校验方法和系统。
背景技术
财务一体化已成为推进大财务改革和后勤保障集约化的重要改革方向,优化人力资源配置、满足业务需求、提高保障效率成为改革的主要内容。十八以来,国家财经政策和财务法规的密集出台也对財务保障工作提出了更高的要求。这就对基层财务人员在改革中把握政策法规,提升业务素质形成了巨大的考验,而作为财务管理重要承载介质的财务信息系统也应该作出相应的变革来适应财务一体化的要求。此外,科技发展日新月异,大数据及人工智能成为企事业、机关单位提高财务管理及战略分析能力的重要手段,因此打造财务信息系统一体化平台,建设全国财务信息大数据中心势必成为未来财务的改革方向。
财务保障兼具行业的普遍性和机构的特殊性,作为财务人员需要具备行业共有的技能水平,同时作为一支准军事化的干部队伍,财务人员需要更高的政治素质和业务素养。职能部门的划分就是为了更好的分工协作,做好管理与保障,以保障保管理,以管理促保障。由于各个职能部门所管理的信息系统之间并没有数据的联动和交互功能,就可能随之带来另一方面的问题,不同的职能部门假如相互缺乏有效的协同和配合,就会出现对基层财务的管理要么重复要么真空。分工归根结底应该是岗位不是人,岗位不会变,但是人会动,有的岗位人员流动频繁,有的岗位人员长期无法交流。现有的信息化系统没有将人解放出来。而且部门与部门之间的协调增加了行政办公资源的成本。
建立一个囊括全国财务信息的大数据库,将原始凭单到财务报表的整个流程电子化,所有财务人员按照职能权限使用数据库,配合人工智能、云计算等手段进行数据筛选分析,那么整合后的信息系统将是集财务记录、財务分析、风险监控、智能校验、档案管理为一体的大管理平台,以此为基础的一体化财务可以大大减少人力资源,同时将的服务保障提上一个台阶。因此,如何运用先进的技术手段整合现有的信息化资源,推进财务系统的一体化改革,节约人力成本,同时加强内控管理成为当前亟待解决的问题。
发明内容
本申请就是为了解决上述背景技术中涉及的财务工作管理混乱,尤其是财务数据校验过程中数据分散,校验过程冗余的技术问题,具体地,涉及一种基于hadoop校验的财务数据校验方法和系统。
本发明首先请求保护一种基于hadoop校验的财务数据校验方法,其工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给Hadoop 客户端,其特征在于:
采集来自业务数据源的外部系统财务数据;
规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问财务数据仓库,应用逻辑元数据;
对财务元数据进行管理完成财务校验和数据可视化。
本发明还请求保护一种基于hadoop校验的财务数据校验系统,其由客户端和服务器组成,服务器工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于,该系统具体包括:
外部接入层,采集来自业务数据源的外部系统财务数据;
元数据分析层,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
数据存储层,运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据ETL层,数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问层,数据访问财务数据仓库,应用逻辑元数据;
数据输出层,对财务元数据进行管理完成财务校验和数据可视化。
本申请所涉及的一种基于hadoop校验的财务数据校验方法和系统通过采用大数据Hadoop平台,MapReduce映射算法将财务分析系统中的校验进行整合化处理,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式,校验数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗。在新的系统保证下,校验部门可实施远程校验,无需进驻校验单位查看纸质财务档案,校验效率大大提高,校验时可直接调用某记账凭证下所有原始附件,即使对于基建、预决算这些几百上千页的资料也可以轻松调取,仅需做好权限设定、密级管理即可。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请所请求保护的一种基于hadoop校验的财务数据校验方法的工作流程图;
图2是本申请所请求保护的一种基于hadoop校验的财务数据校验系统的模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照附图1,本申请所请求保护的一种基于hadoop校验的财务数据校验方法的工作流程图:
本发明请求保护一种基于hadoop校验的财务数据校验方法,其工作的每个节点都包含TaskTracker 和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于:
采集来自业务数据源的外部系统财务数据;
规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问财务数据仓库,应用逻辑元数据;
对财务元数据进行管理完成财务校验和数据可视化。
优选的,所述工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker接收 JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,具体包括:
通过修改HDFS的配置文件mapred-default.xml中的dfs.block.size属性 设定HDFS分布式文件系统的数据分块大小,客户端向管理节点传递计算校验Job请求,当计算校验Job完成后由管理节点向客户端返回结果;
用MapReduce计算模型,调度节点上的主控程序将校验Job分为若干校验Job块,计算机集群的每个节点上安装Hadoop并设置好HDFS数据块大小block 和每个节点上可同时运行的Map及Reduce校验Job数量,使 MapReduce能在计算集群中正常运行。
进一步的,所述采集来自业务数据源的外部系统财务数据,具体包括:
将得到的外部系统财务数据部署在服务器集群中的 Master 服务器上,将从其它平台获取的用户信息存储在 Hive 服务器上,Hive服务器包括命名节点NameNode和数据节点DataNode,命名节点NameNode是模型系统中的管理者,主要负责管理文件系统的命名空间、计算节点集群配置信息、存储块的位置等信息,数据节点DataNode负责处理来自命名节点NameNode的读写请求,同时还可以执行数据块的创建、删除和复制;
Master 主机负责接收来自用户的请求,接着调度 Hive服务器处理待财务校验用户的信息数据,还包括JobTracker和TaskTracker,并且最终接收 Hive 服务器处理后的数据作为财务校验方法的输入得到财务校验结果并返回给客户端;
Hive 服务器一方面负责用户数据的分布式存储,另一方面负责根据 Master 的指令提取用户相应的特征并返回给 Master 服务器。
JobTracker负责对计算校验Job进行启动和调度,并且能实时跟踪校验Job的执行情况和计算节点的状态;
TaskTracker则负责向JobTracker请求校验Job以及得到校验Job后在计算节点启动该计算校验Job的运行。
优选的,所述数据访问财务数据仓库,应用逻辑元数据,进一步包括:
按照云平台内分布式数据存储和任务分配机制,将并行程序分发给集群内相应的PC计算节点,进行分布式并行计算,并将结果写入云计算集群的分布式存储环境中;
HDFS 采用经典的主-从模式,一个主节点 NameNode 和多个从节点 DataNode,NameNode 主要用于处理外界客户机的请求以及管理整个 HDFS 系统的命名空间和元数据;
存储文件块在本地文件系统中,保存了文件块的元数据,同时周期性的将自己所拥有文件块的信息发送给 NameNode;
为服务器配置配置 hdfs-site.xml 文件,dfs.name.dir是namenode存储永久性的元数据的目录列表,这个目录会创建在master机上,dfs.data.dir 是 datanode 存放数据块的目录列表,这个目录在 Hive1~Hive3 上都会创建;
MapReduce进度不间断监听云平台集群总控节点的进度查询接口,获取各并行作业的实时进 度,监听进度同时,当某个ETL操作算法或数据挖掘算法执行结束后,服务器分别按照 CWM标准和PMML标准输出结果到服务器存储,服务器将获得的进度信息通过接口封装层同时传送给Web服务器,并由Web 浏览器获得这些进度信息并展示。
进一步地,所述对财务元数据进行管理完成财务校验和数据可视化,具体包括:
提供虚拟机财务数据校验功能,防止虚拟机财务数据被恶意篡改,应采取有关措施保证逻辑卷同一时刻只能被一个虚拟机挂载,在迁移或删除虚拟机后确保数据清理及备份数据清理,比较判断矩阵具有完全一致性,为判断建立的判断矩阵是否可用于层次分析,要对其进行一致性检验;
可视化时通过查询数据库中的信息提供详细、丰富的信息查询功能,数据库中的数据每隔一定时间备份到HDFS系统中做长久保存,数据库本身存储的数据则被清除。
在财务校验对象端运行中,财务校验单位向财务校验对象发送采集财务校验信息的请求,要求财务校验对象利用云平台下载、安装与财务校验数据采集相关的软件或应用程序,同时将其链接到被财务校验单位的财务系统,将财务校验数据通过网络及时传递至云平台。财务校验对象根据财务校验单位的请求将海量数据上传到云平台,并将信息存储在云端,财务校验单位经授权后就能够从云端数据中心获取财务校验所需的数据,进而及时处理、分析数据,获取可靠、相关的财务校验证据。此外,财务校验机关亦可以自行购买、安装及部署数据库服务前端装置,利用该软件能够采集、检测财务校验数据,使得财务校验单位能在线监督财务校验对象数据传输的可靠性和准确性。
财务校验单位与财务校验对象端交互运行过程具有最好的效果,主要是因为财务校验单 位与财务校验对象在该过程中采用两种独立的云平台(如云平台A和B,A云平台和B云平台可以 是相同的或不同的,但两者必须是独立的),进而提高云财务校验系统的安全性和可靠性。一 方面,财务校验单位首先将相应的财务校验请求传递到财务校验云A,然后由A财务校验云分 析、处理财务校验单位的命令或请求,继而向B云平台发送指令,以采集财务校验所需的数据。 另一方面,被财务校验机构在收到云平台B的指令后,被财务校验单位根据要求将相关的信息 通过网络传输到B云平台,由这两种独立且相关的财务校验云平台完成数据问的交换。财务校 验云平台A在获取相关、足量的财务校验数据后,对原始数据进行初步地整合、处理、分析, 并将分析结果发回财务校验单位,最后由财务校验人员进行系统地审查。
参照附图2,本申请所请求保护的一种基于hadoop校验的财务数据校验系统的模块图:
本发明还请求保护一种基于hadoop校验的财务数据校验系统,其由客户端和服务器组成,服务器工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于,该系统具体包括:
外部接入层,采集来自业务数据源的外部系统财务数据;
元数据分析层,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
数据存储层,运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据ETL层,数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问层,数据访问财务数据仓库,应用逻辑元数据;
数据输出层,对财务元数据进行管理完成财务校验和数据可视化。
进一步地,所述由客户端和服务器组成,服务器工作的每个节点都包含TaskTracker 和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,具体包括:
通过修改HDFS的配置文件mapred-default.xml中的dfs.block.size属性 设定HDFS分布式文件系统的数据分块大小,客户端向管理节点传递计算校验Job请求,当计算校验Job完成后由管理节点向客户端返回结果;
用MapReduce计算模型,调度节点上的主控程序将校验Job分为若干校验Job块,计算机集群的每个节点上安装Hadoop并设置好HDFS数据块大小block 和每个节点上可同时运行的Map及Reduce校验Job数量,使 MapReduce能在计算集群中正常运行。
优选的,所述外部接入层,采集来自业务数据源的外部系统财务数据,具体包括:
将得到的外部系统财务数据部署在服务器集群中的 Master 服务器上,将从其它平台获取的用户信息存储在 Hive 服务器上,Hive服务器包括命名节点NameNode和数据节点DataNode,命名节点NameNode是模型系统中的管理者,主要负责管理文件系统的命名空间、计算节点集群配置信息、存储块的位置等信息,数据节点DataNode负责处理来自命名节点NameNode的读写请求,同时还可以执行数据块的创建、删除和复制;
Master 主机负责接收来自用户的请求,接着调度 Hive服务器处理待财务校验用户的信息数据,还包括JobTracker和TaskTracker,并且最终接收 Hive 服务器处理后的数据作为财务校验方法的输入得到财务校验结果并返回给客户端;
Hive 服务器一方面负责用户数据的分布式存储,另一方面负责根据 Master 的指令提取用户相应的特征并返回给 Master 服务器;
JobTracker负责对计算校验Job进行启动和调度,并且能实时跟踪校验Job的执行情况和计算节点的状态;
TaskTracker则负责向JobTracker请求校验Job以及得到校验Job后在计算节点启动该计算校验Job的运行。
优选的,所述数据访问层,数据访问财务数据仓库,应用逻辑元数据,进一步包括:
按照云平台内分布式数据存储和任务分配机制,将并行程序分发给集群内相应的PC计算节点,进行分布式并行计算,并将结果写入云计算集群的分布式存储环境中;
HDFS 采用经典的主-从模式,一个主节点 NameNode 和多个从节点 DataNode,NameNode 主要用于处理外界客户机的请求以及管理整个 HDFS 系统的命名空间和元数据;
存储文件块在本地文件系统中,保存了文件块的元数据,同时周期性的将自己所拥有文件块的信息发送给 NameNode;
为服务器配置配置 hdfs-site.xml 文件,dfs.name.dir是namenode存储永久性的元数据的目录列表,这个目录会创建在master机上,dfs.data.dir 是 datanode 存放数据块的目录列表,这个目录在 Hive1~Hive3 上都会创建;
MapReduce进度不间断监听云平台集群总控节点的进度查询接口,获取各并行作业的实时进度,监听进度同时,当某个ETL操作算法或数据挖掘算法执行结束后,服务器分别按照 CWM标准和PMML标准输出结果到服务器存储,服务器将获得的进度信息通过接口封装层同时传送给Web服务器,并由Web 浏览器获得这些进度信息并展示。
进一步地,所述数据输出层,对财务元数据进行管理完成财务校验和数据可视化,具体包括:
提供虚拟机财务数据校验功能,防止虚拟机财务数据被恶意篡改,应采取有关措施保证逻辑卷同一时刻只能被一个虚拟机挂载,在迁移或删除虚拟机后确保数据清理及备份数据清理,比较判断矩阵具有完全一致性,为判断建立的判断矩阵是否可用于层次分析,要对其进行一致性检验;
可视化时通过查询数据库中的信息提供详细、丰富的信息查询功能,数据库中的数据每隔一定时间备份到HDFS系统中做长久保存,数据库本身存储的数据则被清除。
在财务校验对象端运行中,财务校验单位向财务校验对象发送采集财务校验信息的请求,要求财务校验对象利用云平台下载、安装与财务校验数据采集相关的软件或应用程序,同时将其链接到被财务校验单位的财务系统,将财务校验数据通过网络及时传递至云平台。财务校验对象根据财务校验单位的请求将海量数据上传到云平台,并将信息存储在云端,财务校验单位经授权后就能够从云端数据中心获取财务校验所需的数据,进而及时处理、分析数据,获取可靠、相关的财务校验证据。此外,财务校验机关亦可以自行购买、安装及部署数据库服务前端装置,利用该软件能够采集、检测财务校验数据,使得财务校验单位能在线监督财务校验对象数据传输的可靠性和准确性。
财务校验单位与财务校验对象端交互运行过程具有最好的效果,主要是因为财务校验单 位与财务校验对象在该过程中采用两种独立的云平台(如云平台A和B,A云平台和B云平台 可以是相同的或不同的,但两者必须是独立的),进而提高云财务校验系统的安全性和可靠性。 一方面,财务校验单位首先将相应的财务校验请求传递到财务校验云A,然后由A财务校验 云分析、处理财务校验单位的命令或请求,继而向B云平台发送指令,以采集财务校验所需 的数据。另一方面,被财务校验机构在收到云平台B的指令后,被财务校验单位根据要求将 相关的信息通过网络传输到B云平台,由这两种独立且相关的财务校验云平台完成数据问的 交换。财务校验云平台A在获取相关、足量的财务校验数据后,对原始数据进行初步地整合、 处理、分析,并将分析结果发回财务校验单位,最后由财务校验人员进行系统地审查。

Claims (10)

1.一种基于hadoop校验的财务数据校验方法,其工作的每个节点都包含 TaskTracker和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于:
采集来自业务数据源的外部系统财务数据;
规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问财务数据仓库,应用逻辑元数据;
对财务元数据进行管理完成财务校验和数据可视化。
2.如权利要求1所述的一种基于hadoop校验的财务数据校验方法,其特征在于:
所述工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,具体包括:
通过修改HDFS的配置文件mapred-default.xml中的dfs.block.size属性 设定HDFS分布式文件系统的数据分块大小,客户端向管理节点传递计算校验Job请求,当计算校验Job完成后由管理节点向客户端返回结果;
用MapReduce计算模型,调度节点上的主控程序将校验Job分为若干校验Job块,计算机集群的每个节点上安装Hadoop并设置好HDFS数据块大小block 和每个节点上可同时运行的Map及Reduce校验Job数量,使 MapReduce能在计算集群中正常运行。
3.如权利要求1所述的一种基于hadoop校验的财务数据校验方法,其特征在于:
所述采集来自业务数据源的外部系统财务数据,具体包括:
将得到的外部系统财务数据部署在服务器集群中的 Master 服务器上,将从其它平台获取的用户信息存储在 Hive 服务器上,Hive服务器包括命名节点NameNode和数据节点DataNode,命名节点NameNode是模型系统中的管理者,主要负责管理文件系统的命名空间、计算节点集群配置信息、存储块的位置等信息,数据节点DataNode负责处理来自命名节点NameNode的读写请求,同时还可以执行数据块的创建、删除和复制;
Master 主机负责接收来自用户的请求,接着调度 Hive服务器处理待财务校验用户的信息数据,还包括JobTracker和TaskTracker,并且最终接收 Hive 服务器处理后的数据作为财务校验方法的输入得到财务校验结果并返回给客户端;
Hive 服务器一方面负责用户数据的分布式存储,另一方面负责根据 Master 的指令提取用户相应的特征并返回给 Master 服务器;
JobTracker负责对计算校验Job进行启动和调度,并且能实时跟踪校验Job的执行情况和计算节点的状态;
TaskTracker则负责向JobTracker请求校验Job以及得到校验Job后在计算节点启动该计算校验Job的运行。
4.如权利要求1所述的一种基于hadoop校验的财务数据校验方法,其特征在于:
所述数据访问财务数据仓库,应用逻辑元数据,进一步包括:
按照云平台内分布式数据存储和任务分配机制,将并行程序分发给集群内相应的PC计算节点,进行分布式并行计算,并将结果写入云计算集群的分布式存储环境中;
HDFS 采用经典的主-从模式,一个主节点 NameNode 和多个从节点 DataNode,NameNode 主要用于处理外界客户机的请求以及管理整个 HDFS 系统的命名空间和元数据;
存储文件块在本地文件系统中,保存了文件块的元数据,同时周期性的将自己所拥有文件块的信息发送给 NameNode;
为服务器配置配置 hdfs-site.xml 文件,dfs.name.dir是namenode存储永久性的元数据的目录列表,这个目录会创建在master机上,dfs.data.dir 是 datanode 存放数据块的目录列表,这个目录在 Hive1~Hive3 上都会创建;
MapReduce进度不间断监听云平台集群总控节点的进度查询接口,获取各并行作业的实时进 度,监听进度同时,当某个ETL操作算法或数据挖掘算法执行结束后,服务器分别按照 CWM标准和PMML标准输出结果到服务器存储,服务器将获得的进度信息通过接口封装层同时传送给Web服务器,并由Web 浏览器获得这些进度信息并展示。
5.如权利要求1所述的一种基于hadoop校验的财务数据校验方法,其特征在于:
所述对财务元数据进行管理完成财务校验和数据可视化,具体包括:
提供虚拟机财务数据校验功能,防止虚拟机财务数据被恶意篡改,应采取有关措施保证逻辑卷同一时刻只能被一个虚拟机挂载,在迁移或删除虚拟机后确保数据清理及备份数据清理,比较判断矩阵具有完全一致性,为判断建立的判断矩阵是否可用于层次分析,要对其进行一致性检验;
可视化时通过查询数据库中的信息提供详细、丰富的信息查询功能,数据库中的数据每隔一定时间备份到HDFS系统中做长久保存,数据库本身存储的数据则被清除。
6.一种基于hadoop校验的财务数据校验系统,其由客户端和服务器组成,服务器工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于,该系统具体包括:
外部接入层,采集来自业务数据源的外部系统财务数据;
元数据分析层,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
数据存储层,运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据ETL层,数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问层,数据访问财务数据仓库,应用逻辑元数据;
数据输出层,对财务元数据进行管理完成财务校验和数据可视化。
7.如权利要求6所述的一种基于hadoop校验的财务数据校验系统,其特征在于,包括:
所述由客户端和服务器组成,服务器工作的每个节点都包含 TaskTracker 和DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,具体包括:
通过修改HDFS的配置文件mapred-default.xml中的dfs.block.size属性 设定HDFS分布式文件系统的数据分块大小,客户端向管理节点传递计算校验Job请求,当计算校验Job完成后由管理节点向客户端返回结果;
用MapReduce计算模型,调度节点上的主控程序将校验Job分为若干校验Job块,计算机集群的每个节点上安装Hadoop并设置好HDFS数据块大小block 和每个节点上可同时运行的Map及Reduce校验Job数量,使 MapReduce能在计算集群中正常运行。
8.如权利要求6所述的一种基于hadoop校验的财务数据校验系统,其特征在于,包括:
所述外部接入层,采集来自业务数据源的外部系统财务数据,具体包括:
将得到的外部系统财务数据部署在服务器集群中的 Master 服务器上,将从其它平台获取的用户信息存储在 Hive 服务器上,Hive服务器包括命名节点NameNode和数据节点DataNode,命名节点NameNode是模型系统中的管理者,主要负责管理文件系统的命名空间、计算节点集群配置信息、存储块的位置等信息,数据节点DataNode负责处理来自命名节点NameNode的读写请求,同时还可以执行数据块的创建、删除和复制;
Master 主机负责接收来自用户的请求,接着调度 Hive服务器处理待财务校验用户的信息数据,还包括JobTracker和TaskTracker,并且最终接收 Hive 服务器处理后的数据作为财务校验方法的输入得到财务校验结果并返回给客户端;
Hive 服务器一方面负责用户数据的分布式存储,另一方面负责根据 Master 的指令提取用户相应的特征并返回给 Master 服务器;
JobTracker负责对计算校验Job进行启动和调度,并且能实时跟踪校验Job的执行情况和计算节点的状态;
TaskTracker则负责向JobTracker请求校验Job以及得到校验Job后在计算节点启动该计算校验Job的运行。
9.如权利要求6所述的一种基于hadoop校验的财务数据校验系统,其特征在于,包括:
所述数据访问层,数据访问财务数据仓库,应用逻辑元数据,进一步包括:
按照云平台内分布式数据存储和任务分配机制,将并行程序分发给集群内相应的PC计算节点,进行分布式并行计算,并将结果写入云计算集群的分布式存储环境中;
HDFS 采用经典的主-从模式,一个主节点 NameNode 和多个从节点 DataNode,NameNode 主要用于处理外界客户机的请求以及管理整个 HDFS 系统的命名空间和元数据;
存储文件块在本地文件系统中,保存了文件块的元数据,同时周期性的将自己所拥有文件块的信息发送给 NameNode;
为服务器配置配置 hdfs-site.xml 文件,dfs.name.dir是namenode存储永久性的元数据的目录列表,这个目录会创建在master机上,dfs.data.dir 是 datanode 存放数据块的目录列表,这个目录在 Hive1~Hive3 上都会创建;
MapReduce进度不间断监听云平台集群总控节点的进度查询接口,获取各并行作业的实时进度,监听进度同时,当某个ETL操作算法或数据挖掘算法执行结束后,服务器分别按照 CWM标准和PMML标准输出结果到服务器存储,服务器将获得的进度信息通过接口封装层同时传送给Web服务器,并由Web 浏览器获得这些进度信息并展示。
10.如权利要求6所述的一种基于hadoop校验的财务数据校验系统,其特征在于,包括:
所述数据输出层,对财务元数据进行管理完成财务校验和数据可视化,具体包括:
提供虚拟机财务数据校验功能,防止虚拟机财务数据被恶意篡改,应采取有关措施保证逻辑卷同一时刻只能被一个虚拟机挂载,在迁移或删除虚拟机后确保数据清理及备份数据清理,比较判断矩阵具有完全一致性,为判断建立的判断矩阵是否可用于层次分析,要对其进行一致性检验;
可视化时通过查询数据库中的信息提供详细、丰富的信息查询功能,数据库中的数据每隔一定时间备份到HDFS系统中做长久保存,数据库本身存储的数据则被清除。
CN201910731603.1A 2019-08-08 2019-08-08 一种基于hadoop校验的财务数据校验方法和系统 Active CN110458678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910731603.1A CN110458678B (zh) 2019-08-08 2019-08-08 一种基于hadoop校验的财务数据校验方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910731603.1A CN110458678B (zh) 2019-08-08 2019-08-08 一种基于hadoop校验的财务数据校验方法和系统

Publications (2)

Publication Number Publication Date
CN110458678A true CN110458678A (zh) 2019-11-15
CN110458678B CN110458678B (zh) 2022-06-07

Family

ID=68485592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910731603.1A Active CN110458678B (zh) 2019-08-08 2019-08-08 一种基于hadoop校验的财务数据校验方法和系统

Country Status (1)

Country Link
CN (1) CN110458678B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400061A (zh) * 2020-03-12 2020-07-10 泰康保险集团股份有限公司 一种数据处理方法和系统
CN111695565A (zh) * 2020-06-14 2020-09-22 荆门汇易佳信息科技有限公司 基于道路关卡模糊图像的汽车标志精准定位方法
CN112487053A (zh) * 2020-11-27 2021-03-12 重庆医药高等专科学校 海量财务数据异常控制提取工作方法
CN112785399A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于财税数据的清洗方法及系统
CN113220777A (zh) * 2021-03-12 2021-08-06 中国平安财产保险股份有限公司 业务数据处理方法、装置、计算机设备及存储介质
CN116361261A (zh) * 2023-06-01 2023-06-30 天翼云科技有限公司 一种分布式日志采集处理方法、系统
CN116737698A (zh) * 2023-08-14 2023-09-12 金篆信科有限责任公司 分布式数据库配置比对方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
WO2016134035A1 (en) * 2015-02-17 2016-08-25 Coho Data, Inc. Virtualized application-layer space for data processing in data storage systems
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法
CN109840253A (zh) * 2019-01-10 2019-06-04 北京工业大学 企业级大数据平台架构

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
WO2016134035A1 (en) * 2015-02-17 2016-08-25 Coho Data, Inc. Virtualized application-layer space for data processing in data storage systems
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
CN108595664A (zh) * 2018-04-28 2018-09-28 尚谷科技(天津)有限公司 一种hadoop环境下的农业数据监控方法
CN109840253A (zh) * 2019-01-10 2019-06-04 北京工业大学 企业级大数据平台架构

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐丽娟等: "浅析云计算环境下等级保护访问控制测评技术", 《现代工业经济和信息化》 *
李延光: "基于Hadoop的海量工程数据处理技术研究", 《中国优秀硕士学位论文全文库信息科技辑》 *
杨林泉: "《系统工程方法与应用》", 30 September 2018, 冶金工业出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400061A (zh) * 2020-03-12 2020-07-10 泰康保险集团股份有限公司 一种数据处理方法和系统
CN111695565A (zh) * 2020-06-14 2020-09-22 荆门汇易佳信息科技有限公司 基于道路关卡模糊图像的汽车标志精准定位方法
CN112487053A (zh) * 2020-11-27 2021-03-12 重庆医药高等专科学校 海量财务数据异常控制提取工作方法
CN112785399A (zh) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 一种用于财税数据的清洗方法及系统
CN113220777A (zh) * 2021-03-12 2021-08-06 中国平安财产保险股份有限公司 业务数据处理方法、装置、计算机设备及存储介质
CN113220777B (zh) * 2021-03-12 2023-06-30 中国平安财产保险股份有限公司 业务数据处理方法、装置、计算机设备及存储介质
CN116361261A (zh) * 2023-06-01 2023-06-30 天翼云科技有限公司 一种分布式日志采集处理方法、系统
CN116361261B (zh) * 2023-06-01 2023-10-13 天翼云科技有限公司 一种分布式日志采集处理方法、系统
CN116737698A (zh) * 2023-08-14 2023-09-12 金篆信科有限责任公司 分布式数据库配置比对方法、装置、设备及存储介质
CN116737698B (zh) * 2023-08-14 2023-11-28 金篆信科有限责任公司 分布式数据库配置比对方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110458678B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN110458678A (zh) 一种基于hadoop校验的财务数据校验方法和系统
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
CN111866121B (zh) 一种大型起重机设备安全监控管理云平台
CA2698477C (en) Method and computer system for aggregating data from a plurality of operational databases
CN111416704A (zh) 基于区块链的数据处理方法、装置及系统
US20070282470A1 (en) Method and system for capturing and reusing intellectual capital in IT management
US20120316821A1 (en) Systems and methods for creating intuitive context for analysis data
CN113094385B (zh) 一种基于软件定义开放工具集的数据共享融合平台及方法
US20170270163A1 (en) Data Information Framework
CN109271382A (zh) 一种面向全数据形态开放共享的数据湖系统
CN114968984A (zh) 数字孪生全生命周期管理平台
CN109829615B (zh) 一种基于专有云的目标任务多级监控装置和方法
CN115858651A (zh) 一种智慧城市一体化应用支撑平台
CN118152481A (zh) 基于分布式边缘计算与多模态数据的药物信息存储方法
CN115048452A (zh) 一种基于区块链的大数据治理系统
CN115396260A (zh) 智能医学数据网关系统
JP2023542380A (ja) プライベートクラウドコンテナクラスタ遺伝子情報の取得方法及び装置
CN117527568A (zh) 一种数据整合平台的数据接入方法及系统
Chullipparambil Big data analytics using Hadoop tools
CN115718776A (zh) 一种大数据应用平台系统
Loebel-Carpenter et al. SAM and the particle physics data grid
Gerhards et al. Provenance opportunities for WS-VLAM: an exploration of an e-science and an e-business approach
Thalheim Model suites for multi-layered database modelling
Planting Developing a data repository for the Climate Adaptive City Enschede
Guilbault Self-service Monitoring of HPC and Openstack Jobs for Users

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230426

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 262500 No. 8979 Yunmenshan South Road, Qingzhou City, Weifang City, Shandong Province

Patentee before: WEIFANG ENGINEERING VOCATIONAL College

Effective date of registration: 20230426

Address after: 710000 B2-666, 7th Floor, Xixian Talent Building, Century Avenue, Fengdong New City, Xi'an City, Shaanxi Province

Patentee after: Jincaiyun Enterprise Service Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.