一种基于hadoop校验的财务数据校验方法和系统
技术领域
本申请属于大数据云计算领域,具体地,涉及一种基于hadoop校验的财务数据校验方法和系统。
背景技术
财务一体化已成为推进大财务改革和后勤保障集约化的重要改革方向,优化人力资源配置、满足业务需求、提高保障效率成为改革的主要内容。十八以来,国家财经政策和财务法规的密集出台也对財务保障工作提出了更高的要求。这就对基层财务人员在改革中把握政策法规,提升业务素质形成了巨大的考验,而作为财务管理重要承载介质的财务信息系统也应该作出相应的变革来适应财务一体化的要求。此外,科技发展日新月异,大数据及人工智能成为企事业、机关单位提高财务管理及战略分析能力的重要手段,因此打造财务信息系统一体化平台,建设全国财务信息大数据中心势必成为未来财务的改革方向。
财务保障兼具行业的普遍性和机构的特殊性,作为财务人员需要具备行业共有的技能水平,同时作为一支准军事化的干部队伍,财务人员需要更高的政治素质和业务素养。职能部门的划分就是为了更好的分工协作,做好管理与保障,以保障保管理,以管理促保障。由于各个职能部门所管理的信息系统之间并没有数据的联动和交互功能,就可能随之带来另一方面的问题,不同的职能部门假如相互缺乏有效的协同和配合,就会出现对基层财务的管理要么重复要么真空。分工归根结底应该是岗位不是人,岗位不会变,但是人会动,有的岗位人员流动频繁,有的岗位人员长期无法交流。现有的信息化系统没有将人解放出来。而且部门与部门之间的协调增加了行政办公资源的成本。
建立一个囊括全国财务信息的大数据库,将原始凭单到财务报表的整个流程电子化,所有财务人员按照职能权限使用数据库,配合人工智能、云计算等手段进行数据筛选分析,那么整合后的信息系统将是集财务记录、財务分析、风险监控、智能校验、档案管理为一体的大管理平台,以此为基础的一体化财务可以大大减少人力资源,同时将的服务保障提上一个台阶。因此,如何运用先进的技术手段整合现有的信息化资源,推进财务系统的一体化改革,节约人力成本,同时加强内控管理成为当前亟待解决的问题。
发明内容
本申请就是为了解决上述背景技术中涉及的财务工作管理混乱,尤其是财务数据校验过程中数据分散,校验过程冗余的技术问题,具体地,涉及一种基于hadoop校验的财务数据校验方法和系统。
本发明首先请求保护一种基于hadoop校验的财务数据校验方法,其工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给Hadoop 客户端,其特征在于:
采集来自业务数据源的外部系统财务数据;
规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问财务数据仓库,应用逻辑元数据;
对财务元数据进行管理完成财务校验和数据可视化。
本发明还请求保护一种基于hadoop校验的财务数据校验系统,其由客户端和服务器组成,服务器工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于,该系统具体包括:
外部接入层,采集来自业务数据源的外部系统财务数据;
元数据分析层,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
数据存储层,运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据ETL层,数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问层,数据访问财务数据仓库,应用逻辑元数据;
数据输出层,对财务元数据进行管理完成财务校验和数据可视化。
本申请所涉及的一种基于hadoop校验的财务数据校验方法和系统通过采用大数据Hadoop平台,MapReduce映射算法将财务分析系统中的校验进行整合化处理,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式,校验数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗。在新的系统保证下,校验部门可实施远程校验,无需进驻校验单位查看纸质财务档案,校验效率大大提高,校验时可直接调用某记账凭证下所有原始附件,即使对于基建、预决算这些几百上千页的资料也可以轻松调取,仅需做好权限设定、密级管理即可。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请所请求保护的一种基于hadoop校验的财务数据校验方法的工作流程图;
图2是本申请所请求保护的一种基于hadoop校验的财务数据校验系统的模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照附图1,本申请所请求保护的一种基于hadoop校验的财务数据校验方法的工作流程图:
本发明请求保护一种基于hadoop校验的财务数据校验方法,其工作的每个节点都包含TaskTracker 和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于:
采集来自业务数据源的外部系统财务数据;
规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问财务数据仓库,应用逻辑元数据;
对财务元数据进行管理完成财务校验和数据可视化。
优选的,所述工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker接收 JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,具体包括:
通过修改HDFS的配置文件mapred-default.xml中的dfs.block.size属性 设定HDFS分布式文件系统的数据分块大小,客户端向管理节点传递计算校验Job请求,当计算校验Job完成后由管理节点向客户端返回结果;
用MapReduce计算模型,调度节点上的主控程序将校验Job分为若干校验Job块,计算机集群的每个节点上安装Hadoop并设置好HDFS数据块大小block 和每个节点上可同时运行的Map及Reduce校验Job数量,使 MapReduce能在计算集群中正常运行。
进一步的,所述采集来自业务数据源的外部系统财务数据,具体包括:
将得到的外部系统财务数据部署在服务器集群中的 Master 服务器上,将从其它平台获取的用户信息存储在 Hive 服务器上,Hive服务器包括命名节点NameNode和数据节点DataNode,命名节点NameNode是模型系统中的管理者,主要负责管理文件系统的命名空间、计算节点集群配置信息、存储块的位置等信息,数据节点DataNode负责处理来自命名节点NameNode的读写请求,同时还可以执行数据块的创建、删除和复制;
Master 主机负责接收来自用户的请求,接着调度 Hive服务器处理待财务校验用户的信息数据,还包括JobTracker和TaskTracker,并且最终接收 Hive 服务器处理后的数据作为财务校验方法的输入得到财务校验结果并返回给客户端;
Hive 服务器一方面负责用户数据的分布式存储,另一方面负责根据 Master 的指令提取用户相应的特征并返回给 Master 服务器。
JobTracker负责对计算校验Job进行启动和调度,并且能实时跟踪校验Job的执行情况和计算节点的状态;
TaskTracker则负责向JobTracker请求校验Job以及得到校验Job后在计算节点启动该计算校验Job的运行。
优选的,所述数据访问财务数据仓库,应用逻辑元数据,进一步包括:
按照云平台内分布式数据存储和任务分配机制,将并行程序分发给集群内相应的PC计算节点,进行分布式并行计算,并将结果写入云计算集群的分布式存储环境中;
HDFS 采用经典的主-从模式,一个主节点 NameNode 和多个从节点 DataNode,NameNode 主要用于处理外界客户机的请求以及管理整个 HDFS 系统的命名空间和元数据;
存储文件块在本地文件系统中,保存了文件块的元数据,同时周期性的将自己所拥有文件块的信息发送给 NameNode;
为服务器配置配置 hdfs-site.xml 文件,dfs.name.dir是namenode存储永久性的元数据的目录列表,这个目录会创建在master机上,dfs.data.dir 是 datanode 存放数据块的目录列表,这个目录在 Hive1~Hive3 上都会创建;
MapReduce进度不间断监听云平台集群总控节点的进度查询接口,获取各并行作业的实时进 度,监听进度同时,当某个ETL操作算法或数据挖掘算法执行结束后,服务器分别按照 CWM标准和PMML标准输出结果到服务器存储,服务器将获得的进度信息通过接口封装层同时传送给Web服务器,并由Web 浏览器获得这些进度信息并展示。
进一步地,所述对财务元数据进行管理完成财务校验和数据可视化,具体包括:
提供虚拟机财务数据校验功能,防止虚拟机财务数据被恶意篡改,应采取有关措施保证逻辑卷同一时刻只能被一个虚拟机挂载,在迁移或删除虚拟机后确保数据清理及备份数据清理,比较判断矩阵具有完全一致性,为判断建立的判断矩阵是否可用于层次分析,要对其进行一致性检验;
可视化时通过查询数据库中的信息提供详细、丰富的信息查询功能,数据库中的数据每隔一定时间备份到HDFS系统中做长久保存,数据库本身存储的数据则被清除。
在财务校验对象端运行中,财务校验单位向财务校验对象发送采集财务校验信息的请求,要求财务校验对象利用云平台下载、安装与财务校验数据采集相关的软件或应用程序,同时将其链接到被财务校验单位的财务系统,将财务校验数据通过网络及时传递至云平台。财务校验对象根据财务校验单位的请求将海量数据上传到云平台,并将信息存储在云端,财务校验单位经授权后就能够从云端数据中心获取财务校验所需的数据,进而及时处理、分析数据,获取可靠、相关的财务校验证据。此外,财务校验机关亦可以自行购买、安装及部署数据库服务前端装置,利用该软件能够采集、检测财务校验数据,使得财务校验单位能在线监督财务校验对象数据传输的可靠性和准确性。
财务校验单位与财务校验对象端交互运行过程具有最好的效果,主要是因为财务校验单 位与财务校验对象在该过程中采用两种独立的云平台(如云平台A和B,A云平台和B云平台可以 是相同的或不同的,但两者必须是独立的),进而提高云财务校验系统的安全性和可靠性。一 方面,财务校验单位首先将相应的财务校验请求传递到财务校验云A,然后由A财务校验云分 析、处理财务校验单位的命令或请求,继而向B云平台发送指令,以采集财务校验所需的数据。 另一方面,被财务校验机构在收到云平台B的指令后,被财务校验单位根据要求将相关的信息 通过网络传输到B云平台,由这两种独立且相关的财务校验云平台完成数据问的交换。财务校 验云平台A在获取相关、足量的财务校验数据后,对原始数据进行初步地整合、处理、分析, 并将分析结果发回财务校验单位,最后由财务校验人员进行系统地审查。
参照附图2,本申请所请求保护的一种基于hadoop校验的财务数据校验系统的模块图:
本发明还请求保护一种基于hadoop校验的财务数据校验系统,其由客户端和服务器组成,服务器工作的每个节点都包含 TaskTracker 和 DataNode,TaskTracker 接收JobTracker 传来的校验Job信息,读取 DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,其特征在于,该系统具体包括:
外部接入层,采集来自业务数据源的外部系统财务数据;
元数据分析层,规范数据格式进行数据格式检查,批量和实时处理日志,数据源文件进行预处理并随日志进行处理,采集到日志后需要对日志进行规范化,根据规范化文件与日志信息匹配将所有日志都规范为唯一可识别的格式;
数据存储层,运行在服务器上的大数据平台完成日志信息的规范化、告警校验,并将结果存储到数据库中;
数据ETL层,数据采集完成批量和实时处理,完成数据抽取、转换和装载,并对所用财务数据集中含有的较多的缺失值进行处理,以达到数据清洗;
数据访问层,数据访问财务数据仓库,应用逻辑元数据;
数据输出层,对财务元数据进行管理完成财务校验和数据可视化。
进一步地,所述由客户端和服务器组成,服务器工作的每个节点都包含TaskTracker 和 DataNode,TaskTracker 接收 JobTracker 传来的校验Job信息,读取DataNode 里面的数据,完成对数据的处理工作,并将最后的结果又返回给 Hadoop 客户端,具体包括:
通过修改HDFS的配置文件mapred-default.xml中的dfs.block.size属性 设定HDFS分布式文件系统的数据分块大小,客户端向管理节点传递计算校验Job请求,当计算校验Job完成后由管理节点向客户端返回结果;
用MapReduce计算模型,调度节点上的主控程序将校验Job分为若干校验Job块,计算机集群的每个节点上安装Hadoop并设置好HDFS数据块大小block 和每个节点上可同时运行的Map及Reduce校验Job数量,使 MapReduce能在计算集群中正常运行。
优选的,所述外部接入层,采集来自业务数据源的外部系统财务数据,具体包括:
将得到的外部系统财务数据部署在服务器集群中的 Master 服务器上,将从其它平台获取的用户信息存储在 Hive 服务器上,Hive服务器包括命名节点NameNode和数据节点DataNode,命名节点NameNode是模型系统中的管理者,主要负责管理文件系统的命名空间、计算节点集群配置信息、存储块的位置等信息,数据节点DataNode负责处理来自命名节点NameNode的读写请求,同时还可以执行数据块的创建、删除和复制;
Master 主机负责接收来自用户的请求,接着调度 Hive服务器处理待财务校验用户的信息数据,还包括JobTracker和TaskTracker,并且最终接收 Hive 服务器处理后的数据作为财务校验方法的输入得到财务校验结果并返回给客户端;
Hive 服务器一方面负责用户数据的分布式存储,另一方面负责根据 Master 的指令提取用户相应的特征并返回给 Master 服务器;
JobTracker负责对计算校验Job进行启动和调度,并且能实时跟踪校验Job的执行情况和计算节点的状态;
TaskTracker则负责向JobTracker请求校验Job以及得到校验Job后在计算节点启动该计算校验Job的运行。
优选的,所述数据访问层,数据访问财务数据仓库,应用逻辑元数据,进一步包括:
按照云平台内分布式数据存储和任务分配机制,将并行程序分发给集群内相应的PC计算节点,进行分布式并行计算,并将结果写入云计算集群的分布式存储环境中;
HDFS 采用经典的主-从模式,一个主节点 NameNode 和多个从节点 DataNode,NameNode 主要用于处理外界客户机的请求以及管理整个 HDFS 系统的命名空间和元数据;
存储文件块在本地文件系统中,保存了文件块的元数据,同时周期性的将自己所拥有文件块的信息发送给 NameNode;
为服务器配置配置 hdfs-site.xml 文件,dfs.name.dir是namenode存储永久性的元数据的目录列表,这个目录会创建在master机上,dfs.data.dir 是 datanode 存放数据块的目录列表,这个目录在 Hive1~Hive3 上都会创建;
MapReduce进度不间断监听云平台集群总控节点的进度查询接口,获取各并行作业的实时进度,监听进度同时,当某个ETL操作算法或数据挖掘算法执行结束后,服务器分别按照 CWM标准和PMML标准输出结果到服务器存储,服务器将获得的进度信息通过接口封装层同时传送给Web服务器,并由Web 浏览器获得这些进度信息并展示。
进一步地,所述数据输出层,对财务元数据进行管理完成财务校验和数据可视化,具体包括:
提供虚拟机财务数据校验功能,防止虚拟机财务数据被恶意篡改,应采取有关措施保证逻辑卷同一时刻只能被一个虚拟机挂载,在迁移或删除虚拟机后确保数据清理及备份数据清理,比较判断矩阵具有完全一致性,为判断建立的判断矩阵是否可用于层次分析,要对其进行一致性检验;
可视化时通过查询数据库中的信息提供详细、丰富的信息查询功能,数据库中的数据每隔一定时间备份到HDFS系统中做长久保存,数据库本身存储的数据则被清除。
在财务校验对象端运行中,财务校验单位向财务校验对象发送采集财务校验信息的请求,要求财务校验对象利用云平台下载、安装与财务校验数据采集相关的软件或应用程序,同时将其链接到被财务校验单位的财务系统,将财务校验数据通过网络及时传递至云平台。财务校验对象根据财务校验单位的请求将海量数据上传到云平台,并将信息存储在云端,财务校验单位经授权后就能够从云端数据中心获取财务校验所需的数据,进而及时处理、分析数据,获取可靠、相关的财务校验证据。此外,财务校验机关亦可以自行购买、安装及部署数据库服务前端装置,利用该软件能够采集、检测财务校验数据,使得财务校验单位能在线监督财务校验对象数据传输的可靠性和准确性。
财务校验单位与财务校验对象端交互运行过程具有最好的效果,主要是因为财务校验单 位与财务校验对象在该过程中采用两种独立的云平台(如云平台A和B,A云平台和B云平台 可以是相同的或不同的,但两者必须是独立的),进而提高云财务校验系统的安全性和可靠性。 一方面,财务校验单位首先将相应的财务校验请求传递到财务校验云A,然后由A财务校验 云分析、处理财务校验单位的命令或请求,继而向B云平台发送指令,以采集财务校验所需 的数据。另一方面,被财务校验机构在收到云平台B的指令后,被财务校验单位根据要求将 相关的信息通过网络传输到B云平台,由这两种独立且相关的财务校验云平台完成数据问的 交换。财务校验云平台A在获取相关、足量的财务校验数据后,对原始数据进行初步地整合、 处理、分析,并将分析结果发回财务校验单位,最后由财务校验人员进行系统地审查。