发明内容
本发明的目的是提供一种数据收集方法、装置、设备及存储介质,能够实现对数据仓库中数据的补充,提高数据仓库中数据的完整性,进而保证后续能够有效实现对数据仓库中数据的数据分析等操作。
为了实现上述目的,本发明提供如下技术方案:
一种数据收集方法,包括:
将数据仓库中与业务系统对应的主数据导入至录入数据库;
获取外界基于所述主数据向所述录入数据库中输入的补充数据,并利用所述主数据与所述补充数据进行关联,得到有效的补充数据;
将所述有效的补充数据存储至所述数据仓库中,经处理后进行展示。
优选的,获取外界基于所述主数据向所述录入数据库中输入的补充数据,包括:
定时对所述录入数据库进行巡逻,如果在巡逻中发现所述录入数据库中存在上次巡逻时并不存在的新的数据,则确定该新的数据为外界基于所述主数据向所述录入数据库中输入的补充数据。
优选的,获取外界基于所述主数据向所述录入数据库中输入的补充数据,包括:
接收外界发送的录入指令,在所述录入指令的触发下对所述录入数据库进行监控,确定监控中外界在发送所述录入指令后向所述录入数据库中输入的录入数据,并确定该录入数据为外界基于所述主数据向所述录入数据库中输入的补充数据。
优选的,还包括:
在对所述补充数据进行处理的过程中,将对所述补充数据进行处理的各处理步骤的执行信息进行存储,以供查询;其中,所述处理步骤包括获取、分析、关联及存储,所述执行信息包括执行过程及执行结果的信息。
优选的,还包括:
接收外界输入的查询指令,调取与所述查询指令对应的执行信息,并将调取到的各执行信息以列表的形式进行展示。
优选的,还包括:
如果在对所述补充数据进行处理的过程中,如果任一处理步骤的执行结果为出现错误,则将该错误对应的错误信息实时进行展示。
优选的,将所述有效的补充数据存储至所述数据仓库中之后,还包括:
确定所述数据仓库中存储的与所述主数据关联的原始关联数据,并对所述有效的补充数据及确定出的原始关联数据进行去重操作。
一种数据收集装置,包括:
导入模块,用于:将数据仓库中与业务系统对应的主数据导入至录入数据库;
分析模块,用于:获取外界基于所述主数据向所述录入数据库中输入的补充数据,并利用所述主数据与所述补充数据进行关联,得到有效的补充数据;
存储处理模块,用于:将所述有效的补充数据存储至所述数据仓库中并进行处理;
展示模块,用于:对处理后的所述有效的补充数据进行展示。
一种数据收集设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述数据收集方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述数据收集方法的步骤。
本发明提供了一种数据收集方法、装置、设备及存储介质,该方法包括:将数据仓库中与业务系统对应的主数据导入至录入数据库;获取外界基于所述主数据向所述录入数据库中输入的补充数据,并利用所述主数据与所述补充数据进行关联,得到有效的补充数据;将所述有效的补充数据存储至所述数据仓库中,经处理后进行展示。本申请预先设置能够供外界人工录入数据的录入数据库,将业务系统的主数据导入至录入数据库,通过录入数据库获取人工录入的补充数据,利用主数据与补充数据进行关联,从而获取到与主数据具有关联的有效的补充数据,最终将有效的补充数据存储至数据仓库中,供需要时进行查询展示等;从而通过这种方式实现对数据仓库中数据的补充,提高数据仓库中数据的完整性,进而保证后续能够有效实现对数据仓库中数据的数据分析等操作。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种数据收集方法的流程图,可以包括:
S11:将数据仓库中与业务系统对应的主数据导入至录入数据库。
其中,数据仓库与数据库的含义相同;本发明实施例提供的一种数据收集方法的执行主体可以为数据收集装置,而该数据收集装置可以设置于数据仓库所属的大数据系统中,因此该数据收集方法的执行主体可以为大数据系统,本申请实施例以该数据收集方法的执行主体为大数据系统进行说明。
业务系统是指企业等达成定位所需要的业务环节、各合作伙伴扮演的角色以及利益相关者合作与交易的方式和内容;其中的企业可以为公司、学校等,本申请实施例以企业为学校为例进行说明。学校的业务系统中包含教育大数据,如学生数据、教师数据、科目数据等,学生数据可以包括学生编码、学生姓名、学生性别、学生年龄、学生所处年级、学生所学科目等,教师数据包括教师编码、教师姓名、教师性别、教师年龄、教师所教年级、教师所教科目等,科目数据包括科目编码、科目名称、科目对应年级等。
业务系统的主数据指的是业务系统在数据仓库中的核心字段,具体来说,不同种类的数据在数据仓库中可以以不同的表进行存储,而主数据则为所在表中的联合关键字段(或者说主键),具有所在表的唯一性,进而可以由该主数据与所在表中其他数据之间产生关联;如学生数据、教师数据及科目数据分别存储在三个表中,则这三个表的主数据则可以分别为学生编码、教师编码及科目编码。
为了提高数据仓库中数据的完整性,本申请可以设置有录入数据库,录入数据库包括能够进行人机交互的界面,从而外界人员在该界面输入(本申请中也可以将输入称为录入)相应的数据后,则可以将输入的数据作为补充数据,将补充数据导入数据仓库(DataWarehouse,DW)数据层,从而利用补充数据完善数据仓库中的数据。而为了使得外界人员在输入补充数据时能够具有针对性,本申请可以将主数据导入至数据库中,从而使得外界人员基于该主数据确定出用于完善数据仓库中数据的数据,进而将其作为补充数据输入至录入数据库中。
S12:获取外界基于主数据向录入数据库中输入的补充数据,并利用主数据与补充数据进行关联,得到有效的补充数据。
在外界人员基于主数据确定对应的数据,并将这部分数据作为补充数据输入至录入数据库中之后,可以利用录入数据库中的主数据与补充数据进行关联,从而确定出与主数据具有关联的补充数据为有效的补充数据,而与主数据不具有关联的补充数据则为无效的补充数据。具体来说,判断主数据与补充数据之间是否具有关联,可以是判断补充数据是否为主数据的属性,如果是,则确定补充数据与主数据具有关联,否则,确定补充数据与主数据不具有关联,也可以是判断补充数据是否与主数据具有相同的预先根据实际需要指定的数据,如果是,则确定补充数据与主数据具有关联,否则,确定补充数据与主数据不具有关联。其中,主数据的属性即为主数据可能具有的值,如主数据为学生编码,则学生编码可能为0001、0002、0003等数字,则如果补充数据是0001,说明补充数据与学生编码这一主数据具有关联,如果补充数据为abcd,说明补充数据与学生编码这一主数据不具有关联;预先根据实际需要指定的数据即为主数据描述的对象所对应的数据,如主数据为学生编码,则描述的对象为学生,指定的数据为学生,则与学生编码具有相同指定的数据的数据可能为学生名称、学生性别、学生年纪等,如果补充数据为学生名称,则说明补充数据与学生编码这一主数据具有关联,如果补充数据为教师姓名,则说明补充数据与学生编码这一主数据不具有关联。当然判断主数据与补充数据是否具有关联的方式还可以根据实际需要进行设定,均在本发明的保护范围之内。从而仅将与主数据具有关联的补充数据存储至数据仓库中,避免对无效数据(也即与主数据无关的数据)的存储。
S13:将有效的补充数据存储至数据仓库中,经处理后进行展示。
将有效的补充数据存储至数据仓库中,从而当需要对其进行展示时,将需要展示的数据依次进入DM数据层、分析展现层等,最后对数据进行展示。
本申请预先设置能够供外界人工录入数据的录入数据库,将业务系统的主数据导入至录入数据库,通过录入数据库获取人工录入的补充数据,利用主数据与补充数据进行关联,从而获取到与主数据具有关联的有效的补充数据,最终将有效的补充数据存储至数据仓库中,供需要时进行查询展示等;从而通过这种方式实现对数据仓库中数据的补充,提高数据仓库中数据的完整性,进而保证后续能够有效实现对数据仓库中数据的数据分析等操作。
本发明实施例提供的一种数据收集方法,获取外界基于主数据向录入数据库中输入的补充数据,可以包括:
定时对录入数据库进行巡逻,如果在巡逻中发现录入数据库中存在上次巡逻时并不存在的新的数据,则确定该新的数据为外界基于主数据向录入数据库中输入的补充数据。
本申请实施例中对补充数据进行调度和控制的过程,可以通过设置的数据执行控制台进行。具体来说,数据执行控制台可以根据更新时间判断是否有补充数据被录入至录入数据库中,如果有补充数据被录入至录入数据库中,则启动对补充数据进行处理的流程。而根据更新时间则判断是否有补充数据被录入至录入数据库中,具体可以每到更新时间或者每经过更新时间则判断是否有补充数据被录入至数据库中,从而通过这种方式实现对录入数据库的定时巡逻,如果巡逻中发现上次巡逻不存在的数据,则说明这是最新被录入至录入数据库中的未被处理过的数据,因此可以确定这部分数据为补充数据。另外,更新时间可以根据实际需要进行设定,如作为定时的时间间隔时可以为10秒等,而这种定时巡逻的方式可以是在开启了定时巡逻的功能时才进行,在关闭该定时巡逻的功能后则不再对录入数据库进行定时巡逻,从而通过定时巡逻功能的开启或关闭,满足当前的实际需求;为了有效实现补充数据的录入,本申请中优选默认开启该定时巡逻的功能。从而通过这种方式定时自动实现补充数据的获取,方便了数据收集流程的自动化实现。
本发明实施例提供的一种数据收集方法,获取外界基于主数据向录入数据库中输入的补充数据,可以包括:
接收外界发送的录入指令,在录入指令的触发下对录入数据库进行监控,确定监控中外界在发送录入指令后向录入数据库中输入的录入数据,并确定该录入数据为外界基于主数据向录入数据库中输入的补充数据。
需要说明的是,为了进一步提高数据收集的灵活性,使之能够随时满足实现数据录入的功能,本申请中还可以设置在接收到外界发送的录入指令时,则在该录入指令的触发下,直接对录入数据库中获取外界向录入数据库中录入的数据作为补充数据。另外,可以设置有手工按钮,从而在外界按下手工按钮时则触发录入指令的发送。本申请实施例中可以是定时巡逻的功能开启时,则拒绝外界发送录入指令,也可以是定时巡逻的功能开启时,外界还可以通过发送录入指令随时进行补充数据的录入,从而通过这两种方式互补,进而更加灵活的实现数据收集。
本发明实施例提供的一种数据收集方法,还可以包括:
在对补充数据进行处理的过程中,将对补充数据进行处理的各处理步骤的执行信息进行存储,以供查询;其中,处理步骤包括获取、关联、分析及存储,执行信息包括执行过程及执行结果的信息。
需要说明的是,本申请针对每次输入数据的处理都可以进行记录及存储,进而在后期需要时供查询,方便了外界人员对每次输入数据的处理进行相应的查询。具体来说,本申请实施例中可以记录对补充数据进行获取、关联、分析及存储等各个处理步骤的执行信息,而执行信息可以包括执行过程及执行结果的信息,获取补充数据的执行过程可以包括以定时巡逻还是录入指令触发的方式获取补充数据,关联、分析补充数据的执行过程可以包括关联分析补充数据所用主数据、对主数据及补充数据进行关联所得结果等,存储补充数据的执行过程可以包括存储的位置等,而执行结果可以包括各个处理步骤是否执行成功等。
本发明实施例提供的一种数据收集方法,还可以包括:
接收外界输入的查询指令,调取与查询指令对应的执行信息,并将调取到的各执行信息以列表的形式进行展示。
在外界需要查询执行信息时,可以向大数据系统输入查询指令,大数据系统获取查询指令所对应的每次补充数据处理的执行信息,进而将这些执行信息以列表的形式进行展示,列表中每行则可以对应一次补充数据处理的执行信息,从而通过列表的方式使得查询所得结果更加一目了然,方便外界用户实现相应的查询分析等操作。
本发明实施例提供的一种数据收集方法,还可以包括:
如果在对补充数据进行处理的过程中,如果任一处理步骤的执行结果为出现错误,则将该错误对应的错误信息实时进行展示。
需要说明的是,在对补充数据进行处理的过程中,可能由于某些特殊原因导致执行失败,也即执行结果为出现错误,如无法正常获取补充数据,或者无法实现对补充数据的关联,或者无法实现补充数据的存储,等;从而在执行某个执行步骤失败时实时输出对应的错误信息,使得外界人员能够基于该错误信息确定对补充数据的收集出现错误,进而人工介入进行相应的操作,保证了数据收集的顺利实现。
本发明实施例提供的一种数据收集方法,将有效的补充数据存储至数据仓库中之后,还包括:
确定数据仓库中存储的与主数据关联的原始关联数据,并对有效的补充数据及确定出的原始关联数据进行去重操作。
在将有效的补充数据存储至数据仓库后,为了避免重复的数据对于数据仓库中空间的占用,进而导致数据仓库中空间的浪费,本申请实施例可以确定数据仓库中存储的与主数据关联的除补充数据之外的其他数据为原始关联数据,对有效的补充数据及数据仓库中存储的与主数据关联的原始关联数据进行去重操作;其中,与主数据具有关联的原始关联数据可以为主数据对应的全部属性,或者与主数据具有相同的预先根据实际需要指定的数据的数据;如主数据为学生编码,则与主数据具有关联的原始关联数据可以为全部学生编码的属性(属性也即为具体的值),或者学生姓名、学生性别等;当然与主数据具有关联的原始关联数据还可以根据实际需要进行设定,均在本发明的保护范围之内。确定出与补充数据完全相同的原始关联数据,可以将补充数据及原始关联数据中重复的部分数据进行删除,仅保留重复的部分数据中的一份即可。
另外,本申请对补充数据的处理可以包括关联、统计、分析、计算、调度、控制等操作;其中,关联可以包括利用主数据与补充数据进行关联以确定出有效的补充数据,也可以包括确定与补充数据完全相同的原始关联数据进而进行去重操作等;统计可以包括统计补充数据及与主数据关联的原始关联数据中存在的指定数据的数量;分析可以包括对补充数据进行属性是否符合预先设定的属性范围的分析等;计算可以包括具有相同的指定的数据的属性相加得到总值(如将学生分数的属性相加得到总分数);调度可以包括将补充数据输出给DM数据层、分析展现层等,最后对数据进行展示;控制可以包括实现对补充数据的删除、修改等;当然根据实际需要进行的其他操作也均在本发明的保护范围之内。
其中,统计补充数据及与主数据关联的原始关联数据中存在的指定数据的数量,具体可以理解为:在对补充数据进行分析时,可以由数据仓库中获取与主数据关联的原始关联数据,进而由这些原始关联数据中统计指定数据的数量,最终得到相应的数量统计的结果;如补充数据为部分学生的学生性别,主数据为学生编码,与主数据关联的数据为补充数据对应学生之外其他学生的学生性别,从而得到全部学生的学生性别,指定数据为学生性别为男性的学生性别,进而统计为男性的学生性别的数量,从而得到男生的总数量;通过这种统计方式,便于外界对于所需数据数量的获取。
在一种具体应用场景中,本申请对于每次录入的补充数据的执行均可以在列表中进行展示,在列表中可以展示每次录入的补充数据的三个图标:执行状态(未执行,执行中,执行完成,执行出错),定时巡逻的功能对应自动按钮的显示图标,以及触发录入指令的手工按钮的显示图标。如果自动按钮的显示图标显示定时巡逻功能开启,则在巡逻中发现有补充数据时则自动执行对补充数据的处理过程,此时执行状态是执行中。如果处理过程中某个处理步骤的执行出现问题,则执行状态时执行出错,并且展现执行出错的原因(当用于实现每个处理步骤的程序执行出错时,可以将执行出现的错误在相应页面上进行展示,例如:以表的形式存储每种数据时,找不到对应的表,或者找不到对应的数据的字段,等,都会在页面上展示出来)。如果执行正常完成,则执行状态时执行完成。其余情况下的执行状态则是未执行。当自动按钮的显示图标是定时巡逻的功能未开始时,执行状态是未执行,外界点击手工按钮后,就可以执行补充数据的处理流程。并且,手工按钮和执行状态可以相关联,如执行状态为未执行时,手工按钮才可以点击,其余状态不能点击。另外,处理补充数据完成5分钟后,执行状态恢复为未执行,进而点击可以查询到历史的按下手工按钮时的记录(可以是执行信息)。
需要说明的是,为了在录入数据库中正常显示主数据,还可以获取到主数据后,将主数据处理为能够正常显示的数据后再显示在录入数据库中。
本申请通过录入数据库的建立,实现了对补充数据的单独管理,大数据系统可以实时监测到补充数据,并将补充数据装入大数据仓库进行关联、统计、分析、计算等处理,最后展现给外界人员的是经处理后的数据,与业务系统的关联程度高,相对准确性高。
本发明实施例还提供了一种数据收集装置,如图2所示,可以包括:
导入模块11,用于:将数据仓库中与业务系统对应的主数据导入至录入数据库;
分析模块12,用于:获取外界基于主数据向录入数据库中输入的补充数据,并利用主数据与补充数据进行关联,得到有效的补充数据;
存储处理模块13,用于:将有效的补充数据存储至数据仓库中并进行处理;
展示模块14,用于:对处理后的有效的补充数据进行展示。
本发明实施例提供的一种数据收集装置,分析模块可以包括:
第一获取单元,用于:定时对录入数据库进行巡逻,如果在巡逻中发现录入数据库中存在上次巡逻时并不存在的新的数据,则确定该新的数据为外界基于主数据向录入数据库中输入的补充数据。
本发明实施例提供的一种数据收集装置,分析模块可以包括:
第二获取单元,用于:接收外界发送的录入指令,在录入指令的触发下对录入数据库进行监控,确定监控中外界在发送录入指令后向录入数据库中输入的录入数据,并确定该录入数据为外界基于主数据向录入数据库中输入的补充数据。
本发明实施例提供的一种数据收集装置,还可以包括:
记录模块,用于:在对补充数据进行处理的过程中,将对补充数据进行处理的各处理步骤的执行信息进行存储,以供查询;其中,处理步骤包括获取、分析、关联及存储,执行信息包括执行过程及执行结果的信息。
本发明实施例提供的一种数据收集装置,还可以包括:
调取模块,用于:接收外界输入的查询指令,调取与查询指令对应的执行信息,并将调取到的各执行信息以列表的形式进行展示。
本发明实施例提供的一种数据收集装置,还可以包括:
展示模块,用于:如果在对补充数据进行处理的过程中,如果任一处理步骤的执行结果为出现错误,则将该错误对应的错误信息实时进行展示。
本发明实施例提供的一种数据收集装置,还可以包括:
去重模块,用于:将有效的补充数据存储至数据仓库中之后,确定数据仓库中存储的与主数据关联的原始关联数据,并对有效的补充数据及确定出的原始关联数据进行去重操作。
本发明实施例还提供了一种数据收集设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项数据收集方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项数据收集方法的步骤。
需要说明的是,本发明实施例提供的一种数据收集装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种数据收集方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。