CN113886590A - 数据汇总方法、装置、计算机设备及存储介质 - Google Patents
数据汇总方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113886590A CN113886590A CN202111228209.XA CN202111228209A CN113886590A CN 113886590 A CN113886590 A CN 113886590A CN 202111228209 A CN202111228209 A CN 202111228209A CN 113886590 A CN113886590 A CN 113886590A
- Authority
- CN
- China
- Prior art keywords
- task
- data
- target
- tasks
- summarizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Abstract
本发明提供一种数据汇总方法、装置、计算机设备及存储介质,其中,该方法包括以下步骤:建立任务表,以存储若干用于汇总数据的目标任务的任务信息;获取各所述目标任务的任务类型;根据各所述目标任务的任务类型对各所述目标任务进行分组;针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务,从而,相对现有技术减少了任务数量,避免过多任务同时运行,超过系统线程池允许的线程运行数量上限,并且通过根据任务类型对目标任务进行分组,可以使各小组对应的数据汇总任务仅需配置一个用于执行任务的引擎即可。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据汇总方法、装置、计算机设备及存储介质。
背景技术
数据汇总,是指将源数据表中的数据汇总成报表数据并存储到对应的目标表中。一般针对一个源数据表开发一个定时任务,然后在定时任务中完成相应汇总功能。这样每新增一个源数据表,就需要重新添加一个定时任务,具体如图1所示。
上述数据汇总方式具有以下缺陷:首先,任务太多,而系统线程池允许线程运行数量有限制,如果某几个任务的运行时间过长,会影响其他任务的执行。其次,任务处理不够灵活,任务只能处理固定时间段的数据。例如,图1中有N个任务,A任务每天在指定时间从A1表同步前一天的数据到A2表。如果在同步过程中,任务已经处理从1号到20号的数据到A2表中,但此时A1表中10号的数据因为特殊原因发生变动,需要重新处理A1表中10号的数据到A2表,则A任务不能完成。
发明内容
针对现有技术中汇总数据时任务太多,而系统线程池允许线程运行数量有限制的问题,本发明提供一种数据汇总方法、装置、计算机设备及存储介质。
为了实现上述目的,本发明一方面提供一种数据汇总方法,该方法包括以下步骤:
建立任务表,以存储若干用于汇总数据的目标任务的任务信息;
获取各所述目标任务的任务类型;
根据各所述目标任务的任务类型对各所述目标任务进行分组;
针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务。
在本发明一个优选实施例中,所述获取各所述目标任务的任务类型,包括:
根据各所述目标任务对应的源数据表,建立与各所述源数据表对应的知识图谱;
对各所述源数据表对应的知识图谱进行特征提取,以得到目标图谱特征;
将所述目标图谱特征输入至预先训练的分类模型进行处理,得到各所述源数据表的表类型。
根据各所述源数据表的表类型,确定相应所述目标任务的任务类型。
在本发明一个优选实施例中,所述分类模型的训练过程如下:
获取数据集,所述数据集包括若干训练数据表以及与所述训练数据表对应的标准表类型;
建立与各所述训练数据表对应的知识图谱;
对各所述训练数据表对应的知识图谱进行特征提取,以得到对应的训练图谱特征;
将各所述训练图谱特征输入至预设的分类模型,得到各所述训练数据表对应的预测表类型;
根据各所述训练数据表对应的预测表类型和标准表类型,计算损失函数值;
根据所述损失函数值对所述分类模型进行迭代优化,直至满足预设的训练终止条件。
在本发明一个优选实施例中,在建立所述任务表之后,所述方法还包括执行以下步骤中的至少一种:
根据用户输入的任务添加信息在所述任务表中添加相应的目标任务;
根据用户输入的任务删除信息从所述任务表中删除相应的目标任务;
根据用户输入的任务执行时间配置信息在所述任务表中配置相应目标任务的执行时间;
根据用户输入的任务执行频次配置信息在所述任务表中配置相应目标任务的执行频次。
在本发明一个优选实施例中,在建立所述任务表之后,所述方法还包括:
根据接收到的事件触发信息在所述任务表中添加相应的目标任务。
在本发明一个优选实施例中,在针对每个组分别生成相应的数据汇总任务之后,所述方法还包括:
针对每个所述目标任务分别配置对应的处理类,并将该处理类与对应的所述数据汇总任务相关联,以使所述数据汇总任务通过调用相关联的所述处理类来完成对应的所述目标任务。
在本发明一个优选实施例中,在建立任务表之后,所述方法还包括:
检测各所述目标任务对应的源数据表中是否存在异常数据;
若存在,则对所述异常数据进行修正。
为了实现上述目的,本发明第二方面提供一种数据汇总装置,该装置包括:
任务表建立模块,用于建立任务表,以存储若干用于汇总数据的目标任务的任务信息;
任务类型获取模块,用于获取各所述目标任务的任务类型;
分组模块,用于根据各所述目标任务的任务类型对各所述目标任务进行分组;
任务生成模块,用于针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务。
在本发明一个优选实施例中,所述任务类型获取模块具体用于:
根据各所述目标任务对应的源数据表,建立与各所述源数据表对应的知识图谱;
对各所述源数据表对应的知识图谱进行特征提取,以得到目标图谱特征;
将所述目标图谱特征输入至预先训练的分类模型进行处理,得到各所述源数据表的表类型。
根据各所述源数据表的表类型,确定相应所述目标任务的任务类型。
在本发明一个优选实施例中,所述装置还包括模型训练模块,所述模型训练模块具体用于:
获取数据集,所述数据集包括若干训练数据表以及与所述训练数据表对应的标准表类型;
建立与各所述训练数据表对应的知识图谱;
对各所述训练数据表对应的知识图谱进行特征提取,以得到对应的训练图谱特征;
将各所述训练图谱特征输入至预设的分类模型,得到各所述训练数据表对应的预测表类型;
根据各所述训练数据表对应的预测表类型和标准表类型,计算损失函数值;
根据所述损失函数值对所述分类模型进行迭代优化,直至满足预设的训练终止条件。
在本发明一个优选实施例中,所述装置还包括:第一配置模块,用于在建立所述任务表之后,执行以下步骤中的至少一种:
根据用户输入的任务添加信息在所述任务表中添加相应的目标任务;
根据用户输入的任务删除信息从所述任务表中删除相应的目标任务;
根据用户输入的任务执行时间配置信息在所述任务表中配置相应目标任务的执行时间;
根据用户输入的任务执行频次配置信息在所述任务表中配置相应目标任务的执行频次。
在本发明一个优选实施例中,所述装置还包括:第二配置模块,用于在建立所述任务表之后,根据接收到的事件触发信息在所述任务表中添加相应的目标任务。
在本发明一个优选实施例中,所述装置还包括:处理类配置模块,用于在所述任务生成模块针对每个组分别生成相应的数据汇总任务之后,针对每个所述目标任务分别配置对应的处理类,并将该处理类与对应的所述数据汇总任务相关联,以使所述数据汇总任务通过调用相关联的所述处理类来完成对应的所述目标任务。
在本发明一个优选实施例中,所述装置还包括:修正模块,用于在建立任务表之后,检测各所述目标任务对应的源数据表中是否存在异常数据,若存在,则对所述异常数据进行修正。
为了实现上述目的,本发明第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
为了实现上述目的,本发明第四方面提供一种计算机可读存储介质,其上存储有计算机程序,其所述程序被处理器执行时实现上述任一项所述的方法的步骤。
通过采用上述技术方案,本发明具有如下有益效果:
本发明通过首先建立任务表,以存储若干用于汇总数据的目标任务的任务信息;而后获取各所述目标任务的任务类型,并根据各所述目标任务的任务类型对各所述目标任务进行分组;最后针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务,从而,相对现有技术减少了任务数量,避免过多任务同时运行,超过系统线程池允许的线程运行数量上限,并且通过根据任务类型对目标任务进行分组,可以使各小组对应的数据汇总任务仅需配置一个用于执行任务的引擎即可。
附图说明
图1为现有技术中数据汇总的原理图;
图2为本发明实施例1的数据汇总方法的流程图;
图3为本发明实施例1的数据汇总方法的原理图;
图4为本发明实施例2的数据汇总装置的结构框图;
图5为本发明实施例3的电子设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任意或所有可能组合。
实施例1
针对系统线程池允许线程运行数量有限制,如果某几个任务的运行时间过长,会影响其他任务执行的场景,本实施例提供一种数据汇总方法,如图2所示,该方法具体包括以下步骤:
S1,建立任务表,该任务表用于存储若干用于汇总数据的目标任务的任务信息。
在本实施例中,所述任务信息包括任务内容以及任务执行时间/频次等,还可以包括任务执行状态、动态参数、错误信息、完成时间等。其中任务内容包括任务的工作流程和任务负责完成的事务等。
具体如图3所示,假设任务表中存储有A、B、C…N目标任务的任务信息,其中,不同目标任务用于汇总不同的源数据表至相应的目标表,比如,A任务需要将A1源数据表中的数据汇总至A2表,B任务需要将B1源数据表中的数据汇总至B2表,以此类推。
此外,当某目标任务配置有动态参数时,表示从相应源数据表中筛选出与该动态参数对应的数据汇总至相应目标表中,而无需对该源数据表中的全部数据进行汇总。
S2,获取各所述目标任务的任务类型,具体过程如下:
首先,根据各目标任务对应的源数据表,建立与各源数据表对应的知识图谱;其中,目标任务对应的源数据表是指该目标任务需要汇总的数据表。在本实施例中,具体可以根据对应源数据表中的字段以及字段之间的关联性来建立知识图谱。
而后,对各源数据表对应的知识图谱进行特征提取,以得到目标图谱特征。在本实施例中,具体可以采用门图网络(Gated Graph Neural Network,GGNN)对所构建的知识图谱进行特征提取,门图网络GGNN的结构是一种递归神经网络,其可用于提取任意图结构数据的特征。优选地,在得到目标图谱特征之后,还可以对目标图谱特征进行归一化处理,以提高后续分类模型处理的效率。
再而后,将目标图谱特征输入至预先训练的分类模型进行处理,得到各源数据表的表类型。在本实施例中,分类模型例如可以采用Softmax回归模型实现,当然,本实施例并不对采用的分类模型进行具体限制。
最后,根据各源数据表的表类型,确定相应目标任务的任务类型。在本实施例中,目标任务的任务类型与相应源数据表的表类型一一对应。
通过上述过程,可以准确得到各目标任务的任务类型。
S3,根据各所述目标任务的任务类型对各所述目标任务进行分组。
具体如图3所示,当A、B、C目标任务的任务类型相同时,则将A、B、C目标任务分为一个小组;当D、E、F目标任务的任务类型相同时,则将D、E、F目标任务分为一个小组;当其它目标任务的任务类型相同时,则将其它目标任务分为一个小组。
S4,针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务。
具体如图3所示,当A、B、C目标任务分为一个小组时,则为该小组建立一个能够处理A、B、C任务的数据汇总任务;当D、E、F类型的目标任务分为一个小组时,则为该小组建立一个能够处理D、E、F任务的数据汇总任务;当其它所有的目标任务分为一个小组,则为该小组建立一个能够处理其它所有任务的数据汇总任务。
由此,可以通过执行一个数据汇总任务来汇总多个不同源数据表中的数据,而无需每增加一个源数据表便增加一个数据汇总任务,从而减少了数据汇总任务的数量,一定程度上减少对系统资源的争用,并且通过根据任务类型对目标任务进行分组,可以使各小组对应的数据汇总任务仅需配置一个用于执行任务的引擎即可。
在一种可选的实施方式中,在步骤S4针对每个组分别生成相应的数据汇总任务之后,所述方法还包括:针对每个所述目标任务分别配置对应的处理类,并将该处理类与对应的所述数据汇总任务相关联,以使所述数据汇总任务通过调用相关联的所述处理类来完成对应的所述目标任务。
在本实施例中,处理类是指用于实现相应目标任务的类,当数据汇总任务调用某目标任务对应的处理类后,即可通过该处理类完全该目标任务。
当任务表中需要新增一个目标任务时,则针对该目标任务开发一个处理类,并将该处理类配置为与对应小组关联,该小组对应的数据汇总任务会根据任务表中配置的时间/频次调用该处理类,即可执行该目标任务的具体内容,使得任务横向扩展更加容易。
在一种可选的实施方式中,步骤S2中采用的所述分类模型的训练过程如下:
首先,获取数据集,所述数据集包括若干训练数据表以及与各所述训练数据表对应的标准表类型。
而后,建立与各所述训练数据表对应的知识图谱。在本实施例中,具体可以根据对应训练数据表中的字段以及字段之间的关联性来建立知识图谱。
再而后,对各训练数据表对应的知识图谱进行特征提取,以得到训练图谱特征。在本实施例中,具体可以采用门图网络GGNN对所构建的知识图谱进行特征提取。优选地,在得到训练图谱特征之后,还可以对训练图谱特征进行归一化处理,以提高后续分类模型的训练效率。
再而后,将各训练图谱特征输入至预设的分类模型,得到各训练数据表对应的预测表类型。
再而后,根据各训练数据表对应的预测表类型和标准表类型,计算损失函数值,该损失函数值用于表征各训练数据表对应的预测表类型和标准表类型之间的误差。
最后,根据所述损失函数值对所述分类模型进行迭代优化,直至满足预设的训练终止条件。在本实施例中,训练终止条件例如可以是所述损失函数值收敛或小于预定阈值,或者训练次数达到预设的迭代次数。
通过上述步骤训练得到的分类模型能够用于根据目标任务的知识图谱实现自动准确的分类。
在一种可选的实施方式中,在步骤S1建立所述任务表之后,所述方法还包括:根据用户输入的配置信息对所述任务表中的所述目标任务进行配置。其中,所述配置信息包括任务添加信息、任务删除信息、任务执行时间配置信息和/或任务执行频次配置信息等。所述根据用户输入的配置信息对所述任务表中的所述目标任务进行配置,包括:根据所述任务添加信息在所述任务表中添加相应的目标任务;根据所述任务删除信息从所述任务表中删除相应的目标任务;根据所述任务执行时间配置信息在所述任务表中配置相应目标任务的执行时间;和/或根据所述任务执行频次配置信息在所述任务表中配置相应目标任务的执行频次。
具体地,用户可以根据需要通过人机交互界面输入前述配置信息,以指示在任务表中增加/删除目标任务、或者配置任务表中各目标任务的执行时间/频次。例如,用户可以配置各目标任务每天执行的频次,可以每天执行一次,也可以每天执行多次;还可以设置在工作日执行或在非工作日执行,比如有的源数据表在非工作日没有数据,则可以设置相应的目标任务执行时间为工作日。
在另一种可选的实施方式中,在步骤S1建立所述任务表之后,所述方法还包括:根据接收到的事件触发信息对所述任务表中的所述目标任务进行配置。其中,所述事件触发信息包括交易完成信息,所述根据接收到的事件触发信息对所述任务表中的所述目标任务进行配置,包括:根据所述交易完成信息在所述任务表中添加相应的目标任务。
例如,当需要对交易数据进行汇总时,只能在交易完成并且确认后才会生效,则在交易完成并且确认后将生成相应的触发信息,本实施例在接收到该触发信息后在任务表中增加相应的目标任务。其中,该目标任务对应的处理类预先开发并配置为与对应的小组关联,后续该小组对应的数据汇总任务会直接对该处理类进行调度。
在一种可选的实施方式中,在步骤S1建立任务表之后,所述方法还包括:检测各所述目标任务对应的源数据表中是否存在异常数据;若存在,则对所述异常数据进行修正。
以源数据表为excel文件为例,在工作人员创建并填写excel表格时,有可能出现数据填写错误的情况,例如,工作人员误将应该填写到H列的数据填写到了J列,这时就需要对数据文件进行容错处理。计算机在检测到这一数据异常的情况时,对这一excel文件添加错位异常标识以作标记。具体地,计算机在逐一对当前的10个源数据表文件进行检测时,检测到第6个源数据表文件存在异常标识,并判断出该异常标识中指示了第6个待汇总表格文件中第J列的数据为应填入第H列的误填数据(例如可以根据不同列的数据格式进行判断),则可判定第H列与第J列的表格数据为异常数据,并生成将第J列中的数据填入第H列的修正策略,而后根据访修改策略进行相应修正。
通过本实施方式能够在数据汇总之前修正异常数据,保证源数据表中数据的准确性。
本实施例通过将目标任务合并成小组,并针对同一个小组中的目标任务生成一个数据汇总任务,以便通过执行该数据汇总任务执行该小组中的所有目标任务,从而减少了任务数量,避免过多任务同时运行,超过系统线程池允许的线程运行数量上限,并且通过根据任务类型对目标任务进行分组,可以使各小组对应的数据汇总任务仅需配置一个用于执行任务的引擎即可。同时,由于该任务表中的目标任务可配置,增加了灵活性,后期维护方便。如果需要重新汇总某个指定日期的某源数据表,则在任务表中进行相应配置即可。
实施例2
针对系统线程池允许线程运行数量有限制,如果某几个任务的运行时间过长,会影响其他任务执行的场景,本实施例提供一种数据汇总装置,如图4所示,该装置主要包括:任务表建立模块11、任务类型获取模块12、分组模块13、以及任务生成模块14。下面分别对上述各个模块的功能进行详细描述:
任务表建立模块11用于建立任务表,该任务表用于存储若干用于汇总数据的目标任务的任务信息。
在本实施例中,所述任务信息包括任务内容以及任务执行时间/频次等,还可以包括任务执行状态、动态参数、错误信息、完成时间等。其中任务内容包括任务的工作流程和任务负责完成的事务等。
具体如图3所示,任务表中存储有A、B、C…N目标任务的任务信息,其中,不同目标任务用于汇总不同的源数据表至相应的目标表,如A任务需要将A1源数据表中的数据汇总至A2表,B任务需要将B1源数据表中的数据汇总至B2表,以此类推。
此外,当某目标任务配置有动态参数时,表示从相应源数据表中筛选出与该动态参数对应的数据汇总至相应目标表中,而无需对该源数据表中的全部数据进行汇总。
任务类型获取模块12用于获取各所述目标任务的任务类型,具体过程如下:
首先,根据各目标任务对应的源数据表,建立与各源数据表对应的知识图谱;其中,目标任务对应的源数据表是指该目标任务需要汇总的数据表。在本实施例中,具体可以根据对应源数据表中的字段以及字段之间的关联性来建立知识图谱。
而后,对各源数据表对应的知识图谱进行特征提取,以得到目标图谱特征。在本实施例中,具体可以采用门图网络(Gated Graph Neural Network,GGNN)对所构建的知识图谱进行特征提取,门图网络GGNN的结构是一种递归神经网络,其可用于提取任意图结构数据的特征。优选地,在得到目标图谱特征之后,还可以对目标图谱特征进行归一化处理,以提高后续分类模型处理的效率。
再而后,将目标图谱特征输入至预先训练的分类模型进行处理,得到各源数据表的表类型。在本实施例中,分类模型例如可以采用Softmax回归模型实现,当然,本实施例并不对采用的分类模型进行具体限制。
最后,根据各源数据表的表类型,确定相应目标任务的任务类型。在本实施例中,目标任务的任务类型与相应源数据表的表类型一一对应。
通过上述过程,可以准确得到各目标任务的任务类型。
分组模块13用于根据各所述目标任务的任务类型对各所述目标任务进行分组。
具体如图3所示,当A、B、C目标任务的任务类型相同时,则将A、B、C目标任务分为一个小组;当D、E、F目标任务的任务类型相同时,则将D、E、F目标任务分为一个小组;当其它目标任务的任务类型相同时,则将其它目标任务分为一个小组。
任务生成模块用于针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务。
具体如图3所示,当A、B、C目标任务分为一个小组时,则为该小组建立一个能够处理A、B、C任务的数据汇总任务;当D、E、F类型的目标任务分为一个小组时,则为该小组建立一个能够处理D、E、F任务的数据汇总任务;当其它所有的目标任务分为一个小组,则为该小组建立一个能够处理其它所有任务的数据汇总任务。
由此,可以通过执行一个数据汇总任务来汇总多个不同源数据表中的数据,而无需每增加一个源数据表便增加一个数据汇总任务,从而减少了数据汇总任务的数量,一定程度上减少对系统资源的争用,并且通过根据任务类型对目标任务进行分组,可以使各小组对应的数据汇总任务仅需配置一个用于执行任务的引擎即可。
在一种可选的实施方式中,所述装置还包括:处理类配置模块,用于在所述任务生成模块针对每个组分别生成相应的数据汇总任务之后,针对每个所述目标任务分别配置对应的处理类,并将该处理类与对应的所述数据汇总任务相关联,以使所述数据汇总任务通过调用相关联的所述处理类来完成对应的所述目标任务。
在本实施例中,处理类是指用于实现相应目标任务的类,当数据汇总任务调用某目标任务对应的处理类后,即可通过该处理类完全该目标任务。
当任务表中需要新增一个目标任务时,则针对该目标任务开发一个处理类,并将该处理类配置为与对应小组关联,该小组对应的数据汇总任务会根据任务表中配置的时间/频次调用该处理类,即可执行该目标任务的具体内容,使得任务横向扩展更加容易。
在一种可选的实施方式中,所述装置还包括模型训练模块,所述模型训练模块具体用于通过如下步骤训练所述分类模型:
首先,获取数据集,所述数据集包括若干训练数据表以及与各所述训练数据表对应的标准表类型。
而后,建立与各所述训练数据表对应的知识图谱。在本实施例中,具体可以根据对应训练数据表中的字段以及字段之间的关联性来建立知识图谱。
再而后,对各训练数据表对应的知识图谱进行特征提取,以得到训练图谱特征。在本实施例中,具体可以采用门图网络GGNN对所构建的知识图谱进行特征提取。优选地,在得到训练图谱特征之后,还可以对训练图谱特征进行归一化处理,以提高后续分类模型的训练效率。
再而后,将各训练图谱特征输入至预设的分类模型,得到各训练数据表对应的预测表类型。
再而后,根据各训练数据表对应的预测表类型和标准表类型,计算损失函数值,该损失函数值用于表征各训练数据表对应的预测表类型和标准表类型之间的误差。
最后,根据所述损失函数值对所述分类模型进行迭代优化,直至满足预设的训练终止条件。在本实施例中,训练终止条件例如可以是所述损失函数值收敛或小于预定阈值,或者训练次数达到预设的迭代次数。
通过上述步骤训练得到的分类模型能够用于根据目标任务的知识图谱实现自动准确的分类。
在一种可选的实施方式中,所述装置还包括:第一配置模块,用于在建立所述任务表之后,根据用户输入的配置信息对所述任务表中的所述目标任务进行配置。其中,所述配置信息包括任务添加信息、任务删除信息、任务执行时间配置信息和/或任务执行频次配置信息等。所述第一配置模块根据用户输入的配置信息对所述任务表中的所述目标任务进行配置的具体过程如下:根据所述任务添加信息在所述任务表中添加相应的目标任务;根据所述任务删除信息从所述任务表中删除相应的目标任务;根据所述任务执行时间配置信息在所述任务表中配置相应目标任务的执行时间;和/或根据所述任务执行频次配置信息在所述任务表中配置相应目标任务的执行频次。
具体地,用户可以根据需要通过人机交互界面输入前述配置信息,以指示在任务表中增加/删除目标任务、或者配置任务表中各目标任务的执行时间/频次。例如,用户可以配置各目标任务每天执行的频次,可以每天执行一次,也可以每天执行多次;还可以设置在工作日执行或在非工作日执行,比如有的源数据表在非工作日没有数据,则可以设置相应的目标任务执行时间为工作日。
在另一种可选的实施方式中,所述装置还包括:第二配置模块,用于在建立所述任务表之后,根据接收到的事件触发信息对所述任务表中的所述目标任务进行配置。其中,所述事件触发信息包括交易完成信息,所述第二配置模块根据接收到的事件触发信息对所述任务表中的所述目标任务进行配置的具体过程如下:根据所述交易完成信息在所述任务表中添加相应的目标任务。
例如,当需要对交易数据进行汇总时,只能在交易完成并且确认后才会生效,则在交易完成并且确认后将生成相应的触发信息,本实施例在接收到该触发信息后在任务表中增加相应的目标任务。其中,该目标任务对应的处理类预先开发并配置为与对应的小组关联,后续该小组对应的数据汇总任务会直接对该处理类进行调度。
在一种可选的实施方式中,所述装置还包括:修正模块,用于在建立任务表之后,检测各所述目标任务对应的源数据表中是否存在异常数据;若存在,则对所述异常数据进行修正。
以源数据表为excel文件为例,在工作人员创建并填写excel表格时,有可能出现数据填写错误的情况,例如,工作人员误将应该填写到H列的数据填写到了J列,这时就需要对数据文件进行容错处理。计算机在检测到这一数据异常的情况时,对这一excel文件添加错位异常标识以作标记。具体地,计算机在逐一对当前的10个源数据表文件进行检测时,检测到第6个源数据表文件存在异常标识,并判断出该异常标识中指示了第6个待汇总表格文件中第J列的数据为应填入第H列的误填数据,填写错误,则可判定第H列与第J列的表格数据为异常数据,并生成将第J列中的数据填入第H列的修正策略,而后根据访修改策略进行相应修正。
通过本实施方式能够在数据汇总之前修正异常数据,保证源数据表中数据的准确性。
本实施例通过将目标任务合并成小组,并针对同一个小组中的目标任务生成一个数据汇总任务,以便通过执行该数据汇总任务执行该小组中的所有目标任务,从而减少了任务数量,避免过多任务同时运行,超过系统线程池允许的线程运行数量上限,并且通过根据任务类型对目标任务进行分组,可以使各小组对应的数据汇总任务仅需配置一个用于执行任务的引擎即可。同时,由于该任务表中的目标任务可配置,增加了灵活性,后期维护方便。如果需要重新汇总某个指定日期的某源数据表,则在任务表中进行相应配置即可。
实施例3
本实施例提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图5所示。需要指出的是,图5仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例2的数据汇总装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行数据汇总装置10,以实现实施例1的数据汇总方法。
实施例4
本实施例提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储数据汇总装置10,被处理器执行时实现实施例1的数据汇总方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据汇总方法,其特征在于,该方法包括以下步骤:
建立任务表,以存储若干用于汇总数据的目标任务的任务信息;
获取各所述目标任务的任务类型;
根据各所述目标任务的任务类型对各所述目标任务进行分组;
针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务。
2.根据权利要求1所述的数据汇总方法,其特征在于,所述获取各所述目标任务的任务类型,包括:
根据各所述目标任务对应的源数据表,建立与各所述源数据表对应的知识图谱;
对各所述源数据表对应的知识图谱进行特征提取,以得到目标图谱特征;
将所述目标图谱特征输入至预先训练的分类模型进行处理,得到各所述源数据表的表类型;
根据各所述源数据表的表类型,确定相应所述目标任务的任务类型。
3.根据权利要求2所述的数据汇总方法,其特征在于,所述分类模型的训练过程如下:
获取数据集,所述数据集包括若干训练数据表以及与所述训练数据表对应的标准表类型;
建立与各所述训练数据表对应的知识图谱;
对各所述训练数据表对应的知识图谱进行特征提取,以得到对应的训练图谱特征;
将各所述训练图谱特征输入至预设的分类模型,得到各所述训练数据表对应的预测表类型;
根据各所述训练数据表对应的预测表类型和标准表类型,计算损失函数值;
根据所述损失函数值对所述分类模型进行迭代优化,直至满足预设的训练终止条件。
4.根据权利要求1所述的数据汇总方法,其特征在于,在建立所述任务表之后,所述方法还包括执行以下步骤中的至少一种:
根据用户输入的任务添加信息在所述任务表中添加相应的目标任务;
根据用户输入的任务删除信息从所述任务表中删除相应的目标任务;
根据用户输入的任务执行时间配置信息在所述任务表中配置相应目标任务的执行时间;
根据用户输入的任务执行频次配置信息在所述任务表中配置相应目标任务的执行频次。
5.根据权利要求1所述的数据汇总方法,其特征在于,在建立所述任务表之后,所述方法还包括:
根据接收到的事件触发信息在所述任务表中添加相应的目标任务。
6.根据权利要求1所述的数据汇总方法,其特征在于,在针对每个组分别生成相应的数据汇总任务之后,所述方法还包括:
针对每个所述目标任务分别配置对应的处理类,并将该处理类与对应的所述数据汇总任务相关联,以使所述数据汇总任务通过调用相关联的所述处理类来完成对应的所述目标任务。
7.根据权利要求1所述的数据汇总方法,其特征在于,在建立任务表之后,所述方法还包括:
检测各所述目标任务对应的源数据表中是否存在异常数据;
若存在,则对所述异常数据进行修正。
8.一种数据汇总装置,其特征在于,该装置包括:
任务表建立模块,用于建立任务表,以存储若干用于汇总数据的目标任务的任务信息;
任务类型获取模块,用于获取各所述目标任务的任务类型;
分组模块,用于根据各所述目标任务的任务类型对各所述目标任务进行分组;
任务生成模块,用于针对每个组分别生成相应的数据汇总任务,以通过执行该数据汇总任务来完成该组中的全部所述目标任务。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111228209.XA CN113886590A (zh) | 2021-10-21 | 2021-10-21 | 数据汇总方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111228209.XA CN113886590A (zh) | 2021-10-21 | 2021-10-21 | 数据汇总方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113886590A true CN113886590A (zh) | 2022-01-04 |
Family
ID=79004179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111228209.XA Pending CN113886590A (zh) | 2021-10-21 | 2021-10-21 | 数据汇总方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113886590A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115185677A (zh) * | 2022-06-24 | 2022-10-14 | 湖南长银五八消费金融股份有限公司 | 业务数据合并总账方法、装置、计算机设备及介质 |
CN115827620A (zh) * | 2023-01-10 | 2023-03-21 | 住房和城乡建设部信息中心(住房和城乡建设部住房信息管理中心) | 建筑设施汇交数据的质检方法、装置、设备及存储介质 |
-
2021
- 2021-10-21 CN CN202111228209.XA patent/CN113886590A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115185677A (zh) * | 2022-06-24 | 2022-10-14 | 湖南长银五八消费金融股份有限公司 | 业务数据合并总账方法、装置、计算机设备及介质 |
CN115827620A (zh) * | 2023-01-10 | 2023-03-21 | 住房和城乡建设部信息中心(住房和城乡建设部住房信息管理中心) | 建筑设施汇交数据的质检方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491475B (zh) | 数据快速批量导入方法、电子装置及计算机可读存储介质 | |
US11611445B2 (en) | Changing smart contracts recorded in block chains | |
US9384020B2 (en) | Domain scripting language framework for service and system integration | |
CN103927338A (zh) | 日志信息入库处理方法和装置 | |
CN113886590A (zh) | 数据汇总方法、装置、计算机设备及存储介质 | |
US20150154097A1 (en) | System and method for automated testing | |
CN103888254A (zh) | 一种网络验证信息的方法和装置 | |
CN110737594B (zh) | 自动生成测试用例的数据库标准符合性测试方法及装置 | |
US20140208169A1 (en) | Domain scripting language framework for service and system integration | |
CN108509322B (zh) | 避免过度回访的方法、电子装置及计算机可读存储介质 | |
CN113448862B (zh) | 软件版本测试方法、装置及计算机设备 | |
CN110659268A (zh) | 基于聚类算法的数据填充方法、装置及计算机设备 | |
CN109284331B (zh) | 基于业务数据资源的制证信息获取方法、终端设备及介质 | |
CN114116170A (zh) | 定时任务的执行方法、装置、计算机设备以及存储介质 | |
US9880813B2 (en) | RTE code generating method and apparatus performing the same | |
CN113886419A (zh) | Sql语句处理方法、装置、计算机设备及存储介质 | |
US20180101562A1 (en) | Metadata Validation Tool | |
CN109240906B (zh) | 数据库配置信息适配方法、装置、计算机设备和存储介质 | |
CN103761247B (zh) | 一种出错文件的处理方法及装置 | |
CN108415922B (zh) | 数据库修改方法及应用服务器 | |
CN110990475B (zh) | 批量任务插入方法、装置、计算机设备及存储介质 | |
CN113434359B (zh) | 数据溯源系统构建方法、装置、电子设备及可读存储介质 | |
CN110321195B (zh) | 操作页面的数据缓存方法、电子装置及可读存储介质 | |
CN113127548B (zh) | 一种文件合并的方法、装置、设备及存储介质 | |
CN113986877A (zh) | 数据迁移方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |