CN112101891B

CN112101891B - 一种应用于项目申报系统中的数据处理方法

Info

Publication number: CN112101891B
Application number: CN202010747852.2A
Authority: CN
Inventors: 叶雄; 叶琼; 徐宏淼
Original assignee: Hangzhou Zhengce Mdt Infotech Co ltd
Current assignee: Hangzhou Zhengce Mdt Infotech Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2021-05-04
Anticipated expiration: 2040-07-30
Also published as: CN112101891A

Abstract

本发明公开了一种应用于项目申报系统中的数据处理方法，其通过接收用户的申报请求和数据，根据各所述数据类型对应预设的数据处理规则，将申报数据分发到对应的所述数据类型的数据子处理请求；各数据子处理请求提交处理任务，提交请求动态到达；根据计算任务配置文件提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子；在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态；最终决策出最优放置矩阵，把最优放置矩阵提交给子任务调度器，各处理器接受子任务调度器的调度并执行各子任务。通过上述方法使得项目申报系统最大优化地进行数据处理，减少项目申报系统在处理数据时容易引起服务器宕机、系统崩溃、数据出错等问题。

Description

一种应用于项目申报系统中的数据处理方法

技术领域

本申请涉及数据处理领域，特别涉及一种项应用于项目申报系统中的数据处理方法。

背景技术

现如今，信息化项目已深入到各行各业，信息系统已经成为办公学习的必不可少的工作，人们已经离不开各种各样的办公学习的信息化软件。其中，项目申报信息化平台也越来越广泛地受到用户的喜爱，其具有快速、高效、远程上传、远程审批等优点，大大缩短了项目申报过程中的精力和时间。但现有的项目申报系统在一个项目申报阶段，大批量的用户上传数据和文件，导致系统在处理数据时容易引起服务器宕机、系统崩溃，并且在更新数据时容易引起数据混淆出现数据错误，从而引起项目申报失败。

发明内容

本发明提供了一种应用于项目申报系统中的数据处理方法，目的在于减少项目申报系统在处理数据时容易引起服务器宕机、系统崩溃、数据出错等问题。

为了解决上述问题或至少部分地解决上述技术问题，在本申请的一个实施例中，提供了一种应用于项目申报系统中的数据处理方法，其特征在于，所述方法包括：

步骤101、接收用户的申报请求和申报数据，其中所述申报数据具有多种数据类型；

步骤102、根据各所述数据类型对应预设的数据处理规则，将申报数据分发到对应的所述数据类型的数据子处理请求；

步骤103、各数据子处理请求提交处理任务，提交请求动态到达；提交内容包括计算任务、用户需求、计算任务资源需求概况，所述提交内容被放入配置文件并一起提交；

步骤104、主节点接收提交请求，并把新到达的计算任务加入在线计算任务清单，根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子，分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数；

步骤105、在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；

步骤106、把初始化后的值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵，把最优放置矩阵提交给子任务调度器，由其负责推行各处理器的实际资源放置调度工作；

步骤107、各处理器的接受子任务调度器的调度并执行各子任务，在执行各子任务过程中，随时把子任务的状态变更情况向计算任务状态更新器报告。

进一步的，所述数据处理方法还包括：

覆盖申报系统中的文件内容，更新后的申报数据通过应用程序端的语法分析机制提取出新增加的数据关联性；

通过在客户端检查文件扩展属性中数据关联性在文件内容中的偏移量和长度与新增加的数据部分是否存在重叠，判断是否存在被覆盖的数据关联性；

如果存在某些数据关联性属于被覆盖的数据部分，则在客户端缓存的文件元数据的扩展属性中直接删除无效的数据关联性即可完成更新操作。

进一步的，其中所述接收用户的申报请求包括：

申报请求服从参数为&的泊松过程，队列具有长度限制L，当队满时，新到的申报请求将会被云服务系统丢弃；

全局调度器对所述申报请求的解析时间和虚拟机对所述申报请求的服务时间分别服从

和1/σ的指数分布；其中，&、

σ均大于1；

所述全局调度器对申报请求的解析，把所述申报请求转化为虚拟机创建命令，当基础设施资源池中所有可用资源均已被占用时，虚拟机创建命令无法执行。

进一步的，其中所述接收用户的申报数据包括数据写入：

步骤201、将所述申报数据以追加写的形式写入一个写缓冲区中，并建立一个哈希表进行数据索引；哈希存储区的数据量达到一定量时，所述申报数据被发送到所述哈希存储区中进行排序操作，当排序操作完成后，所述哈希存储区中的所述申报数据将被删除；

步骤202、所述哈希存储区中缓存的所述申报数据将被划分成排序存储区中的M个数据块中，每个块中对所述申报数据进行排序；排序完成后，排序存储区将数据块发送到索引存储区中，构建索引子树，当索引子树构建完成后，排序存储区中的数据块将被删除；

步骤203、所述排序存储区的所述M个数据块发送到所述索引存储区中之后，对于每个数据块分别构建一个索引子树，然后将M个索引子树合并到索引存储区的索引树种，到索引树的数据量达到一定阈值时，新建一个新的索引树继续进行索引子树的合并操作.

本发明公开了一种应用于项目申报系统中的数据处理方法，其通过接收用户的申报请求和申报数据，根据各所述数据类型对应预设的数据处理规则，将申报数据分发到对应的所述数据类型的数据子处理请求；各数据子处理请求提交处理任务，提交请求动态到达；根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子；在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态；最终决策出最优放置矩阵，把最优放置矩阵提交给子任务调度器，各处理器的接受子任务调度器的调度并执行各子任务。通过上述方法使得项目申报系统最大优化地进行数据处理，减少项目申报系统在处理数据时容易引起服务器宕机、系统崩溃、数据出错等问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅用于示意本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。

图1是本发明一实施例的一种应用于项目申报系统中的数据处理方法的流程示意图；

图2是本发明一实施例的接收用户的申报数据包括数据写入的流程示意图。

具体实施例

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX，但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一XXX也可以被称为第二XXX，类似地，第二XXX也可以被称为第一XXX。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地，取决于语境，短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在一实施例中，如图1所示，其示出了一种应用于项目申报系统中的数据处理方法，项目申报系统可安装于个人/企业申报终端、第三方申报代理机构终端、审核部门终端。

所述数据处理方法包括：

用户或第三方代理机构可在个人/企业申报终端、申报代理结构终端填写申报数据，用户或第三方代理机构申报数据根据所需申报项目的内容进行事先整理得出，该数据正确性、有效性先由自身进行把关处理。

进一步的，接收用户的申报请求包括：

申报请求服从参数为&的泊松过程，队列具有长度限制设置有阈值，当队满时，新到的申报请求将会被云服务系统丢弃；

全局调度器对申报请求的解析时间和虚拟机对申报请求的服务时间分别服从

和1/σ的指数分布；其中，&、

σ均大于1；

全局调度器对申报请求的解析，把申报请求转化为虚拟机创建命令，当基础设施资源池中所有可用资源均已被占用时，虚拟机创建命令无法执行。

提前在数据库中预存有数据类型对应预设的数据处理规则，这些数据处理规则表示申报数据的表格中的数据需要形成处理结果。

进一步的，整合申报数据的数据类型，对数据类型进行训练，可以得到适合各种数据类型，对训练集中的数据类型的所有文本进行必要的文本预处理，生成特征向量，训练方法步骤如下：

归一化输入的待判文本的特征向量T和训练样本的特征向量集E_T；并计算出特征向量T、特征向量集E_T中相同的特征词；

把相同的特征词和对应的权值提取出来组成新的向量NT、NE_T；

进行相似度计算，计算两个特征向量的权值组成的一元向量之间的相似度，并对计算的文本的相似度计算结果进行排序；

取出相似度最高的K个文本；把这K个文本的相似度按类别累加；

取相似度最大值S；以及对应的类别C；如果相似度最大值大于等于设定阈值，则标识该文本属于C类。

进一步的，当用户或第三方代理机构需要修改时，覆盖申报系统中的文件内容，更新后的数据可以通过应用程序端的语法分析机制提取出新增加的数据关联性，但是被覆盖的数据内容中可能包含数据关联系，这些被覆盖的数据关联性同时需要被删除掉以保证关联性的一致性。最直接的方法就是每次发生覆盖写时，客户端从数据服务器中重新读取被覆盖的部分进行语法分析知晓哪些数据关联性是无效的，从而进行删除操作。

但是这种方式需要客户端从数据服务器中重新读取数据内容，引入了额外的数据I/O，同时增加了更新的开销。结合数据关联性的组织结构和存储方式同时考虑更新操作的开销，通过在客户端检查文件扩展属性中数据关联性在文件内容中的偏移量和长度与新增加的数据部分是否存在重叠，来判断是否存在被覆盖的数据关联性；如果存在某些数据关联性属于被覆盖的数据部分，则在客户端缓存的文件元数据的扩展属性中直接删除这些无效的数据关联性即可完成更新操作。

这种更新方式避免了客户端从数据服务器中读取文件的旧数据而引入的额外数据I/O。并且在进行覆盖写操作时，文件的元数据已经缓存在客户端本地，因此对新数据的语法分析和文件扩展属性中的数据关联性范围和新数据部分重叠性的判断都是在客户端本地执行，无需再向元数据服务器和数据服务器进行跨网络请求，从而降低了数据关联性更新的开销。

进一步的，图2示出了接收用户的申报数据包括数据写入的流程图，具有如下的方法步骤：

步骤201、将申报数据以追加写的形式写入一个写缓冲区中，并建立一个哈希表进行数据索引；哈希存储区的数据量达到一定量时，申报数据被发送到哈希存储区中进行排序操作，当排序操作完成后，哈希存储区中的申报数据将被删除；

步骤202、哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中，每个块中对申报数据进行排序；排序完成后，排序存储区将数据块发送到索引存储区中，构建索引子树，当索引子树构建完成后，排序存储区中的数据块将被删除；

步骤203、排序存储区的M个数据块发送到索引存储区中之后，对于每个数据块分别构建一个索引子树，然后将M个索引子树合并到索引存储区的索引树种，到索引树的数据量达到一定阈值时，新建一个新的索引树继续进行索引子树的合并操作。

上述一种应用于项目申报系统中的数据处理方法，其通过接收用户的申报请求和申报数据，根据各所述数据类型对应预设的数据处理规则，将申报数据分发到对应的所述数据类型的数据子处理请求；各数据子处理请求提交处理任务，提交请求动态到达；根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子；在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态；最终决策出最优放置矩阵，把最优放置矩阵提交给子任务调度器，各处理器的接受子任务调度器的调度并执行各子任务。通过上述方法使得项目申报系统最大优化地进行数据处理，减少项目申报系统在处理数据时容易引起服务器宕机、系统崩溃、数据出错等问题。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种应用于项目申报系统中的数据处理方法，其特征在于，所述方法包括：

步骤102、根据各所述数据类型对应预设的数据处理规则，将所述申报数据分发到对应的所述数据类型的数据子处理请求；

步骤103、各所述数据子处理请求提交处理任务，提交请求动态到达；提交内容包括计算任务、用户需求、计算任务资源需求概况，所述提交内容被放入配置文件并一起提交；

步骤104、主节点接收所述提交请求，并把新到达的所述计算任务加入在线计算任务清单，根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子，分别表示此计算任务在执行中或被挂起的所述Map子任务数和所述Reduce子任务数；

步骤105、在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的所述计算任务估算其对应的所述Map子任务数和所述Reduce子任务数，初始化其值；

步骤106、把初始化后的值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵，把所述最优放置矩阵提交给子任务调度器，由其负责推行各处理器的实际资源放置调度工作；

步骤107、各处理器的接受所述子任务调度器的调度并执行各子任务，在执行各子任务过程中，随时把所述子任务的状态变更情况向计算任务状态更新器报告。

2.根据权利要求1所述的一种应用于项目申报系统中的数据处理方法，其特征在于，所述数据处理方法还包括：

3.根据权利要求1所述的一种应用于项目申报系统中的数据处理方法，其特征在于，其中所述接收用户的申报请求包括：

和1/σ的指数分布；其中，&、

σ均大于1；

4.根据权利要求1所述的一种应用于项目申报系统中的数据处理方法，其特征在于，其中所述接收用户的申报数据包括数据写入：

步骤203、所述排序存储区的所述M个数据块发送到所述索引存储区中之后，对于每个数据块分别构建一个索引子树，然后将M个索引子树合并到索引存储区的索引树种，到索引树的数据量达到一定阈值时，新建一个新的索引树继续进行索引子树的合并操作。