CN111767288B

CN111767288B - 一种项目申报数据处理方法及装置

Info

Publication number: CN111767288B
Application number: CN202010747422.0A
Authority: CN
Inventors: 叶雄; 徐宏淼; 叶琼
Original assignee: Hangzhou Zhengce Mdt Infotech Co ltd
Current assignee: Hangzhou Zhengce Mdt Infotech Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-08-30
Anticipated expiration: 2040-07-30
Also published as: CN111767288A

Abstract

本发明公开了一种项目申报数据处理方法及装置，其通过将所述申报数据按照数据属性分解，根据分解得到的申报数据的目标数据源，从数据服务注册中心定位对应的数据处理服务；根据数据规则集，将数据处理分解为面向数据处理服务的子处理请求；将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集；子处理请求和对应的规则子集派发给对应的数据处理服务，分别得到临时数据处理结果；将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。通过上述方法使得项目申报中的数据处理得到统一符合审核要求的数据，管理人员可以快速高效地处理审核；并且服务器多并行处理不会因此导致系统宕机。

Description

一种项目申报数据处理方法及装置

技术领域

本申请涉及数据处理领域，特别涉及一种项目申报数据处理方法及装置。

背景技术

当今社会是一个信息化社会的时代，同时又是一个大数据时代；随着互联网、物联网、云计算和人工智能等信息技术和计算机产业的不断发展和进步，使得数据的处理成为一个亟待解决的问题。在项目申报领域，项目信息具有大数据复杂性特点，领域差别较大、数据类型繁杂、冗余数据较多，现有的申报系统智能简单地进行数据汇总，无法对数据进行处理得到有用的后台数据，项目评审人员面对冗余繁杂的各种大数据时，无法及时、高效地审核数据，导致积压项目文件越来越多，审核资源浪费以及审查时间增加；同时，现有的项目申报系统在申报用户过多时，容易引起系统崩溃、服务器宕机。

发明内容

本发明提供了一种项目申报数据处理方法及装置，目的在于高效整理申报数据、数据写入较快、系统不会崩溃、宕机。

为了解决上述问题或至少部分地解决上述技术问题，在本申请的一个实施例中，提供了一种项目申报数据处理方法，其特征在于，所述方法包括：

步骤101、接收用户的申报请求和申报数据，将所述申报数据按照数据属性分解，所述数据属性包括目标数据源、数据规则集、数据结果项；

步骤102、根据分解得到的申报数据的目标数据源，从数据服务注册中心定位对应的数据处理服务，其中所述数据处理服务具有多个；

步骤103、根据数据规则集，生成数据服务组合规则和结果组装规则；结合数据服务组合规则和结果组装规则，将数据处理分解为面向数据处理服务的子处理请求；

步骤104、将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集；

步骤105、子处理请求和对应的规则子集派发给对应的数据处理服务；

步骤106、各数据处理服务并行执行数据处理任务，分别得到临时数据处理结果；

步骤107、按照数据服务组合规则和结果组装规则，将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。

进一步的，其中所述接收用户的申报请求包括：

申报请求服从参数为&的泊松过程，队列具有长度限制L，当队满时，新到的申报请求将会被云服务系统丢弃；

全局调度器对申报请求的解析时间和虚拟机对申报请求的服务时间分别服从

和1/σ的指数分布；其中，&、

σ均大于1；

全局调度器对申报请求的解析，把申报请求转化为虚拟机创建命令，当基础设施资源池中所有可用资源均已被占用时，虚拟机创建命令无法执行。

进一步的，其中所述接收用户的申报数据包括数据写入：

步骤201、将申报数据以追加写的形式写入一个写缓冲区中，并建立一个哈希表进行数据索引；哈希存储区的数据量达到一定量时，申报数据被发送到哈希存储区中进行排序操作，当排序操作完成后，哈希存储区中的申报数据将被删除；

步骤202、哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中，每个块中对申报数据进行排序；排序完成后，排序存储区将数据块发送到索引存储区中，构建索引子树，当索引子树构建完成后，排序存储区中的数据块将被删除；

步骤203、排序存储区的M个数据块发送到索引存储区中之后，对于每个数据块分别构建一个索引子树，然后将M个索引子树合并到索引存储区的索引树种，到索引树的数据量达到一定阈值时，新建一个新的索引树继续进行索引子树的合并操作。

进一步的，其中各数据处理服务并行执行数据处理任务包括：

步骤301、各数据处理服务提交数据处理任务，提交请求动态到达；提交内容包括计算任务、用户需求、计算任务资源需求概况，这些内容被放入配置文件并一起提交；

步骤302、主节点接收提交请求，并把新到达的计算任务加入在线计算任务清单，根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子，分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数；

步骤303、在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；其次把这些值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵。

步骤304、把最优放置矩阵提交给子任务调度器，由其负责推行各处理器的实际资源放置调度工作。

步骤305、各处理器的接受子任务调度器的调度并执行各子任务，在执行各子任务过程中，随时把子任务的状态变更情况向计算任务状态更新器报告。

在本申请的另一个实施例中，提供了一种项目申报数据处理装置，其特征在于，所述装置包括：

接收模块，用户接收用户的申报请求和申报数据，将所述申报数据按照数据属性分解，所述数据属性包括目标数据源、数据规则集、数据结果项；

定位模块，用于根据分解得到的申报数据的目标数据源，从数据服务注册中心定位对应的数据处理服务，其中所述数据处理服务具有多个；

生成模块，用于根据数据规则集，生成数据服务组合规则和结果组装规则；

分解模块，用于结合数据服务组合规则和结果组装规则，将数据处理分解为面向数据处理服务的子处理请求；用于将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集；

并行处理模块，用于子处理请求和对应的规则子集派发给对应的数据处理服务；各数据处理服务并行执行数据处理任务，分别得到临时数据处理结果；

合成模块，用于按照数据服务组合规则和结果组装规则，将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。

进一步的，接收模块，进一步用于：

和1/σ的指数分布；其中，&、

σ均大于1；

进一步的，其中所述接收模块包括数据写入模块，用于：

将申报数据以追加写的形式写入一个写缓冲区中，并建立一个哈希表进行数据索引；哈希存储区的数据量达到一定量时，申报数据被发送到哈希存储区中进行排序操作，当排序操作完成后，哈希存储区中的申报数据将被删除；

哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中，每个块中对申报数据进行排序；排序完成后，排序存储区将数据块发送到索引存储区中，构建索引子树，当索引子树构建完成后，排序存储区中的数据块将被删除；

排序存储区的M个数据块发送到索引存储区中之后，对于每个数据块分别构建一个索引子树，然后将M个索引子树合并到索引存储区的索引树种，到索引树的数据量达到一定阈值时，新建一个新的索引树继续进行索引子树的合并操作。

进一步的，其中并行处理模块还用于：

各数据处理服务提交数据处理任务，提交请求动态到达；提交内容包括计算任务、用户需求、计算任务资源需求概况，这些内容被放入配置文件并一起提交；

主节点接收提交请求，并把新到达的计算任务加入在线计算任务清单，根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子，分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数；

在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；其次把这些值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵；

把最优放置矩阵提交给子任务调度器，由其负责推行各处理器的实际资源放置调度工作；

各处理器的接受子任务调度器的调度并执行各子任务，在执行各子任务过程中，随时把子任务的状态变更情况向计算任务状态更新器报告。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅用于示意本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。

图1是本发明一实施例的一种项目申报数据处理方法的流程示意图；

图2是本发明一实施例的接收用户的申报数据包括数据写入的流程示意图；

图3是本发明一实施例的各数据处理服务并行执行数据处理任务的流程示意图；

图4是本发明另一实施例的一种项目申报数据处理装置的结构示意图；

具体实施例

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX，但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一XXX也可以被称为第二XXX，类似地，第二XXX也可以被称为第一XXX。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地，取决于语境，短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在一实施例中，如图1所示，其示出了一种项目申报数据处理方法，该方法应用于申报系统中。申报系统可安装于个人/企业申报终端、第三方申报代理机构终端、审核部门终端。

上述项目申报数据处理方法包括：

用户或第三方代理机构可在个人/企业申报终端、申报代理结构终端填写申报数据，用户或第三方代理机构申报数据根据所需申报项目的内容进行事先整理得出，该数据正确性、有效性先由自身进行把关处理。目标数据源，表示与结构化数据来源相关的信息。当然，可以根据所需项目申报要求进行添加修改。数据规则集，表示与申报数据的处理规则。数据结果项，表示处理后的申报数据得到符合统一理解的数据处理结果。

进一步的，接收用户的申报请求包括：

申报请求服从参数为&的泊松过程，队列具有长度限制设置有阈值，当队满时，新到的申报请求将会被云服务系统丢弃；

和1/σ的指数分布；其中，&、

σ均大于1；

进一步的，整合申报数据的数据属性，对数据属性进行训练，可以得到适合各种类型的数据属性，对训练集中的数据属性的所有文本进行必要的文本预处理，生成特征向量，训练方法步骤如下：

归一化输入的待判文本的特征向量T和训练样本的特征向量集E_T；并计算出特征向量T、特征向量集E_T中相同的特征词；

把相同的特征词和对应的权值提取出来组成新的向量NT、NE_T；

进行相似度计算，计算两个特征向量的权值组成的一元向量之间的相似度，并对计算的文本的相似度计算结果进行排序；

取出相似度最高的K个文本；把这K个文本的相似度按类别累加；

取相似度最大值S；以及对应的类别C；如果相似度最大值大于等于设定阈值，则标识该文本属于C类。

数据服务注册中心根据用户或第三方代理结构填写的申报项目和用户名，结合申报数据的与结构化数据来源相关的信息，选取对应的多个数据处理服务。

在每个数据处理服务中，根据生成的数据服务组合规则和结果组装规则，将每个数据处理服务分别为多个并行处理的子处理请求，进一步缩减服务器处理压力，数据处理时间更快。

总的数据规则集包括有相关数据的处理规则，针对生成的数据服务组合规则和结果组装规则将数据规则集分解成对应于子处理请求的多个不相交的规则子集。

每个数据处理服务对应处理一一对应的子处理请求和规则子集，根据一一对应的子处理请求和规则子集，数据处理服务快速进行申报数据的数据处理。

根据一一对应的子处理请求和规则子集，数据处理服务快速进行申报数据的数据处理，得到每一个申报数据的临时数据处理结果。

步骤107、按照数据服务组合规则和结果组装规则，将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。将临时数据处理结果进行汇总，最终得到一项数据申报的最终处理数据。

进一步的，图2示出了接收用户的申报数据包括数据写入的流程图，具有如下的方法步骤：

进一步的，图3示出了各数据处理服务并行执行数据处理任务的流程图，具有如下的方法步骤：

步骤303、在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；其次把这些值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵；

步骤304、把最优放置矩阵提交给子任务调度器，由其负责推行各处理器的实际资源放置调度工作；

进一步的，当用户或第三方代理机构需要修改时，覆盖申报系统中的文件内容，更新后的数据可以通过应用程序端的语法分析机制提取出新增加的数据关联性，但是被覆盖的数据内容中可能包含数据关联系，这些被覆盖的数据关联性同时需要被删除掉以保证关联性的一致性。最直接的方法就是每次发生覆盖写时，客户端从数据服务器中重新读取被覆盖的部分进行语法分析知晓哪些数据关联性是无效的，从而进行删除操作。

但是这种方式需要客户端从数据服务器中重新读取数据内容，引入了额外的数据I/O，同时增加了更新的开销。结合数据关联性的组织结构和存储方式同时考虑更新操作的开销，通过在客户端检查文件扩展属性中数据关联性在文件内容中的偏移量和长度与新增加的数据部分是否存在重叠，来判断是否存在被覆盖的数据关联性；如果存在某些数据关联性属于被覆盖的数据部分，则在客户端缓存的文件元数据的扩展属性中直接删除这些无效的数据关联性即可完成更新操作。

这种更新方式避免了客户端从数据服务器中读取文件的旧数据而引入的额外数据I/O。并且在进行覆盖写操作时，文件的元数据已经缓存在客户端本地，因此对新数据的语法分析和文件扩展属性中的数据关联性范围和新数据部分重叠性的判断都是在客户端本地执行，无需再向元数据服务器和数据服务器进行跨网络请求，从而降低了数据关联性更新的开销。

上述一种项目申报数据处理方法，其通过将所述申报数据按照数据属性分解，根据分解得到的申报数据的目标数据源，从数据服务注册中心定位对应的数据处理服务；根据数据规则集，将数据处理分解为面向数据处理服务的子处理请求；将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集；子处理请求和对应的规则子集派发给对应的数据处理服务，分别得到临时数据处理结果；将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。通过上述方法使得项目申报中的数据处理得到统一符合审核要求的数据，管理人员可以快速高效地处理审核；并且服务器多并行处理不会因此导致系统宕机。

在另一实施例中，如图4所示，一种项目申报数据处理装置，该装置应用于申报系统中。申报系统可安装于个人/企业申报终端、第三方申报代理机构终端、审核部门终端。

上述项目申报数据装置包括：

接收模块，接收用户的申报请求和申报数据，将所述申报数据按照数据属性分解，所述数据属性包括目标数据源、数据规则集、数据结果项；

进一步的，接收用户的申报请求包括：

和1/σ的指数分布；其中，&、

σ均大于1；

分解模块，用于结合数据服务组合规则和结果组装规则，将数据处理分解为面向数据处理服务的子处理请求；

将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集；

并行处理模块，用于子处理请求和对应的规则子集派发给对应的数据处理服务；

各数据处理服务并行执行数据处理任务，分别得到临时数据处理结果；

合成模块，用于按照数据服务组合规则和结果组装规则，将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。将临时数据处理结果进行汇总，最终得到一项数据申报的最终处理数据。

进一步的，接收模块包括数据写入模块，用于：

进一步的，并行处理模块用于：

在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；其次把这些值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵。

资源放置计算器把最优放置矩阵提交给子任务调度器，由其负责推行各处理器的实际资源放置调度工作。

上述一种项目申报数据处理装置，其通过将所述申报数据按照数据属性分解，根据分解得到的申报数据的目标数据源，从数据服务注册中心定位对应的数据处理服务；根据数据规则集，将数据处理分解为面向数据处理服务的子处理请求；将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集；子处理请求和对应的规则子集派发给对应的数据处理服务，分别得到临时数据处理结果；将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。通过上述方法使得项目申报中的数据处理得到统一符合审核要求的数据，管理人员可以快速高效地处理审核；并且服务器多并行处理不会因此导致系统宕机。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种项目申报数据处理方法，其特征在于，所述方法包括：

步骤102、根据分解得到的所述申报数据的所述目标数据源，从数据服务注册中心定位对应的数据处理服务，其中所述数据处理服务具有多个；

步骤103、根据所述数据规则集，生成数据服务组合规则和结果组装规则；结合所述数据服务组合规则和所述结果组装规则，将数据处理分解为面向所述数据处理服务的子处理请求；

步骤104、将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集；

步骤105、所述子处理请求和对应的规则子集派发给对应的所述数据处理服务；

步骤106、各所述数据处理服务并行执行数据处理任务，分别得到临时数据处理结果；

步骤107、按照所述数据服务组合规则和所述结果组装规则，将所述临时数据处理结果按照数据结果项的要求组装成最终数据处理结果；

其中所述接收用户的申报数据包括数据写入：

步骤201、将所述申报数据以追加写的形式写入一个写缓冲区中，并建立一个哈希表进行数据索引；哈希存储区的数据量达到一定量时，所述申报数据被发送到所述哈希存储区中进行排序操作，当排序操作完成后，所述哈希存储区中的所述申报数据将被删除；

步骤202、所述哈希存储区中缓存的所述申报数据将被划分成排序存储区中的M个数据块中，每个块中对所述申报数据进行排序；排序完成后，排序存储区将数据块发送到索引存储区中，构建索引子树，当索引子树构建完成后，排序存储区中的数据块将被删除；

步骤203、所述排序存储区的所述M个数据块发送到所述索引存储区中之后，对于每个数据块分别构建一个索引子树，然后将M个索引子树合并到索引存储区的索引树种，到索引树的数据量达到一定阈值时，新建一个新的索引树继续进行索引子树的合并操作。

2.根据权利要求1所述的一种项目申报数据处理方法，其特征在于，其中所述接收用户的申报请求包括：

全局调度器对所述申报请求的解析时间和虚拟机对所述申报请求的服务时间分别服从

和1/σ的指数分布；其中，&、

σ均大于1；

所述全局调度器对申报请求的解析，把所述申报请求转化为虚拟机创建命令，当基础设施资源池中所有可用资源均已被占用时，虚拟机创建命令无法执行。

3.根据权利要求1所述的一种项目申报数据处理方法，其特征在于，其中各数据处理服务并行执行数据处理任务包括：

步骤301、各数据处理服务提交数据处理任务，提交请求动态到达；提交内容包括计算任务、用户需求、计算任务资源需求概况，提交内容被放入配置文件并一起提交；

步骤303、在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；把这些值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵；

4.一种项目申报数据处理装置，其特征在于，所述装置包括：

合成模块，用于按照数据服务组合规则和结果组装规则，将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果；

其中所述接收模块包括数据写入模块，用于：

5.根据权利要求4所述的一种项目申报数据处理装置，其特征在于，接收模块，进一步用于：

和1/σ的指数分布；其中，&、

σ均大于1；

6.根据权利要求4所述的一种项目申报数据处理装置，其特征在于，其中并行处理模块还用于：

各数据处理服务提交数据处理任务，提交请求动态到达；提交内容包括计算任务、用户需求、计算任务资源需求概况，提交内容被放入配置文件并一起提交；

在每个循环周期开始，综合本周期内的最新计算任务清单、计算任务当前状态，首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数，初始化其值；把这些值提交给资源计算器，由其根据启发式策略产生不同的放置矩阵并评估其效用值，最终决策出最优放置矩阵；