CN111767288B - 一种项目申报数据处理方法及装置 - Google Patents

一种项目申报数据处理方法及装置 Download PDF

Info

Publication number
CN111767288B
CN111767288B CN202010747422.0A CN202010747422A CN111767288B CN 111767288 B CN111767288 B CN 111767288B CN 202010747422 A CN202010747422 A CN 202010747422A CN 111767288 B CN111767288 B CN 111767288B
Authority
CN
China
Prior art keywords
data
declaration
data processing
storage area
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010747422.0A
Other languages
English (en)
Other versions
CN111767288A (zh
Inventor
叶雄
徐宏淼
叶琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhengce Mdt Infotech Co ltd
Original Assignee
Hangzhou Zhengce Mdt Infotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhengce Mdt Infotech Co ltd filed Critical Hangzhou Zhengce Mdt Infotech Co ltd
Priority to CN202010747422.0A priority Critical patent/CN111767288B/zh
Publication of CN111767288A publication Critical patent/CN111767288A/zh
Application granted granted Critical
Publication of CN111767288B publication Critical patent/CN111767288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种项目申报数据处理方法及装置,其通过将所述申报数据按照数据属性分解,根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务;根据数据规则集,将数据处理分解为面向数据处理服务的子处理请求;将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;子处理请求和对应的规则子集派发给对应的数据处理服务,分别得到临时数据处理结果;将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。通过上述方法使得项目申报中的数据处理得到统一符合审核要求的数据,管理人员可以快速高效地处理审核;并且服务器多并行处理不会因此导致系统宕机。

Description

一种项目申报数据处理方法及装置
技术领域
本申请涉及数据处理领域,特别涉及一种项目申报数据处理方法及装置。
背景技术
当今社会是一个信息化社会的时代,同时又是一个大数据时代;随着互联网、物联网、云计算和人工智能等信息技术和计算机产业的不断发展和进步,使得数据的处理成为一个亟待解决的问题。在项目申报领域,项目信息具有大数据复杂性特点,领域差别较大、数据类型繁杂、冗余数据较多,现有的申报系统智能简单地进行数据汇总,无法对数据进行处理得到有用的后台数据,项目评审人员面对冗余繁杂的各种大数据时,无法及时、高效地审核数据,导致积压项目文件越来越多,审核资源浪费以及审查时间增加;同时,现有的项目申报系统在申报用户过多时,容易引起系统崩溃、服务器宕机。
发明内容
本发明提供了一种项目申报数据处理方法及装置,目的在于高效整理申报数据、数据写入较快、系统不会崩溃、宕机。
为了解决上述问题或至少部分地解决上述技术问题,在本申请的一个实施例中,提供了一种项目申报数据处理方法,其特征在于,所述方法包括:
步骤101、接收用户的申报请求和申报数据,将所述申报数据按照数据属性分解,所述数据属性包括目标数据源、数据规则集、数据结果项;
步骤102、根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务,其中所述数据处理服务具有多个;
步骤103、根据数据规则集,生成数据服务组合规则和结果组装规则;结合数据服务组合规则和结果组装规则,将数据处理分解为面向数据处理服务的子处理请求;
步骤104、将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;
步骤105、子处理请求和对应的规则子集派发给对应的数据处理服务;
步骤106、各数据处理服务并行执行数据处理任务,分别得到临时数据处理结果;
步骤107、按照数据服务组合规则和结果组装规则,将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。
进一步的,其中所述接收用户的申报请求包括:
申报请求服从参数为&的泊松过程,队列具有长度限制L,当队满时,新到的申报请求将会被云服务系统丢弃;
全局调度器对申报请求的解析时间和虚拟机对申报请求的服务时间分别服从
Figure BDA0002608836950000021
和1/σ的指数分布;其中,&、
Figure BDA0002608836950000022
σ均大于1;
全局调度器对申报请求的解析,把申报请求转化为虚拟机创建命令,当基础设施资源池中所有可用资源均已被占用时,虚拟机创建命令无法执行。
进一步的,其中所述接收用户的申报数据包括数据写入:
步骤201、将申报数据以追加写的形式写入一个写缓冲区中,并建立一个哈希表进行数据索引;哈希存储区的数据量达到一定量时,申报数据被发送到哈希存储区中进行排序操作,当排序操作完成后,哈希存储区中的申报数据将被删除;
步骤202、哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中,每个块中对申报数据进行排序;排序完成后,排序存储区将数据块发送到索引存储区中,构建索引子树,当索引子树构建完成后,排序存储区中的数据块将被删除;
步骤203、排序存储区的M个数据块发送到索引存储区中之后,对于每个数据块分别构建一个索引子树,然后将M个索引子树合并到索引存储区的索引树种,到索引树的数据量达到一定阈值时,新建一个新的索引树继续进行索引子树的合并操作。
进一步的,其中各数据处理服务并行执行数据处理任务包括:
步骤301、各数据处理服务提交数据处理任务,提交请求动态到达;提交内容包括计算任务、用户需求、计算任务资源需求概况,这些内容被放入配置文件并一起提交;
步骤302、主节点接收提交请求,并把新到达的计算任务加入在线计算任务清单,根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子,分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数;
步骤303、在每个循环周期开始,综合本周期内的最新计算任务清单、计算任务当前状态,首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数,初始化其值;其次把这些值提交给资源计算器,由其根据启发式策略产生不同的放置矩阵并评估其效用值,最终决策出最优放置矩阵。
步骤304、把最优放置矩阵提交给子任务调度器,由其负责推行各处理器的实际资源放置调度工作。
步骤305、各处理器的接受子任务调度器的调度并执行各子任务,在执行各子任务过程中,随时把子任务的状态变更情况向计算任务状态更新器报告。
在本申请的另一个实施例中,提供了一种项目申报数据处理装置,其特征在于,所述装置包括:
接收模块,用户接收用户的申报请求和申报数据,将所述申报数据按照数据属性分解,所述数据属性包括目标数据源、数据规则集、数据结果项;
定位模块,用于根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务,其中所述数据处理服务具有多个;
生成模块,用于根据数据规则集,生成数据服务组合规则和结果组装规则;
分解模块,用于结合数据服务组合规则和结果组装规则,将数据处理分解为面向数据处理服务的子处理请求;用于将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;
并行处理模块,用于子处理请求和对应的规则子集派发给对应的数据处理服务;各数据处理服务并行执行数据处理任务,分别得到临时数据处理结果;
合成模块,用于按照数据服务组合规则和结果组装规则,将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。
进一步的,接收模块,进一步用于:
申报请求服从参数为&的泊松过程,队列具有长度限制L,当队满时,新到的申报请求将会被云服务系统丢弃;
全局调度器对申报请求的解析时间和虚拟机对申报请求的服务时间分别服从
Figure BDA0002608836950000041
和1/σ的指数分布;其中,&、
Figure BDA0002608836950000042
σ均大于1;
全局调度器对申报请求的解析,把申报请求转化为虚拟机创建命令,当基础设施资源池中所有可用资源均已被占用时,虚拟机创建命令无法执行。
进一步的,其中所述接收模块包括数据写入模块,用于:
将申报数据以追加写的形式写入一个写缓冲区中,并建立一个哈希表进行数据索引;哈希存储区的数据量达到一定量时,申报数据被发送到哈希存储区中进行排序操作,当排序操作完成后,哈希存储区中的申报数据将被删除;
哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中,每个块中对申报数据进行排序;排序完成后,排序存储区将数据块发送到索引存储区中,构建索引子树,当索引子树构建完成后,排序存储区中的数据块将被删除;
排序存储区的M个数据块发送到索引存储区中之后,对于每个数据块分别构建一个索引子树,然后将M个索引子树合并到索引存储区的索引树种,到索引树的数据量达到一定阈值时,新建一个新的索引树继续进行索引子树的合并操作。
进一步的,其中并行处理模块还用于:
各数据处理服务提交数据处理任务,提交请求动态到达;提交内容包括计算任务、用户需求、计算任务资源需求概况,这些内容被放入配置文件并一起提交;
主节点接收提交请求,并把新到达的计算任务加入在线计算任务清单,根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子,分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数;
在每个循环周期开始,综合本周期内的最新计算任务清单、计算任务当前状态,首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数,初始化其值;其次把这些值提交给资源计算器,由其根据启发式策略产生不同的放置矩阵并评估其效用值,最终决策出最优放置矩阵;
把最优放置矩阵提交给子任务调度器,由其负责推行各处理器的实际资源放置调度工作;
各处理器的接受子任务调度器的调度并执行各子任务,在执行各子任务过程中,随时把子任务的状态变更情况向计算任务状态更新器报告。
本发明公开了一种项目申报数据处理方法及装置,其通过将所述申报数据按照数据属性分解,根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务;根据数据规则集,将数据处理分解为面向数据处理服务的子处理请求;将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;子处理请求和对应的规则子集派发给对应的数据处理服务,分别得到临时数据处理结果;将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。通过上述方法使得项目申报中的数据处理得到统一符合审核要求的数据,管理人员可以快速高效地处理审核;并且服务器多并行处理不会因此导致系统宕机。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅用于示意本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。
图1是本发明一实施例的一种项目申报数据处理方法的流程示意图;
图2是本发明一实施例的接收用户的申报数据包括数据写入的流程示意图;
图3是本发明一实施例的各数据处理服务并行执行数据处理任务的流程示意图;
图4是本发明另一实施例的一种项目申报数据处理装置的结构示意图;
具体实施例
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地,取决于语境,短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
在一实施例中,如图1所示,其示出了一种项目申报数据处理方法,该方法应用于申报系统中。申报系统可安装于个人/企业申报终端、第三方申报代理机构终端、审核部门终端。
上述项目申报数据处理方法包括:
步骤101、接收用户的申报请求和申报数据,将所述申报数据按照数据属性分解,所述数据属性包括目标数据源、数据规则集、数据结果项;
用户或第三方代理机构可在个人/企业申报终端、申报代理结构终端填写申报数据,用户或第三方代理机构申报数据根据所需申报项目的内容进行事先整理得出,该数据正确性、有效性先由自身进行把关处理。目标数据源,表示与结构化数据来源相关的信息。当然,可以根据所需项目申报要求进行添加修改。数据规则集,表示与申报数据的处理规则。数据结果项,表示处理后的申报数据得到符合统一理解的数据处理结果。
进一步的,接收用户的申报请求包括:
申报请求服从参数为&的泊松过程,队列具有长度限制设置有阈值,当队满时,新到的申报请求将会被云服务系统丢弃;
全局调度器对申报请求的解析时间和虚拟机对申报请求的服务时间分别服从
Figure BDA0002608836950000081
和1/σ的指数分布;其中,&、
Figure BDA0002608836950000082
σ均大于1;
全局调度器对申报请求的解析,把申报请求转化为虚拟机创建命令,当基础设施资源池中所有可用资源均已被占用时,虚拟机创建命令无法执行。
进一步的,整合申报数据的数据属性,对数据属性进行训练,可以得到适合各种类型的数据属性,对训练集中的数据属性的所有文本进行必要的文本预处理,生成特征向量,训练方法步骤如下:
归一化输入的待判文本的特征向量T和训练样本的特征向量集ET;并计算出特征向量T、特征向量集ET中相同的特征词;
把相同的特征词和对应的权值提取出来组成新的向量NT、NET
进行相似度计算,计算两个特征向量的权值组成的一元向量之间的相似度,并对计算的文本的相似度计算结果进行排序;
取出相似度最高的K个文本;把这K个文本的相似度按类别累加;
取相似度最大值S;以及对应的类别C;如果相似度最大值大于等于设定阈值,则标识该文本属于C类。
步骤102、根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务,其中所述数据处理服务具有多个;
数据服务注册中心根据用户或第三方代理结构填写的申报项目和用户名,结合申报数据的与结构化数据来源相关的信息,选取对应的多个数据处理服务。
步骤103、根据数据规则集,生成数据服务组合规则和结果组装规则;结合数据服务组合规则和结果组装规则,将数据处理分解为面向数据处理服务的子处理请求;
在每个数据处理服务中,根据生成的数据服务组合规则和结果组装规则,将每个数据处理服务分别为多个并行处理的子处理请求,进一步缩减服务器处理压力,数据处理时间更快。
步骤104、将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;
总的数据规则集包括有相关数据的处理规则,针对生成的数据服务组合规则和结果组装规则将数据规则集分解成对应于子处理请求的多个不相交的规则子集。
步骤105、子处理请求和对应的规则子集派发给对应的数据处理服务;
每个数据处理服务对应处理一一对应的子处理请求和规则子集,根据一一对应的子处理请求和规则子集,数据处理服务快速进行申报数据的数据处理。
步骤106、各数据处理服务并行执行数据处理任务,分别得到临时数据处理结果;
根据一一对应的子处理请求和规则子集,数据处理服务快速进行申报数据的数据处理,得到每一个申报数据的临时数据处理结果。
步骤107、按照数据服务组合规则和结果组装规则,将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。将临时数据处理结果进行汇总,最终得到一项数据申报的最终处理数据。
进一步的,图2示出了接收用户的申报数据包括数据写入的流程图,具有如下的方法步骤:
步骤201、将申报数据以追加写的形式写入一个写缓冲区中,并建立一个哈希表进行数据索引;哈希存储区的数据量达到一定量时,申报数据被发送到哈希存储区中进行排序操作,当排序操作完成后,哈希存储区中的申报数据将被删除;
步骤202、哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中,每个块中对申报数据进行排序;排序完成后,排序存储区将数据块发送到索引存储区中,构建索引子树,当索引子树构建完成后,排序存储区中的数据块将被删除;
步骤203、排序存储区的M个数据块发送到索引存储区中之后,对于每个数据块分别构建一个索引子树,然后将M个索引子树合并到索引存储区的索引树种,到索引树的数据量达到一定阈值时,新建一个新的索引树继续进行索引子树的合并操作。
进一步的,图3示出了各数据处理服务并行执行数据处理任务的流程图,具有如下的方法步骤:
步骤301、各数据处理服务提交数据处理任务,提交请求动态到达;提交内容包括计算任务、用户需求、计算任务资源需求概况,这些内容被放入配置文件并一起提交;
步骤302、主节点接收提交请求,并把新到达的计算任务加入在线计算任务清单,根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子,分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数;
步骤303、在每个循环周期开始,综合本周期内的最新计算任务清单、计算任务当前状态,首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数,初始化其值;其次把这些值提交给资源计算器,由其根据启发式策略产生不同的放置矩阵并评估其效用值,最终决策出最优放置矩阵;
步骤304、把最优放置矩阵提交给子任务调度器,由其负责推行各处理器的实际资源放置调度工作;
步骤305、各处理器的接受子任务调度器的调度并执行各子任务,在执行各子任务过程中,随时把子任务的状态变更情况向计算任务状态更新器报告。
进一步的,当用户或第三方代理机构需要修改时,覆盖申报系统中的文件内容,更新后的数据可以通过应用程序端的语法分析机制提取出新增加的数据关联性,但是被覆盖的数据内容中可能包含数据关联系,这些被覆盖的数据关联性同时需要被删除掉以保证关联性的一致性。最直接的方法就是每次发生覆盖写时,客户端从数据服务器中重新读取被覆盖的部分进行语法分析知晓哪些数据关联性是无效的,从而进行删除操作。
但是这种方式需要客户端从数据服务器中重新读取数据内容,引入了额外的数据I/O,同时增加了更新的开销。结合数据关联性的组织结构和存储方式同时考虑更新操作的开销,通过在客户端检查文件扩展属性中数据关联性在文件内容中的偏移量和长度与新增加的数据部分是否存在重叠,来判断是否存在被覆盖的数据关联性;如果存在某些数据关联性属于被覆盖的数据部分,则在客户端缓存的文件元数据的扩展属性中直接删除这些无效的数据关联性即可完成更新操作。
这种更新方式避免了客户端从数据服务器中读取文件的旧数据而引入的额外数据I/O。并且在进行覆盖写操作时,文件的元数据已经缓存在客户端本地,因此对新数据的语法分析和文件扩展属性中的数据关联性范围和新数据部分重叠性的判断都是在客户端本地执行,无需再向元数据服务器和数据服务器进行跨网络请求,从而降低了数据关联性更新的开销。
上述一种项目申报数据处理方法,其通过将所述申报数据按照数据属性分解,根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务;根据数据规则集,将数据处理分解为面向数据处理服务的子处理请求;将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;子处理请求和对应的规则子集派发给对应的数据处理服务,分别得到临时数据处理结果;将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。通过上述方法使得项目申报中的数据处理得到统一符合审核要求的数据,管理人员可以快速高效地处理审核;并且服务器多并行处理不会因此导致系统宕机。
在另一实施例中,如图4所示,一种项目申报数据处理装置,该装置应用于申报系统中。申报系统可安装于个人/企业申报终端、第三方申报代理机构终端、审核部门终端。
上述项目申报数据装置包括:
接收模块,接收用户的申报请求和申报数据,将所述申报数据按照数据属性分解,所述数据属性包括目标数据源、数据规则集、数据结果项;
用户或第三方代理机构可在个人/企业申报终端、申报代理结构终端填写申报数据,用户或第三方代理机构申报数据根据所需申报项目的内容进行事先整理得出,该数据正确性、有效性先由自身进行把关处理。目标数据源,表示与结构化数据来源相关的信息。当然,可以根据所需项目申报要求进行添加修改。数据规则集,表示与申报数据的处理规则。数据结果项,表示处理后的申报数据得到符合统一理解的数据处理结果。
进一步的,接收用户的申报请求包括:
申报请求服从参数为&的泊松过程,队列具有长度限制设置有阈值,当队满时,新到的申报请求将会被云服务系统丢弃;
全局调度器对申报请求的解析时间和虚拟机对申报请求的服务时间分别服从
Figure BDA0002608836950000121
和1/σ的指数分布;其中,&、
Figure BDA0002608836950000122
σ均大于1;
全局调度器对申报请求的解析,把申报请求转化为虚拟机创建命令,当基础设施资源池中所有可用资源均已被占用时,虚拟机创建命令无法执行。
进一步的,整合申报数据的数据属性,对数据属性进行训练,可以得到适合各种类型的数据属性,对训练集中的数据属性的所有文本进行必要的文本预处理,生成特征向量,训练方法步骤如下:
归一化输入的待判文本的特征向量T和训练样本的特征向量集ET;并计算出特征向量T、特征向量集ET中相同的特征词;
把相同的特征词和对应的权值提取出来组成新的向量NT、NET
进行相似度计算,计算两个特征向量的权值组成的一元向量之间的相似度,并对计算的文本的相似度计算结果进行排序;
取出相似度最高的K个文本;把这K个文本的相似度按类别累加;
取相似度最大值S;以及对应的类别C;如果相似度最大值大于等于设定阈值,则标识该文本属于C类。
定位模块,用于根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务,其中所述数据处理服务具有多个;
数据服务注册中心根据用户或第三方代理结构填写的申报项目和用户名,结合申报数据的与结构化数据来源相关的信息,选取对应的多个数据处理服务。
生成模块,用于根据数据规则集,生成数据服务组合规则和结果组装规则;
分解模块,用于结合数据服务组合规则和结果组装规则,将数据处理分解为面向数据处理服务的子处理请求;
在每个数据处理服务中,根据生成的数据服务组合规则和结果组装规则,将每个数据处理服务分别为多个并行处理的子处理请求,进一步缩减服务器处理压力,数据处理时间更快。
将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;
总的数据规则集包括有相关数据的处理规则,针对生成的数据服务组合规则和结果组装规则将数据规则集分解成对应于子处理请求的多个不相交的规则子集。
并行处理模块,用于子处理请求和对应的规则子集派发给对应的数据处理服务;
每个数据处理服务对应处理一一对应的子处理请求和规则子集,根据一一对应的子处理请求和规则子集,数据处理服务快速进行申报数据的数据处理。
各数据处理服务并行执行数据处理任务,分别得到临时数据处理结果;
根据一一对应的子处理请求和规则子集,数据处理服务快速进行申报数据的数据处理,得到每一个申报数据的临时数据处理结果。
合成模块,用于按照数据服务组合规则和结果组装规则,将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。将临时数据处理结果进行汇总,最终得到一项数据申报的最终处理数据。
进一步的,接收模块包括数据写入模块,用于:
将申报数据以追加写的形式写入一个写缓冲区中,并建立一个哈希表进行数据索引;哈希存储区的数据量达到一定量时,申报数据被发送到哈希存储区中进行排序操作,当排序操作完成后,哈希存储区中的申报数据将被删除;
哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中,每个块中对申报数据进行排序;排序完成后,排序存储区将数据块发送到索引存储区中,构建索引子树,当索引子树构建完成后,排序存储区中的数据块将被删除;
排序存储区的M个数据块发送到索引存储区中之后,对于每个数据块分别构建一个索引子树,然后将M个索引子树合并到索引存储区的索引树种,到索引树的数据量达到一定阈值时,新建一个新的索引树继续进行索引子树的合并操作。
进一步的,并行处理模块用于:
各数据处理服务提交数据处理任务,提交请求动态到达;提交内容包括计算任务、用户需求、计算任务资源需求概况,这些内容被放入配置文件并一起提交;
主节点接收提交请求,并把新到达的计算任务加入在线计算任务清单,根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子,分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数;
在每个循环周期开始,综合本周期内的最新计算任务清单、计算任务当前状态,首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数,初始化其值;其次把这些值提交给资源计算器,由其根据启发式策略产生不同的放置矩阵并评估其效用值,最终决策出最优放置矩阵。
资源放置计算器把最优放置矩阵提交给子任务调度器,由其负责推行各处理器的实际资源放置调度工作。
各处理器的接受子任务调度器的调度并执行各子任务,在执行各子任务过程中,随时把子任务的状态变更情况向计算任务状态更新器报告。
进一步的,当用户或第三方代理机构需要修改时,覆盖申报系统中的文件内容,更新后的数据可以通过应用程序端的语法分析机制提取出新增加的数据关联性,但是被覆盖的数据内容中可能包含数据关联系,这些被覆盖的数据关联性同时需要被删除掉以保证关联性的一致性。最直接的方法就是每次发生覆盖写时,客户端从数据服务器中重新读取被覆盖的部分进行语法分析知晓哪些数据关联性是无效的,从而进行删除操作。
但是这种方式需要客户端从数据服务器中重新读取数据内容,引入了额外的数据I/O,同时增加了更新的开销。结合数据关联性的组织结构和存储方式同时考虑更新操作的开销,通过在客户端检查文件扩展属性中数据关联性在文件内容中的偏移量和长度与新增加的数据部分是否存在重叠,来判断是否存在被覆盖的数据关联性;如果存在某些数据关联性属于被覆盖的数据部分,则在客户端缓存的文件元数据的扩展属性中直接删除这些无效的数据关联性即可完成更新操作。
这种更新方式避免了客户端从数据服务器中读取文件的旧数据而引入的额外数据I/O。并且在进行覆盖写操作时,文件的元数据已经缓存在客户端本地,因此对新数据的语法分析和文件扩展属性中的数据关联性范围和新数据部分重叠性的判断都是在客户端本地执行,无需再向元数据服务器和数据服务器进行跨网络请求,从而降低了数据关联性更新的开销。
上述一种项目申报数据处理装置,其通过将所述申报数据按照数据属性分解,根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务;根据数据规则集,将数据处理分解为面向数据处理服务的子处理请求;将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;子处理请求和对应的规则子集派发给对应的数据处理服务,分别得到临时数据处理结果;将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果。通过上述方法使得项目申报中的数据处理得到统一符合审核要求的数据,管理人员可以快速高效地处理审核;并且服务器多并行处理不会因此导致系统宕机。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种项目申报数据处理方法,其特征在于,所述方法包括:
步骤101、接收用户的申报请求和申报数据,将所述申报数据按照数据属性分解,所述数据属性包括目标数据源、数据规则集、数据结果项;
步骤102、根据分解得到的所述申报数据的所述目标数据源,从数据服务注册中心定位对应的数据处理服务,其中所述数据处理服务具有多个;
步骤103、根据所述数据规则集,生成数据服务组合规则和结果组装规则;结合所述数据服务组合规则和所述结果组装规则,将数据处理分解为面向所述数据处理服务的子处理请求;
步骤104、将所述数据规则集分解为对应于各所述个子处理请求的多个不相交的规则子集;
步骤105、所述子处理请求和对应的规则子集派发给对应的所述数据处理服务;
步骤106、各所述数据处理服务并行执行数据处理任务,分别得到临时数据处理结果;
步骤107、按照所述数据服务组合规则和所述结果组装规则,将所述临时数据处理结果按照数据结果项的要求组装成最终数据处理结果;
其中所述接收用户的申报数据包括数据写入:
步骤201、将所述申报数据以追加写的形式写入一个写缓冲区中,并建立一个哈希表进行数据索引;哈希存储区的数据量达到一定量时,所述申报数据被发送到所述哈希存储区中进行排序操作,当排序操作完成后,所述哈希存储区中的所述申报数据将被删除;
步骤202、所述哈希存储区中缓存的所述申报数据将被划分成排序存储区中的M个数据块中,每个块中对所述申报数据进行排序;排序完成后,排序存储区将数据块发送到索引存储区中,构建索引子树,当索引子树构建完成后,排序存储区中的数据块将被删除;
步骤203、所述排序存储区的所述M个数据块发送到所述索引存储区中之后,对于每个数据块分别构建一个索引子树,然后将M个索引子树合并到索引存储区的索引树种,到索引树的数据量达到一定阈值时,新建一个新的索引树继续进行索引子树的合并操作。
2.根据权利要求1所述的一种项目申报数据处理方法,其特征在于,其中所述接收用户的申报请求包括:
申报请求服从参数为&的泊松过程,队列具有长度限制L,当队满时,新到的申报请求将会被云服务系统丢弃;
全局调度器对所述申报请求的解析时间和虚拟机对所述申报请求的服务时间分别服从
Figure FDA0003690181740000021
和1/σ的指数分布;其中,&、
Figure FDA0003690181740000022
σ均大于1;
所述全局调度器对申报请求的解析,把所述申报请求转化为虚拟机创建命令,当基础设施资源池中所有可用资源均已被占用时,虚拟机创建命令无法执行。
3.根据权利要求1所述的一种项目申报数据处理方法,其特征在于,其中各数据处理服务并行执行数据处理任务包括:
步骤301、各数据处理服务提交数据处理任务,提交请求动态到达;提交内容包括计算任务、用户需求、计算任务资源需求概况,提交内容被放入配置文件并一起提交;
步骤302、主节点接收提交请求,并把新到达的计算任务加入在线计算任务清单,根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子,分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数;
步骤303、在每个循环周期开始,综合本周期内的最新计算任务清单、计算任务当前状态,首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数,初始化其值;把这些值提交给资源计算器,由其根据启发式策略产生不同的放置矩阵并评估其效用值,最终决策出最优放置矩阵;
步骤304、把最优放置矩阵提交给子任务调度器,由其负责推行各处理器的实际资源放置调度工作;
步骤305、各处理器的接受子任务调度器的调度并执行各子任务,在执行各子任务过程中,随时把子任务的状态变更情况向计算任务状态更新器报告。
4.一种项目申报数据处理装置,其特征在于,所述装置包括:
接收模块,用户接收用户的申报请求和申报数据,将所述申报数据按照数据属性分解,所述数据属性包括目标数据源、数据规则集、数据结果项;
定位模块,用于根据分解得到的申报数据的目标数据源,从数据服务注册中心定位对应的数据处理服务,其中所述数据处理服务具有多个;
生成模块,用于根据数据规则集,生成数据服务组合规则和结果组装规则;
分解模块,用于结合数据服务组合规则和结果组装规则,将数据处理分解为面向数据处理服务的子处理请求;用于将数据规则集分解为对应于各个子处理请求的多个不相交的规则子集;
并行处理模块,用于子处理请求和对应的规则子集派发给对应的数据处理服务;各数据处理服务并行执行数据处理任务,分别得到临时数据处理结果;
合成模块,用于按照数据服务组合规则和结果组装规则,将临时数据处理结果按照数据结果项的要求组装成最终数据处理结果;
其中所述接收模块包括数据写入模块,用于:
将申报数据以追加写的形式写入一个写缓冲区中,并建立一个哈希表进行数据索引;哈希存储区的数据量达到一定量时,申报数据被发送到哈希存储区中进行排序操作,当排序操作完成后,哈希存储区中的申报数据将被删除;
哈希存储区中缓存的申报数据将被划分成排序存储区中的M个块中,每个块中对申报数据进行排序;排序完成后,排序存储区将数据块发送到索引存储区中,构建索引子树,当索引子树构建完成后,排序存储区中的数据块将被删除;
排序存储区的M个数据块发送到索引存储区中之后,对于每个数据块分别构建一个索引子树,然后将M个索引子树合并到索引存储区的索引树种,到索引树的数据量达到一定阈值时,新建一个新的索引树继续进行索引子树的合并操作。
5.根据权利要求4所述的一种项目申报数据处理装置,其特征在于,接收模块,进一步用于:
申报请求服从参数为&的泊松过程,队列具有长度限制L,当队满时,新到的申报请求将会被云服务系统丢弃;
全局调度器对申报请求的解析时间和虚拟机对申报请求的服务时间分别服从
Figure FDA0003690181740000051
和1/σ的指数分布;其中,&、
Figure FDA0003690181740000052
σ均大于1;
全局调度器对申报请求的解析,把申报请求转化为虚拟机创建命令,当基础设施资源池中所有可用资源均已被占用时,虚拟机创建命令无法执行。
6.根据权利要求4所述的一种项目申报数据处理装置,其特征在于,其中并行处理模块还用于:
各数据处理服务提交数据处理任务,提交请求动态到达;提交内容包括计算任务、用户需求、计算任务资源需求概况,提交内容被放入配置文件并一起提交;
主节点接收提交请求,并把新到达的计算任务加入在线计算任务清单,根据计算任务配置文件中提供的Map子任务数和Reduce子任务数初始化任务状态各描述因子,分别表示此计算任务在执行中或被挂起的Map子任务数和Reduce子任务数;
在每个循环周期开始,综合本周期内的最新计算任务清单、计算任务当前状态,首先由用户需求计算对新到达的计算任务估算其对应的Map子任务数和Reduce子任务数,初始化其值;把这些值提交给资源计算器,由其根据启发式策略产生不同的放置矩阵并评估其效用值,最终决策出最优放置矩阵;
把最优放置矩阵提交给子任务调度器,由其负责推行各处理器的实际资源放置调度工作;
各处理器的接受子任务调度器的调度并执行各子任务,在执行各子任务过程中,随时把子任务的状态变更情况向计算任务状态更新器报告。
CN202010747422.0A 2020-07-30 2020-07-30 一种项目申报数据处理方法及装置 Active CN111767288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010747422.0A CN111767288B (zh) 2020-07-30 2020-07-30 一种项目申报数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010747422.0A CN111767288B (zh) 2020-07-30 2020-07-30 一种项目申报数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111767288A CN111767288A (zh) 2020-10-13
CN111767288B true CN111767288B (zh) 2022-08-30

Family

ID=72727807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010747422.0A Active CN111767288B (zh) 2020-07-30 2020-07-30 一种项目申报数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111767288B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112398906A (zh) * 2020-10-14 2021-02-23 上海海典软件股份有限公司 一种互联网平台数据交互方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344223A (zh) * 2018-09-18 2019-02-15 青岛理工大学 一种基于云计算技术的建筑信息模型管理系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346460B (zh) * 2011-05-27 2013-11-13 运软网络科技(上海)有限公司 一种基于事务的服务控制系统及其控制方法
CN103631870B (zh) * 2013-11-06 2017-02-01 广东电子工业研究院有限公司 一种用于大规模分布式数据处理的系统及其方法
CN107909349A (zh) * 2017-11-30 2018-04-13 郑州云海信息技术有限公司 一种项目管理云服务器及其实现项目管理的方法
CN109240795A (zh) * 2018-08-10 2019-01-18 南瑞集团有限公司 一种适用于超融合it基础设施的云计算资源池模型的资源调度方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344223A (zh) * 2018-09-18 2019-02-15 青岛理工大学 一种基于云计算技术的建筑信息模型管理系统及方法

Also Published As

Publication number Publication date
CN111767288A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
US8019756B2 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
CN112101891B (zh) 一种应用于项目申报系统中的数据处理方法
US10437233B2 (en) Determination of task automation using natural language processing
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN112506486A (zh) 搜索系统建立方法、装置、电子设备及可读存储介质
CN111104214B (zh) 一种工作流应用方法及装置
CN111767288B (zh) 一种项目申报数据处理方法及装置
CN112398906A (zh) 一种互联网平台数据交互方法及装置
CN113407343A (zh) 一种基于资源分配的业务处理方法、装置及设备
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN113434273B (zh) 数据处理方法、装置、系统及存储介质
CN115757304A (zh) 一种日志存储方法、装置、系统、电子设备及存储介质
JP5703165B2 (ja) プログラム生成装置、その方法及びプログラム
CN111309821B (zh) 基于图数据库的任务调度方法、装置及电子设备
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN115146653A (zh) 对话剧本构建方法、装置、设备及存储介质
CN114925125A (zh) 数据处理方法、装置和系统、电子设备及存储介质
CN113886111A (zh) 一种基于工作流的数据分析模型计算引擎系统及运行方法
CN113902567A (zh) 执行任务的方法、装置和电子设备
WO2021095137A1 (ja) ソフトウェア開発支援装置、ソフトウェア開発支援方法及びプログラム
CN109871318B (zh) 一种基于软件运行网络的关键类识别方法
CN116577845B (zh) 一种数值天气预报程序的交互式试验管理系统
CN116860227B (zh) 一种基于大数据etl脚本编排的数据开发系统及方法
US11907693B2 (en) Job decomposition processing method for distributed computing
CN113590841B (zh) 智能化快速审单与基于知识图谱的智能预警系统与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant