CN113535695B

CN113535695B - 一种基于进程调度的档案更新方法

Info

Publication number: CN113535695B
Application number: CN202110684527.0A
Authority: CN
Inventors: 刘颖; 李帅
Original assignee: Zhongdun Innovative Digital Technology Beijing Co ltd
Current assignee: Zhongdun Innovative Digital Technology Beijing Co ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-09-13
Anticipated expiration: 2041-06-21
Also published as: CN113535695A

Abstract

本申请请求保护的一种基于进程调度的档案更新方法，通过服务器遍历系统内部空闲进程，对所述空闲进程进行预处理，获取客户端待更新档案，从待更新档案中提取元数据信息，计算预处理后的所述空闲进程和待更新档案中的元数据的契合度，为待更新档案分配所述空闲进程并发送给客户端。其进一步获取有效空闲进程并进行聚类分析，基于有效空闲进程进行聚类分析结果和待更新档案的更新优先级，为待更新档案分配所述有效空闲进程，从而解决档案更新管理和存储器进程分配的不均衡问题。本发明通过进一步细化不同存储器的进程类型和资源管理状态，对待更新档案的自身属性需求和资源调度需求综合分析，多维度考虑进程匹配度，提高了系统资源管理的有效性。

Description

一种基于进程调度的档案更新方法

技术领域

本发明涉及数据更新技术和进程管理领域，尤其是涉及一种基于进程调度的档案更新方法。

背景技术

客户端与服务端在业务交互过程中，如用户字典数据较大时，由于网络传输等原因会影响前端用户体验，为解决大字典数据在网络传输的性能问题，一般采用在客户端缓存字典数据的方式来缓解数据交互效率较低和用户体验较差的问题。目前，大部分客户端软件采用的缓存方式为XML(eXtensible Markup Language，可扩展标记语言)进程优先级序列存储或本地进程优先级序列数据库方式，虽然能缓存较大的数据量，但是对于缓存数据的一致性也难以检测和处理，降低了客户端数据更新效率和用户的体验度。

进程管理系统中控制装置与现场设备之间实时通信的同步性。进程管理系统作为强实时控制系统,对时间的滞后性相当敏感,并且在系统运行过程中,控制装置持续不断地向现场设备传输控制指令与数据,主机与伺服驱动执行命令和状态反馈必须在同一个时刻进行,因此为了使得数据传输及时有效,必须保证各单元时间上的同步性,以满足系统对实时通信的精度要求。进程管理系统中的任务从功能性上划分,可以分为数据管理和运动控制两大部分。数据管理部分的任务包括数据显示、故障诊断、参数设置以及程序代码的输入与编辑等,这类任务不要求系统立即执行,对实时性要求不高,而运动控制类任务则主要包括:程序译码、刀具补偿、轨迹插补、位置控制等强实时性任务。针对系统中各类任务的不同实时性需求,目前已有大量的研究与调度方案,但是随着进程管理系统的进一步发展,如何解决多种实时类型的任务共存的问题已成为进程管理系统调度机制的关键所在,这也为进程管理系统实时性问题的研究带来了新的挑战。

而对于档案的进程管理则由于档案自身属性和其资源需求的多样化，需要根据当前系统的进程管理中的进程有效性进行合理分配才能充分解决档案管理资源调度最大化且最优化的问题。

发明内容

为了解决当前档案管理中多样化需求与进程分配不合理的问题，本申请请求保护一种基于进程调度的档案更新方法，其特征在于，包括：

服务器遍历系统内部空闲进程，对所述空闲进程进行预处理；

获取客户端待更新档案，从待更新档案中提取元数据信息；

计算预处理后的所述空闲进程和待更新档案中的元数据的契合度，为待更新档案分配所述空闲进程并发送给客户端。

进一步地，所述遍历系统内部空闲进程，对所述空闲进程进行预处理，还包括：

基于深度优先规则，按照系统硬盘，内存，缓存的存储器的优先级顺序依次遍历各存储器，获取各存储器的空闲进程；

对获取的所述空闲进程进行进程清洗，得到清洗后进程；

对所述清洗后进程进行冗余存储器进程判定，计算获得各存储器的有效空闲进程；

将所述有效空闲进程进行优先级设置，依据所述优先级进行入队排序。

进一步地，所述获取待更新档案，从待更新档案中提取元数据信息，还包括：

获取档案中待更新档案内容的档案类型；所述档案包含N个档案类型相同的待更新档案内容，N为自然数；

基于所述档案类型建立元数据提取规则；其中，所述元数据提取规则包含各个元数据属性与相应元数据内容在待更新档案内容中的档案类型之间的对应关系，各个所述元数据属性为预先制定的元数据标准所规定的属性；

依据所述元数据提取规则，在各个待更新档案内容中对各元数据属性对应的元数据内容进行定位、提取。

进一步地，所述计算预处理后的所述空闲进程和待更新档案中的元数据的契合度，为待更新档案分配所述空闲进程，还包括：

获取依据优先级设置所述入队排序的有效空闲进程，对所述有效空闲进程进行聚类分析；获取定位后的所述待更新档案的所述元数据内容，所述定位确定出待更新档案的自身更新属性和更新资源需求；

为所述待更新档案的自身更新属性和更新资源需求进行权重赋值，确定所述待更新档案的更新优先级；

基于所述有效空闲进程进行聚类分析结果和所述待更新档案的更新优先级，为待更新档案分配所述有效空闲进程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所涉及的一种基于进程调度的档案更新方法的工作流程图；

图2为本发明所涉及的一种基于进程调度的档案更新方法的实施例一；

图3为本发明所涉及的一种基于进程调度的档案更新方法的实施例二；

图4为本发明所涉及的一种基于进程调度的档案更新方法的实施例三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

参照附图1，本申请请求保护一种基于进程调度的档案更新方法，其特征在于，包括：

获取客户端待更新档案，从待更新档案中提取元数据信息；

进一步地，参照附图2，所述遍历系统内部空闲进程，对所述空闲进程进行预处理，还包括：

对获取的所述空闲进程进行进程清洗，得到清洗后进程；

具体的，统计所述清洗后进程在系统硬盘，内存，缓存存储器的分布数量和比例，以及进程在系统硬盘，内存，缓存存储器的使用情况，确定各存储器的有效空闲进程；

具体的，设置不限于以下的计算规则：

当存储器的进程使用率与所述清洗后进程在存储器的分布比例大小顺序相一致时，直接将每种存储器的所述清洗后进程的数量*该存储器进程使用率获得该存储器的有效空闲进程数。

当存储器的进程使用率与所述清洗后进程在存储器的分布比例大小顺序不一致时，直接将每种存储器的所述清洗后进程的数量*(1-该存储器进程使用率)获得该存储器的有效空闲进程数。

构建空闲进程队列，所述空闲进程队列由至少一个空闲进程队列片段构成，空闲进程队列片段至少存储一个空闲进程号或者存储全0结点，每个空闲进程号对应唯一空闲进程；

构建进程优先级索引，进程优先级索引位于系统硬盘，内存和缓存存储器中内，所述进程优先级索引存储空闲进程队列的队头指针及队尾指针，所述队头指针及队尾指针分别指示空闲进程队列起始空闲进程结点所在的空闲进程队列片段号，和结束空闲进程结点所在的空闲进程队列片段号；

当系统硬盘，内存和缓存存储器中要向非挥发性存储器上写入数据的时候，需要为其分配若干空闲进程。在本发明的系统硬盘，内存和缓存存储器中的进程优先级索引中存储空闲进程队列的队头和队尾指针，它们分别指向空闲进程队列起始空闲进程队列片段和结束空闲进程结点所在的空闲进程片段的进程号，起始和结束的空闲进程片段上的空闲进程结点如果未存满，则未存储的地方用0填充。当系统硬盘，内存和缓存存储器中被挂载上之后，进程优先级索引将被加载到内存中，内核会定期将其同步到存储设备上，以保证其正确性。

当请求空闲进程时，从内存中的进程优先级索引中取出空闲进程队列队头指针指向的空闲进程号(假设为N)，和队尾指针指向的空闲进程号(假设为M)。

若队头指针(N)和队尾指针(M)指示的空闲进程号相同(M＝N)。

因为单个空闲进程号上的队列能存储的空闲进程结点有限，如果空闲进程号较多的时候，单个空闲进程已经存储不下这些空闲进程结点，需要多个空闲进程存储。此时存储空闲进程结点的每个空闲进程中(除队尾指示的空闲进程)存储的最后一个空闲进程结点是指示连续的下个空闲进程队列片段所在的进程号位置。

在该空闲进程队列片段上找到第一个非0的空闲进程结点直接分配给进程优先级序列，修改当前空闲进程结点的值为0，表示已经分配出去。该空闲进程号的空闲进程一旦被分配出去，直到被释放回收之前都不可再用。

若队首指针(N)和队尾指针M指示的空闲进程号不同，即M≠N。

取出队首指针指示的空闲进程队列片段上第一个非0空闲进程结点，若该结点不是空闲进程队列片段上最后一个空闲进程结点，则直接分配；若该结点是空闲进程队列片段最后一个结点，则暂存当前队首指针指示的空闲进程队列片段的空闲进程号K，修改空闲进程队列队首指针指向空闲进程队列片段最后一个非0结点指示的进程号，修改完成后把当前K号空闲进程分配给进程优先级序列。

空闲进程的回收方法，与分配方法相反。将释放的空闲进程号置入超级进程的空闲队列队尾指针指示的空闲进程队列片段中，若当前空闲进程队列片段还能存储空闲进程结点，则找到当前空闲进程队列片段上第一个为0空闲进程结点直接存储新释放的进程号。若当前空闲进程队列片段已经存储满空闲进程结点，取当前空闲进程队列片段中最后一个空闲结点记录的进程号(假设X)，在X上新建空闲进程队列片段，初始化该空闲进程队列片段上所有空闲进程结点为全0，把新释放的空闲进程的进程号存入该空闲进程队列片段第一个为0的空闲进程结点，修改内存中超级进程中的队尾指针指向当前新分配的空闲进程队列片段进程号。定期再把修改同步到存储在非挥发性存储设备的超级进程中。下次对同一空闲进程操作需要把空闲进程队列中该进程之前的空闲进程都分配完后，减少了对同一空闲进程的使用频次，使每个空闲进程均匀的被使用，从磨损均衡的角度考虑，我们保证这些数据进程不会被过度使用。

进一步地，参照附图3，所述获取待更新档案，从待更新档案中提取元数据信息，还包括：

从平台实现数据定位的需求入手，在一些主要数据类型上来整理出必要的元数据属性集，在此基础上制定平台的元数据标准。该标准规定了如下内容：

1)平台所需的各个元数据属性。

譬如，所规定的各个元数据属性可包含但不限于：名称、摘要描述、关键词、来源(数据采集者)、版权信息(数据所有者)、格式、学科、应用领域、创建者、创建日期、发布机构等。

2)部分元数据属性的标准值菜单或取值范围。

譬如，针对“格式”、“学科”、“应用领域”属性，可分别为其设置包含但不限于如下内容的标准值菜单：“文本、语音、图像、视频”、“自然科学、计算机科学、图像处理”以及“环境、治安、人口、交通”；针对“创建日期”属性可将其“年-月-日”的取值范围分别设定为“1xxx-2xxx”(可自行设定具体年限)、“01-12”、“01-31”。

首先获取该档案中档案内容所在分布式节点的分布式节点索引，并基于获取的分布式节点索引，生成一档案内容标签树，其中，所述档案内容标签树包含P个档案内容标签节点，各档案内容标签节点对应相应的元数据标签，各档案内容标签节点间的节点关系反映相应元数据标签在待更新档案内容中的档案类型关系，每个元数据标签在待更新档案内容中对应相应的元数据内容，P为自然数。譬如，所生成的标签树中可包含分别对应“名称”、“关键词”、“简介”、“创建者”、“创建日期”、“发布机构”等元数据标签的多个档案内容标签节点，各节点对应的元数据标签(如上述“名称”等标签)在档案内容中均对应相应的元数据内容，即本申请将元数据标签作为在目的数据内容中对所需元数据内容进行定位的位置索引。档案在包括多篇数据内容时，各篇数据内容一般采用相同的档案类型，比如，某档案的所有档案均按“名称”、“关键词”、“简介”、“目的”、“正文”等内容结构进行档案类型。基于此，在对同一档案中的数据内容进行元数据提取时，仅需获取其中任一篇数据内容的分布式节点索引，并生成档案内容标签树即可。

通过建立元数据标准中各元数据属性与档案内容标签树中各元数据标签间的对应关系，实现元数据提取规则的建立。例如，假设元数据标准中规定了“名称”、“关键词”、“摘要描述”、“来源”、“版权信息”等属性，则针对以上的标签树示例，可建立如下的属性→标签对，各个属性→标签对形成了对该档案进行元数据提取的提取规则：

“名称”→“名称”；

“关键词”→“关键词”；

“摘要描述”→“简介”；

“来源”→“创建者”；

“版权信息”→“发布机构”

在为档案制定出元数据提取规则的基础上，可利用元数据提取规则所提供的属性→标签对，对属性在档案内容中的元数据内容进行定位、提取，具体地，针对元数据标准中的任一属性，通过该属性在元数据提取规则中对应的标签，可对目标元数据内容在档案内容中的位置进行索引定位，进而实现所需元数据内容的提取。

进一步地，参照附图4，所述计算预处理后的所述空闲进程和待更新档案中的元数据的契合度，为待更新档案分配所述空闲进程，还包括：

获取依据优先级设置所述入队排序的有效空闲进程，对所述有效空闲进程进行聚类分析；

获取定位后的所述待更新档案的所述元数据内容，所述定位确定出待更新档案的自身更新属性和更新资源需求；

具体的，所述有效空闲进程进行聚类分析包括将所述进程分为轮转进程、依赖进程、本地进程、主系统进程和应用进程，所述轮转进程、依赖进程、本地进程、主系统进程和应用进程在系统硬盘，内存和缓存存储器中均有分布；其中轮转进程负责对该层次中的其它进程按计时顺序进行调度并查验是否存在超出运行时限的进程存在,当进程切换时便会调用轮转进程并赋予相应的时间片。节点的系统在启动时便会生成轮转进程,这个时间甚至早于中间层模型的启动；依赖进程管理来自通信网络中的消息收发,并调用其它相关进程；本地进程负责本地读写操作,如缓存区读写和磁盘读写。在该进程的帮助下,能够很好地对I/O操作以外的程序运行进行准确快速的开销分析,并且便于I/O操作的管理；主系统进程主要用于管理时间分片,包括对占用时间分片的实时任务的调度规划以及空闲时间分片的有序回收。在计时进程启动并开始任务管理之后,主系统进程会为其分配空闲的时间分片,对于其他提出请求的实时进程也同样如此。因此从概念上来说,主任务进程是具有代表性的管理其他进程的主进程；应用进程执行应用调用的各个方法(包括事件驱动和时间驱动)。所述轮转进程、依赖进程、本地进程、主系统进程和应用进程的档案匹配优先考虑需求属性为档案更新频率、档案相关依赖性、档案体量性、档案不可恢复性、档案共享性。

具体的获取定位后的所述待更新档案的所述元数据内容，所述定位确定出待更新档案的自身更新属性和更新资源需求；为所述待更新档案的自身更新属性和更新资源需求进行权重赋值，确定所述待更新档案的更新优先级，包括：

获取档案的档案更新频率、档案相关依赖性、档案体量性、档案不可恢复性、档案共享性属性，并分别赋值；

其中档案更新频率表明档案的历史更新频率周期信息；

档案相关依赖性表明档案在分布式系统中与其他档案的引用和被引用关系复杂度；

档案体量性表明档案的大小体量和存储空间需求；

档案不可恢复性表明档案是否不可恢复，或档案的权限风险控制；

档案共享性属性表明档案在分布式用户中的流转性和共享性；

具体的，基于所述有效空闲进程进行聚类分析结果和所述待更新档案的更新优先级，为待更新档案分配所述有效空闲进程，包括：

依据档案的档案更新频率、档案相关依赖性、档案体量性、档案不可恢复性、档案共享性属性的赋值大小，依据优先级顺序依次选择轮转进程、依赖进程、本地进程、主系统进程和应用进程，如出现同样大小，则均可选择。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于进程调度的档案更新方法，其特征在于，包括：

获取客户端待更新档案，从待更新档案中提取元数据信息；

计算预处理后的所述空闲进程和待更新档案中的元数据的契合度，为待更新档案分配所述空闲进程并发送给客户端;

获取待更新档案，从待更新档案中提取元数据信息，还包括：

依据所述元数据提取规则，在各个待更新档案内容中对各元数据属性对应的元数据内容进行定位、提取；

所述计算预处理后的所述空闲进程和待更新档案中的元数据的契合度，为待更新档案分配所述空闲进程，还包括：

获取依据优先级设置入队排序的有效空闲进程，对所述有效空闲进程进行聚类分析；

基于所述有效空闲进程进行聚类分析结果和所述待更新档案的更新优先级，为待更新档案分配所述有效空闲进程；

所述为所述待更新档案的自身更新属性和更新资源需求进行权重赋值，确定所述待更新档案的更新优先级，包括：

其中档案更新频率表明档案的历史更新频率周期信息；

档案体量性表明档案的大小体量和存储空间需求；

所述基于所述有效空闲进程进行聚类分析结果和所述待更新档案的更新优先级，为待更新档案分配所述有效空闲进程，包括：

依据优先级顺序依次选择轮转进程、依赖进程、本地进程、主系统进程和应用进程，如出现同样大小，则均可选择；

所述有效空闲进程进行聚类分析包括将所述进程分为轮转进程、依赖进程、本地进程、主系统进程和应用进程，所述轮转进程、依赖进程、本地进程、主系统进程和应用进程在系统硬盘，内存和缓存存储器中均有分布；

其中轮转进程负责对其它进程按计时顺序进行调度并查验是否存在超出运行时限的进程存在,当进程切换时便会调用轮转进程并赋予相应的时间片；

节点的系统在启动时便会生成轮转进程；

依赖进程管理来自通信网络中的消息收发；

本地进程负责本地读写操作,包括缓存区读写和磁盘读写；

主系统进程主要用于管理时间分片,包括对占用时间分片的实时任务的调度规划以及空闲时间分片的有序回收；

在计时进程启动并开始任务管理之后,主系统进程会为计时进程分配空闲的时间分片。

2.如权利要求1所述的一种基于进程调度的档案更新方法，其特征在于，包括：

所述遍历系统内部空闲进程，对所述空闲进程进行预处理，还包括：

对获取的所述空闲进程进行进程清洗，得到清洗后进程；