CN103324466A

CN103324466A - 一种数据相关性序列化io的并行处理方法

Info

Publication number: CN103324466A
Application number: CN2013101954506A
Authority: CN
Inventors: 王恩东; 文中领; 吴庆民
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2013-09-25
Anticipated expiration: 2033-05-24
Also published as: CN103324466B

Abstract

本发明提供一种数据相关性序列化IO的并行处理方法，利用存储系统空闲运算和IO资源，通过采样动态调整的方式实现存储系统数据持续并行化处理，在并行化处理的过程中，根据应用特点，分别对读操作采样、写操作采样和读写采样，数据相关性通过对数据读写IO采样统计得出，通过将序列化IO动态散列到系统中，实现系统读写的并行化；本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。

Description

一种数据相关性序列化IO的并行处理方法

技术领域

本发明涉及计算机应用领域,具体地说是一种数据相关性序列化IO的并行处理方法。

背景技术

为保证存储系统整体性能得到提升，期望将数据IO均衡的散列到多个存储介质上，达到并行处理的目的。目前的并行化处理方法主要是顺序散列的方式及以首次写为依据的并行化处理试，如当前常用的条带化逻辑卷及RAID0的实现方式。

上述并行化处理方法没有综合考虑其数据相关性，性能优劣具有一定的随机性。首先，顺序散列的并行化方式采用的是以逻辑连续地址空间分布条带化到不同的存储介质上。事实上，逻辑顺序与读写顺序没有直接的关连，按逻辑顺序的并行化处理并不能彻底解决读写序列并行化问题。其次，采用以首次写顺序为依据的散列方式的假设是写顺序的与读顺序具有相同的模式，首次写顺序决定了后绪的改写及读写的顺序。事实上，这种假设在大多数应用下是不正立的。比如，在图书馆管理应用中，首次写录入包括借书人信息、书目等信息，在具体的图书借阅活动中，查询的是借书人信息、借阅信息，并会更改借阅信息。因此，前期批量输入的借阅人信息时的数据相关性在后绪的应用中，都不存在。

综上分析，数据有相关性具有时间性。即，在不同的时期和在不同的应用场景中，数据读写的相关性会发生完全区别于历史模式的变化，且这个变化与业务周期的变化具有直接的关系。因此，要做到存储系统数据并行化处理，需要在不影响业务正常运行状态下，周期性的对数据进行调整；同时，在调整过程中，有时需要区别读操作与写操作。即，对某些应用，读操作占主导地位，且读操作数据相关性较明显，同时某些应用，上述特点会体现在写操作或者读写混合操作中。

发明内容

本发明的目的是提供一种数据相关性序列化IO的并行处理方法。

本发明的目的是按以下方式实现的，利用存储系统空闲运算和IO资源，通过采样动态调整的方式实现存储系统数据持续并行化处理，在并行化处理的过程中，根据应用特点，分别对读操作采样、写操作采样和读写采样，数据相关性通过对数据读写IO采样统计得出，通过将序列化IO动态散列到系统中，实现系统读写的并行化；

系统数据组织方式包括：数据IO请求需指定请求设备、请求起始位置、请求结束位置；

请求设备是物理设备或是逻且与物理设备具有一定的对应关系，根据对应关系对索引数据进行描述；

请求起始位置和请求结束位置，决定了请求的具体数据，包括读数据和写数据，在实际应用环境中，每次请求是不定长的，将不定长的数据切成定长的数据，定长的数据称作物理块，所述物理块用映射对象表示，该映射对象描述了逻辑地址、物理地址、物理磁盘的信息，映射对象用于所述数据IO请求的逻辑地址和物理地址相互转化，由于，映射对象需要进行频繁查询，所以期望采用树型或者哈希等数据结构进行索引，并期望存储于读写较快的存储介质；

逻辑上，系统包括时钟发生器、IO采样、序列IO并行化、数据迁移各个组件，各个组件共同协调完成IO采样及动态调整，实现并行化的动作，时钟发生器是周期激发IO采样并进行并行化处理的装置；IO采样用于从IO读写流程中无损性能的获取一定周期内、连续的定长IO序列；定长IO序列并行化用于对采用的数据进行离线的并行化调整；数据迁移动作用于对并行化处理的结构作用于具体的数据存储；

序列化的具体处理流程如下：

流程101：时钟发生器激发序列IO采样，激发频率对正常IO流的性能有一定影响，期望是，激发的IO并行化操作与当前业务IO资源需求之和小于系统所提供的最大资源空间，所述资源包括系统的总线资源、计算资源、存储资源；

流程102：IO采样模块从当前IO队列中顺序截取IO请求；

流程103：IO采样模块将IO请求格式化成等长块结构，所述流程核心思想是将IO请求由变长转化为定长，并存储到本次采样队列中；

流程104：采样数据中是否有对同一磁盘的请求，所述流程的判断方法是查询流程中映射对象的物理磁盘域；

流程105：与上次采样队列中进行位置互换，互换的目的是转换序列化IO的处理位置，即将作用于同一物理磁盘IO通过存储位置互换，使其散列到不同的磁盘，以实现序列IO的并行化，在转换时，同时要确保上一采样队列不会造成并行并串行的情况；

流程106：完成数据空间迁移，即完成实际存储实间的转移。

本发明的有益效果是：本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

附图说明

图1是并行化数据组织方式示意图；

图2是序列化数据并行化处理的系统结构示意图；

图3是序列化数据并行化处理流程图。

具体实施方式

参照说明书附图对本发明的方法作以下详细地说明。

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明所涉及系统及装置实现的核心思想是：数据相关性可以通过对数据读写IO采样统计得出，通过将序列化IO动态散列到系统中，实现系统读写的并行化。其特征在于，利用存储系统空闲运算和IO资源，采用采样动态调整的方式实现存储系统数据持续并行化处理。在并行化处理的过程中，可根据应用特点，只对读操作采样、写操作采样和读写采样。

图1描述了实现本案所需要的数据组织方式。在通用的系统中，数据IO请求普遍指定请求的设备、请求起始位置、请求结束位置。所述请求设备可以是物理设备，也可以逻辑设备。本案中，由于需要对数据进行重新映射以达到并行化的目的，因此，请求的设备需要是逻辑设备，且与物理设备具有一定的对应关系，这个对应关系，可以使索引数据进行描述。所述请求起始位置和请求结束位置决定了请求的具体数据，包括读数据和写数据。在实际应用环境中，每次请求是不定长的。本案期望将不定长的数据切成定长的数据，我们称作物理块。所述物理块可以用映射对象表示，该对象描述了逻辑地址、物理地址、物理磁盘等信息。映射对象用于所述数据IO请求的逻辑地址和物理地址相互转化。由于，映射对象需要进行频繁查询，所以期望采用树型或者哈希等数据结构进行索引，并期望存储于读写较快的存储介质。本案可以与传统的文件系统结合，也可以与卷管理机制结合。

图2描述了本案所涉系统或者装置的具体组成。逻辑上，所述系统包括时钟发生器、IO采样、序列IO并行化、数据迁移等组件。所述组件共同协调完成IO采用及动态调整，实现并行化的动作。具体的，时钟发生器是周期激发IO采样并进行并行化处理的装置；IO采样用于从IO读写流程中，无损性能的获取一定周期内、连续续的定长IO序列；序列IO并行化用于对采用的数据进行离线的并行化调整；数据迁移动作用于对并行化处理的结构作用于具体的数据存储。

图3描述了序列化的具体处理流程，主要有以下流程实现：

流程101：时钟发生器激发序列IO采样。激发频率对正常IO流的性能有一定影响，期望是，激发的IO并行化操作与当前业务IO资源需求之和小于系统所提供的最大资源空间。所述资源包括系统的总线资源、计算资源、存储资源；

流程102：IO采样模块从当前IO队列中顺序截取IO请求；

流程103：IO采样模块将IO请求格式化成等长块结构。所述流程核心思想是将IO请求由变长转化为定长，并存储到本次采样队列中；

流程104：采样数据中是否有对同一磁盘的请求。所述流程的判断方法是查询流程中映射对象的物理磁盘域；

流程105：与上次采样队列中进行位置互换。互换的目的是转换序列化IO的处理位置。即将作用于同一物理磁盘IO通过存储位置互换，使其散列到不同的磁盘，以实现序列IO的并行化。在转换时，同时要确保上一采样队列不会造成并行并串行的情况；

流程106：完成数据空间迁移，即完成实际存储实间的转移。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种数据相关性序列化IO的并行处理方法, 其特征在于利用存储系统空闲运算和IO资源，通过采样动态调整的方式实现存储系统数据持续并行化处理，在并行化处理的过程中，根据应用特点，分别对读操作采样、写操作采样和读写采样，数据相关性通过对数据读写IO采样统计得出，通过将序列化IO动态散列到系统中，实现系统读写的并行化；

序列化的具体处理流程如下：

流程102：IO采样模块从当前IO队列中顺序截取IO请求；

流程106：完成数据空间迁移，即完成实际存储实间的转移。