CN109271463A

CN109271463A - 一种恢复MySQL数据库的innodb压缩数据的方法

Info

Publication number: CN109271463A
Application number: CN201811453262.8A
Authority: CN
Inventors: 梁效宁; 许超明; 张强; 朱星海; 董超; 刘涛
Original assignee: Sichuan Art Beats Nature Information Security Intelligent Equipment Co Ltd
Current assignee: Sichuan Art Beats Nature Information Security Intelligent Equipment Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-01-25
Anticipated expiration: 2038-11-30
Also published as: CN109271463B

Abstract

本发明公开了一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于包括以下步骤：S100：判断当前数据是否为压缩数据，如果是，执行步骤S200，否则，结束流程；S200：计算当前压缩数据的页大小；S300：根据压缩数据的页结构和表结构，计算当前压缩数据的起始地址；S400：采用ZLIB解压压缩数据后，根据所述压缩数据的页结构确定每一记录条目的地址；S500：采用非压缩数据页格式恢复MySQL数据库的innodb压缩数据。

Description

一种恢复MySQL数据库的innodb压缩数据的方法

技术领域

本发明属于数据恢复领域，涉及一种恢复MySQL数据库的innodb压缩数据的方法。

背景技术

MySQL数据库由于其免费和开源的原因，使其拥有大量的使用者。而innodb作为MySQL默认的使用引擎，在存放大量数据之后，数据文件膨胀，消耗大量的空间资源。此时，绝大多数用户会选择对表数据进行压缩处理。压缩处理解决了空间消耗问题，同时又引出了压缩数据恢复的问题。在数据库文件正常的情况下，MySQL数据库的innodb引擎能很好的支持压缩数据的恢复。但在数据文件被破坏、人为或病毒修改等情况下，不仅MySQL数据库的innodb引擎无能为力，传统的数据库恢复软件也存在以外问题：

1.对MySQL数据库的innodb压缩数据研究不深，不能查找压缩数据的准确起始地址。

2.对压缩数据解压后，无法定位记录头，提取数据无望。

因此，在现有技术中，尚无一种恢复MySQL数据库的innodb压缩数据的方法。

发明内容

本发明针对现有技术的不足问题，提出了一种恢复MySQL数据库的innodb压缩数据的方法，通过计算压缩数据的页大小、计算压缩数据的起始地址及确定每一记录条目的地址，最终实现解析并恢复MySQL数据库的innodb压缩数据，包括以下步骤：

S100：判断当前数据是否为压缩数据，如果是，执行步骤S200，否则，结束流程；

S200：计算当前压缩数据的页大小；

S300：根据压缩数据的页结构和表结构，计算当前压缩数据的起始地址；

S400：采用ZLIB解压压缩数据后，根据所述压缩数据的页结构确定每一记录条目的地址；

S500：采用非压缩数据页格式恢复MySQL数据库的innodb压缩数据。

优选地，所述压缩数据的页结构如下表1所示。

表1：压缩数据的页结构

文件头
	页头
ZLIB头
	原压缩数据
压缩数据校验和
	未删除数据
压缩页修改日志
	空闲空间
外部存储页的列记录指针数组
	事务id和回滚指针
页目录

优选地，所述文件头具有如下表2所示的数据结构。

表2：文件头的数据结构

优选地，所述页头具有如下表3所示的数据结构。

优选地，所述步骤S100中的具体步骤如下：

S101：根据所述表2的数据结构，读取当前文件头第25、第26字节的内容作为页类型，判断当前页类型是否为压缩数据，如果是，执行步骤S102，否则执行步骤S103；

S102：以页起始地址为首地址，向后偏移0x36字节，连续读取4字节内容作为标志字节，将所述4字节内容与0x00000020进行逻辑与运算，判断结果是否等于0x00000020，如果是，执行步骤S103，否则，结束流程；

S103：读取ZLIB压缩标志并与0x80进行逻辑与运算，判断结果是否等于0x80，如果是，执行步骤S200，否则，结束流程，其中，所述ZLIB压缩标志为当前页第0x60字节的内容。

优选地，所述步骤S200的具体步骤如下：

S201：设置当前压缩数据的页大小，所述页大小为不大于0x4000的正整数；

S202：从当前页的起始地址向后偏移，偏移的字节长度为一个页大小，读取字节长度为0x5E的数据，将所读取的数据按所述表1、表2的数据结构中各项进行一一对应，判断所读取的数据是否满足所述表1、表2的数据结构，如果是，执行步骤S204，否则，执行步骤S203；

S203：将页大小重新赋值并判断是否大于0x4000：页大小＝当前页大小*2，判断页大小是否大于0x4000，如果是，结束流程，否则执行步骤S202；

S204：从当前页的起始地址向后偏移，偏移的字节长度为当前页大小-2，读取2字节的内容作为当前页的第一条数据的起始地址，判断起始地址是否不小于0x63且不大于阀值，所述阀值＝当前页大小-页内记录总数*(页目录中单个槽的长度+单条事务ID长度+单条回滚指针长度)，如果是，执行步骤S300，否则，执行步骤S203。

优选地，所述步骤S300的具体步骤如下：

S301：计算ZLIB头的字节长度，所述ZLIB头的字节长度＝表字段数+表主键所占字段数+17，所述表字段数及表主键所占字段数包含于表结构；

S302：从当前页的起始地址向后偏移，偏移的字节长度为0x5E，读取ZLIB头，ZLIB头的字节长度为步骤S301所计算的ZLIB头的字节长度，采用ZLIB库解压所读取的ZLIB头并获取解压后ZLIB头的字节长度，判断所获取的解压后ZLIB头的字节长度是否等于解压后ZLIB头的字节长度的理论值，如果是，表示当前页无压缩数据，结束流程，否则，执行步骤S303，其中，所述理论值＝表字段数-表主键所占字段数+3；

S303：以ZLIB头的首地址为起始地址，以当前页的末地址为结束地址，读取当前页的数据并采用ZLIB库进行解压；

S304：采用解压的数据与解压后的数据长度，用以计算压缩数据校验和；

S305：将解压的数据采用ZLIB库压缩并获取压缩后的数据长度；

306：以所述步骤S305中所述数据长度-32为起始地址、以所述步骤S305中所述数据长度+32为结束地址，以4字节为一组，读取各组的内容并与步骤S304中所述压缩数据校验和进行比较，查找相等的一组并获取当前组的地址，作为当前页的innodb压缩数据的结束地址。

优选地，所述步骤S400的具体步骤如下：

S401：根据页头中的页内记录总数，从当前页的结束地址向前偏移，偏移的字节长度为页内记录总数*2，读取所述字节长度的内容作为页目录；

S402：计算未删除记录的相对于当前页首地址的起始地址＝当前压缩数据的页大小-2；

S403：计算删除记录的相对于当前页首地址的起始地址＝当前压缩数据的页大小-页内记录总数*2；

S404：计算事务id和回滚指针的相对于当前页首地址的起始地址＝所述删除记录的起始地址-13；

S405：以所述事务id和回滚指针的相对于当前页首地址的起始地址开始连续读取13字节的内容，判断所述13字节的内容是否为全零，如果是，执行步骤S406，否则，执行步骤S407；

S406：寻址至删除记录的相对于当前页首地址的起始地址并顺序读取2字节的内容，作为记录在非压缩页中的相对地址，并将当前删除记录的相对于当前页首地址的起始地址+2，执行步骤S408；

S407：寻址至未删除记录的相对于当前页首地址的起始地址并顺序读取2字节的内容，作为记录在非压缩页中的相对地址，并将当前未删除记录的相对于当前页首地址的起始地址-2；

S408：计算记录的起始地址＝(记录在非压缩页中的相对地址&0x3FFF)-0x78-(页内记录总数*18)+步骤S303中所述理论值-步骤S301中所述ZLIB头的字节长度-跨页记录数*20，其中，所述跨页记录数初始值为0，每增加一个跨页记录，则跨页记录数＝跨页记录数+1；

S409：存储解压后的记录条目的地址，将事务id和回滚指针的相对于当前页首地址的起始地址-13并判断是否存在其他记录条目，如果是，执行步骤S405，否则，结束流程。

优选地，所述步骤S500包括以下步骤：

S501：根据表结构计算出NULL标志所占字节数；

S502：寻址至记录在非压缩页中的相对地址，从后往前分别读取NULL标志所占字节数，得到NULL标志；

S503：根据表结构计算出变长字段个数；

S504：获取变长字段长度，包括以下步骤：

S5041：寻址至记录的起始地址+NULL标志所占字节数,读取并存储当前地址中1字节的内容作为变长字段长度，cnt赋初值为所述变长字段个数；

S5042：所读取1字节的内容与0x80进行逻辑与运算，判断结果是否为0x80，如果是，执行步骤S5044,否则，执行步骤S5043；

S5043：当前地址＝当前地址-1,cnt＝cnt-1,执行步骤S5046；

S5044：当前地址＝当前地址-2；

S5045：读取并存储当前地址中2字节的内容作为变长字段长度，cnt＝cnt-1；

S5046：判断当前cnt是否为0，如果是，执行步骤S505,否则，执行步骤S5041。

S505：寻址至记录的起始地址并根据表结构、NULL标志以及步骤S504中所获取的各个变长字段长度，对数据进行解析；

S506：重复执行步骤S501到步骤S505，直至所有记录解析完毕并存储为恢复的所述MySQL数据库的innodb压缩数据。

本发明的有益效果是：

1.能够查找压缩数据准确的起始地址，不丢失数据，也不破坏未压缩数据；

2.对数据解压后，根据算法还原数据未压缩前的结构，使压缩数据的恢复与未压缩数据的提取一样方便，解决了现有技术中尚无一种恢复MySQL数据库的innodb压缩数据的方法的技术问题。

附图说明

图1为本发明所提供的方法的总流程图；

图2为本发明一个实施例中压缩数据用ZLIB库解压后的数据格式；

图3为本发明一个实施例中获取变长字段长度的流程图。

具体实施方式

MySQL数据库的innodb以页为基本单位来存储数据，每一个页大小相同，页大小可以为16k、8k、4k、2k以及1k，MySQL数据库的innodb压缩数据的页结构如下表1所示，

表1：压缩数据的页结构

其中，

文件头表示为FILE_HEADER；

页头表示为PAGE_HEADER；

ZLIB头表示为ZLIB_HEADER

原压缩数据表示为Compressed data

压缩数据校验和表示为alder32

未删除数据表示为normal data

压缩页修改日志表示为mlog

空闲空间表示为Freespace

外部存储页的列记录指针数组表示为external_ptr

事务id和回滚指针表示为trx_id和roll_ptr

页目录表示为Pagedirectory

每一个页最前面有固定大小(例如，0x26字节)的文件头(FILE_HEADER)，文件头具有如下表2所示的数据结构：

表2：文件头的数据结构

页头具有如下表3所示的数据结构：

表3：页头的数据结构

下面结合附图和实施例对本发明作进一步阐述。

图1示出了本发明所提供的方法的总流程图，如图1所示，本发明的方法包括以下步骤：

S100：判断当前数据是否为压缩数据，如果是，执行步骤S200，否则，结束流程；包括如下具体步骤：

S101：根据表2的数据结构，读取当前文件头FILE_HEADER第25、第26字节的内容作为页类型FIL_PAGE_TYPE，判断当前页类型FIL_PAGE_TYPE是否为压缩数据，如果是，执行步骤S102，否则执行步骤S103；本实施例中，页类型FIL_PAGE_TYPE的值为0x0008，即，需要判断当前页类型FIL_PAGE_TYPE是否等于0x0008；

S102：以页起始地址为首地址，向后偏移0x36字节，连续读取4字节内容作为标志字节flag，将4字节内容与0x00000020进行逻辑与运算，判断结果是否等于0x00000020，如果是，执行步骤S103，否则，结束流程；

S103：读取ZLIB压缩标志FLG并与0x80进行逻辑与运算，判断结果是否等于0x80，如果是，执行步骤S200，否则，结束流程，其中，ZLIB压缩标志FLG为当前页第0x60字节的内容。

S200：计算当前压缩数据的页大小；

由于压缩页的数据结构有所改变，体现在末尾与页头PAGE_HEADER相关联的校验信息被删除，通过校验和确定页大小mPageSize的传统方式及现有技术已不再可取(其中，mPageSize表示页大小,以下同)，本发明提出以下方式确定mPageSize，包括以下步骤：

S201：设置当前压缩数据的mPageSize，mPageSize为不大于0x4000的正整数；本实施例中，将mPageSize设为0x400；

S202：从当前页的起始地址向后偏移，偏移的字节长度为一个页大小，即0x400，读取字节长度为0x5E的数据，将所读取的数据按表1、表2的数据结构中各项进行一一对应，判断所读取的数据是否满足表1、表2的数据结构，如果是，执行步骤S204，否则，执行步骤S203；

S203：将mPageSize重新赋值并判断是否大于0x4000：即，mPageSize＝当前mPageSize*2，判断mPageSize是否大于0x4000，如果是，结束流程，否则执行步骤S202；

S204：从当前页的起始地址向后偏移，偏移的字节长度为当前mPageSize-2，读取2字节的内容作为当前页的第一条数据的起始地址，判断起始地址是否不小于0x63且不大于阀值，阀值＝当前mPageSize-rec*(slot+trxIdLen+rollPtrLen)，如果是，执行步骤S300，否则，执行步骤S203；其中，

rec是页内记录总数，包括删除记录数；

slotLen为页目录中单个槽的长度，本实施例中为2字节；

trxIdLen为单条事务ID长度，本实施例中为6字节；

rollPtrLen为单条回滚指针长度，本实施例中为7字节。

S301：计算ZLIB_HEADER的字节长度，ZLIB_HEADER的字节长度＝fields+primary_fields+17，其中，

fields为表字段数；

primary_fields为表主键所占字段数，以下同。

由公知技术可知，fields及primary_fields包含于表结构，具体方法不再赘述；

S302：从当前页的起始地址向后偏移，偏移的字节长度为0x5E，读取ZLIB_HEADER，ZLIB_HEADER的字节长度为步骤S301所计算的ZLIB_HEADER的字节长度，采用ZLIB库解压所读取的ZLIB_HEADER并获取解压后ZLIB_HEADER的字节长度，判断所获取的解压后ZLIB_HEADER的字节长度是否等于解压后ZLIB_HEADER的字节长度的理论值，如果是，表示当前页无压缩数据，结束流程，否则，执行步骤S303，其中，理论值＝fields-primary_fields+3；

由于ZLIB解压时，检测到末尾的alder32(即压缩数据校验和，以下同)，则不管后面是否还有数据，都自动结束解压，且alder32存在于压缩数据中。本发明利用这一特性来确定压缩数据的结束地址，即，首先将ZLIB_HEADER开始到本页末尾的所有数据都读取出来并用ZLIB库进行解压。然后，将解压出来的数据和解压后的数据长度一起计算alder32值；其次，再把解压的数据又用ZLIB库压缩回去并得到压缩后的数据长度comLen。由于恢复MySQL数据库的innodb压缩数据时采用的压缩算法与ZLIB标准算法有一定差距，故comLen并不是准确的原压缩数据的长度，经研究发现，comLen的值与真实压缩数据长度相差在32(0x20)个字节以内。因此，本发明以comLen为中心点，前后扩充32个字节作为一个查询的范围。而我们可以确定原压缩数据的alder32值必定在该范围内，据此，利用计算出来的alder32值在该范围中查找与原压缩数据的alder32值相同的值的地址，该地址即为压缩数据的结束地址，具体如下步骤S303至S306所述：

S303：以ZLIB_HEADER的首地址为起始地址，以当前页的末地址为结束地址，读取当前页的数据并采用ZLIB库进行解压；

S304：采用解压的数据与解压后的数据长度，用以计算alder32值；

S305：将解压的数据采用ZLIB库压缩并获取压缩后的数据长度comLen；

306：以comLen-32为起始地址、以comLen+32为结束地址，以4字节为一组，读取各组的内容并与步骤S304中alder32进行比较，查找相等的一组并获取当前组的地址，作为当前页的innodb压缩数据的结束地址。

步骤300中，压缩数据用ZLIB库解压后的数据格式如图2所示，

图2中，NULL标志部分和变长字段列表部分都是变长且逆序存储，变长字段列表中表示一个变长字段的值所占用的字节数也是不定的，可能是1个字节，也可能是2个字节，而字段数据的还原又必须依赖于NULL标志和变长字段列表。因此，数据虽然已经解压出来，但数据的恢复提取还是无法进行。本发明提出以下方法来重新确定数据起始位置，并逆序计算出NULL标志和变长字段列表，使得数据恢复与MySQL数据库的innodb未压缩数据页一样简单，包括以下具体步骤：

S401：根据页头中的页内记录总数(即rec，以下同)，从当前页的结束地址向前偏移，偏移的字节长度为rec*2，读取字节长度的内容作为页目录Page directory；

S402：计算未删除记录的相对于当前页首地址的起始地址slot_offset＝mPageSize-2；

S403：计算删除记录的相对于当前页首地址的起始地址del_offset＝mPageSize-recs*2；

S404：计算事务id和回滚指针的相对于当前页首地址的起始地址rs_offset＝del_offset-13；

S405：以地址rs_offset开始连续读取13字节的内容，判断13字节的内容是否为全零，如果是，执行步骤S406，否则，执行步骤S407；

S406：寻址至del_offset并顺序读取2字节的内容，作为记录在非压缩页中的相对地址，记为rec_tpos，对del_offset重新赋值为del_offset+2，执行步骤S408；

S407：寻址至slot_offset并顺序读取2字节的内容，作为记录在非压缩页中的相对地址，记为rec_tpos，对slot_offset重新赋值为slot_offset-2；

S408：计算记录的起始地址rec_rpos：

rec_rpos＝(rec_tpos&0x3fff)-0x78-(curRecs*18)+zlib_uncommpressed_header-rec_head_len-over_page_cnt*20

其中，curRecs为当前页确定的记录数，初始值为0，每确定一个记录的起始地址，其值加1；

rec_head_len为MySQL数据库的innodb中压缩数据的头长度；

over_page_cnt为跨页记录数，其初始值为0，每增加一个跨页记录，则over_page_cnt＝over_page_cnt+1；

S409：存储解压后的记录条目的地址，将rs_offset-13并判断是否存在其他记录条目，如果是，执行步骤S405，否则，结束流程。

S500：采用非压缩数据页格式恢复MySQL数据库的innodb压缩数据：

根据步骤400确定的每一条记录的起始地址rec_rpos去解析解压后数据，以恢复整个压缩数据页，包括以下具体步骤：

S501：根据表结构计算出NULL标志所占字节数null_bytes；

S502：寻址至rec_tpos，从后往前分别读取null_bytes，得到NULL标志null_flags；

S503：根据表结构计算出变长度字段个数var_cnts；

S504：获取变长字段长度varlen，包括以下步骤：

S5041：寻址至rec_rpos+null_bytes,读取并存储当前地址中1字节的内容作为变长字段长度varlen，将cnt赋初值为var_cnts；

S5043：当前地址＝当前地址-1,cnt＝cnt-1,执行步骤S5046；

S5044：当前地址＝当前地址-2；

S5045：读取并存储当前地址中2字节的内容作为varlen，cnt＝cnt-1；

S505：寻址至rec_rpos并根据表结构、NULL标志null_flags以及步骤S504中所获取的各个变长字段长度varlen，对数据进行解析；

S506：重复执行步骤S501到步骤S505，直至所有记录解析完毕并存储为恢复的MySQL数据库的innodb压缩数据。

通过本发明提供的方法，解决了现有技术中尚无一种恢复MySQL数据库的innodb压缩数据的方法的技术问题。

应当理解的是，本发明不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于包括以下步骤：

S200：计算当前压缩数据的页大小；

2.根据权利要求1所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述压缩数据的页结构如下表1所示。

表1：压缩数据的页结构

文件头页头 ZLIB头原压缩数据压缩数据校验和未删除数据压缩页修改日志空闲空间外部存储页的列记录指针数组事务id和回滚指针页目录

3.根据权利要求2所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述文件头具有如下表2所示的数据结构。

表2：文件头的数据结构

4.根据权利要求3所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述页头具有如下表3所示的数据结构。

表3：页头的数据结构

5.根据权利要求4所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述步骤S100中的具体步骤如下：

6.根据权利要求5所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述步骤S200的具体步骤如下：

7.根据权利要求6所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述步骤S300的具体步骤如下：

306：以所述步骤S305中所述数据长度-32为起始地址、以所述步骤S305中所述数据长度+32为地址，以4字节为一组，读取各组的内容并与步骤S304中所述压缩数据校验和进行比较，查找相等的一组并获取当前组的地址，作为当前页的innodb压缩数据的结束地址。

8.根据权利要求7所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述步骤S400的具体步骤如下：

9.根据权利要求8所述的一种恢复MySQL数据库的innodb压缩数据的方法，其特征在于，所述步骤S500包括以下步骤：

S501：根据表结构计算出NULL标志所占字节数；

S503：根据表结构计算出变长度字段个数；

S504：获取变长字段长度，包括以下步骤：

S5041：寻址至记录的起始地址+NULL标志所占字节数，读取并存储当前地址中1字节的内容作为变长字段长度，cnt赋初值为所述变长字段个数；

S5043：当前地址＝当前地址-1,cnt＝cnt-1,执行步骤S5046；

S5044：当前地址＝当前地址-2；

S5046：判断当前cnt是否为0，如果是，执行步骤S505,否则，执行步骤S5041；