CN105260277B

CN105260277B - 一种基于lognormal模型的文本测试数据集生成方法

Info

Publication number: CN105260277B
Application number: CN201510718187.3A
Authority: CN
Inventors: 董小社; 王龙翔; 张兴军; 朱正东; 陈衡
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2019-05-03
Anticipated expiration: 2035-10-29
Also published as: CN105260277A

Abstract

本发明公开了一种基于lognormal模型的文本测试数据集生成方法，包括以下步骤：1)对真实文本数据集按词进行切分，再将切分得到的词按出现频率进行统计，然后根据统计的结果建立语料库；2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名，再通过最大似然估计将词排名的结果拟合得到lognormal模型参数，根据lognormal模型参数建立lognormal模型；3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数，再将随机数作为词的排名，得该随机数对应的词的内容；4)重复步骤3)，得所有词的内容，然后根据所有词的内容生成文本测试数据集。本发明能够准确的生成文本测试数据集。

Description

一种基于lognormal模型的文本测试数据集生成方法

技术领域

本发明属于存储系统基准测试领域，涉及一种基于lognormal模型的文本测试数据集生成方法。

背景技术

基准测试是评价存储系统性能的重要方法，通过模拟真实应用场景中存储系统I/O工作负载，从而得到接近真实应用场景的性能测试结果。由于真实数据集过于庞大难于拷贝到测试系统中并且绝大多数真实数据出于隐私性无法公开。因此，基准测试程序会人工生成数据集与数据访问负载，根据访问负载对数据集进行I/O操作。现代存储系统为了提高存储空间利用率，会内置压缩功能，因此数据内容会影响系统测试结果准确性。已有方法在词级别对文本数据集内容生成不精确，会导致基于词压缩算法测试结果与真实数据集出现显著差异，从而影响存储系统测试结果准确性。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种基于lognormal模型的文本测试数据集生成方法，该方法能够准确的生成文本测试数据集。

为达到上述目的，本发明所述的基于lognormal模型的文本测试数据集生成方法包括以下步骤：

1)对真实文本数据集按词进行切分，再将切分得到的词按出现频率进行统计，然后根据统计的结果建立语料库；

2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名，再通过最大似然估计将词排名的结果拟合得到lognormal模型参数，根据lognormal模型参数建立lognormal模型；

3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数，再将随机数作为词的排名，得该随机数对应的词的内容；

4)重复步骤3)，得所有词的内容，然后根据所有词的内容生成文本测试数据集。

将空格及制表符作为分隔符，基于自动机对真实文本数据集按词进行切分。

步骤1)中根据统计的结果以词-频率的形式建立语料库。

本发明具有以下有益效果：

本发明所述的基于lognormal模型的文本测试数据集生成方法在具体操作时，以真实文本数据集中的词出现的频率建立语料库，然后根据语料库建立lognormal模型，再将利用lognormal模型根据蒙特卡洛方法生成随机数，因此词排名与词内容之间的映射关系为java map方式，最后再根据随机数准确生成文本测试数据集，从而使生成的文本测试数据集与真实数据集的压缩吞吐率与压缩率相似程度高。

附图说明

图1为本发明的原理图；

图2为本发明中切词自动机图；

图3为本发明与现有技术生成数据吞吐率的对比图；

图4为本发明与现有技术的数据压缩吞吐率的对比图；

图5为本发明与现有技术的数据压缩率的对比图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

参考图1及图2，本发明所述的基于lognormal模型的文本测试数据集生成方法包括以下步骤：

步骤1)中根据统计的结果以词-频率的形式建立语料库。

通过lognormal模型生成随机数作为词排名。词排名与词内容映射关系表实现为java map方式，这种方式下在进行表查找等操作时避免了I/O访问，从而提高了系统性能。

参考图3-图5,使用java、c、calgary及20News这四类真实文本类型数据集，其中java与c为所收集到的热门开源项目源码数据集，calgary为用于压缩测试的标准数据集，20News为用于机器学习的自然语言数据集，将本发明与现有面向字节级别生成数据集方法SDGen进行性能对比，图3-图5结果表明，本发明相比现有面向字节级别生成数据集方法SDGen在生成文本类型数据集测试中，本发明提高了生成数据集吞吐率约2倍。在将所生成的文本类型数据集用于基于词文本类型数据压缩算法End-Tagged Dense Code(ETDC)测试后，本发明相比现有面向字节级别生成数据集方法SDGen相比，本发明与真实数据集在压缩吞吐率方面的相似程度提高了36％-50％；本发明与真实数据集在压缩率方面的相似程度提高了43％-52％。

Claims

1.一种基于lognormal模型的文本测试数据集生成方法，其特征在于，包括以下步骤：

2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名，然后依词的排名为横坐标值，以词的频率为纵坐标值建立词频率分布，再通过最大似然估计将词排名-频率的结果拟合得到lognormal模型参数，根据lognormal模型参数建立lognormal模型；

2.根据权利要求1所述的基于lognormal模型的文本测试数据集生成方法，其特征在于，将空格及制表符作为分隔符，基于自动机对真实文本数据集按词进行切分。

3.根据权利要求1所述的基于lognormal模型的文本测试数据集生成方法，其特征在于，步骤1)中根据统计的结果以词-频率的形式建立语料库。