CN105260277B - 一种基于lognormal模型的文本测试数据集生成方法 - Google Patents

一种基于lognormal模型的文本测试数据集生成方法 Download PDF

Info

Publication number
CN105260277B
CN105260277B CN201510718187.3A CN201510718187A CN105260277B CN 105260277 B CN105260277 B CN 105260277B CN 201510718187 A CN201510718187 A CN 201510718187A CN 105260277 B CN105260277 B CN 105260277B
Authority
CN
China
Prior art keywords
word
data set
lognormal model
test data
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510718187.3A
Other languages
English (en)
Other versions
CN105260277A (zh
Inventor
董小社
王龙翔
张兴军
朱正东
陈衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201510718187.3A priority Critical patent/CN105260277B/zh
Publication of CN105260277A publication Critical patent/CN105260277A/zh
Application granted granted Critical
Publication of CN105260277B publication Critical patent/CN105260277B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于lognormal模型的文本测试数据集生成方法,包括以下步骤:1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,再通过最大似然估计将词排名的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。本发明能够准确的生成文本测试数据集。

Description

一种基于lognormal模型的文本测试数据集生成方法
技术领域
本发明属于存储系统基准测试领域,涉及一种基于lognormal模型的文本测试数据集生成方法。
背景技术
基准测试是评价存储系统性能的重要方法,通过模拟真实应用场景中存储系统I/O工作负载,从而得到接近真实应用场景的性能测试结果。由于真实数据集过于庞大难于拷贝到测试系统中并且绝大多数真实数据出于隐私性无法公开。因此,基准测试程序会人工生成数据集与数据访问负载,根据访问负载对数据集进行I/O操作。现代存储系统为了提高存储空间利用率,会内置压缩功能,因此数据内容会影响系统测试结果准确性。已有方法在词级别对文本数据集内容生成不精确,会导致基于词压缩算法测试结果与真实数据集出现显著差异,从而影响存储系统测试结果准确性。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于lognormal模型的文本测试数据集生成方法,该方法能够准确的生成文本测试数据集。
为达到上述目的,本发明所述的基于lognormal模型的文本测试数据集生成方法包括以下步骤:
1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;
2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,再通过最大似然估计将词排名的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;
3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;
4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。
将空格及制表符作为分隔符,基于自动机对真实文本数据集按词进行切分。
步骤1)中根据统计的结果以词-频率的形式建立语料库。
本发明具有以下有益效果:
本发明所述的基于lognormal模型的文本测试数据集生成方法在具体操作时,以真实文本数据集中的词出现的频率建立语料库,然后根据语料库建立lognormal模型,再将利用lognormal模型根据蒙特卡洛方法生成随机数,因此词排名与词内容之间的映射关系为java map方式,最后再根据随机数准确生成文本测试数据集,从而使生成的文本测试数据集与真实数据集的压缩吞吐率与压缩率相似程度高。
附图说明
图1为本发明的原理图;
图2为本发明中切词自动机图;
图3为本发明与现有技术生成数据吞吐率的对比图;
图4为本发明与现有技术的数据压缩吞吐率的对比图;
图5为本发明与现有技术的数据压缩率的对比图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
参考图1及图2,本发明所述的基于lognormal模型的文本测试数据集生成方法包括以下步骤:
1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;
2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,再通过最大似然估计将词排名的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;
3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;
4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。
将空格及制表符作为分隔符,基于自动机对真实文本数据集按词进行切分。
步骤1)中根据统计的结果以词-频率的形式建立语料库。
通过lognormal模型生成随机数作为词排名。词排名与词内容映射关系表实现为java map方式,这种方式下在进行表查找等操作时避免了I/O访问,从而提高了系统性能。
参考图3-图5,使用java、c、calgary及20News这四类真实文本类型数据集,其中java与c为所收集到的热门开源项目源码数据集,calgary为用于压缩测试的标准数据集,20News为用于机器学习的自然语言数据集,将本发明与现有面向字节级别生成数据集方法SDGen进行性能对比,图3-图5结果表明,本发明相比现有面向字节级别生成数据集方法SDGen在生成文本类型数据集测试中,本发明提高了生成数据集吞吐率约2倍。在将所生成的文本类型数据集用于基于词文本类型数据压缩算法End-Tagged Dense Code(ETDC)测试后,本发明相比现有面向字节级别生成数据集方法SDGen相比,本发明与真实数据集在压缩吞吐率方面的相似程度提高了36%-50%;本发明与真实数据集在压缩率方面的相似程度提高了43%-52%。

Claims (3)

1.一种基于lognormal模型的文本测试数据集生成方法,其特征在于,包括以下步骤:
1)对真实文本数据集按词进行切分,再将切分得到的词按出现频率进行统计,然后根据统计的结果建立语料库;
2)根据步骤1)建立的语料库中词出现的频率的大小对词进行排名,然后依词的排名为横坐标值,以词的频率为纵坐标值建立词频率分布,再通过最大似然估计将词排名-频率的结果拟合得到lognormal模型参数,根据lognormal模型参数建立lognormal模型;
3)基于步骤2)建立的lognormal模型根据蒙特卡洛方法生成随机数,再将随机数作为词的排名,得该随机数对应的词的内容;
4)重复步骤3),得所有词的内容,然后根据所有词的内容生成文本测试数据集。
2.根据权利要求1所述的基于lognormal模型的文本测试数据集生成方法,其特征在于,将空格及制表符作为分隔符,基于自动机对真实文本数据集按词进行切分。
3.根据权利要求1所述的基于lognormal模型的文本测试数据集生成方法,其特征在于,步骤1)中根据统计的结果以词-频率的形式建立语料库。
CN201510718187.3A 2015-10-29 2015-10-29 一种基于lognormal模型的文本测试数据集生成方法 Expired - Fee Related CN105260277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510718187.3A CN105260277B (zh) 2015-10-29 2015-10-29 一种基于lognormal模型的文本测试数据集生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510718187.3A CN105260277B (zh) 2015-10-29 2015-10-29 一种基于lognormal模型的文本测试数据集生成方法

Publications (2)

Publication Number Publication Date
CN105260277A CN105260277A (zh) 2016-01-20
CN105260277B true CN105260277B (zh) 2019-05-03

Family

ID=55099977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510718187.3A Expired - Fee Related CN105260277B (zh) 2015-10-29 2015-10-29 一种基于lognormal模型的文本测试数据集生成方法

Country Status (1)

Country Link
CN (1) CN105260277B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133159B (zh) * 2017-05-10 2020-12-01 北京亿智云科技有限公司 测试数据库创建方法及测试数据库创建系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268269A (zh) * 2014-10-13 2015-01-07 宁波公众信息产业有限公司 一种数据库操作方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101192439B1 (ko) * 2010-11-22 2012-10-17 고려대학교 산학협력단 디지털 콘텐츠 검색 장치 및 방법
KR101491626B1 (ko) * 2013-07-01 2015-03-05 성균관대학교산학협력단 메모리 저장 장치, 데이터베이스를 위한 트랜잭션 기능을 지원하는 방법 및 메모리 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268269A (zh) * 2014-10-13 2015-01-07 宁波公众信息产业有限公司 一种数据库操作方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Five-Year Study of File-System Metadata;Nitin Agrawal et al.;《FAST"07:5th USENIX Conference on File and Storage Technologies》;20071231;全文 *
SDGen:Mimicking Datasets for Content Generation in Storage Benchmarks;Raul Gracia-Tinedo et al.;《Proceedings of the 13th USENIX Conference on File and Storage Technologies》;20150219;全文 *

Also Published As

Publication number Publication date
CN105260277A (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN107122369B (zh) 一种业务数据处理方法、装置和系统
CN109857803B (zh) 数据同步方法、装置、设备、系统及计算机可读存储介质
CN108170739A (zh) 问题匹配方法、终端和计算机可读存储介质
CN106469376B (zh) 一种风险控制方法和设备
Liao et al. An improved parallel K-means clustering algorithm with MapReduce
CN107229702B (zh) 基于低秩约束和多视角特征融合的微视频流行度预测方法
CN103488782B (zh) 一种利用歌词识别音乐情感的方法
CN105630656B (zh) 基于日志模型的系统健壮性分析方法及装置
CN109033220B (zh) 标注数据的自动选取方法、系统、设备和存储介质
CN110502742A (zh) 一种复杂实体抽取方法、装置、介质及系统
CN111444094B (zh) 一种测试数据的生成方法和系统
CN105045715A (zh) 基于编程模式和模式匹配的漏洞聚类方法
CN105653548A (zh) 一种电子文档页面类型识别方法和系统
Caner Exponential tilting with weak instruments: Estimation and testing
CN105260277B (zh) 一种基于lognormal模型的文本测试数据集生成方法
WO2019061667A1 (zh) 电子装置、数据处理方法、系统及计算机可读存储介质
CN105573726B (zh) 一种规则处理方法及设备
CN116450671B (zh) 智能交互会话大数据分析方法及大数据服务器
CN104580109A (zh) 生成点选验证码的方法及装置
CN105302915A (zh) 基于内存计算的高性能数据处理系统
CN104331396A (zh) 一种智能识别广告的方法
CN104954365A (zh) 一种快速自动识别加密网络行为的方法
CN113609427B (zh) 一种无接口情况下的系统数据资源提取方法及系统
CN106557564A (zh) 一种对象数据分析方法及装置
Deng et al. Second‐order quasi‐likelihood for spatial point processes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190503

Termination date: 20211029