CN104636404A - 用于测试的大规模数据生成方法和装置 - Google Patents
用于测试的大规模数据生成方法和装置 Download PDFInfo
- Publication number
- CN104636404A CN104636404A CN201310573545.7A CN201310573545A CN104636404A CN 104636404 A CN104636404 A CN 104636404A CN 201310573545 A CN201310573545 A CN 201310573545A CN 104636404 A CN104636404 A CN 104636404A
- Authority
- CN
- China
- Prior art keywords
- sample data
- data
- described sample
- distribution function
- probability distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种用于测试的大规模数据生成方法和装置,其中,方法包括:第一节点对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际的测试的文本数据;所述第一节点根据所述样本数据的至少一个概率分布函数构造随机数发生器;所述第一节点采用所述随机数发生器生成大规模数据。本发明实施例提供的用于测试的大规模数据生成装置方法和装置,可以获得能够反映真实数据规律的大规模数据。
Description
技术领域
本发明实施例涉及数据分析技术,尤其涉及一种用于测试的大规模数据生成方法和装置。
背景技术
随着计算机和互联网技术的发展,大数据(Big Data)吸引了越来越多的关注。如何对大数据进行存储与分析,即大数据解决方案,是计算机和互联网技术的重要课题。例如,对于文本数据,数据挖掘的分类算法和聚类算法是大数据分析的重要手段。分类算法是指将文本归入预先定义的几个类别中的一个或几个;聚类算法则是将文本聚成预先没有定义的几个类别中。文本数据的分类算法和聚类算法广泛应用在垃圾邮件识别、新闻分类,网页分类等各种场合。大数据解决方案的提供者并不一定是大数据的拥有者,而由于数据本身就是企业一笔巨大的资产,出于保密性,大数据拥有者不可能对外界提供真实的大数据,并且数据过大也不便于携带与传递。而大数据解决方案的评价与优化需要大规模的真实数据进行测试,因此对于大数据解决方案的提供者而言,如何获得大规模的真实数据是十分重要的问题。
现有技术中,利用完全随机生成的方式来产生大规模的输入数据,或者,采用某一分布函数生成的链接数据作为输入,例如按照均匀分布和高斯分布生成输入数据。
但是,现有技术生成的数据不能反映真实数据中的规律,导致大数据解决方案的测试或评价失效。
发明内容
本发明提供一种用于测试的大规模数据生成方法和装置,以获得能够反映实际数据规律的大规模数据。
第一方面,本发明实施例提供一用于测试的种大规模数据生成方法,包括:
第一节点对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际的测试的文本数据;
所述第一节点根据所述样本数据的至少一个概率分布函数构造随机数发生器;
所述第一节点采用所述随机数发生器生成大规模数据。
在第一方面的第一种可能的实现方式中,所述第一节点根据所述样本数据的至少一个概率分布函数构造随机数发生器,包括:
所述第一节点采用吉布斯采样gibs sampling或者反演抽样inversionsampling根据所述样本数据的至少一个概率分布函数构造随机数发生器。
根据第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述样本数据的概率分布函数包括所述样本数据的关键词的概率分布函数,所述第一节点对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,包括:
所述第一节点解析所述样本数据,以获得所述样本数据的关键词信息,其中,所述关键词信息包括所述样本数据中每个词的出现次数和所述样本数据包括的词的总数;
所述第一节点统计获得所述样本数据的词的概率分布函数P(W),作为所述样本数据的一个特征,其中,P表示概率分布函数,W表示关键词,P(W)=所述样本数据中每个关键词W的出现次数/所述样本数据包括的词的总数。
根据第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述样本数据的概率分布函数还包括:所述样本数据的文本长度的概率分布函数,所述第一节点对真实的样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,包括:
所述第一节点解析所述样本数据,以获得所述样本数据的文本长度信息,其中,所述长度信息包括每个所述样本数据的文本长度、每个所述文本长度对应的文本数和文本总数;
所述第一节点统计获得所述样本数据的文本长度的概率分布函数P(L),作为所述样本数据的一个特征,其中,P表示概率分布函数,L表示文本长度,P(L)=每个所述文本长度对应的文本数/所述文本总数。
根据第一方面的第二种或第三种可能的实现方式,在第四种可能的实现方式中,所述样本数据的特征还包括:所述样本数据的类别的概率分布函数,所述第一节点对真实的样本数据进行分析,以获得所述样本数据的特征,包括:
所述第一节点解析所述样本数据,以获得所述样本数据的类别信息,其中,所述类别信息包括每个所述样本数据所属的类别、每个所述类别包含的文本数;
所述第一节点统计获得所述样本数据的类别的概率分布函数P(C),作为所述样本数据的一个特征,其中,P表示概率分布函数,C表示类别,P(C)=每个所述类别包含的文本数/所述文本总数。
第二方面,本发明实施例提供一种用于测试的大规模数据生成装置,包括:
分析模块,用于对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际的测试的文本数据;
随机数发生器构造模块,用于根据所述样本数据的至少一个概率分布函数构造随机数发生器;
数据生成模块,用于采用所述随机数发生器生成大规模数据。
在第二方面的第一种可能的实现方式中,所述随机数发生器构造模块具体用于:
采用吉布斯采样gibs sampling或者反演抽样inversion sampling根据所述样本数据的至少一个概率分布函数构造随机数发生器。
根据第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述样本数据的概率分布函数包括所述样本数据的关键词的概率分布函数,所述分析模块具体用于:
解析所述样本数据,以获得所述样本数据的词信息,其中,所述关键词信息包括所述样本数据中每个词的出现次数和所述样本数据包括的词的总数;
所述第一节点统计获得所述样本数据的词的概率分布函数P(W),作为所述样本数据的一个特征,其中,P表示概率分布函数,W表示关键词,P(W)=所述样本数据中每个关键词W的出现次数/所述样本数据包括的词的总数。
根据第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述样本数据的概率分布函数还包括:所述样本数据的文本长度的概率分布函数,所述分析模块具体用于:
解析所述样本数据,以获得所述样本数据的文本长度信息,其中,所述长度信息包括每个所述样本数据的文本长度、每个所述文本长度对应的文本数和文本总数;
所述第一节点统计获得所述样本数据的文本长度的概率分布函数P(L),作为所述样本数据的一个特征,其中,P表示概率分布函数,L表示文本长度,P(L)=每个所述文本长度对应的文本数/所述文本总数。
根据第二方面的第二种或第三种可能的实现方式,在第四种可能的实现方式中,所述样本数据的特征还包括:所述样本数据的类别的概率分布函数,所述分析模块具体用于:
解析所述样本数据,以获得所述样本数据的类别信息,其中,所述类别信息包括每个所述样本数据所属的类别、每个所述类别包含的文本数;
统计获得所述样本数据的类别的概率分布函数P(C),作为所述样本数据的一个特征,其中,P表示概率分布函数,C表示类别,P(C)=每个所述类别包含的文本数/所述文本总数。
本发明实施例提供的用于测试的大规模数据生成方法和装置,第一节点通过采用来源于实际的测试的文本数据作为样本数据,并对样本数据的分析,获得样本数据的概率分布函数,并根据该样本数据的特征构造随机数发生器,所构造的随机数发生器能够按照所述样本数据的特征规律生成任意数量的其他数据,因此,第一节点采用随机数发生器生成的大规模数据能够反映实际数据的特征和规律,从而,将本发明实施例的方法生成的大规模数据用于大数据解决方案的测试或评价时,能够提高测试或评价的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明用于测试的大规模数据生成方法实施例一的流程图;
图2为本发明用于测试的大规模数据生成方法实施例二的流程图;
图3为本发明用于测试的大规模数据生成方法实施例三的流程图;
图4为本发明用于测试的大规模数据生成装置实施例一的结构示意图;
图5为本发明用于测试的大规模数据生成装置实施例二的结构示意图;
图6为本发明用于测试的大规模数据生成装置实施例三的结构示意图;
图7为本发明用于测试的大规模数据生成装置实施例四的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例所述的第一节点或第二节点可以为包含存储设备的计算机或服务器,第一节点和第二节点也可以为分布式存储系统中的多个节点,分布式存储系统中的存储设备可以为独立的共享存储设备,独立于任意一个节点之外,各个节点之间以及各个节点与共享存储设备之间通过以太网或局域网进行通信,其中,共享存储设备用于存储数据,例如为大容量的硬盘。
图1为本发明用于测试的大规模数据生成方法实施例一的流程图,本实施例的执行主体可以为包含存储设备的计算机或服务器,或者,可以为分布式系统中的任意一个节点,为清楚起见,本实施例中将执行下述方法的主体称为第一节点。当第一节点的存储空间足够存储所需要生成的大规模数据时,第一节点可以单独完成本实施例的方法。如图1所示,本实施例的方法可以包括:
步骤101、第一节点对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际的测试的文本数据。
其中,样本数据可以从少量用户的信息中获得,或者可以来自于互联网上少量公开的真实的数据。
由于所需要分析、测试的大规模数据通常为文本数据,因此,本发明实施例中的样本数据为文本数据。
样本数据特征具体可以包括:数据类别、每个类别的概率、数据中的每个词的概率、数据大小的概率等。相应地,对样本数据进行分析,具体可以包括:对样本数据进行分类、获得样本数据的类别的概率分布函数、获得样本数据中的词的概率分布函数、获得样本数据的文本长度的概率分布函数等。,因此,本实施例中,第一节点对样本数据进行分析,获得所述样本数据的以下概率分布函数中的至少一个,作为数据的特征:关键词的分布函数、文本长度的分布函数、以及类别的分布函数,或者,每个类别中关键词的分布函数、每个类别中文本长度的分布函数等。
步骤102、所述第一节点根据所述样本数据的至少一个概率分布函数构造随机数发生器。
具体实现时,可选地,所述第一节点可以采用吉布斯采样gibs sampling或者反演抽样inversion sampling根据所述样本数据的至少一个概率分布函数构造随机数发生器。
具体地,所述随机数发生器可以为满足所述样本数据的概率分布函数的随机数发生器。随机数发生器可自由定制,可以针对不同的概率分布函数构造不同的随机数发生器,通常一个概率分布函数对应一个随机数发生器。例如,对于样本数据的类别的概率分布函数P(C),可以构造第一随机数发生器,使该第一随机数发生器生成的随机数满足类别的概率分布函数P(C);对于每个类别中的文本长度的概率分布函数P(L|C),可以构造第二随机数发生器,使该第二随机数发生器生成的随机数满足每个类别中文本长度的概率分布函数P(L|C);对于每个类别中的词的概率分布函数P(W|C),可以构造第三随机数发生器,使该第三随机数发生器生成的随机数满足每个类别词的概率分布函数P(W|C)。
在实际应用中,“关键词”可以为英文中的单词,也可以为中文中的字,或者对于中文文本,可以根据文本的类型,事先设置关键词的定义,例如定义两个字或三个字组成短语作为“关键词”。
在具体实现时,对于同一组样本数据,针对一个特征构造一个随机数发生器,若在步骤101中已经获得多个特征,则可以构造多个随机数发生器。通常,针对同一组样本数据构造的随机数发生器越多,则所生成的数据越能反映真实数据的规律。本实施例以该样本数据对应三个随机数发生器(上述的第一随机数发生器、第二随机数发生器和第三随机数发生器)为例进行描述。
步骤103、所述第一节点采用所述随机数发生器生成大规模数据。
每个随机数发生器独立生成数据,生成单个文档数据的过程可以如下:先由满足P(C)分布的第一随机数发生器生成类别号,再由满足P(L|C)的第二随机数发生器生成文档长度,例如文档长度为L个词,最后由满足P(W|C)的第三随机数发生器生成L个的词组成文档。上述过程执行一遍即可生成一个文档。可以重复上述过程,直到生成预设的数据量的数据。其中,具体执行时,可以预估一个所需文档的数量,从而确定需要执行的次数;或者,可以定时检测所生成的文档的数据量,当数据量达到要求时结束上述过程。
相比现有技术中利用完全随机的方式产生的大规模数据,本实施例利用了少量真实的样本数据,分析获得样本数据的特征,再根据这些特征构造能够产生满足这些特征规律的随机数发生器,因此所产生的随机数能够反映真实数据的规律。
本实施例,第一节点通过采用来源于实际测试的文本数据作为样本数据,并对的样本数据的分析,获得样本数据的特征,并根据该样本数据的特征构造随机数发生器,所构造的随机数发生器能够按照所述样本数据的特征规律生成任意数量的其他数据,因此,第一节点采用随机数发生器生成的大规模数据能够反映真实数据的特征和规律,从而,将本发明实施例的方法生成的大规模数据用于大数据解决方案的测试或评价时,能够提高测试或评价的准确性。
上述实施例在一种实现方式中,可以不进行分类,或者分类后仅有一个类别,也可以不统计文本长度,即,所述样本数据的特征为所述样本数据的关键词的概率分布函数,步骤101可以包括:
子步骤一、所述第一节点解析所述样本数据,以获得所述样本数据的关键词信息,其中,所述关键词信息包括所述样本数据中每个关键词的出现次数和所述样本数据包括的词的总数;
子步骤二、统计获得所述样本数据的关键词的概率分布函数P(W),作为所述样本数据的一个特征,其中,P表示概率分布函数,W表示词,P(W)=所述样本数据中每个关键词的出现次数/所述样本数据包括的词的总数。
进一步地,上述实施例在另一种实现方式中,可以不进行分类,或者分类后仅有一个类别,即,所述样本数据的特征除了所述样本数据的关键词的概率分布函数之外,还包括所述样本数据的文本长度的概率分布函数,则步骤101还可以包括:
子步骤三、所述第一节点解析所述样本数据,以获得所述样本数据的文本长度信息,其中,所述文本信息包括每个所述样本数据的文本长度、每个所述文本长度对应的文本数和文本总数;
子步骤四、统计获得所述样本数据的文本长度的概率分布函数P(L),作为所述样本数据的一个特征,其中,P表示概率分布函数,L表示文本长度,P(L)=每个所述文本长度对应的文本数/所述文本总数。
进一步地,图2为本发明用于测试的大规模数据生成方法实施例二的流程图,本实施例是在上述实施例的基础上的一种优选的实现方式,在本实施例中,数据为样本数据,获得样本数据的特征时,先对样本数据进行分类,再按类别分别获得每个类别下文本长度的分布函数和词的分布函数,如图2所示,本实施例的方法可以包括:
步骤201、第一节点解析所述样本数据,以获得所述样本数据的类别信息,其中,所述类别信息包括每个所述样本数据所属的类别、每个所述类别包含的文本数。
其中,类别可以为作为样本数据的样本数据固有的,也可以为,在执行步骤201之前,第一节点根据聚类算法对所述样本数据进行分类后获得的。
步骤202、统计获得所述样本数据的类别的概率分布函数P(C),作为所述样本数据的第一特征,其中,P表示概率分布函数,C表示类别,P(C)=每个所述类别包含的文本数/所述文本总数。
步骤203、第一节点解析所述样本数据,以获得所述样本数据的关键词信息,其中,所述关键词信息包括所述样本数据中每个类别中每个词的出现次数和所述类别包括的词的总数。
步骤204、所述第一节点统计获得所述类别中关键词的概率分布函数P(W|C)作为所述样本数据的第二特征,其中,P(W|C)=每个所述类别中每个关键词的出现次数/所述类别包括的词的总数。
步骤205、所述第一节点解析所述样本数据,以获得所述样本数据的文本长度信息,其中,所述长度信息包括每个所述类别中每个文本长度对应的文本个数和每个所述类别中包括的文本个数。
步骤206、所述第一节点统计获得所述类别中文本长度的概率分布函数P(L|C)作为所述样本数据的第三特征,其中,P(L|C)=每个所述类别中每个所述文本长度对应的文本数/对应的所述类别中包括的文本个数。
其中,步骤203、204,与步骤205、206之间没有严格的顺序关系,可以按图2所示顺序执行,也可以先执行步骤205、206再执行步骤203、204。
步骤207、所述第一节点根据所述样本数据的各个特征分别构造每个特征对应的随机数发生器。
具体地,所述第一节点根据第一特征构造第一随机数发生器,根据第二特征构造第二随机数发生器,根据第三特征构造第三随机数发生器。
步骤208、所述第一节点采用所述随机数发生器生成数据。
这样,所述第一节点采用所述随机数发生器生成的数据必然符合各个特征所对应的概率分布函数,即,符合来源于实际测试的文本数据的关键词、文本长度、文本类别的概率分布函数,因此能够反映实际测试数据的规律。
进一步地,当所需要生成的数据的规模较大,第一节点的容量或处理能力不足以完成独立生成所需的数据时,可以通过第一节点以及多个第二节点同时生成数据,再收集数据的方式完成。在这种情况下,本实施例的方法还可以包括:
步骤209、所述第一节点将所述随机数发生器发送给第二节点,以使所述第二节点将采用所述随机数发生器生成数据。
其中,第二节点的个数可以根据所需生成的数据规模确定,可以为一个或多个。
在实际实现时,第一节点还可以向第二节点发送一个预设的数据量,指示第二节点需要生成的数据量。
在具体实现时,第二节点还可以按预设的时间周期发送的进度报告,所述进度报告包括所述第二节点的数据生成的状态和当前进度。相应地,如果第一节点收到某一个第二节点发送的进度报告中包括数据生成失败的信息(例如该第二节点磁盘空间不足),则可以指定一个新的第二节点重新生成数据。如果第一节点在预设的时间内没有收到第二节点的报告消息超过规定的次数,则可以认为此第二节点失效,第一节点重新指定其它的第二节点来生成数据。
步骤210、所述第一节点收集所述第一节点和所述第二节点生成的数据,或者,所述第一节点将所述随机数发生器生成的数据发送到存储设备。
具体地,每个第二节点完成数据的生成预设的数据量之后,向所述第一节点发送的所述生成的数据,或者,将所述生成的数据发送到存储设备,并向第一节点发送完成报告,所述完成报告包括所述第二节点已完成生成预设的数据量并将所述生成的数据发送到存储设备的信息。
如果第一节点没有在预设的时间内接收到第二节点发送的数据,或者第二节点发送的完成报告,第一节点可以重新指定其它的第二节点来生成数据并上传数据。
当第一节点完成采用所述随机数发生器生成数据,并接收到所有的第二节点返回的完成报告后,整个数据生成的过程结束。
本实施例,第一节点通过对真实的样本数据的分析,获得样本数据的类别的概率分布函数作为第一特征、文本长度的概率分布函数作为第二特征和词的概率分布函数第三特征,并根据该三个特征分别构造三个随机数发生器,并将三个随机数发生器发送给一个或多个第二节点,使得多个节点分别采用三个随机数发生器够按照所述样本数据的三个特征独立地生成数据,并通过第一节点收集第二节点生成的数据,从而完成大规模数据的生成,并保证所生成的大规模数据能够反映实际测试数据的特征和规律。
需要说明的是,上述实施例在一个实现方式中,第一节点也可以不进行生成数据的过程,第一节点可以仅用于构造随机数发生器并向第二节点发送随机数发生器,以及对第二节点的数据生成过程进行监控和管理。即步骤208为可选步骤。
图3为本发明用于测试的大规模数据生成方法实施例三的流程图,本实施例的方法的执行主体为第二节点。如图3所示,本实施例的方法可以包括:
步骤301、第二节点接收第一节点发送的随机数发生器,所述随机数发生器为第一节点根据样本数据的至少一个特征构造的。
在具体实现时,第一节点还可以指定第二节点需要生成的数据量,例如,第二节点在接收随机数发生器的同时,接收第一节点指定的数据量。
步骤302、所述第二节点采用所述随机数发生器生成数据。
进一步地,第一节点还可以指定第二节点发送进度报告的时间周期。第二节点按照预设的时间周期向所述第一节点发送进度报告,所述进度报告包括所述第二节点的数据生成的状态和当前进度。
其中,进度包括也可以包括数据生成失败的信息,这时,第一节点可以指定一个新的第二节点重新生成数据。
步骤303、所述第二节点将所述生成的数据上传到预设位置。
具体地,预设位置可以是第一节点,也可以是分布式存储系统中的共享存储设备,因此,步骤303具体可以包括:所述第二节点在生成预设的数据量之后,向所述第一节点发送的所述生成的数据,或者,所述第二节点在生成预设的数据量之后,将所述生成的数据发送到存储设备。进一步地,对于将数据发送到存储设备的情况,步骤303还可以包括:第二节点向所述第一节点发送完成报告。
本实施例,第二节点接收第一节点发送的根据样本数据的至少一个特征构造的随机数发生器,采用所述随机数发生器生成数据,并上传到预设位置,由于第二节点的个数可以是一个或多个,从而上述方法可以实现分布式存储系统中的多个节点分别独立地采用随机数发生器生成数据,并且,由于随机数发生器是第一节点根据样本数据的特征构造的,因此所生成的大规模数据能够反映真实数据的特征和规律。
图4为本发明用于测试的大规模数据生成装置实施例一的结构示意图,本实施例的装置对应于第一节点。如图4所示,本实施例的装置可以包括:分析模块11、随机数发生器构造模块12和数据生成模块13,其中,
分析模块11,可以用于对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际的测试的文本数据;
随机数发生器构造模块12,可以用于根据所述样本数据的至少一个概率分布函数构造随机数发生器;
数据生成模块13,可以用于采用所述随机数发生器生成大规模数据。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例的装置,通过分析模块对样本数据的分析,获得样本数据的至少一个概率分布函数,并根据该样本数据的至少一个概率分布函数构造随机数发生器,所构造的随机数发生器能够按照所述样本数据的特征规律生成任意数量的其他数据,而样本数据来源于实际的测试的文本数据,因此,采用该随机数发生器生成的大规模数据能够反映实际数据的特征和规律,从而,将本发明实施例的装置生成的大规模数据用于大数据解决方案的测试或评价时,能够提高测试或评价的准确性。
进一步地,所述随机数发生器构造模块12具体用于:
采用吉布斯采样gibs sampling或者反演抽样inversion sampling根据所述样本数据的至少一个概率分布函数构造随机数发生器。
进一步地,所述样本数据的概率分布函数包括所述样本数据的关键词的概率分布函数,所述分析模块11具体用于:
解析所述样本数据,以获得所述样本数据的关键词信息,其中,所述关键词信息包括所述样本数据中每个关键词的出现次数和所述样本数据包括的词的总数;
统计获得所述样本数据的关键词的概率分布函数P(W),作为所述样本数据的一个特征,其中,P表示概率分布函数,W表示关键词,P(W)=所述样本数据中每个关键词的出现次数/所述样本数据包括的词的总数。
进一步地,所述样本数据的概率分布函数还包括:所述样本数据的文本长度的概率分布函数,所述分析模块11具体用于:
解析所述样本数据,以获得所述样本数据的文本长度信息,其中,所述长度信息包括每个所述样本数据的文本长度、每个所述文本长度对应的文本数和文本总数;
统计获得所述样本数据的文本长度的概率分布函数P(L),作为所述样本数据的一个特征,其中,P表示概率分布函数,L表示文本长度,P(L)=每个所述文本长度对应的文本数/所述文本总数。
进一步地,所述样本数据的概率分布函数还包括:所述样本数据的类别的概率分布函数,所述分析模块11具体用于:
解析所述样本数据,以获得所述样本数据的类别信息,其中,所述类别信息包括每个所述样本数据所属的类别、每个所述类别包含的文本数;
统计获得所述样本数据的类别的概率分布函数P(C),作为所述样本数据的一个特征,其中,P表示概率分布函数,C表示类别,P(C)=每个所述类别包含的文本数/所述文本总数。
进一步地,所述关键词信息还包括:每个所述类别中每个关键词的出现次数和所述类别包括的词的总数,
所述分析模块11具体用于:统计获得所述样本数据的关键词的概率分布函数P(W)还包括:统计获得所述类别中关键词的概率分布函数P(W|C),其中,P(W|C)=每个所述类别中每个关键词的出现次数/所述类别包括的词的总数;
和\或,
所述文本长度信息还包括:每个所述类别中每个文本长度为对应的文档个数和每个所述类别中包括的文本个数,
所述分析模块11具体用于:统计获得所述样本数据的文本长度的概率分布函数P(L)还包括:统计获得所述类别中文本长度的概率分布函数P(L|C),其中,P(L|C)=每个所述类别中每个所述文本长度对应的文本数/对应的所述类别中包括的文本个数。
图5为本发明用于测试的大规模数据生成装置实施例二的结构示意图,本实施例的装置对应于第一节点。如图5所示,本实施例的装置在图4所示装置的基础上,还可以包括:分类模块14,
该分类模块14,可以用于在所述分析模块解析所述样本数据,以获得所述样本数据的类别信息之前,根据聚类算法对所述样本数据进行分类。
进一步地,所示装置还可以包括:发送模块15和收集模块16,
其中,发送模块15,可以用于在随机数发生器构造模块根据所述样本数据的至少一个特征构造随机数发生器之后,将所述随机数发生器发送给至少一个第二节点,以使所述第二节点将采用所述随机数发生器生成数据;
收集模块16,可以用于收集所述数据生成模块和所述至少一个第二节点生成的数据,或者,用于将所述数据生成模块生成的数据发送到存储设备。
进一步地,所述收集模块16具体可以用于:
接收所述至少一个第二节点在完成生成预设的数据量之后,发送的所述生成的数据,或者,接收所述至少一个第二节点发送的完成报告,所述完成报告包括所述第二节点已完成生成预设的数据量并将所述生成的数据发送到存储设备的信息。
进一步地,所述装置还可以包括:
监控模块17,用于在所述发送模块将所述随机数发生器发送给至少一个第二节点,以使所述第二节点将采用所述随机数发生器生成数据之后,接收所述至少一个第二节点按预设的时间周期发送的进度报告,所述进度报告包括所述第二节点的数据生成的状态和当前进度。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明用于测试的大规模数据生成装置实施例三的结构示意图,本实施例的装置对应于第二节点。如图6所示,本实施例的装置可以包括:接收模块21、数据生成模块22和上传模块23。
其中,接收模块21,可以用于接收第一节点发送的随机数发生器,所述随机数发生器为第一节点根据样本数据的至少一个特征构造的;
数据生成模块22,可以用于采用所述随机数发生器生成数据;
上传模块23,可以用于将所述生成的数据上传到预设位置。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理类似,此处不再赘述。
本实施例的装置,通过接收第一节点发送的根据样本数据的至少一个特征构造的随机数发生器,采用所述随机数发生器生成数据,并上传到预设位置,由于本实施例的装置的个数可以是一个或多个,从而可以实现分布式存储系统中的多个节点分别独立地采用随机数发生器生成数据,并且,由于随机数发生器是第一节点根据样本数据的特征构造的,因此所生成的大规模数据能够反映真实数据的特征和规律。
图7为本发明用于测试的大规模数据生成装置实施例四的结构示意图,本实施例的装置对应于第二节点。如图7所示,本实施例的装置在图6所示装置的基础上,进一步地,所述上传模块23具体可以用于:
在所述数据生成模块完成生成预设的数据量之后,向所述第一节点发送的所述生成的数据,或者,在所述数据生成模块完成生成预设的数据量之后,将所述生成的数据发送到存储设备,并向所述第一节点发送完成报告。
进一步地,还包括:
进度发送模块24,可以用于在所述接收模块接收第一节点发送的随机数发生器之后,按预设的时间周期向所述第一节点发送进度报告,所述进度报告包括所述数据生成模块的数据生成的状态和当前进度。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码被一个计算机执行的时候,所述计算机程序代码可以使得所述计算机执行用于测试的大规模数据生成方法中的任意一项步骤。
本发明还提供一种计算机可读存储介质,所述计算机存储计算机程序代码,当所述计算机程序代码被一个计算机执行的时候,所述计算机程序代码可以使得所述计算机执行用于测试的大规模数据生成方法中的任意一项步骤。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种用于测试的大规模数据的生成方法,其特征在于,包括:
第一节点对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际测试的文本数据;
所述第一节点根据所述样本数据的至少一个概率分布函数构造随机数发生器;
所述第一节点采用所述随机数发生器生成大规模数据。
2.根据权利要求1所述的方法,其特征在于,所述第一节点根据所述样本数据的至少一个概率分布函数构造随机数发生器,包括:
所述第一节点采用吉布斯采样gibs sampling或者反演抽样inversionsampling,根据所述样本数据的至少一个概率分布函数构造随机数发生器。
3.根据权利要求2所述的方法,其特征在于,所述样本数据的概率分布函数包括所述样本数据的关键词的概率分布函数,所述第一节点对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,包括:
所述第一节点解析所述样本数据,以获得所述样本数据的关键词信息,其中,所述关键词信息包括所述样本数据中每个词的出现次数和所述样本数据包括的词的总数;
所述第一节点统计获得所述样本数据的词的概率分布函数P(W),作为所述样本数据的一个特征,其中,P表示概率分布函数,W表示关键词,P(W)=所述样本数据中每个关键词W的出现次数/所述样本数据包括的词的总数。
4.根据权利要求3所述的方法,其特征在于,所述样本数据的概率分布函数还包括:所述样本数据的文本长度的概率分布函数,所述第一节点对真实的样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,包括:
所述第一节点解析所述样本数据,以获得所述样本数据的文本长度信息,其中,所述长度信息包括每个所述样本数据的文本长度、每个所述文本长度对应的文本数和文本总数;
所述第一节点统计获得所述样本数据的文本长度的概率分布函数P(L),作为所述样本数据的一个特征,其中,P表示概率分布函数,L表示文本长度,P(L)=每个所述文本长度对应的文本数/所述文本总数。
5.根据权利要求3或4所述的方法,其特征在于,所述样本数据的特征还包括:所述样本数据的类别的概率分布函数,所述第一节点对真实的样本数据进行分析,以获得所述样本数据的特征,包括:
所述第一节点解析所述样本数据,以获得所述样本数据的类别信息,其中,所述类别信息包括每个所述样本数据所属的类别、每个所述类别包含的文本数;
所述第一节点统计获得所述样本数据的类别的概率分布函数P(C),作为所述样本数据的一个特征,其中,P表示概率分布函数,C表示类别,P(C)=每个所述类别包含的文本数/所述文本总数。
6.一种用于测试的大规模数据生成装置,其特征在于,包括:
分析模块,用于对样本数据进行分析,以获得所述样本数据的至少一个概率分布函数,所述样本数据来源于实际的测试的文本数据;
随机数发生器构造模块,用于根据所述样本数据的至少一个概率分布函数构造随机数发生器;
数据生成模块,用于采用所述随机数发生器生成大规模数据。
7.根据权利要求6所述的装置,其特征在于,所述随机数发生器构造模块具体用于:
采用吉布斯采样gibs sampling或者反演抽样inversion sampling根据所述样本数据的至少一个概率分布函数构造随机数发生器。
8.根据权利要求7所述的装置,其特征在于,所述样本数据的概率分布函数包括所述样本数据的关键词的概率分布函数,所述分析模块具体用于:
解析所述样本数据,以获得所述样本数据的词信息,其中,所述关键词信息包括所述样本数据中每个词的出现次数和所述样本数据包括的词的总数;
所述第一节点统计获得所述样本数据的词的概率分布函数P(W),作为所述样本数据的一个特征,其中,P表示概率分布函数,W表示关键词,P(W)=所述样本数据中每个关键词W的出现次数/所述样本数据包括的词的总数。
9.根据权利要求8所述的装置,其特征在于,所述样本数据的概率分布函数还包括:所述样本数据的文本长度的概率分布函数,所述分析模块具体用于:
解析所述样本数据,以获得所述样本数据的文本长度信息,其中,所述长度信息包括每个所述样本数据的文本长度、每个所述文本长度对应的文本数和文本总数;
所述第一节点统计获得所述样本数据的文本长度的概率分布函数P(L),作为所述样本数据的一个特征,其中,P表示概率分布函数,L表示文本长度,P(L)=每个所述文本长度对应的文本数/所述文本总数。
10.根据权利要求8或9所述的装置,其特征在于,所述样本数据的特征还包括:所述样本数据的类别的概率分布函数,所述分析模块具体用于:
解析所述样本数据,以获得所述样本数据的类别信息,其中,所述类别信息包括每个所述样本数据所属的类别、每个所述类别包含的文本数;
统计获得所述样本数据的类别的概率分布函数P(C),作为所述样本数据的一个特征,其中,P表示概率分布函数,C表示类别,P(C)=每个所述类别包含的文本数/所述文本总数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310573545.7A CN104636404B (zh) | 2013-11-14 | 2013-11-14 | 用于测试的大规模数据生成方法和装置 |
PCT/CN2014/090912 WO2015070759A1 (zh) | 2013-11-14 | 2014-11-12 | 用于测试的大规模数据生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310573545.7A CN104636404B (zh) | 2013-11-14 | 2013-11-14 | 用于测试的大规模数据生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104636404A true CN104636404A (zh) | 2015-05-20 |
CN104636404B CN104636404B (zh) | 2019-02-19 |
Family
ID=53056774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310573545.7A Expired - Fee Related CN104636404B (zh) | 2013-11-14 | 2013-11-14 | 用于测试的大规模数据生成方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104636404B (zh) |
WO (1) | WO2015070759A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739869A (zh) * | 2018-12-29 | 2019-05-10 | 北京航天数据股份有限公司 | 模型运行报告生成方法及系统 |
CN111565103A (zh) * | 2020-04-29 | 2020-08-21 | 中国银行股份有限公司 | 一种生产数据处理的方法和装置 |
CN112118095A (zh) * | 2020-08-27 | 2020-12-22 | 江苏徐工工程机械研究院有限公司 | 一种工程机械can总线随机数生成方法、系统及身份认证系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244575A1 (en) * | 2006-04-13 | 2007-10-18 | Fisher-Rosemount Systems, Inc. | Robust process model identification in model based control techniques |
CN102033806A (zh) * | 2010-12-14 | 2011-04-27 | 北京航空航天大学 | 一种实时嵌入式软件可靠性测试数据生成方法 |
CN102460076A (zh) * | 2009-06-10 | 2012-05-16 | 起元技术有限责任公司 | 生成测试数据 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814098B (zh) * | 2010-05-11 | 2012-05-02 | 天津大学 | 基于垂直搜索及语义标注获取软件安全缺陷的方法 |
CN103678495B (zh) * | 2013-11-18 | 2017-04-12 | 中国科学院计算技术研究所 | 一种基于Web页面的大规模数据生成方法及系统 |
-
2013
- 2013-11-14 CN CN201310573545.7A patent/CN104636404B/zh not_active Expired - Fee Related
-
2014
- 2014-11-12 WO PCT/CN2014/090912 patent/WO2015070759A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070244575A1 (en) * | 2006-04-13 | 2007-10-18 | Fisher-Rosemount Systems, Inc. | Robust process model identification in model based control techniques |
CN102460076A (zh) * | 2009-06-10 | 2012-05-16 | 起元技术有限责任公司 | 生成测试数据 |
CN102033806A (zh) * | 2010-12-14 | 2011-04-27 | 北京航空航天大学 | 一种实时嵌入式软件可靠性测试数据生成方法 |
CN103092975A (zh) * | 2013-01-25 | 2013-05-08 | 武汉大学 | 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法 |
Non-Patent Citations (1)
Title |
---|
周晓莹 等: "用于统计测试概率分布生成的自动搜索方法", 《计算机工程》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739869A (zh) * | 2018-12-29 | 2019-05-10 | 北京航天数据股份有限公司 | 模型运行报告生成方法及系统 |
CN109739869B (zh) * | 2018-12-29 | 2021-04-06 | 北京航天数据股份有限公司 | 模型运行报告生成方法及系统 |
CN111565103A (zh) * | 2020-04-29 | 2020-08-21 | 中国银行股份有限公司 | 一种生产数据处理的方法和装置 |
CN111565103B (zh) * | 2020-04-29 | 2022-10-21 | 中国银行股份有限公司 | 一种生产数据处理的方法和装置 |
CN112118095A (zh) * | 2020-08-27 | 2020-12-22 | 江苏徐工工程机械研究院有限公司 | 一种工程机械can总线随机数生成方法、系统及身份认证系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104636404B (zh) | 2019-02-19 |
WO2015070759A1 (zh) | 2015-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Buntain et al. | Automatically identifying fake news in popular twitter threads | |
Lo et al. | SMArTIC: Towards building an accurate, robust and scalable specification miner | |
US20200125678A1 (en) | Unsupervised technique for training an engagement classifier in chat-based group conversation | |
GB2604552A (en) | Fusing multimodal data using recurrent neural networks | |
CN103077163B (zh) | 数据预处理方法、装置及系统 | |
KR20230030542A (ko) | 랜덤 컷 포레스트 알고리즘을 이용한 ai 기반의 설비 데이터 이상 감지 시스템과 그 방법 | |
Choudhary et al. | Neural Network Based Bug Priority Prediction Model using Text Classification Techniques. | |
Gadepally et al. | Hyperscaling internet graph analysis with d4m on the mit supercloud | |
CN104636404A (zh) | 用于测试的大规模数据生成方法和装置 | |
CN105511869A (zh) | 一种基于用户反馈的需求跟踪系统及方法 | |
Kumar et al. | Fake news detection using machine learning and natural language processing | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
He et al. | Research on the dynamic monitoring system model of university network public opinion under the big data environment | |
Naidu et al. | Analysis of Hadoop log file in an environment for dynamic detection of threats using machine learning | |
KR20220041600A (ko) | 스마트공장 데이터 품질평가 방법 | |
Patil et al. | Framework for performance comparison of classifiers | |
CN116155541A (zh) | 面向网络安全应用的自动化机器学习平台以及方法 | |
Zhang et al. | Condition-guided adversarial generative testing for deep learning systems | |
Mandagondi | Anomaly detection in log files using machine learning techniques | |
CN104331507A (zh) | 机器数据类别自动发现和分类的方法及装置 | |
Zahra et al. | Development of bot detection applications on twitter social media using machine learning with a random forest classifier algorithm | |
Zhou et al. | Convolutional Neural Network and Data Augmentation Method for Electricity Theft Detection | |
Gaykar et al. | A Hybrid Supervised Learning Approach for Detection and Mitigation of Job Failure with Virtual Machines in Distributed Environments. | |
Shimada et al. | Goal Model Construction Based on User Review Classification. | |
CN114064434A (zh) | 一种日志异常的预警方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190219 Termination date: 20201114 |