CN104252515B - 一种数据生成方法和装置 - Google Patents
一种数据生成方法和装置 Download PDFInfo
- Publication number
- CN104252515B CN104252515B CN201310641713.1A CN201310641713A CN104252515B CN 104252515 B CN104252515 B CN 104252515B CN 201310641713 A CN201310641713 A CN 201310641713A CN 104252515 B CN104252515 B CN 104252515B
- Authority
- CN
- China
- Prior art keywords
- data
- rule
- data sequence
- sequence
- race
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Abstract
本申请提供了一种数据生成方法,包括:获取数据库中同一属性数据序列;根据所述数据序列按照预置规则生成数据规则;根据所述数据规则生成所述数据序列中空缺数据。本发明实施例还提供了对应的装置。本发明实施例通过计算当前数据序列的数据规则,根据数据规则补齐当前数据序列,实现了自动补齐空缺数据的功能。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据生成方法和装置。
背景技术
数据的自动生成在数据查漏、数据修复和软件测试等领域有着广泛的应用。但常见的数据生成方式过于依赖对用户定义规则的依赖。另一方面,常见的实际数据其表示往往是同义而不同形式的。比如,“1层1号” 和“1楼2号” 实际上是同一个类型的表达,但分别用了带“层”和“楼”的形式来表达。这就让自动化数据生成前,对现有数据的规律难于捕捉。
发明内容
本申请所要解决的技术问题是提供一种可以自动补齐空缺数据的数据生成方法和装置。
为了解决上述问题,本申请公开了一种数据生成方法,包括:
获取数据库中同一属性数据序列;
根据所述数据序列按照预置规则生成数据规则;
根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述根据数据规则生成所述数据序列中空缺数据后还包括:
为所述空缺数据增加预定标识。
进一步,所述根据数据序列按照预置规则生成数据规则包括:
将数据序列中的数据拆分成至少一个族;
对每一个族,分别计算其上下边界Vi(值域);
再将各族的值域做交集,形成一个新的数据集合U;
利用该数据集合U的顺序作为数据规则。
进一步,所述根据数据规则生成所述数据序列中空缺数据包括:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
本申请还提供了一种数据生成装置,包括:
数据获取模块,用于获取数据库中同一属性数据序列;
规则生成模块,用于根据所述数据序列按照预置规则生成数据规则;
数据生成模块,用于根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述装置还包括:
标识模块,用于为所述空缺数据增加预定标识。
进一步,所述规则生成模块还包括:
拆分模块,用于将数据序列中的数据拆分成至少一个族;
值域计算模块,用于对每一个族,分别计算其上下边界Vi(值域);
集合计算模块,用于再将各族的值域做交集,形成一个新的数据集合U;
规则生成子模块,用于利用该数据集合U的顺序作为数据规则。
进一步,所述数据生成模块还用于:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
与现有技术相比,本申请包括以下优点:通过计算当前数据序列的数据规则,根据数据规则补齐当前数据序列,实现了自动补齐空缺数据的功能。
附图说明
图1是本发明一种数据生成方法一实施例的流程图;
图2是本发明一种数据生成装置一实施例的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种数据生成方法,包括:
步骤S101、获取数据库中同一属性数据序列;
在数据库中可能保存有同一属性的数据序列,比如房屋编号采用A栋12号形式的数据排列。在数据库中所有属性为房屋编号(可以是某个特定小区的房屋编号)的数据序列提取出来。
步骤S102、根据所述数据序列按照预置规则生成数据规则;
进一步,所述根据数据序列按照预置规则生成数据规则包括:
将数据序列中的数据拆分成至少一个族;
对每一个族,分别计算其上下边界Vi(值域);
再将各族的值域做交集,形成一个新的数据集合U;
利用该数据集合U的顺序作为数据规则。
在步骤S102中,假设已有的数据都具有相同的族Si, i= 0,1,2…n分布。则”最小覆盖”算法可描述为如下:对于每一个族,分别计算其上下边界Vi(值域)。再将各族的值域做交集,形成一个新的数据集合U。U中非已有数据的部分便是新产生的数据。
举例来说,假设已有如下三个数据样本{1A3, 2A1, 3B3},族的划分根据数字和字母而区别,各族的数值变化遵循自有规律:即数字按自然数增加,字母则按A-Z进行增加。则上述样本的族分布为{自然数+字母+自然数},三个族的上下限分别为[1,3]、[A,B]和[1,3]。各值域的交集将得到如下数据集U:
{1A1,1A2,1A3,1B1,1B2,1B3,2A1,2A2,2A3,2B1,2B2,2B3,3A1,3A2,3A3,3B1,3B2,3B3}
最小覆盖算法取各族现有数据的值域为数据产生的上下边界,故所生成的数据集合为在现有数据基础上较小的一个扩展。但此处仅为展示生成数据一个可行方法,并不是唯一的方法。
步骤S103、根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述根据数据规则生成所述数据序列中空缺数据后还包括:
为所述空缺数据增加预定标识。
进一步,所述根据数据规则生成所述数据序列中空缺数据包括:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
如果步骤S101中获取到某小区的房屋编号数据序列为(A栋01号、A栋03号、A栋04号、B栋01号、B栋02号……D栋15号);通过步骤S102可以计算出的数据集合U(A栋01号、A栋02号……A栋15号、B栋01号……B栋15号、C栋01号……C栋15号),原数据序列与该数据集合U之间的补集N即是空缺数据。
本发明实施例通过计算当前数据序列的数据规则,根据数据规则补齐当前数据序列,实现了自动补齐空缺数据的功能。
参照图2为本发明一种数据生成装置一实施例的结构示意图。
本申请提供的数据生成装置,包括:
数据获取模块21,用于获取数据库中同一属性数据序列;
规则生成模块22,用于根据所述数据序列按照预置规则生成数据规则;
数据生成模块23,用于根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述装置还包括:
标识模块24,用于为所述空缺数据增加预定标识。
进一步,所述规则生成模块22还包括:
拆分模块221,用于将数据序列中的数据拆分成至少一个族;
值域计算模块222,用于对每一个族,分别计算其上下边界Vi(值域);
集合计算模块223,用于再将各族的值域做交集,形成一个新的数据集合U;
规则生成子模块224,用于利用该数据集合U的顺序作为数据规则。
进一步,所述数据生成模块23还用于:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
假设已有如下三个数据样本{1A3, 2A1, 3B3},族的划分根据数字和字母而区别,各族的数值变化遵循自有规律:即数字按自然数增加,字母则按A-Z进行增加。则通过规则生成模块22计算可知道上述样本的族分布为{自然数+字母+自然数},三个族的上下限分别为[1,3]、[A,B]和[1,3]。各值域的交集将得到如下数据集U:
{1A1,1A2,1A3,1B1,1B2,1B3,2A1,2A2,2A3,2B1,2B2,2B3,3A1,3A2,3A3,3B1,3B2,3B3}
规则生成模块22采用最小覆盖算法取各族现有数据的值域为数据产生的上下边界,故所生成的数据集合为在现有数据基础上较小的一个扩展。但此处仅为展示生成数据一个可行方法,并不是唯一的方法。
如果数据获取模块21获取到某小区的房屋编号数据序列为(A栋01号、A栋03号、A栋04号、B栋01号、B栋02号……D栋15号);规则生成模块22可以计算出的数据集合U(A栋01号、A栋02号……A栋15号、B栋01号……B栋15号、C栋01号……C栋15号),数据生成模块23则取原数据序列与该数据集合U之间的补集N即是空缺数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种数据生成方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (4)
1.一种数据生成方法,其特征在于,包括:
获取数据库中同一属性数据序列;
根据所述数据序列按照预置规则生成数据规则;
根据所述数据规则生成所述数据序列中空缺数据;
其中,所述根据数据序列按照预置规则生成数据规则包括:
将数据序列中的数据拆分成至少一个族;
对每一个族,分别计算其值域;
再将各族的值域做交集,形成一个新的数据集合U;
利用该数据集合U的顺序作为数据规则;
其中,所述根据数据规则生成所述数据序列中空缺数据包括:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
2.根据权利要求1所述的方法,其特征在于,所述根据数据规则生成所述数据序列中空缺数据后还包括:
为所述空缺数据增加预定标识。
3.一种数据生成装置,其特征在于,包括:
数据获取模块,用于获取数据库中同一属性数据序列;
规则生成模块,用于根据所述数据序列按照预置规则生成数据规则;
数据生成模块,用于根据所述数据规则生成所述数据序列中空缺数据;
其中,所述规则生成模块还包括:
拆分模块,用于将数据序列中的数据拆分成至少一个族;
值域计算模块,用于对每一个族,分别计算其值域;
集合计算模块,用于再将各族的值域做交集,形成一个新的数据集合U;
规则生成子模块,用于利用该数据集合U的顺序作为数据规则;
其中,所述数据生成模块还用于:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
4.根据权利要求3所述的装置,其特征在于,所述装置还包括:
标识模块,用于为所述空缺数据增加预定标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310641713.1A CN104252515B (zh) | 2013-12-04 | 2013-12-04 | 一种数据生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310641713.1A CN104252515B (zh) | 2013-12-04 | 2013-12-04 | 一种数据生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104252515A CN104252515A (zh) | 2014-12-31 |
CN104252515B true CN104252515B (zh) | 2017-06-16 |
Family
ID=52187408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310641713.1A Active CN104252515B (zh) | 2013-12-04 | 2013-12-04 | 一种数据生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104252515B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095825A (zh) * | 2016-05-31 | 2016-11-09 | 深圳市永兴元科技有限公司 | 数据生成方法和装置 |
CN106407357B (zh) * | 2016-09-07 | 2019-04-19 | 深圳市中易科技有限责任公司 | 一种文本数据规则模型开发的工程方法 |
CN109688021B (zh) * | 2017-10-18 | 2022-02-01 | 富士通株式会社 | 扩展数据的方法和设备以及测试物联网应用的方法 |
CN109684187B (zh) * | 2017-10-18 | 2022-02-18 | 富士通株式会社 | 生成测试传感器数据的方法和设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103080924A (zh) * | 2010-09-14 | 2013-05-01 | 国际商业机器公司 | 用于处理数据集的方法和布置、数据处理程序和计算机程序产品 |
CN103177088A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5810719B2 (ja) * | 2011-07-29 | 2015-11-11 | 富士通株式会社 | データ配置変更プログラム、データ配置変更方法およびデータ配置変更装置 |
-
2013
- 2013-12-04 CN CN201310641713.1A patent/CN104252515B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103080924A (zh) * | 2010-09-14 | 2013-05-01 | 国际商业机器公司 | 用于处理数据集的方法和布置、数据处理程序和计算机程序产品 |
CN103177088A (zh) * | 2013-03-08 | 2013-06-26 | 北京理工大学 | 一种生物医学空缺数据弥补方法 |
Non-Patent Citations (3)
Title |
---|
"Dynamic Constraints for Record Matching";Wenfei Fan et al.;《The VLDB Journal》;20111231;第20卷(第4期);第1-24页 * |
"Reasoning about Record Matching Rules";Wenfei Fan et al.;《Proceeding of the Vldb Endowment》;20090828;第407-418页 * |
"一种基于粗糙集的不完备信息处理方法研究";张在美;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070815(第02期);第7页第1段-第10页第2段 * |
Also Published As
Publication number | Publication date |
---|---|
CN104252515A (zh) | 2014-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104252515B (zh) | 一种数据生成方法和装置 | |
CN104462179B (zh) | 处理大数据的方法、执行其的装置以及储存其的存储媒介 | |
CN111026063A (zh) | 数字孪生体构建方法、装置、计算机设备及存储介质 | |
CN103699442A (zh) | MapReduce计算框架下的可迭代式数据处理方法 | |
CN111259107A (zh) | 行列式文本的存储方法、装置以及电子设备 | |
CN106407233B (zh) | 一种数据处理方法和设备 | |
CN110909168A (zh) | 知识图谱的更新方法和装置、存储介质及电子装置 | |
CN102902739B (zh) | 云计算环境下面向不确定数据源的工作流视图构造方法 | |
CN104462322A (zh) | 字符串比对方法和装置 | |
CN106095825A (zh) | 数据生成方法和装置 | |
CN109522323B (zh) | 一种从海量数据中快速检索变化数据段的方法及系统 | |
CN104462139A (zh) | 用户行为的聚类方法和系统 | |
EP4323906A1 (en) | Method for analyzing data consisting of a large number of individual messages, computer program product and computer system | |
CN104050079A (zh) | 一种基于时间自动机的实时系统测试方法 | |
CN110489430B (zh) | 一种基于数据块签名和校验的溯源方法及其系统 | |
CN102982422B (zh) | 工艺文档数据的处理方法及装置 | |
CN103544317B (zh) | 维度表数据的处理方法和装置 | |
Coleman | Data flow sequences: A revision of data flow diagrams for modelling applications using XML. | |
Marucci et al. | An efficient parallel algorithm for multiple sequence similarities calculation using a low complexity method | |
CN111078671A (zh) | 数据表字段的修改方法、装置、设备和介质 | |
JP6612505B2 (ja) | 分かち書き処理システム、プログラム、及び、分かち書き処理方法 | |
JP6091455B2 (ja) | 機器グループ関係分析装置および機器グループ関係分析プログラム | |
KR101226161B1 (ko) | 분배규칙 생성을 위한 방법 및 그를 위한 질의 분석 장치 | |
JP5953262B2 (ja) | データ索引装置、データ索引方法及びプログラム | |
WO2022188103A1 (zh) | 数据采集方法、装置、计算设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. |