CN104252515A - 一种数据生成方法和装置 - Google Patents

一种数据生成方法和装置 Download PDF

Info

Publication number
CN104252515A
CN104252515A CN201310641713.1A CN201310641713A CN104252515A CN 104252515 A CN104252515 A CN 104252515A CN 201310641713 A CN201310641713 A CN 201310641713A CN 104252515 A CN104252515 A CN 104252515A
Authority
CN
China
Prior art keywords
data
rule
data sequence
race
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310641713.1A
Other languages
English (en)
Other versions
CN104252515B (zh
Inventor
蔡立宇
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201310641713.1A priority Critical patent/CN104252515B/zh
Publication of CN104252515A publication Critical patent/CN104252515A/zh
Application granted granted Critical
Publication of CN104252515B publication Critical patent/CN104252515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本申请提供了一种数据生成方法,包括:获取数据库中同一属性数据序列;根据所述数据序列按照预置规则生成数据规则;根据所述数据规则生成所述数据序列中空缺数据。本发明实施例还提供了对应的装置。本发明实施例通过计算当前数据序列的数据规则,根据数据规则补齐当前数据序列,实现了自动补齐空缺数据的功能。

Description

一种数据生成方法和装置
技术领域
 本申请涉及数据处理技术领域,特别是涉及一种数据生成方法和装置。
背景技术
数据的自动生成在数据查漏、数据修复和软件测试等领域有着广泛的应用。但常见的数据生成方式过于依赖对用户定义规则的依赖。另一方面,常见的实际数据其表示往往是同义而不同形式的。比如,“1层1号” 和“1楼2号” 实际上是同一个类型的表达,但分别用了带“层”和“楼”的形式来表达。这就让自动化数据生成前,对现有数据的规律难于捕捉。
发明内容
本申请所要解决的技术问题是提供一种可以自动补齐空缺数据的数据生成方法和装置。
为了解决上述问题,本申请公开了一种数据生成方法,包括:
获取数据库中同一属性数据序列;
根据所述数据序列按照预置规则生成数据规则;
根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述根据数据规则生成所述数据序列中空缺数据后还包括:
为所述空缺数据增加预定标识。
进一步,所述根据数据序列按照预置规则生成数据规则包括:
将数据序列中的数据拆分成至少一个族;
对每一个族,分别计算其上下边界Vi(值域);
再将各族的值域做交集,形成一个新的数据集合U;
利用该数据集合U的顺序作为数据规则。
进一步,所述根据数据规则生成所述数据序列中空缺数据包括:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
本申请还提供了一种数据生成装置,包括:
数据获取模块,用于获取数据库中同一属性数据序列;
规则生成模块,用于根据所述数据序列按照预置规则生成数据规则;
数据生成模块,用于根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述装置还包括:
标识模块,用于为所述空缺数据增加预定标识。
进一步,所述规则生成模块还包括:
拆分模块,用于将数据序列中的数据拆分成至少一个族;
值域计算模块,用于对每一个族,分别计算其上下边界Vi(值域);
集合计算模块,用于再将各族的值域做交集,形成一个新的数据集合U;
规则生成子模块,用于利用该数据集合U的顺序作为数据规则。
进一步,所述数据生成模块还用于:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
与现有技术相比,本申请包括以下优点:通过计算当前数据序列的数据规则,根据数据规则补齐当前数据序列,实现了自动补齐空缺数据的功能。
附图说明                        
图1是本发明一种数据生成方法一实施例的流程图;
图2是本发明一种数据生成装置一实施例的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1,示出了本申请一种数据生成方法,包括:
步骤S101、获取数据库中同一属性数据序列;
在数据库中可能保存有同一属性的数据序列,比如房屋编号采用A栋12号形式的数据排列。在数据库中所有属性为房屋编号(可以是某个特定小区的房屋编号)的数据序列提取出来。
步骤S102、根据所述数据序列按照预置规则生成数据规则;
进一步,所述根据数据序列按照预置规则生成数据规则包括:
将数据序列中的数据拆分成至少一个族;
对每一个族,分别计算其上下边界Vi(值域);
再将各族的值域做交集,形成一个新的数据集合U;
利用该数据集合U的顺序作为数据规则。
在步骤S102中,假设已有的数据都具有相同的族Si, i= 0,1,2…n分布。则”最小覆盖”算法可描述为如下:对于每一个族,分别计算其上下边界Vi(值域)。再将各族的值域做交集,形成一个新的数据集合U。U中非已有数据的部分便是新产生的数据。
举例来说,假设已有如下三个数据样本{1A3, 2A1, 3B3},族的划分根据数字和字母而区别,各族的数值变化遵循自有规律:即数字按自然数增加,字母则按A-Z进行增加。则上述样本的族分布为{自然数+字母+自然数},三个族的上下限分别为[1,3]、[A,B]和[1,3]。各值域的交集将得到如下数据集U:
{1A1,1A2,1A3,1B1,1B2,1B3,2A1,2A2,2A3,2B1,2B2,2B3,3A1,3A2,3A3,3B1,3B2,3B3}
最小覆盖算法取各族现有数据的值域为数据产生的上下边界,故所生成的数据集合为在现有数据基础上较小的一个扩展。但此处仅为展示生成数据一个可行方法,并不是唯一的方法。
步骤S103、根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述根据数据规则生成所述数据序列中空缺数据后还包括:
为所述空缺数据增加预定标识。
进一步,所述根据数据规则生成所述数据序列中空缺数据包括:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
如果步骤S101中获取到某小区的房屋编号数据序列为(A栋01号、A栋03号、A栋04号、B栋01号、B栋02号……D栋15号);通过步骤S102可以计算出的数据集合U(A栋01号、A栋02号……A栋15号、B栋01号……B栋15号、C栋01号……C栋15号),原数据序列与该数据集合U之间的补集N即是空缺数据。
本发明实施例通过计算当前数据序列的数据规则,根据数据规则补齐当前数据序列,实现了自动补齐空缺数据的功能。
参照图2为本发明一种数据生成装置一实施例的结构示意图。
本申请提供的数据生成装置,包括:
数据获取模块21,用于获取数据库中同一属性数据序列;
规则生成模块22,用于根据所述数据序列按照预置规则生成数据规则;
数据生成模块23,用于根据所述数据规则生成所述数据序列中空缺数据。
进一步,所述装置还包括:
标识模块24,用于为所述空缺数据增加预定标识。
进一步,所述规则生成模块22还包括:
拆分模块221,用于将数据序列中的数据拆分成至少一个族;
值域计算模块222,用于对每一个族,分别计算其上下边界Vi(值域);
集合计算模块223,用于再将各族的值域做交集,形成一个新的数据集合U;
规则生成子模块224,用于利用该数据集合U的顺序作为数据规则。
进一步,所述数据生成模块23还用于:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
假设已有如下三个数据样本{1A3, 2A1, 3B3},族的划分根据数字和字母而区别,各族的数值变化遵循自有规律:即数字按自然数增加,字母则按A-Z进行增加。则通过规则生成模块22计算可知道上述样本的族分布为{自然数+字母+自然数},三个族的上下限分别为[1,3]、[A,B]和[1,3]。各值域的交集将得到如下数据集U:
{1A1,1A2,1A3,1B1,1B2,1B3,2A1,2A2,2A3,2B1,2B2,2B3,3A1,3A2,3A3,3B1,3B2,3B3}
规则生成模块22采用最小覆盖算法取各族现有数据的值域为数据产生的上下边界,故所生成的数据集合为在现有数据基础上较小的一个扩展。但此处仅为展示生成数据一个可行方法,并不是唯一的方法。
如果数据获取模块21获取到某小区的房屋编号数据序列为(A栋01号、A栋03号、A栋04号、B栋01号、B栋02号……D栋15号);规则生成模块22可以计算出的数据集合U(A栋01号、A栋02号……A栋15号、B栋01号……B栋15号、C栋01号……C栋15号),数据生成模块23则取原数据序列与该数据集合U之间的补集N即是空缺数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种数据生成方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种数据生成方法,其特征在于,包括:
获取数据库中同一属性数据序列;
根据所述数据序列按照预置规则生成数据规则;
根据所述数据规则生成所述数据序列中空缺数据。
2.根据权利要求1所述的方法,其特征在于,所述根据数据规则生成所述数据序列中空缺数据后还包括:
为所述空缺数据增加预定标识。
3.根据权利要求2所述的方法,其特征在于,所述根据数据序列按照预置规则生成数据规则包括:
将数据序列中的数据拆分成至少一个族;
对每一个族,分别计算其上下边界Vi(值域);
再将各族的值域做交集,形成一个新的数据集合U;
利用该数据集合U的顺序作为数据规则。
4.根据权利要求3所述的方法,其特征在于,所述根据数据规则生成所述数据序列中空缺数据包括:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
5.一种数据生成装置,其特征在于,包括:
数据获取模块,用于获取数据库中同一属性数据序列;
规则生成模块,用于根据所述数据序列按照预置规则生成数据规则;
数据生成模块,用于根据所述数据规则生成所述数据序列中空缺数据。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
标识模块,用于为所述空缺数据增加预定标识。
7.根据权利要求6所述的装置,其特征在于,所述规则生成模块还包括:
拆分模块,用于将数据序列中的数据拆分成至少一个族;
值域计算模块,用于对每一个族,分别计算其上下边界Vi(值域);
集合计算模块,用于再将各族的值域做交集,形成一个新的数据集合U;
规则生成子模块,用于利用该数据集合U的顺序作为数据规则。
8.根据权利要求7所述的装置,其特征在于,所述数据生成模块还用于:
根据所述数据规则查找当前数据序列与数据集合U的补集N;
将所述补集N作为空缺数据。
CN201310641713.1A 2013-12-04 2013-12-04 一种数据生成方法和装置 Active CN104252515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310641713.1A CN104252515B (zh) 2013-12-04 2013-12-04 一种数据生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310641713.1A CN104252515B (zh) 2013-12-04 2013-12-04 一种数据生成方法和装置

Publications (2)

Publication Number Publication Date
CN104252515A true CN104252515A (zh) 2014-12-31
CN104252515B CN104252515B (zh) 2017-06-16

Family

ID=52187408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310641713.1A Active CN104252515B (zh) 2013-12-04 2013-12-04 一种数据生成方法和装置

Country Status (1)

Country Link
CN (1) CN104252515B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095825A (zh) * 2016-05-31 2016-11-09 深圳市永兴元科技有限公司 数据生成方法和装置
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法
CN109684187A (zh) * 2017-10-18 2019-04-26 富士通株式会社 生成测试传感器数据的方法和设备
CN109688021A (zh) * 2017-10-18 2019-04-26 富士通株式会社 扩展数据的方法和设备以及测试物联网应用的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130031062A1 (en) * 2011-07-29 2013-01-31 Fujitsu Limited Adjustment apparatus, adjustment method, and recording medium of adjustment program
CN103080924A (zh) * 2010-09-14 2013-05-01 国际商业机器公司 用于处理数据集的方法和布置、数据处理程序和计算机程序产品
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103080924A (zh) * 2010-09-14 2013-05-01 国际商业机器公司 用于处理数据集的方法和布置、数据处理程序和计算机程序产品
US20130031062A1 (en) * 2011-07-29 2013-01-31 Fujitsu Limited Adjustment apparatus, adjustment method, and recording medium of adjustment program
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WENFEI FAN ET AL.: ""Dynamic Constraints for Record Matching"", 《THE VLDB JOURNAL》 *
WENFEI FAN ET AL.: ""Reasoning about Record Matching Rules"", 《PROCEEDING OF THE VLDB ENDOWMENT》 *
张在美: ""一种基于粗糙集的不完备信息处理方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095825A (zh) * 2016-05-31 2016-11-09 深圳市永兴元科技有限公司 数据生成方法和装置
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法
CN106407357B (zh) * 2016-09-07 2019-04-19 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法
CN109684187A (zh) * 2017-10-18 2019-04-26 富士通株式会社 生成测试传感器数据的方法和设备
CN109688021A (zh) * 2017-10-18 2019-04-26 富士通株式会社 扩展数据的方法和设备以及测试物联网应用的方法
CN109688021B (zh) * 2017-10-18 2022-02-01 富士通株式会社 扩展数据的方法和设备以及测试物联网应用的方法

Also Published As

Publication number Publication date
CN104252515B (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN108153784B (zh) 同步数据处理方法和装置
CN105426372B (zh) 一种电子地图数据制作及更新方法和装置
CN104484494A (zh) 基于建筑bim模型的结构电算自动导荷载方法
CN104252515A (zh) 一种数据生成方法和装置
US20200410142A1 (en) 3d model creation support system and 3d model creation support method
CN106407233B (zh) 一种数据处理方法和设备
CN109857804A (zh) 一种分布式模型参数的搜索方法、装置和电子设备
CN103699442A (zh) MapReduce计算框架下的可迭代式数据处理方法
CN111597287B (zh) 地图生成方法、装置及设备
CN105893601B (zh) 一种数据对比方法
CN104392104A (zh) 一种航天器低频电缆导线长度及数量的确定方法
CN103077255A (zh) 核电站3d模型识别方法和系统
CN104182797A (zh) 一种基于图像识别技术的产品料号自动选择方法
CN106095825A (zh) 数据生成方法和装置
CN102680012A (zh) 量测信息自动输出系统及方法
CN112860811B (zh) 数据血缘关系的确定方法、装置、电子设备和存储介质
CN113986866A (zh) 一种大规模点云数据的处理方法、装置、设备及介质
CN106446039B (zh) 聚合式大数据查询方法及装置
CN105574816A (zh) 消除x光图像的滤线栅影的方法、装置及x光机升级套件
CN104468810A (zh) 一种基于龙芯平台的高性能计算资源监控实现方法
CN111126961B (zh) 一种复杂产品全生命周期数字主线服务系统
CN109522323B (zh) 一种从海量数据中快速检索变化数据段的方法及系统
CN102982422B (zh) 工艺文档数据的处理方法及装置
CN106055669A (zh) 一种数据离散化方法及系统
Coleman Data flow sequences: A revision of data flow diagrams for modelling applications using XML.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.