CN110929493B - 数据管理方法、冗余数据检测方法、存储介质及数据系统 - Google Patents

数据管理方法、冗余数据检测方法、存储介质及数据系统 Download PDF

Info

Publication number
CN110929493B
CN110929493B CN202010094498.8A CN202010094498A CN110929493B CN 110929493 B CN110929493 B CN 110929493B CN 202010094498 A CN202010094498 A CN 202010094498A CN 110929493 B CN110929493 B CN 110929493B
Authority
CN
China
Prior art keywords
data
forms
redundant
source address
redundant data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010094498.8A
Other languages
English (en)
Other versions
CN110929493A (zh
Inventor
高伟
李劲松
黎展宏
许仙邦
庞日海
丘志新
吴冬铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xin'an Data Co ltd
Original Assignee
Guangzhou Xin'an Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xin'an Data Co ltd filed Critical Guangzhou Xin'an Data Co ltd
Priority to CN202010094498.8A priority Critical patent/CN110929493B/zh
Publication of CN110929493A publication Critical patent/CN110929493A/zh
Application granted granted Critical
Publication of CN110929493B publication Critical patent/CN110929493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供数据管理方法,在表单建立时,数据在数据库的存储位置作为其来源地址记录在表单中,在判断两个表单是否形成冗余数据时,根据各个数据的来源地址倒推出表单建立时的数据获取过程,对比这两个表单建立时的数据获取过程,若不同则判断这两个表单没有形成冗余数据,而两个表单建立时的数据获取过程不同意味着这两个表单是不同的,所以不会把不同表单误判断为形成了冗余数据,因此能准确地检测出两个表单是否形成冗余数据。

Description

数据管理方法、冗余数据检测方法、存储介质及数据系统
技术领域
本发明涉及数据处理技术领域,特别涉及数据管理方法、冗余数据检测方法、计算机可读存储介质及数据管理系统。
背景技术
随着移动互联网、物联网等技术的飞速发展,全球数据量呈现出飞速增长的现象,数据量的飞速增长预示着现在已经进入了大数据时代。目前许多企业、机关单位等利用数据管理系统进行大数据建设,大数据建设使得企业、机关单位等在客户行为分析方面具有很好的数据基础,数据管理系统能根据数据基础建立表单供企业、机关单位等深入分析客户行为特征和规律,从而发现客户的潜在消费需求,故大数据建设是提升企业、机关单位等价值和经营水平的有效手段,这对企业、机关单位等的发展起到非常重要的作用。
但是,若企业、机关单位等内部的不同部门就数据库中相同的数据分别建立相同的表单,则各个表单中的数据结构,例如数据的名称、类型和字段长度基本相同,从而导致数据库的相同表单形成冗余数据。尽管用于大数据建设的计算机越来越多,性能越来越好,但是面对海量的数据仍然力不从心,因此大数据建设的第一步,是检测并消除数据库的冗余数据。因此,数据管理系统还通过对比两个表单的数据结构来检测是否形成冗余数据,若这两个表单数据结构相似度超过一定值,则判断这两个表单相同,即这两个表单形成了冗余数据,但是,由于数据库存在海量的数据,两个不同表单的数据结构也可能会相同,因此单纯对比两个表单的数据结构可能会把不同的两个表单误判断为形成了冗余数据。
发明内容
本发明提供一种数据管理方法,其不会把不同的表单误判断为形成了冗余数据。
本发明提供的数据管理方法包括:
表单建立步骤.从数据库获取多个数据形成表单,对所获取的每个数据,以该数据在数据库的存储位置作为其来源地址,记录在表单中;
冗余数据检测步骤.判断两个表单是否形成冗余数据,具体地,对每个表单,从表单中提取出各个数据的来源地址,根据各个数据的来源地址倒推出表单建立时的数据获取过程;对比这两个表单建立时的数据获取过程,若不同则判断这两个表单没有形成冗余数据。
优选地,在所述冗余数据监测步骤中,还对比这两个表单的数据结构,若这两个表单数据结构相似度大于预设值,且这两个表单建立时的数据获取过程相同,则判断这两个表单形成冗余数据。
优选地,在所述冗余数据监测步骤中,先对比这两个表单的数据结构,若这两个表单数据结构相似度大于预设值,则再对比这两个表单建立时的数据获取过程。
优选地,在所述冗余数据监测步骤中,对比两个表单的数据结构具体是对比数据的名称、类型和字段长度。
优选地,所述预设值为90%。
本发明还提供一种表单建立方法,其建立的多个表单不会被误判断为形成了冗余数据。
本发明提供的表单建立方法,从数据库获取多个数据形成表单,对所获取的每个数据,以该数据在数据库的存储位置作为其来源地址,记录在表单中。
本发明还提供一种冗余数据检测方法,其能准确地检测出两个表单是否形成冗余数据。
本发明提供的冗余数据检测方法,判断两个表单是否形成冗余数据,对每个表单,从表单中提取出各个数据的来源地址,根据各个数据的来源地址倒推出表单建立时的数据获取过程;对比这两个表单建立时的数据获取过程,若不同则判断这两个表单没有形成冗余数据。
优选地,还对比这两个表单的数据结构,若这两个表单数据结构相似度大于预设值,且这两个表单建立时的数据获取过程相同,则判断这两个表单形成冗余数据。
优选地,先对比这两个表单的数据结构,若这两个表单数据结构相似度大于预设值,则再对比这两个表单建立时的数据获取过程。
优选地,对比两个表单的数据结构具体是对比数据的名称、类型和字段长度。
优选地,所述预设值为90%。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,能实现上述的数据管理方法、表单建立方法和/或冗余数据检测方法中的步骤。
本发明还提供一种数据管理系统,包括相互连接的处理器和计算机可读存储介质,计算机可读存储介质如上述。
本发明具有以下有益效果:因为在表单建立时,数据在数据库的存储位置作为其来源地址记录在表单中,在判断两个表单是否形成冗余数据时,根据各个数据的来源地址倒推出表单建立时的数据获取过程,对比这两个表单建立时的数据获取过程,若不同则判断这两个表单没有形成冗余数据,而两个表单建立时的数据获取过程不同意味着这两个表单是不同的,所以不会把不同表单误判断为形成了冗余数据,因此能准确地检测出两个表单是否形成冗余数据。
具体实施方式:
下面将更详细地描述本申请的示例性实施例。虽然描述了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反地,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整地传达给本领域的技术人员。
本实施例中,数据管理系统能建立反映客户行为特征和规律的表单,还能检测表单之间是否形成冗余数据。
数据管理系统在建立表单时,先从数据库获取客户的行为数据,以获取两个行为数据为例,把这两个行为数据记为数据Da和数据Db,每个数据与其在数据库的存储位置之间建立有一个确定的对应关系,即获取到的每个数据对应一个唯一的来源地址,其中数据Da对应的来源地址记为La,数据Db对应的来源地址记为Lb;在获取到客户的行为数据后,根据数据Da生成基础信息表A,基础信息表A中包含有数据Da及其来源地址La,根据数据Db生成基础信息表B,基础信息表B中包含有数据Db及其来源地址Lb;然后合并基础信息表A和基础信息表B以建立表单1,表单1中数据Da、Db的来源地址La、Lb反映了表单1建立时的数据获取过程,该表单1能反映客户行为特征和规律以供企业、机关单位等深入分析,从而发现客户的潜在消费需求。
同样地,数据管理系统在建立表单2时,从数据库另外获取两个行为数据,这两个行为数据分别记为数据Dc和数据Dd,则数据Dc对应的来源地址记为Lc,数据Dd对应的来源地址记为Ld;根据数据Dc生成基础信息表C,基础信息表C中包含有数据Dc及其来源地址Lc,根据数据Dd生成基础信息表D,基础信息表D中包含有数据Dd及其来源地址Ld;然后合并基础信息表C和基础信息表D以建立表单2,表单2中数据Dc、Dd的来源地址Lc、Ld反映了表单2建立时的数据获取过程。
本实施例中,数据Da、Db、Dc和Dd分别是四个不同的行为数据,故数据Da、Db、Dc和Dd的来源地址La、Lb、Lc和Ld各不相同,但数据Da与数据Dc数据结构相似度大于90%,数据Db与数据Dd数据结构相似度大于90%。
在表单1和表单2建立完成后,数据管理系统检测表单1和表单2是否形成冗余数据,具体先对比表单1中的数据Da、Db与表单2中的数据Dc、Dd的名称、类型和字段长度,即对比表单1与表单2的数据结构。因为数据Da与数据Dc数据结构相似度大于90%,数据Db与数据Dd数据结构相似度大于90%,所以表单1与表单2数据结构相似度大于预设值90%,因此可认为表单1与表单2数据结构相同。在表单1与表单2数据结构相同的情况下,从表单1中提取出数据Da、Db的来源地址La、Lb,从表单2中提取出数据Dc、Dd的来源地址Lc、Ld,再根据各个数据Da、Db、Dc、Dd的来源地址La、Lb、Lc、Ld倒推出表单建立时的数据获取过程,然后对比表单1和表单2建立时的数据获取过程,因为表单1中数据Da对应一个唯一的来源地址La,数据Db对应一个唯一的来源地址Lb,表单2中数据Dc对应一个唯一的来源地址Lc,数据Dd对应一个唯一的来源地址Ld,且数据Da、Db、Dc和Dd的来源地址La、Lb、Lc和Ld各不相同,所以表单1与表单2建立时的数据获取过程是不同的,因此判断表单1与表单2不同,即表单1与表单2没有形成冗余数据。
在其他实施例中,数据管理系统在建立表单2时,若从数据库另外获取两个行为数据仍为数据Da和数据Db,则数据管理系统在检测表单1和表单2是否形成冗余数据时,表单1与表单2的数据结构对比结果是相同的,表单1与表单2建立时的数据获取过程对比结果也是相同的,因此判断表单1与表单2相同,即表单1与表单2形成了冗余数据。
在上述数据管理系统检测表单1和表单2是否形成冗余数据时,在表单1与表单2数据结构相同的情况下,还对比表单1与表单2建立时的数据获取过程,而表单1与表单2建立时的数据获取过程不同意味着表单1与表单2不同,所以不会把不同表单误判断为形成了冗余数据,因此能准确地检测出表单1与表单2是否形成冗余数据。
在检测出冗余数据后,所有冗余数据占数据库的总体数据的百分比分值记为数据冗余度,例如,若存在70个冗余数据,而数据库的总体数据为1000个,则数据库的数据冗余度为7%。数据冗余度能反映数据库的数据质量,具体地,数据冗余度越高,数据库的数据质量越低,即数据冗余度与数据质量之间呈反比关系。企业、机关单位等可根据实际情况对冗余数据进行调整,把冗余数据设置为合理冗余或不合理冗余,合理冗余将不计入数据冗余度计算。
在检测出冗余数据后,数据管理系统可以仅保存冗余数据的其中一份存档在数据库中,其余的冗余数据改以指针代替,指针指向上述存档,这样就能减少冗余数据在数据库中的存储空间占用量。
应当说明的是,以上实施例仅用以说明本申请的技术方案,而非对本申请保护范围的限制,尽管参照较佳实施例对本申请作了详细地说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或者等同替换,而不脱离本申请技术方案的实质和范围。

Claims (10)

1.数据管理方法,其特征在于,包括:
表单建立步骤:从数据库获取多个数据形成表单,对所获取的每个数据,以该数据在数据库的存储位置作为其来源地址,记录在表单中;
冗余数据检测步骤:判断两个表单是否形成冗余数据,具体地,先对比这两个表单数据结构是否大于预设值,在其大于预设值的情况下,对每个表单,从表单中提取出各个数据的来源地址,根据各个数据的来源地址倒推出表单建立时的数据获取过程;对比这两个表单建立时的数据获取过程,若不同则判断这两个表单没有形成冗余数据。
2.根据权利要求1所述的数据管理方法,其特征在于,在所述冗余数据检测步骤中,若这两个表单数据结构相似度大于预设值,且这两个表单建立时的数据获取过程相同,则判断这两个表单形成冗余数据。
3.根据权利要求1所述的数据管理方法,其特征在于,在所述冗余数据检测步骤中,对比两个表单的数据结构具体是对比数据的名称、类型和字段长度。
4.根据权利要求1所述的数据管理方法,其特征在于,所述预设值为90%。
5.冗余数据检测方法,判断两个表单是否形成冗余数据,其特征在于,先对比这两个表单数据结构是否大于预设值,在其大于预设值的情况下,对每个表单,从表单中提取出各个数据的来源地址,根据各个数据的来源地址倒推出表单建立时的数据获取过程;对比这两个表单建立时的数据获取过程,若不同则判断这两个表单没有形成冗余数据。
6.根据权利要求5所述的冗余数据检测方法,其特征在于,若这两个表单数据结构相似度大于预设值,且这两个表单建立时的数据获取过程相同,则判断这两个表单形成冗余数据。
7.根据权利要求5所述的冗余数据检测方法,其特征在于,对比两个表单的数据结构具体是对比数据的名称、类型和字段长度。
8.根据权利要求5所述的冗余数据检测方法,其特征在于,所述预设值为90%。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,能实现权利要求1至4任一项所述的数据管理方法中的步骤和/或权利要求5至8任一项所述的冗余数据检测方法中的步骤。
10.数据管理系统,包括相互连接的处理器和计算机可读存储介质,其特征在于,计算机可读存储介质如权利要求9所述。
CN202010094498.8A 2020-02-16 2020-02-16 数据管理方法、冗余数据检测方法、存储介质及数据系统 Active CN110929493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010094498.8A CN110929493B (zh) 2020-02-16 2020-02-16 数据管理方法、冗余数据检测方法、存储介质及数据系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010094498.8A CN110929493B (zh) 2020-02-16 2020-02-16 数据管理方法、冗余数据检测方法、存储介质及数据系统

Publications (2)

Publication Number Publication Date
CN110929493A CN110929493A (zh) 2020-03-27
CN110929493B true CN110929493B (zh) 2020-08-04

Family

ID=69854813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010094498.8A Active CN110929493B (zh) 2020-02-16 2020-02-16 数据管理方法、冗余数据检测方法、存储介质及数据系统

Country Status (1)

Country Link
CN (1) CN110929493B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328497A (zh) * 2022-03-11 2022-04-12 深圳中科智能技术有限公司 一种冗余数据处理方法、系统、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245130A (zh) * 2019-04-23 2019-09-17 平安科技(深圳)有限公司 数据去重方法、装置、计算机设备及存储介质
CN110704407A (zh) * 2019-09-04 2020-01-17 苏宁云计算有限公司 一种数据去重的方法和系统
CN110704404A (zh) * 2019-08-29 2020-01-17 苏宁云计算有限公司 一种数据质量校验方法、装置、系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944093A (zh) * 2009-07-03 2011-01-12 中国电信股份有限公司 一种网络信息的搜索方法和系统
CN109325035A (zh) * 2018-11-29 2019-02-12 阿里巴巴集团控股有限公司 相似表的识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245130A (zh) * 2019-04-23 2019-09-17 平安科技(深圳)有限公司 数据去重方法、装置、计算机设备及存储介质
CN110704404A (zh) * 2019-08-29 2020-01-17 苏宁云计算有限公司 一种数据质量校验方法、装置、系统
CN110704407A (zh) * 2019-09-04 2020-01-17 苏宁云计算有限公司 一种数据去重的方法和系统

Also Published As

Publication number Publication date
CN110929493A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
JP4318643B2 (ja) 運用管理方法、運用管理装置および運用管理プログラム
WO2020168839A1 (zh) 物品召回方法、系统、电子设备及可读存储介质
US20060277440A1 (en) Method, system, and computer program product for light weight memory leak detection
US8560506B2 (en) Automatic selection of blocking column for de-duplication
CN111782640B (zh) 一种云平台的数据处理方法、系统、电子设备及存储介质
US11366821B2 (en) Epsilon-closure for frequent pattern analysis
CN110929493B (zh) 数据管理方法、冗余数据检测方法、存储介质及数据系统
CN109977177A (zh) 生成用户画像的方法及装置
CN111625468B (zh) 一种测试案例去重方法及装置
CN111538647A (zh) 设备健康状态检测方法、装置和客户端
CN111881281B (zh) 一种日志处理方法、装置、设备、介质
CN115129733A (zh) 一种银行数据变更历史的记录和查询方法、装置及设备
CN114461762A (zh) 档案变更识别方法、装置、设备及存储介质
CN113077835A (zh) 硬盘的故障检测方法、装置、设备及可读存储介质
CN112269879A (zh) 基于k-means算法的中台日志分析方法及设备
Zhang et al. Research on data cleaning method based on SNM algorithm
CN114117077B (zh) 运维知识图谱构建及运维的方法、装置及计算机设备、存储介质
JP6580535B2 (ja) 開発支援システム及び方法
CN116414713A (zh) 作业处理方法、装置、计算机设备和存储介质
CN116860578B (zh) 一种网络与信息安全日志管理系统及方法
CN113688929B (zh) 预测模型确定方法、装置、电子设备及计算机存储介质
CN112860490B (zh) 一种基于Docker容器故障恢复的属性权重快照选择方法
WO2023145222A1 (ja) 監視方法、sn比利得の算出方法、監視装置及びプログラム
CN115794574A (zh) 多种平台参数比对的方法、系统、终端设备及存储介质
TW202232374A (zh) 圖像瑕疵檢測方法、裝置、電子設備及存儲介質

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant