CN109669995A - 数据存储、质量计算方法、装置、存储介质及服务器 - Google Patents

数据存储、质量计算方法、装置、存储介质及服务器 Download PDF

Info

Publication number
CN109669995A
CN109669995A CN201811595418.6A CN201811595418A CN109669995A CN 109669995 A CN109669995 A CN 109669995A CN 201811595418 A CN201811595418 A CN 201811595418A CN 109669995 A CN109669995 A CN 109669995A
Authority
CN
China
Prior art keywords
data
quality
field
calculated
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811595418.6A
Other languages
English (en)
Inventor
张志远
李义彬
石志中
张俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202010948270.0A priority Critical patent/CN112084269B/zh
Priority to CN201811595418.6A priority patent/CN109669995A/zh
Publication of CN109669995A publication Critical patent/CN109669995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据存储、质量计算方法、装置、存储介质及服务器。所述数据存储方法包括:获取待存储数据的关键信息;根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。通过本发明实施例提供的技术方案,基于数据对应的元数据对数据进行存储,能够有效降低存储数据时占用的存储空间,同时有利于后续数据的快速查找,可以进一步提高后续数据质量的计算效率。

Description

数据存储、质量计算方法、装置、存储介质及服务器
技术领域
本发明实施例涉及大数据处理技术领域,尤其涉及数据存储、质量计算方法、装置、存储介质及服务器。
背景技术
随着经济的飞速发展和科技的不断进步,互联网数据持续增长,如何对数据进行高效地存储,并快速了解存储数据的质量,以分析出存储数据的价值高低,对于数据分析领域的应用至关重要。
然而,相关技术中,直接将大量的数据存储在数据库中,当需要对数据进行质量分析时,直接在大量存储数据中查找有效的关联数据,查询效率低,用户体验差。
发明内容
本发明实施例提供一种数据存储、质量计算方法、装置、存储介质及服务器,可以基于数据对应的元数据对数据进行存储,有利用后续数据的快速查找。
第一方面,本发明实施例提供了一种数据存储方法,包括:
获取待存储数据的关键信息;
根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;
基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。
进一步的,所述目标元数据包括待存储数据的各字段组成、各字段类型、各字段长度、各字段对应的权重值及各字段用途,其中,根据各字段用途将待存储数据的各字段分为分组字段和计数字段。
进一步的,获取待存储数据的关键信息,包括:
按照设定周期获取待存储数据;
提取所述待存储数据的关键信息。
第二方面,本发明实施例还提供了一种数据质量计算方法,包括:
按照预设规则对数据库中存储的数据进行分类;
针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值;
根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。
进一步的,针对待计算类别中所涉及的各个数据,确定各个数据字段的质量,包括:
针对待计算类别中所涉及的各个数据,统计非空数据字段的数量,并将所述非空数据字段的数量与待计算类别中所涉及的数据的总数的比值,当所述比值大于或等于预设比值时,确定为所述非空数据字段的质量为1,当所述比值小于所述预设比值时,确定所述非空数据字段的质量为0;
针对待计算类别中所涉及的各个数据,将空数据字段的质量记为0。
进一步的,根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量,包括:
根据如下公式计算所述待计算类别数据的质量:
Z=∑XiYi
其中,Z表示待计算类别数据的质量,Xi表示第i个数据字段的质量,Yi表示第i个数据字段的权重值。
进一步的,在计算所述待计算类别数据的质量之后,还包括:
判断所述待计算类别数据的质量是否小于预设质量阈值;
若是,则对所述待计算类别数据进行预警提示。
进一步的,按照预设规则对数据库中存储的数据进行分类,包括:
按照预设规则对数据库中存储的设定时间范围内每隔预设时间间隔的数据进行分类;
根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量,包括:
根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量;
相应的,在计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量之后,还包括:
根据所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量,计算相邻预设时间间隔对应的待计算类别数据的质量的变化比值;
当所述变化比值大于预设比值阈值时,则对所述相邻预设时间间隔对应的待计算类别数据进行预警提示。
第三方面,本发明实施例还提供了一种数据存储装置,包括:
关键信息获取模块,用于获取待存储数据的关键信息;
目标元数据确定模块,用于根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;
数据存储模块,用于基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。
第四方面,本发明实施例还提供了一种数据质量计算装置,包括:
数据分类模块,用于按照预设规则对数据库中存储的数据进行分类;
字段信息确定模块,用于针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值;
数据质量计算模块,用于根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。
第五方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例第一方面所述的数据存储方法或者如第二方面所述的数据质量计算方法。
第六方面,本发明实施例提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例第一方面所述数据存储方法或者第二方面所述的数据质量计算方法。
本发明实施例提供的数据存储方案,获取待存储数据的关键信息;根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。通过采用上述技术方案,基于数据对应的元数据对数据进行存储,能够有效降低存储数据时占用的存储空间,同时有利于后续数据的快速查找,可以进一步提高后续数据质量的计算效率。
附图说明
图1是本发明实施例一提供的一种数据存储方法的流程示意图;
图2是本发明实施例二提供的一种数据质量计算方法的流程示意图;
图3是本发明实施例三提供的一种数据存储装置的结构示意图;
图4是本发明实施例四提供的一种数据质量计算装置的结构示意图;
图5是本发明实施例六提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例提供的数据存储方法的流程示意图,该方法可适用于服务器对大量数据进行存储的情况,可以由数据存储装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器中。如图1所示,该方法包括:
S101、获取待存储数据的关键信息。
在本发明实施例中,获取待存储数据的关键信息,其中,所述关键信息可以用于表征所述待存储数据的全局唯一性。示例性的,待存储数据的关键信息可以包括对待存储数据中的某几个关键字段按照预设规则进行计算得到的关键信息,还可以是截取待存储数据中某字段的部分信息。可选的,还可以通过获取待存储数据的数据名称、数据类型及数据大小,然后基于哈希运算的方式生成能够唯一表征待存储数据的关键信息。需要说明的是,本发明实施例对待存数据的关键信息的生成方式不做限定。
S102、根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据。
示例性的,获取关键信息与元数据间的关联关系,其中,关键信息与元数据间的关联关系可以为预先设定或预先存储在服务器中的对应关系表,当需要对数据进行存储时,直接调用服务器中预先设定或预先存储的关键信息与元数据间的关联关系。可选的,还可以是服务器直接调用其他服务器或终端设备中存储的关键信息与元数据间的关联关系。其中,元数据中定义了数据的结构,数据的字段组成,字段类型,字段长度,字段顺序,字段权重及字段用途(分组或计数)等信息。
在本发明实施例中,在S101中获取到待存储数据的关键信息后,基于关键信息在获取的关键信息与元数据间的关联关系中,查找待存储数据的关键信息对应的元数据,作为该待存储数据对应的目标元数据。可以理解的是,通过上述方式,可以快速地确定出待存储数据的字段组成,字段类型,字段长度,字段顺序,字段权重及字段用途(分组或计数)等信息。
可选的,所述目标元数据包括待存储数据的各字段组成、各字段类型、各字段长度、各字段对应的权重值及各字段用途,其中,根据各字段用途将待存储数据的各字段分为分组字段和计数字段。
S103、基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。
在本发明实施例中,将与待存储数据对应的元数据存储于预先设定的数据库中,以实现对待存储数据的存储。示例性的,可以按照数据库中元数据存储格式,将目标元数据存储于数据库中。例如,可以根据元数据包括的内容,动态生成存储表结构,如,为元数据中的计数字段名称添加_COUNT,分组字段保留原字段名作为数据表的列名称,将计数字段定义为Int类型,将分组字段定义为varchar类型,长度取元数据定义的长度,数据表名称由T_+元数据名称组成规则,生成SQL建表语句,程序执行自动化建表,从而生成关系数据库MySQL或Oracle。基于上述规则,将与待存储数据对应的目标元数据存储到上述关系数据库中。
其中,在基于目标元数据实现对待存储数据的存储时,可基于元数据中的分组字段和计数字段对相同类型的元数据进行归并处理。当计数字段为空时,可将该计数字段记为0,当计数字段非空时,可将该计数字段记为1。示例性的,待存储数据对应的目标元数据包括分组字段A和计数字段B、C,可用(A,B,C)表示,若该待存储数据中,分组字段A取值为X,计数字段B为空,计数字段C取值为V,则该目标元数据可表示为(X,0,1)。又示例性的,待存储数据包括三条数据,分别为(X,空,V),(Y,空,V)及(X,V,V),基于上述规则这三条数据对应可分别表示为(X,0,1),(Y,0,1)及(X,1,1),将分组字段取值相同的数据进行合并,因此,可将(X,0,1)与(X,1,1)合并,合并结果为(X,1,2),即使分组字段的取值保持不变,各个计数字段的取值对应求和。所以,上述三条数据对应的目标元数据为(X,1,2)与(Y,0,1),然后可直接将上述两个目标元数据存储到预先设定的数据库中。
本发明实施例提供的数据存储方法,获取待存储数据的关键信息;根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。通过采用上述技术方案,基于数据对应的元数据对数据进行存储,能够有效降低存储数据时占用的存储空间,同时有利于后续数据的快速查找,可以进一步提高后续数据质量的计算效率。
在一些实施例中,获取待存储数据的关键信息,包括:按照设定周期获取待存储数据;提取所述待存储数据的关键信息。可以理解的是,按照设定周期获取待存储数据,也即获取设定周期内的待存储数据,并提取待存储数据的关键信息,然后基于上述数据存储方法,将设定周期内的待存储数据存储到数据库中。其中,设定周期可以根据待存储数据量的大小进行适应性设置,如设定周期内待存储数据量较大时,可适应性缩短设定周期,而设定周期内待存储数量较小时,可适应性增大设定周期。其中,设定周期可以包括每小时、每天、每周、每月及每年等等,需要说明的是,本发明实施例对设定周期的长短不做限定。例如,设定周期为每周,则获取每周内待存储数据,并基于上述数据存储方式,将每周内待存储数据存储到数据库中,也即每周执行一次数据存储操作。
实施例二
图2为本发明实施例提供的数据质量计算方法的流程示意图。在本发明实施例提供的上述数据存储方法的基础上,本发明实施提供了一种数据质量计算方法,该方法可适用于服务器对数据质量进行计算的情况,可以由数据质量计算装置执行,其中该装置可由软件和/或硬件实现,一般可集成在服务器中。如图2所示,该方法包括:
S201、按照预设规则对数据库中存储的数据进行分类。
在本发明实施例中,按照预设规则对数据库中存储的数据进行分类,示例性的,可按照分组字段的类别对数据库中存储的数据进行分类,例如,分组字段包括时间类分组字段、数据类型类分组字段、地市类分组字段及设备类型类分组字段,根据各个分组字段的含义不同,对数据进行分类。可选的,还可根据分组字段和计数字段对数据库中存储的数据进行分类,将包含相同分组字段和相同计数字段的数据作为一类数据。例如,将只包含分组字段A、计数字段B和计数字段C的数据作为一类数据。需要说明的是,本发明实施例对数据库中存储的数据的分类方式不做限定。
S202、针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值。
在本发明实施例中,不同待计算类别所涉及到数据库中的数据不同,数据中包含的各个数据字段不同,因此,可针对待计算类别所涉及到的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值。其中,各个数据字段的质量可用0或1表示,各个数据字段对应的权重值存储在数据库中。
可选的,针对待计算类别中所涉及的各个数据,确定各个数据字段的质量,包括:针对待计算类别中所涉及的各个数据,统计非空数据字段的数量,并将所述非空数据字段的数量与待计算类别中所涉及的数据的总数的比值,当所述比值大于或等于预设比值时,确定为所述非空数据字段的质量为1,当所述比值小于所述预设比值时,确定所述非空数据字段的质量为0;针对待计算类别中所涉及的各个数据,将空数据字段的质量记为0。
示例性的,将包含分组字段A、计数字段B及计数字段C的数据作为待计算类别的数据,其中,该待计算类别的数据共有100条数据,若计数字段B非空的取值为90,即包含90条非空的计数字段B,显然,计数字段B的与待计算类别中所涉及的数据的总数100的比值为0.9;若计数字段C非空的取值为50,即包含50条非空的计数字段C,显然,计数字段C的与待计算类别中所涉及的数据的总数100的比值为0.5。若预设比值设为0.8,则计数字段B的质量为1,计数字段C的质量为0。
S203、根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。
可选的,根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量,包括:根据如下公式计算所述待计算类别数据的质量:Z=∑XiYi;其中,Z表示待计算类别数据的质量,Xi表示第i个数据字段的质量,Yi表示第i个数据字段的权重值。
示例性的,待计算类别数据中包含的字段A的质量为1,权重值为0.5,字段B的质量为0,权重值为0.3,字段C的质量为1,权重为0.1,则待计算列别数据的质量为0.5*1+0.3*0+0.2*1=0.7。
本发明实施例提供的数据质量计算方法,按照预设规则对数据库中存储的数据进行分类;针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值;根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。通过采用上述技术方案,能够简单、快速、准确地计算出待计算类别数据的质量,实现对数据质量的评估,满足用户需求。
在一些实施例中,在计算所述待计算类别数据的质量之后,还包括:判断所述待计算类别数据的质量是否小于预设质量阈值;若是,则对所述待计算类别数据进行预警提示。示例性的,判断待计算类别数据的质量是否低于预设质量阈值,预设质量阈值可设置为0.8,当待计算类别数据的质量低于预设质量阈值时,说明数据库中存储的该待计算类别的数据质量较差,不能很好地应用到后续的数据分析领域,因此,对该待计算类别数据进行预警提示。其中,对该待计算类别数据进行预警提示可以以将该类别数据的页面标红的方式进行预警提示,使用户清楚、明了地了解到不满足质量要求的数据。
在一些实施例中,按照预设规则对数据库中存储的数据进行分类,包括:按照预设规则对数据库中存储的设定时间范围内每隔预设时间间隔的数据进行分类;根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量,包括:根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量;相应的,在计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量之后,还包括:根据所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量,计算相邻预设时间间隔对应的待计算类别数据的质量的变化比值;当所述变化比值大于预设比值阈值时,则对所述相邻预设时间间隔对应的待计算类别数据进行预警提示。
示例性的,按照预设规则对数据库中存储的设定时间范围内每隔预设时间间隔的数据进行分类,然后基于上述数据质量计算方法计算设定时间范围内,各个预设时间间隔对应的待计算类别数据的质量。例如。设定时间范围为一周,预设时间间隔为一天,则计算一周内,每天对应的待计算类别数据的质量。计算相邻预设时间间隔对应的待计算类别数据的质量的变化比值,当变化比值大于预设比值时,说明相邻预设时间间隔对应的待计算类别数据的质量变化较明显,则对相邻预设时间间隔对应的待计算类别数据进行预警提示。例如,预设比值阈值为0.2,前一天对应的待计算类别数据的质量为0.8,今天对应的待计算类别数据的质量为0.5,则相邻两天对应的待时就按类别数据的质量变化比值为(0.8-0.5)/0.8=0.375,显然,质量变化比值大于预设比值阈值,因此,对前一天和今天对应的待计算数据进行预警提示,如将前一天和今天对应的待计算数据的页面标红。在一些实施例中,还可对数据库中各个类别数据的质量进行求和运算,得到数据库中所有数据的质量指数。
实施例三
图3是本发明实施例三提供的一种数据存储装置的结构示意图。如图3所示,所述装置包括:关键信息获取模块301、目标元数据确定模块302及数据存储模块303,其中:
关键信息获取模块301,用于获取待存储数据的关键信息;
目标元数据确定模块302,用于根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;
数据存储模块303,用于基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。
本发明实施例提供的数据存储装置,获取待存储数据的关键信息;根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。通过采用上述技术方案,基于数据对应的元数据对数据进行存储,能够有效降低存储数据时占用的存储空间,同时有利于后续数据的快速查找,可以进一步提高后续数据质量的计算效率。
可选的,所述目标元数据包括待存储数据的各字段组成、各字段类型、各字段长度、各字段对应的权重值及各字段用途,其中,根据各字段用途将待存储数据的各字段分为分组字段和计数字段。
可选的,所述关键信息获取模块,用于:
按照设定周期获取待存储数据;
提取所述待存储数据的关键信息。
实施例四
图4是本发明实施例四提供的一种数据质量计算装置的结构示意图。如图4所示,所述装置包括:数据分类模块401、字段信息确定模块402及数据质量计算模块403,其中:
数据分类模块401,用于按照预设规则对数据库中存储的数据进行分类;
字段信息确定模块402,用于针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值;
数据质量计算模块403,用于根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。
本发明实施例提供的数据质量计算装置,按照预设规则对数据库中存储的数据进行分类;针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值;根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。通过采用上述技术方案,能够简单、快速、准确地计算出待计算类别数据的质量,实现对数据质量的评估,满足用户需求。
可选的,所述字段信息确定模块,用于:
针对待计算类别中所涉及的各个数据,统计非空数据字段的数量,并将所述非空数据字段的数量与待计算类别中所涉及的数据的总数的比值,当所述比值大于或等于预设比值时,确定为所述非空数据字段的质量为1,当所述比值小于所述预设比值时,确定所述非空数据字段的质量为0;
针对待计算类别中所涉及的各个数据,将空数据字段的质量记为0。
可选的,所述数据质量计算模块,用于:
根据如下公式计算所述待计算类别数据的质量:
Z=∑XiYi
其中,Z表示待计算类别数据的质量,Xi表示第i个数据字段的质量,Yi表示第i个数据字段的权重值。
可选的,所述装置还包括:
判断模块,用于在计算所述待计算类别数据的质量之后,判断所述待计算类别数据的质量是否小于预设质量阈值;
第一预警提示模块,用于若所述待计算类别数据的质量小于预设质量阈值,则对所述待计算类别数据进行预警提示。
可选的,所述数据分类模块,用于:
按照预设规则对数据库中存储的设定时间范围内每隔预设时间间隔的数据进行分类;
所述数据质量计算模块,用于:
根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量;
相应的,所述装置还包括:
变化比值计算模块,用于在计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量之后,根据所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量,计算相邻预设时间间隔对应的待计算类别数据的质量的变化比值;
第二预警提示模块,用于当所述变化比值大于预设比值阈值时,则对所述相邻预设时间间隔对应的待计算类别数据进行预警提示。
实施例五
本发明实施例五提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于数据存储方法或者数据质量计算方法存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的数据存储操作或者数据质量计算操作,还可以执行本发明任意实施例所提供的数据存储方法或者数据质量计算方法中的相关操作。
实施例六
图5为本发明实施例六提供的一种服务器的结构示意图。图5显示的服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图5所示,本发明实施例六提供的服务器,包括处理器51、存储器52、输入装置53和输出装置54;服务器中处理器51的数量可以是一个或多个,图5中以一个处理器51为例;服务器中的处理器51、存储器52、输入装置53和输出装置54可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器52作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据存储、质量计算方法对应的程序指令/模块(例如,数据存储装置中的关键信息获取模块301、目标元数据确定模块302及数据存储模块303;或者,数据质量计算装置中的数据分类模块401、字段信息确定模块402及数据质量计算模块403)。处理器51通过运行存储在存储器52中的软件程序、指令以及模块,从而执行各种功能应用以及文件处理,例如实现本发明实施例所提供的应用于服务器的数据存储方法或者数据质量计算方法。
存储器52可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器52可进一步包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置53可用于接收用户输入的数字或字符信息,以产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置54可包括显示屏等显示设备。
上述实施例中提供的数据存储、质量计算装置、存储介质及服务器可执行本发明实施例所提供的对应的数据存储、质量计算方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的数据存储、质量计算方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种数据存储方法,其特征在于,包括:
获取待存储数据的关键信息;
根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;
基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。
2.根据权利要求1所述的方法,其特征在于,所述目标元数据包括待存储数据的各字段组成、各字段类型、各字段长度、各字段对应的权重值及各字段用途,其中,根据各字段用途将待存储数据的各字段分为分组字段和计数字段。
3.根据权利要求1所述的方法,其特征在于,获取待存储数据的关键信息,包括:
按照设定周期获取待存储数据;
提取所述待存储数据的关键信息。
4.一种数据质量计算方法,其特征在于,包括:
按照预设规则对数据库中存储的数据进行分类;
针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值;
根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。
5.根据权利要求4所述的方法,其特征在于,针对待计算类别中所涉及的各个数据,确定各个数据字段的质量,包括:
针对待计算类别中所涉及的各个数据,统计非空数据字段的数量,并将所述非空数据字段的数量与待计算类别中所涉及的数据的总数的比值,当所述比值大于或等于预设比值时,确定为所述非空数据字段的质量为1,当所述比值小于所述预设比值时,确定所述非空数据字段的质量为0;
针对待计算类别中所涉及的各个数据,将空数据字段的质量记为0。
6.根据权利要求4所述的方法,其特征在于,根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量,包括:
根据如下公式计算所述待计算类别数据的质量:
Z=∑XiYi
其中,Z表示待计算类别数据的质量,Xi表示第i个数据字段的质量,Yi表示第i个数据字段的权重值。
7.根据权利要求4所述的方法,其特征在于,在计算所述待计算类别数据的质量之后,还包括:
判断所述待计算类别数据的质量是否小于预设质量阈值;
若是,则对所述待计算类别数据进行预警提示。
8.根据权利要求4所述的方法,其特征在于,按照预设规则对数据库中存储的数据进行分类,包括:
按照预设规则对数据库中存储的设定时间范围内每隔预设时间间隔的数据进行分类;
根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量,包括:
根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量;
相应的,在计算所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量之后,还包括:
根据所述预设时间范围内各个预设时间间隔对应的待计算类别数据的质量,计算相邻预设时间间隔对应的待计算类别数据的质量的变化比值;
当所述变化比值大于预设比值阈值时,则对所述相邻预设时间间隔对应的待计算类别数据进行预警提示。
9.一种数据存储装置,其特征在于,包括:
关键信息获取模块,用于获取待存储数据的关键信息;
目标元数据确定模块,用于根据所述关键信息及获取的关键信息与元数据间的关联关系,确定与所述待存储数据对应的目标元数据;
数据存储模块,用于基于所述目标元数据将所述待存储数据存储于预先设定的数据库中。
10.一种数据质量计算装置,其特征在于,包括:
数据分类模块,用于按照预设规则对数据库中存储的数据进行分类;
字段信息确定模块,用于针对待计算类别所涉及的各个数据,确定各个数据字段的质量及各个数据字段对应的权重值;
数据质量计算模块,用于根据所述各个数据字段的质量及所述各个数据字段对应的权重值,计算所述待计算类别数据的质量。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的数据存储方法或者权利要求4-8所述的数据质量计算方法。
12.一种服务器,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3任一所述的数据存储方法或者权利要求4-8所述的数据质量计算方法。
CN201811595418.6A 2018-12-25 2018-12-25 数据存储、质量计算方法、装置、存储介质及服务器 Pending CN109669995A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010948270.0A CN112084269B (zh) 2018-12-25 2018-12-25 数据质量计算方法、装置、存储介质及服务器
CN201811595418.6A CN109669995A (zh) 2018-12-25 2018-12-25 数据存储、质量计算方法、装置、存储介质及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811595418.6A CN109669995A (zh) 2018-12-25 2018-12-25 数据存储、质量计算方法、装置、存储介质及服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010948270.0A Division CN112084269B (zh) 2018-12-25 2018-12-25 数据质量计算方法、装置、存储介质及服务器

Publications (1)

Publication Number Publication Date
CN109669995A true CN109669995A (zh) 2019-04-23

Family

ID=66146188

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010948270.0A Active CN112084269B (zh) 2018-12-25 2018-12-25 数据质量计算方法、装置、存储介质及服务器
CN201811595418.6A Pending CN109669995A (zh) 2018-12-25 2018-12-25 数据存储、质量计算方法、装置、存储介质及服务器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202010948270.0A Active CN112084269B (zh) 2018-12-25 2018-12-25 数据质量计算方法、装置、存储介质及服务器

Country Status (1)

Country Link
CN (2) CN112084269B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442571A (zh) * 2019-06-28 2019-11-12 卓尔智联(武汉)研究院有限公司 一种数据处理方法、装置及计算机存储介质
CN111221824A (zh) * 2020-01-02 2020-06-02 广州虎牙科技有限公司 存储空间的存储优化方法、装置、设备和介质
CN111752954A (zh) * 2020-06-29 2020-10-09 深圳前海微众银行股份有限公司 一种大规模特征数据存储的方法及装置
CN112559642A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 数据分类存储方法、装置及相关产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342791A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种数据质量监测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181999A1 (en) * 2010-04-23 2014-06-26 Dell Products, Lp System and Method for Creating Conditional Immutable Objects in a Storage Device
CN104516912A (zh) * 2013-09-29 2015-04-15 中国移动通信集团黑龙江有限公司 一种动态的数据存储方法及装置
CN105718515A (zh) * 2016-01-14 2016-06-29 神策网络科技(北京)有限公司 数据存储系统及其方法和数据分析系统及其方法
CN106407404A (zh) * 2016-09-22 2017-02-15 成都快乐家网络技术有限公司 数据存储方法、数据管理方法及系统、数据库、客户端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484448A (zh) * 2014-12-26 2015-04-01 浙江协同数据系统有限公司 一种关系型数据质量的评估方法
CN106682179A (zh) * 2016-12-29 2017-05-17 深圳市华傲数据技术有限公司 一种数据质量的检测方法及装置
CN107785057B (zh) * 2017-06-19 2021-05-11 平安医疗健康管理股份有限公司 医疗数据处理方法、装置、存储介质和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181999A1 (en) * 2010-04-23 2014-06-26 Dell Products, Lp System and Method for Creating Conditional Immutable Objects in a Storage Device
CN104516912A (zh) * 2013-09-29 2015-04-15 中国移动通信集团黑龙江有限公司 一种动态的数据存储方法及装置
CN105718515A (zh) * 2016-01-14 2016-06-29 神策网络科技(北京)有限公司 数据存储系统及其方法和数据分析系统及其方法
CN106407404A (zh) * 2016-09-22 2017-02-15 成都快乐家网络技术有限公司 数据存储方法、数据管理方法及系统、数据库、客户端

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442571A (zh) * 2019-06-28 2019-11-12 卓尔智联(武汉)研究院有限公司 一种数据处理方法、装置及计算机存储介质
CN111221824A (zh) * 2020-01-02 2020-06-02 广州虎牙科技有限公司 存储空间的存储优化方法、装置、设备和介质
CN111752954A (zh) * 2020-06-29 2020-10-09 深圳前海微众银行股份有限公司 一种大规模特征数据存储的方法及装置
CN112559642A (zh) * 2020-12-08 2021-03-26 爱信诺征信有限公司 数据分类存储方法、装置及相关产品

Also Published As

Publication number Publication date
CN112084269B (zh) 2024-05-14
CN112084269A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN109669995A (zh) 数据存储、质量计算方法、装置、存储介质及服务器
CN110647512B (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN111126495B (zh) 模型训练方法、信息预测方法、装置、存储介质及设备
CN106844781A (zh) 数据处理的方法及装置
CN111125490B (zh) 基于百度热力图的人口活动数量提取方法、装置及介质
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN110020773A (zh) 一种数据处理方法、设备及计算机可读介质
CN109360106B (zh) 画像构建方法、系统、介质和计算机系统
CN110457287A (zh) 数据库的扩缩容处理方法及装置、计算机设备及可读介质
CN111291936B (zh) 产品生命周期预估模型生成方法、装置及电子设备
CN108304482A (zh) 经纪人的识别方法及装置、电子设备和可读存储介质
CN109087136A (zh) 一种广告资源值的调整方法及装置
CN108550019B (zh) 一种简历筛选方法及装置
CN110569190A (zh) 交易压力测试方法和装置、以及电子设备和可读存储介质
CN104166659A (zh) 一种地图数据判重的方法及系统
CN106155594B (zh) 一种数据处理方法及装置
CN106570029A (zh) 分布式关系型数据库的数据处理方法及系统
CN111915340B (zh) 商户类型的识别方法、装置、设备及存储介质
CN109241146B (zh) 集群环境下的学生智助方法和系统
CN114238777B (zh) 基于行为分析的负反馈流量分配方法、装置、设备及介质
CN111143546A (zh) 一种获得推荐语的方法、装置及电子设备
CN115202890A (zh) 数据元件生产资源空间分配方法、系统及设备
CN109165238B (zh) 一种用于生成周期指标数据的数据处理方法及装置
CN112540843B (zh) 资源的分配方法、装置、存储设备及存储介质
CN108229989B (zh) 一种确定用户属性的属性类别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190423