CN114595214A - 一种大数据治理系统 - Google Patents
一种大数据治理系统 Download PDFInfo
- Publication number
- CN114595214A CN114595214A CN202210207791.XA CN202210207791A CN114595214A CN 114595214 A CN114595214 A CN 114595214A CN 202210207791 A CN202210207791 A CN 202210207791A CN 114595214 A CN114595214 A CN 114595214A
- Authority
- CN
- China
- Prior art keywords
- data
- data information
- complexity
- actual
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大数据治理系统,包括:数据获取模块,用于获取数据信息;数据分析模块,用于分析所述数据信息的数据特征,以对出现字符缺失的数据信息进行标记;其中,数据特征包括数据信息的字符长度和数据类型;所述数据类型为组成数据信息的字符种类,所述字符长度包括数据信息的字符总长度和单一数据类型的字符总长度;数据修复模块,用于根据所述出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度,以判定是否对该数据信息进行修复。本发明可以更准确地掌握数据信息的情况,在提升数据修复准确率的同时,还有效的提高了对数据修复的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种大数据治理系统。
背景技术
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
中国专利公开号:CN109241107A。公开了一种基于Hadoop的大数据治理装置,包括:数据治理信息管理模块,用于维护各数据源的数据治理操作信息;数据源选择模块,用于对导入大数据平台的数据进行治理操作;数据预览模块,用于从结构化数据库的角度展示各数据表的基本信息;元数据管理模块,用于向用户多维度呈现数据表中的元数据信息;数据质量管理模块,用于查看数据表中各字段的具体缺失信息,并设置相应的填充规则以完成缺失信息的填充;多源数据融合模块,用于将多个数据源的多张数据表进行再次融合汇总,以得到新的数据表后,对新的数据表进行进一步分析。由此可见,现有技术在对大数据进行治理时,无法根据数据的复杂程度对数据情况进行掌握,以对数据缺失信息进行修复的问题。
发明内容
为此,本发明提供一种大数据治理系统,用以克服现有技术中无法根据数据的复杂程度对数据情况进行掌握,以对数据缺失信息进行修复的的问题。
为实现上述目的,本发明提供一种大数据治理系统,包括:
数据获取模块,用于获取数据信息;
数据分析模块,其与所述数据获取模块相连,用于分析所述数据信息的数据特征,以对出现字符缺失的数据信息进行标记;其中,数据特征包括数据信息的字符长度和数据类型;所述数据类型为组成数据信息的字符种类,所述字符长度包括数据信息的字符总长度和单一数据类型的字符总长度;
数据修复模块,其与所述数据分析模块相连,用于根据所述出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度,以判定是否对该数据信息进行修复,并在计算所述实际复杂度时,所述数据修复模块根据该数据信息的实际字符总长度,以判定是否对所述实际复杂度进行修正。
进一步地,当所述数据修复模块根据所述出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度A时,所述数据修复模块将实际复杂度A与预设负责度A0进行比对,并根据比对结果判定是否修复对应的数据信息;
所述预设复杂度A0包括第一预设复杂度A1和第二预设复杂度A2,其中,A1<A2;
当A<A1时,所述数据修复模块判定对应数据信息的复杂度符合标准,并根据预设算法对所述数据信息进行修复;
当A1≤A≤A2时,所述数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复;
当A>A2时,所述数据修复模块判定对应数据信息的复杂度不符合标准,并不对所述数据信息进行修复。
进一步地,当所述数据修复模块计算各数据信息的实际复杂度A时,所述数据修复模块获取对应数据信息的实际字符总长度B,并将实际字符总长度B与预设字符总长度B0进行比对,并根据比对结果判定是否修正所述实际复杂度;
当B<B0时,所述数据修复模块则判定对应数据信息的字符长度不符合标准,并需修正对应数据信息的实际复杂度;
当B≥B0时,所述数据修复模块则判定对应数据信息的字符长度符合标准,并无需修正对应数据信息的实际复杂度。
进一步地,当所述数据修复模块对所述实际复杂度A进行修正时,所述数据修复模块将修正后的实际复杂度记为Aa,设定Aa=Aⅹ(1-(B0-B)/B0)。
进一步地,当所述数据修复模块中还设置有复杂度最小值Amin,当所述数据修复模块判定需将实际复杂度修正至Aa时,所述数据修复模块将Aa与复杂度最小值进行比对,当Aa≥Amin时,所述数据修复模块判定修正后的实际复杂度符合标准,并使用修正后的实际复杂度Aa,以判定是否对数据信息进行修复,当Aa<Amin时,所述数据修复模块判定修正后的实际复杂度不符合标准,并使用A/2的复杂度,以判定是否对数据信息进行修复。
进一步地,所述数据修复模块中还设置有复杂度变化最大值△Amax,当所述数据修复模块判定需将实际复杂度修正至Aa时,所述数据修复模块计算实际复杂度变化值△A,设定△A=A-Aa,所述数据修复模块将实际复杂度变化值△A与复杂度变化最大值△Amax进行比对,当△A>△Amax时,所述数据修复模块判定所述实际复杂度变化差值不符合标准,并不对数据信息的实际复杂度进行修复,当△A≤△Amax时,所述数据修复模块判定所述实际复杂度变化差值符合标准,并使用修正后的实际复杂度Aa,以判定是否对数据信息进行修复。
进一步地,当所述数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复时,所述数据修复模块获取所述数据分析模块分析的,所述数据信息的实际数据类型数量C,将所述实际数据类型数量与预设数据类型数量C0进行比对,并根据比对结果二次判定是否对所述数据信息进行修复;
当C>C0时,所述数据修复模块二次判定需修正所述数据信息的实际复杂度;
当C≤C0时,所述数据修复模块二次判定需对所述数据信息进行修复。
进一步地,当所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块将修正后的实际复杂度记为Ab,设定Ab=Aⅹ(1+(C-C0)/C0)。
进一步地,所述数据修复模块中还设置任一数据类型的字符长度最大值Dmax,当所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块将任一数据类型的实际字符长度D与字符长度最大值Dmax进行比对;
当D≥D0时,所述数据修复模块则判定无需对所述实际复杂度进行修正;
当D<D0时,所述数据修复模块则判定需对所述实际复杂度进行修正,以二次判定是否对所述数据信息进行修复。
进一步地,所述数据修复模块采用下列公式计算数据信息的实际复杂度;
A=(E/E0)+(F/F0);
其中,E为所述数据信息的实际存储占比,E0为所述数据信息的预设存储占比,F为所述数据信息的实际传输速度,F0为所述数据信息的预设传输速度。
与现有技术相比,本发明的有益效果在于,本发明通过数据分析模块对获取的数据信息进行分析,并对出现字符缺失的数据信息进行标记,并在标记完成时,所述数据修复模块根据出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度,其一方面,所述数据修复模块根据实际复杂度,以判定是否对该数据信息进行修复,当实际复杂度越大时,所述数据修复模块则判定对该数据信息的修复难度越大,所述数据修复模块则不对该数据信息进行修复,从而可以数据信息的数据情况进行掌握,其另一方面,所述数据修复模块在对数据信息的实际复杂度进行计算时,所述数据修复模块根据所述数据信息的字符总长度,以判定是否对实际复杂度进行修正,进而可以更准确地掌握数据信息的情况,在提升数据修复准确率的同时,还有效的提高了对数据修复的效率。
进一步地,本发明所述书修复模块将预设复杂度具体设置为两个数值,当所述数据分析模块,完成对数据信息的标记时,所述数据修复模块计算标记的,各数据信息的实际复杂度,并将各数据信息的实际复杂度分别与两个预设复杂度进行比对,当所述数据修复模块判定对应的数据信息实际复杂度小于第一预设复杂度时,所述数据修复模块判定该数据信息的实际复杂度符合标准,并根据预设算法对数据信息进行修复,以保证数据信息的完整性,提高了数据的利用效率,当所述数据修复模块判定对应的数据信息实际复杂度在预设复杂度内时,所述数据修复模块则根据对应数据信息的字符总长度,以对是否修复对应的数据信息进行二次判定,从而可以更准确地对数据信息的实际复杂度进行掌握,当数据修复模块判定实际复杂度大于第二预设复杂度时,所述数据修复模块判定对应数据信息的实际复杂度不符合标准,其数据组成过于复杂,无法根据预设算法对数据信息进行修复,在保证数据信息的完整性时的同时,更加有效的提高了数据的利用效率。
进一步地,本发明在所述数据修复模块计算实际复杂度时,将对应数据信息的实际字符总长度与预设字符总长度进行比对,当实际字符总长度大于或等于预设字符总长度时,所述数据修复模块判定对应数据信息字符长度符合标准,且,所述数据修复模块计算的对应数据信息的实际复杂度越真实,当实际字符长度小于预设字符总长度时,所述数据修复模块则配判定对应数据信息字符长度不符合标准,且,所述数据修复模块计算的对应数据信息的实际复杂度与真实情况不相符,其真实复杂度小于计算的手机复杂度,进而通过修真实际复杂度,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
进一步地,本发明所述数据修复模块在对所述实际复杂度进行修正时,当数据信息的字符总长度约小时,其数据信息的构成越简单,所述数据信息的真是复杂度越小,所述数据修复模块将实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
进一步地,本发明数据修复模块中还设置有复杂度最小值,当所述数据修复模块对实际复杂度进行修复时,所述数据修复模块将修正后的实际复杂度与复杂度最小值进行比对,当修正后的实际复杂度大于或等于复杂度最小值时,所述数据修复模块则判定修正后的实际复杂度符合标准,从而使用修正后的实际复杂度,以判定是否对数据信息进行修复,从而更精准的对数据信息的实际复杂度进行修复,当修正后的实际复杂度小于复杂度最小值时,所述数据修复模块则使用A/2的复杂度,以判定是否对数据信息进行修复,所述数据修复模块通过设置复杂度最小值,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
进一步地,本发明数据修复模块中还设置有复杂度变化最大值,通过数据修复模块计算实际复杂度变化值,当实际复杂度变化值大于复杂度变化最大值时,所述数据修复模块判定对实际复杂度变化不符合标准,并判定数据信息的字符总长度较小,进而该数据信息的复杂度较小,从而对该数据信息的修复难度较低,从而可通过预设算法对数据信息进行修复,当实际复杂度变化值小于或等于复杂度变化最大值时,所述数据修复模块判定对实际复杂度变化符合标准,并对实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
进一步地,本发明所述数据修复模块在数据信息的实际复杂度在预设复杂度范围内时,所述数据修复模块将对应数据信息的数据类型的数量,与预设数据类型进行比对,当实际数据类型数量大于预设数量时,所述数据修复模块判定计算的实际复杂度小于真实复杂度,并通过修正所述数据修复模块计算的实际复杂度,进而可以更准确的判断是否修复对应的数据信息,当实际数据类型数量小于或等于预设数量时,所以数据修复模块判定计算的实际复杂度与真实复杂度相匹配,并使用预设算法对所述数据信息进行修复,并对实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
进一步地,本发明数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复时,所述数据修复模块将根据数据信息中的数据类型数量,当数据信息中的数据类型数量越大时,所述数据信息的真是复杂度越大,进而数据修复模块通过对数据类型数量,精准的对数据信息的实际复杂度进行修正,并对实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
进一步地,本发明所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块任一数据类型的实际字符长度与对应的数据类型的字符长度最大值进行比对,当任一单一类型数据的字符长度大于或等于对应的数据类型字符长度最大值时,所述数据修复模块则判定所述数据信息中其他数据类型的占比越小,数据信息中的实际数据类型数量越少,进而该数据信息的真是复杂度越小,从而可以预设算法对数据信息进行修复,当任一单一类型数据的字符长度小于对应的数据类型字符长度最大值时,所述数据修复模块则判定所述数据信息中其他数据类型的占比越大,进而数据信息的数据类型数量与所述数据分析模块分析的数据类型数量想匹配,从而通过修正实际复杂度,以精准的是否修复数据信息进行判断,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
附图说明
图1为本发明提供的大数据治理系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,为发明实施例提供的大数据治理系统的结构示意图,包括:
数据获取模块,用于获取数据信息;
数据分析模块,其与所述数据获取模块相连,用于分析所述数据信息的数据特征,以对出现字符缺失的数据信息进行标记;其中,数据特征包括数据信息的字符长度和数据类型;所述数据类型为组成数据信息的字符种类,包括但不限于数字、字母、汉子或汉语拼音,所述字符长度包括数据信息的字符总长度和单一数据类型的字符总长度;
数据修复模块,其与所述数据分析模块相连,用于根据所述出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度,以判定是否对该数据信息进行修复,并在计算所述实际复杂度时,所述数据修复模块根据该数据信息的实际字符总长度,以判定是否对所述实际复杂度进行修正。
具体而言,本发明实施例通过数据分析模块对获取的数据信息进行分析,并对出现字符缺失的数据信息进行标记,并在标记完成时,所述数据修复模块根据出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度,其一方面,所述数据修复模块根据实际复杂度,以判定是否对该数据信息进行修复,当实际复杂度越大时,所述数据修复模块则判定对该数据信息的修复难度越大,所述数据修复模块则不对该数据信息进行修复,从而可以数据信息的数据情况进行掌握,其另一方面,所述数据修复模块在对数据信息的实际复杂度进行计算时,所述数据修复模块根据所述数据信息的字符总长度,以判定是否对实际复杂度进行修正,进而可以更准确地掌握数据信息的情况,在提升数据修复准确率的同时,还有效的提高了对数据修复的效率。
具体而言,当所述数据修复模块根据所述出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度A时,所述数据修复模块将实际复杂度A与预设负责度A0进行比对,并根据比对结果判定是否修复对应的数据信息;
所述预设复杂度A0包括第一预设复杂度A1和第二预设复杂度A2,其中,A1<A2;
当A<A1时,所述数据修复模块判定对应数据信息的复杂度符合标准,并根据预设算法对所述数据信息进行修复;
当A1≤A≤A2时,所述数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复;
当A>A2时,所述数据修复模块判定对应数据信息的复杂度不符合标准,并不对所述数据信息进行修复。
具体而言,本发明实施例所述书修复模块将预设复杂度具体设置为两个数值,当所述数据分析模块,完成对数据信息的标记时,所述数据修复模块计算标记的,各数据信息的实际复杂度,并将各数据信息的实际复杂度分别与两个预设复杂度进行比对,当所述数据修复模块判定对应的数据信息实际复杂度小于第一预设复杂度时,所述数据修复模块判定该数据信息的实际复杂度符合标准,并根据预设算法对数据信息进行修复,以保证数据信息的完整性,提高了数据的利用效率,当所述数据修复模块判定对应的数据信息实际复杂度在预设复杂度内时,所述数据修复模块则根据对应数据信息的字符总长度,以对是否修复对应的数据信息进行二次判定,从而可以更准确地对数据信息的实际复杂度进行掌握,当数据修复模块判定实际复杂度大于第二预设复杂度时,所述数据修复模块判定对应数据信息的实际复杂度不符合标准,其数据组成过于复杂,无法根据预设算法对数据信息进行修复,在保证数据信息的完整性时的同时,更加有效的提高了数据的利用效率。
具体而言,当所述数据修复模块计算各数据信息的实际复杂度A时,所述数据修复模块获取对应数据信息的实际字符总长度B,并将实际字符总长度B与预设字符总长度B0进行比对,并根据比对结果判定是否修正所述实际复杂度;
当B<B0时,所述数据修复模块则判定对应数据信息的字符长度不符合标准,并需修正对应数据信息的实际复杂度;
当B≥B0时,所述数据修复模块则判定对应数据信息的字符长度符合标准,并无需修正对应数据信息的实际复杂度。
具体而言,本发明实施例在所述数据修复模块计算实际复杂度时,将对应数据信息的实际字符总长度与预设字符总长度进行比对,当实际字符总长度大于或等于预设字符总长度时,所述数据修复模块判定对应数据信息字符长度符合标准,且,所述数据修复模块计算的对应数据信息的实际复杂度越真实,当实际字符长度小于预设字符总长度时,所述数据修复模块则配判定对应数据信息字符长度不符合标准,且,所述数据修复模块计算的对应数据信息的实际复杂度与真实情况不相符,其真实复杂度小于计算的手机复杂度,进而通过修真实际复杂度,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
具体而言,当所述数据修复模块对所述实际复杂度A进行修正时,所述数据修复模块将修正后的实际复杂度记为Aa,设定Aa=Aⅹ(1-(B0-B)/B0)。
具体而言,本发明实施例所述数据修复模块在对所述实际复杂度进行修正时,当数据信息的字符总长度约小时,其数据信息的构成越简单,所述数据信息的真是复杂度越小,所述数据修复模块将实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
具体而言,当所述数据修复模块中还设置有复杂度最小值Amin,当所述数据修复模块判定需将实际复杂度修正至Aa时,所述数据修复模块将Aa与复杂度最小值进行比对,当Aa≥Amin时,所述数据修复模块判定修正后的实际复杂度符合标准,并使用修正后的实际复杂度Aa,以判定是否对数据信息进行修复,当Aa<Amin时,所述数据修复模块判定修正后的实际复杂度不符合标准,并使用A/2的复杂度,以判定是否对数据信息进行修复。
具体而言,本发明实施例数据修复模块中还设置有复杂度最小值,当所述数据修复模块对实际复杂度进行修复时,所述数据修复模块将修正后的实际复杂度与复杂度最小值进行比对,当修正后的实际复杂度大于或等于复杂度最小值时,所述数据修复模块则判定修正后的实际复杂度符合标准,从而使用修正后的实际复杂度,以判定是否对数据信息进行修复,从而更精准的对数据信息的实际复杂度进行修复,当修正后的实际复杂度小于复杂度最小值时,所述数据修复模块则使用A/2的复杂度,以判定是否对数据信息进行修复,所述数据修复模块通过设置复杂度最小值,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
具体而言,所述数据修复模块中还设置有复杂度变化最大值△Amax,当所述数据修复模块判定需将实际复杂度修正至Aa时,所述数据修复模块计算实际复杂度变化值△A,设定△A=A-Aa,所述数据修复模块将实际复杂度变化值△A与复杂度变化最大值△Amax进行比对,当△A>△Amax时,所述数据修复模块判定所述实际复杂度变化差值不符合标准,并不对数据信息的实际复杂度进行修复,当△A≤△Amax时,所述数据修复模块判定所述实际复杂度变化差值符合标准,并使用修正后的实际复杂度Aa,以判定是否对数据信息进行修复。
具体而言,本发明实施例数据修复模块中还设置有复杂度变化最大值,通过数据修复模块计算实际复杂度变化值,当实际复杂度变化值大于复杂度变化最大值时,所述数据修复模块判定对实际复杂度变化不符合标准,并判定数据信息的字符总长度较小,进而该数据信息的复杂度较小,从而对该数据信息的修复难度较低,从而可通过预设算法对数据信息进行修复,当实际复杂度变化值小于或等于复杂度变化最大值时,所述数据修复模块判定对实际复杂度变化符合标准,并对实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
具体而言,当所述数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复时,所述数据修复模块获取所述数据分析模块分析的,所述数据信息的实际数据类型数量C,将所述实际数据类型数量与预设数据类型数量C0进行比对,并根据比对结果二次判定是否对所述数据信息进行修复;
当C>C0时,所述数据修复模块二次判定需修正所述数据信息的实际复杂度;
当C≤C0时,所述数据修复模块二次判定需对所述数据信息进行修复。
具体而言,本发明实施例所述数据修复模块在数据信息的实际复杂度在预设复杂度范围内时,所述数据修复模块将对应数据信息的数据类型的数量,与预设数据类型进行比对,当实际数据类型数量大于预设数量时,所述数据修复模块判定计算的实际复杂度小于真实复杂度,并通过修正所述数据修复模块计算的实际复杂度,进而可以更准确的判断是否修复对应的数据信息,当实际数据类型数量小于或等于预设数量时,所以数据修复模块判定计算的实际复杂度与真实复杂度相匹配,并使用预设算法对所述数据信息进行修复,并对实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
具体而言,当所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块将修正后的实际复杂度记为Ab,设定Ab=Aⅹ(1+(C-C0)/C0)。
具体而言,本发明实施例数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复时,所述数据修复模块将根据数据信息中的数据类型数量,当数据信息中的数据类型数量越大时,所述数据信息的真是复杂度越大,进而数据修复模块通过对数据类型数量,精准的对数据信息的实际复杂度进行修正,并对实际复杂度进行修正,以更准确的对数据信息进行修复,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
具体而言,所述数据修复模块中还设置任一数据类型的字符长度最大值Dmax,当所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块将任一数据类型的实际字符长度D与字符长度最大值Dmax进行比对;
当D≥D0时,所述数据修复模块则判定无需对所述实际复杂度进行修正;
当D<D0时,所述数据修复模块则判定需对所述实际复杂度进行修正,以二次判定是否对所述数据信息进行修复。
具体而言,本发明实施例所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块任一数据类型的实际字符长度与对应的数据类型的字符长度最大值进行比对,当任一单一类型数据的字符长度大于或等于对应的数据类型字符长度最大值时,所述数据修复模块则判定所述数据信息中其他数据类型的占比越小,数据信息中的实际数据类型数量越少,进而该数据信息的真是复杂度越小,从而可以预设算法对数据信息进行修复,当任一单一类型数据的字符长度小于对应的数据类型字符长度最大值时,所述数据修复模块则判定所述数据信息中其他数据类型的占比越大,进而数据信息的数据类型数量与所述数据分析模块分析的数据类型数量想匹配,从而通过修正实际复杂度,以精准的是否修复数据信息进行判断,在保证数据信息的完整性时的同时,更进一步的提升数据修复准确率,并有效的提高了对数据修复的效率。
具体而言,所述数据修复模块采用下列公式计算数据信息的实际复杂度;
A=(E/E0)+(F/F0);
其中,E为所述数据信息的实际存储占比,E0为所述数据信息的预设存储占比,F为所述数据信息的实际传输速度,F0为所述数据信息的预设传输速度。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种大数据治理系统,其特征在于,包括:
数据获取模块,用于获取数据信息;
数据分析模块,其与所述数据获取模块相连,用于分析所述数据信息的数据特征,以对出现字符缺失的数据信息进行标记;其中,数据特征包括数据信息的字符长度和数据类型;所述数据类型为组成数据信息的字符种类,所述字符长度包括数据信息的字符总长度和单一数据类型的字符总长度;
数据修复模块,其与所述数据分析模块相连,用于根据所述出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度,以判定是否对该数据信息进行修复,并在计算所述实际复杂度时,所述数据修复模块根据该数据信息的实际字符总长度,以判定是否对所述实际复杂度进行修正。
2.根据权利要求1所述的大数据治理系统,其特征在于,当所述数据修复模块根据所述出现字符缺失的数据信息数据特征,计算数据信息的实际复杂度A时,所述数据修复模块将实际复杂度A与预设负责度A0进行比对,并根据比对结果判定是否修复对应的数据信息;
所述预设复杂度A0包括第一预设复杂度A1和第二预设复杂度A2,其中,A1<A2;
当A<A1时,所述数据修复模块判定对应数据信息的复杂度符合标准,并根据预设算法对所述数据信息进行修复;
当A1≤A≤A2时,所述数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复;
当A>A2时,所述数据修复模块判定对应数据信息的复杂度不符合标准,并不对所述数据信息进行修复。
3.根据权利要求2所述的大数据治理系统,其特征在于,当所述数据修复模块计算各数据信息的实际复杂度A时,所述数据修复模块获取对应数据信息的实际字符总长度B,并将实际字符总长度B与预设字符总长度B0进行比对,并根据比对结果判定是否修正所述实际复杂度;
当B<B0时,所述数据修复模块则判定对应数据信息的字符长度不符合标准,并需修正对应数据信息的实际复杂度;
当B≥B0时,所述数据修复模块则判定对应数据信息的字符长度符合标准,并无需修正对应数据信息的实际复杂度。
4.根据权利要求3所述的大数据治理系统,其特征在于,当所述数据修复模块对所述实际复杂度A进行修正时,所述数据修复模块将修正后的实际复杂度记为Aa,设定Aa=Aⅹ(1-(B0-B)/B0)。
5.根据权利要求4所述的大数据治理系统,其特征在于,当所述数据修复模块中还设置有复杂度最小值Amin,当所述数据修复模块判定需将实际复杂度修正至Aa时,所述数据修复模块将Aa与复杂度最小值进行比对,当Aa≥Amin时,所述数据修复模块判定修正后的实际复杂度符合标准,并使用修正后的实际复杂度Aa,以判定是否对数据信息进行修复,当Aa<Amin时,所述数据修复模块判定修正后的实际复杂度不符合标准,并使用A/2的复杂度,以判定是否对数据信息进行修复。
6.根据权利要求5所述的大数据治理系统,其特征在于,所述数据修复模块中还设置有复杂度变化最大值△Amax,当所述数据修复模块判定需将实际复杂度修正至Aa时,所述数据修复模块计算实际复杂度变化值△A,设定△A=A-Aa,所述数据修复模块将实际复杂度变化值△A与复杂度变化最大值△Amax进行比对,当△A>△Amax时,所述数据修复模块判定所述实际复杂度变化差值不符合标准,并不对数据信息的实际复杂度进行修复,当△A≤△Amax时,所述数据修复模块判定所述实际复杂度变化差值符合标准,并使用修正后的实际复杂度Aa,以判定是否对数据信息进行修复。
7.根据权利要求2所述的大数据治理系统,其特征在于,当所述数据修复模块判定需结合对应数据信息的数据类型数量,二次判定是否对所述数据信息进行修复时,所述数据修复模块获取所述数据分析模块分析的,所述数据信息的实际数据类型数量C,将所述实际数据类型数量与预设数据类型数量C0进行比对,并根据比对结果二次判定是否对所述数据信息进行修复;
当C>C0时,所述数据修复模块二次判定需修正所述数据信息的实际复杂度;
当C≤C0时,所述数据修复模块二次判定需对所述数据信息进行修复。
8.根据权利要求7所述的大数据治理系统,其特征在于,当所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块将修正后的实际复杂度记为Ab,设定Ab=Aⅹ(1+(C-C0)/C0)。
9.根据权利要求8所述的大数据治理系统,其特征在于,所述数据修复模块中还设置任一数据类型的字符长度最大值Dmax,当所述数据修复模块二次判定需修正所述数据信息的实际复杂度时,所述数据修复模块将任一数据类型的实际字符长度D与字符长度最大值Dmax进行比对;
当D≥D0时,所述数据修复模块则判定无需对所述实际复杂度进行修正;
当D<D0时,所述数据修复模块则判定需对所述实际复杂度进行修正,以二次判定是否对所述数据信息进行修复。
10.根据权利要求2所述的大数据治理系统,其特征在于,所述数据修复模块采用下列公式计算数据信息的实际复杂度;
A=(E/E0)+(F/F0);
其中,E为所述数据信息的实际存储占比,E0为所述数据信息的预设存储占比,F为所述数据信息的实际传输速度,F0为所述数据信息的预设传输速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210207791.XA CN114595214B (zh) | 2022-03-03 | 2022-03-03 | 一种大数据治理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210207791.XA CN114595214B (zh) | 2022-03-03 | 2022-03-03 | 一种大数据治理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114595214A true CN114595214A (zh) | 2022-06-07 |
CN114595214B CN114595214B (zh) | 2023-05-02 |
Family
ID=81816309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210207791.XA Active CN114595214B (zh) | 2022-03-03 | 2022-03-03 | 一种大数据治理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595214B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015154568A1 (zh) * | 2014-08-11 | 2015-10-15 | 中兴通讯股份有限公司 | 一种采集数据的优化方法、系统及服务器 |
CN109241107A (zh) * | 2018-08-03 | 2019-01-18 | 北京邮电大学 | 基于Hadoop的大数据治理装置 |
CN110070132A (zh) * | 2019-04-24 | 2019-07-30 | 华中科技大学无锡研究院 | 风电场scada系统缺失数据修复结果的修正补偿方法 |
CN110991530A (zh) * | 2019-12-02 | 2020-04-10 | 天津开心生活科技有限公司 | 缺失数据处理方法及装置、电子设备和存储介质 |
CN112347094A (zh) * | 2020-11-06 | 2021-02-09 | 蘑菇物联技术(深圳)有限公司 | 工业通用设备物联数据清洗方法、装置和存储介质 |
CN112965960A (zh) * | 2021-04-28 | 2021-06-15 | 贵州申瓯通信电子科技有限公司 | 一种智慧警务数据融合清洗研判装置 |
WO2021189362A1 (zh) * | 2020-03-26 | 2021-09-30 | 深圳先进技术研究院 | 基于多条件约束的时间序列数据生成方法、装置及介质 |
CN113641667A (zh) * | 2021-08-12 | 2021-11-12 | 深圳市润迅通投资有限公司 | 一种分布式大数据采集平台的数据异常监控系统及方法 |
-
2022
- 2022-03-03 CN CN202210207791.XA patent/CN114595214B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015154568A1 (zh) * | 2014-08-11 | 2015-10-15 | 中兴通讯股份有限公司 | 一种采集数据的优化方法、系统及服务器 |
CN109241107A (zh) * | 2018-08-03 | 2019-01-18 | 北京邮电大学 | 基于Hadoop的大数据治理装置 |
CN110070132A (zh) * | 2019-04-24 | 2019-07-30 | 华中科技大学无锡研究院 | 风电场scada系统缺失数据修复结果的修正补偿方法 |
CN110991530A (zh) * | 2019-12-02 | 2020-04-10 | 天津开心生活科技有限公司 | 缺失数据处理方法及装置、电子设备和存储介质 |
WO2021189362A1 (zh) * | 2020-03-26 | 2021-09-30 | 深圳先进技术研究院 | 基于多条件约束的时间序列数据生成方法、装置及介质 |
CN112347094A (zh) * | 2020-11-06 | 2021-02-09 | 蘑菇物联技术(深圳)有限公司 | 工业通用设备物联数据清洗方法、装置和存储介质 |
CN112965960A (zh) * | 2021-04-28 | 2021-06-15 | 贵州申瓯通信电子科技有限公司 | 一种智慧警务数据融合清洗研判装置 |
CN113641667A (zh) * | 2021-08-12 | 2021-11-12 | 深圳市润迅通投资有限公司 | 一种分布式大数据采集平台的数据异常监控系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114595214B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868171B (zh) | 一种Excel文件的校验方法及装置 | |
CN108132957B (zh) | 一种数据库处理方法及装置 | |
CN110163735B (zh) | 涉税数据处理方法、装置、计算机设备及存储介质 | |
CN108564207B (zh) | 基于bim的建筑工程智能投标决策管理系统 | |
CN104239564B (zh) | 一种文件索引组织及修复的方法及装置 | |
CN102982416A (zh) | 一种绩效考核的通用实现模型 | |
CN107016018B (zh) | 数据库索引创建方法及装置 | |
CN109740457B (zh) | 一种人脸识别算法评测方法 | |
CN111062196A (zh) | 一种基于CAD和Excel的批量工艺流转卡生成方法 | |
CN102521080A (zh) | 电力用户用电信息采集系统的计算机数据修复方法 | |
CN106919373A (zh) | 一种程序代码质量评估方法 | |
CN108304831A (zh) | 一种监测工人安全帽佩戴的方法及装置 | |
CN113010505A (zh) | 一种水环境大数据清洗方法 | |
CN104572999A (zh) | 基于异构数据的错误数据的检测方法和装置 | |
CN108876330A (zh) | 多时区日切方法和装置 | |
CN108073707B (zh) | 金融业务数据更新方法、装置及计算机可读取存储介质 | |
CN112926299A (zh) | 一种文本比对方法、合同审阅方法、审核系统 | |
CN114595214A (zh) | 一种大数据治理系统 | |
CN116781699B (zh) | 一种基于分布式边缘计算的数据通信方法及系统 | |
CN110021108A (zh) | 一种钞票冠字号码记录、追溯方法及系统 | |
CN103853536B (zh) | 基于状态迁移图实现业务跟踪的方法和装置 | |
CN111159997A (zh) | 一种企业投标文档的智能校验方法 | |
CN107239548A (zh) | 基于SQL Server和HIVE的报表处理方法 | |
CN107783896B (zh) | 一种数据处理模型的优化方法和装置 | |
CN107038330B (zh) | 一种数据缺失的补偿方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |