CN113342789A - 基于大数据和深度学习的数据清洗方法及云服务器 - Google Patents
基于大数据和深度学习的数据清洗方法及云服务器 Download PDFInfo
- Publication number
- CN113342789A CN113342789A CN202110554391.1A CN202110554391A CN113342789A CN 113342789 A CN113342789 A CN 113342789A CN 202110554391 A CN202110554391 A CN 202110554391A CN 113342789 A CN113342789 A CN 113342789A
- Authority
- CN
- China
- Prior art keywords
- service data
- list
- data
- information
- cleaned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供的基于大数据和深度学习的数据清洗方法及云服务器,能够将业务数据列表的列表结构特征信息、列表区域特征信息和列表分组特征信息考虑在内,从而实现对不同业务数据分布信息的确定,进而确定出不同的异常业务数据分布结果,这样可以进一步确定第三业务数据分布信息、异常业务数据标记和异常业务数据聚类。如此,在基于第三业务数据分布信息、异常业务数据标记和异常业务数据聚类进行数据清洗时,不仅能够确保数据清洗的效率,并且能够确保后续业务数据的正常使用。
Description
本申请是申请号为“202011385263.0”、申请日为“2020年12月01日”、名称为“应用于大数据和深度学习的数据清洗方法及云服务器”的分案申请。
技术领域
本申请涉及大数据和人工智能技术领域,具体而言,涉及一种基于大数据和深度学习的数据清洗方法及云服务器。
背景技术
随着大数据的快速发展,现代社会的各行各业几乎离不开大数据。数字化社会的不断转型升级释放了劳动力,从而加快了经济建设,也提高了人们的生活质量和生产效率。
在许多业务领域,业务办理和业务交互大多是基于业务数据进行的,但随着数据规模的不断扩大,业务数据量也不断增多,这可能导致正常的业务办理和业务交互出现延时,为改善这一问题,通常需要对业务数据进行一定的数据清洗。然而,通过常见的数据清洗技术对业务数据进行清洗后可能面临业务数据无法正常使用的问题。
发明内容
本申请的第一个方面公开了一种基于大数据和深度学习的数据清洗方法,待处理业务数据在清洗的中间过程包括多组待清洗业务数据和多组已清洗业务数据,所述方法包括:
比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息;
获取所述当前待清洗业务数据的业务数据特征;根据所述业务数据特征确定所述当前待清洗业务数据的数据清洗指标;根据所述数据清洗参考信息和所述数据清洗指标对所述当前待清洗业务数据进行处理,得到所述当前待清洗业务数据对应的业务数据列表;
基于所述业务数据列表对所述当前待清洗业务数据进行异常业务数据清洗。
优选的实施方式中,所述比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息,包括:
通过业务行为解析模型比较所述当前待清洗业务数据与所述前一组业务数据的业务行为差异信息;
基于所述业务行为差异信息确定所述当前待清洗业务数据是否为候选业务数据挖掘组;
若是,则基于数据分类记录比较所述当前待清洗业务数据与所述前一组业务数据的业务数据差异信息;
基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,以确定所述当前待清洗业务数据的数据清洗参考信息。
优选的实施方式中,所述基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,以确定所述当前待清洗业务数据的数据清洗参考信息,包括:
基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,获得所述当前待清洗业务数据的第一差异信息描述值;
将所述第一差异信息描述值与第一描述值阈值和第二描述值阈值比较,所述第一描述值阈值小于所述第二描述值阈值;
若所述第一差异信息描述值小于所述第一描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示当前待清洗业务数据不是动态业务数据组;
若所述第一差异信息描述值大于所述第二描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示当前待清洗业务数据为动态业务数据组;
若所述第一差异信息描述值大于所述第一描述值阈值,且小于所述第二描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示所述当前待清洗业务数据为互动业务数据组;
其中,所述方法还包括:
检测连续多组待清洗业务数据的第一差异信息描述值与所述第一描述值阈值和所述第二描述值阈值的比较结果;
若预设数量的连续多组待清洗业务数据的第一差异信息描述值均大于第一描述值阈值,则以第一组大于第一描述值阈值的所述待清洗业务数据作为起始动态业务数据组;
确定相隔设定数量组的累积数据分类记录的记录差异并进行差异信息分析,获得相隔设定数量组待清洗业务数据的第二差异信息描述值;
将第二差异信息描述值与所述第二描述值阈值比较,预设数量的连续多组待清洗业务数据的第一差异信息描述值与所述第一描述值阈值比较;
若当前待清洗业务数据的第二差异信息描述值大于第二描述值阈值,且预设数量的连续多组待清洗业务数据的第一差异信息描述值小于所述第一描述值阈值,则以所述当前待清洗业务数据作为系统业务数据组。
优选的实施方式中,所述根据所述业务数据特征确定所述当前待清洗业务数据的数据清洗指标,包括:
根据业务数据调用频率、共享业务数据的比例、业务数据容错率以及业务数据相关性矩阵作为业务数据特征确定所述当前待清洗业务数据的数据清洗指标。
优选的实施方式中,所述根据业务数据调用频率、共享业务数据的比例、业务数据容错率以及业务数据相关性矩阵作为业务数据特征确定所述当前待清洗业务数据的数据清洗指标,包括:
根据所述业务数据调用频率与调用频率描述值阈值比较,和根据所述共享业务数据的比例与设定比例进行比较;
若所述业务数据调用频率小于等于所述调用频率描述值阈值,和所述共享业务数据的比例小于等于所述设定比例,则确定所述当前待清洗业务数据的数据清洗指标表示不完整数据清洗指标;
若所述业务数据调用频率大于所述调用频率描述值阈值,或所述共享业务数据的比例大于所述设定比例,则确定所述当前待清洗业务数据的数据清洗指标表示重复数据清洗指标;
根据业务数据容错率和业务数据相关性矩阵与预设值进行比较,以及平均调用频率与所述调用频率描述值阈值的比较,以确定所述当前待清洗业务数据的数据清洗指标表示错误数据清洗指标。
优选的实施方式中,所述根据所述数据清洗参考信息和所述数据清洗指标对所述当前待清洗业务数据进行处理,得到所述当前待清洗业务数据对应的业务数据列表,包括:
确定所述数据清洗参考信息和所述数据清洗指标之间的对应关系,基于所述对应关系获取当前待清洗业务数据的业务数据块信息,其中,所述业务数据块信息包括数据块序列信息与数据块关联信息的关联优先级;
确定业务数据整理方式;
根据所述数据块关联信息的关联优先级与所述数据块序列信息,确定是否需要对所述当前待清洗业务数据中最小业务数据块对应的业务需求信息进行解析;
若需要进行解析,则对至少一组所述当前待清洗业务数据的至少部分业务需求信息进行信息筛选,得到所述最小业务数据块对应的业务需求信息;
利用所述业务数据块信息确定是否需要对所述最小业务数据块对应的业务需求信息重新进行业务需求信息重组;若需要重新进行业务需求信息重组,则生成新的业务需求信息,并基于所述业务数据整理方式进行数据整理,得到所述业务数据列表;
其中,所述数据块序列信息包括所述当前待清洗业务数据的业务持续时长、所述当前待清洗业务数据的业务事件数量以及业务优先级,所述方法还包括:
判断所述数据块序列信息的序列优先级、所述业务优先级以及所述数据块关联信息的关联优先级是否相同;
若所述数据块序列信息的序列优先级、所述业务优先级以及所述数据块关联信息的关联优先级相同,则在所述业务数据整理方式为时序整理方式时,根据所述多组当前待清洗业务数据的业务持续时长判断是否设置时序特征标签;若设置所述时序特征标签,则基于所述时序特征标签对所述多组当前待清洗业务数据进行数据整理;若不设置所述时序特征标签,则对所述多组当前待清洗业务数据进行数据整理;
在所述业务数据整理方式为所述事件整理方式时,则根据所述多组当前待清洗业务数据的业务事件数量判断是否设置业务事件标签;若设置所述业务事件标签,则基于所述业务事件标签对所述多组当前待清洗业务数据进行数据处理整理;若不设置所述业务事件标签,则对所述多组当前待清洗业务数据进行数据整理;
若所述数据块序列信息的序列优先级、所述业务优先级或所述数据块关联信息的关联优先级不同,则在所述业务数据整理方式为所述时序整理方式时,从所述多组当前待清洗业务数据中选取一组当前待清洗业务数据作为参考时序业务数据,根据所述多组当前待清洗业务数据的业务持续时长判断是否设置所述时序特征标签;若设置所述时序特征标签,则利用所述参考时序业务数据的业务数据块信息以及所述时序特征标签对其他当前待清洗业务数据进行数据筛分,并进行数据整理;若不设置所述时序特征标签,则利用所述参考时序业务数据的业务数据块信息对所述其他当前待清洗业务数据进行数据筛分,并进行数据整理;在所述业务数据整理方式为所述事件整理方式时,从所述多组当前待清洗业务数据中选取一组当前待清洗业务数据作为参考事件业务数据,根据所述多组当前待清洗业务数据的业务事件数量判断是否设置所述业务事件标签;若设置所述业务事件标签,则利用所述参考事件业务数据的业务数据块信息以及所述业务事件标签对所述其他当前待清洗业务数据进行数据筛分,并进行数据整理;若不设置所述业务事件标签,则利用所述参考事件业务数据的业务数据块信息对所述其他当前待清洗业务数据进行数据筛分,并进行数据整理。
优选的实施方式中,所述业务数据块信息还包括数据块配置记录,所述方法还包括:
在所述业务数据整理方式为所述时序整理方式时,根据所述数据块序列信息判断所述多组当前待清洗业务数据的业务持续时长是否相同;若是,则根据所述数据块配置记录对所述多组当前待清洗业务数据进行数据整理;若否,则根据所述多组当前待清洗业务数据的业务持续时长设置所述时序特征标签的标签权重,根据所述时序特征标签对所述多组当前待清洗业务数据进行数据整理;
在所述业务数据整理方式为所述事件整理方式时,根据所述数据块序列信息判断所述多组当前待清洗业务数据的业务事件数量是否相同;若是,则根据所述多组当前待清洗业务数据的业务数据格式与业务数据存储路径对所述多组当前待清洗业务数据进行数据整理;若否,则根据所述多组当前待清洗业务数据的业务事件数量设置所述业务事件标签的标签权重以及所述业务事件标签对所述多组当前待清洗业务数据进行数据整理;其中,所述业务数据格式包括可修改格式与不可修改格式,在所述业务数据格式为所述可修改格式时,所述业务需求信息包括实时业务需求信息与延时业务需求信息,所述业务数据存储路径包括业务数据权限访问路径与业务数据调用路径。
优选的实施方式中,基于所述业务数据列表对所述当前待清洗业务数据进行异常业务数据清洗,包括:
确定业务数据列表的列表结构特征信息、列表区域特征信息和列表分组特征信息;
基于所述业务数据列表的列表分组特征信息和参考业务数据列表的列表分组特征信息,确定所述业务数据列表对应的第一业务数据分布信息,所述参考业务数据列表为包括三个不同特征维度的列表分组特征、且包括的列表分组特征的总数量大于第一设定数量的业务数据列表,且所述参考业务数据列表的列表生成时间位于所述业务数据列表的列表生成时间之前;
基于所述业务数据列表的列表结构特征信息和列表区域特征信息、上一个业务数据列表对应的异常业务数据标记信息和异常业务数据聚类信息、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果,所述异常业务数据分布结果至少包括第二业务数据分布信息,所述业务数据列表对应的异常业务数据分布结果指的是生成所述业务数据列表时业务数据处理终端的异常业务数据分布结果;
若所述第一业务数据分布信息与所述第二业务数据分布信息之间的分布信息误差大于设定误差阈值,确定所述业务数据列表为关键业务数据列表,基于所述第一业务数据分布信息和所述异常业务数据分布结果,确定业务数据处理环境中所有关键业务数据列表的第三业务数据分布信息、对应的异常业务数据标记和异常业务数据聚类;
通过所述业务数据处理环境中所有关键业务数据列表的第三业务数据分布信息、对应的异常业务数据标记和异常业务数据聚类,对所述当前待清洗业务数据进行异常业务数据清洗,得到目标业务数据;
其中,所述业务数据列表的列表分组特征包括三个不同特征维度的列表分组特征,所述基于所述业务数据列表的列表分组特征信息和参考业务数据列表的列表分组特征信息,确定所述业务数据列表对应的第一业务数据分布信息,包括:
基于所述业务数据列表的列表分组特征信息,确定所述业务数据列表中每个不同特征维度的列表分组特征在所述业务数据列表对应的业务数据交互环境下的不同特征维度描述信息,得到所述业务数据列表中三个不同特征维度的列表分组特征的不同特征维度描述信息;
基于所述参考业务数据列表的列表分组特征信息,获取所述参考业务数据列表中三个不同特征维度的列表分组特征的不同特征维度描述信息;
获取所述参考业务数据列表对应的第四业务数据分布信息;
基于所述业务数据列表中列表分组特征的不同特征维度描述信息和所述参考业务数据列表中列表分组特征的不同特征维度描述信息、以及所述第四业务数据分布信息,确定所述业务数据列表对应的第一业务数据分布信息;
其中,所述基于所述业务数据列表的列表结构特征信息和列表区域特征信息、上一个业务数据列表对应的异常业务数据标记信息和异常业务数据聚类信息、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果,包括:
基于所述上一个业务数据列表的异常业务数据分布结果,确定所述业务数据列表的初始异常业务数据分布结果;确定所述业务数据列表的列表结构特征信息指示的列表结构特征和列表区域特征信息指示的列表区域特征,以及确定所述上一个业务数据列表对应的异常业务数据标记信息指示的异常业务数据标记和异常业务数据聚类信息指示的异常业务数据聚类;
基于所述业务数据列表的初始异常业务数据分布结果,确定所述上一个业务数据列表对应的异常业务数据标记在所述业务数据列表中的第一映射列表,以及所述上一个业务数据列表对应的异常业务数据聚类在所述业务数据列表中的第一映射数据聚类;
确定所述业务数据列表的列表结构特征中与所述第一映射列表匹配的目标列表结构特征,以及确定所述业务数据列表的列表区域特征中与所述第一映射数据聚类匹配的目标列表区域特征;基于所述初始异常业务数据分布结果、所述第一映射列表、所述目标列表结构特征、所述第一映射数据聚类、所述目标列表区域特征、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果。
本申请的第二个方面公开了一种云服务器,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过所述网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行第一个方面所述的方法。
本申请的第三个方面公开一种计算机可读信号介质,其上存储有计算机程序,所述计算机程序在运行是实现第一个方面所述的方法。
相较于现有技术,本申请实施例提供的基于大数据和深度学习的数据清洗方法及云服务器具有以下技术效果:针对不同的待清洗业务数据,能够考虑该待清洗业务数据与前一组业务数据之间的业务数据差异信息,并确定出对应的数据清洗参考信息。进一步地,通过确定当前待清洗业务数据的业务数据特征以及数据清洗指标,能实现对当前待清洗业务数据的业务数据列表的确定。由于通过业务数据列表可以对当前待清洗业务数据进行综合化、全面化的管理和拆分,从而确保后期数据清洗的准确性和可靠性,这样可以将数据清洗与实际业务进行动态结合,避免机械式的数据清洗带来的后续业务数据难以正常使用。因此,在基于业务数据列表进行异常业务数据清洗时,能够考虑异常业务数据与实际业务的动态结合,从而将不同时段的异常业务数据的不同状态考虑在内,不仅能够确保数据清洗的准确性,还能够避免数据清洗影响后续的业务数据的正常使用。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
附图说明
如前述背景技术所示,发明人针对上述问题进行分析后发现,常见的数据清洗技术没有考虑业务数据与实际业务的动态结合,因此在进行数据清洗时通常是机械式地采用固定清洗标准进行清洗,这样,若某些异常业务数据对于一部分业务数据而言是无用的但对于另一部分业务数据而言是有用的,在对这些异常业务数据进行清洗之后,可能导致后续的业务数据无法正常使用。
为改善这一问题,发明人创新性地提出了一种基于大数据和深度学习的数据清洗方法及云服务器,能够考虑异常业务数据与实际业务的动态结合,从而将不同时段的异常业务数据的不同状态考虑在内,不仅能够确保数据清洗的准确性,还能够避免数据清洗影响后续的业务数据的正常使用。
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例,其中参考数字在附图的各个视图中代表相似的机构。
图1是根据本申请的一些实施例所示的一种示例性基于大数据和深度学习的数据清洗系统的框图。
图2是根据本申请的一些实施例所示的一种示例性云服务器中硬件和软件组成的示意图。
图3是根据本申请的一些实施例所示的一种示例性基于大数据和深度学习的数据清洗方法和/或过程的流程图。
图4是根据本申请的一些实施例所示的一种示例性基于大数据和深度学习的数据清洗装置的框图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
在下面的详细描述中,通过实例阐述了许多具体细节,以便提供对相关指导的全面了解。然而,对于本领域的技术人员来说,显然可以在没有这些细节的情况下实施本申请。在其他情况下,公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述,没有细节,以避免不必要的模糊本申请的方面。
这些和其他特性、当前申请披露的功能、执行的方法、结构中相关元素的功能和部件的组合和生产经济性,在参照附图进行以下描述的考虑中可能会变得更加明显,所有这些形成本申请的一部分。然而,需要理解清楚的是,附图仅仅是为了说明和描述的目的,并不旨在限制本申请的范围。应当了解的是,这些图纸不是按比例绘制的。然而,应当明确理解的是,附图仅用于说明和描述的目的,并不意图限制本申请的范围。应当知晓的是,这些附图并不依照比例。
本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是,流程图的执行过程可以不按顺序执行。相反,这些执行过程可以以相反的顺序或同时执行。另外,可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。
图1是根据本申请的一些实施例所示的一种示例性基于大数据和深度学习的数据清洗系统300的框图,基于大数据和深度学习的数据清洗系统300可以包括云服务器100和业务数据处理终端200。
在一些实施例中,如图2所示,云服务器100可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。
处理引擎110可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central ProcessingUnit,CPU)、专用集成电路(Application-Specific Integrated Circuit,ASIC)、专用指令集处理器(Application-Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction-Set Computer,RISC)、微处理器等或其任意组合。
网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone SwitchedNetwork,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。
存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。
可以理解,图2所示的结构仅为示意,云服务器100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
图3是根据本申请的一些实施例所示的一种示例性基于大数据和深度学习的数据清洗方法和/或过程的流程图,基于大数据和深度学习的数据清洗方法应用于图1中的云服务器100,具体可以包括以下步骤S11-步骤S13。
可以理解,以下方法可以对待处理业务数据进行清洗,待处理业务数据在清洗的中间过程可以包括多组待清洗业务数据和多组已清洗业务数据,也就是说,以下方法可以应用在数据清洗的动态过程中。其中,以下所指的业务数据可以涉及多个领域,例如区块链支付、互联网金融、云游戏交互、智慧工业控制、智能制造控制、数字化经济升级、智慧城市监控、智慧医疗处理、物联网交互、云边端计算、在线电商平台以及各类大数据业务领域,在此不做限定。
步骤S11,比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息。
例如,业务数据差异信息可以表征不同业务数据在业务类型、业务对象、业务事件以及业务环境层面的差别。数据清洗参考信息用于提供针对这些不同的业务数据的不同的数据清洗方式,例如,某些业务数据对应的异常业务数据可能对与其它业务数据而言是有用的,如果不考虑不同业务数据之间的关联而直接进行数据清洗,可能导致一些业务数据在后期无法正常使用,因此,数据清洗参考信息可以为数据清洗提供一个参考。
步骤S12,获取所述当前待清洗业务数据的业务数据特征;根据所述业务数据特征确定所述当前待清洗业务数据的数据清洗指标;根据所述数据清洗参考信息和所述数据清洗指标对所述当前待清洗业务数据进行处理,得到所述当前待清洗业务数据对应的业务数据列表。
例如,业务数据特征用于从不同维度对当前待清洗业务数据进行描述,该特征可以以向量的形式进行表示,不同的待清洗业务数据的业务数据特征是不同的。在一些情况下,业务数据特征的特征维度可以尽可能多。数据清洗指标用于指示哪些异常业务数据需要被清洗掉,还可以用于指示异常业务数据在不同业务时段或者不同业务需求下的变化情况。业务数据列表汇总了当前待清洗业务数据对应的各类业务信息,例如业务需求信息、业务优先级信息等。通过业务数据列表可以对当前待清洗业务数据进行综合化、全面化的管理和拆分,从而确保后期数据清洗的准确性和可靠性,这样可以将数据清洗与实际业务进行动态结合,避免机械式的数据清洗带来的后续业务数据难以正常使用。
步骤S13,基于所述业务数据列表对所述当前待清洗业务数据进行异常业务数据清洗。
例如,基于业务数据列表进行异常业务数据清洗,能够考虑异常业务数据与实际业务的动态结合,从而将不同时段的异常业务数据的不同状态考虑在内,这样在实现业务数据清洗时,不仅能够确保数据清洗的准确性,还能够避免数据清洗影响后续的业务数据的正常使用。
可以理解,通过实施上述步骤S11-步骤S13,针对不同的待清洗业务数据,能够考虑该待清洗业务数据与前一组业务数据之间的业务数据差异信息,并确定出对应的数据清洗参考信息。进一步地,通过确定当前待清洗业务数据的业务数据特征以及数据清洗指标,能实现对当前待清洗业务数据的业务数据列表的确定。由于通过业务数据列表可以对当前待清洗业务数据进行综合化、全面化的管理和拆分,从而确保后期数据清洗的准确性和可靠性,这样可以将数据清洗与实际业务进行动态结合,避免机械式的数据清洗带来的后续业务数据难以正常使用。因此,在基于业务数据列表进行异常业务数据清洗时,能够考虑异常业务数据与实际业务的动态结合,从而将不同时段的异常业务数据的不同状态考虑在内,不仅能够确保数据清洗的准确性,还能够避免数据清洗影响后续的业务数据的正常使用。
接下来将对一些可选实施例进行说明,这些实施例应当理解为示例,不应理解为实现本方案所必不可少的技术特征。
在一些示例中,步骤S11所描述的比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息,可以包括以下步骤S111-步骤S114。
步骤S111,通过业务行为解析模型比较所述当前待清洗业务数据与所述前一组业务数据的业务行为差异信息。
例如,业务行为解析模型可以是卷积神经网络模型,该模型的训练样本可以是之前的业务数据,该模型的训练过程为现有技术,在此不作说明。业务行为差异信息用于表征用户针对不同业务数据所做出的交互行为所对应的差异信息。
步骤S112,基于所述业务行为差异信息确定所述当前待清洗业务数据是否为候选业务数据挖掘组。
例如,候选业务数据挖掘组用于表征当前待清洗业务数据具有数据挖掘价值。
步骤S113,若是,则基于数据分类记录比较所述当前待清洗业务数据与所述前一组业务数据的业务数据差异信息。
步骤S114,基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,以确定所述当前待清洗业务数据的数据清洗参考信息。
例如,数据分类记录记载了已清洗业务数据的不同数据类别。
可以理解,通过应用上述步骤S111-步骤S114,可以将业务行为的差异考虑在内,从而确保数据清洗参考信息与用户的实际业务行为相匹配,这样避免后期进行数据清洗时影响到用户的正常业务行为。
进一步地,步骤S114所描述的基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,以确定所述当前待清洗业务数据的数据清洗参考信息,可以包括以下步骤S1141-步骤S1145。
步骤S1141,基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,获得所述当前待清洗业务数据的第一差异信息描述值。
例如,差异信息描述值可以理解为通过某个值或者某个序列值对差异信息进行表示,这样便于后期进行数据处理和分析,并减少云服务器的数据处理压力。
步骤S1142,将所述第一差异信息描述值与第一描述值阈值和第二描述值阈值比较,所述第一描述值阈值小于所述第二描述值阈值。
例如,描述值阈值可以预先设定,在此不作赘述。
步骤S1143,若所述第一差异信息描述值小于所述第一描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示当前待清洗业务数据不是动态业务数据组。
例如,动态业务数据组用于表征业务数据是可以更新和调整的。
步骤S1144,若所述第一差异信息描述值大于所述第二描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示当前待清洗业务数据为动态业务数据组。
步骤S1145,若所述第一差异信息描述值大于所述第一描述值阈值,且小于所述第二描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示所述当前待清洗业务数据为互动业务数据组。
例如,互动业务数据组用于表征业务数据是存在交互行为的。
此外,在上述内容的基础上,所述方法还包括以下步骤S11461-步骤S11465。
步骤S11461,检测连续多组待清洗业务数据的第一差异信息描述值与所述第一描述值阈值和所述第二描述值阈值的比较结果。
步骤S11462,若预设数量的连续多组待清洗业务数据的第一差异信息描述值均大于第一描述值阈值,则以第一组大于第一描述值阈值的所述待清洗业务数据作为起始动态业务数据组。
步骤S11463,确定相隔设定数量组的累积数据分类记录的记录差异并进行差异信息分析,获得相隔设定数量组待清洗业务数据的第二差异信息描述值。
步骤S11464,将第二差异信息描述值与所述第二描述值阈值比较,预设数量的连续多组待清洗业务数据的第一差异信息描述值与所述第一描述值阈值比较。
步骤S11465,若当前待清洗业务数据的第二差异信息描述值大于第二描述值阈值,且预设数量的连续多组待清洗业务数据的第一差异信息描述值小于所述第一描述值阈值,则以所述当前待清洗业务数据作为系统业务数据组。
可以理解,基于上述步骤步骤S1141-步骤S1145以及步骤S11461-步骤S11465,能够确定数据清洗参考信息的不同表示内容,从而为后续的数据清洗提供全面可靠的清洗依据。
在一些示例中,步骤S12所描述的根据所述业务数据特征确定所述当前待清洗业务数据的数据清洗指标,可以包括以下步骤120:根据业务数据调用频率、共享业务数据的比例、业务数据容错率以及业务数据相关性矩阵作为业务数据特征确定所述当前待清洗业务数据的数据清洗指标。如此设计,可以基于业务数据的不同维度指标来确定当前待清洗业务数据的数据清洗指标,进而确保数据清洗指标能够涵盖当前待清洗业务数据的尽可能多的维度指标。
其中,对于业务数据调用频率、共享业务数据的比例、业务数据容错率以及业务数据相关性矩阵这些技术特征而言,本领域技术人员可以基于本申请所记载的内容进行毫无疑义的推导,并基于上述技术特征完整、清楚地实施本方案。
基于上述步骤S120,所述根据业务数据调用频率、共享业务数据的比例、业务数据容错率以及业务数据相关性矩阵作为业务数据特征确定所述当前待清洗业务数据的数据清洗指标,进一步可以包括步骤S121-步骤S123。
步骤S121,根据所述业务数据调用频率与调用频率描述值阈值比较,和根据所述共享业务数据的比例与设定比例进行比较。
步骤S122,若所述业务数据调用频率小于等于所述调用频率描述值阈值,和所述共享业务数据的比例小于等于所述设定比例,则确定所述当前待清洗业务数据的数据清洗指标表示不完整数据清洗指标。
步骤S123,若所述业务数据调用频率大于所述调用频率描述值阈值,或所述共享业务数据的比例大于所述设定比例,则确定所述当前待清洗业务数据的数据清洗指标表示重复数据清洗指标。
步骤S124,根据业务数据容错率和业务数据相关性矩阵与预设值进行比较,以及平均调用频率与所述调用频率描述值阈值的比较,以确定所述当前待清洗业务数据的数据清洗指标表示错误数据清洗指标。
这样一来,通过实施上述步骤S121-步骤S124,能够基于业务数据调用频率与调用频率描述值阈值的比较结果,以及共享业务数据的比例与设定比例的比较结果,确定出数据清洗指标表示的不同清洗指标,这样便于后续采用不同的数据清洗方法进行数据清洗,从而确保精准、可靠的数据清洗。
在一个可能的实施例中,发明人发现,为了确保业务数据列表的完整性,需要考虑数据清洗参考信息和数据清洗指标之间的对应关系。为此,在步骤S12中根据所述数据清洗参考信息和所述数据清洗指标对所述当前待清洗业务数据进行处理,得到所述当前待清洗业务数据对应的业务数据列表,可以包括步骤S12a-步骤S12e。
步骤S12a,确定所述数据清洗参考信息和所述数据清洗指标之间的对应关系,基于所述对应关系获取当前待清洗业务数据的业务数据块信息,其中,所述业务数据块信息包括数据块序列信息与数据块关联信息的关联优先级。
步骤S12b,确定业务数据整理方式。
步骤S12c,根据所述数据块关联信息的关联优先级与所述数据块序列信息,确定是否需要对所述当前待清洗业务数据中最小业务数据块对应的业务需求信息进行解析。
步骤S12d,若需要进行解析,则对至少一组所述当前待清洗业务数据的至少部分业务需求信息进行信息筛选,得到所述最小业务数据块对应的业务需求信息。
步骤S12e,利用所述业务数据块信息确定是否需要对所述最小业务数据块对应的业务需求信息重新进行业务需求信息重组;若需要重新进行业务需求信息重组,则生成新的业务需求信息,并基于所述业务数据整理方式进行数据整理,得到所述业务数据列表。
可以理解,通过应用上述步骤S12a-步骤S12e,能够考虑数据清洗参考信息和数据清洗指标之间的对应关系,从而确定业务数据块信息,这样能够从关联优先级、业务需求信息层面实现信息重组,进而基于确定出的业务数据整理方式进行数据整理。如此,可以完整地确定出业务数据列表。
在上述示例的基础上,数据块序列信息包括所述当前待清洗业务数据的业务持续时长、所述当前待清洗业务数据的业务事件数量以及业务优先级。基于此,所述方法还可以包括以下步骤S12f-步骤S12i。
步骤S12f,判断所述数据块序列信息的序列优先级、所述业务优先级以及所述数据块关联信息的关联优先级是否相同。
步骤S12g,若所述数据块序列信息的序列优先级、所述业务优先级以及所述数据块关联信息的关联优先级相同,则在所述业务数据整理方式为时序整理方式时,根据所述多组当前待清洗业务数据的业务持续时长判断是否设置时序特征标签;若设置所述时序特征标签,则基于所述时序特征标签对所述多组当前待清洗业务数据进行数据整理;若不设置所述时序特征标签,则对所述多组当前待清洗业务数据进行数据整理。
步骤S12h,在所述业务数据整理方式为所述事件整理方式时,则根据所述多组当前待清洗业务数据的业务事件数量判断是否设置业务事件标签;若设置所述业务事件标签,则基于所述业务事件标签对所述多组当前待清洗业务数据进行数据处理整理;若不设置所述业务事件标签,则对所述多组当前待清洗业务数据进行数据整理。
步骤S12i,若所述数据块序列信息的序列优先级、所述业务优先级或所述数据块关联信息的关联优先级不同,则在所述业务数据整理方式为所述时序整理方式时,从所述多组当前待清洗业务数据中选取一组当前待清洗业务数据作为参考时序业务数据,根据所述多组当前待清洗业务数据的业务持续时长判断是否设置所述时序特征标签;若设置所述时序特征标签,则利用所述参考时序业务数据的业务数据块信息以及所述时序特征标签对其他当前待清洗业务数据进行数据筛分,并进行数据整理;若不设置所述时序特征标签,则利用所述参考时序业务数据的业务数据块信息对所述其他当前待清洗业务数据进行数据筛分,并进行数据整理;在所述业务数据整理方式为所述事件整理方式时,从所述多组当前待清洗业务数据中选取一组当前待清洗业务数据作为参考事件业务数据,根据所述多组当前待清洗业务数据的业务事件数量判断是否设置所述业务事件标签;若设置所述业务事件标签,则利用所述参考事件业务数据的业务数据块信息以及所述业务事件标签对所述其他当前待清洗业务数据进行数据筛分,并进行数据整理;若不设置所述业务事件标签,则利用所述参考事件业务数据的业务数据块信息对所述其他当前待清洗业务数据进行数据筛分,并进行数据整理。
如此一来,基于上述步骤S12f-步骤S12i,能够采用不同的业务数据整理方式实现对当前待清洗业务数据的处理,从而得到当前待清洗业务数据对应的业务数据列表。这样可以在不同的业务场景下灵活使用上述方法进行业务数据列表的确定。
此外,在上述基础上,所述业务数据块信息还包括数据块配置记录。基于此,所述方法还包括步骤S12j和步骤S12k。
步骤S12j,在所述业务数据整理方式为所述时序整理方式时,根据所述数据块序列信息判断所述多组当前待清洗业务数据的业务持续时长是否相同;若是,则根据所述数据块配置记录对所述多组当前待清洗业务数据进行数据整理;若否,则根据所述多组当前待清洗业务数据的业务持续时长设置所述时序特征标签的标签权重,根据所述时序特征标签对所述多组当前待清洗业务数据进行数据整理。
步骤S12k,在所述业务数据整理方式为所述事件整理方式时,根据所述数据块序列信息判断所述多组当前待清洗业务数据的业务事件数量是否相同;若是,则根据所述多组当前待清洗业务数据的业务数据格式与业务数据存储路径对所述多组当前待清洗业务数据进行数据整理;若否,则根据所述多组当前待清洗业务数据的业务事件数量设置所述业务事件标签的标签权重以及所述业务事件标签对所述多组当前待清洗业务数据进行数据整理;其中,所述业务数据格式包括可修改格式与不可修改格式,在所述业务数据格式为所述可修改格式时,所述业务需求信息包括实时业务需求信息与延时业务需求信息,所述业务数据存储路径包括业务数据权限访问路径与业务数据调用路径。
由此可见,通过上述步骤S12a-步骤S12k,可以基于不同的业务情况进行业务数据列表的生成,不仅能够从全局层面保证业务数据列表的完整性,还能够提高整个方案的易用性以适应不同的业务场景。
在一些示例中,为了确保数据清洗的效率,并确保后续业务数据的正常使用,步骤S13所描述的基于所述业务数据列表对所述当前待清洗业务数据进行异常业务数据清洗,可以包括步骤S131-步骤S135。
步骤S131,确定业务数据列表的列表结构特征信息、列表区域特征信息和列表分组特征信息。
步骤S132,基于所述业务数据列表的列表分组特征信息和参考业务数据列表的列表分组特征信息,确定所述业务数据列表对应的第一业务数据分布信息,所述参考业务数据列表为包括三个不同特征维度的列表分组特征、且包括的列表分组特征的总数量大于第一设定数量的业务数据列表,且所述参考业务数据列表的列表生成时间位于所述业务数据列表的列表生成时间之前。
步骤S133,基于所述业务数据列表的列表结构特征信息和列表区域特征信息、上一个业务数据列表对应的异常业务数据标记信息和异常业务数据聚类信息、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果,所述异常业务数据分布结果至少包括第二业务数据分布信息,所述业务数据列表对应的异常业务数据分布结果指的是生成所述业务数据列表时业务数据处理终端的异常业务数据分布结果。
步骤S134,若所述第一业务数据分布信息与所述第二业务数据分布信息之间的分布信息误差大于设定误差阈值,确定所述业务数据列表为关键业务数据列表,基于所述第一业务数据分布信息和所述异常业务数据分布结果,确定业务数据处理环境中所有关键业务数据列表的第三业务数据分布信息、对应的异常业务数据标记和异常业务数据聚类。
步骤S135,通过所述业务数据处理环境中所有关键业务数据列表的第三业务数据分布信息、对应的异常业务数据标记和异常业务数据聚类,对所述当前待清洗业务数据进行异常业务数据清洗,得到目标业务数据。
可以理解,在应用上述步骤S131-步骤S135时,能够将业务数据列表的列表结构特征信息、列表区域特征信息和列表分组特征信息考虑在内,从而实现对不同业务数据分布信息的确定,进而确定出不同的异常业务数据分布结果,这样可以进一步确定第三业务数据分布信息、异常业务数据标记和异常业务数据聚类。如此,在基于第三业务数据分布信息、异常业务数据标记和异常业务数据聚类进行数据清洗时,不仅能够确保数据清洗的效率,并且能够确保后续业务数据的正常使用。
在上述基础上,所述业务数据列表的列表分组特征包括三个不同特征维度的列表分组特征。基于此,步骤S132所描述的基于所述业务数据列表的列表分组特征信息和参考业务数据列表的列表分组特征信息,确定所述业务数据列表对应的第一业务数据分布信息,可以包括步骤S1321-步骤S1324。
步骤S1321,基于所述业务数据列表的列表分组特征信息,确定所述业务数据列表中每个不同特征维度的列表分组特征在所述业务数据列表对应的业务数据交互环境下的不同特征维度描述信息,得到所述业务数据列表中三个不同特征维度的列表分组特征的不同特征维度描述信息。
步骤S1322,基于所述参考业务数据列表的列表分组特征信息,获取所述参考业务数据列表中三个不同特征维度的列表分组特征的不同特征维度描述信息。
步骤S1323,获取所述参考业务数据列表对应的第四业务数据分布信息。
步骤S1324,基于所述业务数据列表中列表分组特征的不同特征维度描述信息和所述参考业务数据列表中列表分组特征的不同特征维度描述信息、以及所述第四业务数据分布信息,确定所述业务数据列表对应的第一业务数据分布信息。
如此,可以基于步骤S1321-步骤S1324完整、实时地确定出业务数据分布信息。
进一步地,步骤S133所描述的基于所述业务数据列表的列表结构特征信息和列表区域特征信息、上一个业务数据列表对应的异常业务数据标记信息和异常业务数据聚类信息、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果,可以包括步骤S1331-步骤S1333。
步骤S1331,基于所述上一个业务数据列表的异常业务数据分布结果,确定所述业务数据列表的初始异常业务数据分布结果;确定所述业务数据列表的列表结构特征信息指示的列表结构特征和列表区域特征信息指示的列表区域特征,以及确定所述上一个业务数据列表对应的异常业务数据标记信息指示的异常业务数据标记和异常业务数据聚类信息指示的异常业务数据聚类。
步骤S1332,基于所述业务数据列表的初始异常业务数据分布结果,确定所述上一个业务数据列表对应的异常业务数据标记在所述业务数据列表中的第一映射列表,以及所述上一个业务数据列表对应的异常业务数据聚类在所述业务数据列表中的第一映射数据聚类。
步骤S1333,确定所述业务数据列表的列表结构特征中与所述第一映射列表匹配的目标列表结构特征,以及确定所述业务数据列表的列表区域特征中与所述第一映射数据聚类匹配的目标列表区域特征;基于所述初始异常业务数据分布结果、所述第一映射列表、所述目标列表结构特征、所述第一映射数据聚类、所述目标列表区域特征、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果。
这样一来,通过实施上述步骤S1331-步骤S1333,能够同时考虑初始异常业务数据分布结果、第一映射列表、目标列表结构特征、第一映射数据聚类、目标列表区域特征以及第一业务数据分布信息,这样能确保异常业务数据分布结果尽可能地与实际业务状态相对应,并确保异常业务数据分布结果与实际业务状态的时序一致性,从而确保在数据清洗之后不会影响到一些业务数据的正常使用。
在一个可替换的实施例中,为了确保后续的业务数据清洗的效率和准确率,在步骤S13所描述的基于所述业务数据列表对所述当前待清洗业务数据进行异常业务数据清洗之后,所述方法还可以包括以下步骤S14所描述的内容:获取针对所述当前待清洗业务数据的业务数据清洗记录,根据所述业务数据清洗记录对预设的数据清洗线程的线程参数进行调整。
例如,业务数据清洗记录用于记录对当前待清洗业务数据进行各类异常业务数据清洗的完整过程,包括但不限数据删除和数据重组等。数据清洗线程可以是预先配置的清洗算法,例如可以是人工智能模型。
可以理解,通过实施上述步骤S14,能够对线程参数进行动态调整,从而基于不同的数据清洗实现对数据清洗线程的更新迭代,这样能够不断对数据清洗线程进行训练,从而提高后续的业务数据清洗的效率和准确率。
进一步地,在步骤S14的基础上,根据所述业务数据清洗记录对预设的数据清洗线程的线程参数进行调整,可以包括以下步骤S141-步骤S145所描述的内容。
步骤S141,确定所述业务数据清洗记录对应的数据清洗逻辑信息,并从所述数据清洗逻辑信息中提取得到针对所述异常业务数据的第一异常数据识别指标和第二异常数据识别指标;其中,所述第一异常数据识别指标用于表征所述异常业务数据的数据完整性指标,所述第二异常数据识别指标用于表征所述异常业务数据的数据正确性指标。
步骤S142,构建第一异常数据识别指标对应的第一识别指标特征矩阵,构建第二异常数据识别指标对应的第二识别指标特征矩阵,所述第一识别指标特征矩阵和所述第二识别指标特征矩阵分别包括多个不同识别准确度的指标识别单元;提取所述第一异常数据识别指标在所述第一识别指标特征矩阵的任一指标识别单元的初始清洗指标数据,将所述第二识别指标特征矩阵中具有最小识别准确度的指标识别单元确定为目标指标识别单元。
步骤S143,根据所述业务数据清洗记录的清洗记录时序信息将所述初始清洗指标数据映射到所述目标指标识别单元,在所述目标指标识别单元中得到初始清洗指标映射数据,并根据所述初始清洗指标数据、所述初始清洗指标映射数据,生成所述第一异常数据识别指标和所述第二异常数据识别指标之间的识别指标关联性列表。
步骤S144,以所述初始清洗指标映射数据为清洗参考数据在所述目标指标识别单元中获取待处理线程数据,根据所述识别指标关联性列表对应的关联性列表特征,将所述待处理线程数据映射到所述初始清洗指标数据所在指标识别单元,在所述初始清洗指标数据所在指标识别单元中得到所述待处理线程数据对应的实时线程数据,并确定所述实时线程数据的清洗参考数据为目标清洗指标数据。
步骤S145,获取所述初始清洗指标数据映射到所述目标指标识别单元中的数据映射路径;根据所述实时线程数据与所述数据映射路径上的多个映射路径节点对应的路径节点参数之间的关联度,在所述第二识别指标特征矩阵中遍历所述目标清洗指标数据对应的目标线程参数矩阵,直至获取到的所述目标线程参数矩阵所在指标识别单元的指标识别权重与所述目标清洗指标数据在所述第一识别指标特征矩阵中的指标识别权重一致时,停止获取下一指标识别单元中的目标线程参数矩阵,并建立所述目标清洗指标数据与最后一次获取到的目标线程参数矩阵之间的线程参数更新矩阵,基于所述线程参数更新矩阵对所述预设的数据清洗线程的线程参数进行调整。
图4是根据本申请的一些实施例所示的一种示例性基于大数据和深度学习的数据清洗装置140的框图,所述基于大数据和深度学习的数据清洗装置140可以包括以下功能模块。
参考信息确定模块141,用于比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息。
数据列表获得模块142,用于获取所述当前待清洗业务数据的业务数据特征;根据所述业务数据特征确定所述当前待清洗业务数据的数据清洗指标;根据所述数据清洗参考信息和所述数据清洗指标对所述当前待清洗业务数据进行处理,得到所述当前待清洗业务数据对应的业务数据列表。
业务数据清洗模块143,用于基于所述业务数据列表对所述当前待清洗业务数据进行异常业务数据清洗。
可以理解,上述装置实施例的描述可以参阅对图3所示的方法实施例的描述。
基于上述同样的发明构思,还提供了对应的系统实施例,关于该系统实施例的描述如下。
A1.一种基于大数据和深度学习的数据清洗方法,包括互相之间通信的云服务器和业务数据处理终端;其中,待处理业务数据在清洗的中间过程包括多组待清洗业务数据和多组已清洗业务数据,所述云服务器用于:
比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息;
获取所述当前待清洗业务数据的业务数据特征;根据所述业务数据特征确定所述当前待清洗业务数据的数据清洗指标;根据所述数据清洗参考信息和所述数据清洗指标对所述当前待清洗业务数据进行处理,得到所述当前待清洗业务数据对应的业务数据列表;
基于所述业务数据列表对所述当前待清洗业务数据进行异常业务数据清洗。
可以理解,待处理业务数据可以是业务数据处理终端对应的业务数据。
可以理解,上述系统实施例的描述可以参阅对图3所示的方法实施例的描述。
需要理解的是,针对上述内容没有进行名词解释的技术术语,本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定其所指代的含义,例如针对一些值、系数、权重等术语,本领域技术人员可以根据前后的逻辑关系进行推导和确定,这些数值的取值范围可以根据实际情况进行选取,例如0~1,又例如1~10,再例如50~100,在此均不作限定,本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及目标的技术特征/技术术语进行确定。对于一些未作解释的技术特征术语,本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导,从而清楚、完整地实施上述技术方案。因此上述内容对于本领域技术人员而言是清楚完整的。应当理解,本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的,因此上述内容并不是对整体方案的创造性的评判。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。
另外,本领域普通技术人员可以理解的是,本申请的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外,本申请的各方面可以表现为位于至少一个计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。
计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。
本申请各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写,包括面向对象程序设计,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET,Python等,或类似的常规程序编程语言,如"C"编程语言,Visual Basic,Fortran2003,Perl,COBOL 2002,PHP,ABAP,动态编程语言如Python,Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非申请专利范围中明确说明,本申请所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的申请专利范围并不仅限于披露的实施例,相反,申请专利范围旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动装置上安装所描述的系统。
同样应当理解的是,为了简化本申请揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法幷不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
Claims (8)
1.一种基于大数据和深度学习的数据清洗方法,其特征在于,待处理业务数据在清洗的中间过程包括多组待清洗业务数据和多组已清洗业务数据,所述方法包括:
确定业务数据列表的列表结构特征信息、列表区域特征信息和列表分组特征信息;
基于所述业务数据列表的列表分组特征信息和参考业务数据列表的列表分组特征信息,确定所述业务数据列表对应的第一业务数据分布信息,所述参考业务数据列表为包括三个不同特征维度的列表分组特征、且包括的列表分组特征的总数量大于第一设定数量的业务数据列表,且所述参考业务数据列表的列表生成时间位于所述业务数据列表的列表生成时间之前;
基于所述业务数据列表的列表结构特征信息和列表区域特征信息、上一个业务数据列表对应的异常业务数据标记信息和异常业务数据聚类信息、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果,所述异常业务数据分布结果至少包括第二业务数据分布信息,所述业务数据列表对应的异常业务数据分布结果指的是生成所述业务数据列表时业务数据处理终端的异常业务数据分布结果;
若所述第一业务数据分布信息与所述第二业务数据分布信息之间的分布信息误差大于设定误差阈值,确定所述业务数据列表为关键业务数据列表,基于所述第一业务数据分布信息和所述异常业务数据分布结果,确定业务数据处理环境中所有关键业务数据列表的第三业务数据分布信息、对应的异常业务数据标记和异常业务数据聚类;
通过所述业务数据处理环境中所有关键业务数据列表的第三业务数据分布信息、对应的异常业务数据标记和异常业务数据聚类,对当前待清洗业务数据进行异常业务数据清洗,得到目标业务数据。
2.根据权利要求1所述的方法,其特征在于,所述业务数据列表的列表分组特征包括三个不同特征维度的列表分组特征,所述基于所述业务数据列表的列表分组特征信息和参考业务数据列表的列表分组特征信息,确定所述业务数据列表对应的第一业务数据分布信息,包括:
基于所述业务数据列表的列表分组特征信息,确定所述业务数据列表中每个不同特征维度的列表分组特征在所述业务数据列表对应的业务数据交互环境下的不同特征维度描述信息,得到所述业务数据列表中三个不同特征维度的列表分组特征的不同特征维度描述信息;
基于所述参考业务数据列表的列表分组特征信息,获取所述参考业务数据列表中三个不同特征维度的列表分组特征的不同特征维度描述信息;
获取所述参考业务数据列表对应的第四业务数据分布信息;
基于所述业务数据列表中列表分组特征的不同特征维度描述信息和所述参考业务数据列表中列表分组特征的不同特征维度描述信息、以及所述第四业务数据分布信息,确定所述业务数据列表对应的第一业务数据分布信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述业务数据列表的列表结构特征信息和列表区域特征信息、上一个业务数据列表对应的异常业务数据标记信息和异常业务数据聚类信息、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果,包括:
基于所述上一个业务数据列表的异常业务数据分布结果,确定所述业务数据列表的初始异常业务数据分布结果;确定所述业务数据列表的列表结构特征信息指示的列表结构特征和列表区域特征信息指示的列表区域特征,以及确定所述上一个业务数据列表对应的异常业务数据标记信息指示的异常业务数据标记和异常业务数据聚类信息指示的异常业务数据聚类;
基于所述业务数据列表的初始异常业务数据分布结果,确定所述上一个业务数据列表对应的异常业务数据标记在所述业务数据列表中的第一映射列表,以及所述上一个业务数据列表对应的异常业务数据聚类在所述业务数据列表中的第一映射数据聚类;
确定所述业务数据列表的列表结构特征中与所述第一映射列表匹配的目标列表结构特征,以及确定所述业务数据列表的列表区域特征中与所述第一映射数据聚类匹配的目标列表区域特征;基于所述初始异常业务数据分布结果、所述第一映射列表、所述目标列表结构特征、所述第一映射数据聚类、所述目标列表区域特征、以及所述第一业务数据分布信息,确定所述业务数据列表对应的异常业务数据分布结果。
4.根据权利要求1所述的方法,其特征在于,在确定业务数据列表的列表结构特征信息、列表区域特征信息和列表分组特征信息的步骤之前,所述方法还包括:
比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息;
获取所述当前待清洗业务数据的业务数据特征;根据所述业务数据特征确定所述当前待清洗业务数据的数据清洗指标;根据所述数据清洗参考信息和所述数据清洗指标对所述当前待清洗业务数据进行处理,得到所述当前待清洗业务数据对应的业务数据列表。
5.根据权利要求4所述的方法,其特征在于,所述比较当前待清洗业务数据与前一组业务数据的业务数据差异信息,并基于所述当前待清洗业务数据之前的多组所述已清洗业务数据对所述业务数据差异信息进行处理,以确定所述当前待清洗业务数据的数据清洗参考信息,包括:
通过业务行为解析模型比较所述当前待清洗业务数据与所述前一组业务数据的业务行为差异信息;
基于所述业务行为差异信息确定所述当前待清洗业务数据是否为候选业务数据挖掘组;
若是,则基于数据分类记录比较所述当前待清洗业务数据与所述前一组业务数据的业务数据差异信息;
基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,以确定所述当前待清洗业务数据的数据清洗参考信息。
6.根据权利要求5所述的方法,其特征在于,所述基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,以确定所述当前待清洗业务数据的数据清洗参考信息,包括:
基于所述当前待清洗业务数据之前的多组所述已清洗业务数据的数据分类记录对所述业务数据差异信息进行差异信息分析,获得所述当前待清洗业务数据的第一差异信息描述值;
将所述第一差异信息描述值与第一描述值阈值和第二描述值阈值比较,所述第一描述值阈值小于所述第二描述值阈值;
若所述第一差异信息描述值小于所述第一描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示当前待清洗业务数据不是动态业务数据组;
若所述第一差异信息描述值大于所述第二描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示当前待清洗业务数据为动态业务数据组;
若所述第一差异信息描述值大于所述第一描述值阈值,且小于所述第二描述值阈值,则所述当前待清洗业务数据的数据清洗参考信息表示所述当前待清洗业务数据为互动业务数据组。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
检测连续多组待清洗业务数据的第一差异信息描述值与所述第一描述值阈值和所述第二描述值阈值的比较结果;
若预设数量的连续多组待清洗业务数据的第一差异信息描述值均大于第一描述值阈值,则以第一组大于第一描述值阈值的所述待清洗业务数据作为起始动态业务数据组;
确定相隔设定数量组的累积数据分类记录的记录差异并进行差异信息分析,获得相隔设定数量组待清洗业务数据的第二差异信息描述值;
将第二差异信息描述值与所述第二描述值阈值比较,预设数量的连续多组待清洗业务数据的第一差异信息描述值与所述第一描述值阈值比较;
若当前待清洗业务数据的第二差异信息描述值大于第二描述值阈值,且预设数量的连续多组待清洗业务数据的第一差异信息描述值小于所述第一描述值阈值,则以所述当前待清洗业务数据作为系统业务数据组。
8.一种云服务器,其特征在于,包括处理引擎、网络模块和存储器;所述处理引擎和所述存储器通过网络模块通信,所述处理引擎从所述存储器中读取计算机程序并运行,以执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554391.1A CN113342789A (zh) | 2020-12-01 | 2020-12-01 | 基于大数据和深度学习的数据清洗方法及云服务器 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554391.1A CN113342789A (zh) | 2020-12-01 | 2020-12-01 | 基于大数据和深度学习的数据清洗方法及云服务器 |
CN202011385263.0A CN112486969B (zh) | 2020-12-01 | 2020-12-01 | 应用于大数据和深度学习的数据清洗方法及云服务器 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011385263.0A Division CN112486969B (zh) | 2020-12-01 | 2020-12-01 | 应用于大数据和深度学习的数据清洗方法及云服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113342789A true CN113342789A (zh) | 2021-09-03 |
Family
ID=74938588
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110554388.XA Withdrawn CN113342788A (zh) | 2020-12-01 | 2020-12-01 | 基于大数据的数据清洗方法及云服务器 |
CN202011385263.0A Active CN112486969B (zh) | 2020-12-01 | 2020-12-01 | 应用于大数据和深度学习的数据清洗方法及云服务器 |
CN202110554391.1A Withdrawn CN113342789A (zh) | 2020-12-01 | 2020-12-01 | 基于大数据和深度学习的数据清洗方法及云服务器 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110554388.XA Withdrawn CN113342788A (zh) | 2020-12-01 | 2020-12-01 | 基于大数据的数据清洗方法及云服务器 |
CN202011385263.0A Active CN112486969B (zh) | 2020-12-01 | 2020-12-01 | 应用于大数据和深度学习的数据清洗方法及云服务器 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN113342788A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114203312B (zh) * | 2021-11-12 | 2022-12-16 | 蓝气球(北京)医学研究有限公司 | 结合大数据智慧医疗的数字化医疗服务分析方法及服务器 |
CN114721902B (zh) * | 2022-03-28 | 2024-08-23 | 华中科技大学 | 一种云数据库中oltp应用的在线异常检测方法和系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366078B2 (en) * | 2013-11-27 | 2019-07-30 | The Regents Of The University Of California | Data reduction methods, systems, and devices |
CN106294492A (zh) * | 2015-06-08 | 2017-01-04 | 深圳中兴网信科技有限公司 | 数据清洗方法及清洗引擎 |
CN104966172A (zh) * | 2015-07-21 | 2015-10-07 | 上海融甸信息科技有限公司 | 一种用于企业经营数据分析的大数据可视化分析处理系统 |
CN106874290B (zh) * | 2015-12-11 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 一种数据清洗方法及设备 |
US10558627B2 (en) * | 2016-04-21 | 2020-02-11 | Leantaas, Inc. | Method and system for cleansing and de-duplicating data |
CN106202569A (zh) * | 2016-08-09 | 2016-12-07 | 北京北信源软件股份有限公司 | 一种基于大数据量的清洗方法 |
CN109947746B (zh) * | 2017-10-26 | 2023-12-26 | 亿阳信通股份有限公司 | 一种基于etl流程的数据质量管控方法和系统 |
CN107943973A (zh) * | 2017-11-28 | 2018-04-20 | 上海云信留客信息科技有限公司 | 一种大数据智能清洗系统及云机器人智能清洗服务平台 |
CN110275878B (zh) * | 2019-06-25 | 2021-08-17 | 北京达佳互联信息技术有限公司 | 业务数据检测方法、装置、计算机设备及存储介质 |
CN111061732A (zh) * | 2019-12-05 | 2020-04-24 | 深圳迅策科技有限公司 | 一种基于大数据处理的报表生成方法 |
-
2020
- 2020-12-01 CN CN202110554388.XA patent/CN113342788A/zh not_active Withdrawn
- 2020-12-01 CN CN202011385263.0A patent/CN112486969B/zh active Active
- 2020-12-01 CN CN202110554391.1A patent/CN113342789A/zh not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN113342788A (zh) | 2021-09-03 |
CN112486969A (zh) | 2021-03-12 |
CN112486969B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110007220B (zh) | 一种断路器机构运行状态诊断方法及装置 | |
CN112486969B (zh) | 应用于大数据和深度学习的数据清洗方法及云服务器 | |
CN113328984B (zh) | 基于大数据和物联网通信的数据处理方法及数据处理系统 | |
CN115048370B (zh) | 用于大数据清洗的人工智能处理方法及大数据清洗系统 | |
CN112214496B (zh) | 基于大数据分析的化妆品生产线安全监测方法及云服务器 | |
CN112487495B (zh) | 基于大数据和云计算的数据处理方法及大数据服务器 | |
CN113347632A (zh) | 应用于人工智能的热点共享方法及大数据云平台 | |
CN113098884A (zh) | 基于大数据的网络安全监控方法、云平台系统及介质 | |
CN112215518B (zh) | 结合云计算的化妆品生产链调度方法及人工智能云平台 | |
CN115128438A (zh) | 一种芯片内部故障监测方法及其装置 | |
CN112486955B (zh) | 基于大数据和人工智能的数据维护方法及大数据服务器 | |
CN117615359B (zh) | 基于多种规则引擎的蓝牙数据传输方法及系统 | |
CN112528306A (zh) | 基于大数据和人工智能的数据访问方法及云计算服务器 | |
CN112579755A (zh) | 基于人工智能和云计算的信息应答方法及信息互动平台 | |
CN110177006B (zh) | 基于接口预测模型的节点测试方法及装置 | |
CN112330312B (zh) | 基于区块链支付和面部识别的数据处理方法及大数据平台 | |
CN113486354B (zh) | 一种固件安全评估方法、系统、介质及电子设备 | |
CN116360387B (zh) | 融合贝叶斯网络和性能-故障关系图谱的故障定位方法 | |
CN113032236B (zh) | 应用于人工智能和云计算的业务行为处理方法及服务器 | |
Cunha et al. | Agile-based Requirements Engineering for Machine Learning: A Case Study on Personalized Nutrition | |
CN118737293A (zh) | 多肽活性的可解释性分析方法、装置、设备、介质及产品 | |
CN117291436A (zh) | 一种电网设备采集系统的故障诊断方法、装置及介质 | |
CN112613878A (zh) | 基于大数据和区块链支付的信息检测方法及大数据服务器 | |
CN115525331A (zh) | 一种电网感知层智能终端固件逆向分析方法 | |
CN113327016A (zh) | 基于区块链的化妆品生产信息索引方法、系统及数据中心 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210903 |
|
WW01 | Invention patent application withdrawn after publication |