CN114756541A - 用于人工智能训练的大数据特征清洗决策方法及系统 - Google Patents

用于人工智能训练的大数据特征清洗决策方法及系统 Download PDF

Info

Publication number
CN114756541A
CN114756541A CN202210572122.2A CN202210572122A CN114756541A CN 114756541 A CN114756541 A CN 114756541A CN 202210572122 A CN202210572122 A CN 202210572122A CN 114756541 A CN114756541 A CN 114756541A
Authority
CN
China
Prior art keywords
feature
big data
cleaning
acquisition
cleaning strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210572122.2A
Other languages
English (en)
Other versions
CN114756541B (zh
Inventor
张耀荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Yinhua Information Technology Co ltd
Original Assignee
Yongxiu Jianxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yongxiu Jianxin Technology Co ltd filed Critical Yongxiu Jianxin Technology Co ltd
Priority to CN202210572122.2A priority Critical patent/CN114756541B/zh
Priority to CN202211268484.9A priority patent/CN115525639A/zh
Publication of CN114756541A publication Critical patent/CN114756541A/zh
Application granted granted Critical
Publication of CN114756541B publication Critical patent/CN114756541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种用于人工智能训练的大数据特征清洗决策方法及系统,基于采集噪声节点关联于大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,进而基于第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围为采集噪声节点筛选多个第二大数据特征清洗策略序列,基于第二大数据特征清洗策略序列进行大数据特征清洗决策,不仅考虑到了大数据采集运行程序的当前人工智能训练任务的大数据特征清洗策略特点,也考虑到了大数据特征清洗策略的噪声清洗特征范围,由此进行大数据特征清洗决策时可以提高与大数据采集运行程序的业务兼容性,由此提高大数据特征清洗效果。

Description

用于人工智能训练的大数据特征清洗决策方法及系统
技术领域
本公开涉及大数据技术领域,具体而言,涉及一种用于人工智能训练的大数据特征清洗决策方法及系统。
背景技术
在人工智能训练任务中,需要采集大量的样本数据作为特征学习的支撑。因此,人工智能训练任务通常需要联动大数据采集任务,然而大数据采集任务的执行过程中,所产生的大数据通常会存在诸多噪声,从而会影响后续人工智能训练任务的可靠性,因此需要进行采集噪声节点的分析并进行大数据特征清洗后,才能最终应用于后续的人工智能训练任务。然而相关技术中,本申请发明人研究过程中发现,当前大数据特征清洗决策时没有考虑与大数据采集运行程序的业务兼容性,进而难以保证最佳的大数据特征清洗效果。
发明内容
为了至少克服现有技术中的上述不足,本公开的目的在于提供一种用于人工智能训练的大数据特征清洗决策方法及系统。
第一方面,本公开提供一种用于人工智能训练的大数据特征清洗决策方法,应用于大数据服务系统,所述大数据服务系统与所述多个大数据采集服务器通信连接,所述方法包括:
获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点;
获取所述采集噪声节点关联于所述大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;
基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策。
在第一方面的一种可能的实施方式中,所述获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点,具体包括:
获取存在错误数据采集活动的大数据采集路由数据,对所述大数据采集路由数据进行错误采集路由特征提取,确定目标错误采集路由特征,所述目标错误采集路由特征包括所述大数据采集路由数据对应的目标错误采集轨迹特征,所述大数据采集路由数据为所述大数据采集服务器的目标AI训练阶段的大数据采集记录数据;
获取所述大数据采集路由数据中的目标采集路由节点,确定所述目标采集路由节点对应的第一协同采集路由节点;
基于所述第一协同采集路由节点的协同采集覆盖特征以及对应的协同采集指标信息,输出所述目标采集路由节点对应的目标采集快照特征,其中,所述协同采集指标信息基于所述目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度得到,所述协同采集覆盖特征为表示采集路由节点的协同采集路径的特征;
将所述目标错误采集路由特征与所述目标采集路由节点对应的目标采集快照特征进行关联性聚合,确定目标聚合特征,基于所述目标聚合特征确定所述大数据采集路由数据对应的错误采集决策信息;
获取所述错误采集决策信息中一个或多个错误采集决策数据区中每个错误采集决策数据区的噪声字段追溯数据,并获取所述每个错误采集决策数据区的第一噪声追溯类型,所述每个错误采集决策数据区的噪声字段追溯数据为该错误采集决策数据区对应于所述错误采集决策信息的噪声字段追溯数据,所述错误采集决策数据区的第一噪声追溯类型表征所述错误采集决策数据区的噪声字段属性信息,所述错误采集决策数据区的噪声字段属性信息用于表征所述错误采集决策数据区的潜在噪声字段;
基于所述每个错误采集决策数据区的第一噪声追溯类型从所述一个或多个错误采集决策数据区中获取对应的噪声采集数据单元,并从所述一个或多个错误采集决策数据区的噪声字段追溯数据获取所述噪声采集数据单元的噪声字段追溯数据;
基于所述噪声采集数据单元的噪声字段追溯数据对所述错误采集决策信息中所述噪声采集数据单元进行识别,以得到所述噪声采集数据单元的采集噪声节点。
譬如,在第一方面的一种可能的实施方式中,所述基于所述第一协同采集路由节点的协同采集覆盖特征以及对应的协同采集指标信息,输出所述目标采集路由节点对应的目标采集快照特征,具体包括:
获取所述第一协同采集路由节点与所述目标采集路由节点组成的采集路由节点图;
对于所述采集路由节点图中的采集路由节点,获取表示所述采集路由节点与协同采集路由节点的协同采集路径的协同采集覆盖特征;
基于所述协同采集覆盖特征与所述目标错误采集轨迹特征得到采集活动关联度,基于所述采集活动关联度确定所述协同采集路由节点对应的协同采集指标信息;
基于所述协同采集路由节点对应的协同采集指标信息以及所述协同采集路由节点的协同采集覆盖特征,确定所述采集路由节点对应的目标采集快照特征;
从所述采集路由节点图的每个采集路由节点对应的目标采集快照特征中,提取所述目标采集路由节点对应的目标采集快照特征。
譬如,在第一方面的一种可能的实施方式中,所述采集路由节点对应的目标采集快照特征是采集快照挖掘网络输出的,所述采集快照挖掘网络包括至少一个目标挖掘分支;
所述基于所述协同采集路由节点对应的协同采集指标信息以及所述协同采集路由节点的协同采集覆盖特征,确定所述采集路由节点对应的目标采集快照特征,具体包括:
将所述协同采集路由节点的协同采集覆盖特征以及所述协同采集覆盖特征加载至所述目标挖掘分支中进行特征挖掘,确定所述采集路由节点对应的第一采集快照特征;
基于所述采集路由节点对应的第一采集快照特征以及对应的所述协同采集路由节点对应的协同采集指标信息,输出所述采集路由节点对应的目标采集快照特征。
譬如,在第一方面的一种可能的实施方式中,所述采集路由节点对应的目标采集快照特征是采集快照挖掘网络输出的,所述采集快照挖掘网络包括至少一个目标挖掘分支;
所述基于所述协同采集覆盖特征与所述目标错误采集轨迹特征得到采集活动关联度,基于所述采集活动关联度确定所述协同采集路由节点对应的协同采集指标信息,具体包括:
基于所述目标挖掘分支中的第二挖掘分支的挖掘函数对所述协同采集覆盖特征进行处理,确定第一挖掘变量;
基于所述目标挖掘分支中的第三挖掘分支的挖掘函数对所述目标错误采集轨迹特征进行处理,确定第二挖掘变量;
基于所述第一挖掘变量与所述第二挖掘变量计算得到采集活动关联度;
基于所述采集活动关联度确定所述协同采集路由节点对应的协同采集指标信息,所述采集活动关联度与所述协同采集路由节点对应的协同采集指标信息成正相关关系。
譬如,在第一方面的一种可能的实施方式中,所述大数据采集路由数据包括多个采集路径约束数据,所述目标错误采集路由特征包括采集路径约束操作特征序列,所述采集路径约束操作特征序列包括每个采集路径约束数据对应的采集路径约束操作特征;
所述将所述目标错误采集路由特征与所述目标采集路由节点对应的目标采集快照特征进行关联性聚合,确定目标聚合特征,具体包括:
基于所述目标采集路由节点对应的目标采集快照特征对目标采集路径约束数据对应的采集路径约束操作特征进行采集快照引用处理,确定所述目标采集路径约束数据对应的采集快照引用特征;
基于所述目标采集路径约束数据对应的采集快照引用特征,调整所述采集路径约束操作特征序列中,所述目标采集路径约束数据对应的采集路径约束操作特征,确定调整好的采集路径约束操作特征序列;
基于关联性聚合网络对所述调整好的采集路径约束操作特征序列以及所述目标错误采集轨迹特征进行关联性聚合,确定关联性聚合后的采集路径约束操作特征序列以及关联性聚合后的目标错误采集轨迹特征;
所述基于所述目标聚合特征确定所述大数据采集路由数据对应的错误采集决策信息,具体包括:
将关联性聚合后的目标错误采集轨迹特征加载至完成模型调优的错误采集决策模型中,确定所述大数据采集路由数据对应的错误采集决策信息;
所述基于所述目标采集路由节点对应的目标采集快照特征对目标采集路径约束数据对应的采集路径约束操作特征进行采集快照引用处理,确定所述目标采集路径约束数据对应的采集快照引用特征,具体包括:
基于所述目标采集路由节点对应的目标采集快照特征与目标采集路径约束数据对应的采集路径约束操作特征进行关联性聚合处理,确定所述目标采集路径约束数据对应的采集快照引用特征。
譬如,在第一方面的一种可能的实施方式中,所述方法还包括:
获取范例大数据采集活动数据以及所述范例大数据采集活动数据对应的范例错误采集决策信息;
将所述范例大数据采集活动数据加载至错误采集路由特征提取网络中,确定范例错误采集路由特征,所述范例错误采集路由特征包括所述范例大数据采集活动数据对应的范例错误采集轨迹特征;
获取所述范例大数据采集活动数据对应的范例采集路由节点,确定所述范例采集路由节点对应的第二协同采集路由节点;
将所述第二协同采集路由节点对应的协同采集覆盖特征加载至采集快照挖掘网络中,基于所述协同采集覆盖特征以及对应的协同采集指标信息,输出所述范例采集路由节点对应的范例采集快照特征,所述协同采集指标信息基于所述范例错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度得到,所述协同采集覆盖特征为表示采集路由节点的协同采集路径的特征;
将所述范例错误采集路由特征与所述范例采集路由节点对应的范例采集快照特征加载至关联性聚合网络中进行关联性聚合,确定范例聚合特征;
基于错误采集预测网络对所述范例聚合特征进行处理,确定预测错误采集决策信息;
基于所述预测错误采集决策信息与所述范例错误采集决策信息调整所述错误采集预测网络的网络参数层信息,或者调整所述错误采集预测网络以及深度学习网络模型的网络参数层信息,所述深度学习网络模型包括所述错误采集路由特征提取网络、所述采集快照挖掘网络以及所述关联性聚合网络。
譬如,在第一方面的一种可能的实施方式中,所述方法还包括:
对所述错误采集决策信息进行采集噪声节点挖掘,确定所述大数据采集服务器的大数据采集运行程序的采集噪声节点,并依据所述采集噪声节点从对应绑定的清洗策略库中获得大数据特征清洗决策数据后,对所述大数据采集服务器进行大数据特征清洗决策;
其中,所述对所述错误采集决策信息进行采集噪声节点挖掘,确定所述大数据采集服务器的大数据采集运行程序的采集噪声节点,具体包括:
获取所述错误采集决策信息中一个或多个错误采集决策数据区中每个错误采集决策数据区的噪声字段追溯数据,并获取所述每个错误采集决策数据区的第一噪声追溯类型,所述每个错误采集决策数据区的噪声字段追溯数据为该错误采集决策数据区对应于所述错误采集决策信息的噪声字段追溯数据,所述错误采集决策数据区的第一噪声追溯类型表征所述错误采集决策数据区的噪声字段属性信息,所述错误采集决策数据区的噪声字段属性信息用于表征所述错误采集决策数据区的潜在噪声字段;
基于所述每个错误采集决策数据区的第一噪声追溯类型从所述一个或多个错误采集决策数据区中获取对应的噪声采集数据单元,并从所述一个或多个错误采集决策数据区的噪声字段追溯数据获取所述噪声采集数据单元的噪声字段追溯数据;
基于所述噪声采集数据单元的噪声字段追溯数据对所述错误采集决策信息中所述噪声采集数据单元进行识别,以得到所述噪声采集数据单元的采集噪声节点。
第二方面,本公开实施例还提供一种用于人工智能训练的大数据特征清洗决策系统,所述用于人工智能训练的大数据特征清洗决策系统包括大数据服务系统以及与所述大数据服务系统通信连接的多个大数据采集服务器;
所述大数据服务系统,用于:
获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点;
获取所述采集噪声节点关联于所述大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;
基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策。
依据上述任意一个方面,本公开基于采集噪声节点关联于大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,进而基于第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围为采集噪声节点筛选多个第二大数据特征清洗策略序列,基于第二大数据特征清洗策略序列进行大数据特征清洗决策,不仅考虑到了大数据采集运行程序的当前人工智能训练任务的大数据特征清洗策略特点,也考虑到了大数据特征清洗策略的噪声清洗特征范围,由此进行大数据特征清洗决策时可以提高与大数据采集运行程序的业务兼容性,由此提高大数据特征清洗效果。
附图说明
图1为本发明实施例提供的用于人工智能训练的大数据特征清洗决策方法的流程示意图。
具体实施方式
下面介绍本发明一种实施例提供的用于人工智能训练的大数据特征清洗决策系统10的架构,该用于人工智能训练的大数据特征清洗决策系统10可以包括大数据服务系统100以及与大数据服务系统100通信连接的大数据采集服务器200。其中,用于人工智能训练的大数据特征清洗决策系统10中的大数据服务系统100和大数据采集服务器200可以通过配合执行以下方法实施例所描述的用于人工智能训练的大数据特征清洗决策方法,具体大数据服务系统100和大数据采集服务器200的执行步骤部分可以参照以下方法实施例的详细描述。
本实施例提供的用于人工智能训练的大数据特征清洗决策方法可以由大数据服务系统100执行,下面结合图1对该用于人工智能训练的大数据特征清洗决策方法进行详细介绍。
Process110,获取依据存在错误数据采集活动的大数据采集路由数据生成的大数据采集服务器的大数据采集运行程序的采集噪声节点。
本实施例中,大数据采集服务器可以通过大数据采集运行程序运行大数据采集任务,大数据采集任务可以基于AI训练任务触发,也即AI训练流程需要大量的基础数据,因此需要进行广泛的用户大数据采集。错误数据采集活动可以通过各种预先设定的规则进行判定,或者人工进行初步判定,如通过预先设定的规则进行判定,则可以是确定大数据采集路由数据中是否存在历史先验错误采集字段,如果存在,则表明存在错误数据采集活动。
Process120,获取采集噪声节点关联于大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列。
本实施例中,采集噪声节点是待进行大数据特征清洗决策的需要确定清洗决策信息的采集噪声段。本实施例中,大数据采集运行程序的当前人工智能训练任务可以由该大数据采集运行程序预先根据设定,在此不作具体限定。如用户兴趣点挖掘的训练任务,对于不同的人工智能训练任务而言,其所需的关键字段不同,因此大数据特征清洗策略也不同,因此可以预先针对不同的人工智能训练任务关联对应的大数据特征清洗策略序列,大数据特征清洗策略序列中的各个大数据特征清洗策略可以对应有相关联的噪声特征点。此时,在确定采集噪声节点后,可以将该采集噪声节点与大数据特征清洗策略序列中的各个大数据特征清洗策略相关联的噪声特征点进行匹配,将匹配成功的大数据特征清洗策略序列作为采集噪声节点关联于大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列。其中,值得说明的是,大数据服务系统100可以通过预设的大数据特征清洗策略库,或者外部绑定的与大数据服务系统100关联的大数据特征清洗策略库,获取采集噪声节点的第一大数据特征清洗策略序列。第一大数据特征清洗策略序列是由多个大数据特征清洗策略的特征清洗种类组成的第一大数据特征清洗策略序列。
Process130,基于第二大数据特征清洗策略序列对大数据采集服务器进行大数据特征清洗决策。
基于以上步骤,本实施例基于采集噪声节点关联于大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,进而基于第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围为采集噪声节点筛选多个第二大数据特征清洗策略序列,基于第二大数据特征清洗策略序列进行大数据特征清洗决策,不仅考虑到了大数据采集运行程序的当前人工智能训练任务的大数据特征清洗策略特点,也考虑到了大数据特征清洗策略的噪声清洗特征范围,由此进行大数据特征清洗决策时可以提高与大数据采集运行程序的业务兼容性,由此提高大数据特征清洗效果。
针对一些示例性的设计思路中,对于Process130的一些可能的实施例参见下述描述。
Process131,基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点;特征清洗点分配是指基于同一第二大数据特征清洗策略序列内每个大数据特征清洗策略的特征清洗域特征拟合出目标特征清洗点的特征清洗点图谱,使得同一第二大数据特征清洗策略序列内每个大数据特征清洗策略到对应的目标特征清洗点的代价值之和最小,特征清洗域特征包括大数据特征清洗策略的特征清洗时空域字段和特征清洗种类。
其中,特征清洗点分配是指基于已知的每个大数据特征清洗策略的特征清洗域特征,拟合出特征清洗点图谱,使得拟合得到的目标特征清洗点到所有大数据特征清洗策略的代价值之和最小。
例如,大数据服务系统100基于一个第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定该第二大数据特征清洗策略序列对应的目标特征清洗点,参照同样的方法,可以得到每个第二大数据特征清洗策略序列对应的目标特征清洗点。
Process132,基于第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特征清洗点的代价值确定关键特征清洗策略,基于关键特征清洗策略确定采集噪声节点对应的清洗决策信息;
Process133,基于采集噪声节点对应的清洗决策信息对大数据采集服务器进行大数据特征清洗决策。
例如,大数据服务系统100基于第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特征清洗点的代价值筛选出关键特征清洗策略。当大数据特征清洗策略到对应的目标特征清洗点的代价值大于目标数值时,可以确定该大数据特征清洗策略为关键特征清洗策略。大数据服务系统100再基于关键特征清洗策略的特征清洗时空域字段分布确定采集噪声节点对应的清洗决策信息。
由此,通过获取采集噪声节点的第一大数据特征清洗策略序列;基于第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点;基于第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特征清洗点的代价值确定关键特征清洗策略,基于关键特征清洗策略确定采集噪声节点对应的清洗决策信息。这样,基于采集噪声节点的第一大数据特征清洗策略序列可以自动确定出清洗决策信息,提高了大数据特征清洗决策效率。
针对一些示例性的设计思路中,对于Process120的一些可能的实施例参见下述描述。
Process121,依据噪声清洗特征范围的先验调整日志确定关键特征清洗策略。
Process122,对关键特征清洗策略进行特征清洗点分配,确定至少一个模糊特征清洗点。
Process123,基于模糊特征清洗点对第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列。
其中,特征清洗点分配是指基于已知的每个关键特征清洗策略的特征清洗位置,分配出模糊特征清洗点序列,使得特征清洗点分配得到的模糊特征清洗点序列到对应的关键特征清洗策略的代价值之和最小。关键特征清洗策略可以基于噪声清洗特征范围的先验调整日志确定。噪声清洗特征范围的先验调整日志是指第一大数据特征清洗策略序列中某一大数据特征清洗策略的噪声清洗特征范围在不同特征清洗域上的在先清洗调度次数。因此,当一个大数据特征清洗策略的两个相关联大数据特征清洗策略的噪声清洗特征范围差异较大,即该大数据特征清洗策略的噪声清洗特征范围的先验调整日志较大时,可以确定该大数据特征清洗策略为关键特征清洗策略。
例如,大数据服务系统100依据噪声清洗特征范围的先验调整日志可以在第一大数据特征清洗策略序列中确定关键特征清洗策略。大数据服务系统100对关键特征清洗策略进行特征清洗点分配,确定至少一个模糊特征清洗点。大数据服务系统100基于模糊特征清洗点对第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列。大数据服务系统100也可以基于模糊特征清洗点对第一大数据特征清洗策略序列进行选择,确定多个第一模糊大数据特征清洗策略序列,对第一模糊大数据特征清洗策略序列进行筛选得到第二大数据特征清洗策略序列。
针对一些示例性的设计思路中,大数据服务系统100在进行特征清洗点分配前,可以基于每个关键特征清洗策略的策略配置数据对关键特征清洗策略进行策略关联性汇集,确定每个关键特征清洗策略序列,对同一关键特征清洗策略序列中的关键特征清洗策略进行特征清洗点分配,确定每个关键特征清洗策略序列对应的模糊特征清洗点。大数据服务系统100具体可以是将策略配置数据在目标数值内的关键特征清洗策略归入一个关键特征清洗策略序列。
本实施例中,通过依据噪声清洗特征范围的先验调整日志确定关键特征清洗策略,对关键特征清洗策略进行特征清洗点分配,确定至少一个模糊特征清洗点,基于模糊特征清洗点对第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列。这样,依据噪声清洗特征范围的先验调整日志能够自动从第一大数据特征清洗策略序列中关键得到第二大数据特征清洗策略序列,选择效率高,有助于提高大数据特征清洗决策效率。
针对一些示例性的设计思路中,Process123的一些可能的实施例参见下述描述。
Process1221,基于模糊特征清洗点对第一大数据特征清洗策略序列进行选择,确定多个第一模糊大数据特征清洗策略序列。
Process1222,获取特征清洗域相同的存在联动关系的多个第一模糊大数据特征清洗策略序列,确定每个第二大数据特征清洗策略序列,每个第二大数据特征清洗策略序列的特征清洗种类基于特征清洗点图谱进行变化。
Process1223,获取与第二大数据特征清洗策略序列的特征清洗域呈扩大态势的第一模糊大数据特征清洗策略序列作为第三大数据特征清洗策略序列。
例如,大数据服务系统100基于模糊特征清洗点对第一大数据特征清洗策略序列进行选择,可以得到多个第一模糊大数据特征清洗策略序列。大数据服务系统100从第一模糊大数据特征清洗策略序列中获取特征清洗域相同的存在联动关系的多个第一模糊大数据特征清洗策略序列,一个第一模糊大数据特征清洗策略序列作为一个第二大数据特征清洗策略序列,确定每个第二大数据特征清洗策略序列。每个第二大数据特征清洗策略序列的特征清洗种类基于特征清洗点图谱进行变化。大数据服务系统100从第一模糊大数据特征清洗策略序列中获取与第二大数据特征清洗策略序列的特征清洗域呈扩大态势的第一模糊大数据特征清洗策略序列作为第三大数据特征清洗策略序列。可以理解,若第一模糊大数据特征清洗策略序列中不存在与第二大数据特征清洗策略序列的特征清洗域呈扩大态势的第一模糊大数据特征清洗策略序列,则没有第三大数据特征清洗策略序列。
本实施例中,基于模糊特征清洗点对第一大数据特征清洗策略序列进行选择,确定多个第一模糊大数据特征清洗策略序列,获取特征清洗域相同的存在联动关系的多个第一模糊大数据特征清洗策略序列,确定每个第二大数据特征清洗策略序列,每个第二大数据特征清洗策略序列的特征清洗种类基于特征清洗点图谱进行变化,获取与第二大数据特征清洗策略序列的特征清洗域呈扩大态势的第一模糊大数据特征清洗策略序列作为第三大数据特征清洗策略序列。这样,基于每个第一模糊大数据特征清洗策略序列的特征清洗点图谱和特征清洗种类可以从第一模糊大数据特征清洗策略序列中快速筛选出第二大数据特征清洗策略序列。
针对一些示例性的设计思路中,Process131的一些可能的实施例参见下述描述。
Process1311,沿着第二大数据特征清洗策略序列的特征清洗点图谱的方向形成模糊特征清洗点对每个第二大数据特征清洗策略序列进行选择,确定每个第二大数据特征清洗策略序列对应的中间特征清洗策略序列。
例如,大数据服务系统100可以沿着第二大数据特征清洗策略序列的特征清洗点图谱的方向形成模糊特征清洗点对每个第二大数据特征清洗策略序列进行选择,确定每个第二大数据特征清洗策略序列对应的中间特征清洗策略序列。大数据服务系统100可以进行一次选择,确定每个第二大数据特征清洗策略序列对应的两个中间特征清洗策略序列,大数据服务系统100也可以进行n次选择,确定每个第二大数据特征清洗策略序列对应的n+1个中间特征清洗策略序列。
Process1312,基于相关联第二大数据特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个第二大数据特征清洗策略序列的清洗测试性能特征。
其中,清洗策略测试数据可以是第二大数据特征清洗策略序列内所有大数据特征清洗策略的特征清洗种类的被测试的测试数据,例如测试次数,测试时间,测试类型、测试日志等。
例如,大数据服务系统100可以基于相关联第二大数据特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个第二大数据特征清洗策略序列的清洗测试性能特征。
Process1313,基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度。
其中,兼容度是用于判断中间特征清洗策略序列是否有效,是否可以用于特征清洗点分配。当中间特征清洗策略序列对应的清洗策略测试数据满足预设条件时,确定该中间特征清洗策略序列为有效的中间特征清洗策略序列,可以用于特征清洗点分配。当中间特征清洗策略序列对应的清洗策略测试数据不满足预设条件时,确定该中间特征清洗策略序列为无效的中间特征清洗策略序列,在特征清洗点分配时,需要滤除。
例如,大数据服务系统100沿着第二大数据特征清洗策略序列的特征清洗点图谱的方向形成模糊特征清洗点对每个第二大数据特征清洗策略序列进行选择,可以得到对应的关键特征清洗策略序列。大数据服务系统100可以基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度。大数据服务系统100在确定每个中间特征清洗策略序列的兼容度时,还可以借助参考第一大数据特征清洗策略序列来提高准确性。
Process1314,基于兼容度对同一第二大数据特征清洗策略序列内兼容的中间特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点。
例如,当确定每个中间特征清洗策略序列的兼容度后,大数据服务系统100可以基于同一第二大数据特征清洗策略序列内兼容的中间特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点。
本实施例中,沿着第二大数据特征清洗策略序列的特征清洗点图谱的方向形成模糊特征清洗点对每个第二大数据特征清洗策略序列进行选择,确定每个第二大数据特征清洗策略序列对应的中间特征清洗策略序列,基于相关联第二大数据特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个第二大数据特征清洗策略序列的清洗测试性能特征,基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度,基于兼容度对同一第二大数据特征清洗策略序列内兼容的中间特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点。这样,基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据筛选出兼容的中间特征清洗策略序列,基于兼容的中间特征清洗策略序列进行特征清洗点分配,可以得到更准确的目标特征清洗点,从而提高清洗决策信息的大数据特征清洗效果。
针对一些示例性的设计思路中,Process1313可以通过以下示例性的实施方式实现。
(1)将同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列作为关联成员特征清洗策略序列,归入同一个关联成员特征清洗策略序列簇,确定每个关键特征清洗策略序列内每个清洗测试性能特征对应的关联成员特征清洗策略序列簇。
(2)基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的清洗策略测试数据得到每个关联成员特征清洗策略序列簇对应的第一参考策略测试数据。
(3)当中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的第一参考策略测试数据的特征差异小于第一目标数值时,确定对应的中间特征清洗策略序列为兼容的中间特征清洗策略序列。
例如,大数据服务系统100可以将同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列作为关联成员特征清洗策略序列,归入同一个关联成员特征清洗策略序列簇,确定每个关键特征清洗策略序列内每个清洗测试性能特征对应的关联成员特征清洗策略序列簇。大数据服务系统100可以基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的清洗策略测试数据得到每个关联成员特征清洗策略序列簇对应的第一参考策略测试数据。当中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的第一参考策略测试数据的特征差异小于第一目标数值时,大数据服务系统100可以确定该中间特征清洗策略序列为兼容的中间特征清洗策略序列。由此,大数据服务系统100可以从所有的中间特征清洗策略序列中筛选出每个兼容的中间特征清洗策略序列,后续基于每个兼容的中间特征清洗策略序列进行特征清洗点分配。其中,第一目标数值可以基于实际需求进行设置。
本实施例中,将同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列作为关联成员特征清洗策略序列,归入同一个关联成员特征清洗策略序列簇,确定每个关键特征清洗策略序列内每个清洗测试性能特征对应的关联成员特征清洗策略序列簇,基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的清洗策略测试数据得到每个关联成员特征清洗策略序列簇对应的第一参考策略测试数据,当中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的第一参考策略测试数据的特征差异小于第一目标数值时,确定对应的中间特征清洗策略序列为兼容的中间特征清洗策略序列。
针对一些示例性的设计思路中,仍旧针对Process1313进行示例性的子步骤说明。
(1)沿着相关联第二大数据特征清洗策略序列的模糊特征清洗点的特征清洗域对第三大数据特征清洗策略序列进行选择,确定第三大数据特征清洗策略序列对应的参考特征清洗策略子序列;参考特征清洗策略子序列和第二大数据特征清洗策略序列一一对应。
(2)获取中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的参考成员特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据的特征差异作为评估差异,确定每个中间特征清洗策略序列对应的评估差异。
(3)基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的评估差异得到每个关联成员特征清洗策略序列簇对应的第二参考策略测试数据。
(4)当中间特征清洗策略序列对应的评估差异与对应的第二参考策略测试数据的特征差异小于第二目标数值时,确定对应的中间特征清洗策略序列为兼容的中间特征清洗策略序列。
例如,当存在参考特征清洗策略子序列时,可以通过参考特征清洗策略子序列辅助确定中间特征清洗策略序列的兼容度。大数据服务系统100可以沿着相关联第二大数据特征清洗策略序列的模糊特征清洗点的特征清洗域对第三大数据特征清洗策略序列进行选择,也就是通过扩展相关联第二大数据特征清洗策略序列的模糊特征清洗点对第三大数据特征清洗策略序列进行选择,确定第三大数据特征清洗策略序列对应的参考特征清洗策略子序列。一个参考特征清洗策略子序列对应一个第二大数据特征清洗策略序列。大数据服务系统100可以获取中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的参考成员特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据的特征差异作为评估差异,确定每个中间特征清洗策略序列对应的评估差异。大数据服务系统100可以基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的评估差异得到每个关联成员特征清洗策略序列簇对应的第二参考策略测试数据,具体可以是计算每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的评估差异的平均值,将每个关联成员特征清洗策略序列簇计算得到的平均值作为每个关联成员特征清洗策略序列簇对应的第二参考策略测试数据。当中间特征清洗策略序列对应的评估差异与对应的第二参考策略测试数据的特征差异小于第二目标数值时,大数据服务系统100可以确定该中间特征清洗策略序列为兼容的中间特征清洗策略序列。由此,大数据服务系统100可以从所有的中间特征清洗策略序列中筛选出每个兼容的中间特征清洗策略序列,后续基于每个兼容的中间特征清洗策略序列进行特征清洗点分配。其中,第二目标数值可以基于实际需求进行设置。例如,第二目标数值为10。
本实施例中,沿着相关联第二大数据特征清洗策略序列的模糊特征清洗点的特征清洗域对所述第三大数据特征清洗策略序列进行选择,确定所述第三大数据特征清洗策略序列对应的参考特征清洗策略子序列;所述参考特征清洗策略子序列和所述第二大数据特征清洗策略序列一一对应,获取中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的参考成员特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据的特征差异作为评估差异,确定每个中间特征清洗策略序列对应的评估差异,基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的评估差异得到每个关联成员特征清洗策略序列簇对应的第二参考策略测试数据,当中间特征清洗策略序列对应的评估差异与对应的第二参考策略测试数据的特征差异小于第二目标数值时,确定对应的中间特征清洗策略序列为兼容的中间特征清洗策略序列。这样,通过参考特征清洗策略子序列辅助确定中间特征清洗策略序列的兼容度,可以提高兼容度评估的准确率。
针对一些示例性的设计思路中,基于第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特征清洗点的代价值确定关键特征清洗策略,基于关键特征清洗策略确定采集噪声节点对应的清洗决策信息,包括:当第一大数据特征清洗策略序列中大数据特征清洗策略到对应的目标特征清洗点的代价值大于第三目标数值时,确定对应的大数据特征清洗策略为关键特征清洗策略;基于每个关键特征清洗策略的策略配置数据对关键特征清洗策略进行策略关联性汇集,基于策略关联性汇集结果确定关联性特征清洗策略序列;基于关联性特征清洗策略序列中大数据特征清洗策略的特征清洗时空域字段分布确定清洗决策信息。
例如,大数据服务系统100可以基于第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特征清洗点的代价值从所有大数据特征清洗策略中筛选出关键特征清洗策略,具体可以是当第一大数据特征清洗策略序列中大数据特征清洗策略到对应的目标特征清洗点的代价值大于第三目标数值时,确定对应的大数据特征清洗策略为关键特征清洗策略。筛选出所有的关键特征清洗策略后,大数据服务系统100基于每个关键特征清洗策略的策略配置数据对关键特征清洗策略进行策略关联性汇集,基于策略关联性汇集结果确定关联性特征清洗策略序列。
本实施例中,当第一大数据特征清洗策略序列中大数据特征清洗策略到对应的目标特征清洗点的代价值大于第三目标数值时,确定对应的大数据特征清洗策略为关键特征清洗策略;基于每个关键特征清洗策略的策略配置数据对关键特征清洗策略进行策略关联性汇集,基于策略关联性汇集结果确定关联性特征清洗策略序列;基于关联性特征清洗策略序列中大数据特征清洗策略的特征清洗时空域字段分布确定清洗决策信息。这样,基于大数据特征清洗策略到对应的目标特征清洗点的代价值可以快速确定关键特征清洗策略,基于关键特征清洗策略的策略配置数据和位置分布可以快速确定清洗决策信息,从而提高大数据特征清洗决策效率。
针对一些示例性的设计思路中,针对Process110的一些可能的实施例参见下述描述。
Process111,获取存在错误数据采集活动的大数据采集路由数据,对大数据采集路由数据进行错误采集路由特征提取,确定目标错误采集路由特征,目标错误采集路由特征包括大数据采集路由数据对应的目标错误采集轨迹特征。
其中,大数据采集路由数据用于表示大数据采集过程的采集过程数据,采集过程数据用于表示经由各个业务采集区的采集操作数据,大数据采集路由数据的业务场景可以基于实际需要确定。一个大数据采集路由数据可以包括多个采集路径约束数据,可以对大数据采集路由数据进行业务数据段的约束,确定多个采集路径约束数据。
目标错误采集轨迹特征是基于大数据采集路由数据的每个采集路径约束数据进行错误采集路由特征提取得到的。目标错误采集路由特征还可以包括采集路径约束操作特征序列,采集路径约束操作特征序列包括每个采集路径约束数据对应的采集路径约束操作特征。
例如,大数据服务系统可以基于错误采集路由特征提取网络对大数据采集路由数据进行错误采集路由特征提取,确定目标错误采集路由特征,目标错误采集路由特征包括采集路径约束操作特征序列以及目标错误采集轨迹特征。
Process112,获取大数据采集路由数据中的目标采集路由节点,确定目标采集路由节点对应的第一协同采集路由节点。
第一协同采集路由节点是指与目标采集路由节点存在协同采集路径的采集路由节点。协同采集路径例如可以是直接协同采集路径或者间接协同采集路径。目标采集路由节点对应的协同采集路由节点可以是基于采集路由节点图得到的。采集路由节点图可以用于描述采集路由节点与采集路由节点的协同采集路径,因此可以获取采集路由节点图中,与目标采集路由节点存在协同采集路径的协同采集路由节点。第一协同采集路由节点可以包括采集路由节点图中,与目标采集路由节点存在直接的协同采集路径的采集路由节点,以及存在间接协同采集路径的采集路由节点的至少一种。直接的协同采集路径是指目标采集路由节点与第一协同采集路由节点存在直接关系的连接,间接的协同采集路径是指目标采集路由节点与第一协同采集路由节点之间,还存在中间的协同采集路由节点。
例如,大数据服务系统可以对大数据采集路由数据进行采集路由节点识别,确定目标采集路由节点。
Process113,基于第一协同采集路由节点的协同采集覆盖特征以及对应的协同采集指标信息,输出目标采集路由节点对应的目标采集快照特征,其中,协同采集指标信息基于目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度得到,协同采集覆盖特征为表示采集路由节点的协同采集路径的特征。
本实施例中,协同采集指标信息是基于目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度得到,协同采集指标信息与采集活动关联度成正相关关系,采集活动关联度越大,则对应的协同采集指标信息越大。目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度可以是直接采集活动关联度或者间接采集活动关联度的至少一个。直接采集活动关联度是指计算目标错误采集轨迹特征与协同采集覆盖特征的采集活动关联度例如匹配度,作为目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度。间接采集活动关联度是指对目标错误采集轨迹特征进行进一步处理,对协同采集覆盖特征进行进一步处理,依据处理后的目标错误采集轨迹特征以及处理后的协同采集覆盖特征,确定目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度。
可以将基于目标采集路由节点对应的协同采集路由节点的协同采集覆盖特征以及协同采集覆盖特征,确定的特征信息称为采集快照特征。
例如,大数据服务系统可以将第一协同采集路由节点的协同采集覆盖特征以及第一协同采集路由节点与目标采集路由节点之间的协同采集覆盖特征、第一协同采集路由节点之间的协同采集覆盖特征加载至采集快照挖掘网络中,采集快照挖掘网络基于目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度,确定每个第一协同采集路由节点对应的协同采集指标信息。
Process114,将目标错误采集路由特征与目标采集路由节点对应的目标采集快照特征进行关联性聚合,确定目标聚合特征,并基于目标聚合特征确定大数据采集路由数据对应的错误采集决策信息。
关联性聚合过程可以将目标错误采集路由特征与目标采集路由节点对应的目标采集快照特征加载至关联性聚合网络中进行处理,关联性聚合网络例如可以是多层感知机模型。
针对一些示例性的设计思路中,目标错误采集路由特征包括采集路径约束操作特征序列,将目标错误采集路由特征与目标采集路由节点对应的目标采集快照特征进行关联性聚合,确定目标聚合特征包括:基于目标采集路由节点对应的目标采集快照特征对目标采集路径约束数据对应的采集路径约束操作特征进行采集快照引用处理,确定目标采集路径约束数据对应的采集快照引用特征;基于目标采集路径约束数据对应的采集快照引用特征,调整采集路径约束操作特征序列中,目标采集路径约束数据对应的采集路径约束操作特征,确定调整好的采集路径约束操作特征序列;基于关联性聚合网络对调整好的采集路径约束操作特征序列以及目标错误采集轨迹特征进行关联性聚合,确定关联性聚合后的采集路径约束操作特征序列以及关联性聚合后的目标错误采集轨迹特征。
其中,目标采集路径约束数据是指目标采集路由节点所对应的采集路径约束数据,由于采集路径约束操作特征是大数据采集路由数据中采集路径约束数据对应的错误采集路由特征提取向量,而目标采集路由节点是大数据采集路由数据中的采集路由节点,因此大数据采集路由数据的采集路径约束数据包括目标采集路由节点对应的采集路径约束数据,因此可以获取该目标采集路径约束数据对应的采集路径约束操作特征。
例如,目标聚合特征可以是关联性聚合后的采集路径约束操作特征序列或者关联性聚合后的目标错误采集轨迹特征。目标聚合特征基于具体的场景确定。大数据服务系统可以将目标聚合特征加载至错误采集预测网络中,错误采集预测网络对目标聚合特征进行处理,确定错误采集决策信息。
针对一些示例性的设计思路中,对于错误采集决策任务,关联性聚合后的目标错误采集轨迹特征为目标聚合特征,可以将关联性聚合后的目标错误采集轨迹特征加载至错误采集决策模型中,确定错误采集决策信息。
针对一些示例性的设计思路中,对于采集路由节点识别,关联性聚合后的采集路径约束操作特征序列为目标聚合特征,可以基于采集路由节点标识符对关联性聚合后的采集路径约束操作特征序列中,采集路由节点对应的采集路径约束操作特征进行标识,以基于采集路由节点对应的采集路径约束操作特征进行采集路由节点识别。
针对一些示例性的设计思路中,Process113即基于第一协同采集路由节点的协同采集覆盖特征以及对应的协同采集指标信息,输出目标采集路由节点对应的目标采集快照特征包括以下步骤:
Process1131,获取第一协同采集路由节点以及目标采集路由节点组成的采集路由节点图。
例如,采集路由节点图包括采集路由节点以及节点属性。采集路由节点为采集路由节点,采集路由节点之间存在节点属性表示采集路由节点之间存在直接的协同采集路径。
Process1132,对于采集路由节点图中的采集路由节点,获取表示采集路由节点与协同采集路由节点的协同采集路径的协同采集覆盖特征。
其中,采集路由节点是指采集路由节点图中的采集路由节点,目标采集路由节点以及第一协同采集路由节点为网络关系图谱中的采集路由节点。协同采集路由节点是指与该采集路由节点存在节点属性的连接的采集路由节点。
Process1133,基于协同采集覆盖特征与目标错误采集轨迹特征得到采集活动关联度,基于采集活动关联度确定协同采集路由节点对应的协同采集指标信息。
其中,采集活动关联度指特征匹配度。采集活动关联度与协同采集指标信息成正相关关系。即采集活动关联度越大,协同采集指标信息越大。
例如,大数据服务系统可以是将采集活动关联度作为协同采集指标信息,也可以是对采集活动关联度进行归一化处理,确定协同采集指标信息。
针对一些示例性的设计思路中,采集路由节点对应的采集快照特征是采集快照挖掘网络输出的,采集快照挖掘网络包括至少一个目标挖掘分支,对于不同的挖掘分支,其对应的协同采集指标信息可以是不变的,也可以是变化的。例如,基于协同采集覆盖特征与目标错误采集轨迹特征得到采集活动关联度,基于采集活动关联度确定协同采集路由节点对应的协同采集指标信息包括:基于目标挖掘分支中的第二挖掘分支的挖掘函数对协同采集覆盖特征进行处理,确定第一挖掘变量;基于目标挖掘分支中的第三挖掘分支的挖掘函数对目标错误采集轨迹特征进行处理,确定第二挖掘变量;基于第一挖掘变量与第二挖掘变量计算得到采集活动关联度;基于采集活动关联度确定协同采集路由节点对应的协同采集指标信息,采集活动关联度与协同采集路由节点对应的协同采集指标信息成正相关关系。
例如,大数据服务系统可以将协同采集覆盖特征以及目标错误采集轨迹特征加载至目标挖掘分支中,通过目标挖掘分支的第二挖掘分支的挖掘函数计算得到第一挖掘变量,通过目标挖掘分支的第三挖掘分支的挖掘函数计算得到第二挖掘变量,计算第二挖掘变量与第一挖掘变量的匹配度,对匹配度进行归一化处理,确定协同采集指标信息。
Process1134,基于协同采集路由节点对应的协同采集指标信息以及协同采集路由节点的协同采集覆盖特征,确定采集路由节点对应的目标采集快照特征。
例如,一个采集路由节点对应的协同采集路由节点可以有一个或者多个,大数据服务系统可以将该协同采集指标信息与协同采集路由节点的协同采集覆盖特征加权求和,确定采集路由节点对应的采集快照特征。也可以基于完成模型调优得到的采集快照挖掘网络的模型运行权重参数对协同采集路由节点的协同采集覆盖特征进行处理,确定第一采集快照特征,再将第一采集快照特征以及协同采集路由节点对应的协同采集指标信息进行加权处理,确定采集路由节点对应的目标采集快照特征。。
针对一些示例性的设计思路中,采集路由节点对应的采集快照特征是采集快照挖掘网络输出的,采集快照挖掘网络包括至少一个目标挖掘分支,基于协同采集路由节点对应的协同采集指标信息以及协同采集路由节点的协同采集覆盖特征,确定采集路由节点对应的目标采集快照特征包括:将协同采集路由节点的协同采集覆盖特征以及协同采集覆盖特征加载至目标挖掘分支中进行特征挖掘,确定采集路由节点对应的第一采集快照特征;基于采集路由节点对应的第一采集快照特征以及对应的协同采集路由节点对应的协同采集指标信息,输出采集路由节点对应的目标采集快照特征。
例如,大数据服务系统可以将采集路由节点对应的第一采集快照特征以及对应的协同采集路由节点对应的协同采集指标信息进行加权处理,确定采集路由节点对应的采集快照特征。由于是将协同采集路由节点的协同采集覆盖特征以及协同采集覆盖特征加载至挖掘分支中进行特征挖掘,通过结合协同采集覆盖特征与协同采集覆盖特征确定采集快照特征,使得得到的采集快照特征更加准确。
Process1135,从采集路由节点图的每个采集路由节点对应的目标采集快照特征中,提取目标采集路由节点对应的目标采集快照特征。
例如,由于采集路由节点图包括目标采集路由节点,即目标采集路由节点是其中的一个采集路由节点,因此得到的采集路由节点对应的采集快照特征后,可以提取得到目标采集路由节点所对应的采集快照特征。
针对一些示例性的设计思路中,下面介绍本申请另一个实施例,包括以下步骤:
Process1101,获取范例大数据采集活动数据以及范例大数据采集活动数据对应的范例错误采集决策信息。
其中,范例错误采集决策信息是指对范例大数据采集活动数据的参考标注结果。
Process1102,将范例大数据采集活动数据加载至错误采集路由特征提取网络中,确定范例错误采集路由特征,范例错误采集路由特征包括范例大数据采集活动数据对应的范例错误采集轨迹特征。
例如,错误采集路由特征提取网络可以对范例大数据采集活动数据进行错误采集路由特征提取,确定每个范例采集路径约束数据对应的范例采集路径约束操作特征,以及范例错误采集轨迹特征。
Process1103,获取范例大数据采集活动数据对应的范例采集路由节点,确定范例采集路由节点对应的第二协同采集路由节点。
例如,第二协同采集路由节点是指与范例采集路由节点存在协同采集路径的采集路由节点。
Process1104,将第二协同采集路由节点对应的协同采集覆盖特征加载至采集快照挖掘网络中,基于协同采集覆盖特征以及对应的协同采集指标信息,输出范例采集路由节点对应的范例采集快照特征,协同采集指标信息基于范例错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度得到,协同采集覆盖特征为表示采集路由节点的协同采集路径的特征。
例如,采集快照挖掘网络用于得到采集快照特征。如何得到范例采集快照特征的方式可以参照得到目标采集快照特征的方式。
例如,大数据服务系统可以获取范例采集路由节点以及第二协同采集路由节点组成的范例采集路由节点图,对于范例采集路由节点图中的采集路由节点,获取表示采集路由节点与协同采集路由节点的协同采集路径的协同采集覆盖特征;基于协同采集覆盖特征与范例错误采集轨迹特征得到采集活动关联度,基于采集活动关联度确定协同采集路由节点对应的协同采集指标信息;基于协同采集路由节点对应的协同采集指标信息以及协同采集路由节点的协同采集覆盖特征,确定范例采集路由节点图中,每个采集路由节点对应的范例采集快照特征;从范例采集路由节点图的每个采集路由节点对应的范例采集快照特征中,提取范例采集路由节点对应的范例采集快照特征。
又例如,可以将协同采集路由节点的协同采集覆盖特征以及协同采集覆盖特征加载至目标挖掘分支中进行特征挖掘,确定范例采集路由节点图中每个采集路由节点对应的第一采集快照特征,基于采集路由节点对应的第一采集快照特征以及对应的协同采集路由节点对应的协同采集指标信息,输出采集路由节点对应的范例采集快照特征。其中,在训练阶段,目标挖掘分支的网络参数层信息可以是在不断的进行优化的。
Process1105,将范例错误采集路由特征与范例采集路由节点对应的范例采集快照特征加载至关联性聚合网络中进行关联性聚合,确定范例聚合特征。
例如,确定范例聚合特征可以参照得到目标聚合特征的方式,在此不再详细赘述。
例如,大数据服务系统可以基于范例采集路由节点对应的范例采集快照特征对范例采集路径约束数据对应的采集路径约束操作特征进行采集快照引用处理,确定范例采集路径约束数据对应的采集快照引用特征;基于范例采集路径约束数据对应的采集快照引用特征,调整训练采集路径约束操作特征序列中,范例采集路径约束数据对应的采集路径约束操作特征,确定调整好的采集路径约束操作特征序列;基于关联性聚合网络对调整好的采集路径约束操作特征序列以及范例错误采集轨迹特征进行关联性聚合,确定关联性聚合后的采集路径约束操作特征序列以及关联性聚合后的范例错误采集轨迹特征。
Process1106,基于错误采集预测网络对范例聚合特征进行处理,确定预测错误采集决策信息。
例如,错误采集预测网络用于对大数据采集记录数据进行处理。
Process1107,基于预测错误采集决策信息与范例错误采集决策信息调整错误采集预测网络的网络参数层信息,或者调整错误采集预测网络以及深度学习网络模型的网络参数层信息,深度学习网络模型包括错误采集路由特征提取网络、采集快照挖掘网络以及关联性聚合网络。
Process115,获取错误采集决策信息中一个或多个错误采集决策数据区中每个错误采集决策数据区的噪声字段追溯数据,并获取每个错误采集决策数据区的第一噪声追溯类型,每个错误采集决策数据区的噪声字段追溯数据为该错误采集决策数据区对应于错误采集决策信息的噪声字段追溯数据,错误采集决策数据区的第一噪声追溯类型表征错误采集决策数据区的噪声字段属性信息,错误采集决策数据区的噪声字段属性信息用于表征错误采集决策数据区的潜在噪声字段。
Process116,基于每个错误采集决策数据区的第一噪声追溯类型从一个或多个错误采集决策数据区中获取对应的噪声采集数据单元,并从一个或多个错误采集决策数据区的噪声字段追溯数据获取噪声采集数据单元的噪声字段追溯数据。
Process117,基于噪声采集数据单元的噪声字段追溯数据对错误采集决策信息中噪声采集数据单元进行识别,以得到噪声采集数据单元的采集噪声节点。
一些实施例中,大数据服务系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
处理器110可以基于存储在机器可读存储介质120中的程序而执行各种适当的动作和处理,例如前述实施例所描述的用于人工智能训练的大数据特征清洗决策方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。
特别地,基于本发明的实施例,上文示例性流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信单元140从网络上被下载和安装,在该计算机程序被处理器110执行时,执行本发明实施例的方法中限定的上述功能。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的用于人工智能训练的大数据特征清洗决策方法。
本发明又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的用于人工智能训练的大数据特征清洗决策方法。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示每个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (10)

1.一种用于人工智能训练的大数据特征清洗决策方法,其特征在于,应用于大数据服务系统,所述方法包括:
获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点;
从预先配置的大数据特征清洗策略库中提取所述采集噪声节点关联于所述大数据采集运行程序的当前人工智能训练任务的第一大数据特征清洗策略序列,并基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列;
基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策。
2.根据权利要求1所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略的噪声清洗特征范围对所述第一大数据特征清洗策略序列进行选择,确定第二大数据特征清洗策略序列,具体包括:
依据噪声清洗特征范围的先验调整日志确定关键特征清洗策略;
对所述关键特征清洗策略进行特征清洗点分配,确定至少一个模糊特征清洗点;
基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定所述第二大数据特征清洗策略序列。
3.根据权利要求2所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定所述第二大数据特征清洗策略序列,具体包括:
基于所述模糊特征清洗点对所述第一大数据特征清洗策略序列进行选择,确定多个第一模糊大数据特征清洗策略序列;
获取特征清洗域相同的存在联动关系的多个第一模糊大数据特征清洗策略序列,确定每个第二大数据特征清洗策略序列,所述每个第二大数据特征清洗策略序列的特征清洗种类基于特征清洗点图谱进行变化;
获取与所述第二大数据特征清洗策略序列的特征清洗域呈扩大态势的第一模糊大数据特征清洗策略序列作为第三大数据特征清洗策略序列;所述第三大数据特征清洗策略序列被配置于协助决策目标特征清洗点。
4.根据权利要求3所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述第二大数据特征清洗策略序列对所述大数据采集服务器进行大数据特征清洗决策,具体包括:
基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个所述第二大数据特征清洗策略序列对应的目标特征清洗点;所述特征清洗点分配是指基于同一第二大数据特征清洗策略序列内每个大数据特征清洗策略的特征清洗域特征拟合出目标特征清洗点的特征清洗点图谱,使得同一第二大数据特征清洗策略序列内每个大数据特征清洗策略到对应的目标特征清洗点的代价值之和最小,所述特征清洗域特征包括大数据特征清洗策略的特征清洗时空域字段和特征清洗种类;
基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特征清洗点的代价值确定关键特征清洗策略,基于所述关键特征清洗策略确定所述采集噪声节点对应的清洗决策信息;
基于所述采集噪声节点对应的清洗决策信息对所述大数据采集服务器进行大数据特征清洗决策。
5.根据权利要求4所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于同一第二大数据特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个所述第二大数据特征清洗策略序列对应的目标特征清洗点,具体包括:
沿着所述第二大数据特征清洗策略序列的特征清洗点图谱的方向形成模糊特征清洗点对所述每个第二大数据特征清洗策略序列进行选择,确定每个第二大数据特征清洗策略序列对应的中间特征清洗策略序列;
基于相关联第二大数据特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定所述每个第二大数据特征清洗策略序列的清洗测试性能特征;
基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度;
基于兼容度对同一第二大数据特征清洗策略序列内兼容的中间特征清洗策略序列内大数据特征清洗策略的特征清洗种类进行特征清洗点分配,确定每个第二大数据特征清洗策略序列对应的目标特征清洗点。
6.根据权利要求5所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度,包括:
将同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列作为关联成员特征清洗策略序列,归入同一个关联成员特征清洗策略序列簇,确定每个关键特征清洗策略序列内每个清洗测试性能特征对应的关联成员特征清洗策略序列簇;
基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的清洗策略测试数据得到每个关联成员特征清洗策略序列簇对应的第一参考策略测试数据;
当中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的第一参考策略测试数据的特征差异小于第一目标数值时,确定对应的中间特征清洗策略序列为兼容的中间特征清洗策略序列。
7.根据权利要求6所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于同一关键特征清洗策略序列内清洗测试性能特征匹配的每个中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据,确定每个中间特征清洗策略序列的兼容度,包括:
沿着相关联第二大数据特征清洗策略序列的模糊特征清洗点的特征清洗域对所述第三大数据特征清洗策略序列进行选择,确定所述第三大数据特征清洗策略序列对应的参考特征清洗策略子序列;所述参考特征清洗策略子序列和所述第二大数据特征清洗策略序列一一对应;
获取中间特征清洗策略序列内大数据特征清洗策略的清洗策略测试数据与对应的参考特征清洗策略子序列内大数据特征清洗策略的清洗策略测试数据的特征差异作为评估差异,确定每个中间特征清洗策略序列对应的评估差异;
基于每个关联成员特征清洗策略序列簇中每个中间特征清洗策略序列对应的评估差异得到每个关联成员特征清洗策略序列簇对应的第二参考策略测试数据;
当中间特征清洗策略序列对应的评估差异与对应的第二参考策略测试数据的特征差异小于第二目标数值时,确定对应的中间特征清洗策略序列为兼容的中间特征清洗策略序列。
8.根据权利要求1所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述基于所述第一大数据特征清洗策略序列中每个大数据特征清洗策略到对应的目标特征清洗点的代价值确定关键特征清洗策略,基于所述关键特征清洗策略确定所述采集噪声节点对应的清洗决策信息,包括:
在解析到所述第一大数据特征清洗策略序列中大数据特征清洗策略到对应的目标特征清洗点的代价值大于第三目标数值时,确定对应的大数据特征清洗策略为关键特征清洗策略;
基于每个关键特征清洗策略的策略配置数据对关键特征清洗策略进行策略关联性汇集,基于策略关联性汇集结果确定关联性特征清洗策略序列;
基于所述关联性特征清洗策略序列中大数据特征清洗策略的特征清洗时空域字段分布确定所述清洗决策信息。
9.根据权利要求1-8中任意一项所述的用于人工智能训练的大数据特征清洗决策方法,其特征在于,所述获取依据存在错误数据采集活动的大数据采集路由数据生成的所述大数据采集服务器的大数据采集运行程序的采集噪声节点,具体包括:
获取存在错误数据采集活动的大数据采集路由数据,对所述大数据采集路由数据进行错误采集路由特征提取,确定目标错误采集路由特征,所述目标错误采集路由特征包括所述大数据采集路由数据对应的目标错误采集轨迹特征,所述大数据采集路由数据为所述大数据采集服务器的目标AI训练阶段的大数据采集记录数据;
获取所述大数据采集路由数据中的目标采集路由节点,确定所述目标采集路由节点对应的第一协同采集路由节点;
基于所述第一协同采集路由节点的协同采集覆盖特征以及对应的协同采集指标信息,输出所述目标采集路由节点对应的目标采集快照特征,其中,所述协同采集指标信息基于所述目标错误采集轨迹特征与协同采集覆盖特征之间的采集活动关联度得到,所述协同采集覆盖特征为表示采集路由节点的协同采集路径的特征;
将所述目标错误采集路由特征与所述目标采集路由节点对应的目标采集快照特征进行关联性聚合,确定目标聚合特征,基于所述目标聚合特征确定所述大数据采集路由数据对应的错误采集决策信息;
获取所述错误采集决策信息中一个或多个错误采集决策数据区中每个错误采集决策数据区的噪声字段追溯数据,并获取所述每个错误采集决策数据区的第一噪声追溯类型,所述每个错误采集决策数据区的噪声字段追溯数据为该错误采集决策数据区对应于所述错误采集决策信息的噪声字段追溯数据,所述错误采集决策数据区的第一噪声追溯类型表征所述错误采集决策数据区的噪声字段属性信息,所述错误采集决策数据区的噪声字段属性信息用于表征所述错误采集决策数据区的潜在噪声字段;
基于所述每个错误采集决策数据区的第一噪声追溯类型从所述一个或多个错误采集决策数据区中获取对应的噪声采集数据单元,并从所述一个或多个错误采集决策数据区的噪声字段追溯数据获取所述噪声采集数据单元的噪声字段追溯数据;
基于所述噪声采集数据单元的噪声字段追溯数据对所述错误采集决策信息中所述噪声采集数据单元进行识别,以得到所述噪声采集数据单元的采集噪声节点。
10.一种大数据服务系统,其特征在于,所述大数据服务系统包括一个或多个处理器;机器可读存储介质,用于存储一个或多个程序, 在解析到所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器以执行权利要求1-9中任意一项的用于人工智能训练的大数据特征清洗决策方法。
CN202210572122.2A 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统 Active CN114756541B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210572122.2A CN114756541B (zh) 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统
CN202211268484.9A CN115525639A (zh) 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210572122.2A CN114756541B (zh) 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211268484.9A Division CN115525639A (zh) 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统

Publications (2)

Publication Number Publication Date
CN114756541A true CN114756541A (zh) 2022-07-15
CN114756541B CN114756541B (zh) 2022-12-06

Family

ID=82335306

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210572122.2A Active CN114756541B (zh) 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统
CN202211268484.9A Pending CN115525639A (zh) 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202211268484.9A Pending CN115525639A (zh) 2022-05-25 2022-05-25 用于人工智能训练的大数据特征清洗决策方法及系统

Country Status (1)

Country Link
CN (2) CN114756541B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522806A (zh) * 2020-04-26 2020-08-11 陈文海 大数据清洗处理方法、装置、服务器及可读存储介质
CN111563071A (zh) * 2020-04-03 2020-08-21 深圳价值在线信息科技股份有限公司 数据清洗方法、装置、终端设备及计算机可读存储介质
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113505120A (zh) * 2021-09-10 2021-10-15 西南交通大学 一种大规模人脸数据集的双阶段噪声清洗方法
CN114416707A (zh) * 2021-12-10 2022-04-29 浙江蓝卓工业互联网信息技术有限公司 工业时序数据的自动化特征工程方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563071A (zh) * 2020-04-03 2020-08-21 深圳价值在线信息科技股份有限公司 数据清洗方法、装置、终端设备及计算机可读存储介质
CN111522806A (zh) * 2020-04-26 2020-08-11 陈文海 大数据清洗处理方法、装置、服务器及可读存储介质
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113505120A (zh) * 2021-09-10 2021-10-15 西南交通大学 一种大规模人脸数据集的双阶段噪声清洗方法
CN114416707A (zh) * 2021-12-10 2022-04-29 浙江蓝卓工业互联网信息技术有限公司 工业时序数据的自动化特征工程方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘云恒等: "一种不确定RFID数据流清洗策略", 《计算机科学》 *

Also Published As

Publication number Publication date
CN115525639A (zh) 2022-12-27
CN114756541B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110839016B (zh) 异常流量监测方法、装置、设备及存储介质
CN114697128B (zh) 通过人工智能决策的大数据去噪方法及大数据采集系统
CN106503863A (zh) 基于决策树模型的年龄特征的预测方法、系统及终端
CN114880314B (zh) 应用人工智能策略的大数据清洗决策方法及ai处理系统
CN115048370B (zh) 用于大数据清洗的人工智能处理方法及大数据清洗系统
CN116862081B (zh) 一种污染治理设备运维方法及系统
CN111859047A (zh) 一种故障解决方法及装置
CN111583442B (zh) 终端策略配置方法、装置、计算机设备和存储介质
CN112763848A (zh) 确定电力系统故障的方法及装置
CN113098884A (zh) 基于大数据的网络安全监控方法、云平台系统及介质
CN114756541B (zh) 用于人工智能训练的大数据特征清洗决策方法及系统
CN114661785A (zh) 基于大数据挖掘的用户画像确定方法及云计算服务系统
CN114143060A (zh) 基于人工智能预测的信息安全预测方法及大数据安全系统
CN114416573A (zh) 一种应用程序的缺陷分析方法、装置、设备及介质
CN113726558A (zh) 基于随机森林算法的网络设备流量预测系统
CN112965795A (zh) 集群调度方法、电子设备及存储介质
CN108476147B (zh) 控制多终端计算系统的自主方法、计算装置和数据载体
CN115422179B (zh) 基于大数据清洗的ai训练处理方法及人工智能训练系统
Khoshgoftaar et al. Detecting outliers using rule-based modeling for improving CBR-based software quality classification models
CN115001849B (zh) 针对大数据安全漏洞挖掘的漏洞修复方法及漏洞修复系统
CN114143059B (zh) 基于大数据信息安全的安全防护指标优化方法及人工智能系统
CN115470504A (zh) 结合人工智能的数据风险分析方法及服务器
CN115037625A (zh) 网络切片处理方法、装置、电子设备及可读存储介质
CN115145904B (zh) 用于ai云计算训练的大数据清洗方法及大数据采集系统
CN112286969A (zh) 低频数据连续性确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220822

Address after: 250000 room b318, Haiyou commercial building, No. 9, Dongguan Street, Lixia District, Jinan City, Shandong Province

Applicant after: Jinan Renchang Trading Co.,Ltd.

Address before: 332000 room 1102, building 7, Lantian building, old town, Yongxiu County, Jiujiang City, Jiangxi Province

Applicant before: Yongxiu Jianxin Technology Co.,Ltd.

TA01 Transfer of patent application right

Effective date of registration: 20221010

Address after: No. 153, Jingshi Road, Lixia District, Jinan, Shandong 250000

Applicant after: Ren Zhigui

Address before: 250000 room b318, Haiyou commercial building, No. 9, Dongguan Street, Lixia District, Jinan City, Shandong Province

Applicant before: Jinan Renchang Trading Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221109

Address after: Room 411-3-29, No. 7617, Airport Road, Yaoqiang street, high tech Zone, Jinan City, Shandong Province

Applicant after: Jinan Yinhua Information Technology Co.,Ltd.

Address before: No. 153, Jingshi Road, Lixia District, Jinan, Shandong 250000

Applicant before: Ren Zhigui

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Big data feature cleaning decision method and system for AI training

Effective date of registration: 20230531

Granted publication date: 20221206

Pledgee: Bank of Beijing Co.,Ltd. Jinan Branch

Pledgor: Jinan Yinhua Information Technology Co.,Ltd.

Registration number: Y2023980042484