CN115062722A - 基于云端业务大数据清洗的ai训练方法及人工智能云系统 - Google Patents

基于云端业务大数据清洗的ai训练方法及人工智能云系统 Download PDF

Info

Publication number
CN115062722A
CN115062722A CN202210785807.5A CN202210785807A CN115062722A CN 115062722 A CN115062722 A CN 115062722A CN 202210785807 A CN202210785807 A CN 202210785807A CN 115062722 A CN115062722 A CN 115062722A
Authority
CN
China
Prior art keywords
acquisition
noise
training
cleaning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210785807.5A
Other languages
English (en)
Other versions
CN115062722B (zh
Inventor
刘占龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Areba Data Technology Shanghai Co ltd
Original Assignee
Harbin Bineng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Bineng Technology Co ltd filed Critical Harbin Bineng Technology Co ltd
Priority to CN202210785807.5A priority Critical patent/CN115062722B/zh
Publication of CN115062722A publication Critical patent/CN115062722A/zh
Application granted granted Critical
Publication of CN115062722B publication Critical patent/CN115062722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种基于云端业务大数据清洗的AI训练方法及人工智能云系统,基于云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息,由此对标的AI训练采集任务进行任务执行,获得训练样本部署数据,然后从训练样本部署数据中提取匹配AI业务训练任务的训练任务样本数据以及针对每个训练任务样本数据进行基于先验知识添加的训练标注信息,基于每个训练任务样本数据以及对应添加训练标注信息对AI业务训练任务所调用的AI训练模型进行模型训练,从而可以在进行大数据采集清洗优化之后进行训练样本的采集和训练,可以提高模型训练的准确性。

Description

基于云端业务大数据清洗的AI训练方法及人工智能云系统
技术领域
本申请涉及大数据和人工智能技术领域,具体而言,涉及一种基于云端业务大数据清洗的AI训练方法及人工智能云系统。
背景技术
大数据的数据采集是在确定用户目标的基础上,针对该范围内所有的结构化,半结构化和非结构化的数据的采集,采集后对这些数据进行处理,从中分析和挖掘出有价值的信息,例如通过分析和挖掘出对AI训练任务有价值的训练样本数据,进而进行相关业务分析的AI训练。基于此,大数据采集的合格度也关乎到后续AI训练流程的效果,相关技术中通常缺乏设置针对AI训练流程之前的大数据采集清洗优化流程,从而会影响模型训练的准确性。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种基于云端业务大数据清洗的AI训练方法及人工智能云系统。
第一方面,本申请提供一种基于云端业务大数据清洗的AI训练方法,应用于人工智能云系统,所述人工智能云系统与多个云端业务服务器通信连接,所述方法包括:
基于所述云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息;
基于所述大数据采集清洗优化信息对所述标的AI训练采集任务进行任务执行,获得训练样本部署数据;
响应于针对所述标的AI训练采集任务所对应的AI业务训练任务,从所述训练样本部署数据中提取匹配所述AI业务训练任务的训练任务样本数据以及针对每个所述训练任务样本数据进行基于先验知识添加的训练标注信息;
基于所述每个所述训练任务样本数据以及对应添加训练标注信息对所述AI业务训练任务所调用的AI训练模型进行模型训练。
针对一些示例性的设计思路而言,所述基于所述云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息的步骤,包括:
基于多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得所述大数据采集实例的采集噪声解析空间,所述采集噪声解析空间被配置于表达依据所述多个训练样本采集活动数据输出的多个采集噪声点的噪声渗透参数信息;
启用标的AI训练采集任务,并提取所述标的AI训练采集任务的多个关键采集节点,所述多个关键采集节点是基于所述标的AI训练采集任务在所述大数据采集实例中生成的多个目标训练样本采集活动数据进行提取的;
从所述采集噪声解析空间中提取关键采集噪声点,所述关键采集噪声点与所述多个关键采集节点的采集字段知识图谱存在关联,且对应的噪声渗透参数信息的噪声渗透参数均值大于设定噪声渗透参数均值;
依据所述关键采集噪声点,将所述多个关键采集节点进行大数据采集清洗优化,获得所述标的AI训练采集任务的大数据采集清洗优化信息。
针对一些示例性的设计思路而言,基于所述标的AI训练采集任务的大数据采集清洗优化信息获取对应的采集清洗控制信息;
获取所述采集清洗控制信息的采集清洗控制网络,所述采集清洗控制网络中包括清洗控制实体;
对所述采集清洗控制网络进行频繁项提取,确定所述采集清洗控制网络对应的频繁项集,所述频繁项集包括所述清洗控制实体中的第一数量个频繁项清洗协同成员以及每个频繁项清洗协同成员的协同数量;
依据所述每个频繁项清洗协同成员的协同数量对所述第一数量个频繁项清洗协同成员进行筛选,确定第二数量个模糊频繁项清洗协同成员;
依据所述第二数量个模糊频繁项清洗协同成员构建所述采集清洗控制网络对应的第一清洗协同基础数据和第二清洗协同基础数据,所述第一清洗协同基础数据为所述各个候选频繁项之间的协同信息,所述第二清洗协同基础数据为所述各个模糊频繁项清洗协同成员之间的协同信息;
将所述第一清洗协同基础数据和所述第二清洗协同基础数据加载到深度学习网络模型中,确定所述采集清洗控制网络对应的训练样本采集清洗实例,并依据所述训练样本采集清洗实例对所述采集清洗控制信息对应的清洗控制模板进行更新,获得最终配置的清洗控制模板信息。
譬如,针对一些示例性的设计思路而言,所述依据所述每个频繁项清洗协同成员的协同数量对所述第一数量个频繁项清洗协同成员进行筛选,确定第二数量个模糊频繁项清洗协同成员,具体包括:
依据所述第一数量个频繁项清洗协同成员中每个频繁项清洗协同成员数据的协同数量计算协同数量集,所述协同数量集包括平均协同数量、方差协同数量、中位协同数量中的至少一种;
依据所述协同数量集确定设定协同数量;
从所述第一数量个频繁项清洗协同成员中筛选出协同数量大于所述设定协同数量的第二数量个模糊频繁项清洗协同成员。
譬如,针对一些示例性的设计思路而言,所述将所述第一清洗协同基础数据和所述第二清洗协同基础数据加载到深度学习网络模型中,确定所述清洗控制实体对应的训练样本采集清洗实例,具体包括:
分析所述采集清洗控制网络所属的目标清洗控制分组;
将所述第一清洗协同基础数据和所述第二清洗协同基础数据加载到所述目标清洗控制分组对应的深度学习网络模型中,确定所述采集清洗控制网络对应的训练样本采集清洗实例,所述目标清洗控制分组对应的深度学习网络模型为采用目标清洗控制分组下的范例采集清洗控制网络进行模型权重信息更新获得的。
针对一些示例性的设计思路而言,所述将所述第一清洗协同基础数据和所述第二清洗协同基础数据加载到深度学习网络模型中,确定所述采集清洗控制网络对应的训练样本采集清洗实例的步骤之后,所述方法还包括:
确定所述采集清洗控制网络对应的训练样本采集清洗实例的协同数量;
分析所述训练样本采集清洗实例的协同数量是否大于设定协同数量;
若否,则将所述采集清洗控制网络输入多个标的深度学习网络模型中,确定多个标的训练样本采集清洗实例;
从所述多个标的训练样本采集清洗实例中筛选出所述采集清洗控制网络对应的目标训练样本采集清洗实例。
第二方面,本申请实施例还提供一种基于云端业务大数据清洗的AI训练系统,所述基于云端业务大数据清洗的AI训练系统包括人工智能云系统以及与所述人工智能云系统通信连接的多个云端业务服务器;
所述人工智能云系统,用于:
基于多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得所述大数据采集实例的采集噪声解析空间,所述采集噪声解析空间被配置于表达依据所述多个训练样本采集活动数据输出的多个采集噪声点的噪声渗透参数信息;
启用标的AI训练采集任务,并提取所述标的AI训练采集任务的多个关键采集节点,所述多个关键采集节点是基于所述标的AI训练采集任务在所述大数据采集实例中生成的多个目标训练样本采集活动数据进行提取的;
从所述采集噪声解析空间中提取关键采集噪声点,所述关键采集噪声点与所述多个关键采集节点的采集字段知识图谱存在关联,且对应的噪声渗透参数信息的噪声渗透参数均值大于设定噪声渗透参数均值;
依据所述关键采集噪声点,将所述多个关键采集节点进行大数据采集清洗优化,获得所述标的AI训练采集任务的大数据采集清洗优化信息。
采用以上任意一个实施方式,基于云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息,由此对标的AI训练采集任务进行任务执行,获得训练样本部署数据,然后从训练样本部署数据中提取匹配AI业务训练任务的训练任务样本数据以及针对每个训练任务样本数据进行基于先验知识添加的训练标注信息,基于每个训练任务样本数据以及对应添加训练标注信息对AI业务训练任务所调用的AI训练模型进行模型训练,从而可以在进行大数据采集清洗优化之后进行训练样本的采集和训练,可以提高模型训练的准确性。
附图说明
图1为本发明实施例提供的基于云端业务大数据清洗的AI训练方法的流程示意图。
具体实施方式
下面介绍本发明一种实施例提供的基于云端业务大数据清洗的AI训练系统10的架构,该基于云端业务大数据清洗的AI训练系统10可以包括人工智能云系统100以及与人工智能云系统100通信连接的云端业务服务器200。其中,基于云端业务大数据清洗的AI训练系统10中的人工智能云系统100和云端业务服务器200可以通过配合执行以下方法实施例所描述的基于云端业务大数据清洗的AI训练方法,具体人工智能云系统100和云端业务服务器200的执行步骤部分可以参照以下方法实施例的详细描述。
本实施例提供的基于云端业务大数据清洗的AI训练方法可以由人工智能云系统100执行,下面结合图1对该基于云端业务大数据清洗的AI训练方法进行详细介绍。
Process100,基于所述云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息。
本实施例中,当前启用的标的AI训练采集任务可以对应于AI业务训练任务,用于采集针对所述AI业务训练任务的训练样本部署数据,在进行采集之前,需要结合多个AI训练采集任务预先在大数据采集实例中生成的多个训练样本采集活动数据,确定当前启用的标的AI训练采集任务的大数据采集清洗优化信息。
Process200,基于所述大数据采集清洗优化信息对所述标的AI训练采集任务进行任务执行,获得训练样本部署数据。
在获取所述大数据采集清洗优化信息后,可以生成对应的大数据采集清洗优化指令,由此对所述标的AI训练采集任务进行任务执行,也即在任务执行过程中可以自动基于所述大数据采集清洗优化指令进行大数据采集清洗优化,进而获得训练样本部署数据,也即该训练样本部署数据为大数据采集清洗后的数据。
Process300,响应于针对所述标的AI训练采集任务所对应的AI业务训练任务,从所述训练样本部署数据中提取匹配所述AI业务训练任务的训练任务样本数据以及针对每个所述训练任务样本数据进行基于先验知识添加的训练标注信息。
本实施例中,AI业务训练任务可以基于实际需求进行选择,例如可以是用户兴趣预测的训练任务等,在此基础上,即可从训练样本部署数据中提取匹配所述AI业务训练任务的训练任务样本数据以及针对每个所述训练任务样本数据进行基于先验知识添加的训练标注信息,其中,基于先验知识添加可以是开发人员手动添加的,也可以是基于无监督训练进行添加的,具体不作限定。
Process400,基于所述每个所述训练任务样本数据以及对应添加训练标注信息对所述AI业务训练任务所调用的AI训练模型进行模型训练。
本实施例中,在获取到训练任务样本数据以及对应添加训练标注信息后,即可对所述AI业务训练任务所调用的AI训练模型进行模型训练,具体模型训练流程可以参见相关技术中现有模型训练流程即可,本实施例对此不作任何限制。
基于以上步骤,本实施例基于云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息,由此对标的AI训练采集任务进行任务执行,获得训练样本部署数据,然后从训练样本部署数据中提取匹配AI业务训练任务的训练任务样本数据以及针对每个训练任务样本数据进行基于先验知识添加的训练标注信息,基于每个训练任务样本数据以及对应添加训练标注信息对AI业务训练任务所调用的AI训练模型进行模型训练,从而可以在进行大数据采集清洗优化之后进行训练样本的采集和训练,可以提高模型训练的准确性。
对于一些示例性的设计思路,前述的Process100可以通过下述实施例进一步实现。
Process110,基于多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得大数据采集实例的采集噪声解析空间,采集噪声解析空间被配置于表达依据多个训练样本采集活动数据输出的多个采集噪声点的噪声渗透参数信息。
Process120,启用标的AI训练采集任务,并提取标的AI训练采集任务的多个关键采集节点,多个关键采集节点是基于标的AI训练采集任务在大数据采集实例中生成的多个目标训练样本采集活动数据进行提取的。
Process130,从所述采集噪声解析空间中提取关键采集噪声点,关键采集噪声点位于多个关键采集节点之间未与多个关键采集节点绑定且对应的噪声渗透参数信息的噪声渗透参数均值大于设定噪声渗透参数均值。
Process140,依据关键采集噪声点,将多个关键采集节点进行大数据采集清洗优化,获得标的AI训练采集任务的大数据采集清洗优化信息。
采用以上技术方案,本实施例基于多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得AI训练采集任务在该大数据采集实例中行为的采集噪声解析空间,依据采集噪声解析空间对标的AI训练采集任务在大数据采集实例中的关键采集节点进行大数据采集清洗优化,重构标的AI训练采集任务在大数据采集实例中的大数据采集清洗优化信息,基于采集噪声解析空间表征噪声渗透参数信息的能力,基于大数据采集清洗优化精确生成标的AI训练采集任务的大数据采集清洗优化信息,从而使得生成的大数据采集清洗优化信息相较于基于请求的关键采集节点进行后续的大数据采集清洗优化操作而言大数据采集清洗针对性更强,可以更匹配实际AI训练采集任务的采集倾向特点。
下面介绍本申请一种可能的实施例所提供的关键采集节点生成方法。
Process210,获取多个训练样本采集活动数据,基于多个训练样本采集活动数据,输出多个采集噪声点。
例如,可以将所述多个训练样本采集活动数据输入到预先训练完成的噪声点提取模型中进行噪声点提取,输出所述多个采集噪声点的采集噪声挖掘数据。
其中,所述噪声点提取模型的训练步骤包括:
Process211,获取参考训练样本采集活动数据以及所述参考训练样本采集活动数据对应标注的参考采集噪声点的采集噪声数据;
Process212,将所述参考训练样本采集活动数据输入到初始化权重信息的初始噪声点提取模型中,输出所述参考训练样本采集活动数据所对应的预测采集噪声点的采集噪声数据;
Process213,基于所述预测采集噪声点的采集噪声数据和所述参考采集噪声点的采集噪声数据计算所述初始噪声点提取模型在噪声点提取过程中的损失函数值;
Process214,基于所述损失函数值对所述初始噪声点提取模型进行模型更新以降低所述损失函数值,直到所述损失函数值收敛时,输出训练完成的所述噪声点提取模型。
发明人研究发现,现有技术仅采用请求的关键采集节点,会导致大数据采集清洗针对性不强,无法匹配实际AI训练采集任务的采集倾向特点。其中,本申请中提及的AI训练采集任务可以是单个AI训练采集任务、也可以是由多个AI训练采集任务构成的某个AI训练采集任务群等,本申请对此不进行具体限定。
因此,本申请提出了一种关键采集节点生成方法,需要基于多个AI训练采集任务在大数据采集实例中生成的训练样本采集活动数据,获得与该大数据采集实例相关的采集噪声解析空间。
针对一些示例性的设计思路而言,获取多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,基于多个训练样本采集活动数据,输出多个采集噪声点,在后续基于这些采集噪声点构建该大数据采集实例的采集噪声解析空间。
Process220,依据多个训练样本采集活动数据的采集噪声挖掘数据对多个采集噪声点进行噪声渗透路径挖掘,确定多个噪声渗透路径。
针对一些示例性的设计思路而言,当确定了多个采集噪声点后,便可以将这些采集噪声点进行聚合,并构建多个AI训练采集任务在大数据采集实例中的多个关键采集节点。其中,在形成关键采集节点时,需要以AI训练采集任务为单位,也即针对某一个AI训练采集任务的采集噪声点进行关键采集节点关联,形成该AI训练采集任务的关键采集节点,并同时或顺序形成其它AI训练采集任务的关键采集节点。
针对一些示例性的设计思路而言,需要依据多个AI训练采集任务将多个训练样本采集活动数据划分为多个成员训练样本采集数据,多个成员训练样本采集数据中每个成员训练样本采集数据包括的训练样本采集活动数据是同一个AI训练采集任务生成,换言之依据AI训练采集任务对训练样本采集活动数据进行分组,将同一个AI训练采集任务生成训练样本采集活动数据划分在同一个成员训练样本采集数据,进而形成该AI训练采集任务的关键采集节点。下面以多个成员训练样本采集数据中的任一成员训练样本采集数据为例进行说明:首先,输出成员训练样本采集数据包括的训练样本采集活动数据的采集噪声挖掘数据,依据采集噪声挖掘数据的采集噪声挖掘流程,对成员训练样本采集数据包括的训练样本采集活动数据对应的采集噪声点进行当前业务更新字段所对应的白名单成员匹配,也即依据采集噪声挖掘数据的先后顺序对成员训练样本采集数据包括的训练样本采集活动数据进行当前业务更新字段所对应的白名单成员匹配。例如,假设成员训练样本采集数据中包括的训练样本采集活动数据为A、B、C和D,A是在采集噪声挖掘T3生成,B是在采集噪声挖掘T1生成,C是在采集噪声挖掘T2生成,D是在采集噪声挖掘T4生成(采集噪声挖掘节点的顺序为T1、T2、T3、T4),则当前业务更新字段所对应的白名单成员匹配后的训练样本采集活动数据为B、C、A、D。随后,分别分析当前业务更新字段所对应的白名单成员匹配后的采集噪声点,在分析到不匹配当前业务更新字段所对应的白名单成员的采集噪声点时,表示在产生包括该采集噪声点的训练样本采集活动数据时无法确定AI训练采集任务的访问特征,因此,将分析在不匹配当前业务更新字段所对应的白名单成员的采集噪声点之前的采集噪声点进行关键采集节点关联,确定成员训练样本采集数据的噪声渗透路径,也即将该不匹配当前业务更新字段所对应的白名单成员的采集噪声点之间的全部采集噪声点依据采集噪声挖掘流程连接起来,形成一个关键采集节点作为噪声渗透路径。而由于不匹配当前业务更新字段所对应的白名单成员的采集噪声点是无法确定AI训练采集任务的访问特征,所以,需要重新确定关键采集节点,继续分析不匹配当前业务更新字段所对应的白名单成员的采集噪声点的下一采集噪声点,并重新依据上述的过程生成新的噪声渗透路径,直至多个采集噪声点均分析完毕,确定成员训练样本采集数据的多个噪声渗透路径。后续,重复对剩下的成员训练样本采集数据执行上述的过程,分别为多个成员训练样本采集数据生成噪声渗透路径,便可以得到多个噪声渗透路径。
Process230,对多个噪声渗透路径进行渗透参数分析,获得大数据采集实例的采集噪声解析空间。
针对一些示例性的设计思路而言,确定了多个噪声渗透路径后,开始对多个噪声渗透路径进行渗透参数分析,获得大数据采集实例的采集噪声解析空间。采集噪声解析空间实质上是被配置于表达依据多个训练样本采集活动数据输出的多个采集噪声点的噪声渗透参数信息,换言之基于这些噪声渗透路径确定由一个采集噪声点去往另一个采集噪声点的噪声渗透参数信息。
具体生成采集噪声解析空间的过程如下:首先,分析多个噪声渗透路径中每个噪声渗透路径包括的采集噪声点,将包括相同采集噪声点的噪声渗透路径以相同采集噪声点为连通噪声点进行连通,确定模糊采集噪声解析空间。例如,假设噪声渗透路径1被配置于表达从A训练样本采集操作到M训练样本采集操作再到X训练样本采集操作,噪声渗透路径2被配置于表达从A训练样本采集操作到M训练样本采集操作再到Y训练样本采集操作,则两个噪声渗透路径中相同采集噪声点即为M训练样本采集操作,将M训练样本采集操作作为连通噪声点将两个噪声渗透路径关联,确定的结果便是从A训练样本采集操作到M训练样本采集操作,M训练样本采集操作分叉指示到X训练样本采集操作和Y训练样本采集操作。随后,对于模糊采集噪声解析空间中的每个采集噪声点,在模糊采集噪声解析空间中确定与该采集噪声点存在连通字段的多个连通采集噪声点,确定多个连通采集噪声点中每个连通字段数据与采集噪声点触发采集联动关系的连通字段数量作为目标连通字段数量,并确定多个连通采集噪声点的全局噪声点数量。例如,假设采集噪声点M,与采集噪声点Y和X都存在连通字段,且确定得到采集噪声点Y与M在3个噪声渗透路径中存在关联关系,则采集噪声点Y的目标连通字段数量即为3。之后,计算多个连通采集噪声点中每个连通采集噪声点的目标连通字段数量与全局噪声点数量的和值,确定多个连通采集噪声点的噪声渗透参数信息。例如,假设采集噪声点M在多个噪声渗透路径中与4个采集噪声点存在关联关系,而采集噪声点Y的目标连通字段数量为3,则Y的噪声渗透参数信息即为3/4=75%。最后,分别为模糊采集噪声解析空间中每个采集噪声点的连通采集噪声点计算噪声渗透参数信息,将输出的全部噪声渗透参数信息加载到模糊采集噪声解析空间中,确定采集噪声解析空间。其中,在将噪声渗透参数信息加载到模糊采集噪声解析空间中时,该噪声渗透参数信息是针对哪两个采集噪声点输出的,便将该噪声渗透参数信息加载到哪两个采集噪声点之间。
Process240,从所述采集噪声解析空间中提取噪声渗透参数信息低于预设噪声渗透参数信息的采集噪声点作为遗弃采集噪声点,将遗弃采集噪声点以及遗弃采集噪声点对应的噪声渗透参数信息从采集噪声解析空间中删除。
针对一些示例性的设计思路而言,还可以噪声渗透参数信息,从所述采集噪声解析空间中提取噪声渗透参数信息低于预设噪声渗透参数信息的采集噪声点作为遗弃采集噪声点,将遗弃采集噪声点以及遗弃采集噪声点对应的噪声渗透参数信息从采集噪声解析空间中删除,实现依据预设噪声渗透参数信息对生成的采集噪声解析空间进行特征筛选,从而保证后续操作的精度。
至此,便基于多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得了大数据采集实例的采集噪声解析空间。之后,可以开始AI训练采集任务关键采集节点的重构,Process250,启用标的AI训练采集任务,并提取标的AI训练采集任务的多个关键采集节点。
针对一些示例性的设计思路而言,输出多个AI训练采集任务中被选中的AI训练采集任务作为标的AI训练采集任务,也即确定期望重构哪一个AI训练采集任务的大数据采集清洗优化信息。随后,在多个训练样本采集活动数据中查询标的AI训练采集任务生成多个目标训练样本采集活动数据,将依据多个目标训练样本采集活动数据进行提取的噪声渗透路径作为多个关键采集节点。例如,假设标的AI训练采集任务为采集任务R,训练样本采集活动数据A、B、S、G、K是采集任务R产生到人工智能云系统的,则训练样本采集活动数据A、B、S、G、K即为目标训练样本采集活动数据,依据上述的目标训练样本采集活动数据进行提取的噪声渗透路径也就是采集任务R的关键采集节点。
Process260,从所述采集噪声解析空间中提取关键采集噪声点。
譬如针对一些示例性的设计思路而言,输出了多个关键采集节点后,需要将多个关键采集节点进行大数据采集清洗优化,因此,需要从所述采集噪声解析空间中提取关键采集噪声点,关键采集噪声点也即是位于多个关键采集节点之间未与多个关键采集节点绑定且对应的噪声渗透参数信息的噪声渗透参数均值大于设定噪声渗透参数均值的采集噪声点,以便在后续依据关键采集噪声点将多个关键采集节点绑定。
针对一些示例性的设计思路而言,在确定关键采集噪声点时,首先,从所述采集噪声解析空间中查询位于多个关键采集节点之间的多个候选采集噪声点。随后,输出多个候选采集噪声点中每个候选采集噪声点的噪声渗透参数信息,将多个候选采集噪声点中噪声渗透参数信息的噪声渗透参数均值大于其它候选采集噪声点的噪声渗透参数信息的候选采集噪声点作为关键采集噪声点,也即将噪声渗透参数信息最大的候选采集噪声点作为关键采集噪声点。最后,将关键采集噪声点进行提取,以便后续用于多个关键采集节点之间的连接。
其中,可以在标的AI训练采集任务已知的多个关键采集节点基础上计算标的AI训练采集任务可能发生的关键采集节点以及关键采集节点的噪声渗透参数信息,进而在后续基于较高的噪声渗透参数信息重构标的AI训练采集任务的大数据采集清洗优化信息。例如,对于关键采集节点中噪声渗透参数信息过低的采集噪声点,还可以采用采集噪声解析空间进行校正,从而提高生成的大数据采集清洗优化信息的精度。
Process270,依据关键采集噪声点,将多个关键采集节点进行大数据采集清洗优化,获得标的AI训练采集任务的大数据采集清洗优化信息。
针对一些示例性的设计思路而言,当确定了关键采集噪声点后,便可以依据关键采集噪声点,将多个关键采集节点进行大数据采集清洗优化,获得标的AI训练采集任务的大数据采集清洗优化信息。
而在实际应用的过程中,人工智能云系统会为很多采集接口生成对应的采集噪声解析空间,基于这些采集噪声解析空间,可以对行为在采集接口中的AI训练采集任务进行关键采集节点的更新,具体更新过程如下:在结合输入的更新指令对请求的AI训练采集任务的大数据采集清洗优化信息进行更新时,获取请求的AI训练采集任务的当前采集噪声点以及目标采集噪声点。随后,搜索指定采集噪声解析空间,指定采集噪声解析空间中存在与当前采集噪声点相关的第一连通采集噪声点和与目标采集噪声点相关的第二连通采集噪声点,也即查询确定请求的AI训练采集任务正在哪个采集接口中进行采集,将该采集接口对应的采集噪声解析空间作为指定采集噪声解析空间。之后,开始为第一连通采集噪声点提取目标采集噪声点。其中,目标采集噪声点与第一连通采集噪声点存在关联且在指定采集噪声解析空间中的噪声渗透参数信息的噪声渗透参数均值大于与第一连通采集噪声点存在关联的其它采集噪声点的噪声渗透参数信息。例如,假设第一连通采集噪声点为A,A在指定采集噪声解析空间中存在关联的采集噪声点为B和C,B的噪声渗透参数信息为75%,C为25%,则将B作为A的目标采集噪声点。重复执行确定目标采集噪声点的过程,继续在指定采集噪声解析空间中为目标采集噪声点提取下一个目标采集噪声点,直至到达指定采集噪声解析空间的第二连通采集噪声点。最后,将连通采集噪声点、提取到的全部目标采集噪声点以及终止采集噪声点进行关键采集节点关联,确定请求的AI训练采集任务的更新关键采集节点,实现了对请求的AI训练采集任务的关键采集节点更新。
针对一些示例性的设计思路而言,在Process140中,例如可以获得关键采集噪声点与多个关键采集节点之间的采集清洗字段分布,然后确定与关键采集噪声点具有采集调度关系的目标采集清洗字段分布的关键采集节点集,构建为标的AI训练采集任务的大数据采集清洗优化信息,并分配大数据采集清洗优化信息中各个关键采集节点之间的采集清洗字段分布序列,采集清洗字段分布序列包括任意两个关键采集节点之间与关键采集噪声点之间的采集清洗字段分布以及与采集清洗字段分布对应的清洗控制信息。
采用以上技术方案,基于多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得AI训练采集任务在该大数据采集实例中行为的采集噪声解析空间,依据采集噪声解析空间对标的AI训练采集任务在大数据采集实例中的关键采集节点进行噪声渗透路径挖掘,重构标的AI训练采集任务在大数据采集实例中的大数据采集清洗优化信息,基于采集噪声解析空间表征噪声渗透参数信息的能力,精确生成AI训练采集任务的关键采集节点。
针对一些示例性的设计思路而言,还可以包括以下步骤:
Process150,基于所述标的AI训练采集任务的大数据采集清洗优化信息获取对应的采集清洗控制信息,并获取所述采集清洗控制信息的采集清洗控制网络,所述采集清洗控制网络中包括清洗控制实体。
针对一些示例性的设计思路而言,采集清洗控制网络中例如可以包括清洗控制实体。
Process160,对采集清洗控制网络进行频繁项提取,确定采集清洗控制网络对应的频繁项集。
针对一些示例性的设计思路而言,频繁项集包括清洗控制实体中的第一数量个频繁项清洗协同成员以及每个频繁项清洗协同成员的协同数量。例如,获取到采集清洗控制网络之后,可以使用训练完成的频繁项预测模型识别出采集清洗控制网络中清洗控制实体中的频繁项。
Process170,依据每个频繁项清洗协同成员的协同数量对第一数量个频繁项清洗协同成员进行筛选,确定第二数量个模糊频繁项清洗协同成员。
针对一些示例性的设计思路而言,确定采集清洗控制网络对应的第一数量个频繁项清洗协同成员以及每个频繁项清洗协同成员的协同数量之后,可以依据每个频繁项清洗协同成员的协同数量对所述第一数量个频繁项清洗协同成员进行筛选,确定第二数量个模糊频繁项清洗协同成员。
例如,可以依据第一数量个频繁项清洗协同成员中每个频繁项清洗协同成员数据的协同数量计算协同数量集,协同数量集可以包括平均协同数量、方差协同数量、中位协同数量中的至少一种,并依据协同数量集确定设定协同数量,然后从第一数量个频繁项清洗协同成员中筛选出协同数量大于设定协同数量的第二数量个模糊频繁项清洗协同成员。例如,协同数量集为平均协同数量,则可以将0.5倍均值确定为设定协同数量,并筛选出协同数量大于0.5倍平均协同数量的第二数量个模糊频繁项清洗协同成员,或者,协同数量集为方差协同数量,则可以分析上述方差是否大于预设方差协同数量,若是,则移除与平均协同数量相差较大的协同数量,直至方差协同数量低于预设方差协同数量,并重新计算移除后剩余的各个协同数量的平均协同数量,将此时的平均协同数量作为设定协同数量。或者,协同数量集包括平均协同数量、方差协同数量、中位协同数量,则获取大于中位协同数量的多个协同数量,并从上述多个协同数量中移除与平均协同数量相差较大的协同数量,直至方差协同数量低于预设方差协同数量,重新计算移除后剩余的各个协同数量的平均协同数量,将此时的平均协同数量作为设定协同数量。
Process180,依据第二数量个模糊频繁项清洗协同成员构建采集清洗控制网络对应的第一清洗协同基础数据和第二清洗协同基础数据。
针对一些示例性的设计思路而言,确定第二数量个模糊频繁项清洗协同成员之后,将依据该第二数量个模糊频繁项清洗协同成员构建采集清洗控制网络对应的第一清洗协同基础数据和第二清洗协同基础数据,其中,第一清洗协同基础数据可以为各个候选频繁项之间的协同信息,第二清洗协同基础数据可以为各个模糊频繁项清洗协同成员之间的协同信息。
Process190,将第一清洗协同基础数据和第二清洗协同基础数据加载到深度学习网络模型中,确定采集清洗控制网络对应的训练样本采集清洗实例,并依据所述训练样本采集清洗实例对所述采集清洗控制信息对应的清洗控制模板进行更新,获得最终配置的清洗控制模板信息。
针对一些示例性的设计思路而言,构建第一清洗协同基础数据和第二清洗协同基础数据后,可以将第一清洗协同基础数据和第二清洗协同基础数据加载到训练完成的深度学习网络模型中,确定采集清洗控制网络对应的训练样本采集清洗实例。
譬如,对深度学习网络模型进行训练的具体过程可以为,获取多个范例采集清洗控制网络,各个范例采集清洗控制网络中包括清洗控制实体以及被标记的训练样本采集清洗实例信息,对各个范例采集清洗控制网络进行频繁项提取,确定范例采集清洗控制网络对应的范例频繁项集,范例频繁项集包括清洗控制实体中的第一数量个范例频繁项清洗协同成员以及每个范例频繁项清洗协同成员的协同数量,依据每个范例频繁项清洗协同成员的协同数量对第一数量个范例频繁项清洗协同成员进行筛选,确定第二数量个目标范例频繁项清洗协同成员,依据第二数量个目标范例频繁项清洗协同成员构建范例采集清洗控制网络对应的范例第一清洗协同基础数据和范例第二清洗协同基础数据,并将范例第一清洗协同基础数据和范例第二清洗协同基础数据加载到初始深度学习网络模型中进行模型权重信息优化,以对初始深度学习网络模型中的模型权重信息优化,在检测到优化后的初始深度学习网络模型收敛时,将收敛的初始深度学习网络模型确定为深度学习网络模型,收敛要求可以为训练损失函数值小于预设值。
针对一些示例性的设计思路而言,以上方法还可以通过步骤实现:
Process310,基于所述标的AI训练采集任务的大数据采集清洗优化信息获取对应的采集清洗控制信息。
获取所述采集清洗控制信息的采集清洗控制网络。
针对一些示例性的设计思路而言,采集清洗控制网络中包括清洗控制实体。
Process320,对采集清洗控制网络进行频繁项提取,确定采集清洗控制网络对应的频繁项集。
针对一些示例性的设计思路而言,频繁项集包括清洗控制实体中的第一数量个频繁项清洗协同成员以及每个频繁项清洗协同成员的协同数量。例如,获取到采集清洗控制网络之后,可以使用训练完成的频繁项预测模型识别出采集清洗控制网络中清洗控制实体中的频繁项。
Process330,依据每个频繁项清洗协同成员的协同数量对第一数量个频繁项清洗协同成员进行筛选,确定第二数量个模糊频繁项清洗协同成员。
针对一些示例性的设计思路而言,确定采集清洗控制网络对应的第一数量个频繁项清洗协同成员以及每个频繁项清洗协同成员的协同数量之后,依据每个频繁项清洗协同成员的协同数量对所述第一数量个频繁项清洗协同成员进行筛选,确定第二数量个模糊频繁项清洗协同成员。
Process340,依据第二数量个模糊频繁项清洗协同成员构建采集清洗控制网络对应的第一清洗协同基础数据和第二清洗协同基础数据。
针对一些示例性的设计思路而言,确定第二数量个模糊频繁项清洗协同成员之后,将依据该第二数量个模糊频繁项清洗协同成员构建采集清洗控制网络对应的第一清洗协同基础数据和第二清洗协同基础数据,其中,第一清洗协同基础数据为各个候选频繁项之间的协同信息,第二清洗协同基础数据为所述各个模糊频繁项清洗协同成员之间的协同信息。
Process350,分析采集清洗控制网络所属的目标清洗控制分组。
Process360,将第一清洗协同基础数据和第二清洗协同基础数据加载到目标清洗控制分组对应的深度学习网络模型中,确定采集清洗控制网络对应的训练样本采集清洗实例。
针对一些示例性的设计思路而言,输出采集清洗控制网络所属的目标清洗控制分组之后,可以将第一清洗协同基础数据和第二清洗协同基础数据加载到目标清洗控制分组对应的深度学习网络模型中,确定采集清洗控制网络对应的训练样本采集清洗实例。
其中,目标清洗控制分组对应的深度学习网络模型为采用目标清洗控制分组下的范例采集清洗控制网络进行模型权重信息更新获得的,即一个类别对应的深度学习网络模型由该类别下的范例采集清洗控制网络进行模型权重信息更新获得的。
Process370,输出采集清洗控制网络对应的训练样本采集清洗实例的协同数量。
针对一些示例性的设计思路而言,确定采集清洗控制网络对应的训练样本采集清洗实例之后,将确定采集清洗控制网络对应的训练样本采集清洗实例的协同数量。
Process380,基于协同数量确定针对采集清洗控制网络对应的训练样本采集清洗实例的处理方式。
针对一些示例性的设计思路而言,输出采集清洗控制网络对应的训练样本采集清洗实例的协同数量之后,可以依据协同数量确定针对采集清洗控制网络对应的训练样本采集清洗实例的处理方式。
例如,分析训练样本采集清洗实例的协同数量是否大于设定协同数量;若协同数量小于设定协同数量,则将采集清洗控制网络输入多个标的深度学习网络模型中,确定多个标的训练样本采集清洗实例,并从多个标的训练样本采集清洗实例中筛选出采集清洗控制网络对应的目标训练样本采集清洗实例。
一些实施例中,人工智能云系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
处理器110可以依据存储在机器可读存储介质120中的程序而执行各种适当的动作和处理,例如前述实施例所描述的基于云端业务大数据清洗的AI训练方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。
特别地,依据本发明的实施例,上文示例性流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信单元140从网络上被下载和安装,在该计算机程序被处理器110执行时,执行本发明实施例的方法中限定的上述功能。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的基于云端业务大数据清洗的AI训练方法。
本发明又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的基于云端业务大数据清洗的AI训练方法。
应该理解的是,虽然本发明实施例的流程图中通过箭头指示每个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本发明实施例的一些实施场景中,各流程图中的实施步骤可以依据需求以其他的顺序执行。此外,各流程图中的部分或全部步骤依据实际的实施场景,可以包括若干子步骤或者若干阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以基于需求灵活配置,本发明实施例对此不限制。
以上所述仅是本发明部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明的方案技术构思的前提下,依据依据本发明技术思想的其他类似实施手段,同样属于本发明实施例的保护范畴。

Claims (10)

1.一种基于云端业务大数据清洗的AI训练方法,其特征在于,应用于人工智能云系统,所述方法包括:
基于所述云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息;
基于所述大数据采集清洗优化信息对所述标的AI训练采集任务进行任务执行,获得训练样本部署数据;
响应于针对所述标的AI训练采集任务所对应的AI业务训练任务,从所述训练样本部署数据中提取匹配所述AI业务训练任务的训练任务样本数据以及针对每个所述训练任务样本数据进行基于先验知识添加的训练标注信息;
基于所述每个所述训练任务样本数据以及对应添加训练标注信息对所述AI业务训练任务所调用的AI训练模型进行模型训练。
2.根据权利要求1所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述基于所述云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获取当前启用的标的AI训练采集任务的大数据采集清洗优化信息的步骤,包括:
基于所述云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得所述大数据采集实例的采集噪声解析空间,所述采集噪声解析空间被配置于表达依据所述多个训练样本采集活动数据输出的多个采集噪声点的噪声渗透参数信息;
启用标的AI训练采集任务,并提取所述标的AI训练采集任务的多个关键采集节点,所述多个关键采集节点是基于所述标的AI训练采集任务在所述大数据采集实例中生成的多个目标训练样本采集活动数据进行提取的;
从所述采集噪声解析空间中提取关键采集噪声点,所述关键采集噪声点与所述多个关键采集节点的采集字段知识图谱存在关联,且对应的噪声渗透参数信息的噪声渗透参数均值大于设定噪声渗透参数均值;
依据所述关键采集噪声点,将所述多个关键采集节点进行大数据采集清洗优化,获得所述标的AI训练采集任务的大数据采集清洗优化信息。
3.根据权利要求2所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述基于所述云端业务服务器的多个AI训练采集任务在大数据采集实例中生成的多个训练样本采集活动数据,获得所述大数据采集实例的采集噪声解析空间,具体包括:
获取所述多个训练样本采集活动数据,基于所述多个训练样本采集活动数据,输出所述多个采集噪声点的采集噪声挖掘数据;
依据所述多个训练样本采集活动数据的采集噪声挖掘数据对所述多个采集噪声点进行噪声渗透路径挖掘,确定多个噪声渗透路径;
对所述多个噪声渗透路径进行渗透参数分析,获得所述大数据采集实例的采集噪声解析空间;
其中,所述基于所述多个训练样本采集活动数据,输出所述多个采集噪声点的采集噪声挖掘数据的步骤,包括:
将所述多个训练样本采集活动数据输入到预先训练完成的噪声点提取模型中进行噪声点提取,输出所述多个采集噪声点的采集噪声挖掘数据;
其中,所述噪声点提取模型的训练步骤包括:
获取参考训练样本采集活动数据以及所述参考训练样本采集活动数据对应标注的参考采集噪声点的采集噪声数据;
将所述参考训练样本采集活动数据输入到初始化权重信息的初始噪声点提取模型中,输出所述参考训练样本采集活动数据所对应的预测采集噪声点的采集噪声数据;
基于所述预测采集噪声点的采集噪声数据和所述参考采集噪声点的采集噪声数据计算所述初始噪声点提取模型在噪声点提取过程中的损失函数值;
基于所述损失函数值对所述初始噪声点提取模型进行模型更新以降低所述损失函数值,直到所述损失函数值收敛时,输出训练完成的所述噪声点提取模型。
4.根据权利要求3所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述依据所述多个训练样本采集活动数据的采集噪声挖掘数据对所述多个采集噪声点进行噪声渗透路径挖掘,确定多个噪声渗透路径,具体包括:
依据所述多个AI训练采集任务将所述多个训练样本采集活动数据划分为多个成员训练样本采集数据,所述多个成员训练样本采集数据中每个成员训练样本采集数据包括的训练样本采集活动数据是同一个AI训练采集任务生成;
对于所述多个成员训练样本采集数据中每个成员训练样本采集数据,输出所述成员训练样本采集数据包括的训练样本采集活动数据的采集噪声挖掘数据,依据所述采集噪声挖掘数据的采集噪声挖掘流程,对所述成员训练样本采集数据包括的训练样本采集活动数据对应的采集噪声点进行当前业务更新字段所对应的白名单成员匹配;
分别分析当前业务更新字段所对应的白名单成员匹配后的采集噪声点,在分析到不匹配当前业务更新字段所对应的白名单成员的采集噪声点时,将分析在所述不匹配当前业务更新字段所对应的白名单成员的采集噪声点之前的采集噪声点进行关键采集节点关联,确定所述成员训练样本采集数据的噪声渗透路径;
继续分析所述不匹配当前业务更新字段所对应的白名单成员的采集噪声点的下一采集噪声点,并重新生成新的噪声渗透路径,直至所述多个采集噪声点均分析完毕,确定所述成员训练样本采集数据的多个噪声渗透路径;
分别为所述多个成员训练样本采集数据生成噪声渗透路径,确定所述多个噪声渗透路径。
5.根据权利要求3所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述对所述多个噪声渗透路径进行渗透参数分析,获得所述大数据采集实例的采集噪声解析空间,具体包括:
分析所述多个噪声渗透路径中每个噪声渗透路径包括的采集噪声点;
将包括相同采集噪声点的噪声渗透路径以所述相同采集噪声点为连通噪声点进行连通,确定模糊采集噪声解析空间;
对于所述模糊采集噪声解析空间中的每个采集噪声点,在所述模糊采集噪声解析空间中确定与所述采集噪声点存在连通字段的多个连通采集噪声点;
确定所述多个连通采集噪声点中每个连通字段数据与所述采集噪声点触发采集联动关系的连通字段数量作为目标连通字段数量,并确定所述多个连通采集噪声点的全局噪声点数量;
计算所述多个连通采集噪声点中每个连通采集噪声点的目标连通字段数量与所述全局噪声点数量的和值,确定所述多个连通采集噪声点的噪声渗透参数信息;
分别为所述模糊采集噪声解析空间中每个采集噪声点的连通采集噪声点计算噪声渗透参数信息,将输出的全部噪声渗透参数信息加载到所述模糊采集噪声解析空间中,确定所述采集噪声解析空间。
6.根据权利要求2-5中任意一项所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述方法还包括:
在结合输入的更新指令对请求的AI训练采集任务的大数据采集清洗优化信息进行更新时,获取所述请求的AI训练采集任务的当前采集噪声点以及目标采集噪声点;
搜索指定采集噪声解析空间,所述指定采集噪声解析空间中存在与所述当前采集噪声点相关的第一连通采集噪声点和与所述目标采集噪声点相关的第二连通采集噪声点;
为所述第一连通采集噪声点提取目标采集噪声点,所述目标采集噪声点与所述第一连通采集噪声点存在关联且在所述指定采集噪声解析空间中的噪声渗透参数信息的噪声渗透参数均值大于与所述第一连通采集噪声点存在关联的其它采集噪声点的噪声渗透参数信息;
继续在所述指定采集噪声解析空间中为所述目标采集噪声点提取下一个目标采集噪声点,直至到达所述第二连通采集噪声点;
将所述第一连通采集噪声点、提取到的全部目标采集噪声点以及所述第二连通采集噪声点进行关键采集节点关联,确定所述请求的AI训练采集任务的更新关键采集节点。
7.根据权利要求2-5中任意一项所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述依据所述关键采集噪声点,将所述多个关键采集节点进行大数据采集清洗优化,获得所述标的AI训练采集任务的大数据采集清洗优化信息,具体包括:
提取所述关键采集噪声点与所述多个关键采集节点之间的采集清洗字段分布;
确定与所述关键采集噪声点具有采集调度关系的目标采集清洗字段分布的关键采集节点集,构建为所述标的AI训练采集任务的大数据采集清洗优化信息,并分配所述大数据采集清洗优化信息中各个关键采集节点之间的采集清洗字段分布序列,所述采集清洗字段分布序列包括任意两个关键采集节点之间与所述关键采集噪声点之间的采集清洗字段分布以及与所述采集清洗字段分布对应的清洗控制信息。
8.根据权利要求2-7中任意一项所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述方法还包括:
基于所述标的AI训练采集任务的大数据采集清洗优化信息获取对应的采集清洗控制信息;
获取所述采集清洗控制信息的采集清洗控制网络,所述采集清洗控制网络中包括清洗控制实体;
对所述采集清洗控制网络进行频繁项提取,确定所述采集清洗控制网络对应的频繁项集,所述频繁项集包括所述清洗控制实体中的第一数量个频繁项清洗协同成员以及每个频繁项清洗协同成员的协同数量;
依据所述每个频繁项清洗协同成员的协同数量对所述第一数量个频繁项清洗协同成员进行筛选,确定第二数量个模糊频繁项清洗协同成员;
依据所述第二数量个模糊频繁项清洗协同成员构建所述采集清洗控制网络对应的第一清洗协同基础数据和第二清洗协同基础数据,所述第一清洗协同基础数据为各个候选频繁项之间的协同信息,所述第二清洗协同基础数据为所述各个模糊频繁项清洗协同成员之间的协同信息;
将所述第一清洗协同基础数据和所述第二清洗协同基础数据加载到深度学习网络模型中,确定所述采集清洗控制网络对应的训练样本采集清洗实例,并依据所述训练样本采集清洗实例对所述采集清洗控制信息对应的清洗控制模板进行更新,获得最终配置的清洗控制模板信息。
9.根据权利要求8所述的基于云端业务大数据清洗的AI训练方法,其特征在于,所述将所述第一清洗协同基础数据和所述第二清洗协同基础数据加载到深度学习网络模型中,确定所述采集清洗控制网络对应的训练样本采集清洗实例的步骤之后,所述方法还包括:
确定所述采集清洗控制网络对应的训练样本采集清洗实例的协同数量;
分析所述训练样本采集清洗实例的协同数量是否大于设定协同数量;
如果所述训练样本采集清洗实例的协同数量不大于设定协同数量,则将所述采集清洗控制网络输入多个标的深度学习网络模型中,确定多个标的训练样本采集清洗实例;
从所述多个标的训练样本采集清洗实例中筛选出所述采集清洗控制网络对应的目标训练样本采集清洗实例。
10.一种人工智能云系统,其特征在于,所述人工智能云系统包括处理器、机器可读存储介质和网络接口,所述机器可读存储介质、所述网络接口以及所述处理器之间通过总线系统相关联,所述网络接口用于与多个云端业务服务器通信连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以执行权利要求1-9中任意一项的基于云端业务大数据清洗的AI训练方法。
CN202210785807.5A 2022-07-06 2022-07-06 基于云端业务大数据清洗的ai训练方法及人工智能云系统 Active CN115062722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210785807.5A CN115062722B (zh) 2022-07-06 2022-07-06 基于云端业务大数据清洗的ai训练方法及人工智能云系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210785807.5A CN115062722B (zh) 2022-07-06 2022-07-06 基于云端业务大数据清洗的ai训练方法及人工智能云系统

Publications (2)

Publication Number Publication Date
CN115062722A true CN115062722A (zh) 2022-09-16
CN115062722B CN115062722B (zh) 2023-03-28

Family

ID=83205029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210785807.5A Active CN115062722B (zh) 2022-07-06 2022-07-06 基于云端业务大数据清洗的ai训练方法及人工智能云系统

Country Status (1)

Country Link
CN (1) CN115062722B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN111105860A (zh) * 2019-12-18 2020-05-05 青岛科技大学 面向慢性病康复的精准运动大数据智能预测、分析及优化系统
CN112434809A (zh) * 2021-01-26 2021-03-02 成都点泽智能科技有限公司 基于主动学习的模型训练方法、装置及服务器
CN113706151A (zh) * 2021-04-07 2021-11-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN114691665A (zh) * 2022-04-13 2022-07-01 辽源市讯展网络科技有限公司 基于大数据分析的采集噪声点挖掘方法及大数据采集系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN111105860A (zh) * 2019-12-18 2020-05-05 青岛科技大学 面向慢性病康复的精准运动大数据智能预测、分析及优化系统
CN112434809A (zh) * 2021-01-26 2021-03-02 成都点泽智能科技有限公司 基于主动学习的模型训练方法、装置及服务器
CN113706151A (zh) * 2021-04-07 2021-11-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN114691665A (zh) * 2022-04-13 2022-07-01 辽源市讯展网络科技有限公司 基于大数据分析的采集噪声点挖掘方法及大数据采集系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MUHAMMAD AHTISHAM ASLAM: "A Methodology and a Tool to Prepare Agro-Meteorological Maps as a Source of Big Data", 《2015 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA BIG DATA》 *
刘凯斯: "机载激光LiDAR点云数据滤波和分类算法研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN115062722B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN109285024B (zh) 在线特征确定方法、装置、电子设备及存储介质
CN112732577A (zh) 一种多任务软件测试用例进化生成方法
CN114661785A (zh) 基于大数据挖掘的用户画像确定方法及云计算服务系统
CN110895506A (zh) 测试数据的构造方法和构造系统
CN109933515B (zh) 一种回归测试用例集的优化方法和自动优化装置
CN115048370A (zh) 用于大数据清洗的人工智能处理方法及大数据清洗系统
CN108629124B (zh) 一种基于活动图路径的仿真参数数据自动生成方法
CN115062722B (zh) 基于云端业务大数据清洗的ai训练方法及人工智能云系统
CN113722711A (zh) 基于大数据安全漏洞挖掘的数据添加方法及人工智能系统
CN111090401B (zh) 存储设备性能预测方法及装置
CN111258876A (zh) 一种微服务架构下的精确回归测试方法及装置
CN112434831A (zh) 故障排查方法、装置、存储介质及计算机设备
CN115422179B (zh) 基于大数据清洗的ai训练处理方法及人工智能训练系统
CN115712843B (zh) 基于人工智能的数据匹配检测处理方法及系统
CN114978765B (zh) 服务于信息攻击防御的大数据处理方法及ai攻击防御系统
CN115062227B (zh) 采用人工智能分析的用户行为活动分析方法及大数据系统
CN114661984A (zh) 基于人工智能和用户画像的信息推送方法及云计算系统
CN111737371B (zh) 可动态预测的数据流量检测分类方法及装置
CN114041281B (zh) 现场数据传输方法、装置、系统和计算机可读介质
JP7104252B2 (ja) 学習データセット生成装置および方法
CN115455426A (zh) 基于漏洞分析模型开发的业务错误分析方法及云端ai系统
CN114896236B (zh) 应用人工智能分析的大数据去噪优化方法及大数据系统
Natalino et al. Machine-learning-as-a-service for optical network automation
CN114756541B (zh) 用于人工智能训练的大数据特征清洗决策方法及系统
CN115145904B (zh) 用于ai云计算训练的大数据清洗方法及大数据采集系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221208

Address after: No.10, Xianfeng Road, Daowai District, Harbin City, Heilongjiang Province

Applicant after: Liu Zhanlong

Address before: Room 502, No. 23, Beishidao Street, Daowai District, Harbin City, Heilongjiang Province, 150000

Applicant before: Harbin Bineng Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230307

Address after: 201100 floor 10, building 5, No. 525, Yuanjiang Road, Minhang District, Shanghai

Applicant after: Areba Data Technology (Shanghai) Co.,Ltd.

Address before: No.10, Xianfeng Road, Daowai District, Harbin City, Heilongjiang Province

Applicant before: Liu Zhanlong

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant