CN115422179B - 基于大数据清洗的ai训练处理方法及人工智能训练系统 - Google Patents

基于大数据清洗的ai训练处理方法及人工智能训练系统 Download PDF

Info

Publication number
CN115422179B
CN115422179B CN202211117707.1A CN202211117707A CN115422179B CN 115422179 B CN115422179 B CN 115422179B CN 202211117707 A CN202211117707 A CN 202211117707A CN 115422179 B CN115422179 B CN 115422179B
Authority
CN
China
Prior art keywords
event data
operation event
target
feature
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211117707.1A
Other languages
English (en)
Other versions
CN115422179A (zh
Inventor
冯秦海
郑立强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongshuruizhi Technology Co ltd
Original Assignee
Beijing Zhongshuruizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongshuruizhi Technology Co ltd filed Critical Beijing Zhongshuruizhi Technology Co ltd
Priority to CN202310244132.8A priority Critical patent/CN116186016A/zh
Priority to CN202211117707.1A priority patent/CN115422179B/zh
Publication of CN115422179A publication Critical patent/CN115422179A/zh
Application granted granted Critical
Publication of CN115422179B publication Critical patent/CN115422179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请实施例提供一种基于大数据清洗的AI训练处理方法及人工智能训练系统,通过基于待开发页面服务计划所覆盖的数据知识图谱采集各个目标用户的平台操作事件大数据后,对各个目标用户的平台操作事件大数据进行大数据清洗,然后基于对应的各个清洗平台操作事件数据生成对应的AI训练样本数据以及每个AI训练样本数据所对应的训练标签,由此对初始化神经网络模型进行训练后部署到AI训练任务所映射的页面服务中,从而可以在对训练样本数据进行大数据清洗的基础上,将AI训练流程与待开发页面服务计划进行训练样本数据关联,提高AI训练的可靠性以及AI训练与待开发页面服务计划的关联性,增强页面服务体验。

Description

基于大数据清洗的AI训练处理方法及人工智能训练系统
技术领域
本发明涉及互联网信息平台技术领域,具体而言,涉及一种基于大数据清洗的AI训练处理方法及人工智能训练系统。
背景技术
AI训练算法从训练样本数据中学习,通过从得到的训练样本数据中找到学习特征并形成自身的理解和决策。换言之,训练样本数据质量越高,则神经网络模型的表现就越好,并且训练样本数据的质量除了与干扰特征相关之外,也与当前页面服务开发计划相关,也即即便获得了干扰特征少的训练样本数据集,但是所获得的训练样本数据集难以与待开发页面服务计划形成较好的关联性,也会导致后续神经网络模型的表现受到影响。相关技术中,缺乏将AI训练流程与待开发页面服务计划进行训练样本数据关联的方案,并且也缺乏数据清洗流程的部署,进而导致后续将训练的模型部署到页面服务后,页面服务体验不佳。
发明内容
为了至少克服现有技术中的上述不足,本发明的目的在于提供一种基于大数据清洗的AI训练处理方法及人工智能训练系统。
第一方面,本申请提供一种基于大数据清洗的AI训练处理方法,应用于人工智能训练系统,所述人工智能训练系统与多个大数据服务器通信连接,所述方法包括:
在接收到指定互联网服务平台的待开发页面服务计划时,获取所述待开发页面服务计划所覆盖的数据知识图谱,并基于所述数据知识图谱采集各个目标用户的平台操作事件大数据后,对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列,其中,所述清洗平台操作事件数据序列包括已进行大数据清洗的多个清洗平台操作事件数据;
基于获取到的各个所述清洗平台操作事件数据,生成对应的AI训练样本数据,并基于用户标注操作指令生成每个AI训练样本数据所对应的训练标签,其中,所述用户标注操作指令基于在先发起的AI训练任务触发;
基于所述每个AI训练样本数据以及对应的训练标签对初始化神经网络模型进行训练,输出训练完成的目标神经网络模型,并将所述目标神经网络模型部署到所述AI训练任务所映射的页面服务中。
在第一方面的一种可能的实施方式中,所述对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列的步骤,包括:
在各个目标用户的平台操作事件大数据中获取第一平台操作事件数据与第二平台操作事件数据;所述平台操作事件大数据是依据目标大数据采集维度,对指定互联网服务平台进行大数据采集输出的业务大数据;所述第二平台操作事件数据是指所述平台操作事件大数据中所述第一平台操作事件数据的前向操作事件数据;
获取所述第一平台操作事件数据对应的第一平台操作知识特征分布,以及所述第二平台操作事件数据对应的第二平台操作知识特征分布;
基于所述第一平台操作知识特征分布生成针对所述第一平台操作事件数据的第一目标操作权重分布特征,基于所述第一平台操作知识特征分布和所述第二平台操作知识特征分布,输出针对所述第二平台操作事件数据的第二目标操作权重分布特征,依据所述第一目标操作权重分布特征和所述第二目标操作权重分布特征,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征;
基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的清洗平台操作事件数据。
基于该实施方式的步骤,对于采用目标大数据采集维度对指定互联网服务平台进行大数据采集,所得到的平台操作事件大数据,无论是高大数据采集维度数还是低大数据采集维度数,均可以依据平台操作事件大数据中,前后两个平台操作事件数据(也即第一平台操作事件数据与第二平台操作事件数据,其中,第一平台操作事件数据可为当前平台操作事件数据,第二平台操作事件数据为当前平台操作事件数据的前向操作事件数据)的平台操作知识特征分布,来计算出两个平台操作事件数据的目标操作权重分布特征,并依据目标操作权重分布特征来对前后两个平台操作事件数据进行特征汇聚,确定汇聚特征可作为第一平台操作事件数据对应的目标汇聚特征;随后,基于第一平台操作事件数据的平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据,可以确定出第一平台操作事件数据对应的清洗操作事件数据。值得说明的是,本申请可以基于当前平台操作事件数据与前向平台操作事件数据的关联特征,计算出两个平台操作事件数据分别对应的目标操作权重分布特征,并依据目标操作权重分布特征来对两个平台操作事件数据进行特征汇聚,所得到的目标汇聚特征包含有前后数据汇聚后的特征,该汇聚后的特征可以表征前后数据的相关性,可以表达更多维度的特征;同时,在确定第一平台操作事件数据的清洗平台操作事件数据时,也是依据第一平台操作事件数据的第一平台操作知识特征分布、该目标汇聚特征以及前一个平台操作事件数据(第二平台操作事件数据)共同来确定,在确定第一平台操作事件数据的清洗平台操作事件数据时,不单考虑到当前的特征,还考虑到在先时间节点的先验数据的特征,可以基于当前的关联操作特征,所得到的清洗平台操作事件数据具有更高的干扰倾向质量。综上,无论是高大数据采集维度数还是低大数据采集维度数得到的操作事件数据,本申请均可以基于平台操作事件大数据中前后数据平台操作事件数据的平台操作知识特征分布,进行特征汇聚,并依据汇聚得到的汇聚特征与第二平台操作事件数据来共同确定第一平台操作事件数据的清洗平台操作事件数据,适应性更强;依据计算前后数据的汇聚特征,再依据汇聚特征来清洗操作事件数据的方法,可以基于平台操作事件数据的关联操作特征,进而提高清洗操作事件数据的清洗质量。
在第一方面的一种可能的实施方式中,所述第一平台操作知识特征分布包括所述第一平台操作事件数据对应的第一多方互动知识特征与第一单方渗透知识特征;
所述基于所述第一平台操作知识特征分布生成针对所述第一平台操作事件数据的第一目标操作权重分布特征的步骤,具体包括:
将所述第一多方互动知识特征与所述第一单方渗透知识特征,加载至操作域汇聚模型;
依据所述操作域汇聚模型的第一特征提取分支,对所述第一多方互动知识特征与所述第一单方渗透知识特征进行特征提取,确定所述第一平台操作事件数据对应的第一成员操作权重分布特征;
依据所述操作域汇聚模型的第二特征提取分支,对所述第一多方互动知识特征与所述第一单方渗透知识特征进行特征提取,确定所述第一平台操作事件数据对应的第二成员操作权重分布特征;
将所述第一成员操作权重分布特征与所述第二成员操作权重分布特征进行聚合,确定针对所述第一平台操作事件数据的第一目标操作权重分布特征。
在第一方面的一种可能的实施方式中,所述第一平台操作知识特征分布包括所述第一平台操作事件数据对应的第一多方互动知识特征与第一单方渗透知识特征,所述第二平台操作知识特征分布包括所述第二平台操作事件数据对应的第二多方互动知识特征与第二单方渗透知识特征;
所述基于所述第一平台操作知识特征分布和所述第二平台操作知识特征分布,输出针对所述第二平台操作事件数据的第二目标操作权重分布特征的步骤,具体包括:
将所述第二多方互动知识特征与所述第二单方渗透知识特征分别进行基于惩罚性的特征选择,确定所述第二多方互动知识特征对应的多方互动选择特征,以及所述第二单方渗透知识特征对应的单方渗透选择特征;
将所述第一多方互动知识特征、所述第一单方渗透知识特征、所述多方互动选择特征以及所述单方渗透选择特征加载至操作域汇聚模型;
依据所述操作域汇聚模型的第一特征提取分支,对所述第一多方互动知识特征与所述第一单方渗透知识特征进行特征提取,确定所述第一平台操作事件数据对应的第一操作权重分布特征;
依据所述操作域汇聚模型的第二特征提取分支,对所述多方互动选择特征与所述单方渗透选择特征进行特征提取,确定所述第二平台操作事件数据对应的第二操作权重分布特征;
将所述第一操作权重分布特征与所述第二操作权重分布特征进行聚合,确定针对所述第二平台操作事件数据的第二目标操作权重分布特征。
在第一方面的一种可能的实施方式中,所述依据所述第一目标操作权重分布特征和所述第二目标操作权重分布特征,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征的步骤,具体包括:
获取预设线性分类模型,依据所述预设线性分类模型与所述第一目标操作权重分布特征,输出针对所述第一平台操作事件数据的第一线性分类参数值;
依据所述预设线性分类模型与所述第二目标操作权重分布特征,输出针对所述第二平台操作事件数据的第二线性分类参数值;
基于所述第一线性分类参数值和所述第二线性分类参数值,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征。
在第一方面的一种可能的实施方式中,所述基于所述第一线性分类参数值和所述第二线性分类参数值,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征的步骤,具体包括:
获取所述第一平台操作事件数据对应的目标操作干扰特征、目标操作冗余特征与目标操作异常特征,获取所述第二平台操作事件数据对应的先验汇聚操作干扰特征、先验汇聚操作冗余特征以及先验汇聚操作异常特征;
基于所述第一线性分类参数值与所述第二线性分类参数值,将所述目标操作冗余特征与所述先验汇聚操作冗余特征进行汇聚,确定所述第一平台操作事件数据对应的目标汇聚操作冗余特征;
基于所述第一线性分类参数值与所述第二线性分类参数值,将所述目标操作干扰特征与所述先验汇聚操作冗余特征进行汇聚,确定所述第一平台操作事件数据对应的目标汇聚操作干扰特征;
基于所述第一线性分类参数值与所述第二线性分类参数值,将所述目标操作异常特征与所述先验汇聚操作异常特征进行汇聚,确定所述第一平台操作事件数据对应的目标汇聚操作异常特征;
将所述目标汇聚操作冗余特征、所述目标汇聚操作干扰特征以及所述目标汇聚操作异常特征,输出为所述第一平台操作事件数据对应的目标汇聚特征。
在第一方面的一种可能的实施方式中,所述基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的清洗平台操作事件数据的步骤,具体包括:
基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的目标清洗模型加载特征;
将所述目标清洗模型加载特征加载至训练数据清洗模型中,在所述训练数据清洗模型中,基于所述目标清洗模型加载特征输出所述第一平台操作事件数据对应的清洗平台操作事件数据。
在第一方面的一种可能的实施方式中,所述第一平台操作知识特征分布包括第一多方互动知识特征与第一单方渗透知识特征;所述第二平台操作知识特征分布包括所述第二平台操作事件数据对应的第二多方互动知识特征与第二单方渗透知识特征;
所述基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的目标清洗模型加载特征的步骤,具体包括:
获取所述第一平台操作事件数据对应的候选知识处理特征;所述候选知识处理特征包括所述第一多方互动知识特征与所述第一单方渗透知识特征;
将所述候选知识处理特征中,除所述第一多方互动知识特征与所述第一单方渗透知识特征以外的知识特征,输出为余下知识特征;
将所述目标汇聚特征、所述第一多方互动知识特征、所述第一单方渗透知识特征以及所述余下知识特征进行聚合,确定所述第一平台操作事件数据对应的事件聚合特征;
将所述第二多方互动知识特征与所述第二单方渗透知识特征分别进行基于惩罚性的特征选择,确定所述第二多方互动知识特征对应的多方互动选择特征,以及所述第二单方渗透知识特征对应的单方渗透选择特征;
将所述事件聚合特征、所述多方互动选择特征以及所述单方渗透选择特征进行拼接,确定所述第一平台操作事件数据对应的目标清洗模型加载特征。
在第一方面的一种可能的实施方式中,所述在所述训练数据清洗模型中,基于所述目标清洗模型加载特征输出所述第一平台操作事件数据对应的清洗平台操作事件数据的步骤,具体包括:
依据所述训练数据清洗模型,输出所述目标清洗模型加载特征对应的决策高质量操作事件数据、决策低质量操作事件数据、第一训练数据清洗参数以及第二训练数据清洗参数;所述决策高质量操作事件数据未包含数据干扰变量,所述决策高质量操作事件数据的数据训练可靠度大于所述决策低质量操作事件数据的数据训练可靠度;
在所述训练数据清洗模型中,依据所述第一训练数据清洗参数将所述决策高质量操作事件数据与所述决策低质量操作事件数据进行数据重组,确定所述第一平台操作事件数据对应的初始清洗操作事件数据;
获取所述第二平台操作事件数据对应的先验清洗操作事件数据,依据所述第二训练数据清洗参数将所述初始清洗操作事件数据与所述先验清洗操作事件数据进行数据重组,确定所述第一平台操作事件数据对应的清洗平台操作事件数据。
譬如在第一方面的一种可能的实施方式中,所述方法还包括:
在范例平台操作大数据中获取目标范例平台操作事件数据与先验范例平台操作事件数据;所述范例平台操作大数据是依据第一大数据采集维度,对范例互联网服务平台进行大数据采集输出的业务大数据;所述先验范例平台操作事件数据是指所述范例平台操作大数据中,所述目标范例平台操作事件数据的上一个范例平台操作事件数据;所述第一大数据采集维度数量小于设定数量;
获取所述目标范例平台操作事件数据对应的目标范例平台操作知识特征分布,以及所述先验范例平台操作事件数据对应的先验范例平台操作知识特征分布;
基于所述目标范例平台操作知识特征分布生成针对所述目标范例平台操作事件数据的第一范例目标操作权重分布特征,基于所述目标范例平台操作知识特征分布和所述先验范例平台操作知识特征分布,生成针对所述先验范例平台操作事件数据的第二范例目标操作权重分布特征,依据所述第一范例目标操作权重分布特征和所述第二范例目标操作权重分布特征,将所述目标范例平台操作事件数据与先验范例平台操作事件数据进行特征汇聚,确定所述目标范例平台操作事件数据对应的目标范例汇聚特征;
基于所述目标范例平台操作知识特征分布、所述目标范例汇聚特征以及所述先验范例平台操作事件数据,输出所述目标范例平台操作事件数据对应的目标范例清洗模型加载特征;
将所述目标范例清洗模型加载特征加载至训练数据清洗模型中,在所述训练数据清洗模型中,基于所述目标范例清洗模型加载特征输出所述目标范例平台操作事件数据对应的目标范例清洗操作事件数据;
获取所述目标范例平台操作事件数据对应的目标维度采样操作事件数据;所述目标维度采样操作事件数据是指依据第二大数据采集维度,对所述范例互联网服务平台进行大数据采集输出的操作事件数据;所述第一大数据采集维度数量小于所述第二大数据采集维度数量;
基于所述目标维度采样操作事件数据与所述目标范例清洗操作事件数据,对所述训练数据清洗模型进行参数层调优和选取,确定用于对平台操作事件大数据中的第一平台操作事件数据进行数据清洗处理的训练数据清洗模型。
譬如在第一方面的一种可能的实施方式中,所述基于所述目标维度采样操作事件数据与所述目标范例清洗操作事件数据,对所述训练数据清洗模型进行参数层调优和选取,确定用于对平台操作事件大数据中的第一平台操作事件数据进行数据清洗处理的训练数据清洗模型的步骤,具体包括:
将所述范例平台操作大数据中,余下范例平台操作事件数据对应的范例清洗操作事件数据确定为标的清洗操作事件数据,将所述余下范例平台操作事件数据对应的维度采样操作事件数据确定为标的维度采样操作事件数据;所述余下范例平台操作事件数据是指所述范例平台操作大数据中,除所述目标范例平台操作事件数据以外的范例平台操作事件数据;
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的目标训练代价值;
基于所述目标训练代价值对所述训练数据清洗模型进行参数层调优和选取,确定所述训练数据清洗模型。
譬如在第一方面的一种可能的实施方式中,所述基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的目标训练代价值的步骤,具体包括:
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的空域训练代价值;
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的时域训练代价值;
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的频域训练代价值;
基于所述空域训练代价值、所述时域训练代价值以及所述频域训练代价值,输出针对所述训练数据清洗模型的目标训练代价值。
譬如在第一方面的一种可能的实施方式中,所述目标范例平台操作事件数据为所述范例平台操作大数据中的最后一个范例平台操作事件数据;
所述基于所述空域训练代价值、所述时域训练代价值以及所述频域训练代价值,输出针对所述训练数据清洗模型的目标训练代价值的步骤,具体包括:
获取所述先验范例平台操作事件数据对应的先验范例清洗操作事件数据以及先验维度采样操作事件数据,基于所述先验范例清洗操作事件数据、所述目标范例清洗操作事件数据、所述先验维度采样操作事件数据以及所述目标维度采样操作事件数据,输出针对所述训练数据清洗模型的特征选择训练代价值;
获取所述目标范例平台操作事件数据对应的目标范例操作异常特征,在所述目标范例汇聚特征中,获取所述目标范例平台操作事件数据对应的目标范例汇聚操作异常特征,基于操作异常代价评估函数、所述目标范例操作异常特征以及所述目标范例汇聚操作异常特征,输出针对所述训练数据清洗模型的操作异常训练代价值;
将所述空域训练代价值、所述时域训练代价值、所述频域训练代价值、所述特征选择训练代价值以及所述操作异常训练代价值进行加权计算,确定所述训练数据清洗模型的目标训练代价值。
第二方面,本申请实施例还提供一种基于大数据清洗的AI训练处理系统,所述基于大数据清洗的AI训练处理系统包括人工智能训练系统和与所述人工智能训练系统通信连接的多个大数据服务器;
所述人工智能训练系统,用于:
在接收到指定互联网服务平台的待开发页面服务计划时,获取所述待开发页面服务计划所覆盖的数据知识图谱,并基于所述数据知识图谱采集各个目标用户的平台操作事件大数据后,对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列,其中,所述清洗平台操作事件数据序列包括已进行大数据清洗的多个清洗平台操作事件数据;
基于获取到的各个所述清洗平台操作事件数据,生成对应的AI训练样本数据,并基于用户标注操作指令生成每个AI训练样本数据所对应的训练标签,其中,所述用户标注操作指令基于在先发起的AI训练任务触发;
基于所述每个AI训练样本数据以及对应的训练标签对初始化神经网络模型进行训练,输出训练完成的目标神经网络模型,并将所述目标神经网络模型部署到所述AI训练任务所映射的页面服务中。
采用以上任意一个方面的技术方案,通过获取待开发页面服务计划所覆盖的数据知识图谱,并基于数据知识图谱采集各个目标用户的平台操作事件大数据后,对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列,然后基于获取到的各个清洗平台操作事件数据,生成对应的AI训练样本数据,并基于用户标注操作指令生成每个AI训练样本数据所对应的训练标签,由此基于每个AI训练样本数据以及对应的训练标签对初始化神经网络模型进行训练,将训练完成的目标神经网络模型部署到AI训练任务所映射的页面服务中,从而可以在对训练样本数据进行大数据清洗的基础上,将AI训练流程与待开发页面服务计划进行训练样本数据关联,提高AI训练的可靠性以及AI训练与待开发页面服务计划的关联性,增强页面服务体验。
附图说明
图1为本发明实施例提供的基于大数据清洗的AI训练处理方法的流程示意图。
具体实施方式
下面介绍本发明一种实施例提供的基于大数据清洗的AI训练处理系统10的架构,该基于大数据清洗的AI训练处理系统10可以包括人工智能训练系统100以及与人工智能训练系统100通信连接的大数据服务器200。其中,基于大数据清洗的AI训练处理系统10中的人工智能训练系统100和大数据服务器200可以基于配合执行以下方法实施例所描述的基于大数据清洗的AI训练处理方法,具体人工智能训练系统100和大数据服务器200的执行步骤部分可以参照以下方法实施例的详细描述。
本实施例提供的基于大数据清洗的AI训练处理方法可以由人工智能训练系统100执行,下面结合图1对该基于大数据清洗的AI训练处理方法进行详细介绍。
Process100,在接收到指定互联网服务平台的待开发页面服务计划时,获取所述待开发页面服务计划所覆盖的数据知识图谱,并基于所述数据知识图谱采集各个目标用户的平台操作事件大数据后,对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列。
本实施例中,待开发页面服务计划可以是指针对指定互联网服务平台的互联网服务页面进行优化的开发计划,如针对互联网服务页面中的个性化推送页面进行优化的开发计划,那么则可以获取待开发页面服务计划所覆盖的数据知识图谱,例如针对个性化推送页面,其数据知识图谱可以包括多个页面关键元素以及各个页面关键元素之间的知识关系(如电商直播页面元素与电商下单页面元素之间的知识关系为因果关系),那么则可以基于所述数据知识图谱采集各个目标用户的平台操作事件大数据,例如针对电商直播浏览数据和电商下单数据按照因果关系标识进行数据采集。
其中,在进行下一步操作之前,为了确保训练数据样本的可靠性,可以对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列,所述清洗平台操作事件数据序列包括已进行大数据清洗的多个清洗平台操作事件数据。
Process200,基于获取到的各个所述清洗平台操作事件数据,生成对应的AI训练样本数据,并基于用户标注操作指令生成每个AI训练样本数据所对应的训练标签。
本实施例中,可以将各个所述清洗平台操作事件数据分别单独作为AI训练样本数据,可以作为两个或者两个以上关联组合共同作为AI训练样本数据。其中,所述用户标注操作指令基于在先发起的AI训练任务触发,例如,当AI训练任务为用户兴趣点挖掘训练任务时,那么用户标注操作指令可以是针对用户兴趣点标注的操作指令,训练标签则为用户兴趣点标签。
Process300,基于所述每个AI训练样本数据以及对应的训练标签对初始化神经网络模型进行训练,输出训练完成的目标神经网络模型,并将所述目标神经网络模型部署到所述AI训练任务所映射的页面服务中。
本实施例中,可以将每个AI训练样本数据输入初始化神经网络模型进行训练输出学习到的AI标签,然后基于学习到的AI标签与对应的训练标签之间的损失函数值对初始化神经网络模型进行迭代更新,由此输出训练完成的目标神经网络模型,并将所述目标神经网络模型部署到所述AI训练任务所映射的页面服务中。
基于以上步骤,本实施例通过获取待开发页面服务计划所覆盖的数据知识图谱,并基于数据知识图谱采集各个目标用户的平台操作事件大数据后,对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列,然后基于获取到的各个清洗平台操作事件数据,生成对应的AI训练样本数据,并基于用户标注操作指令生成每个AI训练样本数据所对应的训练标签,由此基于每个AI训练样本数据以及对应的训练标签对初始化神经网络模型进行训练,将训练完成的目标神经网络模型部署到AI训练任务所映射的页面服务中,从而可以在对训练样本数据进行大数据清洗的基础上,将AI训练流程与待开发页面服务计划进行训练样本数据关联,提高AI训练的可靠性以及AI训练与待开发页面服务计划的关联性,增强页面服务体验。
一些示例性的设计思路中,针对Process100,对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列具体可以通过下述实施例实现。
Process101,在平台操作事件大数据中获取第一平台操作事件数据与第二平台操作事件数据;平台操作事件大数据是依据目标大数据采集维度,对指定互联网服务平台进行大数据采集输出的业务大数据;第二平台操作事件数据是指平台操作事件大数据中,第一平台操作事件数据的前向操作事件数据。
一些示例性的设计思路中,指定互联网服务平台可以是指用于提供某种互联网服务的软件平台。例如,某个电商直播互联网服务的软件平台可以作为指定互联网服务平台。
值得说明的是,本申请可以依据目标大数据采集维度对指定互联网服务平台进行大数据采集。一些示例性的设计思路中的目标大数据采集维度数量可以是指低于设定数量的数值,在设定数量设置的数值较小时,依据目标大数据采集维度对指定互联网服务平台进行大数据采集,实际上可理解为稀疏大数据采集。即,一些示例性的设计思路中的平台操作事件大数据可以是指,采用稀疏大数据采集对指定互联网服务平台进行大数据采集后,所得到的业务大数据。当目标大数据采集维度数量小于设定数量时,可表征对指定互联网服务平台而言,有的维度的数据并不会被采集到。
一些示例性的设计思路中的第一平台操作事件数据可以是指平台操作事件大数据中的任一平台操作事件数据,第二平台操作事件数据可以是指平台操作事件大数据中第一平台操作事件数据的前向操作事件数据。其中,当第一平台操作事件数据为平台操作事件大数据中的第一个平台操作事件数据时,可以认为该第一平台操作事件数据不存在第二平台操作事件数据。
Process102,获取第一平台操作事件数据对应的第一平台操作知识特征分布,以及第二平台操作事件数据对应的第二平台操作知识特征分布。
其中,平台操作事件数据的候选知识处理特征具体可以包括多方互动知识特征、单方渗透知识特征、操作异常特征、操作冗余特征等等。而这里的平台操作知识特征分布可以是指平台操作事件数据的候选知识处理特征中的部分特征(如可以包括多方互动知识特征与单方渗透知识特征),那么第一平台操作事件数据对应的平台操作知识特征分布可以称之为第一平台操作知识特征分布,第二平台操作事件数据对应的平台操作知识特征分布可以称之为第二平台操作知识特征分布。换言之,一些示例性的设计思路中某个平台操作事件数据的平台操作知识特征分布可以依据其对应的操作事件数据的候选知识处理特征所确定,平台操作知识特征分布可以是指平台操作事件数据的候选知识处理特征中的部分特征(具体包含的特征可为人为进行规定,如可以包含多方互动知识特征与单方渗透知识特征)或全部特征,平台操作事件数据的候选知识处理特征又可以是指对指定互联网服务平台进行大数据采集时,所得到的每个采集平台操作事件数据的操作事件数据特征。以第一平台操作事件数据为例,依据对指定互联网服务平台进行数据采集,可以得到第一平台操作事件数据,而在采集过程中,也可以得到该第一平台操作事件数据对应的操作事件数据特征(如上述多方互动知识特征、单方渗透知识特征等等),在采集过程中所得到的第一平台操作事件数据的操作事件数据特征即可作为第一平台操作事件数据的操作事件数据的候选知识处理特征(也即第一平台操作事件数据的候选知识处理特征),第一平台操作知识特征分布即可为第一平台操作事件数据的操作事件数据的候选知识处理特征中的部分特征(也可为全部特征)。
Process103,基于第一平台操作知识特征分布生成针对第一平台操作事件数据的第一目标操作权重分布特征,基于第一平台操作知识特征分布和第二平台操作知识特征分布,输出针对第二平台操作事件数据的第二目标操作权重分布特征,依据第一目标操作权重分布特征和第二目标操作权重分布特征,将第一平台操作事件数据与第二平台操作事件数据进行特征汇聚,确定第一平台操作事件数据对应的目标汇聚特征。
一些示例性的设计思路中,平台操作知识特征分布中可包括多方互动知识特征与单方渗透知识特征,为便于区别,可以将第一平台操作事件数据的多方互动知识特征称之为第一多方互动知识特征,将第一平台操作事件数据的单方渗透知识特征称之为第一单方渗透知识特征,则第一平台操作知识特征分布即可包括第一平台操作事件数据对应的第一多方互动知识特征与第一单方渗透知识特征。对于基于第一平台操作知识特征分布生成针对第一平台操作事件数据的第一目标操作权重分布特征的执行步骤包括:可以将第一多方互动知识特征与第一单方渗透知识特征,加载至操作域汇聚模型;依据操作域汇聚模型的第一特征提取分支,可以对第一多方互动知识特征与第一单方渗透知识特征进行特征提取,确定第一平台操作事件数据对应的第一成员操作权重分布特征;依据操作域汇聚模型的第二特征提取分支,可以对第一多方互动知识特征与第一单方渗透知识特征进行特征提取,确定第一平台操作事件数据对应的第二成员操作权重分布特征;随后,可以将第一成员操作权重分布特征与第二成员操作权重分布特征进行聚合,确定针对第一平台操作事件数据的第一目标操作权重分布特征。
同理,可以将第二平台操作事件数据的多方互动知识特征称之为第二多方互动知识特征,将第二平台操作事件数据的单方渗透知识特征称之为第二单方渗透知识特征,则第二平台操作知识特征分布即可包括第二平台操作事件数据对应的第二多方互动知识特征与第二单方渗透知识特征。对于基于第一平台操作知识特征分布和第二平台操作知识特征分布,输出针对第二平台操作事件数据的第二目标操作权重分布特征的执行步骤包括:可以将第二多方互动知识特征与第二单方渗透知识特征分别进行基于惩罚性的特征选择,确定第二多方互动知识特征对应的多方互动选择特征,以及第二单方渗透知识特征对应的单方渗透选择特征;随后,可以将第一多方互动知识特征、第一单方渗透知识特征、多方互动选择特征以及单方渗透选择特征加载至操作域汇聚模型;依据操作域汇聚模型的第一特征提取分支,可以对第一多方互动知识特征与第一单方渗透知识特征进行特征提取,确定第一平台操作事件数据对应的第一操作权重分布特征(实际上,该第一操作权重分布特征与上述第一成员操作权重分布特征可以为相同特征);依据操作域汇聚模型的第二特征提取分支,可以对多方互动选择特征与单方渗透选择特征进行特征提取,确定第二平台操作事件数据对应的第二操作权重分布特征;随后,可以将第一操作权重分布特征与第二操作权重分布特征进行聚合,确定针对第二平台操作事件数据的第二目标操作权重分布特征。
值得说明的是,本申请可以依据当前平台操作事件数据(即第一平台操作事件数据)与前一个平台操作事件数据(即第二平台操作事件数据),分别对应的多方互动知识特征与单方渗透知识特征,计算出两个平台操作事件数据分别对应的目标操作权重分布特征(新的混合嵌入特征,即,将不同的操作权重分布特征进行特征混合后,所得到混合后的操作权重分布特征),并依据这两个目标操作权重分布特征对两个平台操作事件数据进行特征汇聚。
其中,对于依据第一目标操作权重分布特征和第二目标操作权重分布特征,将第一平台操作事件数据与第二平台操作事件数据进行特征汇聚,确定第一平台操作事件数据对应的目标汇聚特征的执行步骤包括:可以获取预设线性分类模型,依据预设线性分类模型与第一目标操作权重分布特征,可以确定针对第一平台操作事件数据的第一线性分类参数值;依据预设线性分类模型与第二目标操作权重分布特征,可以确定针对第二平台操作事件数据的第二线性分类参数值;基于第一线性分类参数值和第二线性分类参数值,将第一平台操作事件数据与第二平台操作事件数据进行特征汇聚,确定第一平台操作事件数据对应的目标汇聚特征。
其中,对于基于第一线性分类参数值和第二线性分类参数值,可以将第一平台操作事件数据与第二平台操作事件数据进行特征汇聚,确定第一平台操作事件数据对应的目标汇聚特征的执行步骤包括:可以获取第一平台操作事件数据对应的目标操作干扰特征、目标操作冗余特征与目标操作异常特征,获取第二平台操作事件数据对应的先验汇聚操作干扰特征、先验汇聚操作冗余特征以及先验汇聚操作异常特征;基于第一线性分类参数值与第二线性分类参数值,可以将目标操作冗余特征与先验汇聚操作冗余特征进行汇聚,确定第一平台操作事件数据对应的目标汇聚操作冗余特征;基于第一线性分类参数值与第二线性分类参数值,可以将目标操作干扰特征与先验汇聚操作冗余特征进行汇聚,确定第一平台操作事件数据对应的目标汇聚操作干扰特征;基于第一线性分类参数值与第二线性分类参数值,可以将目标操作异常特征与先验汇聚操作异常特征进行汇聚,确定第一平台操作事件数据对应的目标汇聚操作异常特征;随后,可以将目标汇聚操作冗余特征、目标汇聚操作干扰特征以及目标汇聚操作异常特征,输出为第一平台操作事件数据对应的目标汇聚特征。换言之,目标汇聚特征可以包括目标汇聚操作冗余特征、目标汇聚操作干扰特征以及目标汇聚操作异常特征。
值得说明的是,操作域汇聚模型可以是包含两层卷积网络,上述的第一特征提取分支可以是指操作域汇聚模型中的其中一个神经网络单元,第二特征提取分支可以是指操作域汇聚模型中的另一个神经网络单元。在获取到第一平台操作知识特征分布以及第二平台操作知识特征分布后,可以将第一平台操作知识特征分布(即第一多方互动知识特征,与第一单方渗透知识特征)加载至操作域汇聚模型中的一个神经网络单元(如第一特征提取分支)中,依据该第一特征提取分支可以输出针对该第一平台操作知识特征分布的嵌入特征,为便于区别,可以将该第一特征提取分支输出的嵌入特征称之为第一平台操作事件数据对应的第一成员操作权重分布特征。而对于操作域汇聚模型的另一个神经网络单元(第二特征提取分支)而言,可以首先对第二平台操作事件数据的第二多方互动知识特征与第二单方渗透知识特征进行平台操作事件数据基于惩罚性的特征选择,从而可以得到多方互动选择特征与单方渗透选择特征;随后,可以将上述第一多方互动知识特征、第一单方渗透知识特征、多方互动选择特征以及单方渗透选择特征加载至另一个神经网络单元(即第二特征提取分支)中,依据第二特征提取分支可以输出第一多方互动知识特征、第一单方渗透知识特征对应的嵌入特征(需要说明的是,由于两个神经网络单元的架构不同,所以虽然为两个神经网络单元为同样的输入,但输出的嵌入特征仍然可能会存在不同;该嵌入特征也即第一平台操作事件数据对应的第二成员操作权重分布特征),依据第二特征提取分支也可以输出多方互动选择特征以及单方渗透选择特征对应的嵌入特征(也即第二平台操作事件数据的第二操作权重分布特征)。
其中,对第一平台操作事件数据与第二平台操作事件数据进行特征汇聚时,可以对操作冗余特征、有干扰特征的操作事件数据以及操作异常特征进行汇聚。
其中,由于在对平台操作事件数据采集过程中,可以得到每个平台操作事件数据的操作事件数据的候选知识处理特征,则目标操作冗余特征、目标操作异常特征以及目标操作干扰特征均可以在第一平台操作事件数据的操作事件数据的候选知识处理特征中直接获取得到。需要说明的是,当第一平台操作事件数据为包含数据干扰变量的操作事件数据时,该目标操作干扰特征可以是指该第一平台操作事件数据本身。且当第一平台操作事件数据为平台操作事件大数据中的第一个平台操作事件数据时,该即汇聚特征为其本身特征,如目标汇聚操作冗余特征为第一平台操作事件数据的目标操作冗余特征。
由此,可以得到第一平台操作事件数据对应的目标汇聚操作异常特征、目标汇聚操作冗余特征以及目标汇聚操作干扰特征。
Process104,基于第一平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据,输出第一平台操作事件数据对应的清洗平台操作事件数据。
一些示例性的设计思路中,基于第一平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据确定第一平台操作事件数据对应的清洗平台操作事件数据可以理解为:基于第一平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据对第一平台操作事件数据进行数据清洗处理,确定清洗平台操作事件数据(即清洗平台操作事件数据实际为对第一平台操作事件数据进行数据清洗处理后所得到的操作事件数据)。换言之,本申请在对第一平台操作事件数据进行数据清洗处理的过程中,不仅需要第一平台操作事件数据自身的第一平台操作知识特征分布以及目标汇聚特征,还需要第二平台操作事件数据的相关信息。对于基于第一平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据,可以确定第一平台操作事件数据对应的清洗平台操作事件数据,其执行步骤包括:可以基于第一平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据,输出第一平台操作事件数据对应的目标清洗模型加载特征;随后,可以将目标清洗模型加载特征加载至训练数据清洗模型中,在训练数据清洗模型中,可以基于目标清洗模型加载特征输出第一平台操作事件数据对应的清洗平台操作事件数据。
其中,对于基于第一平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据,输出第一平台操作事件数据对应的目标清洗模型加载特征的执行步骤包括:可以获取第一平台操作事件数据对应的候选知识处理特征;其中,候选知识处理特征包括第一多方互动知识特征与第一单方渗透知识特征;随后,可以将候选知识处理特征中,除第一多方互动知识特征与第一单方渗透知识特征以外的知识特征,输出为余下知识特征;随后,可以将目标汇聚特征、第一多方互动知识特征、第一单方渗透知识特征以及余下知识特征进行聚合,即可得到第一平台操作事件数据对应的事件聚合特征;随后,可以将第二多方互动知识特征与第二单方渗透知识特征分别进行基于惩罚性的特征选择,确定第二多方互动知识特征对应的多方互动选择特征,以及第二单方渗透知识特征对应的单方渗透选择特征;可以将事件聚合特征、多方互动选择特征以及单方渗透选择特征进行拼接,确定第一平台操作事件数据对应的目标清洗模型加载特征。
值得说明的是,在汇聚包含数据干扰变量的操作事件数据特征(操作干扰特征)、操作冗余特征以及操作异常特征后,可以将汇聚得到的目标汇聚操作干扰特征、目标汇聚操作冗余特征以及目标汇聚操作异常特征,与第一平台操作事件数据的多方互动知识特征、单方渗透知识特征等知识特征,进行聚合,确定第一平台操作事件数据对应的事件聚合特征。一些示例性的设计思路中,可以将第一平台操作事件数据对应的事件聚合特征与第二平台操作事件数据的进行特征提取后的多方互动知识特征(即多方互动选择特征),以及单方渗透知识特征(单方渗透选择特征),进行平台操作事件数据级联,由此即可得到级联特征(也即目标清洗模型加载特征)。
一些示例性的设计思路中,可以将该目标清洗模型加载特征加载至训练数据清洗模型中,依据该训练数据清洗模型可以输出第一平台操作事件数据对应的清洗平台操作事件数据。其执行步骤包括:依据训练数据清洗模型,可以确定目标清洗模型加载特征对应的决策高质量操作事件数据、决策低质量操作事件数据、第一训练数据清洗参数以及第二训练数据清洗参数;其中,决策高质量操作事件数据未包含数据干扰变量,决策高质量操作事件数据的数据训练可靠度大于决策低质量操作事件数据的数据训练可靠度;随后,可以在训练数据清洗模型中,依据第一训练数据清洗参数将决策高质量操作事件数据与决策低质量操作事件数据进行数据重组,确定第一平台操作事件数据对应的初始清洗操作事件数据;随后,可以获取第二平台操作事件数据对应的先验清洗操作事件数据,依据第二训练数据清洗参数将初始清洗操作事件数据与先验清洗操作事件数据进行数据重组,即可得到第一平台操作事件数据对应的清洗平台操作事件数据。
值得说明的是,依据训练数据清洗模型可以决策出第一平台操作事件数据对应的去除干扰特征后的数据训练可靠度较高的操作事件数据,该平台操作事件数据即可作为决策高质量操作事件数据;依据训练数据清洗模型也可以输出两个通道参数Rs与Rt用于进行参数层调优和选取数据清洗,则参数Rs也即第一训练数据清洗参数,参数Rt也即第二训练数据清洗参数;依据训练数据清洗模型还可以从最后一个模型参数层中(如从决策高质量操作事件数据的最后一个模型参数层中),决策2X降采样后的数据训练可靠度较低的操作事件数据,该平台操作事件数据即可作为决策低质量操作事件数据。依据参数Rs,可以对高低数据训练可靠度平台操作事件数据进行混合,确定的混合结果即可作为第一平台操作事件数据的初始清洗操作事件数据。
一些示例性的设计思路中,依据另一个参数RO(即第二训练数据清洗参数),可以确定出第一平台操作事件数据的最终的清洗平台操作事件数据。
基于以上步骤,可以基于当前平台操作事件数据与前向平台操作事件数据的关联特征,计算出两个平台操作事件数据分别对应的目标操作权重分布特征,并依据目标操作权重分布特征来对两个平台操作事件数据进行特征汇聚,所得到的目标汇聚特征包含有前后数据汇聚后的特征,该汇聚后的特征可以表征前后数据的相关性,可以表达更多维度的特征;同时,在确定第一平台操作事件数据的清洗平台操作事件数据时,也是依据第一平台操作事件数据的第一平台操作知识特征分布、该目标汇聚特征以及前一个平台操作事件数据(第二平台操作事件数据)共同来确定,在确定第一平台操作事件数据的清洗平台操作事件数据时,不单考虑到当前的特征,还考虑到在先时间节点的先验数据的特征,可以基于当前的关联操作特征,所得到的清洗平台操作事件数据具有更高的干扰倾向质量。综上,无论是高大数据采集维度数还是低大数据采集维度数得到的操作事件数据,本申请均可以基于平台操作事件大数据中前后数据平台操作事件数据的平台操作知识特征分布,进行特征汇聚,并依据汇聚得到的汇聚特征与第二平台操作事件数据来共同确定第一平台操作事件数据的清洗平台操作事件数据,适应性更强;依据计算前后数据的汇聚特征,再依据汇聚特征来清洗操作事件数据的方法,可以基于平台操作事件数据的关联操作特征,进而提高清洗操作事件数据的清洗质量。
依据上述可知,在确定出第一平台操作事件数据的目标清洗模型加载特征后,可以将目标清洗模型加载特征加载至训练数据清洗模型中,依据训练数据清洗模型来确定出目标清洗模型加载特征对应的决策清洗操作事件数据(即第一平台操作事件数据对应的清洗平台操作事件数据)。而为了优化训练数据清洗模型进行数据清洗处理后的清洗质量,可以对初始的训练数据清洗模型进行参数层调优和选取,依据该参数层调优和选取后的训练数据清洗模型,可以进行数据清洗处理。下面介绍训练数据清洗模型的具体过程,可以包括以下Process301-Process307:
Process301,在范例平台操作大数据中获取目标范例平台操作事件数据与先验范例平台操作事件数据;范例平台操作大数据是依据第一大数据采集维度,对范例互联网服务平台进行大数据采集输出的业务大数据;先验范例平台操作事件数据是指范例平台操作大数据中,目标范例平台操作事件数据的上一个范例平台操作事件数据;第一大数据采集维度数量小于设定数量。
一些示例性的设计思路中的第一大数据采集维度数量与上述目标大数据采集维度数量可以为相同数值。
目标范例平台操作事件数据可以是指范例平台操作大数据中的任一范例平台操作事件数据,先验范例平台操作事件数据可以是指范例平台操作大数据中,目标范例平台操作事件数据的上一个范例平台操作事件数据。
Process302,获取目标范例平台操作事件数据对应的目标范例平台操作知识特征分布,以及先验范例平台操作事件数据对应的先验范例平台操作知识特征分布。
示例性地,同上述第一平台操作知识特征分布与第二平台操作知识特征分布一样,目标范例平台操作知识特征分布可以包括目标范例平台操作事件数据对应的多方互动知识特征(也即第一范例多方互动知识特征)与单方渗透知识特征(也即第一范例单方渗透知识特征);先验范例平台操作知识特征分布可以包括先验范例平台操作事件数据对应的多方互动知识特征(也即第二范例多方互动知识特征)与单方渗透知识特征(也即第二范例单方渗透知识特征)。
对于获取目标范例平台操作知识特征分布以及先验范例平台操作知识特征分布的具体方式,可以参见前述实施方式中,对于获取第一平台操作知识特征分布以及第二平台操作知识特征分布的描述,此处不再详细说明。
Process303,基于目标范例平台操作知识特征分布生成针对目标范例平台操作事件数据的第一范例目标操作权重分布特征,基于目标范例平台操作知识特征分布和先验范例平台操作知识特征分布,生成针对先验范例平台操作事件数据的第二范例目标操作权重分布特征,依据第一范例目标操作权重分布特征和第二范例目标操作权重分布特征,将目标范例平台操作事件数据与先验范例平台操作事件数据进行特征汇聚,确定目标范例平台操作事件数据对应的目标范例汇聚特征。
示例性地,可以将第二范例多方互动知识特征与第二范例单方渗透知识特征进行平台操作事件数据基于惩罚性的特征选择,确定范例多方互动选择特征以及范例单方渗透选择特征;可以将第一范例多方互动知识特征于第一范例单方渗透知识特征加载至操作域汇聚模型中,依据操作域汇聚模型的第一特征提取分支,可以输出一个嵌入特征(也即第一范例成员操作权重分布特征);也可以将范例多方互动选择特征、范例单方渗透选择特征、第一范例多方互动知识特征与第一范例单方渗透知识特征加载至操作域汇聚模型中,依据操作域汇聚模型的第二特征提取分支,可以输出范例多方互动选择特征与范例单方渗透选择特征对应的一个嵌入特征(也即先验范例成员操作权重分布特征),也可以输出第一范例多方互动知识特征与第一范例单方渗透知识特征对应的一个嵌入特征(也即第二范例成员操作权重分布特征);同理,依据第一范例成员操作权重分布特征与第二范例成员操作权重分布特征,可以确定出目标范例平台操作事件数据的第一范例目标操作权重分布特征;依据第一范例成员操作权重分布特征与先验范例成员操作权重分布特征,也可以确定出先验范例平台操作事件数据的第二范例目标操作权重分布特征。而依据第一范例目标操作权重分布特征和第二范例目标操作权重分布特征,可以将目标范例平台操作事件数据与先验范例平台操作事件数据进行特征汇聚,确定目标范例平台操作事件数据对应的目标范例汇聚特征。
对于确定第一范例目标操作权重分布特征的具体过程,可以参见前述实施方式中,对于确定第一目标操作权重分布特征的描述;对于确定第二范例目标操作权重分布特征的具体过程,可以参见前述实施方式中,对于确定第二目标操作权重分布特征的描述;对于依据第一范例目标操作权重分布特征和第二范例目标操作权重分布特征,将目标范例平台操作事件数据与先验范例平台操作事件数据进行特征汇聚,确定目标范例平台操作事件数据对应的目标范例汇聚特征的具体实施方式,可以参见前述实施方式中,对于依据第一目标操作权重分布特征和第二目标操作权重分布特征,将第一平台操作事件数据和第二平台操作事件数据进行特征汇聚,确定目标汇聚特征的描述,此处不再详细说明。
Process304,基于目标范例平台操作知识特征分布、目标范例汇聚特征以及先验范例平台操作事件数据,输出目标范例平台操作事件数据对应的目标范例清洗模型加载特征。
示例性地,目标范例汇聚特征也可以包含目标范例汇聚操作冗余特征、目标范例汇聚操作干扰特征以及目标范例汇聚操作异常特征,可以基于目标范例平台操作知识特征分布、目标范例汇聚特征以及先验范例平台操作事件数据,输出目标范例平台操作事件数据对应的目标范例清洗模型加载特征的具体实施方式,可以参见前述实施方式中,基于第一平台操作知识特征分布、目标汇聚特征以及第二平台操作事件数据,输出目标清洗模型加载特征的描述,此处不再详细说明。
Process305,将目标范例清洗模型加载特征加载至训练数据清洗模型中,在训练数据清洗模型中,基于目标范例清洗模型加载特征输出目标范例平台操作事件数据对应的目标范例清洗操作事件数据。
示例性地可以依据训练数据清洗模型输出目标范例平台操作事件数据对应的目标范例清洗操作事件数据。对于在训练数据清洗模型中,基于目标范例清洗模型加载特征输出目标范例平台操作事件数据对应的目标范例清洗操作事件数据的具体实施方式,可以参见前述实施方式中,对于在训练数据清洗模型中,基于目标清洗模型加载特征输出第一平台操作事件数据对应的清洗平台操作事件数据的描述,此处不再详细说明。
Process306,获取目标范例平台操作事件数据对应的目标维度采样操作事件数据;目标维度采样操作事件数据是指依据第二大数据采集维度,对范例互联网服务平台进行大数据采集输出的操作事件数据;第一大数据采集维度小于第二大数据采集维度。
示例性地,目标维度采样操作事件数据可以是指依据第二大数据采集维度,对范例互联网服务平台进行大数据采集所得到平台操作事件数据,其中,第二大数据采集维度数量可以是指低于设定数量的数值,采集得到的高数据训练可靠度的未包含数据干扰变量的操作事件数据,即可作为本申请的维度采样操作事件数据(即参考平台操作事件数据);目标维度采样操作事件数据则可以是指目标范例平台操作事件数据对应的参考平台操作事件数据,该参考平台操作事件数据为高数据训练可靠度的未含干扰特征的操作事件数据。
Process307,基于目标维度采样操作事件数据与目标范例清洗操作事件数据,对训练数据清洗模型进行参数层调优和选取,确定用于对平台操作事件大数据中的第一平台操作事件数据进行数据清洗处理的训练数据清洗模型。
示例性地,依据目标维度采样操作事件数据以及训练数据清洗模型所输出的目标范例清洗操作事件数据,可以对训练数据清洗模型进行参数层调优和选取。其具体方式可为:可以将范例平台操作大数据中,余下范例平台操作事件数据对应的范例清洗操作事件数据确定为标的清洗操作事件数据,可以将余下范例平台操作事件数据对应的维度采样操作事件数据确定为标的维度采样操作事件数据;其中,余下范例平台操作事件数据是指范例平台操作大数据中,除目标范例平台操作事件数据以外的范例平台操作事件数据;随后,基于标的清洗操作事件数据、标的维度采样操作事件数据、目标维度采样操作事件数据以及目标范例清洗操作事件数据,可以确定针对训练数据清洗模型的目标训练代价值;基于目标训练代价值即可对训练数据清洗模型进行参数层调优和选取,确定训练数据清洗模型。
其中,对于基于标的清洗操作事件数据、标的维度采样操作事件数据、目标维度采样操作事件数据以及目标范例清洗操作事件数据,输出针对训练数据清洗模型的目标训练代价值的执行步骤包括:基于标的清洗操作事件数据、标的维度采样操作事件数据、目标维度采样操作事件数据以及目标范例清洗操作事件数据,可以确定针对训练数据清洗模型的空域训练代价值;基于标的清洗操作事件数据、标的维度采样操作事件数据、目标维度采样操作事件数据以及目标范例清洗操作事件数据,可以确定针对训练数据清洗模型的时域训练代价值;基于标的清洗操作事件数据、标的维度采样操作事件数据、目标维度采样操作事件数据以及目标范例清洗操作事件数据,可以确定针对训练数据清洗模型的频域训练代价值;基于空域训练代价值、时域训练代价值以及频域训练代价值,可以确定针对训练数据清洗模型的目标训练代价值。
其中,对于基于标的清洗操作事件数据、标的维度采样操作事件数据、目标维度采样操作事件数据以及目标范例清洗操作事件数据,输出针对训练数据清洗模型的空域训练代价值的执行步骤包括:可以获取空域代价评估函数,基于空域代价评估函数、标的清洗操作事件数据以及标的维度采样操作事件数据,可以确定针对余下范例平台操作事件数据的第一空域子训练代价值;基于空域代价评估函数、目标维度采样操作事件数据以及目标范例清洗操作事件数据,可以确定针对目标范例平台操作事件数据的第二空域子训练代价值;随后,可以将第一空域子训练代价值与第二空域子训练代价值进行加权计算,即可得到训练数据清洗模型的空域训练代价值。而对于将第一空域子训练代价值与第二空域子训练代价值进行加权计算,确定训练数据清洗模型的空域训练代价值的执行步骤包括:可以获取针对余下范例平台操作事件数据的第一学习影响参数值,以及针对目标范例平台操作事件数据的第二学习影响参数值;可以将第一学习影响参数值与第一空域子训练代价值进行加权,确定第一加权空域子训练代价值;可以将第二学习影响参数值与第二空域子训练代价值进行加权,确定第二加权空域子训练代价值;随后,将第一加权空域子训练代价值与第二加权空域子训练代价值进行相加处理,即可得到训练数据清洗模型的空域训练代价值。
同空域训练代价值一样,对于时域训练代价值以及频域训练代价值也是如此,可以依次计算出范例平台操作大数据中每个范例平台操作事件数据对应的时域子训练代价值(或频域子训练代价值),再将各个范例平台操作事件数据的时域子训练代价值(或频域子训练代价值)进行加权求和处理(各个范例平台操作事件数据的学习影响参数值可以预先分配好),确定最终的时域训练代价值(或频域训练代价值)。
上述空域训练代价值、时域训练代价值以及频域训练代价值,可以为训练训练数据清洗模型的一部分训练代价值,对于训练数据清洗模型,还可以包括另一部分的训练代价值,两部分训练代价值一起对训练数据清洗模型进行参数层调优和选取。另一部分训练代价值可以包括特征选择训练代价值以及操作异常训练代价值,换言之,对于目标训练代价值可以依据空域训练代价值、时域训练代价值、频域训练代价值、特征选择训练代价值以及操作异常训练代价值共同确定。其中,特征选择训练代价值是只在范例平台操作大数据中的最后两个平台操作事件数据上进行计算,而操作异常训练代价值是只在范例平台操作大数据中的最后一个平台操作事件数据上进行计算。这里我们以目标范例平台操作事件数据为范例平台操作大数据中的最后一个范例平台操作事件数据(则先验范例平台操作事件数据与目标范例平台操作事件数据为范例平台操作大数据中的最后两个平台操作事件数据)为例,对于确定目标训练代价值的执行步骤包括:可以获取先验范例平台操作事件数据对应的先验范例清洗操作事件数据以及先验维度采样操作事件数据,基于先验范例清洗操作事件数据、目标范例清洗操作事件数据、先验维度采样操作事件数据以及目标维度采样操作事件数据,可以确定针对训练数据清洗模型的特征选择训练代价值;随后,可以获取目标范例平台操作事件数据对应的目标范例操作异常特征,在目标范例汇聚特征中,获取目标范例平台操作事件数据对应的目标范例汇聚操作异常特征,基于操作异常代价评估函数、目标范例操作异常特征以及目标范例汇聚操作异常特征,可以确定针对训练数据清洗模型的操作异常训练代价值;将空域训练代价值、时域训练代价值、频域训练代价值、特征选择训练代价值以及操作异常训练代价值进行加权计算,即可得到训练数据清洗模型的目标训练代价值。
基于以上步骤,可以基于当前平台操作事件数据与前向平台操作事件数据的关联特征,计算出两个平台操作事件数据分别对应的目标操作权重分布特征,并依据目标操作权重分布特征来对两个平台操作事件数据进行特征汇聚,所得到的目标汇聚特征包含有前后数据汇聚后的特征,该汇聚后的特征可以表征前后数据的相关性,可以表达更多维度的特征;同时,在确定第一平台操作事件数据的清洗平台操作事件数据时,也是依据第一平台操作事件数据的第一平台操作知识特征分布、该目标汇聚特征以及前一个平台操作事件数据(第二平台操作事件数据)共同来确定,在确定第一平台操作事件数据的清洗平台操作事件数据时,不单考虑到当前的特征,还考虑到在先时间节点的先验数据的特征,可以基于当前的关联操作特征,所得到的清洗平台操作事件数据具有更高的干扰倾向质量。综上,无论是高大数据采集维度数还是低大数据采集维度数得到的操作事件数据,本申请均可以基于平台操作事件大数据中前后数据平台操作事件数据的平台操作知识特征分布,进行特征汇聚,并依据汇聚得到的汇聚特征与第二平台操作事件数据来共同确定第一平台操作事件数据的清洗平台操作事件数据,适应性更强;依据计算前后数据的汇聚特征,再依据汇聚特征来清洗操作事件数据的方法,可以基于平台操作事件数据的关联操作特征,进而提高清洗操作事件数据的清洗质量。
一些实施例中,人工智能训练系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。
处理器110可以通过存储在机器可读存储介质120中的程序而执行各种适当的动作和处理,例如前述实施例所描述的基于大数据清洗的AI训练处理方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。
特别地,基于本发明的实施例,上文示例性流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信单元140从网络上被下载和安装,在该计算机程序被处理器110执行时,执行本发明实施例的方法中限定的上述功能。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的基于大数据清洗的AI训练处理方法。
本发明又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的基于大数据清洗的AI训练处理方法。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其它的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其它类似实施手段,同样属于本申请实施例的保护范畴。

Claims (6)

1.一种基于大数据清洗的AI训练处理方法,其特征在于,所述方法包括:
在接收到指定互联网服务平台的待开发页面服务计划时,获取所述待开发页面服务计划所覆盖的数据知识图谱,并基于所述数据知识图谱采集各个目标用户的平台操作事件大数据后,对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列,其中,所述清洗平台操作事件数据序列包括已进行大数据清洗的多个清洗平台操作事件数据;
基于获取到的各个所述清洗平台操作事件数据,生成对应的AI训练样本数据,并基于用户标注操作指令生成每个AI训练样本数据所对应的训练标签,其中,所述用户标注操作指令基于在先发起的AI训练任务触发;
基于所述每个AI训练样本数据以及对应的训练标签对初始化神经网络模型进行训练,输出训练完成的目标神经网络模型,并将所述目标神经网络模型部署到所述AI训练任务所映射的页面服务中;
所述对各个目标用户的平台操作事件大数据进行大数据清洗,获得对应的清洗平台操作事件数据序列的步骤,包括:
在各个目标用户的平台操作事件大数据中获取第一平台操作事件数据与第二平台操作事件数据;所述平台操作事件大数据是依据目标大数据采集维度,对指定互联网服务平台进行大数据采集输出的业务大数据;所述第二平台操作事件数据是指所述平台操作事件大数据中所述第一平台操作事件数据的前向操作事件数据;
获取所述第一平台操作事件数据对应的第一平台操作知识特征分布,以及所述第二平台操作事件数据对应的第二平台操作知识特征分布;
基于所述第一平台操作知识特征分布生成针对所述第一平台操作事件数据的第一目标操作权重分布特征,基于所述第一平台操作知识特征分布和所述第二平台操作知识特征分布,输出针对所述第二平台操作事件数据的第二目标操作权重分布特征,依据所述第一目标操作权重分布特征和所述第二目标操作权重分布特征,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征;
基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的清洗平台操作事件数据;
所述基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的清洗平台操作事件数据的步骤,具体包括:
基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的目标清洗模型加载特征;
将所述目标清洗模型加载特征加载至训练数据清洗模型中,在所述训练数据清洗模型中,基于所述目标清洗模型加载特征输出所述第一平台操作事件数据对应的清洗平台操作事件数据;
所述第一平台操作知识特征分布包括第一多方互动知识特征与第一单方渗透知识特征;所述第二平台操作知识特征分布包括所述第二平台操作事件数据对应的第二多方互动知识特征与第二单方渗透知识特征;
所述基于所述第一平台操作知识特征分布、所述目标汇聚特征以及所述第二平台操作事件数据,输出所述第一平台操作事件数据对应的目标清洗模型加载特征的步骤,具体包括:
获取所述第一平台操作事件数据对应的候选知识处理特征;所述候选知识处理特征包括所述第一多方互动知识特征与所述第一单方渗透知识特征;
将所述候选知识处理特征中,除所述第一多方互动知识特征与所述第一单方渗透知识特征以外的知识特征,输出为余下知识特征;
将所述目标汇聚特征、所述第一多方互动知识特征、所述第一单方渗透知识特征以及所述余下知识特征进行聚合,确定所述第一平台操作事件数据对应的事件聚合特征;
将所述第二多方互动知识特征与所述第二单方渗透知识特征分别进行基于惩罚性的特征选择,确定所述第二多方互动知识特征对应的多方互动选择特征,以及所述第二单方渗透知识特征对应的单方渗透选择特征;
将所述事件聚合特征、所述多方互动选择特征以及所述单方渗透选择特征进行拼接,确定所述第一平台操作事件数据对应的目标清洗模型加载特征;
所述在所述训练数据清洗模型中,基于所述目标清洗模型加载特征输出所述第一平台操作事件数据对应的清洗平台操作事件数据的步骤,具体包括:
依据所述训练数据清洗模型,输出所述目标清洗模型加载特征对应的决策高质量操作事件数据、决策低质量操作事件数据、第一训练数据清洗参数以及第二训练数据清洗参数;所述决策高质量操作事件数据未包含数据干扰变量,所述决策高质量操作事件数据的数据训练可靠度大于所述决策低质量操作事件数据的数据训练可靠度;
在所述训练数据清洗模型中,依据所述第一训练数据清洗参数将所述决策高质量操作事件数据与所述决策低质量操作事件数据进行数据重组,确定所述第一平台操作事件数据对应的初始清洗操作事件数据;
获取所述第二平台操作事件数据对应的先验清洗操作事件数据,依据所述第二训练数据清洗参数将所述初始清洗操作事件数据与所述先验清洗操作事件数据进行数据重组,确定所述第一平台操作事件数据对应的清洗平台操作事件数据;
所述方法还包括:
在范例平台操作大数据中获取目标范例平台操作事件数据与先验范例平台操作事件数据;所述范例平台操作大数据是依据第一大数据采集维度,对范例互联网服务平台进行大数据采集输出的业务大数据;所述先验范例平台操作事件数据是指所述范例平台操作大数据中,所述目标范例平台操作事件数据的上一个范例平台操作事件数据;所述第一大数据采集维度数量小于设定数量;
获取所述目标范例平台操作事件数据对应的目标范例平台操作知识特征分布,以及所述先验范例平台操作事件数据对应的先验范例平台操作知识特征分布;
基于所述目标范例平台操作知识特征分布生成针对所述目标范例平台操作事件数据的第一范例目标操作权重分布特征,基于所述目标范例平台操作知识特征分布和所述先验范例平台操作知识特征分布,生成针对所述先验范例平台操作事件数据的第二范例目标操作权重分布特征,依据所述第一范例目标操作权重分布特征和所述第二范例目标操作权重分布特征,将所述目标范例平台操作事件数据与先验范例平台操作事件数据进行特征汇聚,确定所述目标范例平台操作事件数据对应的目标范例汇聚特征;
基于所述目标范例平台操作知识特征分布、所述目标范例汇聚特征以及所述先验范例平台操作事件数据,输出所述目标范例平台操作事件数据对应的目标范例清洗模型加载特征;
将所述目标范例清洗模型加载特征加载至训练数据清洗模型中,在所述训练数据清洗模型中,基于所述目标范例清洗模型加载特征输出所述目标范例平台操作事件数据对应的目标范例清洗操作事件数据;
获取所述目标范例平台操作事件数据对应的目标维度采样操作事件数据;所述目标维度采样操作事件数据是指依据第二大数据采集维度,对所述范例互联网服务平台进行大数据采集输出的操作事件数据;所述第一大数据采集维度数量小于所述第二大数据采集维度数量;
基于所述目标维度采样操作事件数据与所述目标范例清洗操作事件数据,对所述训练数据清洗模型进行参数层调优和选取,确定用于对平台操作事件大数据中的第一平台操作事件数据进行数据清洗处理的训练数据清洗模型;
所述基于所述目标维度采样操作事件数据与所述目标范例清洗操作事件数据,对所述训练数据清洗模型进行参数层调优和选取,确定用于对平台操作事件大数据中的第一平台操作事件数据进行数据清洗处理的训练数据清洗模型的步骤,具体包括:
将所述范例平台操作大数据中,余下范例平台操作事件数据对应的范例清洗操作事件数据确定为标的清洗操作事件数据,将所述余下范例平台操作事件数据对应的维度采样操作事件数据确定为标的维度采样操作事件数据;所述余下范例平台操作事件数据是指所述范例平台操作大数据中,除所述目标范例平台操作事件数据以外的范例平台操作事件数据;
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的目标训练代价值;
基于所述目标训练代价值对所述训练数据清洗模型进行参数层调优和选取,确定所述训练数据清洗模型;
所述基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的目标训练代价值的步骤,具体包括:
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的空域训练代价值;
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的时域训练代价值;
基于所述标的清洗操作事件数据、所述标的维度采样操作事件数据、所述目标维度采样操作事件数据以及所述目标范例清洗操作事件数据,输出针对所述训练数据清洗模型的频域训练代价值;
基于所述空域训练代价值、所述时域训练代价值以及所述频域训练代价值,输出针对所述训练数据清洗模型的目标训练代价值;
所述目标范例平台操作事件数据为所述范例平台操作大数据中的最后一个范例平台操作事件数据;
所述基于所述空域训练代价值、所述时域训练代价值以及所述频域训练代价值,输出针对所述训练数据清洗模型的目标训练代价值的步骤,具体包括:
获取所述先验范例平台操作事件数据对应的先验范例清洗操作事件数据以及先验维度采样操作事件数据,基于所述先验范例清洗操作事件数据、所述目标范例清洗操作事件数据、所述先验维度采样操作事件数据以及所述目标维度采样操作事件数据,输出针对所述训练数据清洗模型的特征选择训练代价值;
获取所述目标范例平台操作事件数据对应的目标范例操作异常特征,在所述目标范例汇聚特征中,获取所述目标范例平台操作事件数据对应的目标范例汇聚操作异常特征,基于操作异常代价评估函数、所述目标范例操作异常特征以及所述目标范例汇聚操作异常特征,输出针对所述训练数据清洗模型的操作异常训练代价值;
将所述空域训练代价值、所述时域训练代价值、所述频域训练代价值、所述特征选择训练代价值以及所述操作异常训练代价值进行加权计算,确定所述训练数据清洗模型的目标训练代价值。
2.根据权利要求1所述的基于大数据清洗的AI训练处理方法,其特征在于,所述第一平台操作知识特征分布包括所述第一平台操作事件数据对应的第一多方互动知识特征与第一单方渗透知识特征;
所述基于所述第一平台操作知识特征分布生成针对所述第一平台操作事件数据的第一目标操作权重分布特征的步骤,具体包括:
将所述第一多方互动知识特征与所述第一单方渗透知识特征,加载至操作域汇聚模型;
依据所述操作域汇聚模型的第一特征提取分支,对所述第一多方互动知识特征与所述第一单方渗透知识特征进行特征提取,确定所述第一平台操作事件数据对应的第一成员操作权重分布特征;
依据所述操作域汇聚模型的第二特征提取分支,对所述第一多方互动知识特征与所述第一单方渗透知识特征进行特征提取,确定所述第一平台操作事件数据对应的第二成员操作权重分布特征;
将所述第一成员操作权重分布特征与所述第二成员操作权重分布特征进行聚合,确定针对所述第一平台操作事件数据的第一目标操作权重分布特征。
3.根据权利要求1所述的基于大数据清洗的AI训练处理方法,其特征在于,所述第一平台操作知识特征分布包括所述第一平台操作事件数据对应的第一多方互动知识特征与第一单方渗透知识特征,所述第二平台操作知识特征分布包括所述第二平台操作事件数据对应的第二多方互动知识特征与第二单方渗透知识特征;
所述基于所述第一平台操作知识特征分布和所述第二平台操作知识特征分布,输出针对所述第二平台操作事件数据的第二目标操作权重分布特征的步骤,具体包括:
将所述第二多方互动知识特征与所述第二单方渗透知识特征分别进行基于惩罚性的特征选择,确定所述第二多方互动知识特征对应的多方互动选择特征,以及所述第二单方渗透知识特征对应的单方渗透选择特征;
将所述第一多方互动知识特征、所述第一单方渗透知识特征、所述多方互动选择特征以及所述单方渗透选择特征加载至操作域汇聚模型;
依据所述操作域汇聚模型的第一特征提取分支,对所述第一多方互动知识特征与所述第一单方渗透知识特征进行特征提取,确定所述第一平台操作事件数据对应的第一操作权重分布特征;
依据所述操作域汇聚模型的第二特征提取分支,对所述多方互动选择特征与所述单方渗透选择特征进行特征提取,确定所述第二平台操作事件数据对应的第二操作权重分布特征;
将所述第一操作权重分布特征与所述第二操作权重分布特征进行聚合,确定针对所述第二平台操作事件数据的第二目标操作权重分布特征。
4.根据权利要求1所述的基于大数据清洗的AI训练处理方法,其特征在于,所述依据所述第一目标操作权重分布特征和所述第二目标操作权重分布特征,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征的步骤,具体包括:
获取预设线性分类模型,依据所述预设线性分类模型与所述第一目标操作权重分布特征,输出针对所述第一平台操作事件数据的第一线性分类参数值;
依据所述预设线性分类模型与所述第二目标操作权重分布特征,输出针对所述第二平台操作事件数据的第二线性分类参数值;
基于所述第一线性分类参数值和所述第二线性分类参数值,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征。
5.根据权利要求1所述的基于大数据清洗的AI训练处理方法,其特征在于,所述依据所述第一目标操作权重分布特征和所述第二目标操作权重分布特征,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征的步骤,具体包括:
获取预设线性分类模型,依据所述预设线性分类模型与所述第一目标操作权重分布特征,输出针对所述第一平台操作事件数据的第一线性分类参数值;
依据所述预设线性分类模型与所述第二目标操作权重分布特征,输出针对所述第二平台操作事件数据的第二线性分类参数值;
基于所述第一线性分类参数值和所述第二线性分类参数值,将所述第一平台操作事件数据与所述第二平台操作事件数据进行特征汇聚,确定所述第一平台操作事件数据对应的目标汇聚特征。
6.一种人工智能训练系统,其特征在于,所述人工智能训练系统包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,所述处理器用于运行所述计算机程序时,执行权利要求1-5中任意一项的基于大数据清洗的AI训练处理方法。
CN202211117707.1A 2022-09-14 2022-09-14 基于大数据清洗的ai训练处理方法及人工智能训练系统 Active CN115422179B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310244132.8A CN116186016A (zh) 2022-09-14 2022-09-14 用于ai训练任务的训练数据清洗方法及系统
CN202211117707.1A CN115422179B (zh) 2022-09-14 2022-09-14 基于大数据清洗的ai训练处理方法及人工智能训练系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211117707.1A CN115422179B (zh) 2022-09-14 2022-09-14 基于大数据清洗的ai训练处理方法及人工智能训练系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310244132.8A Division CN116186016A (zh) 2022-09-14 2022-09-14 用于ai训练任务的训练数据清洗方法及系统

Publications (2)

Publication Number Publication Date
CN115422179A CN115422179A (zh) 2022-12-02
CN115422179B true CN115422179B (zh) 2023-05-23

Family

ID=84202761

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310244132.8A Pending CN116186016A (zh) 2022-09-14 2022-09-14 用于ai训练任务的训练数据清洗方法及系统
CN202211117707.1A Active CN115422179B (zh) 2022-09-14 2022-09-14 基于大数据清洗的ai训练处理方法及人工智能训练系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310244132.8A Pending CN116186016A (zh) 2022-09-14 2022-09-14 用于ai训练任务的训练数据清洗方法及系统

Country Status (1)

Country Link
CN (2) CN116186016A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340548A (zh) * 2023-05-29 2023-06-27 四维创智(北京)科技发展有限公司 一种数据处理方法、装置、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070183B (zh) * 2019-03-11 2021-08-20 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置
US20200400010A1 (en) * 2019-06-19 2020-12-24 OspreyData, Inc. Downhole and near wellbore reservoir state inference through automated inverse wellbore flow modeling
CN112508609B (zh) * 2020-12-07 2024-04-30 深圳市欢太科技有限公司 人群扩量的预测方法、装置、设备及存储介质
CN114003567A (zh) * 2021-10-12 2022-02-01 深圳思为科技有限公司 数据采集的方法及相关装置
CN115048370B (zh) * 2022-07-06 2023-01-03 广州劲源科技发展股份有限公司 用于大数据清洗的人工智能处理方法及大数据清洗系统

Also Published As

Publication number Publication date
CN116186016A (zh) 2023-05-30
CN115422179A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN115422179B (zh) 基于大数据清洗的ai训练处理方法及人工智能训练系统
CN111083013B (zh) 基于流量回放的测试方法、装置、电子设备及存储介质
CN115310558B (zh) 针对云业务服务异常优化的大数据分析方法及ai分析系统
CN115048370B (zh) 用于大数据清洗的人工智能处理方法及大数据清洗系统
CN115422472B (zh) 基于人工智能识别的用户关注需求决策方法及大数据系统
CN109743286A (zh) 一种基于图卷积神经网络的ip类型标记方法及设备
CN115422463A (zh) 基于大数据的用户分析推送处理方法及系统
CN115756642A (zh) 一种业务流程配置方法、装置、设备及存储介质
CN114117235A (zh) 采用人工智能分析的电商内容推送方法及电商大数据系统
CN114969552B (zh) 用于个性化信息推送服务的大数据挖掘方法及ai预测系统
CN114697128A (zh) 通过人工智能决策的大数据去噪方法及大数据采集系统
CN111078560B (zh) 基于流量剪枝的测试方法、装置、电子设备及存储介质
CN115712843B (zh) 基于人工智能的数据匹配检测处理方法及系统
CN114978765B (zh) 服务于信息攻击防御的大数据处理方法及ai攻击防御系统
CN115906927B (zh) 基于人工智能的数据访问分析方法、系统及云平台
CN115422486B (zh) 基于人工智能的云服务在线页面优化方法及大数据系统
CN114896502B (zh) 应用ai和大数据分析的用户需求决策方法及互联网系统
CN115329205B (zh) 服务于个性化推送服务的大数据挖掘方法及ai推荐系统
CN114780967B (zh) 基于大数据漏洞挖掘的挖掘评估方法及ai漏洞挖掘系统
CN114625606A (zh) 基于数字化的大数据智慧服务信息优化方法及服务器
CN114168966A (zh) 基于大数据分析的安全防护升级挖掘方法及信息安全系统
CN113411841B (zh) 5g切片的割接合并方法、装置及计算设备
CN114049161A (zh) 基于电商大数据反馈的推送优化方法及电商大数据系统
Natalino et al. Machine-learning-as-a-service for optical network automation
CN115062722B (zh) 基于云端业务大数据清洗的ai训练方法及人工智能云系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230504

Address after: Room 905, 9th Floor, 26th Floor, Anzhen Xili Third District, Chaoyang District, Beijing, 100020

Applicant after: Beijing Zhongshuruizhi Technology Co.,Ltd.

Address before: 674,100 203, Building 3, Zhaihou Comprehensive Trade City, Xi'an Street, Gucheng District, Lijiang City, Yunnan Province

Applicant before: Feng Qinhai

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant