CN117891811A - 一种客户数据采集分析方法、装置及云服务器 - Google Patents

一种客户数据采集分析方法、装置及云服务器 Download PDF

Info

Publication number
CN117891811A
CN117891811A CN202410282043.7A CN202410282043A CN117891811A CN 117891811 A CN117891811 A CN 117891811A CN 202410282043 A CN202410282043 A CN 202410282043A CN 117891811 A CN117891811 A CN 117891811A
Authority
CN
China
Prior art keywords
data item
data
estimated
stream
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410282043.7A
Other languages
English (en)
Other versions
CN117891811B (zh
Inventor
苏贤
张晓亮
曹荣来
贲余刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Shuce Information Technology Co ltd
Original Assignee
Nanjing Shuce Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Shuce Information Technology Co ltd filed Critical Nanjing Shuce Information Technology Co ltd
Priority to CN202410282043.7A priority Critical patent/CN117891811B/zh
Publication of CN117891811A publication Critical patent/CN117891811A/zh
Application granted granted Critical
Publication of CN117891811B publication Critical patent/CN117891811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供一种客户数据采集分析方法、装置及云服务器,通过多个客户数据调试二元组基础神经网络进行调试,可得到包含预估清洗策略、预估排布顺次和确定待预估数据项流等完成多任务性能的客户数据处理网络,客户数据处理网络可以完成复杂的数据清洗任务,同时包含高可靠性和鲁棒性。如客户数据处理网络可确定加载的任一数据流的各数据项的预估清洗策略以及预估排布顺次,从而依据各数据项的预估清洗策略以及预估排布顺次对数据流进行清洗以获得目标数据项流。

Description

一种客户数据采集分析方法、装置及云服务器
技术领域
本公开涉及电数据处理领域,并且更具体地,涉及一种客户数据采集分析方法、装置及云服务器。
背景技术
随着信息技术的飞速发展,客户数据的处理已成为众多企业和组织不可或缺的一部分。在数据采集分析过程中,数据清洗作为确保数据质量和准确性的关键环节,一直备受关注。然而,传统的数据清洗方法往往面临着处理效率低下、鲁棒性不足等问题,难以满足日益增长的数据处理需求。近年来,神经网络和机器学习技术在数据处理领域的应用日益广泛。这些技术能够通过学习数据的内在规律和模式,自动化地完成复杂的数据处理任务。特别是在面对大规模、高维度的客户数据时,神经网络和机器学习技术展现出了强大的处理能力和潜力。然而,现有的基于神经网络和机器学习技术的数据清洗方法仍存在一些局限性。例如,这些方法往往在复杂的数据清洗任务中,无法实现多任务之间的协同和优化,也不能考虑到数据项顺序对结果的影响。面对复杂多变的数据环境,相关技术的可靠性和鲁棒性也有待进一步提高。
发明内容
有鉴于此,本公开实施例至少提供一种客户数据采集分析方法、装置及云服务器。
根据本公开实施例的一个方面,提供了一种客户数据采集分析方法,应用于云服务器,所述方法包括:确定多个客户数据调试二元组,每个所述客户数据调试二元组包括客户数据流样例、以及对所述客户数据流样例进行数据清洗后获得的目标数据项流;将每个客户数据流样例加载到基础神经网络,得到对所述客户数据流样例进行数据清洗后的预估数据项流,所述预估数据项流由所述基础神经网络依据如下步骤进行获取:依据所述客户数据流样例的每个数据项样例的第一中间状态表征向量,确定各所述数据项样例对应的预估清洗指示标记和预估顺次指示标记,每个所述数据项样例的预估清洗指示标记和预估顺次指示标记分别表征所述数据项样例的预估清洗策略和预估排布顺次;依据各所述预估清洗指示标记和各所述预估顺次指示标记对所述客户数据流样例进行处理以获得待预估数据项流,依据所述待预估数据项流的每个待预估数据项的第二中间状态表征向量,确定各所述待预估数据项对应的预估数据项指示标记,每个所述待预估数据项对应的预估数据项指示标记表征所述待预估数据项对应的预估数据项,依据各所述待预估数据项对应的预估数据项指示标记,确定所述客户数据流样例对应的预估数据项流;依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,得到总调试误差,每个所述客户数据流样例对应的各所述真实数据项指示标记分别表征所述客户数据流样例对应的目标数据项流的各目标数据项,依据所述总调试误差和各所述客户数据调试二元组对所述基础神经网络进行反复调试,直到所述总调试误差满足调试截止要求时结束调试过程,并将调试结束时获得的神经网络确定为客户数据处理网络;确定待清洗数据项流;将所述待清洗数据项流加载到所述客户数据处理网络,得到所述待清洗数据项流对应的目标数据项流。
根据本公开实施例的一个示例,其中,依据各所述第一中间状态表征向量确定各所述数据项样例对应的预估清洗指示标记,包括:针对每一所述数据项样例,依据所述数据项样例的第一中间状态表征向量,确定所述数据项样例对应的预估清洗指示标记属于各预设清洗指示标记的第一置信度,依据所述数据项样例对应的各所述第一置信度,确定所述数据项样例的预估清洗指示标记;每个所述预估清洗指示标记表征一类预设清洗策略,所述预设清洗策略为去除数据项、更替数据项、植入数据项或留存数据项中的一种;依据各所述第一中间状态表征向量确定各所述数据项样例对应的预估顺次指示标记,包括:针对每一所述数据项样例,确定所述数据项样例对应的预估清洗指示标记的清洗表征向量、以及所述数据项样例在所述客户数据流样例中的分布信息表征向量,依据所述数据项样例对应的第一中间状态表征向量、清洗表征向量以及分布信息表征向量,确定所述数据项样例的交互表征向量;依据各所述数据项样例的交互表征向量,确定各所述数据项样例对应的预估顺次指示标记。
根据本公开实施例的一个示例,其中,所述依据各所述数据项样例的交互表征向量,确定各所述数据项样例对应的预估顺次指示标记,包括:依据每个所述数据项样例的交互表征向量,确定所述数据项样例对应的预估顺次指示标记为各预设顺次指示标记的第二置信度,各所述预设顺次指示标记各自表征不同的排布顺次;依据各所述数据项样例对应的各所述第二置信度,确定各所述数据项样例对应的预估顺次指示标记。
根据本公开实施例的一个示例,其中,所述依据每个所述数据项样例的交互表征向量,确定所述数据项样例对应的预估顺次指示标记为各所述预设顺次指示标记的第二置信度,包括:依据每个所述数据项样例的交互表征向量,确定所述数据项样例对应的聚焦表征向量;依据每个所述数据项样例的交互表征向量、以及各所述数据项样例对应的聚焦表征向量,确定所述客户数据流样例中所述数据项样例的后一个数据项对应的预估顺次指示标记为各所述预设顺次指示标记的第二置信度,其中,所述客户数据流样例中的第一个数据项样例对应的各所述第二置信度是依据第一预设数据项的交互表征向量确定的。
根据本公开实施例的一个示例,其中,所述依据各所述预估清洗指示标记和各所述预估顺次指示标记对所述客户数据流样例进行处理以获得待预估数据项流,包括:依据各所述预估顺次指示标记对各所述数据项样例进行排列得到第一数据项流;针对所述第一数据项流的每个所述数据项样例,当依据所述数据项样例对应的预估清洗指示标记确定在所述数据项样例之后植入数据项时,确定在所述数据项样例之后植入的数据项的数据项数量,并将所述数据项数量的第二预设数据项植入到所述数据项样例之后得到第二数据项流;将所述第二数据项流中的目标数据项进行注释得到待预估数据项流,所述目标数据项为依据对应的预估清洗指示标记确定删除的数据项。
根据本公开实施例的一个示例,其中,所述依据各所述第二中间状态表征向量确定各所述待预估数据项对应的预估数据项指示标记,包括:针对所述待预估数据项流中的每个待预估数据项,依据所述待预估数据项的第二中间状态表征向量确定所述待预估数据项对应的预估数据项指示标记为各预设数据项指示标记的第三置信度,依据所述待预估数据项对应的各所述第三置信度,确定所述待预估数据项对应的预估数据项指示标记,各所述预设数据项指示标记各自表征不同的数据项。
根据本公开实施例的一个示例,其中,所述依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,得到总调试误差,包括:依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,确定第一调试误差;依据第二调试误差和/或第三调试误差、以及所述第一调试误差,得到总调试误差;所述第二调试误差是依据如下步骤进行获取的:确定每个所述客户数据流样例的各所述数据项样例对应的真实清洗指示标记,每个所述数据项样例对应的真实清洗指示标记表征对对应客户数据流样例进行清洗时所述数据项样例对应的真实清洗策略;依据各所述客户数据流样例对应的各所述真实清洗指示标记和各所述预估清洗指示标记,确定第二调试误差;所述第三调试误差是依据如下步骤进行获取的:确定每个所述客户数据流样例的各所述数据项样例对应的真实顺次指示标记,每个所述数据项样例对应的真实顺次指示标记表征所述数据项样例在对应目标数据项流中的真实排布顺次;依据各所述客户数据流样例对应的各所述真实顺次指示标记和各所述预估顺次指示标记,确定第三调试误差。
根据本公开实施例的一个示例,其中,依据所述第一调试误差、所述第二调试误差和所述第三调试误差,得到总调试误差,包括:确定所述第一调试误差、所述第二调试误差和所述第三调试误差分别对应的影响系数;依据所述第一调试误差、所述第二调试误差、所述第三调试误差以及所述第一调试误差、所述第二调试误差和所述第三调试误差分别对应的影响系数,得到总调试误差。
根据本公开实施例的一个示例,其中,所述确定多个客户数据调试二元组,包括:获取一个或多个基础数据项流;针对每一所述基础数据项流,对所述基础数据项流进行数据项拆分得到第一数据项序列,对所述第一数据项序列的一个或多个数据项进行清洗得到第二数据项序列,依据所述第二数据项序列和所述基础数据项流生成客户数据调试二元组,所述第二数据项序列为客户数据流样例,所述基础数据项流为对所述第二数据项序列进行数据清洗后的目标数据项流。
根据本公开实施例的另一方面,提供了一种客户数据采集分析装置,包括:训练样本获取模块,用于确定多个客户数据调试二元组,每个所述客户数据调试二元组包括客户数据流样例、以及对所述客户数据流样例进行数据清洗后获得的目标数据项流;数据清洗预估模块,用于将每个客户数据流样例加载到基础神经网络,得到对所述客户数据流样例进行数据清洗后的预估数据项流,所述预估数据项流由所述基础神经网络依据如下步骤进行获取:依据所述客户数据流样例的每个数据项样例的第一中间状态表征向量,确定各所述数据项样例对应的预估清洗指示标记和预估顺次指示标记,每个所述数据项样例的预估清洗指示标记和预估顺次指示标记分别表征所述数据项样例的预估清洗策略和预估排布顺次;依据各所述预估清洗指示标记和各所述预估顺次指示标记对所述客户数据流样例进行处理以获得待预估数据项流,依据所述待预估数据项流的每个待预估数据项的第二中间状态表征向量,确定各所述待预估数据项对应的预估数据项指示标记,每个所述待预估数据项对应的预估数据项指示标记表征所述待预估数据项对应的预估数据项,依据各所述待预估数据项对应的预估数据项指示标记,确定所述客户数据流样例对应的预估数据项流;神经网络调试模块,用于依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,得到总调试误差,每个所述客户数据流样例对应的各所述真实数据项指示标记分别表征所述客户数据流样例对应的目标数据项流的各目标数据项,依据所述总调试误差和各所述客户数据调试二元组对所述基础神经网络进行反复调试,直到所述总调试误差满足调试截止要求时结束调试过程,并将调试结束时获得的神经网络确定为客户数据处理网络;应用数据获取模块,用于确定待清洗数据项流;神经网络调用模块,用于将所述待清洗数据项流加载到所述客户数据处理网络,得到所述待清洗数据项流对应的目标数据项流。
根据本公开实施例的又一方面,提供了一种云服务器,包括:处理器;以及存储器,其中所述存储器中存储有计算机程序,所述计算机程序在由所述处理器运行时,使得所述处理器执行如上所述的方法。
本公开的有益效果:本公开实施例中,通过多个客户数据调试二元组基础神经网络进行调试,可得到包含预估清洗策略、预估排布顺次和确定待预估数据项流等完成多任务性能的客户数据处理网络,客户数据处理网络可以完成复杂的数据清洗任务,同时包含高可靠性和鲁棒性。如客户数据处理网络可确定加载的任一数据流的各数据项的预估清洗策略以及预估排布顺次,从而依据各数据项的预估清洗策略以及预估排布顺次对数据流进行清洗以获得目标数据项流。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开实施例的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本公开实施例提供的应用场景的示意图。
图2为本公开实施例提供的一种客户数据采集分析方法的实现流程示意图。
图3为本公开实施例提供的一种客户数据采集分析装置的组成结构示意图。
图4为本公开实施例提供的一种云服务器的硬件实体示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
为了使本公开的目的、技术方案和优点更加清楚,下面结合附图和实施例对本公开的技术方案进一步详细阐述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开的目的,不是旨在限制本公开。
本公开实施例提供的客户数据采集分析方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与云服务器104进行通信。数据存储系统可以存储云服务器104需要处理的数据。数据存储系统可以集成在云服务器104上,也可以放在云上或其他网络服务器上。其中,客户数据可存储在终端102的本地存储中,也可存储至数据存储系统或者与云服务器104关联的云端存储中,当需要进行数据采集分析时,云服务器104可从终端102本地存储、或数据存储系统、或云端存储中,获取客户数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。云服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本公开实施例供的客户数据采集分析方法应用于云服务器104,具体包括以下步骤:
在介绍本公开实施例提供的客户数据采集分析方法之前,需要声明的是,本公开实施例涉及的客户数据需要基于合法合规且经相关对象同意的条件下进行。
一种客户数据采集分析方法,包括网络训练阶段和网络应用阶段。
在网络训练阶段,包括以下步骤S10~S30:
步骤S10:确定多个客户数据调试二元组,每个客户数据调试二元组包括客户数据流样例、以及对客户数据流样例进行数据清洗后获得的目标数据项流。
在步骤S10中,客户数据调试二元组指的是一对数据,其中包含一个原始的客户数据流样例和一个经过数据清洗后的目标数据项流。这个二元组用于神经网络的训练,帮助网络学习如何从原始数据得到清洗后的数据。例如,假设原始的客户数据流样例是用户在网站上的点击流数据(如点击了哪些页面、按钮等),这些数据可能包含错误或冗余信息。经过数据清洗后,目标数据项流可能是去除了重复点击、错误点击后的用户真实行为路径。
客户数据流样例是指从客户行为中收集到的训练样本,这些数据是未经处理的,可能包含噪声、错误或不完整的信息。例如,在电商网站上,用户的浏览、搜索、点击、购买等行为数据可以被记录为客户数据流样例。这些数据可以通过在网站上的预设埋点进行采集。预设埋点是在程序或系统中预先设置的数据收集点,用于捕捉和记录用户的行为数据。这些数据随后被用于分析和了解用户的行为模式。例如,在一个在线购物平台上,开发者可以在商品详情页设置一个埋点,用于记录用户查看商品详情的行为,包括查看时刻、查看了哪个商品、查看了多长时间等信息。
目标数据项流是指经过数据清洗和处理后得到的理想化数据流,它是神经网络训练的目标输出。这些数据更加准确、一致和有用,便于后续的分析和决策。例如,继续以上述电商网站为例,目标数据项流可能是经过清洗后的用户购买行为数据,去除了重复、错误或无效的记录,只留下真实的购买行为序列。
数据清洗是一个对数据进行预处理的过程,包括去除噪声、纠正错误、删除重复项以及填充缺失值等,目的是提高数据的质量和可用性。例如,在客户数据流样例中,可能存在一些由于网络延迟导致的重复点击记录。数据清洗的过程会识别并去除这些重复记录,确保数据的准确性。
数据项是构成数据流的基本单元,它可以是数字、文本、图像或其他类型的数据。在客户数据流中,每个数据项都代表了一个特定的用户行为或事件。例如,在一个用户浏览网页的数据流中,每个数据项可能代表了用户访问的一个网页页面。这些数据项包含了页面的URL、访问时间等信息。
步骤S10是整个客户数据采集分析方法网络训练阶段的起始步骤,它涉及到客户数据调试二元组的确定。这一步骤的核心是构建用于神经网络训练的数据集,以确保神经网络能够学习如何有效地清洗和处理客户数据。
具体来说,在步骤S10中,计算机设备确定多个客户数据调试二元组。每个这样的二元组都包含两部分信息:客户数据流样例和对应的目标数据项流。客户数据流样例是从实际客户行为中采集的训练样本,这些数据流可能包含各种噪声、冗余或不完整的信息。例如,网页浏览数据可能包括用户的点击流、页面停留时间、跳转路径等,这些数据可以通过在网页上预设的埋点进行采集。埋点是一种在程序或网页中预设的代码片段,用于收集用户行为数据。
目标数据项流则是对客户数据流样例进行数据清洗后得到的理想结果。数据清洗是一个去除噪声、纠正错误、删除重复项、填充缺失值的过程,目的是使数据更加准确、一致和有用。在客户数据采集分析的上下文中,数据清洗可能包括过滤无效点击、标准化时间戳、合并重复记录等步骤。经过清洗后,目标数据项流将作为神经网络学习的目标,即神经网络需要学习如何将原始的客户数据流转换为这样的目标数据项流。
举例来说,假设一个电子商务网站想要分析其用户的购买行为。他们可以通过在网站上设置埋点来收集用户的浏览、点击、加入购物车和购买等数据。这些数据流就构成了客户数据流样例。然后,他们可以对这些数据进行清洗,例如去除由于网络延迟或用户误操作产生的重复点击,将时间戳转换为统一的时区,以及将不同页面的浏览数据合并为用户的会话数据等。清洗后的数据就构成了目标数据项流,可以用于分析用户的购买偏好、会话时长、转化率等指标。
通过构建这样的客户数据调试二元组,神经网络可以在训练阶段学习到从原始客户数据流到清洗后的目标数据项流的映射关系。这种映射关系将在网络应用阶段用于处理新的、未知的客户数据流,从而实现对客户数据的自动采集和分析。
作为一种实施方式,步骤S10,确定多个客户数据调试二元组,具体可以包括:
步骤S11:获取一个或多个基础数据项流。
步骤S12:针对每一基础数据项流,对基础数据项流进行数据项拆分得到第一数据项序列,对第一数据项序列的一个或多个数据项进行清洗得到第二数据项序列,依据第二数据项序列和基础数据项流生成客户数据调试二元组,第二数据项序列为客户数据流样例,基础数据项流为对第二数据项序列进行数据清洗后的目标数据项流。
步骤S11中,计算机设备从数据源获取一个或多个基础数据项流。基础数据项流是原始的、未经处理的数据流,它们包含了客户产生的各种行为数据,如网页浏览记录、点击事件、收藏行为、转发操作等。这些数据可以通过在相关系统或平台上预设的数据采集点(即埋点)进行捕获和收集。例如,一个电商网站可以通过在用户浏览商品、添加购物车、提交订单等关键页面上设置埋点,从而收集到用户的这些行为数据,形成基础数据项流。
步骤S12中,计算机设备对每一个获取到的基础数据项流进行处理。首先,它会对基础数据项流进行拆分,将其分解为一个个单独的数据项,形成第一数据项序列。这些数据项是构成数据流的基本单元,它们包含了具体的用户行为信息。例如,在一个用户浏览网页的数据流中,每个数据项可能包含了用户访问的网页URL、访问时间、停留时长等信息。接着,计算机设备对第一数据项序列中的一个或多个数据项进行清洗操作。数据清洗的目的是去除数据中的噪声、冗余和不一致信息,以提高数据的质量和可用性。清洗操作可能包括去除重复数据项、纠正错误数据项、填充缺失值等。经过清洗后,第一数据项序列被转换为第二数据项序列,它更加准确、简洁和一致。最后,计算机设备根据第二数据项序列和基础数据项流生成客户数据调试二元组。在这个二元组中,第二数据项序列被作为客户数据流样例,它代表了原始的用户行为数据;而基础数据项流则作为对第二数据项序列进行数据清洗后的目标数据项流,它代表了清洗后的理想化数据。这个二元组将被用于后续的神经网络训练过程中,帮助网络学习如何从原始的用户行为数据得到清洗后的目标数据。
通过以上的步骤S11和步骤S12,计算机设备能够确定多个客户数据调试二元组,为后续的神经网络训练提供有效的数据集。
步骤S20:将每个客户数据流样例加载到基础神经网络,得到对客户数据流样例进行数据清洗后的预估数据项流。
步骤S20中,首先,客户数据流样例是原始的客户行为数据训练样本,这些数据可能包含噪声、冗余或不完整的信息。在步骤S20中,计算机设备将这些客户数据流样例加载到基础神经网络中。基础神经网络是一个预先构建和训练的机器学习模型,它具有一定的数据处理和分析能力。加载数据的过程是将客户数据流样例作为输入,传递给神经网络的输入层。数据被加载到基础神经网络中后,基础神经网络开始对其进行处理。基础神经网络通过其内部的层结构和神经元之间的连接关系,对客户数据流样例进行特征提取、转换和抽象。这个过程是基于神经网络在训练阶段学习到的知识和模式来进行的。通过前向传播算法,神经网络将输入数据逐层传递,最终在输出层产生预估数据项流。
预估数据项流是对客户数据流样例进行数据清洗后的预测结果。它是基础神经网络根据输入数据的特征和模式,以及其在训练阶段学习到的知识,对数据进行清洗、去噪和重构后得到的。预估数据项流的质量取决于神经网络的训练效果和其对数据的处理能力。
举例来说,假设一个电商网站想要预测用户的购买行为,收集了用户的浏览、搜索、点击和购买等历史数据作为客户数据流样例。然后,将这些数据加载到一个基础神经网络中,该网络在训练阶段已经学习了如何从用户的浏览和点击行为中预测购买行为。通过神经网络的处理,他们得到了预估数据项流,即预测的用户购买行为序列。这个预估数据项流可以用于后续的推荐系统或营销策略中。
需要注意的是,基础神经网络可以是任何适合的机器学习模型或算法,如卷积神经网络(CNN)、循环神经网络(RNN)或深度神经网络(DNN)等。具体的选择取决于数据的特性和处理需求。此外,神经网络的训练是一个迭代的过程,需要通过大量的历史数据来调整网络的参数和权重,以提高其预测的准确性。
总之,步骤S20是将客户数据流样例加载到基础神经网络中,并通过网络的处理得到预估数据项流的过程。这个过程是基于神经网络在训练阶段学习到的知识和模式来进行的,旨在从原始的客户行为数据中提取有用的信息并做出准确的预测。
其中,预估数据项流由基础神经网络依据如下步骤进行获取:
步骤S210:依据客户数据流样例的每个数据项样例的第一中间状态表征向量,确定各数据项样例对应的预估清洗指示标记和预估顺次指示标记,每个数据项样例的预估清洗指示标记和预估顺次指示标记分别表征数据项样例的预估清洗策略和预估排布顺次。
步骤S210涉及到依据客户数据流样例中的每个数据项样例的第一中间状态表征向量(隐状态特征)来确定相应的预估清洗指示标记和预估顺次指示标记。首先,需要明确的是,客户数据流样例是由一系列数据项样例组成的,每个数据项样例都代表了客户行为数据中的一个具体事件或记录。在神经网络处理这些数据项样例时,会产生相应的中间状态表征向量,也被称为隐状态特征。这些向量是神经网络在内部处理过程中提取的数据项样例的特征表示,它们包含了数据项样例的关键信息和上下文关系。
在步骤S210中,计算机设备根据每个数据项样例的第一中间状态表征向量来确定两个重要的标记:预估清洗指示标记和预估顺次指示标记。这两个标记分别用于表征数据项样例的预估清洗策略和预估排布顺次。
预估清洗指示标记是指示神经网络如何对数据项样例进行清洗的标记。它可能是一个二进制值(如0或1),表示是否需要对数据项样例进行清洗;也可能是一个更复杂的标记,包含了清洗的具体方式和参数。这个标记是基于数据项样例的第一中间状态表征向量来确定的,神经网络会根据这个向量的特征来判断数据项样例是否需要清洗以及如何进行清洗。预估顺次指示标记是指示数据项样例在预估数据项流中的排布顺序的标记。它可能是一个整数值,表示数据项样例在预估数据项流中的位置;也可能是一个更复杂的标记,包含了与其他数据项样例的相对位置关系。这个标记同样是基于数据项样例的第一中间状态表征向量来确定的,神经网络会根据这个向量的特征来判断数据项样例在预估数据项流中的排布顺序。
举例来说,假设一个电商网站收集了用户的浏览记录作为客户数据流样例,其中包含了用户浏览的商品页面、浏览时间等信息。神经网络在处理这些数据项样例时,会提取出每个数据项样例的第一中间状态表征向量。然后,根据这些向量的特征,神经网络会确定每个数据项样例的预估清洗指示标记和预估顺次指示标记。例如,对于某些明显异常或重复的数据项样例,神经网络可能会给出较高的清洗指示标记值;而对于其他正常的数据项样例,则可能会给出较低的清洗指示标记值或不需要清洗的标记。同时,神经网络还会根据数据项样例之间的时间顺序和关联关系来确定它们的预估顺次指示标记,以确保预估数据项流中的数据项是按照合理的顺序排列的。
通过分析客户数据流样例中的每个数据项样例的第一中间状态表征向量来确定相应的预估清洗指示标记和预估顺次指示标记的过程。这些标记为后续的数据清洗和排布提供了重要的指导信息。
在一种实施方式中,步骤S210中,依据各第一中间状态表征向量确定各数据项样例对应的预估清洗指示标记,具体可以包括:
步骤S211:针对每一数据项样例,依据数据项样例的第一中间状态表征向量,确定数据项样例对应的预估清洗指示标记属于各预设清洗指示标记的第一置信度,依据数据项样例对应的各第一置信度,确定数据项样例的预估清洗指示标记。
在步骤S211中,计算机设备针对每个数据项样例进行处理。首先,获取数据项样例的第一中间状态表征向量,这个向量是神经网络在处理数据项样例时提取的特征表示,它包含了数据项样例的关键信息和上下文关系。接下来,计算机设备根据第一中间状态表征向量来确定数据项样例对应的预估清洗指示标记属于各个预设清洗指示标记的第一置信度。这里的预设清洗指示标记是预先定义好的一组标记,每个标记代表一种特定的清洗策略,如去除数据项、更替数据项、植入数据项或留存数据项等。第一置信度是一个概率值或得分,表示数据项样例属于某个预设清洗指示标记的可能性或程度。
为了确定第一置信度,计算机设备可能会使用一种或多种机器学习算法或模型,如分类器、回归模型或深度学习模型等。这些算法或模型会根据第一中间状态表征向量的特征来进行预测和推理,从而得到数据项样例属于各个预设清洗指示标记的第一置信度。
最后,计算机设备根据数据项样例对应的各个第一置信度来确定其预估清洗指示标记。具体来说,它可能会选择第一置信度最高的预设清洗指示标记作为数据项样例的预估清洗指示标记;或者,它可能会综合考虑多个第一置信度较高的预设清洗指示标记,通过某种策略(如加权平均、投票等)来确定最终的预估清洗指示标记。
举例来说,假设一个电商网站收集了用户的浏览记录作为客户数据流样例,其中包含了用户浏览的商品页面、浏览时间等信息。神经网络在处理这些数据项样例时,会提取出每个数据项样例的第一中间状态表征向量。然后,在步骤S211中,计算机设备会根据这些向量的特征来确定每个数据项样例对应的预估清洗指示标记属于各个预设清洗指示标记的第一置信度。例如,对于某些明显异常或重复的数据项样例,神经网络可能会给出较高的去除数据项或更替数据项的清洗指示标记的第一置信度;而对于其他正常的数据项样例,则可能会给出较高的留存数据项的清洗指示标记的第一置信度。最终,计算机设备会根据这些第一置信度来确定每个数据项样例的预估清洗指示标记。
通过分析数据项样例的第一中间状态表征向量来确定其对应的预估清洗指示标记的过程。这个过程涉及到使用机器学习算法或模型进行预测和推理,以及根据预测结果确定最终的预估清洗指示标记。
步骤S212:每个预估清洗指示标记表征一类预设清洗策略,预设清洗策略为去除数据项、更替数据项、植入数据项或留存数据项中的一种。
步骤S212详细说明了预估清洗指示标记与预设清洗策略之间的对应关系。在数据处理和分析的过程中,清洗策略是至关重要的,因为它直接关系到数据的质量和后续分析的准确性。每一个预估清洗指示标记都代表了一种特定的预设清洗策略。具体来说,这些预设清洗策略可以分为四种:去除数据项、更替数据项、植入数据项和留存数据项。每一种策略都对应着不同的数据处理方式。
去除数据项:这种策略通常用于处理那些明显错误、重复或者对分析没有价值的数据项。例如,在一个电商网站的浏览记录中,如果某个数据项显示用户在同一时间浏览了多个不同的商品页面,这显然是不可能的,因此这个数据项就可能被视为错误数据并被去除。
更替数据项:当数据项中的某些部分存在错误或不一致时,可以使用更替策略来修正这些数据。例如,如果用户的浏览记录中某个商品的价格显示为0元,而实际上该商品是有价格的,那么就可以使用更替策略将价格修正为正确的值。
植入数据项:在某些情况下,原始数据中可能缺少一些关键信息,这时就需要使用植入策略来补充这些数据。例如,如果用户的浏览记录中没有包含用户的ID信息,但为了后续分析需要这个信息,那么就可以通过植入策略将用户的ID信息添加到每条浏览记录中。
留存数据项:对于那些正确且有价值的数据项,应该使用留存策略来保留它们。这些数据项将直接用于后续的数据分析和挖掘。
在步骤S212中,计算机设备根据步骤S211中确定的预估清洗指示标记来选择相应的预设清洗策略对数据项样例进行处理。这种处理方式是基于神经网络对数据项样例的第一中间状态表征向量的分析和判断来进行的,旨在提高数据的质量和准确性,为后续的数据分析和挖掘提供可靠的基础。
需要注意的是,预估清洗指示标记和预设清洗策略之间的对应关系是预先定义好的,可以根据实际的数据处理需求进行调整和优化。同时,不同的数据处理场景可能需要使用不同的清洗策略和标记方式,因此在实际应用中需要根据具体情况进行灵活选择和调整。
在一种实施方式中,步骤S210中,依据各第一中间状态表征向量确定各数据项样例对应的预估顺次指示标记,具体可以包括:
步骤S213:针对每一数据项样例,确定数据项样例对应的预估清洗指示标记的清洗表征向量、以及数据项样例在客户数据流样例中的分布信息表征向量,依据数据项样例对应的第一中间状态表征向量、清洗表征向量以及分布信息表征向量,确定数据项样例的交互表征向量。
在步骤S213中,计算机设备针对每个数据项样例进行处理。首先,确定数据项样例对应的预估清洗指示标记的清洗表征向量。这个清洗表征向量是根据预估清洗指示标记得到的,它包含了关于数据项样例应该如何清洗的信息。例如,如果预估清洗指示标记表示需要去除数据项,那么清洗表征向量可能包含表示“去除”的特征;如果预估清洗指示标记表示需要更替数据项,那么清洗表征向量可能包含表示“更替”以及更替的具体内容的特征。接下来,计算机设备确定数据项样例在客户数据流样例中的分布信息表征向量,即位置特征。这个向量包含了数据项样例在客户数据流样例中的位置信息,例如它可能是一个表示数据项样例在客户数据流样例中出现的时间点、顺序或相对位置的向量。这个位置特征对于确定数据项样例的预估顺次指示标记是非常重要的,因为它可以帮助计算机设备理解数据项样例在整个数据流中的上下文和关系。
然后,计算机设备依据数据项样例对应的第一中间状态表征向量、清洗表征向量以及分布信息表征向量,确定数据项样例的交互表征向量。这个交互表征向量是一个融合特征,它通过某种方式(如拼接、加权求和、神经网络融合等)将第一中间状态表征向量、清洗表征向量和分布信息表征向量融合在一起,形成一个新的向量表示。这个新的向量表示包含了数据项样例的丰富信息,包括其内部状态、清洗策略以及在整个数据流中的位置信息。
举例来说,假设一个电商网站收集了用户的浏览记录作为客户数据流样例,其中包含了用户浏览的商品页面、浏览时间等信息。对于某个数据项样例(如用户浏览的某个商品页面),神经网络会提取出其第一中间状态表征向量,同时根据预估清洗指示标记得到清洗表征向量(如表示需要去除或更替的特征),以及根据其在客户数据流样例中的位置得到分布信息表征向量(如表示浏览时间或顺序的特征)。然后,通过某种融合方式(如神经网络融合),将这三个向量融合在一起形成一个新的交互表征向量。通过分析和融合数据项样例的第一中间状态表征向量、清洗表征向量以及分布信息表征向量来确定其交互表征向量的过程。这个过程为后续确定数据项样例的预估顺次指示标记提供了重要的基础。
步骤S214:依据各数据项样例的交互表征向量,确定各数据项样例对应的预估顺次指示标记。
步骤S214的目标是基于之前步骤中生成的交互表征向量,为每个数据项样例分配一个预估顺次指示标记。这个标记将用于指示数据项样例在清洗过程中的优先顺序。交互表征向量融合了数据项样例的第一中间状态表征向量、清洗表征向量以及分布信息表征向量。这个向量包含了关于数据项样例的丰富信息,反映了其内部状态、所需的清洗操作以及在数据流中的位置上下文。
在步骤S214中,计算机设备使用一种或多种机器学习算法来处理这些交互表征向量。这些算法可能是分类器、回归模型、排序模型或深度学习模型,它们被训练来根据交互表征向量的特征预测数据项样例的清洗顺序。
例如,如果使用的是排序模型,如梯度提升决策树(GBDT)或神经网络排序模型,这些模型会根据交互表征向量的特征为每个数据项样例分配一个分数或排名。这个分数或排名反映了数据项样例在清洗过程中的优先级,即分数越高或排名越前的数据项样例将优先被清洗。具体来说,神经网络排序模型可以是一个多层感知机(MLP)或卷积神经网络(CNN),它们被训练来最小化一个损失函数,该函数衡量了模型预测的清洗顺序与实际清洗顺序之间的差异。通过优化这个损失函数,模型能够学习到从交互表征向量到预估顺次指示标记的映射关系。
最终,计算机设备根据模型预测的分数或排名为每个数据项样例分配一个预估顺次指示标记。这个标记可以是一个整数、一个排名或一个概率值,具体取决于所使用的模型和标记方案。这些数据项样例随后将按照预估顺次指示标记的顺序进行清洗操作。
举例来说,假设一个电商网站的浏览记录数据流中包含了一系列用户浏览的商品页面数据项样例。每个数据项样例都有一个交互表征向量,该向量融合了其内部状态、清洗需求和在数据流中的位置信息。通过使用神经网络排序模型处理这些交互表征向量,计算机设备可以为每个数据项样例分配一个预估顺次指示标记,如一个从1到N的整数排名。然后,数据清洗系统可以根据这个排名顺序依次处理这些数据项样例,优先清洗排名靠前的数据项样例。
其中,可选的实施方案中,步骤S214,依据各数据项样例的交互表征向量,确定各数据项样例对应的预估顺次指示标记,具体可以包括:
步骤S2141:依据每个数据项样例的交互表征向量,确定数据项样例对应的预估顺次指示标记为各预设顺次指示标记的第二置信度,各预设顺次指示标记各自表征不同的排布顺次。
在步骤S2141中,计算机设备根据每个数据项样例的交互表征向量来处理数据。交互表征向量是之前步骤中通过融合数据项样例的第一中间状态表征向量、清洗表征向量以及分布信息表征向量得到的。它包含了关于数据项样例的内部状态、所需清洗操作以及在数据流中位置的综合信息。
计算机设备使用一个或多个机器学习模型来处理这些交互表征向量。这些模型可能是分类器、回归模型或神经网络,它们被训练来识别交互表征向量中的模式,并将这些模式映射到预设的顺次指示标记上。每个预设顺次指示标记都代表了一个不同的排布顺次,即数据项样例在清洗过程中的优先顺序。
在处理交互表征向量时,模型会为每个数据项样例生成一个或多个第二置信度值。这些第二置信度值反映了模型对于将某个预设顺次指示标记分配给该数据项样例的信心水平。通常,较高的置信度值意味着模型更加确信该数据项样例应该被赋予对应的预设顺次指示标记。
举例来说,假设有一个神经网络模型被用来处理交互表征向量,并且该模型已经过训练以识别与不同排布顺次相关的特征。当给定一个数据项样例的交互表征向量作为输入时,神经网络会计算出一组第二置信度值,每个值对应于一个预设顺次指示标记。这些第二置信度值可以看作是该数据项样例属于各个预设顺次指示标记的概率或得分。
在实际应用中,步骤S2141可能会涉及到一个称为“多分类问题”的机器学习任务。在这种情况下,每个数据项样例都需要被分配到一个预设的类别(即顺次指示标记)中,并且模型会为每个类别生成一个置信度值。这些置信度值随后可以用于确定数据项样例的最终预估顺次指示标记。通过使用机器学习模型处理交互表征向量来确定数据项样例对应的预估顺次指示标记的第二置信度的过程。这个过程为后续确定数据项样例在清洗过程中的优先顺序提供了重要依据。
步骤S2142:依据各数据项样例对应的各第二置信度,确定各数据项样例对应的预估顺次指示标记。
步骤S2142负责根据之前步骤S2141中计算出的第二置信度来确定每个数据项样例的预估顺次指示标记。这个预估顺次指示标记将用于指示在数据清洗过程中数据项样例的处理顺序。在步骤S2142中,计算机设备考虑每个数据项样例对应的所有第二置信度值。这些第二置信度值是在步骤S2141中通过机器学习模型(如分类器、回归模型或神经网络)处理交互表征向量后得到的。每个第二置信度值都代表了模型对于将某个预设顺次指示标记分配给该数据项样例的信心水平。为了确定最终的预估顺次指示标记,计算机设备可以采用多种策略。一种常见的策略是选择具有最高第二置信度值的预设顺次指示标记作为数据项样例的预估顺次指示标记。这种方法基于的假设是,最高的置信度值代表了模型对于该数据项样例最有可能属于的顺次类别的判断。
另一种策略是考虑所有第二置信度值的相对大小,并使用某种阈值或排名机制来确定预估顺次指示标记。例如,计算机设备可以选择第二置信度值超过某个预设阈值的预设顺次指示标记,或者选择排名最高的前N个第二置信度值对应的预设顺次指示标记之一。
在实际应用中,步骤S2142可能会涉及到一个称为“决策制定”的过程。在这个过程中,计算机设备会根据一系列规则和策略来综合考虑所有可用的信息(即第二置信度值),以做出最终的决策(即确定预估顺次指示标记)。
举例来说,假设有一个数据清洗任务需要处理一组客户订单数据项样例。在步骤S2141中,对于每个订单数据项样例,机器学习模型已经计算出了其属于不同清洗顺序类别(如“高优先级”、“中优先级”和“低优先级”)的第二置信度值。在步骤S2142中,计算机设备可以选择每个订单数据项样例具有最高第二置信度值的清洗顺序类别作为其预估顺次指示标记。这样,清洗系统就可以按照这些预估顺次指示标记的顺序来优先处理那些被认为更重要的订单数据项样例。
通过综合考虑每个数据项样例对应的所有第二置信度值来确定其预估顺次指示标记的过程。这个过程确保了数据清洗任务能够按照一种有效且高效的方式来处理大量的数据项样例。
其中,可选的实施方案中,步骤S2141,依据每个数据项样例的交互表征向量,确定数据项样例对应的预估顺次指示标记为各预设顺次指示标记的第二置信度,具体可以包括:
步骤S21411:依据每个数据项样例的交互表征向量,确定数据项样例对应的聚焦表征向量。
步骤S21411是依据每个数据项样例的交互表征向量来确定对应的聚焦表征向量(也称为注意力特征)。这个聚焦表征向量在后续步骤中将用于进一步确定数据项样例的预估顺次指示标记的第二置信度。
在实施步骤S21411时,计算机设备利用特定的机器学习模型或算法来处理每个数据项样例的交互表征向量。这些交互表征向量是通过先前的步骤融合多种信息(如数据项样例的内部状态、所需清洗操作以及在数据流中的位置等)而生成的。处理这些向量的目的是从中提取出与确定预估顺次指示标记最相关的特征,即聚焦表征向量。
聚焦表征向量的确定可以通过多种方式实现,具体取决于所采用的机器学习模型或算法。例如,如果使用神经网络模型,特别是注意力机制(Attention Mechanism)相关的模型,如Transformer或LSTM(长短期记忆网络)与注意力层的结合,模型可以自动学习并识别出交互表征向量中对于确定预估顺次指示标记最重要的部分,并将这些部分的信息编码到聚焦表征向量中。
举例来说,假设有一个数据流包含了一系列用户浏览网页的记录数据项样例。每个数据项样例的交互表征向量融合了其内部状态(如用户浏览时长、点击次数等)、清洗需求(如是否需要去除重复记录、填充缺失值等)以及在数据流中的位置信息。计算机设备可以使用一个训练有素的神经网络模型来处理这些交互表征向量。模型中的注意力层会学习并识别出哪些特征对于确定预估顺次指示标记最为关键,并生成相应的聚焦表征向量。这些聚焦表征向量可能突出了某些特定的用户行为模式或数据异常,从而有助于更准确地确定数据项样例的清洗顺序。
通过利用机器学习模型或算法处理数据项样例的交互表征向量来确定聚焦表征向量,为后续步骤中准确估算预估顺次指示标记提供了重要的基础。
步骤S21412:依据每个数据项样例的交互表征向量、以及各数据项样例对应的聚焦表征向量,确定客户数据流样例中数据项样例的后一个数据项对应的预估顺次指示标记为各预设顺次指示标记的第二置信度,其中,客户数据流样例中的第一个数据项样例对应的各第二置信度是依据第一预设数据项的交互表征向量确定的。
步骤S21412基于前文提及的交互表征向量和聚焦表征向量,进一步确定数据项样例在客户数据流中的预估顺次指示标记的第二置信度。这个第二置信度是评估数据项样例对应到各个预设顺次指示标记可能性的重要指标。
具体来说,计算机设备针对每个数据项样例,利用其交互表征向量和聚焦表征向量作为输入,通过特定的机器学习模型或算法进行处理。这个模型或算法可能是经过训练的分类器、回归模型、神经网络等,它们被设计用来识别向量中的模式,并将这些模式映射到不同的预设顺次指示标记上。
在处理过程中,考虑数据项样例的交互表征向量,它包含了数据项样例的内部状态、所需清洗操作以及在数据流中的位置等综合信息。同时,模型还会重点关注聚焦表征向量,这些向量突出了交互表征向量中与确定预估顺次指示标记最相关的特征。通过综合考虑这些信息,模型能够为每个数据项样例生成一个或多个第二置信度值,每个值对应一个预设顺次指示标记。
对于客户数据流样例中的第一个数据项样例,由于它没有前一个数据项作为参考,因此它的各第二置信度是依据第一预设数据项的交互表征向量来确定的。这里的“第一预设数据项”可能是一个固定的、预设的参考数据项,其交互表征向量被用作初始的输入。
举例来说,假设有一个客户数据流包含了一系列的用户购买记录数据项样例。每个数据项样例都包含了用户的购买信息(如商品名称、购买数量、价格等),并且这些数据项样例需要按照某种顺序进行清洗和处理。步骤S21412的目标就是确定这些数据项样例在清洗过程中的预估顺次指示标记的第二置信度。
为了完成这个任务,计算机设备使用一个已经训练好的机器学习模型(如神经网络分类器)。它首先会计算每个数据项样例的交互表征向量和聚焦表征向量。然后,它会将这些向量作为输入传递给模型,模型会输出每个数据项样例对应到各个预设顺次指示标记(如“高优先级”、“中优先级”和“低优先级”)的第二置信度值。这些值反映了模型对于将某个预设顺次指示标记分配给该数据项样例的信心水平。最终,步骤S21412的输出结果是一组第二置信度值,它们为后续的数据清洗和处理顺序提供了重要依据。
在一个示例中,第二置信度值的计算公式为:
其中,R为数据项样例x的交互表征向量,A为数据项样例x的注意力分布,T是转置符号,s为交互表征向量的向量维数。
步骤S220:依据各预估清洗指示标记和各预估顺次指示标记对客户数据流样例进行处理以获得待预估数据项流,依据待预估数据项流的每个待预估数据项的第二中间状态表征向量,确定各待预估数据项对应的预估数据项指示标记,每个待预估数据项对应的预估数据项指示标记表征待预估数据项对应的预估数据项,依据各待预估数据项对应的预估数据项指示标记,确定客户数据流样例对应的预估数据项流。
步骤S220涉及对客户数据流样例的处理,以生成待预估数据项流,并进一步确定每个待预估数据项对应的预估数据项指示标记,最终生成预估数据项流。下面将详细解释这一步骤的实施方式。
首先,计算机设备根据之前步骤中确定的各预估清洗指示标记和各预估顺次指示标记对客户数据流样例进行处理。这里的处理可以包括数据的清洗、转换、排序等操作,具体取决于预估清洗指示标记和预估顺次指示标记的内容。例如,如果某个数据项样例的预估清洗指示标记指示需要进行缺失值填充,那么计算机设备就会对该数据项样例进行相应的填充操作。同样地,根据预估顺次指示标记,计算机设备会确定处理数据项样例的顺序。经过处理后的客户数据流样例就变成了待预估数据项流。每个待预估数据项都保留了其原始数据的信息,并且已经根据预估清洗指示标记和预估顺次指示标记进行了相应的处理。接下来,计算机设备根据待预估数据项流的每个待预估数据项的第二中间状态表征向量来确定各待预估数据项对应的预估数据项指示标记。这里的第二中间状态表征向量是待预估数据项在处理过程中生成的中间状态信息的向量表示。通过处理这个向量,计算机设备可以提取出待预估数据项的特征,并进一步确定其对应的预估数据项指示标记。
预估数据项指示标记是用于表征待预估数据项对应的预估数据项的标记。它可以是一个标识符、一个标签或者一个向量等,具体形式取决于数据处理任务的需求。例如,在一个分类任务中,预估数据项指示标记可以是一个表示数据项所属类别的标签。最后,计算机设备会根据各待预估数据项对应的预估数据项指示标记来确定客户数据流样例对应的预估数据项流。这个预估数据项流是由一系列带有预估数据项指示标记的待预估数据项组成的流,它反映了客户数据流样例在经过处理后的状态和特征。接下来,计算机设备提取每个待预估数据项(即处理后的购买记录)的第二中间状态表征向量,并根据这个向量确定其对应的预估数据项指示标记。例如,在一个推荐系统中,预估数据项指示标记可以是一个表示用户购买偏好的向量或者一个表示商品类别的标签。
最终,计算机设备根据各待预估数据项对应的预估数据项指示标记生成预估数据项流,用于后续的推荐算法训练、用户行为分析等任务中。
在一种实施方式中,步骤S220,依据各预估清洗指示标记和各预估顺次指示标记对客户数据流样例进行处理以获得待预估数据项流,具体可以包括:
步骤S221:依据各预估顺次指示标记对各数据项样例进行排列得到第一数据项流。
步骤S222:针对第一数据项流的每个数据项样例,当依据数据项样例对应的预估清洗指示标记确定在数据项样例之后植入数据项时,确定在数据项样例之后植入的数据项的数据项数量,并将数据项数量的第二预设数据项植入到数据项样例之后得到第二数据项流。
步骤S223:将第二数据项流中的目标数据项进行注释得到待预估数据项流,目标数据项为依据对应的预估清洗指示标记确定删除的数据项。
步骤S221核心任务是根据各预估顺次指示标记对数据项样例进行排序,以生成第一数据项流。在实施步骤S221时,计算机设备首先获取客户数据流样例中的各数据项样例以及它们对应的预估顺次指示标记。这些预估顺次指示标记是在之前的步骤中通过特定的算法或模型计算得出的,用于指示数据项样例在后续处理中的顺序。接着,计算机设备根据这些预估顺次指示标记对数据项样例进行排序。排序的具体方式可以是按照预估顺次指示标记的数值大小、优先级高低或其他排序准则进行。排序的目的是确保在后续处理中,数据项样例能够按照特定的顺序进行,以满足数据清洗、转换或分析的需求。
排序完成后,计算机设备将排序后的数据项样例组合成第一数据项流。这个第一数据项流是一个有序的数据流,其中的数据项样例按照预估顺次指示标记的顺序排列。举例来说,假设客户数据流样例包含了一系列用户购买记录的数据项样例,每个数据项样例都对应一个预估顺次指示标记。这些预估顺次指示标记可能是根据数据项样例的重要性、紧急程度或处理难度等因素计算得出的。计算机设备会按照这些预估顺次指示标记的数值大小对数据项样例进行排序,例如将数值较小的数据项样例排在前面,数值较大的数据项样例排在后面。排序完成后,计算机设备会将这些有序的数据项样例组合成第一数据项流。
需要注意的是,步骤S221只是对数据项样例进行排序和组合,并不会对数据进行实质性的清洗或转换操作。这些操作会在后续的步骤中根据预估清洗指示标记进行。因此,第一数据项流中的数据项样例仍然保留了其原始的状态和特征。
通过依据各预估顺次指示标记对数据项样例进行排序和组合,生成了有序的第一数据项流,为后续的数据处理提供了基础。
步骤S222涉及到对第一数据项流中的每个数据项样例进行特定的处理,以生成第二数据项流。这个处理过程是根据数据项样例对应的预估清洗指示标记来决定的,特别是当需要在数据项样例之后植入新的数据项时。具体来说,计算机设备遍历第一数据项流中的每个数据项样例。对于每个数据项样例,计算机设备会检查其对应的预估清洗指示标记。这个标记是在之前的步骤中通过特定的算法或模型计算得出的,用于指示数据项样例的清洗需求。
如果预估清洗指示标记指示需要在当前数据项样例之后植入新的数据项,计算机设备会进一步确定要植入的数据项的数量。这个数量可能是根据数据项样例的特定属性、数据流的整体特征或预设的规则来确定的。例如,在某些情况下,可能会根据数据项样例中的缺失值数量来决定需要植入多少个填充数据项。一旦确定了要植入的数据项数量,计算机设备会生成相应数量的第二预设数据项。第二预设数据项是预设的、标准化的数据项,用于在数据清洗过程中替代、填充或扩展原始数据。这些第二预设数据项可能具有固定的值、格式或结构,也可能是根据数据项样例的特定属性动态生成的。
最后,计算机设备将生成的第二预设数据项植入到当前数据项样例之后的位置,从而形成一个新的、经过处理的数据项流。这个过程会对第一数据项流中的每个数据项样例进行,最终生成第二数据项流。
举例来说,假设第一数据项流包含了一系列用户购买记录的数据项样例。其中某个数据项样例可能存在缺失的商品数量信息。根据对应的预估清洗指示标记,计算机设备确定需要在这个数据项样例之后植入一个填充数据项来补充缺失的商品数量。于是,计算机设备生成一个包含预设商品数量的第二预设数据项,并将其植入到原始数据项样例之后的位置。这样,第二数据项流中就包含了一个完整的、经过填充的用户购买记录。
通过步骤S222的处理,第二数据项流不仅保留了第一数据项流中的原始信息,还根据预估清洗指示标记对数据项样例进行了针对性的清洗和扩展,为后续的数据分析和应用提供了更准确、更完整的数据基础。
步骤S223是数据处理流程中的关键一步,其核心任务是对第二数据项流中的特定数据项进行注释,以生成待预估数据项流。这个特定数据项被称为目标数据项,它是根据对应的预估清洗指示标记确定需要删除的数据项。下面将详细解释这一步骤的实施方式。
在实施步骤S223时,计算机设备首先识别第二数据项流中的目标数据项。目标数据项是指那些根据预估清洗指示标记被标记为需要删除的数据项。预估清洗指示标记是在之前的步骤中通过特定的算法或模型计算得出的,用于指示数据项的清洗需求。一旦识别出目标数据项,计算机设备会对其进行注释操作。注释的目的是为了在后续处理中能够识别并特殊处理这些数据项。注释的方式可以是添加特定的标记、标签或注释信息到目标数据项中,以区分它们与其他数据项。
通过注释操作,计算机设备将生成待预估数据项流。待预估数据项流是一个包含注释信息的数据流,其中的数据项保留了原始数据的信息,并且标注了需要特殊处理的目标数据项。
举例来说,假设第二数据项流包含了一系列用户购买记录的数据项,其中某些数据项因为存在错误、异常或重复等问题而被标记为目标数据项。根据预估清洗指示标记,计算机设备确定这些目标数据项需要被删除。然而,在直接删除之前,计算机设备会先对这些目标数据项进行注释,例如添加一个“待删除”的标签或标记。这样,在后续的预估处理中,计算机设备就能够识别并特殊处理这些被注释的目标数据项,例如忽略它们的影响或进行额外的验证操作。
通过对第二数据项流中的目标数据项进行注释操作,生成了待预估数据项流。这个待预估数据项流为后续的数据预估提供了基础,并确保了目标数据项在预估过程中能够得到适当的处理。
作为一种实施方式,步骤S220中,依据各第二中间状态表征向量确定各待预估数据项对应的预估数据项指示标记,具体可以包括:
步骤2201:针对待预估数据项流中的每个待预估数据项,依据待预估数据项的第二中间状态表征向量确定待预估数据项对应的预估数据项指示标记为各预设数据项指示标记的第三置信度。
步骤S2201涉及到对待预估数据项流中的每个待预估数据项进行处理,以确定它们对应的预估数据项指示标记。这个处理过程是基于每个待预估数据项的第二中间状态表征向量来进行的。具体来说,计算机设备遍历待预估数据项流中的每个待预估数据项。对于每个待预估数据项,计算机设备提取其对应的第二中间状态表征向量。这个第二中间状态表征向量是在之前的步骤中通过特定的算法或模型计算得出的,用于表征数据项的内部状态和特征。
一旦提取到第二中间状态表征向量,计算机设备会使用它来确定待预估数据项对应的预估数据项指示标记的第三置信度。这里的第三置信度是一个量化指标,用于衡量待预估数据项与各预设数据项指示标记之间的匹配程度。它可能是通过计算第二中间状态表征向量与各预设数据项指示标记之间的相似度、距离或概率等得出的。
例如,如果待预估数据项是一个商品购买记录,其第二中间状态表征向量可能包含了商品的类别、价格、购买时间等信息。计算机设备会将这个向量与各个预设数据项指示标记(如“电子产品”、“高价商品”、“促销期购买”等)进行比较,计算出与各个标记之间的相似度或匹配程度,从而得到一组第三置信度。
需要注意的是,每个预设数据项指示标记都各自表征不同的数据项特征或类别。因此,通过计算待预估数据项的第二中间状态表征向量与各预设数据项指示标记之间的第三置信度,我们可以更准确地确定待预估数据项应该被归类到哪个数据项类别或具有哪些特征。
通过对待预估数据项的第二中间状态表征向量进行处理和分析,确定了每个待预估数据项对应的预估数据项指示标记的第三置信度。这个第三置信度为后续的数据处理提供了重要的参考信息,有助于更准确地理解和利用待预估数据项。
步骤2202:依据待预估数据项对应的各第三置信度,确定待预估数据项对应的预估数据项指示标记,各预设数据项指示标记各自表征不同的数据项。
步骤S2202负责根据待预估数据项对应的各第三置信度来确定每个待预估数据项应被赋予的预估数据项指示标记。这个标记是基于之前步骤中计算得出的第三置信度来选择的,而每个预设数据项指示标记都代表着不同类型或特征的数据项。在实施步骤S2202时,计算机设备首先获取到每个待预估数据项对应的各第三置信度。这些第三置信度是在步骤S2201中通过比较待预估数据项的第二中间状态表征向量与各预设数据项指示标记计算得出的。每个第三置信度都反映了待预估数据项与对应预设数据项指示标记之间的匹配程度。
接下来,计算机设备根据这些第三置信度来确定待预估数据项应该被赋予哪个预估数据项指示标记。通常,选择具有最高第三置信度的预设数据项指示标记作为待预估数据项的预估数据项指示标记。这是因为最高第三置信度代表着该数据项与对应预设数据项指示标记之间的匹配程度最高。
然而,在某些情况下,计算机设备也可能采用其他策略来选择预估数据项指示标记。例如,它可以设置一个阈值,只有当某个第三置信度超过该阈值时,才选择对应的预设数据项指示标记。或者,它也可以综合考虑多个具有较高第三置信度的预设数据项指示标记,通过某种组合或加权平均的方式来确定最终的预估数据项指示标记。
举例来说,假设有一个待预估数据项是关于用户购买行为的记录,其第二中间状态表征向量包含了用户的年龄、性别、购买商品类别等信息。在步骤S2201中,计算机设备已经计算出了该数据项与各预设数据项指示标记(如“年轻女性购买化妆品”、“中年男性购买电子产品”等)之间的第三置信度。在步骤S2202中,计算机会根据这些第三置信度来选择最合适的预估数据项指示标记。如果“年轻女性购买化妆品”这个标记对应的第三置信度最高,那么计算机就会选择它作为该待预估数据项的预估数据项指示标记。
通过利用待预估数据项对应的各第三置信度信息,为每个待预估数据项选择了最合适的预估数据项指示标记。这个过程有助于更准确地理解和分类数据项,为后续的数据分析和应用提供了有力支持。
步骤S30:依据各客户数据流样例对应的预估数据项流对应的各预估数据项指示标记、以及各客户数据流样例对应的各真实数据项指示标记,得到总调试误差,每个客户数据流样例对应的各真实数据项指示标记分别表征客户数据流样例对应的目标数据项流的各目标数据项,依据总调试误差和各客户数据调试二元组对基础神经网络进行反复调试,直到总调试误差满足调试截止要求时结束调试过程,并将调试结束时获得的神经网络确定为客户数据处理网络。
步骤S30目的是通过反复调试基础神经网络,以获得能够满足调试截止要求的客户数据处理网络。以下是对该步骤的详细解释:
在步骤S30中,计算机设备首先根据各客户数据流样例对应的预估数据项流中的预估数据项指示标记,以及各客户数据流样例对应的真实数据项指示标记,计算出总调试误差。这里的客户数据流样例是训练过程中使用的样本数据,每个样例都包含了对应的目标数据项流,即真实的数据项标记。预估数据项指示标记是通过神经网络模型预测得到的,而真实数据项指示标记则是样例数据本身的标签。计算总调试误差的过程可以理解为比较预测结果与真实结果之间的差异。差异越大,调试误差就越大,说明当前神经网络模型的预测能力还有待提高。为了量化这种差异,通常会使用一些误差计算函数,如均方误差、交叉熵损失等。
得到总调试误差后,计算机设备会根据这个误差和各客户数据调试二元组对基础神经网络进行反复调试。这里的客户数据调试二元组可能包含了输入数据和对应的期望输出(即真实数据项指示标记),用于在调试过程中提供监督信息。反复调试的目的是通过不断调整神经网络的参数和结构,使其能够更好地拟合训练数据,从而减小调试误差。
调试过程会持续进行,直到总调试误差满足预设的调试截止要求。这个截止要求可能是一个具体的误差阈值,也可能是一个达到一定迭代次数后的条件。当满足截止要求时,调试过程结束,此时获得的神经网络模型被确定为客户数据处理网络。
举个例子来说明这个过程:假设我们有一个基础神经网络模型,用于处理客户购买记录的数据流。在训练阶段,我们提供了一组客户购买记录的样例数据,每个样例都包含了用户的购买历史、浏览行为等信息,以及对应的真实购买标签(即真实数据项指示标记)。我们首先使用基础神经网络模型对这些样例数据进行预测,得到预估的购买标签(即预估数据项指示标记)。然后,我们比较预估标签与真实标签之间的差异,计算出总调试误差。接下来,我们使用这个误差和样例数据对基础神经网络进行反复调试,直到误差减小到一个可接受的范围内。最终,我们得到的调试后的神经网络模型就是客户数据处理网络,它可以用于处理实际的客户购买记录数据流,并给出准确的购买预测结果。
在一种实施方式中,步骤S30中,依据各客户数据流样例对应的预估数据项流对应的各预估数据项指示标记、以及各客户数据流样例对应的各真实数据项指示标记,得到总调试误差,具体可以包括:
步骤S31:依据各客户数据流样例对应的预估数据项流对应的各预估数据项指示标记、以及各客户数据流样例对应的各真实数据项指示标记,确定第一调试误差。
步骤S32:依据第二调试误差和/或第三调试误差、以及第一调试误差,得到总调试误差。
其中,第二调试误差是依据如下步骤进行获取的:
步骤A:确定每个客户数据流样例的各数据项样例对应的真实清洗指示标记,每个数据项样例对应的真实清洗指示标记表征对对应客户数据流样例进行清洗时数据项样例对应的真实清洗策略;
步骤B:依据各客户数据流样例对应的各真实清洗指示标记和各预估清洗指示标记,确定第二调试误差。
其中,第三调试误差是依据如下步骤进行获取的:
步骤a:确定每个客户数据流样例的各数据项样例对应的真实顺次指示标记,每个数据项样例对应的真实顺次指示标记表征数据项样例在对应目标数据项流中的真实排布顺次。
步骤b:依据各客户数据流样例对应的各真实顺次指示标记和各预估顺次指示标记,确定第三调试误差。
在步骤S30的实施方式中,为了得到总调试误差,计算机设备会执行一系列操作,其中包括步骤S31和后续步骤S32中对第二调试误差和/或第三调试误差的计算。这些步骤共同构成了评估模型性能的关键流程。
步骤S31的目的是确定第一调试误差,具体地,计算机设备根据每个客户数据流样例的预估数据项指示标记和对应的真实数据项指示标记来计算第一调试误差。预估数据项指示标记是模型预测的结果,而真实数据项指示标记则是实际的数据标签。通过比较这两者之间的差异,可以量化模型的预测准确性。
例如,假设我们的模型是一个分类模型,用于预测客户是否会购买某种产品。对于给定的客户数据流样例,模型会输出一个预估数据项指示标记,表示预测的购买行为(如“会购买”或“不会购买”)。同时,我们也知道每个样例对应的真实购买行为(即真实数据项指示标记)。通过比较预测结果和真实结果,我们可以计算出第一调试误差。
步骤S32在获取第二调试误差时,包括步骤A,即确定真实清洗指示标记,在这一步中,计算机设备需要确定每个客户数据流样例中的各数据项样例对应的真实清洗指示标记。这些标记表征了在对客户数据流进行清洗时应该采取的真实清洗策略。清洗策略可能包括去除重复数据、填充缺失值、纠正错误数据等。
例如,假设某个客户数据流样例中包含了一个重复的数据项样例和一个缺失值的数据项样例。对应的真实清洗指示标记可能会标记重复数据项为“去除”,而缺失值数据项为“填充”。
以及包括步骤B,即在确定了真实清洗指示标记后,计算机设备会根据这些标记和模型预测的预估清洗指示标记来计算第二调试误差。预估清洗指示标记是模型预测的清洗策略结果。通过比较预测策略和真实策略之间的差异,我们可以评估模型在数据清洗方面的性能。
步骤S32中获取第三调试误差时,首先在步骤a,即确定真实顺次指示标记,在这一步中,计算机设备需要确定每个客户数据流样例中的各数据项样例在对应目标数据项流中的真实排布顺次。这些真实顺次指示标记表征了数据项样例在清洗和整理后应该呈现的顺序。
例如,在某个客户数据流样例中,可能包含了多个数据项样例,如用户的购买记录、浏览记录等。这些数据项样例在整理成目标数据项流时,需要按照一定的顺序进行排列,如按照时间顺序或重要性顺序等。对应的真实顺次指示标记就会标记每个数据项样例在目标数据项流中的真实位置。
然后,在步骤b,即计算第三调试误差,在确定了真实顺次指示标记后,计算机设备会根据这些标记和模型预测的预估顺次指示标记来计算第三调试误差。预估顺次指示标记是模型预测的数据项样例在目标数据项流中的排列顺序结果。通过比较预测顺序和真实顺序之间的差异,我们可以评估模型在数据排序方面的性能。
步骤S31和步骤S32中的操作共同构成了评估模型性能的关键流程。通过这些步骤,我们可以量化模型的预测准确性、数据清洗能力和数据排序能力,从而为后续的模型调试和优化提供有力支持。
在一种实施方式中,依据第一调试误差、第二调试误差和第三调试误差,得到总调试误差,具体可以包括:
步骤S1:确定第一调试误差、第二调试误差和第三调试误差分别对应的影响系数;
步骤S2:依据第一调试误差、第二调试误差、第三调试误差以及第一调试误差、第二调试误差和第三调试误差分别对应的影响系数,得到总调试误差。
在一种实施方式中,计算机设备依据第一调试误差、第二调试误差和第三调试误差来计算得到总调试误差。这个过程先确定各调试误差的影响系数(即权重),以及根据这些影响系数和调试误差计算总调试误差。
确定各调试误差的影响系数时,计算机设备需要确定第一调试误差、第二调试误差和第三调试误差分别对应的影响系数。这些影响系数反映了不同调试误差在总调试误差中的相对重要性。影响系数的确定可以基于经验、实验数据或业务需求进行设定。例如,如果我们认为数据清洗的准确性对最终结果影响最大,那么可以给第二调试误差赋予较高的影响系数;如果数据排序的准确性也很重要,那么可以给第三调试误差赋予相应较高的影响系数;而第一调试误差的影响系数则可以根据其对模型性能评估的重要性进行设定。
需要注意的是,影响系数的总和通常为1,以确保不同调试误差的贡献能够在一个统一的尺度上进行衡量。
在确定了各调试误差的影响系数后,计算机设备会根据这些系数和调试误差本身来计算总调试误差。具体计算方式可以是各调试误差与其对应影响系数的乘积之和。
以数学表达式表示,假设第一调试误差为E1,第二调试误差为E2,第三调试误差为E3,它们对应的影响系数分别为W1、W2和W3,则总调试误差Total_Error可以计算为:
Total_Error = E1 * W1 + E2 * W2 + E3 * W3
这个计算过程确保了不同调试误差按照其重要性对总调试误差的贡献进行了加权求和。通过这种方式,我们可以得到一个综合反映了模型在多个方面性能的总调试误差指标,从而为模型的进一步优化提供指导。
在网络应用阶段,包括以下步骤S40~S50:
步骤S40:确定待清洗数据项流。
步骤S50:将待清洗数据项流加载到客户数据处理网络,得到待清洗数据项流对应的目标数据项流。
在网络应用阶段,首先需要明确哪些数据项流是需要进行清洗的。这些待清洗数据项流可能来源于多个不同的客户数据流,且可能包含各种错误、异常或不一致的数据。计算机设备会根据预设的规则、条件或业务需求,从众多的客户数据流中筛选出需要清洗的数据项流。
举例来说,假设一个电商网站每天要处理大量的客户交易数据。在这些数据中,可能会包含一些由于系统故障、人为错误或其他原因导致的异常数据,如价格错误、数量异常等。为了确保数据的准确性和可靠性,计算机设备需要首先识别出这些包含错误或异常的数据项流,即确定待清洗数据项流。
一旦确定了待清洗数据项流,下一步就是将这些数据加载到客户数据处理网络中进行清洗和处理。客户数据处理网络是一个复杂的系统,它可能包含多个不同的处理节点和模块,每个节点或模块都负责执行特定的数据处理任务。
在步骤S50中,计算机设备将待清洗数据项流输入到客户数据处理网络的入口节点。然后,这些数据会根据预设的清洗规则和流程,在网络中的各个节点之间进行传递和处理。这个过程可能包括数据校验、错误纠正、异常值处理、缺失值填充等多个环节。
举例来说,对于电商网站中的异常交易数据,客户数据处理网络可能会首先进行数据校验,验证数据的完整性和一致性。如果发现数据存在错误或异常,网络会根据预设的规则进行纠正或处理,如将异常价格修正为正常价格范围内的值,或将缺失的数量信息根据历史数据进行填充等。最终,经过清洗和处理的数据项流会从客户数据处理网络的出口节点输出,形成待清洗数据项流对应的目标数据项流。
综上所述,本公开实施例通过多个客户数据调试二元组基础神经网络进行调试,可得到包含预估清洗策略、预估排布顺次和确定待预估数据项流等完成多任务性能的客户数据处理网络,客户数据处理网络可以完成复杂的数据清洗任务,同时包含高可靠性和鲁棒性。如客户数据处理网络可确定加载的任一数据流的各数据项的预估清洗策略以及预估排布顺次,从而依据各数据项的预估清洗策略以及预估排布顺次对数据流进行清洗以获得目标数据项流。
换言之,首先,通过利用多个客户数据调试二元组基础神经网络进行调试,本方案能够构建一个包含预估清洗策略、预估排布顺次和确定待预估数据项流等多任务性能的客户数据处理网络。这样的网络结构不仅具备处理复杂数据清洗任务的能力,还能够在多任务之间实现有效的信息共享和协同工作,从而提高整体的处理效率和准确性。其次,客户数据处理网络的高可靠性和鲁棒性是本方案的另一个显著技术效果。在网络构建和调试过程中,通过充分考虑各种可能的数据异常和错误情况,并设计相应的处理策略和机制,使得网络在面对各种复杂和多变的数据环境时都能够保持稳定的性能和较高的处理质量。这意味着即使在数据存在大量噪声、缺失或异常的情况下,客户数据处理网络也能够有效地进行清洗和处理,输出高质量的目标数据项流。具体来说,客户数据处理网络可以根据加载的任一数据流的特性,确定各数据项的预估清洗策略和预估排布顺次。这些策略和顺次是基于网络对数据的深入理解和分析得出的,能够确保数据在清洗过程中得到最大程度的优化和提升。然后,网络会依据这些预估清洗策略和预估排布顺次对数据流进行清洗操作,从而获得目标数据项流。这一过程是自动化的、高效的,并且能够在保证数据质量的同时显著提高数据处理的效率。综上所述,本技术方案通过构建多任务性能的客户数据处理网络,实现了对复杂数据清洗任务的高效处理,同时保证了处理结果的高可靠性和鲁棒性。这为客户数据的后续分析和应用提供了有力的支持。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的客户数据采集分析方法的客户数据采集分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个客户数据采集分析装置实施例中的具体限定可以参见上文中对于客户数据采集分析方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种客户数据采集分析装置300,包括:
训练样本获取模块310,用于确定多个客户数据调试二元组,每个所述客户数据调试二元组包括客户数据流样例、以及对所述客户数据流样例进行数据清洗后获得的目标数据项流;
数据清洗预估模块320,用于将每个客户数据流样例加载到基础神经网络,得到对所述客户数据流样例进行数据清洗后的预估数据项流,所述预估数据项流由所述基础神经网络依据如下步骤进行获取:依据所述客户数据流样例的每个数据项样例的第一中间状态表征向量,确定各所述数据项样例对应的预估清洗指示标记和预估顺次指示标记,每个所述数据项样例的预估清洗指示标记和预估顺次指示标记分别表征所述数据项样例的预估清洗策略和预估排布顺次;依据各所述预估清洗指示标记和各所述预估顺次指示标记对所述客户数据流样例进行处理以获得待预估数据项流,依据所述待预估数据项流的每个待预估数据项的第二中间状态表征向量,确定各所述待预估数据项对应的预估数据项指示标记,每个所述待预估数据项对应的预估数据项指示标记表征所述待预估数据项对应的预估数据项,依据各所述待预估数据项对应的预估数据项指示标记,确定所述客户数据流样例对应的预估数据项流;
神经网络调试模块330,用于依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,得到总调试误差,每个所述客户数据流样例对应的各所述真实数据项指示标记分别表征所述客户数据流样例对应的目标数据项流的各目标数据项,依据所述总调试误差和各所述客户数据调试二元组对所述基础神经网络进行反复调试,直到所述总调试误差满足调试截止要求时结束调试过程,并将调试结束时获得的神经网络确定为客户数据处理网络;
应用数据获取模块340,用于确定待清洗数据项流;
神经网络调用模块350,用于将所述待清洗数据项流加载到所述客户数据处理网络,得到所述待清洗数据项流对应的目标数据项流。
上述客户数据采集分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于云服务器中的处理器中,也可以以软件形式存储于云服务器中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种云服务器,该云服务器内部结构图可以如图4所示。该云服务器包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该云服务器的处理器用于提供计算和控制能力。该云服务器的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该云服务器的数据库用于存储包含客户数据等数据。该云服务器的输入/输出接口用于处理器与外部设备之间交换信息。该云服务器的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种客户数据采集分析方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的云服务器的限定,具体的云服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种云服务器,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本公开所涉及的对象信息(包括但不限于对象的设备信息、对应的个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经对象授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。

Claims (11)

1.一种客户数据采集分析方法,其特征在于,应用于云服务器,所述方法包括:
确定多个客户数据调试二元组,每个所述客户数据调试二元组包括客户数据流样例、以及对所述客户数据流样例进行数据清洗后获得的目标数据项流;
将每个客户数据流样例加载到基础神经网络,得到对所述客户数据流样例进行数据清洗后的预估数据项流,所述预估数据项流由所述基础神经网络依据如下步骤进行获取:依据所述客户数据流样例的每个数据项样例的第一中间状态表征向量,确定各所述数据项样例对应的预估清洗指示标记和预估顺次指示标记,每个所述数据项样例的预估清洗指示标记和预估顺次指示标记分别表征所述数据项样例的预估清洗策略和预估排布顺次;依据各所述预估清洗指示标记和各所述预估顺次指示标记对所述客户数据流样例进行处理以获得待预估数据项流,依据所述待预估数据项流的每个待预估数据项的第二中间状态表征向量,确定各所述待预估数据项对应的预估数据项指示标记,每个所述待预估数据项对应的预估数据项指示标记表征所述待预估数据项对应的预估数据项,依据各所述待预估数据项对应的预估数据项指示标记,确定所述客户数据流样例对应的预估数据项流;
依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,得到总调试误差,每个所述客户数据流样例对应的各所述真实数据项指示标记分别表征所述客户数据流样例对应的目标数据项流的各目标数据项,依据所述总调试误差和各所述客户数据调试二元组对所述基础神经网络进行反复调试,直到所述总调试误差满足调试截止要求时结束调试过程,并将调试结束时获得的神经网络确定为客户数据处理网络;
确定待清洗数据项流;
将所述待清洗数据项流加载到所述客户数据处理网络,得到所述待清洗数据项流对应的目标数据项流。
2.根据权利要求1所述的方法,其特征在于,依据各所述第一中间状态表征向量确定各所述数据项样例对应的预估清洗指示标记,包括:
针对每一所述数据项样例,依据所述数据项样例的第一中间状态表征向量,确定所述数据项样例对应的预估清洗指示标记属于各预设清洗指示标记的第一置信度,依据所述数据项样例对应的各所述第一置信度,确定所述数据项样例的预估清洗指示标记;
每个所述预估清洗指示标记表征一类预设清洗策略,所述预设清洗策略为去除数据项、更替数据项、植入数据项或留存数据项中的一种;
依据各所述第一中间状态表征向量确定各所述数据项样例对应的预估顺次指示标记,包括:
针对每一所述数据项样例,确定所述数据项样例对应的预估清洗指示标记的清洗表征向量、以及所述数据项样例在所述客户数据流样例中的分布信息表征向量,依据所述数据项样例对应的第一中间状态表征向量、清洗表征向量以及分布信息表征向量,确定所述数据项样例的交互表征向量;
依据各所述数据项样例的交互表征向量,确定各所述数据项样例对应的预估顺次指示标记。
3.根据权利要求2所述的方法,其特征在于,所述依据各所述数据项样例的交互表征向量,确定各所述数据项样例对应的预估顺次指示标记,包括:
依据每个所述数据项样例的交互表征向量,确定所述数据项样例对应的预估顺次指示标记为各预设顺次指示标记的第二置信度,各所述预设顺次指示标记各自表征不同的排布顺次;
依据各所述数据项样例对应的各所述第二置信度,确定各所述数据项样例对应的预估顺次指示标记。
4.根据权利要求3所述的方法,其特征在于,所述依据每个所述数据项样例的交互表征向量,确定所述数据项样例对应的预估顺次指示标记为各所述预设顺次指示标记的第二置信度,包括:
依据每个所述数据项样例的交互表征向量,确定所述数据项样例对应的聚焦表征向量;
依据每个所述数据项样例的交互表征向量、以及各所述数据项样例对应的聚焦表征向量,确定所述客户数据流样例中所述数据项样例的后一个数据项对应的预估顺次指示标记为各所述预设顺次指示标记的第二置信度,其中,所述客户数据流样例中的第一个数据项样例对应的各所述第二置信度是依据第一预设数据项的交互表征向量确定的。
5.根据权利要求2所述的方法,其特征在于,所述依据各所述预估清洗指示标记和各所述预估顺次指示标记对所述客户数据流样例进行处理以获得待预估数据项流,包括:
依据各所述预估顺次指示标记对各所述数据项样例进行排列得到第一数据项流;
针对所述第一数据项流的每个所述数据项样例,当依据所述数据项样例对应的预估清洗指示标记确定在所述数据项样例之后植入数据项时,确定在所述数据项样例之后植入的数据项的数据项数量,并将所述数据项数量的第二预设数据项植入到所述数据项样例之后得到第二数据项流;
将所述第二数据项流中的目标数据项进行注释得到待预估数据项流,所述目标数据项为依据对应的预估清洗指示标记确定删除的数据项。
6.根据权利要求1所述的方法,其特征在于,所述依据各所述第二中间状态表征向量确定各所述待预估数据项对应的预估数据项指示标记,包括:
针对所述待预估数据项流中的每个待预估数据项,依据所述待预估数据项的第二中间状态表征向量确定所述待预估数据项对应的预估数据项指示标记为各预设数据项指示标记的第三置信度,依据所述待预估数据项对应的各所述第三置信度,确定所述待预估数据项对应的预估数据项指示标记,各所述预设数据项指示标记各自表征不同的数据项。
7.根据权利要求1所述的方法,其特征在于,所述依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,得到总调试误差,包括:
依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,确定第一调试误差;
依据第二调试误差和/或第三调试误差、以及所述第一调试误差,得到总调试误差;
所述第二调试误差是依据如下步骤进行获取的:确定每个所述客户数据流样例的各所述数据项样例对应的真实清洗指示标记,每个所述数据项样例对应的真实清洗指示标记表征对对应客户数据流样例进行清洗时所述数据项样例对应的真实清洗策略;
依据各所述客户数据流样例对应的各所述真实清洗指示标记和各所述预估清洗指示标记,确定第二调试误差;
所述第三调试误差是依据如下步骤进行获取的:确定每个所述客户数据流样例的各所述数据项样例对应的真实顺次指示标记,每个所述数据项样例对应的真实顺次指示标记表征所述数据项样例在对应目标数据项流中的真实排布顺次;
依据各所述客户数据流样例对应的各所述真实顺次指示标记和各所述预估顺次指示标记,确定第三调试误差。
8.根据权利要求7所述的方法,其特征在于,依据所述第一调试误差、所述第二调试误差和所述第三调试误差,得到总调试误差,包括:
确定所述第一调试误差、所述第二调试误差和所述第三调试误差分别对应的影响系数;
依据所述第一调试误差、所述第二调试误差、所述第三调试误差以及所述第一调试误差、所述第二调试误差和所述第三调试误差分别对应的影响系数,得到总调试误差。
9.根据权利要求1所述的方法,其特征在于,所述确定多个客户数据调试二元组,包括:
获取一个或多个基础数据项流;
针对每一所述基础数据项流,对所述基础数据项流进行数据项拆分得到第一数据项序列,对所述第一数据项序列的一个或多个数据项进行清洗得到第二数据项序列,依据所述第二数据项序列和所述基础数据项流生成客户数据调试二元组,所述第二数据项序列为客户数据流样例,所述基础数据项流为对所述第二数据项序列进行数据清洗后的目标数据项流。
10.一种客户数据采集分析装置,其特征在于,包括:
训练样本获取模块,用于确定多个客户数据调试二元组,每个所述客户数据调试二元组包括客户数据流样例、以及对所述客户数据流样例进行数据清洗后获得的目标数据项流;
数据清洗预估模块,用于将每个客户数据流样例加载到基础神经网络,得到对所述客户数据流样例进行数据清洗后的预估数据项流,所述预估数据项流由所述基础神经网络依据如下步骤进行获取:依据所述客户数据流样例的每个数据项样例的第一中间状态表征向量,确定各所述数据项样例对应的预估清洗指示标记和预估顺次指示标记,每个所述数据项样例的预估清洗指示标记和预估顺次指示标记分别表征所述数据项样例的预估清洗策略和预估排布顺次;依据各所述预估清洗指示标记和各所述预估顺次指示标记对所述客户数据流样例进行处理以获得待预估数据项流,依据所述待预估数据项流的每个待预估数据项的第二中间状态表征向量,确定各所述待预估数据项对应的预估数据项指示标记,每个所述待预估数据项对应的预估数据项指示标记表征所述待预估数据项对应的预估数据项,依据各所述待预估数据项对应的预估数据项指示标记,确定所述客户数据流样例对应的预估数据项流;
神经网络调试模块,用于依据各所述客户数据流样例对应的预估数据项流对应的各所述预估数据项指示标记、以及各所述客户数据流样例对应的各真实数据项指示标记,得到总调试误差,每个所述客户数据流样例对应的各所述真实数据项指示标记分别表征所述客户数据流样例对应的目标数据项流的各目标数据项,依据所述总调试误差和各所述客户数据调试二元组对所述基础神经网络进行反复调试,直到所述总调试误差满足调试截止要求时结束调试过程,并将调试结束时获得的神经网络确定为客户数据处理网络;
应用数据获取模块,用于确定待清洗数据项流;
神经网络调用模块,用于将所述待清洗数据项流加载到所述客户数据处理网络,得到所述待清洗数据项流对应的目标数据项流。
11.一种云服务器,其特征在于,包括:
处理器;
以及存储器,其中所述存储器中存储有计算机程序,所述计算机程序在由所述处理器运行时,使得所述处理器执行如权利要求1~9中任一项所述的方法。
CN202410282043.7A 2024-03-13 2024-03-13 一种客户数据采集分析方法、装置及云服务器 Active CN117891811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410282043.7A CN117891811B (zh) 2024-03-13 2024-03-13 一种客户数据采集分析方法、装置及云服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410282043.7A CN117891811B (zh) 2024-03-13 2024-03-13 一种客户数据采集分析方法、装置及云服务器

Publications (2)

Publication Number Publication Date
CN117891811A true CN117891811A (zh) 2024-04-16
CN117891811B CN117891811B (zh) 2024-05-07

Family

ID=90639774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410282043.7A Active CN117891811B (zh) 2024-03-13 2024-03-13 一种客户数据采集分析方法、装置及云服务器

Country Status (1)

Country Link
CN (1) CN117891811B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205702A1 (en) * 2017-12-28 2019-07-04 Cognant Llc System and method for recommending features for content presentations
CN115687732A (zh) * 2022-11-30 2023-02-03 杭银消费金融股份有限公司 基于ai和流式计算的用户分析方法及系统
CN116720946A (zh) * 2023-05-13 2023-09-08 浙江清华长三角研究院 基于循环神经网络的信贷风险预测方法、装置和存储介质
CN117349809A (zh) * 2023-09-26 2024-01-05 柳州铁道职业技术学院 一种计算机系统及其用户的身份识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205702A1 (en) * 2017-12-28 2019-07-04 Cognant Llc System and method for recommending features for content presentations
CN115687732A (zh) * 2022-11-30 2023-02-03 杭银消费金融股份有限公司 基于ai和流式计算的用户分析方法及系统
CN116720946A (zh) * 2023-05-13 2023-09-08 浙江清华长三角研究院 基于循环神经网络的信贷风险预测方法、装置和存储介质
CN117349809A (zh) * 2023-09-26 2024-01-05 柳州铁道职业技术学院 一种计算机系统及其用户的身份识别方法

Also Published As

Publication number Publication date
CN117891811B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
JP7169369B2 (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN110795657B (zh) 文章推送及模型训练方法、装置、存储介质和计算机设备
CN110321291A (zh) 测试案例智能提取系统及方法
CN111461841A (zh) 物品推荐方法、装置、服务器及存储介质
US11620558B1 (en) Iterative machine learning based techniques for value-based defect analysis in large data sets
CN111506820A (zh) 推荐模型、方法、装置、设备及存储介质
Dasu Data glitches: Monsters in your data
CN111190968A (zh) 基于知识图谱的数据预处理和内容推荐方法
CN117556148B (zh) 一种基于网络数据驱动的个性化跨域推荐方法
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN112948681A (zh) 一种融合多维度特征的时间序列数据推荐方法
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN117891811B (zh) 一种客户数据采集分析方法、装置及云服务器
WO2023048807A1 (en) Hierarchical representation learning of user interest
CN113065911A (zh) 推荐信息生成方法、装置、存储介质及电子设备
He et al. Counterfactual Explanations for Sequential Recommendation with Temporal Dependencies
Su et al. A GitHub Project Recommendation Model Based on Self-Attention Sequence
CN116911955B (zh) 目标推荐模型的训练方法及装置
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法
Puranik et al. Ensemble Deep Learning based Real-time Log Anomaly Detection
CN116383883B (zh) 一种基于大数据的数据管理权限处理方法及系统
Khatun et al. Analysis of Duplicate Bug Report Detection Techniques
CN117094828A (zh) 金融产品推荐方法、装置、计算机设备和存储介质
CN114969486A (zh) 语料推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant