具体实施方式
在对本申请实施例进行说明之前,首先对整体方案架构进行介绍,该方案主要涉及两个部分,也即模型训练部分和模型应用部分,对于这两部分的总结可以如下:一种应用于大数据挖掘和业务分析的数据清洗方法,应用于云服务器,所述云服务器预先部署有网络模型,所述云服务器与业务服务端通信连接,用以向所述业务服务端输送完成清洗的业务数据。进一步地,模型训练部分可以总结为:基于多个第一样本业务数据以及多个第二样本业务数据进行模型训练,得到业务数据清洗模型(如图1中的步骤A)。进一步地,模型应用部分可以总结为:在获取到待清洗业务数据时,通过调用所述业务数据清洗模型,并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对所述待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述待清洗业务数据对应一个数据交互场景(如图1中的步骤B)。
可以理解,就业务数据清洗而言,在对待清洗业务数据进行业务数据清洗时,能够结合业务数据挖掘信息实现,并且待清洗业务数据是对应的特定的数据交互场景的,因此在进行数据清洗过程中,能够考虑业务数据挖掘信息所对应的不同业务交互状态的用户业务需求信息,也就是说,在进行业务数据清洗时,能够充分考虑业务服务端的实际业务需求,这样一来,一方面可以提高数据清洗的准确性,避免遗留一些噪声数据或者脏数据,另一方面可以减少数据清洗的错误率,避免将一些重要的数据进行误清洗。如此,能够实现业务数据的快速、可靠清洗,从而确保清洗结果尽可能与业务服务端的大数据挖掘需求和业务分析需求匹配。
进一步地,在上述内容的基础上,本发明实施例首先提供了业务数据清洗模型训练方法,然后提供了应用于大数据挖掘和业务分析的数据清洗方法,可以理解,业务数据清洗模型训练方法包含于应用于大数据挖掘和业务分析的数据清洗方法,下面将对上述方案进行进一步说明。
本发明实施例提供了一种业务数据清洗模型训练方法,该业务数据清洗模型训练方法可以应用于云服务器中,也即是,可以在上述云服务器上训练得到业务数据清洗模型,也可以在其他云服务器上训练得到业务数据清洗模型后,将该业务数据清洗模型处理为网络模型安装包,将该网络模型安装包发送至云服务器,则该云服务器中即存储有业务数据清洗模型。当然,也可以由云服务器在有业务数据清洗需求时,调用其它云服务器上训练得到的业务数据清洗模型,本发明实施例对此不作限定。进一步地,该方法可以包括以下步骤。
S100:云服务器基于多个第一样本业务数据,对第一业务数据识别模型进行训练,得到第二业务数据识别模型。
其中,该多个第一样本业务数据包括多种数据交互场景下的业务数据,例如,该多个第一样本业务数据可以包括区块链支付业务数据、政企云服务业务数据、远程在线教育业务数据、远程协作办公业务数据、智慧城市管理业务数据、智能工厂监控业务数据、云游戏服务业务数据、在线电商购物业务数据和用户画像分析业务数据等数据交互场景下的业务数据,当然,还可以包括更多其他数据交互场景的业务数据,在此仅提供了一种示例性说明,而不对该多种数据交互场景下的业务数据的种类数量和具体种类进行限定。
在该S100中,云服务器基于多种数据交互场景下的业务数据训练得到了第二业务数据识别模型的模型参数,且该第二业务数据识别模型中包括该多种数据交互场景对应的多个目标业务交互状态的用户业务需求信息,也即是通过对多种数据交互场景下的业务数据进行清洗,获取到了先验信息。这样通过不同场景的数据对模型进行训练,可以使得该第二业务数据识别模型具备对数据交互场景下的业务数据进行清洗的相关清洗策略,也即用于模拟技术人员在各个数据清洗节点的操作行为。
这样该第二业务数据识别模型已经具备一定的先验信息,后续需要对某种数据交互场景下的业务数据进行清洗时,可以直接用这种数据交互场景的样本业务数据对第二业务数据识别模型进行训练即可,而无需由相关技术人员再对这种数据交互场景下的业务数据进行分析,进行模型的重新调整,也即是,该第二业务数据识别模型具备一定的数据分析和识别能力,各种数据交互场景下的业务数据均可以直接使用上述第二业务数据识别模型进行训练,可以有效提高该第二业务数据识别模型以及基于该第二业务数据识别模型训练得到的业务数据清洗模型的可靠性和泛化能力。
S101:云服务器获取多个第二样本业务数据,每个第二样本业务数据携带有数据标签,该数据标签用于指示第二样本业务数据的目标数据清洗结果。
云服务器可以基于多个第二样本业务数据训练得到业务数据清洗模型,在一种可能实现方式中,在该云服务器中可以存储有该多个第二样本业务数据,在需要进行业务数据清洗模型训练时,即可获取得到。需要说明的是,每个第二样本业务数据还可以携带用于指示目标数据清洗结果的数据标签,其中,该目标数据清洗结果是指该第二样本业务数据的符合业务需求的数据清洗结果,或是指该第二样本业务数据的不符合业务需求的数据清洗结果。这样在模型训练过程中,可以获知训练中的模型对第二样本业务数据的清洗是否准确,可以获知是否需要继续对模型进行训练,从而训练得到的模型对第二样本业务数据进行清洗时可以得到该目标数据清洗结果,或者与该目标数据清洗结果的差别较小。
在另一种可能实现方式中,该多个第二样本业务数据也可以存储于其他云服务器,该云服务器在需要进行业务数据清洗模型训练时,可以从其他云服务器处获取,本发明实施例对此不作限定。
例如,该多个第二样本业务数据可以存储于关系型数据库(如MYSQL、HIVE等)中,每个第二样本业务数据还携带有数据标签。则该S101即可以为云服务器从关系型数据库中获取多个第二样本业务数据。
S102:云服务器将该多个第二样本业务数据输入该第二业务数据识别模型中。
在一种可能实现方式中,上述S100之后,云服务器可以直接对第二业务数据识别模型进行训练,也即是执行S101,再执行S102,相应地,该S102中,云服务器获取多个第二样本业务数据后,可以基于该多个第二样本业务数据对第二业务数据识别模型进行训练,得到业务数据清洗模型,以便于后续能够基于该业务数据清洗模型对获取到的第一业务数据进行精准可靠的业务数据清洗。在另一种可能实现方式中,上述S100之后,云服务器还可以存储该第二业务数据识别模型,也可以将第二业务数据识别模型发送至其他云服务器,由其他云服务器基于第二业务数据识别模型,执行后续模型训练过程,则相应地,该S102中,云服务器在获取到多个第二样本业务数据后,可以调用第二业务数据识别模型,将该多个第二样本业务数据输入该第二业务数据识别模型中,本发明实施例对具体采用哪种实现方式不作限定。
也即是,该S102中的云服务器中可以存储有第二业务数据识别模型,在需要进行业务数据清洗模型训练时,直接调用即可,或直接在S100之后,基于得到的第二业务数据识别模型进行训练,而无需调用。当然,该第二业务数据识别模型也可以存储于其他云服务器,该云服务器在需要进行业务数据清洗模型训练时,可以从其他云服务器处调用,本发明实施例对此不作限定。
需要说明的是,该第二业务数据识别模型的模型参数为初始化之后的参数,云服务器可以将该多个第二样本业务数据作为训练样本数据集和验证样本数据集,对第二业务数据识别模型进行训练,也即是通过第二样本业务数据对第二业务数据识别模型的模型参数进行调整和优化,以使得多次调整和优化后的模型参数能够在对第一业务数据进行清洗时,得到的数据清洗结果更符合实际业务需求。
具体地,云服务器将该多个第二样本业务数据输入第二业务数据识别模型中,可以由第二业务数据识别模型对每个第二样本业务数据进行清洗,基于第二业务数据识别模型的数据清洗结果和第二样本业务数据的数据标签,也即是第二样本业务数据的目标数据清洗结果,确定第二业务数据识别模型的清洗能力,从而可以通过调整该第二业务数据识别模型的模型参数,以不断提高第二业务数据识别模型的清洗能力,以使得后续训练得到的业务数据清洗模型能够精准可靠的业务数据清洗。
S103:云服务器中的第二业务数据识别模型获取该多个第二样本业务数据的业务数据挖掘信息。
其中,该业务数据挖掘信息至少包括该目标数据交互场景对应的多个目标业务交互状态的用户业务需求信息。也即是,第二业务数据识别模型可以先获取多个第二样本业务数据的业务数据挖掘信息,从而获取到一定的先验信息,了解到所需要清洗的目标数据交互场景对应的多个目标业务交互状态的用户业务需求信息,例如,该用户业务需求信息可以包括多个目标业务交互状态的用户业务需求类型、目标业务交互状态的数量和目标业务交互状态的局部离散度,当然,也可以包括其他信息,比如业务服务端想进行何种层面的用户画像挖掘,比如购物商品类别与人群对应关系的用户业务需求信息等,本发明实施例在此不一一列举。
第二业务数据识别模型可以基于该多个第二样本业务数据的相关信息,初步获知后续模型训练完成后需要进行清洗的第一业务数据的一些业务数据清洗策略和业务数据处理策略。
具体地,第二业务数据识别模型可以基于该多个第二样本业务数据的数据标签中的信息,对该多个第二样本业务数据进行节点化处理,对节点化处理后的多个第二样本业务数据进行基于图数据层面的关系需求分析,得到目标数据交互场景对应的多个目标业务交互状态的用户业务需求信息。其中,该目标业务交互状态是指该多个第二样本业务数据中目标类型的数据字段所对应的业务交互状态。其中,业务交互状态可以是不同的业务设备之间的交互状态。该方案的架构也可以理解为云服务器、业务设备以及业务服务端互相之间通信。业务设备之间或者业务设备与业务服务端之间进行业务交互,云服务器用以进行对应的数据清洗并将干净的数据传输给业务服务端进行大数据分析,以实现业务服务端的服务产品优化。可选地,如图2所示,提供了一种应用于大数据挖掘和业务分析的数据清洗系统20,包括互相之间通信的云服务器21、业务设备22和业务服务端23。其中,云服务器21预先部署有网络模型,所述云服务器21用以向所述业务服务端23输送完成清洗的业务数据;
云服务器21基于不同业务设备22之间或者业务设备22与业务服务端23之间的业务交互获得多个第一样本业务数据以及多个第二样本业务数据,并基于多个第一样本业务数据以及多个第二样本业务数据进行模型训练,得到业务数据清洗模型;在获取到待清洗业务数据时,通过调用所述业务数据清洗模型,并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对所述待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述待清洗业务数据对应一个数据交互场景;将数据清洗结果传输给业务服务端23。可以理解,关于该系统的进一步说明可以参阅本申请中对相关方法实施例的描述,在此不再赘述。
在一种可能实现方式中,该业务数据挖掘信息还可以包括每个第二样本业务数据的多维特征信息,从而基于该第二样本业务数据的多维特征信息,对第二样本业务数据进行数据特征标记处理从而使得该第二样本业务数据的一些基本信息更统一或更符合实际业务需求,从而对第二样本业务数据进行清洗时更符合实际业务需求,当然,也可以对清洗后的业务数据进行数据挖掘分析处理,使得数据清洗结果更符合实际业务需求。其中,该多维特征信息可以包括字段关系离散度、聚类数量和字段语义离散度等,本发明实施例对此不作限定。
在另一种可能实现方式中,上述第一业务数据识别模型和第二业务数据识别模型均可以包括第一业务数据清洗网络和第二业务数据清洗网络,该第一业务数据清洗网络和第二业务数据清洗网络分别对应于一种业务数据清洗策略,该第一业务数据清洗网络用于对动态业务数据进行清洗,该第二业务数据清洗网络用于对静态业务数据进行清洗。相应地,基于该第二业务数据识别模型训练得到的业务数据清洗模型也即可以包括两个业务数据清洗网络。这样得到的业务数据清洗模型可以直接对动态业务数据进行清洗,也可以将动态业务数据转化为静态业务数据进行清洗,当然对于静态业务数据还可以直接进行清洗,且通过两种业务数据清洗策略,可以灵活选择不同的清洗方式对业务数据进行清洗,可以有效提高业务数据清洗模型的可靠性,也可以提高业务数据清洗的准确性。举例而言,动态业务数据可以是存在时序变化特性的业务数据,静态业务数据可以是不存在时序变化特性的业务数据。
这样在该S103中,云服务器获取到的该业务数据挖掘信息还可以包括该多个第二样本业务数据的业务数据数量,从而可以基于业务数据数量选择作为第二业务数据清洗网络的业务数据清洗子网络,具体地,如何基于该业务数据数量,选择对第二样本业务数据的处理方式可以参见下述S105中第二业务数据清洗网络的业务数据清洗子网络的选择过程,本发明实施例在此先不作过多介绍。
需要说明的是,下述均以该S103中即获取到业务数据挖掘信息中包括该目标数据交互场景对应的多个目标业务交互状态的用户业务需求信息、每个第二样本业务数据的多维特征信息和该多个第二样本业务数据的业务数据数量,且第一业务数据识别模型、第二业务数据识别模型以及业务数据清洗模型均包括第一业务数据清洗网络和第二业务数据清洗网络为例进行说明。
S104:云服务器中的第二业务数据识别模型根据该业务数据挖掘信息,对每个第二样本业务数据进行数据特征标记处理,将数据特征标记处理后的每个第二样本业务数据输入该第二业务数据识别模型中的第一业务数据清洗网络和第二业务数据清洗网络。
该S104是基于该每个第二样本业务数据的多维特征信息,对每个第二样本业务数据进行数据特征标记处理,将数据特征标记处理后的多个第二样本业务数据输入该第一业务数据清洗网络和该第二业务数据清洗网络中的过程,也即是该S104中数据特征标记处理所依据的数据为业务数据挖掘信息中的每个第二样本业务数据的多维特征信息。
第二业务数据识别模型可以对第二样本业务数据进行数据特征标记处理,使得数据特征标记处理后的第二样本业务数据匹配第一业务数据清洗网络和第二业务数据清洗网络的业务数据清洗条件,也可以去除该第二样本业务数据中的异常数据字段,或将该第一业务数据的数据字段进行缺失值填补等,从而数据特征标记处理后的第二样本业务数据在业务数据清洗时更符合实际业务需求。其中,异常数据字段可以理解为不符合相关业务场景的字段,比如业务场景涉及用户年龄分析,那么为负数的数据字段就可以理解为异常数据字段。
在一种可能实现方式中,第二样本业务数据的多维特征信息不同,该数据特征标记处理过程也可以不同,具体地,该数据特征标记处理过程可以包括以下任一个或多个步骤:
步骤一、当根据该多维特征信息确定该第二样本业务数据中存在异常数据字段时,第二业务数据识别模型将该异常数据字段剔除。
在一种可能实现方式中,异常数据字段是指数据类型识别度为不合理值的数据字段,其中,异常数据字段的数据类型识别度为该第二样本业务数据的多个数据类型识别度中与该多个数据类型识别度的平均识别度的误差值超过第一设定误差的数据类型识别度。另外,与平均识别度的误差值超过第二设定误差的数据类型识别度也可以为异常程度较高的异常数据字段的数据类型识别度。如果该第二样本业务数据中存在异常数据字段,可以将该第二样本业务数据中的异常数据字段进行剔除,以避免该异常数据字段对数据清洗结果造成干扰,从而保证对该第二样本业务数据的数据清洗结果更符合实际业务需求。可以理解,对异常数据字段进行剔除的过程也是数据清洗流程中的一部分。
具体地,可以根据该第二样本业务数据的多个数据字段的数据类型识别度,得到该第二样本业务数据的字段关系图数据,从而可以从该字段关系图数据中获知该第二样本业务数据的多个数据字段的数据类型识别度的识别度分布信息(比如均值、最大值或最小值等),从而确定异常的数据类型识别度,当然,也可以通过其他可视化(比如各类统计图)的形式对第二样本业务数据的多个数据类型识别度进行统计,从而确定异常的数据类型识别度,例如,可以将与平均识别度的差值大于预设差值的数据类型识别度对应的数据字段作为异常数据字段,也可以按照与该平均识别度的差值,将该第二样本业务数据的多个数据类型识别度的85%作为正常值,将15%作为不合理值,其中,不合理值为与平均识别度的差值较大的数据类型识别度,正常值为与平均识别度的差值较小的数据类型识别度。需要说明的是,上述仅为几种示例性说明,具体地,该步骤一可以通过任一种不合理值检测算法实现,也可以通过任一种不合理值处理方法实现,本发明实施例对此不作限定。
步骤二、当根据该多维特征信息确定剔除异常数据字段后的第二样本业务数据的字段关系离散度大于目标离散度时,第二业务数据识别模型对该第二样本业务数据进行缺失值填补处理,将该第二样本业务数据的字段关系离散度调整为不大于目标离散度。
举例而言,字段关系可以用于将不同的数据字段进行关联,从而形成能够反映全局业务交互情况的数据集,字段关系的离散度越大,表明不同的数据字段之间的关联度越低,造成这个问题的原因是提出异常数据字段时可能将一些逻辑连接型的数据字段也进行了删除,为改善这个目的,可以进行缺失值填补处理,从而确保不同数据字段之间能够可靠关联。
第二业务数据识别模型中还可以设置有目标离散度,该目标离散度可以根据之前的业务处理记录预先进行设置,例如,该目标离散度可以为0.8(端点值为0和1)。在第二样本业务数据的字段关系离散度大于该目标离散度时,则可以对其进行缺失值填补处理,将第二样本业务数据的字段关系离散度调整在目标离散度内,这样在后续清洗过程中所有的第二样本业务数据的字段关系离散度均在目标离散度内,字段关系离散度统一,第二样本业务数据之间也具有可关联性,对第二样本业务数据进行清洗得到的数据清洗结果也更符合实际业务需求。具体地,该缺失值填补处理过程可以通过任一种缺失值填补方法实现,例如,可以根据线性函数/非线性函数将字段关系离散度转换为不大于目标离散度,本发明实施例对此不作限定,也不做过多赘述。
步骤三、当根据该多维特征信息确定该第二样本业务数据的数据类型数量为多个时,第二业务数据识别模型根据目标全局类型识别度调整该第二样本业务数据的每个数据类型识别度,比如,将该第二样本业务数据的每个数据类型识别度均减去目标全局类型识别度。
第二样本业务数据可能为预约性质的业务数据,也可以为字段关系业务数据,其中,预约性质的业务数据的数据类型数量为多个,而字段关系业务数据的数据类型数量为一。如果根据多维特征信息确定第二样本业务数据为预约性质的业务数据时,还可以将该第二样本业务数据的每个数据类型识别度均减去目标全局类型识别度。在一种可能实现方式中,该目标全局类型识别度可以在对第二业务数据识别模型进行训练的过程中得到,也即是,该目标全局类型识别度可以在上述S100中得到。具体地,该目标全局类型识别度可以为训练时的多个第一样本业务数据的全局类型识别度,也即是数据类型识别度的平均识别度。
通过该步骤三,可以使得该第二样本业务数据的数据类型识别度的离散度(字段关系离散度)与模型训练时的第一样本业务数据的数据类型识别度的离散度(字段关系离散度)一致,这样模型训练和模型使用时对业务数据进行上述处理,均可以使得处理后的业务数据的字段关系离散度一致,从而业务数据数据清洗结果更符合实际业务需求。
步骤四、当根据该多维特征信息确定该第二样本业务数据的聚类数量为多个时,第二业务数据识别模型将该第二样本业务数据输入聚类特征标记网络,由该聚类特征标记网络从该第二样本业务数据的多个数据类型识别度进行标记,得到数据特征标记处理后的第二样本业务数据的目标数量的数据类型识别度,该数据特征标记处理后的第二样本业务数据的聚类数量为设定数值,比如,设定数值可以为一。
该第二样本业务数据的聚类数量还可能不为一,第二业务数据识别模型还可以将多聚类的业务数据进行聚类特征标记,从而对特征标记后的业务数据进行清洗。其中,该聚类特征标记网络为该第二业务数据识别模型中的一个网络,当第二样本业务数据的聚类数量为多个时,即可通过该聚类特征标记网络对第二样本业务数据进行聚类特征标记。举例而言,第二样本业务数据的聚类数量可以通过keans均值算法对第二样本业务数据进行聚类之后得到。
具体地,该步骤四中聚类特征标记网络对第二样本业务数据的处理过程也即可以理解为:聚类特征标记网络可以根据网络训练记录,从第二样本业务数据的多个数据类型识别度中选择目标数量的数据类型识别度作为第二样本业务数据的数据类型识别度。该目标数量为聚类数量为设定数值的第二样本业务数据的数据类型识别度的数量。在一种可能实现方式中,该聚类特征标记网络的网络训练记录可以在模型训练过程中进行调整,使得选择的目标数量的数据类型识别度更具有业务场景区分性,更能表征该第二样本业务数据的相关特征。上述仅提供了一种聚类特征标记方式,具体地,该过程还可以采用其他方式,本发明实施例对此不作限定。
例如,对于聚类特征标记网络,第二样本业务数据的聚类数量可以为n,n为正整数,聚类特征标记网络可以将该n个聚类的数据类型识别度进行特征标记,并进行上述选择步骤,最终得到要输入第一业务数据清洗网络和第二清洗网络的第二样本业务数据的数据类型识别度,从而将n个聚类的第二样本业务互动特征标记为一个聚类的第二样本业务数据。
经过上述一个或多个步骤对第二样本业务数据进行数据特征标记处理后,可以将数据特征标记处理后的第二样本业务数据输入第一业务数据清洗网络和第二业务数据清洗网络中,进行后续清洗步骤。当然,该数据特征标记处理过程也不限定于上述四个步骤,该数据特征标记处理过程还可以包括其他步骤,例如,第二业务数据识别模型可以对第二样本业务数据进行基于概率分布的数据采样,且可以根据该第二样本业务数据的字段语义离散度确定对该第二样本业务数据的数据采样方式。
S105:该第一业务数据清洗网络和第二业务数据清洗网络分别对每个第二样本业务数据进行清洗,得到第一数据清洗结果和第二数据清洗结果。
对于第一业务数据清洗网络,该第一业务数据清洗网络可以采用2个阶段的数据清洗策略,也即是该第一业务数据清洗网络可以对第二样本业务数据进行两个阶段的清洗,也即是二次清洗,在第一阶段第一业务数据清洗网络可以对第二样本业务数据进行大范围清洗,在第二阶段第二业务数据清洗网络可以对第二样本业务数据进行小范围清洗,这样可以应对不同业务需求的业务数据清洗任务。
在一种可能实现方式中,该第一业务数据清洗网络可以采用多层结构的卷积神经网络模型实现,该卷积神经网络模型可以先对第二样本业务数据进行互动特征提取,并基于提取的业务互动特征,进行基于概率分布的数据采样。该互动特征提取过程可以通过卷积和池化等步骤实现,在该互动特征提取过程中第二样本业务数据的字段语义逐渐精炼,在该基于概率分布的数据采样过程中,可以综合之前互动特征提取过程中第二样本业务数据的一些数据和提取特征后得到的数据进行基于概率分布的数据采样,也即是上述基于概率分布的数据采样过程采用异步采样的方式实现,最终实现对第二样本业务数据的清洗过程。其中,本发明实施例在此仅以该卷积神经网络模型为例,具体该第一业务数据清洗网络还可以采用其他模型实现,本发明实施例对此不作限定,也不做过多赘述。
该第一业务数据清洗网络对该第二样本业务数据的清洗过程可以为:第一业务数据清洗网络基于该第一业务数据清洗网络的网络训练记录,对该第一业务数据进行二次数据筛分,得到第一数据清洗结果,该二次数据筛分中第一次数据筛分的数据筛分对象为该第二样本业务数据的所有数据字段,第二次数据筛分的数据筛分对象为该第一次数据筛分结果中的业务环境数据字段。这样通过二次清洗,先进行大范围清洗,再进行小范围清洗,从而综合二次数据清洗结果,得到第一数据清洗结果,可以有效提高业务数据清洗的准确性。
其中,该第一业务数据清洗网络可以支持多类型清洗,第一业务数据清洗网络可以对第二样本业务数据的每个数据字段进行数据筛分,确定每个数据字段为哪种类型,也即是至少两个类型中的哪个类型。该至少两个类型可以分为两类,一类为热度,另一类为业务环境,相应地,对应的数据字段分别为热度数据字段和业务环境数据字段,也即是,类型为热度的数据字段为热度数据字段,类型为业务环境的数据字段为业务环境数据字段。该热度为至少两个类型中的一个类型,业务环境即为该至少两个类型中的热度之外的其它一种或多种类型。
具体地,上述二次清洗过程可以包括下述步骤一至步骤三:
步骤一、第一业务数据清洗网络基于该第一业务数据清洗网络的网络训练记录,对该第二样本业务数据的每个数据字段进行数据筛分,得到第三数据清洗结果,该第三数据清洗结果用于指示该第二样本业务数据的每个数据字段为至少两个类型中每个类型的预测结果。
该步骤一即为对第二样本业务数据的大范围清洗过程,也即是2个阶段的数据清洗策略中的第一阶段。第一业务数据清洗网络则可以区分该第二样本业务数据中的哪些数据字段对应业务环境层面,哪些数据字段对应热度层面,从而可以确定该第二样本业务数据中目标业务交互状态的状态标签集,从而可以再通过下述步骤二,对步骤一确定的状态标签集内的数据字段进一步进行数据筛分,从而更精准地区分状态标签集中的各个数据字段的类型,以确定目标业务交互状态的具体用户业务需求。
步骤二、第一业务数据清洗网络基于该第三数据清洗结果和该第一业务数据清洗网络的网络训练记录,对该第三数据清洗结果中的每个业务环境数据字段进行数据筛分,得到第四数据清洗结果,该第四数据清洗结果用于指示该第三数据清洗结果中的每个业务环境数据字段为该至少两个类型中每个类型的预测结果。
在该步骤二中,忽略第三数据清洗结果中的热度数据字段,仅对业务环境数据字段再次进行数据筛分,从而更精准地对上述目标业务交互状态的状态标签集内的数据字段进行数据筛分,得到更精准的数据清洗结果。该步骤二即为对第二样本业务数据的小范围清洗过程,也即是2个阶段的数据清洗策略中的第二阶段。第一业务数据清洗网络可以对上述被确定为业务环境的数据字段再次进行数据筛分,再次确定每个数据字段是上述至少两个类型中的哪一个类型。
步骤三、第一业务数据清洗网络基于该第三数据清洗结果和该第四数据清洗结果,得到第一数据清洗结果。
在经过大范围清洗和小范围清洗,得到第三数据清洗结果和第四数据清洗结果后,第一业务数据清洗网络还可以综合二次的数据清洗结果,确定该第二样本业务数据的第一数据清洗结果。在一种可能实现方式中,对于在大范围清洗中的热度数据字段,可以将该第三数据清洗结果中该热度数据字段的数据清洗结果作为第一数据清洗结果中该数据字段的数据清洗结果。而对于在大范围清洗中的业务环境数据字段,在第三数据清洗结果和第四数据清洗结果中均存在对这部分数据字段的数据清洗结果,则第一业务数据清洗网络可以将这部分数据字段在第三数据清洗结果和第四数据清洗结果中的数据清洗结果取平均清洗结果作为第一数据清洗结果。
在另一种可能实现方式中,第一业务数据清洗网络也可以直接将第三数据清洗结果和第四数据清洗结果的平均清洗结果作为第一数据清洗结果,其中,该第四数据清洗结果中还包括上述第三数据清洗结果中的热度数据字段的数据清洗结果,这部分数据字段直接确定为热度数据字段。也即是,在第二阶段第一业务数据清洗网络并未对第一阶段中的热度数据字段再次进行数据筛分,而是直接默认这部分热度数据字段的类型为热度。
当然,上述仅以该步骤三通过取平均清洗结果的方式实现为例进行说明,在一种可能实现方式中,第一业务数据清洗网络还可以将第三数据清洗结果和第四数据清洗结果进行加权,得到第一数据清洗结果,本发明实施例对该步骤三的具体实施方式不作限定。
对于第二业务数据清洗网络,在一种可能实现方式中,该第二业务数据清洗网络可以采用深度残差网络实现,本发明实施例对具体采用哪种深度残差网络不作限定。
一种可能实现方式中,该第二业务数据清洗网络可以包括至少一个业务数据清洗子网络,不同的业务数据清洗子网络的网络深度不同。例如,该第二业务数据清洗网络可以包括两个业务数据清洗子网络:深度残差网络net1和深度残差网络net2,其中,深度残差网络net2的网络深度大于深度残差网络net1的网络深度。又在上述S103中已经说明,该业务数据挖掘信息还可以包括该多个第二样本业务数据的业务数据数量。这样在第二样本业务数据的业务数据数量不同时,可以采用不同网络深度的业务数据清洗子网络进行训练,从而可以避免出现模型过拟合现象或训练后的模型的业务数据清洗能力较差的问题。
具体地,该第二业务数据识别模型中还可以存储有业务数据数量与业务数据清洗子网络的对应关系,相应地,该S105中还包括:第二业务数据识别模型基于该多个第二样本业务数据的业务数据数量,获取该业务数据数量对应的业务数据清洗子网络作为该第二业务数据清洗网络,该多个第二样本业务数据的业务数据数量即为上述S103中获取到的业务数据挖掘信息中的一种信息。
在一种可能实现方式中,在该第二业务数据清洗网络的获取步骤中,业务数据数量越大,获取的业务数据清洗子网络的网络深度越大。这样可以有效应对少量业务数据的情况,在样本数量很少时也可以充分训练模型,得到清洗效果较好的业务数据清洗模型。
进一步地,以该第二业务数据清洗网络包括两个业务数据子网络为例,该第二业务数据清洗网络的获取步骤可以为:当该多个第二样本业务数据的业务数据数量大于预设数量时,第二业务数据识别模型获取第一业务数据清洗子网络;当该多个第二样本业务数据的业务数据数量小于或等于预设数量时,第二业务数据识别模型获取第二业务数据清洗子网络。其中,该第一业务数据清洗子网络的网络深度大于第二业务数据清洗子网络的网络深度。预设数量可以根据之前的业务处理情况预先进行设置,本发明实施例对该目标数量的具体取值不作限定。
例如,第一业务数据清洗子网络可以为深度残差网络net2,第二业务数据清洗子网络可以为深度残差网络net1,以该目标数量为80为例,上述第二业务数据清洗网络的获取步骤可以为:当第二样本业务数据的业务数据数量小于80时,可以采用深度残差网络net1作为基础模型,当第二样本业务数据的业务数据数量大于80时,可以采用深度残差网络net2作为基础模型。
与S100中的内容同理,第二业务数据识别模型的模型参数可以基于多个第一样本业务数据训练得到。
进一步地,该第二业务数据清洗网络对该第二样本业务数据的清洗过程可以包括下述步骤一和二:
步骤一、第二业务数据清洗网络基于该第二业务数据清洗网络的网络训练记录,对该第二样本业务数据进行互动特征提取。
第二业务数据清洗网络可以基于上述获取到的第二业务数据清洗网络的网络训练记录,对第二样本业务数据进行互动特征提取,得到该第二样本业务数据的互动特征提取,例如,该互动特征提取可以为特征图或特征向量的形式。
步骤二、第二业务数据清洗网络基于提取的业务互动特征,对该第二样本业务数据的每个数据字段进行数据筛分,得到第二数据清洗结果。
第二业务数据清洗网络提取业务互动特征后,还可以进行上述基于概率分布的数据采样的过程,并在所有信息均组合后,对该第二样本业务数据的每个数据字段进行数据筛分,以确定第二数据清洗结果。
在一种可能实现方式中,该第二业务数据清洗网络用于对静态业务数据进行清洗,如果第二样本业务数据为动态业务数据,在该第二业务数据清洗网络对该第二样本业务数据的清洗过程之前,第二业务数据识别模型还需要对第二样本业务数据进行处理,将动态业务数据处理为静态业务数据,从而将静态业务数据输入该第二业务数据清洗网络中。
具体地,当根据该第一业务数据的多维特征信息确定该第一业务数据为动态业务数据,且确定需要由该第二业务数据清洗网络对该第一业务数据进行清洗时,第二业务数据识别模型对该第一业务数据进行处理,得到多个第一子业务数据,该第一子业务数据为静态业务数据。需要说明的是,该将动态业务数据处理为多个静态业务数据的过程可以采用任一种动态/静态转换的方式,例如,可以在某个业务场景下对动态业务数据进行基于概率分布的数据采样,得到多个静态业务数据,当然,也可以在各个业务场景下均对动态业务数据进行基于概率分布的数据采样,得到多个静态业务数据,本发明实施例对此不作限定。
相应地,该第二业务数据清洗网络对第一业务数据的清洗过程包括:第二业务数据清洗网络基于该第二业务数据清洗网络的网络训练记录,分别对该第一业务数据对应的多个第一子业务数据进行清洗,得到多个第二子数据清洗结果;第二业务数据清洗网络对该多个子数据清洗结果进行特征标记,得到第二数据清洗结果。
上述S102至S105为将该多个第二样本业务数据输入该第二业务数据识别模型中,由该第二业务数据识别模型获取该多个第二样本业务数据的业务数据挖掘信息,根据该业务数据挖掘信息、该第二业务数据识别模型中的第一业务数据清洗网络和第二业务数据清洗网络,对每个第二样本业务数据进行清洗的过程,该第二业务数据识别模型既包括用于对动态业务数据进行清洗的网络,也包括用于对静态业务数据进行清洗的网络,从而提高了该第二业务数据识别模型的业务适配性和泛化能力,基于该第二业务数据识别模型训练得到的业务数据清洗模型的业务适配性和泛化能力也更高,且提供了多种可变的、灵活的的清洗方式,提高了业务数据清洗的准确性和业务适配性。
S106:云服务器中的第二业务数据识别模型基于该多个第二样本业务数据的数据标签、该第一数据清洗结果和该第二数据清洗结果,分别获取第一数据清洗偏差信息和第二数据清洗偏差信息。
在得到第一数据清洗结果和第二数据清洗结果后,第二业务数据识别模型可以基于第二样本业务数据的数据标签来分别确定该第一数据清洗结果和第二数据清洗结果是否准确,具体地,数据清洗结果是否准确可以通过数据清洗偏差信息来衡量。其中,该第一数据清洗偏差信息为该第一业务数据清洗网络对应的第一数据清洗结果的数据清洗偏差信息,该第二数据清洗偏差信息为该第二业务数据清洗网络对应的第二数据清洗结果的数据清洗偏差信息。
在一种可能实现方式中,该第一数据清洗结果的数据清洗偏差信息的获取过程采用第一交叉熵损失实现,该第一数据清洗偏差信息的获取过程采用第一交叉熵损失实现,该第一交叉熵损失中数据字段的每个类型的损失权重基于该多个第二样本业务数据的业务数据挖掘信息中的该类型的数据字段在该多个第二样本业务数据中所占的百分比确定。在一种可能实现方式中,该第二数据清洗结果的数据清洗偏差信息的获取过程采用第二交叉熵损失实现,该第二交叉熵损失的损失权重基于相关机器学习算法确定,这样可以有效对第二样本业务数据中的异常样本进行分别,并降低这部分样本对模型的参数的干扰,从而可以应对样本数据标签不均衡带来的负面影响。
例如,该第二交叉熵损失可以为交叉熵函数,上述第一交叉熵损失也可以为交叉熵函数,也可以为其他交叉熵损失。在一种可能实现方式中,第一交叉熵损失和第二交叉熵损失可以相同,也可以不同,本发明实施例对第一交叉熵损失和第二交叉熵损失具体采用哪个交叉熵损失,以及第一交叉熵损失和第二交叉熵损失是否相同不作限定。
S107:云服务器中的第二业务数据识别模型分别基于该第一数据清洗偏差信息和该第二数据清洗偏差信息,对该第一业务数据清洗网络和第二业务数据清洗网络的网络训练记录进行调整,直至达到第一设定迭代训练终止次数时终止,得到第一业务数据清洗网络和第二业务数据清洗网络。
第二业务数据识别模型在获知第一数据清洗结果和第二数据清洗结果是否准确后,可以对两个业务数据清洗网络的网络训练记录进行调整,以使得多次调整后的网络训练记录,可以使得第一业务数据清洗网络和第二业务数据清洗网络对第二样本业务数据的数据清洗结果更符合实际业务需求。
在一种可能实现方式中,该第一设定迭代训练终止次数基于回归分析测试的方式确定。具体地,该第一设定迭代训练终止次数可以基于k-折交叉验证的方式确定,例如,可以基于5折交叉验证的方式确定。以5折交叉验证为例,可以将第二样本业务数据分为5部分,将其中4部分作为训练集(train1、train2、train3、train4),将另外一部分作为验证集(text1),再以另外的组合方式进行多次训练和验证,当然,也可以确定不同组合方式后,同时以不同的组合方式对第二业务数据识别模型进行训练和验证,这样通过对样本数据的多种组合(例如5种)进行训练和验证,使得该第二业务数据识别模型遍历了所有的样本数据,训练后的模型的泛化能力更好,数据清洗结果更符合实际业务需求。其中,该回归分析测试过程主要为每进行一定次数的迭代训练过程时,通过验证数据对训练的模型进行验证,如果数据清洗偏差信息匹配目标条件,则可以终止,如果不匹配,则可以继续进行上述迭代训练过程,本发明实施例在此不作过多赘述。
上述S103至S107是基于该多个第二样本业务数据对该第二业务数据识别模型中的该第一业务数据清洗网络和该第二业务数据清洗网络进行训练,达到第一设定迭代训练终止次数时终止,得到第一业务数据清洗网络和第二业务数据清洗网络的网络训练记录的过程,在该过程中,该第一业务数据清洗网络的网络训练记录基于每次迭代训练过程中的第一数据清洗偏差信息进行调整得到,该第二业务数据清洗网络的网络训练记录基于每次迭代训练过程中的第二数据清洗偏差信息进行调整得到。第二业务数据识别模型每执行一遍该S103至S107即为一次迭代训练过程,第二业务数据识别模型可以多次执行上述过程,通过多次迭代,对两个业务数据清洗网络的网络训练记录进行调整,也即是,为分别训练第一业务数据清洗网络和第二业务数据清洗网络的过程。
在一种可能实现方式中,上述过程中,云服务器在对两个业务数据清洗网络的网络训练记录进行调整时,还可以对聚类特征标记网络的网络训练记录进行调整,从而在这个训练过程中训练得到聚类特征标记网络的网络训练记录。
在具体的示例中,上述第一业务数据清洗网络和第二业务数据清洗网络均可以为BP神经网络,上述每次迭代训练过程中,模型均可以计算预测的结果的误差,并反向传播至BP神经网络中,从而可以通过梯度算法求解BP神经网络的卷积参数指标和偏置参数指标。
S108:云服务器中的第二业务数据识别模型基于训练得到的第一业务数据清洗网络、第二业务数据清洗网络对该多个第二样本业务数据进行清洗,得到每个第二样本业务数据的第一数据清洗结果和第二数据清洗结果。
由于该第一业务数据清洗网络和第二业务数据清洗网络分别适用于对动态业务数据和静态业务数据进行清洗,则可能对于一个第二样本业务数据,第一业务数据清洗网络对该第二样本业务数据的数据清洗结果较为准确,而第二业务数据清洗网络对该第二样本业务数据的数据清洗结果很不准确,这样如果第二业务数据识别模型直接采用两个网络的综合结果,可能得到的最终的数据清洗结果受到第二业务数据清洗网络的数据清洗结果的影响,导致最终数据清洗结果的准确性降低。
在第一业务数据清洗网络和第二业务数据清洗网络训练完成后,第二业务数据识别模型还可以基于训练完成的两个网络,训练两个网络的混合选择方式,也即是训练对于一个第二样本业务数据,选择哪个网络或两个网络来对该第二样本业务数据进行清洗更佳。
第二业务数据识别模型可以使用训练完成的两个网络分别对第二样本业务数据进行清洗,得到第一数据清洗结果和第二数据清洗结果,并对该两个数据清洗结果以及两个数据清洗结果的综合数据清洗结果进行评估,判断哪种网络选择方式得到的数据清洗结果更符合实际业务需求。
S109:云服务器中的第二业务数据识别模型基于该第一数据清洗结果和该第二数据清洗结果,得到第五数据清洗结果。
其中,该第五数据清洗结果为该第一数据清洗结果和第二数据清洗结果的综合数据清洗结果。在一种可能实现方式中,第二业务数据识别模型获取第五数据清洗结果的过程可以为:第二业务数据识别模型将第一数据清洗结果和第二数据清洗结果的平均清洗结果作为第五数据清洗结果,也即是对于每个数据字段为每个类型的预测结果,可以将第一数据清洗结果中的预测结果和第二数据清洗结果中的预测结果的平均清洗结果作为第五数据清洗结果中的预测结果。
在另一种可能实现方式中,该第一数据清洗结果和第二数据清洗结果还可以对应有损失权重,第二业务数据识别模型获取第五数据清洗结果的过程可以为:第二业务数据识别模型对第一数据清洗结果和第二数据清洗结果进行加权,得到第五数据清洗结果。
当然,上述仅提供了两种示例,该第五数据清洗结果的获取过程还可以通过其他方式实现,本发明实施例对此不作限定。
S110:云服务器中的第二业务数据识别模型基于第二样本业务数据的数据标签、每个第二样本业务数据的第一数据清洗结果、第二数据清洗结果和该第五数据清洗结果,获取第一数据清洗偏差信息、第二数据清洗偏差信息和第三数据清洗偏差信息。
其中,该第三数据清洗偏差信息为该第五数据清洗结果的数据清洗偏差信息。第二业务数据识别模型在得到第一数据清洗结果、第二数据清洗结果和第五数据清洗结果后,则可以基于第二样本业务数据的数据标签,分别确定各个数据清洗结果的数据清洗偏差信息,以判断各个数据清洗结果是否准确。该各个数据清洗结果的数据清洗偏差信息也可以通过上述第一交叉熵损失或第二交叉熵损失获取得到,本发明实施例在此不作过多赘述。
S111:云服务器中的第二业务数据识别模型基于该第一数据清洗偏差信息、该第二数据清洗结果的数据清洗偏差信息和该第三数据清洗偏差信息,对该第二业务数据识别模型中的网络训练参数进行调整,直至达到第二设定迭代训练终止次数时终止,得到业务数据清洗模型。
其中,该网络训练参数用于指示选择该第一业务数据清洗网络和该第二业务数据清洗网络中至少一个清洗网络对第一业务数据进行清洗。这样第二业务数据识别模型基于各个数据清洗结果的数据清洗偏差信息,对网络训练参数进行调整,在多次调整后,得到的业务数据清洗模型即可自行指示如何对网络进行选择可以使得对第二样本业务数据的数据清洗结果更符合实际业务需求。
上述S108至S111是基于该多个第二样本业务数据和训练得到的该第一业务数据清洗网络和该第二业务数据清洗网络,对该第二业务数据识别模型中的网络训练参数进行训练,直到达到第二设定迭代训练终止次数时终止,得到业务数据清洗模型,该网络训练参数用于指示选择该第一业务数据清洗网络和该第二业务数据清洗网络中至少一个清洗网络对第一业务数据进行清洗的过程,该过程为对网络训练参数进行训练的过程,该网络训练参数基于训练后的第一业务数据清洗网络、第二业务数据清洗网络和该多个第二样本业务数据训练得到。
在一种可能实现方式中,该第二设定迭代训练终止次数也可以基于回归分析测试的方式确定。具体地,该第二设定迭代训练终止次数也可以基于k-折交叉验证的方式确定,例如,可以基于5折交叉验证的方式确定,本发明实施例在此不作过多赘述。
综上,该第二业务数据识别模型的模型参数包括该第一业务数据清洗网络的网络训练记录、该第二业务数据清洗网络的网络训练记录、该第二业务数据识别模型中的聚类特征标记网络的网络训练记录和网络训练参数。则上述S102至S111也即是基于多个第二样本业务数据,对该第二业务数据识别模型进行训练,得到业务数据清洗模型的过程。
在一种可能实现方式中,上述第二业务数据识别模型对第二样本业务数据清洗后还可以进一步对数据清洗结果进行数据挖掘分析处理,从而得到最终的清洗业务数据。也即是,第二业务数据识别模型可以基于第一数据清洗结果和第二数据清洗结果中至少一个数据清洗结果得到第三业务数据,从而基于第三业务数据,确定最终输出的第二业务数据,该第二业务数据即为第二样本业务数据对应的清洗后的业务数据。具体地,该第三业务数据可以为第一数据清洗结果对应的业务数据,也可以为第二数据清洗结果对应的业务数据,还可以是对第一数据清洗结果和第二数据清洗结果进行取平均或加权后得到的业务数据。该数据挖掘分析处理过程可以基于上述S103中获取到的业务数据挖掘信息中的目标业务交互状态的用户业务需求信息进行。
也即是,第二业务数据识别模型可以基于该第三业务数据中的多个目标业务交互状态和该业务数据挖掘信息所指示的该多个目标业务交互状态的用户业务需求信息,对该第三业务数据进行数据挖掘分析处理,得到第二业务数据,该目标业务交互状态为该第三业务数据中目标类型的数据字段所对应的业务交互状态,该第二业务数据中多个目标业务交互状态的用户业务需求类型、目标业务交互状态的数量和目标业务交互状态的局部离散度与该多个目标业务交互状态的用户业务需求信息对应。这样根据先验信息,在该数据挖掘分析处理过程中可以对清洗过程中数据筛分错误的数据字段进行进一步修正,使得数据清洗结果更符合实际业务需求。
具体地,该数据挖掘分析处理过程可以包括下述任一个或多个步骤:当该第三业务数据中目标业务交互状态的数量或局部离散度与该业务数据挖掘信息所指示的该多个目标业务交互状态的数量或局部离散度不同时,第二业务数据识别模型将该第三业务数据中不匹配该多个目标业务交互状态的数量或局部离散度不同的部分业务数据过滤;或,当任一目标业务交互状态的关系型数据集内存在热度数据字段时,第二业务数据识别模型将该热度数据字段调整为该目标业务交互状态对应的目标类型的数据字段。
例如,如果根据目标业务交互状态的用户业务需求信息确定第一目标业务交互状态和第二目标业务交互状态的用户业务需求类型为单向数据挖掘型,也即是第二目标业务交互状态应包含于第一目标业务交互状态中,如果第三业务数据对应有在第一目标业务交互状态外的第二目标业务交互状态,则可以删除该在第一目标业务交互状态外的第二目标业务交互状态。如果根据目标业务交互状态的用户业务需求信息确定第一目标业务交互状态和第二目标业务交互状态的用户业务需求类型为双向用户画像分析型,也即是第二目标业务交互状态应不同于第一目标业务交互状态,如果第三业务数据对应有在第一目标业务交互状态的关系型数据集内的第二目标业务交互状态对应的业务数据,则可以将该在第一目标业务交互状态的关系型数据集内的第二目标业务交互状态对应的业务数据的业务交互状态修改为第一目标业务交互状态。当然,在目标业务交互状态内的数据字段应该为业务环境数据字段,如果第三业务数据对应的目标业务交互状态内存在热度数据字段,则可以对该热度数据字段进行校正,以修正数据清洗结果。当然,也可以包括其他步骤,本发明实施例在此不一一列举。
至此,业务数据清洗模型训练完成,训练过程中业务数据清洗模型获取得到该多个第二样本业务数据的业务数据挖掘信息,该S111后,当获取到待清洗的第一业务数据时,该云服务器可以调用该业务数据清洗模型,由该业务数据清洗模型根据该业务数据挖掘信息,对该第一业务数据进行清洗,输出第二业务数据,具体地,该业务数据清洗模型具体如何对第一业务数据进行清洗,可以参见下述实施例,且清洗过程与该业务数据清洗模型训练过程中的一些步骤同理,本发明实施例在此不作过多赘述。
例如,该业务数据清洗模型中包括动态网络(Net)和静态网络(Net),也即是第一业务数据清洗网络和第二业务数据清洗网络,其中,动态网络可以采用2个阶段的数据清洗策略,经过大范围预测后再进行小范围预测,也即是进行大范围清洗后再进行小范围清洗。对于输入的样本数据,可以将样本数据输入动态网络和动态网络,经过两个网络后分别得到预测结果内容后,可以采用不同的混合选择方式对预测结果内容进行特征标记,也即是,可以训练网络训练参数,确定选择单一网络还是选择两个网络。当然,在两个网络进行清洗之前,业务数据清洗模型可以先对样本数据进行数据特征标记处理,在两个网络进行清洗后,业务数据清洗模型还可以对结果进行数据挖掘分析处理,从而得到最终输出的清洗业务数据。
本发明实施例提供的业务数据清洗模型的泛化能力强,在应用于各类业务数据清洗时对各类业务数据具有场景针对性,也即是对数据交互场景下的业务数据具有场景针对性,且模型可自动训练,只需要提供数据即可自动训练,不需要人工参与参数调整,减少了模型训练所需要的成本。且本发明实施例提供的业务数据清洗模型已经在多种不同的业务场景中得到了验证,均具有较好的数据清洗效果。且该业务数据清洗模型可以自动化扩展到其他应用场景中,具有很强的业务数据清洗普适性。
本发明实施例通过以多种数据交互场景下的业务数据对业务数据识别模型进行训练,使得业务数据识别模型具备了关于数据交互场景的先验信息,在需要对某种数据交互场景下的业务数据进行清洗时,直接基于这种数据交互场景下的业务数据对训练后的模型进行训练即可,而无需手动对这种数据交互场景下的业务数据进行分析,再基于业务数据分析结果进行模型的重新调整,有效提高了业务数据清洗模型的泛化能力、业务适配性和可靠性。进一步地,该业务数据清洗模型中包括第一业务数据清洗网络和第二业务数据清洗网络,对于动态业务数据和静态业务数据均可以进行精准可靠的业务数据清洗,进一步地提高了业务数据清洗模型的泛化能力、业务适配性和可靠性,也提高了业务数据清洗模型的清洗准确性。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
在上述内容的基础上,本发明实施例还提供了一种应用于大数据挖掘和业务分析的数据清洗方法,该应用于大数据挖掘和业务分析的数据清洗方法应用于云服务器中,该云服务器可以为上述实施环境中的云服务器。在本发明实施例中,主要对当获取到待清洗的第一业务数据时,调用该业务数据清洗模型,由该业务数据清洗模型根据该业务数据挖掘信息,对该第一业务数据进行清洗,输出第二业务数据的过程进行了详细说明,在本发明实施例中仅以该业务数据清洗模型包括第一业务数据清洗网络和第二业务数据清洗网络为例进行说明。该应用于大数据挖掘和业务分析的数据清洗方法可以包括以下步骤。
S301、云服务器获取待清洗的第一业务数据。
云服务器在检测到业务数据清洗操作时执行该步骤S301,也可以接收业务用户导入的待清洗的第一业务数据,还可以接收其他云服务器发送的业务数据清洗请求,该业务数据清洗请求中携带有待清洗的第一业务数据,从该业务数据清洗请求中提取待清洗的第一业务数据,或该业务数据清洗请求中可以携带有该第一业务数据的相关信息,云服务器可以基于该相关信息,执行该步骤S301,当然,该云服务器也可以通过其他方式获取得到待清洗的第一业务数据。本发明实施例对该待清洗的第一业务数据的具体获取方式不作限定。
例如,其他云服务器可以通过爬虫程序获取得到待清洗的第一业务数据,并向该云服务器发送该待清洗的第一业务数据,该云服务器获取到该待清洗的第一业务数据,该第一业务数据可以为上述目标数据交互场景下的业务数据,这样可以执行下述步骤,利用通过该目标数据交互场景的样本业务数据进行训练得到的业务数据清洗模型,对该第一业务数据进行清洗。
S302、云服务器调用业务数据清洗模型。
其中,该业务数据清洗模型包括第一业务数据清洗网络和第二业务数据清洗网络。该第一业务数据清洗网络和第二业务数据清洗网络分别对应于一种业务数据清洗策略,该第一业务数据清洗网络用于对动态业务数据进行清洗,该第二业务数据清洗网络用于对静态业务数据进行清洗。
该云服务器中可以预先存储有业务数据清洗模型,在一种可能实现方式中,该云服务器即为图2所示的云服务器,也即是该云服务器上存储的业务数据清洗模型即为在该云服务器上训练得到的。在另一种可能实现方式中,该云服务器不是图2所示的云服务器,也即是可以在其他云服务器上训练得到业务数据清洗模型,该云服务器可以从其他云服务器上获取该训练好的业务数据清洗模型。当然,该云服务器上也可以没有存储有业务数据清洗模型,在该云服务器获取到待清洗的第一业务数据,需要对第一业务数据进行清洗时,可以实时从其他云服务器处调用业务数据清洗模型,本发明实施例对此不作限定。
S303、云服务器将该第一业务数据输入该业务数据清洗模型中,由该业务数据清洗模型获取该第一业务数据的多维特征信息。
与上述S103中的内容同理,业务数据清洗模型可以获取第一业务数据的多维特征信息,不同的是,该业务数据清洗模型为训练完成的模型,而不是第二业务数据识别模型,且该业务数据清洗模型使用时,可以获取第一业务数据的多维特征信息,而无需获取业务数据数量、目标业务交互状态的用户业务需求信息等。同理地,该多维特征信息可以包括字段关系离散度、聚类数量和字段语义离散度等,本发明实施例对此不作限定。
S304、云服务器中的业务数据清洗模型根据该第一业务数据的多维特征信息,对该第一业务数据进行数据特征标记处理。
与S104中的内容同理,该业务数据清洗模型对第一业务数据的数据特征标记处理过程也可以包括以下任一个或多个步骤:
步骤一、当根据该多维特征信息确定该第一业务数据中存在异常数据字段时,业务数据清洗模型将该异常数据字段剔除.
步骤二、当根据该多维特征信息确定剔除异常数据字段后的第一业务数据的字段关系离散度大于目标离散度时,业务数据清洗模型对该第一业务数据进行缺失值填补处理,将该第一业务数据的字段关系离散度调整为不大于目标离散度。
步骤三、当根据该多维特征信息确定该第一业务数据的数据类型数量为多个时,业务数据清洗模型根据目标全局类型识别度调整该第一业务数据的每个数据类型识别度,例如将该第一业务数据的每个数据类型识别度均减去目标全局类型识别度。
步骤四、当根据该多维特征信息确定该第一业务数据的聚类数量为多个时,业务数据清洗模型将该第一业务数据输入聚类特征标记网络,由该聚类特征标记网络从该第一业务数据的多个数据类型识别度进行标记,得到数据特征标记处理后的第一业务数据的目标数量的数据类型识别度,该数据特征标记处理后的第一业务数据的聚类数量为设定数值。
该S304中的步骤一至步骤四均与上述S104中的步骤一至步骤四同理,本发明实施例在此不作过多赘述。
S305、云服务器中的业务数据清洗模型将数据特征标记处理后的第一业务数据输入该第一业务数据清洗网络和第二业务数据清洗网络中至少一个网络中,由该第一业务数据清洗网络和第二业务数据清洗网络中至少一个网络对该第一业务数据进行清洗,得到第三业务数据。
由于适用于对该第一业务数据进行清洗的网络可能只有第一业务数据清洗网络,也可能只有第二业务数据清洗网络,也可以是两个网络,则业务数据清洗模型可以基于网络训练参数选择第一业务数据清洗网络和第二业务数据清洗网络中至少一个网络对该第一业务数据进行清洗。具体地,该S305可能包括以下三种可能情况:
第1种情况:业务数据清洗模型基于该业务数据清洗模型的网络训练参数,由该第一业务数据清洗网络对该第一业务数据进行清洗,得到第一数据清洗结果,基于该第一数据清洗结果,得到第三业务数据,该第一数据清洗结果用于指示该第一业务数据的每个数据字段为至少两个类型中每个类型的预测结果。
第2种情况:业务数据清洗模型基于该业务数据清洗模型的网络训练参数,由该第二业务数据清洗网络对该第二业务数据进行清洗,得到第二数据清洗结果,基于该第二数据清洗结果,得到第三业务数据,该第二数据清洗结果用于指示该第一业务数据的每个数据字段为至少两个类型中每个类型的预测结果。
第3种情况:业务数据清洗模型基于该业务数据清洗模型的网络训练参数,分别由该第一业务数据清洗网络和第二业务数据清洗网络对该第一业务数据进行清洗,得到第一数据清洗结果和第二数据清洗结果,基于该第一数据清洗结果和第二数据清洗结果,得到第三业务数据。
当然,基于第一数据清洗结果和第二数据清洗结果,得到第三业务数据的过程也与上述S111中的内容同理,上述三种情况分别对应于该第三业务数据的三种获取过程,分别为:该第三业务数据为第一数据清洗结果对应的业务数据、该第三业务数据为第二数据清洗结果对应的业务数据,该第三业务数据为对第一数据清洗结果和第二数据清洗结果进行取平均处理或加权处理后得到的业务数据,本发明实施例在此不作过多赘述。
与上述S105中的内容同理,该第一业务数据清洗网络对该第一业务数据的清洗过程可以为:第一业务数据清洗网络基于该第一业务数据清洗网络的网络训练记录,对该第一业务数据进行二次数据筛分,得到第一数据清洗结果,该二次数据筛分中第一次数据筛分的数据筛分对象为该第一业务数据的所有数据字段,第二次数据筛分的数据筛分对象为该第一次数据筛分结果中的业务环境数据字段。具体可以包括下述步骤1至步骤3。
步骤1:第一业务数据清洗网络基于该第一业务数据清洗网络的网络训练记录,对该第一业务数据的每个数据字段进行数据筛分,得到第三数据清洗结果,该第三数据清洗结果用于指示该第一业务数据的每个数据字段为至少两个类型中每个类型的预测结果,该至少两个类型包括业务环境类型和热度类型,该业务环境类型为热度类型之外的任一类型。
步骤2:第一业务数据清洗网络基于该第三数据清洗结果和该第一业务数据清洗网络的网络训练记录,对该第三数据清洗结果中的每个业务环境数据字段进行数据筛分,得到第四数据清洗结果,该第四数据清洗结果用于指示该第三数据清洗结果中的每个业务环境数据字段为该至少两个类型中每个类型的预测结果。
步骤3:第一业务数据清洗网络基于该第三数据清洗结果和该第四数据清洗结果,得到第一数据清洗结果。
与上述S105中的内容同理,该第二业务数据清洗网络对该第一业务数据的清洗过程可以包括下述步骤1)和2)。
步骤1):第二业务数据清洗网络基于该第二业务数据清洗网络的网络训练记录,对该第一业务数据进行互动特征提取。
步骤2):第二业务数据清洗网络基于提取的业务互动特征,对该第一业务数据的每个数据字段进行数据筛分,得到第二数据清洗结果。
同理地,当根据该第一业务数据的多维特征信息确定该第一业务数据为动态业务数据,且确定需要由该第二业务数据清洗网络对该第一业务数据进行清洗时,业务数据清洗模型可以对该第一业务数据进行处理,得到多个第一子业务数据,该第一子业务数据为静态业务数据。相应地,该第二业务数据清洗网络对第一业务数据的清洗过程包括:第二业务数据清洗网络基于该第二业务数据清洗网络的网络训练记录,分别对该第一业务数据对应的多个第一子业务数据进行清洗,得到多个第二子数据清洗结果;第二业务数据清洗网络对该多个子数据清洗结果进行特征标记,得到第二数据清洗结果。
S306、云服务器中的业务数据清洗模型根据该业务数据清洗模型中的多个第二样本业务数据的业务数据挖掘信息,对该第三业务数据进行数据挖掘分析处理,输出第二业务数据。
与S111中的数据挖掘分析处理过程同理,业务数据清洗模型也可以对第三业务数据进行数据挖掘分析处理,同理地,该数据挖掘分析处理过程也可以为:业务数据清洗模型基于该第三业务数据中的多个目标业务交互状态和该业务数据挖掘信息所指示的该多个目标业务交互状态的用户业务需求信息,对该第三业务数据进行数据挖掘分析处理,得到第二业务数据,该目标业务交互状态为该第三业务数据中目标类型的数据字段所对应的业务交互状态,该第二业务数据中多个目标业务交互状态的用户业务需求类型、目标业务交互状态的数量和目标业务交互状态的局部离散度与该多个目标业务交互状态的用户业务需求信息对应。
与S111中的数据挖掘分析处理过程同理,该步骤S306中,业务数据清洗模型也可以执行下述任一个或多个步骤:当该第三业务数据中目标业务交互状态的数量或局部离散度与该业务数据挖掘信息所指示的该多个目标业务交互状态的数量或局部离散度不同时,业务数据清洗模型将该第三业务数据中不匹配该多个目标业务交互状态的数量或局部离散度不同的部分业务数据过滤;或,当任一目标业务交互状态的关系型数据集内存在热度数据字段时,将该热度数据字段调整为该目标业务交互状态对应的目标类型的数据字段。
上述步骤S303至步骤S306是基于该业务数据清洗模型中的第一业务数据清洗网络和第二业务数据清洗网络中至少一个网络,以及该业务数据挖掘信息,对该第一业务数据进行清洗,输出第二业务数据的过程,在得到第二业务数据之后,云服务器可以存储该第二业务数据,当然,也可以将第一业务数据和第二业务数据对应存储,如果该云服务器为基于其他云服务器的业务数据清洗请求进行的上述业务数据清洗过程,也可以将该第二业务数据发送至该其他云服务器。
需要说明的是,在本发明实施例中仅以该业务数据清洗模型包括第一业务数据清洗网络和第二业务数据清洗网络为例进行说明,该业务数据清洗模型还可以仅包括一个业务数据清洗网络或包括更多个业务数据清洗网络,业务数据清洗流程均与上述过程同理,在此不作过多赘述。
本发明实施例通过以多种数据交互场景下的业务数据对业务数据识别模型进行训练,使得业务数据识别模型具备了关于数据交互场景的先验信息,在需要对某种数据交互场景下的业务数据进行清洗时,直接基于这种数据交互场景下的业务数据对训练后的模型进行训练即可,而无需手动对这种数据交互场景下的业务数据进行分析,再基于业务数据分析结果进行模型的重新调整,且上述方法得到的业务数据清洗模型则可以对这种数据交互场景下的业务数据进行精准可靠的业务数据清洗,有效提高了应用于大数据挖掘和业务分析的数据清洗方法的泛化能力、业务适配性和可靠性,也有效提高了应用于大数据挖掘和业务分析的数据清洗方法的准确性。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
本发明实施例提供的上述技术内容,通过以多种数据交互场景下的业务数据对业务数据识别模型进行训练,使得业务数据识别模型具备了关于数据交互场景的先验信息,在需要对某种数据交互场景下的业务数据进行清洗时,直接基于这种数据交互场景下的业务数据对训练后的模型进行训练即可,而无需手动对这种数据交互场景下的业务数据进行分析,再基于业务数据分析结果进行模型的重新调整,且上述方法得到的业务数据清洗模型则可以对这种数据交互场景下的业务数据进行精准可靠的业务数据清洗,有效提高了应用于大数据挖掘和业务分析的数据清洗方法的泛化能力、业务适配性和可靠性。
选择性地,在上述内容的基础上,云服务器还可以将数据清洗结果传输给业务服务端,并根据业务服务端反馈的业务数据使用反馈调整业务数据清洗模型的模型参数。如此设计,能够结合业务服务端对清洗之后的数据的使用情况进行业务数据清洗模型的进一步修正和优化,从而确保后续的清洗结果尽可能与业务服务端的大数据挖掘需求和业务分析需求匹配。
选择性地,本发明实施例所提供的应用于大数据挖掘和业务分析的数据清洗方法还可以总结为以下内容:调用预先训练完成的业务数据清洗模型,并并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对获取到的待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述业务数据清洗模型基于多个第一样本业务数据以及多个第二样本业务数据训练得到。
可以理解,调用预先训练完成的业务数据清洗模型,并并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对获取到的待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述业务数据清洗模型基于多个第一样本业务数据以及多个第二样本业务数据训练得到,进一步可以展开为:基于多个第一样本业务数据以及多个第二样本业务数据进行模型训练,得到业务数据清洗模型;在获取到待清洗业务数据时,通过调用所述业务数据清洗模型,并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对所述待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述待清洗业务数据对应一个数据交互场景。
应当理解,上述对本申请实施例的技术方案进行总结的内容的进一步实施方式可以参阅上述方法的实施例,在此不作赘述。
针对上述方法,本发明实施例还提出了一种示例性的应用于大数据挖掘和业务分析的数据清洗装置,如图3所示,应用于大数据挖掘和业务分析的数据清洗装置400可以包括以下的功能模块。
模型训练模块410,用于基于多个第一样本业务数据以及多个第二样本业务数据进行模型训练,得到业务数据清洗模型。
数据清洗模块420,用于在获取到待清洗业务数据时,通过调用所述业务数据清洗模型,并根据所述业务数据清洗模型训练过程中得到的业务数据挖掘信息,对所述待清洗业务数据进行数据清洗,得到数据清洗结果;其中,所述待清洗业务数据对应一个数据交互场景。
可以理解,上述的模型训练模块410和数据清洗模块420的进一步实施方式可以参阅上述方法实施例,在此不作赘述。
在上述内容的基础上,请结合参阅图4,云服务器21可以包括处理引擎211、网络模块212和存储器213,处理引擎211和存储器213通过网络模块212通信。处理引擎211可以处理相关的信息和/或数据以执行本申请中描述的一个或多个功能。网络模块212可以促进信息和/或数据的交换。其中,存储器213用于存储程序,所述处理引擎211在接收到执行指令后,执行所述程序。可以理解,图4所示的结构仅为示意,云服务器21还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。