CN109753498A

CN109753498A - 基于机器学习的数据清洗方法及终端设备

Info

Publication number: CN109753498A
Application number: CN201811509635.9A
Authority: CN
Inventors: 吴又奎; 甄增荣; 董杨子
Original assignee: Zhongke Hengyun Co Ltd
Current assignee: Zhongke Hengyun Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-05-14

Abstract

本发明提供了一种基于机器学习的数据清洗方法及终端设备，包括：通过数据抽取，获得数据库实例；在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据；通过所述训练集对隐马尔可夫模型进行训练，得到识别器；通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。本发明通过机器学习的方法对数据库实例中的脏数据进行清洗，提高了脏数据的清洗效率和清洗精度。

Description

基于机器学习的数据清洗方法及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种基于机器学习的数据清洗方法及终端设备。

背景技术

在信息时代，数据即是资源。数据可靠无误才能准确的反映现实状况，有效的支持组织决策。数据仓库中的数据是从多个业务系统中抽取而来，且包含历史数据和预测数据等多种类型的数据，导致数据仓库中存在错误数据或相互冲突的数据，可称为脏数据。

数据清洗即是指按照一定的清洗规则识别出数据仓库中的脏数据的过程。然而，现有技术中的数据清洗方法只能清洗出数据中较为明显的脏数据，清洗效果较差。

发明内容

有鉴于此，本发明实施例提供了一种基于机器学习的数据清洗方法及终端设备，以解决现有技术中的数据清洗效果差的问题。

本发明实施例的第一方面提供了一种基于机器学习的数据清洗方法，包括：

通过数据抽取，获得数据库实例；

在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据；

通过所述训练集对隐马尔可夫模型进行训练，得到识别器；

通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。

本发明实施例的第二方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

通过数据抽取，获得数据库实例；

通过所述训练集对隐马尔可夫模型进行训练，得到识别器；

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

通过数据抽取，获得数据库实例；

通过所述训练集对隐马尔可夫模型进行训练，得到识别器；

本发明提供了一种基于机器学习的数据清洗方法及终端设备，本发明提供了一种基于机器学习的数据清洗方法及终端设备，包括：通过数据抽取，获得数据库实例；在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据；通过所述训练集对隐马尔可夫模型进行训练，得到识别器；通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。本发明通过机器学习的方法对数据库实例中的脏数据进行清洗，提高了脏数据的清洗效率和清洗精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于机器学习的数据清洗方法的流程示意图；

图2为本发明实施例提供的一种基于机器学习的数据清洗装置的结构框图；

图3为本发明实施例提供的一种基于机器学习的数据清洗终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

本发明实施例提供了一种基于机器学习的数据清洗方法。结合图1，该方法包括：

S101，通过数据抽取，获得数据库实例。

具体的，数据抽取是指从数据源中抽取数据的过程，包括全量抽取和增量抽取。本步骤通过现有的数据抽取技术即可实现，本发明实施例对此不再赘述。

S102，在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据。

具体的，数据清洗旨在识别和纠正数据中的噪声，即脏数据，将噪声对数据分析结果的影响降至最低。数据中的噪声主要包括不完整的数据、冗余的数据、冲突的数据和错误的数据，本发明所提供的基于规则算法的数据清洗方法主要用于清洗冗余的数据和错误的数据。

若该步骤中的脏数据为冗余数据，该步骤包括：

通过聚类算法对所述预设数量的数据进行分组，其中每组数据至少包含两条数据；对于一组数据中的任意一对数据，根据所述一对数据中的预设属性中每个对应属性的相似度获取所述一对数据所对应的特征向量，以及所述特征向量所对应的冗余数据的标签或非冗余数据的标签，得到所述训练集。

例如，针对一对数据，这一对数据包含数据1和数据2，根据数据结构预设要获取的数据的属性，例如属性1至属性n。则在本步骤中，依次获取数据1与数据2的属性1的相似度、属性2的相似度……属性n的相似度，构成数据1和数据2这一对数据所对应的特征向量，标注该特征向量所对应的标签，如该对数据的特征向量所对应的标签为冗余数据，或该对数据对应的标签为非冗余数据，从而得到训练集，训练集中包含每一对数据所对应的特征向量及该特征向量所对应的标枪。

若该步骤中的脏数据为错误数据，则在获取训练集的过程中，针对训练集中的任一条数据，该数据所对应的标签为正确数据，或该数据所对应的标签为错误数据。

S103，通过所述训练集对隐马尔可夫模型进行训练，得到识别器。

具体的，若该步骤中的脏数据为冗余数据，该步骤包括：

以训练集中的每一对数据所对应的特征向量作为输入，以该特征向量所对应的标签作为输出，对隐马尔可夫模型进行训练。

若该步骤中的脏数据为错误数据，则该步骤包括：

针对所述训练集中的任一条数据，通过隐马尔可夫模型获取所述数据的多个预设属性所对应的属性值，以所述多个预设属性所对应的属性值为输入，以所述数据所对应的标签为输出，对所述隐马尔可夫模型进行训练。

S104，通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。

具体的，若该步骤中的脏数据为冗余数据，该步骤的实现包括：

通过聚类算法对所述数据库实例中的数据进行分组，其中每组数据至少包含两条数据；对于一组数据中的任意一对数据，获取所述一对数据中的所述预设属性中每个对应属性的相似度获取所述一对数据所对应的特征向量；以所述一对数据所对应的特征向量作为所述识别器的输入，得到所述一对数据是否为冗余数据的判断结果。

若该步骤中的脏数据为错误数据，该步骤包括：

针对所述数据库实例中的任一条数据，通过所述隐马尔可夫模型获取所述数据的所述多个预设属性所对应的属性值，通过所述识别器识别所述数据是否为错误数据。

进一步的，为验证所述识别器对脏数据识别的准确率，本发明还提供如下方法：

获取干净的数据库实例，所述干净的数据库实例中不包含脏数据；在所述干净的数据库实例中注入预设数量的脏数据，得到包含脏数据的数据库实例；通过所述识别器对所述包含脏数据的数据库实例中的数据进行识别，获取所述识别器对脏数据识别的准确率、召回率和F值。通过所述识别器对脏数据识别的准确率、召回率和F值，对所述识别器对步骤S101中的数据库实例中的脏数据的识别结果进行评估。

例如，获取干净的数据库实例1，数据库实例1中只包含干净的数据，即不包含任何脏数据。在数据库实例1中注入噪声数据，即注入预设数量的脏数据，得到包含脏数据的数据库实例2，通过识别器对数据库实例2中的脏数据进行识别，以获取该识别器识别脏数据的准确率、召回率和F值。其中，准确率是指识别器共识别出m条脏数据，其中n条识别正确，m-n条识别错误，则准确率为n/m；召回率是指数据库实例2中共包含p条脏数据，识别器识别出其中的n条脏数据，则召回率为n/p；F值的定义为：

更进一步的，为进一步提高脏数据的识别效率，本发明实施例还提供了一种基于机器学习的数据清洗方法，包括：

将所述数据库实例中的数据分为多个数据块；向多个计算节点分配子任务，由所述多个计算节点同时执行对应的子任务，其中，每个计算节点获取一个子任务，每个子任务对应一个数据块，任意两个子任务所对应的数据块不同；针对任一计算节点，通过所述识别器对所述计算节点所对应的数据块进行识别，获得所述计算节点所对应的数据块中的脏数据。

由多个计算节点通过识别器并行对数据库实例中的脏数据进行识别，进一步提高了数据库实例中脏数据的识别效率。

本发明提供了一种基于机器学习的数据清洗方法，本发明提供了一种基于机器学习的数据清洗方法及终端设备，包括：通过数据抽取，获得数据库实例；在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据；通过所述训练集对隐马尔可夫模型进行训练，得到识别器；通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。本发明通过机器学习的方法对数据库实例中的脏数据进行清洗，提高了脏数据的清洗效率和清洗精度。

图2为本发明实施例提供的一种基于机器学习的数据清洗装置示意图，结合图2，该装置包括：数据抽取单元21，训练集获取单元22，训练单元23和识别单元24；

所述数据抽取单元21，用于通过数据抽取，获得数据库实例；

所述训练集获取单元22，用于在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据；

所述训练单元23，用于通过所述训练集对隐马尔可夫模型进行训练，得到识别器；

所述识别单元24，用于通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。

进一步的，所述脏数据为冗余数据，则所述训练集获取单元22用于：

通过聚类算法对所述预设数量的数据进行分组，其中每组数据至少包含两条数据；

对于一组数据中的任意一对数据，根据所述一对数据中的预设属性中每个对应属性的相似度获取所述一对数据所对应的特征向量，以及所述特征向量所对应的冗余数据的标签或非冗余数据的标签，得到所述训练集；

所述识别单元24用于；

通过聚类算法对所述数据库实例中的数据进行分组，其中每组数据至少包含两条数据；

对于一组数据中的任意一对数据，获取所述一对数据中的所述预设属性中每个对应属性的相似度获取所述一对数据所对应的特征向量；

以所述一对数据所对应的特征向量作为所述识别器的输入，得到所述一对数据是否为冗余数据的判断结果。

进一步的，所述脏数据为错误数据，所述训练单元23用于：

针对所述训练集中的任一条数据，通过隐马尔可夫模型获取所述数据的多个预设属性所对应的属性值，以所述多个预设属性所对应的属性值为输入，以所述数据所对应的标签为输出，对所述隐马尔可夫模型进行训练；

所述识别单元24用于：

进一步的，该装置还包括评价单元25，用于获取干净的数据库实例，所述干净的数据库实例中不包含脏数据；在所述干净的数据库实例中注入预设数量的脏数据，得到包含脏数据的数据库实例；通过所述识别器对所述包含脏数据的数据库实例中的数据进行识别，获取所述识别器的对脏数据识别的准确率、召回率和F值。

进一步的，该装置还包括：任务分配单元26，用于将所述数据库实例中的数据分为多个数据块；向多个计算节点分配子任务，由所述多个计算节点同时执行对应的子任务，其中，每个计算节点获取一个子任务，每个子任务对应一个数据块，任意两个子任务所对应的数据块不同；针对任一计算节点，通过所述识别器对所述计算节点所对应的数据块进行识别，获得所述计算节点所对应的数据块中的脏数据。

本发明提供了一种基于机器学习的数据清洗方法，本发明提供了一种基于机器学习的数据清洗装置，该装置通过数据抽取，获得数据库实例；在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据；通过所述训练集对隐马尔可夫模型进行训练，得到识别器；通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。本发明通过机器学习的方法对数据库实例中的脏数据进行清洗，提高了脏数据的清洗效率和清洗精度。

图3为本发明实施例提供的一种终端设备的示意图。如图3所示，该实施例的终端设备3包括：处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32，例如基于机器学习的数据清洗程序。所述处理器30执行所述计算机程序32时实现上述各个基于机器学习的数据清洗方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能，例如图2所示模块21至26的功能。

示例性的，所述计算机程序32可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序32在所述终端设备3中的执行过程。

所述终端设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图3仅仅是终端设备3的示例，并不构成对终端设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31可以是所述终端设备3的内部存储单元，例如终端设备3的硬盘或内存。所述存储器31也可以是所述终端设备3的外部存储设备，例如所述终端设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述基于机器学习的数据清洗方法的步骤。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的数据清洗方法，其特征在于，该方法包括：

通过数据抽取，获得数据库实例；

通过所述训练集对隐马尔可夫模型进行训练，得到识别器；

2.根据权利要求1所述的基于机器学习的数据清洗方法，其特征在于，所述脏数据为冗余数据，则所述获取所述数据所对应的人工标注的数据类型的标签，得到训练集包括：

所述通过所述识别器对所述数据库实例中的数据进行识别包括；

3.根据权利要求1所述的基于机器学习的数据清洗方法，其特征在于，所述脏数据为错误数据，所述通过所述训练集对隐马尔可夫模型进行训练，得到识别器包括：

所述通过所述识别器对所述数据库实例中的数据进行识别包括：

4.根据权利要求1-3任一项所述的基于机器学习的数据清洗方法，其特征在于，该方法还包括：

获取干净的数据库实例，所述干净的数据库实例中不包含脏数据；

在所述干净的数据库实例中注入预设数量的脏数据，得到包含脏数据的数据库实例；

通过所述识别器对所述包含脏数据的数据库实例中的数据进行识别，获取所述识别器的对脏数据识别的准确率、召回率和F值。

5.根据权利要求1-3任一项所述的基于机器学习的数据清洗方法，其特征在于，该方法还包括：

将所述数据库实例中的数据分为多个数据块；

向多个计算节点分配子任务，由所述多个计算节点同时执行对应的子任务，其中，每个计算节点获取一个子任务，每个子任务对应一个数据块，任意两个子任务所对应的数据块不同；

针对任一计算节点，通过所述识别器对所述计算节点所对应的数据块进行识别，获得所述计算节点所对应的数据块中的脏数据。

6.一种基于机器学习的数据清洗装置，其特征在于，该装置包括：数据抽取单元，训练集获取单元，训练单元和识别单元；

所述数据抽取单元，用于通过数据抽取，获得数据库实例；

所述训练集获取单元，用于在所述数据库实例中获取预设数量的数据，针对所述预设数量的数据中的任一条数据，获取所述数据所对应的人工标注的数据类型的标签，得到训练集，其中，所述数据类型包括正确数据或脏数据；

所述训练单元，用于通过所述训练集对隐马尔可夫模型进行训练，得到识别器；

所述识别单元，用于通过所述识别器对所述数据库实例中的数据进行识别，获得所述数据库实例中每一条数据所对应的类型，得到所述数据库实例中的脏数据。

7.根据权利要求6所述的基于机器学习的数据清洗装置，其特征在于，所述脏数据为冗余数据，则所述训练集获取单元用于：

所述识别单元用于；

8.根据权利要求6所述的基于机器学习的数据清洗装置，其特征在于，所述脏数据为错误数据，所述训练单元用于：

所述识别单元用于：

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。

10.一种终端设备，其特征在于，所述终端设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5任一项所述方法的步骤。