CN109101507A - 数据处理方法、装置、计算机设备和存储介质 - Google Patents

数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109101507A
CN109101507A CN201710471132.6A CN201710471132A CN109101507A CN 109101507 A CN109101507 A CN 109101507A CN 201710471132 A CN201710471132 A CN 201710471132A CN 109101507 A CN109101507 A CN 109101507A
Authority
CN
China
Prior art keywords
data
epicycle
cleaning
sample
wait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710471132.6A
Other languages
English (en)
Other versions
CN109101507B (zh
Inventor
张�浩
尹红军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710471132.6A priority Critical patent/CN109101507B/zh
Publication of CN109101507A publication Critical patent/CN109101507A/zh
Application granted granted Critical
Publication of CN109101507B publication Critical patent/CN109101507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种数据处理方法、装置、计算机设备和存储介质,方法包括:获取本轮的待抽样清洗数据;获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;根据路径长度确定本轮的每个待抽样清洗数据的抽样概率;对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到相应的抽样数据;清洗抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,返回获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。本申请中的数据处理方法,基于不需要样本标记的训练得到的多个随机树来发现疑似脏数据并清洗,节省了人工标记训练样本的时间,提高了数据清洗效率。

Description

数据处理方法、装置、计算机设备和存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据处理方法、装置、计算机设备和存储介质。
背景技术
大多数据集合中往往包含有脏数据,而大量脏数据的存在往往会对数据的处理结果造成影响(比如,根据数据训练机器学习模型时,大量脏数据影响机器学习模型的准确率),一般需要对数据集合中的数据进行一定程度的清洗。在对数据清洗的过程中,往往需要从数据集合中发现疑似脏数据,然后对这些发现的疑似脏数据进行清洗。
在传统方法中,是通过人工大量标记样本,对标记的样本进行训练,得到相应的分类器,以根据该分类器来从数据集中发现疑似脏数据。目前,这种根据人工大量标记样本训练分类器发现疑似脏数据的方法,造成人工标记样本的工作量非常大,从而导致数据清洗效率低。
发明内容
基于此,有必要针对目前人工大量标记样本训练分类器发现疑似脏数据导致数据清洗效率低的技术问题,提供一种数据处理方法、装置、计算机设备和存储介质。
一种数据处理方法,所述方法包括:
获取本轮的待抽样清洗数据;
获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;
根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;
对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;
清洗所述抽样数据;
当不满足清洗结束条件时,将下一轮当作本轮,返回所述获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
一种数据处理装置,所述装置包括:
获取模块,用于获取本轮的待抽样清洗数据;以及获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;
抽样概率确定模块,用于根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;
抽样模块,用于对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;
数据清洗模块,用于清洗所述抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,通知所述获取模块工作,直至满足清洗结束条件。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行以下步骤:
获取本轮的待抽样清洗数据;
获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;
根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;
对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;
清洗所述抽样数据;以及
当不满足清洗结束条件时,将下一轮当作本轮,返回所述获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取本轮的待抽样清洗数据;
获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;
根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;
对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;
清洗所述抽样数据;以及
当不满足清洗结束条件时,将下一轮当作本轮,返回所述获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
上述数据处理方法、装置、计算机设备和存储介质,通过本轮的每个待抽样清洗数据在根据本轮或前至少一轮的待抽样清洗数据训练得到的多个随机树上的路径长度,来确定本轮的每个待抽样清洗数据的抽样概率,其中,由于脏数据少而不同的特性,脏数据在多个随机树中的路径长度可能比较短,根据路径长度确定本轮的每个待抽样清洗数据的抽样概率,则路径长度越短相应的抽样概率越大,因而对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到的抽样数据为脏数据的可能性很大,从而可以有效发现疑似脏数据。而基于本轮或前至少一轮的待抽样清洗数据训练多个随机树是不需要人工进行训练样本标记的,因而根据训练得到的随机树按照上述方法来发现疑似脏数据并清洗,节省了人工标记训练样本的时间,提高了发现疑似脏数据的效率,进而提高了数据清洗效率。
附图说明
图1为一个实施例中计算机设备的内部结构示意图;
图2为一个实施例中数据处理方法的流程示意图;
图3为一个实施例中必清洗标记添加步骤的流程示意图;
图4为一个实施例中数据处理过程中回溯搜索原理示意图;
图5为一个实施例中抽样概率确定步骤的流程示意图;
图6为一个实施例中机器学习模型更新步骤的流程示意图;
图7为另一个实施例中数据处理方法的流程示意图;
图8为一个实施例中数据处理装置的结构框图;
图9为一个另实施例中数据处理装置的结构框图;
图10为一个又实施例中数据处理装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中计算机设备的内部结构示意图。该计算机设备可以是终端或者服务器。终端可以是个人计算机或者移动终端,移动终端包括手机、平板电脑、个人数字助理或者穿戴式设备等中的至少一种。服务器可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。如图1所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统和计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种数据处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该内存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种数据处理方法。该计算机设备的网络接口用于连接网络进行通信。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2为一个实施例中数据处理方法的流程示意图。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2,该数据处理方法具体包括如下步骤:
S202,获取本轮的待抽样清洗数据。
其中,本轮的待抽样清洗数据,是本轮中用于抽样清洗的未清洗数据。本轮的待抽样清洗数据,可以是本轮所有的未清洗数据,也可以是本轮的部分未清洗数据。比如,本轮未清洗数据有500条,则本轮的待抽样清洗数据可以是500条,后续可以对本轮的这500条待抽样清洗数据进行抽样清洗。
S204,获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到。
具体地,计算机设备可以直接使用根据前一轮或多轮的待抽样数据训练得到的多个随机树,获取本轮的每个待抽样清洗数据在根据前一轮或多轮的待抽样数据训练得到的多个随机树上的路径长度。计算机设备也可以根据本轮的待抽样清洗数据重新训练、以构建相应的多个随机树,获取本轮的每个待抽样清洗数据在根据本轮的待抽样清洗数据训练得到的多个随机树上的路径长度。
在一个实施例中,多个随机树是根据本轮或者前至少一轮的待抽样清洗数据进行二叉划分得到的多个随机二叉树。在一个实施例中,多个随机二叉树可以是isolationforest(孤立森林,一种异常检测算法)中的多个itree。
其中,数据在随机树上的路径长度,可以是数据在随机树上所位于的节点到根节点之间的路径长度。本轮的每个待抽样清洗数据在多个随机树上的路径长度,可以是本轮的每个待抽样清洗数据在多个随机树上所位于的节点到根节点之间的路径长度。
计算机设备可以直接获取存储的本轮的每个待抽样清洗数据在多个随机树上的路径长度,计算机设备也可以将本轮的每个待抽样清洗数据分别代入到各个随机树中,确定本轮的每个待抽样清洗数据在各个随机树上所位于的节点,得到所位于的节点到根节点之间的路径长度,即为该待抽样清洗数据在多个随机树上的路径长度。
S206,根据路径长度确定本轮的每个待抽样清洗数据的抽样概率。
其中,抽样概率,是对数据进行抽样的概率。本轮的每个待抽样清洗数据的抽样概率,是对本轮的每个待抽样清洗数据进行抽样的概率。本轮的每个待抽样清洗数据在本轮唯一对应于一个抽样概率。
基于脏数据的少而不同的特性,本轮的待抽样清洗数据中的脏数据,在多个随机树上的路径长度很大可能会相对较短,因此对于那些路径长度相对较短的待抽样清洗数据的抽样概率就可以高一些,即根据路径长度确定出的抽样概率,与该待抽样清洗数据在多个随机树上的路径长度负相关,抽样概率越高,该待抽样清洗数据为脏数据的可能性也就越大。其中,脏数据,是不符合要求的需要通过清洗进行修正的数据。
计算机设备可以根据本轮的各个待抽样清洗数据在多个随机树上的总路径长度或平均路径长度,确定本轮的每个待抽样清洗数据的抽样概率。
S208,对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到相应的抽样数据。
具体地,计算机设备中预设了抽样概率阈值。计算机设备可以从本轮的所有待抽样清洗数据中获取抽样概率在预设阈值以上的待抽样清洗数据,其中,抽样概率在预设阈值以上的待抽样清洗数据,为脏数据的可能性就会比较大。计算机设备可以对所获取的抽样概率在预设阈值以上的待抽样清洗数据进行抽样,得到相应的抽样数据。
比如,待抽样清洗数据为500条,其中抽样概率在预设阈值以上的待抽样清洗数据为100条,则计算机设备可以在本轮对这100条数据进行抽样,比如从这100条中抽样20条,从而得到20条抽样数据。
S210,清洗抽样数据。
具体地,计算机设备可以对所得到的抽样数据进行清洗。在清洗抽样数据的过程中,计算机设备可以判断抽样数据中的脏数据,并将判断出的脏数据清洗为干净数据。
S212,当不满足清洗结束条件时,将下一轮当作本轮,返回获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
其中,清洗结束条件,是结束数据轮次清洗的条件,即停止对数据的清洗处理。在一个实施例中,清洗结束条件可以由根据清洗后的数据训练的机器学习模型的模型更新结束条件来确定,比如,可以根据机器学习模型的准确率或收敛速度来确定,当机器学习模型的准确率达到预设阈值或收敛速度低于预设阈值,则说明该机器学习模型满足了模型更新结束条件,则相应可以判定满足了清洗结束条件。当机器学习模型的准确率低于预设阈值或收敛速度高于预设阈值,则说明该机器学习模型不满足模型更新结束条件,则相应可以判定不满足清洗结束条件。
在其它实施例中,清洗结束条件也可以是清洗的轮次数是否达到预设阈值,比如预设清洗轮次为50次,如果达到50次清洗,则判定满足清洗结束条件。清洗结束条件还可以是清洗完全部数据等。这里对清洗结束条件的具体实现方式不做限定。
上述数据处理方法,通过本轮的每个待抽样清洗数据在根据本轮或前至少一轮的待抽样清洗数据训练得到的多个随机树上的路径长度,来确定本轮的每个待抽样清洗数据的抽样概率,其中,由于脏数据少而不同的特性,脏数据在多个随机树中的路径长度可能比较短,根据路径长度确定本轮的每个待抽样清洗数据的抽样概率,则路径长度越短相应的抽样概率越大,因而对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到的抽样数据为脏数据的可能性很大,从而可以有效发现疑似脏数据。而基于本轮或前至少一轮的待抽样清洗数据训练多个随机树是不需要人工进行训练样本标记的,因而根据训练得到的多个随机树按照上述方法来发现疑似脏数据并清洗,节省了人工标记训练样本的时间,提高了发现疑似脏数据的效率,进而提高了数据清洗效率。
在一个实施例中,步骤S202包括:获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据。步骤S210包括:清洗抽样数据和本轮未清洗且携带必清洗标记的数据。本实施例中,当不满足清洗结束条件时,在将下一轮当作本轮之前,该方法还包括:在本轮除去抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记。
其中,本轮未清洗的数据中可以包括携带必清洗标记的数据和未携带必清洗标记的数据。本轮未清洗且携带必清洗标记的数据,是指本轮未清洗且在本轮必须被清洗的数据。必清洗标记可以是一个具体的实质意义上的必清洗标记,比如,must_clean标记,也可以是其它可以用于表征数据必被清洗的标记,比如,可以将数据的抽样概率标记为1,则该为1的抽样概率标记可以表征该数据必被清洗。
具体地,计算机设备可以对抽样数据和本轮未清洗且携带必清洗标记的数据进行清洗。在本轮清洗过程中,计算机设备可以判断出抽样数据和本轮未清洗且携带必清洗标记的数据中的脏数据,并对脏数据进行清洗,以得到干净数据。在本轮清洗完毕后,当不满足清洗结束条件时,计算机设备可以在本轮除去抽样数据后的待抽样清洗数据中,确定出与本轮清洗中判断得到的脏数据特征相似的数据,并将确定出的与脏数据特征相似的数据添加必清洗标记,然后将下一轮当作本轮,返回获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
可以理解,这里与确定出的与本轮清洗中判断得到的脏数据特征相似的、且添加上必清洗标记的数据,是作为下一轮清洗中的必清洗数据。本轮中清洗的本轮未清洗且携带必清洗标记的数据,是在前一轮清洗中,对除去前一轮抽样数据后的前一轮待抽样数据中的、且与前一轮清洗中判断得到的脏数据特征相似的数据。
需要说明的是,由于是在本轮清洗完毕后,且不满足清洗结束条件时,对本轮除去抽样数据后的待抽样数据中的、且与本轮清洗中判断得到的脏数据特征相似的数据添加的必清洗标记,所以在首轮清洗时,本轮未清洗数据中则不存在携带有必清洗标记的数据,即首轮清洗时,本轮的待抽样清洗数据可以是本轮所有的未清洗数据。同样的,当在本轮清洗中未判断出脏数据时,也不存在对本轮除去抽样数据后的待抽样数据中的、且与判断出的脏数据特征相似的数据添加必清洗标记,则下一轮的未清洗数据中也就不包含携带有必清洗标记的数据。
在一个实施例中,计算机设备可以从判断得到的脏数据在多个随机树上对应的节点起,进行回溯搜索,直至满足回溯搜索结束条件,将回溯搜索过程中所获取的不重复的数据,作为与该脏数据的特征相似的数据。其中,回溯搜索结束条件,可以是搜索过程中得到的不重复的数据数量达到预设阈值,也可以是回溯搜索过程中所经历的节点数量达到预设阈值,还可以是回溯搜索过程中经历的节点与脏数据所对应的节点的距离达到预设阈值等。其中,计算机设备在进行回溯搜索时,是按照与脏数据所对应的节点的距离由近到远的顺序进行搜索的。可以理解,随机树上的各个节点之间的位置关系,表征了位于该各个节点中的数据在特征空间中相互间的距离,在随机树上两个越接近的节点中的数据在特征空间中越接近,则特征也越相似。
在一个实施例中,当回溯搜索结束条件,为回溯搜索过程中所经历的节点数量达到预设阈值或回溯搜索过程中经历的节点与脏数据所对应的节点的距离达到预设阈值时,则获取在多个随机树上进行回溯搜索时经历的节点所对应的数据,并对获取的数据进行去重,将去重后的数据作为与该脏数据的特征相似的数据。
上述实施例中,除了对待抽样清洗数据进行抽样清洗之外,还根据判断得到的脏数据,找到与之特征相似的数据进行清洗,而与判断出的脏数据特征相似的数据为脏数据的可能性非常大,从而可以更加有效的发现疑似脏数据。且在对待抽样清洗数据进行抽样清洗的基础上,同时对与脏数据特征相似的数据进行必清洗,可以提高每轮清洗的有效性,从而可以实现清洗较少轮次就可以满足清洗结束条件,提高了数据清洗效率。
如图3所示,在一个实施例中,在本轮除去抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记(简称必清洗标记添加步骤),包括:
S302,确定本轮清洗中判断得到的脏数据在多个随机树上对应的节点。
具体地,计算机设备可以直接获取存储的本轮清洗中判断得到的脏数据在多个随机树上对应的节点,也可以将本轮清洗中判断得到的脏数据分别代入多个随机树,按照随机树的分裂条件,确定该脏数据在多个随机树上最终所落入的节点。在一个实施例中,本轮清洗中判断得到的脏数据在多个随机树上对应的节点为叶子节点。
其中,本轮清洗中判断得到的脏数据可以为一个或多个。每个本轮清洗中判断得到的脏数据在各个随机树上都有对应的节点。
S304,获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量。
其中,与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量,是指根据判断得到的每个脏数据,需查找的用于添加必清洗标记的数据的数量。其中,本轮清洗中判断得到的不同的脏数据,所对应的需添加必清洗标记的数据数量可以相同也可以不同,对此不作限定。
需添加必清洗标记的数据数量,可以根据本轮清洗中判断得到的脏数据在多个随机树上的路径长度得到,需添加必清洗标记的数据数量与路径长度正相关。其中,需添加必清洗标记的数据数量,可以根据本轮清洗中判断得到的脏数据在多个随机树上的总路径长度或平均路径长度得到。
需添加必清洗标记的数据数量,也可以是预先设置的数量,该预先设置的数据数量,可以是经过反复试验得到的经验值。需添加必清洗标记的数据数量,还可以根据清洗的轮次数确定,其中,需添加必清洗标记的数据数量与清洗的轮次数负相关。这里,对如何确定需添加必清洗标记的数据数量不作限定。
S306,在多个随机树上从节点起进行回溯搜索,并按照数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据。
具体地,计算机设备在多个随机树上从本轮清洗中判断得到的脏数据所对应的节点起,进行回溯搜索,在回溯搜索过程中会经历其它节点。计算机设备可以按照所获取的对应的需添加必清洗标记的数据数量,从回溯过程中经历的节点中获取数据。可以理解,计算机设备在进行回溯搜索时,是按照与脏数据所对应的节点的距离由近到远的顺序进行搜索的。
下面结合图4中的多个随机树中的一个随机树对回溯搜索原理举例说明,可以理解,每个随机树进行回溯搜索的原理都是相同的。参照图4,假设本轮清洗中判断出的脏数据在节点D上,按照其它叶子节点距离节点D由近到远的顺序,依次为叶子节点E—>F—>G,则计算机设备会从节点D起,按照需添加必清洗标记的数据数量进行回溯搜索,先回溯搜索至叶子节点E,从中获取数据,如果不满足多个随机树上获取的不重复的数据达到所需要的数据数量,可以再依次回溯搜索至叶子节点F和G,直至在多个随机树上获取的不重复的数据达到需添加必清洗标记的数据数量。
其中,由于每个脏数据在多个随机树上都有对应的节点,则可能在回溯搜索过程中,在不同的随机树上的节点中的数据可能存在重复。因此,计算机设备按照所获取的数据数量,从回溯过程中经历的节点中获取数据,并将所获取的数据进行去重处理,直至获取满足该数据数量且相互间不重复的数据。即计算机设备在根据本轮清洗中判断得到的每个脏数据进行回溯搜索过程中,从多个随机树上获取的不重复的数据的总量达到该脏数据所对应的需添加必清洗标记的数据数量。
这里对从每个随机树上分别获取的数据数量不做限定,可以随机从任意随机树上获取数据,也可以为每个随机树分配所需要获取的数据数量等,只要满足从多个随机树上获取的不重复的数据总量满足该脏数据所对应的需添加必清洗标记的数据数量即可。
可以理解,如果本轮清洗中判断出的脏数据在多个随机树上所对应的节点中还包括除该脏数据以外的数据,则该节点中除脏数据以外的数据也在回溯搜索数据时的考虑范围内。
S308,在本轮除去抽样数据后的待抽样清洗数据中,将与获取的数据一致的数据添加必清洗标记。
具体地,计算机设备可以从本轮除去抽样数据后的待抽样数据中,查找与获取的数据一致的数据,并将查找到的数据添加必清洗标记。
上述实施例中,通过从判断出的脏数据在随机树上的节点进行回溯搜索,得到满足所对应的数据数量的、且相互间不重复的数据,其中,进行回溯搜索的过程是按照与脏数据所对应的节点由近到远的顺序进行搜索的,能够使得搜索到的数据与脏数据之间的特征相似性更高,而与脏数据之间的特征相似性更高的数据本身为脏数据的可能性就更大,从而可以更加有效地发现疑似脏数据。
此外,对所发现的与脏数据特征相似性更高的数据进行必清洗,可以提高每轮清洗的有效性,从而可以实现清洗较少轮次就可以满足清洗结束条件,提高了数据清洗效率。
在一个实施例中,步骤S206包括:根据路径长度,获得本轮的每个待抽样清洗数据在多个随机树上的平均路径长度;根据平均路径长度确定本轮的每个待抽样清洗数据的抽样概率,抽样概率与相应的平均路径长度负相关。
具体地,计算机设备可以对本轮的每个待抽样清洗数据在多个随机树上的路径长度求平均值,得到对应的平均路径长度。在一个实施例中,计算机设备可以对本轮的每个待抽样清洗数据在多个随机树上的路径长度进行加权平均计算,得到对应的平均路径长度。这里,对如何根据本轮的每个待抽样清洗数据在多个随机树上的路径长度获得对应的平均路径长度不做限定,具体根据随机树的类型确定,只要满足根据路径长度得到相应的平均路径长度即可。
计算机设备可以根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度,确定本轮的每个待抽样清洗数据的抽样概率。计算机设备也可以根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度以及多个随机树上的平均路径长度,确定本轮的每个待抽样清洗数据的抽样概率。抽样概率与对应的每个待抽样清洗数据在多个随机树上的平均路径长度负相关。
上述实施例中,根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度,来确定本轮的每个待抽样清洗数据的抽样概率,避免了由于随机树的随机性造成的每个待抽样清洗数据在多个随机树中的路径长度间较大差异,而影响到抽样概率有效性的问题,因而根据每个待抽样清洗数据的平均路径长度计算抽样概率,提高了抽样概率的有效性,从而更加有效的发现疑似脏数据,进而也加快了数据清洗效率。
如图5所示,在一个实施例中,根据平均路径长度确定本轮的每个待抽样清洗数据的抽样概率,抽样概率与相应的平均路径长度负相关(简称抽样概率确定步骤),具体包括以下步骤:
S502,获取多个随机树的平均路径长度。
计算机设备可以直接获取根据多个随机树上的路径长度得到的对应的多个随机树的平均路径长度,也可以对多个随机树上的路径长度进行平均路径长度计算,得到对应的平均路径长度。
在一个实施例中,多个随机树为多个随机二叉树。可以根据以下公式计算多个随机二叉树的平均路径长度:
c(n)=2H(n-1)-(2(n-1)/n);
其中,c(n)表示多个随机二叉树的平均路径长度;n表示用于训练每个随机二叉树的样本数据数量;H(n-1)=ln(n-1)+ε,ε为欧拉常数。
S504,根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度,生成异常分数;其中,异常分数与本轮的每个待抽样清洗数据在多个随机树上的平均路径长度负相关,且与多个随机树的平均路径长度正相关。
其中,异常分数,用于表征数据的异常程度。由于脏数据少而不同的特性,脏数据的异常分数比非脏数据的异常分数高的可能性就更大。
计算机设备可以获取本轮的每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度的比值,根据该比值得到相应的异常分数,其中,异常分数与本轮的每个待抽样清洗数据在多个随机树上的平均路径长度负相关,且与多个随机树的平均路径长度正相关。
在一个实施例中,该多个随机树为随机二叉树,计算机设备根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度的比值,得到相应的异常分数,可以通过以下计算公式实现:
其中,s(x,n)表示每个待抽样清洗数据的异常分数;x表示每个待抽样清洗数据;n表示用于训练每个随机二叉树的样本数据数量;E(h(x))表示每个待抽样清洗数据x在多个随机二叉树上的平均路径长度;h(x)表示每个待抽样清洗数据在各个随机二叉树上的路径长度(即每个待抽样清洗数据在各个随机树上沿着对应的条件分支往下走,直至达到叶子节点所经过的路径长度),c(n)表示多个随机二叉树的平均路径长度。
S506,根据异常分数,确定本轮的每个待抽样清洗数据的抽样概率;抽样概率与异常分数正相关。
其中,由于异常分数表征数据的异常程度。由于脏数据少而不同的特性,脏数据的异常分数比非脏数据的异常分数高的可能性就更大,则数据的异常分数越高,就越疑似脏数据。而在数据清洗过程中,需要对最像脏数据的数据进行抽样,则疑似脏数据的抽样概率就会比非疑似脏数据的抽样概率要高。因此,根据异常分数确定相应的每个待抽样清洗数据的抽样概率,与异常分数成正相关,
上述实施例中,将每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度结合起来,以确定抽样概率,相较于单一的使用每个待抽样清洗数据在多个随机树上的平均路径长度来确定抽样概率而言,使得在确定抽样概率时考虑的因素更加的全面,提高了抽样概率的有效性。此外,在提高抽样概率的有效性的基础上,也能更加有效的发现疑似脏数据,进而也加快了数据清洗效率。
如图6所示,在一个实施例中,在当不满足清洗结束条件时,将下一轮当作本轮之前,方法还包括机器学习模型更新步骤,具体包括以下步骤:
S602,获取本轮清洗后得到的干净数据。
具体地,计算机设备可以获取对抽样数据和本轮未清洗且携带必清洗标记的数据进行清洗后得到的干净数据。其中,干净数据,是符合要求的数据。
S604,根据干净数据和抽样概率在预设阈值以下的本轮的待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新。
其中,如前文所述可知,抽样概率在预设阈值以下的本轮的待抽样清洗数据,为脏数据的可能性会比较小,为干净数据的可能性比较大。计算机设备可以根据本轮清洗后得到的干净数据和抽样概率在预设阈值以下的本轮的待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新,能够一定程度上保证更新后的机器学习模型的准确率得到提高。
S606,当更新后的机器学习模型不满足模型更新结束条件时,则判定不满足清洗结束条件。
其中,模型更新结束条件,是停止对机器学习模型进行更新的条件。
计算机设备可以判断更新后的机器学习模型是否满足模型更新结束条件。比如,可以根据机器学习模型的准确率或收敛速度来确定,当机器学习模型的准确率达到预设阈值或收敛速度低于预设阈值,则说明该机器学习模型满足了模型更新结束条件。当机器学习模型的准确率低于预设阈值或收敛速度高于预设阈值,则说明该机器学习模型不满足模型更新结束条件。
当更新后的机器学习模型不满足模型更新结束条件时,则说明还需要对当前的数据进行清洗,以进一步更新机器学习模型,因而,可以判定不满足清洗结束条件。
在一个实施例中,在步骤S204之前,该方法还包括:对本轮或前至少一轮中的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据;根据每次均匀抽样得到的训练数据随机选择特征;在随机选择的特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。
其中,均匀抽样,是对本轮或前至少一轮中的每个待抽样数据以相同概率进行随机无放回抽样。可以理解,如果对本轮的待抽样数据进行均匀抽样及训练得到多个随机树,那么进行多次均匀抽样的本轮的待抽样数据,是指进行本轮数据清洗前的待抽样数据。如果对前至少一轮的待抽样数据进行均匀抽样及训练得到多个随机树,那么进行多次均匀抽样的前至少一轮的待抽样数据,可以是指进行前至少一轮数据清洗前的待抽样数据。
每次均匀抽样得到的训练数据中都对应若干个特征向量,计算机设备可以从中随机一个特征,并在随机选择的特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。可以理解,本实施例中所得到的随机树为随机二叉树。
上述实施例中,通过对本轮或前至少一轮的待抽样清洗数据进行多次均匀抽样,根据每次均匀抽样得到的训练数据随机选择特征,并从随机选择的特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树,通过随机二叉划分得到多个随机树,而根据该得到的多个随机树可以有效识别疑似脏数据,相较于人工进行样本标记训练分类器来识别疑似脏数据的方法,训练随机树既不需要人工进行样本标记,节省了人工进行样本标记的时间,且随机树的随机分裂训练相较于基于样本标记的分类器训练更加的快速,进一步节省了时间,从而提高了发现疑似脏数据的效率,进而提高了数据清洗效率。
如图7所示,在一个实施例中,提供了另一种数据处理方法,该方法具体包括以下步骤:
S702,获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据。
S704,对本轮的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据。
S706,根据每次均匀抽样得到的训练数据随机选择特征,在随机选择的特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机二叉树。
S708,获取本轮的每个待抽样清洗数据在多个随机二叉树上的路径长度。
S710,根据路径长度,获得本轮的每个待抽样清洗数据在多个随机二叉树上的平均路径长度。
S712,获取多个随机二叉树的平均路径长度,根据本轮的每个待抽样清洗数据在多个随机二叉树上的平均路径长度和多个随机二叉树的平均路径长度,生成异常分数。
其中,异常分数与本轮的每个待抽样清洗数据在多个随机二叉树上的平均路径长度负相关,且与多个随机二叉树的平均路径长度正相关。
S714,根据异常分数,确定本轮的每个待抽样清洗数据的抽样概率;抽样概率与异常分数正相关。
S716,对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到相应的抽样数据。
S718,清洗抽样数据和本轮未清洗且携带必清洗标记的数据,得到本轮清洗后得到的干净数据。
S720,根据干净数据和抽样概率在预设阈值以下的本轮的待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新。
S722,判断更新后的机器学习模型是否满足模型更新结束条件,若否,则进入步骤S724,若是,则结束清洗。
S724,确定本轮清洗中判断得到的脏数据在多个随机二叉树上对应的节点。
S726,根据本轮清洗中判断得到的脏数据在多个随机二叉树上的路径长度,得到需添加必清洗标记的数据数量;需添加必清洗标记的数据数量与路径长度正相关。
S728,在多个随机二叉树上从节点起进行回溯搜索,并按照数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据。
S730,在本轮除去抽样数据后的待抽样清洗数据中,将与获取的数据一致的数据添加必清洗标记,并将下一轮当作本轮,返回步骤S702。
上述数据处理方法,通过本轮的每个待抽样清洗数据在根据本轮或前至少一轮的待抽样清洗数据训练得到的多个随机树上的路径长度,来确定本轮的每个待抽样清洗数据的抽样概率,其中,由于脏数据少而不同的特性,对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到的抽样数据为脏数据的可能性很大,从而可以有效发现疑似脏数据。而基于本轮或前至少一轮的待抽样清洗数据训练多个随机树是不需要人工进行训练样本标记的,因而根据训练得到的随机树按照上述方法来发现疑似脏数据并清洗,节省了人工标记训练样本的时间,提高了发现疑似脏数据的效率,进而提高了数据清洗效率。
其次,除了对待抽样清洗数据进行抽样清洗之外,还根据判断得到的脏数据,找到与之特征相似的数据进行清洗,而与判断出的脏数据特征相似的数据为脏数据的可能性非常大,从而可以更加有效的发现疑似脏数据。且在对待抽样清洗数据进行抽样清洗的基础上,同时对与脏数据特征相似的数据进行必清洗,可以提高每轮清洗的有效性,从而可以实现清洗较少轮次就可以满足清洗结束条件,提高了数据清洗效率。
然后,通过从判断出的脏数据在随机树上的节点进行回溯搜索,得到满足所对应的数据数量的、且相互间不重复的数据,其中,进行回溯搜索的过程是按照与脏数据所对应的节点由近到远的顺序进行搜索的,能够使得搜索到的数据与脏数据之间的特征相似性更高,而与脏数据之间的特征相似性更高的数据本身为脏数据的可能性就更大,从而可以更加有效地发现疑似脏数据。
另外,将每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度结合起来,以确定抽样概率,相较于单一的使用每个待抽样清洗数据在多个随机树上的平均路径长度来确定抽样概率而言,使得在确定抽样概率时考虑的因素更加的全面,提高了抽样概率的有效性。此外,在提高抽样概率的有效性的基础上,也能更加有效的发现疑似脏数据,进而也加快了数据清洗效率。
再者,抽样概率在预设阈值以下的本轮的待抽样清洗数据,为脏数据的可能性会比较小,为干净数据的可能性比较大。计算机设备可以根据本轮清洗后得到的干净数据和抽样概率在预设阈值以下的本轮的待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新,能够一定程度上保证更新后的机器学习模型的准确率得到提高。
如图8所示,在一个实施例中,提供了一种数据处理装置800,该装置包括:获取模块802、抽样概率确定模块804、抽样模块806以及数据清洗模块808,其中:
获取模块802,用于获取本轮的待抽样清洗数据;以及获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到。
抽样概率确定模块804,用于根据路径长度确定本轮的每个待抽样清洗数据的抽样概率。
抽样模块806,用于对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到相应的抽样数据。
数据清洗模块808,用于清洗抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,通知获取模块802工作,直至满足清洗结束条件。
在一个实施例中,获取模块802还用于获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据。
数据清洗模块808还用于清洗抽样数据和本轮未清洗且携带必清洗标记的数据;当不满足清洗结束条件时,在将下一轮当作本轮之前,在本轮除去抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记。
在一个实施例中,数据清洗模块808还用于确定本轮清洗中判断得到的脏数据在多个随机树上对应的节点;获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量;在多个随机树上从节点起进行回溯搜索,并按照数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据;在本轮除去抽样数据后的待抽样清洗数据中,将与获取的数据一致的数据添加必清洗标记。
在一个实施例中,数据清洗模块808还用于根据本轮清洗中判断得到的脏数据在多个随机树上的路径长度,得到需添加必清洗标记的数据数量;需添加必清洗标记的数据数量与路径长度正相关。
在一个实施例中,抽样概率确定模块804还用于根据路径长度,获得本轮的每个待抽样清洗数据在多个随机树上的平均路径长度;根据平均路径长度确定本轮的每个待抽样清洗数据的抽样概率,抽样概率与相应的平均路径长度负相关。
在一个实施例中,抽样概率确定模块804还用于获取多个随机树的平均路径长度;根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度,生成异常分数;其中,异常分数与本轮的每个待抽样清洗数据在多个随机树上的平均路径长度负相关,且与多个随机树的平均路径长度正相关;根据异常分数,确定本轮的每个待抽样清洗数据的抽样概率;抽样概率与异常分数正相关。
如图9所示,在一个实施例中,该装置还包括:
机器学习模型更新模块810,用于获取本轮清洗后得到的干净数据;根据干净数据和抽样概率在预设阈值以下的本轮的待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新;当更新后的机器学习模型不满足模型更新结束条件时,则判定不满足清洗结束条件并通知数据清洗模块808。
如图10所示,在一个实施例中,该装置还包括:
随机树训练模块803,用于对本轮或前至少一轮中的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据;根据每次均匀抽样得到的训练数据随机选择特征;在随机选择的特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行以下步骤:获取本轮的待抽样清洗数据;获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;根据路径长度确定本轮的每个待抽样清洗数据的抽样概率;对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到相应的抽样数据;清洗抽样数据;以及当不满足清洗结束条件时,将下一轮当作本轮,返回获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
在一个实施例中,处理器所执行的获取本轮的待抽样清洗数据,包括:获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据。
处理器所执行的清洗抽样数据包括:清洗抽样数据和本轮未清洗且携带必清洗标记的数据。
当不满足清洗结束条件时,在将下一轮当作本轮之前,计算机可读指令还使得处理器执行以下步骤:在本轮除去抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记。
在一个实施例中,处理器所执行的在本轮除去抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记,包括:确定本轮清洗中判断得到的脏数据在多个随机树上对应的节点;获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量;在多个随机树上从节点起进行回溯搜索,并按照数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据;在本轮除去抽样数据后的待抽样清洗数据中,将与获取的数据一致的数据添加必清洗标记。
在一个实施例中,处理器所执行的获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量,包括:根据本轮清洗中判断得到的脏数据在多个随机树上的路径长度,得到需添加必清洗标记的数据数量;需添加必清洗标记的数据数量与路径长度正相关。
在一个实施例中,处理器所执行的根据路径长度确定本轮的每个待抽样清洗数据的抽样概率,包括:根据路径长度,获得本轮的每个待抽样清洗数据在多个随机树上的平均路径长度;根据平均路径长度确定本轮的每个待抽样清洗数据的抽样概率,抽样概率与相应的平均路径长度负相关。
在一个实施例中,处理器所执行的根据平均路径长度确定本轮的每个待抽样清洗数据的抽样概率,抽样概率与相应的平均路径长度负相关,包括:获取多个随机树的平均路径长度;根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度,生成异常分数;其中,异常分数与本轮的每个待抽样清洗数据在多个随机树上的平均路径长度负相关,且与多个随机树的平均路径长度正相关;根据异常分数,确定本轮的每个待抽样清洗数据的抽样概率;抽样概率与异常分数正相关。
在一个实施例中,在当不满足清洗结束条件时,将下一轮当作本轮之前,计算机可读指令还使得处理器执行以下步骤:获取本轮清洗后得到的干净数据;根据干净数据和抽样概率在预设阈值以下的本轮的待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新;当更新后的机器学习模型不满足模型更新结束条件时,则判定不满足清洗结束条件。
在一个实施例中,在获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到之前,计算机可读指令还使得处理器执行以下步骤:对本轮或前至少一轮中的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据;根据每次均匀抽样得到的训练数据随机选择特征;在随机选择的特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。
在一个实施例中,提供了一种存储有计算机可读指令的非易失性可读存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取本轮的待抽样清洗数据;获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;根据路径长度确定本轮的每个待抽样清洗数据的抽样概率;对抽样概率在预设阈值以上的本轮的待抽样清洗数据进行抽样,得到相应的抽样数据;清洗抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,返回获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
在一个实施例中,处理器所执行的获取本轮的待抽样清洗数据,包括:获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据。
处理器所执行的清洗抽样数据包括:清洗抽样数据和本轮未清洗且携带必清洗标记的数据。
当不满足清洗结束条件时,在将下一轮当作本轮之前,计算机可读指令还使得处理器执行以下步骤:在本轮除去抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记。
在一个实施例中,处理器所执行的在本轮除去抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记,包括:确定本轮清洗中判断得到的脏数据在多个随机树上对应的节点;获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量;在多个随机树上从节点起进行回溯搜索,并按照数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据;在本轮除去抽样数据后的待抽样清洗数据中,将与获取的数据一致的数据添加必清洗标记。
在一个实施例中,处理器所执行的获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量,包括:根据本轮清洗中判断得到的脏数据在多个随机树上的路径长度,得到需添加必清洗标记的数据数量;需添加必清洗标记的数据数量与路径长度正相关。
在一个实施例中,处理器所执行的根据路径长度确定本轮的每个待抽样清洗数据的抽样概率,包括:根据路径长度,获得本轮的每个待抽样清洗数据在多个随机树上的平均路径长度;根据平均路径长度确定本轮的每个待抽样清洗数据的抽样概率,抽样概率与相应的平均路径长度负相关。
在一个实施例中,处理器所执行的根据平均路径长度确定本轮的每个待抽样清洗数据的抽样概率,抽样概率与相应的平均路径长度负相关,包括:获取多个随机树的平均路径长度;根据本轮的每个待抽样清洗数据在多个随机树上的平均路径长度和多个随机树的平均路径长度,生成异常分数;其中,异常分数与本轮的每个待抽样清洗数据在多个随机树上的平均路径长度负相关,且与多个随机树的平均路径长度正相关;根据异常分数,确定本轮的每个待抽样清洗数据的抽样概率;抽样概率与异常分数正相关。
在一个实施例中,在当不满足清洗结束条件时,将下一轮当作本轮之前,计算机可读指令还使得处理器执行以下步骤:获取本轮清洗后得到的干净数据;根据干净数据和抽样概率在预设阈值以下的本轮的待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新;当更新后的机器学习模型不满足模型更新结束条件时,则判定不满足清洗结束条件。
在一个实施例中,在获取本轮的每个待抽样清洗数据在多个随机树上的路径长度,多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到之前,计算机可读指令还使得处理器执行以下步骤:对本轮或前至少一轮中的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据;根据每次均匀抽样得到的训练数据随机选择特征;在随机选择的特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种数据处理方法,所述方法包括:
获取本轮的待抽样清洗数据;
获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;
根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;
对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;
清洗所述抽样数据;
当不满足清洗结束条件时,将下一轮当作本轮,返回所述获取本轮的待抽样清洗数据的步骤以继续清洗数据,直至满足清洗结束条件。
2.根据权利要求1所述的方法,其特征在于,所述获取本轮的待抽样清洗数据,包括:
获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据;
所述清洗所述抽样数据包括:
清洗所述抽样数据和本轮未清洗且携带必清洗标记的数据;
当不满足清洗结束条件时,在将下一轮当作本轮之前,所述方法还包括:
在本轮除去所述抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记。
3.根据权利要求2所述的方法,其特征在于,所述在本轮除去所述抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记,包括:
确定本轮清洗中判断得到的脏数据在所述多个随机树上对应的节点;
获取与所述本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量;
在所述多个随机树上从所述节点起进行回溯搜索,并按照所述数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据;
在本轮除去所述抽样数据后的待抽样清洗数据中,将与获取的所述数据一致的数据添加必清洗标记。
4.根据权利要求3所述的方法,其特征在于,所述获取与本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量,包括:
根据所述本轮清洗中判断得到的脏数据在所述多个随机树上的路径长度,得到所述需添加必清洗标记的数据数量;所述需添加必清洗标记的数据数量与所述路径长度正相关。
5.根据权利要求1所述的方法,其特征在于,所述根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,包括:
根据所述路径长度,获得本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度;
根据所述平均路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,所述抽样概率与相应的所述平均路径长度负相关。
6.根据权利要求5所述的方法,其特征在于,所述根据所述平均路径长度确定本轮的每个所述待抽样清洗数据的抽样概率,所述抽样概率与相应的所述平均路径长度负相关,包括:
获取所述多个随机树的平均路径长度;
根据本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度和所述多个随机树的平均路径长度,生成异常分数;
其中,所述异常分数与本轮的每个所述待抽样清洗数据在所述多个随机树上的平均路径长度负相关,且与所述多个随机树的平均路径长度正相关;
根据所述异常分数,确定本轮的每个所述待抽样清洗数据的抽样概率;所述抽样概率与所述异常分数正相关。
7.根据权利要求1所述的方法,其特征在于,在所述当不满足清洗结束条件时,将下一轮当作本轮之前,所述方法还包括:
获取本轮清洗后得到的干净数据;
根据所述干净数据和抽样概率在预设阈值以下的本轮的所述待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新;
当更新后的机器学习模型不满足模型更新结束条件时,则判定不满足清洗结束条件。
8.根据权利要求1至7任一项所述的方法,其特征在于,在所述获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到之前,所述方法还包括:
对本轮或前至少一轮中的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据;
根据每次均匀抽样得到的所述训练数据随机选择特征;
在随机选择的所述特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取本轮的待抽样清洗数据;以及获取本轮的每个所述待抽样清洗数据在多个随机树上的路径长度,所述多个随机树根据本轮或者前至少一轮的待抽样清洗数据训练得到;
抽样概率确定模块,用于根据所述路径长度确定本轮的每个所述待抽样清洗数据的抽样概率;
抽样模块,用于对抽样概率在预设阈值以上的本轮的所述待抽样清洗数据进行抽样,得到相应的抽样数据;
数据清洗模块,用于清洗所述抽样数据;当不满足清洗结束条件时,将下一轮当作本轮,通知所述获取模块工作,直至满足清洗结束条件。
10.根据权利要求9所述的装置,其特征在于,所述获取模块还用于获取本轮未清洗且未携带必清洗标记的数据,得到本轮的待抽样清洗数据;
所述数据清洗模块还用于清洗所述抽样数据和本轮未清洗且携带必清洗标记的数据;当不满足清洗结束条件时,在将下一轮当作本轮之前,在本轮除去所述抽样数据后的待抽样清洗数据中,将与本轮清洗中判断得到的脏数据特征相似的数据添加必清洗标记。
11.根据权利要求10所述的装置,其特征在于,所述数据清洗模块还用于确定本轮清洗中判断得到的脏数据在所述多个随机树上对应的节点;获取与所述本轮清洗中判断得到的脏数据对应的需添加必清洗标记的数据数量;在所述多个随机树上从所述节点起进行回溯搜索,并按照所述数据数量从回溯搜索过程中经历的节点中获取相互间不重复的数据;在本轮除去所述抽样数据后的待抽样清洗数据中,将与获取的所述数据一致的数据添加必清洗标记。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
机器学习模型更新模块,用于获取本轮清洗后得到的干净数据;根据所述干净数据和抽样概率在预设阈值以下的本轮的所述待抽样清洗数据,对根据前一轮清洗后的数据训练得到的机器学习模型进行更新;当更新后的机器学习模型不满足模型更新结束条件时,则判定不满足清洗结束条件并通知所述数据清洗模块。
13.根据权利要求9至12任一项所述的装置,其特征在于,所述装置还包括:
随机树训练模块,用于对本轮或前至少一轮中的待抽样清洗数据进行多次均匀抽样,得到相应的训练数据;根据每次均匀抽样得到的所述训练数据随机选择特征;在随机选择的所述特征的取值范围内随机选值,以对相应的训练数据进行二叉划分,得到多个随机树。
14.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
15.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项所述方法的步骤。
CN201710471132.6A 2017-06-20 2017-06-20 数据处理方法、装置、计算机设备和存储介质 Active CN109101507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710471132.6A CN109101507B (zh) 2017-06-20 2017-06-20 数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710471132.6A CN109101507B (zh) 2017-06-20 2017-06-20 数据处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109101507A true CN109101507A (zh) 2018-12-28
CN109101507B CN109101507B (zh) 2023-09-26

Family

ID=64795794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710471132.6A Active CN109101507B (zh) 2017-06-20 2017-06-20 数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109101507B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377591A (zh) * 2019-06-12 2019-10-25 北京百度网讯科技有限公司 训练数据清洗方法、装置、计算机设备及存储介质
CN117041168A (zh) * 2023-10-09 2023-11-10 常州楠菲微电子有限公司 QoS队列调度实现方法、装置、存储介质及处理器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
CN105354198A (zh) * 2014-08-19 2016-02-24 中国移动通信集团湖北有限公司 一种数据处理方法及装置
CN105468658A (zh) * 2014-09-26 2016-04-06 中国移动通信集团湖北有限公司 一种数据清洗方法及装置
CN106528634A (zh) * 2016-10-11 2017-03-22 武汉理工大学 面向车间制造过程的海量rfid数据智能清洗方法及系统
WO2017071369A1 (zh) * 2015-10-31 2017-05-04 华为技术有限公司 一种预测用户离网的方法和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354198A (zh) * 2014-08-19 2016-02-24 中国移动通信集团湖北有限公司 一种数据处理方法及装置
CN104317801A (zh) * 2014-09-19 2015-01-28 东北大学 一种面向大数据的数据清洗系统及方法
CN105468658A (zh) * 2014-09-26 2016-04-06 中国移动通信集团湖北有限公司 一种数据清洗方法及装置
CN105069470A (zh) * 2015-07-29 2015-11-18 腾讯科技(深圳)有限公司 分类模型训练方法及装置
WO2017071369A1 (zh) * 2015-10-31 2017-05-04 华为技术有限公司 一种预测用户离网的方法和设备
CN106528634A (zh) * 2016-10-11 2017-03-22 武汉理工大学 面向车间制造过程的海量rfid数据智能清洗方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何涛等: "马尔科夫链的RFID数据清洗算法研究", 电脑知识与技术, no. 17, pages 168 - 172 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377591A (zh) * 2019-06-12 2019-10-25 北京百度网讯科技有限公司 训练数据清洗方法、装置、计算机设备及存储介质
CN117041168A (zh) * 2023-10-09 2023-11-10 常州楠菲微电子有限公司 QoS队列调度实现方法、装置、存储介质及处理器

Also Published As

Publication number Publication date
CN109101507B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN112069061B (zh) 深度学习梯度指导变异的软件安全漏洞检测方法及系统
US10366304B2 (en) Localization and mapping method
CN109582903B (zh) 一种信息展示的方法、装置、设备和存储介质
CN108171663B (zh) 基于特征图最近邻替换的卷积神经网络的图像填充系统
US20120150860A1 (en) Clustering with Similarity-Adjusted Entropy
CN112732583B (zh) 一种基于聚类和多种群遗传算法的软件测试数据生成方法
CN113408426B (zh) 一种变电站设备智能检测方法及其系统
CN109101507A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112199600A (zh) 目标对象识别方法和装置
CN112214677B (zh) 一种兴趣点推荐方法、装置、电子设备及存储介质
CN111654504B (zh) 一种dga域名检测方法及装置
CN112364704A (zh) 一种基于时钟同步局部放电的聚类方法及系统
CN114048816B (zh) 一种图神经网络数据采样方法、装置、设备及存储介质
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
Verwer et al. A new method for the topological analysis of neuronal tree structures
CN107948721B (zh) 推送信息的方法和装置
CN110046632B (zh) 模型训练方法和装置
CN114726823B (zh) 一种基于生成对抗网络的域名生成方法、装置和设备
CN114912628A (zh) 特征选择方法、装置、电子设备及计算机可读存储介质
CN116975742A (zh) 局部放电模式识别方法、装置、设备和存储介质
CN113127665A (zh) 基于人工智能的信息推送方法及人工智能云平台
CN110232393B (zh) 数据的处理方法、装置、存储介质和电子装置
CN104636366B (zh) 一种获取搜索结果队列的方法和装置
CN113191183A (zh) 人员重新识别中的无监督域纠正伪标签方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant