CN113434494A - 一种数据清洗方法、系统、电子设备及存储介质 - Google Patents
一种数据清洗方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113434494A CN113434494A CN202110767348.3A CN202110767348A CN113434494A CN 113434494 A CN113434494 A CN 113434494A CN 202110767348 A CN202110767348 A CN 202110767348A CN 113434494 A CN113434494 A CN 113434494A
- Authority
- CN
- China
- Prior art keywords
- data
- mark
- probability
- recognition model
- meeting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种数据清洗方法、系统、电子设备及存储介质。本方案对第一数据添加第一标记,对第二数据添加第二标记;通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型;当所述识别模型训练完成时,将所述第一数据和标记发生改变的所述第二数据作为清洗完成的数据。本方案在通过已有的数据完成模型的训练的同时,完成对于数据的筛选,得到清洗完成的数据,本方案基于迭代的思想实现对于数据的清洗,不仅避免了通过人为判定的成本,还避免了人为判定的误差,提高了数据的精度和有效性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据清洗方法、系统、电子设备及存储介质。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习的基础是不断发展的大数据分析,理论上来说,没有数据的支持,机器学习方法也是无法存在的,所以无论通过机器学习对何种事件进行预测,都是需要对数据进行采集的,一般来说数据样本的筛选会根据业务逻辑,使用所有可以用到的数据进行机器学习建模。但是由于样本的表现会受到大环境的影响,短期外部极端事件可能会污染数据样本,改变用户表现,当环境恢复后,使用被污染的样本建模反而会对模型产生不利影响。综上,现有技术存在采用被污染的样本建模,导致模型预测不准的问题。
发明内容
本发明的至少一个实施例提供了一种数据清洗方法、装置、电子设备及存储介质,以便于解决现有技术采用被污染的样本建模,导致模型预测不准的问题。
第一方面,本发明实施例提供了一种数据清洗方法,其特征在于,所述清洗方法包括:
对第一数据添加第一标记,对第二数据添加第二标记;所述第一数据为不受外部影响的数据,所述第二数据无法确定是否受外部影响的数据;
通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型;所述识别模型用于识别数据为第一标记或第二标记的数据的概率;其中,在每次迭代前,通过前一次迭代得到的识别模型,得到所述第二数据为第一标记或第二标记的数据的第一概率;根据各个所述第二数据的所述第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型;
当所述识别模型训练完成时,将所述第一数据和标记发生改变的所述第二数据作为清洗完成的数据。
基于上述技术方案,本发明实施例还可以做出如下改进。
结合第一方面,在第一方面的第一种实施例中,所述对第一数据添加第一标记,对第二数据添加第二标记之前,所述清洗方法包括:
获取待清洗数据;
将所述待清洗数据中不受外部影响的数据拆分为第一数据和参照数据。
结合第一方面的第一种实施例,在第一方面的第二种实施例中,所述在每次迭代前,通过前一次迭代得到的识别模型,得到所述第二数据为第一标记或第二标记的数据的第一概率;根据各个所述第二数据的所述第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型,包括:
在每次迭代前,通过前一次迭代得到的识别模型,得到参照数据为第一标记的数据的第二概率和所述第二数据为第一标记或第二标记的数据的第一概率;
通过所述第一概率和所述第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型。
结合第一方面的第二种实施例,在第一方面的第三种实施例中,所述对第一数据添加第一标记,对第二数据添加第二标记,包括:
对所述第一数据添加的第一标记为0,对所述第二数据添加的第二标记为1。
结合第一方面的第三种实施例,在第一方面的第四种实施例中,所述通过所述第一概率和所述第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,包括:
获取所述第一概率小于所述第二概率的第二数据,作为符合预设条件的第二数据;
将所述符合预设条件的第二数据的第二标记改变为第一标记。
结合第一方面的第三种实施例,在第一方面的第五种实施例中,所述通过所述第一概率和所述第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,包括:
对所述第二数据进行聚类,得到多组第二数据组;
针对每个第二数据组,在所述第二数据组中获取所述第一概率小于所述第二概率的第二数据,作为目标第二数据,将目标第二数据按从小至大的顺序选择所述第二数据组中数据总数量的预设比例的数量的目标第二数据,作为符合预设条件的第二数据;
将所述符合预设条件的第二数据的第二标记改变为第一标记。
结合第一方面的第一种实施例,在第一方面的第二种实施例中,所述通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型之前,所述清洗方法还包括:
通过极大似然估计方法,构建所述识别模型。
第二方面,本发明实施例提供了一种数据清洗系统,包括:
标记单元,用于对第一数据添加第一标记,对第二数据添加第二标记;所述第一数据为不受外部影响的数据,所述第二数据无法确定是否受外部影响的数据;
模型训练单元,用于通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型;所述识别模型用于识别数据为第一标记或第二标记的数据的概率;其中,在每次迭代前,通过前一次迭代得到的识别模型,得到所述第二数据为第一标记或第二标记的数据的第一概率;根据各个所述第二数据的所述第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型;
清洗单元,用于当所述识别模型训练完成时,将所述第一数据和标记发生改变的所述第二数据作为清洗完成的数据。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面中任一所述的数据清洗方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一所述数据清洗方法。
本发明的上述技术方案与现有技术相比具有如下优点:本发明实施例通过对数据源中可以判定不受外部影响的数据添加第一标记,对无法判断是否受到外部影响的第二数据添加第二标记,然后通过第一数据和第二数据对识别模型进行迭代,在每次迭代时都通过得到的识别模型对数第二数据进行识别,以此完成对于第二数据的筛选,在不断的迭代过后,最终识别得到的模型可以准确的识别第一数据和第二数据对应的标记,在完成模型的训练的同时,完成对于数据的筛选,得到清洗完成的数据,本方案基于迭代的思想实现对于数据的清洗,不仅避免了通过人为判定的成本,还避免了人为判定的误差。
附图说明
图1是本发明实施例提供的数据清洗方法流程示意图;
图2是本发明另一实施例提供的数据清洗方法流程示意图;
图3是本发明又一实施例提供的数据清洗方法流程示意图;
图4是本发明又一实施例提供的一种数据清洗系统结构示意图;
图5是本发明又一实施例提供的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为实现本发明各个实施例,本发明提供了一种数据清洗装置,包括终端,其中,终端可以是诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant,PDA)、便捷式媒体播放器(PortableMediaPlayer,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字TV、台式计算机等固定终端。
如图1所示,本发明实施例提供的一种数据清洗方法,参照图1,清洗方法包括如下步骤:
S11、对第一数据添加第一标记,对第二数据添加第二标记;第一数据为不受外部影响的数据,第二数据无法确定是否受外部影响的数据。
在本实施例中,基于机器学习算法建模比较依赖历史样本,历史样本的数据量越大,最终建立的模型对事件进行预测的准确性越高,但是历史样本对应的对象的表现期越长,当外部环境短期内发生变化时对对象的表现也会产生较大影响,比如,借贷用户因为疫情失业导致逾期、开饭店的用户因天气恶劣(雪灾)没有客人导致关门无法还清欠款,当环境恢复后,受短期黑天鹅事件影响的历史样本中的部分数据会受到外部影响,因为通过模型对事件进行预测的大部分过程都是平稳的环境下进行的,突变的环境导致数据被污染,若采用污染的数据去训练得到模型,最终得到的模型也容易产生误差。
在本实施例中,第一数据为不受外部影响的数据,比如,恶劣天气下,开饭店的用户其欠款的还款期限、其生活的开支等是不受外部影响的数据;第二数据为受到外部影响的数据,比如,恶劣天气下,开饭店的用户的生意情况、店铺门口的人流量等数据,由于不同情况下对样本中的数据产生的影响是不一样的,比如,恶劣的天气会影响到用户所处的环境状态,但是不会影响到他的一些日常生活;突发的疫情不会影响到用户所处的环境状态,但是会影响到用户的日常生活。
在本实施例中,针对环境发生的变化,针对不受外部影响的数据添加第一标记,针对为受到外部影响的数据添加第二标记,但是,此时我们只能确定那些数据是一点没有受到影响的,对于剩余的其他数据只能知晓可能有数据被污染了,但是无法确定哪些数据被污染了或者是否有数据被污染了;本方案中将第一数据和第二数据分别添加标记,在本方案中,通过第一标记表示第一数据未受到影响,第二标记表示数据受到外部影响,而后通过后续步骤对标记有第二标记的数据进行筛选。
在本实施例中,判断数据是否不受外部影响,可以通过数据是否发生变化来确定,比如,在发生了某些事件后,我们无法判断数据是否因为这个事件而发生了变化,但是,只要有数据的波动情况还是保持恒定,我们就可以将这部分依旧符合原先的规律的数据作为不受外部影响的数据,所以,可以通过数据的波动性来判断数据是否受到外部影响,当数据的波动性保持稳定时,数据为不受外部影响的数据。当然,也可以采用人工筛选的方式选定部分不受外部影响的数据,本方案对此不做特别限定。
S12、通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型;识别模型用于识别数据为第一标记或第二标记的数据的概率;其中,在每次迭代前,通过前一次迭代得到的识别模型,得到第二数据为第一标记或第二标记的数据的第一概率;根据各个第二数据的第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型。
在本实施例中,通过第一数据和第一数据对应的第一标记作为识别模型的输入和输出、第二数据和第二数据对应的第二标记作为识别模型的输入和输出,对识别模型进行训练,即可得到一个用于识别数据为第一标记的数据或第二标记的数据,可以想见,由于第二数据是无法确定是否包含有被污染数据的数据源,此时,将第二数据输入识别模型后,有些第二数据会被识别为第一标记的数据,而有些第二数据会被识别为第二标记的数据,所以,此时,通过对数据源的标记进行调整,即根据识别模型对于第二数据的识别,完成对于第二数据的标记的更改;通过标记调整后的第二数据和原先的数据再次对识别模型进行训练,则可以得到进一步完善的识别模型,然后再重复上述步骤进行迭代,最终,我们可以得到一个训练完成的模型、添加了第一标记的第二数据、添加了第二标记的第二数据和添加了第一标记的第一数据,通过这个模型去识别第一数据或第二数据,得到的识别结果与相应的标记保持一致,或着得到的识别结果与相应的标记大部分保持一致。
在本实施例中,当识别模型对于第二数据的识别结果和第一数据的识别结果趋于稳定时,即可确定识别模型迭代完成,本方案中,识别模型得到的结果趋于稳定,即对数据进行识别得到的识别结果与数据相应的标记大部分保持一致,大部分保持一致,可以根据所要求的精度来确定,当要求的精度较高时,越高比例的识别结果与相应的标记保持一致,才能认为识别模型迭代完成,这样需要迭代的次数就越高,反之,精度要求越低,需要迭代的次数就越少,在本实施例中,当百分之95以上的第一数据和第二数据的识别结果与相应的标记保持一致,则判定识别模型收敛,得到训练完成的识别模型。
在本实施例中,由于识别模型训练是否完成是有参照结果的,但是由于部分数据被污染,所以,可以基于半监督学习算法构建识别模型,具体的,可以通过最大期望算法(Expectation-Maximization algorithm,EM)或Dempster-Laird-Rubin算法构建识别模型,最大期望算法(Expectation-Maximization algorithm,EM),或Dempster-Laird-Rubin算法,是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation,MLE)的优化算法,具体而言,通过极大似然估计构建识别模型时,由于对于数据是否受到环境影响只有是或者否两种结果,所以,可以通过极大似然估计算法中的伯努利分布算法来构建识别模型。
S13、当识别模型训练完成时,将第一数据和标记发生改变的第二数据作为清洗完成的数据。
在本实施例中,本方案通过上述迭代方法对识别模型进行迭代,在每次迭代得到的识别模型时,通过该识别模型来对第二数据进行识别,实现对于第二数据是否会被影响进行判断,并调整第二数据上的标签,重新通过第一数据和第二数据对识别模型进行再次训练,以此来进行不断迭代,当识别模型对于第二数据的识别趋于稳定时,即可判定识别模型训练完成,此时,也完成了对于第二数据的判断,所以,将标记有第二标记的第二数据从数据源中删除,即可得到清洗完成的数据,或者,提取第一数据和标记发生改变的第二数据,作为清洗完成的数据。
在本实施例中,本方案通过对数据源中可以判定不受外部影响的数据添加第一标记,对无法判断是否受到外部影响的第二数据添加第二标记,然后通过第一数据和第二数据对识别模型进行迭代,在每次迭代时都通过得到的识别模型对数第二数据进行识别,以此完成对于第二数据的筛选,在不断的迭代过后,最终识别得到的模型可以准确的识别第一数据和第二数据对应的标记,在完成模型的训练的同时,完成对于数据的筛选,得到清洗完成的数据,本方案基于迭代的思想实现对于数据的清洗,不仅避免了通过人为判定的成本,还避免了人为判定的误差。
在本实施例中,步骤S11对第一数据添加第一标记,对第二数据添加第二标记之前,清洗方法包括如下步骤:
获取待清洗数据;将待清洗数据中不受外部影响的数据拆分为第一数据和参照数据。
在本实施例中,基于上述实施例,待清洗数据可以是在外部环境出现突发事件后所采集到的各项数据,此时,我们在确定了不受外部影响的数据后,将这不受外部影响的数据拆分为第一数据和参照数据,通过第一数据执行上述方案,通过参照数据可以对识别模型进行验证,也可以通过参照数据来对第二数据的标记是否错误来进行判定。
如图2所示,本发明实施例提供的一种数据清洗方法,参照图2,清洗方法包括如下步骤:
S21、对第一数据添加第一标记,对第二数据添加第二标记;第一数据为不受外部影响的数据,第二数据无法确定是否受外部影响的数据。
有关步骤S21,详细可参见步骤S11中的描述,本实施例在此不再赘述。
S22、在每次迭代前,通过前一次迭代得到的识别模型,得到参照数据为第一标记的数据的第二概率和第二数据为第一标记或第二标记的数据的第一概率。
在本实施例中,参照数据可以是上述实施例中得到的不受外部影响的数据中拆分得到的,也可以是部分第一数据;本方案中,当对模型进行迭代时,根据前一次迭代得到的识别模型,获取参照数据为第一标记的数据的第二概率,和第二数据为第一标记或第二标记的数据的第一概率,由于识别模型所能输出的是一个与标记相关的数值,比如,基于伯努利分布算法来构建识别模型,该识别模型输出的是一个0至1之间的值,而其他方法构建的识别模型最终都可以落到对应的概率上。
S23、通过第一概率和第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型。
在本实施例中,当0对应为是时,那1对应的就是否,所以,当识别模型输出的值小于0.5时,可以认为判定为是这个结果,反之,则可以判定为否这个结果,所以,在本方案中,若得到的第一概率比第二概率更符合第一标记时,则可以将第二数据的第二标记改变为第一标记,比如,0对应的是第一标记,1对应的是第二标记,若第一概率小于第二概率,则可以直接将第二数据的第二标记改变为第一标记,具体的,在本方案中,由于参照数据可以有多个,所以,只需要第一概率比任一第二概率小,则可以将第二数据的第二标记改变为第一标记,或者,将参照数据对应的第二概率进行平均,当第一概率小于第二概率的平均值时,则将第二数据的第二标记改变为第一标记,同理,也可以是0对应的是第二标记,1对应的是第一标记,该举例只是为了方便理解,并不是对本方案的限定。
S24、当识别模型训练完成时,将第一数据和标记发生改变的第二数据作为清洗完成的数据。
有关步骤S24,详细可参见步骤S13中的描述,本实施例在此不再赘述。
在本实施例中,通过参照样本来对第二数据的标记是否错误来进行验证,更加有效的筛选出第二数据中未受到外部影响的数据,进一步提高数据的精度。
在本实施例中,步骤S22中对第一数据添加第一标记,对第二数据添加第二标记,包括但不限于:对第一数据添加的第一标记为0,对第二数据添加的第二标记为1。在本方案中将第一标记设定为0,第二标记设定为1,对识别模型进行训练,向识别模型输入待识别数据,识别模型就会输出一个数值,若数值小于0.5,则认为待识别数据更偏向于第一数据,即不受外部影响的数据,反之,则认为待识别数据更偏向于受到外部影响的数据。当然,本方案还可以直接将第一标记设定为1,将第二标记设定为0,对此本方案在此不再赘述。
在本实施例中,结合上述实施例中将第一标记设定为0,第二标记设定为1,步骤S23中通过第一概率和第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,包括如下步骤:
获取第一概率小于第二概率的第二数据,作为符合预设条件的第二数据;将符合预设条件的第二数据的第二标记改变为第一标记。
在本实施例中,获取第一概率小于第二概率的第二数据,作为符合预设条件的第二数据,具体的,若参照数据只有一个,则可以直接将第一小于第二概率的第二数据,作为符合预设条件的第二数据,若参照数据有多个,则可以将各个参照数据的第二概率取平均值,将第一概率小于平均值的第二数据作为符合预设条件的第二数据。
或者,如图3所示结合上述实施例中将第一标记设定为0,第二标记设定为1,步骤S23中通过第一概率和第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,可以包括如下步骤:
S31、对第二数据进行聚类,得到多组第二数据组。
在本实施例中,由于发生突发事件的持续时长是不确定的,所以,每个种类的数据受到突发事件影响的时长也不确定,但是可以认定的是,时间不可能卡的刚刚好,所有的第二数据都是被影响的数据,在本方案中,通过将第二数据进行聚类,分别得到不同类别的第二数据对应的第二数据组,在第二数据组内完成数据的筛选,一方面可以提高数据处理效率,另一方面,可以进一步提高对于第二数据的筛选精度。
S32、针对每个第二数据组,在第二数据组中获取第一概率小于第二概率的第二数据,作为目标第二数据,将目标第二数据按从小至大的顺序选择第二数据组中数据总数量的预设比例的数量的目标第二数据,作为符合预设条件的第二数据。
S33、将符合预设条件的第二数据的第二标记改变为第一标记。
在本实施例中,对每个第二数据组中的第二数据进行判定,筛选出目标第二数据,然后进一步选择目标第二数据中从小到大顺序的预设比例数量的目标第二数据,比如,可以只选择百分之5比例、从小到大顺序的目标第二数据,作为符合预设条件的第二数据,以此来实现对于第二数据筛选过程的进一步限定,虽然这样会增加迭代的次数,但是可以保证最终清洗得到的数据更加干净,精度更高。
如图4所示,本发明实施例提供了一种数据清洗系统,包括:标记单元11、模型训练单元12和清洗单元13。
在本实施例中,标记单元11,用于对第一数据添加第一标记,对第二数据添加第二标记;第一数据为不受外部影响的数据,第二数据无法确定是否受外部影响的数据;
在本实施例中,模型训练单元12,用于通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型;识别模型用于识别数据为第一标记或第二标记的数据的概率;其中,在每次迭代前,通过前一次迭代得到的识别模型,得到第二数据为第一标记或第二标记的数据的第一概率;根据各个第二数据的第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型;
在本实施例中,清洗单元13,用于当识别模型训练完成时,将第一数据和标记发生改变的第二数据作为清洗完成的数据。
在本实施例中,清洗系统还包括:拆分单元,用于获取待清洗数据;将待清洗数据中不受外部影响的数据拆分为第一数据和参照数据。
在本实施例中,模型训练单元12,具体用于在每次迭代前,通过前一次迭代得到的识别模型,得到参照数据为第一标记的数据的第二概率和第二数据为第一标记或第二标记的数据的第一概率;通过第一概率和第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型。
在本实施例中,标记单元11,具体用于对第一数据添加的第一标记为0,对第二数据添加的第二标记为1。
在本实施例中,模型训练单元12,具体用于获取第一概率小于第二概率的第二数据,作为符合预设条件的第二数据;将符合预设条件的第二数据的第二标记改变为第一标记。
或者,在本实施例中,模型训练单元12,具体用于对第二数据进行聚类,得到多组第二数据组;针对每个第二数据组,在第二数据组中获取第一概率小于第二概率的第二数据,作为目标第二数据,将目标第二数据按从小至大的顺序选择第二数据组中数据总数量的预设比例的数量的目标第二数据,作为符合预设条件的第二数据;将符合预设条件的第二数据的第二标记改变为第一标记。
在本实施例中,清洗系统还包括:模型构建单元,用于通过极大似然估计方法,构建识别模型。
本发明实施例的装置的功能已经在上述的方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
如图5所示,本发明实施例提供了一种电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现上述任一实施例的数据清洗方法。
本发明实施例提供的电子设备,处理器1110通过执行存储器1130上所存放的程序通过对数据源中可以判定不受外部影响的数据添加第一标记,对无法判断是否受到外部影响的第二数据添加第二标记,然后通过第一数据和第二数据对识别模型进行迭代,在每次迭代时都通过得到的识别模型对数第二数据进行识别,以此完成对于第二数据的筛选,在不断的迭代过后,最终识别得到的模型可以准确的识别第一数据和第二数据对应的标记,在完成模型的训练的同时,完成对于数据的筛选,得到清洗完成的数据,本方案基于迭代的思想实现对于数据的清洗,不仅避免了通过人为判定的成本,还避免了人为判定的误差。
上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器1130(RandomAccessMemory,简称RAM),也可以包括非易失性存储器1130(non-volatilememory),例如至少一个磁盘存储器1130。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器1110,包括中央处理器1110(CentralProcessingUnit,简称CPU)、网络处理器1110(NetworkProcessor,简称NP)等;还可以是数字信号处理器1110(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器1110执行,以实现上述任一实施例的数据清洗方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数据清洗方法,其特征在于,所述清洗方法包括:
对第一数据添加第一标记,对第二数据添加第二标记;所述第一数据为不受外部影响的数据,所述第二数据无法确定是否受外部影响的数据;
通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型;所述识别模型用于识别数据为第一标记或第二标记的数据的概率;其中,在每次迭代前,通过前一次迭代得到的识别模型,得到所述第二数据为第一标记或第二标记的数据的第一概率;根据各个所述第二数据的所述第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型;
当所述识别模型训练完成时,将所述第一数据和标记发生改变的所述第二数据作为清洗完成的数据。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述对第一数据添加第一标记,对第二数据添加第二标记之前,所述清洗方法包括:
获取待清洗数据;
将所述待清洗数据中不受外部影响的数据拆分为第一数据和参照数据。
3.根据权利要求2所述的数据清洗方法,其特征在于,所述在每次迭代前,通过前一次迭代得到的识别模型,得到所述第二数据为第一标记或第二标记的数据的第一概率;根据各个所述第二数据的所述第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型,包括:
在每次迭代前,通过前一次迭代得到的识别模型,得到参照数据为第一标记的数据的第二概率和所述第二数据为第一标记或第二标记的数据的第一概率;
通过所述第一概率和所述第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型。
4.根据权利要求3所述的数据清洗方法,其特征在于,所述对第一数据添加第一标记,对第二数据添加第二标记,包括:
对所述第一数据添加的第一标记为0,对所述第二数据添加的第二标记为1。
5.根据权利要求4所述的数据清洗方法,其特征在于,所述通过所述第一概率和所述第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,包括:
获取所述第一概率小于所述第二概率的第二数据,作为符合预设条件的第二数据;
将所述符合预设条件的第二数据的第二标记改变为第一标记。
6.根据权利要求4所述的数据清洗方法,其特征在于,所述通过所述第一概率和所述第二概率,将符合预设条件的第二数据的第二标记改变为第一标记,包括:
对所述第二数据进行聚类,得到多组第二数据组;
针对每个第二数据组,在所述第二数据组中获取所述第一概率小于所述第二概率的第二数据,作为目标第二数据,将目标第二数据按从小至大的顺序选择所述第二数据组中数据总数量的预设比例的数量的目标第二数据,作为符合预设条件的第二数据;
将所述符合预设条件的第二数据的第二标记改变为第一标记。
7.根据权利要求1~6中任一所述的数据清洗方法,其特征在于,所述通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型之前,所述清洗方法还包括:
通过极大似然估计方法,构建所述识别模型。
8.一种数据清洗系统,其特征在于,包括:
标记单元,用于对第一数据添加第一标记,对第二数据添加第二标记;所述第一数据为不受外部影响的数据,所述第二数据无法确定是否受外部影响的数据;
模型训练单元,用于通过添加有第一标记和第二标记的第一数据和第二数据对识别模型进行迭代,得到训练完成的识别模型;所述识别模型用于识别数据为第一标记或第二标记的数据的概率;其中,在每次迭代前,通过前一次迭代得到的识别模型,得到所述第二数据为第一标记或第二标记的数据的第一概率;根据各个所述第二数据的所述第一概率,将符合预设条件的第二数据的第二标记改变为第一标记,并通过添加有第一标记或第二标记的第一数据和第二数据再次对识别模型进行迭代,直至不存在符合预设条件的第二数据,得到训练完成的识别模型;
清洗单元,用于当所述识别模型训练完成时,将所述第一数据和标记发生改变的所述第二数据作为清洗完成的数据。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1~7中任一所述的数据清洗方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一所述数据清洗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767348.3A CN113434494A (zh) | 2021-07-07 | 2021-07-07 | 一种数据清洗方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767348.3A CN113434494A (zh) | 2021-07-07 | 2021-07-07 | 一种数据清洗方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113434494A true CN113434494A (zh) | 2021-09-24 |
Family
ID=77759447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110767348.3A Pending CN113434494A (zh) | 2021-07-07 | 2021-07-07 | 一种数据清洗方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434494A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617943A (zh) * | 2022-10-09 | 2023-01-17 | 名之梦(上海)科技有限公司 | 文本清洗方法、装置、设备与计算机可读存储介质 |
-
2021
- 2021-07-07 CN CN202110767348.3A patent/CN113434494A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115617943A (zh) * | 2022-10-09 | 2023-01-17 | 名之梦(上海)科技有限公司 | 文本清洗方法、装置、设备与计算机可读存储介质 |
CN115617943B (zh) * | 2022-10-09 | 2023-06-30 | 名之梦(上海)科技有限公司 | 文本清洗方法、装置、设备与计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491432B (zh) | 基于人工智能的低质量文章识别方法及装置、设备及介质 | |
JP5031206B2 (ja) | 指数モデルの適合 | |
CN110889463A (zh) | 一种样本标注方法、装置、服务器及机器可读存储介质 | |
CN111708876A (zh) | 生成信息的方法和装置 | |
CN111401940A (zh) | 特征预测方法、装置、电子设备及存储介质 | |
CN111695084A (zh) | 模型生成方法、信用评分生成方法、装置、设备及存储介质 | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN110990627A (zh) | 一种知识图谱构建的方法、装置、电子设备及介质 | |
CN114399321A (zh) | 一种业务系统稳定性分析方法、装置和设备 | |
CN113407854A (zh) | 一种应用推荐方法、装置、设备及计算机可读存储介质 | |
CN115965463A (zh) | 模型训练方法、装置、计算机设备及存储介质 | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
CN113434494A (zh) | 一种数据清洗方法、系统、电子设备及存储介质 | |
CN108647986B (zh) | 一种目标用户确定方法、装置及电子设备 | |
CN111582313B (zh) | 样本数据生成方法、装置及电子设备 | |
EP4258193A1 (en) | Method and apparatus for predicting risk, electronic device, computer readable storage medium | |
CN111813941A (zh) | 结合rpa和ai的文本分类方法、装置、设备及介质 | |
CN111445271A (zh) | 模型生成方法、作弊酒店的预测方法、系统、设备和介质 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN114648688A (zh) | 高铁沿线景观等级评估方法、系统、设备及可读存储介质 | |
CN114757695A (zh) | 用户购买行为预测模型的构建方法、装置及计算机设备 | |
CN114298825A (zh) | 还款积极度评估方法及装置 | |
CN113987136A (zh) | 文本分类标签的校正方法、装置、设备及存储介质 | |
CN110348190B (zh) | 基于用户操作行为的用户设备归属判断方法及装置 | |
CN113627513A (zh) | 一种训练数据生成方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210924 |