CN110727668A - 数据清洗方法及装置 - Google Patents

数据清洗方法及装置 Download PDF

Info

Publication number
CN110727668A
CN110727668A CN201910945487.3A CN201910945487A CN110727668A CN 110727668 A CN110727668 A CN 110727668A CN 201910945487 A CN201910945487 A CN 201910945487A CN 110727668 A CN110727668 A CN 110727668A
Authority
CN
China
Prior art keywords
data
cleaned
cleaning
category
rule corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910945487.3A
Other languages
English (en)
Other versions
CN110727668B (zh
Inventor
江涛
严晖
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910945487.3A priority Critical patent/CN110727668B/zh
Publication of CN110727668A publication Critical patent/CN110727668A/zh
Application granted granted Critical
Publication of CN110727668B publication Critical patent/CN110727668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据清洗方法及装置,涉及数据处理技术领域,其中方法包括:获取多个待清洗数据;根据所述多个待清洗数据的属性信息,将所述多个待清洗数据划分为至少一个类别的待清洗数据;分别从每个类别的待清洗数据中抽取部分中间数据;使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗。本申请提供的数据清洗方法及装置,能够提高对数据进行清洗的效率。

Description

数据清洗方法及装置
技术领域
本申请涉及数据处理技术领域,其中,本申请尤其涉及一种数据清洗方法及装置。
背景技术
目前,随着计算机技术的不断发展,网络内容提供商需要对海量数据进行归纳、分析并进行处理后,得到客户需要的信息。而网络内容提供商在基于网络数据进行分析时,由于网络上数据的多元化、各数据表达方式无法完全统一,因此需要对数据进行例如数据清洗的预处理之后,才能将预处理后结构化的数据用于后续提供数据产品或者构建知识图谱等应用中。
现有技术中,在对数据进行数据清洗时,首先需要数据分析工程师根据待清洗的数据的特征后人工制定数据的清洗策略,随后再由软件开发工程师基于清洗策略编写清洗程序,最终由清洗程序实现对数据的清洗。
但是,当需要清洗的数量较大时,对人工制定清洗策略的方式带来极大的挑战,需要数据分析工程师识别大量的数据后才能制定清洗策略,同时,越多的数据也会更多不同的清洗策略,也对软件开发工程师编写清洗程序提出了更多的要求,造成了现有技术中对大量的数据进行清洗时耗时又耗力,严重降低了对数据进行清洗的效率。
发明内容
本申请提供一种数据清洗方法及装置,以克服现有技术中数据清洗效率较低的问题。
本申请第一方面提供一种数据清洗方法,包括:获取多个待清洗数据;根据所述多个待清洗数据的属性信息,将所述多个待清洗数据划分为至少一个类别的待清洗数据;分别从每个类别的待清洗数据中抽取部分中间数据;使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗。
综上,本实施例提供的数据清洗方法能够通过电子设备对获取的多个待清洗数据进行分类并抽样后,根据预设数据清洗规则对每个类别的中间数据的清洗结果,确定每个类别对应的数据清洗规则,从而可以根据所确定的数据清洗规则再对多个待清洗数据整体按照不同类别进行清洗,最终实现对多个待清洗数据的清洗。因此,可以由电子设备主动确定对不同类别的待清洗数据的清洗规则,而不需要数据分析工程师识别大量数据后制定清洗策略,也不需要软件开发工程师编写数据清洗程序,减少了现有技术中对数据清洗时所投入的时间和人力,从而通过一种更加智能化的数据清洗方法,提高了对数据进行清洗时的效率。
在本申请第一方面一实施例中,所述使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则,包括:针对每个类别的中间数据,使用所述多个预设数据清洗规则分别进行清洗,并分别计算所述多个预设数据清洗规则对所述中间数据进行清洗的第一清洗完成率;确定最高的第一清洗完成率对应的预设数据清洗规则,为该类别的待清洗数据对应的数据清洗规则。
综上,本实施例提供的数据清洗方法中在确定每个类别待清洗数据对应的数据清洗规则时,仅仅根据每个类别所抽样得到的中间数据进行预清洗,并根据多个预设数据清洗规则对中间数据的清洗结果确定每个类别对应的数据清洗规则后,再实际对多个待清洗数据进行清洗,还使得本申请提供的数据清洗方法具有更小的计算量、更快的计算速度,能够实时确定不同类别对应的数据清洗规则,具有较强的灵活性,还进一步提高了对数据进行清洗时的效率。
在本申请第一方面一实施例中,所述使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗之后,还包括:计算对所述多个待清洗数据进行清洗后的第二清洗完成率;若所述第二清洗完成率小于预设阈值,重新确定每个类别的待清洗数据对应的数据清洗规则。
综上,本实施例提供的数据清洗方法除了对所获取的多个待清洗数据进行分类、抽样以及分类清洗,还会对清洗后的效果进行验证,只有在效果较好时确定完成对多个待清洗数据的清洗,在提高数据清洗效率的基础上,保证了对数据进行清洗时的清洗效果。
在本申请第一方面一实施例中,所述使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗之后,还包括:在显示界面上显示对所述多个待清洗数据进行清洗的可视化信息。
其中,所述可视化信息包括以下的至少一项:所述多个待清洗数据的地址信息、所述多个待清洗数据的至少一个类别、每个类别的待清洗数据对应的数据清洗规则和清洗后的所述多个待清洗数据的地址信息。
综上,本实施例提供的数据清洗方法中电子设备可以通过显示界面将整个数据清洗流程展示给用户,使得用户只需要通过点选操作就可以观察数据清洗效果、选择数据清洗规则以及同时提供可支持编码进行清洗以满足复杂的清洗场景,而所有的操作在平台上都是所见即所得,可以提高数据处理时用户的参与度,从而提高用户体验。
在本申请第一方面一实施例中,还包括:接收用户对所述显示界面上目标控件的第一点击操作;其中,所述目标控件用于确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的第一数据清洗规则;根据所述点击操作,确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的数据清洗规则为所述第一数据清洗规则。
综上,本实施例提供的数据清洗方法中,还可以由用户选择待清洗数据中某一类别对应的数据清洗规则,使得该方法能够具有一定的交互性,提高用户的参与度,减少直接的计算量,并提高用户体验。
在本申请第一方面一实施例中,还包括:接收用户在所述显示界面上目标文本框输入的第二数据清洗规则;将所述第二数据清洗规则作为预设数据清洗规则。
综上,本实施例提供的数据清洗方法中,还可以由用户新增新的预设数据清洗规则,从而提高数据清洗规则的灵活性,扩展本申请能够应用的领域及范围。
在本申请第一方面一实施例中,所述待清洗数据的属性信息包括:所述待清洗数据对应以下的至少一项:人名、国籍、民族、毕业学校、生日和职业。
在本申请第一方面一实施例中,所述数据清洗规则包括:多值分离、多值合并、HTML转义、移除首尾空格、收起连续空格、规范表达和去除冗余信息。
本申请第二方面提供一种数据清洗装置,包括:获取模块,用于获取多个待清洗数据;分类模块,用于根据所述多个待清洗数据的属性信息,将所述多个待清洗数据划分为至少一个类别的待清洗数据;抽取模块,用于分别从每个类别的待清洗数据中抽取部分中间数据;确定模块,用于使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;清洗模块,用于使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗。
在本申请第二方面一实施例中,所述确定模块具体用于,针对每个类别的中间数据,使用所述多个预设数据清洗规则分别进行清洗,并分别计算所述多个预设数据清洗规则对所述中间数据进行清洗的第一清洗完成率;确定最高的第一清洗完成率对应的预设数据清洗规则,为该类别的待清洗数据对应的数据清洗规则。
在本申请第二方面一实施例中,还包括:验证模块,用于计算对所述多个待清洗数据进行清洗后的第二清洗完成率;其中,若所述验证模块确定所述第二清洗完成率小于预设阈值,所述确定模块用于重新确定每个类别的待清洗数据对应的数据清洗规则。
在本申请第二方面一实施例中,还包括:显示模块,用于在显示界面上显示对所述多个待清洗数据进行清洗的可视化信息。
在本申请第二方面一实施例中,所述可视化信息包括以下的至少一项:所述多个待清洗数据的地址信息、所述多个待清洗数据的至少一个类别、每个类别的待清洗数据对应的数据清洗规则和清洗后的所述多个待清洗数据的地址信息
在本申请第二方面一实施例中,还包括:接收模块,用于接收用户对所述显示界面上目标控件的第一点击操作;其中,所述目标控件用于确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的第一数据清洗规则;所述确定模块还用于,确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的数据清洗规则为所述第一数据清洗规则。
在本申请第二方面一实施例中,所述接收模块还用于,接收用户在所述显示界面上目标文本框输入的第二数据清洗规则;所述确定模块还用于,将所述第二数据清洗规则作为预设数据清洗规则。
在本申请第二方面一实施例中,所述待清洗数据的属性信息包括:所述待清洗数据对应以下的至少一项:人名、国籍、民族、毕业学校、生日和职业。
在本申请第二方面一实施例中,所述数据清洗规则包括:多值分离、多值合并、HTML转义、移除首尾空格、收起连续空格、规范表达和去除冗余信息。
本申请第三方提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面中任一项所述的方法。
本申请第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面中任一项所述的方法
综上,本申请提供一种数据清洗方法及装置,涉及数据处理技术领域,其中方法包括:获取多个待清洗数据;根据所述多个待清洗数据的属性信息,将所述多个待清洗数据划分为至少一个类别的待清洗数据;分别从每个类别的待清洗数据中抽取部分中间数据;使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗。
因此,本申请提供的数据清洗方法及装置具有如下优点或有益效果:
因为才用了通过电子设备对获取的多个待清洗数据进行分类并抽样后,根据预设数据清洗规则对每个类别的中间数据的清洗结果,确定每个类别对应的数据清洗规则的技术手段,从而可以根据所确定的数据清洗规则再对多个待清洗数据整体按照不同类别进行清洗,最终实现对多个待清洗数据的清洗。所以克服了现有技术中电子设备主动确定对不同类别的待清洗数据的清洗规则,而需要数据分析工程师识别大量数据后制定清洗策略,也需要软件开发工程师编写数据清洗程序使得数据清洗效率较低的技术问题,进而达到了减少现有技术中对数据清洗时所投入的时间和人力,从而通过一种更加智能化的数据清洗方法,提高对数据进行清洗时的效率的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请提供的数据清洗方法第一实施例的流程示意图;
图2是根据本申请提供的数据清洗方法第二实施例的流程示意图;
图3是根据本申请提供的数据清洗方法第三实施例的流程示意图;
图4是本申请提供的数据清洗方法中显示界面第一实施例的示意图;
图5是本申请提供的数据清洗方法中显示界面第二实施例的示意图;
图6是本申请提供的数据清洗方法中显示界面第三实施例的示意图;
图7是本申请提供的数据清洗装置第一实施例的结构示意图;
图8是本申请提供的数据清洗装置第二实施例的结构示意图;
图9是本申请提供的数据清洗装置第三实施例的结构示意图;
图10是用来实现本申请实施例的数据清洗方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的示意图,如图1所示,本实施例提供的数据清洗方法包括:
S101:获取多个待清洗数据。
具体地,本申请各实施例提供的数据清洗方法的执行主体可以是任何具有相关数据处理功能的电子设备,例如:手机、平板电脑、笔记本电脑、台式电脑,以及服务器等;或者,执行主体还可以是电子设备中的芯片,例如:CPU或者GPU等。本申请各实施例中以执行主体为电子设备为例进行说明,而非对其进行限定。
则本申请各实施例提供的电子设备在对数据进行清洗时,首先通过S101获取多个待清洗数据,其中,所述待清洗数据是指需要进行数据清洗的数据,并且本申请中获取的所述多个待清洗数据包括两个及两个以上。示例性地,所述待清洗数据可以是“A(中国男演员)”,则可以进行数据清洗去除冗余信息后可以得到“A”;或者,所述待清洗数据还可以是“2017年2月26日星期日”,则进行数据清洗规范表达后可以得到“2017-02-26”。
可选地,电子设备可以在S101中获取用户输入的多个待清洗数据,或者,电子设备还可以在S101中获取用户输入的多个待清洗数据的地址信息,随后根据地址信息从互联网中获取所述多个待清洗数据。
S102:根据多个待清洗数据的属性信息,将多个待清洗数据划分为至少一个类别的待清洗数据。
随后,在S102中,电子设备将S101中所获取的多个待清洗数据进行分类,划分至少一个类别。在一种具体的实现中,可以根据待清洗数据的属性信息对待清洗数据进行分类。其中,所述属性信息可以是待清洗数据所对应的内容:人名、国籍、民族、毕业学校、生日和职业等。
示例性地,若在互联网上搜索中国男演员A,则可以搜索到的数据有“A(中国男演员)”、“中国”、“汉族”、“B大学”、“2000年1月1日”和“演员,歌手”,上述数据均可作为本申请实施例中所述的待清洗数据,并且上述数据分别对应的属性信息为:人名、国籍、民族、毕业学校、生日和职业。则S102中可以将上述待清洗数据按照属性划分为,人名类别:“A(中国男演员)”、国籍类别“中国”、民族类别“汉族”、毕业学校类别“B大学”、生日类别“2000年1月1日”和职业类别“演员,歌手”。可以理解的是,这里仅以一个示例对每个类别进行说明,在实际应用中,所述多个待清洗数据可以包括不同演员可搜索到的数据,每个演员搜索到的数据均可对应的上述每种类别,使得多个待清洗数据被划分为至少一个类别后,每个类别中也还包括多个待清洗数据。
S103:分别从每个类别的待清洗数据中抽取部分中间数据。
进一步地,考虑到实际应用中待清洗数据的数量较多,即使在S102中按照不同类别进行分类后,每个类别中依然存在较多的待清洗数据,则在S103中,在所分类后的每个类别中,抽取随机数量的待清洗数据作为进行后续处理的中间数据。例如,若1000个待清洗数据划分为三类后,每个类别中包括200,300和500个数据,则在每个类别中均可以随机抽取10个作为中间数据;或者,在每个类别中可以按照相同的比例,分别随机抽取20,30和50个数据最为中间数据;又或者,每个类别中随机抽取的中间数据的个数不做限定。
S104:使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则。
具体地,在S104中,对S103中所划分的每一个类别的待清洗数据分别进行处理,根据存储的多个预设数据清洗规则对每个类别的中间数据进行清洗的结果,确定每个类别的待清洗数据对应的数据清洗规则,即,S104中相当于通过每个类别的中间数据对每个类别的待清洗数据进行“预清洗”,以通过少量的中间数据,确定出每个类别的待清洗数据整体的数据清洗规则。
更为具体地,针对每一个类别的待清洗数据,在S104中电子设备都会使用存储的多个预设数据清洗规则进行清洗。其中,所述预设数据清洗规则可以包括:多值分离、多值合并、超级文本标记语言(Hyper Text Markup Language,简称:HTML)转义、移首尾空格、收齐连续空格和规范表达等。
示例性地,若生日类别的待清洗数据所抽样的中间数据包括:“2000年1月1日”、“1692.01.06”和“09月18日1968年”,则电子设备使用预设数据清洗规则依次清洗上述三个中间数据后,只有使用规范表达的数据清洗规则,可以将上述三个中间数据均清洗为统一的格式“2000-1-1”、“1692-01-06”和“1968-09-18”,前后比对被清洗的第一清完成洗率为3/3=100%。而其他数据清洗规则例如移除首尾空格,由于上述中间数据没有空格,进行清洗后没有变化,前后比对别清洗的第一清洗完成率为0/3=0%。则在本示例中,针对生日类别的待清洗数据中所抽取的中间数据,经过所有预设数据清洗规则的清洗后,可以确定对中间数据的第一清洗完成率最高的规范表达的数据清洗规则,作为该生日类别的待清洗数据对应的数据清洗规则。
按照上述示例中相同的方式,S104中对不同类别的中间数据均根据多个预设数据清洗规则进行星期后,确定最高清洗完成率的数据清洗规则,例如,可以确定待清洗数据中,生日类别的待清洗数据对应的数据清洗规则为规范表达、人名类别的待清洗数据对应的数据清洗规则为去除冗余信息,以及职业类别的待清洗数据对应的数据清洗规则为多值分离等。
S105:使用每个类别的待清洗数据对应的数据清洗规则,对多个待清洗数据中该类别的待清洗数据进行清洗。
最终,在S105中,电子设备根据S104中所确定的不同类别的待清洗数据对应的数据清洗规则,分别对S101中所获取的多个待清洗数据中该种类的待清洗数据进行清洗,实现所获取的多个待清洗数据中所有待清洗数据的清洗。
示例性地,S106中可以根据规范表达的数据清洗规则,对多个待清洗数据中生日类别的数据进行清洗,例如,将“2000年1月1日”清洗为“2000-1-1”;根据去除冗余信息的数据清洗规则,对多个待清洗数据中人名类别的数据进行清洗,例如,将“A(中国男演员)”清洗为“A”;根据多值分离的数据清洗规则,对多个待清洗数据中职业类别的数据进行清洗,例如,将“演员、歌手”清洗为“演员”,“歌手”。其中,本申请各实施例中对电子设备根据数据清洗规则对不同类别的数据进行清洗的具体方法及实现不做限定。
综上,本申请提供的数据清洗方法中,能够通过电子设备对获取的多个待清洗数据进行分类并抽样后,根据预设数据清洗规则对每个类别的中间数据的清洗结果,确定每个类别对应的数据清洗规则,从而可以根据所确定的数据清洗规则再对多个待清洗数据整体按照不同类别进行清洗,最终实现对多个待清洗数据的清洗。因此,本申请提供的数据清洗方法可以由电子设备主动确定对不同类别的待清洗数据的清洗规则,而不需要数据分析工程师识别大量数据后制定清洗策略,也不需要软件开发工程师编写数据清洗程序,减少了现有技术中对数据清洗时所投入的时间和人力,从而通过一种更加智能化的数据清洗方法,提高了对数据进行清洗时的效率。
进一步对,考虑到待清洗数据量较大,本申请在确定每个类别待清洗数据对应的数据清洗规则时,仅仅根据每个类别所抽样得到的中间数据进行“预清洗”,并根据多个预设数据清洗规则对中间数据的清洗结果确定每个类别对应的数据清洗规则后,再实际对多个待清洗数据进行清洗,还使得本申请提供的数据清洗方法具有更小的计算量、更快的计算速度,能够实时确定不同类别对应的数据清洗规则,具有较强的灵活性,还进一步提高了对数据进行清洗时的效率。
图2是根据本申请第二实施例的示意图。如图2所示的示例在如图1所示的基础上,S105之后,还包括:
S106:计算对多个待清洗数据进行清洗后的第二清洗完成率。
具体地,本实施例提供的数据清洗方法在S105中实现了对所有多个待清洗数据进行全量清洗之后,还进一步验证清洗的效果。例如,可以通过对多个待清洗数据的第二清洗完成率进行判断,若对1000个待清洗数据中900个待清洗数据均进行了清洗,则第二清洗完成率为90%。
S107:判断第二清洗完成率是否小于预设阈值。若是,则在S108中完成对待清洗数据的清洗;若否,则返回执行S104,重新确定每个类别的待清洗数据对应的清洗规则。
随后,在S107中判断S106中所计算得到的第二清洗完成率与预设阈值的关系,例如所述预设阈值可以设置为85%。则当第二清洗完成率大于或等于预设阈值时,可以确定对待清洗数据进行的清洗效果较好,可以完成对该多个待清洗数据的清洗。而当第二清洗完成率小于预设阈值时,可以确定对待清洗数据进行的清洗效果较差,为了防止计算错误,可以返回S104重新确定每个类别的清洗数据对应的数据清洗规则,并重新再一次完成对多个待清洗数据进行清洗,即可结束。或者,还可以不断迭代S104-S107的过程直到第二清洗完成率小于预设阈值后结束对多个待清洗数据的清洗。
综上,在如图2所示的实施例中,作为执行主体的电子设备除了对所获取的多个待清洗数据进行分类、抽样以及分类清洗,还会对清洗后的效果进行验证,只有在效果较好时确定完成对多个待清洗数据的清洗,在提高数据清洗效率的基础上,保证了对数据进行清洗时的清洗效果。
此外,图3是根据本申请提供的数据清洗方法第三实施例的流程示意图,如图3所示的实施例示出了如图2所示示例中对待处理数据进行清洗的逻辑结构示意图,其中,当开始对待处理数据的清洗后进行清洗规则的迭代,以确定每个类别的待清洗数据对应的清洗规则。并在确定所有类别的待清洗数据的清洗规则后,对待清洗数据进行全量清洗及验证,验证第二清洗完成率小于预设阈值时完成对待清洗数据的清洗,否则返回清洗规则迭代的过程重新确定所有类别的待清洗数据的清洗规则。进一步地,对于其中的清洗规则迭代步骤,需要将全部的多个待清洗数据按照属性信息划分成不同类别,并对于其中一个单类别的待清洗数据,使用预设的数据清洗规则对该一个类别的待清洗数据进行清洗,并在单类别验证中,对所有预设数据清洗规则的清洗效果进行判断,选择效果最佳的数据清洗规则作为该单类别待清洗数据对应的数据清洗规则。
进一步地,在本申请上述各实施例基础上,为了使用户能够直观地随时了解电子设备进行数据清洗的整个流程,本申请还可将电子设备对待清洗数据进行清洗的整个过程,通过可视化的平台进行显示。例如,图4是本申请提供的数据清洗方法中显示界面第一实施例的示意图,如图4示出了电子设备在对待清洗数据进行清洗时,可以通过其显示界面进行显示的可视化信息的内容。其中,可视化信息包括:以下的至少一项:多个待清洗数据的地址信息、多个待清洗数据的至少一个类别、每个类别的待清洗数据对应的数据清洗规则和清洗后的多个待清洗数据的地址信息。
可选地,基于实际应用中进行数据清洗时,对待清洗数据一般具有相同或相似的数据结构,为了使得电子设备能够对待清洗数据进行平台化的展示,本申请中电子设备可以采用json格式对待清洗数据进行处理,例如可以将json树形结构的待清洗数据进行打平处理后以二维的格式进行展示,其中,所述打平处理指深度遍历json树,对于dict节点则将该节点的key值作为path的一部分,对于array节点则将_作为path的一部分,同时以-分割各元素,得到各json树中各叶子节点的路径作为二维表中的列表。
示例性地,若电子设备获取如下网页代码,网页代码中包括多个待清洗数据,则可以对网页代码进行打平处理以得到json格式的待清洗数据。
其中,网页代码为:
{
“birthPlace”:[
{
“@value”:“<a href=\”#\“>北京</a>的”
}
],
“@fromurl”:http://C.com/D/%E6%9D%8E%E7%8E%89%E7%8E%B2/9199,
“name”:[
{
“@value”:“A”
}
],
“alumniOf”:[
{
“@value”:“B大学完成研究生学业”
}
],
“nationality”:[
{
“@value”:“中国”
}
],
“nation”:[
{
“@value”:“汉族”
}
],
“@id”:“9199”,
“@type”:[
“Human”
],
“occupation”:[
{
“@value”:“演员、歌手”
}
]
则对上述网页代码经过json格式表示的待清洗数据可以如表1所示,
表1
Figure BDA0002224017730000141
因此,通过如图4所示的显示界面,电子设备能够将对待清洗数据进行清洗的过程展示在显示界面中,提供用户点选的操作,使得对数据进行清洗的过程更加智能化并可控,提高用户的体验。
进一步地,本申请提供的数据清洗方法中,除了由中间数据确定每个类别的待清洗数据对应的数据清洗规则,还可以由用户选择每个类别的待清洗数据对应的数据清洗规则。则此时,电子设备可以在显示界面上显示不同的控件,每个控件对应一个预设清洗规则,当检测到用户对显示界面上目标控件的第一点击操作后,即可根据点击操作,确定对应类别的待清洗数据的数据清洗规则。可以理解的是,若电子设备接收到用户对某一类型对应的控件的点击操作,则不会再根据如图1所示的方式确定该类型的待清洗数据对应的数据清洗规则。
例如,图5是本申请提供的数据清洗方法中显示界面第二实施例的示意图,如图5所示的实施例中,示出了显示界面上五种预设数据清洗规则的显示控件,其中,①分离多值单元格为多值分离的数据清洗规则对应的控件,②合并多值单元格为多值合并的数据清洗规则对应的控件,移除首尾空白③为移除首尾空格的数据清洗规则对应的控件,④收起连续空白为收起连续空格的数据清洗规则对应的控件,⑤反转义HTML字符为HTML转义的数据清洗规则对应的控件。则用户可以通过在本申请电子设备中选择某一类型的待清洗数据后,点击上述任一控件,为将该类型的待清洗数据选择对应的数据清洗规则。需要说明的是,如图5所示的显示界面设置方式仅为示例性说明,在实际应用中,本申请对与电子设备在显示界面上显示各种数据清洗规则的控件的方式、个数和位置等不做具体限定。
进一步地,在本申请上述各实施例基础之上,电子设备除了可以预存储各种预设数据清洗规则,还可以通过显示界面接收用户新增的数据清洗规则,以应对较为复杂的数据清洗需求,使得用户可以通过编程入口将自定义的数据清洗规则通过手动编写的简短脚本实现字符串处理,并实现预览功能。
例如,图6是本申请提供的数据清洗方法中显示界面第三实施例的示意图,在如图6所示的实施例中,电子设备可以在显示界面上显示名为“表达式”的文本框,用户可以在文本框中输入新的数据清洗规则记为第二数据清洗规则,则当电子设备接收到文本框中的第二数据清洗规则后,即可将所述第二数据清洗规则作为新的预设数据清洗规则进行存储。同时,在如图6所示的显示界面中,还可以提供根据新的预设数据清洗规则对一些数据进行清洗后的预览界面,如图6中所示的待清洗数据的地址信息,当用户点击任一地址信息后,即可对该地址信息对应的待清洗数据按照文本框中的数据清洗规则进行清洗,并显示清洗后的数据供用户查看。
综上,本申请上述各实施例中,电子设备可以通过显示界面将整个数据清洗流程展示给用户,使得用户只需要通过点选操作就可以观察数据清洗效果、选择数据清洗规则以及同时提供可支持编码进行清洗以满足复杂的清洗场景,而所有的操作在平台上都是所见即所得,可以提高数据处理时用户的参与度,从而提高用户体验。
上述本申请提供的实施例中,分别执行主体为电子设备的角度对本申请实施例提供的方法进行了介绍。为了实现上述本申请实施例提供的方法中的各功能,所述电子设备还可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
图7是本申请提供的数据清洗装置第一实施例的结构示意图,如图7所示实施例提供的数据清洗装置700包括:获取模块701,分类模块702,抽取模703,确定模块704和清洗模块705。其中,获取模块701用于获取多个待清洗数据;分类模块702用于根据多个待清洗数据的属性信息,将多个待清洗数据划分为至少一个类别的待清洗数据;抽取模块703用于分别从每个类别的待清洗数据中抽取部分中间数据;确定模块704用于使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;清洗模块705用于使用每个类别的待清洗数据对应的数据清洗规则,对多个待清洗数据中该类别的待清洗数据进行清洗。
可选地,确定模块704具体用于,针对每个类别的中间数据,使用多个预设数据清洗规则分别进行清洗,并分别计算多个预设数据清洗规则对中间数据进行清洗的第一清洗完成率;确定最高的第一清洗完成率对应的预设数据清洗规则,为该类别的待清洗数据对应的数据清洗规则。
进一步地,图8是本申请提供的数据清洗装置第二实施例的结构示意图,如图8所示实施例在图7的基础上,数据清洗装置700还包括:验证模块706。其中,验证模块706用于计算对多个待清洗数据进行清洗后的第二清洗完成率;其中,若验证模块确定第二清洗完成率小于预设阈值,确定模块用于重新确定每个类别的待清洗数据对应的数据清洗规则。
进一步地,图9是本申请提供的数据清洗装置第三实施例的结构示意图,如图9所示实施例在如图7或图8所示实施例的基础上,数据清洗装置700还包括:显示模块707和接收模块708。其中,显示模块707用于在显示界面上显示对多个待清洗数据进行清洗的可视化信息。
可选地,所述可视化信息包括以下的至少一项:多个待清洗数据的地址信息、多个待清洗数据的至少一个类别、每个类别的待清洗数据对应的数据清洗规则和清洗后的多个待清洗数据的地址信息
可选地,所述接收模块708用于接收用户对显示界面上目标控件的第一点击操作;其中,目标控件用于确定至少一个类别的待清洗数据中第一类别的待清洗数据对应的第一数据清洗规则;确定模块704还用于,确定至少一个类别的待清洗数据中第一类别的待清洗数据对应的数据清洗规则为第一数据清洗规则。
可选地,接收模块708还用于,接收用户在显示界面上目标文本框输入的第二数据清洗规则;确定模块704还用于,将第二数据清洗规则作为预设数据清洗规则。
可选地,在本申请上述各实施例中,待清洗数据的属性信息包括:待清洗数据对应以下的至少一项:人名、国籍、民族、毕业学校、生日和职业。
可选地,在本申请上述各实施例中,所述数据清洗规则包括:多值分离、多值合并、HTML转义、移除首尾空格和收起连续空格。
如图7-9中所示的装置可执行本申请前述各实施例中的数据清洗方法,其实现原理与有益效果相同,不再赘述。
本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本申请各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
图10是用来实现本申请实施例的数据清洗方法的电子设备的框图,所述电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据清洗方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据清洗方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据清洗方法对应的程序指令/模块(例如,附图9所示的调整模块1001、拍摄模块1002和检测模块1003)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据清洗方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于图像的零件故障检测的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至基于图像的零件故障检测的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述数据清洗方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与基于图像的零件故障检测的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种数据清洗方法,其特征在于,包括:
获取多个待清洗数据;
根据所述多个待清洗数据的属性信息,将所述多个待清洗数据划分为至少一个类别的待清洗数据;
分别从每个类别的待清洗数据中抽取部分中间数据;
使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;
使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗。
2.根据权利要求1所述的方法,其特征在于,所述使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则,包括:
针对每个类别的中间数据,使用所述多个预设数据清洗规则分别进行清洗,并分别计算所述多个预设数据清洗规则对所述中间数据进行清洗的第一清洗完成率;
确定最高的第一清洗完成率对应的预设数据清洗规则,为该类别的待清洗数据对应的数据清洗规则。
3.根据权利要求2所述的方法,其特征在于,所述使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗之后,还包括:
计算对所述多个待清洗数据进行清洗后的第二清洗完成率;
若所述第二清洗完成率小于预设阈值,重新确定每个类别的待清洗数据对应的数据清洗规则。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗之后,还包括:
在显示界面上显示对所述多个待清洗数据进行清洗的可视化信息。
5.根据权利要求4所述的方法,其特征在于,所述可视化信息包括以下的至少一项:
所述多个待清洗数据的地址信息、所述多个待清洗数据的至少一个类别、每个类别的待清洗数据对应的数据清洗规则和清洗后的所述多个待清洗数据的地址信息。
6.根据权利要求5所述的方法,其特征在于,还包括:
接收用户对所述显示界面上目标控件的第一点击操作;其中,所述目标控件用于确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的第一数据清洗规则;
根据所述点击操作,确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的数据清洗规则为所述第一数据清洗规则。
7.根据权利要求6所述的方法,其特征在于,还包括:
接收用户在所述显示界面上目标文本框输入的第二数据清洗规则;
将所述第二数据清洗规则作为预设数据清洗规则。
8.根据权利要求1所述的方法,其特征在于,所述待清洗数据的属性信息包括:
所述待清洗数据对应以下的至少一项:人名、国籍、民族、毕业学校、生日和职业。
9.根据权利要求1所述的方法,其特征在于,所述数据清洗规则包括:
多值分离、多值合并、HTML转义、移除首尾空格、收起连续空格、规范表达和去除冗余信息。
10.一种数据清洗装置,其特征在于,包括:
获取模块,用于获取多个待清洗数据;
分类模块,用于根据所述多个待清洗数据的属性信息,将所述多个待清洗数据划分为至少一个类别的待清洗数据;
抽取模块,用于分别从每个类别的待清洗数据中抽取部分中间数据;
确定模块,用于使用存储的多个预设数据清洗规则分别对每个类别的中间数据进行清洗,根据清洗结果确定每个类别的待清洗数据对应的数据清洗规则;
清洗模块,用于使用所述每个类别的待清洗数据对应的数据清洗规则,对所述多个待清洗数据中该类别的待清洗数据进行清洗。
11.根据权利要求10所述的装置,其特征在于,所述确定模块具体用于,
针对每个类别的中间数据,使用所述多个预设数据清洗规则分别进行清洗,并分别计算所述多个预设数据清洗规则对所述中间数据进行清洗的第一清洗完成率;
确定最高的第一清洗完成率对应的预设数据清洗规则,为该类别的待清洗数据对应的数据清洗规则。
12.根据权利要求11所述的装置,其特征在于,还包括:
验证模块,用于计算对所述多个待清洗数据进行清洗后的第二清洗完成率;其中,若所述验证模块确定所述第二清洗完成率小于预设阈值,所述确定模块用于重新确定每个类别的待清洗数据对应的数据清洗规则。
13.根据权利要求10-12任一项所述的装置,其特征在于,还包括:
显示模块,用于在显示界面上显示对所述多个待清洗数据进行清洗的可视化信息。
14.根据权利要求13所述的装置,其特征在于,所述可视化信息包括以下的至少一项:
所述多个待清洗数据的地址信息、所述多个待清洗数据的至少一个类别、每个类别的待清洗数据对应的数据清洗规则和清洗后的所述多个待清洗数据的地址信息。
15.根据权利要求14所述的装置,其特征在于,还包括:
接收模块,用于接收用户对所述显示界面上目标控件的第一点击操作;其中,所述目标控件用于确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的第一数据清洗规则;
所述确定模块还用于,确定所述至少一个类别的待清洗数据中第一类别的待清洗数据对应的数据清洗规则为所述第一数据清洗规则。
16.根据权利要求15所述的装置,其特征在于,
所述接收模块还用于,接收用户在所述显示界面上目标文本框输入的第二数据清洗规则;
所述确定模块还用于,将所述第二数据清洗规则作为预设数据清洗规则。
17.根据权利要求10所述的装置,其特征在于,所述待清洗数据的属性信息包括:
所述待清洗数据对应以下的至少一项:人名、国籍、民族、毕业学校、生日和职业。
18.根据权利要求10所述的装置,其特征在于,所述数据清洗规则包括:
多值分离、多值合并、HTML转义、移除首尾空格、收起连续空格、规范表达和去除冗余信息。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
CN201910945487.3A 2019-09-30 2019-09-30 数据清洗方法及装置 Active CN110727668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910945487.3A CN110727668B (zh) 2019-09-30 2019-09-30 数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910945487.3A CN110727668B (zh) 2019-09-30 2019-09-30 数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN110727668A true CN110727668A (zh) 2020-01-24
CN110727668B CN110727668B (zh) 2022-03-01

Family

ID=69218757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910945487.3A Active CN110727668B (zh) 2019-09-30 2019-09-30 数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN110727668B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563071A (zh) * 2020-04-03 2020-08-21 深圳价值在线信息科技股份有限公司 数据清洗方法、装置、终端设备及计算机可读存储介质
CN111949647A (zh) * 2020-09-03 2020-11-17 深圳市安亿通科技发展有限公司 应急管理业务数据清洗方法、系统、终端和可读存储介质
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端
CN112256689A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN116484805A (zh) * 2023-05-06 2023-07-25 国网浙江省电力有限公司 结合知识图谱和语义分析的电力报告智能清洗处理方法
CN117171153A (zh) * 2023-09-11 2023-12-05 北京三维天地科技股份有限公司 一种支持自定义清洗流程的可视化数据清洗方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114744A1 (en) * 2006-11-14 2008-05-15 Latha Sankar Colby Method and system for cleansing sequence-based data at query time
CN106599193A (zh) * 2016-12-14 2017-04-26 云南电网有限责任公司电力科学研究院 一种数据清洗方法和系统
CN107229621A (zh) * 2016-03-23 2017-10-03 北大方正集团有限公司 差异数据的清洗方法及装置
US20170345052A1 (en) * 2016-05-25 2017-11-30 Comscore, Inc. Method and system for identifying anomalous content requests
CN107463661A (zh) * 2017-07-31 2017-12-12 小草数语(北京)科技有限公司 数据的导入方法及装置
CN107908720A (zh) * 2017-11-14 2018-04-13 河北工程大学 一种基于AdaBoost算法的专利数据清洗方法及系统
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN109033274A (zh) * 2018-07-10 2018-12-18 中国银行股份有限公司 一种数据清洗方法及装置
CN109542885A (zh) * 2018-11-19 2019-03-29 北京锐安科技有限公司 数据清洗方法、装置、设备及存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110096498A (zh) * 2019-03-28 2019-08-06 阿里巴巴集团控股有限公司 一种数据清洗方法及装置
CN110147364A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 数据清洗方法、装置、设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114744A1 (en) * 2006-11-14 2008-05-15 Latha Sankar Colby Method and system for cleansing sequence-based data at query time
CN107229621A (zh) * 2016-03-23 2017-10-03 北大方正集团有限公司 差异数据的清洗方法及装置
US20170345052A1 (en) * 2016-05-25 2017-11-30 Comscore, Inc. Method and system for identifying anomalous content requests
CN106599193A (zh) * 2016-12-14 2017-04-26 云南电网有限责任公司电力科学研究院 一种数据清洗方法和系统
CN107463661A (zh) * 2017-07-31 2017-12-12 小草数语(北京)科技有限公司 数据的导入方法及装置
CN107908720A (zh) * 2017-11-14 2018-04-13 河北工程大学 一种基于AdaBoost算法的专利数据清洗方法及系统
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN109033274A (zh) * 2018-07-10 2018-12-18 中国银行股份有限公司 一种数据清洗方法及装置
CN109542885A (zh) * 2018-11-19 2019-03-29 北京锐安科技有限公司 数据清洗方法、装置、设备及存储介质
CN110096498A (zh) * 2019-03-28 2019-08-06 阿里巴巴集团控股有限公司 一种数据清洗方法及装置
CN110147364A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 数据清洗方法、装置、设备和存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鲍洪庆等: "一个基于领域知识的数据清洗框架", 《信息技术与信息化》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563071A (zh) * 2020-04-03 2020-08-21 深圳价值在线信息科技股份有限公司 数据清洗方法、装置、终端设备及计算机可读存储介质
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端
CN111949647A (zh) * 2020-09-03 2020-11-17 深圳市安亿通科技发展有限公司 应急管理业务数据清洗方法、系统、终端和可读存储介质
CN112256689A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN116484805A (zh) * 2023-05-06 2023-07-25 国网浙江省电力有限公司 结合知识图谱和语义分析的电力报告智能清洗处理方法
CN116484805B (zh) * 2023-05-06 2023-09-15 国网浙江省电力有限公司 结合知识图谱和语义分析的电力报告智能清洗处理方法
CN117171153A (zh) * 2023-09-11 2023-12-05 北京三维天地科技股份有限公司 一种支持自定义清洗流程的可视化数据清洗方法及系统

Also Published As

Publication number Publication date
CN110727668B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN110727668B (zh) 数据清洗方法及装置
TWI729472B (zh) 特徵詞的確定方法、裝置和伺服器
US8850310B2 (en) Data entry suggestion lists for designated document data entry areas based on data from other document data entry areas
CN111428049B (zh) 一种事件专题的生成方法、装置、设备和存储介质
EP3882792A1 (en) Method and apparatus for processing information, electronic device and storage medium
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
US20220004716A1 (en) Method and apparatus for training semantic representation model, device and computer storage medium
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
JP2021174516A (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP2021131528A (ja) ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN111460289B (zh) 新闻资讯的推送方法和装置
CN111225236B (zh) 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
US20110099498A1 (en) Graphical user interface hierarchy generation
CN111582477A (zh) 神经网络模型的训练方法和装置
CN113778403B (zh) 前端代码生成方法和装置
CN112835579B (zh) 确定界面代码的方法、装置、电子设备和存储介质
CN111078878A (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN111858905B (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN112084150B (zh) 模型训练、数据检索方法,装置,设备以及存储介质
CN111125438A (zh) 实体信息提取方法、装置、电子设备及存储介质
CN111447507A (zh) 视频制作方法和装置、电子设备和存储介质
JP2024507902A (ja) 情報検索方法、装置、電子機器および記憶媒体
JP7309811B2 (ja) データ注釈方法、装置、電子機器および記憶媒体
CN111310044B (zh) 页面元素信息的提取方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant