CN111563071A - 数据清洗方法、装置、终端设备及计算机可读存储介质 - Google Patents

数据清洗方法、装置、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111563071A
CN111563071A CN202010258324.0A CN202010258324A CN111563071A CN 111563071 A CN111563071 A CN 111563071A CN 202010258324 A CN202010258324 A CN 202010258324A CN 111563071 A CN111563071 A CN 111563071A
Authority
CN
China
Prior art keywords
cleaning
data
strategy
category
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010258324.0A
Other languages
English (en)
Inventor
林志洋
苏梅
邹晓乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202010258324.0A priority Critical patent/CN111563071A/zh
Publication of CN111563071A publication Critical patent/CN111563071A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请适用于通信技术领域,尤其涉及一种数据清洗方法、装置、终端设备及计算机可读存储介质,通过获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;计算每个类别的第一清洗数据对应的缺失比例;根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据;通过对待清洗数据分类后,再根据各个类别的清洗数据对应的字段重要性和缺失比例,确定该类别清洗数据对应的清洗策略以进行数据清洗,实现了提高清洗数据的完整性和鲁棒性的目的。

Description

数据清洗方法、装置、终端设备及计算机可读存储介质
技术领域
本申请属于通信技术领域,尤其涉及一种数据清洗方法、装置、终端设备及计算机可读存储介质。
背景技术
随着计算机技术的快速发展,当今社会已经从信息化时代进入大数据时代。各类公司在日常运营过程中都会产生大量的数据,这些数据被不同的信息系统收集中,人们需要根据收集到的数据分析不同公司的运营经营情况或组织数据生产数据产品时,为公司经营提供更好的服务,便于人们及时了解公司的运营状态,需要对这些收集到的数据进行清洗以为用户提高完整性及鲁棒性较高的数据,从而达到精确分析公司运营状态或生产出高质量的数据产品的目的。
发明内容
本申请实施例提供了一种数据清洗方法、装置、终端设备及计算机可读存储介质,可以提高清洗数据的完整性和鲁棒性。
第一方面,本申请实施例提供了一种数据清洗方法,包括:获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;计算每个类别的第一清洗数据对应的缺失比例;根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。通过对待清洗数据分类后,再根据各个类别的清洗数据对应的字段重要性和缺失比例,确定该类别清洗数据对应的清洗策略以进行数据清洗,实现了提高清洗数据的完整性和鲁棒性的目的。
在一种可能的实现方式中,根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略,包括:
如果所述字段重要性为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第一清洗策略,所述第一清洗策略包括第三方数据补全策略、关联数据补全策略、字段删除策略中的至少一种。
如果所述字段重要性为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第二清洗策略,所述第二清洗策略包括关联数据补全策略、人工数据补全策略中的至少一种。
如果所述字段重要性不为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第三清洗策略,所述第三清洗策略为字段删除策略。
如果所述字段重要性不为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第四清洗策略,所述第四清洗策略包括不处理策略和预设字符填充策略中的任意一种。
示例性的,第三方数据补全策略为从第三方数据获取需要补全的字段的策略,这里所指的第三方数据为除获取当前待清洗数据的数据库之外的至少一个数据库提供的数据,比如当前待清洗数据来源于数据库A,则第三方数据为除数据库A之外的至少一个数据库提供的数据。
关联数据补充策略为根据关联字段计算获取相关数据的策略;字段删除策略为删除该字段的策略,在删除字段时,需要注明删除的内容以及位置等。
人工数据补充策略为人们通过经验或者业务知识估计并补充数据的策略,在使用人工数据补充策略时,发送提示信息以提示人们进行相关数据的补充。
不处理策略为不对字段进行处理的策略;预设字符填充策略为将预设的字符填充在缺失数据对应的位置,以提示人们后续进行补充或修改,预设的字符包括但不限于预先设定的具有指定含义的字符串,该具有指定含义的字符串用于指示提醒用户所需要补充的数据的类型或进行后期排查,星字符“*”,井字符“#”,问号“?”,斜杠“/”,反斜杠“\”。
在另一种可能的实现方式中,获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据,包括:
按照预设的清洗规则,对所述待清洗数据进行清洗,得到第二清洗数据,所述预设的清洗规则包括格式清洗规则、内容清洗规则和逻辑清洗规则中的至少一种;
相应的,所述按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据,包括:
按照预设的分类规则对所述第二清洗数据进行分类,得到至少为两个类别的第一清洗数据。
第二方面,本申请实施例提供了一种数据清洗装置,包括:
数据分类单元,用于获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;
缺失比例计算单元,用于计算每个类别的第一清洗数据对应的缺失比例;
清洗策略确定单元,用于根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;
数据清洗单元,用于根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。
第三方面,本申请实施例提供了一种终端设备,包括:
数据分类单元,用于获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;
缺失比例计算单元,用于计算每个类别的第一清洗数据对应的缺失比例;
清洗策略确定单元,用于根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;
数据清洗单元,用于根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括:
数据分类单元,用于获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;
缺失比例计算单元,用于计算每个类别的第一清洗数据对应的缺失比例;
清洗策略确定单元,用于根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;
数据清洗单元,用于根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的数据清洗方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据清洗方法的实现流程图;
图2是本申请实施例提供的一种数据清洗装置的结构示意图;
图3是本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。请参考图1,图1示出了本申请实施例提供的一种图像分析方法的实现流程,详述如下:
在步骤S101中,获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据。
在本申请实施例中,待清洗数据为以纯文本格式展现的文本数据,例如多家上市公司证券部经常使用的从证监会、交易所等网站抓取的法规类文件对应的文本数据。预设的分类规则为按照数据特征对数据进行分类的规则,包括但不限于按照业务类型(比如再融资与产品、合规交易、并购重组、交易与关联交易等)进行分类的规则、按照上市板块类型(比如主板、中小板、创业板、科创板等))进行分类的规则、按照法规类型(比如公司法、证券法等)进行分类的规则。数据特征越具体,同一数据对应的类别也就越多,可以缩小统计、处理的数据范围,提高数据的缺失比例的计算效率,从而提高数据清洗的效率和准确率。
在一些实施例中,在获取待清洗数据之前,从不同来源的数据库或网页中抓取数据源,所抓取的数据源具有不同的文件格式;对所抓取的数据源进行文件格式转换,使得所抓取的数据源的文件格式统一转换为纯文本格式,得到纯文本格式的数据源,从而方便对该数据源进行预处理以得到上述待清洗数据,比如通过神经网络模型按照章、节、条的格式对数据源进行预处理、或者通过语言技术模型按照章、节、条的格式对数据源进行预处理,或者通过文本识别和拆解技术模型按照章、节、条的格式对数据源进行预处理,以得到上述待清洗数据。
在另一些实施例中,待清洗数据为被拆分成具有更清晰结构的,可以以最小的拆解段落被引用或被搜索的文本数据,并且各个拆解单位比如最小的拆解段落之间具有依赖关系的拆解单位建立有关联关系或引用关系,比如某一法规的最小拆解单位为法条,该最小拆解单位引用另一法条(另一最小拆解单位),建立这两个最小拆解单位的关联关系或引用关系,从而可以使得用户在使用该法规时可以快速地查找到该最小拆解单位的具体条款。
在步骤S102中,计算每个类别的第一清洗数据对应的缺失比例。
在本申请实施例中,缺失比例为缺失的数据占总数据的比例,缺失的数据为应该具有但却因为各种原因而没有被获取到的数据,这些原因包括但不限于数据抓取、数据传输、数据处理和数据存储等环节造成的数据缺失,还有可能是原始来源数据中该数据本身就存在着缺失的数据。缺失的数据可以通过程序在样本数据中统计出来。
在一些实施例中,在计算每个类别的第一清洗数据对应的缺失比例时,获取每个类别对应的第一清洗数据的字段数量、字符数量、字节数量等,以及该类别对应的第一清洗数据的原始来源数据(比如从某一网站抓取的相应数据)的字段数量、字符数量、字节数量等,将每个类别对应的第一清洗数据的字段数量、字符数量、字节数量等设定为A,将该类别对应的第一清洗数据的原始来源数据的字段数量、字符数量、字节数量等设定为B,通过缺失比例计算公式计算每个类别的第一清洗数据对应的缺失比例P,该缺失比例计算公式具体如下:
P=1-A/B*100%
在另一些实施例中,缺失比例计算公式可以为:
P=(B-A)/B*100%
需要说明的是,A为字段数量时,B也相应的为字段数量;A为字符数量时,B也相应的为字符数量;A为字节数量时,B也相应的为字节数量。B–A为缺失的数据的字段数量、字符数量或字节数量。
在步骤S103中,根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略。
在本申请实施例中,字段重要性为某一具体字段的重要性,可以通过对各个类别的数据进行统计、其他类别的数据对某一类别的数据的消费程度或敏感程度、人们对某一类别数据的经验性判断等方式确定数据中的字段的重要性。按照字段的重要性,分为重要性高和重要性低。字段的重要性高,即字段重要性为高;字段的重要性低,即字段重要性为低。对于不同字段的重要性,采用不同清洗策略对数据进行清洗,以提高数据的完整性和正确性。
在一些实施例中,高频字段的重要性要比低频字段的重要性高,对某一类别中不同来源的数据中的高频字段进行统计,将出现次数在预设数值以上的字段设定为高频字段,将这些高频字段的重要性设定为高。
在另一些实施例中,将重要性为高的字段存储在高频字段库中,统计并获取某一类别数据中与高频字段库中的字段匹配的字段,将匹配的字段设定为高频字段,并将这些高频字段的重要性设定为高;不匹配的字段设为低频字段,并将这些低频字段的重要性设定为低。
需要说明的是,不同的字段重要性和缺失比例,对应着不同的清洗策略。对于某一字段或者至少两个以上字段组成的以章、节、条形式展示的段落来说,通过计算两个以上字段的重要性加权得到该章、节、条对应的段落的重要性。同理,该章、节、条对应的段落的缺失比例,可以通过对该章、节、条对应的段落缺失的数据的比例来确定。
本申请实施例提供的清洗策略包括但不限于第一清洗策略、第二清洗策略、第三清洗策略和第四清洗策略,其中:
第一清洗策略为第三方数据补全策略、关联数据补全策略、字段删除策略中的至少一种,其中第三方数据补全策略为从第三方数据获取需要补全的字段的策略,这里所指的第三方数据为除当前待清洗数据的数据库之外的至少一个数据库提供的数据,比如当前待清洗数据来源于数据库A,则第三方数据为除数据库A之外的至少一个数据库提供的数据;关联数据补充策略为根据字段计算获取相关数据的策略;字段删除策略为删除该字段的策略,在删除字段时,需要注明删除的内容以及位置等。
需要说明的是,关联数据补充策略中计算获取相关数据所依据的字段包括但不限于与缺失字段相邻的前一字段,与缺失字段相邻的后一字段。
在一些实施例中,根据字段计算获取相关数据具体通过逻辑运算函数计算得到相关数据,比如通过数据的加减乘除,字符串的拼接,字符串的截取,数据的次方幂运算,需要公式的方程运算比如y=f(x),其中y为计算得到的相关数据,x为计算所依据的字段。
第二清洗策略为关联数据补全策略、人工数据补全策略中的至少一种,其中,关联数据补全策略与第一清洗策略中的关联数据补充策略一致,这里不再赘述;人工数据补充策略为人们通过经验或者业务知识估计并补充数据的策略,在使用人工数据补充策略时,发送提示信息以提示人们进行相关数据的补充。
第三清洗策略为字段删除策略,字段删除策略与第一清洗策略中的字段删除策略一致,这里不再赘述。
第四清洗策略为不处理策略和预设字符填充策略中的任意一种。其中,不处理策略为不对字段进行处理的策略;预设字符填充策略为将预设的字符填充在缺失数据对应的位置,以提示人们后续进行补充或修改,预设的字符包括但不限于预先设定的具有指定含义的字符串,该具有指定含义的字符串用于指示提醒用户所需要补充的数据的类型或进行后期排查,星字符“*”,井字符“#”,问号“?”,斜杠“/”,反斜杠“\”。
具体的,根据各个类别的第一清洗数据对应的字段重要性和缺失比例,确定各个类别的第一清洗数据对应的清洗策略,即步骤S103包括但不限于步骤S1031、步骤S1032、步骤S1033和步骤S1034,其中:
步骤S1031、如果所述字段重要性为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第一清洗策略,所述第一清洗策略包括第三方数据补全策略、关联数据补全策略、字段删除策略中的至少一种。
在本申请实施中,第一清洗策略中所包括的策略设置有优先级,在确定某一类别的第一清洗数据对应的清洗策略为第一清洗策略后,根据第一清洗策略的优先级,确定所使用的第一清洗策略的先后顺序,即按照优先级的高低,从高到低的顺序使用对应的第一清洗策略对该类别的第一清洗数据进行清洗。
比如,第三方数据补全策略的优先级高于关联数据补全策略和字段删除策略,关联数据补全策略的优先级高于字段删除策略。在第一清洗策略同时包含第三方数据补全策略、关联数据补全策略、字段删除策略时,先按照第三数据补全策略对该类别的第一清洗数据进行清洗;如果无法使用第三方数据补全策略,或者使用第三方数据补全策略的清洗后数据的完整性达不到要求,再使用关联数据补全策略对该类别的第一清洗数据进行清洗,同样,如果无法使用关联数据补全策略,或者使用关联数据补全策略的清洗后数据的完整性达不到要求,再使用字段删除策略删除该字段相应的数据,并进行标识以便于后续进行处理。
需要说明的是,在使用关联数据补全策略对该类别的第一清洗数据进行清洗时,可以对该类别的第一清洗数据进行标识说明,便于人们后期查找相应的数据进行处理。
步骤S1032、如果所述字段重要性为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第二清洗策略,所述第二清洗策略包括关联数据补全策略、人工数据补全策略中的至少一种。
在本申请实施例中,第二清洗策略包含关联数据补全策略、人工数据补全策略时,第二清洗策略设定有优先级,其中关联数据补全策略的优先级高于人工数据补全策略。在确定某一类别的第一清洗数据对应的清洗策略为第二清洗策略后,根据第二清洗策略的优先级,确定所使用的第二清洗策略的先后顺序,即按照优先级的高低,从高到低的顺序使用对应的第一清洗策略对该类别的第二清洗数据进行清洗。比如,先使用关联数据补全策略对该类别的第二清洗数据进行清洗,如果无法使用关联数据补全策略,或者使用关联数据补全策略的清洗后数据的完整性达不到要求,再使用人工数据补全策略,提示人们对该类别的第一清洗数据进行数据补全。
步骤S1033、如果所述字段重要性不为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第三清洗策略,所述第三清洗策略为字段删除策略。
步骤S1034、如果所述字段重要性不为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第四清洗策略,所述第四清洗策略包括不处理策略和预设字符填充策略中的任意一种。
在本申请实施例中,在确定某一类别的第一清洗数据对应的清洗策略为第四清洗策略后,可以随机选择不处理策略或预设字符填充策略对该类别的第一清洗数据进行清洗。
在一些可能的实施方式中,待清洗数据是由网络爬虫从各个数据网站中获取、或者是由人工收集或从用户填写资料中获取,这样所获取的待清洗数据,将在格式或者内容方面存在着一些问题,比如:
1)时间、日期、数值、全半角等显示格式不一致;
2)内容中存在有不应存在的字符;
3)内容与该字段内容不符(例如应为公司名称的字段,实际字段却是公司营业执照);
4)逻辑错误,比如前后表达矛盾、存在不合理的值、内容重复等。
为解决因存在上述问题而导致数据清洗的鲁棒性不高的问题,在按照预设分类规则对待清洗数据进行分类之前,按照预设的清洗规则,对待清洗数据进行清洗,得到第二清洗数据。
本申请实施例中,预设的清洗规则包括格式清洗规则、内容清洗规则和逻辑清洗规则中的至少一种。
其中,格式清洗规则为对待清洗数据的格式进行清洗,使得待清洗数据的格式一致。当存在无法调整的格式,比如存在时间、日期不一致时,设定以在前或在后的时间为准,或者进行标识以便于人工进行判断处理。
内容清洗规则包括但不限于将内容中不应存在的字符清除、调整字段位置错误的内容。
逻辑清洗规则为使用简单逻辑推理后确定的重复内容、不合理的值或者矛盾的内容进行逻辑清洗。
相应的,在得到第二清洗数据后,按照预设的分类规则对所述第二清洗数据进行分类,得到至少为两个类别的第一清洗数据。
在步骤S104中,根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。
在本申请实施例中,根据各个类别的第一清洗数据对应的清洗策略,完成对待清洗数据的清洗,得到完整性和鲁棒性较高的第二清洗数据。
在本申请实施例中,通过对待清洗数据分类后,再根据各个类别的清洗数据对应的字段重要性和缺失比例,确定该类别清洗数据对应的清洗策略以进行数据清洗,,实现了提高清洗数据的完整性和鲁棒性的目的。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑控制,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的数据清洗方法,图2示出了本申请实施例提供的数据清洗装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图2,该装置包括:
数据分类单元21,用于获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;
缺失比例计算单元22,用于计算每个类别的第一清洗数据对应的缺失比例;
清洗策略确定单元23,用于根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;
数据清洗单元24,用于根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。
示例性的,所述清洗策略确定单元23具体用于:
如果所述字段重要性为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第一清洗策略,所述第一清洗策略包括第三方数据补全策略、关联数据补全策略、字段删除策略中的至少一种。
示例性的,所述清洗策略确定单元23具体还用于:
如果所述字段重要性为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第二清洗策略,所述第二清洗策略包括关联数据补全策略、人工数据补全策略中的至少一种。
示例性的,所述清洗策略确定单元23具体还用于:
如果所述字段重要性不为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第三清洗策略,所述第三清洗策略为字段删除策略。
示例性的,所述清洗策略确定单元23具体还用于:
如果所述字段重要性不为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第四清洗策略,所述第四清洗策略包括不处理策略和预设字符填充策略中的任意一种。
示例性的,所述数据分类单元21具体还用于:
按照预设的清洗规则,对所述待清洗数据进行清洗,得到第二清洗数据,所述预设的清洗规则包括格式清洗规则、内容清洗规则和逻辑清洗规则中的至少一种;
相应的,示例性的,所述数据分类单元21具体还用于:
按照预设的分类规则对所述第二清洗数据进行分类,得到至少为两个类别的第一清洗数据。
在本申请实施例中,通过对待清洗数据分类后,再根据各个类别的清洗数据对应的字段重要性和缺失比例,确定该类别清洗数据对应的清洗策略以进行数据清洗,,实现了提高清洗数据的完整性和鲁棒性的目的。
需要说明的是,上述系统/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,该终端设备包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
图3是本申请一实施例提供的一种终端设备的示意图。如图3所示,该实施例的终端设备3包括:处理器33、存储器31以及存储在所述存储器31中并可在所述处理器33上运行的计算机程序32。所述处理器33执行所述计算机程序32时实现上述任意各个方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器33执行所述计算机程序32时实现上述各系统实施例中各单元的功能,例如图3所示模块21至24的功能。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照系统/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的系统/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的系统/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,系统或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据清洗方法,其特征在于,包括:
获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;
计算每个类别的第一清洗数据对应的缺失比例;
根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;
根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。
2.如权利要求1所述的数据清洗方法,其特征在于,所述根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略,包括:
如果所述字段重要性为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第一清洗策略,所述第一清洗策略包括第三方数据补全策略、关联数据补全策略、字段删除策略中的至少一种。
3.如权利要求1所述的数据清洗方法,其特征在于,所述根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略,包括:
如果所述字段重要性为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第二清洗策略,所述第二清洗策略包括关联数据补全策略、人工数据补全策略中的至少一种。
4.如权利要求1所述的数据清洗方法,其特征在于,所述根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略,包括:
如果所述字段重要性不为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第三清洗策略,所述第三清洗策略为字段删除策略。
5.如权利要求1所述的数据清洗方法,其特征在于,所述根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略,包括:
如果所述字段重要性不为高,且所述缺失比例小于或等于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第四清洗策略,所述第四清洗策略包括不处理策略和预设字符填充策略中的任意一种。
6.如权利要求1至5任一项所述的数据清洗方法,其特征在于,所述获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据,还包括:
按照预设的清洗规则,对所述待清洗数据进行清洗,得到第二清洗数据,所述预设的清洗规则包括格式清洗规则、内容清洗规则和逻辑清洗规则中的至少一种;
相应的,所述按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据,包括:
按照预设的分类规则对所述第二清洗数据进行分类,得到至少为两个类别的第一清洗数据。
7.一种数据清洗装置,其特征在于,包括:
数据分类单元,用于获取待清洗数据,并按照预设的分类规则对所述待清洗数据进行分类,得到至少为两个类别的第一清洗数据;
缺失比例计算单元,用于计算每个类别的第一清洗数据对应的缺失比例;
清洗策略确定单元,用于根据每个类别的第一清洗数据对应的字段重要性和所述缺失比例,确定每个类别的第一清洗数据对应的清洗策略;
数据清洗单元,用于根据所确定的各个类别的第一清洗数据对应的清洗策略,对所述待清洗数据进行清洗,得到第二清洗数据。
8.如权利要求7所述的数据清洗装置,其特征在于,所述清洗策略确定单元,用于:
如果所述字段重要性为高,且所述缺失比例大于预设数值,则确定每个类别的第一清洗数据对应的清洗策略为第一清洗策略,所述第一清洗策略包括第三方数据补全策略、关联数据补全策略、字段删除策略中的至少一种。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的数据清洗方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据清洗方法。
CN202010258324.0A 2020-04-03 2020-04-03 数据清洗方法、装置、终端设备及计算机可读存储介质 Pending CN111563071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010258324.0A CN111563071A (zh) 2020-04-03 2020-04-03 数据清洗方法、装置、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010258324.0A CN111563071A (zh) 2020-04-03 2020-04-03 数据清洗方法、装置、终端设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111563071A true CN111563071A (zh) 2020-08-21

Family

ID=72073049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010258324.0A Pending CN111563071A (zh) 2020-04-03 2020-04-03 数据清洗方法、装置、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111563071A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113138982A (zh) * 2021-05-25 2021-07-20 黄柱挺 一种大数据清洗方法
CN113268476A (zh) * 2021-06-07 2021-08-17 一汽解放汽车有限公司 应用于车联网的数据清洗方法、装置和计算机设备
CN113707334A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于聚类分析的医疗数据缺失处理方法、装置及存储介质
CN113836126A (zh) * 2021-09-22 2021-12-24 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN114756541A (zh) * 2022-05-25 2022-07-15 永修县彧馨科技有限公司 用于人工智能训练的大数据特征清洗决策方法及系统
CN115809406A (zh) * 2023-02-03 2023-03-17 佰聆数据股份有限公司 电力用户细粒度归类方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039213A1 (en) * 2015-08-07 2017-02-09 Adp, Llc Data normalizing system
CN110162519A (zh) * 2019-04-17 2019-08-23 苏宁易购集团股份有限公司 数据清理方法
CN110727668A (zh) * 2019-09-30 2020-01-24 北京百度网讯科技有限公司 数据清洗方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039213A1 (en) * 2015-08-07 2017-02-09 Adp, Llc Data normalizing system
CN110162519A (zh) * 2019-04-17 2019-08-23 苏宁易购集团股份有限公司 数据清理方法
CN110727668A (zh) * 2019-09-30 2020-01-24 北京百度网讯科技有限公司 数据清洗方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113064885B (zh) * 2020-12-29 2023-10-27 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113138982A (zh) * 2021-05-25 2021-07-20 黄柱挺 一种大数据清洗方法
CN113268476A (zh) * 2021-06-07 2021-08-17 一汽解放汽车有限公司 应用于车联网的数据清洗方法、装置和计算机设备
CN113707334A (zh) * 2021-08-31 2021-11-26 平安科技(深圳)有限公司 基于聚类分析的医疗数据缺失处理方法、装置及存储介质
CN113836126A (zh) * 2021-09-22 2021-12-24 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN113836126B (zh) * 2021-09-22 2024-01-30 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN114756541A (zh) * 2022-05-25 2022-07-15 永修县彧馨科技有限公司 用于人工智能训练的大数据特征清洗决策方法及系统
CN115809406A (zh) * 2023-02-03 2023-03-17 佰聆数据股份有限公司 电力用户细粒度归类方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111563071A (zh) 数据清洗方法、装置、终端设备及计算机可读存储介质
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN103514178A (zh) 一种基于点击率的搜索排序方法及装置
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN108830630B (zh) 一种虚假消息的识别方法及其设备
CN111427974A (zh) 数据质量评估管理方法和装置
CN109558547A (zh) 一种数据的过滤方法、装置、电子设备及存储介质
CN115577114A (zh) 一种基于时序知识图谱的事件检测方法和装置
CN112949914A (zh) 一种产业集群的识别方法、装置、存储介质及电子设备
CN116089732B (zh) 基于广告点击数据的用户偏好识别方法及系统
CN113723747A (zh) 分析报告生成方法、电子设备及可读存储介质
CN112950359A (zh) 一种用户识别方法和装置
WO2023093116A1 (zh) 企业的产业链节点确定方法、装置、终端及存储介质
CN110796381A (zh) 建模数据评价指标的处理方法、装置、终端设备及介质
CN109636627B (zh) 基于区块链的保险产品管理方法、装置、介质及电子设备
CN116629606A (zh) 一种基于电力数据的产业链预警方法、装置、设备及介质
KR20230002067A (ko) 이슈 분석 플랫폼 및 그 방법
CN115292167A (zh) 生命周期预测模型构建方法、装置、设备及可读存储介质
CN110119464B (zh) 一种合同中数值的智能推荐方法及装置
CN114490390A (zh) 测试数据生成方法、装置、设备及存储介质
CN113537363B (zh) 一种异常对象检测方法及装置、电子设备及存储介质
CN117453805B (zh) 一种不确定性数据的可视化分析方法
CN117993953A (zh) 一种工程建设费用计算的方法、系统、设备及存储介质
CN117272099A (zh) 基于人工智能的运营系统优化方法、装置及计算机设备
CN114357134A (zh) 一种对于知识产权检索分析数据的综合评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination