CN113836126B

CN113836126B - 一种数据清洗方法、装置、设备及存储介质

Info

Publication number: CN113836126B
Application number: CN202111105254.6A
Authority: CN
Inventors: 代运超
Original assignee: Shanghai Miaoyi Biotechnology Co ltd
Current assignee: Shanghai Miaoyi Biotechnology Co ltd
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-01-30
Anticipated expiration: 2041-09-22
Also published as: CN113836126A

Abstract

本发明涉及一种数据清洗方法、装置、设备及介质，方法包括：获取并识别数据的数据类型；判断数据是否符合预设匹配条件；在数据符合预设匹配条件的情况下，根据预设匹配条件对数据进行清洗，以获得规范化数据；根据预设存储条件存储规范化数据。其优点在于，在无须更改代码的情况下，利用预设匹配条件、预设存储条件对数据进行全自动化处理，减少了人工处理工作量，提高处理效率和处理精度，确保数据统一、便于进行后续统计、分析等操作；解决不同数据源字段不统一、不规范性；解决业务更新的规则的不确定性和多变性；通过对不同试验数据的自动清洗、匹配和治理，规范化试验数据，能极大地提高数据的匹配效率，能有效降低人工成本、提高数据质量。

Description

一种数据清洗方法、装置、设备及存储介质

技术领域

本发明涉及数据清洗技术领域，尤其涉及一种数据清洗方法、装置、计算机设备及计算机可读存储介质。

背景技术

目前临床试验研究的数据平台，数据比较分散、研究者查询试验数据需要从不同的试验平台才能获取相对比较全面的数据。为了给研究者提供统一的试验数据平台、就需要对不同平台的试验数据进行采集和处理，对数据进行规范化、标准化、数据治理之后可以统一展示给使用者。如何对数据进行自动治理，就显得尤为重要。

(1)多数据源表字段匹配

目前常见试验数据平台有CDE试验数据库、华西试验数据库、Clinicaltrial数据库，每种平台数据表设计都不统一，每次新增或者修改都需要研发修改对应的代码，才能完成字段匹配的工作。

(2)业务规则匹配

业务数据的匹配，比如试验的数据，可以按照显示名、别名、英文名、标题等进行匹配，如果源数据有修改，代码就需要针对性的修改，才能支持新的名字。

现有不同的研究试验数据、字段不规范、不统一、有很多的歧义性、给使用者造成的很大的困惑，全靠人工去检查、匹配，工作量极大、效率很低。

目前，针对相关技术中存在的数据量大需要人工检查、每次更新都需要修改对应代码等问题，尚未提出有效的解决方案。

发明内容

本申请的目的是针对现有技术中的不足，提供一种数据清洗方法、装置、设备及存储介质，以至少解决相关技术中的数据量大需要人工检查、每次更新都需要修改对应代码等问题。

为实现上述目的，本申请采取的技术方案是：

第一方面，本发明提供一种数据清洗方法，包括：

获取并识别数据的数据类型；

判断所述数据是否符合预设匹配条件，其中，所述预设匹配条件与所述数据类型相对应；

在所述数据符合所述预设匹配条件的情况下，根据所述预设匹配条件对所述数据进行清洗，以获得规范化数据；

根据预设存储条件存储所述规范化数据，其中，所述预设存储条件与所述数据类型相对应。

在其中的一些实施例中，所述数据类型包括试验基础数据、医院数据、研究者数据、医生数据。

在其中的一些实施例中，所述预设匹配条件包括全字段匹配、部分字段匹配、全量覆盖。

在其中的一些实施例中，所述预设存储条件包括新增、删除、覆盖、部分更新、全量更新。

在其中的一些实施例中，在获取并识别数据的数据类型之前，所述方法包括：

监听数据队列；

在所述数据队列接收到数据的情况下，获取所述数据。

在其中的一些实施例中，根据所述预设匹配条件对所述数据进行清洗，以获得规范化数据包括：

获取所述数据的第一特定字段信息；

判断所述第一特定字段信息与所述预设匹配条件的第一预设字段信息是否匹配；

在所述第一特定字段信息与所述第一预设字段信息匹配的情况下，将所述第一特定字段信息替换为第一规范字段信息，以使所述数据转换为规范化数据，其中，所述第一规范字段信息为第一预设字段信息的子集。

获取所述数据的第二特定字段信息；

识别所述第二特定字段信息的字段类型；

获取所述预设匹配条件的第二预设字段信息，其中，所述第二预设字段信息的字段类型与所述第二特定字段信息的字段类型相同；

将所述第二特定字段信息替换为第二规范字段信息，以使所述数据转换为规范化数据，其中，所述第二规范字段信息为第二预设字段信息与第二特定字段信息的组合。

在其中的一些实施例中，在判断所述数据是否符合预设匹配条件之后，所述方法还包括：

在所述数据不符合所述预设匹配条件的情况下，标记所述数据为待人工处理数据；

推送所述待人工处理数据；

获取与所述待人工处理数据相对应的规范化数据；

在其中的一些实施例中，根据预设存储条件存储所述规范化数据包括：

获取所述预设存储条件的待存储字段类型；

获取所述规范化数据的与所述待存储字段类型相对应的待存储字段信息；

存储所述规范化数据，以使所述待存储字段信息替换对应的原存储字段信息。

在其中的一些实施例中，存储所述规范化数据，以使所述待存储字段信息替换对应的原存储字段信息包括：

获取与所述待存储字段类型相对应的原存储字段信息；

存储所述原存储字段信息；

将所述待存储字段信息替换所述原存储字段信息。

第二方面，本发明提供一种数据清洗装置，包括：

获取单元，用于获取数据；

识别单元，与所述获取单元连接，用于识别所述数据的数据类型；

判断单元，与所述识别单元连接，用于判断所述数据是否符合预设匹配条件，其中，所述预设匹配条件与所述数据类型相对应；

清洗单元，与所述判断单元连接，用于在所述数据符合所述预设匹配条件的情况下，根据所述预设匹配条件对所述数据进行清洗，以获得规范化数据；

存储单元，与所述清洗单元连接，用于根据预设存储条件存储所述规范化数据，其中，所述预设存储条件与所述数据类型相对应。

在其中的一些实施例中，还包括：

监听单元，用于监听数据队列；

其中，所述获取单元与所述监听单元连接，用于在所述数据队列接收到数据的情况下，获取所述数据。

在其中的一些实施例中，所述清洗单元包括：

第一获取模块，用于获取所述数据的第一特定字段信息；

判断模块，与所述第一获取模块连接，用于判断所述第一特定字段信息与所述预设匹配条件的第一预设字段信息是否匹配；

第一清洗模块，用于在所述第一特定字段信息与所述第一预设字段信息匹配的情况下，将所述第一特定字段信息替换为第一规范字段信息，以使所述数据转换为规范化数据，其中，第一规范字段信息为第一预设字段信息的子集。

在其中的一些实施例中，所述清洗单元包括：

第二获取模块，用于获取所述数据的第二特定字段信息；

识别模块，与所述第二获取模块连接，用于识别所述第二特定字段信息的字段类型；

第三获取模块，与所述识别模块连接，用于获取所述预设匹配条件的第二预设字段信息，其中，所述第二预设字段信息的字段类型与所述第二特定字段信息的字段类型相同；

第二清洗模块，与所述第二获取模块、所述第三获取模块连接，用于将所述第二特定字段信息替换为第二规范字段信息，以使所述数据转换为规范化数据，其中，所述第二规范字段信息为第二预设字段信息与第二特定字段信息的组合。

在其中的一些实施例中，所述存储单元包括：

第四获取模块，用于获取所述预设存储条件的待存储字段类型；

第五获取模块，与所述第四获取模块连接，用于获取所述规范化数据的与所述待存储字段类型相对应的待存储字段信息；

第一存储模块，与所述第五获取模块连接，用于存储所述规范化数据，以使所述待存储字段信息替换对应的原存储字段信息。

在其中的一些实施例中，所述存储单元还包括：

第六获取模块，与所述第四获取模块连接，用于获取与所述待存储字段类型相对应的原存储字段信息；

第二存储模块，与所述第六获取模块连接，用于存储所述原存储字段信息。

第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的数据清洗方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的数据清洗方法。

相比于相关技术，本申请实施例提供的一种数据清洗方法、装置、设备及存储介质，在无须更改代码的情况下，利用预设匹配条件、预设存储条件对数据进行全自动化处理，减少了人工处理工作量，提高处理效率和处理精度，确保数据统一、便于进行后续统计、分析等操作；解决不同数据源字段不统一、不规范性；解决业务更新的规则的不确定性和多变性；通过对不同试验数据的自动清洗、匹配和治理，规范化试验数据，能极大地提高数据的匹配效率，能有效地降低人工的成本、提高数据质量、对标准化、规范化试验数据建设提供一种高效的技术方案。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的数据清洗方法的流程图(一)；

图2是根据本申请实施例的数据清洗方法的流程图(二)；

图3是根据本申请实施例的数据清洗方法的流程图(三)；

图4是根据本申请实施例的数据清洗方法的流程图(四)；

图5是根据本申请实施例的数据清洗方法的流程图(五)；

图6是根据本申请实施例的数据清洗方法的流程图(六)；

图7是根据本申请实施例的数据清洗装置的框架图(一)；

图8是根据本申请实施例的数据清洗装置的框架图(二)；

图9是根据本申请实施例的清洗单元的框架图(一)；

图10是根据本申请实施例的清洗单元的框架图(二)；

图11是根据本申请实施例的存储单元的框架图(一)；

图12是根据本申请实施例的存储单元的框架图(二)；

图13～14是根据本申请实施例的数据清洗方法的具体流程示意图。

其中的附图标记为：700、数据清洗装置；710、获取单元；720、识别单元；730、判断单元；740、清洗单元；741、第一获取模块；742、判断模块；743、第一清洗模块；744、第二获取模块；745、识别模块；746、第三获取模块；747、第二清洗模块；750、存储单元；751、第四获取模块；752、第五获取模块；753、第一存储模块；754、第六获取模块；755、第二存储模块；760、监听单元。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

图1是根据本发明实施例的数据清洗方法的流程图(一)。如图1所示，一种数据清洗方法，包括以下步骤：

步骤S102、获取并识别数据的数据类型；

步骤S104、判断数据是否符合预设匹配条件，其中，预设匹配条件与数据类型相对应；

步骤S106、在数据符合预设匹配条件的情况下，根据预设匹配条件对数据进行清洗，以获得规范化数据；

步骤S108、根据预设存储条件存储规范化数据，其中，预设存储条件与数据类型相对应。

在步骤S102中，获取不同来源提供的数据，然后对数据进行识别分类，以对减轻后续流程处理数据的压力。

其中，可以根据数据的来源对数据进行分类，如数据类型包括医院数据、试验数据、研究者数据、公司数据。

在步骤S104中，判断数据是否符合预设匹配条件是指，判断数据的字段是否符合预设匹配条件。具体地，获取数据的一个或多个字段信息，将一个或多个字段信息与预设匹配条件的一个或多个预设字段信息进行匹配。

由于不同来源的数据所含有的字段不同，所以不同来源的数据所对应的预设匹配条件也不同，因此需要根据数据类型设置不同的预设匹配条件，从而提高处理效率和匹配精确度。

其中，预设匹配条件包括但不限于全字段匹配、部分字段匹配、全量覆盖等。

具体地，全字段匹配是指，将数据的全部字段名与预设匹配条件的预设字段名进行一一匹配，若数据的全部字段名与预设匹配条件的预设字段名匹配，则表明数据符合预设匹配条件；若数据的至少一字段名与预设匹配条件的预设字段名不匹配(如与预设匹配条件的预设字段名相比，数据的字段名数量多于预设字段名，或少于预设字段名)，则表明数据不符合预设匹配条件。

部分字段匹配是指，将数据的部分字段名与预设匹配条件的预设字段名进行一一匹配，若数据的部分字段名与预设匹配条件的预设字段名匹配，则表明数据符合预设匹配条件；若数据的至少字段名与预设匹配条件的预设字段名不匹配，则表明数据不符合预设匹配条件。

在步骤S106中，根据预设匹配条件对数据进行清洗是指，对数据的字段信息进行修改。

在其中的一些实施例中，对于同一数据来源而言，由于不同工作人员的习惯用语不同，导致字段信息不同，即虽然不同数据的字段类型(字段属性)相同，但具体的字段信息不同，如字段类型为医院名称，字段信息包括但不限于医院的全称、医院的简称、医院的别名、医院的英文名、医院的英文缩写等。具体地，以上海长征医院为例，其名称包括海军军医大学附属长征医院、第二军医大学第二附属医院、海军军医大学附属长征医院(原上海长征医院)、中国人民解放军第二军医大学第二附属医院、Shanghai Changzheng Hospital,TheSecond Military Medical University等，为了确保的数据统一、便于统计，需要对字段信息进行修改，即根据预设匹配条件的预设字段信息对数据的字段信息进行清洗，以使数据转换成规范化数据，从而便于后续处理。

具体地，预设匹配条件的一预设字段信息为海军军医大学附属长征医院，在其数据的字段信息为海军军医大学附属长征医院、第二军医大学第二附属医院、海军军医大学附属长征医院(原上海长征医院)、中国人民解放军第二军医大学第二附属医院、ShanghaiChangzheng Hospital,The Second Military Medical University中的任一一个的情况下，该数据的该字段信息统一替换/修改为海军军医大学附属长征医院。

在其中的一些实施例中，不同来源的数据的字段类型相同，但字段信息不同，因此，为了保证后续数据处理的统一性，需要对字段信息进行修改。

具体地，以试验名称为例，其字段类型为名称、字段信息为Trial_Title，不同来源的数据的字段信息不同，需要将不同来源的数据的字段信息统一修正为Trial_Title。如CDE的试验名称：【cde_trial_title】；华西试验的名称：【hx_title】；Clinicaltrials:的试验名称：【clin_title】，则上述不同来源的数据的名称均被修改为【Trial_Title】。

在步骤S108中，根据预设存储条件存储规范化数据是指，由于每一规范化数据均有多个字段，其中，工作人员可能仅关注该数据的部分字段，因此，为了减少存储压力，仅对规范化数据的部分字段进行处理。

其中，预设存储条件包括新增、删除、覆盖、部分更新、全量更新、直接存储。

具体地，如规范化数据有三个字段是需要重点关注的，则仅对这三个字段进行更新存储。字段数组【HospitalName,TrialName,DocterName】，设置的规则(预设存储条件)操作【保存旧值，更新】，首先是对这3个字段的值进行匹配，如果值发生了变化，根据设置的规则就是先保存更新前的旧值，再更新成最新的值，然后存储最新的值。

在步骤S104之后，该方法还包括：

S110、在数据不符合预设匹配条件的情况下，标记数据为待人工处理数据；

S112、推送待人工处理数据；

S114、获取与待人工处理数据相对应的规范化数据；

S108、根据预设存储条件存储规范化数据，其中，预设存储条件与数据类型相对应。

在步骤S112～S114中，将待人工处理数据推送至工作人员的用户端，工作人员在用户端对待人工处理数据进行规范化处理以获得规范化数据，获取工作人员发送的规范化数据即可完成数据清洗步骤。

通过上述步骤，在无须更改代码的情况下，利用预设匹配条件、预设存储条件对数据进行全自动化处理，减少了人工处理工作量，提高处理效率和处理精度，确保数据统一、便于进行后续统计、分析等操作。

图2是根据本发明实施例的数据清洗方法的流程图(二)。如图2所示，在获取并识别数据的数据类型之前，方法包括：

步骤S202、监听数据队列；

步骤S204、在数据队列接收到数据的情况下，获取数据。

在步骤S204中，获取数据的方法包括：实时从数据队列抓取数据、实时被动接收数据队列发送的数据、定时从数据队列抓取数据、定时被动接收数据队列发送的数据。

通过上述步骤，通过监听数据队列，获取最新的数据，提高数据的时效性，对数据库存储的数据进行更新，确保数据库存储的数据不过时。

图3是根据本发明实施例的数据清洗方法的流程图(三)。如图3所示，根据预设匹配条件对数据进行清洗，以获得规范化数据包括：

步骤S302、获取数据的第一特定字段信息；

步骤S304、判断第一特定字段信息与预设匹配条件的第一预设字段信息是否匹配；

步骤S306、在第一特定字段信息与第一预设字段信息匹配的情况下，将第一特定字段信息替换为第一规范字段信息，以使数据转换为规范化数据，其中，第一规范字段信息为第一预设字段信息的子集。

在上述步骤中，第一特定字段信息是指数据的某一字段的具体信息，第一预设字段信息是指规范化数据的某一字段的统一规范信息。

具体地，以第一特定字段信息为实验者名称为例，实验者名称为XXX、XXX+其他名词(如院长、主任、主治、医生、老师、博士、教授)中的任意一个，第一预设字段信息为XXX、XXX+其他名词(如院长、主任、主治、医生、老师、博士、教授)的集合，第一规范字段信息为XXX，即若数据的实验者名称为XXX主任，则其对应的规范化数据的实验者名称为XXX。

具体地，以第一特定字段信息为药品名称为例，药品名称为中文名、外文名、别名、译名、分子式、cas、EINECS号的任意一个，第一预设字段信息为中文名、外文名、别名、译名、分子式、cas、EINECS号的集合，第一规范字段信息为中文名。如西地那非的名称包括西地那非、Sildenafil、SIDANAFIL、viag Ta、Revatio、万艾可、金戈、昔多芬、139755-83-2、C₂₂H₃₀N₆O₄S、252-082-4，即若数据的药品名称为万艾可，其对应的规范化数据的药品名称为西地那非。

具体地，以第一特定字段信息为日期为例，日期为YYYY-MM-DD、YYYY/MM/DD、MM/DD/YYYY、YYYY年MM月DD日中的任意一个，第一预设字段信息为YYYY-MM-DD、YYYY/MM/DD、MM/DD/YYYY、YYYY年MM月DD日的集合，第一规范字段信息为YYYY-MM-DD。即若时间为2021年7月15日，则其对应的规范化数据的日期为2021-7-15。

在步骤S306中，第一特定字段信息与第一预设字段信息匹配是指，第一特定字段信息为第一预设字段信息的子集。

具体地，数据的第一特定字段信息【DocterName】为【XXX教授】，第一预设字段信息【DocterName】为【XXX、XXX教授、XXX老师、XXX博士、XXX主任】，第一规范字段信息【DocterName】为【XXX】，则数据的第一特定字段信息的【XXX教授】被规范为【XXX】，即规范化数据的【DocterName】为【XXX】。

通过上述步骤，对不同数据的具有同一字段类型/同一字段属性/同一字段名称的字段信息进行规范化处理，从而统一数据的字段信息，便于后续对数据的统计、分析。

图4是根据本发明实施例的数据清洗方法的流程图(四)。如图4所示，根据预设匹配条件对数据进行清洗，以获得规范化数据包括：

步骤S402、获取数据的第二特定字段信息；

步骤S404、识别第二特定字段信息的字段类型；

步骤S406、获取预设匹配条件的第二预设字段信息，其中，第二预设字段信息的字段类型与第二特定字段信息的字段类型相同；

步骤S408、将第二特定字段信息替换为第二规范字段信息，以使数据转换为规范化数据，其中，第二规范字段信息为第二特定字段信息与第二预设字段信息的组合。

在上述步骤中，第二特定字段信息是指数据的某一字段类型的具体信息，第二预设字段信息是指规范化数据的某一字段类型的统一规范信息。

具体地，以第二特定字段信息为试验名称为例，试验名称包括但不限于XX_title、YY_title、ZZ_title，第二预设字段信息为Trial_Title，第二规范字段信息为Trial_Title:XX_title、Trial_Title:YY_title、Trial_Title:ZZ_title。即若数据的试验名称为XX_title，则其对应的规范化数据的实验者名称为Trial_Title:XX_title。

通过上述步骤，对不同来源的数据进行规范化处理，便于对不同来源的数据进行存储、统计、分析。

图5是根据本发明实施例的数据清洗方法的流程图(五)。如图5所示，根据预设存储条件存储规范化数据包括：

步骤S502、获取预设存储条件的待存储字段类型；

步骤S504、获取规范化数据的与待存储字段类型相对应的待存储字段信息；

步骤S506、存储规范化数据，以使待存储字段信息替换对应的原存储字段信息。

在步骤S502中，待存储字段类型是指需要存储的字段类型/字段属性/字段名称，如需要对医院名称、试验名称、医生名称等进行存储，则其对应的待存储字段类型分别为【HospitalName】、【TrialName】、【DocterName】。

其中，待存储字段类型可以是规范化数据的部分字段、也可以是规范化数据的全部字段。

在步骤S506中，使待存储字段信息替换对应的原存储字段信息的方法包括但不限于存储原存储字段信息后再使用待存储字段信息替换原存储字段信息、不存储原存储字段信息并直接使用待存储字段信息替换原存储字段信息。

通过上述步骤，仅对待存储字段类型进行更新，减少了更新数据量，提高更新效率。

图6是根据本发明实施例的数据清洗方法的流程图(六)。如图6所示，存储规范化数据，以使待存储字段信息替换对应的原存储字段信息包括：

步骤S602、获取与待存储字段类型相对应的原存储字段信息；

步骤S604、存储原存储字段信息；

步骤S606、将待存储字段信息替换原存储字段信息。

通过上述步骤，在存储待存储字段信息之前，对原存储字段信息进行存储，以形成数据更新日志、或者多个数据记录，便于后续进行对比、检索。

图7是根据本发明实施例的数据清洗装置的框架图(一)。如图7所示，数据清洗装置700包括获取单元710、识别单元720、判断单元730、清洗单元740、存储单元750，其中，获取单元710、识别单元720、判断单元730、清洗单元740和存储单元750顺次连接(电性连接或通信连接)。

其中，获取单元710用于获取数据；

识别单元720用于接收获取单元710传输的数据，识别数据的数据类型；

判断单元730用于接收识别单元720传输的数据以及数据类型，判断数据是否符合预设匹配条件，其中，预设匹配条件与数据类型相对应；

清洗单元740用于接收判断单元730传输的判断结果，在数据符合预设匹配条件的情况下，根据预设匹配条件对数据进行清洗，以获得规范化数据；

存储单元750用于接收清洗单元740传输的规范化数据，根据预设存储条件存储规范化数据，其中，预设存储条件与数据类型相对应。

通过上述单元，在无须更改代码的情况下，利用预设匹配条件、预设存储条件对数据进行全自动化处理，减少了人工处理工作量，提高处理效率和处理精度，确保数据统一、便于进行后续统计、分析等操作。

图8是根据本发明实施例的数据清洗装置的框架图(二)。如图8所示，数据清洗装置700还包括监听单元760，监听单元760与获取单元710连接(电性连接或通信连接)。

其中，监听单元760用于监听数据队列；

获取单元710用于在数据队列接收到数据的情况下，获取监听单元760传输的数据。

通过上述单元，通过监听数据队列，获取最新的数据，提高数据的时效性，对数据库存储的数据进行更新，确保数据库存储的数据不过时。

图9是根据本发明实施例的清洗单元的框架图(一)。如图9所示，清洗单元740包括第一获取模块741、判断模块742、第一清洗模块743，其中，第一获取模块741、判断模块742和第一清洗模块743顺次连接(电性连接或通信连接)。

其中，第一获取模块741用于获取数据的第一特定字段信息；

判断模块742用于接收第一获取模块741传输的第一特定字段信息，判断第一特定字段信息与预设匹配条件的第一预设字段信息是否匹配；

第一清洗模块743用于接收判断模块742传输的判断结果，在第一特定字段信息与第一预设字段信息匹配的情况下，将第一特定字段信息替换为第一规范字段信息，以使数据转换为规范化数据，其中，第一规范字段信息为第一预设字段信息的子集。

通过上述模块，对不同数据的具有同一字段类型/同一字段属性/同一字段名称的字段信息进行规范化处理，从而统一数据的字段信息，便于后续对数据的统计、分析。

图10是根据本发明实施例的清洗单元的框架图(二)。如图10所示，清洗单元740包括第二获取模块744、识别模块745、第三获取模块746、第二清洗模块747，其中，第二清洗模块747分别与第二获取模块744、第三获取模块746连接(电性连接或通信连接)，识别模块745分别与第二获取模块744、第三获取模块746连接(电性连接或通信连接)。

其中，第二获取模块744用于获取数据的第二特定字段信息；

识别模块745用于接收第二获取模块744传输的第二特定字段信息，识别第二特定字段信息的字段类型；

第三获取模块746，用于接收识别模块745传输的字段类型，获取预设匹配条件的第二预设字段信息，其中，第二预设字段信息的字段类型与第二特定字段信息的字段类型相同；

第二清洗模块747，用于接收第二获取模块744传输的第二特定字段信息以及第三获取模块746传输的第二预设字段信息，将第二特定字段信息替换为第二规范字段信息，以使数据转换为规范化数据，其中，第二规范字段信息为第二特定字段信息与第二预设字段信息的组合。

通过上述模块，对不同来源的数据进行规范化处理，便于对不同来源的数据进行存储、统计、分析。

图11是根据本发明实施例的存储单元的框架图(一)。如图11所示，存储单元750包括第四获取模块751、第五获取模块752、第一存储模块753，其中，第四获取模块751、第五获取模块752和第一存储模块753顺次连接(电性连接或通信连接)。

其中，第四获取模块751用于获取预设存储条件的待存储字段类型；

第五获取模块752用于接收第四获取模块751传输的待存储字段类型，获取规范化数据的与待存储字段类型相对应的待存储字段信息；

第一存储模块753，用于接收第五获取模块752传输的待存储字段信息，使待存储字段信息替换对应的原存储字段信息，存储规范化数据。

通过上述模块，仅对待存储字段类型进行更新，减少了更新数据量，提高更新效率。

图12是根据本发明实施例的存储单元的框架图(二)。如图12所所示，存储单元750还包括第六获取模块754、第二存储模块755，其中，第四获取模块751、第六获取模块754和第二存储模块755连接(电性连接或通信连接)。

其中，第六获取模块754，用于接收第四获取模块751传输的待存储字段类型，获取与待存储字段类型相对应的原存储字段信息；

第二存储模块755，用于接收第六获取模块754传输的原存储字段信息，存储原存储字段信息。

通过上述模块，在存储待存储字段信息之前，对原存储字段信息进行存储，以形成数据更新日志、或者多个数据记录，便于后续进行对比、检索。

图13是根据本申请实施例的数据清洗方法的具体流程示意图。如图13所示，包括以下步骤：

初始化，包括消息队列监听初始化、任务队列初始化和清洗策略引擎初始化；

数据清洗处理器，用于获取数据队列发送的清洗数据；

消息分发和识别数据业务类型，用于识别清洗数据的数据类型，并将清洗数据按照其数据类型发送至对应的数据处理服务器；

根据预设的清洗策略、匹配规则和入库规则对清洗数据依次进行清洗、匹配和入库；

若数据不符合匹配规则，则将该数据提供至人工处理；

若数据符合匹配规则，则根据匹配规则对数据进行清洗，然后将清洗后的数据按照入库规则进行入库。

更具体的步骤如下：

1、启动清洗服务，初始化参数设置：队列的初始化、任务的初始化、清洗策略的引擎初始化

2、服务启动成功后，监听队列(Message Queue，MQ)中的消息。

3、消息进来之后，根据业务类型进行消息分发，每种消息都有一个解析处理器。

4、进入数据处理环节，设置对应匹配规则和入库规则。

5、符合匹配规则的进行自动入库

6、不确定的数据需要进入人工处理

7、单次流程结束。

图14是根据本申请实施例的数据清洗方法的具体流程示意图。如图14所示，包括以下步骤：

设置配置策略，根据不同的数据类型(如不同来源的数据)设置清洗策略，包括匹配策略和入库策略；

根据匹配策略和入库策略对数据进行匹配、清洗、更新；

缓存清洗后的数据。

通过上述步骤，解决不同数据源字段不统一、不规范性；决业务更新的规则的不确定性和多变性；适应复杂的业务变化，能把多数据源多不规范统一、减少人工的参与，提高效率；通过对不同试验数据的自动清洗、匹配和治理，规范化试验数据，能极大地提高数据的匹配效率，能有效地降低人工的成本、提高数据质量、对标准化、规范化试验数据建设提供一种高效的技术方案。

另外，本申请实施例的数据清洗方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。

在一些实施例中，处理器可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

在一些实施例中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(Non-Volatile)存储器。在特定实施例中，存储器包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种数据清洗方法。

在其中一些实施例中，计算机设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以执行本申请实施例中的数据清洗方法。

另外，结合上述实施例中的数据清洗方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据清洗方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据清洗方法，其特征在于，包括：

获取并识别数据的数据类型；

判断所述数据是否符合预设匹配条件，其中，所述预设匹配条件与所述数据类型相对应，所述预设匹配条件包括全字段匹配、部分字段匹配、全量覆盖；

根据预设存储条件存储所述规范化数据，其中，所述预设存储条件与所述数据类型相对应，其中，所述预设存储条件包括新增、删除、覆盖、部分更新、全量更新、直接存储；

其中，判断所述数据是否符合预设匹配条件之后，还包括：

推送所述待人工处理数据；

获取与所述待人工处理数据相对应的规范化数据；

根据预设存储条件存储所述规范化数据，其中，所述预设存储条件与所述数据类型相对应；

其中，根据所述预设匹配条件对所述数据进行清洗，以获得规范化数据包括：

获取所述数据的第一特定字段信息；

在所述第一特定字段信息与所述第一预设字段信息匹配的情况下，将所述第一特定字段信息替换为第一规范字段信息，以使所述数据转换为规范化数据，其中，所述第一规范字段信息为第一预设字段信息的子集；和/或

获取所述数据的第二特定字段信息；

识别所述第二特定字段信息的字段类型；

将所述第二特定字段信息替换为第二规范字段信息，以使所述数据转换为规范化数据，其中，所述第二规范字段信息为第二预设字段信息与第二特定字段信息的组合；

其中，根据预设存储条件存储所述规范化数据包括：

获取所述预设存储条件的待存储字段类型，其中，所述待存储字段类型包括所述规范化数据的部分字段、所述规范化数据的全部字段；

存储所述规范化数据，以使所述待存储字段信息替换对应的原存储字段信息；

其中，使所述待存储字段信息替换对应的原存储字段信息包括：

存储所述原存储字段信息后再使用所述待存储字段信息替换所述原存储字段信息；

不存储所述原存储字段信息并直接使用所述待存储字段信息替换所述原存储字段信息。

2.根据权利要求1所述的数据清洗方法，其特征在于，在获取并识别数据的数据类型之前，所述方法包括：

监听数据队列；

在所述数据队列接收到数据的情况下，获取所述数据。

3.根据权利要求1所述的数据清洗方法，其特征在于，存储所述规范化数据，以使所述待存储字段信息替换对应的原存储字段信息包括：

获取与所述待存储字段类型相对应的原存储字段信息；

存储所述原存储字段信息；

将所述待存储字段信息替换所述原存储字段信息。

4.一种数据清洗装置，其特征在于，包括：

获取单元，用于获取数据；

判断单元，与所述识别单元连接，用于判断所述数据是否符合预设匹配条件，其中，所述预设匹配条件与所述数据类型相对应，所述预设匹配条件包括全字段匹配、部分字段匹配、全量覆盖；

清洗单元，与所述判断单元连接，用于在所述数据符合所述预设匹配条件的情况下，根据所述预设匹配条件对所述数据进行清洗，以获得规范化数据；以及用于在所述数据不符合所述预设匹配条件的情况下，标记所述数据为待人工处理数据；推送所述待人工处理数据；获取与所述待人工处理数据相对应的规范化数据；

存储单元，与所述清洗单元连接，用于根据预设存储条件存储所述规范化数据，其中，所述预设存储条件与所述数据类型相对应，其中，所述预设存储条件包括新增、删除、覆盖、部分更新、全量更新、直接存储；

其中，所述清洗单元包括：

第一获取模块，用于获取所述数据的第一特定字段信息；

第一清洗模块，用于在所述第一特定字段信息与所述第一预设字段信息匹配的情况下，将所述第一特定字段信息替换为第一规范字段信息，以使所述数据转换为规范化数据，其中，第一规范字段信息为第一预设字段信息的子集；

和/或

所述清洗单元包括：

第二获取模块，用于获取所述数据的第二特定字段信息；

第二清洗模块，与所述第二获取模块、所述第三获取模块连接，用于将所述第二特定字段信息替换为第二规范字段信息，以使所述数据转换为规范化数据，其中，所述第二规范字段信息为第二预设字段信息与第二特定字段信息的组合；

其中，所述存储单元包括：

第一存储模块，与所述第五获取模块连接，用于存储所述规范化数据，以使所述待存储字段信息替换对应的原存储字段信息，其中，使所述待存储字段信息替换对应的原存储字段信息包括存储所述原存储字段信息后再使用所述待存储字段信息替换所述原存储字段信息、不存储所述原存储字段信息并直接使用所述待存储字段信息替换所述原存储字段信息。

5.根据权利要求4所述的数据清洗装置，其特征在于，还包括：

监听单元，用于监听数据队列；

6.根据权利要求4所述的数据清洗装置，其特征在于，所述存储单元还包括：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的数据清洗方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3任一项所述的数据清洗方法。