CN104731859A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN104731859A
CN104731859A CN201510053045.XA CN201510053045A CN104731859A CN 104731859 A CN104731859 A CN 104731859A CN 201510053045 A CN201510053045 A CN 201510053045A CN 104731859 A CN104731859 A CN 104731859A
Authority
CN
China
Prior art keywords
data
data processing
pending
queue
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510053045.XA
Other languages
English (en)
Other versions
CN104731859B (zh
Inventor
邱锋兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201510053045.XA priority Critical patent/CN104731859B/zh
Publication of CN104731859A publication Critical patent/CN104731859A/zh
Application granted granted Critical
Publication of CN104731859B publication Critical patent/CN104731859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了数据处理方法及装置,其中,该方法包括:响应于触发的数据处理指令,根据数据处理指令确定数据处理所需使用的规则;响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中;根据确定的数据处理所需使用的规则,对待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;输出结果数据临时缓存队列中处理操作完成后的数据。本发明解决了现有技术中在数据清洗过程中,采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题,实现大量数据清洗的自动化,提高了数据清洗的效率。

Description

数据处理方法及装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种数据处理方法及装置。
背景技术
随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如OLAP(Online Analytical Processing,联机分析处理)、数据挖掘等有效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏”,究其原因,一是缺乏有效的数据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数据间的不一致等,导致现有的数据中存在不同类别的脏数据。它们主要表现为:拼写问题、打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示(如重复)、不遵循引用完整性等。
现有技术中对数据清洗技术大多是在数据仓库、决策支持、数据挖掘研究中,对其做一些比较简单的阐述,具体来说,可以通过人工参与的方式来完成;对于小量的文件的清洗,可以使用一些辅助工具(例如:Office Excel)来完成。然而,对于人工参与的方式,费时又费力,且清洗出来的数据的质量还不一定准确;对于在对大量的文本文件进行清洗工作,使用辅助工具来完成的话,由于数据数量大,使用类似辅助工具难度大、很难完成。
针对现有技术中在数据清洗过程中,采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种数据处理方法及装置,以至少解决现有技术中在数据清洗过程中,采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题。
根据本发明的一个方面,提供了一种数据处理方法,该方法包括:响应于触发的数据处理指令,根据数据处理指令确定数据处理所需使用的规则,其中,数据处理指令中包含有用于指示数据处理所需使用的规则的信息;响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中;根据确定的数据处理所需使用的规则,对待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;输出结果数据临时缓存队列中处理操作完成后的数据。
可选地,在响应于触发的数据处理指令之前,还包括:预先配置数据处理过程中需要使用的系统配置的信息,生成系统配置信息列表;以及预先配置数据处理所需使用的规则的信息,生成数据处理规则列表。
可选地,将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中,包括:将待处理数据生成可识别的压缩包文件,压缩包文件中包含有待处理数据的数据文件以及与该数据文件对应的配置文件;将压缩包文件中的数据文件,按照与该数据文件对应的配置文件中的配置信息进行解析,并将解析后获得的数据存储至待处理缓存队列中,其中,配置文件中包括:第一配置信息,用于将数据文件进行格式校验以清除无效的数据;第二配置信息,用于将数据文件配置为具有唯一标识信息的数据文件。
可选地,根据确定的数据处理所需使用的规则,对待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列,包括:轮询待处理缓存队列,获取待处理缓存队列中的数据;判断数据处理规则列表中是否存在本次数据处理所需使用的规则的信息,若存在,则按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作;将对待处理缓存队列中的待处理数据进行处理操作后获得的数据,作为已处理数据,存储至结果数据临时缓存队列。
可选地,若判断数据处理规则列表中不存在本次数据处理所需使用的规则的信息,将获取的待处理缓存队列中的数据重新放回待处理缓存队列,直至接收到用于指示数据处理规则列表中存在本次数据处理所需使用的规则的信息的心跳包后,按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作。
可选地,输出结果数据临时缓存队列中处理操作完成后的数据,包括:根据系统配置信息列表中的信息,确定结果数据缓存队列配置信息;根据确定的结果数据缓存队列配置信息,确定结果数据临时缓存队列中处理操作完成后的数据所需输出的位置;将结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所需输出的位置。
可选地,将结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所需输出的位置,包括:轮询结果数据临时缓存队列,获取结果数据临时缓存队列中处理操作完成后的数据;将获取到的结果数据转换成统一的JSON数据,生成结果文件;将生成的结果文件,输出至确定的位置。
可选地,对待处理缓存队列中的待处理数据进行对应的处理操作,至少包括以下操作之一:数据清洗操作;数据转换操作;归一化操作。
可选地,系统配置信息列表、数据处理规则列表、待处理缓存队列、以及结果数据临时缓存队列存储在高速缓存中。
根据本发明的另一方面,提供了一种数据处理装置,该装置包括:响应单元,用于响应于触发的数据处理指令,根据数据处理指令确定数据处理所需使用的规则,其中,数据处理指令中包含有用于指示数据处理所需使用的规则的信息;数据灌入单元,用于响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中;数据处理单元,用于根据确定的数据处理所需使用的规则,对待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;数据输出单元,输出结果数据临时缓存队列中处理操作完成后的数据。
可选地,该装置还包括:第一配置单元,用于在响应于触发的数据处理指令之前,预先配置数据处理过程中需要使用的系统配置的信息,生成系统配置信息列表;以及第二配置单元,用于预先配置数据处理所需使用的规则的信息,生成数据处理规则列表。
可选地,数据灌入单元包括:文件生成模块,用于将待处理数据生成可识别的压缩包文件,压缩包文件中包含有待处理数据的数据文件以及与该数据文件对应的配置文件;解析模块,用于将压缩包文件中的数据文件,按照与该数据文件对应的配置文件中的配置信息进行解析,并将解析后获得的数据存储至待处理缓存队列中,其中,配置文件中包括:第一配置信息,用于将数据文件进行格式校验以清除无效的数据;第二配置信息,用于将数据文件配置为具有唯一标识信息的数据文件。
可选地,数据处理单元包括:获取模块,用于轮询待处理缓存队列,获取待处理缓存队列中的数据;第一判断模块,用于判断数据处理规则列表中是否存在本次数据处理所需使用的规则的信息,若存在,则按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作;存储模块,用于将对待处理缓存队列中的待处理数据进行处理操作后获得的数据,作为已处理数据,存储至结果数据临时缓存队列。
可选地,该装置还包括:第二判断模块,用于在判定数据处理规则列表中不存在本次数据处理所需使用的规则的信息时,将获取的待处理缓存队列中的数据重新放回待处理缓存队列,直至接收到用于指示数据处理规则列表中存在本次数据处理所需使用的规则的信息的心跳包后,按照数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对待处理缓存队列中的待处理数据进行处理操作。
可选地,数据输出单元包括:第一确定模块,用于根据系统配置信息列表中的信息,确定结果数据缓存队列配置信息;第二确定模块,用于根据确定的结果数据缓存队列配置信息,确定结果数据临时缓存队列中处理操作完成后的数据所需输出的位置;输出模块,用于将结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所需输出的位置。
可选地,输出模块包括:获取子模块,用于轮询结果数据临时缓存队列,获取结果数据临时缓存队列中处理操作完成后的数据;数据转换子模块,用于将获取到的结果数据转换成统一的JSON数据,生成结果文件;输出子模块,用于将生成的结果文件,输出至确定的位置。
可选地,对待处理缓存队列中的待处理数据进行对应的处理操作,至少包括以下操作之一:数据清洗操作;数据转换操作;归一化操作。
可选地,系统配置信息列表、数据处理规则列表、待处理缓存队列、以及结果数据临时缓存队列存储在高速缓存中。
在本发明中,当用户需要对数据进行清理、转换、归一化等数据处理操作时,只需发出相应的指令,系统响应用户发出的指令,在确定用户所需要使用的数据处理规则以及所需使用的单元后,将用户待处理的数据灌入至确定的单元,负责进行数据处理的进程单元会读取灌入的待处理数据,并进行用户所需的数据清理、转换、归一化等处理操作,并根据相应的配置信息,将数据输出至所需的位置。这种数据处理方式,实现了对数据清理、转换、归一化等操作的自动化,有效地解决了现有技术中数据清洗采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题,提高了数据清洗的效率,进一步地,也提高了数据清洗的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据处理方法的一种可选的流程图;
图2是根据本发明实施例的数据处理装置的一种可选的结构图;
图3是根据本发明实施例的数据处理装置的另一种可选的结构图;
图4是根据本发明实施例的数据处理装置的又一种可选的结构图;以及
图5是根据本发明实施例的数据处理装置对应流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例1
在本发明的实施例1中提供了一种数据处理方法,图1示出该方法的一种可选的流程图,如图1所示,该方法包括如下步骤:
S102,响应于触发的数据处理指令,根据所述数据处理指令确定数据处理所需使用的规则,其中,所述数据处理指令中包含有用于指示数据处理所需使用的规则的信息;
具体来说,当用户需要对数据进行相关的处理操作时,会发出相应的数据处理指令,在接收到用户发出的该数据处理指令时,分析识别该数据处理指令中携带的信息,以确定用户所需的数据处理类型,优选地,用户可以对数据进行如下的处理操作:数据清洗、数据转换或归一化等。
S104,响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所述所需使用的单元的待处理缓存队列中;
可选地,用户可以通过人工选择的方式来确定灌入待处理数据所需使用的单元,在完成该单元的选择之后,将待处理的数据灌入到该单元中,该单元可对待处理数据进行初步处理和临时存储。具体实现时,将待处理数据灌入到确定的所述所需使用的单元的待处理缓存队列中可以包括如下步骤:将待处理数据生成可识别的压缩包文件,所述压缩包文件中包含有待处理数据的数据文件以及与该数据文件对应的配置文件;将所述压缩包文件中的所述数据文件,按照与该数据文件对应的配置文件中的配置信息进行解析,并将解析后获得的数据存储至所述待处理缓存队列中。优选地,上述的配置文件中包括第一配置信息和第二配置信息,其中,第一配置信息用于将所述数据文件进行格式校验以清除无效的数据;第二配置信息用于将所述数据文件配置为具有唯一标识信息的数据文件。具体来说,在将待处理数据生成可识别的压缩文件之后,根据该压缩文件中的配置文件中包含的第一配置信息,对该压缩文件中的数据文件进行解析,将数据文件进行数据格式校验,清除无效的数据信息,获得有效的数据;并根据配置文件中的第二配置信息,将获得的有效数据生成具有唯一标识的数据。优选地,可以将上述获得的有效数据以行作为粒度生成键值对的标识数据。最后,将生成的数据传入到待处理缓存队列中,供接下来的数据处理操作。采用这种实施方式,可以在数据灌入过程消除一些无效的数据,提高数据处理的准确性,同时,将待处理数据进行标示,在后续的处理过程中,根据标识信息可直接调取,提高数据处理的效率。
S106,根据确定的所述数据处理所需使用的规则,对所述待处理缓存队列中的所述待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;
具体实现时,可以采用如下方案完成上述操作:
轮询所述待处理缓存队列,获取所述待处理缓存队列中的数据;判断所述数据处理规则列表中是否存在本次数据处理所需使用的规则的信息,若存在,则按照所述数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对所述待处理缓存队列中的待处理数据进行处理操作;将对所述待处理缓存队列中的待处理数据进行处理操作后获得的数据,作为已处理数据,存储至结果数据临时缓存队列。上述技术方案的实施过程中,大量的待处理数据可以灌入至一个或多个单元的结果数据临时缓存队列,采用轮询的方式依次获取待处理缓存队列中的数据,将数据分成过个小批量的数据进行处理,提高数据处理的效率。
此外,在本实施例中还对上述方案中数据处理的过程进行了进一步优化,具体来说,在进行数据处理过程中,若判断所述数据处理规则列表中不存在本次数据处理所需使用的规则的信息,将获取的所述待处理缓存队列中的数据重新放回所述待处理缓存队列,直至接收到用于指示所述数据处理规则列表中存在本次数据处理所需使用的规则的信息的心跳包后,按照所述数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对所述待处理缓存队列中的待处理数据进行处理操作。上述优选技术方案的实施,提供了一种数据处理过程中,数据处理规则列表中不存在本次数据处理所需使用的规则的信息的解决方案,保证了数据处理的顺利进行。
S108,输出所述结果数据临时缓存队列中处理操作完成后的数据。
根据相关的配置信息,确定所需输出信息的属性,包括信息格式、所需输出位置(如输出至其他位置服务器)等属性信息,然后将已处理的数据进行输出,供用户使用,至此,完成数据的清洗、转换或归一化等处理操作。
在上述可选的技术方案中可以看出,当用户需要对数据进行清理、转换、归一化等数据处理操作时,只需发出相应的指令,系统响应用户发出的指令,在确定用户所需要使用的数据处理规则以及所需使用的单元后,将用户待处理的数据灌入至确定的单元,负责进行数据处理的进程单元会读取灌入的待处理数据,并进行用户所需的数据清理、转换、归一化等处理操作,并根据相应的配置信息,将数据输出至所需的位置。这种数据处理方式,实现了对数据清理、转换、归一化等操作的自动化,有效地解决了现有技术中数据清洗采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题,提高了数据清洗的效率,进一步地,也提高了数据清洗的准确率。
在本发明的一个优选的实施方式中,还对上述方案进行了优化,具体来说,在上述的响应于触发的数据处理指令之前,预先配置数据处理过程中需要使用的系统配置的信息,生成系统配置信息列表;预先配置数据处理所需使用的规则的信息,生成数据处理规则列表。优选地,上述的系统配置信息列表及数据处理规则列表存储至高速缓存中。上述优选的技术方案的实施,在数据处理操作前将所需的系统配置信息及数据处理规则信息的进行预先配置,无需在数据过程中再人工手动的配置,当数据处理过程中需要使用相关信息时,可以根据预先生成的相关列表直接调取获得,提高了数据处理的效率。
在本发明的实施例中还上述方案进行了优化,提供了一种输出结果数据临时缓存队列中处理操作完成后的数据的方案,具体来说,包括如下步骤:根据所述系统配置信息列表中的信息,确定结果数据缓存队列配置信息;根据确定的所述结果数据缓存队列配置信息,确定所述结果数据临时缓存队列中处理操作完成后的数据所需输出的位置;将所述结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所述所需输出的位置。
进一步地,在进行数据输出时,轮询所述结果数据临时缓存队列,获取所述结果数据临时缓存队列中处理操作完成后的数据;将获取到的结果数据转换成统一的JSON数据,生成结果文件;将生成的所述结果文件,输出至确定的所述位置。
优选地,上述系统配置信息列表、所述数据处理规则列表、所述待处理缓存队列、以及所述结果数据临时缓存队列存储在高速缓存中。这种技术方案的实施,在数据处理过程中所需的信息,直接从高速缓存中获取,大大提高了数据处理的效率。
实施例2
基于上述实施例1中提供的数据处理方法,本优选的实施例中提供了一种数据处理装置,图2示出该装置的一种可选的结构框图,如图2所示,该装置包括:
响应单元20,用于响应于触发的数据处理指令,根据所述数据处理指令确定数据处理所需使用的规则,其中,所述数据处理指令中包含有用于指示数据处理所需使用的规则的信息;
具体来说,当用户需要对数据进行相关的处理操作时,会发出相应的数据处理指令,在接收到用户发出的该数据处理指令时,分析识别该数据处理指令中携带的信息,以确定用户所需的数据处理类型,优选地,用户可以对数据进行如下的处理操作:数据清洗、数据转换或归一化等。
数据灌入单元22,用于响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所述所需使用的单元的待处理缓存队列中;
可选地,用户可以通过人工选择的方式来确定灌入待处理数据所需使用的单元,在完成该单元的选择之后,将待处理的数据灌入到该单元中,该单元可对待处理数据进行初步处理和临时存储。具体实现时,数据灌入单元包括:文件生成模块,用于将待处理数据生成可识别的压缩包文件,所述压缩包文件中包含有待处理数据的数据文件以及与该数据文件对应的配置文件;解析模块,用于将所述压缩包文件中的所述数据文件,按照与该数据文件对应的配置文件中的配置信息进行解析,并将解析后获得的数据存储至所述待处理缓存队列中。优选地,上述的配置文件中包括第一配置信息和第二配置信息,其中,第一配置信息用于将所述数据文件进行格式校验以清除无效的数据;第二配置信息用于将所述数据文件配置为具有唯一标识信息的数据文件。具体来说,在将待处理数据生成可识别的压缩文件之后,根据该压缩文件中的配置文件中包含的第一配置信息,对该压缩文件中的数据文件进行解析,将数据文件进行数据格式校验,清除无效的数据信息,获得有效的数据;并根据配置文件中的第二配置信息,将获得的有效数据生成具有唯一标识的数据。优选地,可以将上述获得的有效数据以行作为粒度生成键值对的标识数据。最后,将生成的数据传入到待处理缓存队列中,供接下来的数据处理操作。采用这种实施方式,可以在数据灌入过程消除一些无效的数据,提高数据处理的准确性,同时,将待处理数据进行标示,在后续的处理过程中,根据标识信息可直接调取,提高数据处理的效率。
数据处理单元24,用于根据确定的所述数据处理所需使用的规则,对所述待处理缓存队列中的所述待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;
具体实现时,数据处理单元包括:获取模块,用于轮询所述待处理缓存队列,获取所述待处理缓存队列中的数据;第一判断模块,用于判断所述数据处理规则列表中是否存在本次数据处理所需使用的规则的信息,若存在,则按照所述数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对所述待处理缓存队列中的待处理数据进行处理操作;第二判断模块,用于在判定所述数据处理规则列表中不存在本次数据处理所需使用的规则的信息时,将获取的所述待处理缓存队列中的数据重新放回所述待处理缓存队列,直至接收到用于指示所述数据处理规则列表中存在本次数据处理所需使用的规则的信息的心跳包后,按照所述数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对所述待处理缓存队列中的待处理数据进行处理操作;存储模块,用于将对所述待处理缓存队列中的待处理数据进行处理操作后获得的数据,作为已处理数据,存储至结果数据临时缓存队列。上述技术方案的实施过程中,大量的待处理数据可以灌入至一个或多个单元的结果数据临时缓存队列,采用轮询的方式依次获取待处理缓存队列中的数据,将数据分成过个小批量的数据进行处理,提高数据处理的效率。
数据输出单元26,输出所述结果数据临时缓存队列中处理操作完成后的数据。根据相关的配置信息,确定所需输出信息的属性,包括信息格式、所需输出位置(如输出至其他位置服务器)等属性信息,然后将已处理的数据进行输出,供用户使用,至此,完成数据的清洗、转换或归一化等处理操作。
在本发明的实施例中还上述方案进行了优化,提供了一种输出结果数据临时缓存队列中处理操作完成后的数据的方案,具体来说,所述数据输出单元包括:第一确定模块,用于根据所述系统配置信息列表中的信息,确定结果数据缓存队列配置信息;第二确定模块,用于根据确定的所述结果数据缓存队列配置信息,确定所述结果数据临时缓存队列中处理操作完成后的数据所需输出的位置;输出模块,用于将所述结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所述所需输出的位置。
进一步地,所述输出模块包括:获取子模块,用于轮询所述结果数据临时缓存队列,获取所述结果数据临时缓存队列中处理操作完成后的数据;数据转换子模块,用于将获取到的结果数据转换成统一的JSON数据,生成结果文件;输出子模块,用于将生成的所述结果文件,输出至确定的所述位置。
在本发明的一个优选的实施方式中,还对上述方案进行了优化,具体来说,如图3所示,该装置还包括:第一配置单元30,用于在所述响应于触发的数据处理指令之前,预先配置数据处理过程中需要使用的系统配置的信息,生成系统配置信息列表;以及第二配置单元32,用于预先配置数据处理所需使用的规则的信息,生成数据处理规则列表。优选地,上述的系统配置信息列表及数据处理规则列表存储至高速缓存中。此处需要说明的是,上述的第一配置单元和第二配置单元可以单独设置,也可以设置为具有上述两个单元的总的配置单元。上述优选的技术方案的实施,在数据处理操作前将所需的系统配置信息及数据处理规则信息的进行预先配置,无需在数据过程中再人工手动的配置,当数据处理过程中需要使用相关信息时,可以根据预先生成的相关列表直接调取获得,提高了数据处理的效率。
优选地,上述系统配置信息列表、所述数据处理规则列表、所述待处理缓存队列、以及所述结果数据临时缓存队列存储在高速缓存中。这种技术方案的实施,在数据处理过程中所需的信息,直接从高速缓存中获取,大大提高了数据处理的效率。
在上述可选的技术方案中可以看出,当用户需要对数据进行清理、转换、归一化等数据处理操作时,只需发出相应的指令,系统响应用户发出的指令,在确定用户所需要使用的数据处理规则以及所需使用的单元后,将用户待处理的数据灌入至确定的单元,负责进行数据处理的进程单元会读取灌入的待处理数据,并进行用户所需的数据清理、转换、归一化等处理操作,并根据相应的配置信息,将数据输出至所需的位置。这种数据处理方式,实现了对数据清理、转换、归一化等操作的自动化,有效地解决了现有技术中数据清洗采用人工方式或者简单的辅助工具来完成,无法满足大量数据清洗的问题,提高了数据清洗的效率,进一步地,也提高了数据清洗的准确率。
实施例3
基于上述实施例1中提供的数据处理方法,本实施例提供了另一种数据处理装置的优选的实施方式,该装置主要由以下五个部分组成:装置配置模块、规则服务模块、数据灌入模块、数据处理模块、结果数据生成模块。
优选地,这五个模块可以联合部署,也可以每个都单独分开部署,除了装置配置模块和规则服务模块在装置中只有一个外,其余的三个模块都可以部署一个或一个以上,五个模块间通过高速缓存连接组成装置,具体地,图4示出该装置的一种可选的实施方式的结构框图,在图4中,该装置包括多个数据灌入模块、数据处理模块、结果数据生成模块联合部署实现功能。
下面分别对上述的五个模块进行具体的描述:
1.装置配置模块
该模块对应于实施例2中的第一配置单元和第二配置单元,主要完成高速缓存服务器配置,数据转换规则配置,并将所配置好的信息以事件驱动的方式更新到高速缓存,以及对结果文件存储服务器的配置,具体如下:
1)高速缓存服务器配置
前置条件:需要提前配置好装置中需要使用到的装置配置信息缓存、中间数据缓存队列(相当于待处理缓存队列)、结果数据临时缓存队列,最后将相应的节点信息生成缓存节点信息访问控制表。这三类缓存服务可以动态增加,删减;
增加的方法是:手动配置好缓存服务器的信息,然后在装置配置模块上配置缓存服务器的信息,并通知到运行中的缓存访问控制表中;
删减的方法是:在装置配置模块上发送删减缓存服务器的指令,修改缓存访问控制表中的对应信息,将需要删减的缓存服务信息修改为待删除,之后该缓存块将不再有数据进入,待缓存中的数据清空后才能手动关闭这个缓存服务。
优选地,本申请中所涉及到高速缓存服务器使用的是键值对类型的缓存方式,存到缓存中的数据都可以根据指定键值获取到唯一的值。
优选地,该发明的缓存服务器最小节点数为1,即装置的配置信息及数据都使用一台缓存服务器。
2)数据转换规则配置
配置装置所识别的数据类型及此种数据类型包含的字段信息(字段名称、字段编码)。
3)结果文件存储服务器配置
配置装置的结果文件存储的服务器信息,优选地,结果文件存储的服务器需要打开文件的共享功能,远程的结果数据生成模块可以将最后生成的结果文件上传至这台服务器。
2.规则服务模块
规则服务模块是需要独立部署的模块,此模块部署成功后会将规则服务信息发布到装置的规则服务列表中,发布的规则包含数据清洗规则,数据转换规则,数据归一化规则。
具体配置如下:
数据清洗规则配置:
1)按照装置发布的数据清洗规则接口,实现指定数据类型的清洗实现;
2)将步骤1)的清洗实现方法热部署至装置中;
3)配置每种数据类型需要清洗的字段所对应的清洗实现。
数据归一化规则配置:
1)按照装置发布的数据归一化规则接口,实现指定数据类型的归一化的实现;
2)将步骤1)的归一化实现方法热部署至装置中;
3)配置每种数据类型需要归一化的字段所对应的归一化实现。
该模块是可以在装置未停止的情况下重新部署,但装置的其他模块检测到这个模块处于停止状态的时候,其他模块会将正在处理的数据重新入到相应的待处理队列中,同时这些模块也会处于挂起状态,待规则服务模块启动完毕后,会以广播的方式将启动状态告诉其他单元,其他相关模块在接收到规则服务模块启动后,会自动启动。
3.数据灌入模块
该数据灌入模块对应于实施例2中的数据处理单元,包含两个处理步骤:
1)待处理数据生成装置识别的压缩包文件(压缩包文件包含一个数据文件和一个对应的配置文件)。
2)压缩包文件传送到后端的解析服务,解析服务按压缩文件中的配置文件中的规则将数据文件进行数据格式校验,清除无效的数据信息,将有效的数据以行作为粒度生成键值对的标识数据,最后将生成的数据传入到中间数据缓存队列(相当于待处理缓存队列)中,待下个阶段的数据处理单元处理。
优选地,上面步骤1)的处理流程如下:
a将需要分类清洗的数据选择配置表里的数据转换规则,选择指定的数据类型与之对应,选择好后再选择文件中数据的列分隔符及文件编码格式,最后需要为分割出来的每列指定当前选中的数据类型中字段类型,最后生成一个包含数据文件及数据配置文件的压缩包文件。
b数据灌入模块将生成的待处理的压缩文件以一定的规则生成唯一标识,再生成唯一标示写入消息中间件,待数据处理模块处理。
4.数据处理模块
该模块对应于上述数据处理单元,以一定的算法去轮询中间数据缓存队列,获取待处理的数据,获取配置服务里的规则服务信息对此数据进行相应数据的格式转换,清洗,归一化及去重。处理流程如下所示:
1)轮询中间数据缓存队列,获取数据灌入模块生成的待处理数据,
2)获取配置服务里的规则服务信息,如果未获得可用的规则服务信息,就将待处理的数据以原始的格式重新放入中间数据缓存队列,与此同时该数据处理模块进入暂停处理状态,在此状态下该模块会一直等待装置中的规则服务的正常心跳包,如果监听到了规则服务的正常的心跳包,该模块会自动转入正常运行状态。如果获取到了可用的规则服务信息,该模块会与规则服务模块发布的服务接口尝试通信连接,连接成功将待处理的数据传给规则服务模块,由规则服务模块进行数据格式转换,清洗,归一化及去重。处理完成后,将结果返回。作为一种可选的实施方式,本模块也可以设计为获取到相应的数据处理规则后,由本模块自行完成处理操作,具体处理操作的步骤此处不再赘述。
3)按一定规则算法选择结果数据临时缓存队列,将该模块生成的结果数据存入,待其它模块进行相应的处理。
5.结果数据生成模块
该模块对应于上述的数据输出单元,包含如下处理步骤:
a.获取配置服务中的结果数据临时缓存队列配置信息,轮询结果数据临时缓存队列;
b.获取到的结果转换成统一的JSON数据;
c.按照装置配置好的每个文件记录数值生成最终的结果数据文件;
d.获取结果文件服务器连接信息,将结果文件存储到结果文件服务器。
下面结合附图对该装置的工作原理进行简单描述,如图5所示,包括如下步骤:
步骤202,装置系统预先完成系统配置和规则配置;
具体地,配置缓存服务器、配置结果文件服务器,将配置好的缓存服务器和结果文件服务器的信息添加到装置的系统配置中。
步骤204,待处理数据灌入前准备;
具体地,可以通过人工的方式手动选择装置中配置的数据转换规则、选择数据的列分隔符、编码格式、字段映射。
步骤206,选择数据灌入模块;
具体地,在系统信息配置表中读取到用于配置数据灌入模块的灌入模块配置表,选择装置中可用的数据灌入模块,将待处理的数据提交到数据灌入模块的待处理缓存队列中。
步骤208,数据处理(清洗、格式转换、归一化);
具体地,根据系统信息配置表中数据处理模块配置表中的配置信息,选择数据处理模块,读取数据清洗规则配置信息、转换规则配置信息、读取数据归一化规则配置信息,进行数据的清洗、格式转换、数据归一化。
步骤210,将数据处理模块处理后产生的结果数据输出至结果数据临时缓存队列。
步骤212,结果数据生成模块从结果数据临时缓存队列中获取中间数据,经过处理输出JSON格式的数据,数据量达到一定的时候生成结果文件,读取装置配置信息中的结果文件存储服务器信息,将结果文件上传至结果文件存储服务器。
从以上描述中可以看出,本装置是将局域网或互联网中的计算机节点联接起来,有效的整合现有的资源,装置的中间数据都是通过高速缓存来转发、存储,这样的话会降低I/O部分所消耗的性能,装置的每个处理模块单独部署,前置模块和后续模块的耦合度很低,相互之间的性能影响基本可以消除。在现在所处的大数据和云计算时代,数据每天都是指数增长,如果需要从这些海量的数据中挖掘出可用的价值数据,就需要对数据进行清洗,清洗后的数据的质量提高后,后续的挖掘工作才能更准确。此发明中的装置在应对目前海量的数据的清洗工作的时候,使用到了分布式计算,将规模大的数据拆分,拆分后的数据进行分布式计算,性能上是可以横向无限扩展。在需要进行一批数据进行清洗工作的时候,此装置无需停机,就可以动态扩展、变换清洗规则。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本申请可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
响应于触发的数据处理指令,根据所述数据处理指令确定数据处理所需使用的规则,其中,所述数据处理指令中包含有用于指示数据处理所需使用的规则的信息;
响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所述所需使用的单元的待处理缓存队列中;
根据确定的所述数据处理所需使用的规则,对所述待处理缓存队列中的所述待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;
输出所述结果数据临时缓存队列中处理操作完成后的数据。
2.如权利要求1所述的方法,其特征在于,在所述响应于触发的数据处理指令之前,还包括:
预先配置数据处理过程中需要使用的系统配置的信息,生成系统配置信息列表;以及
预先配置数据处理所需使用的规则的信息,生成数据处理规则列表。
3.如权利要求2所述的方法,其特征在于,所述将待处理数据灌入到确定的所需使用的单元的待处理缓存队列中,包括:
将待处理数据生成可识别的压缩包文件,所述压缩包文件中包含有待处理数据的数据文件以及与该数据文件对应的配置文件;
将所述压缩包文件中的所述数据文件,按照与该数据文件对应的配置文件中的配置信息进行解析,并将解析后获得的数据存储至所述待处理缓存队列中,其中,所述配置文件中包括:
第一配置信息,用于将所述数据文件进行格式校验以清除无效的数据;
第二配置信息,用于将所述数据文件配置为具有唯一标识信息的数据文件。
4.如权利要求2所述的方法,其特征在于,所述根据确定的所述数据处理所需使用的规则,对所述待处理缓存队列中的待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列,包括:
轮询所述待处理缓存队列,获取所述待处理缓存队列中的数据;
判断所述数据处理规则列表中是否存在本次数据处理所需使用的规则的信息,若存在,则按照所述数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对所述待处理缓存队列中的待处理数据进行处理操作;
将对所述待处理缓存队列中的待处理数据进行处理操作后获得的数据,作为已处理数据,存储至结果数据临时缓存队列。
5.如权利要求4所述的方法,其特征在于,还包括:
若判断所述数据处理规则列表中不存在本次数据处理所需使用的规则的信息,将获取的所述待处理缓存队列中的数据重新放回所述待处理缓存队列,直至接收到用于指示所述数据处理规则列表中存在本次数据处理所需使用的规则的信息的心跳包后,按照所述数据处理规则列表中存在的本次数据处理所需使用的规则的信息,对所述待处理缓存队列中的待处理数据进行处理操作。
6.如权利要求2所述的方法,其特征在于,所述输出所述结果数据临时缓存队列中处理操作完成后的数据,包括:
根据所述系统配置信息列表中的信息,确定结果数据缓存队列配置信息;
根据确定的所述结果数据缓存队列配置信息,确定所述结果数据临时缓存队列中处理操作完成后的数据所需输出的位置;
将所述结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所述所需输出的位置。
7.如权利要求6所述的方法,其特征在于,所述将所述结果数据临时缓存队列中处理操作完成后的数据,输出至确定的所述所需输出的位置,包括:
轮询所述结果数据临时缓存队列,获取所述结果数据临时缓存队列中处理操作完成后的数据;
将获取到的结果数据转换成统一的JSON数据,生成结果文件;
将生成的所述结果文件,输出至确定的所述位置。
8.如权利要求1至7任一项所述的方法,其特征在于,所述对所述待处理缓存队列中的待处理数据进行对应的处理操作,至少包括以下操作之一:
数据清洗操作;
数据转换操作;
归一化操作。
9.如权利要求1至7任一项所述的方法,其特征在于,所述系统配置信息列表、所述数据处理规则列表、所述待处理缓存队列、以及所述结果数据临时缓存队列存储在高速缓存中。
10.一种数据处理装置,其特征在于,包括:
响应单元,用于响应于触发的数据处理指令,根据所述数据处理指令确定数据处理所需使用的规则,其中,所述数据处理指令中包含有用于指示数据处理所需使用的规则的信息;
数据灌入单元,用于响应于触发的单元选择指令,确定数据处理所需使用的单元,将待处理数据灌入到确定的所述所需使用的单元的待处理缓存队列中;
数据处理单元,用于根据确定的所述数据处理所需使用的规则,对所述待处理缓存队列中的所述待处理数据进行对应的处理操作,并将处理操作完成后的数据存储至结果数据临时缓存队列;
数据输出单元,输出所述结果数据临时缓存队列中处理操作完成后的数据。
CN201510053045.XA 2015-02-02 2015-02-02 数据处理方法及装置 Active CN104731859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510053045.XA CN104731859B (zh) 2015-02-02 2015-02-02 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510053045.XA CN104731859B (zh) 2015-02-02 2015-02-02 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN104731859A true CN104731859A (zh) 2015-06-24
CN104731859B CN104731859B (zh) 2018-10-12

Family

ID=53455746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510053045.XA Active CN104731859B (zh) 2015-02-02 2015-02-02 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN104731859B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653635A (zh) * 2015-12-25 2016-06-08 北京奇虎科技有限公司 数据库管理方法与装置
CN105718499A (zh) * 2015-12-11 2016-06-29 中国地质调查局发展研究中心 地质资料数据清洗方法及系统
CN105760487A (zh) * 2016-02-17 2016-07-13 中国工商银行股份有限公司 历史数据清理方法及装置
CN107508863A (zh) * 2017-07-27 2017-12-22 北京瑞卓喜投科技发展有限公司 应用于区块链的信息处理方法和装置
CN107632848A (zh) * 2016-07-13 2018-01-26 腾讯科技(深圳)有限公司 数据处理方法和装置
CN107977284A (zh) * 2017-11-30 2018-05-01 苏州麦迪斯顿医疗科技股份有限公司 一种数据处理方法、装置、服务器和介质
CN108156188A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种数据有效性检验系统
CN108156195A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种业务数据检查方法和系统
CN108259268A (zh) * 2017-12-30 2018-07-06 上海陆家嘴国际金融资产交易市场股份有限公司 网络监测数据处理方法、装置、计算机设备和存储介质
CN108257648A (zh) * 2018-02-08 2018-07-06 杭州医云康网络科技有限公司 一种基于大数据的医疗健康数据管理系统
CN109412821A (zh) * 2017-08-16 2019-03-01 阿里巴巴集团控股有限公司 消息处理方法和装置以及电子设备
CN109684319A (zh) * 2018-12-25 2019-04-26 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN109857792A (zh) * 2018-12-24 2019-06-07 中译语通科技股份有限公司 一种异步大数据清洗转换的方法和系统
CN110069570A (zh) * 2018-11-16 2019-07-30 北京微播视界科技有限公司 数据处理方法和装置
CN110069481A (zh) * 2019-03-12 2019-07-30 平安科技(深圳)有限公司 基于大数据的生产库数据统一清理方法及相关设备
CN110703701A (zh) * 2019-09-02 2020-01-17 华电电力科学研究院有限公司 一种适用于燃煤电站环保装备运行数据的高效数据预处理方法
CN110704381A (zh) * 2019-09-06 2020-01-17 平安城市建设科技(深圳)有限公司 数据解析方法、装置及存储介质
CN111209276A (zh) * 2019-12-31 2020-05-29 航天信息股份有限公司 一种用于对大数据进行处理的方法及系统
CN114489907A (zh) * 2022-01-29 2022-05-13 国泰新点软件股份有限公司 系统操作引导方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495885A (zh) * 2011-12-08 2012-06-13 中国信息安全测评中心 一种基于库联网引擎的信息安全数据整合方法
CN102999582A (zh) * 2012-11-15 2013-03-27 南京邮电大学 一种轻量级基于规则的物品万维网监控系统
CN103268335A (zh) * 2013-05-13 2013-08-28 中国农业银行股份有限公司 报表数据填报方法及系统
WO2013145392A1 (ja) * 2012-03-30 2013-10-03 楽天株式会社 データ処理システム、その制御方法、プログラム、及び情報記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495885A (zh) * 2011-12-08 2012-06-13 中国信息安全测评中心 一种基于库联网引擎的信息安全数据整合方法
WO2013145392A1 (ja) * 2012-03-30 2013-10-03 楽天株式会社 データ処理システム、その制御方法、プログラム、及び情報記憶媒体
CN102999582A (zh) * 2012-11-15 2013-03-27 南京邮电大学 一种轻量级基于规则的物品万维网监控系统
CN103268335A (zh) * 2013-05-13 2013-08-28 中国农业银行股份有限公司 报表数据填报方法及系统

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718499B (zh) * 2015-12-11 2019-07-19 中国地质调查局发展研究中心 地质资料数据清洗方法及系统
CN105718499A (zh) * 2015-12-11 2016-06-29 中国地质调查局发展研究中心 地质资料数据清洗方法及系统
CN105653635A (zh) * 2015-12-25 2016-06-08 北京奇虎科技有限公司 数据库管理方法与装置
CN105760487A (zh) * 2016-02-17 2016-07-13 中国工商银行股份有限公司 历史数据清理方法及装置
CN105760487B (zh) * 2016-02-17 2019-11-08 中国工商银行股份有限公司 历史数据清理方法及装置
CN107632848A (zh) * 2016-07-13 2018-01-26 腾讯科技(深圳)有限公司 数据处理方法和装置
CN107632848B (zh) * 2016-07-13 2020-02-07 腾讯科技(深圳)有限公司 数据处理方法和装置
CN108156188B (zh) * 2016-12-02 2021-06-01 中科星图股份有限公司 一种数据有效性检验系统
CN108156195B (zh) * 2016-12-02 2021-08-20 中科星图股份有限公司 一种业务数据检查方法和系统
CN108156188A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种数据有效性检验系统
CN108156195A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种业务数据检查方法和系统
CN107508863A (zh) * 2017-07-27 2017-12-22 北京瑞卓喜投科技发展有限公司 应用于区块链的信息处理方法和装置
CN109412821B (zh) * 2017-08-16 2021-09-10 阿里巴巴集团控股有限公司 消息处理方法和装置以及电子设备
CN109412821A (zh) * 2017-08-16 2019-03-01 阿里巴巴集团控股有限公司 消息处理方法和装置以及电子设备
CN107977284A (zh) * 2017-11-30 2018-05-01 苏州麦迪斯顿医疗科技股份有限公司 一种数据处理方法、装置、服务器和介质
CN108259268A (zh) * 2017-12-30 2018-07-06 上海陆家嘴国际金融资产交易市场股份有限公司 网络监测数据处理方法、装置、计算机设备和存储介质
CN108257648A (zh) * 2018-02-08 2018-07-06 杭州医云康网络科技有限公司 一种基于大数据的医疗健康数据管理系统
CN110069570A (zh) * 2018-11-16 2019-07-30 北京微播视界科技有限公司 数据处理方法和装置
CN110069570B (zh) * 2018-11-16 2022-04-05 北京微播视界科技有限公司 数据处理方法和装置
CN109857792A (zh) * 2018-12-24 2019-06-07 中译语通科技股份有限公司 一种异步大数据清洗转换的方法和系统
CN109684319B (zh) * 2018-12-25 2021-06-04 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN109684319A (zh) * 2018-12-25 2019-04-26 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN110069481A (zh) * 2019-03-12 2019-07-30 平安科技(深圳)有限公司 基于大数据的生产库数据统一清理方法及相关设备
CN110703701A (zh) * 2019-09-02 2020-01-17 华电电力科学研究院有限公司 一种适用于燃煤电站环保装备运行数据的高效数据预处理方法
CN110704381A (zh) * 2019-09-06 2020-01-17 平安城市建设科技(深圳)有限公司 数据解析方法、装置及存储介质
CN111209276A (zh) * 2019-12-31 2020-05-29 航天信息股份有限公司 一种用于对大数据进行处理的方法及系统
CN114489907A (zh) * 2022-01-29 2022-05-13 国泰新点软件股份有限公司 系统操作引导方法、设备及存储介质
CN114489907B (zh) * 2022-01-29 2024-03-12 国泰新点软件股份有限公司 系统操作引导方法、设备及存储介质

Also Published As

Publication number Publication date
CN104731859B (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN104731859A (zh) 数据处理方法及装置
CN104090901B (zh) 一种对数据进行处理的方法、装置及服务器
CN113890879B (zh) 数据访问的负载均衡方法、装置、计算机设备及介质
CN1956454B (zh) 基于加权成本捆绑并发送工作单元到服务器的方法和系统
US20200204688A1 (en) Picture book sharing method and apparatus and system using the same
CN110096521A (zh) 日志信息处理方法及装置
CN113254445A (zh) 实时数据存储方法、装置、计算机设备及存储介质
CN111694793A (zh) 一种日志存储方法、装置及日志查询方法、装置
CN101505305A (zh) 一种绑定域名和特定服务的方法及设备
CN109561165A (zh) 域名系统配置方法及相关装置
CN104052679A (zh) 网络流量的负载均衡方法和装置
CN110140140A (zh) 动作任务的检测和委托
JP5108011B2 (ja) バス接続されたコンシューマとプロデューサとの間でのメッセージ・フローを削減するためのシステム、方法、およびコンピュータ・プログラム
US20090132582A1 (en) Processor-server hybrid system for processing data
CN108334547B (zh) 基于大数据的数据共享交换系统与方法
CN111913922A (zh) 二进制结构化日志的生成方法、装置、设备及存储介质
CN113656502A (zh) 数据同步方法、系统、电子设备和存储介质
CN108255913A (zh) 一种实时流数据处理方法及装置
CN111885190A (zh) 服务请求处理方法及系统
CN111026972A (zh) 物联网中的订阅数据推送方法、装置、设备及存储介质
CN106407309B (zh) 支持多种数据源的集群数据库数据加载工具及方法
CN109542953A (zh) 基于presto的数据处理方法及装置
CN114661289A (zh) 一种基于知识和数据驱动的微应用开发系统和方法
CN112333106A (zh) 一种高并发场景下线上心理咨询医生资源分配方法
CN103916411A (zh) 超文本传输协议请求超时的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant