CN113553295A - 一种支持多种文件格式的数据预处理系统 - Google Patents
一种支持多种文件格式的数据预处理系统 Download PDFInfo
- Publication number
- CN113553295A CN113553295A CN202110830829.4A CN202110830829A CN113553295A CN 113553295 A CN113553295 A CN 113553295A CN 202110830829 A CN202110830829 A CN 202110830829A CN 113553295 A CN113553295 A CN 113553295A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- module
- processing module
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种支持多种文件格式的数据预处理系统,包括中央处理模块、配置文件管理模块、解析模式处理模块、分隔符模式处理模块、EXCEL模式处理模块、动态链接模式处理模块、归整处理模块、分拣处理模块、文本文件输出模块、mysql输出模块、kafka输出模块、日志管理模块;通过科学合理的系统设计,能够将在数据分析、处理工作中不完整,不一致,不规则的数据,归整处理为满足系统要求的规则数据,并通过分拣处理,能够把指定的内容输出到要求的存储介质中,提高了数据分析、处理的质量,降低实际处理的所需要的时间和难度;满足后续系统需要的标准数据,支持的源数据格式多,输出介质丰富,智能化程度高,通过配置就能实现,值得推广和使用。
Description
技术领域
本发明属于大数据处理技术领域,涉及一种支持多种文件格式的数据预处理系统。
背景技术
大数据处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘,导入和预处理这一步需要解决大量数据、不同格式数据等多种问题带来的数据处理难题,源数据需要处理为相对比较规整的数据,对不同格式文件的数据,可能有不同的处理方法,但无论是何种数据,在整个数据处理过程中,总是有那么一些步骤和方法是通用的,数据文件预处理系统可以完成数据处理的这些通用流程,减少数据处理的时间和简化繁琐的处理流程。
现有的数据预处理方案只能对某一些特定格式的源文件进行处理,遇到新格式源文件时,支撑较困难,不能通过配置文件灵活处理多种源文件,不能做动态分拣,预处理之后也只能输出到文本文件。
发明内容
为克服现有技术的不足,本发明的目的在于提供一种支持多种文件格式的数据预处理系统,提供对多种格式的源数据文件的归整、分拣功能,为后续数据的处理、分析模块提供标准格式的数据。
本发明采用如下技术方案:
一种支持多种文件格式的数据预处理系统,包括中央处理模块、配置文件管理模块、解析模式处理模块、分隔符模式处理模块、EXCEL模式处理模块、动态链接模式处理模块、归整处理模块、分拣处理模块、文本文件输出模块、mysql输出模块、kafka输出模块和日志管理模块;
所述中央处理模块通过参数通道号调用配置文件管理模块,找到该通道号的配置信息,获取到需要处理的数据源文件目录、处理方式、输出方式,对数据源文件目录进行扫描,对满足条件的文件,根据处理方式调用对应处理模块做处理;
所述配置文件管理模块提供程序运行所需的项目配置信息及访问方法,并对配置信息的完整性进行稽核验证,配置文件放在程序所在目录的conf目录下,使用YAML格式;
所述解析模式处理模块用于对源文件每条记录的字段通过键值位进行定义,通过配置文件描述所要处理文件的文件类型、是否有文件头、每条记录的长度、每个字段的数据类型、字段在记录中的起始位置、长度等信息,处理模块根据配置信息读取每条记录中的指定字段进行后续处理;
所述分隔符模式处理模块用于对源文件每条记录的字段通过指定的字段间分割字符进行定义,通过配置文件描述所要处理文件的字段间分割字符、字段值取出来后是否需要去除左右的空格等信息,处理模块根据配置信息读取每条记录中的指定字段进行后续处理;
所述EXCEL模式处理模块用于源文件是约定好内容的excel文件时,系统直接读excel文件获取指定的字段进行后续处理;
所述动态链接模式处理模块用于源文件是特定格式的数据文件,通过编写程序编译成动态链接库,由系统调用,将文件中的字段信息取出;
所述归整处理模块用于产生本系统定义的标准数据文件格式,同时根据不同的规则,产生数据的相关属性;
所述分拣处理模块该模块主要任务是根据用户在配置文件的配置规则,将数据输出到不同的输出通道中;
所述文本文件输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求写到指定的文本文件中;
所述mysql输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求输出到指定的mysql数据库中;
所述kafka输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求写到指定的kafka消息队列中;
所述日志管理模块用于将处理的文件信息写入数据库以及处理过程中发生的异常信息写入日志文件中,系统为流量监视提供依据,并能够针对异常数据统计信息,使用户能够方便的分析和了解业务运行情况;
数据预处理系统对原始数据文件中的数据经过归整、分拣等模块进行加工,处理,用可以自定义的方法安排数据,将处理后的数据存储到指定介质中,以为后续系统提供标准数据。
进一步,所述中央处理模块根据处理方式调用对应处理模块做处理,对源文件的处理方式支持解析模式、分隔符模式、EXCEL模式、动态链接模式。
进一步,所述归整处理模块用于产生本系统定义的标准数据文件格式,分拣处理模块该模块将数据输出到不同的输出通道中,对原始数据文件的归整、分拣功能,能够把指定的内容输出到要求的存储介质中,支持的存储介质包括文本文件、mysql数据库、kafka消息系统;
进一步,所述配置文件管理以通道号为单位进行配置,通道号下是模块号,一个通道有多个模块,每个模块设置数据源文件目录、处理方式、输出方式,模块是系统运行的最小单位,一个通道对应一个进程,通道下的每个模块对应一个线程,多种数据文件可以实现并行处理功能。
本发明的有益效果是:
本发明包括中央处理模块、配置文件管理模块、解析模式处理模块、分隔符模式处理模块、EXCEL模式处理模块、动态链接模式处理模块、归整处理模块、分拣处理模块、文本文件输出模块、mysql输出模块、kafka输出模块、日志管理模块。本发明通过科学合理的系统设计,能够将在数据分析、处理工作中不完整,不一致,不规则的数据,归整处理为满足系统要求的规则数据,并通过分拣处理,能够把指定的内容输出到要求的存储介质中,提高了数据分析、处理的质量,降低实际处理的所需要的时间和难度。将源数据处理为满足后续系统需要的标准数据,支持的源数据格式多,输出介质丰富,智能化程度高,通过配置就能实现,值得推广和使用。
附图说明
图1为本发明的系统原理图。
具体实施方式
以下通过具体实施例对本发明具体内容进行详细说明。
如图1所示,本发明支持多种文件格式的数据预处理系统,包括中央处理模块、配置文件管理模块、解析模式处理模块、分隔符模式处理模块、EXCEL模式处理模块、动态链接模式处理模块、归整处理模块、分拣处理模块、文本文件输出模块、mysql输出模块、kafka输出模块和日志管理模块;
所述中央处理模块通过参数通道号,调用配置文件管理模块,找到该通道号的配置信息,获取到需要处理的数据源文件目录、处理方式、输出方式等内容,对数据源文件目录进行扫描,对满足条件的文件,根据处理方式调用对应处理模块做处理。
所述配置文件管理模块,配置文件管理模块提供程序运行所需的项目配置信息及访问方法,并对配置信息的完整性进行稽核验证,配置文件放在程序所在目录的conf目录下,使用YAML格式;在中央处理模块调用配置文件管理模块时,根据参数找到对应通道的配置信息,验证配置无错误后,进行下一步处理;
所配置文件管理模块是系统运行的基础,以通道号为单位进行配置,通道号下是模块号,一个通道有多个模块,每个模块设置数据源文件目录、处理方式、输出方式等内容,模块是系统运行的最小单位,一个通道对应一个进程,通道下的每个模块对应一个线程,多种数据文件可以实现并行处理功能。对于第一次需要处理的数据文件,需要先对配置文件进行配置,根据源数据文件的类型配置处理模式,源数据的格式,归整配置信息,分拣配置信息,输入目录,输出模式,备份目录、出错目录信息等关键信息;开始处理时,从配置文件中,读取输入通道目录信息,根据输入通道目录信息到配置文件中查找对应的处理模块,一个输入通道目录对应一套处理模块;
所述解析模式处理模块用于对源文件每条记录的字段通过键值位进行定义,通过配置文件描述所要处理文件的文件类型、是否有文件头、每条记录的长度、每个字段的数据类型、字段在记录中的起始位置、长度等信息,处理模块根据配置信息读取每条记录中的指定字段进行后续处理;
如处理模块已经找到,利用处理模块的获取数据方法和配置的源数据格式,获取数据,将获取数据的信息,逐个经过规整、分拣、输出模块;对于特定格式的数据文件,通过编写程序编译成动态链接库,由系统调用,将文件中的字段信息取出。
所述分隔符模式处理模块用于对源文件每条记录的字段通过指定的字段间分割字符进行定义。通过配置文件描述所要处理文件的字段间分割字符、字段值取出来后是否需要去除左右的空格等信息,处理模块根据配置信息读取每条记录中的指定字段进行后续处理;
所述EXCEL模式处理模块用于源文件是约定好内容的excel文件时,系统直接读excel文件获取指定的字段进行后续处理;
所述动态链接模式处理模块用于源文件是特定格式的数据文件,通过编写程序编译成动态链接库,由系统调用,将文件中的字段信息取出;
所述归整处理模块用于产生本系统定义的标准数据文件格式,同时根据不同的规则,产生数据的相关属性;
所述分拣处理模块该模块主要任务是根据用户在配置文件的配置规则,将数据输出到不同的输出通道中;
所述文本文件输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求写到指定的文本文件中;
所述mysql输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求输出到指定的mysql数据库中;
所述kafka输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求写到指定的kafka消息队列中;
所述日志管理模块用于将处理的文件信息写入数据库以及处理过程中发生的异常信息写入日志文件中,系统为流量监视提供依据,并能够针对异常数据统计信息,使用户能够方便的分析和了解业务运行情况。
所述对源文件的处理方式支持解析模式、分隔符模式、EXCEL模式、动态链接模式,可以对多种格式的文件进行处理。
所述对原始数据文件的归整、分拣功能,能够把指定的内容输出到要求的存储介质中,支持的存储介质包括文本文件、mysql数据库、kafka消息系统;从配置文件读取输出模式,系统支持处理后的标准数据可以选择输出到文本文件、mysql数据库、kafka消息系统。
数据预处理系统是对原始数据文件中的数据经过归整、分拣等模块进行加工,处理,用可以自定义的方法安排数据,将处理后的数据存储到指定介质中,以为后续系统提供标准数据。系统还为流量监视提供依据,并能够针对异常数据统计信息,使用户能够方便的分析和了解业务运行情况;
程序带参数启动,该参数就是通道号,中央处理模块调用配置文件管理模块,在配置文件中根据通道号找到该通道的配置内容,读取输入目录,输出信息,备份目录、出错目录等信息;根据输入目录查找对应的数据处理模块配置
然后在指定的输入路径搜索源数据文件,如果没有找到,则继续查找。如找到,则根据数据处理类型调用对应的数据处理模块,处理数据文件。如果处理出错,则写出错日志,程序继续查找新文件;
处理源数据文件时,先将文件前加tmp,表示该文件正在处理。然后,利用处理模块的获取数据函数和配置的源数据格式,获取数据,将获取数据的信息,逐个经过规整、分拣,其中任何一个模块出现问题,则删除输入数据文件,然后该处理文件做为错误文件,放到错误文件目录;如果文件内容取完,则将该数据文件正常备份到备份目录中,然后程序返回,继续查找数据文件;
数据规整产生系统定义的标准数据格式,同时根据不同的规则,产生数据的相关属性,所有的规整,使用在系统配置文件中配置的归整配置信息和归整流程脚本文件进行处理;
数据分拣模块主要任务是根据在配置文件的配置规则,将标准数据文件输出到不同的输出通道中,用来对数据内容进行动态过滤。所有的过滤和分割,使用在系统配置文件中配置的分拣输出的脚本文件进行处理;
在经过分拣处理后的标准数据,根据配置内容,调用对应的输出模块,输出到指定的存储介质中。输出存储介质可以是文本文件、mysql数据库或者kafka消息系统;
日志模块把处理的情况写到数据库和文件中,为流量监视提供依据,并能够针对异常数据统计信息,使用户能够方便的分析和了解业务运行情况;
本发明通过科学合理的系统设计,将源数据处理为满足后续系统需要的标准数据,支持的源数据格式多,输出介质丰富,智能化程度高,通过配置和编写脚本就能实现,值得推广和使用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种支持多种文件格式的数据预处理系统,其特征在于:包括中央处理模块、配置文件管理模块、解析模式处理模块、分隔符模式处理模块、EXCEL模式处理模块、动态链接模式处理模块、归整处理模块、分拣处理模块、文本文件输出模块、mysql输出模块、kafka输出模块和日志管理模块;
所述中央处理模块通过参数通道号调用配置文件管理模块,找到该通道号的配置信息,获取到需要处理的数据源文件目录、处理方式、输出方式,对数据源文件目录进行扫描,对满足条件的文件,根据处理方式调用对应处理模块做处理;
所述配置文件管理模块提供程序运行所需的项目配置信息及访问方法,并对配置信息的完整性进行稽核验证,配置文件放在程序所在目录的conf目录下,使用YAML格式;
所述解析模式处理模块用于对源文件每条记录的字段通过键值位进行定义,通过配置文件描述所要处理文件的文件类型、是否有文件头、每条记录的长度、每个字段的数据类型、字段在记录中的起始位置、长度等信息,处理模块根据配置信息读取每条记录中的指定字段进行后续处理;
所述分隔符模式处理模块用于对源文件每条记录的字段通过指定的字段间分割字符进行定义,通过配置文件描述所要处理文件的字段间分割字符、字段值取出来后是否需要去除左右的空格等信息,处理模块根据配置信息读取每条记录中的指定字段进行后续处理;
所述EXCEL模式处理模块用于源文件是约定好内容的excel文件时,系统直接读excel文件获取指定的字段进行后续处理;
所述动态链接模式处理模块用于源文件是特定格式的数据文件,通过编写程序编译成动态链接库,由系统调用,将文件中的字段信息取出;
所述归整处理模块用于产生本系统定义的标准数据文件格式,同时根据不同的规则,产生数据的相关属性;
所述分拣处理模块该模块主要任务是根据用户在配置文件的配置规则,将数据输出到不同的输出通道中;
所述文本文件输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求写到指定的文本文件中;
所述mysql输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求输出到指定的mysql数据库中;
所述kafka输出模块主要功能是把分拣处理模块输出的字段内容按配置的要求写到指定的kafka消息队列中;
所述日志管理模块用于将处理的文件信息写入数据库以及处理过程中发生的异常信息写入日志文件中,系统为流量监视提供依据,并能够针对异常数据统计信息,使用户能够方便的分析和了解业务运行情况;
数据预处理系统对原始数据文件中的数据经过归整、分拣等模块进行加工,处理,用可以自定义的方法安排数据,将处理后的数据存储到指定介质中,以为后续系统提供标准数据。
2.如权利要求1所述的支持多种文件格式的数据预处理系统,其特征在于:所述中央处理模块根据处理方式调用对应处理模块做处理,对源文件的处理方式支持解析模式、分隔符模式、EXCEL模式、动态链接模式。
3.如权利要求1所述的支持多种文件格式的数据预处理系统,其特征在于:所述归整处理模块用于产生本系统定义的标准数据文件格式,分拣处理模块该模块将数据输出到不同的输出通道中,对原始数据文件的归整、分拣功能,能够把指定的内容输出到要求的存储介质中,支持的存储介质包括文本文件、mysql数据库、kafka消息系统。
4.如权利要求1所述的支持多种文件格式的数据预处理系统,其特征在于:所述配置文件管理以通道号为单位进行配置,通道号下是模块号,一个通道有多个模块,每个模块设置数据源文件目录、处理方式、输出方式,模块是系统运行的最小单位,一个通道对应一个进程,通道下的每个模块对应一个线程,多种数据文件可以实现并行处理功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110830829.4A CN113553295A (zh) | 2021-07-22 | 2021-07-22 | 一种支持多种文件格式的数据预处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110830829.4A CN113553295A (zh) | 2021-07-22 | 2021-07-22 | 一种支持多种文件格式的数据预处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113553295A true CN113553295A (zh) | 2021-10-26 |
Family
ID=78132430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110830829.4A Withdrawn CN113553295A (zh) | 2021-07-22 | 2021-07-22 | 一种支持多种文件格式的数据预处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553295A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114422498A (zh) * | 2021-12-14 | 2022-04-29 | 杭州安恒信息技术股份有限公司 | 大数据实时处理方法、系统、计算机设备及存储介质 |
CN115543940A (zh) * | 2022-11-25 | 2022-12-30 | 卓望数码技术(深圳)有限公司 | 一种基于uri规则配置集成统一处理文件的系统和方法 |
-
2021
- 2021-07-22 CN CN202110830829.4A patent/CN113553295A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114422498A (zh) * | 2021-12-14 | 2022-04-29 | 杭州安恒信息技术股份有限公司 | 大数据实时处理方法、系统、计算机设备及存储介质 |
CN115543940A (zh) * | 2022-11-25 | 2022-12-30 | 卓望数码技术(深圳)有限公司 | 一种基于uri规则配置集成统一处理文件的系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831052B (zh) | 测试用例自动化生成装置及方法 | |
CN110019218B (zh) | 数据存储与查询方法及设备 | |
CN113553295A (zh) | 一种支持多种文件格式的数据预处理系统 | |
CN106055618B (zh) | 一种基于网络爬虫与结构化存储的数据处理方法 | |
CN112965979B (zh) | 一种用户行为分析方法、装置及电子设备 | |
CN113254255B (zh) | 一种云平台日志的分析方法、系统、设备及介质 | |
CN113688288B (zh) | 数据关联分析方法、装置、计算机设备和存储介质 | |
CN107797916A (zh) | Ddl语句审核方法和装置 | |
CN114385760A (zh) | 增量数据实时同步的方法、装置、计算机设备及存储介质 | |
CN109902070B (zh) | 一种面向WiFi日志数据的解析存储搜索方法 | |
CN110908870A (zh) | 一种大型机的资源监控方法、装置、存储介质及设备 | |
CN111581057A (zh) | 一种通用日志解析方法、终端设备及存储介质 | |
CN115757045A (zh) | 一种交易日志分析方法、系统及装置 | |
WO2021129849A1 (zh) | 日志处理方法、装置、设备和存储介质 | |
CN111966339B (zh) | 埋点参数的录入方法、装置、计算机设备和存储介质 | |
CN109635033B (zh) | 一种千万级存量数据的处理、日志收集及导入数据库的方法 | |
CN114297074A (zh) | 一种基于动态配置实现功能、接口、性能自动测试方法 | |
CN113407415A (zh) | 智能终端的日志管理方法和装置 | |
CN115168297A (zh) | 绕行日志审计方法及装置 | |
CN116029271B (zh) | 一种基于EasyExcel的批量导入树型结构数据的方法 | |
CN117971605B (zh) | 基于数据库异常的自动化日志信息收集方法及系统 | |
CN113342861B (zh) | 业务场景下数据治理方法及装置 | |
CN116303380B (zh) | 一种监测业务中的数据质量校验方法、设备及介质 | |
CN117221099A (zh) | 一种基于Nifi血缘的日志分析方法、系统及存储介质 | |
CN114860172A (zh) | 数据存储方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211026 |