CN111476002A - 一种数据文件编码格式转换方法及系统 - Google Patents

一种数据文件编码格式转换方法及系统 Download PDF

Info

Publication number
CN111476002A
CN111476002A CN202010263975.9A CN202010263975A CN111476002A CN 111476002 A CN111476002 A CN 111476002A CN 202010263975 A CN202010263975 A CN 202010263975A CN 111476002 A CN111476002 A CN 111476002A
Authority
CN
China
Prior art keywords
file
module
conversion
data
thread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010263975.9A
Other languages
English (en)
Other versions
CN111476002B (zh
Inventor
陈涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongfang Jinxin Technology Co ltd
Original Assignee
Beijing Dongfang Jinxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dongfang Jinxin Technology Co ltd filed Critical Beijing Dongfang Jinxin Technology Co ltd
Priority to CN202010263975.9A priority Critical patent/CN111476002B/zh
Publication of CN111476002A publication Critical patent/CN111476002A/zh
Application granted granted Critical
Publication of CN111476002B publication Critical patent/CN111476002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据文件编码格式转换方法及系统,该系统包括文件获取模块,用于获取用户上传的输入文件,记录各输入文件的上传时间以及对应的用户名称;线程管理模块,用于为各输入文件的转换任务创建线程任务,并按照上传时间并行取出多个线程任务发送到相应的所述解析模块;解析模块,用于采用原有的编码格式对用户上传的输入文件进行读取,得到与之对应的待转换文件;转码模块,用于采用大数据融合开发系统能够识别的编码格式对待转换文件进行转码,得到新的输入文件;文件输出模块用于将转码后新的输入文件输出到大数据融合开发系统中,用于后续处理。本发明可以广泛应用于数据转码领域。

Description

一种数据文件编码格式转换方法及系统
技术领域
本发明涉及一种数据文件编码格式转换方法及系统,属于数据处理领域。
背景技术
大数据融合开发系统是一款拥有数据接入、数据清洗、数据掌控、自动化分析功能的综合性软件。在大数据平台落地的过程中,数据接入是必不可少的一个关键环节。面对各种来源、各种类型的数据,需要通过数据接入就是将这些零散的数据整合在一起,纳入统一的大数据平台。从数据类型的角度,数据接入主要包括结构化数据(数据库)的接入、日志数据的接入、IoT数据的接入和文件的接入。
然而,不同格式的数据如果不进行转换的话无法导入到数据库中,也就无法进行后续的使用。在现有的大数据融合开发系统中,并没有这个功能的实现,用户如果将格式有误的数据导入,会导致数据库中出现无效的数据。同时数据格式转换也面临以下问题:首先就是数据安全,即,在转换过程中如何保证已有的数据能够完整的保存到新的文件中去,转换过程比较复杂,可能有许多突发状况威胁数据安全;其次,就是转换速度,运行时间长的系统数据文件很庞大,转换所需要的时间也较长;最后,通常用户导入数据库的数据是一个数据量很大的文本,这也给数据转换增加了难度。
发明内容
针对上述问题,本发明的目的是提供一种数据文件编码格式转换方法及系统,能够快速有效地将用户导入的数据转换成有效的数据,在导入乱码文件的时候可以导入正常文件一样,不用担心出现无效的数据。以供大数据融合开发系统的后续分析。
为实现上述目的,本发明采取以下技术方案:
本发明的第一个方面是提供一种数据文件编码格式转换系统,其包括:文件获取模块、线程管理模块、解析模块、转码模块和文件输出模块;所述文件获取模块用于获取用户上传的输入文件,记录各输入文件的上传时间以及对应的用户名称;所述线程管理模块用于为各输入文件的转换任务创建线程任务,并按照上传时间并行取出多个线程任务发送到相应的所述解析模块;所述解析模块用于采用原有的编码格式对用户上传的输入文件进行读取,得到与之对应的待转换文件;所述转码模块用于采用大数据融合开发系统能够识别的编码格式对待转换文件进行转码,得到新的输入文件;所述文件输出模块用于将转码后新的输入文件输出到大数据融合开发系统中,用于后续处理。
进一步的,所述线程管理模块包括线程创建模块、队列表创建和维护模块以及线程取出模块;所述线程创建模块用于当用户上传多个输入文件或不同用户同时上传一个或多个输入文件时,为每一个输入文件的转换任务创建一个线程放入线程池;所述队列表创建和维护模块用于建立并维护一个队列表,该队列表中存储有各任务线程的相关信息,包括线程所包含的输入文件名称、输入文件对应的用户名称、输入文件的上传时间以及输入文件的处理状态;所述线程取出模块用于按照预设的并行处理线程个数以及队列表中记录的输入文件的上传时间,从线程池中取出相应个数的线程任务,并发送到所述解析模块。
进一步的,所述解析模块包括第一读取模块、解析判断模块、分组模块、行号信息记录模块、文件编号记录模块、转换文件建立模块以及存储模块;所述第一读取模块用于采用用户原有的编码格式对用户上传的输入文件进行读取,读取时采用的是java中的IO流工具;所述解析判断模块用于对读取的内容进行解析,并判断读取的内容是否为乱码,如果为乱码则将读取数据发送到所述分组模块,否则将数据发送到所述存储模块;所述分组模块将用于将数据内容中的每一行数据作为一个转换单元,并按照预设最大转换阈值将读取到的所有转换单元进行分组,得到多个转换单元组;所述行号信息记录模块用于将各转换单元组中起止行数据对应的行号信息记录到分组信息表中;所述文件编号记录模块用于根据分组信息表为每一转换单元组建立与其起止行号信息相关联的唯一的转换文件编号,然后将各转换文件编号记录到转换文件编号表中;所述转换文件建立模块用于根据转换文件编号表建立转换文件,并将与之对应的各转换单元组中的数据按条存储到各转换文件中;所述存储模块用于将各转换文件或数据内容存储到待转换文件夹。
进一步的,所述文件转码模块包括第二读取模块、二进制转换模块、数据获取模块、关键值写入模块、数据值写入模块;所述第二读取模块用于根据转换文件编号表中的转换文件编号,依次读取待转换文件夹中待转换文件内的转换单元组;所述二进制转换模块用于将读取到的转换单元组中的各转换单元即每条数据分别转换为二进制形式;所述数据获取模块用于对二进制形式的各转换单元进行遍历,得到每一转换单元对应的关键值及该关键值对应的数据值集合;所述关键值写入模块用于将各转换单元组中的关键值重写写入输入文件的第一行,且各转换单元对应的关键值之间采用逗号隔开;所述数据值写入模块用于将各转换单元组中关键值对应的数据值按列依次写入与其对应的关键值下方,且每一行中两两转换单元的数据值之间采用逗号隔开。
本发明的第二个方面,是提供一种数据文件编码格式转换方法,其包括以下步骤:1)搭建数据文件编码格式转换系统,该数据文件编码格式转换系统包括文件获取模块、线程管理模块、解析模块、转码模块以及文件输出模块;2)文件获取模块用于获取用户上传的输入文件,并记录各输入文件的上传时间以及对应的用户名称;3)线程管理模块将文件获取模块获取的所有输入文件的转换任务创建任务线程放进线程池,并按照各输入文件的上传时间并行取出若干任务线程发送到解析模块;4)各解析模块对任务线程中取出输入文件进行读取解析,得到与输入文件相对应的待转换文件存储到待转换文件夹;5)转码模块采用大数据融合开发系统能够识别的编码格式对得到的待转换文件进行转码,并将转码后的数据写入新的输入文件中;6)文件输出模块将转码后的新的输入文件输入大数据融合开发系统中,用于后续处理。
进一步的,所述步骤3)中,线程管理模块文件获取模块获取的所有输入文件的转换任务创建任务线程放进线程池,并按照各输入文件的上传时间并行取出若干任务线程发送到解析模块的方法,包括以下步骤:3.1)当用户上传多个输入文件或不同用户同时上传一个或多个输入文件时,为每一个输入文件的转换任务创建一个线程放入线程池;3.2)建立并维护一个队列表,该队列表中存储有各任务线程的相关信息,包括线程所包含的输入文件名称、输入文件对应的用户名称、输入文件的上传时间以及输入文件的处理状态;3.3)按照预设的并行处理线程个数以及队列表中记录的输入文件的上传时间,从线程池中取出相应个数的线程任务,并发送到解析模块。
进一步的,所述步骤4)中,对用户上传的输入文件进行读取解析时,包括以下步骤:4.1)采用用户原有的编码格式对用户上传的输入文件进行逐行读取,读取时采用java中的IO流工具;4.2)对读取的数据内容进行解析,判断读取的数据内容是否为乱码,如果是乱码则进入步骤4.3),否则进入步骤4.7);4.3)将数据内容中的每一行数据作为一个转换单元,并按照预设最大转换阈值将读取到的所有转换单元进行分组,得到多个转换单元组;4.4)将各转换单元组中起止行数据对应的行号信息记录到分组信息表中;4.5)根据分组信息表为每一转换单元组建立与其起止行号信息相关联的唯一的转换文件编号,然后将各转换文件编号记录到转换文件编号表中;4.6)根据转换文件编号表建立转换文件,并将与之对应的各转换单元组中的数据按条存储到各转换文件中,作为待转换文件存储到待转换文件夹;4.7)将用户上传的输入文件作为待转换文件存储到待转换文件夹。
进一步的,所述步骤4.2)中,对读取的数据内容进行解析,判断读取的数据内容是否为乱码的方法为:首先,从读取的数据内容中随机抽取若干行数据,并将各行数据转换为二进制,得到相应的若干条二进制数据;其次,读取各条二进制数据的开头部分,即二进制前缀,若得到的各条二进制数据的前缀均相同,则认定其正常,否则为乱码文件。
进一步的,所述步骤5)中,采用大数据融合开发系统能够识别的编码格式对待转换文件夹中的待转换文件进行转码,并将转码后的数据重新写入到输入文件中的方法,包括以下步骤:5.1)根据转换文件编号表中的转换文件编号,依次读取待转换文件内的转换单元组;5.2)将读取到的转换单元组中的各转换单元即每条数据分别转换为二进制形式;5.3)对二进制形式的转换单元进行遍历,得到每一转换单元对应的关键值及该关键值对应的数据值集合;5.4)将各转换单元组中的关键值重写写入输入文件的第一行,且各转换单元对应的关键值之间采用逗号隔开;5.5)将各转换单元组中关键值对应的数据值按列依次写入与其对应的关键值下方,且每一行中两两转换单元的数据值之间采用逗号隔开;5.6)重复步骤5.2)~5.5),直到将转换文件夹中所有的转换文件全部遍历并写入新的输入文件中。
本发明由于采取以上技术方案,其具有以下优点:1、本发明在对用户输入文件进行编码格式转换时,对输入文件进行逐行提取并分组处理,转码时按照编号对提取数据进行逐一遍历,保证了对输入文件中所有数据均能完整的写入到新的输入文件中,避免了各种突发状况导致对数据安全的威胁,提高了数据转码的可靠性。2、本发明提供的技术方法可满足大量数据的快速无差错接入,为大数据融合开发系统的高效运转提供了有力的数据接入支撑,从而满足5G时代来临海量数据的导入需求。3、本发明将用户上传的输入文件的转换过程创建了线程,预存到线程池里进行统一管理,多个输入文件的转换任务能够并行快速处理,同时保证了用户输入文件的先入先出。因此,本发明可以广泛应用于数据转换领域。
附图说明
图1是本发明数据文件编码格式转换方法流程图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明提供一种数据文件编码格式转换系统,该系统包括:文件获取模块、线程管理模块、解析模块、转码模块和文件输出模块。其中,文件获取模块用于获取用户上传的输入文件,记录各输入文件的上传时间以及对应的用户名称后发送到线程管理模块;线程管理模块用于为各输入文件的转换任务创建线程任务,并按照上传时间并行取出多个线程任务发送到相应的解析模块;解析模块用于采用原有的编码格式对用户上传的输入文件进行读取,得到与之对应的待转换文件;转码模块用于采用大数据融合开发系统能够识别的编码格式对待转换文件进行转码,得到新的输入文件;文件输出模块用于将转码后新的输入文件输出到大数据融合开发系统中,用于后续处理。
进一步的,线程管理模块包括线程创建模块、队列表创建和维护模块以及线程取出模块,其中,线程创建模块用于当用户上传多个输入文件或不同用户同时上传一个或多个输入文件时,为每一个输入文件的转换任务创建一个线程放入线程池;队列表创建和维护模块用于建立并维护一个队列表,该队列表中存储有各任务线程的相关信息,包括线程所包含的输入文件名称、输入文件对应的用户名称、输入文件的上传时间以及输入文件的处理状态等;线程取出模块用于按照预设的并行处理线程个数以及队列表中记录的输入文件的上传时间,从线程池中取出相应个数的线程任务,并发送到解析模块。
进一步的,解析模块包括第一读取模块、解析判断模块、分组模块、行号信息记录模块、文件编号记录模块、转换文件建立模块以及存储模块;其中,第一读取模块用于采用用户原有的编码格式对用户上传的输入文件进行读取,读取时采用的是java中的IO流工具;解析判断模块用于对读取的数据内容进行解析,并判断读取的数据内容是否为乱码,如果为乱码则将读取数据内容发送到分组模块,否则将数据内容发送到存储模块;分组模块将用于将数据内容中的每一行数据作为一个转换单元,并按照预设最大转换阈值将读取到的所有转换单元进行分组,得到多个转换单元组;行号信息记录模块用于将各转换单元组中起止行数据对应的行号信息记录到分组信息表中;文件编号记录模块用于根据分组信息表为每一转换单元组建立与其起止行号信息相关联的唯一的转换文件编号,然后将各转换文件编号记录到转换文件编号表中;转换文件建立模块用于根据转换文件编号表建立转换文件,并将与之对应的各转换单元组中的数据按条存储到各转换文件中;存储模块用于将各转换文件或数据内容存储到待转换文件夹。
进一步的,文件转码模块包括第二读取模块、二进制转换模块、数据获取模块、关键值写入模块、数据值写入模块。其中,第二读取模块用于根据转换文件编号表中的转换文件编号,依次读取待转换文件夹中待转换文件内的转换单元组;二进制转换模块用于将读取到的转换单元组中的各转换单元即每条数据分别转换为二进制形式;数据获取模块用于对二进制形式的各转换单元进行遍历,得到每一转换单元对应的关键值及该关键值对应的数据值集合;关键值写入模块用于将各转换单元组中的关键值重写写入输入文件的第一行,且各转换单元对应的关键值之间采用逗号隔开;数据值写入模块用于将各转换单元组中关键值对应的数据值按列依次写入与其对应的关键值下方,且每一行中两两转换单元的数据值之间采用逗号隔开。
如图1所示,本发明提供的一种数据文件编码格式转换方法,包括以下步骤:
1)搭建数据文件编码格式转换系统,该数据文件编码格式转换系统包括文件获取模块、线程管理模块、解析模块、转码模块以及输出模块;
2)文件获取模块用于获取用户上传的输入文件,并记录各输入文件的上传时间以及对应的用户名称;
3)线程管理模块将文件获取模块获取的所有输入文件的转换任务创建任务线程放进线程池,并按照各输入文件的上传时间并行取出若干任务线程发送到解析模块;
4)各解析模块对任务线程中取出输入文件进行读取解析,得到与输入文件相对应的待转换文件存储到待转换文件夹;
5)转码模块采用大数据融合开发系统能够识别的编码格式对得到的待转换文件进行转码,并将转码后的数据写入新的输入文件中;
6)文件输出模块将转码后的新的输入文件输入大数据融合开发系统中,用于后续处理。
进一步的,上述步骤3)中,线程管理模块文件获取模块获取的所有输入文件的转换任务创建任务线程放进线程池,并按照各输入文件的上传时间并行取出若干任务线程发送到解析模块的方法,包括以下步骤:
3.1)当用户上传多个输入文件或不同用户同时上传一个或多个输入文件时,为每一个输入文件的转换任务创建一个线程放入线程池;
3.2)建立并维护一个队列表,该队列表中存储有各任务线程的相关信息,包括线程所包含的输入文件名称、输入文件对应的用户名称、输入文件的上传时间以及输入文件的处理状态等;
3.3)按照预设的并行处理线程个数以及队列表中记录的输入文件的上传时间,从线程池中取出相应个数的线程任务,并发送到解析模块。
进一步的,上述步骤4)中,对用户上传的输入文件进行读取解析时,包括以下步骤:
4.1)采用用户原有的编码格式对用户上传的输入文件进行逐行读取,读取时采用java中的IO流工具;
4.2)对读取的数据内容进行解析,判断读取的数据内容是否为乱码,如果是乱码则进入步骤4.3),否则进入步骤4.7);
4.3)将数据内容中的每一行数据作为一个转换单元,并按照预设最大转换阈值(例如10000条)将读取到的所有转换单元进行分组,得到多个转换单元组;
4.4)将各转换单元组中起止行数据对应的行号信息记录到分组信息表中;
4.5)根据分组信息表为每一转换单元组建立与其起止行号信息相关联的唯一的转换文件编号,然后将各转换文件编号记录到转换文件编号表中;
4.6)根据转换文件编号表建立转换文件,并将与之对应的各转换单元组中的数据按条存储到各转换文件中,作为待转换文件存储到待转换文件夹;
4.7)将用户上传的输入文件作为待转换文件存储到待转换文件夹。
上述步骤4.2)中,对读取的数据内容进行解析,判断读取的数据内容是否为乱码的方法为:
首先,从读取的数据内容中随机抽取若干行数据,并将各行数据转换为二进制,得到相应的若干条二进制数据;
其次,读取各条二进制数据的开头部分,即二进制前缀,若得到的各条二进制数据的前缀均相同,则认定其正常,否则为乱码文件。
上述步骤5)中,采用大数据融合开发系统能够识别的编码格式对待转换文件夹中的待转换文件进行转码,并将转码后的数据重新写入到输入文件中的方法,包括以下步骤:
5.1)根据转换文件编号表中的转换文件编号,依次读取待转换文件内的转换单元组;
5.2)将读取到的转换单元组中的各转换单元即每条数据分别转换为二进制形式;
5.3)对二进制形式的转换单元进行遍历,得到每一转换单元对应的关键值及该关键值对应的数据值集合;
5.4)将各转换单元组中的关键值重写写入输入文件的第一行,且各转换单元对应的关键值之间采用逗号隔开;
5.5)将各转换单元组中关键值对应的数据值按列依次写入与其对应的关键值下方,且每一行中两两转换单元的数据值之间采用逗号隔开;
5.6)重复步骤5.2)~5.5),直到将转换文件夹中所有的转换文件全部遍历并写入新的输入文件中。
以上给出一种具体的实施方式,但本发明不局限于所描述的实施方式。本发明的基本思路在于上述方案,对本领域普通技术人员而言,根据本发明的教导,设计出各种变形的模型、公式、参数并不需要花费创造性劳动。在不脱离本发明的原理和精神的情况下对实施方式进行的变化、修改、替换和变形仍落入本发明的保护范围内。

Claims (9)

1.一种数据文件编码格式转换系统,其特征在于其包括:
文件获取模块、线程管理模块、解析模块、转码模块和文件输出模块;
所述文件获取模块用于获取用户上传的输入文件,记录各输入文件的上传时间以及对应的用户名称;
所述线程管理模块用于为各输入文件的转换任务创建线程任务,并按照上传时间并行取出多个线程任务发送到相应的所述解析模块;
所述解析模块用于采用原有的编码格式对用户上传的输入文件进行读取,得到与之对应的待转换文件;
所述转码模块用于采用大数据融合开发系统能够识别的编码格式对待转换文件进行转码,得到新的输入文件;
所述文件输出模块用于将转码后新的输入文件输出到大数据融合开发系统中,用于后续处理。
2.如权利要求1所述的一种数据文件编码格式转换系统,其特征在于:所述线程管理模块包括线程创建模块、队列表创建和维护模块以及线程取出模块;
所述线程创建模块用于当用户上传多个输入文件或不同用户同时上传一个或多个输入文件时,为每一个输入文件的转换任务创建一个线程放入线程池;
所述队列表创建和维护模块用于建立并维护一个队列表,该队列表中存储有各任务线程的相关信息,包括线程所包含的输入文件名称、输入文件对应的用户名称、输入文件的上传时间以及输入文件的处理状态;
所述线程取出模块用于按照预设的并行处理线程个数以及队列表中记录的输入文件的上传时间,从线程池中取出相应个数的线程任务,并发送到所述解析模块。
3.如权利要求1所述的一种数据文件编码格式转换系统,其特征在于:所述解析模块包括第一读取模块、解析判断模块、分组模块、行号信息记录模块、文件编号记录模块、转换文件建立模块以及存储模块;
所述第一读取模块用于采用用户原有的编码格式对用户上传的输入文件进行读取,读取时采用的是java中的IO流工具;
所述解析判断模块用于对读取的内容进行解析,并判断读取的内容是否为乱码,如果为乱码则将读取数据发送到所述分组模块,否则将数据发送到所述存储模块;
所述分组模块将用于将数据内容中的每一行数据作为一个转换单元,并按照预设最大转换阈值将读取到的所有转换单元进行分组,得到多个转换单元组;
所述行号信息记录模块用于将各转换单元组中起止行数据对应的行号信息记录到分组信息表中;
所述文件编号记录模块用于根据分组信息表为每一转换单元组建立与其起止行号信息相关联的唯一的转换文件编号,然后将各转换文件编号记录到转换文件编号表中;
所述转换文件建立模块用于根据转换文件编号表建立转换文件,并将与之对应的各转换单元组中的数据按条存储到各转换文件中;
所述存储模块用于将各转换文件或数据内容存储到待转换文件夹。
4.如权利要求1所述的一种数据文件编码格式转换系统,其特征在于:所述文件转码模块包括第二读取模块、二进制转换模块、数据获取模块、关键值写入模块、数据值写入模块;
所述第二读取模块用于根据转换文件编号表中的转换文件编号,依次读取待转换文件夹中待转换文件内的转换单元组;
所述二进制转换模块用于将读取到的转换单元组中的各转换单元即每条数据分别转换为二进制形式;
所述数据获取模块用于对二进制形式的各转换单元进行遍历,得到每一转换单元对应的关键值及该关键值对应的数据值集合;
所述关键值写入模块用于将各转换单元组中的关键值重写写入输入文件的第一行,且各转换单元对应的关键值之间采用逗号隔开;
所述数据值写入模块用于将各转换单元组中关键值对应的数据值按列依次写入与其对应的关键值下方,且每一行中两两转换单元的数据值之间采用逗号隔开。
5.一种采用如权利要求1~4任一项所述系统的数据文件编码格式转换方法,其特征在于包括以下步骤:
1)搭建数据文件编码格式转换系统,该数据文件编码格式转换系统包括文件获取模块、线程管理模块、解析模块、转码模块以及文件输出模块;
2)文件获取模块用于获取用户上传的输入文件,并记录各输入文件的上传时间以及对应的用户名称;
3)线程管理模块将文件获取模块获取的所有输入文件的转换任务创建任务线程放进线程池,并按照各输入文件的上传时间并行取出若干任务线程发送到解析模块;
4)各解析模块对任务线程中取出输入文件进行读取解析,得到与输入文件相对应的待转换文件存储到待转换文件夹;
5)转码模块采用大数据融合开发系统能够识别的编码格式对得到的待转换文件进行转码,并将转码后的数据写入新的输入文件中;
6)文件输出模块将转码后的新的输入文件输入大数据融合开发系统中,用于后续处理。
6.如权利要求5所述的一种数据文件编码格式转换方法,其特征在于:所述步骤3)中,线程管理模块文件获取模块获取的所有输入文件的转换任务创建任务线程放进线程池,并按照各输入文件的上传时间并行取出若干任务线程发送到解析模块的方法,包括以下步骤:
3.1)当用户上传多个输入文件或不同用户同时上传一个或多个输入文件时,为每一个输入文件的转换任务创建一个线程放入线程池;
3.2)建立并维护一个队列表,该队列表中存储有各任务线程的相关信息,包括线程所包含的输入文件名称、输入文件对应的用户名称、输入文件的上传时间以及输入文件的处理状态;
3.3)按照预设的并行处理线程个数以及队列表中记录的输入文件的上传时间,从线程池中取出相应个数的线程任务,并发送到解析模块。
7.如权利要求5所述的一种数据文件编码格式转换方法,其特征在于:所述步骤4)中,对用户上传的输入文件进行读取解析时,包括以下步骤:
4.1)采用用户原有的编码格式对用户上传的输入文件进行逐行读取,读取时采用java中的IO流工具;
4.2)对读取的数据内容进行解析,判断读取的数据内容是否为乱码,如果是乱码则进入步骤4.3),否则进入步骤4.7);
4.3)将数据内容中的每一行数据作为一个转换单元,并按照预设最大转换阈值将读取到的所有转换单元进行分组,得到多个转换单元组;
4.4)将各转换单元组中起止行数据对应的行号信息记录到分组信息表中;
4.5)根据分组信息表为每一转换单元组建立与其起止行号信息相关联的唯一的转换文件编号,然后将各转换文件编号记录到转换文件编号表中;
4.6)根据转换文件编号表建立转换文件,并将与之对应的各转换单元组中的数据按条存储到各转换文件中,作为待转换文件存储到待转换文件夹;
4.7)将用户上传的输入文件作为待转换文件存储到待转换文件夹。
8.如权利要求5所述的一种数据文件编码格式转换方法,其特征在于:所述步骤4.2)中,对读取的数据内容进行解析,判断读取的数据内容是否为乱码的方法为:
首先,从读取的数据内容中随机抽取若干行数据,并将各行数据转换为二进制,得到相应的若干条二进制数据;
其次,读取各条二进制数据的开头部分,即二进制前缀,若得到的各条二进制数据的前缀均相同,则认定其正常,否则为乱码文件。
9.如权利要求5所述的一种数据文件编码格式转换方法,其特征在于:所述步骤5)中,采用大数据融合开发系统能够识别的编码格式对待转换文件夹中的待转换文件进行转码,并将转码后的数据重新写入到输入文件中的方法,包括以下步骤:
5.1)根据转换文件编号表中的转换文件编号,依次读取待转换文件内的转换单元组;
5.2)将读取到的转换单元组中的各转换单元即每条数据分别转换为二进制形式;
5.3)对二进制形式的转换单元进行遍历,得到每一转换单元对应的关键值及该关键值对应的数据值集合;
5.4)将各转换单元组中的关键值重写写入输入文件的第一行,且各转换单元对应的关键值之间采用逗号隔开;
5.5)将各转换单元组中关键值对应的数据值按列依次写入与其对应的关键值下方,且每一行中两两转换单元的数据值之间采用逗号隔开;
5.6)重复步骤5.2)~5.5),直到将转换文件夹中所有的转换文件全部遍历并写入新的输入文件中。
CN202010263975.9A 2020-04-07 2020-04-07 一种数据文件编码格式转换方法及系统 Active CN111476002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010263975.9A CN111476002B (zh) 2020-04-07 2020-04-07 一种数据文件编码格式转换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010263975.9A CN111476002B (zh) 2020-04-07 2020-04-07 一种数据文件编码格式转换方法及系统

Publications (2)

Publication Number Publication Date
CN111476002A true CN111476002A (zh) 2020-07-31
CN111476002B CN111476002B (zh) 2021-01-15

Family

ID=71750098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010263975.9A Active CN111476002B (zh) 2020-04-07 2020-04-07 一种数据文件编码格式转换方法及系统

Country Status (1)

Country Link
CN (1) CN111476002B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986281A (zh) * 2020-08-06 2020-11-24 山东金东数字创意股份有限公司 基于pc端dds数据转换方法和系统
CN112463731A (zh) * 2020-12-18 2021-03-09 杭州米络星科技(集团)有限公司 文件格式的转换方法、系统及电子设备
CN113177025A (zh) * 2021-03-25 2021-07-27 北京城建智控科技有限公司 一种数据操作方法及系统
CN113778961A (zh) * 2021-08-17 2021-12-10 广东国地规划科技股份有限公司 一种cim模型数据的生产管理方法、装置及系统
CN113824973A (zh) * 2021-08-04 2021-12-21 杭州星犀科技有限公司 多平台直推推流的方法、系统、电子装置和存储介质
CN115086301A (zh) * 2022-06-17 2022-09-20 闫雪 用于压缩上传均衡的数据分析系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763408A (zh) * 2009-11-19 2010-06-30 青岛海信移动通信技术股份有限公司 txt文件的解码方法与其装置及包括该装置的电子产品
US20130117032A1 (en) * 2011-11-08 2013-05-09 Vixs Systems, Inc. Transcoder with dynamic audio channel changing
CN103200380A (zh) * 2012-01-10 2013-07-10 北京世纪高蓝科技有限公司 多媒体数据格式转换方法
CN105095518A (zh) * 2015-09-18 2015-11-25 中国农业银行股份有限公司 一种数据转换方法及装置
CN108009430A (zh) * 2017-12-22 2018-05-08 北京明朝万达科技股份有限公司 一种敏感数据快速扫描方法及装置
CN108255984A (zh) * 2017-12-28 2018-07-06 浪潮通用软件有限公司 一种数据解析方法和装置
US20190068975A1 (en) * 2011-07-14 2019-02-28 Comcast Cable Communications, Llc Preserving Image Quality in Temporally Compressed Video Streams

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763408A (zh) * 2009-11-19 2010-06-30 青岛海信移动通信技术股份有限公司 txt文件的解码方法与其装置及包括该装置的电子产品
US20190068975A1 (en) * 2011-07-14 2019-02-28 Comcast Cable Communications, Llc Preserving Image Quality in Temporally Compressed Video Streams
US20130117032A1 (en) * 2011-11-08 2013-05-09 Vixs Systems, Inc. Transcoder with dynamic audio channel changing
CN103200380A (zh) * 2012-01-10 2013-07-10 北京世纪高蓝科技有限公司 多媒体数据格式转换方法
CN105095518A (zh) * 2015-09-18 2015-11-25 中国农业银行股份有限公司 一种数据转换方法及装置
CN108009430A (zh) * 2017-12-22 2018-05-08 北京明朝万达科技股份有限公司 一种敏感数据快速扫描方法及装置
CN108255984A (zh) * 2017-12-28 2018-07-06 浪潮通用软件有限公司 一种数据解析方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986281A (zh) * 2020-08-06 2020-11-24 山东金东数字创意股份有限公司 基于pc端dds数据转换方法和系统
CN112463731A (zh) * 2020-12-18 2021-03-09 杭州米络星科技(集团)有限公司 文件格式的转换方法、系统及电子设备
CN113177025A (zh) * 2021-03-25 2021-07-27 北京城建智控科技有限公司 一种数据操作方法及系统
CN113824973A (zh) * 2021-08-04 2021-12-21 杭州星犀科技有限公司 多平台直推推流的方法、系统、电子装置和存储介质
CN113778961A (zh) * 2021-08-17 2021-12-10 广东国地规划科技股份有限公司 一种cim模型数据的生产管理方法、装置及系统
CN113778961B (zh) * 2021-08-17 2022-04-15 广东国地规划科技股份有限公司 一种cim模型数据的生产管理方法、装置及系统
CN115086301A (zh) * 2022-06-17 2022-09-20 闫雪 用于压缩上传均衡的数据分析系统及方法
CN115086301B (zh) * 2022-06-17 2022-12-27 嘉兴云切供应链管理有限公司 用于压缩上传均衡的数据分析系统及方法

Also Published As

Publication number Publication date
CN111476002B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN111476002B (zh) 一种数据文件编码格式转换方法及系统
CN105786998A (zh) 数据库中间件系统及利用其处理数据的方法
CN112347071B (zh) 一种配电网云平台数据融合方法及配电网云平台
CN107977473B (zh) 基于Logback的分布式系统日志的检索方法和系统
CN112181955B (zh) 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
CN109274178B (zh) 一种电力调度前置运行信息的自动化分析系统和方法
CN102508919A (zh) 数据处理方法及系统
CN115033646B (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
CN102045268A (zh) 一种电子邮件数据恢复方法及装置
CN107247667A (zh) 自动化dump分析系统及方法
CN118013364A (zh) 一种多维数据智能标识方法
CN110019169B (zh) 一种数据处理的方法及装置
CN116610531B (zh) 基于代码探针采集数据埋点及请求图片上传数据的方法
CN106227857B (zh) 数据推送和加载方法和装置
CN115730015A (zh) 基于任务标识编码解析的工业数据管理方法
CN110957016B (zh) 基于健康云管理平台的体检数据智能识别系统及方法
CN111563123B (zh) 一种hive仓库元数据实时同步方法
CN116521652B (zh) 一种基于DataX实现分布式异构数据库迁移方法、系统和介质
CN109344130A (zh) 一种日志管理方法和装置
CN113344731B (zh) 一种用于随机报送零散数据的自动收集与整合系统及其方法
CN114911862B (zh) 一种网上国网运营链路大数据传输系统及方法
CN111737213B (zh) 一种数模资源保存方法、系统、装置及存储介质
CN111427763A (zh) 大数据采集分析
CN117290442A (zh) 数据库间的数据同步方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 301, 3 / F, block F, Zhizao street, Zhongguancun, 45 Chengfu Road, Haidian District, Beijing 100062

Applicant after: Beijing Dongfang Jinxin Technology Co.,Ltd.

Address before: 9 / F, Jiahe Guoxin building, 15 Baiqiao street, Dongcheng District, Beijing 100062

Applicant before: Beijing Dongfang Jinxin Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant