CN111752946A - 一种基于分片方式对调研数据进行预处理的方法及装置 - Google Patents

一种基于分片方式对调研数据进行预处理的方法及装置 Download PDF

Info

Publication number
CN111752946A
CN111752946A CN202010577207.0A CN202010577207A CN111752946A CN 111752946 A CN111752946 A CN 111752946A CN 202010577207 A CN202010577207 A CN 202010577207A CN 111752946 A CN111752946 A CN 111752946A
Authority
CN
China
Prior art keywords
file
data
slice
index
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010577207.0A
Other languages
English (en)
Other versions
CN111752946B (zh
Inventor
陈正雄
刘兴军
黄庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongyan Network Technology Co ltd
Original Assignee
Shanghai Zhongyan Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongyan Network Technology Co ltd filed Critical Shanghai Zhongyan Network Technology Co ltd
Priority to CN202010577207.0A priority Critical patent/CN111752946B/zh
Publication of CN111752946A publication Critical patent/CN111752946A/zh
Application granted granted Critical
Publication of CN111752946B publication Critical patent/CN111752946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种基于分片方式对调研数据进行预处理的方法及装置。所述方法包括:基于Celery后台多任务生成索引文件以及切片文件,当用户需要下载数据时,从索引文件筛选需要下载的数据,根据筛选后的索引文件的索引,从切片文件提取数据并且合并,将合并后的数据提供给用户。所述装置包括:包括:索引模块、切片模块、合并模块。使用本申请的方法,用户可以实时的快速下载,不同筛选条件、不同编码格式要求的csv调研数据,大大提高了下载的效率。

Description

一种基于分片方式对调研数据进行预处理的方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种基于分片方式对调研数据进行预处理的方法及装置。
背景技术
目前,调研平台使用pandas来处理数据,已提供基本的数据格式下载,数据类型包括01、非01(左对齐、当前列)、sav、可读(默认、多选题合并列)。由于调研平台答题提交过来的数据是前端的json格式的,内容都是跟项目问卷相关的id信息,需要借助问卷结构信息来处理这些数据。而答案json格式,在基本校验通过后,直接入库,后台数据同步脚本收到有新数据入库的信号,对新进的样本处理后,统一生成01格式的数据,再入库。
由于调研平台上执行的项目问卷,题目数量很多是超过100的,加上选项、矩阵题普遍很多,随着数据的增加,数据下载实时转换格式时,耗时是越来越长,直到无法生成;同时,对于有增量调研数据,每次下载都是重新全部下载,效率低,耗时长。
针对相关技术中调研平台下载调研数据耗时且效率低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种基于分片方式对调研数据进行预处理的方法及装置,以解决相关技术中调研平台下载数据耗时且效率低的问题。
为了实现上述目的,第一方面,本申请提供了一种基于分片方式对调研数据进行预处理的方法,包括:基于Celery后台多任务生成索引文件以及切片文件,当用户需要下载数据时,从索引文件筛选需要下载的数据,根据筛选后的索引文件的索引,从切片文件提取数据并且合并,将合并后的数据提供给用户。
所述索引文件:存放每一个切片文件的编号和文件名,同时作为切片文件的索引。
所述切片文件:存放实时进来的样本数据,并且通过数据库中存放的切片文件数量值变量,限制每个切片文件的大小,保证增量数据只需追加至每个小的切片文件后,合并转换这些小的切片文件耗时短效率高。
所述切片文件的编号,将所有切片文件的编号组成编号集合,保存在数据表中。
所述数据表:当用户需要下载数据时,从数据表中查询出相应的切片文件的编号。
所述索引文件:在索引文件中,按照切片文件的编号索引筛选过滤出对应的切片文件名。
所述切片文件提取数据并且合并,具体为:根据索引文件中索引出的对应切片文件名,利用pandas进行读取文件和合并文件,将合并后的文件写入csv格式文件中,作为最终的下载数据,提供给最终用户。
所述利用pandas进行读取文件,需进行排序并且去掉重复的数据,将排序去重后的文件进行合并。
第二方面,本申请还提供了一种基于分片方式对调研数据进行预处理的装置,包括:索引模块、切片模块、合并模块;
所述索引模块、切片模块、合并模块依次顺利相连接;
所述索引模块:从索引文件筛选需要下载的数据,根据筛选后的索引文件的索引从切片模块中提取数据;
所述切片模块:保存存放实时进来的样本数据。
所述合并模块:根据索引文件中索引出的对应切片文件名,利用pandas进行读取文件和合并文件,将合并后的文件写入csv格式文件中。
一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使计算机设备执行根据所述的基于分片方式对调研数据进行预处理的方法。
一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行所述的基于分片方式对调研数据进行预处理的方法。
有益技术效果:
使用本申请的方法,用户可以实时的快速下载,不同筛选条件、不同编码格式要求的csv调研数据,大大提高了下载的效率。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的一种基于分片方式对调研数据进行预处理的方法流程图;
图2是根据本申请实施例提供的一种基于分片方式对调研数据进行预处理的装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
另外,术语“多个”的含义应为两个以及两个以上。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
第一方面,本申请提供了一种基于分片方式对调研数据进行预处理的方法,包括:基于Celery后台多任务生成索引文件以及切片文件,当用户需要下载数据时,从索引文件筛选需要下载的数据,根据筛选后的索引文件的索引,从切片文件提取数据并且合并,将合并后的数据提供给用户。
一种基于分片方式对调研数据进行预处理的方法,如图1所示,具体实现流程如下:
步骤S1:在后台更新数据的时候,利用Celery后台多任务去处理预生成各种格式的csv文件,包括:索引文件(index.csv)和切片文件(piece.csv)
索引文件存放每一个切片文件的seq编号和文件名,同时作为切片文件的索引。所述切片文件,存放实时进来的样本数据,并且通过数据库中存放的切片文件数量值piece_num变量,限制每个切片文件的大小,本实施例,小于等于20Mb,保证增量数据只需追加至每个小的切片文件后,合并转换这些小的切片文件耗时短效率高。将所有切片文件的编号组成编号集合,保存在数据表中。
步骤S2:当用户需要下载数据时,从数据表中查询出相应的切片文件的编号。
步骤S3:在索引文件中,按照切片文件的编号索引筛选过滤出对应的切片文件名。
步骤S4:对所述切片文件进行提取数据并且合并,具体为:根据索引文件中索引出的对应切片文件名,利用pandas进行读取文件和合并文件;
步骤S5:将合并后的文件写入csv格式文件中,作为最终的下载数据,提供给最终用户。
所述利用pandas进行读取文件,需进行排序并且去掉重复的数据,将排序去重后的文件进行合并。
第二方面,本申请还提供了一种基于分片方式对调研数据进行预处理的装置,如图2所示,包括:索引模块、切片模块、合并模块;
所述索引模块、切片模块、合并模块依次顺利相连接;
所述索引模块:从索引文件筛选需要下载的数据,根据筛选后的索引文件的索引从切片模块中提取数据;
所述切片模块:保存存放实时进来的样本数据。
所述合并模块:根据索引文件中索引出的对应切片文件名,利用pandas进行读取文件和合并文件,将合并后的文件写入csv格式文件中。
一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使计算机设备执行根据所述的基于分片方式对调研数据进行预处理的方法。
一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行所述的基于分片方式对调研数据进行预处理的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于分片方式对调研数据进行预处理的方法,其特征在于,包括:基于Celery后台多任务生成索引文件以及切片文件,当用户需要下载数据时,从索引文件筛选需要下载的数据,根据筛选后的索引文件的索引,从切片文件提取数据并且合并,将合并后的数据提供给用户。
2.如权利要求1所述的基于分片方式对调研数据进行预处理的方法,其特征在于,所述索引文件:存放每一个切片文件的编号和文件名,同时作为切片文件的索引。
3.如权利要求1所述的基于分片方式对调研数据进行预处理的方法,其特征在于,所述切片文件:存放实时进来的样本数据,并且通过数据库中存放的切片文件数量值变量,限制每个切片文件的大小。
4.如权利要求2所述的基于分片方式对调研数据进行预处理的方法,其特征在于,所述切片文件的编号,将所有切片文件的编号组成编号集合,保存在数据表中。
5.如权利要求4所述的基于分片方式对调研数据进行预处理的方法,其特征在于,所述数据表:当用户需要下载数据时,从数据表中查询出相应的切片文件的编号。
6.如权利要求1所述的基于分片方式对调研数据进行预处理的方法,其特征在于,所述切片文件提取数据并且合并,具体为:根据索引文件中索引出的对应切片文件名,利用pandas进行读取文件和合并文件,将合并后的文件写入csv格式文件中,作为最终的下载数据,提供给最终用户。
7.如权利要求6所述的基于分片方式对调研数据进行预处理的方法,其特征在于,所述利用pandas进行读取文件,需进行排序并且去掉重复的数据,将排序去重后的文件进行合并。
8.一种基于分片方式对调研数据进行预处理的装置,其特征在于,使用如权利要求1-9任一项所述的基于分片方式对调研数据进行预处理的方法实现,包括:索引模块、切片模块、合并模块;
所述索引模块、切片模块、合并模块依次顺利相连接;
所述索引模块:从索引文件筛选需要下载的数据,根据筛选后的索引文件的索引从切片模块中提取数据;
所述切片模块:保存存放实时进来的样本数据;
所述合并模块:根据索引文件中索引出的对应切片文件名,利用pandas进行读取文件和合并文件,将合并后的文件写入csv格式文件中。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使计算机设备执行根据权利要求1-7任一项所述的基于分片方式对调研数据进行预处理的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1-7任一项所述的基于分片方式对调研数据进行预处理的方法。
CN202010577207.0A 2020-06-22 2020-06-22 一种基于分片方式对调研数据进行预处理的方法及装置 Active CN111752946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010577207.0A CN111752946B (zh) 2020-06-22 2020-06-22 一种基于分片方式对调研数据进行预处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010577207.0A CN111752946B (zh) 2020-06-22 2020-06-22 一种基于分片方式对调研数据进行预处理的方法及装置

Publications (2)

Publication Number Publication Date
CN111752946A true CN111752946A (zh) 2020-10-09
CN111752946B CN111752946B (zh) 2021-04-30

Family

ID=72675584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010577207.0A Active CN111752946B (zh) 2020-06-22 2020-06-22 一种基于分片方式对调研数据进行预处理的方法及装置

Country Status (1)

Country Link
CN (1) CN111752946B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546768A (zh) * 2011-12-23 2012-07-04 深圳市同洲电子股份有限公司 一种内容分享的方法、装置和系统
CN102779185A (zh) * 2012-06-29 2012-11-14 浙江大学 一种高可用分布式全文索引方法
CN104469396A (zh) * 2014-12-24 2015-03-25 北京中科大洋信息技术有限公司 一种分布式转码系统和方法
CN106126616A (zh) * 2016-06-21 2016-11-16 东软集团股份有限公司 汇聚网络素材的方法和装置
KR20170135351A (ko) * 2016-05-31 2017-12-08 강원대학교산학협력단 엔테로코커스 종들 중 특정 종 특이적인 프라이머 및 이를 이용한 해당 균주 분리 및 동정 방법 및 그 조성물
CN108184159A (zh) * 2016-12-08 2018-06-19 武汉斗鱼网络科技有限公司 一种进度条的实现方法及装置
WO2018153237A1 (zh) * 2017-02-23 2018-08-30 中兴通讯股份有限公司 用于直播回看的缓存方法、系统及播放方法、系统
CN109086307A (zh) * 2018-06-22 2018-12-25 阿里巴巴集团控股有限公司 文件处理的方法及装置
US20180373517A1 (en) * 2017-06-21 2018-12-27 Alibaba Group Holding Limited Systems, methods, and apparatuses for docker image downloading
CN109189723A (zh) * 2018-07-05 2019-01-11 中国科学院遥感与数字地球研究所 一种分布式卫星数据中心多源遥感数据处理方法
CN109634916A (zh) * 2018-12-10 2019-04-16 平安科技(深圳)有限公司 文件存储及下载方法、装置及存储介质
CN109981751A (zh) * 2019-03-06 2019-07-05 珠海金山网络游戏科技有限公司 一种文件传输方法及系统、计算机设备及存储介质
CN110198493A (zh) * 2018-02-26 2019-09-03 腾讯科技(深圳)有限公司 媒体数据下载方法、装置、计算机设备、存储介质和系统
CN110430274A (zh) * 2019-08-09 2019-11-08 西藏宁算科技集团有限公司 一种基于云存储的文件下载方法及系统
CN110620827A (zh) * 2019-10-29 2019-12-27 广州趣丸网络科技有限公司 一种Android云上分片打包方法、主机、系统和设备
CN111107443A (zh) * 2019-12-26 2020-05-05 陕西美亚秦安信息科技有限公司 一种dash分片文件合并方法、终端设备及存储介质
CN111104386A (zh) * 2019-11-04 2020-05-05 北京海益同展信息科技有限公司 一种文件存储方法、终端及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102546768A (zh) * 2011-12-23 2012-07-04 深圳市同洲电子股份有限公司 一种内容分享的方法、装置和系统
CN102779185A (zh) * 2012-06-29 2012-11-14 浙江大学 一种高可用分布式全文索引方法
CN104469396A (zh) * 2014-12-24 2015-03-25 北京中科大洋信息技术有限公司 一种分布式转码系统和方法
CN104469396B (zh) * 2014-12-24 2018-01-05 北京中科大洋信息技术有限公司 一种分布式转码系统和方法
KR20170135351A (ko) * 2016-05-31 2017-12-08 강원대학교산학협력단 엔테로코커스 종들 중 특정 종 특이적인 프라이머 및 이를 이용한 해당 균주 분리 및 동정 방법 및 그 조성물
CN106126616A (zh) * 2016-06-21 2016-11-16 东软集团股份有限公司 汇聚网络素材的方法和装置
CN108184159A (zh) * 2016-12-08 2018-06-19 武汉斗鱼网络科技有限公司 一种进度条的实现方法及装置
WO2018153237A1 (zh) * 2017-02-23 2018-08-30 中兴通讯股份有限公司 用于直播回看的缓存方法、系统及播放方法、系统
US20180373517A1 (en) * 2017-06-21 2018-12-27 Alibaba Group Holding Limited Systems, methods, and apparatuses for docker image downloading
CN110198493A (zh) * 2018-02-26 2019-09-03 腾讯科技(深圳)有限公司 媒体数据下载方法、装置、计算机设备、存储介质和系统
CN109086307A (zh) * 2018-06-22 2018-12-25 阿里巴巴集团控股有限公司 文件处理的方法及装置
CN109189723A (zh) * 2018-07-05 2019-01-11 中国科学院遥感与数字地球研究所 一种分布式卫星数据中心多源遥感数据处理方法
CN109634916A (zh) * 2018-12-10 2019-04-16 平安科技(深圳)有限公司 文件存储及下载方法、装置及存储介质
CN109981751A (zh) * 2019-03-06 2019-07-05 珠海金山网络游戏科技有限公司 一种文件传输方法及系统、计算机设备及存储介质
CN110430274A (zh) * 2019-08-09 2019-11-08 西藏宁算科技集团有限公司 一种基于云存储的文件下载方法及系统
CN110620827A (zh) * 2019-10-29 2019-12-27 广州趣丸网络科技有限公司 一种Android云上分片打包方法、主机、系统和设备
CN111104386A (zh) * 2019-11-04 2020-05-05 北京海益同展信息科技有限公司 一种文件存储方法、终端及存储介质
CN111107443A (zh) * 2019-12-26 2020-05-05 陕西美亚秦安信息科技有限公司 一种dash分片文件合并方法、终端设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张烨: "基于物化数据立方体的营销数据在线分析平台设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN111752946B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN109741517A (zh) 一种发票查验方法、装置和系统
CN107977346B (zh) 一种pdf文档编辑方法及终端设备
CN106407442B (zh) 一种海量文本数据处理方法及装置
CN106780149A (zh) 一种基于定时任务调度的设备实时监测系统
CN108334609A (zh) Oracle中实现JSON格式数据存取的方法、装置、设备及存储介质
CN109471893B (zh) 网络数据的查询方法、设备及计算机可读存储介质
CN109684290A (zh) 日志存储方法、装置、设备及计算机可读存储介质
CN109325034A (zh) 数据处理方法、装置、计算机设备及存储介质
CN103077192A (zh) 一种数据处理方法及其系统
CN101290622A (zh) 数据库清洗系统及方法
CN108762979A (zh) 一种基于匹配树的终端信息备份方法及备份设备
CN110472246A (zh) 工单分类方法、装置及存储介质
CN111752946B (zh) 一种基于分片方式对调研数据进行预处理的方法及装置
CN113886419A (zh) Sql语句处理方法、装置、计算机设备及存储介质
CN107346312A (zh) 一种大数据处理方法及系统
CN110837559A (zh) 语句样本集的生成方法、电子装置及存储介质
CN107368464B (zh) 一种获取招标产品信息的方法及装置
CN105512237A (zh) 一种复杂结构的数据导入系统
CN110222286A (zh) 信息获取方法、装置、终端和计算机可读存储介质
CN116185545A (zh) 一种页面渲染的方法及装置
CN110674283A (zh) 文本摘要的智能抽取方法、装置、计算机设备及存储介质
CN108121745B (zh) 一种数据加载方法和装置
CN109558403A (zh) 数据聚合方法及装置、计算机装置及计算机可读存储介质
CN114896161A (zh) 基于人工智能的文件构造方法、装置、计算机设备及介质
CN111221777B (zh) 一种数据记录的匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant