CN114020716A - 对账系统中的大文件分布式处理方法及装置 - Google Patents

对账系统中的大文件分布式处理方法及装置 Download PDF

Info

Publication number
CN114020716A
CN114020716A CN202111102977.0A CN202111102977A CN114020716A CN 114020716 A CN114020716 A CN 114020716A CN 202111102977 A CN202111102977 A CN 202111102977A CN 114020716 A CN114020716 A CN 114020716A
Authority
CN
China
Prior art keywords
file
node
character
data
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111102977.0A
Other languages
English (en)
Inventor
轩焕焕
吴龙伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baofu Network Technology Shanghai Co ltd
Original Assignee
Baofu Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baofu Network Technology Shanghai Co ltd filed Critical Baofu Network Technology Shanghai Co ltd
Priority to CN202111102977.0A priority Critical patent/CN114020716A/zh
Publication of CN114020716A publication Critical patent/CN114020716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/02Payment architectures, schemes or protocols involving a neutral party, e.g. certification authority, notary or trusted third party [TTP]
    • G06Q20/023Payment architectures, schemes or protocols involving a neutral party, e.g. certification authority, notary or trusted third party [TTP] the neutral party being a clearing house
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/085Payment architectures involving remote charge determination or related payment systems
    • G06Q20/0855Payment architectures involving remote charge determination or related payment systems involving a third party

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了对账系统中的大文件分布式处理方法及装置,适用于包括文件服务器和N个节点的集群中,每个节点对应一个应用服务器,所述文件服务器为所述N个节点中的至少一个提供对账文件。所述方法对账文件处理采用集群部署,通过算法将文件进行逻辑划分,分成若干块,将逻辑分片后的文件内容分配到集群中相应的节点,各节点分别处理各自的任务,有效地规避传统方案中硬件不足、处理效率慢等弊端,让大文件的处理在硬件配置较低的虚拟机、或者云服务器上也能快速处理,便于应用程序的微服务化,另外通过分布式改造后,彻底解决了单点不稳定的潜在风险。

Description

对账系统中的大文件分布式处理方法及装置
技术领域
本发明涉及涉及信息技术领域,尤其涉及一种对账系统中的大文件分布式处理方法及装置。
背景技术
第三方支付行业的渠道对账系统,主要用于比对第三方支付公司与两联数据(银联、网联),两联交易数据通过文件提供,交易量大的情况下相应的文件也比较大,当文件大小大于应用服务器可处理内存的一定比例时,解析文件会碰到瓶颈。
目前,第三方支付中的渠道对账系统,多使用单节点处理,处理大文件一般有三种方式,一是通过增加单点内存,二是通过拆分文件后依次处理,三是逐条解析后放入内存数据库进行处理。这三种方式都是单节点处理,单节点处理对账文件有两个共同的弊端,其一是单节点系统稳定性不够,单节点宕机后无其他节点处理业务,二是单节点处理效率慢,单节点只能串行处理。第一种增加内存的方式还有另外一个弊端,是应用过于依赖硬件配置,第三种处理方式的另外一个弊端是依赖于内存数据库等中间件。
因此,如何对对账系统中的大文件进行分布式处理,以有效规避传统方案中硬件不足、处理效率慢等弊端,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的在于提供一种对账系统中的大文件分布式处理方法及装置,以解决上述技术背景中提出的问题。
为实现上述目的,本发明采用以下技术方案:
本申请第一个方面提供了一种对账系统中的大文件分布式处理方法,所述方法适用于包括文件服务器和N个节点的集群中,每个节点对应一个应用服务器,所述文件服务器为所述N个节点中的至少一个提供对账文件,所述N为大于等于1的正整数,所述方法包括:
将集群中各应用服务器所在的节点按照预设的编号规则进行编号;
所述文件服务器将至少一个对账文件按预设的分片策略进行逻辑分片,将逻辑分片后的文件按序分配至相应节点的缓存中;
每个节点从所述文件服务器中下载完整的对账文件,并将对账文件存储在本地,各节点根据当前节点的编号确定读取的相应的文件片,通过字节流的方式读取文件片,获取相应的文件片数据,直至完整的对账文件被节点全部读取成功;其中,读取的每一个文件片数据存储于一块连续内存中,包括一个起始位置的首字符、一个结束位置的结束符和位于首字符和结束符之间的至少一个换行符,所述换行符用于触发数据换行操作;
获取所述文件片数据,对所述文件片数据进行数据处理,包括:
A,计算所述文件片数据对应的尾换行符的索引位置,所述尾换行符为一个文件片数据中包含的最后一个换行符;判断该文件片数据的结束符是否为尾换行符,若是,则剔除尾换行符后面的字节流数据;若否,则再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中;
B,计算所述文件片数据对应的首换行符的索引位置,所述首换行符为一个文件片数据中包含的第一个换行符;判断该文件片数据的首字符是否为首换行符,若否,则直接剔除首换行符之前的字节流数据。
优选地,所述预设的编号规则包括:应用服务器所在节点IP的hash值对节点的数量取余,作为该节点的编号Qn,即Qn=IPn%N;其中,Qn为集群中第n个节点的编号,IPn为集群中第n个节点的节点IP值,N为集群中的节点数量。
优选地,所述编号的实现方式至少包括以下之一:
a)在应用服务器部署前进行编号;
b)在应用服务器启动后通过注册中心获取相应的节点IP后进行编号。
优选地,所述预设的分片策略包括:
获取节点的内存大小,取内存大小的预设比例作为文件片的大小;
将对账文件的大小除以文件片的大小,得到对账文件对应的分片数量,分片数量对应需要处理对账文件的节点数量;
其中,当需要的节点数量小于或等于真实部署的节点数量时,所述文件服务器对各节点进行直接分配,当需要的节点数量大于真实部署的节点数量时,所述文件服务器对各节点进行循环分配。
优选地,所述尾换行符的索引位置是文件片结束位置的大小减去尾换行符距离结束位置的差值。
优选地,所述方法还包括:所述文件片读取完毕后,将读取的信息保存至数据库的文件处理表中,所述文件处理表中保存的信息包括节点IP、节点编号、文件片开始的索引位置、文件片结束的索引位置、尾换行符的索引位置、处理状态、开始时间和结束时间中的任意一种或多种。
优选地,所述方法还包括:设置监控模块,监控模块包括守护线程,用于监控集群中各节点的文件处理过程,其中,
启动守护线程定时扫描各节点的文件处理过程,若所有分片任务均正常处理结束,则当前对账文件处理结束;若存在某个分片任务处理失败、或者当前节点的处理时间超过预设时间,则判定该分片任务处理失败,对于处理失败的任务由定时任务发起重新处理。
更优选地,所述方法还包括:若某个节点处理失败,则人工(或守护线程)修改该节点对应的编号,当守护线程扫描到符合该编号的当前节点的任务未成功时,发起重新解析;处理成功后,更新相应节点的状态信息。
本申请第二个方面提供了一种对账系统中的大文件分布式处理装置,所述装置适用于包括文件服务器和N个节点的集群中,每个节点对应一个应用服务器,所述文件服务器为所述N个节点中的至少一个提供对账文件,所述N为大于等于1的正整数,所述装置包括:
节点编号单元,用于将集群中各应用服务器所在的节点按照预设的编号规则进行编号;
逻辑分片单元,用于将所述文件服务器中存储的一个对账文件按预设的分片策略进行逻辑分片,将逻辑分片后的文件片按序分配至相应节点的缓存中;
文件片读取单元,用于每个节点从所述文件服务器中下载完整的对账文件,并将对账文件存储在本地,各节点根据当前节点的编号确定读取的相应的文件片,通过字节流的方式读取文件片,获取相应的文件片数据,直至完整的对账文件被节点全部读取成功;其中,读取的每一个文件片数据存储于一块连续内存中,包括一个起始位置的首字符、一个结束位置的结束符和位于首字符和结束符之间的至少一个换行符,所述换行符用于触发数据换行操作;
节点数据处理单元,用于获取所述文件片数据,对所述文件片数据进行数据处理,使逻辑分片后读取的数据中不存在不完整的行。
优选地,所述逻辑分片单元包括:
第一计算模块,用于获取节点的内存大小,取内存大小的预设比例作为文件片的大小;
第二计算模块,用于将对账文件的大小除以文件片的大小,得到对账文件对应的分片数量,分片数量对应需要处理对账文件的节点数量;
节点分配模块,用于判断当第二计算模块计算得到的分片数量小于或等于真实部署的节点数量时,所述文件服务器对各节点进行直接分配,当第二计算模块计算得到的分片数量大于真实部署的节点数量时,所述文件服务器对各节点进行循环分配。
更优选地,所述节点数据处理单元包括:
第一处理模块,用于计算所述文件片数据对应的尾换行符的索引位置,所述尾换行符为一个文件片数据中包含的最后一个换行符;判断该文件片数据的结束符是否为尾换行符,若是,则剔除尾换行符后面的字节流数据;若否,则再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中;
第二处理模块,用于计算所述文件片数据对应的首换行符的索引位置,所述首换行符为一个文件片数据中包含的第一个换行符;判断该文件片数据的首字符是否为首换行符,若否,则直接剔除首换行符之前的字节流数据。
优选地,所述装置还包括:监控模块,所述监控模块包括守护线程,用于监控集群中各节点的文件处理过程;其中,启动守护线程用于定时扫描各节点的文件处理过程,若所有分片任务均正常处理结束,则当前对账文件处理结束;若存在某个分片任务处理失败、或者当前节点的处理时间超过预设时间,则判定该分片任务处理失败,对于处理失败的任务由定时任务发起重新处理。
更优选地,所述装置还包括:故障转移处理模块,用于当某个节点处理失败时,人工修改该节点对应的编号,当守护线程扫描到符合该编号的当前节点的任务未成功时,发起重新解析;处理成功后,更新相应节点的状态信息。
与现有技术相比,本发明的技术方案具有以下有益效果:
本申请提供了一种对账系统中的大文件分布式处理方法及装置,对账文件处理采用集群部署,通过算法将对账文件分成若干块(即分片,逻辑划分,物理不划分),将逻辑分片后的文件内容分配到集群中相应的节点,各节点分别处理各自的任务,有效地规避传统方案中硬件不足、处理效率慢等弊端,让大文件的处理在硬件配置较低的虚拟机、或者云服务器上也能快速处理,便于应用程序的微服务化。另外,通过分布式改造后,彻底解决了单点不稳定的潜在风险。
附图说明
构成本申请的一部分附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明的大文件分布式处理方法应用的集群场景的实现方式示意图;
图2是本发明的大文件分布式处理方法的流程图;
图3是本发明的大文件分布式处理方法的文件分片实现方式示意图;
图4(a)~(c)是本发明的大文件分布式处理方法的分片读取后的字节流处理过程示意图;
图5是分片读取的字节流处理后的效果示例图;
图6是本发明的大文件分布式处理装置的结构框图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的数据在适当情况下可以互换。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一:
图1是本申请实施例应用集群的一种实现方式的示意图。
如图1所示,集群中可以包括文件服务器和多个节点,每个节点对应一个应用服务器。多个节点如图1中的对账应用节点1、对账应用节点2、对账应用节点3、……、对账应用节点N,N为大于等于1的正整数。文件服务器用于向集群中的多个节点提供逻辑分片后的对账文件。
各节点可以是具有处理功能的设备,例如可以包括当前技术已知的任何计算设备,如服务器、台式计算机等等。节点中可以包括存储器和处理器。存储器可以用于存储程序代码,例如,操作系统以及其他应用程序。处理器可以用于调用存储器存储的程序代码,以实现节点的相应功能。节点中包括的处理器和存储器可以通过芯片实现,此处不作具体的限定。
如图2所示,本申请的大文件分布式处理方法,包括如下步骤:
步骤S1,对集群中各应用服务器所在的节点按照预设的编号规则进行编号,通过编号进行分片。
对应用部署所在的节点进行编号,编号规则为:应用服务器所在节点IP的hash值对节点的数量取余,作为该节点的编号Qn,即Qn=IPn%N;其中,Qn为集群中第n个节点的编号,n≤N,IPn为集群中第n个节点的节点IP值,N为集群中的节点数量。
对账系统启动时,对各个节点进行编号(0、1、2、……、QN),编号的实现方式有多种,可以在应用部署前进行编号,也可以在应用启动后通过注册中心获取相应的IP后进行编号。如果把集群部署的对账系统看作一个完整的系统,那么编号的过程可以看作为对对账系统进行分片,那么针对对账文件的读取也需要进行相匹配的分片处理。
步骤S2,所述文件服务器将至少一个对账文件按预设的分片策略进行逻辑分片,将逻辑分片后的文件按序分配至相应节点的缓存中。
首先,获取节点的内存大小,取内存大小的预设比例作为文件片的大小。假设,节点的内存大小为m(单位:g),预设比例取内存大小的1/2(该值可以根据实际情况进行适当调整),则节点每次读取的文件的大小为:m/2。
获取对账文件的总大小,将对账文件的大小除以文件片的大小,得到对账文件对应的分片数量。假设对账文件的总大小为v(单位:g),则进行分片后,对账文件对应的分片数量为:v/m/2(2v/m)。分片数量对应需要处理对账文件的节点数量,当需要的节点数量小于或等于真实部署的节点数量时,所述文件服务器对各节点进行直接分配,当需要的节点数量大于真实部署的节点数量时,所述文件服务器对各节点进行循环分配。
对账处理时,每个节点从文件服务器中拉取完整的对账文件,并将对账文件存储在本地。应用服务器在读取对账文件时,根据当前节点的编号对对账文件进行分片读取,读取的情况如下:
分片时需要将文件分片索引转化为byte,定义为b,b=m*1024*1024*1024;
编号为0的节点读取的文件片为:[0,(b/2)*1];
编号为1的节点读取的文件片为:[(b/2)*1+1,(b/2)*2];
编号为2的节点读取的文件片为:[(b/2)*2+1,(b/2)*3];
……
编号为N的节点读取的文件片为:[(b/2)*QN+1,(b/2)*(QN+1)];
当(b/2)*(QN+1)>=v*1024*1024*1024时取v。
对对账文件进行分片的实现方式参阅图3的示例图。
步骤S3,各节点通过字节流的方式读取相应的文件片。
文件分片完成后,就可以读取相应的文件片数据,应用程序读取文件片时通过字节流读取,故对文件进行逻辑分片后,可以保证应用节点读取分片后的文件读取不会重复、不会遗漏。当所有节点都处理成功后,则完整文件的处理亦成功。
步骤S4,文件片读取后,对获取的文件片数据进行数据处理,使读取的数据中不存在不完整的行。
通过字节流读取文件时,会定义一段缓冲区(比如1024字节)读取文件内容。由于本申请是逻辑分片,处理真实的对账文件时,一条完整的业务交易都是通过换行符(特殊场景下可以用其他字符来区分)来区分,在逻辑分片后读取的文件中会存在不完整的行,对这样的数据需要进行额外的处理。
其中,读取的每一个文件片数据存储于一块连续内存中,包括一个起始位置的首字符、一个结束位置的结束符和位于首字符和结束符之间的至少一个换行符,所述换行符用于触发数据换行操作。
对所述文件片数据进行数据处理,具体包括如下步骤:
A,记录所述文件片数据对应的尾换行符的索引位置,所述尾换行符的索引位置是文件片结束位置的大小减去尾换行符距离结束位置的差值,所述尾换行符为一个文件片数据中包含的最后一个换行符。判断该文件片数据的结束符是否为尾换行符,若是,则剔除尾换行符后面的字节流数据;若否,则再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中;
B,记录所述文件片数据对应的首换行符的索引位置,所述首换行符为一个文件片数据中包含的第一个换行符。判断该文件片数据的首字符是否为首换行符,若否,则直接剔除首换行符之前的字节流数据,并且将读取信息记录到数据库便于后续进行监控、故障转移等其他处理。处理完毕后即可将相应的字节流数据转换为业务对象数据进行对账剩余处理。
图4(a)~图4(c)均为一个文件片读取后的字节流处理过程示例图。
参阅图4(a)所示,该分片读取的字节流数据包括一个首字符、一个结束符,以及位于首字符和结束符之间的三个换行符,三个换行符将所述首字符和所述结束符之间的字节流数据分割成四行数据。其中,第一行数据不是完整的行,第二行数据、第三行数据为完整的行,第四行数据不是完整的行。第一个换行符位于第一行数据的末尾,称为首换行符,表示该字节流数据的第一个换行符;第二个换行符位于第二行数据的末尾;第三个换行符位于第三行数据的末尾,而第四行数据不是完整的行,因此,第三个换行符为尾换行符,表示该字节流数据的最后一个换行符。
根据上述数据处理的步骤A,该文件片的结束符位于第四行数据,且不是尾换行符,为了保证读取的是完整的行数据,则需要再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,即读到与该文件片紧邻的下一个文件片数据的第一个换行符位置,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中,以使得该文件片的第四行数据是一个完整的行。
根据上述数据处理的步骤B,该文件片的首字符位于第一行数据,且不是首换行符,为了保证读取的是完整的行数据,则需要剔除首换行符之前的字节流。
字节流处理后的效果图参阅图5。
同理,参阅图4(b)所示,该分片读取的字节流数据包括一个首字符、一个结束符,以及位于首字符和结束符之间的两个换行符,两个换行符将所述首字符和所述结束符之间的字节流数据分割成三行数据。其中,第一行数据、第二行数据是完整的行,第三行数据不是完整的行。
根据上述数据处理的步骤A和步骤B,该文件片的结束符位于第三行数据,且不是尾换行符,为了保证读取的是完整的行数据,则需要再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,即读到与该文件片紧邻的下一个文件片数据的第一个换行符位置,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中,以使得该文件片的第三行数据是一个完整的行。该文件片的第一行数据是完整的行,首字符即为首换行符,无需进行处理。
同理,参阅图4(c)所示,该分片读取的字节流数据包括一个首字符、一个结束符,以及位于首字符和结束符之间的两个换行符,两个换行符将所述首字符和所述结束符之间的字节流数据分割成三行数据。其中,第一行数据不是完整的行,第二行数据、第三行数据是完整的行。第一个换行符位于第一行数据的末尾,称为首换行符,表示该字节流数据的第一个换行符;第二个换行符位于第二行数据的末尾;第三行数据是完整的行,结束符即为最后一个换行符,即结束符为尾换行符。
根据上述数据处理的步骤A和步骤B,该文件片的结束符为尾换行符,直接剔除尾换行符后面的字节流数据。该文件片的首字符不是首换行符,直接剔除首换行符之前的字节流数据。
上述文件片读取完毕后,需要将读取的信息保存至数据库的文件处理表中,所述文件处理表中保存的信息包括节点IP、节点编号、文件片开始的索引位置、文件片结束的索引位置、尾换行符的索引位置、处理状态、开始时间和结束时间等。
在一种优选实施例中,所述方法还包括:监控、故障转移处理,具体包括:
文件处理业务监控:应用中开启守护线程,定时扫描数据库存储的文件处理表,若所有分片任务均正常处理结束,则当前文件处理结束,若处理失败、或者当前节点在预设时间(例如,30分钟,该时间可根据当前文件处理时间进行调整)内未处理完毕,则判定该分片任务处理失败,对于处理失败的任务可以由定时任务发起重新处理。
故障转移处理:若某个节点处理失败,且判定当前应用不可用(其他技术手段比如健康检查),则人工(或守护线程)修改该节点对应的编号,当守护线程扫描到符合该编号的当前节点的任务未成功时,发起重新解析;处理成功后,更新相应节点的状态信息。这里,守护线程也可以直接修改编号,守护线程修改属于系统处理,人工修改属于人工介入。
实施例二:
参阅图6所示,本申请还提供了一种对账系统中的大文件分布式处理装置,所述装置适用于包括文件服务器和N个节点的集群中,每个节点对应一个应用服务器,所述文件服务器为所述N个节点中的至少一个提供对账文件,所述N为大于等于1的正整数,所述装置包括:
节点编号单元100,用于将集群中各应用服务器所在的节点按照预设的编号规则进行编号;
逻辑分片单元200,用于将所述文件服务器中存储的一个对账文件按预设的分片策略进行逻辑分片,将逻辑分片后的文件片按序分配至相应节点的缓存中;
文件片读取单元300,用于每个节点从所述文件服务器中下载完整的对账文件,并将对账文件存储在本地,各节点根据当前节点的编号确定读取的相应的文件片,通过字节流的方式读取文件片,获取相应的文件片数据,直至完整的对账文件被节点全部读取成功;其中,读取的每一个文件片数据存储于一块连续内存中,包括一个起始位置的首字符、一个结束位置的结束符和位于首字符和结束符之间的至少一个换行符,所述换行符用于触发数据换行操作;
节点数据处理单元400,用于获取所述文件片数据,对所述文件片数据进行数据处理,使逻辑分片后读取的数据中不存在不完整的行。
上述的逻辑分片单元200包括:
第一计算模块201,用于获取节点的内存大小,取内存大小的预设比例作为文件片的大小;
第二计算模块202,用于将对账文件的大小除以文件片的大小,得到对账文件对应的分片数量,分片数量对应需要处理对账文件的节点数量;
节点分配模块203,用于判断当第二计算模块202计算得到的分片数量小于或等于真实部署的节点数量时,所述文件服务器对各节点进行直接分配,当第二计算模块202计算得到的分片数量大于真实部署的节点数量时,所述文件服务器对各节点进行循环分配。
上述的节点数据处理单元400包括:
第一处理模块401,用于计算所述文件片数据对应的尾换行符的索引位置,所述尾换行符为一个文件片数据中包含的最后一个换行符;判断该文件片数据的结束符是否为尾换行符,若是,则剔除尾换行符后面的字节流数据;若否,则再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中;
第二处理模块402,用于计算所述文件片数据对应的首换行符的索引位置,所述首换行符为一个文件片数据中包含的第一个换行符;判断该文件片数据的首字符是否为首换行符,若否,则直接剔除首换行符之前的字节流数据。
在一种优选实施例中,所述装置还包括:监控模块和故障转移处理模块;其中,所述监控模块包括守护线程,用于监控集群中各节点的文件处理过程;其中,启动守护线程用于定时扫描各节点的文件处理过程,若所有分片任务均正常处理结束,则当前对账文件处理结束;若存在某个分片任务处理失败、或者当前节点的处理时间超过预设时间,则判定该分片任务处理失败,对于处理失败的任务由定时任务发起重新处理。所述故障转移处理模块,用于当某个节点处理失败时,人工(或守护线程)修改该节点对应的编号,当守护线程扫描到符合该编号的当前节点的任务未成功时,发起重新解析;处理成功后,更新相应节点的状态信息。
综上所述,本申请提供了一种对账系统中的大文件分布式处理方法及装置,对账文件处理采用集群部署,通过算法将对账文件分成若干块(即分片,逻辑划分,物理不划分),将逻辑分片后的文件内容分配到集群中相应的节点,各节点分别处理各自的任务。渠道对账在使用该本申请的技术方案进行分布式改造后,显著提升了文件处理效率,有效地解决了单机内存不够的问题,让大文件的处理在硬件配置较低的虚拟机、或者云服务器上也能快速处理,便于应用程序的微服务化。另外,通过分布式改造后,彻底解决了单点不稳定的潜在风险。
以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。

Claims (10)

1.对账系统中的大文件分布式处理方法,所述方法适用于包括文件服务器和N个节点的集群中,每个节点对应一个应用服务器,所述文件服务器为所述N个节点中的至少一个提供对账文件,所述N为大于等于1的正整数;其特征在于,所述方法包括:
将集群中各应用服务器所在的节点按照预设的编号规则进行编号;
所述文件服务器将至少一个对账文件按预设的分片策略进行逻辑分片,将逻辑分片后的文件按序分配至相应节点的缓存中;
每个节点从所述文件服务器中下载完整的对账文件,并将对账文件存储在本地,各节点根据当前节点的编号确定读取的相应的文件片,通过字节流的方式读取文件片,获取相应的文件片数据,直至完整的对账文件被节点全部读取成功;其中,读取的每一个文件片数据存储于一块连续内存中,包括一个起始位置的首字符、一个结束位置的结束符和位于首字符和结束符之间的至少一个换行符,所述换行符用于触发数据换行操作;
获取所述文件片数据,对所述文件片数据进行数据处理,包括:
A,计算所述文件片数据对应的尾换行符的索引位置,所述尾换行符为一个文件片数据中包含的最后一个换行符;判断该文件片数据的结束符是否为尾换行符,若是,则剔除尾换行符后面的字节流数据;若否,则再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中;
B,计算所述文件片数据对应的首换行符的索引位置,所述首换行符为一个文件片数据中包含的第一个换行符;判断该文件片数据的首字符是否为首换行符,若否,则直接剔除首换行符之前的字节流数据。
2.根据权利要求1所述的对账系统中的大文件分布式处理方法,其特征在于,所述预设的编号规则包括:应用服务器所在节点IP的hash值对节点的数量取余,作为该节点的编号Qn,即Qn=IPn%N;其中,Qn为集群中第n个节点的编号,IPn为集群中第n个节点的节点IP值,N为集群中的节点数量。
3.根据权利要求1所述的对账系统中的大文件分布式处理方法,其特征在于,所述预设的分片策略包括:
获取节点的内存大小,取内存大小的预设比例作为文件片的大小;
将对账文件的大小除以文件片的大小,得到对账文件对应的分片数量,分片数量对应需要处理对账文件的节点数量;
其中,当需要的节点数量小于或等于真实部署的节点数量时,所述文件服务器对各节点进行直接分配,当需要的节点数量大于真实部署的节点数量时,所述文件服务器对各节点进行循环分配。
4.根据权利要求1所述的对账系统中的大文件分布式处理方法,其特征在于,所述方法还包括:设置监控模块,监控模块包括守护线程,用于监控集群中各节点的文件处理过程,其中,
启动守护线程定时扫描各节点的文件处理过程,若所有分片任务均正常处理结束,则当前对账文件处理结束;若存在某个分片任务处理失败、或者当前节点的处理时间超过预设时间,则判定该分片任务处理失败,对于处理失败的任务由定时任务发起重新处理。
5.根据权利要求4所述的对账系统中的大文件分布式处理方法,其特征在于,所述方法还包括:若某个节点处理失败,则人工或守护线程修改该节点对应的编号,当守护线程扫描到符合该编号的当前节点的任务未成功时,发起重新解析;处理成功后,更新相应节点的状态信息。
6.对账系统中的大文件分布式处理装置,所述装置适用于包括文件服务器和N个节点的集群中,每个节点对应一个应用服务器,所述文件服务器为所述N个节点中的至少一个提供对账文件,所述N为大于等于1的正整数;其特征在于,所述装置包括:
节点编号单元,用于将集群中各应用服务器所在的节点按照预设的编号规则进行编号;
逻辑分片单元,用于将所述文件服务器中存储的一个对账文件按预设的分片策略进行逻辑分片,将逻辑分片后的文件片按序分配至相应节点的缓存中;
文件片读取单元,用于每个节点从所述文件服务器中下载完整的对账文件,并将对账文件存储在本地,各节点根据当前节点的编号确定读取的相应的文件片,通过字节流的方式读取文件片,获取相应的文件片数据,直至完整的对账文件被节点全部读取成功;其中,读取的每一个文件片数据存储于一块连续内存中,包括一个起始位置的首字符、一个结束位置的结束符和位于首字符和结束符之间的至少一个换行符,所述换行符用于触发数据换行操作;
节点数据处理单元,用于获取所述文件片数据,对所述文件片数据进行数据处理,使逻辑分片后读取的数据中不存在不完整的行。
7.根据权利要求6所述的对账系统中的大文件分布式处理装置,其特征在于,所述逻辑分片单元包括:
第一计算模块,用于获取节点的内存大小,取内存大小的预设比例作为文件片的大小;
第二计算模块,用于将对账文件的大小除以文件片的大小,得到对账文件对应的分片数量,分片数量对应需要处理对账文件的节点数量;
节点分配模块,用于判断当第二计算模块计算得到的分片数量小于或等于真实部署的节点数量时,所述文件服务器对各节点进行直接分配,当第二计算模块计算得到的分片数量大于真实部署的节点数量时,所述文件服务器对各节点进行循环分配。
8.根据权利要求6所述的对账系统中的大文件分布式处理装置,其特征在于,所述节点数据处理单元包括:
第一处理模块,用于计算所述文件片数据对应的尾换行符的索引位置,所述尾换行符为一个文件片数据中包含的最后一个换行符;判断该文件片数据的结束符是否为尾换行符,若是,则剔除尾换行符后面的字节流数据;若否,则再次读取对账文件,从该尾换行符的索引位置往后读,读到下一个换行符后结束,再将此次重新读取的字节流数据合并到先前分片读取的字节流数据中;
第二处理模块,用于计算所述文件片数据对应的首换行符的索引位置,所述首换行符为一个文件片数据中包含的第一个换行符;判断该文件片数据的首字符是否为首换行符,若否,则直接剔除首换行符之前的字节流数据。
9.根据权利要求6所述的对账系统中的大文件分布式处理装置,其特征在于,所述装置还包括:监控模块,所述监控模块包括守护线程,用于监控集群中各节点的文件处理过程;其中,启动守护线程用于定时扫描各节点的文件处理过程,若所有分片任务均正常处理结束,则当前对账文件处理结束;若存在某个分片任务处理失败、或者当前节点的处理时间超过预设时间,则判定该分片任务处理失败,对于处理失败的任务由定时任务发起重新处理。
10.根据权利要求9所述的对账系统中的大文件分布式处理装置,其特征在于,所述装置还包括:故障转移处理模块,用于当某个节点处理失败时,人工或守护线程修改该节点对应的编号,当守护线程扫描到符合该编号的当前节点的任务未成功时,发起重新解析;处理成功后,更新相应节点的状态信息。
CN202111102977.0A 2021-09-18 2021-09-18 对账系统中的大文件分布式处理方法及装置 Pending CN114020716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111102977.0A CN114020716A (zh) 2021-09-18 2021-09-18 对账系统中的大文件分布式处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111102977.0A CN114020716A (zh) 2021-09-18 2021-09-18 对账系统中的大文件分布式处理方法及装置

Publications (1)

Publication Number Publication Date
CN114020716A true CN114020716A (zh) 2022-02-08

Family

ID=80054724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111102977.0A Pending CN114020716A (zh) 2021-09-18 2021-09-18 对账系统中的大文件分布式处理方法及装置

Country Status (1)

Country Link
CN (1) CN114020716A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117118939A (zh) * 2023-10-24 2023-11-24 腾讯科技(深圳)有限公司 一种数据处理方法,装置、设备以及存储介质
CN117251120A (zh) * 2023-11-17 2023-12-19 杭州乒乓智能技术有限公司 基于jvm堆外内存的对账系统优化方法、装置、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117118939A (zh) * 2023-10-24 2023-11-24 腾讯科技(深圳)有限公司 一种数据处理方法,装置、设备以及存储介质
CN117118939B (zh) * 2023-10-24 2024-01-30 腾讯科技(深圳)有限公司 一种数据处理方法,装置、设备以及存储介质
CN117251120A (zh) * 2023-11-17 2023-12-19 杭州乒乓智能技术有限公司 基于jvm堆外内存的对账系统优化方法、装置、设备及介质
CN117251120B (zh) * 2023-11-17 2024-03-01 杭州乒乓智能技术有限公司 基于jvm堆外内存的对账系统优化方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109345388B (zh) 区块链智能合约验证方法、装置及存储介质
CN114020716A (zh) 对账系统中的大文件分布式处理方法及装置
US9690813B2 (en) Tunable hardware sort engine for performing composite sorting algorithms
CN112860741B (zh) 数据的抽样检测方法、装置、设备及存储介质
CN111526218B (zh) 联盟链中的共识方法和系统
CN109325034B (zh) 数据处理方法、装置、计算机设备及存储介质
CN110532237B (zh) 格式数据文件的并发处理方法、装置及系统
CN109471843B (zh) 一种元数据缓存方法、系统及相关装置
US20170147597A1 (en) Quality score compression for improving downstream genotyping accuracy
CN111651789B (zh) 一种基于扫描系统的多线程安全批量反馈的方法及装置
CN112667656A (zh) 交易数据的处理方法、装置、计算机设备和存储介质
CN111539206B (zh) 一种确定敏感信息的方法、装置、设备及存储介质
CN111783918B (zh) 一种安全的二维码分发方法及系统
DE112021000455T5 (de) Deep packet analyse
CN106375490B (zh) Ip信息匹配与扩展方法
CN111680303A (zh) 漏洞扫描方法、装置、存储介质及电子设备
CN113722357B (zh) 数据文件校验方法、装置、电子设备及存储介质
CN114119242A (zh) 基于自适应窗口分片的联盟链性能优化方法及装置
US9268879B2 (en) Hardware projection of fixed and variable length columns of database tables
CN111625505A (zh) 一种文件拆分方法及装置
CN113194330A (zh) 一种碎片化多云视频资源管理方法及系统
CN111464581A (zh) 一种面向广告机的多媒体文件分布式分发方法
CN113704176B (zh) 文件扫描方法、装置、电子设备及存储介质
US20170039212A1 (en) Method and system for managing client data replacement
CN112433743B (zh) 一种文件更新方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination