CN110516124A - 一种文件解析方法、装置和计算机可读存储介质 - Google Patents

一种文件解析方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN110516124A
CN110516124A CN201910736566.3A CN201910736566A CN110516124A CN 110516124 A CN110516124 A CN 110516124A CN 201910736566 A CN201910736566 A CN 201910736566A CN 110516124 A CN110516124 A CN 110516124A
Authority
CN
China
Prior art keywords
separator
file
target line
line data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910736566.3A
Other languages
English (en)
Other versions
CN110516124B (zh
Inventor
刘松伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Jinan data Technology Co ltd
Original Assignee
Inspur Jinan data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Jinan data Technology Co ltd filed Critical Inspur Jinan data Technology Co ltd
Priority to CN201910736566.3A priority Critical patent/CN110516124B/zh
Publication of CN110516124A publication Critical patent/CN110516124A/zh
Application granted granted Critical
Publication of CN110516124B publication Critical patent/CN110516124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文件解析方法、装置和计算机可读存储介质,获取待解析文件所对应的分隔符;待解析文件包含有多行数据,每行数据处理方式类似,以所有有效行数据中的任意一个行数据即目标行数据为例,判断目标行数据是否以数字加分隔符加数字的形式结尾。若是,则按照分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。目标行数据的结尾形式相对固定,通过对目标行数据的结尾形式进行检测,即使当目标行数据的文件主题中包含有与分隔符相同的符号,也不会导致文件识别出现异常,保证了开源组件的稳定运行。

Description

一种文件解析方法、装置和计算机可读存储介质
技术领域
本发明涉及数据存储技术领域,特别是涉及一种文件解析方法、装置和计算机可读存储介质。
背景技术
开源组件kafka对文件主题(topic)的分区值(partition)的偏移量(offset)存储策略是在恢复点偏移量检查点(recovery-point-offset-checkpoint)文件中记录着topic已经被写入磁盘的offset,复制偏移量检查点(replication-offset-checkpoint)文件中记录着已经被复制到别的topic上的文件信息。
现有技术中,topic、partition、offset三者的信息是以空格为分隔符写入到上述的两个偏移量检查点文件中,每一行存储一条topic的分区值的偏移量信息。对于文件的解析策略是读取recovery-point-offset-checkpoint和replication-offset-checkpoint两个文件内容的第一行作为version,第二行作为topic信息的总行数,剩余的每一行按照空格分隔得到字符串数组的长度不等于3就抛出异常,等于3时就将分割出来的第一个字符串作为topic,第二个字符串作为该topic的分区值,第三个字符串作为该分区值的偏移量。
这样的存储解析策略会导致当kafka的topic名称中有空格存在时,kafka服务器在解析偏移量检查点文件时发生分割后的字符串数组长度不等于3,进而出现异常,导致带空格的topic不能正常使用,进而影响开源组件kafka运行的稳定性。
可见,如何提升开源组件运行的稳定性,是本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种文件解析方法、装置和计算机可读存储介质,可以提升开源组件运行的稳定性。
为解决上述技术问题,本发明实施例提供一种文件解析方法,包括:
获取待解析文件所对应的分隔符;
判断所述待解析文件中目标行数据是否以数字加所述分隔符加数字的形式结尾;其中,所述目标行数据为所述待解析文件中所有有效行数据中的任意一个行数据;
若是,则按照所述分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题。
可选的,在所述获取待解析文件所对应的分隔符之前还包括:
接收用户输入的分隔符;
将同一个文件的文件主题、分区值和偏移量按照所述分隔符进行串接,并记录所述文件与所述分隔符的对应关系;
相应的,所述获取待解析文件所对应的分隔符包括:
从对应关系中查找所述待解析文件所对应的分隔符。
可选的,在所述接收用户输入的分隔符之后还包括:
判断所述文件主题中是否存在与所述分隔符相匹配的字符;
若是,则展示更换分隔符的提示信息。
可选的,还包括:
当所述目标行数据不是以数字加所述分隔符加数字的形式结尾时,则展示文件异常的提示信息。
可选的,所述按照所述分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题包括:
按照正则匹配,确定出所述分隔符在所述目标行数据中最后一次出现的第一位置,以及倒数第二次出现的第二位置;
将所述目标行数据中与所述第一位置相邻的后一个元素作为偏移量,与所述第一位置相邻的前一个元素作为分区值;
从所述目标行数据中截取出起始位置至所述第二位置的元素作为文件主题。
本发明实施例还提供了一种文件解析装置,包括获取单元、判断单元和分割单元;
所述获取单元,用于获取待解析文件所对应的分隔符;
所述判断单元,用于判断所述待解析文件中目标行数据是否以数字加所述分隔符加数字的形式结尾;其中,所述目标行数据为所述待解析文件中所有有效行数据中的任意一个行数据;若是,则触发所述分割单元;
所述分割单元,用于按照所述分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题。
可选的,还包括接收单元、串接单元和记录单元;
所述接收单元,用于接收用户输入的分隔符;
所述串接单元,用于将同一个文件的文件主题、分区值和偏移量按照所述分隔符进行串接;
所述记录单元,用于记录所述文件与所述分隔符的对应关系;
相应的,所述获取单元具体用于从对应关系中查找所述待解析文件所对应的分隔符。
可选的,还包括匹配单元和提示单元;
所述匹配单元,用于在所述接收用户输入的分隔符之后,判断所述文件主题中是否存在与所述分隔符相匹配的字符;若是,则触发所述提示单元;
所述提示单元,用于展示更换分隔符的提示信息。
可选的,还包括展示单元;
所述展示单元,用于当所述目标行数据不是以数字加所述分隔符加数字的形式结尾时,则展示文件异常的提示信息。
可选的,所述分割单元包括确定子单元、作为子单元和截取子单元;
所述确定子单元,用于按照正则匹配,确定出所述分隔符在所述目标行数据中最后一次出现的第一位置,以及倒数第二次出现的第二位置;
所述作为子单元,用于将所述目标行数据中与所述第一位置相邻的后一个元素作为偏移量,与所述第一位置相邻的前一个元素作为分区值;
所述截取子单元,用于从所述目标行数据中截取出起始位置至所述第二位置的元素作为文件主题。
本发明实施例还提供了一种文件解析装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述文件解析方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述文件解析方法的步骤。
由上述技术方案可以看出,获取待解析文件所对应的分隔符;待解析文件包含有多行数据,每行数据处理方式类似,以所有有效行数据中的任意一个行数据即目标行数据为例,判断目标行数据是否以数字加分隔符加数字的形式结尾。当目标行数据是以数字加分隔符加数字的形式结尾时,则说明目标行数据不存在形式错误,此时可以按照分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。目标行数据的结尾形式相对固定,通过对目标行数据的结尾形式进行检测,即使当目标行数据的文件主题中包含有与分隔符相同的符号,也不会导致文件识别出现异常,保证了开源组件的稳定运行。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文件解析方法的流程图;
图2为本发明实施例提供的一种文件解析方法装置的结构示意图;
图3为本发明实施例提供的一种文件解析方法装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种文件解析方法。图1为本发明实施例提供的一种文件解析方法的流程图,该方法包括:
S101:获取待解析文件所对应的分隔符。
在实际应用中,可以由用户指定或者按照系统默认的字符作为recovery-point-offset-checkpoint和replication-offset-checkpoint两个文件记录信息所用到的分隔符。
不同的文件所使用的分隔符的类型可能相同也可能不同。在对待解析文件进行解析之前,需要先获知待解析文件所使用的分隔符。
S102:判断待解析文件中目标行数据是否以数字加分隔符加数字的形式结尾。
待解析文件是以行数据的形式存储,文件的第一个行数据表示文件的版本(version);第二个行数据表示文件的总行数;剩下的每一行数据均是按照文件主题、分区值和偏移量的顺序排列,并且文件主题、分区值和偏移量两两之间设置有分隔符。
对待解析文件进行解析操作主要是对每个行数据的文件主题、分区值和偏移量进行拆分。在本发明实施例中,可以将文件中除第一个行数据和第二个行数据之外的行数据均称作有效行数据。
每个有效行数据的处理方式类似,在本发明实施例中,以所有有效行数据中的任意一个行数据即目标行数据为例展开介绍。
考虑到分区值和偏移量均以数字形式呈现,因此目标行数据的结尾方式相对固定,按照分区值加分隔符加偏移量的形式结尾。当确定出待解析文件对应的分隔符之后,为了确保目标行数据的形式正确,可以判断待解析文件中目标行数据是否以数字加分隔符加数字的形式结尾。
当目标行数据是以数字加分隔符加数字的形式结尾时,则可以确定目标行数据不存在形式错误,此时可以按照分隔符对目标行数据进行分割即执行S103。
S103:按照分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。
在实际应用中,文件主题中可能会包含有与分隔符相同的字符,而偏移量和分区值是以数字的形式呈现,在偏移量和分区值中不会携带有分隔符,因此,在对目标行数据进行分割时,可以按照正则匹配,确定出分隔符在目标行数据中最后一次出现的第一位置,以及倒数第二次出现的第二位置;将目标行数据中与第一位置相邻的后一个元素作为偏移量,与第一位置相邻的前一个元素作为分区值;从目标行数据中截取出起始位置至第二位置的元素作为文件主题。
例如:待解析文件的分隔符为“,”;offset-checkpoint文件解析器通过正则匹配的方式判断目标行数据是否是以“数字,数字”的方式结尾,目标行数据满足条件后,以“,”为分隔符分割该目标行数据得到一个字符串数组str,然后topic的分区partition=str[str.length-2],topic的分区的偏移量offset=str[str.length-1]。通过正则匹配的方式找出分隔符倒数第二次出现的位置为location,topic的名称name=line.substring(0,location),其中line表示初始位置至location之间的字符串。
由上述技术方案可以看出,获取待解析文件所对应的分隔符;待解析文件包含有多行数据,每行数据处理方式类似,以所有有效行数据中的任意一个行数据即目标行数据为例,判断目标行数据是否以数字加分隔符加数字的形式结尾。当目标行数据是以数字加分隔符加数字的形式结尾时,则说明目标行数据不存在形式错误,此时可以按照分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。目标行数据的结尾形式相对固定,通过对目标行数据的结尾形式进行检测,即使当目标行数据的文件主题中包含有与分隔符相同的符号,也不会导致文件识别出现异常,保证了开源组件的稳定运行。
当目标行数据不是以数字加分隔符加数字的形式结尾时,则说明目标行数据存在异常,为了便于用户及时对异常数据进行处理,可以展示文件异常的提示信息。
用户根据文件异常的提示信息可以快速锁定异常的行数据,从而对异常的行数据进行修改或删除等操作,降低了数据异常对后续工作的影响。
在本发明实施例中,为了提升用户体验,可以由用户根据需求自动设定文件的分隔符,开源组件在接收到用户输入的分隔符之后,将同一个文件的文件主题、分区值和偏移量按照分隔符进行串接,并记录文件与分隔符的对应关系。相应的,在需要对待解析文件进行解析时,则可以从对应关系中查找待解析文件所对应的分隔符。
为了降低文件主题中包含有与分隔符相同的字符,导致文件解析时划分出多个字符串,在本发明实施例中,在用户选择文件的分隔符时可以对分隔符的类型进行判断。具体的,可以判断文件主题中是否存在与分隔符相匹配的字符。
当文件主题中存在与分隔符相匹配的字符,则展示更换分隔符的提示信息。
用户看到更换分隔符的提示信息之后,可以重新选择分隔符的类型。当然,用户也可以根据需求不对分隔符进行更换,按照图1所述的方式也可以完成待解析文件的解析工作。
在实际应用中,开源组件可以向用户展示候选分隔符,该候选分隔符不会与文件主题匹配,以便于用户可以快速选择出合适的分隔符。
图2为本发明实施例提供的一种文件解析装置的结构示意图,包括获取单元21、判断单元22和分割单元23;
获取单元21,用于获取待解析文件所对应的分隔符;
判断单元22,用于判断待解析文件中目标行数据是否以数字加分隔符加数字的形式结尾;其中,目标行数据为待解析文件中所有有效行数据中的任意一个行数据;若是,则触发分割单元23;
分割单元23,用于按照分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。
可选的,还包括接收单元、串接单元和记录单元;
接收单元,用于接收用户输入的分隔符;
串接单元,用于将同一个文件的文件主题、分区值和偏移量按照分隔符进行串接;
记录单元,用于记录文件与分隔符的对应关系;
相应的,获取单元具体用于从对应关系中查找待解析文件所对应的分隔符。
可选的,还包括匹配单元和提示单元;
匹配单元,用于在接收用户输入的分隔符之后,判断文件主题中是否存在与分隔符相匹配的字符;若是,则触发提示单元;
提示单元,用于展示更换分隔符的提示信息。
可选的,还包括展示单元;
展示单元,用于当目标行数据不是以数字加分隔符加数字的形式结尾时,则展示文件异常的提示信息。
可选的,分割单元包括确定子单元、作为子单元和截取子单元;
确定子单元,用于按照正则匹配,确定出分隔符在目标行数据中最后一次出现的第一位置,以及倒数第二次出现的第二位置;
作为子单元,用于将目标行数据中与第一位置相邻的后一个元素作为偏移量,与第一位置相邻的前一个元素作为分区值;
截取子单元,用于从目标行数据中截取出起始位置至第二位置的元素作为文件主题。
图2所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,获取待解析文件所对应的分隔符;待解析文件包含有多行数据,每行数据处理方式类似,以所有有效行数据中的任意一个行数据即目标行数据为例,判断目标行数据是否以数字加分隔符加数字的形式结尾。当目标行数据是以数字加分隔符加数字的形式结尾时,则说明目标行数据不存在形式错误,此时可以按照分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。目标行数据的结尾形式相对固定,通过对目标行数据的结尾形式进行检测,即使当目标行数据的文件主题中包含有与分隔符相同的符号,也不会导致文件识别出现异常,保证了开源组件的稳定运行。
图3为本发明实施例提供的一种文件解析装置30的硬件结构示意图,包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序以实现如上述任意一项文件解析方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项文件解析方法的步骤。
以上对本发明实施例所提供的一种文件解析方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (10)

1.一种文件解析方法,其特征在于,包括:
获取待解析文件所对应的分隔符;
判断所述待解析文件中目标行数据是否以数字加所述分隔符加数字的形式结尾;其中,所述目标行数据为所述待解析文件中所有有效行数据中的任意一个行数据;
若是,则按照所述分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题。
2.根据权利要求1所述的方法,其特征在于,在所述获取待解析文件所对应的分隔符之前还包括:
接收用户输入的分隔符;
将同一个文件的文件主题、分区值和偏移量按照所述分隔符进行串接,并记录所述文件与所述分隔符的对应关系;
相应的,所述获取待解析文件所对应的分隔符包括:
从对应关系中查找所述待解析文件所对应的分隔符。
3.根据权利要求2所述的方法,其特征在于,在所述接收用户输入的分隔符之后还包括:
判断所述文件主题中是否存在与所述分隔符相匹配的字符;
若是,则展示更换分隔符的提示信息。
4.根据权利要求1所述的方法,其特征在于,还包括:
当所述目标行数据不是以数字加所述分隔符加数字的形式结尾时,则展示文件异常的提示信息。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述按照所述分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题包括:
按照正则匹配,确定出所述分隔符在所述目标行数据中最后一次出现的第一位置,以及倒数第二次出现的第二位置;
将所述目标行数据中与所述第一位置相邻的后一个元素作为偏移量,与所述第一位置相邻的前一个元素作为分区值;
从所述目标行数据中截取出起始位置至所述第二位置的元素作为文件主题。
6.一种文件解析装置,其特征在于,包括获取单元、判断单元和分割单元;
所述获取单元,用于获取待解析文件所对应的分隔符;
所述判断单元,用于判断所述待解析文件中目标行数据是否以数字加所述分隔符加数字的形式结尾;其中,所述目标行数据为所述待解析文件中所有有效行数据中的任意一个行数据;若是,则触发所述分割单元;
所述分割单元,用于按照所述分隔符对目标行数据进行分割,将获取的最后一个元素作为偏移量,将获取的倒数第二个元素作为分区值;将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题。
7.根据权利要求6所述的装置,其特征在于,还包括接收单元、串接单元和记录单元;
所述接收单元,用于接收用户输入的分隔符;
所述串接单元,用于将同一个文件的文件主题、分区值和偏移量按照所述分隔符进行串接;
所述记录单元,用于记录所述文件与所述分隔符的对应关系;
相应的,所述获取单元具体用于从对应关系中查找所述待解析文件所对应的分隔符。
8.根据权利要求7所述的装置,其特征在于,还包括匹配单元和提示单元;
所述匹配单元,用于在所述接收用户输入的分隔符之后,判断所述文件主题中是否存在与所述分隔符相匹配的字符;若是,则触发所述提示单元;
所述提示单元,用于展示更换分隔符的提示信息。
9.一种文件解析装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任意一项所述文件解析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文件解析方法的步骤。
CN201910736566.3A 2019-08-09 2019-08-09 一种文件解析方法、装置和计算机可读存储介质 Active CN110516124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910736566.3A CN110516124B (zh) 2019-08-09 2019-08-09 一种文件解析方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910736566.3A CN110516124B (zh) 2019-08-09 2019-08-09 一种文件解析方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110516124A true CN110516124A (zh) 2019-11-29
CN110516124B CN110516124B (zh) 2022-04-22

Family

ID=68624632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910736566.3A Active CN110516124B (zh) 2019-08-09 2019-08-09 一种文件解析方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110516124B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325031A (zh) * 2020-02-17 2020-06-23 北京字节跳动网络技术有限公司 简历解析方法及装置
CN113626389A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种坐标文件的解析方法以及电子设备
CN116821437A (zh) * 2023-08-30 2023-09-29 英诺达(成都)电子科技有限公司 数据处理方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117654A1 (en) * 2008-05-05 2013-05-09 Norm Rosner Method and system for data analysis
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN108021540A (zh) * 2017-11-09 2018-05-11 中国科学院信息工程研究所 一种面向Hadoop的通用文本格式的解析方法及工具
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN109739929A (zh) * 2018-12-18 2019-05-10 中国人民财产保险股份有限公司 数据同步方法、装置及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117654A1 (en) * 2008-05-05 2013-05-09 Norm Rosner Method and system for data analysis
CN106202324A (zh) * 2016-06-30 2016-12-07 北京奇虎科技有限公司 一种实时计算平台的数据处理方法和装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN108021540A (zh) * 2017-11-09 2018-05-11 中国科学院信息工程研究所 一种面向Hadoop的通用文本格式的解析方法及工具
CN108415887A (zh) * 2018-02-09 2018-08-17 武汉大学 一种pdf文件向ofd文件转化的方法
CN108776653A (zh) * 2018-05-25 2018-11-09 南京大学 一种基于PageRank和信息熵的裁判文书的文本分词方法
CN109739929A (zh) * 2018-12-18 2019-05-10 中国人民财产保险股份有限公司 数据同步方法、装置及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHENGHE WANG等: "Kafka and Its Using in High-throughput and Reliable Message Distribution", 《2015 8TH INTERNATIONAL CONFERENCE ON INTELLIGENT NETWORKS AND INTELLIGENT SYSTEMS (ICINIS)》 *
岑凯伦等: "大数据下基于Spark的电商实时推荐系统的设计与实现", 《现代计算机(专业版)》 *
武志学: "基于Spark Streaming的实时能耗分项计量系统", 《计算机应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325031A (zh) * 2020-02-17 2020-06-23 北京字节跳动网络技术有限公司 简历解析方法及装置
CN111325031B (zh) * 2020-02-17 2023-06-23 抖音视界有限公司 简历解析方法及装置
CN113626389A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种坐标文件的解析方法以及电子设备
CN116821437A (zh) * 2023-08-30 2023-09-29 英诺达(成都)电子科技有限公司 数据处理方法、装置、电子设备及存储介质
CN116821437B (zh) * 2023-08-30 2023-11-07 英诺达(成都)电子科技有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110516124B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN110516124A (zh) 一种文件解析方法、装置和计算机可读存储介质
US7761766B2 (en) Methods and apparatus for modifying a backup data stream including logical partitions of data blocks to be provided to a fixed position delta reduction backup application
US8396840B1 (en) System and method for targeted consistency improvement in a distributed storage system
JP4795258B2 (ja) Webページ再収集方式
US20160283357A1 (en) Call stack relationship acquiring method and apparatus
US11132409B2 (en) Identifying client states
CN113111129A (zh) 数据同步方法、装置、设备及存储介质
KR20140083556A (ko) SQLite 데이터베이스에서 삭제된 데이터의 복원 방법 및 장치
CN109522316A (zh) 日志处理方法、装置、设备和存储介质
Jackson Formats over time: Exploring uk web history
CN109582504A (zh) 一种用于苹果设备的数据恢复方法和装置
CN106933927B (zh) 数据表的连接方法和装置
CN110020550A (zh) 核对平台的评估方法、装置及设备
JP2006215735A (ja) 重複Webサイト検出装置
CN107590233B (zh) 一种文件管理方法及装置
CN109388617A (zh) 一种文件时间戳可信度的判定方法及装置
CN110196786B (zh) 数据库回滚同步中内存的控制方法及设备
CN106649756A (zh) 日志同步方法及装置
CN106599006A (zh) 一种数据恢复方法和装置
CN115328876A (zh) 一种页面操作日志的记录方法及装置
CN116954704A (zh) 一种代码分支合并方法、装置、计算机设备以及存储介质
CN111241036B (zh) 一种异步io数据处理方法、装置、设备及介质
CN107247708B (zh) 一种姓名识别方法及系统
CN112118260B (zh) Opcda报文处理方法、装置、电子设备及存储介质
CN116166617B (zh) 开放版式文档ofd合并后的目录生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant