CN110516124A

CN110516124A - 一种文件解析方法、装置和计算机可读存储介质

Info

Publication number: CN110516124A
Application number: CN201910736566.3A
Authority: CN
Inventors: 刘松伟
Original assignee: Inspur Jinan data Technology Co ltd
Current assignee: Inspur Jinan data Technology Co ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-29
Anticipated expiration: 2039-08-09
Also published as: CN110516124B

Abstract

本发明实施例公开了一种文件解析方法、装置和计算机可读存储介质，获取待解析文件所对应的分隔符；待解析文件包含有多行数据，每行数据处理方式类似，以所有有效行数据中的任意一个行数据即目标行数据为例，判断目标行数据是否以数字加分隔符加数字的形式结尾。若是，则按照分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。目标行数据的结尾形式相对固定，通过对目标行数据的结尾形式进行检测，即使当目标行数据的文件主题中包含有与分隔符相同的符号，也不会导致文件识别出现异常，保证了开源组件的稳定运行。

Description

一种文件解析方法、装置和计算机可读存储介质

技术领域

本发明涉及数据存储技术领域，特别是涉及一种文件解析方法、装置和计算机可读存储介质。

背景技术

开源组件kafka对文件主题(topic)的分区值(partition)的偏移量(offset)存储策略是在恢复点偏移量检查点(recovery-point-offset-checkpoint)文件中记录着topic已经被写入磁盘的offset，复制偏移量检查点(replication-offset-checkpoint)文件中记录着已经被复制到别的topic上的文件信息。

现有技术中，topic、partition、offset三者的信息是以空格为分隔符写入到上述的两个偏移量检查点文件中，每一行存储一条topic的分区值的偏移量信息。对于文件的解析策略是读取recovery-point-offset-checkpoint和replication-offset-checkpoint两个文件内容的第一行作为version，第二行作为topic信息的总行数，剩余的每一行按照空格分隔得到字符串数组的长度不等于3就抛出异常，等于3时就将分割出来的第一个字符串作为topic，第二个字符串作为该topic的分区值，第三个字符串作为该分区值的偏移量。

这样的存储解析策略会导致当kafka的topic名称中有空格存在时，kafka服务器在解析偏移量检查点文件时发生分割后的字符串数组长度不等于3，进而出现异常，导致带空格的topic不能正常使用，进而影响开源组件kafka运行的稳定性。

可见，如何提升开源组件运行的稳定性，是本领域技术人员需要解决的问题。

发明内容

本发明实施例的目的是提供一种文件解析方法、装置和计算机可读存储介质，可以提升开源组件运行的稳定性。

为解决上述技术问题，本发明实施例提供一种文件解析方法，包括：

获取待解析文件所对应的分隔符；

判断所述待解析文件中目标行数据是否以数字加所述分隔符加数字的形式结尾；其中，所述目标行数据为所述待解析文件中所有有效行数据中的任意一个行数据；

若是，则按照所述分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题。

可选的，在所述获取待解析文件所对应的分隔符之前还包括：

接收用户输入的分隔符；

将同一个文件的文件主题、分区值和偏移量按照所述分隔符进行串接，并记录所述文件与所述分隔符的对应关系；

相应的，所述获取待解析文件所对应的分隔符包括：

从对应关系中查找所述待解析文件所对应的分隔符。

可选的，在所述接收用户输入的分隔符之后还包括：

判断所述文件主题中是否存在与所述分隔符相匹配的字符；

若是，则展示更换分隔符的提示信息。

可选的，还包括：

当所述目标行数据不是以数字加所述分隔符加数字的形式结尾时，则展示文件异常的提示信息。

可选的，所述按照所述分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题包括：

按照正则匹配，确定出所述分隔符在所述目标行数据中最后一次出现的第一位置，以及倒数第二次出现的第二位置；

将所述目标行数据中与所述第一位置相邻的后一个元素作为偏移量，与所述第一位置相邻的前一个元素作为分区值；

从所述目标行数据中截取出起始位置至所述第二位置的元素作为文件主题。

本发明实施例还提供了一种文件解析装置，包括获取单元、判断单元和分割单元；

所述获取单元，用于获取待解析文件所对应的分隔符；

所述判断单元，用于判断所述待解析文件中目标行数据是否以数字加所述分隔符加数字的形式结尾；其中，所述目标行数据为所述待解析文件中所有有效行数据中的任意一个行数据；若是，则触发所述分割单元；

所述分割单元，用于按照所述分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题。

可选的，还包括接收单元、串接单元和记录单元；

所述接收单元，用于接收用户输入的分隔符；

所述串接单元，用于将同一个文件的文件主题、分区值和偏移量按照所述分隔符进行串接；

所述记录单元，用于记录所述文件与所述分隔符的对应关系；

相应的，所述获取单元具体用于从对应关系中查找所述待解析文件所对应的分隔符。

可选的，还包括匹配单元和提示单元；

所述匹配单元，用于在所述接收用户输入的分隔符之后，判断所述文件主题中是否存在与所述分隔符相匹配的字符；若是，则触发所述提示单元；

所述提示单元，用于展示更换分隔符的提示信息。

可选的，还包括展示单元；

所述展示单元，用于当所述目标行数据不是以数字加所述分隔符加数字的形式结尾时，则展示文件异常的提示信息。

可选的，所述分割单元包括确定子单元、作为子单元和截取子单元；

所述确定子单元，用于按照正则匹配，确定出所述分隔符在所述目标行数据中最后一次出现的第一位置，以及倒数第二次出现的第二位置；

所述作为子单元，用于将所述目标行数据中与所述第一位置相邻的后一个元素作为偏移量，与所述第一位置相邻的前一个元素作为分区值；

所述截取子单元，用于从所述目标行数据中截取出起始位置至所述第二位置的元素作为文件主题。

本发明实施例还提供了一种文件解析装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上述任意一项所述文件解析方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述文件解析方法的步骤。

由上述技术方案可以看出，获取待解析文件所对应的分隔符；待解析文件包含有多行数据，每行数据处理方式类似，以所有有效行数据中的任意一个行数据即目标行数据为例，判断目标行数据是否以数字加分隔符加数字的形式结尾。当目标行数据是以数字加分隔符加数字的形式结尾时，则说明目标行数据不存在形式错误，此时可以按照分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。目标行数据的结尾形式相对固定，通过对目标行数据的结尾形式进行检测，即使当目标行数据的文件主题中包含有与分隔符相同的符号，也不会导致文件识别出现异常，保证了开源组件的稳定运行。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文件解析方法的流程图；

图2为本发明实施例提供的一种文件解析方法装置的结构示意图；

图3为本发明实施例提供的一种文件解析方法装置的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

接下来，详细介绍本发明实施例所提供的一种文件解析方法。图1为本发明实施例提供的一种文件解析方法的流程图，该方法包括：

S101：获取待解析文件所对应的分隔符。

在实际应用中，可以由用户指定或者按照系统默认的字符作为recovery-point-offset-checkpoint和replication-offset-checkpoint两个文件记录信息所用到的分隔符。

不同的文件所使用的分隔符的类型可能相同也可能不同。在对待解析文件进行解析之前，需要先获知待解析文件所使用的分隔符。

S102：判断待解析文件中目标行数据是否以数字加分隔符加数字的形式结尾。

待解析文件是以行数据的形式存储，文件的第一个行数据表示文件的版本(version)；第二个行数据表示文件的总行数；剩下的每一行数据均是按照文件主题、分区值和偏移量的顺序排列，并且文件主题、分区值和偏移量两两之间设置有分隔符。

对待解析文件进行解析操作主要是对每个行数据的文件主题、分区值和偏移量进行拆分。在本发明实施例中，可以将文件中除第一个行数据和第二个行数据之外的行数据均称作有效行数据。

每个有效行数据的处理方式类似，在本发明实施例中，以所有有效行数据中的任意一个行数据即目标行数据为例展开介绍。

考虑到分区值和偏移量均以数字形式呈现，因此目标行数据的结尾方式相对固定，按照分区值加分隔符加偏移量的形式结尾。当确定出待解析文件对应的分隔符之后，为了确保目标行数据的形式正确，可以判断待解析文件中目标行数据是否以数字加分隔符加数字的形式结尾。

当目标行数据是以数字加分隔符加数字的形式结尾时，则可以确定目标行数据不存在形式错误，此时可以按照分隔符对目标行数据进行分割即执行S103。

S103：按照分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。

在实际应用中，文件主题中可能会包含有与分隔符相同的字符，而偏移量和分区值是以数字的形式呈现，在偏移量和分区值中不会携带有分隔符，因此，在对目标行数据进行分割时，可以按照正则匹配，确定出分隔符在目标行数据中最后一次出现的第一位置，以及倒数第二次出现的第二位置；将目标行数据中与第一位置相邻的后一个元素作为偏移量，与第一位置相邻的前一个元素作为分区值；从目标行数据中截取出起始位置至第二位置的元素作为文件主题。

例如：待解析文件的分隔符为“，”；offset-checkpoint文件解析器通过正则匹配的方式判断目标行数据是否是以“数字，数字”的方式结尾，目标行数据满足条件后，以“，”为分隔符分割该目标行数据得到一个字符串数组str，然后topic的分区partition＝str[str.length-2]，topic的分区的偏移量offset＝str[str.length-1]。通过正则匹配的方式找出分隔符倒数第二次出现的位置为location，topic的名称name＝line.substring(0，location)，其中line表示初始位置至location之间的字符串。

当目标行数据不是以数字加分隔符加数字的形式结尾时，则说明目标行数据存在异常，为了便于用户及时对异常数据进行处理，可以展示文件异常的提示信息。

用户根据文件异常的提示信息可以快速锁定异常的行数据，从而对异常的行数据进行修改或删除等操作，降低了数据异常对后续工作的影响。

在本发明实施例中，为了提升用户体验，可以由用户根据需求自动设定文件的分隔符，开源组件在接收到用户输入的分隔符之后，将同一个文件的文件主题、分区值和偏移量按照分隔符进行串接，并记录文件与分隔符的对应关系。相应的，在需要对待解析文件进行解析时，则可以从对应关系中查找待解析文件所对应的分隔符。

为了降低文件主题中包含有与分隔符相同的字符，导致文件解析时划分出多个字符串，在本发明实施例中，在用户选择文件的分隔符时可以对分隔符的类型进行判断。具体的，可以判断文件主题中是否存在与分隔符相匹配的字符。

当文件主题中存在与分隔符相匹配的字符，则展示更换分隔符的提示信息。

用户看到更换分隔符的提示信息之后，可以重新选择分隔符的类型。当然，用户也可以根据需求不对分隔符进行更换，按照图1所述的方式也可以完成待解析文件的解析工作。

在实际应用中，开源组件可以向用户展示候选分隔符，该候选分隔符不会与文件主题匹配，以便于用户可以快速选择出合适的分隔符。

图2为本发明实施例提供的一种文件解析装置的结构示意图，包括获取单元21、判断单元22和分割单元23；

获取单元21，用于获取待解析文件所对应的分隔符；

判断单元22，用于判断待解析文件中目标行数据是否以数字加分隔符加数字的形式结尾；其中，目标行数据为待解析文件中所有有效行数据中的任意一个行数据；若是，则触发分割单元23；

分割单元23，用于按照分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将目标行数据中除最后一个元素以及倒数第二个元素之外的剩余元素作为文件主题。

可选的，还包括接收单元、串接单元和记录单元；

接收单元，用于接收用户输入的分隔符；

串接单元，用于将同一个文件的文件主题、分区值和偏移量按照分隔符进行串接；

记录单元，用于记录文件与分隔符的对应关系；

相应的，获取单元具体用于从对应关系中查找待解析文件所对应的分隔符。

可选的，还包括匹配单元和提示单元；

匹配单元，用于在接收用户输入的分隔符之后，判断文件主题中是否存在与分隔符相匹配的字符；若是，则触发提示单元；

提示单元，用于展示更换分隔符的提示信息。

可选的，还包括展示单元；

展示单元，用于当目标行数据不是以数字加分隔符加数字的形式结尾时，则展示文件异常的提示信息。

可选的，分割单元包括确定子单元、作为子单元和截取子单元；

确定子单元，用于按照正则匹配，确定出分隔符在目标行数据中最后一次出现的第一位置，以及倒数第二次出现的第二位置；

作为子单元，用于将目标行数据中与第一位置相邻的后一个元素作为偏移量，与第一位置相邻的前一个元素作为分区值；

截取子单元，用于从目标行数据中截取出起始位置至第二位置的元素作为文件主题。

图2所对应实施例中特征的说明可以参见图1所对应实施例的相关说明，这里不再一一赘述。

图3为本发明实施例提供的一种文件解析装置30的硬件结构示意图，包括：

存储器31，用于存储计算机程序；

处理器32，用于执行计算机程序以实现如上述任意一项文件解析方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任一项文件解析方法的步骤。

以上对本发明实施例所提供的一种文件解析方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种文件解析方法，其特征在于，包括：

获取待解析文件所对应的分隔符；

2.根据权利要求1所述的方法，其特征在于，在所述获取待解析文件所对应的分隔符之前还包括：

接收用户输入的分隔符；

相应的，所述获取待解析文件所对应的分隔符包括：

从对应关系中查找所述待解析文件所对应的分隔符。

3.根据权利要求2所述的方法，其特征在于，在所述接收用户输入的分隔符之后还包括：

判断所述文件主题中是否存在与所述分隔符相匹配的字符；

若是，则展示更换分隔符的提示信息。

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述按照所述分隔符对目标行数据进行分割，将获取的最后一个元素作为偏移量，将获取的倒数第二个元素作为分区值；将所述目标行数据中除所述最后一个元素以及所述倒数第二个元素之外的剩余元素作为文件主题包括：

6.一种文件解析装置，其特征在于，包括获取单元、判断单元和分割单元；

所述获取单元，用于获取待解析文件所对应的分隔符；

7.根据权利要求6所述的装置，其特征在于，还包括接收单元、串接单元和记录单元；

所述接收单元，用于接收用户输入的分隔符；

8.根据权利要求7所述的装置，其特征在于，还包括匹配单元和提示单元；

所述提示单元，用于展示更换分隔符的提示信息。

9.一种文件解析装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至5任意一项所述文件解析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文件解析方法的步骤。