CN106874386B - 文件解析方法及装置 - Google Patents

文件解析方法及装置 Download PDF

Info

Publication number
CN106874386B
CN106874386B CN201710020706.8A CN201710020706A CN106874386B CN 106874386 B CN106874386 B CN 106874386B CN 201710020706 A CN201710020706 A CN 201710020706A CN 106874386 B CN106874386 B CN 106874386B
Authority
CN
China
Prior art keywords
field
state
analysis
file
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710020706.8A
Other languages
English (en)
Other versions
CN106874386A (zh
Inventor
陈晓攀
熊志强
胡伟
梁嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hanyun Technology Co ltd
Original Assignee
Shenzhen Hanyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hanyun Technology Co ltd filed Critical Shenzhen Hanyun Technology Co ltd
Priority to CN201710020706.8A priority Critical patent/CN106874386B/zh
Publication of CN106874386A publication Critical patent/CN106874386A/zh
Application granted granted Critical
Publication of CN106874386B publication Critical patent/CN106874386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof

Abstract

本发明适用于数据解析技术领域,提供了一种文件解析方法及装置,所述解析方法包括:预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略;读取待解析文件中的数据,获取当前的字段解析状态;从所述预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与所述当前的字段解析状态相匹配的文件解析策略;利用与所述当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程。本发明可以快速对文件进行解析,保证解析的高效性,并且具有高容错性,能够处理不规范的数据。

Description

文件解析方法及装置
技术领域
本发明属于数据解析技术领域,尤其涉及文件解析方法及装置。
背景技术
现今,不同文本的格式规范各不相同,常见的CSV解析方法严重依赖与CSV文件的格式规范,即只能处理常规CSV文件,当CSV文件稍有不规范的地方,就会导致整个文件解析失败,容错性低,而为了提高容错性,会对一行数据进行多次扫描分析,降低解析效率。因此,现有技术中存在着解析文件时无法处理不规范数据,容错性低,且解析效率低的问题。
发明内容
本发明实施例提供一种文件解析方法及装置,旨在解决现有技术中解析文件时无法处理不规范数据,容错性低,且解析效率低的问题。
第一方面,本发明实施例提供了一种文件解析方法,所述解析方法包括:
预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略;
读取待解析文件中的数据,获取当前的字段解析状态;
从所述预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与所述当前的字段解析状态相匹配的文件解析策略;
利用与所述当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程。
第二方面,本发明实施例提供了一种文件解析装置,所述解析装置包括:
配置模块,用于预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略;
获取模块,用于读取待解析文件中的数据,获取当前的字段解析状态;
查找模块,用于从所述预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与所述当前的字段解析状态相匹配的文件解析策略;
执行模块,用于利用与所述当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略;读取待解析文件中的数据,获取当前的字段解析状态;从预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与当前的字段解析状态相匹配的文件解析策略;利用与当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程,从而可以快速对文件进行解析,保证解析的高效性,并且具有高容错性,能够处理不规范的数据。
附图说明
图1为本发明实施例提供的一种文件解析方法的流程示意图;
图2为图1所示实施例中的步骤S104的细化步骤流程示意图;
图3为图2所示实施例中的步骤S204的细化步骤流程示意图;
图4为图2所示实施例中的步骤S204的另一细化步骤流程示意图;
图5为图1所示实施例中的步骤S104的另一细化步骤流程示意图;
图6为本发明实施例提供的一种文件解析装置的结构示意图;
图7为图6所示实施例中的执行模块604的细化结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
请参阅图1,图1为本发明实施例提供的一种文件解析方法的流程示意图。本实施例的执行主体为解析装置。本实施例提供的文件解析方法包括以下步骤:
步骤S101、预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略。
在本发明实施例中,预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略,并将该文件解析策略保存于解析装置中。
其中,文件解析策略为对待解析文件中的数据进行读取、容错处理、保存等处理,并对字段解析状态进行状态转变的文件解析策略。
步骤S102、读取待解析文件中的数据,获取当前的字段解析状态。
在本发明实施例中,解析装置在执行文件解析的过程中,自动获取当前处于何种文件解析状态,在文件解析状态下读取到预设特殊字符之后,根据文件解析状态所对应的文件解析策略解析待解析的文件。
步骤S103、从预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与当前的字段解析状态相匹配的文件解析策略。
在本发明实施例中,在某个字段解析状态下,若解析装置读取到某个预设特殊字符,则从预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与上述某个字段解析状态相匹配的文件解析策略。
步骤S104、利用与当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程。
在本发明实施例中,在某个字段解析状态下,解析装置利用与该字段解析状态相匹配的文件解析策略对待解析文件中的数据进行读取、容错处理、保存等处理,以及将该字段解析状态转变成其他字段解析状态。
进一步地,图2示出了步骤S104中利用与当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程的具体实现流程,详述如下:
步骤S201、当当前的字段解析状态为行结束状态时,读取下一个字符,若下一个字符为字段包括符,则根据与行结束状态相匹配的文件解析策略确定当前的字段解析状态由行结束状态转变成字段开始状态。
在本发明实施例中,当当前的字段解析状态为行结束状态时,读取下一个字符,并判断该字符是否为字段包括符,若是字段包括符,则根据与行结束状态相匹配的文件解析策略确定当前的字段解析状态由行结束状态转变成字段开始状态。若不是字段包括符,则根据与行结束状态相匹配的文件解析策略确定当前的字段解析状态由行结束状态转变成字段匹配状态。
步骤S202、当当前的字段解析状态为字段开始状态时,若接下来读取到的字符不是字段包括符,则根据与字段开始状态相匹配的文件解析策略确定当前的字段解析状态由字段开始状态转变成字段匹配状态。
在本发明实施例中,当当前的字段解析状态为字段开始状态时,若接下来读取到的字符是字段包括符,则根据与字段开始状态相匹配的文件解析策略确定当前的字段解析状态由字段开始状态转变成字段结束状态。若接下来读取到的字符不是字段包括符,则根据与字段开始状态相匹配的文件解析策略确定当前的字段解析状态由字段开始状态转变成字段匹配状态。
步骤S203、当当前的字段解析状态为字段匹配状态时,根据与字段匹配状态相匹配的文件解析策略读取待解析文件中的数据,若读取到当前字符为字段包括符,则根据与字段匹配状态相匹配的文件解析策略确定当前的字段解析状态由字段匹配状态转变成字段结束状态。
在本发明实施例中,当当前的字段解析状态为字段匹配状态时,根据与字段匹配状态相匹配的文件解析策略读取待解析文件中的数据,若读取到当前字符为字段包括符,则根据与字段匹配状态相匹配的文件解析策略确定当前的字段解析状态由字段匹配状态转变成字段结束状态。若读取到当前字符不为字段包括符,则根据与字段匹配状态相匹配的文件解析策略继续读取待解析文件中的数据,且不转变当前的字段解析状态。
步骤S204、当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符不是字段分隔符或行结束符,则根据与字段结束状态相匹配的文件解析策略对当前字符之后的字符进行容错处理。
进一步地,图3示出了步骤S204中当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符不是字段分隔符或行结束符,则根据与字段结束状态相匹配的文件解析策略对当前字符之后的字符进行容错处理的具体实现流程,详述如下:
步骤S301、当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符为字段包括符,检测待解析文件中是否有出错标签。
步骤S302、若有出错标签,则关闭容错标记功能,结束容错处理。
步骤S303、若没有出错标签,则打开容错标记功能,在文件解析出错的地方设置出错标签,且当前的字段解析状态由字段结束状态转变成字段匹配状态。
进一步地,图4示出了步骤S204中当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符不是字段分隔符或行结束符,则根据与字段结束状态相匹配的文件解析策略对当前字符之后的字符进行容错处理的另一个具体实现流程,详述如下:
步骤S401、当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符为转义字符或普通字符,则检测待解析文件中是否有出错标签。
步骤S402、若有出错标签,则延长出错标签的标志范围。
步骤S403、若没有出错标签,则打开容错标记功能,在文件解析出错的地方设置出错标签,且当前的字段解析状态由字段结束状态转变成字段匹配状态。
进一步地,图5示出了步骤S104中利用与当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程的另一具体实现流程,详述如下:
步骤S501、当当前的字段解析状态为行结束状态时,读取下一个字符,若下一个字符为字段包括符,则当前的字段解析状态由行结束状态转变成字段开始状态。
步骤S502、当当前的字段解析状态为字段开始状态时,若接下来读取到的字符不是字段包括符,则当前的字段解析状态由字段开始状态转变成字段匹配状态。
步骤S503、当当前的字段解析状态为字段匹配状态时,根据与字段匹配状态相匹配的文件解析策略读取待解析文件中的数据,若读取到当前字符为字段包括符,则当前的字段解析状态由字段匹配状态转变成字段结束状态。
步骤S504、当当前的字段解析状态为字段结束状态时,若下一个字符为字段分隔符或行结束符,检测待解析文件中是否有出错标签。
步骤S505、若没有出错标签,则当前的字段解析状态由字段结束状态转变成字段分割状态或行结束状态。
在本发明实施例中,若下一个字符为字段分隔符,且没有检测到出错标签,则当前的字段解析状态由字段结束状态转变成字段分割状态。若下一个字符为行结束符,且没有检测到出错标签,则当前的字段解析状态由字段结束状态转变成行结束状态。
步骤S506、若有出错标签,则检测容错标记功能是否打开。
步骤S507、若打开,则延长出错标签的标志范围。
步骤S508、若没有打开,则当前的字段解析状态由字段结束状态转变成字段分割状态或行结束状态,并结束出错标签标记功能。
在本发明实施例中,若下一个字符为字段分隔符,且检测到出错标签,则检测容错标签是否打开,若没有打开,则当前的字段解析状态由字段结束状态转变成字段分割状态,并结束出错标签标记功能。若下一个字符为行结束符,且检测到出错标签,则检测容错标签标记功能是否打开,若没有打开,则当前的字段解析状态由字段结束状态转变成行结束状态,并结束出错标签标记功能。
进一步地,在转变成行结束状态,且结束出错标签后,结束当前行解析任务,保存当前行解析任务的解析结果及当前行解析任务的解析结果在解析文件中的位置。保存当前行解析任务中的原始数据及原始数据在原始文件中的位置。
在本发明实施例中,通过上述实施方案,可以对出错的文件进行容错解析处理,避免对出错的数据进行多次解析。
以上可以看出,本实施例提供的一种文件解析方法由于通过预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略;读取待解析文件中的数据,获取当前的字段解析状态;从预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与当前的字段解析状态相匹配的文件解析策略;利用与当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程,从而可以快速对文件进行解析,保证解析的高效性,并且具有高容错性,能够处理不规范的数据。
请参阅图6,图6为本发明实施例提供的一种文件解析装置的结构示意图。本实施例的解析装置包括的各模块用于执行图1对应的实施例中的各步骤,具体请参阅图1以及图1对应的实施例中的相关描述,此处不赘述。本实施例的解析装置包括:配置模块601、获取模块602、查找模块603、执行模块604。具体地:
配置模块601,用于预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略。
获取模块602,用于读取待解析文件中的数据,获取当前的字段解析状态。
查找模块603,用于从预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与当前的字段解析状态相匹配的文件解析策略。
执行模块604,用于利用与当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程。
在本发明实施例中,在某个字段解析状态下,解析装置利用与该字段解析状态相匹配的文件解析策略对待解析文件中的数据进行读取、容错处理、保存等处理,以及将该字段解析状态转变成其他字段解析状态。
进一步地,图7示出了执行模块604的具体结构示意图,执行模块604包括的各单元用于执行图2对应的实施例中的各步骤,具体请参阅图2以及图2对应的实施例中的相关描述,此处不赘述。本实施例的执行模块604包括:第一字段解析状态处理单元701、第二字段解析状态处理单元702、第三字段解析状态处理单元703、第四字段解析状态处理单元704。具体地:
第一字段解析状态处理单元701、用于当当前的字段解析状态为行结束状态时,读取下一个字符,若下一个字符为字段包括符,则当前的字段解析状态由行结束状态转变成字段开始状态。
第二字段解析状态处理单元702、用于当当前的字段解析状态为字段开始状态时,若接下来读取到的字符不是字段包括符,则当前的字段解析状态由字段开始状态转变成字段匹配状态。
第三字段解析状态处理单元703、当当前的字段解析状态为字段匹配状态时,根据与字段匹配状态相匹配的文件解析策略读取待解析文件中的数据,若读取到当前字符为字段包括符,则当前的字段解析状态由字段匹配状态转变成字段结束状态。
第四字段解析状态处理单元704、当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符不是字段分隔符或行结束符,则对当前字符之后的字符进行容错处理。
进一步地,上述第四字段解析状态处理单元704具体用于:
当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符为字段包括符,检测待解析文件中是否有出错标签。
若有出错标签,则关闭容错标记功能,结束容错处理。
若没有出错标签,则打开容错标记功能,在文件解析出错的地方设置出错标签,且当前的字段解析状态由字段结束状态转变成字段匹配状态。
进一步地,上述第四字段解析状态处理单元704,还用于:
当当前的字段解析状态为字段结束状态时,读取下一个字符,若下一个字符为转义字符或普通字符,检测待解析文件中是否有出错标签。
若有出错标签,则延长出错标签的标志范围。
若没有出错标签,则打开容错标记功能,在文件解析出错的地方设置出错标签,且当前的字段解析状态由字段结束状态转变成字段匹配状态。
进一步地,上述第四字段解析状态处理单元704,还用于:
当当前的字段解析状态为字段结束状态时,若下一个字符为字段分隔符或行结束符,检测待解析文件中是否有出错标签。
若没有出错标签,则当前的字段解析状态由行结束状态转变成字段分割状态或行结束状态。
若有出错标签,则检测容错标签是否打开。
若打开,则延长出错标签的标志范围。
若没有打开,则当前的字段解析状态由行结束状态转变成字段分割状态或行结束状态,并结束出错标签标记功能。
在本发明实施例中,通过上述实施方案,可以对出错的文件进行容错解析处理,避免对出错的数据进行多次解析。
以上可以看出,本实施例提供的一种文件解析装置由于通过预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略;读取待解析文件中的数据,获取当前的字段解析状态;从预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与当前的字段解析状态相匹配的文件解析策略;利用与当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程,从而可以快速对文件进行解析,保证解析的高效性,并且具有高容错性,能够处理不规范的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种文件解析方法,其特征在于,所述解析方法包括:
预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略,所述文件解析策略对待解析文件中的数据进行读取处理、容错处理、保存处理,以及对字段解析状态进行状态转变处理;
读取待解析文件中的数据,获取当前的字段解析状态;
从所述预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与所述当前的字段解析状态相匹配的文件解析策略;
利用与所述当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程;
所述利用与所述当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程包括:当所述当前的字段解析状态为行结束状态时,读取下一个字符,若所述下一个字符为字段包括符,则所述当前的字段解析状态由所述行结束状态转变成字段开始状态;当所述当前的字段解析状态为所述字段开始状态时,若接下来读取到的字符不是所述字段包括符,则所述当前的字段解析状态由所述字段开始状态转变成字段匹配状态;当所述当前的字段解析状态为所述字段匹配状态时,根据与所述字段匹配状态相匹配的文件解析策略读取所述待解析文件中的数据,若读取到当前字符为所述字段包括符,则所述当前的字段解析状态由所述字段匹配状态转变成字段结束状态;当所述当前的字段解析状态为所述字段结束状态时,读取下一个字符,若所述下一个字符不是字段分隔符或行结束符,则对所述当前字符之后的字符进行容错处理;
所述解析方法还包括:当所述当前的字段解析状态为所述字段结束状态时,若所述下一个字符为所述字段分隔符或所述行结束符,检测所述待解析文件中是否有出错标签;若没有所述出错标签,则所述当前的字段解析状态由所述字段结束状态转变成字段分割状态或所述行结束状态;若有所述出错标签,则检测容错标记功能是否打开;若打开,则延长所述出错标签的标志范围;若没有打开,则所述当前的字段解析状态由所述字段结束状态转变成字段分割状态或所述行结束状态,并结束出错标签标记功能,结束当前行解析任务,保存当前行解析任务的解析结果及当前行解析任务的解析结果在解析文件中的位置,保存当前行解析任务中的原始数据及原始数据在原始文件中的位置。
2.如权利要求1所述的解析方法,其特征在于,所述当所述当前的字段解析状态为所述字段结束状态时,读取下一个字符,若所述下一个字符不是字段分隔符或行结束符,则对所述当前字符之后的字符进行容错处理包括:
当所述当前的字段解析状态为所述字段结束状态时,读取所述下一个字符,若所述下一个字符为所述字段包括符,检测所述待解析文件中是否有出错标签;
若有所述出错标签,则关闭容错标记功能,结束容错处理;
若没有所述出错标签,则打开所述容错标记功能,在文件解析出错的地方设置出错标签,且所述当前的字段解析状态由所述字段结束状态转变成所述字段匹配状态。
3.如权利要求1所述的解析方法,其特征在于,所述当所述当前的字段解析状态为所述字段结束状态时,读取下一个字符,若所述下一个字符不是字段分隔符或行结束符,则对所述当前字符之后的字符进行容错处理还包括:
当所述当前的字段解析状态为所述字段结束状态时,读取所述下一个字符,若所述下一个字符为转义字符或普通字符,则检测所述待解析文件中是否有出错标签;
若有所述出错标签,则延长所述出错标签的标志范围;
若没有所述出错标签,则打开容错标记功能,在文件解析出错的地方设置所述出错标签,且所述当前的字段解析状态由所述字段结束状态转变成所述字段匹配状态。
4.一种文件解析装置,其特征在于,所述解析装置包括:
配置模块,用于预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略,所述文件解析策略对待解析文件中的数据进行读取处理、容错处理、保存处理,以及对字段解析状态进行状态转变处理;
获取模块,用于读取待解析文件中的数据,获取当前的字段解析状态;
查找模块,用于从所述预先配置不同字段解析状态下读取到预设特殊字符后所对应执行的文件解析策略中查找出与所述当前的字段解析状态相匹配的文件解析策略;
执行模块,用于利用与所述当前的字段解析状态相匹配的文件解析策略执行相应的文件解析处理流程;
所述执行模块包括:第一字段解析状态处理单元,用于当所述当前的字段解析状态为行结束状态时,读取下一个字符,若所述下一个字符为字段包括符,则所述当前的字段解析状态由所述行结束状态转变成字段开始状态;第二字段解析状态处理单元,用于当所述当前的字段解析状态为所述字段开始状态时,若接下来读取到的字符不是所述字段包括符,则所述当前的字段解析状态由所述字段开始状态转变成字段匹配状态;第三字段解析状态处理单元,用于当所述当前的字段解析状态为所述字段匹配状态时,根据与所述字段匹配状态相匹配的文件解析策略读取所述待解析文件中的数据,若读取到当前字符为所述字段包括符,则所述当前的字段解析状态由所述字段匹配状态转变成字段结束状态;第四字段解析状态处理单元,用于当所述当前的字段解析状态为所述字段结束状态时,读取下一个字符,若所述下一个字符不是字段分隔符或行结束符,则对所述当前字符之后的字符进行容错处理;
所述第四字段解析状态处理单元还用于:当所述当前的字段解析状态为所述字段结束状态时,若所述下一个字符为所述字段分隔符或所述行结束符,检测所述待解析文件中是否有出错标签;若没有所述出错标签,则所述当前的字段解析状态由所述字段结束状态转变成字段分割状态或所述行结束状态;若有所述出错标签,则检测容错标签是否打开;若打开,则延长所述出错标签的标志范围;若没有打开,则所述当前的字段解析状态由所述字段结束状态转变成字段分割状态或所述行结束状态,并结束出错标签标记功能,结束当前行解析任务,保存当前行解析任务的解析结果及当前行解析任务的解析结果在解析文件中的位置,保存当前行解析任务中的原始数据及原始数据在原始文件中的位置。
5.如权利要求4所述的解析装置,其特征在于,所述第四字段解析状态处理具体用于:
当所述当前的字段解析状态为所述字段结束状态时,读取所述下一个字符,若所述下一个字符为所述字段包括符,检测所述待解析文件中是否有出错标签;
若有所述出错标签,则关闭容错标记功能,结束容错处理;
若没有所述出错标签,则打开所述容错标记功能,在文件解析出错的地方设置所述出错标签,且所述当前的字段解析状态由所述字段结束状态转变成所述字段匹配状态。
6.如权利要求4所述的解析装置,其特征在于,所述第四字段解析状态处理单元还用于:
当所述当前的字段解析状态为所述字段结束状态时,读取所述下一个字符,若所述下一个字符不为所述预设特殊字符,则检测所述待解析文件中是否有出错标签;
若有所述出错标签,则延长所述出错标签的标志范围;
若没有所述出错标签,则打开容错标记功能,在文件解析出错的地方设置所述出错标签,且所述当前的字段解析状态由所述字段结束状态转变成所述字段匹配状态。
CN201710020706.8A 2017-01-12 2017-01-12 文件解析方法及装置 Active CN106874386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710020706.8A CN106874386B (zh) 2017-01-12 2017-01-12 文件解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710020706.8A CN106874386B (zh) 2017-01-12 2017-01-12 文件解析方法及装置

Publications (2)

Publication Number Publication Date
CN106874386A CN106874386A (zh) 2017-06-20
CN106874386B true CN106874386B (zh) 2020-07-28

Family

ID=59158091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710020706.8A Active CN106874386B (zh) 2017-01-12 2017-01-12 文件解析方法及装置

Country Status (1)

Country Link
CN (1) CN106874386B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021540B (zh) * 2017-11-09 2023-05-02 中国科学院信息工程研究所 一种面向Hadoop的通用文本格式的解析方法及工具
CN110727691A (zh) * 2019-10-22 2020-01-24 北京明略软件系统有限公司 一种数据解析校验方法及装置
CN115242677B (zh) * 2021-04-23 2023-09-01 中国移动通信集团四川有限公司 一种家宽用户状态监听系统、方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366000A (zh) * 2013-07-17 2013-10-23 飞天诚信科技股份有限公司 一种大体积xml报文的解析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101051600B1 (ko) * 2010-03-29 2011-07-22 주식회사 소프트 포 소프트 아밥 소스코드의 코드 검사를 수행하는 코드검사 수행시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366000A (zh) * 2013-07-17 2013-10-23 飞天诚信科技股份有限公司 一种大体积xml报文的解析方法

Also Published As

Publication number Publication date
CN106874386A (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN106874386B (zh) 文件解析方法及装置
CN107665233B (zh) 数据库数据处理方法、装置、计算机设备和存储介质
CN110113744B (zh) 通信方法、装置、设备及存储介质
RU2015138140A (ru) Системы и способы многопользовательского многоязычного информационного обмена
CN103390005A (zh) 一种合并文档的方法与系统
US9876744B2 (en) Information sending method and information sending apparatus
US11080322B2 (en) Search methods, servers, and systems
CN111246406A (zh) 一种短信发送方法、系统、存储介质及终端设备
CN111881094B (zh) 日志中关键信息提取方法、装置、终端及存储介质
US20160088106A1 (en) Method and apparatus of processing a doi (digital object unique identifier) in interaction information
CN104572781A (zh) 一种交易日志产生方法和装置
CN105278970A (zh) 一种数据处理方法、装置和终端
CN107182078B (zh) 分析终端电路域回落测试报告的方法、终端及存储装置
CN106161656B (zh) 一种界面跳转的方法及装置
TW201743228A (zh) 資料的提取方法、裝置及終端設備
CN110619215B (zh) 一种代码安全扫描方法及系统
CN113064556A (zh) 一种bios的数据存储方法、装置、设备及存储介质
US20160224553A1 (en) Search methods and terminals
US20130275133A1 (en) Electronic Pen with Printable Arrangement
CN108171014B (zh) 一种rtf可疑文件的检测方法、系统及存储介质
CN110309517B (zh) 表情文案处理方法、装置、系统及存储介质
US20150256510A1 (en) System and method for name resolution of replicated components in computing environments
CN110633457B (zh) 一种内容替换方法、装置、电子设备及可读存储介质
CN108200135B (zh) 一种获取扫描数据并生成凭证的方法、系统及相关装置
CN114020327A (zh) 一种at指令的预处理方法与终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant