CN103020176B - Xml解析中数据块划分方法和xml解析方法 - Google Patents

Xml解析中数据块划分方法和xml解析方法 Download PDF

Info

Publication number
CN103020176B
CN103020176B CN201210495961.5A CN201210495961A CN103020176B CN 103020176 B CN103020176 B CN 103020176B CN 201210495961 A CN201210495961 A CN 201210495961A CN 103020176 B CN103020176 B CN 103020176B
Authority
CN
China
Prior art keywords
symbol
xml
data block
data
boundary candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210495961.5A
Other languages
English (en)
Other versions
CN103020176A (zh
Inventor
方跃坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210495961.5A priority Critical patent/CN103020176B/zh
Priority to US13/854,741 priority patent/US9396172B2/en
Publication of CN103020176A publication Critical patent/CN103020176A/zh
Application granted granted Critical
Publication of CN103020176B publication Critical patent/CN103020176B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本实施例公开了XML解析中数据块划分方法和XML解析方法,其中,XML解析中数据块划分方法,包括将XML文件划分为XML数据段,并分配给多个线程并行处理;在XML数据段中确定候选边界开始符;候选边界开始符的边界符类型,记录候选边界开始符的边界符类型和位置;确定有效边界开始符;以所述有效边界开始字符为界,将所述XML数据段划分为多个数据块。通过本发明实施例中的数据块划分方法,可以使每个数据块中的XML元素保留完整,从而有效地避免了在后续的XML数据解析过程中,由于XML元素不完整而造成的,需要解析程序进行推测的过程,进而也就有效地提高了XML数据的解析效率。

Description

XML解析中数据块划分方法和XML解析方法
技术领域
本发明涉及计算机编程领域,尤其涉及XML解析中数据块划分方法和XML解析方法。
背景技术
可扩展标记语言(Extensible Markup Language,XML)广泛应用在网络服务、数据库和文件处理等领域。XML具有文档内容和结构完全分离、互操作性强、规范统一、支持多种编码和可扩展性好等特点。
由于XML文档可包括多层嵌套的数据结构,因此XML解析通常会比较复杂。在通过多核处理器环境中,采用基于多核结构设计来进行并行XML解析可以提高XML解析的解析速度。目前,常用的并行XML解析方法中,需要将XML划分为相同大小的多个数据块,然后通过多核处理器的多个核同时分别对多个数据块进行并行的解析处理。
但是,发明人经过研究发现,现有技术中,将XML划分为相同大小的多个数据块的方式会使得一个XML元素的内容可能分布在两个不同的块中,解析程序只能以推测的方式解析这样的数据。此外,在并行解析多个数据块时,需要检查各个数据块之间的数据依赖关系,从而导致并行解析线程间的频繁通信。当线程等待通信应答时,将暂停运行或减缓处理速度,从而使得并行处理的效率受到影响。
发明内容
有鉴于此,本发明实施例的目的在于提供XML解析中数据块划分方法和XML解析方法。
为实现上述目的,本发明实施例提供了如下技术方案:
一种XML数据块划分方法,包括:
确定候选边界开始符阶段,包括:
将XML文件划分为多个设定长度的XML数据段,并将多个XML数据段分配给多个线程并行处理;
在所述XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符;所述特定字符包括“<”字符,所述特定字符串包括“</”、“<?”、“<!--”或“<![CDATA[”;
确定所述候选边界开始符的边界符类型,记录所述候选边界开始符的边界符类型和位置;
确定有效边界开始符阶段,包括:
根据所述候选边界开始符的位置,顺序查找所述候选边界开始符;当所述候选边界开始符为“<”或“</”时,确定该“<”或“</”为有效边界开始符;
当顺序查找的所述候选边界开始符为非“</”的字符串时,确定所述字符串为有效边界开始符,并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符对应的有效边界结束符;将所述有效边界开始符和所述有效边界结束符之间的候选边界开始符设为无效边界开始符;
以所述有效边界开始字符为界,将所述XML文件划分为多个数据块。
优选的,在本发明实施例中,所述数据块中包括有多个所述开始边界字符。
此外,在本发明实施例中,还提供了一种XML解析方法,
包括:
在确定候选边界开始符阶段,包括:
将XML文件划分为多个设定长度的XML数据段,并将多个XML数据段分配给多个线程并行处理;
在所述XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符;所述特定字符包括“<”字符,所述特定字符串包括“</”、“<?”、“<!--”或“<![CDATA[”;
确定所述候选边界开始符的边界符类型,记录所述候选边界开始符的边界符类型和位置;
在确定有效边界开始符阶段,包括:
从整个XML文件的起始位置开始,根据所述候选边界开始符的位置,顺序查找所述候选边界开始符;当所述候选边界开始符为“<”或“</”时,确定该“<”或“</”为有效边界开始符;
当顺序查找的所述候选边界开始符为非“</”的字符串时,确定所述字符串为有效边界开始符,并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符对应的有效边界结束符;将所述有效边界开始符和所述有效边界结束符之间的候选边界开始符设为无效边界开始符;
以所述有效边界开始字符为界,将所述XML数据段划分为多个数据块;
在数据块并行解析阶段,包括:
将多个数据块分配给多个线程并行处理,以解析各个数据块。
优选的,在本发明实施例中,还包括:
当在所述数据块没有找到匹配的开始元素或结束元素,或者开始元素的命名空间不能在此数据块解决时,将所述开始元素或结束元素确定为未解决元素,并将该记录在预设的数据结构中。
优选的,在本发明实施例中,还包括:
当所述未解决元素为多个时,
在解析所述未解决元素前,将多个未解决元素依次连接为未解决元素链。
优选的,在本发明实施例中,还包括:
在后处理阶段,对所述各数据块的未解决元素按照数据块在XML文件中的顺序进行检查和处理;同时将各数据块产生的子结果数据合并成整体的结果数据。
综上所述,在本发明实施例中,通过本发明实施例中的数据块划分方法,可以使每个数据块中的XML元素保留完整,从而有效地避免了在后续的XML数据解析过程中,由于XML元素不完整而造成的,需要解析程序进行推测的过程,进而也就有效地提高了XML数据的解析效率。
附图说明
图1为本发明实施例中所述XML数据块的划分方法的流程示意图;
图2为本发明实施例中查找所述候选边界开始符过程的流程示意图;
图3为本发明实施例中查找所述有效边界开始符过程的流程示意图;
图4为本发明实施例中所述XML解析方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。
现有技术中,为了对XML数据进行并行处理,将XML数据进行了划分,即,将XML数据划分为大小相等的多个数据块,从而可以将多个数据块分别通过不同的处理器进行并行处理,以提高解析速度,由于现有技术中的数据块的划分方法只是按照数据块的大小来划分,所以使得同一XML元素会分属不同的数据块,这样,在解析过程中就需要解析程序以推测的方式来解析不完整的XML数据,从而降低了解析效率。为此,本申请提供了一种XML数据块的划分方法,以提高XML数据的解析效率,如图1所示,具体步骤如下:
在本发明实施例中,将XML数据块划分方法分为了两个阶段,其中,在确定候选边界开始符阶段,包括:
S11、将XML文件划分为多个设定长度的XML数据段,并将多个XML数据段分配给多个线程并行处理;
由于XML文件的长度有可能会很大,所以,为了充分利用计算机的并行运算能力,本申请中,在解析XML文件时,首先将XML文件划分为多个设定长度的XML数据段,并将多个XML数据段分配给多个线程并行处理;这样,可以提高后续的工作效率。
S12、在XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符;所述特定字符包括“<”字符,所述特定字符串包括“</”、“<?”、“<!--”或“<![CDATA[”;
本发明实施例中的核心思想为,在将XML数据段划分为多个数据块时,要以边界开始符为界,而且还要保证该作为划分界的边界开始符为有效的边界开始符。由于本发明实施例中划分出的数据块尽量包括了完整的XML元素,所以减少了在并行解析多个数据块时,并行解析线程间的频繁通信;从而提高了解析效率。
为了能够准确的识别有效的边界开始符,首先将可能为有效边界开始符的边界开始符确定为候选边界开始符。
顺序识别XML数据段中的字符是否为候选边界开始符的过程,可以如图2所示,包括:
顺序查找每个XML数据段内的“<”字符;在查找到一个“<”,判断是否其紧跟“/”或者“?”或者“!”字符;如果紧跟“!”字符,则进一步判断是否紧跟“--”或紧跟“[CDATA[”。将符合以上规则的所有字符或字符串确定为候选边界开始符。
也就是说,候选边界开始符所包括的字符或字符串具体包括候选开始元素开始符“<”、候选结束元素开始符“</”、候选处理命令开始符“<?”、候选评论开始符“<!--”或候选数据段开始符“<![CDATA[”;为此,通过顺序识别XML数据段中的字符是否为以上的字符或字符串,即可确定XML数据段中的候选边界开始符。
S13、确定候选边界开始符的边界符类型,记录候选边界开始符的边界符类型和位置;
在确定了候选边界开始符后,还需要确定候选边界开始符的边界符类型,边界符的类型一般包括开始元素边界符,结束元素边界符,处理命令边界符,评论边界符,以及数据段边界符。
边界符包括边界开始符和边界结束符两种,即在表明某个XML元素开始的位置使用边界开始符,表明某个XML元素结束的位置使用边界结束符;如,处理命令边界符包括处理命令开始符“<?”和处理命令的结束符“?>”。
在确定了候选边界开始符的边界符类型后,还需要记录候选边界开始符的边界符类型和位置。
在记录候选边界开始符的边界符类型和位置后,就进入了确定有效边界开始符阶段,确定有效边界开始符阶段为一个严格顺序的非并行的过程,具体包括:
S14、从整个XML文件的起始位置开始,根据候选边界开始符的位置,顺序查找候选边界开始符;当候选边界开始符为“<”或“</”时,确定该“<”或“</”为有效边界开始符;
当顺序查找的所述候选边界开始符为非“</”的字符串时,确定所述字符串为有效边界开始符,并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符对应的;将所述有效边界开始符和所述有效边界结束符之间的候选边界开始符设为无效边界开始符;
由于在上一步骤记录了候选边界开始符的位置,所以通过候选边界开始符的位置,可以在多个候选边界开始符中确定有效边界开始符。
通过顺序查找候选边界开始符来确定有效边界开始符的过程,如图3所示,包括:
当查找到的字符为“<”,或字符串为“</”,可以直接将其确定为有效边界开始符,除了这两种情况以外,当查找到其他的候选边界开始符时,在将其确定为有效边界开始符后,还需要查找与该有效边界开始符对应的有效边界结束符,并将有效边界开始符对应的有效边界结束符之间的其他候选边界开始符设为无效边界开始符。从而可以去除无效边界开始符,使保证边界开始符的选定正确性。
具体的,如果识别到一个字符“<”,将其识别为有效的开始元素开始符;如果识别到一个字符串“</”,将其识别为“</”,将其识别为一个有效的结束元素开始符;
如果识别到一个“<?”,则将其识别为一个有效的处理命令开始符。并从对应XML数据流中位置开始,查找第一个出现的“?>”,则此“?>”为处理命令结束符。根据此处理命令开始和结束位置,顺序检查开始和结束位置之间是否包含其它候选边界符,如果有,将其标记为无效边界开始符;
这是因为,处理命令的开始符“<?”和结束符“?>”之间不允许出现结束符“?>”,但允许其它候选边界开始符出现,因此在开始符“<?”和结束符“?>”之间是有可能出现其他的候选边界开始符的,比如,一段XML数据包括以下字符:
<?....<…..<?....<!--…..-->….<![CDATA[…]]>…..?>,
该段中只有第一个<?是有效的边界符,而且整段数据只是一个处理命令,其中包含的“<!--…..-->”,“<![CDATA[…]]>”不被识别为评论和数据段,其中,第2个<?不是处理命令开始符,都只是处理命令的内容而已。
如果识别到一个“<!--”,则将其识别为一个有效的评论开始符。并从对应XML数据流中位置开始,查找第一个出现的“-->”,则此“-->”为评论的结束符。根据此评论的开始和结束位置,顺序检查开始和结束位置之间是否包含其它候选边界开始符,如果有,将其标记为无效边界开始符;
同上类似,评论有严格定义,处理命令的开始符“<!--”和结束符“-->”之间不允许出现结束符“-->”,但允许其它候选边界开始符,一段XML数据包括以下字符:
<!--....<…......<?…..?>….<![CDATA[…]]>…..-->,
该段中只有第一个“<![CDATA[”是有效的边界符,而且整段数据只是一个评论,其中包含的“<?...?>”,“<![CDATA[…]]>”将不被识别为处理命令和数据段,进而也就不会被识别为有效边界开始符,都只是评论的内容而已。
如果识别到一个“<![CDATA[”,则将其识别为一个有效的数据段开始符并从对应XML数据流中位置开始,查找第一个出现的“]]>”,则此“]]>”为该数据段的结束符。根据此数据段的开始和结束位置,顺序检查开始和结束位置之间是否包含其它候选边界符,如果有,将其标记为无效边界开始符。
同上类似,数据段命令有严格定义,数据段的开始符“<![CDATA[”和结束符“]]>”之间不允许出现结束符“]]>”,但允许其它候选边界开始符,一段XML数据包括以下字符:
<![CDATA[…<?....<…..<?....?>…<!--…..-->….<![CDATA[…]]>,
该段中只有第一个“<![CDATA[”是有效的边界符,而且整段数据只是一个数据段,其中包含的“<!--…..-->”,“<?…?>”不被识别为评论和处理命令,第2个“<![CDATA[”不是数据段开始符,都只是数据段的内容而已。
S15、以所述有效边界开始字符为界,将所述XML文件划分为多个数据块:
在确定了有效边界开始字符后,即可以有效边界开始字符为界,将XML数据段划分为多个数据块,从而可以将多个数据块分别通过多个处理器进行并行处理。
由于通过本发明实施例中的数据块划分方法,可以使每个数据块中的XML元素保留完整,从而有效地避免了在后续的XML数据解析过程中,由于XML元素不完整而造成的,需要解析程序进行推测的过程,进而也就有效地提高了XML数据的解析效率。
优选的,在本发明实施例中,为了避免单独XML事件元素构成的数据块过小,从而造成频繁的为处理器分配数据块,在本发明实施例中,每个数据块中还可以包括有多个开始边界字符。
在本发明的另一方面,还提供了一种XML解析方法,如图4所示在包括了上述实施例中所述数据块划分方法之外,还包括步骤:
在数据块并行解析阶段:
S16、将多个数据块分配给多个线程并行处理,以解析各个数据块。
在图1所对应的实施例中,通过实施例中提供的是在XML数据解析时的数据块划分方法,在将XML数据进行数据块划分完成后,进一步的,还需要将各个数据块分别通过不同的处理器进行并行的解析处理,由于在本发明实施例中,每个数据块中的XML元素得以完整的保留,从而有效地避免了在后续的XML数据解析过程中,由于XML元素不完整而造成的,需要解析程序进行推测的过程,进而也就有效地提高了XML数据的解析效率。
优选的,在本发明实施例中,还包括当在所述数据块没有找到匹配的开始元素或结束元素,或者开始元素的命名空间不能在此数据块解决时,将所述开始元素或结束元素确定为未解决元素,并将该记录在预设的数据结构中,并将多个未解决元素依次连接为未解决元素链,使得后处理时,可以有效地减少搜索时间,从而进一步的提高解析效率。
此外,本发明实施例中,还可以包括后处理阶段,具体可以包括步骤:
S17、对各数据块的未解决元素按照数据块在XML文件中的顺序进行检查和处理;同时将各数据块产生的子结果数据合并成整体的结果数据。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种XML数据块划分方法,其特征在于,包括:
确定候选边界开始符阶段,包括:
将XML文件划分为多个设定长度的XML数据段,并将多个XML数据段分配给多个线程并行处理;
在所述XML数据段中顺序查找特定字符或特定字符串以确定候选边界开始符;所述特定字符包括“<”字符,所述特定字符串包括“</”、“<?”、“<!--”或“<![CDATA[”;
确定所述候选边界开始符的边界符类型,记录所述候选边界开始符的边界符类型和位置;
确定有效边界开始符阶段,包括:
从整个XML文件的起始位置开始,根据所述候选边界开始符的位置,顺序查找所述候选边界开始符;当所述候选边界开始符为“<”或“</”时,确定该“<”或“</”为有效边界开始符;
当顺序查找的所述候选边界开始符为非“</”的字符串时,确定所述字符串为有效边界开始符,并根据所述有效边界开始符的边界符类型查找与所述有效边界开始符对应的有效边界结束符;将所述有效边界开始符和所述有效边界结束符之间的候选边界开始符设为无效边界开始符;
以所述有效边界开始字符为界,将所述XML文件划分为多个数据块。
2.根据权利要求1所述的数据块划分方法,其特征在于,所述数据块中包括有多个所述开始边界字符。
3.一种XML解析方法,包括如权利要求1中所述数据块划分方法,其特征在于,在将XML文件划分为多个数据块后,包括:
在数据块并行解析阶段:
将多个数据块分配给多个线程并行处理,以解析各个数据块。
4.根据权利要求3所述的解析方法,其特征在于,还包括:
当在所述数据块没有找到匹配的开始元素或结束元素,或者开始元素的命名空间不能在此数据块解决时,将所述开始元素或结束元素确定为未解决元素,并将该记录在预设的数据结构中。
5.根据权利要求4所述的解析方法,其特征在于,还包括:
当所述未解决元素为多个时,
在解析所述未解决元素前,将多个未解决元素依次连接为未解决元素链。
6.根据权利要求5所述的解析方法,其特征在于,还包括:
在后处理阶段,对所述各数据块的未解决元素按照数据块在XML文件中的顺序进行检查和处理;同时将各数据块产生的子结果数据合并成整体的结果数据。
CN201210495961.5A 2012-11-28 2012-11-28 Xml解析中数据块划分方法和xml解析方法 Expired - Fee Related CN103020176B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210495961.5A CN103020176B (zh) 2012-11-28 2012-11-28 Xml解析中数据块划分方法和xml解析方法
US13/854,741 US9396172B2 (en) 2012-11-28 2013-04-01 Method for data chunk partitioning in XML parsing and method for XML parsing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210495961.5A CN103020176B (zh) 2012-11-28 2012-11-28 Xml解析中数据块划分方法和xml解析方法

Publications (2)

Publication Number Publication Date
CN103020176A CN103020176A (zh) 2013-04-03
CN103020176B true CN103020176B (zh) 2015-07-15

Family

ID=47968780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210495961.5A Expired - Fee Related CN103020176B (zh) 2012-11-28 2012-11-28 Xml解析中数据块划分方法和xml解析方法

Country Status (2)

Country Link
US (1) US9396172B2 (zh)
CN (1) CN103020176B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424326B (zh) * 2013-09-09 2018-06-15 华为技术有限公司 一种数据处理方法及装置
CN103544262B (zh) * 2013-10-16 2017-01-11 银江股份有限公司 一种基于xml的流式分页发布方法及系统
US9922023B2 (en) * 2014-09-05 2018-03-20 Oracle International Corporation Parallel parsing of file partitions storing a single XML document
CN104598562A (zh) * 2015-01-08 2015-05-06 浪潮软件股份有限公司 基于MapReduce并行计算模型的XML文件处理方法和装置
US10387563B2 (en) 2015-03-30 2019-08-20 International Business Machines Corporation Parallel parsing of markup language data
CN106293634A (zh) * 2015-05-13 2017-01-04 阿里巴巴集团控股有限公司 数据处理的方法及系统
CN105574164B (zh) * 2015-12-16 2019-03-19 北京华傲达数据技术有限公司 Excel文档的数据解析方法及装置
CN106919553A (zh) * 2016-08-24 2017-07-04 阿里巴巴集团控股有限公司 文件解析方法和装置
CN108021436A (zh) * 2017-12-28 2018-05-11 辽宁科技大学 一种进程调度方法
CN109887059A (zh) * 2019-02-26 2019-06-14 武汉斗鱼鱼乐网络科技有限公司 一种svga动画解析方法、装置及存储介质
CN110147373B (zh) * 2019-05-23 2021-06-22 泰康保险集团股份有限公司 数据处理方法、装置以及电子设备
CN111078950B (zh) * 2019-11-29 2022-10-04 国网福建省电力有限公司经济技术研究院 一种基于全业务统一数据中心的xml数据接入方法
CN114519035A (zh) * 2022-01-19 2022-05-20 上海卫星工程研究所 高速卫星遥测处理方法及系统
CN114416666B (zh) * 2022-03-28 2022-09-20 山东大学 多核平台下bam文件解析还原方法及系统
CN117391066A (zh) * 2023-09-06 2024-01-12 苏州数设科技有限公司 面向工业数据的解析方法、装置、电子设备及存储介质
CN117556850B (zh) * 2023-11-13 2024-05-03 中国计量科学研究院 一种以rfid标签作为数字校准证书的载体的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101039185A (zh) * 2007-04-29 2007-09-19 清华大学 可扩展标识语言安全应用中的可扩展标识语言解析方法
CN101082937A (zh) * 2007-06-29 2007-12-05 中兴通讯股份有限公司 Xml数据存储系统和方法
CN101329665A (zh) * 2007-06-18 2008-12-24 国际商业机器公司 解析标记语言文档的方法和解析器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7512615B2 (en) * 2003-11-07 2009-03-31 International Business Machines Corporation Single pass workload directed clustering of XML documents
US20060182418A1 (en) * 2005-02-01 2006-08-17 Yoichiro Yamagata Information storage medium, information recording method, and information playback method
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US7925971B2 (en) * 2005-10-31 2011-04-12 Solace Systems, Inc. Transformation module for transforming documents from one format to other formats with pipelined processor having dedicated hardware resources
US8432404B2 (en) * 2008-12-15 2013-04-30 Leonovus Usa Inc. Media action script acceleration method
US8838626B2 (en) * 2009-12-17 2014-09-16 Intel Corporation Event-level parallel methods and apparatus for XML parsing
US9477651B2 (en) * 2010-09-29 2016-10-25 International Business Machines Corporation Finding partition boundaries for parallel processing of markup language documents
US8838951B1 (en) * 2011-03-07 2014-09-16 Raytheon Company Automated workflow generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101039185A (zh) * 2007-04-29 2007-09-19 清华大学 可扩展标识语言安全应用中的可扩展标识语言解析方法
CN101329665A (zh) * 2007-06-18 2008-12-24 国际商业机器公司 解析标记语言文档的方法和解析器
CN101082937A (zh) * 2007-06-29 2007-12-05 中兴通讯股份有限公司 Xml数据存储系统和方法

Also Published As

Publication number Publication date
CN103020176A (zh) 2013-04-03
US9396172B2 (en) 2016-07-19
US20140149851A1 (en) 2014-05-29

Similar Documents

Publication Publication Date Title
CN103020176B (zh) Xml解析中数据块划分方法和xml解析方法
CN106919434B (zh) 一种代码生成方法及装置
CN106843840B (zh) 一种基于相似度分析的源代码版本演化注释复用方法
CN102375826B (zh) Sql脚本解析方法、装置及系统
CN102831121B (zh) 一种网页信息抽取的方法和系统
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
CN110007906B (zh) 脚本文件的处理方法、装置和服务器
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
WO2014082422A1 (zh) 一种代码改动的检测方法和装置
CN103345532A (zh) 一种网页信息抽取方法及装置
Vasilakis et al. Pash: Light-touch data-parallel shell processing
CN111611788B (zh) 一种数据处理的方法及装置、电子设备、存储介质
CN104462272B (zh) 搜索需求分析方法和装置
CN105022667B (zh) 一种基于嵌入式浏览器css引擎并行化方法
CN113760246B (zh) 应用程序文本语言处理方法、装置、电子设备及存储介质
CN102609518B (zh) 多状态ajax网页内容获取方法及系统
CN105094941A (zh) 一种实现多语言的方法及装置
CN104615728B (zh) 一种网页正文提取方法及装置
CN103685280B (zh) 报文匹配方法、状态机编译方法及设备
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
CN106326314B (zh) 网页信息抽取方法及装置
CN116756382A (zh) 检测敏感字符串的方法、装置、设置及存储介质
CN111966930B (zh) 基于XPath序列的网页列表解析方法及系统
CN103116607B (zh) 一种新的基于汉语拼音的全文检索系统
WO2022134820A1 (zh) 网页的数据抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150715

Termination date: 20181128

CF01 Termination of patent right due to non-payment of annual fee