CN104267998B - 基于滑动窗技术的硬件xml解析器 - Google Patents

基于滑动窗技术的硬件xml解析器 Download PDF

Info

Publication number
CN104267998B
CN104267998B CN201410535859.2A CN201410535859A CN104267998B CN 104267998 B CN104267998 B CN 104267998B CN 201410535859 A CN201410535859 A CN 201410535859A CN 104267998 B CN104267998 B CN 104267998B
Authority
CN
China
Prior art keywords
module
xml
xml document
sliding window
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410535859.2A
Other languages
English (en)
Other versions
CN104267998A (zh
Inventor
黄立楠
蒋江
王畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201410535859.2A priority Critical patent/CN104267998B/zh
Publication of CN104267998A publication Critical patent/CN104267998A/zh
Application granted granted Critical
Publication of CN104267998B publication Critical patent/CN104267998B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于滑动窗技术的硬件XML解析器,包括:初始化存储单元、栈间寄存器、用于产生滑动窗的数据发射模块、用于将XML文档的字符流提取为令牌的词法分析模块、采用XML语法规则对XML文档的令牌进行检查的格式检查模块和XML文档树构建模块,初始化存储单元与数据发射模块相连并传输XML文档的初始化信息,数据发射模块与词法分析模块相连并传输滑动窗信息,词法分析模块与格式检查模块以及XML文档树构建模块相连并传输令牌信息,XML文档树构建模块与内存相连并传输XML文档树信息,用于提高吞吐率的栈间寄存器设置于各相连模块之间。本发明极大地提高了XML解析器的工作效率,可以实现较高的解析性能,消耗较低的硬件开销,具备较高的实用性。

Description

基于滑动窗技术的硬件XML解析器
技术领域
本发明涉及的是一种网络服务和数据库系统等技术领域中需要解析XML文档的应用,具体是一种基于滑动窗技术的硬件XML解析器。
背景技术
一般来说,服务器需要在XML解析上消耗大量的执行时间,因此XML解析是相关应用的技术瓶颈。目前已有的成熟的XML解析器大都是基于软件技术实现的,解析效率低下。虽然多线程技术可以在一定程度上提高XML解析器的工作效率,但是在传统的通用处理器上,处理一个字符通常需要几十个时钟周期,因此,软件XML解析器无法满足大量的应用需求。为了解决这些问题,学者们开始将目光转向硬件XML解析技术,希望通过利用硬件电路的高度并行性来提高解析效率。
已有的硬件XML解析器的性能相对于软件解析器已有了很大的提升,目前性能较好的两款硬件XML解析器分别是:(a)XPA.一般来说,XML解析须经由词法分析、格式检查和构建XML文档树等阶段串行完成。而XPA采用了投机流水的结构,将构建XML文档树提前,使其和格式检查并行执行,有效降低了解析器延迟。(b)PSDXP.PSDXP采用了并行投机的整体架构,将XML文档划分为多个子文档,并复制多套硬件解析单元并行解析子文档,提高了吞吐率。但是上述这些系统分别有着各自无法克服的缺点:XPA的吞吐率较低,无法满足对解析实时性有较高要求的相关应用需求;PSDXP可以通过增加子文档数和硬件解析单元有效地增加解析器的吞吐率,但是其硬件代价过大,不利于推广。
经过对现有技术的检索发现,中国专利文献号CN102622432A公开(公告)日2012.08.01,公开了一种XML文档结构概要间的相似性度量方法。为了从结构角度在线快速聚类XML数据流,满足这类算法对内存和时间的较高要求,提供一种XML文档的结构概要以及这种结构概要间的相似性度量方法。该算法将XML文档以SAX格式解析后,借助全局名称‐代码索引表和进行式栈技术将该文档形式化成一个可增量表示的概要数据结构——元素链(NodeList),然后通过一个自定义公式计算两元素链间的相似性。该技术使用SAX解析XML文档,并利用了进行式栈技术获取层值,使得建立结构概要的过程中,内存消耗很小。整个内存消耗基本花费在保存元素链式的聚类结果和全局名称‐索引表上。但该技术的缺陷和不足在于采用SAX格式解析XML文档,其数据在内存中不持久,因此用户不能对文档进行随机访问和修改。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于滑动窗技术的硬件XML解析器,能够加快XML解析速度的同时尽可能降低硬件开销,实现了基于滑动窗技术的XML解析加速,进一步加快硬件XML解析器的速度,使其能实时满足大量应用需求。
本发明是通过以下技术方案实现的,本发明包括:初始化存储单元、栈间寄存器、用于产生滑动窗的数据发射模块、用于将XML文档的字符流提取为令牌的词法分析模块、采用XML语法规则对XML文档的令牌进行检查的格式检查模块和XML文档树构建模块,其中:初始化存储单元与数据发射模块相连并传输XML文档的初始化信息,数据发射模块与词法分析模块相连并传输滑动窗信息,词法分析模块与格式检查模块以及XML文档树构建模块相连并传输令牌信息,XML文档树构建模块与内存相连并传输XML文档树信息,用于提高吞吐率的栈间寄存器设置于各相连模块之间。
所述的数据发射模块包括:依次连接的两个缓冲器单元、数据组以及用于生成滑动窗的控制单元,其中:第一缓冲器单元和第二缓冲器单元采用数据级并行机制,即其输出端分别与数据组相连并输出第一缓冲器单元和第二缓冲器单元的组合信息,从而进一步提高了硬件XML解析器的性能;数据组的输出端与控制单元相连并输出滑动窗信息。
所述的格式检查模块包括:元素嵌套检查单元、根元素唯一检查单元和属性名唯一检查单元,其中:元素嵌套检查单元、根元素唯一检查单元和属性名唯一检查单元都与XML文档树构建模块相连,元素嵌套检查单元接收元素名称令牌信息经栈处理将XML文档元素嵌套是否正确的信息输出至XML文档树构建模块,根元素唯一检查单元接收根元素令牌信息经栈处理将XML文档根元素是否唯一的信息输出至XML文档树构建模块,属性名唯一检查单元接收属性名称的令牌信息经布隆滤波器处理将隶属同一元素的属性名是否唯一的信息输出至XML文档树构建模块。
本发明涉及上述硬件XML解析器的实现方法,包括以下步骤:
步骤1)将XML文档初始化在初始化存储单元中。
步骤2)设置两个位宽与滑动窗位宽相同的串行相连的第一缓冲器单元、第二缓冲器单元,第一缓冲器单元缓存从初始化存储单元读出的数据,第二缓冲器单元缓存上一周期中第一缓冲器单元缓存的数据。
步骤3)数据发射模块将第一、第二缓冲器单元拼接成一个位宽为滑动窗位宽2倍的数据组,并为该数据组字节编址。
步骤4)数据发射模块在滑动窗内检测是否存在定界符,其中滑动窗的位置由开始地址和结束地址界定,当未能检测到定界符时,开始地址和结束地址不变,即滑动窗位置不变。
所述的结束地址即为检测到的定界符的地址,开始地址由以下公式决定:
其中:N为自然常数,即滑动窗的位宽,2N为数据组的位宽,其字节编址为0,1,2,……,2N‐1。
步骤5)词法分析模块借助一个有限状态机来提取滑动窗中的XML令牌信息。
步骤6)格式检查模块采用栈结构和布隆滤波器来验证元素嵌套是否正确,根元素是否唯一以及隶属同一元素的属性名是否唯一。
步骤7)XML文档树是XML查询系统的基础,XML文档树构建模块将有效的令牌信息作为文档树的节点构建XML树结构,并将相关节点信息存入内存。得到如图8所示的存储结构。
技术效果
与现有技术相比,本发明的技术效果包括:
1)性能方面:与上述硬件解析器XPA相比,性能提高了67%;与PSDXP相比,性能提高了34%。
2)硬件开销方面:硬件开销小,在Xilinx Virtex‐6XC6VLX240T FPGA开发板上实现本发明所述XML解析器,结果显示本发明使用了开发板2%的Slice Register,5%的Slice LUT和14%的Block RAM。
此外,本发明可扩展性好,只要提供足够的硬件资源,解析器可以解析任意大小的XML文档。
附图说明
图1是XML文档转化为XML文档树的实例示意图。
图2是本发明结构示意图。
图3是由第一、第二缓冲器单元构成的字节寻址数据组示意图。
图4是滑动窗产生机制说明示意图。
图5是词法分析阶段用于提取令牌的状态机示意图。
图6是栈结构实例示意图。
图7是布隆滤波器实例示意图。
图8是XML文档树的存储结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图2所示,本实施例包括:初始化存储单元、栈间寄存器、用于产生滑动窗的数据发射模块、用于将XML文档的字符流提取为令牌的词法分析模块、采用XML语法规则对XML文档的令牌进行检查的格式检查模块和XML文档树构建模块,其中:初始化存储单元与数据发射模块相连并传输XML文档的初始化信息,数据发射模块与词法分析模块相连并传输滑动窗信息,词法分析模块与格式检查模块以及XML文档树构建模块相连并传输令牌信息,XML文档树构建模块与内存相连并传输XML文档树信息,用于提高吞吐率的栈间寄存器设置于各相连模块之间。
所述的初始化存储单元的位宽与数据发射模块生成的滑动窗的位宽一致。
所述的数据发射模块包括:依次连接的两个缓冲器单元、数据组以及用于生成滑动窗的控制单元,其中:第一缓冲器单元和第二缓冲器单元采用数据级并行机制,即其输出端分别与数据组相连并输出第一级缓冲单元和第二级缓冲单元的组合信息,从而进一步提高了硬件XML解析器的性能;数据组的输出端与控制单元相连并输出滑动窗信息。
所述的词法分析模块内设有令牌提取单元,该单元从数据发射模块输出的滑动窗中提取令牌。
所述的令牌是指:XML文档中的有效信息,也构成了XML文档树的节点,包括元素名称、元素内容、结束元素、属性名称和属性值,具体示例如下表所示。
令牌 示例
元素名称 <Customer id=”1001”>或<Name>
元素内容 <Gender>male</Gender>
结束元素 <Gender>male</Gender>
属性名称 <Customer id=”1001”>
属性值 <Customer id=”1001”>
XML文档中出现的用于决定令牌的类型的符号即为定界符,包括小于号<、斜杠/、等号=等符号。
所述的格式检查模块包括:元素嵌套检查单元、根元素唯一检查单元和属性名唯一检查单元,其中:元素嵌套检查单元、根元素唯一检查单元和属性名唯一检查单元都与XML文档树构建模块相连,元素嵌套检查单元接收元素名称令牌信息经栈处理将XML文档元素嵌套是否正确的信息输出至XML文档树构建模块,根元素唯一检查单元接收根元素令牌信息经栈处理将XML文档的根元素是否唯一的信息输出至XML文档树构建模块,属性名唯一检查单元接收属性名称令牌信息经布隆滤波器处理将隶属同一元素的属性名是否唯一的信息输出至XML文档树构建模块。
元素嵌套检查和根元素唯一检查使用了栈技术来完成,而属性名唯一性检查则主要使用了布隆滤波器技术。
所述的XML文档树构建模块内设有DOM树构建单元,该DOM树构建单元采用DOM格式解析XML文档。
如图3所示,为由第一、第二缓冲器单元构成的字节寻址数据组,该图以滑动窗位宽为4字节为例(下同)。如图所示,将第一、第二缓冲器单元按字节编址,其中第一缓冲器单元内的字节编址为0~3,第二缓冲器单元内的字节编址为4~7,滑动窗从该数据组中产生。
本实施例涉及上述硬件XML解析器的实现方法,包括以下步骤:
步骤1)将XML文档初始化在初始化存储单元中。
步骤2)设置两个位宽与滑动窗位宽相同的串行相连的第一缓冲器单元、第二缓冲器单元,第一缓冲器单元缓存从初始化存储单元读出的数据,第二缓冲器单元缓存上一周期中第一缓冲器单元缓存的数据。
步骤3)数据发射模块将第一、第二缓冲器单元拼接成一个位宽为滑动窗的位宽2倍的数据组,并为该数据组字节编址,具体如图4所示,为以滑动窗宽为4字节时的滑动窗产生机制说明,具体为数据发射阶段,该XML解析器处理“><Customer id=”1011”>”时滑动窗产生实例,图中的虚线椭圆框为滑动窗,解析器处理字符的顺序为从右到左,图4(a~h)分别代表8个连续的时钟周期中滑动窗的位置。图4(a)所示是滑动窗初始位置,其开始地址和结束地址分别为4和7,并且检测到定界符”>”,因此根据公式(1),图4(b)中滑动窗的开始地址为5,同理图4(c)中滑动窗的开始地址为6.而图4(c~d)并未检测到定界符,因此滑动窗位置不变,且“Cust”和”omer”分别在两个周期内处理完成。图4(e~h)也是相同的道理。由此可以看出,本实施例对定界符和普通字符处理的不同:解析器每周期处理一个定界符,而对于普通字符,一个时钟周期内,解析器最多可以处理4个普通字符,这很大地提高了XML解析器的性能和工作效率。
步骤4)数据发射模块在滑动窗内检测是否存在定界符,其中滑动窗的位置由开始地址和结束地址界定,当未能检测到定界符时,开始地址和结束地址不变,即滑动窗位置不变。
所述的结束地址即为检测到的定界符的地址,开始地址由以下公式决定:
其中:N为自然常数,即滑动窗的位宽,2N为数据组的位宽,其字节编址为0、1、2、……、2N‐1。
步骤5)词法分析模块借助一个有限状态机来提取滑动窗中的XML令牌信息,具体如图5所示,为词法分析阶段用于提取令牌的状态机,该状态机共有21个状态,状态转换箭头上标出了状态转换的条件:即遇到该字符,从箭头起始的状态跳转到箭头指向的状态。其中状态停留在状态5、状态6表示当前处理的令牌类型是元素名称;状态停留在状态8、状态9,表示当前处理的令牌类型是结束元素;状态停留在状态11、状态12,表示当前处理的令牌类型是属性名称;状态停留在状态14、状态15、状态17、状态18,表示当前处理的令牌类型是属性值;状态停留在状态20,表示当前处理的令牌类型是元素内容。
步骤6)格式检查模块采用栈结构和布隆滤波器来验证元素嵌套是否正确以及隶属同一元素的属性名是否唯一,具体如图6所示,为格式检查阶段验证元素嵌套是否正确的栈结构实例。一共设有两个栈结构,分别存放元素名和元素名长度。图示的元素名栈共有两个指针,其中sp指向栈顶元素开始的字符,nsp指向栈顶元素结尾的字符。元素长度栈中,指针p指向栈顶元素的长度。当解析器遇到元素名称令牌时,将其按顺序压栈,压栈结果如图中所示;当遇到结束元素令牌时,将指针sp所指的字符与正在处理的字符比较,若字符不匹配,说明元素嵌套错误;若字符完全匹配,再比较元素长度,长度相同表示元素嵌套正确,否则嵌套错误。
如图7所示,为格式检查阶段用于验证隶属同一元素的属性名称是否唯一的布隆滤波器实例。
<Professor name=”Mike”department=”Microelectronics”ID=”12345”field=”Computer Architechture”>
本实施例涉及的布隆滤波器设置3个哈希函数和一定长度的初始值全为0的数组,为每个属性名生成3个哈希值,将这些哈希值作为下标访问数组。若对应的三个数组元素值有一个为0,则表示该属性名称是唯一的,同时将0置为1;若对应的三个数组元素全为1,表示该属性名有冲突的可能,这时需要遍历之前处理过的属性名进行比较方可确定。因此,需要设置类似图6的栈组存放已判定唯一的属性名称用于与被怀疑冲突的属性名称匹配。如图7所示,元素名”Professor”共有四个属性名:”name”,“department”,“ID”和“field”.属性名”field”有冲突的可能,需要借助栈组加以判定。
步骤7)XML文档树是XML查询系统的基础,XML文档树构建模块将有效的令牌信息作为文档树的节点构建XML树结构,并将相关节点信息存入内存,得到如图8所示的存储结构,其中图8(a)是树中元素名称节点的数据结构,图8(b)是树中属性列表的数据结构。如图所示,元素名称节点存储了包括该节点的父亲节点地址,左右兄弟节点地址,儿子节点地址,属性列表地址等内容,而属性列表中存储了多个配对的属性名和属性值,这样对于XML文档树上的节点,可以方便地找到与其相关的各节点。以上构建XML文档树的操作都是建立在XML文档符合语法规范的前提下进行的,但是如果格式检查模块中的元素嵌套检查单元,根元素唯一检查单元和属性名唯一检查单元中任一单元的检查结果表示该XML文档不符合相关语法规定,则没必要继续进行对该XML文档的解析,XML文档树构建模块停止工作,系统复位。
本实施例的基于滑动窗技术的硬件XML解析器有着高性能,硬件开销低的优点,充分利用了XML文档的构成特点,能够快速解析XML文档,适合应用在对XML解析实时性有较高要求的相关领域中。同时由于借助滑动窗技术引入数据级并行的特点,该解析器只需借助一套硬件解析单元即可达到某些XML解析器需要借助多套硬件才能达成的性能,硬件开销相对较低。

Claims (9)

1.一种基于滑动窗技术的硬件XML解析器,其特征在于,包括:初始化存储单元、栈间寄存器、用于产生滑动窗的数据发射模块、用于将XML文档的字符流提取为令牌的词法分析模块、采用XML语法规则对XML文档的令牌进行检查的格式检查模块和XML文档树构建模块,其中:初始化存储单元与数据发射模块相连并传输XML文档的初始化信息,数据发射模块与词法分析模块相连并传输滑动窗信息,词法分析模块与格式检查模块以及XML文档树构建模块相连并传输令牌信息,XML文档树构建模块与内存相连并传输XML文档树信息,用于提高吞吐率的栈间寄存器设置于各相连模块之间;所述的格式检查模块包括:元素嵌套检查单元、根元素唯一检查单元和属性名唯一检查单元,其中:元素嵌套检查单元、根元素唯一检查单元和属性名唯一检查单元都与XML文档树构建模块相连。
2.根据权利要求1所述的基于滑动窗技术的硬件XML解析器,其特征是,所述的初始化存储单元的位宽与数据发射模块生成的滑动窗的位宽一致。
3.根据权利要求1所述的基于滑动窗技术的硬件XML解析器,其特征是,所述的数据发射模块包括:依次连接的两个缓冲器单元、数据组以及用于生成滑动窗的控制单元,其中:第一缓冲器单元和第二缓冲器单元采用数据级并行机制,即其输出端分别与数据组相连并输出第一缓冲器单元和第二缓冲器单元的组合信息,从而进一步提高了硬件XML解析器的性能;数据组的输出端与控制单元相连并输出滑动窗信息。
4.根据权利要求1所述的基于滑动窗技术的硬件XML解析器,其特征是,所述的元素嵌套检查单元接收元素名称令牌信息经栈处理将XML文档元素嵌套是否正确的信息输出至XML文档树构建模块,根元素唯一检查单元接收根元素令牌信息经栈处理将XML文档根元素是否唯一的信息输出至XML文档树构建模块,属性名唯一检查单元接收属性名称的令牌信息经布隆滤波器处理将隶属同一元素的属性名是否唯一的信息输出至XML文档树构建模块。
5.根据权利要求1所述的基于滑动窗技术的硬件XML解析器,其特征是,所述的词法分析模块内设有令牌提取单元,该单元从数据发射模块输出的滑动窗中提取令牌。
6.根据权利要求1所述的基于滑动窗技术的硬件XML解析器,其特征是,所述的XML文档树构建模块内设有DOM树构建单元,该DOM树构建单元采用DOM格式解析XML文档。
7.根据权利要求3所述的基于滑动窗技术的硬件XML解析器,其特征是,所述的第一、第二缓冲器单元构成字节寻址数据组,将第一、第二缓冲器单元按字节编址,其中第一缓冲器单元内的字节编址为0~3,第二缓冲器单元内的字节编址为4~7,滑动窗从该数据组中产生。
8.一种根据上述任一权利要求所述硬件XML解析器的实现方法,其特征在于,包括以下步骤:
步骤1)将XML文档初始化在初始化存储单元中;
步骤2)设置两个位宽与滑动窗位宽相同的串行相连的第一缓冲器单元、第二缓冲器单元,第一缓冲器单元缓存从初始化存储单元读出的数据,第二缓冲器单元缓存上一周期中第一缓冲器单元缓存的数据;
步骤3)数据发射模块将第一、第二缓冲器单元拼接成一个位宽为滑动窗位宽2倍的数据组,并为该数据组字节编址;
步骤4)数据发射模块在滑动窗内检测是否存在定界符,其中滑动窗的位置由开始地址和结束地址界定,当未能检测到定界符时,开始地址和结束地址不变,即滑动窗位置不变;
步骤5)词法分析模块借助一个有限状态机来提取滑动窗中的XML令牌信息;
步骤6)格式检查模块采用栈结构和布隆滤波器来验证元素嵌套是否正确,根元素是否唯一以及隶属同一元素的属性名是否唯一;
步骤7)XML文档树是XML查询系统的基础,XML文档树构建模块将有效的令牌信息作为文档树的节点构建XML树结构,并将相关节点信息存入内存,得到存储结构。
9.根据权利要求8所述的方法,其特征是,所述的结束地址即为检测到的定界符的地址,开始地址由以下公式决定:
其中:N为自然常数,即滑动窗的位宽,2N为数据组的位宽,其字节编址为0,1,2,……,2N-1。
CN201410535859.2A 2014-10-13 2014-10-13 基于滑动窗技术的硬件xml解析器 Expired - Fee Related CN104267998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410535859.2A CN104267998B (zh) 2014-10-13 2014-10-13 基于滑动窗技术的硬件xml解析器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410535859.2A CN104267998B (zh) 2014-10-13 2014-10-13 基于滑动窗技术的硬件xml解析器

Publications (2)

Publication Number Publication Date
CN104267998A CN104267998A (zh) 2015-01-07
CN104267998B true CN104267998B (zh) 2017-04-19

Family

ID=52159522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410535859.2A Expired - Fee Related CN104267998B (zh) 2014-10-13 2014-10-13 基于滑动窗技术的硬件xml解析器

Country Status (1)

Country Link
CN (1) CN104267998B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688558B (zh) * 2016-08-04 2020-06-23 北大方正集团有限公司 Xml树的结构维护方法、xml树的结构维护系统和终端
CN109753285B (zh) * 2018-12-26 2023-07-04 浙江大学 一种基于fpga的xml解析器、可重构计算系统
CN113160002A (zh) * 2021-05-11 2021-07-23 湖南知名未来科技有限公司 对官文压缩包进行数据识别的专利官费监控方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342368A (zh) * 1999-10-04 2002-03-27 皇家菲利浦电子有限公司 使xml内容流动的方法和装置
CN1744081A (zh) * 2004-04-02 2006-03-08 三星电子株式会社 搜索元素的方法和设备以及存储程序的记录介质
US7752224B2 (en) * 2005-02-25 2010-07-06 Microsoft Corporation Programmability for XML data store for documents
CN102646039A (zh) * 2012-02-29 2012-08-22 河海大学 基于XML Schema的软件界面生成系统及方法
CN103023511A (zh) * 2012-12-05 2013-04-03 云之朗科技有限公司 一种应用的压缩编码方法及装置
CN103488757A (zh) * 2013-09-25 2014-01-01 浪潮电子信息产业股份有限公司 一种基于云计算的聚类特征等值直方图的维护方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI390443B (zh) * 2009-08-04 2013-03-21 Univ Nat Taiwan Science Tech 使用在可擴展性標示語言之串流路徑查詢機制系統與方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1342368A (zh) * 1999-10-04 2002-03-27 皇家菲利浦电子有限公司 使xml内容流动的方法和装置
CN1744081A (zh) * 2004-04-02 2006-03-08 三星电子株式会社 搜索元素的方法和设备以及存储程序的记录介质
US7752224B2 (en) * 2005-02-25 2010-07-06 Microsoft Corporation Programmability for XML data store for documents
CN102646039A (zh) * 2012-02-29 2012-08-22 河海大学 基于XML Schema的软件界面生成系统及方法
CN103023511A (zh) * 2012-12-05 2013-04-03 云之朗科技有限公司 一种应用的压缩编码方法及装置
CN103488757A (zh) * 2013-09-25 2014-01-01 浪潮电子信息产业股份有限公司 一种基于云计算的聚类特征等值直方图的维护方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
向量矩阵迭代自组织XML辅助聚类算法;刘波等;《系统工程与电子技术》;20081231;第30卷(第12期);全文 *
基于滑动窗口的XML数据流的聚类算法研究与实现;姚文集;《北京工业大学学位论文》;20101231;全文 *
基于滑动窗口的XML数据流聚类算法;姚文集等;《计算机工程》;20100731;第36卷(第13期);全文 *

Also Published As

Publication number Publication date
CN104267998A (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
US8892599B2 (en) Apparatus and method for securing preliminary information about database fragments for utilization in mapreduce processing
US9160611B2 (en) System and method for performing longest common prefix strings searches
CN105160252B (zh) 一种结构化查询语言注入攻击的检测方法及装置
WO2018036272A1 (zh) 新闻内容的推送方法、电子装置及计算机可读存储介质
US9031935B2 (en) Search system, search method, and program
US20160267142A1 (en) Detecting at least one predetermined pattern in stream of symbols
CN110110075A (zh) 网页分类方法、装置以及计算机可读存储介质
WO2014000518A1 (zh) 一种舆情信息展示系统及方法
CN104267998B (zh) 基于滑动窗技术的硬件xml解析器
CN104850574A (zh) 一种面向文本信息的敏感词过滤方法
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
JP2006351002A5 (zh)
CN109857956A (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN106339498A (zh) 数据同步方法、装置和系统
CN102411602B (zh) 一种基于 fpga 实现的xml 并行投机解析方法
CN103530429A (zh) 一种网页正文抽取的方法
CN106209863A (zh) 一种基于全站扫描的网站安全监测方法
CN111190873A (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
US20120005207A1 (en) Method and system for web extraction
CN103744983A (zh) 一种电子文档的元信息提取方法
Ulmer et al. Massively parallel acceleration of a document-similarity classifier to detect web attacks
CN103793398B (zh) 检测垃圾数据的方法和装置
Oyri News Item Extraction for Text Mining inWeb Newspapers
WO2010025062A1 (en) Automatic test map generation for system verification test

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170419

Termination date: 20191013