CN100561464C - 文档变换系统 - Google Patents
文档变换系统 Download PDFInfo
- Publication number
- CN100561464C CN100561464C CNB2004100117331A CN200410011733A CN100561464C CN 100561464 C CN100561464 C CN 100561464C CN B2004100117331 A CNB2004100117331 A CN B2004100117331A CN 200410011733 A CN200410011733 A CN 200410011733A CN 100561464 C CN100561464 C CN 100561464C
- Authority
- CN
- China
- Prior art keywords
- template
- information
- structural information
- document
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文档变换系统(101),配置如下:存储器(102),存储具有特定模式的结构信息作为一个模板;匹配检测器(103)引入结构信息(106)和指示它的变换位置的变换位置信息(110),并在结构信息(106)中,从检测的目标中检测除了变换位置信息(110)指示的变换位置之外的结构信息(106)和模板之间的一个匹配部分;替换者(104),用模板替换结构信息(106)中的匹配部分并输出替换后的结构信息(112);变换器(105),按照变换规则(113)变换替换后的结构信息(112)和字符串信息(107)并把变换后的信息作为第一输出数据(108)和第二输出数据(109)输出。
Description
技术领域
本发明涉及一种用于变换结构化文档的文档变换系统。
背景技术
包括XML(可扩展标识语言)文档在内的结构化文档需要结构信息和字符串信息的描述并因此通常具有大数据尺寸(高数据量)的特征。由于这个原因,为了有效利用结构化文档存储的磁盘空间以及为了有效利用网络资源的目的,近来注意力都集中在了压缩结构化文档的技术上。
特别地,与包括字符串信息的情况相比,人们相信把结构化文档分成结构信息和字符串信息并把它们压缩的技术将注意力集中在结构信息上以减少出现模式的数目,并且因此能够获得比只压缩结构化文档的LZ77这种技术的压缩更高的压缩率,关于LZ77的细节将参考″Jacob Ziv,Abraham Lempel:A Universal Algorithm forSequential Data Compression.IEEE Transactions on InformationTheory 23(3):337-343(1977)″)。
日本专利申请公开出版物No.2003-44459(下文称作文献1)公开了一种通过预先使用给定的结构规范信息来把结构化数据的内部表示数据分成结构信息和字符串信息并且彼此无关地压缩它们。这种压缩方法压缩数据时把焦点集中在结构信息上以便获得压缩率的改善。另外,作为预处理,一个结构化文档受到结构信息的确认检查和解析。据介绍,由于独立压缩结构信息和字符串信息,所以可以通过只解压缩(或者恢复)结构信息而不解压缩(或者恢复)字符串信息来执行确认检查和解析。
文献″Hartmut Liefke and Dan Suciu.:″XMill:An EfficientCompressor for XML Data″,In proceedings of ACM SIGMODInternational Conference on Management of Data,2000″(下文称作文献2)公开了一种通过重复使用出现在XML文档中的部分结构来压缩该XML文档的方法。在此压缩方法中,一个结构化文档被分成三个信息项:结构信息、节点类型信息和文本信息,它们每一个都被一种诸如LZ77之类的通常压缩算法压缩。根据这个文献2,因为把焦点集中在结构信息上来执行压缩,正如在上述文档1中所述技术的情况下那样,所以压缩率可以提高。如上所述,当结构化文档被分成如传统技术中那样被独立压缩的结构信息和字符串信息时,压缩率提高并且不必解压缩字符串信息就可以执行确认检查和解析。
发明内容
另一方面,为了只用一个小显示来利用移动终端设备(例如,蜂窝电话以及其它)中的结构化文档,打算把结构化文档变换成适于移动终端设备的一种形式,所述移动终端设备以那种形式而被使用。例如,一个XHTML文档被变换成适于移动终端设备的一个c-HTML(压缩超文本标识语言)文档。关于c-HTML的细节将参考″Compact HTML forsmall Information Appliance,http://www.w3.org/TR/1998/NOTE- CompactHTML-19980209/″。
可是,为了变换结构化文档,必须变换结构信息和字符串信息。如果在变换之前,一个结构化文档通过上述传统技术中那样的诸如LZ77之类的算法被压缩,则为了变换所述结构化文档,结构信息和字符串信息都必须被解压缩一次,这引起了变换过程所需的时间和存储量的增加问题。
实现本发明以便解决上述问题,并且本发明的一个目的因此是提供一种用于执行结构化文档的压缩和变换的文档变换系统,而不必需要在变换中解压缩整个结构信息,使得达到有效率的压缩和变换。
根据本发明,提供一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:模板存储装置,用于将具有事先确定的特定模式的结构信息存储作为一个模板;模板匹配部分检测装置,用于引入形成结构化文档的结构信息和指示该结构信息的变换位置的变换位置信息,并使所述结构信息中由所述变换位置信息指示的变换位置从检测目标中被除外地检测所述结构信息和由所述模板存储装置存储的模板之间的匹配部分;和模板替换装置,用于引入形成结构化文档的结构信息和指示由所述模板匹配部分检测装置检测到的、使变换位置从检测目标中被除外的匹配部分的匹配部分信息,用模板替换所述结构信息中由配部分信息指示的、除了变换位置之外的匹配部分,并输出替换后的结构信息;和变换装置,用于引入形成结构化文档的字符串信息、由所述模板替换装置输出的所述替换后的结构信息、和用于变换形成结构化文档的结构信息和字符串信息的变换规则,根据变换规则来变换所引入的所述替换后的结构信息和所述字符串信息,并输出变换后的结构信息和变换后的字符串信息。
根据本发明,提供一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:模板存储装置,用于存储具有事先确定的特定模式的结构信息作为一个模板;变换规则模板替换装置,用于引入包括变换后的结构化文档、用于变换形成结构化文档的结构信息和字符串信息的变换规则,从该变换规则中提取所述变换后的结构化文档的结构信息,在由所述模板存储装置存储的模板中,检测与所提取的结构信息匹配的模板,并输出以所检测的模板替换所述结构信息之后的替换后的变换规则;和变换装置,用于引入形成结构化文档的结构信息和字符串信息以及由所述变换规则模板替换装置输出的所述替换后的变换规则,根据替换后的变换规则,变换所引入的所述结构信息和字符串信息,并输出变换后的结构信息和变换后的字符串信息。
根据本发明,提供一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:模板存储装置,用于存储具有事先确定的特定模式的结构信息作为一个模板;模板匹配部分检测装置,用于引入形成结构化文档的结构信息和指示该结构信息的变换位置的变换位置信息,并使所述结构信息中由所述变换位置信息指示的变换位置从检测目标中被除外地检测所述结构信息和由所述模板存储装置存储的模板之间的匹配部分;和模板替换装置,用于引入形成结构化文档的结构信息和指示由所述模板匹配部分检测装置检测到的、使变换位置从检测目标中被除外的匹配部分的匹配部分信息,用模板替换所述结构信息中由配部分信息指示的、除了变换位置之外的匹配部分,并输出替换后的结构信息;变换规则模板替换装置,用于引入包括变换后的结构化文档、用于变换形成结构化文档的结构信息和字符串信息的变换规则,从该变换规则中提取所述变换后的结构化文档的结构信息,在由所述模板存储装置存储的模板中,检测与所提取的结构信息匹配的模板,并输出以所检测的模板替换所述结构信息之后的替换后的变换规则;和变换装置,用于引入形成结构化文档的结构信息和字符串信息以及由所述变换规则模板替换装置输出的所述替换后的变换规则,根据替换后的变换规则,变换所引入的所述结构信息和字符串信息,并输出变换后的结构信息和变换后的字符串信息。
为了解决上述问题,本发明提供一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:模板存储装置,用于把具有特定模式的结构信息存储作为一个模板;模板匹配检测装置,用于引入形成所述结构化文档的结构信息和指示结构信息变换位置的变换位置信息,并且用于在结构信息中从检测目标中检测除了变换位置信息指示的变换位置之外的结构信息和模板之间的匹配部分;模板替换装置,用于引入形成结构化文档的结构信息和指示匹配部分的匹配信息,用于用模板替换结构信息中由匹配信息指示的匹配部分,并用于输出替换后的结构信息;和变换装置,用于引入形成结构化文档的字符串信息、替换后的结构信息和用于变换形成结构化文档的结构信息和字符串信息的变换规则,用于根据变换规则来变换所引入的替换后的结构信息和字符串信息,并用于输出变换后的结构信息和变换后的字符串信息。因为这个文档变换系统被配置来:除了变换位置信息指示的变换位置之外,用模板替换结构信息中的匹配部分,所以所述变换装置不必执行把结构信息返回到替换之前的状态的处理。
优选地,文档变换系统被构造在这样一个结构中,其中变换规则包括一个变换位置标识符,并且其中文档变换系统还包括:变换位置检测装置,用于从变换规则中检测变换位置标识符作为变换位置信息,并且用于把所检测的变换位置标识符馈送到匹配检测装置。在此结构中,可以使用从输入的变换规则中所获得的变换位置信息来检测匹配部分。
此外,文档变换系统还可以被构造在这样一个结构中,其中变换规则包括变换位置标识符,并且其中文档变换系统还包括:变换规则存储装置,用于存储变换规则中的变换位置标识符;和变换位置检测装置,用于根据存储在变换规则存储装置中的变换位置标识符的使用频率来检测变换位置信息。文档变换系统还可以被构造在这样一个结构中,其中变换规则包括变换位置标识符,并且其中文档变换系统还包括:变换规则存储装置,用于存储变换规则中的变换位置标识符;和变换位置检测装置,用于检测存储在变换规则存储装置中的变换位置标识符作为变换位置信息。在任一文档变换系统中,变换位置信息都可以在把变换规则输入到变换装置中之前被馈送给匹配检测装置。
优选地,在任何一个上述文档变换系统中,变换规则包括一个变换后的结构化文档,并且文档变换系统还包括:模板发现装置,用于从变换规则中提取变换后的结构化文档的结构信息,并且用于使模板存储装置把所述结构信息存储作为模板。这允许发现装置在每次输入一个变换规则时发现一个模板并把新的模板自动增加到存储装置中,使得更新存储装置。
优选地,构造在这样一个结构中的这个文档变换系统还包括:模板校验装置,用于确定是否必需存储模板发现装置发现的模板,其中,模板发现装置根据模板校验装置做出的判断来存储模板。这个文档变换系统能够从存储器目标中排除不必存储的模板。
在这个文档变换系统的情况下,基于与模板发现装置发现的模板类型相同的模板是否被存储在模板存储装置中,模板校验装置确定是否必需存储模板。这允许系统排除与已存储模板类型相同的模板,而不必存储它。
此外,优选地,在任何一个上述文档变换系统中,模板匹配检测装置检测变换后的结构信息和模板之间的匹配,并且模板替换装置用模板替换从模板匹配检测装置中输出的匹配信息所指示的匹配部分。此结构的文档变换系统再一次把模板应用到变换后的结构信息上,因此它能够在进一步减少数据量的同时执行压缩。
本发明还提供一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:模板存储装置,用于存储具有特定模式的结构信息作为一个模板;变换规则模板替换装置,用于引入一个包括变换后的结构化文档的变换规则,用于变换形成结构化文档的结构信息和字符串信息,用于从变换规则中提取变换后的结构化文档的结构信息,用于检测与结构信息匹配的模板,并且用于输出一个替换后的变换规则,其中结构信息被替换为检测到的模板;和变换装置,用于引入形成结构化文档的结构信息和字符串信息以及替换后的变换规则,用于根据替换后的变换规则变换所引入的结构信息和字符串信息,并且用于输出变换后的结构信息和变换后的字符串信息。在这个文档变换系统中,在替换后的变换规则中变换后的结构化文档的结构信息被预先替换为模板,因此变换装置对替换后的变换规则的变换导致自动地应用该模板,使得在变换的同时完成压缩。
文档变换系统还可以被构造在这样一个结构中,其中:变换规则模板替换装置检测与变换后的结构化文档的结构信息有最小区别的近似模板,提取指示该区别的区别信息,并且用区别信息和近似模板替换该替换后的变换规则。通过使用这样一个近似模板,有效使用模板变得可行。
此外,本发明提供一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:模板存储装置,用于存储具有特定模式的结构信息作为一个模板;模板匹配检测装置,用于引入形成结构化文档的结构信息和指示结构信息变换位置的变换位置信息,并且用于在结构信息中从检测目标中检测除了变换位置信息指示的变换位置之外的结构信息和模板之间的匹配部分;模板替换装置,用于引入形成结构化文档的结构信息和指示匹配部分的匹配信息,用于用模板替换由结构信息中的匹配信息指示的匹配部分,并且用于输出替换后的结构信息;变换规则模板替换装置,用于引入一个包括变换后的结构化文档的变换规则,用于变换形成结构化文档的结构信息和字符串信息,用于从变换规则中提取变换后的结构化文档的结构信息,用于检测与结构信息匹配的模板,并且用于输出一个结构信息被检测到的模板替换的替换后的变换规则;和变换装置,用于引入形成结构化文档的字符串信息、替换后的结构信息和替换后的变换规则,用于根据替换后的变换规则来变换所引入的替换后的结构信息和字符串信息,并且用于输出变换后的结构信息和变换后的字符串信息。在这个文档变换系统中,存储在存储装置中的模板可以被用作为用于替换结构信息和用于替换变换规则的模板。
根据本发明的文档变换系统被配置来执行诸如XML文档之类的结构化文档的变换和压缩,并且能够有效执行压缩和变换而不必需要解压缩结构信息,并因此提高了文档变换的处理速度。
附图说明
图1是示出根据本发明第一实施例的文档变换系统的结构框图。
图2是示出一个XML文档的图。
图3是示出XML文档的数据结构的图。
图4是示出与图3的数据结构分开的结构信息的图,以及在每个节点的字符串信息表。
图5是示出模板500的配置和第一模板515的配置的图。
图6是示出模板实体的配置框图。
图7是示出替换后的结构信息的图。
图8是示出变换后的结构信息的图。
图9是示出第二模板实体的配置框图。
图10是示出另一变换后的结构信息的图。
图11是示出根据本发明第二实施例的文档变换系统的结构框图。
图12是示出变换规则示例的图。
图13是示出作为第二输出数据示例的具有字符串信息列表的另一表格图。
图14是示出通过向图11的文档变换系统提供一个变换规则存储器所获得的文档变换系统的结构框图。
图15是示出一个表格示例的图,所述表格指示存储在图14的变换规则存储器中的变换位置标识符。
图16是示出另一变换规则的示例的图。
图17是示出根据本发明第三实施例的文档变换系统的结构框图。
图18是示出根据本发明第四实施例的文档变换系统的结构框图。
图19是示出数据结构不同于XML文档的数据结构的示例图。
图20是示出模板发现程序的图。
图21是示出另一替换后的变换规则的图。
图22是示出另一变换后的结构信息的图。
图23是示出匹配检测程序示例的图。
图24是示出具有发现装置的文档变换系统的结构框图。
图25是示出具有校验装置的文档变换系统的结构框图。
图26是示出由多个系统组成的文档变换系统的结构框图。
图27是示出变换规则和从变换规则中提取的结构信息的另一示例图。
图28是示出另一替换后的变换规则的图。
具体实施方式
下面将参考附图详细描述根据本发明的文档变换系统的实施例。
(第一实施例)
图1是示出根据本发明第一实施例的文档变换系统101的结构框图。文档变换系统101具有模板存储器(下文称作″存储器″)102,模板匹配检测器(下文称作″匹配检测器″)103,模板替换器(下文称作″替换器″)104,和变换器105。这个文档变换系统101被配置来引入一个结构化文档100的结构信息106和字符串信息107并且输出第一输出数据108和第二输出数据109。
下面将描述输入的结构化文档100。图2是作为结构化文档100的示例示出的XML文档10的图。结构化文档100可以是除XML文档10外的任何其它输入目标,只要它像XML文档10一样具有结构信息和字符串信息并且这二者可以被分开。图3示出了通过熟知的技术(例如,http://xml.apache.org/xerces2-j/中的Xerces等等)解析图2中描述的XML文档10所获得的数据结构11,所述技术把文档变换为适于使用在计算机内的格式。
在图3中,数据结构11具有节点(也称为顶点)301到322,并且节点通过箭头连接。每个箭头指示节点之间的参照关系。在图中,从一个节点向上指的一个箭头意思是表示参考目的地是一个父节点(父参考)。在图中,从一个节点向下指的一个箭头意思是表示参考目的地是一个子节点(子参考)。此外,从一个节点向左指的箭头意思是表示参考目的地是前一同属节点(前一同属参考),而从一个节点向右指的一个箭头意思是表示参考目的地是下一同属节点(下一同属参考)。
每个节点301-323包含节点类型信息和文本信息的描述。节点类型(也称为类型)信息在每个节点的左边被描述:″E″表示节点是一个要素节点;″T″表示节点是一个文本节点。文本信息在每个节点的右边被描述。当节点类型信息为″E″时,在文本信息中描述一个要素名称。当节点类型信息为″T″时,在文本信息中描述一个字符串。例如,在节点302的情况下,在左边的节点类型信息为″E″,因此在右边放置要素名称″B″。另一方面,在节点307的情况下,在左边的节点类型信息为″T″,因此在右边放置一个字符串″abcd″。
由于数据结构11被管理为分成结构信息和包含节点类型信息和文本信息的信息(下文称作″字符串信息″),所以它们还可以分别被表示成如图4(a)和4(b)所示。图4(a)示出了从数据结构11中分离的结构信息12,并且示出了每个节点如何被连接(各个节点的连接关系)。另一方面,图4(b)示出了在每一节点处的字符串信息(节点类型信息或文本信息)的列表的表格13。当本发明第一实施例中的文档变换系统101引入结构化文档100时,所述结构化文档100被馈送到这样一个状态中,其中:诸如图4(a)所示的结构信息12之类的结构信息106与诸如图4(b)所示的表13中列出的字符串信息之类的字符串信息107分开。
存储器102在结构化文档中存储为结构信息预先定义的一个特定模式作为一个模板,例如通常所说的出现频繁的一个模式。模板的一个配置示例如图5(a)所示。如图5(a)所示的模板500具有模板ID 501,连接信息502和模式结构信息503。模板ID 501指示一个模板标识符(识别ID),并且被用于唯一地识别每个模板,在此,存储器102存储了多个模板。连接信息502指示模板的外部接口,并且包含指示一个由模板表示的模式如何能够连接到另一模板或另一节点的信息。模式结构信息503指示模板500的结构信息并且包含多个节点和它们之间的交互参考。
图5(b)是作为模板500的一个特定示例示出了第一模板515的配置框图。在模板ID 504中设置一个特定值″1″。模式结构信息505具有五个节点506到510以及它们之间的交互参考。节点之间的交互参考通过图5(b)中的箭头来指示。交互参考的类型在箭头处根据如下注释而被描述:p是父参考,c是子参考,ns是下一同属参考,而ps是前一同属参考。此模式结构信息505指示的结构信息有五个终点,它们之中的四个终点被允许作为外部接口。它们用″o″来描述。反过来,由″x″描述的每个终点不允许作为外部接口。即,节点506的父参考和节点508、节点509与节点510的子参考是外部接口。连接信息511描述了各个节点的这些外部接口的列表和交互参考的类型。
匹配检测器103引入结构信息106和在结构信息106中指示要被变换器105变换的位置(变换位置)的变换位置信息110,并且从检测的目标中检测除了变换位置信息110指示的变换位置之外的结构信息106和存储在存储器102中的模板之间的一个部分(匹配部分)(使得从检测的目标中排除变换位置)。如图1所示,变换位置信息110被预先提供在文档变换系统101内。可是,文档变换系统101还可以被配置来从外部引入并获得变换位置信息110。另一可能的配置是如此以致提供一个用于变换位置信息110存储的变换位置存储器(未示出),并且匹配检测器103从变换位置存储器中获得变换位置信息。
让我们在此假设:例如,假设如图4(a)所示的结构信息12中的″节点312″作为变换位置信息110被馈送。例如按照如图23(其将稍后描述)所示的程序来执行匹配检测器103中的匹配检测程序。如图23所示,从匹配检测的目标中去除输入的变换位置信息110指示的″节点312″使得从搜索目标中排除它,则匹配检测器103检测结构信息12中与存储在存储器102中的模板的一个匹配部分。
让我们还假定存储器102存储如图5(b)所示的第一模板515。由于在结构信息12中由节点302、303、304、305和306指示的结构信息匹配第一模板515,所以匹配检测器103输出节点302到306作为匹配信息111,指示结构信息12和第一模板515之间的匹配部分。类似地,由于由节点310、311、315、316和317指示的结构信息也匹配第一模板515,所以节点310、311、315、316和317还被输出作为匹配信息111。相比之下,由节点308、309、312、313和314指示的结构信息也匹配第一模板515,但是因为″节点312″作为变换位置信息110被馈送,所以节点308、309、312、313和314从检测的目标中被排除,并且不被包括在匹配信息111中。
在此,多个节点作为变换位置信息110被馈送,匹配检测器103还按照与上面相同的方式检测一个匹配部分。例如,当除了节点312之外在图4(a)中的″节点315″也作为变换位置信息110被馈送时,从匹配检测目标中排除节点312、315之后,匹配检测器103检测一个匹配部分。为此缘故,假如存储在存储器102中的模板只有第一模板515,则作为匹配信息111输出的信息只有节点302-306。匹配检测器103也可以被配置来引入一个估计表达式(例如,Xpath表达式),用于利用结构信息和字符串信息来估计结构信息中变换位置的目标。在这种情况下,匹配检测器103引入字符串信息107,并按照输入的变换位置信息110所指示的估计表达式来估计结构信息12中变换位置的每个目标。
替换器104引入结构信息106和匹配信息111,用模板替换结构信息106中由匹配信息111指示的每个匹配部分,并且在用模板替换之后输出结构信息(替换后的结构信息)112。图6示出了称为模板替换之后的模板的模板实体600。如图6所示,模板实体600被称作一个目标,它具有采用的模板ID 601、实体ID 602、实体连接信息603和实体节点信息604。采用的模板ID 601包含用于指定存储在存储器102中的那些之外在替换之后采用的模板的信息。
由于模板500可以被模板ID 501唯一地规定,如图5(a)所示,所以采用的模板可以被如图6所示的采用的模板ID 601安全地指定。而且,图6中的实体ID 602是用于唯一地规定模板实体600的一个ID。类似地,图6中的实体连接信息603包含规定连接关系的信息,所述连接关系表示模板实体600如何连接到其它节点。如图5(a)所示,模板500在连接信息502中包含外部接口的描述,而实体连接信息603包含一个描述来规定每一外部接口与哪一节点连接。当一个外部接口连接到另一模板中的一个节点时,一个实体ID 602指示它的一个模板实体,并且在该模板中连接的节点被描述。实体节点信息604规定在模板中的每一节点与哪一字符串信息连接。如图5(a)所示,模式结构信息503在模板500中被描述,并且实体节点信息604描述模式结构信息503中的每一节点与哪一字符串信息连接。正如如图4(b)所示的表13中那样,字符串信息具有指定给各个节点的编号(节点编号,图4(b)中的301到323),以及节点类型信息和文本信息,并且可以被节点编号唯一地规定。因此,节点编号在实体节点信息604中被描述。
替换器104的替换结果呈现在图7中。图7是示出在替换器104替换之后替换后的结构信息300的配置框图。替换后的结构信息300是从替换器104中输出的替换后的结构信息112的一个特定示例,并且具有两个模板实体600a,600b。模板实体600a、600b可以通过它们各自的实体ID 602(前者实体ID为″1″而后者实体ID为″2″)而彼此区别。因为模板实体600a、600b两者都具有采用的模板ID″1″,所以如图5(b)所示的第一模板515被采用。每一模板实体的实体连接信息603包含按照如图7所示次序从上开始对应于第一模板515的连接信息511的信息。在本实施例中,提出(顶点ID,交互参考的类型)以便唯一地识别来自每个顶点的参考;例如,(508,c)表示顶点508的一个子参考。
模板实体600a中设置的是指示节点301连接到(506,p)而节点307连接到(508,c)的信息。还设置的是指示节点308连接到(509,c)而2-506连接到(510,c)的信息。在这里,(2-506,p)表示模板实体600b的模板中节点506的一个父参考p(实体ID=″2″)。模板实体600b中设置的是指示第一模板515中(1-510,c)连接到(506,p)而节点321连接到(508,c)的信息。还设置的是指示节点322连接到(509,c)而节点323连接到(510,c)的信息。
实体节点信息604中设置的是按照如图7所示的顺序从上开始在第一模板515中从左上到右下方向上对应于模式结构信息505中节点506到510的信息。在模板实体600a中,实体节点信息包含指示节点302、303、304、305和306分别对应于节点506、507、508、509和510(506-510)的信息。在模板实体600b中,实体节点信息包含指示节点310、311、315、316和317分别对应于节点506-510的信息。以这种方式,如图7所示的替换后的结构信息300具有与如图4(a)所示的结构信息12相同的含意。因为模板被应用来重复使用结构信息,所以在比结构信息12的更低的数据量中完成压缩。
匹配信息111没有反映结构信息12中节点308和后续节点的结构信息(由308、309、312、313、314、318、319、和320形成的结构信息),因为除了节点312之外,执行匹配检测器103对匹配部分的检测。因此,它不被替换器104替换为模板并且结构信息12的内容正如它们存在那样被继续。
然后,变换器105引入字符串信息107、替换后的结构信息112和用于变换所述字符串信息107和替换后的结构信息112的一个变换规则113,并根据变换规则113来变换字符串信息107和替换后的结构信息112。变换器105把变换之后的替换后的结构信息(下文称作″变换后的结构信息″)作为第一输出数据108输出,并且把变换之后的字符串信息(下文称作″变换后的字符串信息″)作为第二输出数据109输出。
变换规则113是变换器105的处理内容的描述,并且包括一个指示变换目标位置的变换目标位置和一个变换后的结构化文档(由结构信息和字符串信息组成),所述变换后的结构化文档指示在包含变换目标位置指示的节点的结构信息变换之后要获得什么结构化文档。这个变换规则113可以从文档变换系统101外部馈送或者可以为变换器105预先指定。
图12是示出作为变换规则113的一个特定示例的变换规则120的配置图。如图12所示的变换规则120由XML来描述,并且包含一条准则,所述准则含意为:变换目标位置是″312″并且在变换目标位置(节点312)指示的节点处和节点之后的结构信息要被变换成<transformmatch=″312″>和</transform>之间的一个结构化文档120a。
图8示出了根据这个变换规则120由变换器105变换的替换后的结构信息,即,变换后的结构信息350,并且图13示出了根据准则120由变换器105变换的字符串信息,即,变换后的字符串信息。图8是变换后的结构信息350的配置框图,而图13是变换后的字符串信息列表的表格23。如图8所示,图4(a)所示的结构信息12中节点312和后续节点(312-318)的结构信息被变换成变换后的结构信息350中节点801和后续节点(801-807)的结构信息。如图13所示,结构信息12中节点312和318的字符串信息被变换成变换后的结构信息350中节点801、802、803、804、805、806和807的字符串信息(那就是说,节点801-807的字符串信息被设置代替节点312,318的字符串信息)。然后,变换后的结构信息350和包括表23的字符串信息分别作为第一输出数据108和作为第二输出数据109被输出。
图16示出了作为变换规则113的另一示例的一个变换规则121。图16是示出变换规则121的图。这个变换规则121由XSLT(可扩展样式表变换语言)来描述,并且正如变换规则120那样包括一个变换目标位置和一个变换后的结构化文档。由要素121a指示的″/A/B/D/F″代表变换目标位置,和遵循<xsl:template match=″A/B/D/F″>和</xsl:template>之间的<J>的一个结构化文档121b是变换后的结构化文档。这个示例包含准则描述,所述准则含意为″/A/B/D/F″指示的部分是要被变换成遵循<J>的结构化文档。变换目标位置由XPath描述,XPath是通过使用结构信息和字符串信息来搜索一个目标的估计表达式的标准技术。在这个示例中,由上面的″/A/B/D/F″表示的变换目标位置指示″F是根节点″/″的子节点A的子节点B的子节点D的子节点″。为了估计这个XPath表达式,因此,需要知道什么作为感兴趣节点的子节点而存在以及什么字符串信息被那个节点所保持。因此,在这种情况下,变换器1015通过使用结构信息106和字符串信息107来确定变换目标位置。
如果执行由包括变换位置信息指示的变换位置在内的模板替换以便完成压缩,则变换器105可以把替换后的变换位置变换成具有与变换之前那个不同的结构信息的结构化文档。然后,在变换之后的结构信息将与使用于替换中的模板不一致并且因此变换器105需要执行一个处理:把替换后的变换位置返回到替换之前的原始结构信息,这降低了压缩和变换处理的效率。可是,当在本实施例中象文档变换系统101中那样除了变换位置之外都执行替换时,不必对替换为模板的结构信息进行解压缩就执行变换,使得达到有效的压缩和变换。
附随地,如图1所示的文档变换系统101被构造为合并了从存储器102到变换器105的这些组件的单个系统,但是根据本发明的文档变换系统不总是必须被实现为单个系统,而是还可以用通过未示出的通信装置连接的多个系统来实现。图26是示出由多个系统组成的文档变换系统的配置框图。如图26所示,文档变换系统被分成由存储器2602、匹配检测器2603和替换器2604组成的第一文档变换系统2601和由变换器2605组成的第二文档变换系统2606。第一文档变换系统2601引入形成结构化文档100的结构信息2607,并且输出替换后的结构信息2613以便把它发射(或馈送)到第二文档变换系统2606。第二文档变换系统2606引入替换后的结构信息2613、形成结构化文档100的字符串信息2608、和一个变换规则2614,把变换后的结构信息作为第一输出数据2609输出,并把变换后的字符串信息作为第二输出数据2610输出。
另一方面,文档变换系统101能够用存储在存储器102中的一个模板替换图1中的第一输出数据108。让我们在此假设存储器102存储如图9所示的第二模板900。图9是示出第二模板900的配置的框图。如图9所示的第二模板900具有一个模板ID 901、连接信息907和模式结构信息902。模板ID 901包含″2″,连接信息907包含(903,p)、(903,ns)、(904,c)、(905,c)和(906,c)。模式结构信息902包含指示节点903、904、905和906的连接的结构信息。
在文档变换系统101中,变换后的结构信息350(参考图8)被馈送给匹配检测器103,并且匹配检测器103检测到形成变换后的结构信息350的节点801到804与第二模板900匹配,并且输出指示检测结果的匹配信息111。替换器104用第二模板900替换由匹配信息111指示的节点801-804。图10是示出替换之后的变换后的结构信息360的配置框图。如图10所示,对于节点801到804采用第二模板900。通过以这种方式再一次把模板应用到变换后的结构信息,则在进一步减少数据量的同时能够进行压缩。
文档变换系统101还可以如图24所示被构造为装备有一个模板发现装置(下文称作″发现器″)2401的文档变换系统2400。除了匹配检测器103、替换器104和变换器105之外,这个文档变换系统2400具有类似于存储器102的存储器2402,以及发现器2401。在文档变换系统2400中,发现器2401从包含变换后的结构化文档的变换规则2403中提取变换后的结构化文档的结构信息(在图12情况下的结构信息1206),并把它作为一个模板存储到存储器2402中。这允许文档变换系统2400在变换规则2403的每次输入时使发现器2401发现一个模板并把新的模板加到存储器2402中,因此更新存储器2402。
此外,还可以如下构造文档变换系统101:当把一个模板存储到存储器2402中时,在存储器上的一个时间戳(更新日期和时间)被附加到要被存储的模板上,并且在替换器104每次使用模板时,时间戳被更新为紧接着变换后的一个时间戳。这允许文档变换系统101通过LRU(最近最少使用的)算法等等来动态地管理存储器2402,这能够减少存储器2402所需的内存高速缓存的容量。
此外,文档变换系统还可以装备有一个模板校验装置(下文称作″校验器″)2501,类似如图25所示的一个文档变换系统2500。这个文档变换系统2500在提供校验器2501方面与文档变换系统2400不同。校验器2501判定由发现器2401发现的模板是否要被存储到存储器2402中(即,它是否需要存储该模板)。
这个文档变换系统2500被配置来按照校验器2501做出的判断来把发现器2401发现的模板存储到存储器2503中。例如,当发现器2401发现的一个模板是与存储在存储器2503中的一个模板类型相同的一个时(即,当存储器2503存储了与发现的模板类型相同的一个模板时),校验器2501确定发现的模板不合适作为一个存储目标模板,并且操作来从存储器的目标中排除它。这防止一个多余的模板被存储到存储器2503中并增加存储器2503的空间利用效率。
应当指出:本发明不是仅仅意指图3中说明的数据结构11。输入目标可以是通过与模板中设置的模式结构信息相同的解析方法能够从中导出结构信息的任何结构化文档:例如,图19示出了指示XML结构的一个标准模型(文档目标模型)的表达式示例。图19是示出数据结构1900的图(关于文档目标模型的细节将参考″http://www.w3.org/DOM/″)。
(第二实施例)
图11是示出根据第二实施例的一个文档变换系统1101的配置框图。如图11所示,文档变换系统1101具有存储器1102、匹配检测器1103、替换器1104、变换器1105和变换位置检测器1112。这个文档变换系统1101引入结构信息1106、字符串信息1107和变换规则1111,并且输出第一输出数据1108和第二输出数据1109。存储器1102、匹配检测器1103、替换器1104和变换器1105具有分别与根据第一实施例的文档变换系统101的存储器102、匹配检测器103、替换器104和变换器105相同的结构。
变换位置检测器1112引入变换规则1111,并检测包括在变换规则1111中的一个指示变换目标位置的编号(变换位置标识符)作为变换位置信息1110。例如,假如变换位置检测器1112引入例如如图12所示的变换规则120作为变换规则1111,它从<transform match=″312″>中检测变换位置标识符″312″作为变换位置信息1110。检测的变换位置信息1110被发射(或馈送)给匹配检测器1103并且其后的操作按照与第一实施例中的文档变换系统101相同的方式来执行,以便实现用模板的替换以及结构信息1106和字符串信息1107的目标的变换。变换规则1111被馈送给变换位置检测器1112以及变换器1105。
通过一种迫使参考结构信息和字符串信息来搜索变换目标位置的语言,变换规则1111有时不用节点编号来描述(例如,XSLT:可扩展样式语言转换等),像如图16所示的变换规则121。在这种情况下,虽然未示出,但是变换位置检测器1112除了变换规则1111之外还可以被配置来引入结构信息1106和字符串信息1107,并且通过估计在由要素121a表明的<xsl:template match=″xxx″>中的部分″xxx″中描述的一个XPath表达式,被配置来在结构信息1106和字符串信息1107中检测变换位置信息。变换位置信息可以通过结构信息1106中的节点编号来描述,使得被使用于匹配检测器1103中。在另一可能的配置中,变换位置检测器1112把″xxx″部分中描述的XPath表达式作为变换位置信息输出,匹配检测器1103进一步引入字符串信息1107,并且匹配检测器1103估计输入的XPath表达式以便规定变换目标位置。
图14是示出具有通过向如图11所示文档变换系统1101进一步提供一个变换规则存储器1401而构成的文档变换系统1400的配置框图。除了文档变换系统1400具有变换规则存储器1401并且输入信息与变换位置检测器1112不同的变换位置检测器1403之外,文档变换系统1400与文档变换系统1101相同。
每当变换器1105使用变换规则1111时,变换规则存储器1401就存储包括在变换规则1111中的一个变换位置标识符。图15是示出存储变换位置标识符表150的图。表150具有一个变换位置列151和一个使用计数列152,并且存储变换位置标识符。
当变换规则存储器1401存储变换位置标识符时,它从变换器1105使用的变换规则1111中提取一个变换位置标识符,把它存储到变换位置列151中,并且把变换位置标识符的使用计数存储到使用计数列152中。表150指示节点305、312和315分别被变换器1105使用三次、十一次和一次。
然后,变换位置检测器1403根据它们的使用频率从存储在变换规则存储器1401中的那些中提取一个变换位置标识符,即,在统计上可能被使用的具有高使用频率的变换位置标识符,并且把它作为变换位置信息发射(或馈送)到匹配检测器1103。例如,在变换位置标识符被存储在表格150中的情况下,高使用频率的变换位置标识符例如可以是使用计数超过某一门限值的标识符。当门限值为″10″时,鉴于使用计数列152中的数值,只有″312″被提取作为变换位置标识符,并且″312″作为变换位置信息被馈送给匹配检测器1103。
其后的处理可以按照与第一实施例相同的方式来执行。即,匹配检测器1103基于结构信息1106来检测与存储在存储器1102中的一个模板的匹配部分。根据指示匹配部分的匹配信息,替换器1104用该模板替换结构信息1106并输出替换后的结构信息。然后,变换器1105根据变换规则来变换替换后的结构信息和字符串信息,把变换后的结构信息作为第一输出数据1108输出,并把变换后的字符串信息作为第二输出数据1109输出。
根据当前实施例中的文档变换系统1101、1400,在变换规则被馈送到变换器1105中之前,变换位置信息可以被馈送给匹配检测器1103,并且从而预先生成和保持替换后的结构信息变得可行。因此,例如,当与一个预先变换的结构化文档相同的结构化文档被重新变换时,预先生成的替换后的结构信息可以被使用,使得跳过(省略)匹配检测器1103处和替换器1104处的匹配检测处理和模板替换。由于这个原因,文档变换系统1101、1400总的处理时间可以减少。
(第三实施例)
图17是示出根据本发明第三实施例的一个文档变换系统1700的配置框图。文档变换系统1700具有模板存储器(下文称作″存储器″)1701,变换规则模板替换器(下文称作″变换规则替换器″)1702和变换器1703。文档变换系统1700引入作为变换目标的结构化文档的结构信息1704和字符串信息1705,以及一个包含变换后的结构化文档的结构信息描述的变换规则1708,把变换后的结构信息作为第一输出数据1706输出,并把变换后的字符串信息作为第二输出数据1707输出。
存储器1701类似于第一实施例中描述的存储器102(参考图1),把为结构化文档中的结构信息预先定义的一个特定模式存储作为一个模板。变换规则替换器1702引入诸如XSLT样式表之类的包含变换后的结构化文档的变换规则1708,并从变换规则1708中提取变换后的结构化文档的结构信息。变换规则替换器1702从存储器1701中检测一个与提取的结构信息匹配的模板,用检测的模板替换结构信息,并且把它作为一个替换后的变换规则1710发射(或馈送)给变换器1703。
假如如图12所示的变换规则120是变换规则1708的一个示例,该变换后的结构化文档是由<transform match=″312″>和</transform>定义的那部分中的结构化文档120a。图20示出了为模式与变换后的结构化文档的结构信息120b相同的一个模板而搜索存储器1701的搜索程序示例。图20是示出模板搜索程序的图。由这个模板搜索程序检测的模板类似如图9所示的第二模板900。
如图20所示执行模板搜索程序:在处理开始之后的步骤1,从变换规则1708中提取变换后的结构化文档的结构信息。如此提取的变换后的结构化文档由Pj表示。重复下列处理,重复次数为变换后的结构化文档的被提取的结构信息项数目。
在步骤2,从存储器1701中选择节点编号与Pj相同的模板。选定的模板由X1,X2,...,Xm表示。重复下列处理,重复次数为选择的模板数目。在步骤3,确定Pj和Xk是否是相同的类型。当它们是相同的类型时,流程转到步骤4;否则,处理终止,不执行步骤4。在步骤4,模板被登记为同一类型的模板,并且处理终止。
图21是作为替换后的变换规则1710示例示出一个替换后的变换规则171的图。如图21所示的替换后的变换规则171示出了如图9所示的第二模板900被应用到如图12所示的变换规则120上的情况。正如所说明的,在变换规则120中描述的在替换后的变换规则171中<transformmatch=″312″>和</transform>之间的结构信息120b被替换为采用的模板ID为″2″的模板(即,第二模板900)。
变换器1703引入结构信息1704、字符串信息1705和替换后的变换规则1710,根据替换后的变换规则1710来变换结构信息1704和字符串信息1705,把变换后的结构信息作为第一输出数据1706输出,并且把变换后的字符串信息作为第二输出数据1707输出。在变换的时候,变换器1703使用包括在替换后的变换规则1710中的变换位置信息(图21示例中的″312″),以便把变换后的结构化文档的结构信息放到结构信息1704中。图22是示出作为变换结果的变换后的结构信息176的图,它是第一输出数据1706的示例。作为第二输出数据1707示例的字符串信息在如图13所示的表23中被列出。这里有第一输出数据1706和第二输出数据1707的示例:如图4(a)所示的结构信息12的输入,图4(b)中描述的字符串信息列表和如图21所示的替换后的变换规则171。正如从如图22所示的替换后的结构信息176中看到的那样,第一输出数据1706是这样一个数据:其中,结构信息中的节点312和后续节点被替换为模板。
因为在替换后的变换规则1710中,变换后的结构化文档的结构信息已经被替换为模板,所以变换器1703用替换后的变换规则1710进行的变换导致把模板自动地应用来完成替换。即,用文档变换完成压缩,以使同时执行压缩和变换。这允许文档变换系统1700更有效率地执行变换和压缩处理。
变换规则替换器1702还可以被配置来从存储器1701中检测与从变换规则1708中提取的结构信息区别最小的一个模板(该模板在下文中将被称为″近似模板″),提取指示该区别的区别信息,并用近似模板和区别信息替换该替换后的变换规则1710。变换规则1708的示例如图27(a)所示,从如图27(a)所示的变换规则1708中提取的结构信息1709如图27(b)所示。例如,在存储在存储器1701中的模板只是图5(b)中描述的第一模板515的情形,变换规则替换器1702把模式结构信息中的节点数目与如图27所示的(提取的)结构信息1709中的节点数目进行比较,当它们相等时,检测一个作为近似模板的模板。在这个示例中,让我们假设一个模式,其中:节点509连接到第一模板515的模式结构信息505中的节点510的ns(在此假设的模式未示出),然后该模式与如图27所示的(提取的)结构信息1709匹配。
图28是示出了通过用模板替换如图27(a)所示的变换规则1708所获得的替换后的变换规则的示例图。如图28所示,由模板替换引来的替换后的变换规则280包括:指示近似模板标识符的一个采用的模板ID 2801,指示模式结构信息的外部接口的实体连接信息2802,指示模式结构信息中节点编号的实体节点信息2803,指示模板实体本身标识符的实体ID 2804,和作为指示与实际结构信息区别的区别信息的模板区别2805。采用的模板ID 2801、实体连接信息2802、实体节点信息2803和实体ID 2804使用的形式分别与形成如图6所示的模板实体600的采用的模板ID 601、实体连接信息603、实体节点信息604和实体ID 602相同。模板区别2805例如指示如何在模板中的模式结构信息中的各个节点连接之间进行切换。
因为如图27(b)所示的结构信息1709具有这样一个结构:其中,如图5(b)所示的第一模板515的模式结构信息505中的节点509连接到节点510的ns,它具有用于断开节点508的ns的连接的信息(模板区别2805的第一行),用于把节点509的ps连接到节点510的ns的信息(模板区别2805的第二行)和用于把节点510的ns连接到节点509的ps的信息(模板区别2805的第三行)。
如上所述,通过使用近似模板实现了存储在存储器1701中的模板的有效应用,并降低了所需的存储器1701的容量。
(第四实施例)
图18是示出根据本发明第四实施例的一个文档变换系统1800的配置框图。文档变换系统1800具有存储器1801、匹配检测器1802、替换器1803、变换器1804和变换规则替换器1805。文档变换系统1800引入作为变换目标的结构化文档的结构信息1806和字符串信息1807,把变换后的结构信息作为第一输出数据1808输出,并且把变换后的字符串信息作为第二输出数据1809输出。
存储器1801类似于第一实施例中的文档变换系统101中的存储器102(参见图1),存储一个预先定义的特定模式作为一个模板。模板可以是具有一个特定模式但是未被预先定义的模板,并且可以通过第一实施例中描述的发现器2401从一个变换规则中提取(参见图24)。
匹配检测器1802类似于第一实施例中的文档变换系统101中的匹配检测器103(参见图1),引入结构信息1806、以及在结构信息1806中指示变换器1804用于变换的变换位置的变换位置信息1810,从检测的目标中检测除了变换位置信息110指示的变换位置之外的存储在存储器1801中的结构信息1806和模板之间的一个匹配部分,并且输出匹配信息1811。匹配检测器1802例如根据如图23所示的匹配检测程序来执行检测。变换位置信息1810可以通过第二实施例中的变换位置检测器1112从变换规则中提取(图18中未示出,参见图1)。在未示出的另一可能配置中,文档变换系统1800可以装备有第二实施例的文档变换系统1400中的变换规则存储器1401和变换位置检测器1403并且可以被配置来根据使用频率来提取存储在变换规则存储器1401中的变换位置标识符。
如图23所示的匹配检测程序如下。在处理开始之后的步骤10,从存储器1801中具有最大节点编号的一个模板开始依次选择模板,并且重复下列处理。选定的模板由Pj表示。然后流程转到步骤11以便从包括在结构信息中的节点中去除作为变换目标的节点,以便定义编号等于Pj节点数目的节点组合,作为X1,X2,...,Xm,并且从它们之中选择一个,并且重复下列处理。一个选定的节点组合由Xk表示。
然后流程转到步骤12来确定是否Xk中的节点中都没有一个具有替换完整标记。当都没有替换完整标记时,流程转到步骤13;否则,处理终止,不执行后续步骤13、14。在步骤13,确定Pj和Xk是否是相同的类型。当它们是相同的类型时,流程转到步骤14;否则,处理终止,不执行后续步骤14。在步骤14,Xk被登记为一个模板匹配部分,并且Xk中的节点用一个替换完整标记来标记。
替换器1803类似于第一实施例的文档变换系统101中的替换器104(参见图1),引入结构信息1806和匹配信息1811,用模板替换由结构信息1806中的匹配信息1811指示的匹配部分,并且输出替换后的结构信息1812。
变换规则替换器1805类似于第三实施例中的变换规则替换器1702(参见图17),引入一个包含变换后的结构化文档的变换规则1813。然后,变换规则替换器1805从输入的变换规则1813中提取变换后的结构化文档的结构信息,从存储器1801中检测一个与提取的结构信息匹配的模板,用该模板替换结构信息,并把它作为一个替换后的变换规则1814发射(或馈送)到变换器1804。
变换器1804类似于第三实施例中的变换器1703(参见图17),引入结构信息1806、字符串信息1807和替换后的变换规则1814,根据替换后的变换规则1814来变换结构信息1806和字符串信息1807,把变换后的结构信息作为第一输出数据1808输出,并把变换后的字符串信息作为第二输出数据1809输出。
结构信息1806具有一个类似于如图4(a)所示的上述结构信息12的配置。字符串信息1807被列出像如图4(b)所示的上述表13那样。变换规则1813具有一个类似于如图12所示的上述变换规则120的配置。存储器1801被假设来存储如图5(b)所示的第一模板515和如图9所示的第二模板900。″312″被预先设置为变换位置信息1810。
在这个示例中,从匹配检测器1802中输出的匹配信息1811是节点302、310,并且从替换器1803中输出的替换后的结构信息1812是如图7所示的替换后的结构信息300。此外,从变换规则替换器1805中输出的替换后的变换规则1814类似如图21所示的替换后的变换规则171。从变换器1804中输出的第一输出数据1808是如图10所示的变换后的结构信息360,并且第二输出数据1809是如图13所示的表23列表的变换后的字符串信息。
如上所述的配置允许存储在存储器1801中的模板被用作替换结构信息1806的模板并且作为替换变换规则1813的模板。如果匹配检测器1802使用如图23所示的匹配检测程序,则存储在存储器1801中的模板可以是一个装在存储器上的存储器上模板(on-memory template),并且包括在变换器1804中的替换后的变换规则1814中的模板可以是存储器上模板(on-memory template)。由于这个原因,变换器1804可以提高模板读出时间并且因此提高处理速度。
这个配置允许第一输出数据1808以这样一个形式被输出,在该形式中,模板既被应用到保持为未被变换器1804变换的结构信息,又被应用到变换后的结构信息。即,不需要再一次把模板应用到第一输出数据1808来完成压缩的一个再压缩处理,以便压缩在第一实施例中描述的变换后的结构信息,该结构信息保持而不被变换,并且通过只让该变换后的结构信息经过变换器1804就可以同时压缩它们。
Claims (11)
1.一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:
模板存储装置,用于将具有事先确定的特定模式的结构信息存储作为一个模板;
模板匹配部分检测装置,用于引入形成结构化文档的结构信息和指示该结构信息的变换位置的变换位置信息,并使所述结构信息中由所述变换位置信息指示的变换位置从检测目标中被除外地检测所述结构信息和由所述模板存储装置存储的模板之间的匹配部分;和
模板替换装置,用于引入形成结构化文档的结构信息和指示由所述模板匹配部分检测装置检测到的、使变换位置从检测目标中被除外的匹配部分的匹配部分信息,用模板替换所述结构信息中由配部分信息指示的、除了变换位置之外的匹配部分,并输出替换后的结构信息;和
变换装置,用于引入形成结构化文档的字符串信息、由所述模板替换装置输出的所述替换后的结构信息、和用于变换形成结构化文档的结构信息和字符串信息的变换规则,根据变换规则来变换所引入的所述替换后的结构信息和所述字符串信息,并输出变换后的结构信息和变换后的字符串信息。
2.根据权利要求1的文档变换系统,其中:变换规则包括变换位置标识符,
所述文档变换系统还包括:
变换位置检测装置,用于从变换规则中检测变换位置标识符作为变换位置信息,并且用于把所检测的变换位置标识符馈送到匹配检测装置。
3.根据权利要求1的文档变换系统,其中:变换规则包括变换位置标识符,
所述文档变换系统还包括:
变换规则存储装置,用于存储变换规则中的变换位置标识符;和
变换位置检测装置,用于根据存储在变换规则存储装置中的变换位置标识符的使用频率来检测变换位置信息。
4.根据权利要求1的文档变换系统,其中:变换规则包括变换位置标识符,
所述文档变换系统还包括:
变换规则存储装置,用于存储变换规则中的变换位置标识符;和
变换位置检测装置,用于检测存储在变换规则存储装置中作为变换位置信息的变换位置标识符。
5.根据权利要求1-4任何一个的文档变换系统,其中:变换规则包括变换后的结构化文档,
所述文档变换系统还包括:
模板发现装置,用于从变换规则中提取变换后的结构化文档的结构信息,并且用于使模板存储装置把所述结构信息存储作为模板。
6.根据权利要求5的文档变换系统,还包括:模板校验装置,用于确定是否必需存储模板发现装置发现的模板,
其中,模板发现装置根据模板校验装置做出的判断来存储模板。
7.根据权利要求6的文档变换系统,其中:基于与模板发现装置发现的模板类型相同的模板是否被存储在模板存储装置中,模板校验装置确定是否必需存储模板。
8.根据权利要求1-4任何一个的文档变换系统,其中:模板匹配检测装置检测变换后的结构信息和模板之间的匹配,和
其中模板替换装置用模板替换从模板匹配检测装置中输出的匹配信息所指示的匹配部分。
9.一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:
模板存储装置,用于存储具有事先确定的特定模式的结构信息作为一个模板;
变换规则模板替换装置,用于引入包括变换后的结构化文档、用于变换形成结构化文档的结构信息和字符串信息的变换规则,从该变换规则中提取所述变换后的结构化文档的结构信息,在由所述模板存储装置存储的模板中,检测与所提取的结构信息匹配的模板,并输出以所检测的模板替换所述结构信息之后的替换后的变换规则;和
变换装置,用于引入形成结构化文档的结构信息和字符串信息以及由所述变换规则模板替换装置输出的所述替换后的变换规则,根据替换后的变换规则,变换所引入的所述结构信息和字符串信息,并输出变换后的结构信息和变换后的字符串信息。
10.根据权利要求9的文档变换系统,其中:变换规则模板替换装置检测与变换后的结构化文档的结构信息有最小区别的近似模板,提取指示该区别的区别信息,并且用区别信息和近似模板来替换替换后的变换规则。
11.一种文档变换系统,用于变换具有结构信息和字符串信息的结构化文档,所述文档变换系统包括:
模板存储装置,用于存储具有事先确定的特定模式的结构信息作为一个模板;
模板匹配部分检测装置,用于引入形成结构化文档的结构信息和指示该结构信息的变换位置的变换位置信息,并使所述结构信息中由所述变换位置信息指示的变换位置从检测目标中被除外地检测所述结构信息和由所述模板存储装置存储的模板之间的匹配部分;和
模板替换装置,用于引入形成结构化文档的结构信息和指示由所述模板匹配部分检测装置检测到的、使变换位置从检测目标中被除外的匹配部分的匹配部分信息,用模板替换所述结构信息中由配部分信息指示的、除了变换位置之外的匹配部分,并输出替换后的结构信息;
变换规则模板替换装置,用于引入包括变换后的结构化文档、用于变换形成结构化文档的结构信息和字符串信息的变换规则,从该变换规则中提取所述变换后的结构化文档的结构信息,在由所述模板存储装置存储的模板中,检测与所提取的结构信息匹配的模板,并输出以所检测的模板替换所述结构信息之后的替换后的变换规则;和
变换装置,用于引入形成结构化文档的结构信息和字符串信息以及由所述变换规则模板替换装置输出的所述替换后的变换规则,根据替换后的变换规则,变换所引入的所述结构信息和字符串信息,并输出变换后的结构信息和变换后的字符串信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP332389/2003 | 2003-09-24 | ||
JP2003332389A JP4177218B2 (ja) | 2003-09-24 | 2003-09-24 | 文書変換装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1601519A CN1601519A (zh) | 2005-03-30 |
CN100561464C true CN100561464C (zh) | 2009-11-18 |
Family
ID=34191464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100117331A Expired - Fee Related CN100561464C (zh) | 2003-09-24 | 2004-09-24 | 文档变换系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7530017B2 (zh) |
EP (2) | EP1990737B1 (zh) |
JP (1) | JP4177218B2 (zh) |
CN (1) | CN100561464C (zh) |
DE (2) | DE602004025888D1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8185820B1 (en) * | 2005-04-06 | 2012-05-22 | Adobe Systems Incorporated | System and/or method for document generation |
CA2607495A1 (en) | 2005-04-18 | 2006-10-26 | Research In Motion Limited | System and method for efficient hosting of wireless applications by encoding application component definitions |
US8286075B2 (en) * | 2006-03-07 | 2012-10-09 | Oracle International Corporation | Reducing resource requirements when transforming source data in a source markup language to target data in a target markup language using transformation rules |
JP2007249754A (ja) * | 2006-03-17 | 2007-09-27 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法およびプログラム |
GB2443438A (en) * | 2006-10-30 | 2008-05-07 | Hewlett Packard Development Co | Method of constructing and storing a document |
FR2914759B1 (fr) * | 2007-04-03 | 2009-06-05 | Canon Kk | Procede et dispositif de codage d'un document hierarchise |
US7933871B2 (en) * | 2007-12-28 | 2011-04-26 | Microsoft Corporation | Discovering and updating templates |
US8209341B2 (en) * | 2008-09-30 | 2012-06-26 | International Business Machines Corporation | Configurable transformation macro |
US8086618B2 (en) * | 2008-09-30 | 2011-12-27 | International Business Machines Corporation | Configuration rule translation mapper |
US8756407B2 (en) | 2008-09-30 | 2014-06-17 | International Business Machines Corporation | Configuration rule prototyping tool |
JP5440004B2 (ja) * | 2008-10-20 | 2014-03-12 | セイコーエプソン株式会社 | 情報配信システム、情報配信システムのサービス実現方法およびそのプログラム |
JP5293086B2 (ja) | 2008-10-28 | 2013-09-18 | セイコーエプソン株式会社 | 情報配信システム、情報配信システムのサービス実現方法およびそのプログラム |
CN102103591B (zh) * | 2009-12-18 | 2014-04-16 | 北大方正集团有限公司 | 一种利用结构化数据实现文档内容自动更新的方法及系统 |
US8793273B1 (en) * | 2011-06-29 | 2014-07-29 | Google Inc. | Parsing framework method and device |
FR2977692B1 (fr) * | 2011-07-07 | 2015-09-18 | Aquafadas Sas | Enrichissement de document electronique |
CN103177064B (zh) * | 2012-12-05 | 2016-10-05 | 师建中 | 一种自动取录电子文档中指定内容的方法 |
US20190034392A1 (en) * | 2017-07-31 | 2019-01-31 | Ca, Inc. | Correlation across hierarchical serialization boundaries |
US10783138B2 (en) * | 2017-10-23 | 2020-09-22 | Google Llc | Verifying structured data |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297569A (ja) * | 2001-03-30 | 2002-10-11 | Fujitsu Ltd | 構造化文書変換装置及びクエリー変換装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487566B1 (en) * | 1998-10-05 | 2002-11-26 | International Business Machines Corporation | Transforming documents using pattern matching and a replacement language |
US6643652B2 (en) * | 2000-01-14 | 2003-11-04 | Saba Software, Inc. | Method and apparatus for managing data exchange among systems in a network |
JP3368883B2 (ja) | 2000-02-04 | 2003-01-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 |
US7111076B2 (en) * | 2000-04-13 | 2006-09-19 | Intel Corporation | System using transform template and XML document type definition for transforming message and its reply |
US20010051962A1 (en) * | 2000-06-08 | 2001-12-13 | Robert Plotkin | Presentation customization |
JP4774145B2 (ja) | 2000-11-24 | 2011-09-14 | 富士通株式会社 | 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム |
JP3692054B2 (ja) | 2001-05-21 | 2005-09-07 | 株式会社東芝 | 文書構造変換方法および文書構造変換装置およびプログラム |
JP2003044459A (ja) | 2001-08-02 | 2003-02-14 | Hitachi Software Eng Co Ltd | 構造化データに対するデータ圧縮方法およびデータ交換方法 |
US7133862B2 (en) * | 2001-08-13 | 2006-11-07 | Xerox Corporation | System with user directed enrichment and import/export control |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
US7130861B2 (en) * | 2001-08-16 | 2006-10-31 | Sentius International Corporation | Automated creation and delivery of database content |
JP3857663B2 (ja) * | 2002-04-30 | 2006-12-13 | 株式会社東芝 | 構造化文書編集装置、構造化文書編集方法及びプログラム |
WO2004068320A2 (en) * | 2003-01-27 | 2004-08-12 | Vincent Wen-Jeng Lue | Method and apparatus for adapting web contents to different display area dimensions |
-
2003
- 2003-09-24 JP JP2003332389A patent/JP4177218B2/ja not_active Expired - Fee Related
-
2004
- 2004-09-15 US US10/940,802 patent/US7530017B2/en not_active Expired - Fee Related
- 2004-09-22 DE DE602004025888T patent/DE602004025888D1/de not_active Expired - Lifetime
- 2004-09-22 EP EP08015224A patent/EP1990737B1/en not_active Ceased
- 2004-09-22 DE DE602004024260T patent/DE602004024260D1/de not_active Expired - Lifetime
- 2004-09-22 EP EP04022568A patent/EP1519279B1/en not_active Expired - Lifetime
- 2004-09-24 CN CNB2004100117331A patent/CN100561464C/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297569A (ja) * | 2001-03-30 | 2002-10-11 | Fujitsu Ltd | 構造化文書変換装置及びクエリー変換装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1990737A1 (en) | 2008-11-12 |
EP1519279A3 (en) | 2007-12-19 |
DE602004025888D1 (de) | 2010-04-22 |
EP1519279B1 (en) | 2010-03-10 |
EP1990737B1 (en) | 2009-11-18 |
EP1519279A2 (en) | 2005-03-30 |
CN1601519A (zh) | 2005-03-30 |
JP4177218B2 (ja) | 2008-11-05 |
JP2005100057A (ja) | 2005-04-14 |
DE602004024260D1 (de) | 2009-12-31 |
US20050097454A1 (en) | 2005-05-05 |
US7530017B2 (en) | 2009-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100561464C (zh) | 文档变换系统 | |
CN103593371B (zh) | 推荐搜索关键词的方法和装置 | |
CN102683149B (zh) | 质量分析数据处理方法和质量分析数据处理系统 | |
CN104283567A (zh) | 一种名称数据的压缩、解压缩方法及设备 | |
JP2009104591A (ja) | ウェブ文書クラスタリング方法およびシステム | |
US7774387B2 (en) | Data compressor, data decompressor, and data management system | |
CN102521356B (zh) | 基于确定有限状态自动机的正则表达式匹配设备和方法 | |
CN102508901A (zh) | 基于内容的海量图像检索方法和系统 | |
KR20150137388A (ko) | 데이터 처리 시스템 및 방법 | |
KR101824928B1 (ko) | 다양한 아이템 중요도를 가지는 불확실 데이터로부터 빈발한 아이템셋을 마이닝하기 위한 방법 및 이를 수행하는 불확실 가중화 빈발 아이템 마이닝 장치 | |
JP5789236B2 (ja) | 構造化文書分析方法、構造化文書分析プログラム、および構造化文書分析システム | |
CN103929499A (zh) | 一种物联网异构标识识别方法和系统 | |
JP4776389B2 (ja) | 符号化文書復号方法及びシステム | |
JP2006287518A (ja) | 圧縮規則生成方法、圧縮通信装置及びプログラム | |
KR20190088112A (ko) | 신재생에너지의 발전량 데이터를 모니터링하는 메타 모델 기반 프로토콜의 저용량 전송을 위한 데이터 변형 방법 및 신재생에너지의 발전량 데이터를 모니터링하기 위한 메타 모델 기반 프로토콜의 저용량 전송을 위한 데이터 전송 시스템 | |
CN109299132B (zh) | Sql数据处理方法、系统以及电子设备 | |
CN115048913B (zh) | 一种命令处理方法、装置和电子设备 | |
KR102087272B1 (ko) | 메타 모델 기반 프로토콜의 저용량 전송을 위한 데이터 변형 방법 및 메타 모델 기반 프로토콜의 저용량 전송을 위한 데이터 전송 시스템 | |
CN110807092B (zh) | 数据处理方法及装置 | |
CN113076107A (zh) | 一种通过有限状态机对日志进行自动采集融合的方法 | |
CN114385568A (zh) | 工业设备的检测数据、数据处理方法及装置、计算设备 | |
CN111510154A (zh) | 坐标数据压缩方法 | |
JP2830697B2 (ja) | データ処理装置 | |
CN110825846A (zh) | 数据处理方法及装置 | |
CN113468202B (zh) | 内存数据的筛选方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091118 Termination date: 20140924 |
|
EXPY | Termination of patent right or utility model |