WO2006103777A1 - 構造化データ変換方式 - Google Patents

構造化データ変換方式 Download PDF

Info

Publication number
WO2006103777A1
WO2006103777A1 PCT/JP2005/006173 JP2005006173W WO2006103777A1 WO 2006103777 A1 WO2006103777 A1 WO 2006103777A1 JP 2005006173 W JP2005006173 W JP 2005006173W WO 2006103777 A1 WO2006103777 A1 WO 2006103777A1
Authority
WO
WIPO (PCT)
Prior art keywords
structured data
data
conversion
information
html
Prior art date
Application number
PCT/JP2005/006173
Other languages
English (en)
French (fr)
Inventor
Satoshi Nakashima
Junichi Odagiri
Shigeru Yoshida
Takuroh Yamaguchi
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2005/006173 priority Critical patent/WO2006103777A1/ja
Priority to JP2007510300A priority patent/JP4216323B2/ja
Priority to EP05721671A priority patent/EP1870821A4/en
Publication of WO2006103777A1 publication Critical patent/WO2006103777A1/ja
Priority to US11/905,304 priority patent/US20080091699A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Definitions

  • the present invention relates to a technique for converting structured data into structured data of another format, and more particularly, to a technique for converting structured data in consideration of reconversion.
  • HTML HyperText Markup Language
  • XML has a language structure that allows users to freely define tags and give meaning to character strings in data, and is suitable for information processing on computers.
  • XML data has a format that can flexibly describe hierarchical structured data, and has the advantage of being easy to process data such as searching and processing mechanically by a program.
  • HTML for describing the display style, it cannot be displayed easily by humans. For this reason, various data processing is performed on the server using XML data, which is converted to HTML data and passed to the client PC.
  • the HTML data is generally displayed on a web browser.
  • Patent Document 1 discloses a technique that discloses a technique for converting structural data.
  • Patent Document 2 discloses a conversion in which an attribute value indicating an index and depth is added to XML data so that the original structure data can be reconstructed after editing processing such as sorting or partial cutout. The point which performs is disclosed.
  • FIGS. 1 (a) and 1 (b) show the methods currently used to use the same data for both display and information processing.
  • the method in (a) in the figure is a method in which both the original XML data and the HTML data generated by converting this XML data for display are held on the Web server and made public to the user.
  • the method shown in Fig. 1 (b) uses HT when generating XML data by converting XML data.
  • the entire XML data is included in the ML data, and this HTML data on the user side Extracts XML data and performs information processing.
  • this method differs from the above in that the file managed by the Web server is only one HTML data file.
  • This HTML data contains the entire XML data, The size is larger than the sum of both HTML data and XML data.
  • Another method is reverse conversion from HTML to XML.
  • HTML describes the display style, and that information (the relationship between XML tags and values) cannot be described. Therefore, conversion from HTML to XML cannot be realized because important information is missing.
  • the present invention has an object to provide a structured data conversion apparatus capable of performing conversion from XML to HTML that enables reverse conversion to HTML power XML. To do.
  • Patent Document 1 JP 2002-128232 A
  • Patent Document 2 JP 2004-62600 A
  • the structured data conversion apparatus is based on the premise that the first structured data is converted into the second structured data described in a language different from the first structured data.
  • an inverse transformation information generation unit and an inverse transformation information storage unit are provided.
  • the inverse conversion information generation unit is deleted when converting the first structured data into the second structured data, and the converted second structured data is converted into the first structured data. Data necessary for reverse conversion is extracted from the first structured data as reverse conversion information.
  • the inverse transformation information storage unit incorporates the inverse transformation information into the second structured data when converting the first structured data into the second structured data.
  • the first structured data before conversion can be reproduced using the inverse conversion information in the second structure data after conversion.
  • the information processing apparatus further includes an inverse conversion unit that inversely converts the second structured data into the first structure data using the inverse conversion information embedded in the second structure data. You can also
  • the inverse transformation information storage unit may be configured to include the inverse transformation information in a form that does not affect the appearance when the second structured data after conversion is displayed on a Web browser. I can do it.
  • the second structured data is in HTML, it is embedded in an anchor tag or a comment tag.
  • the reverse conversion information generation unit when the first structured data includes a repetitive structure, the reverse conversion information generation unit generates the reverse conversion information for the entire repetitive structure, and the reverse conversion information storage unit A configuration can be adopted in which conversion information is loaded corresponding to the entire repetitive structure.
  • a partial reverse conversion unit that reversely converts a part of the first structured data from the second structured data based on an instruction from the user.
  • the second structured data converted from the first structure data may further include a search unit that performs a search based on a search condition of a user force.
  • the inverse transformation information is information required at a minimum when inversely transforming the second structured data into the first structured data, for example, a tag of the tag in the first structured data It can be configured as information indicating the correspondence between names and tags and element contents.
  • the present invention includes not only a structural data conversion device but also a structured data conversion method, program and storage medium.
  • FIG. L (a) and (b) are diagrams showing a method currently used to use the same data for both display and information processing. It is a figure which shows the system by embodiment.
  • FIG. 2 is a schematic configuration diagram of a structure-rich data conversion device in the present embodiment.
  • FIG. 3 is a diagram showing an example of structured document conversion performed by the structured data conversion apparatus of the present embodiment.
  • FIG. 4 is a flowchart showing an operation process at the time of conversion processing from XML data to HTML data performed by a conversion processing unit.
  • FIG. 5 (a) is a diagram showing an example of an item name table, (b) is a diagram showing an example of an item value table, (c) is a diagram showing an example of an HTML style specification 222 expanded in memory, ( FIG. 4D shows an example of an HTML style in which this replacement is performed.
  • FIG. 6 is a diagram schematically showing an example of an XML memory structure.
  • FIG. 7 is a flowchart showing an operation process during reverse conversion processing from HTML data to XML data performed by the reverse conversion processing unit.
  • FIG. 8 is a diagram showing an outline of conversion by the structured data conversion device when the conversion source structured document has a repeated structure.
  • FIG. 9 is a diagram showing an example of conversion when a conversion source structured document includes a repetitive structure.
  • FIG. 10 is a flowchart showing processing when a conversion source structured document has a repetitive format and this is converted into a tabular structured document.
  • FIG. 11 (a) is an example of item name table, (b) is an example of item table value, (c) is an example of HTML style specification expanded on memory, (d ) Is a diagram showing an example of the generated anchor tag, and (e) is a diagram showing an example of HTML description.
  • FIG. 12 is a flowchart showing a process in the case where the structured document converted in the table format by the structured data conversion apparatus of the present embodiment is reverse-converted by the reverse-conversion processing unit.
  • FIG. 13 is a diagram showing a partial inverse transform process.
  • FIG. 14 is a flowchart showing partial reverse conversion processing by the partial reverse conversion processing unit.
  • FIGS. 15A and 15B are explanatory diagrams of search processing according to the present embodiment.
  • FIG. 16 is a flowchart showing search processing performed by a search processing unit.
  • FIG.17 A diagram showing an example of reverse conversion information embedded in an HTML comment tag
  • FIG. 18 is a computer system environment diagram.
  • FIG. 19 is a diagram illustrating an example of a medium.
  • Fig. 1 (c) shows the HT of XML data by the structure data converter in this embodiment.
  • HTML data conversion apparatus when converting XML data to HTML data, information necessary for re-converting to XML data that would otherwise be lost during HTML conversion (hereinafter referred to as reverse conversion) Information) is efficiently embedded in HTML data.
  • reverse conversion information necessary for re-converting to XML data that would otherwise be lost during HTML conversion
  • this reverse conversion information is information indicating the correspondence between the tag name and element contents that are required at the time of reverse conversion. Therefore, even if this information is embedded in the conversion result, the size of the converted data is not significantly affected.
  • FIG. 2 is a schematic configuration diagram of the structured data conversion apparatus according to this embodiment.
  • the structured data conversion device 1 includes a conversion processing unit 11, an inverse conversion processing unit 12, a partial reverse conversion processing unit 13, and a search processing unit 14.
  • the conversion processing unit 11 reads the conversion source XML data 2 and the conversion definition 3 to be converted, and converts the conversion source XML data 2 into HTML data 4 based on the conversion definition 3.
  • the reverse conversion information 41 is included in the HTML data 4 that is the conversion result of the conversion processing unit 11.
  • the reverse conversion processing unit 12 performs reverse conversion of the HTML data 4 to the XML data 2, and generates HTML data 4 power XML data 2 using the reverse conversion information in the HTML data 4.
  • the partial reverse conversion processing unit 13 performs reverse conversion on a part of the HTML data 4 generated by the conversion processing unit 11 to generate partial XML data 6 of the conversion source XML data 2. The generation of the partial XML data 6 by the partial reverse conversion processing unit 13 is also performed using the reverse conversion information 41.
  • the search processing unit 14 performs a search on the HTML data 4 that is the conversion result by the conversion processing unit 11 based on the search condition 5 and outputs a search result 7. Since the HTML data 4 generated by the conversion processing unit 11 has the reverse conversion information 41 inside, it can be searched like XML data. Details of this point will be described later.
  • the structured data conversion apparatus has only a configuration including all of the conversion processing unit 11, the inverse conversion processing unit 12, the partial reverse conversion processing unit 13, and the search processing unit 14 as its components. Instead, it can be realized as a configuration including only a part thereof, for example, only the conversion processing unit 11 or only the conversion processing unit 11 and the inverse conversion processing unit 12.
  • FIG. 3 shows an example of structured document conversion performed by the structured data conversion apparatus of the present embodiment.
  • the figure shows an example of converting XML data to HTML data.
  • the tag name (element name) of ⁇ Product information>, ⁇ Product name>, ⁇ Price>, and ⁇ Type name> is used as information in addition to the element content that is data. Wait The relationship between these tags and element content is usually lost when converted to HTML data.
  • the conversion processing unit 11 When converting this XML data 21 into HTML data 23, the conversion processing unit 11 reads information that is normally lost, such as the tag name and the relationship between the tag and the element content, based on the instruction by the conversion definition 22. Then, the information is converted into reverse conversion information, and information necessary for reconversion at this time is included in the HTML data 23.
  • conversion definition 22 specifies item definition 221 and HTML style specification 222, of which item definition 221 is the position in the hierarchical structure for each element in target XML data 21. Is specified. For example, the product information> product information> product name> in the lower hierarchy is specified as item 1 in the item definition 221.
  • the HTML style specification 222 specifies the structure of the converted HTML data 23.
  • the conversion processing unit 11 obtains information on the position of each element constituting the XML data 21 to be converted from the item definition 221 of the conversion definition 22, and the data at the position from the XML data 21. Get (element content). For example, from the designation “/ Product information / Product name” in Item 1, it can be seen that the upper hierarchy in XML data 21 represents the position of the item “Product name” in “Product”. Get “CELSIUS” which is the data of the position.
  • the start tag and the end tag that sandwiched the data are respectively replaced with anchors.
  • the start tag 221 force anchor 231 for the data (element content) 222 is replaced with the anchor 233 and the small amount tag 213 is replaced before and after the data 232.
  • the L data 23 is obtained by using this inverse transformation information when performing this inverse transformation.
  • the description part 234 is embedded as an anchor and reproduces the tag of the XML data 21 from the reverse conversion information.
  • FIG. 4 is a flowchart showing an operation process at the time of conversion processing from XML data 21 to HTML data 23 performed by the conversion processing unit 11.
  • the operation performed by the conversion processing unit is shown as an example in which the XML data 21 to be converted shown in FIG. 3 is converted using the conversion definition 22 and the HTML data 23 is obtained as the conversion result. Will be explained.
  • step S1 When processing is started in the figure, first, the XML data 21 to be converted and the conversion definition 22 are read into the memory, and then the conversion definition 22 is analyzed as step S1, and the item name table is stored in the memory. Is generated.
  • Fig. 5 (a) shows an example of the item name table.
  • the item name table in the figure shows the relationship between each item and the position of the element in the XML data 21 to which the item corresponds. This item name table is generated from the item definition 221 of the conversion definition 22.
  • the conversion processing unit 11 analyzes the XML data 21 that is the conversion source, and expands the XML memory structure indicating the tree structure on the memory.
  • Figure 6 shows a schematic diagram of this XML memory structure.
  • the XML memory structure is composed of a tag name portion 61 and a tag content portion 62.
  • the tag name portion indicates the hierarchical position of each data (element content) by a tag name. 6
  • the conversion processing unit 11 uses the item name table generated in step S1 as step S3, and step S3.
  • the item value table is generated from the XML memory structure generated in step 2 as step S3.
  • Figure 5 (b) shows an example of the item value table.
  • This item value table shows the relationship between each item in the item name table and the data (element content) in XML data 21.
  • item 1 is CELCIUS
  • item 2 is T1234
  • item 3 indicates 200,000 yen.
  • the conversion processing unit 11 expands the HTML style specification 222 part of the conversion definition 22 in the memory as step S4.
  • Figure 5 (c) shows an example of the HTML style specification 222 expanded on this memory. This HT
  • ML style specification 222 becomes the template of converted HTML data 23.
  • the conversion processing unit 11 executes the HTM expanded on the memory in step S4 as step S5.
  • step S6 the item name corresponding to the extracted character string and the item value corresponding to the item name are acquired from the item name table and the item value table, and in step S7, the position information of the item name is set to HT.
  • the ML anchor tag's "name” attribute and the item value sandwiched between the tags are the tag contents.
  • Fig. 5 (d) shows an example of an HTML style with this replacement.
  • Fig. 5 (d) shows the item 1 part replaced.
  • the "product information / product name” which is the position information of the item 1 becomes the "name” attribute 52 of the anchor tag.
  • the CELCIUS force anchor tag which is the item value of item 1, is described as tag contents 53 sandwiched between the start tag and end tag of the anchor tag.
  • step S8 the conversion processing unit 11 performs step S8 as shown in FIG.
  • the HTML style text after such replacement is output as HTML data 23 of the conversion result, and this process ends.
  • the reverse conversion information which is information necessary for the reverse conversion of the conversion source data, can be included in the conversion result.
  • the converted data in which the reverse conversion information is embedded does not display the reverse conversion information even if it is displayed by the Web browser.
  • the information embedded in the HTML data as the reverse conversion information is the tag position information and the like, so the data size can be reduced compared to the case where the original XML data is embedded as it is.
  • FIG. 7 is a flowchart showing an operation process at the time of reverse conversion processing from HTML data 23 to XML data 21 performed by the reverse conversion processing unit 12.
  • the reverse conversion processing unit 12 is taken as an example in which the HTML data 23 converted by the structured data conversion apparatus of this embodiment shown in FIG. 3 is reversely converted to obtain the XML data 21 as a conversion result. The operation performed by is described.
  • the inverse transform processing unit 12 first reads out the HTML data 23 to be processed from the memory, analyzes the HTML data 23 as step S11, and determines the anchor tag portion. Extract all.
  • step S 12 determines the anchor has become "n ame" trailing force attribute part of the string S "_ e" anchor extracted in step S 11, also In step S13, the string power of the "name” attribute part paired with the anchor obtained in step S12. The character excluding "_e” from the end of the "name” attribute part of the anchor in step S12 Get the column anchor.
  • step S14 the inverse conversion processing unit 12 acquires a character string surrounded by the pair of anchors acquired in step S12 and step S13.
  • the inverse transformation portion 12 decomposes the character string of the "name" attribute of the anchor anchor obtained in step S12 or S13 as step S15, with "/" as a delimiter.
  • the tag name part 61 of the memory structure of the XML data as shown in 6 is generated.
  • the inverse conversion unit 12 generates a tag content portion 62 in addition to the memory structure of the XML data in FIG. 6 as an element content including the character string surrounded by the anchor acquired in step S14.
  • the memory structure of the XML data generated in this way is finally converted into XML data in step S17 for the reverse conversion, and this is output as an XML file, and this process is terminated.
  • the structured data conversion apparatus can reproduce the original XML data by re-converting the HTML data converted from the XML data.
  • XML often includes a structure with repeated data having the same structure as its characteristics.
  • HTML When XML data having these repeating structures is expressed in HTML, it is often expressed in a table format (T ABLE tag) or a list format (UL tag).
  • the entire table (or list) (the entire repeating structure) can be embedded more efficiently so that reverse conversion information can be embedded.
  • it carries a set of inverse transformation information.
  • FIG. 8 is a diagram showing an outline of conversion by the structured data conversion device when the conversion source structured document has a repetitive structure.
  • the structured data converter analyzes the source structured document 81, and if there is a repeating structure such as a table, the reverse conversion information for these is put together into a structured document 82 that is the conversion result. To do.
  • FIG. 9 shows an example of conversion when the conversion source structured document includes a repetitive structure. This figure also shows an example of conversion from XML data to HTML data, as in Figure 3.
  • the XML data 91 which is the structure document of the conversion source is converted into HTML data 93 using the conversion definition 92 defined by the user.
  • the XML data 91 in FIG. 9 has a repeating structure 911 of type name>, name>, and price> parts, and conversion definition 92 defines these as items in item definition 921.
  • HTML style specification 922 defines "MALE-TABLE" and conversion to a table format.
  • the “record” part of 921 of the item definition indicates the part that becomes the record of the table, and “MALE—TABLE” of the HTML style specification 922 is a tabular style with the items as arguments as rows. It shows that there is.
  • HTML data 93 is obtained as a conversion result.
  • This HTML data 93 shows a table having the element contents of ⁇ type name>, ⁇ name>, and ⁇ price> in XML data 91 as defined in the conversion definition 92. Also, in this HTML data 93, reverse conversion information 931 and 932 are embedded as anchors at the beginning and end of the table.
  • the display result 94 is the HTML data 93 that is the conversion result displayed by the Web browser. However, since the reverse conversion information is embedded as an anchor, there is no influence on the display.
  • FIG. 10 is a flowchart showing processing when the conversion source structured document has a repetitive format as described above, and this is converted to a tabular structured document.
  • the operation performed by the conversion processing unit is shown by taking as an example the case of converting the XML data 91 to be converted shown in FIG. 9 using the conversion definition 92 and obtaining the HTML data 93 as the conversion result. Will be explained.
  • the processing is started in the figure, first, the XML data 91 to be converted and the conversion definition 92 are read into the memory, then the conversion definition 92 is analyzed as step S21, and the item name table is stored in the memory. And item table values are generated. This process is the same as steps Sl and S2 in Fig. 4.
  • FIG. 11A shows an item name table generated at this time
  • FIG. 11B shows an example of the item table value.
  • the item name table in FIG. 6A shows the relationship between each item and the position of the element in the XML data 91 to which the item corresponds. This item name table is generated from the item definition 291 of the conversion definition 92.
  • the item name table in Fig. 11 (a) includes "Record" as an item in addition to items 1 to 3. Yes.
  • the item table value in Fig. 11 (b) has a repetitive structure in the source XML data 91, so multiple items correspond to one item. ing.
  • the conversion processing unit 11 specifies the HTML style in the conversion definition 92 as step S22.
  • the 922 is expanded on the memory.
  • FIG. 11 (c) shows an example of HTML style specification 922 expanded on this memory. This H
  • the TML style specification 922 becomes a template for the HTML data 93 after conversion.
  • M the template for the HTML data 93 after conversion.
  • HTML data 93 is formed in a table format with the data of item 3 as rows.
  • step S23 the conversion processing unit 11 performs the character ⁇ $ item + number ”($ item1, $ item2, which is an argument of“ MAKE_TABLE ( ⁇ )) ”specified in the HTML style expanded in memory. ⁇ ) are extracted, and in step S24, the item name corresponding to the extracted character string and the item value corresponding to the item name are obtained from the item name table and the item value table.
  • the conversion processing unit 11 generates the character string of the "name” attribute of the HTML anchor tag in step S25 as the position information of the "record” of the item name 92 ("/ product name / product” in Fig. 9) To do.
  • FIG. 11 (d) shows an example of the anchor tag generated in step S25.
  • 111 represents the start tag, and is loaded at the start position of the table part of the converted HTML data 91.
  • 112 in the figure corresponds to the end tag and is loaded at the end position of the table portion of the HTML data 91.
  • step S27 in the order specified in “MAKE_TABLE” of HTML style specification 921, the item value corresponding to the item name is displayed in the portion corresponding to the second row of the table of the HTML description created in step S26. Create an HTML description.
  • FIG. 11 (e) shows the HTML description created in steps S26 and S27.
  • 113 partial force corresponds to the header portion of the first row of the table created in step S26, and 114 portion corresponds to the second and subsequent portions of the table.
  • step S28 As the first part of the HTML description in Fig. 11 (e) (immediately after the ⁇ table> tag in Fig. 11 (e)).
  • the start tag 1 11 anchor is added to the final part (Fig. 11 (e) / immediately before the table> tag), and the end tag 112 anchor is added.
  • This HTML description is specified in the HTML style specification 922 "MAKE— TABL E ( ⁇ ⁇ ⁇ ) "Replace with part.
  • step S29 the replacement result is output to a file as HTML data 93, which is the conversion result, and this process ends.
  • the reverse conversion information is efficiently converted so that the converted data does not become large even if the conversion source structured document has a repeated structure. You can do embedded conversions.
  • FIG. 12 is a flowchart showing a process in the case where the reverse conversion processing unit 12 performs reverse conversion on the structured document converted in the table format by the structured data conversion apparatus of this embodiment.
  • the inverse conversion processing unit 12 reads the HTML data 93 to be processed into the memory, analyzes the HTML data 93 as step S31, and extracts all the anchor tag portions. .
  • Next inverse conversion unit 12 as step S32 acquires an anchor that is the "n ame” trailing force attribute part of the string S "_ e" anchor extracted in step S31. Then, as step S33, an anchor having a "name” attribute of an anchor in which "s_row '" follows the character string obtained by removing "_e” at the end from the character string of the "name” attribute part of the anchor acquired in step S32. In step S34, the inverse conversion processing unit 12 acquires an HTML description that is a character string surrounded by the anchors acquired in steps S32 and S33.
  • step S36 the inverse transformation processing unit 12 sets the item (td> tag) for the row in the lower layer of the table> tag (tr> tag part) corresponding to the number acquired in step S35.
  • the value of is extracted as an XML tag value.
  • the XML tag type name, ⁇ name>, and price are extracted in this step.
  • step S37 the inverse transformation processing unit 12 does not correspond to the number acquired in step S35 (in this example, it corresponds to the second and subsequent rows of the table) ⁇ table> lower layer of the tag
  • the value of the item ( ⁇ td> tag) is extracted as the XML tag value.
  • step S38 XML data is generated from the "name" attribute part of the anchor extracted in steps S33, S36, and S37, the XML tag name, and the XML tag value, and this is converted into XML as a result of reverse conversion. Output as a file and end this process.
  • a structured document having an original repetitive structure can be reproduced even if inverse transformation is performed on a structured document including a tabular format.
  • a structured document with a repetitive structure has been converted to a tabular structured document.
  • a list structured document ( ⁇ ul> for HTML) instead of a tabular format.
  • the reverse conversion information can be loaded in the same way, The original structured document can be reproduced.
  • This partial reverse conversion process is to reverse-convert a part of the conversion result converted by the conversion processing unit 11.
  • the partial reverse conversion process only a specific part is extracted from the HTML data of the conversion result, and is converted back to XML data.
  • This partial reverse conversion processing is performed by reversely converting only a specific part from the HTML data converted by the structured data conversion apparatus of this embodiment, and for example, HTML data of a page displaying product information. It can be used when you want to obtain only summary information as XML data, excluding product specification details.
  • FIG. 13 shows this partial inverse transform process.
  • the conversion processing unit 11 performs a conversion process on the conversion source structure document 131 based on the conversion definition 132 and generates a conversion result 133.
  • the structured document of the conversion result 133 is inversely converted to generate the original structured document 131.
  • the entire structured document 133 is inversely converted.
  • the user designates a part by the extracted part designation file 134, extracts only the designated part, and performs reverse conversion.
  • the partial reverse conversion processing unit 13 corresponds to the hierarchical position “Z product information Z product name”.
  • the part is extracted and reversely converted, and the element part specified by the extracted part specifying file 134 is output as the partial XML data 135 which is the reverse conversion result.
  • FIG. 14 is a flowchart showing the partial reverse conversion process performed by the partial reverse conversion processing unit 13.
  • the partial inverse transform processing unit 13 first activates the inverse transform processing unit 12 as step S41.
  • the partial inverse transform processing unit 13 determines whether or not the extracted partial file 134 in which the extracted part is designated by the user exists in step S42. And as a result, extraction If partial file 134 does not exist (step S42, No), normal reverse conversion is performed instead of partial reverse conversion, so the reverse conversion processing unit 12 process started in step S41 is passed as step S43, and partial reverse conversion processing is performed. Unit 13 ends the process. At this time, the inverse conversion processing unit that has been passed the process starts the process from step S11 of FIG. 7 described above, and performs the inverse conversion process.
  • step S42 if the extracted partial file 134 exists (step S42, Yes), the location where partial extraction is to be performed is specified by the user. Therefore, in step S44, the extracted partial file 134 is stored in the memory. The character string of the extraction part specification specified in this extraction part file 134 is acquired.
  • the partial reverse conversion processing unit 13 selects an anchor having the same character string as the extracted part designation character string specified in the extraction part file 134 in the "name" attribute as the conversion result in step S45. Extract from some HTML data 133.
  • the process is passed to the inverse transformation processing unit 12 together with the anchor extracted in step S45, and the partial inverse transformation processing unit 13 ends the process.
  • the inverse transformation processing unit 12 that has passed the processing uses the anchor received from the partial inverse transformation processing unit 13 to perform the processing after step S12 in FIG. 7 described above, and is generated as a result.
  • Output XML partial file as reverse transformation result.
  • the structured data conversion apparatus of the present embodiment when the converted HTML data is reversely converted back to XML data, only the data designated by the user can be reversely converted.
  • the same search processing as XML data can be performed on the HTML data that is the conversion result.
  • HTML data is a language specialized for display. Internal data has only information about the display form, and the contents cannot be searched. However, the HTML data converted by the structured data conversion apparatus of the present embodiment includes reverse conversion information therein, and the internal data can be searched using this reverse conversion information.
  • FIGS. 15 (a) and 15 (b) are explanatory diagrams of search processing of the present embodiment.
  • the HTML data 152 converted by the structured data conversion apparatus of this embodiment shown in (b) of the figure has the inverse conversion information embedded as an anchor in association with the internal data.
  • the reverse conversion information includes the element name of the source XML data.
  • search processing unit 14 searches the reverse conversion information in the anchor of the HTML data 152 and finds the same character string 154a, 154b as the search keyword 156, the corresponding internal data 155 (start including the grinder The tag's “name” attribute string power S ”—data sandwiched between end tags ending with“ e ”) is output as search result 157.
  • FIG. 16 is a flowchart showing the search process performed by the search processing unit 14.
  • the search processing unit 14 first sends a search keyword as a search condition to the user in step S51. Let them enter.
  • the search processing unit 14 reads out the HTML data 133 to be searched from the memory, and in step S52, selects all the anchor names (character strings of the "name" attribute) corresponding to the reverse conversion information from the HTML data 133. Extract.
  • the search processing unit 14 matches the search keyword input by the user in step S51 against the plurality of anchor names extracted in step S52, and obtains the character string of the search keyword. Extract what it contains.
  • step S54 if there is an anchor name including the search keyword character string (step S54, Yes), as step S56, an anchor including the corresponding anchor name and an anchor corresponding to the anchor (the same anchor name + The character string included between "_e" and the anchor name is output as a search result, and this process ends.
  • step S54 if there is no anchor name including the character string of the search keyword (step S54, No), “not applicable” is output as the search result as step S55, and the process is terminated.
  • the HTML data converted by the structured data conversion apparatus in the present embodiment can be searched in the same manner as the conversion source XML data.
  • the HTML data which is the conversion result converted by the structured data conversion apparatus in this embodiment, is used for data extraction, calculation processing, unique processing, etc.
  • XML data can be processed in the same way.
  • the reverse conversion information is included in the HTML data of the conversion result as an anchor tag.
  • the reverse conversion information embedded is displayed. If not, it may be carried in other ways.
  • Fig. 17 is a diagram showing an example of the case where reverse conversion information is embedded in an HTML comment tag.
  • the reverse conversion information to be embedded is embedded as comments 175-1 to 175-6.
  • the reverse conversion information is carried as a comment text sandwiched between " ⁇ !-" Do '->> "in the comment tag 175.
  • FIG. 18 shows a software processing method for the conversion processing unit 11, the inverse conversion processing unit 12, the partial reverse conversion processing unit 13, and the search processing unit 14, which are components of the structured data conversion apparatus according to this embodiment.
  • the computer shown in the figure includes a CPU 181, a main storage device 182, an auxiliary storage device 183 such as a hard disk, an input / output device (I / O) 184 such as a display and a keyboard, a network connection device 185 such as a modem, a disk, A medium reading device 186 that reads out stored contents from a portable storage medium such as a magnetic tape is provided, and these are connected to each other via a bus 187.
  • the medium reading device 186 reads out programs and data stored in a storage medium 188 such as a magnetic tape, a flexible disk, a CD-ROM, and an MO, and stores them in the main storage device 182 or auxiliary storage. Download to device 183. Based on this program and data, the CPU 181 implements the functions of the conversion processing unit 11, the inverse conversion processing unit 12, the partial reverse conversion processing unit 13, and the search processing unit 14 described above in software.
  • a storage medium 188 such as a magnetic tape, a flexible disk, a CD-ROM, and an MO
  • the present invention is not limited to a structured data conversion apparatus and conversion method, and when used by a computer, a computer-readable storage medium for causing a computer to perform the functions of the above-described embodiments of the present invention. It can also be configured as.
  • the "storage medium” is a medium drive such as a CD-ROM, flexible disk (or MO, DVD, removable hard disk, etc.) as shown in FIG.
  • a portable storage medium 196 that can be attached to and detached from the device 197, a storage unit (database, etc.) 192 in an external device (server, etc.) transmitted via the network line 193, or a memory (main unit 194) of the information processing device 191 ( RAM, hard disk, etc.) 195 etc. are included.
  • the programs stored in the portable storage medium 196 and the storage unit (database or the like) 192 are loaded into a memory (RAM or hard disk or the like) 195 in the main body 194 and executed.
  • a conversion destination design (data structure) is created separately, and the design is converted with little work. It can be used for This makes it possible to manage and reuse data and design separately.
  • the case where the XML document and the HTML document are mutually converted is taken as an example.
  • the conversion by the document conversion utilization system in the present embodiment is not limited to this. From the SGML document to the HTML document You can also convert between other structured documents, such as converting to.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 構造化データ変換装置は、第1の構造化データを、当該第1の構造化データとは別の言語によって記載された第2の構造化データに変換することを前提とし、前記第1の構造化データを前記第2の構造化データに変換する際に削除され、変換した前記第2の構造化データを前記第1の構造化データに逆変換する際に必要となるデータを、逆変換情報として前記第1の構造化データから抽出する逆変換情報生成部と、前記第1の構造化データを前記第2の構造化データに変換する際、前記逆変換情報を当該第2の構造化データに埋め込む逆変換情報格納部と、を有することを特徴とする。

Description

明 細 書
構造化データ変換方式
技術分野
[0001] 本発明は、構造化データの他の形式の構造化データへの変換の技術に関し、更に 詳しくは、再変換を考慮した構造化データの変換の技術に関する。
背景技術
[0002] 近年、インターネットを通して、個人、企業、 自治体など、あらゆる種類のシステムが 接続され、連携して、 Webサービスや EDI、 ECが行われつつある。このために、幅広 い情報交換が必要になっており、データ交換、データ処理に、 XML (extensible Markup Language)力 データを構造ィ匕する柔軟な表現能力を持ち、コンピュータ 処理に適するため、共通基盤のフォーマットとして注目されている。
[0003] XMLは、 1986年に ISOで標準化された SGML (Standard Generalized Mar kup Language)をインターネットで活用し易くするために、 1998年 2月にその基本 仕様 XML1. 0が W3C (World Wide Web Consortium)において策定されたも のである。
[0004] Webページ作成言語である HTML (HyperText Markup Language)は、タグ が固定で表示に特化したものとなっており、タグ情報を基にコンピュータで情報を処 理したいという要件に対応できない問題があった。それに対して、 XMLは、利用者が 自由にタグを定義でき、データ中の文字列に意味付けができる言語構造を持ち、コ ンピュータで情報処理するのに適している。
[0005] 現在、 XMLは広く普及しつつあり、特にサーバ'システム間の連携などで活用され ている。
XMLによるデータは階層をもつ構造データを柔軟に記述できるフォーマットを持ち 、プログラムで機械的に検索や加工などデータ処理しやすいという利点がある。その 反面、表示スタイルを記述するための HTML等とは異なり、そのままでは人が見や すく表示することはできなレ、。そのため、各種データ処理はサーバ上で XMLデータ によって行ない、それを HTMLデータに変換してクライアント PCに渡し、クライアント PC上ではその HTMLデータを Webブラウザで表示するという使い方が一般的にな つている。
[0006] XMLデータから HTMLデータへの変換には標準 XML変換技術である XSLT等 が広く使われている。
構造ィヒデータの変換についての技術が開示されている文献としては例えば特許文 献 1がある。
[0007] 特許文献 1に開示されている、宅配の運送状況を示す情報の提供を行なうシステム では、検索条件が不明でも運送状況を確認できるようにするため、情報提供者とユー ザ端末との間に仲介装置を設け、この仲介装置と情報提供者の情報提供装置との データのやり取りを行なうに際して、 HTML力 XMLへの変換や XMLから HTML への変換を行なっている。
[0008] また特許文献 2には、ソートや一部切り出し等の編集処理後に元の構造ィ匕データを 再構築できるようにするため、 XMLデータにインデックスと深さを示す属性値を付加 する変換を行なう点が開示されている。
[0009] 上記したような XMLや HTML等の構造化データの変換の普及に伴い、 HTMLと して取得し Webブラウザで表示するだけでなぐそのデータを XMLによるデータとし て取得してクライアント PC上でユーザが様々なデータ処理を行なレ、たいとレ、うニーズ が出てきている。
[0010] 図 1 (a)及び (b)に同一内容のデータを表示と情報処理の両方に用いるようにする ために現在行なわれてレ、る方式を示す。
同図(a)の方式は、元となる XMLデータと表示用にこの XMLデータを変換して生 成した HTMLデータの両方を Webサーバに持ち、ユーザに公開する方式である。
[0011] この方式では、 Webサーバにおいて XMLデータと HTMLデータの二つのファイル を二重管理する必要が生じ、保守コストが大きくなる。
また、ユーザ側では HTMLデータと XMLデータの両方を受け取らねばならず、 2 度の通信が必要となり、その分レスポンスが落ちる。
[0012] また図 1 (b)の方式は、 XMLデータを変換して HTMLデータを生成する際に、 HT
MLデータの中に XMLデータを丸ごと坦め込み、ユーザ側ではこの HTMLデータ 力 XMLデータを取り出して、情報処理を行なう。
[0013] この方式では図 1 (a)の方式と異なり、上記と違い、 Webサーバで管理するファイル は HTMLデータのファイル一つだけになる力 この HTMLデータは XMLデータを 丸ごと坦め込む分、そのサイズは HTMLデータと XMLデータの両者を併せた以上 の大きさとなってしまう。
[0014] またユーザ側では、坦め込まれた XMLデータを HTMLデータ力 抽出する手間 を必要とする。
またこの他の方法として、 HTMLから XMLに逆変換する方法もある。
[0015] システムの変更を最小限でこれを実現するには、 XML→HTML変換に加え、 HT
ML→XMLへの逆変換ができると良い。しかし、 XSLT等の従来の変換技術では次 の理由によりこれができない。
[0016] XMLはデータの構造 ·意味を自由に定義でき、この情報が様々なデータ処理に役 立ち重要である。し力し、 HTMLは表示スタイルを記述するものであり、それらの情 報(XMLがもつタグと値の関係)は記述できなレ、。従って、 HTMLから XMLへの変 換は、重要な情報が欠落してレ、まレ、実現できなレ、。
[0017] 以上の点を踏まえ、本発明は、 HTML力 XMLへの逆変換を可能とした XMLか ら HTMLへの変換を行なうことが可能な構造化データ変換装置を提供することを課 題とする。
[0018] またこの逆変換では、元の XMLデータを完全に再現できる XMLへの逆変換を可 能とした XMLから HTMLへの変換を行なえる構造化データ変換装置を提供するこ とを課題とする。
特許文献 1 :特開 2002— 128232号公報
特許文献 2 :特開 2004— 62600号公報
発明の開示
[0019] 本発明による構造化データ変換装置は、第 1の構造化データを、当該第 1の構造 化データとは別の言語によって記載された第 2の構造化データに変換することを前提 とし、上記問題点を解決するため、逆変換情報生成部、及び逆変換情報格納部を備 える。 [0020] 逆変換情報生成部は、前記第 1の構造化データを前記第 2の構造化データに変換 する際に削除され、変換した前記第 2の構造化データを前記第 1の構造化データに 逆変換する際に必要となるデータを、逆変換情報として前記第 1の構造化データから 抽出する。
[0021] 逆変換情報格納部は、前記第 1の構造化データを前記第 2の構造化データに変換 する際、前記逆変換情報を当該第 2の構造化データに坦め込む。
この構成により、変換後の第 2の構造ィ匕データ内の逆変換情報を用いて、変換前 の第 1の構造化データを再現することが出来る。
[0022] また前記第 2の構造ィヒデータに埋め込まれている前記逆変換情報を用いて、前記 第 2の構造化データを前記第 1の構造ィヒデータに逆変換する逆変換部を更に備える 構成とすることも出来る。
[0023] この構成では、変換した第 2の構造化データから第 1の構造化データに逆変換を行 なうことが出来る。
更に、前記逆変換情報格納部は、変換後の前記第 2の構造化データを Webブラウ ザで表示した際に見た目に影響を与えない形で前記逆変換情報を坦め込む構成と することが出来る。
[0024] この埋め込みの仕方としては、例えば第 2の構造化データが HTMLによるものであ つた場合、アンカータグ内に、或いはコメントタグ内に坦め込む。
これにより、第 2の構造化データの表示に対し、逆変換情報による影響を無くすこと が出来る。
[0025] また前記逆変換情報生成部は、前記第 1の構造化データが繰り返し構造を含むと き、当該繰り返し構造全体に対する前記逆変換情報を生成し、前記逆変換情報格納 部は、当該逆変換情報を前記繰り返し構造全体に対応させて坦め込む構成とするこ とが出来る。
[0026] この構成により、第 1の構造化データが繰り返し構造を有する場合、より効率的に逆 変換データを埋め込むことが出来る。
更に、ユーザからの指示に基づいて、前記第 2の構造化データから前記第 1の構造 化データの一部を逆変換する部分逆変換部を更に備える構成とすることも出来る。 [0027] この構成により、逆変換を行なうとき、ユーザに指定された一部分のみを逆変換す ることが出来る。
また前記第 1の構造ィ匕データから変換した前記第 2の構造化データに対し、ユーザ 力 の検索条件に基づいて検索を行なう検索部を更に備える構成とすることも出来る
[0028] この構成により、変換後の第 2の構造ィヒデータに対しても検索処理を行なうことが出 来る。
更に、前記逆変換情報は、前記第 2の構造化データを前記第 1の構造化データに 逆変換する際に最低限必要となる情報、例えば、前記第 1の構造化データ内のタグ のタグ名及びタグと要素内容との対応関係を示す情報とする構成とすることが出来る
[0029] この構成により、埋め込む逆変換情報の大きさを最小限の大きさにすることが出来 る。
また本発明は構造ィヒデータ変換装置のみならず、構造化データ変換方法、プログ ラム及び記憶媒体もその範囲に含む。
図面の簡単な説明
[0030] [図 l] (a)及び (b)は、同一内容のデータを表示と情報処理の両方に用いるようにす るために現在行なわれている方式を示す図、(c)は本実施形態による方式を示す図 である。
[図 2]本実施形態における構造ィヒデータ変換装置の概略構成図である。
[図 3]本実施形態の構造化データ変換装置で行なわれる構造化文書の変換の例を 示す図である。
[図 4]変換処理部によって行なわれる XMLデータから HTMLデータへの変換処理 時の動作処理を示すフローチャートである。
[図 5] (a)は項目名表の例を示す図、 (b)は項目値表の例を示す図、(c)はメモリ上に 展開された HTMLスタイル指定 222の例を示す図、 (d)にこの置き換えを行なった H TMLスタイルの例を示す図である。
[図 6]XMLメモリ構造の例を模式ィ匕した図である。 [図 7]逆変換処理部によって行なわれる HTMLデータから XMLデータへの逆変換 処理時の動作処理を示すフローチャートである。
[図 8]変換元の構造化文書に繰り返し構造を持つ場合の構造化データ変換装置によ る変換の概要を示す図である。
[図 9]変換元の構造化文書に繰り返し構造を含む場合の変換の例を示す図である。
[図 10]変換元の構造化文書に繰り返し形式があり、これを表形式の構造化文書に変 換する場合の処理を示すフローチャートである。
[図 11] (a)は項目名表の例を示す図、 (b)は項目表値の例を示す図、(c)はメモリ上 に展開された HTMLスタイル指定の例を示す図、(d)は生成されるアンカータグの 例を示す図、(e)は HTML記述の例を示す図である。
[図 12]本実施形態の構造化データ変換装置によって表形式の変換された構造化文 書を逆変換処理部によって逆変換する場合の処理を示すフローチャートである。
[図 13]部分逆変換処理を示す図である。
[図 14]この部分逆変換処理部による部分逆変換処理を示すフローチャートである。
[図 15] (a)及び (b)は、本実施形態の検索処理の説明図である。
[図 16]検索処理部によって行なわれる検索処理を示すフローチャートである。
[図 17]逆変換情報を HTMLのコメントタグ内に坦め込んだ場合の例を示す図である
[図 18]コンピュータのシステム環境図である。
[図 19]媒体の例を示す図である。
発明を実施するための最良の形態
[0031] 以下に図面を参照しながら本発明の一実施形態について説明する。
図 1 (c)は、本実施形態における構造ィ匕データ変換装置による XMLデータの HT
MLデータへの変換を示す図である。
[0032] 本実施形態の構造化データ変換装置では、 XMLデータを HTMLデータに変換 する際、 HTML変換時に本来なら失われてしまう XMLデータに再変換する際に必 要となる情報 (以下逆変換情報という)を効率よく HTMLデータ内に埋め込む。
[0033] これにより、図 1 (b)に示したように元の XMLデータを丸ごと埋め込むのに比して、 変換後のデータの大きさが増大するのを防ぐことができる。尚この逆変換情報は、逆 変換時に最低限必要となるタグ名と要素内容との対応関係を示す情報なので、これ を変換結果に埋め込んでも、変換後のデータのサイズに大きな影響はない。
[0034] 図 2は本実施形態における構造化データ変換装置の概略構成図である。
同図において、構造化データ変換装置 1は、変換処理部 11、逆変換処理部 12、 部分逆変換処理部 13、及び検索処理部 14を有する。
[0035] 変換処理部 11は、変換対象である変換元 XMLデータ 2と変換定義 3を読み込み、 変換元 XMLデータ 2を変換定義 3に基づいて HTMLデータ 4に変換する。この変換 処理部 11による変換結果である HTMLデータ 4には、逆変換情報 41が坦め込まれ ている。逆変換処理部 12は、 HTMLデータ 4の XMLデータ 2への逆変換を行なうも ので、 HTMLデータ 4内の逆変換情報を用いて HTMLデータ 4力 XMLデータ 2を 生成する。部分逆変換処理部 13は、変換処理部 11によって生成された HTMLデー タ 4の一部を逆変換して、変換元 XMLデータ 2の部分 XMLデータ 6を生成する。尚 この部分逆変換処理部 13によるの部分 XMLデータ 6の生成も逆変換情報 41を用 いて行なわれる。検索処理部 14は、変換処理部 11による変換結果である HTMLデ ータ 4に対して検索条件 5に基づいて検索を行ない、検索結果 7を出力する。変換処 理部 11によって生成された HTMLデータ 4は逆変換情報 41を内部に持ってレ、るの で、 XMLデータの様な検索を行なうことができる。尚この点の詳細については後述 する。
[0036] 尚本実施形態における構造化データ変換装置は、その構成要素として変換処理 部 11、逆変換処理部 12、部分逆変換処理部 13、及び検索処理部 14の全てを備え る構成のみならず、その一部のみ、例えば変換処理部 11のみや変換処理部 11及び 逆変換処理部 12のみを備える構成としても実現することができる。
[0037] 図 3に、本実施形態の構造化データ変換装置で行なわれる構造化文書の変換の 例を示す。同図は、 XMLデータから HTMLデータに変換を行なっている場合を例と して示している、
同図では変換元となる XMLデータ 21には、データである要素内容の他に、く製品 情報 >、く製品名〉、く価格 >及びく型名 >のタグ名(要素名)を情報として持って いる力 これらのタグと要素内容との関係は、通常 HTMLデータに変換される際に失 われてしまう。
[0038] 変換処理部 11は、この XMLデータ 21を HTMLデータ 23に変換する際に、タグ名 やタグと要素内容との関係など通常失われてしまう情報を変換定義 22による指示に 基づレ、て逆変換情報に変換し、またこのとき再変換に必要となる情報を HTMLデー タ 23内に坦め込む。
[0039] 図 3では、変換定義 22は、項目定義 221と HTMLスタイル指定 222を指定しており 、そのうち項目定義 221は対象とする XMLデータ 21の中の各要素について、階層 構造上での位置が指定されている。例えば XMLデータ 21中の要素であるく製品情 報 >下位階層にあるく製品名 >は、項目定義 221では項目 1として指定されてレ、る 。また HTMLスタイル指定 222は、変換後の HTMLデータ 23の構造を指定している
[0040] 変換処理部 11は、変換定義 22の項目定義 221から変換対象である XMLデータ 2 1を構成する各要素の位置についての情報を取得し、 XMLデータ 21からはその位 置にあるデータ(要素内容)を取得する。例えば、項目 1の"/製品情報/製品名"と いう指定から、 XMLデータ 21中の上位階層が"製品"の"製品名"という項目の位置 を表していることが分かり、 XMLデータ 21のその位置のデータである" CELSIUS" を取得する。
[0041] そして、 HTMLデータ 23に変換する際には、 HTMLデータとして表示を行なう際 に支障がないような形で、各データに対して項目定義 221の情報を、各要素の位置 情報を逆変換情報として坦め込む。このための方法としては、例えば、 HTMLのハイ パーリンク機能の一つであるアンカー(参照先マーク)タグ内に埋め込むことで、 Web ブラウザで表示しても見た目に影響を与えない。
[0042] 図 3の変換結果である HTMLデータ 23では、データ(要素内容)を挟んでいた開 始タグと終了タグがそれぞれアンカーに置き換わっている。例えばデータ(要素内容 ) 222に対する開始タグ 221力アンカー 231に、少量タグ 213がアンカー 233に置き 換わってデータ 232の前後に配置されている。
[0043] このような、 HTMLデータ 23データは Webブラウザで表示すると、タグは表示され ないので、表示イメージ 24のように揷入されたアンカーとして埋め込まれた逆変換情 報は表示されない。
[0044] またこのような方法で XMLデータ 21から変換された、逆変換情報を内包した HTM
Lデータ 23は、この逆変換を行なう際にこの逆変換情報を用いることによって元の X
MLデータ 21を復元することができる。
[0045] XMLデータ 23に逆変換する際には、埋め込まれた逆変換情報を抽出し、それに 従って XMLに変換する。
例えば図 3において、
< a name = "/製品情報/価格" >
20万円
< a name = "/製品情報/価格— e" >
とレ、う記述部分 234は、アンカーとして埋め込まれてレ、る逆変換情報から XMLデー タ 21のタグを再現し、
<製品情報 >
<価格 > 20万円 < /価格 >
< /製品情報 >
とレ、う XMLデータの記述に変換できる。
[0046] 図 4は、変換処理部 11によって行なわれる XMLデータ 21から HTMLデータ 23へ の変換処理時の動作処理を示すフローチャートである。
以下の説明では、図 3に示した変換対象である XMLデータ 21を変換定義 22を用 レ、て変換し、変換結果として HTMLデータ 23を得る場合を例として、変換処理部に よって行なわれる動作を説明する。
[0047] 同図において処理が開始されると、まず変換対象となる XMLデータ 21と、変換定 義 22をメモリ上に読み込んだ後、ステップ S1として変換定義 22を解析し、メモリ上に 項目名表を生成する。
[0048] 図 5 (a)にその項目名表の例を示す。同図の項目名表は、各項目とその項目が対 応する XMLデータ 21内の要素の位置の関係が表として示されてレ、る。この項目名 表は、変換定義 22の項目定義 221から生成される。 [0049] 次に変換処理部 11は、ステップ S2として、変換元である XMLデータ 21を解析し、 木構造を示す XMLメモリ構造をメモリ上に展開する。
図 6にこの XMLメモリ構造の例を模式化した図を示す。
[0050] 同図では、 XMLメモリ構造は、タグ名部分 61とタグ内容部分 62から構成され、タグ 名部分には各データ(要素内容)の階層位置をタグ名で示しており、タグ内容部分 6
2には、データ(要素内容)そのものが示されている。
[0051] 変換処理部 11は、ステップ S3としてステップ S1で生成した項目名表と、ステップ S
2で生成した XMLメモリ構造から、ステップ S3として、項目値表を生成する。
図 5 (b)に項目値表の例を示す。
[0052] この項目値表は、項目名表の各項目と、 XMLデータ 21内のデータ(要素内容)と の関係を示すもので、同図の例では項目 1は CELCIUS、項目 2は T1234、項目 3 は 20万円を示している。
[0053] 次に変換処理部 11は、ステップ S4として変換定義 22の HTMLスタイル指定 222 部分をメモリに展開する。
図 5 (c)にこのメモリ上に展開された HTMLスタイル指定 222の例を示す。この HT
MLスタイル指定 222が、変換後の HTMLデータ 23のひな形となる。
[0054] そして変換処理部 11は、ステップ S5としてステップ S4でメモリ上に展開した HTM
Lスタイル指定から文字列「 $項目 +数字」( $項目 1、 $項目 2、 · · ·)を全て抽出し
、ステップ S6として、抽出した文字列に対応する項目名とその項目名に対応する項 目値を項目名表と項目値表から取得し、ステップ S7として項目名の位置情報を HT
MLアンカータグの" name"属性とし、また項目値をタグで挟まれたタグ内容として H
TMLスタイル指定中の文字列と置き換える。
[0055] 図 5 (d)にこの置き換えを行なった HTMLスタイルの例を示す。
図 5 (d)は、項目 1部分を置き換えたものを示しており、記述部分 51では、項目 1の 位置情報である"製品情報/製品名"がアンカータグの" name"属性 52となっており
、項目 1の項目値である CELCIUS力 アンカータグの開始タグと終了タグに挟まれ たタグ内容 53として記載されている。
[0056] このような置き換えを行なった後、ステップ S8として変換処理部 11は、図 5 (d)のよ うな置き換え後の HTMLスタイルのテキストを変換結果の HTMLデータ 23として出 力して、本処理を終了する。
[0057] この様に本実施形態による構造化データ変換装置によるデータ変換では、変換元 のデータの逆変換時に必要となる情報である逆変換情報を変換結果に坦め込むこと が出来る。またこの逆変換情報が埋め込まれた変換後のデータは、 Webブラウザに よって表示を行なっても、逆変換情報は表示されない。
[0058] また逆変換情報として HTMLデータに埋め込まれる情報は、タグの位置情報等な ので、元の XMLデータをそのまま埋め込む場合に比して、データサイズを小さく抑え ることが出来る。
[0059] 図 7は、逆変換処理部 12によって行なわれる HTMLデータ 23から XMLデータ 21 への逆変換処理時の動作処理を示すフローチャートである。
以下の説明では、図 3に示した本実施形態の構造化データ変換装置によって変換 された HTMLデータ 23を逆変換して、変換結果として XMLデータ 21を得る場合を 例として、逆変換処理部 12によって行なわれる動作を説明する。
[0060] 図 7において処理が開始されると、まず逆変換処理部 12は、処理対象である HTM Lデータ 23をメモリから読み出し、ステップ S 11としてこの HTMLデータ 23を解析し、 アンカータグ部分を全て抽出する。
[0061] 次にステップ S 12として逆変換処理部 12は、ステップ S 11で抽出したアンカーの "n ame"属性部分の文字列の末尾力 S"_e "となっているアンカーを求め、またステップ S 13として、ステップ S12で求めたアンカーと対となる、 "name"属性部分の文字列力 ステップ S 12のアンカーの" name"属性部分の文字列の末尾から" _e "を除いた文 字列のアンカーを取得する。そして逆変換処理部 12は、ステップ S 14として、ステツ プ S 12とステップ S 13で取得した対のアンカーに囲まれた文字列を取得する。
[0062] 次に、逆変換分 12は、ステップ S 15としてステップ S 12若しくは S 13で取得したアン カーのアンカーの" name"属性の文字列を、 "/"を区切りとして分解して、図 6に示 したような XMLデータのメモリ構造のタグ名部分 61を生成する。また、逆変換部 12 は、ステップ S 16として、ステップ S14で取得したアンカーに囲まれた文字列を要素 内容として図 6の XMLデータのメモリ構造に加え、タグ内容部分 62を生成する。 [0063] この様にして生成された XMLデータのメモリ構造を、最後に逆変換分は、ステップ S17として XMLデータに変換しこれを XMLファイルとして出力し、本処理を終了す る。
[0064] この様に本実施形態における構造化データ変換装置では、 XMLデータから変換 した HTMLデータに対して再変換を行なうことによって、元の XMLデータを再現す ること力 Sできる。
[0065] 次に、変換対象となる変換元データにテーブルやリスト等の繰り返し部分を有する 場合の変換及び逆変換について説明する。
例えば XMLに於いては、その特徴として繰り返し同じ構造のデータを持つ構成を 含む場合が多い。
[0066] これらの繰返し構造を持つ XMLデータを、 HTMLで表現する場合には表形式 (T ABLEタグ)やリスト形式 (ULタグ)で表されることが多レ、。
繰返し構造は数が多くなりがちなので、上記したように全ての項目に逆変換情報を 付加するとサイズが大きくなつてしまう。本実施形態では、このような繰り返し構造を持 つ場合において HTMLの表形式等に変換する場合は、より効率的に逆変換情報を 埋め込めるよう、表 (若しくはリスト)全体 (繰返し構造全体)に対して一組の逆変換情 報を坦め込む。
[0067] これにより本実施形態の構造化データ変換装置による変換では、変換対象が繰り 返し部分を有するものであるとき、変換時に坦め込む逆変換情報をよりコンパクトに することが出来る。
[0068] 図 8は、変換元の構造化文書に繰り返し構造を持つ場合の構造化データ変換装置 による変換の概要を示す図である。
構造化データ変換装置は、変換元の構造化文書 81を解析し、表等の繰り返し構造 が存在する場合、これらに対する逆変換情報を 1つにまとめて変換結果となる構造化 文書 82に揷入する。
[0069] またこの変換された構造ィ匕文書 82を逆変換する際には、表等の繰り返し構造に対 して 1つにまとめて、効率よく組み込まれた逆変換情報を用いて元の構造化文書 81 を生成する。 [0070] 図 9は、変換元の構造化文書に繰り返し構造を含む場合の変換の例を示す。同図 も、図 3と同様 XMLデータから HTMLデータに変換を行なっている場合を例として 示している、
同図では、変換元の構造ィ匕文書である XMLデータ 91をユーザによって定義され た変換定義 92を用いて HTMLデータ 93に変換する。
[0071] 図 9の XMLデータ 91は、く型名〉、く名前〉、及びく価格 >部分の繰り返し構 造 911を備え、また変換定義 92では、項目定義 921でこれらを項目として定義し、ま た HTMLスタイル指定 922には" MALE— TABLE"と表形式に変換することが定 義されている。尚項目定義の 921の"レコード"部分は、表のレコードとなる部分を示 しており、また HTMLスタイル指定 922の" MALE— TABLE"は、引数として持つ 項目を行とした表形式のスタイルであることを示している。
[0072] この変換定義 92に基づいて変換処理部 11が、 XMLデータ 91を変換すると、変換 結果として HTMLデータ 93が得られる。
この HTMLデータ 93では、変換定義 92で定義されたように各行に XMLデータ 91 のく型名〉、く名前〉、及びく価格〉の要素内容を持つ表を示している。またこの HTMLデータ 93には、表の先頭部分と終わり部分に逆変換情報 931及び 932がァ ンカーとして埋め込まれてレ、る。
[0073] この様に、変換元の構造化文書が繰り返し構造を持つ場合であった場合、逆変換 に用いる逆変換情報をまとめて効率よく変換結果の構造化文書に埋め込むことが出 来る。
また表示結果 94は、変換結果である HTMLデータ 93を Webブラウザによって表 示したものであるが、逆変換情報はアンカーとして埋め込まれているので、表示には 何ら影響を与えない。
[0074] 図 10は、上記したように変換元の構造ィヒ文書に繰り返し形式があり、これを表形式 の構造化文書に変換する場合の処理を示すフローチャートである。
以下の説明では、図 9に示した変換対象である XMLデータ 91を変換定義 92を用 レ、て変換し、変換結果として HTMLデータ 93を得る場合を例として、変換処理部に よって行なわれる動作を説明する。 [0075] 同図において処理が開始されると、まず変換対象となる XMLデータ 91と、変換定 義 92をメモリ上に読み込んだ後、ステップ S21として変換定義 92を解析し、メモリ上 に項目名表及び項目表値を生成する。尚この処理は図 4のステップ Sl、 S2と同じ処 理である。
[0076] 図 11 (a)にこのとき生成される項目名表、同図(b)に項目表値の例を示す。同図(a )の項目名表は、各項目とその項目が対応する XMLデータ 91内の要素の位置の関 係が表として示されている。この項目名表は、変換定義 92の項目定義 291から生成 される。
[0077] この図 11 (a)の項目名表と図 5 (a)の項目名表を比較すると図 11 (a)の項目名表に は、項目 1〜3の他に"レコード"が項目として加わっている。
また図 5 (b)の項目標値と比較すると、図 11 (b)の項目表値は、変換元の XMLデ ータ 91が繰り返し構造を持つので、 1つの項目に複数のデータが対応している。
[0078] 次に変換処理部 11は、ステップ S22として、変換定義 92中の HTMLスタイル指定
922をメモリ上に展開する。
図 11 (c)にこのメモリ上に展開された HTMLスタイル指定 922の例を示す。この H
TMLスタイル指定 922が、変換後の HTMLデータ 93のひな形となる。同図では、 M
AKE— TABLE ( $項目 1 , $項目 2, $項目 3)と、項目値表で定義された各項目 1
〜項目 3のデータを行とする表形式として HTMLデータ 93が形成されることが指定 されている。
[0079] 変換処理部 11は、ステップ S23として、メモリ上に展開した HTMLスタイル指定の" MAKE_TABLE ( · · · ) "の引数である文字歹 $項目 +数字」( $項目 1、 $項目 2 、 · · ·)を全て抽出し、ステップ S24として、抽出した文字列に対応する項目名とその 項目名に対応する項目値を項目名表と項目値表から取得する。
[0080] 次に変換処理部 11は、ステップ S25として項目名 92の"レコード"の位置情報(図 9 では"/製品名/製品")力 HTMLアンカータグの" name"属性の文字列を生成 する。
[0081] 図 11 (d)にステップ S25で生成されるアンカータグの例を示す。同図中 111が開始 タグを表わしており変換後の HTMLデータ 91の表部分の開始位置に坦め込まれる 。また同図中 112が終了タグに対応しており、 HTMLデータ 91の表部分の終了位 置に坦め込まれる。
[0082] 次に変換処理部 11は、ステップ S26としてアンカー 111の" s_rowl =header"か ら、く製品一覧 > <製品 >の下位要素の要素名であるく型名 >、く名前 >、及び <価格 >がヘッダーとしてテーブルの 1行目に来るように、 HTML記述を作成する。 そして次にステップ S27として、 HTMLスタイル指定 921の" MAKE_TABLE"中 で指定された順序で、ステップ S26で作成した HTML記述の表の 2行目移行に対応 する部分に、項目名に対応する項目値を並べて追カ卩し、 HTML記述を作成する。
[0083] 図 11 (e)にこのステップ S26、 S27によって作成される HTML記述を示す。
同図中 113部分力 ステップ S26で作成される表の 1行目のヘッダー部分に対応し 、 114部分が表の 2行目以降の部分に対応する。
[0084] このような HTML記述をメモリ上に作成後、変換処理部 11は、ステップ S28として、 図 11 (e)の HTML記述の先頭部分(図 11 (e)の < table >タグの直後)に開始タグ 1 11のアンカーを、最終部分(図 11 (e)のく/ table >タグの直前)に終了タグ 112の アンカーを付加し、この HTML記述を HTMLスタイル指定 922の" MAKE— TABL E ( · · · ) "部分と置き換える。そしてステップ S29として、置き換えた結果を変換結果で ある HTMLデータ 93としてファイルに出力し、本処理を終了する。
[0085] この様に本実施形態による構造化データ変換装置によるデータ変換では、変換元 の構造化文書に繰り返し構造があっても、変換後のデータが大きくならないよう、効 率良く逆変換情報を埋め込んだ変換を行なうことができる。
[0086] 次に、図 10の処理によって変換された構造ィ匕文書の逆変換処理について説明す る。
図 12は、本実施形態の構造化データ変換装置によって表形式の変換された構造 化文書を逆変換処理部 12によって逆変換する場合の処理を示すフローチャートで ある。
[0087] 以下の説明では、図 9に示した変換処理部 11によって変換された HTMLデータ 9 3を逆変換し、変換結果として XMLデータ 91を得る場合を例として、逆変換処理部 1 2によって行なわれる動作を説明する。 [0088] 図 12において処理が開始されると、逆変換処理部 12は、処理対象である HTML データ 93をメモリに読み込み、ステップ S31としてこの HTMLデータ 93を解析し、ァ ンカータグ部分を全て抽出する。
[0089] 次にステップ S32として逆変換処理部 12は、ステップ S31で抽出したアンカーの "n ame"属性部分の文字列の末尾力 S"_e "となっているアンカーを取得する。そしてス テツプ S33として、ステップ S32で取得したアンカーの" name"属性部分の文字列か ら末尾の" _e "を除いた文字列に、 "s_row' 'が続くアンカーの" name"属性を持つ アンカーを取得する。そして逆変換処理部 12は、ステップ S34として、このステップ S 32と S33で取得したアンカーに囲まれた文字列である HTML記述を取得する。
[0090] 次に逆変換処理部 12は、ステップ S35として、ステップ S33で取得したアンカーの" name"属性部分の文字列部分の" s— row"と" = header"の間の番号を所得する。 本例では" name"属性部分の文字列は"製品一覧/製品— s— rowl =header"な ので、この番号は" 1 "となる。
[0091] 次に逆変換処理部 12は、ステップ S36として、ステップ S35で取得した番号に該当 するく table >タグの下位層の行(く tr>タグ部分)について、項目(く td>タグ)の 値を XMLタグ値として抽出する。本例の場合このステップで抽出されるのは、 XML タグく型名>、 <名前 >、及びく価格 >となる。
[0092] 次に逆変換処理部 12は、ステップ S37として、ステップ S35で取得した番号に該当 しなレ、(本例の場合テーブルの 2行目以降に該当する) < table >タグの下位層の行 (く tr>タグ部分)について、項目(く td>タグ)の値を XMLタグ値として抽出する。
[0093] そして、ステップ S38として、ステップ S33、 S36、 S37で抽出したアンカーの" nam e"属性部分、 XMLタグ名、 XMLタグ値から、 XMLデータを生成し、これを逆変換 結果である XMLファイルとして出力し、本処理を終了する。
[0094] この様に本実施形態では、表形式を含む形の構造化文書に対して逆変換を行なつ ても、元の繰り返し構造を持つ構造ィヒ文書を再現することができる。
尚上記説明では、繰り返し構造を持つ構造化文書を表形式の構造化文書に変換 していたが、表形式ではなくリスト形式の構造化文書 (HTMLの場合 <ul > )に変換 した場合に於いても、同様に逆変換情報を坦め込むことが出来、また逆変換によって 元の構造化文書を再現することができる。
[0095] 次に、部分逆変換処理部 13によって行なわれる部分逆変換処理について説明す る。
この部分逆変換処理は、変換処理部 11によって変換された変換結果の一部分を 逆変換するものである。
[0096] 部分逆変換処理では変換結果の HTMLデータの中から特定部分のみ抽出し、 X MLデータに逆変換する。この部分逆変換処理は、本実施形態の構造化データ変換 装置で変換された HTMLデータから特定の部分のみを逆変換してデータとして欲し レ、とき、例えば、製品情報を表示するページの HTMLデータの中から、製品の仕様 詳細は除いて概要情報のみを XMLデータとして取得したい場合などに用いることが できる。
[0097] 図 13にこの部分逆変換処理を示す。
上記したように変換処理部 11は、変換元の構造ィ匕文書 131に対して変換定義 132 に基づいて、変換処理を行ない変換結果 133を生成する。
[0098] そして上記説明では、この変換結果 133の構造化文書をそのまま逆変換を行ない 元の構造化文書 131を生成していたが、部分逆変換処理では、構造化文書 133全 体を逆変換するのではなぐユーザに抽出部分指定ファイル 134によって一部分を 指定させ、指定された部分のみを抽出して逆変換する。
[0099] 例えば図 13では、抽出部分指定ファイル 134によって "Z製品情報 Z製品名"が 指定されると、部分逆変換処理部 13は、階層位置が" Z製品情報 Z製品名"に対応 する部分を抽出して逆変換を行ない、抽出部分指定ファイル 134によって指定され た要素部分を逆変換結果である部分 XMLデータ 135として出力する。
[0100] 図 14は、この部分逆変換処理部 13による部分逆変換処理を示すフローチャートで ある。
同図において処理が開始されると、部分逆変換処理部 13は、まずステップ S41とし て、逆変換処理部 12を起動する。
[0101] 次に部分逆変換処理部 13は、ステップ S42としてユーザによって抽出部分が指定 された抽出部分ファイル 134が存在するかどうかを判断する。そしてその結果、抽出 部分ファイル 134が存在しなければ (ステップ S42、 No)、部分逆変換でなく通常の 逆変換を行なうので、ステップ S43としてステップ S41で起動した逆変換処理部 12処 理を渡し、部分逆変換処理部 13は処理を終了する。このとき、処理を渡された逆変 換処理部は、前述した図 7のステップ S11からの処理を開始し、逆変換処理を行なう
[0102] ステップ S42において、抽出部分ファイル 134が存在していれば(ステップ S42、 Y es) ,ユーザによって部分抽出を行なう箇所が指定されているので、ステップ S44とし て、抽出部分ファイル 134をメモリから読み出し、この抽出部分ファイル 134に指定さ れている抽出部分指定の文字列を取得する。
[0103] そして次に部分逆変換処理部 13は、ステップ S45として、 "name"属性に抽出部 分ファイル 134で指定された抽出部分指定の文字列と同じ文字列を持つアンカーを 、変換結果である HTMLデータ 133から抽出する。
[0104] そして、ステップ S45で抽出したアンカーと共に処理を逆変換処理部 12に渡し、部 分逆変換処理部 13は処理を終了する。そして処理を受け渡された逆変換処理部 12 は、部分逆変換処理部 13から受け取ったアンカーを用いて、上記した図 7のステップ S 12以降の処理を行なレ、、結果として生成された XMLの部分ファイルを逆変換結果 として出力する。
[0105] この様に本実施形態の構造化データ変換装置では、変換された HTMLデータを 逆変換して XMLデータに戻す際、ユーザから指定されたデータのみを逆変換するこ とが出来る。
[0106] 次に、検索処理部 14によって行なわれる検索処理について説明する。
本実施形態による構造化データ変換装置では、変換結果である HTMLデータに 対して、 XMLデータと同様の検索処理を行なうことができる。
[0107] 通常 HTMLデータは、表示用に特化した言語で、内部のデータについては表示 形態についての情報のみを持ち、その内容については検索を行なうことが出来ない 。しかし、本実施形態の構造化データ変換装置によって変換された HTMLデータは 、内部に逆変換情報を含んでおり、この逆変換情報を用いて内部データに対する検 索を行なうことができる。 [0108] 図 15 (a)、図 15 (b)は、本実施形態の検索処理の説明図である。
通常 HTMLデータでは、同図(a)に示すように内部データ(同図の「100万円」等) は、何を示したデータであるのかは不明であり、この内部データが予算に対するデー タであってもこの HTMLデータに対し、例えば"予算"等のデータの内容を検索する 意味的な検索を行なうことは出来ない。
[0109] それに対して、同図(b)に示す本実施形態の構造化データ変換装置によって変換 された HTMLデータ 152は、内部データに対応づけて逆変換情報がアンカーとして 埋め込まれており、この逆変換情報には変換元の XMLデータの要素名が含まれて いる。
[0110] 例えば HTMLデータ 152に対して、 2004年度上期の予算を検索したい場合、検 索例 153のように、検索キーワード 156として" 2004上期"ど'予算"を検索処理部 14 に入力すると、検索処理部 14は HTMLデータ 152のアンカー内の逆変換情報を検 索し、検索キーワード 156と同じ文字列 154a、 154bを検出すると、対応する内部デ ータ 155 (研削機一和戸を含む開始タグど' name"属性の文字列力 S"—e"で終了す る終了タグに挟まれたデータ)を検索結果 157として出力する。
[0111] 図 15の場合、 HTMLデータ 152に対する" 2004上期"ど'予算"という文字列を検 索キーワードとすると、アンカー中の"/予算/ 2004上期予算"という逆変換情報が 見つかるので、そのアンカーに対応する内部データである" 100万円"が検索結果 1 57として得られる。
[0112] 図 16は、検索処理部 14によって行なわれる検索処理を示すフローチャートである 同図の処理が開始されると、まず検索処理部 14は、ステップ S51として、ユーザに 検索条件として検索キーワードを入力させる。
[0113] 次に検索処理部 14は、検索対象となる HTMLデータ 133をメモリから読み出し、ス テツプ S52として HTMLデータ 133から逆変換情報に対応するアンカー名("name" 属性の文字列)を全て抽出する。
[0114] そして検索処理部 14は、ステップ S52で抽出した複数のアンカー名に対してステツ プ S 51でユーザに入力させた検索キーワードを照合し、検索キーワードの文字列を 含むものを抽出する。
[0115] その結果、検索キーワードの文字列を含むアンカー名が存在すれば(ステップ S54 、 Yes)、ステップ S56として、該当したアンカー名を含むアンカー及びそのアンカー と対応するアンカー(同一のアンカー名 + "_e "のアンカー名のアンカー)との間に 含まれる文字列を検索結果として出力し、本処理を終了する。
[0116] またステップ S54において、検索キーワードの文字列を含むアンカー名が存在しな ければ (ステップ S54、 No)、ステップ S55として検索結果として「該当無し」を出力し 、処理を終了する。
[0117] この様に本実施形態における構造化データ変換装置によって変換した HTMLデ ータは、変換元の XMLデータと同様に検索処理を行なうことができる。
尚上記例では、検索処理を例として挙げている力 本実施形態における構造化デ ータ変換装置によって変換された変換結果である HTMLデータは、データ抽出や 計算処理、独自処理等、検索以外の一般的に XMLデータに対する処理も同様にし て行なうことが出来る。
[0118] また上記説明では、逆変換情報はアンカータグとして、変換結果の HTMLデータ に坦め込んでいたが、 HTMLデータを Webブラウザによって表示したときに、坦め込 んだ逆変換情報が表示されなければ、他の方法で坦め込んでも良い。
[0119] 図 17は、逆変換情報を HTMLのコメントタグ内に坦め込んだ場合の例を示す図で ある。
同図では、変換元の XMLデータ 171を変換定義 172に基づいて XMLデータ 173 に変換する際、埋め込む逆変換情報をコメント 175— 1〜: 175— 6として埋め込んで いる。この場合逆変換情報は、コメントタグ 175中の" < ! ——"ど'——〉"との間に 挟まれたコメント本文として坦め込まれる。
[0120] このコメント 175は、 Webブラウザでは読み飛ばされるので、コメント 175を坦め込ん でも、表示結果 174には全く影響を与えない。
図 18は、本実施形態における構造化データ変換装置の構成要素である、変換処 理部 11、逆変換処理部 12、部分逆変換処理部 13、及び検索処理部 14をソフトゥェ ァ的手法によって実現した場合の、これらの構成要素が実現されるコンピュータのシ ステム環境図である。
[0121] 同図のコンピュータは、 CPU181、主記憶装置 182、ハードディスク等の補助記憶 装置 183、ディスプレイ、キーボード等の入出力装置(I/O) 184、モデム等のネット ワーク接続装置 185及びディスク、磁気テープなどの可搬記憶媒体から記憶内容を 読み出す媒体読み取り装置 186を有し、これらが互いにバス 187により接続される構 成を備えている。
[0122] 図 12のコンピュータでは、媒体読み取り装置 186により磁気テープ、フレキシブル ディスク、 CD-ROM, MO等の記憶媒体 188に記憶されているプログラム、データ を読み出し、これを主記憶装置 182または補助記憶装置 183にダウンロードする。そ してこのプログラムやデータに基づいて、 CPU181が、上述した変換処理部 11、逆 変換処理部 12、部分逆変換処理部 13、及び検索処理部 14の各機能をソフトウェア 的に実現する。
[0123] また、図 18のコンピュータシステムでは、フレキシブルディスク等の記憶媒体 187を 用いてアプリケーションソフトの交換が行われる場合がある。よって、本発明は、構造 化データ変換装置や変換方法に限らず、コンピュータにより使用されたときに、上述 した本発明の実施形態の機能をコンピュータに行なわせるためのコンピュータ読み 出し可能な記憶媒体 187として構成することもできる。
[0124] この場合、「記憶媒体」には、例えば図 19に示されるように、 CD-ROM,フレキシ ブルディスク(あるいは MO、 DVD、リムーバブルハードディスク等であってもよレ、)等 の媒体駆動装置 197に脱着可能な可搬記憶媒体 196や、ネットワーク回線 193経由 で送信される外部の装置 (サーバ等)内の記憶部(データベース等) 192、あるいは 情報処理装置 191の本体 194内のメモリ(RAM又はハードディスク等) 195等が含ま れる。可搬記憶媒体 196や記憶部(データベース等) 192に記憶されているプロダラ ムは、本体 194内のメモリ(RAM又はハードディスク等) 195にロードされて、実行さ れる。
[0125] また、既に説明した CD— ROMや DVD— ROM等の記憶媒体には、上記に例とし て挙げたものの他にも、例えば、 Blu-ray Disc (登録商標)や AOD (Advanced Optical Disc)などの青色レーザーを用いた次世代光ディスク記憶媒体、赤色レー ザ一を用いる HD_DVD9、青紫色レーザーを用いる Blue Laser DVDなど、今 後開発される種々の大容量記憶媒体を用いて本発明を実施することも可能である。
[0126] 本発明によれば、構造化文書を他のデータ構造に変換する際に、変換先のデザィ ン (データ構造)を別個に作成しておき、このデザインに殆ど手をいれずに変換に使 うことが可能である。このため、データとデザインを分離して管理、再利用することが 可能になる。
[0127] 尚上記例では XML文書と HTML文書を相互変換する場合を例として挙げたが、 本実施形態における文書変換活用システムによる変換は、これに限定されるもので はなぐ SGML文書から HTML文書への変換等、他の構造化文書間の変換も行な うことができる。

Claims

請求の範囲
[1] 第 1の構造化データを、当該第 1の構造化データとは別の言語によって記載された 第 2の構造化データに変換する構造化データ変換装置であって、
前記第 1の構造化データを前記第 2の構造ィヒデータに変換する際に削除され、変 換した前記第 2の構造化データを前記第 1の構造化データに逆変換する際に必要と なるデータを、逆変換情報として前記第 1の構造化データから抽出する逆変換情報 生成部と、
前記第 1の構造化データを前記第 2の構造化データに変換する際、前記逆変換情 報を当該第 2の構造化データに埋め込む逆変換情報格納部と、
を有することを特徴とする構造化データ変換装置。
[2] 前記第 2の構造化データに坦め込まれている前記逆変換情報を用いて、前記第 2 の構造化データを前記第 1の構造ィヒデータに逆変換する逆変換部を更に備えること を特徴とする請求項 1に記載の構造化データ変換装置。
[3] 前記逆変換情報格納部は、変換後の前記第 2の構造化データを Webブラウザで表 示した際に見た目に影響を与えない形で前記逆変換情報を坦め込むことを特徴とす る請求項 1に記載の構造化データ変換装置。
[4] 前記第 2の構造化データは HTMLで記載されたデータであり、前記逆変換情報格 納部は、前記逆変換情報を HTMLのアンカータグ内に坦め込むことを特徴とする請 求項 3に記載の構造化データ変換装置。
[5] 前記第 2の構造化データは HTMLで記載されたデータであり、前記逆変換情報格 納部は、前記逆変換情報を HTMLのコメントタグ内に埋め込むことを特徴とする請 求項 3に記載の構造化データ変換装置。
[6] 前記逆変換情報生成部は、前記第 1の構造化データ内の要素の階層構造上での 位置を示す情報を含む変換定義に基づいて前記逆変換情報を抽出することを特徴 とする請求項 1に記載の構造化データ変換装置。
[7] 前記逆変換情報生成部は、前記第 1の構造ィ匕データが繰り返し構造を含むとき、 当該繰り返し構造全体に対する前記逆変換情報を生成し、前記逆変換情報格納部 は、当該逆変換情報を前記繰り返し構造全体に対応させて坦め込むことを特徴とす る請求項 1に記載の構造化データ変換装置。
[8] 前記第 1の構造化データが繰り返し構造を含むとき、前記第 1の構造化データを前 記第 2の構造化データに変換する際、当該繰り返し構造を表に変換することを特徴と する請求項 1に記載の構造化データ変換装置。
[9] ユーザからの指示に基づいて、前記第 2の構造化データから前記第 1の構造化デ ータの一部を逆変換する部分逆変換部を更に備えることを特徴とする請求項 1に記 載の構造化データ変換装置。
[10] 前記第 1の構造化データから変換した前記第 2の構造ィ匕データに対し、ユーザ力 の検索条件に基づいて検索を行なう検索部を更に備えることを特徴とする請求項 1 に記載の構造化データ変換装置。
[11] 前記逆変換情報は、前記第 2の構造化データを前記第 1の構造化データに逆変換 する際に最低限必要となる情報であることを特徴とする請求項 1に記載の構造ィ匕デ ータ変換装置。
[12] 前記逆変換情報は、前記第 1の構造ィヒデータ内のタグのタグ名及びタグと要素内 容との対応関係を示す情報であることを特徴とする請求項 11に記載の構造化データ 変換装置。
[13] 前記第 1の構造化データは、 XMLで記載されたデータであり、前記第 2の構造ィ匕 データは、 HTMLで記載されたデータであることを特徴とする請求項 1に記載の構 造化データ変換装置。
[14] 第 1の構造化データを、当該第 1の構造化データとは別の言語で記載された第 2の 構造ィヒデータに変換する構造ィヒデータ変換方法であって、
変換対象となる前記構造化データをメモリから読み出し、
前記第 1の構造化データを前記第 2の構造ィ匕データに変換する際に削除され、変 換した前記第 2の構造化データを前記第 1の構造化データに逆変換する際に必要と なるデータを、逆変換情報として前記第 1の構造化データ力 抽出し、
前記第 1の構造化データを前記第 2の構造化データに変換する際、前記逆変換情 報を当該第 2の構造ィヒデータに埋め込む
ことを特徴とする構造化データ変換方法。 第 1の構造化データを、当該第 1の構造化データとは別の言語で記載された第 2の 構造ィ匕データに変換するコンピュータで実行されたとき、
変換対象となる前記構造化データをメモリから読み出し、
前記第 1の構造化データを前記第 2の構造ィ匕データに変換する際に削除され、変 換した前記第 2の構造化データを前記第 1の構造化データに逆変換する際に必要と なるデータを、逆変換情報として前記第 1の構造化データ力 抽出し、
前記第 1の構造化データを前記第 2の構造ィヒデータに変換する際、前記逆変換情 報を当該第 2の構造ィヒデータに埋め込む
ことを前記コンピュータに実行させるプログラムを記憶した前記コンピュータが読み 出し可能な可搬記憶媒体。
PCT/JP2005/006173 2005-03-30 2005-03-30 構造化データ変換方式 WO2006103777A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2005/006173 WO2006103777A1 (ja) 2005-03-30 2005-03-30 構造化データ変換方式
JP2007510300A JP4216323B2 (ja) 2005-03-30 2005-03-30 構造化データ変換方式
EP05721671A EP1870821A4 (en) 2005-03-30 2005-03-30 IMPLEMENTATION PROCEDURES FOR STRUCTURED DATA
US11/905,304 US20080091699A1 (en) 2005-03-30 2007-09-28 Method of converting structured data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/006173 WO2006103777A1 (ja) 2005-03-30 2005-03-30 構造化データ変換方式

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/905,304 Continuation US20080091699A1 (en) 2005-03-30 2007-09-28 Method of converting structured data

Publications (1)

Publication Number Publication Date
WO2006103777A1 true WO2006103777A1 (ja) 2006-10-05

Family

ID=37053052

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/006173 WO2006103777A1 (ja) 2005-03-30 2005-03-30 構造化データ変換方式

Country Status (4)

Country Link
US (1) US20080091699A1 (ja)
EP (1) EP1870821A4 (ja)
JP (1) JP4216323B2 (ja)
WO (1) WO2006103777A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080098299A1 (en) * 2005-03-30 2008-04-24 Fujitsu Limited Document conversion and use system
JP2019537769A (ja) * 2016-09-15 2019-12-26 ナッツ・ホールディングス、エルエルシー 暗号化されたユーザデータの移動および記憶

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256480A1 (en) * 2007-04-06 2008-10-16 Sbs Information Systems Co., Ltd. Data gathering and processing system
CN101685394A (zh) * 2008-09-26 2010-03-31 国际商业机器公司 用于提供版本间文档兼容性的方法和装置
CN102999502B (zh) * 2011-09-09 2015-08-05 腾讯科技(深圳)有限公司 扩展页面标签的方法和装置
WO2013073104A1 (ja) * 2011-11-14 2013-05-23 パナソニック株式会社 データ変換装置、データ変換方法、及びデータ変換用のプログラム
US10275505B2 (en) * 2014-06-24 2019-04-30 Adobe Inc. In-application conversion of file versions using cloud services
US11372853B2 (en) * 2019-11-25 2022-06-28 Caret Holdings, Inc. Object-based search processing
EP4133397A4 (en) 2020-04-09 2024-04-10 Nuts Holdings Llc NUTS: FLEXIBLE HIERARCHY OBJECT GRAPHS
CN112287013B (zh) * 2020-12-24 2021-05-07 深圳市蓝凌软件股份有限公司 数据转换方法及适配器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232868A (ja) * 1997-02-20 1998-09-02 Fuji Xerox Co Ltd 文書処理装置
JP2004030582A (ja) * 2002-04-30 2004-01-29 Toshiba Corp 構造化文書編集装置、構造化文書編集方法及びプログラム
JP2004062600A (ja) * 2002-07-30 2004-02-26 Fujitsu Ltd 構造型文書の変換方法、復元方法、変換及び復元方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002337921A1 (en) * 2001-10-19 2003-04-28 Vizional Technologies, Inc. Extensible mark-up language (xml) tracer for conversion of xml documents to hypertext markup language (html)
US7143344B2 (en) * 2002-06-12 2006-11-28 Microsoft Corporation Transformation stylesheet editor
US9594731B2 (en) * 2007-06-29 2017-03-14 Microsoft Technology Licensing, Llc WYSIWYG, browser-based XML editor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232868A (ja) * 1997-02-20 1998-09-02 Fuji Xerox Co Ltd 文書処理装置
JP2004030582A (ja) * 2002-04-30 2004-01-29 Toshiba Corp 構造化文書編集装置、構造化文書編集方法及びプログラム
JP2004062600A (ja) * 2002-07-30 2004-02-26 Fujitsu Ltd 構造型文書の変換方法、復元方法、変換及び復元方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1870821A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080098299A1 (en) * 2005-03-30 2008-04-24 Fujitsu Limited Document conversion and use system
US8423888B2 (en) * 2005-03-30 2013-04-16 Fujitsu Limited Document conversion and use system
JP2019537769A (ja) * 2016-09-15 2019-12-26 ナッツ・ホールディングス、エルエルシー 暗号化されたユーザデータの移動および記憶
JP7076819B2 (ja) 2016-09-15 2022-05-30 ナッツ・ホールディングス、エルエルシー 暗号化されたユーザデータの移動および記憶
US11720716B2 (en) 2016-09-15 2023-08-08 Nuts Holdings, Llc Structured data folding with transmutations

Also Published As

Publication number Publication date
JP4216323B2 (ja) 2009-01-28
EP1870821A1 (en) 2007-12-26
JPWO2006103777A1 (ja) 2008-09-04
US20080091699A1 (en) 2008-04-17
EP1870821A4 (en) 2013-04-03

Similar Documents

Publication Publication Date Title
JP4216323B2 (ja) 構造化データ変換方式
JP4267336B2 (ja) 構造パターン候補を生成する方法、システムおよびプログラム
US7703009B2 (en) Extensible stylesheet designs using meta-tag information
US9122664B2 (en) Method for automatically creating transforms
US7720885B2 (en) Generating a word-processing document from database content
US20090112901A1 (en) Software, Systems and Methods for Modifying XML Data Structures
JP4388929B2 (ja) 構造化文書の構造変換装置、構造変換方法、記録媒体
US20050091249A1 (en) Single file serialization for physical and logical meta-model information
WO2009105994A1 (zh) 一种处理符合文档库标准的文档的方法及装置
JP4775974B2 (ja) ウェブページを編集するプログラム、装置、及びシステム
JPWO2007081017A1 (ja) 文書処理装置
Hori et al. Generating transformational annotation for web document adaptation: tool support and empirical evaluation
Rose et al. Virtual XML: A toolbox and use cases for the XML world view
KR20080100344A (ko) Edi 스키마에 대응하는 파일 개발 방법, 파일 생성 시스템, 및 컴퓨터 판독가능 매체
JP2007079906A (ja) ソースコード生成装置
JP4410005B2 (ja) 構造化文書の構造変換装置、プログラム
Joshi Beginning XML with C# 7: XML Processing and Data Access for C# Developers
US20060064362A1 (en) Distributed publishing system integrating internal and external editorial means
JP2006343976A (ja) 電子帳票提供方法及び電子帳票サーバ装置
JP2004145736A (ja) 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
JP2004529427A (ja) メタタグ情報を用いる拡張可能スタイルシートのデザイン
JP3974606B2 (ja) 構造化文書変換装置、構造化文書変換方法及びプログラム
JP4242701B2 (ja) 格納検索装置、格納検索プログラム、および格納検索プログラム記録媒体
JP2009054187A (ja) 構造化文書の構造変換装置
Phelps et al. Multivalent documents: A new model for digital documents

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007510300

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11905304

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 2005721671

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: RU

WWW Wipo information: withdrawn in national office

Country of ref document: RU

WWP Wipo information: published in national office

Ref document number: 2005721671

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11905304

Country of ref document: US