JP2005301558A

JP2005301558A - マルチ言語マルチコードデータベースの変換方法

Info

Publication number: JP2005301558A
Application number: JP2004115102A
Authority: JP
Inventors: Sejin On; 世仁温; Toka Cho; 東華張; Moriki Ko; 茂力侯
Original assignee: Inventec Corp
Current assignee: Inventec Corp
Priority date: 2004-04-09
Filing date: 2004-04-09
Publication date: 2005-10-27

Abstract

【課題】マルチ言語マルチコードデータベースを一致化処理することができ、操作の統合が図られるマルチ言語マルチコードデータベースの変換方法の提供。
【解決手段】本発明の方法は、先ず、オリジナルデータベースファイルをチェックしその種類を確認する。そして、前記オリジナルデータベースファイルのフィールド及びコード型を分析する。次に、フィールド内のデータを抽出する。各フィールドのデータを用い新規データファイルを生成し且つローカルコードに変換した上保存する。言語やコード型の相違によりデータ素材の使用及びプログラムの編成が難しくなる問題は解消される。
【選択図】図１

Description

本発明は、データ変換方法に係り、特に、マルチ言語マルチコードデータベースの変換方法に関する。

どの国や地域でも、コンピュータ情報交換用の文字コードセットに関する規定がある。例えば、米国ではASCIIコードが、中国ではGB2312-80コードが、日本ではJISコードがある。これらは該当国又は地域における情報処理コードを統合する。

文字コードセットは、長さにより、SBCS（Single Byte Character Set）とDBCS（Double Byte Character Set）と二分されている。初期のソフトウエア（特にOS）は、特定の文字コードセット使用上の問題を解決するために、ローカルバージョン（L10N）を用いるのが主流であった。そこで、それらを区分するために、LANG及びCodepageの概念が導入された。
しかし、各ローカル文字コードセットの範囲には、互いに重なり合う部分があるため、情報の変換は困難であった。また、ローカルバージョンのメンテナンス費用は高かった。このため、各ローカルソフトウエアの共通点をまとめて一括処理し、ローカル化タスクの量を低減させる動きが見られた。これは所謂国際化（I１８N）である。言語情報は更にローカル情報として統合され、ベース文字セットは、殆どの文字がカバーされるユニコード（Unicode）になる。

国際文字を用いる現在のプログラムの殆どは、そのコア文字がこのユニコードに基づく。ソフトウエアを実行する際、現在設定されているLocale/LANG/Codepageからローカル文字コードが設定される。ここで、ユニコードとローカル文字セットとの間の変換を行い、又はユニコードを以って異なる両ローカル文字セット間の変換を行なう必要がある。

理論的視点から見ると、文字セットの設定に基づく文字変換は、問題が少なく難しくないはずである。しかし、実際は、ユニコード及びローカル文字セットが完全なものでないし、システムやアプリケーションの統合が整っていないため、コード転換処理においてプログラマ及びユーザを困らせる問題が多い。
特に、シリーズバージョンを有するアプリケーションでは問題がもっと目立つ。例えば、Win98、Win2000、WinXP及びLinux（登録商標）等OSにおいて、旧体中文、簡体中文、和文及びタイ文の表示は混在する。一方、データベースにより、利用されるファイルの種類が異なるし（例えば、FoxPro（登録商標）やAccess（登録商標）、Outlook（登録商標）、Excel及びText等種類がある）、プラットフォームにより、コード型も異なる。このため、編集中、大量な操作や変換処理が行なわれる。例えば、Windous（登録商標）におけるAccess（登録商標）データベースはLinux（登録商標）にて利用できない。また、和文Access（登録商標）ファイルは非ユニコードを用いる非和文Windous（登録商標）にて利用できない。

前記問題点に鑑み、本発明が解決しようとする課題は、マルチ言語マルチコードデータベースを一致化処理することができ、操作の統合が図られるマルチ言語マルチコードデータベースの変換方法を提供することにある。

上記の目的を達成するために、本発明はマルチ言語マルチコードのデータベースを一致化処理する変換方法を提供する。本発明の方法は、先ず、オリジナルデータベースファイルをチェックしその種類を確認する。そして、前記オリジナルデータベースファイルのフィールド及びコード型を分析する。次に、前記オリジナルデータベースファイルのデータをフィールドから抽出する。前記フィールド毎に抽出されるデータを用い新規データベースファイルを生成し且つローカルコードで新規生成されるファイルを保存する。

本発明は、新規生成されるデータファイルにおいて充分な情報を定義することができるため、同一のアプリケーションで異なる種類のデータを利用することができる。データを提供する際、同様なファイル名を有する複数のデータベースを提供する。従って、同様な文書において異なるバージョンが生成される。このため、言語やコード及びプラットフォームの相違によりデータ素材及びプログラムの使用が難しくなる問題は解消する。
本発明は下記のように詳細な説明から一層完全に理解される。なお、該当説明は本発明の範囲を限定しない。

先ず、オリジナルデータベースファイルをチェックしその種類を確認する。そして、前記オリジナルデータベースファイルのフィールド及びコード型を分析する。次に、前記オリジナルデータベースファイルのデータをフィールドから抽出する。前記フィールド毎に抽出されるデータを用い新規データベースファイルを生成し且つローカルコードで新規生成されるファイルを保存する。

以下、本発明の実施例を図面に基づいて説明する。
図１は本発明に係るマルチ言語マルチコードデータベースの変換方法を示す図である。
図１において、本発明方法は、先ず、オリジナルデータベースファイルをチェックしその種類を確認する（ステップ１０１）。次に、データベース種類から、該当オリジナルデータベースファイルのフィールド及びコード型を分析する（ステップ１０２）。そして、該当オリジナルデータベースファイルからフィールド毎にデータを抽出する（ステップ１０３）。次に、フィールド毎に抽出されたデータを用い新規データベースファイルを生成し且つローカルコードで保存する（ステップ１０４）。

ステップ１０１において、ファイル種類は、データベースのファイル名及びサフィックスファイル名から判断する。アプリケーションプログラムにおいて新規ファイルを利用しようとする場合は、該アプリケーションプログラムの文字セットは、直接に該新規データベースファイルを読取することができる。該文字セットと新規データファイルはローカルコードにおいて合致する。

例えば、マルチ言語を支援する言語学習プログラムでは、旧体中文、簡体中文、和文、タイ文、スペイン語及び英文等のオリジナル素材を用いる可能性があるが、最終製品の実行環境は、Win98やWin2000、WinXP又はLinux（登録商標）であって良い。このようなプログラムを編成する際、素材言語及び実行環境の多様性を考慮する必要がある。メンテナンス及び編集の便宜のために、本発明では、素材編集者はオリジナルファイル種類を用いることができる。例えば、FoxPro（登録商標）ファイルはローカルコードを用い、Access（登録商標）ファイルはユニコードを用いる。ファイル種類によりそのファイル名及びサフィックスファイル名が異なるため、ファイルの種類の識別が容易にできる。なお、ファイル種類によりその特徴が異なる。

例えば、中英双向対訳のAccess（登録商標）データベースファイルの場合は、夫々英文単語用とその翻訳文用の両ファイルを選出し、二つの新規データファイルを形成する。そして、該当英文フィールドを“Ex”と、該当翻訳文フィールドを”Note“と名付けると共に、ユニコードを中文用BIG5ローカルコード及び和文用Shift-JISコードに変換する。なお、FoxPro（登録商標）ファイルを取り扱う場合は、ローカルコードを用いるため、直接に操作して良い。

新規生成されたデータファイルの構造は下記の通りである。

フィールドバイト内容
1.File 4 “IDX_”
2.Info 4 “INFO”
3.Len 4 obtained from 4-10
4.Ver 4 “0001”,“0002”・・・
5.Offset Length 1
6.Field Number 1
7.Field Name Length(len) 1
8.Field Name Len
9.Field Type 1
C-Character
Y-Currency
N-Numeric
F-Float
D-Date
T-Date Time
B-Double
I-Integer
L-Logical
M-Memo
G-General
C-Character(binary)
M-Memo(binary)
P-Picture
10.Keep Length Of All Fields 1
// Loop 7 to 10
11.Code 4 “CODE”
12.Code Length Len 4
13.Code Content Len
14.Data 4 “DATA”
15.Reserved 4 Ox0000
16.Offset obtained from 5
17.Field1 obtained from 10
// Loop 16 to 17

これらの素材を利用するアプリケーションプログラムは、共通のプログラムで新規生成されるデータファイルを処理することができる。前記の例において、中文Windous（登録商標）の環境では中文データベースを選択、Noteフィールドを読取して、Exフィールドを直接に利用することができる。一方、その他の言語のWindous（登録商標）やLinux（登録商標）の環境では、正しいフォント及び文字セットを利用すべきである。

本発明は前記実施例の如く提示されているが、これは本発明を限定するものではなく、当業者は本発明の要旨と範囲内において変形と修正をすることができる。

本発明に係るマルチ言語マルチコードデータベースの変換方法を示す図である。

符号の説明

１０１−１０４本発明方法によるステップ

Claims

マルチ言語マルチコードのデータベース文書を一致化処理する変換方法であって、
オリジナルデータベースファイルをチェックしその種類を確認するステップと、
前記オリジナルデータベースファイルのフィールド及びコード型を分析するステップと、
前記オリジナルデータベースファイルからフィールド毎にデータを抽出するステップと、
フィールド毎に新規データベースファイルを生成し且つローカルコードで新規生成されるファイルを保存するステップとからなるマルチ言語マルチコードデータベースの変換方法。
更に、アプリケーションプログラムは正しい文字セットを用いて新規生成されるデータファイルを読取るステップを有することを特徴とする請求項１に記載の変換方法。
前記オリジナルデータベースファイルをチェックしその種類を確認するステップにおいて、ファイル種類はデータベースのファイル名から判断することを特徴とする請求項１に記載の変換方法。
前記オリジナルデータベースファイルのフィールドを分析するステップはデータファイルの種類に基づいて行なわれることを特徴とする請求項１に記載の変換方法。
前記オリジナルデータベースファイルのコード型を分析するステップはデータファイルの種類に基づいて行なわれることを特徴とする請求項１に記載の変換方法。