JP2001357031A - Unicodeテキストを混合コードページに変換する方法およびシステム - Google Patents

Unicodeテキストを混合コードページに変換する方法およびシステム

Info

Publication number
JP2001357031A
JP2001357031A JP2001122514A JP2001122514A JP2001357031A JP 2001357031 A JP2001357031 A JP 2001357031A JP 2001122514 A JP2001122514 A JP 2001122514A JP 2001122514 A JP2001122514 A JP 2001122514A JP 2001357031 A JP2001357031 A JP 2001357031A
Authority
JP
Japan
Prior art keywords
character
sub
code
codepage
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001122514A
Other languages
English (en)
Other versions
JP3725443B2 (ja
Inventor
Joachim Dr Manfred Bauer
ドクトル・ヨァヒム・マンフレッド・バウアー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001357031A publication Critical patent/JP2001357031A/ja
Application granted granted Critical
Publication of JP3725443B2 publication Critical patent/JP3725443B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 Unicodeテキストから、混合コードページに
コード変換するための、よりよい性能で実行できる方法
およびシステムを提供すること。 【解決手段】 本発明は、Unicode標準に従ってエンコ
ードされたソース・ストリングを、混合コードページに
従ってエンコードすべきターゲット・ストリングに変換
するための方法およびシステムに関する。各サブ・コー
ドページ(14、15、16、17)に所定の優先度を
関連付け、前記ターゲット文字およびそのエンコーディ
ングが複数のサブ・コードページ(14、15、16、
17)のうちのどこに格納されているかを見つけるため
に、マッピング・テーブルを使用せずに前記文字を前記
優先順位に厳密に従って変換することを提案する。有利
には、最も頻繁に使用される文字を含むサブ・コードペ
ージ(14)を最高の優先度に関連付け、最もまれにし
か使用されない文字を含むサブ・コードページ(17)
を最低の優先度に関連付ける。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ可読
文字に関連する文字コード間で変換するための方法およ
びシステムに関する。詳細には、本発明は、Unicode標
準に従ってエンコードされたソース・ストリングを、混
合コードページに従ってエンコードすべきターゲット・
ストリングに変換するための方法およびシステムに関す
る。
【0002】
【従来の技術】コンピュータやその他の電子装置は、ユ
ーザと対話するために一般にテキストを使用する。テキ
ストは、一般にモニタまたは他の種類の表示装置に表示
される。テキストは、コンピュータまたは他の電子装置
中ではデジタルで表さなければならないので、文字セッ
ト・エンコーディングを使用しなければならない。一般
に、文字セット・エンコーディングは、文字セットの各
文字を一義的なデジタル表示にエンコードする。(エン
コードされた)文字は、英字、数字、および様々なテキ
スト記号に対応する。これらの文字には、コンピュータ
または他の電子装置が使用するために数値コードが割り
当てられる。コンピュータおよび他の電子装置で使用す
るための最も普及した文字セットは、情報交換用米国標
準コード(ASCII)である。ASCIIは、そのエ
ンコーディングのために7ビット・シーケンスを使用す
る。他の国では、異なる文字セットが使用されている。
ヨーロッパでは、主要な文字エンコーディング標準は、
国際標準化機構(ISO)によって開発されたISO
8859−Xファミリ、特にISO 8859−1
(「Latin-1」と呼ばれる)である。日本では、主要な
文字エンコーディング標準は、JIS X0208であ
る。ここでJISは日本工業規格を指し、日本規格協会
(JSA)によって開発されたものである。他に存在す
る文字セットの例として、Mac(商標)OS標準ローマ
字エンコーディング(アップル・コンピュータ社によ
る)、シフトJIS(日本)、Big5(台湾)、およびそ
の他多くのものが含まれる。
【0003】上述の文字セットは、前記文字セットに含
まれる各文字のコーディングを示す一種のテーブルであ
るいわゆるコードページに格納されている。したがっ
て、各文字についてそれに関連する数値コードが与えら
れ、この両者の間に一義的なマッピングが存在する。大
部分のコードページは、各文字に1バイト長の数値コー
ドを関連付ける。しかし、それよりも多い、例えば2バ
イトまたは3バイト長の数値コードを有するコードペー
ジも存在する。すべて同じコード長を有する文字を含む
コードページは、単純コードページと呼ばれる。
【0004】複雑な個々の言語特有の国内要件によりよ
く対応するために、いわゆる混合コードページも存在す
る。混合コードページは、少なくとも2つのサブ・コー
ドページを含み、そのコーディングは、長さが異なるこ
とがある。前記サブ・コードページは、コードセットと
も呼ばれる。それには0〜3と番号が付けられる。例え
ば混合日本語コードページIBM−33722は、コー
ドセットIBM−895(1バイト、コードセット
0)、IBM−952(2バイト、コードセット1)、
IBM−896(エスケープ8E+1バイト、コードセ
ット2)、およびIBM−953(エスケープ8F+2
バイト、コードセット3)を含む。
【0005】ビジネスおよびネットワークの国際化の進
展が着実に前進し、世界中のほとんどすべての国を接続
するインターネットの影響がいっそう増加する状況で
は、異なる種類のコードページを使用するコンピュータ
間のデータのどんな変換も、できる限り高速でなければ
ならず、任意選択でできる限り単純でなければならな
い。
【0006】前記コード変換を単純化するために、いわ
ゆるUnicode標準が開発され、この間国際的に認知され
てきた。Unicodeは、存在するすべてのコードセットを
表すためのただ1つの方式を提供する。Unicodeエンコ
ーディング方式の設計は、方向性を別にすれば、基本的
なテキスト処理アルゴリズムの設計から独立している。
Unicodeの実装は、適当なテキストの処理またはレンダ
リングあるいはその両方のアルゴリズムを含むと想定さ
れる。Unicode標準に従ってエンコードされたどの文字
も2バイト長の数値コードで表される。
【0007】次の問題は、Unicode標準から上述の混合
コードページに変換する非常に効率的な方法を見つける
ことである。すなわち、Unicode標準で表されるソース
・ストリングが与えられており、これを複数のコードペ
ージを含むコード・システム、例えば上で述べたような
4つの複数のコードページに、非常に簡単に、しかも非
常に高速に変換したいわけである。
【0008】従来技術のUnicodeから複数のコードペー
ジへの変換方法は、米国特許第5793381号に開示
されている。前記コード変換システムは、1つのソース
文字または文字のシーケンスを、マッピング・テーブル
中で関連するターゲット文字の位置を検索することによ
って、1つのターゲット文字またはターゲット文字のシ
ーケンスにマップする。ソース文字を読み取ると、前記
マッピング・テーブルがアクセスされ、どのサブ・コー
ドページをコード変換に使用するかが決定される。特定
のサブ・コードページが見つかり、前記サブ・コードペ
ージで変換できないソース文字が入力文字ストリング中
で見つかるまで、そのコードページが引き続きコード変
換に使用される。変換できないものがあった場合、正し
いサブ・コードページを見つけるために前記補助マッピ
ング・テーブルが再アクセスされる。さらに、前記従来
技術のコード変換システムは、フォールバック・ハンド
リングを含む。これは、マッピング・テーブルを使っ
て、ルックアップ・ハンドラがターゲット・エンコーデ
ィング中のテキスト要素に対する1つまたは複数の文字
を識別できなかった場合に、そのテキスト要素に対する
フォールバック・マッピングとして使用できる、ターゲ
ット・エンコーディング中の1つまたは複数の文字を識
別する働きをする。
【0009】しかし、この従来技術の手法は、追加のル
ックアップ・テーブルを使用し、そのため必要以上に低
速になり、複雑になってしまう。
【0010】
【発明が解決しようとする課題】したがって、本発明の
目的は、Unicodeテキストから混合コードページにコー
ド変換するための、よりよい性能で実行できる方法およ
びシステムを提供することである。
【0011】
【課題を解決するための手段】本発明の前記目的は、頭
記の独立請求項に記載の特徴によって達成される。本発
明のさらに有利な構成および実施形態は、それぞれの従
属請求項に記載されている。
【0012】本発明の基本的概念を簡単に要約すると、
各サブ・コードページに所定の優先度を関連付け、ター
ゲット文字およびそのエンコーディングが複数のサブ・
コードページのうちのどこに格納されているかを見つけ
るために、マッピング・テーブルを使用せず文字を前記
優先順位に厳密に従って変換することを提案する。最も
頻繁に使用される文字を含むサブ・コードページを、最
高の優先度に関連付け、最もまれにしか使用されない文
字を含むサブ・コードページは、最低の優先度に関連付
けると有利である。したがって、4つのサブ・コードペ
ージの場合、前記サブ・コードページ間の優先順位を確
立することができる。各優先度は、特定の文字がそれぞ
れのサブ・コードページで見つかる確率の指標である。
【0013】この基本的手法のほかに、ある文字が特定
のサブ・コードページで見つからなかった場合、前記文
字についてまだアクセスしていない最高の優先度を有す
るサブ・コードページにアクセスすることをさらに提案
する。
【0014】上述の本発明の処置を適用することによ
り、以下の利点が得られる。
【0015】第1に、上述の従来技術の変換方法に比
べ、性能が著しく向上する。現在使用しているサブ・コ
ードページで文字が見つからなかった度にアクセスしな
ければならない独立したマッピング・テーブルが存在し
ないからである。
【0016】第2に、前記補助マッピング・テーブルを
まったく作成する必要がない。このため多くの労力が節
約される。
【0017】第3に、言語についての地域特有の情報が
活用されるように、複数のサブ・コードページに与える
優先順位を確定することができる。したがって、本発明
の変換方法は、個々の、地域特有のコードページ・シス
テムによって課される個別要件に容易に適合できる。
【0018】個々のケースに応じて、あらかじめ変換す
べき特定のテキストが平均的でないことがわかっている
ときは、本発明のコード変換方法をそのテキストによっ
て課される特定の要件に適合させるために、コード変換
を実行する前に、上述の優先順位を標準設定から個別の
設定へと代替的に動的にすることができる。その新しい
優先順位を、例えば変換すべきファイルのヘッダ中に示
すことができる。
【0019】本発明の方法の注目すべき他の利点は、一
度に1つではなく複数の文字を処理するハードウェア命
令が使用できるという、現代のコンピュータ・システム
の特定の利点を活用できるコンセプトが提供されること
である。そのような現代のハードウェア命令には、どん
な種類のマッピング・テーブルへもチェックのための追
加のアクセスなしに、ターゲット文字を検索するための
線形テーブルが必要である。
【0020】本発明は、有利には、何らかのコード変換
が必要なとき、インターネットで使用することができ
る。さらに、データ・ベースの内容の一部がUnicodeテ
キストから混合コードページに変換される可能性が高い
ときは、本発明のツールを前記データ・ベース・アプリ
ケーションに組み込むことができる。
【0021】本発明の方法を、特定の文字が複数のサブ
・コードページのうちの1つで見つかる確率がすべての
サブ・コードページで等しい場合に適用するときは、4
つのサブ・コードページが存在する場合、統計的平均値
で2回だけしか追加のアクセスを必要としない。この値
は、3つのサブ・コードページでは1.5回まで減少
し、2つのサブ・コードページの場合は1回まで減少す
る。日本語EUCテーブルの場合、すべての文字のうち
の70%がコードセット1で見つかり、30%がコード
セット0で見つかり、1%未満が残りのコードセット2
および3で見つかるが、前記統計的平均値は1より少し
大きくなる。
【0022】さらに、本発明は、有利には、ハードウェ
ア・チップ中に直接バーンイン(burnt-in)されたハー
ドウェア実装に少なくともその一部を組み込むことがで
きる。その場合、そのようなチップ手段は、本発明のコ
ード変換方法のステップの少なくとも一部を実装し反映
したハードウェア回路を含む。電気通信機器が着実に多
様化し、ますます多くの技術的機能を含めてその機能範
囲が着実に増大していることを考慮すると、このような
チップは、広範囲の機器で使用することができる。今日
利用可能な機器を考えると、このようなチップは、国際
的通信のどんな部分を形成するどんな機器においても使
用できると有利である。例えば、インターネットなど任
意の種類のネットワーク中のルータ、テレビや無線受信
装置用のセットトップ・ボックス(Set-Top box)、特
にデジタル・テレビやラジオ、携帯電話、任意の種類の
ハンドヘルド・コンピューティング機器または電気通信
機器、あるいは任意の外国語のデータを処理するための
入力インターフェースを有する他の任意の機器がその例
である。
【0023】
【発明の実施の形態】添付の図を全般的に参照し、特に
図1を参照すると、ボックス10に、本発明の変換方法
が適用されるUnicode文字の全体が象徴的に表されてい
る。
【0024】本発明の前記方法の好ましい実施形態によ
れば、使われる複数のサブ・コードページの間のいくつ
かの明確な優先順位を確立する、いくつかの優先度規則
12を定める。本明細書では時に「コードセットn」
(nは整数)という用語を使うが、これは用語「サブ・
コードページn」と基本的に同じ意味を持つ。図1に示
すケースでは、コードセット1 14、コードセット0
15、コードセット216、およびコードセット3
17として示した4つのサブ・コードページが使用され
る。枠10には、例として選択した4個の文字が示され
ているが、その文字のエンコーディングは、図1の右側
からわかるように異なる別々のサブ・コードページにあ
る。
【0025】前記各テーブル10、14、15、16、
17の図からわかるように、各文字に対して数値コード
が格納されている。
【0026】次に図2および図3を参照すると、本発明
の方法の好ましい実施形態が、日本語Unicodeから混合
日本語EUCサブ・コードページへの例示的なコード変
換において、より詳細に示されている。
【0027】コード変換を開始する前に、前記日本語E
UCサブ・コードページについての既存の推定が使用さ
れる。この推定によれば、この特定のケースでのサブ・
コードページでは、コードセット1は、出現するすべて
のソース文字のほぼ70%を占め、コードセット0は出
現する文字全体の約29%、コードセット2は約0.6
%、コードセット3は約0.4%を含むように編成され
る。前記コードセットの確率分布は、最も頻繁に使用さ
れるコードセット14が前面に示され、最もまれにしか
使用されないコードセットがコードセットの「スタッ
ク」の最後のセット17として示される限りにおいて、
図1にも示されている。したがって上述の優先順位は、
以下のようになる。コードセット1、コードセット0、
コードセット2、コードセット3
【0028】図2に任意に選んだ例での大まかな図を示
す。この図は、230個の各文字が、各文字の見つかる
可能性がある4つのサブ・コードページのうちのどの中
にあるかを示す。
【0029】合計230個のソース文字が、単一の例示
的な変換処理で変換される。230という数字は、処理
をわかりやすくするために非常に小さく選んであること
を理解されたい。
【0030】したがって、合計230個のソース文字
が、図1に参照符号10で象徴的に表される入力セット
が含まれる。本発明の方法によって発行する必要のある
新しい数値コードは、4つのサブ・コードページ14、
15、16、17に以下のように格納される。図1の右
側を参照のこと。文字1〜171がコードセット1に、
文字172、173がコードセット0に、文字174〜
196がやはりコードセット1に、非常にまれにしか使
用されない文字197はコードセット3に置かれ、文字
198〜210が再びコードセット1に、文字211〜
215がコードセット0に格納され、非常にまれにしか
使用されない文字216、217もコードセット2に、
文字218〜230がコードセット1に格納される。
【0031】前記変換方式では、上述のソース文字を順
次処理する。本発明の方法を適用するための好ましい方
法では、複数の文字を一度に処理するハードウェア命令
が使用できる。その一例は、2バイト文字で構成される
ストリングを1バイト文字で構成される出力バッファに
変換するIBM OS/390のハードウェア命令「Tr
anslate Two to One」(TRTOと略記する)である。
前記ハードウェア命令は以下のような引数をとる。変換
すべきストリング、変換されたストリングを格納するタ
ーゲット・バッファ、特定の入力文字が変換できないこ
とを示す文字、変換すべき文字を用いてアドレスされ、
変換された文字がそのアドレスされた位置に格納される
変換テーブル
【0032】しかし、わかりやすくするため、かつ本発
明の実際の核心に注意を集中する目的で、上述の入力文
字シーケンスを、単一文字変換処理、すなわち各文字を
別々に扱う処理にかける。
【0033】この本実施形態の好ましい特徴によれば、
上述の優先順序から導かれた1組の処理規則が確立され
る。前記処理規則は、以下の通りである。 1.最初に最も高い優先度のコードセットにアクセスす
る。 2.最も高い優先度のコードセット中に特定の文字が見
つからないとき、そのすぐ下の優先度のコードセットに
進み、それを繰り返す。 3.あるコードセット中に文字が見つからなかった場
合、この文字についてまだアクセスしていない最も高い
優先度のコードセットをアクセスする。
【0034】これらの規則を適用することにより、図3
に示す略図が得られる。
【0035】図3は4つの行を含む。第1行は、サブ・
コードページ1、すなわち最高の優先度を有するサブ・
コードページからアクセスを始めて、ある特定の文字が
見つからない場合に、次々にアクセスするサブ・コード
ページのシーケンスを、反映している。すなわち、ある
文字がサブ・コードページ1で見つからないとき、その
現文字を検索するためにサブ・コードページ0にアクセ
スする。前記現文字がサブ・コードページ0で見つかっ
た場合、処理は前記サブ・コードページ中で、変換すべ
き次の文字に進む。この次の文字については、検索のた
めに第2行を適用する。そうではなくて、上述の現文字
がサブ・コードページ0で見つからない場合、さらに検
索するためにサブ・コードページ2にアクセスする。そ
の後はサブ・コードページ2について対応する方式に従
うことになる。
【0036】現文字がサブ・コードページ2で見つかっ
た場合、関連する数値コード、すなわち変換後のコード
が発行され、図3に示す第3行に従って次の文字を検索
する。そうでない場合、すなわち現文字がサブ・コード
ページ2で見つからない場合、最後のサブ・コードペー
ジ3に検索のためアクセスする。その結果文字がみつか
り、検索は、図3に示す第4行に進む。
【0037】上記の説明から理解できる通り、本発明の
前記実施形態によれば、常に最後の文字の発見に成功し
た特定のサブ・コードページ中で検索を続行する。
【0038】第2行、第3行、または第4行を特に参照
すると、各現サブ・コードページ中で、変換すべき次の
文字が見つからないとき、変換すべき次の文字を求め
て、常に最高の優先度のサブ・コードページ(ここでは
図1に参照符号14で示すコードページ1)にアクセス
する。
【0039】図2に示す文字ストリングを特に参照する
と、処理の方法、すなわち異なるサブ・コードページに
アクセスする方法が、より詳細に示されている。図2、
図3のどちらでも、A)〜G)で表示される矢印があ
る。これらの矢印は、アクセスがそれぞれあるコードセ
ットから別のコードセットへと変更されることを示す。
【0040】サブ・コードページ1は、最高の優先度の
サブ・コードページであるため、検索は、サブ・コード
ページ1へのアクセスから始まる。したがって、文字1
が見つかり、その数値コードが、サブ・コードページ1
に格納されている数値コードを出力することによって変
換される。その後、変換プロセスによって第2の文字が
入力として取得されるが、第2の文字もサブ・コードペ
ージ1に格納されているため、同様の手順が繰り返され
る。文字番号172に達するまで、同様の手順が継続し
て適用される。
【0041】前記現文字172は、サブ・コードページ
1では見つからない。したがって、矢印A)からわかる
ように、次にサブ・コードページ0にアクセスする。そ
れが次に高い優先度を有するサブ・コードページだから
である。たまたまこの場合は、文字172は、サブ・コ
ードページ0で見つかる。したがって、その数値コード
が上記のように発行される。次にサブ・コードページ0
が引き続き、文字173に適用される。ところで、図2
からわかるように、文字173もサブ・コードページ0
に格納されている。次いで、文字174を処理する。今
度はこの文字は、コードセット0では見つからない。し
たがって、図3の第2行が適用される。矢印B)からわ
かるように、コードセット1に再度アクセスする。コー
ドセット1を検索するときにこの文字が見つかる確率が
最大だからである。
【0042】たまたまこの場合は、やはり図2からわか
るように、前記文字174は、再びコードセット1で見
つかる。したがって、発行後に第1行が再び適用され
る。文字175〜196も、コードセットを変更せずに
上記のように処理される。
【0043】次いで、非常にまれにしか使用されない文
字197は、コードセット1では見つからない。したが
って、図3の矢印C)からわかるように、コードセット
0にアクセスし検索する。次いで、文字197がその中
で見つからないので、コードセット2にアクセスし検索
する。文字197はその中でも見つからないので、最後
にコードセット3にアクセスする。その中で文字197
が見つかり、その数値コードが発行される。次いで、コ
ードセット3で検索が続行する。
【0044】文字198は、コードセット3では見つか
らない。したがって、図3に示す第4行が適用され、矢
印D)からわかるように、次にコードセット1にアクセ
スする。その中で、文字198について検索が成功する
が、文字211は見つからない。したがって、第1行が
再び適用される。矢印E)からわかるように、次にコー
ドセット0にアクセスする。コードセット0で、文字2
11〜215が見つかる。
【0045】しかし、文字216は見つからず、したが
って第2行が適用され、検索のためコードセット1に再
アクセスする。しかしその中でも見つからないので、矢
印F)からわかるように、コードセット2にアクセスす
る。そこで文字216が見つかり、発行後に、次の文字
217をコードセット2で処理することも成功する。
【0046】次いで、文字218を処理するが、それは
コードセット2では見つからないので、図3の第3行か
らわかるように、コードセット1に再アクセスする。文
字218と、それに続く変換すべき文字の入力セットに
残っているすべての文字は、コードセット1でやはり見
つかる。したがって、それらは上記のように処理し、最
後の文字230が変換された後、変換プロセスは停止す
る。こうして、すべてのソース文字コードの変換が成功
した。
【0047】上述の明細においては、本発明を、その特
定の例示的な実施形態に関して説明した。しかし、頭記
特許請求の範囲記載の本発明のより広範な精神および範
囲から逸脱することなく、本発明に様々な修正および変
更を加えることができることは明らかであろう。したが
って本明細および図面は、限定的な意味ではなく例示的
なものとみなされるべきである。
【0048】例えば、まれしか使用されないコードセッ
トでヒットした後、検索を別の方法で続行することもで
きる。あるいは、その同一のまれにしか使用されないコ
ードセットで文字を見つけようと試みるのではなく、自
動的に最高の優先度のコードセットに検索を進めること
もできる。この状況は、上で示した詳細な説明では、文
字197を処理した後に起こる。統計的に見れば、さら
に少し性能の向上が達成できる。
【0049】本発明は、ハードウェア、ソフトウェア、
またはハードウェアとソフトウェアの組み合わせで実現
することができる。本発明によるコード変換ツールは、
1つのコンピュータ・システムでの集中形式、または様
々な要素がいくつかの相互接続されたコンピュータ・シ
ステムにわたって展開する分散形式で実現することがで
きる。本明細書に記載の方法の実施に適合したどんな種
類のコンピュータ・システムやその他の装置でも適して
いる。ハードウェアとソフトウェアの典型的な組み合わ
せは、ロードされ実行されると、本明細書に記載の方法
を実施するようにコンピュータ・システムを制御する、
コンピュータ・プログラムを備える汎用コンピュータ・
システムとすることもできる。
【0050】本発明はコンピュータ・プログラム製品に
組み込むこともできる。そのコンピュータ・プログラム
製品は、本明細書に記載の方法の実装を可能にし、コン
ピュータ・システムにロードしたときこれらの方法を実
施することができる、すべての特徴を含む。
【0051】コンピュータ・プログラム手段、すなわち
この文脈でのコンピュータ・プログラムは、情報処理能
力を有するシステムに、直接に、または以下の一方もし
くは両方を行った後に、特定の機能を実行させるための
1組の命令の、任意の言語、コード、または表記法によ
る任意の表現を意味する。 a)他の言語、コード、または表記法に変換する b)異なるマテリアル・フォームで複製する
【0052】本願発明は、ハードウェア、ソフトウェ
ア、またはハードウェアおよびソフトウェアの組み合わ
せとして実現可能である。ハードウェアとソフトウェア
の組み合わせによる実行において、所定のプログラムを
有するコンピュータ・システムにおける実行が典型的な
例として挙げられる。かかる場合、該所定プログラムが
該コンピュータ・システムにロードされ実行されること
により、該プログラムは、コンピュータ・システムを制
御し、本願発明にかかる処理を実行させる。このプログ
ラムは、任意の言語・コード・表記によって表現可能な
命令群から構成される。そのような命令群は、システム
が特定の機能を直接、または1.他の言語・コード・表
記への変換、2.他の媒体への複製、のいずれか一方も
しくは双方が行われた後に、実行することを可能にする
ものである。もちろん、本願発明は、そのようなプログ
ラム自体のみならず、プログラムを記録した媒体もその
範囲に含むものである。本願発明の機能を実行するため
のプログラムは、フレキシブル・ディスク、MO、CD
−ROM、DVD、ハード・ディスク装置、ROM、M
RAM、RAM等の任意のコンピュータ読み取り可能な
記録媒体に格納することができる。かかるプログラム
は、記録媒体への格納のために、通信回線で接続する他
のコンピュータ・システムからダウンロードしたり、他
の記録媒体から複製したりすることができる。また、か
かるプログラムは、圧縮し、または複数に分割して、単
一または複数の記録媒体に格納することもできる。
【0053】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0054】(1)複数のソース文字を含むソース・ス
トリングをターゲット・ストリングに変換する方法にお
いて、前記ソース・ストリングは、Unicodeコードペー
ジに従ってエンコードされており、前記ターゲット・ス
トリングは、複数のサブ・コードページ(14、15、
16、17)を含む混合コードページに従ってエンコー
ドしようとするものであり、各サブ・コードページ(1
4、15、16、17)に所定の処理優先度を関連付け
て処理優先順位をもたらすステップと、前記優先順位に
厳密に従って文字を変換するステップとを含む方法。 (2)前記優先順位が、前記サブ・コードページ(1
4、15、16、17)のうちの1つであるソース文字
が見つかる確率を反映する上記(1)に記載の方法。 (3)ある文字が現サブ・コードページで見つからなか
った場合に、前記文字についてまだアクセスしていない
最高の優先度を有するサブ・コードページにアクセスす
るステップをさらに含む上記(1)に記載の方法。 (4)複数の文字が単一のハードウェア命令によって処
理される上記(1)に記載の方法。 (5)コード変換を実行する前に、前記優先順位が、標
準設定から個別の設定へと動的に変更される上記(1)
に記載の方法。 (6)上記(1)ないし(5)のいずれか一項に記載の
方法の諸ステップを実行するためのプログラム手段をイ
ンストールしたコンピュータ・システム。 (7)上記(1)ないし(5)のいずれか一項に記載の
方法の諸ステップを実行するためのプログラム手段をイ
ンストールしたインターネット・サーバとして使用する
ように構成された、上記(6)に記載のコンピュータ・
システム。 (8)上記(1)ないし(5)のいずれか一項に記載の
方法の諸ステップの少なくとも一部を実装したハードウ
ェア回路を備えるチップ。 (9)上記(8)に記載のチップを備える装置。 (10)上記(1)ないし(5)のいずれか一項に記載
の方法のそれぞれのステップを実行するためのコンピュ
ータ・プログラム・コード部分を含む、データ処理シス
テムで実行するためのコンピュータ・プログラム。 (11)ブラウザ・プログラムである、上記(10)に
記載のコンピュータ・プログラム。 (12)コンピュータ使用可能媒体に格納され、コンピ
ュータに上記(1)ないし(5)のいずれか一項に記載
の方法を実行させるためのコンピュータ可読プログラム
手段を含むコンピュータ・プログラム製品。
【図面の簡単な説明】
【図1】本発明の方法の基本的要素を示す論理的概略図
である。
【図2】230個の各文字が、各文字の見つかる可能性
がある4つのサブ・コードページのうちのどの中にある
かを示す、任意に選んだ例での大まかな図である。
【図3】コード変換の間に本発明の好ましい実施形態に
よる方法が適用されたときの、コードセット・アクセス
のシーケンスを示す論理図である。
【符号の説明】
10 本発明の変換方法が適用されるUnicode文字の全
体 12 優先度規則 14 コードセット1 15 コードセット0 16 コードセット2 17 コードセット3
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ドクトル・ヨァヒム・マンフレッド・バウ アー ドイツ ディー−71032 ベーブリンゲン ロイセンシュタインシュトラーセ 17 Fターム(参考) 5B009 TA11

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】複数のソース文字を含むソース・ストリン
    グをターゲット・ストリングに変換する方法において、
    前記ソース・ストリングは、Unicodeコードページに従
    ってエンコードされており、前記ターゲット・ストリン
    グは、複数のサブ・コードページ(14、15、16、
    17)を含む混合コードページに従ってエンコードしよ
    うとするものであり、 各サブ・コードページ(14、15、16、17)に所
    定の処理優先度を関連付けて処理優先順位をもたらすス
    テップと、 前記優先順位に厳密に従って文字を変換するステップと
    を含む方法。
  2. 【請求項2】前記優先順位が、前記サブ・コードページ
    (14、15、16、17)のうちの1つであるソース
    文字が見つかる確率を反映する請求項1に記載の方法。
  3. 【請求項3】ある文字が現サブ・コードページで見つか
    らなかった場合に、前記文字についてまだアクセスして
    いない最高の優先度を有するサブ・コードページにアク
    セスするステップをさらに含む請求項1に記載の方法。
  4. 【請求項4】複数の文字が単一のハードウェア命令によ
    って処理される請求項1に記載の方法。
  5. 【請求項5】コード変換を実行する前に、前記優先順位
    が、標準設定から個別の設定へと動的に変更される請求
    項1に記載の方法。
  6. 【請求項6】請求項1ないし5のいずれか一項に記載の
    方法の諸ステップを実行するためのプログラム手段をイ
    ンストールしたコンピュータ・システム。
  7. 【請求項7】請求項1ないし5のいずれか一項に記載の
    方法の諸ステップを実行するためのプログラム手段をイ
    ンストールしたインターネット・サーバとして使用する
    ように構成された、請求項6に記載のコンピュータ・シ
    ステム。
  8. 【請求項8】請求項1ないし5のいずれか一項に記載の
    方法の諸ステップの少なくとも一部を実装したハードウ
    ェア回路を備えるチップ。
  9. 【請求項9】請求項8に記載のチップを備える装置。
  10. 【請求項10】請求項1ないし5のいずれか一項に記載
    の方法のそれぞれのステップを実行するためのコンピュ
    ータ・プログラム・コード部分を含む、データ処理シス
    テムで実行するためのコンピュータ・プログラム。
  11. 【請求項11】ブラウザ・プログラムである、請求項1
    0に記載のコンピュータ・プログラム。
  12. 【請求項12】コンピュータ使用可能媒体に格納され、
    コンピュータに請求項1ないし5のいずれか一項に記載
    の方法を実行させるためのコンピュータ可読プログラム
    手段を含むコンピュータ・プログラム製品。
JP2001122514A 2000-04-26 2001-04-20 Unicodeテキストを混合コードページに変換する方法およびシステム Expired - Fee Related JP3725443B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00108884 2000-04-26
EP00108884.8 2000-04-26

Publications (2)

Publication Number Publication Date
JP2001357031A true JP2001357031A (ja) 2001-12-26
JP3725443B2 JP3725443B2 (ja) 2005-12-14

Family

ID=8168559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001122514A Expired - Fee Related JP3725443B2 (ja) 2000-04-26 2001-04-20 Unicodeテキストを混合コードページに変換する方法およびシステム

Country Status (3)

Country Link
JP (1) JP3725443B2 (ja)
KR (1) KR100399495B1 (ja)
DE (1) DE60131490T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108171A (ja) * 2009-11-20 2011-06-02 Seiko Epson Corp 記録制御装置、記録装置の制御方法、及び、プログラム
JP2015043164A (ja) * 2013-08-26 2015-03-05 富士通株式会社 文字データ処理方法、情報処理方法、プログラム及び情報処理装置
CN107135429A (zh) * 2017-05-12 2017-09-05 武汉斗鱼网络科技有限公司 弹幕消息解析方法、装置及电子设备
US9983573B2 (en) 2010-10-15 2018-05-29 Mitsubishi Electric Corporation Programmable controller

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100923258B1 (ko) * 2003-01-30 2009-10-23 엘지전자 주식회사 휴대 단말기 소스 파일의 유니코드 변환 방법
KR100755533B1 (ko) * 2005-07-25 2007-09-06 주식회사 팬택 캐릭터 셋 생성 방법 및 그 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108171A (ja) * 2009-11-20 2011-06-02 Seiko Epson Corp 記録制御装置、記録装置の制御方法、及び、プログラム
US9983573B2 (en) 2010-10-15 2018-05-29 Mitsubishi Electric Corporation Programmable controller
JP2015043164A (ja) * 2013-08-26 2015-03-05 富士通株式会社 文字データ処理方法、情報処理方法、プログラム及び情報処理装置
CN107135429A (zh) * 2017-05-12 2017-09-05 武汉斗鱼网络科技有限公司 弹幕消息解析方法、装置及电子设备

Also Published As

Publication number Publication date
DE60131490D1 (de) 2008-01-03
KR20010098422A (ko) 2001-11-08
DE60131490T2 (de) 2008-06-19
JP3725443B2 (ja) 2005-12-14
KR100399495B1 (ko) 2003-09-26

Similar Documents

Publication Publication Date Title
US6877003B2 (en) Efficient collation element structure for handling large numbers of characters
JP4755192B2 (ja) バイトとバイトの比較を使用するオブジェクトの検索および提供
US7663511B2 (en) Dynamic character encoding
US7199729B2 (en) Character code conversion methods and systems
JP2009181584A (ja) 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
JP6447161B2 (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
KR20190064621A (ko) 2진 데이터를 인코딩 및 디코딩하기 위한 방법 및 디바이스
US11669553B2 (en) Context-dependent shared dictionaries
US5815096A (en) Method for compressing sequential data into compression symbols using double-indirect indexing into a dictionary data structure
US20020052902A1 (en) Method to convert unicode text to mixed codepages
US5619199A (en) Order preserving run length encoding with compression codeword extraction for comparisons
JP3725443B2 (ja) Unicodeテキストを混合コードページに変換する方法およびシステム
JP2012085274A (ja) テキストをマトリクスコードシンボルに符号化するコンピュータ実行方法、マトリクスコードシンボルを復号化するコンピュータ実行方法、テキストをマトリクスコードシンボルに符号化するためのエンコーダ、およびマトリクスコードシンボルを復号化するためのデコーダ
JP2007042146A (ja) 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
US8463759B2 (en) Method and system for compressing data
CN107832341B (zh) Agnss用户去重统计方法
EP1152347B1 (en) Method to convert UNICODE text to mixed codepages
TW561360B (en) Method and system for case conversion
US10803243B2 (en) Method, device, and medium for restoring text using index which associates coded text and positions thereof in text data
JP2005004560A (ja) インバーテッドファイル作成方法
CN112395468A (zh) 一种号码管理方法、装置及电子设备和存储介质
JP4061283B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPWO2002101935A1 (ja) 復号化装置、復号化方法、ルックアップテーブルおよび復号化プログラム
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
Moffat et al. Static compression for dynamic texts

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050921

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080930

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees