JP2001125916A

JP2001125916A - 情報処理装置

Info

Publication number: JP2001125916A
Application number: JP30690499A
Authority: JP
Inventors: Hiroyuki Suzuki; 啓之鈴木; Masaaki Mitani; 政昭三谷; Masayoshi Itakura; 正佳板倉; Akihiko Ogawa; 明彦小川; Hirohisa Fujibe; 浩寿藤部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-10-28
Filing date: 1999-10-28
Publication date: 2001-05-11
Anticipated expiration: 2019-10-28
Also published as: US6469643B1; JP3794882B2

Abstract

(57)【要約】【課題】入力された文字列を正規化し、もとの文字列
とともに対応付けて格納する情報処理装置の必要記憶容
量を削減する。【解決手段】正規化手段１は、入力された文字列「サ
イクリング同好会」に対して正規化処理を施して「さい
くりんぐ同好会」を生成し、復元情報生成手段２と記憶
手段３に供給する。復元情報生成手段２は、もとの文字
列である「サイクリング同好会」と、正規化された文字
列である「さいくりんぐ同好会」を入力し、アスキー文
字から構成される復元情報「F@#」を生成して記憶手段
３に供給する。記憶手段３は、正規化された文字列「さ
いくりんぐ同好会」と、復元情報である「F@#」とを関
連付けて記憶する。復元手段４は、記憶手段３に記憶さ
れている正規化された文字列「さいくりんぐ同好会」が
指定された場合には、それに対応する復元情報「F@#」
を取得し、これらからもとの情報である「サイクリング
同好会」を復元する。従って、入力された文字列である
「サイクリング同好会」を保存する場合に比較して記憶
手段３の必要な記憶容量を削減することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は情報処理装置に関
し、特に、入力された文字列を正規化して格納する情報
処理装置に関する。

【０００２】

【従来の技術】例えば、データベース等においては、検
索の結果得られたデータを所定の規則に従って並べ換え
て出力するが、そのような規則はＯＳ（Operating Syst
em）やＤＢＭＳ（Data Base Management System）によ
って異なるため、同一のデータベースを対象として検索
を実行した場合においても、システムによって検索結果
の表示が異なる場合があった。

【０００３】そこで、このようなシステムによる影響を
受けないように、もとのデータを正規化し、この正規化
されたデータともとのデータとを対応付けてデータベー
スに格納する。そして、正規化されたデータを対象とし
て検索処理と並べ換え処理を実行し、得られた結果をも
とのデータに変換して出力する方法を本発明者が先に提
案している。

【０００４】

【発明が解決しようとする課題】しかし、このような方
法では、もとのデータのみならず、正規化データもデー
タベースに格納する必要があることから、データベース
の必要な容量が増大するという問題点があった。

【０００５】本発明は、以上のような点に鑑みてなされ
たものであり、正規化されたデータを格納するデータベ
ースの必要な記憶容量を削減することが可能な情報処理
装置を提供することを目的とする。

【０００６】

【課題を解決するための手段】本発明では上記課題を解
決するために、図１に示す、入力された文字列を正規化
して格納する情報処理装置において、前記入力された文
字列を正規化して正規化文字列を生成する正規化手段１
と、前記正規化手段１によって得られた正規化文字列
を、元の文字列に復元するための復元情報を生成する復
元情報生成手段２と、前記復元情報生成手段２によって
生成された復元情報と、前記正規化文字列とを対応付け
て記憶する記憶手段３と、前記記憶手段３に記憶されて
いる所定の正規化文字列が指定された場合には、対応す
る復元情報を参照してもとの文字列を復元する復元手段
４と、を有することを特徴とする情報処理装置が提供さ
れる。

【０００７】ここで、正規化手段１は、入力された文字
列を正規化して正規化文字列を生成する。復元情報生成
手段２は、正規化手段１によって得られた正規化文字列
を、元の文字列に復元するための復元情報を生成する。
記憶手段３は、復元情報生成手段２によって生成された
復元情報と、正規化文字列とを対応付けて記憶する。復
元手段４は、記憶手段３に記憶されている所定の正規化
文字列が指定された場合には、対応する復元情報を参照
してもとの文字列を復元する。

【０００８】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図１は、本発明の動作原理を説明
するための原理図である。この図において、正規化手段
１は、入力された文字列（以下、入力文字列と称す）を
所定の規則に従って正規化し、正規化文字列を生成す
る。

【０００９】復元情報生成手段２は、正規化手段１によ
って得られた正規化文字列を、元の文字列に復元するた
めの復元情報を生成する。なお、復元情報にバイナリコ
ードが含まれると、ＨＴＭＬ（Hyper Text Markup Lang
uage）や電子メールなどで参照する時にエンコードが必
要になり、可搬性がよくないので、復元情報は表示可能
文字とすることが望ましい。

【００１０】記憶手段３は、復元情報生成手段２によっ
て生成された復元情報と、正規化文字列とを対応付けて
記憶する。復元手段４は、記憶手段３に記憶されている
所定の正規化文字列が指定された場合には、対応する復
元情報を参照してもとの文字列を復元する。

【００１１】次に、以上の原理図の動作について説明す
る。いま、文字列として「サイクリング同好会」が与え
られたとすると、正規化手段１は、入力された文字列を
規則に基づいて正規化する。なお、正規化の規則の一例
を以下に示す。（１）全角カタカナおよび半角カタカナを全角ひらがな
に変換する。（２）全角英大文字、全角英小文字、および、半角英大
文字を全て半角英小文字に変換する。（３）全角記号を半角記号に変換する。

【００１２】従って、正規化手段１は、規則（１）に従
って、「サイクリング」を「さいくりんぐ」に変換す
る。「同好会」には適用する規則がないのでそのままと
される。従って、正規化手段１からは、正規化文字列
「さいくりんぐ同好会」が出力され、復元情報生成手段
２に供給される。

【００１３】復元情報生成手段２は、正規化手段１から
供給された正規化文字列「さいくりんぐ同好会」と、入
力文字列「サイクリング同好会」とから復元情報を生成
する。ここで、復元情報としては、正規化により文字種
が変化しない場合と、変化する場合に分けてそれぞれ該
当する復元情報を生成する。

【００１４】先ず、文字種が変化する場合には、正規化
の前後の文字種を特定するための３ビットの情報を上位
ビットとし、変換の対象となる文字の連続する文字数を
示す５ビットの情報を下位ビットとして連結した１バイ
トの復元情報を生成する。

【００１５】また、文字種が変化しない場合であって、
連続する文字のバイト数が１バイトである場合には半角
文字「?」を復元情報とする。連続する文字のバイト数
が２バイト以上である場合には、半角文字「@」に、連
続する文字のバイト数ｎに「２０ｈ」（ｈは１６進数を
示す）を加算して得られた値に対応するアスキー文字を
付加した２文字を復元情報とする。

【００１６】更に、特別な場合として、英文の文章の場
合には、センテンスの最初の文字が大文字で表現される
ので、このような情報を保存するために、半角文字
「＿」に対して連続する文字のバイト数ｎに「２０ｈ」
を加算して得られた値に対応するアスキー文字を付加し
た２文字を復元情報とする。

【００１７】「サイクリング同好会」の「サイクリン
グ」については、文字種が全角カタカナから全角ひらが
なに正規化されているので、正規化の前後の文字を特定
するための３ビットの情報が“０１０”であるとする
と、これを上位３ビットとし、連続する文字の文字数
“６”に対応する“００１１０”を下位ビットとして付
加した“０１０００１１０”を生成する。これは、１６
進法では“４６ｈ”となり、これに対応するアスキー文
字は「F」となる。

【００１８】また、「同好会」に関しては変換が施され
ていないので、復元情報としては、無変換を示す「@」
と、連続する文字のバイト数“６”に対して“２０ｈ”
を加算して得られた“２６ｈ”に対応するアスキー文字
「&」が付加された「@&」が生成される。

【００１９】従って、正規化文字列「さいくりんぐ同好
会」の復元情報としては、「F@&」が得られるので、記
憶手段３は得られた復元情報「F@&」と、正規化文字列
「さいくりんぐ同好会」とを対応付けて記憶する。

【００２０】このような状態において、記憶手段３に記
憶されている正規化文字列「さいくりんぐ同好会」が指
定された場合（例えば、検索処理において指定された場
合）には、復元手段４は、正規化文字列「さいくりんぐ
同好会」と復元情報である「F@&」を記憶手段３から取
得する。

【００２１】そして、以上の場合とは逆の処理を実行す
ることにより、入力文字列である「サイクリング同好
会」を得る。即ち、復元手段４は、先ず、復元情報の最
初の情報である文字「F」を抽出する。この文字「F」
は、前述のように、上位３ビット（“０１０”）が変換
の前後の文字種を特定する情報であり、また、下位５ビ
ット（“００１１０”）が連続する文字群の文字数を示
す情報であるので、復元手段４は、これらを参照して
「さいくりんぐ」を「サイクリング」に変換し、復元し
た文字列である復元文字列に複写する。

【００２２】次に、復元手段４は、文字「@」を抽出す
る。文字「@」は連続する文字のバイト数を示す情報と
ともに格納されていることが分かっているので、復元手
段４はその次の文字「&」を取得する。この文字のアス
キーコードは“２６ｈ”であるので、その値から“２０
ｈ”を減算して得られた“６”バイト分の情報「同好
会」を正規化情報から抽出し、復元文字列に追加的に格
納する。

【００２３】その結果、復元文字列として「サイクリン
グ同好会」を得ることになる。以上に説明したように、
本発明によれば、入力文字列から正規化文字列と復元情
報とを生成して正規化文字列と復元情報のみを格納し、
もとの入力文字列が必要になった場合には正規化文字列
と復元情報とから生成するようにしたので、入力文字列
に比べてデータ長が短い復元情報を入力文字列の代わり
に格納することが可能となり、必要な記憶容量を削減す
ることが可能となる。

【００２４】具体的には、前述の例では、入力文字列
「サイクリング同好会」は合計１８バイトの情報である
が、復元情報「F@&」は合計３バイトの情報であり、１
５バイトの情報を削減することが可能となる。

【００２５】図２は、本発明の実施の形態の構成例を示
す図である。この図において、本発明の情報処理装置１
０は、ネットワーク１２を介して接続されているクライ
アント１３（または、図示せぬ他のクライアント）から
入力された文字列の登録の要求があった場合には、供給
された入力文字列を正規化して正規化文字列を生成する
とともに、正規化文字列を元の情報に復元するための復
元情報を生成し、これらを相互に関連付けて登録する。
そして、クライアント１３（または、図示せぬ他のクラ
イアント）から情報の検索の要求があった場合には、該
当する正規化文字列を検索し、得られた正規化文字列を
復元情報を参照して復元し、要求を行ったクライアント
１３に送信する。

【００２６】データベース１１は、正規化文字列と復元
情報とを対応付けて記憶する。ネットワーク１２は、例
えば、インターネットなどによって構成されている。ク
ライアント１３は、例えば、パーソナルコンピュータな
どによって構成されており、ネットワーク１２を介して
情報処理装置１０に対して所定の文字列の登録や検索を
要請する。

【００２７】表示装置１４は、例えば、ＣＲＴ（Cathod
e Ray Tube）モニタ等によって構成されており、クライ
アント１３から供給された情報を表示出力する。ここ
で、情報処理装置１０は、ＣＰＵ（Central Processing
Unit）１０ａ、ＲＯＭ（Read Only Memory）１０ｂ、
ＲＡＭ（Random Access Memory）１０ｃ、ＨＤＤ（Hard
Disk Drive）１０ｄ、Ｉ／Ｆ（Interface）１０ｅ，１
０ｆ、および、バス１０ｇによって構成されている。

【００２８】ＣＰＵ１０ａは、装置の各部を制御すると
ともに、ＨＤＤ１０ｄに格納されているアプリケーショ
ンプログラム等に応じて各種演算処理を実行する。ＲＯ
Ｍ１０ｂは、ＣＰＵ１０ａが実行する基本的なプログラ
ムやデータ等を格納している。

【００２９】ＲＡＭ１０ｃは、ＣＰＵ１０ａが演算の対
象とするプログラムや、演算途中のデータを一時的に格
納する。ＨＤＤ１０ｄは、ＣＰＵ１０ａが実行する各種
アプリケーションプログラムやデータ等を格納してい
る。

【００３０】Ｉ／Ｆ１０ｅは、ネットワーク１２との間
でデータの授受が可能となるように、ネットワーク１２
上のデータと、情報処理装置１０の内部のデータの表現
形式等を適宜変換する。

【００３１】Ｉ／Ｆ１０ｆは、データベース１１との間
でデータを授受する際にデータの表現形式等の変換処理
等を実行する。バス１０ｇは、ＣＰＵ１０ａ、ＲＯＭ１
０ｂ、ＲＡＭ１０ｃ、ＨＤＤ１０ｄ、および、Ｉ／Ｆ１
０ｅ，１０ｆを相互に接続し、これらの間でデータの授
受を可能とする。

【００３２】なお、以上の実施の形態では、クライアン
ト１３がネットワーク１２を介して接続され、情報を授
受する形態としたが、例えば、情報処理装置１０に対し
てキーボード等の入力デバイスが接続されて直接的に情
報を授受するようにしてもよい。

【００３３】次に、以上の実施の形態の動作について説
明する。先ず、クライアント１３において入力された情
報を、データベース１１に登録する際の処理について説
明する。図３は、そのような処理を実行するためのフロ
ーチャートである。この処理が実行されると、以下の処
理が実行される。［Ｓ１］情報処理装置１０のＣＰＵ１０ａは、クライア
ント１３において入力され、ネットワーク１２を介して
伝送されてきた入力文字列を取得する。

【００３４】例えば、クライアント１３において「ＳＳ
Ｎニュース」が入力されたとすると、情報処理装置１０
はこの文字列「ＳＳＮニュース」を入力文字列として取
得する。［Ｓ２］情報処理装置１０のＣＰＵ１０ａは、取得した
文字列を正規化して正規化文字列を生成するとともに、
正規化文字列を復元するための復元情報を生成する。な
お、この処理の詳細は、図４を参照して後述する。

【００３５】例えば、いまの例では、「ＳＳＮニュー
ス」が正規化され、「ssnにゅーす」が生成され、ま
た、復元情報としては「CD」が生成される。［Ｓ３］情報処理装置１０のＣＰＵ１０ａは、正規化文
字列と復元情報とを、データベース１１に対応付けて格
納する。

【００３６】いまの例では、「ssnにゅーす」と「CD」
とがデータベース１１に対応付けて格納されることにな
る。次に、図４を参照して、図３に示す「正規化および
復元情報生成処理」の詳細について説明する。なお、こ
のフローチャートの詳細について説明する前に、図５を
参照して本実施の形態における正規化処理の詳細につい
て説明する。

【００３７】図５は、正規化処理における規則の概要を
示すコード変換表の一例である。この図において、「エ
ントリ」は、文字を正規化する際に検索の対象となる部
分であり、そのシステムにおいて使用可能な文字種が一
覧形式で示されている。なお、エントリの欄の下に示さ
れている数字は、各エントリのシフトＪＩＳコードを示
している。

【００３８】エントリの欄の右隣の「例」は、各エント
リの一例を示している。例えば、半角英大文字の例とし
ては、「A」が示されている。その右隣の「変換先」
は、各エントリが正規化先を有する場合にはその正規化
先の文字種と、変換元コード（後述する）とが示されて
いる。例えば、第２番目の項目である「半角英大文字」
の場合は、「半角英小文字」に変換されることが示され
ており、また、そのときの変換元コードは“０１”であ
ることが示されている。なお、変換先が存在しない場合
には“０”が格納されている。

【００３９】その右隣の変換元コード“０１”〜“０
３”は、変換元を特定するための情報である。例えば、
第４番目の項目である「半角英小文字」の場合、「半角
英大文字」、「全角英大文字」、および、「全角英小文
字」の３つの文字種が変換元とされるので、これらの何
れから変換されたかを特定するための情報が必要とな
り、それが“０１”〜“０３”で与えられる。具体的に
は、半角英小文字の「a」が正規化文字列に含まれてい
た場合、この文字は半角英大文字の「A」、全角英大文
字の「Ａ」、または、全角英小文字「ａ」の何れから変
換されたか分からないので、その復元先を示すための情
報が変換元コードであり、例えば、“０２”の場合には
全角英大文字の「Ａ」から変換されたことが分かる。な
お、“０”は該当する変換元が存在しないことを示す。

【００４０】以上に示した例は、簡略化した例であり、
文字種毎に変換先等の対応関係を示したが、１文字単位
で変換先等の対応関係を示すテーブルを用いることもで
きる。

【００４１】次に、図４に示すフローチャートの動作に
ついて説明する。このフローチャートが開始されると、
以下の処理が実行される。［Ｓ２０］情報処理装置１０のＣＰＵ１０ａは、処理回
数をカウントする変数ｉを“１”に初期設定する。［Ｓ２１］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
０に対して入力文字列の第ｉ番目の文字を代入する。

【００４２】例えば、先の「ＳＳＮニュース」の場合、
第１回目の処理では、ｉ＝１であるので第１番目の文字
「Ｓ」が変数Ｃ０に対して入力される。［Ｓ２２］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
０の変換クラスの決定処理を実行する。ここで、変換ク
ラスは以下の４つに分類される。（１）半角無変換（例：a→ａ）（２）全角無変換（例：あ→あ）（３）半角変換（例：A→ａ）（４）全角変換（例：Ａ→a）例えば、先の「Ｓ」の場合、（４）に該当するので、変
換クラスは「全角変換」となる。

【００４３】なお、この処理の詳細については、図６を
参照して後述する。［Ｓ２３］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
１に対して入力文字列の第（ｉ＋１）番目の文字を代入
する。

【００４４】例えば、先の「ＳＳＮニュース」の場合、
第１回目の処理では、（ｉ＋１）＝２であるので第２番
目の文字「Ｓ」が変数Ｃ１に対して入力される。［Ｓ２４］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
１がＮＵＬＬ（空）か否かを判定し、ＮＵＬＬである場
合にはステップＳ３２に進み、それ以外の場合にはステ
ップＳ２５に進む。

【００４５】即ち、変数Ｃ１がＮＵＬＬである場合に
は、変数Ｃ０には入力文字列の最後の文字が格納されて
いるので、その場合にはステップＳ３２の復元情報生成
処理に進む。

【００４６】先の例では、Ｃ１には「Ｓ」が代入されて
いるので、ステップＳ２５に進むことになる。［Ｓ２５］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
１の変換クラスの決定処理を実行する。なお、この処理
は前述のステップＳ２２の場合と同様であり、その詳細
については図６を参照して後述する。

【００４７】先の例では、Ｃ１には「Ｓ」が代入されて
おり、変換クラスは前述の場合と同様に「全角変換」と
なる。［Ｓ２６］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
０，Ｃ１に格納されている文字のそれぞれの変換クラス
と、変換元コードが異なるか否かを判定し、これらが異
なる場合にはステップＳ２７に進み、それ以外の場合に
はステップＳ２９に進む。

【００４８】即ち、変換クラスと変換元コードとが異な
る場合には、変数Ｃ０，Ｃ１に格納されている文字の文
字種は異なっているので、変数Ｃ０に格納されている文
字が連続する同一文字種の文字群の最後の文字であると
して、ステップＳ２７に進む。なお、以下では、連続す
る同一文字種の文字群を「チャンク」と称する。例え
ば、先の例「ＳＳＮニュース」では、「ＳＳＮ」と「ニ
ュース」がそれぞれチャンクに該当する。［Ｓ２７］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
１に代入されている文字の変換クラスが「半角変換」で
あって、文字種が半角英字であるか否かを判定し、該当
する場合にはステップＳ２８に進み、それ以外の場合に
はステップＳ３２に進む。

【００４９】即ち、変数Ｃ１に代入されている文字の変
換クラスが半角変換であって、文字種が半角英字である
場合は、その文字は半角英大文字であるので、その場合
には英文の頭文字であるとして、ステップＳ２８に進
む。［Ｓ２８］情報処理装置１０のＣＰＵ１０ａは、次のチ
ャンクの変換を、復元の際に、チャンクの頭文字のみを
大文字に変換する「英文変換」に決定する。

【００５０】即ち、英文の場合は、センテンスの最初が
大文字で表されるので、正規化の際には全て半角英小文
字に変換しておき、復元の際にセンテンスの最初の文字
だけ半角英大文字に変換するようにすれば、情報を喪失
することなく、効率良く英文を処理することができる。

【００５１】なお、変数Ｃ１に対応する文字の次の文字
が半角英小文字であるか否かを判定した後に、次チャン
クを英文変換に決定するようにすれば、更に確実に英文
であるか否かを判定することが可能となる。［Ｓ２９］情報処理装置１０のＣＰＵ１０ａは、処理対
象となっているチャンクにおいて、変数Ｃ０に格納され
ている文字までの連続文字数（または、バイト数）を計
算する。

【００５２】例えば、「ＳＳＮニュース」において、い
ま、処理対象のチャンクが「ニュース」であるとし、変
数Ｃ０に格納されている文字が「ー」であるとすると、
連続文字数は“３”となる。［Ｓ３０］情報処理装置１０のＣＰＵ１０ａは、ステッ
プＳ２９において算出した連続文字数または連続バイト
数が所定の最大値を上回っているか否かを判定し、上回
っている場合にはステップＳ３２に進み、それ以外の場
合にはステップＳ３１に進む。

【００５３】なお、この処理は、１つの変換記号で表現
可能な文字数に限りがあるため、その限度を超過しない
ためにおこなう。例えば、連続するバイト数に関して
は、後述するようにそのバイト数に対応するアスキー文
字で表現されるが、アスキー文字の“０ｈ”〜”２０
ｈ”の範囲と“７Ｆｈ”以降は制御文字となっており画
面上に表示されないので、この領域との重複を避けるた
め、後述するように連続するバイト数に対して“２０
ｈ”を加算した値に対応するアスキー文字を用いるとと
もに、連続するバイト数の最大値を“９４”以下に制限
している。また、連続文字の場合には、後述する理由に
より“３０”以下に制限される。従って、ステップＳ３
０の処理では、連続バイト数が“９５”バイト以上の場
合か、連続文字数が“３１”文字以上の場合にステップ
Ｓ３２に進む。［Ｓ３１］情報処理装置１０のＣＰＵ１０ａは、変数ｉ
の値を“１”だけインクリメントした後、ステップＳ２
１に戻って前述の場合と同様の処理を繰り返す。［Ｓ３２］情報処理装置１０のＣＰＵ１０ａは、正規化
文字列を復元する際に使用する復元情報を生成する処理
を実行する。

【００５４】なお、この処理の詳細は、図７を参照して
後述する。［Ｓ３３］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
１がＮＵＬＬ（空）か否かを判定し、ＮＵＬＬである場
合にはもとの処理に復帰し、それ以外の場合にはステッ
プＳ２１に戻って前述の場合と同様の処理を繰り返す。

【００５５】次に、図６を参照して、図４に示す、ステ
ップＳ２２およびステップＳ２５の処理の詳細について
説明する。このフローチャートが開始されると、以下の
処理が実行される。［Ｓ５０］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
０またはＣ１に格納されている文字を取得する。［Ｓ５１］情報処理装置１０のＣＰＵ１０ａは、図５に
示すコード変換表のエントリ欄に該当する文字種が存在
するか否かを判定し、存在する場合にはステップＳ５２
に進み、それ以外の場合にはステップＳ５５に進む。

【００５６】即ち、コード変換表のエントリ欄に該当文
字種が存在しない場合には、正規化の対象とはならない
ので、その場合にはステップＳ５５に進む。［Ｓ５２］情報処理装置１０のＣＰＵ１０ａは、コード
変換表の「変換先」の欄に該当する文字種が存在してい
る（“０”でない）か否かを判定し、存在している場合
にはステップＳ５３に進み、それ以外の場合にはステッ
プＳ５５に進む。

【００５７】即ち、変換先欄が“０”である場合には正
規化の必要がない文字であるので、その場合にはステッ
プＳ５５に進む。［Ｓ５３］情報処理装置１０のＣＰＵ１０ａは、図５に
示すコード変換表を参照して、該当する変換元コードを
取得する。

【００５８】例えば、処理対象となっている文字が全角
英大文字「Ａ」である場合には、変換元コードとして
“０２”が取得される。［Ｓ５４］情報処理装置１０のＣＰＵ１０ａは、変換ク
ラスを全角または半角の変換に決定する。

【００５９】例えば、処理対象となっている文字が前述
の全角英大文字「Ａ」の場合には、変換クラスは全角変
換に決定され、半角英大文字「F」である場合には、変
換クラスは半角変換に決定される。［Ｓ５５］情報処理装置１０のＣＰＵ１０ａは、変換ク
ラスを全角または半角の無変換に決定する。

【００６０】例えば、処理対象となっている文字が前述
の全角ひらがな「あ」の場合には、変換クラスは全角無
変換に決定され、半角英子文字「f」である場合には、
変換クラスは半角無変換に決定される。［Ｓ５６］情報処理装置１０のＣＰＵ１０ａは、変数Ｃ
０に係る処理、即ち、ステップＳ２２から呼び出された
場合にはステップＳ５７に進み、それ以外の場合にはも
との処理に復帰する。［Ｓ５７］情報処理装置１０のＣＰＵ１０ａは、図５に
示すコード変換表を参照して、処理対象となっている文
字を正規化する。

【００６１】例えば、処理対象の文字が全角カタカナの
「ア」であるとすると、これは、コード変換表から全角
ひらがなに正規化されるので、「ア」は「あ」に正規化
される。［Ｓ５８］情報処理装置１０のＣＰＵ１０ａは、正規化
文字列に対して、ステップＳ５７で生成された正規化文
字を追加格納する。

【００６２】例えば、いま、正規化文字列に「ふろんて
ぃ」が格納されているとし、ステップＳ５７の正規化に
よって得られた文字が「あ」であるとすると、ステップ
Ｓ５８の処理において、正規化文字列は「ふろんてぃ
あ」となる。

【００６３】次に、図７を参照して、図４のステップＳ
３２に示す「復元情報生成処理」の詳細について説明す
る。このフローチャートは、チャンク単位で復元情報を
生成する処理である。以下では、図８に示す復元情報を
構成する記号文字について説明した後、図７に示すフロ
ーチャートの動作について説明する。

【００６４】図８は、復元情報を構成する変換記号の一
例を説明する図である。図の第１番目に掲げられている
「＠○」は、半角文字の「@」と、所定のアスキー文字
（この例では○）とから構成されており、アスキー文字
のアスキーコードから“２０ｈ”を減算して得られた値
ｎに対応するバイト数の文字を無変換で復元することを
示す。例えば、入力文字列が全角ひらがなの「あした」
である場合には、連続する文字のバイト数は“６”バイ
トであるので、“２０ｈ”に対して“６”を加算して得
られた値“２６ｈ”に対応するアスキーコード「&」が
「@」に付加されて復元情報「@&」が生成される。な
お、バイト数に“２０ｈ”を加算するのは、アスキー文
字では“２０ｈ”以下の文字は制御文字とされており、
画面に表示されない場合もあるので、表示可能な文字に
変換するためである。

【００６５】次の「＿○」は、半角文字の「＿」と、所
定のアスキー文字（この例では○）とから構成されてお
り、先頭の英小文字のみを大文字に変換し、アスキー文
字のアスキーコードから“２０ｈ”を減算して得られた
値ｎから１を除算した（ｎ−１）に対応するバイト数の
文字を無変換で復元することを示す。例えば、入力文字
列が「that remains to be proved.」である場合には、
文字列のバイト数“２６”を“２０ｈ”に加算して得ら
れた値“３Ａｈ”に対応するアスキー文字「:」が
「＿」に付加されて復元情報が生成される。

【００６６】続く、「？」は、半角文字「?」のみから
構成された復元情報であり、１バイトを無変換で復元す
ることを示す。例えば、入力文字列が半角英小文字の
「a」である場合には、復元情報としては「?」が生成さ
れることになる。

【００６７】最後の「◎」は、所定のアスキー文字であ
り、そのアスキーコードの上位３ビットは変換元コード
を示し、下位５ビットは文字数を示す。例えば、入力文
字列が全角カタカナの「アスリート」である場合には、
正規化により全角ひらがなの「あすりーと」に変換され
るので、図５に示すコード変換表よりその変換元コード
は“０２”であり、また、連続文字数は“５”であるの
で、変換元コードに対応する“０１０”と、連続文字数
に対応する“００１０１”を連結した“０１０００１０
１”（＝４５ｈ）に対応するアスキー文字「E」が復元
情報として生成される。なお、連続文字数は５ビットで
表現されるので、理論的には“０”〜“３１”の値を取
りうるが、“０”はあり得ないので除外され、また、
“３１”は次の理由から除外される。即ち、「＿」と
「?」のアスキーコードは、それぞれ“５Ｆｈ”と“３
Ｆｈ”であるので、取り得る値を“３０”までに制限す
ることによりこれらが重複することを防止できる。な
お、図４に示すステップＳ３０の処理がこのような制限
を課すための処理である。

【００６８】次に、図７に示すフローチャートの動作に
ついて説明する。このフローチャートが開始されると、
以下の処理が実行される。［Ｓ７０］情報処理装置１０のＣＰＵ１０ａは、処理対
象となっているチャンクの変換クラスが半角無変換であ
る場合にはステップＳ７５に進み、それ以外の場合には
ステップＳ７１に進む。［Ｓ７１］情報処理装置１０のＣＰＵ１０ａは、処理対
象となっているチャンクの変換クラスが全角無変換であ
る場合にはステップＳ７２に進み、それ以外の場合には
ステップＳ７３に進む。［Ｓ７２］情報処理装置１０のＣＰＵ１０ａは、復元情
報に変換記号「@」と文字バイト数を追加する。

【００６９】例えば、処理対象がチャンク「ふろんてぃ
あ」である場合、復元情報には「@」が追加され、ま
た、文字のバイト数“１２”を“２０ｈ”に加算して得
られた値“２Ｃｈ”に対応する「,」が更に追加され
る。［Ｓ７３］情報処理装置１０のＣＰＵ１０ａは、連続文
字数、即ち、チャンクを構成する文字の文字数を計算す
る。［Ｓ７４］情報処理装置１０のＣＰＵ１０ａは、変換元
コードを上位３ビットとし、ステップＳ７３において計
算された連続文字数を下位５ビットとした値に対応する
アスキー文字を復元情報に付加する。

【００７０】例えば、チャンク「フロンティア」を「ふ
ろんてぃあ」に正規化した場合には、変換元コードは
“０２”であるので“０１０”であり、文字数は“６”
であるので“００１１０”であり、これらを連結した
“０１０００１１０”は１６進法で“４６ｈ”であるの
で、これに対応するアスキー文字「F」が復元情報に追
加される。［Ｓ７５］情報処理装置１０のＣＰＵ１０ａは、連続バ
イト数が“１”を上回っているか否かを判定し、上回っ
ている場合にはステップＳ７６に進み、それ以外の場合
にはステップＳ７９に進む。［Ｓ７６］情報処理装置１０のＣＰＵ１０ａは、英文変
換であるか否かを判定する。即ち、図４に示すステップ
Ｓ２８において、英文変換に決定されている場合にはス
テップＳ７７に進み、それ以外の場合にはステップＳ７
８に進む。［Ｓ７７］情報処理装置１０のＣＰＵ１０ａは、英文変
換であることを示す「＿」に対して文字のバイト数に対
応するアスキー文字を付加し、復元情報に追加する。

【００７１】例えば、処理対象のチャンクが「It can't
be helped.」である場合には、英文変換を示す「＿」
と、文字のバイト数“１９”を“２０ｈ”に加算して得
られた値“３３ｈ”に対応するアスキー文字「3」が復
元情報に追加される。［Ｓ７８］情報処理装置１０のＣＰＵ１０ａは、復元情
報に変換記号「@」と、文字のバイト数を示すアスキー
文字を追加する。

【００７２】例えば、処理対象のチャンクが「変換装
置」である場合には、無変換を示す「@」と、文字のバ
イト数“８”を“２０ｈ”に加算して得られた値“２８
ｈ”に対応するアスキー文字「（」が復元情報に追加さ
れる。［Ｓ７９］情報処理装置１０のＣＰＵ１０ａは、復元情
報に対して１バイト無変化を示すアスキー文字「?」を
追加する。

【００７３】例えば、処理対象のチャンクが「a」であ
る場合には、復元情報に対してアスキー文字「?」が追
加されることになる。次に、図９〜図１２を参照して、
以上の処理の具体的な動作例について説明する。

【００７４】図９は、本実施の形態によって生成される
正規化文字列と、復元情報との一例を説明する図であ
る。この例では、入力文字列は、全角大文字「新型」、
半角カタカナ「ハ゜ソコン」、全角英大文字「ＦＸ」、全角
数字「２」、全角ひらがな「の」、および、全角カタカ
ナ「ソントク」から構成されている。このような入力文
字列に対して、図４に示す処理を施すと、先頭の全角大
文字「新型」は無変換とされる。従って、復元情報とし
ては、無変換を示す「@」に対して、連続文字のバイト
数“４”に“２０ｈ”を加算して得られた値“２４ｈ”
に対応するアスキー文字「$」が生成される。

【００７５】次の半角カタカナの「ハ゜ソコン」は全角ひら
がなの「ぱそこん」に変換されるので、図５を参照して
変換元コードは“０１”であり、変換後の文字数は
“４”であるので、変換元コードに対応する“００１”
と、変換後の文字数に対応する“００１００”を連結し
て得られた値に対応するアスキー文字「$」が生成され
る。

【００７６】続く全角英大文字の「ＦＸ」は、半角英小
文字の「fx」に変換される。この変換の変換元コード
は、“０２”であり、連続文字数は“２”であるので、
これらから得られる数値“４２ｈ”に対応するアスキー
文字「B」が復元情報として生成される。

【００７７】続く全角数字の「２」は、半角数字の
「2」に変換される。この変換の変換元コードは“０
３”であり、文字数は“１”であるので、これらから得
られる数値“６１ｈ”に対応するアスキー文字「a」が
復元情報として生成される。

【００７８】続く全角ひらがなの「の」は、無変換とさ
れる。従って、無変換を示す「@」に対して、バイト数
“２”に“２０ｈ”を加算して得られた値に対応するア
スキー文字「"」が付加されて復元情報が生成される。

【００７９】最後に、全角カタカナの「ソントク」は、
全角ひらがなの「そんとく」に変換される。この変換の
変換元コードは“０２”であり、文字数は“４”である
ので、これらから得られる数値“４４ｈ”に対応するア
スキー文字「D」が復元情報として生成される。

【００８０】従って、この例では、入力文字列は“２
５”バイトであり、復元情報は“８”バイトであるの
で、従来のように入力文字列を保存する場合に比べて、
情報量を６８％も削減することが可能となる。

【００８１】次に、図１０を参照して他の例について説
明する。この例では、入力文字列は全角英大文字の「Ｄ
ＢＳ」、全角カタカナの「バックアップ」、全角ひらが
なの「と」、および、全角カタカナの「リストア」から
構成されている。

【００８２】最初の全角英大文字の「ＤＢＳ」は、半角
英小文字の「dbs」に変換されるので、対応する復元情
報は「C」となる。次の全角カタカナの「バックアッ
プ」は、全角ひらがなの「ばっくあっぷ」に変換される
ので、対応する復元情報は「F」となる。

【００８３】続く全角ひらがなの「と」は、無変換とさ
れるので、復元情報は「@"」となる。最後の全角カタカ
ナの「リストア」は、全角ひらがなの「りすとあ」に変
換されるので、復元情報は「D」となる。

【００８４】次に、図１１を参照して更に他の例につい
て説明する。この例では、入力文字列は、全角文字の
「第二版誤植の訂正」と、半角英字の「Fable」、
および、全角文字の「の章追加」とから構成されてい
る。

【００８５】最初の全角文字の「第二版誤植の訂正
」は、無変換とされるので、復元情報は「@6」とな
る。続く半角英字の「Fable」は、半角英小文字の「fab
le」に変換される。なお、この変換は、先頭の文字が半
角英大文字であるので英文変換が選択され、復元情報は
「＿%」となる。

【００８６】最後の全角文字の「の章追加」は、無変換
とされるので、復元情報は「@(」となる。最後に、図１２
を参照して更に他の例について説明する。

【００８７】この例は、全てが半角英文字の場合であ
り、入力文字列としては、「Reflecting environmental
consciousness, automakers demonstrate environment
ally friendly cars.」が入力されている。この例で
は、英文変換が選択されるので、復元情報としては
「＿」が生成される。

【００８８】この例では、入力情報は“９３”バイトで
あるが、復元情報は“２”バイトであるので、約９８％
も情報量を削減することが可能となる。次に、以上のよ
うにして生成された正規化情報を検索して、検索結果を
表示する場合の処理について説明する。

【００８９】図１３は、以上のようにして生成され、デ
ータベース１１に格納されているデータを検索する際の
処理の一例を示すフローチャートである。このフローチ
ャートが開始されると、以下の処理が実行されることに
なる。［Ｓ９０］情報処理装置１０のＣＰＵ１０ａは、クライ
アント１３から送信されてきたキーワードを入力する。［Ｓ９１］情報処理装置１０のＣＰＵ１０ａは、キーワ
ードを図５に示すコード変換表を参照して正規化する。［Ｓ９２］情報処理装置１０のＣＰＵ１０ａは、正規化
されたキーワード（以下、正規化キーワードと称す）に
より、データベース１１を検索し、該当する正規化文字
列を取得する。［Ｓ９３］情報処理装置１０のＣＰＵ１０ａは、検索結
果として得られた正規化文字列に対してソート処理を施
す。

【００９０】なお、このソート処理は、正規化文字列に
対して施されるので、情報処理装置１０のＯＳ等に拘わ
らず常に一定の結果が得られる。［Ｓ９４］情報処理装置１０のＣＰＵ１０ａは、ソート
処理が施された正規化文字列のそれぞれに対応する復元
情報をデータベース１１から取得する。［Ｓ９５］情報処理装置１０のＣＰＵ１０ａは、正規化
情報の復元処理を実行する。

【００９１】なお、この処理の詳細は、図１４を参照し
て後述する。［Ｓ９６］情報処理装置１０のＣＰＵ１０ａは、全ての
正規化文字列の復元処理が終了したか否かを判定し、終
了した場合にはステップＳ９７に進み、それ以外の場合
にはステップＳ９４に戻って、前述の場合と同様の処理
を繰り返す。［Ｓ９７］情報処理装置１０のＣＰＵ１０ａは、表示処
理を実行する。即ち、情報処理装置１０は、復元された
文字列（以下、復元文字列）をネットワーク１２を介し
てクライアント１３に供給し、表示装置１４に表示させ
る。

【００９２】次に、図１４を参照して、図１３のステッ
プＳ９５に示す復元処理の詳細について説明する。この
フローチャートが開始されると、以下の処理が実行され
る。［Ｓ１１０］情報処理装置１０のＣＰＵ１０ａは、復元
情報から変換記号を１つ抽出する。

【００９３】例えば、復元情報が「@"?」であり、第１
回目の処理である場合には、最初の変換記号である
「@"」が抽出される。［Ｓ１１１］情報処理装置１０のＣＰＵ１０ａは、変換
記号が「@」または「?」であるか否かを判定し、これら
に該当する場合にはステップＳ１１２に進み、それ以外
の場合にはステップＳ１１３に進む。［Ｓ１１２］情報処理装置１０のＣＰＵ１０ａは、正規
化文字列から復元文字列に対して該当文字列をコピーす
る。

【００９４】例えば、処理対象となる正規化文字列が
「ぱそこん情報」であり、現在の復元文字列が「パソコ
ン」であるとし、処理対象のチャンクが「情報」である
とすると、正規化文字列の該当する文字列が復元文字列
にコピーされて「パソコン情報」となる。［Ｓ１１３］情報処理装置１０のＣＰＵ１０ａは、変換
記号が「＿」であるか否かを判定し、該当する場合には
ステップＳ１１４に進み、それ以外の場合にはステップ
Ｓ１１６に進む。［Ｓ１１４］情報処理装置１０のＣＰＵ１０ａは、正規
化文字列の該当するチャンクの先頭文字を大文字に変換
して復元文字列にコピーする。

【００９５】例えば、正規化文字列の該当するチャンク
が「he is certain to succeed.」である場合には、先
頭の「h」が大文字「H」に変換され、復元文字列にコピ
ーされる。［Ｓ１１５］情報処理装置１０のＣＰＵ１０ａは、正規
化文字列の次文字（先頭文字の次の文字）から（連続バ
イト数−１）バイト分の文字を復元文字列に対してコピ
ーする。

【００９６】前述の例では、復元情報は「＿9」である
ので、「9」＝（“３９ｈ”）から“２０ｈ”を減算し
て得られた値“２５”（＝連続バイト数）から“１”を
更に減算したバイト分の文字列「e is certain to succ
eed.」が正規化文字列から復元文字列へコピーされる。
その結果、復元文字列は、「He is certain to succee
d.」となる。［Ｓ１１６］情報処理装置１０のＣＰＵ１０ａは、変換
記号を連続文字数と変換元コードに分離する。

【００９７】即ち、変換記号は、連続文字数を示す下位
５ビットと、変換元コードである上位３ビットに分解さ
れる。例えば、正規化文字列が「ぱそこん」であり、復
元情報が「D」である場合を例に挙げると、ステップＳ
１１６の処理では、復元情報である「D」＝（“４４
ｈ”）が上位３ビットである“０１０”と、下位５ビッ
トである“００１００”とに分離される。［Ｓ１１７］情報処理装置１０のＣＰＵ１０ａは、正規
化文字列から処理対象のチャンクを切り分ける。

【００９８】即ち、ＣＰＵ１０ａは、連続文字数を参照
して、正規化文字列から処理対象となるチャンクを抽出
する。いまの例では、正規化文字列から「ぱそこん」が
抽出される。［Ｓ１１８］情報処理装置１０のＣＰＵ１０ａは、ステ
ップＳ１１７において抽出したチャンクの文字種を特定
する。

【００９９】いまの例では、「ぱそこん」の文字種は全
角カタカナであることが特定される。［Ｓ１１９］情報処理装置１０のＣＰＵ１０ａは、コー
ド変換表を参照して、変換元の文字種を特定する。

【０１００】いまの例では、図５を参照して、正規化文
字列の文字種である「全角ひらがな」に対応する文字種
がエントリの欄から検索され、更に、変換元コード“０
２”の欄に記載されている「全角カタカナ」が正規化前
の文字種として特定される。［Ｓ１２０］情報処理装置１０のＣＰＵ１０ａは、ステ
ップＳ１１７において抽出した文字列を、元の文字種へ
変換する。

【０１０１】いまの例では、「ぱそこん」が「パソコ
ン」に変換される。［Ｓ１２１］情報処理装置１０のＣＰＵ１０ａは、変換
によって得られた文字列を復元文字列に対してコピーす
る。［Ｓ１２２］情報処理装置１０のＣＰＵ１０ａは、正規
化文字列の全ての文字の変換が終了したか否かを判定
し、終了した場合にはもとの処理に復帰し、それ以外の
場合にはステップＳ１１０に戻って前述の場合と同様の
処理を繰り返す。

【０１０２】以上の処理によれば、データベースにデー
タを登録する際に、入力文字列を正規化して得られた正
規化文字列と、正規化文字列からもとの入力文字列を復
元するための復元情報とを対応付けて登録するようにし
たので、入力文字列を格納する場合に比較して必要な記
憶容量を削減することが可能となる。

【０１０３】また、検索処理とソート処理は正規化情報
を処理対象とし、これらの処理が終了した後に、復元情
報を参照してもとの入力文字列を再生するようにしたの
で、システムに依存することなく同一の検索結果を得る
ことができる。

【０１０４】なお、以上の実施の形態においては、シフ
トＪＩＳコードを例に挙げて説明を行ったが、他のコー
ド系に対しても本発明を適用することが可能である。な
お、ＵＮＩＣＯＤＥについては２バイトコード系である
ため、各記号文字を２バイトとする必要があるが、変換
の原理（４種類の変換を使用すること）に相違はない。

【０１０５】最後に、上記の処理機能は、コンピュータ
によって実現することができる。その場合、情報処理装
置が有すべき機能の処理内容は、コンピュータで読み取
り可能な記録媒体に記録されたプログラムに記述されて
おり、このプログラムをコンピュータで実行することに
より、上記処理がコンピュータで実現される。コンピュ
ータで読み取り可能な記録媒体としては、磁気記録装置
や半導体メモリ等がある。市場へ流通させる場合には、
ＣＤ−ＲＯＭ(Compact Disk Read Only Memory)やフロ
ッピー（登録商標）ディスク等の可搬型記録媒体にプロ
グラムを格納して流通させたり、ネットワークを介して
接続されたコンピュータの記憶装置に格納しておき、ネ
ットワークを通じて他のコンピュータに転送することも
できる。コンピュータで実行する際には、コンピュータ
内のハードディスク装置等にプログラムを格納してお
き、メインメモリにロードして実行する。

【０１０６】

【発明の効果】以上説明したように本発明では、入力さ
れた文字列を正規化して格納する情報処理装置におい
て、入力された文字列を正規化して正規化文字列を生成
する正規化手段と、正規化手段によって得られた正規化
文字列を、元の文字列に復元するための復元情報を生成
する復元情報生成手段と、復元情報生成手段によって生
成された復元情報と、正規化文字列とを対応付けて記憶
する記憶手段と、記憶手段に記憶されている所定の正規
化文字列が指定された場合には、対応する復元情報を参
照してもとの文字列を復元する復元手段と、を有するよ
うにしたので、入力された文字列を記憶する場合に比較
して、記憶手段の必要な記憶容量を削減することが可能
となる。

【図面の簡単な説明】

【図１】本発明の動作原理を説明する原理図である。

【図２】本発明の実施の形態の構成例を示すブロック図
である。

【図３】図２に示す実施の形態においてデータをデータ
ベースに登録する際に実行される処理の一例を説明する
フローチャートである。

【図４】図３に示す「正規化および復元情報生成処理」
の詳細を説明するフローチャートである。

【図５】正規化と復元処理の際に使用されるコード変換
表の一例を説明する図である。

【図６】図４のステップＳ２２，Ｓ２５に示す「変換ク
ラス決定処理」の詳細を説明するフローチャートであ
る。

【図７】図４のステップＳ３２に示す「復元情報生成処
理」の詳細を説明するフローチャートである。

【図８】復元情報を構成する変換記号の一例を説明する
図である。

【図９】本実施の形態によって生成される正規化文字列
と復元情報の一例を説明する図である。

【図１０】本実施の形態によって生成される正規化文字
列と復元情報の他の一例を説明する図である。

【図１１】本実施の形態によって生成される正規化文字
列と復元情報の更に他の一例を説明する図である。

【図１２】本実施の形態によって生成される正規化文字
列と復元情報の更に他の一例を説明する図である。

【図１３】図２に示す実施の形態において実行される検
索処理の一例を説明するフローチャートである。

【図１４】図１３に示す「復元処理」の詳細を説明する
フローチャートである。

【符号の説明】

１正規化手段２復元情報生成手段３記憶手段４復元手段１０情報処理装置１０ａＣＰＵ１０ｂＲＯＭ１０ｃＲＡＭ１０ｄＨＤＤ１０ｅ，１０ＦＩ／Ｆ１１データベース１２ネットワーク１３クライアント１４表示装置

フロントページの続き (72)発明者板倉正佳神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者小川明彦神奈川県小田原市栄町一丁目６番地４株式会社富士通ソフトウェア生産技術研究所内 (72)発明者藤部浩寿兵庫県神戸市中央区加納町２丁目１番15号株式会社富士通神戸エンジニアリング内Ｆターム(参考） 5B009 TA11 5B075 ND03 NR03 NR15 PP22 PQ02 5B082 AA11 CA01 GA02 GC04

Claims

【特許請求の範囲】

【請求項１】入力された文字列を正規化して格納する
情報処理装置において、前記入力された文字列を正規化して正規化文字列を生成
する正規化手段と、前記正規化手段によって得られた正規化文字列を、元の
文字列に復元するための復元情報を生成する復元情報生
成手段と、前記復元情報生成手段によって生成された復元情報と、
前記正規化文字列とを対応付けて記憶する記憶手段と、前記記憶手段に記憶されている所定の正規化文字列が指
定された場合には、対応する復元情報を参照してもとの
文字列を復元する復元手段と、を有することを特徴とする情報処理装置。
【請求項２】前記正規化手段は、入力された文字列に
含まれている連続する同一文字種の文字群を既定の文字
種の文字群に変換する処理を行うことを特徴とする請求
項１記載の情報処理装置。
【請求項３】前記復元情報生成手段は、正規化の前後
における文字種を特定するための情報と、連続する同一
文字種の文字群の文字数を特定するための情報とを復元
情報として生成することを特徴とする請求項２記載の情
報処理装置。
【請求項４】前記復元情報生成手段は、正規化の前後
における文字種が不変の場合であって、連続する同一文
字種の文字群のバイト数が１バイトである場合には、そ
の旨を示す１バイトの復元情報を生成することを特徴と
する請求項３記載の情報処理装置。
【請求項５】前記復元情報生成手段は、正規化の前後
における文字種が不変の場合であって、連続する同一文
字種の文字群のバイト数が２バイト以上である場合に
は、その旨を示す１バイトの情報と、文字群の文字数を
特定する１バイトの情報を生成することを特徴とする請
求項３記載の情報処理装置。
【請求項６】前記復元情報生成手段は、前記連続する
同一文字種の文字群が半角英文字である場合には、その
旨を示す所定の復元情報を生成し、前記復元手段は、前記所定の復元情報に遭遇した場合に
は、前記連続する半角英文字のうち先頭の文字を半角英
大文字に変換する、ことを特徴とする請求項３記載の情報処理装置。
【請求項７】前記復元情報を表示装置に対して表示出
力する表示出力手段を更に有することを特徴とする請求
項１記載の情報処理装置。
【請求項８】入力された文字列を正規化して格納する
処理をコンピュータに実行させるプログラムを記録した
コンピュータ読み取り可能な記録媒体において、コンピュータを、前記入力された文字列を正規化して正規化文字列を生成
する正規化手段、前記正規化手段によって得られた正規化文字列を、元の
文字列に復元するための復元情報を生成する復元情報生
成手段、前記復元情報生成手段によって生成された復元情報と、
前記正規化文字列とを対応付けて記憶する記憶手段、前記記憶手段に記憶されている所定の正規化文字列が指
定された場合には、対応する復元情報を参照してもとの
文字列を復元する復元手段、として機能させるプログラムを記録したコンピュータ読
み取り可能な記録媒体。