JP2001125916A - 情報処理装置 - Google Patents

情報処理装置

Info

Publication number
JP2001125916A
JP2001125916A JP30690499A JP30690499A JP2001125916A JP 2001125916 A JP2001125916 A JP 2001125916A JP 30690499 A JP30690499 A JP 30690499A JP 30690499 A JP30690499 A JP 30690499A JP 2001125916 A JP2001125916 A JP 2001125916A
Authority
JP
Japan
Prior art keywords
character string
character
information
normalized
restoration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30690499A
Other languages
English (en)
Other versions
JP3794882B2 (ja
Inventor
Hiroyuki Suzuki
啓之 鈴木
Masaaki Mitani
政昭 三谷
Masayoshi Itakura
正佳 板倉
Akihiko Ogawa
明彦 小川
Hirohisa Fujibe
浩寿 藤部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP30690499A priority Critical patent/JP3794882B2/ja
Priority to US09/603,577 priority patent/US6469643B1/en
Publication of JP2001125916A publication Critical patent/JP2001125916A/ja
Application granted granted Critical
Publication of JP3794882B2 publication Critical patent/JP3794882B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 入力された文字列を正規化し、もとの文字列
とともに対応付けて格納する情報処理装置の必要記憶容
量を削減する。 【解決手段】 正規化手段1は、入力された文字列「サ
イクリング同好会」に対して正規化処理を施して「さい
くりんぐ同好会」を生成し、復元情報生成手段2と記憶
手段3に供給する。復元情報生成手段2は、もとの文字
列である「サイクリング同好会」と、正規化された文字
列である「さいくりんぐ同好会」を入力し、アスキー文
字から構成される復元情報「F@#」を生成して記憶手段
3に供給する。記憶手段3は、正規化された文字列「さ
いくりんぐ同好会」と、復元情報である「F@#」とを関
連付けて記憶する。復元手段4は、記憶手段3に記憶さ
れている正規化された文字列「さいくりんぐ同好会」が
指定された場合には、それに対応する復元情報「F@#」
を取得し、これらからもとの情報である「サイクリング
同好会」を復元する。従って、入力された文字列である
「サイクリング同好会」を保存する場合に比較して記憶
手段3の必要な記憶容量を削減することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報処理装置に関
し、特に、入力された文字列を正規化して格納する情報
処理装置に関する。
【0002】
【従来の技術】例えば、データベース等においては、検
索の結果得られたデータを所定の規則に従って並べ換え
て出力するが、そのような規則はOS(Operating Syst
em)やDBMS(Data Base Management System)によ
って異なるため、同一のデータベースを対象として検索
を実行した場合においても、システムによって検索結果
の表示が異なる場合があった。
【0003】そこで、このようなシステムによる影響を
受けないように、もとのデータを正規化し、この正規化
されたデータともとのデータとを対応付けてデータベー
スに格納する。そして、正規化されたデータを対象とし
て検索処理と並べ換え処理を実行し、得られた結果をも
とのデータに変換して出力する方法を本発明者が先に提
案している。
【0004】
【発明が解決しようとする課題】しかし、このような方
法では、もとのデータのみならず、正規化データもデー
タベースに格納する必要があることから、データベース
の必要な容量が増大するという問題点があった。
【0005】本発明は、以上のような点に鑑みてなされ
たものであり、正規化されたデータを格納するデータベ
ースの必要な記憶容量を削減することが可能な情報処理
装置を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明では上記課題を解
決するために、図1に示す、入力された文字列を正規化
して格納する情報処理装置において、前記入力された文
字列を正規化して正規化文字列を生成する正規化手段1
と、前記正規化手段1によって得られた正規化文字列
を、元の文字列に復元するための復元情報を生成する復
元情報生成手段2と、前記復元情報生成手段2によって
生成された復元情報と、前記正規化文字列とを対応付け
て記憶する記憶手段3と、前記記憶手段3に記憶されて
いる所定の正規化文字列が指定された場合には、対応す
る復元情報を参照してもとの文字列を復元する復元手段
4と、を有することを特徴とする情報処理装置が提供さ
れる。
【0007】ここで、正規化手段1は、入力された文字
列を正規化して正規化文字列を生成する。復元情報生成
手段2は、正規化手段1によって得られた正規化文字列
を、元の文字列に復元するための復元情報を生成する。
記憶手段3は、復元情報生成手段2によって生成された
復元情報と、正規化文字列とを対応付けて記憶する。復
元手段4は、記憶手段3に記憶されている所定の正規化
文字列が指定された場合には、対応する復元情報を参照
してもとの文字列を復元する。
【0008】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の動作原理を説明
するための原理図である。この図において、正規化手段
1は、入力された文字列(以下、入力文字列と称す)を
所定の規則に従って正規化し、正規化文字列を生成す
る。
【0009】復元情報生成手段2は、正規化手段1によ
って得られた正規化文字列を、元の文字列に復元するた
めの復元情報を生成する。なお、復元情報にバイナリコ
ードが含まれると、HTML(Hyper Text Markup Lang
uage)や電子メールなどで参照する時にエンコードが必
要になり、可搬性がよくないので、復元情報は表示可能
文字とすることが望ましい。
【0010】記憶手段3は、復元情報生成手段2によっ
て生成された復元情報と、正規化文字列とを対応付けて
記憶する。復元手段4は、記憶手段3に記憶されている
所定の正規化文字列が指定された場合には、対応する復
元情報を参照してもとの文字列を復元する。
【0011】次に、以上の原理図の動作について説明す
る。いま、文字列として「サイクリング同好会」が与え
られたとすると、正規化手段1は、入力された文字列を
規則に基づいて正規化する。なお、正規化の規則の一例
を以下に示す。 (1)全角カタカナおよび半角カタカナを全角ひらがな
に変換する。 (2)全角英大文字、全角英小文字、および、半角英大
文字を全て半角英小文字に変換する。 (3)全角記号を半角記号に変換する。
【0012】従って、正規化手段1は、規則(1)に従
って、「サイクリング」を「さいくりんぐ」に変換す
る。「同好会」には適用する規則がないのでそのままと
される。従って、正規化手段1からは、正規化文字列
「さいくりんぐ同好会」が出力され、復元情報生成手段
2に供給される。
【0013】復元情報生成手段2は、正規化手段1から
供給された正規化文字列「さいくりんぐ同好会」と、入
力文字列「サイクリング同好会」とから復元情報を生成
する。ここで、復元情報としては、正規化により文字種
が変化しない場合と、変化する場合に分けてそれぞれ該
当する復元情報を生成する。
【0014】先ず、文字種が変化する場合には、正規化
の前後の文字種を特定するための3ビットの情報を上位
ビットとし、変換の対象となる文字の連続する文字数を
示す5ビットの情報を下位ビットとして連結した1バイ
トの復元情報を生成する。
【0015】また、文字種が変化しない場合であって、
連続する文字のバイト数が1バイトである場合には半角
文字「?」を復元情報とする。連続する文字のバイト数
が2バイト以上である場合には、半角文字「@」に、連
続する文字のバイト数nに「20h」(hは16進数を
示す)を加算して得られた値に対応するアスキー文字を
付加した2文字を復元情報とする。
【0016】更に、特別な場合として、英文の文章の場
合には、センテンスの最初の文字が大文字で表現される
ので、このような情報を保存するために、半角文字
「_」に対して連続する文字のバイト数nに「20h」
を加算して得られた値に対応するアスキー文字を付加し
た2文字を復元情報とする。
【0017】「サイクリング同好会」の「サイクリン
グ」については、文字種が全角カタカナから全角ひらが
なに正規化されているので、正規化の前後の文字を特定
するための3ビットの情報が“010”であるとする
と、これを上位3ビットとし、連続する文字の文字数
“6”に対応する“00110”を下位ビットとして付
加した“01000110”を生成する。これは、16
進法では“46h”となり、これに対応するアスキー文
字は「F」となる。
【0018】また、「同好会」に関しては変換が施され
ていないので、復元情報としては、無変換を示す「@」
と、連続する文字のバイト数“6”に対して“20h”
を加算して得られた“26h”に対応するアスキー文字
「&」が付加された「@&」が生成される。
【0019】従って、正規化文字列「さいくりんぐ同好
会」の復元情報としては、「F@&」が得られるので、記
憶手段3は得られた復元情報「F@&」と、正規化文字列
「さいくりんぐ同好会」とを対応付けて記憶する。
【0020】このような状態において、記憶手段3に記
憶されている正規化文字列「さいくりんぐ同好会」が指
定された場合(例えば、検索処理において指定された場
合)には、復元手段4は、正規化文字列「さいくりんぐ
同好会」と復元情報である「F@&」を記憶手段3から取
得する。
【0021】そして、以上の場合とは逆の処理を実行す
ることにより、入力文字列である「サイクリング同好
会」を得る。即ち、復元手段4は、先ず、復元情報の最
初の情報である文字「F」を抽出する。この文字「F」
は、前述のように、上位3ビット(“010”)が変換
の前後の文字種を特定する情報であり、また、下位5ビ
ット(“00110”)が連続する文字群の文字数を示
す情報であるので、復元手段4は、これらを参照して
「さいくりんぐ」を「サイクリング」に変換し、復元し
た文字列である復元文字列に複写する。
【0022】次に、復元手段4は、文字「@」を抽出す
る。文字「@」は連続する文字のバイト数を示す情報と
ともに格納されていることが分かっているので、復元手
段4はその次の文字「&」を取得する。この文字のアス
キーコードは“26h”であるので、その値から“20
h”を減算して得られた“6”バイト分の情報「同好
会」を正規化情報から抽出し、復元文字列に追加的に格
納する。
【0023】その結果、復元文字列として「サイクリン
グ同好会」を得ることになる。以上に説明したように、
本発明によれば、入力文字列から正規化文字列と復元情
報とを生成して正規化文字列と復元情報のみを格納し、
もとの入力文字列が必要になった場合には正規化文字列
と復元情報とから生成するようにしたので、入力文字列
に比べてデータ長が短い復元情報を入力文字列の代わり
に格納することが可能となり、必要な記憶容量を削減す
ることが可能となる。
【0024】具体的には、前述の例では、入力文字列
「サイクリング同好会」は合計18バイトの情報である
が、復元情報「F@&」は合計3バイトの情報であり、1
5バイトの情報を削減することが可能となる。
【0025】図2は、本発明の実施の形態の構成例を示
す図である。この図において、本発明の情報処理装置1
0は、ネットワーク12を介して接続されているクライ
アント13(または、図示せぬ他のクライアント)から
入力された文字列の登録の要求があった場合には、供給
された入力文字列を正規化して正規化文字列を生成する
とともに、正規化文字列を元の情報に復元するための復
元情報を生成し、これらを相互に関連付けて登録する。
そして、クライアント13(または、図示せぬ他のクラ
イアント)から情報の検索の要求があった場合には、該
当する正規化文字列を検索し、得られた正規化文字列を
復元情報を参照して復元し、要求を行ったクライアント
13に送信する。
【0026】データベース11は、正規化文字列と復元
情報とを対応付けて記憶する。ネットワーク12は、例
えば、インターネットなどによって構成されている。ク
ライアント13は、例えば、パーソナルコンピュータな
どによって構成されており、ネットワーク12を介して
情報処理装置10に対して所定の文字列の登録や検索を
要請する。
【0027】表示装置14は、例えば、CRT(Cathod
e Ray Tube)モニタ等によって構成されており、クライ
アント13から供給された情報を表示出力する。ここ
で、情報処理装置10は、CPU(Central Processing
Unit)10a、ROM(Read Only Memory)10b、
RAM(Random Access Memory)10c、HDD(Hard
Disk Drive)10d、I/F(Interface)10e,1
0f、および、バス10gによって構成されている。
【0028】CPU10aは、装置の各部を制御すると
ともに、HDD10dに格納されているアプリケーショ
ンプログラム等に応じて各種演算処理を実行する。RO
M10bは、CPU10aが実行する基本的なプログラ
ムやデータ等を格納している。
【0029】RAM10cは、CPU10aが演算の対
象とするプログラムや、演算途中のデータを一時的に格
納する。HDD10dは、CPU10aが実行する各種
アプリケーションプログラムやデータ等を格納してい
る。
【0030】I/F10eは、ネットワーク12との間
でデータの授受が可能となるように、ネットワーク12
上のデータと、情報処理装置10の内部のデータの表現
形式等を適宜変換する。
【0031】I/F10fは、データベース11との間
でデータを授受する際にデータの表現形式等の変換処理
等を実行する。バス10gは、CPU10a、ROM1
0b、RAM10c、HDD10d、および、I/F1
0e,10fを相互に接続し、これらの間でデータの授
受を可能とする。
【0032】なお、以上の実施の形態では、クライアン
ト13がネットワーク12を介して接続され、情報を授
受する形態としたが、例えば、情報処理装置10に対し
てキーボード等の入力デバイスが接続されて直接的に情
報を授受するようにしてもよい。
【0033】次に、以上の実施の形態の動作について説
明する。先ず、クライアント13において入力された情
報を、データベース11に登録する際の処理について説
明する。図3は、そのような処理を実行するためのフロ
ーチャートである。この処理が実行されると、以下の処
理が実行される。 [S1]情報処理装置10のCPU10aは、クライア
ント13において入力され、ネットワーク12を介して
伝送されてきた入力文字列を取得する。
【0034】例えば、クライアント13において「SS
Nニュース」が入力されたとすると、情報処理装置10
はこの文字列「SSNニュース」を入力文字列として取
得する。 [S2]情報処理装置10のCPU10aは、取得した
文字列を正規化して正規化文字列を生成するとともに、
正規化文字列を復元するための復元情報を生成する。な
お、この処理の詳細は、図4を参照して後述する。
【0035】例えば、いまの例では、「SSNニュー
ス」が正規化され、「ssnにゅーす」が生成され、ま
た、復元情報としては「CD」が生成される。 [S3]情報処理装置10のCPU10aは、正規化文
字列と復元情報とを、データベース11に対応付けて格
納する。
【0036】いまの例では、「ssnにゅーす」と「CD」
とがデータベース11に対応付けて格納されることにな
る。次に、図4を参照して、図3に示す「正規化および
復元情報生成処理」の詳細について説明する。なお、こ
のフローチャートの詳細について説明する前に、図5を
参照して本実施の形態における正規化処理の詳細につい
て説明する。
【0037】図5は、正規化処理における規則の概要を
示すコード変換表の一例である。この図において、「エ
ントリ」は、文字を正規化する際に検索の対象となる部
分であり、そのシステムにおいて使用可能な文字種が一
覧形式で示されている。なお、エントリの欄の下に示さ
れている数字は、各エントリのシフトJISコードを示
している。
【0038】エントリの欄の右隣の「例」は、各エント
リの一例を示している。例えば、半角英大文字の例とし
ては、「A」が示されている。その右隣の「変換先」
は、各エントリが正規化先を有する場合にはその正規化
先の文字種と、変換元コード(後述する)とが示されて
いる。例えば、第2番目の項目である「半角英大文字」
の場合は、「半角英小文字」に変換されることが示され
ており、また、そのときの変換元コードは“01”であ
ることが示されている。なお、変換先が存在しない場合
には“0”が格納されている。
【0039】その右隣の変換元コード“01”〜“0
3”は、変換元を特定するための情報である。例えば、
第4番目の項目である「半角英小文字」の場合、「半角
英大文字」、「全角英大文字」、および、「全角英小文
字」の3つの文字種が変換元とされるので、これらの何
れから変換されたかを特定するための情報が必要とな
り、それが“01”〜“03”で与えられる。具体的に
は、半角英小文字の「a」が正規化文字列に含まれてい
た場合、この文字は半角英大文字の「A」、全角英大文
字の「A」、または、全角英小文字「a」の何れから変
換されたか分からないので、その復元先を示すための情
報が変換元コードであり、例えば、“02”の場合には
全角英大文字の「A」から変換されたことが分かる。な
お、“0”は該当する変換元が存在しないことを示す。
【0040】以上に示した例は、簡略化した例であり、
文字種毎に変換先等の対応関係を示したが、1文字単位
で変換先等の対応関係を示すテーブルを用いることもで
きる。
【0041】次に、図4に示すフローチャートの動作に
ついて説明する。このフローチャートが開始されると、
以下の処理が実行される。 [S20]情報処理装置10のCPU10aは、処理回
数をカウントする変数iを“1”に初期設定する。 [S21]情報処理装置10のCPU10aは、変数C
0に対して入力文字列の第i番目の文字を代入する。
【0042】例えば、先の「SSNニュース」の場合、
第1回目の処理では、i=1であるので第1番目の文字
「S」が変数C0に対して入力される。 [S22]情報処理装置10のCPU10aは、変数C
0の変換クラスの決定処理を実行する。ここで、変換ク
ラスは以下の4つに分類される。 (1)半角無変換 (例:a→a) (2)全角無変換 (例:あ→あ) (3)半角変換 (例:A→a) (4)全角変換 (例:A→a) 例えば、先の「S」の場合、(4)に該当するので、変
換クラスは「全角変換」となる。
【0043】なお、この処理の詳細については、図6を
参照して後述する。 [S23]情報処理装置10のCPU10aは、変数C
1に対して入力文字列の第(i+1)番目の文字を代入
する。
【0044】例えば、先の「SSNニュース」の場合、
第1回目の処理では、(i+1)=2であるので第2番
目の文字「S」が変数C1に対して入力される。 [S24]情報処理装置10のCPU10aは、変数C
1がNULL(空)か否かを判定し、NULLである場
合にはステップS32に進み、それ以外の場合にはステ
ップS25に進む。
【0045】即ち、変数C1がNULLである場合に
は、変数C0には入力文字列の最後の文字が格納されて
いるので、その場合にはステップS32の復元情報生成
処理に進む。
【0046】先の例では、C1には「S」が代入されて
いるので、ステップS25に進むことになる。 [S25]情報処理装置10のCPU10aは、変数C
1の変換クラスの決定処理を実行する。なお、この処理
は前述のステップS22の場合と同様であり、その詳細
については図6を参照して後述する。
【0047】先の例では、C1には「S」が代入されて
おり、変換クラスは前述の場合と同様に「全角変換」と
なる。 [S26]情報処理装置10のCPU10aは、変数C
0,C1に格納されている文字のそれぞれの変換クラス
と、変換元コードが異なるか否かを判定し、これらが異
なる場合にはステップS27に進み、それ以外の場合に
はステップS29に進む。
【0048】即ち、変換クラスと変換元コードとが異な
る場合には、変数C0,C1に格納されている文字の文
字種は異なっているので、変数C0に格納されている文
字が連続する同一文字種の文字群の最後の文字であると
して、ステップS27に進む。なお、以下では、連続す
る同一文字種の文字群を「チャンク」と称する。例え
ば、先の例「SSNニュース」では、「SSN」と「ニ
ュース」がそれぞれチャンクに該当する。 [S27]情報処理装置10のCPU10aは、変数C
1に代入されている文字の変換クラスが「半角変換」で
あって、文字種が半角英字であるか否かを判定し、該当
する場合にはステップS28に進み、それ以外の場合に
はステップS32に進む。
【0049】即ち、変数C1に代入されている文字の変
換クラスが半角変換であって、文字種が半角英字である
場合は、その文字は半角英大文字であるので、その場合
には英文の頭文字であるとして、ステップS28に進
む。 [S28]情報処理装置10のCPU10aは、次のチ
ャンクの変換を、復元の際に、チャンクの頭文字のみを
大文字に変換する「英文変換」に決定する。
【0050】即ち、英文の場合は、センテンスの最初が
大文字で表されるので、正規化の際には全て半角英小文
字に変換しておき、復元の際にセンテンスの最初の文字
だけ半角英大文字に変換するようにすれば、情報を喪失
することなく、効率良く英文を処理することができる。
【0051】なお、変数C1に対応する文字の次の文字
が半角英小文字であるか否かを判定した後に、次チャン
クを英文変換に決定するようにすれば、更に確実に英文
であるか否かを判定することが可能となる。 [S29]情報処理装置10のCPU10aは、処理対
象となっているチャンクにおいて、変数C0に格納され
ている文字までの連続文字数(または、バイト数)を計
算する。
【0052】例えば、「SSNニュース」において、い
ま、処理対象のチャンクが「ニュース」であるとし、変
数C0に格納されている文字が「ー」であるとすると、
連続文字数は“3”となる。 [S30]情報処理装置10のCPU10aは、ステッ
プS29において算出した連続文字数または連続バイト
数が所定の最大値を上回っているか否かを判定し、上回
っている場合にはステップS32に進み、それ以外の場
合にはステップS31に進む。
【0053】なお、この処理は、1つの変換記号で表現
可能な文字数に限りがあるため、その限度を超過しない
ためにおこなう。例えば、連続するバイト数に関して
は、後述するようにそのバイト数に対応するアスキー文
字で表現されるが、アスキー文字の“0h”〜”20
h”の範囲と“7Fh”以降は制御文字となっており画
面上に表示されないので、この領域との重複を避けるた
め、後述するように連続するバイト数に対して“20
h”を加算した値に対応するアスキー文字を用いるとと
もに、連続するバイト数の最大値を“94”以下に制限
している。また、連続文字の場合には、後述する理由に
より“30”以下に制限される。従って、ステップS3
0の処理では、連続バイト数が“95”バイト以上の場
合か、連続文字数が“31”文字以上の場合にステップ
S32に進む。 [S31]情報処理装置10のCPU10aは、変数i
の値を“1”だけインクリメントした後、ステップS2
1に戻って前述の場合と同様の処理を繰り返す。 [S32]情報処理装置10のCPU10aは、正規化
文字列を復元する際に使用する復元情報を生成する処理
を実行する。
【0054】なお、この処理の詳細は、図7を参照して
後述する。 [S33]情報処理装置10のCPU10aは、変数C
1がNULL(空)か否かを判定し、NULLである場
合にはもとの処理に復帰し、それ以外の場合にはステッ
プS21に戻って前述の場合と同様の処理を繰り返す。
【0055】次に、図6を参照して、図4に示す、ステ
ップS22およびステップS25の処理の詳細について
説明する。このフローチャートが開始されると、以下の
処理が実行される。 [S50]情報処理装置10のCPU10aは、変数C
0またはC1に格納されている文字を取得する。 [S51]情報処理装置10のCPU10aは、図5に
示すコード変換表のエントリ欄に該当する文字種が存在
するか否かを判定し、存在する場合にはステップS52
に進み、それ以外の場合にはステップS55に進む。
【0056】即ち、コード変換表のエントリ欄に該当文
字種が存在しない場合には、正規化の対象とはならない
ので、その場合にはステップS55に進む。 [S52]情報処理装置10のCPU10aは、コード
変換表の「変換先」の欄に該当する文字種が存在してい
る(“0”でない)か否かを判定し、存在している場合
にはステップS53に進み、それ以外の場合にはステッ
プS55に進む。
【0057】即ち、変換先欄が“0”である場合には正
規化の必要がない文字であるので、その場合にはステッ
プS55に進む。 [S53]情報処理装置10のCPU10aは、図5に
示すコード変換表を参照して、該当する変換元コードを
取得する。
【0058】例えば、処理対象となっている文字が全角
英大文字「A」である場合には、変換元コードとして
“02”が取得される。 [S54]情報処理装置10のCPU10aは、変換ク
ラスを全角または半角の変換に決定する。
【0059】例えば、処理対象となっている文字が前述
の全角英大文字「A」の場合には、変換クラスは全角変
換に決定され、半角英大文字「F」である場合には、変
換クラスは半角変換に決定される。 [S55]情報処理装置10のCPU10aは、変換ク
ラスを全角または半角の無変換に決定する。
【0060】例えば、処理対象となっている文字が前述
の全角ひらがな「あ」の場合には、変換クラスは全角無
変換に決定され、半角英子文字「f」である場合には、
変換クラスは半角無変換に決定される。 [S56]情報処理装置10のCPU10aは、変数C
0に係る処理、即ち、ステップS22から呼び出された
場合にはステップS57に進み、それ以外の場合にはも
との処理に復帰する。 [S57]情報処理装置10のCPU10aは、図5に
示すコード変換表を参照して、処理対象となっている文
字を正規化する。
【0061】例えば、処理対象の文字が全角カタカナの
「ア」であるとすると、これは、コード変換表から全角
ひらがなに正規化されるので、「ア」は「あ」に正規化
される。 [S58]情報処理装置10のCPU10aは、正規化
文字列に対して、ステップS57で生成された正規化文
字を追加格納する。
【0062】例えば、いま、正規化文字列に「ふろんて
ぃ」が格納されているとし、ステップS57の正規化に
よって得られた文字が「あ」であるとすると、ステップ
S58の処理において、正規化文字列は「ふろんてぃ
あ」となる。
【0063】次に、図7を参照して、図4のステップS
32に示す「復元情報生成処理」の詳細について説明す
る。このフローチャートは、チャンク単位で復元情報を
生成する処理である。以下では、図8に示す復元情報を
構成する記号文字について説明した後、図7に示すフロ
ーチャートの動作について説明する。
【0064】図8は、復元情報を構成する変換記号の一
例を説明する図である。図の第1番目に掲げられている
「@○」は、半角文字の「@」と、所定のアスキー文字
(この例では○)とから構成されており、アスキー文字
のアスキーコードから“20h”を減算して得られた値
nに対応するバイト数の文字を無変換で復元することを
示す。例えば、入力文字列が全角ひらがなの「あした」
である場合には、連続する文字のバイト数は“6”バイ
トであるので、“20h”に対して“6”を加算して得
られた値“26h”に対応するアスキーコード「&」が
「@」に付加されて復元情報「@&」が生成される。な
お、バイト数に“20h”を加算するのは、アスキー文
字では“20h”以下の文字は制御文字とされており、
画面に表示されない場合もあるので、表示可能な文字に
変換するためである。
【0065】次の「_○」は、半角文字の「_」と、所
定のアスキー文字(この例では○)とから構成されてお
り、先頭の英小文字のみを大文字に変換し、アスキー文
字のアスキーコードから“20h”を減算して得られた
値nから1を除算した(n−1)に対応するバイト数の
文字を無変換で復元することを示す。例えば、入力文字
列が「that remains to be proved.」である場合には、
文字列のバイト数“26”を“20h”に加算して得ら
れた値“3Ah”に対応するアスキー文字「:」が
「_」に付加されて復元情報が生成される。
【0066】続く、「?」は、半角文字「?」のみから
構成された復元情報であり、1バイトを無変換で復元す
ることを示す。例えば、入力文字列が半角英小文字の
「a」である場合には、復元情報としては「?」が生成さ
れることになる。
【0067】最後の「◎」は、所定のアスキー文字であ
り、そのアスキーコードの上位3ビットは変換元コード
を示し、下位5ビットは文字数を示す。例えば、入力文
字列が全角カタカナの「アスリート」である場合には、
正規化により全角ひらがなの「あすりーと」に変換され
るので、図5に示すコード変換表よりその変換元コード
は“02”であり、また、連続文字数は“5”であるの
で、変換元コードに対応する“010”と、連続文字数
に対応する“00101”を連結した“0100010
1”(=45h)に対応するアスキー文字「E」が復元
情報として生成される。なお、連続文字数は5ビットで
表現されるので、理論的には“0”〜“31”の値を取
りうるが、“0”はあり得ないので除外され、また、
“31”は次の理由から除外される。即ち、「_」と
「?」のアスキーコードは、それぞれ“5Fh”と“3
Fh”であるので、取り得る値を“30”までに制限す
ることによりこれらが重複することを防止できる。な
お、図4に示すステップS30の処理がこのような制限
を課すための処理である。
【0068】次に、図7に示すフローチャートの動作に
ついて説明する。このフローチャートが開始されると、
以下の処理が実行される。 [S70]情報処理装置10のCPU10aは、処理対
象となっているチャンクの変換クラスが半角無変換であ
る場合にはステップS75に進み、それ以外の場合には
ステップS71に進む。 [S71]情報処理装置10のCPU10aは、処理対
象となっているチャンクの変換クラスが全角無変換であ
る場合にはステップS72に進み、それ以外の場合には
ステップS73に進む。 [S72]情報処理装置10のCPU10aは、復元情
報に変換記号「@」と文字バイト数を追加する。
【0069】例えば、処理対象がチャンク「ふろんてぃ
あ」である場合、復元情報には「@」が追加され、ま
た、文字のバイト数“12”を“20h”に加算して得
られた値“2Ch”に対応する「,」が更に追加され
る。 [S73]情報処理装置10のCPU10aは、連続文
字数、即ち、チャンクを構成する文字の文字数を計算す
る。 [S74]情報処理装置10のCPU10aは、変換元
コードを上位3ビットとし、ステップS73において計
算された連続文字数を下位5ビットとした値に対応する
アスキー文字を復元情報に付加する。
【0070】例えば、チャンク「フロンティア」を「ふ
ろんてぃあ」に正規化した場合には、変換元コードは
“02”であるので“010”であり、文字数は“6”
であるので“00110”であり、これらを連結した
“01000110”は16進法で“46h”であるの
で、これに対応するアスキー文字「F」が復元情報に追
加される。 [S75]情報処理装置10のCPU10aは、連続バ
イト数が“1”を上回っているか否かを判定し、上回っ
ている場合にはステップS76に進み、それ以外の場合
にはステップS79に進む。 [S76]情報処理装置10のCPU10aは、英文変
換であるか否かを判定する。即ち、図4に示すステップ
S28において、英文変換に決定されている場合にはス
テップS77に進み、それ以外の場合にはステップS7
8に進む。 [S77]情報処理装置10のCPU10aは、英文変
換であることを示す「_」に対して文字のバイト数に対
応するアスキー文字を付加し、復元情報に追加する。
【0071】例えば、処理対象のチャンクが「It can't
be helped.」である場合には、英文変換を示す「_」
と、文字のバイト数“19”を“20h”に加算して得
られた値“33h”に対応するアスキー文字「3」が復
元情報に追加される。 [S78]情報処理装置10のCPU10aは、復元情
報に変換記号「@」と、文字のバイト数を示すアスキー
文字を追加する。
【0072】例えば、処理対象のチャンクが「変換装
置」である場合には、無変換を示す「@」と、文字のバ
イト数“8”を“20h”に加算して得られた値“28
h”に対応するアスキー文字「(」が復元情報に追加さ
れる。 [S79]情報処理装置10のCPU10aは、復元情
報に対して1バイト無変化を示すアスキー文字「?」を
追加する。
【0073】例えば、処理対象のチャンクが「a」であ
る場合には、復元情報に対してアスキー文字「?」が追
加されることになる。次に、図9〜図12を参照して、
以上の処理の具体的な動作例について説明する。
【0074】図9は、本実施の形態によって生成される
正規化文字列と、復元情報との一例を説明する図であ
る。この例では、入力文字列は、全角大文字「新型」、
半角カタカナ「ハ゜ソコン」、全角英大文字「FX」、全角
数字「2」、全角ひらがな「の」、および、全角カタカ
ナ「ソントク」から構成されている。このような入力文
字列に対して、図4に示す処理を施すと、先頭の全角大
文字「新型」は無変換とされる。従って、復元情報とし
ては、無変換を示す「@」に対して、連続文字のバイト
数“4”に“20h”を加算して得られた値“24h”
に対応するアスキー文字「$」が生成される。
【0075】次の半角カタカナの「ハ゜ソコン」は全角ひら
がなの「ぱそこん」に変換されるので、図5を参照して
変換元コードは“01”であり、変換後の文字数は
“4”であるので、変換元コードに対応する“001”
と、変換後の文字数に対応する“00100”を連結し
て得られた値に対応するアスキー文字「$」が生成され
る。
【0076】続く全角英大文字の「FX」は、半角英小
文字の「fx」に変換される。この変換の変換元コード
は、“02”であり、連続文字数は“2”であるので、
これらから得られる数値“42h”に対応するアスキー
文字「B」が復元情報として生成される。
【0077】続く全角数字の「2」は、半角数字の
「2」に変換される。この変換の変換元コードは“0
3”であり、文字数は“1”であるので、これらから得
られる数値“61h”に対応するアスキー文字「a」が
復元情報として生成される。
【0078】続く全角ひらがなの「の」は、無変換とさ
れる。従って、無変換を示す「@」に対して、バイト数
“2”に“20h”を加算して得られた値に対応するア
スキー文字「"」が付加されて復元情報が生成される。
【0079】最後に、全角カタカナの「ソントク」は、
全角ひらがなの「そんとく」に変換される。この変換の
変換元コードは“02”であり、文字数は“4”である
ので、これらから得られる数値“44h”に対応するア
スキー文字「D」が復元情報として生成される。
【0080】従って、この例では、入力文字列は“2
5”バイトであり、復元情報は“8”バイトであるの
で、従来のように入力文字列を保存する場合に比べて、
情報量を68%も削減することが可能となる。
【0081】次に、図10を参照して他の例について説
明する。この例では、入力文字列は全角英大文字の「D
BS」、全角カタカナの「バックアップ」、全角ひらが
なの「と」、および、全角カタカナの「リストア」から
構成されている。
【0082】最初の全角英大文字の「DBS」は、半角
英小文字の「dbs」に変換されるので、対応する復元情
報は「C」となる。次の全角カタカナの「バックアッ
プ」は、全角ひらがなの「ばっくあっぷ」に変換される
ので、対応する復元情報は「F」となる。
【0083】続く全角ひらがなの「と」は、無変換とさ
れるので、復元情報は「@"」となる。最後の全角カタカ
ナの「リストア」は、全角ひらがなの「りすとあ」に変
換されるので、復元情報は「D」となる。
【0084】次に、図11を参照して更に他の例につい
て説明する。この例では、入力文字列は、全角文字の
「第二版 誤植の訂正 」と、半角英字の「Fable」、
および、全角文字の「の章追加」とから構成されてい
る。
【0085】最初の全角文字の「第二版 誤植の訂正
」は、無変換とされるので、復元情報は「@6」とな
る。続く半角英字の「Fable」は、半角英小文字の「fab
le」に変換される。なお、この変換は、先頭の文字が半
角英大文字であるので英文変換が選択され、復元情報は
「_%」となる。
【0086】最後の全角文字の「の章追加」は、無変換
とされるので、復元情報は「@(」となる。最後に、図12
を参照して更に他の例について説明する。
【0087】この例は、全てが半角英文字の場合であ
り、入力文字列としては、「Reflecting environmental
consciousness, automakers demonstrate environment
ally friendly cars.」が入力されている。この例で
は、英文変換が選択されるので、復元情報としては
「_」が生成される。
【0088】この例では、入力情報は“93”バイトで
あるが、復元情報は“2”バイトであるので、約98%
も情報量を削減することが可能となる。次に、以上のよ
うにして生成された正規化情報を検索して、検索結果を
表示する場合の処理について説明する。
【0089】図13は、以上のようにして生成され、デ
ータベース11に格納されているデータを検索する際の
処理の一例を示すフローチャートである。このフローチ
ャートが開始されると、以下の処理が実行されることに
なる。 [S90]情報処理装置10のCPU10aは、クライ
アント13から送信されてきたキーワードを入力する。 [S91]情報処理装置10のCPU10aは、キーワ
ードを図5に示すコード変換表を参照して正規化する。 [S92]情報処理装置10のCPU10aは、正規化
されたキーワード(以下、正規化キーワードと称す)に
より、データベース11を検索し、該当する正規化文字
列を取得する。 [S93]情報処理装置10のCPU10aは、検索結
果として得られた正規化文字列に対してソート処理を施
す。
【0090】なお、このソート処理は、正規化文字列に
対して施されるので、情報処理装置10のOS等に拘わ
らず常に一定の結果が得られる。 [S94]情報処理装置10のCPU10aは、ソート
処理が施された正規化文字列のそれぞれに対応する復元
情報をデータベース11から取得する。 [S95]情報処理装置10のCPU10aは、正規化
情報の復元処理を実行する。
【0091】なお、この処理の詳細は、図14を参照し
て後述する。 [S96]情報処理装置10のCPU10aは、全ての
正規化文字列の復元処理が終了したか否かを判定し、終
了した場合にはステップS97に進み、それ以外の場合
にはステップS94に戻って、前述の場合と同様の処理
を繰り返す。 [S97]情報処理装置10のCPU10aは、表示処
理を実行する。即ち、情報処理装置10は、復元された
文字列(以下、復元文字列)をネットワーク12を介し
てクライアント13に供給し、表示装置14に表示させ
る。
【0092】次に、図14を参照して、図13のステッ
プS95に示す復元処理の詳細について説明する。この
フローチャートが開始されると、以下の処理が実行され
る。 [S110]情報処理装置10のCPU10aは、復元
情報から変換記号を1つ抽出する。
【0093】例えば、復元情報が「@"?」であり、第1
回目の処理である場合には、最初の変換記号である
「@"」が抽出される。 [S111]情報処理装置10のCPU10aは、変換
記号が「@」または「?」であるか否かを判定し、これら
に該当する場合にはステップS112に進み、それ以外
の場合にはステップS113に進む。 [S112]情報処理装置10のCPU10aは、正規
化文字列から復元文字列に対して該当文字列をコピーす
る。
【0094】例えば、処理対象となる正規化文字列が
「ぱそこん情報」であり、現在の復元文字列が「パソコ
ン」であるとし、処理対象のチャンクが「情報」である
とすると、正規化文字列の該当する文字列が復元文字列
にコピーされて「パソコン情報」となる。 [S113]情報処理装置10のCPU10aは、変換
記号が「_」であるか否かを判定し、該当する場合には
ステップS114に進み、それ以外の場合にはステップ
S116に進む。 [S114]情報処理装置10のCPU10aは、正規
化文字列の該当するチャンクの先頭文字を大文字に変換
して復元文字列にコピーする。
【0095】例えば、正規化文字列の該当するチャンク
が「he is certain to succeed.」である場合には、先
頭の「h」が大文字「H」に変換され、復元文字列にコピ
ーされる。 [S115]情報処理装置10のCPU10aは、正規
化文字列の次文字(先頭文字の次の文字)から(連続バ
イト数−1)バイト分の文字を復元文字列に対してコピ
ーする。
【0096】前述の例では、復元情報は「_9」である
ので、「9」=(“39h”)から“20h”を減算し
て得られた値“25”(=連続バイト数)から“1”を
更に減算したバイト分の文字列「e is certain to succ
eed.」が正規化文字列から復元文字列へコピーされる。
その結果、復元文字列は、「He is certain to succee
d.」となる。 [S116]情報処理装置10のCPU10aは、変換
記号を連続文字数と変換元コードに分離する。
【0097】即ち、変換記号は、連続文字数を示す下位
5ビットと、変換元コードである上位3ビットに分解さ
れる。例えば、正規化文字列が「ぱそこん」であり、復
元情報が「D」である場合を例に挙げると、ステップS
116の処理では、復元情報である「D」=(“44
h”)が上位3ビットである“010”と、下位5ビッ
トである“00100”とに分離される。 [S117]情報処理装置10のCPU10aは、正規
化文字列から処理対象のチャンクを切り分ける。
【0098】即ち、CPU10aは、連続文字数を参照
して、正規化文字列から処理対象となるチャンクを抽出
する。いまの例では、正規化文字列から「ぱそこん」が
抽出される。 [S118]情報処理装置10のCPU10aは、ステ
ップS117において抽出したチャンクの文字種を特定
する。
【0099】いまの例では、「ぱそこん」の文字種は全
角カタカナであることが特定される。 [S119]情報処理装置10のCPU10aは、コー
ド変換表を参照して、変換元の文字種を特定する。
【0100】いまの例では、図5を参照して、正規化文
字列の文字種である「全角ひらがな」に対応する文字種
がエントリの欄から検索され、更に、変換元コード“0
2”の欄に記載されている「全角カタカナ」が正規化前
の文字種として特定される。 [S120]情報処理装置10のCPU10aは、ステ
ップS117において抽出した文字列を、元の文字種へ
変換する。
【0101】いまの例では、「ぱそこん」が「パソコ
ン」に変換される。 [S121]情報処理装置10のCPU10aは、変換
によって得られた文字列を復元文字列に対してコピーす
る。 [S122]情報処理装置10のCPU10aは、正規
化文字列の全ての文字の変換が終了したか否かを判定
し、終了した場合にはもとの処理に復帰し、それ以外の
場合にはステップS110に戻って前述の場合と同様の
処理を繰り返す。
【0102】以上の処理によれば、データベースにデー
タを登録する際に、入力文字列を正規化して得られた正
規化文字列と、正規化文字列からもとの入力文字列を復
元するための復元情報とを対応付けて登録するようにし
たので、入力文字列を格納する場合に比較して必要な記
憶容量を削減することが可能となる。
【0103】また、検索処理とソート処理は正規化情報
を処理対象とし、これらの処理が終了した後に、復元情
報を参照してもとの入力文字列を再生するようにしたの
で、システムに依存することなく同一の検索結果を得る
ことができる。
【0104】なお、以上の実施の形態においては、シフ
トJISコードを例に挙げて説明を行ったが、他のコー
ド系に対しても本発明を適用することが可能である。な
お、UNICODEについては2バイトコード系である
ため、各記号文字を2バイトとする必要があるが、変換
の原理(4種類の変換を使用すること)に相違はない。
【0105】最後に、上記の処理機能は、コンピュータ
によって実現することができる。その場合、情報処理装
置が有すべき機能の処理内容は、コンピュータで読み取
り可能な記録媒体に記録されたプログラムに記述されて
おり、このプログラムをコンピュータで実行することに
より、上記処理がコンピュータで実現される。コンピュ
ータで読み取り可能な記録媒体としては、磁気記録装置
や半導体メモリ等がある。市場へ流通させる場合には、
CD−ROM(Compact Disk Read Only Memory)やフロ
ッピー(登録商標)ディスク等の可搬型記録媒体にプロ
グラムを格納して流通させたり、ネットワークを介して
接続されたコンピュータの記憶装置に格納しておき、ネ
ットワークを通じて他のコンピュータに転送することも
できる。コンピュータで実行する際には、コンピュータ
内のハードディスク装置等にプログラムを格納してお
き、メインメモリにロードして実行する。
【0106】
【発明の効果】以上説明したように本発明では、入力さ
れた文字列を正規化して格納する情報処理装置におい
て、入力された文字列を正規化して正規化文字列を生成
する正規化手段と、正規化手段によって得られた正規化
文字列を、元の文字列に復元するための復元情報を生成
する復元情報生成手段と、復元情報生成手段によって生
成された復元情報と、正規化文字列とを対応付けて記憶
する記憶手段と、記憶手段に記憶されている所定の正規
化文字列が指定された場合には、対応する復元情報を参
照してもとの文字列を復元する復元手段と、を有するよ
うにしたので、入力された文字列を記憶する場合に比較
して、記憶手段の必要な記憶容量を削減することが可能
となる。
【図面の簡単な説明】
【図1】本発明の動作原理を説明する原理図である。
【図2】本発明の実施の形態の構成例を示すブロック図
である。
【図3】図2に示す実施の形態においてデータをデータ
ベースに登録する際に実行される処理の一例を説明する
フローチャートである。
【図4】図3に示す「正規化および復元情報生成処理」
の詳細を説明するフローチャートである。
【図5】正規化と復元処理の際に使用されるコード変換
表の一例を説明する図である。
【図6】図4のステップS22,S25に示す「変換ク
ラス決定処理」の詳細を説明するフローチャートであ
る。
【図7】図4のステップS32に示す「復元情報生成処
理」の詳細を説明するフローチャートである。
【図8】復元情報を構成する変換記号の一例を説明する
図である。
【図9】本実施の形態によって生成される正規化文字列
と復元情報の一例を説明する図である。
【図10】本実施の形態によって生成される正規化文字
列と復元情報の他の一例を説明する図である。
【図11】本実施の形態によって生成される正規化文字
列と復元情報の更に他の一例を説明する図である。
【図12】本実施の形態によって生成される正規化文字
列と復元情報の更に他の一例を説明する図である。
【図13】図2に示す実施の形態において実行される検
索処理の一例を説明するフローチャートである。
【図14】図13に示す「復元処理」の詳細を説明する
フローチャートである。
【符号の説明】
1 正規化手段 2 復元情報生成手段 3 記憶手段 4 復元手段 10 情報処理装置 10a CPU 10b ROM 10c RAM 10d HDD 10e,10F I/F 11 データベース 12 ネットワーク 13 クライアント 14 表示装置
フロントページの続き (72)発明者 板倉 正佳 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 小川 明彦 神奈川県小田原市栄町一丁目6番地4 株 式会社富士通ソフトウェア生産技術研究所 内 (72)発明者 藤部 浩寿 兵庫県神戸市中央区加納町2丁目1番15号 株式会社富士通神戸エンジニアリング内 Fターム(参考) 5B009 TA11 5B075 ND03 NR03 NR15 PP22 PQ02 5B082 AA11 CA01 GA02 GC04

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された文字列を正規化して格納する
    情報処理装置において、 前記入力された文字列を正規化して正規化文字列を生成
    する正規化手段と、 前記正規化手段によって得られた正規化文字列を、元の
    文字列に復元するための復元情報を生成する復元情報生
    成手段と、 前記復元情報生成手段によって生成された復元情報と、
    前記正規化文字列とを対応付けて記憶する記憶手段と、 前記記憶手段に記憶されている所定の正規化文字列が指
    定された場合には、対応する復元情報を参照してもとの
    文字列を復元する復元手段と、 を有することを特徴とする情報処理装置。
  2. 【請求項2】 前記正規化手段は、入力された文字列に
    含まれている連続する同一文字種の文字群を既定の文字
    種の文字群に変換する処理を行うことを特徴とする請求
    項1記載の情報処理装置。
  3. 【請求項3】 前記復元情報生成手段は、正規化の前後
    における文字種を特定するための情報と、連続する同一
    文字種の文字群の文字数を特定するための情報とを復元
    情報として生成することを特徴とする請求項2記載の情
    報処理装置。
  4. 【請求項4】 前記復元情報生成手段は、正規化の前後
    における文字種が不変の場合であって、連続する同一文
    字種の文字群のバイト数が1バイトである場合には、そ
    の旨を示す1バイトの復元情報を生成することを特徴と
    する請求項3記載の情報処理装置。
  5. 【請求項5】 前記復元情報生成手段は、正規化の前後
    における文字種が不変の場合であって、連続する同一文
    字種の文字群のバイト数が2バイト以上である場合に
    は、その旨を示す1バイトの情報と、文字群の文字数を
    特定する1バイトの情報を生成することを特徴とする請
    求項3記載の情報処理装置。
  6. 【請求項6】 前記復元情報生成手段は、前記連続する
    同一文字種の文字群が半角英文字である場合には、その
    旨を示す所定の復元情報を生成し、 前記復元手段は、前記所定の復元情報に遭遇した場合に
    は、前記連続する半角英文字のうち先頭の文字を半角英
    大文字に変換する、 ことを特徴とする請求項3記載の情報処理装置。
  7. 【請求項7】 前記復元情報を表示装置に対して表示出
    力する表示出力手段を更に有することを特徴とする請求
    項1記載の情報処理装置。
  8. 【請求項8】 入力された文字列を正規化して格納する
    処理をコンピュータに実行させるプログラムを記録した
    コンピュータ読み取り可能な記録媒体において、 コンピュータを、 前記入力された文字列を正規化して正規化文字列を生成
    する正規化手段、 前記正規化手段によって得られた正規化文字列を、元の
    文字列に復元するための復元情報を生成する復元情報生
    成手段、 前記復元情報生成手段によって生成された復元情報と、
    前記正規化文字列とを対応付けて記憶する記憶手段、 前記記憶手段に記憶されている所定の正規化文字列が指
    定された場合には、対応する復元情報を参照してもとの
    文字列を復元する復元手段、 として機能させるプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
JP30690499A 1999-10-28 1999-10-28 情報処理装置 Expired - Fee Related JP3794882B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP30690499A JP3794882B2 (ja) 1999-10-28 1999-10-28 情報処理装置
US09/603,577 US6469643B1 (en) 1999-10-28 2000-06-26 Information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30690499A JP3794882B2 (ja) 1999-10-28 1999-10-28 情報処理装置

Publications (2)

Publication Number Publication Date
JP2001125916A true JP2001125916A (ja) 2001-05-11
JP3794882B2 JP3794882B2 (ja) 2006-07-12

Family

ID=17962676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30690499A Expired - Fee Related JP3794882B2 (ja) 1999-10-28 1999-10-28 情報処理装置

Country Status (2)

Country Link
US (1) US6469643B1 (ja)
JP (1) JP3794882B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009059159A (ja) * 2007-08-31 2009-03-19 Ricoh Co Ltd 情報処理装置と情報処理方法とプログラム
JP2009104520A (ja) * 2007-10-25 2009-05-14 Info Sonar Kk 商標検索システム及び商標検索サーバ
JP2010522906A (ja) * 2006-10-17 2010-07-08 サムスン エスディーエス カンパニー リミテッド メインフレームシステムのデータベースを開放型システムに適したデータベースに変換するマイグレイション装置及びその方法
US7984077B2 (en) 2007-03-29 2011-07-19 Nec Corporation Data management system, data registration device, data retrieval device, data management method and program
US8502440B2 (en) 2008-04-22 2013-08-06 Zeon Corporation Organic electroluminescent light source
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590837B2 (en) * 2003-08-23 2009-09-15 Softex Incorporated Electronic device security and tracking system and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567157A (ja) * 1991-09-06 1993-03-19 Nec Corp 文字列検索方式
JPH09218867A (ja) * 1996-02-09 1997-08-19 Fujitsu Ltd データ圧縮装置及びデータ復元装置
JPH11110384A (ja) * 1997-07-01 1999-04-23 Hitachi Ltd 構造化文書検索表示方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2535629B2 (ja) 1989-11-08 1996-09-18 富士通株式会社 検索システムの入力文字列正規化方式
US5793381A (en) * 1995-09-13 1998-08-11 Apple Computer, Inc. Unicode converter
US5787452A (en) * 1996-05-21 1998-07-28 Sybase, Inc. Client/server database system with methods for multi-threaded data processing in a heterogeneous language environment
US6094634A (en) * 1997-03-26 2000-07-25 Fujitsu Limited Data compressing apparatus, data decompressing apparatus, data compressing method, data decompressing method, and program recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567157A (ja) * 1991-09-06 1993-03-19 Nec Corp 文字列検索方式
JPH09218867A (ja) * 1996-02-09 1997-08-19 Fujitsu Ltd データ圧縮装置及びデータ復元装置
JPH11110384A (ja) * 1997-07-01 1999-04-23 Hitachi Ltd 構造化文書検索表示方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
福島 俊一: "テキストデータベース検索", NEC技報, vol. 第47巻 第8号, CSNH199700116008, 16 September 1994 (1994-09-16), JP, pages 42 - 47, ISSN: 0000728964 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010522906A (ja) * 2006-10-17 2010-07-08 サムスン エスディーエス カンパニー リミテッド メインフレームシステムのデータベースを開放型システムに適したデータベースに変換するマイグレイション装置及びその方法
US7984077B2 (en) 2007-03-29 2011-07-19 Nec Corporation Data management system, data registration device, data retrieval device, data management method and program
JP2009059159A (ja) * 2007-08-31 2009-03-19 Ricoh Co Ltd 情報処理装置と情報処理方法とプログラム
JP2009104520A (ja) * 2007-10-25 2009-05-14 Info Sonar Kk 商標検索システム及び商標検索サーバ
US8502440B2 (en) 2008-04-22 2013-08-06 Zeon Corporation Organic electroluminescent light source
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法

Also Published As

Publication number Publication date
US6469643B1 (en) 2002-10-22
JP3794882B2 (ja) 2006-07-12

Similar Documents

Publication Publication Date Title
US5640587A (en) Object-oriented rule-based text transliteration system
US5500931A (en) System for applying font style changes to multi-script text
EP0672283B1 (en) Language-sensitive collation system
EP0664909B1 (en) Text input font system
US8190613B2 (en) System, method and program for creating index for database
JP4286299B2 (ja) 日本語仮想辞書
CA2145668A1 (en) Text input transliteration system
JPH0683571A (ja) 多バイトデータ変換方法及びシステム
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
US10382056B2 (en) Fast evaluation of predicates against compressed data
KR20130038959A (ko) 문자 변환 처리 장치, 기록 매체 및 방법
JP2001125916A (ja) 情報処理装置
US6738763B1 (en) Information retrieval system having consistent search results across different operating systems and data base management systems
JP6805720B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP4451908B2 (ja) ユニコード・コンバータ
JP6787755B2 (ja) 文書検索装置
US7130470B1 (en) System and method of context-based sorting of character strings for use in data base applications
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
JP2000148754A (ja) マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
JP2002007104A (ja) 文字データ圧縮表示装置
JP2010146273A (ja) 文書検索装置およびプログラム
US11875141B2 (en) System and method for training a neural machine translation model
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
JP2005157718A (ja) データ管理システム、データ管理システム用プログラム、及びデータ管理システム用プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060411

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090421

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100421

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees