JP3794882B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP3794882B2
JP3794882B2 JP30690499A JP30690499A JP3794882B2 JP 3794882 B2 JP3794882 B2 JP 3794882B2 JP 30690499 A JP30690499 A JP 30690499A JP 30690499 A JP30690499 A JP 30690499A JP 3794882 B2 JP3794882 B2 JP 3794882B2
Authority
JP
Japan
Prior art keywords
character
character string
information
restoration
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30690499A
Other languages
English (en)
Other versions
JP2001125916A (ja
Inventor
啓之 鈴木
政昭 三谷
正佳 板倉
明彦 小川
浩寿 藤部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP30690499A priority Critical patent/JP3794882B2/ja
Priority to US09/603,577 priority patent/US6469643B1/en
Publication of JP2001125916A publication Critical patent/JP2001125916A/ja
Application granted granted Critical
Publication of JP3794882B2 publication Critical patent/JP3794882B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は情報処理装置に関し、特に、入力された文字列を正規化して格納する情報処理装置に関する。
【0002】
【従来の技術】
例えば、データベース等においては、検索の結果得られたデータを所定の規則に従って並べ換えて出力するが、そのような規則はOS(Operating System)やDBMS(Data Base Management System)によって異なるため、同一のデータベースを対象として検索を実行した場合においても、システムによって検索結果の表示が異なる場合があった。
【0003】
そこで、このようなシステムによる影響を受けないように、もとのデータを正規化し、この正規化されたデータともとのデータとを対応付けてデータベースに格納する。そして、正規化されたデータを対象として検索処理と並べ換え処理を実行し、得られた結果をもとのデータに変換して出力する方法を本発明者が先に提案している。
【0004】
【発明が解決しようとする課題】
しかし、このような方法では、もとのデータのみならず、正規化データもデータベースに格納する必要があることから、データベースの必要な容量が増大するという問題点があった。
【0005】
本発明は、以上のような点に鑑みてなされたものであり、正規化されたデータを格納するデータベースの必要な記憶容量を削減することが可能な情報処理装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明では上記課題を解決するために、図1に示す、入力された文字列を正規化して格納する情報処理装置において、前記入力された文字列を正規化して正規化文字列を生成する正規化手段1と、前記正規化手段1によって得られた正規化文字列を、元の文字列に復元するための復元情報を生成する復元情報生成手段2と、前記復元情報生成手段2によって生成された復元情報と、前記正規化文字列とを対応付けて記憶する記憶手段3と、前記記憶手段3に記憶されている所定の正規化文字列が指定された場合には、対応する復元情報を参照してもとの文字列を復元する復元手段4と、を有することを特徴とする情報処理装置が提供される。
【0007】
ここで、正規化手段1は、入力された文字列を正規化して正規化文字列を生成する。復元情報生成手段2は、正規化手段1によって得られた正規化文字列を、元の文字列に復元するための復元情報を生成する。記憶手段3は、復元情報生成手段2によって生成された復元情報と、正規化文字列とを対応付けて記憶する。復元手段4は、記憶手段3に記憶されている所定の正規化文字列が指定された場合には、対応する復元情報を参照してもとの文字列を復元する。
【0008】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本発明の動作原理を説明するための原理図である。この図において、正規化手段1は、入力された文字列(以下、入力文字列と称す)を所定の規則に従って正規化し、正規化文字列を生成する。
【0009】
復元情報生成手段2は、正規化手段1によって得られた正規化文字列を、元の文字列に復元するための復元情報を生成する。なお、復元情報にバイナリコードが含まれると、HTML(Hyper Text Markup Language)や電子メールなどで参照する時にエンコードが必要になり、可搬性がよくないので、復元情報は表示可能文字とすることが望ましい。
【0010】
記憶手段3は、復元情報生成手段2によって生成された復元情報と、正規化文字列とを対応付けて記憶する。
復元手段4は、記憶手段3に記憶されている所定の正規化文字列が指定された場合には、対応する復元情報を参照してもとの文字列を復元する。
【0011】
次に、以上の原理図の動作について説明する。
いま、文字列として「サイクリング同好会」が与えられたとすると、正規化手段1は、入力された文字列を規則に基づいて正規化する。なお、正規化の規則の一例を以下に示す。
(1)全角カタカナおよび半角カタカナを全角ひらがなに変換する。
(2)全角英大文字、全角英小文字、および、半角英大文字を全て半角英小文字に変換する。
(3)全角記号を半角記号に変換する。
【0012】
従って、正規化手段1は、規則(1)に従って、「サイクリング」を「さいくりんぐ」に変換する。「同好会」には適用する規則がないのでそのままとされる。従って、正規化手段1からは、正規化文字列「さいくりんぐ同好会」が出力され、復元情報生成手段2に供給される。
【0013】
復元情報生成手段2は、正規化手段1から供給された正規化文字列「さいくりんぐ同好会」と、入力文字列「サイクリング同好会」とから復元情報を生成する。ここで、復元情報としては、正規化により文字種が変化しない場合と、変化する場合に分けてそれぞれ該当する復元情報を生成する。
【0014】
先ず、文字種が変化する場合には、正規化の前後の文字種を特定するための3ビットの情報を上位ビットとし、変換の対象となる文字の連続する文字数を示す5ビットの情報を下位ビットとして連結した1バイトの復元情報を生成する。
【0015】
また、文字種が変化しない場合であって、連続する文字のバイト数が1バイトである場合には半角文字「?」を復元情報とする。
連続する文字のバイト数が2バイト以上である場合には、半角文字「@」に、連続する文字のバイト数nに「20h」(hは16進数を示す)を加算して得られた値に対応するアスキー文字を付加した2文字を復元情報とする。
【0016】
更に、特別な場合として、英文の文章の場合には、センテンスの最初の文字が大文字で表現されるので、このような情報を保存するために、半角文字「_」に対して連続する文字のバイト数nに「20h」を加算して得られた値に対応するアスキー文字を付加した2文字を復元情報とする。
【0017】
「サイクリング同好会」の「サイクリング」については、文字種が全角カタカナから全角ひらがなに正規化されているので、正規化の前後の文字を特定するための3ビットの情報が“010”であるとすると、これを上位3ビットとし、連続する文字の文字数“6”に対応する“00110”を下位ビットとして付加した“01000110”を生成する。これは、16進法では“46h”となり、これに対応するアスキー文字は「F」となる。
【0018】
また、「同好会」に関しては変換が施されていないので、復元情報としては、無変換を示す「@」と、連続する文字のバイト数“6”に対して“20h”を加算して得られた“26h”に対応するアスキー文字「&」が付加された「@&」が生成される。
【0019】
従って、正規化文字列「さいくりんぐ同好会」の復元情報としては、「F@&」が得られるので、記憶手段3は得られた復元情報「F@&」と、正規化文字列「さいくりんぐ同好会」とを対応付けて記憶する。
【0020】
このような状態において、記憶手段3に記憶されている正規化文字列「さいくりんぐ同好会」が指定された場合(例えば、検索処理において指定された場合)には、復元手段4は、正規化文字列「さいくりんぐ同好会」と復元情報である「F@&」を記憶手段3から取得する。
【0021】
そして、以上の場合とは逆の処理を実行することにより、入力文字列である「サイクリング同好会」を得る。
即ち、復元手段4は、先ず、復元情報の最初の情報である文字「F」を抽出する。この文字「F」は、前述のように、上位3ビット(“010”)が変換の前後の文字種を特定する情報であり、また、下位5ビット(“00110”)が連続する文字群の文字数を示す情報であるので、復元手段4は、これらを参照して「さいくりんぐ」を「サイクリング」に変換し、復元した文字列である復元文字列に複写する。
【0022】
次に、復元手段4は、文字「@」を抽出する。文字「@」は連続する文字のバイト数を示す情報とともに格納されていることが分かっているので、復元手段4はその次の文字「&」を取得する。この文字のアスキーコードは“26h”であるので、その値から“20h”を減算して得られた“6”バイト分の情報「同好会」を正規化情報から抽出し、復元文字列に追加的に格納する。
【0023】
その結果、復元文字列として「サイクリング同好会」を得ることになる。
以上に説明したように、本発明によれば、入力文字列から正規化文字列と復元情報とを生成して正規化文字列と復元情報のみを格納し、もとの入力文字列が必要になった場合には正規化文字列と復元情報とから生成するようにしたので、入力文字列に比べてデータ長が短い復元情報を入力文字列の代わりに格納することが可能となり、必要な記憶容量を削減することが可能となる。
【0024】
具体的には、前述の例では、入力文字列「サイクリング同好会」は合計18バイトの情報であるが、復元情報「F@&」は合計3バイトの情報であり、15バイトの情報を削減することが可能となる。
【0025】
図2は、本発明の実施の形態の構成例を示す図である。この図において、本発明の情報処理装置10は、ネットワーク12を介して接続されているクライアント13(または、図示せぬ他のクライアント)から入力された文字列の登録の要求があった場合には、供給された入力文字列を正規化して正規化文字列を生成するとともに、正規化文字列を元の情報に復元するための復元情報を生成し、これらを相互に関連付けて登録する。そして、クライアント13(または、図示せぬ他のクライアント)から情報の検索の要求があった場合には、該当する正規化文字列を検索し、得られた正規化文字列を復元情報を参照して復元し、要求を行ったクライアント13に送信する。
【0026】
データベース11は、正規化文字列と復元情報とを対応付けて記憶する。
ネットワーク12は、例えば、インターネットなどによって構成されている。クライアント13は、例えば、パーソナルコンピュータなどによって構成されており、ネットワーク12を介して情報処理装置10に対して所定の文字列の登録や検索を要請する。
【0027】
表示装置14は、例えば、CRT(Cathode Ray Tube)モニタ等によって構成されており、クライアント13から供給された情報を表示出力する。
ここで、情報処理装置10は、CPU(Central Processing Unit)10a、ROM(Read Only Memory)10b、RAM(Random Access Memory)10c、HDD(Hard Disk Drive)10d、I/F(Interface)10e,10f、および、バス10gによって構成されている。
【0028】
CPU10aは、装置の各部を制御するとともに、HDD10dに格納されているアプリケーションプログラム等に応じて各種演算処理を実行する。
ROM10bは、CPU10aが実行する基本的なプログラムやデータ等を格納している。
【0029】
RAM10cは、CPU10aが演算の対象とするプログラムや、演算途中のデータを一時的に格納する。
HDD10dは、CPU10aが実行する各種アプリケーションプログラムやデータ等を格納している。
【0030】
I/F10eは、ネットワーク12との間でデータの授受が可能となるように、ネットワーク12上のデータと、情報処理装置10の内部のデータの表現形式等を適宜変換する。
【0031】
I/F10fは、データベース11との間でデータを授受する際にデータの表現形式等の変換処理等を実行する。
バス10gは、CPU10a、ROM10b、RAM10c、HDD10d、および、I/F10e,10fを相互に接続し、これらの間でデータの授受を可能とする。
【0032】
なお、以上の実施の形態では、クライアント13がネットワーク12を介して接続され、情報を授受する形態としたが、例えば、情報処理装置10に対してキーボード等の入力デバイスが接続されて直接的に情報を授受するようにしてもよい。
【0033】
次に、以上の実施の形態の動作について説明する。
先ず、クライアント13において入力された情報を、データベース11に登録する際の処理について説明する。図3は、そのような処理を実行するためのフローチャートである。この処理が実行されると、以下の処理が実行される。
[S1]情報処理装置10のCPU10aは、クライアント13において入力され、ネットワーク12を介して伝送されてきた入力文字列を取得する。
【0034】
例えば、クライアント13において「SSNニュース」が入力されたとすると、情報処理装置10はこの文字列「SSNニュース」を入力文字列として取得する。
[S2]情報処理装置10のCPU10aは、取得した文字列を正規化して正規化文字列を生成するとともに、正規化文字列を復元するための復元情報を生成する。なお、この処理の詳細は、図4を参照して後述する。
【0035】
例えば、いまの例では、「SSNニュース」が正規化され、「ssnにゅーす」が生成され、また、復元情報としては「CD」が生成される。
[S3]情報処理装置10のCPU10aは、正規化文字列と復元情報とを、データベース11に対応付けて格納する。
【0036】
いまの例では、「ssnにゅーす」と「CD」とがデータベース11に対応付けて格納されることになる。
次に、図4を参照して、図3に示す「正規化および復元情報生成処理」の詳細について説明する。なお、このフローチャートの詳細について説明する前に、図5を参照して本実施の形態における正規化処理の詳細について説明する。
【0037】
図5は、正規化処理における規則の概要を示すコード変換表の一例である。この図において、「エントリ」は、文字を正規化する際に検索の対象となる部分であり、そのシステムにおいて使用可能な文字種が一覧形式で示されている。なお、エントリの欄の下に示されている数字は、各エントリのシフトJISコードを示している。
【0038】
エントリの欄の右隣の「例」は、各エントリの一例を示している。例えば、半角英大文字の例としては、「A」が示されている。
その右隣の「変換先」は、各エントリが正規化先を有する場合にはその正規化先の文字種と、変換元コード(後述する)とが示されている。例えば、第2番目の項目である「半角英大文字」の場合は、「半角英小文字」に変換されることが示されており、また、そのときの変換元コードは“01”であることが示されている。なお、変換先が存在しない場合には“0”が格納されている。
【0039】
その右隣の変換元コード“01”〜“03”は、変換元を特定するための情報である。例えば、第4番目の項目である「半角英小文字」の場合、「半角英大文字」、「全角英大文字」、および、「全角英小文字」の3つの文字種が変換元とされるので、これらの何れから変換されたかを特定するための情報が必要となり、それが“01”〜“03”で与えられる。具体的には、半角英小文字の「a」が正規化文字列に含まれていた場合、この文字は半角英大文字の「A」、全角英大文字の「A」、または、全角英小文字「a」の何れから変換されたか分からないので、その復元先を示すための情報が変換元コードであり、例えば、“02”の場合には全角英大文字の「A」から変換されたことが分かる。なお、“0”は該当する変換元が存在しないことを示す。
【0040】
以上に示した例は、簡略化した例であり、文字種毎に変換先等の対応関係を示したが、1文字単位で変換先等の対応関係を示すテーブルを用いることもできる。
【0041】
次に、図4に示すフローチャートの動作について説明する。
このフローチャートが開始されると、以下の処理が実行される。
[S20]情報処理装置10のCPU10aは、処理回数をカウントする変数iを“1”に初期設定する。
[S21]情報処理装置10のCPU10aは、変数C0に対して入力文字列の第i番目の文字を代入する。
【0042】
例えば、先の「SSNニュース」の場合、第1回目の処理では、i=1であるので第1番目の文字「S」が変数C0に対して入力される。
[S22]情報処理装置10のCPU10aは、変数C0の変換クラスの決定処理を実行する。ここで、変換クラスは以下の4つに分類される。
(1)半角無変換 (例:a→a)
(2)全角無変換 (例:あ→あ)
(3)半角変換 (例:A→a)
(4)全角変換 (例:A→a)
例えば、先の「S」の場合、(4)に該当するので、変換クラスは「全角変換」となる。
【0043】
なお、この処理の詳細については、図6を参照して後述する。
[S23]情報処理装置10のCPU10aは、変数C1に対して入力文字列の第(i+1)番目の文字を代入する。
【0044】
例えば、先の「SSNニュース」の場合、第1回目の処理では、(i+1)=2であるので第2番目の文字「S」が変数C1に対して入力される。
[S24]情報処理装置10のCPU10aは、変数C1がNULL(空)か否かを判定し、NULLである場合にはステップS32に進み、それ以外の場合にはステップS25に進む。
【0045】
即ち、変数C1がNULLである場合には、変数C0には入力文字列の最後の文字が格納されているので、その場合にはステップS32の復元情報生成処理に進む。
【0046】
先の例では、C1には「S」が代入されているので、ステップS25に進むことになる。
[S25]情報処理装置10のCPU10aは、変数C1の変換クラスの決定処理を実行する。なお、この処理は前述のステップS22の場合と同様であり、その詳細については図6を参照して後述する。
【0047】
先の例では、C1には「S」が代入されており、変換クラスは前述の場合と同様に「全角変換」となる。
[S26]情報処理装置10のCPU10aは、変数C0,C1に格納されている文字のそれぞれの変換クラスと、変換元コードが異なるか否かを判定し、これらが異なる場合にはステップS27に進み、それ以外の場合にはステップS29に進む。
【0048】
即ち、変換クラスと変換元コードとが異なる場合には、変数C0,C1に格納されている文字の文字種は異なっているので、変数C0に格納されている文字が連続する同一文字種の文字群の最後の文字であるとして、ステップS27に進む。なお、以下では、連続する同一文字種の文字群を「チャンク」と称する。例えば、先の例「SSNニュース」では、「SSN」と「ニュース」がそれぞれチャンクに該当する。
[S27]情報処理装置10のCPU10aは、変数C1に代入されている文字の変換クラスが「半角変換」であって、文字種が半角英字であるか否かを判定し、該当する場合にはステップS28に進み、それ以外の場合にはステップS32に進む。
【0049】
即ち、変数C1に代入されている文字の変換クラスが半角変換であって、文字種が半角英字である場合は、その文字は半角英大文字であるので、その場合には英文の頭文字であるとして、ステップS28に進む。
[S28]情報処理装置10のCPU10aは、次のチャンクの変換を、復元の際に、チャンクの頭文字のみを大文字に変換する「英文変換」に決定する。
【0050】
即ち、英文の場合は、センテンスの最初が大文字で表されるので、正規化の際には全て半角英小文字に変換しておき、復元の際にセンテンスの最初の文字だけ半角英大文字に変換するようにすれば、情報を喪失することなく、効率良く英文を処理することができる。
【0051】
なお、変数C1に対応する文字の次の文字が半角英小文字であるか否かを判定した後に、次チャンクを英文変換に決定するようにすれば、更に確実に英文であるか否かを判定することが可能となる。
[S29]情報処理装置10のCPU10aは、処理対象となっているチャンクにおいて、変数C0に格納されている文字までの連続文字数(または、バイト数)を計算する。
【0052】
例えば、「SSNニュース」において、いま、処理対象のチャンクが「ニュース」であるとし、変数C0に格納されている文字が「ー」であるとすると、連続文字数は“3”となる。
[S30]情報処理装置10のCPU10aは、ステップS29において算出した連続文字数または連続バイト数が所定の最大値を上回っているか否かを判定し、上回っている場合にはステップS32に進み、それ以外の場合にはステップS31に進む。
【0053】
なお、この処理は、1つの変換記号で表現可能な文字数に限りがあるため、その限度を超過しないためにおこなう。例えば、連続するバイト数に関しては、後述するようにそのバイト数に対応するアスキー文字で表現されるが、アスキー文字の“0h”〜”20h”の範囲と“7Fh”以降は制御文字となっており画面上に表示されないので、この領域との重複を避けるため、後述するように連続するバイト数に対して“20h”を加算した値に対応するアスキー文字を用いるとともに、連続するバイト数の最大値を“94”以下に制限している。また、連続文字の場合には、後述する理由により“30”以下に制限される。従って、ステップS30の処理では、連続バイト数が“95”バイト以上の場合か、連続文字数が“31”文字以上の場合にステップS32に進む。
[S31]情報処理装置10のCPU10aは、変数iの値を“1”だけインクリメントした後、ステップS21に戻って前述の場合と同様の処理を繰り返す。
[S32]情報処理装置10のCPU10aは、正規化文字列を復元する際に使用する復元情報を生成する処理を実行する。
【0054】
なお、この処理の詳細は、図7を参照して後述する。
[S33]情報処理装置10のCPU10aは、変数C1がNULL(空)か否かを判定し、NULLである場合にはもとの処理に復帰し、それ以外の場合にはステップS21に戻って前述の場合と同様の処理を繰り返す。
【0055】
次に、図6を参照して、図4に示す、ステップS22およびステップS25の処理の詳細について説明する。このフローチャートが開始されると、以下の処理が実行される。
[S50]情報処理装置10のCPU10aは、変数C0またはC1に格納されている文字を取得する。
[S51]情報処理装置10のCPU10aは、図5に示すコード変換表のエントリ欄に該当する文字種が存在するか否かを判定し、存在する場合にはステップS52に進み、それ以外の場合にはステップS55に進む。
【0056】
即ち、コード変換表のエントリ欄に該当文字種が存在しない場合には、正規化の対象とはならないので、その場合にはステップS55に進む。
[S52]情報処理装置10のCPU10aは、コード変換表の「変換先」の欄に該当する文字種が存在している(“0”でない)か否かを判定し、存在している場合にはステップS53に進み、それ以外の場合にはステップS55に進む。
【0057】
即ち、変換先欄が“0”である場合には正規化の必要がない文字であるので、その場合にはステップS55に進む。
[S53]情報処理装置10のCPU10aは、図5に示すコード変換表を参照して、該当する変換元コードを取得する。
【0058】
例えば、処理対象となっている文字が全角英大文字「A」である場合には、変換元コードとして“02”が取得される。
[S54]情報処理装置10のCPU10aは、変換クラスを全角または半角の変換に決定する。
【0059】
例えば、処理対象となっている文字が前述の全角英大文字「A」の場合には、変換クラスは全角変換に決定され、半角英大文字「F」である場合には、変換クラスは半角変換に決定される。
[S55]情報処理装置10のCPU10aは、変換クラスを全角または半角の無変換に決定する。
【0060】
例えば、処理対象となっている文字が前述の全角ひらがな「あ」の場合には、変換クラスは全角無変換に決定され、半角英子文字「f」である場合には、変換クラスは半角無変換に決定される。
[S56]情報処理装置10のCPU10aは、変数C0に係る処理、即ち、ステップS22から呼び出された場合にはステップS57に進み、それ以外の場合にはもとの処理に復帰する。
[S57]情報処理装置10のCPU10aは、図5に示すコード変換表を参照して、処理対象となっている文字を正規化する。
【0061】
例えば、処理対象の文字が全角カタカナの「ア」であるとすると、これは、コード変換表から全角ひらがなに正規化されるので、「ア」は「あ」に正規化される。
[S58]情報処理装置10のCPU10aは、正規化文字列に対して、ステップS57で生成された正規化文字を追加格納する。
【0062】
例えば、いま、正規化文字列に「ふろんてぃ」が格納されているとし、ステップS57の正規化によって得られた文字が「あ」であるとすると、ステップS58の処理において、正規化文字列は「ふろんてぃあ」となる。
【0063】
次に、図7を参照して、図4のステップS32に示す「復元情報生成処理」の詳細について説明する。このフローチャートは、チャンク単位で復元情報を生成する処理である。以下では、図8に示す復元情報を構成する記号文字について説明した後、図7に示すフローチャートの動作について説明する。
【0064】
図8は、復元情報を構成する変換記号の一例を説明する図である。図の第1番目に掲げられている「@○」は、半角文字の「@」と、所定のアスキー文字(この例では○)とから構成されており、アスキー文字のアスキーコードから“20h”を減算して得られた値nに対応するバイト数の文字を無変換で復元することを示す。例えば、入力文字列が全角ひらがなの「あした」である場合には、連続する文字のバイト数は“6”バイトであるので、“20h”に対して“6”を加算して得られた値“26h”に対応するアスキーコード「&」が「@」に付加されて復元情報「@&」が生成される。なお、バイト数に“20h”を加算するのは、アスキー文字では“20h”以下の文字は制御文字とされており、画面に表示されない場合もあるので、表示可能な文字に変換するためである。
【0065】
次の「_○」は、半角文字の「_」と、所定のアスキー文字(この例では○)とから構成されており、先頭の英小文字のみを大文字に変換し、アスキー文字のアスキーコードから“20h”を減算して得られた値nから1を除算した(n−1)に対応するバイト数の文字を無変換で復元することを示す。例えば、入力文字列が「that remains to be proved.」である場合には、文字列のバイト数“26”を“20h”に加算して得られた値“3Ah”に対応するアスキー文字「:」が「_」に付加されて復元情報が生成される。
【0066】
続く、「?」は、半角文字「?」のみから構成された復元情報であり、1バイトを無変換で復元することを示す。例えば、入力文字列が半角英小文字の「a」である場合には、復元情報としては「?」が生成されることになる。
【0067】
最後の「◎」は、所定のアスキー文字であり、そのアスキーコードの上位3ビットは変換元コードを示し、下位5ビットは文字数を示す。例えば、入力文字列が全角カタカナの「アスリート」である場合には、正規化により全角ひらがなの「あすりーと」に変換されるので、図5に示すコード変換表よりその変換元コードは“02”であり、また、連続文字数は“5”であるので、変換元コードに対応する“010”と、連続文字数に対応する“00101”を連結した“01000101”(=45h)に対応するアスキー文字「E」が復元情報として生成される。なお、連続文字数は5ビットで表現されるので、理論的には“0”〜“31”の値を取りうるが、“0”はあり得ないので除外され、また、“31”は次の理由から除外される。即ち、「_」と「?」のアスキーコードは、それぞれ“5Fh”と“3Fh”であるので、取り得る値を“30”までに制限することによりこれらが重複することを防止できる。なお、図4に示すステップS30の処理がこのような制限を課すための処理である。
【0068】
次に、図7に示すフローチャートの動作について説明する。このフローチャートが開始されると、以下の処理が実行される。
[S70]情報処理装置10のCPU10aは、処理対象となっているチャンクの変換クラスが半角無変換である場合にはステップS75に進み、それ以外の場合にはステップS71に進む。
[S71]情報処理装置10のCPU10aは、処理対象となっているチャンクの変換クラスが全角無変換である場合にはステップS72に進み、それ以外の場合にはステップS73に進む。
[S72]情報処理装置10のCPU10aは、復元情報に変換記号「@」と文字バイト数を追加する。
【0069】
例えば、処理対象がチャンク「ふろんてぃあ」である場合、復元情報には「@」が追加され、また、文字のバイト数“12”を“20h”に加算して得られた値“2Ch”に対応する「,」が更に追加される。
[S73]情報処理装置10のCPU10aは、連続文字数、即ち、チャンクを構成する文字の文字数を計算する。
[S74]情報処理装置10のCPU10aは、変換元コードを上位3ビットとし、ステップS73において計算された連続文字数を下位5ビットとした値に対応するアスキー文字を復元情報に付加する。
【0070】
例えば、チャンク「フロンティア」を「ふろんてぃあ」に正規化した場合には、変換元コードは“02”であるので“010”であり、文字数は“6”であるので“00110”であり、これらを連結した“01000110”は16進法で“46h”であるので、これに対応するアスキー文字「F」が復元情報に追加される。
[S75]情報処理装置10のCPU10aは、連続バイト数が“1”を上回っているか否かを判定し、上回っている場合にはステップS76に進み、それ以外の場合にはステップS79に進む。
[S76]情報処理装置10のCPU10aは、英文変換であるか否かを判定する。即ち、図4に示すステップS28において、英文変換に決定されている場合にはステップS77に進み、それ以外の場合にはステップS78に進む。
[S77]情報処理装置10のCPU10aは、英文変換であることを示す「_」に対して文字のバイト数に対応するアスキー文字を付加し、復元情報に追加する。
【0071】
例えば、処理対象のチャンクが「It can't be helped.」である場合には、英文変換を示す「_」と、文字のバイト数“19”を“20h”に加算して得られた値“33h”に対応するアスキー文字「3」が復元情報に追加される。
[S78]情報処理装置10のCPU10aは、復元情報に変換記号「@」と、文字のバイト数を示すアスキー文字を追加する。
【0072】
例えば、処理対象のチャンクが「変換装置」である場合には、無変換を示す「@」と、文字のバイト数“8”を“20h”に加算して得られた値“28h”に対応するアスキー文字「(」が復元情報に追加される。
[S79]情報処理装置10のCPU10aは、復元情報に対して1バイト無変化を示すアスキー文字「?」を追加する。
【0073】
例えば、処理対象のチャンクが「a」である場合には、復元情報に対してアスキー文字「?」が追加されることになる。
次に、図9〜図12を参照して、以上の処理の具体的な動作例について説明する。
【0074】
図9は、本実施の形態によって生成される正規化文字列と、復元情報との一例を説明する図である。
この例では、入力文字列は、全角大文字「新型」、半角カタカナ「パソコン」、全角英大文字「FX」、全角数字「2」、全角ひらがな「の」、および、全角カタカナ「ソントク」から構成されている。このような入力文字列に対して、図4に示す処理を施すと、先頭の全角大文字「新型」は無変換とされる。従って、復元情報としては、無変換を示す「@」に対して、連続文字のバイト数“4”に“20h”を加算して得られた値“24h”に対応するアスキー文字「$」が生成される。
【0075】
次の半角カタカナの「パソコン」は全角ひらがなの「ぱそこん」に変換されるので、図5を参照して変換元コードは“01”であり、変換後の文字数は“4”であるので、変換元コードに対応する“001”と、変換後の文字数に対応する“00100”を連結して得られた値に対応するアスキー文字「$」が生成される。
【0076】
続く全角英大文字の「FX」は、半角英小文字の「fx」に変換される。この変換の変換元コードは、“02”であり、連続文字数は“2”であるので、これらから得られる数値“42h”に対応するアスキー文字「B」が復元情報として生成される。
【0077】
続く全角数字の「2」は、半角数字の「2」に変換される。この変換の変換元コードは“03”であり、文字数は“1”であるので、これらから得られる数値“61h”に対応するアスキー文字「a」が復元情報として生成される。
【0078】
続く全角ひらがなの「の」は、無変換とされる。従って、無変換を示す「@」に対して、バイト数“2”に“20h”を加算して得られた値に対応するアスキー文字「"」が付加されて復元情報が生成される。
【0079】
最後に、全角カタカナの「ソントク」は、全角ひらがなの「そんとく」に変換される。この変換の変換元コードは“02”であり、文字数は“4”であるので、これらから得られる数値“44h”に対応するアスキー文字「D」が復元情報として生成される。
【0080】
従って、この例では、入力文字列は“25”バイトであり、復元情報は“8”バイトであるので、従来のように入力文字列を保存する場合に比べて、情報量を68%も削減することが可能となる。
【0081】
次に、図10を参照して他の例について説明する。
この例では、入力文字列は全角英大文字の「DBS」、全角カタカナの「バックアップ」、全角ひらがなの「と」、および、全角カタカナの「リストア」から構成されている。
【0082】
最初の全角英大文字の「DBS」は、半角英小文字の「dbs」に変換されるので、対応する復元情報は「C」となる。
次の全角カタカナの「バックアップ」は、全角ひらがなの「ばっくあっぷ」に変換されるので、対応する復元情報は「F」となる。
【0083】
続く全角ひらがなの「と」は、無変換とされるので、復元情報は「@"」となる。
最後の全角カタカナの「リストア」は、全角ひらがなの「りすとあ」に変換されるので、復元情報は「D」となる。
【0084】
次に、図11を参照して更に他の例について説明する。
この例では、入力文字列は、全角文字の「第二版 誤植の訂正 」と、半角英字の「Fable」、および、全角文字の「の章追加」とから構成されている。
【0085】
最初の全角文字の「第二版 誤植の訂正 」は、無変換とされるので、復元情報は「@6」となる。
続く半角英字の「Fable」は、半角英小文字の「fable」に変換される。なお、この変換は、先頭の文字が半角英大文字であるので英文変換が選択され、復元情報は「_%」となる。
【0086】
最後の全角文字の「の章追加」は、無変換とされるので、復元情報は「@(」となる。
最後に、図12を参照して更に他の例について説明する。
【0087】
この例は、全てが半角英文字の場合であり、入力文字列としては、「Reflecting environmental consciousness, automakers demonstrate environmentally friendly cars.」が入力されている。この例では、英文変換が選択されるので、復元情報としては「_」が生成される。
【0088】
この例では、入力情報は“93”バイトであるが、復元情報は“2”バイトであるので、約98%も情報量を削減することが可能となる。
次に、以上のようにして生成された正規化情報を検索して、検索結果を表示する場合の処理について説明する。
【0089】
図13は、以上のようにして生成され、データベース11に格納されているデータを検索する際の処理の一例を示すフローチャートである。このフローチャートが開始されると、以下の処理が実行されることになる。
[S90]情報処理装置10のCPU10aは、クライアント13から送信されてきたキーワードを入力する。
[S91]情報処理装置10のCPU10aは、キーワードを図5に示すコード変換表を参照して正規化する。
[S92]情報処理装置10のCPU10aは、正規化されたキーワード(以下、正規化キーワードと称す)により、データベース11を検索し、該当する正規化文字列を取得する。
[S93]情報処理装置10のCPU10aは、検索結果として得られた正規化文字列に対してソート処理を施す。
【0090】
なお、このソート処理は、正規化文字列に対して施されるので、情報処理装置10のOS等に拘わらず常に一定の結果が得られる。
[S94]情報処理装置10のCPU10aは、ソート処理が施された正規化文字列のそれぞれに対応する復元情報をデータベース11から取得する。
[S95]情報処理装置10のCPU10aは、正規化情報の復元処理を実行する。
【0091】
なお、この処理の詳細は、図14を参照して後述する。
[S96]情報処理装置10のCPU10aは、全ての正規化文字列の復元処理が終了したか否かを判定し、終了した場合にはステップS97に進み、それ以外の場合にはステップS94に戻って、前述の場合と同様の処理を繰り返す。
[S97]情報処理装置10のCPU10aは、表示処理を実行する。即ち、情報処理装置10は、復元された文字列(以下、復元文字列)をネットワーク12を介してクライアント13に供給し、表示装置14に表示させる。
【0092】
次に、図14を参照して、図13のステップS95に示す復元処理の詳細について説明する。このフローチャートが開始されると、以下の処理が実行される。[S110]情報処理装置10のCPU10aは、復元情報から変換記号を1つ抽出する。
【0093】
例えば、復元情報が「@"?」であり、第1回目の処理である場合には、最初の変換記号である「@"」が抽出される。
[S111]情報処理装置10のCPU10aは、変換記号が「@」または「?」であるか否かを判定し、これらに該当する場合にはステップS112に進み、それ以外の場合にはステップS113に進む。
[S112]情報処理装置10のCPU10aは、正規化文字列から復元文字列に対して該当文字列をコピーする。
【0094】
例えば、処理対象となる正規化文字列が「ぱそこん情報」であり、現在の復元文字列が「パソコン」であるとし、処理対象のチャンクが「情報」であるとすると、正規化文字列の該当する文字列が復元文字列にコピーされて「パソコン情報」となる。
[S113]情報処理装置10のCPU10aは、変換記号が「_」であるか否かを判定し、該当する場合にはステップS114に進み、それ以外の場合にはステップS116に進む。
[S114]情報処理装置10のCPU10aは、正規化文字列の該当するチャンクの先頭文字を大文字に変換して復元文字列にコピーする。
【0095】
例えば、正規化文字列の該当するチャンクが「he is certain to succeed.」である場合には、先頭の「h」が大文字「H」に変換され、復元文字列にコピーされる。
[S115]情報処理装置10のCPU10aは、正規化文字列の次文字(先頭文字の次の文字)から(連続バイト数−1)バイト分の文字を復元文字列に対してコピーする。
【0096】
前述の例では、復元情報は「_9」であるので、「9」=(“39h”)から“20h”を減算して得られた値“25”(=連続バイト数)から“1”を更に減算したバイト分の文字列「e is certain to succeed.」が正規化文字列から復元文字列へコピーされる。その結果、復元文字列は、「He is certain to succeed.」となる。
[S116]情報処理装置10のCPU10aは、変換記号を連続文字数と変換元コードに分離する。
【0097】
即ち、変換記号は、連続文字数を示す下位5ビットと、変換元コードである上位3ビットに分解される。例えば、正規化文字列が「ぱそこん」であり、復元情報が「D」である場合を例に挙げると、ステップS116の処理では、復元情報である「D」=(“44h”)が上位3ビットである“010”と、下位5ビットである“00100”とに分離される。
[S117]情報処理装置10のCPU10aは、正規化文字列から処理対象のチャンクを切り分ける。
【0098】
即ち、CPU10aは、連続文字数を参照して、正規化文字列から処理対象となるチャンクを抽出する。いまの例では、正規化文字列から「ぱそこん」が抽出される。
[S118]情報処理装置10のCPU10aは、ステップS117において抽出したチャンクの文字種を特定する。
【0099】
いまの例では、「ぱそこん」の文字種は全角ひらがなであることが特定される。
[S119]情報処理装置10のCPU10aは、コード変換表を参照して、変換元の文字種を特定する。
【0100】
いまの例では、図5を参照して、正規化文字列の文字種である「全角ひらがな」に対応する文字種がエントリの欄から検索され、更に、変換元コード“02”の欄に記載されている「全角カタカナ」が正規化前の文字種として特定される。[S120]情報処理装置10のCPU10aは、ステップS117において抽出した文字列を、元の文字種へ変換する。
【0101】
いまの例では、「ぱそこん」が「パソコン」に変換される。
[S121]情報処理装置10のCPU10aは、変換によって得られた文字列を復元文字列に対してコピーする。
[S122]情報処理装置10のCPU10aは、正規化文字列の全ての文字の変換が終了したか否かを判定し、終了した場合にはもとの処理に復帰し、それ以外の場合にはステップS110に戻って前述の場合と同様の処理を繰り返す。
【0102】
以上の処理によれば、データベースにデータを登録する際に、入力文字列を正規化して得られた正規化文字列と、正規化文字列からもとの入力文字列を復元するための復元情報とを対応付けて登録するようにしたので、入力文字列を格納する場合に比較して必要な記憶容量を削減することが可能となる。
【0103】
また、検索処理とソート処理は正規化情報を処理対象とし、これらの処理が終了した後に、復元情報を参照してもとの入力文字列を再生するようにしたので、システムに依存することなく同一の検索結果を得ることができる。
【0104】
なお、以上の実施の形態においては、シフトJISコードを例に挙げて説明を行ったが、他のコード系に対しても本発明を適用することが可能である。なお、UNICODEについては2バイトコード系であるため、各記号文字を2バイトとする必要があるが、変換の原理(4種類の変換を使用すること)に相違はない。
【0105】
最後に、上記の処理機能は、コンピュータによって実現することができる。その場合、情報処理装置が有すべき機能の処理内容は、コンピュータで読み取り可能な記録媒体に記録されたプログラムに記述されており、このプログラムをコンピュータで実行することにより、上記処理がコンピュータで実現される。コンピュータで読み取り可能な記録媒体としては、磁気記録装置や半導体メモリ等がある。市場へ流通させる場合には、CD−ROM(Compact Disk Read Only Memory)やフロッピーディスク等の可搬型記録媒体にプログラムを格納して流通させたり、ネットワークを介して接続されたコンピュータの記憶装置に格納しておき、ネットワークを通じて他のコンピュータに転送することもできる。コンピュータで実行する際には、コンピュータ内のハードディスク装置等にプログラムを格納しておき、メインメモリにロードして実行する。
【0106】
【発明の効果】
以上説明したように本発明では、入力された文字列を正規化して格納する情報処理装置において、入力された文字列を正規化して正規化文字列を生成する正規化手段と、正規化手段によって得られた正規化文字列を、元の文字列に復元するための復元情報を生成する復元情報生成手段と、復元情報生成手段によって生成された復元情報と、正規化文字列とを対応付けて記憶する記憶手段と、記憶手段に記憶されている所定の正規化文字列が指定された場合には、対応する復元情報を参照しての文字列を復元する復元手段と、を有するようにしたので、入力された文字列を記憶する場合に比較して、記憶手段の必要な記憶容量を削減することが可能となる。また、検索処理とソート処理は正規化情報を処理対象とし、これらの処理が終了した後に、復元情報を参照して元の入力文字列を再生するようにしたので、システムに依存することなく同一の検索結果を得ることができる。
【図面の簡単な説明】
【図1】本発明の動作原理を説明する原理図である。
【図2】本発明の実施の形態の構成例を示すブロック図である。
【図3】図2に示す実施の形態においてデータをデータベースに登録する際に実行される処理の一例を説明するフローチャートである。
【図4】図3に示す「正規化および復元情報生成処理」の詳細を説明するフローチャートである。
【図5】正規化と復元処理の際に使用されるコード変換表の一例を説明する図である。
【図6】図4のステップS22,S25に示す「変換クラス決定処理」の詳細を説明するフローチャートである。
【図7】図4のステップS32に示す「復元情報生成処理」の詳細を説明するフローチャートである。
【図8】復元情報を構成する変換記号の一例を説明する図である。
【図9】本実施の形態によって生成される正規化文字列と復元情報の一例を説明する図である。
【図10】本実施の形態によって生成される正規化文字列と復元情報の他の一例を説明する図である。
【図11】本実施の形態によって生成される正規化文字列と復元情報の更に他の一例を説明する図である。
【図12】本実施の形態によって生成される正規化文字列と復元情報の更に他の一例を説明する図である。
【図13】図2に示す実施の形態において実行される検索処理の一例を説明するフローチャートである。
【図14】図13に示す「復元処理」の詳細を説明するフローチャートである。
【符号の説明】
1 正規化手段
2 復元情報生成手段
3 記憶手段
4 復元手段
10 情報処理装置
10a CPU
10b ROM
10c RAM
10d HDD
10e,10F I/F
11 データベース
12 ネットワーク
13 クライアント
14 表示装置

Claims (5)

  1. 入力された文字列を正規化して格納する情報処理装置において、
    入力された文字列に含まれている連続する同一文字種の文字群を規定の文字種の文字群に変換して正規化文字列を生成する正規化手段と、
    前記正規化手段によって得られた正規化文字列を元の文字列に復元するための復元情報として、正規化の前後における文字種を特定するための情報と、連続する同一文字種の文字群の文字数を特定するための情報とを生成する復元情報生成手段と、
    前記復元情報生成手段によって生成された復元情報と、前記正規化文字列とを対応付けて記憶する記憶手段と、
    前記正規化文字列に対する処理の結果として、前記記憶手段に記憶されている所定の正規化文字列が特定された場合に、前記特定された正規化文字列に対応する復元情報を参照して元の文字列を復元する復元手段と、
    を有することを特徴とする情報処理装置。
  2. 前記復元情報生成手段は、正規化の前後における文字種が不変の場合であって、連続する同一文字種の文字群のバイト数が1バイトである場合には、その旨を示す1バイトの復元情報を生成することを特徴とする請求項1記載の情報処理装置。
  3. 前記復元情報生成手段は、正規化の前後における文字種が不変の場合であって、連続する同一文字種の文字群のバイト数が2バイト以上である場合には、その旨を示す1バイトの情報と、文字群の文字数を特定する1バイトの情報を生成することを特徴とする請求項1記載の情報処理装置。
  4. 前記復元情報生成手段は、連続する同一文字種の文字群が半角英文字である場合には、その旨を示す所定の復元情報を生成し、
    前記復元手段は、前記所定の復元情報に遭遇した場合には、連続する半角英文字のうち先頭の文字を半角英大文字に変換する、
    ことを特徴とする請求項1記載の情報処理装置。
  5. 入力された文字列を正規化して格納する処理をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体において、
    前記コンピュータを、
    前記入力された文字列に含まれている連続する同一文字種の文字群を規定の文字種の文字群に変換して正規化文字列を生成する正規化手段、
    前記正規化手段によって得られた正規化文字列を元の文字列に復元するための復元情報として、正規化の前後における文字種を特定するための情報と、連続する同一文字種の文字群の文字数を特定するための情報とを生成する復元情報生成手段、
    前記復元情報生成手段によって生成された復元情報と、前記正規化文字列とを対応付けて記憶する記憶手段、
    前記正規化文字列に対する処理の結果として、前記記憶手段に記憶されている所定の正規化文字列が特定された場合に、前記特定された正規化文字列に対応する復元情報を参照して元の文字列を復元する復元手段、
    として機能させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP30690499A 1999-10-28 1999-10-28 情報処理装置 Expired - Fee Related JP3794882B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP30690499A JP3794882B2 (ja) 1999-10-28 1999-10-28 情報処理装置
US09/603,577 US6469643B1 (en) 1999-10-28 2000-06-26 Information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30690499A JP3794882B2 (ja) 1999-10-28 1999-10-28 情報処理装置

Publications (2)

Publication Number Publication Date
JP2001125916A JP2001125916A (ja) 2001-05-11
JP3794882B2 true JP3794882B2 (ja) 2006-07-12

Family

ID=17962676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30690499A Expired - Fee Related JP3794882B2 (ja) 1999-10-28 1999-10-28 情報処理装置

Country Status (2)

Country Link
US (1) US6469643B1 (ja)
JP (1) JP3794882B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590837B2 (en) * 2003-08-23 2009-09-15 Softex Incorporated Electronic device security and tracking system and method
KR100928382B1 (ko) * 2006-10-17 2009-11-23 삼성에스디에스 주식회사 메인프레임 시스템의 데이터베이스를 개방형 시스템에적합한 데이터베이스로 변환하는 마이그레이션 장치 및 그방법
JP4778466B2 (ja) 2007-03-29 2011-09-21 日本電気株式会社 データ管理装置及びデータ管理方法並びにプログラム
JP4787803B2 (ja) * 2007-08-31 2011-10-05 株式会社リコー 情報処理装置と情報処理方法とプログラム
JP5271526B2 (ja) * 2007-10-25 2013-08-21 インフォソナー株式会社 商標検索システム及び商標検索サーバ
EP2434840A1 (en) 2008-04-22 2012-03-28 Zeon Corporation Organic electroluminescent light source
JP6210865B2 (ja) * 2013-12-02 2017-10-11 株式会社日立製作所 データ検索システムおよびデータ検索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2535629B2 (ja) 1989-11-08 1996-09-18 富士通株式会社 検索システムの入力文字列正規化方式
JPH0567157A (ja) * 1991-09-06 1993-03-19 Nec Corp 文字列検索方式
US5793381A (en) * 1995-09-13 1998-08-11 Apple Computer, Inc. Unicode converter
JP3499671B2 (ja) * 1996-02-09 2004-02-23 富士通株式会社 データ圧縮装置及びデータ復元装置
US5787452A (en) * 1996-05-21 1998-07-28 Sybase, Inc. Client/server database system with methods for multi-threaded data processing in a heterogeneous language environment
US6094634A (en) * 1997-03-26 2000-07-25 Fujitsu Limited Data compressing apparatus, data decompressing apparatus, data compressing method, data decompressing method, and program recording medium
JP3832693B2 (ja) * 1997-07-01 2006-10-11 株式会社日立製作所 構造化文書検索表示方法及び装置

Also Published As

Publication number Publication date
US6469643B1 (en) 2002-10-22
JP2001125916A (ja) 2001-05-11

Similar Documents

Publication Publication Date Title
US10169310B2 (en) Rich text handling for a web application
JPH11143877A (ja) 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム
JP2742115B2 (ja) 類似文書検索装置
JP5364617B2 (ja) 日本語仮想辞書
JPH08508123A (ja) 言語認識照合システム
JPH08509829A (ja) テキスト入力訳字システム
KR101326354B1 (ko) 문자 변환 처리 장치, 기록 매체 및 방법
JP3794882B2 (ja) 情報処理装置
US11947608B2 (en) Search term recommendation method and system based on multi-branch tree
JP2011090463A (ja) 文書検索システム、情報処理装置およびプログラム
JP6787755B2 (ja) 文書検索装置
JP7176233B2 (ja) 検索方法、検索プログラムおよび検索装置
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
US20040054677A1 (en) Method for processing text in a computer and a computer
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
JP2006209399A (ja) 文書検索装置および方法
JPH1196170A (ja) データベース作成方法および情報検索方法および情報検索装置および記録媒体
JPH07225761A (ja) 文書データの一致検証方式
JP3596696B2 (ja) 情報検索装置
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH09265472A (ja) 画像データベースシステム
JP3656315B2 (ja) 英文要約装置
JP2005157718A (ja) データ管理システム、データ管理システム用プログラム、及びデータ管理システム用プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060411

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090421

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100421

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees