JP4057681B2

JP4057681B2 - 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体

Info

Publication number: JP4057681B2
Application number: JP24583797A
Authority: JP
Inventors: 学颯々野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-09-10
Filing date: 1997-09-10
Publication date: 2008-03-05
Anticipated expiration: 2017-09-10
Also published as: JPH1185790A; CN1120438C; CN1211013A; KR100326634B1; KR19990029119A

Description

【０００１】
（目次）
発明の属する技術分野
従来の技術
発明が解決しようとする課題
課題を解決するための手段
発明の実施の形態（図１〜図１９）
・第１実施形態（図１〜図５）
・第２実施形態（図７〜図１２）
・第３実施形態（図１３〜図１６）
・記録媒体
・その他（図１７〜図１９）
発明の効果
【０００２】
【発明の属する技術分野】
本発明は、大容量文書情報の格納や検索に用いて好適な文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体に関する。
【０００３】
【従来の技術】
従来、データベースに蓄積する情報を検索する装置では、大容量の文書データを格納（ｓｔｏｒｅ）する場合、そのまま文書データを格納するか、文書データを圧縮してから格納する方法がある。
また、検索に際しては、データベースに格納されているデータを直に検索するか、格納とは別途作成されたインデクスを用いて文書の検索が行なわれていた。
【０００４】
【発明が解決しようとする課題】
しかし、このような従来の文書データをそのままデータベースに格納する方式では、データの格納に必要な容量が大きくなる問題がある。
また、インデクスを作成せずに、文書データを圧縮して格納する方式では、検索速度が遅く成りうる。
【０００５】
ここで、圧縮して格納する方式において、文書データの格納とは別途、検索に用いるインデクスを作成する場合、データの格納に必要な容量も少なく、検索速度も遅くない。しかし、文書データなどの情報を格納する際に、データの圧縮とインデクスの作成の二つを別々に行なうため処理時間が掛かる。
また、文書データを圧縮して格納する場合に、文書データの中の統計的な情報を十分に用いていないため、圧縮が十分でない場合がある。
【０００６】
このように、大容量の文書データ等の情報を格納する装置において、格納するに必要な領域を小さくすることと、インデクスを作成しつつ格納するときの処理時間を短くするという、課題がある。
本発明は、このような課題に鑑み創案されたもので、大容量の文書データなどの情報を格納するのに必要な領域を小さくするとともに、インデクスを作成しつつ文書データを格納するときの処理時間が短い文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体を提供することを目的とする。
【０００７】
【課題を解決するための手段】
上述の目的を達成するために、本発明の文書情報格納装置は、形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、形態素解析部で抽出された形態素を符号化する符号化部と、符号化部で符号化された形態素に圧縮処理を施す圧縮部と、圧縮部で圧縮された符号化形態素を格納する記憶部とをそなえるとともに、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも一つをそなえ、符号化部が、上記の同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するとともに、圧縮部が、符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すように構成されたことを特徴としている（請求項１）。
【０００８】
または、本発明の文書情報格納装置は、形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、インデクス作成部で作成されたインデクスを格納するインデクス記憶部とをそなえるようにしてもよい（請求項２）。
【００１０】
他方、本発明の文書情報格納方法は、コンピュータを用いて文書情報を格納するに際し、文書情報が入力されることにより、コンピュータの中央処理装置が、文書情報に対し、形態素解析処理を施して、文書情報から文書情報構成要素としての形態素を抽出する形態素解析ステップと、形態素解析ステップで抽出された形態素を中央処理装置が符号化する符号化ステップと、符号化ステップで符号化された形態素に中央処理装置が圧縮処理を施す圧縮ステップと、圧縮ステップで圧縮された符号化形態素を記憶部に格納する記憶ステップとをそなえ、符号化ステップが、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するとともに、圧縮ステップが、符号化ステップで符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すように構成されたことを特徴としている（請求項３）。
【００１１】
ここで、中央処理装置が、形態素解析ステップで抽出された形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成ステップと、インデクス作成ステップで作成されたインデクスをインデクス記憶部に格納するインデクス記憶ステップとをそなえるようにしてもよい（請求項４）。
【００１３】
並びに、本発明の文書情報検索装置は、形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、形態素解析部で抽出された形態素を符号化する符号化部と、符号化部で符号化された形態素に圧縮処理を施す圧縮部と、圧縮部で圧縮された符号化形態素を格納する記憶部とを有するとともに、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも一つをそなえ、符号化部が、上記の同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するとともに、圧縮部が、符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すように構成された文書情報格納装置における記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元部と、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合部と、照合部での照合結果に基づいて、復元部で復元された符号化形態素データを形態素に戻す復号化部とをそなえて構成されたことを特徴としている（請求項５）。
【００１４】
ここで、照合部が、符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定するような構成を備えることもよい（請求項６）。さらに、形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、インデクス作成部で作成されたインデクスを格納するインデクス記憶部とを文書情報格納装置に付加し、照合部が、形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られたインデクスの情報に基づいて、記憶部に格納されている圧縮符号化形態素を復元部で元の符号化形態素データに復元させるように構成してもよい（請求項７）。
【００１５】
照合部が、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成してもよい（請求項８）。
【００１６】
さらに、形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、インデクス作成部で作成されたインデクスを格納するインデクス記憶部とを文書情報格納装置に付加し、照合部が、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られたインデクスの情報に基づいて、記憶部に格納されている圧縮符号化形態素を復元部で元の符号化形態素データに復元させるように構成を備えても実施に際して好適である（請求項９）。
【００１７】
並びに、本発明の文書情報検索方法は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、入力された検索質問について、コンピュータの中央処理装置が、形態素解析処理を施すことにより、検索質問から形態素を抽出する形態素解析ステップと、形態素解析ステップで抽出された形態素を中央処理装置が符号化する符号化ステップと、文書情報格納装置における記憶手段に格納されている圧縮符号化形態素を中央処理装置が元の符号化形態素に復元する復元ステップと、中央処理装置が、符号化ステップで得られた符号化形態素と、復元ステップで復元された符号化形態素とを照合して、符号化ステップで得られた符号化形態素に対応する該記憶手段中の符号化形態素が復元されているかどうかを判定する照合ステップと、照合ステップでの照合結果に基づいて、中央処理装置が復元ステップで復元された符号化形態素を形態素に戻す復号化ステップとをそなえて構成されたことを特徴としている（請求項１０）。
【００１８】
ここで、照合ステップが、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素とを照合して、検索質問に適合した、符号化形態素が復元されているかどうかを判定するように構成してもよい（請求項１１）。
【００１９】
並びに、本発明の文書情報検索方法は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、入力された検索質問について、コンピュータの中央処理装置が、形態素解析処理を施すことにより、検索質問から形態素を抽出する形態素解析ステップと、形態素解析ステップで抽出された形態素を中央処理装置が符号化する符号化ステップと、形態素解析ステップで抽出された形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索ステップと、インデクス検索ステップで得られたインデクス情報に基づいて、記憶手段で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元ステップと、復元ステップで復元された符号化形態素データを中央処理装置が形態素に戻す復号化ステップとをそなえて構成されたことを特徴としてもよい（請求項１２）。
【００２０】
ここで、インデクス検索ステップが、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて、インデクス検索を行なうように構成しても好適に実施を確報することができる（請求項１３）。
【００２１】
並びに、本発明の文書情報格納プログラムを記録した記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるプログラムが記録されている（請求項１４）。
【００２２】
一方、本発明の記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を記憶手段に格納させる記憶手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順と、インデクス作成手順で作成されたインデクスをインデクス記憶手段に格納させるインデクス記憶手順とを実行させるための文書情報格納プログラムが記録されている（請求項１５）。
【００２３】
他方、本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、符号化手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、照合手順での照合結果に基づいて、復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるための文書情報検索プログラムが記録されている（請求項１６）。
【００２４】
さらに、本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順と、インデクス検索手順で得られたインデクス情報に基づいて、記憶手順で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、復元手順で復元された符号化形態素データを形態素に戻す復号化手順とをコンピュータに実行させるための文書情報検索プログラムが記録されている（請求項１７）。
【００２５】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
図１は、本発明の第一実施形態を示すブロック図で、この図１に示す文書情報格納検索装置１００は、文書情報形態素解析部１，形態素解析データ符号化部２，符号化データ圧縮部３，データベース４，文書情報インデクス作成部５，文書情報インデクス記憶部６，圧縮符号化データ復元部７，照合判定部８，符号化形態素復号化部９，結果出力部１０，同義語辞書１１，シソーラス１２及び対訳辞書１３を備えて構成されている。
【００２６】
文書情報形態素解析部１は、入力された文書情報に対して、形態素解析を行ない、単語（形態素を含む）を抽出するものである。
ここで、文書情報形態素解析部１に入力されるてくる文書情報データは、それ自体コード化されており、キーボード，ファイル，ネットワーク等からこの文書情報データが入力されるようになっている。
【００２７】
換言すると、電気信号或いは光信号として文書情報形態素解析部１に入力される文書（ｄｏｃｕｍｅｎｔ）を構成する各文字を、文書情報形態素解析部１は、言語の特徴を考慮して、形態素を解析するものである。
形態素解析データ符号化部２は、文書情報解析部１での解析により抽出された単語（形態素を含む）を数値に符号化するものである。ここで、形態素解析データ符号化部２にて符号化した数値は、一義に復号変換するために、同一の数値は、同一の単語（形態素を含む）に割り当てられるようになっている。尚、形態素解析データ符号化部２による符号化の長さは、固定長、或いは、可変長としてもよい。
【００２８】
符号化データ圧縮部３は、形態素解析データ符号化部２で符号化された形態素データ（文書情報形態素解析部１で抽出された単語（形態素を含む）を、形態素解析データ符号化部２が数値に符号化したもの。以下同じ）を、更に、異なる数値に符号化して圧縮するものである。
ここで、符号化データ圧縮部３は、単語（形態素を含む）の頻出度合いを考慮して、符号化した形態素データの圧縮処理を施すようになっている。例えば、英語文書中の「Ｔｈｉｓｉｓ」は、「Ｔｈｉｓ」の後に「ｉｓ」が続いて表記される頻度が高いことから、「Ｔｈｉｓｉｓ」とまとめて一つの数値へ符号化され、更に、英文中において、文字「ｑ」の後には、「ｕ」が続く頻度が高いので、「ｑｕ」を一つのコードとして圧縮され、出現頻度が高い文字列ほど、圧縮するのに用いるコードが短く設定されるようになっている。
【００２９】
このように、符号化された形態素データ中から単語（形態素を含む）の出現頻度や複数の単語を含んだ文節の出現頻度等の考察を、符号化データ圧縮部３が行なうようになっている。ここで、符号化データ圧縮部３は、形態素解析データ符号化部２において符号化されたデータを一対一対に圧縮する場合に限らず、符号化形態素を複数に圧縮する或いは、複数の符号化形態素を一つの圧縮データ等の圧縮する処理を施すこともできる。
【００３０】
データベース４は、符号化データ圧縮部３において圧縮処理を施した圧縮結果を格納するためのもので、二次記憶装置などに設けられている。また、文書情報の検索時において、検索質問に該当する場合に、データベース４に格納されている情報が読み出されるようになっている。
文書情報インデクス作成部５は、形態素解析データ符号化部２において、符号化された符号化形態素に基づいて、情報格納検索装置１００に蓄積される文書情報に対する文書情報インデクスを作成するものである。尚、ここで、文書情報インデクスの作成を、形態素解析データ符号化部２で符号化された符号化形態素データを用いずに、文書情報形態素解析部１が解析により抽出した単語（形態素を含む）を用いて、文書情報インデクス作成部５が、文書情報インデクスを作成するように構成してもよい。
【００３１】
文書情報インデクスは、文書情報インデクス作成部５が作成するもので、文書情報等を検索する際に用いられるものであり、文書情報インデクス記憶部６に記録されるようになっている。
また、文書情報インデクスは、文書情報の検索において、データベース４から復元した符号化形態素データが検索質問に適合するものであるかの判定を行なうに際して、参照するのに用いることとしてもよい。例えば、文書情報を検索するに際して用いた文書情報インデクスをデータベース４から復元した文書情報が適合するものであるかを判定するに用いることとしてもよい。
【００３２】
圧縮符号化データ復元部７は、データベース４に格納された圧縮済の符号列を元の符号列に戻すものである。なお、圧縮符号化データ復元部７は、異なる数値へ復元する符号化処理を施す際に、圧縮されたコードに対して、必ず一つの数値へ符号化処理を施すものに限らず、２以上の数値への符号化処理を施すことができる。また、圧縮符号化データ復元部７は、複数の圧縮されたコードに対して、一つの数値へ符号化処理を施すこともできる。
換言すると、文書情報の検索時において、検索質問に相応な文書情報がデータベース４に蓄積されているときに、データベース４に格納されて圧縮されている文書情報を符号化形態素データに復元するものである。
【００３３】
照合判定部８は、形態素解析データ符号化部２からの符号化形態素データと圧縮符号化データ復元部７からの符号化形態素データとが、一致するか否かを判定するものである。
ここで、形態素データ符号化部２からの符号化形態素データは、文書情報形態素解析部１により検索質問から抽出した単語（形態素を含む）を形態素解析データ符号化部２が数値に符号化する処理を施したものである。一方、圧縮符号化データ復元部７からの符号化形態素データは、データベース４に格納されている文書情報（圧縮処理を施された符号化形態素データ）を圧縮する処理を施す前の符号化形態素データに圧縮符号化データ復元部７により復元処理を施されたものである。
【００３４】
ここで、照合判定部８は、完全一致検索を行なう場合には、検索質問を符号化した数値と、データベース４に蓄積されていた文書情報を圧縮符号化データ復元部７により復元された符号化形態素データの数値が完全に一致するかの処理が行なわれるようになっている。また、曖昧な検索等を実行する場合には、照合判定部８は、数値の完全一致検索を行なわず、一部一致検索を行なうようになっている。
【００３５】
符号化形態素復号化部９は、符号化されている符号化形態素データを元の単語（形態素を含む）へ伸長する処理を施すものである。
結果出力部１０は、照合判定部８から受け取った情報を元に検索結果を出力するものである。必要に応じて、符号列を元の単語（形態素を含む）へと符号化した文書情報を出力するものである。
【００３６】
同義語辞書１１は、語形が異なるが、意味がほぼ同じである語を多数保有するものであり、シソーラス（ｔｈｅｓａｕｒｕｓ）１２は、分類体の辞書であり、対訳辞書１３は、原文に訳文をならべて記した辞書であり、これらの辞書１１，１２，１３は、インデクス作成の処理を行なう際や、検索を行なう際に用いられるものである。また、同義語辞書等（１１，１２，１３）は、文書情報形態素解析部１での単語（形態素を含む）を抽出する解析に際して、参照するものである。
【００３７】
ここで、図２は、同義語辞書，シソーラスの一例を示す図であり、この図２に示す同義語辞書，シソーラスの一例の表にように、同義，類義と見做される単語（形態素を含む）の符号化数値として、同一の（或いは似通った）コードパターンを持つような仕組みになっている。
例えば、同義，類義と見做される「本」，「書物」及び「ブック」等の符号化数値は、図２に示すように、下位１バイトを除く符号化数値は同一に決められている。
【００３８】
図３は、対訳辞書の一例を示す図であり、この図３に示す対訳辞書の一例の表のように、同一の概念を表す語には、いずれも同一のパターン（０ｘ７３ａ５２１００）を含んで区別されている。言語（図３に示す例では、日本語，英語，フランス語である）の違いは、更に上位の符号で区別されている。例えば、日本語であるならば０ｘ、英語でならば０ｘ２０、フランス語ならば０ｘ３０を符号の上位に数値を配するようになっており、同義、類義である「本」と「書物」の符号化数値は下位１バイトが異なり、他の数値は同じになっており、一方で、「本」と「ｂｏｏｋ」と「ｌｉｖｒｅ」とは、それぞれ同義・類義と解釈でき、言語のみが相違することから、符号化数値は上位バイトが異なるように符号化処理が施されるようになっている。
【００３９】
ここで、先述した形態素解析データ符号化部２が、文書情報形態素解析部１により解析して抽出した単語（形態素を含む）を、数値へ符号化する際に、図３や図４に示す同義語辞書等（１１，１２，１３）を参照するようになっている。
例えば、文書情報形態素解析部１が、形態素解析処理を施した結果、抽出したものが単語「本」であった場合は、その単語「本」は０ｘ７３ａ５２１００との数値に符号化処理が、形態素解析データ符号化部２により行なわれるようになっている。対訳辞書を利用する場合も同様で、図４に示す対訳辞書の表の符号化数値を参照して符号化処理が施されるようになっている。
【００４０】
尚、同義語辞書等（１１，１２，１３）を参照して形態素解析データ符号化部２で数値化された符号は、同義語辞書等（１１，１２，１３）を参照せずに数値化された符号化形態素データと同様に、文書情報インデクスの作成に用いられる。
形態素解析データ符号化部２は、文書情報インデクス作成部５が文書情報インデクスを作成するために、符号化処理を施した形態素データと文書ＩＤ（ｉｄｅｎｔｉｆｉｅｒ；識別子）を渡すようになっている。
【００４１】
以下、本発明の一実施形態にかかる情報格納検索装置１００の要部構成の機能等を、場合を分けて説明する。
（１ａ）文書情報のデータベースへの格納
キーボード或いはネットワーク等から入力される文書情報を文書情報形態素解析部１は、各コード化された文書列の中から形態素の解析を行ない、解析により抽出した単語（形態素を含む）を形態素解析データ符号化部２に出力するようになっており、形態素の解析に際しては、その言語の特徴を考慮した形態素の解析を行なう。
【００４２】
このように、文書情報形態素解析部１は、形態素解析処理を施すことにより、入力された文書情報から文書構成要素としての形態素を抽出する形態素解析部として機能を発揮する。
文書情報形態素解析部１において文書構成要素として抽出された単語（形態素を含む）は、形態素解析データ符号化部２によって、所定の数値に符号化処理を施され、例えば、単語等を所定の数値に符号化する際には、同義語辞書等（１１，１２，１３）を参照して、図２や図３に示す表のように、同義・類義と見做される単語等に対して、同じ様なコードパターンを形成するようにして、数値符号化処理が形態素解析データ符号化部２にて行なわれるようになっている。
【００４３】
このように、形態素解析データ符号化部２は、形態素解析部で抽出された形態素を符号化する符号化部としての機能を発揮するようになっている。
符号化データ圧縮部３は、形態素解析データ符号化部２において、コード化された文書列中の形態素を、出現頻度に応じて更に所定のコード化を行なうものである。即ち、文書情報として、出現率の高い単語（形態素を含む）を、短いコードにすることで、圧縮するのである。
【００４４】
このように、符号化データ圧縮部３は、符号化部で符号化された形態素に圧縮処理を施す圧縮部としての機能を発揮するものである。
そしてデータベース４へは、符号化データ圧縮部３において、符号化形態素データを更に異なる数値へ符号化した文書情報が格納されるようになっており、これによりデータベース４は、圧縮部で圧縮された符号化形態素を格納する記憶部として機能を果たすものである。
【００４５】
形態素解析データ符号化部２による符号化処理により所定の数値へ符号化されている符号化形態素データは、文書情報インデクスを作成する際にも用いられ、この文書情報インデクスの作成は、文書情報インデクス作成部５が行なうようになっている。
このように、文書情報インデクス作成部５は、符号化部で符号化された形態素の情報に基づいてインデクスを作成するインデクス作成部としての役割を果たすものである。
【００４６】
文書情報インデクス作成部５により作成された文書情報インデクスは、文書情報インデクス記憶部６に格納されて、データベース４に格納されている文書情報の検索に際して用いられるようになっている。
ここで、文書情報インデクス記憶部６では、形態素解析データ符号化部２により符号化された形態素データと文書ＩＤを用いて文書情報インデクスを記憶するようになっており、文書情報インデクス記憶部６は、インデクス作成部で作成されたインデクスを格納するインデク記憶部としての機能を発揮するものである。
【００４７】
上述の構成を備えた第一実施形態にかかる情報格納検索装置１００の文書情報の格納の動作を、図４等を用いて以下に説明する。
文書情報を格納の際には、キーボードやネットワーク等を介して入力（ステップＳ０１０）される文書情報を、文書情報形態素解析部１が形態素の解析を行なう。
【００４８】
この解析の実行は、文書情報をデータベース４に格納するに際して、文書情報を入力することにより、文書情報に対し、形態素解析処理を施して、キーボードやネットワーク等を介して入力された文書情報から文書構成要素としての形態素を抽出する。（形態素解析ステップＳ０２０）。
形態素解析ステップで文書情報形態素解析部１が解析して抽出した単語（形態素を含む）を、形態素解析データ符号化部２は、図２や図３に示すような同義語辞書等（１１，１２，１３）を参照して、同義・類義の単語（形態素を含む）に同じ様なコードパターンの数値へ符号化する（符号化ステップＳ０３０）。
【００４９】
符号化データ圧縮部３は、符号化ステップで形態素解析データ符号化部２が所定の数値に符号化した符号化形態素データを、単語（形態素を含む）の出現頻度等を考慮して、例えば、出現頻度の高い単語等には、簡単なコードを符号化する或いは、コードが可変長である場合に、出現率の高い単語や文節程、符号化したコード長を短くするものであり且つ、逆に、出現率の低い単語や文節程、符号化したコード長が長くする等の更に符号化処理を施す（圧縮ステップＳ０４０）。
【００５０】
圧縮ステップとして符号化データ圧縮部３で圧縮された符号化形態素データを、二次記憶装置などのデータベース４に記録し、データベース４は、圧縮ステップで圧縮された符号化形態素を格納する（記録ステップＳ０５０）。
文書情報インデクス作成部５は、符号化ステップとして形態素解析データ符号化部２で符号化された形態素の情報に基づいて、文書情報インデクスを作成し、文書情報インデクス記憶部６に記憶する（インデクス作成ステップ，インデクス記憶ステップＳ０３１）。
【００５１】
尚、文書情報インデクスの作成に際して、形態素解析ステップで文書情報形態素解析部１が抽出した単語（形態素を含む）を用いて文書情報インデクスを作成するようにしてもよい（インデクス作成ステップ，インデクス記憶ステップＳ０２１）。
ここで、単語（形態素を含む）或いは符号化形態素解析データのいずれかを用いて文書情報インデクスを作成するかは、装置の設計事項に依存するようになっている。
【００５２】
このように、第一実施形態に係る情報検索装置１００は、文書情報形態素解析部１と、形態素解析データ符号化部２と、符号化データ圧縮部３と、データベース４とを備えて構成されることで、文書情報形態素解析部１が解析して抽出した形態素を形態素解析データ符号化部２が符号化し、符号化データ圧縮部３が符号化データを更に圧縮をすることで、当初の文書情報のデータ容量を小さくすることで、大容量データの文書情報を格納するに必要な領域を小さくすることができる。
【００５３】
更に、この情報格納検索装置１００は、文書情報インデクスの作成に用いる符号化形態素データと圧縮するための符号化形態素データとを同時に作成する処理を施すので、別途独立に文書情報インデクスを作成する場合に比して、文書情報インデクスの作成に時間を要しないとすることができる。
形態素解析データ符号化部２での符号化に用いる単語（形態素を含む）と文書情報インデクス作成部５で用いる単語の抽出（分割）を、文書情報形態素解析部１における一度の処理で行なうことにより、非常に効率的で、文書情報形態素解析部１と形態素解析データ符号化部２とで独自に単語の抽出処理を施す場合より、時間を短縮することができる
また、第一実施形態に係る情報検索格納装置１００は、同義語辞書１１，シソーラス１２及び対訳辞書１３を備えて構成されているので、形態素解析データ符号化部２が、同義語辞書１１，シソーラス１２及び対訳辞書１３の情報を用いて、文書の分野や内容に合わせた形態素（若しくは単語）を符号化することで、単なる記号列の圧縮ではなく、形態素の解析を用いて形態素（若しくは単語）を抽出して、文書内容に合わせて符号化を行ない、更に、その符号列を圧縮することから、高い圧縮率が望めることをもできる。
【００５４】
（１ｂ）データベースに格納されている文書情報の検索
文書情報形態素解析部１は、検索質問を解析して単語（形態素を含む）を抽出するものである、これを言い換えると、コード化されて入力された文字列としての検索質問を、文書情報形態素解析部１は、形態素解析処理を行なうようになっている。
【００５５】
ここで、検索質問は、データベース４に格納する文書情報と同様に、キーボード，ファイル，ネットワーク等を介して、文書情報形態素解析部１に入力されるようになっている。ここで、例えば、入力される検索質問としては、単語或いは句などが該当する。
形態素解析データ符号化部２は、文書情報形態素解析部１で検索質問を解析して抽出した単語（形態素を含む）を、所定の数値に符号化処理を施すものであるが、ここで、検索質問中の形態素等を数値化する際の数値は、格納する文書情報の単語（形態素を含む）を符号化する際に用いられる数値と同じ数値が使用されるようになっている。即ち、この形態素解析データ符号化部２は、一義的な数値符号化処理を文書情報形態素解析部１が抽出した単語（形態素を含む）に施すようになっている。
【００５６】
ここで、文書情報形態素解析部１で解析により抽出した単語（形態素を含む）を数値に符号化する際しては、図２や図３に示す同義語辞書等（１１，１２，１３）を参照して、検索質問の単語（形態素を含む）に対する符号化処理を形態素解析データ符号化部２が行なうようにもなっている。
照合判定部８は、形態素解析データ符号化部２が検索質問の単語（形態素を含む）を数値に符号化した符号化形態素データを用いて、文書情報インデクス記憶部６に格納されている文書情報インデクスを検索するもので、この検索に際して、インデクス中に、検索質問の符号化形態素データと一致するものがある場合には、その文書ＩＤに対応する文書情報を、圧縮符号化データ復元部７へ伝えるように、データベースを制御するようになっている。
【００５７】
更に、照合判定部８は、データベース４からの復元した符号化形態素データと検索質問の符号化形態素データが一致するか否かについての判定処理を施すようにもなっている。
ここで、復元した符号化形態素データが検索質問に完全に一致する検索処理を施す際には、照合判定部８は、符号化数値が完全に一致するものであるか否かを判定し、他方、曖昧な検索処理を実行する際には、符号化数値に何らかの処理を加えた上で、一致するか否かを判定するようになっている。例えば、検索対照に類義語を許容する検索においては、図２に示すように「本」と「書物」のように類義の関係で符号化数値は下位１バイトが異なるのみであることから、照合判定部８は、下位１バイトをマスクして検索を行ない、この下位１バイトを除いた符号化数値が一致するか否かを判定することで、曖昧な検索を行なうものである。
【００５８】
尚、照合判定部８は、単に単語の一致だけでなく、様々な検索時の条件（単語の出現位置など）にあっているかを判断することができるようになっており、検索質問に出現位置など元の文書情報を確認する必要がある場合には、圧縮符号化データ復元部７を通じて元の文書を部分的に復元するようになっている。
このように、照合判定部８は、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合部としての機能を発揮する。
【００５９】
そして、圧縮符号化データ復元部７では、データベース４からの圧縮された文書情報データを所定の数値に符号化するようになっており、これは、符号化データ圧縮部３での、圧縮とは逆の処理として位置づけられる。
このように、圧縮符号化データ復元部７は、圧縮部で圧縮された符号化形態素を格納する記憶部とを有する文書情報格納装置における記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元部としての機能を発揮するのである。
【００６０】
符号化形態素復号化部９は、照合判定部８にて検索質問に適合した形態素データを、復元の必要がある場合に、単語（形態素を含む）に復元するものである。
即ち、この符号化形態素復号化部９は、形態素解析データ符号化部２で所定の数値に符号化処理が施された単語（形態素を含む）を、数値から単語（形態素を含む）への処理を施すもようになっている。ここで、所定の単語（形態素を含む）に対する符号化数値は、一義的に決まっているので、所定の符号化形態素データを形態素へ一義に復号化の処理を、符号化形態素復号化部９は、施すものであり、形態素解析データ符号化部２での符号化処理とは逆処理に該当するものである。
【００６１】
このように、符号化形態素復号化部９は、照合結果に基づいて復元部での復元された符号化形態素データを形態素に戻す復号化部として機能を発揮する。
上述の構成を備えた第一実施形態にかかる情報格納検索装置１００の文書情報の検索の動作を、図５等を用いて以下に説明する。
キーボードやネットワーク等を介して入力（ステップＳ１１０）される検索質問（単語や句など）を、文書情報形態素解析部１が解析により単語（形態素を含む）を抽出する（形態素解析ステップＳ１２０）。
【００６２】
形態素解析ステップにおいて文書情報形態素解析部１が検索質問を解析して抽出した単語（形態素を含む）を、形態素解析データ符号化部２は、例えば、図２や図３に示すような同義語辞書等（１１，１２，１３）を参照して、同義・類義の単語（形態素を含む）に同じ様なコードパターンの数値化を施す（符号化ステップＳ１３０）。
【００６３】
符号化ステップで形態素解析データ符号化部２が所定の数値に符号化した検索質問を用いて、照合判定部８は、同じ数値を持つ符号が文書情報インデクスにあるかの検索を行なう（ステップＳ１４０）。
そして、照合判定部８は、文書情報インデクスを検索した結果、該当するものがある場合には、データベース４にその蓄積されている圧縮形態素データを圧縮符号化データ復元部７へ出力するように制御する。ここで、検索した結果、該当する文書が複数ある場合には、その数ぶんだけの文書を圧縮符号化データ復元部７へ出力するようになっている。
【００６４】
ここで、照合判定部８は、検索により出現位置など元の文書の確認が必要か否かを考慮し（ステップＳ１５０）、確認が必要である時は、データベース４に蓄積されている元の文書の内容を部分的に復元するように制御する。ここで、圧縮符号化データ復元部７は、データベース４からの圧縮されている文書情報を所定の符号に復元する（復元ステップＳ１５１）。
【００６５】
更に、照合判定部８は、文書情報インデクスの検索により、検索する符号の数値と同じ符号を検出した場合には、検索質問に適合しているか否かを確認する（照合ステップＳ１６０）。
照合判定部８は、検索の結果を結果出力部１０へ渡し、結果出力部１０は、元の文書の内容として復号化する必要があるとき（ステップＳ１７０）、例えば、照合判定部８で検索質問に適合した文書情報を確認し、その元の文書の内容として出力する必要がある場合、符号化形態素復号化部９へ符号化形態素データを渡し、元の文書の内容として復号する（復号化ステップＳ１７１）。
【００６６】
そして、結果出力部１０は、符号化形態素復号化部９で復元された元の文書の内容等、検索結果を出力する（ステップＳ１８０）。
このように、第１実施形態にかかる情報格納検索装置１００は、文書情報形態素解析部１と、形態素解析データ符号化部２と、符号化データ圧縮部３と、データベース４と、圧縮符号化データ復元部７と、照合判定部８と、符号化形態素復号化部９とを備えて構成されるので、大容量の文書情報データを、省スペースで格納しつつ、必要な文書情報を検索することができる。
【００６７】
さらに、この情報格納検索装置１００は、照合判定部８が、符号化形態素形式の質問と、圧縮符号化データ復元部７で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定することから、大容量の圧縮した文書情報から必要な事項を検索することができる。
（１ｃ）文書情報の検索
ところで、文書情報インデクス作成部５が、文書情報形態素解析部１での解析により抽出された単語（形態素を含む）を用いて文書情報インデクスを作成した場合における、第１実施形態にかかる情報格納検索装置１００の文書情報の検索の動作を、図６等を用いて以下に説明する。
【００６８】
先ず、キーボードやファイル，ネットワーク等から検索質問（単語或いは句など）を入力する（ステップＳ２１０）。
次に、その検索質問を形態素解析部１が形態素を解析して単語（形態素を含む）を切り出す（形態素解析ステップＳ２２０）。
その単語を使って、照合判定部８は、文書情報インデクス６内を検索する（ステップＳ２３０）。
【００６９】
検索質問に出現位置など元の文書を確認する必要がある場合には、圧縮符号化データ復元部７及び符号化形態素復号化部９を通じて元の文書を部分的に復元し（ステップＳ２４０，復元ステップＳ２４１）、照合判定部８は、復元した文書の内容が検索質問の条件に適合するものであるか、確認する（照合ステップＳ２５０）。
【００７０】
そして、検索結果について、元の文書の内容を出力する必要がある場合には、データベース４に格納されている圧縮データを圧縮符号化データ復元部７及び符号化形態素復号化部９を通じて復号化する（ステップＳ２６０，復号化ステップＳ２６１）。
最後に、検索の結果を出力する（ステップＳ２７０）。
【００７１】
このような形態素解析部１で解析により抽出された単語（形態素を含む）を用いて作成された文書情報インデクスを利用した文書情報の検索によっても、前記（１ｂ）の文書情報の検索と同様に、文書情報格納検索装置は、大容量の文書情報データを、省スペースで格納しつつ、必要な文書情報を検索することができるとともに、大容量の圧縮した文書情報から必要な事項を非常にスムースに検索することができる。
（２）第２実施形態の説明
図７は、本発明の第２実施形態として情報格納検索装置２００を示す図であり、この図７に示す情報格納検索装置２００は、前述の第１実施形態におけるものに比して、同義語辞書等（１１，１２，１３）に代えて人名辞書１４及び郵便番号辞書１５を備えて構成されている点が異なり、その他（符号１，２，３，４，５，６，７，８，９，１０参照）の構成は同様である。
【００７２】
尚、（１）で用いたものと同じものについては、その説明を省略する。
ここで、図８は、人名辞書の一例の表を示す図であり、この図８に示すように人名辞書は、人の名、姓名、ｐｅｒｓｏｎ’ｓｎａｍｅの見出しに対応した符号（数値）を蓄積するものであり、他方、郵便番号辞書１５は、場所（地域，土地）に対応した符号（数値）を蓄積するものであり、これらの辞書（１４，１５）は、同義語辞書等（１１，１２，１３）と同じ様に、形態素解析部１で分割（抽出）された単語（形態素を含む）を、符号化部としての形態素解析データ符号化部２が所定の数値に符号化処理を施す際に参照するものである。更に、人名辞書等（１４，１５）は、形態素解析部として文書情報形態素解析部１がデータベース４に格納する文書情報及び検索質問を解析して単語（形態素を含む）を抽出する際に、参照するものである。尚、前記の第１実施形態にかかる文書情報格納検索装置１００においても、同義語辞書等（１１，１２，１３）を参照して文書情報形態素解析部１が解析により単語（形態素を含む）を抽出するような構成をとることができる。
【００７３】
ここで、人名辞書１４は、同音の称呼等には、同じような符号化処理を施すために、同音の称呼等には類似の符号化数値を割り当てることになっており、図８に示す人名辞書も、人名「仲田」の符号化数値は０ｘ７３５０であり、一方、人名「中田」には０ｘ７３５１の符号化数値が割り当てられており、下位１バイトが異なる近似の数値に符号化されるようになっており、人名（見出し）に対応した符号化数値を示している。
【００７４】
また、人名辞書１４と同じように、郵便番号辞書１５は、近隣の地域には、似通った符号化数値が割り当てられている。ここで、図９は、郵便番号辞書の一例の表を示す図であり、この図９に示すように郵便番号辞書は、土地名「神奈川県川崎市幸区」の符号化数値が２１０を割り当てられているのに対して、土地名「神奈川県川崎市中原区」には２１１，土地名「神奈川県川崎市高津区」には２１３等との符号化数値が割り当てられており、下位１バイトが異なる似通った数値に符号化されるようになっており、土地名（地域名）〔見出し〕に対応した符号化数値（郵便番号）を示している。
【００７５】
以下、文書情報の格納と文書情報の検索とに分けて、第２実施形態にかかる情報格納検索装置２００の動作等を説明する。
（２ａ）文書情報の格納
上述の構成により、本発明の第２実施形態にかかる情報格納検索装置２００は、前述の第１実施形態と同義語辞書等（１１，１２，１３）を人名辞書等（１４，１５）に代えて同じ様に動作する。
【００７６】
ここで、本発明の第２実施形態について、図１０に示す文書情報がどのように処理されてデータベース４に格納されるかを、図１１を用いて以下説明する。
図１０は、データベース４に文書情報を格納する動作を説明するための文書情報の一例を示す図であり、この図１０に示すように文書番号１３の文書情報には、氏名の他、住所が包含されている。
【００７７】
また、図１１は、文書情報の格納処理における文書情報の流れを示す図であり、文書情報（文書番号（ＩＤ）１３）は、キーボードやネットワーク等から情報格納検索装置２００へ送られてくる。例えば、文書情報（文書ＩＤ１３）中の「中田守神奈川県川崎市中原区下小田中・・・」は、コード化された文字列の情報として入力されてくる（ステップＳ３１０）。
【００７８】
ネットワーク等から入力されてきた符号列の文書情報は、文書情報形態素解析部１における解析により、単語（形態素を含む）を抽出され（形態素解析ステップＳ３２０）、単語（形態素を含む）毎に分割される。即ち、文書情報形態素解析部１は、ネットワーク等から入力された単語（形態素を含む）を人名辞書等（１４，１５）を基準として、単語（形態素を含む）の分割（抽出）処理を施す。
【００７９】
形態素解析データ符号化部２は、形態素解析ステップで分割された単語（形態素を含む）を、図８及び図９に示す人名辞書や郵便番号辞書を参照して、所定の数値に符号化処理を施す。
即ち、形態素解析データ符号化部２での処理により、各分割された単語（形態素を含む）は、図８を参照して人名「中田」は「０ｘ７３５１」に、一方、人名「守」は「０ｘａ１２０」に、図９を参照して住所「神奈川県川崎市中原区」は「２１１」に、一方で、住所「下小田中」は「０ｘｆｆ２３」となる（符号化ステップＳ３３０）。
【００８０】
符号化ステップとして形態素解析データ符号化部２で、所定の数値に符号化処理を施された符号化形態素データは、符号化データ圧縮部３及び文書情報インデクス作成部５へ送られる。インデクス作成部５では、形態素解析データ符号化部２で符号化された形態素データと文書ＩＤを基に、文書情報インデクスを作成する。例えば、符号化ステップとして形態素解析データ符号化部２において、符号化された人名「中田」，「守」等の符号化数値「０ｘ７３５１」，「０ｘａ１２０」等を見出しとして、それに対応する文書ＩＤの内容を包含した文書情報インデクスが作成される（インデクス作成ステップＳ３４０）。
【００８１】
一方、符号化データ圧縮部３は、形態素解析データ符号化部２にて符号化された数値「０ｘ７３５１０ｘａ１２０２１１０ｘｆｆ２３・・・」等に、更に異なる数値へ符号化する圧縮の処理を施し（圧縮ステップ）、記憶部としてのデータベース４に圧縮した符号化形態素データを格納する（記憶ステップ）。
このように情報格納検索装置２００によれば、文書情報（例えば、文書ＩＤ１３中の「中田守・・・・・」）を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部１を通して、形態素を解析し、人名辞書等（１４，１５）を参照して符号化部としての形態素解析データ符号化部２が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部３が圧縮を行ないつつ、且つ、元の文書（ネットワーク等から入力されてくる文書情報）の性質を考慮して符号化を行なう（例えば、名簿である場合は、人名や住所を基に符号化する）ことと相まって、高い圧縮率を期待できる。
【００８２】
更に、符号化ステップでの符号化に用いる単語（形態素を含む）と文書情報インデクス作成部５で用いる単語の抽出（分割）を、形態素解析部としての文書情報形態素解析部１における一度の処理で行なうことにより、非常に効率的で、形態素解析データ符号化部２と文書情報インデクス作成部５とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【００８３】
（２ｂ）文書情報の検索
ところで、本発明の第２実施形態について、データベース４に格納されている文書情報をどのように検索されるかを、図１２を用いて以下説明する。
図１２は、文書情報の検索処理における文書情報の流れを示す図であり、検索質問は、キーボードやネットワーク等を介して情報格納検索装置２００へ入力される。例えば、検索質問「中田」で且つ検索条件「同じ称呼で、文字が異なる場合を含む」は、コード化された文字列の情報として入力されてくる（ステップＳ４１０）。
【００８４】
ネットワーク等から入力されてくる検索質問は、データベース４に格納する文書情報と同様に、形態素解析ステップで文書情報形態素解析部１における解析により、単語（形態素を含む）を抽出され、各分割された単語（形態素を含む）は、形態素解析データ符号化部２において所定の数値に符号化処理が施される（符号化ステップＳ４２０）。
【００８５】
ここで、形態素解析部１及び形態素解析データ符号化処理部２では、見出しを共通する人名辞書等（１４，１５）を基準に、各処理が実行される。
即ち、検索質問「中田」を、文書情報形態素解析部１が人名辞書１４を参照して、解析により単語「中田」を抽出し、単語「中田」を形態素解析データ符号化部２が、同様に人名辞書１４を参照して所定の数値「０ｘ７３５１」に符号化処理を施す。
【００８６】
検索条件として「名前を表す文字が異なっていてもよい」を指定しているので、照合判定部８は、検索条件に従い、検索質問の符号化数値「０ｘ７３５１」に対して下位１バイトにマスクを掛けて、文書情報インデクス記憶部６に記憶されている文書情報インデクス６−１を検索する（ステップＳ４３０）。尚、ここで、下位１バイトにマスクを掛けるとしたのは、人名辞書に含まれている同音の人名に対しては、下位１バイトの数値が異なるように符号が割り当てられているからである。
【００８７】
図１２に示す文書情報インデクス６−１を照合判定部８が、下位１バイトにマスクを掛けた符号化数値を用いて検索を行なうと、上位バイトが「０ｘ７３５」である文書ＩＤは文書ＩＤ（１３，２９，９７，１５２，１１３）であることを検出する（ステップＳ４４０）。
その後、結果出力部１０が結果を出力する。その際に、文書ＩＤを出力するだけでなく、実際に内容を表示する場合には、復号化ステップで形態素形態素復号化部９が復号化した結果を表示する。
【００８８】
このように、本発明の第２実施形態にかかる情報格納検索装置２００によれば、大容量の文書情報を格納するデータベース４に対して、情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる。
（３）第３実施形態の説明
図１３は、本発明の第３実施形態として情報格納検索装置３００を示す図であり、この図１３に示す情報格納検索装置３００は、様々な言語で書かれた文書情報を格納するとともに、検索するものであり、前述の第１実施形態におけるものと同様の構成である（符号２，３，４，５，６，７，８，９，１０，１１，１３参照）。
【００８９】
尚、（１）で用いたものと同じものについては、その説明を省略する。
ここで、情報格納検索装置３００が、様々な言語の内で日本語，英語及び仏語に対応する場合について、以下説明する。
形態素解析部としての文書情報形態素解析部１−１は、前述の文書情報形態素解析部１とは多少異なり、日本語，英語及び仏語の三ヵ国語の形態素を解析して単語（形態素を含む）を抽出するものである。
【００９０】
以下、文書情報の格納と文書情報の検索とを分けて、第３実施形態にかかる情報格納検索装置３００の動作等を説明する。
（３ａ）文書情報の格納
上述の構成により、本発明の第３実施形態にかかる情報格納検索装置３００は、前述の第１実施形態と同じ様に動作する。
【００９１】
ここで、図１４は、文書情報の一例を示す図であり、この図１４（ａ）〜（ｃ）に示す文書情報を、形態素解析ステップとしての文書情報形態素解析部１が、図２に示す同義語辞書等を参照して、解析により単語（形態素を含む）を抽出する。
そして、その抽出して分割された単語（形態素を含む）を、符号化部としての形態素解析データ符号化部２が、図２に示すような同義語辞書等を参照して所定の数値に符号化処理を施す。数値に符号化された符号化形態素データを基に、文書情報インデクス作成部５は、図１５に示すような文書情報インデクス６−２を作成する。一方で、形態素解析データ符号化部２で、数値に符号化された形態素データは、符号化データ圧縮部３で、更に異なる数値に符号化する圧縮処理を施されて、データベース４に格納される。
【００９２】
このように、第３実施形態にかかる情報検索装置３００は、複数の異なる言語で表記される文書情報が大量であっても、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部１を通して、形態素を解析し、対訳辞書１３等を参照して符号化部としての形態素解析データ符号化部２が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部３が圧縮を行ないつつ、且つ、元の文書（ネットワーク等から入力されてくる文書情報）の性質を考慮して符号化を行なう（例えば、名簿である場合は、人名や住所を基に符号化する）ことと相まって、高い圧縮率を期待できる。
【００９３】
更に、符号化ステップでの符号化に用いる単語（形態素を含む）と文書情報インデクス作成部５で用いる単語の抽出（分割）を、形態素解析部としての文書情報形態素解析部１における一度の処理で行なうことにより、非常に効率的で、形態素解析データ符号化部２と文書情報インデクス作成部５とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【００９４】
（３ｂ）文書情報の検索
本発明の第３実施形態について、データベース４に格納されている文書情報をどのように検索されるかを、図１６を用いて説明する。
図１６は、文書情報の検索処理における文書情報の流れを示す図であり、検索質問は、キーボードやネットワーク等を介して情報格納検索装置３００へ入力される。例えば、検索質問「書物」で且つ検索条件「訳語、同義語も可」は、コード化された文字列の情報として入力されてくる（ステップＳ５１０）。
【００９５】
ネットワーク等から入力されてくる検索質問は、データベース４に格納する文書情報と同様に、文書情報形態素解析部１における解析により、単語（形態素を含む）を抽出され（形態素解析ステップ）、各分割された単語（形態素を含む）は、形態素解析データ符号化部２において所定の数値に符号化処理が施される（符号化ステップＳ５２０）。
【００９６】
即ち、文書情報形態素解析部１は、検索質問「書物」を、図２に示す同義語辞書を参照して、解析により単語「書物」を分割し、形態素解析データ符号化部２が、同様に図２に示す同義語辞書を参照して、単語「書物」を所定の数値「０ｘ７３ａ５２１０１」に符号化処理を施す。
照合ステップで照合判定部８は、検索条件として「訳語、同義語も可」を考慮して、検索質問の符号化数値「０ｘ７３ａ５２１０１」を、下位１バイトと上位５バイト目以上をマスクして、文書情報インデクスを検索する（ステップＳ５３０）。
【００９７】
照合判定部８が、図１５に示す文書情報インデクス６−２の検索を行なうと、検索条件に適合する文書番号として２１，３４，１１９が得られる（ステップＳ５４０）。
その後、結果出力部１０が、結果を出力する。結果を出力する際に、文書番号だけでなく、実際に内容を表示する場合は、復号化ステップで符号化形態素復号化部９が復号して、その結果を結果出力部１０が出力する。
【００９８】
このように、本発明の第３実施形態にかかる情報格納検索装置３００によれば、複数の異なる言語を用いて、大量の文書情報を格納するデータベース４に対して、一定の言語による検索質問だけでなく、異なる言語で検索することもでき、且つ、情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる。
（４）記録媒体
（４ａ）文書情報格納プログラムを記録した記録媒体
本発明の実施形態に係る文書情報格納プログラムを記録した記録媒体（以下、説明の便宜上、符号「Ａ」を付す）に関して、図１に示すような手段を備えて構成される文書情報格納検索装置１００を用いて説明する。
【００９９】
尚、（１）で用いたものと同じものついては、その説明を省略する。
ところで、文書情報格納プログラムは、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、符号化手順で符号化された形態素に圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるためのプログラムであるが、コンピュータは、記録媒体Ａに記録されている文書情報格納プログラムを読み込んで、コンピュータの中央処理装置（ＣＰＵ）が、各ハードウェアに処理の制御を以下に説明するように、施すようになっている。
【０１００】
ここで、コンピュータは、プログラムが記録されている媒体Ａから電気，磁気或いは光的等にプログラムを読み込むようになっている。
文書情報格納検索装置１００に、ネットワーク等を介して電気信号や光信号等が入力されると、コンピュータは、形態素解析手順として、文書情報形態素解析部１に、入力された文書情報を解析して単語（形態素を含む）を抽出するように制御し、分離した単語（形態素を含む）を符号化手順としての形態素解析データ解析部２に出力するように制御する。
【０１０１】
符号化手順として、形態素解析データ符号化部２は、コンピュータの実行制御の下、文書情報形態素解析部１で分離された単語（形態素を含む）を所定の数値に符号化処理を施す。
数値に符号化された形態素解析データを、コンピュータは、圧縮手順として、符号化データ圧縮部３に、更に、異なる数値に符号化の圧縮処理を施すように制御する。
【０１０２】
コンピュータは、記憶手順として、データベース４に対して、符号化データ圧縮部３で圧縮された圧縮符号化形態素データを記録するように制御する。
このように、本発明の実施形態に係る文書情報格納プログラムを記録した記録媒体によれば、コンピュータの制御の下で、文書情報を格納するに際し、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部１を通して、形態素を解析し、符号化部としての形態素解析データ符号化部２が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部３が圧縮を行なうので高い圧縮率を期待できる。
【０１０３】
ところで、前記の記憶媒体Ａに対し、コンピュータに、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順とインデクス作成手順で作成されたインデクスをインデクス記憶手段に格納させるインデクス記憶手順を実行させるプログラムを付加した文書情報格納プログラムを記録した記録媒体（以下、説明の便宜上、符号「Ｂ」を付す）に関しても、上述の記憶媒体Ａと同様に高い圧縮率を望むことができる。
【０１０４】
ここで、インデクス作成手順として、コンピュータは、インデクス作成部５に文書情報形態素解析部１において抽出された単語（形態素を含む）或いは形態素解析データ符号化部２において所定の数値に符号化された符号化形態素データを用いて文書情報インデクスを作成するように制御し、インデクス記憶手順として、コンピュータは、文書情報インデクス作成部５に作成した文書情報インデクスを記憶するように制御する。
【０１０５】
このようにして、記録媒体Ｂは、更に、符号化ステップでの符号化に用いる単語（形態素を含む）と文書情報インデクス作成部５で用いる単語の抽出（分割）を、形態素解析部としての文書情報形態素解析部１における一度の処理で行なうことにより、非常に効率的で、形態素解析部１と形態素解析データ符号化部２とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【０１０６】
（４ｂ）文書情報検索プログラムを記録した記録媒体
本発明の実施形態に係る文書情報検索プログラムを記録した記録媒体（以下、説明の便宜上、符号「Ｃ」を付す）に関して、図１に示すような手段を備えて構成される文書情報格納検索装置１００を用いて説明する。
尚、（１）等で用いたものと同じものについては、その説明を省略する。
【０１０７】
ところで、文書情報検索プログラムは、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、符号化手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、照合手順での照合結果に基づいて、復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるためのプログラムであるが、コンピュータは、記録媒体Ｃに記録されている文書情報検索プログラムを読み込んで、コンピュータの中央処理装置（ＣＰＵ）が、各ハードウェアに処理の制御を以下に説明するように、施すようになっている。
【０１０８】
文書情報格納検索装置１００にネットワーク等を介して電気的信号や光信号等が入力されると、コンピュータは、形態素解析手順として、文書情報形態素解析部１に、入力された検索質問を解析して（形態素を含む）を抽出するように制御する。
符号化手順として、形態素解析データ符号化部２は、コンピュータの実行制御の下、文書情報形態素解析部１により、分離された単語（形態素を含む）を所定の数値に符号化処理を施す。
【０１０９】
コンピュータは、記憶手順により、データベース４に格納されている圧縮符号化形態素データを、復元手順として、圧縮符号化データ復元部７に、所定の数値に復元するように制御する。
コンピュータは、照合手順として、照合判定部８に、符号手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかいなかを判定するように制御する。
【０１１０】
コンピュータは、形態素復元手順として、照合結果に基づいて必要な場合に、符号化形態素復号化部９に、符号化数値を形態素に復号化するように制御する。
このように、本発明の実施形態に係る文書情報検索プログラムを記録した記録媒体Ｃによれば、コンピュータの制御の下、大量の文書情報を格納する装置に対する文書情報の検索に際し、検索処理をスムースに行なうことができる。
【０１１１】
ところで、前記の記録媒体Ｃに対し、コンピュータに、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順を実行させるプログラムを付加した文書情報検索プログラムを記録した記録媒体（以下、説明の便宜上、符号「Ｄ」を付す）に関しても、前記の記録媒体Ｃと同様にスムースな検索処理を行なうことができる。
【０１１２】
ここで、インデクス検索手順として、コンピュータは、照合判定部８に、文書情報を格納する際に文章情報インデクス作成部５が作成した文書情報インデクスを検索するように制御し、復元手順として、コンピュータは、圧縮符号化データ復元部７に、記憶手順によりデータベース４に記憶されている圧縮符号化形態素データを検索に基づき、復元するように制御する。
【０１１３】
このように、記録媒体Ｄは、更に、文書情報インデクスを用いることで、大容量の文書情報を格納するデータベース４に対して、情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる。
（５）その他の説明
（５ａ）他の実施形態
図１７〜図１９は、その他の実施形態にかかる情報格納検索装置（４００，５００，６００）を示す図であり、先ず、図１７に示すように情報格納検索装置４００は、前述の第１実施形態におけるものに比して、文書情報インデクス作成部５や同義語辞書等（１１，１２，１３）を備えて構成されていない点が異なり、その他（符号１，２，３，４，７，８，９，１０参照）の構成は同様である。尚、（１）で用いたものと同じものついては、その説明を省略する。
【０１１４】
上述の構成により、形態素解析ステップで文書情報形態素解析部１が入力されてくる文書情報を解析して単語（形態素を含む）を抽出し、形態素解析データ符号化部２が数値に符号化処理を施し（符号化ステップ）、更に、符号化データ圧縮部３が異なる数値に符号化する圧縮処理（圧縮ステップ）を施した後に、圧縮された符号化形態素データがデータベース４に格納される（記憶ステップ）。
【０１１５】
このように、図１７に示す情報格納検索装置４００によれば、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部１を通して、形態素を解析し、符号化部としての形態素解析データ符号化部２が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部３が圧縮を行なうので高い圧縮率を期待できる。
【０１１６】
図１８に示すように情報格納検索装置５００は、前述の第１実施形態におけるものに比して、同義語辞書等（１１，１２，１３）を備えて構成されていない点が異なり、その他（符号１，２，３，４，５，６，７，８，９，１０参照）の構成は同様である。尚、（１）で用いたものと同じものついては、その説明を省略する。
【０１１７】
上述の構成により、図１８に示す情報格納検索装置５００は、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部１を通して、形態素を解析し、符号化部としての形態素解析データ符号化部２が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部３が圧縮を行なう。
【０１１８】
このように、図１８に示す情報格納検索装置５００によれば、高い圧縮率を期待することができ、大容量の文書情報をデータベース４に蓄積することが可能である。
更に、符号化ステップでの符号化に用いる単語（形態素を含む）と文書情報インデクス作成部５で用いる単語の抽出（分割）を、形態素解析部としての文書情報形態素解析部１における一度の処理で行なうことにより、非常に効率的で、形態素解析データ符号化部２と文書情報インデクス作成部５とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【０１１９】
検索の際には、格納時に作成した文書情報インデクスを用いることで、検索が容易であり、その復元作業の時間も長時間を要しないことが望むことができる。他方、図１９に示すように情報格納検索装置６００は、前述の第１実施形態におけるものに比して、文書情報インデクス作成部５を備えて構成されていない点が異なり、その他（符号１，２，３，４，７，８，９，１０，１１，１２，１３参照）の構成は同様である。尚、（１）で用いたものと同じものについては、その説明を省略する。
【０１２０】
上述の構成により、情報格納検索装置６００は、文書情報（例えば、文書ＩＤ１３中の「中田守・・・・・」）を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部１を通して、形態素を解析し、人名辞書等（１４，１５）を参照して符号化部としての形態素解析データ符号化部２が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部３が圧縮を行ないつつ、且つ、元の文書（ネットワーク等から入力されてくる文書情報）の性質を考慮して符号化を行なう（例えば、名簿である場合は、人名や住所を基に符号化する）。更に、情報格納検索装置６００は、符号化ステップでの符号化に用いる単語（形態素を含む）と文書情報インデクス作成部５で用いる単語の抽出（分割）を、形態素解析部としての文書情報形態素解析部１における一度の処理で行なう。
【０１２１】
このように、情報格納検索装置６００によれば高い圧縮率を期待できるとともに、文書情報インデクスを作成するに際し、非常に効率的で、形態素解析部１と形態素解析データ符号化部２とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
（５ｂ）検索装置と格納装置についての他の実施形態尚、説明の便宜を図り、前述の如く、文書情報を格納する装置と文書情報を検索する装置を説明する上で、両装置の機能を具備する情報格納検索装置を用いたが、文書情報を格納する装置と、文書情報を検索する装置とが、分離することでも、従来の技術上の課題を解決することができる。
【０１２２】
（５ｃ）インデクス作成部
本発明の実施形態に係る文書情報インデクス作成部５は、検索質問に関する文書情報インデクスをも作成することができる。
以下、前記の（１）の第一実施形態にかかる情報格納検索装置１００を用いて説明する。尚、（１）で用いたものと同じものについては、その説明を省略する。
【０１２３】
この場合、文書情報インデクス作成部５は、入力された検索質問に対して、文書情報形態素解析部１で解析により抽出された単語（形態素を含む）或いは、形態素解析データ符号化部２で符号化処理が施された符号化形態素データを用いて文書情報を作成する。
照合判定部８は、文書情報インデクス作成部５にて作成された検索質問の文書情報インデクスと、データベース４に格納されている文書情報の文書情報インデクスを用いて文書情報の検索を行なう。
【０１２４】
このような検索質問の文書情報インデクスを利用する文書情報の検索を実行する文書情報格納検索装置によれば、大容量の文書情報データの検索に際し、格納されている文書情報の文書情報インデクスを検索することで、通常の文書情報を検索するより、短時間に処理を実行することが望める。
ここで、検索質問に関して、文書情報形態素解析部１における解析処理或いは、形態素解析データ符号化部２における符号化処理に際して、同義語辞書１１等を参照して得られた情報を基に、文書情報インデクス作成部５が作成した文書情報インデクスを利用して、照合判定部８が、データベース４に格納されている文書の文書情報インデクス６を検索することにおいても、データベース４内に蓄積されている大容量の文章情報データから検索事項に適合した文書情報の読み出しを短時間に処理することができる。
【０１２５】
（５ｄ）復号についての他の実施形態
尚、前述では、データベース４に格納されている文書情報を伸長する過程で、圧縮されている文書情報を圧縮符号化データ復元部７で復元して照合判定部８で検索質問に適合するか判定が行なわれるようになっている。ここで、符号化形態素復号化部９において復号された形態素データを基に、照合判定部８が、検索質問に適合する文書情報であるか否かを判定するようにしてもよい。
【０１２６】
（５ｅ）符号化データ圧縮部についての他の実施形態
圧縮処理の過程の一例として、前述では、出現頻度が高い文字列ほど、圧縮するのに用いるコードが短く設定されている等を述べたが、圧縮処理過程は、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
【０１２７】
【発明の効果】
以上詳述したように、本発明の文書情報格納装置によれば、形態素解析部が形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出し、符号化部により形態素解析部で抽出された形態素が符号化され、圧縮部で符号化部により符号化された形態素に圧縮処理を施し、記憶部において圧縮部で圧縮された符号化形態素を格納するように構成されているので、入力された文書情報を直接格納せずに、単語（形態素を含む）に分け、それらを数値符号化し、更に、圧縮する符号化処理を施すことで、高い圧縮率を望め、大容量のデータを格納することができる利点がある。
【０１２８】
また、請求項１記載の本発明の文書情報格納装置は、同義語辞書，シソーラス，対訳辞書のうちの少なくとも一つをそなえ、符号化用の情報を持つ符号化部が、同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて、形態素を符号化するように構成されているので、文書情報を直接圧縮するのではなく、人名辞書等を参照して符号化部が所定の数値に符号化処理を施し、更に、符号化した形態素データを圧縮部が圧縮を行ないつつ、且つ、元の文書（ネットワーク等から入力されてくる文書情報）の性質を考慮して符号化を行なう（例えば、名簿である場合は、人名や住所を基に符号化する）ことと相まって、更に高い圧縮率を期待できる利点がある。
【０１２９】
また、請求項１記載の本発明の文書情報格納装置は、圧縮部が、符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すように構成されるので、同様に高い圧縮率を期待できる利点がある。
ここで、請求項２記載の本発明の文書情報格納装置は、インデクス作成部が形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、インデクス記憶部でインデクス作成部により作成されたインデクスを格納するように構成されるので、符号化部での符号化に用いる単語（形態素を含む）とインデクス作成部で用いる単語の抽出（分割）を、形態素解析部における一度の処理で行なうことにより、非常に効率的で、インデクス作成部と符号化部とで独自に単語の抽出処理を施す場合より、時間を短縮することができる利点がある。
【０１３１】
一方、請求項３記載の本発明の文書情報格納方法によれば、形態素解析ステップでコンピュータの中央処理装置が形態素解析処理を施して、文書情報から文書情報構成要素としての形態素を抽出し、符号化ステップにより形態素解析ステップで抽出された形態素を中央処理装置が符号化して、圧縮ステップで符号化ステップにおいて符号化された形態素に中央処理装置が圧縮処理を施し、記憶ステップで圧縮ステップにより圧縮された符号化形態素を記憶部に格納するように構成されているので、入力された文書情報を直接格納せずに、単語（形態素を含む）に分け、それらを数値符号化し、更に、圧縮する符号化処理を施すことで、高い圧縮率を望め、大容量のデータを格納することができる利点がある。
さらに、請求項３記載の本発明の文書情報格納方法によれば、符号化ステップが、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するので、文書情報を直接圧縮するのではなく、一度、形態素解析ステップを通して、形態素を解析し、人名辞書等を参照して符号化ステップが所定の数値に符号化処理を施し、更に、符号化した形態素データを圧縮ステップが圧縮を行ないつつ、且つ、元の文書（ネットワーク等から入力されてくる文書情報）の性質を考慮して符号化を行なう（例えば、名簿である場合は、人名や住所を基に符号化する）ことと相まって、更に高い圧縮率を期待できる利点がある。
また、請求項３記載の本発明の文書情報格納方法は、圧縮ステップが、符号化ステップで符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すように構成されているので、同様に高い圧縮率を期待できる利点がある。
【０１３２】
ここで、請求項４記載の本発明の文書情報格納方法は、中央処理装置が、インデクス作成ステップにおいて形態素解析ステップで抽出された形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、インデクス記憶ステップがインデクス作成ステップで作成されたインデクスをインデクス記憶部に格納するように備えられるので、符号化ステップでの符号化に用いる単語（形態素を含む）とインデクス作成ステップで用いる単語の抽出（分割）を、形態素解析ステップにおける一度の処理で行なうことにより、非常に効率的で、インデクス作成ステップと符号化ステップとで独自に単語の抽出処理を施す場合より、時間を短縮することができる利点がある。
【０１３５】
他方、請求項５記載の文書情報検索装置は、形態素解析部と、符号化部と、圧縮部と、記憶部とを有する文書情報格納装置における記憶部に格納されている圧縮符号化形態素を復元部が元の符号化形態素データに復元し、照合部で検索質問に適合した、符号化形態素データが復元されているかどうかの判定を行ない、復号化部で、照合部での照合結果に基づいて復元部で復元された符号化形態素データを形態素に戻すように構成されるので、大容量の文書情報からのデータの検索を行なうことができる利点がある。
【０１３６】
ここで、請求項６記載の本発明の文書情報検索装置は、照合部が、符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成されていることから、大容量の文書情報からのデータの検索を正確に行なうことができる利点がある。
【０１３７】
また、請求項７記載の本発明の文書情報検索装置は、インデクス作成部と、インデクス記憶部とを文書情報格納装置に付加し、照合部が、形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、復元部でこの検索の結果得られたインデクスの情報に基づいて、記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元させるように構成されているので、文書情報格納装置が格納する大容量の文書情報からの文書情報の検索にインデクスを用いることで、非常にスムースに行なうことができる利点がある。
【０１３８】
更に、請求項８記載の本発明の文書情報検索装置は、照合部が、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合する符号化形態素データが復元されているかどうかを判定するように構成されているので、文書情報格納装置が蓄積する大容量の文書情報から自由度のある検索（例えば、曖昧検索としての同義語検索）を行なうことができる利点がある。
【０１３９】
並びに、請求項９記載の本発明の文書情報検索装置は、インデクス作成部とインデクス記憶部とを文書情報格納装置に付加し、照合部が、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、復元部が、この検索の結果得られたインデクスの情報に基づいて記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元させるように構成されることで、文書情報格納装置が蓄積する大容量の文書情報に対して、自由度のある検索（例えば、曖昧検索としての同義語検索）を行なうことができる利点があるとともに、文書情報格納装置が格納する大容量の文書情報からの文書情報の検索にインデクスを用いることで、非常にスムースに行なうことができる利点がある。
【０１４０】
他方、請求項１０記載の本発明の文書情報検索方法は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、形態素解析ステップでコンピュータの中央処理装置が形態素解析処理を施すことにより、検索質問から形態素を抽出し、符号化ステップにおいて中央処理装置が形態素解析ステップで抽出された形態素を符号化する処理を行ない、復元ステップで中央処理装置が文書情報格納装置における記憶手段に格納されている圧縮符号化形態素を元の符号化形態素に復元し、照合ステップが符号化ステップで得られた符号化形態素形式の検索質問と、復元ステップで復元された符号化形態素とを照合して、符号化ステップで得られた符号化形態素に対応する記憶手段中の符号化形態素が復元されているかどうかの判定を行ない、そして復号化ステップにおいて中央処理装置が照合ステップでの照合結果に基づいて、復元ステップで復元された符号化形態素を形態素に戻すように構成されるので、文書情報格納装置に蓄積される大容量の文書情報から文書情報の検索を正確に行なうことができる利点がある。
【０１４１】
ここで、請求項１１記載の本発明の文書情報検索方法は、照合ステップが、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素とを照合して、検索質問に適合した、符号化形態素が復元されているかどうかを判定するように構成されているので、文書情報格納装置が蓄積する大容量の文書情報から自由度のある検索（例えば、曖昧検索としての同義語検索）を行なうことができる利点がある。
【０１４２】
並びに、請求項１２記載の文章情報検索方法は、記憶手段が圧縮された符号化形態素を記憶するとともに、インデクス記憶手段が文書情報のインデクスを格納する文書情報格納装置に対して、形態素解析ステップで、検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出し、符号化ステップで形態素解析ステップが抽出する形態素の符号化を行ない、インデクス検索ステップで形態素解析ステップが抽出する形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行ない、復元ステップがインデクス検索ステップで得られたインデクス情報に基づいて、記憶手段で格納されている圧縮符号化形態素を元の符号化形態素データへ復元し、復号化ステップにおいて中央処理装置が復元ステップで復元された符号化形態素データを形態素に戻すように構成されるので、文書情報格納装置が格納する大容量の文書情報からの文書情報の検索処理に際して、インデクスを用いることで、非常にスムースに行なうことができる利点がある。
【０１４３】
ここで、請求項１３記載の文書情報検索方法は、文書情報格納装置が、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて、形態素を符号化するように構成され、且つ、インデクス検索ステップが、同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて、インデクス検索を行なうように構成されていることで、所定の単語（形態素を含む）は、同義語辞書等により所定の数値に符号化されて、それに対応する符号で文書情報の検索が行なわれるので、検索処理を非常にスムースに行なうことができる。
【０１４４】
並びに、請求項１４記載の記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるための文書情報格納プログラムを記録しているので、入力された文書情報を直接格納せずに、単語（形態素を含む）に分け、それらを数値符号化し、更に、圧縮する符号化処理を施すことで、高い圧縮率を望め、大容量のデータを格納することができる利点がある。
【０１４５】
ここで、請求項１５記載の記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析手順と、符号化手順と、圧縮手順と、記憶手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順と、インデクス作成手順で作成されたインデクスをインデクス記憶手段に格納させるインデクス記憶手順とを実行させるための文書情報格納プログラムを記録しているので、符号化手順での符号化に用いる単語（形態素を含む）とインデクス作成手順で用いる単語の抽出（分割）を、形態素解析手順における一度の処理で行なうことにより、非常に効率的で、インデクス作成手順と符号化手順とで独自に単語の抽出処理を施す場合より、時間を短縮することができる利点がある。
【０１４６】
一方、請求項１６記載の本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、符号化手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、照合手順での照合結果に基づいて、復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるための文書情報検索プログラムを記録しているので、コンピュータの制御の下、大量の文書情報を格納する装置から文書情報を検索するに際し、検索処理をスムースに行なうことができる。
【０１４７】
ここで、請求項１７記載の本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順と、インデクス検索手順で得られたインデクス情報に基づいて、記憶手順で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、復元手順で復元された符号化形態素データを形態素に戻す復号化手順とをコンピュータに実行させるための文書情報検索プログラムを記録しているので、インデクスを用いることで、文書情報格納装置に格納されている大容量の文書情報から情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる利点がある。
【図面の簡単な説明】
【図１】本発明の第１実施形態にかかる文書情報格納検索装置を示すブロック図である。
【図２】本発明の第１実施形態にかかる同義語辞書，シソーラスの一例を示す図である。
【図３】本発明の第１実施形態にかかる対訳辞書の一例を示す図である。
【図４】本発明の第１実施形態にかかる文書情報格納検索装置が、文書情報を格納する際の処理の流れを説明するための図である。
【図５】本発明の第１実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図６】本発明の第１実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図７】本発明の第２実施形態にかかる文書情報格納検索装置を示すブロック図である。
【図８】本発明の第２実施形態にかかる人名辞書の一例を示す図である。
【図９】本発明の第２実施形態にかかる郵便番号辞書の一例を示す図である。
【図１０】本発明の第２実施形態にかかる入力する文書情報の一例を示す図である。
【図１１】本発明の第２実施形態にかかる文書情報格納検索装置が、文書情報を格納する際の処理の流れを説明するための図である。
【図１２】本発明の第２実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図１３】本発明の第３実施形態にかかる文書情報格納検索装置を示すブロック図である。
【図１４】（ａ）〜（ｃ）はそれぞれ本発明の第３実施形態にかかる格納する文書情報の一例を示す図である。
【図１５】本発明の第３実施形態にかかる文書情報インデクスの一例を示す図である。
【図１６】本発明の第３実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図１７】本発明の他の実施形態を示す図である。
【図１８】本発明の他の実施形態を示す図である。
【図１９】本発明の他の実施形態を示す図である。
【符号の説明】
１，１−１文書情報形態素解析部（形態素解析部）
２形態素解析データ符号化部（符号化部）
３符号化データ圧縮部（圧縮部）
４データベース（記憶部）
５文書情報インデクス作成部（インデクス作成部）
６文書情報インデクス記憶部（インデクス記憶部）
６−１，６−２文書情報インデクス
７圧縮符号化データ復元部（復元部）
８照合判定部（照合部）
９符号化形態素復号化部（復号化部）
１０結果出力部
１１同義語辞書
１２シソーラス
１３対訳辞書
１４人名辞書
１５郵便番号辞書
１００，２００，３００，４００，５００，６００文書情報格納検索装置

Claims

形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、
該形態素解析部で抽出された形態素を符号化する符号化部と、
該符号化部で符号化された形態素に圧縮処理を施す圧縮部と、
該圧縮部で圧縮された符号化形態素を格納する記憶部とをそなえるとともに、
符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも一つをそなえ、
該符号化部が、上記の同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて、該形態素を文書内容に合わせて符号化するとともに、
該圧縮部が、該符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すように構成されていることを特徴とする、文書情報格納装置。
該形態素解析部で抽出された該形態素及び該符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、
該インデクス作成部で作成された該インデクスを格納するインデクス記憶部とをそなえていることを特徴とする、請求項１記載の文書情報格納装置。
コンピュータを用いて文書情報を格納するに際し、
該文書情報が入力されることにより、該コンピュータの中央処理装置が、該文書情報に対し、形態素解析処理を施して、該文書情報から文書情報構成要素としての形態素を抽出する形態素解析ステップと、
該形態素解析ステップで抽出された形態素を該中央処理装置が符号化する符号化ステップと、
該符号化ステップで符号化された形態素に該中央処理装置が圧縮処理を施す圧縮ステップと、
該圧縮ステップで圧縮された符号化形態素を記憶部に格納する記憶ステップとをそなえ、
該符号化ステップが、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて、該形態素を文書内容に合わせて符号化するとともに、
該圧縮ステップが、該符号化ステップで符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すことを特徴とする、文書情報格納方法。
該中央処理装置が、該形態素解析ステップで抽出された該形態素及び該符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成ステップと、
該インデクス作成ステップで作成された該インデクスをインデクス記憶部に格納するインデクス記憶ステップとをそなえていることを特徴とする、請求項３記載の文書情報格納方法。
形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、該形態素解析部で抽出された形態素を符号化する符号化部と、該符号化部で符号化された形態素に圧縮処理を施す圧縮部と、該圧縮部で圧縮された符号化形態素を格納する記憶部とを有するとともに、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも一つをそなえ、該符号化部が、上記の同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて、該形態素を文書内容に合わせて符号化するとともに、該圧縮部が、該符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施すように構成された文書情報格納装置における該記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元部と、
検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合部と、
該照合部での照合結果に基づいて、該復元部で復元された符号化形態素データを形態素に戻す復号化部とをそなえて構成されたことを特徴とする、文書情報検索装置。
該照合部が、符号化形態素形式の検索質問と、該復元部で復元された符号化形態素データとを照合して、該検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成されていることを特徴とする、請求項５記載の文書情報検索装置。
該形態素解析部で抽出された該形態素及び該符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、該インデクス作成部で作成された該インデクスを格納するインデクス記憶部とを該文書情報格納装置に付加し、
該照合部が、形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られた該インデクスの情報に基づいて、該記憶部に格納されている圧縮符号化形態素を該復元部で元の符号化形態素データに復元させるように構成されていることを特徴とする、請求項５記載の文書情報検索装置。
該照合部が、上記の同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、該復元部で復元された符号化形態素データとを照合して、該検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成されていることを特徴とする、請求項５記載の文書情報検索装置。
該形態素解析部で抽出された該形態素及び該符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、該インデクス作成部で作成された該インデクスを格納するインデクス記憶部とを該文書情報格納装置に付加し、
該照合部が、上記の同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られた該インデクスの情報に基づいて、該記憶部に格納されている圧縮符号化形態素を該復元部で元の符号化形態素データに復元させるように構成されていることを特徴とする、請求項５記載の文書情報検索装置。
文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、
入力された該検索質問について、該コンピュータの中央処理装置が、形態素解析処理を施すことにより、該検索質問から形態素を抽出する形態素解析ステップと、
該形態素解析ステップで抽出された該形態素を該中央処理装置が符号化する符号化ステップと、
該文書情報格納装置における該記憶手段に格納されている圧縮符号化形態素を該中央処理装置が元の符号化形態素に復元する復元ステップと、
該中央処理装置が、該符号化ステップで得られた符号化形態素と、該復元ステップで復元された符号化形態素とを照合して、該符号化ステップで得られた符号化形態素に対応する該記憶手段中の符号化形態素が復元されているかどうかを判定する照合ステップと、
該照合ステップでの照合結果に基づいて、該中央処理装置が該復元ステップで復元された符号化形態素を形態素に戻す復号化ステップとをそなえて構成されたことを特徴とする、文書情報検索方法。
該照合ステップが、上記の同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、該復元部で復元された符号化形態素とを照合して、該検索質問に適合した、符号化形態素が復元されているかどうかを判定するように構成されていることを
特徴とする、請求項１０記載の文書情報検索方法。
文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、
入力された該検索質問について、該コンピュータの中央処理装置が、形態素解析処理を施すことにより、該検索質問から形態素を抽出する形態素解析ステップと、
該形態素解析ステップで抽出された該形態素を該中央処理装置が符号化する符号化ステップと、
該形態素解析ステップで抽出された該形態素及び該符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索ステップと、
該インデクス検索ステップで得られたインデクス情報に基づいて、該記憶手段で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元ステップと、
該復元ステップで復元された符号化形態素データを該中央処理装置が形態素に戻す復号化ステップとをそなえて構成されたことを特徴とする、文書情報検索方法。
該インデクス検索ステップが、上記の同義語辞書，シソーラス，対訳辞書のうちのいずれかからの情報を用いて、インデクス検索を行なうように構成されていることを特徴とする、請求項１２記載の文書情報検索方法。
コンピュータに、
入力された文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、
該符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施す圧縮手順と、
該圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるための文書情報格納プログラムを記録した記録媒体。
コンピュータに、
入力された文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、
該符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施す圧縮手順と、
該圧縮手順で圧縮された符号化形態素を記憶手段に格納させる記憶手順と、
該形態素解析手順で抽出された該形態素及び該符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順と、
該インデクス作成手順で作成された該インデクスをインデクス記憶手段に格納させるインデクス記憶手順とを実行させるための文書情報格納プログラムを記録した記録媒体。
文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、
入力された該検索質問について、形態素解析処理を施すことにより、該検索質問情報から形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された該形態素を符号化する符号化手順と、
該記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、
該符号化手順で得られた符号化形態素形式の検索質問と、該復元手順で復元された符号化形態素データとを照合して、該検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、
該照合手順での照合結果に基づいて、該復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるための文書情報検索プログラムを記録した記録媒体。
文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書，シソーラス，対訳辞書のうちの少なくとも１つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて１つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、
入力された該検索質問について、形態素解析処理を施すことにより、該検索質問情報から形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された該形態素を符号化する符号化手順と、
該形態素解析手順で抽出された該形態素及び該符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順と、
該インデクス検索手順で得られたインデクス情報に基づき、該記憶手順で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、
該復元手順で復元された符号化形態素データを形態素に戻す復号化手順とを該コンピュータに実行させるための文書情報検索プログラムを記録した記録媒体。