JP4057681B2 - 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 - Google Patents
文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4057681B2 JP4057681B2 JP24583797A JP24583797A JP4057681B2 JP 4057681 B2 JP4057681 B2 JP 4057681B2 JP 24583797 A JP24583797 A JP 24583797A JP 24583797 A JP24583797 A JP 24583797A JP 4057681 B2 JP4057681 B2 JP 4057681B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- encoded
- document information
- unit
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
(目次)
発明の属する技術分野
従来の技術
発明が解決しようとする課題
課題を解決するための手段
発明の実施の形態(図1〜図19)
・第1実施形態(図1〜図5)
・第2実施形態(図7〜図12)
・第3実施形態(図13〜図16)
・記録媒体
・その他(図17〜図19)
発明の効果
【0002】
【発明の属する技術分野】
本発明は、大容量文書情報の格納や検索に用いて好適な文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体に関する。
【0003】
【従来の技術】
従来、データベースに蓄積する情報を検索する装置では、大容量の文書データを格納(store)する場合、そのまま文書データを格納するか、文書データを圧縮してから格納する方法がある。
また、検索に際しては、データベースに格納されているデータを直に検索するか、格納とは別途作成されたインデクスを用いて文書の検索が行なわれていた。
【0004】
【発明が解決しようとする課題】
しかし、このような従来の文書データをそのままデータベースに格納する方式では、データの格納に必要な容量が大きくなる問題がある。
また、インデクスを作成せずに、文書データを圧縮して格納する方式では、検索速度が遅く成りうる。
【0005】
ここで、圧縮して格納する方式において、文書データの格納とは別途、検索に用いるインデクスを作成する場合、データの格納に必要な容量も少なく、検索速度も遅くない。しかし、文書データなどの情報を格納する際に、データの圧縮とインデクスの作成の二つを別々に行なうため処理時間が掛かる。
また、文書データを圧縮して格納する場合に、文書データの中の統計的な情報を十分に用いていないため、圧縮が十分でない場合がある。
【0006】
このように、大容量の文書データ等の情報を格納する装置において、格納するに必要な領域を小さくすることと、インデクスを作成しつつ格納するときの処理時間を短くするという、課題がある。
本発明は、このような課題に鑑み創案されたもので、大容量の文書データなどの情報を格納するのに必要な領域を小さくするとともに、インデクスを作成しつつ文書データを格納するときの処理時間が短い文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】
上述の目的を達成するために、本発明の文書情報格納装置は、形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、形態素解析部で抽出された形態素を符号化する符号化部と、符号化部で符号化された形態素に圧縮処理を施す圧縮部と、圧縮部で圧縮された符号化形態素を格納する記憶部とをそなえるとともに、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも一つをそなえ、符号化部が、上記の同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するとともに、圧縮部が、符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すように構成されたことを特徴としている(請求項1)。
【0008】
または、本発明の文書情報格納装置は、形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、インデクス作成部で作成されたインデクスを格納するインデクス記憶部とをそなえるようにしてもよい(請求項2)。
【0010】
他方、本発明の文書情報格納方法は、コンピュータを用いて文書情報を格納するに際し、文書情報が入力されることにより、コンピュータの中央処理装置が、文書情報に対し、形態素解析処理を施して、文書情報から文書情報構成要素としての形態素を抽出する形態素解析ステップと、形態素解析ステップで抽出された形態素を中央処理装置が符号化する符号化ステップと、符号化ステップで符号化された形態素に中央処理装置が圧縮処理を施す圧縮ステップと、圧縮ステップで圧縮された符号化形態素を記憶部に格納する記憶ステップとをそなえ、符号化ステップが、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するとともに、圧縮ステップが、符号化ステップで符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すように構成されたことを特徴としている(請求項3)。
【0011】
ここで、中央処理装置が、形態素解析ステップで抽出された形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成ステップと、インデクス作成ステップで作成されたインデクスをインデクス記憶部に格納するインデクス記憶ステップとをそなえるようにしてもよい(請求項4)。
【0013】
並びに、本発明の文書情報検索装置は、形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、形態素解析部で抽出された形態素を符号化する符号化部と、符号化部で符号化された形態素に圧縮処理を施す圧縮部と、圧縮部で圧縮された符号化形態素を格納する記憶部とを有するとともに、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも一つをそなえ、符号化部が、上記の同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するとともに、圧縮部が、符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すように構成された文書情報格納装置における記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元部と、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合部と、照合部での照合結果に基づいて、復元部で復元された符号化形態素データを形態素に戻す復号化部とをそなえて構成されたことを特徴としている(請求項5)。
【0014】
ここで、照合部が、符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定するような構成を備えることもよい(請求項6)。さらに、形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、インデクス作成部で作成されたインデクスを格納するインデクス記憶部とを文書情報格納装置に付加し、照合部が、形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られたインデクスの情報に基づいて、記憶部に格納されている圧縮符号化形態素を復元部で元の符号化形態素データに復元させるように構成してもよい(請求項7)。
【0015】
照合部が、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成してもよい(請求項8)。
【0016】
さらに、形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、インデクス作成部で作成されたインデクスを格納するインデクス記憶部とを文書情報格納装置に付加し、照合部が、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られたインデクスの情報に基づいて、記憶部に格納されている圧縮符号化形態素を復元部で元の符号化形態素データに復元させるように構成を備えても実施に際して好適である(請求項9)。
【0017】
並びに、本発明の文書情報検索方法は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、入力された検索質問について、コンピュータの中央処理装置が、形態素解析処理を施すことにより、検索質問から形態素を抽出する形態素解析ステップと、形態素解析ステップで抽出された形態素を中央処理装置が符号化する符号化ステップと、文書情報格納装置における記憶手段に格納されている圧縮符号化形態素を中央処理装置が元の符号化形態素に復元する復元ステップと、中央処理装置が、符号化ステップで得られた符号化形態素と、復元ステップで復元された符号化形態素とを照合して、符号化ステップで得られた符号化形態素に対応する該記憶手段中の符号化形態素が復元されているかどうかを判定する照合ステップと、照合ステップでの照合結果に基づいて、中央処理装置が復元ステップで復元された符号化形態素を形態素に戻す復号化ステップとをそなえて構成されたことを特徴としている(請求項10)。
【0018】
ここで、照合ステップが、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素とを照合して、検索質問に適合した、符号化形態素が復元されているかどうかを判定するように構成してもよい(請求項11)。
【0019】
並びに、本発明の文書情報検索方法は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、入力された検索質問について、コンピュータの中央処理装置が、形態素解析処理を施すことにより、検索質問から形態素を抽出する形態素解析ステップと、形態素解析ステップで抽出された形態素を中央処理装置が符号化する符号化ステップと、形態素解析ステップで抽出された形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索ステップと、インデクス検索ステップで得られたインデクス情報に基づいて、記憶手段で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元ステップと、復元ステップで復元された符号化形態素データを中央処理装置が形態素に戻す復号化ステップとをそなえて構成されたことを特徴としてもよい(請求項12)。
【0020】
ここで、インデクス検索ステップが、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて、インデクス検索を行なうように構成しても好適に実施を確報することができる(請求項13)。
【0021】
並びに、本発明の文書情報格納プログラムを記録した記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるプログラムが記録されている(請求項14)。
【0022】
一方、本発明の記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を記憶手段に格納させる記憶手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順と、インデクス作成手順で作成されたインデクスをインデクス記憶手段に格納させるインデクス記憶手順とを実行させるための文書情報格納プログラムが記録されている(請求項15)。
【0023】
他方、本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、符号化手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、照合手順での照合結果に基づいて、復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるための文書情報検索プログラムが記録されている(請求項16)。
【0024】
さらに、本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順と、インデクス検索手順で得られたインデクス情報に基づいて、記憶手順で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、復元手順で復元された符号化形態素データを形態素に戻す復号化手順とをコンピュータに実行させるための文書情報検索プログラムが記録されている(請求項17)。
【0025】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明の第一実施形態を示すブロック図で、この図1に示す文書情報格納検索装置100は、文書情報形態素解析部1,形態素解析データ符号化部2,符号化データ圧縮部3,データベース4,文書情報インデクス作成部5,文書情報インデクス記憶部6,圧縮符号化データ復元部7,照合判定部8,符号化形態素復号化部9,結果出力部10,同義語辞書11,シソーラス12及び対訳辞書13を備えて構成されている。
【0026】
文書情報形態素解析部1は、入力された文書情報に対して、形態素解析を行ない、単語(形態素を含む)を抽出するものである。
ここで、文書情報形態素解析部1に入力されるてくる文書情報データは、それ自体コード化されており、キーボード,ファイル,ネットワーク等からこの文書情報データが入力されるようになっている。
【0027】
換言すると、電気信号或いは光信号として文書情報形態素解析部1に入力される文書(document)を構成する各文字を、文書情報形態素解析部1は、言語の特徴を考慮して、形態素を解析するものである。
形態素解析データ符号化部2は、文書情報解析部1での解析により抽出された単語(形態素を含む)を数値に符号化するものである。ここで、形態素解析データ符号化部2にて符号化した数値は、一義に復号変換するために、同一の数値は、同一の単語(形態素を含む)に割り当てられるようになっている。尚、形態素解析データ符号化部2による符号化の長さは、固定長、或いは、可変長としてもよい。
【0028】
符号化データ圧縮部3は、形態素解析データ符号化部2で符号化された形態素データ(文書情報形態素解析部1で抽出された単語(形態素を含む)を、形態素解析データ符号化部2が数値に符号化したもの。以下同じ)を、更に、異なる数値に符号化して圧縮するものである。
ここで、符号化データ圧縮部3は、単語(形態素を含む)の頻出度合いを考慮して、符号化した形態素データの圧縮処理を施すようになっている。例えば、英語文書中の「This is」は、「This」の後に「is」が続いて表記される頻度が高いことから、「This is」とまとめて一つの数値へ符号化され、更に、英文中において、文字「q」の後には、「u」が続く頻度が高いので、「qu」を一つのコードとして圧縮され、出現頻度が高い文字列ほど、圧縮するのに用いるコードが短く設定されるようになっている。
【0029】
このように、符号化された形態素データ中から単語(形態素を含む)の出現頻度や複数の単語を含んだ文節の出現頻度等の考察を、符号化データ圧縮部3が行なうようになっている。ここで、符号化データ圧縮部3は、形態素解析データ符号化部2において符号化されたデータを一対一対に圧縮する場合に限らず、符号化形態素を複数に圧縮する或いは、複数の符号化形態素を一つの圧縮データ等の圧縮する処理を施すこともできる。
【0030】
データベース4は、符号化データ圧縮部3において圧縮処理を施した圧縮結果を格納するためのもので、二次記憶装置などに設けられている。また、文書情報の検索時において、検索質問に該当する場合に、データベース4に格納されている情報が読み出されるようになっている。
文書情報インデクス作成部5は、形態素解析データ符号化部2において、符号化された符号化形態素に基づいて、情報格納検索装置100に蓄積される文書情報に対する文書情報インデクスを作成するものである。尚、ここで、文書情報インデクスの作成を、形態素解析データ符号化部2で符号化された符号化形態素データを用いずに、文書情報形態素解析部1が解析により抽出した単語(形態素を含む)を用いて、文書情報インデクス作成部5が、文書情報インデクスを作成するように構成してもよい。
【0031】
文書情報インデクスは、文書情報インデクス作成部5が作成するもので、文書情報等を検索する際に用いられるものであり、文書情報インデクス記憶部6に記録されるようになっている。
また、文書情報インデクスは、文書情報の検索において、データベース4から復元した符号化形態素データが検索質問に適合するものであるかの判定を行なうに際して、参照するのに用いることとしてもよい。例えば、文書情報を検索するに際して用いた文書情報インデクスをデータベース4から復元した文書情報が適合するものであるかを判定するに用いることとしてもよい。
【0032】
圧縮符号化データ復元部7は、データベース4に格納された圧縮済の符号列を元の符号列に戻すものである。なお、圧縮符号化データ復元部7は、異なる数値へ復元する符号化処理を施す際に、圧縮されたコードに対して、必ず一つの数値へ符号化処理を施すものに限らず、2以上の数値への符号化処理を施すことができる。また、圧縮符号化データ復元部7は、複数の圧縮されたコードに対して、一つの数値へ符号化処理を施すこともできる。
換言すると、文書情報の検索時において、検索質問に相応な文書情報がデータベース4に蓄積されているときに、データベース4に格納されて圧縮されている文書情報を符号化形態素データに復元するものである。
【0033】
照合判定部8は、形態素解析データ符号化部2からの符号化形態素データと圧縮符号化データ復元部7からの符号化形態素データとが、一致するか否かを判定するものである。
ここで、形態素データ符号化部2からの符号化形態素データは、文書情報形態素解析部1により検索質問から抽出した単語(形態素を含む)を形態素解析データ符号化部2が数値に符号化する処理を施したものである。一方、圧縮符号化データ復元部7からの符号化形態素データは、データベース4に格納されている文書情報(圧縮処理を施された符号化形態素データ)を圧縮する処理を施す前の符号化形態素データに圧縮符号化データ復元部7により復元処理を施されたものである。
【0034】
ここで、照合判定部8は、完全一致検索を行なう場合には、検索質問を符号化した数値と、データベース4に蓄積されていた文書情報を圧縮符号化データ復元部7により復元された符号化形態素データの数値が完全に一致するかの処理が行なわれるようになっている。また、曖昧な検索等を実行する場合には、照合判定部8は、数値の完全一致検索を行なわず、一部一致検索を行なうようになっている。
【0035】
符号化形態素復号化部9は、符号化されている符号化形態素データを元の単語(形態素を含む)へ伸長する処理を施すものである。
結果出力部10は、照合判定部8から受け取った情報を元に検索結果を出力するものである。必要に応じて、符号列を元の単語(形態素を含む)へと符号化した文書情報を出力するものである。
【0036】
同義語辞書11は、語形が異なるが、意味がほぼ同じである語を多数保有するものであり、シソーラス(thesaurus)12は、分類体の辞書であり、対訳辞書13は、原文に訳文をならべて記した辞書であり、これらの辞書11,12,13は、インデクス作成の処理を行なう際や、検索を行なう際に用いられるものである。また、同義語辞書等(11,12,13)は、文書情報形態素解析部1での単語(形態素を含む)を抽出する解析に際して、参照するものである。
【0037】
ここで、図2は、同義語辞書,シソーラスの一例を示す図であり、この図2に示す同義語辞書,シソーラスの一例の表にように、同義,類義と見做される単語(形態素を含む)の符号化数値として、同一の(或いは似通った)コードパターンを持つような仕組みになっている。
例えば、同義,類義と見做される「本」,「書物」及び「ブック」等の符号化数値は、図2に示すように、下位1バイトを除く符号化数値は同一に決められている。
【0038】
図3は、対訳辞書の一例を示す図であり、この図3に示す対訳辞書の一例の表のように、同一の概念を表す語には、いずれも同一のパターン(0x73a52100)を含んで区別されている。言語(図3に示す例では、日本語,英語,フランス語である)の違いは、更に上位の符号で区別されている。例えば、日本語であるならば0x、英語でならば0x20、フランス語ならば0x30を符号の上位に数値を配するようになっており、同義、類義である「本」と「書物」の符号化数値は下位1バイトが異なり、他の数値は同じになっており、一方で、「本」と「book」と「livre」とは、それぞれ同義・類義と解釈でき、言語のみが相違することから、符号化数値は上位バイトが異なるように符号化処理が施されるようになっている。
【0039】
ここで、先述した形態素解析データ符号化部2が、文書情報形態素解析部1により解析して抽出した単語(形態素を含む)を、数値へ符号化する際に、図3や図4に示す同義語辞書等(11,12,13)を参照するようになっている。
例えば、文書情報形態素解析部1が、形態素解析処理を施した結果、抽出したものが単語「本」であった場合は、その単語「本」は0x73a52100との数値に符号化処理が、形態素解析データ符号化部2により行なわれるようになっている。対訳辞書を利用する場合も同様で、図4に示す対訳辞書の表の符号化数値を参照して符号化処理が施されるようになっている。
【0040】
尚、同義語辞書等(11,12,13)を参照して形態素解析データ符号化部2で数値化された符号は、同義語辞書等(11,12,13)を参照せずに数値化された符号化形態素データと同様に、文書情報インデクスの作成に用いられる。
形態素解析データ符号化部2は、文書情報インデクス作成部5が文書情報インデクスを作成するために、符号化処理を施した形態素データと文書ID(identifier;識別子)を渡すようになっている。
【0041】
以下、本発明の一実施形態にかかる情報格納検索装置100の要部構成の機能等を、場合を分けて説明する。
(1a)文書情報のデータベースへの格納
キーボード或いはネットワーク等から入力される文書情報を文書情報形態素解析部1は、各コード化された文書列の中から形態素の解析を行ない、解析により抽出した単語(形態素を含む)を形態素解析データ符号化部2に出力するようになっており、形態素の解析に際しては、その言語の特徴を考慮した形態素の解析を行なう。
【0042】
このように、文書情報形態素解析部1は、形態素解析処理を施すことにより、入力された文書情報から文書構成要素としての形態素を抽出する形態素解析部として機能を発揮する。
文書情報形態素解析部1において文書構成要素として抽出された単語(形態素を含む)は、形態素解析データ符号化部2によって、所定の数値に符号化処理を施され、例えば、単語等を所定の数値に符号化する際には、同義語辞書等(11,12,13)を参照して、図2や図3に示す表のように、同義・類義と見做される単語等に対して、同じ様なコードパターンを形成するようにして、数値符号化処理が形態素解析データ符号化部2にて行なわれるようになっている。
【0043】
このように、形態素解析データ符号化部2は、形態素解析部で抽出された形態素を符号化する符号化部としての機能を発揮するようになっている。
符号化データ圧縮部3は、形態素解析データ符号化部2において、コード化された文書列中の形態素を、出現頻度に応じて更に所定のコード化を行なうものである。即ち、文書情報として、出現率の高い単語(形態素を含む)を、短いコードにすることで、圧縮するのである。
【0044】
このように、符号化データ圧縮部3は、符号化部で符号化された形態素に圧縮処理を施す圧縮部としての機能を発揮するものである。
そしてデータベース4へは、符号化データ圧縮部3において、符号化形態素データを更に異なる数値へ符号化した文書情報が格納されるようになっており、これによりデータベース4は、圧縮部で圧縮された符号化形態素を格納する記憶部として機能を果たすものである。
【0045】
形態素解析データ符号化部2による符号化処理により所定の数値へ符号化されている符号化形態素データは、文書情報インデクスを作成する際にも用いられ、この文書情報インデクスの作成は、文書情報インデクス作成部5が行なうようになっている。
このように、文書情報インデクス作成部5は、符号化部で符号化された形態素の情報に基づいてインデクスを作成するインデクス作成部としての役割を果たすものである。
【0046】
文書情報インデクス作成部5により作成された文書情報インデクスは、文書情報インデクス記憶部6に格納されて、データベース4に格納されている文書情報の検索に際して用いられるようになっている。
ここで、文書情報インデクス記憶部6では、形態素解析データ符号化部2により符号化された形態素データと文書IDを用いて文書情報インデクスを記憶するようになっており、文書情報インデクス記憶部6は、インデクス作成部で作成されたインデクスを格納するインデク記憶部としての機能を発揮するものである。
【0047】
上述の構成を備えた第一実施形態にかかる情報格納検索装置100の文書情報の格納の動作を、図4等を用いて以下に説明する。
文書情報を格納の際には、キーボードやネットワーク等を介して入力(ステップS010)される文書情報を、文書情報形態素解析部1が形態素の解析を行なう。
【0048】
この解析の実行は、文書情報をデータベース4に格納するに際して、文書情報を入力することにより、文書情報に対し、形態素解析処理を施して、キーボードやネットワーク等を介して入力された文書情報から文書構成要素としての形態素を抽出する。(形態素解析ステップS020)。
形態素解析ステップで文書情報形態素解析部1が解析して抽出した単語(形態素を含む)を、形態素解析データ符号化部2は、図2や図3に示すような同義語辞書等(11,12,13)を参照して、同義・類義の単語(形態素を含む)に同じ様なコードパターンの数値へ符号化する(符号化ステップS030)。
【0049】
符号化データ圧縮部3は、符号化ステップで形態素解析データ符号化部2が所定の数値に符号化した符号化形態素データを、単語(形態素を含む)の出現頻度等を考慮して、例えば、出現頻度の高い単語等には、簡単なコードを符号化する或いは、コードが可変長である場合に、出現率の高い単語や文節程、符号化したコード長を短くするものであり且つ、逆に、出現率の低い単語や文節程、符号化したコード長が長くする等の更に符号化処理を施す(圧縮ステップS040)。
【0050】
圧縮ステップとして符号化データ圧縮部3で圧縮された符号化形態素データを、二次記憶装置などのデータベース4に記録し、データベース4は、圧縮ステップで圧縮された符号化形態素を格納する(記録ステップS050)。
文書情報インデクス作成部5は、符号化ステップとして形態素解析データ符号化部2で符号化された形態素の情報に基づいて、文書情報インデクスを作成し、文書情報インデクス記憶部6に記憶する(インデクス作成ステップ,インデクス記憶ステップS031)。
【0051】
尚、文書情報インデクスの作成に際して、形態素解析ステップで文書情報形態素解析部1が抽出した単語(形態素を含む)を用いて文書情報インデクスを作成するようにしてもよい(インデクス作成ステップ,インデクス記憶ステップS021)。
ここで、単語(形態素を含む)或いは符号化形態素解析データのいずれかを用いて文書情報インデクスを作成するかは、装置の設計事項に依存するようになっている。
【0052】
このように、第一実施形態に係る情報検索装置100は、文書情報形態素解析部1と、形態素解析データ符号化部2と、符号化データ圧縮部3と、データベース4とを備えて構成されることで、文書情報形態素解析部1が解析して抽出した形態素を形態素解析データ符号化部2が符号化し、符号化データ圧縮部3が符号化データを更に圧縮をすることで、当初の文書情報のデータ容量を小さくすることで、大容量データの文書情報を格納するに必要な領域を小さくすることができる。
【0053】
更に、この情報格納検索装置100は、文書情報インデクスの作成に用いる符号化形態素データと圧縮するための符号化形態素データとを同時に作成する処理を施すので、別途独立に文書情報インデクスを作成する場合に比して、文書情報インデクスの作成に時間を要しないとすることができる。
形態素解析データ符号化部2での符号化に用いる単語(形態素を含む)と文書情報インデクス作成部5で用いる単語の抽出(分割)を、文書情報形態素解析部1における一度の処理で行なうことにより、非常に効率的で、文書情報形態素解析部1と形態素解析データ符号化部2とで独自に単語の抽出処理を施す場合より、時間を短縮することができる
また、第一実施形態に係る情報検索格納装置100は、同義語辞書11,シソーラス12及び対訳辞書13を備えて構成されているので、形態素解析データ符号化部2が、同義語辞書11,シソーラス12及び対訳辞書13の情報を用いて、文書の分野や内容に合わせた形態素(若しくは単語)を符号化することで、単なる記号列の圧縮ではなく、形態素の解析を用いて形態素(若しくは単語)を抽出して、文書内容に合わせて符号化を行ない、更に、その符号列を圧縮することから、高い圧縮率が望めることをもできる。
【0054】
(1b)データベースに格納されている文書情報の検索
文書情報形態素解析部1は、検索質問を解析して単語(形態素を含む)を抽出するものである、これを言い換えると、コード化されて入力された文字列としての検索質問を、文書情報形態素解析部1は、形態素解析処理を行なうようになっている。
【0055】
ここで、検索質問は、データベース4に格納する文書情報と同様に、キーボード,ファイル,ネットワーク等を介して、文書情報形態素解析部1に入力されるようになっている。ここで、例えば、入力される検索質問としては、単語或いは句などが該当する。
形態素解析データ符号化部2は、文書情報形態素解析部1で検索質問を解析して抽出した単語(形態素を含む)を、所定の数値に符号化処理を施すものであるが、ここで、検索質問中の形態素等を数値化する際の数値は、格納する文書情報の単語(形態素を含む)を符号化する際に用いられる数値と同じ数値が使用されるようになっている。即ち、この形態素解析データ符号化部2は、一義的な数値符号化処理を文書情報形態素解析部1が抽出した単語(形態素を含む)に施すようになっている。
【0056】
ここで、文書情報形態素解析部1で解析により抽出した単語(形態素を含む)を数値に符号化する際しては、図2や図3に示す同義語辞書等(11,12,13)を参照して、検索質問の単語(形態素を含む)に対する符号化処理を形態素解析データ符号化部2が行なうようにもなっている。
照合判定部8は、形態素解析データ符号化部2が検索質問の単語(形態素を含む)を数値に符号化した符号化形態素データを用いて、文書情報インデクス記憶部6に格納されている文書情報インデクスを検索するもので、この検索に際して、インデクス中に、検索質問の符号化形態素データと一致するものがある場合には、その文書IDに対応する文書情報を、圧縮符号化データ復元部7へ伝えるように、データベースを制御するようになっている。
【0057】
更に、照合判定部8は、データベース4からの復元した符号化形態素データと検索質問の符号化形態素データが一致するか否かについての判定処理を施すようにもなっている。
ここで、復元した符号化形態素データが検索質問に完全に一致する検索処理を施す際には、照合判定部8は、符号化数値が完全に一致するものであるか否かを判定し、他方、曖昧な検索処理を実行する際には、符号化数値に何らかの処理を加えた上で、一致するか否かを判定するようになっている。例えば、検索対照に類義語を許容する検索においては、図2に示すように「本」と「書物」のように類義の関係で符号化数値は下位1バイトが異なるのみであることから、照合判定部8は、下位1バイトをマスクして検索を行ない、この下位1バイトを除いた符号化数値が一致するか否かを判定することで、曖昧な検索を行なうものである。
【0058】
尚、照合判定部8は、単に単語の一致だけでなく、様々な検索時の条件(単語の出現位置など)にあっているかを判断することができるようになっており、検索質問に出現位置など元の文書情報を確認する必要がある場合には、圧縮符号化データ復元部7を通じて元の文書を部分的に復元するようになっている。
このように、照合判定部8は、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合部としての機能を発揮する。
【0059】
そして、圧縮符号化データ復元部7では、データベース4からの圧縮された文書情報データを所定の数値に符号化するようになっており、これは、符号化データ圧縮部3での、圧縮とは逆の処理として位置づけられる。
このように、圧縮符号化データ復元部7は、圧縮部で圧縮された符号化形態素を格納する記憶部とを有する文書情報格納装置における記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元部としての機能を発揮するのである。
【0060】
符号化形態素復号化部9は、照合判定部8にて検索質問に適合した形態素データを、復元の必要がある場合に、単語(形態素を含む)に復元するものである。
即ち、この符号化形態素復号化部9は、形態素解析データ符号化部2で所定の数値に符号化処理が施された単語(形態素を含む)を、数値から単語(形態素を含む)への処理を施すもようになっている。ここで、所定の単語(形態素を含む)に対する符号化数値は、一義的に決まっているので、所定の符号化形態素データを形態素へ一義に復号化の処理を、符号化形態素復号化部9は、施すものであり、形態素解析データ符号化部2での符号化処理とは逆処理に該当するものである。
【0061】
このように、符号化形態素復号化部9は、照合結果に基づいて復元部での復元された符号化形態素データを形態素に戻す復号化部として機能を発揮する。
上述の構成を備えた第一実施形態にかかる情報格納検索装置100の文書情報の検索の動作を、図5等を用いて以下に説明する。
キーボードやネットワーク等を介して入力(ステップS110)される検索質問(単語や句など)を、文書情報形態素解析部1が解析により単語(形態素を含む)を抽出する(形態素解析ステップS120)。
【0062】
形態素解析ステップにおいて文書情報形態素解析部1が検索質問を解析して抽出した単語(形態素を含む)を、形態素解析データ符号化部2は、例えば、図2や図3に示すような同義語辞書等(11,12,13)を参照して、同義・類義の単語(形態素を含む)に同じ様なコードパターンの数値化を施す(符号化ステップS130)。
【0063】
符号化ステップで形態素解析データ符号化部2が所定の数値に符号化した検索質問を用いて、照合判定部8は、同じ数値を持つ符号が文書情報インデクスにあるかの検索を行なう(ステップS140)。
そして、照合判定部8は、文書情報インデクスを検索した結果、該当するものがある場合には、データベース4にその蓄積されている圧縮形態素データを圧縮符号化データ復元部7へ出力するように制御する。ここで、検索した結果、該当する文書が複数ある場合には、その数ぶんだけの文書を圧縮符号化データ復元部7へ出力するようになっている。
【0064】
ここで、照合判定部8は、検索により出現位置など元の文書の確認が必要か否かを考慮し(ステップS150)、確認が必要である時は、データベース4に蓄積されている元の文書の内容を部分的に復元するように制御する。ここで、圧縮符号化データ復元部7は、データベース4からの圧縮されている文書情報を所定の符号に復元する(復元ステップS151)。
【0065】
更に、照合判定部8は、文書情報インデクスの検索により、検索する符号の数値と同じ符号を検出した場合には、検索質問に適合しているか否かを確認する(照合ステップS160)。
照合判定部8は、検索の結果を結果出力部10へ渡し、結果出力部10は、元の文書の内容として復号化する必要があるとき(ステップS170)、例えば、照合判定部8で検索質問に適合した文書情報を確認し、その元の文書の内容として出力する必要がある場合、符号化形態素復号化部9へ符号化形態素データを渡し、元の文書の内容として復号する(復号化ステップS171)。
【0066】
そして、結果出力部10は、符号化形態素復号化部9で復元された元の文書の内容等、検索結果を出力する(ステップS180)。
このように、第1実施形態にかかる情報格納検索装置100は、文書情報形態素解析部1と、形態素解析データ符号化部2と、符号化データ圧縮部3と、データベース4と、圧縮符号化データ復元部7と、照合判定部8と、符号化形態素復号化部9とを備えて構成されるので、大容量の文書情報データを、省スペースで格納しつつ、必要な文書情報を検索することができる。
【0067】
さらに、この情報格納検索装置100は、照合判定部8が、符号化形態素形式の質問と、圧縮符号化データ復元部7で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定することから、大容量の圧縮した文書情報から必要な事項を検索することができる。
(1c)文書情報の検索
ところで、文書情報インデクス作成部5が、文書情報形態素解析部1での解析により抽出された単語(形態素を含む)を用いて文書情報インデクスを作成した場合における、第1実施形態にかかる情報格納検索装置100の文書情報の検索の動作を、図6等を用いて以下に説明する。
【0068】
先ず、キーボードやファイル,ネットワーク等から検索質問(単語或いは句など)を入力する(ステップS210)。
次に、その検索質問を形態素解析部1が形態素を解析して単語(形態素を含む)を切り出す(形態素解析ステップS220)。
その単語を使って、照合判定部8は、文書情報インデクス6内を検索する(ステップS230)。
【0069】
検索質問に出現位置など元の文書を確認する必要がある場合には、圧縮符号化データ復元部7及び符号化形態素復号化部9を通じて元の文書を部分的に復元し(ステップS240,復元ステップS241)、照合判定部8は、復元した文書の内容が検索質問の条件に適合するものであるか、確認する(照合ステップS250)。
【0070】
そして、検索結果について、元の文書の内容を出力する必要がある場合には、データベース4に格納されている圧縮データを圧縮符号化データ復元部7及び符号化形態素復号化部9を通じて復号化する(ステップS260,復号化ステップS261)。
最後に、検索の結果を出力する(ステップS270)。
【0071】
このような形態素解析部1で解析により抽出された単語(形態素を含む)を用いて作成された文書情報インデクスを利用した文書情報の検索によっても、前記(1b)の文書情報の検索と同様に、文書情報格納検索装置は、大容量の文書情報データを、省スペースで格納しつつ、必要な文書情報を検索することができるとともに、大容量の圧縮した文書情報から必要な事項を非常にスムースに検索することができる。
(2)第2実施形態の説明
図7は、本発明の第2実施形態として情報格納検索装置200を示す図であり、この図7に示す情報格納検索装置200は、前述の第1実施形態におけるものに比して、同義語辞書等(11,12,13)に代えて人名辞書14及び郵便番号辞書15を備えて構成されている点が異なり、その他(符号1,2,3,4,5,6,7,8,9,10参照)の構成は同様である。
【0072】
尚、(1)で用いたものと同じものについては、その説明を省略する。
ここで、図8は、人名辞書の一例の表を示す図であり、この図8に示すように人名辞書は、人の名、姓名、person’s nameの見出しに対応した符号(数値)を蓄積するものであり、他方、郵便番号辞書15は、場所(地域,土地)に対応した符号(数値)を蓄積するものであり、これらの辞書(14,15)は、同義語辞書等(11,12,13)と同じ様に、形態素解析部1で分割(抽出)された単語(形態素を含む)を、符号化部としての形態素解析データ符号化部2が所定の数値に符号化処理を施す際に参照するものである。更に、人名辞書等(14,15)は、形態素解析部として文書情報形態素解析部1がデータベース4に格納する文書情報及び検索質問を解析して単語(形態素を含む)を抽出する際に、参照するものである。尚、前記の第1実施形態にかかる文書情報格納検索装置100においても、同義語辞書等(11,12,13)を参照して文書情報形態素解析部1が解析により単語(形態素を含む)を抽出するような構成をとることができる。
【0073】
ここで、人名辞書14は、同音の称呼等には、同じような符号化処理を施すために、同音の称呼等には類似の符号化数値を割り当てることになっており、図8に示す人名辞書も、人名「仲田」の符号化数値は0x7350であり、一方、人名「中田」には0x7351の符号化数値が割り当てられており、下位1バイトが異なる近似の数値に符号化されるようになっており、人名(見出し)に対応した符号化数値を示している。
【0074】
また、人名辞書14と同じように、郵便番号辞書15は、近隣の地域には、似通った符号化数値が割り当てられている。ここで、図9は、郵便番号辞書の一例の表を示す図であり、この図9に示すように郵便番号辞書は、土地名「神奈川県川崎市幸区」の符号化数値が210を割り当てられているのに対して、土地名「神奈川県川崎市中原区」には211,土地名「神奈川県川崎市高津区」には213等との符号化数値が割り当てられており、下位1バイトが異なる似通った数値に符号化されるようになっており、土地名(地域名)〔見出し〕に対応した符号化数値(郵便番号)を示している。
【0075】
以下、文書情報の格納と文書情報の検索とに分けて、第2実施形態にかかる情報格納検索装置200の動作等を説明する。
(2a)文書情報の格納
上述の構成により、本発明の第2実施形態にかかる情報格納検索装置200は、前述の第1実施形態と同義語辞書等(11,12,13)を人名辞書等(14,15)に代えて同じ様に動作する。
【0076】
ここで、本発明の第2実施形態について、図10に示す文書情報がどのように処理されてデータベース4に格納されるかを、図11を用いて以下説明する。
図10は、データベース4に文書情報を格納する動作を説明するための文書情報の一例を示す図であり、この図10に示すように文書番号13の文書情報には、氏名の他、住所が包含されている。
【0077】
また、図11は、文書情報の格納処理における文書情報の流れを示す図であり、文書情報(文書番号(ID)13)は、キーボードやネットワーク等から情報格納検索装置200へ送られてくる。例えば、文書情報(文書ID13)中の「中田 守 神奈川県川崎市中原区下小田中・・・」は、コード化された文字列の情報として入力されてくる(ステップS310)。
【0078】
ネットワーク等から入力されてきた符号列の文書情報は、文書情報形態素解析部1における解析により、単語(形態素を含む)を抽出され(形態素解析ステップS320)、単語(形態素を含む)毎に分割される。即ち、文書情報形態素解析部1は、ネットワーク等から入力された単語(形態素を含む)を人名辞書等(14,15)を基準として、単語(形態素を含む)の分割(抽出)処理を施す。
【0079】
形態素解析データ符号化部2は、形態素解析ステップで分割された単語(形態素を含む)を、図8及び図9に示す人名辞書や郵便番号辞書を参照して、所定の数値に符号化処理を施す。
即ち、形態素解析データ符号化部2での処理により、各分割された単語(形態素を含む)は、図8を参照して人名「中田」は「0x7351」に、一方、人名「守」は「0xa120」に、図9を参照して住所「神奈川県川崎市中原区」は「211」に、一方で、住所「下小田中」は「0xff23」となる(符号化ステップS330)。
【0080】
符号化ステップとして形態素解析データ符号化部2で、所定の数値に符号化処理を施された符号化形態素データは、符号化データ圧縮部3及び文書情報インデクス作成部5へ送られる。インデクス作成部5では、形態素解析データ符号化部2で符号化された形態素データと文書IDを基に、文書情報インデクスを作成する。例えば、符号化ステップとして形態素解析データ符号化部2において、符号化された人名「中田」,「守」等の符号化数値「0x7351」,「0xa120」等を見出しとして、それに対応する文書IDの内容を包含した文書情報インデクスが作成される(インデクス作成ステップS340)。
【0081】
一方、符号化データ圧縮部3は、形態素解析データ符号化部2にて符号化された数値「0x7351 0xa120 211 0xff23・・・」等に、更に異なる数値へ符号化する圧縮の処理を施し(圧縮ステップ)、記憶部としてのデータベース4に圧縮した符号化形態素データを格納する(記憶ステップ)。
このように情報格納検索装置200によれば、文書情報(例えば、文書ID13中の「中田 守・・・・・」)を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部1を通して、形態素を解析し、人名辞書等(14,15)を参照して符号化部としての形態素解析データ符号化部2が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部3が圧縮を行ないつつ、且つ、元の文書(ネットワーク等から入力されてくる文書情報)の性質を考慮して符号化を行なう(例えば、名簿である場合は、人名や住所を基に符号化する)ことと相まって、高い圧縮率を期待できる。
【0082】
更に、符号化ステップでの符号化に用いる単語(形態素を含む)と文書情報インデクス作成部5で用いる単語の抽出(分割)を、形態素解析部としての文書情報形態素解析部1における一度の処理で行なうことにより、非常に効率的で、形態素解析データ符号化部2と文書情報インデクス作成部5とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【0083】
(2b)文書情報の検索
ところで、本発明の第2実施形態について、データベース4に格納されている文書情報をどのように検索されるかを、図12を用いて以下説明する。
図12は、文書情報の検索処理における文書情報の流れを示す図であり、検索質問は、キーボードやネットワーク等を介して情報格納検索装置200へ入力される。例えば、検索質問「中田」で且つ検索条件「同じ称呼で、文字が異なる場合を含む」は、コード化された文字列の情報として入力されてくる(ステップS410)。
【0084】
ネットワーク等から入力されてくる検索質問は、データベース4に格納する文書情報と同様に、形態素解析ステップで文書情報形態素解析部1における解析により、単語(形態素を含む)を抽出され、各分割された単語(形態素を含む)は、形態素解析データ符号化部2において所定の数値に符号化処理が施される(符号化ステップS420)。
【0085】
ここで、形態素解析部1及び形態素解析データ符号化処理部2では、見出しを共通する人名辞書等(14,15)を基準に、各処理が実行される。
即ち、検索質問「中田」を、文書情報形態素解析部1が人名辞書14を参照して、解析により単語「中田」を抽出し、単語「中田」を形態素解析データ符号化部2が、同様に人名辞書14を参照して所定の数値「0x7351」に符号化処理を施す。
【0086】
検索条件として「名前を表す文字が異なっていてもよい」を指定しているので、照合判定部8は、検索条件に従い、検索質問の符号化数値「0x7351」に対して下位1バイトにマスクを掛けて、文書情報インデクス記憶部6に記憶されている文書情報インデクス6−1を検索する(ステップS430)。尚、ここで、下位1バイトにマスクを掛けるとしたのは、人名辞書に含まれている同音の人名に対しては、下位1バイトの数値が異なるように符号が割り当てられているからである。
【0087】
図12に示す文書情報インデクス6−1を照合判定部8が、下位1バイトにマスクを掛けた符号化数値を用いて検索を行なうと、上位バイトが「0x735」である文書IDは文書ID(13,29,97,152,113)であることを検出する(ステップS440)。
その後、結果出力部10が結果を出力する。その際に、文書IDを出力するだけでなく、実際に内容を表示する場合には、復号化ステップで形態素形態素復号化部9が復号化した結果を表示する。
【0088】
このように、本発明の第2実施形態にかかる情報格納検索装置200によれば、大容量の文書情報を格納するデータベース4に対して、情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる。
(3)第3実施形態の説明
図13は、本発明の第3実施形態として情報格納検索装置300を示す図であり、この図13に示す情報格納検索装置300は、様々な言語で書かれた文書情報を格納するとともに、検索するものであり、前述の第1実施形態におけるものと同様の構成である(符号2,3,4,5,6,7,8,9,10,11,13参照)。
【0089】
尚、(1)で用いたものと同じものについては、その説明を省略する。
ここで、情報格納検索装置300が、様々な言語の内で日本語,英語及び仏語に対応する場合について、以下説明する。
形態素解析部としての文書情報形態素解析部1−1は、前述の文書情報形態素解析部1とは多少異なり、日本語,英語及び仏語の三ヵ国語の形態素を解析して単語(形態素を含む)を抽出するものである。
【0090】
以下、文書情報の格納と文書情報の検索とを分けて、第3実施形態にかかる情報格納検索装置300の動作等を説明する。
(3a)文書情報の格納
上述の構成により、本発明の第3実施形態にかかる情報格納検索装置300は、前述の第1実施形態と同じ様に動作する。
【0091】
ここで、図14は、文書情報の一例を示す図であり、この図14(a)〜(c)に示す文書情報を、形態素解析ステップとしての文書情報形態素解析部1が、図2に示す同義語辞書等を参照して、解析により単語(形態素を含む)を抽出する。
そして、その抽出して分割された単語(形態素を含む)を、符号化部としての形態素解析データ符号化部2が、図2に示すような同義語辞書等を参照して所定の数値に符号化処理を施す。数値に符号化された符号化形態素データを基に、文書情報インデクス作成部5は、図15に示すような文書情報インデクス6−2を作成する。一方で、形態素解析データ符号化部2で、数値に符号化された形態素データは、符号化データ圧縮部3で、更に異なる数値に符号化する圧縮処理を施されて、データベース4に格納される。
【0092】
このように、第3実施形態にかかる情報検索装置300は、複数の異なる言語で表記される文書情報が大量であっても、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部1を通して、形態素を解析し、対訳辞書13等を参照して符号化部としての形態素解析データ符号化部2が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部3が圧縮を行ないつつ、且つ、元の文書(ネットワーク等から入力されてくる文書情報)の性質を考慮して符号化を行なう(例えば、名簿である場合は、人名や住所を基に符号化する)ことと相まって、高い圧縮率を期待できる。
【0093】
更に、符号化ステップでの符号化に用いる単語(形態素を含む)と文書情報インデクス作成部5で用いる単語の抽出(分割)を、形態素解析部としての文書情報形態素解析部1における一度の処理で行なうことにより、非常に効率的で、形態素解析データ符号化部2と文書情報インデクス作成部5とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【0094】
(3b)文書情報の検索
本発明の第3実施形態について、データベース4に格納されている文書情報をどのように検索されるかを、図16を用いて説明する。
図16は、文書情報の検索処理における文書情報の流れを示す図であり、検索質問は、キーボードやネットワーク等を介して情報格納検索装置300へ入力される。例えば、検索質問「書物」で且つ検索条件「訳語、同義語も可」は、コード化された文字列の情報として入力されてくる(ステップS510)。
【0095】
ネットワーク等から入力されてくる検索質問は、データベース4に格納する文書情報と同様に、文書情報形態素解析部1における解析により、単語(形態素を含む)を抽出され(形態素解析ステップ)、各分割された単語(形態素を含む)は、形態素解析データ符号化部2において所定の数値に符号化処理が施される(符号化ステップS520)。
【0096】
即ち、文書情報形態素解析部1は、検索質問「書物」を、図2に示す同義語辞書を参照して、解析により単語「書物」を分割し、形態素解析データ符号化部2が、同様に図2に示す同義語辞書を参照して、単語「書物」を所定の数値「0x73a52101」に符号化処理を施す。
照合ステップで照合判定部8は、検索条件として「訳語、同義語も可」を考慮して、検索質問の符号化数値「0x73a52101」を、下位1バイトと上位5バイト目以上をマスクして、文書情報インデクスを検索する(ステップS530)。
【0097】
照合判定部8が、図15に示す文書情報インデクス6−2の検索を行なうと、検索条件に適合する文書番号として21,34,119が得られる(ステップS540)。
その後、結果出力部10が、結果を出力する。結果を出力する際に、文書番号だけでなく、実際に内容を表示する場合は、復号化ステップで符号化形態素復号化部9が復号して、その結果を結果出力部10が出力する。
【0098】
このように、本発明の第3実施形態にかかる情報格納検索装置300によれば、複数の異なる言語を用いて、大量の文書情報を格納するデータベース4に対して、一定の言語による検索質問だけでなく、異なる言語で検索することもでき、且つ、情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる。
(4)記録媒体
(4a)文書情報格納プログラムを記録した記録媒体
本発明の実施形態に係る文書情報格納プログラムを記録した記録媒体(以下、説明の便宜上、符号「A」を付す)に関して、図1に示すような手段を備えて構成される文書情報格納検索装置100を用いて説明する。
【0099】
尚、(1)で用いたものと同じものついては、その説明を省略する。
ところで、文書情報格納プログラムは、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、符号化手順で符号化された形態素に圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるためのプログラムであるが、コンピュータは、記録媒体Aに記録されている文書情報格納プログラムを読み込んで、コンピュータの中央処理装置(CPU)が、各ハードウェアに処理の制御を以下に説明するように、施すようになっている。
【0100】
ここで、コンピュータは、プログラムが記録されている媒体Aから電気,磁気或いは光的等にプログラムを読み込むようになっている。
文書情報格納検索装置100に、ネットワーク等を介して電気信号や光信号等が入力されると、コンピュータは、形態素解析手順として、文書情報形態素解析部1に、入力された文書情報を解析して単語(形態素を含む)を抽出するように制御し、分離した単語(形態素を含む)を符号化手順としての形態素解析データ解析部2に出力するように制御する。
【0101】
符号化手順として、形態素解析データ符号化部2は、コンピュータの実行制御の下、文書情報形態素解析部1で分離された単語(形態素を含む)を所定の数値に符号化処理を施す。
数値に符号化された形態素解析データを、コンピュータは、圧縮手順として、符号化データ圧縮部3に、更に、異なる数値に符号化の圧縮処理を施すように制御する。
【0102】
コンピュータは、記憶手順として、データベース4に対して、符号化データ圧縮部3で圧縮された圧縮符号化形態素データを記録するように制御する。
このように、本発明の実施形態に係る文書情報格納プログラムを記録した記録媒体によれば、コンピュータの制御の下で、文書情報を格納するに際し、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部1を通して、形態素を解析し、符号化部としての形態素解析データ符号化部2が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部3が圧縮を行なうので高い圧縮率を期待できる。
【0103】
ところで、前記の記憶媒体Aに対し、コンピュータに、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順とインデクス作成手順で作成されたインデクスをインデクス記憶手段に格納させるインデクス記憶手順を実行させるプログラムを付加した文書情報格納プログラムを記録した記録媒体(以下、説明の便宜上、符号「B」を付す)に関しても、上述の記憶媒体Aと同様に高い圧縮率を望むことができる。
【0104】
ここで、インデクス作成手順として、コンピュータは、インデクス作成部5に文書情報形態素解析部1において抽出された単語(形態素を含む)或いは形態素解析データ符号化部2において所定の数値に符号化された符号化形態素データを用いて文書情報インデクスを作成するように制御し、インデクス記憶手順として、コンピュータは、文書情報インデクス作成部5に作成した文書情報インデクスを記憶するように制御する。
【0105】
このようにして、記録媒体Bは、更に、符号化ステップでの符号化に用いる単語(形態素を含む)と文書情報インデクス作成部5で用いる単語の抽出(分割)を、形態素解析部としての文書情報形態素解析部1における一度の処理で行なうことにより、非常に効率的で、形態素解析部1と形態素解析データ符号化部2とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【0106】
(4b)文書情報検索プログラムを記録した記録媒体
本発明の実施形態に係る文書情報検索プログラムを記録した記録媒体(以下、説明の便宜上、符号「C」を付す)に関して、図1に示すような手段を備えて構成される文書情報格納検索装置100を用いて説明する。
尚、(1)等で用いたものと同じものについては、その説明を省略する。
【0107】
ところで、文書情報検索プログラムは、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、符号化手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、照合手順での照合結果に基づいて、復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるためのプログラムであるが、コンピュータは、記録媒体Cに記録されている文書情報検索プログラムを読み込んで、コンピュータの中央処理装置(CPU)が、各ハードウェアに処理の制御を以下に説明するように、施すようになっている。
【0108】
文書情報格納検索装置100にネットワーク等を介して電気的信号や光信号等が入力されると、コンピュータは、形態素解析手順として、文書情報形態素解析部1に、入力された検索質問を解析して(形態素を含む)を抽出するように制御する。
符号化手順として、形態素解析データ符号化部2は、コンピュータの実行制御の下、文書情報形態素解析部1により、分離された単語(形態素を含む)を所定の数値に符号化処理を施す。
【0109】
コンピュータは、記憶手順により、データベース4に格納されている圧縮符号化形態素データを、復元手順として、圧縮符号化データ復元部7に、所定の数値に復元するように制御する。
コンピュータは、照合手順として、照合判定部8に、符号手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかいなかを判定するように制御する。
【0110】
コンピュータは、形態素復元手順として、照合結果に基づいて必要な場合に、符号化形態素復号化部9に、符号化数値を形態素に復号化するように制御する。
このように、本発明の実施形態に係る文書情報検索プログラムを記録した記録媒体Cによれば、コンピュータの制御の下、大量の文書情報を格納する装置に対する文書情報の検索に際し、検索処理をスムースに行なうことができる。
【0111】
ところで、前記の記録媒体Cに対し、コンピュータに、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順を実行させるプログラムを付加した文書情報検索プログラムを記録した記録媒体(以下、説明の便宜上、符号「D」を付す)に関しても、前記の記録媒体Cと同様にスムースな検索処理を行なうことができる。
【0112】
ここで、インデクス検索手順として、コンピュータは、照合判定部8に、文書情報を格納する際に文章情報インデクス作成部5が作成した文書情報インデクスを検索するように制御し、復元手順として、コンピュータは、圧縮符号化データ復元部7に、記憶手順によりデータベース4に記憶されている圧縮符号化形態素データを検索に基づき、復元するように制御する。
【0113】
このように、記録媒体Dは、更に、文書情報インデクスを用いることで、大容量の文書情報を格納するデータベース4に対して、情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる。
(5)その他の説明
(5a)他の実施形態
図17〜図19は、その他の実施形態にかかる情報格納検索装置(400,500,600)を示す図であり、先ず、図17に示すように情報格納検索装置400は、前述の第1実施形態におけるものに比して、文書情報インデクス作成部5や同義語辞書等(11,12,13)を備えて構成されていない点が異なり、その他(符号1,2,3,4,7,8,9,10参照)の構成は同様である。尚、(1)で用いたものと同じものついては、その説明を省略する。
【0114】
上述の構成により、形態素解析ステップで文書情報形態素解析部1が入力されてくる文書情報を解析して単語(形態素を含む)を抽出し、形態素解析データ符号化部2が数値に符号化処理を施し(符号化ステップ)、更に、符号化データ圧縮部3が異なる数値に符号化する圧縮処理(圧縮ステップ)を施した後に、圧縮された符号化形態素データがデータベース4に格納される(記憶ステップ)。
【0115】
このように、図17に示す情報格納検索装置400によれば、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部1を通して、形態素を解析し、符号化部としての形態素解析データ符号化部2が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部3が圧縮を行なうので高い圧縮率を期待できる。
【0116】
図18に示すように情報格納検索装置500は、前述の第1実施形態におけるものに比して、同義語辞書等(11,12,13)を備えて構成されていない点が異なり、その他(符号1,2,3,4,5,6,7,8,9,10参照)の構成は同様である。尚、(1)で用いたものと同じものついては、その説明を省略する。
【0117】
上述の構成により、図18に示す情報格納検索装置500は、文書情報を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部1を通して、形態素を解析し、符号化部としての形態素解析データ符号化部2が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部3が圧縮を行なう。
【0118】
このように、図18に示す情報格納検索装置500によれば、高い圧縮率を期待することができ、大容量の文書情報をデータベース4に蓄積することが可能である。
更に、符号化ステップでの符号化に用いる単語(形態素を含む)と文書情報インデクス作成部5で用いる単語の抽出(分割)を、形態素解析部としての文書情報形態素解析部1における一度の処理で行なうことにより、非常に効率的で、形態素解析データ符号化部2と文書情報インデクス作成部5とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
【0119】
検索の際には、格納時に作成した文書情報インデクスを用いることで、検索が容易であり、その復元作業の時間も長時間を要しないことが望むことができる。他方、図19に示すように情報格納検索装置600は、前述の第1実施形態におけるものに比して、文書情報インデクス作成部5を備えて構成されていない点が異なり、その他(符号1,2,3,4,7,8,9,10,11,12,13参照)の構成は同様である。尚、(1)で用いたものと同じものについては、その説明を省略する。
【0120】
上述の構成により、情報格納検索装置600は、文書情報(例えば、文書ID13中の「中田 守・・・・・」)を直接圧縮するのではなく、一度、形態素解析部としての文書情報形態素解析部1を通して、形態素を解析し、人名辞書等(14,15)を参照して符号化部としての形態素解析データ符号化部2が所定の数値に符号化処理を施し、更に、符号化した形態素データを符号化データ圧縮部3が圧縮を行ないつつ、且つ、元の文書(ネットワーク等から入力されてくる文書情報)の性質を考慮して符号化を行なう(例えば、名簿である場合は、人名や住所を基に符号化する)。更に、情報格納検索装置600は、符号化ステップでの符号化に用いる単語(形態素を含む)と文書情報インデクス作成部5で用いる単語の抽出(分割)を、形態素解析部としての文書情報形態素解析部1における一度の処理で行なう。
【0121】
このように、情報格納検索装置600によれば高い圧縮率を期待できるとともに、文書情報インデクスを作成するに際し、非常に効率的で、形態素解析部1と形態素解析データ符号化部2とで独自に単語の抽出処理を施す場合より、時間を短縮することができる。
(5b)検索装置と格納装置についての他の実施形態 尚、説明の便宜を図り、前述の如く、文書情報を格納する装置と文書情報を検索する装置を説明する上で、両装置の機能を具備する情報格納検索装置を用いたが、文書情報を格納する装置と、文書情報を検索する装置とが、分離することでも、従来の技術上の課題を解決することができる。
【0122】
(5c)インデクス作成部
本発明の実施形態に係る文書情報インデクス作成部5は、検索質問に関する文書情報インデクスをも作成することができる。
以下、前記の(1)の第一実施形態にかかる情報格納検索装置100を用いて説明する。尚、(1)で用いたものと同じものについては、その説明を省略する。
【0123】
この場合、文書情報インデクス作成部5は、入力された検索質問に対して、文書情報形態素解析部1で解析により抽出された単語(形態素を含む)或いは、形態素解析データ符号化部2で符号化処理が施された符号化形態素データを用いて文書情報を作成する。
照合判定部8は、文書情報インデクス作成部5にて作成された検索質問の文書情報インデクスと、データベース4に格納されている文書情報の文書情報インデクスを用いて文書情報の検索を行なう。
【0124】
このような検索質問の文書情報インデクスを利用する文書情報の検索を実行する文書情報格納検索装置によれば、大容量の文書情報データの検索に際し、格納されている文書情報の文書情報インデクスを検索することで、通常の文書情報を検索するより、短時間に処理を実行することが望める。
ここで、検索質問に関して、文書情報形態素解析部1における解析処理或いは、形態素解析データ符号化部2における符号化処理に際して、同義語辞書11等を参照して得られた情報を基に、文書情報インデクス作成部5が作成した文書情報インデクスを利用して、照合判定部8が、データベース4に格納されている文書の文書情報インデクス6を検索することにおいても、データベース4内に蓄積されている大容量の文章情報データから検索事項に適合した文書情報の読み出しを短時間に処理することができる。
【0125】
(5d)復号についての他の実施形態
尚、前述では、データベース4に格納されている文書情報を伸長する過程で、圧縮されている文書情報を圧縮符号化データ復元部7で復元して照合判定部8で検索質問に適合するか判定が行なわれるようになっている。ここで、符号化形態素復号化部9において復号された形態素データを基に、照合判定部8が、検索質問に適合する文書情報であるか否かを判定するようにしてもよい。
【0126】
(5e)符号化データ圧縮部についての他の実施形態
圧縮処理の過程の一例として、前述では、出現頻度が高い文字列ほど、圧縮するのに用いるコードが短く設定されている等を述べたが、圧縮処理過程は、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
【0127】
【発明の効果】
以上詳述したように、本発明の文書情報格納装置によれば、形態素解析部が形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出し、符号化部により形態素解析部で抽出された形態素が符号化され、圧縮部で符号化部により符号化された形態素に圧縮処理を施し、記憶部において圧縮部で圧縮された符号化形態素を格納するように構成されているので、入力された文書情報を直接格納せずに、単語(形態素を含む)に分け、それらを数値符号化し、更に、圧縮する符号化処理を施すことで、高い圧縮率を望め、大容量のデータを格納することができる利点がある。
【0128】
また、請求項1記載の本発明の文書情報格納装置は、同義語辞書,シソーラス,対訳辞書のうちの少なくとも一つをそなえ、符号化用の情報を持つ符号化部が、同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて、形態素を符号化するように構成されているので、文書情報を直接圧縮するのではなく、人名辞書等を参照して符号化部が所定の数値に符号化処理を施し、更に、符号化した形態素データを圧縮部が圧縮を行ないつつ、且つ、元の文書(ネットワーク等から入力されてくる文書情報)の性質を考慮して符号化を行なう(例えば、名簿である場合は、人名や住所を基に符号化する)ことと相まって、更に高い圧縮率を期待できる利点がある。
【0129】
また、請求項1記載の本発明の文書情報格納装置は、圧縮部が、符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すように構成されるので、同様に高い圧縮率を期待できる利点がある。
ここで、請求項2記載の本発明の文書情報格納装置は、インデクス作成部が形態素解析部で抽出された形態素及び符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、インデクス記憶部でインデクス作成部により作成されたインデクスを格納するように構成されるので、符号化部での符号化に用いる単語(形態素を含む)とインデクス作成部で用いる単語の抽出(分割)を、形態素解析部における一度の処理で行なうことにより、非常に効率的で、インデクス作成部と符号化部とで独自に単語の抽出処理を施す場合より、時間を短縮することができる利点がある。
【0131】
一方、請求項3記載の本発明の文書情報格納方法によれば、形態素解析ステップでコンピュータの中央処理装置が形態素解析処理を施して、文書情報から文書情報構成要素としての形態素を抽出し、符号化ステップにより形態素解析ステップで抽出された形態素を中央処理装置が符号化して、圧縮ステップで符号化ステップにおいて符号化された形態素に中央処理装置が圧縮処理を施し、記憶ステップで圧縮ステップにより圧縮された符号化形態素を記憶部に格納するように構成されているので、入力された文書情報を直接格納せずに、単語(形態素を含む)に分け、それらを数値符号化し、更に、圧縮する符号化処理を施すことで、高い圧縮率を望め、大容量のデータを格納することができる利点がある。
さらに、請求項3記載の本発明の文書情報格納方法によれば、符号化ステップが、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて、形態素を文書内容に合わせて符号化するので、文書情報を直接圧縮するのではなく、一度、形態素解析ステップを通して、形態素を解析し、人名辞書等を参照して符号化ステップが所定の数値に符号化処理を施し、更に、符号化した形態素データを圧縮ステップが圧縮を行ないつつ、且つ、元の文書(ネットワーク等から入力されてくる文書情報)の性質を考慮して符号化を行なう(例えば、名簿である場合は、人名や住所を基に符号化する)ことと相まって、更に高い圧縮率を期待できる利点がある。
また、請求項3記載の本発明の文書情報格納方法は、圧縮ステップが、符号化ステップで符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すように構成されているので、同様に高い圧縮率を期待できる利点がある。
【0132】
ここで、請求項4記載の本発明の文書情報格納方法は、中央処理装置が、インデクス作成ステップにおいて形態素解析ステップで抽出された形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、インデクス記憶ステップがインデクス作成ステップで作成されたインデクスをインデクス記憶部に格納するように備えられるので、符号化ステップでの符号化に用いる単語(形態素を含む)とインデクス作成ステップで用いる単語の抽出(分割)を、形態素解析ステップにおける一度の処理で行なうことにより、非常に効率的で、インデクス作成ステップと符号化ステップとで独自に単語の抽出処理を施す場合より、時間を短縮することができる利点がある。
【0135】
他方、請求項5記載の文書情報検索装置は、形態素解析部と、符号化部と、圧縮部と、記憶部とを有する文書情報格納装置における記憶部に格納されている圧縮符号化形態素を復元部が元の符号化形態素データに復元し、照合部で検索質問に適合した、符号化形態素データが復元されているかどうかの判定を行ない、復号化部で、照合部での照合結果に基づいて復元部で復元された符号化形態素データを形態素に戻すように構成されるので、大容量の文書情報からのデータの検索を行なうことができる利点がある。
【0136】
ここで、請求項6記載の本発明の文書情報検索装置は、照合部が、符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成されていることから、大容量の文書情報からのデータの検索を正確に行なうことができる利点がある。
【0137】
また、請求項7記載の本発明の文書情報検索装置は、インデクス作成部と、インデクス記憶部とを文書情報格納装置に付加し、照合部が、形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、復元部でこの検索の結果得られたインデクスの情報に基づいて、記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元させるように構成されているので、文書情報格納装置が格納する大容量の文書情報からの文書情報の検索にインデクスを用いることで、非常にスムースに行なうことができる利点がある。
【0138】
更に、請求項8記載の本発明の文書情報検索装置は、照合部が、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素データとを照合して、検索質問に適合する符号化形態素データが復元されているかどうかを判定するように構成されているので、文書情報格納装置が蓄積する大容量の文書情報から自由度のある検索(例えば、曖昧検索としての同義語検索)を行なうことができる利点がある。
【0139】
並びに、請求項9記載の本発明の文書情報検索装置は、インデクス作成部とインデクス記憶部とを文書情報格納装置に付加し、照合部が、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶部で記憶されているインデクスの検索を行ない、復元部が、この検索の結果得られたインデクスの情報に基づいて記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元させるように構成されることで、文書情報格納装置が蓄積する大容量の文書情報に対して、自由度のある検索(例えば、曖昧検索としての同義語検索)を行なうことができる利点があるとともに、文書情報格納装置が格納する大容量の文書情報からの文書情報の検索にインデクスを用いることで、非常にスムースに行なうことができる利点がある。
【0140】
他方、請求項10記載の本発明の文書情報検索方法は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、形態素解析ステップでコンピュータの中央処理装置が形態素解析処理を施すことにより、検索質問から形態素を抽出し、符号化ステップにおいて中央処理装置が形態素解析ステップで抽出された形態素を符号化する処理を行ない、復元ステップで中央処理装置が文書情報格納装置における記憶手段に格納されている圧縮符号化形態素を元の符号化形態素に復元し、照合ステップが符号化ステップで得られた符号化形態素形式の検索質問と、復元ステップで復元された符号化形態素とを照合して、符号化ステップで得られた符号化形態素に対応する記憶手段中の符号化形態素が復元されているかどうかの判定を行ない、そして復号化ステップにおいて中央処理装置が照合ステップでの照合結果に基づいて、復元ステップで復元された符号化形態素を形態素に戻すように構成されるので、文書情報格納装置に蓄積される大容量の文書情報から文書情報の検索を正確に行なうことができる利点がある。
【0141】
ここで、請求項11記載の本発明の文書情報検索方法は、照合ステップが、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、復元部で復元された符号化形態素とを照合して、検索質問に適合した、符号化形態素が復元されているかどうかを判定するように構成されているので、文書情報格納装置が蓄積する大容量の文書情報から自由度のある検索(例えば、曖昧検索としての同義語検索)を行なうことができる利点がある。
【0142】
並びに、請求項12記載の文章情報検索方法は、記憶手段が圧縮された符号化形態素を記憶するとともに、インデクス記憶手段が文書情報のインデクスを格納する文書情報格納装置に対して、形態素解析ステップで、検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出し、符号化ステップで形態素解析ステップが抽出する形態素の符号化を行ない、インデクス検索ステップで形態素解析ステップが抽出する形態素及び符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行ない、復元ステップがインデクス検索ステップで得られたインデクス情報に基づいて、記憶手段で格納されている圧縮符号化形態素を元の符号化形態素データへ復元し、復号化ステップにおいて中央処理装置が復元ステップで復元された符号化形態素データを形態素に戻すように構成されるので、文書情報格納装置が格納する大容量の文書情報からの文書情報の検索処理に際して、インデクスを用いることで、非常にスムースに行なうことができる利点がある。
【0143】
ここで、請求項13記載の文書情報検索方法は、文書情報格納装置が、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて、形態素を符号化するように構成され、且つ、インデクス検索ステップが、同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて、インデクス検索を行なうように構成されていることで、所定の単語(形態素を含む)は、同義語辞書等により所定の数値に符号化されて、それに対応する符号で文書情報の検索が行なわれるので、検索処理を非常にスムースに行なうことができる。
【0144】
並びに、請求項14記載の記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施す圧縮手順と、圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるための文書情報格納プログラムを記録しているので、入力された文書情報を直接格納せずに、単語(形態素を含む)に分け、それらを数値符号化し、更に、圧縮する符号化処理を施すことで、高い圧縮率を望め、大容量のデータを格納することができる利点がある。
【0145】
ここで、請求項15記載の記録媒体は、コンピュータに、入力された文書情報に対して、形態素解析手順と、符号化手順と、圧縮手順と、記憶手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順と、インデクス作成手順で作成されたインデクスをインデクス記憶手段に格納させるインデクス記憶手順とを実行させるための文書情報格納プログラムを記録しているので、符号化手順での符号化に用いる単語(形態素を含む)とインデクス作成手順で用いる単語の抽出(分割)を、形態素解析手順における一度の処理で行なうことにより、非常に効率的で、インデクス作成手順と符号化手順とで独自に単語の抽出処理を施す場合より、時間を短縮することができる利点がある。
【0146】
一方、請求項16記載の本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、符号化手順で得られた符号化形態素形式の検索質問と、復元手順で復元された符号化形態素データとを照合して、検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、照合手順での照合結果に基づいて、復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるための文書情報検索プログラムを記録しているので、コンピュータの制御の下、大量の文書情報を格納する装置から文書情報を検索するに際し、検索処理をスムースに行なうことができる。
【0147】
ここで、請求項17記載の本発明の記録媒体は、文書情報を入力することにより、文書情報に対して、形態素解析処理を施すことにより、文書情報から文書情報構成要素としての形態素を抽出し、この抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、入力された検索質問について、形態素解析処理を施すことにより、検索質問情報から形態素を抽出する形態素解析手順と、形態素解析手順で抽出された形態素を符号化する符号化手順と、形態素解析手順で抽出された形態素及び符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスからインデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順と、インデクス検索手順で得られたインデクス情報に基づいて、記憶手順で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、復元手順で復元された符号化形態素データを形態素に戻す復号化手順とをコンピュータに実行させるための文書情報検索プログラムを記録しているので、インデクスを用いることで、文書情報格納装置に格納されている大容量の文書情報から情報検索をスムースに行なうことが可能で、検索時間も遅くない処理の実行を望むことができる利点がある。
【図面の簡単な説明】
【図1】本発明の第1実施形態にかかる文書情報格納検索装置を示すブロック図である。
【図2】本発明の第1実施形態にかかる同義語辞書,シソーラスの一例を示す図である。
【図3】本発明の第1実施形態にかかる対訳辞書の一例を示す図である。
【図4】本発明の第1実施形態にかかる文書情報格納検索装置が、文書情報を格納する際の処理の流れを説明するための図である。
【図5】本発明の第1実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図6】本発明の第1実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図7】本発明の第2実施形態にかかる文書情報格納検索装置を示すブロック図である。
【図8】本発明の第2実施形態にかかる人名辞書の一例を示す図である。
【図9】本発明の第2実施形態にかかる郵便番号辞書の一例を示す図である。
【図10】本発明の第2実施形態にかかる入力する文書情報の一例を示す図である。
【図11】本発明の第2実施形態にかかる文書情報格納検索装置が、文書情報を格納する際の処理の流れを説明するための図である。
【図12】本発明の第2実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図13】本発明の第3実施形態にかかる文書情報格納検索装置を示すブロック図である。
【図14】(a)〜(c)はそれぞれ本発明の第3実施形態にかかる格納する文書情報の一例を示す図である。
【図15】本発明の第3実施形態にかかる文書情報インデクスの一例を示す図である。
【図16】本発明の第3実施形態にかかる文書情報格納検索装置が、文書情報を検索する際の処理の流れを説明するための図である。
【図17】本発明の他の実施形態を示す図である。
【図18】本発明の他の実施形態を示す図である。
【図19】本発明の他の実施形態を示す図である。
【符号の説明】
1,1−1 文書情報形態素解析部(形態素解析部)
2 形態素解析データ符号化部(符号化部)
3 符号化データ圧縮部(圧縮部)
4 データベース(記憶部)
5 文書情報インデクス作成部(インデクス作成部)
6 文書情報インデクス記憶部(インデクス記憶部)
6−1,6−2 文書情報インデクス
7 圧縮符号化データ復元部(復元部)
8 照合判定部(照合部)
9 符号化形態素復号化部(復号化部)
10 結果出力部
11 同義語辞書
12 シソーラス
13 対訳辞書
14 人名辞書
15 郵便番号辞書
100,200,300,400,500,600 文書情報格納検索装置
Claims (17)
- 形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、
該形態素解析部で抽出された形態素を符号化する符号化部と、
該符号化部で符号化された形態素に圧縮処理を施す圧縮部と、
該圧縮部で圧縮された符号化形態素を格納する記憶部とをそなえるとともに、
符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも一つをそなえ、
該符号化部が、上記の同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて、該形態素を文書内容に合わせて符号化するとともに、
該圧縮部が、該符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すように構成されていることを特徴とする、文書情報格納装置。 - 該形態素解析部で抽出された該形態素及び該符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、
該インデクス作成部で作成された該インデクスを格納するインデクス記憶部とをそなえていることを特徴とする、請求項1記載の文書情報格納装置。 - コンピュータを用いて文書情報を格納するに際し、
該文書情報が入力されることにより、該コンピュータの中央処理装置が、該文書情報に対し、形態素解析処理を施して、該文書情報から文書情報構成要素としての形態素を抽出する形態素解析ステップと、
該形態素解析ステップで抽出された形態素を該中央処理装置が符号化する符号化ステップと、
該符号化ステップで符号化された形態素に該中央処理装置が圧縮処理を施す圧縮ステップと、
該圧縮ステップで圧縮された符号化形態素を記憶部に格納する記憶ステップとをそなえ、
該符号化ステップが、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて、該形態素を文書内容に合わせて符号化するとともに、
該圧縮ステップが、該符号化ステップで符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すことを特徴とする、文書情報格納方法。 - 該中央処理装置が、該形態素解析ステップで抽出された該形態素及び該符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成ステップと、
該インデクス作成ステップで作成された該インデクスをインデクス記憶部に格納するインデクス記憶ステップとをそなえていることを特徴とする、請求項3記載の文書情報格納方法。 - 形態素解析処理を施すことにより、入力された文書情報から文書情報構成要素としての形態素を抽出する形態素解析部と、該形態素解析部で抽出された形態素を符号化する符号化部と、該符号化部で符号化された形態素に圧縮処理を施す圧縮部と、該圧縮部で圧縮された符号化形態素を格納する記憶部とを有するとともに、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも一つをそなえ、該符号化部が、上記の同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて、該形態素を文書内容に合わせて符号化するとともに、該圧縮部が、該符号化部で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数 の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施すように構成された文書情報格納装置における該記憶部に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元部と、
検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合部と、
該照合部での照合結果に基づいて、該復元部で復元された符号化形態素データを形態素に戻す復号化部とをそなえて構成されたことを特徴とする、文書情報検索装置。 - 該照合部が、符号化形態素形式の検索質問と、該復元部で復元された符号化形態素データとを照合して、該検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成されていることを特徴とする、請求項5記載の文書情報検索装置。
- 該形態素解析部で抽出された該形態素及び該符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、該インデクス作成部で作成された該インデクスを格納するインデクス記憶部とを該文書情報格納装置に付加し、
該照合部が、形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られた該インデクスの情報に基づいて、該記憶部に格納されている圧縮符号化形態素を該復元部で元の符号化形態素データに復元させるように構成されていることを特徴とする、請求項5記載の文書情報検索装置。 - 該照合部が、上記の同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、該復元部で復元された符号化形態素データとを照合して、該検索質問に適合した、符号化形態素データが復元されているかどうかを判定するように構成されていることを特徴とする、請求項5記載の文書情報検索装置。
- 該形態素解析部で抽出された該形態素及び該符号化部で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成部と、該インデクス作成部で作成された該インデクスを格納するインデクス記憶部とを該文書情報格納装置に付加し、
該照合部が、上記の同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された形態素形式の検索質問及び符号化形態素形式の検索質問のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶部で記憶されているインデクスの検索を行ない、この検索の結果得られた該インデクスの情報に基づいて、該記憶部に格納されている圧縮符号化形態素を該復元部で元の符号化形態素データに復元させるように構成されていることを特徴とする、請求項5記載の文書情報検索装置。 - 文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、
入力された該検索質問について、該コンピュータの中央処理装置が、形態素解析処理を施すことにより、該検索質問から形態素を抽出する形態素解析ステップと、
該形態素解析ステップで抽出された該形態素を該中央処理装置が符号化する符号化ステップと、
該文書情報格納装置における該記憶手段に格納されている圧縮符号化形態素を該中央処理装置が元の符号化形態素に復元する復元ステップと、
該中央処理装置が、該符号化ステップで得られた符号化形態素と、該復元ステップで復元された符号化形態素とを照合して、該符号化ステップで得られた符号化形態素に対応する該記憶手段中の符号化形態素が復元されているかどうかを判定する照合ステップと、
該照合ステップでの照合結果に基づいて、該中央処理装置が該復元ステップで復元された符号化形態素を形態素に戻す復号化ステップとをそなえて構成されたことを特徴とする、文書情報検索方法。 - 該照合ステップが、上記の同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて作成された符号化形態素形式の検索質問と、該復元部で復元された符号化形態素とを照合して、該検索質問に適合した、符号化形態素が復元されているかどうかを判定するように構成されていることを
特徴とする、請求項10記載の文書情報検索方法。 - 文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、コンピュータを用いて検索質問に適合した情報を検索する文書情報検索方法であって、
入力された該検索質問について、該コンピュータの中央処理装置が、形態素解析処理を施すことにより、該検索質問から形態素を抽出する形態素解析ステップと、
該形態素解析ステップで抽出された該形態素を該中央処理装置が符号化する符号化ステップと、
該形態素解析ステップで抽出された該形態素及び該符号化ステップで符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索ステップと、
該インデクス検索ステップで得られたインデクス情報に基づいて、該記憶手段で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元ステップと、
該復元ステップで復元された符号化形態素データを該中央処理装置が形態素に戻す復号化ステップとをそなえて構成されたことを特徴とする、文書情報検索方法。 - 該インデクス検索ステップが、上記の同義語辞書,シソーラス,対訳辞書のうちのいずれかからの情報を用いて、インデクス検索を行なうように構成されていることを特徴とする、請求項12記載の文書情報検索方法。
- コンピュータに、
入力された文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、
該符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施す圧縮手順と、
該圧縮手順で圧縮された符号化形態素を格納する記憶手順とを実行させるための文書情報格納プログラムを記録した記録媒体。 - コンピュータに、
入力された文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化する符号化手順と、
該符号化手順で符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施す圧縮手順と、
該圧縮手順で圧縮された符号化形態素を記憶手段に格納させる記憶手順と、
該形態素解析手順で抽出された該形態素及び該符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成するインデクス作成手順と、
該インデクス作成手順で作成された該インデクスをインデクス記憶手段に格納させるインデクス記憶手順とを実行させるための文書情報格納プログラムを記録した記録媒体。 - 文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶した文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、
入力された該検索質問について、形態素解析処理を施すことにより、該検索質問情報から形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された該形態素を符号化する符号化手順と、
該記憶手段に格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、
該符号化手順で得られた符号化形態素形式の検索質問と、該復元手順で復元された符号化形態素データとを照合して、該検索質問に適合した、符号化形態素データが復元されているかどうかを判定する照合手順と、
該照合手順での照合結果に基づいて、該復元手順で復元された符号化形態素データを形態素に戻す形態素復号化手順とをコンピュータに実行させるための文書情報検索プログラムを記録した記録媒体。 - 文書情報を入力することにより、該文書情報に対して、形態素解析処理を施すことにより、該文書情報から文書情報構成要素としての形態素を抽出し、この抽出された該形態素を、符号化用の情報を持つ同義語辞書,シソーラス,対訳辞書のうちの少なくとも1つの辞書の情報を用いて文書内容に合わせて符号化し、更にこの符号化された形態素を出現頻度に応じてコード化するとともに、複数の形態素を当該複数の形態素を含んだ文節の出現頻度に応じて1つのコードにコード化することにより圧縮処理を施して、この圧縮された符号化形態素を記憶手段に記憶するとともに、形態素解析処理で抽出された形態素及び形態素符号化処理で符号化された形態素のうちの少なくとも一方の情報に基づいてインデクスを作成し、このインデクスをインデクス記憶手段に格納する文書情報格納装置に対して、検索質問に適合した情報を検索するに際して、
入力された該検索質問について、形態素解析処理を施すことにより、該検索質問情報から形態素を抽出する形態素解析手順と、
該形態素解析手順で抽出された該形態素を符号化する符号化手順と、
該形態素解析手順で抽出された該形態素及び該符号化手順で符号化された形態素のうちの少なくとも一方の情報に基づいて得られるインデクスから該インデクス記憶手段に記憶されているインデクスの検索を行なうインデクス検索手順と、
該インデクス検索手順で得られたインデクス情報に基づき、該記憶手順で格納されている圧縮符号化形態素を元の符号化形態素データに復元する復元手順と、
該復元手順で復元された符号化形態素データを形態素に戻す復号化手順とを該コンピュータに実行させるための文書情報検索プログラムを記録した記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24583797A JP4057681B2 (ja) | 1997-09-10 | 1997-09-10 | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 |
KR1019980006876A KR100326634B1 (ko) | 1997-09-10 | 1998-03-03 | 문서정보격납장치,문서정보격납방법,문서정보검색장치및문서정보검색방법 |
CN 98106010 CN1120438C (zh) | 1997-09-10 | 1998-03-04 | 文件信息存储、处理装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP24583797A JP4057681B2 (ja) | 1997-09-10 | 1997-09-10 | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185790A JPH1185790A (ja) | 1999-03-30 |
JP4057681B2 true JP4057681B2 (ja) | 2008-03-05 |
Family
ID=17139596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP24583797A Expired - Fee Related JP4057681B2 (ja) | 1997-09-10 | 1997-09-10 | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4057681B2 (ja) |
KR (1) | KR100326634B1 (ja) |
CN (1) | CN1120438C (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001125908A (ja) * | 1999-10-26 | 2001-05-11 | Sony Corp | 入力装置および方法 |
CN101853287B (zh) * | 2010-05-24 | 2012-09-05 | 南京高普科技有限公司 | 数据压缩快速检索文件系统及其方法 |
JP6447161B2 (ja) | 2015-01-20 | 2019-01-09 | 富士通株式会社 | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 |
JP6467937B2 (ja) | 2015-01-21 | 2019-02-13 | 富士通株式会社 | 文書処理プログラム、情報処理装置および文書処理方法 |
JP6753401B2 (ja) * | 2015-07-24 | 2020-09-09 | 富士通株式会社 | 符号化プログラム、符号化装置、及び符号化方法 |
JP6679874B2 (ja) | 2015-10-09 | 2020-04-15 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 |
JP6737025B2 (ja) | 2016-07-19 | 2020-08-05 | 富士通株式会社 | 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5323316A (en) * | 1991-02-01 | 1994-06-21 | Wang Laboratories, Inc. | Morphological analyzer |
-
1997
- 1997-09-10 JP JP24583797A patent/JP4057681B2/ja not_active Expired - Fee Related
-
1998
- 1998-03-03 KR KR1019980006876A patent/KR100326634B1/ko not_active IP Right Cessation
- 1998-03-04 CN CN 98106010 patent/CN1120438C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1185790A (ja) | 1999-03-30 |
CN1120438C (zh) | 2003-09-03 |
CN1211013A (zh) | 1999-03-17 |
KR100326634B1 (ko) | 2002-04-17 |
KR19990029119A (ko) | 1999-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4862408A (en) | Paradigm-based morphological text analysis for natural languages | |
US8302002B2 (en) | Structuring document based on table of contents | |
CN106776548B (zh) | 一种文本的相似度计算的方法和装置 | |
US20020010573A1 (en) | Method and apparatus for converting expression | |
JPH09214352A (ja) | データ圧縮方法および装置 | |
EP3276507B1 (en) | Encoding device, encoding method and search method | |
JP4057681B2 (ja) | 文書情報格納装置及び文書情報格納方法並びに文書情報検索装置及び文書情報検索方法並びに文書情報格納プログラムを記録した記録媒体及び文書情報検索プログラムを記録した記録媒体 | |
US20100185438A1 (en) | Method of creating a dictionary | |
KR100288144B1 (ko) | 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법 | |
JPH05324730A (ja) | 文書情報検索装置 | |
JPH08129554A (ja) | 関係表現抽出装置および関係表現検索装置 | |
Awajan et al. | Hybrid Technique for Arabic Text Compression | |
JP2000148754A (ja) | マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体 | |
JPH07287716A (ja) | 辞書検索装置 | |
JP2681663B2 (ja) | 日本文訂正候補文字抽出方法 | |
JP3825645B2 (ja) | 表現変換方法及び表現変換装置 | |
JP3253657B2 (ja) | 文書検索方法 | |
JPS61248160A (ja) | 文書情報登録方式 | |
JPS63263561A (ja) | 日本語文の圧縮方法 | |
JP2000090193A (ja) | 文字認識装置および項目分類方法 | |
JP2520195B2 (ja) | 日本文固有用語抽出装置 | |
JPS6389976A (ja) | 言語解析装置 | |
JP2780726B2 (ja) | 翻訳システムの翻訳対象文の認識方法 | |
JPH04211868A (ja) | Cd―romデータの検索用キーワードの作成方法 | |
JPH0887528A (ja) | 文書ファイリングシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050301 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050330 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050404 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050520 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071214 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101221 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111221 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131221 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |