JP2006252324A - 文書管理方法、文書検索方法、文書管理システム及びプログラム - Google Patents

文書管理方法、文書検索方法、文書管理システム及びプログラム Download PDF

Info

Publication number
JP2006252324A
JP2006252324A JP2005069823A JP2005069823A JP2006252324A JP 2006252324 A JP2006252324 A JP 2006252324A JP 2005069823 A JP2005069823 A JP 2005069823A JP 2005069823 A JP2005069823 A JP 2005069823A JP 2006252324 A JP2006252324 A JP 2006252324A
Authority
JP
Japan
Prior art keywords
gram
document
post
data
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005069823A
Other languages
English (en)
Other versions
JP4314204B2 (ja
Inventor
Masakazu Hattori
雅一 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005069823A priority Critical patent/JP4314204B2/ja
Priority to CNB2006100547428A priority patent/CN100454305C/zh
Priority to US11/371,947 priority patent/US7979438B2/en
Publication of JP2006252324A publication Critical patent/JP2006252324A/ja
Application granted granted Critical
Publication of JP4314204B2 publication Critical patent/JP4314204B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】N-Gram索引方式を用いつつ文書の登録時間及び検索時間の短縮を達成する文書管理システムを提供する。
【解決手段】文書データ領域37に記憶されるべき文書データのGramが低頻度の統合Gramか高頻度の一般Gramかを判定し、統合Gramの文字列から計算したGram値と、統合Gramの文字列が含まれる文書データの文書IDと文書内オフセットの組からなるポストデータを統合Gramポスト領域35に記憶させ、一般Gramの文字列が含まれる文書データの文書IDと文書内オフセットの組からなるポストデータを一般Gramポスト領域36に記憶させ、検索キーワード中のGramの文字列について求めたGram値に従って統合Gramポスト領域35からポストデータを読み出し、検索キーワードのGramに従って一般Gramポスト領域36からポストデータを読み出し、読み出したポストデータを用いて文書データ領域37から検索キーワードに合致する文書データを検索する。
【選択図】 図1

Description

本発明は、大量に蓄えられた文書集合の中から検索キーワードに合致する文書を索引により検索するために登録文書を効率的に管理する文書管理方法と文書検索方法、文書管理システム及びプログラムに関する。
大量に蓄えられた文書データ集合の中から検索キーワードに合致する文書データを検索する場合、検索の高速化を図るために、文書データの格納時に索引(インデックス)を作成する方法が知られている。索引の一例として、文書データ中の連続するN文字毎に当該N文字を索引とする方法が知られている。これをN−Gram索引方式と呼ぶ。Nは1以上の整数であり、日本語文書ではGramをN=2(Bi−Gram)で切り出すことが一般である。一方、英語文書ではGramをN=3以上で切り出すことが一般的である。N=2の場合を例にとると、例えば“XMLデータベース”という文字列は、“XM”,“ML”,“Lデ”,“デー”,“ータ”,“タベ”,“ベー”,“ース”のように切り出される。文書データ集合の検索時には、検索キーワードから切り出されたGramを索引として検索を行う。
N−Gram索引方式は言語に依存した辞書が不要で、また多言語展開も容易であり、特に空白などの語彙区切りができない日本語、中国語、韓国語などで利用されている。また、Gramとオフセット(文書データにおけるGramの発生位置)を組合せて検索を行えば、検索漏れを少なくできることも利点である。
N−Gram索引方式は、このようなメリットを有する反面、Gramのサイズ(Nのサイズ)についてトレードオフの問題がある。すなわち、Nのサイズが大きければ、索引索引であるGramに対応する文書データの候補が絞り込まれて検索速度は速くなるが、Gram情報領域(記憶装置内のGramに関する情報を記憶する領域)が指数的に増大してしまう。逆にNのサイズが小さいと、Gramに対応する文書データの候補数が増大し、位置照合回数も増大する結果、検索時間が増大するという問題がある。さらに、Nのサイズが大きいと、索引語種(Gram種)が多くなり、登録時間と索引データサイズが増大する。例えば、日本語文書からN=2で索引を抽出すると、新聞データの場合で3M以上のGram種が発生することがわかっている。従って、Nを2より大きくした場合に索引データサイズがさらに膨大になることは明らかである。
Nのサイズについてのトレードオフの問題に対して、特許文献1(特開2000−57151号公報)では検索の高速化を図ると共に索引データサイズの増加を最小限に抑えるため、インクリメンタルにNのサイズを上げていく方法を提案している。すなわち、検索タームの部分文字列に対応するインデクスにより検索タームの部分文字列と同じ位置関係を持つテキストデータの位置情報を抽出し、テキストデータの部分文字列に対応するインデクスのサイズを予め定められた基準インデクスサイズとを比較して、インデクスのサイズが基準インデクスサイズより大きい場合に、インデクスに対応する部分文字列が検索される可能性が高いかどうかを判定し、その可能性が高い場合に、該部分文字列に文字列を追加した拡張部分文字列と該拡張部分文字列に対応するインデクスを作成する。
特開2000−57151号公報
特許文献1によると、Nのサイズを上げていけば長大な検索キーワードが与えられた場合に切り出されるGram数が低減する可能性がある。しかし、インデクスに対応する文字列が検索される可能性が高いかどうかを判定する基準を的確に設定することが難しくなり、Nのサイズを効果的に上げることが難しい。従って、文書の登録時間及び検索時間を効果的に短縮することには限界がある。
本発明は、N−Gram索引方式を用いつつ文書の登録時間及び検索時間の短縮を達成する文書管理方法、文書検索方法、文書管理システム及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明の第1の観点に係る文書管理方法は、記憶装置の文書データ領域に記憶される文書データを管理するために、前記文書データから予め定められた数の文字列をシフトしながら切り出すことにより管理用Gramを生成するステップと、前記管理用Gramが相対的に発生頻度の低い第1Gramか相対的に発生頻度の高い第2Gramかを判定する判定ステップと、前記第1Gramの文字列について計算により求めたGram値に対応して、該第1Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させるステップと、前記第2Gramの文字列に対応して、前記第2Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させるステップとを具備することを特徴とする。
ここで、前記判定ステップは、(a)前記管理用Gramを発生頻度の高い順に並べたときの順位をGram順位として、前記第1Gramと判定される最小のGram順位をV1、前記管理用Gramを発生頻度の高い順に並べたときの現判定対象の管理用Gramの全管理用Gramにおける順位をRk(g)としたとき、Rk(g)<V1が成立すれば前記現判定対象の管理用Gramを前記第1Gramと判定するか、あるいは(b)前記文書データを前記文書データ領域に記憶し始める初期状態での前記第1Gramの発生頻度が平均頻度の何倍かを示す値をV2、前記現判定対象の管理用Gramの発生頻度をOc(g)、前記管理用Gramの平均発生頻度をOave=Σg Oc(g)としたとき、Oc(g)<Oave ×V2が成立すれば前記現判定対象の管理用Gramを前記第1Gramと判定する。
また、前記Gram値は、例えば前記第1Gramの文字列についてハッシュ値を計算することにより求められる。
本発明の第2の観点に係る文書検索方法は、第1の観点に係る文書管理方法によって記憶装置の文書データ領域に記憶された文書データを検索キーワードに従って検索する方法であって、前記検索キーワードから予め定められた数の文字列をシフトしつつ切り出すことにより検索用Gramを生成するステップと、前記検索用Gramの文字列について前記特定の計算により求めたGram値に従って前記第1ポスト領域を走査することにより、前記第1ポスト領域から前記第1ポストデータを読み出すステップと、前記検索用Gramに従って前記第2ポスト領域を走査することにより、前記第2ポスト領域から前記第2ポストデータを読み出すステップと、読み出された第1ポストデータ及び第2ポストデータを用いて前記文書データ領域から前記検索キーワードに合致する文書データを検索するステップと具備することを特徴とする。
ここで、前記第1ポスト領域には前記Gram値毎に前記Gram値に対応する管理用Gramの存在の有無を示すフラグが記憶されており、前記第1ポスト領域から前記第1ポストデータを読み出すステップは、前記第1ポスト領域の走査時に前記フラグをチェックして、前記第1ポスト領域のうち前記管理用Gramが存在しない領域をスキップする処理を含んでもよい。
本発明の第3の観点に係る文書管理システムは、記憶装置の文書データ領域に記憶されるべき文書データから予め定められた数の文字列をシフトしながら切り出すことにより生成される管理用Gramが相対的に発生頻度の低い第1Gramか相対的に発生頻度の高い第2Gramかを判定する判定手段と、前記第1Gramの文字列について特定の計算により求めたGram値に対応して、該第1Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させる手段と、前記第2Gramの文字列に対応して、前記第2Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させる手段と、記憶装置の文書データ領域に記憶された文書データを検索するための検索キーワードから予め定められた数の文字列をシフトしつつ切り出すことにより生成される検索用Gramの文字列について前記特定の計算により求めたGram値に従って前記第1ポスト領域から前記第1ポストデータを読み出す手段と、前記検索用Gramに従って前記第2ポスト領域から前記第2ポストデータを読み出す手段と、読み出された第1ポストデータ及び第2ポストデータを用いて前記文書データ領域から前記検索キーワードに合致する文書データを検索する手段と具備することを特徴とする。
さらに、本発明の第4の観点によると、コンピュータを第3の観点に係る文書管理システムとして機能させるための文書管理プログラムを提供する。
本発明によれば、相対的に高頻度の第2GramについてはGramの文字列に対応させてポストデータを記憶するが、相対的に低頻度の第1GramについてはGram値に対応させてポストデータを記憶することにより、見掛け上のGram種の数を削減して、文書データの記憶とポストデータの記憶を含めた文書登録に要する時間を短縮できる。また、Gramが第1Gramか第2Gramかを判定する際の判定基準を適切に選ぶことにより、検索時間を長くすることなく登録時間を短縮することが可能である。さらに、利用環境(例えばハードウェア:メモリ、アプリケーション:データサイズ)に応じて判定の際のパラメータをチューニングすることで、検索時間と登録時間の最適バランスをとることもできる。
以下、図面を参照して本発明の一実施形態について説明する。
<文書管理システムの全体構成>
図1に示されるように、本発明の一実施形態に係る文書管理システムは、クライアント11とサーバ12により構成される。クライアント11は、例えばパーソナルコンピュータである。サーバ12は、外部に存在する記憶装置であるデータファイル13にアクセスして、文書登録や文書検索を行う。すなわち、文書登録時にはクライアント11により入力された文書データ及び索引データをデータファイル13に記憶させ、文書検索時にはデータファイル13に記憶された文書データ集合を対象として、クライアント11により指定された文字列からなる検索キーワード(検索タームともいう)を含む文書の検索をN−Gramを索引(インデクス)として行う。クライアント11とサーバ12及びデータファイル13は、例えばインターネットのようなネットワーク14により接続される。サーバ12とデータファイル13とは、直接接続されていてもよい。
クライアント11は統合パラメータ設定、文書登録及び索引による文書検索という3つの要求を発行する。サーバ12は、入出力インタフェース20を介して当該要求を受け取って処理を行い、処理結果をクライアント11に返す。文書登録要求の場合、クライアント11からサーバ12へ流れるデータは文書データである。文書検索要求の場合、クライアント11からサーバ12へ流れるデータは検索キーワードである。サーバ12には、統合パラメータ設定部21、文書登録部22及び索引検索部23という3つの大きな処理部が存在する。
データファイル13は、統合パラメータ領域31、索引データ領域32及び文書データ領域37を有する。索引データ領域32は、統合Gam情報領域33、一般Gram情報領域34、統合Gramポスト領域35及び一般Gramポスト領域36を有する。これらの各領域については、後に詳しく説明する。
<サーバ>
次に、サーバ12について詳しく説明する。統合パラメータ設定部21は、見掛け上のGram種の数を削減すべく、検索にインパクトを与えない程度に低頻度のGramを統合して管理するための統合パラメータを設定する。統合パラメータの具体例については、後述する。
文書登録部22は、Gram判定部24、統合Gram登録部25及び一般Gram登録部26を呼び出して文書登録を行う。このときGram判定部24は、クライアント11から送られてきた文書データから切り出されたGram(文書データから切り出されたGramを管理用Gramともいう)が統合Gramか一般Gramかを判定する。後に詳しく説明するように、統合Gramとは相対的に発生頻度の低いGramであり、一般Gramとは統合Gram以外の相対的に発生頻度の高いGramである。
ここで、文書登録時においてGram判定部24の判定結果が統合Gramであれば、統合Gram登録部25により統合Gramに対応するポストデータを文書データから算出し、当該ポストデータをデータファイル13内の統合Gramポスト領域34に記憶させる。Gram判定部24の判定結果が統合Gram以外のGram、つまり一般Gramであれば、同様に一般Gram登録部26により一般Gramに対応するポストデータを文書データから算出し、当該ポストデータをデータファイル13内の一般Gramポスト領域35に記憶させる。
ポストデータは、Gramの文字列が含まれる文書データを示す文書IDと該文字列の文書内オフセットの組である。文書IDとは、文書データ領域37に記憶された各文書データをユニークに識別するためのIDである。文書内オフセットとは、文書内オフセットに対応する文書IDによって示される、文書データ内に発生したGramの文字列の発生位置を示す情報であり、通常オフセット0を起点として計算される。
索引検索部23は、Gram判定部24、統合Gram走査部27及び一般Gram走査部28を呼び出して、クライアント11から送られてきた検索キーワードに合致する文書データの集合をデータファイル13内の文書データ領域36から検索する。すなわち、検索キーワードから切り出されたGram(検索キーワードから切り出されたGramを検索用Gramともいう)を索引として文書データ領域37内の文書データを検索する。このときGram判定部24は、検索キーワードから切り出されたGramが統合Gramか一般Gramかを判定する。
ここで、文書検索時においてGram判定部24の判定結果が統合Gramであれば、統合Gram走査部27によってデータファイル13内の統合Gramポスト領域34のみを走査し、統合Gramに対応するポストデータ集合を読み出す。Gram判定部24の判定結果が一般Gramであれば、統合Gram走査部27及び一般Gram走査部28によってデータファイル13内の統合Gramポスト領域34及び一般Gramポスト領域35の両方を走査し、統合Gram及び一般Gramにそれぞれ対応するポストデータ集合を読み出して、これらをマージする。
次に、索引検索部23は検索キーワードから切り出した複数のGramに対応する複数のポストデータ集合をマージして、検索キーワードを含む文書IDの集合を得る。索引検索部23は、最終的に検索キーワードを含む文書IDの集合を用いて文書IDによって示される文書データの集合を文書データ領域37から抽出し、クライアント11へ送信させる。
次に、図2及び図3を用いて索引データ領域31について説明する。図2は、統合Gram情報領域33及び統合Gramポスト領域35の構成例を示している。図3は、一般Gram情報領域34及び一般Gramポスト領域36の構成例を示している。
一般Gram情報領域34には、例えば“燃料”や“電池”などの一般Gramに関する情報が記憶される。一般Gramに関する情報とは、例えば一般Gramの文字列、当該一般Gramに対応する先頭ポストブロックへのリンク及びポスト発生数を示す情報である。ポスト発生数とは、文書データ領域37に記憶されている文書データ集合に発生したGramの発生度数である。
一般Gramポスト領域36は、複数のポストブロックを有し、各々のポストブロックには同じGramに関するポストデータの集合が配列形式で記憶されている。ポストデータは、前述したように文書IDと文書内オフセットの組である。
統合Gram情報領域33には、種々の統合Gram値に関する情報が記憶される。統合Gramとは、検索にインパクトを与えない程度に発生頻度の低いGram(発生頻度が閾値に満たないGram、以下これを低頻度Gramという)を統合したGramである。統合Gram値に関する情報とは、統合Gram値と統合Gram値に対応する先頭ポストブロックへのリンクを示す情報である。
統合Gramポスト領域35は、複数のポストブロックを有し、各々のポストブロックには同じ統合Gram値に対応するポストデータの集合が記憶されている。ポストデータは、前述したように文書IDと文書内オフセットの組である。
統合Gramを求めるための低頻度Gramを統合する判定基準として、例えば低頻度Gramの最小順位(V1)及び初期低頻度Gram基準(V2)(Gramの発生頻度が平均頻度の何倍かを示す値)を用いる。
現判定対象のGramをGram gとして、その発生頻度をOc(g)とする。Gramを発生頻度の高い順に並べたときのGram gの全Gramにおける順位をRk(g)とする。Gramの平均発生頻度をOave=Σg Oc(g)とする。以下の不等式(1)(2)に示す条件の少なくとも一つが成立すれば、Gram gを統合Gramと判定する。
Rk(g)<V1 (1)
Oc(g)<Oave ×V2 (2)
図4を参照すると、文書登録がされ始めた初期段階、すなわち複数の文書データが文書データ領域37に記憶され始めた段階(図4でドキュメント数小の領域)では、Gramはどれも発生頻度が非常に小さいため、数式(1)が効いて通常全てのGramが図4中の希少Gramエリアに属すようになり、統合Gramと判定される。初期段階以降の段階(図4でドキュメント数大の領域)では、数式(2)が効いて頻出エリアに属する一定数のGramを除くGramは希少Gramエリアに属すようになり、統合Gramとして判定される。なお、図4に示されるように高頻度Gramと低頻度Gramの発生頻度差は極めて大きく、Gram順位に対して発生頻度は指数カーブを描く。
統合Gram値とは、統合Gramを特定する値、例えば統合Gramを構成するGramに対応した文字列のハッシュ値であり、通常のハッシュ計算により求められる。一例として、統合Gramを構成するGramに対応した文字列の各文字を表わすJISコードの和を求め、この和のある値V3についてのmodをハッシュ値とし、これを統合Gram値とすればよい。ここで、V3は統合Gram種サイズ、すなわち統合Gramの数である(図4参照)。
本実施形態に係る文書管理システムの処理は、大きく別けてN−Gramを索引とする文書検索処理を可能とするための索引登録を含む文書登録処理と、N−Gramを索引とする文書検索処理の2つのフェーズからなる。まず、最初に文書登録処理について説明する。
<文書登録処理>
図5に示されるように、本実施形態における文書登録処理は、新規にデータファイル13内の文書データ領域37に記憶させるべき文書データの読込み(ステップS101)、読み込んだ文書データへの文書IDの割当(ステップS102)及び読み込んだ文書データを検索する際に用いる索引データをデータファイル13内の索引データ領域33に記憶させるための索引登録処理(ステップS103)から構成される。
次に、図6を参照して索引登録処理ステップS103について説明する。索引登録処理ステップS103では、図5のステップS101で読み込まれた文書データを1文字ずつシフトしながらGramと文書内オフセットの集合を生成し(ステップS201)、ステップS201で生成される全てのGramと文書内オフセットについてステップS202とステップS214との間の処理を繰り返す。
まず、一般Gram情報領域34にステップS201で生成されたGramに該当するGramが存在するか否かを調べ(ステップS203)、存在すれば一般Gram情報領域34内の該当するGramに関する情報を更新し(ステップS204)、存在しなければ一般Gram情報領域34にステップS201で生成されたGramに関する情報を追加する(ステップS205)。
次に、ステップS201で生成されたGramが統合Gramか否かを判定する(ステップS206)。ステップS206の判定の結果、生成されたGramが統合Gramであれば、統合Gram値を計算し、統合Gram値に関する情報を統合Gram情報領域33に記憶させる(ステップS207)。さらに、統合Gramポスト領域35において計算された統合Gram値に対応する統合ポストブロックが空いているかどうかを調べる(ステップS208)。統合ポストブロックが空いていなければ、新たな統合ポストブロックを追加する(ステップS209)。
ステップS208において統合ポストブロックが空いている場合は、その統合ポストブロックに、また統合ポストブロックが空いていない場合は、ステップS209により追加された統合ポストブロックに<統合Gram,文書ID,文書内オフセット>の組をポストデータとして追加する(ステップS210)。
一方、ステップS206の判定の結果、ステップS201で生成されたGramが統合Gram以外のGram、すなわち一般Gramであれば、次に一般Gramポスト領域36において一般Gram値に対応する一般ポストブロックが空いているかどうかを調べる(ステップS211)。一般ポストブロックが空いていなければ、新たな一般ポストブロックを追加する(ステップS212)。
ステップS211において一般ポストブロックが空いている場合は、その一般ポストブロックに、また一般ポストブロックが空いていない場合は、ステップS212により追加された一般ポストブロックに<文書ID,文書内オフセット>の組をポストデータとして追加する(ステップS213)。
次に、図7〜図9を参照して図1中の索引データ領域31の具体的な内容について説明する。今、例えば図7に示すような“燃料電池とは”という文字列の文書データをデータファイル13に記憶させると仮定する。この文書データには、文書ID:105が割当てられたものとする。“燃料電池とは”という文字列からは、“燃料”、“料電”、“電池”、“池と”及び“とは”という5つのGramが切り出され、これらのGramに対して以下に示す“Gram”<文書ID,文書内オフセット>からなるポストデータが生成される。
(1)“燃料”<105,0>
(2)“料電”<105,2>
(3)“電池”<105,4>
(4)“池と”<105,6>
(5)“とは”<105,8>
これらの各Gramは、統合Gramか一般Gramかを判定する判定基準により統合Gramと判定されたものとすると、図8に示すように統合Gramポスト領域35の統合ポストブロックに統合Gramに対応するポストデータが記憶される。
すなわち、例えば“燃料”のハッシュ値を計算し、統合Gram値が0になったとすると、統合Gram値0のポストブロックに“燃料”という統合Gramに対応するポストデータ<“燃料”,105,0>が記憶される。同様に、“電池”のハッシュ値を計算し、統合Gram値が1になったとすると、統合Gram値1のポストブロックに“電池”という統合Gramに対応するポストデータ<“電池”,105,4>が記憶される。
一方、この段階では“燃料”、“料電”、“電池”、“池と”及び“とは”の5つのGramは、全て統合Gramと判定されるため、図9に示すように一般Gramポスト領域には新たなポストデータは記憶されない。
次に、あるドキュメント数の文書データが記憶された状態で、再び図7に示したような“燃料電池とは”という文字列の文書データを文書データ領域37に記憶させると仮定する。このとき“燃料電池とは”という文書データには、先と異なる文書ID:985が割当てられるものとする。この場合、先と同様に“燃料電池とは”という文字列から、“燃料”、“料電”、“電池”、“池と”及び“とは”という5つのGramが切り出され、これらのGramに対して以下に示す“Gram”<文書ID,文書内オフセット>からなるポストデータが生成される。
(1)“燃料”<985,0>
(2)“料電”<985,2>
(3)“電池”<985,4>
(4)“池と”<985,6>
(5)“とは”<985,8>
統合Gramか一般Gramかを判定するための判定基準により、これらの各Gramのうち“燃料”,“電池”のGramは一般Gramと判定され、それ以外の“料電”,“池と”及び“とは”は統合Gramと判定されたものとする。この場合、図10に示すように統合Gramポスト領域35の統合ポストブロックに統合Gramに対応するポストデータが記憶され、また図11に示すように一般Gramポスト領域36の一般ポストブロックに一般Gramに対応するポストデータが記憶される。
すなわち、“料電”,“池と”及び“とは”の4つのGramは、再び統合Gramと判定されたため、統合Gramポスト領域35の対応するポストブロックにそれぞれに対応するポストデータが記憶される。一方、一般Gramと判定された燃料”のポストデータ<985,0>及び“電池”のポストデータ<985,4>は、それぞれ一般Gramポスト領域36の“燃料”に対応するポストブロック及び“電池”に対応するポストブロックに記憶される。
このように本実施形態では、相対的に高頻度の一般Gramについては一般Gram情報領域34内に記憶する一般Gramに関する情報(一般Gramの文字列)に対応させて一般Gramポスト領域36にポストデータを記憶するが、相対的に低頻度の統合Gramについては統合Gram情報領域33に記憶する統合Gram値に対応させて統合Gramポスト領域35にポストデータを記憶する。従って、見掛け上のGram種の数を削減して登録時間を短縮することができる。例えば、図6のステップS208,S210で示す統合Gramポストの追加処理において、V3で定義された種類の統合ポストブロックエリアだけをディスクに書き込めば済むので、V3よりはるかに多いと予想される全Gram種類に対応したポストブロックをディスクに書き込む従来の場合と比べて、処理時間が著しく短縮される。
<文書検索処理>
次に、図12〜図13を参照して本実施形態における文書検索処理について説明する。まず、図12に示すように検索キーワードを読み込み(ステップS301)、検索キーワードからGramを切り出してGram集合を生成する(ステップS302)。Gramの切り出しは、検索キーワードからN文字の文字列を切り出す処理を例えば1文字ずつシフトしつつ繰り返すことで行う。
ステップS302で生成されたGram集合の各Gramについて、ステップS303とステップS308との間の処理を繰り返す。すなわち、まず「索引走査処理」として、ステップS302で生成されたGram集合の各Gramについて索引データ領域31の統合Gramポスト領域35及び一般ポスト領域36を走査し、ポストブロックからポストデータ集合を取り出す(ステップS304)。
次に、カレントポストデータ集合があるか否かを調べ(ステップS305)、カレントポストデータ集合があれば、ステップS304で取り出したポストデータ集合とカレントポストデータ集合をオフセットでマージして新たなカレントポストデータ集合とし(ステップS306)、カレントポストデータ集合がなければステップS304で取り出されたポストデータ集合をカレントポストデータ集合とする(ステップS307)。
ステップS302で生成されたGram集合の全てのGramについてカレントポストデータ集合が得られたならば、そのカレントポストデータ集合(検索キーワードを含む文書IDの集合)を用いて文書データ領域37にアクセスすることにより、検索キーワードを含む文書データの集合を取り出す(ステップS309)。
図13は、図12中の索引走査処理ステップS305の具体的な手順を示している。まず、図12中のステップS304で取り出されたポストデータ集合を初期化し(ステップS401)、統合Gram値を計算する(ステップS402)。計算された統合Gram値により、統合Gram情報領域33にアクセスして統合Gram値に関する情報を取り出し、先頭ポストブロックへのリンクの情報から先頭ポストブロック位置を特定する(ステップS403)。
次に、ステップS403で特定された先頭ポストブロック位置に統合ポストブロックが存在するか否かを調べる(ステップS404)。先頭ポストブロック位置に統合ポストデータが存在すればその統合ポストブロックを走査し、その統合ポストブロックに記憶されているポストデータ集合に、図12中のステップS304で取り出されかつステップS401で初期化されたポストデータ集合を追加する(ステップS405)。次に、先頭ブロック位置の次のポストブロック位置を特定し(ステップS406)、この後ステップS404に戻る。以下、ステップS404〜S406の処理を特定されたポストブロック位置に統合ポストブロックが存在しないとステップS404で判定されるまで繰り返す。
ステップS404で統合ポストブロックが存在しないと判定されると、次に一般Gram情報領域34にアクセスして一般Gram値に関する情報を取り出し、先頭ポストブロックへのリンクの情報から先頭ポストブロック位置を特定する(ステップS407)。
次に、ステップS407で特定された先頭ポストブロック位置に一般ポストブロックが存在するか否かを調べる(ステップS408)。先頭ポストブロック位置に一般ポストデータが存在すればその一般ポストブロックを走査し、その一般ポストブロックに記憶されているポストデータ集合に、図12中のステップS304で取り出されかつステップS401で初期化されたポストデータ集合を追加する(ステップS409)。次に、先頭ブロック位置の次のポストブロック位置を特定し(ステップS410)、この後ステップS408に戻る。以下、ステップS408〜S410の処理を特定されたポストブロック位置に一般ポストブロックが存在しないとステップS408で判定されるまで繰り返す。以上の処理により得られるポストデータ集合を図12中のステップS305に返し(ステップS411)、図12中のステップS305の索引走査処理が終了する。
上述の索引走査処理においては、特にステップS402〜S406の処理、すなわち統合ポストブロックを走査し、統合Gramのポストデータ集合を追加する処理を行うことが特徴的である。この場合、Gramが統合Gramか一般Gramかを判定する際の判定基準を適切に選ぶことにより、検索時間を長くするとなく登録時間を短縮することが可能である。
次に、図14を参照して本実施形態における文書検索処理の具体例を説明する。この例では、“電池とは”という検索キーワードから“電池”,“とは”という2つのGramを切り出し、これらの各Gramが統合Gramか一般Gramかを判定して、該当するポストブロックが記憶されたポスト領域を走査する。
例えば、“電池”は一般Gramに判定されるので、統合Gramポスト領域35と一般Gramポスト領域36の両方を走査する。その結果、以下のポストデータ集合が得られる。
<...,...>,<105,4>,<...,...>,<985,4>,<...,...>
一方、“とは”は統合Gramに判定されるので、統合Gramポスト領域35だけを走査する。その結果、以下のポストデータ集合が得られる。
<...,...>,<105,8>,<...,...>,<985,8>,<...,...>
次に、これら二つのポストデータ集合をマージする。“電池”と“とは”では2文字ずれているので、ポストデータ<文書ID,文書内オフセット>に従って、文書内オフセットの差分が+4であるポストデータ集合をマージする。マージ結果は<...>,<105>,<...>,<985>,<...>であり、これが文書IDリストとなる。
こうして得られる文書IDリストを用いて文書データ領域37にアクセスし、“電池とは”という検索キーワードを含む文書データ集合を検索結果として得る。
本発明の他の実施形態として、統合ポスト領域に統合Gram値毎に統合Gram値に対応する統合Gramの存在の有無を示すフラグ(例えばビット列)を記憶しておき、文書検索において統合ポスト領域からポストデータを読み出す際、統合ポスト領域の走査時に当該フラグをチェックして、統合ポスト領域のうち統合Gramが存在しない領域をスキップしてもよい。これにより検索時間のさらなる短縮を図ることができる。
本発明の一実施形態に係る文書管理システムのブロック図 図1中の統合Gram情報領域及び統合Gramポスト領域の構成例を示す図 図1中の一般Gram情報領域及び一般Gramポスト領域の構成例を示す図 Gramの順位と発生頻度の関係をドキュメント数をパラメータとして示す図 同実施形態における文書登録処理の概略的な手順を示すフローチャート 図5中の索引登録処理の手順を示すフローチャート データファイルに新たに記憶する文書データの一例を示す図 図7の文書データが最初に入力されたときの統合Gram情報領域及び統合Gramポスト領域の内容例を示す図 図7の文書データが最初に入力されたときの一般Gram情報領域及び一般Gramポスト領域の内容例を示す図 図7の文書データが再度入力されたときの統合Gram情報領域及び統合Gramポスト領域の内容例を示す図 図7の文書データが再度入力されたときの一般Gram情報領域及び一般Gramポスト領域の内容例を示す図 同実施形態における文書検索処理の手順を示すフローチャート 同実施形態における文書検索処理に含まれる索引走査処理の手順を示すフローチャート 同実施形態における文書検索処理の具体的な一例を示す図
符号の説明
11…クライアント;
12…サーバ;
13…データファイル(記憶装置);
21…統合パラメータ設定部;
22…文書登録部;
23…索引検索部;
24…Gram判定部;
25…統合Gram登録部;
26…一般Gram登録部;
27…統合Gram操作部;
28…一般Gram操作部;
31…統合パラメータ領域;
32…索引データ領域;
33…統合Gram情報領域;
34…統合Gramポスト領域;
35…一般Gram情報領域;
36…一般Gramポスト領域;
37…文書データ領域

Claims (8)

  1. 記憶装置の文書データ領域に記憶される文書データを管理する文書管理方法において、
    前記文書データから予め定められた数の文字列をシフトしながら切り出すことにより管理用Gramを生成するステップと、
    前記管理用Gramが相対的に発生頻度の低い第1Gramか相対的に発生頻度の高い第2Gramかを判定する判定ステップと、
    前記第1Gramの文字列について計算により求めたGram値に対応して、該第1Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させるステップと、
    前記第2Gramの文字列に対応して、前記第2Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させるステップとを具備することを特徴とする文書管理方法。
  2. 前記判定ステップは、前記管理用Gramを発生頻度の高い順に並べたときの順位をGram順位として、前記第1Gramと判定される最小のGram順位をV1、前記管理用Gramを発生頻度の高い順に並べたときの現判定対象の管理用Gramの全管理用Gramにおける順位をRk(g)としたとき、Rk(g)<V1が成立すれば前記現判定対象の管理用Gramを前記第1Gramと判定することを特徴とする請求項1の文書管理方法。
  3. 前記判定ステップは、前記文書データを前記文書データ領域に記憶し始める初期状態での前記第1Gramの発生頻度が平均頻度の何倍かを示す値をV2、前記現判定対象の管理用Gramの発生頻度をOc(g)、前記管理用Gramの平均発生頻度をOave=Σg Oc(g)としたとき、Oc(g)<Oave ×V2が成立すれば前記現判定対象の管理用Gramを前記第1Gramと判定することを特徴とする請求項1の文書管理方法。
  4. 前記Gram値は、前記第1Gramの文字列についてハッシュ値を計算することにより求められることを特徴とする請求項1記載の文書管理方法。
  5. 文書データを記憶した文書データ記憶領域と、第1Gramの文字列について計算により求めたGram値に対応して、該第1Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを記憶した第1ポスト領域と、前記第2Gramの文字列に対応して、前記第2Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを記憶した第2ポスト領域を有する記憶装置から、前記文書データ領域に記憶された文書データを検索キーワードに従って検索する文書検索方法において、
    前記検索キーワードから予め定められた数の文字列をシフトしつつ切り出すことにより検索用Gramを生成するステップと、
    前記検索用Gramの文字列について前記特定の計算により求めたGram値に従って前記第1ポスト領域を走査することにより、前記第1ポスト領域から前記第1ポストデータを読み出すステップと、
    前記検索用Gramの文字列に従って前記第2ポスト領域を走査することにより、前記第2ポスト領域から前記第2ポストデータを読み出すステップと、
    読み出された第1ポストデータ及び第2ポストデータを用いて前記文書データ領域から前記検索キーワードに合致する文書データを検索するステップと具備することを特徴とする文書検索方法。
  6. 前記第1ポスト領域には前記Gram値毎に前記Gram値に対応する管理用Gramの存在の有無を示すフラグが記憶されており、前記第1ポスト領域から前記第1ポストデータを読み出すステップは、前記第1ポスト領域の走査時に前記フラグをチェックして、前記第1ポスト領域のうち前記管理用Gramが存在しない領域をスキップする処理を含むことを特徴とする請求項2に記載の文書検索方法。
  7. 記憶装置の文書データ領域に記憶されるべき文書データから予め定められた数の文字列をシフトしながら切り出すことにより生成される管理用Gramが相対的に発生頻度の低い第1Gramか相対的に発生頻度の高い第2Gramかを判定する判定手段と、
    前記第1Gramの文字列について特定の計算により求めたGram値に対応して、該第1Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させる手段と、
    前記第1Gramの文字列に対応して、前記第2Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させる手段と、
    記憶装置の文書データ領域に記憶された文書データを検索するための検索キーワードから予め定められた数の文字列をシフトしつつ切り出すことにより生成される検索用Gramの文字列について前記特定の計算により求めたGram値に従って前記第1ポスト領域から前記第1ポストデータを読み出す手段と、
    前記検索用Gramの文字列に従って前記第2ポスト領域から前記第2ポストデータを読み出す手段と、
    読み出された第1ポストデータ及び第2ポストデータを用いて前記文書データ領域から前記検索キーワードに合致する文書データを検索する手段と具備することを特徴とする文書管理システム。
  8. 記憶装置の文書データ領域に記憶されるべき文書データから予め定められた数の文字列をシフトしながら切り出すことにより生成される管理用Gramが相対的に発生頻度の低い第1Gramか相対的に発生頻度の高い第2Gramかを判定する判定手段と、
    前記第1Gramの文字列について特定の計算により求めたGram値に対応して、該第1Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第1ポストデータを前記記憶装置の第1ポスト領域に記憶させる手段と、
    前記第1Gramの文字列に対応して、前記第2Gramの文字列が含まれる文書データを示す文書IDと該文字列の位置を示す文書内オフセットの組からなる第2ポストデータを前記記憶装置の第2ポスト領域に記憶させる手段と、
    記憶装置の文書データ領域に記憶された文書データを検索するための検索キーワードから予め定められた数の文字列をシフトしつつ切り出すことにより生成される検索用Gramの文字列について前記特定の計算により求めたGram値に従って前記第1ポスト領域を走査することにより、前記第1ポスト領域から前記第1ポストデータを読み出す手段と、
    前記検索用Gramの文字列に従って前記第2ポスト領域を走査することにより、前記第2ポスト領域から前記第2ポストデータを読み出す手段と、
    読み出された第1ポストデータ及び第2ポストデータを用いて前記文書データ領域から前記検索キーワードに合致する文書データを検索する手段と具備する文書管理システムとしてコンピュータを機能させるための文書管理プログラム。
JP2005069823A 2005-03-11 2005-03-11 文書管理方法、システム及びプログラム Expired - Fee Related JP4314204B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005069823A JP4314204B2 (ja) 2005-03-11 2005-03-11 文書管理方法、システム及びプログラム
CNB2006100547428A CN100454305C (zh) 2005-03-11 2006-03-10 文档管理方法和装置以及文档搜索方法和装置
US11/371,947 US7979438B2 (en) 2005-03-11 2006-03-10 Document management method and apparatus and document search method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005069823A JP4314204B2 (ja) 2005-03-11 2005-03-11 文書管理方法、システム及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009029624A Division JP2009104669A (ja) 2009-02-12 2009-02-12 文書検索方法、システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2006252324A true JP2006252324A (ja) 2006-09-21
JP4314204B2 JP4314204B2 (ja) 2009-08-12

Family

ID=36972286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005069823A Expired - Fee Related JP4314204B2 (ja) 2005-03-11 2005-03-11 文書管理方法、システム及びプログラム

Country Status (3)

Country Link
US (1) US7979438B2 (ja)
JP (1) JP4314204B2 (ja)
CN (1) CN100454305C (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516130B2 (en) * 2005-05-09 2009-04-07 Trend Micro, Inc. Matching engine with signature generation
JP2008084132A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 文書検索装置、文書検索方法および文書検索プログラム
IL179582A0 (en) * 2006-11-26 2007-05-15 Algotec Systems Ltd Comparison workflow automation by registration
US8473467B2 (en) 2009-01-02 2013-06-25 Apple Inc. Content profiling to dynamically configure content processing
JP5083367B2 (ja) * 2010-04-27 2012-11-28 カシオ計算機株式会社 検索装置、検索方法、ならびに、コンピュータプログラム
JP5512489B2 (ja) * 2010-10-27 2014-06-04 株式会社日立ソリューションズ ファイル管理装置及びファイル管理方法
EP2498206A1 (en) * 2011-03-10 2012-09-12 Adalbert Gubo Process and apparatus to control multi-step processes
JP5737079B2 (ja) * 2011-08-31 2015-06-17 カシオ計算機株式会社 テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
CN104380286A (zh) * 2012-05-31 2015-02-25 富士通株式会社 索引生成程序以及检索程序
CN104079450B (zh) * 2014-06-23 2017-10-17 北京邮电大学 特征模式集生成方法及装置
US11188594B2 (en) * 2018-02-07 2021-11-30 Oracle International Corporation Wildcard searches using numeric string hash
CN112783896B (zh) * 2021-01-12 2023-05-23 湖北宸威玺链信息技术有限公司 一种用于加载文件减少内存使用率的方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
US5440723A (en) * 1993-01-19 1995-08-08 International Business Machines Corporation Automatic immune system for computers and computer networks
US5752051A (en) * 1994-07-19 1998-05-12 The United States Of America As Represented By The Secretary Of Nsa Language-independent method of generating index terms
US5706365A (en) * 1995-04-10 1998-01-06 Rebus Technology, Inc. System and method for portable document indexing using n-gram word decomposition
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
CN1158460A (zh) * 1996-12-31 1997-09-03 复旦大学 一种跨语种语料自动分类与检索方法
US6157905A (en) * 1997-12-11 2000-12-05 Microsoft Corporation Identifying language and character set of data representing text
US6092038A (en) * 1998-02-05 2000-07-18 International Business Machines Corporation System and method for providing lossless compression of n-gram language models in a real-time decoder
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
JP3620968B2 (ja) * 1998-08-05 2005-02-16 株式会社日立製作所 文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
US6574632B2 (en) * 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
AU2000268162A1 (en) * 2000-08-23 2002-04-08 Intel Corporation A method and apparatus for concept-based searching across a network
JP4342753B2 (ja) * 2001-08-10 2009-10-14 株式会社リコー 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping

Also Published As

Publication number Publication date
US7979438B2 (en) 2011-07-12
US20060206527A1 (en) 2006-09-14
CN1831825A (zh) 2006-09-13
CN100454305C (zh) 2009-01-21
JP4314204B2 (ja) 2009-08-12

Similar Documents

Publication Publication Date Title
JP4314204B2 (ja) 文書管理方法、システム及びプログラム
JP4162711B2 (ja) Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法
US7467155B2 (en) Method and apparatus for representation of unstructured data
KR101479040B1 (ko) 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
US8171029B2 (en) Automatic generation of ontologies using word affinities
US8171052B2 (en) Information search system, method and program
US20120310630A1 (en) Tokenization platform
JP3883622B2 (ja) 有限状態トランスデューサを用いてデータベースのインデックス付けを行う方法及び装置
JP4237813B2 (ja) 構造化文書管理システム
JP2009104669A (ja) 文書検索方法、システム及びプログラム
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
US7246107B2 (en) System and method for creating a data file for use in searching a database
JP4108337B2 (ja) 電子ファイリングシステム及びその検索インデックス作成方法
KR100459832B1 (ko) N-그램워드(n-gramword)분해원리를이용하여이식가능한문서를인덱싱하는시스템및방법
JP2004240488A (ja) 文書管理装置
JP6787755B2 (ja) 文書検索装置
KR20040039691A (ko) 정보 검색 시스템의 인덱싱 방법
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2675958B2 (ja) 情報検索用計算機システム及びその記憶装置の動作方法
JP4091586B2 (ja) 構造化文書管理システム、索引構築方法及びプログラム
JP2009037359A (ja) データ登録検索方法、データ登録検索プログラムおよびデータベースシステム
JP2008234204A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP3863041B2 (ja) 文書作成システム、文書テンプレート登録装置及び方法、プログラム、並びに文書テンプレート登録データ
JP7022789B2 (ja) 文書検索装置、文書検索方法およびコンピュータプログラム
US9323753B2 (en) Method and device for representing digital documents for search applications

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090212

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090421

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090518

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4314204

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140522

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees