JP4746433B2 - 文書検索方法、文書検索プログラムおよび文書検索装置 - Google Patents
文書検索方法、文書検索プログラムおよび文書検索装置 Download PDFInfo
- Publication number
- JP4746433B2 JP4746433B2 JP2006020460A JP2006020460A JP4746433B2 JP 4746433 B2 JP4746433 B2 JP 4746433B2 JP 2006020460 A JP2006020460 A JP 2006020460A JP 2006020460 A JP2006020460 A JP 2006020460A JP 4746433 B2 JP4746433 B2 JP 4746433B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- storage unit
- stored
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、最近の傾向としては、例えば、電子メールを対象とし、送信者名やタイトルなど、文書の一部に記載された内容を検索したいという要求や、XML(eXtensible Markup Language)文書の特定のタグに含まれる内容を検索したいという要求が増えてきている。以上のような要求に応えるために、範囲や構造を限定して検索できる文書検索システムが開発されてきた。このような文書検索システムの一つとして、走査型の全文検索方式を挙げることができる。この方式は、ディスクやメモリに格納されたデータを走査することにより、検索者の必要とする文書(以下、目的文書と呼ぶ)を検索する方式である。例えば、特許文献1には、文書全体をメモリに格納することで、高速な全文検索を実現する技術(以下、従来技術1と呼ぶ)が開示されている。
以下、本発明の第1の実施形態について図1を用いて説明する。
本発明の第1の実施形態における文書検索システム10は、文書検索サーバ(文書検索装置)100、クライアント101およびこれらを接続するネットワーク103を含んで構成される。
以下、文書検索サーバ100の構成について説明する。
文書登録制御プログラム121は、検索対象文書格納プログラム130、メモリ容量算出プログラム131および部分文書ロードプログラム132を含んで構成される。
検索制御プログラム122は、検索条件解析プログラム133、メモリ検索プログラム134、検索継続判定プログラム135、ディスク検索プログラム136、および検索結果出力プログラム137を含んで構成される。
磁気ディスク装置102は、二次記憶装置の一つであり、検索対象文書150が格納される。あわせて、システム制御プログラム120をはじめとした各プログラム121、122、130〜137が格納されている。
以上が、文書検索サーバ100のシステム構成についての説明である。
また、これらのプログラムを、ネットワーク103を介して文書検索サーバ100の主メモリ117に読み込み、文書検索サーバ100上のCPU112によって実行することも可能である。
さらに、本実施形態では、検索対象文書150を磁気ディスク装置102に格納するものとしたが、文書検索サーバ100の主メモリ117に格納されるものであってもよいし、あるいは外部記憶媒体116、MO、CD−ROM、DVD等の記憶媒体(図1には示していない)に格納し、駆動装置を介して文書検索サーバ100の主メモリ117に読み込み、利用することも可能である。また、磁気ディスク装置102がネットワーク103を介して接続されていてもよい。
また、本実施形態では、文書検索サーバ100およびクライアント101は、物理的に異なる装置を用いて構成されるものとしたが、同一の装置であってもよい。
以下、本実施形態における文書検索システム10の処理手順について説明する。
以上が、文書検索サーバ100のシステム制御プログラム120の処理手順についての説明である。
以上が、文書登録制御プログラム121の処理手順についての説明である。
まず、メモリ検索プログラム134を起動し、該部分文書(前記ステップS401で選択された部分文書)に対する照合を実行する(ステップS402)。次に、前記ステップS402で実行された照合処理の結果、該部分文書がヒット文書であるか(検索条件を満たす文書であるか)どうかを判定する(ステップS403)。該部分文書がヒット文書であると判定された場合には(ステップS403でYes)、ヒット文書管理テーブル142の該部分文書に対応する文書IDのフラグをたてる(ステップS404)。なお、ここでは一例として、フラグの各値は、「0:検索結果として出力しない文書」「1:検索結果として出力する文書」をそれぞれ表している。
また、前記ステップS402で実行された照合処理の結果、該部分文書がヒット文書でないと判定された場合には(ステップS403でNo)、検索継続判定プログラム135を起動し、検索条件で指定された範囲を検索し終えているかを判定する(ステップS405)。前記ステップS405で、検索条件で指定された範囲を検索し終えていないと判定された場合には(ステップS405でNo)、ディスク検索対象文書管理テーブル143に(該部分文書に対応する)文書IDを記録する(ステップS406)。
まず、ディスク検索プログラム136を起動し、該文書IDに対応する文書データを磁気ディスク装置102の検索対象文書150からワークエリア141に読み込み、ステップS400で解析された検索条件に適合するかを判定する(ステップS408)。そして、該文書がヒット文書かどうかを判定する(ステップS409)。この結果、該文書データがヒット文書であると判定された場合には(ステップS409でYes)、ヒット文書管理テーブル142の該文書に対応する文書IDのフラグをたてる(ステップS410)。
次に、ヒット文書管理テーブル142を参照して、フラグのたっている文書を検索結果として出力する(ステップS411)。
以上が、検索制御プログラム122の処理手順についての説明である。
まず、本発明の第1の実施形態に示した文書検索システムにおける文書の登録処理(図3)について、図5を用いて(適宜図1および図3参照)具体的に説明する。
以上が、本実施形態に示した文書検索システムにおける文書の登録処理の具体的な流れについての説明である。
まず、図4に示したステップS408が実行され、ディスク検索プログラム136により、選択された文書IDに対応する文書データが、磁気ディスク装置102の検索対象文書150から、ワークエリア141に読み込まれる。そして、図4に示したステップS400で指定された検索条件に適合するかが判定される。次に、図4に示したステップS409で該文書が、ヒット文書かどうかが判定される。ヒット文書であれば、図4に示したステップS410でヒット文書管理テーブル142の該部分文書IDに対応する文書IDのフラグをたてる。図6に示した例では、ディスク検索対象文書管理テーブル143cに「文書ID」=「3」が記録されているので、文書3(503b)に対応する文書データが磁気ディスク装置102の検索対象文書150からワークエリア141に読み込まれ、文書3(503b)に対する照合が実行される。この結果、この文書3(503b)はヒット文書であると判定され、ヒット文書管理テーブル142dの「文書ID」=「3」のフラグが「0」から「1」に更新され、ヒット文書管理テーブル142eになることを示している。
以上が、本発明の第一の実施形態についての説明である。
次に、本発明の第2の実施形態について、図7を用いて説明する。
第1の実施形態のように、文書の先頭部分を主メモリに格納するのでは、検索対象となる構造が必ずしも主メモリにあるとは限らないため、ディスクを検索しなければならない状況も、少なからず生じる。そこで本発明の第2の実施形態における文書検索システムは、文書中の構造が検索条件で指定された回数(以下、検索回数と呼ぶ)を数えておき、よく検索される構造を主メモリに格納することで高速な検索を実現しようとするものである。
まず、構造データ管理プログラム703を起動し、ステップS400で解析された検索条件中の構造が、どこに格納されているかを、構造格納場所管理テーブル706を参照して判断する(ステップS802)。前記ステップS802で実行される判断処理の結果、ステップS400で解析された検索条件中の構造が「すべてメモリ、または一部メモリ」に格納されていると判断された場合には(ステップS802で「すべてメモリ、または一部メモリ」)、前記したステップS402からステップS406の処理を行なう。
前記したステップS408からステップS410の処理については、説明を省略する。ステップS408からステップS410の後、構造データロードプログラム704を起動し、構造別検索回数テーブル705の検索回数の降順に(検索回数の多い方から少ない方へ順に)、ステップS301で算出したメモリ容量に達するまで、構造データを部分文書格納エリア140にロードし、構造格納場所管理テーブル706を書き換える(ステップS803)。
以上が、検索制御プログラム122aの処理手順についての説明である。
まず、図8に示したステップS801が実行され、構造別検索回数カウントプログラム702により、検索条件で指定された構造に対応する構造別検索回数テーブル705の値が1増やされる。
図9に示した例では、検索条件900“title:Tokyo”であるので、構造別検索回数テーブル705aの構造“title”の回数が「8」から「9」に増やされ、構造別検索回数テーブル705bになったことを示している。
まず、部分文書1(501b)について、図8に示したステップS802が実行され、構造データ管理プログラム703により、図8に示したステップS400で解析された検索条件中の構造が、すべてメモリ、または一部メモリに格納されているか、メモリには格納されていないかを、構造格納場所管理テーブル706を参照して判断される。
図9に示した例では、構造格納場所管理テーブル706aが参照され、文書1(501b)については検索条件900で指定された“title”が一部メモリにあると判断されたため、メモリ検索プログラム134が起動され、部分文書1(501b)に対する検索が実行されることを示している。なお、ここでは一例として、構造格納場所管理テーブル706(706a、706b、706cおよび706d)の各値は、「1:すべてメモリ」「2:一部メモリ」および「3:メモリにはない」をそれぞれ表している。
図9に示した例では、検索条件“title:Tokyo”に対して、部分文書1(501b)がヒット文書ではないため、図8に示したステップS405が実行され、検索継続判定プログラム135により、検索条件で指定された範囲を検索し終えているかが判定される。
図9に示した例では、部分文書1(501b)に対する照合を行なうことで、検索条件“title:Tokyo”で指定された範囲を検索し終えているので、ディスク検索対象文書管理テーブル143には、何も記録されない(null)状態(ディスク検索対象文書管理テーブル143aからディスク検索対象文書管理テーブル143bになる)を示している。
図9に示した例では、構造格納場所管理テーブル706aが参照され、文書2(502b)については検索条件900で指定された“title”がすべてメモリにあると判断されたため、メモリ検索プログラム134が起動され、部分文書2(502b)に対する検索が実行されることを示している。
図9に示した例では、検索条件“title:Tokyo”に対して、部分文書2(502b)がヒット文書であるため、ヒット文書管理テーブル142aの「文書ID」=「2」のフラグが「0」から「1」に更新され、ヒット文書管理テーブル142bになることを示している。
図9に示した例では、構造格納場所管理テーブル706aが参照され、文書3(503b)については検索条件900で指定された“title”がメモリにはないと判断されたため、ディスク検索対象文書管理テーブル143cに「文書ID」=「3」が記録された状態を示している。
まず、図8に示したステップS408が実行され、ディスク検索プログラム136により、選択された文書IDに対応する検索対象文書150が磁気ディスク装置102から、ワークエリア141に読み込まれる。そして、図8に示したステップS400で指定された検索条件に適合するかが判定される。次に、図8に示したステップS409で該文書が、ヒット文書かどうかが判定される。
図9に示した例では、ディスク検索対象文書管理テーブル143cに「文書ID」=「3」が記録されているので、「文書ID」=「3」に対応する文書データ(検索対象文書3(503a)のデータ)が磁気ディスク装置102の検索対象文書150からワークエリア141に読み込まれ、検索対象文書3(503a)の照合が実行される。この結果、検索対象文書3(503a)は、ヒット文書であると判定され、ヒット文書管理テーブル142bの「文書ID」=「3」のフラグが「0」から「1」に更新され、ヒット文書管理テーブル142cになることを示している。
まず、部分文書1(501b)について、構造データロードプログラム704が実行される。構造データロードプログラム704は、構造別検索回数テーブル705を参照して、検索回数の多い構造から、ステップS301で算出したメモリ容量150Byteに達するまで、構造を部分文書格納エリア140にロードし、部分文書格納エリア140にすべてロードできた構造に関しては、“1”(すべてメモリ)、部分文書格納エリア140に一部ロードできた構造に関しては、“2”(一部メモリ)、部分文書格納エリア140にロードできなかった構造に関しては、“3”(メモリにはない)を用いて、構造格納場所管理テーブル706を更新する。
図9に示した例では、部分文書1(501b)について、構造別検索回数テーブル705を参照して、その検索回数の多い順“author”、“title”、“date”、“body”の順に読み込まれる。150Byteに達して部分文書1(901)が生成され、構造格納場所管理テーブル706bの「文書ID」=「1」の行が、“date”については“3”(メモリにはない)、“author”については“1”(すべてメモリ)、“title”については“1”(すべてメモリ)、“body”については“3”(メモリにはない)状態に更新されたことを示している。
図9に示した例では、部分文書2(502b)について、構造別検索回数テーブル705を参照して、その検索回数の多い順“author”、“title”、“date”、“body”の順に読み込まれる。150Byteに達して部分文書2(902)が生成され、構造格納場所管理テーブル706cの「文書ID」=「2」の行が、“date”については“2”(一部メモリ)、“author”については“1”(すべてメモリ)、“title”については“1”(すべてメモリ)、“body”については“3”(メモリにはない)の状態に更新されたことを示している。
図9に示した例では、部分文書3(503b)について、構造別検索回数テーブル705を参照して、その検索回数の多い順“author”、“title”、“date”、“body”の順に読み込まれる。150Byteに達して部分文書3(903)が生成され、構造格納場所管理テーブル706dの「文書ID」=「3」の行が、“date”については“3”(一部メモリ)、“author”については“1”(すべてメモリ)、“title”については“1”(すべてメモリ)、“body”については“3”(メモリにはない)の状態に更新されたことを示している。
以上が、本発明の第2の実施形態についての説明である。
図18に示すGUI1801では、文書構造指定部1802には、“title”が入力されており、登録済み文書構造表示部1806には、“author”が登録済みであることが表示されている。登録済み文書構造として登録されている“author”は、部分文書格納エリア140に格納する構造として指定されることを意味する。また、除外文書構造表示部1807には、“date”が登録済みであることが示されている。除外文書構造として登録されている“date”は、部分文書格納エリア140に格納する構造からは除外されることを意味する。
次に、本発明の第3の実施形態について、図10を用いて説明する。
第1の実施形態および第2の実施形態では、主メモリは部分文書を格納するために、すべて使用されている状態である。この状態のときに、検索対象となる文書を追加していくと、追加された文書の部分文書は、主メモリに格納することができない。したがって、追加文書中に検索条件が含まれる場合には、低速な検索性能しか得られない。
そこで、本発明の第3の実施形態における文書検索システムは、メモリ容量が文書容量で満たされている状態で文書が追加登録された場合でも、1文書あたりで使用可能なメモリ容量を再計算し、メモリ上にロードし直すことで、追加登録された文書を含めて、高速な検索を実現しようとするものである。
次に、構造データ管理プログラム703を起動し、構造が格納されている場所を記録する(ステップS1103)。
以上が、文書登録制御プログラム121aの処理手順についての説明である。
まず、図3に示したステップS301が実行され、メモリ容量算出プログラム131により、磁気ディスク装置102に格納された文書の件数と部分文書格納エリア140の容量から、1文書あたりで使用可能な文書別メモリ容量が算出される。
図12に示した例では、磁気ディスク装置102に格納されている文書の件数11件と、部分文書格納エリア140の容量1500Byteが取得され、1文書あたりで使用可能な文書別メモリ容量が(1500Byte/11=)約136Byteであると算出された状態を表している。
まず、ステップS1102が実行され、構造データロードプログラム704により、構造別検索回数テーブル705を、検索回数の降順にステップS301で算出された文書別メモリ容量が満たされるまで、構造を磁気ディスク装置102から部分文書格納エリア140へ格納する。次に、ステップS1103が実行され、構造データ管理プログラム703により、各構造の格納場所を記録する。
以上が、本発明の第3の実施形態についての説明である。
次に、本発明の第4の実施形態について、図13を用いて説明する。
第2の実施形態では、よく検索される構造の容量が大きい場合には、1文書あたりに割り当てられた容量分の部分文書格納エリア140に、該構造の一部しか格納できない状況になりやすい。そういった状況では、磁気ディスク装置を検索することが多く、低速な検索性能しか得られない。
そこで、本発明の第4の実施形態における文書検索システムは、検索者にとって有用な文書のみに着目し、この有用な文書中に存在する頻繁に検索される構造全体を主メモリに格納することで、高速な検索を実現しようとするものである。
部分文書最適化制御プログラム123は、文書別ヒット回数テーブルソートプログラム1302、構造格納判断プログラム1303、構造データ管理プログラム703、および構造データロードプログラム704で構成される。
以上が第2の実施形態とは異なるシステム制御プログラム120aの処理手順である。
以下、図8と異なるステップS1501およびステップS1502の処理について説明する。
文書別ヒット回数カウントプログラム1301を起動し、該文書のヒット回数を1増やす(ステップS1502)。
以上が、検索制御プログラム122bの処理手順である。
部分文書最適化制御プログラム123は、まず文書別ヒット回数テーブルソートプログラム1302を起動し、文書別ヒット回数テーブル1304をヒット回数の降順にソートする(ステップS1601)。
次に、部分文書格納エリア140の容量を取得し、この値を残容量値の初期値とする(ステップS1602)。
まず、コマンドにより指定された構造(ユーザから検索条件として指定された構造)について、該文書IDの構造の容量を計算する(ステップS1604)。次に、構造格納判断プログラム1303を起動し、部分文書格納エリア140の残容量が、ステップS1604で計算された構造の容量以上であるかを判断する(ステップS1605)。
以上が、部分文書最適化制御プログラム123の処理手順である。
まず、図16に示したステップS1601が実行され、文書別ヒット回数テーブルソートプログラム1302により、ヒット回数の降順に文書IDがソートされる。
図17に示した例では、文書別ヒット回数テーブル1304が、ヒット回数の降順にソートされ、文書別ヒット回数テーブル1304aになったことを示している。
図17に示した例では、部分文書格納エリア140の残容量値1706の初期値として1500Byteが設定されたことを示す。
まず、文書別ヒット回数テーブル1304aから、ヒット回数の降順に文書IDを選択する。次に、コマンドにより指定された構造について、該文書IDにおけるその構造の容量を計算する。次に、計算された構造の容量と、部分文書格納エリア140の残容量値の大小を判定する。
図17に示した例では、まず、文書別ヒット回数テーブル1304aから、「文書ID」=「3」(1702)が選択され、コマンドにより指定された構造“body”(1701)について、その構造の容量が500Byteであると計算される。部分文書格納エリア140の残容量値1706(初期値)の1500Byteが、その構造の容量500Byte以上であるので、部分文書最適化制御プログラム123により、「文書ID」=「3」(1702)の構造“body”が、部分文書3(1710)として部分文書格納エリア140にロードされたことを示している。また、部分文書格納エリア140の残容量値1706(1500Byte)が、残容量値1707(1500Byte−500Byte=1000Byte)になったことを示している。
それ以外の部分は、図18に示したGUI1801と同様の構成である。
以上が、本発明の第4の実施形態についての説明である。
101 クライアント
102 磁気ディスク装置
103 ネットワーク
110 ディスプレイ
111 キーボード
112 中央演算処理装置(CPU)
113 外部記憶媒体駆動装置
114 ネットワークボード
115 バス
116 外部記憶媒体
117 主メモリ
120 システム制御プログラム
121 文書登録制御プログラム
122 検索制御プログラム
130 検索対象文書格納プログラム
131 メモリ容量算出プログラム
132 部分文書ロードプログラム
133 検索条件解析プログラム
134 メモリ検索プログラム
135 検索継続判定プログラム
136 ディスク検索プログラム
137 検索結果出力プログラム
140 部分文書格納エリア
141 ワークエリア
142 ヒット文書管理テーブル
143 ディスク検索対象文書管理テーブル
150 検索対象文書
702 構造別検索回数カウントプログラム
703 構造データ管理プログラム
704 構造データロードプログラム
705 構造別検索回数テーブル
706 構造格納場所管理テーブル
1301 文書別ヒット回数カウントプログラム
1302 文書別ヒット回数テーブルソートプログラム
1303 構造格納判断プログラム
1304 文書別ヒット回数テーブル
Claims (10)
- 文書の検索条件を受け付ける入力装置と、前記検索条件に基づいて文書の検索を行なう文書検索装置と、前記検索の結果を出力する出力装置とを含んで構成され、
前記文書検索装置が、
第1の記憶部と、第2の記憶部と、処理部とを備え、
前記第2の記憶部は、
前記検索の対象となる文書を格納し、
前記第1の記憶部は、
前記処理部によって前記第2の記憶部よりも高速にデータの読み出しが可能である文書検索システムによる文書検索方法であって、
前記処理部は、
前記第1の記憶部にデータを格納する際に、
前記第1の記憶部に格納可能なデータの容量を取得し、
前記第2の記憶部に格納された前記検索の対象となる文書の件数を取得し、
前記取得した前記第1の記憶部に格納可能なデータの容量を、前記取得した前記検索の対象となる文書の件数で除算して、該件数の1件あたりの容量を算出し、
前記算出した1件あたりの容量に相当するデータを、前記検索の対象となる文書のそれぞれから抽出して、部分文書として前記第1の記憶部に格納し、
文書検索をする際に、
前記入力装置が受け付けた前記検索条件に合致する前記検索の対象となる文書を、前記第1の記憶部に格納した前記部分文書を検索する第1の検索によって抽出し、
前記第1の検索によって前記検索条件に合致しないと判定した場合、前記検索条件に合致する文書を、前記第2の記憶部に格納された前記検索の対象となる文書からさらに検索する第2の検索によって抽出し、
前記第1の検索および前記第2の検索の各検索によって前記検索条件に合致すると判定した前記検索の対象となる文書を、前記検索の結果として前記出力装置に出力させる
ことを特徴とする文書検索方法。 - 前記入力装置は、
文書構造を含んだ前記検索条件を受け付け、
前記第1の記憶部は、
前記検索の対象となる文書内の各前記文書構造の格納場所に関する情報である文書構造格納場所情報を格納し、
前記処理部は、
前記文書構造格納場所情報を参照して、前記入力装置が前記検索条件として受け付けた前記文書構造が前記第1の記憶部に格納されていると判定した場合に、前記第1の検索を行ない、
前記文書構造格納場所情報を参照して前記検索条件として指定された前記文書構造が前記第1の記憶部に格納されていないと判定した場合または前記第1の検索によって前記検索条件に合致しないと判定した場合に、前記第2の検索を行なう
ことを特徴とする請求項1に記載の文書検索方法。 - 前記第1の記憶部は、
前記文書構造の重要度に関する情報である構造別重要度情報をさらに格納し、
前記処理部は、
前記構造別重要度情報に基づいて、前記検索の対象となる文書からデータを抽出して、前記部分文書として前記第1の記憶部に格納し、
前記第1の記憶部に格納した前記文書構造に関しては、前記第1の記憶部に前記文書構造が存在することを表す情報で前記文書構造格納場所情報を更新し、前記第1の記憶部に格納しなかった前記文書構造に関しては、前記第1の記憶部に前記文書構造が存在しないことを表す情報で前記文書構造格納場所情報を更新する
ことを特徴とする請求項2に記載の文書検索方法。 - 前記構造別重要度情報は、
前記文書構造の検索回数を含み、
前記処理部は、
前記文書構造の検索回数の降順に、前記検索の対象となる文書からデータを抽出して、前記第1の記憶部に格納する
ことを特徴とする請求項3に記載の文書検索方法。 - 前記構造別重要度情報は、
前記入力装置が受け付けた優先的に前記第1の記憶部に格納する前記文書構造である登録済み文書構造および前記入力装置が受け付けた前記第1の記憶部に格納しない前記文書構造である除外文書構造に関する情報のうち、少なくとも1つ以上の情報を含み、
前記処理部は、
前記登録済み文書構造および前記除外文書構造のうち、少なくとも1つ以上を指標として、前記検索の対象となる文書からデータを抽出して、前記第1の記憶部に格納する
ことを特徴とする請求項3または請求項4に記載の文書検索方法。 - 前記第1の記憶部は、
前記検索の対象となる文書のヒット回数、参照回数および最終参照日付のうち、少なくとも1つ以上を格納し、
前記処理部は、
前記ヒット回数、前記参照回数および前記最終参照日付のうち、少なくとも1つ以上を指標として文書の重要度を決定し、前記文書の重要度の降順に前記検索の対象となる文書からデータを抽出して前記第1の記憶部に格納し、前記重要度が高い文書は、前記第1の記憶部に格納しておく
ことを特徴とする請求項1乃至請求項5のいずれか1項に記載の文書検索方法。 - 請求項1乃至請求項6のいずれか1項に記載の文書検索方法をコンピュータに実行させるための文書検索プログラム。
- 文書の検索条件を受け付ける入力装置と、前記検索条件に基づいて文書の検索を行なう文書検索装置と、前記検索の結果を出力する出力装置とを含んで構成される文書検索システムにおける文書検索装置であって、
第1の記憶部と、第2の記憶部と、処理部とを備え、
前記第2の記憶部は、
前記検索の対象となる文書を格納し、
前記第1の記憶部は、
前記処理部によって前記第2の記憶部よりも高速にデータの読み出しが可能であり、
前記処理部は、
前記第1の記憶部にデータを格納する際に、
前記第1の記憶部に格納可能なデータの容量を取得し、
前記第2の記憶部に格納された前記検索の対象となる文書の件数を取得し、
前記取得した前記第1の記憶部に格納可能なデータの容量を、前記取得した前記検索の対象となる文書の件数で除算して、該件数の1件あたりの容量を算出し、
前記算出した1件あたりの容量に相当するデータを、前記検索の対象となる文書のそれぞれから抽出して、部分文書として前記第1の記憶部に格納し、
文書検索をする際に、
前記入力装置が受け付けた前記検索条件に合致する前記検索の対象となる文書を、前記第1の記憶部に格納した前記部分文書を検索する第1の検索によって抽出し、
前記第1の検索によって前記検索条件に合致しないと判定した場合、前記検索条件に合致する文書を、前記第2の記憶部に格納された前記検索の対象となる文書からさらに検索する第2の検索によって抽出し、
前記第1の検索および前記第2の検索の各検索によって前記検索条件に合致すると判定した前記検索の対象となる文書を、前記検索の結果として前記出力装置に出力させる
ことを特徴とする文書検索装置。 - 前記入力装置は、
文書構造を含んだ前記検索条件を受け付け、
前記第1の記憶部は、
前記検索の対象となる文書内の各前記文書構造の格納場所に関する情報である文書構造格納場所情報を格納し、
前記処理部は、
前記文書構造格納場所情報を参照して、前記入力装置が前記検索条件として受け付けた前記文書構造が前記第1の記憶部に格納されていると判定した場合に、前記第1の検索を行ない、
前記文書構造格納場所情報を参照して前記検索条件として指定された前記文書構造が前記第1の記憶部に格納されていないと判定した場合または前記第1の検索によって前記検索条件に合致しないと判定した場合に、前記第2の検索を行なう
ことを特徴とする請求項8に記載の文書検索装置。 - 前記第1の記憶部は、
前記文書構造の重要度に関する情報である構造別重要度情報をさらに格納し、
前記処理部は、
前記構造別重要度情報に基づいて、前記検索の対象となる文書からデータを抽出して、前記部分文書として前記第1の記憶部に格納し、
前記第1の記憶部に格納した前記文書構造に関しては、前記第1の記憶部に前記文書構造が存在することを表す情報で前記文書構造格納場所情報を更新し、前記第1の記憶部に格納しなかった前記文書構造に関しては、前記第1の記憶部に前記文書構造が存在しないことを表す情報で前記文書構造格納場所情報を更新する
ことを特徴とする請求項9に記載の文書検索装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006020460A JP4746433B2 (ja) | 2006-01-30 | 2006-01-30 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
US11/625,983 US7620614B2 (en) | 2006-01-30 | 2007-01-23 | Method, program and apparatus for document retrieval system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006020460A JP4746433B2 (ja) | 2006-01-30 | 2006-01-30 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007200189A JP2007200189A (ja) | 2007-08-09 |
JP4746433B2 true JP4746433B2 (ja) | 2011-08-10 |
Family
ID=38369932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006020460A Expired - Fee Related JP4746433B2 (ja) | 2006-01-30 | 2006-01-30 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7620614B2 (ja) |
JP (1) | JP4746433B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8266140B2 (en) * | 2009-03-13 | 2012-09-11 | International Business Machines Corporation | Tagging system using internet search engine |
US9898167B2 (en) * | 2013-03-15 | 2018-02-20 | Palantir Technologies Inc. | Systems and methods for providing a tagging interface for external content |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254856A (ja) * | 1997-03-07 | 1998-09-25 | Canon Inc | 文書検索装置及び文書検索方法 |
JP2001282842A (ja) * | 2000-03-30 | 2001-10-12 | Mitsubishi Electric Corp | データ検索出力装置及びデータ検索出力方法 |
JP2002229985A (ja) * | 2001-02-06 | 2002-08-16 | Ricoh Co Ltd | 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム |
JP2003178049A (ja) * | 2001-09-10 | 2003-06-27 | Fujitsu Ltd | 構造化文書処理システム |
JP2005234837A (ja) * | 2004-02-19 | 2005-09-02 | Fujitsu Ltd | 構造化文書処理方法、構造化文書処理システム及びそのプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3813669B2 (ja) * | 1995-10-27 | 2006-08-23 | 松下電器産業株式会社 | 端末装置及び端末装置の能力情報通知方法 |
JP3218007B2 (ja) * | 1998-03-20 | 2001-10-15 | 富士通株式会社 | インデックスの管理装置,更新方法及び管理方法並びにコンピュータ読取可能な記憶媒体 |
US6536577B2 (en) * | 2000-03-22 | 2003-03-25 | Kabushiki Kaisha Nippon Conlux | Coin handling method and device |
JP4066621B2 (ja) | 2001-07-19 | 2008-03-26 | 富士通株式会社 | 全文検索システム及び全文検索プログラム |
US20050129042A1 (en) * | 2003-12-16 | 2005-06-16 | Nokia Corporation | System and associated terminal, method and computer program product for controlling memory for storage of content |
-
2006
- 2006-01-30 JP JP2006020460A patent/JP4746433B2/ja not_active Expired - Fee Related
-
2007
- 2007-01-23 US US11/625,983 patent/US7620614B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254856A (ja) * | 1997-03-07 | 1998-09-25 | Canon Inc | 文書検索装置及び文書検索方法 |
JP2001282842A (ja) * | 2000-03-30 | 2001-10-12 | Mitsubishi Electric Corp | データ検索出力装置及びデータ検索出力方法 |
JP2002229985A (ja) * | 2001-02-06 | 2002-08-16 | Ricoh Co Ltd | 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム |
JP2003178049A (ja) * | 2001-09-10 | 2003-06-27 | Fujitsu Ltd | 構造化文書処理システム |
JP2005234837A (ja) * | 2004-02-19 | 2005-09-02 | Fujitsu Ltd | 構造化文書処理方法、構造化文書処理システム及びそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2007200189A (ja) | 2007-08-09 |
US7620614B2 (en) | 2009-11-17 |
US20070192274A1 (en) | 2007-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7899831B2 (en) | Method and system for folder recommendation in a file operation | |
US8959079B2 (en) | Method and system for providing relationships in search results | |
JP4973503B2 (ja) | ファイル検索プログラム、方法及び装置 | |
JP5686893B2 (ja) | データベース管理システム、装置及び方法 | |
JP4746433B2 (ja) | 文書検索方法、文書検索プログラムおよび文書検索装置 | |
US10963425B2 (en) | Data placement on magnetic data storage tape | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP7293780B2 (ja) | 情報処理装置、文書管理システム及びプログラム | |
WO2012081165A1 (ja) | データベース管理装置及びデータベース管理方法 | |
JP2008234078A (ja) | 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムを記録した記録媒体 | |
WO2013145129A1 (ja) | データベース管理方法、プログラム、および情報処理装置 | |
WO2011099114A1 (ja) | ハイブリッド型データベースシステム及びその動作方法 | |
US9165063B2 (en) | Organising and storing documents | |
JP2009037359A (ja) | データ登録検索方法、データ登録検索プログラムおよびデータベースシステム | |
JP6753190B2 (ja) | 文書検索装置及びプログラム | |
JPWO2007105512A1 (ja) | 回送データ管理システム | |
JP5696280B1 (ja) | 用語統一システム及び用語統一プログラム、並びに用語統一方法 | |
JP5906810B2 (ja) | 全文検索装置、プログラム及び記録媒体 | |
JPH10149367A (ja) | テキスト蓄積検索装置 | |
JP5393582B2 (ja) | 文書管理プログラム、文書管理方法及び文書管理装置 | |
JP2021067962A (ja) | 情報処理システム及び情報処理方法 | |
JP2012064159A (ja) | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム | |
JP2007011721A (ja) | 文書検索装置 | |
US20230018268A1 (en) | System for managing database having records with varying number of fields | |
JP4750674B2 (ja) | データ表示制御プログラム、データ表示制御方法およびデータ表示制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110513 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4746433 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |