JP2005227813A - 文書検索装置、文書検索方法、および文書検索プログラム - Google Patents

文書検索装置、文書検索方法、および文書検索プログラム Download PDF

Info

Publication number
JP2005227813A
JP2005227813A JP2004032879A JP2004032879A JP2005227813A JP 2005227813 A JP2005227813 A JP 2005227813A JP 2004032879 A JP2004032879 A JP 2004032879A JP 2004032879 A JP2004032879 A JP 2004032879A JP 2005227813 A JP2005227813 A JP 2005227813A
Authority
JP
Japan
Prior art keywords
document
search
vector
child
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004032879A
Other languages
English (en)
Inventor
Hiroki Tanioka
広樹 谷岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2004032879A priority Critical patent/JP2005227813A/ja
Publication of JP2005227813A publication Critical patent/JP2005227813A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】本文中に表を含む電子文書の検索において検索速度および検索精度を向上させること。
【解決手段】ベクトル空間法による電子文書の検索において、たとえば検索条件として「奈良県吉野郡吉野町で売却予定の農地」と入力すると、選択図のような文書(「吉野郡」「吉野町」「農地」などの語は含むものの、奈良県吉野郡吉野町にある農地の情報は含まない文書)が誤って適合文書と判定されてしまうことがある。そこで文書中の表内の個々のセルを一文書とみなすことで、図示する文書につき、セルの個数分だけの複数の文書ベクトルを作成し、これらの文書ベクトルと、上記検索条件につき作成された検索ベクトルとの距離を算出し、文書ベクトルの一つでも検索ベクトルとの距離が閾値以下となった場合に、当該文書ベクトルに対応する文書を適合文書とする。セル内の値が比較的長い場合に有効となる。
【選択図】 図5

Description

この発明は、検索条件に適合する電子文書をベクトル空間法により検索する文書検索装置、文書検索方法、および文書検索プログラムに関する。
複数の電子文書の中から、ユーザが指定した検索条件に適合するものを検索する文書検索技術には、検索条件として入力された文字列が文書中に出現するか否かで適合の有無を判定する「ブーリアン検索」のほか、検索条件として入力された自然文などと概念的に類似する文書を検索することが可能な、「ベクトル空間法」が知られている。
このベクトル空間法は、文書中に出現するn個の語または語句(以下ではこれらをあわせて「ターム」と呼ぶ)の出現頻度などを基礎として、検索対象文書ごとにn次元のベクトルを作成し、これを検索条件について作成したベクトルと比較して、両者の距離が閾値以下であるものを適合文書とするものである。すなわち、文章の意味内容をそこに出現するタームのベクトルで近似できるという前提の下に、ベクトル間の距離によって文章の意味的な類似度を算出するものである。
しかしながらこのベクトル空間法では、ベクトルの基礎となるタームを適切に選択してやらないと、ベクトルの次元が増大して検索速度が低下するとともに、検索精度も低下してしまうという問題点があった。
すなわち、たとえば図5に示すような文書につき、「農地」「山林」「徳島県」「板野郡」「吉野町」「奈良県」「吉野郡」「十津川村」などのタームを基礎とするベクトルが作成されており、検索条件として「奈良県吉野郡吉野町で売却予定の農地」が入力されたとすると、検索条件中の「吉野郡」「吉野町」「農地」を多く含むことから、この文書が適合文書と判定される可能性は高い。しかしながら検索者にとって、奈良県吉野郡吉野町にある農地の情報を一切含まないこの文書は、通常はノイズであると考えられる。
そしてこうしたノイズを低減するため、たとえば「徳島県板野郡吉野町」「奈良県吉野郡十津川村」などのひとまとまりの語句をタームとして採用しようとすると、どの範囲の語句を一つのタームにすべきかの判断に膨大な手数がかかってしまう。図示するような表の場合は、たとえば一つのセル(欄)内の値を一つのタームとして機械的に切り出すこともできるが、こうすると「奈良県吉野郡吉野町」を含む文書を高い確率で見つけ出すには、ユーザが検索条件として当該文字列を正確に指定してやる必要があり、ベクトル空間法の特長である、緩やかな概念検索ができなくなるという問題点があった。
この発明は、上述した従来技術による問題点を解消するため、特にその本文中に表を含む電子文書の検索において検索速度および検索精度を向上させることが可能な文書検索装置、文書検索方法、および文書検索プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる文書検索装置は、検索条件に適合する電子文書をベクトル空間法により検索する文書検索装置において、前記電子文書の本文が複数の行および列から構成される表であるか否かを判定する表文書判定手段と、前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の一部のデータを本文とする複数の子文書を作成する子文書作成手段と、前記子文書作成手段により作成された各子文書につきその文書ベクトルを作成する文書ベクトル作成手段と、前記電子文書の本文の表から作成されたいずれかの子文書につき前記文書ベクトル作成手段により作成された文書ベクトルと、前記検索条件から作成された検索ベクトルとの距離が閾値以下である場合に、前記電子文書を前記検索条件に適合すると判定する文書検索手段と、を備えることを特徴とする。
この請求項1の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の一部のデータを一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項2の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記子文書作成手段が、前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の各セルの値を本文とする複数の子文書を作成することを特徴とする。
この請求項2の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の各セルの値を一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項3の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記子文書作成手段が、前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の各行の値を本文とする複数の子文書を作成することを特徴とする。
この請求項3の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の各行の値を一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項4の発明にかかる文書検索装置は、前記請求項1に記載の発明において、前記子文書作成手段が、前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の各列の値を本文とする複数の子文書を作成することを特徴とする。
この請求項4の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の各列の値を一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項5の発明にかかる文書検索方法は、検索条件に適合する電子文書をベクトル空間法により検索する文書検索方法において、前記電子文書の本文が複数の行および列から構成される表であるか否かを判定する表文書判定工程と、前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の一部のデータを本文とする複数の子文書を作成する子文書作成工程と、前記子文書作成工程で作成された各子文書につきその文書ベクトルを作成する文書ベクトル作成工程と、前記電子文書の本文の表から作成されたいずれかの子文書につき前記文書ベクトル作成工程で作成された文書ベクトルと、前記検索条件から作成された検索ベクトルとの距離が閾値以下である場合に、前記電子文書を前記検索条件に適合すると判定する文書検索工程と、を含むことを特徴とする。
この請求項5の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の一部のデータを一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項6の発明にかかる文書検索方法は、前記請求項5に記載の発明において、前記子文書作成工程では、前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の各セルの値を本文とする複数の子文書を作成することを特徴とする。
この請求項6の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の各セルの値を一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項7の発明にかかる文書検索方法は、前記請求項5に記載の発明において、前記子文書作成工程では、前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の各行の値を本文とする複数の子文書を作成することを特徴とする。
この請求項7の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の各行の値を一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項8の発明にかかる文書検索方法は、前記請求項5に記載の発明において、前記子文書作成工程では、前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の各列の値を本文とする複数の子文書を作成することを特徴とする。
この請求項8の発明によれば、ある電子文書が検索条件に適合するか否かは、その本文中の表内の各列の値を一文書とみなして作成された複数の文書ベクトルと、検索ベクトルとの距離によって判定される。
また、請求項9の発明にかかる文書検索プログラムによれば、請求項5〜請求項8のいずれか一つに記載された方法をコンピュータに実行させることができる。
本発明にかかる文書検索装置、文書検索方法、および文書検索プログラムによれば、特にその本文中に表を含む電子文書の検索において検索速度および検索精度を向上させることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる文書検索装置、文書検索方法、および文書検索プログラムの好適な実施の形態を詳細に説明する。
図1は、この発明の実施の形態にかかる文書検索装置のハードウエア構成の一例を示す説明図である。図中、101は装置全体を制御するCPUを、102は基本入出力プログラムなどを記憶したROMを、103はCPU101のワークエリアとして使用されるRAMを、それぞれ示している。
また、104はCPU101の制御にしたがってHD(ハードディスク)105に対するデータのリード/ライトを制御するHDD(ハードディスクドライブ)を、105はHDD104の制御にしたがって書き込まれたデータを記憶するHDを、それぞれ示している。
また、106はCPU101の制御にしたがってFD(フレキシブルディスク)107に対するデータのリード/ライトを制御するFDD(フレキシブルディスクドライブ)を、107はFDD106の制御にしたがって書き込まれたデータを記憶する着脱自在のFDを、それぞれ示している。
また、108はCPU101の制御にしたがってCD−RW109に対するデータのリード/ライトを制御するCD−RWドライブを、109はCD−RWドライブ108の制御にしたがって書き込まれたデータを記憶する着脱自在のCD−RWを、それぞれ示している。
また、110はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示するディスプレイを、111は文字、数値、各種指示などの入力のための複数のキーを備えたキーボードを、112は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などをおこなうマウスを、それぞれ示している。
また、113は通信ケーブル114を介してLANやWANなどのネットワークに接続され、当該ネットワークとCPU101とのインターフェースとして機能するネットワークI/Fを、100は上記各部を接続するためのバスを、それぞれ示している。
次に、図2はこの発明の実施の形態にかかる文書検索装置の構成を機能的に示す説明図である。
図中、200は文書記憶部であり、後述するベクトル作成部201による文書ベクトルの作成対象となる複数の文書を保持する機能部である。これらの文書の中には、図5に示したような表文書、すなわちその本文の全体が複数の行と列とから構成される表であるものが含まれるものとする。なお、これらの文書の形式は何であってもよく、様々な形式の文書が混在していてもよいが、ここでは表内の各セルの値が容易かつ一意に特定できる形式、たとえばXML形式にあらかじめ変換されているものとする。
201はベクトル作成部であり、文書記憶部200内の個々の文書につき、その意味内容を表現する文書ベクトルを作成する機能部である。ただしベクトル作成部201は、対象文書が表文書である場合、本文内の表の個々のセルごとに文書ベクトルを作成する。
すなわちベクトル作成部201は、まずその表文書判定部201aにより、対象文書が表文書であるか否かを判定し(表文書であるか否かは、たとえばその本文中に表を意味するタグがあるか否かにより判定できる)、表文書である場合には、次にその子文書作成部201bにより、当該文書の個々のセルの値を本文とする複数の子文書を作成する。
たとえば図5に示した文書からは、文字列「農地」のみからなる子文書1、文字列「徳島県板野郡吉野町」のみからなる子文書2、文字列「10,000」のみからなる子文書3・・・などが作成される。なお、内容が完全に同一である複数の子文書(同一の値を有する異なるセルから作成された複数の子文書)は、そのうち一つだけを残して削除するようにしてもよい。
次にベクトル作成部201は、その文書ベクトル作成部201cにより、上記で作成された個々の子文書について文書ベクトルを作成する。すなわち図5のような単一の文書につき、当該文書中の表のセルの個数分(重複する子文書が削除される結果、セルの個数より少なくなることもある)だけの文書ベクトルが作成されることになる。そしてこれら複数の文書ベクトルは、対応する子文書の切り出し元である親文書の識別情報(ファイル名など)と対応づけて、文書ベクトル記憶部202に保存される。
一方、表文書判定部201aで対象文書が表文書でないと判定した場合は、ベクトル作成部201はその文書ベクトル作成部201cにより、当該文書につきそこに出現するタームから一つの文書ベクトルを作成する。そしてこの文書ベクトルも、上記文書の識別情報と対応づけて文書ベクトル記憶部202に保存される。したがって文書ベクトル記憶部202には、複数の文書ベクトルを有する文書(の識別情報)と、単一の文書ベクトルのみを有する文書(の識別情報)とが混在することになる。
また、ベクトル作成部201の検索ベクトル作成部201dは、後述する入出力部203で受け付けられた検索条件から、そのベクトルすなわち検索ベクトルを作成する機能部である。
203は入出力部であり、文書ベクトルの作成指示や文書検索指示などの入力をユーザから受け付けるとともに、後述する文書検索部204による検索の結果(適合文書の一覧)などを画面表示する機能部である。
204は文書検索部であり、文書ベクトル作成部201cにより作成され文書ベクトル記憶部202に保存された、複数の文書ベクトルと、検索ベクトル作成部201dにより作成された検索ベクトルとの距離を順次算出して、両者間の距離により上記文書ベクトルに対応する文書の適合/不適合を判定する機能部である。
上述のように、表文書の場合は単一の文書について複数の文書ベクトルが作成されているので、文書検索部204はこれら複数の文書ベクトルのうち、一つでも検索ベクトルとの距離が閾値以下となる場合に、当該文書ベクトルに対応づけられた文書(親文書)を適合文書と判定する。そして、文書ベクトル記憶部202内のすべての文書ベクトルと検索ベクトルとの比較を終えると、文書検索部204は適合文書の識別情報(ファイル名など)からなる検索結果一覧を作成して、入出力部203に引き渡す。
図3はこの発明の実施の形態にかかる文書検索装置における、文書検索処理の前処理(具体的には文書ベクトル作成処理)の手順を示すフローチャートである。
ユーザからの文書ベクトル作成指示の入力を入出力部203が検知すると(ステップS301:Yes)、入出力部203からの指示を受けたベクトル作成部201は、文書記憶部200内の文書を一つずつ取り出して(ステップS302)、その表文書判定部201aにより当該文書が表文書であるか否かを判定する。
そして表文書である場合は(ステップS303:Yes)、次に子文書作成部201bにより、当該文書中の個々のセルについて子文書を作成し(ステップS304)、これらの個々の子文書について、文書ベクトル作成部201cにより文書ベクトルを作成する(ステップS305)。一方、取り出した文書が表文書でない場合は(ステップS303:No)、文書ベクトル作成部201cで当該文書の文書ベクトルを作成する(ステップS305)。そして、いずれの場合も作成された文書ベクトルは、ステップS302で取り出した文書の識別情報とともに文書ベクトル記憶部202に保存される(ステップS306)。
その後、文書記憶部200に未処理の文書がある限り(ステップS307:No)、次の文書につきステップS302〜S306の処理を繰り返し、文書記憶部200内の全文書につき文書ベクトルの作成を終えた時点(ステップS307:Yes)で、本フローチャートによる処理を終了する。なお、ユーザからの入力がそもそも文書ベクトルの作成指示ではなかった場合(ステップS301:No)は、そのまま本フローチャートによる処理を終了する。
次に、図4はこの発明の実施の形態にかかる文書検索装置における、文書検索処理の手順を示すフローチャートである。
図3の手順により検索対象文書の文書ベクトルが作成された後、ユーザからの文書の検索指示の入力を入出力部203が検知すると(ステップS401:Yes)、入出力部203からの指示を受けたベクトル作成部201は、その検索ベクトル作成部201dにより、上記検索指示とともに入力された検索条件から検索ベクトルを作成する(ステップS402)。
次に、検索ベクトル作成部201dから検索ベクトルを引き渡された文書検索部204は、文書ベクトル記憶部202内の文書(の識別情報)を一つずつ取り出して(ステップS403)、当該文書に対応づけられた少なくとも一つの文書ベクトルと検索ベクトルとの距離を算出する(ステップS404)。
そして文書ベクトルの中に、検索ベクトルとの距離が閾値以下となるものが一つでもあった場合は(ステップS405:Yes)、当該文書ベクトルに対応する文書の識別情報を検索結果一覧へ出力した後(ステップS406)、文書ベクトル記憶部202に未処理の文書がある限り(ステップS407:No)、次の文書につきステップS403〜S406の処理を繰り返す。一方、どの文書ベクトルも検索ベクトルとの距離が閾値を超えた場合は(ステップS405:No)、そのままステップS407に移行する。
そして、文書ベクトル記憶部202内の全文書につきその文書ベクトルと検索ベクトルとの比較を終えた時点で(ステップS407:Yes)、文書検索部204により作成された検索結果一覧を入出力部203で画面表示して(ステップS408)、本フローチャートによる処理を終了する。なお、ユーザからの入力がそもそも文書検索指示ではなかった場合(ステップS401:No)は、そのまま本フローチャートによる処理を終了する。
以上説明した実施の形態によれば、検索対象文書の本文が複数の行と列とから構成される表である場合は、当該表のセルごとに、いわば表の個々のセルを一文書とみなして文書ベクトルが作成されるので、文書ベクトルの次元の増大を抑制できる結果、ベクトル間の距離の算出が高速に行える。
また、たとえば図5の親文書から切り出された「徳島県板野郡吉野町」「奈良県吉野郡十津川村」「愛媛県松山市吉野町」などの子文書は、検索条件である「奈良県吉野郡吉野町で売却予定の農地」と「吉野町」あるいは「吉野郡」の一方しか共通しないので、その文書ベクトルと検索ベクトルとの距離が閾値以下となる確率は低くなる。すなわち、この子文書の親文書である図5の文書は、適合文書とは判定されにくくなり、検索精度をより向上させることができる。
なお、上述した実施の形態では表内の個々のセルを一文書とみなすようにしたが、子文書の生成単位はセルに限定されず、たとえば表内の各行ごと、あるいは各列ごとに文書ベクトルを作成するなどの応用も可能である。すなわち、表を構成する任意の要素ごとに文書ベクトルを作成するようにする。
以上説明したように、本発明にかかる文書検索装置、文書検索方法、および文書検索プログラムによれば、特にその本文中に表を含む電子文書の検索において検索速度および検索精度を向上させることが可能である。
なお、本実施の形態で説明した文書検索方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク105、フレキシブルディスク107、CD−ROM、CD−RW109、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、本発明にかかる文書検索装置、文書検索方法、および文書検索プログラムは、本文中に表を含む電子文書の検索に有用であり、特に当該表の各セルの値が比較的長い(多数の語句からなるなど)場合に適している。
この発明の実施の形態にかかる文書検索装置のハードウエア構成の一例を示す説明図である。 この発明の実施の形態にかかる文書検索装置の構成を機能的に示す説明図である。 この発明の実施の形態にかかる文書検索装置における、文書検索処理の前処理(具体的には文書ベクトル作成処理)の手順を示すフローチャートである。 この発明の実施の形態にかかる文書検索装置における、文書検索処理の手順を示すフローチャートである。 検索対象文書の一例を示す説明図である。
符号の説明
100 バス
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 CD−RWドライブ
109 CD−RW
110 ディスプレイ
111 キーボード
112 マウス
113 ネットワークI/F
114 通信ケーブル
200 文書記憶部
201 ベクトル作成部
201a 表文書判定部
201b 子文書作成部
201c 文書ベクトル作成部
201d 検索ベクトル作成部
202 文書ベクトル記憶部
203 入出力部
204 文書検索部

Claims (9)

  1. 検索条件に適合する電子文書をベクトル空間法により検索する文書検索装置において、
    前記電子文書の本文が複数の行および列から構成される表であるか否かを判定する表文書判定手段と、
    前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の一部のデータを本文とする複数の子文書を作成する子文書作成手段と、
    前記子文書作成手段により作成された各子文書につきその文書ベクトルを作成する文書ベクトル作成手段と、
    前記電子文書の本文の表から作成されたいずれかの子文書につき前記文書ベクトル作成手段により作成された文書ベクトルと、前記検索条件から作成された検索ベクトルとの距離が閾値以下である場合に、前記電子文書を前記検索条件に適合すると判定する文書検索手段と、
    を備えることを特徴とする文書検索装置。
  2. 前記子文書作成手段は、前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の各セルの値を本文とする複数の子文書を作成することを特徴とする前記請求項1に記載の文書検索装置。
  3. 前記子文書作成手段は、前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の各行の値を本文とする複数の子文書を作成することを特徴とする前記請求項1に記載の文書検索装置。
  4. 前記子文書作成手段は、前記表文書判定手段により前記電子文書の本文が前記表であると判定された場合に、当該表内の各列の値を本文とする複数の子文書を作成することを特徴とする前記請求項1に記載の文書検索装置。
  5. 検索条件に適合する電子文書をベクトル空間法により検索する文書検索方法において、
    前記電子文書の本文が複数の行および列から構成される表であるか否かを判定する表文書判定工程と、
    前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の一部のデータを本文とする複数の子文書を作成する子文書作成工程と、
    前記子文書作成工程で作成された各子文書につきその文書ベクトルを作成する文書ベクトル作成工程と、
    前記電子文書の本文の表から作成されたいずれかの子文書につき前記文書ベクトル作成工程で作成された文書ベクトルと、前記検索条件から作成された検索ベクトルとの距離が閾値以下である場合に、前記電子文書を前記検索条件に適合すると判定する文書検索工程と、
    を含むことを特徴とする文書検索方法。
  6. 前記子文書作成工程では、前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の各セルの値を本文とする複数の子文書を作成することを特徴とする前記請求項5に記載の文書検索方法。
  7. 前記子文書作成工程では、前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の各行の値を本文とする複数の子文書を作成することを特徴とする前記請求項5に記載の文書検索方法。
  8. 前記子文書作成工程では、前記表文書判定工程で前記電子文書の本文が前記表であると判定された場合に、当該表内の各列の値を本文とする複数の子文書を作成することを特徴とする前記請求項5に記載の文書検索方法。
  9. 前記請求項5〜請求項8のいずれか一つに記載された方法をコンピュータに実行させる文書検索プログラム。
JP2004032879A 2004-02-10 2004-02-10 文書検索装置、文書検索方法、および文書検索プログラム Pending JP2005227813A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004032879A JP2005227813A (ja) 2004-02-10 2004-02-10 文書検索装置、文書検索方法、および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004032879A JP2005227813A (ja) 2004-02-10 2004-02-10 文書検索装置、文書検索方法、および文書検索プログラム

Publications (1)

Publication Number Publication Date
JP2005227813A true JP2005227813A (ja) 2005-08-25

Family

ID=35002511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004032879A Pending JP2005227813A (ja) 2004-02-10 2004-02-10 文書検索装置、文書検索方法、および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP2005227813A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339347A (ja) * 1999-03-02 2000-12-08 Canon Inc インデックス作成装置及びその方法、文書検索装置及びその方法、文書検索システム、データベース作成装置及びその方法、記憶媒体
JP2001283220A (ja) * 1999-05-13 2001-10-12 Canon Inc 帳票分類方法及び装置
JP2002312370A (ja) * 2001-04-11 2002-10-25 J-Fit Co Ltd マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339347A (ja) * 1999-03-02 2000-12-08 Canon Inc インデックス作成装置及びその方法、文書検索装置及びその方法、文書検索システム、データベース作成装置及びその方法、記憶媒体
JP2001283220A (ja) * 1999-05-13 2001-10-12 Canon Inc 帳票分類方法及び装置
JP2002312370A (ja) * 2001-04-11 2002-10-25 J-Fit Co Ltd マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム

Similar Documents

Publication Publication Date Title
CN103098051B (zh) 搜索引擎优化助理
JP4173774B2 (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
US10698956B2 (en) Active knowledge guidance based on deep document analysis
US20100228738A1 (en) Adaptive document sampling for information extraction
US8924852B2 (en) Apparatus, method, and program for supporting processing of character string in document
AU2018253637B2 (en) Interactive tutorial integration
JP2003223437A (ja) 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
JP2006228210A (ja) 既存のコンテンツを用いた、タスクを実行するためのアクティブコンテンツウィザード実行可能ファイルの生成
US10789418B2 (en) Batch generation of links to documents based on document name and page content matching
JP2010009251A (ja) 文書データの検索を支援する装置及び方法
US20080162528A1 (en) Content Management System and Method
JP4502615B2 (ja) 類似文検索装置、類似文検索方法、およびプログラム
US20070234201A1 (en) Information Management Device
JP2006251935A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
US20070220439A1 (en) Information Management Device
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP7247593B2 (ja) 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム
JP3943582B2 (ja) 対訳文対応付け装置
JP2005227813A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
US20090199084A1 (en) Document processing device and document processing method
JP3779935B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP2018156552A (ja) 計算機システム及び文章データの検索方法
JP2008233952A (ja) 文書作成支援装置及び文書作成支援プログラム
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100601