JP4769379B2 - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP4769379B2
JP4769379B2 JP2001211122A JP2001211122A JP4769379B2 JP 4769379 B2 JP4769379 B2 JP 4769379B2 JP 2001211122 A JP2001211122 A JP 2001211122A JP 2001211122 A JP2001211122 A JP 2001211122A JP 4769379 B2 JP4769379 B2 JP 4769379B2
Authority
JP
Japan
Prior art keywords
document
search
character string
table structure
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001211122A
Other languages
English (en)
Other versions
JP2003030196A (ja
Inventor
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001211122A priority Critical patent/JP4769379B2/ja
Publication of JP2003030196A publication Critical patent/JP2003030196A/ja
Application granted granted Critical
Publication of JP4769379B2 publication Critical patent/JP4769379B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索装置に関し、詳細には、日本語で入力された検索要求文字列と可能な限り関連性の強い文書を上位候補として提示して、効率的に情報検索を行なうことのできる文書検索装置に関する。
【0002】
【従来の技術】
従来、文書の検索処理においては、一般文書中にある表のような構造化されている文書を、通常の全文検索を使用して検索する場合に、検索キーワードが入っているにも関わらず、実は関連のない文書がノイズとして含まれることが多かった。例えば、従来の検索方法で検索キーワードとして、「Celelon」と「266MHz」をANDで検索したとすると、確かに、「Celelon 266MHz」の情報を得ることはできるが、それ以外に、同じページに上記二つのキーワードがあると、選ばれる検索結果には、離れたところに「Celelon」という言葉があると、「CelelonII 266MHz」と書かれている文書も確信度の変わらない状態で混じってしまう。なお、Celelonは、登録商標である。
【0003】
すなわち、ユーザーがキーワードとして複数の文字列をANDで検索する場合には、ANDで結ばれた文字列には通常何らかのつながりがあるはずであるが、従来の検索方法は、そのつながりを考慮することなく検索していたため、上述のように、関連のない文字列が検索される結果となっていた。
【0004】
そして、従来、タグを有する文書のタグで区切られた参照単位の本文データ、及び前記文書内の単語が含まれている参照単位の本文データが格納されている位置とを対応付けるテーブルを記憶する記憶手段と、検索対象の単語を入力する入力手段と、前記入力手段により入力された検索対象の単語を前記記憶手段に記憶されているテーブルから検索する検索手段と、前記検索手段により検索された単語に対応する本文データが格納されている位置を前記記憶手段のテーブルから取り出す本文データ格納位置取出手段と、前記本文データ格納位置取出手段により取り出された本文データが格納されている位置に従って本文データを取り出す取出手段を具備する全文検索装置が提案されている(特開平10−283375号公報参照)。
【0005】
さらに、従来、検索要求文を入力する入力手段、上記入力手段によって入力された検索要求文の文字列に対して構造解析を行ない単語間の結合関係を抽出する解析手段、上記解析手段によって抽出された検索要求文中の複数の単語がともに含まれている文書ファイルを文書ファイルの集合から検索する全文検索手段、上記全文検索手段によって検索された文書ファイルの中から、検索要求文中の複数の単語が一つの文中に存在する文を抽出する文切り出し手段、上記文切り出し手段によって抽出された文中の複数の単語に対して上記解析手段によって抽出された結合関係が成立するかどうかを調べる照合手段、上記照合手段の照合結果に基づき、上記検索要求文と照合可能な文を有する文書ファイルを検索要求文と内容的に関連する文書として出力する出力手段を有する文書検索方式が提案されている(特開平7−244669号公報参照)。
【0006】
【発明が解決しようとする課題】
しかしながら、このような従来の検索技術にあっては、表文書を検索する上で改良の必要があった。
【0007】
すなわち、特開平10−283375号公報記載の技術にあっては、構造化された文書を検索することを目的として、タグを利用して本文データの位置検出を行っているが、検索キーワード間の相互関係を調査することはできず、効率的な情報検索を行う上で改良の必要があった。
【0008】
また、特開平7−244669号公報記載の技術にあっては、解析単位が文章であり、表を含む文書に対しては、効率的な情報検索を行うことができず、改良の必要があった。
【0009】
そこで、本発明は、表のような構造の文書に対しても、ユーザの指定した検索文字列を関連付けして、効率的な文書検索を行うことのできる文書検索装置を提供することを目的としている。
【0014】
【課題を解決するための手段】
上記目的を達成するため、請求項1記載の発明は、少なくとも表構造で記載されている文書部分を含む文書をファイルした文書ファイル集合手段と、前記文書に関連する複数の文字列の組み合わせで構成される検索文字列を入力する入力手段と、前記入力手段により前記検索文字列が入力されると、当該検索文字列を構成する前記複数の文字列を解析して当該複数の文字列のそれぞれについて前記文書ファイル集合手段における前記文書を全文検索して検索結果を出力する検索制御手段と、前記検索結果を表示する表示手段と、を備えた文書検索装置において、前記検索制御手段は、前記表構造で記載されている前記文書部分に含まれる文字列の組み合わせに対して予め関連付けを示す文字列関連情報を作成して記憶していると共に、前記複数の文字列が当該表構造の同一の行方向又は同一の列方向に含まれているか否かを当該文字列関連情報に基づいて解析し、当該解析結果のパターンに応じた確信度により前記検索結果の評価付けを行って前記表示手段への表示を行うことを特徴とする。
【0015】
請求項2記載の発明は、請求項1記載の発明において、前記検索制御手段は、前記解析結果のパターンとして、前記検索文字列を構成する前記複数の文字列が同一文書に存在したとき、同じ表中に存在したとき、同一行又は同一列に存在したときを判定することを特徴とする。
【0016】
請求項3記載の発明は、請求項1又は2記載の発明において、前記検索制御手段は、前記文書ファイル集合手段に対して検索対象とする前記文書を取り込むときに当該文書が少なくとも表構造を含む画像である場合、当該画像における文字を読み取って当該表構造を解析した表解析情報を記憶し、当該表解析情報及び前記文字列関連情報に基づいて前記複数の文字列が当該表構造の同一の行方向又は同一の列方向に含まれているか否かを解析することを特徴とする。
【0017】
請求項4記載の発明は、請求項1又は2記載の発明において、前記検索制御手段は、前記文書ファイル集合手段に対して検索対象とする前記文書が所定の構造化法則で構造化された表構造を含む場合、当該構造化されている文書から当該表構造を解析した表構造情報を記憶し、当該表構造情報及び前記文字列関連情報に基づいて前記複数の文字列が当該表構造の同一の行方向又は同一の列方向に含まれているか否かを解析することを特徴とする。
【0022】
【発明の実施の形態】
以下、本発明の好適な実施の形態を添付図面に基づいて詳細に説明する。なお、以下に述べる実施の形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【0023】
図1〜図5は、本発明の文書検索装置の第1の実施の形態を示す図であり、本実施の形態は、請求項1に対応するものである。
【0024】
図1は、本発明の文書検索装置の第1の実施の形態を適用した文書検索装置1の概略ブロック構成図であり、文書検索装置1は、入力部2、表示部3、検索制御部4及び文書ファイル集合部5等を備えている。
【0025】
入力部2は、検索キーワードを入力するもので、例えば、キーボード等である。
【0026】
表示部3は、例えば、CRT(陰極線管:Cathode Ray Tube)や液晶ディスプレイ等が用いられ、文書検索装置1を使用した検索処理を行うのに必要な各種情報、例えば、入力部2からの検索キーワードの入力画面表示、入力された検索キーワードの表示、検索結果情報の表示等を行う。
【0027】
文書ファイル集合部5は、例えば、ハードディスク等の大容量のメモリで構成され、検索対象の文書ファイルの集合が記憶されている。特に、文書ファイル集合部5に記憶されている文書は、表を含む文書や表自体の文書である。
【0028】
検索制御部4は、入力部2で入力された検索キーワードに基づいて文書ファイル集合部5の全ての文書ファイルを検索して、検索結果を検索情報として表示部3に表示させる。
【0029】
この検索制御部4は、図2に示すように構成されており、検索キーワード解析部11、全文検索部12、表内判定部13、所属行/列解析部14及び確信度作成部15等を備えている。
【0030】
検索キーワード解析部11は、入力部2から入力された検索文字列が複数の文字列、例えば、単語のANDかORかの解析を行い、例えば、文字列Aと文字列Bが検索文字列として入力されたとき、文字列Aと文字列BのANDが検索文字列であることを解析する。
【0031】
全文検索部12は、検索キーワード解析部11の解析した検索文字列の各文字列に基づいて、文書ファイル集合部5の文書ファイル集合の各文書ファイルに対して、検索文字列が存在するか否かを検索する。例えば、検索文字列が上記文字列Aと文字列BのANDである場合、全文検索部12は、まず、文書ファイル集合部5の各文書ファイルを検索して、文字列Aが存在しているか否かを調べ、文字列Aが文書ファイルに存在していると、フラグAを立て、次に文字列Bが文書ファイルに存在しているかどうかを調べる。全文検索部12は、文字列Bを検索して、文字列Bが存在していると、フラグBを立てる。
【0032】
表内判定部13は、全文検索部12の検索結果であるフラグの有無を調べて、複数の文字列からなる検索文字列が同じ表内にあるか否かの判定を行う。例えば、検索文字列が上記文字列Aと文字列Bの場合、表内判定部13は、フラグAとフラグBが立っていた場合、文字列Aと文字列Bが表の内部に存在しているか、及び、同じ表の内部に存在するかを判定する。この表内判定部13の判定では、表の位置座標と文字列A、Bの位置座標に基づいて、その包含関係を判定する。
【0033】
所属行/列解析部14は、検索文字列を構成する各文字列が同一行または同一列に位置するか否かを解析する。すなわち、所属行/列解析部14は、予め検索文字列を構成する各文字列に所属行列を持たせているフォーマット等では当該所属行列が一致するか否かで、各文字列が同一行または同一列に位置するか否かを解析し、各文字列に所属行列を持たせていないフォーマットの場合であっても、文字列の位置座標で、文字列の重心または先頭文字の座標値の一致度を検査することで、各文字列が同一行または同一列に位置するか否かを解析し、さらに、各文字列が行列も座標もまったく有していないデータであると、例えば、当該文字列を含む文書をプリントアウトさせた状態でどの位置に当該文字列がくるかで、その座標値に対して処理を行うことで、各文字列が同一行または同一列に位置するか否かを解析する。
【0034】
確信度作成部15は、上記全文検索部12の検索結果、表内判定部13の判定結果及び所属行/列解析部14の解析結果に基づいて、検索文字列を構成する各文字列が単独に存在したとき、同じ表中に存在したとき、同一行または同一列に存在したとき等のそれぞれのパターンを判定して、各パターンに応じた確信度(評価付け)を設け、差分をつけて表示部3に出力させる。
【0035】
次に、本実施の形態の作用を説明する。本実施の形態の文書検索装置1は、検索文字列が複数の文字列からなるときに、検索対象の文書に表が含まれている場合にも、検索文字列の複数の文字列が当該表中の同一行または同一列に含まれるか否かを含めて検索するところにその特徴がある。
【0036】
すなわち、文書検索装置1は、例えば、文書ファイル集合部5に、図3に示す表1を含む文書1が、図4に示す表1を含む文書2が、さらに、図5に示す表1と表2を含む文書3が、文書ファイルとして格納されており、検索キーワード(検索文字列)として、文字列「Celelon」と文字列「266MHz」がANDで指定入力された場合、検索キーワード解析部11が文字列「Celelon」と文字列「266MHz」のANDが検索文字列であることを解析する。そして、全文検索部12が、これらの文字列「Celelon」と文字列「266MHz」について文書ファイル集合部5の文書1から文書3を検索し、各文字列が文書1〜文書3に存在しているか否かで、各文書1〜文書3毎にフラグを設定する。なお、図3から図5において、Celelon、Pentium、PentiumII及びK6は、登録商標である。
【0037】
次に、表内判定部13が、この全文検索部12の設定したフラグの有無を調べて、文字列「Celelon」と文字列「266MHz」からなる検索文字列が同じ表内にあるか否かの判定を行って、包含関係を判定し、所属行/列解析部14が、検索文字列を構成する各文字列「Celelon」と文字列「266MHz」が表の同一行または同一列に位置するか否かを解析する。
【0038】
そして、確信度作成部15が、全文検索部12の検索結果、表内判定部13の判定結果及び所属行/列解析部14の解析結果に基づいて、検索文字列を構成する各文字列が単独に存在したとき、同じ表中に存在したとき、同一行または同一列に存在したとき等のそれぞれのパターンを判定して、各パターンに応じた確信度を設け、差分をつけて表示部3に出力させる。
【0039】
例えば、文字検索装置1は、上記図3〜図5の文書1〜文書3の場合、文字列「Celelon」と文字列「266MHz」からなる検索文字列に対して、文書1については、確信度として、「100% 同一表、同一行」を表示部3に表示出力し、文書2については、確信度として、「90% 同一表」を表示部3に表示出力し、さらに、文書3については、確信度として、「80% 同一文書のみ」を表示部3に表示出力する。
【0040】
ところが、上記従来の検索方法では、検索結果として、文書1〜文書3のいずれについても、100%として検索される。
【0041】
このように、本実施の形態の文書検索装置1は、少なくとも表の構造で記載されている文書部分を含む文書を全文検索して、検索結果を出力するに際して、複数の文字列の組み合わせで構成される検索文字列が入力されると、当該検索文字列を構成する複数の文字列を解析して、当該各文字列について文書を全文検索して、当該複数の文字列が表の構造の同一の行方向または同一の列方向に含まれているか否かを解析し、当該解析結果に基づいて、確信度として検索結果の評価付けを行っている。
【0042】
したがって、検索対象の表構造を含む文書のうち、ユーザの指定した検索文字列が表構造部分に含まれている場合にも、ユーザの指定した検索文字列の存在する最も近い順番で、検索結果を得ることができ、利用性を向上させることができる。
【0043】
図6は、本発明の文書検索装置の第2の実施の形態を適用した文書検索装置20の概略ブロック構成を示す図であり、本実施の形態は、請求項2に対応するものである。
【0044】
なお、本実施の形態は、上記第1の実施の形態の文書検索装置1と同様の文書検索装置に適用したものであり、本実施の形態の説明においては、上記第1の実施の形態の文書検索装置1と同様の構成部分には、同一の符号を付して、その詳細な説明を省略する。
【0045】
図6において、文書検索装置20は、上記第1の実施の形態の文書検索装置1と同様の入力部2、表示部3、検索制御部4及び文書ファイル集合部5を備えているとともに、インデックスファイル作成部21及びインデックスファイル格納部22等を備えている。
【0046】
インデックスファイル格納部22は、インデックスファイル作成部21の作成したインデックスファイルを格納する。
【0047】
インデックスファイル作成部21は、文書ファイル集合部5に格納されている文書ファイルが所定数を超えると、文書ファイル集合部5に格納されている文書ファイルのインデックス(文字列関連情報)を作成して、インデックスファイル格納部22に格納する。インデックスファイル作成部21は、このインデックスとして、例えば、文書ファイル集合部5に格納されている文書ファイルの表中の同一行または同一列にある文字列同士にリンクを付加する。
【0048】
このように、本実施の形態の文書検索装置20は、文書ファイル集合部5に格納されている文書ファイルが所定数を超えると、例えば、文書ファイル集合部5に格納されている文書ファイルの表中の同一行または同一列にある文字列同士にリンクを付加する等のインデックスをインデックスファイル作成部21が作成して、インデックスファイル格納部22に格納する。
【0049】
したがって、入力部2で検索キーワードとして、例えば、文字列Aと文字列Bが指定されると、この文字列Aと文字列Bにリンクが張られてたインデックスファイルがインデックスファイル格納部22に格納されていると、これらの文字列Aと文字列Bは同一行または同一列であると速やかに判断することができ、確信度に差分を付けてより一層速やかに出力することができる。
【0050】
図7は、本発明の文書検索装置の第3の実施の形態を適用した文書検索装置30の概略ブロック構成を示す図であり、本実施の形態は、請求項3に対応するものである。
【0051】
なお、本実施の形態は、上記第1の実施の形態の文書検索装置1と同様の文書検索装置に適用したものであり、本実施の形態の説明においては、上記第1の実施の形態の文書検索装置1と同様の構成部分には、同一の符号を付して、その詳細な説明を省略する。
【0052】
図7において、文書検索装置30は、上記第1の実施の形態の文書検索装置1と同様の入力部2、表示部3及び検索制御部4を備えているとともに、画像ファイル集合部31、検索情報抽出部32及び検索情報ファイル格納部33等を備えている。
【0053】
画像ファイル集合部31は、例えば、ハードディスク等の大容量のメモリで構成され、検索対象の画像ファイルや文書ファイルの集合が記憶されている。特に、画像ファイル集合部31に記憶されているファイルは、表を含む文書や表自体の画像ファイルが主のファイルである。
【0054】
検索情報ファイル格納部33は、検索情報抽出部32の抽出した検索情報ファイルを格納する。
【0055】
検索情報抽出部32は、画像ファイル集合部31に画像ファイルが登録されるたびに起動し、OCR(Optical Character Reader:光学式文字読取装置)で当該画像から検索情報(表解析情報)を抽出して、検索情報ファイルとして、検索情報ファイル格納部33に格納する。
【0056】
検索情報抽出部32の抽出する検索情報は、画像をテキスト化した情報が主な情報であり、検索のためのインデックス情報を付加して検索の効率化を向上させるようにしてもよい。そして、検索情報抽出部32は、画像ファイルとして、表の文書が入力されると、その表内部の構造を解析し、検索情報に付加する。この画像から表の解析を行う技術は、例えば、特開平10−134142号公報記載の表作成システムや本出願人が先に提案した特開平7−230525号公報記載の罫線認識方法及び表処理方法、特開平11−66225号公報記載の表情報抽出装置及び方法並びに記録媒体、特許2851087号公報記載の表処理方法及び特許番号2851089号公報記載の表処理方法等の技術を用いることができる。
【0057】
このように、本実施の形態の文書検索装置30は、画像ファイル集合部31にに画像ファイルが登録される毎に検索情報抽出部32で当該画像から検索情報を抽出して、検索のためのインデックス情報等を付加して検索情報ファイルとして、検索情報ファイル格納部33に格納する。
【0058】
したがって、入力部2で検索キーワードとして、例えば、文字列Aと文字列Bが指定されると、画像ファイル集合部5の格納されている画像ファイルに対して、文字列Aと文字列Bの書かれている位置から文字列Aと文字列Bは同一行または同一列であると速やかに判断することができ、確信度に差分を付けてより一層速やかに出力することができる。
【0059】
図8は、本発明の文書検索装置の第4の実施の形態を適用した文書検索装置40の検索制御部41のブロック構成を示す図であり、本実施の形態は、請求項4に対応するものである。
【0060】
なお、本実施の形態は、上記第1の実施の形態の文書検索装置1と同様の文書検索装置に適用したものであり、本実施の形態の説明においては、上記第1の実施の形態の文書検索装置1と同様の構成部分には、同一の符号を付して、その詳細な説明を省略する。
【0061】
図8において、文書検索装置40は、その検索制御部41が、上記第1の実施の形態の文書検索装置1の検索制御部4と同様の検索キーワード解析部11、全文検索部12、表内判定部13、所属行/列解析部14及び確信度作成部15を備えているとともに、タグ解析部42を備えている。
【0062】
タグ解析部42は、文書ファイル集合部5の文書ファイルがhtml(Hyper Text Markup Language)等のようにタグで記載された表である場合に、当該表のタグを解析し、どの文字列が同一行にあるか等を解析して、当該解析情報(表構造情報)を保持する。
【0063】
このように、本実施の形態の文書検索装置40は、文書ファイルの表がタグで作成されている場合にも、当該表のタグをタグ解析部42で、どの文字列が同一行にあるか等を解析して、当該解析情報を保持しているので、タグで作成されている文書ファイルに対して、文字列Aと文字列Bの書かれている位置から文字列Aと文字列Bは同一行または同一列であると速やかに判断することができ、確信度に差分を付けてより一層速やかに出力することができる。
【0064】
そして、上記各実施の形態の文書検索装置1、20、30、40は、上記文書検索処理プログラムを予め検索制御部4、41のメモリ(図示略)等に格納しておくことで、あるいは、当該文書検索処理プログラムを記憶したCD(Compact Disc)やMO(光磁気ディスク)等の記憶メディアから文書検索装置1、20、30、40の検索制御部4、41のメモリ等に書き込むことで、実現することができる。この場合、文書検索装置1、20、30、40としては、パーソナルコンピュータ等を用いることができる。
【0065】
また、入力部2や表示部3としては、文書検索装置1、20、30、40に直接設けられたものに限るものではなく、例えば、ネットワークを介して接続された端末装置等であってもよい。
【0066】
さらに、上記各実施の形態の文書検索装置1、20、30、40は、表を含む文書や表のみの文書だけでなく、表を含まない通常の文書に対しても検索処理を行うことができることは当然である。
【0067】
以上、本発明者によってなされた発明を好適な実施の形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0068】
【発明の効果】
請求項1記載の発明によれば、検索制御手段によって文書部分に含まれる文字列の組み合わせに対して予め関連付けを示す文字列関連情報を記憶し、文字列関連情報に基づいて文字列の解析を行い、解析結果のパターンに応じて確信度の差分をつけた検索結果の評価付けを表示するため、検索対象の表構造を含む文書のうち、ユーザの指定した検索文字列が表構造部分に含まれている場合にも、ユーザの指定した検索文字列の存在する最も近い順番で効率良く文書検索が行われ、速やかに確信度の差分に応じた評価付けの検索結果を得ることができることにより、利用性を向上させることができる。
【0069】
請求項2記載の発明によれば、解析結果のパターンとして、検索文字列を構成する複数の文字列が同一文書に存在したとき、同じ表中に存在したとき、同一行又は同一列に存在したときを判定し、それらについて確信度の差分に応じた評価付けの検索結果を別個に得ることができることにより、一層利用性を向上させることができる。
【0070】
請求項3記載の発明によれば、文書が画像である場合にも検索制御手段によって画像の文書を取り込む際に表部分を解析して表解析情報として記憶し、係る表解析情報及び文字列関連情報に基づいて文字列の解析を行うため、ユーザの指定した検索文字列が画像で与えられた文書の表構造部分に含まれている場合にも、ユーザの指定した検索文字列の存在する最も近い順番で効率良く文書検索が行われ、一層速やかに確信度の差分に応じた評価付けの検索結果を得ることができることにより、一層利用性を向上させることがでる。
【0071】
請求項4記載の発明によれば、文書がタグ等の構造化法則で構造化されている文書である場合にも検索制御手段によって文書から表構造を解析して表構造情報として記憶し、係る表解析情報及び文字列関連情報に基づいて文字列の解析を行うため、ユーザの指定した検索文字列が構造化法則で構造化されている文書の表構造部分に含まれている場合にも、ユーザの指定した検索文字列の存在する最も近い順番で効率良く文書検索が行われ、一層速やかに確信度の差分に応じた評価付けの検索結果を得ることができることにより、一層利用性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の文書検索装置の第1の実施の形態を適用した文書検索装置の概略ブロック構成図。
【図2】図1の文書検索装置の検索制御部のブロック構成図。
【図3】図1の文書検索装置の文書ファイル集合部に格納されている検索対象の文書1の表1の一例を示す図。
【図4】図1の文書検索装置の文書ファイル集合部に格納されている検索対象の文書2の表2の一例を示す図。
【図5】図1の文書検索装置の文書ファイル集合部に格納されている検索対象の文書3の表1及び表2の一例を示す図。
【図6】本発明の文書検索装置の第2の実施の形態を適用した文書検索装置の概略ブロック構成図。
【図7】本発明の文書検索装置の第3の実施の形態を適用した文書検索装置の概略ブロック構成図。
【図8】本発明の文書検索装置の第4の実施の形態を適用した文書検索装置の検索制御部のブロック構成図。
【符号の説明】
1 文書検索装置
2 入力部
3 表示部
4 検索制御部
5 文書ファイル集合部
11 検索キーワード解析部
12 全文検索部
13 表内判定部
14 所属行/列解析部
15 確信度作成部
20 文書検索装置
21 インデックスファイル作成部
22 インデックスファイル格納部
30 文書検索装置
31 検索情報抽出部
32 検索情報ファイル格納部
40 文書検索装置
41 検索制御部
42 タグ解析部

Claims (4)

  1. 少なくとも表構造で記載されている文書部分を含む文書をファイルした文書ファイル集合手段と、前記文書に関連する複数の文字列の組み合わせで構成される検索文字列を入力する入力手段と、前記入力手段により前記検索文字列が入力されると、当該検索文字列を構成する前記複数の文字列を解析して当該複数の文字列のそれぞれについて前記文書ファイル集合手段における前記文書を全文検索して検索結果を出力する検索制御手段と、前記検索結果を表示する表示手段と、を備えた文書検索装置において、
    前記検索制御手段は、前記表構造で記載されている前記文書部分に含まれる文字列の組み合わせに対して予め関連付けを示す文字列関連情報を作成して記憶していると共に、前記複数の文字列が当該表構造の同一の行方向又は同一の列方向に含まれているか否かを当該文字列関連情報に基づいて解析し、当該解析結果のパターンに応じた確信度により前記検索結果の評価付けを行って前記表示手段への表示を行うことを特徴とする文書検索装置。
  2. 請求項1記載の文書検索装置において、前記検索制御手段は、前記解析結果のパターンとして、前記検索文字列を構成する前記複数の文字列が同一文書に存在したとき、同じ表中に存在したとき、同一行又は同一列に存在したときを判定することを特徴とする文書検索装置。
  3. 請求項1又は2記載の文書検索装置において、前記検索制御手段は、前記文書ファイル集合手段に対して検索対象とする前記文書を取り込むときに当該文書が少なくとも表構造を含む画像である場合、当該画像における文字を読み取って当該表構造を解析した表解析情報を記憶し、当該表解析情報及び前記文字列関連情報に基づいて前記複数の文字列が当該表構造の同一の行方向又は同一の列方向に含まれているか否かを解析することを特徴とする文書検索装置。
  4. 請求項1又は2記載の文書検索装置において、前記検索制御手段は、前記文書ファイル集合手段に対して検索対象とする前記文書が所定の構造化法則で構造化された表構造を含む場合、当該構造化されている文書から当該表構造を解析した表構造情報を記憶し、当該表構造情報及び前記文字列関連情報に基づいて前記複数の文字列が当該表構造の同一の行方向又は同一の列方向に含まれているか否かを解析することを特徴とする文書検索装置。
JP2001211122A 2001-07-11 2001-07-11 文書検索装置 Expired - Fee Related JP4769379B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001211122A JP4769379B2 (ja) 2001-07-11 2001-07-11 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001211122A JP4769379B2 (ja) 2001-07-11 2001-07-11 文書検索装置

Publications (2)

Publication Number Publication Date
JP2003030196A JP2003030196A (ja) 2003-01-31
JP4769379B2 true JP4769379B2 (ja) 2011-09-07

Family

ID=19046488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001211122A Expired - Fee Related JP4769379B2 (ja) 2001-07-11 2001-07-11 文書検索装置

Country Status (1)

Country Link
JP (1) JP4769379B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272782A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書検索装置
JP3627445B2 (ja) * 1997-06-04 2005-03-09 富士ゼロックス株式会社 文書検索装置及び文書検索プログラムを記録した記憶媒体
JPH11143897A (ja) * 1997-11-10 1999-05-28 Seiko Epson Corp 情報検索方法及び情報検索装置並びに情報検索処理プログラムを記憶した記憶媒体
JP3656799B2 (ja) * 1998-09-17 2005-06-08 日立ソフトウエアエンジニアリング株式会社 帳票データ検索装置

Also Published As

Publication number Publication date
JP2003030196A (ja) 2003-01-31

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
US8060511B2 (en) Method for extracting referential keys from a document
US20080288309A1 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP4254763B2 (ja) 文書検索システム、文書検索方法及び文書検索プログラム
JP2006065477A (ja) 文字認識装置
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
CN109670183A (zh) 一种文本重要性的计算方法、装置、设备和存储介质
JP4769379B2 (ja) 文書検索装置
CN106250354B (zh) 处理文书的信息处理装置、信息处理方法以及程序
JP2000250908A (ja) 電子書籍の作成支援装置
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JPH1011443A (ja) 文書符号検査システム
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
WO2023286340A1 (ja) 情報処理装置および情報処理方法
JPH08115330A (ja) 類似文書検索方法および装置
JP2549745B2 (ja) 文書検索装置
JP2003058559A (ja) 文書分類方法、検索方法、分類システム及び検索システム
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
WO2022215433A1 (ja) 情報表現構造解析装置、および情報表現構造解析方法
JP4843705B2 (ja) 名刺読取装置
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
JPH0635971A (ja) 文書検索装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080711

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110620

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees