JP5033724B2 - 文書検索装置及び画像形成装置、文書検索システム - Google Patents

文書検索装置及び画像形成装置、文書検索システム Download PDF

Info

Publication number
JP5033724B2
JP5033724B2 JP2008173880A JP2008173880A JP5033724B2 JP 5033724 B2 JP5033724 B2 JP 5033724B2 JP 2008173880 A JP2008173880 A JP 2008173880A JP 2008173880 A JP2008173880 A JP 2008173880A JP 5033724 B2 JP5033724 B2 JP 5033724B2
Authority
JP
Japan
Prior art keywords
data
search
document
unit
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008173880A
Other languages
English (en)
Other versions
JP2009037605A (ja
Inventor
仁志 竹谷
Original Assignee
株式会社沖データ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社沖データ filed Critical 株式会社沖データ
Priority to JP2008173880A priority Critical patent/JP5033724B2/ja
Publication of JP2009037605A publication Critical patent/JP2009037605A/ja
Application granted granted Critical
Publication of JP5033724B2 publication Critical patent/JP5033724B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Description

本発明は、文書検索装置及び画像形成装置、文書検索システムに関するものである。
過去に作成した文書データをテンプレートとして再利用する場合、利用者は大量に蓄積された文書データから目的の文書データを選択するために検索候補の絞込みを行う必要があった。この際、大量の文書データから利用者が必要とする文書データを確実に検索するためには、書誌的な検索だけでは十分に絞り込むことが困難であり、文書データに記載されている本文中の検索も必須である。この作業は、時間と労力を費やし利用者に負担がかかるものであった。
上記問題を解決するために、特許文献1には文書検索及び文書閲覧の利便性向上を目的とした技術が提案されている。具体的には、特許文献1に記載の検索システムにおいては、蓄積対象の文書データは検索を容易にするために構造化された形態となっている。当該検索システムは、この文書データの構造情報を利用して文書の一部分のみを閲覧可能にすることで検索結果の閲覧方法の利便性の向上を図っている。
特開平7−175825号公報
しかしながら、特許文献1に記載の検索システムでは、利用者が検索結果の閲覧をレイアウト表示で確認することができる等の表示方法の利便性は向上しているものの、その検索結果の表示方法は十分なものではない。特に使用者が過去に作成した文書データをテンプレートとして使用する場合、直感的に利用者が必要とする文書データを検索候補の中から正確に見出すことは一般的に困難であった。
上記課題を解決するために本発明にかかる検索装置は、文書作成ソフトウェアで作成され、該文書作成ソフトウェアの属性を承継する文書形式データの所定の項目に入力された入力内容を該所定の項目と関連付けてテンプレートデータとして抽出し、該テンプレートデータを前記文書形式データのヘッダ部として合成することにより蓄積データファイルを生成するテンプレートデータ生成部と、前記入力内容より検索の対象となる検索語候補を取得する検索語候補取得部と、前記蓄積データファイルと前記検索語候補とを関連付けて蓄積する蓄積部と、入力された検索語に基づいて前記蓄積部に蓄積された前記検索語候補を対象に検索を行い、検索された前記検索語候補に関連付けられた前記蓄積データファイルを抽出する検索処理部と、前記検索処理部によって検索された前記蓄積データファイルを選択された前記所定の項目を軸とした座標にアイコンとして選択可能に表示する表示部と、利用頻度に基づき前記蓄積データファイルの価値計算を行う蓄積データ処理部と、入力されたデータが前記文書作成ソフトウェアで作成された文書形式データか、又は該文書作成ソフトウェア以外のソフトウェアで作成された非文書形式データであるかを判断するデータ判断部と、データ判断部が非文書形式データであると判断した場合、入力された前記非文書形式データをOCR(Optical Character Reader)に供することで文字列データを抽出し、類似する文書形式データを探索するテンプレート候補探索部とを有し、前記表示部は、前記蓄積データ処理部による価値計算の結果に基づき前記アイコンの表示サイズを変更するとともに、選択された前記アイコンに関連する情報を表示し、前記テンプレートデータ生成部は、類似する前記文書形式データの所定の項目の入力位置に該当する箇所の文字列データを前記非文書データから抽出し、これを該所定の項目と関連付けてテンプレートデータとし、該テンプレートデータを前記非文書形式データのヘッダ部として合成することにより蓄積データファイルを生成することを特徴とする
本発明にかかる検索装置は、文書データが入力されたテンプレートが検索装置に入力されると、まず入力された入力内容を所定の項目と関連付けたテンプレートデータを生成し、テンプレートのデータにテンプレートデータを合成することで蓄積データファイルを生成する。次に検索装置は、テンプレートに入力された入力内容より検索の対象となる検索語候補を取得し、蓄積データファイルに関連付けて蓄積部に格納する。利用者が必要とする文書データが有する検索語を検索装置に入力すると、検索装置の検索処理部は、蓄積部に蓄積されている検索後候補を対象に検索を行い利用者が入力した検索語を含む蓄積データファイルを抽出する。抽出された蓄積データファイルは、利用者が選択した所定の項目を軸とした座標にアイコンとして表示される。
また、本発明にかかる画像形成装置は、前述した検索装置を備え、文書形式データ又は非文書形式データの入力、テンプレートの検索、検索結果の出力を画像形成装置のみで行う。
さらに、本発明にかかる文書検索システムは、前述した検索装置を備え、外部の情報処理装置を用いて文書形式データ又は非文書形式データの入力を行う。情報端末から入力された文書形式データ又は非文書形式データを基に検索装置は利用者が必要とするテンプレートの検索を行う。
本発明によれば、利用者により入力された検索語に基づき検索されたテンプレート候補は、利用者が選択した所定の項目を軸とする座標にアイコンとして表示される。したがって、直感的に利用者が必要とするテンプレートを容易に見出すことが可能となり、利用者が必要とするテンプレートを検索するために消費する時間及び労力を大幅に低減することが可能となる。
また、本発明にかかる検索装置を備えた画像形成装置によれば、文書形式データ又は非文書形式データの入力、テンプレートの検索、検索結果の出力を画像形成装置1台で行うことが可能であり、利用者の作業負担を軽減することができる。
さらに、本発明にかかる検索装置を備えた検索システムによれば、文書形式データ又は非文書形式データの入力を外部の接続機器である情報処理装置で行うことができ、検索装置が検索した検索結果を情報処理装置に接続された表示装置に表示させることができる。従って、表示装置に表示された検索結果の内容を詳細に視認することができ、検索ミス又は検索漏れ等が無いかを利用者は容易に確認することが可能となる。
(第1の実施例)
図1は、第1の実施例にかかる検索装置を備えた画像形成装置100の構成を説明するためブロック図である。画像形成装置100は、データ入力部101と、データテンプレート生成部102と、検索語候補取得部103と、検索語群及びデータ蓄積部104と、データ出力部105と、データ処理部106と、検索語入力部107と、検索結果出力部108と、パネル画像処理部109と、検索処理部110と、蓄積データ処理部111とを備える。
データ入力部101は、外部装置であるホストパソコン、スキャナ、USB(Universal Serial Bus)メモリなどのデータストレージ、FAX等との接続手段であり、文書形式データを画像形成装置100に入力する部分である。
テンプレートデータ生成部102は、データ入力部101から入力された文書形成データの入力内容を後述する所定の項目と関連付けたテンプレートデータを生成し、文書形式データのデータにテンプレートデータを合成することで蓄積データファイルを生成する部分である。
検索語候補取得部103は、文書形式データに入力された入力内容に存在する語を検索語候補群として取得する部分である。
検索語群及びデータ蓄積部104は、テンプレートデータ生成部102が生成した蓄積データファイルを検索語候補取得部103が取得した検索語候補群に関連付けて蓄積する部分であり、ハードディスク等の大容量のデータストレージが用いられる。
データ処理部106は、データ入力からデータ出力に至るまでに必要な画像形成等にかかる一連の処理を行う部分である。
データ出力部105は、外部装置であるホストパソコン、スキャナ、USBメモリなどのデータストレージ、FAX等との接続手段であり、データ処理部106で処理されたデータ等の出力を行う部分である。
検索語入力部107は、検索語群及びデータ蓄積部104に蓄積された検索語候補群に対して検索を行うための文字入力インターフェースである。また、検索結果出力部108は、利用者の検索要求に対し検索結果を表示する部分である。本実施例におけるタッチパネルは、検索語入力部107及び検索語出力部108から構成され、例えばLCD(Liquid Crystal Display)等を用いることができる。
パネル画像処理部109は、検索語入力、あるいは検索結果出力にかかるタッチパネル操作を処理する部分である。
検索処理部110は、利用者が入力した検索要求を解釈し、検索語群及びデータ蓄積部104にアクセスすることで検索要求に該当する蓄積データファイルの抽出を行う部分である。
蓄積データ処理部111は、印刷時刻や印刷ページ数、テンプレートの再利用状況などの情報を基に蓄積データファイルの利用頻度の高さを表す価値計算を行う部分である。
本実施例にかかる一連の処理は、テンプレートとしての文書形式データの蓄積処理、検索処理、検索結果の表示処理の3段階に大別される。まず、文書形式データの蓄積処理について説明する。文書形式データの蓄積処理は、画像形成装置100に文書形式データが入力される度に行われる。蓄積対象の文書形式データとしては、テキスト文書など文書作成ソフトウェアで作成された文書形式データが用いられる。
テンプレートとしての文書形式データの一例を図2に示す。一例として挙げた「出張報告書」には、「行先 A」、「用件 B」、「経路 C」、「費用 D」、「出張人数 E」及び「目的」の入力項目がある。また、文書形式データの管理情報として「作成日時 F」、「更新日時 G」及び「作成者 H」の入力項目がある。利用者は、例えば図3に示すように、これらの項目に記入して文書形式データを作成する。
図4は、文書形式データが画像形成装置100のデータ入力部101を介して入力され、データ出力部105を介して出力されるまでの一連の工程を説明するフローチャーである。まず、利用者により文書形式データが画像形成装置100に入力されると、テンプレートデータ生成部102は、S301においてテンプレート情報の有無を確認する。テンプレート情報の有無が確認されると(S301 Yes)、テンプレートデータ生成部102は、各項目を要素、各項目に入力された具体的内容をデータとして抽出し、図5に示すようなテンプレートデータである要素―データ対を生成する。次に、テンプレートデータ生成部102は、データファイル名、文書形式データ名、及び要素―データ対を文書形式データのデータにヘッダ部分として合成することで蓄積データファイルを生成する(図6)。
次に、S303において、検索語候補取得部103は、文書形式データに入力された入力内容に存在する語を検索語候補群として取得する。
テンプレートデータ生成部102によって生成した蓄積データファイルは検索語候補取得部103によって取得された検索語候補群に関連付けられて検索語群及びデータ蓄積部104に蓄積される(S304)。
次にS305において、蓄積データ処理部111は、印刷時刻や印刷ページ数、テンプレートの再利用状況などの情報を基に蓄積データファイルの利用頻度の高さを表す価値計算を行う。
次にS306において、データ処理部106は、入力された文書形式データを出力形式に合わせて画像形成等を行い、データ出力部105を介して出力する(S307)。また、S301において、テンプレート情報の有無が確認できない場合は(S301 No)、S302〜S305の工程は行われず、直接出力のためのデータ処理が行われる。
次に本実施例にかかる検索処理及び検索結果の表示処理について図7のフローチャートを用いて説明する。まず、利用者は、例えばタッチパネル上の検索語入力部107あるいは画像形成装置100にホストパソコンが接続されている場合には、ホストパソコンのキーボードを利用して検索語を入力する(S401)。タッチパネル上の検索語入力部107での操作は、パネル画像処理部109で処理される。パネル画像処理部109から検索指令を受けた検索処置部110は、検索語群及びデータ蓄積部104に蓄積されている検索語候補群を対象に検索語入力部107に入力された検索語を検索し、検索語に関連付けられた蓄積データファイルを抽出する。
利用者が入力した検索語に合致する語が検索語候補群に存在した場合(S402 Yes)、検索処理部110は、検索結果をタッチパネル上に表示するようパネル画像処理部109に指令を供給する。パネル画像処理部109からの検索結果表示指令を受けた検索結果出力部108は、図8に示す検索結果をタッチパネル上に表示する。この際、蓄積データファイルが保持する要素が検索結果画面内の次元要素選択部に軸要素として表示される(S403)。次に、利用者は次元要素選択部に表示された軸要素を選択する(S404)。軸要素は2つまで同時に選択することができ、他に軸要素候補が存在した場合や選択軸数が2つに満たない場合は、軸要素選択を繰り返して行うことができる(S405 Yes)。
軸要素が選択された場合、図8に示すように蓄積データファイルは、選択した軸から構成される座標にアイコンとして表示される。図8は、検索語として「出張報告書」、「芝浦」を入力して検索を行った結果を示している。また、選択可能な軸要素としては、「行先」、「用件」、「経路」、「費用」、「出張人数」、「作成日時」、「更新日時」、及び「作成者」が表示され、検索結果表示に用いた軸要素は「作成日時」及び「更新日時」である。
また、図8に示されているようにアイコンとして表示されている蓄積データファイルは、それぞれ表示サイズが異なるように表示されている。これは、蓄積データ処理部111が計算した価値計算の結果を反映しており、利用価値が高い蓄積データファイルほどそのアイコンの大きさは大きいものとなっている。価値計算は、前述した印刷時刻や印刷ページ数、再利用状況などの情報と共に過去の検索候補として挙げられた回数、拡大表示回数等も考慮され計算される。さらに、各アイコンを選択することでアイコンを拡大表示することが可能である(図9)。
他に軸要素候補が無く選択軸数が2つである場合、印刷候補を選択し(S406)、一連の工程を終了する(S407)。また、S402において利用者が入力した検索語に合致する語が検索語候補群に存在しなかった場合、S403〜S406の工程は行われず、一連の工程は終了する(S402 No)。しかし、S407において終了を選択しない場合は、検索語入力から開始することができる(S407 No)。
以上のように、第1の実施例によればタッチパネル、ホストコンピュータのユーティリティを利用してテンプレートを容易に再利用することができる。検索結果は二次元で表示され、各次元はテンプレートが保持する各要素に対応する。第1の実施例にかかる検索結果表示方法により、利用者は各要素が有する意味合いを参考に直感的に再利用対象のテンプレートを検索することが可能となる。例えば、利用者が「文書作成日」、「7月」、及び「沖 太郎」等を検索語として検索を行い、この検索結果を「文書作成日」及び「旅費」を2軸として表示することで、「7月頃に作成した文書で旅費がいくらくらいだった」という大まかな意味合いを基に必要なテンプレートを検索することが可能となる。
(第2の実施例)
第2の実施例においては、第1の実施例では蓄積対象とされなかったTIFF(Tagged Image File Format)形式を代表とする画像データを非文書形式データとして蓄積する。第2の実施例にかかる画像形成装置の構成は、第1の実施例にかかる画像形成装置の構成と略同一である。したがって、同一な部分の説明は省略し、構成が異なる部分についてのみ説明する。図10は、第2の実施例にかかる検索装置を備えた画像形成装置100の構成を説明するためブロック図である。第2の実施例にかかる画像形成装置100は、データ判定部112とテンプレート候補探索処理部113とを備える。
データ判定部112は、利用者によって入力されたデータが文書形式データであるか非文書形式データであるかを判断する部分である。
テンプレート候補探索処理部113は、入力された非文書形式データに類似するテンプレートを画像形成装置100の検索語群及びデータ蓄積部104から探索する部分である。
図11は、非文書形式データが画像形成装置100のデータ入力部101を介して入力され、データ出力部105を介して出力されるまでの一連の工程を説明するフローチャートである。まず、利用者によりデータが画像形成装置100に入力されると、データ判定部112は、入力されたデータが文書形式データであるか非文書形式データであるかを判断する。ここで、入力されたデータが文書形式データであると、実施例1と同様な手順で蓄積データファイルの蓄積、検索、検索結果の表示が行われる。
入力されたデータが非文書形式データであると判断されると、テンプレート候補探索処理部113は、類似する文書形式データとしてのテンプレートを検索語群及びデータ蓄積部104から探索する(S501)。図12は、テンプレート候補探索処理部113が処理する工程を説明するフローチャートである。テンプレート候補探索処理部113は、非文書形式データが入力されると、そのデータをOCR(Optical Character Reader)に供し、画像データから文字列データを抽出する(S601)。次にテンプレート候補探索処理部113は、抽出された文字列データに対し、検索語群及びデータ蓄積部104に蓄積されたテンプレート内の要素の語を検索語として各テンプレート毎に検索処理を行い、検索語一致の度合いを判定する(S602)。ここで、検索語一致の度合いとは、各テンプレートが有する要素の数によって検索語が一致したものを割ったものとし、最も検索語一致の度合いが高いテンプレートから順に複数のテンプレートをテンプレート候補とする(S603)。
テンプレート候補は、入力された非文書形式データと同じ画像形式に変換され、非文書形式データとの類似値が算出される。類似値算出の前処理は、図13に示すように非文書形式データの要素―データ対のあるデータ領域を類似値算出の対象として外す処理が行われる。類似値算出の一例として、テンプレート候補探索処理部113は、非文形式データ及びテンプレート候補に対応する2値化したビットマップ画像を作成し、各ビット毎に一致、不一致を比較し、全一致数を全ビット数で割ることにより類似値を算出する(S604)。
また、入力された非文書形式データを検索語群及びデータ蓄積部104に蓄積するためには、上記の類似値判定において類似性の絶対的な高低を評価する尺度が必要となる。もし、この尺度がなければ画像としての類似性が低い、つまりたまたま要素のキーワードを多く有する関係のない文書が蓄積されてしまう場合が考えられるからである。しかし、汚れや文字のつぶれなどが生じるスキャナー等でスキャニングした画像、FAX受信画像においてそのような評価は困難である。そこで、類似値計算に使用するテンプレート候補とランダムに選択されたテンプレート候補以外の文書との類似値を算出し、異なるテンプレート間で生じる類似度の最大値以下の類似値となった場合には、入力された非文書データテンプレートの蓄積を行わないようにする。この処理により、異なるテンプレート同士の類似性以下となるテンプレート候補を削り、最終的に残るテンプレート候補の信頼性の向上を図る。
このようにして、最終的にテンプレート候補が決定されると(S502 Yes)、
テンプレートデータ生成部102は、選択されたテンプレートが有する各要素―データ対のデータ位置に入力されたデータをOCRにより文字列データとして抽出し、要素―データ対を形成する。また、文字列データが存在しなかった場合には、空白文字をデータとして入力する。次に、テンプレートデータ生成部102は、データファイル名、非文書形式データ名、及び要素―データ対を非文書形式データのデータにヘッダ部分として合成することで蓄積データファイルを生成する(S503)。
次に、S504において、検索語候補取得部103は、非文書形式データに入力された入力内容に存在する語をOCRにより抽出し、検索語候補群として取得する。
テンプレートデータ生成部102によって生成した蓄積データファイルは、検索語候補取得部103によって取得された検索語候補群に関連付けられて検索語群及びデータ蓄積部104に蓄積される(S505)。
次にS506において、蓄積データ処理部111は、印刷時刻や印刷ページ数、テンプレートの再利用状況などの情報を基に蓄積データファイルの利用頻度の高さを表す価値計算を行う。
次にS507において、データ処理部106は、入力された非文書形式データを出力形式に合わせて画像形成等を行い、データ出力部105を介して出力する(S508)。また、S502において、テンプレート情報の有無が確認できない場合は(S502 No)、S503〜S506の工程は行われず、直接出力のためのデータ処理が行われる。
本実施例にかかる検索処理及び検索結果の表示処理は、第1の実施例と同じであり、検索結果の表示の際には、文書形式データか非文書形式データかを分類可能とする。文書形式データと非文書形式データの表示結果をまとめて表示する場合には、実施例1で説明した価値計算に本実施例で説明した類似値を重み付けとしてかけたものを非文書形式データの価値として、アイコンの表示サイズを決定する。
以上のように、第2の実施例によれば、文書形式データに限らず、非文書形式データも蓄積することが可能となる。本実施例においては、テンプレート候補探索処理部は、非文書形式データのデータからOCRにより文字列データを抽出し、要素―データ対における要素を基に蓄積されているテンプレート候補を探索する。さらに、候補として挙げられたテンプレートを類似値を基にその信頼性を評価することで信頼性の低い非文書形式データの蓄積を防止する。さらに、本実施例にかかる検索結果は、文書形式データと非文書形式データとを分類して表示することが可能であり、文書形式データのみを表示、非文書データを表示することが可能である。
(第3の実施例)
図14は、本実施例で用いる文書検索装置としてのコンピュータ200の機能を説明するブロック図である。
文書データ入力部201は、検索対象となる文書データを入力する部分であり、キーボードとマウスなどの入力装置、または、コンピュータ200の外部から電子データとして文書データを取り込むためのインタフェース装置が用いられる。
文書データ記憶部202は、文書データ入力部201により入力された文書データを記憶させる記憶部であり、ハードディスク装置が用いられる。本実施例では、文書データ毎に固有のファイル名を付与して記憶させておくものとする。
検索条件入力部203は、検索を行う際の検索語や検索範囲などの検索条件を入力する部分であり、キーボードあるいはタッチパネルなどを用いることができる。
検索処理部204は、文書データ記憶部202に記憶された文書データと、検索条件入力部203により入力された検索語とを照合し、検索対象となる文書データ毎に含まれる検索語の数をカウントするものであり、ROM(Read Only Memory)などに記憶されたプログラムとこれを実行するCPU(Central Processing Unit)とを用いることができる。
検索結果記憶部205は、検索処理部204により検索された結果を格納する記憶部であり、ハードディスクや、RAM(Random Access Memory)などの半導体記憶装置を用いることができる。本実施例では、検索された結果を、文書ファイル毎に固有のファイル名と、その文書に含まれる検索語数とを対応させて記憶するものとする。
表示部207は、検索結果を表示する部分であり、例えばLCDやCRT(Cathode Ray Tube)などの表示装置を用いることができる。
表示制御部206は、検索結果記憶部205に記憶された検索結果を用い、文書データ記憶部202に記憶された文書データを表示部207に表示させるときの表示形式を加工する部分である。
図15は、コンピュータ200の検索処理動作を説明するフローチャートである。ここでは、予め検索対象となる1つあるいは複数の文書データは、文書データ入力部201を介して文書データ記憶部202に記憶されているものとする。
ステップS700において、まず、検索を行う利用者により、検索条件入力部203を用いて検索する際のキーとなる検索語が入力される。
次に、検索条件入力部203から、文書データ記憶部202に記憶された文書データの内、検索対象とする文書データが指定される(ステップS701)。
次に、検索条件入力部203から検索開始指示が入力されると検索処理部204は、検索を開始する(ステップS702)。
ステップS703において、検索処理部204は、文書データ記憶部202に記憶され、検索対象と指定された文書データの中から1つの文書を読み込み、その文書データ内に含まれる検索語の数をカウントする。
次に、検索処理部204は、検索語をカウントした文書データのファイル名とそれに含まれる検索語数とを対応させて、検索結果記憶部205に記憶させる(ステップS704)。
次に、検索処理部204は、検索範囲の文書ファイルを全て検索し終わったか否かを判定し、全て検索し終わった場合には、ステップS706へ進む。全て検索し終わっていない場合には、ステップS703に戻り、別の文書ファイルを読み込む(ステップS705)。
ステップS706において、表示制御部206は、検索結果記憶部205に記憶されたファイル名が含まれる検索語の多い順にソートする。
次に、表示制御部206は、ソートされたファイル名の各々に対応する文書データを文書データ記憶部202から読み出し、ファイル名とともに文書データの一部を表示部207に出力して表示させる。このとき、表示部207に表示させる文書データの一部は、文書データに含まれる検索語の数、あるいは、ソート順にしたがって表示させる量を変えて出力される(ステップS707)。
図16は、表示部220に表示される検索結果の表示例を説明する図である。
フィールド301は、検索された文書ファイルのファイル名を、ソートされた順番を示す番号と共に表示される部分である。フィールド302は、フィールド301に表示されたファイル名に対応する文書データの内容の一部が表示される部分である。フィールド301とフィールド302とは、検索された文書ファイル毎に一組として表示される。
本図において、含まれる検索語の数が最も多い文書ファイルは、「FILE0001」であり、フィールド302には3行分の文書データが表示される。次に、含まれる検索語の数が多い文書ファイルは、「FILE0005」であり、これに対応するフィールド302いは2行分の文書データが表示される。
本実施例では、図16に示されるように、フィールド302に表示された文書データの表示量に応じて、見出しとなるフィールド301に表示されるファイル名のフォントサイズを変えてもよい。
以上の説明では、検索対象となる文書データは、コンピュータ200内の文書データ記憶部202にあるものとしたが、コンピュータ200とネットワークを介して接続された1つ、または、複数のファイルサーバに集積あるいは分散蓄積させておいてもよい。
以上説明したように、本実施例では、検索された文書データに含まれる検索語数の多寡により、文書データの表示量を変えるようにしたため、利用者は検索結果のうち有用なものの内容をより詳細に視認することができる。
本実施例は、本発明の好適な実施形態であるが本発明はこれに限定されるものではなく、本発明の趣旨を逸脱しない範囲において、各構成は、適宜変更可能である。
第1の実施例にかかる画像形成装置の構成を説明するブロック図である。 第1の実施例にかかる文書形式データの一例である。 第1の実施例にかかる文書形式データの一例である。 文書形式データが画像形成装置のデータ入力部を介して入力され、データ出力部を介して出力されるまでの一連の工程を説明するフローチャーである。 第1の実施例にかかる要素―データ対の一例を説明する図である。 第1の実施例にかかる蓄積データファイルの一例を説明する図である。 第1の実施例にかかる検索処理及び検索結果の表示処理を説明するフローチャートである。 第1の実施例にかかる検索結果の表示例の一例を説明する図である。 第1の実施例にかかる検索結果の表示例の一例を説明する図である。 第2の実施例にかかる画像形成装置の構成を説明するブロック図である。 非文書形式データが画像形成装置のデータ入力部を介して入力され、データ出力部を介して出力されるまでの一連の工程を説明するフローチャーである。 第2の実施例にかかるテンプレート候補探索処理部が処理する工程を説明するフローチャートである。 第2の実施例にかかる類似値算出の前処理を説明する図である。 第3の実施例にかかる文書検索装置の機能を説明するブロック図である。 第3の実施例にかかる検索処理動作を説明するフローチャートである。 第3の実施例にかかる検索結果の表示例の一例を説明する図である。
符号の説明
100 画像形成装置
101 データ入力部
102 テンプレートデータ生成部
103 検索語候補取得部
104 検索語群及びデータ蓄積部
105 データ出力部
106 データ処理部
107 検索語入力部
108 検索結果出力部
109 パネル画像処理部
110 検索処理部
111 蓄積データ処理部
112 データ判定部
113 テンプレート候補探索処理部
200 文書検索装置
201 文書データ入力部
202 文書データ記憶部
203 検索条件入力部
204 検索処理部
205 検索結果記憶部
206 表示制御部
207 表示部

Claims (6)

  1. 文書作成ソフトウェアで作成され、該文書作成ソフトウェアの属性を承継する文書形式データの所定の項目に入力された入力内容を該所定の項目と関連付けてテンプレートデータとして抽出し、該テンプレートデータを前記文書形式データのヘッダ部として合成することにより蓄積データファイルを生成するテンプレートデータ生成部と、
    前記入力内容より検索の対象となる検索語候補を取得する検索語候補取得部と、
    前記蓄積データファイルと前記検索語候補とを関連付けて蓄積する蓄積部と、
    入力された検索語に基づいて前記蓄積部に蓄積された前記検索語候補を対象に検索を行い、検索された前記検索語候補に関連付けられた前記蓄積データファイルを抽出する検索処理部と、
    前記検索処理部によって検索された前記蓄積データファイルを選択された前記所定の項目を軸とした座標にアイコンとして選択可能に表示する表示部と、
    利用頻度に基づき前記蓄積データファイルの価値計算を行う蓄積データ処理部と、
    入力されたデータが前記文書作成ソフトウェアで作成された文書形式データか、又は該文書作成ソフトウェア以外のソフトウェアで作成された非文書形式データであるかを判断するデータ判断部と、
    データ判断部が非文書形式データであると判断した場合、入力された前記非文書形式データをOCR(Optical Character Reader)に供することで文字列データを抽出し、類似する文書形式データを探索するテンプレート候補探索部とを有し、
    前記表示部は、前記蓄積データ処理部による価値計算の結果に基づき前記アイコンの表示サイズを変更するとともに、選択された前記アイコンに関連する情報を表示し、
    前記テンプレートデータ生成部は、
    類似する前記文書形式データの所定の項目の入力位置に該当する箇所の文字列データを前記非文書データから抽出し、これを該所定の項目と関連付けてテンプレートデータとし、該テンプレートデータを前記非文書形式データのヘッダ部として合成することにより蓄積データファイルを生成することを特徴とする検索装置
  2. 前記軸は2軸であり、該軸が表す前記所定の項目はユーザにより選択可能であることを特徴とする請求項1記載の検索装置。
  3. 前記アイコンに関連する情報は、該アイコン自体の詳細情報であることを特徴とする請求項1記載の検索装置。
  4. 前記利用頻度は前記蓄積データファイルの再利用回数であることを特徴とする請求項1記載の検索装置。
  5. 一の前記アイコンは一の前記文書形式データに対応することを特徴とする請求項1記載の検索装置。
  6. 前記非文書形式データは画像データであることを特徴とする請求項1記載の検索装置。
JP2008173880A 2007-07-12 2008-07-02 文書検索装置及び画像形成装置、文書検索システム Expired - Fee Related JP5033724B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008173880A JP5033724B2 (ja) 2007-07-12 2008-07-02 文書検索装置及び画像形成装置、文書検索システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007182786 2007-07-12
JP2007182786 2007-07-12
JP2008173880A JP5033724B2 (ja) 2007-07-12 2008-07-02 文書検索装置及び画像形成装置、文書検索システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011082117A Division JP2011134355A (ja) 2007-07-12 2011-04-01 文書検索装置

Publications (2)

Publication Number Publication Date
JP2009037605A JP2009037605A (ja) 2009-02-19
JP5033724B2 true JP5033724B2 (ja) 2012-09-26

Family

ID=40253973

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008173880A Expired - Fee Related JP5033724B2 (ja) 2007-07-12 2008-07-02 文書検索装置及び画像形成装置、文書検索システム
JP2011082117A Pending JP2011134355A (ja) 2007-07-12 2011-04-01 文書検索装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011082117A Pending JP2011134355A (ja) 2007-07-12 2011-04-01 文書検索装置

Country Status (2)

Country Link
US (2) US8429154B2 (ja)
JP (2) JP5033724B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094823A1 (en) * 2008-10-14 2010-04-15 Mathieu Lemaire Enhanced linear presentation of search results based on search result metadata
EP2219077A1 (en) * 2009-02-12 2010-08-18 Carl Zeiss SMT AG Projection exposure method, projection exposure system and projection objective
US8572062B2 (en) * 2009-12-21 2013-10-29 International Business Machines Corporation Indexing documents using internal index sets
US8285057B2 (en) * 2010-05-14 2012-10-09 Palo Alto Research Center Incorporated Learning image anchor templates for document classification
US8670618B2 (en) * 2010-08-18 2014-03-11 Youwho, Inc. Systems and methods for extracting pedigree and family relationship information from documents
US8799112B1 (en) * 2010-12-13 2014-08-05 Amazon Technologies, Inc. Interactive map for browsing items
JP5669638B2 (ja) * 2011-03-17 2015-02-12 キヤノン株式会社 文書管理装置、文書管理方法、プログラム。
JP5954691B2 (ja) * 2012-09-28 2016-07-20 ブラザー工業株式会社 テンプレート処理プログラム及びテンプレート処理方法
US10274838B2 (en) * 2013-03-14 2019-04-30 Taiwan Semiconductor Manufacturing Company, Ltd. System and method for performing lithography process in semiconductor device fabrication
JP2015187846A (ja) * 2014-03-12 2015-10-29 株式会社リコー 文書処理システム、及び文書処理装置
CN103942272B (zh) * 2014-03-27 2017-08-18 北京百度网讯科技有限公司 图片搜索方法和装置
US20160011944A1 (en) * 2014-07-10 2016-01-14 International Business Machines Corporation Storage and recovery of data objects
JP5963328B2 (ja) 2014-10-30 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、およびプログラム
JP6596850B2 (ja) * 2015-03-11 2019-10-30 富士ゼロックス株式会社 テンプレート管理装置及びプログラム
CN107436908A (zh) * 2016-05-27 2017-12-05 华为终端(东莞)有限公司 一种检索图像的方法及终端
JP6868186B2 (ja) * 2017-03-24 2021-05-12 富士フイルムビジネスイノベーション株式会社 検索情報生成装置、画像処理装置、検索情報生成プログラム
US11010399B1 (en) * 2018-11-28 2021-05-18 Intuit Inc. Automated data scraping
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN111581363B (zh) * 2020-04-30 2023-08-29 北京百度网讯科技有限公司 知识抽取方法、装置、设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2937521B2 (ja) * 1991-03-08 1999-08-23 株式会社東芝 文書検索装置
CA2127764A1 (en) * 1993-08-24 1995-02-25 Stephen Gregory Eick Displaying query results
JPH07175825A (ja) 1993-11-05 1995-07-14 Hitachi Ltd 文書の検索および表示方法
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
JPH0822470A (ja) * 1994-07-05 1996-01-23 Toshiba Corp 資料作成支援システム
JP3810463B2 (ja) * 1995-07-31 2006-08-16 株式会社ニューズウオッチ 情報フィルタリング装置
JPH09160908A (ja) * 1995-12-12 1997-06-20 Canon Inc 文書処理装置及びその方法、記憶媒体
US5982369A (en) * 1997-04-21 1999-11-09 Sony Corporation Method for displaying on a screen of a computer system images representing search results
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JP2000122770A (ja) * 1998-10-16 2000-04-28 Ricoh Co Ltd ソートしたファイル群の図表示方法
JP2000148763A (ja) * 1998-11-04 2000-05-30 Mitsubishi Heavy Ind Ltd 画像記憶方法及びその装置
JP2000315210A (ja) * 1999-04-30 2000-11-14 Ricoh Co Ltd 文書管理システムおよび文書管理方法
US6275229B1 (en) * 1999-05-11 2001-08-14 Manning & Napier Information Services Computer user interface for graphical analysis of information using multiple attributes
US6510427B1 (en) * 1999-07-19 2003-01-21 Ameritech Corporation Customer feedback acquisition and processing system
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置
EP1189148A1 (en) * 2000-09-19 2002-03-20 UMA Information Technology AG Document search and analysing method and apparatus
JP2002109448A (ja) * 2000-09-28 2002-04-12 Toshiba Corp 帳票処理装置、帳票処理方法、記憶媒体
US7053939B2 (en) * 2001-10-17 2006-05-30 Hewlett-Packard Development Company, L.P. Automatic document detection method and system
US20050222901A1 (en) * 2004-03-31 2005-10-06 Sumit Agarwal Determining ad targeting information and/or ad creative information using past search queries
JP4179858B2 (ja) * 2002-11-28 2008-11-12 株式会社リコー 文書検索装置、文書検索方法、プログラムおよび記録媒体
US7505984B1 (en) * 2002-12-09 2009-03-17 Google Inc. Systems and methods for information extraction
US7440126B2 (en) * 2003-09-25 2008-10-21 Ricoh Co., Ltd Printer with document-triggered processing
US7496563B2 (en) * 2004-08-04 2009-02-24 International Business Machines Corporation Method for locating documents a user has previously accessed
US8468441B2 (en) * 2005-09-15 2013-06-18 Microsoft Corporation Cross-application support of charts
US20070130145A1 (en) * 2005-11-23 2007-06-07 Microsoft Corporation User activity based document analysis
US20070192166A1 (en) * 2006-02-15 2007-08-16 Leviathan Entertainment, Llc Survey-Based Qualification of Keyword Searches
US8731526B2 (en) * 2008-10-31 2014-05-20 Stubhub, Inc. System and methods for upcoming event notification and mobile purchasing
KR100934989B1 (ko) * 2007-01-31 2009-12-31 삼성전자주식회사 컨텐츠 관리 방법 및 장치

Also Published As

Publication number Publication date
US20090019010A1 (en) 2009-01-15
US20130226917A1 (en) 2013-08-29
JP2011134355A (ja) 2011-07-07
US8429154B2 (en) 2013-04-23
JP2009037605A (ja) 2009-02-19

Similar Documents

Publication Publication Date Title
JP5033724B2 (ja) 文書検索装置及び画像形成装置、文書検索システム
JP4118349B2 (ja) 文書選択等の方法及び文書サーバ
CN101178725B (zh) 用于信息检索的设备和方法
US8726178B2 (en) Device, method, and computer program product for information retrieval
US20070143272A1 (en) Method and apparatus for retrieving similar image
JP4682284B2 (ja) 文書差分検出装置
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
US8606789B2 (en) Method for layout based document zone querying
US9710524B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
US8612429B2 (en) Apparatus, system, and method for information search
CN109961069B (zh) 图像处理装置以及存储介质
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
JP2007286864A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
EP2884425B1 (en) Method and system of extracting structured data from a document
JP4682030B2 (ja) 図形検索プログラム、該プログラムを記録した記録媒体、図形検索装置、および図形検索方法
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
US9798711B2 (en) Method and system for generating a graphical organization of a page
JP2008052496A (ja) 画像表示装置、画像表示方法、プログラムおよび記録媒体
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
US20200311059A1 (en) Multi-layer word search option
JP4135659B2 (ja) フォーマット変換装置およびファイル検索装置
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP3958722B2 (ja) イメージデータ文書検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120612

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees