JPH08153117A - 文書検索装置及び方法 - Google Patents

文書検索装置及び方法

Info

Publication number
JPH08153117A
JPH08153117A JP6296680A JP29668094A JPH08153117A JP H08153117 A JPH08153117 A JP H08153117A JP 6296680 A JP6296680 A JP 6296680A JP 29668094 A JP29668094 A JP 29668094A JP H08153117 A JPH08153117 A JP H08153117A
Authority
JP
Japan
Prior art keywords
document
data
search
attribute
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6296680A
Other languages
English (en)
Inventor
Hirohiko Hashimoto
裕彦 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP6296680A priority Critical patent/JPH08153117A/ja
Priority to US08/557,466 priority patent/US5926824A/en
Publication of JPH08153117A publication Critical patent/JPH08153117A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 従来の文書名、キーワード等を用いた検索方
法以外に、文書の構造を用いた新しい検索方法を提供す
る。 【構成】 登録されている文書の構造(表、画像、タイ
トル欄等の属性の領域毎の位置)をRAMの文書データ
112に予め管理しておき、ユーザにより入力された属
性の位置や個数とRAMの文書データ112を比較し、
所望の文書を検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、スキャナ等画像入力装
置によって読み取られディジタル化された文書画像デー
タの文書データを管理する電子ファイリングシステム、
あるいはワードプロセッサやDTPソフト等、コンピュー
タ上の一般アプリケーションによって作成さた文書デー
タを管理する文書管理システムにおいて、特にに文書の
検索方法に関するものである。
【0002】
【従来の技術】現在、オフィス情報の大半を占めている
紙によるアナログ情報も、コンピュータ及びスキャナや
プリンタ等のコンピュータ周辺機器の普及に伴い、オフ
ィススペースの有効活用の必要性から、あるいはデータ
の共有、有効利用の必要性から、紙によるアナログデー
タを一旦デジタルデータに変換してハードデスクや光磁
気記憶装置等の記憶装置に蓄積し、コンピュータの文書
データとして利用する機会が多くなっている。
【0003】また、コンピュータ上のワードプロセッサ
やDTP(デスクトップパブリッシング)ソフトウエア
等の一般アプリケーションソフトウエアで作成された文
書データにおいても、その量はパーソナルコンピュータ
の普及にひきずられるように増加の一途である。
【0004】このため、大量の文書データを管理するこ
とを目的として、電子ファイリングシステムまたは文書
管理システムを導入する機会が多くなっている。
【0005】このような状況において、大量に登録管理
されている文書データの中から、いかに目的とする文書
データを検索するか、ということが文書管理上の大きな
問題になってきている。
【0006】係る状況において、図8に示す従来の電子
ファイリングシステムの文書検索方法を説明する。
【0007】ユーザによって検索の指示が出されると
(801)、まず検索条件の設定が行われる。検索条件
の設定は登録文書中のテキストデータから検索を行うた
めのテキスト検索条件設定(802)、文書名・文書作
成日付・文書作成者・文書キーワード等の文書属性によ
る検索条件の設定(803)に分かれる。検索条件が設
定されると、ユーザからの検索実行指示により検索が実
行される。
【0008】テキスト検索の実行(804)では電子フ
ァイリングシステムにより管理されている各文書中のテ
キストデータに対し、ステップ802で入力された検索
文字列と逐次比較を行うか、またはテキストデータのイ
ンデックスデータが作成されていれば、テキストインデ
ックスデータとの照合を行うことによりテキスト検索を
行う。
【0009】文書属性による検索の実行(805)で
は、電子ファイリングシステムにより管理されている文
書属性データとステップ803により設定された検索条
件とを比較することにより検索を行い、検索条件に合致
するかを判定する。
【0010】テキスト検索及び文書属性検索の結果、検
索条件に合致したものを表示器に表示し(806)、一
回の検索が終了する(807)。
【0011】
【発明が解決しようとする課題】しかしながら、上記従
来技術に示した検索方法では、例えば検索したい文書に
含まれる文字列を思い出せなかった場合、目的とする文
書を検索するのは容易ではなかった。
【0012】このような場合、文書中に例えば画像や表
が含まれ、そのことは覚えている場合でも従来の検索方
法では、画像や表といった文書構造データを有効に用い
て検索する手段がなく、ユーザ毎に様々な方法で検索し
たいという要求に十分に答えることが出来なかった。
【0013】さらに、例えば画像や表がページ内のどの
辺りに位置していたかという文書構造データの位置情報
も検索に用いられなかったのはいうまでもない。
【0014】以上従来の検索方法の状況からわかるよう
に、検索で使用可能な情報は文書中のテキスト情報や後
から文書属性として追加されたデータが全てであり、画
像や表等の文書内のある属性の矩形領域が1ページ中の
どの位置にあったというような、文書の構造情報を検索
に用いてはおらず、検索方法として十分な手段をユーザ
に与えているとは言えなかった。
【0015】本発明は、前記従来の欠点を除去し、ユー
ザにとって柔軟な検索方法を行えるようにする電子ファ
イリングシステムにおける文書検索方法を提供すること
を目的とする。
【0016】
【課題を解決するための手段】上記目的を達成するため
に、本発明にかかる文書検索装置及び方法は、記憶媒体
に記憶されている複数の文書の各々の文書内の画像、表
等の領域毎の属性を文書構造データとして管理する管理
手段と、所望の文書構造の属性及びその条件を入力する
入力手段と、上記入力手段により入力された属性及びそ
の条件と上記管理手段に管理されている文書構造データ
とを比較し、その比較結果に基づいて入力された条件を
満足する文書を検索する検索手段と、を有するものであ
る。
【0017】また、本発明は、記憶媒体に記憶されてい
る文書を検索する文書検索方法において、文書内の画
像、表等の領域毎の属性を文書構造データとして管理
し、入力された属性を有する領域の個数又は位置のデー
タと上記文書構造データとを比較し、入力された属性を
有する領域の個数又は位置を満たす文書を検索するもの
である。
【0018】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。
【0019】図1は、本実施例の電子ファイリングのシ
ステム構成図である。101は演算・制御用の中央演算
部(CPU)、102はROM、RAM等の記憶部であり、例えばR
OMには、電子ファイルプログラム106や、一般アプリ
ケーションプログラム107が格納されている。またRA
Mには、電子ファイルプログラム106により管理され
る文書データ112が格納されている。103は文書デ
ータ,検索結果あるいは指示アイコン等を表示する表示
部(CRT)、104は電子ファイルプログラム106や一
般アプリケーションプログラム107により生成された
データファイルを蓄積するハードディスク(HDD)や光磁
気ディスク(MO)等の外部記憶装置、105は原稿画像を
読み取り、デジタルデータに変換するスキャナ、113
は文書入力あるいはオペレータ指示用のキーを有するキ
ーボード(KBD)、114は表示された指示アイコンをク
リックしたりカーソルを移動させるポインティングデバ
イス、115は文書データを印刷するプリンタ、113
は文書データの送受信をする通信インターフェース、1
14は上記各部位を接続するバスである。
【0020】電子ファイルプログラム106は、登録デ
ータ生成プログラム108、登録データ設定プログラム
109、検索プログラム110、文書データ管理プログ
ラム111より構成されている。
【0021】登録データ生成プログラム108では、登
録する文書のテキストデータや文書の登録日時、さらに
図3において説明を行なう文書構造データ等が自動生成
される。
【0022】ここで文書のテキストデータは、登録文書
がデジタル情報に変換された文書画像データである場合
は、文書画像データに対して文字認識を行うことによっ
て得られる。また登録文書がワードプロセッサ等の市販
のアプリケーションプログラムにより作成されている場
合、コンピュータのオペレーテングシステムに標準装備
されている印刷処理ルーチンを行わせることにより、ア
プリケーションプログラムで作成されたデータ内部のテ
キストデータが得られる仕組みになっている。
【0023】登録データ設定プログラム109では、電
子ファイリングシステム使用者によって、登録文書の文
書名や文書キーワード、登録ユーザ等の文書管理のため
の文書属性情報の設定、あるいは登録データ生成プログ
ラム108で生成されたデータの修正が行われる。最終
的に、登録データ生成プログラム108、登録データ設
定プログラム109で生成または設定された文書管理デ
ータは、外部記憶装置104内のデータベースに登録さ
れる。文書管理データは文書データ管理プログラム11
1を通して、文書データ112の詳細113にあるよう
に、文書名(113a)・登録日(113b)・登録者(113c)・文書
に対して付加されたキーワード(113d)・文書のテキスト
データ(113e)・文書のイメージデータ(113f)・文書構造
データ(113g)等から構成されている。上記文書データの
うち、特に文書構造データ(113g)は、属性(113h)、位置
(113i)の情報を持っている。この様子を具体的に図3に
より説明を行なう。
【0024】301は文書の1ページの内容を示してい
る。1ページの内容はタイトル領域(302a)、テキスト領
域(302b)、表領域(302c)、画像領域(302d)、線図形領域
(302e)等の属性(113h)をもった領域でなりたっている。
またこれらの領域はそのページ内での座標情報303(1
13i)も保持している。以上の属性を持った領域を文書構
造データと呼び、文書は図3のように文書構造のデータ
により成り立っている。
【0025】次に、検索プログラム110による動作を
説明する。ユーザによって検索の指示が出され(20
1)、まず検索条件の設定が行われる。検索条件の設定
は登録文書のテキスト情報から検索を行うためのテキス
ト検索条件設定(202)、文書名・文書作成日付・文
書作成者・文書キーワード等の文書属性による検索条件
の設定(203)、図3に示した文書構造による検索条
件の設定(204)に分かれる。検索条件が設定される
と、ユーザからの検索実行指示により検索が実行され
る。
【0026】テキスト検索の実行(205)では文書デ
ータ管理プログラム111により管理されている各文書
のテキストデータに対し、テキスト検索条件設定のステ
ップ202で入力された検索文字列と逐次比較を行う
か、またはテキスト情報のインデックス情報が作成され
ている場合には、インデックス情報との照合を行うこと
によりテキスト検索を行う。
【0027】文書属性による検索の実行206では、文
書データ管理プログラム111により管理されている文
書属性データと文書属性検索条件設定のステップ203
により設定された検索条件とを比較することにより検索
を行う。
【0028】文書構造による検索の実行207も同様
に、文書データ管理プログラム111により管理されて
いる文書構造データと文書構造検索条件設定のステップ
204により設定された検索条件とを比較することによ
り検索を行なう。
【0029】上記検索条件の設定及び実行において、本
発明を特徴づける文書構造データを用いた検索条件の設
定及び実行を以下に説明する。
【0030】まず、文書構造の検索条件の設定ステップ
204について図4を用いて説明する。ユーザによって
条件設定の指示がでると(401)、まず図3に示した
ようにどの属性で条件設定するかを選択する(40
2)。次にステップ402で設定した属性が含まれる領
域を1ページ内の位置で検索するか設定した属性が含ま
れる領域の個数で検索するかの選択を行なう(40
3)。1ページ内の位置で検索するとした場合、設定し
た属性をもつ領域が1ページ内のどの領域にあるとする
かの領域設定を行なう(404)。ステップ404にお
ける検索領域の設定は図6のように設定できる。601
は1ページの文書を表す。図中網点領域(602、60
3、604)が選択された検索領域である。図6の右側
に示す様に、ページ内において複数の領域を選択するこ
とができる。またこれらの領域は図6のような区画に制
限されることはなく、ユーザによって任意に設定出来
る。
【0031】領域設定のステップ404の次に、ステッ
プ402によって選択した属性をもつ領域と、ステップ
404によって選択した検索領域との面積比率を設定す
る。例えば「80%」とした場合は、ステップ402で設
定する属性を持つ領域の面積のうち80%以上がステップ
404で設定した検索領域に含まれることを検索条件と
するという意味である。この一例を図7に示す。703
がステップ402で設定した属性をもつ領域とする。7
02がステップ404で設定した検索領域であり、70
4が領域702と領域703の重なり領域を示す。面積
比率「80%」の場合、重なった領域704が、領域70
3の80%以上であるという検索条件ということである。
【0032】次に、ステップ403において個数で検索
する方法が選択された場合、設定された属性をもつ領域
の個数は文書全体での個数か1ページ内での個数かの選
択を行なう(406)。文書全体での個数で検索する場
合は、ステップ402で選択した属性をもつ領域が、文
書全体で何個以上あるかを設定する(407)。同様に
1ページ内での個数で検索する場合は、ページ内で何個
以上あるかを設定する(408)。
【0033】以上の様な文書構造検索条件を設定した後
(409)、次に検索の実行が行なわれる様子を図5に
示す。
【0034】ユーザにより検索実行の指示が出されると
検索開始となる(501)。まず位置による検索条件が
設定されているか、個数による検索条件が設定されてい
るかを判断する(502)。位置で検索する場合、ステ
ップ404にて設定した検索領域と、ステップ402に
て設定した属性をもつ領域との面積比率を計算し(50
3)、その値がステップ405にて設定した面積比率以
上か否か判断し(504)、設定した割合以上であれ
ば、検索条件に合致したものとし、その結果を保存する
(505)。個数で検索する場合、ステップ406にて
設定した条件が文書全体での個数か1ページ内での個数
かを判断し(506)、その判断結果に応じて、設定し
た属性を持つ領域の個数が、各々ステップ407、40
8にて設定した個数以上である場合(507、508)、
検索条件に合致したものとして検索結果を保存する(5
05)。
【0035】以上図5に示した検索動作は文書毎に行な
われ、ステップ505にて保存された結果は最終的に検
索結果として表示器に表示され(208)、一回の検索
終了となる(209)。
【0036】なお、図4にて設定する検索条件は、複数
の属性について設定できるのはもちろんであり、その設
定毎に図5の検索が行なわれる。
【0037】さらに、この図3にて説明した文書構造
は、用紙をスキャナで読み込み、ディジタルデータに変
換した文書画像データばかりでなく、ワードプロセッサ
等の一般アプリケーションによって作成される文書デー
タでも良く、本発明による検索方法は、文書画像データ
だけでなく、一般アプリケーションデータに対しても適
用できる。
【0038】又、本発明は、複数の機器から構成される
システムに適用しても一つの機器からなる装置に適用し
てもよい。さらに本発明は、システム或は装置にプログ
ラムを供給することによって達成されることはいうまで
もない。
【0039】
【発明の効果】以上説明したように、本発明に係る文書
検索装置又は方法によれば、文書の構造情報を活かした
検索を行なうことができる上、従来の文字テキストと文
書属性による検索方法との組み合わせにより、柔軟な巾
広い文書検索を提供できる効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例に係る電子ファイルシステム
の構成を示すシステム構成図
【図2】本発明の一実施例に係る検索方法のフローチャ
ート
【図3】本発明の一実施例に係る文書構造を表す図
【図4】本発明の一実施例に係わる検索属性の設定方法
を示すフローチャート
【図5】本発明の一実施例に係わる文書構造検索の詳細
を示すフローチャート
【図6】本発明の一実施例に係わる文書構造の属性を示
す図
【図7】本発明の一実施例に係わる文書構造の属性を示
す図
【図8】従来の検索方法のフローチャート
【符号の説明】
101 CPU 102 ROM 104 記憶媒体 113g 文書構造データ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9365−5H G06F 15/62 330 G

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 記憶媒体に記憶されている複数の文書の
    各々の文書内の画像、表等の領域毎の属性を文書構造デ
    ータとして管理する管理手段と、 所望の文書構造の属性及びその条件を入力する入力手段
    と、 上記入力手段により入力された属性及びその条件と上記
    管理手段に管理されている文書構造データとを比較し、
    その比較結果に基づいて入力された条件を満足する文書
    を検索する検索手段と、を有することを特徴とする文書
    検索装置。
  2. 【請求項2】 上記入力手段は所望の属性を持つ領域の
    個数を入力することを特徴とする請求項1記載の文書検
    索装置。
  3. 【請求項3】 上記入力手段は所望の属性を持つ領域の
    位置を入力することを特徴とする請求項1記載の文書検
    索装置。
  4. 【請求項4】 上記検索手段は上記入力手段により入力
    された属性を持つ領域の位置と上記管理手段に管理され
    ている領域の位置とが予め決められた割合以上重なって
    いる文書を検索することを特徴とする請求項3記載の文
    書検索装置。
  5. 【請求項5】 記憶媒体に記憶されている文書を検索す
    る文書検索方法において、 文書内の画像、表等の領域毎の属性を文書構造データと
    して管理し、 入力された属性を有する領域の個数又は位置のデータと
    上記文書構造データとを比較し、 入力された属性を有する領域の個数又は位置を満たす文
    書を検索することを特徴とする文書検索方法。
JP6296680A 1994-11-16 1994-11-30 文書検索装置及び方法 Withdrawn JPH08153117A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP6296680A JPH08153117A (ja) 1994-11-30 1994-11-30 文書検索装置及び方法
US08/557,466 US5926824A (en) 1994-11-16 1995-11-14 System and method for retrieving a document by inputting a desired attribute and the number of areas in which the attribute occurs as a retrieval condition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6296680A JPH08153117A (ja) 1994-11-30 1994-11-30 文書検索装置及び方法

Publications (1)

Publication Number Publication Date
JPH08153117A true JPH08153117A (ja) 1996-06-11

Family

ID=17836693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6296680A Withdrawn JPH08153117A (ja) 1994-11-16 1994-11-30 文書検索装置及び方法

Country Status (1)

Country Link
JP (1) JPH08153117A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2006323007A (ja) * 2005-05-17 2006-11-30 Sharp Corp 楽曲検索装置および楽曲検索方法
JP2006323008A (ja) * 2005-05-17 2006-11-30 Sharp Corp 楽曲検索装置および楽曲検索方法
JP2008234203A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 画像処理装置
JP2011141664A (ja) * 2010-01-06 2011-07-21 Canon Inc 文書比較装置、文書比較方法、及びプログラム
JP2012093901A (ja) * 2010-10-26 2012-05-17 Nippon Telegr & Teleph Corp <Ntt> 画像付文書検索装置及び画像付文書検索プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2006323007A (ja) * 2005-05-17 2006-11-30 Sharp Corp 楽曲検索装置および楽曲検索方法
JP2006323008A (ja) * 2005-05-17 2006-11-30 Sharp Corp 楽曲検索装置および楽曲検索方法
JP4607660B2 (ja) * 2005-05-17 2011-01-05 シャープ株式会社 楽曲検索装置および楽曲検索方法
JP4607659B2 (ja) * 2005-05-17 2011-01-05 シャープ株式会社 楽曲検索装置および楽曲検索方法
JP2008234203A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 画像処理装置
JP2011141664A (ja) * 2010-01-06 2011-07-21 Canon Inc 文書比較装置、文書比較方法、及びプログラム
JP2012093901A (ja) * 2010-10-26 2012-05-17 Nippon Telegr & Teleph Corp <Ntt> 画像付文書検索装置及び画像付文書検索プログラム

Similar Documents

Publication Publication Date Title
US7493559B1 (en) System and method for direct multi-modal annotation of objects
US7623514B2 (en) Data transmission device capable of transmitting data to a plurality of addresses by simple method
JP2009529746A (ja) アプリケーションにおける実行コマンド検索
US20070124295A1 (en) Systems, methods, and media for searching documents based on text characteristics
EP0635798B1 (en) Data access based on human-produced images
JPH08235160A (ja) 文書検索方法及び装置
JP3832978B2 (ja) 印刷制御装置及び印刷制御方法
JP3767763B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH08153117A (ja) 文書検索装置及び方法
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JPH11120191A (ja) 文書管理システム、方法および記録媒体
JP2009075849A (ja) 情報処理装置、情報処理方法、そのプログラム及び記憶媒体
JPWO2012053509A1 (ja) 入力支援プログラム、入力支援装置、及び入力支援方法
US20020007382A1 (en) Computer having character input function,method of carrying out process depending on input characters, and storage medium
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2000099535A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3571794B2 (ja) 電子ファイリング装置および登録文書通知方法
JP4283038B2 (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
JP5073423B2 (ja) 訳語検索支援装置、訳語検索支援方法および訳語検索支援プログラム
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JPH10260981A (ja) 情報処理装置および情報処理方法
JP3405957B2 (ja) 検索装置、検索方法、並びに、記録媒体
CN113590542A (zh) 一种文件搜索方法、计算设备及存储介质

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020205