JPH10289247A - ドキュメント検索方法およびシステム - Google Patents

ドキュメント検索方法およびシステム

Info

Publication number
JPH10289247A
JPH10289247A JP9097833A JP9783397A JPH10289247A JP H10289247 A JPH10289247 A JP H10289247A JP 9097833 A JP9097833 A JP 9097833A JP 9783397 A JP9783397 A JP 9783397A JP H10289247 A JPH10289247 A JP H10289247A
Authority
JP
Japan
Prior art keywords
document
information
search
client terminal
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9097833A
Other languages
English (en)
Inventor
Kenji Ogura
健司 小倉
Masami Oguro
雅己 小黒
Osamu Nakamura
修 中村
Teruo Akiyama
照雄 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP9097833A priority Critical patent/JPH10289247A/ja
Publication of JPH10289247A publication Critical patent/JPH10289247A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】大量のドキュメントを検索する場合に,ファイ
ル名やキーワードが不明であっても検索が可能であり,
また非文字情報による検索が可能であるドキュメント検
索方法およびシステムを実現する。 【解決手段】クライアント端末10で検索すべき文書の一
部あるいは全てを入力し(S1), 入力された文書情報から
検索情報を抽出し(S2), 通信回線を介して検索情報をサ
ーバに転送し(S3), サーバ20側では受信した検索情報に
基づき予め蓄積している文書を検索して(S4), これをク
ライアント端末10に転送し(S5), クライアント端末10で
検索結果の文書を表示する(S6)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,ドキュメント検索
方法およびシステムに係わり,特にクライアント端末か
ら文書の一部あるいは全てを入力し,入力情報から検索
情報を生成して,これに基づきサーバにおいて当該文書
を検索するドキュメント検索方法およびシステムに関す
る。
【0002】
【従来の技術】従来のドキュメント検索システムでは,
文書単位にファイル名を付与してデータベースなどに蓄
積し,検索時には予め付与されたファイル名を指定した
り,文書の中に含まれる特定のキーワードを指定して,
予め設定しておいたキーワードとの照合あるいは全文検
索により当該文書を検索している。
【0003】
【発明が解決しようとする課題】しかしながら,上記の
従来方法では,ファイル名,キーワードなどに文字数の
制限があったりして,ファイル名あるいはキーワードで
検索しようとした場合,自分で付与したにも関わらず,
ファイル名あるいはキーワードを忘れてしまったり,さ
らに,他人が付与したファイル名あるいはキーワードは
ほとんど分からないといった問題が生じていた。
【0004】また,ある任意の文字列による全文検索の
場合には,クライアント端末からキーボードなどにより
文字列を入力しなければならないというような問題や,
文書中に含まれる図形などの非文字情報からの検索は不
可能であるというような問題があった。
【0005】本発明は,上記の点に鑑みてなされたもの
で,紙ベースで保管していた文書あるいは記憶に頼った
手書き文書などを入力するだけで目的とする文書の検索
を可能とするドキュメント検索方法およびシステムを提
供することを目的とする。
【0006】
【課題を解決するための手段】図1は,本発明の原理を
説明するための図である。本発明は,クライアント端末
10において検索すべき文書の一部あるいは全てを入力
し(ステップS1),入力された文書情報から検索情報
を抽出し(ステップS2),通信回線を介して検索情報
をサーバ20に転送し(ステップS3),サーバ20側
では受信した検索情報に基づき文書を検索して(ステッ
プS4),これをクライアント端末10に転送し(ステ
ップS5),クライアント端末10でサーバ20側から
送られた検索結果文書を表示する(ステップS6)もの
である。
【0007】図2は,本発明の原理構成図である。クラ
イアント端末10は,文書入力手段11と検索情報抽出
手段12とを持つ。文書入力手段11は,検索すべき文
書の一部あるいは全てを入力するものである。検索情報
抽出手段12は,入力された文書情報から検索情報を抽
出するものである。
【0008】サーバ20は,検索情報蓄積手段21と文
書蓄積手段22と一致判定手段23とを持つ。検索情報
蓄積手段21は,クライアント端末10から受信した検
索情報を蓄積するものである。文書蓄積手段22は,検
索対象となる複数の文書を蓄積し保管するものである。
一致判定手段23は,複数の文書情報の文字コード部分
(またはビットマップ情報)と,検索情報の文字コード
部分(またはビットマップ情報)との一致をとり,その
一致度合いを判定するものである。
【0009】
【発明の実施の形態】以下に,本発明の実施の一形態を
説明する。図3および図4は,本発明のシステム構成図
であって,特に,図3はクライアント端末のシステム構
成例,図4はサーバのシステム構成例を示す。
【0010】図3および図4に示すように,本ドキュメ
ント検索システムは,通信網30を介してクライアント
端末10およびサーバ20が接続される構成となる。ク
ライアント端末10は,図3に示すように,CPU・メ
モリ110,文書情報をビットマップ情報として入力す
るカメラあるいはファクシミリ装置などの文書入力装置
120,CPU・メモリ110の中にあって,文書入力
装置120から入力されたビットマップ情報から文字を
認識する文字認識機構111,同じくCPU・メモリ1
10の中にあって文字認識機構111で認識された文字
コード列を蓄積する検索情報蓄積機構112,該検索情
報を通信網30に送り出し,サーバ20に転送する通信
制御装置130,およびサーバ20から転送される検索
結果の文書情報を表示する表示装置140から構成され
る。
【0011】また,サーバ20は,図4に示すように,
CPU・メモリ210,複数の文書情報を蓄積する文書
蓄積装置220,CPU・メモリ210の中にあってク
ライアント端末10から転送された検索情報である文字
コード列を蓄積する検索用文字コード列蓄積機構21
1,同じくCPU・メモリ210の中にあって該検索情
報と文書蓄積装置220に蓄積されている文書情報との
一致を判定する一致判定機構212,同じくCPU・メ
モリ210の中にあって一致判定機構212で検索され
た文書情報のファイル名を蓄積するファイル名蓄積機構
213,およびクライアント端末10から検索情報を受
信したり,ファイル名蓄積機構213に蓄積されたファ
イル名で特定される文書情報をクライアント端末10に
転送する通信制御装置230から構成される。
【0012】上記の構成の動作を説明する。図5(A)
は,本発明のクライアント端末10における処理の概要
を示すフローチャートである。
【0013】ステップS11では,検索すべき文書の写
しなどを文書入力装置120からビットマップ情報とし
て入力する。ステップS12では,文書入力装置120
から入力されたビットマップ情報に対し,CPU・メモ
リ110内の文字認識機構111にてノイズ除去,傾き
補正などのイメージ整形処理を前処理とする文字認識を
行う。文字認識の具体的処理方法については,例えば萩
田他の「外部方向寄与度特徴による漢字の識別」(電子
情報通信学会論文誌Vol.J66-D, No.10,1983)に示される
技術を用いることにより実現する。一般に用いられてい
る文字認識技術を用いてもよい。
【0014】ステップS13では,文字認識機構111
で認識された結果である文字コードを検索情報蓄積機構
112に順次格納する。ステップS14では,入力され
たビットマップ情報に含まれる全ての文字に対する処理
が終了したかを判断し,終了していなければステップS
12〜S14を繰り返す。
【0015】ステップS15では,入力されたビットマ
ップ情報に含まれる全ての文字に対する処理が終了した
ら,検索情報蓄積機構112に蓄積された検索情報を通
信制御装置130よりサーバ20に転送する。
【0016】ステップS16では,サーバ20からの検
索結果の受信を待ち,検索結果の文書を受信したら,ス
テップS17において検索文書を表示装置140に表示
する。
【0017】図5(B)は,本発明のサーバ20におけ
る処理の概要を示すフローチャートである。ステップS
21では,通信制御装置230で,クライアント端末1
0から検索情報を受信し,これをCPU・メモリ210
内の検索用文字コード列蓄積機構211に格納する。
【0018】ステップS22では,複数の文書情報を蓄
積している文書蓄積装置220から,一つの文書情報を
CPU・メモリ210に読み出す。ステップS23で
は,読み出された文書に対し,検索用文字コード列蓄積
機構211に蓄積された検索情報に基づき一致判定機構
212にて一致の判定処理を行う。一致を判定する具体
的処理方法については,例えば宮原他の「SIMD型並
列プロセッサを用いたフルテキスト検索」(情報処理学
会論文誌Vol.33 No.3,1992)に示される技術を用いるこ
とにより実現する。
【0019】この「SIMD型並列プロセッサを用いた
フルテキスト検索」の技術は,SIMD型2次元アレイ
プロセッサとホストコンピュータ(パソコン)によっ
て,高速のフルテキスト検索機能を実現したものであ
り,パソコンから検索プログラムと文書データとをロー
ドしておき,必要に応じて検索単語と検索条件とを入力
することで検索を行うことができるようにしたものであ
る。文書データの水平格納によるビットシリアル型の処
理方式を採用する。部分一致検索では,異字許容照合や
単語内ワイルドカード照合が,それぞれ全文照合や絞り
込み照合とほぼ同程度の速度で検索できる。もちろん,
ステップS23における一致判定処理では,この方法に
限らず,通常の単一プロセッサによる検索手段等を用い
てもよい。
【0020】ステップS24で一致の判定処理結果をチ
ェックし,一致しない場合には,ステップS22の処理
へ戻って,次の文書に対する処理を繰り返す。ステップ
S25では,一致判定機構212にて一致が判定された
場合に,その文書のファイル名をファイル名蓄積機構2
13に格納する。
【0021】ステップS26では,検索結果であるファ
イル名蓄積機構213に格納されているファイル名で特
定される文書情報を,通信制御装置230からクライア
ント端末10に転送する。
【0022】上述のように,本実施の形態では,ビット
マップ情報から抽出される文字コードを用いて文書を検
索する例を説明したが,入力したビットマップ情報その
ものを切り出し,これをキーとして図形処理,画像処理
技術により被検索情報との一致をとり,該当する文書情
報を検索することも可能である。このとき,必ずしも大
きさまでも一致する必要はなく,相似的に一致すればよ
い。このため,必要であれば,検索情報であるビットマ
ップ情報に拡大または縮小などの変換を行い,一致を調
べる。入力したビットマップ情報から特定の領域を検索
情報として切り出す場合には,例えば入力したビットマ
ップ情報を表示装置に表示し,その中で利用者に会話的
に領域を指定させるなどの方法を用いることができる。
【0023】また,本実施の形態では,検索される文書
が一つとして説明しており,文字認識精度については言
及していないが,実際には入力された文字イメージが1
00%認識できることは稀であるため,ある程度の認識
精度を確保できれば,複数の候補文書を提示して利用者
に判断させることでもよい。例えば,認識すべき文字数
の半分以上でも認識できれば,その認識できた部分で検
索した文書を,候補文書として利用者に提示し,複数の
候補文書の中から利用者が詳細を知りたい文書情報を利
用者に選択させるようにしてもよい。
【0024】本発明は,以上説明した例に限定されるこ
となく,特許請求の範囲における各請求項に記載した技
術の範囲内で種々変更・応用が可能であることは言うま
でもない。
【0025】
【発明の効果】上述のように,本発明のドキュメント検
索方法およびシステムによれば,蓄積されている大量の
文書情報のファイル名,キーワードが不明であったり,
忘れていても,紙ベースの文書の写しの一部でもあれ
ば,蓄積されている電子データを検索できるばかりか,
従来のフルテキストサーチによる検索手段では不可能で
あった図形をもキーとした検索が可能となる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の原理構成図である。
【図3】本発明のクライアント端末のシステム構成例を
示す図である。
【図4】本発明のサーバのシステム構成例を示す図であ
る。
【図5】本発明のクライアント端末およびサーバの処理
の概要を示すフローチャートである。
【符号の説明】
10 クライアント端末 110 (クライアント端末内の)CPU・メモリ 111 (CPU・メモリ内の)文字認識機構 112 (CPU・メモリ内の)検索情報蓄積機構 120 (クライアント端末内の)文書入力装置 130 (クライアント端末内の)通信制御装置 140 (クライアント端末内の)表示装置 20 サーバ 210 (サーバ内の)CPU・メモリ 211 (CPU・メモリ内の)検索用文字コード列蓄
積機構 212 (CPU・メモリ内の)一致判定機構 213 (CPU・メモリ内の)ファイル名蓄積機構 220 (サーバ内の)文書蓄積装置 230 (サーバ内の)通信制御装置 30 通信網
───────────────────────────────────────────────────── フロントページの続き (72)発明者 秋山 照雄 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 サーバ/クライアントシステムにおい
    て,サーバに蓄積された文書情報をクライアント端末か
    らの指示により検索するドキュメント検索方法であっ
    て,クライアント端末から検索すべき文書の一部あるい
    は全てを入力し,入力された文書情報から検索情報を抽
    出し,サーバに蓄積された複数の文書情報の中から,抽
    出された検索情報の内容と一致する内容を含む文書を検
    索し,該検索された文書情報をクライアント端末に表示
    することを特徴とするドキュメント検索方法。
  2. 【請求項2】 クライアント端末から検索すべき文書の
    一部あるいは全てをビットマップ情報として入力し,該
    ビットマップ情報から文字部分を認識して文字コード列
    に変換し,文字コードでサーバに蓄積された複数の文書
    情報の中から一致する文字コード列を含む文書情報を検
    索・表示することを特徴とする請求項1記載のドキュメ
    ント検索方法。
  3. 【請求項3】 クライアント端末から検索すべき文書の
    一部あるいは全てをビットマップ情報として入力し,サ
    ーバに蓄積された文書情報の中から該ビットマップ情報
    の一部あるいは全てが相似的に一致するイメージ情報を
    含む文書情報を検索・表示することを特徴とする請求項
    1記載のドキュメント検索方法。
  4. 【請求項4】 検索すべき文書情報を指定するクライア
    ント端末と,複数の文書情報を蓄積し,クライアント端
    末からの指示により特定の文書情報を検索するサーバと
    を有するドキュメント検索システムであって,前記クラ
    イアント端末は,検索すべき文書情報の一部あるいは全
    てをビットマップ情報として入力する文書入力手段と,
    該ビットマップ情報から文字部分を切り出し,文字コー
    ドに変換する文字認識手段と,文字認識された文字コー
    ド列を蓄積する検索情報蓄積手段と,該検索情報を前記
    サーバに転送する転送手段と,前記サーバから転送され
    る検索結果としての文書情報を表示する文書表示手段と
    を有し,前記サーバは,複数の文書情報を蓄積する文書
    蓄積手段と,前記クライアント端末からの検索情報を受
    信する受信手段と,受信した検索情報である文字コード
    列を蓄積する検索用文字コード列蓄積手段と,前記文書
    蓄積手段に蓄積された複数の文書情報の文字コード部分
    と前記検索用文字コード列蓄積手段に蓄積された文字コ
    ードとの一致をとり,その一致度合を判定する一致判定
    手段と,前記一致判定手段の出力により,前記文書蓄積
    手段に蓄積された複数文書情報の中から特定の文書情報
    のファイル名を蓄積するファイル名蓄積手段と,前記文
    書蓄積手段に蓄積された全文書の一致判定が終了した時
    点で,前記ファイル名蓄積手段に蓄積されたファイル名
    で特定される文書情報を前記クライアント端末に転送す
    る転送手段とを有することを特徴とするドキュメント検
    索システム。
  5. 【請求項5】 検索すべき文書情報を指定するクライア
    ント端末と,複数の文書情報を蓄積し,クライアント端
    末からの指示により特定の文書情報を検索するサーバと
    を有するドキュメント検索システムであって,前記クラ
    イアント端末は,検索すべき文書情報の一部あるいは全
    てをビットマップ情報として入力する文書入力手段と,
    該ビットマップ情報から特定の領域を検索情報として切
    り出す領域切り出し手段と,切り出された検索情報であ
    るビットマップ情報を蓄積する検索情報蓄積手段と,該
    検索情報を前記サーバに転送する転送手段と,前記サー
    バから転送される検索結果としての文書情報を表示する
    文書表示手段とを有し,前記サーバは,複数の文書情報
    を蓄積する文書蓄積手段と,前記クライアント端末から
    の検索情報を受信する受信手段と,受信した検索情報で
    あるビットマップ情報を蓄積する検索用ビットマップ情
    報蓄積手段と,前記文書蓄積手段に蓄積された複数の文
    書情報の中からビットマップ情報の一部を切り出し,該
    切り出されたビットマップ情報に拡大縮小などの変換を
    行い,前記検索用ビットマップ情報蓄積手段に蓄積され
    たビットマップ情報との一致をとり,その一致度合を判
    定する一致判定手段と,前記一致判定手段の出力によ
    り,前記文書蓄積手段に蓄積された複数文書情報の中か
    ら特定の文書情報のファイル名を蓄積するファイル名蓄
    積手段と,前記文書蓄積手段に蓄積された全文書の一致
    判定が終了した時点で,前記ファイル名蓄積手段に蓄積
    されたファイル名で特定される文書情報を前記クライア
    ント端末に転送する転送手段とを有することを特徴とす
    るドキュメント検索システム。
JP9097833A 1997-04-16 1997-04-16 ドキュメント検索方法およびシステム Pending JPH10289247A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9097833A JPH10289247A (ja) 1997-04-16 1997-04-16 ドキュメント検索方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9097833A JPH10289247A (ja) 1997-04-16 1997-04-16 ドキュメント検索方法およびシステム

Publications (1)

Publication Number Publication Date
JPH10289247A true JPH10289247A (ja) 1998-10-27

Family

ID=14202727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9097833A Pending JPH10289247A (ja) 1997-04-16 1997-04-16 ドキュメント検索方法およびシステム

Country Status (1)

Country Link
JP (1) JPH10289247A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000052645A1 (fr) * 1999-03-01 2000-09-08 Matsushita Electric Industrial Co., Ltd. Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000052645A1 (fr) * 1999-03-01 2000-09-08 Matsushita Electric Industrial Co., Ltd. Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
US7035463B1 (en) 1999-03-01 2006-04-25 Matsushita Electric Industrial Co., Ltd. Document image processor, method for extracting document title, and method for imparting document tag information

Similar Documents

Publication Publication Date Title
JP4118349B2 (ja) 文書選択等の方法及び文書サーバ
JP4851763B2 (ja) イメージキャプチャー装置を使った文書検索技術
US8005831B2 (en) System and methods for creation and use of a mixed media environment with geographic location information
US7672543B2 (en) Triggering applications based on a captured text in a mixed media environment
US7920759B2 (en) Triggering applications for distributed action execution and use of mixed media recognition as a control input
US8521737B2 (en) Method and system for multi-tier image matching in a mixed media environment
US8195659B2 (en) Integration and use of mixed media documents
US20010042083A1 (en) User-defined search template for extracting information from documents
US20070047008A1 (en) System and methods for use of voice mail and email in a mixed media environment
US20070052997A1 (en) System and methods for portable device for mixed media system
US20060262962A1 (en) Method And System For Position-Based Image Matching In A Mixed Media Environment
US20070046982A1 (en) Triggering actions with captured input in a mixed media environment
US20060262352A1 (en) Method and system for image matching in a mixed media environment
JP2006085733A (ja) ファイリング・検索装置およびファイリング・検索方法
JPH10289240A (ja) 画像処理装置及びその制御方法
JP2002259388A (ja) 画像検索システム、方法及び画像検索プログラム
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
JPH10289247A (ja) ドキュメント検索方法およびシステム
JP4145171B2 (ja) 画像処理装置の不正使用監視装置
JP4116852B2 (ja) 抽出文字列辞書検索装置及び方法並びにプログラム
JPH10334084A (ja) 情報処理装置
JPH10285325A (ja) ファックス受信転送システム
JPH10307837A (ja) 検索装置並びに検索プログラムを記録した記録媒体
JP2956743B2 (ja) 集中文字認識システム及び文字認識装置
JP3455924B2 (ja) メッセージ情報誤り検出装置及びメッセージ情報誤り検出方法