JPH08115330A - 類似文書検索方法および装置 - Google Patents

類似文書検索方法および装置

Info

Publication number
JPH08115330A
JPH08115330A JP6249073A JP24907394A JPH08115330A JP H08115330 A JPH08115330 A JP H08115330A JP 6249073 A JP6249073 A JP 6249073A JP 24907394 A JP24907394 A JP 24907394A JP H08115330 A JPH08115330 A JP H08115330A
Authority
JP
Japan
Prior art keywords
document
search
text data
text
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6249073A
Other languages
English (en)
Inventor
Hisao Mase
久雄 間瀬
Hiroshi Tsuji
洋 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6249073A priority Critical patent/JPH08115330A/ja
Publication of JPH08115330A publication Critical patent/JPH08115330A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】文字認識精度に左右されない類似文書検索を実
現する。 【構成】イメージとして入力して蓄積するイメージDB
と、イメージからテキストを抽出してそれを蓄積するテ
キストDBと、テキストからキーワードを抽出する手段
と、キーワードから検索コマンドを生成し実行する手段
と、検索したテキストあるいはそれを識別するコード、
テキストに対応するイメージの少なくとも一つを表示す
る手段から構成される。 【効果】同一の文字認識手段を介して生成されたテキス
トデータに基づいてキーワード抽出、キーワードマッチ
ングを行うので、文字認識精度にほとんど依存しない検
索精度を得ることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、大量の文書の中から利
用者の必要とする文書を高速に検索する文書検索装置に
関するものであり、特に、ある文書の内容に関連した文
書を検索する類似文書検索装置に関する。
【0002】
【従来の技術】利用者の入力したキーワードを文章中に
含む文書を検索する全文検索装置や、予め各文書毎にキ
ーワードを定義し、利用者の入力したキーワードとのマ
ッチングによって文書を検索するキーワード検索装置が
普及している。
【0003】しかし、不慣れな利用者は、検索のための
キーワードを決定するのに時間がかかる。また、キーボ
ードに不慣れな場合、キーワードを入力するために多大
な労力を使わなければならない。さらに、ある文書に類
似した文書を検索したい場合、元の文書の内容に基づい
たキーワードを選定しなければならない。
【0004】類似文書検索としては、情報処理学会第4
7回全国大会講演論文集(3)3−161にあるよう
に、文書をイメージとして読み込み、文字認識技術によ
り文字情報を掘り起こし、キーワードを自動抽出し、文
書検索を行う技術がある。また、利用者が入力した文か
ら自立語を抽出してキーワードとし、文書検索を行う技
術がある。
【0005】
【発明が解決しようとする課題】これまでの文書検索シ
ステムでは、検索対象となる文書データベース(DB)
は、電子化(コード化)された文書の集まりである。そ
して、利用者の入力したキーワード、すなわち電子化さ
れた文字列とのマッチングにより、検索を実現してい
る。しかし、新聞記事のような紙面に印刷された文書を
DBに登録する場合、文書をキーボードから手入力する
か、文字認識によって文字をコード化し、認識誤りの部
分を修正するなどの面倒な方法しかなかった。
【0006】本発明の一つの目的は、文書をイメージと
して入力するだけで手軽に文書をDBに登録できる文書
検索装置を提供することにある。
【0007】また、これまでの文書検索システムでは、
紙面に印刷された文書に類似した文書を検索すること
は、文章のコード化がネックとなり困難であった。上述
した文字認識を用いた類似文書検索技術でも、文字認識
誤りによって、キーワード抽出の精度、キーワードマッ
チングの精度が低下し、文書を過不足なく抽出できない
という問題があった。
【0008】本発明の他の目的は、文字認識誤りによっ
て検索精度が左右されない文書検索装置を提供すること
にある。
【0009】
【課題を解決するための手段】本発明では、文書をイメ
ージデータとして計算機に読み込ませる文書入力手段
と、前記入力されたイメージデータを蓄積し保持するイ
メージデータベースと、前記イメージデータからテキス
トデータを抽出する文字認識手段と、前記抽出したテキ
ストデータを蓄積し保持するテキストデータベースと、
前記イメージデータベースと前記テキストデータベース
との対応関係を保持するデータベース管理手段と、前記
抽出したテキストデータからキーワードを抽出するキー
ワード抽出手段と、前記抽出したキーワードに基づいて
文書検索コマンドを生成する検索式生成部と、前記生成
した検索式を実行して前記テキストデータベースの中の
テキストデータを検索する検索実行手段と、前記検索で
抽出したテキストデータあるいは当該テキストデータを
識別するコードあるいは当該テキストデータに対応する
イメージデータベース中のイメージデータの少なくとも
一つを表示する検索結果表示手段とを備えることによ
り、上記課題を解決する。
【0010】
【作用】テキストデータベースに登録する際に用いる文
字認識手段と、類似文書検索する際に用いる文字認識手
段が同一であるため、文字認識誤りの傾向が似通ってい
る。すなわち、類似文書検索したい文書の中のある文字
の認識に失敗した場合でも、テキストデータベース中の
テキストデータにおいてもその文字の認識は失敗する可
能性が高いため、キーワードのマッチングの精度はあま
り低下しないことになる。
【0011】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。
【0012】本実施例は、本発明を全文検索システムに
適用した場合のものである。これは、一つ以上のキーワ
ードからなる検索式を利用者が入力すると、その検索式
を満たす文書を文書DBから抽出し、文書識別コード、
あるいは本文を利用者に報知するものである。このよう
なシステムは、例えば、情報処理学会第45回全国大会
講演論文集(3)3−239〜244に記載されている
フルテキストサーチシステムなどにより公知である。
【0013】図1は、本実施例の概要を表したものであ
る。
【0014】文書イメージ入力部2に入力する文書は、
紙などに印刷されたものであり、テキストデータを含ん
でいる。図表やイラストなどが挿入されていても構わな
い。この文書は、大きく2種類に分けられる。一つは、
テキストDB7およびイメージDB8に格納するDB登
録文書1であり、もう一つは、類似文書検索したい元の
文書である検索用文書9である。これらのどちら(ある
いは両方)を実行するかは利用者が選択することができ
る。これは、グラフィカルユーザインタフェースにおけ
るメニュー(ボタン)選択により、容易に実現可能であ
る。
【0015】図1は、文書をDBに登録する場合と、あ
る文書に類似する文書を検索する場合の両方を示してい
るので、以下では、これらの内容について順次説明す
る。
【0016】最初に、文書をDBに登録する場合につい
て説明する。
【0017】まず、文書イメージ入力部2において、イ
メージスキャナにより、登録したい文書1をイメージデ
ータ3として入力する。
【0018】次に、文字認識部4において、イメージデ
ータ3から文字情報を掘り起こし、テキストデータ5に
格納する。文字認識技術については、すでに公知である
ため、ここでは言及しない。
【0019】次に、DB管理部6において、イメージデ
ータ3をイメージDB8に登録し、テキストデータ5を
テキストDB7に登録する。DB管理部6では、イメー
ジデータ3とテキストデータ5との間の対応関係を管理
する。これは、対応関係を表すテーブルを持つことで容
易に実現可能である。
【0020】今度は、ある文書に類似する文書を検索す
る場合について説明する。
【0021】まず、文書をDBに登録する場合と全く同
様にして、文書イメージ入力部2において、イメージデ
ータ3を入力し、文字認識部4において、テキストデー
タ5を生成する。ここで、文書イメージ入力部2および
文字認識部4は、全く同じものを用いる。これにより、
生成されるテキストデータの精度を均質化することが可
能となる。
【0022】次に、キーワード抽出部10において、テ
キストデータ5からキーワード11を自動抽出する。キ
ーワードの抽出方法については、高頻度の単語をキーワ
ードとする方法や、文中の役割(主語、目的語、述語)
などに応じて決定する方法、これらの方法を統合して各
単語の重要度を算出する方法などさまざまな方法が公知
であり、実現可能である。また、テキストデータを単語
に分割する方法については、字種(漢字、ひらがな、カ
タカナ、記号)が変化するところを単語の切れ目とする
方法や、単語辞書を使って、最長一致法、最少コスト法
といった方法によって、単語を分割する方法など公知が
あり、実現可能である。
【0023】次に、検索式生成部12では、キーワード
抽出部10で抽出したキーワード11を論理的に組み合
わせた検索式13を生成する。例えば、キーワード11
として、「科学」「計算機」「開発」が抽出された場
合、生成される検索式は、 (1)「科学」and「計算機」and「開発」(三つをすべ
て含む文書を抽出) (2)「科学」or「計算機」or「開発」(三つのどれか
を含む文書を抽出) (3)(「科学」and「計算機」) or「開発」 など、さまざまな組合せがある。当然、検索される文書
の数は、(2)(3)(1)の順で多くなる。
【0024】本実施例では、予め、利用者が検索結果と
して欲しい文書数の範囲を指定しておく。そして、ま
ず、(1)のように、すべてのキーワードを含む文書の
検索を実行するための検索式を検索式生成部12で生成
し、検索実行部14で検索を実行する。この検索結果が
上記範囲内であれば、検索を終了する。そうでない場合
は、(2)のように、どれか一つを含む文書の検索を実
行するための検索式を再生成し、実行する。この検索結
果が上記範囲内であれば、検索を終了する。そうでない
場合は、キーワードを一つ減らし、上記2種類の検索を
実行し、検索結果が上記範囲内となった時点で検索を終
了する。最後まで範囲内に入らなかった場合は、範囲の
値に最も近かったものを検索結果15とする。
【0025】なお、抽出したキーワードを利用者に表示
し、キーワードの選定や、適切な検索式の作成をさせる
ことによって、検索回数を減らすことも実現可能であ
る。
【0026】次に、検索結果表示部16において、利用
者に結果17を報知する。検索結果としては、検索され
たデータを識別するコードのリストを出力する方法と、
検索されたデータの本文を出力する方法がある。また、
本文を出力する方法には、イメージDB8の中に格納さ
れているイメージデータを出力する方法と、文字認識部
4で生成された、テキストDB7の中に格納されている
テキストデータを出力する方法とがある。イメージデー
タは、文章の加工ができない反面、文字認識誤りがない
ので、可読性に優れており、また、図表も見ることがで
きる。一方、テキストデータは、文章の加工ができる反
面、文字認識誤りが含まれているので、可読性に劣り、
図表も見られない。これらのうちどれを結果17として
利用者に表示するかは利用者が指定できる。テキストD
B7およびイメージDB8の登録情報は、DB管理部6
においてテーブル形式で管理されているため、必要なデ
ータを取得することは容易に実現可能である。
【0027】図2は、DB登録用文書1の一例を示すも
のである。
【0028】図3は、図2の文書を文書イメージ入力部
2で読み取り、文字認識部4において文字認識した後の
テキストデータ5の一例を示すものである。図3におい
て、アンダーラインの文字は、文字認識誤りを起こして
いることを便宜的に示す。
【0029】図4は、類似文書検索をしたい元の文書の
一例を示すものである。
【0030】図5は、図4の文書を文書イメージ入力部
2で読み取り、文字認識部4において文字認識した後の
テキストデータ5の一例を示すものである。
【0031】図6は、キーワード抽出部10において、
図5のテキストデータを単語分割した結果を示すもので
ある。本実施例では、文字を6種類の字種(漢字、ひら
がな、カタカナ、記号、アルファベット、数字)に分
け、字種が変わる部分で単語を分割している。
【0032】図7は、図5、図6から抽出したキーワー
ドを示すものである。本実施例では、分割した単語のう
ち、漢字列とカタカナ列、アルファベット列であり、2
文字以上からなる単語のうち、出現頻度の高い、最大5
個までの単語をキーワードとしている。なお、キーワー
ドとみなす字種の定義や、何文字以上の単語をキーワー
ドとみなすか、また、キーワードを何個抽出するかなど
の条件の設定を利用者が設定可能とすることは容易に実
現可能である。図7では、頻度2である「世界平知」
「合北」「会議」の3単語をキーワードとする。
【0033】図8では、図7のキーワードに基づいて検
索式生成部12において生成される検索式の一例を示す
ものである。文字列FINDは、検索を実行するコマン
ド名であり、文字列”IN DB1”は、データベース
DB1を対象として検索するという意味であり、文字列
COND以下は、「世界平知」「合北」「会議」の三つ
を含む文書を抽出するという検索条件を示している。
【0034】図8の検索式を検索実行部14で実行する
と、例えば、図3のテキストデータについては、上記三
つの単語をすべて含んでいるので、抽出される。検索結
果表示部16で内容表示する場合には、図4のイメージ
データを出力することもでき、文字認識に全く影響され
ずに内容を読むことができる。
【0035】このように、本実施例では、テキストDB
中の文書も、類似文書検索する元の文書も、同一の文字
認識部4を通過しているので、文字認識誤りがあって
も、キーワードマッチングが成功する確率が高くなり、
検索精度が向上する。
【0036】
【発明の効果】実施例で述べたように、本発明によれ
ば、文書をイメージとして入力するだけで文書DBに登
録することができるので、テキストデータの電子化とい
う作業をなくすことができる。また、類似文書検索する
場合でも、同一の文字認識部4によって生成されたテキ
ストデータに基づいてキーワード抽出、キーワードマッ
チングを行うので、文字認識精度にほとんど依存しない
検索精度を得ることができる。
【図面の簡単な説明】
【図1】本発明の概要を示す図
【図2】DB登録文書1の一例を示す図
【図3】図2の文字認識結果を示す図
【図4】類似文書検索用文書9の一例を示す図
【図5】図4の文字認識結果を示す図
【図6】図5の単語分割結果を示す図
【図7】図5からのキーワード抽出結果の一例を示す図
【図8】検索式の一例を示す図
【符号の説明】
1…DB登録文書、 2…文書イメージ入力部、3…
イメージデータ、 4…文字認識部、 5…テキスト
データ、6…DB管理部、 7…テキストDB、
8…イメージDB、9…検索用文書、 10…キーワ
ード抽出部、 11…キーワード、12…検索式
(再)生成部、 13…検索式、 14…検索実行
部、15…検索結果、 16…検索結果表示部、
17…表示内容。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】文字列を入力する手段と、一つ以上の文書
    データを格納する文書データベースから前記文字列を含
    む文書を抽出する文書検索手段と、前記検索結果を利用
    者に報知するための出力手段とを備えた文書検索装置に
    おいて、 文書をイメージデータとして計算機に読み込ませる文書
    入力手段と、 前記入力されたイメージデータを蓄積し保持するイメー
    ジデータベースと、 前記イメージデータからテキストデータを抽出する文字
    認識手段と、 前記抽出したテキストデータを蓄積し保持するテキスト
    データベースと、 前記イメージデータベースと前記テキストデータベース
    との対応関係を保持するデータベース管理手段と、 前記抽出したテキストデータからキーワードを抽出する
    キーワード抽出手段と、 前記抽出したキーワードに基づいて文書検索コマンドを
    生成する検索式生成部と、 前記生成した検索式を実行して前記テキストデータベー
    スの中のテキストデータを検索する検索実行手段と、 前記検索で抽出したテキストデータあるいは当該テキス
    トデータを識別するコードあるいは当該テキストデータ
    に対応するイメージデータベース中のイメージデータの
    少なくとも一つを表示する検索結果表示手段とを備えた
    ことを特徴とする類似文書検索装置。
  2. 【請求項2】請求項1記載の類似文書検索装置におい
    て、前記入力されたイメージデータをイメージデータベ
    ースに格納するか否かを利用者が指定するための選択手
    段を備えたことを特徴とする請求項1記載の類似文書検
    索装置。
  3. 【請求項3】請求項1記載の類似文書検索装置におい
    て、前記テキストデータからキーワードを抽出して検索
    を実行するか否かを利用者が指定するための選択手段を
    備えたことを特徴とする請求項1記載の類似文書検索装
    置。
  4. 【請求項4】請求項1記載の類似文書検索装置におい
    て、前記検索結果表示手段は、前記テキストデータを識
    別するコードを表示した後に当該コードに対応するテキ
    ストデータあるいは当該コードに対応するイメージデー
    タの少なくとも一つを出力することを特徴とする請求項
    1記載の類似文書検索装置。
  5. 【請求項5】文字列を入力する手段と、一つ以上の文書
    データを格納する文書データベースから前記文字列を含
    む文書を抽出する文書検索手段と、前記検索結果を利用
    者に報知するための出力手段とを備えた類似文書検索装
    置における類似文書検索方法であって、 文書をイメージデータとして計算機に読み込ませるステ
    ップと、 前記入力されたイメージデータをイメージデータベース
    の中に蓄積し保持するステップと、 前記イメージデータから文字認識手段によりテキストデ
    ータを抽出するステップと、 前記抽出したテキストデータをテキストデータベースの
    中に蓄積し保持するステップと、 前記イメージデータベースと前記テキストデータベース
    との対応関係を保持するステップと、 前記抽出したテキストデータからキーワードを抽出する
    ステップと、 前記抽出したキーワードに基づいて文書検索コマンドを
    生成するステップと、 前記生成した検索式を実行して前記テキストデータベー
    スの中のテキストデータを検索するステップと、 前記検索で抽出したテキストデータあるいは当該テキス
    トデータを識別するコードあるいは当該テキストデータ
    に対応するイメージデータベース中のイメージデータの
    少なくとも一つを表示するステップとからなることを特
    徴とする類似文書検索方法。
  6. 【請求項6】請求項5記載の類似文書検索方法におい
    て、前記入力されたイメージデータをイメージデータベ
    ースに格納するか否かを利用者が指定できることを特徴
    とする請求項5記載の類似文書検索方法。
  7. 【請求項7】請求項5記載の類似文書検索方法におい
    て、前記テキストデータからキーワードを抽出して検索
    を実行するか否かを利用者が指定できることを特徴とす
    る請求項5記載の類似文書検索方法。
  8. 【請求項8】請求項5記載の類似文書検索方法におい
    て、前記検索結果の表示は、前記テキストデータを識別
    するコードを表示した後に当該コードに対応するテキス
    トデータあるいは当該コードに対応するイメージデータ
    の少なくとも一つを出力することを特徴とする請求項5
    記載の類似文書検索方法。
JP6249073A 1994-10-14 1994-10-14 類似文書検索方法および装置 Pending JPH08115330A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6249073A JPH08115330A (ja) 1994-10-14 1994-10-14 類似文書検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6249073A JPH08115330A (ja) 1994-10-14 1994-10-14 類似文書検索方法および装置

Publications (1)

Publication Number Publication Date
JPH08115330A true JPH08115330A (ja) 1996-05-07

Family

ID=17187607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6249073A Pending JPH08115330A (ja) 1994-10-14 1994-10-14 類似文書検索方法および装置

Country Status (1)

Country Link
JP (1) JPH08115330A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004008342A1 (ja) * 2002-07-10 2004-01-22 Sharp Kabushiki Kaisha マルチメディア情報提供システムおよびマルチメディア情報提供方法
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
US7047238B2 (en) 2002-02-21 2006-05-16 Hitachi, Ltd. Document retrieval method and document retrieval system
JP2015207069A (ja) * 2014-04-18 2015-11-19 富士通株式会社 キーワード決定装置、キーワード決定プログラム及びキーワード決定方法
CN112868001A (zh) * 2018-10-04 2021-05-28 昭和电工株式会社 文档检索装置、文档检索程序、文档检索方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047238B2 (en) 2002-02-21 2006-05-16 Hitachi, Ltd. Document retrieval method and document retrieval system
WO2004008342A1 (ja) * 2002-07-10 2004-01-22 Sharp Kabushiki Kaisha マルチメディア情報提供システムおよびマルチメディア情報提供方法
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
JP4595415B2 (ja) * 2004-07-14 2010-12-08 日本電気株式会社 音声検索システムおよび方法ならびにプログラム
JP2015207069A (ja) * 2014-04-18 2015-11-19 富士通株式会社 キーワード決定装置、キーワード決定プログラム及びキーワード決定方法
CN112868001A (zh) * 2018-10-04 2021-05-28 昭和电工株式会社 文档检索装置、文档检索程序、文档检索方法
CN112868001B (zh) * 2018-10-04 2024-04-26 株式会社力森诺科 文档检索装置、文档检索程序、文档检索方法

Similar Documents

Publication Publication Date Title
US5303150A (en) Wild-card word replacement system using a word dictionary
US5276616A (en) Apparatus for automatically generating index
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JPH0736882A (ja) 辞書検索装置
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
JPH08115330A (ja) 類似文書検索方法および装置
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JPH05250416A (ja) データベースの登録・検索装置
JP2621999B2 (ja) 文書処理装置
JP2885489B2 (ja) 文書内容検索装置
JPH0944521A (ja) インデックス作成装置および文書検索装置
JPH09245051A (ja) 自然言語事例検索装置及び自然言語事例検索方法
JP3501240B2 (ja) 文書作成支援装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JP2776069B2 (ja) 文章検査装置
JP4044158B2 (ja) 符号照合装置及び符合照合方法
JP3241854B2 (ja) 単語スペル自動補正装置
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2004199282A (ja) 文書検索装置および文書登録装置
JPH02136970A (ja) 英単語検索装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH08263509A (ja) ソフトウェア利用装置
JPS6366663A (ja) 文書構造管理方式
JP2000259675A (ja) 検索装置