JPH07319880A - キーワード抽出・検索装置 - Google Patents

キーワード抽出・検索装置

Info

Publication number
JPH07319880A
JPH07319880A JP6106528A JP10652894A JPH07319880A JP H07319880 A JPH07319880 A JP H07319880A JP 6106528 A JP6106528 A JP 6106528A JP 10652894 A JP10652894 A JP 10652894A JP H07319880 A JPH07319880 A JP H07319880A
Authority
JP
Japan
Prior art keywords
keyword
character recognition
candidate
image information
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6106528A
Other languages
English (en)
Inventor
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6106528A priority Critical patent/JPH07319880A/ja
Publication of JPH07319880A publication Critical patent/JPH07319880A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は、文書の画像情報からキーワードを
抽出するキーワード抽出・検索装置に関し、紙文書や紙
文書から読み取った画像情報から文字認識して文字認識
結果候補列を自動抽出し、この文字認識結果候補列から
キーワード候補を自動抽出し、更にこのキーワード候補
から信頼度や重要度や分野によってキーワードを自動選
択し、紙文書や画像情報から自動的にキーワード抽出を
行ったりなどすることを目的とする。 【構成】 原文書の画像情報から文字認識して文字認識
結果候補列を生成する文字認識部1と、この文字認識結
果候補列からキーワード候補を抽出するキーワード抽出
部2と、各キーワード候補の信頼度を求めて所定閾値以
上をキーワードとして選択するキーワード選択部3とを
備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書の画像情報からキ
ーワードを抽出するキーワード抽出・検索装置であっ
て、紙文書やこれをスキャナで読み取った画像ファイル
からキーワードを自動抽出および検索するキーワード抽
出・検索装置に関するものである。
【0002】氾濫する紙文書を電子化して格納したいと
いう要求がある。紙文書を単に画像情報として電子化し
ただけでは、後でその文書を検索しようとした時に高速
な検索が望めない。予め文書に対してキーワードを自動
抽出して付加しておくことが望まれている。
【0003】
【従来の技術】従来、画像情報からキーワードを認識し
て登録を行う手法が種々考えられている。
【0004】文書中のキーワードとすべき部分をマーク
づけてしておき、そのマーク部分の文字認識を行ってキ
ーワード登録する。また、文書イメージを図面領域と文
書領域とに予め分割し、文書領域について文字認識を行
ってキーワード登録する。
【0005】例えば特願昭58−125222号や特願
昭58−125223号公報には、画像情報について文
字認識を行うことにより検索用キーワードを得る手段が
述べられている。キーワード位置はオペレータが指定す
る必要があると共に、文字認識結果をオペレータが必要
に応じて修正を行ってからキーワード登録を行うことが
示されている。
【0006】
【発明が解決しようとする課題】上述した従来の紙文書
からキーワードを認識して登録を行う場合、予めキーワ
ードとして抽出する部分にマークを付与する必要があっ
たり、あるいはキーワードを抽出する文書領域を予め指
定する必要があったり、更にこれら指定した部分あるい
は文書領域から文字認識したキーワードについてオペレ
ータが確認・修正する手間が生じてしまい、手間がかか
ると共に紙文書からキーワードを自動抽出できないとい
う問題があった。
【0007】本発明は、これらの問題を解決するため、
紙文書や紙文書から読み取った画像情報から文字認識し
て文字認識結果候補列を自動抽出し、この文字認識結果
候補列からキーワード候補を自動抽出し、更にこのキー
ワード候補から文字認識結果の信頼度や重要度や分野に
よってキーワードを自動選択し、紙文書や画像情報から
自動的にキーワード抽出を行ったりなどすることを目的
としている。
【0008】
【課題を解決するための手段】図1は、本発明の原理構
成図を示す。図1において、文字認識部1は、原文書の
画像情報から文字認識して文字認識結果候補列を生成す
るものである。
【0009】キーワード抽出部2は、文字認識結果候補
列からキーワード候補を抽出するものである。キーワー
ド選択部3は、各キーワード候補の信頼度を求めて所定
閾値以上をキーワードとして選択したり、各キーワード
候補の原文書中の位置に対応する重要度が所定値以上の
ときにキーワードとして選択したり、各キーワード候補
の分野特徴ベクトルから求めた文書全体の分野特徴ベク
トルに対して各キーワード候補の分野特徴ベクトルが所
定範囲内に納まったときにキーワードとして選択したり
するものである。
【0010】キーワード付ファイル6は、選択されたキ
ーワードを原文書の画像情報に付加して登録したもので
ある。検索/表示部7は、キーワードあるいはキーワー
ド群を指定した検索指示に対応して、キーワード付ファ
イル6から検索指示されたキーワードの全部あるいは一
部が一致するキーワードを持つファイルを取り出し、そ
の検索指示されたキーワード群と検索されたファイルの
持つキーワード信頼度とから検索指示とファイルとの信
頼度を算出して信頼度の大きい順に検索指示に対応する
画像情報を並べて表示したり、先頭から所定個数のみを
表示したり、あるいは色マークを変えて順次表示したり
するものである。
【0011】
【作用】本発明は、図1に示すように、文字認識部1が
原文書の画像情報から文字認識して文字認識結果候補列
を生成し、キーワード抽出部2が文字認識結果候補列か
らキーワード候補を抽出し、キーワード選択部3が各キ
ーワード候補の信頼度を求めて所定閾値以上をキーワー
ドとして選択するようにしている。
【0012】また、文字認識部1が原文書の画像情報か
ら文字認識して文字認識結果候補列を生成し、キーワー
ド抽出部2が文字認識結果候補列からキーワード候補を
抽出し、キーワード選択部3が各キーワード候補の原文
書中の位置に対応する重要度が所定値以上のときにキー
ワードとして選択するようにしている。
【0013】また、文字認識部1が原文書の画像情報か
ら文字認識して文字認識結果候補列を生成し、キーワー
ド抽出部2が文字認識結果候補列からキーワード候補を
抽出し、キーワード選択部3が各キーワード候補の分野
特徴ベクトルから求めた文書全体の分野特徴ベクトルに
対して各キーワード候補の分野特徴ベクトルが所定範囲
内に納まったときにキーワードとして選択するようにし
ている。
【0014】また、選択されたキーワードを原文書の画
像情報に付加してキーワード付ファイル6に登録するよ
うにしている。また、キーワードを指定した検索指示に
対応して、検索/表示部7がキーワード付ファイル6か
ら検索指示されたキーワードの全部あるいは一部の一致
するファイルを見つけ、その信頼度を算出して信頼度の
大きい順にキーワードに対応する画像情報を並べて表示
したり、先頭から所定個数のみを表示したり、あるいは
色マークを変えて順次表示したりするようにしている。
【0015】従って、紙文書や紙文書から読み取った画
像情報より文字認識して文字認識結果候補列を自動抽出
し、この文字認識結果候補列からキーワード候補を自動
抽出し、更にこのキーワード候補から文字認識の信頼度
や重要度や分野によってキーワードを自動選択すること
により、紙文書や画像情報から自動的にキーワードを抽
出することが可能となった。また、キーワードを指定し
た検索指示に対応して、信頼度の大きい順に表示、先頭
から所定個数表示、あるいは色を変えて表示したりする
ことが可能となった。
【0016】
【実施例】次に、図2から図12を用いて本発明の実施
例の構成および動作を順次詳細に説明する。
【0017】図2は、本発明の動作説明フローチャート
を示す。図2において、S1は、原文書を入力する。こ
れは、紙に印刷された文書をスキャナで読み取った画像
情報、例えば後述する図3の原文書をスキャナで読み取
った画像情報を入力する。
【0018】S2は、テキスト領域の抽出する。これ
は、S1で原文書から読み取った画像情報のうち、ドッ
トが存在する領域をテキスト領域として抽出する。この
テキスト領域には、文字のドットイメージおよび文字以
外の記号などのドットイメージも含まれる。
【0019】S3は、文字認識する。これは、S2で抽
出したテキスト領域から文字認識を行う。即ちテキスト
領域のドットイメージについて、予め作成しておいた文
字のドットイメージ(あるいはテンプレート)と照合し
て一致したときにその一致した文字イメージの文字コー
ドと文字認識し、一致したものがないときは文字以外の
ドットイメージとして文字コードの抽出しない。
【0020】S4は、S3で文字認識されたものを、文
字認識結果候補列とする。以上のS1からS4によっ
て、原文書から読み取った画像情報からドットイメージ
の存在する部分をテキスト領域と見なして予め作成した
おいた文字のドットイメージ(テンプレート)と照合を
行い、一致したときの文字コードを文字認識結果候補列
として抽出できたこととなる。
【0021】S5は、単語辞書からの単語の取り出しを
行う。S6は、文字認識結果候補列の中に存在するかを
判定して、あるものだけを残す。これは、S5で単語辞
書から順次取り出した単語と、S1からS4で抽出した
文字認識結果候補列との照合を行い、一致したもののみ
を残す。
【0022】S7は、S6で残したものをキーワード候
補とする。尚、図5の(a)に示すように、個々の文字
認識結果候補の信頼度からキーワードの信頼度を求めて
値が所定閾値以上のものをキーワード候補とするように
してもよい。
【0023】以上のS5およびS6によって、文字認識
結果候補列と単語辞書の単語とを照合して一致したもの
をキーワード候補と決定する。S8は、キーワード候補
の信頼度をもとにキーワードの自動選択する。これは、
キーワード候補について、例えば後述する図5の(b)
に示すように、図6を参照してキーワード候補の信頼度
を求め、その信頼度が所定閾値よりも大きいときにキー
ワードとして選択する。
【0024】S9は、S8で選択されたキーワードを出
力する。そして、このキーワードを原文書の画像情報に
付加してキーワード付ファイル6に登録する。以上によ
って、原文書から読み取った画像情報より文字認識を行
って文字認識結果候補列を生成し、この文字認識結果候
補列について単語辞書の単語と照合して一致したものを
キーワード候補とし、このキーワード候補についてキー
ワードの信頼度を求めて所定閾値以上のものをキーワー
ドと決定し、原文書の画像情報にこのキーワードを付加
し、キーワード付ファイル6に登録する。これにより、
原文書の画像情報から自動的に文字認識結果候補列、キ
ーワード候補、更にキーワードを自動抽出して原文書の
画像情報に付加し、キーワード付ファイル6に自動登録
することが可能となった。
【0025】図3は、本発明の原文書のイメージ図を示
す。これは、原文書中に存在するテキスト部(文字が存
在する領域)、図表部(図形が存在する領域)、および
テキスト領域(文字が存在する領域)である。これら文
字や図形などが存在してドットイメージがある部分を、
本実施例では全てテキスト領域として文字認識の対象と
している。従って、ここでは、テキスト部および図表部
の両者がテキスト領域と見なし、文字認識の対象とす
る。図表の部分から文字が認識されないだけである。
【0026】図4は、本発明のキーワード候補の抽出説
明図を示す。これは、単語辞書21中に図示のように単
語“文字”、“文学”、“文献”などが登録されてお
り、これらを取り出す。そして、図2のS4で文字認識
した文字認識結果候補列と、これら取り出した単語とを
照合して一致したものがあったときにその単語をキーワ
ード候補(例えば“文字”、“文学”)と決定する。
【0027】図5は、本発明の信頼度の説明図を示す。
図5の(a)は、文字認識における確からしさの場合の
信頼度を示す。ここで、文字認識では、例えば入力文字
と辞書中のテンプレート文字の特徴ベクトル間の距離を
もとに、各文字認識結果の文字の信頼度を計算する。確
率的な計算式を使って求めることが普通であるが、ここ
では、単純に距離値のものを使って説明する。従って値
が小さいものほど確からしいと判断する。例えば図6を
参照して図示の下記のように文字認識結果の文字の確か
らしさを算出する。
【0028】・3文字めが“文”である確からしさ 1
141 ・4文字めが“字”である確からしさ 1105 ・4文字めが“学”である確からしさ 1387 これら値は、図6のから“3文字めが“文”である確
からしさ“1141”が算出される。同様に、図6の
、から確からしさ“1105”、“1387”がそ
れぞれ算出される。
【0029】以上のようにして算出した文字の値が小さ
い程、確からしさが増すので、予め定めた値以下のも
の、あるいは値の最も小さい先頭のものを文字認識結果
候補列と決定する。尚、これら距離は、後述する図12
に示すように、文字のドットイメージを所定方向に投影
しときのテンプレートのものと入力字形のものとの差を
積分したものである。
【0030】図5の(b)は、キーワード候補の確から
しさの場合の値を示す。ここでは、例として、構成文字
の値の平均値の値が小さいほど確からしいと判断する。
例えば図6を参照して図示の下記のように値を算出す
る。
【0031】・キーワード候補“文字”の確からしさ (1141+1105)/2=1123 ・キーワード候補“文学”の確からしさ (1141+1387)/2=1264 これら値は、図6のから“3文字めが“文”である確
からしさ“1141”が算出される。同様に、図6の
から値“1387”が算出される。そして、これらの平
均(和を2で除算した値)を値とする。
【0032】図5の(c)は、適当な閾値でキーワード
候補を絞る例を示す。これは、図5の(b)によって算
出した値が 適当な閾値以下例えば1250以下をキー
ワードとすれば、図5の(b)で算出した値のうち“1
264”の“文学”がキーワード候補から外れ、結果と
して値“1123”のキーワード“文字”のみが残り、
これをキーワードと決定する。
【0033】図6は、本発明の文字認識結果例を示す。
ここで、縦方向の1文字目、2文字目、3文字目、4文
字目・・・が認識対象の文字を表し、その横の数字が値
を表す。また、横方向の1位、2位、3位・・・は値の
小さい順に文字認識されたときの文字を表す。例えば4
文字目の1位の“字”の値は“1105”()であ
り、4位の“学”の値は“1387”()と算出され
たものである。以下同様に図示のように文字認識によっ
て各値を算出したものである。
【0034】図7は、本発明の動作説明フローチャート
(位置)を示す。これは、原文書中の位置(タイトル、
日付、シグニチャなど)に対応して重要度を判定したも
のである。ここで、(A)、(B)、(C)は、図2の
対応する記号を表し、(A)は図2のS1につづいて処
理を行う。(B)は図2のS7のキーワード候補の情報
を受け取り、処理を進める。更に、(C)は図7のS1
4で自動選択したキーワードを図2のS9のキーワード
と決定する。
【0035】図7において、S11は、テキストブロッ
クの位置の認識を行う。これは、右側に記載したよう
に、例えばテキストブロック矩形の位置(x1,y
1)、(x2,y2)の認識、即ち図8の上から横方向
に順次走査し、ドットイメージの現れた領域の左上の座
標(x1,y1)および右下の座標(x2,y2)を求
める。
【0036】S12は、テキストブロックの役割判定す
る。これは、右側に記載したように、S11で位置を認
識したテキストブロックの役割として、例えばタイト
ル、日付、シグニチャなどのいずれに該当するかの役割
を認識する。
【0037】S13は、キーワード候補がいずれのテキ
ストブロックに属するかによってキワード候補の重要度
を判定する。例えばキーワード候補が存在するテキスト
ブロックがタイトルのときに重要度が高いと判定する。
【0038】S14は、キーワード候補の重要度によっ
てキーワードを自動選択する。これは、S13でキーワ
ード候補が属するテキストブロックに対応して重要度を
それぞれ判明したので、そのうちの重要度が高いキーワ
ード候補をキーワードと選択する。そして、図2の
(C)に戻り、S9でキーワードを決定し、画像情報に
当該キーワードを付加してキーワード付ファイル6に登
録する。
【0039】以上によって、原文書中のテキストブロッ
クの位置の重要度が高いもののキーワード候補をキーワ
ードと自動選択することにより、キーワード候補から原
文書中の重要度の高い位置をもとにキーワードを決定す
ることが可能となる。
【0040】図8は、本発明の重要度の説明図を示す。
これは、原文書中のテキストブロックの位置を左上の座
標および右下の座標によってそれぞれ表す。このテキス
トブロックのうち、重要度の高い順にキーワード候補か
らキーワードを自動選択する。ここでは、重要度は例え
ばタイトル、本文、日付、シグニチャの順に高いとす
る。
【0041】図9は、本発明の動作説明フローチャート
(分野)を示す。これは、各キーワード候補の分野特徴
ベクトルの総和の文書全体の分野特徴ベクトルと、各キ
ーワード候補の分野特徴ベクトルとを比較し、キーワー
ド候補の分野特徴ベクトルが大きく異なるときに除外
し、残りのものをキーワードと自動選択するものであ
る。ここで、(B)、(C)は、図2の対応する記号を
表す。(B)は図2のS7のキーワード候補の情報を受
け取り、処理を進める。(C)は図9のS23で自動選
択したキーワードを図2のS9のキーワードと決定す
る。
【0042】図9において、S21は、各キーワード候
補の分野特徴ベクトルを求める。これは、右側に記載し
たように、 ・キーワード候補1の分野特徴ベクトル:v1 ・キーワード候補2の分野特徴ベクトル:v2 と求める。例えば後述する図10に示すように、分野
(文学、化学、機械、物理、情報、経済など)毎のそれ
ぞれの値を持つ分野特徴ベクトルを求める。
【0043】S22は、各キーワード候補の分野特徴ベ
クトルから文書全体の分野特徴ベクトルを求める。これ
は、右側に記載したように、文書全体の分野特徴ベクト
ルとして、 V=v1+v2・・・ といように、ベクトル和を求める。
【0044】S23は、各キーワードの分野特徴ベクト
ルと文書全体の分野特徴ベクトルとを比較し、ベクトル
の方向が大きく異なる分野特徴ベクトルを持つキーワー
ド候補を捨てる。これは、右側に記載したように、各キ
ーワードの分野特徴ベクトルと文書全体の分野特徴ベク
トルとの内積を求めそれぞれのベクトルの大きさで割っ
たもの(cosθ)が閾値よりんも小さいものを捨て
る。そして、残ったキーワード候補を図2の(C)に続
くS9によってキーワードと決定する。このキーワード
を原文書の画像情報に付加してキーワード付ファイル6
に登録する。
【0045】以上によって、キーワード候補の分野特徴
ベクトルと、文書全体の分野特徴ベクトルとを比較し、
ベクトルの方向が所定閾値以上異なる場合に捨て、残っ
たキーワード候補をキーワードと決定し、画像情報に付
加してキーワード付ファイル6に登録する。これによ
り、キーワード候補から分野特徴ベクトルをもとに自動
選択することが可能となる。
【0046】図10は、本発明の分野特徴ベクトルの説
明図を示す。ここで、横軸は分野(化学、機械、物理、
情報、経済など)を表し、縦軸はそのときの分野特徴ベ
クトルの大きさを表す。例えば点線で表したキーワード
候補“アルコール”の分野特徴ベクトルは、図示のよう
に、化学、経済の分野でその値が大きく、物理、情報の
分野でその値が小さい。一方、実線で表したキーワード
候補“文学”の分野特徴ベクトルは、図示のように、情
報の分野でその値が多く、他の分野ではその値が小さ
い。
【0047】図11は、本発明の表示文書選択説明図を
示す。これは、キーワードklを指定した検索指示に対
応して、キーワード付ファイル6を検索し、検索結果と
して図示の ・文書d1信頼度a1 ・文書d2信頼度a2 を取り出す。そして、下段に記載した下記のように表示
する。
【0048】(1) 信頼度の高いもの順に表示する。 (2) 信頼度の高いものn個だけ表示する。 (3) 信頼度の一番高いものは赤で表示、2位は黄色
で表示などする。
【0049】ここで、信頼度a1、a2などは、図5の
(b)で説明し確からしさと同等である。図12は、本
発明の漢字対応の認識説明図を示す。これは、原文書か
らスキャナで読み取った画像情報より文字認識を行うと
きのものである。ここでは、漢字の文字認識について説
明するが、同様にかな、ひらながなども文字認識すれば
よい。
【0050】図12の(a)は、文字“文”を画像情報
とした例を示す。図12の(b)は、特徴抽出を示す。
これは、線方法、線間、線密度についてそれぞれ特徴抽
出を図示のようにそれぞれ行う。
【0051】図12の(c)は、判定を行う様子を示
す。これは、図12の(b)で求めた特徴抽出した結果
と、予め求めておいたテンプレートとの差分を求め、そ
の差分が所定閾値以下のときに一致したとしてそのとき
のテンプレートの文字と認識する。また、その距離値D
は、図示のように、 として算出する。ここで、dijはテンプレート文字iの
特徴パターンiの値を表し、riは入力文字の特徴パター
ンiの値を表す。
【0052】
【発明の効果】以上説明したように、本発明によれば、
紙文書や紙文書から読み取った画像情報より文字認識し
て文字認識結果候補列を自動抽出し、この文字認識結果
候補列からキーワード候補を自動抽出し、更にこのキー
ワード候補から文字認識結果の信頼度や重要度や分野に
よってキーワードを自動選択する構成を採用しているた
め、紙文書や画像情報から自動的にキーワードを抽出す
ることができる。特に、文書中の文字の全てを正しく復
元しようとするものではないが、文書全体が正しく文字
認識されないような文書に対してもキーワードを抽出で
きる。また、キーワードを指定した検索指示に対応し
て、信頼度の大きい順に表示したり、先頭から所定個数
表示したり、あるいは色を変えて重要度を表示すること
で、文字認識結果の誤りによる雑音として余分に検索さ
れてしまう文書を容易に見分けることが可能である。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の動作説明フローチャートである。
【図3】本発明の原文書のイメージ図である。
【図4】本発明のキーワード候補の抽出説明図である。
【図5】本発明の距離の説明図である。
【図6】本発明の文字認識結果例である。
【図7】本発明の動作説明フローチャート(位置)であ
る。
【図8】本発明の重要度の説明図である。
【図9】本発明の動作説明フローチャート(分野)であ
る。
【図10】本発明の分野特徴ベクトルの説明図である。
【図11】本発明の表示文書選択説明図である。
【図12】本発明の漢字対応の認識説明図である。
【符号の説明】
1:文字認識部 2:キーワード抽出部 21:単語辞書 3:キーワード選択部 4:文書構造判定部 5:テーマ判定部 6:キーワード付ファイル 7:検索/表示部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】文書の画像情報からキーワードを抽出する
    キーワード抽出・検索装置において、 原文書の画像情報から文字認識して文字認識結果候補列
    を生成する文字認識部(1)と、 この文字認識結果候補列からキーワード候補を抽出する
    キーワード抽出部(2)と、 各キーワード候補の信頼度を求めて所定閾値以上をキー
    ワードとして選択するキーワード選択部(3)とを備え
    たことを特徴とするキーワード抽出・検索装置。
  2. 【請求項2】文書の画像情報からキーワードを抽出する
    キーワード抽出・検索装置において、 原文書の画像情報から文字認識して文字認識結果候補列
    を生成する文字認識部(1)と、 この文字認識結果候補列からキーワード候補を抽出する
    キーワード抽出部(2)と、 各キーワード候補の原文書中の位置に対応する重要度が
    所定値以上のときにキーワードとして選択するキーワー
    ド選択部(3)とを備えたことを特徴とするキーワード
    抽出・検索装置。
  3. 【請求項3】文書の画像情報からキーワードを抽出する
    キーワード抽出・検索装置において、 原文書の画像情報から文字認識して文字認識結果候補列
    を生成する文字認識部(1)と、 この文字認識結果候補列からキーワード候補を抽出する
    キーワード抽出部(2)と、 各キーワード候補の分野特徴ベクトルから求めた文書全
    体の分野特徴ベクトルに対して、各キーワード候補の分
    野特徴ベクトルが所定範囲内に納まったときにキーワー
    ドとして選択するキーワード選択部(3)とを備えたこ
    とを特徴とするキーワード抽出・検索装置。
  4. 【請求項4】上記請求項1から請求項3によって選択さ
    れたキーワードを原文書の画像情報に付加して登録する
    キーワード付ファイル(6)を備えたことを特徴とする
    キーワード抽出・検索装置。
  5. 【請求項5】キーワードあるいはキーワード群を指定し
    た検索指示に対応して、上記キーワード付ファイル
    (6)から検索指示されたキーワードの全部および一部
    が一致するキーワードを取り出し、その信頼度を算出し
    て大きい順にキーワードに対応する画像情報を並べて表
    示、先頭から所定個数のみを表示、あるいは色マークを
    変えて順次表示する検索/表示部(7)を備えたことを
    特徴とするキーワード抽出・検索装置。
JP6106528A 1994-05-20 1994-05-20 キーワード抽出・検索装置 Pending JPH07319880A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6106528A JPH07319880A (ja) 1994-05-20 1994-05-20 キーワード抽出・検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6106528A JPH07319880A (ja) 1994-05-20 1994-05-20 キーワード抽出・検索装置

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2003336621A Division JP2004030695A (ja) 2003-09-29 2003-09-29 キーワード抽出・検索装置
JP2003336622A Division JP2004005761A (ja) 2003-09-29 2003-09-29 キーワード抽出・検索装置

Publications (1)

Publication Number Publication Date
JPH07319880A true JPH07319880A (ja) 1995-12-08

Family

ID=14435899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6106528A Pending JPH07319880A (ja) 1994-05-20 1994-05-20 キーワード抽出・検索装置

Country Status (1)

Country Link
JP (1) JPH07319880A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272707A (ja) * 1998-03-26 1999-10-08 Sharp Corp 情報処理システム
JP2002183165A (ja) * 2000-12-08 2002-06-28 Ricoh Co Ltd デジタル複合機および文書格納システム
JP2006277089A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd ドキュメント処理装置
WO2008015907A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation Dispositif, procédé et programme d'exploration de texte
JP2011034230A (ja) * 2009-07-30 2011-02-17 Rakuten Inc 画像検索エンジン

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0492973A (ja) * 1990-08-06 1992-03-25 Fujitsu Ltd イメージ情報登録検索装置
JPH04232570A (ja) * 1990-12-28 1992-08-20 Fuji Electric Co Ltd キーワード検索方法
JPH052661A (ja) * 1991-06-25 1993-01-08 Mitsubishi Electric Corp 単語読取装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0492973A (ja) * 1990-08-06 1992-03-25 Fujitsu Ltd イメージ情報登録検索装置
JPH04232570A (ja) * 1990-12-28 1992-08-20 Fuji Electric Co Ltd キーワード検索方法
JPH052661A (ja) * 1991-06-25 1993-01-08 Mitsubishi Electric Corp 単語読取装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272707A (ja) * 1998-03-26 1999-10-08 Sharp Corp 情報処理システム
JP2002183165A (ja) * 2000-12-08 2002-06-28 Ricoh Co Ltd デジタル複合機および文書格納システム
JP4695255B2 (ja) * 2000-12-08 2011-06-08 株式会社リコー デジタル複合機
JP2006277089A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd ドキュメント処理装置
JP4682663B2 (ja) * 2005-03-28 2011-05-11 富士ゼロックス株式会社 ドキュメント処理装置
WO2008015907A1 (fr) * 2006-08-03 2008-02-07 Nec Corporation Dispositif, procédé et programme d'exploration de texte
US8140337B2 (en) 2006-08-03 2012-03-20 Nec Corporation Apparatus, method and program for text mining
JP2011034230A (ja) * 2009-07-30 2011-02-17 Rakuten Inc 画像検索エンジン

Similar Documents

Publication Publication Date Title
US6341176B1 (en) Method and apparatus for character recognition
KR100339446B1 (ko) 주소 인식 장치 및 주소 인식 방법
US8208765B2 (en) Search and retrieval of documents indexed by optical character recognition
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
Chaudhuri et al. A complete printed Bangla OCR system
JP4740916B2 (ja) 画像文書処理装置、画像文書処理プログラムおよび画像文書処理プログラムを記録した記録媒体
US6470336B1 (en) Document image search device and recording medium having document search program stored thereon
KR100412317B1 (ko) 문자인식/수정방법및장치
JP2713622B2 (ja) 表形式文書読取装置
JP2002312385A (ja) 文書自動分割装置
JP2000182064A (ja) ドキュメント処理システム及びインデックス情報獲得方法
JP4280355B2 (ja) 文字認識装置
JP2009176264A (ja) 画像文書処理装置および画像文書処理方法
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JPH07319880A (ja) キーワード抽出・検索装置
JP2004005761A (ja) キーワード抽出・検索装置
Lu et al. Word searching in document images using word portion matching
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP2004030695A (ja) キーワード抽出・検索装置
Al-Barhamtoshy et al. Arabic OCR segmented-based system
JPH07282193A (ja) 表を含む帳票処理装置
JPH06223121A (ja) 情報検索装置
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JPH0728935A (ja) 文書画像処理装置
JPH07271921A (ja) 文字認識装置および文字認識方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20031204

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040128

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040220