JP2004005761A - キーワード抽出・検索装置 - Google Patents

キーワード抽出・検索装置 Download PDF

Info

Publication number
JP2004005761A
JP2004005761A JP2003336622A JP2003336622A JP2004005761A JP 2004005761 A JP2004005761 A JP 2004005761A JP 2003336622 A JP2003336622 A JP 2003336622A JP 2003336622 A JP2003336622 A JP 2003336622A JP 2004005761 A JP2004005761 A JP 2004005761A
Authority
JP
Japan
Prior art keywords
keyword
character recognition
image information
character
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003336622A
Other languages
English (en)
Inventor
Fumito Nishino
西野 文人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003336622A priority Critical patent/JP2004005761A/ja
Publication of JP2004005761A publication Critical patent/JP2004005761A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【目的】本発明は、文書の画像情報からキーワードを抽出するキーワード抽出・検索装置に関し、紀文書や紙文書から読み取った画像情報から文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から信頼度や重要度や分野によってキーワードを自動選択し、紀文書や画像情報から自動的にキーワード抽出を行ったりなどすることを目的とする。
【構成】 原文書の画像情報から文字認識して文字認識結果候補列を生成する文字認識部と、文字認識結果候補列について単語辞書を検索して一致するものを、あるいは個々の前記文字認識結果候補列の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補として抽出するキーワード抽出部と、各キーワード候補の原文書中の位置に対応する重要度が所定閾値以上のときにキーワードとして選択するキーワード選択部とを備える。
【選択図】    図1

Description

 本発明は、文書の画像情報からキーワードを抽出するキーワード抽出・検索装置であって、紙文書やこれをスキャナで読み取った画像ファイルからキーワードを自動抽出および検索するキーワード抽出・検索装置に関するものである。
 氾濫する紙文書を電子化して格納したいという要求がある。紙文書を単に画像情報として電子化しただけでは、後でその文書を検索しようとした時に高速な検索が望めない。予め文書に対してキーワードを自動抽出して付加しておくことが望まれている。
 従来、画像情報からキーワードを認識して登録を行う手法が種々考えられている。
 文書中のキーワードとすべき部分をマークづけてしておき、そのマーク部分の文字認識を行ってキーワード登録する。
 また、文書イメージを図面領域と文書領域とに予め分割し、文書領域について文字認識を行ってキーワード登録する。
 例えば特許文献1や特許文献2には、画像情報について文字認識を行うことにより検索用キーワードを得る手段が述べられている。キーワード位置はオペレータが指定する必要があると共に、文字認識結果をオペレータが必要に応じて修正を行ってからキーワード登録を行うことが示されている。
特開昭58−125222号公報 特開昭58−125223号公報
 上述した従来の紙文書からキーワードを認識して登録を行う場合、予めキーワ−ドとして抽出する部分にマークを付与する必要があったり、あるいはキーワードを抽出する文書領域を予め指定する必要があったり、更にこれら指定した部分あるいは文書領域から文字認識したキーワードについてオペレータが確認・修正する手間が生じてしまい、手間がかかると共に紙文書からキーワードを自動抽出できないという問題があった。
 図1は、本発明の原理構成図を示す。
 図1において、文字認識部1は、原文書の画像情報から文字認識して文字認識結果候補列を生成するものである。
 キーワード抽出部2は、文字認識結果候補列からキーワード候補を抽出するものである。
 キーワード選択部3は、各キーワード候補の信頼度を求めて所定闇値以上をキーワードとして選択したり、各キーワード候補の原文書中の位置に対応する重要度が所定値以上のときにキーワードとして選択したり、各キーワード候補の分野特徴ベクトルから求めた文書全体の分野特徴ベクトルに対して各キーワード候補の分野特徴ベクトルが所定範囲内に納まったときにキーワードとして選択したりするものである。
 キーワード付ファイル6は、選択されたキーワードを原文書の画像情報に付加して登録したものである。
 検索/表示部7は、キーワードあるいはキーワード群を指定した検索指示に対応して、キーワード付ファイル6から検索指示されたキーワードの全部あるいは一部が一致するキーワードを持つファイルを取り出し、その検索指示されたキーワード群と検索されたファイルの持つキーワード信頼度とから検索指示とファイルとの信頼度を算出して信頼度の大きい順に検索指示に対応する画像情報を並べて表示したり、先頭から所定個数のみを表示したり、あるいは色マークを変えて順次表示したりするものである。
 本発明は、図1に示すように、文字認識部1が原文書の画像情報から文字認識して文字認識結果候補列を生成し、キーワード抽出部2が文字認識結果候補列からキーワード候補を抽出し、キーワード選択部3が各キーワード候補の信頼度を求めて所定閾値以上をキーワードとして選択するようにしている。
 また、文字認識部1が原文書の画像情報から文字認識して文字認識結果候補列を生成し、キーワード抽出部2が文字認識結果候補列からキーワード候補を抽出し、キーワード選択部3が各キーワード候補の原文書中の位置に対応する重要度が所定値以上のときにキーワードとして選択するようにしている。
 また、文字認識部1が原文書の画像情報から文字認識して文字認識結果候補列を生成し、キーワード抽出部2が文字認識結果候補列からキーワード候補を抽出し、キーワード選択部3が各キーワード候補の分野特徴ベクトルから求めた文書全体の分野特徴ベクトルに対して各キーワード候補の分野特徴ベクトルが所定範囲内に納まったときにキーワードとして選択するようにしている。
 また、選択されたキーワードを原文書の画像情報に付加してキーワード付ファイル6に登録するようにしている。
 また、キーワードを指定した検索指示に対応して、検索/表示部7がキーワード付ファイル6から検索指示されたキーワードの全部あるいは一部の一致するファイルを見つけ、その信頼度を算出して信頼度の大きい順にキーワードに対応する画像情報を並べて表示したり、先頭から所定個数のみを表示したり、あるいは色マークを変えて順次表示したりするようにしている。
 従って、紙文書や紙文書から読み取った画像情報より文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識の信頼度や重要度や分野によってキーワードを自動選択することにより、紙文書や画像情報から自動的にキーワードを抽出することが可能となった。また、キーワードを指定した検索指示に対応して、信頼度の大きい順に表示、先頭から所定個数表示、あるいは色を変えて表示したりすることが可能となった。
 本願発明は、紙文書や紙文書から読み取った画像情報より文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識結果の信頼度や重要度や分野によってキーワードを自動選択する構成を採用しているため、紙文書や画像情報から自動的にキーワードを抽出することができる。特に、文書中の文字の全てを正しく復元しようとするものではないが、文書全体が正しく文字認識されないような文書に対してもキーワードを抽出できる。また、キー
ワードを指定した検索指示に対応して、信頼度の大きい順に表示したり、先頭から所定個数表示したり、あるいは色を変えて重要度を表示することで、文字認識結果の誤りによる雑音として余分に検索されてしまう文書を容易に見分けることが可能となる。
 本発明は、これらの問題を解決するため、紙文書や紙文書から読み取った画像情報から文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識結果の信頼度や重要度や分野によってキーワードを自動選択し、紙文書や画像情報から自動的にキーワード抽出を行ったりすることを実現した。
 次に、図2から図12を用いて本発明の実施例の構成および動作を順次詳細に説明する。
 図2は、本発明の動作説明フローチャートを示す。
 図2において、Slは、原文書を入力する。これは、紙に印刷された文書をスキャナで読み取った画像情報、例えば後述する図3の原文書をスキャナで読み取った画像情報を入力する。
 S2は、テキスト領域の抽出する。これは、S1で原文書から読み取った画像情報のうち、ドットが存在する領域をテキスト領域として抽出する。このテキスト領域には、文字のドットイメージおよび文字以外の記号などのドットイメージも含まれる。
 S3は、文字認識する。これは、S2で抽出したテキスト領域から文字認識を行う。即ちテキスト領域のドットイメージについて、予め作成しておいた文字のドットイメージ(あるいはテンプレート)と照合して一致したときにその一致した文字イメージの文字コードと文字認識し、一致したものがないときは文字以外のドットイメージとして文字コードの抽出しない。
 S4は、S3で文字認識されたものを、文字認識結果候補列とする。
 以上のSlからS4によって、原文書から読み取った画像情報からドットイメージの存在する部分をテキスト領域と見なして予め作成しておいた文字のドットイメージ(テンプレート)と照合を行い、一致したときの文字コードを文字認識結果候補列として抽出できたこととなる。
 S5は、単語辞書からの単語の取り出しを行う。
 S6は、文字認識結果候補列の中に存在するかを判定して、あるものだけを残す。これは、S5で単語辞書から順次取り出した単語と、SlからS4で抽出した文字認識結果候補列との照合を行い、一致したもののみを残す。
 S7は、S6で残したものをキーワード候補とする。尚、図5の(a)に示すように、個々の文字認識結果候補の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補とするようにしてもよい。
 以上のS5およびS6によって、文字認識結果候補列と単語辞書の単語とを照合して一致したものをキーワード候補と決定する。
 S8は、キーワード候補の信頼度をもとにキーワードの自動選択する。これは、キーワード候補について、例えば後述する図5の(b)に示すように、図6を参照してキーワード候補の信頼度を求め、その信頼度が所定閾値よりも大きいときにキーワードとして選択する。
 S9は、S8で選択されたキーワードを出力する。そして、このキーワードを原文書の画像情報に付加してキーワード付ファイル6に登録する。
 以上によって、原文書から読み取った画像情報より文字認識を行って文字認識結果候補列を生成し、この文字認識結果候補列について単語辞書の単語と照合して一致したものをキーワード候補とし、このキーワード候補についてキーワードの信頼度を求めて所定閾値以上のものをキーワードと決定し、原文書の画像情報にこのキーワードを付加し、キーワード付ファイル6に登録する。これにより、原文書の画像情報から自動的に文字認識結果候補列、キーワード候補、更にキーワードを自動抽出して原文書の画像情報に付加し、キーワード付ファイル6に自動登録することが可能となった。
 図3は、本発明の原文書のイメージ図を示す。これは、原文書中に存在するテキスト部(文字が存在する領域)、図表部(図形が存在する領域)、およびテキスト領域(文字が存在する領域)である。これら文字や図形などが存在してドットイメージがある部分を、本実施例では全てテキスト領域として文字認識の対象としている。従って、ここでは、テキスト部および図表部の両者がテキスト領域と見なし、文字認識の対象とする。図表の部分から文字が認識されないだけである。
 図4は、本発明のキーワード候補の抽出説明図を示す。これは、単語辞書21中に図示のように単語“文字”、”文学”、”文献”などが登録されており、これらを取り出す。そして、図2のS4で文字認識した文字認識結果候補列と、これら取り出した単語とを照合して一致したものがあったときにその単語をキーワ−ド候補(例えば”文字”、”文学”)と決定する。
 図5は、本発明の信頼度の説明図を示す。
 図5の(a)は、文字認識における確からしさの場合の信頼度を示す。ここで、文字認識では、例えば入力文字と辞書中のテンプレート文字の特徴ベクトル間の距離をもとに、各文字認識結果の文字の信頼度を計算する。確率的な計算式を使って求めることが普通であるが、ここでは、単純に距離値のものを使って説明する。従って値が小さいものほど確からしいと判断する。例えば図6を参照して図示の下記のように文字認識結果の文字の確からしさを算出する。
  ・3文字めが“文”である確からしさ 1141
  ・4文字めが”字”である確からしさ 1105
  ・4文字めが”学”である確からしさ 1387
 これら値は、図6の○1から”3文字めが”文”である確からしさ”1141”が算出される。同様に、図6の○2、○3から確からしさ”1105”、”1387””がそれぞれ算出される。
 以上のようにして算出した文字の値が小さい程、確からしさが増すので、予め定めた値以下のもの、あるいは値の最も小さい先頭のものを文字認識結果候補列と決定する。尚、これら距離は、後述する図12に示すように、文字のドットイメージを所定方向に投影しときのテンプレートのものと入力字形のものとの差を積分したものである。
 図5の(b)は、キーワード候補の確からしさの場合の値を示す。ここでは、例として、構成文字の値の平均値の値が小さいはど確からしいと判断する。例えば図6を参照して図示の下記のように値を算出する。
  ・キーワード候補“文字”の確からしさ
           (1141+1105)/2=1123
  ・キーワード候補“文学”の確からしさ
           (1141+1387)/2=1264
 これら値は、図6の(○1から“3文字めが”文”である確からしさ“1141”が算出される。同様に、図6の○3から値”1387”が算出される。そして、これらの平均(和を2で除算した値)を値とする。
 図5の(c)は、適当な閾値でキーワード候補を絞る例を示す。これは、図5の(b)によって算出した値が適当な閾値以下例えば1250以下をキーワードとすれば、図5の(b)で算出した値のうち“1264”の”文学”がキーワード候補から外れ、結果として値“1123”のキーワード“文字”のみが残り、これをキーワードと決定する。
 図6は、本発明の文字認識結果例を示す。ここで、縦方向の1文字目、2文字目、3文字目、4文字目・・・が認識対象の文字を表し、その横の数字が値を表す。また、横方向の1位、2位、3位・・・は値の小さい順に文字認識されたときの文字を表す。例えば4文字目の1位の‘‘字”の値は”1105”(○2)であり、4位の“学”の値は”1387”(○3)と算出されたものである。以下同様に図示のように文字認識によって各値を算出したものである。
 図7は、本発明の動作説明フローチャート(位置)を示す。これは、原文書中の位置(タイトル、日付、シグニチャなど)に対応して重要度を判定したものである。ここで、(A)、(B)、(C)は、図2の対応する記号を表し、(A)は図2のS1につづいて処理を行う。(B)は図2のS7のキーワード候補の情報を受け取り、処理を進める。更に、(C)は図7のS14で自動選択したキーワードを図2のS9のキーワードと決定する。
 図7において、S11は、テキストブロックの位置の認識を行う。これは、右側に記載したように、例えばテキストブロック矩形の位置(x1,y1)、(x2,y2)の認識、即ち図8の上から横方向に順次走査し、ドットイメージの現れた領域の左上の座標(x1,y1)および右下の座標(x2,y2)を求める。
 S12は、テキストブロックの役割判定する。これは、右側に記載したように、S11で位置を認識したテキストブロックの役割として、例えばタイトル、日付、シグニチャなどのいずれに該当するかの役割を認識する。
 S13は、キーワード候補がいずれのテキストブロックに属するかによってキーワード候補の重要度を判定する。例えばキーワード候補が存在するテキストブロックがタイトルのときに重要度が高いと判定する。
 S14は、キーワード候補の重要度によってキーワードを自動選択する。これは、S13でキーワード候補が属するテキストブロックに対応して重要度をそれぞれ判明したので、そのうちの重要度が高いキーワード候補をキーワードと選択する。そして、図2の(C)に戻り、S9でキーワードを決定し、画像情報に当該キーワードを付加してキーワード付ファイル6に登録する。
 以上によって、原文書中のテキストブロックの位置の重要度が高いもののキーワード候補をキーワードと自動選択することにより、キーワード候補から原文書中の重要度の高い位置をもとにキーワードを決定することが可能となる。
 図8は、本発明の重要度の説明図を示す。これは、原文書中のテキストブロックの位置を左上の座標および右下の座標によってそれぞれ表す。このテキストブロックのうち、重要度の高い順にキーワード候補からキーワードを自動選択する。ここでは、重要度は例えばタイトル、本文、日付、シグニチャの順に高いとする。
 図9は、本発明の動作説明フローチャート(分野)を示す。これは、各キーワード候補の分野特徴ベクトルの総和の文書全体の分野特徴ベクトルと、各キーワ−ド候補の分野特徴ベクトルとを比較し、キーワード候補の分野特徴ベクトルが大きく異なるときに除外し、残りのものをキーワードと自動選択するものである。ここで、(B)、(C)は、図2の対応する記号を表す。(B)は図2のS7のキーワード候補の情報を受け取り、処理を進める。(C)は図9のS23で自動選択したキーワードを図2のS9のキーワードと決定する。
 図9において、S21は、各キーワード候補の分野特徴ベクトルを求める。これは、右側に記載したように、
  ・キーワード候補1の分野特徴ベクトル:v1
  ・キーワード候補2の分野特徴ベクトル:v2
と求める。例えば後述する図10に示すように、分野(文学、化学、機械、物理、情報、経済など)毎のそれぞれの値を持つ分野特徴ベクトルを求める。
 S22は、各キーワード候補の分野特徴ベクトルから文書全体の分野特徴ベクトルを求める。これは、右側に記載したように、文書全体の分野特徴ベクトルとして、
   V=v1+v2・・・
といように、ベクトル和を求める。
 S23は、各キーワードの分野特徴ベクトルと文書全体の分野特徴ベクトルとを比較し、ベクトルの方向が大きく異なる分野特徴ベクトルを持つキーワード候補を捨てる。これは、右側に記載したように、各キーワードの分野特徴ベクトルと文書全体の分野特徴ベクトルとの内積を求めそれぞれのベクトルの大きさで割ったもの(cosθ)が閾値よりも小さいものを捨てる。そして、残ったキーワード候補を図2の(C)に続くS9によってキーワードと決定する。このキーワードを原文書の画像情報に付加してキーワード付ファイル6に登録する。
 以上によって、キーワード候補の分野特徴ベクトルと、文書全体の分野特徴ベクトルとを比較し、ベクトルの方向が所定閾値以上異なる場合に捨て、残ったキーワード候補をキーワードと決定し、画像情報に付加してキーワード付ファイル6に登録する。これにより、キーワード候補から分野特徴ベクトルをもとに自動選択することが可能となる。
 図10は、本発明の分野特徴ベクトルの説明図を示す。ここで、横軸は分野(化学、機械、物理、情報、経済など)を表し、縦軸はそのときの分野特徴ベクトルの大きさを表す。例えば点線で表したキーワード候補”アルコール”の分野特徴ベクトルは、図示のように、化学、経済の分野でその値が大きく、物理、情報の分野でその値が小さい。一方、実線で表したキーワード候補”文学”の分野特徴ベクトルは、図示のように、情報の分野でその値が大きく、他の分野ではその値が小さい。
 図11は、本発明の表示文書選択説明図を示す。これは、キーワードklを指定した検索指示に対応して、キーワード付ファイル6を検索し、検索結果として図示の
  ・文書d1信頼度a1
  ・文書d2信頼度a2
を取り出す。そして、下段に記載した下記のように表示する。
 (1)信頼度の高いもの順に表示する。
 (2)信頼度の高いものn個だけ表示する。
 (3)信頼度の一番高いものは赤で表示、2位は黄色で表示などする。
 ここで、信頼度a1、a2などは、図5の(b)で説明し確からしさと同等である。
 図12は、本発明の漢字対応の認識説明図を示す。これは、原文書からスキャナで読み取った画像情報より文字認識を行うときのものである。ここでは、漢字の文字認識について説明するが、同様にかな、ひらながなども文字認識すればよい。
 図12の(a)は、文字”文”を画像情報とした例を示す。
 図12の(b)は、特徴抽出を示す。これは、線方法、線問、線密度にについてそれぞれ特徴抽出を図示のようにそれぞれ行う。
 図12の(c)は、判定を行う様子を示す。これは、図12の(b)で求めた特徴抽出した結果と、予め求めておいたテンプレートとの差分を求め、その差分が所定閾値以下のときに一致したとしてそのときのテンプレートの文字と認識する。また、その距離値Dは、下記のように、
Figure 2004005761
として算出する。ここで、dijはテンプレート文字iの特徴パターンiの値を表し、riは入力文字の特徴パターンiの値を表す。
 本発明は、紙文書や紙文書から読み取った画像情報から文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識結果の信頼度や重要度や分野によってキーワードを自動選択し、紙文書や画像情報から自動的にキーワード抽出を行うことが可能となる。
本発明の原理構成図である。 本発明の動作説明フローチャートである。 本発明の原文書のイメージ図である。 本発明のキーワード候補の抽出説明図である。 本発明の距離の説明図である。 本発明の文字認識結果例である。 本発明の動作説明フローチャート(位置)である。 本発明の重要度の説明図である。 本発明の動作説明フローチャート(分野)である。 本発明の分野特徴ベクトルの説明図である。 本発明の表示文書選択説明図である。 本発明の漢字対応の認識説明図である。
符号の説明
1:文字認識部
2:キーワード抽出部
21:単語辞書
3:キーワード選択部
4:文書構造判定部
5:テーマ判定部
6:キーワード付ファイル
7:検索/表示部

Claims (3)

  1.  文書の画像情報からキーワードを抽出するキーワード抽出・検索装置において、
     原文書の画像情報から文字認識して文字認識結果候補列を生成する文字認識部と、
     前記文字認識結果候補列について単語辞書を検索して一致するものを、あるいは個々の前記文字認識結果候補列の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補として抽出するキーワード抽出部と、
     各キーワード候補の原文書中の位置に対応する重要度が所定閾値以上のときにキーワードとして選択するキーワード選択部と
    を備えたことを特徴とするキーワード抽出・検索装置。
  2.  前記選択されたキーワードを原文書の画像情報に付加して登録するキーワード付ファイルを備えたことを特徴とする請求項1に記載のキーワード抽出・検索装置。
  3.  キーワードあるいはキーワード群を指定した検索指示に対応して、前記キーワード付ファイルから検索指示されたキーワードの全部および一部が一致するキーワードを取り出し、その信頼度を算出して大きい順にキーワードに対応する画像情報を並べて表示、先頭から所定個数のみを表示、あるいは色マークを変えて順次表示する検索/表示部を備えたことを特徴とする請求項1あるいは請求項2に記載のキーワード抽出・検索装置。

JP2003336622A 2003-09-29 2003-09-29 キーワード抽出・検索装置 Pending JP2004005761A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003336622A JP2004005761A (ja) 2003-09-29 2003-09-29 キーワード抽出・検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003336622A JP2004005761A (ja) 2003-09-29 2003-09-29 キーワード抽出・検索装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP6106528A Division JPH07319880A (ja) 1994-05-20 1994-05-20 キーワード抽出・検索装置

Publications (1)

Publication Number Publication Date
JP2004005761A true JP2004005761A (ja) 2004-01-08

Family

ID=30439142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003336622A Pending JP2004005761A (ja) 2003-09-29 2003-09-29 キーワード抽出・検索装置

Country Status (1)

Country Link
JP (1) JP2004005761A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792699B1 (ko) 2006-03-17 2008-01-11 엔에이치엔(주) 일반 추천어 및 광고 추천어 자동완성 방법 및 시스템
JP2008262506A (ja) * 2007-04-13 2008-10-30 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラム
JPWO2007057945A1 (ja) * 2005-11-15 2009-04-30 国立大学法人佐賀大学 文書管理装置、そのプログラム及びそのシステム
US9043299B2 (en) 2006-08-28 2015-05-26 A Ja U Majandustarkvara Ou System for image storing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0492973A (ja) * 1990-08-06 1992-03-25 Fujitsu Ltd イメージ情報登録検索装置
JPH052661A (ja) * 1991-06-25 1993-01-08 Mitsubishi Electric Corp 単語読取装置
JPH064717A (ja) * 1992-06-19 1994-01-14 Pfu Ltd 漢字住所補正処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0492973A (ja) * 1990-08-06 1992-03-25 Fujitsu Ltd イメージ情報登録検索装置
JPH052661A (ja) * 1991-06-25 1993-01-08 Mitsubishi Electric Corp 単語読取装置
JPH064717A (ja) * 1992-06-19 1994-01-14 Pfu Ltd 漢字住所補正処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2007057945A1 (ja) * 2005-11-15 2009-04-30 国立大学法人佐賀大学 文書管理装置、そのプログラム及びそのシステム
JP4734662B2 (ja) * 2005-11-15 2011-07-27 国立大学法人佐賀大学 文書管理装置、そのプログラム及びそのシステム
KR100792699B1 (ko) 2006-03-17 2008-01-11 엔에이치엔(주) 일반 추천어 및 광고 추천어 자동완성 방법 및 시스템
US9043299B2 (en) 2006-08-28 2015-05-26 A Ja U Majandustarkvara Ou System for image storing
JP2008262506A (ja) * 2007-04-13 2008-10-30 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラム

Similar Documents

Publication Publication Date Title
KR100339446B1 (ko) 주소 인식 장치 및 주소 인식 방법
KR100292098B1 (ko) 문자 인식 장치 및 방법
EP2015228B1 (en) Retrieving electronic documents by converting them to synthetic text
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
JP2713622B2 (ja) 表形式文書読取装置
KR100412317B1 (ko) 문자인식/수정방법및장치
US20120066213A1 (en) Information processing apparatus, information processing method, and computer program product
US10140556B2 (en) Arabic optical character recognition method using hidden markov models and decision trees
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JPH0684006A (ja) オンライン手書き文字認識方法
JP2000315247A (ja) 文字認識装置
Naz et al. Arabic script based character segmentation: a review
JP2004005761A (ja) キーワード抽出・検索装置
JP2021047693A (ja) 情報処理装置及びプログラム
Marinai Text retrieval from early printed books
JPH07319880A (ja) キーワード抽出・検索装置
JP2004030695A (ja) キーワード抽出・検索装置
Malik A Graph Based Approach for Handwritten Devanagri Word Recogntion
Lu et al. Word searching in document images using word portion matching
US9483694B2 (en) Image text search and retrieval system
JP2586372B2 (ja) 情報検索装置及び情報検索方法
Al-Barhamtoshy et al. Arabic OCR segmented-based system
JP2021047704A (ja) 情報処理装置及びプログラム
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
Lamb et al. Predicting the Ordering of Characters in Japanese Historical Documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040712

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040810

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041012

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041020

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20041119