JP2004005761A

JP2004005761A - キーワード抽出・検索装置

Info

Publication number: JP2004005761A
Application number: JP2003336622A
Authority: JP
Inventors: Fumito Nishino; 西野　文人
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-09-29
Filing date: 2003-09-29
Publication date: 2004-01-08

Abstract

【目的】本発明は、文書の画像情報からキーワードを抽出するキーワード抽出・検索装置に関し、紀文書や紙文書から読み取った画像情報から文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から信頼度や重要度や分野によってキーワードを自動選択し、紀文書や画像情報から自動的にキーワード抽出を行ったりなどすることを目的とする。
【構成】　原文書の画像情報から文字認識して文字認識結果候補列を生成する文字認識部と、文字認識結果候補列について単語辞書を検索して一致するものを、あるいは個々の前記文字認識結果候補列の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補として抽出するキーワード抽出部と、各キーワード候補の原文書中の位置に対応する重要度が所定閾値以上のときにキーワードとして選択するキーワード選択部とを備える。
【選択図】　　　　図１

Description

　本発明は、文書の画像情報からキーワードを抽出するキーワード抽出・検索装置であって、紙文書やこれをスキャナで読み取った画像ファイルからキーワードを自動抽出および検索するキーワード抽出・検索装置に関するものである。

　氾濫する紙文書を電子化して格納したいという要求がある。紙文書を単に画像情報として電子化しただけでは、後でその文書を検索しようとした時に高速な検索が望めない。予め文書に対してキーワードを自動抽出して付加しておくことが望まれている。

　従来、画像情報からキーワードを認識して登録を行う手法が種々考えられている。

　文書中のキーワードとすべき部分をマークづけてしておき、そのマーク部分の文字認識を行ってキーワード登録する。

　また、文書イメージを図面領域と文書領域とに予め分割し、文書領域について文字認識を行ってキーワード登録する。

　例えば特許文献１や特許文献２には、画像情報について文字認識を行うことにより検索用キーワードを得る手段が述べられている。キーワード位置はオペレータが指定する必要があると共に、文字認識結果をオペレータが必要に応じて修正を行ってからキーワード登録を行うことが示されている。
特開昭５８−１２５２２２号公報特開昭５８−１２５２２３号公報

　上述した従来の紙文書からキーワードを認識して登録を行う場合、予めキーワ−ドとして抽出する部分にマークを付与する必要があったり、あるいはキーワードを抽出する文書領域を予め指定する必要があったり、更にこれら指定した部分あるいは文書領域から文字認識したキーワードについてオペレータが確認・修正する手間が生じてしまい、手間がかかると共に紙文書からキーワードを自動抽出できないという問題があった。

　図１は、本発明の原理構成図を示す。

　図１において、文字認識部１は、原文書の画像情報から文字認識して文字認識結果候補列を生成するものである。

　キーワード抽出部２は、文字認識結果候補列からキーワード候補を抽出するものである。

　キーワード選択部３は、各キーワード候補の信頼度を求めて所定闇値以上をキーワードとして選択したり、各キーワード候補の原文書中の位置に対応する重要度が所定値以上のときにキーワードとして選択したり、各キーワード候補の分野特徴ベクトルから求めた文書全体の分野特徴ベクトルに対して各キーワード候補の分野特徴ベクトルが所定範囲内に納まったときにキーワードとして選択したりするものである。

　キーワード付ファイル６は、選択されたキーワードを原文書の画像情報に付加して登録したものである。

　検索／表示部７は、キーワードあるいはキーワード群を指定した検索指示に対応して、キーワード付ファイル６から検索指示されたキーワードの全部あるいは一部が一致するキーワードを持つファイルを取り出し、その検索指示されたキーワード群と検索されたファイルの持つキーワード信頼度とから検索指示とファイルとの信頼度を算出して信頼度の大きい順に検索指示に対応する画像情報を並べて表示したり、先頭から所定個数のみを表示したり、あるいは色マークを変えて順次表示したりするものである。

　本発明は、図１に示すように、文字認識部１が原文書の画像情報から文字認識して文字認識結果候補列を生成し、キーワード抽出部２が文字認識結果候補列からキーワード候補を抽出し、キーワード選択部３が各キーワード候補の信頼度を求めて所定閾値以上をキーワードとして選択するようにしている。

　また、文字認識部１が原文書の画像情報から文字認識して文字認識結果候補列を生成し、キーワード抽出部２が文字認識結果候補列からキーワード候補を抽出し、キーワード選択部３が各キーワード候補の原文書中の位置に対応する重要度が所定値以上のときにキーワードとして選択するようにしている。

　また、文字認識部１が原文書の画像情報から文字認識して文字認識結果候補列を生成し、キーワード抽出部２が文字認識結果候補列からキーワード候補を抽出し、キーワード選択部３が各キーワード候補の分野特徴ベクトルから求めた文書全体の分野特徴ベクトルに対して各キーワード候補の分野特徴ベクトルが所定範囲内に納まったときにキーワードとして選択するようにしている。

　また、選択されたキーワードを原文書の画像情報に付加してキーワード付ファイル６に登録するようにしている。

　また、キーワードを指定した検索指示に対応して、検索／表示部７がキーワード付ファイル６から検索指示されたキーワードの全部あるいは一部の一致するファイルを見つけ、その信頼度を算出して信頼度の大きい順にキーワードに対応する画像情報を並べて表示したり、先頭から所定個数のみを表示したり、あるいは色マークを変えて順次表示したりするようにしている。

　従って、紙文書や紙文書から読み取った画像情報より文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識の信頼度や重要度や分野によってキーワードを自動選択することにより、紙文書や画像情報から自動的にキーワードを抽出することが可能となった。また、キーワードを指定した検索指示に対応して、信頼度の大きい順に表示、先頭から所定個数表示、あるいは色を変えて表示したりすることが可能となった。

　本願発明は、紙文書や紙文書から読み取った画像情報より文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識結果の信頼度や重要度や分野によってキーワードを自動選択する構成を採用しているため、紙文書や画像情報から自動的にキーワードを抽出することができる。特に、文書中の文字の全てを正しく復元しようとするものではないが、文書全体が正しく文字認識されないような文書に対してもキーワードを抽出できる。また、キー
ワードを指定した検索指示に対応して、信頼度の大きい順に表示したり、先頭から所定個数表示したり、あるいは色を変えて重要度を表示することで、文字認識結果の誤りによる雑音として余分に検索されてしまう文書を容易に見分けることが可能となる。

　本発明は、これらの問題を解決するため、紙文書や紙文書から読み取った画像情報から文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識結果の信頼度や重要度や分野によってキーワードを自動選択し、紙文書や画像情報から自動的にキーワード抽出を行ったりすることを実現した。

　次に、図２から図１２を用いて本発明の実施例の構成および動作を順次詳細に説明する。

　図２は、本発明の動作説明フローチャートを示す。

　図２において、Ｓｌは、原文書を入力する。これは、紙に印刷された文書をスキャナで読み取った画像情報、例えば後述する図３の原文書をスキャナで読み取った画像情報を入力する。

　Ｓ２は、テキスト領域の抽出する。これは、Ｓ１で原文書から読み取った画像情報のうち、ドットが存在する領域をテキスト領域として抽出する。このテキスト領域には、文字のドットイメージおよび文字以外の記号などのドットイメージも含まれる。

　Ｓ３は、文字認識する。これは、Ｓ２で抽出したテキスト領域から文字認識を行う。即ちテキスト領域のドットイメージについて、予め作成しておいた文字のドットイメージ（あるいはテンプレート）と照合して一致したときにその一致した文字イメージの文字コードと文字認識し、一致したものがないときは文字以外のドットイメージとして文字コードの抽出しない。

　Ｓ４は、Ｓ３で文字認識されたものを、文字認識結果候補列とする。

　以上のＳｌからＳ４によって、原文書から読み取った画像情報からドットイメージの存在する部分をテキスト領域と見なして予め作成しておいた文字のドットイメージ（テンプレート）と照合を行い、一致したときの文字コードを文字認識結果候補列として抽出できたこととなる。

　Ｓ５は、単語辞書からの単語の取り出しを行う。

　Ｓ６は、文字認識結果候補列の中に存在するかを判定して、あるものだけを残す。これは、Ｓ５で単語辞書から順次取り出した単語と、ＳｌからＳ４で抽出した文字認識結果候補列との照合を行い、一致したもののみを残す。

　Ｓ７は、Ｓ６で残したものをキーワード候補とする。尚、図５の（ａ）に示すように、個々の文字認識結果候補の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補とするようにしてもよい。

　以上のＳ５およびＳ６によって、文字認識結果候補列と単語辞書の単語とを照合して一致したものをキーワード候補と決定する。

　Ｓ８は、キーワード候補の信頼度をもとにキーワードの自動選択する。これは、キーワード候補について、例えば後述する図５の（ｂ）に示すように、図６を参照してキーワード候補の信頼度を求め、その信頼度が所定閾値よりも大きいときにキーワードとして選択する。

　Ｓ９は、Ｓ８で選択されたキーワードを出力する。そして、このキーワードを原文書の画像情報に付加してキーワード付ファイル６に登録する。

　以上によって、原文書から読み取った画像情報より文字認識を行って文字認識結果候補列を生成し、この文字認識結果候補列について単語辞書の単語と照合して一致したものをキーワード候補とし、このキーワード候補についてキーワードの信頼度を求めて所定閾値以上のものをキーワードと決定し、原文書の画像情報にこのキーワードを付加し、キーワード付ファイル６に登録する。これにより、原文書の画像情報から自動的に文字認識結果候補列、キーワード候補、更にキーワードを自動抽出して原文書の画像情報に付加し、キーワード付ファイル６に自動登録することが可能となった。

　図３は、本発明の原文書のイメージ図を示す。これは、原文書中に存在するテキスト部（文字が存在する領域）、図表部（図形が存在する領域）、およびテキスト領域（文字が存在する領域）である。これら文字や図形などが存在してドットイメージがある部分を、本実施例では全てテキスト領域として文字認識の対象としている。従って、ここでは、テキスト部および図表部の両者がテキスト領域と見なし、文字認識の対象とする。図表の部分から文字が認識されないだけである。

　図４は、本発明のキーワード候補の抽出説明図を示す。これは、単語辞書２１中に図示のように単語“文字”、”文学”、”文献”などが登録されており、これらを取り出す。そして、図２のＳ４で文字認識した文字認識結果候補列と、これら取り出した単語とを照合して一致したものがあったときにその単語をキーワ−ド候補（例えば”文字”、”文学”）と決定する。

　図５は、本発明の信頼度の説明図を示す。

　図５の（ａ）は、文字認識における確からしさの場合の信頼度を示す。ここで、文字認識では、例えば入力文字と辞書中のテンプレート文字の特徴ベクトル間の距離をもとに、各文字認識結果の文字の信頼度を計算する。確率的な計算式を使って求めることが普通であるが、ここでは、単純に距離値のものを使って説明する。従って値が小さいものほど確からしいと判断する。例えば図６を参照して図示の下記のように文字認識結果の文字の確からしさを算出する。

　　・３文字めが“文”である確からしさ　１１４１
　　・４文字めが”字”である確からしさ　１１０５
　　・４文字めが”学”である確からしさ　１３８７
　これら値は、図６の○１から”３文字めが”文”である確からしさ”１１４１”が算出される。同様に、図６の○２、○３から確からしさ”１１０５”、”１３８７””がそれぞれ算出される。

　以上のようにして算出した文字の値が小さい程、確からしさが増すので、予め定めた値以下のもの、あるいは値の最も小さい先頭のものを文字認識結果候補列と決定する。尚、これら距離は、後述する図１２に示すように、文字のドットイメージを所定方向に投影しときのテンプレートのものと入力字形のものとの差を積分したものである。

　図５の（ｂ）は、キーワード候補の確からしさの場合の値を示す。ここでは、例として、構成文字の値の平均値の値が小さいはど確からしいと判断する。例えば図６を参照して図示の下記のように値を算出する。

　　・キーワード候補“文字”の確からしさ
　　　　　　　　　　　（１１４１＋１１０５）／２＝１１２３
　　・キーワード候補“文学”の確からしさ
　　　　　　　　　　　（１１４１＋１３８７）／２＝１２６４
　これら値は、図６の（○１から“３文字めが”文”である確からしさ“１１４１”が算出される。同様に、図６の○３から値”１３８７”が算出される。そして、これらの平均（和を２で除算した値）を値とする。

　図５の（ｃ）は、適当な閾値でキーワード候補を絞る例を示す。これは、図５の（ｂ）によって算出した値が適当な閾値以下例えば１２５０以下をキーワードとすれば、図５の（ｂ）で算出した値のうち“１２６４”の”文学”がキーワード候補から外れ、結果として値“１１２３”のキーワード“文字”のみが残り、これをキーワードと決定する。

　図６は、本発明の文字認識結果例を示す。ここで、縦方向の１文字目、２文字目、３文字目、４文字目・・・が認識対象の文字を表し、その横の数字が値を表す。また、横方向の１位、２位、３位・・・は値の小さい順に文字認識されたときの文字を表す。例えば４文字目の１位の‘‘字”の値は”１１０５”（○２）であり、４位の“学”の値は”１３８７”（○３）と算出されたものである。以下同様に図示のように文字認識によって各値を算出したものである。

　図７は、本発明の動作説明フローチャート（位置）を示す。これは、原文書中の位置（タイトル、日付、シグニチャなど）に対応して重要度を判定したものである。ここで、（Ａ）、（Ｂ）、（Ｃ）は、図２の対応する記号を表し、（Ａ）は図２のＳ１につづいて処理を行う。（Ｂ）は図２のＳ７のキーワード候補の情報を受け取り、処理を進める。更に、（Ｃ）は図７のＳ１４で自動選択したキーワードを図２のＳ９のキーワードと決定する。

　図７において、Ｓ１１は、テキストブロックの位置の認識を行う。これは、右側に記載したように、例えばテキストブロック矩形の位置（ｘ１，ｙ１）、（ｘ２，ｙ２）の認識、即ち図８の上から横方向に順次走査し、ドットイメージの現れた領域の左上の座標（ｘ１，ｙ１）および右下の座標（ｘ２，ｙ２）を求める。

　Ｓ１２は、テキストブロックの役割判定する。これは、右側に記載したように、Ｓ１１で位置を認識したテキストブロックの役割として、例えばタイトル、日付、シグニチャなどのいずれに該当するかの役割を認識する。

　Ｓ１３は、キーワード候補がいずれのテキストブロックに属するかによってキーワード候補の重要度を判定する。例えばキーワード候補が存在するテキストブロックがタイトルのときに重要度が高いと判定する。

　Ｓ１４は、キーワード候補の重要度によってキーワードを自動選択する。これは、Ｓ１３でキーワード候補が属するテキストブロックに対応して重要度をそれぞれ判明したので、そのうちの重要度が高いキーワード候補をキーワードと選択する。そして、図２の（Ｃ）に戻り、Ｓ９でキーワードを決定し、画像情報に当該キーワードを付加してキーワード付ファイル６に登録する。

　以上によって、原文書中のテキストブロックの位置の重要度が高いもののキーワード候補をキーワードと自動選択することにより、キーワード候補から原文書中の重要度の高い位置をもとにキーワードを決定することが可能となる。

　図８は、本発明の重要度の説明図を示す。これは、原文書中のテキストブロックの位置を左上の座標および右下の座標によってそれぞれ表す。このテキストブロックのうち、重要度の高い順にキーワード候補からキーワードを自動選択する。ここでは、重要度は例えばタイトル、本文、日付、シグニチャの順に高いとする。

　図９は、本発明の動作説明フローチャート（分野）を示す。これは、各キーワード候補の分野特徴ベクトルの総和の文書全体の分野特徴ベクトルと、各キーワ−ド候補の分野特徴ベクトルとを比較し、キーワード候補の分野特徴ベクトルが大きく異なるときに除外し、残りのものをキーワードと自動選択するものである。ここで、（Ｂ）、（Ｃ）は、図２の対応する記号を表す。（Ｂ）は図２のＳ７のキーワード候補の情報を受け取り、処理を進める。（Ｃ）は図９のＳ２３で自動選択したキーワードを図２のＳ９のキーワードと決定する。

　図９において、Ｓ２１は、各キーワード候補の分野特徴ベクトルを求める。これは、右側に記載したように、
　　・キーワード候補１の分野特徴ベクトル：ｖ１
　　・キーワード候補２の分野特徴ベクトル：ｖ２
と求める。例えば後述する図１０に示すように、分野（文学、化学、機械、物理、情報、経済など）毎のそれぞれの値を持つ分野特徴ベクトルを求める。

　Ｓ２２は、各キーワード候補の分野特徴ベクトルから文書全体の分野特徴ベクトルを求める。これは、右側に記載したように、文書全体の分野特徴ベクトルとして、
　　　Ｖ＝ｖ１＋ｖ２・・・
といように、ベクトル和を求める。

　Ｓ２３は、各キーワードの分野特徴ベクトルと文書全体の分野特徴ベクトルとを比較し、ベクトルの方向が大きく異なる分野特徴ベクトルを持つキーワード候補を捨てる。これは、右側に記載したように、各キーワードの分野特徴ベクトルと文書全体の分野特徴ベクトルとの内積を求めそれぞれのベクトルの大きさで割ったもの（ｃｏｓθ）が閾値よりも小さいものを捨てる。そして、残ったキーワード候補を図２の（Ｃ）に続くＳ９によってキーワードと決定する。このキーワードを原文書の画像情報に付加してキーワード付ファイル６に登録する。

　以上によって、キーワード候補の分野特徴ベクトルと、文書全体の分野特徴ベクトルとを比較し、ベクトルの方向が所定閾値以上異なる場合に捨て、残ったキーワード候補をキーワードと決定し、画像情報に付加してキーワード付ファイル６に登録する。これにより、キーワード候補から分野特徴ベクトルをもとに自動選択することが可能となる。

　図１０は、本発明の分野特徴ベクトルの説明図を示す。ここで、横軸は分野（化学、機械、物理、情報、経済など）を表し、縦軸はそのときの分野特徴ベクトルの大きさを表す。例えば点線で表したキーワード候補”アルコール”の分野特徴ベクトルは、図示のように、化学、経済の分野でその値が大きく、物理、情報の分野でその値が小さい。一方、実線で表したキーワード候補”文学”の分野特徴ベクトルは、図示のように、情報の分野でその値が大きく、他の分野ではその値が小さい。

　図１１は、本発明の表示文書選択説明図を示す。これは、キーワードｋｌを指定した検索指示に対応して、キーワード付ファイル６を検索し、検索結果として図示の
　　・文書ｄ１信頼度ａ１
　　・文書ｄ２信頼度ａ２
を取り出す。そして、下段に記載した下記のように表示する。

　（１）信頼度の高いもの順に表示する。

　（２）信頼度の高いものｎ個だけ表示する。

　（３）信頼度の一番高いものは赤で表示、２位は黄色で表示などする。

　ここで、信頼度ａ１、ａ２などは、図５の（ｂ）で説明し確からしさと同等である。

　図１２は、本発明の漢字対応の認識説明図を示す。これは、原文書からスキャナで読み取った画像情報より文字認識を行うときのものである。ここでは、漢字の文字認識について説明するが、同様にかな、ひらながなども文字認識すればよい。

　図１２の（ａ）は、文字”文”を画像情報とした例を示す。

　図１２の（ｂ）は、特徴抽出を示す。これは、線方法、線問、線密度にについてそれぞれ特徴抽出を図示のようにそれぞれ行う。

　図１２の（ｃ）は、判定を行う様子を示す。これは、図１２の（ｂ）で求めた特徴抽出した結果と、予め求めておいたテンプレートとの差分を求め、その差分が所定閾値以下のときに一致したとしてそのときのテンプレートの文字と認識する。また、その距離値Ｄは、下記のように、

として算出する。ここで、ｄｉｊはテンプレート文字ｉの特徴パターンｉの値を表し、ｒｉは入力文字の特徴パターンｉの値を表す。

　本発明は、紙文書や紙文書から読み取った画像情報から文字認識して文字認識結果候補列を自動抽出し、この文字認識結果候補列からキーワード候補を自動抽出し、更にこのキーワード候補から文字認識結果の信頼度や重要度や分野によってキーワードを自動選択し、紙文書や画像情報から自動的にキーワード抽出を行うことが可能となる。

本発明の原理構成図である。本発明の動作説明フローチャートである。本発明の原文書のイメージ図である。本発明のキーワード候補の抽出説明図である。本発明の距離の説明図である。本発明の文字認識結果例である。本発明の動作説明フローチャート（位置）である。本発明の重要度の説明図である。本発明の動作説明フローチャート（分野）である。本発明の分野特徴ベクトルの説明図である。本発明の表示文書選択説明図である。本発明の漢字対応の認識説明図である。

符号の説明

１：文字認識部
２：キーワード抽出部
２１：単語辞書
３：キーワード選択部
４：文書構造判定部
５：テーマ判定部
６：キーワード付ファイル
７：検索／表示部

Claims

　文書の画像情報からキーワードを抽出するキーワード抽出・検索装置において、
　原文書の画像情報から文字認識して文字認識結果候補列を生成する文字認識部と、
　前記文字認識結果候補列について単語辞書を検索して一致するものを、あるいは個々の前記文字認識結果候補列の信頼度からキーワードの信頼度を求めて値が所定閾値以上のものをキーワード候補として抽出するキーワード抽出部と、
　各キーワード候補の原文書中の位置に対応する重要度が所定閾値以上のときにキーワードとして選択するキーワード選択部と
を備えたことを特徴とするキーワード抽出・検索装置。
　前記選択されたキーワードを原文書の画像情報に付加して登録するキーワード付ファイルを備えたことを特徴とする請求項１に記載のキーワード抽出・検索装置。
　キーワードあるいはキーワード群を指定した検索指示に対応して、前記キーワード付ファイルから検索指示されたキーワードの全部および一部が一致するキーワードを取り出し、その信頼度を算出して大きい順にキーワードに対応する画像情報を並べて表示、先頭から所定個数のみを表示、あるいは色マークを変えて順次表示する検索／表示部を備えたことを特徴とする請求項１あるいは請求項２に記載のキーワード抽出・検索装置。