JP2007323317A

JP2007323317A - 変換装置、変換方法及びプログラム

Info

Publication number: JP2007323317A
Application number: JP2006152153A
Authority: JP
Inventors: Tetsuomi Tanaka; 哲臣田中
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-05-31
Filing date: 2006-05-31
Publication date: 2007-12-13

Abstract

【課題】従来文字認識処理における誤認識の結果、目次の表示内容の意味を判別できないことがあった。また、この誤認識を回避する文書画像のヘッダ、フッタ部分に注目した手段では各ページに目次に使用可能なヘッダ、フッタがある文書に限られる欠点があった。
【解決手段】文書画像から文字領域の抽出、タイトル部分の判定を行う領域判別手段３０２と、入力された１ページ分の文書画像を目的の電子文書形式へ変換するデータ変換手段３０５と、判定されたタイトルの位置情報をそのページ番号とともに記憶蓄積するデータ蓄積手段３０６と、電子文書の目次を作成する変換手段３０７とを備え、変換手段３０７は、目次の変換の際に目次で項目をタイトルと判定された文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行う。
【選択図】図３

Description

１つ以上の文書画像から目次または索引を持つ電子文書への変換装置、変換方法及びプログラムに関する。

従来複数の文書画像から目次や索引を持つ電子文書形式への変換は文字認識手段によりテキストコード化された結果を目的の電子文書形式へ単純に変換する方法であった。

特開２０００−１８１９３１号公報

しかしながら従来の方法では文字認識処理における誤認識の結果、目次の表示内容はユーザが一読では意味を判別できないことがある欠点があった。

この欠点に対し特許文献１の様に文書画像のヘッダ、フッタ部分に注目することで誤認識を回避する手段もあるが、この方法では各ページに目次に使用可能なヘッダ、フッタがある文書に限られる欠点があった。

本発明の変換装置は、逐次入力された１つ以上の文書画像から電子文書への変換装置であって、前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別手段と、抽出された前記文字領域の文字認識を行う文字認識手段と、前記文字認識手段の認識結果からキーワードを抽出するキーワード抽出手段と、入力された１ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換手段と、前記文字認識手段の文字認識結果と前記キーワード抽出手段のキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積手段と、前記電子文書の目次及び索引を作成する変換手段とを備え、前記変換手段は、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする。
また、本発明の変換装置は、文書画像から文字領域の抽出、タイトル部分の判定を行う領域判別手段と、入力された１ページ分の文書画像を目的の電子文書形式へ変換するページデータ変換手段と、判定されたタイトルの位置情報をそのページ番号とともに記憶蓄積するデータ蓄積手段と、電子文書の目次を作成する変換手段とを備え、前記変換手段は、目次の変換の際に目次で項目をタイトルと判定された文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする。
また、本発明の変換方法は、逐次入力された１つ以上の文書画像から電子文書への変換方法であって前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別工程と、抽出された前記文字領域の文字認識を行う文字認識工程と、前記文字認識工程における認識結果からキーワードを抽出するキーワード抽出工程と、入力された１ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換工程と、前記文字認識工程における文字認識結果と前記キーワード抽出工程におけるキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積工程と、前記電子文書の目次及び索引を作成する変換工程とを有し、前記変換工程において、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする。
また、本発明のプログラムは、上記記載の方法の各工程をコンピュータにて実施させることを特徴とする。

本発明によれば、文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別手段と抽出された文字領域の文字認識を行う文字認識手段と認識結果からキーワードを抽出するキーワード抽出手段と入力された１ページ分の文書画像を目的の電子文書形式へ変換するページデータ変換手段と文字認識結果とキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積手段と電子文書の目次及び索引を作成する変換手段を持ち目次及び索引の変換の際に文字認識結果の信頼度を予め決められた方法で得て予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させその項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことにより、文字認識の間違いによる影響をなくすことが可能になる。

以下、本発明の好適な実施の形態について説明する。図３は本発明の構成を説明するための図である。図３において、３０１は文書画像である。３０２は文書画像解析処理部であり文書画像３０１を入力して、入力された文書画像を領域判別手段により、文字領域の抽出やレイアウト解析によるタイトル部分の判定を行う。

３０３は文字認識処理部であり、文書画像解析処理部３０２によって抽出された文字領域の文字認識処理を行う。３０４はキーワード抽出部であり、文字認識処理部３０３の認識結果から文書中に含まれるキーワードの抽出処理を行う。

３０５はページデータ変換部であり、文書画像３０１と文書画像解析処理部３０２、文字認識処理部３０３、キーワード抽出部３０４の結果を受け、ページ単位で目的の電子文書形式への変換処理を行う。電子文書の各ページの変換結果はページ毎にページデータ３０８〜３０９として出力されるが、目次や索引を作成するのに必要なデータはデータ蓄積部３０６へ出力され、データ蓄積部３０６では最終ページの変換処理が終わるまで出力されたデータを保持する。

３０７は目次、索引、フッタ変換部であり、データ蓄積部３０６に保持されているデータから目次、索引、フッタへの変換処理を行いフッタデータ３１０として出力する。

３０８、３０９、３１０はデータ変換部３０５、フッタ変換部３０７で電子文書形式に変換された変換データであり、３０８は１ページ目、３０９は最終ページであるが１ページ目は電子文書のヘッダ情報がある以外には２ページ目以降の構造に違いはない。

これらはページ順に出力されるがこれとフッタ部のデータ３１０をその順番どおりに結合すると目的である電子文書３Ａとなる。

図３における処理の流れを図１のフローチャートにより説明する。

ステップＳ１０１は文書画像の入力処理でありスキャナやネットワークを介して目的の電子文書に変換を行う文書画像の入力を行う。

ステップＳ１０２は入力された文書画像から領域判別手段により文字領域を抽出し、そのレイアウトからタイトル部分を判定する文書画像解析処理を行う。タイトル部の判定は抽出された文字領域からその文書画像中の位置と文字の大きさ等からの情報から判定を行う。

ステップＳ１０３は文字認識処理でありステップＳ１０２で抽出された文字領域の文字認識を行い、結果をテキストコードとその位置情報として得る。

ステップＳ１０４はキーワード抽出処理でありステップＳ１０３の文字認識結果からキーワードとなる単語を抽出する。

ステップＳ１０５はページ変換処理であり、目的とする電子ファイルの各ページデータを生成する。ここでは文書画像を圧縮してページ全体表示されるように配置し文字認識結果の位置情報によりテキストコードを非表示で文書画像の文字位置と一致するように配置する形式に変換するものとする。

各ページ同じ処理であるが１ページ目のみ電子文書のヘッダ情報を変換データの先頭に付加する処理を行う。ここで文書画像と文字認識結果は不要になるが、ステップＳ１０４で得られているタイトルとキーワードの結果はそのページ番号と部分画像と位置情報とともに蓄積処理する。ただしキーワードの場合は索引作成に使うため同じキーワードが存在する場合はそのキーワードに対する部分画像の数は一つで複数持たない。

ステップＳ１０６は送信処理でありステップＳ１０５で変換された１ページ分の変換データを送信する。

ステップＳ１０７は次の文書画像の入力があるかどうか調べ、あればステップＳ１０１へ戻り、無ければ次のステップＳ１０８に進む。

ステップＳ１０８は目次及び索引のデータ作成でありステップＳ１０５で蓄積されている文字部分画像、文字コード、文字位置情報から目次データ及び索引データを作成する。

ステップＳ１０９は変換文書のフッタ送信であり、ステップＳ１０８で作成したデータを送信する。

ステップＳ１０６、ステップＳ１０９で送信したデータ（３０８〜３１０）を結合すると構造上ヘッダ、１ページ目データ、２ページ目データ、最終ページデータ、目次データ、索引データ、フッタという順に並ぶ。しかし、電子文書としてアプリケーションから開くと目次、１、２、３…最終ページ、索引という順番になるようにヘッダ以下の変換方法を調節する。

図４は目次及び索引における各項目への変換方法を決める処理のフローチャートである。これを目次作成の場合で説明する。

ステップＳ４０１は認識結果の取り出しである。ステップＳ４０２において認識結果がなければ処理を終了し、あれば次のステップＳ４０３へ進む。

ステップＳ４０３は認識結果の判定処理であり、文字認識の文字類似度（識別マッチング処理を行った辞書データとの距離値）等の情報から、その認識結果の信頼度を求める。

次のステップＳ４０４においてその信頼度が予め決められた値にならない場合はステップＳ４０５へ、良い場合はステップＳ４０６へ進む。

ステップＳ４０５は信頼度が低い場合の変換処理であり、ステップＳ１０５で蓄積されているタイトルの部分画像を目次で使用するフォントに合わせて表示サイズか解像度を調整する。この調整された部分画像が目次で表示され認識結果である文字コードは変換対象である電子文書の形式に合わせたテキストコードで表示される部分画像の上に非表示で描画を行い電子文書を扱うアプリケーション上から目次部分もキーワード検索できるようにする。

ステップＳ４０６は信頼度が高い場合の変換処理であり、これは通常の目次作成と同様にステップＳ４０５の様な画像ではなくフォントによるテキスト描画で行う。

ステップＳ４０５、Ｓ４０６で作成されたデータはステップＳ４０７において変換作業中のフッタ変換データへ追加処理される。

以上の処理フローは索引を作る場合も同じである。
また、この目次及び索引の変換処理において表示されるページ番号はデータ蓄積部３０６で記憶されているページ番号であり、同じく記憶されているそのページ中の位置にリンクされるように変換を行う。これによりユーザがアプリケーションからその電子文書を利用した場合に目次中のページ番号をクリックした時に該当個所にページ移動可能となる。

受信側の処理であるが、図２がその処理のフローチャートである。ステップＳ２０１が受信開始処理であり作成する文書ファイルの初期化処理を行う。この初期化とは対象ファイルの作成とオープン処理である。

ステップＳ２０２はデータ受信処理であり図１のフローのステップＳ１０６及びステップＳ１０９で作成されたデータを受け取って開いているファイルの末尾に追加する。

ステップＳ２０３は終了判定処理であり受け取ったデータがステップＳ１０９で作成されたデータであれば次のステップＳ２０４へ、そうでなければステップＳ２０２のデータ受信処理へ戻る。

ステップＳ２０４は受信終了処理であり、開いているファイルを閉じて文書ファイルとして完成させる。

図１においては１ページ単位で文書データの変換と送信処理を行うが、変換されたデータはそのタイミングで送信するとは限らない。送受信側の処理効率、データがやり取りされる通信回線の速度等の条件により、送信側において変換データをすぐに送信せず可能な範囲でスプールして複数ページの変換データをまとめて送ることもある。この場合は図１と図２の処理フローは同期しない。

なお、電子文書ヘッダ作成のタイミングは、本実施形態に限定されない。本実施形態では目次及び索引の作成にページ番号の管理が必要なことと処理効率のため送受信の回数を少しでも抑える理由からページ変換処理を行うステップＳ１０４で１ページ目かどうかの条件で電子文書ヘッダを作成していた。別の方法としてもちろんステップＳ１０１の前にステップＳ１００として電子文書ヘッダの作成と送信を行ってもよい。

また、文字認識処理部３０３がない場合においては、当然キーワード抽出部３０４も必要なくなる。キーワードが抽出できないため索引を作成することはできないが、目次を作成することはできる。その場合は、抽出されたタイトル部分の部分画像とその位置情報、ページ番号を蓄積し、目次データを作成するステップＳ１０８において蓄積された部分画像を目次に貼り付けてページ番号に該当個所へのリンク情報を付加することで可能である。

また、蓄積する部分画像の処理について、本実施形態では図４のフローに示す様にフッタ変換部３０７（ステップＳ１０８）において部分画像の解像度の調整（解像度変換）を行っている。その場合、文書画像３０１が高精細で画像解像度が非常に高いまたは解像度は非常に高くなくてもフルカラーで蓄積する部分画像のデータサイズが大きくなることがある。部分画像でも蓄積を行う容量に余裕がない場合はページ変換の処理効率が多少落ちるが、ページデータ変換部３０５において図４のフローにある認識結果の判定を行い、認識結果の信頼度が予め決められた値に達しない場合だけ部分画像を蓄積対象として蓄積する部分画像の解像度変換処理をする。それに加えてフルカラー等の多値画像の場合には二値化処理してデータ量を落としてもよい。フッタ変換部３０７において部分画像を持つかどうか選択を行う場合の図４のフローはステップＳ４０３、ステップＳ４０４のかわりに蓄積されている認識結果に部分画像が付属しているかどうかによりステップＳ４０５又はステップＳ４０６へ進むかの判定を行う。

本発明の実施の形態に係る変換処理（送信）を説明するためのフローチャートである。本発明の実施の形態に係る受信処理を説明するためのフローチャートである。本発明の実施の形態の構成を説明するための図である。本発明の実施の形態に係る目次、索引データ作成の処理を説明するためのフローチャートである。

符号の説明

３０１文書画像
３０２文書画像解析処理部
３０３文字認識処理部
３０４キーワード抽出部
３０５ページデータ変換部
３０６データ蓄積部
３０７フッタ変換部

Claims

逐次入力された１つ以上の文書画像から電子文書への変換装置であって、
前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別手段と、
抽出された前記文字領域の文字認識を行う文字認識手段と、
前記文字認識手段の認識結果からキーワードを抽出するキーワード抽出手段と、
入力された１ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換手段と、
前記文字認識手段の文字認識結果と前記キーワード抽出手段のキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積手段と、
前記電子文書の目次及び索引を作成する変換手段とを備え、
前記変換手段は、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする変換装置。
前記変換手段は、前記文字認識結果が予め決められた信頼度に達せず部分画像を目次及び索引に配置する処理においては、前記文字認識結果を非表示のテキストコードとして前記部分画像と同じ位置に配置することを特徴とする請求項１に記載の変換装置。
文書画像から文字領域の抽出、タイトル部分の判定を行う領域判別手段と、
入力された１ページ分の文書画像を目的の電子文書形式へ変換するページデータ変換手段と、
判定されたタイトルの位置情報をそのページ番号とともに記憶蓄積するデータ蓄積手段と、
電子文書の目次を作成する変換手段とを備え、
前記変換手段は、目次の変換の際に目次で項目をタイトルと判定された文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする変換装置。
逐次入力された１つ以上の文書画像から電子文書への変換方法であって
前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別工程と、
抽出された前記文字領域の文字認識を行う文字認識工程と、
前記文字認識工程における認識結果からキーワードを抽出するキーワード抽出工程と、
入力された１ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換工程と、
前記文字認識工程における文字認識結果と前記キーワード抽出工程におけるキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積工程と、
前記電子文書の目次及び索引を作成する変換工程とを有し、
前記変換工程において、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする変換方法。
請求項４に記載の方法の各工程をコンピュータにて実施させることを特徴とするプログラム。