JP2007323317A - 変換装置、変換方法及びプログラム - Google Patents

変換装置、変換方法及びプログラム Download PDF

Info

Publication number
JP2007323317A
JP2007323317A JP2006152153A JP2006152153A JP2007323317A JP 2007323317 A JP2007323317 A JP 2007323317A JP 2006152153 A JP2006152153 A JP 2006152153A JP 2006152153 A JP2006152153 A JP 2006152153A JP 2007323317 A JP2007323317 A JP 2007323317A
Authority
JP
Japan
Prior art keywords
conversion
character
document
contents
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006152153A
Other languages
English (en)
Inventor
Tetsuomi Tanaka
哲臣 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006152153A priority Critical patent/JP2007323317A/ja
Publication of JP2007323317A publication Critical patent/JP2007323317A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】従来文字認識処理における誤認識の結果、目次の表示内容の意味を判別できないことがあった。また、この誤認識を回避する文書画像のヘッダ、フッタ部分に注目した手段では各ページに目次に使用可能なヘッダ、フッタがある文書に限られる欠点があった。
【解決手段】文書画像から文字領域の抽出、タイトル部分の判定を行う領域判別手段302と、入力された1ページ分の文書画像を目的の電子文書形式へ変換するデータ変換手段305と、判定されたタイトルの位置情報をそのページ番号とともに記憶蓄積するデータ蓄積手段306と、電子文書の目次を作成する変換手段307とを備え、変換手段307は、目次の変換の際に目次で項目をタイトルと判定された文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行う。
【選択図】図3

Description

1つ以上の文書画像から目次または索引を持つ電子文書への変換装置、変換方法及びプログラムに関する。
従来複数の文書画像から目次や索引を持つ電子文書形式への変換は文字認識手段によりテキストコード化された結果を目的の電子文書形式へ単純に変換する方法であった。
特開2000−181931号公報
しかしながら従来の方法では文字認識処理における誤認識の結果、目次の表示内容はユーザが一読では意味を判別できないことがある欠点があった。
この欠点に対し特許文献1の様に文書画像のヘッダ、フッタ部分に注目することで誤認識を回避する手段もあるが、この方法では各ページに目次に使用可能なヘッダ、フッタがある文書に限られる欠点があった。
本発明の変換装置は、逐次入力された1つ以上の文書画像から電子文書への変換装置であって、前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別手段と、抽出された前記文字領域の文字認識を行う文字認識手段と、前記文字認識手段の認識結果からキーワードを抽出するキーワード抽出手段と、入力された1ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換手段と、前記文字認識手段の文字認識結果と前記キーワード抽出手段のキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積手段と、前記電子文書の目次及び索引を作成する変換手段とを備え、前記変換手段は、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする。
また、本発明の変換装置は、文書画像から文字領域の抽出、タイトル部分の判定を行う領域判別手段と、入力された1ページ分の文書画像を目的の電子文書形式へ変換するページデータ変換手段と、判定されたタイトルの位置情報をそのページ番号とともに記憶蓄積するデータ蓄積手段と、電子文書の目次を作成する変換手段とを備え、前記変換手段は、目次の変換の際に目次で項目をタイトルと判定された文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする。
また、本発明の変換方法は、逐次入力された1つ以上の文書画像から電子文書への変換方法であって前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別工程と、抽出された前記文字領域の文字認識を行う文字認識工程と、前記文字認識工程における認識結果からキーワードを抽出するキーワード抽出工程と、入力された1ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換工程と、前記文字認識工程における文字認識結果と前記キーワード抽出工程におけるキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積工程と、前記電子文書の目次及び索引を作成する変換工程とを有し、前記変換工程において、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする。
また、本発明のプログラムは、上記記載の方法の各工程をコンピュータにて実施させることを特徴とする。
本発明によれば、文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別手段と抽出された文字領域の文字認識を行う文字認識手段と認識結果からキーワードを抽出するキーワード抽出手段と入力された1ページ分の文書画像を目的の電子文書形式へ変換するページデータ変換手段と文字認識結果とキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積手段と電子文書の目次及び索引を作成する変換手段を持ち目次及び索引の変換の際に文字認識結果の信頼度を予め決められた方法で得て予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させその項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことにより、文字認識の間違いによる影響をなくすことが可能になる。
以下、本発明の好適な実施の形態について説明する。図3は本発明の構成を説明するための図である。図3において、301は文書画像である。302は文書画像解析処理部であり文書画像301を入力して、入力された文書画像を領域判別手段により、文字領域の抽出やレイアウト解析によるタイトル部分の判定を行う。
303は文字認識処理部であり、文書画像解析処理部302によって抽出された文字領域の文字認識処理を行う。304はキーワード抽出部であり、文字認識処理部303の認識結果から文書中に含まれるキーワードの抽出処理を行う。
305はページデータ変換部であり、文書画像301と文書画像解析処理部302、文字認識処理部303、キーワード抽出部304の結果を受け、ページ単位で目的の電子文書形式への変換処理を行う。電子文書の各ページの変換結果はページ毎にページデータ308〜309として出力されるが、目次や索引を作成するのに必要なデータはデータ蓄積部306へ出力され、データ蓄積部306では最終ページの変換処理が終わるまで出力されたデータを保持する。
307は目次、索引、フッタ変換部であり、データ蓄積部306に保持されているデータから目次、索引、フッタへの変換処理を行いフッタデータ310として出力する。
308、309、310はデータ変換部305、フッタ変換部307で電子文書形式に変換された変換データであり、308は1ページ目、309は最終ページであるが1ページ目は電子文書のヘッダ情報がある以外には2ページ目以降の構造に違いはない。
これらはページ順に出力されるがこれとフッタ部のデータ310をその順番どおりに結合すると目的である電子文書3Aとなる。
図3における処理の流れを図1のフローチャートにより説明する。
ステップS101は文書画像の入力処理でありスキャナやネットワークを介して目的の電子文書に変換を行う文書画像の入力を行う。
ステップS102は入力された文書画像から領域判別手段により文字領域を抽出し、そのレイアウトからタイトル部分を判定する文書画像解析処理を行う。タイトル部の判定は抽出された文字領域からその文書画像中の位置と文字の大きさ等からの情報から判定を行う。
ステップS103は文字認識処理でありステップS102で抽出された文字領域の文字認識を行い、結果をテキストコードとその位置情報として得る。
ステップS104はキーワード抽出処理でありステップS103の文字認識結果からキーワードとなる単語を抽出する。
ステップS105はページ変換処理であり、目的とする電子ファイルの各ページデータを生成する。ここでは文書画像を圧縮してページ全体表示されるように配置し文字認識結果の位置情報によりテキストコードを非表示で文書画像の文字位置と一致するように配置する形式に変換するものとする。
各ページ同じ処理であるが1ページ目のみ電子文書のヘッダ情報を変換データの先頭に付加する処理を行う。ここで文書画像と文字認識結果は不要になるが、ステップS104で得られているタイトルとキーワードの結果はそのページ番号と部分画像と位置情報とともに蓄積処理する。ただしキーワードの場合は索引作成に使うため同じキーワードが存在する場合はそのキーワードに対する部分画像の数は一つで複数持たない。
ステップS106は送信処理でありステップS105で変換された1ページ分の変換データを送信する。
ステップS107は次の文書画像の入力があるかどうか調べ、あればステップS101へ戻り、無ければ次のステップS108に進む。
ステップS108は目次及び索引のデータ作成でありステップS105で蓄積されている文字部分画像、文字コード、文字位置情報から目次データ及び索引データを作成する。
ステップS109は変換文書のフッタ送信であり、ステップS108で作成したデータを送信する。
ステップS106、ステップS109で送信したデータ(308〜310)を結合すると構造上ヘッダ、1ページ目データ、2ページ目データ、最終ページデータ、目次データ、索引データ、フッタという順に並ぶ。しかし、電子文書としてアプリケーションから開くと目次、1、2、3…最終ページ、索引という順番になるようにヘッダ以下の変換方法を調節する。
図4は目次及び索引における各項目への変換方法を決める処理のフローチャートである。これを目次作成の場合で説明する。
ステップS401は認識結果の取り出しである。ステップS402において認識結果がなければ処理を終了し、あれば次のステップS403へ進む。
ステップS403は認識結果の判定処理であり、文字認識の文字類似度(識別マッチング処理を行った辞書データとの距離値)等の情報から、その認識結果の信頼度を求める。
次のステップS404においてその信頼度が予め決められた値にならない場合はステップS405へ、良い場合はステップS406へ進む。
ステップS405は信頼度が低い場合の変換処理であり、ステップS105で蓄積されているタイトルの部分画像を目次で使用するフォントに合わせて表示サイズか解像度を調整する。この調整された部分画像が目次で表示され認識結果である文字コードは変換対象である電子文書の形式に合わせたテキストコードで表示される部分画像の上に非表示で描画を行い電子文書を扱うアプリケーション上から目次部分もキーワード検索できるようにする。
ステップS406は信頼度が高い場合の変換処理であり、これは通常の目次作成と同様にステップS405の様な画像ではなくフォントによるテキスト描画で行う。
ステップS405、S406で作成されたデータはステップS407において変換作業中のフッタ変換データへ追加処理される。
以上の処理フローは索引を作る場合も同じである。
また、この目次及び索引の変換処理において表示されるページ番号はデータ蓄積部306で記憶されているページ番号であり、同じく記憶されているそのページ中の位置にリンクされるように変換を行う。これによりユーザがアプリケーションからその電子文書を利用した場合に目次中のページ番号をクリックした時に該当個所にページ移動可能となる。
受信側の処理であるが、図2がその処理のフローチャートである。ステップS201が受信開始処理であり作成する文書ファイルの初期化処理を行う。この初期化とは対象ファイルの作成とオープン処理である。
ステップS202はデータ受信処理であり図1のフローのステップS106及びステップS109で作成されたデータを受け取って開いているファイルの末尾に追加する。
ステップS203は終了判定処理であり受け取ったデータがステップS109で作成されたデータであれば次のステップS204へ、そうでなければステップS202のデータ受信処理へ戻る。
ステップS204は受信終了処理であり、開いているファイルを閉じて文書ファイルとして完成させる。
図1においては1ページ単位で文書データの変換と送信処理を行うが、変換されたデータはそのタイミングで送信するとは限らない。送受信側の処理効率、データがやり取りされる通信回線の速度等の条件により、送信側において変換データをすぐに送信せず可能な範囲でスプールして複数ページの変換データをまとめて送ることもある。この場合は図1と図2の処理フローは同期しない。
なお、電子文書ヘッダ作成のタイミングは、本実施形態に限定されない。本実施形態では目次及び索引の作成にページ番号の管理が必要なことと処理効率のため送受信の回数を少しでも抑える理由からページ変換処理を行うステップS104で1ページ目かどうかの条件で電子文書ヘッダを作成していた。別の方法としてもちろんステップS101の前にステップS100として電子文書ヘッダの作成と送信を行ってもよい。
また、文字認識処理部303がない場合においては、当然キーワード抽出部304も必要なくなる。キーワードが抽出できないため索引を作成することはできないが、目次を作成することはできる。その場合は、抽出されたタイトル部分の部分画像とその位置情報、ページ番号を蓄積し、目次データを作成するステップS108において蓄積された部分画像を目次に貼り付けてページ番号に該当個所へのリンク情報を付加することで可能である。
また、蓄積する部分画像の処理について、本実施形態では図4のフローに示す様にフッタ変換部307(ステップS108)において部分画像の解像度の調整(解像度変換)を行っている。その場合、文書画像301が高精細で画像解像度が非常に高いまたは解像度は非常に高くなくてもフルカラーで蓄積する部分画像のデータサイズが大きくなることがある。部分画像でも蓄積を行う容量に余裕がない場合はページ変換の処理効率が多少落ちるが、ページデータ変換部305において図4のフローにある認識結果の判定を行い、認識結果の信頼度が予め決められた値に達しない場合だけ部分画像を蓄積対象として蓄積する部分画像の解像度変換処理をする。それに加えてフルカラー等の多値画像の場合には二値化処理してデータ量を落としてもよい。フッタ変換部307において部分画像を持つかどうか選択を行う場合の図4のフローはステップS403、ステップS404のかわりに蓄積されている認識結果に部分画像が付属しているかどうかによりステップS405又はステップS406へ進むかの判定を行う。
本発明の実施の形態に係る変換処理(送信)を説明するためのフローチャートである。 本発明の実施の形態に係る受信処理を説明するためのフローチャートである。 本発明の実施の形態の構成を説明するための図である。 本発明の実施の形態に係る目次、索引データ作成の処理を説明するためのフローチャートである。
符号の説明
301 文書画像
302 文書画像解析処理部
303 文字認識処理部
304 キーワード抽出部
305 ページデータ変換部
306 データ蓄積部
307 フッタ変換部

Claims (5)

  1. 逐次入力された1つ以上の文書画像から電子文書への変換装置であって、
    前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別手段と、
    抽出された前記文字領域の文字認識を行う文字認識手段と、
    前記文字認識手段の認識結果からキーワードを抽出するキーワード抽出手段と、
    入力された1ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換手段と、
    前記文字認識手段の文字認識結果と前記キーワード抽出手段のキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積手段と、
    前記電子文書の目次及び索引を作成する変換手段とを備え、
    前記変換手段は、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする変換装置。
  2. 前記変換手段は、前記文字認識結果が予め決められた信頼度に達せず部分画像を目次及び索引に配置する処理においては、前記文字認識結果を非表示のテキストコードとして前記部分画像と同じ位置に配置することを特徴とする請求項1に記載の変換装置。
  3. 文書画像から文字領域の抽出、タイトル部分の判定を行う領域判別手段と、
    入力された1ページ分の文書画像を目的の電子文書形式へ変換するページデータ変換手段と、
    判定されたタイトルの位置情報をそのページ番号とともに記憶蓄積するデータ蓄積手段と、
    電子文書の目次を作成する変換手段とを備え、
    前記変換手段は、目次の変換の際に目次で項目をタイトルと判定された文字領域の部分画像を使用する表示文字の大きさに合わせて、目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする変換装置。
  4. 逐次入力された1つ以上の文書画像から電子文書への変換方法であって
    前記文書画像から文字領域を抽出しタイトル部分の判定を行う領域判別工程と、
    抽出された前記文字領域の文字認識を行う文字認識工程と、
    前記文字認識工程における認識結果からキーワードを抽出するキーワード抽出工程と、
    入力された1ページ分の前記文書画像を目的の電子文書形式へ変換するページデータ変換工程と、
    前記文字認識工程における文字認識結果と前記キーワード抽出工程におけるキーワード抽出結果をそのページ番号と位置情報とともに記憶蓄積するデータ蓄積工程と、
    前記電子文書の目次及び索引を作成する変換工程とを有し、
    前記変換工程において、目次及び索引の変換の際に前記文字認識結果の信頼度を予め決められた方法で得て、予め決められた信頼度に達していない場合にはその文字領域の部分画像を使用する表示文字の大きさに合わせて目次及び索引の該当箇所に位置させ、その項目とそれが文書中に実際に位置する場所とリンクするように変換処理を行うことを特徴とする変換方法。
  5. 請求項4に記載の方法の各工程をコンピュータにて実施させることを特徴とするプログラム。
JP2006152153A 2006-05-31 2006-05-31 変換装置、変換方法及びプログラム Pending JP2007323317A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006152153A JP2007323317A (ja) 2006-05-31 2006-05-31 変換装置、変換方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006152153A JP2007323317A (ja) 2006-05-31 2006-05-31 変換装置、変換方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2007323317A true JP2007323317A (ja) 2007-12-13

Family

ID=38856076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006152153A Pending JP2007323317A (ja) 2006-05-31 2006-05-31 変換装置、変換方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2007323317A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016122043A1 (ko) * 2015-01-29 2016-08-04 주식회사 솔트룩스 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법
CN109858036A (zh) * 2019-02-26 2019-06-07 科大讯飞股份有限公司 一种文书划分方法及装置
CN113537221A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法、装置和设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016122043A1 (ko) * 2015-01-29 2016-08-04 주식회사 솔트룩스 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법
KR20160093488A (ko) * 2015-01-29 2016-08-08 주식회사 솔트룩스 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법
KR101693783B1 (ko) * 2015-01-29 2017-01-06 주식회사 솔트룩스 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법
CN109858036A (zh) * 2019-02-26 2019-06-07 科大讯飞股份有限公司 一种文书划分方法及装置
CN109858036B (zh) * 2019-02-26 2023-07-28 科大讯飞股份有限公司 一种文书划分方法及装置
CN113537221A (zh) * 2020-04-15 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法、装置和设备

Similar Documents

Publication Publication Date Title
US7639387B2 (en) Authoring tools using a mixed media environment
US7672543B2 (en) Triggering applications based on a captured text in a mixed media environment
US7920759B2 (en) Triggering applications for distributed action execution and use of mixed media recognition as a control input
US9171202B2 (en) Data organization and access for mixed media document system
US8195659B2 (en) Integration and use of mixed media documents
US20080027983A1 (en) Searching media content for objects specified using identifiers
US20070046982A1 (en) Triggering actions with captured input in a mixed media environment
EP1917636B1 (en) Method and system for image matching in a mixed media environment
US20070050411A1 (en) Database for mixed media document system
US11736587B2 (en) System and method for integrating message content into a target data processing device
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
CN101493896B (zh) 文档图像处理装置及文档图像处理方法
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
EP2023266B1 (en) Searching media content for objects specified using identifiers
CN115658955A (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
KR20080034480A (ko) 혼합 미디어 문서 시스템용의 데이터 구성 및 액세스
JP2010134922A (ja) 類似語決定方法およびシステム
JP2007323317A (ja) 変換装置、変換方法及びプログラム
CN111046627A (zh) 一种中文文字显示方法及系统
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP4576211B2 (ja) 文書情報検索システム
CN115983202A (zh) 一种数据处理方法、装置、设备及存储介质
JP5853531B2 (ja) 情報処理装置及び情報処理プログラム
JP4872285B2 (ja) 文書管理装置、文書管理システムおよび文書管理方法
JP5604276B2 (ja) 文書画像生成装置および文書画像生成方法