JP6759057B2 - 画像読み取り装置及び画像読み取り方法 - Google Patents

画像読み取り装置及び画像読み取り方法 Download PDF

Info

Publication number
JP6759057B2
JP6759057B2 JP2016213003A JP2016213003A JP6759057B2 JP 6759057 B2 JP6759057 B2 JP 6759057B2 JP 2016213003 A JP2016213003 A JP 2016213003A JP 2016213003 A JP2016213003 A JP 2016213003A JP 6759057 B2 JP6759057 B2 JP 6759057B2
Authority
JP
Japan
Prior art keywords
document
image
dimensional
shooting
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016213003A
Other languages
English (en)
Other versions
JP2018074414A (ja
Inventor
川崎 勝彦
勝彦 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016213003A priority Critical patent/JP6759057B2/ja
Publication of JP2018074414A publication Critical patent/JP2018074414A/ja
Application granted granted Critical
Publication of JP6759057B2 publication Critical patent/JP6759057B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Facsimile Scanning Arrangements (AREA)
  • Studio Devices (AREA)

Description

本発明は、テキストが含まれる原稿画像を読み取る画像読み取り装置及び画像読み取り方法に関する。
従来の、特許文献1においては、デジタルカメラは、撮影した画像から画像サブブロックの輝度ヒストグラムパラメータと色相ヒストグラムパラメータを抽出する。そして、撮影された原稿の種類と背景色を判別し、原稿の視認性を向上させるための画像処理を最適化する。
また、従来の、特許文献2においては、書籍の湾曲歪を補正して撮影する際に、被写体の距離を二次元方向で多点側距し、側距データに基づいて湾曲歪を補正する。
また、従来の、特許文献3においては、原稿と背景の画像を取得し、画像内の被写体の輪郭を抽出し、それらの輪郭から原稿とみなされる四辺形候補を抽出する。そして、変換行列を用いて、抽出した原稿の四辺形候補を長方形に修正する。また、この結果を用いてより高精度な文字認識を可能にする。
しかしながら、特許文献1〜3は、原稿の照り返しや歪によって発生する撮影原稿画像の品質劣化を撮影時に推定して、撮影原稿画像が一定の品質(テキスト可読性)を満たすような撮影条件を算出して原稿の撮影を支援するものではない。
また、従来製品においては、スキャンしたいノート・ポストイット・名刺・レシートなどの原稿にカメラを向けると、原稿を自動的に認識して撮影し、撮影した原稿画像のトリミングや回転も自動で行う。また、カメラで撮影した台形の原稿画像を長方形に補正する。名刺撮影時には、画面下部に「画面内に原稿を収めてください。明るさが対照的な位置においてください」と表示される。名刺をスキャンした際には、OCR(光学文字認識)技術で、名刺の情報をテキスト化し、検索等に用いることができる。
特開2005−260657号公報 特開2013−93704号公報 US8897565号公報
しかしながら、上記従来製品は、撮影時に撮影原稿画像の品質を判定し、撮影原稿画像が一定の品質(テキスト可読性)を満たすような撮影条件を原稿の三次元形状を用いて推定して、ユーザの撮影(カメラの位置・向き)を支援することは出来ない。また、異なる撮影状況(原稿の形状、文字の歪、照明の影響等)に対応して、撮影原稿画像が一定の品質を満たすように、動的に適切な撮影条件を推定して撮影を支援することは出来ない。
本発明は、テキストが含まれる原稿を読み取る際に、テキストの可読性を確保するために、原稿の適切な撮影を支援することを目的とする。
上記課題を解決するために、本発明における画像読み取り装置は、原稿を撮影して撮影画像を作成する撮像手段と、光源に関する撮影環境を測定する撮影環境測定手段と、少なくとも原稿のサイズを含む原稿属性を判定する原稿属性判定手段と、原稿の三次元形状を算出する形状算出手段と、原稿の三次元形状を平面に投影して原稿投影平面を作成する平面作成手段と、撮影画像を原稿投影平面に投影した二次元の原稿画像を作成する画像作成手段と、二次元の原稿画像内の文書画像を解析して背景領域や文字領域を抽出する文書画像解析手段と、抽出した文字領域から文字ブロックを作成する文字ブロック作成手段と、各文字ブロック内の文字列を入力文字列としてテキスト解析して、文字列の文法的なつながりの強さを算出し、文字列中のつながりの強さが一定値以下の部位を不連続部位として抽出するテキスト解析手段と、文字列中で抽出した不連続部位の、二次元の原稿画像内の位置、及び、実原稿上の位置と向きを算出する特定手段と、二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合が一定値以下ならば、二次元の原稿画像にテキスト可読性が有ると判定し、二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合が一定値より大ならば、二次元の原稿画像にテキスト可読性が無いと判定する可読性判定手段と、二次元の原稿画像にテキスト可読性が無いと判定されたならば、不連続部位の発生原因が原稿の傾きや歪によるものであるか否か、又は、光源光の原稿からの一次反射によるものであるか否かを判定する原因判定手段と、不連続部位の発生原因を取り除く撮影条件を原稿の三次元形状と撮影環境から算出する撮影条件算出手段と、算出した撮影条件に基づいてユーザの撮影を支援する撮影支援手段と、を具備する。
本発明は、テキストが含まれる原稿を読み取る際に、テキストの可読性を確保するために、原稿の適切な撮影を支援することが出来る。
画像処理システムの構成図である。 カメラ100の外観図である。 ユーザがカメラ100を画像読み取り装置として使用している図である。 画像読み取り処理の流れ図である。 原稿の三次元形状の算出方法の一例を説明する図である。 原稿投影平面の作成方法を説明する図である。 二次元原稿画像の作成方法を説明する図である。 撮影条件、撮影条件の算出、及び、撮影支援を説明する図である。 原稿の図である。 撮影条件Aで撮影した撮影原稿画像ImgMSAの図(A)、撮影条件Aで撮影した撮影原稿画像ImgMSAから作成した二次元原稿画像Img2DMSAの図(B)である。 二次元原稿画像Img2DMSAに対して文書画像処理を行い、背景領域、文字領域、その他画像領域等に分割した図(C)、二次元原稿画像Img2DMSAから抽出した文字領域SA1〜SA25の図(D)である。 二次元原稿画像Img2DMSAから抽出した文字ブロックBA1〜BA9の図(E)、文字ブロックBA1内に存在する文字列の図(F)である。 テキスト解析処理の流れ図である。 形態素辞書の図である。 形態素接続辞書の図である。 入力文字列に対して生成された形態素ラティスの図である。 形態素ラティスに形態素間の接続のしやすさを付与した図である。 形態素ラティス内の最適経路を求める図である。 最適経路内の不連続部位を示す図である。 文字ブロックBA1内の不連続部位BER1〜BER6を示す図(A)、二次元原稿画像Img2DMSA上の不連続部位AER1〜AER27を示す図(B)である。 撮影条件算出処理Cの流れ図である。 撮影条件Bで撮影した撮影原稿画像ImgMSBの図(A)、撮影条件Bで撮影した撮影原稿画像ImgMSBから作成した二次元原稿画像Img2DMSBの図(B)である。 二次元原稿画像Img2DMSBから抽出した文字ブロックBB1〜BB5の図(C)、文字ブロックBB1内に存在する文字列の図(D)である。 カメラ100の他の例を示す外観図(A)、連続撮影による原稿の撮影を説明する図(B)である。 二次元原稿画像の作成方法を説明する図である。
以下、添付の図面を参照して、本発明をその好適な実施形態に基づいて詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
(実施形態1)
(画像処理システムの概要)
本実施形態の画像読み取り装置、および、本実施形態の画像読み取り装置とプリンタとから構成される画像処理システムの概要について説明する。本画像処理システムでは、画像読み取り装置として機能するカメラで原稿を撮影するとともに原稿の三次元形状を求め、原稿の三次元形状を用いて撮影した原稿画像を平面に投影して二次元原稿画像を作成する。次に二次元原稿画像が品質条件を満たすかどうかを判定する。
二次元原稿画像が品質条件を満たすかどうかの判定は次のように行う。文字列をテキスト解析して、文字列の文法的なつながりの強さを算出し、つながりの強さが一定値以下の部位を不連続部位として抽出する。そして、文字列中の不連続部位の割合が一定値以下ならば、文字列はテキスト可読性が有るものとする。また、二次元原稿画像内で抽出した全ての文字列中の不連続部位の割合が一定値以下ならば、二次元原稿画像はテキスト可読性が有るものとする。そして、二次元原稿画像にテキスト可読性が有るとき、二次元原稿画像は品質条件を満たすものとする。
二次元原稿画像が品質条件を満たしていれば、文字色・背景色等を補正した補正原稿画像を作成し、補正原稿画像をプリンタに送信して印刷する。二次元原稿画像が品質条件を満たしていなければ、品質条件を満たすような撮影条件を推定し、推定した撮影条件に基づいて原稿の撮影におけるユーザによるカメラ操作を支援する。
ここで、二次元原稿画像が品質条件を満たすような撮影条件の推定は、次のように行う。まず、二次元原稿画像内での(抽出した文字列の)不連続部位に対応する実原稿上の位置を求める。そして、不連続部位の発生原因が原稿の歪や傾きによるものか、または、光源の照り返しによるものかを判定する。そして、不連続部位が発生しないようなカメラの位置・向きを原稿の三次元形状を用いて算出する。
(画像処理システムの構成図)
図1は、本実施形態の画像読み取り装置として機能するカメラ100と、プリンタ200とから構成される画像処理システムの構成図である。
本実施形態の画像読み取り装置として機能するカメラ100は、原稿読み取りモード設定部101、撮影環境測定部102、原稿認識部103、原稿属性判定部104、被写体三次元形状算出部105、二次元原稿画像作成部106を具備する。
また、カメラ100は、全表面撮影判定部107、文書画像解析部108、原稿照り返し判定部109、原稿歪判定部110、フォント辞書111、文字認識部112、言語解析辞書113、テキスト解析部114、テキスト可読性判定部115を具備する。
また、カメラ100は、撮像部116、撮影原稿情報記憶部117、撮影・補正パラメータ記憶部118、制御部119、ROM120、RAM121、表示部122、操作部123、カメラ位置・向き検出部124、補正原稿画像作成部125を具備する。
また、カメラ100は、画像品質推定部126、撮影条件算出部127、撮影支援部128、印刷設定部129、通信部130を具備する。
原稿読み取りモード設定部101において、ユーザがカメラ100を原稿読み取りモードに設定すると、カメラ100は通常の写真撮影モードから原稿読み取りモードに移行する。撮影環境測定部102では、光源(照明)等の環境を計測する。
原稿認識部103では、カメラ100に映っている被写体が原稿かどうかを判定する。
原稿属性判定部104では、被写体が原稿ならばサイズや種類等の原稿属性を判定する。ここで、原稿属性は、少なくとも原稿のサイズ(A4,B5等)を含む。
被写体三次元形状算出部105では、一般に三次元の被写体として存在する原稿の三次元形状を算出する。
二次元原稿画像作成部106では、撮影した原稿画像と、計測した原稿の三次元形状と、原稿の三次元形状を平面に投影した原稿投影平面とを用いて、二次元原稿画像を生成する。
全表面撮影判定部107では、原稿の全表面が撮影されたかどうかを判定する。
文書画像解析部108では、二次元原稿画像内の背景領域、文字領域、その他の画像領域等の解析を行う。
原稿歪判定部110では、原稿の傾きや歪を判定する。
フォント辞書111には、各種文字フォントのデータが記憶されている。
文字認識部112では、二次元原稿画像内の文字を認識する。
言語解析辞書113には、形態素辞書、形態素接続辞書、文法規則等が記憶されている。
テキスト解析部114では、言語解析辞書113内のデータを用いて入力文字列の解析を行う。
テキスト可読性判定部115では、二次元原稿画像内で抽出した文字列をテキスト解析部114においてテキスト解析した結果、二次元原稿画像にテキスト可読性が有るかどうかを判定する。
撮像部116は、図2(A)に示すように、左右の2つの撮像ユニット(右撮像ユニット116Rと左撮像ユニット116L)からなり、ステレオ画像を撮影して、被写体の画像データとともに被写体の三次元形状を獲得する。また、撮像部116は、撮影環境測定部102、原稿認識部103、被写体三次元形状算出部105の機能の一部または全部を備えていても良い。
撮影原稿情報記憶部117には、撮影した原稿の元画像が記憶される。
撮影・補正パラメータ記憶部118には、撮影時の撮影パラメータ(位置、向き、時刻、ズーム、露光等)と、撮影した原稿の元画像から補正原稿画像を作成する際に用いた補正パラメータが、撮影した原稿の元画像に対応付けて記憶される。
カメラ位置・向き検出部124では、カメラ100の位置や向きが検出される。ここで、カメラ100の位置や向きの検出は、GPS・各種センサー・アンテナ等によって行う。また、カメラ100の位置や向きの検出は、撮影した画像内を認識・解析することによって、被写体との相対的な位置関係を算出することによって行っても良い。
補正原稿画像作成部125では、二次元原稿画像内の文字や直線の歪や、照り返しの影響等を補正した補正原稿画像を作成する。
画像品質推定部126では、作成した補正原稿画像が印刷時や表示時における一定の品質条件(テキスト可読性、文字歪や照り返しの影響)を満たしているかどうかを推定する。
撮影条件算出部127では、一定以上の品質条件(テキスト可読性)を持つ原稿画像を撮影するためのカメラ100の撮影条件(位置、向き、ズーム、露光等)を算出する。
撮影支援部128では、算出した撮影条件を満たすように、ユーザによるカメラ100の操作を支援する。
印刷設定部129では、補正原稿画像をプリンタ200に送信して印刷する際の印刷条件(用紙サイズ、倍率、枚数等)を設定する。
通信部130では、印刷指定された補正原稿画像を設定した印刷条件とともにプリンタ200に送信する。
プリンタ200は、プリンタ属性記憶部201、印刷部202、通信部203を具備する。プリンタ属性記憶部201には、プリンタ200の各種属性が記憶されており、カメラ100で作成した補正原稿画像の印刷時に必要なプリンタ属性がカメラ100に送られる。通信部202では、印刷指定された補正原稿画像を印刷条件とともに、カメラ100から受信する。
印刷部203では、カメラ100から受信した補正原稿画像を印刷条件に従って印刷する。図2(A)〜(C)は、カメラ100の外観図である。図2(A)はカメラ100の表面図、図2(B)は裏面図、図2(C)は斜視図である。図に示すように、本カメラ100は、右撮像ユニット116Rと左撮像ユニット116Lとを具備し、ステレオ画像を撮影して、被写体の画像データとともに被写体の三次元形状を獲得する。カメラ100の裏面に設置された表示部122には、撮影中の画像や撮影支援情報等が表示される。また、カメラ100の上部や裏面には、複数のボタン等からなる操作部123が設置されている。また、操作部123は、表示部122上にタッチパネルとして積層配置されていても良い。
図3は、本画像処理システムにおいて、ユーザがカメラ100を画像読み取り装置として使用している図である。ここで、ユーザがカメラ100で原稿MSを撮影する際には、表示部122に撮影支援画面122Xが表示される。ここで、撮影支援画面122Xには、例えば、認識した原稿属性のナビゲーションNV1や、カメラの移動方向のナビゲーションNV2〜NV4等が表示される。
(画像読み取り処理の流れ図)
図4は、本実施形態の画像読み取り装置として機能するカメラ100において行われる、画像読み取り処理の流れ図である。
ステップS301において、カメラを原稿読み取りモードに設定する。
ステップS302において、原稿読み取り処理を終了するかどうか判定する。ステップS302において、YESならば原稿読み取り処理を終了し、NOならばステップS303に移る。
ステップS303において、撮影環境を測定する。ここでは、例えば、撮影環境測定部102によって、光源(照明)の位置・方向・スペクトル等を測定する。ここでは、光源の位置や方向をマップに記憶しておいても良い。
ステップS304において、原稿を撮影する。原稿の撮影は、ユーザがカメラを操作して手動で行っても良いし、カメラの各種パラメータを制御して自動的に行っても良い。また、ここでは、後述する撮影条件算出処理A(ステップS307)、撮影条件算出処理B(ステップS310)、撮影条件算出処理C(ステップS318)において算出した撮影条件に基づいて、ユーザの原稿の再撮影を支援する。
ステップS305において、サイズ等の原稿属性を判定する。
ステップS306において、原稿属性の判定の可否をユーザが判定する。ここでは、図3に示すように、表示部122の撮影支援画面122X内の原稿の原稿属性が、サイズ=「A4」であることが自動判定され、自動判定結果が撮影支援画面122Xに撮影支援情報NV1として表示される。ここで自動判定された原稿属性が「可」であるとユーザが判定すればステップS308に移り、自動判定された原稿属性が「否」であるとユーザが判定すればステップS307に移る。
ステップS307において、原稿属性を判定できる撮影条件を算出し(撮影条件算出処理A)、ステップS302に移る。ここでは、例えば、形や大きさから原稿である確率が高いと判定した被写体にズームインしたり、距離を近づけたりするような撮影条件を算出する。そして、算出した撮影条件に基づいて、ユーザによるカメラの位置や向きの操作を支援して再撮影を行う(ステップS304)。また、ユーザが原稿属性を設定しても良い。
ステップS308において、被写体三次元形状算出部105によって、撮影した被写体(原稿)の三次元形状を算出する(原稿三次元形状算出)。撮影した原稿の三次元形状の算出方法の一例を、図5を用いて説明する。ここでは、左右の撮像ユニット116Rと116Lを具備したカメラ100で、原稿MSを撮影してステレオ法によって原稿三次元形状を算出する。まず、右撮像ユニット116Rで撮影した画像をImgR、左撮像ユニット116Lで撮影した画像をImgLとし、画像ImgR内の原稿画像を右撮影原稿画像ImgMSR、画像ImgL内の原稿画像を左撮影原稿画像ImgMSLとする。今、実原稿MS上の注目点Pに対応する、右撮影原稿画像ImgMSR内の注目点をPAとし、左撮影原稿画像ImgMSL内の注目点をPBとする。注目点PAと注目点PBとの対応付けは、右撮影原稿画像ImgMSR内および左撮影原稿画像ImgMSL内の特徴量の対応付け等によって行う。このとき、右撮像ユニット116Rと左撮像ユニット116Lとの間の距離が既知なので、カメラ100に対する注目点Pの相対的な位置関係が算出することが可能である。このように、原稿MS上の複数の注目点のカメラ100に対する相対的位置関係を求めることによって、原稿三次元形状3DMSを算出する。ここでは、原稿三次元形状3DMSは、複数のポリゴンPOL(i)(i=1、2、・・・)によって形成される。また、各iに対して、ポリゴンPOL(i)は、3つ以上の頂点A(i)、B(i)、C(i)、(D(i)、・・・)によって形成される。また、ポリゴンPOL(i)の向きは、法線ベクトルNP(i)によって特徴づけられる。ここでは、図5に示すように、原稿の三次元形状3DMSをポリゴンパッチによって表現しているが、曲面パッチやその他の方法を用いて原稿の三次元形状を表現しても良い。また、ここでは、ステレオ法によって原稿の三次元形状を算出しているが、他の方法で原稿の三次元形状を算出しても良い。以下では、右撮影原稿画像ImgMSRを撮影原稿画像ImgMSとする。また、ここでは、撮影原稿画像ImgMS上の任意の点PAに対応する、原稿三次元形状3DMS上の点PA1が得られる。
ステップS309において、原稿の全表面を撮影できたかどうかを判定する。以下の説明では、図5に示すように、カメラの位置をPC、カメラの撮像部の(1つの)レンズの向きを特徴づける単位ベクトルをNC、カメラの水平方向の傾きを特徴づける単位ベクトルをHCとする。ここでは、図5における、各ポリゴンPOL(i)の法線ベクトルNP(i)と、カメラのレンズの向きNCとのなす角をθ(i)としたとき、全てのi=1、2、・・・に対して、例えば、110°<θ(i)が成り立つかどうかによって判定する。
ステップS309において、原稿の全表面が撮影されたと判定すれば、ステップS311に移る。ステップS309において、原稿の全表面が撮影されていないと判定すれば、ステップS310に移る。
ステップS310において、原稿の全表面を撮影できる撮影条件を算出(撮影条件算出処理B)し、ステップS302に移る。ここでは、例えば、全てのiに対して、135°<θ(i)となるように、撮影条件(カメラの位置・向き)を算出する。そして、算出した撮影条件に基づいて、ユーザによるカメラの位置や向きの操作を支援して再撮影を行う(ステップS304)。
ステップS311において、原稿三次元形状を平面に投影した原稿投影平面を作成する(原稿投影平面作成)。図6を用いて、原稿投影平面の作成の一例を説明する。今、ポリゴンパッチで表現された原稿三次元形状3DMSにおいて、原稿の4つの頂点を、3DA、3DB、3DC、3DDとし、これらに対応する原稿投影平面2DPTの4つの頂点を、それぞれ2DA、2DB、2DC、2DDとする。また、原稿三次元形状3DMSの表面上の任意の点をPP1とする。点PP1から、原稿三次元形状3DMSの表面を通って、原稿の下辺3DA−3DBに達する最短の折れ線または曲線を求め、求めた折れ線または曲線が原稿の下辺3DA−3DBに到達する点をPP1Xとする。このときの、原稿の下辺3DA−3DBに沿った折れ線または曲線3DA−PP1Xの長さをPXとする。また、点PP1から、原稿三次元形状3DMSの表面を通って、原稿の左辺3DA−3DDに達する最短の折れ線または曲線を求め、求めた折れ線または曲線が原稿の左辺3DA−3DDに到達する点をPP1Yとする。このときの、原稿の左辺3DA−3DDに沿った折れ線または曲線3DA−PP1Yの長さをPYとする。次に、原稿投影平面2DPTにおいて、頂点2DAを原点Oと一致させ、頂点2DAから頂点2DBの方向にX軸をとり、頂点2DAから頂点2DDの方向にY軸をとって、X−Y平面座標を定義する。すると、原稿三次元形状3DMS上の点PP1に対応する、原稿投影平面2DMS上の点PP2のX座標値はPXとなる。また、点PP1に対応する点PP2のY座標値はPYとなる。このように、原稿三次元形状3DMSの表面上の任意の点PP1に対応する、原稿投影平面2DMS上の点PP2が求められる。また、ここでは、原稿三次元形状3DMS上の任意の点PA1に対応する、原稿投影平面2DMS上の点PA2が得られる。
ステップS312において、二次元原稿画像を作成する。図7を用いて、二次元原稿画像の作成の一例を説明する。ここでは、撮影原稿画像ImgMS上の任意の点PAの画素値を、二次元原稿画像Img2DMS上に投影する。まず、撮影原稿画像ImgMS上の任意の点PAに対応する原稿三次元形状を3DMS上の点をPA1とする(ステップS308)。次に、三次元原稿形状3DMS上の点PA1に対応する原稿投射平面2DPT上の点をPA2(=IPA)とする(ステップS311)。そして、撮影原稿画像ImgMS上の点PAの画素値を、二次元原稿画像Img2DMS上の点IPAに投影する。
ステップS313において、二次元原稿画像Img2DMS内の画像を、背景(白紙)領域、文字領域、その他の画像領域等に分割する文書画像解析を行う。ここでの、文書画像解析は公知の方法で行う。例えば、図9に示す原稿MSを、図8に示す撮影条件Aで撮影(ステップS304)した結果、図10(A)に示す撮影原稿画像ImgMSAが得られたとする。また、図10(A)の撮影原稿画像ImgMSAに対して、ステップS305〜S312の処理を行った結果、図10(B)のような二次元原稿画像Img2DMSAが得られたとする。図10(B)において、AHZM1とAHZM2は、原稿の傾きや歪の影響で一定以上の情報が欠落している部分であり、AHNSは、照り返しの影響で一定以上の情報が欠落している部分である。このようにして得られた、図10(B)に示す二次元原稿画像Img2DMSAに対して、文書画像解析を行う。まず、二次元原稿画像Img2DMSAに対して、極大白矩形の抽出等によって背景領域を抽出する。図11(C)において、黒い部分が背景領域である。次に、背景領域以外の部分から、文字認識によって文字を抽出する。ここでは、文字認識における確信度が95%以上のものを文字として抽出し、抽出された文字の部分を文字領域とする。図11(C)において、白い部分が文字領域である。次に、背景領域と文字領域以外の部分を、その他の画像領域とする。図11(C)において、灰色の部分が、その他の画像領域である。図11(D)に、二次元原稿画像Img2DMSAから抽出した各文字領域SA1〜SA25、および、各文字領域内の文字を示す。例えば、文字領域SA1には文字列“景]”(左記の]は隅付き括弧とする)が、文字領域SA2には文字列“メラを用いることで、より自由な状”が存在する。また、文書画像解析はここで述べた以外の如何なる方法で行っても良い。
ステップS314において、文字ブロックを作成する(文字ブロック作成)。まず、隣接している各文字領域を纏めて、文字ブロックを作成する。ここでは、図11(D)に示す各文字領域SA1〜SA25に対して、図12(E)に示す文字ブロックBA1〜BA9を作成する。例えば、文字領域SA1、SA2、SA3から文字ブロックBA1が作成される。文字ブロックBA1には、図12(F)に示す文字列“景](左記の]は隅付き括弧とする)(改行)メラを用いることで、より自由な状(改行)姿勢、操作等)で原稿のスキャン”が存在する。また、例えば、文字領域SA4、SA5、SA7からは、文字ブロックBA2が作成される。
ステップS315において、各文字ブロック内の文字列のテキスト解析処理を行う。ここでは、各文字ブロック内の文字列を解析し、文字列の文法的なつながりの強さ算出する。テキスト解析処理(図13)の詳細は後述する。
ステップS316において、テキスト解析処理(図13)で抽出した不連続部位の実原稿上における位置・向きを算出する(不連続部位特定)。ここでは、例えば、図12(F)に示す入力文字列に対して得られた不連続部位ER1〜ER6(図19)の実原稿上における位置・向きを算出する。ここで、ダミーの形態素ID=“ND1”上にある不連続部位ER0は、実原稿上には存在しない。図20(A)に、入力文字列中の不連続部位ER1〜ER6に対応する、文字ブロックBA1内の位置を、それぞれ不連続部位BER1〜BER6で示す。また、図20(B)に、入力文字列中の不連続部位ER1〜ER6の位置に対応する、二次元原稿画像Img2DMSA上の位置を、それぞれ不連続部位AER1〜AER6で示す。同様に、図12(E)に示す文字ブロックBA1〜BA9内に存在する全ての不連続部位に対応する二次元原稿画像Img2DMSA上の不連続部位を、図20(B)のAER1〜AER27に示す。ここで、例えば、図20(B)における、不連続部位ARE5内に存在する点P2DA5を考える。ステップS312で述べたように、撮影原稿画像上の任意の点に対応する、原稿三次元形状上の点、及び、二次元原稿画像上の点が求められる。さらに、原稿三次元形状、及び、原稿とカメラとの相対的位置関係を用いて、これらの点に対応する実原稿上の点が求められる。従って、二次元原稿画像Img2DMSA上の点P2DA5(図10(B))に対応する、撮影原稿画像ImgMSA上の点をPA5(図10(A))が求められる。さらに、撮影原稿画像ImgMSA上の点PA5(図10(A))に対応する、実原稿MS上の点P5(図8)が求められる。また、原稿三次元形状、及び、原稿とカメラとの相対的位置関係を用いて、点P5における原稿MSの法線ベクトルNP5が求められる。同様に、不連続部位ARE23内に存在する点P2DA4(図20(B))に対応する、実原稿MS上の点P4及び点P4における法線ベクトルNP4(図8)が求められる。同様に、不連続部位ARE22内に存在する点P2DA6(図20(B))に対応する、実原稿MS上の点P6及び点P6における法線ベクトルNP6(図8)が求められる。
ステップS317において、二次元原稿画像にテキスト可読性の有無を判定する。また、二次元原稿画像に「テキスト可読性が有る」以外のときは、「テキスト可読性が無い」とする。ここでは、二次元原稿画像内の不連続部位の割合が一定値以下に場合は、「テキスト可読性が有る」と判定する。二次元原稿画像内の不連続部位の割合は、「二次元原稿画像内における、抽出された不連続部位の数/抽出された文字領域内の文字数」で表す。具体的には、テキスト解析処理(ステップS3154)で抽出した不連続部位の割合が0.05以下であるかどうかを判定する。例えば、撮影条件Aで得られた二次元原稿画像Img2DMSAに対しては、抽出された文字領域内の文字数は148個(図11(D))であり、抽出された不連続部位の数は27個(図20(B))である。従って、このときは、二次元原稿画像Img2DMSA内の不連続部位の割合=27/148>0.05となり、ステップS317においてNOと判定される。
ステップS317においてYESならば、ステップS318に移る。ステップS317においてNOならば、ステップS319に移る。
ステップS318において、不連続部位の発生原因を取り除く撮影条件の算出を行い(撮影条件算出処理C)、ステップS302に移る。撮影条件算出処理Cの詳細は後述する。
ステップS319において、二次元原稿画像から補正原稿画像を作成する。ここでは、フォント辞書111を用いて文字歪を補正したり、背景色や文字色を補正したりする。
ステップS320において、補正原稿画像に対応する元の撮影画像と、撮影パラメータ・補正パラメータを対応付けて記憶する。
ステップS321において、補正原稿画像と(ユーザが設定した)印刷パラメータとをプリンタに送信する。プリンタ側では、印刷パラメータと補正原稿画像を受信し、印刷パラメータに従って補正原稿画像を印刷する。
また、ステップS301〜S321の処理は、カメラ側で行っているが、これらの処理の幾つかをプリンタ側またはサーバ上で行っても良い。
また、ステップS305の原稿属性判定、または、ステップ313の文書画像解析において、コピー禁止原稿か否かを判定し、コピー―禁止原稿と判定した場合は、所定の処理を行うようにしても良い。
(テキスト解析処理の流れ図)
ステップS315のテキスト解析処理の一例を、図13の流れ図を用いて詳細に説明する。ここでは、入力文字列から生成した形態素ラティスから、形態素の確からしさと形態素間の接続のしやすさを用いて形態素列の最適経路を求め、最適経路中の文字列の文法的なつながりの強さを算出する。また、入力文字列中の不連続部位の抽出を行う。
入力文字列として、図12(F)に示す、“景](左記の]は隅付き括弧とする)(改行)メラを用いることで、より自由な状(改行)姿勢、操作等)で原稿のスキャン”が与えられた場合について具体的に説明する。テキスト解析処理は、テキスト解析部114において、言語解析辞書113(図1)を用いて行われる。言語解析辞書113は、形態素辞書、形態素接続辞書、シソーラス、文法規則、統計データ等を具備する。
まず、ステップS3151において、入力文字列に対して形態素辞書を引き、形態素ラティスを生成する。図14に、形態素辞書の一例を示す。形態素辞書は、見出し(形態素)、品詞等、(形態素の)確からしさからなる。ここで、確からしさは、0.0〜1.0の間の値をとり、未知語や出現頻度が極端に小さい形態素に対しては、0.1〜0.2のような小さい値をとる。入力文字列に対して形態素辞書を引いた結果は、図16のようになる。各形態素にはID、見出し、品詞等、確からしさが付与される。ここで、例えばID=“N1”の形態素は、見出し=“景”、品詞等=“名詞”、確からしさ=1.0である。また、ID=“N10“の形態素は、見出し=“る”、品詞等=“上一段活用動詞の活用語尾(連体形)”、確からしさ=1.0である。このとき、ID=“N1”の形態素の確からしさが1.0であることをW(N1)=1.0のように記述する。
ステップS3152において、図16の隣り合う2つの形態素に対して、形態素接続辞書を引き、(形態素間の)接続のしやすさの値を付与する。図15に、形態素接続辞書の一例を示す。図15に示すように、形態素接続辞書には、形態素間(または品詞間等)の接続のしやすさが、0.0〜1.0の値で記憶されている。例えば、“を”(格助詞)と“用い”(他動詞:五段活用)との間の接続のしやすさは0.9である。また、例えば、“こ”(「粉」:名詞)と“と”(「戸」:名詞)との間の接続のしやすさは0.5である。また、形態素間の接続のしやすさの値は、形態素接続辞書に直接記憶しておいても良いし、形態素の品詞・意味素性・シソーラス等を用いて算出するようにしてもよい。図17は、形態素ラティスに形態素間の接続のしやすさを付与したものである。図17において、例えば、ID=“N5”の形態素とID=“N6”の形態素間の接続のしやすさは0.9であるが、以下ではこれをC(N5、N6)=0.9のように記述する。同様に、C(N20、N23)=0.2である。また、例えば、次の、規則101、規則102、・・・等の規則を優先順位に従って適用する。
規則101=「見出し=“[”(左記の[は隅付き括弧とする)と、見出し=“]”(左記の]は隅付き括弧とする)とはペアとして文中に出現し、片方だけ出現するときは、他方をダミーとして文頭(または文末)に付加する」
規則102=「規則101のとき、ペアとなっている形態素は接続のしやすさは0.1、ダミーの形態素の確からしさは0.1、ダミーの形態素のペア以外との接続のしやすさは0.0とする」
ここでは、文頭に、ID=“ND1”見出し=“[”(左記の[は隅付き括弧とする)、品詞等=“記号”、確からしさ=0.1の形態素を付加する。このとき、C(ND1,N1)=0.0、C(ND1、N2)=0.1である。
ステップS3153において、形態素ラティスの先頭から後方に辿ったときに通る、形態素および形態素間接続に対して、「経路評価値=(形態素の)確からしさ×(形態素間の)接続のしやすさの積」が最大となる経路(=最適経路)を求める。
以下では、IDが“NX1”、“NX2”、・・・、“NXj”の形態素を、“NX1”から“NXj”まで順番に辿った時の経路をROOT(NX1−NX2−・・・−NXj)のように記述する。また、このときの経路評価値をEVAL(NX1−NX2−・・・−NXj)のように記述する。このとき、EVAL(NX1−NX2−・・・−NXj)=W(NX1)C(NX1、NX2)W(NX2)・・・W(NXj)のように計算できる。
また、“NXi”から“NXj”まで辿った時の複数の経路の中の経路評価値の最大値をEMAX(NXi,NXj)と記述し、このときの最適経路をBROOT(NXi、NXj)のように記述する。
図18を用いて、最適経路を求める具体例を説明する。
まず、最初に、前方のID=“ND1”、ID=“N1”、ID=“N2”の形態素について、最適経路BROOT(ND1、N2)を考える。各形態素の確からしさは、それぞれW(ND1)=0.1、W(N1)=1.0、W(N2)=1.0である。また、形態素間の接続のしやすさは、それぞれC(ND1、N1)=0.0、C(ND1、N2)=0.1、C(N1、N2)=0.9である。
このとき、ROOT(ND1−N1−N2)に対して、EVAL(ND1−N1−N2)=W(ND1)C(ND1、N1)W(N1)C(N1、N2)W(N2)=0.1×0.0×1.0×0.9×1.0=0.0となる。
また、ROOT(ND1−N2)に対して、EVAL(ND1−N2)=W(ND1)C(ND1、N2)W(N2)=0.1×0.1×1.0=0.01となる。
従って、EMAX(ND1、N2)=MAX(EVAL(ND1−N1−N2)、EVAL(ND1−N2))=EVAL(ND1−N2)=0.01となり、このときの最適経路はBROOT(ND1、N2)=ROOT(ND1−N2)である。
また、最適経路BROOT(ND1、N2)内の文法的なつながりの強さは、W(ND1)=0.1、C(ND1、N2)=0.1、W(N2)=1.0によって表される。
同様に、最適経路を求める一例として、図18における、ID=“N5”からID=“N10までの形態素について、最適経路BROOT(N5、N10)を考える。まず、ID=“N5”からID=“N10までの全経路を抽出すると、下記のようになる。
ROOT(N5−N6−N9−N10)
ROOT(N5−N7−N9−N10)
ROOT(N5−N8−N10)
次に、これらの各経路の経路評価値を求めると下記のようになる。
EVAL(N5−N6−N9−N10)=W(N5)C(N5、N6)W(N6)C(N6、N9)W(N9)C(N9、N10)W(N10)=1.0×0.9×1.0×0.2×1.0×0.9×1.0
EVAL(N5−N7−N9−N10)=W(N5)C(N5、N7)W(N7)C(N7、N9)W(N9)C(N9、N10)W(N10)=1.0×0.1×1.0×0.5×1.0×0.9×1.0
EVAL(N5−N8−N10)=W(N5)C(N5、N8)W(N8)C(N8、N10)W(N10)=1.0×0.9×1.0×0.9×1.0
すると、EMAX(N5、N10)=EVAL(N5−N8−N10)なので、ここでは、最適経路BROOT(ND5、N10)=ROOT(N5−N8−N10)となる。
各文字(形態素)間の文法的なつながり具合は、最適経路、最適経路内の各形態素の確からしさ、最適経路内の形態素間の接続のしやすさで表される。図18における、ID=“ND1”〜“N34までの形態素に対して、最適経路は以下のようになる。すなわち、BROOT(ND1、N34)=ROOT(ND1−N2−N3−N4−N5−N8−N10−N14−N17−N18−N21−N26−N28−N29−N32−N34)である。また、形態素の確からしさは、W(ND1)=0.1、・・・W(N5)=1.0・・・等である。また、形態素間の接続のしやすさはC(ND1、N2)=0.1、・・・、C(N18、N21)=0.9・・・等である。
次に、ステップS3154において、各文字ブロック内の文字列のつながりの強さが一定値以下の部位(不連続部位)を抽出する。ここでは、最適経路内で、形態素の確からしさW(X)≦0.5、または、形態素間の接続のしやすさC(Ni、Nj)≦0.5となっている部分を、不連続部位として抽出する。図19に、最適経路内で抽出した不連続部位ER0〜ER6を示す。ここで、C(N29,N32)=0.4のように、改行をはさんでいる場合は、改行の前後に、2か所の不連続部位ER5とER6が生じるものとする。
ここでは、テキスト解析処理の一例を述べたが、これ以外の方法で、文字列(または形態素)の文法的なつながり具合を算出してもよい。
(撮影条件算出処理Cの流れ図)
ステップS318の撮影条件算出処理Cを、図21の流れ図を用いて詳細に説明する。
ここでは、例えば、図8において、撮影条件Aで撮影した撮影原稿画像ImgMSAのテキスト可読性が無いとき、テキスト可読性が有る撮影原稿画像ImgMSBを撮影できるような撮影条件Bを算出する。前述したように、カメラの位置はPC、カメラの撮像部の(1つの)レンズの向きを特徴づける単位ベクトルはNC、カメラの水平方向の傾きを特徴づける単位ベクトルはHCである(図5)。これらの、PC、NC、HCは、撮影条件によって変わる変数である。例えば、図8に示す撮影条件Aでは、PC=PCA、NC=NCA、HC=HCAである。また、図8に示す撮影条件Bでは、PC=PCB、NC=NCB、HC=HCBである。
ステップS3181において、(撮影条件Aにおいて)原稿の傾きや表面の歪(それによって生じる文字の歪)によって発生した不連続部位が有るかどうかを判定する(不連続部位発生原因判定)。例えば、入力文字列中の不連続部位ER5(図19)について考えると、不連続部位ER5は、図20(B)に示す二次元原稿画像Img2DMSA上の不連続部位AER5に対応する。さらに、不連続部位AER5内の点P2DA5は、図8に示す実原稿MS上の点P5に対応する。ここで、点P5における法線ベクトルNP5と、(撮影条件Aにおける)カメラの向きNCAとのなす角をθP5Aとする。このとき、例えばθP5A≦135°ならば、不連続部位ER5の発生原因が、原稿の傾きや歪(それによって生じる文字の歪)によるものであると判定する。同様に、図20(B)に示す二次元原稿画像Img2DMSA上の全ての不連続部位AER1〜AER27に対して、原稿の傾きや表面の歪によって生じたものかどうかを判定する。
ステップS3181においてYESと判定されれば、ステップS3182に移る。ステップS3181においてNOと判定されれば、ステップS3183に移る。
ステップS3182において、原稿の傾きや表面の歪(それによって生じる文字の歪)の生じない撮影条件(条件1)を算出する。例えば、点P5(図8)と同様の、原稿の傾き(歪)によって生じる不連続部位に対応する原稿上の点を、全て又は幾つか抽出し、抽出したこれらの点をPKj(j=1、2、・・・)とする。また、点PKjにおける原稿上の法線ベクトルをNPKj(j=1、2、・・・)とする。このとき、レンズの向きNCに対して、NCとNPKjとのなす角をθCKjとし、全てのjに対して、(例えば)θCKj>135°となるような、NCのとりうる範囲を求める。次に、求めた各NCの値に対して、原稿がカメラの画角に入るような、カメラの位置PCのとりうる範囲を求める。このように求めたカメラの位置PCとレンズの向きNCのとりうる範囲を(条件1)とする。
次に、ステップS3183において、(撮影条件Aにおいて)原稿の照り返し(光源光の原稿表面における一次反射光)によって発生した不連続部位が有るかどうかを判定する(不連続部位発生原因判定)。例えば、図20(B)に示す二次元原稿画像Img2DMSA上の不連続部位AER22について考える。不連続部位AER22内の点P2DA6は、図8に示す実原稿MS上の点P6に対応する。このとき、原稿上の点P6と、法線ベクトルNP6と、光源の位置PL1(または光源方向)と、カメラの位置PCA、レンズの向きNCAとから、光源光の原稿表面(点P6)における一次反射光(DL1)が、レンズに入射するかどうかを判定できる。光源光の原稿表面(点P6)における一次反射光(DL1)が、レンズに入射すると判定した場合は、二次元原稿画像Img2DMSA上の不連続部位AER22は、原稿の照り返しによるものであると判定する。同様に、図20(B)に示す二次元原稿画像Img2DMSA上の全ての不連続部位AER1〜AER27に対して、原稿の照り返しによって生じたものかどうかを判定する。
ステップS3183においてYESと判定されれば、ステップS3184に移る。ステップS3183においてNOと判定されれば、ステップS3185に移る。
ステップS3184において、原稿の照り返しの生じない撮影条件(条件2)を算出する。例えば、点P6(図8)と同様の、原稿の照り返しによって生じる不連続部位に対応する原稿上の点を、全て又は幾つか抽出し、抽出したこれらの点をPTj(j=1、2、・・・)とする。また、点PTjにおける原稿上の法線ベクトルをNPTj(j=1、2、・・・)とする。光源の位置PL1(または光源の方向)と、PTjとNPTjの値から、光源光の原稿表面の点PTjにおける一次反射光PL1jの経路が算出できる。全てのj(j=1、2、・・・)に対して、一次反射光PL1jの通過しない空間領域をSPTとする。そして、カメラの位置PCは、空間領域SPT内に存在するようにする(条件2)とする。
ステップS3185において、(条件1)と(条件2)を同時に満たす撮影条件を算出する。ここでは、例えば、撮影条件B(図8)が算出される。また、原稿の位置や向きを変更することによって(条件1)と(条件2)を同時に満たす撮影条件を算出してもよい。
(画像読み取り装置の動作の説明)
本画像読み取り装置の動作の説明を行う。前述したように、まず、ユーザが撮影条件A(図8)で原稿MS(図9)を撮影した結果、撮影原稿画像ImgMSA(図10(A))が得られる(ステップS304)。撮影原稿画像ImgMSAから、原稿三次元形状3DMSが得られ(ステップS308)、また、二次元原稿画像Img2DMSA(図10(B))が得られる(ステップS312)。二次元原稿画像Img2DMSAの文書画像解析を行った結果、文字領域が抽出され(図11(C)〜(D)、ステップS313)、隣接する文字領域が文字ブロック(図12(E))にまとめられる(ステップS314)。各文字ブロック内の文字列のテキスト解析処理(図13、ステップS315)を行って、文字列の文法的なつながりの強さを算出する(図18)。文字列の文法的なつながりの強さから、文字列中の不連続部位を求め(ステップS3154)、不連続部位の実原稿上における位置・向きを算出する(ステップS316)。撮影条件Aで得られた二次元原稿画像Img2DMSAに対しては、抽出された不連続部位の割合が一定値以上(=テキスト可読性無し)と判定される(ステップS317)。撮影条件算出処理Cに移り新たな撮影条件B(図8)を算出する(ステップS318)。このとき、撮影条件Aのカメラ100の表示部122には、撮影支援画面122Aを表示して、ユーザの撮影操作を支援する。ここでは、撮影支援画面122Aに、ナビゲーションNV5〜NV14を表示して撮影を支援している(図8)。ナビゲーションNV5には、認識した原稿属性が「原稿:A4」と表示される。また、現在(撮影条件A)のカメラの位置・向きはナビゲーションNV6とNV7で表示される。また、新たな撮影条件Bでのカメラの位置・向きは名ナビゲーションNV13とNV14で表示される。また、撮影条件Aから撮影条件Bへの移行方法は、ナビゲーションNV8〜NV12で表示される。これらのナビゲーションは、音声等で提示しても良い。
ユーザがナビゲーションに従ってカメラを操作して、カメラを新たな撮影条件Bに移行させ、再度原稿を撮影する(ステップS304)。新たな撮影条件Bで撮影した撮影原稿画像ImgMSB(図22(A))から、二次元原稿画像Img2DMSB(図22(B))が作成され(ステップS312)る。ここで、実原稿上の点P4、P5、P6(図8)は、それぞれ、撮影原稿画像ImgMSB上の点PB4、PB5、PB6(図22(A))、及び、二次元原稿画像Img2DMSB内の点P2DB4、P2DB5、P2DB6(図22(B))に対応している。さらに、二次元原稿画像Img2DMSBに対して、文書画像解析を行い(ステップS313)、図23(C)のような文字ブロックBB1〜BB5が作成される(ステップS314)。図23(D)に、文字ブロックBB1内の文字列を示す。今、これらの文字ブロックBB1〜BB5内の文字列を入力文字列として、テキスト解析処理(ステップS315)を行う。その結果、文字ブロックBB1〜BB5内の文字列には不連続部位が存在しない(=テキスト可読性有)と判定されたとする(ステップS317)。更に、その結果、二次元原稿画像Img2DMSBに対して、文字歪の補正や、背景色や文字色の補正を行った補正原稿画像が作成され(ステップS319)、作成された補正原稿画像が印刷パラメータとともにプリンタに送信される(ステップS321)。
(実施形態1効果)
本実施形態においては、ユーザはカメラで原稿を撮影することによって、原稿の読み取りを行い、読み取った原稿をプリンタに送信して印刷する。このとき、原稿の撮影を支援することで、テキスト可読性のある原稿画像を得ることが出来る。
(実施形態2)
本実施形態では、撮像部が一つのカメラで原稿を連続的に撮影し、複数の撮影原稿画像を複数の注目点(特徴点)の対応付けによって位置合わせして、二次元原稿画像を作成する例を述べる。ここでは、図24(A)に示すような、一つの撮像部116を具備するカメラ100を操作して、図24(B)のように原稿MSを連続撮影する。図24(B)に、撮影する原稿MSと、連続撮影の時刻Tj(j=1、2、・・・、n)におけるカメラ100の位置・向き100(Tj)を示す。今、図25に示すように、各時刻Tjで(異なる角度で)撮影した撮影原稿画像ImgMS(Tj)が得られたとする。また、原稿の形状は、撮影時には変化しないものとする。このとき、一定数以上の(原稿上の)共通の注目点がそれぞれの撮影原稿画像ImgMS(Tj)に写っていれば、それらの点の撮影原稿画像内における位置情報から各時刻Tjのカメラの位置情報を求めることができる。また、同時に各注目点の位置情報を求めることができる。このようにして求めた各注目点の位置情報から、原稿三次元形状3DMSが得られる。次に、ステップS311の方法で、原稿投影平面2DPTを作成する。次に、ステップS312の方法で、各撮影原稿画像ImgMS(Tj)に対して、二次元原稿画像Img2DMS(Tj)をそれぞれ作成する。今、ステップS315のテキスト解析処理の結果、二次元原稿画像Img2DMS(T1)内で品質不良領域(不連続部位の存在する領域)が、例えばNG1になったとする。また、同様に、二次元原稿画像Img2DMS(T2)内の品質不良領域がNG2になり、二次元原稿画像Img2DMS(T3)内の品質不良領域がNG3とNG4になったとする。また、二次元原稿画像Img2DMS(T1)内の注目点PPP1(T1)と二次元原稿画像Img2DMS(T2)内の注目点PPP1(T2)のように、複数の注目点の対応関係が得られているものとする。このとき、これらの注目点を用いて、各二次元原稿画像Img2DMS(Tj)内の品質不良領域NG1、NG2、・・・、を除いた部分を位置合わせして、品質不良領域のない一枚の二次元原稿画像Img2DMSを作成する。このように作成した二次元原稿画像Img2DMSを用いて、ステップS313以降の処理を行う。
また、本実施形態では、一定以上の品質(テキスト可読性)の二次元原稿画像が作成できる複数の撮影原稿画像が得られるまで、ユーザの撮影を支援しながら連続撮影してもよい。
また、複数の被写体(書籍の複数のページ、両面印刷、複数の原稿等)を読み取り指定した場合は、一枚の原稿又は1ページ毎に、一定以上の品質(テキスト可読性)を満たす情報が得られたかどうかを判定し、必要な情報が得られるように撮影を支援しても良い。
(実施形態2効果)
本実施形態においては、カメラで原稿を撮影して、一定以上の品質(テキスト可読性)を保持する原稿画像を得る際に、撮像部が一つのカメラで原稿の三次元形状を作成できる。
(その他の実施形態)
以上、実施形態例を詳述したが、本発明は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
本発明によれば、カメラで原稿を撮影することで、ユーザが機器の前で場所や姿勢を束縛されたり、ユーザがスキャナの開閉操作をしたり、スキャナの所定の位置に原稿をセットしたりすることがなくなる。よって、より自由な状態(場所、姿勢、操作等)で原稿のスキャンを行う。これによって、原稿のスキャンやコピーの際に、ユーザビリティーの向上を図ることができる。また、このとき、カメラで撮影した原稿画像の、印刷時や閲覧時における一定以上の品質(テキスト可読性)を確保することができる。
100 カメラ
101 原稿読み取りモード設定部
102 撮影環境測定部
103 原稿認識部
104 原稿属性判定部
105 被写体三次元形状算出部
106 二次元原稿画像作成部
107 全表面撮影判定部
108 文書画像解析部
109 原稿照り返し判定部
110 原稿歪判定部
111 フォント辞書
112 文字認識部
113 言語解析辞書
114 テキスト解析部
115 テキスト可読性判定部
116 撮像部
116R 右撮像ユニット
116L 左撮像ユニット
117 撮影原稿情報記憶部
118 撮影・補正パラメータ記憶部
119 制御部
120 ROM、121:RAM
122 表示部
122X 撮影支援画面
122A 撮影支援画面
123 操作部
124 カメラ・位置向き検出部
125 補正原稿画像作成部
126 画像品質推定部
127 撮影条件算出部
128 撮影支援部
129 印刷設定部
130 通信部
200 プリンタ
201 プリンタ属性記憶部
202 通信部
203 印刷部

Claims (11)

  1. 原稿を撮影して撮影画像を作成する撮像手段と、
    光源に関する撮影環境を測定する撮影環境測定手段と、
    少なくとも原稿のサイズを含む原稿属性を判定する原稿属性判定手段と、
    原稿の三次元形状を算出する形状算出手段と、
    原稿の三次元形状を平面に投影して原稿投影平面を作成する平面作成手段と、
    撮影画像を原稿投影平面に投影した二次元の原稿画像を作成する画像作成手段と、
    二次元の原稿画像内の文書画像を解析して背景領域や文字領域を抽出する文書画像解析手段と、
    抽出した文字領域から文字ブロックを作成する文字ブロック作成手段と、
    各文字ブロック内の文字列を入力文字列としてテキスト解析して、文字列の文法的なつながりの強さを算出し、文字列中のつながりの強さが一定値以下の部位を不連続部位として抽出するテキスト解析手段と、
    文字列中で抽出した不連続部位の、二次元の原稿画像内の位置、及び、実原稿上の位置と向きを算出する特定手段と、
    二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合が一定値以下ならば、二次元の原稿画像にテキスト可読性が有ると判定し、二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合が一定値より大ならば、二次元の原稿画像にテキスト可読性が無いと判定する可読性判定手段と、
    二次元の原稿画像にテキスト可読性が無いと判定されたならば、不連続部位の発生原因が原稿の傾きや歪によるものであるか否か、又は、光源光の原稿からの一次反射によるものであるか否かを判定する原因判定手段と、
    不連続部位の発生原因を取り除く撮影条件を原稿の三次元形状と撮影環境から算出する撮影条件算出手段と、
    算出した撮影条件に基づいてユーザの撮影を支援する撮影支援手段とを具備することを特徴とする画像読み取り装置。
  2. 原稿の三次元形状から、原稿の左辺および下辺に対応する曲線または折れ線を抽出し、
    原稿の三次元形状上の任意の注目点から、原稿の三次元形状の表面を通って、左辺および下辺に到達する、最短の曲線または折れ線の長さを算出し、
    下辺に到達する最短の曲線または折れ線の長さを、原稿の三次元形状上の注目点の、原稿投影平面におけるX座標値とし、
    左辺に到達する最短の曲線または折れ線の長さを、原稿の三次元形状上の注目点の、原稿投影平面におけるY座標値として、
    原稿の三次元形状を平面に投影して原稿投影平面を作成することを特徴とする請求項1記載の画像読み取り装置。
  3. テキスト解析手段において、
    形態素の見出しと品詞と形態素の確からしさを記憶した形態素辞書と、
    形態素間の接続のしやすさを記憶した接続辞書とを具備し、
    形態素辞書を用いて入力文字列から各形態素に形態素の確からしさを付与した形態素ラティスを生成し、
    接続辞書を用いて形態素ラティスの隣接する形態素間に形態素間の接続のしやすさを付与し、
    形態素ラティスの前方から後方に辿る経路に対して形態素の確からしさと形態素間の接続のしやすさとの積からなる経路評価値を算出し、
    経路評価値が最大となる経路を求め、
    当該求められた経路、当該求められた経路内の各形態素の確からしさ、当該求められた経路内の形態素間の接続のしやすさ、を入力文字列のテキスト解析の結果とすることを特徴とする請求項1記載の画像読み取り装置。
  4. 前記求められた経路において、当該求められた経路内の各形態素の確からしさが一定値以下の部位、又は、当該求められた経路内の形態素間の接続のしやすさが一定値以下の部位を、入力文字列中の不連続部位として抽出することを特徴とする請求項3記載の画像読み取り装置。
  5. 原因判定手段において、
    撮像手段の向きと、不連続部位の実原稿上での法線ベクトルとのなす角が一定値以下ならば、不連続部位が原稿の傾きや歪によって発生したと判定し、
    光源の位置または方向、撮像手段の位置と向き、不連続部位の実原稿上での位置と法線ベクトルから、光源光の原稿表面における一次反射光が撮像手段に入射すると判定したならば、不連続部位の発生原因が光源光の原稿からの一次反射によるものであると判定することを特徴とする請求項1記載の画像読み取り装置。
  6. 撮影条件算出手段において、
    不連続部位が原稿の傾きや歪によって発生したと判定したときは、
    全て又は幾つかの不連続部位の実原稿上での法線ベクトルと、撮像手段の向きとのなす角が一定値以上となる撮像手段の向きの取り得る範囲を算出し、算出した撮像手段の向きの各値に対して、原稿が撮像手段の画角に入るように撮像手段の位置の取り得る範囲を算出して、このときの撮像手段の位置と向きの取り得る範囲を第一の条件とし、
    不連続部位が光源光の原稿からの一次反射によって発生したと判定したときは、
    光源の位置または方向と、全て又は幾つかの不連続部位の実原稿上での位置と法線ベクトルとから、光源光の原稿上の不連続部位における一次反射光の経路を算出し、算出した一次反射光の通過しない空間領域を、撮像手段の位置の取り得る範囲とし、このときの撮像手段の位置の取り得る範囲を第二の条件として、
    第一の条件と第二の条件を同時に満たす撮像手段の位置と向きの取り得る範囲を新たな撮影条件として算出することを特徴とする請求項5記載の画像読み取り装置。
  7. 撮像部を移動させながら形状の変化しない原稿を連続的に撮影して複数の撮影画像を作成し、
    複数の撮影画像に共通に存在する一定数以上の注目点の各撮影画像における位置情報から、各撮影画像を作成した撮像部の位置と、原稿の三次元形状とを算出することを特徴とする請求項1記載の画像読み取り装置。
  8. 形状の変化しない原稿を撮影して作成した複数の二次元の原稿画像内に共通に存在する一定数以上の注目点を用いて、各二次元の原稿画像内で不連続部位の存在する領域を取り除いて、複数の二次元の原稿画像を位置合わせして、一枚の二次元の原稿画像を作成することを特徴とする請求項1記載の画像読み取り装置。
  9. 原稿を撮影して撮影画像を作成する撮像手段と、
    原稿の三次元形状を算出する形状算出手段と、
    原稿の三次元形状を平面に投影して原稿投影平面を作成する平面作成手段と、
    撮影画像を原稿投影平面に投影した二次元の原稿画像を作成する画像作成手段と、
    二次元の原稿画像内の文書画像を解析して背景領域や文字領域を抽出する文書画像解析手段と、
    抽出した文字領域から文字ブロックを作成する文字ブロック作成手段と、
    各文字ブロック内の文字列を入力文字列としてテキスト解析して、文字列の文法的なつながりの強さを算出し、文字列中のつながりの強さが一定値以下の部位を不連続部位として抽出するテキスト解析手段と、
    文字列中で抽出した不連続部位の、二次元の原稿画像内の位置、及び、実原稿上の位置と向きを算出する特定手段と、
    二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合から、二次元の原稿画像のテキスト可読性の有無を判定する可読性判定手段と、
    二次元の原稿画像にテキスト可読性が無いと判定されたならば、不連続部位の発生原因を判定する原因判定手段と、
    不連続部位の発生原因を取り除く撮影条件を原稿の三次元形状と撮影環境から算出する撮影条件算出手段と、
    算出した撮影条件に基づいてユーザの撮影を支援する撮影支援手段とを具備することを特徴とする画像読み取り装置。
  10. 撮像手段が、原稿を撮影して撮影画像を作成する撮像工程と、
    撮影環境測定手段が、光源に関する撮影環境を測定する撮影環境測定工程と、
    原稿属性判定手段が、少なくとも原稿のサイズを含む原稿属性を判定する原稿属性判定工程と、
    形状算出手段が、原稿の三次元形状を算出する形状算出工程と、
    平面作成手段が、原稿の三次元形状を平面に投影して原稿投影平面を作成する平面作成工程と、
    画像作成手段が、撮影画像を原稿投影平面に投影した二次元の原稿画像を作成する画像作成工程と、
    文書画像解析手段が、二次元の原稿画像内の文書画像を解析して背景領域や文字領域を抽出する文書画像解析工程と、
    文字ブロック作成手段が、抽出した文字領域から文字ブロックを作成する文字ブロック作成工程と、
    テキスト解析手段が、各文字ブロック内の文字列を入力文字列としてテキスト解析して、文字列の文法的なつながりの強さを算出し、文字列中のつながりの強さが一定値以下の部位を不連続部位として抽出するテキスト解析工程と、
    特定手段が、文字列中で抽出した不連続部位の、二次元の原稿画像内の位置、及び、実原稿上の位置と向きを算出する特定工程と、
    可読性判定手段が、二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合が一定値以下ならば、二次元の原稿画像にテキスト可読性が有ると判定し、二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合が一定値より大ならば、二次元の原稿画像にテキスト可読性が無いと判定する可読性判定工程と、
    原因判定手段が、二次元の原稿画像にテキスト可読性が無いと判定されたならば、不連続部位の発生原因が原稿の傾きや歪によるものであるか否か、又は、光源光の原稿からの一次反射によるものであるか否かを判定する原因判定工程と、
    算出手段が、不連続部位の発生原因を取り除く撮影条件を原稿の三次元形状と撮影環境から算出する撮影条件算出工程と、
    撮影支援手段が、算出した撮影条件に基づいてユーザの撮影を支援する撮影支援工程とを具備することを特徴とする画像読み取り方法。
  11. 撮像手段が、原稿を撮影して撮影画像を作成する撮像工程と、
    形状算出手段が、原稿の三次元形状を算出する形状算出工程と、
    平面作成手段が、原稿の三次元形状を平面に投影して原稿投影平面を作成する平面作成工程と、
    画像作成手段が、撮影画像を原稿投影平面に投影した二次元の原稿画像を作成する画像作成工程と、
    文書画像解析手段が、二次元の原稿画像内の文書画像を解析して背景領域や文字領域を抽出する文書画像解析工程と、
    文字ブロック作成手段が、抽出した文字領域から文字ブロックを作成する文字ブロック作成工程と、
    テキスト解析手段が、各文字ブロック内の文字列を入力文字列としてテキスト解析して、文字列の文法的なつながりの強さを算出し、文字列中のつながりの強さが一定値以下の部位を不連続部位として抽出するテキスト解析工程と、
    特定手段が、文字列中で抽出した不連続部位の、二次元の原稿画像の内の位置、及び、実原稿上の位置と向きを算出する特定工程と、
    可読性判定手段が、二次元の原稿画像内の全ての文字列から抽出した不連続部位の割合から、二次元の原稿画像のテキスト可読性の有無を判定する可読性判定工程と、
    原因判定手段が、二次元の原稿画像にテキスト可読性が無いと判定されたならば、不連続部位の発生原因を判定する原因判定工程と、
    撮影条件算出手段が、不連続部位の発生原因を取り除く撮影条件を原稿の三次元形状と撮影環境から算出する撮影条件算出工程と、
    撮影支援工程が、算出した撮影条件に基づいてユーザの撮影を支援する撮影支援工程とを具備することを特徴とする画像読み取り方法。
JP2016213003A 2016-10-31 2016-10-31 画像読み取り装置及び画像読み取り方法 Active JP6759057B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016213003A JP6759057B2 (ja) 2016-10-31 2016-10-31 画像読み取り装置及び画像読み取り方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016213003A JP6759057B2 (ja) 2016-10-31 2016-10-31 画像読み取り装置及び画像読み取り方法

Publications (2)

Publication Number Publication Date
JP2018074414A JP2018074414A (ja) 2018-05-10
JP6759057B2 true JP6759057B2 (ja) 2020-09-23

Family

ID=62114465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016213003A Active JP6759057B2 (ja) 2016-10-31 2016-10-31 画像読み取り装置及び画像読み取り方法

Country Status (1)

Country Link
JP (1) JP6759057B2 (ja)

Also Published As

Publication number Publication date
JP2018074414A (ja) 2018-05-10

Similar Documents

Publication Publication Date Title
US8587818B2 (en) Captured image processing system and recording medium
US8295599B2 (en) Image output apparatus, captured image processing system, and recording medium
JP4838694B2 (ja) 電子的手書入力装置
US20150138595A1 (en) Ar display device, ar display control device, print condition setting system, print system, print setting display method, and non-transitory computer-readable recording medium
JP3050007B2 (ja) 画像読取装置およびこれを備えた画像形成装置
JP4904426B1 (ja) 画像処理システムとそれに用いる撮像対象物
US20100135595A1 (en) Image processing apparatus and image processing method
WO2000000930A1 (en) Image correction device
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US20200357121A1 (en) Image processing apparatus, image processing method and storage medium
JP6759057B2 (ja) 画像読み取り装置及び画像読み取り方法
JP3582988B2 (ja) 非接触型画像読取装置
JP5651221B2 (ja) シンボル片、画像処理プログラム、及び画像処理方法
JP5602925B2 (ja) 画像処理プログラム、及び画像処理方法
JP2005316550A (ja) 画像処理装置、画像読取装置、画像検査装置、およびプログラム
JP6540597B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH08107495A (ja) 入出力一体型情報操作装置
WO2020208742A1 (ja) 多角形検出装置、多角形検出方法、及び多角形検出プログラム
JP2021086049A (ja) 画像処理装置、画像処理システム及びプログラム
JP7137171B1 (ja) 画像処理システム、画像処理方法、及びプログラム
JP7212207B1 (ja) 画像処理システム、画像処理方法、及びプログラム
JP5101740B2 (ja) 撮像対象物
JP7474410B2 (ja) 画像読取装置
JP7474411B2 (ja) 画像読取装置
JP7510603B2 (ja) 画像読取装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191008

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200902

R151 Written notification of patent or utility model registration

Ref document number: 6759057

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151