JP2013122747A - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP2013122747A
JP2013122747A JP2012148457A JP2012148457A JP2013122747A JP 2013122747 A JP2013122747 A JP 2013122747A JP 2012148457 A JP2012148457 A JP 2012148457A JP 2012148457 A JP2012148457 A JP 2012148457A JP 2013122747 A JP2013122747 A JP 2013122747A
Authority
JP
Japan
Prior art keywords
character
area
arrangement
image
character code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012148457A
Other languages
English (en)
Other versions
JP5631362B2 (ja
Inventor
Taeko Yamazaki
妙子 山▲崎▼
Yuji Kobayashi
雄二 小林
Shigeo Fukuoka
茂雄 福岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012148457A priority Critical patent/JP5631362B2/ja
Priority to US13/567,519 priority patent/US9245357B2/en
Publication of JP2013122747A publication Critical patent/JP2013122747A/ja
Application granted granted Critical
Publication of JP5631362B2 publication Critical patent/JP5631362B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】 画像中の文字を文字認識して生成した文字コードから得られるパターンをそのまま元の文字が存在していた領域に配置すると、視認性良く収まらないことがある。
【解決手段】 画像の特徴変化が少ない領域に、画像内の文字領域から認識され生成された文字コードに応じたパターンを、配置する。
【選択図】 図3

Description

本発明は、画像から抽出した文字情報を加工して視認性良く表示する技術に関する。
近年、デジタルカメラは画像を撮影するだけでなく、画像中の文字情報を記録するために用いられるケースが増えてきている。
また、撮影した画像を活用するために、画像から文字情報を抽出し、翻訳等、文字情報をユーザが利用しやすい形態に変換することも多い。
たとえば、特許文献1では、観光案内掲示板、建造物、看板、パンフレット、レストランのメニュー等々に記述されている文字を、カメラ画像データとして取り込み、文字認識して翻訳する技術が公開されている。
特許文献2では、翻訳後の文字情報を元の文書に反映させると、原文と訳文の文字数などの変化が発生する場合、訳文の文字サイズ等を変え、元の原文位置に訳文を適切に埋め込む技術が公開されている。
特許文献3では、文書画像の文字領域を文字認識し、文字のフォントを出力フォントにしている。文字コードデータが配置される領域を、画素の濃度が一定値以下の未使用領域を含めた領域まで拡大する。
特開平09−138802 特開平07−013969 特開2001−319240
しかしながら特許文献1では、ユーザに提示される翻訳後の文字情報は、翻訳対象の文字が存在していた元の画像とは別の翻訳表示領域に表示されており、元の画像中に翻訳結果を表示させていない。元の画像と翻訳後の文字情報とを一覧することができず、翻訳後の文字情報の元の画像内での位置対応の把握が容易ではない。単純に、翻訳対象の文字が存在していた元の画像中の領域に翻訳後の文字情報を配置しようとすると、翻訳後の文字情報が、元の画像中の領域に収まらず、はみだしてしまう。(図3(e))。
特許文献2では、翻訳対象の文字が存在していた文書領域に合わせて、文字サイズを調整して翻訳後の文字情報を表示している。しかし、翻訳後の文字情報を配置可能な領域の面積が大幅に狭い場合には、翻訳後の文字サイズが小さくなりすぎる可能性がある。(図3(d))
特許文献3では、文書画像を扱っている。自然画では、未使用領域はないため、文字認識により生成した文字コードから得られるパターンを配置して視認性の良い領域を特許文献3と同じように決定することはできない。
本発明は上記の問題点に鑑みてなされたものであり、文字認識により生成した文字情報の表示において、画像の特徴変化が少ない領域に文字情報を視認性良く表示することを目的とする。
上述の問題点を解決するため、本発明の画像処理装置は以下の構成を備える。即ち、画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識手段と、前記画像の特徴変化が少ない領域を検出する検出手段と、前記検出された領域に前記文字コードから得られるデータを配置する配置手段。
本発明によれば、画像内の特徴変化が少ない領域に、画像内の文字領域から認識され生成された文字コードに応じたパターンを、視認性良く配置することができる。
実施形態1の画像処理装置の構成例 実施形態1の機能ブロック図 (a) 入力画像の一例、(b) 文字領域の一例、(c) 配置領域の一例、(d)(e)(f)合成情報の一例 実施形態1の配置部206の処理手順を示すフローチャート 実施形態1の配置領域拡張部208の処理手順を示すフローチャート ステップS501の詳細な処理手順を示すフローチャート ステップS404の処理を画像に施した例 実施形態2の配置部206の処理手順を示すフローチャート 実施形態3の合成情報の一例 実施形態4の配置領域拡張部208の処理手順を示すフローチャート ステップS1001の詳細な処理手順を示すフローチャート 実施形態4の探索対象線分の例 実施形態7の機能ブロック図 (a) 入力画像の一例、(b) 文字領域の一例、(c) 配置領域の一例 記号選択部206で選択する記号の例 記号選択部206のフローチャート 配色の警告レベルの例 配置位置判定部207のフローチャート (a) 入力画像をタイル分割した例、(b) 記号が配置位置可能と判定された領域の例、(c) 合成情報の一例 実施形態8における記号テーブルの例 (a) 実施形態10における入力画像を表示装置に全体表示させた例、(b) 実施形態10における合成情報の例、(c) 実施形態10における入力画像を拡大表示させた例
<実施形態1>
以下に、図面を参照して、本発明の好適な実施の形態を詳しく説明する。なお、以下の実施の形態はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。
図1は、本発明の実施形態1を実施するための画像処理装置の構成例である。CPU101は、実行プログラムを実行するCPUである。CPU101は、バスを介してバスに接続された各デバイスを制御する。RAM102は、RAM(Random Access Memory)である。処理プログラムや入出力データはRAM上に展開されて処理される。記憶装置106は、処理対象となる画像データや処理済の電子ファイルを記憶する記憶装置である。入力装置110は、処理データを外部から入力するための入力装置である。表示装置111は、処理データを外部に表示するための表示装置である。
デジタルカメラやスマートフォンなどの入力装置110から入力された画像データは、ハードディスクなどの記憶装置106に入力データ108として記憶される。記憶装置106に記憶されている処理プログラム107はRAM102上の処理プログラム展開領域103に展開され、CPU101によって実行される。処理プログラムは入力データ108を記憶装置106から呼び出し、RAM102上の入力データ領域104に展開する。処理プログラムは、展開された入力データ108に対して処理を施し、RAM102上の出力データ領域105に処理結果を出力し、記憶装置106に出力データ109として保存する。出力データ109はディスプレイなどの表示装置111に出力される。
尚、CPU101、RAM102、記憶装置106は入力装置110の内部に組み込まれていてもよいし、入力装置110の外部装置として存在してもよい。また、表示装置111は入力装置110に付属していてもよい。たとえば、入力装置110がデジタルカメラであれば、本体に付属する液晶画面が表示装置111となる。
尚、CPU101はプログラムを実行することで各種の手段として機能することが可能である。なお、CPU101と協調して動作するASICなどの制御回路がこれらの手段として機能してもよい。また、CPU101と画像処理装置の動作を制御する制御回路との協調によってこれらの手段が実現されてもよい。また、CPU101は単一のものである必要はなく、複数であってもよい。この場合、複数のCPUは分散して処理を実行することが可能である。また、複数のCPUは単一のコンピュータに配置されていてもよいし、物理的に異なる複数のコンピュータに配置されていてもよい。なお、CPUがプログラムを実行することで実現する手段が専用の回路によって実現されてもよい。
図2は実施形態1における機能ブロック図である。実施形態1では、各々の機能ブロックの概略を一通り説明した後、機能の詳細を説明する。
<機能ブロック 説明>
入力画像201:
入力装置110から入力される入力画像である。入力画像201の具体例を図3(a)の画像301に挙げる。図3(a)の画像301には風景と交通標識が被写体となっている。入力画像は静止画でもよいし、記憶装置106に予め保存された動画でもよい。また、入力装置110がリアルタイムに取得した動画を逐次処理してもよい。本実施形態では静止画像301を例にその後の処理についての詳細を説明する。
文字領域抽出部202:
入力画像201から文字が存在する領域を抽出する。例えば、看板内の文字の領域である。ここでは公知技術を用いればよく、例えば、特許文献特開2009−123206が挙げられる。この特許文献では以下の方法で文字領域を抽出している。入力画像からエッジ画像を生成し、エッジ画像から連結画素塊(Connected Component 以後 CCと呼ぶ)を生成する。CCの大きさなどの特徴量から文字らしいと推定される候補CCの座標位置をハフ変換した結果、直線に並ぶ候補CC群を文字領域と判定する。図3(b)の領域302は入力画像301から抽出した文字領域を示している。
文字認識部203:
文字領域抽出部202によって抽出された文字領域について文字認識を行い、認識された文字を文字コードに変換する文字認識部である。ここでは公知の文字認識技術を用いればよく、本実施形態では文字認識処理で得られた文字に関する情報、すなわち、文字コードが生成されたとする。ほかにも認識処理で得られた文字領域に関する情報、たとえば、文字領域の外接矩形の座標情報、文字の色なども先の文字コードと合わせて文字情報として出力する。なお、本実施形態では文字領域302から”歩行者優先”という文字に対応する文字コードが得られたとする。
また、文字領域に文字の全体が含まれていない文字(以下、部分文字と呼ぶ)が含まれることも考えられる。その部分文字も文字認識ができれば、文字コードを発生させる。
変換部204:
文字認識部203によって生成された文字コードを、異なる文字コードに変換する変換部である。例えば、他言語への翻訳、漢字を平仮名にする、同等の意味で平易な用語に置き換えるなどのために、文字コードを変換している。
このような変換を行うと、変換前の文字コードから得られるテキストパターンと、変換後の文字コードから得られるテキストパターンとで配置するための面積が異なることがある。たとえば、日本語の”歩行者優先”を英語に翻訳すると、”Yield to Pedestrians”となる。文字列の長さが長くなり、配置に必要な面積が異なる文字コードに変換したことになる。また、日本語の”歩行者優先”をすべて平仮名にすると、”ほこうしゃゆうせん”、平易な用語に置き換えると、”あるくひとがさきです”となる。すなわち、変換の前後で、文字数の変化や、1文字当たりの文字幅の変化によって文字列長も変化し、結果として、テキストパターンを配置するために必要な面積が異なることがある。
尚、部分文字を認識して生成した文字コードから得られるテキストパターンを配置するために必要な面積は、元の画像中の部分文字の領域の面積より大きくなる。部分文字から文字コードを生成することにより、部分文字が文字の全体に変換され、文字の全体を配置することになるからである。このように、ある文字コードから別の文字コードに変換しなくても、元の画像中の文字よりも文字認識部203で生成した文字コードから得られるテキストパターンのほうが、配置するのに必要な面積が大きくなることがある。
以下、本実施形態では、日本語の”歩行者優先”を、英語の”Yield to Pedestrians”に翻訳変換したとして説明を進める。
配置領域抽出部205:
入力画像201から、文字が配置されている配置領域を抽出する配置領域抽出部である。画像301での配置領域とは、文字の下地部分となる看板本体を指す。文字が配置されている掲示板、パンフレット、レストランのメニュー、標識等の枠部分が配置領域に該当する。
配置領域の抽出には、公知のナンバープレート本体を認識する技術を用い、抽出された領域を配置領域とすればよい。たとえば、特許文献 特開2009−151759では、以下の方法がとられている。入力画像からエッジ画像を生成し、エッジ強度が規定値以上の画素を抽出する。ここで抽出した画素位置をハフ変換し、変換結果の線分で囲まれた領域をナンバープレート本体の領域としている。ナンバーが文字に対応し、プレートが文字の下地部分の看板に対応している。
図3(c)の領域303は入力画像301から抽出した配置領域を示している。
配置部206:
変換部204で変換した文字情報を配置領域抽出部205で抽出した配置領域を含む領域に配置する配置部である。配置部206は、判定部207、配置領域拡張部208、合成部209から構成される。
入力画像201から文字認識部203が生成した文字コードと、変換部204で変換した文字コードとの文字数の変動があった場合について考える。
具体例をあげる。入力画像301を入力した場合、文字認識部203で認識される文字コードは”歩行者優先”の5文字である。
しかし、”歩行者優先”を変換部204で他言語である英語に変換すると、”Yield to Pedestrians”と空白も入れて20文字となり、変換前の文字数の4倍になる。このため、変換後の文字情報(テキストパターン)を、入力画像上の元の文字の大きさのまま配置領域である看板本体の領域に配置すると、文字情報(テキストパターン)が看板からはみ出してしまう。(図3(e))。また、変換後の文字情報(テキストパターン)を配置領域に収めようとすると、大幅に文字サイズを小さくしなければならず可読性が低下する。(図3(d))
文字数の変動の他に、1文字当たりの文字幅の変動が変換後の文字情報の配置面積に影響することもある。
この問題を解決するため、配置部206は変換した文字コードから得られるテキストパターンが前記配置領域に収めて可読性を確保できるかを判定する判定部207と、配置領域を拡張する配置領域拡張部208の機能を持つ。判定部207、配置領域拡張部208の機能については、後ほど詳細に説明する。
合成情報210:
配置部206にて入力画像201と変換後の文字情報(テキストパターン)とを合成した合成情報である。
図3(f)は入力画像301に変換部204で変換した文字情報”Yield to Pedestrians”を合成したものである。配置部206によって、看板部分の配置領域が他のオブジェクトに影響の少ない方向へ拡張され、変換後の文字情報(テキストパターン)が拡張後の配置領域内に収まっている。
本実施形態では入力画像を静止画として説明しているので、合成情報は静止画であり、静止画上に重畳される。しかし、入力画像が動画であればフレーム毎に取得した合成情報を各フレームに重畳させてもよい。この場合、ユーザは合成情報も動画のような動きをしているようにみえる。また、動画フレーム中の代表的なフレームの静止した合成情報を連続して合成しても構わない。このような場合、さらに、入力画像がリアルタイム取得した動画であれば、拡張現実技術(Augmented Reality)を用いて入力画像と合成情報を合成してもよい。
以上、本実施形態を実現する機能ブロックの概略について説明した。
次に、配置部206についての詳細を説明する。
図4は配置部206の処理手順を説明するフローチャートである。このフローチャートは、CPU101が制御プログラムを実行することにより実現される。ステップS401、ステップS402、ステップS403が判定部207の処理に、ステップS404は配置領域拡張部208の処理に、ステップS405、ステップS406は合成部209の処理に該当する。
以下、各ステップを説明する。ステップS401では、配置領域抽出部205で抽出した配置領域の面積S1を求める。ステップS402では、配置領域が内包する位置に存在する文字領域を選択し、この文字コードを変換部204で変換したの文字コードから得られるテキストパターンの配置面積S2を求める。
配置面積S2の算出は、元の画像の文字サイズと変換後の文字コードの文字数を積算すればよい、また、変換後の文字のサイズを予め設定しておき、その設定した文字サイズと文字コードの文字数を掛け合わせてもよい。文字幅を用いて、文字幅と文字数を掛け合わせて文字列の長さを取得してもよい。
ステップS403では、面積S1と面積S2を比較し、変換後の文字コードから得られるテキストパターンが元の配置領域に収めて良いかどうか判定する。面積S1より面積S2が小さい場合(S1≧S2)は変換後の文字コードから得られるテキストパターンは、少なくとも変換前より視認状態が悪くならない文字サイズで配置領域に収まるので配置可と判断し、ステップS405へ遷移する。
面積S1より面積S2が大きい場合(S1<S2)は、変換後の文字コードから得られるテキストパターンは、元の配置領域に収めると可読性が低下するので配置否と判断し、ステップS404へ遷移する。
ステップS404は、配置領域の周囲に文字の配置が可能な領域があるかを判定し、配置領域を拡張する。単純に配置領域を拡張すると、画像中の他のオブジェクトを隠してしまう可能性がある。このため、配置領域を拡張して文字を配置しても影響の少ない領域、すなわち、配置領域の周囲で他のオブジェクトが存在していない領域を探索する。オブジェクトの有無は、色の変化や強エッジ成分の有無などで判断する。この処理の詳細は別途説明する。
ステップS405では、変換後の文字コードから得られるテキストパターンを配置する前準備として配置領域にもともと存在していた文字を消す。具体的には、配置領域の文字領域以外の色情報の平均をとり、その色で文字領域を塗りつぶす。または、拡張後の配置領域全体を、拡張前の配置領域の文字領域を除いた部分の平均色で塗りつぶす方法でもよい。
ステップS406では、変換後の文字コードから得られるテキストパターンを配置領域に配置する。なお、文字サイズはステップS402の配置面積の算出で用いた文字サイズを使い、文字色は文字認識部203で文字コードとともに取得した元の文字の色を用いる。
配置領域拡張部208(ステップS404)の機能について図5で概要を、図6で詳細を説明する。図5は配置領域拡張部208の処理手順を示すフローチャートである。このフローチャートは、CPU101が制御プログラムを実行することにより実現される。
まず、ステップS501において、文字を配置しても元の画像への影響が少ないと考えられる他のオブジェクトが存在していない領域、すなわち色の変化が少ない、強エッジ成分の少ない領域を検出し、ステップS502へ遷移する。ステップS501の処理の詳細は図6を用いて別途説明する。
次に、ステップS502において、配置領域を拡張する方向を決定し、ステップS503へ遷移する。
最後のステップS503にて、変換後の文字コードから得られるテキストパターンの配置に必要な面積を満たすように配置領域を拡張し、拡張した配置領域を元の配置領域の平均色で塗りつぶす。配置領域の形状は、撮影時の台形等に歪んだ形状をそのまま拡張してもよいし、配置領域を単純な長方形(外接矩形)に置き換えて拡張してもよい。
ステップS501の拡張可能領域検出の処理手順について図6のフローチャートを用いて説明する。拡張可能領域検出には、画像を規定のサイズにタイル分割し、そのタイルにオブジェクトが存在しているかを判定する方法を用いる。オブジェクトが存在しない領域とは、色の変化が少なく、強エッジ成分の少ない領域を意味する。
図6はステップS501拡張可能領域検出手順の詳細フローチャートである。このフローチャートは、CPU101が制御プログラムを実行することにより実現される。ステップS601において、入力画像を規定のサイズにタイル分割し、ステップS602へ遷移する。本実施形態では32×32ピクセルを既定のタイルサイズとするが、タイルのサイズ設定は任意でかまわない。
ステップS602において、まずは、文字配置領域との境界にあるタイルを、拡張可能かを判定する対象タイルとし、ステップS603へ遷移する。これは、同一画像中に複数の配置領域があった場合を考慮し、拡張処理の対象となる配置領域の周囲だけを拡張可能かの検出対象としたいからである。始めから画像全域を対象として、色の変化が少ないまたは強エッジ成分の少ない拡張可能領域を検出するより、対象領域が減るので処理負荷が減る。
図7(a)の網かけタイル701はステップS602で判定対象とされたタイルである。
ステップS603では、判定対象タイルのうち1つを選択しステップS604へ遷移する。以降の処理対象タイルは、判定対象タイルから選択されたタイルとなる。
ステップS604において、処理対象タイル内に他のオブジェクトがあるかを判定し、オブジェクトがないと判断すればステップS605、オブジェクトがあると判断すればステップS607へ遷移する。判定の前に、もしその処理対象タイルが配置領域との境界部のタイルであれば、配置領域部分の画素を取り除いた部分だけを用いて判定する。
オブジェクトの有無の判定には、下記の方法が考えられる。
*タイル内の色情報を元にカラーヒストグラムを生成し、ヒストグラムの分散が小さければ、オブジェクトがないと判断する。
*タイル中の色情報から一般的なカラークラスタリング手法を用い、タイル内の色が一意に決まるようであればオブジェクトがないと判断する。
*エッジ画像を生成し、タイル中に強度の高いエッジがなければオブジェクトがないと判断する。
*風景画像の空の部分はオブジェクトがないとみなせるので、タイル中の色情報が青色で占められていれば、オブジェクトがないと判断する。
*風景画像の樹木や植物の葉の部分は配置領域で隠されても問題がないので、タイル中の色情報が緑色で占められていれば、オブジェクトがないと判断する。
以上にあげた方法のいずれかもしくは組み合わせを用いて、オブジェクトの有無を判定する。
ステップS605では、ステップS604でオブジェクトがないと判定されたタイルを拡張可能タイルと判定する。
ステップS606では、拡張可能タイルに近接するタイルを順に、さらに判定対象タイルに追加する。具体的には、拡張可能タイルを中心とした8近傍、もしくは4近傍のタイルのうち、すでに判定したタイル、すでに判定対象に含まれているタイルを除いて判定対象タイルに追加する。
ステップS607では、判定対象タイルのうち、未判定のタイルがないかを確認する。判定をしていない対象タイルがあれば、ステップS603へ遷移し、すべての判定対象タイルの判定が終わっていれば拡張可能領域検出処理を終了し、ステップS502の拡張方向決定処理へ遷移する。
図7(b)の網かけタイル702は拡張可能と判定されたタイルである。
ステップS502では、拡張可能領域の分布から配置領域を広げる方向を決定する。方向の決め方は、たとえば以下の方法が挙げられる。
配置領域の周囲をタイル分割境界に合わせて図7(c)のように縦横に9区分に分割し、存在する拡張可能タイルの割合を区分ごとに算出する。拡張可能タイルの割合が高かった区分のうち、配置領域の辺の法線ベクトルの方向にある区分を優先して拡張可能な方向とする。図7(c)を例にあげると、最も拡張可能タイルの割合が多く、配置領域の辺の法線ベクトルの方向にあるのは区分706であるので、拡張可能方向は、文字配置領域の左横となる。
以上の処理で拡張可能な方向を決定した後に、ステップS503で文字配置領域を拡張して、変換後の文字コードから得られるテキストパターンを配置した例が図3(f)となる。
画像の他のオブジェクトを干渉せず、変換後の文字情報が視認性の良い状態で合成できているのがわかる。
以上説明した通り、本実施形態では、画像中の文字を認識して生成した文字コードから得られるテキストパターンと元の画像との合成において、文字コードから得られるテキストパターンが元の配置領域に収まらない場合について説明した。配置領域を拡張して文字コードから得られるテキストパターンを配置することで、文字コードから得られるテキストパターンを視認性良く合成表示できる。
<実施形態2>
実施形態1での判定部207において、面積S1と面積S2とを比較して、文字配置領域を拡張するか否か判定していた。面積S1は配置領域、面積S2は元の文字サイズまたは予め定めた文字サイズでテキストパターンを配置した場合に必要な面積である。しかし、元の文字サイズより多少小さくなっていても、可読性が確保できる文字サイズであれば配置領域に配置しても構わない。そこで、本実施形態では、可読性を確保できる下限の文字サイズ以上で文字コードから得られるテキストパターンを配置できるかによって、文字配置領域を拡張するか否か判断する。
実施形態2の配置部206の処理手順について、図8のフローチャートを用いて説明する。このフローチャートは、CPU101が制御プログラムを実行することにより実現される。なお、図4と同一の番号の処理は実施形態1と同じであるため説明は省く。
ステップS801では、ステップS401で算出した配置領域の面積S1内に、変換後の文字コードから得られるテキストパターンを配置する場合の文字サイズT1を算出する。
ステップS802では、文字サイズT1と予め設定した可読性を確保できる下限のサイズとを比較する。文字サイズT1の方が大きければ、変換後の文字コードから得られるテキストパターンは、視認性良く配置領域に収まると判断し、ステップS405へ遷移する。ステップS801で算出した文字サイズT1が下限文字サイズより大きい場合、文字配置領域は拡張しなくても良い。文字サイズT1が可読性を確保できる下限サイズより小さい場合は視認性良く配置領域に収まらないと判断し、ステップS404へ遷移する。
ステップS803では、変換後の文字コードから得られるテキストパターンを配置領域に配置する。なお文字サイズは、下限文字サイズより大きな文字サイズT1、下限文字サイズ、下限文字サイズより大きな元の文字サイズ、予め定めた文字サイズの何れかを使い、文字色は文字認識部203で文字コードとともに取得した元の文字の色を用いる。
以上説明したとおり、本実施形態によれば、可読性を確保できる下限サイズ以上でテキストパターンを配置できるかを基準に、配置領域の拡張の可否を判断している。
<実施形態3>
実施形態1での配置領域拡張部208において、拡張可能な方向を1つに決め、その方向に配置領域を拡張していたが、拡張方向は2つ以上あってもよい。
たとえば、最も拡張可能タイルの割合が高かった区分の方向に配置領域を拡張しても、変換後の文字コードから得られるテキストパターンを配置できる面積の配置領域が確保できなかったら、次に拡張可能タイルの割合が高かった区分の方向へ拡張する。
図9は拡張可能な方向が左方向であると判定し、拡張したが、変換後の文字コードから得られるテキストパターンを配置できる面積の配置領域を確保できなかったため、拡張可能タイルの割合が次に高かった右方向へ配置領域を拡張した例である。
また、拡張可能タイルの割合が一定以上であれば拡張可能とみなし、配置領域の中心から複数の方向へ拡張してもよい。
<実施形態4>
実施形態1での配置領域拡張部208において、配置領域の周囲に拡張可能な領域があるかタイル単位で判定し、拡張可能タイルの分布から拡張してよい方向を決定していた。本実施形態では、拡張可能な方向を簡易的に判定し、拡張方向を決定する。
図10は、配置領域拡張部208の処理手順を示すフローチャートである。このフローチャートは、CPU101が制御プログラムを実行することにより実現される。
まず、ステップS1001において、文字を配置しても構わない他のオブジェクトが存在していない方向を検出し、ステップS1002へ遷移する。ステップS1001の処理手順の詳細は図11のフローチャートを用いて別途説明する。
ステップS1002にて、変換後の文字コードから得られるテキストパターンの配置に必要な面積を満たすように配置領域を拡張し、拡張した配置領域を元の配置領域の平均色で塗りつぶす。
図11はステップS1001の拡張可能方向決定の詳細な処理手順を示すフローチャートである。このフローチャートは、CPU101が制御プログラムを実行することにより実現される。
ステップS1101にて、探索対象線分を取得し、ステップS1102に遷移する。
探索対象線分とは、図12のような配置領域を中心とした線分であり、たとえば図12(a)のように、配置領域の4辺に対する法線ベクトルが挙げられる。また、図12(b)のように配置領域の4辺の中点から水平、もしくは、水平に伸ばした線分でもよい。同じく、図12(c)のように、配置領域の中心点から放射線状に延びる線分でもよい。これらのうちいずれか一つのパターンで探索対象成分を取得する。
ステップS1102では先に取得した探索対象線分のうち1つを選択し、ステップS1103へ遷移する。
ステップS1103では、探索線分上の画素値のヒストグラムを生成し、ステップS1104へ遷移する。
ステップS1104では、線分上にオブジェクトがあるかを判定する。
オブジェクトの有無の判断には、画素値の濃度変化が大きければ何らか物体が線分上に存在する、すなわちオブジェクトがあると判断する。ほかにも、画素値が空の青や、植物の緑などの特定の色情報が連続して続く場合はオブジェクトがないと判断しても構わない。 線分上にオブジェクトがないと判断した場合はステップS1105へ、オブジェクトがあると判断した場合はステップS1106へ遷移する。
ステップS1105では、ステップS1104でオブジェクトがないと判定された線分を拡張可能線分と判定する。
ステップS1106では、探索対象線分のうち、未判定の線分がないかを確認する。判定をしていない線分があれば、ステップS1103へ遷移し、すべての探索対象線分の判定が終わっていれば拡張可能方向決定処理を終了し、ステップS1002の配置領域拡張処理へ遷移する。
なお、ステップS1002は実施形態1の図5のステップS503と処理は同等のため、説明は省く。
以上説明したとおり、本実施形態によれば、簡易的に拡張方向を選択できるため処理速度の向上や、ワークメモリの低減が可能になる。
<実施形態5>
実施形態4では、拡張可能線分とは画像端まですべてオブジェクトがないと判定した線分としているが、線分上を順次走査し、走査を開始する配置領域の辺の画素からオブジェクトがあると判定した画素位置までを拡張可能線分としてもよい。この場合、実際に文字背景を拡張する範囲は、線分上でオブジェクトがあると判定された画素までとなる。
<実施形態6>
以上、配置領域拡張部208における拡張可能な範囲の決定について、いくつかの方法を説明したが、その他の画像処理を組み合わせてオブジェクトのない領域を検出できれば方法は問わない。たとえば、画像全体をカラークラスタリングし、処理対象の配置領域に接するカラークラスタのうちも最も面積が大きいクラスタが存在する位置に配置領域を拡張する。
さらに、画像中から背景を検出する一般的な技術を用いてもよく、検出した背景のうち配置領域に接している部分を拡張可能な範囲とし、配置領域を拡張する。
また、配置領域周囲に拡張可能な領域がなかった場合は、予め設定した方向に配置領域を拡張してもよい。
<実施形態7>
図13は実施形態7における機能ブロック図である。実施形態7では、各々の機能ブロックの概略を一通り説明した後、機能の詳細を説明する。
<機能ブロック>
入力画像1301:
入力装置110から入力される入力画像である。入力画像1301の具体例を図14(a)の画像1401に挙げる。図14(a)の画像1401には壁に貼り付けられた2枚の看板が被写体になっている。上の看板は本体が赤であって、白抜き文字で書かれた看板である。下の看板は本体が白であって、黒い文字が書かれた看板である。また、画像左下に他のオブジェクト(ドアの一部分)が入り込んでいる。入力画像は静止画でもよいし、記憶装置106に予め保存された動画でもよい。また、入力装置110がリアルタイムに取得した動画を逐次処理してもよい。本実施形態では静止画像1401を例にその後の処理についての詳細を説明する。
本実施形態では画像1401を例にその後の処理についての詳細を説明する。
文字領域抽出部1302:
入力画像から文字が存在する領域を抽出する。文字領域とは、たとえば、看板内の文字の領域である。
ここでも実施形態1で挙げた公知技術を用いればよい。
図14(b)の領域1402、1403は入力画像1401から抽出した文字領域を示している。
文字認識部1303:
文字領域抽出部1302によって抽出された文字領域について文字認識を行い、認識された文字を文字コードに変換する文字認識部である。ここでは公知の文字認識技術を用いればよく、本実施形態では文字認識処理で得られた文字に関する情報、すなわち、文字コードが生成されたとする。ほかにも認識処理で得られた文字領域に関する情報、たとえば、文字領域の外接矩形の座標情報、文字の色なども先の文字コードと合わせて文字情報として出力する。なお、本実施形態では文字領域1402から”火気厳禁”、文字領域1403から”指定可燃物取扱所”の文字コードが得られたとする。
配置領域抽出部1304:
入力画像から文字が配置されている配置領域を抽出する配置領域抽出部である。配置領域とは、看板文字の下地部分となる看板本体を指す。配置領域の抽出には、実施形態1と同じく、公知のナンバープレート本体を認識する技術を用い、抽出された領域を配置領域とすればよい。
図14(c)の領域1404、1405は入力画像1401から抽出した配置領域を示している。
配置部1305:
文字認識部1303で取得した文字コードをユーザに分かりやすい記号に変換して、入力画像に配置する配置部である。配置部1305は、以下の3つの処理部で構成する。
*文字コードや入力画像の特徴から記号を選択する記号選択部1306
*入力画像上における記号を配置する位置を判定する配置位置判定部1307
*記号と入力画像から合成情報を生成する合成部1308
配置部1305については、後ほど詳細に説明する。
合成情報1309:
配置部1305にて入力画像に記号を合成した合成情報である。合成情報の表示例については、後ほど説明する。以上、本実施形態を実現する機能ブロックの概略について説明した。
以下、ここから配置部1305についての詳細を説明する。
本処理は文字領域抽出部1302で抽出した文字領域単位で実行する。
配置部1305では
*記号選択部1306
*配置位置判定部1307
*合成部1308
から構成され、図13で示した通り、処理の順は1306、1307、1308と遷移する。
以下、3つの処理部について、説明を続ける。
記号選択部1306:
入力画像がもし、危険を警告する、もしくは、注意を喚起する看板であれば、その内容を確実にユーザに知らせなければならない。このため、記号選択部1306では文字認識部1303で認識した文字コードの中に、所定の用語がある場合や、抽出した文字色および配置領域の配色によってその内容にあった記号を選択する。
具体的には、所定用語ごと、および、配色組み合わせごとに警告レベルの算出を行い、その結果に応じた記号を選択する。
本実施形態において、記号選択部1306で選択する記号は、「禁止」 「注意」 「一般情報」の3種類とする。
選択する記号の例を図15に挙げる。図15(a)は「禁止」を意図した記号であり、1501は赤、1502は白で構成する。図15(b)は「注意」を意図した記号であり、1503および1504は黒、1504は黄色で構成する。図15(c)は禁止でもなく、注意でもない、すなわち「一般情報」を意図する記号であり、図15(a),(b)の配色以外のものなら何でもよい。本実施形態では、1506を白、1507を黒で構成する。
記号選択部1306の処理手順を、図16のフローチャートを用いて説明する。このフローチャートは、CPU101が制御プログラムを実行することにより実現される。
ステップS1601では文字認識部1303で認識した文字コードから文字の警告レベルを算出し、ステップS1602へ遷移する。文字の警告レベルは、「禁止」 「注意」 「一般情報」とする。警告レベルの大小関係は、「禁止」が一番高く、次いで「注意」、 「一般情報」と定義する。
警告レベルの判定基準は文字コードの中に予め設定しておいた所定の用語が含まれるかで決定する。警告レベルと対応する用語を以下に列挙する。
警告レベル 「禁止」
禁止 きんし 厳禁 だめ ダメ お断り おことわり いけない いけません 禁ず
警告レベル 「注意」
注意 ちゅうい 危険 きけん キケン 危ない あぶない 警告
警告レベル 「一般情報」
警告レベル「禁止」および「注意」に該当しない
上記の判定基準で判定すると、文字領域1402から得られた文字コード”火気厳禁”の警告レベルは「禁止」、文字領域1403から得られた文字コード”指定可燃物取扱所”の警告レベルは「一般情報」となる。また、文字コード中に異なる警告レベルの用語が含まれている時は、警告レベルの高い方を優先させる。
たとえば、判定対象の文字コードが”あぶないからはいってはいけません”であった場合、警告レベル「注意」の”あぶない”と、警告レベル「禁止」の”いけません”が含まれている。
この文字コード全体で警告レベルでは、より高い警告レベルを採用するので、”あぶないからはいってはいけません”の警告レベルは「禁止」となる。
なお、本実施形態における警告レベルは日本語のみで設定しているが、同義の外国語を含んでいても構わない。
ステップS1602では、文字領域と配置領域の配色から警告レベルを算出し、ステップS1603へ遷移する。
配色の警告レベルは1,2,3の3段階とする。この設定は、数が大きいほど、警告の度合いは高くなることを意味している。文字領域および配置領域の色は、該当する領域の画素がもつ色情報を平均して算出する。また、赤、青などの色の分類は、算出した色情報の色空間上での位置で判断する。
配色の警告レベルの詳細を図17に示す。
図17の判断基準で判定すると、文字色が白である文字領域1402と赤である配置領域1404の組み合わせの警告レベルは3となる。
同じく、文字色が黒である文字領域1403と白である配置領域1404の組み合わせの警告レベルは1となる。また、同じ文字領域で文字色や配置領域の色が一部異なる場合は、それぞれの配色の警告レベルの判定を実行して、同じ文字領域内で警告の度合いが高い方を選択する。
ステップS1603では、先に算出した文字の警告レベル、および、配色の警告レベルから総合的に判断し、表示する記号を決定する。
本実施形態では、文字の警告レベルに基づき、記号の種類を選択し、配色の警告レベルに基づき、表示する記号の大きさを決定することにする。
文字の警告レベルについては、
*文字の警告レベルが「禁止」であれば、図15(a)の記号「禁止」
*文字の警告レベルが「注意」であれば、図15(b)の記号「注意」
*文字の警告レベルが「一般情報」であれば、図15(c)の記号「一般情報」
を選択することになる。
配色の警告レベルに関しては、その文字コードがさらに注意喚起を促す配色であれば記号を大きくすることで、ユーザに確実に情報を提示できるようにする。すなわち、
*配色の警告レベルが1であれば、記号サイズ小
*配色の警告レベルが2であれば、記号サイズ中
*配色の警告レベルが3であれば、記号サイズ大
と設定する。
記号のサイズは固定のサイズとしてもよい。また、記号サイズを拡大もしくは縮小の係数として設定しておき、実際の記号の大きさは対応する文字領域の面積と記号サイズ係数に基づいて算出してもよい。
記号のサイズを固定とした場合の具体例を以下に挙げる。
図14の文字領域1402の文字コード”火気厳禁”の文字の警戒レベルは「禁止」、文字色が白である文字領域1402と赤である配置領域1404の組み合わせの警告レベルは3である。よって、文字領域1402には、図15(a)の記号「禁止」のサイズ大を選択する。
文字領域1403から得られた文字コード”指定可燃物取扱所”の警告レベルは「一般情報」、文字色が黒である文字領域1403と白である配置領域1404の組み合わせの警告レベルは1となる。よって、文字領域1403には、図15(c)の記号「一般情報」のサイズ小を選択する。
以上により、各文字領域に対して、表示する記号が選択できた。
次に、配置位置判定部1307について説明をする。
配置位置判定部1307:
記号選択部1306で選択した記号を配置する際には、以下の問題が発生する。まずは、選択した記号がどの文字領域に対するものなのかを明確にするために、対応する文字領域の近辺に配置しなければならない。また、入力画像には看板以外の物体(以下、前景オブジェクトと呼ぶ)も写りこんでいる場合がほとんどである。危険や注意を喚起する記号が他の前景オブジェクトの上に重ねて表示すると、記号そのものが見えにくくなる可能性がある。さらに、看板と他の前景オブジェクトの位置関係に重要な意味があることもあるため、記号の配置位置が適切でないと入力画像中から看板の本来の意図が読み取れなくなる可能性も出てくる。
よって、配置位置判定部1307では、入力画像中に記号を配置しても問題なく看板の意味をユーザに提示できる領域、すなわち、他の前景オブジェクトが存在していない領域であって、記号選択部1306で選択した記号と対応する文字領域に近い領域を探索する。
前景オブジェクトの有無は画像を規定のサイズにタイル分割し、そのタイルに前景が存在しているかを判定する方法を用いる。次に、前景オブジェクトのない領域のどの位置に記号をおくかの判断は、まずは看板の内部になる文字配置領域と重なる領域を優先する。文字配置領域と重なる領域が記号の配置ができない面積や形状であった場合、前景オブジェクトが存在しない、文字配置領域外の文字領域から最も近い位置に記号を配置する。
図18は配置位置判定部1307の処置手順を示したフローチャートである。
ステップS1801において、入力画像を規定のサイズにタイル分割し、ステップS1802へ遷移する。本実施形態では32×32ピクセルと既定のタイルサイズとするが、タイルのサイズ設定は任意でかまわない。図19(a)は入力画像の図14(a)をタイル分割した例である。
ステップS1802において、処理対象の文字領域の周囲にあるタイルを、記号が配置可能かを判定する対象タイルとし、ステップS1803へ遷移する。
これは、同一画像中に複数の文字領域があった場合を考慮し、対象となる文字領域の周囲だけを記号配置可能かの検出対象としたいからである。
ステップS1803では、判定対象タイルのうち1つを選択しステップS1804へ遷移する。以降の処理対象はこの処理ブロックで選択したタイルとなる。
ステップS1804において、タイル内に他の前景があるかを判定し、前景がないと判断すればステップS1805、前景があると判断すればステップS1807へ遷移する。
前景の有無の判定には、下記の方法が考えられる。
*タイルの内の色情報を元にカラーヒストグラムを生成し、ヒストグラムの分散が小さければ、前景がないと判断する。
*タイル中の色情報から一般的なカラークラスタリング手法を用い、タイル内の色が一意に決まるようであれば前景がないと判断する。
*エッジ画像を生成し、タイル中に強度の高いエッジがなければ前景がないと判断する。*風景画像の空の部分は記号が重なって表示されても問題はないので、タイル中の色情報が青色で占められていれば、前景がないと判断する。
*風景画像の樹木や植物の葉の部分は記号が重なって表示されても問題はないので、タイル中の色情報が緑色で占められていれば、前景がないと判断する。
以上にあげた方法のいずれかもしくは組み合わせて前景の有無を判定する。
ステップS1805では、ステップS1804で前景がないと判定されたタイルを記号配置可能タイルと判定する。
ステップS1806では、記号配置可能タイルに近接するタイルをさらに判定対象タイルに追加する。具体的には、記号配置可能タイルを中心とした8近傍、もしくは4近傍のタイルのうち、すでに判定したタイルおよび、すでに判定対象に含まれているタイル以外を判定対象タイルに追加する。
ステップS1807では、判定対象タイルのうち、未判定のタイルがないかを確認する。判定をしていない対象タイルがあれば、ステップS1803へ遷移し、すべての判定対象タイルの判定が終わっていればステップS1808へ遷移する。
図19(b)1901は文字領域1402の記号が配置可能と判定されたタイルである。
また、図19(c)の1902,1903は文字領域1403の記号が配置可能と判定されたタイルである。
ステップS1808では、前景がなく記号の配置が可能と判定されたタイルのうち、どの位置に配置するかを決定する。
記号配置可能タイル群が対応する文字領域に対し、分断して存在することもある。また、記号配置可能タイルのうち、さらに文字に近い位置を指定したい。このため、先のステップS1807で判定した記号配置可能タイルのうち、さらに記号配置に最適な位置を本ステップS1808で決定する。
図19(c)に基づいて本処理を説明する。
先のS1807で文字領域1403の配置が可能と判定された領域は1902,1903の2か所ある。まず、先に選択した記号が配置可能な面積や形状の領域かを確認する。図19(c)の場合、記号の配置面積から配置できるタイル群は1903のみとなる。
次に、記号配置可能タイル群のうち、どの位置に記号を配置するかを判定する。
記号を置く場所は文字領域と同じ看板内となる文字配置領域のほうが、ユーザは文字領域との関連をつけやすい。このため、図19(c)の記号配置可能タイル群1903のうち、記号を配置するタイルは文字配置領域と重畳するタイル群の1902_aとする。
図19(b)の記号配置可能タイル群1901の場合は、文字配置領域と重畳するタイル群1901_aは記号配置に十分な面積や形状でない。この場合は文字配置領域外のタイル群1902_bを選択する。
以上により、文字領域1402について、記号が配置可能と判定されたタイル群は1901_b、文字領域1403については1902_aと決定される。
決定したタイル群のうち、座標としてどの位置に記号を配置するかについては、記号と対応する文字領域が最も近い箇所、たとえば、文字領域と記号を結ぶ直線が最も短くなる位置とする。
以上により、各文字領域に対して、表示する記号の位置を決定できた。
最後に、合成部1308について説明をする。
合成部1308:
記号選択部1306で選択した各文字領域に対応する記号を、配置位置判定部1307で決定した配置位置に合成する。
このとき、記号の色と配置位置の色が互いに同系色になるなど、記号の視認性が低下する可能性があるため、記号に背景を付与して、画像に配置する。
図19(c)は、合成情報の一例である。各文字領域に対し、記号選択部1306で選択した記号が配置位置判定部1307で決定した位置に配置されていることがわかる。
本実施形態では入力画像を静止画として説明しているので、図19(c)の合成情報は静止画であり、静止画上に重畳される。しかし、入力画像が動画であればフレーム毎に取得した合成情報を各フレームに重畳させてもよい。この場合、ユーザは合成情報も動画のような動きをしているようにみえる。また、動画フレーム中の代表的なフレームの静止した合成情報を連続して合成しても構わない。このような場合、さらに、入力画像がリアルタイム取得した動画であれば、拡張現実技術(Augmented Reality)を用いて入力画像と合成情報を合成してもよい。
この画像であれば、日本語の解読が困難なユーザであっても、上の看板には何らかの禁止を意図する内容が記載されていること、下の看板には禁止でも注意でもない一般的な内容が記載されていることが容易に判別できる。
以上説明したとおり本実施形態によれば、入力画像中の文字領域に対応する記号を選択し、適切な位置に配置することで、ユーザに文字領域の情報を確実に提供することが可能となった。
<実施形態8>
実施形態7の記号選択部1306において、ユーザにとって警告を訴える情報か、それ以外かの判定をし、記号を選択している。
しかし、同じ警告レベル“危険”であっても警告の意味が異なる場合が多い。このため、所定用語の分類を細分化し、表示する記号の種類を増やしてもよい。
具体的には、警告レベル“危険”となる用語に基づいて、記号と用語が関連付けられたテーブルを予め用意しておき、抽出した文字コードをキーにテーブルを参照し、記号を選択する。
図20(a)に警告レベル“危険”の記号テーブルの一例を示す。2001は“立ち入り禁止”に類する用語が含まれていれば選択する記号である。2002は“禁煙”に類する用語が含まれていれば選択する記号である。2003は“撮影禁止”に類する用語が含まれていれば選択する記号である。このテーブルはあくまで一例であり、ここでは図示しない一般的な危険を知らせる標識とその意味を用いてテーブルを拡張してもよい。
実際の処理では記号選択部1306において、警告レベル“危険”であれば図20(a)のテーブルを参照し、記号を選択する。また、図20(a)で示したテーブルに用語が該当しない場合は、図15(a)の記号が選択される。
<実施形態9>
実施形態8では、警告レベル“危険”をさらに細分化した記号テーブルに基づいて記号を選択している。これに加えて、警告レベル“注意”、“一般情報”に対しても、分類をさらに細分化し、表示する記号を増やしてもよい。
図20(b)に警告レベル“注意”および“一般情報”の記号テーブルの一例を示す。2004は警告レベル“注意”であって、“頭上注意”に類する用語が含まれていれば選択する記号である。2005は警告レベル“注意”であって、“足元注意”に類する用語が含まれていれば選択する記号である。2006は警告レベル“一般情報”であって、“トイレ”に類する用語が含まれていれば選択する記号である。2007は警告レベル“一般情報”であって、認識した文字コードが地名であった場合に選択する記号である。文字コードが地名か否かの判定には、別途地名を格納したデータベースを用意しておく。
このテーブルはあくまで一例であり、ここでは図示しない標識とその意味を用いてテーブルを拡張してもよい。
実際の処理では1306記号選択部において、図20(a)、(b)のテーブルを参照し、記号を選択する。テーブルに用語が該当しない場合は、実施形態7と同様に、警告レベルに準じた図15(a)(b)(c)の記号のいずれかが選択される。
<実施形態10>
実施形態7,8、9では、入力画像やユーザが見たい被写体が十分大きく表示されている場合を事例に説明した。
しかし、一般的なデジタルカメラに付属する画像表示装置は撮影画像を等倍率で表示できる度大きくないので、表示領域上では撮影画像を縮小した画像を表示する。
つまり、入力画像を等倍率でみれば把握できる看板が、表示装置に表示した際にはユーザが目視できないほど小さく表示されてしまう可能性がある。
このため、表示装置上の文字サイズが規定サイズ以下となった場合に記号を表示させてもよい。
すなわち、このような場合、1305配置部に所定の用語に該当する文字領域の表示装置上でのサイズを判定する表示文字サイズ判定を追加し、判定の結果文字サイズが規定のサイズ以下であれば、記号配置を実行する。
また、実施形態7では、記号の視認性を確実に保つために記号に別途背景を付与して画像に配置していた。しかし、配置位置の色と記号本体の色の組み合わせの視認性が低くなければ、背景を付与せずに記号本体だけを配置してもよい。
図21(a)は入力画像を表示装置上に表示させたサムネイルである。
この画像には、海と丘、樹木と看板が被写体となっている。入力画像を等倍率にした場合は、看板の文字は十分大きい。しかし、表示画像が縮小されている図21(a)における看板の文字は規定サイズ以下となっている。
図21(b)は合成情報の一例である。看板の周囲に図15(a)の記号「禁止」が配置されているため、ユーザにはこの看板に何らかの禁止を告知する内容が記載されていることは把握できる。
図15(a)の記号「禁止」は赤と白で構成している。また、配置位置は空の部分であるので、配置位置の色は薄い青になる。この組み合わせであれば記号の視認性は低くはないため、記号に背景は付与せず記号本体のみを配置した。
図21(c)は表示装置上で画像を拡大して表示させた場合、看板に”危険 遊泳禁止区域”と書かれている。
この場合であれば、文字領域は規定サイズ以上であり、ユーザにはっきりと読める大きさになっているため記号は配置されない。
以上説明したとおり、本実施形態によれば、表示装置上で表示された文字領域の文字サイズが小さい場合、文字領域に対応する記号を選択、配置することで、ユーザに文字領域の情報を確実に提供することが可能となった。
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ可読の記憶媒体を、システムあるいは装置に供給することによっても、達成される。また、システムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成してもよい。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれる。
201 入力画像
202 文字領域抽出部
203 文字認識部
204 変換部
205 配置領域抽出部
206 配置部
207 判定部
208 配置領域拡張部
209 合成部
210 合成情報

Claims (18)

  1. 画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識手段と、
    前記画像の特徴変化が少ない領域を検出する検出手段と、
    前記検出された領域に前記文字コードから得られるデータを配置する配置手段と、
    を備えることを特徴とする画像処理装置。
  2. 画像から文字が配置されている領域を抽出する配置領域の抽出手段を更に備え、
    前記配置手段は、前記検出された領域に前記配置領域を拡張して、拡張した配置領域に前記文字コードから得られるデータを配置することを特徴とする請求項1記載の画像処理装置。
  3. 前記配置手段は、前記検出された領域に前記文字コードから得られる記号を配置することを特徴とする請求項1記載の画像処理装置。
  4. 前記配置手段は、前記検出された領域より優先して、前記配置領域内の空き領域に前記文字コードから得られる記号を配置することを特徴とする請求項2記載の画像処理装置。
  5. 前記文字認識手段で生成した文字コードを変換する変換手段を更に備え、
    前記配置手段は、前記検出された領域に変換された文字コードに応じたパターンを配置することを特徴とする請求項1記載の画像処理装置。
  6. 前記変換手段は、変換前の文字コードに応じたパターンと変換後の文字コードに応じたパターンとで配置するための面積が異なる文字コードに変換することを特徴とする請求項5記載の画像処理装置。
  7. 前記変換手段は、前記文字認識手段で生成した文字コードを、他言語へ翻訳された文字コードに変換することを特徴とする請求項5記載の画像処理装置。
  8. 前記変換手段は、前記文字認識手段で生成した文字コードが漢字ならば平仮名にした文字コードに変換することを特徴とする請求項5記載の画像処理装置。
  9. 前記変換手段は、前記文字認識手段で生成した文字コードを、同等の意味で平易な用語の文字コードに変換することを特徴とする請求項5記載の画像処理装置。
  10. 前記配置手段は、前記文字認識した文字の文字サイズが予め設定した下限文字サイズより小さい場合、前記文字コードに応じたパターンを下限文字サイズ以上の文字サイズで配置することを特徴とする請求項1記載の画像処理装置。
  11. 前記配置手段は、前記配置領域の拡張可能方向を決定する決定手段を更に備え、決定された拡張方向に前記配置領域を拡張することを特徴とする請求項2記載の画像処理装置。
  12. 前記決定手段は、前記検出された領域の分布により拡張可能な方向を決定することを特徴とする請求項11記載の画像処理装置。
  13. 前記検出手段は、前記配置領域の周囲の領域から順に、前記画像の特徴変化が少ないか判断することを特徴とする請求項1記載の画像処理装置。
  14. 前記検出手段は、前記画像の色の変化が少ない領域を検出することを特徴とする請求項1記載の画像処理装置。
  15. 前記検出手段は、前記画像のエッジ成分の少ない領域を検出することを特徴とする請求項1記載の画像処理装置。
  16. 前記配置手段は、前記画像と前記文字コードから得られるデータとを合成することを特徴とする請求項1記載の画像処理装置。
  17. 画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識工程と、
    前記画像の特徴変化が少ない領域を検出する検出工程と、
    前記検出された領域に前記文字コードから得られるデータを配置する配置工程と、
    を備えることを特徴とする画像処理方法。
  18. コンピュータを、
    画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識手段と、
    前記画像の特徴変化が少ない領域を検出する検出手段と、
    前記検出された領域に前記文字コードから得られるデータを配置する配置手段と、
    として機能させるためのプログラム。
JP2012148457A 2011-08-08 2012-07-02 画像処理装置、画像処理方法およびプログラム Active JP5631362B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012148457A JP5631362B2 (ja) 2011-08-08 2012-07-02 画像処理装置、画像処理方法およびプログラム
US13/567,519 US9245357B2 (en) 2011-08-08 2012-08-06 Image processing apparatus, image processing method, and storage medium

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2011173023 2011-08-08
JP2011173023 2011-08-08
JP2011245794 2011-11-09
JP2011245794 2011-11-09
JP2012148457A JP5631362B2 (ja) 2011-08-08 2012-07-02 画像処理装置、画像処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013122747A true JP2013122747A (ja) 2013-06-20
JP5631362B2 JP5631362B2 (ja) 2014-11-26

Family

ID=47677582

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012148457A Active JP5631362B2 (ja) 2011-08-08 2012-07-02 画像処理装置、画像処理方法およびプログラム

Country Status (2)

Country Link
US (1) US9245357B2 (ja)
JP (1) JP5631362B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111228A1 (ja) * 2014-01-27 2015-07-30 楽天株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、プログラム、及び情報記憶媒体
US10068359B2 (en) 2013-09-27 2018-09-04 Sharp Kabushiki Kaisha Information processing device
US10528852B2 (en) 2017-03-22 2020-01-07 Kabushiki Kaisha Toshiba Information processing apparatus, method and computer program product
US10832100B2 (en) 2017-03-22 2020-11-10 Kabushiki Kaisha Toshiba Target recognition device

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5733444B1 (ja) * 2014-03-12 2015-06-10 富士ゼロックス株式会社 画像処理装置及びプログラム
JP6370080B2 (ja) * 2014-04-02 2018-08-08 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム。
KR102598104B1 (ko) 2018-02-23 2023-11-06 삼성전자주식회사 외부 전자 장치로부터 텍스트 정보를 수신하는 시간 동안에 발생된 움직임을 보상하여 이미지에 포함된 객체 위에 텍스트 정보를 표시하는 방법 및 그 전자 장치
US10699112B1 (en) * 2018-09-28 2020-06-30 Automation Anywhere, Inc. Identification of key segments in document images

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588653A (ja) * 1991-09-26 1993-04-09 Hokuriku Nippon Denki Software Kk 画面合成表示領域決定装置
JPH0589280A (ja) * 1991-09-30 1993-04-09 Ricoh Co Ltd 入力装置
JPH05108716A (ja) * 1991-10-21 1993-04-30 Oki Electric Ind Co Ltd 機械翻訳装置
JPH07192000A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 要約機能を備えた機械翻訳方法
JP2007018448A (ja) * 2005-07-11 2007-01-25 Ricoh Co Ltd 漢字仮名変換画像形成装置、漢字仮名変換画像形成方法およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0713969A (ja) 1993-02-19 1995-01-17 Matsushita Electric Ind Co Ltd 機械翻訳機
JPH09138802A (ja) 1995-11-15 1997-05-27 Hitachi Ltd 文字認識翻訳システム
JP3908437B2 (ja) * 2000-04-14 2007-04-25 アルパイン株式会社 ナビゲーションシステム
JP4150842B2 (ja) 2000-05-09 2008-09-17 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
US7352912B2 (en) * 2004-12-10 2008-04-01 Xerox Corporation Method for automatically determining a region of interest for text and data overlay
JP2006251902A (ja) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd 翻訳文書画像生成装置、翻訳文書画像生成プログラム及び翻訳文書画像生成方法
US8144990B2 (en) * 2007-03-22 2012-03-27 Sony Ericsson Mobile Communications Ab Translation and display of text in picture
JP4483909B2 (ja) * 2007-08-24 2010-06-16 富士ゼロックス株式会社 翻訳装置及びプログラム
CN101436248B (zh) 2007-11-14 2012-10-24 佳能株式会社 用于根据图像生成文本字符串的方法和设备
CN101436254B (zh) 2007-11-14 2013-07-24 佳能株式会社 图像处理方法和图像处理设备
US20090285445A1 (en) * 2008-05-15 2009-11-19 Sony Ericsson Mobile Communications Ab System and Method of Translating Road Signs
JP2009294788A (ja) * 2008-06-03 2009-12-17 Ricoh Co Ltd 情報処理装置、情報処理方法、制御プログラム及び記録媒体
US8780131B2 (en) * 2008-12-19 2014-07-15 Xerox Corporation Systems and methods for text-based personalization of images
US8842909B2 (en) * 2011-06-30 2014-09-23 Qualcomm Incorporated Efficient blending methods for AR applications

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0588653A (ja) * 1991-09-26 1993-04-09 Hokuriku Nippon Denki Software Kk 画面合成表示領域決定装置
JPH0589280A (ja) * 1991-09-30 1993-04-09 Ricoh Co Ltd 入力装置
JPH05108716A (ja) * 1991-10-21 1993-04-30 Oki Electric Ind Co Ltd 機械翻訳装置
JPH07192000A (ja) * 1993-12-27 1995-07-28 Toshiba Corp 要約機能を備えた機械翻訳方法
JP2007018448A (ja) * 2005-07-11 2007-01-25 Ricoh Co Ltd 漢字仮名変換画像形成装置、漢字仮名変換画像形成方法およびプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068359B2 (en) 2013-09-27 2018-09-04 Sharp Kabushiki Kaisha Information processing device
WO2015111228A1 (ja) * 2014-01-27 2015-07-30 楽天株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、プログラム、及び情報記憶媒体
JP5889494B2 (ja) * 2014-01-27 2016-03-22 楽天株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、プログラム、及び情報記憶媒体
JPWO2015111228A1 (ja) * 2014-01-27 2017-03-23 楽天株式会社 情報処理システム、情報処理システムの制御方法、情報処理装置、プログラム、及び情報記憶媒体
US10614511B2 (en) 2014-01-27 2020-04-07 Rakuten, Inc. Information processing system, method for controlling information processing system, information processing device, program, and information storage medium
US10528852B2 (en) 2017-03-22 2020-01-07 Kabushiki Kaisha Toshiba Information processing apparatus, method and computer program product
US10832100B2 (en) 2017-03-22 2020-11-10 Kabushiki Kaisha Toshiba Target recognition device

Also Published As

Publication number Publication date
US9245357B2 (en) 2016-01-26
US20130039537A1 (en) 2013-02-14
JP5631362B2 (ja) 2014-11-26

Similar Documents

Publication Publication Date Title
JP5631362B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4918776B2 (ja) 電子文書比較プログラム、電子文書比較装置および電子文書比較方法
US8046167B2 (en) Navigation with contextual color, texture, and structure cues
CN100477745C (zh) 图像合成装置和图象合成方法
JP4353259B2 (ja) 情報処理装置、画像表示装置、および、これらにおける制御方法ならびに当該方法をコンピュータに実行させるプログラム
JP4142614B2 (ja) トラッピング方法、トラッピングプログラム、トラッピング装置および印刷システム
EP2100212B1 (en) Method for visualizing a change caused by scrolling in a scrolling direction of a section of a text and/or graphic displayed on an optical display means
US20160203628A1 (en) Information processing device editing map acquired from server
KR20150106330A (ko) 화상 표시 장치 및 화상 표시 방법
JP5021856B1 (ja) コンテンツ表示装置、コンテンツ表示方法、プログラム、および記録媒体
US9030555B2 (en) Surveillance system
JP2008146608A5 (ja)
JP2012212338A (ja) 画像処理判定装置
JP2013210793A (ja) Ar表示最適化のためのシステム、方法、およびプログラム
US11277596B2 (en) Image processing apparatus, image processing method, and storage medium
JP6337680B2 (ja) 画像処理システム、画像処理装置、プログラム及び画像処理方法
US20070211961A1 (en) Image processing apparatus, method, and program
JP5826966B2 (ja) 画像処理装置、画像処理方法、情報記憶媒体、及びプログラム
KR101651842B1 (ko) 전자문서 레이아웃 생성 방법 및 장치
US8423881B2 (en) Systems and methods for placing visual links to digital media on physical media
JP2013045226A (ja) 画像処理装置、画像処理方法及びプログラム
JP2011188367A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
JP2006285028A (ja) 地図画像生成装置および方法
JP4830763B2 (ja) 画像処理システムおよび画像処理プログラム
JP2011113005A (ja) 地図情報処理装置、地図情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140909

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141007

R151 Written notification of patent or utility model registration

Ref document number: 5631362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151