JP2013122747A

JP2013122747A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2013122747A
Application number: JP2012148457A
Authority: JP
Inventors: Taeko Yamazaki; 妙子山▲崎▼; Yuji Kobayashi; 雄二小林; Shigeo Fukuoka; 茂雄福岡
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2011-08-08
Filing date: 2012-07-02
Publication date: 2013-06-20
Anticipated expiration: 2032-07-02
Also published as: US9245357B2; US20130039537A1; JP5631362B2

Abstract

【課題】画像中の文字を文字認識して生成した文字コードから得られるパターンをそのまま元の文字が存在していた領域に配置すると、視認性良く収まらないことがある。
【解決手段】画像の特徴変化が少ない領域に、画像内の文字領域から認識され生成された文字コードに応じたパターンを、配置する。
【選択図】図３

Description

本発明は、画像から抽出した文字情報を加工して視認性良く表示する技術に関する。

近年、デジタルカメラは画像を撮影するだけでなく、画像中の文字情報を記録するために用いられるケースが増えてきている。

また、撮影した画像を活用するために、画像から文字情報を抽出し、翻訳等、文字情報をユーザが利用しやすい形態に変換することも多い。

たとえば、特許文献１では、観光案内掲示板、建造物、看板、パンフレット、レストランのメニュー等々に記述されている文字を、カメラ画像データとして取り込み、文字認識して翻訳する技術が公開されている。

特許文献２では、翻訳後の文字情報を元の文書に反映させると、原文と訳文の文字数などの変化が発生する場合、訳文の文字サイズ等を変え、元の原文位置に訳文を適切に埋め込む技術が公開されている。

特許文献３では、文書画像の文字領域を文字認識し、文字のフォントを出力フォントにしている。文字コードデータが配置される領域を、画素の濃度が一定値以下の未使用領域を含めた領域まで拡大する。

特開平０９−１３８８０２特開平０７−０１３９６９特開２００１−３１９２４０

しかしながら特許文献１では、ユーザに提示される翻訳後の文字情報は、翻訳対象の文字が存在していた元の画像とは別の翻訳表示領域に表示されており、元の画像中に翻訳結果を表示させていない。元の画像と翻訳後の文字情報とを一覧することができず、翻訳後の文字情報の元の画像内での位置対応の把握が容易ではない。単純に、翻訳対象の文字が存在していた元の画像中の領域に翻訳後の文字情報を配置しようとすると、翻訳後の文字情報が、元の画像中の領域に収まらず、はみだしてしまう。（図３（ｅ））。

特許文献２では、翻訳対象の文字が存在していた文書領域に合わせて、文字サイズを調整して翻訳後の文字情報を表示している。しかし、翻訳後の文字情報を配置可能な領域の面積が大幅に狭い場合には、翻訳後の文字サイズが小さくなりすぎる可能性がある。（図３（ｄ））
特許文献３では、文書画像を扱っている。自然画では、未使用領域はないため、文字認識により生成した文字コードから得られるパターンを配置して視認性の良い領域を特許文献３と同じように決定することはできない。

本発明は上記の問題点に鑑みてなされたものであり、文字認識により生成した文字情報の表示において、画像の特徴変化が少ない領域に文字情報を視認性良く表示することを目的とする。

上述の問題点を解決するため、本発明の画像処理装置は以下の構成を備える。即ち、画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識手段と、前記画像の特徴変化が少ない領域を検出する検出手段と、前記検出された領域に前記文字コードから得られるデータを配置する配置手段。

本発明によれば、画像内の特徴変化が少ない領域に、画像内の文字領域から認識され生成された文字コードに応じたパターンを、視認性良く配置することができる。

実施形態１の画像処理装置の構成例実施形態１の機能ブロック図（ａ）入力画像の一例、（ｂ）文字領域の一例、（ｃ）配置領域の一例、（ｄ）（ｅ）（ｆ）合成情報の一例実施形態１の配置部２０６の処理手順を示すフローチャート実施形態１の配置領域拡張部２０８の処理手順を示すフローチャートステップＳ５０１の詳細な処理手順を示すフローチャートステップＳ４０４の処理を画像に施した例実施形態２の配置部２０６の処理手順を示すフローチャート実施形態３の合成情報の一例実施形態４の配置領域拡張部２０８の処理手順を示すフローチャートステップＳ１００１の詳細な処理手順を示すフローチャート実施形態４の探索対象線分の例実施形態７の機能ブロック図（ａ）入力画像の一例、（ｂ）文字領域の一例、（ｃ）配置領域の一例記号選択部２０６で選択する記号の例記号選択部２０６のフローチャート配色の警告レベルの例配置位置判定部２０７のフローチャート（ａ）入力画像をタイル分割した例、（ｂ）記号が配置位置可能と判定された領域の例、（ｃ）合成情報の一例実施形態８における記号テーブルの例（ａ）実施形態１０における入力画像を表示装置に全体表示させた例、（ｂ）実施形態１０における合成情報の例、（ｃ）実施形態１０における入力画像を拡大表示させた例

＜実施形態１＞
以下に、図面を参照して、本発明の好適な実施の形態を詳しく説明する。なお、以下の実施の形態はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。

図１は、本発明の実施形態１を実施するための画像処理装置の構成例である。ＣＰＵ１０１は、実行プログラムを実行するＣＰＵである。ＣＰＵ１０１は、バスを介してバスに接続された各デバイスを制御する。ＲＡＭ１０２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。処理プログラムや入出力データはＲＡＭ上に展開されて処理される。記憶装置１０６は、処理対象となる画像データや処理済の電子ファイルを記憶する記憶装置である。入力装置１１０は、処理データを外部から入力するための入力装置である。表示装置１１１は、処理データを外部に表示するための表示装置である。

デジタルカメラやスマートフォンなどの入力装置１１０から入力された画像データは、ハードディスクなどの記憶装置１０６に入力データ１０８として記憶される。記憶装置１０６に記憶されている処理プログラム１０７はＲＡＭ１０２上の処理プログラム展開領域１０３に展開され、ＣＰＵ１０１によって実行される。処理プログラムは入力データ１０８を記憶装置１０６から呼び出し、ＲＡＭ１０２上の入力データ領域１０４に展開する。処理プログラムは、展開された入力データ１０８に対して処理を施し、ＲＡＭ１０２上の出力データ領域１０５に処理結果を出力し、記憶装置１０６に出力データ１０９として保存する。出力データ１０９はディスプレイなどの表示装置１１１に出力される。

尚、ＣＰＵ１０１、ＲＡＭ１０２、記憶装置１０６は入力装置１１０の内部に組み込まれていてもよいし、入力装置１１０の外部装置として存在してもよい。また、表示装置１１１は入力装置１１０に付属していてもよい。たとえば、入力装置１１０がデジタルカメラであれば、本体に付属する液晶画面が表示装置１１１となる。

尚、ＣＰＵ１０１はプログラムを実行することで各種の手段として機能することが可能である。なお、ＣＰＵ１０１と協調して動作するＡＳＩＣなどの制御回路がこれらの手段として機能してもよい。また、ＣＰＵ１０１と画像処理装置の動作を制御する制御回路との協調によってこれらの手段が実現されてもよい。また、ＣＰＵ１０１は単一のものである必要はなく、複数であってもよい。この場合、複数のＣＰＵは分散して処理を実行することが可能である。また、複数のＣＰＵは単一のコンピュータに配置されていてもよいし、物理的に異なる複数のコンピュータに配置されていてもよい。なお、ＣＰＵがプログラムを実行することで実現する手段が専用の回路によって実現されてもよい。

図２は実施形態１における機能ブロック図である。実施形態１では、各々の機能ブロックの概略を一通り説明した後、機能の詳細を説明する。

＜機能ブロック説明＞
入力画像２０１：
入力装置１１０から入力される入力画像である。入力画像２０１の具体例を図３（ａ）の画像３０１に挙げる。図３（ａ）の画像３０１には風景と交通標識が被写体となっている。入力画像は静止画でもよいし、記憶装置１０６に予め保存された動画でもよい。また、入力装置１１０がリアルタイムに取得した動画を逐次処理してもよい。本実施形態では静止画像３０１を例にその後の処理についての詳細を説明する。

文字領域抽出部２０２：
入力画像２０１から文字が存在する領域を抽出する。例えば、看板内の文字の領域である。ここでは公知技術を用いればよく、例えば、特許文献特開２００９−１２３２０６が挙げられる。この特許文献では以下の方法で文字領域を抽出している。入力画像からエッジ画像を生成し、エッジ画像から連結画素塊（ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔ以後ＣＣと呼ぶ）を生成する。ＣＣの大きさなどの特徴量から文字らしいと推定される候補ＣＣの座標位置をハフ変換した結果、直線に並ぶ候補ＣＣ群を文字領域と判定する。図３（ｂ）の領域３０２は入力画像３０１から抽出した文字領域を示している。

文字認識部２０３：
文字領域抽出部２０２によって抽出された文字領域について文字認識を行い、認識された文字を文字コードに変換する文字認識部である。ここでは公知の文字認識技術を用いればよく、本実施形態では文字認識処理で得られた文字に関する情報、すなわち、文字コードが生成されたとする。ほかにも認識処理で得られた文字領域に関する情報、たとえば、文字領域の外接矩形の座標情報、文字の色なども先の文字コードと合わせて文字情報として出力する。なお、本実施形態では文字領域３０２から”歩行者優先”という文字に対応する文字コードが得られたとする。

また、文字領域に文字の全体が含まれていない文字（以下、部分文字と呼ぶ）が含まれることも考えられる。その部分文字も文字認識ができれば、文字コードを発生させる。

変換部２０４：
文字認識部２０３によって生成された文字コードを、異なる文字コードに変換する変換部である。例えば、他言語への翻訳、漢字を平仮名にする、同等の意味で平易な用語に置き換えるなどのために、文字コードを変換している。

このような変換を行うと、変換前の文字コードから得られるテキストパターンと、変換後の文字コードから得られるテキストパターンとで配置するための面積が異なることがある。たとえば、日本語の”歩行者優先”を英語に翻訳すると、”ＹｉｅｌｄｔｏＰｅｄｅｓｔｒｉａｎｓ”となる。文字列の長さが長くなり、配置に必要な面積が異なる文字コードに変換したことになる。また、日本語の”歩行者優先”をすべて平仮名にすると、”ほこうしゃゆうせん”、平易な用語に置き換えると、”あるくひとがさきです”となる。すなわち、変換の前後で、文字数の変化や、１文字当たりの文字幅の変化によって文字列長も変化し、結果として、テキストパターンを配置するために必要な面積が異なることがある。

尚、部分文字を認識して生成した文字コードから得られるテキストパターンを配置するために必要な面積は、元の画像中の部分文字の領域の面積より大きくなる。部分文字から文字コードを生成することにより、部分文字が文字の全体に変換され、文字の全体を配置することになるからである。このように、ある文字コードから別の文字コードに変換しなくても、元の画像中の文字よりも文字認識部２０３で生成した文字コードから得られるテキストパターンのほうが、配置するのに必要な面積が大きくなることがある。

以下、本実施形態では、日本語の”歩行者優先”を、英語の”ＹｉｅｌｄｔｏＰｅｄｅｓｔｒｉａｎｓ”に翻訳変換したとして説明を進める。

配置領域抽出部２０５：
入力画像２０１から、文字が配置されている配置領域を抽出する配置領域抽出部である。画像３０１での配置領域とは、文字の下地部分となる看板本体を指す。文字が配置されている掲示板、パンフレット、レストランのメニュー、標識等の枠部分が配置領域に該当する。

配置領域の抽出には、公知のナンバープレート本体を認識する技術を用い、抽出された領域を配置領域とすればよい。たとえば、特許文献特開２００９−１５１７５９では、以下の方法がとられている。入力画像からエッジ画像を生成し、エッジ強度が規定値以上の画素を抽出する。ここで抽出した画素位置をハフ変換し、変換結果の線分で囲まれた領域をナンバープレート本体の領域としている。ナンバーが文字に対応し、プレートが文字の下地部分の看板に対応している。

図３（ｃ）の領域３０３は入力画像３０１から抽出した配置領域を示している。

配置部２０６：
変換部２０４で変換した文字情報を配置領域抽出部２０５で抽出した配置領域を含む領域に配置する配置部である。配置部２０６は、判定部２０７、配置領域拡張部２０８、合成部２０９から構成される。

入力画像２０１から文字認識部２０３が生成した文字コードと、変換部２０４で変換した文字コードとの文字数の変動があった場合について考える。

具体例をあげる。入力画像３０１を入力した場合、文字認識部２０３で認識される文字コードは”歩行者優先”の５文字である。

しかし、”歩行者優先”を変換部２０４で他言語である英語に変換すると、”ＹｉｅｌｄｔｏＰｅｄｅｓｔｒｉａｎｓ”と空白も入れて２０文字となり、変換前の文字数の４倍になる。このため、変換後の文字情報（テキストパターン）を、入力画像上の元の文字の大きさのまま配置領域である看板本体の領域に配置すると、文字情報（テキストパターン）が看板からはみ出してしまう。（図３（ｅ））。また、変換後の文字情報（テキストパターン）を配置領域に収めようとすると、大幅に文字サイズを小さくしなければならず可読性が低下する。（図３（ｄ））
文字数の変動の他に、１文字当たりの文字幅の変動が変換後の文字情報の配置面積に影響することもある。

この問題を解決するため、配置部２０６は変換した文字コードから得られるテキストパターンが前記配置領域に収めて可読性を確保できるかを判定する判定部２０７と、配置領域を拡張する配置領域拡張部２０８の機能を持つ。判定部２０７、配置領域拡張部２０８の機能については、後ほど詳細に説明する。

合成情報２１０：
配置部２０６にて入力画像２０１と変換後の文字情報（テキストパターン）とを合成した合成情報である。

図３（ｆ）は入力画像３０１に変換部２０４で変換した文字情報”ＹｉｅｌｄｔｏＰｅｄｅｓｔｒｉａｎｓ”を合成したものである。配置部２０６によって、看板部分の配置領域が他のオブジェクトに影響の少ない方向へ拡張され、変換後の文字情報（テキストパターン）が拡張後の配置領域内に収まっている。

本実施形態では入力画像を静止画として説明しているので、合成情報は静止画であり、静止画上に重畳される。しかし、入力画像が動画であればフレーム毎に取得した合成情報を各フレームに重畳させてもよい。この場合、ユーザは合成情報も動画のような動きをしているようにみえる。また、動画フレーム中の代表的なフレームの静止した合成情報を連続して合成しても構わない。このような場合、さらに、入力画像がリアルタイム取得した動画であれば、拡張現実技術（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）を用いて入力画像と合成情報を合成してもよい。

以上、本実施形態を実現する機能ブロックの概略について説明した。

次に、配置部２０６についての詳細を説明する。

図４は配置部２０６の処理手順を説明するフローチャートである。このフローチャートは、ＣＰＵ１０１が制御プログラムを実行することにより実現される。ステップＳ４０１、ステップＳ４０２、ステップＳ４０３が判定部２０７の処理に、ステップＳ４０４は配置領域拡張部２０８の処理に、ステップＳ４０５、ステップＳ４０６は合成部２０９の処理に該当する。

以下、各ステップを説明する。ステップＳ４０１では、配置領域抽出部２０５で抽出した配置領域の面積Ｓ１を求める。ステップＳ４０２では、配置領域が内包する位置に存在する文字領域を選択し、この文字コードを変換部２０４で変換したの文字コードから得られるテキストパターンの配置面積Ｓ２を求める。

配置面積Ｓ２の算出は、元の画像の文字サイズと変換後の文字コードの文字数を積算すればよい、また、変換後の文字のサイズを予め設定しておき、その設定した文字サイズと文字コードの文字数を掛け合わせてもよい。文字幅を用いて、文字幅と文字数を掛け合わせて文字列の長さを取得してもよい。

ステップＳ４０３では、面積Ｓ１と面積Ｓ２を比較し、変換後の文字コードから得られるテキストパターンが元の配置領域に収めて良いかどうか判定する。面積Ｓ１より面積Ｓ２が小さい場合（Ｓ１≧Ｓ２）は変換後の文字コードから得られるテキストパターンは、少なくとも変換前より視認状態が悪くならない文字サイズで配置領域に収まるので配置可と判断し、ステップＳ４０５へ遷移する。

面積Ｓ１より面積Ｓ２が大きい場合（Ｓ１＜Ｓ２）は、変換後の文字コードから得られるテキストパターンは、元の配置領域に収めると可読性が低下するので配置否と判断し、ステップＳ４０４へ遷移する。

ステップＳ４０４は、配置領域の周囲に文字の配置が可能な領域があるかを判定し、配置領域を拡張する。単純に配置領域を拡張すると、画像中の他のオブジェクトを隠してしまう可能性がある。このため、配置領域を拡張して文字を配置しても影響の少ない領域、すなわち、配置領域の周囲で他のオブジェクトが存在していない領域を探索する。オブジェクトの有無は、色の変化や強エッジ成分の有無などで判断する。この処理の詳細は別途説明する。

ステップＳ４０５では、変換後の文字コードから得られるテキストパターンを配置する前準備として配置領域にもともと存在していた文字を消す。具体的には、配置領域の文字領域以外の色情報の平均をとり、その色で文字領域を塗りつぶす。または、拡張後の配置領域全体を、拡張前の配置領域の文字領域を除いた部分の平均色で塗りつぶす方法でもよい。

ステップＳ４０６では、変換後の文字コードから得られるテキストパターンを配置領域に配置する。なお、文字サイズはステップＳ４０２の配置面積の算出で用いた文字サイズを使い、文字色は文字認識部２０３で文字コードとともに取得した元の文字の色を用いる。

配置領域拡張部２０８（ステップＳ４０４）の機能について図５で概要を、図６で詳細を説明する。図５は配置領域拡張部２０８の処理手順を示すフローチャートである。このフローチャートは、ＣＰＵ１０１が制御プログラムを実行することにより実現される。

まず、ステップＳ５０１において、文字を配置しても元の画像への影響が少ないと考えられる他のオブジェクトが存在していない領域、すなわち色の変化が少ない、強エッジ成分の少ない領域を検出し、ステップＳ５０２へ遷移する。ステップＳ５０１の処理の詳細は図６を用いて別途説明する。

次に、ステップＳ５０２において、配置領域を拡張する方向を決定し、ステップＳ５０３へ遷移する。

最後のステップＳ５０３にて、変換後の文字コードから得られるテキストパターンの配置に必要な面積を満たすように配置領域を拡張し、拡張した配置領域を元の配置領域の平均色で塗りつぶす。配置領域の形状は、撮影時の台形等に歪んだ形状をそのまま拡張してもよいし、配置領域を単純な長方形（外接矩形）に置き換えて拡張してもよい。

ステップＳ５０１の拡張可能領域検出の処理手順について図６のフローチャートを用いて説明する。拡張可能領域検出には、画像を規定のサイズにタイル分割し、そのタイルにオブジェクトが存在しているかを判定する方法を用いる。オブジェクトが存在しない領域とは、色の変化が少なく、強エッジ成分の少ない領域を意味する。

図６はステップＳ５０１拡張可能領域検出手順の詳細フローチャートである。このフローチャートは、ＣＰＵ１０１が制御プログラムを実行することにより実現される。ステップＳ６０１において、入力画像を規定のサイズにタイル分割し、ステップＳ６０２へ遷移する。本実施形態では３２×３２ピクセルを既定のタイルサイズとするが、タイルのサイズ設定は任意でかまわない。

ステップＳ６０２において、まずは、文字配置領域との境界にあるタイルを、拡張可能かを判定する対象タイルとし、ステップＳ６０３へ遷移する。これは、同一画像中に複数の配置領域があった場合を考慮し、拡張処理の対象となる配置領域の周囲だけを拡張可能かの検出対象としたいからである。始めから画像全域を対象として、色の変化が少ないまたは強エッジ成分の少ない拡張可能領域を検出するより、対象領域が減るので処理負荷が減る。

図７（ａ）の網かけタイル７０１はステップＳ６０２で判定対象とされたタイルである。

ステップＳ６０３では、判定対象タイルのうち１つを選択しステップＳ６０４へ遷移する。以降の処理対象タイルは、判定対象タイルから選択されたタイルとなる。

ステップＳ６０４において、処理対象タイル内に他のオブジェクトがあるかを判定し、オブジェクトがないと判断すればステップＳ６０５、オブジェクトがあると判断すればステップＳ６０７へ遷移する。判定の前に、もしその処理対象タイルが配置領域との境界部のタイルであれば、配置領域部分の画素を取り除いた部分だけを用いて判定する。

オブジェクトの有無の判定には、下記の方法が考えられる。

＊タイル内の色情報を元にカラーヒストグラムを生成し、ヒストグラムの分散が小さければ、オブジェクトがないと判断する。

＊タイル中の色情報から一般的なカラークラスタリング手法を用い、タイル内の色が一意に決まるようであればオブジェクトがないと判断する。

＊エッジ画像を生成し、タイル中に強度の高いエッジがなければオブジェクトがないと判断する。

＊風景画像の空の部分はオブジェクトがないとみなせるので、タイル中の色情報が青色で占められていれば、オブジェクトがないと判断する。

＊風景画像の樹木や植物の葉の部分は配置領域で隠されても問題がないので、タイル中の色情報が緑色で占められていれば、オブジェクトがないと判断する。

以上にあげた方法のいずれかもしくは組み合わせを用いて、オブジェクトの有無を判定する。

ステップＳ６０５では、ステップＳ６０４でオブジェクトがないと判定されたタイルを拡張可能タイルと判定する。

ステップＳ６０６では、拡張可能タイルに近接するタイルを順に、さらに判定対象タイルに追加する。具体的には、拡張可能タイルを中心とした８近傍、もしくは４近傍のタイルのうち、すでに判定したタイル、すでに判定対象に含まれているタイルを除いて判定対象タイルに追加する。

ステップＳ６０７では、判定対象タイルのうち、未判定のタイルがないかを確認する。判定をしていない対象タイルがあれば、ステップＳ６０３へ遷移し、すべての判定対象タイルの判定が終わっていれば拡張可能領域検出処理を終了し、ステップＳ５０２の拡張方向決定処理へ遷移する。

図７（ｂ）の網かけタイル７０２は拡張可能と判定されたタイルである。

ステップＳ５０２では、拡張可能領域の分布から配置領域を広げる方向を決定する。方向の決め方は、たとえば以下の方法が挙げられる。

配置領域の周囲をタイル分割境界に合わせて図７（ｃ）のように縦横に９区分に分割し、存在する拡張可能タイルの割合を区分ごとに算出する。拡張可能タイルの割合が高かった区分のうち、配置領域の辺の法線ベクトルの方向にある区分を優先して拡張可能な方向とする。図７（ｃ）を例にあげると、最も拡張可能タイルの割合が多く、配置領域の辺の法線ベクトルの方向にあるのは区分７０６であるので、拡張可能方向は、文字配置領域の左横となる。

以上の処理で拡張可能な方向を決定した後に、ステップＳ５０３で文字配置領域を拡張して、変換後の文字コードから得られるテキストパターンを配置した例が図３（ｆ）となる。

画像の他のオブジェクトを干渉せず、変換後の文字情報が視認性の良い状態で合成できているのがわかる。

以上説明した通り、本実施形態では、画像中の文字を認識して生成した文字コードから得られるテキストパターンと元の画像との合成において、文字コードから得られるテキストパターンが元の配置領域に収まらない場合について説明した。配置領域を拡張して文字コードから得られるテキストパターンを配置することで、文字コードから得られるテキストパターンを視認性良く合成表示できる。

＜実施形態２＞
実施形態１での判定部２０７において、面積Ｓ１と面積Ｓ２とを比較して、文字配置領域を拡張するか否か判定していた。面積Ｓ１は配置領域、面積Ｓ２は元の文字サイズまたは予め定めた文字サイズでテキストパターンを配置した場合に必要な面積である。しかし、元の文字サイズより多少小さくなっていても、可読性が確保できる文字サイズであれば配置領域に配置しても構わない。そこで、本実施形態では、可読性を確保できる下限の文字サイズ以上で文字コードから得られるテキストパターンを配置できるかによって、文字配置領域を拡張するか否か判断する。

実施形態２の配置部２０６の処理手順について、図８のフローチャートを用いて説明する。このフローチャートは、ＣＰＵ１０１が制御プログラムを実行することにより実現される。なお、図４と同一の番号の処理は実施形態１と同じであるため説明は省く。

ステップＳ８０１では、ステップＳ４０１で算出した配置領域の面積Ｓ１内に、変換後の文字コードから得られるテキストパターンを配置する場合の文字サイズＴ１を算出する。

ステップＳ８０２では、文字サイズＴ１と予め設定した可読性を確保できる下限のサイズとを比較する。文字サイズＴ１の方が大きければ、変換後の文字コードから得られるテキストパターンは、視認性良く配置領域に収まると判断し、ステップＳ４０５へ遷移する。ステップＳ８０１で算出した文字サイズＴ１が下限文字サイズより大きい場合、文字配置領域は拡張しなくても良い。文字サイズＴ１が可読性を確保できる下限サイズより小さい場合は視認性良く配置領域に収まらないと判断し、ステップＳ４０４へ遷移する。

ステップＳ８０３では、変換後の文字コードから得られるテキストパターンを配置領域に配置する。なお文字サイズは、下限文字サイズより大きな文字サイズＴ１、下限文字サイズ、下限文字サイズより大きな元の文字サイズ、予め定めた文字サイズの何れかを使い、文字色は文字認識部２０３で文字コードとともに取得した元の文字の色を用いる。

以上説明したとおり、本実施形態によれば、可読性を確保できる下限サイズ以上でテキストパターンを配置できるかを基準に、配置領域の拡張の可否を判断している。

＜実施形態３＞
実施形態１での配置領域拡張部２０８において、拡張可能な方向を１つに決め、その方向に配置領域を拡張していたが、拡張方向は２つ以上あってもよい。

たとえば、最も拡張可能タイルの割合が高かった区分の方向に配置領域を拡張しても、変換後の文字コードから得られるテキストパターンを配置できる面積の配置領域が確保できなかったら、次に拡張可能タイルの割合が高かった区分の方向へ拡張する。

図９は拡張可能な方向が左方向であると判定し、拡張したが、変換後の文字コードから得られるテキストパターンを配置できる面積の配置領域を確保できなかったため、拡張可能タイルの割合が次に高かった右方向へ配置領域を拡張した例である。

また、拡張可能タイルの割合が一定以上であれば拡張可能とみなし、配置領域の中心から複数の方向へ拡張してもよい。

＜実施形態４＞
実施形態１での配置領域拡張部２０８において、配置領域の周囲に拡張可能な領域があるかタイル単位で判定し、拡張可能タイルの分布から拡張してよい方向を決定していた。本実施形態では、拡張可能な方向を簡易的に判定し、拡張方向を決定する。

図１０は、配置領域拡張部２０８の処理手順を示すフローチャートである。このフローチャートは、ＣＰＵ１０１が制御プログラムを実行することにより実現される。

まず、ステップＳ１００１において、文字を配置しても構わない他のオブジェクトが存在していない方向を検出し、ステップＳ１００２へ遷移する。ステップＳ１００１の処理手順の詳細は図１１のフローチャートを用いて別途説明する。

ステップＳ１００２にて、変換後の文字コードから得られるテキストパターンの配置に必要な面積を満たすように配置領域を拡張し、拡張した配置領域を元の配置領域の平均色で塗りつぶす。

図１１はステップＳ１００１の拡張可能方向決定の詳細な処理手順を示すフローチャートである。このフローチャートは、ＣＰＵ１０１が制御プログラムを実行することにより実現される。

ステップＳ１１０１にて、探索対象線分を取得し、ステップＳ１１０２に遷移する。

探索対象線分とは、図１２のような配置領域を中心とした線分であり、たとえば図１２（ａ）のように、配置領域の４辺に対する法線ベクトルが挙げられる。また、図１２（ｂ）のように配置領域の４辺の中点から水平、もしくは、水平に伸ばした線分でもよい。同じく、図１２（ｃ）のように、配置領域の中心点から放射線状に延びる線分でもよい。これらのうちいずれか一つのパターンで探索対象成分を取得する。

ステップＳ１１０２では先に取得した探索対象線分のうち１つを選択し、ステップＳ１１０３へ遷移する。

ステップＳ１１０３では、探索線分上の画素値のヒストグラムを生成し、ステップＳ１１０４へ遷移する。

ステップＳ１１０４では、線分上にオブジェクトがあるかを判定する。

オブジェクトの有無の判断には、画素値の濃度変化が大きければ何らか物体が線分上に存在する、すなわちオブジェクトがあると判断する。ほかにも、画素値が空の青や、植物の緑などの特定の色情報が連続して続く場合はオブジェクトがないと判断しても構わない。線分上にオブジェクトがないと判断した場合はステップＳ１１０５へ、オブジェクトがあると判断した場合はステップＳ１１０６へ遷移する。

ステップＳ１１０５では、ステップＳ１１０４でオブジェクトがないと判定された線分を拡張可能線分と判定する。

ステップＳ１１０６では、探索対象線分のうち、未判定の線分がないかを確認する。判定をしていない線分があれば、ステップＳ１１０３へ遷移し、すべての探索対象線分の判定が終わっていれば拡張可能方向決定処理を終了し、ステップＳ１００２の配置領域拡張処理へ遷移する。

なお、ステップＳ１００２は実施形態１の図５のステップＳ５０３と処理は同等のため、説明は省く。

以上説明したとおり、本実施形態によれば、簡易的に拡張方向を選択できるため処理速度の向上や、ワークメモリの低減が可能になる。

＜実施形態５＞
実施形態４では、拡張可能線分とは画像端まですべてオブジェクトがないと判定した線分としているが、線分上を順次走査し、走査を開始する配置領域の辺の画素からオブジェクトがあると判定した画素位置までを拡張可能線分としてもよい。この場合、実際に文字背景を拡張する範囲は、線分上でオブジェクトがあると判定された画素までとなる。

＜実施形態６＞
以上、配置領域拡張部２０８における拡張可能な範囲の決定について、いくつかの方法を説明したが、その他の画像処理を組み合わせてオブジェクトのない領域を検出できれば方法は問わない。たとえば、画像全体をカラークラスタリングし、処理対象の配置領域に接するカラークラスタのうちも最も面積が大きいクラスタが存在する位置に配置領域を拡張する。

さらに、画像中から背景を検出する一般的な技術を用いてもよく、検出した背景のうち配置領域に接している部分を拡張可能な範囲とし、配置領域を拡張する。

また、配置領域周囲に拡張可能な領域がなかった場合は、予め設定した方向に配置領域を拡張してもよい。

＜実施形態７＞
図１３は実施形態７における機能ブロック図である。実施形態７では、各々の機能ブロックの概略を一通り説明した後、機能の詳細を説明する。

＜機能ブロック＞
入力画像１３０１：
入力装置１１０から入力される入力画像である。入力画像１３０１の具体例を図１４（ａ）の画像１４０１に挙げる。図１４（ａ）の画像１４０１には壁に貼り付けられた２枚の看板が被写体になっている。上の看板は本体が赤であって、白抜き文字で書かれた看板である。下の看板は本体が白であって、黒い文字が書かれた看板である。また、画像左下に他のオブジェクト（ドアの一部分）が入り込んでいる。入力画像は静止画でもよいし、記憶装置１０６に予め保存された動画でもよい。また、入力装置１１０がリアルタイムに取得した動画を逐次処理してもよい。本実施形態では静止画像１４０１を例にその後の処理についての詳細を説明する。
本実施形態では画像１４０１を例にその後の処理についての詳細を説明する。

文字領域抽出部１３０２：
入力画像から文字が存在する領域を抽出する。文字領域とは、たとえば、看板内の文字の領域である。

ここでも実施形態１で挙げた公知技術を用いればよい。

図１４（ｂ）の領域１４０２、１４０３は入力画像１４０１から抽出した文字領域を示している。

文字認識部１３０３：
文字領域抽出部１３０２によって抽出された文字領域について文字認識を行い、認識された文字を文字コードに変換する文字認識部である。ここでは公知の文字認識技術を用いればよく、本実施形態では文字認識処理で得られた文字に関する情報、すなわち、文字コードが生成されたとする。ほかにも認識処理で得られた文字領域に関する情報、たとえば、文字領域の外接矩形の座標情報、文字の色なども先の文字コードと合わせて文字情報として出力する。なお、本実施形態では文字領域１４０２から”火気厳禁”、文字領域１４０３から”指定可燃物取扱所”の文字コードが得られたとする。

配置領域抽出部１３０４：
入力画像から文字が配置されている配置領域を抽出する配置領域抽出部である。配置領域とは、看板文字の下地部分となる看板本体を指す。配置領域の抽出には、実施形態１と同じく、公知のナンバープレート本体を認識する技術を用い、抽出された領域を配置領域とすればよい。

図１４（ｃ）の領域１４０４、１４０５は入力画像１４０１から抽出した配置領域を示している。

配置部１３０５：
文字認識部１３０３で取得した文字コードをユーザに分かりやすい記号に変換して、入力画像に配置する配置部である。配置部１３０５は、以下の３つの処理部で構成する。

＊文字コードや入力画像の特徴から記号を選択する記号選択部１３０６
＊入力画像上における記号を配置する位置を判定する配置位置判定部１３０７
＊記号と入力画像から合成情報を生成する合成部１３０８
配置部１３０５については、後ほど詳細に説明する。

合成情報１３０９：
配置部１３０５にて入力画像に記号を合成した合成情報である。合成情報の表示例については、後ほど説明する。以上、本実施形態を実現する機能ブロックの概略について説明した。

以下、ここから配置部１３０５についての詳細を説明する。

本処理は文字領域抽出部１３０２で抽出した文字領域単位で実行する。

配置部１３０５では
＊記号選択部１３０６
＊配置位置判定部１３０７
＊合成部１３０８
から構成され、図１３で示した通り、処理の順は１３０６、１３０７、１３０８と遷移する。

以下、３つの処理部について、説明を続ける。

記号選択部１３０６：
入力画像がもし、危険を警告する、もしくは、注意を喚起する看板であれば、その内容を確実にユーザに知らせなければならない。このため、記号選択部１３０６では文字認識部１３０３で認識した文字コードの中に、所定の用語がある場合や、抽出した文字色および配置領域の配色によってその内容にあった記号を選択する。

具体的には、所定用語ごと、および、配色組み合わせごとに警告レベルの算出を行い、その結果に応じた記号を選択する。

本実施形態において、記号選択部１３０６で選択する記号は、「禁止」「注意」「一般情報」の３種類とする。

選択する記号の例を図１５に挙げる。図１５（ａ）は「禁止」を意図した記号であり、１５０１は赤、１５０２は白で構成する。図１５（ｂ）は「注意」を意図した記号であり、１５０３および１５０４は黒、１５０４は黄色で構成する。図１５（ｃ）は禁止でもなく、注意でもない、すなわち「一般情報」を意図する記号であり、図１５（ａ），（ｂ）の配色以外のものなら何でもよい。本実施形態では、１５０６を白、１５０７を黒で構成する。

記号選択部１３０６の処理手順を、図１６のフローチャートを用いて説明する。このフローチャートは、ＣＰＵ１０１が制御プログラムを実行することにより実現される。

ステップＳ１６０１では文字認識部１３０３で認識した文字コードから文字の警告レベルを算出し、ステップＳ１６０２へ遷移する。文字の警告レベルは、「禁止」「注意」「一般情報」とする。警告レベルの大小関係は、「禁止」が一番高く、次いで「注意」、「一般情報」と定義する。

警告レベルの判定基準は文字コードの中に予め設定しておいた所定の用語が含まれるかで決定する。警告レベルと対応する用語を以下に列挙する。

警告レベル「禁止」
禁止きんし厳禁だめダメお断りおことわりいけないいけません禁ず
警告レベル「注意」
注意ちゅうい危険きけんキケン危ないあぶない警告
警告レベル「一般情報」
警告レベル「禁止」および「注意」に該当しない
上記の判定基準で判定すると、文字領域１４０２から得られた文字コード”火気厳禁”の警告レベルは「禁止」、文字領域１４０３から得られた文字コード”指定可燃物取扱所”の警告レベルは「一般情報」となる。また、文字コード中に異なる警告レベルの用語が含まれている時は、警告レベルの高い方を優先させる。

たとえば、判定対象の文字コードが”あぶないからはいってはいけません”であった場合、警告レベル「注意」の”あぶない”と、警告レベル「禁止」の”いけません”が含まれている。

この文字コード全体で警告レベルでは、より高い警告レベルを採用するので、”あぶないからはいってはいけません”の警告レベルは「禁止」となる。

なお、本実施形態における警告レベルは日本語のみで設定しているが、同義の外国語を含んでいても構わない。

ステップＳ１６０２では、文字領域と配置領域の配色から警告レベルを算出し、ステップＳ１６０３へ遷移する。

配色の警告レベルは１，２，３の３段階とする。この設定は、数が大きいほど、警告の度合いは高くなることを意味している。文字領域および配置領域の色は、該当する領域の画素がもつ色情報を平均して算出する。また、赤、青などの色の分類は、算出した色情報の色空間上での位置で判断する。

配色の警告レベルの詳細を図１７に示す。

図１７の判断基準で判定すると、文字色が白である文字領域１４０２と赤である配置領域１４０４の組み合わせの警告レベルは３となる。

同じく、文字色が黒である文字領域１４０３と白である配置領域１４０４の組み合わせの警告レベルは１となる。また、同じ文字領域で文字色や配置領域の色が一部異なる場合は、それぞれの配色の警告レベルの判定を実行して、同じ文字領域内で警告の度合いが高い方を選択する。

ステップＳ１６０３では、先に算出した文字の警告レベル、および、配色の警告レベルから総合的に判断し、表示する記号を決定する。

本実施形態では、文字の警告レベルに基づき、記号の種類を選択し、配色の警告レベルに基づき、表示する記号の大きさを決定することにする。

文字の警告レベルについては、
＊文字の警告レベルが「禁止」であれば、図１５（ａ）の記号「禁止」
＊文字の警告レベルが「注意」であれば、図１５（ｂ）の記号「注意」
＊文字の警告レベルが「一般情報」であれば、図１５（ｃ）の記号「一般情報」
を選択することになる。

配色の警告レベルに関しては、その文字コードがさらに注意喚起を促す配色であれば記号を大きくすることで、ユーザに確実に情報を提示できるようにする。すなわち、
＊配色の警告レベルが１であれば、記号サイズ小
＊配色の警告レベルが２であれば、記号サイズ中
＊配色の警告レベルが３であれば、記号サイズ大
と設定する。

記号のサイズは固定のサイズとしてもよい。また、記号サイズを拡大もしくは縮小の係数として設定しておき、実際の記号の大きさは対応する文字領域の面積と記号サイズ係数に基づいて算出してもよい。

記号のサイズを固定とした場合の具体例を以下に挙げる。

図１４の文字領域１４０２の文字コード”火気厳禁”の文字の警戒レベルは「禁止」、文字色が白である文字領域１４０２と赤である配置領域１４０４の組み合わせの警告レベルは３である。よって、文字領域１４０２には、図１５（ａ）の記号「禁止」のサイズ大を選択する。

文字領域１４０３から得られた文字コード”指定可燃物取扱所”の警告レベルは「一般情報」、文字色が黒である文字領域１４０３と白である配置領域１４０４の組み合わせの警告レベルは１となる。よって、文字領域１４０３には、図１５（ｃ）の記号「一般情報」のサイズ小を選択する。

以上により、各文字領域に対して、表示する記号が選択できた。

次に、配置位置判定部１３０７について説明をする。

配置位置判定部１３０７：
記号選択部１３０６で選択した記号を配置する際には、以下の問題が発生する。まずは、選択した記号がどの文字領域に対するものなのかを明確にするために、対応する文字領域の近辺に配置しなければならない。また、入力画像には看板以外の物体（以下、前景オブジェクトと呼ぶ）も写りこんでいる場合がほとんどである。危険や注意を喚起する記号が他の前景オブジェクトの上に重ねて表示すると、記号そのものが見えにくくなる可能性がある。さらに、看板と他の前景オブジェクトの位置関係に重要な意味があることもあるため、記号の配置位置が適切でないと入力画像中から看板の本来の意図が読み取れなくなる可能性も出てくる。

よって、配置位置判定部１３０７では、入力画像中に記号を配置しても問題なく看板の意味をユーザに提示できる領域、すなわち、他の前景オブジェクトが存在していない領域であって、記号選択部１３０６で選択した記号と対応する文字領域に近い領域を探索する。

前景オブジェクトの有無は画像を規定のサイズにタイル分割し、そのタイルに前景が存在しているかを判定する方法を用いる。次に、前景オブジェクトのない領域のどの位置に記号をおくかの判断は、まずは看板の内部になる文字配置領域と重なる領域を優先する。文字配置領域と重なる領域が記号の配置ができない面積や形状であった場合、前景オブジェクトが存在しない、文字配置領域外の文字領域から最も近い位置に記号を配置する。

図１８は配置位置判定部１３０７の処置手順を示したフローチャートである。

ステップＳ１８０１において、入力画像を規定のサイズにタイル分割し、ステップＳ１８０２へ遷移する。本実施形態では３２×３２ピクセルと既定のタイルサイズとするが、タイルのサイズ設定は任意でかまわない。図１９（ａ）は入力画像の図１４（ａ）をタイル分割した例である。

ステップＳ１８０２において、処理対象の文字領域の周囲にあるタイルを、記号が配置可能かを判定する対象タイルとし、ステップＳ１８０３へ遷移する。

これは、同一画像中に複数の文字領域があった場合を考慮し、対象となる文字領域の周囲だけを記号配置可能かの検出対象としたいからである。

ステップＳ１８０３では、判定対象タイルのうち１つを選択しステップＳ１８０４へ遷移する。以降の処理対象はこの処理ブロックで選択したタイルとなる。

ステップＳ１８０４において、タイル内に他の前景があるかを判定し、前景がないと判断すればステップＳ１８０５、前景があると判断すればステップＳ１８０７へ遷移する。

前景の有無の判定には、下記の方法が考えられる。

＊タイルの内の色情報を元にカラーヒストグラムを生成し、ヒストグラムの分散が小さければ、前景がないと判断する。

＊タイル中の色情報から一般的なカラークラスタリング手法を用い、タイル内の色が一意に決まるようであれば前景がないと判断する。

＊エッジ画像を生成し、タイル中に強度の高いエッジがなければ前景がないと判断する。＊風景画像の空の部分は記号が重なって表示されても問題はないので、タイル中の色情報が青色で占められていれば、前景がないと判断する。

＊風景画像の樹木や植物の葉の部分は記号が重なって表示されても問題はないので、タイル中の色情報が緑色で占められていれば、前景がないと判断する。

以上にあげた方法のいずれかもしくは組み合わせて前景の有無を判定する。

ステップＳ１８０５では、ステップＳ１８０４で前景がないと判定されたタイルを記号配置可能タイルと判定する。

ステップＳ１８０６では、記号配置可能タイルに近接するタイルをさらに判定対象タイルに追加する。具体的には、記号配置可能タイルを中心とした８近傍、もしくは４近傍のタイルのうち、すでに判定したタイルおよび、すでに判定対象に含まれているタイル以外を判定対象タイルに追加する。

ステップＳ１８０７では、判定対象タイルのうち、未判定のタイルがないかを確認する。判定をしていない対象タイルがあれば、ステップＳ１８０３へ遷移し、すべての判定対象タイルの判定が終わっていればステップＳ１８０８へ遷移する。

図１９（ｂ）１９０１は文字領域１４０２の記号が配置可能と判定されたタイルである。

また、図１９（ｃ）の１９０２，１９０３は文字領域１４０３の記号が配置可能と判定されたタイルである。

ステップＳ１８０８では、前景がなく記号の配置が可能と判定されたタイルのうち、どの位置に配置するかを決定する。

記号配置可能タイル群が対応する文字領域に対し、分断して存在することもある。また、記号配置可能タイルのうち、さらに文字に近い位置を指定したい。このため、先のステップＳ１８０７で判定した記号配置可能タイルのうち、さらに記号配置に最適な位置を本ステップＳ１８０８で決定する。

図１９（ｃ）に基づいて本処理を説明する。

先のＳ１８０７で文字領域１４０３の配置が可能と判定された領域は１９０２，１９０３の２か所ある。まず、先に選択した記号が配置可能な面積や形状の領域かを確認する。図１９（ｃ）の場合、記号の配置面積から配置できるタイル群は１９０３のみとなる。

次に、記号配置可能タイル群のうち、どの位置に記号を配置するかを判定する。

記号を置く場所は文字領域と同じ看板内となる文字配置領域のほうが、ユーザは文字領域との関連をつけやすい。このため、図１９（ｃ）の記号配置可能タイル群１９０３のうち、記号を配置するタイルは文字配置領域と重畳するタイル群の１９０２＿ａとする。
図１９（ｂ）の記号配置可能タイル群１９０１の場合は、文字配置領域と重畳するタイル群１９０１＿ａは記号配置に十分な面積や形状でない。この場合は文字配置領域外のタイル群１９０２＿ｂを選択する。

以上により、文字領域１４０２について、記号が配置可能と判定されたタイル群は１９０１＿ｂ、文字領域１４０３については１９０２＿ａと決定される。

決定したタイル群のうち、座標としてどの位置に記号を配置するかについては、記号と対応する文字領域が最も近い箇所、たとえば、文字領域と記号を結ぶ直線が最も短くなる位置とする。

以上により、各文字領域に対して、表示する記号の位置を決定できた。

最後に、合成部１３０８について説明をする。

合成部１３０８：
記号選択部１３０６で選択した各文字領域に対応する記号を、配置位置判定部１３０７で決定した配置位置に合成する。

このとき、記号の色と配置位置の色が互いに同系色になるなど、記号の視認性が低下する可能性があるため、記号に背景を付与して、画像に配置する。

図１９（ｃ）は、合成情報の一例である。各文字領域に対し、記号選択部１３０６で選択した記号が配置位置判定部１３０７で決定した位置に配置されていることがわかる。
本実施形態では入力画像を静止画として説明しているので、図１９（ｃ）の合成情報は静止画であり、静止画上に重畳される。しかし、入力画像が動画であればフレーム毎に取得した合成情報を各フレームに重畳させてもよい。この場合、ユーザは合成情報も動画のような動きをしているようにみえる。また、動画フレーム中の代表的なフレームの静止した合成情報を連続して合成しても構わない。このような場合、さらに、入力画像がリアルタイム取得した動画であれば、拡張現実技術（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）を用いて入力画像と合成情報を合成してもよい。

この画像であれば、日本語の解読が困難なユーザであっても、上の看板には何らかの禁止を意図する内容が記載されていること、下の看板には禁止でも注意でもない一般的な内容が記載されていることが容易に判別できる。

以上説明したとおり本実施形態によれば、入力画像中の文字領域に対応する記号を選択し、適切な位置に配置することで、ユーザに文字領域の情報を確実に提供することが可能となった。

＜実施形態８＞
実施形態７の記号選択部１３０６において、ユーザにとって警告を訴える情報か、それ以外かの判定をし、記号を選択している。

しかし、同じ警告レベル“危険”であっても警告の意味が異なる場合が多い。このため、所定用語の分類を細分化し、表示する記号の種類を増やしてもよい。

具体的には、警告レベル“危険”となる用語に基づいて、記号と用語が関連付けられたテーブルを予め用意しておき、抽出した文字コードをキーにテーブルを参照し、記号を選択する。

図２０（ａ）に警告レベル“危険”の記号テーブルの一例を示す。２００１は“立ち入り禁止”に類する用語が含まれていれば選択する記号である。２００２は“禁煙”に類する用語が含まれていれば選択する記号である。２００３は“撮影禁止”に類する用語が含まれていれば選択する記号である。このテーブルはあくまで一例であり、ここでは図示しない一般的な危険を知らせる標識とその意味を用いてテーブルを拡張してもよい。

実際の処理では記号選択部１３０６において、警告レベル“危険”であれば図２０（ａ）のテーブルを参照し、記号を選択する。また、図２０（ａ）で示したテーブルに用語が該当しない場合は、図１５（ａ）の記号が選択される。

＜実施形態９＞
実施形態８では、警告レベル“危険”をさらに細分化した記号テーブルに基づいて記号を選択している。これに加えて、警告レベル“注意”、“一般情報”に対しても、分類をさらに細分化し、表示する記号を増やしてもよい。

図２０（ｂ）に警告レベル“注意”および“一般情報”の記号テーブルの一例を示す。２００４は警告レベル“注意”であって、“頭上注意”に類する用語が含まれていれば選択する記号である。２００５は警告レベル“注意”であって、“足元注意”に類する用語が含まれていれば選択する記号である。２００６は警告レベル“一般情報”であって、“トイレ”に類する用語が含まれていれば選択する記号である。２００７は警告レベル“一般情報”であって、認識した文字コードが地名であった場合に選択する記号である。文字コードが地名か否かの判定には、別途地名を格納したデータベースを用意しておく。

このテーブルはあくまで一例であり、ここでは図示しない標識とその意味を用いてテーブルを拡張してもよい。

実際の処理では１３０６記号選択部において、図２０（ａ）、（ｂ）のテーブルを参照し、記号を選択する。テーブルに用語が該当しない場合は、実施形態７と同様に、警告レベルに準じた図１５（ａ）（ｂ）（ｃ）の記号のいずれかが選択される。

＜実施形態１０＞
実施形態７，８、９では、入力画像やユーザが見たい被写体が十分大きく表示されている場合を事例に説明した。

しかし、一般的なデジタルカメラに付属する画像表示装置は撮影画像を等倍率で表示できる度大きくないので、表示領域上では撮影画像を縮小した画像を表示する。

つまり、入力画像を等倍率でみれば把握できる看板が、表示装置に表示した際にはユーザが目視できないほど小さく表示されてしまう可能性がある。

このため、表示装置上の文字サイズが規定サイズ以下となった場合に記号を表示させてもよい。

すなわち、このような場合、１３０５配置部に所定の用語に該当する文字領域の表示装置上でのサイズを判定する表示文字サイズ判定を追加し、判定の結果文字サイズが規定のサイズ以下であれば、記号配置を実行する。

また、実施形態７では、記号の視認性を確実に保つために記号に別途背景を付与して画像に配置していた。しかし、配置位置の色と記号本体の色の組み合わせの視認性が低くなければ、背景を付与せずに記号本体だけを配置してもよい。

図２１（ａ）は入力画像を表示装置上に表示させたサムネイルである。

この画像には、海と丘、樹木と看板が被写体となっている。入力画像を等倍率にした場合は、看板の文字は十分大きい。しかし、表示画像が縮小されている図２１（ａ）における看板の文字は規定サイズ以下となっている。

図２１（ｂ）は合成情報の一例である。看板の周囲に図１５（ａ）の記号「禁止」が配置されているため、ユーザにはこの看板に何らかの禁止を告知する内容が記載されていることは把握できる。

図１５（ａ）の記号「禁止」は赤と白で構成している。また、配置位置は空の部分であるので、配置位置の色は薄い青になる。この組み合わせであれば記号の視認性は低くはないため、記号に背景は付与せず記号本体のみを配置した。

図２１（ｃ）は表示装置上で画像を拡大して表示させた場合、看板に”危険遊泳禁止区域”と書かれている。

この場合であれば、文字領域は規定サイズ以上であり、ユーザにはっきりと読める大きさになっているため記号は配置されない。

以上説明したとおり、本実施形態によれば、表示装置上で表示された文字領域の文字サイズが小さい場合、文字領域に対応する記号を選択、配置することで、ユーザに文字領域の情報を確実に提供することが可能となった。

なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録したコンピュータ可読の記憶媒体を、システムあるいは装置に供給することによっても、達成される。また、システムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成してもよい。

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれる。

２０１入力画像
２０２文字領域抽出部
２０３文字認識部
２０４変換部
２０５配置領域抽出部
２０６配置部
２０７判定部
２０８配置領域拡張部
２０９合成部
２１０合成情報

Claims

画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識手段と、
前記画像の特徴変化が少ない領域を検出する検出手段と、
前記検出された領域に前記文字コードから得られるデータを配置する配置手段と、
を備えることを特徴とする画像処理装置。
画像から文字が配置されている領域を抽出する配置領域の抽出手段を更に備え、
前記配置手段は、前記検出された領域に前記配置領域を拡張して、拡張した配置領域に前記文字コードから得られるデータを配置することを特徴とする請求項１記載の画像処理装置。
前記配置手段は、前記検出された領域に前記文字コードから得られる記号を配置することを特徴とする請求項１記載の画像処理装置。
前記配置手段は、前記検出された領域より優先して、前記配置領域内の空き領域に前記文字コードから得られる記号を配置することを特徴とする請求項２記載の画像処理装置。
前記文字認識手段で生成した文字コードを変換する変換手段を更に備え、
前記配置手段は、前記検出された領域に変換された文字コードに応じたパターンを配置することを特徴とする請求項１記載の画像処理装置。
前記変換手段は、変換前の文字コードに応じたパターンと変換後の文字コードに応じたパターンとで配置するための面積が異なる文字コードに変換することを特徴とする請求項５記載の画像処理装置。
前記変換手段は、前記文字認識手段で生成した文字コードを、他言語へ翻訳された文字コードに変換することを特徴とする請求項５記載の画像処理装置。
前記変換手段は、前記文字認識手段で生成した文字コードが漢字ならば平仮名にした文字コードに変換することを特徴とする請求項５記載の画像処理装置。
前記変換手段は、前記文字認識手段で生成した文字コードを、同等の意味で平易な用語の文字コードに変換することを特徴とする請求項５記載の画像処理装置。
前記配置手段は、前記文字認識した文字の文字サイズが予め設定した下限文字サイズより小さい場合、前記文字コードに応じたパターンを下限文字サイズ以上の文字サイズで配置することを特徴とする請求項１記載の画像処理装置。
前記配置手段は、前記配置領域の拡張可能方向を決定する決定手段を更に備え、決定された拡張方向に前記配置領域を拡張することを特徴とする請求項２記載の画像処理装置。
前記決定手段は、前記検出された領域の分布により拡張可能な方向を決定することを特徴とする請求項１１記載の画像処理装置。
前記検出手段は、前記配置領域の周囲の領域から順に、前記画像の特徴変化が少ないか判断することを特徴とする請求項１記載の画像処理装置。
前記検出手段は、前記画像の色の変化が少ない領域を検出することを特徴とする請求項１記載の画像処理装置。
前記検出手段は、前記画像のエッジ成分の少ない領域を検出することを特徴とする請求項１記載の画像処理装置。
前記配置手段は、前記画像と前記文字コードから得られるデータとを合成することを特徴とする請求項１記載の画像処理装置。
画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識工程と、
前記画像の特徴変化が少ない領域を検出する検出工程と、
前記検出された領域に前記文字コードから得られるデータを配置する配置工程と、
を備えることを特徴とする画像処理方法。
コンピュータを、
画像から文字が存在する文字領域を文字認識し、文字コードを生成する文字認識手段と、
前記画像の特徴変化が少ない領域を検出する検出手段と、
前記検出された領域に前記文字コードから得られるデータを配置する配置手段と、
として機能させるためのプログラム。