JP6131256B6

JP6131256B6 - 映像処理装置及びその映像処理方法

Info

Publication number: JP6131256B6
Application number: JP2014530592A
Authority: JP
Inventors: リモノフ，アレクサンダー; リ，ジン−ソン; ミン，ジョン−スル
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-09-14
Filing date: 2012-09-14
Publication date: 2017-08-02
Anticipated expiration: 2032-09-14

Description

本発明は、映像処理装置及びその映像処理方法に関し、より詳細には、３Ｄ映像を提供する映像処理装置及びその映像処理方法に関する。

最近、より臨場感のある視聴のために、３Ｄディスプレイ装置に対する開発への取り組みが加速化している。それにより、従来は映画館で主に視聴していた３Ｄ映像を家庭でもテレビのような一般のディスプレイ装置を用いて視聴することができるようになった。

一方、３Ｄ映像で映画タイトル、ゲームスコアのようにオーバーレイ（ｏｖｅｒｌａｉｄ）テキストは、ユーザに関心を提供する部分である。しかし、既存のステレオマッチングアルゴリズム（ｓｔｅｒｅｏｍａｔｃｈｉｎｇａｌｇｏｒｉｔｈｍｓ）によってオーバーレイテキストに対する正確なディスパリティを算出することは困難である。

それによる空間的なディスパリティ不一致は、テキスト歪み及びフリッカーの原因となる。このような問題点は、テキスト領域でより目立つようになる。それにより、テキスト領域におけるディスパリティ不一致を解消するための方策が求められる。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、３Ｄ映像に含まれたテキスト領域のデプスを補正することができる映像処理装置及びその映像処理方法を提供することにある。

以上のような目的を達成するための本発明の一実施形態に係る映像処理装置は、入力された３Ｄ映像のデプスを推定するデプス推定部と、前記３Ｄ映像に含まれたテキスト領域を検出するテキスト領域検出部と、前記検出されたテキスト領域に対応するテキストマスクを生成するマスク生成部と、前記推定されたデプス及び前記生成されたテキストマスクに基づいて前記テキスト領域のデプスを補正するデプス補正部とを含む。

なお、前記デプス補正部は、前記推定されたデプスに基づいて前記テキスト領域のデプスを第１デプス値に補正してよい。

ここで、前記第１デプス値は、下記数式によって算出されてよい。

ここで、Ｌ（x、ｙ）は左眼イメージ、Ｒ（x、ｙ）は右眼イメージであり、ｄはテキストである。

なお、前記デプス補正部は、前記デプスの補正されたテキスト領域にデプステンポラルスムージング（ｄｅｐｔｈｔｅｍｐｏｒａｌｓｍｏｏｔｈｉｎｇ）処理を行ってよい。

なお、前記テキスト領域検出部は、テキストライン及びテキストカラーを検出し、検出されたテキストライン及びテキストカラーに基づいてテキスト領域を検出してよい。

なお、前記マスク生成部は、前記検出されたテキストラインによってマスクを拡張し、前記検出されたテキストカラーによって前記拡張されたマスクをフィルタリングして前記テキストマスクを生成してよい。

なお、前記デプス推定部は、前記推定されたデプスに基づいてデプスマップ（ｄｅｐｔｈｍａｐ）を生成し、前記デプス補正部は、前記デプスマップで前記テキスト領域に対応するデプス値を補正してよい。

一方、本発明の一実施形態に係る映像処理方法は、入力された３Ｄ映像のデプスを推定するステップと、前記３Ｄ映像に含まれたテキスト領域を検出するステップと、前記検出されたテキスト領域に対応するテキストマスクを生成するステップと、前記推定されたデプス及び前記生成されたテキストマスクに基づいて前記テキスト領域のデプスを補正するステップとを含む。

なお、前記デプスを補正するステップは、前記推定されたデプスに基づいて前記テキスト領域のデプスを第１デプス値に補正してよい。

なお、前記デプスの補正されたテキスト領域にデプステンポラルスムージング（ｄｅｐｔｈｔｅｍｐｏｒａｌｓｍｏｏｔｈｉｎｇ）処理を行うステップを更に含んでよい。

なお、前記テキスト領域を検出するステップは、テキストライン及びテキストカラーを検出し、検出されたテキストライン及びテキストカラーに基づいてテキスト領域を検出してよい。

なお、前記テキストマスクを生成するステップは、前記検出されたテキストラインによってマスクを拡張し、前記検出されたテキストカラーによって前記拡張されたマスクをフィルタリングして前記テキストマスクを生成してよい。

なお、前記デプスを推定するステップは、前記推定されたデプスに基づいてデプスマップ（ｄｅｐｔｈｍａｐ）を生成し、前記デプスを補正するステップは、前記デプスマップで前記テキスト領域に対応するデプス値を補正してよい。

以上説明したように、本発明によれば、３Ｄ映像を視聴する視聴者の便宜性を向上させることができる。

本発明が適用されるテキスト領域のエラー状態について説明するための図である。本発明の理解を促すための両眼に写る物体に対するディスパリティについて説明するための図である。本発明の一実施形態に係る映像処理装置の構成を示すブロック図である。本発明の一実施形態に係るデプス補正部の細部構成を示すブロック図である。本発明の一実施形態によってテキストマスクを生成する方法について説明するための図である。本発明の一実施形態によってテキストマスクを生成する方法について説明するための図である。本発明の一実施形態に係るアルゴリズムについて説明するためのブロック図である。本発明の一実施形態に係る映像処理方法について説明するためのフローチャートである。本発明が適用されるテキスト領域のエラー状態について説明するための図である。

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。

図１及び図９は、本発明が適用されるテキスト領域のエラー状態について説明するための図である。

最近、多くの電子装置は、ステレオビデオ再生機能を提供する。このような装置のサイズは小型モバイルフォンで大型テレビパネルまで、多様である。２Ｄ映像と違って、３Ｄステレオコンテンツは不適切なディスパリティが目の緊張及び疲れをもたらすおそれがあるため、スクリーンサイズに適するように容易にスケーリングすることができない。よって、全ての３Ｄステレオコンテンツは、視聴者の不都合を防止するために、既存のディスプレイサイズ及び視聴距離を採択する必要がある。

一般に、ディスパリティはステレオスコピックワーピング（ｗａｒｐｉｎｇ）によって調整されてよい。この場合、デプスマップは、左眼及び右眼イメージの間の対応部分を検出することで推定される。同一の接近方式が、オートステレオスコピックディスプレイに対するビュー補間に適用され、全ての中間ビューは既存の最左側、最右側ビュー及び対応するデプスマップから同期化されてよい。

一方、周期的なパターン及び薄い前景オブジェクトを有するイメージは、ステレオマッチングアルゴリズムに対して共通したエラーソースになる。ディスパリティ推定エラーは、ステレオスコピックワーピング後に深刻な視覚的な欠陥を引き起こすおそれがある。

オブジェクトの歪み及びフリッカーは、特に、人の顔、テキスト及びロゴ等のような高い突出性（ｓａｌｉｅｎｃｙ）領域で目立つ。

特に、オーバーレイテキストは、背景イメージと互いに異なるデプスを有する周期的なパターン及び文字のストローク近くに位置するため、ステレオマッチングに対するステレオスコピックイメージのうち、最も難しい部分の1つである。

一般的に、テキスト領域に対する不正確及び／または不一致のデプス推定は、歪み及びフリッカーを引き起こす。このような欠陥は、ユーザに眩暈を引き起こしたり、集中を妨げたり、とある時にはテキストが読み取れなくなるときもある。

図１は、３Ｄ映像のテキスト領域で発生するフリッカー現象を示す図である。

図９は、３Ｄ映像のテキスト領域で発生する歪み現象を示す図である。

それにより、本発明では、３Ｄ映像のテキスト領域で発生するフリッカー及び歪み現象を軽減させる方策が提案される。

図２は、本発明の理解を促すための両眼に写る物体に対するディスパリティについて説明するための図である。

図２において、Ｖは３Ｄディスプレイと視聴者との間の距離を示し、Ｄはオブジェクトがスクリーンから仮想で飛び出たり窪んで見える距離を示し、Ｅは視聴者間の両眼距離を示す。このとき、両眼に写る物体に対するディスパリティは下記の数式（１）のように表現されてよい。

前記数式（１）によると、仮想３Ｄ映像からＤ分だけスクリーンに窪んで映すために、ディスパリティだけの両眼に映る時点のシフトが要求される。このような特性に応じて、３Ｄディスプレイはディスパリティだけ離れた仮想の右眼映像と仮想の左眼映像とを生成してユーザに立体感を感じさせるようにする。

図３は、本発明の一実施形態に係る映像処理装置の構成を示すブロック図である。

図３に示すように、映像処理装置１００は、受信部１１０と、デプス推定部１２０と、テキスト領域検出部１３０及びデプス補正部１４０を含む。

受信部１１０は、３Ｄ映像信号を受信する。

ここで、３Ｄ映像は、ステレオ映像であってよい。ステレオ映像とは、１つの被写体を別の角度から撮影した２つの映像、すなわち、左眼映像及び右眼映像を含む。このようなステレオ映像は、多様なソースから提供されてよい。一例として、受信部１１０は、放送局チャネルのようなソースからステレオ映像を有線または無線で受信することができる。この場合、受信部１１０は、チューナ部、復調部、等化部のような多様な構成要素を備えることができる。

または、受信部１１０は、ＤＶＤ、ブルーレイディスク、メモリカード等のような各種記録媒体を再生できる記録媒体再生ユニットから再生されたステレオ映像を受信することもでき、カメラから撮影されたステレオ映像を直接受信することもできる。この場合、受信部１１０は、ＵＳＢインターフェース等のような各種インターフェースを具備する形態で実現されてよい。

または、受信部１１０は、ウェブサーバのような外部サーバからステレオ映像を受信することも可能である。

または、３Ｄ映像は、２Ｄ／３Ｄ切り替え技法に応じて、２Ｄ映像を基板として生成された映像であってよい。それについての詳細な説明は、省略する。

デプス推定部１２０は、左眼映像及び右眼映像に基づいて、映像内に存在する客体に関するデプス情報を推定する。ここで、デプス（ｄｅｐｔｈ）情報とは、映像内に存在する客体の３次元距離情報を示すものとして、デプスマップまたはデプス映像と称してよい。

例えば、被写体とカメラとの間の距離、被写体と被写体の映像とが結像する記録媒体間の距離等のように、立体感の情報を示す情報を意味する。すなわち、左眼映像と右眼映像との間の互いに対応するポイント間の距離差が大きい場合、その分だけより立体感が増大するようになる。デプスマップとは、このような深さの変化状態を１つの映像で構成したものとして、左眼及び右眼映像で互いにマッチングするポイント間の距離の大きさに応じて異なるグレイレベルで表現されてよい。例えば、デプスマップで明るく表示された部分は立体感の大きい部分であり、暗く表示された部分は立体感の小さい部分を意味する。

具体的に、デプス推定部１２０は、映像を構成する各ピクセルごとに、０から２５５の間の値でデプス値を表現し、映像内に存在する客体の３次元距離情報を示してよい。例えば、黒／白を基準に表すとき、黒（低い値）が視聴者から遠いところを表し、白（高い値）が視聴者から近いところを表してよい。

一方、デプス推定部１２０は、デプスマップを生成するために、左眼及び右眼映像で互いにマッチングするポインタを探すステレオマッチング作業を行うことができる。この場合、適応的な加重値を適用してステレオマッチングを行うこともできる。

例えば、左眼映像と右眼映像とは、１つの被写体を互いに異なる時点で撮影した映像であるため、視覚の差による映像の差が生じるおそれがある。例えば、左眼映像では被写体のエッジ部分と背景とが重なって写り、右眼映像ではやや離れた場合等である。よって、被写体を基準に一定範囲内のピクセル値を有するピクセルに対しては加重値をアップし、範囲から外れたピクセル値を有するピクセルに対しては加重値をダウンした適応的な加重値を適用することができる。それにより、左眼映像及び右眼映像のそれぞれに対して適応的な加重値を適用した後に、その結果を比較し、マッチング可否を決定することができる。このように、適応的な加重値を用いると、正しい適応点であるにもかかわらず、低い相関関係を有すると判定されることを防止することができるようになるため、マッチングの精度が向上される。

一方、図示はしていないが、映像処理装置１００には、デプスマップ生成のための演算の負担を軽減するためのダウンスケーラ部（図示せず）が更に含まれてよい。すなわち、ダウンスケーラ部（図示せず）は、受信部１１０を介して受信された映像をダウンスケーリングしてデプス推定部１２０に提供することで、演算負担を軽減させることができるようになる。

テキスト領域検出部１３０は、３Ｄ映像に含まれたテキスト領域を検出する。ここで、テキスト領域は、字幕領域、ＯＳＤに含まれたテキスト領域、放送会社Ｌｏｇｏ領域等、オーバーレイテキスト領域であってよい。

テキスト領域検出部１３０は、既に検出されたテキストフレームに対してテキストローカライゼーション（ｌｏｃａｌｉｚａｔｉｏｎ）を行うことができる。ここで、テキストフレームは、入力される映像の中で、固定された間隔で配置された部分または圧縮されたドメイン部分を検出することで検出されてよい。

テキスト領域検出部１３０は、検出されたテキストフレームに対してエッジ抽出等の前処理を行い、前処理されたフレームのハフ変換（ＨｏｕｇｈＴｒａｎｓｆｏｒｍ）等の線形抽出過程を通じて線形部分を抽出することで、テキストが含まれた領域を抽出することができる。

具体的に、テキスト領域検出部１３０は、テキストライン及びテキストカラーを検出し、検出されたテキストライン及びテキストカラーに基づいてテキスト領域を検出することができる。ここで、テキスト領域は、四角状で抽出されてよいが、それに限定されるものではない。

テキスト領域の検出のために、テキスト領域検出部１３０は、例えば、テキスト領域の検出するために、テキストライン集合接近方法を利用してよい。ここで、ラインは、Ｗｕｅｔａｌ.（Ｖ. Ｗｕ、Ｒ. Ｍａｎｍａｔｈａ、ａｎｄＥ. Ｍ. Ｒｉｓｅｍａｎ、“Ｔｅｘｔｆｉｎｄｅｒ：ＡｎａｕｔｏｍａｔｉｃＳｙｓｔｅｍｔｏｄｅｔｅｃｔａｎｄｒｅｃｏｇｎｉｚｅｔｅｘｔｉｎｉｍａｇｅｓ、” ＩＥＥＥＴｒａｎｓ. ＰａｔｔｅｒｎＡｎａｌ. Ｍａｃｈ. Ｉｎｔｅｌｌ.、ｖｏｌ. 21、ｎｏ. １１、ｐｐ. １２２４−１２２９、Ｎｏｖ. １９９９.）に開示された方法と類似する固定された垂直エッジの密度に応じて検出されてよい。

１．垂直エッジ検出
垂直エッジを検出するために、以下の数式（２）のようにイメージ１の垂直成分Ｇｙを算出する。

そして、現在のフレームｎに対するエッジ閾値ＥＴを以下の数式（３）のように設定する。

ここで、ｋは臨界時間スムージングに利用される以前のフレームの数を示す。

安定的なエッジ検出のために、確率モデルを利用する。エッジ確率Ｅｐ（ｘ、ｙ）は、以下の数式（４）のようにアップデートされる。

エッジ確率が０.５より大きい場合のピクセルが現在のフレームに対してエッジピクセルとしてカウンティングされる。

２．テキストライン検出
各水平ラインに対してエッジ密度ＥＤを算出する。関数ＥＤ（ｙ）は中間フィルタを用いて処理される。

テキストラインに対して、垂直エッジに関連して同一の確率モデルを利用する。

ライン閾値は、ＥＤ（ｙ）のＲＭＳとして定義される。ライン確率Ｌｐが０.５より大きい連続的なイメージラインはテキストラインを形成するのに組み合わせられ、最後にテキストラインは最小及び最大のラインの高さに応じてフィルタリングされる。

３．テキストカラー検出
テキストカラーを検出するために入力されたイメージカラー量子化を適用し、ＲＧＢカラー空間を２５６カラーのパレット（Ｐａｌｌｅｔｅ）に変換する、各カラーｃ及びテキストライン内側ＣＤｉｎ（ｃ）に、テキストラインの外側ＣＤｏｕｔ（ｃ）の等しい領域でカラー密度を算出する。ここで、ｃはカラーテキストのカラーであってよい。

一方、本発明の別の実施形態によると、テキスト領域に含まれたテキストを抽出し、テキストに対してデプスを補正することも可能である。この場合、テキストは、テキスト領域に対してモーフォロジーオペレーションまたは区域基盤処理等を通じて行われてよい。

デプス補正部１４０は、推定されたデプス及び生成されたテキストマスクに基づいてテキスト領域のデプスを補正する。

具体的に、デプス補正部１４０は、推定されたデプス及び生成されたテキストマスクに基づいてテキスト領域のデプスを均一の第１デプス値に補正することができる。すなわち、テキスト領域内に含まれたそれぞれのテキストに対するデプス感が相互異なることがないように表現されるように、均一のデプス値を付与することができる。

この場合、デプス補正部１４０は、デプス推定部１２０で推定されたテキスト領域のデプス値のうち、最も大きい値にテキスト領域のデプスを均一に設定することができる。

なお、デプス補正部１４０は、場合によって、周辺領域のデプス値を考慮することもできる。すなわち、テキスト領域が周辺の背景映像と異質にならず、不連続に表現されないように、周辺の背景映像のデプス値と類似する値にデプスを設定することができる。すなわち、推定されたテキスト領域のデプス値のうち、背景映像のデプス値と最も類似する値にテキスト領域のデプスを設定することも可能である。

なお、デプス補正部１４０は、デプスの補正されたテキスト領域に対してフリッカを軽減させるために、デプステンポラルスムージング（ｄｅｐｔｈｔｅｍｐｏｒａｌｓｍｏｏｔｈｉｎｇ）処理を行うことができる。

デプス補正部１４０については、図４を参照して詳細に説明する。

一方、図示はしていないが、映像処理装置１００は映像処理部（図示せず）、３Ｄ映像生成部（図示せず）及びディスプレイ部（図示せず）を更に含んでよい。

映像処理部（図示せず）は、テキスト領域のデプスの補正されたデプスマップに基づいて、補正された左眼映像と右眼映像とをそれぞれクロップ（ｃｒｏｐ）した後、互いに重畳して３Ｄ映像を生成することができる。

３Ｄ映像生成部（図示せず）は、左眼映像及び右眼映像を互いに対応する大きさにクロップして３Ｄ映像を生成する。ここで、３Ｄ映像とは、クロップされた左眼映像及び右眼映像が重畳して生成した１つの３Ｄ映像ファイルを意味してよく、クロップされた左眼映像及び右眼映像のそれぞれが保存されたファイルを意味してよい。

ディスプレイ部（図示せず）は、３Ｄ映像生成部（図示せず）から出力されるデータを用いて３Ｄ映像をディスプレイする。すなわち、３Ｄ映像生成部（図示せず）でクロップされた左眼及び右眼映像を重畳して１つの３Ｄ映像を生成した場合には、その３Ｄ映像を直ちにディスプレイすることができる。または、クロップされた左眼映像及び右眼映像を別途に出力する場合、出力された２つの映像を重畳して３Ｄ映像形態で出力することができる。

一例として、ディスプレイ部（図示せず）は、３Ｄ映像を空間的に区分して出力し、メガネかけなくても、被写体との距離感を感じられるようになり、３Ｄ映像として認識することができる。この場合、ディスプレイ部（図示せず）は、パララックスベアラ（ＰａｒａｌｌａｘＢａｒｒｉｅｒ）技術またはレンチキュラー（Ｌｅｎｔｉｃｕｌａｒ）技術によるディスプレイパネルで実現されてよい。または、ディスプレイ部（図示せず）は、左眼及び右眼映像を交互に出力し、立体感を感じられるように実現することもできる。すなわち、本映像処理装置は、非メガネシステム及びメガネシステムのいずれでも実現可能である。

一方、上述の実施形態では、左眼映像及び右眼映像に基づいてテキスト領域のデプスを補正するものとして説明したが、それは一実施形態に過ぎない。本発明の別の実施形態によると、２Ｄ映像に対してテキスト領域を検出した後、テキスト領域に対するデプス値を均一に割り当てた後、左眼及び右眼映像を生成することも可能である。

図４は、本発明の一実施形態に係るデプス補正部の細部構成を示すブロック図である。

図４に示すように、デプス補正部１４０は、マスク生成部１４１及びテキスト領域デプス補正部１４２を含む。

マスク生成部１４１は、テキスト領域検出部１３０から検出されたテキストラインによってマスクを拡張し、検出されたテキストカラーによって拡張されたマスクをフィルタリングしてテキスト領域に対応するマスクを生成することができる。

図５は、本発明の一実施形態によってテキストマスクを生成する方法について説明するための図である。

図５の（ａ）に示すように、オーバーレイテキストを有する入力映像に、図５の（ｂ）に示すように、オーバーレイテキストを含むテキスト領域に対応するテキストマスクを生成してテキスト領域に対するデプスを補正することができる。

テキストマスクは、次のような繰り返しプロセスによって生成される。

１．垂直エッジマスク拡張
２．テキストカラーによるマスクフィルタリング
ここで、繰り返しプロセスは、テキストラインの内側のテキストマスクが安定すると終了する。安定した結果のために、上述のようにテキストマスクに対する同一の確率モデルを適用することができる。

テキスト領域デプス補正部１４２は、マスク生成部１４１で生成されたマスクを用いてテキスト領域のデプスを均一の値に設定することができる。

テキスト領域デプス補正部１４２は、上述のように、テキスト領域に対して算出されたデプス値のうち、最大値にテキスト領域のデプスを均一に設定することもできるが、場合によっては、以下のように多様な方式でデプスを設定することも可能である。

例えば、０を含むデフォルト値、背景映像に含まれた客体のうち、最も高いデプス値または平均値より所定の値だけ大きいデプス値、テキスト領域の中央におけるデプス値または境界におけるデプス値、ユーザによって入力された値等をテキスト領域のデプス値に設定することもできる。

なお、１つのフレーム内にテキスト領域が複数個である場合には、複数のテキスト領域のそれぞれに異なるデプス値を設定したり、同一のデプス値を設定することができる。

具体的に、全イメージ領域が同一のデプス値を有するとしたら、ＳＡＤ（ｓｕｍｏｆａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅｍｅｔｈｏｄ）の最小値を検索して探すことができる。この場合、全テキスト領域に対するステレオマッチングは、ウィンドウベースマッチングより改善された結果を提供することができる。

左眼イメージＬ（ｘ、ｙ）及び右眼イメージＲ（ｘ、ｙ）及び対応するバイナリテキストマスクＴ（ｘ、ｙ）が与えられると、テキストｄに対するデプス値を補正し、次の数式（５）のように最小化するようになる。

補正デプス値ｄが各テキスト領域に対して検出されると、全てのテキストピクセルに対して予め設定されたデプス値をオーバーレイすることができる（図６の（ａ））。結果的に、デプスマップは図６の（ｂ）のように示される。

テキストマスクが理想的であり、全てのテキストピクセルが同一のデプスを有する場合、最小ＳＡＤ値は小さく、０に近くならなければならない。言い換えると、最小ＳＡＤ値が相対的に大きい場合、テキストマスクは不適切だったり、テキストが互いに異なるデプス値を有してよい。両方の場合に、デプス補正は更なるエラーを引き起こすおそれがあるため望ましくない。このようなテキストは、デプス補正が安全であることを保障することができる。

スムージング処理部１４３は、デプス値の補正されたテキスト領域に対してデプステンポラルスムージング（ｄｅｐｔｈｔｅｍｐｏｒａｌｓｍｏｏｔｈｉｎｇ）処理を行うことができる。

スムージング処理部１４３は、デプス値の補正されたテキスト領域の内部で一定ではないデプス値をスムージング処理し、デプス変動によるテキストフリッカを除去したり、補正されたデプス値と背景領域のデプス値との差によるテキスト領域の境界で歪みを解消するために、スムージング処理を行うことができる。

スムージング処理部１４３は、デプス値の補正されたテキスト領域に対して、メディアンフィルタ（ｍｅｄｉａｎＦｉｌｔｅｒ）、加重平均フィルタ（ｗｅｉｇｈｔｅｄａｖｅｒａｇｅＦｉｌｔｅｒ）、マキシマムフィルタ（ｍａｘｉｍｕｍｆｉｌｔｅｒ）等のようなスムージングフィルタを適用し、スムージング処理を行うことができる。

以下の数式（６）は、スムージング処理の一例を示す。

ここで、ω∈（０、１)である。

図７は、本発明の一実施形態に係るアルゴリズムについて説明するためのブロック図である。

図７に示すように、まず、左眼及び右眼映像が入力されると、ステレオデプスを推定してデプスマップを生成する。

なお、入力された左眼及び右眼映像でオーバーレイテキスト領域を検出する。

次に、検出されたオーバーレイテキスト領域に対応するテキストマスクを生成する。

次に、推定されたデプス及び生成されたテキストマスクに基づいてテキスト領域のデプスを補正してデプスマップを補正する。

このように補正されたデプスマップは、３Ｄ映像のデプス調整のような多様な機能に利用されてよい。

図８は、本発明の一実施形態に係る映像処理方法について説明するためのフローチャートである。

図８に示す映像処理方法によると、まず、入力された３Ｄ映像のデプスを推定する（Ｓ８１０）。

更に、３Ｄ映像に含まれたテキスト領域を検出する（Ｓ８２０）。

なお、検出されたテキスト領域に対応するテキストマスクを生成する（Ｓ８３０）。

続いて、推定されたデプス及び生成されたテキストマスクに基づいてテキスト領域のデプスを補正する（Ｓ８４０）。

一方、テキスト領域のデプスを補正するステップＳ８４０では、ステップＳ８１０で推定されたデプスに基づいてテキスト領域のデプスを第１デプス値に補正することができる。

この場合、第１デプス値は、上述の数式（６）によって算出されてよい
なお、第１デプスが補正されたテキスト領域にデプステンポラルスムージング（ｄｅｐｔｈｔｅｍｐｏｒａｌｓｍｏｏｔｈｉｎｇ）処理を行うことができる。

なお、テキスト領域を検出するステップＳ８２０では、テキストライン及びテキストカラーを検出し、検出されたテキストライン及びテキストカラーに基づいてテキスト領域を検出してよい。

なお、テキストマスクを生成するステップＳ８３０では、検出されたテキストラインによってマスクを拡張し、検出されたテキストカラーによって拡張されたマスクをフィルタリングしてテキストマスクを生成することができる。

なお、デプスを推定するステップＳ８１０では、推定されたデプスに基づいてデプスマップ（Ｄｅｐｔｈｍａｐ）を生成することができる。この場合、デプスを補正するステップＳ８４０では、生成されたデプスマップでテキスト領域に対応するデプス値を補正することができる。

それにより、３Ｄ映像のテキスト領域に発生する歪み及びフリッカを軽減することができるようになる。

一方、本発明は、２Ｄ映像及びデプス情報に基づいてマルチビュー映像を生成する場合にも同様に適用されてよい。

上述の多様の実施形態に係るディスプレイ装置の制御方法や、メガネ装置の制御方法は、ソフトウェアで生成されて映像処理装置に搭載されてよい。

具体的には、本発明の一実施形態に係る映像処理装置には、入力された３Ｄ映像のデプスを推定するステップと、３Ｄ映像に含まれたテキスト領域を検出するステップと、検出されたテキスト領域に対応するテキストマスクを生成するステップと、推定されたデプス及び生成されたテキストマスクに基づいてテキスト領域のデプスを補正するステップとを行うプログラムが保存された非一時的な読み取り可能な媒体が設置されてよい。

非一時的な読み取り可能な媒体とは、レジスタやキャッシュ、メモリ等のように短い間だけデータを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り（Ｒｅａｄｉｎｇ）が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、ＣＤやＤＶＤ、ハードディスク、ブルーレイディスク、ＵＳＢ、メモリカード、ＲＯＭ等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

Claims

３Ｄ映像に含まれたテキスト領域を検出するテキスト領域検出部と、
前記検出されたテキスト領域に対応するテキストマスクを生成するマスク生成部と、
前記生成されたテキストマスクに基づいて前記テキスト領域のデプスを第１デプス値に補正するデプス補正部と
を含み、
前記第１デプス値は、

によって算出され、Ｌ（ｘ、ｙ）は左眼イメージ、Ｒ（ｘ、ｙ）は右眼イメージであり、Ｔはテキスト領域であり、ｄはデプス値である、ことを特徴とする映像処理装置。
前記デプス補正部は、
前記デプスの補正されたテキスト領域にデプステンポラルスムージング（ｄｅｐｔｈｔｅｍｐｏｒａｌｓｍｏｏｔｈｉｎｇ）処理を行うことを特徴とする請求項１に記載の映像処理装置。
前記テキスト領域検出部は、
テキストライン及びテキストカラーを検出し、検出されたテキストライン及びテキストカラーに基づいてテキスト領域を検出することを特徴とする請求項１に記載の映像処理装置。
前記マスク生成部は、
前記検出されたテキストラインによってマスクを拡張し、前記検出されたテキストカラーによって前記拡張されたマスクをフィルタリングして前記テキストマスクを生成することを特徴とする請求項３に記載の映像処理装置。
前記３Ｄ映像のデプスを推定し、前記推定されたデプスに基づいてデプスマップ（ｄｅｐｔｈｍａｐ）を生成するデプス推定部を更に含み、
前記デプス補正部は、
前記デプスマップで前記テキスト領域に対応するデプス値を補正することを特徴とする請求項１に記載の映像処理装置。
入力された３Ｄ映像に含まれたテキスト領域を検出するステップと、
前記検出されたテキスト領域に対応するテキストマスクを生成するステップと、
前記生成されたテキストマスクに基づいて前記テキスト領域のデプスを第１デプス値に補正するステップと
を含み、
前記第１デプス値は、

によって算出され、Ｌ（ｘ、ｙ）は左眼イメージ、Ｒ（ｘ、ｙ）は右眼イメージであり、Ｔはテキスト領域であり、ｄはデプス値である、ことを特徴とする映像処理方法。
前記デプスの補正されたテキスト領域にデプステンポラルスムージング（ｄｅｐｔｈｔｅｍｐｏｒａｌｓｍｏｏｔｈｉｎｇ）処理を行うステップを更に含むことを特徴とする請求項６に記載の映像処理方法。
前記テキスト領域を検出するステップは、
テキストライン及びテキストカラーを検出し、検出されたテキストライン及びテキストカラーに基づいてテキスト領域を検出することを特徴とする請求項６に記載の映像処理方法。
前記テキストマスクを生成するステップは、
前記検出されたテキストラインによってマスクを拡張し、前記検出されたテキストカラーによって前記拡張されたマスクをフィルタリングして前記テキストマスクを生成することを特徴とする請求項８に記載の映像処理方法。
前記３Ｄ映像のデプスを推定し、前記推定されたデプスに基づいてデプスマップ（ｄｅｐｔｈｍａｐ）を生成するステップを更に含み、
前記デプスを補正するステップは、
前記デプスマップで前記テキスト領域に対応するデプス値を補正することを特徴とする請求項６に記載の映像処理方法。