JP2009501476A - ビデオ時間アップコンバージョンを用いた処理方法及び装置 - Google Patents

ビデオ時間アップコンバージョンを用いた処理方法及び装置 Download PDF

Info

Publication number
JP2009501476A
JP2009501476A JP2008521006A JP2008521006A JP2009501476A JP 2009501476 A JP2009501476 A JP 2009501476A JP 2008521006 A JP2008521006 A JP 2008521006A JP 2008521006 A JP2008521006 A JP 2008521006A JP 2009501476 A JP2009501476 A JP 2009501476A
Authority
JP
Japan
Prior art keywords
region
interest
image
video
roi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008521006A
Other languages
English (en)
Inventor
ハルム ベルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009501476A publication Critical patent/JP2009501476A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Abstract

本発明は、ビデオアプリケーションにおけるディジタル画像の視覚的な改善のための改善された方法及び装置を提供する。とりわけ本発明は、ビデオ会議通話の間の改善された知覚品質及び状況認識を達成するため、ビジュアル画面上の1以上の参加者の視覚的強調又は参加者の群のなかで発話している人物の視覚的強調に後続される、顔又は人物を見出すための多様式場面解析に関する。前記解析は、セグメント化モジュール22により実行され、少なくとも1つの関心領域ROI及び非関心領域RONIを定義することを可能とする。

Description

本発明は、ビジュアル通信システムに関し、特に本発明は、ビジュアル画像の改善された品質のための、ビデオ電話システムにおける時間アップコンバージョンを提供するための方法及び装置に関する。
一般に、ビデオ品質は、ビデオ電話アプリケーションの世界的な採用のための重要な特性である。ユーザの状況認識及び従ってビデオ通話の知覚される品質を改善するため、ビデオ電話システムがエンドユーザに対して相手側の状況を可能な限り正確に与えることが、極めて重要である。
ビデオ会議システムは、何年も前に最初に導入されて以来かなりの注目を集めてきたが、極めて人気のあるものとはなっておらず、これらシステムの幅広い進歩は未だない。このことは一般に、低解像度、むらのある画像及び長い遅延といった、許容できないほど低いビデオ及びオーディオ通信の品質に導く、通信帯域の不十分な利用可能性によるものであった。
しかしながら、十分な通信帯域を提供することが可能な最近の技術革新が、ますます多くのエンドユーザにとって、広く利用可能となっている。更に、ディスプレイ、カメラ、マイクロフォン、及びスピーカを組み込まれたPCやモバイル装置等のような強力なコンピュータシステムの利用可能性が、急速に増大している。前述した理由により、ビデオ会議方法のオーディオビジュアル品質が、要求の厳しい市場において最も重要な差別要因の1つとなるため、消費者向けビデオ会議システムの使用及び適用において進歩及び高い品質の期待が予想され得る。
一般的に言えば、ビデオ会議画像を改善するための多くの従来のアルゴリズム及び手法が、提案され実装されてきた。例えば、ビデオのエンコード効率を改善するため、種々の効率的なビデオエンコード手法が適用されてきた。とりわけ、斯かる提案(例えばS. Dalyらによる「Face-Based Visually-Optimized Image Sequence Coding」, 0-8186-8821-1/98、443-447頁、IEEE)は、関心領域(region of interest、ROI)及び非関心領域(region of no interest、RONI)の選択に基づいてビデオエンコード効率を改善することを目的とする。具体的には、該提案されるエンコードは、殆どのビットがROIに割り当てられ、少ないビットがRONIに割り当てられるように実行される。従って、全体のビットレートは一定のままであるが、デコードの後、ROI画像の品質はRONIにおける画像の品質よりも高い。Boberらによる米国特許出願公開US2004/0070666A1のような他の手法は、ビデオエンコードが適用される前に、重要でない背景画像部分が伝送されないようにディジタル手段によってカメラの視界における人物がズームインされるような高度なズーム手法を、主に提案する。換言すれば、該方法は、各捕捉された画像の選択された関心領域のみをコーディングすることにより、画像を送信する。
しかしながら、上述した従来の手法は、幾つかの要因により、しばしば満足なものとならない。ビデオ通信システムの伝送における画質に対する悪影響に対処するための更なる処理又は解析は、捕捉された画像に対して実行されない。更に、改善されたコーディング方式は、許容可能な結果を与え得るものの、全てのコーディング方式に対して全面的に独立して適用されることができず、斯かる手法は、特性のビデオエンコード及びデコード手法が最初に実装されることを必要とする。また、これらの手法はいずれも、ビデオ会議通話の低い状況認識及び低い知覚品質という問題に適切に対処しない。
従って、本発明の目的は、上述の問題に対処し、コスト効率が高く、実装が容易な、画質改善に効率的に対応する、新たな改善された方法及び装置を提供することにある。
この目的のため、本発明は、ビデオ画像を処理する方法であって、ビデオアプリケーションの画像における少なくとも1人の人物を検出するステップと、前記画像における前記検出された人物に関連する動きを推定するステップと、前記画像を、前記画像における前記検出された人物を含む少なくとも1つの関心領域と、少なくとも1つの非関心領域とにセグメント化するステップと、前記非関心領域において適用されるフレームレートよりも高いフレームレートを前記関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するステップと、を有する方法に関する。
1以上の以下の特徴もまた、含められ得る。
本発明の一態様においては、前記時間フレーム処理は、前記関心領域に適用される時間フレームアップコンバージョン処理を含む。他の態様においては、前記時間フレーム処理は、前記非関心領域に適用される時間フレームダウンコンバージョン処理を含む。
更に他の態様においては、本方法はまた、前記時間フレームアップコンバージョン処理のステップからの出力情報を、前記時間フレームダウンコンバージョン処理のステップからの出力情報と組み合わせ、拡張された出力画像を生成するステップを更に含む。更に、ビジュアル画像品質改善ステップは、前記画像に関連するビデオ信号の送信側において又は受信側において実行されても良い。
更に、前記ビデオアプリケーションの画像における特定された人物を検出するステップは、前記画像における唇アクティビティを検出するステップを含んでも良く、前記画像におけるオーディオ発話アクティビティを検出するステップを含んでも良い。また、前記関心領域に時間フレームアップコンバージョン処理を適用するステップは、唇アクティビティ及び/又はオーディオ発話アクティビティが検出された場合にのみ実行されても良い。
他の態様においては、本方法はまた、前記画像を少なくとも1つの第1の関心領域と第2の関心領域とにセグメント化するステップと、フレームレートを増大させることにより時間フレームアップコンバージョンを適用する前記第1の関心領域を選択するステップと、前記第2の関心領域のフレームレートを不変のままとするステップと、を含む。
本発明はまた、ビデオ画像を処理するように構成された装置であって、ビデオアプリケーションの画像における少なくとも1人の人物を検出するように構成された検出モジュールと、前記画像における前記検出された人物に関連する動きを推定するように構成された動き推定モジュールと、前記画像を、前記画像における前記検出された人物を含む少なくとも1つの関心領域と、少なくとも1つの非関心領域とにセグメント化するように構成されたセグメント化モジュールと、前記非関心領域において適用されるフレームレートよりも高いフレームレートを前記関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するように構成された少なくとも1つの処理モジュールと、を有する装置に関する。
本方法及び装置の他の特徴は、従属請求項に更に記載される。
本発明の実施は、1以上の以下の利点を持ち得る。
本発明は有利にも、重要な画像部分についてビデオ会議システムの視覚的な知覚を改善し、発話している参加者又は人物に関連するビジュアル画像を画像の残りの部分に比べてより明瞭にすることにより状況認識のレベルを増大させる。
更に、本発明は送信側で適用されることができ、このことはより高いビデオ圧縮効率に帰着する。なぜなら、より多くのビットが拡張された関心領域(ROI)に割り当てられ、比較的少ないビットが非関心領域に割り当てられ、それにより、同一のビットレートに対して、顔の表情等のような重要なビデオデータの改善された伝送処理に帰着するからである。
加えて、本発明の方法及び装置は、ビデオ電話実装において利用され得るいずれのコーディング方式からも独立した利用を可能とする。本発明は、ビデオエンコードもデコードも必要としない。また本方法は、改善されたカメラ信号のため、ビデオ電話におけるカメラ側において適用されることができ、又は改善された表示信号のため、表示側で適用されることができる。それ故、本発明は、送信側及び受信側の双方において適用されることができる。
更に他の利点として、唇アクティビティ検出器及び/又はオーディオ位置特定アルゴリズムのような種々の顔検出手法又は様式を組み合わせることにより、顔の検出のための識別処理がより頑強且つフェールプルーフなものとされることができる。また他の利点として、動き補償された補間がROIにおいてのみ適用されるため、計算が保護され節約される。
それ故、本発明の実装により、ビデオ品質が大きく改善され、人物の状況認識及びそれによりビデオ通話の知覚される品質を増大させることにより、ビデオ電話アプリケーションのより優れた許容可能性をもたらす。具体的には本発明は、画像の改善された理解度のため、及び種々のタイプの顔による感情及び表情を伝達するため、より高い品質の顔の表情を伝送することが可能である。今日のグループビデオ会議アプリケーションにおけるこのタイプの状況認識を増大させることは、特に会議通話における参加者又は人物が例えば他の参加者と親しくない場合には、増大された使用性と信頼性と等価である。
本発明のこれらの及びその他の態様は、請求項から、並びに以下の説明及び図面において説明される実施例を参照しながら説明され、明らかとなるであろう。
本発明は例えば、ビデオ電話システムにおける画像中の人物の知覚的な拡張、及びビデオ会議セッションの状況認識の改善に対処する。
図1を参照すると、例として1人の人物のビデオ会議セッションに対して画像品質改善を適用することに関連して、本発明の本質的な特徴が説明される。送信側において、「ビデオ入力」信号10(Vin)がカメラに入力され、記録カメラ信号となる。一方「ビデオ出力」信号12は、コーディングされ送信される信号Voutである。換言すれば、受信側において、信号10は受信されデコードされた信号であり、信号12はエンドユーザのためのディスプレイに送信される。
本発明を実装するため、会議通話の参加者を含むROIの選択のために、画像セグメント化手法が適用される必要がある。それ故、顔の位置及びサイズに関する情報20を画像において見出すために、顔追跡モジュール14が利用されても良い。種々の顔検出アルゴリズムが、本分野において良く知られている。例えば、画像における人物の顔を見つけ出すため、肌色検出アルゴリズム又は肌色検出と楕円形オブジェクト境界探索との組み合わせが利用されても良い。代替として、画像における重要な特徴のための顔探索を特定するための付加的な方法が利用されても良い。それ故、効率的にオブジェクトを分類するものを見出し適用するための多くの利用可能な頑強な方法が、本発明に組み入れられても良い。
画像における参加者の顔の特定に続いて、動きベクトル場18を算出するため、動き推定モジュール16が利用される。その後、顔の位置及びサイズに関する情報20を利用して、例えば単純な頭部及び肩部モデルを用いて、参加者の周囲でROI/RONIセグメント化モジュール22が実行される。代替として、ブロック毎に動き検出(動き推定ではない)を利用してROIが追跡されても良い。換言すれば、最も動くブロックを持つオブジェクトであるROIを伴う動きが検出されたブロックをグループ化することによりオブジェクトが形成される。加えて、動き検出を用いる方法は、画像処理技術のための計算の複雑さを不要とする。
次いで、ROI/RONI処理が実行される。ROIセグメント24について、視覚的な拡張のため、時間フレームレートアップコンバージョンモジュール26によりROIセグメント24内の画素が視覚的に強調される。このことは、RONIセグメント28について、強調されないべきである残りの画像部分の時間フレームダウンコンバージョンモジュール30と組み合わせられる。次いで、ROI及びRONIの処理された出力が再結合モジュール32において結合され、「出力」信号12(Vout)を形成する。ROI/RONI処理を利用して、ROIセグメント24は視覚的に改善され、あまり重要でないRONIセグメント28に対して重要な前景へと至らされる。
ここで図2を参照すると、フロー図40が図1において示された本発明の基本ステップを示す。最初の「入力」ステップ42において、ビデオ信号がカメラに入力され、記録カメラ信号となる。次いで、顔追跡モジュール14(図1に示される)において、幾つかの既存のアルゴリズムを利用して顔検出ステップ44が実行される。更に、ROI又はRONIをそれぞれアップコンバート又はダウンコンバートするために後に必要とされる動きベクトルを生成する(48)ために、動き推定ステップ46が実行される。
ステップ44において顔が検出された場合には、ROI/RONIセグメント化ステップ50が実行され、ROIセグメントについての生成ステップ52及びRONIについての生成ステップ54に帰着する。ROIセグメントは次いで、ステップ48により生成された動きベクトルを利用して、動き補償されたフレームアップコンバージョンステップ56を通過させられる。同様にRONIセグメントは、フレームダウンコンバージョンステップ58を通過させられる。続いて、処理されたROI及びRONIセグメントは結合ステップ60において結合され、ステップ62において出力信号を生成する。加えて、顔検出ステップ44において、顔が検出されていない場合には、ステップ64において(「ダウンコンバージョン」か否かをテストする)画像がダウンコンバージョン処理を実行されるべきであるならば、ダウンコンバージョンステップ66が実行される。一方で、該画像が処理されないままであるべき場合には、ステップ66を通過せずに単純にステップ62へと進み(直接接続)、処理されていない出力信号を生成する。
ここで図3乃至5を参照すると、図2の方法ステップに対する更なる最適化が提供される。ビデオ会話の参加者が発話しているか否かに応じて、ROIアップコンバージョン処理が変更され最適化されることができる。図3において、フロー図70は図2に示されたフロー図40におけるものと同一のステップを示すが、更に顔検出ステップ44に続く付加的な唇検出ステップ71を伴う。換言すれば、誰が発話しているかを特定するため、ビデオ画像において唇アクティビティ検出を適用しても良く、画像シーケンスにおける唇アクティビティ検出を利用して発話アクティビティ検出が評価されても良い。例えば、自動読唇のための従来技術又は種々のビデオ唇アクティビティ検出アルゴリズムを利用して、唇アクティビティが測定されても良い。かくして、唇アクティビティ検出メカニズムのためのステップ71の追加が、他の様式と組み合わせられたときに、顔追跡又は検出ステップ44をより頑強なものとし、このことは送信側及び受信側のいずれにおいても利用されることができる。このように、人物又は参加者が発話している場合にのみ、ROIセグメントに増大させられたフレームレートを与えることにより、発話アクティビティの出現を視覚的に支援することが目的である。
図3はまた、ROIアップコンバージョンステップ56が、唇検出ステップ71がポジティブである場合(Y)にのみ実行されることを示す。唇検出がない場合、フロー図70はダウンコンバージョンステップ64に進み、最終的にビデオ出力信号を生成するステップ62へと導く。
ここで図4を参照すると、フロー図80において、更なる様式が実装される。顔追跡又は検出ステップ44は、誤った顔検出が常にないことを保証できないため、実際の人物が見出されない場所において顔を特定し得る。しかしながら、顔追跡及び検出の手法を、唇アクティビティ(図3)及びオーディオ位置特定アルゴリズムのような様式と組み合わせることにより、顔追跡ステップ44はより頑強なものとされることができる。それ故、図4は、オーディオ検出ステップ82により後続されるオーディオ入力ステップ81を用いる最適化を追加し、該最適化はビデオ入力ステップ42及び顔検出ステップ44と並行して同時に動作する。
換言すれば、人物が話しているためオーディオが利用可能である場合に、発話アクティビティ検出器が利用され得る。例えば、ピッチ検出器と組み合わせられた、オーディオ信号における非静的事象の検出に基づく発話アクティビティ検出器が利用されても良い。送信側において、即ちオーディオ入力ステップ81において、「オーディオ入力」信号はマイクロフォン入力である。受信側において、「オーディオ入力」信号は受信されデコードされた信号である。それ故、オーディオアクティビティ検出の増大された確実性のため、個々の検出器出力における論理ANDにより、組み合わせられたオーディオ/ビデオ音声アクティビティ検出が実行される。
同様に、図4は、オーディオ検出ステップ82がオーディオ信号を検出した場合にのみ、フロー図80におけるROIアップコンバージョンステップ56が実行されることを示している。オーディオ信号が検出された場合、次いで顔の検出に続いて、ROI/RONIセグメント化ステップ50が実行され、ROIアップコンバージョンステップ56により後続される。しかしながら、オーディオ発話が検出されなかった場合には、フロー図80はダウンコンバージョンステップ64に進み、最終的にビデオ出力信号を生成するステップ62に導く。
図5を参照すると、フロー図90は、オーディオ発話アクティビティ及びビデオ唇アクティビティ検出処理の実装の組み合わせを示す。かくして、図3及び図4は併せてフロー図90に帰着し、関心のある人物又は参加者を特定又は検出し、ROIを正確に解析するための、非常に頑強な手段を提供する。
更に、図6は、オーディオ発話検出ステップ及びビデオ唇アクティビティ検出ステップの両方を実行する、1人の人物のビデオ会議セッションに適用された画像品質改善のためのフロー図90の、模式的な機能ブロック図を示す。図1に示される機能的な特徴と同様に、送信側において、入力信号10(Vin)がカメラ/入力機器に入力され、記録カメラ信号となる。同様に、「オーディオ入力」信号(Ain)11が入力され、いずれかの発話信号が検出されるか否かを検出するためオーディオアルゴリズムモジュール13が適用される。同時に、受信された信号においていずれかの唇アクティビティがあるか否かを決定するため、唇アクティビティ検出モジュール15が、ビデオ入力信号を解析する。続いて、オーディオアルゴリズムモジュール13が真又は偽の発話アクティビティフラグ17を生成し、真であると分かった場合、ROIアップコンバージョンモジュール26が、ROIセグメント24の受信に応じて、ROIセグメント24に対してフレームレートのアップコンバージョンを実行する。同様に、唇アクティビティ検出モジュール15が、真又は偽の唇アクティビティフラグ19が真であることを検出した場合、ROIセグメント24の受信に応じて、モジュール26がROIセグメント24に対してフレームレートのアップコンバージョンを実行する。
ここで図7を参照すると、送信側において複数のマイクロフォンが利用可能である場合、発話している人物の位置を見出すための非常に頑強で効率的な方法が実行されることができる。即ち、人物の検出及び特定、特に発話している複数の人物又は参加者の特定を改善するためには、オーディオアルゴリズムとビデオアルゴリズムとの組み合わせが非常に強力である。このことは、特に送信側において、(モノラルのオーディオではなく)多感覚オーディオデータが利用可能である場合に適用されることができる。代替として、本システムをより頑強なものとするために、及び誰が発話しているのかを正確に特定することを可能とするために、送信側及び受信側の双方において適用可能な、ビデオにおける唇アクティビティ検出を適用することもできる。
図7において、複数人物のビデオ電話会議セッションについての画像品質改善のための模式的な機能ブロック図が示される。送信側において、複数の人物又は参加者が存在し、顔追跡モジュール14が1つよりも多い(例えば全体でN個の)顔を見出す。顔追跡モジュール14により検出されたN個の顔のそれぞれについて、即ちN個の位置及びサイズのそれぞれについて、ここでもまた例えば頭部及び肩部モデルに基づいて、N個の顔について生成されたROI及びRONIセグメントのそれぞれについて、複数人物ROI/RONIセグメント化モジュール22N(22−1、22−2、…、22N)が生成される。
2つのROIが検出された場合には、唇アクティビティ検出モジュール15の結果即ち唇アクティビティフラグ19を含む、発話アクティビティフラグ17を含む音源の位置(x,y座標)を出力する(接続21が音源の(x,y)位置を与える)オーディオアルゴリズムモジュール13の結果に基づいて、画像品質改善のために処理される必要があるROIの選択をROI選択モジュール23が実行する。換言すれば、複数マイクロフォン会議システムを用いると、複数のオーディオ入力が受信側で利用可能である。このとき、オーディオアルゴリズムと共に唇アクティビティアルゴリズムを適用して、音声又はオーディオが来る方向及び位置(x,y座標)もが決定されることができる。該情報は、画像において現在発話している参加者である、意図されるROIを目標とするために重要であり得る。
このように、2以上のROIが顔追跡モジュール14により検出された場合、ROI選択モジュール23が発話している人物に関連するROIを選択し、該発話している人物が最も強い視覚的な強調を与えられるようにし、一方で会議セッションの残りの人物又は参加者がRONI背景に対して僅かな強調を受けるようにする。
その後、別個のROI及びRONIセグメントが、動き推定モジュール16により出力された情報を用いて、ROIに対してのフレームレートアップコンバージョンにおいてROIアップコンバージョンモジュール26により、及びRONIに対してのフレームレートダウンコンバージョンにおいてROIダウンコンバージョンモジュール30により、画像処理ステップが実行される。更に、ROIセグメントは、顔追跡モジュール14により検出された人物の総数を含んでも良い。発話者から離れた人物はビデオ会議通話に参加していないと仮定すると、ROIは、検出された顔のサイズの検査により十分に近く、且つ画像サイズの特定のパーセンテージよりも大きな顔サイズを持つ、検出された顔又は人物のみを含んでも良い。代替として、ROIセグメントは、発話している人物、又は最後に発話した人物であってそれ以来他の誰も発話していないような人物のみを含んでも良い。
ここで図8を参照すると、複数人物のビデオ会議セッションについて示された画像品質改善のための他の模式的な機能ブロック図が示されている。ROI選択モジュール23が、2つのROIを選択する。このことは、第1のROIセグメント24−1が発話している参加者又は人物に関連し、第2のROIセグメント24−2が検出された残りの参加者に関連しているため、2つのROIが区別されたという事実により引き起こされる。示されているように、第1のROIセグメント24−1はROI_1アップコンバージョンモジュール26−1により時間アップコンバージョンされ、一方で第2のROIセグメント24−2は変化させられないままとされる。上述した図5及び6においてそうであったように、RONIセグメント28は、RONIダウンコンバージョンモジュール30により時間ダウンコンバージョンされても良い。
図9を参照すると、フロー図100が、図8を参照しながら上述したような画像品質改善のための方法の一実施例において利用されるステップを示している。実際にはフロー図100は、図8において示され、図2乃至5を参照しながらも説明された、種々のモジュールにより辿られる基本的なステップを示している。これらのステップを基に、最初の「ビデオ入力」ステップ42において、ビデオ信号がカメラに入力され、記録カメラ信号となる。該ステップは、顔検出ステップ44及びROI/RONIセグメント化ステップ50により後続され、ROIセグメントについてのN個の生成ステップ52及びRONIセグメントについての生成ステップ54に帰着する。ROIセグメントについての生成ステップ52は、ROI_1セグメントについてのステップ52a、ROI_2セグメントについてのステップ52b等、及びROI_Nセグメントについてのステップ52Nを含む。
次いで、顔検出ステップ44及びROI/RONIセグメント化ステップ50に続いて、唇検出ステップ71が実行される。図8にも示されるように、唇検出ステップ71がポジティブ(Y)である場合、ROI/RONI選択ステップ102が実行される。同様にして、「オーディオ入力」ステップ81はオーディオ検出ステップ82により後続され、オーディオ検出ステップ82はビデオ入力ステップ42及び顔検出ステップ44、並びに唇検出ステップ71と同時に動作し、関心のあるROI領域を正確に検出するため、より頑強なメカニズム及び処理を提供する。結果として得られる情報は、ROI/RONI選択ステップ102において利用される。
続いて、ROI/RONI選択ステップ102は、選択されたROIセグメント(104)を生成し、該セグメントに対してフレームアップコンバージョンステップ56が実行される。ROI/RONI選択102はまた他のROIセグメント(106)を生成し、該セグメントに対しては、ステップ64において画像に対してダウンコンバージョン解析を実行する決定がポジティブである場合には、ダウンコンバージョンステップ66が実行される。一方で、画像が変化させられないままであるべき場合には、単純にステップ60へと進み、ステップ56により生成された時間アップコンバージョンされたROI画像並びにステップ54及び66により生成されたRONI画像と結合し、最終的にステップ62において、圧縮されていない「ビデオ出力」信号を得る。
ここで図10乃至15を参照すると、画像品質改善を達成するために利用される手法及び方法が示される。例えば、動き推定の処理、顔追跡及び検出、ROI/RONIセグメント化、並びにROI/RONI時間コンバージョン処理が、更に詳細に説明される。
図10乃至12を参照すると、例えばウェブカメラを用いたシーケンスショットよりとられた画像110が示されている。例えば、画像110は、今日のモバイルアプリケーションにおいて典型的である、176x144又は320x240画素の解像度、及び7.5Hzと15Hzとの間のフレームレートを持っていても良い。
動き推定
画像110は、8x8の輝度値のブロックに分割されることができる。動き推定のため、例えば3次元再帰的探索法が利用されても良い。その結果は、8x8ブロックのそれぞれについての2次元の動きベクトルである。該動きベクトルは、
Figure 2009501476
により示され得る。ここで、2次元ベクトル
Figure 2009501476
は8x8ブロックの空間的なx及びy座標を含み、nは時間インデクスである。動きベクトル場は、2つの元の入力フレーム間の、特定の時間インスタンスにおいて評価される。2つの元の入力フレーム間の他の時間インスタンスにおいて動きベクトル場を有効なものとするため、動きベクトルのリタイミング(retiming)を実行しても良い。
顔検出
ここで図11を参照すると、顔追跡メカニズムが、人物112及び114の顔を追跡するために利用される。顔追跡メカニズムは、人物112及び114(顔が暗く示されている)の肌色を見出すことにより、顔を見出す。従って、肌検出手法が利用され得る。楕円120及び122は、見出され特定された人物112及び114の顔を示す。代替としては、顔検出は、P. Viola及びM. Jonesによる「Robust Real-time Object Detection」(「Second International Workshop on Statistical and Computational Theories of Vision - Modeling, Learning, Computing, and Sampling」のプロシーディング、Vancouver、カナダ、2001年7月13日)に提示されているような、学習分類子(classifier)に基づいて実行される。分類子ベースの方法は、変化する照明状況に対してより頑強であるという利点を持つ。加えて、見出された顔に近い顔のみが検出される。人物118の顔は、画像110のサイズに比べて頭部のサイズが小さ過ぎるため、見出されない。それ故人物118は、いずれのビデオ会議通話にも参加していないと(本例においては)正しく推定される。
上述したように、顔追跡メカニズムの頑強さは、顔追跡メカニズムが、送信側及び受信側の双方で利用可能なビデオ唇アクティビティ検出器からの情報と組み合わせられる場合、及び/又は複数のマイクロフォンチャネルを必要とし送信側で実装されるオーディオ源追跡器と組み合わせられる場合に、改善され得る。これらの手法の組み合わせを利用することにより、顔追跡メカニズムにより誤って見出された顔でないものは、適切に却下されることができる。
ROI及びRONIセグメント化
図12を参照すると、ROI/RONIセグメント化処理が画像110に適用される。顔検出処理に続いて、画像110における各検出された顔を用いて、頭部及び肩部モデルに基づいてROI/RONIセグメント化処理が利用される。人物124の頭部及び胴部を含む人物112の頭部及び肩部の輪郭124が、特定され分離される。この粗い頭部及び肩部の輪郭124のサイズは重要ではないが、人物112の胴部が輪郭124内に完全に含まれることを確実にするために十分に大きいべきである。その後、該ROI(頭部及び肩部の輪郭124内の領域でもある)における画素にのみ、時間アップコンバージョンが適用される。
ROI及びRONIフレームレート変換
ROI/RONIフレームレート変換は、元の画像の動きベクトルに基づく動き推定処理を利用する。
ここで図13を参照すると、例えば、元の入力画像又は映像132A(t=(n−1)Tにおける)及び132B(t=nTにおける)についての3つの図130A乃至130Cにおいて、図12を参照しながら説明された頭部及び肩部モデルに基づくROI/RONIセグメント化が示されている。補間された映像134(t=(n−α)Tにおけるもの。図の130B)については、特定の位置における画素は、同一の場所において先行する元入力映像132Aにおける当該画素が当該映像のROIに属する場合、若しくは同一の場所において後続する元入力映像132Bにおける当該画素が当該映像のROIに属する場合、又はその両方である場合に、ROIに属する。換言すれば、補間された映像134におけるROI領域138Bは、前の及び次の元入力映像132A及び132Bの、それぞれのROI領域138A及びROI領域138Cの両方を含む。
RONI領域140については、補間された映像134について、RONI領域140に属する画素は単に前の元入力映像132Aからコピーされ、ROIにおける画素は動き推定を用いて補間される。
このことは、図14を参照しながら更に説明される。ここでTはシーケンスのフレーム期間を表し、nは整数のフレームインデクスを示す。例えば、パラメータα(0<α<1)は、例えば2つの元の入力画像132Aと132Bとの間の補間された画像134Aの相対的なタイミングを与える(本例においては、α=1/2が利用され得る)。
図14において、例えば補間された映像134Aについて(及び同様に補間された画像134Bについて)は、「p」及び「q」と示された画素ブロックがRONI領域140において存在し、これらブロックにおける画素が、前の元映像における同一の位置からコピーされる。補間された映像134Aについて、ROI領域138における画素値は、1以上の後続する及び先行する入力元映像(132A、132B)の動き補償された平均として算出される。図14においては、2フレーム補間が示されている。f(a,b,α)は、動き補償された補間結果を示している。動き補償された補間手法については、種々の方法が利用されることができる。かくして図14は、ROI領域138における画素が動き補償された補間によって得られ、RONI領域140における画素がフレーム複写により得られる、フレームレート変換手法を示している。
加えて、画像又は映像の背景が静的である場合には、結果として得られる出力画像において、ROI領域とRONI領域との間の遷移境界は可視ではない。なぜなら、ROI領域内の背景画像は、ゼロの動きベクトルにより補間されるからである。しかしながら、ディジタルカメラにおいてしばしば起こるように背景が動く場合(例えば不安定な手の動き)には、ROI領域とRONI領域との間の境界は可視となる。なぜなら、背景画素はROI領域内で動き補償を用いて算出され、一方で該背景画素はRONI領域における前の入力フレームからコピーされるからである。
ここで図15を参照すると、背景が静的でない場合に、図の150A及び150Bにおいて示されるように、ROI領域とRONI領域との間の境界における画像品質の改善に関して、最適化手法が実装されることができる。
とりわけ、図15は、ROI/RONIセグメント化を用いた、t=(n−α)Tにおいて推定される動きベクトル場の実装を示す。図150Aは、RONI領域140において背景における動きがある、元の状況を示す。RONI領域140における2次元動きベクトルは小文字の英字(a、b、c、d、e、f、g、h、k、l)により示され、ROI領域138における動きベクトルは大文字の英字(A、B、C、D、E、F、G、H)により表される。図の150Bは、背景が動き始めた際にROI/RONI境界152Bの可視性を改善するために、ROI138が線形に補間された動きベクトルを用いて拡張された、最適化された状況を示す。
図15に示されるように、境界領域152Bの知覚的な可視性は、ブロックのグリッド(図の150B)においてROI領域138を拡張し、漸進的な動きベクトル遷移を実行し、拡張領域における画素について動き補償された補間解析を適用することにより、改善されることができる。更に、背景に動きがある場合に強調を解除するためには、ROI拡張領域154における画素に対して、水平に及び垂直にぼかしフィルタ(例えば[1 2 1]/4)を適用しても良い。
本発明の好適な実施例であると現在考えられるものが示され説明されたが、本発明の真の範囲から逸脱することなく、他の種々の変更が為され得、同等のものが代用され得ることは、当業者には理解されるであろう。
特に、上述の説明は主にビデオ会議に関連したが、説明された画像品質改善方法は、モバイル電話装置及びプラットフォームに実装されたものや、PCのような家庭用オフィスプラットフォームに実装されたもの等のような、いずれのタイプのビデオアプリケーションにも適用されることができる。
加えて、ここで説明された発明の中心概念から逸脱することなく特定の状況を本発明の教示に適合させるため、多くの高度なビデオ処理の変更が為されても良い。更に、本発明の実施例は、上述した特徴の全てを含むものではない。それ故、本発明は開示された実施例に限定されるものではなく、本発明は添付する請求項の範囲内となる全ての実施例及びそれらと同等のものを含むことが意図される。
本発明による画像品質改善のための改善された方法の一実施例の模式的な機能ブロック図である。 図1による画像品質改善のための改善された方法の一実施例のフロー図である。 本発明による画像品質改善のための改善された方法の他の実施例のフロー図である。 本発明による画像品質改善のための改善された方法の他の実施例のフロー図である。 本発明による画像品質改善のための改善された方法の他の実施例のフロー図である。 本発明による画像品質改善のための改善された方法の他の実施例の模式的な機能ブロック図である。 本発明による、多人数ビデオ会議セッションについて示された、画像品質改善のための模式的な機能ブロック図である。 本発明による、多人数ビデオ会議セッションについて示された、画像品質改善のための他の模式的な機能ブロック図である。 図8に示された、画像品質改善のための改善された方法の一実施例において利用される方法ステップを示すフロー図である。 ビデオアプリケーションからとられた典型的な画像を例として示す。 本発明による顔追跡メカニズムの実装を示す。 ROI/RONIセグメント化処理の適用を示す。 頭部及び肩部モデルに基づくROI/RONIセグメント化を示す。 本発明の一実施例によるフレームレート変換を示す。 ROI領域とRONI領域との間の境界領域において実装される最適化手法を示す。

Claims (20)

  1. ビデオ画像を処理する方法であって、
    ビデオアプリケーションの画像における少なくとも1人の人物を検出するステップと、
    前記画像における前記少なくとも1人の検出された人物に関連する動きを推定するステップと、
    前記画像を、前記画像における前記少なくとも1人の検出された人物を有する少なくとも1つの関心領域と、少なくとも1つの非関心領域とにセグメント化するステップと、
    前記少なくとも1つの非関心領域において適用されるフレームレートよりも高いフレームレートを前記少なくとも1つの関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するステップと、
    を有する方法。
  2. 前記時間フレーム処理は、前記少なくとも1つの関心領域に適用される時間フレームアップコンバージョン処理を有する、請求項1に記載の方法。
  3. 前記時間フレーム処理は、前記少なくとも1つの非関心領域に適用される時間フレームダウンコンバージョン処理を有する、請求項1又は2に記載の方法。
  4. 前記時間フレームアップコンバージョン処理のステップからの出力情報を、前記時間フレームダウンコンバージョン処理のステップからの出力情報と組み合わせ、拡張された出力画像を生成するステップを更に有する、請求項3に記載の方法。
  5. ビジュアル画像品質改善ステップが、前記画像に関連するビデオ信号の送信側において又は受信側において実行される、請求項1乃至4のいずれか一項に記載の方法。
  6. 前記ビデオアプリケーションの画像における少なくとも1人の特定された人物を検出するステップは、前記画像における唇アクティビティを検出するステップを有する、請求項1乃至5のいずれか一項に記載の方法。
  7. 前記ビデオアプリケーションの画像における少なくとも1人の特定された人物を検出するステップは、前記画像におけるオーディオ発話アクティビティを検出するステップを有する、請求項1乃至6のいずれか一項に記載の方法。
  8. 前記関心領域に時間フレームアップコンバージョン処理を適用するステップは、唇アクティビティ及び/又はオーディオ発話アクティビティが検出された場合にのみ実行される、請求項6又は7に記載の方法。
  9. 前記画像を少なくとも1つの第1の関心領域と第2の関心領域とにセグメント化するステップと、
    フレームレートを増大させることにより時間フレームアップコンバージョンを適用する前記第1の関心領域を選択するステップと、
    前記第2の関心領域のフレームレートを不変のままとするステップと、
    を更に有する、請求項1乃至8のいずれか一項に記載の方法。
  10. 前記関心領域に時間フレームアップコンバージョン処理を適用するステップは、前記関心領域に関連する画素のフレームレートを増大させるステップを有する、請求項1乃至9のいずれか一項に記載の方法。
  11. 前記画像のブロックグリッドにおける前記関心領域を拡張し、前記拡張された関心領域における画素に対して動き補償された補間を適用することにより、漸進的な動きベクトル遷移を実行するステップを更に有する、請求項1乃至10のいずれか一項に記載の方法。
  12. 前記拡張された関心領域における画素に対して垂直及び水平にぼかしフィルタを適用することにより、境界領域の強調を解除するステップを更に有する、請求項11に記載の方法。
  13. ビデオ画像を処理するように構成された装置であって、
    ビデオアプリケーションの画像における少なくとも1人の人物を検出するように構成された検出モジュールと、
    前記画像における前記少なくとも1人の検出された人物に関連する動きを推定するように構成された動き推定モジュールと、
    前記画像を、前記画像における前記少なくとも1人の検出された人物を有する少なくとも1つの関心領域と、少なくとも1つの非関心領域とにセグメント化するように構成されたセグメント化モジュールと、
    前記少なくとも1つの非関心領域において適用されるフレームレートよりも高いフレームレートを前記少なくとも1つの関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するように構成された少なくとも1つの処理モジュールと、
    を有する装置。
  14. 前記処理モジュールは、前記少なくとも1つの関心領域に時間フレームアップコンバージョン処理を適用するように構成された関心領域アップコンバージョンモジュールを有する、請求項13に記載の装置。
  15. 前記処理モジュールは、前記少なくとも1つの非関心領域に時間フレームダウンコンバージョン処理を適用するように構成された非関心領域ダウンコンバージョンモジュールを有する、請求項13又は14に記載の装置。
  16. 前記関心領域アップコンバージョンモジュールから導出された出力情報を、前記非関心領域ダウンコンバージョンモジュールから導出された出力情報と組み合わせるように構成された結合モジュールを更に有する、請求項15に記載の装置。
  17. 唇アクティビティ検出モジュールを更に有する、請求項13乃至16のいずれか一項に記載の装置。
  18. オーディオ発話アクティビティモジュールを更に有する、請求項13乃至17のいずれか一項に記載の装置。
  19. 時間フレームアップコンバージョンのための第1の関心領域を選択するように構成された関心領域選択モジュールを更に有する、請求項13乃至18のいずれか一項に記載の装置。
  20. 請求項13乃至19のいずれか一項に記載の装置と関連するコンピュータ読み取り可能な媒体であって、前記媒体には命令のシーケンスが保存され、前記命令のシーケンスは、前記装置のマイクロプロセッサにより実行されたときに、前記プロセッサに、
    ビデオアプリケーションの画像における少なくとも1人の人物を検出させ、
    前記画像における前記少なくとも1人の検出された人物に関連する動きを推定させ、
    前記画像を、前記画像における前記少なくとも1人の検出された人物を有する少なくとも1つの関心領域と、少なくとも1つの非関心領域とにセグメント化させ、
    前記少なくとも1つの非関心領域において適用されるフレームレートよりも高いフレームレートを前記少なくとも1つの関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用させる、コンピュータ読み取り可能な媒体。
JP2008521006A 2005-07-13 2006-07-07 ビデオ時間アップコンバージョンを用いた処理方法及び装置 Pending JP2009501476A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05300594 2005-07-13
PCT/IB2006/052296 WO2007007257A1 (en) 2005-07-13 2006-07-07 Processing method and device with video temporal up-conversion

Publications (1)

Publication Number Publication Date
JP2009501476A true JP2009501476A (ja) 2009-01-15

Family

ID=37460196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008521006A Pending JP2009501476A (ja) 2005-07-13 2006-07-07 ビデオ時間アップコンバージョンを用いた処理方法及び装置

Country Status (7)

Country Link
US (1) US20100060783A1 (ja)
EP (1) EP1905243A1 (ja)
JP (1) JP2009501476A (ja)
KR (1) KR20080031408A (ja)
CN (1) CN101223786A (ja)
RU (1) RU2008105303A (ja)
WO (1) WO2007007257A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011176827A (ja) * 2010-02-25 2011-09-08 Ricoh Co Ltd テレビ会議システムの処理方法、テレビ会議システム、プログラム及び記録媒体
JP2017225128A (ja) * 2011-07-07 2017-12-21 エーティーアイ・テクノロジーズ・ユーエルシーAti Technologies Ulc 観察焦点指向の画像処理

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
EP2106664A2 (en) 2007-01-23 2009-10-07 Euclid Discoveries, LLC Systems and methods for providing personal video services
EP2106663A2 (en) 2007-01-23 2009-10-07 Euclid Discoveries, LLC Object archival systems and methods
CN101939991A (zh) 2007-01-23 2011-01-05 欧几里得发现有限责任公司 用于处理图像数据的计算机方法和装置
US8175382B2 (en) 2007-05-10 2012-05-08 Microsoft Corporation Learning image enhancement
JP2009033369A (ja) * 2007-07-26 2009-02-12 Sony Corp 記録装置、再生装置、記録再生装置、撮像装置、記録方法およびプログラム
US8130257B2 (en) 2008-06-27 2012-03-06 Microsoft Corporation Speaker and person backlighting for improved AEC and AGC
US8325796B2 (en) 2008-09-11 2012-12-04 Google Inc. System and method for video coding using adaptive segmentation
CA2739482C (en) 2008-10-07 2017-03-14 Euclid Discoveries, Llc Feature-based video compression
US9075883B2 (en) * 2009-05-08 2015-07-07 The Nielsen Company (Us), Llc System and method for behavioural and contextual data analytics
US20100296583A1 (en) * 2009-05-22 2010-11-25 Aten International Co., Ltd. Image processing and transmission in a kvm switch system with special handling for regions of interest
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CA2942336A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US9858470B2 (en) * 2014-07-18 2018-01-02 Htc Corporation Method for performing a face tracking function and an electric device having the same
US20160381320A1 (en) * 2015-06-25 2016-12-29 Nokia Technologies Oy Method, apparatus, and computer program product for predictive customizations in self and neighborhood videos
KR20170042431A (ko) 2015-10-08 2017-04-19 삼성전자주식회사 디스플레이 모양에 따라 영상 데이터를 불균일하게 인코딩/디코딩하도록 구성되는 전자 장치
US10153002B2 (en) * 2016-04-15 2018-12-11 Intel Corporation Selection of an audio stream of a video for enhancement using images of the video
US10950275B2 (en) 2016-11-18 2021-03-16 Facebook, Inc. Methods and systems for tracking media effects in a media effect index
US10122965B2 (en) 2016-11-29 2018-11-06 Facebook, Inc. Face detection for background management
US10303928B2 (en) * 2016-11-29 2019-05-28 Facebook, Inc. Face detection for video calls
US10554908B2 (en) 2016-12-05 2020-02-04 Facebook, Inc. Media effect application
CN106604151A (zh) * 2016-12-28 2017-04-26 深圳Tcl数字技术有限公司 视频聊天方法及装置
US10805676B2 (en) * 2017-07-10 2020-10-13 Sony Corporation Modifying display region for people with macular degeneration
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
EP3934260A1 (en) * 2020-06-30 2022-01-05 Ymagis Transport of a movie in multiple frame rates to a film auditorium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH089372A (ja) * 1994-03-18 1996-01-12 At & T Corp 受信ビデオ信号のフレーム伝送速度を高める装置
JPH08251583A (ja) * 1995-03-10 1996-09-27 Sharp Corp 画像符号化装置及び画像復号装置
JPH11285001A (ja) * 1998-01-27 1999-10-15 Sharp Corp 動画像符号化装置及び動画像復号装置
WO2001091467A1 (en) * 2000-05-26 2001-11-29 Mitsubishi Denki Kabushiki Kaisha Method and device for encoding image
JP2003111050A (ja) * 2001-09-27 2003-04-11 Olympus Optical Co Ltd 映像配信サーバ及び映像受信クライアントシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357650A (en) * 1999-12-23 2001-06-27 Mitsubishi Electric Inf Tech Method for tracking an area of interest in a video image, and for transmitting said area

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH089372A (ja) * 1994-03-18 1996-01-12 At & T Corp 受信ビデオ信号のフレーム伝送速度を高める装置
JPH08251583A (ja) * 1995-03-10 1996-09-27 Sharp Corp 画像符号化装置及び画像復号装置
JPH11285001A (ja) * 1998-01-27 1999-10-15 Sharp Corp 動画像符号化装置及び動画像復号装置
WO2001091467A1 (en) * 2000-05-26 2001-11-29 Mitsubishi Denki Kabushiki Kaisha Method and device for encoding image
JP2003111050A (ja) * 2001-09-27 2003-04-11 Olympus Optical Co Ltd 映像配信サーバ及び映像受信クライアントシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011176827A (ja) * 2010-02-25 2011-09-08 Ricoh Co Ltd テレビ会議システムの処理方法、テレビ会議システム、プログラム及び記録媒体
JP2017225128A (ja) * 2011-07-07 2017-12-21 エーティーアイ・テクノロジーズ・ユーエルシーAti Technologies Ulc 観察焦点指向の画像処理

Also Published As

Publication number Publication date
US20100060783A1 (en) 2010-03-11
EP1905243A1 (en) 2008-04-02
RU2008105303A (ru) 2009-08-20
CN101223786A (zh) 2008-07-16
KR20080031408A (ko) 2008-04-08
WO2007007257A1 (en) 2007-01-18

Similar Documents

Publication Publication Date Title
JP2009501476A (ja) ビデオ時間アップコンバージョンを用いた処理方法及び装置
US11676369B2 (en) Context based target framing in a teleconferencing environment
US20080235724A1 (en) Face Annotation In Streaming Video
US20060215014A1 (en) System and method for very low frame rate teleconferencing employing image morphing and cropping
EP2399240A1 (en) Horizontal gaze estimation for video conferencing
JP2016527791A (ja) 画像処理方法及び装置
JP2008501172A (ja) 画像比較方法
US11076127B1 (en) System and method for automatically framing conversations in a meeting or a video conference
JP2023544627A (ja) ビデオ・ストリームの操作
US9584806B2 (en) Using depth information to assist motion compensation-based video coding
WO2020108060A1 (zh) 视频处理方法、装置、电子设备以及存储介质
JP2011071685A (ja) 映像音響処理システム、映像音響処理方法及びプログラム
JP2004282535A (ja) 画角調整装置
CN112883940A (zh) 静默活体检测方法、装置、计算机设备及存储介质
Pingali et al. Audio-visual tracking for natural interactivity
US11587321B2 (en) Enhanced person detection using face recognition and reinforced, segmented field inferencing
WO2018157835A1 (zh) 基于运动注意力模型的360度全景视频编码方法
CN114387440A (zh) 一种视频裁剪方法、装置及存储介质
Wang et al. Very low frame-rate video streaming for face-to-face teleconference
CN111417015A (zh) 一种计算机视频合成的方法
Lin et al. Realtime object extraction and tracking with an active camera using image mosaics
KR100367409B1 (ko) 대칭 특성을 이용한 mpeg-4의 객체 분할장치 및 그방법
Sanches et al. The Influence of Audio on Perceived Quality of Segmentation
JP4506190B2 (ja) 映像表示装置、映像表示方法、映像表示方法のプログラム及び映像表示方法のプログラムを記録した記録媒体
WO2024059536A1 (en) Audio-visual analytic for object rendering in capture

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120301