JP7320591B2 - ビデオ通話のための顔に基づくフレームレートのアップサンプリング - Google Patents
ビデオ通話のための顔に基づくフレームレートのアップサンプリング Download PDFInfo
- Publication number
- JP7320591B2 JP7320591B2 JP2021209573A JP2021209573A JP7320591B2 JP 7320591 B2 JP7320591 B2 JP 7320591B2 JP 2021209573 A JP2021209573 A JP 2021209573A JP 2021209573 A JP2021209573 A JP 2021209573A JP 7320591 B2 JP7320591 B2 JP 7320591B2
- Authority
- JP
- Japan
- Prior art keywords
- face
- interpolated
- video
- frame
- keyframe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012952 Resampling Methods 0.000 claims description 95
- 238000000034 method Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 23
- 230000001815 facial effect Effects 0.000 claims description 22
- 238000002156 mixing Methods 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 14
- 238000009877 rendering Methods 0.000 claims description 13
- 238000005562 fading Methods 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 230000033001 locomotion Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 210000003128 head Anatomy 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 210000000887 face Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
- H04N7/0137—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes dependent on presence/absence of motion, e.g. of motion zones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/503—Blending, e.g. for anti-aliasing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/21—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with binary alpha-plane coding for video objects, e.g. context-based arithmetic encoding [CAE]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0102—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving the resampling of the incoming video signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Controls And Circuits For Display Device (AREA)
- Image Generation (AREA)
- Image Analysis (AREA)
Description
本願は、2019年8月7日に出願された、「ビデオ通話のための顔に基づくフレームレートのアップサンプリング」と題する米国仮出願第62/884,135号に基づく優先権を主張し、その内容全体を本明細書に引用により援用する。
モバイル機器上での映像ストリーミング(例えば、ビデオ通話アプリケーションで使用される映像ストリーミング)において、帯域幅または他のリソースを節約するために、低フレームレート(例えば、15フレーム毎秒(fps))が用いられる場合がある。しかしながら、低フレームレートは、見る側にとって不満足な体験をもたらすことになる。例えば、ビデオ通話において対象の人物が素早い動作をした場合、低フレームレートでは、見る側がつっかえた動作を知覚することになる可能性がある。多くのモバイル機器は、より高いフレームレート(例えば、25fps、30fps、60fps、90fpsなど)の映像をレンダリングすることが可能であるが、帯域幅、バッテリ、またはローカルの処理能力の制約により、高フレームレートとすることが現実的ではない場合がある。
実施形態は、概括すると、映像に対応する映像フレームのセットを受信するステップを含む方法に関する。映像フレームのセットは、各々が顔を含む第1の映像フレームおよび第2の映像フレームを含む。第2の映像フレームは、第1の映像フレームよりも後の映像フレームである。上記方法はさらに、第1の映像フレームに対して顔追跡を行なって第1の顔リサンプリングキーフレームを特定するステップを含む。第1の顔リサンプリングキーフレームは、第1の頭部変換行列および第1の顔ランドマーク頂点を含む。上記方法はさらに、第2の映像フレームに対して顔追跡を行なって第2の顔リサンプリングキーフレームを特定するステップを含む。第2の顔リサンプリングキーフレームは、第2の頭部変換行列および第2の顔ランドマーク頂点を含む。上記方法はさらに、補間量を導出するステップを含む。上記方法はさらに、第1の顔リサンプリングキーフレームおよび補間量に
基づいて、第1の補間顔フレームを決定するステップを含む。上記方法はさらに、第2の顔リサンプリングキーフレームおよび補間量に基づいて、第2の補間顔フレームを決定するステップを含む。上記方法はさらに、補間量に基づいて、第1の顔リサンプリングキーフレームの第1の背景および第2の顔リサンプリングキーフレームの第2の背景を補間するステップを含む。上記方法はさらに、補間された第1の顔および補間された第2の顔をレンダリングするステップを含む。上記方法はさらに、補間された第1の背景、補間された第2の背景、補間された第1の顔、および補間された第2の顔に基づく最終フレームを表示するステップを含む。
ップと、補間された第1の顔および補間された第2の顔をレンダリングするステップと、補間された第1の背景、補間された第2の背景、補間された第1の顔、および補間された第2の顔に基づく最終フレームを表示するステップとを含む。
大縮小ベクトルを生成するステップと、補間平行移動ベクトル、補間回転クォータニオン、および補間拡大縮小ベクトルに基づいて、補間平行移動-回転-拡大縮小行列を作成するステップと、補間平行移動-回転-拡大縮小行列を用いて、補間された第1の顔のための補間位置を算出するステップとを含む。ある実施形態では、補間量は、(a)第1の顔リサンプリングキーフレームと第2の顔リサンプリングキーフレームとの間の継続時間、および(b)今回のレンダリング時間から導出される。ある実施形態では、第2の補間顔フレームを決定するステップは、第2の顔ランドマーク頂点における各頂点のそれぞれの変位を算出するステップを含む。
ある実施形態では、モバイル機器は、映像に対応する映像フレームのセットを受信する。例えば、映像フレームのセットは、各々が顔を含む第1の映像フレームおよび第2の映像フレームを含み得る。第2の映像フレームは、第1の映像フレームよりも後の映像フレームであり得る。モバイル機器は、第1の映像フレームに対して顔追跡を行なって、第1の頭部変換行列と第1の顔ランドマーク頂点とを含む第1の顔リサンプリングキーフレームを特定し得る。また、第2の映像フレームに対して顔追跡を行なって、第2の頭部変換行列と第2の顔ランドマーク頂点とを含む第2の顔リサンプリングキーフレームを特定し得る。補間量を導出する。第1の顔リサンプリングキーフレームおよび補間量に基づいて、第1の補間顔フレームを決定する。第2の顔リサンプリングキーフレームおよび補間量に基づいて、第2の補間顔フレームを決定する。補間量に基づいて、第1の顔リサンプリングキーフレームの第1の背景および第2の顔リサンプリングキーフレームの第2の背景を補間する。補間された第1の顔および補間された第2の顔をレンダリングする。補間された第1の背景、補間された第2の背景、補間された第1の顔、および補間された第2の顔に基づく最終フレームを表示する。
図1は、補間映像フレームを生成する環境100の一例を示すブロック図である。図示されたシステム100は、映像サーバ101、ユーザデバイス115a,115n、およびネットワーク105を含む。ユーザ125a,125nは、ユーザデバイス115a,115nのそれぞれに関連付けられていてもよい。ある実施形態では、システム100は、図1に示していない他のサーバまたはデバイスを含んでもよい。図1およびその他の図において、後に文字が付く参照符号(例えば、「115a」)は、その特定の参照符号を有する要素への参照を示す。本文中、後に文字が付かない参照符号(例えば、「115」)は、その参照符号を有する要素の実施形態への一般的な参照を示す。
ームをデータとして中継することになる。ある実施形態では、映像アプリケーション103は、ハードウェアによって実現されてもよい。ハードウェアは、中央処理装置(CPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、他の任意の種類のプロセッサ、またはこれらの組み合わせなどを含み得る。ある実施形態では、映像アプリケーション103は、ハードウェアおよびソフトウェアの組み合わせによって実現されてもよい。
が装着するユーザデバイス115nのディスプレイ上で、映像アプリケーション103cによって生成された映像を閲覧し得る。例えば、映像アプリケーション103cは、補間映像フレームをユーザデバイス115n上に表示し得る。
図2は、補間映像フレームを生成するコンピューティングデバイス200の一例を示すブロック図である。コンピューティングデバイス200は、ユーザデバイス115または映像サーバ101であり得る。コンピューティングデバイス200は、プロセッサ235、メモリ237、通信ユニット239、ディスプレイ241、およびストレージデバイス247を含み得る。コンピューティングデバイス200の種類に応じて、追加のコンポーネントを含んでもよいし、上記のコンポーネントのうちの一部を省いてもよい。映像アプリケーション103は、メモリ237に格納され得る。ある実施形態では、コンピューティングデバイス200は、上記で挙げていない他のコンポーネント(例えば、バッテリなど)を含んでもよい。コンピューティングデバイス200のコンポーネント同士は、バス220によって通信可能に接続されてもよい。
241は、例えば液晶ディスプレイ(LCD)やOLEDなど、如何なる種類のディスプレイであってもよい。ある実施形態では、ディスプレイ241は投影スクリーンであってもよい。ある実施形態では、例えばデバイス241が拡張現実デバイスである場合、ディスプレイ241は立体ディスプレイであってもよい。ディスプレイ241はバス220に接続されており、信号線228を介して他のコンポーネントと通信可能である。
ザ204は60Hzの周波数で動作し、60Hzで動作する映像フレーム表示用のリフレッシュ/レンダリングループに連動するクロックが別途設けられる。
ータと比較してもよい。これら2つの差を計算し、その差を訓練フィードバックとして提供してもよい。このフィードバックに基づいて、モデルの1つ以上のニューラルネットワークノードの重みまたは他のパラメータを調整してもよい。モデル予測が閾値精度を満たしたとき、訓練を終了させてもよい。
さらに、訓練データは、例えばモジュールデバイスを用いて行なわれるビデオ通話において顔を検出するという使用文脈の代表例であり得る。
とめられた複数のノードとして開始されてもよい。初期設定では、モデルフォームに従って接続された各対のノード(例えば、ニューラルネットワークの連続する層におけるノード)間の接続にそれぞれ重みがかけられてもよい。例えば、それぞれの重みがランダムに割り当てられてもよいし、またはデフォルト値に初期化されてもよい。訓練モデルは、例えばデータを用いて訓練され、結果が生成され得る。
(3)球面線形補間を用いて回転クォータニオンを補間することによって、補間回転クォータニオンを生成する。
(6)補間フレームのための新たな補間位置を算出する。
れ、補間メッシュ頂点が生成される。補間メッシュ頂点は、補間頭部変換行列と、顔リサンプリングキーフレーム中のメッシュ頂点とが合成されたものである。ランドマーク頂点は、補間顔フレーム間で同一であるが、これらのランドマーク頂点には異なるテクスチャ座標が適用される。なぜなら、テクスチャ座標はそれぞれの顔リサンプリングキーフレームに対応するからである。例えば、顔リサンプラー206は、第1の顔リサンプリングキーフレームに対応して第1の補間顔フレームを生成し、第2の顔リサンプリングキーフレームに対応して第2の補間顔フレームを生成する。これにより、第1の映像フレーム中の顔と第2の映像フレーム中の顔とを効果的に拡張し、それらを同一の中間位置で合わせることができる。
)。
図9Aおよび図9Bは、補間映像フレームを生成するための方法の一例を示すフローチャートである。方法900は、コンピューティングデバイス200に格納された映像アプリケーション103によって実行される。例えば、映像アプリケーション103は、ユーザデバイス115、映像サーバ101、またはユーザデバイス115の一部および映像サーバ101の一部に格納されている。
ンプリングキーフレームおよび補間量に基づいて、第1の補間顔フレームを決定する。ブロック912において、第2の顔リサンプリングキーフレームおよび補間量に基づいて、第2の補間顔フレームを決定する。ブロック914において、補間量に基づいて、第1の顔リサンプリングキーフレームの第1の背景および第2の顔リサンプリングキーフレームの第2の背景を補間する。ある実現例では、ブロック914を省いてもよい。ブロック916において、補間された第1の顔および補間された第2の顔をレンダリングする。例えば、補間された第1の顔および補間された第2の顔を、補間かつブレンドされた顔としてレンダリングする。ブロック918において、補間された第1の背景、補間された第2の背景、補間された第1の顔、および補間された第2の顔に基づく最終フレームを表示する。例えば、補間かつブレンドされた顔をブレンドされた背景に加えることによって、最終フレームを作成する。最終フレームは、フレームシーケンスにおける対応位置に挿入される。例えば、再生中、第1のフレーム、最終フレーム、および第2のフレームが順に表示されるように、第1の映像フレームと第2の映像フレームとの間に最終フレームを挿入する。より高いフレームレートでの再生を可能にする(例えば、10フレーム毎秒の映像から30フレーム毎秒を得る)ために、第1の映像フレームと第2の映像フレームとの間に2つ以上の補間フレームを生成する場合(例えば、補間量はt未満)、各補間フレームをシーケンスにおける対応位置に挿入する。
Claims (11)
- 方法であって、
映像に対応する映像フレームのセットを受信するステップを含み、前記映像フレームのセットは、各々が顔を含む第1の映像フレームおよび第2の映像フレームを含み、前記第2の映像フレームは、前記第1の映像フレームよりも後の映像フレームであり、前記方法はさらに、
補間量を導出するステップと、
第1の顔リサンプリングキーフレームおよび前記補間量に基づいて、第1の補間顔フレームを決定するステップと、
第2の顔リサンプリングキーフレームおよび前記補間量に基づいて、第2の補間顔フレームを決定するステップと、
前記補間量に基づいて、前記第1の顔リサンプリングキーフレームの第1の背景および前記第2の顔リサンプリングキーフレームの第2の背景を補間するステップと、
補間された第1の顔および補間された第2の顔をレンダリングするステップと、
前記補間された第1の背景、前記補間された第2の背景、前記補間された第1の顔、および前記補間された第2の顔に基づく最終フレームを表示するステップとを含む、方法。 - 前記第1の背景と前記第2の背景とをブレンドすることによって、ブレンドされた背景を取得するステップと、
前記補間された第1の顔と前記補間された第2の顔とをブレンドすることによって、補間かつブレンドされた顔を取得するステップと、
前記補間かつブレンドされた顔および前記ブレンドされた背景に滑らかな顔を重ねることによって、前記最終フレームを生成するステップとをさらに含む、請求項1に記載の方法。 - 前記第1の映像フレームに対して顔追跡を行なって第1の顔リサンプリングキーフレームを特定するステップをさらに含み、前記第1の顔リサンプリングキーフレームは、第1の頭部変換行列および第1の顔ランドマーク頂点を含み、
前記第1の補間顔フレームを決定するステップは、
前記第1の頭部変換行列を用いて、平行移動ベクトル、回転クォータニオン、および拡大縮小ベクトルを抽出するステップと、
前記平行移動ベクトルを線形補間するステップと、
線形補間を用いて前記回転クォータニオンを補間することによって、補間回転クォータニオンを生成するステップと、
前記拡大縮小ベクトルを線形補間することによって、補間拡大縮小ベクトルを生成するステップと、
補間された前記平行移動ベクトル、前記補間回転クォータニオン、および前記補間拡大縮小ベクトルに基づいて、補間平行移動-回転-拡大縮小行列を作成するステップと、
前記補間平行移動-回転-拡大縮小行列を用いて、前記補間された第1の顔のための補間位置を算出するステップとを含む、請求項1または請求項2に記載の方法。 - 前記補間量は、
(a)前記第1の顔リサンプリングキーフレームと前記第2の顔リサンプリングキーフレームとの間の継続時間、および
(b)今回のレンダリング時間から導出される、請求項1~請求項3のいずれか1項に記載の方法。 - 前記第2の映像フレームに対して顔追跡を行なって第2の顔リサンプリングキーフレームを特定するステップをさらに含み、前記第2の顔リサンプリングキーフレームは、第2の頭部変換行列および第2の顔ランドマーク頂点を含み、
前記第2の補間顔フレームを決定するステップは、
前記第2の顔ランドマーク頂点における各頂点のそれぞれの変位を算出するステップを含む、請求項1~請求項4のいずれか1項に記載の方法。 - 前記第1の背景および前記第2の背景を補間するステップは、アルファブレンドによってなされる、請求項1~請求項5のいずれか1項に記載の方法。
- 前記レンダリングするステップは、前記補間量に基づいて、前記補間された第1の顔および前記補間された第2の顔のエッジのフェザリング、または、前記第1の補間顔フレームと前記第2の補間顔フレームとの間のフェーディングのうちの少なくとも1つを行なうことを含む、請求項1~請求項6のいずれか1項に記載の方法。
- 前記第1の映像フレームに対して顔追跡を行なうステップは、前記第1の顔リサンプリングキーフレームの第1のテクスチャ座標と、タイムスタンプとを決定するステップをさらに含み、
前記第1のテクスチャ座標は、前記第1の顔ランドマーク頂点に適用される、請求項3に記載の方法。 - 前記第1の顔リサンプリングキーフレームは、前記第1の映像フレームに対してRGB(赤・緑・青)顔追跡を行なうことによって特定される、請求項1~請求項8のいずれか1項に記載の方法。
- 1以上のコンピュータによって実行されることにより、前記1以上のコンピュータに、請求項1~請求項9のいずれか1項に記載の方法を実施させるプログラム。
- 請求項10に記載のプログラムを格納するメモリと、
前記メモリに格納された前記プログラムを実行するコンピュータと、を備えるシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962884135P | 2019-08-07 | 2019-08-07 | |
US62/884,135 | 2019-08-07 | ||
JP2020542990A JP7000588B2 (ja) | 2019-08-07 | 2019-11-11 | ビデオ通話のための顔に基づくフレームレートのアップサンプリング |
PCT/US2019/060700 WO2021025717A1 (en) | 2019-08-07 | 2019-11-11 | Face-based frame rate upsampling for video calls |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020542990A Division JP7000588B2 (ja) | 2019-08-07 | 2019-11-11 | ビデオ通話のための顔に基づくフレームレートのアップサンプリング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022050463A JP2022050463A (ja) | 2022-03-30 |
JP7320591B2 true JP7320591B2 (ja) | 2023-08-03 |
Family
ID=69165537
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020542990A Active JP7000588B2 (ja) | 2019-08-07 | 2019-11-11 | ビデオ通話のための顔に基づくフレームレートのアップサンプリング |
JP2021209573A Active JP7320591B2 (ja) | 2019-08-07 | 2021-12-23 | ビデオ通話のための顔に基づくフレームレートのアップサンプリング |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020542990A Active JP7000588B2 (ja) | 2019-08-07 | 2019-11-11 | ビデオ通話のための顔に基づくフレームレートのアップサンプリング |
Country Status (6)
Country | Link |
---|---|
US (2) | US11321555B2 (ja) |
EP (1) | EP3799688A1 (ja) |
JP (2) | JP7000588B2 (ja) |
KR (1) | KR102289900B1 (ja) |
CN (1) | CN114245987A (ja) |
WO (1) | WO2021025717A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7448271B1 (ja) | 2023-12-19 | 2024-03-12 | 株式会社フィードフォース | 情報処理システム、プログラム及び情報処理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039869A (ja) | 2009-08-13 | 2011-02-24 | Nippon Hoso Kyokai <Nhk> | 顔画像処理装置およびコンピュータプログラム |
JP2011092547A (ja) | 2009-10-30 | 2011-05-12 | Ziosoft Inc | 医療用画像処理装置及び医療用画像処理プログラム |
JP2011227704A (ja) | 2010-04-20 | 2011-11-10 | Fujifilm Corp | 情報処理装置および方法ならびにプログラム |
JP2016001447A (ja) | 2014-06-12 | 2016-01-07 | キヤノン株式会社 | 画像認識システム、画像認識装置、画像認識方法、およびコンピュータプログラム |
US20170132828A1 (en) | 2015-11-06 | 2017-05-11 | Mursion, Inc. | Control System for Virtual Characters |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7203340B2 (en) * | 2003-09-03 | 2007-04-10 | National Research Council Of Canada | Second order change detection in video |
US8693537B2 (en) * | 2005-03-01 | 2014-04-08 | Qualcomm Incorporated | Region-of-interest coding with background skipping for video telephony |
US7659920B2 (en) | 2005-03-22 | 2010-02-09 | Microsoft Corp. | System and method for very low frame rate teleconferencing employing image morphing and cropping |
US8150155B2 (en) * | 2006-02-07 | 2012-04-03 | Qualcomm Incorporated | Multi-mode region-of-interest video object segmentation |
JP2010063088A (ja) * | 2008-08-08 | 2010-03-18 | Sanyo Electric Co Ltd | 撮像装置 |
US8363085B2 (en) * | 2010-07-06 | 2013-01-29 | DigitalOptics Corporation Europe Limited | Scene background blurring including determining a depth map |
US20120027091A1 (en) * | 2010-07-28 | 2012-02-02 | Wei-Lien Hsu | Method and System for Encoding Video Frames Using a Plurality of Processors |
US10484697B2 (en) * | 2014-09-09 | 2019-11-19 | Qualcomm Incorporated | Simultaneous localization and mapping for video coding |
US11507646B1 (en) * | 2017-09-29 | 2022-11-22 | Amazon Technologies, Inc. | User authentication using video analysis |
CN109996055B (zh) * | 2017-12-06 | 2022-08-12 | 杜比实验室特许公司 | 位置零时延 |
CN109993716B (zh) * | 2017-12-29 | 2023-04-14 | 微软技术许可有限责任公司 | 图像融合变换 |
KR102466998B1 (ko) * | 2018-02-09 | 2022-11-14 | 삼성전자주식회사 | 영상 융합 방법 및 장치 |
US10671855B2 (en) * | 2018-04-10 | 2020-06-02 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
-
2019
- 2019-11-11 JP JP2020542990A patent/JP7000588B2/ja active Active
- 2019-11-11 US US16/968,115 patent/US11321555B2/en active Active
- 2019-11-11 KR KR1020207023054A patent/KR102289900B1/ko active IP Right Grant
- 2019-11-11 EP EP19836686.6A patent/EP3799688A1/en not_active Withdrawn
- 2019-11-11 CN CN201980012945.6A patent/CN114245987A/zh active Pending
- 2019-11-11 WO PCT/US2019/060700 patent/WO2021025717A1/en active Application Filing
-
2021
- 2021-12-23 JP JP2021209573A patent/JP7320591B2/ja active Active
-
2022
- 2022-03-29 US US17/707,661 patent/US11869274B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039869A (ja) | 2009-08-13 | 2011-02-24 | Nippon Hoso Kyokai <Nhk> | 顔画像処理装置およびコンピュータプログラム |
JP2011092547A (ja) | 2009-10-30 | 2011-05-12 | Ziosoft Inc | 医療用画像処理装置及び医療用画像処理プログラム |
JP2011227704A (ja) | 2010-04-20 | 2011-11-10 | Fujifilm Corp | 情報処理装置および方法ならびにプログラム |
JP2016001447A (ja) | 2014-06-12 | 2016-01-07 | キヤノン株式会社 | 画像認識システム、画像認識装置、画像認識方法、およびコンピュータプログラム |
US20170132828A1 (en) | 2015-11-06 | 2017-05-11 | Mursion, Inc. | Control System for Virtual Characters |
Also Published As
Publication number | Publication date |
---|---|
JP7000588B2 (ja) | 2022-01-19 |
US20220222968A1 (en) | 2022-07-14 |
EP3799688A1 (en) | 2021-04-07 |
KR20210018182A (ko) | 2021-02-17 |
KR102289900B1 (ko) | 2021-08-17 |
US11869274B2 (en) | 2024-01-09 |
US11321555B2 (en) | 2022-05-03 |
JP2021536146A (ja) | 2021-12-23 |
CN114245987A (zh) | 2022-03-25 |
JP2022050463A (ja) | 2022-03-30 |
WO2021025717A1 (en) | 2021-02-11 |
US20210182540A1 (en) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887231B2 (en) | Avatar animation system | |
KR102658960B1 (ko) | 얼굴 재연을 위한 시스템 및 방법 | |
US11521362B2 (en) | Messaging system with neural hair rendering | |
US11455765B2 (en) | Method and apparatus for generating virtual avatar | |
WO2014194439A1 (en) | Avatar-based video encoding | |
JP7320591B2 (ja) | ビデオ通話のための顔に基づくフレームレートのアップサンプリング | |
JPWO2018221211A1 (ja) | 画像処理装置および方法、ファイル生成装置および方法、並びにプログラム | |
CN113095206A (zh) | 虚拟主播生成方法、装置和终端设备 | |
US11948245B2 (en) | Relighting images and video using learned lighting and geometry | |
EP3811626B1 (en) | Face-based frame packing for video calls | |
KR20220078005A (ko) | 분할 렌더링 영상 기반의 증강현실 영상을 재생하는 장치 및 방법 | |
Chen et al. | Subjective and Objective Quality Assessment of Rendered Human Avatar Videos in Virtual Reality | |
US12112427B2 (en) | High-definition real-time view synthesis | |
US11954810B2 (en) | Augmented reality object rendering based on camera quality | |
US20240246590A1 (en) | Augmented reality object rendering based on camera quality | |
Lu et al. | JAVRE: a joint asymmetric video rendering and encoding approach to enable optimized cloud mobile 3D virtual immersive user experience | |
Athrij et al. | Dynamic Load Distribution in web-based AR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220204 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7320591 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |