JP2023518307A - 顔復元に基づくビデオ会議のためのフレームワーク - Google Patents
顔復元に基づくビデオ会議のためのフレームワーク Download PDFInfo
- Publication number
- JP2023518307A JP2023518307A JP2022556612A JP2022556612A JP2023518307A JP 2023518307 A JP2023518307 A JP 2023518307A JP 2022556612 A JP2022556612 A JP 2022556612A JP 2022556612 A JP2022556612 A JP 2022556612A JP 2023518307 A JP2023518307 A JP 2023518307A
- Authority
- JP
- Japan
- Prior art keywords
- video data
- efa
- features
- facial
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001815 facial effect Effects 0.000 claims abstract description 96
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 description 34
- 238000007906 compression Methods 0.000 description 34
- 239000000523 sample Substances 0.000 description 33
- 230000005540 biological transmission Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 26
- 230000033001 locomotion Effects 0.000 description 24
- 210000000887 face Anatomy 0.000 description 21
- 238000012549 training Methods 0.000 description 19
- 230000002123 temporal effect Effects 0.000 description 18
- 239000000872 buffer Substances 0.000 description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 239000013074 reference sample Substances 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000007787 solid Substances 0.000 description 5
- 241000023320 Luma <angiosperm> Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 4
- 230000003278 mimic effect Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000004547 Hallucinations Diseases 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000013100 final test Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/29—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/27—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving both synthetic and natural picture components, e.g. synthetic natural hybrid coding [SNHC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/14—Coding unit complexity, e.g. amount of activity or edge presence estimation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/184—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
- H04N19/423—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
Abstract
Description
本出願は、2021年1月6日に出願された米国仮特許出願第63/134,522号、および2021年9月30日に出願された米国特許出願第17/490,103号の優先権を主張し、その全体が参照により本願に明示的に組み込まれる。
pred[x][y]=(wL*R-1,y+wT*Rx,-1+wTL*R-1,-1+(64-wL-wT-wTL)*pred[x][y]+32)>>6 (式2-1)
式中、Rx,-1、R-1,yは、現在のサンプル(x,y)の上及び左にそれぞれ位置する、フィルタリングされていない参照サンプルを表し、R-1,-1は、現在のブロックの左上隅に位置する、フィルタリングされていない参照サンプルを表す。重み付けは、以下の通りに計算される。
wT=32>>((y<<1)>>shift) (式2-2)
wL=32>>((x<<1)>>shift) (式2-3)
wTL=-(wL>>4)-(wT>>4) (式2-4)
shift=(log2(width)+log2(height)+2)>>2 (式2-5)
pred(x,y)=(wL×R-1,y+wT×Rx,-1-wTL×R-1,-1+(64-wL-wT+wTL)×pred(x,y)+32)>>6
式中、Rx,-1、R-1,yは、それぞれ現在のサンプル(x,y)の上および左に位置する参照サンプルを表し、R-1,-1は、現在のブロックの左上隅に位置する参照サンプルを表す。
wT=32>>((y<<1)>>nScale)、wL=32>>((x<<1)>>nScale)、wTL=(wL>>4)+(wT>>4)、
ここで、nScale=(log2(幅)-2+log2(高さ)-2+2)>>2であり、式中、wTは、同じ水平座標を有する上記の参照ラインに位置する参照サンプルの重み付け係数を表し、wLは、同じ垂直座標を有する左の参照ラインに位置する参照サンプルの重み付け係数を表し、wTLは、現在のブロックの左上の参照サンプルの重み付け係数を表し、nScaleは、軸に沿って重み付け係数がどれだけ速く減少する(wLが左から右に減少する、またはwTが上から下に減少する)かを指定する、すなわち重み付け係数減少率を指定し、それは、現在の設計におけるx軸(左から右)およびy軸(上から下)に沿って同じである。また、32は隣接サンプルの初期重み付け係数を表し、初期重み付け係数はまた、現在のCBにおいて左上のサンプルに割り当てられた上(左または左上)の重み付けであり、PDPCプロセスにおける隣接サンプルの重み付け係数は、この初期重み付け係数以下とするべきである。
1417 グラフィックアダプタ
1444 アクセラレータ
1448 システムバス
1499 ネットワークインターフェース
Claims (20)
- 少なくとも1つのプロセッサによって行われるビデオコーディングのための方法であって、前記方法は、
ビデオデータを取得するステップと、
前記ビデオデータの少なくとも1つのフレームから少なくとも1つの顔を検出するステップと、
前記ビデオデータの前記少なくとも1つのフレームから前記少なくとも1つの顔の顔ランドマーク特徴のセットを決定するステップと、
顔ランドマーク特徴の前記決定されたセットに基づいてニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングするステップと、
を含む、方法。 - 前記ビデオデータは、前記ビデオデータの符号化されたビットストリームを含む、
請求項1に記載の方法。 - 顔ランドマーク特徴の前記セットを決定するステップは、前記符号化されたビットストリームを解凍することによって取得された少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングするステップを含む、
請求項2に記載の方法。 - 前記ビデオデータの前記少なくとも1つのフレームから前記検出された少なくとも1つの顔の領域から拡張された境界領域を含む拡張顔領域(EFA)を決定するステップと、
前記EFAからEFA特徴のセットを決定するステップと、
顔ランドマーク特徴の前記決定されたセットに基づいて前記ニューラルネットワークによって少なくとも部分的に前記ビデオデータをさらにコーディングするステップと、
をさらに含む、請求項3に記載の方法。 - 前記EFAを決定するステップ、およびEFA特徴の前記セットを決定するステップは、前記符号化されたビットストリームを解凍することによって取得された前記少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングするステップを含む、
請求項4に記載の方法。 - 前記EFAを決定するステップ、およびEFA特徴の前記セットを決定するステップは、敵対的生成ネットワークによって顔ランドマーク特徴の前記セットの前記顔ランドマーク特徴の1つにそれぞれ対応する前記EFA特徴を再構成するステップをさらに含む、
請求項5に記載の方法。 - 顔ランドマークの前記決定されたセットに基づいてニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングするステップは、顔ランドマークの前記セット、前記再構成されたEFA特徴、および前記少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングするステップから前記アップサンプリングされたシーケンスを集約することによって、顔ランドマーク特徴の前記決定されたセットに基づいて前記ニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングするステップをさらに含む、
請求項6に記載の方法。 - 前記ビデオデータの前記少なくとも1つのフレームからの前記少なくとも1つの顔は、前記ビデオデータの前記少なくとも1つのフレーム内の複数の顔の中で最大の顔であると決定される、
請求項7に記載の方法。 - 前記ビデオデータの前記少なくとも1つのフレーム内の前記複数の顔のそれぞれに対して、前記ビデオデータの前記少なくとも1つのフレームからの前記少なくとも1つの顔の顔ランドマーク特徴の前記セット以外に、顔ランドマーク特徴の複数のセットを決定するステップと、
顔ランドマークの前記決定されたセットおよび顔ランドマーク特徴の前記決定された複数のセットに基づいて前記ニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングするステップと、
をさらに含む、請求項7に記載の方法。 - 前記ニューラルネットワークは、ディープ・ニューラル・ネットワーク(DNN)を含む、
請求項9に記載の方法。 - ビデオコーディングのための装置であって、前記装置は、
コンピュータプログラムコードを格納するように構成された少なくとも1つのメモリと、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードにより命令されると動作するように構成された少なくとも1つのプロセッサと、を含み、前記コンピュータプログラムコードは、
前記少なくとも1つのプロセッサにビデオデータを取得させるように構成された、取得するコードと、
前記少なくとも1つのプロセッサに、前記ビデオデータの少なくとも1つのフレームから少なくとも1つの顔を検出させるように構成された、検出するコードと、
前記少なくとも1つのプロセッサに、前記ビデオデータの前記少なくとも1つのフレームから前記少なくとも1つの顔の顔ランドマークのセットを決定させるように構成された、決定するコードと、
前記少なくとも1つのプロセッサに、顔ランドマーク特徴の前記決定されたセットに基づいてニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングさせるように構成された、コーディングするコードと、
を含む、装置。 - 前記ビデオデータは、前記ビデオデータの符号化されたビットストリームを含む、
請求項1に記載の装置。 - 顔ランドマーク特徴の前記セットを決定することは、前記符号化されたビットストリームを解凍することによって取得された少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングすることを含む、
請求項2に記載の装置。 - 前記コンピュータプログラムコードは、
前記少なくとも1つのプロセッサに、
前記ビデオデータの前記少なくとも1つのフレームから前記検出された少なくとも1つの顔の領域から拡張された境界領域を含む拡張顔領域(EFA)を決定し、
前記EFAからEFA特徴のセットを決定させる
ように構成された、さらなる決定するコードと、
前記少なくとも1つのプロセッサに、顔ランドマーク特徴の前記決定されたセットに基づいて前記ニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングさせるように構成された、さらなるコーディングするコードと、
をさらに含む、請求項3に記載の装置。 - 前記EFAを決定すること、およびEFA特徴の前記セットを決定することは、前記符号化されたビットストリームを解凍することによって取得された前記少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングすることを含む、
請求項4に記載の装置。 - 前記EFAを決定すること、およびEFA特徴の前記セットを決定することは、敵対的生成ネットワークによって顔ランドマーク特徴の前記セットの前記顔ランドマーク特徴の1つにそれぞれ対応する前記EFA特徴を再構成することをさらに含む、
請求項5に記載の装置。 - 顔ランドマーク特徴の前記決定されたセットに基づいてニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングすることは、顔ランドマークの前記セット、前記再構成されたEFA特徴、および前記少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングすることから前記アップサンプリングされたシーケンスを集約することによって、顔ランドマーク特徴の前記決定されたセットに基づいて前記ニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングすることをさらに含む、
請求項6に記載の装置。 - 前記ビデオデータの前記少なくとも1つのフレームからの前記少なくとも1つの顔は、前記ビデオデータの前記少なくとも1つのフレーム内の複数の顔の中で最大の顔であると決定される、
請求項7に記載の装置。 - 前記決定するコードは、前記プロセッサに、前記ビデオデータの前記少なくとも1つのフレーム内の前記複数の顔のそれぞれに対して、前記ビデオデータの前記少なくとも1つのフレームからの前記少なくとも1つの顔の顔ランドマーク特徴の前記セット以外に、顔ランドマーク特徴の複数のセットを決定させるようにさらに構成され、
前記コーディングするコードは、前記プロセッサに、顔ランドマークの前記決定されたセットおよび顔ランドマーク特徴の前記決定された複数のセットに基づいて前記ニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングさせるようにさらに構成される、
請求項7に記載の装置。 - コンピュータにプロセスを実行させるプログラムを格納する非一時的コンピュータ可読媒体であって、前記プロセスは、
ビデオデータを取得するステップと、
前記ビデオデータの少なくとも1つのフレームから少なくとも1つの顔を検出するステップと、
前記ビデオデータの前記少なくとも1つのフレームから前記少なくとも1つの顔の顔ランドマーク特徴のセットを決定するステップと、
顔ランドマーク特徴の前記決定されたセットに基づいてニューラルネットワークによって少なくとも部分的に前記ビデオデータをコーディングするステップと、
を含む、非一時的コンピュータ可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163134522P | 2021-01-06 | 2021-01-06 | |
US63/134,522 | 2021-01-06 | ||
US17/490,103 US11659193B2 (en) | 2021-01-06 | 2021-09-30 | Framework for video conferencing based on face restoration |
US17/490,103 | 2021-09-30 | ||
PCT/US2021/053091 WO2022150078A1 (en) | 2021-01-06 | 2021-10-01 | A framework for video conferencing based on face restoration |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023518307A true JP2023518307A (ja) | 2023-04-28 |
Family
ID=82219133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022556612A Pending JP2023518307A (ja) | 2021-01-06 | 2021-10-01 | 顔復元に基づくビデオ会議のためのフレームワーク |
Country Status (6)
Country | Link |
---|---|
US (1) | US11659193B2 (ja) |
EP (1) | EP4085375A4 (ja) |
JP (1) | JP2023518307A (ja) |
KR (1) | KR20220123101A (ja) |
CN (1) | CN115298710A (ja) |
WO (1) | WO2022150078A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230164337A1 (en) * | 2021-11-25 | 2023-05-25 | Electronics And Telecommunications Research Institute | Method and apparatus for adaptive image preprocessing and reconstruction |
US20240146963A1 (en) * | 2022-10-17 | 2024-05-02 | Alibaba Damo (Hangzhou) Technology Co., Ltd. | Method and apparatus for talking face video compression |
CN116545774B (zh) * | 2023-07-05 | 2023-09-15 | 四川西盾科技有限公司 | 一种音视频会议安全保密方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10482333B1 (en) * | 2017-01-04 | 2019-11-19 | Affectiva, Inc. | Mental state analysis using blink rate within vehicles |
WO2015192316A1 (en) | 2014-06-17 | 2015-12-23 | Beijing Kuangshi Technology Co., Ltd. | Face hallucination using convolutional neural networks |
US10423830B2 (en) * | 2016-04-22 | 2019-09-24 | Intel Corporation | Eye contact correction in real time using neural network based machine learning |
CN111066060A (zh) * | 2017-07-13 | 2020-04-24 | 资生堂美洲公司 | 虚拟面部化妆去除和模拟、快速面部检测和地标跟踪 |
US11024078B2 (en) | 2017-08-07 | 2021-06-01 | Verizon Patent And Licensing Inc. | Systems and methods compression, transfer, and reconstruction of three-dimensional (3D) data meshes |
US10684681B2 (en) * | 2018-06-11 | 2020-06-16 | Fotonation Limited | Neural network image processing apparatus |
KR20200114436A (ko) * | 2019-03-28 | 2020-10-07 | 국방과학연구소 | 스케일러블 영상 부호화를 수행하는 장치 및 방법 |
US20220156981A1 (en) * | 2020-11-17 | 2022-05-19 | Meta Platforms, Inc. | Systems and method for low bandwidth video-chat compression |
US20220207875A1 (en) * | 2020-12-30 | 2022-06-30 | Snap Inc. | Machine learning-based selection of a representative video frame within a messaging application |
-
2021
- 2021-09-30 US US17/490,103 patent/US11659193B2/en active Active
- 2021-10-01 EP EP21918026.2A patent/EP4085375A4/en active Pending
- 2021-10-01 JP JP2022556612A patent/JP2023518307A/ja active Pending
- 2021-10-01 KR KR1020227026617A patent/KR20220123101A/ko active Search and Examination
- 2021-10-01 WO PCT/US2021/053091 patent/WO2022150078A1/en unknown
- 2021-10-01 CN CN202180021551.4A patent/CN115298710A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11659193B2 (en) | 2023-05-23 |
EP4085375A4 (en) | 2023-05-31 |
WO2022150078A1 (en) | 2022-07-14 |
KR20220123101A (ko) | 2022-09-05 |
US20220217371A1 (en) | 2022-07-07 |
EP4085375A1 (en) | 2022-11-09 |
CN115298710A (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102617651B1 (ko) | 일반화된 트라이수프 기하 코딩을 위한 기법 및 장치 | |
CN110248187B (zh) | 用于视频压缩中的方向性帧内预测的方法、设备和存储介质 | |
CN115499652A (zh) | 一种视频编解码方法和相关装置 | |
KR102506416B1 (ko) | 다중 라인 인트라 예측을 위한 인트라 보간 필터 | |
KR20210145794A (ko) | 비디오 코딩을 위한 방법 및 장치 | |
US11659193B2 (en) | Framework for video conferencing based on face restoration | |
KR20200125733A (ko) | 비디오 코딩을 위한 방법 및 장치 | |
US11388437B2 (en) | View-position and angle dependent processing of point cloud data | |
KR20200125698A (ko) | 서브-블록 모션 벡터 예측을 위한 방법 및 장치 | |
JP2023518795A (ja) | 符号化ビデオストリームにおいてニューラルネットワークトポロジ及びパラメータを伝達するための技術 | |
JP2023527144A (ja) | ビデオストリームにおけるニューラル・ネットワーク・トポロジ、パラメータ、および処理情報をシグナリングするための技術 | |
JP2023515810A (ja) | 深層強化学習によるエンドツーエンド依存量子化 | |
JP2023126585A (ja) | マルチラインイントラ予測のためのモードリストを生成する方法、並びにその装置及びコンピュータプログラム | |
US11949856B2 (en) | Intra mode selection in intra prediction | |
US20230024288A1 (en) | Feature-based multi-view representation and coding | |
WO2023279026A1 (en) | Independent coded region output supplementary enhancement information message | |
JP2023542333A (ja) | Dnnベースのクロスコンポーネント予測 | |
WO2024015692A1 (en) | Texture coordinate coding in mesh compression | |
KR20230169953A (ko) | 루마로부터의 크로마 인트라 예측 모드에서 파라미터를 스케일링하는 개선된 시그널링 방법 | |
JP2023543592A (ja) | ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法、システム、及びコンピュータプログラム、並びにビデオデコーダの少なくとも1つのプロセッサによって実行される方法 | |
JP2023518432A (ja) | 機械のためのビデオ符号化のための方法、装置およびコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220920 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231106 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240206 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240507 |