JP2023551158A - 低帯域幅伝送における高精細度ビデオ(High Definition Video)のライブ・ストリーミングのための非顕著性圧縮を用いたビデオ・エンコード - Google Patents
低帯域幅伝送における高精細度ビデオ(High Definition Video)のライブ・ストリーミングのための非顕著性圧縮を用いたビデオ・エンコード Download PDFInfo
- Publication number
- JP2023551158A JP2023551158A JP2023530212A JP2023530212A JP2023551158A JP 2023551158 A JP2023551158 A JP 2023551158A JP 2023530212 A JP2023530212 A JP 2023530212A JP 2023530212 A JP2023530212 A JP 2023530212A JP 2023551158 A JP2023551158 A JP 2023551158A
- Authority
- JP
- Japan
- Prior art keywords
- data
- salient
- saliency
- computer
- video stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 46
- 238000007906 compression Methods 0.000 title claims description 25
- 230000006835 compression Effects 0.000 title claims description 24
- 238000000034 method Methods 0.000 claims abstract description 79
- 238000010801 machine learning Methods 0.000 claims description 46
- 238000013473 artificial intelligence Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 3
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
- H04N19/23—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/537—Motion estimation other than block-based
- H04N19/54—Motion estimation other than block-based using feature points or meshes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234318—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into objects, e.g. MPEG-4 objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234327—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
低帯域幅伝送のためにビデオ・ストリームをエンコードする、コンピュータに実装された方法は、高解像度ビデオ・ストリーム内の顕著データおよび非顕著データを特定することを含む。顕著データと非顕著データとが区分される。非顕著データは、より低い解像度に圧縮される。顕著データおよび圧縮された非顕著データは、低帯域幅伝送において伝送される。
Description
本開示は、全般的に、ビデオの圧縮に関し、特に、低帯域幅伝送用途におけるビデオ増強(video enhancement)のための手法に関する。
インターネット上の高解像度ビデオ・データの量は、特によりパワフルなデバイスのコストが低下したこと、ならびにコンテンツを作成、閲覧、および伝送するためのアプリケーションが発達すると共に、爆発的に増加してきている。高解像度ビデオ・データを伝送する人々の数は1億人を超え、大きな帯域幅コストを必要としていると推定される。特に、同時にライブ・イベントを視聴するユーザの数がますます増加するのに伴い、良好なサービスを非常に多くのユーザに提供するための帯域幅コストが増大し続けている。
現在、帯域幅コストを削減しようと試行する中で、効率的なビデオ・コーデックに基づくデコード手法が作り出されている。例として、H.264などのビデオ符号化/デコード手法は、かなり多くの時間冗長性を有するビデオのビデオ・サイズを効果的に圧縮することができる。しかしながら、そのようなタイプのビデオ符号化/デコード手法には課題があり、圧縮-展開プロセス中に情報の欠落が生じてビデオの品質が低下する。そのようなタイプのビデオ符号化/デコード手法のもう1つの問題は、計算の複雑性である。そのようなビデオ符号化/デコード手法を実装するためにはパワフルなハードウェアが必要であり、このことが、モバイル電話などのデバイス上での実装に関し課題をもたらす。
帯域幅コストの課題に対処しようとする一部の試行には、アプリケーション・メタデータを使用したグラフィック・ユーザ・インターフェースの適応型ビデオ圧縮を含むものがある。ビデオ信号の構造的部分または意味的部分が、特定された画像領域の適応型符号化ユニットの対象とされる。このプロトコルもやはり、アプリケーション・メタデータの分析に従って複雑な展開およびスムージングを実行できるユーザ側デバイスを必要とする。
他の試行としては、事例参照型超解像を使用するビデオ圧縮のためのデータ・プルーニングが挙げられる。ビデオのパッチが入力ビデオから抽出され、クラスタリング法でグループ化され、代表的なパッチがパッチ・フレームに詰め込まれる。もとのビデオは縮小され、パッチ・フレームとともに、またはそれに加えて送信される。デコード側では、通常のビデオ・フレームが拡大され、低解像度のパッチがパッチ・ライブラリからのパッチにより置き換えられる。適切なパッチが利用可能である場合のみ置き換えが行われる。
ビデオ増強および伝送における課題に対処するために、人工知能(AI:artificial intelligence)を使用する試行もされてきた。例として、ビデオ・ソース側にて高精細度ビデオのダウンサンプリングが実行され、低精細度ビデオが得られる。低精細度ビデオは、既存のビデオ符号化モードで圧縮されてから伝送され、ビデオ・トラフィックを大きく削減する。受信側では、50%削減されたビデオ伝送帯域幅コストで、ユーザが低精細度ビデオを受信し、超解像度画像再構築方法に深層学習を応用することにより再構築して低精細度ビデオを高解像度ビデオに回復する。よって、ビデオ全体に対する圧縮および再構築は、顕著情報および非顕著情報の知識なしに実行される。
低帯域幅伝送用途におけるビデオの圧縮/エンコードおよび増強のための手法を開発する必要性が依然としてある。
一実施形態によれば、低帯域幅伝送のためにビデオ・ストリームをエンコードする、コンピュータに実装された方法は、高解像度ビデオ・ストリーム内の顕著データおよび非顕著データを特定するステップを含む。顕著データと非顕著データとが区分され、非顕著データは、より低い解像度に圧縮される。顕著データおよび圧縮された非顕著データは、低帯域幅伝送において伝送される。コンピュータに実装された方法は、有利には、非顕著データを圧縮する、複雑性がより低いプロセスを用いて、低帯域幅伝送において高解像度データを伝送することを可能にする。
一実施形態において、コンピュータに実装された方法は、非顕著データの圧縮を実行する前に非顕著データをエンコードするステップをさらに含む。エンコードは、データを低帯域幅での伝送に適したフォーマットにする。
一実施形態において、コンピュータに実装された方法は、顕著データおよび圧縮された非顕著データを伝送する前に非顕著データに比べてより低い圧縮比の顕著データをさらに含む。顕著データは、多くの場合、最も注意深く観られるデータであり、帯域幅の問題が理由でその高解像度形式で伝送されない場合は、非顕著データよりも弱い圧縮とすることで受信側での再構築を促進することができる。
一実施形態において、コンピュータに実装された方法は、機械学習モデルによりビデオ・ストリーム内の非顕著データおよび顕著データのうちの少なくとも一方を特定するステップをさらに含む。機械学習モデルの使用は、効率性の増大と、ドメイン知識を使用した顕著データおよび非顕著データの特定とをもたらす。
一実施形態において、機械学習モデルは敵対的生成ネットワーク(GAN:General Adversarial Network)であり、コンピュータに実装された方法は、以前記録されたビデオ・ストリームから非顕著特徴のデータを用いて、非顕著データを特定することを実行するようGAN機械学習モデルを訓練するステップをさらに含む。GAN機械学習モデルは、顕著データおよび非顕著データの正確な特定を実行する際に特に効果的である。
一実施形態において、コンピュータに実装された方法は、ビデオ・ストリームの顕著データおよび圧縮された非顕著データをユーザ・デバイスに伝送する前に、GAN機械学習モデルをユーザ・デバイスに提供するステップをさらに含む。ユーザは、GANモデルへのアクセスを得ることで、より低い解像度の非顕著データを高解像度の非顕著データに再構築する際、および顕著データと結合して高解像度ビデオを再構築するために、利点を有する。
一実施形態において、顕著データの特定は、ビデオ・ストリーム内のオブジェクトのドメイン固有特性を特定するステップを含む。特定のオブジェクトの特性は、顕著データを特定する速度および精度を増大させることができる。
一実施形態において、顕著データの特定は、顔認識またはオブジェクト認識のうちの1つ以上のためのドメイン固有人工知能(AI)モデルを適用するステップを含む。顔認識のためのAIモデルは、顕著データおよび非顕著データを特定する動作の効率性および速度を増大させる。
一実施形態において、ドメイン固有AIモデルの適用は、ビデオ・ストリームの残りの情報を非顕著データとして特定するステップを含む。
一実施形態において、1つ以上のオブジェクトのそれぞれ異なるビューを有する複数のビデオ・ストリームが受信され、顕著データと非顕著データとの特定および区分は、伝送されるそれぞれ異なる少なくとも2つのビューに対して個別に実行される。異なるカメラ・ビューは、より大きな柔軟性をユーザ・ビューにもたらし、ビデオ・データの特定および区分を個別に実行することは、効率性および特定のビューの選択を増大させる。
或る実施形態において、複数の解像度フォーマットのビデオ・データをデコードするコンピュータに実装された方法は、顕著データおよび非顕著データを有するビデオ・ストリームを受信するステップを含む。顕著データは、非顕著データに比べてより高い解像度フォーマットである。再構築が、解像度フォーマットを増大させるために非顕著データに対して実行される。顕著データと、再構築された非顕著データとが、顕著データのより高い解像度フォーマットのビデオ・ストリームを形成するために再結合される。デコードは、受信された圧縮後の非顕著データが、高解像度ビデオにおいて顕著データと結合されるようにその解像度を増大されることを可能にする。
一実施形態において、コンピュータに実装された方法は、以前記録されたビデオ・ストリームに基づき非顕著特徴を特定するように訓練された敵対的生成ネットワーク(GAN)機械学習モデルにアクセスするためのリンクまたはGAN機械学習モデルをロードするための実行可能コードのうちの1つ以上を受信するステップをさらに含む。非顕著データは、GAN機械学習モデルを使用して、増大した解像度で再構築され、GAN機械学習モデルは、高精細度解像度にビデオを再構築する際に増大した効率性を有する。
一実施形態において、受信されたビデオ・ストリームは、複数のビューポイントから捕捉された(captured)顕著データおよび非顕著データを含み、GAN機械学習モデルは、複数のビューポイントに基づき顕著データを特定するように訓練される。非顕著データは、複数のビューポイントに対して訓練されたGAN機械学習モデルを使用して顕著データのより高い解像度に再構築される。複数のビューポイントを有することができることには利点が、特にスポーツ・イベントではあり、GAN機械学習は、顕著データと非顕著データとを区別する効率性を増大させる。
一実施形態において、コンピュータに実装された方法は、それぞれのビューポイントごとに顕著データおよび非顕著データの複数の伝送を受信するステップと、選択に応答して表示される特定のビューポイントを再構築するステップとをさらに含む。異なるビューポイントの選択可能性は、データ視聴の増大した有用性を生み出す。
一実施形態において、コンピュータに実装された方法は、位置情報を1つ以上の登録済みユーザと共有するステップと、1つ以上の登録済みユーザにより捕捉された顕著データおよび非顕著データの選択可能なビューを受信するステップとをさらに含む。ユーザは、有利には、試合場、劇場などの中の種々のポジションからユーザ間でビューを共有できる。
実施形態において、低帯域幅伝送のためにビデオ・ストリームをエンコードするコンピューティング・デバイスは、プロセッサと、プロセッサに連結されたメモリとを含み、メモリは、ビデオ・ストリーム内の顕著データおよび非顕著データを特定することと、ビデオ・ストリームを顕著データと非顕著データとに区分することとを含む動作をプロセッサに実行させる命令を記憶する。非顕著データは、エンコードおよび圧縮され、顕著データおよび圧縮された非顕著データが伝送される。コンピュータ・デバイスは、有利には、複雑性がより低い動作を用いて非顕著データを圧縮し、低帯域幅伝送において高解像度データを伝送することを可能にする。処理能力および伝送に必要な帯域幅の節約が可能である。
一実施形態において、コンピューティング・デバイスは、メモリと通信する敵対的生成ネットワーク(GAN)機械学習モデルを含み、命令は、少なくとも非顕著データの特定を実行するために以前記録されたビデオ・ストリームに基づく非顕著特徴の訓練データを用いてGAN機械学習モデルを訓練することを含む追加の動作をプロセッサに実行させる。GAN機械学習モデルは、処理要件および能力要件が削減された、より効率的な動作を生み出す。
一実施形態において、コンピューティング・デバイスは顕著データの特定を含む追加の動作をプロセッサに実行させ、顔認識またはオブジェクト認識のうちの1つ以上のためのドメイン固有人工知能(AI)モデルを適用することを含む。顔認識またはオブジェクト認識におけるAIの使用は、顕著データおよび非顕著データの特定において増大した精度および効率性を提供する。
一実施形態において、コンピューティング・デバイスは、顕著データおよび非顕著データの異なるカメラ・ビューをそれぞれの受信デバイスに伝送することを含む追加の動作をプロセッサに実行させる追加の命令を含む。異なるカメラ・ビューは、捕捉されているイベントの異なるビューを提供することにより、関連する任意のユーザ・デバイスの効果を増大させる。
これらの特徴およびその他の特徴は、その例示の実施形態の以下の詳細な記載を添付の図面との関連で読むことで明らかになるであろう。
図面は、例示の実施形態のものである。図面は、すべての実施形態を示すものではない。他の実施形態が、追加で、または代わりに使用されてもよい。スペースを節約するため、またはより効果的な例示のために、明白または不必要であろう詳細事項が省略されていることがある。一部の実施形態は、追加のコンポーネントもしくはステップを用いて、もしくは示されているすべてのコンポーネントもしくはステップは用いずに、またはその両方で実施されてもよい。同じ数字が別々の図面に出てくる場合は、同じかまたは類似のコンポーネントまたはステップを指す。
概要
以下の詳細な説明では、関連する教示の完全な理解を提供するために、具体的な詳細が多数、例として記載される。なお、当然のことながら、本教示は、そうした詳細を用いずに実施されてもよい。他の場合には、本教示の側面を不必要にわかりにくくするのを避けるために、周知の方法、手順、コンポーネント、もしくは回路、またはそのいずれかの組み合わせは、詳細を伴わず、相対的に概略的に記載されている。
以下の詳細な説明では、関連する教示の完全な理解を提供するために、具体的な詳細が多数、例として記載される。なお、当然のことながら、本教示は、そうした詳細を用いずに実施されてもよい。他の場合には、本教示の側面を不必要にわかりにくくするのを避けるために、周知の方法、手順、コンポーネント、もしくは回路、またはそのいずれかの組み合わせは、詳細を伴わず、相対的に概略的に記載されている。
本開示において、「低帯域幅」という用語は、約2kbpsでのワイヤレス通信(例えば1G)に対応する。「高帯域幅レンジ」は、1Gbpsまでまたはそれ以上の有線/ワイヤレス通信(例えばEthernetまたは5G)に対応する。本願明細書におけるビデオ解像度への言及は、低解像度の場合はQVGA(240×320ピクセル)、高解像度の場合は4K(3840×2160ピクセル)に対応する。
本開示のコンピュータに実装された方法およびデバイスは、特に、顕著データを圧縮せず、且つユーザ側で品質の損失を生じずに、低帯域幅伝送により高精細度ビデオ・データの顕著データの部分を伝送することによる、画像処理およびビデオ伝送の分野における改善を提供する。非顕著データを圧縮して、伝送される顕著データをその高精細度形式のままにすることにより、ビデオ・データの効率性と品質が高まる。本開示のシステムおよび方法は、複雑性がより低く、その結果、伝送のためにビデオ・ストリーム全体を圧縮するのと比較して電力使用量が削減され、必要とされる処理能力が低下する。ビデオ品質には、従来のビデオ・ストリーム全体の圧縮で生じるであろう形の損失が生じない。本開示の教示を使用すると、より少ないデータが圧縮および展開されるので、時間の節約も実現される。
例として、本開示の特定の例示の実施形態において、ドメイン固有情報(例えば顕著情報)は、エンド・ユーザに対する関連性が高く、したがって、そのもとの解像度に維持される。ビデオの他の情報は、圧縮され、伝送され、ユーザ側で再構築される。本開示は、ドメイン知識なしにパッチを抽出して当該のパッチをビデオのアップサンプリングに使用する方法に比べた改善である。
アーキテクチャの例
図1は、例示の実施形態に従う、低帯域幅伝送のためにビデオ・ストリームをエンコードするシステムのアーキテクチャの概要100を示す。
図1は、例示の実施形態に従う、低帯域幅伝送のためにビデオ・ストリームをエンコードするシステムのアーキテクチャの概要100を示す。
図1は、本開示による、低帯域幅伝送のために高精細度データをエンコードするサーバ側105を示す。高精細度ビデオ捕捉110は、典型的にはカメラだが、イベントが以前記録されていれば、捕捉されたビデオは、ストレージ・デバイスまたはビデオ・プレーヤにより提供されることが可能であろう。115にて、データを顕著データ120と非顕著データ125とに区分するデータ区分が発生する。顕著データは、関心対象のオブジェクト、またはユーザがマークした関心対象の領域など、ドメイン関連データを含むことができる。顕著データはさらに、動いているオブジェクトであってもよい。例として、サッカー競技では、少なくとも選手およびボールが顕著データとみなされると考えられ、それに対して、観客および試合場は非顕著データとみなされると考えられる。非顕著データは、限定はされないが、例えばビデオ・フレーム内の静的情報、観客シーン、背景など、重要性の低いデータである。エンコーダ130は、非顕著データに対してエンコードおよび圧縮を実行するように構成されている。
その結果、エンコードおよび圧縮された非顕著データは、特に圧縮プロセスが理由で、今度は低解像度非顕著データとなる。一方、この例示の実施形態における顕著データは、高解像度顕著データの形式のままとなる。よって、顕著データには、データが圧縮されると発生する可能性がある圧縮損失が生じず、視聴者は典型的には顕著データを観て背景データには焦点を合わせないことが多いので、知覚されるビデオ品質は高いままとなる。非顕著データを圧縮することによる削減は、低帯域幅ストリーミングを使用してビデオを伝送するのに十分である。さらに多くの場合、(図2および図3に示されているように)非顕著データは視野の大部分を占める傾向があり、図1に示されているものなどの本開示のサーバによるエンコードおよび圧縮は、低帯域幅ストリーミングにより高精細度ビデオを伝送する効率的な形を提供する。本願明細書で上述されたサーバ側のエンコードおよび圧縮は、従来の高精細度ビデオの圧縮に必要な大量の計算リソースを要求しない。
さらに図1を参照すると、ユーザ側155は、低帯域幅伝送140を受信し、デコードおよび再構築を実行する。単一のカメラ160を用いて捕捉された単一ビューの伝送において、ユーザ側デバイスは、ビデオ・ストリームをより低い解像度フォーマットの非顕著データおよびより高い解像度フォーマットの顕著データ(顕著データは伝送のためにエンコードされたが圧縮されていないと仮定)にデコードすることになる。非顕著データは、顕著データのより高い解像度フォーマットに再構築される。顕著データと、再構築された非顕著データとが、顕著データのより高い解像度フォーマットのビデオ・ストリーム185を形成するために結合され、それが出力される。
特定の例示の実施形態において、人工知能(AI)は、サーバ側もしくはユーザ側またはその両方で役割を有する。サーバ側では、顕著データおよび非顕著データを特定(例えばデータ区分)するために機械学習モデルが訓練される。機械学習モデルは、非顕著情報の以前記録されたビデオ/画像を用いて訓練可能である。例として、サッカー競技がストリーミングされる場合、観客、試合場、グラウンドなどの以前の記録を、顕著データを特定するよう機械学習モデルを訓練するだけでなく、捕捉されたどのビデオ・データが非顕著データなのかについて機械学習モデルを訓練するために使用可能である。顕著データを検出する1つの形は、動きを検出することによる。例として、サッカー競技では、選手、サッカー・ボール、および審判が通常は動いている。
顕著データは、ドメイン固有特性(例えばサッカー競技に出ている選手)に対応し、これはユーザ・インターフェース(例えばビデオでのハイライト/アノテーション)を介してシステムに提供されることが可能であり、または顔/オブジェクト認識のためのドメイン固有AIモデルを介して自動検出されることが可能である。ビデオ内の残りの情報は、非顕著または背景とみなされる。具体的にはサーバ側で、敵対的生成ネットワーク(GAN)の機械学習モデルが、非顕著特徴(例えば試合場の観客)を検出するよう訓練される。
さらにユーザ側155に関し、例示の実施形態では、ユーザがシステムに登録するとシステムは、非顕著特徴を後で再構築できるように、訓練されたモデル(GAN)をユーザに送信する。ユーザ側155には、GANを受信して動作させるためのストレージ・スペースまたは処理能力がないかもしれないので、ユーザがGANにアクセスできる別の形は、リンクを用いることである。
引き続き図1を参照すると、複数のカメラ160を、深層学習170のプロセスに関連するマルチビュー顕著性増強165のために使用可能であることが示されている。マルチビュー顕著性増強165は、複数のビューポイントの顕著情報を結合し、顕著データの画像品質を改善するようAIモデル(深層学習モデル170)を訓練することにより生じる。さらに、カメラ180の複数のビューポイントから収集されたデータが、低解像度から高解像度への画像の再構築を改善するように深層学習モデル170を訓練するために結合されることも可能である。
図2は、例示の実施形態に従う、顕著データが特定される第1のスポーツ・イベントのビデオのデータ区分動作200を示す。図2は、サッカー競技の画像205を示し、理解を容易にするために選手215が丸で囲まれている。この事例において、選手は顕著データであり、背景の観客225および試合場(ならびにすべての旗および看板)は非顕著データである。ウォッシュアウト画像255に示されているように、顕著データ260がデータ区分のために特定される。図1の記載に従い、顕著データは、その高精細度フォーマットでの伝送のために抽出され、それに対して背景データは、エンコードおよび圧縮にかけられる。顕著データおよび非顕著データは、低帯域幅伝送を介して1つ以上のユーザ・デバイスに伝送される。ここで、非顕著データ225は、選手215(顕著データ)と比較して画像の大部分であることがわかり、したがって、非顕著データのエンコードおよび圧縮は、画像のデータ・サイズの大幅な削減をもたらす。
図3は、例示の実施形態に従う、顕著データが特定される第2のスポーツ・イベントのビデオのデータ区分動作300を示す。図3は、テニス競技を305に示し、二人の選手315が丸で囲まれている。ウォッシュアウト・ビュー355において、二人の選手はフォーマットを変更した伝送のために抽出された顕著データであり、それに対して、画像の残りの部分は非顕著データ365である。非顕著データは、低伝送帯域幅での伝送のためにエンコードおよび圧縮される。
図4Aは、例示の実施形態に従う、複数のビューポイント400Aから顕著データを検出する動作を示す。第1のビューポイント(viewpoint)405、第2のビューポイント410、および第3のビューポイント415の3つのビューポイントがあることが示されている。第1のビューポイント405は、第2のビューポイント410に対して約45度の角度で見え、第3のビューポイント415は、第2のビューポイント410に対して約90度の角度で見える。それぞれのカメラ406、407、408が、各々ビューポイント405、410、415を捕捉した。各ビューポイントの顕著データが丸で囲まれている。下の435、445、および450にあるのは、圧縮される非顕著データである。
図4Bは、例示の実施形態に従う、図4Aにおいて検出された顕著データの複数のビューポイントの、ユーザ側のデコードおよび再構築400Bを示す。顕著ポイント455が図4Bに示されている。顕著データ455(図4Bの例の6つのオブジェクト)の量は、図4Aに示されたのと同じであることがわかる。マルチビュー顕著性増強は、顕著データを用いてAIモデル(例えば深層学習460)を訓練することにより生じ、オブジェクトの異なるビュー465が出力されることが示されている。図4Bはさらに、マルチビュー背景再構築のために深層学習460がどのように使用されるかを示す。ビュー470、475、480が深層学習460に入力され、結果として生じる、再構築に基づく画像485が示されている。
図5は、例示の実施形態に従う、マルチビュー顕著性増強を含むユーザ側のデコードを示す。図5は、複数のカメラ・ビューの伝送および共有のために構成された例示の実施形態である。サーバ505ならびに3つのユーザ側デバイス510、515、および520が示されている。当然のことながら、ユーザ側デバイス510、515、520の数は、示されているよりも多くすること、または少なくすることができる。ユーザ側デバイスは、同じイベント中に異なる位置にあってもよい。各ユーザ側デバイス510、515、520は、サーバ505とも、相互にも通信することができる。この例示の実施形態において、ユーザ側デバイス510、515、520は、Wi-Fi(登録商標)またはBluetooth(登録商標)を使用して相互に通信し、セルラ(4G)を使用してサーバ505と通信することができる。図5においてサーバ505は、1つ以上のビューを各ユーザに送信し、ユーザ側デバイスは、ビデオの再構築を改善するために複数のビューをローカルで共有する。複数のカメラ・ビューポイントから収集されたデータを、低解像度から高解像度への非顕著画像の再構築を改善するようにAIモデルを訓練するために、結合可能である。さらに、異なるカメラ・ビューポイントからの顕著情報を結合し、顕著データの画像品質を改善するようにAIモデルを訓練することにより、顕著画像はその品質を改善されることが可能である。
ユーザ側デバイス510、515、および520は、相互に発見して、ネゴシエーションを通して高帯域幅ネットワークにおいて利用可能なチャンネルを確立することができる(例えばWi-Fi(登録商標)、Bluetooth(登録商標))。さらにユーザ側デバイスは、任意のビューを表示することができ、例えば、或る位置に地理的に近接しているユーザは、他のユーザ側デバイスの任意のカメラを選んで任意の所望のビューを楽しむことができる。サーバは、ユーザの移動性およびネットワーク帯域幅の利用可能性に基づきユーザ・グループを動的に作成してもよい。
プロセスの例
アーキテクチャの例の概要を前述したが、以下ではプロセスの例の概略的な説明を検討することが役に立つであろう。その目的で、図1~図5に関連して、図6、図7、および図8はフローチャート600、700、および800を示し、例示の実施形態に従う、コンピュータに実装された方法の様々な側面を示す。プロセス600、700、および800は各々論理的な順序のブロックの集合として示されており、ハードウェア、ソフトウェア、またはその組み合わせにおいて実装可能な一連の動作を表現する。ソフトウェアの文脈では、各ブロックは、1つ以上のプロセッサにより実行されると記載された動作を実行するコンピュータ実行可能命令を表現する。一般に、コンピュータ実行可能命令は、関数を実行するかまたは抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、および同様のものを含んでもよい。各プロセスにおいて、動作が記載される順序は、限定として解釈されるよう意図されてはおらず、記載された任意の数のブロックが、任意の順序で結合されること、もしくはプロセスを実装するために並列実行されること、またはその両方が可能である。
アーキテクチャの例の概要を前述したが、以下ではプロセスの例の概略的な説明を検討することが役に立つであろう。その目的で、図1~図5に関連して、図6、図7、および図8はフローチャート600、700、および800を示し、例示の実施形態に従う、コンピュータに実装された方法の様々な側面を示す。プロセス600、700、および800は各々論理的な順序のブロックの集合として示されており、ハードウェア、ソフトウェア、またはその組み合わせにおいて実装可能な一連の動作を表現する。ソフトウェアの文脈では、各ブロックは、1つ以上のプロセッサにより実行されると記載された動作を実行するコンピュータ実行可能命令を表現する。一般に、コンピュータ実行可能命令は、関数を実行するかまたは抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、および同様のものを含んでもよい。各プロセスにおいて、動作が記載される順序は、限定として解釈されるよう意図されてはおらず、記載された任意の数のブロックが、任意の順序で結合されること、もしくはプロセスを実装するために並列実行されること、またはその両方が可能である。
図6は、例示される実施形態に従う、低帯域幅伝送のためにビデオ・ストリームをエンコードする、コンピュータに実装された方法を示すフローチャート600である。動作605にて、顕著データが高解像度ビデオ・ストリームにおいて特定される。図1、図2、および図3に示されているように、高解像度ビデオは、スポーツ・イベント、音楽イベントなどを含むが、限定はされない。
動作610にて、顕著データと非顕著データとのデータ区分が実行される。AIモデルを、顕著データを構成する画像内のオブジェクトを特定するために使用可能である。非限定的な例として、顕著データは、図2および図3に関して説明された人々、場所、オブジェクトなどとすることができるであろう。
動作615にて非顕著データは、エンコードされ、捕捉された高解像度ビデオにおけるのに比べてより低い解像度に圧縮される。顕著データは圧縮されず、エンコードされてもよい。極めて低帯域幅のシナリオ(例えば約2kbps未満の帯域幅でのワイヤレス通信を使用する、人々または車両のリモート・ビデオ監視)では、顕著データも圧縮可能であると考えられるが、非顕著データに比べてより低い圧縮比とする。圧縮は画像品質に影響する可能性があり、それが、この例示の実施形態において非顕著データは圧縮されるが顕著データは圧縮されない理由である。
620にて、圧縮された非顕著データおよび顕著データがユーザ・デバイスに伝送される。図1も、サーバ側プロセスの例の概要を示している。
図7は、例示される実施形態に従う、低帯域幅伝送における高精細度ビデオのビデオ・ストリームをエンコードする、コンピュータに実装された方法のための機械学習モデルの使用を示すフローチャートである。
動作705にて、敵対的生成ネットワーク(GAN)機械学習モデルが、以前記録された非顕著特徴のデータを用いて、非顕著情報の特定を支援するように訓練される。非顕著情報は、背景情報もしくは静的情報またはその両方を含んでもよい。
動作710にて、顔認識またはオブジェクト認識のうちの1つ以上のためのドメイン固有機械学習モデルが、顕著データを特定するためにビデオ・データに適用される。顔認識は、例として、テニス競技のテニス選手を特定するために使用可能である。オブジェクト認識は、テニス・ラケットおよびテニス・ボールとすることができる。
動作720にて、ビデオ・ストリーム内の非顕著データおよび顕著データのうちの一方が、それぞれの機械学習モデルの動作により特定される。非顕著データは、エンコードおよび圧縮されることが可能であり、顕著データは、伝送に向けて準備されることが可能である。
図8は、例示の実施形態に従う、デコードおよび再構築のための動作を示すフローチャートである。
動作805にて、ユーザ・デバイス(図1参照)は、高解像度フォーマットの顕著データおよび低解像度フォーマットの非顕著データを含むビデオ・データ・ストリームを受信する。
動作810にて、ビデオ・ストリームがデコードおよび展開され、ビデオ・データが非顕著データと顕著データとに区分される。GANモデルなどのAIモデルまたは深層学習が、データを特定および区分するために使用されてもよい。
動作815にて、非顕著データが顕著データのより高い解像度フォーマットに再構築される。この場合もやはり、ユーザ側デバイスは、深層学習またはGANを使用してこのプロセスを支援してもよい。再構築を支援するために深層学習モデルにより使用可能な複数のカメラ・ビューがあってもよく、またはなくてもよい。
動作820にて、顕著データのより高い解像度フォーマットのビデオ・ストリームを形成するために、顕著データと再構築された非顕著データとが再結合される。このように、非顕著情報がエンコードおよび圧縮されるため、高精細度の顕著ビデオ・データは圧縮されることなく低帯域幅を使用してユーザ側により受信可能である。
図9は、コンピュータ・ハードウェア・プラットフォームの機能ブロック図の例示900を示す。具体的には図9は、図6、図7、および図8に示された方法を実装するために使用され得る、特別に構成されたネットワークまたはホスト・コンピュータ・プラットフォーム900を示す。
コンピュータ・プラットフォーム900は、システム・バス902に接続されている、中央処理ユニット(CPU:central processing unit)904、ハード・ディスク・ドライブ(HDD:hard disk drive)906、ランダム・アクセス・メモリ(RAM:random access memory)もしくは読み取り専用メモリ(ROM:read-only memory)またはその両方908、キーボード910、マウス912、ディスプレイ914、ならびに通信インターフェース916を含んでもよい。HDD906は、データ・ストアを含むことができる。
一実施形態において、HDD906はプログラムを記憶することを含む能力を有し、そのプログラムは、本願明細書において上述された形で、説明のように、低帯域幅伝送のためのエンコード・モジュール920などの様々なプロセスを実行でき、全般的なプロセスを管理するように構成されている。
データ区分モジュール925は、高解像度ビデオ内の特定された顕著データと非顕著データとを区分するように構成される。データ区分モジュールは、敵対的生成ネットワーク(GAN)機械学習モデルなどの機械学習モデルを含むことができる。
圧縮モジュール930は、顕著データとともに伝送するために特定された非顕著データを圧縮する。顕著データは、その高解像度形式のままであってもよく、顕著データおよび非顕著データの両方をともに1つ以上のユーザに伝送可能である。非顕著データの圧縮は、非顕著データの解像度をより低い解像度に削減する。顕著データに比べて著しく多くの非顕著データがあることは多いので、非顕著データのみを圧縮することで、低帯域幅伝送が生じることができるようにビデオ・データのサイズが削減される。ただし、顕著データも、同じ圧縮比または非顕著データに比べてより低い圧縮比で、圧縮モジュール930により圧縮されてもよい。
機械学習モデル(MLM:machine learning model)モジュール935は、顕著データおよび非顕著データのうちの1つ以上を特定するように構成される。本開示は、本願明細書において上述のとおり、様々なタイプの機械学習モジュールに応用可能であるが、例示の実施形態に従い敵対的生成ネットワーク(GAN)機械学習モデルが使用される。MLMモジュール935の訓練は、ビデオ・ストリームに似た非顕著データがある、以前記録されたシーンの訓練データ945を用いて実行可能である。例として、ライブ・スポーツ・イベントのストリーミングにおいて、サッカー競技、バスケットボールの試合、テニス競技での観客の以前の画像を、機械学習モデルを訓練するために使用可能である。例としてテニス競技では、顕著データは、少なくとも二人の選手およびそのラケット、テニス・ボール、および場合によってはネットとなるであろう。残りは、低帯域幅伝送における伝送のためより低い解像度に圧縮可能な非顕著データとすることができる。当然のことながら、深層学習などの他のタイプの機械学習も、受信された画像のストリームをユーザ側でもとの高解像度に再構築するために使用可能である。
デコード940は、より低い解像度フォーマットの非顕著データおよびより高い解像度フォーマットの顕著データにビデオ・ストリームをデコードするように構成される。
再構築モジュール950は、顕著データのより高い解像度フォーマットに非顕著データを再構築し、顕著データと再構築された非顕著データとを結合して、顕著データのより高い解像度フォーマットのビデオ・ストリームを形成するように構成されている。非顕著データを顕著データのより高い解像度に再構築し、再構築された非顕著データを顕著データと結合するために、機械学習が例示の実施形態において使用される。複数のカメラ・ビューのケースでは、それぞれのビューポイントごとに顕著データおよび非顕著データの複数の伝送が受信される。デコード後、再構築モジュール950は、表示のために特定のビューポイントまたは複数のビューポイントを再構築する。特定のビューポイントの構築は、選択に応答して実行されてもよい。ビューポイントは、再構築後に表示されなくてもよく、将来の選択のために記憶されてもよい。
クラウド・プラットフォームの例
上述のとおり、高精細度ビデオ・データの低帯域幅伝送に関する機能は、クラウドを含んでもよい。当然のことながら、本開示は、本願明細書において後述されるとおりクラウド・コンピューティングの詳細な記載を含むものの、本願明細書に記載される教示の実装はクラウド・コンピューティング環境に限定されない。むしろ、本開示の実施形態は、現在周知の、または後に開発される、ほかの任意のタイプのコンピューティング環境に関連して実装することができる。
上述のとおり、高精細度ビデオ・データの低帯域幅伝送に関する機能は、クラウドを含んでもよい。当然のことながら、本開示は、本願明細書において後述されるとおりクラウド・コンピューティングの詳細な記載を含むものの、本願明細書に記載される教示の実装はクラウド・コンピューティング環境に限定されない。むしろ、本開示の実施形態は、現在周知の、または後に開発される、ほかの任意のタイプのコンピューティング環境に関連して実装することができる。
クラウド・コンピューティングは、最小限の管理作業またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースできる構成可能なコンピューティング・リソース(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス)の共有プールに対する、オンデマンドの便利なネットワーク・アクセスを実現する、サービス提供のモデルである。このクラウド・モデルは、少なくとも5つの特性と、少なくとも3つのサービス・モデルと、少なくとも4つのデプロイ・モデルとを含み得る。
特性は以下のとおりである。
オンデマンド・セルフサービス:クラウド消費者は、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を、必要に応じて自動的に、サービスのプロバイダとの人的対話の必要なく一方的にプロビジョニングできる。
オンデマンド・セルフサービス:クラウド消費者は、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を、必要に応じて自動的に、サービスのプロバイダとの人的対話の必要なく一方的にプロビジョニングできる。
広範なネットワーク・アクセス:各能力はネットワーク上で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム(例えばモバイル電話、ラップトップ、およびPDA(personal digital assistant:携帯情報端末))による使用を促進する標準のメカニズムを通してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを使用して複数の消費者にサービスを提供するようプールされ、種々の物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされる。一般に、消費者は、提供されるリソースの正確な位置についての制御権または知識を有しないという点で、非位置依存の感覚があるが、より高い抽象化レベルでは位置(例えば国、州、またはデータセンター)を指定できることもある。
迅速な伸縮性:各能力は、一部のケースでは自動的に、迅速且つ伸縮自在にプロビジョニングされ素早くスケール・アウトすること、および迅速にリリースされ素早くスケール・インすることができる。多くの場合、消費者には、プロビジョニングに利用可能な各能力は無制限であるように見え、任意の量をいつでも購入できる。
測定されるサービス:クラウド・システムは、サービスのタイプに適した或る抽象化レベル(例えばストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)での計測能力を活用することによって、リソースの使用を自動的に制御および最適化する。リソース使用量は、監視、制御、およびレポート可能であり、利用されるサービスのプロバイダおよび消費者の双方に透明性が提供される。
サービス・モデルは以下のとおりである。
ソフトウェア・アズ・ア・サービス(SaaS:Software as a Service):消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されているプロバイダのアプリケーションの使用である。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えばウェブ・ベースの電子メール)を通して様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージを含む基礎をなすクラウド・インフラストラクチャも、個別のアプリケーションの能力さえも、管理または制御しないが、限定的なユーザ別のアプリケーション構成設定は例外とされることもある。
ソフトウェア・アズ・ア・サービス(SaaS:Software as a Service):消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されているプロバイダのアプリケーションの使用である。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えばウェブ・ベースの電子メール)を通して様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージを含む基礎をなすクラウド・インフラストラクチャも、個別のアプリケーションの能力さえも、管理または制御しないが、限定的なユーザ別のアプリケーション構成設定は例外とされることもある。
プラットフォーム・アズ・ア・サービス(PaaS:Platform as a Service):消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成または入手したアプリケーションの、クラウド・インフラストラクチャ上へのデプロイである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎をなすクラウド・インフラストラクチャの管理または制御は行わないが、デプロイされたアプリケーション、さらに場合によってはアプリケーション・ホスティング環境の構成を制御する。
インフラストラクチャ・アズ・ア・サービス(IaaS:Infrastructure as a Service):消費者に提供される能力は、処理、ストレージ、ネットワーク、およびその他基本的なコンピューティング・リソースのプロビジョニングであり、消費者はそこで、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし実行することができる。消費者は、基礎をなすクラウド・インフラストラクチャの管理または制御は行わないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては、選ばれたネットワーキング・コンポーネント(例えばホスト・ファイアウォール)を限定的に制御する。
デプロイ・モデルは以下のとおりである。
プライベート・クラウド:クラウド・インフラストラクチャは、1つの組織のみのために運用される。組織またはサード・パーティによって管理可能であり、構内または構外に存在し得る。
プライベート・クラウド:クラウド・インフラストラクチャは、1つの組織のみのために運用される。組織またはサード・パーティによって管理可能であり、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有される関心事(例えばミッション、セキュリティ要件、ポリシ、およびコンプライアンス意識)を有する特定のコミュニティをサポートする。組織またはサード・パーティによって管理可能であり、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、公衆または大規模業界団体に利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合であり、各クラウドは一意のエンティティのままであるが、データおよびアプリケーションの移植性(例えばクラウド間のロード・バランシングのためのクラウド・バースト)を実現する標準または専有技術によってバインドされる。
クラウド・コンピューティング環境は、サービス指向であり、ステートレス性、疎結合性、モジュール性、および意味的相互運用性に焦点を合わせる。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
以下、図10を参照すると、クラウド・コンピューティングを利用する例示のクラウド・コンピューティング環境1000が示されている。図のように、クラウド・コンピューティング環境1000は、1つ以上のクラウド・コンピューティング・ノード1010を有するクラウド1050を含み、例えば携帯情報端末(PDA)または携帯電話1054A、デスクトップ・コンピュータ1054B、ラップトップ・コンピュータ1054C、もしくは自動車用コンピュータ・システム1054N、またはそのいずれかの組み合わせなど、クラウド消費者により使用されるローカル・コンピューティング・デバイスが、クラウド・コンピューティング・ノード1010と通信できる。ノード1010は、相互に通信してもよい。ノード1010は、上述のプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはその組み合わせなどの1つ以上のネットワークにおいて物理的または仮想的にグループ化され得る(図示せず)。これにより、クラウド・コンピューティング環境1000は、インフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはそのいずれかの組み合わせをサービスとして提供することができ、それらのためにクラウド消費者がローカル・コンピューティング・デバイス上にリソースを保持する必要はない。当然のことながら、図10に示されているコンピューティング・デバイス1054A~Nのタイプは、例示のみを意図しており、コンピューティング・ノード1010およびクラウド・コンピューティング環境1050は、任意のタイプのネットワークもしくはネットワーク・アドレス指定可能な接続(例えばウェブ・ブラウザを使用)またはその両方によって任意のタイプのコンピュータ化デバイスと通信できる。
以下、図11を参照すると、クラウド・コンピューティング環境1000(図10)により提供される機能抽象化層1100のセットが示されている。図11に示されているコンポーネント、層、および機能は、例示のみを意図しており、本開示の実施形態はそれに限定されないことをあらかじめ理解されたい。示されているように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層1160は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム1161、RISC(Reduced Instruction Set Computer(縮小命令セット・コンピュータ))アーキテクチャ・ベースのサーバ1162、サーバ1163、ブレード・サーバ1164、ストレージ・デバイス1165、ならびにネットワークおよびネットワーキング・コンポーネント1166が含まれる。一部の実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア1167およびデータベース・ソフトウェア1168を含む。
仮想化層1170は、仮想サーバ1171、仮想ストレージ1172、仮想プライベート・ネットワークを含む仮想ネットワーク1173、仮想アプリケーションおよびオペレーティング・システム1174、ならびに仮想クライアント1175を例とする仮想エンティティが提供され得る、抽象化層を提供する。
一例において、管理層1180は、後述の機能を提供してもよい。リソース・プロビジョニング1181は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよびその他のリソースの動的な調達を提供する。計測および価格決定1182は、クラウド・コンピューティング環境内でリソースが利用されるときのコストの追跡と、こうしたリソースの消費に対する請求またはインボイスの作成とを提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド消費者およびタスクのアイデンティティ確認、ならびにデータおよびその他のリソースの保護を提供する。ユーザ・ポータル1183は、消費者およびシステム管理者に、クラウド・コンピューティング環境に対するアクセスを提供する。サービス・レベル管理1184は、必要なサービス・レベルが満たされるようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意(SLA:Service Level Agreement)計画および達成1185は、SLAに従い将来の要求が予想されるクラウド・コンピューティング・リソースの事前準備および調達を提供する。
ワークロード層1190は、クラウド・コンピューティング環境が利用される目的となり得る機能性の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション1191、ソフトウェア開発およびライフサイクル管理1192、仮想教室教育配信1193、データ解析処理1194、トランザクション処理1195、ならびに本願明細書において説明されたとおり顕著データおよび非顕著データを特定し低帯域幅伝送のために高解像度ビデオをエンコードするように構成された、データ特定およびエンコード・モジュール1196を含む。
結論
本教示の様々な実施形態の記載は、例示のために示されたものであるが、包括的であることも、開示された実施形態に限定されることも意図していない。当業者には、記載された実施形態の範囲から逸脱することのない多数の変更および変形が明らかであろう。本願明細書で使用された用語は、実施形態の原理、実際の応用、もしくは市場にある技術に比べた技術的改善を最もよく説明するよう、または当業者が本願明細書に開示された実施形態を理解できるよう選ばれた。
本教示の様々な実施形態の記載は、例示のために示されたものであるが、包括的であることも、開示された実施形態に限定されることも意図していない。当業者には、記載された実施形態の範囲から逸脱することのない多数の変更および変形が明らかであろう。本願明細書で使用された用語は、実施形態の原理、実際の応用、もしくは市場にある技術に比べた技術的改善を最もよく説明するよう、または当業者が本願明細書に開示された実施形態を理解できるよう選ばれた。
前述のものは、最良の状態もしくはその他の例、またはその両方とみなされるものを記載しているが、当然のことながら、そこには様々な変更が加えられてもよく、本願明細書において開示された主題は様々な形態および例において実装されてもよく、本教示は多数の用途に応用されてもよく、その一部のみが本願明細書には記載された。添付の特許請求の範囲により、本教示の真の範囲内に入るあらゆる応用、変更、および変形を特許請求することが意図されている。
本願明細書において説明されたコンポーネント、ステップ、特徴、目的、メリット、および利点は、単なる例である。それら、またはそれらに関する説明のいずれも、保護の範囲を限定するよう意図されてはいない。本願明細書において様々な利点が説明されたが、当然のことながら、すべての実施形態が必ずしもすべての利点を含むとは限らない。別段の記載がない限り、添付の特許請求の範囲を含め、本明細書に記載されているすべての測定値、値、評価、ポジション、規模、サイズ、およびその他明細はおおよそであり、厳密なものではない。それらは、関係する機能、および関連する技術において通例のものに従う、合理的な範囲を有するものとする。
その他多数の実施形態も意図されている。これらは、より少数の、追加の、もしくは異なる、またはそのいずれかの組み合わせのコンポーネント、ステップ、特徴、目的、メリット、および利点を有する実施形態を含む。これらはさらに、コンポーネントもしくはステップまたはその両方が別様に配置もしくは順序づけまたはその両方をされた実施形態を含む。
フローチャート、および本願明細書の各図面の図は、本開示の様々な実施形態による考えられる実装のアーキテクチャ、機能性、および動作を示す。
前述の事項は、例示的実施形態に関連して記載されたが、当然のことながら、「exemplary(例示的)」という用語は、最良または最適ではなく単なる例として意図されている。直前に記載した以外の記載または例示事項のいずれも、特許請求の範囲にそれが列挙されているかどうかにかかわらず、いずれのコンポーネント、ステップ、特徴、目的、メリット、利点、または等価物の公衆への提供も生じるよう意図されてはおらず、そのように解釈されてもならない。
当然のことながら、本願明細書で使用される用語および表現は、本願明細書に別途特定の意味が記載されている場合を除き、かかる用語および表現の対応するそれぞれの調査および研究分野に関してその用語および表現に与えられる通常の意味を有する。第1および第2および同様のものなどの関係語は、1つのエンティティまたはアクションを別のものから区別するためだけに使用されることもあり、必ずしもそのようなエンティティまたはアクション間に何かそうした実際の関係または順序があることを要求または示唆するものではない。「comprises(含む)」、「comprising(含んでいる)」という用語、またはこのほかその任意の変形は、非排他的な包含を対象とするものとし、構成要素のリストを含むプロセス、方法、物品、または装置は、当該の構成要素のみを含むのではなく、明示的に列挙されていない、またはかかるプロセス、方法、物品、もしくは装置に固有でないほかの構成要素を含んでもよい。「a(或る)」または「an(或る)」が前につく構成要素は、さらなる制約なしに、その構成要素を含むプロセス、方法、物品、または装置内に同一の構成要素が追加で存在することを排除しない。
読者が技術的な開示の性質を迅速に確認できるように、本開示の要約が提供される。これは、特許請求の範囲に記載の範囲または意味を解釈または限定するために使用されないという理解のもとで提示される。さらに、前述の発明を実施するための形態において、本開示を簡素化する目的で様々な実施形態において様々な特徴がグループ化されていることがわかる。開示のこの方法は、特許請求される実施形態が各請求項に明示的に記載されるよりも多くの特徴を有するとの意図を反映したものであるとは解釈されてはならない。むしろ、添付の特許請求の範囲が示すように、本発明の主題は開示された単一の実施形態のすべての特徴より少ない特徴にある。よって、以下の特許請求の範囲は、これにより発明を実施するための形態に組み込まれ、各請求項は別々に特許請求される主題として自立している。
Claims (21)
- 低帯域幅伝送における高精細度ビデオのビデオ・ストリームをエンコードする、コンピュータに実装された方法であって、前記方法は、
高解像度ビデオ・ストリーム内の顕著データおよび非顕著データを特定するステップと、
前記顕著データと前記非顕著データとを区分するステップと、
前記非顕著データをより低い解像度に圧縮するステップと、
前記顕著データおよび圧縮された前記非顕著データを伝送するステップと、
を含む、コンピュータに実装された方法。 - 前記非顕著データの前記圧縮を実行する前に前記非顕著データをエンコードするステップをさらに含む、請求項1に記載のコンピュータに実装された方法。
- 前記顕著データおよび圧縮された前記非顕著データを伝送する前に前記非顕著データに比べてより低い圧縮比で前記顕著データを圧縮するステップをさらに含む、請求項1に記載のコンピュータに実装された方法。
- 前記ビデオ・ストリーム内の前記非顕著データおよび前記顕著データのうちの少なくとも一方を、機械学習モデルにより特定するステップをさらに含む、請求項1に記載のコンピュータに実装された方法。
- 前記機械学習モデルは、敵対的生成ネットワーク(GAN)機械学習モデルを含み、前記方法は、
前記非顕著データを特定するために、以前記録されたビデオ・ストリームからの1つ以上の非顕著特徴のデータを用いて、前記GAN機械学習モデルを訓練するステップ
をさらに含む、請求項4に記載のコンピュータに実装された方法。 - 前記ビデオ・ストリームの前記顕著データおよび圧縮された前記非顕著データをユーザ・デバイスに伝送する前に、前記GAN機械学習モデルにアクセスするためのリンクまたは前記GAN機械学習モデルを実行するためのコードのうちの1つ以上を、前記ユーザ・デバイスに提供するステップをさらに含む、請求項5に記載のコンピュータに実装された方法。
- 前記顕著データの前記特定は、前記ビデオ・ストリーム内のオブジェクトの1つ以上のドメイン固有特性を特定するステップを含む、請求項1に記載のコンピュータに実装された方法。
- 前記顕著データの前記特定は、顔認識またはオブジェクト認識のうちの1つ以上のためのドメイン固有人工知能(AI)モデルを適用するステップを含む、請求項1に記載のコンピュータに実装された方法。
- 前記ドメイン固有AIモデルの前記適用は、前記ビデオ・ストリームの残りの情報を前記非顕著データとして特定するステップをさらに含む、請求項8に記載のコンピュータに実装された方法。
- 前記方法は、複数のビデオ・ストリームを受信するステップをさらに含み、各ビデオ・ストリームは、1つ以上のオブジェクトのそれぞれ異なるビューを有し、前記顕著データおよび非顕著データの前記特定および区分は、伝送されるそれぞれ異なる少なくとも2つのビューに対して個々に実行される、請求項1に記載のコンピュータに実装された方法。
- 複数の解像度フォーマットのビデオ・データをデコードする、コンピュータに実装された方法であって、前記コンピュータに実装された方法は、
顕著データおよび非顕著データを含むエンコードされたビデオ・ストリームを受信するステップであって、前記顕著データは、前記非顕著データに比べてより高い解像度フォーマットを有する、前記受信するステップと、
前記ビデオ・ストリームをより低い解像度フォーマットの前記非顕著データおよび前記より高い解像度フォーマットの前記顕著データにデコードするステップと、
前記非顕著データをより高い解像度フォーマットに再構築するステップと、
前記顕著データの前記より高い解像度フォーマットのビデオ・ストリームを形成するために、前記顕著データと再構築された前記非顕著データとを結合するステップと、
を含む、コンピュータに実装された方法。 - 以前記録されたビデオ・ストリームに基づき非顕著特徴を特定するように訓練された敵対的生成ネットワーク(GAN)機械学習モデルの動作にアクセスするためのリンク、または前記GAN機械学習モデルのためのロード実行可能コードのうちの1つ以上を受信するステップと、
前記GAN機械学習モデルを使用して、増大された解像度で前記非顕著データを再構築するステップと、
をさらに含む、請求項11に記載のコンピュータに実装された方法。 - 受信された前記ビデオ・ストリームは、複数のビューポイントから捕捉された顕著データおよび非顕著データを含み、前記コンピュータに実装された方法は、
前記複数のビューポイントに基づき前記顕著データを特定するように前記GAN機械学習モデルを訓練するステップと、
前記複数のビューポイントに対して訓練された前記GAN機械学習モデルを使用して前記顕著データの前記より高い解像度に前記非顕著データを再構築するステップと、
をさらに含む、請求項12に記載のコンピュータに実装された方法。 - 各ビューポイントそれぞれの前記顕著データおよび前記非顕著データの複数の伝送を受信するステップと、
選択に応答して表示される特定のビューポイントを再構築するステップと、
をさらに含む、請求項13に記載のコンピュータに実装された方法。 - 位置情報を1つ以上の登録済みユーザと共有するステップと、
前記1つ以上の登録済みユーザにより捕捉された前記顕著データおよび前記非顕著データの選択可能なビューを受信するステップと、
をさらに含む、請求項14に記載のコンピュータに実装された方法。 - 低帯域幅伝送における高精細度ビデオのビデオ・ストリームをエンコードするコンピューティング・デバイスであって、前記コンピューティング・デバイスは、
プロセッサと、
前記プロセッサに連結されたメモリと、
を含み、前記メモリは、
ビデオ・ストリーム内の顕著データおよび非顕著データを特定することと、
前記顕著データと前記非顕著データとを区分することと、
前記非顕著データをエンコードおよび圧縮することと、
前記顕著データおよび前記圧縮された非顕著データを伝送することと、
を含む動作を前記プロセッサに実行させる命令を記憶する、コンピューティング・デバイス。 - 前記コンピューティング・デバイスは、
前記メモリと通信する敵対的生成ネットワーク(GAN)機械学習モデル
をさらに含み、
前記命令は、少なくとも前記非顕著データの前記特定を実行するために、以前記録されたビデオ・ストリームに基づく非顕著特徴の訓練データを用いて前記GAN機械学習モデルを訓練することを含む追加の動作を前記プロセッサに実行させる、請求項16に記載のコンピューティング・デバイス。 - 前記命令は、
融合されたパラメータに基づき選択されたエージェントから精緻化された結果を受信することと、
前記精緻化された結果に基づきグローバル訓練モデルを生成することと、
を含む追加の動作を前記プロセッサに実行させる、請求項17に記載のコンピューティング・デバイス。 - 前記命令は、
前記顕著データを特定するために顔認識またはオブジェクト認識のうちの1つ以上を含むドメイン固有人工知能(AI)モデルを適用すること
を含む追加の動作を前記プロセッサに実行させる、請求項16に記載のコンピューティング・デバイス。 - 前記命令は、前記顕著データおよび前記非顕著データの異なるカメラ・ビューを複数の受信デバイスに伝送することを含む追加の動作を前記プロセッサに実行させる、請求項16に記載のコンピューティング・デバイス。
- コンピュータ・プログラムがコンピュータ上で実行されると請求項1~15のいずれかに記載の前記方法のステップを実行するようになっているプログラム・コードを含む、前記コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/105,356 US11758182B2 (en) | 2020-11-25 | 2020-11-25 | Video encoding through non-saliency compression for live streaming of high definition videos in low-bandwidth transmission |
US17/105,356 | 2020-11-25 | ||
PCT/CN2021/124733 WO2022111140A1 (en) | 2020-11-25 | 2021-10-19 | Video encoding through non-saliency compression for live streaming of high definition videos in low-bandwidth transmission |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023551158A true JP2023551158A (ja) | 2023-12-07 |
Family
ID=81657630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023530212A Pending JP2023551158A (ja) | 2020-11-25 | 2021-10-19 | 低帯域幅伝送における高精細度ビデオ(High Definition Video)のライブ・ストリーミングのための非顕著性圧縮を用いたビデオ・エンコード |
Country Status (6)
Country | Link |
---|---|
US (2) | US11758182B2 (ja) |
JP (1) | JP2023551158A (ja) |
CN (1) | CN116457819A (ja) |
DE (1) | DE112021006157T5 (ja) |
GB (1) | GB2616998A (ja) |
WO (1) | WO2022111140A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230105436A1 (en) * | 2021-10-06 | 2023-04-06 | Kwai Inc. | Generative adversarial network for video compression |
US11895344B1 (en) * | 2022-12-09 | 2024-02-06 | International Business Machines Corporation | Distribution of media content enhancement with generative adversarial network migration |
CN116781912B (zh) * | 2023-08-17 | 2023-11-14 | 瀚博半导体(上海)有限公司 | 视频传输方法、装置、计算机设备及计算机可读存储介质 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689033B2 (en) | 2003-07-16 | 2010-03-30 | Microsoft Corporation | Robust multi-view face detection methods and apparatuses |
US7548657B2 (en) | 2005-06-25 | 2009-06-16 | General Electric Company | Adaptive video compression of graphical user interfaces using application metadata |
EP1936566A1 (en) | 2006-12-22 | 2008-06-25 | Thomson Licensing | Method for creating the saliency map of an image and system for creating reduced pictures of video frames |
US8339456B2 (en) * | 2008-05-15 | 2012-12-25 | Sri International | Apparatus for intelligent and autonomous video content generation and streaming |
US8605795B2 (en) * | 2008-09-17 | 2013-12-10 | Intel Corporation | Video editing methods and systems |
US8750645B2 (en) * | 2009-12-10 | 2014-06-10 | Microsoft Corporation | Generating a composite image from video frames |
WO2011090798A1 (en) | 2010-01-22 | 2011-07-28 | Thomson Licensing | Data pruning for video compression using example-based super-resolution |
US20120300048A1 (en) * | 2011-05-25 | 2012-11-29 | ISC8 Inc. | Imaging Device and Method for Video Data Transmission Optimization |
US9275300B2 (en) * | 2012-02-24 | 2016-03-01 | Canon Kabushiki Kaisha | Method and apparatus for generating image description vector, image detection method and apparatus |
WO2014008541A1 (en) | 2012-07-09 | 2014-01-16 | Smart Services Crc Pty Limited | Video processing method and system |
US8977582B2 (en) * | 2012-07-12 | 2015-03-10 | Brain Corporation | Spiking neuron network sensory processing apparatus and methods |
US20140177706A1 (en) * | 2012-12-21 | 2014-06-26 | Samsung Electronics Co., Ltd | Method and system for providing super-resolution of quantized images and video |
US9324161B2 (en) * | 2013-03-13 | 2016-04-26 | Disney Enterprises, Inc. | Content-aware image compression method |
US9440152B2 (en) * | 2013-05-22 | 2016-09-13 | Clip Engine LLC | Fantasy sports integration with video content |
US9807411B2 (en) * | 2014-03-18 | 2017-10-31 | Panasonic Intellectual Property Management Co., Ltd. | Image coding apparatus, image decoding apparatus, image processing system, image coding method, and image decoding method |
GB201603144D0 (en) | 2016-02-23 | 2016-04-06 | Magic Pony Technology Ltd | Training end-to-end video processes |
EP3353745A1 (en) | 2015-09-30 | 2018-08-01 | Piksel, Inc. | Improved video stream delivery via adaptive quality enhancement using error correction models |
CN105959705B (zh) | 2016-05-10 | 2018-11-13 | 武汉大学 | 一种面向可穿戴设备的视频直播方法 |
CN106791927A (zh) | 2016-12-23 | 2017-05-31 | 福建帝视信息科技有限公司 | 一种基于深度学习的视频增强与传输方法 |
US10163227B1 (en) * | 2016-12-28 | 2018-12-25 | Shutterstock, Inc. | Image file compression using dummy data for non-salient portions of images |
CN107423740A (zh) * | 2017-05-12 | 2017-12-01 | 西安万像电子科技有限公司 | 图像显著区域的获取方法和装置 |
CN107194927A (zh) | 2017-06-13 | 2017-09-22 | 天津大学 | 基于显著性区域的立体图像舒适度色度范围的测量方法 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
US11430084B2 (en) * | 2018-09-05 | 2022-08-30 | Toyota Research Institute, Inc. | Systems and methods for saliency-based sampling layer for neural networks |
US20210006730A1 (en) * | 2019-07-07 | 2021-01-07 | Tangible Play, Inc. | Computing device |
-
2020
- 2020-11-25 US US17/105,356 patent/US11758182B2/en active Active
-
2021
- 2021-10-19 CN CN202180076756.2A patent/CN116457819A/zh active Pending
- 2021-10-19 GB GB2309315.6A patent/GB2616998A/en active Pending
- 2021-10-19 WO PCT/CN2021/124733 patent/WO2022111140A1/en active Application Filing
- 2021-10-19 DE DE112021006157.7T patent/DE112021006157T5/de active Pending
- 2021-10-19 JP JP2023530212A patent/JP2023551158A/ja active Pending
-
2023
- 2023-07-30 US US18/361,887 patent/US20240022759A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN116457819A (zh) | 2023-07-18 |
US20220167005A1 (en) | 2022-05-26 |
US11758182B2 (en) | 2023-09-12 |
US20240022759A1 (en) | 2024-01-18 |
WO2022111140A1 (en) | 2022-06-02 |
GB2616998A (en) | 2023-09-27 |
DE112021006157T5 (de) | 2023-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023551158A (ja) | 低帯域幅伝送における高精細度ビデオ(High Definition Video)のライブ・ストリーミングのための非顕著性圧縮を用いたビデオ・エンコード | |
Qian et al. | Toward practical volumetric video streaming on commodity smartphones | |
Hou et al. | Wireless VR/AR with edge/cloud computing | |
US20160029079A1 (en) | Method and Device for Playing and Processing a Video Based on a Virtual Desktop | |
US11122332B2 (en) | Selective video watching by analyzing user behavior and video content | |
US11425448B1 (en) | Reference-based streaming video enhancement | |
CN109040786A (zh) | 摄像头数据的传输方法、装置、系统及存储介质 | |
CN115396645B (zh) | 一种沉浸媒体的数据处理方法、装置、设备及存储介质 | |
US20240056549A1 (en) | Method, computer device, and computer program for providing high-quality image of region of interest by using single stream | |
WO2023226504A1 (zh) | 一种媒体数据处理方法、装置、设备以及可读存储介质 | |
CN116630485A (zh) | 虚拟形象的驱动方法、虚拟形象的渲染方法以及电子设备 | |
KR102199270B1 (ko) | 클라우드 스트리밍 서비스 시스템, 스틸 이미지 기반 클라우드 스트리밍 서비스 방법 및 이를 위한 장치 | |
CN117242421A (zh) | 用于基于场景的沉浸式媒体的流式传输的智能客户端 | |
WO2019243961A1 (en) | Audio and video multimedia modification and presentation | |
JP7346741B2 (ja) | フリービュービデオコーディングのための方法、コンピュータシステム、およびコンピュータプログラム | |
US20230022344A1 (en) | System and method for dynamic images virtualisation | |
EP3229478B1 (en) | Cloud streaming service system, image cloud streaming service method using application code, and device therefor | |
KR20160087226A (ko) | 클라우드 스트리밍 서비스 시스템, 단말 성능을 고려한 이미지 클라우드 스트리밍 서비스 방법 및 이를 위한 장치 | |
JP7423130B2 (ja) | ビデオデータをノイズ除去するためのシステム、コーディング方法、およびコンピュータプログラム | |
Seligmann | Web-based Client for Remote Rendered Virtual Reality | |
US11368652B1 (en) | Video frame replacement based on auxiliary data | |
Seligmann | SmmmmS lient for Remote Rendered irtual Heality | |
Amezcua Aragon | Real-time neural network based video super-resolution as a service: design and implementation of a real-time video super-resolution service using public cloud services | |
CN116416483A (zh) | 计算机实现的方法、设备和计算机程序产品 | |
Jiang | Research on Key Technologies of VR based on MEC |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20230609 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240307 |