JP2024512577A

JP2024512577A - 動画コンテンツアイテムの知覚品質インジケータを決定するための方法、システム、および媒体

Info

Publication number: JP2024512577A
Application number: JP2023558593A
Authority: JP
Inventors: イリン・ワン; バリニードゥ・アドスミリ; ジュンジエ・ケ; ホセイン・ターレビー; ジョン・イム; ニール・バークベック; ペイマン・ミランファー; フェン・ヤン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-06-12
Filing date: 2022-06-08
Publication date: 2024-03-19
Also published as: EP4272451A1; US20230319327A1; WO2022261203A1; KR20230137397A; CN117157985A

Abstract

動画コンテンツアイテムの知覚品質インジケータを決定するための方法、システム、および媒体が提供される。いくつかの実施形態では、方法は、動画コンテンツアイテムを受け取るステップと、動画コンテンツアイテムから複数のフレームを抽出するステップと、ディープニューラルネットワークの第1のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定するステップと、ディープニューラルネットワークの第2のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、動画歪みインジケータを決定するステップと、ディープニューラルネットワークの第3のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定するステップと、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを連結する、動画コンテンツアイテムの複数のフレームのうちの各フレームについての品質レベルを、動画コンテンツアイテムの当該フレームについて生成するステップと、複数のフレームのうちの各フレームの品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成するステップと、動画コンテンツアイテムの全体的品質レベルに基づいて動画推奨を提示させるステップとを含む。

Description

関連出願の相互参照
本出願は、その全体が参照によって本明細書に組み込まれる、2021年6月12日に出願された米国仮特許出願第63/210,003号の利益を主張する。

開示される主題は、動画コンテンツアイテムの知覚品質インジケータを決定するための方法、システム、および媒体に関する。

ユーザは、動画コンテンツアイテムをホストするサーバからユーザデバイス上に動画コンテンツアイテム(たとえば、テレビジョン番組、動画、映画、音楽ビデオなど)をしばしばストリーミングする。サービスプロバイダは、一般的に、そのような動画コンテンツアイテムのトランスコードしたバージョンを最適化してストリーミングする。しかし、これは、サービスプロバイダが動画コンテンツアイテムの本来のオリジナルバージョンを受け取る、専門的に作成されたコンテンツと、予め存在する歪みまたは圧縮アーティファクトを有する動画コンテンツアイテムの本来ではないバージョンをサービスプロバイダが受け取るユーザ生成コンテンツとの両方を含む。

そのようなコンテンツの知覚的主観的動画品質を理解するのは、困難で時間がかかるタスクである。たとえば、動画品質を決定する以前の手法は、人が動画を検討し、視認できる品質上の問題を識別するために、人のチームを採用することを含む。

したがって、動画コンテンツアイテムの知覚品質インジケータを決定するための新規の方法、システム、および媒体を実現することが望ましい。

動画コンテンツアイテムの知覚品質インジケータを決定するための方法、システム、および媒体が提供される。

開示される主題のいくつかの実施形態にしたがって、動画品質評価のための方法が提供される。方法は、動画コンテンツアイテムを受け取るステップと、動画コンテンツアイテムから複数のフレームを抽出するステップと、ディープニューラルネットワークの第1のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定するステップと、ディープニューラルネットワークの第2のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、動画歪みインジケータを決定するステップと、ディープニューラルネットワークの第3のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定するステップと、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを連結する、動画コンテンツアイテムの複数のフレームのうちの各フレームについての品質レベルを、動画コンテンツアイテムの当該フレームについて生成するステップと、複数のフレームのうちの各フレームの品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成するステップと、動画コンテンツアイテムの全体的品質レベルに基づいて動画推奨を提示させるステップとを含む。

いくつかの実施形態では、コンテンツ品質インジケータは、動画コンテンツアイテムの複数のフレームのうちの各フレームについての意味レベル埋込みを表し、ディープニューラルネットワークの第1のサブネットワークは、動画コンテンツアイテムの複数のフレームのうちの各フレームに現れるコンテンツを記載する予測されるコンテンツラベルをさらに出力する。

いくつかの実施形態では、動画歪みインジケータは、動画コンテンツアイテムの複数のフレームのうちの各フレームについての歪み感度埋込みを表し、ディープニューラルネットワークの第2のサブネットワークは、動画コンテンツアイテムの複数のフレームのうちの各フレームにおいて検出された歪みを記載する検出歪みタイプをさらに出力する。

いくつかの実施形態では、圧縮感度インジケータは、動画コンテンツアイテムの複数のフレームのうちの各フレームについての圧縮感度埋込みを表し、ディープニューラルネットワークの第3のサブネットワークは、圧縮レベルスコアをさらに出力する。

いくつかの実施形態では、全体的品質レベルは、動画コンテンツアイテムの複数のフレームのうちの各フレームについてのチャンク毎スコアを出力し、チャンク毎スコアを平均する畳込みニューラルネットワークを使用して生成される。

いくつかの実施形態では、動画推奨は、全体的品質レベルに基づいて動画コンテンツアイテムをさらに圧縮するための推奨を含む。

いくつかの実施形態では、動画推奨は、動画コンテンツアイテムの一部を動画コンテンツアイテムの当該フレームに関連する品質レベルに基づいて変更するための、動画コンテンツアイテムのアップローダに対する推奨を含む。

開示される主題のいくつかの実施形態にしたがって、動画品質評価のためのシステムが提供される。システムは、動画コンテンツアイテムを受け取ることと、動画コンテンツアイテムから複数のフレームを抽出することと、ディープニューラルネットワークの第1のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定することと、ディープニューラルネットワークの第2のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、動画歪みインジケータを決定することと、ディープニューラルネットワークの第3のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定することと、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを連結する、動画コンテンツアイテムの複数のフレームのうちの各フレームについての品質レベルを、動画コンテンツアイテムの当該フレームについて生成することと、複数のフレームのうちの各フレームの品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成することと、動画コンテンツアイテムの全体的品質レベルに基づいて動画推奨を提示させることと、をするように構成されるハードウェアプロセッサを備える。

開示される主題のいくつかの実施形態にしたがって、プロセッサによって実行されるとき、プロセッサに動画品質評価のための方法を実施させるコンピュータ実行可能命令を含む非一時的コンピュータ可読媒体が提供される。方法は、動画コンテンツアイテムを受け取るステップと、動画コンテンツアイテムから複数のフレームを抽出するステップと、ディープニューラルネットワークの第1のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定するステップと、ディープニューラルネットワークの第2のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、動画歪みインジケータを決定するステップと、ディープニューラルネットワークの第3のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定するステップと、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを連結する、動画コンテンツアイテムの複数のフレームのうちの各フレームについての品質レベルを、動画コンテンツアイテムの当該フレームについて生成するステップと、複数のフレームのうちの各フレームの品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成するステップと、動画コンテンツアイテムの全体的品質レベルに基づいて動画推奨を提示させるステップとを含む。

開示される主題のいくつかの実施形態にしたがって、動画品質評価のためのシステムが提供される。システムは、動画コンテンツアイテムを受け取るための手段と、動画コンテンツアイテムから複数のフレームを抽出するための手段と、ディープニューラルネットワークの第1のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定するための手段と、ディープニューラルネットワークの第2のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、動画歪みインジケータを決定するための手段と、ディープニューラルネットワークの第3のサブネットワークを使用して、動画コンテンツアイテムの複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定するための手段と、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを連結する、動画コンテンツアイテムの複数のフレームのうちの各フレームについての品質レベルを、動画コンテンツアイテムの当該フレームについて生成するための手段と、複数のフレームのうちの各フレームの品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成するための手段と、動画コンテンツアイテムの全体的品質レベルに基づいて動画推奨を提示させるための手段とを備える。

開示される主題の様々な目的、特徴、および利点は、以下の図とともに考慮すれば、開示される主題の以下の詳細な説明を参照してより十分に理解することができ、図では、同様の参照番号は同様の要素を識別する。

開示される主題のいくつかの実施形態にしたがった、動画コンテンツアイテムの知覚品質インジケータを決定するためのプロセスの説明の例を示す図である。開示される主題のいくつかの実施形態にしたがった、動画コンテンツアイテムの知覚品質インジケータを決定するためのプロセスの説明の例を示す図である。開示される主題のいくつかの実施形態にしたがった、各動画コンテンツアイテムの1つまたは複数のフレームについてのフレームの意味を表す予測されるコンテンツラベルの説明の例を示す図である。開示される主題のいくつかの実施形態にしたがった、各動画コンテンツアイテムの1つまたは複数のフレームにおいて検出された予測される歪みタイプの説明の例を示す図である。開示される主題のいくつかの実施形態にしたがった、各動画コンテンツアイテムの1つまたは複数のフレーム中の予測される圧縮レベルの説明の例を示す図である。開示される主題のいくつかの実施形態にしたがった、動画コンテンツアイテムの知覚品質インジケータ(たとえば、圧縮レベル、コンテンツラベル、および歪みタイプ)、各動画コンテンツアイテムのフレームまたは特徴についての予測される品質スコア、および各動画コンテンツアイテムのフレームまたは特徴についての全体的品質スコアを提示するインターフェースの説明の例を示す図である。開示される主題のいくつかの実施形態にしたがった、動画コンテンツアイテムの知覚品質インジケータを決定するための、本明細書に記載されるメカニズムの実施に好適な例示的システムを示す概略図である。開示される主題のいくつかの実施形態にしたがった、サーバおよび/または図7のユーザデバイスで使用できるハードウェアの詳細な例を示す図である。

動画コンテンツアイテムの知覚品質インジケータを決定するための(方法、システム、および媒体を含むことができる)メカニズムが提供される。より詳細には、本明細書で記載されるメカニズムは、意味内容、歪みまたは技術品質、および圧縮レベルの観点で、動画コンテンツアイテムの全体的知覚品質を分析することができる。

そのような実施形態にしたがって、本明細書に記載されるメカニズムは、ユーザ生成動画などの動画コンテンツアイテムの全体的知覚品質を、動画コンテンツアイテムの意味内容、歪みまたは技術品質、および圧縮レベルなどを決定することによる複数の観点から決定することができる。たとえば、メカニズムは、ディープニューラルネットワークの複数のサブネットワークに対する入力として、動画コンテンツアイテムの1つまたは複数の入力フレームを設けることができ、サブネットワークの各々は、動画コンテンツアイテムのフレームの各々から、深層の特徴および品質インジケータを抽出することができる。より具体的な例では、メカニズムは、(1)動画コンテンツアイテムの1つまたは複数のフレームの、コンテンツラベルおよびコンテンツ品質インジケータを予測するコンテンツサブネットワーク、(2)動画コンテンツアイテムの1つまたは複数のフレームの、歪みタイプおよび動画歪みインジケータを決定する歪みサブネットワーク、および、(2)動画コンテンツアイテムの1つまたは複数のフレームの、圧縮レベルおよび圧縮感度インジケータを予測する圧縮サブネットワークに、動画コンテンツアイテムの1つまたは複数の入力フレームを提供することができる。

いくつかの実施形態では、ディープニューラルネットワークのサブネットワークの各々からの抽出された特徴は、ユーザ(たとえば、アップロードするユーザ、コンテンツプロバイダユーザなど)が理解可能または消化しやすくてよい品質インジケータを提供するために使用することができる。たとえば、コンテンツサブネットワークは、「野外レクリエーション」、「ゲーム」、「ボール」、および「ウォーキング」などといった、1つまたは複数の入力フレーム中のフレームの意味を表す、予測されるコンテンツラベルを生成することができる。別の例では、歪みサブネットワークが、「ジッタ」、「色量子化」、「レンズにじみ」、および「ノイズ除去」などといった、1つまたは複数の入力フレーム中で検出される歪みを表す、予測される歪みタイプを生成することができる。さらに別の例では、圧縮サブネットワークが、1つまたは複数の入力フレーム中の圧縮レベルを記述する、圧縮感度を埋め込む特徴を生成することができる。ユーザに対するフィードバックとしてコンテンツラベルおよび/または歪みラベルを提供することに応じて、ユーザに、動画コンテンツアイテムの当該部分を変更する機会を与えることができる。たとえば、ユーザは、フレームについて決定されたコンテンツ品質インジケータを、当該フレームについてのコンテンツラベルに基づいて理解して、そのようなコンテンツラベルが興味深いコンテンツであるとみなされるのかを理解することができる。別の例では、ユーザは、フレームについての動画歪みインジケータを、当該フレーム内で検出される歪みタイプに基づいて理解することができる。

いくつかの実施形態では、メカニズムは、動画コンテンツアイテムのフレームの各々について品質インジケータを一緒に連結し、総合サブネットワークを使用してそれらを総合し、動画コンテンツアイテムの全体的動画品質推定を得ることができる。たとえば、動画コンテンツアイテムは一連のチャンクまたはフレームであってよく、それらのチャンクまたはフレームは異なる知覚品質を有してもよく、メカニズムは、動画コンテンツアイテムのフレームの各々についての品質インジケータを連結することができ、連結した品質インジケータを総合して、動画コンテンツアイテムの全体的動画品質推定を得ることができる。

1つまたは複数のフレームの品質インジケータおよび全体的動画品質推定は、任意の好適な用途で使用できることに留意されたい。

たとえば、メカニズムは、サービスプロバイダが全体的動画品質推定を使用して、サービスのトレードオフの品質通知を行う(たとえば、比較的高いもしくは低い解像度、または比較的高いもしくは低いビットレートで動画コンテンツアイテムを送信する)のを可能にすることができる。この例を続けて、サービスプロバイダは、動画コンテンツアイテムの各々の全体的動画品質推定に基づいて、および/または、動画コンテンツアイテムの各々の1つもしくは複数のフレームの品質インジケータに基づいて、ユーザデバイスに送信される動画コンテンツアイテムの、調整したビットレートでのストリーミングを行うことができる。

別の例では、メカニズムは、動画コンテンツアイテムの各フレームに関連する品質インジケータを使用して、より高い品質インジケータを有する動画コンテンツアイテムの第1の部分の視聴者が、比較的高い解像度を有する形式(たとえば、本来のコンテンツ)で送信されることによって恩恵を被ること、およびより低い品質インジケータを有する動画コンテンツアイテムの第2の部分を、動画コンテンツアイテムの当該部分にほとんど知覚的影響がない比較的低い解像度を有する形式で提供できることを決定することができる。

さらに別の例では、メカニズムは、(たとえば、複数の動画が単一のイベントに存在する場合)サービスプロバイダが推奨システムを最適化することができるように、または視聴者に提示される動画コンテンツアイテムにほとんど知覚的影響がない低品質スコアを有する動画コンテンツアイテムをさらに圧縮するため、サービスプロバイダに動画コンテンツアイテムの品質の理解を実現することができる。この例を続けて、メカニズムは、動画コンテンツアイテムと後続の動画コンテンツアイテムの間の全体的動画品質推定における違いなどといった、全体的動画品質推定に基づいて、フォーマットが第1の形式から潜在的な第2の形式に変更されるかをサービスプロバイダが決定することを可能にすることができる。

さらなる例では、メカニズムは、アップロードするユーザに動画コンテンツアイテムについてのフィードバックを提供するために、1つまたは複数のフレームの抽出した特徴および品質インジケータを使用することができ、抽出した特徴(たとえば、「ダンス」および「音楽のアンサンブル」のコンテンツラベル、「ガウス分布のぼやけ」および「色飽和」の歪みタイプ)は、動画コンテンツアイテムの1つまたは複数のフレームの知覚品質についてのラベルをアップロードするユーザに提供することができる。さらに、アップロードするユーザは、コンテンツ共有サービスにアップロードするため、動画コンテンツアイテムを変更すること(たとえば、動画コンテンツアイテムの全体的知覚品質を改善するため、動画コンテンツアイテムの1つまたは複数のフレームにおいて検出される歪みタイプを除去または減少させること)ができる。

動画コンテンツアイテムの知覚品質インジケータを決定するためのこれらおよび他の特徴が、図1～図8に関してさらに記載される。

図1を参照すると、動画コンテンツアイテムの知覚品質インジケータを決定するためのプロセスの説明の例100が、開示される主題のいくつかの実施形態にしたがって示される。いくつかの実施形態では、プロセス100のブロックは、メディアコンテンツアイテムをホストしてメディアコンテンツアイテムをユーザデバイスにストリーミングするサーバなどといった、任意の好適なデバイスによって実行することができる。いくつかのそのような実施形態では、サーバは、プロセス100のブロックを実行して、動画コンテンツアイテムの1つまたは複数のフレームから品質スコアおよび/または品質インジケータを抽出し、動画コンテンツアイテムの全体的動画品質推定を決定することができる。

プロセス100は、アップロードされた動画コンテンツアイテムを受け取ることによって110で開始することができる。いくつかの実施形態では、プロセス100は、任意の好適な発信源からの動画コンテンツアイテムを受け取ることができる。たとえば、いくつかの実施形態では、動画評価サーバは、ユーザによって作成および/または生成された動画を受け取る動画共有サービスに関連するサーバからアップロードされた動画を受け取ることができる。いくつかの実施形態では、アップロードされた動画コンテンツアイテムは、任意の好適なコンテンツ(たとえば、動画コンテンツ、動画コンテンツに対応する音声コンテンツ、字幕、および/または、任意の他の好適なコンテンツ)を含むことができる。いくつかの実施形態では、アップロードされた動画は、動画の題名、動画の作成者の名前、動画が作成された日付、動画のトピック、および/または、任意の好適な情報などといった、動画をアップロードするユーザによって提供される任意の好適な情報と関連づけることができる。

代わりに、いくつかの実施形態では、プロセス100は、提示される動画コンテンツアイテムの指示を受け取ることによって110で開始することができる。いくつかの実施形態では、指示は任意の好適な方法で受け取ることができる。たとえば、いくつかの実施形態では、入手可能な動画コンテンツアイテムを示すページ(たとえば、動画コンテンツサービスのホームページ、ユーザデバイスのユーザ向けに個別化された推奨品を示すページ、および/または任意の他の好適なページ)から動画を表すリンクまたはアイコンを選択することができる。いくつかの実施形態では、指示は、動画を提示するため使用される表示デバイスと対になるユーザデバイスが受け取ることができることに留意されたい。たとえば、いくつかの実施形態では、指示は、テレビジョンと対になる、さもなければテレビジョンと関連づけられたモバイルフォンまたは仮想アシスタントデバイスが受け取ることができる。

120において、プロセス100は、動画コンテンツアイテムから1つまたは複数のフレームを抽出することができる。たとえば、110において、動画コンテンツアイテムを受け取ることに応じて、120において、動画コンテンツアイテムをその動画フレームへと分離することができ、意味内容、歪みまたは技術品質、および圧縮レベルの点で、動画コンテンツアイテムの全体的知覚品質を決定するために、各フレームを、ディープニューラルネットワークの中に入力することができる。

ディープニューラルネットワークの各サブネットワークが異なる入力フレームを受け取ることができることに留意されたい。たとえば、ディープニューラルネットワークのコンテンツサブネットワークは、その解像度を減らすためにサイズ変更されている、(たとえば、毎秒1フレームでサンプリングされた)抽出されたフレームを受け取ることができる。別の例では、ディープニューラルネットワークの歪みサブネットワークは、(たとえば、倍率変更アーティファクトを回避するため)その本来の解像度で、(たとえば、毎秒1フレームでサンプリングした)抽出されたフレームを受け取ることができる。さらに別の例では、ディープニューラルネットワークの圧縮サブネットワークは、(たとえば、空間的アーティファクトと時間的アーティファクトの両方をキャプチャするため)その本来の解像度で、(たとえば、毎秒5フレームでサンプリングした)複数のフレームを受け取ることができる。

いくつかの実施形態では、130において、プロセス100は、ディープニューラルネットワークのコンテンツサブネットワークへの入力として動画コンテンツアイテムの1つまたは複数のフレームを提供して、1つまたは複数のコンテンツラベルおよびコンテンツ品質インジケータを決定することができる。プロセス100は、動画コンテンツアイテムから毎秒1フレームでフレームをサンプリングし、フレームをより低い解像度にサイズ変更し、(たとえば、コンテンツサブネットワークの出力が入力解像度によって影響を受けるべきでないために、)サイズ変更したフレームを、ディープニューラルネットワークのコンテンツサブネットワークへの入力として提供できることに留意されたい。ディープニューラルネットワークのコンテンツサブネットワークによって予測されるコンテンツ品質インジケータが、視聴者の注意ならびに視聴者の品質感度に影響を及ぼす可能性がある、動画コンテンツの有意味性および魅力を符号化できることにも留意されたい。

このことは図2にも示される。図2では、動画コンテンツアイテムの複数の抽出されたフレーム210からのフレーム220をコンテンツサブネットワーク222の中に入力することができ、コンテンツサブネットワーク222は、フレーム220についての予測されるコンテンツラベルおよび予測されるコンテンツ品質インジケータを含む出力224を提供することができる。

コンテンツサブネットワークは、動画コンテンツアイテムのフレームについての、1つまたは複数のコンテンツラベルおよびコンテンツ品質インジケータを予測するための、任意の好適な動画分類モデルであってもよいことに留意されたい。たとえば、ディープニューラルネットワークのコンテンツサブネットワークは、意味レベル埋込みを提供する動画分類モデルであってよく、ここで、動画分類モデルは単一の動画フレーム上で訓練することができ、動画分類モデルはコンテンツ感度を埋め込む特徴および予測されるコンテンツラベルを出力することができる。より詳細な例では、コンテンツサブネットワークは、最後の層の前にあるサイズ(たとえば、16、16、100)の出力特徴マップを完全に接続した層に加えること、および動画クラスの総数(たとえば、3862個の粗密に粒状化した実体を有するユーチューブ8Mのデータセットに対応するための、3862個のロジット)に対応させるため最後の層の出力を変化させることによってベースライン畳込みニューラルネットワークをカスタマイズすることができる。この例を続けて、入力フレームを(たとえば、毎秒1フレームで)サンプリングし、(たとえば、496x496)といった、より小さい解像度へとサイズ変更することができ、交差エントロピー損失を使用して、マルチラベルモード中のベースライン畳込みニューラルネットワークを微調整することができる。入力フレームが任意の好適な数のコンテンツラベル(たとえば、最高で20個のコンテンツラベル)を有してよいことに留意されたい。

開示される主題のいくつかの実施形態にしたがった、各動画コンテンツアイテムの1つまたは複数のフレームについてのフレームの意味を表す予測されるコンテンツラベルの説明の例が図3に示される。図3に示されるように、異なる動画コンテンツアイテムからの各フレーム310、320、および330は、予測されるコンテンツラベルおよびそれらの関連する確率とともにインターフェースに提示することができる。たとえば、各フレーム310、320、および330は、たとえば、コンテンツラベル「ビデオゲーム」および0.95の確率、コンテンツラベル「ゲーム」および0.94の確率、コンテンツラベル「World of Warcraft」および0.45の確率、コンテンツラベル「Warcraft」および0.40の確率、ならびにコンテンツラベル「戦略ビデオゲーム」および0.07の確率といった、各フレームについての上位5つのクラスの予測312および確率314で提示することができる。

開示される主題のいくつかの実施形態にしたがった、動画コンテンツアイテムのフレームについてのフレームの意味、ならびに動画コンテンツアイテムの当該フレームについてのコンテンツ品質インジケータを表す予測されるコンテンツラベルの説明の例が図6に示される。図6に示されるように、動画コンテンツアイテムの代表フレーム610、フレーム610内に現れるコンテンツ(たとえば、「ダンス」、「音楽のアンサンブル」、および「野外レクリエーション」)を記載する、予測されるコンテンツラベル620を含むインターフェースを提示することができる。図6にも示されるように、インターフェースはまた、フレーム610についてのコンテンツ品質インジケータ(CT)630を含むことができる。上で述べたように、ディープニューラルネットワークのコンテンツサブネットワークによって計算されるコンテンツ品質インジケータ630は、視聴者の注意ならびに視聴者の品質感度に影響を及ぼす可能性がある、動画コンテンツの有意味性および魅力を符号化できる。たとえば、ディープニューラルネットワークのコンテンツサブネットワークは、動画コンテンツアイテムの代表フレーム610について3.621のコンテンツ品質インジケータを決定している。これは、「ダンス」、「音楽のアンサンブル」、および「屋外レクリエーション」を含むフレーム610が興味深いコンテンツであるとみなされることを示す。

図1に戻って、いくつかの実施形態では、140において、プロセス100は、ディープニューラルネットワークの歪みサブネットワークへの入力として、動画コンテンツアイテムの1つまたは複数のフレームを提供し、1つまたは複数の歪みタイプおよび動画歪みインジケータを決定することができる。ユーザが生成した動画などといった、動画コンテンツアイテムが様々な歪み(たとえば、コントラスト変化またはノイズ除去)を含む場合があり、これらは、動画コンテンツの特徴に対して直交し、知覚品質によいまたは悪い影響を与える場合があることに留意されたい。たとえば、歪みは、いくつかの歪み(たとえば、適正なシャープネスフィルタまたは色飽和の微調整)が意図され、知覚品質に肯定的な影響を与える可能性がある動画製作プロセス期間に導入される場合がある。逆に、動きのぶれまたはジッタなどといった、意図されない歪みは、知覚品質に否定的な影響を与える可能性がある。動画歪みインジケータは、フレーム内に含まれる歪みに基づいて、フレームの品質を符号化することができる。

プロセス100は、動画コンテンツアイテムから毎秒1フレームでフレームをサンプリングし、(たとえば、倍率変更アーティファクトを回避するため)ディープニューラルネットワークの歪みサブネットワークへの入力としてその本来の解像度でフレームを提供することができることに留意されたい。

このことは図2にも示される。図2では、動画コンテンツアイテムの複数の抽出されたフレーム210からのフレーム230を歪みサブネットワーク232の中に入力することができ、歪みサブネットワーク232は、フレーム230についての予測される歪みタイプおよび予測される動画歪みインジケータを含む出力234を提供することができる。

歪みサブネットワークは、KADIS-700KデータセットおよびKADID-10Kデータセットなどといった、合成によって歪ませた画像で訓練できることを留意されたい。そのようなデータセットは、本来のオリジナル画像ならびに高先鋭化、ノイズ除去、およびガウス分布のぼやけなどといった複数の歪みフィルタを提供することができる。ここで、各フィルタは、5つの異なるレベルで歪みを生成することができる(たとえば、各オリジナルが125個の歪んだ変形形態を有する)。この例を続けて、訓練損失関数は、マルチラベル(歪みタイプ)分類のためのクロスエントリー損失

、同じ歪みタイプを有する2つのランダムに選択した変形形態間の対ヒンジ損失

、L2距離損失

といった3つの部分を含むことができる。特に、クロスエントリー損失と対ヒンジ損失の組合せ

は、初期歪みサブネットワークを訓練するための損失として使用することができる。歪みサブネットワークは、次いで、KADID-10Kデータセットを使用して微調整することができる。KADID-10Kデータセットは、地上較正平均オピニオン評点(MOS)を提供するため、プロセス100は、別個のマルチレイヤ知覚ヘッドを使用して、平均オピニオン評点を予測し、L2距離損失

で訓練することができる。したがって、KADID-10Kで歪みサブネットワークを訓練するための総合損失関数は、以下のように表すことができる。

開示される主題のいくつかの実施形態にしたがった、各動画コンテンツアイテムの1つまたは複数のフレームにおいて検出される歪みタイプの説明の例が図4で示される。図4に示されるように、異なる動画コンテンツアイテムからの各フレーム410、420、および430は、予測される歪みタイプおよびそれらの関連する確率とともにインターフェースに提示することができる。たとえば、各フレーム410、420、および430は、たとえば、フレーム410について、歪みタイプ「ジッタ」、歪みタイプ「色量子化」、歪みタイプ「レンズにじみ」、および歪みタイプ「ノイズ除去」、フレーム420について、歪みタイプ「色成分中のホワイトノイズ」、歪みタイプ「平均シフト」、および歪みタイプ「コントラスト変化」、フレーム430について、歪みタイプ「ノイズ除去」、歪みタイプ「JPEG2000」、歪みタイプ「量子化」、および歪みタイプ「レンズにじみ」といった、各フレームについて検出された歪みタイプ412を提示することができる。

開示される主題のいくつかの実施形態にしたがった、動画コンテンツアイテムのフレームについて検出された予測される歪みタイプならびに動画コンテンツアイテムの当該フレームについての動画歪みインジケータの説明の例が図6に示される。図6に示されるように、動画コンテンツアイテムの代表フレーム610、およびフレーム610内で検出された予測される歪みタイプ640(たとえば、「ガウス分布のぼやけ」、「乗法的ノイズ」、および「色飽和」)を含むインターフェースを提示することができる。図6にも示されるように、インターフェースはまた、フレーム610についての動画歪みインジケータ(DT)650を含むことができる。上で述べたように、ディープニューラルネットワークの歪みサブネットワークによって計算される動画歪みインジケータ650は、歪み感度を埋め込む特徴を符号化できる。動画歪みインジケータ650が任意の好適なスケール(たとえば、1から5のスケール、ここで1が最低品質であり、5が最高品質である)に基づいてよいことに留意されたい。たとえば、ディープニューラルネットワークの歪みサブネットワークは、動画コンテンツアイテムの代表フレーム610について3.16の動画歪みインジケータを決定している。これは、「ガウス分布のぼやけ」、「乗法的ノイズ」、および「色飽和」を含むフレーム610が低い視聴経験をもたらすとみなされることを示す。より具体的な例では、ディープニューラルネットワークの歪みサブネットワークは、コンテンツと品質の間の相関を決定することができる。たとえば、52個のビデオクリップがコンテンツラベル「戦略ビデオゲーム」を有し、ここで、それらのビデオクリップのうちの65%が高品質の範囲にある一方で、7個のビデオクリップがコンテンツラベル「森林」を有し、ここで、それらのビデオクリップのうちの72%が低品質の範囲にある。そのため、ディープニューラルネットワークの歪みサブネットワークによって計算される動画歪みインジケータ650は、フレーム610内に現れるコンテンツを記載するコンテンツラベルに基づくことができる。

図1に戻って、いくつかの実施形態では、150において、プロセス100は、ディープニューラルネットワークの圧縮サブネットワークへの入力として、動画コンテンツアイテムの1つまたは複数のフレームを提供し、1つまたは複数の圧縮レベルおよび圧縮感度インジケータを決定することができる。コンテンツ共有プラットフォームは、デバイスおよび/またはネットワーク要件と合致させるために、ユーザが生成した動画などのオリジナル動画コンテンツアイテムを異なるビットレートおよび/または解像度にトランスコードする場合があることに留意されたい。たとえば、圧縮アーティファクトは、コンテンツ共有プラットフォームのアップロードアプリケーションなど、第三者によって導入される場合がある。動画圧縮戦略はしばしば見てわかる品質低下を引き起こす可能性があることにも留意されたい。そのため、いくつかの実施形態では、圧縮サブネットワークが圧縮に関係する特徴を学ぶことができ、ここでは、圧縮サブネットワークの出力が、圧縮感度を埋め込む特徴、および連続的圧縮レベルスコアまたは圧縮感度インジケータを含むことができる。

圧縮感度インジケータは任意の好適なスケールであってもよいことに留意されたい。たとえば、圧縮感度インジケータは、0から1の範囲のスコアであってよく、0が圧縮しないことを表すことができ、1が重度な圧縮を表すことができる。

プロセス100は、(たとえば、空間的アーティファクトと時間的アーティファクトとの両方をキャプチャするため)動画コンテンツアイテムから毎秒5フレームで複数のフレームをサンプリングし、(たとえば、倍率変更アーティファクトを回避するため)ディープニューラルネットワークの圧縮サブネットワークへの入力としてその本来の解像度でフレームを提供することができることにも留意されたい。

このことは図2にも示される。図2では、動画コンテンツアイテムの複数の抽出されたフレーム210からのフレーム240を圧縮サブネットワーク242の中に入力することができ、圧縮サブネットワーク242は、フレーム240についての予測される圧縮レベルおよび予測される圧縮感度インジケータを含む出力244を提供することができる。図2に示されるように、各サブネットワークへの入力が異なる、たとえば、コンテンツサブネットワーク222は、全体的な意味分類を実行するために全フレームを受け取ることができ、歪みサブネットワーク232は、単一のフレームを受け取ることができ、圧縮サブネットワーク242は、空間的アーティファクトと時間的アーティファクトとの両方をキャプチャするため複数のフレームを受け取ることができることに留意されたい。図2のフレーム230およびフレーム240で示されるように、フレームは、特徴抽出のための独立したパッチに分割することができ、次いで、パッチの特徴を一緒につなぎ合わせて、フレーム全体についての特徴を得ることができることにも留意されたい。

圧縮サブネットワークは、自己管理学習手法または任意の他の好適な手法を使用して訓練することができることを留意されたい。たとえば、圧縮サブネットワークは、空間的な動画の特徴と時間的な動画の特徴の両方を学習するために大規模動画分類データセット上で予め訓練された、精製した3Dモデルによって訓練することができる。大規模動画分類データセットの説明の例は、600個の行為のカテゴリーのうちの1つで注釈がつけられている、約500000個の10秒のビデオクリップを含む、Kinetics-600データセットである。

たとえば、動画のセットは、VP9エンコーダを使用して、ビデオオンデマンド(VOD)バージョン、より低いビットレートのビデオオンデマンド(VODLB)バージョン、および一定ビットレート(CBR)バージョンなどといった、複数の変形形態へとトランスコードすることができ、ここで、VODバージョンは、より高いターゲットビットレートに起因してVODLBバージョンよりよい品質を有することができ、CBRバージョンは、ワンパストランスコーディングは、ツーパストランスコーディングより最適化されないので、最低品質を有することができる。ここで、フレームが、オリジナルのクリップおよびトランスコードされたクリップから均一にサンプリングされて、精製された3Dモデルへと供給され、予測される圧縮レベルを得ることができる。完全に接続される層の前に挿入することができる(1、4、4、100)特徴層は、圧縮感度を埋め込む特徴を抽出するために使用することができる。

この例を続けて、圧縮サブネットワークを訓練するための訓練損失関数が、対損失

および対照損失

の2つの部分を含むことができることに留意されたい。具体的には、対損失は、オリジナルバージョンと一定ビットレートバージョンの間の圧縮レベルの差異を評価するために計算することができ、その損失は以下のように表すことができる。

対照損失は、(非線形マッピングを形成するため)2つの高密度層によって1D空間(1x1600)の中に特徴を投影して、それらの特徴の距離によって2つの特徴間の類似性(sim(x,y))を規定することにより計算することができる。対照損失は、次のように表すことができる。

したがって、圧縮サブネットワークを訓練するための総合損失関数は、以下のように表すことができる。

開示される主題のいくつかの実施形態にしたがった、各動画コンテンツアイテムの複数のフレームにおいて検出される圧縮レベルの説明の例が図5で示される。図5に示されるように、異なる動画コンテンツアイテムからの代表フレーム510、520、および530を、0(圧縮なしを表す)から1(重度または高度な圧縮を表す)の範囲の圧縮レベルスコアと一緒にインターフェースに提示することができる。たとえば、各代表フレーム510、520、および530は、たとえば、代表フレーム510について圧縮レベルスコア0.892といった、予測される圧縮レベルスコア512で表すことができ、これは、高い圧縮レベルを示す。別の例では、圧縮レベルスコア512に加えて、または圧縮レベルスコア512の代わりに、各代表フレーム510、520、および530は、低圧縮レベル、中圧縮レベル、または高圧縮レベルなどといった、圧縮レベルのテキスト記載とともに提示することができる。

開示される主題のいくつかの実施形態にしたがった、動画コンテンツアイテムの入力されたフレームについての予測される圧縮レベルならびに圧縮感度インジケータの説明の例が図6にも示される。図6に示されるように、動画コンテンツアイテムの代表フレーム610、およびフレーム610によって表される動画コンテンツアイテムの部分についての、0.924の予測される圧縮レベルを含むインターフェースを提示することができる。図6にも示されるように、インターフェースはまた、フレーム610によって表される動画コンテンツアイテムの部分についての圧縮感度インジケータ(CP)670を含むことができる。上で述べたように、ディープニューラルネットワークの圧縮サブネットワークによって計算される圧縮感度インジケータ670は、圧縮感度を埋め込む特徴を符号化できる。圧縮感度インジケータ670が任意の好適なスケール(たとえば、1から5のスケール、ここで1が最低品質であり、5が最高品質である)に基づいてよいことに留意されたい。たとえば、ディープニューラルネットワークの圧縮サブネットワークは、動画コンテンツアイテムの代表フレーム610について2.862の圧縮感度インジケータを決定している。これは、0.924の高圧縮レベルを有するフレーム610が低い視聴経験をもたらすとみなされることを示す。すなわち、フレーム610が、3.621のコンテンツ品質インジケータを有する「ダンス」および「野外レクリエーション」の興味深いコンテンツを含むとみなされる一方で、プロセス100は、フレーム610が、2.862の圧縮感度インジケータで高度に圧縮され、3.16の動画歪みインジケータを有するぼやけおよびノイズのような歪みを含み、これは低い視聴経験をもたらす可能性があると決定することができる。

図1に戻って、いくつかの実施形態では、動画コンテンツアイテムのフレームについてのコンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを得ることに応じて、プロセス100が、160において、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを連結することによって、動画コンテンツアイテムのフレームについての品質レベルを生成することができる。いくつかの実施形態では、プロセス100は、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータを平均することによって、動画コンテンツアイテムの特定のフレームについての品質レベルを計算することができる。いくつかの実施形態では、プロセス100は、コンテンツ品質インジケータ、動画歪みインジケータ、および圧縮感度インジケータの各々に任意の好適な重みを適用することによって、動画コンテンツアイテムの特定のフレームについての品質レベルを計算することができる。

いくつかの実施形態では、170においてプロセス100は、全体的動画品質推定を得るため、抽出された特徴を総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成することができる。たとえばいくつかの実施形態では、プロセス100は、動画コンテンツアイテムのフレームにわたって160において決定されたフレーム品質スコアを平均することによって、動画コンテンツアイテムについての全体的品質レベルを計算することができる。別の例では、いくつかの実施形態において、プロセス100は、ディープニューラルネットワークの、総合サブネットワークを使用して全体的品質レベルを決定することができる。総合サブネットワークは、平均プール(Avg Pool)モデル、長短期モデル(LSTM)、畳込み長短期モデル(ConvLSTM)、または任意の他の好適な時間モデルであってもよい。図2に示されるより具体的な例における総合サブネットワーク260の平均プールモデルでは、全体的品質レベルは、動画コンテンツアイテムの複数のフレームのうちの各フレームについてのチャンク毎スコアを出力し、チャンク毎スコアを平均する畳込みニューラルネットワークを使用して生成される。平均プールモデルでは、各チャンク特徴250を1x1 2D畳込み層(256ユニット)がフィルタ処理して、特徴空間を改良することができる。それらの改良した特徴を次いで、(バッチ正規化、修正線形活性化関数(Activation(relu))、グローバル最大プール(GlobalMaxPool2D)、ドロップアウト、および/または高密度層を含むことができる)共有2Dヘッドを通して送信し、チャンク毎スコアを得ることができる。チャンク毎スコアの平均を決定して、動画コンテンツアイテムについての全体的品質レベルとすることができる。

開示される主題のいくつかの実施形態にしたがった、1つまたは複数の動画コンテンツアイテムについての全体的品質レベルの説明の例が図6にも示される。図6に示されるように、動画コンテンツアイテムの代表フレーム610、およびフレーム610によって表される動画コンテンツアイテムついての、2.955の全体的品質レベル(CP+CT+DT)680を含むインターフェースを提示することができる。2.955のスコアは動画コンテンツアイテムの低知覚品質を示すことができ、これは低い視聴経験をもたらす可能性があることに留意されたい。

たとえば、プロセス100は、サービスプロバイダに全体的動画品質推定を送信することができ、このことによって、サービスプロバイダが全体的動画品質推定を使用して、サービスのトレードオフの品質通知を行う(たとえば、比較的高いもしくは低い解像度、または比較的高いもしくは低いビットレートで動画コンテンツアイテムを送信する)のを可能にすることができる。この例を続けて、サービスプロバイダは、動画コンテンツアイテムの各々の全体的動画品質推定に基づいて、および/または、動画コンテンツアイテムの各々の1つまたは複数のフレームの品質インジケータに基づいて、ユーザデバイスに送信される動画コンテンツアイテムの、調整したビットレートでのストリーミングを行うことができる。

別の例では、プロセス100は、サービスプロバイダに全体的動画品質推定を送信することができ、このことによって、サービスプロバイダが、動画コンテンツアイテムの各フレームに関連する品質インジケータを使用して、より高い品質インジケータを有する動画コンテンツアイテムの第1の部分の視聴者が、比較的高い解像度を有する形式(たとえば、本来のコンテンツ)で送信されることによって恩恵を被ること、およびより低い品質インジケータを有する動画コンテンツアイテムの第2の部分を、動画コンテンツアイテムの当該部分にほとんど知覚的影響がない比較的低い解像度を有する形式で提供できることを決定することができる。

さらに別の例では、プロセス100は、サービスプロバイダに全体的動画品質推定を送信することができ、このことによって、(たとえば、複数の動画が単一のイベントに存在する場合)サービスプロバイダが推奨システムを最適化することができるように、または視聴者に提示される動画コンテンツアイテムにほとんど知覚的影響がない低品質スコアを有する動画コンテンツアイテムをさらに圧縮するため、動画コンテンツアイテムの品質の理解を実現することができる。この例を続けて、プロセス100は、動画コンテンツアイテムと後続の動画コンテンツアイテムの間の全体的動画品質推定における違いなどといった、全体的動画品質推定に基づいて、フォーマットが第1の形式から潜在的な第2の形式に変更されるかをサービスプロバイダが決定することを可能にすることができる。

さらなる例では、プロセス100は、アップロードするユーザに動画コンテンツアイテムについてのフィードバックを提供するために、1つまたは複数のフレームの抽出した特徴および品質インジケータを使用することができ、抽出した特徴(たとえば、「ダンス」および「音楽のアンサンブル」のコンテンツラベル、「ガウス分布のぼやけ」および「色飽和」の歪みタイプ)は、動画コンテンツアイテムの1つまたは複数のフレームの知覚品質についてのラベルをアップロードするユーザに提供することができる。さらに、アップロードするユーザは、コンテンツ共有サービスにアップロードするため、動画コンテンツアイテムを変更すること(たとえば、動画コンテンツアイテムの全体的知覚品質を改善するため、動画コンテンツアイテムの1つまたは複数のフレームにおいて検出される歪みタイプを除去または減少させること)ができる。

図7を参照すると、開示される主題のいくつかの実施形態にしたがって使用できる、動画コンテンツアイテムの知覚品質インジケータを決定するためのハードウェアの説明の例700が示される。図示されるように、ハードウェア700は、サーバ702、通信ネットワーク704、ならびに/または、ユーザデバイス708および710などといった、1つまたは複数のユーザデバイス706を含むことができる。

サーバ702は、情報、データ、プログラム、メディアコンテンツ、および/または任意の他の好適なコンテンツを記憶するための任意の好適なサーバであってもよい。いくつかの実施形態では、サーバ702は、任意の好適な機能を実施することができる。たとえば、いくつかの実施形態では、図1に関して上で記載されたように、サーバ702は、アップロードされた動画コンテンツアイテムについて、アップロードされた動画コンテンツアイテムの全体的品質レベルならびに動画コンテンツアイテムのフレーム内に現れるコンテンツについてのコンテンツラベル、動画コンテンツアイテムのフレーム内で検出される歪みタイプ、動画コンテンツアイテムのフレームについての圧縮レベルを決定することができる。この例を続けて、サーバ702は、次いで、全体的品質レベルに基づいて、その推奨システムを最適化することができる。図1に関して上で示され記載されたように、サーバ702はまた、動画コンテンツアイテムのフォーマットを選択するために、動画コンテンツアイテムのフォーマットが異なるフォーマットに切り換えられるべきことを決定することによって最終結果に知覚的影響が少ないまたは知覚的影響がない低品質オリジナル動画をさらに圧縮すべきかどうかを決定すること、および/または任意の他の好適な情報を決定することができる。

通信ネットワーク704は、いくつかの実施形態では、1つまたは複数の有線および/またはワイヤレスネットワークの任意の好適な組合せであってもよい。たとえば、通信ネットワーク704は、インターネット、イントラネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、ワイヤレスネットワーク、デジタル加入者線(DSL)ネットワーク、フレームリレーネットワーク、非同期転送モード(ATM)ネットワーク、仮想私設ネットワーク(VPN)、および/または任意の他の好適な通信ネットワークのうちの任意の1つまたは複数を含むことができる。ユーザデバイス706は、サーバ702への1つまたは複数の通信リンク(たとえば、通信リンク714)を介してリンクすることができる通信ネットワーク704に対して1つまたは複数の通信リンク(たとえば、通信リンク714)によって接続することができる。通信リンクは、ネットワークリンク、ダイアルアップリンク、ワイヤレスリンク、有線リンク、任意の他の好適な通信リンク、またはそのようなリンクの任意の好適な組合せなどといった、ユーザデバイス706とサーバ702の間でデータを通信するのに好適な任意の通信リンクであってもよい。

ユーザデバイス706は、サーバ702からメディアコンテンツをアップロードおよび/またはストリーミングするのに好適な任意の1つまたは複数のユーザデバイスを含むことができる。いくつかの実施形態では、ユーザデバイス706は、モバイルフォン、タブレットコンピュータ、ウエラブルコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、スマートテレビジョン、メディアプレーヤ、ゲームコンソール、車両情報および/もしくはエンターテインメントシステム、ならびに/または任意の他の好適なタイプのユーザデバイスなどといった、任意の好適なタイプのユーザデバイスを含むことができる。いくつかの実施形態では、図1に関して上で記載したように、ユーザデバイス706が、動画コンテンツアイテムをサーバ702または任意の他の好適なコンテンツ共有サーバへのアップロードを開始し、それに応じて、ユーザデバイス706は、アップロードした動画コンテンツアイテムの全体的品質レベル、ならびに、動画コンテンツアイテムのフレーム内に現れるコンテンツについてのコンテンツラベル、動画コンテンツアイテムのフレーム内で検出される歪みタイプ、動画コンテンツアイテムのフレームについての圧縮レベルを受け取ることができる。ユーザデバイス706は、次いで、(たとえば、歪みが低減または除去されるように、アップロードした動画コンテンツアイテムを変更することによって全体的品質レベルを向上させるため)アップロードした動画コンテンツアイテムを変更するかどうかを決定することができる。

サーバ702は1つのデバイスとして図示されるが、サーバ702によって実施される機能は、いくつかの実施形態では、任意の好適な数のデバイスを使用して実施することができる。たとえば、いくつかの実施形態では、複数のデバイスを使用して、サーバ702によって実施する機能を実装することができる。

図を過剰に複雑にするのを避けるため、図7では、2つのユーザデバイス708および710が示されるが、任意の好適な数のユーザデバイスおよび/または任意の好適なタイプのユーザデバイスをいくつかの実施形態で使用することができる。

サーバ702およびユーザデバイス706は、いくつかの実施形態では、任意の好適なハードウェアを使用して実装することができる。たとえば、いくつかの実施形態では、デバイス702および706は、任意の好適な汎用コンピュータまたは専用コンピュータを使用して実装することができる。たとえば、モバイルフォンは、専用コンピュータを使用して実装することができる。任意のそのような汎用コンピュータまたは専用コンピュータは、任意の好適なハードウェアを含むことができる。たとえば、図8の例示のハードウェア800に図示されるように、そのようなハードウェアは、ハードウェアプロセッサ802、メモリおよび/または記憶域804、入力デバイスコントローラ806、入力デバイス808、ディスプレイ/音声ドライバ810、ディスプレイおよび音声出力回路812、通信インターフェース814、アンテナ816、およびバス818を含むことができる。

ハードウェアプロセッサ802は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、専用ロジック、および/またはいくつかの実施形態では、汎用コンピュータまたは専用コンピュータの機能を制御するための任意の他の好適な回路などといった、任意の好適なハードウェアプロセッサを含むことができる。いくつかの実施形態では、ハードウェアプロセッサ802は、サーバ702などのサーバのメモリおよび/または記憶域に記憶されるサーバプログラムによって制御することができる。いくつかの実施形態では、ハードウェアプロセッサ802は、ユーザデバイス706のメモリおよび/または記憶域804に記憶されるコンピュータプログラムによって制御することができる。

メモリおよび/または記憶域804は、プログラム、データ、および/または、いくつかの実施形態では任意の他の好適な情報を記憶するための、任意の好適なメモリおよび/または記憶域であってもよい。たとえば、メモリおよび/または記憶域804は、ランダムアクセスメモリ、読取り専用メモリ、フラッシュメモリ、ハードディスク記憶域、光媒体、および/または任意の他の好適なメモリを含むことができる。

入力デバイスコントローラ806は、いくつかの実施形態では、1つまたは複数の入力デバイス808を制御して入力を受け取るための、任意の好適な回路であってもよい。たとえば、入力デバイスコントローラ806は、タッチスクリーン、キーボード、1つまたは複数のボトン、音声認識回路、マイクロフォン、カメラ、光学センサ、加速度計、温度センサ、近接場センサ、圧力センサ、エンコーダ、および/または任意の他のタイプの入力デバイスからの入力を受け取るための回路であってもよい。

ディスプレイ/音声ドライバ810は、いくつかの実施形態では、1つまたは複数のディスプレイ/音声出力デバイス812を制御し1つまたは複数のディスプレイ/音声出力デバイス812への出力を駆動するための任意の好適な回路であってもよい。たとえば、ディスプレイ/音声ドライバ810は、タッチスクリーン、平面ディスプレイ、陰極線管ディスプレイ、プロジェクタ、1つまたは複数のスピーカ、ならびに/または任意の他の好適なディスプレイおよび/もしくは提示デバイスを駆動するための回路であってもよい。

通信インターフェース814は、1つまたは複数の通信ネットワーク(たとえば、コンピュータネットワーク704)とインターフェースするための任意の好適な回路であってもよい。たとえば、インターフェース814は、ネットワークインターフェースカード回路、ワイヤレス通信回路、および/または任意の他の好適なタイプの通信ネットワーク回路を含むことができる。

アンテナ816は、いくつかの実施形態では、通信ネットワーク(たとえば、通信ネットワーク704)とワイヤレスで通信するための任意の好適な1つまたは複数のアンテナであってもよい。いくつかの実施形態では、アンテナ416を省略することができる。

バス818は、いくつかの実施形態では、2つ以上の構成要素802、804、806、810、および814間で通信するための任意の好適なメカニズムであってもよい。

いくつかの実施形態にしたがって、任意の他の好適な構成要素をハードウェア800の中に含むことができる。

いくつかの実施形態では、図のプロセスの上で記載したブロックの少なくとも一部は、図に示され図に関して記載された順序および順番に限定されない任意の順序または順番で実行または実施することができる。また、上の図1のブロックのうちの一部は、待ち時間および処理時間を減らすため、適切な場合ほぼ同時に、または、平行に実行または実施することができる。追加または代替で、図1のプロセスの上で記載したブロックの一部を省略することができる。

いくつかの実施形態では、本明細書の機能および/またはプロセスを実施するための命令を記憶するために、任意の好適なコンピュータ可読媒体を使用することができる。たとえば、いくつかの実施形態では、コンピュータ可読媒体は、一時的または非一時的であってもよい。たとえば、非一時的コンピュータ可読媒体は、非一時的形式の磁気媒体(ハードディスク、フロッピーディスク、および/または任意の他の好適な磁気媒体)、非一時的形式の光媒体(コンパクトディスク、デジタルビデオディスク、ブルーレイディスク、および/または任意の他の好適な光媒体)、非一時的形式の半導体媒体(フラッシュメモリ、電気的プログラム可能読取り専用メモリ(EPROM)、電気的消去可能プログラム可能読取り専用メモリ(EEPROM)、および/または、任意の他の好適な半導体媒体)、通信期間の一時的でないまたは見せかけの永続性でない任意の好適な媒体、および/または任意の好適な有形の媒体などといった、媒体を含むことができる。別の例として、一時的コンピュータ可読媒体は、ネットワーク上、ワイヤ、導体、光ファイバ、回路、通信期間の一時的で見せかけの永続性でない任意の好適な媒体、および/または任意の好適な非一時的媒体中の信号を含むことができる。

ここで論じたシステムがユーザについての個人情報を収集する、または個人情報を使用する可能性がある状況では、ユーザは、プログラムまたは特徴がユーザ情報(たとえば、ユーザの社会的ネットワーク、社会的行為もしくは行動、専門性、ユーザの好み、またはユーザの現在の地位)を収集するかどうかを制御する、ならびに/または、ユーザにより関連深い可能性があるコンテンツをコンテンツサーバから受け取るかどうか、および/もしくはどのように受け取るかを制御する機会が与えられる場合がある。加えて、個人を識別可能な情報が除去されるように、ある種のデータは、それが記憶または使用される前に、1つまたは複数の方法で対処することができる。たとえば、ユーザについて個人を識別可能な情報が決定できない、または位置情報(町、郵便番号、または州のレベル)が得られるユーザの地理的位置を一般化することができ、その結果、ユーザの特定の位置を決定することができないように、ユーザの識別情報を処理することができる。こうして、ユーザは、ユーザについてどのように情報が収集され、コンテンツサーバによって使用されるかについての制御を行う場合がある。

したがって、動画コンテンツアイテムの知覚品質インジケータを決定するための方法、システム、および媒体が提供される。

本発明は、上記の例示の実施形態で記載および説明してきたが、本開示は、単に例として行われており、本発明の実装形態の詳細において、以下の請求項によってのみ制限される本発明の精神および範囲から逸脱することなく多数の変更を行うことができることを理解されよう。開示される実施形態の特徴は、様々な方式で組み合わせること、および再配置することができる。

100 プロセス
210 フレーム、入力
220 フレーム
222 コンテンツサブネットワーク、コンテンツネットワーク
224 出力
230 フレーム
232 歪みサブネットワーク、歪みネットワーク
234 出力
240 フレーム
242 圧縮サブネットワーク、圧縮ネットワーク
244 出力
250 チャンク特徴
260 総合サブネットワーク、総合ネットワーク
310 フレーム
312 予測
314 確率
320 フレーム
330 フレーム
410 フレーム
412 歪みタイプ
420 フレーム
430 フレーム
510 代表フレーム
512 圧縮レベルスコア
520 代表フレーム
530 代表フレーム
610 代表フレーム
620 コンテンツラベル
630 コンテンツ品質インジケータ、CT
640 歪みタイプ
650 動画歪みインジケータ、DT
670 圧縮感度インジケータ、CP
680 全体的品質レベル、CP+CT+DT
700 ハードウェア
702 サーバ
704 通信ネットワーク
706 ユーザデバイス
708 ユーザデバイス
710 ユーザデバイス
714 通信リンク
800 ハードウェア
802 ハードウェアプロセッサ
804 メモリおよび/または記憶域
806 入力デバイスコントローラ
808 入力デバイス
810 ディスプレイ/音声ドライバ
812 ディスプレイおよび音声出力回路
814 通信インターフェース
816 アンテナ
818 バス

Claims

動画コンテンツアイテムを受け取るステップと、
前記動画コンテンツアイテムから複数のフレームを抽出するステップと、
ディープニューラルネットワークの第1のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定するステップと、
前記ディープニューラルネットワークの第2のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、動画歪みインジケータを決定するステップと、
前記ディープニューラルネットワークの第3のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定するステップと、
前記コンテンツ品質インジケータ、前記動画歪みインジケータ、および前記圧縮感度インジケータを連結する、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての品質レベルを、前記動画コンテンツアイテムの当該フレームについて生成するステップと、
前記複数のフレームのうちの各フレームの前記品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成するステップと、
前記動画コンテンツアイテムの前記全体的品質レベルに基づいて動画推奨を提示させるステップと、
を含む、動画品質評価のための方法。
前記コンテンツ品質インジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての意味レベル埋込みを表し、前記ディープニューラルネットワークの前記第1のサブネットワークが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームに現れるコンテンツを記載する予測されるコンテンツラベルをさらに出力する、請求項1に記載の方法。
前記動画歪みインジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての歪み感度埋込みを表し、前記ディープニューラルネットワークの前記第2のサブネットワークが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームにおいて検出された歪みを記載する検出歪みタイプをさらに出力する、請求項1に記載の方法。
前記圧縮感度インジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての圧縮感度埋込みを表し、前記ディープニューラルネットワークの前記第3のサブネットワークが圧縮レベルスコアをさらに出力する、請求項1に記載の方法。
前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについてのチャンク毎スコアを出力し前記チャンク毎スコアを平均する畳込みニューラルネットワークを使用して、前記全体的品質レベルが生成される、請求項1に記載の方法。
前記動画推奨が、前記全体的品質レベルに基づいて前記動画コンテンツアイテムをさらに圧縮するための推奨を含む、請求項1に記載の方法。
前記動画推奨が、前記動画コンテンツアイテムの一部を前記動画コンテンツアイテムの当該フレームに関連する前記品質レベルに基づいて変更するための、前記動画コンテンツアイテムのアップローダに対する推奨を含む、請求項1に記載の方法。
動画コンテンツアイテムを受け取ることと、
前記動画コンテンツアイテムから複数のフレームを抽出することと、
ディープニューラルネットワークの第1のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定することと、
前記ディープニューラルネットワークの第2のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、動画歪みインジケータを決定することと、
前記ディープニューラルネットワークの第3のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定することと、
前記コンテンツ品質インジケータ、前記動画歪みインジケータ、および前記圧縮感度インジケータを連結する、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての品質レベルを、前記動画コンテンツアイテムの当該フレームについて生成することと、
前記複数のフレームのうちの各フレームの前記品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成することと、
前記動画コンテンツアイテムの前記全体的品質レベルに基づいて動画推奨を提示させることと、をするように構成されるハードウェアプロセッサ、
を備える、動画品質評価のためのシステム。
前記コンテンツ品質インジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての意味レベル埋込みを表し、前記ディープニューラルネットワークの前記第1のサブネットワークが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームに現れるコンテンツを記載する予測されるコンテンツラベルをさらに出力する、請求項8に記載のシステム。
前記動画歪みインジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての歪み感度埋込みを表し、前記ディープニューラルネットワークの前記第2のサブネットワークが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームにおいて検出された歪みを記載する検出歪みタイプをさらに出力する、請求項8に記載のシステム。
前記圧縮感度インジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての圧縮感度埋込みを表し、前記ディープニューラルネットワークの前記第3のサブネットワークが圧縮レベルスコアをさらに出力する、請求項8に記載のシステム。
前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについてのチャンク毎スコアを出力し前記チャンク毎スコアを平均する畳込みニューラルネットワークを使用して、前記全体的品質レベルが生成される、請求項8に記載のシステム。
前記動画推奨が、前記全体的品質レベルに基づいて前記動画コンテンツアイテムをさらに圧縮するための推奨を含む、請求項8に記載のシステム。
前記動画推奨が、前記動画コンテンツアイテムの一部を前記動画コンテンツアイテムの当該フレームに関連する前記品質レベルに基づいて変更するための、前記動画コンテンツアイテムのアップローダに対する推奨を含む、請求項8に記載のシステム。
プロセッサによって実行されるとき、前記プロセッサに
動画コンテンツアイテムを受け取るステップと、
前記動画コンテンツアイテムから複数のフレームを抽出するステップと、
ディープニューラルネットワークの第1のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、コンテンツ品質インジケータを決定するステップと、
前記ディープニューラルネットワークの第2のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、動画歪みインジケータを決定するステップと、
前記ディープニューラルネットワークの第3のサブネットワークを使用して、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについて、圧縮感度インジケータを決定するステップと、
前記コンテンツ品質インジケータ、前記動画歪みインジケータ、および前記圧縮感度インジケータを連結する、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての品質レベルを、前記動画コンテンツアイテムの当該フレームについて生成するステップと、
前記複数のフレームのうちの各フレームの前記品質レベルを総合することによって、動画コンテンツアイテムについての全体的品質レベルを生成するステップと、
前記動画コンテンツアイテムの前記全体的品質レベルに基づいて動画推奨を提示させるステップと、
を含む動画品質評価のための方法を実施させるコンピュータ実行可能命令を含む、非一時的コンピュータ可読媒体。
前記コンテンツ品質インジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての意味レベル埋込みを表し、前記ディープニューラルネットワークの前記第1のサブネットワークが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームに現れるコンテンツを記載する予測されるコンテンツラベルをさらに出力する、請求項15に記載の非一時的コンピュータ可読媒体。
前記動画歪みインジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての歪み感度埋込みを表し、前記ディープニューラルネットワークの前記第2のサブネットワークが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームにおいて検出された歪みを記載する検出歪みタイプをさらに出力する、請求項15に記載の非一時的コンピュータ可読媒体。
前記圧縮感度インジケータが、前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについての圧縮感度埋込みを表し、前記ディープニューラルネットワークの前記第3のサブネットワークが圧縮レベルスコアをさらに出力する、請求項15に記載の非一時的コンピュータ可読媒体。
前記動画コンテンツアイテムの前記複数のフレームのうちの各フレームについてのチャンク毎スコアを出力し前記チャンク毎スコアを平均する畳込みニューラルネットワークを使用して、前記全体的品質レベルが生成される、請求項15に記載の非一時的コンピュータ可読媒体。
前記動画推奨が、前記全体的品質レベルに基づいて前記動画コンテンツアイテムをさらに圧縮するための推奨を含む、請求項15に記載の非一時的コンピュータ可読媒体。
前記動画推奨が、前記動画コンテンツアイテムの一部を前記動画コンテンツアイテムの当該フレームに関連する前記品質レベルに基づいて変更するための、前記動画コンテンツアイテムのアップローダに対する推奨を含む、請求項15に記載の非一時的コンピュータ可読媒体。