JP7487353B2

JP7487353B2 - メディアコンテンツ項目内の視聴時間損失領域の決定

Info

Publication number: JP7487353B2
Application number: JP2022580975A
Authority: JP
Inventors: ウェンボ・ジャン; カーティキー・グプタ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2024-05-20
Anticipated expiration: 2041-07-28
Also published as: EP4154545A1; US20240171784A1; WO2023009114A1; US20230319326A1; CN115885322A; JP2023538802A; KR20230018453A; US11949924B2

Description

本明細書は、一般に、データ処理ならびにメディアコンテンツ項目内の視聴時間損失領域の決定に関する。

ユーザにストリーミングされるビデオは、一般に元のビデオストリームの上部にオーバーレイされた、1つまたは複数のデジタル構成要素を含み得る。オーバーレイコンテンツは、元のビデオスクリーンの一部をオーバーレイする矩形領域内でユーザに提供され得る。デジタル構成要素はまた、元のビデオストリームの前、その間、またはその後に再生されるインストリーム(in-stream)コンテンツを含み得る。

本明細書を通して使用する「デジタル構成要素」という句は、個別単位のデジタルコンテンツまたはデジタル情報(たとえば、ビデオクリップ、オーディオクリップ、マルチメディアクリップ、画像、テキスト、または別の単位のコンテンツ)を指す。デジタル構成要素は、単一のファイルとして物理メモリデバイス内にまたはファイルの収集物内に電気的に記憶されることが可能であり、デジタル構成要素は、ビデオファイル、オーディオファイル、マルチメディアファイル、画像ファイル、またはテキストファイルの形をとってよい。たとえば、デジタル構成要素は、ビデオまたは他のリソースのコンテンツを補足するよう意図されたコンテンツであってよい。より具体的には、デジタル構成要素は、リソースコンテンツに関連するデジタルコンテンツを含み得る(たとえば、デジタル構成要素は、ビデオ上のトピック/コンテンツと同じまたはさもなければそれに関するトピックに関係し得る)。デジタル構成要素の提供は、したがって、ウェブページまたはアプリケーションコンテンツを補足し得、また一般に拡張し得る。

一般に、本明細書で説明する主題の1つの発明的態様は、第1のビデオを受信するステップ、第1のビデオに関する特徴のセットを決定するステップ、第1のビデオに関する特徴のセットをトレーニングされたモデル内に入力するステップであって、(1)トレーニングされたモデルが、特定のビデオ内の視聴時間損失領域を出力するようにトレーニングされ、(2)トレーニングされたモデルが、複数のトレーニングビデオ内の既知の視聴時間損失領域に対応する標示と既知の視聴時間損失領域に対応する複数のトレーニングビデオの特徴とを使用してトレーニングされ、(3)特定のビデオに対する視聴時間損失領域が、その間にユーザが特定のビデオの再生を停止する尤度がしきい値尤度を上回る特定のビデオの時間窓を定義する、入力するステップ、第1のビデオに関する特徴のセットのトレーニングされたモデル内への入力に応答して、第1のビデオに対する視聴時間損失領域に関するデータをトレーニングされたモデルから取得するステップ、および第1のビデオをユーザに提供することに関与するエンティティに、第1のビデオに対する視聴時間損失領域に関するデータを提供するステップの動作を含む方法で実施され得る。本態様の他の実施形態は、対応する方法、装置、およびコンピュータ記憶デバイス上で符号化された、これらの方法のアクションを実施するように構成されたコンピュータプログラムを含む。これらのおよび他の実施形態は各々、以下の特徴のうちの1つまたは複数を随意に含んでよい。

本明細書で説明する主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するために実装され得る。本明細書で説明する技法は、ビデオストリーム内のデジタル構成要素がビデオの再生中にユーザによって視聴/再生される可能性が高いように、ビデオストリーム内のそのデジタル構成要素の配置を決定するために使用され得る、ビデオ内の視聴時間損失情報の識別を可能にする。視聴時間損失領域を明らかにしない場合、デジタル構成要素は視聴時間損失領域の後に生じるビデオの部分内に配置されることがあり、これはデジタル構成要素が再生されていない尤度を増大する。これは、最終的にユーザによって消費されないデジタル構成要素を提供および受信するためのコンピューティングリソースの浪費をもたらす。対照的に、ビデオ中に表示/再生されることになるようにデジタル構成要素を配置するとき、ビデオの視聴時間損失領域を明らかにすることによって、デジタル構成要素がビデオ再生中に再生される尤度は増大し、デジタル構成要素を提供および受信するために要求されるコンピューティングリソースは浪費されない。さらに詳細には、メディアコンテンツシステムは、視聴時間損失領域が決定される前のデジタル構成要素再生時間点を選択することによってリソース節約を達成する。視聴時間損失領域の前のデジタル構成要素再生配置を選択することによって、消費されないデジタル構成要素を提供する尤度は低減される(または反対に、デジタル構成要素が消費される尤度が増大される)。

視聴時間損失領域情報は、他の目的に使用されてもよい。たとえば、視聴時間損失情報は、メディアコンテンツ項目所有者に提供され得る。メディアコンテンツ項目所有者は、コンテンツ項目のどの部分の間にユーザがコンテンツ項目の再生を放棄する可能性が高いかを知ることに関心をもつことがある。コンテンツ項目所有者に視聴時間損失情報を表面化することによって、コンテンツ項目所有者は、視聴時間損失領域を認識することができるようになる。それに応じて、コンテンツ項目所有者は、メディアコンテンツ項目の視聴時間損失領域を低減または変更するためにメディアコンテンツ項目を再加工または調整することを決定し得る。より少ないまたはより短い視聴時間損失領域を含む、調整されたメディアコンテンツ項目は、経時的に、より多いまたはより長い視聴時間損失領域を有するメディアコンテンツ項目よりもより多くの割合でユーザによって消費されることになる。したがって、より少数のかつ/またはより短い視聴時間損失領域を有するメディアコンテンツ項目を提供することはよりリソース効率が高いが、これは、リソースの浪費(たとえば、消費されないリソースの提供)が経時的に低減されることになるためである。

加えて、ビデオ内にデジタル構成要素を配置および提供するときにビデオの視聴時間損失領域を明らかにすることは、(視聴時間損失領域を明らかにしないデジタル構成要素の配置および提供から生じる視聴率と比較して)ビデオおよび関連するデジタル構成要素の視聴率の増大をもたらし得る。これは、(視聴時間損失領域を明らかにしない場合に、ビデオ内のその配置によりユーザによって無視または逃されることと対照的に)デジタル構成要素が実際にユーザによって消費/視聴されていることにより、デジタル構成要素からより多くの収益をもたらし得る。

視聴時間損失領域情報は、メディアコンテンツ、およびメディアコンテンツとともに提示されることになるデジタル構成要素のサービングおよび他の処理を最適化するために使用されてもよい。たとえば、決定された視聴時間損失領域の前にビデオとともに再生されることがスケジュールされるデジタル構成要素の第1のセットは、(たとえば、デジタル構成要素の第1のセットが再生されることがスケジュールされる前に、また場合によってはビデオの提供とともにであっても)優先度ごとにコンテンツプロバイダによってクライアントデバイスに送られ得る。第1の決定された視聴時間損失領域の後に再生されることがスケジュールされるデジタル構成要素の他のセットは、(たとえば、まさにデジタル構成要素が再生されることがスケジュールされるとき)オンデマンドでコンテンツプロバイダによって提供され得る。たとえば、一部のユーザは各視聴時間損失領域中にビデオの視聴を停止する傾向があるため、コンテンツプロバイダは、第1の視聴時間損失領域の前に高い優先度のデジタル構成要素を提供し、各後続の視聴時間損失領域の前により低い優先度のデジタル構成要素を提供し得る。諒解されるように、これは、視聴時間損失領域の後に再生されることがスケジュールされるデジタル構成要素は、ビデオが再生される場合のみ、またはユーザが特定のデジタル構成要素が必要とされる前に再生を停止していない場合のみ、コンテンツプロバイダによって提供され得るという点で、リソースのより効率的な使用をもたらす。

本明細書で説明する機械学習手法は、本来なら可能ではない技術的利点を達成し得る。メディアコンテンツシステムは、たとえば、数十億ものコンテンツ項目を提供し得る。視聴時間損失領域を手動で決定し、数十億ものコンテンツ項目に対するデジタル構成要素配置を決定することは、実行不可能である。視聴時間損失領域を決定するために手動の手法を使用するのではなく、本明細書で説明する機械学習システムを使用して、メディアコンテンツ項目を分析し、メディアコンテンツ項目内の視聴時間損失領域を自動的に決定することが可能である。加えて、機械学習システムは、それに関してユーザ対話データがほとんど存在しないかまたはまったく存在しないメディアコンテンツ項目に対する視聴時間損失領域を自動的に予測し得る。機械学習システムを使用しない場合、視聴時間損失情報を直接計算することが可能であるためには、かなりの量のリソースを使用して、かなりの量のユーザ対話データが収集されなければならないことになる。機械学習システムの使用は、ユーザ対話データの収集および実世界データの処理を待たずに、またはそのためにリソースを拡張せずに、新たに作成されたビデオに対してすら、視聴時間損失情報の予測を可能にし得る。

本明細書で説明する主題の1つまたは複数の実施形態の詳細が添付の図面および以下の説明において記載される。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。

デジタルコンテンツがクライアントデバイス上に表示するために配信および提供される例示的な環境のブロック図である。メディアコンテンツ項目内の視聴時間損失領域を決定するための例示的なシステムを示す図である。ビデオに対する例示的な視聴時間損失グラフを示す図である。視聴時間損失領域を決定するための例示的な疑似コードを示す図である。視聴時間損失モデルの例示的なアーキテクチャを示す図である。メディアコンテンツ項目内の視聴時間損失領域を決定するための例示的なプロセスの流れ図である。説明する動作を実施するために使用され得る例示的なコンピュータシステムのブロック図である。

本明細書は、一般に、メディアコンテンツ項目内の視聴時間損失領域を決定することに関する。メディアコンテンツシステムは、メディアコンテンツ(たとえば、ビデオコンテンツ、オーディオコンテンツ)を視聴者に提供し得る。ユーザは、一般に、開始から完了までメディアコンテンツ項目を消費しないことがある。様々な理由で、ユーザは、メディアコンテンツ項目の完了前のある時点でメディアコンテンツ項目の再生をやめるかまたは放棄することがある。ユーザが再生を放棄する可能性があり得るメディアコンテンツ項目再生のタイムフレームは、視聴時間損失領域と呼ばれることがある。別の定義として、特定のビデオに対する視聴時間損失領域は、ユーザが時間窓内で特定のビデオの再生を停止する尤度がしきい値尤度を上回る特定のビデオの時間窓を表し得る。

以下で要約され、本明細書を通して説明するように、この請願書で説明する技法は、トレーニングされた視聴時間損失モデルを使用して入力ビデオに対して予測される視聴時間損失領域の自動決定を可能にする。視聴時間損失モデルは、トレーニングビデオのセットを使用してモデルトレーナーによってトレーニングされ得る。視聴時間損失曲線は、各トレーニングビデオに対して、トレーニングビデオに対するユーザ対話データ(たとえば、ビデオセッション開始/停止時間)に基づいて、視聴時間損失曲線生成器によってトレーニングビデオに対して生成され得る。視聴時間損失領域は、視聴時間損失領域識別子によってトレーニングビデオに対して生成された視聴時間損失曲線内で決定され得る。視聴時間損失領域識別子は、視聴時間損失曲線の平均傾斜を決定し、平均傾斜よりも大きい傾斜を有する視聴時間損失曲線の領域を決定することによって視聴時間損失領域を識別し得る。視聴時間損失モデルは、トレーニングビデオに対して決定された視聴時間損失領域に基づいてトレーニングされ得る。具体的には、視聴時間損失モデルは、トレーニングビデオに対して決定された視聴時間損失領域と(たとえば、特徴抽出器によって決定され得る)視聴時間損失領域の所定の時間窓内で生じるトレーニングビデオの特徴とに基づいてトレーニングされ得る。

トレーニングされた視聴時間損失モデルは、入力ビデオに対する視聴時間損失領域を予測するために使用され得る。入力ビデオは、たとえば、それに関するユーザ対話データがほとんど存在しないかまたはまったく存在しないビデオであってよい。特徴抽出器は、入力ビデオに対する特徴のセットを決定し、入力ビデオに対する特徴のセットをトレーニングされた視聴時間損失モデル内に入力し得る。トレーニングされた視聴時間損失モデルは、入力ビデオの入力特徴に対して予測される視聴時間損失領域に関するデータを出力し得る。予測される視聴時間損失領域に関するデータは、予測される視聴時間領域の開始および停止時間、ビデオ内の視聴時間領域のカウント、ビデオ内の視聴時間損失領域の総持続時間、または識別された視聴時間損失領域に対応するビデオの長さの割合を含んでよい。

入力ビデオに対して予測される視聴時間損失領域に関するデータは、様々な目的で使用されてよい。たとえば、入力ビデオに対して予測される視聴時間損失領域に関するデータは、第1のビデオに対する視聴時間損失領域に関するデータを使用して、デジタル構成要素を再生する入力ビデオ内の時間点を決定するためにコンテンツプロバイダに提供され得る。たとえば、コンテンツプロバイダは、決定された視聴時間損失領域の前の入力ビデオ内のデジタル構成要素再生時間点を選択することができ、これは、上記で説明したような、様々なタイプのリソース節約を達成し得る。別の例として、予測される視聴時間損失領域に関するデータは、入力ビデオの所有者に提供され得る。入力ビデオの所有者は、視聴時間損失領域のカウントまたは持続時間を低減するために入力ビデオを修正することを選定し得る。したがって、更新された入力ビデオは、完了または後の時間点まで消費される可能性が高い可能性があり、これは、実際に消費されるコンテンツの提供にリソースを費やすことに対してリソース効率をもたらし得る。これらの特徴ならびに追加の特徴および利点については、図1から図7を参照しながら以下でより詳細にさらに説明する。

本明細書を通した説明に加えて、ユーザが、本明細書で説明するシステム、プログラム、または特徴がユーザ情報(たとえば、ユーザのソーシャルネットワーク、ソーシャルアクション、またはアクティビティ、専門、ユーザの選好、またはユーザの現在のロケーションに関する情報)の収集を可能にし得るかどうかと、サーバからコンテンツまたは通信がユーザに送られるかどうかの両方に関して、ユーザが選択を行うことを可能にする制御がユーザに提供され得る。加えて、一定のデータは、個人識別可能情報が除去されるように、そのデータが記憶または使用される前に1つまたは複数の方法で扱われてよい。たとえば、ユーザの識別子は、そのユーザに関する個人識別可能情報を決定することができないように扱われてよく、またはユーザの地理的ロケーションは、(都市、郵便番号、州レベルなど)ロケーション情報が取得される場合、ユーザの特定のロケーションを決定することができないように一般化されてよい。したがって、ユーザは、ユーザに関して何の情報が収集されるか、その情報がどのように使用されるか、何の情報がユーザに提供されるかに対して制御を有し得る。

図1は、デジタルコンテンツがクライアントデバイス上に表示するために配信および提供される例示的な環境100のブロック図である。例示的な環境100は、ネットワーク104を含む。ネットワーク104は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネット、またはこれらの組合せを含んでよい。ネットワーク104は、任意のタイプのワイヤードおよび/またはワイヤレスネットワーク、衛星ネットワーク、ケーブルネットワーク、Wi-Fiネットワーク、モバイル通信ネットワーク(たとえば、3G、4Gなど)、またはこれらの任意の組合せを含んでもよい。ネットワーク104は、インターネットプロトコル(IP)、送信制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、または他のタイプのプロトコルなど、パケットベースおよび/またはデータグラムベースのプロトコルを含めて、通信プロトコルを使用し得る。ネットワーク104は、ネットワーク通信を円滑にする、かつ/またはスイッチ、ルータ、ゲートウェイ、アクセスポイント、ファイヤーウォール、基地局、リピータ、またはこれらの組合せなど、ネットワークのためのハードウェアベースを形成する、いくつかのデバイスをさらに含んでよい。

ネットワーク104は、クライアントデバイス102、コンテンツプラットフォーム106、コンテンツプロバイダ108、およびビデオ処理システム110を接続する。例示的な環境100は、多くの異なるコンテンツプラットフォーム106、ビデオ処理システム110、クライアントデバイス102、およびコンテンツプロバイダ108を含んでよい。

コンテンツプラットフォーム106は、コンテンツの配信を可能にするコンピューティングプラットフォーム(たとえば、図7を参照しながら説明するネットワークサーバまたは別のデータ処理装置など)である。例示的なコンテンツプラットフォーム106は、検索エンジン、ソーシャルメディアプラットフォーム、ビデオ共有プラットフォーム、ニュースプラットフォーム、データアグリゲータプラットフォーム、または他のコンテンツ共有プラットフォームを含む。各コンテンツプラットフォーム106は、コンテンツプラットフォームサービスプロバイダによって動作させられ得る。

コンテンツプラットフォーム106は、その独自のコンテンツを公開し利用可能にすることができる。たとえば、コンテンツプラットフォーム106は、その独自のニュース記事を公開するニュースプラットフォームであってよい。コンテンツプラットフォーム106は、コンテンツプラットフォーム106の一部ではない、1つまたは複数のコンテンツプロバイダ108によって提供されるコンテンツを表示することも可能である。上記の例では、ニュースプラットフォームは、1つまたは複数のコンテンツプロバイダ108によって提供される第三者コンテンツを表示することもできる。別の例として、コンテンツプラットフォーム106は、その独自のコンテンツは公開しないが、異なるコンテンツプロバイダ108によって提供される第三者コンテンツをアグリゲートし表示する、データアグリゲータプラットフォームであってよい。

いくつかの実装形態では、コンテンツプラットフォーム106は、クライアントデバイスに関する一定の情報(たとえば、デバイス選好情報、コンテンツ消費情報など)を記憶し得る。そのようなユーザ情報は、たとえば、クライアントデバイス102に提供されるコンテンツを調整するために、またはクライアントデバイス102によって頻繁にアクセスされる特定のコンテンツに対する容易なアクセスを可能にするために、コンテンツプラットフォームによって使用され得る。いくつかの実装形態では、コンテンツプラットフォーム106は、そのようなデバイス情報をプラットフォーム上に記憶することができないが、コンテンツプラットフォーム106は、それでもなお、(コンテンツプラットフォームとは別の)特定のサーバ上に記憶するために、そのような情報を提供し得る。(本明細書でコンテンツプラットフォーム/サーバ106または単にサーバとも呼ばれる)コンテンツプラットフォーム106は、したがって、そのようなデバイス情報を記憶するコンテンツプラットフォームまたはそのようなデバイス情報を記憶する(コンテンツプラットフォームとは別の)サーバと呼ばれる。

いくつかの実装形態では、コンテンツプラットフォーム106は、それを通してユーザがストリーミングされたビデオコンテンツを視聴し得るビデオサービスである。ユーザにストリーミングされるビデオは、元のビデオストリームの上部にオーバーレイされる(たとえば、コンテンツプロバイダ108によって提供される)1つまたは複数のデジタル構成要素を含んでよい。たとえば、デジタル構成要素をビデオストームの視聴者に提供し、所与のビデオストリーミング帯域幅に対する視聴エリア内で送達されるコンテンツの品質を改善するために、下にあるビデオストリーム上にオーバーレイコンテンツを提供することが一般に望ましいことがある。ビデオストリーミングシナリオの追加または代替として、コンテンツプラットフォーム106は、オーバーレイコンテンツを含めるようにビデオファイルを修正するためにビデオファイルを処理するビデオプロセッサを含んでよく、オーバーレイコンテンツを用いて処理されたビデオファイルはクライアントデバイス102上に表示するためにクライアントデバイス102に提供される。

ビデオ処理システム110は、所与のビデオに対して予測される視聴時間損失領域を決定し、視聴時間損失領域情報を(上記で要約され、図2から図6を参照しながらさらに説明するように)異なるエンティティまたはシステムに提供し得る。たとえば、ビデオ処理システム110は、コンテンツプロバイダ108が予測される視聴時間損失領域の前にデジタル構成要素をスケジュールすることができるように、視聴時間損失領域に関する情報/データをコンテンツプロバイダ108に提供し得る。別の例として、視聴時間損失情報は、ビデオに対するフィードバックとして、ビデオの所有者のクライアントデバイス102に提供され得る。所有者は、たとえば、視聴時間損失情報に基づいてビデオを調整し得る。

いくつかの実装形態では、ビデオ処理システム110は、トレーニングされたモデルを使用して、(本明細書で要約され、図2、図5、および図6を参照しながらさらに説明するように)視聴時間損失情報を生成する。すなわち、トレーニングされたモデルは、特定の入力ビデオ内の視聴時間損失領域を出力するようにトレーニングされ得る。トレーニングされたモデルは、複数のトレーニングビデオ内の既知の視聴時間損失領域と既知の視聴時間損失領域に対応する複数のトレーニングビデオの特徴とを使用してトレーニングされ得る。モデルがトレーニングされると、入力ビデオは、トレーニングされたモデルを使用して、ビデオ処理システム110によって処理され得る。特徴(たとえば、ビデオ特徴、オーディオ特徴、意味的特徴)のセットが入力ビデオに対して決定され得、これらの特徴がトレーニングされたモデルに提供され得る。トレーニングされたモデルは、入力ビデオ内の視聴時間損失領域を識別し得る。例示的環境100のこれらの構成要素の追加の構造上および動作上の態様については、図2から図7を参照しながら以下で説明する。

図2は、メディアコンテンツ項目内の視聴時間損失領域を決定するための例示的なシステム200を示す。システム200は、たとえば、以下で説明する、上記で説明したビデオ処理システム110の構成要素を示す。システム200の構成要素は各々、プロセッサなど、処理エンティティによって実行される命令を含むソフトウェア構成要素である。

ビデオリポジトリ202(たとえば、データベースまたは他の記憶デバイス)は、たとえば、コンテンツプラットフォーム106によって管理されるビデオを含む。トレーニングビデオ204のセットは、視聴時間損失モデル206のトレーニングのために、ビデオリポジトリ202から(たとえば、アドミニストレータまたはトレーニングビデオ選択器205によって)選択され得る。いくつかの実装形態では、トレーニングビデオ204は、視聴の数に基づいて(たとえば、アドミニストレータまたはトレーニングビデオ選択器205によって)ビデオリポジトリ202から選択され得る。たとえば、特定のビデオが有した視聴が多ければ多いほど、(たとえば、ユーザアクティビティログ208内に記憶された)ビデオに対してより多くの対話データ(以下で説明する)が存在する。したがって、トレーニングビデオ204は、たとえば、上位X個の最も視聴されたビデオを含み得るか、または少なくともY回視聴されているビデオを含み得る。最も視聴されたビデオを選択することによって、視聴時間損失曲線生成器210によって生成された視聴時間損失曲線は、(図3～図4を参照しながら以下でさらに説明する)最大量の対話データに基づき得る。

ユーザアクティビティログ208内に含まれる対話データは、ビデオの各ビデオ視聴セッションに対して、ユーザがビデオの視聴を開始した開始時間と、ユーザがビデオ視聴セッションを終了した終了時間とを示す開始および停止時間情報を含んでよい。終了時間は、ビデオの終了に対応し得るか、またはビデオの終了前の時間点であってよい。開始および停止時間情報に加えて、ユーザアクティビティログは、ビデオ内のデジタル構成要素とのユーザ対話など、他のタイプのデータを含んでもよい。ユーザアクティビティログ208内に含まれる情報は、PIN(個人識別可能情報)が記憶されないように匿名化されてよい。

視聴時間損失曲線生成器210は、ユーザアクティビティログ208内に含まれたトレーニングビデオに関してアグリゲートされた情報からトレーニングビデオ204内の各それぞれのトレーニングビデオに対して視聴時間損失曲線を作成し得る。視聴時間損失曲線生成器210によって生成される例示的な視聴時間損失曲線については、図3を参照しながら以下に説明し示す。

図3は、ビデオに対する例示的な視聴時間損失グラフ300を示す。ビデオは、図2に関して上記で説明したトレーニングビデオ204のうちの1つであってよい。

図3に示すように、X軸302は、ビデオの長さの比率に対応する。たとえば、X軸上の(304と標示された)0の値はビデオの開始に対応し、X軸上の(306と標示された)1の値はビデオの終了に対応する。Y軸308は、所与のビデオ時間点においてまだビデオを視聴しているビデオに対するビデオセッションの視聴者の比率に対応する。たとえば、視聴時間損失曲線312上の点310では、Y軸上の1の値およびX軸上の0の値は、100%の視聴者が、そのビデオ視聴セッションの開始時にビデオを視聴していることを示す。点314では、Y軸上の0.5の値およびX軸上の0.48の値は、48%のビデオ時間が完了/経過した時点で50%の視聴者が残り、ビデオを視聴し続けていることを示す。言い換えれば、視聴時間損失曲線上のこの点はまた、48%のビデオ時間が完了/経過した時点で50%の視聴者が視聴を停止したことを示す。点316では、Y軸上の0.08の値およびX軸上の1の値は、8%の視聴者が、ビデオのまさに終了までビデオを視聴したことを示す。

図2を再度短く参照すると、視聴時間損失領域識別子212は、視聴時間損失曲線生成器210によって作成された視聴時間損失曲線に基づいてトレーニングビデオ204の視聴時間損失領域を識別し得る。識別された視聴時間損失領域情報は、視聴時間損失領域識別子212によって視聴時間損失領域リポジトリ213内に記憶され得る。視聴時間損失領域識別子212は、ビデオの所与の視聴時間曲線に対して、曲線の傾斜が曲線全体の平均傾斜を上回る曲線の部分として、視聴時間損失領域を識別し得る。

たとえば、図3を再度参照すると、平均傾斜が視聴時間損失曲線312に対して視聴時間損失領域識別子212によって決定されている。平均傾斜は、グラフ300においてライン318によって表されている。識別された視聴時間損失領域320、322、および324は、視聴時間損失曲線312の傾斜が平均傾斜を上回る視聴時間損失曲線312の領域に対応する。平均傾斜を超える、識別された視聴時間損失領域320、322、または324は、たとえば、ビデオのそれらの時間窓における視聴者のかなりの減少に対応し得る。識別された視聴時間損失領域320、322、および324に関する情報など、識別された視聴時間損失領域に関する情報は、視聴時間損失領域識別子212によって視聴時間損失領域リポジトリ213内に記憶され得る。

視聴時間損失領域識別子212による視聴時間損失領域の決定に関する追加の詳細については、図4に関して下記で論じる。

図4は、視聴時間損失領域を決定するための例示的な疑似コード400を示す。疑似コード400に対応するコードは、たとえば、プロセッサによって実行され得、図2に関して上記で説明した視聴時間損失領域識別子212によって提供され得る。第1のセクション402は、平均傾斜手法を使用してビデオ内の視聴時間損失領域を見出すための疑似コードを含む。

コードライン404は、平均視聴時間を決定するためのコードを含む。視聴時間は、視聴時間損失曲線312など、視聴時間損失曲線のy軸の値を指す。視聴時間は、残りの人々(たとえば、一定の時間点においてビデオをまだ視聴している人々)の比率に等しい。残りの人々の比率(たとえば、人々の総数で除算した残りの人々のカウント)は、1のビデオ開始時における開始値を有し、曲線の終端における残りの人々の比率値は0である。したがって、曲線の開始点と終了点を結ぶラインの傾斜は、ビデオの長さ(たとえば、xの変化)によって除算された1(たとえば、yの変化)として計算され得る。

コードライン406は、ビデオの各時間点(たとえば、各秒)が処理される反復構造を開始し、コードライン408および410(以下で説明する)によってカプセル化された命令を通して反復する。

コードライン408において、現在の時間点の視聴時間と前の時間点の直前の視聴時間との間の差が平均視聴時間を上回るかどうかについて決定される。コードライン408は、現在の時間点と前の時間点の直前の時間点との間の視聴時間損失曲線の傾斜が平均傾斜を上回るかどうかを決定することに等しい。コードライン408はまた、現在の時間点における視聴時間損失曲線の局所微分が平均傾斜に満たないかどうかを決定することに対応する。ライン410において、現在の時間点の視聴時間と前の時間点の直前の視聴時間との間の差が平均視聴時間を上回る場合、その時間点が視聴時間損失領域に追加される。たとえば、第1の時間点が視聴時間損失領域に追加されるとするとき、新しい視聴時間損失領域が現在の視聴時間損失領域として「開かれ」てよく、その時間点が現在の視聴時間損失領域に追加され得る。コードライン408の決定がそれらの時間点に対して真に戻る限り、後続の連続時間点が現在の視聴時間損失領域に追加され得る。コードライン408における決定がある時間点に対して偽に戻る場合、現在の視聴時間損失領域は閉じられてよい。閉じられた視聴時間損失領域に関する情報は、識別された視聴時間損失領域に対応するとして視聴時間損失領域識別子212によって視聴時間損失領域リポジトリ213内に記憶され得る。コードライン408における決定が後続の時間点に対して真に戻る場合、現在の視聴時間損失領域として別の視聴時間損失領域が開かれてよい。

図3を再度参照すると、一般にビデオコンテンツに対して(たとえば、大部分の、すべての、またはほぼすべてのビデオに対して)、傾斜内の比較的急な降下は、平均傾斜と比較して、ビデオの開始および終了に対応する時間点において視聴時間損失曲線内で生じ得る。たとえば、ユーザの一部は、たとえば、ビデオが期待されるまたは望まれるコンテンツを含まない場合、ビデオの開始近くでビデオを放棄することがある。別の例として、ユーザの一部は、終了または終了近くまでビデオを視聴することがあるが、一般に、ビデオが完了に近づくにつれてビデオを放棄することがある。図3に示すように、視聴時間損失曲線312の開始時および終了時の曲線部分326および328は、それぞれ、平均傾斜と比較して比較的急な傾斜を有する。視聴時間損失曲線312のより平坦な中央部分330の傾斜は、視聴時間損失曲線312の開始時および終了時のより大きな傾斜により、一般に、視聴時間損失曲線312全体の平均傾斜よりも低い。したがって、(たとえば、視聴時間損失領域320、322、および324におけるように)より平坦な中央部分330の領域内でスロープが上昇し、平均傾斜よりも高くなる場合、視聴時間損失領域識別子212は、それらの領域を視聴時間損失領域として識別し得る。より平坦な中央部分330内の視聴時間損失領域内でビデオを放棄するユーザは、ビデオの特徴によりそれを行うことがある。特徴については、以下でより詳細に説明する。

(すべてまたはほぼすべてでない場合)すべてのビデオに対して大部分の視聴時間損失曲線は、平均傾斜と比較して、開始時および終了時の急な傾斜下降を示すため、開始および終了ビデオ部分は、すべての視聴時間損失曲線の大部分がそのような挙動を示すため、視聴時間損失領域識別に対して重要でないと見なされてよい。したがって、ビデオの開始時および終了時の視聴時間損失領域は、視聴時間損失モデル206をトレーニングする目的で、視聴時間損失領域識別子212によって識別されることから除外されてよい。視聴時間損失領域の除外に関するさらなる詳細については、図4に関して以下で論じる。

図4を再度参照すると、セクション412は、ビデオの開始からの連続視聴時間損失領域の除外(たとえば、除去)に対応し、セクション422は、ビデオの終了からの連続視聴時間損失領域の除去に対応する。視聴時間損失曲線は、典型的には、ビデオの開始および終了において比較的急な降下を有する。いくつかの実装形態では、ビデオの開始時に生じる第1の視聴時間損失領域およびビデオの終了時に生じる最後の視聴時間損失領域が、識別された視聴時間損失領域として視聴時間損失領域識別子212によって除去される。他の実装形態では、初期および終了視聴時間損失領域は、ライン412～422に関して以下で説明するように、時間点分析によって時間点を使用して除去され得る。

たとえば、ライン414は、ビデオの開始からの時間点(すなわち、t_i=t₁)を分析する反復構造を開始する。ライン416において、現在の時間点(t_i)に対して、次の時間点(t_i+1)が第1の視聴時間損失領域(たとえば、コードライン406～410の動作によって視聴時間損失領域として視聴時間損失領域識別子212によって識別されている領域)内にあるかどうかについて決定される。ライン418において、次の時間点が視聴時間損失領域内にある場合、現在の時間点が視聴時間損失領域から除去される。ライン420において、次の時間点が視聴時間損失領域内にないと、反復構造は終了される。初期視聴時間損失領域から開始時間点を除去することは、最初の急な降下の後に視聴時間損失曲線が平坦になり始めるまで、視聴時間損失領域に対する時間点の考慮を開始することを効果的に遅延させる可能性がある。ライン422は、ライン414上で開始する反復構造と同様の論理を含むが、逆に最後の時間点から開始してビデオの時間点を処理するための反復構造を開始する。

いくつかの実装形態では、かつ/またはいくつかのビデオに対して、識別される視聴時間損失領域の数を低減するために、異なる手法が使用されてよい。視聴時間損失領域低減手法は、たとえば、所定のしきい値領域を上回るビデオに対して識別されるときに使用され得る。いくつかの実装形態では、時間点は、最急降下を有する領域のみを含む視聴時間領域候補のより精細化されたリストを作成するために、微分の高いパーセンタイル値を使用して視聴時間損失領域からフィルタアウトされ得る。たとえば、最急降下を有する所定数の領域の各々が平均傾斜よりも急である限り、それらの領域は視聴時間損失領域として識別され得る。別の例として、第2の微分が(たとえば、各時間点において)計算され、識別された視聴時間損失領域のより精細化されたセットを作成するために使用され得る。たとえば、第2の微分が負である視聴時間損失曲線領域は、視聴時間損失領域として選択されてよく、第2の微分が負ではない視聴時間損失曲線領域は、視聴時間損失領域として選択されないままであってよい。

視聴時間損失領域識別子212によって識別された視聴時間損失領域は、モデルトレーナー215が視聴時間損失モデル206をトレーニングするとき、モデルトレーナー215によって標示214として使用されてよい。標示214を定義するために、iが視聴時間損失曲線生成器210によって生成された視聴時間損失曲線の所与の領域を表す、以下の式が使用され得る:
ターゲット標示: y⁽ⁱ⁾=視聴時間損失領域の場合は1、それ以外の場合は0

視聴時間損失モデル206は、ビデオ特徴データベース218から取り出され、かつ/または特徴抽出器219によって決定される、トレーニングビデオ204の特徴216を使用して、モデルトレーナー215によってトレーニングされてもよい。視聴時間損失モデル206をトレーニングするために使用される特徴216は、識別された視聴時間損失領域内に含まれる時間点の所定の時間窓内でトレーニングビデオ204内に生じる特徴を含んでよい。たとえば、所定の時間窓は、たとえば、視聴時間損失領域内の時間点の前後の構成可能なX秒(たとえば、Xは、15秒、6秒、9秒、または何らかの他の値であってよい)である時間点を含んでよい。モデルトレーナー215は、視聴時間損失領域の所定の時間窓内にある特徴が視聴時間損失領域の予測であり得るとの仮定に基づいて、視聴時間損失モデル206をトレーニングし得る。一般に、予測される視聴時間損失領域を生成するために異なる機械学習手法が視聴時間損失モデル206において使用されてよい。たとえば、視聴時間損失モデル206は、教師ありオフラインモデルであってよい。そのようなモデルでは、ビデオの決定された特徴とビデオ内の視聴時間損失領域を識別する対応する標示とを使用して、教師あり機械学習モデルがトレーニングされる(モデルトレーニングに関するさらなる詳細については、以下で図5および図6を参照しながら以下で説明する)。したがって、最も正確な予測をもたらす1つまたは複数の機械学習手法が使用され得る。視聴時間損失モデル206のための例示的なアーキテクチャについては、図5を参照しながら以下で説明する。

視聴時間損失モデル206をトレーニングするためにモデルトレーナー215によって使用される特徴216は、オーディオ特徴およびビデオ特徴など、様々なタイプの特徴を含んでよい。特徴抽出器219は、異なる特徴抽出モデル220に基づいて、ビデオの各秒および/またはビデオの各フレームに関する特徴を識別し得る。特徴抽出モデル220は、たとえば、画像モデルおよびオーディオモデルを含んでよい。オーディオ特徴は、音の様々なクラスに対応し得、1つまたは複数のオーディオモデルを使用して特徴抽出器219によって決定され得る。オーディオ特徴は、ビデオ内のオーディオ情報に関する埋込みおよび注釈を含んでよい。ビデオデータは、たとえば、色空間手法、対象検出および/または他の手法を使用して処理されてよい。ビデオ特徴は、色空間特徴、対象の存在または不在などに対応し得る。特徴216は、オーディオおよび/またはビデオデータ内で識別されている対象または意味的エンティティなど、特定のフレームに関する意味的情報を識別する注釈付き特徴を含んでよい。特徴抽出器219によって識別されたビデオ特徴は、たとえば、特徴抽出モデル220内に含まれた意味的モデルを使用して生成されたフレーム注釈を含んでよい。たとえば、人物が自転車に乗っているビデオのフレームの場合、意味的モデルは、「自転車に乗る」および「アスリート」の注釈を生成し得る。他の特徴は、ビデオ内の最も一般的な注釈など、微分特徴を含んでよい。いくつかの特徴は、未加工埋込み特徴であってよい。未加工埋込み特徴は、画像理解モデルによって生成されているビデオの出現を記述する特徴である。未加工埋込み特徴は、フレームまたは画像内の視覚的/意味的概念および同様のものをキャプチャし得る。

いくつかの実装形態では、特徴抽出器219に別個の特徴抽出モデル220を使用させて特徴を抽出し、抽出された特徴を視聴時間損失モデル206に提供するのではなく、トレーニングビデオ204が入力として視聴時間損失モデル206に提供され、視聴時間損失モデル206は、どの特徴が視聴時間損失モデルに対応するかを学習するために、機械学習を使用して、トレーニングビデオ204の各フレームおよび対応するオーディオを分析する。しかしながら、視聴時間損失モデル206に対してそのような手法を使用することは、トレーニングおよび分析のために許容できないリソース使用をもたらし得る。対応するオーディオとともに、すべてのフレームのすべての画素を完全に評価することは、許容できない複雑さ、サイズ、および処理を視聴時間損失モデル206に追加し得る。特徴抽出器219に別個の特徴抽出モデル220を使用させ、抽出された特徴を視聴時間損失モデル206に提供させることは、視聴時間損失モデル206の効率を改善し、視聴時間損失モデル206が、より少ないトレーニングリソースおよび処理リソースを使用して予測を行うことを可能にし得る。

上記で説明したようにモデルトレーナー215によってトレーニングされると、視聴時間損失モデル206は、入力ビデオ221に対して予測される視聴時間損失領域222を生成するために入力ビデオ221に適用され得る。入力ビデオ221は、たとえば、ユーザアクティビティログ208内に対話データがほとんど記憶されていないかまたはまったく記憶されていない、最近更新されたビデオであってよい。図5を参照しながら以下でより詳細に説明するように、入力ビデオ221の特徴224は、特徴抽出器219によって抽出され、入力として視聴時間損失モデル206に提供され得る。入力ビデオ221の特徴224は、トレーニングビデオ204に対して決定された特徴216と同様のタイプの特徴であってよい。入力ビデオ221に対して決定された特徴224は、次いで、トレーニングされた視聴時間損失モデル206内に入力され、トレーニングされた視聴時間損失モデル206は特徴224を使用して、入力ビデオ221に対して予測される視聴時間損失領域222を生成する。視聴時間損失モデル206は、各予測される視聴時間損失領域222に対して、予測される視聴時間損失領域222が視聴時間損失領域である尤度を表す信頼性スコアを生成し得る。予測される視聴時間損失領域222は、たとえば、信頼性スコアが所定のしきい値を上回る入力ビデオ221のビデオ部分を表し得る。

予測される視聴時間損失領域222は、様々な目的のために使用されてよく、かつ/または様々なエンティティに提供されてよい。たとえば、予測される視聴時間損失領域222は、デジタル構成要素を提示するためのビデオの特定の時間点を選択するために使用されてよい。たとえば、予測される視聴時間損失領域222の外部にある時間点(すなわち、先行する時間点)が入力ビデオ221の再生に関連付けられるデジタル構成要素を提示するための時間点として選択され得る。したがって、ユーザがデジタル構成要素(および入力ビデオ221)の再生を放棄する尤度は、予測される視聴時間損失領域の後に行われるデジタル構成要素再生に対して低減される。したがって、リソース消費はより効率的になり得るが、これは視聴されないコンテンツに対してリソースを拡張する尤度が低減されるためである。デジタル構成要素を予測される視聴時間損失領域222に先立って配置することによって生じる可能性があるデジタル構成要素の実際のより多くの視聴数から生じ得る追加の収益など、予測される視聴時間損失領域222の前にデジタル構成要素を提示する他の利点が達成され得る。

別の例として、ビデオ処理システム110は、予測される視聴時間損失領域222(また、場合によっては、対応する信頼性値)を(たとえば、ビデオ作成者が入力ビデオ221をコンテンツプラットフォーム106にアップロードした後など、ビデオスタジオ内で)ビデオ作成者または所有者に提供し得る。視聴時間損失情報の提示は、視聴時間損失情報生成器226によって生成される、導出された情報、アグリゲート情報、または提示情報を含んでもよい。たとえば、視聴時間損失情報生成器226は、入力ビデオ221に対して、予測される視聴時間損失領域222のカウント、予測される視聴時間損失領域222が入力ビデオ221内に存在するタイムラインビューまたは他の提示を記述する情報、および/または予測される視聴時間損失領域222に関する様々な他の統計または情報を含み得る導出された視聴時間損失情報228を生成し得る。たとえば、視聴時間損失情報生成器226は、予測される視聴時間損失領域222内に含まれた入力ビデオ221のランタイム(たとえば、予測される視聴時間領域/ビデオの全長の中に含まれた時間)の割合を計算し得る。さらに別の例として、入力ビデオ221に対するビデオ品質スコアは、予測される視聴時間損失領域222の総カウントおよび/または全持続時間に基づいてなど、予測される視聴時間損失領域222に少なくとも部分的に基づいて、視聴時間損失情報生成器226によって計算され得る。他の例は、視聴時間損失情報生成器226が、(たとえば、カテゴリー、持続時間、または他のビデオ特性において同様の他のビデオと比較した、視聴時間損失領域の総カウントおよび/または持続時間に関して)入力ビデオ221に対して予測される視聴時間損失領域222が他のビデオに対する視聴時間損失予測または計算とどのように比較されるかを示す情報を決定することを含み得る。導出された視聴時間損失情報228は、予測される視聴時間損失領域222とともに、たとえば、ビデオ作成者またはコンテンツプロバイダに提示され得る。

ビデオ作成者は、予測される視聴時間損失領域222に対して受信された情報を使用して、入力ビデオ221を調整して入力ビデオ221の品質を改善し得る。たとえば、ビデオ作成者は、予測される視聴時間損失領域222内のビデオコンテンツを調整または置換し、視聴時間損失モデル206を使用して再度処理されるように入力ビデオ221を再度アップロードし得る。視聴時間損失モデル206は、入力ビデオ221に対して新しい予測される視聴時間損失領域222を生成するために使用され得る。ビデオ作成者が入力ビデオ221に対して予測される視聴時間損失領域222のカウントおよび/または持続時間の低減に満足するまで、ビデオ作成者は、予測される視聴時間損失領域222情報の調整、アップロード、およびレビューを繰り返すことができる。

入力ビデオ221内の予測される視聴時間損失領域222のカウントおよび/または持続時間を低減することによって、ビデオ作成者は、リソースの利用に関してより効率的である改善されたビデオを作成し得る。たとえば、より少ない視聴時間損失領域を有するビデオは、より多くの数の視聴時間損失領域を有するビデオと比較して、より長い持続時間にわたって視聴される可能性が高いことになる。したがって、より少ない視聴時間損失領域を有するビデオの場合、ビデオをユーザに提示するために使用されるリソースが浪費される可能性は低くなる。加えて、ビデオの再生に関連付けられる再生のために提供されるデジタル構成要素を提供するために使用されるリソースは、より少ない視聴時間損失領域を有するビデオに対して浪費される可能性が低いことになる。ビデオ内の視聴時間損失領域がより少ないと、デジタル構成要素が視聴時間損失領域に対応する時間点においてビデオ内で再生される尤度は低減される。

視聴時間損失モデル206は、フィードバックループを使用して経時的に改善され得る。たとえば、入力ビデオ221が視聴時間損失モデル206を使用して処理されるとき、入力ビデオ221に対して予測される視聴時間損失領域222は、上記で説明したように決定され得る。経時的に、入力ビデオ221は増大した数のユーザによって閲覧される可能性があり、ユーザアクティビティログ208は、入力ビデオ221に対して増大した対話データ量を含み得る。入力ビデオ221に対する対話データが増えるにつれて、(上記で説明したのと同じ方法で)(たとえば、十分な量の対話データが入力ビデオ221に関して集められると)実際の視聴時間損失領域が視聴時間損失領域識別子212によって入力ビデオ221に対して識別され得る。実際の視聴時間損失領域は、たとえば、モデルトレーナー215によって、予測される視聴時間損失領域222に対して比較され、その比較の結果は、視聴時間損失モデル206の更新のために、モデルトレーナー215によって視聴時間損失モデル206内に供給され得る。たとえば、実際の視聴時間損失領域が予測される視聴時間損失領域222と一致するとき、視聴時間損失モデル206によって使用される信頼性値または重みが(たとえば、モデルトレーナー215によって)増大され得る。別の例として、実際の視聴時間損失領域が予測される視聴時間損失領域222と一致しないとき、視聴時間損失モデル206によって使用される信頼性値または重みはモデルトレーナー215によって低減され得るか、または視聴時間損失モデル206は、場合によっては、モデルトレーナー215によって調整され得る、かつ/または視聴時間損失モデル206は、少なくとも入力ビデオ221を使用してモデルトレーナー215によって再度トレーニングされ得る。

別の例として、いくつかの実装形態では、視聴時間損失モデル206をトレーニングするために使用される特徴216は、特徴リファイナ(refiner)230によって経時的に(すなわち、トレーニングが進行するにつれて)精細化され得る。たとえば、特徴重要性は、特徴216内に含まれ得る各タイプの特徴に対して特徴重要性計算機231によって計算され得る(たとえば、様々なタイプのビデオ、オーディオ、または意味的特徴が特徴216内に含まれてよい)。特徴重要性は、トレーニングビデオ204のどの特徴が視聴時間損失領域識別子212によって識別された視聴時間損失領域に対応するかに基づいて、特徴重要性計算機231によって決定され得、より多い数の視聴時間損失領域は、より高い特徴重要性をもたらす特徴に対応し、より少ない数の視聴時間損失領域は、より低い特徴重要性をもたらす特徴に対応する。特徴は、特徴リファイナ230によって特徴重要性ごとにランク付けされてよく、しきい値よりも低い特徴重要性を有する特徴は、特徴リファイナ230によって、視聴時間損失モデル206をトレーニングする際に使用される特徴216から除去されてよい。

別の例として、特徴切除(ablation)プロセスは、特徴アブレータ(ablater)232によって実施され得る。たとえば、各特徴216は、各トレーニングビデオ204内で特徴アブレータ232によって(たとえば、雑音とともに)反復的にそれぞれ切除され得る。特徴抽出器219は、(たとえば、切除された特徴を無視することを含めて)各切除されたトレーニングビデオから特徴を抽出し、各切除されたトレーニングビデオから抽出された特徴を視聴時間損失モデル206に提供し得る。特徴リファイナ230は、切除されたトレーニングビデオから抽出された特徴に基づいて視聴時間損失モデル206によって生成された、予測される視聴時間損失領域222を、対応する切除されていないトレーニングビデオ204に対して視聴時間損失領域識別子212によって前に生成された視聴時間損失領域と比較し得る。切除されたトレーニングビデオから抽出された特徴に基づいて視聴時間損失モデル206によって生成された、予測される視聴時間損失領域222が(たとえば、カウントおよび/または持続時間の点で)対応する切除されていないトレーニングビデオ204に対して予測される視聴時間損失領域より小さい場合、特徴リファイナ230は、切除された特徴は視聴時間損失領域を識別するために重要であると決定し得る。すなわち、特徴の存在なしに、より少ない視聴時間損失領域が識別された。切除されたトレーニングビデオから抽出された特徴に基づいて視聴時間損失モデル206によって生成された、予測される視聴時間損失領域222が(たとえば、カウントおよび/または持続時間の点で)対応する切除されていないトレーニングビデオ204に対して予測される視聴時間損失領域以上である場合、特徴リファイナ230は、切除された特徴は視聴時間損失領域を識別するために重要ではないと決定し得る。すなわち、特徴が切除された場合でも、視聴時間損失領域はトレーニングビデオに対して依然として識別された。切除の後、特徴リファイナ230によって重要でないと決定された特徴は、視聴時間損失モデル206をトレーニングするために使用される特徴216から特徴リファイナ230によって除去されてよい。

図5は、視聴時間損失モデル500の例示的なアーキテクチャを示す。視聴時間損失モデル500は、たとえば、図2に関して上記で説明した視聴時間損失モデル206であってよい。視聴時間損失モデル500は、双方向RNN(リカレントニューラルネットワーク)516を含む。双方向RNN516は、GRU518とGRU520とを含むゲートリカレントユニット(GRU:Gated Recurrent Units)のセットを含み得る。入力ビデオ内の各時間Tに対して、連結された特徴502および504が(たとえば、特徴抽出器219によって)入力として双方向RNN516に、具体的には、双方向RNN516の様々なGRUに提供され得る。未加工埋込み特徴506、視覚的特徴508、およびオーディオ特徴510を含み得る、連結された特徴502は、たとえば、時間Tの15秒前から時間Tまでの特徴を含む。同様に、未加工埋込み特徴512、視覚的特徴514、およびオーディオ特徴515を含み得る、連結された特徴504は、たとえば、時間Tから時間Tの15秒後までの特徴を含む。15秒の時間窓について説明するが、他の時間窓長(たとえば、6秒、9秒、20秒)が使用されてよい。実施からの結果は、時間Tの前後両方の時間窓を選択することがビデオに関してより多くのコンテキストを視聴時間損失モデル500に提供することによって、モデルトレーニングおよびモデル予測に役立ち得ることを示す。時間窓長を選択することは、トレードオフ決定を必要とし得る。より長い時間期間は、ビデオに関してより多くのコンテキストを視聴時間損失モデルに提供し得るが、トレーニングのためのより多くのデータおよび/またはより高いモデル複雑さ(たとえば、より多くのGRU)を要求し得る。

双方向RNN516は、一連のステップを含み得、各ステップは、ビデオ内に1秒のタイムマークにおける特徴を有する。たとえば、上述の15秒の時間窓の例に対して、双方向RNN516は、(たとえば、時間Tの15秒前、時間T自体、および時間Tの15秒後に対応する)31のステップを含み得る。別の例として、いくつかの実装形態では、双方向RNN516は、LSTM(長短期記憶)手法を使用し得る。

双方向RNN516の上部で、完全接続ディープニューラルネットワーク522が視聴時間損失モデル500の追加レイヤとして使用されてよい。たとえば、双方向RNN516のGRUの出力(たとえば、31のスケーラ値のベクトル)が完全接続ディープニューラルネットワーク522の完全接続ReLu(正規化線形ユニット)レイヤ内に供給され得る。完全接続ディープニューラルネットワーク522は、たとえば、アクティブ化関数として、ReLUを使用し得る。様々な数のレイヤが完全接続ディープニューラルネットワーク522内で使用されてよい。

視聴時間損失モデル500の出力レイヤは、完全接続ディープニューラルネットワーク522からの出力を、時間Tが入力ビデオ内の視聴時間損失領域である尤度を表す、0から1の間の実数予測値526に変換することができるシグモイド関数524を使用し得る。予測値526が大きければ大きいほど、Tが入力ビデオ内の視聴時間損失領域である可能性はより高まる。さらに詳細には、他の例として、シグモイド関数524は、入力ビデオの各領域に対してスコア(たとえば、0または1のバイナリスコア、または0から1など、ある範囲にわたって生じるスコア)を生成し得る。各領域に対するスコアは、その領域が視聴時間損失領域である尤度を表す。特定の領域に対するスコアが一定のしきい値(たとえば、1または0.5よりも大きい値)を満たす(たとえば、満足させるまたは超える)場合、シグモイド関数524は、その特定の領域は視聴時間損失領域であると決定し得る。他方で、特定の領域に対するスコアが一定のしきい値(たとえば、1または0.5)を満たさない(たとえば、それ未満である)場合、シグモイド関数は、その特定の領域は視聴時間損失領域ではないと決定し得る。アドミニストレータが、たとえば、一定のしきい値を設定してよい。別の例として、一定のしきい値は自動的に決定されてよい。

他のタイプのアーキテクチャが視聴時間損失モデル500に対して使用されてよい。述べたように、GRUではなくLSTMモデルが使用され得る。別の例として、いくつかの実装形態では、LSTMモデルとGRUの両方が使用され得る。

図6は、メディアコンテンツ項目内の視聴時間損失領域を決定するための例示的なプロセス600の流れ図である。プロセス600の動作は、図1から図5で説明し示したシステムの構成要素によって実施されるとして以下で説明される。プロセス600の動作は、単に例示のために以下で説明される。プロセス600の動作は、任意の適切なデバイスまたはシステム、たとえば、任意の適切なデータ処理装置によって実施され得る。プロセス600の動作は、非一時的であってよいコンピュータ可読媒体上に記憶された命令として実装されてもよい。命令の実行は、1つまたは複数のデータ処理装置にプロセス600の動作を実施させる。

ビデオ処理システム110は、第1のビデオを受信する(602において)。たとえば、図2を参照して上記で説明したように、入力ビデオ221を選択するアドミニストレータからのまたは入力ビデオ221(および、他のビデオ)の処理をトリガしたバッチプロセスからのユーザ入力に応答してなど、入力ビデオ221が受信され得る。ビデオコンテンツについて説明するが、プロセス600は、オーディオコンテンツなど、他のメディアコンテンツに対して使用されてもよい。

ビデオ処理システム110は、第1のビデオに関する特徴のセットを決定する(604において)。たとえば、図2を参照しながら上記で説明したように、特徴抽出器219は、入力ビデオ221の特徴244を決定し得る。特徴のセットは、ビデオ特徴、オーディオ特徴、または意味的特徴を含んでよい。

ビデオ処理システム110は、第1のビデオに関する特徴のセットをトレーニングされたモデル内に入力する(606において)。たとえば、図2を参照しながら上記で説明したように、特徴224は、視聴時間損失モデル206など、トレーニングされたモデルに対する入力として提供され得る。視聴時間損失モデル500に関して上記で論じたように、トレーニングされたモデルは、(図5を参照しながら上記で説明したような)双方向リカレントニューラルネットワーク、完全接続ディープニューラルネットワーク、LSTMネットワーク、および/または他の機械学習エンジンまたはシステムであってよいか、またはそれを含んでよい。トレーニングされたモデルは、図2～図5を参照しながら上記で説明したように、また以下で要約するように、特定のビデオ内の視聴時間損失領域を出力するようにトレーニングされる。特定のビデオに対する視聴時間損失領域は、ユーザが時間窓で特定のビデオの再生を停止する尤度がしきい値尤度を上回る特定のビデオの時間窓を定義する。トレーニングされたモデルは、複数のトレーニングビデオ内の既知の視聴時間損失領域と既知の視聴時間損失領域に対応する複数のトレーニングビデオの特徴とを使用してトレーニングされる。たとえば、図2を参照しながら上記で説明したように、視聴時間損失モデル206は、トレーニングビデオ204に対して視聴時間損失領域識別子212によって識別された視聴時間損失領域に基づく、かつトレーニングビデオ204の特徴216に基づく、標示214を使用してトレーニングされる。

視聴時間損失モデルをトレーニングすることは、トレーニングビデオのセットを識別することと、各トレーニングビデオに対する視聴時間損失曲線を生成することと、各視聴時間損失曲線内の視聴時間損失領域を決定することと、視聴時間損失曲線内の視聴時間損失領域を使用して、トレーニングされたモデルをトレーニングすることとを含み得る。たとえば、図2を参照しながら上記で説明したように、視聴時間損失曲線生成器210は、トレーニングビデオ204の各々に対して視聴時間損失曲線を生成し得る。視聴時間損失モデル206は、視聴時間損失領域識別子212によって視聴時間損失曲線内で識別された視聴時間損失領域に基づく標示214を使用して、モデルトレーナー215によってトレーニングされ得る。特定のトレーニングビデオに対する視聴時間損失曲線は、たとえば、特定のトレーニングビデオに対するユーザ視聴セッションの開始および停止時間を含むユーザアクティビティログからの対話データから視聴時間損失曲線生成器210によって生成され得る。たとえば、図2に関して上記で説明したように、視聴時間損失曲線生成器210は、ユーザアクティビティログ208内の対話データに基づいて視聴時間損失曲線を生成し得る。

いくつかの実装形態では、視聴時間損失曲線内の視聴時間領域を決定することは、視聴時間損失曲線の平均傾斜を決定することを含み得る。たとえば、図3に関して上記で説明したように、ライン322は、視聴時間損失曲線312の平均傾斜を示す。視聴時間損失曲線の平均傾斜は、視聴時間損失領域を決定するために使用されるしきい値尤度に対応し得る。たとえば、平均傾斜を上回る傾斜を有する視聴時間損失曲線の領域は、視聴時間損失曲線内の視聴時間損失領域として識別され得る。たとえば、図3に関して上記で説明したように、視聴時間損失領域324、326、および328は、視聴時間損失曲線312の平均傾斜を上回る傾斜を有することに基づいて、視聴時間損失領域として識別されている。

いくつかの実装形態では、視聴時間損失曲線の開始時の第1の視聴時間損失領域および視聴時間損失曲線の終了時の最後の視聴時間損失領域は、トレーニングされたモデルをトレーニングするために使用されない。たとえば、図2および図3に関して上記で説明したように、曲線部分318および320に対応する視聴時間損失領域は、視聴時間損失曲線のそれらの部分の傾斜が平均傾斜を上回るにもかかわらず、視聴時間損失モデル206をトレーニングするために使用されない。

視聴時間損失曲線内の視聴時間損失領域を使用して、トレーニングされたモデルをトレーニングすることは、特定のトレーニングビデオに対して決定された各視聴時間損失領域に対して、視聴時間損失領域の所定の時間窓内で生じる特定のトレーニングビデオの特徴を決定することと、特定のトレーニングビデオに対して決定された視聴時間損失領域の所定の時間窓内で生じる特定のトレーニングビデオの特徴を使用して、トレーニングされたモデルをトレーニングすることとを含み得る。たとえば、図2および図3に関して上記で説明したように、特徴抽出器219は、特徴216として、視聴時間損失領域324、326、および328の所定の時間窓内にあるトレーニングビデオ204の特徴を生成し得る。

ビデオ処理システム110は、第1のビデオに対する視聴時間損失領域に関するデータをトレーニングされたモデルから取得する(608において)。たとえば、図2を参照しながら上記で説明したように、視聴時間損失モデル206は、入力ビデオ221に対して予測される視聴時間損失領域222を出力し得る。

ビデオ処理システム110は、第1のビデオをユーザに提供することに関与するエンティティに、識別された視聴時間損失領域に関するデータを提供する(610において)。たとえば、図1を参照しながら上記で説明したように、識別された視聴時間損失領域に関するデータは、第1のビデオの所有者のクライアントデバイス102に提供され得る。別の例として、デジタル構成要素を表示する、第1のビデオ内の時間点を決定するために、視聴時間損失領域に関するデータはコンテンツプロバイダ108に提供され得る。たとえば、コンテンツプロバイダ108は、図1を参照しながら上記で説明したように、決定された視聴時間損失領域の前にデジタル構成要素の提示をスケジュールすると決定し得る。さらに別の例として、コンテンツプロバイダ108は、デジタル構成要素をいつクライアントデバイス102に提供するかについてサービング決定を行うために、識別された視聴時間損失領域に関するデータを使用し得る。たとえば、決定された視聴時間損失領域の前に再生されることがスケジュールされるデジタル構成要素の第1のセットは、(たとえば、デジタル構成要素の第1のセットが再生されることがスケジュールされる前に、場合によってはビデオの提供とともにであっても)優先度ごとにクライアントデバイス102に送られてよく、第1の決定された視聴時間損失領域の後に再生されることがスケジュールされるデジタル構成要素の第2のセットは、(たとえば、まさにデジタル構成要素が再生されることがスケジュールされるとき)オンデマンドで提供されるように(たとえば、コンテンツプロバイダ108によって)構成されてよい。すなわち、一部のユーザは第1の決定された視聴時間損失領域中にビデオの視聴を停止する傾向があり得るため、コンテンツプロバイダ108は、第1の視聴時間損失領域の前に一定の高い優先度のデジタル構成要素を提供し、各後続の視聴時間損失領域の前により低い優先度のデジタル構成要素を提供し得る。

第1のビデオの所有者のクライアントデバイス102に提供される視聴時間損失領域に関するデータは、第1のビデオに関する品質情報として提示され得る。品質情報は、第1のビデオに対して決定された視聴時間損失領域のカウントおよび/または持続時間を示し得る。品質情報が、低い、またはさもなければ許容できない品質(たとえば、視聴時間領域のカウントまたは持続時間が所定のしきい値を超える)ことを示す場合、所有者は、視聴時間損失領域に関する情報を使用して第1のビデオのそれらの部分を調整し、第1のビデオを第1のビデオの更新されたバージョンとして(たとえば、コンテンツプラットフォーム106に)再度アップロードし得る。ビデオ処理システム110は、トレーニングされたモデルを使用して、第1のビデオの更新されたバージョンを処理して第1のビデオの更新されたバージョンに関する更新された視聴時間損失情報を生成し、第1のビデオの更新されたバージョンに関する更新された視聴時間損失情報を第1のビデオの所有者に提供し得る。所有者は、許容できるレベルの品質に達するまで、調整およびアップロードを繰り返すことができる。

図7は、上記で説明した動作を実施するために使用され得る例示的なコンピュータシステム700のブロック図である。システム700は、プロセッサ710と、メモリ720と、記憶デバイス730と、入出力デバイス740とを含む。構成要素710、720、730、および740は各々、たとえば、システムバス750を使用して相互接続され得る。プロセッサ710は、システム700内で実行するための命令を処理することができる。いくつかの実装形態では、プロセッサ710は、シングルスレッドプロセッサである。別の実装形態では、プロセッサ710は、マルチスレッドプロセッサである。プロセッサ710は、メモリ720内または記憶デバイス730上に記憶された命令を処理することができる。

メモリ720は、情報をシステム700内に記憶する。一実装形態では、メモリ720は、コンピュータ可読媒体である。いくつかの実装形態では、メモリ720は、揮発性メモリユニットである。別の実装形態では、メモリ720は、不揮発性メモリユニットである。

記憶デバイス730は、大容量記憶装置をシステム700に提供することができる。いくつかの実装形態では、記憶デバイス730は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス730は、たとえば、ハードディスクドライブ、光ディスクドライブ、複数のコンピューティングデバイスによってネットワークを介して共有される記憶デバイス(たとえば、クラウド記憶デバイス)、または何らかの他の大容量記憶デバイスを含み得る。

入出力デバイス740は、入出力動作をシステム700に提供する。いくつかの実装形態では、入出力デバイス740は、ネットワークインターフェースデバイス、たとえば、イーサネットカード、シリアル通信デバイス、たとえば、およびRS-232ポート、および/またはワイヤレスインターフェースデバイス、たとえば、および802.11カードのうちの1つまたは複数を含み得る。別の実装形態では、入出力デバイスは、入力データを受信し、出力データを周辺デバイス760、たとえば、キーボード、プリンターおよびディスプレイデバイスに送るように構成されたドライバデバイスを含み得る。しかしながら、モバイルコンピューティングデバイス、モバイル通信デバイス、セットトップボックステレビジョンクライアントデバイスなど、他の実装形態が使用されてもよい。

例示的な処理システムについて図7で説明したが、本明細書で説明した主題の実装装置および機能的動作は、他のタイプのデジタル電子回路で、もしくは本明細書で開示した構造およびそれらの構造上の均等物を含めて、コンピュータソフトウェア、ファームウェア、もしくはハードウェアで、またはそれらのうちの1つまたは複数の組合せで実装され得る。

本明細書で説明した主題の実施形態および動作は、デジタル電子回路で、もしくは本明細書で開示した構造およびそれらの構造上の均等物を含めて、コンピュータソフトウェア、ファームウェア、もしくはハードウェアで、またはそれらのうちの1つまたは複数の組合せで実装され得る。本明細書で説明した主題の実施形態は、データ処理装置によって、またはその動作を制御するために実行するようにコンピュータ記憶媒体上に符号化された1つまたは複数のコンピュータプログラム、すなわち、コンピュータプログラム命令の1つまたは複数のモジュールとして実装され得る。代替または追加として、プログラム命令は、データ処理装置による実行のために好適な受信機装置に送信するための情報を符号化するために生成される、人工的に生成された伝搬信号、たとえば、機械生成の電子、光、または電磁信号上に符号化され得る。コンピュータ記憶媒体は、コンピュータ可読記憶デバイス、コンピュータ可読記憶基盤、ランダムまたはシリアルアクセスメモリアレイまたはデバイス、またはそれらのうちの1つまたは複数の組合せであってよいか、またはその中に含まれてよい。さらに、コンピュータ記憶媒体は伝搬信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝搬信号内に符号化されたコンピュータプログラム命令のソースまたは宛先であってよい。コンピュータ記憶媒体は、1つまたは複数の別個の物理構成要素または媒体(たとえば、複数のCD、ディスク、または他の記憶デバイス)であってもよく、またはその中に含まれてもよい。

本明細書で説明した動作は、1つまたは複数のコンピュータ可読記憶デバイス上に記憶された、または他のソースから受信されたデータに対してデータ処理装置によって実施される動作として実装され得る。

「データ処理装置」という用語は、例として、1つのプログラマブルプロセッサ、コンピュータ、システムオンチップ、もしくは複数のプログラマブルプロセッサ、コンピュータ、システムオンチップ、または前述の組合せを含めて、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置は、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含み得る。装置はまた、ハードウェアに加えて、当該コンピュータプログラムに対する実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、クロスプラットフォームランタイム環境、仮想機械、またはそれらのうちの1つまたは複数の組合せを構成するコードを含んでもよい。装置および実行環境は、ウェブサービス、分散型コンピューティングおよびグリッドコンピューティングインフラストラクチャなど、様々な異なるコンピューティングモデルインフラストラクチャを実現し得る。

コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、またはコードとも呼ばれる)は、コンパイル型言語またはインタープリタ型言語、宣言型言語または手続き型言語を含めて、任意の形態のプログラミング言語で書き込まれてよく、コンピュータプログラムは、スタンドアロンプログラムとしてまたはモジュール、構成要素、サブルーチン、オブジェクト、もしくはコンピューティング環境で使用するのに適した他のユニットとして、を含めて、任意の形態で展開されてよい。コンピュータプログラムは、そうでなくてもよいが、ファイルシステム内のファイルに対応し得る。プログラムは、他のプログラムまたはデータを保持するファイル(たとえば、マークアップ言語文書内に記憶された1つまたは複数のスクリプト)の一部分の中、当該プログラム専用の単一ファイルの中、または複数の協調ファイル(たとえば、1つまたは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイル)の中に記憶されてよい。コンピュータプログラムは、1つのコンピュータ上で、または1つの現場に配置されるか、または複数の現場にわたって分散され、通信ネットワークによって相互接続された、複数のコンピュータ上で実行されるように展開され得る。

本明細書で説明したプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって、アクションを実施するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実施され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実施されもよく、装置はそれとして実装されてもよい。

コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方を含む。一般に、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から命令およびデータを受信することになる。コンピュータの必須要素は、命令に従ってアクションを実施するためのプロセッサ、および命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むことになるか、またはそれらからデータを受信するかまたはそれらにデータを転送するように動作可能に結合されることになる。しかしながら、コンピュータは、そのようなデバイスを有さなくてもよい。さらに、コンピュータは、別のデバイス、たとえば、いくつかの例を挙げれば、モバイル電話、携帯情報端末(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)受信機、またはポータブル記憶デバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)の中に埋め込まれてよい。コンピュータプログラム命令およびデータを記憶するのに適したデバイスは、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス;磁気ディスク、たとえば、内部ハードディスクまたはリムーバブルディスク;光磁気ディスク;およびCD-ROMおよびDVD-ROMディスクを含めて、すべての形態の不揮発性のメモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完されてよいか、またはその中に組み込まれてよい。

ユーザとの対話を提供するために、本明細書で説明した主題の実施形態は、情報をユーザに表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにそれによりユーザがコンピュータに入力を提供し得る、キーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールを有するコンピュータ上で実装され得る。ユーザとの対話を提供するために他の種類のデバイスが同様に使用されてよく、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであってよく、ユーザからの入力は、音響、音声、または触覚入力を含めて、任意の形態で受信されてよい。加えて、コンピュータは、ユーザが使用するデバイスに文書を送り、そこから文書を受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ウェブページをユーザのクライアントデバイス上のウェブブラウザに送ることによって、ユーザと対話し得る。

本明細書で説明した主題の実施形態は、たとえば、データサーバとして、バックエンド構成要素を含む、もしくはミドルウェア構成要素、たとえば、アプリケーションサーバを含む、またはフロンドエンド構成要素、たとえば、それを介してユーザが本明細書で説明した主題の実装形態と対話し得る、グラフィカルユーザインターフェースまたはウェブブラウザを有するクライアントコンピュータ、またはそのようなバックエンド構成要素、ミドルエンド構成要素、もしくはフロントエンド構成要素のうちの1つまたは複数の任意の組合せを含む、コンピューティングシステムで実装され得る。システムの構成要素は、任意の形態または媒体のデジタルデータ通信、たとえば、通信ネットワークによって相互接続されてよい。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)および広域ネットワーク(「WAN」)、インターネットワーク(たとえば、インターネット)、ならびにピアツーピアネットワーク(たとえば、アドホックピアツーピアネットワーク)を含む。

コンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般に、互いから離れており、典型的には、通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行し、互いとクライアント-サーバ関係を有するコンピュータプログラムにより生じる。いくつかの実施形態では、サーバはデータ(たとえば、HTMLページ)をクライアントデバイスに(たとえば、クライアントデバイスと対話しているユーザにデータを表示し、そこからユーザ入力を受信するために)送信する。クライアントデバイスにおいて生成されるデータ(たとえば、ユーザ対話の結果)は、サーバにおいてクライアントデバイスから受信され得る。

本明細書は多くの特定の実装詳細を含むが、これらは、いずれの発明のまたは特許請求され得るものの範囲に対する限定と解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有の特徴の説明と解釈すべきである。別個の実施形態の文脈で、本明細書で説明したいくつかの特徴は、単一の実施形態で組み合わせて実装されてもよい。逆に、単一の実施形態の文脈で説明した様々な特徴は、複数の実施形態で別個にまたは任意の好適な部分組合せで実装されてもよい。さらに、特徴はいくつかの組合せで動作するとして上記で説明されることがあり、そのようなものとして特許請求されることすらあるが、特許請求される組合せからの1つまたは複数の特徴は、場合によっては、その組合せから削除されてよく、特許請求される組合せは、部分組合せまたは部分組合せの変種を対象とし得る。

同様に、動作は図面において特定の順序で示されているが、これは、そのような動作が示された特定の順序または順番で実施されること、または所望の結果を達成するために、すべての示された動作が実施されることが要求されると理解されるべきではない。いくつかの状況では、マルチタスキングおよび並列処理が有利であり得る。さらに、上記で説明した実施形態における様々なシステム構成要素の分離は、すべての実施形態でそのような分離が要求されると理解されるべきではなく、説明したプログラム構成要素およびシステムは、一般に、単一のソフトウェア製品内に一緒に統合されてよいか、または複数のソフトウェア製品に梱包されてよいことを理解されたい。

以上、主題の特定の実施形態について説明してきた。他の実施形態は以下の請求項の範囲内である。場合によっては、請求項で列挙するアクションは、異なる順序で実施されてよく、依然として所望の結果を達成し得る。加えて、添付の図面に示したプロセスは、所望の結果を達成するために、示した特定の順序または順番を必ずしも必要とするとは限らない。いくつかの実装形態では、マルチタスキングおよび並列処理が有利であり得る。

100 環境
102 クライアントデバイス
104 ネットワーク
106 コンテンツプラットフォーム、サーバ
108 コンテンツプロバイダ
110 ビデオ処理システム
200 システム
202 ビデオリポジトリ
204 トレーニングビデオ
205 トレーニングビデオ選択器
206 視聴時間損失モデル
208 ユーザアクティビティログ
210 視聴時間損失曲線生成器
212 視聴時間損失領域識別子
213 視聴時間損失領域リポジトリ
214 標示
215 モデルトレーナー
216 特徴
218 ビデオ特徴データベース
219 特徴抽出器
220 特徴抽出モデル
221 入力ビデオ
222 視聴時間損失領域
224 特徴
226 視聴時間損失情報生成器
228 視聴時間損失情報
230 特徴リファイナ
231 特徴重要性計算機
232 特徴アブレータ
300 視聴時間損失グラフ、グラフ
302 X軸
308 Y軸
310 点
312 視聴時間損失曲線
314 点
316 点
318 ライン
320 視聴時間損失領域
322 視聴時間損失領域
324 視聴時間損失領域
326 曲線部分、視聴時間損失領域
328 曲線部分、視聴時間損失領域
330 中央部分
400 疑似コード
402 第1のセクション
404 コードライン
406 コードライン
408 コードライン
410 コードライン、ライン
412 セクション、ライン
414 ライン
416 ライン
418 ライン
420 ライン
422 セクション
500 視聴時間損失モデル
502 連結された特徴
504 連結された特徴
506 未加工埋込み特徴
508 視覚的特徴
510 オーディオ特徴
512 未加工埋込み特徴
514 視覚的特徴
515 オーディオ特徴
516 双方向RNN(リカレントニューラルネットワーク)
518 GRU
520 GRU
522 完全接続ディープニューラルネットワーク
524 シグモイド関数
600 プロセス
700 コンピュータシステム、システム
710 プロセッサ、構成要素
720 メモリ、構成要素
730 記憶デバイス、構成要素
740 入出力デバイス、構成要素
750 システムバス
760 周辺デバイス

Claims

コンピュータ実装方法であって、
第1のビデオを受信するステップと、
前記第1のビデオに関する特徴のセットを決定するステップと、
前記第1のビデオに関する特徴の前記セットをトレーニングされたモデル内に入力するステップであって、(1)前記トレーニングされたモデルが、特定のビデオ内の視聴時間損失領域を出力するようにトレーニングされ、(2)前記トレーニングされたモデルが、複数のトレーニングビデオ内の既知の視聴時間損失領域に対応する標示と前記既知の視聴時間損失領域に対応する前記複数のトレーニングビデオの特徴とを使用して、トレーニングされ、(3)特定のビデオに対する視聴時間損失領域が、その間にユーザが前記特定のビデオの再生を停止する尤度がしきい値尤度を上回る前記特定のビデオの時間窓を定義する、入力するステップと、
前記第1のビデオに関する特徴の前記セットの前記トレーニングされたモデル内への入力に応答して、前記第1のビデオに対する視聴時間損失領域に関するデータを前記トレーニングされたモデルから取得するステップと、
前記第1のビデオをユーザに提供することに関与するエンティティに、前記第1のビデオに対する前記視聴時間損失領域に関する前記データを提供するステップと
を含む、コンピュータ実装方法。
前記第1のビデオ内のコンテンツとは異なるコンテンツを含むデジタル構成要素を再生する、前記第1のビデオ内の時間点を決定するために、前記第1のビデオに対する前記視聴時間損失領域に関する前記データは、前記第1のビデオに対する前記視聴時間損失領域に関する前記データを使用するコンテンツプロバイダに提供される、請求項1に記載のコンピュータ実装方法。
前記コンテンツプロバイダが、前記第1のビデオの再生中にデジタルコンテンツをいつクライアントデバイスに提供するかに関するサービング決定を行うために、前記第1のビデオに対する前記視聴時間損失領域に関する前記データを使用する、請求項2に記載のコンピュータ実装方法。
前記第1のビデオに対する前記視聴時間損失領域に関する前記データが、前記第1のビデオの所有者に提供され、前記方法が、
前記第1のビデオの前記所有者によって修正されている前記第1のビデオの更新されたバージョンを受信するステップと、
前記第1のビデオの前記更新されたバージョンに対する視聴時間損失領域に関する、更新されたデータを生成するために、前記トレーニングされたモデルを使用して前記第1のビデオの前記更新されたバージョンを処理するステップと、
前記第1のビデオの前記更新されたバージョンに対する前記視聴時間損失領域に関する、前記更新されたデータを前記第1のビデオの前記所有者に提供するステップと
をさらに含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
トレーニングビデオのセットを使用して、前記トレーニングされたモデルをトレーニングするステップをさらに含み、前記トレーニングされたモデルをトレーニングするステップが、
前記トレーニングビデオの前記セット内の各トレーニングビデオに対して、
前記トレーニングビデオに対する視聴時間損失曲線を生成するステップと、
前記視聴時間損失曲線内の視聴時間損失領域を決定するステップと、
トレーニングビデオの前記セットに対する前記視聴時間損失曲線内の前記視聴時間損失領域を使用して、前記トレーニングされたモデルをトレーニングするステップと
を含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
前記視聴時間損失曲線内の視聴時間領域を決定するステップが、
前記視聴時間損失曲線の平均傾斜を決定するステップであって、前記平均傾斜が前記しきい値尤度に対応する、決定するステップと、
前記視聴時間損失曲線内の前記視聴時間損失領域として、前記平均傾斜を上回る傾斜を有する前記視聴時間損失曲線の領域を決定するステップと
を含む、請求項5に記載のコンピュータ実装方法。
トレーニングビデオの前記セットに対する前記視聴時間損失曲線内の前記視聴時間損失領域を使用して、前記トレーニングされたモデルをトレーニングするステップが、前記視聴時間損失曲線の開始時の第1の視聴時間損失領域および前記視聴時間損失曲線の終了時の最後の視聴時間損失領域以外の視聴時間損失領域を使用して、前記トレーニングされたモデルをトレーニングするステップを含む、請求項5または6に記載のコンピュータ実装方法。
前記視聴時間損失曲線内の前記視聴時間損失領域を使用して、前記トレーニングされたモデルをトレーニングするステップが、
特定のトレーニングビデオに対して決定された各視聴時間損失領域に対して、前記視聴時間損失領域の所定の時間窓内で生じる前記特定のトレーニングビデオの特徴を決定するステップと、
前記特定のトレーニングビデオの前記決定された特徴を使用して、前記トレーニングされたモデルをトレーニングするステップと
を含む、請求項5から7のいずれか一項に記載のコンピュータ実装方法。
特定のトレーニングビデオに対する前記視聴時間損失曲線が、ユーザが前記特定のトレーニングビデオに対するセッションを視聴する開始時間および停止時間を含むユーザアクティビティログから取得された対話データから生成される、請求項5から8のいずれか一項に記載のコンピュータ実装方法。
前記トレーニングされたモデルが、双方向リカレントニューラルネットワークおよび完全接続ディープニューラルネットワークを含む、請求項1から9のいずれか一項に記載のコンピュータ実装方法。
前記第1のビデオに関する特徴の前記セットおよび前記既知の視聴時間損失領域に対応する前記複数のトレーニングビデオの特徴が、ビデオ特徴、オーディオ特徴、または意味的特徴を含む、請求項1から10のいずれか一項に記載のコンピュータ実装方法。
システムであって、
命令を記憶する、1つまたは複数のメモリデバイスと、
前記1つまたは複数のメモリデバイスと対話し、前記命令の実行時に、請求項1から11のいずれか一項に記載の方法を実施するように構成された、1つまたは複数のデータ処理装置と
を備える、システム。
1つまたは複数のデータ処理装置によって実行されると、前記1つまたは複数のデータ処理装置に請求項1から11のいずれか一項に記載の方法を実施させる命令を記憶する、コンピュータ可読媒体。