JP7450623B2

JP7450623B2 - 機械学習のための動的視聴覚セグメント・パディング

Info

Publication number: JP7450623B2
Application number: JP2021535241A
Authority: JP
Inventors: ボウマン、アーロン; ハンマー、ステファン; キャノン、グレイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-02-25
Filing date: 2020-02-25
Publication date: 2024-03-15
Anticipated expiration: 2040-02-25
Also published as: US20210012809A1; WO2020174383A1; CN113439277A; US11521655B2; US10832734B2; JP2022521120A; US20200273495A1; GB2596463A; GB2596463B

Description

本発明は、一般に、機械学習モデルの訓練の分野に関し、より詳細には、機械学習媒体解釈モデルを訓練するためのコンテンツ正規化（content normalization）に関する。

機械学習（ＭＬ：machine learning)は、明示的な命令を使用せず、その代わりに、モデルおよび推論に依存して、特定のタスクを効果的に実施するためにコンピュータ・システムが使用するアルゴリズムおよび統計モデルについての科学的研究であり、人工知能の亜型として見られることが多い。機械学習アルゴリズムは、タスクを実施するように明示的にプログラムされることなく、予測または決定を行うために、「訓練データ」として知られるサンプル・データの数学モデルを構築する。簡単な例として、機械学習プログラムは、（ｉ）様々な猫を示す画像の大きいセット、および、（ｉｉ）それぞれの画像が猫を表していることを示すラベル、を訓練データとして与えられることがある。この訓練データに基づいて、ＭＬプログラムのＭＬアルゴリズムは、猫を表す画像を示すと解される、画像データにおけるパターンを見つけることができる。次に、ラベルのない新しい画像をＭＬプログラムが受け取ると、ＭＬアルゴリズムは、猫画像を示すパターンを、新たに受け取った画像が示すと決定し、新たに受け取った画像を猫画像として識別することができる。機械学習が基礎を置くこれらのパターンは、追加の画像またはラベルあるいはその両方を受け取ると、時間をかけて見直すことができる。このようにして、ある月に猫画像として不正確に識別された画像は、翌月に非猫画像として正しく識別されることがある。

ＭＬをより詳細に説明するために、教師あり／半教師あり学習、教師なし学習、および強化学習という、ＭＬ処理の訓練に対する３つのタイプのアプローチがある。教師あり学習アルゴリズムは、入力と所望の出力との両方を含んだ、データのセットの数学モデルを作り出す。データは、しばしば、訓練データと呼ばれ、訓練例のセットを含む。各訓練例は、少なくとも１つの入力、および所望の出力を含み、監視信号と呼ばれることもある。半教師あり学習アルゴリズムについては、いくつかの訓練例は、所望の出力を含まない。教師なし学習アルゴリズムは、入力値だけを含むデータのセットを受け取り、データ・ポイントのグルーピングまたはクラスタリングのような、データにおける構造を識別する。アルゴリズムは、典型的には、ラベル付け、分類、またはカテゴライズが行われていないテスト・データから学習する。フィードバックに反応する代わりに、教師なし学習アルゴリズムは、データにおける共通点を決定し、データのあらゆる新しいセグメントにおけるこのような共通点の有無に基づいて応答する。強化学習は、累積的な報酬のいくつかの観念を最大化するように、ソフトウェア・エージェントが所与の環境で、どのようにアクションを起こすべきかに関する機械学習の領域である。

敵対的生成ネットワーク（ＧＡＮ：Generative adversarial network)は、教師なし機械学習で使用される人工知能アルゴリズムの一種であり、ゼロサム・ゲーム・フレームワークで互いに競い合う２つのニューラル・ネットワークのシステムによって実装される。

セグメント・パディングは、オーディオまたはビデオあるいはその両方（本明細書で一括してＡ／Ｖと呼ばれることもある）のセグメントが所定の長さを有するように、Ａ／Ｖセグメントを拡張する方法である。セグメント・パディングは、学習Ａ／Ｖセグメント、または新たに受け取ったＡ／Ｖセグメント、あるいはその両方は、ＭＬアルゴリズムのコードで動くためにある所定の継続時間を有することがアルゴリズムによって期待されるので、通常、ＭＬアルゴリズムと共に使用される。新たに受け取った、パディング済のＡ／Ｖセグメントを、ＭＬアルゴリズムが何らかの方式で分類した後、この分類は、パディングの前にセグメントが存在したものとして、セグメントに適用することができる。２つの現在の従来のパディング技法は、（ｉ）無音または他のある種の静的なオーディオ情報と共に、全一色（モノ・カラー）でビデオにフレームを挿入すること、または、（ｉｉ）Ａ／Ｖクリップの所定の時間割当てを完全に埋めるように、非常に短い映像を繰り返すこと（「ルーピング」とも呼ばれる）、あるいはその両方のようなものである。

機械学習モデルが効果的なものになるように、機械学習モデルの入力データの特徴は、正規化されるべきであり、したがって、どの特徴も、その値の範囲に起因して大きすぎるインパクトを持つことはない。ビデオおよびオーディオを分析するモデルは、期間が長くなると、モデルで使用される重みを膨張させる恐れがあるので、期間が一貫した入力データが必要である。この理由から、コンテンツ断片は、分析の前に、等しい期間のセグメントに分割されなければならない。所与のレイヤにおける特徴分析が、明白でないことがあり、期間などの隠れ変数を含んでいることが、あまり明らかでないので、ディープ・ニューラル・ネットワークを使用するとき、データの準備が特に重要である。様々な期間のコンテンツ断片について、研究者は、等しい期間のセグメントに、どのように達するかを決めなければならない。共通の選択肢は、コンテンツの一部を捨てること（トリミング）、または、任意の画像もしくは無音などのコンテンツを追加すること（ナイーブ・パディング）を含む。トリミングは、捨てたコンテンツが、分析に重要な役割を果たしていた可能性もあるので、望ましくない。ナイーブ・パディングも、モデルが、コンテンツ断片との関連性を有していなくても、セグメントの一部としてパディングを分析することになるので、望ましくない。

したがって、当技術分野では、前述の問題に対処する必要がある。

第１の態様から考察すると、本発明は、第１の未パディング視聴覚セグメントを示す情報を含んだ第１の未パディング視聴覚セグメント・データ・セットを受け取ることであって、第１の未パディング視聴覚セグメントが、人間の聴衆のためにスポーツ大会で記録した視聴覚データに相当する、受け取ることと、第１の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、パディング時間間隔のセットの各所与のパディング時間間隔に対して、第１の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習（ＭＬ）アルゴリズムにより決定されるスポーツ視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するそのスポーツ視聴者関心値を決定すること、および所与のパディング時間間隔に対するパディング視聴覚セグメントが、所与のパディング時間間隔に対し決定されたスポーツ視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対するパディング視聴覚セグメントを生成することと、第１のパディング済視聴覚セグメントを示す情報を含んだ第１のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第１の未パディング視聴覚セグメントを組み立てることと、全体として考慮して第１のパディング済視聴覚セグメントのスポーツ視聴者関心値を、ＭＬアルゴリズムにより決定することとを含む方法を提供する。

さらなる態様から考察すると、本発明は、第１の未パディング視聴覚セグメントを示す情報を含んだ第１の未パディング視聴覚セグメント・データ・セットを受け取ることと、第１の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、パディング時間間隔のセットの各所与のパディング時間間隔に対して、第１の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習（ＭＬ）アルゴリズムにより決定される視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するその視聴者関心値を決定すること、および所与のパディング時間間隔に対する合成視聴覚セグメントが、所与のパディング時間間隔に対し決定された視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対する合成視聴覚セグメントを生成することと、第１のパディング済視聴覚セグメントを示す情報を含んだ第１のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応する合成視聴覚セグメントで、第１の未パディング視聴覚セグメントを組み立てることと、全体として考慮して第１のパディング済視聴覚セグメントの視聴者関心値を、ＭＬアルゴリズムにより決定することとを含む方法を提供する。

さらなる態様から考察すると、本発明は、複数の履歴視聴覚セグメント・データ・セットを受け取ることであって、各履歴視聴覚セグメント・データ・セットが、履歴視聴覚セグメントの情報を含む、受け取ることと、第１の未パディング視聴覚セグメントを示す情報を含んだ第１の未パディング視聴覚セグメント・データ・セットを受け取ることと、第１の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、パディング時間間隔のセットの各所与のパディング時間間隔に対して、第１の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続いた場合、所与のパディング時間間隔が含んでいたであろうものに似た視聴覚コンテンツをパディング視聴覚セグメントが有するように、１つまたは複数の履歴視聴覚セグメントからパディング視聴覚セグメントを生成することと、第１のパディング済視聴覚セグメントを示す情報を含んだ第１のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第１の未パディング視聴覚セグメントを組み立てることと、全体として考慮して第１のパディング済視聴覚セグメントの視聴者関心値を、ＭＬアルゴリズムにより決定することとを含む方法を提供する。

さらなる態様から考察すると、本発明は、訓練機械モデルを管理するためのコンピュータ・プログラム製品を提供し、コンピュータ・プログラム製品は、本発明のステップを実施するための方法を実施するために、処理回路で読み取ることができ、処理回路による実行のための命令を格納するコンピュータ可読ストレージ媒体を備える。

さらなる態様から考察すると、本発明は、コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリにロードすることができるコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、本発明のステップを実施するための、ソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。

本発明の態様によれば、（ｉ）第１の未パディング視聴覚セグメントを示す情報を含んだ第１の未パディング視聴覚セグメント・データ・セットを受け取ることであって、第１の未パディング視聴覚セグメントが、人間の聴衆のためにスポーツ大会で記録した視聴覚データに相当する、受け取ることと、（ｉｉ）未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、（ｉｉｉ）パディング時間間隔のセットの各所与のパディング時間間隔に対して、（ａ）第１の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習（ＭＬ）アルゴリズムにより決定されるスポーツ視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するそのスポーツ視聴者関心値を決定すること、および（ｂ）所与のパディング時間間隔に対するパディング視聴覚セグメントが、所与のパディング時間間隔に対し決定されたスポーツ視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対するパディング視聴覚セグメントを生成することと、（ｉｖ）第１のパディング済視聴覚セグメントを示す情報を含んだ第１のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第１の未パディング視聴覚セグメントを組み立てることと、（ｖ）全体として考慮して第１のパディング済視聴覚セグメントのスポーツ視聴者関心値を、ＭＬアルゴリズムにより決定することと、という動作を実施するための（必ずしもこの順序ではない）、コンピュータ実行方法、コンピュータ・プログラム製品、またはコンピュータ・システム、あるいはその組合せがある。

本発明のさらなる態様によれば、（ｉ）第１の未パディング視聴覚セグメントを示す情報を含んだ第１の未パディング視聴覚セグメント・データ・セットを受け取ることと、（ｉｉ）未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、（ｉｉｉ）パディング時間間隔のセットの各所与のパディング時間間隔に対して、（ａ）第１の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習（ＭＬ）アルゴリズムにより決定される視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するその視聴者関心値を決定すること、（ｂ）所与のパディング時間間隔に対するパディング視聴覚セグメントが、所与のパディング時間間隔に対し決定された視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対する合成視聴覚セグメントを生成することと、（ｉｖ）第１のパディング済視聴覚セグメントを示す情報を含んだ第１のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第１の未パディング視聴覚セグメントを組み立てることと、（ｖ）全体として考慮して第１のパディング済視聴覚セグメントのスポーツ視聴者関心値を、ＭＬアルゴリズムにより決定することと、という動作を実施するための（必ずしもこの順序ではない）、コンピュータ実行方法、コンピュータ・プログラム製品、またはコンピュータ・システム、あるいはその組合せがある。

本発明のさらなる態様によれば、（ｉ）複数の履歴視聴覚セグメント・データ・セットを受け取ることであって、各履歴視聴覚セグメント・データ・セットが、履歴視聴覚セグメントの情報を含む、受け取ることと、（ｉｉ）第１の未パディング視聴覚セグメントを示す情報を含んだ第１の未パディング視聴覚セグメント・データ・セットを受け取ることと、（ｉｉｉ）未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、（ｉｖ）パディング時間間隔のセットの各所与のパディング時間間隔に対して、第１の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続いた場合、所与のパディング時間間隔が含んでいたであろうものに似た視聴覚コンテンツをパディング視聴覚セグメントが有するように、１つまたは複数の履歴視聴覚セグメントからパディング視聴覚セグメントを生成することと、（ｖ）第１のパディング済視聴覚セグメントを示す情報を含んだ第１のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第１の未パディング視聴覚セグメントを組み立てることと、（ｖｉ）全体として考慮して第１のパディング済視聴覚セグメントの視聴者関心値を、ＭＬアルゴリズムにより決定することと、という動作を実施するための（必ずしもこの順序ではない）、コンピュータ実行方法、コンピュータ・プログラム製品、またはコンピュータ・システム、あるいはその組合せがある。

以下の図に示すような、好ましい実施形態を参照しながら、ほんの一例として、本発明を次に説明する。

本発明によるシステムの第１の実施形態のブロック図である。第１の実施形態のシステムで少なくとも部分的に実施される第１の実施形態の方法を示す流れ図である。第１の実施形態のシステムの機械ロジック（例えば、ソフトウェア）部分を示すブロック図である。第１の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。第１の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。第１の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。第１の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。本発明による方法の第２の実施形態の流れ図である。本発明の１つまたは複数の例示の実施形態の理解に役立つ情報を示すスクリーン・ショットの図である。

本発明のいくつかの実施形態は、セグメントが完全な長さのクリップであった場合にセグメントが有している「視聴者関心」のレベルを示しつつ、Ａ／Ｖセグメントが所定の長さを有するように、Ａ／Ｖセグメントをパディングするための技法を対象とする。これは、スポーツ・ハイライト・リール、または映画のトレーラなどの、より大きいＡ／Ｖ上演での考えうる使用のために、機械学習アルゴリズムが、Ａ／Ｖクリップについての視聴者関心レベルを決定するときに有用である。「視聴者関心」は、Ａ／Ｖクリップを視聴者がどれだけ面白いと思うかを指す。例えば、負けたテニス・プレイヤの苦悶の表情を示すクリップは、逸れたテニス・ボールを無表情に回収しているボール・ボーイのクリップより、高いレベルの視聴者関心を有すると予想されることがある。スポーツ視聴者関心値は、スポーツＡ／Ｖクリップの視聴者が所与のＡ／Ｖクリップを、どれだけ面白いと思うかについて数量化したものを指す。一様に高レベルの視聴者関心、または、おそらく視聴者関心のアップおよびダウンの所望のパターンを伴うクリップを含めることによって、適切なハイライト・リールを組み立てることができる（例えば、様々なクリップの計算した視聴者関心レベルに基づいて、コンピュータ・ソフトウェアで自動的に組み立てることができる）。

様々な本発明の実施形態のより詳細な説明に移る前に、本発明のパディング技法が達成すると考えられるものについて、基本的なポイントを述べる。ポイントは、セグメントが本来十分に長かった場合よりも、多くのまたは少ない視聴者関心を、パディング中に、パディングが持つべきではないということである。これは、非常に理解しにくいが重要な意見であり、次の段落における例でさらに説明する。

例えば、野球の試合での素晴らしい捕球の映像が、３秒の長さであり、所定のＡ／Ｖセグメントの長さが、９秒であると仮定する。この例では、９秒になるように３秒クリップを３回ループさせると、決定した視聴者関心が異常に高いレベルになる。これは、素晴らしい捕球は９秒続かないので、そのクリップが９秒の長さであった場合の視聴者関心のレベルは、捕球の３秒間は高いが、捕球前の３秒、または捕球後の３秒の間は低くなると予想されるからである。本発明は、クリップの前または後あるいはその両方にテレビ・クルーが撮影したであろう、そしてそれをクリップに含めたであろうものを、クリップが含んでいるかのように、視聴者関心レベルを近似するように努力する。例えば、未パディング・クリップがスタートする前の３秒が、ありふれた飛球のように見えると予想される場合、これは、視聴者関心のレベルが相当に低くなる可能性がある（おそらく、何も映っていない画面より視聴者関心のレベルが大きくなるが）。この例をさらに詳細に述べるために、未パディング・クリップ後の３秒が、典型的には、がっかりした打者が自分の野球バットを腹立ち紛れに投げ捨てているものである場合、これは、視聴者関心のレベルが比較的高くなる可能性がある（おそらく、素晴らしい捕球自体より小さいが）。これは、本発明がエミュレートしたいと思うもののタイプ、すなわち、第１の事例で、クリップがより長くなるように撮影された場合の視聴者関心のレベルを反映する視聴者関心のレベルである。

大まかに言うと、（ｉ）関心のある非常に短いＡ／Ｖセグメントへのパディングとして実際の既存のＡ／Ｖセグメントを使用すること、または、（ｉｉ）完全な長さのクリップの類似する仮定の部分と一致した視聴者関心のレベルを有すると、ＭＬアルゴリズムにより決定される合成Ａ／Ｖ画像を生成することという、本発明によるパディングを実行するための２つの異なる方式がある。「視聴者関心のレベルを有すると、ＭＬアルゴリズムにより決定される」という言葉は、ここでは慎重に選ばれたことに留意されたい（ＭＬアルゴリズムの処理に関する限り、視聴者関心の所与のレベルを合成画像がエミュレートできたとしても、合成画像は特に、人間の視聴者には理解できない可能性がある）。言い換えれば、本発明のいくつかの実施形態の実際のパディングは、仮に人間の視聴者が実際にパディングを見て、自分の関心レベルを評価した場合、視聴者関心のレベルが極めて低くなる可能性がある。それでも、パディングする必要のないより長いクリップに一致した視聴者関心のレベルをＭＬアルゴリズムに示すパターンによってパディングに対応するデータが特徴づけられるように、パディングは構築される。

この「発明を実施するための形態」セクションは、（ｉ）ハードウェアおよびソフトウェア環境、（ｉｉ）例示の実施形態、（ｉｉｉ）さらなるコメントまたは実施形態あるいはその両方、ならびに（ｉｖ）定義、という、サブ・セクションに分割される。

ハードウェアおよびソフトウェア環境
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってもよい。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体（または複数の媒体）を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のための命令を保持し、記憶することができる有形デバイスであってもよい。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の適切な組合せであってもよいがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の完全に網羅されていないリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、命令が記録されたパンチ・カードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、またはワイヤを通じて伝送される電気信号など、本質的に一時的な信号であると解釈されるべきではない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれの計算／処理デバイスに、あるいは、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せといった、ネットワークを介して外部コンピュータまたは外部ストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えることができる。各計算／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それぞれの計算／処理デバイス内のコンピュータ可読ストレージ媒体に格納するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋、もしくは同様のものなどのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語、もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む１つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードであってもよい。コンピュータ可読プログラム命令は、スタンド・アロンのソフトウェア・パッケージとして、全面的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で実行することができ、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続することができ、または、（例えば、インターネット・サービス・プロバイダを使用して、インターネットを通じて）外部コンピュータに接続することができる。いくつかの実施形態では、例えば、プログラム可能論理回路機器、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路機器は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路機器を個別化にすることによって、コンピュータ可読プログラム命令を実行することができる。

本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図またはブロック図あるいはその両方を参照しながら、本発明の態様を本明細書で説明する。流れ図またはブロック図あるいはその両方の各ブロック、および流れ図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実行できることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサによって実行する命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／行為を実行するための手段を作り出すべく、機械を生み出すために、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供することができる。これらのコンピュータ可読プログラム命令は、また、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／行為の態様を実行する命令を含む製品を、命令を格納したコンピュータ可読ストレージ媒体が備えるべく、コンピュータ可読ストレージ媒体に格納することができ、特定の手法で機能するようにコンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはその組合せに指図することができる。

コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／行為を実装するべく、コンピュータ実行処理を生み出すために、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップが実施されるように、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードすることができる。

図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えうる実装形態のアーキテクチャ、機能、および動作を示す。この点に関して、流れ図またはブロック図における各ブロックは、指定の論理機能を実現するための１つまたは複数の実行可能命令を含む命令のモジュール、セグメント、または一部を表すことができる。いくつかの代替実装形態では、ブロックに記された機能は、図に記された順序とは異なる順序で生じてもよい。例えば、連続して示された２つのブロックは、実際には、実質的に同時に実行されてもよく、または、ブロックは、時には、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図または流れ図あるいはその両方の各ブロック、および、ブロック図または流れ図あるいはその両方におけるブロックの組合せは、指定の機能または行為を行うか、専用ハードウェアとコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムで実行できることにも留意されたい。

本発明によるソフトウェアまたは方法あるいはその両方のための可能なハードウェアおよびソフトウェア環境の実施形態を、次に、図を参照しながら詳細に説明する。図１は、ネットワーク化されたコンピュータ・システム１００の様々な部分を示す機能ブロック図であり、サーバ・システム１０２（機械学習システムと呼ばれることもある）、履歴ビデオ・クリップ・ソース・サブシステム１０４、新クリップ・ソース・サブシステム１０６、およびハイライト・リール・アセンブリ・チーム・サブシステム１０８、および通信ネットワーク１１４を含む。サーバ・システム１０２は、サーバ・コンピュータ２００（機械学習コンピュータと呼ばれることもある）、通信ユニット２０２、プロセッサ・セット２０４、入出力（Ｉ／Ｏ）インターフェース・セット２０６、メモリ２０８、永続ストレージ２１０、ディスプレイ・デバイス２１２、外部デバイス・セット２１４、ランダム・アクセス・メモリ（ＲＡＭ）２３０、キャッシュ・メモリ２３２、およびプログラム３００を含む。

サブシステム１０２は、多くの点で、本発明における様々なコンピュータ・サブシステムの代表的なものである。したがって、サブシステム１０２のいくつかの部分を、次に、以下の段落で論じる。

サブシステム１０２は、ラップトップ・コンピュータ、タブレット型コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ（ＰＣ）、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタント（ＰＤＡ）、スマート・フォン、または、ネットワーク１１４を介してクライアント・サブシステムと通信することができる任意のプログラム可能な電子デバイスであってもよい。プログラム３００は、この「発明を実施するための形態」セクションの例示の実施形態サブ・セクションにおいて、下記で詳細に論じる一定のソフトウェア機能の作成、管理、および制御のために使用される機械可読命令またはデータあるいはその両方の集合体である。

サブシステム１０２は、他のコンピュータ・サブシステムとネットワーク１１４を介して通信することができる。ネットワーク１１４は、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、インターネットなどの広域ネットワーク（ＷＡＮ）、または、２つの組合せであってもよく、有線接続、ワイヤレス接続、または光ファイバ接続を含むことができる。一般に、ネットワーク１１４は、サーバとクライアント・サブシステムとの間の通信をサポートする接続およびプロトコルの任意の組合せであってもよい。

サブシステム１０２は、多くの両矢印があるブロック図として示されている。これらの両矢印（個別の参照番号はない）は、サブシステム１０２の様々な構成要素間の通信を提供する通信ファブリックを表す。この通信ファブリックは、（マイクロプロセッサ、通信プロセッサ、およびネットワーク・プロセッサ等などの）プロセッサ、システム・メモリ、周辺デバイス、ならびに、システム内の他の任意のハードウェア構成要素の間で、データまたは制御情報あるいはその両方を伝えるように設計された任意のアーキテクチャで実装することができる。例えば、通信ファブリックは、１つまたは複数のバスで少なくとも部分的に実装することができる。

メモリ２０８および永続ストレージ２１０は、コンピュータ可読ストレージ媒体である。一般に、メモリ２０８は、任意の適切な揮発性または不揮発性のコンピュータ可読ストレージ媒体を含むことができる。現在、または近い将来、あるいはその両方において、（ｉ）外部デバイス２１４は、サーバ・サブシステム１０２のためのメモリを、いくつかもしくは全て、供給できる可能性がある、または、（ｉｉ）サーバ・サブシステム１０２の外部にあるデバイスは、サーバ・サブシステム１０２のためのメモリを提供できる可能性がある、あるいはその両方であることにさらに留意されたい。

プログラム３００は、通常、メモリ２０８の１つまたは複数のメモリを通じた、それぞれのプロセッサ・セット２０４の１つまたは複数によるアクセスまたは実行あるいはその両方のために、永続ストレージ２１０に格納される。永続ストレージ２１０は、（ｉ）搬送中の信号より少なくとも永続的であり、（ｉｉ）（磁気または光学ドメインなどの）有形媒体に（プログラムのソフト・ロジックまたはデータあるいはその両方を含む）プログラムを格納し、（ｉｉｉ）永久ストレージより実質的にあまり永続的でない。代替として、データ・ストレージは、永続ストレージ２１０によって提供されるストレージのタイプより、永続的または永久的あるいはその両方であってもよい。

プログラム３００は、機械可読命令と機械実行可能命令の両方、または実在のデータ（すなわち、データベースに格納されたデータのタイプ）、あるいはその両方を含むことができる。この特定の実施形態では、永続ストレージ２１０は、磁気ハードディスク・ドライブを含む。いくつかの可能な変形形態の名前を挙げると、永続ストレージ２１０は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭ）、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を格納することができる他の任意のコンピュータ可読ストレージ媒体を含むことができる。

永続ストレージ２１０で使用される媒体も、取外し可能であってもよい。例えば、取外し可能ハード・ドライブを、永続ストレージ２１０のために使用することができる。他の例は、光ディスクおよび磁気ディスク、サム・ドライブ、ならびに、永続ストレージ２１０の一部でもある別のコンピュータ可読ストレージ媒体への移送のためにドライブに挿入されるスマート・カードを含む。

通信ユニット２０２は、これらの例では、サーバ・サブシステム１０２の外部にある他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット２０２は、１つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット２０２は、物理通信リンクとワイヤレス通信リンクのどちらか一方または両方の使用を通じて通信を行うことができる。本明細書で論じられるいずれかのソフトウェア・モジュールは、（通信ユニット２０２などの）通信ユニットを通じて（永続ストレージ・デバイス２１０などの）永続ストレージ・デバイスにダウンロードすることができる。

Ｉ／Ｏインターフェース・セット２０６は、サーバ・コンピュータ２００とのデータ通信中にローカルに接続することができる他のデバイスとのデータの入力および出力を可能にする。例えば、Ｉ／Ｏインターフェース・セット２０６は、外部デバイス・セット２１４への接続を提供する。外部デバイス・セット２１４は、典型的には、キーボード、キーパッド、タッチ・スクリーン、または他のいくつかの適切な入力デバイス、あるいはその組合せなどのデバイスを含む。外部デバイス・セット２１４は、例えば、サム・ドライブ、携帯型の光ディスクまたは磁気ディスク、およびメモリ・カードなどの携帯型コンピュータ可読ストレージ媒体も含むことができる。例えばプログラム３００といった、本発明の実施形態を実践するために使用されるソフトウェアおよびデータは、このような携帯型コンピュータ可読ストレージ媒体に格納することができる。これらの実施形態では、関連するソフトウェアは、Ｉ／Ｏインターフェース・セット２０６を介して永続ストレージ・デバイス２１０に全体的または部分的にロードされてもよい（または、されなくてもよい）。Ｉ／Ｏインターフェース・セット２０６も、データ通信中にディスプレイ・デバイス２１２と接続する。

ディスプレイ・デバイス２１２は、ユーザにデータを表示するためのメカニズムを提供し、例えば、コンピュータ・モニタ、またはスマート・フォンの表示画面であってもよい。

本明細書で説明されるプログラムは、本発明の特定の実施形態でプログラムが実装される用途に基づいて識別される。それでも、本明細書における任意の特定のプログラム用語は、便宜上使用されるにすぎず、したがって、本発明は、このような用語で識別される、または意味される、あるいはその両方が行われる任意の特定の用途で単に使用することに限定されるべきではないことを理解されたい。

本発明の様々な実施形態の説明を例証のために提示してきたが、網羅的であること、または、開示された実施形態に限定されることを意図するものではない。説明した実施形態の範囲および思想から逸脱することなく、多くの変更形態および変形形態が当業者には明らかである。本明細書で使用した専門用語は、実施形態の原理、実用的用途、または市場で見つかる技術に対する技術的改善を最もよく説明するように、または、本明細書で開示された実施形態を当業者が理解できるように、選ばれた。

例示の実施形態
図２は、本発明による方法を描写する流れ図２５０を示す。図３は、流れ図２５０の方法動作のうちの少なくともいくつかを実施するためのプログラム３００を示す。本方法および関連するソフトウェアを、次に、図２（方法動作ブロックについて）、図３（ソフトウェア・ブロックについて）、ならびに、例えば、データ・サンプルおよびスクリーン・ショットといった、図４Ａから図４Ｅを広く参照しながら、以下の段落で論じる。

処理は、動作Ｓ２５５で始まり、ここでは、履歴ビデオ・クリップ・ソース・サブシステム１０４が、通信ネットワーク１１４（図１参照）を通じて、履歴ビデオ・クリップ・リポジトリ３０２に、視聴覚セグメント（本明細書で「クリップ」と呼ばれることがある）を送る。

本実施形態では、これらのクリップは、（ｉ）１９５７年に遡るプロ・バスケットボールの試合のテレビ放送映像から収集されており、（ｉｉ）長さが正確に６秒になるようにそれぞれトリミングされており、（ｉｉｉ）メタデータでそれぞれ「ラベル付け」されている。

本実施形態では、各クリップのメタデータは、（ｉ）プレイのカテゴリ（例えば、フリー・スロー、３ポイント・ミス、３ポイント・シュート、ダンク等）、（ｉｉ）プレイの自然言語の説明（例えば、２０インチ（５０．８ｃｍ）垂直ジャンプのダンク、ファウル・ラインから跳躍するダンク等、フレグラント・ファウル等）、（ｉｉｉ）関わる主要なプレイヤのそれぞれについての統計情報（例えば、名前、身長、体重、年齢、生涯得点、クリップの試合での得点、ポジション、大学チーム等）、（ｉｖ）会場／日付／チーム情報（例えば、ゲームが行われるアリーナ、入場者数、試合当日の天候、試合の日付、試合当日のチームの得失点記録、チームのシーズン中の得失点記録、ホーム・チームの識別、当番のレフェリ等）、（ｖ）全体としてのクリップの視聴者関心値（例えば、今までで最高のダンクについての６秒クリップは、１．００と格付けしてもよく、一方で、試合の実施中の小休止中に、無名のプレイヤが自分のシューズのひもを結びなおしている６秒クリップは、視聴者関心値０．０１と格付けしてもよい）、ならびに、（ｖｉ）各視聴覚セグメントのうちの各２秒のサブセグメントの視聴者関心値（例えば、クリップは、その最初の２秒の視聴者関心値０．１０、その次の２秒の視聴者関心値０．４０、および、その最後の２秒の視聴者関心値０．８５を有してもよい）、というメタデータのカテゴリを含む。前述のリストの項目（ｖ）および（ｖｉ）について、６秒クリップの視聴者関心値は、全体として考慮され、全体的に、その２秒のサブセグメントの視聴者関心値の平均と同じにはならない。

本実施形態では、動作Ｓ２５５において、これらの履歴ビデオ・クリップは、ＭＬアルゴリズム３１０を訓練して、前の段落で識別したラベル付けの様々なタイプ全てについて、新しいビデオ・クリップを認識し、カテゴライズするための訓練データ・セットとして使用される。

処理は、動作Ｓ２６０に進み、ここでは、新クリップ・ソース・サブシステム１０６が、ネットワーク１１４（図１参照）を通じて、未パディング・クリップ受信モジュール３０４に、新しい２秒の未パディング・クリップを送る。ＭＬアルゴリズム３１０で、特に視聴者関心について、このクリップにラベル付けすることが望ましいが、ＭＬアルゴリズム３１０が６秒クリップをハンドリングするように設計され、プログラムされるので、未パディング・クリップを、ＭＬアルゴリズム３１０ですぐに処理することができない。この２秒の未パディング・クリップの代表的な画像（または「フレーム」）が、図４Ａのスクリーン・ショット４００ａで示されている。このパディングしていない２秒のクリップのメタデータは、（ｉ）プレイのカテゴリがダンクであること、（ｉｉ）プレイの自然言語の説明が、ゴール近くの跳躍および着地を伴う２０インチ（５０．８ｃｍ）垂直ジャンプのダンクであること、（ｉｉｉ）関わる主要なプレイヤのそれぞれについての統計情報が、名前アベル・アダムス、身長６フィート６インチ（１９８．１２ｃｍ）、体重が１７５ポンド（７９．３７８７ｋｇ）であり、年齢が２５歳であり、生涯得点５６２、クリップの試合の得点１２、ポジションがセンタであり、大学チームがジャイノーマス大学であることを含むこと、（ｉｖ）会場がニューヨーク・アリーナであり、試合の日付が２０１９年１月１日であり、アダムスのチームがニューヨーク・ジェリーフィッシュ情報であり、有料入場者数が３０，０００人であり、試合当日の天候がみぞれであり、試合当日のニューヨーク・ジェリーフィッシュの得失点記録が３０－３０であり、ニューヨーク・ジェリーフィッシュのシーズン中の得失点が、２秒の未パディング・クリップの受信の時点ではまだ決定しておらず、ニューヨーク・ジェリーフィッシュがホーム・チームであり、当番のレフェリがアンダーソン・サンダーソンであったこと、を含む。この例では、前述のラベル付けデータのうちのいくつかは、新クリップ・ソース・サブシステム１０６で付けられた人間によるラベル付けから来たが、他の前述のラベル付け情報は、ＭＬアルゴリズム３１０により決定された。

全体としての２秒の未パディング・クリップ４００ａの視聴者関心値は決定されていないが、ハイライト・リール・アセンブリ・チーム・サブシステムが、２０１９年１月１日から１月３日までのハイライト・リールに、未パディング・クリップ４００ａを含めるべきかどうかを決めることができるように、流れ図２５０のその後の動作で決定されることになる。

処理は、動作Ｓ２６５に進み、ここでは、必要なパディング時間の全期間が、パディング時間決定モジュール（「ｍｏｄ」）３０８により決定される。この例では、これは、簡単な計算である。特に、未パディング・クリップは、長さ２秒であり、パディング済クリップは、ＭＬアルゴリズム３１０が正確に視聴者関心を決定できるように、長さ６秒である必要があり、これは、４秒の全パディングが必要であることを意味する。

処理は、動作Ｓ２７０に進み、ここでは、パディング位置決定ｍｏｄ３０９が、未パディング・クリップが始まる時点より前に、２秒のパディングが挿入されるべきであり、未パディング・クリップが終わった後、２秒のパディングが挿入されるべきであると決定する。他の実施形態が、他の方式でパディング位置を決定してもよい。例えば、この「発明を実施するための形態」セクションの次のサブ・セクションで論じられる実施形態では、パディングは、未パディング・クリップの後に常に挿入される。

処理は、動作Ｓ２７５に進み、ここでは、最も関連のあるパディング・クリップが、パディング・クリップ発見ｍｏｄ３１１により決定される。本実施形態では、また、この例について少し詳しく説明されるように、パディング・クリップは、履歴ビデオ・クリップ・リポジトリ３０２に格納された履歴ビデオ・クリップからとられる。これを論じる前に、この「発明を実施するための形態」セクションの以下のサブ・セクションで論じられるように、実施形態の中には、基本的に異なる方式で動作できるものもあることに留意することが重要である。この基本的に異なる方式は、敵対的生成ネットワーク（ＧＡＮ）で合成ビデオを生成することである。既存のビデオを実際に使用する議論中の実施形態と、さらに合成ビデオを使用する実施形態のような両方の実施形態には、未パディング・クリップがパディングされていないかのように、パディング済クリップが、（ＭＬアルゴリズムにより決定される）視聴者関心値を保持するように、パディング・クリップの選択または生成あるいはその両方が行われるという事実が共通して含まれることにさらに留意されたい。

概念的な難しさは、パディング済クリップの視聴者関心値が、まだ分かっていないことであり、すなわち、本発明のいくつかの実施形態の主要な目的が、パディング済クリップを使用して、視聴者関心値を決定することである。議論中の実施形態では、視聴者関心値が正しくなるようにパディングを決定する方式は、期間が６秒だったとした場合、テレビ放送クルーがクリップを撮影し、編集し何を含めようとしたかを理解しようとすることである。論じられるように、この例では、この仮定の、より長いクリップは、未パディング・クリップに最も似た、より長い既存の履歴クリップからの実際の映像を使用する。合成ビデオを生成する他の実施形態では、他の方法を使用して合成パディングを生成し、その結果、未パディング・クリップが長かった場合に取得すると予想される（ＭＬアルゴリズムにより決定され、必ずしも人間のエキスパート視聴者によって決定されるようなものではない）パディング済クリップの視聴者関心値をＭＬアルゴリズムが決定する。視聴者関心値の決定時の使用に適したパディング済クリップにつながる合成ビデオの生成についてのこれらの方法を、この「発明を実施するための形態」セクションの次のサブ・セクションで完全に説明する。

流れ図２５０の動作Ｓ２７５に戻ると、パディング・クリップ発見ｍｏｄ３１１で履歴ビデオ・クリップ・リポジトリ３０２をスキャンして、クリップで示されたダンクの前に生じた２秒の視聴覚を含む６秒クリップ４００ｂを発見する（図４Ｂ参照）。クリップ４００ｂには、その４００ｂのメタデータに、（ｉ）プレイのカテゴリがダンクであること、（ｉｉ）プレイの自然言語の説明が、ファウル・ラインを越えて１８インチ（４５．７２ｃｍ）から跳躍したダンクであること、（ｉｉｉ）関わる主要なプレイヤのそれぞれについての統計情報が、名前アベル・アダムス、身長６フィート６インチ（１９８．１２ｃｍ）、体重が１７１ポンド（７７．５６４３ｋｇ）であること、年齢が２４歳であること、生涯得点５６２点、クリップの試合での得点１４、ポジションがセンタであること、大学チームがジャイノーマス大学であることを含むこと、および、（ｉｖ）会場がロサンゼルスであること、試合の日付が２０１８年１月１日であること、アダムスのチームがロサンゼルス・ミトコンドリアであること、有料入場者数が１５，０００人であったこと、試合当日の天候が灼熱であったこと、試合当日のロサンゼルス・ミトコンドリアの得失点記録が３１－２９であったこと、ロサンゼルス・ミトコンドリアのシーズン中の得失点が６２－５８であったこと、ロサンゼルス・ミトコンドリアがホーム・チームであったこと、当番のレフェリがベティ・マクネティであったことという、ラベル付けが行われている。このクリップ内のダンクする人は、未パディング・クリップ内のダンクする人と同じ人物であるが、前年、別のチームでプレイしていたらしいということに留意されたい。

動作Ｓ２７５において、このクリップが、ダンクの前に生じた映像を含む最も似たクリップであると決定され、したがって、このクリップの最初の２秒が、パディング済クリップの最初の２秒を作るために使用されることになる必要なパディング映像を提供するために最も関連のあるものとして、選択される。より詳細には、この特定の例では、（ｉ）プレイの類似点（図４Ａを図４Ｂと比較して分かるように、両方のプレイがダンクであるが、一方は、主に垂直ダンクであり、他方は、主に水平ダンクである）、（ｉｉ）プレイヤの類似点（クリップ４００ａおよび４００ｂ内のダンクする人は、同じプレイヤである）、（ｉｉｉ）会場／チーム／観衆の類似点（会場およびチームおよび観衆の規模がかなり異なるが、クリップ４００ａとクリップ４００ｂの両方において、ダンクする人がホーム・チームにいる）、ならびに、（ｉｖ）クリップの時間的近さ（recentness）（クリップが、１年しか離れていない）、というファクタを、パディング・クリップ発見ｍｏｄ３１１の機械ロジックが使用して、クリップ４００ｂが、プレ・パディングに適した、最も似たクリップであると決定した。クリップ４００ｂが、プレ・パディング材料を含んだ、最も関連したクリップなので、クリップ４００ｂの最初の２秒が、この例でのプレ・パディングとして使用されることになる。図４Ｂに示したように、このプレ・パディングは、アダムスがジャンプし、ダンク・シュートを決める前のように見えるような、コートの半分の上から見下ろした図である。

動作Ｓ２７５において、クリップ４００ｃ（図４Ｃ参照）が、ダンク後に生じた映像を含む最も似たクリップであるとさらに決定され、したがって、クリップ４００ｃの最後の２秒が、パディング済クリップの最後の２秒を作るために使用されることになる必要なパディング映像を提供するために最も関連のあるものとして選択される。より詳細には、この特定の例では、（ｉ）プレイの類似点（図４Ａを図４Ｃと比較して分かるように、両方のプレイが、驚くほど似て見える垂直ダンクである）、（ｉｉ）プレイヤの類似点（クリップ４００ｃ内のダンクする人が、１９６０年代の頃、ニューヨーク・ジェリーフィッシュでバスケットボールのスターだったローラ・オルドタイマーである（この例では、彼女は、アベル・アダムスに生涯統計値が似ている））、（ｉｉｉ）会場／チーム／観衆の類似点（会場およびチームおよび観衆の規模が、ここでは、クリップ４００ａとクリップ４００ｃとの間で同一である）、ならびに、（ｉｖ）クリップの時間的近さ（この例では、２つのクリップの時間が広く離れて空いており、ここでは、類似点／関連性の発見に反して切り取られた）、というファクタを、パディング・クリップ発見ｍｏｄ３１１の機械ロジックが使用して、クリップ４００ｃが、ポスト・パディングに適した、最も似たクリップであると決定した。クリップ４００ｃが、ポスト・パディング材料を含んだ、最も関連したクリップなので、クリップ４００cの最後の４秒が、この例でのポスト・パディングとして使用されることになる。図４Ｃに示したように、このポスト・パディングは、声援を送る観衆の図であり、オールドタイマーがジャンプし、ダンク・シュートを決めた後の、１組のファンの顔のクローズ・アップである。

処理は、動作Ｓ２８０に進み、ここでは、パディング済クリップ組立てｍｏｄ３１２が、動作Ｓ２７５で選ばれたパディング・クリップに基づいて、６秒のパディング済クリップ４００ｄ（図４Ｄ参照）を組み立てる。この６秒のパディング済クリップは、人間の聴衆に示されることを意図したものではなく、むしろ、視聴者関心値を決定するために、ＭＬアルゴリズム３１０でしか使用されないことに留意されたい。

処理は、動作Ｓ２８５に進み、ここでは、ＭＬアルゴリズム３１０が、パディング済クリップ４００ｄの視聴者関心値を決定する。この例では、視聴者関心値は、０．５１である。これは、未パディング・クリップ４００ａを単純に３回ループさせた場合に取得されるものとは異なる視聴者関心値であり、パディングが、単に、何も映っていない画面である場合に取得されるものとも異なる視聴者関心値である。このようにして、本発明のいくつかの実施形態は、従来の視聴覚セグメント・パディング技法で取得されるものより正確な視聴者関心値を提供することができる。

処理は、動作Ｓ２９０に進み、ここでは、サーバ・サブシステム１０２（図１参照）のプログラム３００の出力ｍｏｄ３１４が、２０１９年１月１日から１月３日までに行われたバスケットボールの試合のハイライト・リールの組立て時の使用について考慮するために、ハイライト・リール・アセンブリ・チーム・サブシステム１０８に、ネットワーク１１４を通じて、視聴者関心値０．５１を示すメタデータと共に、未パディング・クリップ４００ａを送る。この例では、ハイライト・リールのためのクリップが、人間によって選ばれ、並べられる。この例では、人間がクリップ４００ａを使用することを決定するが、なぜなら、ある程度、クリップ４００ａの視聴者関心値がいくらか満足できるものであるからであり、さらに、テレビで、また、インターネットで配信されるストリーミング・サイトで、見られることになるスポーツ・ニュースでの使用のために、指定された所定の長さになるように、２秒の映像を、ハイライト・リールが必要とするからである。

さらなるコメントまたは実施形態あるいはその両方
本発明のいくつかの実施形態は、次の事実、潜在的な問題、または、現在の最先端についての改善のための潜在的な領域、あるいはその組合せを認識している。
（ｉ）機械学習モデルが効果的なものになるように、機械学習モデルの入力データの特徴は、正規化されるべきであり、したがって、どの特徴も、その値の範囲に起因して大きすぎるインパクトを持つことはない、（ｉｉ）ビデオおよびオーディオを分析するモデルは、期間が長くなると、モデルで使用される重みを膨張させる恐れがあるので、入力データの期間が一貫したものになる必要がある、（ｉｉｉ）この理由から、コンテンツ断片は、分析の前に、等しい期間のセグメントに分割されなければならない、（ｉｖ）所与のレイヤにおける特徴分析が、明白でないことがあり、期間などの隠れ変数を含んでいることが、あまり明らかでないので、ディープ・ニューラル・ネットワークを使用するとき、データの準備が特に重要である、（ｖ）様々な期間のコンテンツ断片について、研究者は、等しい期間のセグメントに、どのように達するかを決めなければならない、（ｖｉ）共通の選択肢は、（ａ）コンテンツの一部を捨てること（トリミングとしても知られる）、または（ｂ）任意の画像もしくは無音などのコンテンツを追加すること（ナイーブ・パディングとしても知られる）を含む、（ｖｉｉ）トリミングは、捨てたコンテンツが、分析に重要な役割を果たしていた可能性もあるので、望ましくない、（ｖｉｉｉ）ナイーブ・パディングも、モデルが、コンテンツ断片との関連性を有していなくても、セグメントの一部としてパディングを分析することになるので、望ましくない、ならびに、（ｉｘ）当技術分野におけるいくつかの既知の解決策は、（ａ）機械学習モデルに取り込まれるいくつかのセグメントの期間が短くなることを受け入れること、（ｂ）コンテンツを捨てることによってセグメントを所望の長さにトリミングすること、および、（ｃ）任意の画像または無音などのナイーブ・パディングを使用することを含む。

本発明のいくつかの実施形態は、次の事実、潜在的な問題、または、現在の最先端についての改善のための潜在的な領域、あるいはその組合せを認識している。
（ｉ）プロ・テニス・マッチの最中、短いビデオが、低い興奮スコアで誤って解釈されていたことがわかった、（ｉｉ）機械学習および深層学習の中で、モデルへの入力データは、正確な予測のために標準化される必要がある、（ｉｉｉ）ビデオのためのデータ準備の一部は、同じ長さのものであるカットおよびセグメントを作り出すことである、（ｉｖ）この例では、ビデオは、声援分析が興奮をランク付けできるように、６秒のセグメントに分けられる、（ｖ）それでも、ビデオが長さ８秒だった場合、最後のセグメントは、最も興奮するコンテンツを含むことがあるが、無音の４秒でパディングされた、ならびに、（ｖｉ）結果として、最後の６秒のセグメントについての興奮スコアは、不自然に低かった。

本発明のいくつかの実施形態は、次の特徴、特性、または長所、あるいはその組合せの１つまたは複数を含むことができる。（ｉ）機械学習モデルおよび深層学習モデルがマルチメディア解釈の正確さを向上させるように、セグメントを埋めるための、音声およびビデオをインテリジェント生成する、（ｉｉ）入力データが等しい期間であるとき、マルチメディア解釈モデルが最もよく機能するので、事前処理ステップとしてセグメントをパディングしなければならない、（ｉｉｉ）セグメントの元のコンテンツに一致したパディングを作り出すために、多くのドメイン固有のセグメントについて訓練された敵対的生成ネットワークを使用する、（ｉｖ）このようにパディングを生成することが、コンテンツを捨てたり任意の画像もしくは無音またはその両方を伴うパディングを行うより好ましい、（ｖ）パディングされる特定のセグメントに関係のあるビデオおよびオーディオを生成すること、（ｖｉ）インテリジェントにパディングされたセグメントが、解釈モデルで分析される場合、一貫性のないデータにより、分析が損なわれることはない、（ｖｉｉ）一連のコンテンツ断片が、マルチメディア解釈のために分析されている、（ｖｉｉｉ）コンテンツ断片が、そのビデオ・コンテンツ（画像）と、そのオーディオ・コンテンツに分割される、（ｉｘ）ビデオとオーディオ両方が、所望の長さのセグメントに分割される、（ｘ）ビデオの最後のセグメント、およびオーディオの最後のセグメントが、所望の長さでない場合、これらをパディングしなければならない、（ｘｉ）敵対的生成ネットワーク（ＧＡＮ）が、パディングを必要とする個々のセグメントに一致した生成的ビデオ・コンテンツもしくはオーディオ・コンテンツあるいはその両方を作り出すために、多くのコンテンツ断片に対して訓練されたことがある、（ｘｉｉ）特徴の重みが、様々な期間の入力データによる悪影響を受けない、（ｘｉｉｉ）全ての元のコンテンツが、理解のための入力データであり、したがって、このコンテンツ内の全ての潜在的特徴をモデルで評価することができる、（ｘｉｖ）入力データが全て、コンテンツの解釈に関係があるので、モデルが、任意のものであるコンテンツの中から意味をサーチすることはない、（ｘｖ）ビデオ分析機械学習モデルのための入力データを準備するためのセグメント関連のビデオ・コンテンツを生成する、あるいは、（ｘｖｉ）オーディオ分析機械学習モデルのための入力データを準備するためのセグメント関連のオーディオ・コンテンツを生成する。

本発明のいくつかの実施形態は、次の特徴、特性、または長所、あるいはその組合せの１つまたは複数を含むことができる。（ｉ）媒体解釈モデル（この用語は、コンテンツ断片の主題についてコンテンツ断片を分析している機械学習モデルを示す）、（ｉｉ）パディング生成サブシステムは、解釈モデルのための入力データを準備する、（ｉｉｉ）媒体解釈システム（システムは、パディング生成サブシステムと媒体解釈モデルの両方からなる）、（ｉｖ）機械学習モデルのためのデータ準備は、このシステム内で生じる、（ｖ）コンテンツ断片（ビデオ（画像）およびオーディオの両方を含むマルチメディア・トラック）、（ｖｉ）コンテンツ断片は、ビデオとオーディオに分割され、セグメントに分割されることになる、（ｖｉｉ）セグメント（コンテンツ断片は、解釈モデルのための入力データになる、より小さい単位に分割される、（ｖｉｉｉ）ビデオ（画像）とオーディオの両方が、セグメントに分割されることになる、（ｉｘ）解釈モデルのパフォーマンスを改善するために、入力データを等しい期間のセグメントにすることが望ましい、（ｘ）最後のセグメント（コンテンツ断片のビデオまたはオーディオを、所望の期間のセグメントに分割したときの残りである部分セグメント）、（ｘｉ）このセグメントは、パディングを必要とし、したがって、他のセグメントの長さを一致させることになる、（ｘｉｉ）パディング生成サブシステム（最後のセグメントに追加されるビデオおよびオーディオ・コンテンツ（パディング）を作り出すために、敵対的生成ネットワークを使用する）、（ｘｉｉｉ）識別ネットワーク（discriminator network）が、生成ネットワーク（generator network）のパディング出力が、分析されている残りの特定のセグメントに一致したものであるかどうかについて評価する、（ｘｉｖ）最大パディング（最大パディングは、生成するために受入れ可能なパディングの閾値である）、（ｘｖ）例えば、最後のセグメントが、パディングの前に長さ１秒しかなく、セグメント期間が１０秒でなければならない場合、パディングのパーセンテージは、９０％である、ならびに、（ｘｖｉ）これが、所定の最大パディングを超過する場合、セグメントは、媒体解釈モデルに有用なデータである可能性が低いので、セグメントを捨てること、またはトリミングすること、あるいはその両方を行わなければならない。

次のステップの１つまたは複数（必ずしもこの順序ではない）を、本発明の態様による方法の１つの例示の実施形態が含むことができる。
（ｉ）コンテンツ断片の集合体を媒体解釈システムにアップロードする、（ｉｉ）セグメント期間が、媒体解釈システムのハイパーパラメータであり、例えば、研究者は、分析を始める前に、この期間を定めることができる、（ｉｉｉ）最大パディングが、パディング生成サブシステムのハイパーパラメータであり、例えば、研究者は、分析を始める前に、この期間を定めることができる、（ｉｖ）コンテンツ断片内のビデオ（画像）とオーディオを、独立した分析のために分離する、（ｖ）コンテンツ断片のビデオを、所望の期間のセグメントに分割する、（ｖｉ）（ａ）最後の部分セグメントが存在するかどうか、および、部分セグメントが存在すると決定したかどうか、（ｂ）パディングの量が最大パディングを超過しないこと、を評価することによってパディングを生成するべきかどうかを決定する、（ｖｉｉ）コンテンツ断片の全てのセグメントに対してパディング生成サブシステムを訓練し、ここで、生成ネットワークが最後のセグメントの特徴を使用して、このセグメントに固有のコンテンツを生成することになる、（ｖｉｉｉ）この特定のセグメントに、生成ネットワークの出力が適しているか否かについて、識別ネットワークが決定することになる、（ｉｘ）生成したパディングを最後のセグメントに追加する、（ｘ）パディング済の最後のセグメントを含む全てのセグメントを、媒体解釈モデルに入力として与える、（ｘｉ）コンテンツ断片のオーディオ部分を所望の期間のセグメントに分割する代わりに、コンテンツ断片のオーディオ部分について、ｖからｘのステップを繰り返す、（ｘｉｉ）オーディオ分析に使用されるネットワークが、ビデオ分析に使用されるものから独立したものである、または、（ｘｉｉｉ）媒体解釈システムが、各コンテンツ断片のスコアをつけるとき、オーディオ分析の結果と、ビデオ分析の結果の両方を最終的に考慮することになる。

本発明の態様によれば、（ｉ）敵対的生成ネットワーク（ＧＡＮ）を使用して、ＧＡＮ生成オーディオ・データを生成すること（これらのＧＡＮが通常行う、画像を生成することとは対照的である）、という動作を実施する（必ずしもこの順序ではない）方法、コンピュータ・プログラム製品、またはシステム、あるいはその組合せがある。

本発明の態様によれば、（ｉ）敵対的生成ネットワーク（ＧＡＮ）を使用して、ＧＡＮ生成オーディオ・データを生成すること（これらのＧＡＮが通常行う、画像を生成することとは対照的である）、および、（ｉｉ）所定の長さより短い所与の長さの元のビデオ・クリップを供給することであって、元のビデオ・クリップが、元のオーディオ・データを含む、供給すること、という動作を実施する（必ずしもこの順序ではない）方法、コンピュータ・プログラム製品、またはシステム、あるいはその組合せがある。ＧＡＮが生成したオーディオ・データの生成は、元のオーディオ・データに少なくとも部分的に基づく。

本発明の態様によれば、（ｉ）敵対的生成ネットワーク（ＧＡＮ）を使用して、ＧＡＮ生成オーディオ・データを生成すること（これらのＧＡＮが通常行う、画像を生成することとは対照的である）、（ｉｉ）所定の長さより短い所与の長さの元のビデオ・クリップを供給することであって、元のビデオ・クリップが、元のオーディオ・データを含む、供給すること、および、（ｉｉｉ）元のビデオ・クリップと、ＧＡＮが生成したオーディオ・データを結合させて、所定の長さを有するパディング済ビデオ・クリップを取得すること、という動作を実施する(必ずしもこの順序ではない)方法、コンピュータ・プログラム製品、またはシステム、あるいはその組合せがある。ＧＡＮが生成したオーディオ・データの生成は、元のオーディオ・データに少なくとも部分的に基づく。

図５を参照しながら、本発明の１つの実施形態による方法を次に説明し、方法は、媒体解釈システム（ＭＩＳ：media interpretation system）５００、ならびにサブシステム５１０および５４８によって行われる。方法は、Ｓ５０２で始まり、ここでは、ビデオおよびオーディオ・コンテンツを含むコンテンツ断片を、ＭＩＳ５００にアップロードする。Ｓ５０４において、所望のセグメント期間長に応じて、コンテンツ断片のビデオ・コンテンツをセグメント化し、所望のセグメント長の複数のビデオ・セグメント、および、所望の期間長までの期間長の最後のビデオ・セグメントを生じる。Ｓ５１２において、最後のビデオ・セグメントが、所望の期間長より短い期間長の部分セグメントであるかどうかを、ＭＩＳ５００のサブシステムであるパディング生成サブシステム（ＰＧＳ）５１０が決定する。最後のビデオ・セグメントが部分セグメントでない場合、方法は、Ｓ５５４に進み、ここで、ＭＩＳ５００のサブシステムである媒体解釈モデル５４８が、オーディオ・コンテンツを受け取ると、コンテンツ断片を解釈する。最後のビデオ・セグメントが部分セグメントである場合、処理は、Ｓ５１４に進み、ここで、ＰＧＳ５１０は、許容されるパディング量があるかどうかを決定する。許容されるパディング量がない場合、処理は、上記のようにＳ５５４に進む。許容されるパディング量がある場合、処理は、Ｓ５１８に進み、ここで、意味のあるパディング・ビデオ・コンテンツのサブセグメントが、コンテンツ断片に適しているかどうかを評価するために、Ｓ５１６における識別ネットワークを参照しながら、意味のあるパディング・ビデオ・コンテンツのサブセグメントを決定して最後のビデオ・セグメントに添付するために、コンテンツ断片のビデオ部分のコンテンツに対してＰＧＳ５１０を訓練する。意味のあるパディング・コンテンツのサブセグメントがコンテンツ断片に適していると決定されると、Ｓ５１６における識別ネットワークが決定すると、パディング済の最後のビデオ・セグメントを作り出すために、Ｓ５２０において、意味のあるパディング・コンテンツのサブセグメントを最後のビデオ・セグメントに添付する。Ｓ５５０において、パディング済の最後のビデオ・セグメントを含むビデオ・コンテンツの複数のセグメントのうちのセグメントの全てを、入力として媒体解釈モデル５４８に提供する。Ｓ５５４において、提供された他の任意の入力と共に、Ｓ５５０から提供された入力に、機械学習のためのスコアをつける。

上述のようなビデオ・コンテンツに加えて、Ｓ５０２におけるものなど、コンテンツ断片は、典型的には、オーディオ・コンテンツも同様に含む。Ｓ５０６において、コンテンツ断片のオーディオ・コンテンツを、所望のセグメント期間長に応じて、複数のオーディオ・セグメントにセグメント化し、所望のセグメント期間長の複数のオーディオ・セグメント、および所望のセグメント長までの期間長の最後のオーディオ・セグメントを生じる。Ｓ５３２において、最後のオーディオ・セグメントが、所望の期間長より小さい期間長の部分的な最後のオーディオ・セグメントであるかどうかを、ＰＧＳ５１０が決定する。最後のオーディオ・セグメントが、部分的な最後のオーディオ・セグメントでない場合、処理は、Ｓ５５４に進み、ここで、最後のオーディオ・セグメントを含む複数のオーディオ・セグメントを、機械学習のためのスコアをつけるために、媒体解釈モデル５４８に提供する。最後のオーディオ・セグメントが、部分的な最後のオーディオ・セグメントである場合、処理は、Ｓ５３４に進み、ここで、許容されるパディング量があるかどうかを、ＰＧＳ５１０が決定する。許容されるパディング量がない場合、処理は、上記のようにＳ５５４に進む。許容されるパディング量がある場合、処理は、Ｓ５３８に進み、ここで、意味のあるパディング・オーディオ・コンテンツのサブセグメントがコンテンツ断片に適しているかどうかを評価するために、Ｓ５３６における識別ネットワークを参照しながら、意味のあるパディング・オーディオ・コンテンツのサブセグメントを決定して最後のオーディオ・セグメントに添付するために、コンテンツ断片のオーディオ部分のコンテンツに対してＰＧＳ５１０を訓練する。意味のあるパディング・オーディオ・コンテンツのサブセグメントがコンテンツ断片に適していると決定されたと、Ｓ５３６における識別ネットワークが決定すると、パディング済の最後のオーディオ・セグメントを作り出すために、Ｓ５４０において、意味のあるパディング・オーディオ・コンテンツのサブセグメントを最後のオーディオ・セグメントに添付する。Ｓ５５２において、パディング済の最後のオーディオ・セグメントを含むオーディオ・コンテンツの複数のセグメントのうちのセグメントの全てを、入力として媒体解釈モデル５４８に提供する。Ｓ５５４において、提供された他の任意の入力と共に、Ｓ５５２から提供された入力に、機械学習のためのスコアをつける。

図６のスクリーン・ショット６００は、本発明の実施形態のための例示のユース・ケースとして提供された、最近のテニス・トーナメントからの一連のテニス・マッチについての、人物がどれほど興奮しているかについての計測が特定のビデオ・クリップを見つけることができる、興奮レベルのスコアをつけるための例示の機械学習ビデオ出力画面を示す。

本発明のいくつかの実施形態は、次の特徴、特性、または長所、あるいはその組合せの１つまたは複数を含むことができる。（ｉ）上記のテニス・マッチの例を参照すると、最後の／部分的なセグメントのコンテンツのうちの２秒が、パディングの４秒のための完全に新しいコンテンツを作り出す敵対的生成ネットワーク（ＧＡＮ）に入力されるデータとして使用される、（ｉｉ）同じドメイン内の他のコンテンツに対してＧＡＮを訓練したことがあり、したがって、フィットするパディングを連続して作り出すことができる、（ｉｉｉ）例えば、上記のテニス・マッチの例を参照すると、所与のテニス・ポイントのハイライト・クリップは、ウイニング・ショットの直後に終わらせることができるが、他のクリップから学習すると、ＧＡＮは、プレイヤの祝賀、拍手、もしくは観客の反応についての要素を含むコンテンツを作り出すことができる、（ｉｖ）人間の目には、作り出したコンテンツが現実的であるように見えても見えなくてもよいが、目的は、媒体解釈モデルのために、このセグメントを準備することである、（ｖ）これらの特徴を追加すると、媒体解釈モデルがコンテンツをより正確に評価するのに役立てることができる、（ｖｉ）生成したパディング・コンテンツを、部分セグメントの終わりに追加してもよい、（ｖｉｉ）それでも、一定のコンテンツおよび一定のゴールとともに、始めもしくは中間にコンテンツを追加することが適切になり得るという可能性がある、（ｖｉｉｉ）例えば、テニス・ポイントがサーブから始まり、サービスの動作を識別することが、媒体解釈モデルにとって重要であることがわかった場合、媒体解釈モデルがサーブとして解釈することになる要素をＧＡＮが作り出すことを期待して、第１のセグメントの始めを埋めることを、実装形態が選ぶことができる、（ｉｘ）データが正規化されていることを、多くの機械学習モデルが必要とする、（ｘ）異なるスケールで計測された特徴の値は、共通のスケールに調節される、（ｘｉ）１つのゴールは、そのスケールが原因で大きくなった値が、モデルに大きすぎるインパクトを及ぼさないことを確実にすることである、（ｘｉｉ）媒体解釈のために一般に使用されるディープ・ニューラル・ネットワークについて、研究者は、典型的には、モデルが使用している各特徴を知らず、したがって、特徴レベルに正規化することはより困難である、（ｘｉｉｉ）研究者は、モデルに供給されるセグメントの長さを制御でき、したがって、これを一致させることは普通のことである、または、（ｘｉｖ）そうでなければ、より長いセグメントの特徴が、媒体解釈をゆがめることになる、大きすぎるインパクトを及ぼす可能性がある。

本発明のいくつかの実施形態は、以下の計算、アルゴリズム、または方程式、あるいはその組合せのいくつかまたは全てを使用することができる。
（ｉ）この計算は、切り捨て除算（floor division）である：full_duration_segments =content_piece_duration // segment_duration、
（ｉｉ）partial_segment_duration = content_piece_duration -(full_duration_segments * segment_duration)、
（ｉｉｉ）padding_duration = segment_duration - partial_segment_duration、または
（ｉｖ）padding_percentage = padding_duration / segment_duration、

Claims

方法であって、
第１の未パディング視聴覚セグメントを受け取ることと、
前記第１の未パディング視聴覚セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、
パディング時間間隔の前記セットの各所与のパディング時間間隔に対して、
前記所与のパディング時間間隔に対する合成視聴覚セグメントを、訓練済みの敵対的生成ネットワーク（ＧＡＮ）によって生成することと、
パディング時間間隔の前記セットの各パディング時間間隔に対応する前記合成視聴覚セグメントを用いて、前記第１の未パディング視聴覚セグメントから第１のパディング済視聴覚セグメントを組み立てることと、
全体として考慮して前記第１のパディング済視聴覚セグメントの視聴者関心値を、機械記学習（ＭＬ）アルゴリズムにより決定することと
を含む、方法。
全体として考慮した前記第１のパディング済視聴覚セグメントの前記視聴者関心値に少なくとも部分的に基づいて、より大きいビデオ上演に含めるために、前記第１の未パディング視聴覚セグメントを選択すること、
をさらに含む、請求項１に記載の方法。
前記合成視聴覚セグメントが、人間の視聴者に理解できない、請求項１または２のいずれかに記載の方法。
（ｉ）前記第１の未パディング視聴覚セグメントの直前に生じる第１のパディング時間間隔、および（ｉｉ）前記第１の未パディング視聴覚セグメントの直後に生じる第２のパディング時間間隔、の２つのパディング時間間隔があり、
前記第１および第２のパディング時間間隔は等しい、請求項１ないし３のいずれかに記載の方法。
複数の訓練データ・セットで前記ＭＬアルゴリズムを訓練することであって、各訓練データ・セットが、（ｉ）視聴覚セグメント、および（ｉｉ）該視聴覚セグメントの視聴者関心値を含む、前記訓練することをさらに含み、
各所与のパディング時間間隔に対する前記合成視聴覚セグメントの前記生成が、前記複数の訓練データ・セットを用いて訓練された訓練済みの前記ＧＡＮによってなされる、請求項１ないし４のいずれかに記載の方法。
訓練済みの前記ＧＡＮは、前記第１の未パディング視聴覚セグメントと同じドメインの複数の視聴覚セグメントを用いて訓練されている、請求項１ないし４のいずれかに記載の方法。
方法であって、
第１の未パディング視聴覚セグメントを受け取ることと、
前記第１の未パディング視聴覚セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、
パディング時間間隔の前記セットの各所与のパディング時間間隔に対して、１つまたは複数の履歴視聴覚セグメントからパディング視聴覚セグメントを生成することであって、前記パディング視聴覚セグメントは、前記第１の未パディング視聴覚セグメントが前記所与のパディング時間間隔を通じて続いた場合前記所与のパディング時間間隔に含まれていたであろうものに似た視聴覚コンテンツを有する、前記生成することと、
パディング時間間隔の前記セットの各パディング時間間隔に対応する前記パディング視聴覚セグメントを用いて、前記第１の未パディング視聴覚セグメントから第１のパディング済視聴覚セグメントを組み立てることと、
全体として考慮して前記第１のパディング済視聴覚セグメントの視聴者関心値を、機械学習（ＭＬ）アルゴリズムにより決定することと
を含む、方法。
全体として考慮した前記第１のパディング済視聴覚セグメントの前記視聴者関心値に少なくとも部分的に基づいて、より大きいビデオ上演に含めるために、前記第１の未パディング視聴覚セグメントを選択すること
をさらに含む、請求項７に記載の方法。
複数の訓練データ・セットで前記ＭＬアルゴリズムを訓練することであって、各訓練データ・セットが、視聴覚セグメント、および該視聴覚セグメントの視聴者関心値を含む、前記訓練することをさらに含み、
前記複数の履歴視聴覚セグメントが、前記複数の訓練データ・セットの複数の前記視聴覚セグメントである、
請求項７または８のいずれかに記載の方法。
各所与のパディング時間間隔に対する前記パディング視聴覚セグメントの前記生成が、単一の前記履歴視聴覚セグメントの少なくとも一部を選択することによって実施される、請求項７ないし９のいずれかに記載の方法。
各所与のパディング時間間隔に対する前記パディング視聴覚セグメントの前記生成が、複数の前記履歴視聴覚セグメントの一部を組み立てることを含む、請求項７ないし１０のいずれかに記載の方法。
前記第１の未パディング視聴覚セグメントの直前に生じる第１のパディング時間間隔、および前記第１の未パディング視聴覚セグメントの直後に生じる第２のパディング時間間隔、の２つのパディング時間間隔があり、
前記第１および第２のパディング時間間隔は等しい、請求項７ないし１１のいずれかに記載の方法。
各所与のパディング時間間隔に対する前記パディング視聴覚セグメントの前記生成が、複数の前記履歴視聴覚セグメントの各々のメタデータと前記第１の未パディング視聴覚セグメントのメタデータとの比較に基づく、請求項７ないし１２のいずれかに記載の方法。
コンピュータ可読ストレージ媒体であって、請求項１ないし１３のいずれかに記載の方法を実施するために、処理回路で読み取ることができ、前記処理回路による実行のための命令を格納する、コンピュータ可読ストレージ媒体。
コンピュータ・プログラムであって、請求項１ないし１３のいずれかに記載の方法の各ステップをコンピュータに実行させるための、コンピュータ・プログラム。
コンピュータ・システムであって、
メモリと、
前記メモリに結合されるプロセッサと
を備え、前記コンピュータ・システムは、前記請求項１ないし１３のいずれかに記載の方法を実行するように構成される、コンピュータ・システム。