JP7257591B2

JP7257591B2 - パーソナライズされた自動ビデオクロッピング

Info

Publication number: JP7257591B2
Application number: JP2022519751A
Authority: JP
Inventors: ピッツ，コルビン
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-12-13
Filing date: 2020-12-08
Publication date: 2023-04-13
Anticipated expiration: 2040-12-08
Also published as: US11641445B2; US11277583B2; KR20220043247A; EP3895065A1; KR102454421B1; CN114402355A; US20210185273A1; JP2023089048A; US20220159213A1; JP2023500028A; WO2021118954A1

Description

関連出願
本出願は、２０１９年１２月１３日に出願された、「Personalized Automatic Video Cropping（パーソナライズされた自動ビデオクロッピング）」と題された米国仮特許出願第６２／９４８，１７９号の利益を主張し、その全体が本明細書において参照により援用される。

背景
デバイスで動画（および画像）をレビューする場合、デバイスの表示アスペクト比および／または方向が、メディアのアスペクト比に一致しないことがよくある。その結果、メディアは、表示用にレターボックス化されることが多い（たとえば、側面に大きな黒枠があり、枠の間の動画サイズまたは静止画サイズが縮小されている）。場合によっては、ビューアソフトウェアアプリケーションは、レターボックス化を避けるために、オリジナルのメディアをクロップすることがある。

本明細書で提供される背景の説明は、本開示の文脈を一般的に提示することを目的とする。本背景の項に記載されている範囲での本願発明者の業績、および出願時に先行技術として認められない可能性のある説明の側面は、本開示に対する先行技術として明示的にも黙示的にも認められるものでない。

概要
いくつかの実装は方法を備え得る。方法は、複数のフレームを含む入力動画を取得することと、入力動画の各フレームにおける１つ以上のクロップ候補領域について、フレームごとのクロップスコアを決定することとを備え得る。方法はさらに、訓練済み機械学習モデルを用いて、入力動画の各フレーム内の１つ以上のクロップ候補領域について、顔信号を生成することと、１つ以上のクロップ候補領域の顔信号に基づいて、各フレームごとのクロップスコアを調整することとを備え得る。いくつかの実装では、顔信号は、少なくとも１つの重要な顔がクロップ候補領域で検出されるかどうかを示してもよい。

方法はさらに、動きコストと、１つ以上のクロップ候補領域について調整されたフレームごとのクロップスコアとに基づいて、入力動画についてクロップ領域位置を表す最小コスト経路を決定することと、最小コスト経路に沿って、クロップ領域位置に対応するクロップキーフレーミングを生成することとを備え得、クロップキーフレーミングは、開始フレームと、終了フレームと、クロップ領域位置とを含む。方法はさらに、入力動画の対応する入力アスペクト比または入力方向と異なる出力アスペクト比または出力方向のうちの１つ以上を有する修正済み動画を出力することを備え得、入力アスペクト比または入力方向は、入力動画の取込み中に使用されるパラメータである。

いくつかの実装では、各フレームごとのクロップスコアを調整することは、顔が、フレームごとのクロップスコアに対応するクロップ候補領域に存在すると判断される場合、フレームごとのクロップスコアを第１の値だけ増加させること、または、少なくとも重要な顔が、フレームごとのクロップスコアに対応するクロップ候補領域に存在すると判断される場合、フレームごとのクロップスコアを第２の値だけ増加させることのうちの１つを含み、第２の値は第１の値より大きい。

方法はさらに、クロップキーフレーミングの品質スコアを決定することと、品質スコアに基づいて、入力動画の自動ビデオクロッピングを行うこととを備え得る。方法はさらに、クロップキーフレーミングの信頼度スコアを決定することと、信頼度スコアに基づいて、入力動画の自動ビデオクロッピングを行うこととを備え得る。

いくつかの実装では、フレームごとのクロップスコアを決定することは、クロップ候補領域ごとに、美的スコア、顔分析スコア、またはアクティブスピーカプレゼンスのうちの１つ以上を決定することを含む。いくつかの実装では、クロップキーフレーミングを生成することは、２つのキーフレームの間で補間することを含む。いくつかの実装では、補間することは、ベジエスプラインを適用することを含む。

いくつかの実装では、顔信号を生成することは、１つ以上のパーソナライズされたパラメータにアクセスすることを含む。いくつかの実装では、１つ以上のパーソナライズされたパラメータは、１つ以上の重要な顔についての顔識別情報を含む。いくつかの実装では、修正済み動画を出力することは、修正済み動画をディスプレイに表示することを含む。

方法はさらに、入力動画を取得する前に、デバイスにおいて動画再生コマンドを受信することと、動画再生コマンドを受信することに応答して、デバイスについてデバイス方向と表示アスペクト比とを検出することとを備え得る。方法はさらに、デバイスについて、デバイス方向と表示アスペクト比とに基づいて、クロップ領域を決定することを備え得る。

いくつかの実装は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに動作を実行させるソフトウェア命令を格納した非一時的なコンピュータ読取可能媒体を備え得る。動作は、複数のフレームを含む入力動画を取得することと、入力動画の各フレームにおける１つ以上のクロップ候補領域について、フレームごとのクロップスコアを決定することと、訓練済み機械学習モデルを用いて、入力動画の各フレーム内の１つ以上のクロップ候補領域について、顔信号を生成することとを含み得る。いくつかの実装では、顔信号は、少なくとも１つの重要な顔がクロップ候補領域で検出されるかどうかを示してもよい。動作はさらに、１つ以上のクロップ候補領域の顔信号に基づいて、各フレームごとのクロップスコアを調整することと、動きコストと、１つ以上のクロップ候補領域について調整されたフレームごとのクロップスコアとに基づいて、入力動画についてクロップ領域位置を表す最小コスト経路を決定することとを備え得る。

動作はさらに、最小コスト経路に沿って、クロップ領域位置に対応するクロップキーフレーミングを生成することを含み得、クロップキーフレーミングは、開始フレームと、終了フレームと、クロップ領域位置とを含み、動作はさらに、入力動画の対応する入力アスペクト比または入力方向と異なる出力アスペクト比または出力方向のうちの１つ以上を有する修正済み動画を出力することを含み得、入力アスペクト比または入力方向は、入力動画の取込み中に使用されるパラメータである。

いくつかの実装では、各フレームごとのクロップスコアを調整することは、顔が、フレームごとのクロップスコアに対応するクロップ候補領域に存在すると判断される場合、フレームごとのクロップスコアを第１の値だけ増加させること、または、少なくとも重要な顔が、フレームごとのクロップスコアに対応するクロップ候補領域に存在すると判断される場合、フレームごとのクロップスコアを第２の値だけ増加させることのうちの１つを含み、第２の値は、第１の値より大きい。

動作はさらに、クロップキーフレーミングの品質スコアを決定することと、品質スコアに基づいて、入力動画の自動ビデオクロッピングを行うこととを含み得る。動作はさらに、クロップキーフレーミングの信頼度スコアを決定することと、信頼度スコアに基づいて、入力動画の自動ビデオクロッピングを行うこととを含み得る。

いくつかの実装では、フレームごとのクロップスコアを決定することは、クロップ候補領域ごとに、美的スコア、顔分析スコア、またはアクティブスピーカプレゼンスのうちの１つ以上を決定することを含む。いくつかの実装では、クロップキーフレーミングを生成することは、２つのキーフレームの間で補間することを含む。いくつかの実装では、補間することは、ベジエスプラインを適用することを含む。いくつかの実装では、顔信号を生成することは、１つ以上のパーソナライズされたパラメータにアクセスすることを含む。

いくつかの実装は、非一時的なコンピュータ読取可能媒体に結合された１つ以上のプロセッサを備え、非一時的なコンピュータ読取可能媒体は、１つ以上のプロセッサによって実行されると、１つ以上のプロセッサに動作を実行させるソフトウェア命令を格納する。動作は、複数のフレームを含む入力動画を取得することと、入力動画の各フレームにおける１つ以上のクロップ候補領域について、フレームごとのクロップスコアを決定することと、訓練済み機械学習モデルを用いて、入力動画の各フレーム内の１つ以上のクロップ候補領域について、顔信号を生成することとを含み得る。いくつかの実装では、顔信号は、少なくとも１つの重要な顔がクロップ候補領域で検出されるかどうかを示してもよい。動作はさらに、１つ以上のクロップ候補領域の顔信号に基づいて、各フレームごとのクロップスコアを調整することと、動きコストと、１つ以上のクロップ候補領域について調整されたフレームごとのクロップスコアとに基づいて、入力動画についてクロップ領域位置を表す最小コスト経路を決定することとを含み得る。

本明細書で説明する１つ以上の実装に使用することが可能なネットワーク環境の例を示すブロック図である。ランドスケープ動画フォーマットを示す図である。ピラーボックスフォーマットを示す図である。いくつかの実装に係る、水平方向の動画上のクロッピング矩形を示す図である。いくつかの実装に係る、縦方向に表示されたクロップ動画を示す図である。いくつかの実装に係る、動画を自動的にクロップする処理を示すフロー図である。いくつかの実装に係る、動画を自動的にクロップする方法の例を示すフロー図である。本明細書で説明する１つ以上の実装に使用することが可能なデバイスの例を示すブロック図である。いくつかの実装に係る、自動ビデオクロッピング経路の例を示す図である。いくつかの実装に係る、クロップ領域が異なる位置に移動している動画の例を示す図である。いくつかの実装に係る、クロップ領域が異なる位置に移動している動画の例を示す図である。いくつかの実装に係る、クロップ領域が異なる位置に移動している動画の例を示す図である。

詳細な説明
本明細書に記載されるいくつかの実装は、動画を自動的にクロップする方法、システム、およびコンピュータ読取可能媒体に関する。説明される実装は、訓練済みの機械学習モデルを使用して、パーソナライズされたパラメータで動画を自動的にクロップすることができる。モデルのための訓練データは、ユーザの許可を得てアクセスされる、ユーザについてのパーソナライズされた情報を含んでもよい。パーソナライズされた情報は、ローカルストレージ（たとえば、デバイス）に格納された顔について顔識別情報を含み得る。

本明細書に記載されるいくつかの実装は、パーソナライズされたビデオクロッピングを自動的に実行する方法、システム、およびコンピュータ読取可能媒体に関する。異なる動画プラットフォームおよび配信デバイスは、４：３（ランドスケープ、横長）、９：１６（ポートレート、縦長）、および１：１（スクエア）を含む異なるアスペクト比を有してもよく、ここで、最初の数字は動画の幅を指し、２番目の数字は動画の高さを指す。

記載された技術は、ユーザにとって重要な（たとえば、ユーザの画像ライブラリ内の画像／動画に基づく、ユーザにとって認識された、なじみのある、または既知の）顔などのパーソナライズされたパラメータに基づいて、ユーザを妨げることなく、動画再生時にパーソナライズされたビデオクロッピング（たとえば、ポートレートフォーマットまたはスクエアフォーマットで表示するための横方向動画の表示用のクロッピング）を自動的に実行することができる。ユーザは、ユーザによって取込まれた、または他の態様ではライブラリに追加された複数の画像および／または動画（たとえば、他のユーザによってユーザに共有された画像）を含む画像ならびに動画ライブラリ（たとえば、画像管理ソフトウェアアプリケーションによって格納および管理された画像）を有してもよい。ライブラリは、ユーザデバイス（たとえば、スマートフォン）上および／またはサーバ（たとえば、クラウドベースの画像／動画ホスティングサービス）上でローカルでもよい。たとえば、ユーザは、スマートフォン、デジタルカメラ、ウェアラブルデバイスなどの１つ以上のデバイスを使用して、さまざまな人物の画像および／または動画を取込み、そのような画像をライブラリに保存してもよい。ライブラリは、ユーザにとって既知の人物（または動物）、たとえば、家族、友人、同僚、ペットなどの画像／動画を含んでもよい。いくつかの実装では、重要な顔はまた、ユーザのライブラリにない顔を含んでもよいが、ユーザの許可を得てアクセスした、ユーザのソーシャルグラフ、ソーシャルメディアアカウント、電子メールアカウント、ユーザの電子アドレス帳といった、画像の他のソースに基づいて識別されてもよい。

ユーザがライブラリまたは他の情報源のいずれにもアクセスする許可を拒否する場合、それらの情報源にはアクセスできず、重要顔判定は行われない。さらに、ユーザは、１つ以上の顔を、重要な顔として認識される、および／または含まれることから除外可能である。さらに、ユーザには、重要な顔を手動で示すオプション（たとえば、ユーザインターフェイス）を提供することができる。本明細書で使用する顔という用語は、人間の顔、および／または顔検出技術を使用して検出することができる他の任意の顔（たとえば、ペットまたは他の動物の顔）を指し得る。

画像管理アプリケーションの中には、ユーザの許可を得て有効化される、画像もしくは動画中の人物および／またはペットの顔を検出する機能を含むものがある。ユーザが許可すれば、そのような画像管理アプリケーションは、ユーザのライブラリ内の画像／動画内の顔を検出し、各顔の出現頻度を決定可能である。たとえば、配偶者、兄弟、親、親友などの人物の顔は、ユーザのライブラリ内の画像／動画において高い頻度で出現することがあるが、（たとえば、公共の場における）傍観者などの他の人物は、出現頻度が低いことがある。いくつかの実装では、高い頻度で出現する顔は、重要な顔として識別されてもよい。いくつかの実装では、たとえば、ライブラリが、ユーザが顔にタグ付けまたはラベル付けすることを可能にする場合、ユーザは、自分のライブラリで出現する顔に対して名前（または他の情報）を与えることができる。これらの実装では、ユーザが名前または他の情報を与えた顔は、重要な顔として識別されてもよい。画像ライブラリで検出された他の顔は、重要でない顔として識別されてもよい。

さまざまな実装により、ビデオクロッピングおよび重要な顔の判定は、クライアントデバイス上でローカルに実行され、ネットワーク接続を必要としない。記載される技術によって、動画が、動画のアスペクト比と異なるアスペクト比を有するデバイスで、または動画が取込まれたもしくは格納された方向には適さないデバイスの方向（たとえば、縦長と横長）で視聴されている場合に、動画再生体験の改善が可能になる。説明される技術は、動画を再生する任意のデバイス、たとえば、モバイルデバイスに実装することができる。

いくつかの実装では、自動ビデオクロッピングは、フレームごとのクロップスコアリング、時間的コヒーレンス、および動き平滑化の３つの段階を含み得る。フレームごとのクロップスコアリングは、画像ベースであり得るが、これはノイズが多く、さまざまな異なるスコアを含み得る。いくつかの実装では、ヒューリスティックな組合わせを使用して、クロップ候補領域について単一のフレームごとのスコアを生成することができる。第２の段階は、時間的コヒーレンスを含み得、これは、空間および時間を通じて滑らかで最適な経路に適合させる動作を含み得る。時間的コヒーレンスは、シーンの動きの表現を含み得る。第３の段階は、動きの平滑化およびヒューリスティックの取込みを含み得る。この段階では、グローバルに処理できない可能性のある動画の側面について、局所的な最適化を行うことができる。特定のヒューリスティックとルールは、特定のケースに対処するために適用可能である。

図１は、本明細書で説明するいくつかの実装で使用され得る、ネットワーク環境１００の例を示すブロック図である。いくつかの実装では、ネットワーク環境１００は、１つ以上のサーバシステム、たとえば、図１の例ではサーバシステム１０２を含む。サーバシステム１０２は、たとえば、ネットワーク１３０と通信可能である。サーバシステム１０２は、サーバデバイス１０４と、データベース１０６または他のストレージデバイスとを含み得る。いくつかの実装では、サーバデバイス１０４は、ビデオアプリケーション１５８を提供し得る。

また、ネットワーク環境１００は、１つ以上のクライアントデバイス、たとえば、クライアントデバイス１２０，１２２，１２４および１２６を含むことができ、これらは、ネットワーク１３０を介して互いに、ならびに／またはサーバシステム１０２および／もしくは第２のサーバシステム１４０と通信可能である。ネットワーク１３０は、インターネット、ローカルエリアネットワーク（ＬＡＮ）、無線ネットワーク、スイッチまたはハブ接続などのうちの１つ以上を含む任意のタイプの通信ネットワークであり得る。

図示を容易にするために、図１では、サーバシステム１０２、サーバデバイス１０４、データベース１０６について１つのブロックを示し、クライアントデバイス１２０，１２２，１２４および１２６について４つのブロックを示す。サーバブロック１０２，１０４および１０６は、複数のシステム、サーバデバイス、およびネットワークデータベースを表してもよく、ブロックは、図示とは異なる構成で提供可能である。たとえば、サーバシステム１０２は、ネットワーク１３０を介して他のサーバシステムと通信可能な複数のサーバシステムを表すことができる。いくつかの実装では、サーバシステム１０２は、たとえば、クラウドホスティングサーバを含み得る。いくつかの例では、データベース１０６および／または他のストレージデバイスは、サーバデバイス１０４とは別個であり、かつ、ネットワーク１３０を介してサーバデバイス１０４および他のサーバシステムと通信可能なサーバシステムブロック（複数可）において、提供することができる。

また、任意の数のクライアントデバイスが存在してもよい。各クライアントデバイスは、通信可能な任意のタイプの電子デバイス、たとえば、デスクトップコンピュータ、ラップトップコンピュータ、ポータブルデバイスまたはモバイルデバイス、携帯電話、スマートフォン、タブレットコンピュータ、テレビ、ＴＶセットトップボックスまたは娯楽デバイス、ウェアラブルデバイス（たとえば、ディスプレイグラスもしくはゴーグル、腕時計、ヘッドセット、アームバンド、宝石など）、パーソナルデジタルアシスタント（ＰＤＡ）などであり得る。いくつかのクライアントデバイスは、データベース１０６または他のストレージと同様のローカルデータベースを有してもよい。いくつかの実装では、ネットワーク環境１００は、示された構成要素のすべてを有していなくてもよい、および／または、本明細書に記載された要素の代わりに、もしくはそれらに加えて、他のタイプの要素を含む他の要素を有してもよい。

さまざまな実装において、エンドユーザＵ１，Ｕ２，Ｕ３およびＵ４は、それぞれのクライアントデバイス１２０，１２２，１２４および１２６を使用して、サーバシステム１０２と、および／または互いに通信し得る。いくつかの例では、ユーザＵ１，Ｕ２，Ｕ３およびＵ４は、それぞれのクライアントデバイスおよび／もしくはサーバシステム１０２上で動作するアプリケーションを介して、ならびに／またはサーバシステム１０２上で実装されるネットワークサービス、たとえばソーシャルネットワークサービスまたは他のタイプのネットワークサービスを介して、互いに対話し得る。たとえば、それぞれのクライアントデバイス１２０，１２２，１２４および１２６は、１つ以上のサーバシステム、たとえばサーバシステム１０２との間でデータを通信してもよい。

いくつかの実装では、サーバシステム１０２は、各クライアントデバイスがサーバシステム１０２にアップロードされた通信コンテンツまたは共有コンテンツを受信できるように、クライアントデバイスに適切なデータを提供し得る。いくつかの例では、ユーザＵ１～Ｕ４は、音声もしくはビデオ会議、音声、動画、またはテキストチャット、または他の通信モードもしくはアプリケーションを介して対話することができる。

サーバシステム１０２によって実装されるネットワークサービスは、ユーザがさまざまな通信を行い、リンクおよび関連付けを形成し、画像、テキスト、動画、オーディオ、および他のタイプのコンテンツなどの共有コンテンツをアップロードおよびポストし、ならびに／または他の機能を実行することを可能にするシステムを含み得る。たとえば、クライアントデバイスは、クライアントデバイスに送信またはストリーミングされ、かつサーバおよび／もしくはネットワークサービスを介して（もしくは異なるクライアントデバイスから直接）異なるクライアントデバイスから発信された、またはサーバシステムおよび／もしくはネットワークサービスから発信されたコンテンツポストなどの受信データを表示することが可能である。

いくつかの実装では、クライアントデバイス１２０，１２２，１２４および／または１２６のいずれかが、１つ以上のアプリケーションを提供可能である。たとえば、図１に示すように、クライアントデバイス１２０は、自動ビデオクロッピングアプリケーション１５２を提供可能である。クライアントデバイス１２２～１２６もまた、同様のアプリケーションを提供可能である。自動ビデオクロッピングアプリケーション１５２は、クライアントデバイス１２０のハードウェアおよび／またはソフトウェアを使用して実装されてもよい。異なる実装では、自動ビデオクロッピングアプリケーション１５２は、たとえば、クライアントデバイス１２０～１２４のいずれかで実行される、スタンドアロンクライアントアプリケーションでもよい。自動ビデオクロッピングアプリケーション１５２は、動画に関するさまざまな機能、たとえば、あるアスペクト比から別のアスペクト比に変更するために動画を自動的にクロップすること等を提供してもよい。

クライアントデバイス１２０，１２２，１２４および／または１２６上のユーザインターフェイスは、画像、動画、データ、および他のコンテンツ、ならびに通信、設定、通知、および他のデータを含むユーザコンテンツおよび他のコンテンツの表示を可能にすることができる。このようなユーザインターフェイスは、クライアントデバイス上のソフトウェア、サーバデバイス上のソフトウェア、および／またはサーバデバイス１０４上で実行されるクライアントソフトウェアとサーバソフトウェアとの組合わせを使用して表示することができる。ユーザインターフェイスは、クライアントデバイスの表示デバイス、たとえば、タッチスクリーンまたは他の表示画面、プロジェクタ等によって表示することができる。いくつかの実装では、サーバは、単に、ユーザがネットワークを介して動画をストリーミング／ダウンロードすることを可能にし、ユーザの許可を得て、ユーザによって送信された動画のアップロード／格納を可能にし得る。

本明細書に記載された特徴の他の実装は、任意のタイプのシステムおよび／またはサービスを使用することができる。たとえば、ソーシャルネットワーキングサービスの代わりに、またはこれに加えて、（たとえば、インターネットに接続されている）他のネットワークサービスを使用することができる。任意のタイプの電子デバイスが、本明細書に記載される特徴を利用することができる。いくつかの実装では、コンピュータネットワークから切断された、またはコンピュータネットワークに断続的に接続された１つ以上のクライアントもしくはサーバデバイス上で、本明細書に記載された１つ以上の機能を提供することができる。

図２Ａは、いくつかの実装に係るランドスケープフォーマットの動画を示す図である。図２Ｂは、図２Ａに示された動画を、動画がピラーボックス化されている縦方向のデバイスで見たときの図である。図２Ａは、動画をランドスケープモード２０４で表示するユーザデバイス２０２を示す。図２Ｂは、デバイスがポートレートモードであり、縦方向で表示するためにピラーボックス化された（２０６）動画２０４が表示されていることを示す。図２Ｂで分かるように、縦方向で表示するために動画がピラーボックス化される場合、動画が占有するデバイスの表示画面の部分は、実質的に小さくなっている。

図３Ａは、いくつかの実装に係る、水平動画上のクロッピング矩形を示す図である。図３Ｂは、いくつかの実装に係る、縦方向で表示されるクロップされた動画を示す図である。図３Ａは、クロップ領域３０２が破線で示されている横方向の動画の単一フレームを示す図である。クロップ領域３０２は、ｘ位置３０４に設けられている。後述するように、自動クロッピングプロセスは、動画の時間領域にわたってクロップ領域（ランドスケープからポートレートへのクロッピング）用のｘ位置を生成する。より一般的には、このプロセスによって、ソースビデオに対するクロップウィンドウ（ｘ、ｙ、幅、高さ）が生成される。

図４は、いくつかの実装形式に係る、ユーザに合わせてパーソナライズされた動画を自動的にクロップする方法４００の例を示すフロー図である。いくつかの実装では、方法４００は、たとえば、図１に示すように、サーバシステム１０２上で実装することができる。いくつかの実装では、方法４００の一部または全部は、図１に示すような１つ以上のクライアントデバイス１２０，１２２，１２４もしくは１２６、１つ以上のサーバデバイス、および／またはサーバデバイス（複数可）とクライアントデバイス（複数可）との両方で実装することができる。説明された例では、実装システムは、１つ以上のデジタルプロセッサまたは処理回路（「プロセッサ」）、および１つ以上のストレージデバイス（たとえば、データベース１０６または他のストレージ）を含む。いくつかの実装では、１つ以上のサーバおよび／またはクライアントの異なる構成要素は、方法４００の異なるブロックまたは他の部分を実行することができる。いくつかの例では、第１のデバイスは、方法４００のブロックを実行するものとして説明される。いくつかの実装は、結果またはデータを第１のデバイスに送信することができる１つ以上の他のデバイス（たとえば、他のクライアントデバイスまたはサーバデバイス）によって実行される方法４００の１つ以上のブロックを有し得る。

いくつかの実装では、方法４００、または方法の一部は、システムによって自動的に開始され得る。いくつかの実装では、実装システムは第１のデバイスである。たとえば、方法（またはその一部）は、１つ以上の特定のイベントまたは条件、たとえば、クライアントデバイスでの動画の再生、クライアントデバイスからのアップロードのための動画の準備、および／または方法によって読み取られる設定において指定可能な１つ以上の他の条件の発生に基づいて実行することができる。

方法４００は、ブロック４０２で開始可能である。ブロック４０２では、方法２００の実現においてユーザデータを使用するユーザの同意（たとえば、ユーザ許可）が得られているかどうかがチェックされる。たとえば、ユーザデータは、重要な顔および追加のユーザ基準、画像コレクション内のユーザ画像（たとえば、ユーザによって取込まれた画像、ユーザによってアップロードされた画像、または他の態様ではユーザに関連する画像）、ユーザのソーシャルネットワークおよび／またはコンタクトに関する情報、ユーザ特性（アイデンティティ、名前、年齢、性別、職業など）、ソーシャルおよびその他のタイプのアクションおよびアクティビティ、カレンダーおよび予定、ユーザによって作成または送信されたコンテンツ、評価および意見、ユーザの地理位置、過去のユーザデータなどを含み得る。本明細書に記載される方法の１つ以上のブロックは、いくつかの実装において、そのようなユーザデータを使用することができる。ブロック４０２は、自動クロッピングアプリケーションの実行についてのユーザ同意がフレームワークレベルで得られた場合にのみブロック４０４等が起動されるように、自動ビデオクロッピングフレームワークレベルの一部として実行され得る。ユーザ同意が、方法４００においてユーザデータが使用され得る関連ユーザから得られている場合、ブロック４０４において、本明細書の方法のブロックは、それらのブロックについて説明されるようなユーザデータの潜在的な使用で実装され得ると判断され、方法はブロック４０６に進む。ユーザの同意が得られていない場合、ブロック４０６において、ブロックがユーザデータを使用せずに実装されることが決定され、方法はブロック４０６に進む。いくつかの実装では、ユーザ同意が得られていない場合、方法４００の残りは実行されない、および／またはユーザデータを必要とする特定のブロックは実行されない。たとえば、ユーザが許可を与えない場合、ブロック４１２～４１４はスキップされる。また、重要な顔の認識は、ローカルに格納されたデータに基づいて行うことができ、ユーザデバイス上でローカルに実行することができる。ユーザは、特定の重要な顔を認識するもしくは認識しないように指定する、指定を削除する、または重要な顔に基づく自動クロッピングの使用をいつでも停止することができる。

ブロック４０８で、入力動画が取得される。たとえば、ユーザデバイス上のメモリに格納された動画がアクセスされる。動画は、複数のフレームを含み得る。入力動画は、方向（垂直／水平）およびアスペクト比、たとえば、４：３，１６：９，１８：９などを有する。たとえば、アスペクト比は、動画取込み時に、たとえば、動画を取込むデバイスのカメラパラメータに基づいて選択されてもよい。ブロック４０８の後に、ブロック４１０が続く場合がある。

ブロック４１０で、入力動画のフレームごとに、１つ以上のクロップ候補領域についてフレームごとのクロップスコアが決定される。クロップ候補領域は、領域にクロップされた動画が実質的に画面全体（動画がウィンドウ型ユーザインターフェイスで再生される場合はウィンドウ）を占有するように、動画が視聴されるデバイスの視聴方向に一致し、デバイスと同じアスペクト比を有してもよい。たとえば、ランドスケープ（水平寸法が垂直寸法より大きい）であり、４０００×３０００画素のアスペクト比を有する入力動画が、２０００×２０００画素の正方形のディスプレイに表示される場合、各クロップ候補領域は、３０００×３０００画素でもよい（３０００画素の寸法と一致してもよい）。選択された３０００×３０００画素のクロップ領域は、正方形のディスプレイに合わせてスケールされてもよい、たとえば、２０００×２０００画素にスケールダウンされてもよい。より高い解像度のクロップ領域の選択とそれに続くスケーリングは、元のコンテンツの大きな割合を保存することができる。または、２０００×２０００画素の表示に一致するクロップ候補領域が選択されてもよい。

クロップスコアは、１つ以上の個別スコアを含み得る。１つ以上のスコアが使用される場合、個別のスコアがどのように１つのスコアに結合されるかを決定するヒューリスティックが存在し得る。個別スコアは、美的スコア（たとえば、５０８から）、顔／人物分析に基づくスコア（たとえば、５０６）、および／またはアクティブスピーカ分析（たとえば、５０４）を含み得る。さらに、いくつかの実装は、オブジェクト検出、ペットもしくは動物検出、または光学文字認識（ＯＣＲ）に基づく１つ以上の追加のスコアを含んでもよい。たとえば、オブジェクト検出技術を使用して識別された顕著なオブジェクトを含むクロップ領域は、顕著なオブジェクトが検出されない、または部分的なオブジェクトのみが検出される領域よりも高いスコアが割り当てられる場合がある。たとえば、動画が自然のシーンを描いている場合、木、山、または他のオブジェクトなどの顕著なオブジェクトを有するクロップ領域は、顕著なオブジェクトを有さない、たとえば、空だけを含むクロップ領域よりも高いスコアが割り当てられてもよい。

別の例では、ペット（たとえば、ユーザの許可を得てアクセスされる、ユーザの個人的な画像／動画ライブラリにタグ付けされる犬、猫、もしくは他のペット動物）または他の動物を描写するクロップ領域は、ペットもしくは動物を除外する領域、またはペットもしくは動物を部分的にしか描写しない領域よりも高いスコアを割り当てられる場合がある。さらに別の例では、ＯＣＲを使用して認識されたテキストを含む領域は、より高いスコアが割り当てられる場合がある。たとえば、動画がテキストを含む看板を有する店先を含む場合、看板を含むクロップ領域は、看板を除外する、または部分的にしか描写しないクロップ領域よりも高いスコアを割り当てられてもよい。フレームごとのクロップスコアは、クロップ候補領域（たとえば、動画フレーム内の所与のｘ位置におけるクロップ矩形）についてのスコアを含み得る。ブロック４１０の後に、ブロック４１２が続く場合がある。

４１２で、顔信号が生成され、パーソナライズされたスコアが決定される。いくつかの実装では、顔信号は、少なくとも１つの重要な顔がクロップ候補領域で検出されるかどうかを示してもよい。いくつかの実装では、パーソナライズされたスコアは、フレーム内の顔を検出し、フレーム内の顔の少なくとも１つが重要な顔に一致するかどうかを決定する顔検出技術を使用して決定される（たとえば、ユーザのライブラリにある人の顔の以前の動画もしくは写真などのユーザが許可したデータに基づいて決定されるような、または視聴しているユーザのソーシャルグラフ接続もしくは電子メール、電話、チャット、動画通話などにおける通信履歴といった、他のユーザが許可した信号により決定されるような）、重要な顔が存在するかどうかに基づくスコアを含み得る。パーソナライズされたスコアは、１つ以上の重要な顔が、機械学習モデルによって決定されるクロッピング候補領域にある度合いを表す機械学習モデルからの信号に基づいて決定することができる。１つ以上の重要な顔がクロップ候補領域にあると判断することに加えて、パーソナライズされたスコアモジュールは、クロップ候補領域内の１つ以上の重要な顔の位置、たとえば、顔がクロップ候補領域の中心にあるか、クロップ候補領域の端に近いか等を判断することもできる。ブロック４１２の後に、ブロック４１４が続く場合がある。

４１４で、フレームごとのクロップスコアは、顔信号に基づいて調整される。たとえば、顔がクロップ候補領域で検出された場合、その領域のスコアは、第１の係数だけ大きくされてもよい。クロップ候補領域が重要な顔を含むことが検出された場合、その領域のスコアは、第１の係数よりも大きい第２の係数だけ大きくされてもよい。

いくつかの実装では、クロップ領域と顔を含む境界ボックスとの交点が決定されてもよい。たとえば、顔検出技術は、境界ボックスを決定するために利用され得る。クロップスコアは、交点に基づいて調整されてもよい。たとえば、いくつかの実装では、完全な交点（顔全体がクロップ領域内に存在する）は完全なスコアブーストを受け取ってもよく、部分的な顔（顔の一部がクロップ領域から欠けている）は低いスコアブーストを受け取ってもよく、たとえば、スコアブーストは、交点の面積と顔の境界ボックスの面積との比によって重み付けされてもよい。ブロック４０８の後に、ブロック４１６が続く場合がある。

４１６で、動きコストが決定される。いくつかの実装では、動きコストは、１つ以上の以前の時間（たとえば、動画内の以前のタイムスタンプ）における潜在的なクロップ経路と、動画に存在する動きとを考慮した、特定の時間（たとえば、動画内の特定のタイムスタンプ）におけるクロップ候補領域の選択に関連付けられたコストでもよい。いくつかの実装では、動きコストの決定は、たとえば、オプティカルフローまたは他の技術を使用して、クロップ領域のフレーム間の動きを分析することを含み得る。結果は、少数の動きクラスタ（たとえば、互いに近接する位置のグループにおけるクロップ領域動きを含むクラスタ）にクラスタ化することができる。いくつかの実装では、疎なオプティカルフローは、テクスチャのない領域でより良い性能を発揮することができる。動きは、少数のクラスタ（たとえば、互いに比較的近接する領域の周りのクラスタ）に減らすことができる。クラスタは、時間的な一貫性を提供しなくてもよい。

実装例では、動きコストは、以前の時間に対するクロップ領域の動きと、最もよく一致する動きクラスタの動きとの比較に基づいて計算されてもよい。たとえば、最もよく一致する運きクラスタは、クロップ領域内の空間セントロイドと、クロップ領域の運きに最も類似する動きベクトルとを有するクラスタでもよい。動きコストは、最もよく一致するクラスタとクロップ候補領域の動きとの間の速度の絶対差の関数でもよい。コスト値は、クロップ領域を移動させるために割り当てられ、動きコストを決定するために使用され得る。たとえば、図８Ａ～８Ｃは、動画８０２内のクロップ領域８０４を示し、クロップ領域８０２は、本明細書に記載の技術に基づいて、動画の再生中に（たとえば、８０８および８１２）、異なる場所に移動する。ブロック４１６の後に、ブロック４１８が続く場合がある。

４１８で、最小コスト経路が、フレームごとのクロップスコアと、４１６において決定された動きコストとに基づいて決定される。いくつかの実装では、最小コスト経路は、クロップスコアに基づいてクロップ候補領域を取得することと、クロップ領域を移動させるためのコストを含み得る最小コスト経路探索動作を行うこととを含み得る（たとえば、クロップ領域を移動させるコストは、クロップ領域がフレームからフレームまで連続して、またはフレームと後続フレームとの間で移動されている距離に基づき得る）。最小コスト経路は、最小コストの経路を解くことによって見出される。図７は、グラフとしてプロットされた最小コスト経路および他の要因を表すグラフ７００の例を示し、ｙ軸７０２は動画内のクロップ領域のｘ位置であり、ｘ軸は時間である。いくつかの実装は、クロップ領域の経路を滑らかにし、不連続性を除去するために、入力動画内のクロップ領域位置から外れ値が除去される外れ値除去を含み得る。これは、最小コスト経路の副産物であり得る。ブロック４１８に、ブロック４２０が続く場合がある。

４２０で、クロップキーフレーミングが生成される。クロップキーフレーミングは、開始フレームおよび終了フレームと、入力動画内のクロップ領域ｘ位置とを含み得る。たとえば、クロップ経路の生成は、３０フレーム／秒（ｆｐｓ）のフレームレートを有する動画の場合、５ｆｐｓで実行されてもよい。この例では、キーフレームは５ｆｐｓで生成され、ベジエスプラインなどの補間技術を使用して、動画の３０ｆｐｓのフルフレームレートで滑らかな補間を生成することができる。たとえば、図８Ａ～図８Ｃに示すように、各クロップキーフレーミングが異なるｘ位置のクロップ領域を含む、動画の３つのキーフレーミングセクションが存在してもよい。ブロック４２０の後に、ブロック４２２が続く場合がある。

４２２で、入力動画およびクロップキーフレーミングに基づいて、クロップされた動画が出力される。たとえば、クロップされた動画は、ユーザデバイスのディスプレイに表示することができる。別の例では、クロップされた動画は、動画共有サイトなどにアップロードすることができる。クロップされた動画は、入力動画のものとは異なるアスペクト比または方向を有し得る。

いくつかの実装では、出力は、クロップされた動画の代わりに、またはそれに加えて、クロップキーフレームおよび経路を含んでもよい。たとえば、クロップキーフレームおよび経路は、動画メタデータなどの動画に関連して格納されてもよい。ビューアアプリケーションが動画の再生を開始すると、ビューアアプリケーションのアスペクト比または方向（動画が表示されるデバイスに基づく場合がある）に一致するクロップキーフレームおよび経路が決定され、ビューアアプリケーションに提供されてもよい。ビューアアプリケーションは、再生中に動画をクロップするためにクロップキーフレームおよび経路を利用してもよい。このような実装により、クロップキーフレームおよび経路を認識し、再生時に動画をクロップするために情報を利用できるビューアアプリケーションで動画が視聴されているときに、（ビューアアプリケーションに一致する）別のビデオアセットを生成する必要がなくなる。

方法４００のさまざまなブロックは、組合わされてもよい、複数のブロックに分割されてもよい、または並行して実行されてもよい。たとえば、ブロック４０６および４０８は組合わされてもよい。いくつかの実装では、ブロックは異なる順序で実行されてもよい。たとえば、ブロック４０４～４０８およびブロック４１２～４１４は、並行して実行されてもよい。

方法４００、またはその一部は、追加の入力（たとえば、追加の動画）を使用して任意の回数繰り返されることがある。方法４００は、特定のユーザ許可を得て実現することができる。たとえば、自動的なパーソナライズされたビデオクロッピングを有効にするかどうかをユーザが指定することを可能にする動画再生ユーザインターフェイスが提供されてもよい。再生に際して自動的なパーソナライズされたビデオクロッピングを実行することは、（たとえば、ユーザデバイスに格納されている）パーソナライズされたパラメータを使用して顔識別を実行することを利用し得るという情報を、ユーザに提供することが可能であり、自動的なパーソナライズされたビデオクロッピングを完全に無効にするオプションが提供される。

顔検出および重要な顔判定を含む方法４００は、特定のユーザの許可を得て、動画を再生またはアップロードしているクライアントデバイス上で完全に実行されてもよい。また、顔は人間でも、またはその他（たとえば、動物もしくはペット）でもよい。さらに、デバイス上で自動的なパーソナライズされたビデオクロッピングを実行する技術的利点は、記載された方法が、クライアントデバイスがアクティブなインターネット接続を有することを必要としないため、デバイスがインターネットに接続されていないときでも自動ビデオクロッピングが可能になることである。さらに、本方法はローカルに実行されるため、ネットワークリソースは消費されない。さらに、ユーザデータがサーバまたは他のサードパーティデバイスに送信されることはない。したがって、記載された技術は、ユーザデータの共有を必要としない態様で、パーソナライズされたパラメータの利点を用いて、動画が取込まれたアスペクト比または方向とは異なるアスペクト比または方向での動画再生の問題に対処することができる。

いくつかの実装では、動画の再生中に、デバイスの方向またはアスペクト比の変化を検出することができ（たとえば、ユーザが再生中にデバイスを９０度回転させたとき、または折り畳み式デバイスを開いてアスペクト比を倍にしたとき）、これに応じて、クロッピングを調整することができる（たとえば、所望の出力方向および／またはアスペクト比に合うようにクロップ領域を調整できる）。

記載された技術は、有利なことに、ユーザ、たとえば、クロップされた動画を視聴しているユーザに合わせてパーソナライズされた、クロップされた動画を生成することができる。たとえば、横方向の（高さよりも大きい幅を有する）動画であって、２人の人物が動画の両側に描かれており、たとえば、第１の人物が画像の左端近くに現れ、第２の人物が画像の右端近くに描かれている動画を考える。このような動画が縦方向で視聴されている場合、たとえば、画面が高さよりも小さい幅を有するスマートフォンまたは他のデバイスにおいて、従来のパーソナライズされていないクロッピングでは、視聴しているユーザから独立して選択された、２人の人物の一方を描写するクロップ領域となる可能性がある。対照的に、本明細書に記載のパーソナライズされたクロッピングでは、（たとえば、重要な顔を有する）特定の人物を動画の焦点として自動的に選択し、その人物を描写するクロップ領域を選択することができる。たとえば、異なるビューアは、動画に描かれた人物を重要であると認める可能性があり、したがって、異なるビューアのためのクロップ領域は異なる可能性があることが理解され得る。より一般的には、動画が複数の被写体を描写する場合、本明細書に記載の技術によれば、異なるビューアのためのクロップ領域は、関心のある被写体（たとえば、重要な顔、ペットなど）がクロップされた動画に保存されるようにパーソナライズされてもよい。

図５は、いくつかの実装に係る、動画を自動的にクロップするモジュール５００の例を示す図である。動画は５０２で取得される。フレームごとの初期スコアリングは、アクティブスピーカ分析モジュール５０４、人物／顔分析モジュール５０６、または美的スコアリングモジュール５０８を使用して行うことができる。パーソナライズされたスコア組合わせモジュール５１２は、パーソナライズパラメータに基づき、パーソナライズ値を含むスコアを生成する。組合わされたパーソナライズされたスコアは、動画に写っている可能性がある重要な顔のアイデンティティを含む個人的基準５１０および／または他の基準に基づくスコアと組合わされた５０４～５０８からの個別のスコアを含み得る。パーソナライズされたスコアは、画像内のユーザにとって重要な顔を認識するように訓練された機械学習モデルからの値を含むことができ、モデルは、クロップ候補領域内の重要な顔の表示を提供することができる。重要な顔の表示は、クロップ領域内で識別された各重要な顔の位置を含み得る。重要な顔は、ユーザがデバイスを使用して過去に動画または写真を撮った顔、次のうち少なくとも１つの顔が含まれ得る。少なくとも閾値回数発生する顔、ユーザのライブラリの少なくとも閾値割合で（たとえば、ライブラリ内の画像および動画の少なくとも５％で）現れる顔、少なくとも閾値頻度で（たとえば、画像／動画がライブラリ内にある年の大半について、少なくとも年に１回）現れる顔などのうちの少なくとも１つである顔。

パーソナライズされたスコア組合せ５１２と並行して、動作分析５１４ならびに／または動きおよび加速度コスト計算５１６を実行することができる。運きコスト計算器５１６およびパーソナライズされたスコア組合せ５１２の出力は、最小コスト経路探索５１８によって使用することができる。最小コスト経路探索５１８の出力は、局所的最適化およびヒューリスティック５２０でさらに処理され、その後、クロップキーフレーミング５２２に使用することができる。また、最小コスト経路探索５１８の出力は、品質または信頼度スコア５２４を計算するために使用可能である。

品質スコアまたは信頼度スコアは、動画を自動的にクロップするか、動画をクロップしないかを決定するために使用可能である。たとえば、一部の動画は、縦長にうまくクロップすることができない。動画をうまくクロップするとができないと示す品質または信頼度基準を有することは、ビデオクロッピングを試みないとシステムに示し、代わりに動画をレターボックス付きフォーマットで表示することにフォールバックすることができる。他の例では、動画に２つ以上の重要な顔があり、その顔は、クロッピングによって１つ以上の重要な顔が動画から切り取られるように配置されてもよい。これは、自動ビデオクロッピング動作を行わない他の場合である。

いくつかの実装は、クロップ領域をどこに配置するかを決定するための追加の入力信号を含み得る。追加の入力信号は、動画の顕著性（たとえば、美観だけではない）、顔の品質、関心のあるオブジェクト（たとえば、人間、動物など）、またはパーソナライズされた信号（たとえば、重要な顔）のうちの１つ以上を含み得る。いくつかの実装では、システムは、人物を追うカメラの検出、誰がカメラを見ているか、カメラでの持続時間などのうちの１つ以上を使用して、動画で誰が重要であるかをプログラム的に決定するよう試みることができる。

いくつかの実装は、カメラ加速度を平滑化するためのルーチンを含み得る。いくつかの実装では、ベジエスプラインを使用するためのキーフレーム補間を含み得る。いくつかの実装では、システムは、カメラ速度の変化を制御可能である。

図６は、本明細書に記載される１つ以上の特徴を実装するために使用され得るデバイス６００の例を示すブロック図である。一例では、デバイス６００は、クライアントデバイス、たとえば、図１に示されるクライアントデバイスのいずれかを実装するために使用され得る。または、デバイス６００は、サーバデバイス、たとえばサーバ１０４を実装可能である。いくつかの実装では、デバイス６００は、クライアントデバイス、サーバデバイス、またはクライアントデバイスとサーバデバイスとの両方を実装するために使用され得る。デバイス６００は、上述したように、任意の適切なコンピュータシステム、サーバ、または他の電子もしくはハードウェアデバイスであり得る。

本明細書に記載される１つ以上の方法は、任意のタイプのコンピューティングデバイス上で実行される別のプログラムの一部として、またはモバイルコンピューティングデバイス（たとえば、携帯電話、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス（腕時計、アームバンド、宝石、ヘッドウェア、仮想現実ゴーグルもしくは眼鏡、拡張現実ゴーグルもしくは眼鏡、ヘッドマウントディスプレイなど）、ラップトップコンピュータなど）上で実行されるモバイルアプリケーション（「アプリ」）もしくはモバイルアプリの一部として、任意のタイプのコンピューティングデバイス上で実行可能なスタンドアロンプログラムで実行可能である。

いくつかの実装では、デバイス６００は、プロセッサ６０２、メモリ６０４、および入出力（Ｉ／Ｏ）インターフェイス６０６を含む。プロセッサ６０２は、プログラムコードを実行し、デバイス６００の基本動作を制御する１つ以上のプロセッサおよび／または処理回路であり得る。「プロセッサ」は、データ、信号、または他の情報を処理する任意の適切なハードウェアシステム、機構またはコンポーネントを含む。プロセッサは、１つ以上のコア（たとえば、シングルコア、デュアルコア、またはマルチコア構成）を有する汎用中央処理装置（ＣＰＵ）、複数の処理ユニット（たとえば、マルチプロセッサ構成）、グラフィックス処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、複合プログラマブル論理デバイス（ＣＰＬＤ）、機能を実現するための専用回路、ニューラルネットワークモデルに基づく処理を実現するための専用プロセッサ、ニューラル回路、行列計算（たとえば行列乗算）用に最適化されたプロセッサを有するシステム、または他のシステムを含み得る。いくつかの実装では、プロセッサ６０２は、ニューラルネットワーク処理を実現する１つ以上のコプロセッサを含んでもよい。いくつかの実装では、プロセッサ６０２は、確率的出力を生成するためにデータを処理するプロセッサでもよく、たとえば、プロセッサ６０２によって生成される出力は不正確でもよい、または予想出力から範囲内で正確でもよい。処理は、特定の地理的位置に限定される必要はない、または、時間的な制限を有する必要はない。たとえば、プロセッサは、「リアルタイム」、「オフライン」、「バッチモード」などでその機能を実行してもよい。処理の一部は、異なる時間に異なる場所で異なる（または同じ）処理システムによって実行されてもよい。コンピュータは、メモリと通信している任意のプロセッサでもよい。

メモリ６０４は、典型的には、プロセッサ６０２によるアクセスのためにデバイス６００に設けられ、プロセッサによる実行のための命令を格納するのに適したランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気消去可能読取専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリなどの任意の好適なプロセッサ読取可能ストレージ媒体でもよく、プロセッサ６０２とは別に、および／またはそれと統合されて配置され得る。メモリ６０４は、オペレーティングシステム６０８、機械学習アプリケーション６３０、他のアプリケーション６１２、およびアプリケーションデータ６１４を含む、プロセッサ６０２によってサーバデバイス６００上で動作するソフトウェアを格納することができる。他のアプリケーション６１２は、ビデオクロッピングアプリケーション、データ表示エンジン、ウェブホスティングエンジン、画像表示エンジン、通知エンジン、ソーシャルネットワーキングエンジンなどのアプリケーションを含み得る。いくつかの実装では、機械学習アプリケーション６３０および／または他のアプリケーション６１２は、プロセッサ６０２が本明細書に記載の機能、たとえば図４および図５の方法の一部または全部を実行することを可能にする命令を含み得る。

他のアプリケーション６１２は、たとえば、ビデオアプリケーション、メディア表示アプリケーション、通信アプリケーション、ウェブホスティングエンジンもしくはアプリケーション、マッピングアプリケーション、メディア共有アプリケーションなどを含み得る。本明細書に開示される１つ以上の方法は、いくつかの環境およびプラットフォームで動作可能であり、たとえば、任意のタイプのコンピューティングデバイス上で実行可能なスタンドアロンコンピュータプログラムとして、モバイルコンピューティングデバイス上で実行されるモバイルアプリケーション（「アプリ」）などとして動作することが可能である。

さまざまな実装において、機械学習アプリケーションは、ベイズ分類器、サポートベクターマシン、ニューラルネットワーク、または他の学習技法を利用してもよい。いくつかの実装では、機械学習アプリケーション６３０は、訓練済みモデル６３４と、推論エンジン６３６と、データ６３２とを含んでもよい。いくつかの実装では、データ６３２は、訓練データ、たとえば、訓練済みモデル６３４を生成するために使用されるデータを含んでもよい。たとえば、訓練データは、ユーザがユーザデバイス上で撮った写真または動画、ユーザデバイス上の写真または動画に描かれた人の顔識別情報など、ユーザの許可を得てアクセスされる任意のタイプのデータを含んでもよい。訓練済みモデル６３４が顔信号を生成するモデルである場合、訓練データは、写真、動画、および関連するメタデータを含んでもよい。

訓練データは、任意のソース、たとえば、訓練用に特にマークされたデータリポジトリ、機械学習のための訓練データとして使用するための許可が与えられたデータ等から取得されてもよい。１人以上のユーザが、機械学習モデル、たとえば、訓練済みモデル６３４を訓練するために、それぞれのユーザデータの使用を許可する実装では、訓練データは、そのようなユーザデータを含んでもよい。

いくつかの実装では、訓練データは、訓練されているコンテキストにおけるユーザ入力またはアクティビティに基づかないデータ、たとえば、動画から生成されるデータなど、訓練を目的として生成された合成データを含んでもよい。いくつかの実装では、機械学習アプリケーション６３０は、データ６３２を除外する。たとえば、これらの実装では、訓練済みモデル６３４は、たとえば、異なるデバイスで生成され、機械学習アプリケーション６３０の一部として提供されてもよい。さまざまな実装では、訓練済みモデル６３４は、モデル構造または形式、および関連する重みを含むデータファイルとして提供されてもよい。推論エンジン６３６は、訓練済みモデル６３４のデータファイルを読み取り、訓練済みモデル６３４で指定されたモデル構造または形式に基づいて、ノード接続性、層、および重みを有するニューラルネットワークを実装してもよい。

いくつかの実装では、訓練済みモデル６３４は、１つ以上のモデル形式または構造を含んでもよい。たとえば、モデル形式または構造は、任意のタイプのニューラルネットワーク、たとえば、線形ネットワーク、複数の層（たとえば、入力層と出力層との間の「隠れ層」、各層は線形ネットワークである）を実装する深層ニューラルネットワーク、畳み込みニューラルネットワーク（たとえば、入力データを複数の部分またはタイルに分割または区分し、１つ以上のニューラルネットワーク層を使用して各タイルを別々に処理し、各タイルの処理から結果を集約するネットワーク）、シーケンスからシーケンスへのニューラルネットワーク（たとえば、文中の単語、動画中のフレームなどの連続データを入力として取り、結果シーケンスを出力として生成するネットワーク）などが含まれ得る。モデル形式または構造は、さまざまなノード間の接続性、およびノードの層への編成を指定することができる。

たとえば、第１の層（たとえば、入力層）のノードは、入力データ６３２またはアプリケーションデータ６１４としてデータを受信してもよい。たとえば、訓練済みモデル６３４が顔信号を生成する場合、入力データは、ユーザデバイスによって取込まれた写真または動画を含んでもよい。後続の中間層は、モデル形式または構造で指定された接続性に従って、前の層のノードの出力を入力として受け取ることができる。これらの層は、隠れ層または潜在層と呼ばれることもある。

最終層（たとえば、出力層）は、機械学習アプリケーションの出力を生成する。たとえば、出力は、重要な顔が動画フレーム（またはフレーム）に存在するかどうかの表示でもよい。いくつかの実装では、モデル形式または構造は、各層のノードの数および／またはタイプも指定する。

異なる実装では、訓練済みモデル６３４は、モデル構造または形式ごとに層に配置された、複数のノードを含み得る。いくつかの実装では、ノードは、たとえば、１単位の入力を処理して１単位の出力を生成するように構成された、メモリを有さない計算ノードでもよい。ノードによって実行される計算は、たとえば、複数のノード入力の各々に重みを乗算すること、加重和を取得すること、およびバイアスまたはインターセプト値で加重和を調整してノード出力を生成することを含んでもよい。いくつかの実装では、ノードによって実行される計算は、調整された加重和にステップ／活性化関数を適用することも含み得る。いくつかの実装では、ステップ／活性化関数は、非線形関数でもよい。さまざまな実装では、そのような計算は、行列乗算などの演算を含んでもよい。いくつかの実装では、複数のノードによる計算は、たとえば、マルチコアプロセッサの複数のプロセッサコアを用いて、ＧＰＵの個別の処理ユニットを用いて、または特殊用途のニューラル回路を用いて、並行して実行されてもよい。いくつかの実装では、ノードは、メモリを含んでもよく、たとえば、後続の入力を処理する際に１つ以上の以前の入力を格納し、使用してもよい。たとえば、メモリを有するノードは、長短記憶（long short-term memory：ＬＳＴＭ）ノードを含んでもよい。ＬＳＴＭノードは、メモリを使用して、ノードが有限状態マシン（finite state machine：ＦＳＭ）のように動作することを可能にする「状態」を維持することができる。このようなノードを有するモデルは、文または段落の単語、動画のフレーム、スピーチまたはその他の音声など、連続したデータを処理するのに有用な場合がある。

いくつかの実装では、訓練済みモデル６３４は、個別のノードのための重みを含んでもよい。たとえば、モデルは、モデル形式または構造によって指定されるように層に編成された複数のノードとして初期化されてもよい。初期化時に、それぞれの重みが、モデル形式に従って接続されるノードの各組、たとえば、ニューラルネットワークの連続する層のノード間の接続に適用されてもよい。たとえば、それぞれの重みは、ランダムに割り当てられてもよい、またはデフォルト値に初期化されてもよい。モデルはその後、たとえば、データ６３２を使用して、結果を生成するように訓練されてもよい。

たとえば、訓練は、教師あり学習技法を適用することを含み得る。教師あり学習では、学習データは、複数の入力（写真または動画）と、入力ごとに対応する予想出力（たとえば、１つ以上の重要な顔の存在など）とを含み得る。モデルの出力と予想出力との比較に基づいて、重みの値は、たとえば、同様の入力が提供されるとモデルが予想出力を生成する確率を増加させる態様で、自動的に調整される。

いくつかの実装では、訓練は、教師なし学習技法を適用することを含んでもよい。教師なし学習では、入力データのみが提供され、モデルは、データを区別するように、たとえば、入力データを複数のグループにクラスター化するように訓練されてもよく、各グループは、何らかの態様で類似している入力データ、たとえば、写真または動画フレームに存在する類似の重要な顔を有する入力データを含む。たとえば、モデルは、重要な顔を含む動画フレームまたはクロッピング矩形を、重要でない顔を含むフレームまたは顔を含まないフレームと区別するように訓練されてもよい。

いくつかの実装では、教師なし学習は、たとえば、機械学習アプリケーション６３０によって使用され得る知識表現を生成するために使用されてもよい。たとえば、教師なし学習は、図４および図５を参照して上述したように利用されるパーソナライズされたパラメータ信号を生成するために使用されてもよい。さまざまな実装において、訓練済みモデルは、モデル構造に対応する重みのセットを含む。データ６３２が省略される実装では、機械学習アプリケーション６３０は、たとえば、機械学習アプリケーション６３０の開発者、サードパーティなどによる、事前の訓練に基づく訓練済みモデル６３４を含んでもよい。いくつかの実装では、訓練済みモデル６３４は、固定された、たとえば、重みを提供するサーバからダウンロードされた重みのセットを含んでもよい。

また、機械学習アプリケーション６３０は、推論エンジン６３６を含む。推論エンジン６３６は、訓練済みモデル６３４をアプリケーションデータ６１４などのデータに適用して、推論を提供するように構成されている。いくつかの実装では、推論エンジン６３６は、プロセッサ６０２によって実行されるソフトウェアコードを含んでもよい。いくつかの実装では、推論エンジン６３６は、プロセッサ６０２が訓練済みモデルを適用することを可能にする（たとえば、プログラマブルプロセッサのための、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）のための、など）回路構成を指定してもよい。いくつかの実装では、推論エンジン６３６は、ソフトウェア命令、ハードウェア命令、または組合わせを含み得る。いくつかの実装では、推論エンジン６３６は、推論エンジン６３６を呼び出すために、たとえば、訓練済みモデル６３４をアプリケーションデータ６１４に適用して推論を生成するために、オペレーティングシステム６０８および／または他のアプリケーション６１２によって使用できるアプリケーションプログラミングインターフェイス（ＡＰＩ）を提供してもよい。たとえば、重要な顔モデルの推論は、たとえば、１つ以上の重要な顔を有する以前に取込まれた写真または動画との比較に基づく、動画フレームまたはクロッピング矩形の分類でもよい。

機械学習アプリケーション６３０は、いくつかの技術的利点を提供し得る。たとえば、訓練済みモデル６３４が教師なし学習に基づいて生成される場合、訓練済みモデル６３４は、入力データ、たとえば、アプリケーションデータ６１４から知識表現（たとえば、数値表現）を生成するために推論エンジン６３６によって適用可能である。たとえば、顔信号を生成するように訓練されたモデルは、データサイズ（たとえば、１ＫＢ）が入力音声記録（たとえば、１ＭＢ）よりも小さい通話の表現を生成することができる。いくつかの実装では、そのような表現は、出力（たとえば、ラベル、分類など）を生成するための処理コスト（たとえば、計算コスト、メモリ使用量など）を低減するのに役立つ場合がある。

いくつかの実装では、そのような表現は、推論エンジン６３６の出力から出力を生成する異なる機械学習アプリケーションへの入力として提供されてもよい。いくつかの実装では、機械学習アプリケーション６３０によって生成された知識表現は、たとえば、ネットワークを介して、さらに他の処理を行う異なるデバイスに提供されてもよい。たとえば、図４または図５を参照して説明した技術を用いて生成された顔信号は、図４または図５を参照して説明したように、パーソナライズされたパラメータを用いて自動ビデオクロッピングで使用するためにクライアントデバイスに提供することができる。このような実装では、重要な顔の写真または動画ではなく、知識表現を提供することにより、技術的な利点、たとえば、より低コストでより速いデータ伝送を可能にし得る。他の例では、重要な顔をクラスター化するように訓練されたモデルは、入力写真または動画からクラスタを生成することができる。クラスタは、元の写真または動画へのアクセスを必要としないさらに他の処理（たとえば、重要な顔が動画フレームまたはクロッピング矩形に存在するか否かの判定など）に適している場合があり、したがって、計算コストを節約することができる。

いくつかの実装では、機械学習アプリケーション６３０は、オフライン方式で実装されてもよい。これらの実装では、訓練済みモデル６３４は、第１段階で生成され、機械学習アプリケーション６３０の一部として提供されてもよい。いくつかの実装では、機械学習アプリケーション６３０は、オンライン方式で実装されてもよい。たとえば、そのような実装では、機械学習アプリケーション６３０を呼び出すアプリケーション（たとえば、オペレーティングシステム６０８、他のアプリケーション６１２の１つ以上）は、機械学習アプリケーション６３０によって生成された推論を利用し、たとえば、推論をユーザに提供し、システムログ（たとえば、ユーザによって許可されている場合、推論に基づいてユーザによって行われたアクション、またはさらに他の処理についての入力として利用される場合、さらに他の処理の結果）を生成してもよい。システムログは、定期的に、たとえば、時間ごとに、月ごとに、四半期ごとなどに生成されてもよく、ユーザの許可を得て、訓練済みモデル６３４を更新するため、たとえば、訓練済みモデル６３４のための重要な顔データを更新するために使用されてもよい。

いくつかの実装では、機械学習アプリケーション６３０は、機械学習アプリケーション６３０が実行されるデバイス６００の特定の構成に適応可能な態様で実装されてもよい。たとえば、機械学習アプリケーション６３０は、利用可能な計算リソース、たとえば、プロセッサ６０２を利用する計算グラフを決定してもよい。たとえば、機械学習アプリケーション６３０は、プロセッサ６０２が特定の数（たとえば、１０００個）のＧＰＵコアを有するＧＰＵを含むと決定し、それに応じて（たとえば、１０００個の個別のプロセスまたはスレッドとして）推論エンジンを実装してもよい。

いくつかの実装では、機械学習アプリケーション６３０は、訓練済みモデルのアンサンブルを実装してもよい。たとえば、訓練済みモデル６３４は、各々が同じ入力データに適用可能な複数の訓練済みモデルを含んでもよい。これらの実装では、機械学習アプリケーション６３０は、たとえば、利用可能な計算リソース、事前推論成功率などに基づいて、特定の訓練済みモデルを選択してもよい。いくつかの実装では、機械学習アプリケーション６３０は、複数の訓練済みモデルが適用されるように、推論エンジン６３６を実行してもよい。これらの実装では、機械学習アプリケーション６３０は、たとえば、各訓練済みモデルの適用から個別の出力の得点を付ける投票技術を使用して、または１つ以上の特定の出力を選択することによって、個別のモデルの適用からの出力を組合わせてもよい。さらに、これらの実装において、機械学習アプリケーションは、個別の訓練済みモデルを適用するための時間閾値を適用し（たとえば、０．５ｍｓ）、時間閾値内で利用可能なこれらの個別の出力のみを利用してもよい。時間閾値内に受信されない出力は、利用されなくてもよい、たとえば、破棄されてもよい。たとえば、このようなアプローチは、たとえば、オペレーティングシステム６０８または１つ以上のアプリケーション６１２によって、たとえば、１つ以上の重要な顔が検出されたかどうかおよび他のパーソナライズされた基準に基づいて、動画を自動的にクロップする機械学習アプリケーションを呼び出す間に指定された時間制限が設けられている場合に適していることがある。

異なる実装において、機械学習アプリケーション６３０は、異なるタイプの出力を生成することができる。たとえば、機械学習アプリケーション６３０は、表現またはクラスタ（たとえば、入力データの数値表現）、ラベル（たとえば、画像、文書、音声記録などを含む入力データ用）などを提供することができる。いくつかの実装では、機械学習アプリケーション６３０は、起動するアプリケーション、たとえばオペレーティングシステム６０８または１つ以上のアプリケーション６１２によって指定されるフォーマットに基づいて、出力を生成してもよい。

メモリ６０４内のソフトウェアのいずれかは、代替的に、任意の他の適切な格納場所またはコンピュータ読取可能媒体に格納することができる。さらに、メモリ６０４（および／または他の接続されたストレージデバイス（複数可））は、１つ以上のメッセージ、１つ以上の分類法、電子百科事典、辞書、シソーラス、知識ベース、メッセージデータ、文法、顔識別子（たとえば、重要な顔）、および／または本明細書に記載する機能で使用する他の命令とデータとを格納可能である。メモリ６０４および任意の他のタイプのストレージ（磁気ディスク、光ディスク、磁気テープ、または他の有形媒体）は、「ストレージ」または「ストレージデバイス」とみなすことができる。

入出力インターフェイス６０６は、デバイス６００を他のシステムおよびデバイスとインターフェイス接続することを可能にする機能を提供可能である。インターフェイス接続されたデバイスは、デバイス６００の一部として含まれ得る、または別個であってデバイス６００と通信し得る。たとえば、ネットワーク通信デバイス、ストレージデバイス（たとえば、メモリおよび／またはデータベース１０６）、ならびに入出力デバイスは、入出力インターフェイス６０６を介して通信可能である。いくつかの実装では、入出力インターフェイスは、入力デバイス（キーボード、ポインティングデバイス、タッチスクリーン、マイク、カメラ、スキャナ、センサなど）および／または出力デバイス（表示デバイス、スピーカデバイス、プリンタ、モータなど）等のインターフェイスデバイスに接続可能である。入出力インターフェイス６０６は、たとえば、デバイス６００をセルラーネットワークまたは他のテレフォニーネットワークに結合するために、テレフォニーインターフェイスも含み得る。

入出力インターフェイス６０６に接続可能なインターフェイス付きデバイスのいくつかの例は、コンテンツ、たとえば、画像、動画、および／または本明細書に記載されるような出力アプリケーションのユーザインターフェイスを表示するために使用することができる１つ以上の表示デバイス６２０を含み得る。表示デバイス６２０は、ローカル接続（たとえば、ディスプレイバス）を介して、および／またはネットワーク接続を介してデバイス６００に接続することができ、任意の適切な表示デバイスであり得る。表示デバイス６２０は、ＬＣＤ、ＬＥＤ、またはプラズマディスプレイスクリーン、ＣＲＴ、テレビ、モニタ、タッチスクリーン、３Ｄディスプレイスクリーン、または他の視覚表示デバイスといった、任意の適切な表示デバイスを含み得る。たとえば、表示デバイス６２０は、モバイルデバイスに設けられたフラットディスプレイ画面、ゴーグルまたはヘッドセットデバイスに設けられた複数のディスプレイ画面、またはコンピュータデバイスのモニタ画面であり得る。

図示を容易にするために、図６では、プロセッサ６０２、メモリ６０４、入出力インターフェイス６０６、およびソフトウェアブロック６０８，６１２，６３０の各々について１つのブロックを示している。これらのブロックは、１つ以上のプロセッサまたは処理回路、オペレーティングシステム、メモリ、入出力インターフェイス、アプリケーション、および／またはソフトウェアモジュールを表してもよい。他の実装では、デバイス６００は、示されたすべての構成要素を有していなくてもよく、および／または、本明細書に示された要素の代わりに、もしくはそれらに加えて、他のタイプの要素を含む他の要素を有してもよい。いくつかの構成要素は、本明細書のいくつかの実装で説明されるようなブロックおよび動作を実行するものとして説明されるが、環境１００、デバイス６００、類似のシステム、またはそのようなシステムに関連付けられた任意の適切な１つまたは複数のプロセッサの構成要素の任意の適切な構成要素または組合せは、説明するブロックおよび動作を実行してもよい。

本明細書に記載される方法は、コンピュータ上で実行可能なコンピュータプログラム命令またはコードによって実現することができる。たとえば、コードは、１つ以上のデジタルプロセッサ（たとえば、マイクロプロセッサまたは他の処理回路）によって実装することができ、非一時的コンピュータ読取可能媒体（たとえば、ストレージデバイス）、たとえば、半導体もしくは固体メモリ、磁気テープ、取外し可能コンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、フラッシュメモリ、硬磁気ディスク、光ディスク、固体メモリドライブなどの磁気、光学、電磁、または半導体ストレージ媒体などを含むコンピュータプログラム製品に格納可能である。プログラム命令を、たとえば、サーバ（たとえば、分散システムおよび／またはクラウドコンピューティングシステム）から配信されるサービスとしてのソフトウェア（ＳａａＳ）の形式で、電子信号に含み、電子信号として提供することも可能である。または、１つ以上の方法は、ハードウェア（論理ゲートなど）、またはハードウェアとソフトウェアとの組合わせで実装可能である。ハードウェアの例は、プログラマブルプロセッサ（たとえば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、複合プログラマブル論理デバイス）、汎用プロセッサ、グラフィックスプロセッサ、特定用途向け集積回路（ＡＳＩＣ）等であり得る。１つ以上の方法は、システム上で実行されるアプリケーションの一部もしくはコンポーネントとして、または他のアプリケーションおよびオペレーティングシステムと連動して実行されるアプリケーションもしくはソフトウェアとして実行可能である。

本明細書ではその特定の実装に関して説明したが、これらの特定の実装は例示に過ぎず、制限的なものではない。例に示された概念は、他の例および実装に適用可能である。

本明細書で議論される特定の実装が、ユーザに関する個人情報（たとえば、ユーザデータ、顔認識データ、ユーザのソーシャルネットワークに関する情報、ユーザの位置およびその位置での時間、ユーザの生体情報、ユーザの活動および人口統計情報）を収集または使用し得る状況において、ユーザには、情報を収集するか否か、個人情報を格納するか否か、個人情報を使用するか否か、ならびにユーザについて情報を収集、格納および使用する態様を制御する１つ以上の機会が提供される。すなわち、本明細書で議論されるシステムおよび方法では、ユーザの個人情報の具体的な収集、格納および／または使用は、関連するユーザからそうするための明示的な認可を受けると行われる。たとえば、ユーザには、プログラムまたは機能が、その特定のユーザ、またはプログラムもしくは機能に関連する他のユーザについてのユーザ情報を収集するか否かの制御が提供される。個人情報が収集される各ユーザには、当該ユーザに関連する情報収集の制御を可能にし、情報が収集されるかどうか、および情報のどの部分が収集されるかに関して許可または承認を与えるための１つ以上のオプションが提示される。たとえば、ユーザには、通信ネットワークを介して１つ以上のそのような制御オプションを提供可能である。さらに、特定のデータは、格納または使用される前に、個人を特定可能な情報を削除できるように、１つ以上の方法で処理可能である。一例として、ユーザのアイデンティティは、個人を特定できる情報が決定されないように取り扱われてもよい。別の例として、ユーザのデバイスの地理的位置は、ユーザの特定の位置を特定できないように、より大きな地域へと一般化されてもよい。

なお、本開示で説明する機能ブロック、動作、特徴、方法、デバイス、およびシステムは、当業者に知られているようなシステム、デバイス、および機能ブロックの異なる組合わせに統合または分割され得る。任意の適切なプログラミング言語およびプログラミング技術を使用して、特定の実装のルーチンを実現することができる。異なるプログラミング技法、たとえば手続き的またはオブジェクト指向の技法を採用してもよい。ルーチンは、単一の処理デバイスまたは複数のプロセッサ上で実行することができる。ステップ、動作、または計算は、特定の順序で提示され得るが、順序は、異なる特定の実装で変更されてもよい。いくつかの実装では、本明細書で順次として示される複数のステップまたは動作を同時に実行してもよい。

Claims

コンピュータにより実現される方法であって、
複数のフレームを含む入力動画を取得することと、
前記入力動画の各フレームにおける１つ以上のクロップ候補領域について、フレームごとのクロップスコアを決定することと、
訓練済み機械学習モデルを用いて、前記入力動画の各フレーム内の前記１つ以上のクロップ候補領域について、顔信号を生成することと、
前記１つ以上のクロップ候補領域の前記顔信号に基づいて、各フレームごとのクロップスコアを調整することと、
動きコストと、前記１つ以上のクロップ候補領域について調整された前記フレームごとのクロップスコアとに基づいて、前記入力動画についてクロップ領域位置を表す最小コスト経路を決定することと、
前記最小コスト経路に沿って、前記クロップ領域位置に対応するクロップキーフレーミングを生成することとを備え、前記クロップキーフレーミングは、開始フレームと、終了フレームと、クロップ領域位置とを含み、前記方法はさらに、
前記入力動画の入力アスペクト比と異なる出力アスペクト比または前記入力動画の長手方向とは異なる長手方向のうちの１つ以上を有する修正済み動画を出力することを備え、前記入力アスペクト比または前記長手方向は、前記入力動画の取込み中に使用されるパラメータである、コンピュータにより実現される方法。
各フレームごとのクロップスコアを調整することは、
顔が、前記フレームごとのクロップスコアに対応する前記クロップ候補領域に存在すると判断される場合、前記フレームごとのクロップスコアを第１の値だけ増加させること、または
少なくとも１つの重要な顔が、前記フレームごとのクロップスコアに対応する前記クロップ候補領域に存在すると判断される場合、前記フレームごとのクロップスコアを第２の値だけ増加させることのうちの１つを含み、前記第２の値は前記第１の値より大きい、請求項１に記載のコンピュータにより実現される方法。
前記クロップキーフレーミングの品質スコアを決定することと、
前記品質スコアに基づいて、前記入力動画の自動ビデオクロッピングを行うこととをさらに備える、請求項１または２に記載のコンピュータにより実現される方法。
前記クロップキーフレーミングの信頼度スコアを決定することと、
前記信頼度スコアに基づいて、前記入力動画の自動ビデオクロッピングを行うこととをさらに備える、請求項１または２に記載のコンピュータにより実現される方法。
前記フレームごとのクロップスコアを決定することは、クロップ候補領域ごとに、美的スコア、顔分析スコア、またはアクティブスピーカプレゼンスのうちの１つ以上を決定することを含む、請求項１～４のいずれかに記載のコンピュータにより実現される方法。
前記クロップキーフレーミングを生成することは、２つのキーフレームの間で補間することを含む、請求項１～５のいずれかに記載のコンピュータにより実現される方法。
前記補間することは、ベジエスプラインを適用すること含む、請求項６に記載のコンピュータにより実現される方法。
前記顔信号を生成することは、１つ以上のパーソナライズされたパラメータにアクセスすることを含む、請求項１～７のいずれかに記載のコンピュータにより実現される方法。
前記１つ以上のパーソナライズされたパラメータは、１つ以上の重要な顔についての顔識別情報を含む、請求項８に記載のコンピュータにより実現される方法。
前記修正済み動画を出力することは、前記修正済み動画をディスプレイに表示することを含む、請求項１～９のいずれかに記載のコンピュータにより実現される方法。
前記入力動画を取得する前に、デバイスにおいて動画再生コマンドを受信することと、
前記動画再生コマンドを受信することに応答して、デバイスの長手方向と前記デバイスについての表示アスペクト比とを検出することと、
前記デバイスについて、前記デバイスの長手方向と前記表示アスペクト比とに基づいて、クロップ領域を決定することとをさらに備える、請求項１～１０のいずれかに記載のコンピュータにより実現される方法。
請求項１～１１のいずれかに記載の方法を１つ以上のプロセッサに実行させるためのコンピュータプログラム。
請求項１２に記載のコンピュータプログラムを格納したメモリと、
前記コンピュータプログラムを実行するための１つ以上のプロセッサとを備える、システム。