JP7228682B2

JP7228682B2 - 動画解析のためのゲーティングモデル

Info

Publication number: JP7228682B2
Application number: JP2021514518A
Authority: JP
Inventors: ラマスワミー，シャラド; チャウドフリ，ソウリッシュ; ロス，ジョセフ
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-03-13
Filing date: 2019-09-27
Publication date: 2023-02-24
Anticipated expiration: 2039-09-27
Also published as: US20200293783A1; JP2022523606A; CN112740709A; US10984246B2; KR20210031756A; US20210216778A1; WO2020185256A1; KR102297393B1; CN112740709B; EP3735777A1; US11587319B2

Description

背景
ユーザは、オンライン画像管理サービスに画像や動画をアップロードする。動画アノテーションを行うサービスもある。たとえば、動画アノテーションは、人の顔、オブジェクト（たとえば、誕生日ケーキ）、動き（たとえば、ジャンプ、走るなど）、音（たとえば、笑い声）などを示すラベルをアップロード動画に含む。プログラムに基づいた技術を用いて動画を解析することによって、動画アノテーションが生成される。

本明細書において提供する背景説明は、本開示の内容を一般的に提示するためである。現在知られている発明者らの当該背景セクションに記載されている範囲の業績、および、当該説明の局面（出願時に先行技術としてみなされない限り）は、明示的にも暗示的にも本開示に対する先行技術として示されたり認められたりしていない。

概要
本明細書において説明する実施態様は、動画を解析して１つ以上の動画アノテーションを付加するかどうかを判断するための方法、デバイス、およびコンピュータ読み取り可能な媒体に関する。いくつかの実施態様では、コンピュータにより実現される方法は、複数のフレームおよび対応する音声から構成される動画を取得するステップを含む。この方法は、さらに、目標フレームレートに基づいてサンプリングを実行し、複数のフレームのサブセットを選択するステップを含む。いくつかの実施態様では、目標フレームレートは、動画のフレームレート以下である。この方法は、さらに、複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出するステップを含む。この方法は、さらに、複数のフレームからなるサブセットの解像度を下げるステップと、解像度を下げるステップの後、複数のフレームからなるサブセットおよび対応する音声スペクトログラムに機械学習ベースのゲーティングモデルを適用するステップを含む。この方法は、さらに、ゲーティングモデルの出力として、動画を解析して１つ以上の動画アノテーションを付加するかどうかについての指示を取得するステップを含む。

いくつかの実施態様では、方法は、さらに、ゲーティングモデルを適用するステップの前に、動画を複数のセグメントに分割するステップを含み得、各セグメントは、複数のフレームを含み、ゲーティングモデルを適用するステップは、複数のセグメントに対して順番に繰り返し行われ、指示は、各イテレーションにおいて生成される。いくつかの実施態様では、複数のセグメントに含まれる各セグメントは、複数のセグメントに含まれる別のセグメントと重なり合ってもよい。いくつかの実施態様では、特定のイテレーションにおける指示が動画を解析するという指示であった場合、複数のセグメントのうち１つ以上のセグメントが除外されるようにゲーティングモデルの適用を終了させる。

いくつかの実施態様では、ゲーティングモデルは、ゲーティングモデルに提供される入力動画に特定の特徴が存在するかどうかを判断するように訓練される。いくつかの実施態様では、特定の特徴は、人の顔、ある種類のオブジェクト、ある種類の動き、またはある種類の音声のうち、少なくとも１つを含む。

いくつかの実施態様では、ゲーティングモデルを適用するステップは、特定の特徴が存在する可能性を判断する第１モデルを適用するステップと、入力として特定の特徴が存在する可能性を受信し、動画を解析するかどうかについての指示を生成する第２モデルを適用するステップとを含み得る。いくつかの実施態様では、第１モデルは、動画を解析するように訓練された複数の層を含む第１の畳み込みニューラルネットワークと、音声を解析するように訓練された複数の層を含む第２の畳み込みニューラルネットワークと、第１の畳み込みニューラルネットワークの出力および第２の畳み込みニューラルネットワークの出力を入力として受信し、特定の特徴が第２モデルに存在する可能性を提供する、複数の層を含むフュージョンネットワークとを含む。いくつかの実施態様では、第２モデルは、ヒューリスティクス、再帰型ニューラルネットワーク、またはマルコフ連鎖解析手法のうち、１つ以上を用いて実装される。いくつかの実施態様では、方法は、第２モデルに追加入力を提供するステップをさらに含み得る。追加入力は、特定の特徴が存在すると検出された複数のフレームからなるサブセットのうち、特定のフレームの一部のＩＤ、複数のフレームからなるサブセットに特定の特徴が現れている期間、または、早期終了に関するヒューリスティクス、のうちの１つ以上を含み得る。これらの実施態様では、第２モデルは、追加入力を利用して指示を生成する。

いくつかの実施態様では、方法は、指示が動画を解析するという指示であった場合、動画をプログラムで解析して１つ以上の動画アノテーションを付加するステップをさらに含み得る。動画アノテーションは、動画における、顔、特定の種類のオブジェクト、特定の種類の動き、または特定の種類の音声、のうちの１つ以上の存在を示す１つ以上のラベルを含み得る。

いくつかの実施態様は、動画を解析して１つ以上の動画アノテーションを付加するためのコンピューティングデバイスを含み得る。このデバイスは、プロセッサと、命令を格納したメモリとを備え得る。当該命令は、プロセッサによって実行されると、プロセッサに動作を実行させ、動作は、複数のフレームおよび対応する音声から構成される動画を取得する動作を含み得る。動作は、動画のフレームレート以下の目標フレームレートに基づいてサンプリングを実行し、複数のフレームのサブセットを選択する動作をさらに含み得る。動作は、複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出する動作をさらに含み得る。動作は、複数のフレームからなるサブセットの解像度を下げる動作をさらに含み得る。動作は、解像度を下げるステップの後、複数のフレームからなるサブセットおよび対応する音声スペクトログラムに機械学習ベースのゲーティングモデルを適用する動作をさらに含み得る。動作は、ゲーティングモデルの出力として、動画を解析して１つ以上の動画アノテーションを付加するかどうかについての指示を取得する動作をさらに含み得る。

いくつかの実施態様では、メモリは、さらに命令を格納し得、命令は、プロセッサによって実行されると、プロセッサにさらに動作を実行させ、動作は、ゲーティングモデルを適用する動作の前に、動画を複数のセグメントに分割する動作を含む。各セグメントは、複数のフレームを含み得る。これらの実施態様では、ゲーティングモデルを適用する動作は、複数のセグメントに対して順番に繰り返し行われ、指示は、各イテレーションにおいて生成される。

本明細書において説明する実施態様は、さらに、動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての指示を生成するように機械学習ベースのゲーティングモデルを訓練するための方法、デバイス、およびコンピュータ読み取り可能な媒体に関する。機械学習ベースのゲーティングモデルは、特定の特徴が動画に存在する可能性を動画の動画フレームに基づいて生成する第１の畳み込みニューラルネットワークを含む第１モデルと、入力として特定の特徴が動画に存在する可能性を受信し、指示を生成する第２モデルとを含み得る。いくつかの実施態様では、コンピュータにより実現される方法は、訓練セットを取得するステップを含み、訓練セットは、複数の訓練動画を含む。各訓練動画は、複数のフレームを含み得る。各訓練動画は、対応する高解像度動画の、低解像度のサンプリングされたバージョンの動画である。訓練セットは、さらに、複数の訓練ラベルを含む。各訓練ラベルは、複数の訓練動画のうちの１つ以上の訓練動画に対応する高解像度動画における特定の特徴の存在を示す。

この方法は、さらに、ゲーティングモデルを訓練するステップを含み、訓練するステップは、第１モデルを訓練動画に適用することによって、特定の特徴が訓練動画に存在する可能性を生成するステップを含む。ゲーティングモデルを訓練するステップは、さらに、第２モデルを適用することによって、訓練動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての指示を特定の特徴が訓練動画に存在する可能性に基づいて生成するステップを含む。ゲーティングモデルを訓練するステップは、さらに、対応する高解像度動画に関連付けられた訓練ラベル、および指示に基づいて、フィードバックデータを生成するステップと、訓練入力として、フィードバックデータを第１モデルおよび第２モデルに提供するステップとを含む。ゲーティングモデルを訓練するステップは、訓練セットに含まれる訓練動画ごとに実行され得る。

いくつかの実施態様では、特定の特徴は、人の顔、ある種類の動き、またはある種類のオブジェクトのうち少なくとも１つを含む。いくつかの実施態様では、訓練セットに含まれる複数の訓練動画は、特定の特徴が存在する少なくとも１つの動画と、特定の特徴が存在しない少なくとも１つの動画とを含む。これらの実施態様では、ゲーティングモデルを訓練するステップは、第１モデルの第１の畳み込みニューラルネットワークの１つ以上のノードの重みを自動的に調整するステップ、または、第１モデルの第１の畳み込みニューラルネットワークの１つ以上の対のノード間の接続性を自動的に調整するステップのうち、１つ以上のステップを含む。

いくつかの実施態様では、ゲーティングモデルの第２モデルは、ヒューリスティクスを基にしたモデル、再帰型ニューラルネットワーク、またはマルコフ連鎖解析モデルのうち、１つ以上を含む。これらの実施態様では、ゲーティングモデルを訓練するステップは、ヒューリスティクスを基にしたモデルの１つ以上のパラメータを自動的に調整するステップ、再帰型ニューラルネットワークの１つ以上のパラメータを自動的に調整するステップ、またはマルコフ連鎖解析モデルの１つ以上のパラメータを自動的に調整するステップのうち、１つ以上のステップを含む。

いくつかの実施態様では、ゲーティングモデルを訓練するステップは、訓練動画の複数のフレームをフレームからなる複数のスタックに分割するステップをさらに含み得る。各スタックは、少なくとも１つのフレームを含み得る。複数のスタックは、順序付けられたシーケンスに編成され得る。これらの実施態様では、ゲーティングモデルを訓練するステップは、フレームからなる複数のスタックに含まれるフレームからなるスタックごとに順次実行される。これらの実施態様では、第２モデルは、生成された指示を訓練動画のスタックごとに格納するように構成される。さらには、これらの実施態様では、特定のスタックについての指示を生成するステップは、順序付けられたシーケンスに含まれる１つ以上の前のスタックについてのそれぞれ格納された指示にさらに基づく。

いくつかの実施態様では、複数の訓練動画に含まれる１つ以上の訓練動画は、複数のフレームに対応する音声スペクトログラムを含み得る。これらの実施態様では、第１モデルは、音声スペクトログラムを解析するように訓練された第２の畳み込みニューラルネットワークと、第１の畳み込みニューラルネットワークおよび第２の畳み込みニューラルネットワークの出力を入力として受信し、特定の特徴が動画に存在する可能性を生成するフュージョンネットワークとをさらに含み得る。

本明細書において説明する１つ以上の実施態様で用いられ得る例示的なネットワーク環境のブロック図である。いくつかの実施態様に係る、例示的な方法２００を示すフロー図である。いくつかの実施態様に係る、例示的なゲーティングモデル３００の動作を示す図である。いくつかの実施態様に係る、機械学習ベースのゲーティングモデルを訓練するための例示的な方法４００を示すフロー図である。例示的な動画およびゲーティングモデルの対応する出力を示す図である。本明細書において説明する１つ以上の実施態様で用いられ得る例示的なデバイスのブロック図である。

詳細な説明
ユーザは、カメラ、たとえば、スマートフォンまたはその他のデバイスを用いて動画を撮影する。ユーザは、クライアントデバイスまたはサーバ、たとえば、動画ホスティングサービスを提供するサーバ上にこのような動画を格納するであろう。たとえば「ジョンの誕生日」、「マリアの卒業」、「先週末の私の野球の試合」など、キーワードまたはキーフレーズを使うことによってユーザが動画を検索することを可能にするアプリケーションが、ユーザのクライアントデバイスおよび／またはサーバを介して提供されてもよい。

ユーザの動画のクイック検索を可能にするために、このアプリケーションは、アノテーションを生成し、ユーザの動画と対応付けて格納してもよい。アノテーションは、ラベルであり得る。または、ラベルを含み得る。たとえば、アノテーションは、動画に写る特徴、たとえば、人の顔の存在（および、この顔が特定の人物に対応付けられているかどうか）、ある種のオブジェクトの存在（たとえば、ケーキ、キャンドル、野球バットなど）、ある種の動き、行動、または活動の存在（たとえば、ランニングする、ダンスする、スポーツをするなど）を示してもよい。ユーザが検索を行った場合、アノテーションが解析され、検索に一致する動画が特定される。たとえば、「先週末の私の野球の試合」という検索に応答してアノテーションを解析し、１つ以上の特定のアノテーション、たとえば、「野球バット」、「野球帽」、「スタジアム」などが動画に対応付けられているかどうかを判断し、この動画が検索に一致するかどうかが判断される。ユーザの同意が得られている場合、アノテーションを自動的に解析し、たとえば、動画が自動的に共有されるユーザを見つける、ユーザデバイス上に提示される関連動画またはその一部を見つける（たとえば、テーマ別の提示、または、写っているオブジェクト、活動など、動画コンテンツに基づいたその他の画像ベースの作品に結合される）など、特定のシステムタスクを実行するための特定の基準に一致した動画を特定することができる。

動画を解析して当該動画に関する１つ以上のアノテーションを付加することは、計算コストがかかる場合がある。アノテーションが特定の特徴に対応する場合、動画全体を解析してこの特定の特徴のうちの１つ以上が動画（または、動画の１つ以上のセグメント）に存在するかどうかを判断する必要があり、特定の特徴が存在する場合、対応するアノテーションが動画に付加され得る。この作業は無駄になり得る。たとえば、特定の特徴が動画に存在しなかった場合、動画の解析によって計算リソースおよび計算能力を浪費してしまうであろう。

さらには、動画を解析してアノテーションを付加することは実現可能でない場合があり、または、特定のデバイス、たとえば、処理能力に限りがあるデバイス、電力容量に限りがあるデバイス（たとえば、電池式デバイス）上では特にコストがかかるであろう。特定の特徴を含まない複数の動画を含んだ動画ライブラリをユーザが所有していた場合、動画を解析するという計算コストがかかる作業が複数の動画の各々に対して行われてしまうであろう。さらには、動画の一部のみが特定の特徴を写していた場合、動画全体を解析することによって、計算リソースが無駄になってしまうであろう。

いくつかの実施態様は、方法、デバイス、および動画のゲーティング解析を行うための命令を有するコンピュータ読み取り可能な媒体を含む。動画または動画の１つ以上のセグメントを解析して１つ以上の動画アノテーションを付加するかどうかについての指示を生成する訓練済みの機械学習ベースのゲーティングモデルを適用することによって、ゲーティング解析を行ってもよい。

この指示を生成するためにゲーティングモデルを利用することによって、いくつかの技術的利点がもたらされるであろう。たとえば、ゲーティングモデルは、動画を解析して特定の特徴が存在するかどうかを検出する動画解析技術、および対応するアノテーションを付加するために利用される動画解析技術よりも計算コストが大幅に低く抑えられるであろう。

たとえば、低解像度のサンプリングされた、動画のフレームのサブセットにゲーティングモデルを適用してもよいため、これに応じて、元の高解像度動画を解析するよりも計算コストが低くなる。さらには、その後、ゲーティングモデルが肯定指示を生成した動画のみを解析すればよいので、計算コストおよび計算能力の無駄をなくすことができる。

また、ゲーティングモデルの利用によって、計算能力が低いまたは電力に限りがあるデバイス上で動画アノテーションを実行することが可能になる。さらには、いくつかの実施態様では、ゲーティングモデルからの指示は、解析する動画の１つ以上のセグメントに特定の特徴が存在する可能性に基づく当該１つ以上のセグメントのＩＤを含んでもよい。これらの実施態様では、動画のその他のセグメントが、動画アノテーションを付加するための解析から除外され得るので、計算コストの無駄をなくすことができる。ゲーティングモデルは、任意の数の動画に適用することができる。たとえば、ユーザが多数の動画、たとえば、数千本の動画を所有していた場合、すべての動画を解析するのではなく、ゲーティングモデルを適用して、アノテーションを付加するために計算コストが高い技術を利用してさらに解析する動画を特定することができる。この例では、ゲーティングモデルが特定したさらなる解析用の動画のサブセット（たとえば、数千本の動画のうちの３００本の動画）、たとえば、１００本の動画のうちの１０本の動画をさらに解析するが、その他の動画をさらに解析することはない。総計算コスト（数千本の動画にゲーティングモデルを利用する計算コストと、コストが高い技術を利用して３００本の動画をさらに解析する計算コストとの合計）は、コストが高い技術を利用して数千本の動画を解析する場合よりも低い。

いくつかの実施態様では、ゲーティングモデルを２段階モデルとして実装してもよい。２段階モデルは、特定の特徴が動画に存在する可能性を判断するように訓練された第１モデルと、可能性予測（または、一連の可能性予測）、たとえば、第１モデルによる出力を、動画を解析するかどうかの指示を生成するための入力として利用するように訓練された第２モデルとを含む。いくつかの実施態様では、この２段階モデルは、特定の特徴が存在する可能性を判断する複数の異なる第１モデルと、１つの第２段階モデルとを含んでもよい。

いくつかの実施態様では、第１モデルと第２モデルとを含む２段階モデルとしてゲーティングモデルを実装した場合、第１モデルと第２モデルとを互いに独立して訓練してもよい。たとえば、第１モデルを、特定の特徴（たとえば、人の顔、ある種のオブジェクト、ある種の動き、ある種の音声など）が動画に存在する可能性を判断するように訓練してもよい。この訓練は、たとえば、訓練動画に対応付けられた訓練ラベルに基づいて取得されたフィードバックデータを提供することによって、第２モデルの訓練とは独立して行うことができる。

たとえば、第２モデルを、可能性予測（または、一連の可能性予測）を入力として利用し、動画を解析してアノテーションを付加するかどうかについての指示を生成するように訓練してもよい。この訓練は、たとえば、異なる可能性値を入力として提供し、訓練ラベルをフィードバックデータとして提供することによって、第１モデルの訓練とは独立して行うことができる。よって、ゲーティングモデル全体の性能（たとえば、正解率、計算コストなど）の向上に伴い、各モデルを他方のモデルとは別個に評価および訓練できるようになる。

図１では、同様の参照番号を用いて同様の要素を示している。「１５６ａ」など、参照番号に続く文字は、その特定の参照番号を有する要素をこのテキストが具体的に指していることを示す。「１５６」など、文字が後に続かないテキストに含まれる参照番号は、図面においてこの参照番号を持ついずれかまたはすべて要素を指している（たとえば、テキストにある「１５６」は、図にある「１５６ａ」および／または「１５６ｂ」という参照番号を指している）。

図１は、本明細書において説明するいくつかの実施態様において用いられ得る例示的なネットワーク環境１００のブロック図である。いくつかの実施態様では、ネットワーク環境１００は、１つ以上のサーバシステム、たとえば、図１の例のサーバシステム１０２を含む。サーバシステム１０２は、たとえば、ネットワーク１３０と通信を行うことができる。サーバシステム１０２は、サーバ装置１０４と、データベース１０６またはその他の記憶装置とを備え得る。データベース１０６は、１つ以上の画像および／または動画、ならびに当該１つ以上の画像および／または動画に対応付けられたメタデータを格納してもよい。いくつかの実施態様では、サーバ装置１０４は、画像管理アプリケーション１５６ｂを提供してもよい。画像管理アプリケーション１５６ｂは、データベース１０６に格納された画像にアクセスしてもよい。

また、ネットワーク環境１００は、１つ以上のクライアントデバイス、たとえば、クライアントデバイス１２０、１２２、１２４、および１２６を含み得る。クライアントデバイス１２０、１２２、１２４、および１２６は、互いに通信を行ってもよく、ならびに／またはネットワーク１３０を介してサーバシステム１０２と通信を行ってもよい。ネットワーク１３０は、インターネット、ローカルエリアネットワーク（ＬＡＮ）、ワイヤレスネットワーク、スイッチまたはハブ接続などのうちの１つ以上を含む任意の種類の通信ネットワークであり得る。いくつかの実施態様では、ネットワーク１３０は、たとえば、ピアツーピア無線プロトコル（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－ＦｉＤｉｒｅｃｔなど）などを利用したデバイス間のピアツーピア通信を含み得る。２つのクライアントデバイス１２０および１２２間のピアツーピア通信の一例を、矢印１３２によって示している。

説明を容易にするために、図１には、サーバシステム１０２、サーバ装置１０４、およびデータベース１０６からなる１つのブロックを示し、クライアントデバイス１２０、１２２、１２４、および１２６の４つのブロックを示している。サーバブロック１０２、１０４、および１０６は、複数のシステム、複数のサーバ装置、および複数のネットワークデータベースを表してもよく、これらのブロックは、図示する構成とは異なる構成で提供され得る。たとえば、サーバシステム１０２は、その他のサーバシステムとネットワーク１３０を介して通信可能な複数のサーバシステムを表し得る。いくつかの実施態様では、サーバシステム１０２は、たとえば、クラウドホスティングサーバを含み得る。いくつかの例では、データベース１０６および／またはその他の記憶装置は、サーバ装置１０４とは別個の、サーバ装置１０４およびその他のサーバシステムとネットワーク１３０を介して通信可能なサーバシステムブロック（複数可）で提供され得る。

任意の数のクライアントデバイスがあってもよい。各クライアントデバイスは、任意の種類の電子機器、たとえば、デスクトップコンピュータ、ラップトップコンピュータ、ポータブルまたはモバイル機器、携帯電話、スマートフォン、タブレットコンピュータ、テレビ、ＴＶセットトップボックスまたは娯楽機器、ウェアラブルデバイス（たとえば、表示用眼鏡またはゴーグル、腕時計、ヘッドセット、アームバンド、装身具など）、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、メディアプレーヤ、ゲーム機などであり得る。また、いくつかのクライアントデバイスは、データベース１０６に類似したローカルデータベースまたはその他のストレージを含んでもよい。いくつかの実施態様では、ネットワーク環境１００は、図示した構成要素のすべてを有さなくてもよく、および／または、本明細書に記載の要素の代わりにまたはそれらに加えて、その他の種類の要素を含むその他の要素を有してもよい。

様々な実施態様では、エンドユーザＵ１、Ｕ２、Ｕ３、およびＵ４は、それぞれのクライアントデバイス１２０、１２２、１２４、および１２６を利用してサーバシステム１０２および／または互いに通信を行ってもよい。いくつかの例では、ユーザＵ１、Ｕ２、Ｕ３、およびＵ４は、サーバシステム１０２上に実装されたネットワークサービス、たとえば、ソーシャルネットワークサービス、画像ホスティングサービス、またはその他の種類のネットワークサービスを介してそれぞれのクライアントデバイスおよび／またはサーバシステム１０２上で動作するアプリケーションを介して、互いにやり取りを行ってもよい。たとえば、それぞれのクライアントデバイス１２０、１２２、１２４、および１２６は、１つ以上のサーバシステム、たとえば、システム１０２との間でデータを通信してもよい。

いくつかの実施態様では、通信されたコンテンツまたはサーバシステム１０２および／もしくはネットワークサービスにアップロードされた共有コンテンツを各クライアントデバイスが受信できるよう、サーバシステム１０２は、適切なデータをクライアントデバイスに提供してもよい。いくつかの例では、ユーザＵ１～Ｕ４は、音声会議もしくは映像会議、音声チャット、動画チャット、もしくはテキストチャット、またはその他の通信モードもしくはアプリケーションを介してやり取りすることができる。サーバシステム１０２によって実装されるネットワークサービスは、ユーザに様々な通信を行わせたり、リンクや関連付けを行わせたり、画像、テキスト、動画、音声、ならびにその他の種類のコンテンツなど、共有コンテンツをアップロードならびに投稿させたり、および／またはその他の機能を行わせたりするシステムを含み得る。たとえば、クライアントデバイスは、クライアントデバイスに送信またはストリーム配信され、ならびにサーバおよび／もしくはネットワークサービスを介して異なるクライアントデバイスから（もしくは、当該異なるクライアントデバイスから直接）発信された、もしくはサーバシステムおよび／もしくはネットワークサービスから発信されたコンテンツの投稿などの受信データを表示することができる。いくつかの実施態様では、クライアントデバイスは、たとえば上述したクライアントデバイス間のピアツーピア通信を利用して互いに直接通信を行うことができる。いくつかの実施態様では、「ユーザ」とは、１つ以上のプログラム仮想エンティティ、およびシステムまたはネットワークと接続している人を含み得る。

いくつかの実施態様では、クライアントデバイス１２０、１２２、１２４、および／または１２６のうちのいずれも、１つ以上のアプリケーションを提供することができる。たとえば、図１に示すように、クライアントデバイス１２０は、カメラアプリケーション１５２および画像管理アプリケーション１５６ａを提供してもよい。また、クライアントデバイス１２２～１２６が同様のアプリケーションを提供してもよい。たとえば、カメラアプリケーション１５２は、各クライアントデバイス（たとえば、ユーザＵ１～Ｕ４）のユーザにユーザデバイスのカメラを使って画像を撮影する機能を提供してもよい。たとえば、カメラアプリケーション１５２は、クライアントデバイス１２０上で動作するソフトウェアアプリケーションであってもよい。

いくつかの実施態様では、カメラアプリケーション１５２は、ユーザインターフェースを提供してもよい。たとえば、ユーザインターフェースによって、クライアントデバイス１２０のユーザが画像撮影モード、たとえば、静止画像（またはフォト）モード、バーストモード（たとえば、短時間で連続した複数の画像を撮影する）、動画像モード、動画モード、ＨＤＲ（ＨｉｇｈＤｙｎａｍｉｃＲａｎｇｅ）モードなどを選択することが可能になる。たとえば、動画モードは、複数のフレームを含んだ動画の撮影に相当してもよく、任意の長さであってもよい。さらには、動画モードは、異なるフレームレート、たとえば、２５ｆｐｓ（フレーム／秒）、３０ｆｐｓ、５０ｆｐｓ、６０ｆｐｓなどをサポートしてもよい。画像撮影の１つ以上のパラメータが、動画の撮影中に変更されてもよい。たとえば、ユーザは、動画の撮影中、クライアントデバイスを用いてシーンをズームインしたり、ズームアウトしたりしてもよい。

いくつかの実施態様では、カメラアプリケーション１５２は、図２および図４を参照して本明細書において説明する方法を（たとえば、一部またはすべて）実装してもよい。いくつかの実施態様では、画像管理アプリケーション１５６ａおよび／または画像管理アプリケーション１５６ｂは、図２および図４を参照して本明細書において説明する方法を（たとえば、一部またはすべて）実装してもよい。

クライアントデバイス１２０のハードウェアおよび／またはソフトウェアを用いてカメラアプリケーション１５２および画像管理アプリケーション１５６ａを実装してもよい。それぞれ異なる実施態様では、画像管理アプリケーション１５６ａは、たとえば、クライアントデバイス１２０～１２４のうちのいずれかのクライアントデバイス上で実行されるスタンドアロンアプリケーションであってもよく、または、サーバシステム１０２上に提供された画像管理アプリケーション１５６ｂと連動して動作してもよい。

ユーザの許可がある場合、画像管理アプリケーション１５６は、画像または動画を（たとえば、サーバシステム１０２のデータベース１０６に）格納（たとえば、バックアップ）する自動機能、画像または動画を強調する自動機能、画像または動画の手ぶれ補正を行う自動機能、画像にある１つ以上の特徴、たとえば、顔、体、ある種のオブジェクト、ある種の動きなどを認識する自動機能など、１つ以上の自動機能を実行してもよい。いくつかの例では、加速度計、ジャイロスコープ、もしくはクライアントデバイス１２０のその他のセンサからの入力に基づいて、および／または動画像または動画の複数のフレームの比較に基づいて画像もしくは動画の手ぶれ補正を行ってもよい。

また、画像管理アプリケーション１５６は、ユーザインターフェースに（たとえば、１枚の画像を含むワンナップ表示、複数の画像を含むグリッド表示などで）画像および／または動画を表示する画像管理機能、画像または動画を編集（たとえば、画像設定を調整する、フィルタを適用する、画像の焦点を変更する、動画像または動画の１つ以上のフレームを取り除く）画像管理機能、（たとえば、クライアントデバイス１２０～１２６の）他のユーザと画像を共有する画像管理機能、画像をアーカイブに入れる（たとえば、主要ユーザインターフェースに現れないように画像を格納する）画像管理機能、画像ベースの作品（たとえば、コラージュ、フォトブック、アニメーション、ストーリー、ビデオループなど、モーションベースのアーティファクト）を生成する画像管理機能などの画像管理機能を提供してもよい。いくつかの実施態様では、画像ベースの作品を生成するために、画像管理アプリケーション１５６は、画像または動画に対応付けられた１つ以上のラベルを利用してもよい。

いくつかの実施態様では、画像管理アプリケーション１５６は、画像にある１つ以上の特徴を検出するためのオブジェクト認識技術を利用することによって画像または動画をプログラムで解析してもよい。いくつかの実施態様では、画像管理アプリケーション１５６は、画像または動画に対応付けられた１つ以上のラベルをデータベース１０６および／またはクライアントデバイス（図示せず）上のローカルデータベースに格納してもよい。

データベース１０６は、画像および／または動画のうちの１つ以上と対応付けられたラベル（たとえば、コンテンツアノテーション）を格納してもよい。たとえば、ラベルは、画像または動画に特定の特徴が現れているかどうかについての指示を含んでもよい。たとえば、当該特定の特徴は、たとえば、人の顔、ある種のオブジェクト（たとえば、誕生日ケーキ、スポーツ用品、木など）、ある種の動き（たとえば、ジャンプ、スキーなど）、ある種の音声（たとえば、人の会話、笑い声、音楽、自然の音）などであってもよい。また、ラベルのうちの１つ以上が特定のタイムスタンプを含んでもよい。たとえば、ある種の動きに対応付けられたラベルについてのタイムスタンプは、画像または動画に含まれる動きの始まりと終わりにそれぞれ対応する開始タイムスタンプおよび終了タイムスタンプを含んでもよい。いくつかの実施態様では、たとえば、ビーチ傍でのサンセット、スキーをしている人、バースデーシーン、ウエディング、卒業など、ラベルは、画像または動画に写るある種のシーンを示してもよい。

クライアントデバイス１２０、１２２、１２４、ならびに／または１２６上のユーザインターフェースによって、画像、動画、データ、およびその他のコンテンツ、および通信、プライバシー設定、通知、およびその他のデータを含む、ユーザコンテンツならびにその他のコンテンツの表示を可能にすることができる。このようなユーザインターフェースを、クライアントデバイス上のソフトウェア、サーバ装置上のソフトウェア、ならびに／またはサーバ装置１０４上で実行されているクライアントソフトウェアとサーバソフトウェアとの組合せ、たとえば、サーバシステム１０２と通信中のアプリケーションソフトウェアもしくはクライアントソフトウェアを用いて表示することができる。このユーザインターフェースを、クライアントデバイスまたはサーバ装置の表示装置、たとえば、タッチスクリーンもしくはその他のディスプレイ画面、プロジェクタなどで表示することができる。いくつかの実施態様では、サーバシステム上で動作するアプリケーションプログラムは、クライアントデバイスと通信を行って当該クライアントデバイスにおけるユーザ入力を受信し、クライアントデバイスにおける画像データ、音声データなどのデータを出力することができる。

いくつかの実施態様では、サーバシステム１０２および／または１つ以上のクライアントデバイス１２０～１２６のうちのいずれも、通信アプリケーションプログラムを提供し得る。この通信プログラムによって、システム（たとえば、クライアントデバイスまたはサーバシステム）は、その他のデバイスとの通信についてのオプションを提供できるようになるであろう。通信プログラムは、サーバシステムまたはクライアントデバイスに対応付けられた表示装置上に表示される１つ以上の関連するユーザインターフェースを提供し得る。ユーザインターフェースは、通信モード、通信するユーザまたはデバイスなどを選択できる様々なオプションをユーザに提供してもよい。いくつかの例では、通信プログラムは、たとえば同報通信エリアにコンテンツの投稿を送信もしくは同報通信できるオプションを提供し、および／またはコンテンツの投稿がデバイスによって受信されたことを示す通知、たとえば、投稿用の規定の同報通信エリアにデバイスがあることを示す通知を出力できる。通信プログラムは、送信したコンテンツの投稿および受信したコンテンツの投稿を、たとえば様々な形式で表示または出力し得る。コンテンツの投稿は、たとえば、他のユーザと共有している画像を含み得る。

本明細書において説明する特徴のその他の実施態様は、任意の種類のシステムおよび／またはサービスを利用することができる。たとえば、ソーシャルネットワーキングサービスの代わりまたはソーシャルネットワーキングサービスに加えて、その他のネットワーク接続された（たとえば、インターネットに接続された）サービスを利用できる。いずれの種類の電子機器も、本明細書において説明する特徴を利用することができる。いくつかの実施態様は、本明細書において説明する１つ以上の特徴を、コンピュータネットワークから切断されたもしくはコンピュータネットワークに断続的に接続された１つ以上のクライアント装置またはサーバ装置上で提供し得る。いくつかの例では、表示装置を備えるまたは表示装置が接続されたクライアントデバイスは、クライアントデバイスにローカルな記憶装置上に格納された、たとえば、通信ネットワーク上で以前に受信したデータ（たとえば、コンテンツ）を表示し得る。

図２は、いくつかの実施態様に係る、例示的な方法２００を示すフロー図である。いくつかの実施態様では、たとえば、図１に示すサーバシステム１０２上で方法２００を実装することができる。いくつかの実施態様では、図１に示す１つ以上のクライアントデバイス１２０、１２２、１２４、もしくは１２６、１つ以上のサーバ装置、ならびに／またはサーバ装置（複数可）およびクライアントデバイス（複数可）の両方の上で方法２００の一部またはすべてを実装することができる。記載の例では、実装システムは、１つ以上のデジタルプロセッサまたは処理回路（「プロセッサ」）と、１つ以上の記憶装置（たとえば、データベース１０６またはその他のストレージ）とを備える。いくつかの実施態様では、１つ以上のサーバおよび／または１つ以上のクライアントの異なる構成要素が、方法２００の異なるブロックまたはその他の部分を実行することができる。いくつかの例では、第１デバイスが方法２００のブロックを実行すると記載されている。いくつかの実施態様は、結果またはデータを第１デバイスに送信することができる１つ以上のその他のデバイス（たとえば、その他のクライアントデバイスまたはサーバ装置）によって実行される方法２００の１つ以上のブロックを有し得る。

いくつかの実施態様では、方法２００または当該方法の一部は、システムによって自動的に開始させることができる。いくつかの実施態様では、実装システムは、第１デバイスである。たとえば、方法（またはその一部）を、定期的に実行したり、たとえば、ユーザがアプリケーション（たとえば、カメラアプリケーション１５２、画像管理アプリケーション１５６など）を使用して動画撮影を開始した、システムに新たにアップロードされたもしくはシステムがアクセス可能な１つ以上の動画を受信した、方法２００の最後の実行から所定時間が経過した、および／もしく方法が読み込む設定において指定可能な１つ以上のその他の条件が発生したなど、１つ以上の特定のイベントまたは条件に基づいて実行したりすることができる。いくつかの実施態様では、このような条件は、格納されたユーザのカスタム基本設定においてユーザによって指定され得る。

様々な実施態様では、クライアントデバイス１２０は、スタンドアロンカメラ、カメラを備える別のデバイス（たとえば、スマートフォン、タブレット端末、コンピュータ、スマートウォッチなどのウェアラブルデバイス、ヘッドセットなど）、または別のデバイスが撮影した画像もしくは動画を受信できるその他のクライアントデバイスであり得る。いくつかの実施態様では、クライアントデバイス１２０は、撮影専用のデバイス、たとえば、画面を備えないカメラであってもよい。いくつかの実施態様では、クライアントデバイス１２０は、表示専用デバイス、たとえば、画像もしくは動画を表示できる画面を備えるが、カメラ機能、または画像もしくは動画を撮影するためのその他の機能を持たないデバイスであってもよい。いくつかの実施態様では、クライアントデバイス１２０は、撮影機能と表示機能との両方を備えてもよい。

いくつかの実施態様では、クライアントデバイス１２０は、画像または動画を撮影するための１つのカメラを備えてもよい。いくつかの実施態様では、クライアントデバイス１２０は、複数のカメラ（または、レンズ）を備えてもよい。たとえば、スマートフォンまたはその他のデバイスは、１つ以上の正面カメラ（デバイスの画面と同じ側にある）および／または１つ以上の背面カメラを備えてもよい。いくつかの実施態様では、当該１つ以上の正面カメラまたは背面カメラは、撮影中、連動して動作してもよい、たとえば、第１カメラが深度情報を撮影し、第２カメラが画像または動画の画像画素を撮影してもよい。いくつかの実施態様では、たとえば、異なるズームレベルを用いた異なる種類の画像撮影または動画撮影に、異なるカメラ（たとえば、望遠レンズ、広角レンズなど）を用いてもよい。いくつかの実施態様では、クライアントデバイス１２０は、３６０度画像または３６０度動画を撮影するように構成されてもよい。いくつかの実施態様では、カメラまたはレンズは、１つのイメージセンサ（たとえば、ＣＣＤまたはＣＭＯＳセンサ）、または複数のセンサを用いて画像を撮影してもよい。いくつかの実施態様では、画像撮影時、たとえば深度センサなど、その他のセンサを１つ以上のカメラと合わせて使用してもよい。

いくつかの実施態様では、クライアントデバイス１２０は、カメラ（または、レンズ）のうちの１つ以上のカメラのイメージセンサにおいて撮影されたＲＡＷ画像データと、その他のセンサ（たとえば、加速度計、ジャイロスコープ、位置センサ、深度センサなど）から取得したその他のデータとを合成して１枚の画像または１本の動画を形成してもよい。たとえば、複数の画像フレームを撮影するモード（たとえば、複数のフレームを素早く連続撮影して動画像とするバーストモードまたはモーションモード、動画を撮影する動画モード、異なる露出の複数の画像を１枚の複合画像に合成するハイダイナミックレンジモードなど）でクライアントデバイス１２０が操作された場合、センサから取得したデータを利用して、撮影された画像または動画の手ぶれ補正を行ってもよい。たとえば、複数の撮影されたフレームを、加速度計データまたはジャイロスコープデータを利用して位置合わせすることによって、撮影中のユーザの手の震えによってカメラが動いてしまうのを補償してもよい。いくつかの実施態様では、撮影された画像または動画を切り抜いて、手ぶれ補正された画像または動画、たとえば、背景の動きが抑えられた画像または動画を作成してもよい。

クライアントデバイス１２０によって、ユーザは、たとえば、１つのフレームを撮影するための静止画像（またはフォト）モード、複数のフレームを撮影するためのバーストモードまたは動画像モード、複数のフレームを含んだ動画を撮影するための動画モードなど、異なるモードで画像を撮影することが可能になる。いくつかの実施態様では、カメラが複数のフレームを構成するときである撮影時、撮影が完了した後、またはそれ以降の時間（たとえば、クライアントデバイス１２０がユーザによって活発に使用されておらず、たとえば、バッテリによってまたは外部電源に連結されていることによって十分な充電があるとき）に方法２００を実行してもよい。

クライアントデバイス１２０によって、ユーザは、たとえば、クライアントデバイス１２０によって撮影されたまたはユーザに関連する画像もしくは動画を、異なるユーザインターフェースで見ることが可能になる。たとえば、ユーザが一度に１枚の画像もしくは１本の動画を見ることが可能になるワンナップモードまたはスライドショーモードが提供されてもよい。別の例では、ユーザが、たとえば、画像グリッドとして同時に複数の画像を見ることが可能になるギャラリーモードが提供されてもよい。

いくつかの実施態様では、クライアントデバイス１２０が方法２００を実行してもよい。別の例では、クライアントデバイスまたはサーバ装置が方法２００を実行し得る。いくつかの実施態様では、方法は、サーバ装置によって実装されてもよい。いくつかの実施態様では、たとえば、クライアントデバイスのユーザがカメラを操作して動画を撮影した時、動画をクライアントデバイスにダウンロードした時、動画をサーバにアップロードした時などに、方法２００が自動的に開始されてもよい。

本明細書において指す画像は、１つ以上の画素値（たとえば、色値、輝度値など）を有する画素を有するデジタル画像を含み得る。画像は、静止画像（たとえば、スチール写真、１つのフレームを有する画像など）、または動画像（たとえば、アニメーション、アニメーションＧＩＦ、画像の一部が動きを含み、他の部分が静止しているシネマグラフなど、複数のフレームを含む画像）であり得る。本明細書において指す動画は、音声の有無にかかわらず、複数のフレームを含む。いくつかの実施態様では、動画撮影時、１つ以上のカメラ設定、たとえば、ズームレベル、絞りなどを修正してもよい。いくつかの実施態様では、動画を撮影するクライアントデバイスを、動画の撮影中に動かしてもよい。本明細書において指すテキストは、英数字、絵文字、記号、またはその他の文字を含み得る。

ブロック２０２では、方法２００の実装においてユーザデータを利用するためのユーザの同意（たとえば、ユーザの許可）が得られているかどうかを確認する。たとえば、ユーザデータは、クライアントデバイスを用いてユーザが撮影した画像または動画、たとえばクライアントデバイスを用いてユーザが格納またはアクセスした画像または動画、画像メタデータ／動画メタデータ、メッセージングアプリケーションの利用に関するユーザデータ、ユーザの好み、ユーザの生体情報、ユーザ特性（たとえば、身元、名前、年齢、性別、職業など）、ユーザのソーシャルネットワークおよび連絡先についての情報、社会的またはその他の種類の行動および活動、ユーザが作成または書き込んだコンテンツ、評価、および意見、ユーザの現在地、過去のユーザデータ、ユーザが生成、受信、および／またはアクセスした画像、ユーザが見たまたは共有した画像などを含み得る。本明細書において説明する方法の１つ以上のブロックは、このようなユーザデータをいくつかの実施態様において使用してもよい。

方法２００においてユーザデータが使用される可能性のある関連ユーザからユーザ同意が得られている場合、ブロック２０４において、本明細書における方法のブロックにおいて上記のようなユーザデータが利用できる状態でこれらのブロックを実施できると判断し、方法は、ブロック２１２に続く。ユーザの同意が得られていない場合、ブロック２０６において、ユーザデータを利用せずにブロックを実施すると判断し、方法は、ブロック２１２に続く。いくつかの実施態様では、ユーザの同意が得られていない場合、ユーザデータを利用せず、合成データならびに／または一般的もしくは一般に受け入れられているデータおよび一般に使用できるデータを利用してブロックを実施する。いくつかの実施態様では、ユーザの同意が得られていない場合、方法２００を実行しない。たとえば、１つ以上の動画へのアクセス許可をユーザが拒否した場合、方法２００は実行されない。または、ブロック２０６を実行した後に停止される。

ブロック２１０では、動画を取得する。たとえば、この動画は、クライアントデバイス１２０～１２６のうちのいずれかを用いてユーザが撮影した動画であってもよい。別の例では、動画は、たとえば、動画共有ウェブサイト、ソーシャルネットワーク、オンラインの動画ライブラリ、またはその他のオンラインリソースからユーザによってダウンロードされ、クライアントデバイスまたはサーバ装置上に格納されてもよい。さらに別の例では、動画は、たとえば、インスタントメッセージングアプリケーション、チャットアプリケーション、ＲＣＳ（ＲｉｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＳｅｒｖｉｃｅｓ）アプリケーションなど、メッセージングアプリケーションを介してユーザによってダウンロードされてもよい。

いくつかの実施態様では、動画は、複数のフレームおよび対応する音声から構成されてもよい。動画の各フレームは、複数の画素から構成された静止画像であってもよい。いくつかの実施態様では、動画は、音声を含まなくてもよい。動画は、フレームレート、たとえば、動画が撮影された時のフレームレートを有してもよい。たとえば、フレームレートは、２４フレーム／秒（ｆｐｓ）、２５ｆｐｓ、３０ｆｐｓ、５０ｆｐｓ、６０ｆｐｓ、７２ｆｐｓ、１００ｆｐｓなどであってもよい。動画のフレームレートは、動画１秒につき使用可能な画像フレームの数を示してもよい。いくつかの実施態様では、動画の複数のフレームのうち、１つ以上のフレームは、各々、タイムスタンプに対応付けられてもよい。

いくつかの実施態様では、動画は、ストリーミング動画または特定のフォーマットの動画ファイルであってもよい。いくつかの実施態様では、複数の動画フレームが動画の音声とは別個に格納されてもよい。これらの実施態様では、動画内に同期情報が提供されていてもよい。同期情報は、動画の再生中に音声を複数の動画フレームと同期させるために利用可能であってもよい。いくつかの実施態様では、音声を圧縮フォーマットで格納してもよい。ブロック２１０の後にブロック２１２が続いてもよい。

ブロック２１２では、サンプリングを実行して動画の複数のフレームからなるサブセットを選択する。いくつかの実施態様では、このサンプリングは、目標フレームレート、たとえば、５ｆｐｓ、６ｆｐｓ、１０ｆｐｓ、２０ｆｐｓなどに基づいて行われてもよい。いくつかの実施態様では、たとえば、２５ｆｐｓ動画の場合は２５個のフレームなど、特定数のフレームに対応し得る動画１秒ごとに、動画に対するサンプリングが繰り返し行われてもよく、フレームからなる対応するサブセットがサブセット内で選択されてもよい。いくつかの実施態様では、サンプリングは、ランダムサンプリングを含んでもよく、たとえば、動画１秒につき５つのフレームをランダムに選択して、目標フレームレートで複数のフレームからなるサブセットを取得してもよい。いくつかの実施態様では、サンプリングは、ｎ枚おきにフレームを選択してフレームのサブセットを取得するステップを含んでもよい。たとえば、２５ｆｐｓ動画の５枚おきにフレームを選択して５ｆｐｓの目標フレームレートを得てもよい。それぞれ異なる実施態様では、その他のサンプリング戦略が用いられてもよい。

いくつかの実施態様では、目標フレームレートは、動画のフレームレートよりも少ない。動画をサンプリングすることによって、方法２００の後続ステップにおいてフレームのサブセットのみを解析すればよいため、動画全体を処理する場合よりも方法の処理コストを抑えることが可能になる。いくつかの実施態様では、たとえば、動画のフレームレートが低い場合（たとえば、５ｆｐｓ、６ｆｐｓ）、目標フレームレートは、動画のフレームレートと等しくてもよい。ブロック２１２の後にブロック２１４が続いてもよい。

ブロック２１４では、ブロック２１２で選択された複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出してもよい。音声スペクトログラムは、動画の音声から抽出されてもよい。いくつかの実施態様では、音声スペクトログラムは、対応するフレーム、たとえば、サブセットにある単に１つのフレームの時間的範囲以上の音声に基づく。たとえば、特定のフレームの音声スペクトログラムは、当該特定のフレームの０．５秒前に対応する動画フレームに対応する音声を含み得る。別の例では、特定のフレームの音声スペクトログラムは、当該特定のフレームの後の動画に続く０．５秒に対応する動画フレームに対応する音声を含み得る。いくつかの実施態様では、特定のフレームの音声スペクトログラムは、たとえば、０．５秒、１秒など、先行する動画フレームおよび後続の動画フレームの両方の特定の長さの音声に基づいてもよい。それぞれ異なる実施態様では、音声スペクトログラムに用いられる音声の特定の長さは、先行するフレームに対応する音声と後続するフレームに対応する音声とで同じであってもよく（たとえば、前後０．５秒）、異なってもよい（たとえば、前は１秒、後ろは０．５秒）。いくつかの実施態様では、音声スペクトログラムは、音声の周波数領域表現であってもよい。いくつかの実施態様では、音声スペクトログラムは、メルスペクトログラムであってもよい。ブロック２１４の後にブロック２１６が続いてもよい。

ブロック２１６では、複数のフレームからなるサブセットの解像度を下げてもよい。たとえば、動画が高精細（たとえば、７２０ｐ、１０８０ｐ、２Ｋ、４Ｋ、８Ｋなど）動画であった場合、サブセットの各フレームに対してダウンサンプリングを行って各フレームの解像度を下げてもよい。いくつかの実施態様では、ダウンサンプリングは、フレームの画素のサブセットを選択するステップを含んでもよい。いくつかの実施態様では、解像度が下げられた動画の解像度は、１２８×１２８画素であってもよい。いくつかの実施態様では、縦方向（フレームの高さ）の画素数は、横方向（フレームの幅）の画素数とは異なってもよい。たとえば、方法２００を実装するデバイスの使用可能な計算能力に基づいて、解像度が下げられたフレームにある画素の数を選択して性能を最適化させてもよい。いくつかの実施態様では、ダウンサンプリングは、１つ以上のフレームの補間を含んでもよい。いくつかの実施態様では、バイリニア補間法を用いて解像度を下げる。いくつかの実施態様では、ダウンサンプリングは、コンテンツに応じたダウンサンプリングを含んでもよい。たとえば、画像フレームのぼやけた領域を、鮮明な領域またはエッジを含んだ領域よりも積極的にダウンサンプリングしてもよい。いくつかの実施態様では、動画フレームを切り抜いてもよい。たとえば、動画フレームの解像度を１４０×１４０画素に下げた後、フレームを切り抜いて１２８×１２８画素にサイズを変更してもよい。いくつかの実施態様では、切り抜きを行って、目標解像度のランダムなパッチ、たとえば、ランダムな１２８×１２８画素を選択してもよい。ランダムな切り抜きによって、元の動画フレームの異なる部分をフレームのサブセットに含めることができるようになる。これにより、動画におけるローカルなオクルージョン、被写体の速い動きなどに対するロバスト性を改善することができる。フレームの解像度を下げることによって、方法２００の後続ステップの計算コストを抑えることができる。いくつかの実施態様では、複数のフレームからなるサブセットの解像度を下げた後に１つ以上のその他の作業が行われてもよい。たとえば、画像の変形、たとえば、画像フレームの色空間の変更が行われてもよい。たとえば、画像の色空間をＲＧＢからｓＲＧＢに変更してもよい。ブロック２１６の後にブロック２１８が続いてもよい。

ブロック２１８では、複数のフレームからなるサブセットをセグメント（スタックとも呼ぶ）に分割してもよい。たとえば、各セグメントまたはスタックは、たとえば、３フレーム、５つのフレーム、１０フレームなど、特定の数のフレームを含んでもよい。セグメントまたはスタックは、連続していてもよい。たとえば、タイムスタンプｔ－１に対応するフレームを含む第１セグメントの後には、タイムスタンプｔに対応するフレームを含む第２セグメントが順次続いてもよい。次に、タイムスタンプｔに対応するフレームを含む第２セグメントの後には、タイムスタンプｔ＋１に対応するフレームを含む第３セグメントが順次続いてもよい。いくつかの実施態様では、セグメントは、重なり合ったセグメントであってもよい。たとえば、特定のセグメントの１つ以上のフレームが１つ以上のその他のセグメントと共通であってもよい。セグメントに含まれるフレームの総数よりも少ない任意の数のフレームが重なり合っていてもよい。たとえば、１つのセグメントは、１つのフレームが前のセグメントに重なっており、１つのフレームが次のセグメントに重なっている３フレームを含んでもよい。スライディングウィンドウ技術を利用してフレームのサブセットをセグメントに分割してもよい、たとえば、ウィンドウが第１セグメントを第１位置に指定した場合、ウィンドウは、第２位置へ向かう方向（順方向または逆方向）に複数のフレーム分移動され、ウィンドウが第２セグメントを第２位置に指定した場合、以下同様である。いくつかの実施態様では、セグメントは、重なり合っていないセグメントであってもよい。ブロック２１８の後にブロック２２０が続いてもよい。

ブロック２２０では、機械学習ベースのゲーティングモデル（ゲーティングモデルとも呼ぶ）をセグメントに適用してもよい。機械学習ベースのゲーティングモデルは、たとえば、畳み込みニューラルネットワーク、再帰型ニューラルネットワークなど、１つ以上のニューラルネットワーク、および／または、たとえば、ヒューリスティクスを基にしたモデル、マルコフ連鎖手法ベースのモデルなど、その他の種類のモデルを含んでもよい。ゲーティングモデルは、動画をさらに解析して１つ以上の動画アノテーションを付加するかどうかについての指示を生成するように訓練されてもよい。たとえば、いくつかの実施態様では、ゲーティングモデルは、セグメントのフレームを入力として受信し、この指示を出力として生成してもよい。別の例では、いくつかの実施態様では、ゲーティングモデルは、セグメントのフレームおよび対応する音声スペクトログラムを入力として受信し、この指示を出力として生成してもよい。

いくつかの実施態様では、ゲーティングモデルは、複数の機械学習モデルを含んでもよい。たとえば、ゲーティングモデルは、ゲーティングモデルに提供された入力動画から取得した複数の動画フレームからなるサブセットに基づいて当該入力動画に特定の特徴が存在するかどうかを判断するように訓練された第１の畳み込みニューラルネットワークを含む第１モデル（モデルＡとも呼ぶ）を含んでもよい。たとえば、いくつかの実施態様では、当該特定の特徴は、人の顔、ある種類のオブジェクト、またはある種類の動きを含んでもよい。別の例では、第１モデルは、ゲーティングモデルに提供された入力動画から取得した複数の動画フレームからなるサブセットに対応する音声スペクトログラムに基づいて当該入力動画に特定の特徴が存在するかどうかを判断するように訓練された第２の畳み込みニューラルネットワークをさらに含んでもよい。たとえば、いくつかの実施態様では、当該特定の特徴は、ある種類の音声を含んでもよい。たとえば、ある種類の音声として、人の会話、音楽などを含んでもよい。

たとえば、人の顔は、知っている顔、たとえば、入力動画として撮影または取得したユーザの画像ライブラリにある画像および／または動画に以前写っていたことのある人の顔であってもよい。また、人の顔は、俳優、テレビ司会者、政治家、著名人、スポーツ選手など、有名人に相当してもよい。別の例では、ある種類のオブジェクトとは、ケーキ（たとえば、誕生日ケーキ）、スイミングプール、木、花、ラケットまたはその他のスポーツ用品など、任意のオブジェクトであってもよい。さらに別の例では、ある種類の動きとは、ジャンプする、ランニングする、泳ぐ、ダンスするなどであってもよい。いくつかの実施態様では、人の会話は、たとえば、（ユーザの同意が得られている場合）以前にユーザの画像ライブラリにあった動画に基づいて音声シグネチャが知られている人物の音声を含んでもよい。いくつかの実施態様では、人の会話は、俳優、テレビ司会者、政治家、著名人、スポーツ選手など、有名人の会話を含んでもよい。

いくつかの実施態様では、たとえば、第１モデルが第１の畳み込みニューラルネットワークと第２の畳み込みニューラルネットワークとを含む場合、第１モデルは、第１および第２の畳み込みニューラルネットワークの出力を組み合わせて、第１モデルに提供された入力動画に特定の特徴が存在するかどうかを判断するフュージョンネットワークをさらに含んでもよい。いくつかの実施態様では、第１の畳み込みニューラルネットワークは、複数の層を含んでもよく、動画、たとえば、動画フレームを解析するように訓練されてもよい。いくつかの実施態様では、第２の畳み込みニューラルネットワークは、複数の層を含んでもよく、音声、たとえば、動画フレームに対応する音声スペクトログラムを解析するように訓練されてもよい。いくつかの実施態様では、フュージョンネットワークは、第１および第２の畳み込みニューラルネットワークの出力を入力として受信し、入力動画に特定の特徴が存在する可能性を出力として提供するように訓練された複数の層を含んでもよい。

それぞれ異なる実施態様では、第１モデルは、第１の畳み込みニューラルネットワークのみを含んでもよく、第２の畳み込みニューラルネットワークのみを含んでもよく、第１および第２の畳み込みニューラルネットワークの両方を含んでもよく、第１および第２の畳み込みニューラルネットワークの両方およびフュージョンネットワークを含んでもよい。いくつかの実施態様では、第１モデルは、その他の種類のニューラルネットワークまたはその他の種類の機械学習モデルを用いて実装されてもよい。

いくつかの実施態様では、ゲーティングモデルは、特定の特徴が存在する可能性（たとえば、第１モデルによる出力）を入力として受信し、動画を解析するかどうかについての指示を生成する第２モデルを含んでもよい。いくつかの実施態様では、第２モデルは、ヒューリスティクス、再帰型ニューラルネットワーク、またはマルコフ連鎖解析手法のうち、１つ以上を用いて実装されてもよい。

いくつかの実施態様では、１つ以上の追加入力をゲーティングモデルに提供してもよい。たとえば、このような追加入力は、１つ以上の特定の画像特徴、たとえば、俳優、テレビ司会者、政治家、著名人、スポーツ選手など、有名人の顔、ミーム、コマーシャル動画、アニメーションまたは合成動画などを表す埋め込みを含んでもよい。別の例では、このような追加入力は、１つ以上の特定の音声特徴、たとえば、俳優、テレビ司会者、政治家、著名人、スポーツ選手など、有名人の声に対応する音声シグネチャ、コマーシャル音楽、人間以外の音声、人の会話などを表す音埋め込みを含んでもよい。このような追加入力は、動画に写っていたとしてもアノテーションに含まれることのない特徴を示す。たとえば、動画がユーザの個人的な画像ライブラリからの動画であった場合、ユーザは、（たとえば、他のユーザと動画を共有する、人で動画を検索するなどの理由で）個人的に知らない人物を写した動画にはまったく興味を示さない可能性があり、その人物が個人的に知らない人物である場合、人の顔の存在を示すアノテーションは役に立たない。したがって、知っている人物、たとえば、家族によって行われているスポーツ活動を写した動画をラベル付けすることは重要であり、有名スポーツ選手の動画をラベル付けすることは役に立たないであろう。アノテーションに含まれることのない画像特徴を表す追加入力を提供することによって、ゲーティングモデルがこのような特徴の存在を検出し、動画をさらに解析しないという指示を生成することが可能になる。追加入力によって、ゲーティングモデルは、ミーム、コマーシャル動画、アニメーションもしくは合成動画、または有名人を写した動画を検出し、この動画をさらに解析しないという指示を生成できるようになる。

いくつかの実施態様では、セグメントにある画像フレームから導出したデータを追加入力としてゲーティングモデルに提供してもよい。たとえば、このようなデータは、画像フレームのエネルギー、画像フレームの色分布などを含んでもよい。いくつかの実施態様では、セグメントに対応する音声から導出したデータを追加入力としてゲーティングモデルに提供してもよい。たとえば、このようなデータは、音声の中に人の音声を検出したかどうかを含んでもよい。

いくつかの実施態様では、ユーザが許可した場合、動画に対応付けられたメタデータを追加入力としてゲーティングモデルに提供してもよい。メタデータは、動画を撮影した場所および／または時間などユーザが許可した要因；ソーシャルネットワーク、画像共有アプリケーション、メッセージングアプリケーションなどを介して動画が共有されたかどうか；１つ以上の動画フレームに対応付けられた深度情報；加速度計、ジャイロスコープ、光センサ、またはその他のセンサなど、動画を撮影したカメラの１つ以上のセンサのセンサ値；ユーザの身元（ユーザの同意が得られている場合）などを含んでもよい。たとえば、カメラを上に向けた状態で夜に屋外で動画を撮影した場合、このようなメタデータは、動画の撮影時にカメラが空に向けられていたことを示すであろう。そのため、メタデータは、その動画が人の顔などの特徴を含んでいる可能性が低いことを示すであろう。別の例では、特定の特徴が人の顔であり、ゲーティングモデルが１００×１００画素サイズの顔を動画の深度４０ｍの位置に検出した場合、このようなメタデータは、この顔は生きた人の顔ではない可能性があり、むしろ、この顔を表示する広告掲示板またはスクリーンであることを示すであろう。

いくつかの実施態様では、追加入力を第２モデルに提供してもよい。これらの実施態様では、当該追加入力は、特定の特徴が存在すると検出された複数のフレームからなるサブセットに含まれる特定のフレームの一部のＩＤ、複数のフレームからなるサブセットに当該特定の特徴が現れている期間、または早期終了に関するヒューリスティクス、のうちの１つ以上を含んでもよい。たとえば、第２モデルは、サブセットの特定のフレームの一部を利用して、動画の異なるフレーム、たとえば、セグメントまたはスタックにある一続きのフレームの同じ位置またはその近くに特定の特徴を検出するかどうかを判断してもよい。たとえば、特定の特徴が連続フレームにおいて異なる位置に現れるように特定のフレームの一部が異なる場合、このような追加入力は、当該特定の特徴のスプリアス検出を示すであろう。

別の例では、第２モデルは、複数のフレームからなるサブセットに特定の特徴が現れている期間を利用して、当該特定の特徴が一時的であるかどうかを判断する。その結果、検出がスプリアスであると思われると判断してもよい。たとえば、この期間が短い、たとえば、１つのフレーム、２つのフレーム、または少数のフレームの場合、特定の特徴は一時的であるとみなされるため、この検出はスプリアスであるとみなされるであろう。

別の例では、第２モデルは、ゲーティングモデルによる動画解析の早期終了に関するヒューリスティクスを利用してもよい。このような早期終了によって、動画をさらに解析するかどうかについての指示が直ちに出力される。たとえば、ヒューリスティクスは、多数の前の動画に基づいて取得されてもよい。たとえば、ヒューリスティクスは、第１モデルの出力が特定の特徴が存在する可能性（たとえば、閾値、たとえば、８０％、９０％よりも高い）が高いことを示す場合は、これ以上の動画のセグメントがゲーティングモデルによる解析から除外され得ることを示してもよく、この指示は、動画をさらに解析して１つ以上の動画アノテーションを付加するという肯定指示として出力されてもよい。別の例では、ヒューリスティクスは、特定の特徴が存在する可能性が高い（たとえば、閾値を満たす２つ以上の連続したセグメントに対応する可能性値、たとえば、５０％、６０％など）ことを複数の連続したセグメントに対する第１モデルの出力が示す場合、これ以上の動画のセグメントが除外され得ることを示してもよく、この指示は、動画をさらに解析して１つ以上の動画アノテーションを付加するという肯定指示として出力されてもよい。

ブロック２２２では、ゲーティングモデルが出力した指示を評価し、動画を解析して１つ以上の動画アノテーションを付加するかどうかを判断する。動画を解析するという指示であった場合、ブロック２２２の後にブロック２２４が続いてもよい。この例では、もしあれば、シーケンスに含まれる１つ以上の残りのセグメントにゲーティングモデルが適用されることはない。つまり、シーケンスに含まれるセグメントのうちの１つ以上がゲーティングモデルを用いた解析から除外されるよう、複数のフレームからなるサブセットへのゲーティングモデルの適用を終了させる。このように早期終了させることによって、方法２００の計算コストを抑えることができる。動画を解析するという指示でない場合、方法は、ブロック２３０に進む。

ブロック２２４では、複数のフレームおよび対応する音声（使用可能であれば）から構成される動画をプログラムで解析して１つ以上の動画アノテーションをこの動画に付加する。たとえば、動画アノテーションは、１つ以上のラベルを含んでもよい。たとえば、いくつかの実施態様では、ラベルは、動画における顔の存在、動画における特定の種類のオブジェクトの存在、動画における特定の種類の動きまたは活動の存在、または特定の種類の音声の存在を示してもよい。動画をプログラムで解析することは、１つ以上のコストの高い動画解析技術を利用するステップを含んでもよい。たとえば、このような技術は、顔、ある種類のオブジェクト、ある種類の動き、ある種類の音声などを高い正解率で検出するように訓練された１つ以上の機械学習モデルを適用することを含んでもよい。このような技術の計算コストは、ゲーティングモデルよりも高い。また、動画解析技術は、ヒューリスティクスを基にした技術、オブジェクト認識技術などを含んでもよい。いくつかの実施態様では、１つ以上のラベルを、動画の一部として、たとえば、動画メタデータとして格納してもよい。いくつかの実施態様では、たとえば、動画のラベルを格納するデータベースに１つ以上のラベルを動画に対応付けて格納してもよい。

動画を解析して１つ以上のアノテーションを付加する計算コストは、ゲーティングモデルを適用するよりも高いであろう。いくつかの実施態様では、方法２００の総計算コスト（サンプリング、音声スペクトログラムの抽出、解像度の低減、ゲーティングモデルの適用、および指示の取得を含む）は、コストの高い動画解析技術を用いて動画を解析する計算コストよりも低いであろう。いくつかの実施態様では、方法２００の計算コストは、たとえば、動画をさらに解析する計算コストの５分の１、１０分の１、２０分の１、１００分の１など、大幅に低くてもよい。ブロック２２４の後にブロック２１０が続いてもよい。ブロック２１０では、次の動画を取得してもよい。

ブロック２３０では、１つ以上のセグメントがまだシーケンスに含まれているかどうかを判断してもよい。まだセグメントがある場合、ブロック２３０の後にブロック２２０が続いてもよい。ブロック２２０では、次のセグメントにゲーティングモデルを適用する。すべてのセグメントが処理されると、ブロック２３０の後にブロック２１０が続いてもよい。ブロック２２０、２２２、および２３０からなるシーケンスを、たとえば、ブロック２２２の指示が動画をさらに解析してアノテーションを付加するという指示になるまで、またはゲーティングモデルがすべてのセグメントに適用されるまで、１回以上繰り返してもよい。

図２の様々なブロックを参照して方法２００を説明したが、図２のブロックの一部を実行しないで本開示に記載の技術が実行されてもよいことを理解されたい。様々な実施態様では、方法２００のブロックの一部を並列して、または図２に示す順序とは異なる順序で実行してもよい。様々な実施態様では、方法２００のブロックの一部を複数回実行してもよい。

たとえば、いくつかの実施態様では、動画のフレームレートが低い、および／または閾値数のフレームよりも少ない場合、ブロック２１２は実行されず、フレームのサブセットは、動画のすべてのフレーム含むことになる。別の例では、いくつかの実施態様では、音声スペクトログラムが以前に抽出されたことがある場合、ブロック２１４は実行されず、当該以前に抽出された音声スペクトログラムが利用されてもよい。さらに別の例では、いくつかの実施態様では、低解像度バージョンの動画が使用可能である（たとえば、予め計算されて格納されている）場合、ブロック２１６は実行されない。その代わりに、この使用可能な低解像度バージョンの動画が利用される。さらに別の例では、いくつかの実施態様では、ブロック２１８は実行されず、たとえば、動画が短い動画である場合、動画全体にゲーティングモデルを適用してもよい。さらに別の例では、ブロック２１４を、ブロック２１６および／またはブロック２１８と並列して実行してもよい。

いくつかの実施態様では、ゲーティングモデルは、複数のゲーティングモデルを含んでもよい。これらの実施態様では、各ゲーティングモデルは、対応する目標フレームレートを有してもよい。たとえば、第１のゲーティングモデルは、５ｆｐｓという第１の目標フレームレートを有してもよく、第２のゲーティングモデルは、２０ｆｐｓという第２の目標フレームレートを有してもよい。これらの実施態様では、ブロック２１２を複数回実行して、目標フレームレートに基づいて複数のフレームからなる複数の異なるサブセットを取得してもよい。これらの実施態様のうちの１つ以上では、特定の目標フレームレートに対応して、ブロック２１４～２１８を複数回実行する、たとえば、複数のフレームからなるサブセットごとに１回実行してもよい。実施態様では、動画のすべてのフレームに対してブロック２１４および２１６を実行してもよく、ブロック２１２を実行してブロック２１６で取得した解像度を下げたフレームからフレームのサブセットを選択してもよく、ブロック２１８が続く。

いくつかの実施態様では、方法２００の複数のイテレーションが行われてもよく、たとえば、第１の目標フレームレートを有する第１のゲーティングモデルを使用した第１のイテレーション、および第２の目標フレームレートを有する第２のゲーティングモデルを使用した第２のイテレーションが行われてもよい。第１のゲーティングモデルと第２のゲーティングモデルとは、それぞれ異なるゲーティングモデルであってもよく、各々、対応する目標フレームレート用に訓練されている。方法２００の計算コストは、目標フレームレートが低い場合には、目標フレームレートが高い場合よりも低くなるであろう。

たとえば、低い目標フレームレート、たとえば、５ｆｐｓを用いた方法２００のイテレーションを最初に行い、動画を解析しないという指示であった場合、より高い目標フレームレート、たとえば、２０ｆｐｓを用いて方法２００の別のイテレーションを行うことが有利であるだろう。この例では、複数の動画のゲーティングを実行する方法２００の計算コストは、たとえば、より高い目標フレームレートを用いた方法２００を複数の動画に対して実行する場合よりも低くてもよい。

いくつかの実施態様では、複数のイテレーションを並列して実行し、動画を解析するという指示であった場合は進行中のイテレーションを終了してもよい。この例では、複数の動画のゲーティングを実行するのに必要な時間は、複数のイテレーションを順次実行する場合よりも少ないであろう。

いくつかの実施態様では、クライアントデバイス（たとえば、クライアントデバイス１２０、１２２、１２４、または１２６のうちのいずれか）上で方法２００を実行してもよい。たとえば、方法２００は、方法２００を実行するための計算能力、たとえば、計算能力が十分なプロセッサを有するクライアントデバイス、またはＧＰＵ、ＡＳＩＣ、もしくは方法２００を実装するために使用できるニューラルネットワークプロセッサを備えたクライアントデバイス上で実行されてもよい。これらの実施態様は、方法２００を実行するためのサーバ装置上の負荷を減らすことによる技術的利点を提供してもよい。

いくつかの実施態様では、サーバ装置（たとえば、サーバ装置１０４）上で方法２００を実行してもよい。たとえば、動画を撮影するクライアントデバイスが方法２００を実行するための計算能力を有さない場合、またはクライアントデバイスのバッテリが少ない場合、サーバ装置上で方法２００を実行してもよい。これらの実施態様は、サーバ装置を用いてゲーティング技術を実行することによる技術的利点を提供してもよく、これにより、クライアントデバイス上の消費電力が抑えられる。

図２を参照して説明したゲーティング技術の様々な実施態様は、肯定指示に対応付けられる動画のサブセットのみに対する解析を可能にし、その他の動画を解析しないことによって、アノテーションを動画に付加するための総計算コストを抑えるであろう。たとえば、アノテーションが顔ラベルに対応する場合、ゲーティング技術は、動画のサブセットに人の顔が存在する可能性に基づいて取得された、肯定指示に対応付けられた動画のサブセットに対してのみ解析を行うことを示してもよい。

図３は、いくつかの実施態様に係る、例示的なゲーティングモデル３００の動作を示す図である。ゲーティングモデル３００は、第１モデル３２０（モデルＡ）と、第２モデル３３０（モデルＢ）とを含む。いくつかの実施態様では、ゲーティングモデル３００は、特定の目標フレームレート、たとえば、５ｆｐｓ、１０ｆｐｓ、２０ｆｐｓなどに対応付けられてもよい。

第１モデル３２０は、第１の畳み込みニューラルネットワーク（ＣＮＮ）３２２と、第２のＣＮＮ３２４と、フュージョンネットワーク３２６とを含む。第１のＣＮＮ３２２、第２のＣＮＮ３２４、およびフュージョンネットワーク３２６は、各々、ニューラルネットワークノードからなる複数の層を含んでもよい。

入力として、動画フレームの１つ以上のスタック３０２を第１のＣＮＮ３２２に提供する。たとえば、動画フレームのスタックは、解像度が下げられた（ダウンサンプリングされた）動画フレームを含む、サンプリングされた複数の動画フレームからなるサブセットに基づいてもよい。ゲーティングモデルの目標フレームレートに基づいて動画をサンプリングすることによって、このサブセットを取得してもよい。

いくつかの実施態様では、入力として、特定の特徴を表す１つ以上の埋め込み３０４を第１のＣＮＮ３２２に提供してもよい。たとえば、当該１つ以上の埋め込みは、低次元の、１つ以上の特徴または特徴の１つ以上の種類を表す学習済みベクトル表現であってもよい。特定のタスクを実行するように、たとえば、特定の特徴を写しているまたは特定の特徴を写していないとして動画を分類するように訓練されたニューラルネットワークを用いて、１つ以上の埋め込みを学習してもよい。１つ以上の埋め込みは、パラメータ（たとえば、ニューラルネットワークの重み）であってもよい。この特定のタスクについての損失関数を最小化することによって、埋め込みを学習してもよい。たとえば、１つ以上の埋め込み３０４は、俳優、テレビ司会者、政治家、著名人、スポーツ選手など、有名人の顔；ミーム（たとえば、メッセージングもしくはソーシャルネットワークアプリケーションを介して広く出回っている動画、もしくは動画ホスティングウェブサイトを介して視聴されている動画）；コマーシャル動画（たとえば、映画、テレビ、ポッドキャスト、もしくはその他の動画コンテンツ；または、アニメーションもしくは合成動画（たとえば、スクリーンキャプチャ動画、ビデオゲームから取得した動画など）を表してもよい。

第１のＣＮＮは、入力として、動画フレームのスタック３０２および埋め込み３０４を、複数の層のうち、入力層を介して受信してもよい。入力層は、複数の層のうち、第２層に接続されてもよい。いくつかの実施態様では、前の層の出力を入力として受信し、次の層への入力として提供する１つ以上の追加層が第１のＣＮＮ３２２に含まれてもよい。第１のＣＮＮ３２２の最後の層は、出力層であってもよい。

第１のＣＮＮ３２２は、出力として、特定の特徴（たとえば、人の顔、知っている顔、ある種類の動きなど）が動画に存在する第１確率を生成してもよい。第１のＣＮＮの出力は、確率値、（たとえば、動画フレームの特定のスタックに各々が対応する）確率値のセット、または第１のＣＮＮ３２２の出力層が生成するベクトル表現であってもよい。入力として、第１のＣＮＮ３２２の出力をフュージョンネットワーク３２６に提供してもよい。

入力として、音声スペクトログラムの１つ以上のスタック３１２を第２のＣＮＮ３２４に提供してもよい。たとえば、音声スペクトログラムのスタックは、サンプリングされた複数の動画フレームからなるサブセットに基づいて、たとえば、先行する時間幅および／または後続の時間幅に対応するフレームに基づいて音声から抽出されてもよい。

いくつかの実施態様では、入力として、特定の特徴を表す１つ以上の埋め込み３１４を第２のＣＮＮ３２４に提供してもよい。たとえば、当該１つ以上の埋め込みは、低次元の、特徴の１つ以上の種類を表す学習済みベクトル表現であってもよい。特定のタスクを実行するように、たとえば、特定の特徴を写しているまたは特定の特徴を写していないとして音声を分類するように訓練されたニューラルネットワークを用いて、１つ以上の埋め込みを学習してもよい。１つ以上の埋め込みは、パラメータ（たとえば、ニューラルネットワークの重み）であってもよい。特定のタスクについての損失関数を最小化することによって、埋め込みを学習してもよい。たとえば、１つ以上の埋め込み３０４は、俳優、テレビ司会者、政治家、著名人、スポーツ選手など、有名人に対応する周知の音声シグネチャ；オーディオミーム（たとえば、メッセージングもしくはソーシャルネットワークアプリケーションを介して広く出回っているオーディオ、もしくオーディオホスティングウェブサイトを介して視聴されているオーディオ）；コマーシャル音声（たとえば、音楽、ポッドキャスト、もしくはその他の音声コンテンツ）；または、人間以外の音声（たとえば、自然の音、合成して生成された音など）を表してもよい。

第２のＣＮＮ３２４は、入力として、音声スペクトログラムのスタック３１２および埋め込み３１４を、複数の層のうち、入力層を介して受信してもよい。入力層は、複数の層のうち、第２層に接続されてもよい。いくつかの実施態様では、前の層の出力を入力として受信し、次の層への入力として提供する１つ以上の追加層が第２のＣＮＮ３２４に含まれてもよい。第２のＣＮＮ３２４の最後の層は、出力層であってもよい。

第２のＣＮＮ３２４は、出力として、特定の特徴（たとえば、人の会話、特定の種類の音声など）が音声に存在する第１確率を生成してもよい。第２のＣＮＮの出力は、確率値、（たとえば、音声スペクトログラムの特定のスタックに各々が対応する）確率値のセット、または第２のＣＮＮ３２４の出力層が生成するベクトル表現であってもよい。入力として、第２のＣＮＮ３２４の出力をフュージョンネットワーク３２６に提供してもよい。

フュージョンネットワーク３２６は、ニューラルネットワークノードからなる複数の層を含んでもよい。フュージョンネットワーク３２６は、入力として、第１のＣＮＮ３２２および第２のＣＮＮ３２４の出力を、複数の層のうち、入力層を介して受信してもよい。入力層は、複数の層のうち、第２層に接続されてもよい。いくつかの実施態様では、前の層の出力を入力として受信し、次の層への入力として提供する１つ以上の追加層がフュージョンネットワーク３２６に含まれてもよい。フュージョンネットワーク３２６の最後の層は、出力層であってもよい。フュージョンネットワーク３２６は、特定の特徴が動画に存在する可能性（３２８）を、第１のＣＮＮ３２２および第２のＣＮＮ３２４の出力に基づいて生成するように訓練されてもよい。いくつかの実施態様では、フュージョンネットワーク３２６は、２つの層のみ、つまり、入力層と出力層（たとえば、第２の層は、出力層である）のみを含んでもよい。いくつかの実施態様では、フュージョンネットワーク３２６は、３つ以上の層を含んでもよい。入力として、特定の特徴が動画に存在する可能性を第２モデル３３０に提供してもよい。

ゲーティングモデル３００は、さらに、第２モデル３３０（モデルＢ）を含む。いくつかの実施態様では、第２モデル３３０は、ヒューリスティクスを基にしたモデル、再帰型ニューラルネットワーク、またはマルコフ連鎖解析モデルのうち、１つ以上を含んでもよい。それぞれ異なる実施態様では、これらの技術のうち、１つ以上を用いて第２モデル３３０を実装する。２種類以上のモデルが第２モデル３３０に含まれる実施態様では、第２モデルの出力は、当該２種類以上のモデルのそれぞれの出力の重み付き組合せに基づいてもよい。いくつかの実施態様では、その他の適した技術を利用して第２モデル３３０を実装してもよい。

第２モデル３３０は、特定の特徴が動画に存在する可能性に基づいて、動画を解析してアノテーションを付加するかどうかについての指示を生成する。いくつかの実施態様では、第１モデル３２０が動画フレームおよび／または音声スペクトログラムの複数のスタックについてのそれぞれの可能性をシーケンスとして提供する場合、第２モデルは、スタックごとに生成された指示を、順序付けられたシーケンスで格納するように構成される。これらの実施態様では、指示の生成は、さらに、順序付けられたシーケンスで格納された、１つ以上の前のスタックについての指示に基づく。

いくつかの実施態様では、第２モデル３３０は、（たとえば、第１モデルによって判断したたような）特定の特徴が存在する可能性が閾値確率を満たすかどうかを判断してもよい。これらの実施態様では、可能性が閾値を満たさなかった場合、第２モデルは、否定指示、たとえば、動画を解析してアノテーションを付加することをしないという指示を出力してもよい。可能性が閾値を満たす場合、第２モデルは、肯定指示、たとえば、動画を解析してアノテーションを付加するという指示を出力してもよい。たとえば、閾値は、たとえば第２モデルの訓練中に得られた、ヒューリスティックに決定された確率値に設定されてもよい。閾値確率は、特定の特徴ごとに異なってもよい。閾値確率は、訓練データに基づいて決定される、第２モデルの正解率に基づいて決定されてもよい。たとえば、正解率は、真陽性（第２モデルが正確な肯定指示を提供した動画）と偽陽性（第２モデルが不正確な肯定指示を提供した動画）との割合として判断されてもよい。真陽性と偽陽性との割合の選択は、ＲＯＣ（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ）曲線に基づいてもよい。ＲＯＣ曲線は、ゲーティングモデルの特異性と感度とのトレードオフを評価するために用いられる。閾値の選択によって、ゲーティングモデルの実行速度とゲーティングモデルの正解率とのトレードオフを評価することが可能になるであろう。

また、いくつかの実施態様では、第２モデルは、その他のヒューリスティクスを利用してもよい。たとえば、第２モデルは、特定の時間帯内で少なくとも閾値数のフレームにおいて特定の特徴が検出されたかどうかを判断してもよい。たとえば、第２モデルは、たとえば３つのフレームからなるスタックのうち２つ以上のフレーム、５つのフレームからなるスタックのうち３つ以上のフレームなど、複数のフレームからなるスタックのうち少なくとも閾値数のフレームにおいて特定の特徴が検出されたかどうかを判断してもよい。ゲーティングモデルを第１モデルと第２モデルとに分離することによって、たとえば、第１モデルの再訓練に計算コストをかけないで第２モデルを適応させることができるようになる。

いくつかの実施態様では、第２モデルは、一続きのフレームのうち、少なくとも閾値数の連続したフレームにおいて特定の特徴が検出されたかどうかを判断してもよい。たとえば、第２モデルは、５つのフレームからなるスタックに含まれる少なくとも２つの連続したフレーム、７つのフレームからなるスタックに含まれる少なくとも３つの連続したフレームなどにおいて特定の特徴が検出されたかどうかを判断してもよい。

いくつかの実施態様では、第２モデルは、たとえば、閾値確率、閾値数のフレームおよび特定の時間帯、ならびに指示を生成するための閾値数の連続したフレームに基づいた；またはこれらの要因のうちの２つに基づいたヒューリスティクスの組合せ（たとえば、重み付き組合せ）を利用してもよい。

いくつかの実施態様では、たとえば、画像管理アプリケーション１５６ａの一部として、ゲーティングモデル３００を、クライアントデバイス１２０、１２２、１２４、または１２６のうちの１つ以上のクライアントデバイス上で実装してもよい。いくつかの実施態様では、たとえば、画像管理アプリケーション１５６ｂの一部として、ゲーティングモデル３００をサーバ装置１０４上に実装してもよい。いくつかの実施態様では、サーバ装置１０４およびクライアントデバイス１２０、１２２、１２４、または１２６のうちの１つ以上のクライアントデバイス上でゲーティングモデル３００を実装してもよい。

いくつかの実施態様では、ゲーティングモデル３００を、汎用プロセッサ、たとえば、デバイスのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）上で実行可能なソフトウェアとして実装してもよい。いくつかの実施態様では、たとえば、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、機械学習プロセッサなど、専門プロセッサ上で実行可能なソフトウェアとしてゲーティングモデル３００を実装してもよい。いくつかの実施態様では、ゲーティングモデル３００を、専用ハードウェア、たとえば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）として実装してもよい。

図４は、いくつかの実施態様に係る、動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての指示を生成するように機械学習ベースのゲーティングモデルを訓練するための例示的な方法４００を示すフロー図である。それぞれ異なる実施態様では、特定の特徴は、人の顔、ある種類のオブジェクト、ある種類の動き、またはある種類の音声を含む。たとえば、図３を参照して説明したように、方法４００を利用してゲーティングモデル３００を訓練してもよい。

方法４００は、ブロック４０２から開始してもよい。ブロック４０２では、訓練セットを取得する。訓練セットは、複数の訓練動画を含んでもよい。各訓練動画は、複数のフレームから構成されてもよい。各訓練動画は、対応する高解像度動画の、低解像度のサンプリングされたバージョンの動画であってもよい。たとえば、高解像度動画の各フレームは、３６０画素の幅（標準解像度に相当する）、７２０画素または１０８０画素の幅（高精細もしくはＨＤに相当する）、２Ｋ／４Ｋ／８Ｋ画素の幅（２Ｋ、４Ｋ、および８Ｋ解像度にそれぞれ相当する）、またはその他の解像度であってもよい。高解像度動画に対応する訓練動画は、訓練動画の１つのフレームの総画素数が対応する高解像度動画の１つのフレームの総画素数よりも少なくなるように高解像度動画をダウンサンプリングした（解像度を下げた）バージョンの動画であってもよい。訓練セットに含まれる訓練動画は、特定の特徴が存在する訓練動画と、特定の特徴が存在しない訓練動画とをそれぞれ少なくとも１つ含む。ブロック４０２の後にブロック４０４が続いてもよい。

訓練データは、さらに、複数の訓練ラベルを含んでもよい。各訓練ラベルは、複数の訓練動画のうち１つ以上の訓練動画に対応する高解像度動画に（ゲーティングモデルを訓練する）１つ以上の特定の特徴が存在することを示してもよい。たとえば、訓練ラベルを生成する動画解析技術を用いて高解像度動画をプログラムで解析することに基づいて、訓練ラベルを生成してもよい。別の例では、ユーザの手入力に基づいて、訓練ラベルを生成してもよい。

いくつかの実施態様では、複数の訓練動画のうち、１つ以上の訓練動画は、さらに、複数のフレームに対応する音声スペクトログラムを含んでもよい。これらの実施態様では、ゲーティングモデルは、音声スペクトログラムを解析するように訓練された畳み込みニューラルネットワークを含んでもよい。これらの実施態様では、ゲーティングモデルは、第１の畳み込みニューラルネットワークおよび第２の畳み込みニューラルネットワークの出力を入力として受信し、特定の特徴が動画に存在する可能性を生成するフュージョンネットワークをさらに含んでもよい。

ブロック４０４では、訓練セットにある各訓練動画にゲーティングモデルの第１モデルを適用し、訓練動画に特定の特徴が存在する可能性を生成する。ブロック４０４の後にブロック４０６が続いてもよい。

ブロック４０６では、特定の特徴が訓練動画に存在する可能性に基づいてゲーティングモデルの第２モデルを適用し、訓練動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての指示を生成してもよい。いくつかの実施態様では、ゲーティングモデルは、指示を、関連する信頼度（たとえば、５％、１０％、５０％など）を用いて生成してもよい。ブロック４０６の後にブロック４０８が続いてもよい。

ブロック４０８では、ブロック４０６において生成した指示、および訓練動画に対応する高解像度動画に対応付けられた訓練ラベルに基づいて、フィードバックデータを生成する。たとえば、指示が否定指示（動画を解析しない）であって、訓練ラベルが特定の特徴が存在すると示している場合、フィードバックデータは、ゲーティングモデルの出力が誤りであった（否定フィードバック）と示してもよい。別の例では、指示が肯定指示（動画を解析する）であって、訓練ラベルが特定の特徴が存在しないと示している場合、フィードバックデータは、ゲーティングモデルの出力が誤りであった（否定フィードバック）と示してもよい。別の例では、指示が肯定指示（動画を解析する）であって、特定の特徴が存在すると訓練ラベルが示している場合、フィードバックデータは、ゲーティングモデルの出力が正確であった（肯定フィードバック）と示してもよい。別の例では、指示が否定指示（動画を解析しない）であって、訓練ラベルが特定の特徴が存在しないと示している場合、フィードバックデータは、ゲーティングモデルの出力が正解であった（肯定フィードバック）と示してもよい。

上記では、肯定フィードバックまたは否定フィードバックとしてフィードバックデータを説明したが、フィードバックデータは、その他の形態で提供されてもよい。たとえば、ゲーティングモデルにフィードバックを提供する前に、複数の訓練動画から生成したフィードバックデータを集約させてもよい。たとえば、集約は、特定の特徴に対してモデルが生成した指示（および関連する信頼度）の正解率が高く、異なる特徴に対しては正解率が低いという指示を提供するステップを含んでもよい。たとえば、フィードバックデータは、「人の顔」および「笑顔」という特徴に対する指示を生成した場合、ゲーティングモデルの正解率は高く、「誕生日ケーキ」、「笑い声」、または「ジャンプする」という特徴に対する指示を生成した場合、正解率が低いことを示してよい。

ブロック４０８の後にブロック４１０が続いてもよい。ブロック４１０では、訓練入力として、フィードバックデータをゲーティングモデルに提供する。いくつかの実施態様では、ブロック４１０の後にブロック４１２が続いてもよい。

ブロック４１２では、フィードバックデータに基づいてゲーティングモデルを自動的に更新する。いくつかの実施態様では、ゲーティングモデルを更新するステップは、第１モデルの畳み込みニューラルネットワークの１つ以上のノードの重みを自動的に調整するステップを含む。いくつかの実施態様では、ゲーティングモデルを更新するステップは、第１モデルの畳み込みニューラルネットワークの１つ以上の対のノード間の接続性を自動的に調整するステップを含む。

いくつかの実施態様では、各訓練動画の複数のフレームをフレーム（または、セグメント）からなる複数のスタックに分割してもよい。各スタックは、１つ以上のフレームを含んでもよい。いくつかの実施態様では、各スタックは、少なくとも２つのフレームを含んでもよい。複数のスタックは、順序付けられたシーケンスに編成されてもよい。ゲーティングモデルの訓練は、フレームからなる複数のスタックに含まれるフレームからなるスタックごとに順次実行されてもよい。

いくつかの実施態様では、ゲーティングモデルは、１つ以上の畳み込みニューラルネットワーク（ＣＮＮ）を含む第１モデルを含んでもよい。ゲーティングモデルを訓練する前に、ＣＮＮは、複数の層に編成された複数のノードを含んでもよい。各層にあるノードは、前の層にあるノードおよび後続の層にあるノードに接続されてもよい。最初の層にあるノードは、動画フレームまたは音声スペクトログラムを入力として受け付けるように構成されてもよい。各ノードは、任意の種類のニューラルネットワークノード、たとえば、ＬＳＴＭノードであってもよい。

訓練の前に、ノードの各々に初期の重みを割り当てて、ニューラルネットワークの異なる層のノード間の接続を初期化してもよい。訓練は、１つ以上のノードの重み、および／または１つ以上の対のノード間の接続を調整するステップを含んでもよい。

いくつかの実施態様では、訓練セットのサブセットを最初の訓練段階から除外してもよい。このサブセットを最初の訓練段階の後に提供し、予測（動画を解析するかどうかについての指示）の正解率を判断してもよい。正解率が閾値を下回った場合、訓練セットからの別の動画を使用してさらなる訓練を行い、画像のサブセットの動きスコアをモデルが正しく予測できるようになるまで、モデルのパラメータを調整してもよい。当該さらなる訓練（第２段階）を、任意の回数、たとえば、モデルが十分なレベルの正解率を達成するまで行ってもよい。いくつかの実施態様では、訓練済みモデルをさらに修正する、たとえば、（より少ない数のノードまたは層を用いるために）圧縮する、（たとえば、異なる種類のハードウェア上で利用可能にするために）変形させるなどしてもよい。いくつかの実施態様では、異なるバージョンのモデルを提供してもよい。たとえば、クライアントバージョンのモデルを、大きさに最適化させて計算量を抑えるようにしてもよく、サーババージョンのモデルを、正解率に最適化させてもよい。

図４の様々なブロックを参照して方法４００を説明したが、図４のブロックの一部を実行しないで、本開示において説明する技術を実行してもよいことを理解されたい。たとえば、いくつかの実施態様では、ブロック４１２を分けて実行してもよい。たとえば、ゲーティングモデルの更新をオフラインで行ってもよい。いくつかの実施態様では、図４に示すブロックのうち１つ以上を組み合わせてもよい。たとえば、オンライン訓練用にブロック４１０と４１２とを組み合わせてもよい。

さらには、訓練セットを例に訓練を説明したが、ゲーティングモデルを動作中に訓練してもよい。たとえば、（たとえば、動画コラージュ、複数の動画から取得したクリップをフィーチャーしたストーリーなど、動画ベースの作品の制作を開始することなどによって）特定の動画を解析することをユーザが要求した場合、特定の動画についての動画解析がトリガされてもよい。動画に特定の特徴が存在すると動画解析が示す場合、このような指示をフィードバックデータとして提供し、ゲーティングモデルを訓練してもよい。いくつかの実施態様では、ユーザは、アノテーションを手入力で提供してもよい、たとえば、動画の一部を、特定の特徴を有しているとラベル付けしてもよい。ユーザの許可がある場合、いくつかの実施態様は、このようなアノテーションを利用してゲーティングモデルを訓練してもよい。

図５は、例示的な動画、および、ゲーティングモデル、たとえば、推論段階で使用される訓練済みゲーティングモデルの対応する出力を示す図である。特に、例示的な動画の、フレームからなる３つのスタック（５０２、５１２、および５２２）を示している。フレームからなる３つのスタックは、動画の複数のフレームからなるサブセットの一部であり、それぞれ異なる時点ｔ－１、ｔ、およびｔ＋１に対応している。図５に見られるように、動画の異なるフレームは、ブランコに乗っている人（５０６、５１６、５２６）を写している。動画の撮影中、動画フレーム５０２、５１２、および５２２のスタックに見られるように、この人物は後ろから前にブランコを漕いで両足を広げる。この動きは、たとえば、深度情報を判断可能なカメラを用いて動画が撮影された場合、深度画像に格納された深度データによって示されてもよい。また、動画は、背景部分（５０４）を含んでいる。

動いている間、この人物は、「Ｔｈｉｓｉｓｆｕｎ！」というフレーズを発している。このフレーズは、動画の音声部分として格納される。フレーズの第１部分（５０８）は、「Ｔｈｉｓ」という単語を含み、フレームからなる第１のスタック（５０２）に対応する。フレーズの第２部分（５１８）は、「ｉｓ」という単語を含み、フレームからなる第２のスタック（５１２）に対応する。フレーズの第３部分（５２８）は、「ｆｕｎ」という単語を含み、フレームからなる第２のスタック（５２２）に対応する。フレームからなる異なるスタックに対応する音声スペクトログラムを取得する。動画は、時間ｔ－１よりも前、および時間ｔ＋１のすぐ後に、その他のフレームを含んでもよい。これらのフレームは、各々、対応する音声スペクトログラムを有する。

図５に示すように、フレームのスタックおよび対応する音声スペクトログラムを第１モデル５４０（モデルＡ）に提供してもよい。フレームのスタックごとに、第１モデル５４０は、スタックに特定の特徴が存在する可能性の出力予測を生成する。図示した例では、特定の特徴とは、人の顔である。図５に見られるように、第１モデル５４０は、スタック５０２、５１２、および５２２にそれぞれ対応する３つの確率値（０．５、０．５、０．７）を生成する。

入力として、第１モデル５４０が生成した可能性値を第２モデル５４２（モデルＢ）に提供する。第２モデルは、フレームのスタックごとに、動画を解析して特定の特徴、たとえば、「人の顔」というラベルに対応する１つ以上のアノテーションを付加するかどうかについての指示を生成する。たとえば、指示は、スタック５０２および５１２に基づいて「Ｎｏ」であり、スタック５２２に基づいて「Ｙｅｓ」である。たとえば、指示の生成は、ヒューリスティクスに基づいてもよい。第２モデル５４２を訓練することによってヒューリスティクスを取得してもよい。いくつかの例では、ヒューリスティクスは、１つのスタック、および／またはフレームからなる複数のスタック、たとえば、隣接もしくは連続したスタック、もしくは非連続のスタックに基づいてもよい。

図５に示す例では、特定の特徴が存在する可能性＞０．４を有する、フレームからなる３つの連続したスタックが見られる。この例では、第２モデル５４２についての単純なヒューリスティックは、「３つ以上の連続したスタックが可能性＞０．４に対応付けられている場合、Ｙｅｓという指示を生成し、そうでない場合、Ｎｏという指示を生成する」であってもよい。また、たとえば、「フレームからなる任意のスタックが可能性＞０．９に対応付けられている場合、Ｙｅｓを生成する」、「３つの連続したスタックのうち、少なくとも１つのスタックの可能性＜０．５である場合、Ｎｏを生成する」など、その他のヒューリスティクスが利用されてもよい。いくつかの実施態様では、第２モデル５４２は、複数のヒューリスティクスを組合せ（たとえば、重み付き組合せ）として評価し、これに応じて指示を生成してもよい。いくつかの実施態様では、第２モデル５４２は、異なる特定の特徴に対応する異なる指示を生成してもよい。たとえば、図５では、「ジャンプする」という指示は、「Ｎｏ」であってもよく、「ブランコを揺らす」という指示は、「Ｙｅｓ」であってもよい。

図６は、例示的なデバイス６００のブロック図である。デバイス６００は、本明細書において説明する１つ以上の特徴を実現するために使用され得る。一例において、デバイス６００を用いて、クライアントデバイス、たとえば、図１に示すクライアントデバイス（１２０、１２２、１２４、１２６）のうちのいずれかを実装してもよい。あるいは、デバイス６００は、サーバ装置、たとえば、サーバ１０４を実装し得る。いくつかの実施態様では、デバイス６００を用いて、クライアントデバイス、サーバ装置、またはクライアントおよびサーバ装置の両方を実装してもよい。デバイス６００は、上述した任意の適切なコンピュータシステム、サーバ、またはその他の電子機器もしくはハードウェア装置であり得る。

本明細書において説明する１つ以上の方法は、任意の種類のコンピューティングデバイス上で実行できるスタンドアロンプログラム、ウェブブラウザ上で動作するプログラム、モバイルコンピューティングデバイス（たとえば、携帯電話、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス（腕時計、アームバンド、装身具、帽子、仮想現実ゴーグルまたは眼鏡、拡張現実ゴーグルまたは眼鏡、ヘッドマウントディスプレイなど）、ラップトップコンピュータなど）上で動作する携帯アプリケーション（「アプリ」）であり得る。一例において、クライアント／サーバアーキテクチャを用いることができ、たとえば、（クライアントデバイスとしての）モバイルコンピューティングデバイスが、ユーザ入力データをサーバ装置に送信し、出力用（たとえば、表示用）の最終出力データを当該サーバから受信する。別の例では、モバイルコンピューティングデバイス上のモバイルアプリ（および／またはその他のアプリ）内ですべての計算が行われ得る。別の例では、計算を、モバイルコンピューティングデバイスと１つ以上のサーバ装置とに分担させ得る。

いくつかの実施態様では、デバイス６００は、プロセッサ６０２と、メモリ６０４と、入出力（Ｉ／Ｏ）インターフェース６０６と、カメラ６１６とを備える。プロセッサ６０２は、プログラムコードを実行し、デバイス６００の基本動作を制御するための１つ以上のプロセッサおよび／または１つ以上の処理回路であり得る。「プロセッサ」は、データ、信号、またはその他の情報を処理する任意の適切なハードウェアシステム、機構、または構成要素を含む。プロセッサは、（たとえば、シングルコア構成、デュアルコア構成、またはマルチコア構成の）１つ以上のコアを有する汎用ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備えたシステム、（たとえば、マルチプロセッサ構成の）複数の処理部、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、機能を実現するための専用回路、ニューラルネットワークモデルベースの処理を実施するための専門プロセッサ、神経回路、行列計算（たとえば、行列乗算）に最適化されたプロセッサ、またはその他のシステムを含んでもよい。いくつかの実施態様では、プロセッサ６０２は、ニューラルネットワーク処理を実装する１つ以上のコプロセッサを含んでもよい。いくつかの実施態様では、プロセッサ６０２は、データを処理して確率に基づく出力を生成するプロセッサであってもよく、たとえば、プロセッサ６０２が生成する出力は、不正確であってもよく、予想出力から特定の範囲内で正確であってもよい。処理は、特定の地理的位置に限定される必要はなく、または、時間的制限がある必要はない。たとえば、プロセッサは、その機能を「リアルタイム」、「オフライン」、「バッチモード」などで実行してもよい。処理の一部は、異なる（または同じ）処理システムによって、異なるタイミングで異なる場所において実行されてもよい。コンピュータは、メモリと通信する任意のプロセッサであってもよい。

メモリ６０４は、通常、プロセッサ６０２がアクセスできるよう、デバイス６００内に提供される。メモリ６０４は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌＥｒａｓａｂｌｅＲｅａｄ－ｏｎｌｙＭｅｍｏｒｙ）、フラッシュメモリなど、プロセッサによって実行される命令を格納するのに適した任意の適切なプロセッサ読み取り可能な記憶媒体であってもよく、プロセッサ６０２とは別個に位置していてもよく、および／またはプロセッサ６０２と一体化されていてもよい。メモリ６０４は、オペレーティングシステム６０８、機械学習アプリケーション６３０、その他のアプリケーション６１２、およびアプリケーションデータ６１４を含む、プロセッサ６０２によってサーバ装置６００上で操作されるソフトウェアを格納し得る。その他のアプリケーション６１２は、カメラアプリケーション、画像ギャラリーまたは画像ライブラリアプリケーション、データ表示エンジン、ウェブホスティングエンジン、画像表示エンジン、通知エンジン、ソーシャルネットワーキングエンジンなどのアプリケーションを含んでもよい。いくつかの実施態様では、機械学習アプリケーション６３０およびその他のアプリケーション６１２は、各々、プロセッサ６０２が本明細書に記載の機能、たとえば、図２および図４の方法の一部またはすべてを実行することを可能にする命令を含み得る。

その他のアプリケーション６１２は、たとえば、カメラアプリケーション、画像ライブラリアプリケーション、画像管理アプリケーション、画像ギャラリーアプリケーション、メディア表示アプリケーション、通信アプリケーション、ウェブホスティングエンジンまたはアプリケーション、マッピングアプリケーション、メディア共有アプリケーションなどを含み得る。たとえば、任意の種類のコンピューティングデバイス上で動作できるスタンドアロンコンピュータプログラムとして、ウェブページを有するウェブアプリケーションとして、モバイルコンピューティングデバイス上で動作する携帯アプリケーション（「アプリ」）としてなど、本明細書において開示する１つ以上の方法は、いくつかの環境およびプラットフォームにおいて動作できる。

様々な実施態様では、機械学習アプリケーション６３０は、ベイズ分類器、サポートベクターマシン、ニューラルネットワーク、またはその他の学習手法を利用してもよい。いくつかの実施態様では、機械学習アプリケーション６３０は、訓練済みモデル６３４と、推論エンジン６３６と、データ６３２とを含んでもよい。いくつかの実施態様では、訓練済みモデル６３４は、ゲーティングモデルであってもよく、１つ以上のモデルを含んでもよい。

いくつかの実施態様では、データ６３２は、訓練データ、たとえば、訓練済みモデル６３４を生成するために用いられるデータを含んでもよい。たとえば、訓練データは、文字、画像、音声、動画など、任意の種類のデータを含んでもよい。たとえば、訓練データは、複数の訓練動画および対応する複数のラベルから構成される訓練セットを含んでもよい。訓練データは、任意のソース、たとえば、訓練用に明確に記されたデータリポジトリ、機械学習用の訓練データとして用いるための許可が与えられたデータなどから取得されてもよい。１人以上のユーザが機械学習モデル、たとえば、訓練済みモデル６３４を訓練するためにそれぞれのユーザデータの利用を許可している実施態様では、訓練データは、ユーザデータを含んでもよい。ユーザがそれぞれのユーザデータの利用を許可している実施態様では、データ６３２は、画像／動画または画像メタデータ／動画メタデータ（たとえば、動画、他のユーザとの動画共有に関するデータ、動画に対応付けられたラベル、動画コラージュ、ストーリーなど、動画ベースの作品が動画から生成されたかどうかなど）、コミュニケーション（たとえば、電子メール；テキストメッセージ、音声、動画などのチャットデータなど）、文書（たとえば、表計算、テキスト文書、プレゼンテーションなど）など、許可データを含んでもよい。

いくつかの実施態様では、訓練データは、学習対象となるコンテキストにおけるユーザの入力または活動に基づいていないデータ、たとえば、シミュレーション動画またはコンピュータによって生成された動画から生成されたデータなど、訓練目的で生成された合成データを含んでもよい。いくつかの実施態様では、機械学習アプリケーション６３０は、データ６３２を除外する。たとえば、これらの実施態様では、訓練済みモデル６３４は、たとえば、異なるデバイス上で生成されて、機械学習アプリケーション６３０の一部として提供されてもよい。様々な実施態様では、訓練済みモデル６３４は、（たとえば、ニューラルネットワークノードの数および種類、ノード間の接続性、ならびに複数の層にノードを編成することを規定する）モデル構造またはモデル形態と、関連する重みとを含むデータファイルとして提供されてもよい。推論エンジン６３６は、訓練済みモデル６３４用のデータファイルを読み出して、訓練済みモデル６３４において指定されたモデル構造またはモデル形態に基づいたノード接続性、層、および重みを有するニューラルネットワークを実装してもよい。

また、機械学習アプリケーション６３０は、訓練済みモデル６３４を含んでもよい。いくつかの実施態様では、訓練済みモデルは、１つ以上のモデル形態または１つ以上のモデル構造を含んでもよい。たとえば、モデル形態またはモデル構造は、線形ネットワーク、複数の層（たとえば、入力層と出力層との間の「隠れ層」。各層が線形ネットワークである）を実装するディープニューラルネットワーク、畳み込みニューラルネットワーク（たとえば、入力データを複数の部分またはタイルに分割または仕切り、１つ以上のニューラルネットワーク層を用いて各タイルを別々に処理し、各タイルの処理から得られた結果を集約するネットワーク）、ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅニューラルネットワーク（たとえば、１文に含まれる単語、１本の動画に含まれるフレームなど、順次データを入力として受信し、結果シーケンスを出力として生成するネットワーク）など、任意の種類のニューラルネットワークを含み得る。

モデル形態またはモデル構造は、様々なノード間の接続性、およびノードの層への編成を指定してもよい。たとえば、最初の層（たとえば、入力層）にあるノードは、データを入力データ６３２またはアプリケーションデータ６１４として受信してもよい。このようなデータは、たとえば複数のフレームを含む動画の解析に訓練済みモデルが用いられる場合、たとえばノード当たり１つ以上の画素を含み得る。後続の中間層は、モデル形態またはモデル構造で指定された接続性に従って、前の層のノードの出力を入力として受信してもよい。また、これらの層は、隠れ層とも呼ばれる。最後の層（たとえば、出力層）は、機械学習アプリケーションの出力を生成する。たとえば、この出力は、動画をプログラムで解析して１つ以上のアノテーション（たとえば、ラベルのセット）を動画に付加するかどうかについての指示であってもよい。また、いくつかの実施態様では、モデル形態またはモデル構造は、各層におけるノードの数および／または種類を指定する。

それぞれ異なる実施態様では、訓練済みモデル６３４は、１つ以上のモデルを含み得る。モデルのうち、１つ以上のモデルは、モデル構造またはモデル形態に従って複数の層に配置された複数のノードを含んでもよい。いくつかの実施態様では、ノードは、たとえば、１単位の入力を処理して１単位の出力を生成するように構成された、メモリを有さない計算ノードであってもよい。ノードが行う計算は、たとえば、複数のノード入力の各々を重みで乗算するステップと、重み付き和を取得するステップと、バイアス値または切片値を用いて重み付き和を調整してノード出力を生成するステップとを含んでもよい。また、いくつかの実施態様では、ノードが行う計算は、調整された重み付き和にステップ／活性化関数を適用するステップを含んでもよい。いくつかの実施態様では、ステップ／活性化関数は、非線形関数であってもよい。様々な実施態様では、このような計算は、行列乗算などの演算を含んでもよい。いくつかの実施態様では、たとえば、マルチコアプロセッサに含まれる複数のプロセッサコアを使用したり、ＧＰＵまたは専用の神経回路の個々の処理部を使用したりして、複数のノードによる計算を並列して行ってもよい。いくつかの実施態様では、ノードは、メモリを含んでもよく、たとえば、１つ以上前の入力を格納して、後続の入力を処理する際に利用できてもよい。たとえば、メモリを有するノードは、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）ノードを含んでもよい。ＬＳＴＭノードは、メモリを用いて、ノードがＦＳＭ（ＦｉｎｉｔｅＳｔａｔｅＭａｃｈｉｎｅ）のように動作することを可能にする「状態」を維持してもよい。このようなノードを有するモデルは、たとえば、１文または１段落に含まれる複数の単語、１本の動画に含まれる複数のフレーム、会話またはその他の音声など、順次データを処理する際に役立つであろう。たとえば、ゲーティングモデルにおいて用いられるヒューリスティクスを基にしたモデルは、動画フレームからなる一連のスタックのうち、フレームからなる前のスタックに対応する１つ以上の前に生成された指示を格納してもよい。

いくつかの実施態様では、訓練済みモデル６３４は、個々のノードついて埋め込みまたは重みを含んでもよい。たとえば、モデルは、モデル形態またはモデル構造によって指定されるように複数の層に編成された複数のノードとして初期化されてもよい。初期化時、モデル形態に従って接続されたノードのペア、たとえば、ニューラルネットワークの連続した層に含まれる対のノード間の接続に、重みを適用してもよい。たとえば、それぞれの重みは、ランダムに割り当てられたり、デフォルト値に初期化されたりしてもよい。次に、モデルは、たとえばデータ６３２を用いて訓練されて、結果を生成してもよい。

たとえば、訓練するステップは、教師あり学習手法を適用するステップを含んでもよい。教師あり学習では、訓練データは、複数の入力（たとえば、動画のセット）と、入力ごとに対応する予想出力（たとえば、動画ごとに１つ以上のラベル）とを含み得る。たとえば、同様の入力が与えられた場合にモデルが予想出力を生成する確率を上げるよう、モデルの出力を予想出力と比較することに基づいて重みの値が自動的に調整される。

いくつかの実施態様では、訓練するステップは、教師なし学習手法を適用するステップを含んでもよい。教師なし学習では、入力データのみが与えられ、モデルは、データを区別する、たとえば、入力データを複数の群にクラスタリングするように訓練されてもよい。各群は、なんらかの形で類似する入力データを含んでいる。たとえば、モデルは、動画を解析して１つ以上のアノテーションを付加するかどうかを判断するように訓練されてもよい。

様々な実施態様では、訓練済みモデルは、モデル構造に対応する重みのセットまたは埋め込みのセットを含む。データ６３２が除外されている実施態様では、機械学習アプリケーション６３０は、たとえば、機械学習アプリケーション６３０の開発者、サードパーティなどによる事前の訓練に基づいた訓練済みモデル６３４を含んでもよい。いくつかの実施態様では、訓練済みモデル６３４は、たとえば重みを提供するサーバからダウンロードされた、固定の重みセットを含んでもよい。

また、機械学習アプリケーション６３０は、推論エンジン６３６を含む。推論エンジン６３６は、アプリケーションデータ６１４（たとえば、動画）など、データに訓練済みモデル６３４を適用して、推論を提供するように構成される。いくつかの実施態様では、推論エンジン６３６は、プロセッサ６０２によって実行されるソフトウェアコードを含んでもよい。いくつかの実施態様では、推論エンジン６３６は、プロセッサ６０２が訓練済みモデルを適用することを可能にする（たとえば、プログラマブルプロセッサ、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの）回路構成を指定してもよい。いくつかの実施態様では、推論エンジン６３６は、ソフトウェア命令、ハードウェア命令、または組合せを含んでもよい。いくつかの実施態様では、推論エンジン６３６は、オペレーティングシステム６０８および／またはその他のアプリケーション６１２が推論エンジン６３６を呼び出して、たとえば、訓練済みモデル６３４をアプリケーションデータ６１４に適用して推論を生成するために用いることができるＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を提供してもよい。

たとえば、ソースの解像度が高く、かつ特定の時間幅を有する動画を解析すること）は、計算コストがかかるであろう。アノテーションが特定の特徴に対応する場合、動画全体を解析して特定の特徴のうちの１つ以上が動画（または、動画の１つ以上のセグメント）に存在するかどうかを判断する必要があり、対応するアノテーションが動画に付加される場合がある。この作業は、たとえば、特定の特徴が存在しない場合、無駄になってしまうであろう。さらには、この作業は実現可能でない場合があり、または、特定のデバイス、たとえば、処理能力に限りがあるデバイス、電力容量に限りがあるデバイス（たとえば、電池式デバイス）上では特にコストがかかるであろう。さらには、ユーザが特定の特徴を含まない複数の動画を含んだ動画ライブラリを所有していた場合、このようなコストがかかる作業が複数の動画の各々に対して行われてしまうであろう。さらには、動画の一部のみが特定の特徴を写していた場合、動画全体を解析することによって、計算リソースが無駄になってしまうであろう。

機械学習アプリケーション６３０によって、この状況下においていくつかの技術的利点がもたらされるであろう。たとえば、動画に適用されるゲーティングモデルが訓練済みモデル６３４である場合、このモデルは、動画を解析して１つ以上の動画アノテーションを付加するかどうかについての指示を提供するであろう。元の高解像度の動画を解析するよりも計算コストが少ないと思われる、低解像度のサンプリングされた動画のフレームからなるサブセットにゲーティングモデルを適用してもよい。その後、ゲーティングモデルが肯定指示を生成した動画のみを解析すればよいので、計算コストおよび計算能力の無駄をなくすことができる。また、ゲーティングモデルの利用によって、計算能力が低いまたは電力に限りがあるデバイス上で動画アノテーションを実行することが可能になる。さらには、いくつかの実施態様では、ゲーティングモデルからの指示は、解析する動画の１つ以上のセグメントに特定の特徴が存在する可能性に基づく当該１つ以上のセグメントのＩＤを含んでもよい。これらの実施態様では、動画のその他のセグメントが、動画アノテーションを付加するための解析から除外され得るので、計算コストの無駄をなくすことができる。

いくつかの実施態様では、第１モデルと第２モデルとを含む２段階モデルとしてゲーティングモデルを実装した場合、第１モデルと第２モデルとを互いに独立して訓練してもよい。たとえば、第１モデルを、特定の特徴が動画に存在する可能性を検出するように訓練してもよい。この訓練は、たとえば、訓練動画に対応付けられた訓練ラベルに基づいて取得されたフィードバックデータを提供することによって、第２モデルの訓練とは独立して行うことができる。たとえば、第２モデルを、動画を解析してアノテーションを付加するかどうかについての指示を生成するように訓練してもよい。この訓練は、たとえば、異なる可能性値を入力として提供し、訓練ラベルをフィードバックデータとして提供することによって、第１モデルの訓練とは独立して行うことができる。よって、ゲーティングモデル全体の性能（たとえば、正解率、計算コストなど）の向上に伴い、各モデルを他方のモデルとは別個に評価および訓練できるようになる。

いくつかの実施態様では、機械学習アプリケーション６３０をオフラインで実装してもよい。これらの実施態様では、訓練済みモデル６３４を第１段階で生成し、機械学習アプリケーション６３０の一部として提供してもよい。いくつかの実施態様では、機械学習アプリケーション６３０をオンラインで実装してもよい。たとえば、このような実施態様では、機械学習アプリケーション６３０（たとえば、オペレーティングシステム６０８、その他のアプリケーション６１２のうちの１つ以上のアプリケーションなど）を呼び出すアプリケーションが、機械学習アプリケーション６３０が生成した推論を利用、たとえば、推論をユーザに提供してもよく、システムログ（たとえば、ユーザによって許可されている場合、推論に基づいてユーザがとる行動；または、さらに処理を行うための入力として利用される場合、当該さらに行う処理の結果）を生成してもよい。システムログは、たとえば、１時間ごと、１ヶ月ごと、四半期ごとなど、定期的に生成されてもよく、ユーザの許可がある場合、訓練済みモデル６３４を更新する、たとえば、訓練済みモデル６３４用の埋め込みを更新するために用いられてもよい。

いくつかの実施態様では、機械学習アプリケーション６３０が実行されるデバイス６００の特定の構成に適応できるように機械学習アプリケーション６３０を実装してもよい。たとえば、機械学習アプリケーション６３０は、使用可能な計算リソース、たとえば、プロセッサ６０２を利用する計算グラフを求めてもよい。たとえば、機械学習アプリケーション６３０が複数のデバイス上の分散アプリケーションとして実装された場合、機械学習アプリケーション６３０は、個々のデバイス上で計算を最適化する方法で行われる計算を求めてもよい。別の例では、機械学習アプリケーション６３０は、プロセッサ６０２が特定の数のＧＰＵコア（たとえば、１０００個）を有するＧＰＵを含んでおり、（たとえば、１０００個の個々のプロセスまたはスレッドとして）それに応じて推論エンジンを実装していると判断してもよい。

いくつかの実施態様では、機械学習アプリケーション６３０は、訓練済みモデルの一式を実装してもよい。たとえば、訓練済みモデル６３４は、同じ入力データに各々が適用可能な複数の訓練済みモデルを含んでもよい。これらの実施態様では、機械学習アプリケーション６３０は、たとえば、使用可能な計算リソース、前の推論を用いた場合の成功率などに基づいて特定の訓練済みモデルを選んでもよい。いくつかの実施態様では、機械学習アプリケーション６３０は、複数の訓練済みモデルが適用されるよう、推論エンジン６３６を実行してもよい。これらの実施態様では、機械学習アプリケーション６３０は、たとえば、各訓練済みモデルを適用することによって得られる出力に得点を付ける投票法を用いて、または１つ以上の特定の出力を選ぶことによって、個々のモデルを適用することから得られる出力を組み合わせてもよい。さらには、これらの実施態様では、機械学習アプリケーションは、個々の訓練済みモデルを適用する時間閾値（たとえば、０．５ｍｓ）を適用して、時間閾値内で使用可能な個々の出力のみを利用してもよい。時間閾値内に受信しなかった出力は、使用しなくてもよく、たとえば破棄してもよい。たとえば、このような手法は、たとえばオペレーティングシステム６０８または１つ以上のアプリケーション６１２によって機械学習アプリケーションを呼び出している間に指定された時間制限が存在する場合に適しているであろう。

たとえば、ゲーティングモデルは、各モデルが異なる目標フレームレートおよび関連する計算コストを有する訓練済みモデルの一式として実装されてもよい。たとえば、ゲーティングモデルは、５ｆｐｓ、１０ｆｐｓ、および２０ｆｐｓというフレームレート用に訓練されたモデルを実装してもよい。ここで、フレームレートが高いモデルは、フレームレートが低いモデルよりも大きな計算コストに対応付けられている。別の例では、ゲーティングモデルは、セグメントまたはスタック、たとえば、３つのフレームを含むスタック、５つのフレームを含むスタック、１０個のフレームを含むスタックなどに含まれる異なる数のフレームを用いて訓練されたモデルを実装してもよい。いくつかの実施態様では、より多くの数のフレームを有するスタックを用いて訓練されたモデルは、少ない数のフレームを有するスタックを用いたモデルよりも大きな計算コストに対応付けられてもよい。計算コストが低いモデルが信頼度の高い指示を生成した場合、一式に含まれているその他のモデルを特定の動画に適用しなくてもよく、または、並列して実行されている場合、終了してもよい。

いくつかの実施態様では、機械学習アプリケーション６３０は、呼び出し中のアプリケーション、たとえば、オペレーティングシステム６０８または１つ以上のアプリケーション６１２によって指定されたフォーマットに基づいて出力を生成してもよい。いくつかの実施態様では、呼び出し中のアプリケーションは、別の機械学習アプリケーションであってもよい。たとえば、このような構成は、呼び出し中の機械学習アプリケーションが機械学習アプリケーション６３０からの出力を用いて訓練される、または、機械学習アプリケーション６３０が呼び出し中の機械学習アプリケーションからの出力を用いて訓練される敵対的生成ネットワークにおいて用いられてもよい。

メモリ６０４にあるソフトウェアを、代わりにその他の適した記憶位置またはコンピュータ読み取り可能な媒体上に格納することができる。これに加えて、メモリ６０４（および／もしくはその他の接続された記憶装置（複数可））は、本明細書において説明した特徴において用いられる１つ以上のメッセージ、１つ以上の分類法、電子百科事典、辞書、類語辞典、ナレッジベース、メッセージデータ、文法、ユーザの好み、ならびに／またはその他の命令およびデータを格納することができる。メモリ６０４およびその他の種類のストレージ（磁気ディスク、光ディスク、磁気テープ、もしくはその他の有形の媒体）は、「ストレージ」もしくは「記憶装置」とみなされ得る。

Ｉ／Ｏインターフェース６０６は、サーバ装置６００をその他のシステムおよびデバイスとインターフェース接続することを可能にする機能を提供できる。インターフェース接続されたデバイスを、デバイス６００の一部として含めることができる。または、インターフェース接続されたデバイスは、別個であり得、デバイス６００と通信を行うことができる。たとえば、ネットワーク通信装置、記憶装置（たとえば、メモリおよび／またはデータベース１０６）、ならびに入出力装置は、Ｉ／Ｏインターフェース６０６を介して通信を行うことができる。いくつかの実施態様では、Ｉ／Ｏインターフェースは、入力装置（キーボード、ポインティングデバイス、タッチスクリーン、マイクロフォン、カメラ、スキャナ、センサなど）および／または出力装置（表示装置、スピーカ装置、プリンタ、モーターなど）など、インターフェース装置に接続することができる。

Ｉ／Ｏインターフェース６０６に接続できるインターフェース接続されたデバイスのいくつかの例として、画像、動画など、コンテンツを表示するために用いることができる１つ以上の表示装置６２０、および／または本明細書において説明した出力アプリケーションのユーザインターフェースなどを挙げることができる。表示装置６２０は、ローカル接続（たとえば、ディスプレイバス）を介して、および／またはネットワーク接続された接続を介してデバイス６００に接続することができ、任意の適切な表示装置であり得る。表示装置６２０は、ＬＣＤ画面、ＬＥＤ画面、もしくはプラズマディスプレイ画面、ＣＲＴ、テレビ、モニタ、タッチスクリーン、３Ｄディスプレイ画面、またはその他の表示装置デバイスなど、任意の適切な表示装置を含み得る。たとえば、表示装置６２０は、モバイル機器上に提供されるフラットディスプレイ画面、ゴーグルまたはヘッドセット装置において備えられる複数のディスプレイ画面、または、コンピュータデバイスのモニタ画面であり得る。

Ｉ／Ｏインターフェース６０６は、その他の入力装置および出力装置にインターフェース接続することができる。いくつかの例として、画像を撮影できる１つ以上のカメラなどが挙げられる。いくつかの実施態様は、（たとえば、撮影画像、音声コマンドなどの一部として）音を記録するためのマイクロフォン、音を出力するためのオーディオスピーカ装置、またはその他の入力装置および出力装置を提供することができる。

カメラ６１６は、複数のフレームを含む動画を撮影できる任意の種類のカメラであってもよい。本明細書において使用するとき、カメラは、任意の撮像装置を含み得る。いくつかの実施態様では、カメラ６１６は、たとえば、正面レンズ対背面レンズ、異なるズームレベル、撮影画像の画像解像度など、異なる能力を有する複数のレンズを含んでもよい。いくつかの実施態様では、デバイス６００は、深度センサ、加速度計、位置センサ（たとえば、ＧＰＳ）、ジャイロスコープなど、１つ以上のセンサを含んでもよい。いくつかの実施態様では、これらの１つ以上のセンサをカメラとともに操作して、カメラを用いて撮影した動画の異なるフレームに対応するセンサ測定値を取得してもよい。

説明を容易にするために、図６は、プロセッサ６０２、メモリ６０４、Ｉ／Ｏインターフェース６０６、カメラ６１６、ならびにソフトウェアブロック６０８、６１２、および６３０の各々について１つのブロックを示す図である。これらのブロックは、１つ以上のプロセッサもしくは処理回路、１つ以上のオペレーティングシステム、１つ以上のメモリ、１つ以上のＩ／Ｏインターフェース、１つ以上のアプリケーション、および／または１つ以上のソフトウェアモジュールを表してもよい。その他の実施態様では、デバイス６００は、図示した構成要素のすべてを有さなくてもよく、および／または、本明細書において示した要素の代わりまたはそれらに加えて、その他の種類の要素を含むその他の要素を有してもよい。いくつかの構成要素について、本明細書のいくつかの実施態様に記載したブロックおよび動作を行うと説明したが、環境１００、デバイス６００、同様のシステムの任意の適切な構成要素もしくは構成要素の組合せ、またはこのようなシステムに対応付けられた任意の適切な１つのプロセッサまたは複数プロセッサが、記載のブロックおよび動作を実行してもよい。

本明細書において説明する方法を、コンピュータ上で実行できるコンピュータプログラム命令またはコードによって実装することができる。たとえば、コードは、１つ以上のデジタルプロセッサ（たとえば、マイクロプロセッサまたはその他の処理回路）によって実装することができ、半導体メモリもしくは固体メモリ、磁気テープ、リムーバブルコンピュータディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、剛性磁気ディスク、光ディスク、固体メモリドライブなどを含む、磁気記憶媒体、光記憶媒体、電磁記憶媒体、もしくは半導体記憶媒体など、非一時的なコンピュータ読み取り可能な媒体（たとえば、記憶媒体）を含むコンピュータプログラムプロダクト上に格納することができる。また、プログラム命令は、たとえば、サーバ（たとえば、分散システムおよび／またはクラウドコンピューティングシステム）から配信されるＳａａＳ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）形式の電気信号として含めることができ、電気信号として提供することができる。あるいは、１つ以上の方法をハードウェア（論理ゲートなど）で実現したり、ハードウェアとソフトウェアとの組合せで実現したりすることができる。例示的なハードウェアとして、プログラマブルプロセッサ（たとえば、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ））、汎用プロセッサ、グラフィックスプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などがあり得る。１つ以上の方法を、システム上で動作するアプリケーションのコンポーネントとしてまたはその一部として実行することができたり、その他のアプリケーションおよびオペレーティングシステムと連動して動作するアプリケーションまたはソフトウェアとして実行したりすることができる。

特定の実施態様の説明について記載したが、これらの特定の実施態様は、例示に過ぎず、限定ではない。例示した概念をその他の例および実施態様に適用してもよい。

本明細書に記載の特定の実施態様がユーザについての個人情報（たとえば、ユーザデータ、ユーザのソーシャルネットワークについての情報、ユーザの位置およびユーザが当該位置にいるときの時刻、ユーザの生体情報、ユーザの活動およびデモグラフィック情報）を収集または使用し得る状況では、ユーザには、情報を収集してもよいかどうか、個人情報を保存してもよいかどうか、個人情報を利用してもよいかどうか、ならびにユーザについての情報がどのように収集、格納、および利用されるかについて規制できる１つ以上の機会が与えられる。つまり、本明細書に記載のシステムならびに方法は、具体的には、関連のあるユーザからユーザ個人情報を収集、格納、および／または利用してもよいという明確な許可を受け取った際にそのようにする。

たとえば、プログラムもしくは特徴がユーザについてのユーザ情報または当該プログラムもしくは当該特徴に関連性のあるその他のユーザについてのユーザ情報を収集するかどうかについて、その特定のユーザが規制することができる。個人情報が収集される各ユーザには、そのユーザに関連性のある情報収集を規制できるオプション、情報を収集してもよいかどうか、および情報のどの部分を収集するかについての許可または承認が与えられるオプションなど、１つ以上のオプションが提示される。たとえば、ユーザには、１つ以上のこのような規制オプション通信ネットワーク上で与えることができる。これに加えて、個人を特定できる情報が取り除かれるよう、特定のデータを、格納または利用される前に１つ以上の方法で扱ってもよい。一例として、個人を特定できる情報が特定できないようにユーザの身元を扱ってもよい。別の例として、ユーザの特定の位置が特定できないよう、ユーザデバイスの地理的位置をより大きな地域に一般化してもよい。

なお、当業者に分かるように、本開示に記載の機能ブロック、動作、特徴、方法、デバイス、およびシステムを、システム、デバイス、および機能ブロックの異なる組合せに統合したり、分割したりしてもよい。任意の適切なプログラミング言語およびプログラミング技法を用いて特定の実施態様のルーチンを実装してもよい。手続き型またはオブジェクト指向など、異なるプログラミング技法を用いてもよい。このルーチンを１つの処理装置または複数のプロセッサ上で実行してもよい。ステップ、動作、または計算は、特定の順序で提示されているが、この順序は、異なる特定の実施態様において変更されてもよい。いくつかの実施態様では、本明細書において一続きで示した複数のステップまたは複数の動作が、同時に実行されもよい。

Claims

複数のフレームおよび対応する音声から構成される動画を取得するステップと、
前記動画のフレームレート以下の目標フレームレートに基づいてサンプリングを実行し、前記複数のフレームのサブセットを選択するステップと、
前記複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出するステップと、
前記複数のフレームからなるサブセットの解像度を下げるステップと、
前記解像度を下げるステップの後、前記複数のフレームからなるサブセットおよび対応する音声スペクトログラムに機械学習ベースのゲーティングモデルを適用するステップと、
前記ゲーティングモデルの出力として、前記動画を解析して１つ以上の動画アノテーションを付加するかどうかについての指示を取得するステップとを含む、コンピュータにより実行される方法。
さらに、前記ゲーティングモデルを適用するステップの前に、前記動画を複数のセグメントに分割するステップを含み、各セグメントは、複数のフレームを含み、前記ゲーティングモデルを適用するステップは、前記複数のセグメントに対して順番に繰り返し行われ、前記指示は、各イテレーションにおいて生成される、請求項１に記載のコンピュータにより実行される方法。
前記複数のセグメントに含まれる各セグメントは、前記複数のセグメントに含まれる別のセグメントと重なり合う、請求項２に記載のコンピュータにより実行される方法。
特定のイテレーションにおける前記指示が前記動画を解析するという指示であった場合、前記複数のセグメントのうち１つ以上のセグメントが除外されるように前記ゲーティングモデルの適用を終了させる、請求項２または３に記載のコンピュータにより実行される方法。
前記ゲーティングモデルは、前記ゲーティングモデルに提供される入力動画に特定の特徴が存在するかどうかを判断するように訓練される、請求項１～４のいずれかに記載のコンピュータにより実行される方法。
前記特定の特徴は、人の顔、ある種類のオブジェクト、ある種類の動き、またはある種類の音声のうち、少なくとも１つを含む、請求項５に記載のコンピュータにより実行される方法。
前記ゲーティングモデルを適用するステップは、
特定の特徴が存在する可能性を判断する第１モデルを適用するステップと、
入力として前記特定の特徴が存在する可能性を受信し、前記動画を解析するかどうかについての前記指示を生成する第２モデルを適用するステップとを含む、請求項１～６のいずれかに記載のコンピュータにより実行される方法。
前記第１モデルは、
動画を解析するように訓練された複数の層を含む第１の畳み込みニューラルネットワークと、
音声を解析するように訓練された複数の層を含む第２の畳み込みニューラルネットワークと、
前記第１の畳み込みニューラルネットワークの出力および前記第２の畳み込みニューラルネットワークの出力を入力として受信し、前記特定の特徴が前記第２モデルに存在する前記可能性を提供する、複数の層を含むフュージョンネットワークとを含む、請求項７に記載のコンピュータにより実行される方法。
前記第２モデルは、ヒューリスティクス、再帰型ニューラルネットワーク、またはマルコフ連鎖解析手法のうち、１つ以上を用いて実装される、請求項７に記載のコンピュータにより実行される方法。
前記第２モデルに追加入力を提供するステップをさらに含み、前記追加入力は、
前記特定の特徴が存在すると検出された前記複数のフレームからなるサブセットのうち、特定のフレームの一部のＩＤ、
前記複数のフレームからなるサブセットに前記特定の特徴が現れている期間、または、
早期終了に関するヒューリスティクス、のうちの１つ以上を含み、
前記第２モデルは、前記追加入力を利用して前記指示を生成する、請求項７に記載のコンピュータにより実行される方法。
前記指示が前記動画を解析するという指示であった場合、前記動画をプログラムで解析して前記１つ以上の動画アノテーションを付加するステップをさらに含み、前記動画アノテーションは、前記動画における、顔、特定の種類のオブジェクト、特定の種類の動き、または特定の種類の音声、のうちの１つ以上の存在を示す１つ以上のラベルを含む、請求項１～１０のいずれかに記載のコンピュータにより実行される方法。
コンピューティングデバイスであって、
プロセッサと、
命令を格納したメモリとを備え、前記命令は、前記プロセッサによって実行されると、前記プロセッサに動作を実行させ、前記動作は、
複数のフレームおよび対応する音声から構成される動画を取得する動作と、
前記動画のフレームレート以下の目標フレームレートに基づいて、サンプリングを実行し、前記複数のフレームのサブセットを選択する動作と、
前記複数のフレームからなるサブセットに含まれるフレームごとに音声スペクトログラムを抽出する動作と、
前記複数のフレームからなるサブセットの解像度を下げる動作と、
前記解像度を下げるステップの後、前記複数のフレームからなるサブセットおよび対応する音声スペクトログラムに機械学習ベースのゲーティングモデルを適用する動作と、
前記ゲーティングモデルの出力として、前記動画を解析して１つ以上の動画アノテーションを付加するかどうかについての指示を取得する動作とを含む、コンピューティングデバイス。
前記メモリは、さらに命令を格納し、前記命令は、前記プロセッサによって実行されると、前記プロセッサにさらに動作を実行させ、前記動作は、前記ゲーティングモデルを適用する動作の前に、前記動画を複数のセグメントに分割する動作を含み、各セグメントは、複数のフレームを含み、前記ゲーティングモデルを適用する動作は、前記複数のセグメントに対して順番に繰り返し行われ、前記指示は、各イテレーションにおいて生成される、請求項１２に記載のコンピューティングデバイス。
動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての指示を生成するように機械学習ベースのゲーティングモデルを訓練するための、コンピュータにより実行される方法であって、前記機械学習ベースのゲーティングモデルは、
前記特定の特徴が動画に存在する可能性を前記動画の動画フレームに基づいて生成する第１の畳み込みニューラルネットワークを含む第１モデルと、
入力として前記特定の特徴が前記動画に存在する可能性を受信し、前記指示を生成する第２モデルとを含み、前記方法は、
訓練セットを取得するステップを含み、前記訓練セットは、
複数の訓練動画を含み、各訓練動画は、複数のフレームを含み、各訓練動画は、対応する高解像度動画の、低解像度のサンプリングされたバージョンの動画であり、前記訓練セットは、さらに、
複数の訓練ラベルを含み、各訓練ラベルは、前記複数の訓練動画のうちの１つ以上の訓練動画に対応する前記高解像度動画における前記特定の特徴の存在を示し、前記方法は、さらに、
前記ゲーティングモデルを訓練するステップを含み、前記訓練するステップは、前記訓練セットに含まれる訓練動画ごとに、
前記第１モデルを前記訓練動画に適用することによって、前記特定の特徴が前記訓練動画に存在する可能性を生成するステップと、
前記第２モデルを適用することによって、前記訓練動画を解析して特定の特徴に対応するアノテーションを付加するかどうかについての前記指示を前記特定の特徴が前記訓練動画に存在する可能性に基づいて生成するステップと、
前記対応する高解像度動画に関連付けられた前記訓練ラベル、および前記指示に基づいて、フィードバックデータを生成するステップと、
訓練入力として、前記フィードバックデータを前記第１モデルおよび前記第２モデルに提供するステップとを含む、コンピュータにより実行される方法。
前記特定の特徴は、人の顔、ある種類の動き、またはある種類のオブジェクトのうち少なくとも１つを含む、請求項１４に記載のコンピュータにより実行される方法。
前記訓練セットに含まれる前記複数の訓練動画は、前記特定の特徴が存在する少なくとも１つの動画と、前記特定の特徴が存在しない少なくとも１つの動画とを含み、前記ゲーティングモデルを訓練するステップは、前記第１モデルの前記第１の畳み込みニューラルネットワークの１つ以上のノードの重みを自動的に調整するステップ、または、前記第１モデルの前記第１の畳み込みニューラルネットワークの１つ以上の対のノード間の接続性を自動的に調整するステップのうち、１つ以上のステップを含む、請求項１４または１５に記載のコンピュータにより実行される方法。
前記第２モデルは、ヒューリスティクスを基にしたモデル、再帰型ニューラルネットワーク、またはマルコフ連鎖解析モデルのうち、１つ以上を含み、前記ゲーティングモデルを訓練するステップは、前記ヒューリスティクスを基にしたモデルの１つ以上のパラメータを自動的に調整するステップ、前記再帰型ニューラルネットワークの１つ以上のパラメータを自動的に調整するステップ、または前記マルコフ連鎖解析モデルの１つ以上のパラメータを自動的に調整するステップのうち、１つ以上のステップを含む、請求項１４～１６のいずれかに記載のコンピュータにより実行される方法。
前記ゲーティングモデルを訓練するステップは、前記訓練動画の複数のフレームをフレームからなる複数のスタックに分割するステップをさらに含み、各スタックは、少なくとも１つのフレームを含み、前記複数のスタックは、順序付けられたシーケンスに編成され、前記ゲーティングモデルを訓練するステップは、前記フレームからなる複数のスタックに含まれるフレームからなるスタックごとに順次実行される、請求項１４～１７のいずれかに記載のコンピュータにより実行される方法。
前記第２モデルは、前記生成された指示を前記訓練動画のスタックごとに格納するように構成され、特定のスタックについての前記指示を生成するステップは、前記順序付けられたシーケンスに含まれる１つ以上の前のスタックについてのそれぞれ格納された指示にさらに基づく、請求項１８に記載のコンピュータにより実行される方法。
前記複数の訓練動画に含まれる１つ以上の訓練動画は、前記複数のフレームに対応する音声スペクトログラムをさらに含み、前記第１モデルは、さらに、
音声スペクトログラムを解析するように訓練された第２の畳み込みニューラルネットワークと、
前記第１の畳み込みニューラルネットワークおよび前記第２の畳み込みニューラルネットワークの出力を入力として受信し、前記特定の特徴が前記動画に存在する可能性を生成するフュージョンネットワークとを含む、請求項１４～１９のいずれかに記載のコンピュータにより実行される方法。