JP2022506501A

JP2022506501A - 音響効果のテキスト注釈

Info

Publication number: JP2022506501A
Application number: JP2021523900A
Authority: JP
Inventors: 雅則表
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-10-31
Filing date: 2019-09-30
Publication date: 2022-01-17
Also published as: EP3874764A1; CN113424554A; US11375293B2; WO2020091930A1; US20200137463A1; EP3874764A4

Abstract

【解決手段】カラーまたは視覚障害への適応は、選択的なカラーの置換によって実施することができる。カラー適応モジュールは、ホストシステムから画像フレームを受け取り、画像フレームのカラー適合バージョンを生成する。カラー適応モジュールは、画像フレーム内の１つ以上のカラーを１つ以上の対応する代替カラーで置き換えるルールベースのフィルタを含むことができる。【選択図】図８

Description

本開示は、オーディオビジュアルメディア強化の分野、特に障害者のアクセシビリティを改善するための既存のオーディオビジュアルメディアへのコンテンツの追加に関する。

ビデオゲームなどのすべてのオーディオビジュアルメディアが障害者にアクセスできるわけではない。ビデオゲームでは、聴覚障害者のために機能を果たすキャプション付き音声を有することがますます一般的になっているが、視覚障害などの他の障害には対応できない。さらに、古い映画やゲームにはキャプションが含まれていなかった。

ビデオゲームのインタラクティブなオーディオビジュアルの性質を組み合わせることは、単にシーンを通過してそれらを説明することが不可能であることを意味する。今日の多くのビデオゲームには、ユーザが多数のオプションを持っているオープンワールドコンポーネントが含まれており、これは、ゲーム内の２つのアクションシーケンスが同一ではないことを意味する。さらに、色覚異常のためにカラーパレットをカスタマイズすることは、シーンの数と各シーン内の色が非常に多いため、多くのビデオゲームや映画では不可能である。結局、障害者のための適応がなされていない多くのビデオゲームや映画がすでに存在し、そのような適応を追加するには時間がかかり大きな労力が必要となる。

本発明の実施形態が現れるのはこの文脈内である。

本発明の教示は、添付図面と併せて以下の発明を実施するための形態を検討することによって容易に理解できる。

本開示の態様による、オンデマンドアクセシビリティシステムの概略図である。本開示の態様による、オンデマンドアクセシビリティシステムで使用するためのリカレントニューラルネットワークの簡略化されたノード図である。本開示の態様による、オンデマンドアクセシビリティシステムで使用するための展開されたリカレントニューラルネットワークの簡略化されたノード図である。本開示の態様による、オンデマンドアクセシビリティシステムで使用するための畳み込みニューラルネットワークの簡略図である。本開示の態様による、オンデマンドアクセシビリティシステムにおいてニューラルネットワークをトレーニングするための方法のブロック図である。本開示の態様による、アクション記述コンポーネントシステムの動作プロセスを示すブロック図である。本開示の態様による、タグ付けされたシーン要素を備えた画像フレームを示す図である。本開示の態様による、シーン注釈コンポーネントシステムエンコーダデコーダのトレーニング方法のブロック図である。本開示の態様による、カラー適応コンポーネントシステムの動作プロセスを示すブロック図である。本開示の態様による、グラフィックスタイル修正コンポーネントシステムのトレーニングを示すブロック図である。本開示の態様による、音響効果注釈コンポーネントシステムの動作プロセスを示すブロック図である。

以下の発明を実施するための形態は、例示を目的として多くの具体的な詳細を含むが、当業者であれば誰でも、以下の詳細に対する多くの変形及び改変が本発明の範囲内にあることを理解するであろう。したがって、以下で説明される本発明の例示的な実施形態は、本特許請求される発明に対するいかなる一般性も損なうことなく、かつ限定も課すことなく示されている。

本発明の実施形態の完全な理解を提供するために多数の特定の詳細が示されているが、当業者は、他の実施形態がこれらの特定の詳細なしで実施され得ることを理解するであろう。他の例において、既知の方法、手順、コンポーネント及び回路は、本開示の態様を不明瞭にすることを回避するために詳述していない。本明細書の説明いくつかの部分は、コンピュータメモリ内のデータビットまたは２値デジタル信号上での動作のアルゴリズム及び記号的表現の観点で表される。これらのアルゴリズムの説明及び表現は、データ処理技術の当業者が彼らの仕事の実体を当業者に伝えるために使用する技術であり得る。

本明細書で使用されるアルゴリズムは、所望の結果につながる、首尾一貫した一連のアクションまたは動作である。これらの動作は、物理量の物理的操作を含む。通常、必須ではないが、これらの量は、格納され、転送され、組み合わされ、比較され、またさもなければ操作されることが可能な、電気または磁気信号の形をとる。主に一般的使用上の理由で、これらの信号をビット、値、要素、記号、文字、用語、番号、及び類似物などと称することは、時に好都合であることがわかっている。

特に明記されていない限り、または以下の説明から明らかなように、説明全体を通して、「処理」、「計算」、「変換」、「調整」、「決定」または「識別」などの用語を使用する説明は、プロセッサのレジスタ及びアクセス可能なプラットフォームメモリ内の物理的（例えば電子的）量として表されるデータを操作して、コンピュータプラットフォームメモリ、プロセッサレジスタ、またはディスプレイ画面内の物理的量として同様に表される他のデータに変換するプロセッサを含む電子コンピューティングデバイスである、コンピュータプラットフォームのアクション及びプロセスを指すことが理解されるべきである。

コンピュータプログラムは、フロッピー（登録商標）ディスク、光ディスク（例えば、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタルビデオディスク（ＤＶＤ）、Ｂｌｕ－Ｒａｙ（登録商標）Ｄｉｓｃ（商標）など）、及び磁気光ディスクを含む任意のタイプのディスク、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カードまたは光カード、フラッシュメモリ、または任意のその他の種類の電子命令の保存に適した非一時的なメディアなどを含むがこれらに限定されない、コンピュータ可読記憶媒体に格納することができる。

「結合された」及び「接続された」という用語は、それらの派生物とともに、本明細書の操作を実行するための装置のコンポーネント間の構造的関係を説明するために本明細書で使用され得る。これらの用語は、相互に同義語と見なされないことを理解されたい。例えば、いくつかの特定の例では、「接続された」という用語は、２つ以上の要素が相互に直接物理的または電気的接触状態にあることを示すことができる。他のいくつかの例では、「接続された」、「接続」、及びそれらの派生語は、例えば、ニューラルネットワーク内のノード層間の論理的関係を示すために使用される。「結合された」は、２つ以上の要素が互いに直接または（それらの間に他の介在要素と共に）間接的に、物理的または電気的に接触していること、及び／または２つ以上の要素が互いに（例えば、原因と結果の関係のように）協力または通信することを示すために使用され得る。

［オンデマンドアクセシビリティシステム］
本開示の態様によれば、オンデマンドアクセシビリティシステムは、障害のあるユーザへのアクセシビリティを改善するために既存のメディアの強化を提供する。さらに、オンデマンドアクセシビリティシステムは、障害のないユーザに美的メリットと改善された体験を提供することができる。さらに、オンデマンドアクセシビリティシステムは、既存のメディアを変更することなく、障害者向けのアクセシビリティコンテンツを作成するので、メディアシステムの機能を向上させる。この場合のメディアは、ビデオゲーム、映画、テレビ、または音楽であり得る。オンデマンドアクセシビリティシステムは、字幕、テキスト読み上げの記述、カラーの変更及びスタイルの変更を適用して、障害を持つ人々へのビデオゲームやその他のメディアのアクセシビリティを助ける。

図１に概略的に示されている１つの潜在的な実施態様では、オンデマンドアクセシビリティシステム１００は、異なるコンポーネントモジュールを含む。これらのモジュールは、アクション記述モジュール１１０、シーン注釈モジュール１２０、カラー適応モジュール１３０、グラフィックスタイル修正モジュール１４０、及び音響効果注釈モジュール１５０を含み得る。これらの各コンポーネントモジュールは、ユーザへのメディアコンテンツのアクセシビリティを強化するための個別の機能を提供する。これらのモジュールは、ハードウェア、ソフトウェアまたはハードウェア及びソフトウェアの組合せによって実施することができる。本開示の態様は、オンデマンドアクセシビリティシステムが上記のコンポーネントモジュールのうちの１つのみを組み込む実施態様を含む。本開示の態様はまた、オンデマンドアクセシビリティシステムが、上記の５つのコンポーネントモジュールのうちの２つ以上で５つすべて未満の組み合わせを組み込む実施態様を含む。

アクセシビリティシステム１００は、ホストシステム１０２によって実装された、ライブゲームプレイからのオーディオ及びビデオを入力として受信することができる。入力されたオーディオとビデオは、例えばＴｗｉｔｃｈを介してインターネットライブストリームにストリーミングされ、そこでオンラインで処理されてもよい。アクセシビリティシステム１００のオンデマンドアーキテクチャは、プレイヤに制御を与え、その結果、単純なコマンド、例えばボタンを押すことによって、プレイヤが異なるコンポーネントモジュール１１０、１２０、１３０、１４０及び１５０のうち１つ以上を選択的に起動することができる。

図１に示すように、５つのコンポーネントモジュールを実装する特定の要素は、制御モジュール１０１によってリンクされている。制御モジュール１０１は、ホストシステム１０２から入力画像フレームデータ及びオーディオデータを受信する。制御モジュール１０１は、モジュールがその特定のプロセスを実行できるように、ホストシステムから各モジュールに適切なデータを送る。制御モジュール１０１は、このようにコンポーネントモジュール１１０、１２０、１３０、１４０は、「マネージャ」として作用し、これらのモジュールの各々に適切な入力データを提供し、データ上のモジュールの作業を指示する。制御モジュール１０１は、コンポーネントモジュールから出力データを受信し、そのデータを使用して、出力デバイスが使用することのできる対応する画像またはオーディオデータを生成することができ、これらが、ビデオ出力デバイス１０４及びオーディオ出力デバイス１０６によってユーザに提示される対応する修正された画像及びオーディオ信号を生成することができる。限定ではなく例として、制御モジュール１０１は、出力データを使用して、クローズドキャプション及びスタイル／カラー変換を含む出力画像フレームデータ、または対応する画像のテキスト読み上げ（ＴＴＳ）記述を含むオーディオデータを生成することができる。コントローラ１０１はまた、例えば、コンポーネントモジュールによって生成されたタイムスタンプを使用して、コンポーネントモジュールによって生成されたオーディオ及び／またはビデオを、ホストシステム１０２によって提供されたオーディオ及び／またはビデオと同期させることができる。例えば、コントローラ１０１は、アクション記述モジュール１２０またはシーン注釈モジュール１３０によって生成されたＴＴＳのデータに関連付けられたタイムスタンプを使用して、対応するビデオフレーム上でＴＴＳオーディオの再生を同期させることができる。さらに、コントローラ１０１は、音響効果注釈モジュール１５０によって生成されたキャプションのデータに関連付けられたタイムスタンプを使用して、対応するオーディオに関連付けられたビデオフレーム上のテキストキャプションの表示を同期させることができる。

コントローラ１０１、ホストシステム１０２及びコンポーネントモジュール１１０、１２０、１３０、１４０、１５０の間のオーディオ及びビデオデータの通信は重要な課題であり得る。例えば、ビデオ及びオーディオデータは、それをコントローラ１０１に送信する前に互いに分割することができる。コントローラ１０１は、オーディオ及びビデオデータストリームを、コントローラ及びコンポーネントモジュール内のバッファに適したサイズのユニットに分割し、次にこれらのデータユニットを適切なコンポーネントモジュールに送信することができる。次に、コントローラ１０１は、コンポーネントモジュールが適切に修正されたデータで応答するのを待つことができ、データはそれから、ホストシステム１０２に直接送信するか、またはホストシステムに送信する前にさらに処理することができる。

コントローラ１０１とコンポーネントモジュール１１０、１２０、１３０、１４０及び１５０との間の通信を容易にするために、必要なときにのみデータを使用するように、そしてコンポーネントモジュール内の予測ニューラルネットワークが継続的には予測をしないように、システム１００を構成することができる。この目的のために、コントローラ１０１及びコンポーネントモジュール１１０、１２０、１３０、１４０及び１５０は、予測を行うためのコンポーネントモジュールのために必要なデータしか含まない比較的小さなバッファを利用することができる。例えば、コンポーネントモジュール内の最も遅いニューラルネットワークが毎秒予測を行うことができる場合、１秒のバッファのみが必要になる。制御モジュール１０１は、バッファがどれだけの長さであるべきかの情報を含み、これらのバッファを使用して、コンポーネントモジュールにデータを送信するための情報を格納する。いくつかの実施態様では、コンポーネントモジュールの１つ以上は、その中に埋め込まれているバッファを有することができる。限定ではなく例として、アクション記述モジュール１１０は、ビデオ用にその中に埋め込まれたバッファを有することができる。より望ましい実施態様では、すべての連続メモリ管理／バッファは、コントローラモジュール１０１に存在する。システム１００は、ホストシステム１０２からのオーディオ及び／またはビデオデータが必要な場合にのみ消費され、そうでない場合には破棄されるように構成され得る。これにより、計算が複雑になりすぎたり、ホストシステム１０２が過負荷になったり、オーディオとビデオの処理時間が異なることによる同期の問題など、常にオンになっている予測ニューラルネットワークに関連する問題が回避される。

限定ではなく例として、オーディオ及びビジュアルコンポーネントが適切に同期されることを保証するために、制御モジュールは、ホストシステム１０２からのオーディオまたはビデオデータの比較的短いウィンドウを、例えば、約１秒以下の間隔で動作し得る。いくつかの実施態様では、制御モジュールは、ホストシステムならびに各コンポーネントモジュールからの１秒のオーディオ及びビデオを含むのに十分なバッファまたはメモリを有し得る。制御モジュールはまた、テキストまたは音声を入力に追加するためのテキスト読み上げモジュール及び／またはクローズドキャプションモジュールを含み得る。

制御モジュール１０１は、ユーザのためのスムーズな体験を保証するまとまりのある方法で、別個のニューラルネットワークモデルを一緒にマージすることを担当する。制御モジュール１０１は、オーディオ及びビデオストリームをセットアップし、それらを上記のバッファに分割し、（例えば、ゲーム入力デバイス１０８からの）ユーザ入力をリッスンする。入力を受信すると、制御モジュール１０１は、対応するコンポーネントモジュールにデータを送信することによってそれに応じて反応する（受信したユーザ入力の性質に応じて）。次に、制御モジュールは対応するコンポーネントモジュールから戻る結果を受け取り、それに応じてゲームのビジュアル／オーディオを変更する。

限定ではなく例として、コントローラ１０１は、Ｓｔｒｅｍｌｉｎｋなどのストリーミングサービス、及びＦＦＭＰＥＧなどのストリーミングメディアソフトウェアスイートを使用してオーディオストリームとビデオストリームを分離する、マルチスレッドプロセスを実装することができる。結果として得られた情報を切り刻んで、アクション記述モジュール１１０、シーン注釈モジュール１２０、グラフィックスタイル修正モジュール１４０、及び音響効果注釈モジュール１５０を実装するために使用されるものなどの深層学習システムに送信する。コントローラ１０１は、高レベルのオブジェクト指向プログラミング言語でプログラムされて、ホストシステム１０２からのビデオライブストリームにアクセスし、ホストシステムによって処理されるゲームプレイなどの操作を中断することなく流動的に実行するために戻る結果を時間内に得るプロセスを実装することができる。いくつかの実施態様では、オーディオ及びビデオデータは、ホストシステム１０２と、コントローラ１０１及び／またはモジュール１１０、１２０、１３０、１４０、１５０との間で、これらの別々のコンポーネントが相互にローカルである高解像度マルチメディアインターフェース（ＨＤＭＩ（登録商標））などの適切なインタフェースを介して、非圧縮形式で転送することができる。オーディオ及びビデオデータは、ホストシステム１０２とコントローラ１０１及び／またはモジュール１１０、１２０、１３０、１４０、１５０との間で、インターネットなどのネットワークを介して圧縮された形式で転送することができる。このような実施態様では、これらのコンポーネントには、オーディオ及びビデオデータのエンコードとデコードを処理するための既知のハードウェア及び／またはソフトウェアコーデックを含むことができる。他の実施態様では、コントローラ１０１及び／またはモジュール１１０、１２０、１３０、１４０、１５０の機能は、すべてホストシステム１０２内に統合されたハードウェア及び／またはソフトウェアで実装されてもよい。

所望のオンデマンドアクセシビリティモジュールを選択的に起動するために、制御モジュール１０１は、例えば、デュアルショックコントローラなどの入力デバイス１０８から起動入力を受信することができる。限定ではなく例として、起動入力は、単純なボタン押下、ラッチ型ボタン、タッチ起動、音声コマンド、コントローラで変換されたユーザからのモーションコマンドまたはジェスチャコマンドの結果であり得る。したがって、入力デバイス１０８は、入力のタイプに適した任意のデバイスであり得る。例えば、ボタン押下またはラッチ型ボタンの場合、入力デバイスは、適切なハードウェア及び／またはソフトウェアインターフェースを介してコントローラ１０１に結合されるゲームコントローラ上の適切に構成されたボタンであり得る。タッチスクリーン起動の場合、入力デバイスは、コントローラに結合されたタッチスクリーンまたはタッチパッドであり得る。音声コマンドの場合、入力デバイス１０８は、コントローラに結合されたマイクロフォンであり得る。そのような実施態様では、コントローラ１０１は、マイクロフォン信号を対応するデジタル信号に変換し、例えば、オーディオスペクトル分析、音声認識、もしくは発話認識、またはこれらのうちの２つ以上の組み合わせによって、結果として生じるデジタル信号を解釈する、ハードウェア及び／またはソフトウェアを含み得る。ジェスチャまたはモーションコマンドの場合、入力デバイス１０８は、コントローラに結合された画像キャプチャユニット（例えば、デジタルビデオカメラ）であり得る。そのような実施態様では、コントローラ１０１またはホストシステム１０２は、画像キャプチャユニットからの画像を解釈するハードウェア及び／またはソフトウェアを含み得る。

いくつかの実施態様では、コントローラ１０１は、アクション記述モジュール１１０及び／またはシーン注釈モジュール１２０によって生成された出力データをホストシステム１０２によって生成されたオーディオデータと組み合わせるビデオタグ付けモジュール１０７を含み得る。アクション記述モジュールとシーン注釈モジュールの両方がビデオタグ付けを利用することができるが、それらの入力には重要な違いがある。アクション記述では、フレーム間の時間的関係を決定してアクションの分類を決定するために、入力として複数の連続したビデオフレームが必要である。対照的に、シーン注釈は、より画像の比較的静的な要素に関係しており、単一のスクリーンショットを入力として使用できる。

いくつかの実施態様では、コントローラ１０１は、それぞれのモジュールの機能に適合するように、ビデオデータをアクション記述モジュール１１０及び／またはシーン注釈モジュール１２０に送信する前に、ビデオデータを分析及びフィルタリングすることができる。例えば、限定されないが、コントローラ１０１は、画像フレームデータを分析して、シーンの変化を検出し、いつ画像をシーン注釈モジュール１２０に提供するかを決定することができる。さらに、コントローラは、画像フレームデータを分析して、所与の期間のフレームシーケンスを、動きを含むかまたは含まないかのいずれかとして識別し、十分な動きを含むフレームシーケンスのみをアクション記述モジュール１１０に選択的に送信することができる。動きは、例えばエンコーダモーション検出などの既知の手段によって識別することができる。

アクション記述モジュール１１０及びシーン注釈コンポーネントモジュール１２０は両方とも、テキスト情報の形式で情報を生成することができる。このようなテキスト情報を生成する１つの方法は、ゲーム設定を使用することである。例えば、ゲーム設定をプログラムして、発見されたオブジェクトをリスト表示できる。リスト内のオブジェクトごとに、ユーザはそれを制御するユーザインターフェイスキーまたはボタンを設定できる。生成されると、このテキスト情報は、ビデオタグ付けモジュール１０７によって発話オーディオに変換され得る。または、この情報を使用して、ゲーマーがアクセスしやすい方法でコントロールキーを再マップすることもできる。コントローラ１０１は、発話オーディオを、ホストシステム１０２によって生成された他のオーディオ出力に同期させることができる。他の実施態様では、アクション記述モジュール１１０及びシーン注釈モジュール１２０はそれぞれ、ホストシステム１０２からのオーディオデータと直接組み合わせることができる発話情報を生成することができる。ビデオタグ付けモジュール１０７は、発話出力またはオーディオを、ユーザに提示するためにホストシステム１０２によって生成された他のオーディオ出力と組み合わせることができる。あるいは、ビデオタグ付けモジュールは、ホストシステム１０２からの他のオーディオ出力とのその後の組み合わせのために、発話出力を単に制御モジュールに転送することができる。

音響効果注釈モジュール１５０は、制御モジュール１０１からオーディオ情報を受け取り、対応するテキスト情報を生成する。音響効果注釈モジュール１５０、コントローラ１０１、またはホストシステム１０２は、テキスト情報を、例えば、字幕またはキャプションとしてビデオフレーム情報と組み合わせて、テキスト情報がビデオ出力デバイス１０４によって提示される対応するビデオ画像に現れるようにするオーディオタグ付けモジュール１９０を含み得る。

グラフィックスタイル修正モジュール１４０は、制御モジュール１０１から画像フレームデータを受信し、スタイルに適合された画像フレーム情報を制御モジュールに出力する。グラフィックスタイル修正モジュール１４０は、機械学習を使用して、コンテンツの１つのソースに関連付けられたスタイル、例えば、カラーパレット、テクスチャ、背景などを入力画像フレームまたはコンテンツの別のソースからのフレームに適用して、ビデオ出力デバイス１０４による提示のための修正された出力フレームデータを生成することができる。さらに、グラフィックスタイル修正モジュール１４０は、カラー適応コンポーネントモジュール１３０の要素を含むか、または実装することができる。カラー適応システムは、ルールベースのアルゴリズムを入力ビデオフレームデータに適用して、色覚異常などの特定のユーザの視覚障害に適応するカラー適合出力ビデオフレームを生成することができる。ルールベースのアルゴリズムは、ユーザがよく見たり区別したりできないカラーに対応する特定の入力フレームピクセルクロマ値を、ユーザが見たり区別したりできる他の値に置き換えることができる。

オンデマンドアクセシビリティシステムは、スタンドアロンデバイスであってもよく、ホストシステムへのアドオンデバイスとして統合されていてもよく、またはホストシステムによってソフトウェアでシミュレートされてもよい。スタンドアロンまたはアドオンデバイスとして、オンデマンドアクセシビリティシステムには、各モジュールの必要なプロセスを実装するように構成された特化型回路が含まれていてもよい。あるいは、オンデマンドアクセシビリティシステムは、プロセッサ及び、実行されるとプロセッサコンピュータに各モジュールの必要なプロセスを実行させる非一時的なコンピュータ可読媒体に埋め込まれた特化型ソフトウェアを備えたメモリから構成されていてもよい。他の代替の実施態様では、オンデマンドアクセシビリティシステムは、特化型の非一時的なコンピュータ可読命令を備えた汎用コンピュータと特化型回路の両方の混合物を含む。各モジュールは、別個で独立していてもよく、または単に、単一の汎用コンピュータによって実行されるプロセスであってもよい。あるいは、独立したモジュールと共有の汎用コンピュータが混在していてもよい。ホストシステムは、高解像度マルチメディアインターフェース（ＨＤＭＩ（登録商標））ケーブル、ユニバーサルシリアルバス（ＵＳＢ）、ビデオグラフィックスアレイ（ＶＧＡ）ケーブルまたはＤ－サブミニチュア（Ｄ－Ｓｕｂ）ケーブルなどのコネクタを直接介して制御モジュール１０１に結合することができる。いくつかの実施態様では、ホストシステムはネットワークを介してオンデマンドアクセシビリティシステムに接続される。

音響効果注釈、アクション記述、シーン注釈及びグラフィックスタイル修正モジュールはすべて、ニューラルネットワークを利用してそれぞれの出力データを生成する。ニューラルネットワークは、一般に、以下で説明するのと同じトレーニング手法の多くを共有している。

［ニューラルネットワークトレーニング］
一般に、オンデマンドアクセシビリティシステムのコンポーネントシステムで使用されるニューラルネットワークは、いくつかの異なるタイプのニューラルネットワークのうちの１つ以上を含むことができ、多くの異なる層を有し得る。限定ではなく例として、分類ニューラルネットワークは、１つ以上の畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、及び／または動的ニューラルネットワーク（ＤＮＮ）からなり得る。

図２Ａは、ノード２２０の層を有するＲＮＮの基本形態を示し、そのそれぞれは、活性化関数Ｓ、１つの入力重みＵ、リカレント隠れノード遷移重みＷ、及び出力遷移重みＶによって特徴付けられる。活性化関数Ｓは、当技術分野で知られている任意の非線形関数とすることができ、双曲線正接（ｔａｎｈ）関数に限定されない。例えば、活性化関数Ｓは、シグモイド関数またはＲｅＬｕ関数であり得る。他のタイプのニューラルネットワークとは異なり、ＲＮＮには、レイヤー全体に対して１セットの活性化関数と重みを有する。図２Ｂに示されるように、ＲＮＮは、時間Ｔ及びＴ＋１を通して移動する同じ活性化関数を有する一連のノード２２０と見なすことができる。したがって、ＲＮＮは、前の時間Ｔから現在の時間Ｔ＋１までの結果を供給することによって履歴情報を維持する。

いくつかの実施形態では、畳み込みＲＮＮを使用することができる。使用できる別のタイプのＲＮＮは、長短期記憶（ＬＳＴＭ）ニューラルネットワークであり、これは、ＲＮＮノードのメモリブロックに、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数を追加し、参照により本明細書に組み込まれているＨｏｃｈｒｅｉｔｅｒ＆Ｓｃｈｍｉｄｈｕｂｅｒの「ＬｏｎｇＳｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ」ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ９（８）：１７３５－１７８０（１９９７）で説明されているように、ネットワークが一部の情報を長期間保持できるようにする、ゲートメモリを生成する。

図２Ｃは、本開示の態様による、ＣＲＮＮなどの畳み込みニューラルネットワークの例示的なレイアウトを示す。この描写では、畳み込みニューラルネットワークは、高さ４単位、幅４単位のサイズを有する画像２３２に対して生成され、総面積は１６単位である。描写された畳み込みニューラルネットワークは、スキップ値１で高さ２ユニット及び幅２ユニットのサイズのフィルタ２３３、及びサイズ９のチャネル２３６を有する。明確にするために図２Ｃでは、チャネルの第１の列とそれらのフィルタウィンドウとの間の接続２３４のみが示されている。しかしながら、本開示の態様は、このような実施態様には限定されない。本開示の態様によれば、分類２２９を実装する畳み込みニューラルネットワークは、任意の数の追加のニューラルネットワークノード層２３１を有することができ、任意のサイズの追加の畳み込み層、完全接続層、プーリング層、最大プーリング層、ローカルコントラスト正規化層などの層タイプを含み得る。

図２Ｄに見られるように、ニューラルネットワーク（ＮＮ）のトレーニングは、ＮＮの重みの初期化で始まる（２４１）。一般に、初期の重みはランダムに分散する必要がある。例えば、ｔａｎｈ活性化関数を使用するＮＮは、－１／√ｎと１／√ｎの間にランダムな値を分散させる必要があり、ここで、ｎはノードへの入力の数である。

初期化後、活性化関数とオプティマイザが定義される。次に、ＮＮには、特徴ベクトルまたは入力データセットが提供される（２４２）。異なる特徴ベクトルのそれぞれは、既知のラベルを持つ入力からＮＮによって生成することができる。同様に、ＮＮには、既知のラベリングまたは分類を有する入力に対応する特徴ベクトルが提供され得る。次に、ＮＮは、特徴または入力のラベルまたは分類を予測する（２４３）。予測されたラベルまたはクラスは、既知のラベルまたはクラス（グラウンドトゥルースとも呼ばれる）と比較され、損失関数は、すべてのトレーニングサンプルの予測とグラウンドトゥルースの間の合計誤差を測定する（２４４）。限定ではなく例として、損失関数は、クロスエントロピー損失関数、二次コスト、トリプレット対照関数、指数コストなどであり得る。目的に応じて、複数の異なる損失関数を使用することができる。限定ではなく例として、分類器をトレーニングするためにクロスエントロピー損失関数を使用することができ、一方、事前トレーニングされた埋め込みを学習するためにトリプレット対照関数を使用することができる。次にＮＮは、損失関数の結果を使用し、適応型勾配降下法を使用したバックプロパゲーションなどのニューラルネットワークの既知のトレーニング方法を使用して、最適化及びトレーニングされる（２４５）。各トレーニングエポックで、オプティマイザは、トレーニング損失関数（つまり、合計誤差）を最小化するモデルパラメータ（つまり、重み）を選択しようとする。データは、トレーニング、検証、及びテストサンプルに分割される。

トレーニング中、オプティマイザはトレーニングサンプルの損失関数を最小化する。各トレーニングエポックの後、検証の損失と精度を計算することにより、検証サンプルでモードが評価される。著しい変化がない場合は、トレーニングを停止することができ、結果として得られたトレーニング済みモデルを使用して、テストデータのラベルを予測できる。

したがって、ニューラルネットワークは、既知のラベルまたは分類を有する入力からトレーニングされて、それらの入力を識別及び分類することができる。同様に、ＮＮは、既知のラベルまたは分類を有する入力から特徴ベクトルを生成するために、説明された方法を使用してトレーニングされ得る。

［オートエンコーダトレーニング］
オートエンコーダは、教師なし学習と呼ばれる方法を使用してトレーニングされたニューラルネットワークである。教師なし学習では、エンコーダＮＮにはデコーダＮＮ対応物が提供され、エンコーダとデコーダは単一のユニットとして一緒にトレーニングされる。オートエンコーダの基本的な機能は、Ｒ^ｄの要素である入力ｘを受け取り、それをＲ^ｄの要素である表現ｈにマッピングすることであり、このマッピングされた表現は、特徴ベクトルとも呼ばれる。タイプｈ＝ｆ_θ＝σ（Ｗ_χ＋ｂ）の決定論的関数は、パラメータθ＝｛Ｗ，ｂ｝で、特徴ベクトルを作成するために使用される。次に、デコーダＮＮを使用して、ｆ：ｙ＝ｆ_θ’（ｈ）＝σ（Ｗ’ｈ＋ｂ’）の逆によって代表的な特徴ベクトルからの入力を再構築し、ここでθ’＝｛Ｗ’，ｂ’｝であり、２つのパラメータのセットが入力をエンコードして表現をデコードするために同じ重みを使用して、Ｗ’＝Ｗ^Ｔの形式に制約されてもよい。各トレーニング入力χ_ｉは、その特徴ベクトルｈ_ｉ及びその再構成ｙ_ｉにマッピングされる。これらのパラメータは、クロスエントロピーコスト関数などのトレーニングセットに対して適切なコスト関数を最小化することによってトレーニングされる。畳み込みオートエンコーダは、重みが入力のすべての場所で共有されることを除いて、基本的なオートエンコーダと同様に機能する。従って（例えば白黒画像などの）単チャネル入力ｘに対して、ｋ番目の特徴マップの表現はバイアスがマップ全体にブロードキャストされ、ｈ^ｋ＝σ（ｘ＊Ｗ^ｋ＋ｂ^ｋ）によって与えられる。変数σは活性化関数を表し、ｂは潜在マップごとに使用される単一のバイアスを表し、Ｗはマップ全体で共有される重みを表し、＊は２Ｄ畳み込み演算子である。入力を再構築する式は次の式で与えられる。
ｙ＝σ（Σ_ｋ∈Ｈｈ^ｋ＊Ｗ＾^ｋ＋Ｃ）

上記の式では、入力チャネルごとに１つのバイアスＣがあり、Ｈは特徴マップのグループを識別し、Ｗ＾は次元と重みの両方にわたるフリップ演算を識別する。畳み込みオートエンコーダのトレーニングと重み付けの詳細については、Ｍａｓｃｉｅｔａｌ． “ＳｔａｃｋｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＡｕｔｏ－ＥｎｃｏｄｅｒｓｆｏｒＨｉｅｒａｒｃｈｉｃａｌＦｅａｔｕｒｅＥｘｔｒａｃｔｉｏｎ” ＩｎＩＩＣＡＮＮ，ｐａｇｅｓ５２－５９．２０１１を参照されたい。

［アクション記述］
アクション記述モジュール１１０は、入力としてビデオストリームから画像フレームの短いシーケンスを受け取り、ビデオストリーム内で発生するアクティビティのテキスト記述を生成する。これを実装するために、３つの畳み込みニューラルネットワークが使用される。第１のアクション記述ＮＮ３０１は、本明細書ではウィンドウと呼ばれるビデオフレームの短いシーケンスを受け取り、セグメントレベルまたはビデオレベルの特徴ベクトル、例えば、ウィンドウ内のビデオフレームごとに１つの特徴ベクトルを生成する。

限定ではなく例として、ウィンドウは、約１秒、またはおよそ１８フレームかつ１８フレーム／秒（ｆｐｓ）持続し得る。第２のアクション記述ＮＮ３０２は、フレームレベルの特徴ベクトルを受け取り、ビデオセグメントウィンドウレベルの特徴データを生成する。第２のアクション記述ＮＮ３０２は、教師あり学習を使用してトレーニングすることができる。代替の実施態様では、十分な精度を生成できる場合は、半教師ありまたは教師なしのトレーニング方法を使用できる。

第３のアクション記述ＮＮ３０３は、ビデオストリームウィンドウレベル特徴ベクトルを入力として受けて、それらをそのシーンで発生するアクションに応じて分類する。ラベル付きビデオストリームウィンドウレベルの特徴データの場合、ラベルはマスクされ、第３のアクション記述ＮＮがラベルを予測する。フレームは、システムが受信したビデオのフレームレートに従ってビデオシーケンスから抽出される。したがって、ウィンドウレベルの特徴データは、ホストシステムによって送信されるフレームレートに応じて、１つの特徴から６０または１２０以上の特徴の範囲になり得る。第３のアクション記述Ｎ３０３によって生成されたアクションの分類は、例えば、ウィンドウ内での発生動作を記述するテキストの形で、制御モジュール１０１に提供されてもよい。あるいは、分類データをテキスト読み上げ合成モジュール３０４に提供して、ウィンドウ中に、またはその直後に発生する他のオーディオと組み合わせることができる発話データを生成してもよい。

アクション記述モジュールは、上記で説明した既知の方法でトレーニングできる。トレーニング中、フレームレベルのビデオラベルはなく、したがって、各フレームが同じアクションを参照している場合、ビデオレベルのラベルはフレームレベルのラベルと見なされる。これらのラベル付きフレームは、第２のＮＮのフレームレベルトレーニング入力として使用できるか、または、ＣＮＮをトレーニングして、ビデオレベルのラベルを使用してフレームレベルの埋め込みを生成することもできる。いくつかの実施態様では、第１のＮＮは、教師なし方法を使用してフレーム埋め込みを生成することができ、上記のオートエンコーダトレーニングのセクションを参照されたい。ビデオレベルラベルとともになったフレームレベル埋め込みのシーケンスは、第２のＮＮをトレーニングするために使用される。第２のＮＮは、フレームレベルの埋め込みをビデオレベルの埋め込みに組み合わせるように構成されたＣＮＮであり得る。次に、ビデオレベルの埋め込みとアクションラベルを使用して、第３のＮＮをトレーニングする。第３のＮＮは、ビデオレベルの埋め込みからアクションクラスを予測するＲＮＮであり得る。

アクション記述モジュール１１０は、ニューラルネットワーク３０１、３０２、３０３のための時間以下であるウィンドウの持続時間に対応するビデオデータを保持するのに十分なサイズのバッファを含んでいるかまたは利用して、ウィンドウ内で発生するアクションを分類することができる。

アクション記述モジュールがユーザ体験を向上させることのできる多くの異なる方法がある。例えば、電子スポーツ（ｅスポーツ）では、アクション記述モジュール１１０は、ホストシステム１０１からのビデオストリームに示されるシミュレートされたスポーツイベントにおけるアクションについてのライブ解説を生成することができる。

［シーン注釈］
シーン注釈コンポーネントモジュール１２０は、ユーザに提示されたビデオストリームからの画像フレームを使用して、画像フレーム内のシーン要素のテキスト記述を生成する。シーン注釈モジュール１２０の出力は、例えば、テキストの形式でのシーンの自然言語記述とすることができ、これは、次に、例えば、ビデオタグ付けモジュール１０７によって実装され得る、テキスト読み上げモジュールによって音声に変換することができる。アクション記述モジュールとは対照的に、シーン注釈コンポーネントシステムは、シーン要素を決定するために単一の画像フレームしか必要としない。ここで、シーン要素は、画像内で発生するアクションとは別のコンテキスト情報を提供する画像の個々のコンポーネントを指す。限定ではなく例として、シーン要素は、図４に示されるように、アクションの背景を提供することができ、アクションは、フィニッシュライン４０２を横切るランナー４０１である。示されているシーン要素は次に、道路４０３、海４０４、護岸４０５、帆船４０６、及び時刻４０７である。シーン注釈モジュール１２０は、これらのシーン要素を記述するテキストを生成し、テキストを画像データと組み合わせて、シーンのキャプションを形成することができる。例えば、図４に示されるシーンに限定されないが、シーン注釈モジュール１２０は、「海のそばの晴れた日で、帆船が遠くに浮かんでいる。道路は壁の前にある。」のようなキャプションを作成することができる。テキストを生成するために、いくつかのニューラルネットワークを使用することができる。

ニューラルネットワークは、図５に示されるようにエンコーダ対として配置され得る。本明細書でエンコーダ５０１と呼ばれる第１のＮＮは、特徴ベクトル５０２を出力する深層畳み込みネットワーク（ＣＮＮ）タイプで、例えば、限定されないが、ｒｅｓｎｅｔタイプＮＮである。第１のＮＮは、画像フレームのクラスを表す特徴ベクトルを出力するように構成されている。本明細書でデコーダ５０３と呼ばれる第２のＮＮは、深層ネットワーク、例えば、シーンの要素を表す単語ごとにキャプションを出力するＲＮＮまたはＬＳＴＭである。エンコーダへの入力は、画像フレーム５０４である。エンコーダ５０１は、画像フレームの特徴ベクトル５０２を生成し、デコーダは、それらの特徴ベクトル５０２を受け取り、画像のキャプション５０７を予測する。

トレーニング中、エンコーダとデコーダは別々にトレーニングされてもよい。代替の実施態様では、エンコーダとデコーダを一緒にトレーニングすることができる。エンコーダ５０１は、画像フレーム内のオブジェクトを分類するようにトレーニングされている。トレーニング中のエンコーダへの入力は、ラベル付けされた画像フレームである。ラベルはエンコーダから隠され、トレーニング中にエンコーダ出力でチェックされる。デコーダ５０３は、特徴ベクトルを受け取り、画像フレームのキャプションを出力する。デコーダへの入力は、デコーダから隠され、トレーニング中にチェックされるキャプションを有する画像特徴ベクトルである。代替の実施態様では、エンコーダデコーダアーキテクチャが一緒にトレーニングされて、画像をテキストに変換することができる。限定ではなく例として、エンコーダ、例えば、深層ＣＮＮは、画像から埋め込み画像を生成することができる。次に、デコーダ、例えばＲＮＮバリアントは、この画像埋め込みを受け取り、対応するテキストを生成することができる。上で説明したＮＮアルゴリズムは、重みの調整と最適化に使用される。

シーン注釈モジュール１２０は、入力として単一の画像フレームのみを必要とするが、シーン注釈モジュールは、ニューラルネットワーク５０１、５０２のための時間以下であるウィンドウの持続時間に対応するビデオデータを保持するのに十分なサイズのバッファを含んでいるかまたは利用して、予測されたキャプション５０７を生成することができる。オンデマンドのアクセシビリティシステムの一部として、シーン注釈モジュールは、ウィンドウ内の各フレームのキャプションを生成することができる。いくつかの実施態様では、シーン注釈モジュールは、例えば、限定されないが、変更シーンの複雑さまたはシーンの複雑さが新しいキャプションを生成する前に閾値を超えるシーンの変化を検出することができる。

［カラー適応］
カラー適応モジュール１３０は、６０１で示されるように入力としてビデオフレームデータを受信し、６０２で示されるようにビデオフレームにフィルタを適用する。フィルタは、ビデオフレームの特定のカラーの値を変更する。フィルタは、ビデオフレーム内のカラーの違いを強調するように選択され、色覚障害のあるユーザのためにビデオフレーム内のオブジェクトの視認性を強化するように構成できる。フィルタの適用は、ルールベースとすることができる。具体的には、特定のカラーを区別するのに問題がある人々のために、ビデオフレームのカラーの区別を改善するためにフィルタを選択することができる。さらに、フィルタは、より一般的な視覚障害を持つユーザ向けにビデオを強化することもできる。例えば、暗いビデオは明るくすることができる。

フィルタは、ビデオストリーム内の各ビデオフレームに１秒間隔でリアルタイムに適用される。フィルタは、好みに基づいてユーザが選択することも、既知の視力障害に基づいて事前設定することもできる。フィルタは、ビデオのさまざまな色相に変換を適用し、ストリーム内の各ビデオフレームにリアルタイムのガンマ補正を適用する場合がある。次に、フレームのカラー適合ビデオデータ６０３は、６０４に示されるように、制御モジュール１０１に提供され得る。次に、制御モジュールは、ビデオ出力デバイス１０４上にレンダリング及び表示するために、適合ビデオフレームデータ６０３をホストシステム１０２に送信することができる。

［グラフィックスタイル修正］
グラフィックスタイル修正モジュール１４０は、画像フレームのセットからスタイルを受け取り、そのスタイルを画像フレームの第２のセットに適用する。スタイル適合は、カラーパレット、テクスチャ、背景に影響を与える可能性がある。いくつかの実施態様では、ＮＮ、例えば、ＧＡＮは、アニメスタイルのビデオゲーム（例えば、Ｆｏｒｔｎｉｔｅ）の外観をフォトリアリスティックなスタイル（例えば、ＧｒａｎｄＴｈｅｆｔＡｕｔｏ）に変換するようにトレーニングされ得る。例えば、Ｆｏｒｔｎｉｇｈｔのようなビデオゲームでは、環境とキャラクターに鮮やかな緑と赤のカラーが使用されるが、Ｂｌｏｏｄｂｏｒｎｅのようなゲームでは、環境とキャラクターにさめた濃い茶のカラーが使用される。グラフィックスタイル修正コンポーネントは、鮮やかな緑と赤のカラースタイルパレットを受け取ってＢｌｏｏｄｂｏｒｎｅに適用することができる。したがって、元のＢｌｏｏｄｂｏｒｎｅのくすんだ茶色の環境は、実際の環境のジオメトリが一定のままで、明るい緑と赤に置き換えられる。
グラフィックスタイル修正コンポーネントは、敵対的生成ニューラルネットワークレイアウトを使用して実装できる。敵対的生成ＮＮ（ＧＡＮ）レイアウトは、入力画像ｚのデータを受け取り、それらＧ（ｚ、θ_ｇ）にマッピング関数を適用して、入力画像に適用されるスタイルのソース画像セット（ｘ）の特性を近似し、ここで、θ_ｇはＮＮパラメータである。ＧＡＮの出力は、ソース画像セットのスタイルにマッピングされたカラーのスタイルに適合した入力画像データである。

［敵対的生成ＮＮトレーニング］
敵対的生成ＮＮ（ＧＡＮ）レイアウトのトレーニングには、２つのＮＮが必要である。２つのＮＮは、互いに対向して設定されており、第１のＮＮ７０２は、ソース画像フレーム７０１及びターゲット画像フレーム７０５から合成ソース画像フレーム７０５を生成し、第２のＮＮは、画像７０６をターゲット画像フレーム７０４であるか否かのいずれかとして分類する。第１のＮＮ７０２は、第２のＮＮ７０６によって行われた分類に基づいて７０８でトレーニングされる。第２のＮＮ７０６は、分類が正確にターゲット画像フレーム７０４を特定したかどうかに基づいて、７０９でトレーニングされる。第１のＮＮ７０２は、以下では生成的ＮＮまたはＧ_ＮＮと呼ばれるが、入力画像（ｚ）を受け取り、それらを表現Ｇ（ｚ；θ_ｇ）にマッピングする。

第２のＮＮ７０６は、以下では、識別的ＮＮまたはＤ_ＮＮと呼ぶ。Ｄ_ＮＮは、ラベル付けされていないマッピングされた合成ソース画像フレーム７０６及びラベル付けされていないターゲット画像（ｘ）セット７０４を受け取り、画像をターゲット画像セットに属するものとして分類しようとする。Ｄ_ＮＮの出力は、画像がターゲット画像セット７０４からのものである確率を表す単一のスカラーである。Ｄ_ＮＮはデータ空間Ｄ（ｘ；θ_ｄ）を有しており、θ_ｄはＮＮのパラメータを表す。

敵対的生成ＮＮのトレーニング中に使用されるＮＮのペアは、多層パーセプトロンとすることができ、これは、上記の畳み込みネットワークに似ているが、各層は完全に接続されている。敵対的生成ＮＮは、多層パーセプトロンに限定されず、ＣＮＮ、ＲＮＮ、またはＤＮＮとして編成されてもよい。さらに、敵対的生成ＮＮは、任意の数のプーリング層またはソフトマックス層を有し得る。

トレーニング中、Ｇ_ＮＮ７０２の目標は、Ｄ_ＮＮの逆の結果を最小限にすることである。言い換えると、Ｇ_ＮＮは、ｌｏｇ（１－Ｄ（Ｇ（ｚ））を最小化するようにトレーニングされる。トレーニングの初期段階で、ＤＮＮがマッピングされた入力画像をターゲット画像セットとは大きく異なるために高い信頼水準で拒否する場合に、問題が発生する可能性がある。その結果、式ｌｏｇ（１－Ｄ（Ｇ（ｚ））はすぐに飽和し、学習は遅くなる。これを克服するために、最初にＧは、学習の早い段階ではるかに強い勾配を提供し、ダイナミクスの同じ固定点を持つｌｏｇＤ（Ｇ（ｚ））を最大化することによってトレーニングできる。さらに、ＧＡＮは、本明細書に参照により組み込まれている、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１７０３．１０５９３．ｐｄｆ（２０１８年８月３０日）で入手できる、Ｚｈｕｅｔａｌ． “ＵｎｐａｉｒｅｄＩｍａｇｅｔｏＩｍａｇｅＴｒａｎｓｌａｔｉｏｎｕｓｉｎｇＣｙｃｌｅ－ＣｏｎｓｉｓｔｅｎｔＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ” ＡｒＸｉｖ，ＡｒＸｉｖ：１７０３．１０５９３ｖ５［ｃｓ．ＣＶ］で説明されているように、マッピング結果をさらに改善するために周期的整合性損失関数を含むように修正できる。

Ｄ_ＮＮ７０６のトレーニングの目的は、トレーニングデータセットに正しいラベルを割り当てる確率を最大化することである。トレーニングデータセットには、マップされたソース画像とターゲット画像の両方が含まれる。Ｄ_ＮＮは、トレーニングデータセット内の各画像がターゲット画像セットに属する確率を表すスカラー値を提供する。そのため、トレーニング中の目標は、ｌｏｇＧ（ｘ）を最大化することである。

第１及び第２のＮＮは一緒になって２人のプレイヤのミニマックスゲームを形成し、第１のＮＮ７０２は画像を生成して第２のＮＮ７０６をだまそうとする。ゲームに対する方程式は、
ｍｉｎ_Ｇｍａｘ_ＤＶ（Ｄ，Ｇ）＝Ｅ_ｘ～_{ｐｄａｔａ}（ｘ）［ｌｏｇＤ（ｘ）］＋Ｅ_ｚ～_ｐｚ（ｚ）［ｌｏｇ１－ｌｏｇＤ（Ｇ（ｚ））である。

Ｇ_ＮＮとＤ_ＮＮは、Ｄ_ＮＮを最適化してから、Ｇ_ＮＮを最適化することにより、段階的にトレーニングされる。このプロセスは、識別器にそれ以上の改善が見られなくなるまで何度も繰り返される。これは、トレーニング画像がマップされた入力画像ｐ_ｚである確率が、トレーニング画像がソース画像ｐ_ｄａｔａである確率と等しい場合に発生する。言い換えると、ｐ_ｚ＝ｐ_ｄａｔａの場合、代わりにＤ（ｘ）＝１／２である。一般に、ニューラルネットワークについて上述したものと同様に、Ｇ_ＮＮ及びＤ_ＮＮはミニバッチ確率的勾配降下法または互換性のニューラルネットワークをトレーニングするための任意の他の公知の方法を使用してトレーニングすることができる。敵対的生成ニューラルネットワークのトレーニングと編成の詳細については、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１４０６．２６６１で入手できる、Ｇｏｏｄｆｅｌｌｏｗｅｔａｌ． “ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｓ” ａｒＸｉｖ：１４０６．２６６１を参照されたい。

スタイル修正モジュール１４０は、ソース画像に目標画像７０４のカラースタイルを適用するようにトレーニングされたＧ_ＮＮ７０６を使用する。結果として得られるスタイルに適合されたソース画像は、コントローラモジュール１０１に提供される。このシステムの他のコンポーネントと同様に、グラフィックスタイル修正コンポーネントシステムは、ビデオストリーム上でそのニューラルネットワークの時間以下の間隔で動作することができる。例として、限定ではなく、スタイル適応モジュールのニューラルネットワークが１秒で予測を生成できる場合、グラフィックスタイル修正モジュール１４０は、ビデオストリームの１秒に相当する画像フレームを保持するのに十分なバッファを有し得る。１秒のウィンドウ内の各フレームには、ターゲットスタイルが適用されていてもよい。

［音響効果のテキスト注釈］
ビデオゲームを含む多くのタイプのオーディオビジュアルメディアでは、シーン内で一度に複数の音が発生することがよくある。これらの複数の音には、他の音よりも重要な音が含まれている。例えば、シーンには、風音や交通音などの背景ノイズだけでなく、銃声、タイヤのきしみ音、足音などの前景音が含まれる場合がある。背景音と前景音はそれぞれ異なる音レベルである可能性がある。現在、ほとんどのオーディオビジュアルコンテンツにはこれらの音の重要性に関する情報が含まれておらず、最も大きな音にラベルを付けるだけでは実際の重要性を捉えることはできない。例えば、ビデオゲームでは、風や雨などの環境音が高レベルで再生され、足音が低レベルで再生される場合があるが、ユーザにとって足音は、敵が接近している可能性があることを示す場合があるため、より重要で目立つ音を表す。

音響効果注釈コンポーネントモジュール１５０は、入力オーディオ８０１を受け取り、入力オーディオ内で発生する最も重要な音響効果または効果音響効果を分類する。限定ではなく例として、音響効果注釈コンポーネントモジュール１５０は、入力オーディオ内で発生する上位３つの最も重要な音響効果を分類することができる。音響効果注釈モジュール１５０は、２つの別個のトレーニングされたＮＮを使用することができる。第１のＮＮは、８０２で示されているように、オーディオで発生する音のどれが最も重要であるかを予測する。最も重要な音を予測するために、教師なし転移学習を使用して第２のＮＮがトレーニングされる。次に、選択された３つの音が第２のＮＮに提供される。第２のＮＮは、８０３で示されているように、最も重要な音またはオーディオ内で発生する音を分類するようにトレーニングされた畳み込みＮＮである。次に、３つの最も重要なオーディオイベントについて結果として得られた分類データ８０４は、制御モジュール１０１に提供されてもよい。あるいは、分類データ８０４は、例えば字幕またはキャプションとして対応する画像フレームに適用されてもよく、それらの修正された画像フレームは、コントローラモジュール１０１に提供されてもよい。音響効果注釈モジュール１５０は、第１及び第２のニューラルネットワークがオーディオセグメント内で発生する主要な音響効果を分類するための時間以下の持続時間のオーディオセグメントのオーディオデータを保持するのに十分なサイズのバッファを含み得る。

上記は、本発明の好ましい実施形態の完全な記述であるが、様々な代替物、修正、及び等価物を使用することが可能である。上の記述は、限定的ではなく、例示的であることを意図するものであることを理解すべきである。例えば、図面のフロー図は、本発明の特定の実施形態によって実行される動作の特定の順序を示しているが、そのような順序は必要ではないことを理解されたい（例えば、代替の実施形態は、異なる順序で動作を実行し、特定の動作を組み合わせ、特定の動作をオーバーラップすることなどができる）。さらに、多くの他の実施形態が、上述の説明を読んで理解すると、当業者に明らかになるであろう。本発明は、特定の例示的な実施形態を参照して説明されてきたが、本発明は、説明された実施形態に限定されず、添付の特許請求の範囲の精神及び範囲内で修正及び変更を加えて実施できることが認識されよう。したがって本発明の範囲は、添付の特許請求の範囲及びそのような請求の範囲の権利が与えられる等価物の十分な範囲を参照して、決定されるべきである。好ましいかどうかに関わらず、本明細書に説明された任意の特徴は、好ましいかどうかに関わらず、本明細書に説明された任意の他の特徴と組み合わせることができる。以下の特許請求の範囲において、不定冠詞「Ａ」または「Ａｎ」は、別途明記しない限り、冠詞に続く項目のうちの１つ以上の量を指す。添付の特許請求の範囲は、語句「するための手段（ｍｅａｎｓｆｏｒ）」を使用し、所与の請求項に明示的に述べられない限り、ミーンズプラスファンクションの限定を含むとして解釈されるべきではない。

Claims

オーディオビジュアルコンテンツのアクセシビリティを強化するためのシステムであって、
オーディオセグメント内で発生する主要なオーディオイベントを分類して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する１つ以上のタグを生成するように構成されている音響効果注釈モジュールを含む、
システム。
前記１つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位３つの最も重要な音を含む、請求項１に記載のシステム。
前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項１に記載のシステム。
前記音響効果注釈モジュールが、前記オーディオセグメント内で発生する前記主要な音響効果を分類するように構成されているニューラルネットワークを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項１に記載のシステム。
前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要な音響効果を分類するための時間以下である、請求項１に記載のシステム。
前記音響効果注釈モジュールに結合されたコントローラをさらに含み、前記コントローラは、表示画面に表示するために前記１つ以上のタグをホストシステムに提供し、前記音響効果注釈モジュールの出力を１つ以上の他のニューラルネットワークモジュールと同期させるように構成されている、請求項１に記載のシステム。
前記１つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項６に記載のシステム。
ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記１つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項１に記載のシステム。
オーディオビジュアルコンテンツのアクセシビリティを強化するための方法であって、
オーディオセグメント内で発生する主要な音響効果を分類して、音響効果注釈モジュールを使用して前記オーディオセグメント内で発生する前記主要な音響効果を記述する１つ以上のタグを生成することを含む、方法。
前記１つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位３つの最も重要な音を含む、請求項９に記載の方法。
前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項９に記載の方法。
オーディオ記述モジュールを用いて前記オーディオセグメント内で発生する主要なオーディオイベントを分類することは、ニューラルネットワークを使用して前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類することを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項９に記載の方法。
前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類するための時間以下である、請求項９に記載の方法。
表示画面に表示するために前記１つ以上のタグをホストシステムに提供することと、オーディオ記述モジュールの出力を、前記オーディオ記述モジュールに結合されたコントローラを備えた１つ以上の他のニューラルネットワークモジュールと同期させることとをさらに含む、請求項９に記載の方法。
前記１つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項１４に記載の方法。
ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記１つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項９に記載の方法。
コンピュータ可読命令を中に具現化している非一時的なコンピュータ可読媒体であって、前記命令は、実行時に、オーディオビジュアルコンテンツのアクセシビリティを強化するための方法を実施するように構成されており、前記方法は、
オーディオセグメント内で発生する主要なオーディオイベントを分類して、オーディオ記述モジュールを使用して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する１つ以上のタグを生成することを含む、非一時的なコンピュータ可読媒体。