JP2022506501A - 音響効果のテキスト注釈 - Google Patents

音響効果のテキスト注釈 Download PDF

Info

Publication number
JP2022506501A
JP2022506501A JP2021523900A JP2021523900A JP2022506501A JP 2022506501 A JP2022506501 A JP 2022506501A JP 2021523900 A JP2021523900 A JP 2021523900A JP 2021523900 A JP2021523900 A JP 2021523900A JP 2022506501 A JP2022506501 A JP 2022506501A
Authority
JP
Japan
Prior art keywords
audio
module
audio segment
major
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021523900A
Other languages
English (en)
Other versions
JP2022506501A6 (ja
Inventor
雅則 表
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2022506501A6 publication Critical patent/JP2022506501A6/ja
Publication of JP2022506501A publication Critical patent/JP2022506501A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/008Teaching or communicating with blind persons using visual presentation of the information for the partially sighted
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/007Teaching or communicating with blind persons using both tactile and audible presentation of the information

Abstract

【解決手段】カラーまたは視覚障害への適応は、選択的なカラーの置換によって実施することができる。カラー適応モジュールは、ホストシステムから画像フレームを受け取り、画像フレームのカラー適合バージョンを生成する。カラー適応モジュールは、画像フレーム内の1つ以上のカラーを1つ以上の対応する代替カラーで置き換えるルールベースのフィルタを含むことができる。【選択図】図8

Description

本開示は、オーディオビジュアルメディア強化の分野、特に障害者のアクセシビリティを改善するための既存のオーディオビジュアルメディアへのコンテンツの追加に関する。
ビデオゲームなどのすべてのオーディオビジュアルメディアが障害者にアクセスできるわけではない。ビデオゲームでは、聴覚障害者のために機能を果たすキャプション付き音声を有することがますます一般的になっているが、視覚障害などの他の障害には対応できない。さらに、古い映画やゲームにはキャプションが含まれていなかった。
ビデオゲームのインタラクティブなオーディオビジュアルの性質を組み合わせることは、単にシーンを通過してそれらを説明することが不可能であることを意味する。今日の多くのビデオゲームには、ユーザが多数のオプションを持っているオープンワールドコンポーネントが含まれており、これは、ゲーム内の2つのアクションシーケンスが同一ではないことを意味する。さらに、色覚異常のためにカラーパレットをカスタマイズすることは、シーンの数と各シーン内の色が非常に多いため、多くのビデオゲームや映画では不可能である。結局、障害者のための適応がなされていない多くのビデオゲームや映画がすでに存在し、そのような適応を追加するには時間がかかり大きな労力が必要となる。
本発明の実施形態が現れるのはこの文脈内である。
本発明の教示は、添付図面と併せて以下の発明を実施するための形態を検討することによって容易に理解できる。
本開示の態様による、オンデマンドアクセシビリティシステムの概略図である。 本開示の態様による、オンデマンドアクセシビリティシステムで使用するためのリカレントニューラルネットワークの簡略化されたノード図である。 本開示の態様による、オンデマンドアクセシビリティシステムで使用するための展開されたリカレントニューラルネットワークの簡略化されたノード図である。 本開示の態様による、オンデマンドアクセシビリティシステムで使用するための畳み込みニューラルネットワークの簡略図である。 本開示の態様による、オンデマンドアクセシビリティシステムにおいてニューラルネットワークをトレーニングするための方法のブロック図である。 本開示の態様による、アクション記述コンポーネントシステムの動作プロセスを示すブロック図である。 本開示の態様による、タグ付けされたシーン要素を備えた画像フレームを示す図である。 本開示の態様による、シーン注釈コンポーネントシステムエンコーダデコーダのトレーニング方法のブロック図である。 本開示の態様による、カラー適応コンポーネントシステムの動作プロセスを示すブロック図である。 本開示の態様による、グラフィックスタイル修正コンポーネントシステムのトレーニングを示すブロック図である。 本開示の態様による、音響効果注釈コンポーネントシステムの動作プロセスを示すブロック図である。
以下の発明を実施するための形態は、例示を目的として多くの具体的な詳細を含むが、当業者であれば誰でも、以下の詳細に対する多くの変形及び改変が本発明の範囲内にあることを理解するであろう。したがって、以下で説明される本発明の例示的な実施形態は、本特許請求される発明に対するいかなる一般性も損なうことなく、かつ限定も課すことなく示されている。
本発明の実施形態の完全な理解を提供するために多数の特定の詳細が示されているが、当業者は、他の実施形態がこれらの特定の詳細なしで実施され得ることを理解するであろう。他の例において、既知の方法、手順、コンポーネント及び回路は、本開示の態様を不明瞭にすることを回避するために詳述していない。本明細書の説明いくつかの部分は、コンピュータメモリ内のデータビットまたは2値デジタル信号上での動作のアルゴリズム及び記号的表現の観点で表される。これらのアルゴリズムの説明及び表現は、データ処理技術の当業者が彼らの仕事の実体を当業者に伝えるために使用する技術であり得る。
本明細書で使用されるアルゴリズムは、所望の結果につながる、首尾一貫した一連のアクションまたは動作である。これらの動作は、物理量の物理的操作を含む。通常、必須ではないが、これらの量は、格納され、転送され、組み合わされ、比較され、またさもなければ操作されることが可能な、電気または磁気信号の形をとる。主に一般的使用上の理由で、これらの信号をビット、値、要素、記号、文字、用語、番号、及び類似物などと称することは、時に好都合であることがわかっている。
特に明記されていない限り、または以下の説明から明らかなように、説明全体を通して、「処理」、「計算」、「変換」、「調整」、「決定」または「識別」などの用語を使用する説明は、プロセッサのレジスタ及びアクセス可能なプラットフォームメモリ内の物理的(例えば電子的)量として表されるデータを操作して、コンピュータプラットフォームメモリ、プロセッサレジスタ、またはディスプレイ画面内の物理的量として同様に表される他のデータに変換するプロセッサを含む電子コンピューティングデバイスである、コンピュータプラットフォームのアクション及びプロセスを指すことが理解されるべきである。
コンピュータプログラムは、フロッピー(登録商標)ディスク、光ディスク(例えば、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタルビデオディスク(DVD)、Blu-Ray(登録商標) Disc(商標)など)、及び磁気光ディスクを含む任意のタイプのディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カードまたは光カード、フラッシュメモリ、または任意のその他の種類の電子命令の保存に適した非一時的なメディアなどを含むがこれらに限定されない、コンピュータ可読記憶媒体に格納することができる。
「結合された」及び「接続された」という用語は、それらの派生物とともに、本明細書の操作を実行するための装置のコンポーネント間の構造的関係を説明するために本明細書で使用され得る。これらの用語は、相互に同義語と見なされないことを理解されたい。例えば、いくつかの特定の例では、「接続された」という用語は、2つ以上の要素が相互に直接物理的または電気的接触状態にあることを示すことができる。他のいくつかの例では、「接続された」、「接続」、及びそれらの派生語は、例えば、ニューラルネットワーク内のノード層間の論理的関係を示すために使用される。「結合された」は、2つ以上の要素が互いに直接または(それらの間に他の介在要素と共に)間接的に、物理的または電気的に接触していること、及び/または2つ以上の要素が互いに(例えば、原因と結果の関係のように)協力または通信することを示すために使用され得る。
[オンデマンドアクセシビリティシステム]
本開示の態様によれば、オンデマンドアクセシビリティシステムは、障害のあるユーザへのアクセシビリティを改善するために既存のメディアの強化を提供する。さらに、オンデマンドアクセシビリティシステムは、障害のないユーザに美的メリットと改善された体験を提供することができる。さらに、オンデマンドアクセシビリティシステムは、既存のメディアを変更することなく、障害者向けのアクセシビリティコンテンツを作成するので、メディアシステムの機能を向上させる。この場合のメディアは、ビデオゲーム、映画、テレビ、または音楽であり得る。オンデマンドアクセシビリティシステムは、字幕、テキスト読み上げの記述、カラーの変更及びスタイルの変更を適用して、障害を持つ人々へのビデオゲームやその他のメディアのアクセシビリティを助ける。
図1に概略的に示されている1つの潜在的な実施態様では、オンデマンドアクセシビリティシステム100は、異なるコンポーネントモジュールを含む。これらのモジュールは、アクション記述モジュール110、シーン注釈モジュール120、カラー適応モジュール130、グラフィックスタイル修正モジュール140、及び音響効果注釈モジュール150を含み得る。これらの各コンポーネントモジュールは、ユーザへのメディアコンテンツのアクセシビリティを強化するための個別の機能を提供する。これらのモジュールは、ハードウェア、ソフトウェアまたはハードウェア及びソフトウェアの組合せによって実施することができる。本開示の態様は、オンデマンドアクセシビリティシステムが上記のコンポーネントモジュールのうちの1つのみを組み込む実施態様を含む。本開示の態様はまた、オンデマンドアクセシビリティシステムが、上記の5つのコンポーネントモジュールのうちの2つ以上で5つすべて未満の組み合わせを組み込む実施態様を含む。
アクセシビリティシステム100は、ホストシステム102によって実装された、ライブゲームプレイからのオーディオ及びビデオを入力として受信することができる。入力されたオーディオとビデオは、例えばTwitchを介してインターネットライブストリームにストリーミングされ、そこでオンラインで処理されてもよい。アクセシビリティシステム100のオンデマンドアーキテクチャは、プレイヤに制御を与え、その結果、単純なコマンド、例えばボタンを押すことによって、プレイヤが異なるコンポーネントモジュール110、120、130、140及び150のうち1つ以上を選択的に起動することができる。
図1に示すように、5つのコンポーネントモジュールを実装する特定の要素は、制御モジュール101によってリンクされている。制御モジュール101は、ホストシステム102から入力画像フレームデータ及びオーディオデータを受信する。制御モジュール101は、モジュールがその特定のプロセスを実行できるように、ホストシステムから各モジュールに適切なデータを送る。制御モジュール101は、このようにコンポーネントモジュール110、120、130、140は、「マネージャ」として作用し、これらのモジュールの各々に適切な入力データを提供し、データ上のモジュールの作業を指示する。制御モジュール101は、コンポーネントモジュールから出力データを受信し、そのデータを使用して、出力デバイスが使用することのできる対応する画像またはオーディオデータを生成することができ、これらが、ビデオ出力デバイス104及びオーディオ出力デバイス106によってユーザに提示される対応する修正された画像及びオーディオ信号を生成することができる。限定ではなく例として、制御モジュール101は、出力データを使用して、クローズドキャプション及びスタイル/カラー変換を含む出力画像フレームデータ、または対応する画像のテキスト読み上げ(TTS)記述を含むオーディオデータを生成することができる。コントローラ101はまた、例えば、コンポーネントモジュールによって生成されたタイムスタンプを使用して、コンポーネントモジュールによって生成されたオーディオ及び/またはビデオを、ホストシステム102によって提供されたオーディオ及び/またはビデオと同期させることができる。例えば、コントローラ101は、アクション記述モジュール120またはシーン注釈モジュール130によって生成されたTTSのデータに関連付けられたタイムスタンプを使用して、対応するビデオフレーム上でTTSオーディオの再生を同期させることができる。さらに、コントローラ101は、音響効果注釈モジュール150によって生成されたキャプションのデータに関連付けられたタイムスタンプを使用して、対応するオーディオに関連付けられたビデオフレーム上のテキストキャプションの表示を同期させることができる。
コントローラ101、ホストシステム102及びコンポーネントモジュール110、120、130、140、150の間のオーディオ及びビデオデータの通信は重要な課題であり得る。例えば、ビデオ及びオーディオデータは、それをコントローラ101に送信する前に互いに分割することができる。コントローラ101は、オーディオ及びビデオデータストリームを、コントローラ及びコンポーネントモジュール内のバッファに適したサイズのユニットに分割し、次にこれらのデータユニットを適切なコンポーネントモジュールに送信することができる。次に、コントローラ101は、コンポーネントモジュールが適切に修正されたデータで応答するのを待つことができ、データはそれから、ホストシステム102に直接送信するか、またはホストシステムに送信する前にさらに処理することができる。
コントローラ101とコンポーネントモジュール110、120、130、140及び150との間の通信を容易にするために、必要なときにのみデータを使用するように、そしてコンポーネントモジュール内の予測ニューラルネットワークが継続的には予測をしないように、システム100を構成することができる。この目的のために、コントローラ101及びコンポーネントモジュール110、120、130、140及び150は、予測を行うためのコンポーネントモジュールのために必要なデータしか含まない比較的小さなバッファを利用することができる。例えば、コンポーネントモジュール内の最も遅いニューラルネットワークが毎秒予測を行うことができる場合、1秒のバッファのみが必要になる。制御モジュール101は、バッファがどれだけの長さであるべきかの情報を含み、これらのバッファを使用して、コンポーネントモジュールにデータを送信するための情報を格納する。いくつかの実施態様では、コンポーネントモジュールの1つ以上は、その中に埋め込まれているバッファを有することができる。限定ではなく例として、アクション記述モジュール110は、ビデオ用にその中に埋め込まれたバッファを有することができる。より望ましい実施態様では、すべての連続メモリ管理/バッファは、コントローラモジュール101に存在する。システム100は、ホストシステム102からのオーディオ及び/またはビデオデータが必要な場合にのみ消費され、そうでない場合には破棄されるように構成され得る。これにより、計算が複雑になりすぎたり、ホストシステム102が過負荷になったり、オーディオとビデオの処理時間が異なることによる同期の問題など、常にオンになっている予測ニューラルネットワークに関連する問題が回避される。
限定ではなく例として、オーディオ及びビジュアルコンポーネントが適切に同期されることを保証するために、制御モジュールは、ホストシステム102からのオーディオまたはビデオデータの比較的短いウィンドウを、例えば、約1秒以下の間隔で動作し得る。いくつかの実施態様では、制御モジュールは、ホストシステムならびに各コンポーネントモジュールからの1秒のオーディオ及びビデオを含むのに十分なバッファまたはメモリを有し得る。制御モジュールはまた、テキストまたは音声を入力に追加するためのテキスト読み上げモジュール及び/またはクローズドキャプションモジュールを含み得る。
制御モジュール101は、ユーザのためのスムーズな体験を保証するまとまりのある方法で、別個のニューラルネットワークモデルを一緒にマージすることを担当する。制御モジュール101は、オーディオ及びビデオストリームをセットアップし、それらを上記のバッファに分割し、(例えば、ゲーム入力デバイス108からの)ユーザ入力をリッスンする。入力を受信すると、制御モジュール101は、対応するコンポーネントモジュールにデータを送信することによってそれに応じて反応する(受信したユーザ入力の性質に応じて)。次に、制御モジュールは対応するコンポーネントモジュールから戻る結果を受け取り、それに応じてゲームのビジュアル/オーディオを変更する。
限定ではなく例として、コントローラ101は、Stremlinkなどのストリーミングサービス、及びFFMPEGなどのストリーミングメディアソフトウェアスイートを使用してオーディオストリームとビデオストリームを分離する、マルチスレッドプロセスを実装することができる。結果として得られた情報を切り刻んで、アクション記述モジュール110、シーン注釈モジュール120、グラフィックスタイル修正モジュール140、及び音響効果注釈モジュール150を実装するために使用されるものなどの深層学習システムに送信する。コントローラ101は、高レベルのオブジェクト指向プログラミング言語でプログラムされて、ホストシステム102からのビデオライブストリームにアクセスし、ホストシステムによって処理されるゲームプレイなどの操作を中断することなく流動的に実行するために戻る結果を時間内に得るプロセスを実装することができる。いくつかの実施態様では、オーディオ及びビデオデータは、ホストシステム102と、コントローラ101及び/またはモジュール110、120、130、140、150との間で、これらの別々のコンポーネントが相互にローカルである高解像度マルチメディアインターフェース(HDMI(登録商標))などの適切なインタフェースを介して、非圧縮形式で転送することができる。オーディオ及びビデオデータは、ホストシステム102とコントローラ101及び/またはモジュール110、120、130、140、150との間で、インターネットなどのネットワークを介して圧縮された形式で転送することができる。このような実施態様では、これらのコンポーネントには、オーディオ及びビデオデータのエンコードとデコードを処理するための既知のハードウェア及び/またはソフトウェアコーデックを含むことができる。他の実施態様では、コントローラ101及び/またはモジュール110、120、130、140、150の機能は、すべてホストシステム102内に統合されたハードウェア及び/またはソフトウェアで実装されてもよい。
所望のオンデマンドアクセシビリティモジュールを選択的に起動するために、制御モジュール101は、例えば、デュアルショックコントローラなどの入力デバイス108から起動入力を受信することができる。限定ではなく例として、起動入力は、単純なボタン押下、ラッチ型ボタン、タッチ起動、音声コマンド、コントローラで変換されたユーザからのモーションコマンドまたはジェスチャコマンドの結果であり得る。したがって、入力デバイス108は、入力のタイプに適した任意のデバイスであり得る。例えば、ボタン押下またはラッチ型ボタンの場合、入力デバイスは、適切なハードウェア及び/またはソフトウェアインターフェースを介してコントローラ101に結合されるゲームコントローラ上の適切に構成されたボタンであり得る。タッチスクリーン起動の場合、入力デバイスは、コントローラに結合されたタッチスクリーンまたはタッチパッドであり得る。音声コマンドの場合、入力デバイス108は、コントローラに結合されたマイクロフォンであり得る。そのような実施態様では、コントローラ101は、マイクロフォン信号を対応するデジタル信号に変換し、例えば、オーディオスペクトル分析、音声認識、もしくは発話認識、またはこれらのうちの2つ以上の組み合わせによって、結果として生じるデジタル信号を解釈する、ハードウェア及び/またはソフトウェアを含み得る。ジェスチャまたはモーションコマンドの場合、入力デバイス108は、コントローラに結合された画像キャプチャユニット(例えば、デジタルビデオカメラ)であり得る。そのような実施態様では、コントローラ101またはホストシステム102は、画像キャプチャユニットからの画像を解釈するハードウェア及び/またはソフトウェアを含み得る。
いくつかの実施態様では、コントローラ101は、アクション記述モジュール110及び/またはシーン注釈モジュール120によって生成された出力データをホストシステム102によって生成されたオーディオデータと組み合わせるビデオタグ付けモジュール107を含み得る。アクション記述モジュールとシーン注釈モジュールの両方がビデオタグ付けを利用することができるが、それらの入力には重要な違いがある。アクション記述では、フレーム間の時間的関係を決定してアクションの分類を決定するために、入力として複数の連続したビデオフレームが必要である。対照的に、シーン注釈は、より画像の比較的静的な要素に関係しており、単一のスクリーンショットを入力として使用できる。
いくつかの実施態様では、コントローラ101は、それぞれのモジュールの機能に適合するように、ビデオデータをアクション記述モジュール110及び/またはシーン注釈モジュール120に送信する前に、ビデオデータを分析及びフィルタリングすることができる。例えば、限定されないが、コントローラ101は、画像フレームデータを分析して、シーンの変化を検出し、いつ画像をシーン注釈モジュール120に提供するかを決定することができる。さらに、コントローラは、画像フレームデータを分析して、所与の期間のフレームシーケンスを、動きを含むかまたは含まないかのいずれかとして識別し、十分な動きを含むフレームシーケンスのみをアクション記述モジュール110に選択的に送信することができる。動きは、例えばエンコーダモーション検出などの既知の手段によって識別することができる。
アクション記述モジュール110及びシーン注釈コンポーネントモジュール120は両方とも、テキスト情報の形式で情報を生成することができる。このようなテキスト情報を生成する1つの方法は、ゲーム設定を使用することである。例えば、ゲーム設定をプログラムして、発見されたオブジェクトをリスト表示できる。リスト内のオブジェクトごとに、ユーザはそれを制御するユーザインターフェイスキーまたはボタンを設定できる。生成されると、このテキスト情報は、ビデオタグ付けモジュール107によって発話オーディオに変換され得る。または、この情報を使用して、ゲーマーがアクセスしやすい方法でコントロールキーを再マップすることもできる。コントローラ101は、発話オーディオを、ホストシステム102によって生成された他のオーディオ出力に同期させることができる。他の実施態様では、アクション記述モジュール110及びシーン注釈モジュール120はそれぞれ、ホストシステム102からのオーディオデータと直接組み合わせることができる発話情報を生成することができる。ビデオタグ付けモジュール107は、発話出力またはオーディオを、ユーザに提示するためにホストシステム102によって生成された他のオーディオ出力と組み合わせることができる。あるいは、ビデオタグ付けモジュールは、ホストシステム102からの他のオーディオ出力とのその後の組み合わせのために、発話出力を単に制御モジュールに転送することができる。
音響効果注釈モジュール150は、制御モジュール101からオーディオ情報を受け取り、対応するテキスト情報を生成する。音響効果注釈モジュール150、コントローラ101、またはホストシステム102は、テキスト情報を、例えば、字幕またはキャプションとしてビデオフレーム情報と組み合わせて、テキスト情報がビデオ出力デバイス104によって提示される対応するビデオ画像に現れるようにするオーディオタグ付けモジュール190を含み得る。
グラフィックスタイル修正モジュール140は、制御モジュール101から画像フレームデータを受信し、スタイルに適合された画像フレーム情報を制御モジュールに出力する。グラフィックスタイル修正モジュール140は、機械学習を使用して、コンテンツの1つのソースに関連付けられたスタイル、例えば、カラーパレット、テクスチャ、背景などを入力画像フレームまたはコンテンツの別のソースからのフレームに適用して、ビデオ出力デバイス104による提示のための修正された出力フレームデータを生成することができる。さらに、グラフィックスタイル修正モジュール140は、カラー適応コンポーネントモジュール130の要素を含むか、または実装することができる。カラー適応システムは、ルールベースのアルゴリズムを入力ビデオフレームデータに適用して、色覚異常などの特定のユーザの視覚障害に適応するカラー適合出力ビデオフレームを生成することができる。ルールベースのアルゴリズムは、ユーザがよく見たり区別したりできないカラーに対応する特定の入力フレームピクセルクロマ値を、ユーザが見たり区別したりできる他の値に置き換えることができる。
オンデマンドアクセシビリティシステムは、スタンドアロンデバイスであってもよく、ホストシステムへのアドオンデバイスとして統合されていてもよく、またはホストシステムによってソフトウェアでシミュレートされてもよい。スタンドアロンまたはアドオンデバイスとして、オンデマンドアクセシビリティシステムには、各モジュールの必要なプロセスを実装するように構成された特化型回路が含まれていてもよい。あるいは、オンデマンドアクセシビリティシステムは、プロセッサ及び、実行されるとプロセッサコンピュータに各モジュールの必要なプロセスを実行させる非一時的なコンピュータ可読媒体に埋め込まれた特化型ソフトウェアを備えたメモリから構成されていてもよい。他の代替の実施態様では、オンデマンドアクセシビリティシステムは、特化型の非一時的なコンピュータ可読命令を備えた汎用コンピュータと特化型回路の両方の混合物を含む。各モジュールは、別個で独立していてもよく、または単に、単一の汎用コンピュータによって実行されるプロセスであってもよい。あるいは、独立したモジュールと共有の汎用コンピュータが混在していてもよい。ホストシステムは、高解像度マルチメディアインターフェース(HDMI(登録商標))ケーブル、ユニバーサルシリアルバス(USB)、ビデオグラフィックスアレイ(VGA)ケーブルまたはD-サブミニチュア(D-Sub)ケーブルなどのコネクタを直接介して制御モジュール101に結合することができる。いくつかの実施態様では、ホストシステムはネットワークを介してオンデマンドアクセシビリティシステムに接続される。
音響効果注釈、アクション記述、シーン注釈及びグラフィックスタイル修正モジュールはすべて、ニューラルネットワークを利用してそれぞれの出力データを生成する。ニューラルネットワークは、一般に、以下で説明するのと同じトレーニング手法の多くを共有している。
[ニューラルネットワークトレーニング]
一般に、オンデマンドアクセシビリティシステムのコンポーネントシステムで使用されるニューラルネットワークは、いくつかの異なるタイプのニューラルネットワークのうちの1つ以上を含むことができ、多くの異なる層を有し得る。限定ではなく例として、分類ニューラルネットワークは、1つ以上の畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、及び/または動的ニューラルネットワーク(DNN)からなり得る。
図2Aは、ノード220の層を有するRNNの基本形態を示し、そのそれぞれは、活性化関数S、1つの入力重みU、リカレント隠れノード遷移重みW、及び出力遷移重みVによって特徴付けられる。活性化関数Sは、当技術分野で知られている任意の非線形関数とすることができ、双曲線正接(tanh)関数に限定されない。例えば、活性化関数Sは、シグモイド関数またはReLu関数であり得る。他のタイプのニューラルネットワークとは異なり、RNNには、レイヤー全体に対して1セットの活性化関数と重みを有する。図2Bに示されるように、RNNは、時間T及びT+1を通して移動する同じ活性化関数を有する一連のノード220と見なすことができる。したがって、RNNは、前の時間Tから現在の時間T+1までの結果を供給することによって履歴情報を維持する。
いくつかの実施形態では、畳み込みRNNを使用することができる。使用できる別のタイプのRNNは、長短期記憶(LSTM)ニューラルネットワークであり、これは、RNNノードのメモリブロックに、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数を追加し、参照により本明細書に組み込まれているHochreiter & Schmidhuberの「Long Short-term memory」 Neural Computation 9(8):1735-1780(1997)で説明されているように、ネットワークが一部の情報を長期間保持できるようにする、ゲートメモリを生成する。
図2Cは、本開示の態様による、CRNNなどの畳み込みニューラルネットワークの例示的なレイアウトを示す。この描写では、畳み込みニューラルネットワークは、高さ4単位、幅4単位のサイズを有する画像232に対して生成され、総面積は16単位である。描写された畳み込みニューラルネットワークは、スキップ値1で高さ2ユニット及び幅2ユニットのサイズのフィルタ233、及びサイズ9のチャネル236を有する。明確にするために図2Cでは、チャネルの第1の列とそれらのフィルタウィンドウとの間の接続234のみが示されている。しかしながら、本開示の態様は、このような実施態様には限定されない。本開示の態様によれば、分類229を実装する畳み込みニューラルネットワークは、任意の数の追加のニューラルネットワークノード層231を有することができ、任意のサイズの追加の畳み込み層、完全接続層、プーリング層、最大プーリング層、ローカルコントラスト正規化層などの層タイプを含み得る。
図2Dに見られるように、ニューラルネットワーク(NN)のトレーニングは、NNの重みの初期化で始まる(241)。一般に、初期の重みはランダムに分散する必要がある。例えば、tanh活性化関数を使用するNNは、-1/√nと1/√nの間にランダムな値を分散させる必要があり、ここで、nはノードへの入力の数である。
初期化後、活性化関数とオプティマイザが定義される。次に、NNには、特徴ベクトルまたは入力データセットが提供される(242)。異なる特徴ベクトルのそれぞれは、既知のラベルを持つ入力からNNによって生成することができる。同様に、NNには、既知のラベリングまたは分類を有する入力に対応する特徴ベクトルが提供され得る。次に、NNは、特徴または入力のラベルまたは分類を予測する(243)。予測されたラベルまたはクラスは、既知のラベルまたはクラス(グラウンドトゥルースとも呼ばれる)と比較され、損失関数は、すべてのトレーニングサンプルの予測とグラウンドトゥルースの間の合計誤差を測定する(244)。限定ではなく例として、損失関数は、クロスエントロピー損失関数、二次コスト、トリプレット対照関数、指数コストなどであり得る。目的に応じて、複数の異なる損失関数を使用することができる。限定ではなく例として、分類器をトレーニングするためにクロスエントロピー損失関数を使用することができ、一方、事前トレーニングされた埋め込みを学習するためにトリプレット対照関数を使用することができる。次にNNは、損失関数の結果を使用し、適応型勾配降下法を使用したバックプロパゲーションなどのニューラルネットワークの既知のトレーニング方法を使用して、最適化及びトレーニングされる(245)。各トレーニングエポックで、オプティマイザは、トレーニング損失関数(つまり、合計誤差)を最小化するモデルパラメータ(つまり、重み)を選択しようとする。データは、トレーニング、検証、及びテストサンプルに分割される。
トレーニング中、オプティマイザはトレーニングサンプルの損失関数を最小化する。各トレーニングエポックの後、検証の損失と精度を計算することにより、検証サンプルでモードが評価される。著しい変化がない場合は、トレーニングを停止することができ、結果として得られたトレーニング済みモデルを使用して、テストデータのラベルを予測できる。
したがって、ニューラルネットワークは、既知のラベルまたは分類を有する入力からトレーニングされて、それらの入力を識別及び分類することができる。同様に、NNは、既知のラベルまたは分類を有する入力から特徴ベクトルを生成するために、説明された方法を使用してトレーニングされ得る。
[オートエンコーダトレーニング]
オートエンコーダは、教師なし学習と呼ばれる方法を使用してトレーニングされたニューラルネットワークである。教師なし学習では、エンコーダNNにはデコーダNN対応物が提供され、エンコーダとデコーダは単一のユニットとして一緒にトレーニングされる。オートエンコーダの基本的な機能は、Rの要素である入力xを受け取り、それをRの要素である表現hにマッピングすることであり、このマッピングされた表現は、特徴ベクトルとも呼ばれる。タイプh=fθ=σ(Wχ+b)の決定論的関数は、パラメータθ={W,b}で、特徴ベクトルを作成するために使用される。次に、デコーダNNを使用して、f:y=fθ’(h)=σ(W’h+b’)の逆によって代表的な特徴ベクトルからの入力を再構築し、ここでθ’={W’,b’}であり、2つのパラメータのセットが入力をエンコードして表現をデコードするために同じ重みを使用して、W’=Wの形式に制約されてもよい。各トレーニング入力χは、その特徴ベクトルh及びその再構成yにマッピングされる。これらのパラメータは、クロスエントロピーコスト関数などのトレーニングセットに対して適切なコスト関数を最小化することによってトレーニングされる。畳み込みオートエンコーダは、重みが入力のすべての場所で共有されることを除いて、基本的なオートエンコーダと同様に機能する。従って(例えば白黒画像などの)単チャネル入力xに対して、k番目の特徴マップの表現はバイアスがマップ全体にブロードキャストされ、h=σ(x*W+b)によって与えられる。変数σは活性化関数を表し、bは潜在マップごとに使用される単一のバイアスを表し、Wはマップ全体で共有される重みを表し、*は2D畳み込み演算子である。入力を再構築する式は次の式で与えられる。
y=σ(Σk∈H*W^+C)
上記の式では、入力チャネルごとに1つのバイアスCがあり、Hは特徴マップのグループを識別し、W^は次元と重みの両方にわたるフリップ演算を識別する。畳み込みオートエンコーダのトレーニングと重み付けの詳細については、Masci et al. “Stacked Convolutional Auto-Encoders for Hierarchical Feature Extraction” In IICANN, pages 52-59. 2011を参照されたい。
[アクション記述]
アクション記述モジュール110は、入力としてビデオストリームから画像フレームの短いシーケンスを受け取り、ビデオストリーム内で発生するアクティビティのテキスト記述を生成する。これを実装するために、3つの畳み込みニューラルネットワークが使用される。第1のアクション記述NN301は、本明細書ではウィンドウと呼ばれるビデオフレームの短いシーケンスを受け取り、セグメントレベルまたはビデオレベルの特徴ベクトル、例えば、ウィンドウ内のビデオフレームごとに1つの特徴ベクトルを生成する。
限定ではなく例として、ウィンドウは、約1秒、またはおよそ18フレームかつ18フレーム/秒(fps)持続し得る。第2のアクション記述NN302は、フレームレベルの特徴ベクトルを受け取り、ビデオセグメントウィンドウレベルの特徴データを生成する。第2のアクション記述NN302は、教師あり学習を使用してトレーニングすることができる。代替の実施態様では、十分な精度を生成できる場合は、半教師ありまたは教師なしのトレーニング方法を使用できる。
第3のアクション記述NN303は、ビデオストリームウィンドウレベル特徴ベクトルを入力として受けて、それらをそのシーンで発生するアクションに応じて分類する。ラベル付きビデオストリームウィンドウレベルの特徴データの場合、ラベルはマスクされ、第3のアクション記述NNがラベルを予測する。フレームは、システムが受信したビデオのフレームレートに従ってビデオシーケンスから抽出される。したがって、ウィンドウレベルの特徴データは、ホストシステムによって送信されるフレームレートに応じて、1つの特徴から60または120以上の特徴の範囲になり得る。第3のアクション記述N303によって生成されたアクションの分類は、例えば、ウィンドウ内での発生動作を記述するテキストの形で、制御モジュール101に提供されてもよい。あるいは、分類データをテキスト読み上げ合成モジュール304に提供して、ウィンドウ中に、またはその直後に発生する他のオーディオと組み合わせることができる発話データを生成してもよい。
アクション記述モジュールは、上記で説明した既知の方法でトレーニングできる。トレーニング中、フレームレベルのビデオラベルはなく、したがって、各フレームが同じアクションを参照している場合、ビデオレベルのラベルはフレームレベルのラベルと見なされる。これらのラベル付きフレームは、第2のNNのフレームレベルトレーニング入力として使用できるか、または、CNNをトレーニングして、ビデオレベルのラベルを使用してフレームレベルの埋め込みを生成することもできる。いくつかの実施態様では、第1のNNは、教師なし方法を使用してフレーム埋め込みを生成することができ、上記のオートエンコーダトレーニングのセクションを参照されたい。ビデオレベルラベルとともになったフレームレベル埋め込みのシーケンスは、第2のNNをトレーニングするために使用される。第2のNNは、フレームレベルの埋め込みをビデオレベルの埋め込みに組み合わせるように構成されたCNNであり得る。次に、ビデオレベルの埋め込みとアクションラベルを使用して、第3のNNをトレーニングする。第3のNNは、ビデオレベルの埋め込みからアクションクラスを予測するRNNであり得る。
アクション記述モジュール110は、ニューラルネットワーク301、302、303のための時間以下であるウィンドウの持続時間に対応するビデオデータを保持するのに十分なサイズのバッファを含んでいるかまたは利用して、ウィンドウ内で発生するアクションを分類することができる。
アクション記述モジュールがユーザ体験を向上させることのできる多くの異なる方法がある。例えば、電子スポーツ(eスポーツ)では、アクション記述モジュール110は、ホストシステム101からのビデオストリームに示されるシミュレートされたスポーツイベントにおけるアクションについてのライブ解説を生成することができる。
[シーン注釈]
シーン注釈コンポーネントモジュール120は、ユーザに提示されたビデオストリームからの画像フレームを使用して、画像フレーム内のシーン要素のテキスト記述を生成する。シーン注釈モジュール120の出力は、例えば、テキストの形式でのシーンの自然言語記述とすることができ、これは、次に、例えば、ビデオタグ付けモジュール107によって実装され得る、テキスト読み上げモジュールによって音声に変換することができる。アクション記述モジュールとは対照的に、シーン注釈コンポーネントシステムは、シーン要素を決定するために単一の画像フレームしか必要としない。ここで、シーン要素は、画像内で発生するアクションとは別のコンテキスト情報を提供する画像の個々のコンポーネントを指す。限定ではなく例として、シーン要素は、図4に示されるように、アクションの背景を提供することができ、アクションは、フィニッシュライン402を横切るランナー401である。示されているシーン要素は次に、道路403、海404、護岸405、帆船406、及び時刻407である。シーン注釈モジュール120は、これらのシーン要素を記述するテキストを生成し、テキストを画像データと組み合わせて、シーンのキャプションを形成することができる。例えば、図4に示されるシーンに限定されないが、シーン注釈モジュール120は、「海のそばの晴れた日で、帆船が遠くに浮かんでいる。道路は壁の前にある。」のようなキャプションを作成することができる。テキストを生成するために、いくつかのニューラルネットワークを使用することができる。
ニューラルネットワークは、図5に示されるようにエンコーダ対として配置され得る。本明細書でエンコーダ501と呼ばれる第1のNNは、特徴ベクトル502を出力する深層畳み込みネットワーク(CNN)タイプで、例えば、限定されないが、resnetタイプNNである。第1のNNは、画像フレームのクラスを表す特徴ベクトルを出力するように構成されている。本明細書でデコーダ503と呼ばれる第2のNNは、深層ネットワーク、例えば、シーンの要素を表す単語ごとにキャプションを出力するRNNまたはLSTMである。エンコーダへの入力は、画像フレーム504である。エンコーダ501は、画像フレームの特徴ベクトル502を生成し、デコーダは、それらの特徴ベクトル502を受け取り、画像のキャプション507を予測する。
トレーニング中、エンコーダとデコーダは別々にトレーニングされてもよい。代替の実施態様では、エンコーダとデコーダを一緒にトレーニングすることができる。エンコーダ501は、画像フレーム内のオブジェクトを分類するようにトレーニングされている。トレーニング中のエンコーダへの入力は、ラベル付けされた画像フレームである。ラベルはエンコーダから隠され、トレーニング中にエンコーダ出力でチェックされる。デコーダ503は、特徴ベクトルを受け取り、画像フレームのキャプションを出力する。デコーダへの入力は、デコーダから隠され、トレーニング中にチェックされるキャプションを有する画像特徴ベクトルである。代替の実施態様では、エンコーダデコーダアーキテクチャが一緒にトレーニングされて、画像をテキストに変換することができる。限定ではなく例として、エンコーダ、例えば、深層CNNは、画像から埋め込み画像を生成することができる。次に、デコーダ、例えばRNNバリアントは、この画像埋め込みを受け取り、対応するテキストを生成することができる。上で説明したNNアルゴリズムは、重みの調整と最適化に使用される。
シーン注釈モジュール120は、入力として単一の画像フレームのみを必要とするが、シーン注釈モジュールは、ニューラルネットワーク501、502のための時間以下であるウィンドウの持続時間に対応するビデオデータを保持するのに十分なサイズのバッファを含んでいるかまたは利用して、予測されたキャプション507を生成することができる。オンデマンドのアクセシビリティシステムの一部として、シーン注釈モジュールは、ウィンドウ内の各フレームのキャプションを生成することができる。いくつかの実施態様では、シーン注釈モジュールは、例えば、限定されないが、変更シーンの複雑さまたはシーンの複雑さが新しいキャプションを生成する前に閾値を超えるシーンの変化を検出することができる。
[カラー適応]
カラー適応モジュール130は、601で示されるように入力としてビデオフレームデータを受信し、602で示されるようにビデオフレームにフィルタを適用する。フィルタは、ビデオフレームの特定のカラーの値を変更する。フィルタは、ビデオフレーム内のカラーの違いを強調するように選択され、色覚障害のあるユーザのためにビデオフレーム内のオブジェクトの視認性を強化するように構成できる。フィルタの適用は、ルールベースとすることができる。具体的には、特定のカラーを区別するのに問題がある人々のために、ビデオフレームのカラーの区別を改善するためにフィルタを選択することができる。さらに、フィルタは、より一般的な視覚障害を持つユーザ向けにビデオを強化することもできる。例えば、暗いビデオは明るくすることができる。
フィルタは、ビデオストリーム内の各ビデオフレームに1秒間隔でリアルタイムに適用される。フィルタは、好みに基づいてユーザが選択することも、既知の視力障害に基づいて事前設定することもできる。フィルタは、ビデオのさまざまな色相に変換を適用し、ストリーム内の各ビデオフレームにリアルタイムのガンマ補正を適用する場合がある。次に、フレームのカラー適合ビデオデータ603は、604に示されるように、制御モジュール101に提供され得る。次に、制御モジュールは、ビデオ出力デバイス104上にレンダリング及び表示するために、適合ビデオフレームデータ603をホストシステム102に送信することができる。
[グラフィックスタイル修正]
グラフィックスタイル修正モジュール140は、画像フレームのセットからスタイルを受け取り、そのスタイルを画像フレームの第2のセットに適用する。スタイル適合は、カラーパレット、テクスチャ、背景に影響を与える可能性がある。いくつかの実施態様では、NN、例えば、GANは、アニメスタイルのビデオゲーム(例えば、Fortnite)の外観をフォトリアリスティックなスタイル(例えば、Grand Theft Auto)に変換するようにトレーニングされ得る。例えば、Fortnightのようなビデオゲームでは、環境とキャラクターに鮮やかな緑と赤のカラーが使用されるが、Bloodborneのようなゲームでは、環境とキャラクターにさめた濃い茶のカラーが使用される。グラフィックスタイル修正コンポーネントは、鮮やかな緑と赤のカラースタイルパレットを受け取ってBloodborneに適用することができる。したがって、元のBloodborneのくすんだ茶色の環境は、実際の環境のジオメトリが一定のままで、明るい緑と赤に置き換えられる。
グラフィックスタイル修正コンポーネントは、敵対的生成ニューラルネットワークレイアウトを使用して実装できる。敵対的生成NN(GAN)レイアウトは、入力画像zのデータを受け取り、それらG(z、θ)にマッピング関数を適用して、入力画像に適用されるスタイルのソース画像セット(x)の特性を近似し、ここで、θはNNパラメータである。GANの出力は、ソース画像セットのスタイルにマッピングされたカラーのスタイルに適合した入力画像データである。
[敵対的生成NNトレーニング]
敵対的生成NN(GAN)レイアウトのトレーニングには、2つのNNが必要である。2つのNNは、互いに対向して設定されており、第1のNN702は、ソース画像フレーム701及びターゲット画像フレーム705から合成ソース画像フレーム705を生成し、第2のNNは、画像706をターゲット画像フレーム704であるか否かのいずれかとして分類する。第1のNN702は、第2のNN706によって行われた分類に基づいて708でトレーニングされる。第2のNN706は、分類が正確にターゲット画像フレーム704を特定したかどうかに基づいて、709でトレーニングされる。第1のNN702は、以下では生成的NNまたはGNNと呼ばれるが、入力画像(z)を受け取り、それらを表現G(z;θ)にマッピングする。
第2のNN706は、以下では、識別的NNまたはDNNと呼ぶ。DNNは、ラベル付けされていないマッピングされた合成ソース画像フレーム706及びラベル付けされていないターゲット画像(x)セット704を受け取り、画像をターゲット画像セットに属するものとして分類しようとする。DNNの出力は、画像がターゲット画像セット704からのものである確率を表す単一のスカラーである。DNNはデータ空間D(x;θ)を有しており、θはNNのパラメータを表す。
敵対的生成NNのトレーニング中に使用されるNNのペアは、多層パーセプトロンとすることができ、これは、上記の畳み込みネットワークに似ているが、各層は完全に接続されている。敵対的生成NNは、多層パーセプトロンに限定されず、CNN、RNN、またはDNNとして編成されてもよい。さらに、敵対的生成NNは、任意の数のプーリング層またはソフトマックス層を有し得る。
トレーニング中、GNN702の目標は、DNNの逆の結果を最小限にすることである。言い換えると、GNNは、log(1-D(G(z))を最小化するようにトレーニングされる。トレーニングの初期段階で、DNNがマッピングされた入力画像をターゲット画像セットとは大きく異なるために高い信頼水準で拒否する場合に、問題が発生する可能性がある。その結果、式log(1-D(G(z))はすぐに飽和し、学習は遅くなる。これを克服するために、最初にGは、学習の早い段階ではるかに強い勾配を提供し、ダイナミクスの同じ固定点を持つlogD(G(z))を最大化することによってトレーニングできる。さらに、GANは、本明細書に参照により組み込まれている、https://arxiv.org/pdf/1703.10593.pdf(2018年8月30日)で入手できる、Zhu et al. “Unpaired Image to Image Translation using Cycle-Consistent Adversarial Networks” ArXiv, ArXiv:1703.10593v5 [cs.CV]で説明されているように、マッピング結果をさらに改善するために周期的整合性損失関数を含むように修正できる。
NN706のトレーニングの目的は、トレーニングデータセットに正しいラベルを割り当てる確率を最大化することである。トレーニングデータセットには、マップされたソース画像とターゲット画像の両方が含まれる。DNNは、トレーニングデータセット内の各画像がターゲット画像セットに属する確率を表すスカラー値を提供する。そのため、トレーニング中の目標は、log G(x)を最大化することである。
第1及び第2のNNは一緒になって2人のプレイヤのミニマックスゲームを形成し、第1のNN702は画像を生成して第2のNN706をだまそうとする。ゲームに対する方程式は、
minmaxV(D,G)=Epdata(x)[logD(x)]+Epz(z)[log1-logD(G(z))である。
NNとDNNは、DNNを最適化してから、GNNを最適化することにより、段階的にトレーニングされる。このプロセスは、識別器にそれ以上の改善が見られなくなるまで何度も繰り返される。これは、トレーニング画像がマップされた入力画像pである確率が、トレーニング画像がソース画像pdataである確率と等しい場合に発生する。言い換えると、p=pdataの場合、代わりにD(x)=1/2である。一般に、ニューラルネットワークについて上述したものと同様に、GNN及びDNNはミニバッチ確率的勾配降下法または互換性のニューラルネットワークをトレーニングするための任意の他の公知の方法を使用してトレーニングすることができる。敵対的生成ニューラルネットワークのトレーニングと編成の詳細については、https://arxiv.org/abs/1406.2661で入手できる、Goodfellow et al. “Generative Adversarial Nets” arXiv:1406.2661を参照されたい。
スタイル修正モジュール140は、ソース画像に目標画像704のカラースタイルを適用するようにトレーニングされたGNN706を使用する。結果として得られるスタイルに適合されたソース画像は、コントローラモジュール101に提供される。このシステムの他のコンポーネントと同様に、グラフィックスタイル修正コンポーネントシステムは、ビデオストリーム上でそのニューラルネットワークの時間以下の間隔で動作することができる。例として、限定ではなく、スタイル適応モジュールのニューラルネットワークが1秒で予測を生成できる場合、グラフィックスタイル修正モジュール140は、ビデオストリームの1秒に相当する画像フレームを保持するのに十分なバッファを有し得る。1秒のウィンドウ内の各フレームには、ターゲットスタイルが適用されていてもよい。
[音響効果のテキスト注釈]
ビデオゲームを含む多くのタイプのオーディオビジュアルメディアでは、シーン内で一度に複数の音が発生することがよくある。これらの複数の音には、他の音よりも重要な音が含まれている。例えば、シーンには、風音や交通音などの背景ノイズだけでなく、銃声、タイヤのきしみ音、足音などの前景音が含まれる場合がある。背景音と前景音はそれぞれ異なる音レベルである可能性がある。現在、ほとんどのオーディオビジュアルコンテンツにはこれらの音の重要性に関する情報が含まれておらず、最も大きな音にラベルを付けるだけでは実際の重要性を捉えることはできない。例えば、ビデオゲームでは、風や雨などの環境音が高レベルで再生され、足音が低レベルで再生される場合があるが、ユーザにとって足音は、敵が接近している可能性があることを示す場合があるため、より重要で目立つ音を表す。
音響効果注釈コンポーネントモジュール150は、入力オーディオ801を受け取り、入力オーディオ内で発生する最も重要な音響効果または効果音響効果を分類する。限定ではなく例として、音響効果注釈コンポーネントモジュール150は、入力オーディオ内で発生する上位3つの最も重要な音響効果を分類することができる。音響効果注釈モジュール150は、2つの別個のトレーニングされたNNを使用することができる。第1のNNは、802で示されているように、オーディオで発生する音のどれが最も重要であるかを予測する。最も重要な音を予測するために、教師なし転移学習を使用して第2のNNがトレーニングされる。次に、選択された3つの音が第2のNNに提供される。第2のNNは、803で示されているように、最も重要な音またはオーディオ内で発生する音を分類するようにトレーニングされた畳み込みNNである。次に、3つの最も重要なオーディオイベントについて結果として得られた分類データ804は、制御モジュール101に提供されてもよい。あるいは、分類データ804は、例えば字幕またはキャプションとして対応する画像フレームに適用されてもよく、それらの修正された画像フレームは、コントローラモジュール101に提供されてもよい。音響効果注釈モジュール150は、第1及び第2のニューラルネットワークがオーディオセグメント内で発生する主要な音響効果を分類するための時間以下の持続時間のオーディオセグメントのオーディオデータを保持するのに十分なサイズのバッファを含み得る。
上記は、本発明の好ましい実施形態の完全な記述であるが、様々な代替物、修正、及び等価物を使用することが可能である。上の記述は、限定的ではなく、例示的であることを意図するものであることを理解すべきである。例えば、図面のフロー図は、本発明の特定の実施形態によって実行される動作の特定の順序を示しているが、そのような順序は必要ではないことを理解されたい(例えば、代替の実施形態は、異なる順序で動作を実行し、特定の動作を組み合わせ、特定の動作をオーバーラップすることなどができる)。さらに、多くの他の実施形態が、上述の説明を読んで理解すると、当業者に明らかになるであろう。本発明は、特定の例示的な実施形態を参照して説明されてきたが、本発明は、説明された実施形態に限定されず、添付の特許請求の範囲の精神及び範囲内で修正及び変更を加えて実施できることが認識されよう。したがって本発明の範囲は、添付の特許請求の範囲及びそのような請求の範囲の権利が与えられる等価物の十分な範囲を参照して、決定されるべきである。好ましいかどうかに関わらず、本明細書に説明された任意の特徴は、好ましいかどうかに関わらず、本明細書に説明された任意の他の特徴と組み合わせることができる。以下の特許請求の範囲において、不定冠詞「A」または「An」は、別途明記しない限り、冠詞に続く項目のうちの1つ以上の量を指す。添付の特許請求の範囲は、語句「するための手段(means for)」を使用し、所与の請求項に明示的に述べられない限り、ミーンズプラスファンクションの限定を含むとして解釈されるべきではない。

Claims (17)

  1. オーディオビジュアルコンテンツのアクセシビリティを強化するためのシステムであって、
    オーディオセグメント内で発生する主要なオーディオイベントを分類して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する1つ以上のタグを生成するように構成されている音響効果注釈モジュールを含む、
    システム。
  2. 前記1つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位3つの最も重要な音を含む、請求項1に記載のシステム。
  3. 前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項1に記載のシステム。
  4. 前記音響効果注釈モジュールが、前記オーディオセグメント内で発生する前記主要な音響効果を分類するように構成されているニューラルネットワークを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項1に記載のシステム。
  5. 前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要な音響効果を分類するための時間以下である、請求項1に記載のシステム。
  6. 前記音響効果注釈モジュールに結合されたコントローラをさらに含み、前記コントローラは、表示画面に表示するために前記1つ以上のタグをホストシステムに提供し、前記音響効果注釈モジュールの出力を1つ以上の他のニューラルネットワークモジュールと同期させるように構成されている、請求項1に記載のシステム。
  7. 前記1つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項6に記載のシステム。
  8. ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記1つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項1に記載のシステム。
  9. オーディオビジュアルコンテンツのアクセシビリティを強化するための方法であって、
    オーディオセグメント内で発生する主要な音響効果を分類して、音響効果注釈モジュールを使用して前記オーディオセグメント内で発生する前記主要な音響効果を記述する1つ以上のタグを生成することを含む、方法。
  10. 前記1つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位3つの最も重要な音を含む、請求項9に記載の方法。
  11. 前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項9に記載の方法。
  12. オーディオ記述モジュールを用いて前記オーディオセグメント内で発生する主要なオーディオイベントを分類することは、ニューラルネットワークを使用して前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類することを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項9に記載の方法。
  13. 前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類するための時間以下である、請求項9に記載の方法。
  14. 表示画面に表示するために前記1つ以上のタグをホストシステムに提供することと、オーディオ記述モジュールの出力を、前記オーディオ記述モジュールに結合されたコントローラを備えた1つ以上の他のニューラルネットワークモジュールと同期させることとをさらに含む、請求項9に記載の方法。
  15. 前記1つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項14に記載の方法。
  16. ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記1つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項9に記載の方法。
  17. コンピュータ可読命令を中に具現化している非一時的なコンピュータ可読媒体であって、前記命令は、実行時に、オーディオビジュアルコンテンツのアクセシビリティを強化するための方法を実施するように構成されており、前記方法は、
    オーディオセグメント内で発生する主要なオーディオイベントを分類して、オーディオ記述モジュールを使用して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する1つ以上のタグを生成することを含む、非一時的なコンピュータ可読媒体。
JP2021523900A 2018-10-31 2019-09-30 音響効果のテキスト注釈 Pending JP2022506501A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/177,232 US11375293B2 (en) 2018-10-31 2018-10-31 Textual annotation of acoustic effects
US16/177,232 2018-10-31
PCT/US2019/053751 WO2020091930A1 (en) 2018-10-31 2019-09-30 Textual annotation of acoustic effects

Publications (2)

Publication Number Publication Date
JP2022506501A6 JP2022506501A6 (ja) 2022-01-17
JP2022506501A true JP2022506501A (ja) 2022-01-17

Family

ID=70325685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021523900A Pending JP2022506501A (ja) 2018-10-31 2019-09-30 音響効果のテキスト注釈

Country Status (5)

Country Link
US (1) US11375293B2 (ja)
EP (1) EP3874764A4 (ja)
JP (1) JP2022506501A (ja)
CN (1) CN113424554A (ja)
WO (1) WO2020091930A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11170271B2 (en) * 2019-06-26 2021-11-09 Dallas Limetree, LLC Method and system for classifying content using scoring for identifying psychological factors employed by consumers to take action
US11636117B2 (en) 2019-06-26 2023-04-25 Dallas Limetree, LLC Content selection using psychological factor vectors
US11481563B2 (en) * 2019-11-08 2022-10-25 Adobe Inc. Translating texts for videos based on video context
CN111770375B (zh) 2020-06-05 2022-08-23 百度在线网络技术(北京)有限公司 视频处理方法、装置、电子设备及存储介质
CN111933188B (zh) * 2020-09-14 2021-02-05 电子科技大学 一种基于卷积神经网络的声音事件检测方法
US20220414381A1 (en) * 2021-06-28 2022-12-29 Adobe Inc. Deep learning system for determining audio recommendations based on video content
US20230405468A1 (en) * 2022-05-24 2023-12-21 Microsoft Technology Licensing, Llc Leveraging machine learning models to implement accessibility features during gameplay

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002102532A (ja) * 2000-06-06 2002-04-09 Sony Computer Entertainment Inc 情報処理システム、方法、コンピュータプログラム、記録媒体、半導体デバイス
JP2004080069A (ja) * 2002-08-09 2004-03-11 Sharp Corp テレビジョン受像機
WO2015056383A1 (ja) * 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
JP6332652B1 (ja) * 2016-12-15 2018-05-30 株式会社コナミデジタルエンタテインメント 表示制御装置、及びプログラム

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903867A (en) 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
US5704013A (en) 1994-09-16 1997-12-30 Sony Corporation Map determination method and apparatus
JPH08123462A (ja) 1994-10-27 1996-05-17 Sony Corp 音声認識装置
US5796921A (en) 1994-10-28 1998-08-18 Sony Corporation Mapping determination methods and data discrimination methods using the same
JP2907079B2 (ja) 1995-10-16 1999-06-21 ソニー株式会社 ナビゲーション装置,ナビゲート方法及び自動車
JPH09114489A (ja) 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
US6067521A (en) 1995-10-16 2000-05-23 Sony Corporation Interrupt correction of speech recognition for a navigation device
JPH09321894A (ja) 1996-05-31 1997-12-12 Sony Corp 情報処理装置
US6266442B1 (en) 1998-10-23 2001-07-24 Facet Technology Corp. Method and apparatus for identifying objects depicted in a videostream
WO2000040377A1 (fr) 1999-01-07 2000-07-13 Sony Corporation Appareil de type machine, procede d'actionnement de celui-ci et support enregistre
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval
JP4633936B2 (ja) 1999-02-09 2011-02-16 ソニー株式会社 情報処理装置および方法、並びに提供媒体
JP2001100781A (ja) 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2001188781A (ja) 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
JP2002358095A (ja) 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
US7145571B2 (en) 2002-11-01 2006-12-05 Tenebraex Corporation Technique for enabling color blind persons to distinguish between various colors
EP1610221A4 (en) 2003-03-28 2009-01-07 Sony Corp INFORMATION PROVIDER DEVICE, ASSOCIATED METHOD, AND INFORMATION PROVIDER SYSTEM
JP2004299033A (ja) 2003-04-01 2004-10-28 Sony Corp ロボット装置、情報処理方法、およびプログラム
JP2005078456A (ja) 2003-09-01 2005-03-24 Sony Corp コンテンツ提供システム
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US20070011012A1 (en) 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
US7729689B2 (en) 2006-07-13 2010-06-01 International Business Machines Corporation Mobile wireless device adaptation based on abstracted contectual situation of user using near-field communications and information collectors
TWI317914B (en) 2006-08-03 2009-12-01 Via Tech Inc Color-displayed method, color-changed method and apparatus thereof
US7859547B2 (en) 2007-09-25 2010-12-28 Himax Technologies Limited Display parameter adjusting method and apparatus for scene change compensation
US8743125B2 (en) 2008-03-11 2014-06-03 Sony Computer Entertainment Inc. Method and apparatus for providing natural facial animation
US8373742B2 (en) 2008-03-27 2013-02-12 Motorola Mobility Llc Method and apparatus for enhancing and adding context to a video call image
US20110173235A1 (en) 2008-09-15 2011-07-14 Aman James A Session automated recording together with rules based indexing, analysis and expression of content
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
CN101697580B (zh) 2009-10-30 2014-12-10 中兴通讯股份有限公司 一种实现可视电话的方法和装置
US8842911B2 (en) 2011-02-04 2014-09-23 Apple Inc. Luma-based color matching
US9544543B2 (en) 2011-02-11 2017-01-10 Tangome, Inc. Augmenting a video conference
US8665307B2 (en) 2011-02-11 2014-03-04 Tangome, Inc. Augmenting a video conference
EP2756682A4 (en) 2011-09-12 2015-08-19 Intel Corp NETWORK CAPTURE AND 3D DISPLAY OF LOCALIZED AND SEGMENTED IMAGES
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US11074495B2 (en) 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US8886576B1 (en) 2012-06-22 2014-11-11 Google Inc. Automatic label suggestions for albums based on machine learning
US8947491B2 (en) 2012-06-28 2015-02-03 Microsoft Corporation Communication system
CN103797787B (zh) 2012-09-10 2017-06-20 华为技术有限公司 图像处理方法和图像处理设备
US9202431B2 (en) 2012-10-17 2015-12-01 Disney Enterprises, Inc. Transfusive image manipulation
US9317531B2 (en) 2012-10-18 2016-04-19 Microsoft Technology Licensing, Llc Autocaptioning of images
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
CN104065979A (zh) * 2013-03-22 2014-09-24 北京中传数广技术有限公司 一种动态显示和视频内容相关联信息方法及系统
US9229616B2 (en) 2013-05-28 2016-01-05 Rovi Guides, Inc. Methods and systems for arranging media objects on a display screen to compensate for user disabilities
KR20150021258A (ko) 2013-08-20 2015-03-02 삼성전자주식회사 디스플레이장치 및 그 제어방법
AU2013242830B2 (en) 2013-10-10 2016-11-24 Canon Kabushiki Kaisha A method for improving tracking in crowded situations using rival compensation
GB201318658D0 (en) 2013-10-22 2013-12-04 Microsoft Corp Controlling resolution of encoded video
US10049477B1 (en) 2014-06-27 2018-08-14 Google Llc Computer-assisted text and visual styling for images
EP3218854B1 (en) 2014-11-14 2021-01-06 Google LLC Generating natural language descriptions of images
US10109092B1 (en) 2015-03-24 2018-10-23 Imagical LLC Automated text layout, color and other stylization on an image or video, and the tracking and application of user color preferences
US9836671B2 (en) 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
US20170132821A1 (en) 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Caption generation for visual media
US9665930B1 (en) 2015-11-10 2017-05-30 Adobe Systems Incorporated Selective editing of images using editing tools with persistent tool settings
CN105632501B (zh) * 2015-12-30 2019-09-03 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
US10112113B2 (en) 2016-03-30 2018-10-30 Sony Interactive Entertainment Inc. Personalized data driven game training system
CN105872855A (zh) * 2016-05-26 2016-08-17 广州酷狗计算机科技有限公司 视频文件的标注方法及装置
US9774911B1 (en) 2016-07-29 2017-09-26 Rovi Guides, Inc. Methods and systems for automatically evaluating an audio description track of a media asset
US10607609B2 (en) 2016-08-12 2020-03-31 Magic Leap, Inc. Word flow annotation
EP3497629B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Generating audio using neural networks
US10613630B2 (en) 2016-09-30 2020-04-07 Sony Interactive Entertainment Inc. Temperature controlled headset apparatus
US10558750B2 (en) 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
CN106598948B (zh) * 2016-12-19 2019-05-03 杭州语忆科技有限公司 基于长短期记忆神经网络结合自动编码器的情绪识别方法
US11017556B2 (en) 2017-10-04 2021-05-25 Nvidia Corporation Iterative spatio-temporal action detection in video
US10740620B2 (en) 2017-10-12 2020-08-11 Google Llc Generating a video segment of an action from a video
US20190197315A1 (en) 2017-12-21 2019-06-27 Facebook, Inc. Automatic story generation for live media
US11372917B2 (en) * 2017-12-27 2022-06-28 Meta Platforms, Inc. Labeling video files using acoustic vectors
US10922534B2 (en) 2018-10-26 2021-02-16 At&T Intellectual Property I, L.P. Identifying and addressing offensive actions in visual communication sessions
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US20200129860A1 (en) 2018-10-31 2020-04-30 Sony Interactive Entertainment Inc. Action description for on-demand accessibility
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002102532A (ja) * 2000-06-06 2002-04-09 Sony Computer Entertainment Inc 情報処理システム、方法、コンピュータプログラム、記録媒体、半導体デバイス
JP2004080069A (ja) * 2002-08-09 2004-03-11 Sharp Corp テレビジョン受像機
WO2015056383A1 (ja) * 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
JP6332652B1 (ja) * 2016-12-15 2018-05-30 株式会社コナミデジタルエンタテインメント 表示制御装置、及びプログラム

Also Published As

Publication number Publication date
EP3874764A1 (en) 2021-09-08
CN113424554A (zh) 2021-09-21
US11375293B2 (en) 2022-06-28
WO2020091930A1 (en) 2020-05-07
US20200137463A1 (en) 2020-04-30
EP3874764A4 (en) 2022-08-03

Similar Documents

Publication Publication Date Title
US11636673B2 (en) Scene annotation using machine learning
US11631225B2 (en) Graphical style modification for video games using machine learning
US10854109B2 (en) Color accommodation for on-demand accessibility
JP2022506501A (ja) 音響効果のテキスト注釈
JP2022506501A6 (ja) 音響効果のテキスト注釈
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
US20200129860A1 (en) Action description for on-demand accessibility
US11551393B2 (en) Systems and methods for animation generation
US11640519B2 (en) Systems and methods for domain adaptation in neural networks using cross-domain batch normalization
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
US11847726B2 (en) Method for outputting blend shape value, storage medium, and electronic device
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
WO2022106654A2 (en) Methods and systems for video translation
JPWO2018203549A1 (ja) 信号変更装置、方法、及びプログラム
Ma et al. Unpaired image-to-speech synthesis with multimodal information bottleneck
CN112800263A (zh) 一种基于人工智能的视频合成系统、方法及介质
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
Jha et al. Cross-language speech dependent lip-synchronization
CN117115310A (zh) 一种基于音频和图像的数字人脸生成方法及系统
Vougioukas et al. Dino: A conditional energy-based gan for domain translation
Fernandez-Lopez et al. Optimizing phoneme-to-viseme mapping for continuous lip-reading in spanish
CN112766101A (zh) 一种中文唇语识别建模单元集的构建方法
Christoff et al. Audio-Driven 3D Talking Face for Realistic Holographic Mixed-Reality Telepresence
US20230362451A1 (en) Generation of closed captions based on various visual and non-visual elements in content
US20230274758A1 (en) Method and electronic device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220719

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220802