JP2022506501A - 音響効果のテキスト注釈 - Google Patents
音響効果のテキスト注釈 Download PDFInfo
- Publication number
- JP2022506501A JP2022506501A JP2021523900A JP2021523900A JP2022506501A JP 2022506501 A JP2022506501 A JP 2022506501A JP 2021523900 A JP2021523900 A JP 2021523900A JP 2021523900 A JP2021523900 A JP 2021523900A JP 2022506501 A JP2022506501 A JP 2022506501A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- module
- audio segment
- major
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/001—Teaching or communicating with blind persons
- G09B21/008—Teaching or communicating with blind persons using visual presentation of the information for the partially sighted
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/001—Teaching or communicating with blind persons
- G09B21/007—Teaching or communicating with blind persons using both tactile and audible presentation of the information
Abstract
Description
本開示の態様によれば、オンデマンドアクセシビリティシステムは、障害のあるユーザへのアクセシビリティを改善するために既存のメディアの強化を提供する。さらに、オンデマンドアクセシビリティシステムは、障害のないユーザに美的メリットと改善された体験を提供することができる。さらに、オンデマンドアクセシビリティシステムは、既存のメディアを変更することなく、障害者向けのアクセシビリティコンテンツを作成するので、メディアシステムの機能を向上させる。この場合のメディアは、ビデオゲーム、映画、テレビ、または音楽であり得る。オンデマンドアクセシビリティシステムは、字幕、テキスト読み上げの記述、カラーの変更及びスタイルの変更を適用して、障害を持つ人々へのビデオゲームやその他のメディアのアクセシビリティを助ける。
一般に、オンデマンドアクセシビリティシステムのコンポーネントシステムで使用されるニューラルネットワークは、いくつかの異なるタイプのニューラルネットワークのうちの1つ以上を含むことができ、多くの異なる層を有し得る。限定ではなく例として、分類ニューラルネットワークは、1つ以上の畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、及び/または動的ニューラルネットワーク(DNN)からなり得る。
オートエンコーダは、教師なし学習と呼ばれる方法を使用してトレーニングされたニューラルネットワークである。教師なし学習では、エンコーダNNにはデコーダNN対応物が提供され、エンコーダとデコーダは単一のユニットとして一緒にトレーニングされる。オートエンコーダの基本的な機能は、Rdの要素である入力xを受け取り、それをRdの要素である表現hにマッピングすることであり、このマッピングされた表現は、特徴ベクトルとも呼ばれる。タイプh=fθ=σ(Wχ+b)の決定論的関数は、パラメータθ={W,b}で、特徴ベクトルを作成するために使用される。次に、デコーダNNを使用して、f:y=fθ’(h)=σ(W’h+b’)の逆によって代表的な特徴ベクトルからの入力を再構築し、ここでθ’={W’,b’}であり、2つのパラメータのセットが入力をエンコードして表現をデコードするために同じ重みを使用して、W’=WTの形式に制約されてもよい。各トレーニング入力χiは、その特徴ベクトルhi及びその再構成yiにマッピングされる。これらのパラメータは、クロスエントロピーコスト関数などのトレーニングセットに対して適切なコスト関数を最小化することによってトレーニングされる。畳み込みオートエンコーダは、重みが入力のすべての場所で共有されることを除いて、基本的なオートエンコーダと同様に機能する。従って(例えば白黒画像などの)単チャネル入力xに対して、k番目の特徴マップの表現はバイアスがマップ全体にブロードキャストされ、hk=σ(x*Wk+bk)によって与えられる。変数σは活性化関数を表し、bは潜在マップごとに使用される単一のバイアスを表し、Wはマップ全体で共有される重みを表し、*は2D畳み込み演算子である。入力を再構築する式は次の式で与えられる。
y=σ(Σk∈Hhk*W^k+C)
アクション記述モジュール110は、入力としてビデオストリームから画像フレームの短いシーケンスを受け取り、ビデオストリーム内で発生するアクティビティのテキスト記述を生成する。これを実装するために、3つの畳み込みニューラルネットワークが使用される。第1のアクション記述NN301は、本明細書ではウィンドウと呼ばれるビデオフレームの短いシーケンスを受け取り、セグメントレベルまたはビデオレベルの特徴ベクトル、例えば、ウィンドウ内のビデオフレームごとに1つの特徴ベクトルを生成する。
シーン注釈コンポーネントモジュール120は、ユーザに提示されたビデオストリームからの画像フレームを使用して、画像フレーム内のシーン要素のテキスト記述を生成する。シーン注釈モジュール120の出力は、例えば、テキストの形式でのシーンの自然言語記述とすることができ、これは、次に、例えば、ビデオタグ付けモジュール107によって実装され得る、テキスト読み上げモジュールによって音声に変換することができる。アクション記述モジュールとは対照的に、シーン注釈コンポーネントシステムは、シーン要素を決定するために単一の画像フレームしか必要としない。ここで、シーン要素は、画像内で発生するアクションとは別のコンテキスト情報を提供する画像の個々のコンポーネントを指す。限定ではなく例として、シーン要素は、図4に示されるように、アクションの背景を提供することができ、アクションは、フィニッシュライン402を横切るランナー401である。示されているシーン要素は次に、道路403、海404、護岸405、帆船406、及び時刻407である。シーン注釈モジュール120は、これらのシーン要素を記述するテキストを生成し、テキストを画像データと組み合わせて、シーンのキャプションを形成することができる。例えば、図4に示されるシーンに限定されないが、シーン注釈モジュール120は、「海のそばの晴れた日で、帆船が遠くに浮かんでいる。道路は壁の前にある。」のようなキャプションを作成することができる。テキストを生成するために、いくつかのニューラルネットワークを使用することができる。
カラー適応モジュール130は、601で示されるように入力としてビデオフレームデータを受信し、602で示されるようにビデオフレームにフィルタを適用する。フィルタは、ビデオフレームの特定のカラーの値を変更する。フィルタは、ビデオフレーム内のカラーの違いを強調するように選択され、色覚障害のあるユーザのためにビデオフレーム内のオブジェクトの視認性を強化するように構成できる。フィルタの適用は、ルールベースとすることができる。具体的には、特定のカラーを区別するのに問題がある人々のために、ビデオフレームのカラーの区別を改善するためにフィルタを選択することができる。さらに、フィルタは、より一般的な視覚障害を持つユーザ向けにビデオを強化することもできる。例えば、暗いビデオは明るくすることができる。
グラフィックスタイル修正モジュール140は、画像フレームのセットからスタイルを受け取り、そのスタイルを画像フレームの第2のセットに適用する。スタイル適合は、カラーパレット、テクスチャ、背景に影響を与える可能性がある。いくつかの実施態様では、NN、例えば、GANは、アニメスタイルのビデオゲーム(例えば、Fortnite)の外観をフォトリアリスティックなスタイル(例えば、Grand Theft Auto)に変換するようにトレーニングされ得る。例えば、Fortnightのようなビデオゲームでは、環境とキャラクターに鮮やかな緑と赤のカラーが使用されるが、Bloodborneのようなゲームでは、環境とキャラクターにさめた濃い茶のカラーが使用される。グラフィックスタイル修正コンポーネントは、鮮やかな緑と赤のカラースタイルパレットを受け取ってBloodborneに適用することができる。したがって、元のBloodborneのくすんだ茶色の環境は、実際の環境のジオメトリが一定のままで、明るい緑と赤に置き換えられる。
グラフィックスタイル修正コンポーネントは、敵対的生成ニューラルネットワークレイアウトを使用して実装できる。敵対的生成NN(GAN)レイアウトは、入力画像zのデータを受け取り、それらG(z、θg)にマッピング関数を適用して、入力画像に適用されるスタイルのソース画像セット(x)の特性を近似し、ここで、θgはNNパラメータである。GANの出力は、ソース画像セットのスタイルにマッピングされたカラーのスタイルに適合した入力画像データである。
敵対的生成NN(GAN)レイアウトのトレーニングには、2つのNNが必要である。2つのNNは、互いに対向して設定されており、第1のNN702は、ソース画像フレーム701及びターゲット画像フレーム705から合成ソース画像フレーム705を生成し、第2のNNは、画像706をターゲット画像フレーム704であるか否かのいずれかとして分類する。第1のNN702は、第2のNN706によって行われた分類に基づいて708でトレーニングされる。第2のNN706は、分類が正確にターゲット画像フレーム704を特定したかどうかに基づいて、709でトレーニングされる。第1のNN702は、以下では生成的NNまたはGNNと呼ばれるが、入力画像(z)を受け取り、それらを表現G(z;θg)にマッピングする。
minGmaxDV(D,G)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log1-logD(G(z))である。
ビデオゲームを含む多くのタイプのオーディオビジュアルメディアでは、シーン内で一度に複数の音が発生することがよくある。これらの複数の音には、他の音よりも重要な音が含まれている。例えば、シーンには、風音や交通音などの背景ノイズだけでなく、銃声、タイヤのきしみ音、足音などの前景音が含まれる場合がある。背景音と前景音はそれぞれ異なる音レベルである可能性がある。現在、ほとんどのオーディオビジュアルコンテンツにはこれらの音の重要性に関する情報が含まれておらず、最も大きな音にラベルを付けるだけでは実際の重要性を捉えることはできない。例えば、ビデオゲームでは、風や雨などの環境音が高レベルで再生され、足音が低レベルで再生される場合があるが、ユーザにとって足音は、敵が接近している可能性があることを示す場合があるため、より重要で目立つ音を表す。
Claims (17)
- オーディオビジュアルコンテンツのアクセシビリティを強化するためのシステムであって、
オーディオセグメント内で発生する主要なオーディオイベントを分類して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する1つ以上のタグを生成するように構成されている音響効果注釈モジュールを含む、
システム。 - 前記1つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位3つの最も重要な音を含む、請求項1に記載のシステム。
- 前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項1に記載のシステム。
- 前記音響効果注釈モジュールが、前記オーディオセグメント内で発生する前記主要な音響効果を分類するように構成されているニューラルネットワークを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項1に記載のシステム。
- 前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要な音響効果を分類するための時間以下である、請求項1に記載のシステム。
- 前記音響効果注釈モジュールに結合されたコントローラをさらに含み、前記コントローラは、表示画面に表示するために前記1つ以上のタグをホストシステムに提供し、前記音響効果注釈モジュールの出力を1つ以上の他のニューラルネットワークモジュールと同期させるように構成されている、請求項1に記載のシステム。
- 前記1つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項6に記載のシステム。
- ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記1つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項1に記載のシステム。
- オーディオビジュアルコンテンツのアクセシビリティを強化するための方法であって、
オーディオセグメント内で発生する主要な音響効果を分類して、音響効果注釈モジュールを使用して前記オーディオセグメント内で発生する前記主要な音響効果を記述する1つ以上のタグを生成することを含む、方法。 - 前記1つ以上の主要なオーディオイベントが、前記オーディオセグメント内の上位3つの最も重要な音を含む、請求項9に記載の方法。
- 前記オーディオセグメントが、複数のソースに関連付けられた複数の音を有するビデオゲームオーディオのクリップである、請求項9に記載の方法。
- オーディオ記述モジュールを用いて前記オーディオセグメント内で発生する主要なオーディオイベントを分類することは、ニューラルネットワークを使用して前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類することを含み、前記ニューラルネットワークは教師あり学習技術と教師なし学習技術の両方でトレーニングされる、請求項9に記載の方法。
- 前記オーディオセグメントの持続時間は、ニューラルネットワークが前記オーディオセグメント内で発生する前記主要なオーディオイベントを分類するための時間以下である、請求項9に記載の方法。
- 表示画面に表示するために前記1つ以上のタグをホストシステムに提供することと、オーディオ記述モジュールの出力を、前記オーディオ記述モジュールに結合されたコントローラを備えた1つ以上の他のニューラルネットワークモジュールと同期させることとをさらに含む、請求項9に記載の方法。
- 前記1つ以上の他のニューラルネットワークモジュールが、リファレンス画像フレームからソース画像フレームに適合されたスタイルを適用するように構成されているグラフィックスタイル修正モジュールを含み、前記ソース画像フレームは、前記オーディオセグメント中に現れるように同期される、請求項14に記載の方法。
- ホストシステム及びアクション記述モジュールに結合されたコントローラをさらに含み、前記コントローラは、前記1つ以上のタグに対応するテキストの表現を、前記オーディオセグメントに関連付けられた一連の画像フレームの表示と同期させるように構成されている、請求項9に記載の方法。
- コンピュータ可読命令を中に具現化している非一時的なコンピュータ可読媒体であって、前記命令は、実行時に、オーディオビジュアルコンテンツのアクセシビリティを強化するための方法を実施するように構成されており、前記方法は、
オーディオセグメント内で発生する主要なオーディオイベントを分類して、オーディオ記述モジュールを使用して、前記オーディオセグメント内で発生する前記主要なオーディオイベントを記述する1つ以上のタグを生成することを含む、非一時的なコンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/177,232 US11375293B2 (en) | 2018-10-31 | 2018-10-31 | Textual annotation of acoustic effects |
US16/177,232 | 2018-10-31 | ||
PCT/US2019/053751 WO2020091930A1 (en) | 2018-10-31 | 2019-09-30 | Textual annotation of acoustic effects |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022506501A6 JP2022506501A6 (ja) | 2022-01-17 |
JP2022506501A true JP2022506501A (ja) | 2022-01-17 |
Family
ID=70325685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021523900A Pending JP2022506501A (ja) | 2018-10-31 | 2019-09-30 | 音響効果のテキスト注釈 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11375293B2 (ja) |
EP (1) | EP3874764A4 (ja) |
JP (1) | JP2022506501A (ja) |
CN (1) | CN113424554A (ja) |
WO (1) | WO2020091930A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977872B2 (en) | 2018-10-31 | 2021-04-13 | Sony Interactive Entertainment Inc. | Graphical style modification for video games using machine learning |
US11170271B2 (en) * | 2019-06-26 | 2021-11-09 | Dallas Limetree, LLC | Method and system for classifying content using scoring for identifying psychological factors employed by consumers to take action |
US11636117B2 (en) | 2019-06-26 | 2023-04-25 | Dallas Limetree, LLC | Content selection using psychological factor vectors |
US11481563B2 (en) * | 2019-11-08 | 2022-10-25 | Adobe Inc. | Translating texts for videos based on video context |
CN111770375B (zh) | 2020-06-05 | 2022-08-23 | 百度在线网络技术(北京)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN111933188B (zh) * | 2020-09-14 | 2021-02-05 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
US20220414381A1 (en) * | 2021-06-28 | 2022-12-29 | Adobe Inc. | Deep learning system for determining audio recommendations based on video content |
US20230405468A1 (en) * | 2022-05-24 | 2023-12-21 | Microsoft Technology Licensing, Llc | Leveraging machine learning models to implement accessibility features during gameplay |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002102532A (ja) * | 2000-06-06 | 2002-04-09 | Sony Computer Entertainment Inc | 情報処理システム、方法、コンピュータプログラム、記録媒体、半導体デバイス |
JP2004080069A (ja) * | 2002-08-09 | 2004-03-11 | Sharp Corp | テレビジョン受像機 |
WO2015056383A1 (ja) * | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
JP6332652B1 (ja) * | 2016-12-15 | 2018-05-30 | 株式会社コナミデジタルエンタテインメント | 表示制御装置、及びプログラム |
Family Cites Families (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5903867A (en) | 1993-11-30 | 1999-05-11 | Sony Corporation | Information access system and recording system |
US5704013A (en) | 1994-09-16 | 1997-12-30 | Sony Corporation | Map determination method and apparatus |
JPH08123462A (ja) | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
US5796921A (en) | 1994-10-28 | 1998-08-18 | Sony Corporation | Mapping determination methods and data discrimination methods using the same |
JP2907079B2 (ja) | 1995-10-16 | 1999-06-21 | ソニー株式会社 | ナビゲーション装置,ナビゲート方法及び自動車 |
JPH09114489A (ja) | 1995-10-16 | 1997-05-02 | Sony Corp | 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車 |
US6067521A (en) | 1995-10-16 | 2000-05-23 | Sony Corporation | Interrupt correction of speech recognition for a navigation device |
JPH09321894A (ja) | 1996-05-31 | 1997-12-12 | Sony Corp | 情報処理装置 |
US6266442B1 (en) | 1998-10-23 | 2001-07-24 | Facet Technology Corp. | Method and apparatus for identifying objects depicted in a videostream |
WO2000040377A1 (fr) | 1999-01-07 | 2000-07-13 | Sony Corporation | Appareil de type machine, procede d'actionnement de celui-ci et support enregistre |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
JP4633936B2 (ja) | 1999-02-09 | 2011-02-16 | ソニー株式会社 | 情報処理装置および方法、並びに提供媒体 |
JP2001100781A (ja) | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
JP2001188781A (ja) | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
US6505153B1 (en) | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
US6925455B2 (en) * | 2000-12-12 | 2005-08-02 | Nec Corporation | Creating audio-centric, image-centric, and integrated audio-visual summaries |
JP2002358095A (ja) | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
US7145571B2 (en) | 2002-11-01 | 2006-12-05 | Tenebraex Corporation | Technique for enabling color blind persons to distinguish between various colors |
EP1610221A4 (en) | 2003-03-28 | 2009-01-07 | Sony Corp | INFORMATION PROVIDER DEVICE, ASSOCIATED METHOD, AND INFORMATION PROVIDER SYSTEM |
JP2004299033A (ja) | 2003-04-01 | 2004-10-28 | Sony Corp | ロボット装置、情報処理方法、およびプログラム |
JP2005078456A (ja) | 2003-09-01 | 2005-03-24 | Sony Corp | コンテンツ提供システム |
DE60320414T2 (de) * | 2003-11-12 | 2009-05-20 | Sony Deutschland Gmbh | Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen |
US20070011012A1 (en) | 2005-07-11 | 2007-01-11 | Steve Yurick | Method, system, and apparatus for facilitating captioning of multi-media content |
US7729689B2 (en) | 2006-07-13 | 2010-06-01 | International Business Machines Corporation | Mobile wireless device adaptation based on abstracted contectual situation of user using near-field communications and information collectors |
TWI317914B (en) | 2006-08-03 | 2009-12-01 | Via Tech Inc | Color-displayed method, color-changed method and apparatus thereof |
US7859547B2 (en) | 2007-09-25 | 2010-12-28 | Himax Technologies Limited | Display parameter adjusting method and apparatus for scene change compensation |
US8743125B2 (en) | 2008-03-11 | 2014-06-03 | Sony Computer Entertainment Inc. | Method and apparatus for providing natural facial animation |
US8373742B2 (en) | 2008-03-27 | 2013-02-12 | Motorola Mobility Llc | Method and apparatus for enhancing and adding context to a video call image |
US20110173235A1 (en) | 2008-09-15 | 2011-07-14 | Aman James A | Session automated recording together with rules based indexing, analysis and expression of content |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
CN101697580B (zh) | 2009-10-30 | 2014-12-10 | 中兴通讯股份有限公司 | 一种实现可视电话的方法和装置 |
US8842911B2 (en) | 2011-02-04 | 2014-09-23 | Apple Inc. | Luma-based color matching |
US9544543B2 (en) | 2011-02-11 | 2017-01-10 | Tangome, Inc. | Augmenting a video conference |
US8665307B2 (en) | 2011-02-11 | 2014-03-04 | Tangome, Inc. | Augmenting a video conference |
EP2756682A4 (en) | 2011-09-12 | 2015-08-19 | Intel Corp | NETWORK CAPTURE AND 3D DISPLAY OF LOCALIZED AND SEGMENTED IMAGES |
US9916538B2 (en) | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
US11074495B2 (en) | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US8886576B1 (en) | 2012-06-22 | 2014-11-11 | Google Inc. | Automatic label suggestions for albums based on machine learning |
US8947491B2 (en) | 2012-06-28 | 2015-02-03 | Microsoft Corporation | Communication system |
CN103797787B (zh) | 2012-09-10 | 2017-06-20 | 华为技术有限公司 | 图像处理方法和图像处理设备 |
US9202431B2 (en) | 2012-10-17 | 2015-12-01 | Disney Enterprises, Inc. | Transfusive image manipulation |
US9317531B2 (en) | 2012-10-18 | 2016-04-19 | Microsoft Technology Licensing, Llc | Autocaptioning of images |
US20140181668A1 (en) | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
CN104065979A (zh) * | 2013-03-22 | 2014-09-24 | 北京中传数广技术有限公司 | 一种动态显示和视频内容相关联信息方法及系统 |
US9229616B2 (en) | 2013-05-28 | 2016-01-05 | Rovi Guides, Inc. | Methods and systems for arranging media objects on a display screen to compensate for user disabilities |
KR20150021258A (ko) | 2013-08-20 | 2015-03-02 | 삼성전자주식회사 | 디스플레이장치 및 그 제어방법 |
AU2013242830B2 (en) | 2013-10-10 | 2016-11-24 | Canon Kabushiki Kaisha | A method for improving tracking in crowded situations using rival compensation |
GB201318658D0 (en) | 2013-10-22 | 2013-12-04 | Microsoft Corp | Controlling resolution of encoded video |
US10049477B1 (en) | 2014-06-27 | 2018-08-14 | Google Llc | Computer-assisted text and visual styling for images |
EP3218854B1 (en) | 2014-11-14 | 2021-01-06 | Google LLC | Generating natural language descriptions of images |
US10109092B1 (en) | 2015-03-24 | 2018-10-23 | Imagical LLC | Automated text layout, color and other stylization on an image or video, and the tracking and application of user color preferences |
US9836671B2 (en) | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
US20170132821A1 (en) | 2015-11-06 | 2017-05-11 | Microsoft Technology Licensing, Llc | Caption generation for visual media |
US9665930B1 (en) | 2015-11-10 | 2017-05-30 | Adobe Systems Incorporated | Selective editing of images using editing tools with persistent tool settings |
CN105632501B (zh) * | 2015-12-30 | 2019-09-03 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
US10112113B2 (en) | 2016-03-30 | 2018-10-30 | Sony Interactive Entertainment Inc. | Personalized data driven game training system |
CN105872855A (zh) * | 2016-05-26 | 2016-08-17 | 广州酷狗计算机科技有限公司 | 视频文件的标注方法及装置 |
US9774911B1 (en) | 2016-07-29 | 2017-09-26 | Rovi Guides, Inc. | Methods and systems for automatically evaluating an audio description track of a media asset |
US10607609B2 (en) | 2016-08-12 | 2020-03-31 | Magic Leap, Inc. | Word flow annotation |
EP3497629B1 (en) | 2016-09-06 | 2020-11-04 | Deepmind Technologies Limited | Generating audio using neural networks |
US10613630B2 (en) | 2016-09-30 | 2020-04-07 | Sony Interactive Entertainment Inc. | Temperature controlled headset apparatus |
US10558750B2 (en) | 2016-11-18 | 2020-02-11 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN106598948B (zh) * | 2016-12-19 | 2019-05-03 | 杭州语忆科技有限公司 | 基于长短期记忆神经网络结合自动编码器的情绪识别方法 |
US11017556B2 (en) | 2017-10-04 | 2021-05-25 | Nvidia Corporation | Iterative spatio-temporal action detection in video |
US10740620B2 (en) | 2017-10-12 | 2020-08-11 | Google Llc | Generating a video segment of an action from a video |
US20190197315A1 (en) | 2017-12-21 | 2019-06-27 | Facebook, Inc. | Automatic story generation for live media |
US11372917B2 (en) * | 2017-12-27 | 2022-06-28 | Meta Platforms, Inc. | Labeling video files using acoustic vectors |
US10922534B2 (en) | 2018-10-26 | 2021-02-16 | At&T Intellectual Property I, L.P. | Identifying and addressing offensive actions in visual communication sessions |
US10854109B2 (en) | 2018-10-31 | 2020-12-01 | Sony Interactive Entertainment Inc. | Color accommodation for on-demand accessibility |
US11636673B2 (en) | 2018-10-31 | 2023-04-25 | Sony Interactive Entertainment Inc. | Scene annotation using machine learning |
US20200129860A1 (en) | 2018-10-31 | 2020-04-30 | Sony Interactive Entertainment Inc. | Action description for on-demand accessibility |
US10977872B2 (en) | 2018-10-31 | 2021-04-13 | Sony Interactive Entertainment Inc. | Graphical style modification for video games using machine learning |
-
2018
- 2018-10-31 US US16/177,232 patent/US11375293B2/en active Active
-
2019
- 2019-09-30 CN CN201980077574.XA patent/CN113424554A/zh active Pending
- 2019-09-30 WO PCT/US2019/053751 patent/WO2020091930A1/en unknown
- 2019-09-30 EP EP19880480.9A patent/EP3874764A4/en active Pending
- 2019-09-30 JP JP2021523900A patent/JP2022506501A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002102532A (ja) * | 2000-06-06 | 2002-04-09 | Sony Computer Entertainment Inc | 情報処理システム、方法、コンピュータプログラム、記録媒体、半導体デバイス |
JP2004080069A (ja) * | 2002-08-09 | 2004-03-11 | Sharp Corp | テレビジョン受像機 |
WO2015056383A1 (ja) * | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
JP6332652B1 (ja) * | 2016-12-15 | 2018-05-30 | 株式会社コナミデジタルエンタテインメント | 表示制御装置、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3874764A1 (en) | 2021-09-08 |
CN113424554A (zh) | 2021-09-21 |
US11375293B2 (en) | 2022-06-28 |
WO2020091930A1 (en) | 2020-05-07 |
US20200137463A1 (en) | 2020-04-30 |
EP3874764A4 (en) | 2022-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636673B2 (en) | Scene annotation using machine learning | |
US11631225B2 (en) | Graphical style modification for video games using machine learning | |
US10854109B2 (en) | Color accommodation for on-demand accessibility | |
JP2022506501A (ja) | 音響効果のテキスト注釈 | |
JP2022506501A6 (ja) | 音響効果のテキスト注釈 | |
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
US20200129860A1 (en) | Action description for on-demand accessibility | |
US11551393B2 (en) | Systems and methods for animation generation | |
US11640519B2 (en) | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization | |
JP2021192222A (ja) | 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム | |
US11847726B2 (en) | Method for outputting blend shape value, storage medium, and electronic device | |
CN113299312B (zh) | 一种图像生成方法、装置、设备以及存储介质 | |
WO2022106654A2 (en) | Methods and systems for video translation | |
JPWO2018203549A1 (ja) | 信号変更装置、方法、及びプログラム | |
Ma et al. | Unpaired image-to-speech synthesis with multimodal information bottleneck | |
CN112800263A (zh) | 一种基于人工智能的视频合成系统、方法及介质 | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
Jha et al. | Cross-language speech dependent lip-synchronization | |
CN117115310A (zh) | 一种基于音频和图像的数字人脸生成方法及系统 | |
Vougioukas et al. | Dino: A conditional energy-based gan for domain translation | |
Fernandez-Lopez et al. | Optimizing phoneme-to-viseme mapping for continuous lip-reading in spanish | |
CN112766101A (zh) | 一种中文唇语识别建模单元集的构建方法 | |
Christoff et al. | Audio-Driven 3D Talking Face for Realistic Holographic Mixed-Reality Telepresence | |
US20230362451A1 (en) | Generation of closed captions based on various visual and non-visual elements in content | |
US20230274758A1 (en) | Method and electronic device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210430 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220719 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220802 |