JP2022506486A - 機械学習のための同期入力フィードバック - Google Patents

機械学習のための同期入力フィードバック Download PDF

Info

Publication number
JP2022506486A
JP2022506486A JP2021523882A JP2021523882A JP2022506486A JP 2022506486 A JP2022506486 A JP 2022506486A JP 2021523882 A JP2021523882 A JP 2021523882A JP 2021523882 A JP2021523882 A JP 2021523882A JP 2022506486 A JP2022506486 A JP 2022506486A
Authority
JP
Japan
Prior art keywords
input
input event
event
output stream
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021523882A
Other languages
English (en)
Other versions
JP7193630B2 (ja
Inventor
ベネット、マシュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2022506486A publication Critical patent/JP2022506486A/ja
Application granted granted Critical
Publication of JP7193630B2 publication Critical patent/JP7193630B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/24Constructional details thereof, e.g. game controllers with detachable joystick handles
    • A63F13/245Constructional details thereof, e.g. game controllers with detachable joystick handles specially adapted to a particular type of game, e.g. steering wheels
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/69Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor by enabling or updating specific game elements, e.g. unlocking hidden features, items, levels or versions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【解決手段】同期入力フィードバックを提供する方法及びシステムは、入力イベントを受信することと、入力イベントを出力ストリームに符号化することであって、入力イベントの符号化は、特定のイベントに同期される、符号化することと、出力デバイスを通じて出力ストリームを再現することであって、それによって、再現された出力ストリームへの符号化された入力イベントは、ユーザに対して感知可能でない、再現することと、を含む。【選択図】図1

Description

本開示は、機械学習のためのデータセットを作成することに関する。特に、本開示は、ニューラルネットワークを訓練するための同期入力フィードバックによりデータセットを作成することに関する。
ソフトウェアの品質保証及びリリース試験は典型的には、バグを発見し、コンテンツが品質基準を満たすことを保証するために多くの日数にわたる数人の作業を必要とする。品質保証及びリリース試験タスクを行うために必要とされる作業者の人数及び時間の量を削減するための方式として、機械学習が提案されてきた。この分野に対して機械学習を使用することの現在の問題は、機械を訓練することが、機械がテスタ入力を受信する間に、作業者が莫大な回数の試験手順を繰り返すことを必要とすることである。
本開示の実施形態が生じるのはこの状況においてである。
添付図面と共に以下の詳細な説明を考慮することによって、本開示の態様を容易に理解することができる。
本開示の態様に従った、入力フィードバックを同期する方法のブロック図を表す。 本開示の態様に従った、入力フィードバックを音声出力ストリームと同期する方法のブロック図を示す。 本開示の態様に従った、ビデオ出力ストリーム内のウォーターマークとして入力フィードバックを同期する方法のブロック図を表す。 本開示の態様に従った、ビデオストリーム内のメタデータとして入力フィードバックを同期する方法のブロック図を示す。 本開示の態様に従った、機械学習のための符号化された入力イベントを有する出力ストリームを使用するブロック図を表す。 本開示の態様に従った、入力フィードバックを音声出力ストリームと同期する方法の図を示す。 本開示の態様に従った、同期入力フィードバックを有するシステムにおいて使用するための再帰型ニューラルネットワークの簡易化されたノード図である。 本開示の態様に従った、同期入力フィードバックを有するシステムにおいて使用するための展開された再帰型ニューラルネットワークの簡易化されたノード図である。 本開示の態様に従った、同期入力フィードバックを有するシステムにおいて使用するための畳み込みニューラルネットワークの簡易化された図である。 本開示の態様に従った、同期入力フィードバックを有するシステムにおいてニューラルネットワークを訓練する方法のブロック図である。 本開示の態様に従った、ニューラルネットワークにより同期入力フィードバックを実装するシステムのブロック図を表す。
以下の詳細な説明は、例示を目的として多くの特定の詳細を包含するが、当業者は、以下の詳細への多くの変形及び変更が開示の範囲内にあることを認識するであろう。したがって、特許請求される開示の一般性を失うことなく、及び特許請求される開示に限定を課すことなく、以下で説明される開示の実施形態の実施例が示される。
開示の実施形態の完全な理解を提供するために多数の特定の詳細が示されると共に、それらの特定の詳細なしに、他の実施形態が実施されてもよいことが当業者によって理解されるであろう。他の例では、本開示を曖昧にしないように、公知の方法、手順、構成要素、及び回路が説明されていない。本明細書における説明のいくつかの部分は、コンピュータメモリ内のデータビットまたは二値デジタル信号に対する演算のアルゴリズム及び象徴的表現に関して提示される。それらのアルゴリズムの記述及び表現は、その作業の本質を他の当業者に伝達するために、データ処理の分野における当業者によって使用される技術であってもよい。
本明細書で使用されるようなアルゴリズムは、所望の結果につながる首尾一貫した一連のアクションまたは演算である。それらは、物理量の物理操作を含む。通常、必ずしもそうではないが、それらの量は、記憶され、転送され、組み合わされ、比較され、及びそうでなければ操作されることが可能な電子信号または磁気信号の形式をとる。主に一般的な使用を理由として、これらの信号が、ビット、値、要素、シンボル、文字、用語、または数字などを指すことが便利であり得ることが証明されている。
特に述べられない限り、または以下の議論から明らかでない限り、説明の全体を通じて、「処理する」、「計算する」、「変換する」、「調停する」、「判定する」、または「識別する」などの用語を利用する議論は、コンピュータプラットフォームのアクション及び処理を指し、コンピュータプラットフォームは、プロセッサのレジスタ及びアクセス可能なプラットフォームメモリ内の物理(例えば、電子)量として表されるデータを、コンピュータプラットフォームメモリ、プロセッサレジスタ、またはディスプレイスクリーン内の物理量と同様に表される他のデータに操作及び変換するプロセッサを含む電子コンピューティングデバイスである。
コンピュータプログラムは、それらに限定されないが、フロッピー(登録商標)ディスク、光学ディスク(例えば、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタルビデオディスク(DVD)、ブルーレイディスク(登録商標)など)を含むいずれかのタイプのディスク、及び磁気光学ディスク、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気もしくは光学カード、フラッシュメモリ、または電子命令を記憶するために適切ないずれかの他のタイプの非一時的媒体などのコンピュータ可読記憶媒体に記憶されてもよい。
それらの派生形と共に用語「結合される」及び「接続される」は、本明細書における演算を実行する装置の構成要素の間の構造的関係を説明するために本明細書で使用されてもよい。それらの用語は、相互に同義語として意図されないことは理解されるべきである。むしろ、特定の実施形態では、「接続される」は、2つ以上の要素が相互に直接物理接触または直接電気接触していることを示すために使用されてもよい。いくつかの例では、「接続される」、「接続」、及びそれらの派生形は、例えば、ニューラルネットワーク(NN)内のノード層の間の論理的関係を示すために使用される。「結合される」は、2つ以上の要素が相互に直接物理接触もしくは直接電気接触し、または間接物理接触(それらの間の他の仲介する要素による)もしくは間接電気接触していることのいずれかであること、及び/あるいは2つ以上の要素が相互に協同または通信する(因果関係にあるように)ことを示すために使用されてもよい。
ビデオゲーム及び他のソフトウェアの試験に対して現在訓練している人工エージェントは、多くの作業者が、十分な量の訓練データを生成するために、試験プロトコルを実行及び繰り返すことを必要とする。同期は、テスタがそれらの試験プロトコルを実行する間に、機械学習アルゴリズムがテスタ入力を受信すると共に全ての訓練がライブで実行される必要がある現在の方法による大きな問題である。機械がユーザからの入力をソフトウェア環境内で発生する特定のイベントと同期する方式が存在しないことを理由に、記録された試験性能に対して試験を実行することができない。よって、本開示の態様は、機械学習が入力をソフトウェア環境内で発生する特定のイベントと同期することが可能であるように、ユーザからの入力イベントを出力ストリームに符号化するシステム及び方法を作成することを目的とする。いくつかの実装態様では、入力タイミング情報及び出力タイミング情報を単一の出力ファイルに組み合わせることによって、結果として生じる出力との入力のタイミングの同期を大いに簡易化することができる。
[入力フィードバック機構]
図1は、本開示の態様に従った、入力フィードバックを同期する方法を表す。方法は、入力デバイスからの入力イベントの受信101により開始する。入力イベントは、ボタン押下、ジョイスティック入力、アナログジョイパッド入力、ステアリングホイール入力、またはポテンショメータ入力などであってもよい。いくつかの実装態様では、入力イベントは、ソフトウェア環境内で発生する特定のイベントと同期される。いくつかのケースでは、特定のイベントは、出力ストリーム内の出力イベントまたは一連の出力イベントである。例えば、ビデオゲームでの限定なしに、キー押下(入力イベント)は、ゲーム内のアバタによるアクション(特定のイベント)に先行するよう同期されてもよい。別の実施例として、ミュージックプレイヤにおいて、ポテンショメータの動き(入力イベント)は、振幅の増加(特定のイベント)に先行してもよい。うまく作動しないアプリケーションが誤った振る舞い、長いドゥエル(dwell)(滞在)タイム、または重要な処理に対して応答がないことを示す場合があることを理由に、特定のイベントまたはイベント(複数可)との入力イベントの同期は、ビデオゲーム及びユーザインタフェースなどのいくつかのアプリケーションを試験するために重要である。入力イベントは次いで、出力ストリームに符号化される102。出力ストリームは、音声ストリーム、ビデオストリームなどを含んでもよい。符号化102の間、入力イベントと特定のイベントとの間の同期は、出力ストリーム内で維持されるべきである。限定としてではなくビデオゲームビデオゲームについての実施例として、ビデオストリーム内のアバタのアクションに先行する入力イベントは、アバタのアクションの前にビデオゲームの音声ストリームが発生する時に行われる。この実施例では、音声ストリーム及びビデオストリームが同期され、それは、ほとんどのタイプのマルチメディア表現において一般的である。出力デバイスは次いで、符号化された入力により出力ストリームを再現してもよく、103において示されるようにそれを送信してもよい。実施例として、及び限定としてではなく、出力デバイスは、スピーカ、ディスプレイスクリーン、またはテレビスクリーンであってもよい。103における再現の間の出力ストリームに埋め込まれた符号化された入力は、出力デバイスによって再現されるとき、ユーザに対して検出可能でなく、または少なくとも感知可能でないが、この場合ユーザは、平均的な視覚及び聴覚能力を有する人間である。
図2A及び図4は、入力フィードバックを音声出力ストリームと同期する方法を示す。入力イベント401、402は、入力デバイスから受信される201。上記議論されたように、ほとんどのマルチメディア表現の間、音声ストリーム404及びビデオストリームが同期される。そのようにして、ビデオ出力ストリームまたは音声出力ストリームのいずれかにおいて発生する特定のイベントは、いずれかの出力ストリームにおける適切な時間に行われる符号化された入力イベントと同期されてもよい。入力イベントを音声ストリームに符号化する利点は、ビデオ出力ストリームへの音声出力ストリームの比較的高いサンプルレートである。符号化の間、音声ストリームの低周波数部分406または高周波数部分のいずれかは、高域通過周波数フィルタまたは低域通過周波数フィルタのいずれかを適用することによって除去される202。音声ストリームの低周波数部分は、20ヘルツ未満の音の振動である超低周波音に対応する。音声ストリームの高周波数部分は、20キロヘルツを上回る音の振動である超音波に対応する。概して、超低周波音及び超音波は、成人に対して検出可能でなく、または少なくとも感知可能でない。入力イベントは、音声トーン403に変換されてもよく音声トーン403は次いで、式1に示されるように、周波数ドメインにおける加算、及び各時間ステップにおいて共に加算された音声周波数の合計数による合計の除算によって音声ストリームに混合される203、407。f(a)は、時間ステップtにおける出力ストリームの周波数であり、f(b1…n)は、符号化されたトーンを表し、nは、トーンの数を表し、
[(f(a)+f(b)+….f(b))/(n+1)] 式1
である。
図4に示されるように、ボタン押下の長さ401、402は、トーンの長さ406によって符号化されてもよい。各々のタイプのボタン押下は、異なる周波数トーンとして符号化されてもよい。符号化されたトーンを有する出力音声ストリームは、例えば、フーリエ変換によって分解されてもよく、入力トーンの存在を判定するよう分析されてもよい。出力音声ストリームが出力ビデオストリームに同期される場合、同期音声ストリーム及びビデオストリームは、単一の出力ファイルに保存されてもよく、それは、入力イベントと特定の出力イベントとの間のタイミングを著しく簡易化する。示される実施例では、下向き矢印ボタン押下401は、右向き矢印ボタン押下402、及びトーンが符号化されないボタン押下の間よりも高い周波数406において符号化されてもよい。再生の間、音声データに符号化されたトーンは、ユーザに対して検出可能でないが、ニューラルネットワークによる使用のために復号可能である。特に、本開示の態様に従って、ニューラルネットワークは、ゲームプレイの間に発生するどの特定のイベントが、符号化されたトーンと関連付けられた入力イベントと関連付けられるかを判定するために、トーンから復号された情報を使用してもよい。
図2Bは、ビデオ出力ストリーム内のウォーターマークとして入力フィードバックを同期する方法を表す。入力イベントは、入力デバイスから受信される204。入力イベントは、ビデオ出力ストリームまたは音声出力ストリーム内で発生する特定のイベントと同期されてもよい。入力イベントは次いで、同期を維持すると共に、ウォーターマークとしてビデオストリームに符号化される205。例えば、ビデオ出力ストリーム内の動き、例えば、ビデオゲーム内のアバタの動き、または出力音声ストリームの振幅の増加の前に、キー押下は、ビデオ出力ストリームに符号化される。ウォーターマークは、限定することなく、アルファチャネル内、スクリーン位置内、または視認可能でない透かしに位置してもよい。
図2Cは、ビデオストリーム内のメタデータとして入力フィードバックを同期する方法を示す。以前の通り、同期入力イベントは、入力デバイスから受信される206。同期入力イベントは次いで、ビデオストリームのメタデータ内でビデオストリームと同期して符号化される。メタデータは、ビデオストリームのフレームごとのヘッダまたは補助的拡張情報などであってもよい。入力イベントをビデオ出力ストリームに符号化するとき、出力ストリーム内で符号化された入力イベントのレートは、ビデオストリームのフレームレートにロックされる。そのようにして、符号化された入力のレートは、ビデオストリームに対する典型的なフレームレートである、60~120ヘルツに制限されてもよい。対照的に、入力を音声ストリームに符号化することは、音声ストリームのサンプルレートがビデオのサンプルレートよりもはるかに高いように、それほど制限されない。
[機械学習改善]
概して、ソフトウェアを試験するよう、NNなどの機械学習システムを訓練するために大量の訓練データが必要とされる。ソフトウェア試験の重要な構成要素は、入力イベントが適切なソフトウェアの振る舞いに対応すること、及び入力イベントがユーザ経験に有害なクラッシュまたは他の不都合なイベントをもたらさないことを保証することである。上記議論されたように、ソフトウェア試験NNに対する現在の訓練方法は、NNが訓練している間にテスタが試験プロトコルを実行することを必要とする。このライブ試験データは、ラベル付けされたデータセットとして使用される。そのような情報をNNに提供するように構成されていないソフトウェア環境内で同期入力イベント情報を提供する容易な方式が現在存在しないので、試験はライブで実行される必要がある。そのようなソフトウェア環境は、ビデオゲーム及びユーザインタフェースを含む。
本開示の態様に従って、入力フィードバック機構は、システムの音声出力ストリームまたはビデオ出力ストリーム内で発生する特定のイベントに動機された入力イベント情報を提供することによって、ニューラルネットワーク(NN)の訓練を改善することができる。図3に示される以下の図は、NN訓練を改善するために、符号化された入力イベントを有する出力ストリームを使用する方法を表す。方法は、ストリーム内で符号化された、同期入力イベントを有する出力ストリームを受信すること301により開始する。受信された出力ストリームは、分割され、実際の出力から入力イベントを分離する302ために、分割された出力ストリームの1つにフィルタが適用される。いくつかの実装態様では、NNは、出力ストリームからの入力イベントを分離するよう訓練されてもよい。代わりに、デコーダアプリケーションは、入力イベントを引き出してもよく、それらをNNに別個に供給してもよい。いくつかの実装態様では、出力ストリームは、複製されてもよく、1つの複製された出力ストリームに低域通過フィルタが適用されてもよく、その他の複製された出力ストリームに高域通過フィルタが適用されてもよい。別の実装態様では、出力ストリームのチャネルは、出力ストリームのアルファチャネルを他のチャネルから分離して分割されてもよい。いくつかの実装態様では、フレームメタデータは、ビデオデータから分離されてもよい。
符号化された入力イベントが出力ストリームから分離されると、NNは、実の入力イベントを表すよう、符号化された入力イベントを使用して訓練されてもよい303。符号化された入力イベントが特定のイベントと同期されることを理由に、この方法は有利である。この同期は、出力ストリーム内のイベントの間にあってもよく、または符号化された入力イベントを含む、出力ストリームとは異なる出力ストリーム内のイベントの間にあってもよい。例えば、限定することなく、同期は、音声ストリーム内のトーンとして符号化された入力イベントと、ビデオストリーム内のユーザインタフェース要素の活性化との間にあってもよい。ホストシステムの構成に対する大きな変更なしに、記録されたデータセットにより訓練することを可能にすることを理由に、出力ストリームなどの媒体に容易にアクセスするためのこの同期の維持は、NNの訓練を改善する。本明細書で使用されるように、用語「ホストシステム」は、出力ストリームが再現され、NNが訓練されるデバイスを指す。実施例として、及び限定としてではなく、NNは、以下で議論される方法に従ってソフトウェア試験に対して訓練されてもよい。
[機械学習訓練]
ニューラルネットワーク、ディープラーニング、またはソフトウェア試験を実装する他の機械学習は、いくつかの異なるタイプのニューラルネットワークのうちの1つ以上を含んでもよく、多くの異なる層を有してもよい。実施例として、及び限定としてではなく、ニューラルネットワークは、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、及び/または動的ニューラルネットワーク(DNN)のうちの1つ以上を含んでもよい。
図5Aは、ノード520の層を有するRNNの基本的な形式を表し、ノード520の各々は、活性化関数S、1つの入力重みU、再帰型隠れノード遷移重みW、及び出力遷移重みVによって特徴付けられる。活性化関数Sは、本分野において既知であるいずれかの非線形関数であってもよく、双曲線正接(tanh)関数に限定されない。例えば、活性化関数Sは、シグモイドまたはReLU関数であってもよい。他のタイプのニューラルネットワークとは異なり、RNNは、層全体に対する活性化関数及び重みの1つのセットを有する。図5Bに示されるように、RNNは、時間T及びT+1を移る同一の活性化関数を有する一連のノード520として考えられてもよい。よって、RNNは、前の時間Tから現在の時間T+1までの結果を供給することによって、履歴情報を維持する。
重みU、W、Vを構成することができるいくつかの方式が存在する。例えば、入力重みUは、ビデオ画素値、音声サンプル値、または入力イベント値などに基づいて適用されてもよい。それらの異なる入力に対する重みは、ルックアップテーブルに記憶されてもよく、必要に応じて適用されてもよい。システムが最初に適用するデフォルトの値が存在する。それらは次いで、ユーザによって手動で、または機械学習によって自動で修正されてもよい。
いくつかの実施形態では、畳み込みRNN(CRNN)が使用されてもよい。使用することができる別のタイプのRNNは、参照によって本明細書に組み込まれる、Hochreiter&Schmidhuber「Long Short-term Memory」 Neural Computation 9(8):1734-1780(1997)によって説明されるような、ネットワークがより長い時間期間の間に何らかの情報を保持することを可能にするゲーティングメモリをもたらす、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数によりメモリブロックをRNNノードに追加する、長・短期メモリ(LSTM)ニューラルネットワークである。
図5Cは、本開示の態様に従った、CRNNなどの畳み込みニューラルネットワークの実施例のレイアウトを表す。この表現では、畳み込みニューラルネットワークは、16の単位の総領域を与える、高さにおける4の単位及び幅における4の単位のサイズを有する画像532に対して生成される。表される畳み込みニューラルネットワークは、1のスキップ値及びサイズ9のチャネル536を有する、高さにおける2の単位及び幅における2の単位のサイズを有するフィルタ533を有する。図5Cにおいて明確にするために、チャネルの第1の列とそれらのフィルタウインドウとの間の接続534のみが表される。しかしながら、本開示の態様は、そのような実装態様に限定されない。本開示の態様に従って、ソフトウェア試験を実装する畳み込みニューラルネットワーク529は、任意の数の追加のニューラルネットワークノード層531を有してもよく、任意のサイズの、追加の畳み込み層、完全接続層、プーリング層、マックスプーリング層、局所コントラスト正規化層などとして、そのような層のタイプを含んでもよい。
図5Dにおいて見られるように、ニューラルネットワーク(NN)を訓練することは、NNの重みの初期化541により開始する。概して、初期の重みは、ランダムに分散されるべきである。例えば、tanh活性化関数を有するNNは、-1/√nと1/√nとの間で分散されるランダムな値を有するべきであり、nは、ノードへの入力の数である。
初期化の後、活性化関数及びオプティマイザが定義される。NNは次いで、特徴データセットまたは入力データセットが提供される542。いくつかの実装態様では、ソフトウェア試験NNは、既知のラベル付けを有する入力に対応する特徴ベクトルが提供されてもよい。NNは次いで、特徴または入力についてのラベル及び分類を予測する543。予測されたラベルまたはクラスが、既知のラベルまたはクラス(グラウンドトゥルースとしても知られる)と比較され、損失関数は、全ての訓練サンプルにわたって予測とグラウンドトゥルースとの間の全誤差を測定する544。実施例として、及び限定としてではなく、損失関数は、クロスエントロピ損失関数、二次コスト、トリプレット対照関数、指数関数的コストなどであってもよい。目的に応じて複数の異なる損失関数が使用されてもよい。NNは次いで、損失関数の結果を使用して、及び確率的勾配降下法などによるバックプロパゲーションなどのニューラルネットワークに対する訓練の既知の方法を使用して最適及び訓練される545。各々の訓練エポックでは、オプティマイザは、訓練損失関数(すなわち、全誤差)を最小にするモデルパラメータ(すなわち、重み)を選択することを試みる。データは、訓練サンプル、検証サンプル、及び試験サンプルに区分化される。
訓練の間、オプティマイザは、訓練サンプルに対して損失関数を最小にする。各訓練エポックの後、検証損失及び精度を計算することによって、検証サンプルに対してモードが評価される。著しい変化がない場合、訓練が停止してもよく、試験データのラベルを予測するために、結果として生じる訓練されたモデルが使用されてもよい。
よって、ソフトウェア試験ニューラルネットワークは、既知のターゲットラベルを仮定してクロスエントロピ損失を最小にすることによって、変則のソフトウェア活動を識別及び分類するよう、既知のラベルまたは分類を有する音声ストリーム、ビデオストリーム、及び符号化された入力イベントストリームから訓練されてもよい。
[実装態様]
図6は、本開示の態様に従った、同期入力フィードバックを提供するシステムを表す。システムは、ユーザ入力デバイス602に結合されたコンピューティングデバイス600を含んでもよい。ユーザ入力デバイス602は、コントローラ、タッチスクリーン、マイクロフォン、キーボード、マウス、ジョイスティック、または他の同様のデバイスであってもよい。
コンピューティングデバイス600は、例えば、シングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、及びセルプロセッサなどの公知のアーキテクチャに従って構成することができる、1つ以上のプロセッサユニット603を含んでもよい。コンピューティングデバイスはまた、1つ以上のメモリユニット604(例えば、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、及びリードオンリメモリ(ROM)など)を含んでもよい。
プロセッサユニット603は、1つ以上のプログラムを実行してもよく、1つ以上のプログラムの一部は、メモリ604に記憶されてもよく、プロセッサ603は、例えば、データバス605を介してメモリにアクセスすることによって、メモリに動作可能に結合されてもよい。プログラムは、出力ストリームからの別個の入力イベントに対するフィルタ608を実装するように構成されてもよい。加えて、メモリ604は、NN621の訓練を実装するプログラムを包含してもよい。メモリ604はまた、ユーザ入力デバイス602から出力ストリームへの入力イベントの符号化を実装する、符号化モジュール610などのソフトウェアモジュールを包含してもよい。出力ストリームは、大容量記憶装置615内のプログラム617またはネットワーク620から受信されたプログラム617の実行によって生成されてもよく、入力イベントを符号化する前または後に、メモリ604内のバッファにおいて保持されてもよい。
NNの全体構造及び確率も、大容量記憶装置615にデータ618として記憶されてもよい。プロセッサユニット603は、大容量記憶装置615またはメモリ604に記憶された1つ以上のプログラム617を実行するように更に構成され、1つ以上のプログラム617は、入力デバイス602からの入力イベントを出力ストリーム610に符号化する方法100をプロセッサに実行させる。加えて、プロセッサユニット604は、上記議論された方法300及び500に従ってNNを訓練する方法を実行するように構成されてもよい。システムは、NN訓練工程の一部としてニューラルネットワークを生成してもよい。それらのニューラルネットワークは、サウンドカテゴリ化NNモジュール621においてメモリ604に記憶されてもよい。完了したNNは、メモリ604に記憶されてもよく、または大容量記憶装置615にデータ618として記憶されてもよい。プログラム617(または、その一部)も、例えば、符号化された入力イベント及び別個の出力ストリームを生成するよう適切なフィルタ608を出力ストリームに適用し、符号化された入力イベントによりNN621を訓練し、同期された様式において入力イベントを出力ストリーム610に符号化するための適切なプログラミングによって構成されてもよい。
コンピューティングデバイス600はまた、例えば、バス605を介してシステムの他の構成要素を通信することができる、入力/出力(I/O)607、回路、電力供給装置(P/S)611、クロック(CLK)612、及びキャッシュ613などの公知のサポート回路を含んでもよい。コンピューティングデバイスは、ネットワークインタフェース614を含んでもよい。プロセッサユニット603及びネットワークインタフェース614は、適切なネットワークプロトコル、例えば、パーソナルエリアネットワーク(PAN)に対するBluetooth(登録商標)を介して、ローカルエリアネットワーク(LAN)またはPANを実装するように構成されてもよい。コンピューティングデバイスは任意選択で、ディスクドライブ、CD-ROMドライブ、テープドライブ、またはフラッシュメモリなど大容量記憶装置615を含んでもよく、大容量記憶装置は、プログラム及び/またはデータを記憶してもよい。コンピューティングデバイスはまた、システムとユーザとの間の対話を促進するためのユーザインタフェース616を含んでもよい。ユーザインタフェースは、モニタ、テレビスクリーン、スピーカ、ヘッドフォン、または情報をユーザに通信する他のデバイスを含んでもよい。
コンピューティングデバイス600は、電子通信ネットワーク620を介した通信を促進するためのネットワークインタフェース614を含んでもよい。ネットワークインタフェース614は、ローカルエリアネットワーク及びインターネットなどのワイドエリアネットワークを通じた有線通信または無線通信を実装するように構成されてもよい。デバイス600は、ネットワーク620を通じて1つ以上のメッセージパケットを介してデータ及び/またはファイルについての要求を送信及び受信してもよい。ネットワーク620を通じて送信されるメッセージパケットは、メモリ604内のバッファ609に一時的に記憶されてもよい。出力ストリームは、ネットワーク620を通じて受信されてもよく、またはプログラム617からローカルに生成されてもよい。
上述したことは、本開示の好ましい実施形態の完全な説明であるが、様々な変形物、修正物、及び同等物を使用することが可能である。上記説明は、例示的であり、限定するものではないことを意図していることが理解されよう。例えば、図面におけるフローチャートは、開示の特定の実施形態によって実行される演算の特定の順序を示すが、そのような順序が必須でないことが理解されるべきである(例えば、代替的な実施形態は、異なる順序において演算を実行してもよく、特定の演算を組み合わせてもよく、特定の演算を重複させてもよい、など)。更に、上記説明を読み、理解すると、多くの他の実施形態が当業者にとって明らかである。特定の例示的な実施形態を参照して本開示が説明されてきたが、開示が説明された実施形態に限定されないが、添付の請求項の趣旨及び範囲内で修正及び変形により実施されてもよいことが認識されよう。したがって、開示の範囲は、添付の請求項が権利を与えられる同等物の全範囲に従って、そのような請求項を参照して決定されるべきである。好ましいか否かに関わらず、本明細書で説明されたいずれかの特徴は、好ましいか否かに関わらず、本明細書で説明されたいずれかの他の特徴と組み合わされてもよい。以下の請求項では、不定冠詞「A」または「An」は、明確に述べられる場合を除き、冠詞に続く項目のうちの1つ以上の量を指す。添付の請求項は、ミーンズプラスファンクションの限定が、フレーズ「~する手段(means for)」を使用して所与の請求項に明確に記載されない限り、そのような限定を含むとして解釈されるべきではない。

Claims (21)

  1. 同期入力フィードバックを提供する方法であって、
    a)入力イベントを受信することと、
    b)前記入力イベントを出力ストリームに符号化することであって、前記入力イベントの前記符号化は、特定のイベントと同期される、前記符号化することと、
    c)出力デバイスを通じて前記出力ストリームを再現することであって、前記再現された出力ストリームの前記符号化された入力イベントは、前記出力デバイスを通じて再現されるときにユーザに対して感知可能でない、前記再現することと、
    を備えた、方法。
  2. 前記出力ストリームは、音声ストリームを含み、前記入力イベントは、トーンとして前記音声ストリームに符号化される、請求項1に記載の方法。
  3. 前記入力イベントは、超低周波トーンとして符号化される、請求項2に記載の方法。
  4. 前記入力イベントは、超音波トーンとして符号化される、請求項2に記載の方法。
  5. 前記出力ストリームは、ビデオストリームを含む、請求項1に記載の方法。
  6. 前記入力イベントは、前記ビデオストリーム上でウォーターマークとして符号化される、請求項5に記載の方法。
  7. 前記入力イベントは、メタデータとして前記ビデオストリームに符号化される、請求項5に記載の方法。
  8. 前記メタデータは、ビデオフレームごとの補助的拡張情報である、請求項7に記載の方法。
  9. 前記出力ストリームは、一連のイベントを含み、前記入力イベントの前記符号化は、前記一連の出力イベントと同期される、請求項1に記載の方法。
  10. 前記入力イベントの前記符号化は、ビデオゲーム内で発生するイベントと同期される、請求項1に記載の方法。
  11. 前記入力イベントの前記符号化は、ネットワークを通じてリモートデバイス上で発生するイベントと同期される、請求項1に記載の方法。
  12. 前記入力イベントは、キー押下である、請求項1に記載の方法。
  13. 前記入力イベントは、ジョイスティック制御入力である、請求項1に記載の方法。
  14. 前記入力イベントは、ステアリングホイール制御入力である、請求項1に記載の方法。
  15. 前記符号化された入力を有する前記出力ストリームは、前記出力ストリームから前記符号化された入力イベントを分離するようフィルタリングされる、請求項1に記載の方法。
  16. 前記出力ストリーム及び前記符号化された入力イベントは、ニューラルネットワークに提供される、請求項15に記載の方法。
  17. 前記ニューラルネットワークは、前記符号化された入力イベントを前記特定のイベントと関連付けるよう訓練される、請求項16に記載の方法。
  18. 前記入力イベントは、前記特定のイベントを生じさせるように構成される、請求項1に記載の方法。
  19. 非一時的コンピュータ可読媒体に埋め込まれた命令であって、前記命令は、実行されるとき、
    a)入力イベントを受信することと、
    b)前記入力イベントを出力ストリームに符号化することであって、前記入力イベントの前記符号化は、特定のイベントと同期される、前記符号化することと、
    c)出力デバイスを通じて前記出力ストリームを再現することであって、それによって、前記再現された出力ストリームの前記符号化された入力イベントは、ユーザに対して検出可能でない、前記再現することと、
    を含む方法を実施する、命令。
  20. システムであって、
    プロセッサと、
    メモリと、
    前記メモリ内の非一時的命令と、を備え、前記非一時的命令は、実行されるとき、前記プロセッサに、
    a)入力イベントを受信することと、
    b)前記入力イベントを出力ストリームに符号化することであって、前記入力イベントの前記符号化は、特定のイベントと同期される、前記符号化することと、
    c)出力デバイスを通じて前記出力ストリームを再現することであって、それによって、前記再現された出力ストリームの前記符号化された入力イベントは、ユーザに対して検出可能でない、前記再現することと、
    を含む方法を実施させる、システム。
  21. 改善された機械学習訓練のための方法であって、
    a)符号化された入力イベントを含む出力ストリームを受信することであって、前記符号化された入力イベントは、ユーザに対して検出可能でない、前記受信することと、
    b)前記符号化された入力イベントを復元するよう前記出力ストリームをフィルタリングすることであって、前記符号化された入力イベントは、特定のイベントと同期される、前記フィルタリングすることと、
    c)前記符号化された入力イベントを前記特定のイベントと関連付けるよう、ニューラルネットワークを訓練することと、
    を備えた、方法。
JP2021523882A 2018-10-31 2019-09-27 機械学習のための同期入力フィードバック Active JP7193630B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/177,136 2018-10-31
US16/177,136 US11706499B2 (en) 2018-10-31 2018-10-31 Watermarking synchronized inputs for machine learning
PCT/US2019/053624 WO2020091925A1 (en) 2018-10-31 2019-09-27 Synchronized input feedback for machine learning

Publications (2)

Publication Number Publication Date
JP2022506486A true JP2022506486A (ja) 2022-01-17
JP7193630B2 JP7193630B2 (ja) 2022-12-20

Family

ID=70327326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021523882A Active JP7193630B2 (ja) 2018-10-31 2019-09-27 機械学習のための同期入力フィードバック

Country Status (5)

Country Link
US (2) US11706499B2 (ja)
EP (1) EP3874446A4 (ja)
JP (1) JP7193630B2 (ja)
CN (1) CN113228093A (ja)
WO (1) WO2020091925A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3028481A1 (en) * 2017-12-22 2019-06-22 Cory Fong Reinforcement-based system and method for detecting system vulnerabilities
US20210406697A1 (en) * 2020-06-26 2021-12-30 Nvidia Corporation Interaction determination using one or more neural networks
US11886587B2 (en) * 2020-10-13 2024-01-30 Kyndryl, Inc Malware detection by distributed telemetry data analysis

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232916A (ja) * 2014-06-10 2015-12-24 エヌ・ティ・ティ・ソフトウェア株式会社 操作記録装置、操作記録再生システム、及びプログラム
JP2016031669A (ja) * 2014-07-29 2016-03-07 ヤマハ株式会社 端末装置及びプログラム
JP2018099817A (ja) * 2016-12-20 2018-06-28 株式会社リコー 情報処理装置、画像処理装置及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2499967A1 (en) * 2002-10-15 2004-04-29 Verance Corporation Media monitoring, management and information system
JP2008513167A (ja) 2004-09-21 2008-05-01 タイムプレイ アイピー インク 多人数参加型ゲームのシステム、方法および手持ち式コントローラ
US8631473B2 (en) 2011-07-06 2014-01-14 Symphony Advanced Media Social content monitoring platform apparatuses and systems
US20120197764A1 (en) 2011-02-02 2012-08-02 Ebay Inc. Method and process of using metadata associated with a digital media to search for local inventory
US9299119B2 (en) 2014-02-24 2016-03-29 Disney Enterprises, Inc. Overlay-based watermarking for video synchronization with contextual data
TWI537035B (zh) 2014-10-31 2016-06-11 宏正自動科技股份有限公司 遊戲歷程記錄裝置、遊戲歷程記錄方法及遊戲歷程互動方法
US20160227228A1 (en) 2015-01-29 2016-08-04 Vixs Systems, Inc. Video camera with layered encoding, video system and methods for use therewith
US10245509B2 (en) 2015-10-21 2019-04-02 Activision Publishing, Inc. System and method of inferring user interest in different aspects of video game streams
US20170246544A1 (en) 2016-02-26 2017-08-31 Microsoft Technology Licensing, Llc Video game streaming for spectating
CN111201565A (zh) * 2017-05-24 2020-05-26 调节股份有限公司 用于声对声转换的系统和方法
US10621317B1 (en) * 2017-09-14 2020-04-14 Electronic Arts Inc. Audio-based device authentication system
US10373056B1 (en) * 2018-01-25 2019-08-06 SparkCognition, Inc. Unsupervised model building for clustering and anomaly detection
WO2021030759A1 (en) * 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232916A (ja) * 2014-06-10 2015-12-24 エヌ・ティ・ティ・ソフトウェア株式会社 操作記録装置、操作記録再生システム、及びプログラム
JP2016031669A (ja) * 2014-07-29 2016-03-07 ヤマハ株式会社 端末装置及びプログラム
JP2018099817A (ja) * 2016-12-20 2018-06-28 株式会社リコー 情報処理装置、画像処理装置及びプログラム

Also Published As

Publication number Publication date
US11706499B2 (en) 2023-07-18
US20230362458A1 (en) 2023-11-09
EP3874446A1 (en) 2021-09-08
JP7193630B2 (ja) 2022-12-20
EP3874446A4 (en) 2022-12-07
US20200134447A1 (en) 2020-04-30
WO2020091925A1 (en) 2020-05-07
CN113228093A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
US20230362458A1 (en) Encoding input for machine learning
JP5813767B2 (ja) メディア認識及びモーション信号への同期
KR20210041567A (ko) 신경망을 이용한 하이브리드 오디오 합성
JP2010507123A (ja) 音声録音における音声特性を変換するための装置および方法
WO2021176842A1 (ja) 復号装置、復号方法、プログラム、符号化装置、符号化方法
CN108885869A (zh) 控制包含语音的音频数据的回放
JP2024501933A (ja) オーディオ符号化方法、オーディオ復号化方法、装置、コンピューター機器及びコンピュータープログラム
US20030014215A1 (en) Method for computing sense data and device for computing sense data
US7580833B2 (en) Constant pitch variable speed audio decoding
JP2009260718A (ja) 画像再生装置及び画像再生処理プログラム
KR20040055802A (ko) 실시간 시간 스케일링에 대한 매개변수가 있는 디지털오디오
JP2006030577A (ja) 曲の符号化伝送のための方法および装置
CN108028055A (zh) 信息处理装置、信息处理系统和程序
CN110516043A (zh) 用于问答系统的答案生成方法和装置
CN112562430A (zh) 辅助阅读方法、视频播放方法、装置、设备及存储介质
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
CN108377415A (zh) 一种视频帧率的确定方法及装置
US20230230610A1 (en) Approaches to generating studio-quality recordings through manipulation of noisy audio
EP4343761A1 (en) Enhanced audio file generator
JP6498346B1 (ja) 外国語学習支援システムおよび外国語学習支援方法ならびにプログラム
US20240112691A1 (en) Synthesizing audio for synchronous communication
WO2021220659A1 (ja) 復号装置、復号方法、プログラム、符号化装置、符号化方法
KR20060119533A (ko) 오디오/비디오 동기용 멀티미디어 파일 작성 프로그램을기록한 컴퓨터로 읽을 수 있는 기록매체 및 오디오/비디오동조화 장치
JP2009260824A (ja) 映像音声出力装置
CN117854458A (zh) 音频调整方法、系统、计算机设备和计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221208

R150 Certificate of patent or registration of utility model

Ref document number: 7193630

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150