JP7422867B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7422867B2
JP7422867B2 JP2022518579A JP2022518579A JP7422867B2 JP 7422867 B2 JP7422867 B2 JP 7422867B2 JP 2022518579 A JP2022518579 A JP 2022518579A JP 2022518579 A JP2022518579 A JP 2022518579A JP 7422867 B2 JP7422867 B2 JP 7422867B2
Authority
JP
Japan
Prior art keywords
data
vibration
machine learning
waveform
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022518579A
Other languages
English (en)
Other versions
JPWO2021220515A1 (ja
Inventor
由香理 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2021220515A1 publication Critical patent/JPWO2021220515A1/ja
Application granted granted Critical
Publication of JP7422867B2 publication Critical patent/JP7422867B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/25Output arrangements for video game devices
    • A63F13/28Output arrangements for video game devices responding to control signals received from the game device for affecting ambient conditions, e.g. for vibrating players' seats, activating scent dispensers or affecting temperature or light
    • A63F13/285Generating tactile feedback signals via the game input device, e.g. force feedback
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B6/00Tactile signalling systems, e.g. personal calling systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/16Transforming into a non-visible representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Otolaryngology (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、振動デバイスを振動させるための振動波形を生成する情報処理装置、情報処理方法、プログラム、及び学習済みモデルデータに関する。
例えばコンピュータゲームにおける臨場感を高めるなどの目的で、ユーザーに振動を伝達する振動デバイスが利用されている。このような振動デバイスをユーザーが把持したり身につけたりした状態で動作させることによって、ユーザーに振動を提示することができる。
振動デバイスを動作させるためには、内部の振動機構を実際にどのような波形で振動させるかを指定する振動波形データが必要となる。このような振動波形データを制作者が手作業で制作するのは手間がかかる。そこで、振動波形データを既存の音声波形データに基づいて自動的に生成することが検討されている。しかしながら、手作業で制作される振動波形データに近い振動波形データを生成する方法については、未だ十分に検討されていない。
本発明は上記実情を考慮してなされたものであって、その目的の一つは、制作者が制作する振動波形データに近い振動波形データを自動的に生成することのできる情報処理装置、情報処理方法、プログラム、及び学習済みモデルデータを提供することにある。
本発明の一態様に係る情報処理装置は、音声データを取得する音声データ取得部と、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、を含み、前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行することを特徴とする。
本発明の一態様に係る情報処理方法は、音声データを取得する音声データ取得ステップと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、を含み、前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行することを特徴とする。
本発明の一態様に係るプログラムは、音声データを取得する音声データ取得ステップと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、をコンピュータに実行させるためのプログラムであって、前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行することを特徴とする。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。
本発明の一態様に係る学習済みモデルデータは、音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータである。このデータは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。
本発明の一態様に係る情報処理装置は、処理対象となる対象音声データを取得する対象音声データ取得部と、音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成部と、を含むことを特徴とする。
本発明の実施の形態に係る情報処理装置である情報処理装置を含む情報処理システムの構成ブロック図である。 情報処理装置の機能ブロック図である。 機械学習処理の一例について説明するデータフロー図である。 振動データ生成処理の一例について説明するデータフロー図である。 機械学習部が実行するアルゴリズムの一例を示すデータフロー図である。
以下、本発明の実施の形態について、図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係る情報処理装置10の構成ブロック図である。情報処理装置10は、パーソナルコンピューター等の情報処理装置であって、図1に示されるように、制御部11と、記憶部12と、インタフェース部13と、を含んで構成される。また、情報処理装置10は、操作デバイス14、表示装置15及び振動デバイス16と接続されている。
制御部11は、CPU等のプロセッサを少なくとも一つ含み、記憶部12に記憶されているプログラムを実行して各種の情報処理を実行する。なお、本実施形態において制御部11が実行する処理の具体例については、後述する。記憶部12は、RAM等のメモリデバイスを少なくとも一つ含み、制御部11が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。
インタフェース部13は、操作デバイス14、表示装置15及び振動デバイス16との間のデータ通信のためのインタフェースである。情報処理装置10は、インタフェース部13を介して有線又は無線のいずれかで操作デバイス14、表示装置15及び振動デバイス16のそれぞれと接続される。具体的にインタフェース部13は、情報処理装置10が供給する映像データを表示装置15に送信するためのマルチメディアインタフェースを含むこととする。また、操作デバイス14が受け付けたユーザーの操作内容を示す操作信号を受信したり、振動デバイス16を振動させるための制御信号を送信したりするために、USB(Universal Serial Bus)等のデータ通信インタフェースを含んでいる。
操作デバイス14は、ユーザーからの操作指示を受け付け、その内容を示す操作信号を情報処理装置10に送信するデバイスであって、例えばキーボードやマウス等を含んでよい。表示装置15は、情報処理装置10から送信される映像信号に応じた映像を表示して、ユーザーに閲覧させる。
振動デバイス16は、ユーザーに振動を提示するために用いられるデバイスである。振動デバイス16は振動機構16aを内蔵しており、情報処理装置10から受け付けた制御信号に応じてこの振動機構16aを振動させる。これにより、振動デバイス16を所持するユーザーに振動を提示する。振動機構16aは、偏心モーター(ERM)やボイスコイルモーター、リニア共振アクチュエータ、ピエゾアクチュエータなど、各種の方式で振動を発生させるものであってよい。また、振動デバイス16は、複数の振動機構16aを内蔵してもよい。
次に、情報処理装置10が実現する機能について、図2を用いて説明する。情報処理装置10は、音声データに基づいて振動波形データを生成するために用いられる。図2に示すように、情報処理装置10は、機能的に、音声データ取得部51と、教師振動データ取得部52と、機械学習部53と、振動データ生成部54と、を含んでいる。これらの機能は、制御部11が記憶部12に記憶されたプログラムを実行することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置10に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
音声データ取得部51は、振動データを生成するための元データとなる音声データを取得する。以下では、音声データ取得部51が取得する音声データを入力音声データIADと表記する。入力音声データIADは、音声の波形を表すデータである。一般的に、ユーザーに振動を提示する場合には、同じタイミングで効果音などの音声が再生される。そこで、このような振動とともに再生される音声の波形を表す入力音声データIADを元データとして用いることによって、振動データを効率的に生成することができる。
音声データ取得部51は、後述する機械学習においてサンプルデータ(入力データ)として利用するために、複数の音声データを取得する。なお、音声データ取得部51は、サンプルデータの数を増加させる(データオーギュメンテーション)ため、外部から入力された一つの入力音声データIADに対して、ピッチシフトや、タイムシフト、ノーマライズ、イコライズなどの音声信号処理を適用して得られるデータを、別の入力音声データIADとして取得してもよい。
教師振動データ取得部52は、後述する機械学習において教師データとして用いられる教師振動データTVDを取得する。教師振動データTVDは、振動機構16aを振動させるための振動波形を表すデータである。具体的に教師振動データ取得部52は、サンプルデータとして取得された複数の入力音声データIADのそれぞれについて、その入力音声データIADを元データとして制作された教師振動データTVDを取得する。すなわち、教師振動データTVDは、音声データ取得部51が取得した入力音声データIADに含まれる音声波形に対して各種の加工処理を施すことによって、生成される。入力音声データIADの波形に基づいて振動データを生成することで、一から振動の波形を生成するのと比較して容易に、かつ音声と連動した内容の振動波形を生成することができる。これにより、音声データと教師振動データの組が複数個得られることになる。
教師振動データTVDを生成する際の加工処理の種類や加工処理に用いるパラメーターの数値などの具体的な内容は、振動データの制作者が手作業で指定する。制作者は、例えば実際に加工処理を施した後の振動データに基づいて振動デバイス16を振動させ、その内容を体感したりしながら、加工処理の内容を調整し、所望の振動データを生成する。
具体的に、例えば教師振動データ取得部52は、制作者が操作デバイス14を用いて入力する指示の内容に応じて、高周波数成分を除去するローパスフィルタ処理などの各種のフィルタ処理を音声データに対して適用する。一般的に、振動デバイス16で高周波数の振動を発生させることは困難なため、ローパスフィルタ処理を適用することで、入力音声データIADの高周波数成分を除去することができる。また、教師振動データ取得部52は、ピッチシフト処理やイコライズ処理など、音声データに対して適用可能な各種の信号処理と同種の加工処理を入力音声データIADに施してもよい。また、エンベロープ形状を変化させる加工処理や、所与の波形(パルス波など)を追加する加工処理を施してもよい。
さらに制作者は、発生させたい振動の種類(カテゴリ)ごとに、異なる種類の加工処理を適用することが一般的である。例えばゲーム中においてキャラクターが武器で敵を叩いたり、刺したり、といったアクションを行ったときに発生させる振動は、振動の発生直後のタイミングで特に強い振動を生じさせることが望ましい。また、何かに接触した場合の振動は、金属、ゴム、木など接触した物の材質によって異なる傾向を示すことが想定される。制作者は、このように発生させたい振動の種類に応じて、適用するフィルタの種類を変化させたり、振動が開始してから終了するまでの間の時間区間ごと、あるいは周波数ごとなどに加工処理の内容を変化させたりして、振動データを制作する。
なお、教師振動データ取得部52は、この振動の種類を示す情報を、教師振動データTVDとともに取得してもよい。以下では、振動の種類を示す情報をカテゴリ情報という。カテゴリ情報は、教師振動データTVDを制作した制作者によって指定される情報であってよい。
また、発生させたい振動の種類によっては、制作者は振動波形そのものを別の波形に置き換えてもよい。例えば金属同士が接触した際に生じる振動を再現したい場合、振動波形を特定周波数の正弦波などに置き換えることとする。この場合、振動の長さ(発生期間)やエンベロープなどについては元の音声データに合わせた波形としつつ、教師振動データTVDの波形形状は元の入力音声データIADとは別のものとなる。
機械学習部53は、教師振動データ取得部52が取得した教師振動データ、及びその教師振動データを生成する際に元データとして使用した音声データの組を教師データとして用いて、機械学習を行う。この機械学習によって構築される学習済みモデルは、音声データに基づいて振動データを生成するための変換モデルであって、入力音声データIADに近い音声データが入力された場合に、その入力音声データIADに基づいて制作者が制作した教師振動データTVDに近い振動データを出力するような変換モデルであることが望ましい。
ここで、機械学習部53が実行する機械学習のアルゴリズムは、例えばニューラルネットワークを用いた深層学習など、各種のものであってよい。より具体的に、機械学習部53は、畳み込みニューラルネットワーク(CNN)、BiRNNなどのアルゴリズムを利用してもよく、また複数種類のアルゴリズムを組み合わせて利用してもよい。また、機械学習部53は、少なくとも入力音声データIADに含まれる音声波形の周波数スペクトルを解析して得られる値を入力特徴量として、機械学習を実行するものとする。
以下、機械学習部53が実行する処理の具体例について、図3のデータフロー図を用いて説明する。図3では、音声データ取得部51が取得した1個の入力音声データIADと、この入力音声データIADに基づいて生成された教師振動データTVDと、に対して実行される処理の流れが示されている。
まず機械学習部53は、入力音声データIADに対する前処理として、音声波形のリサンプリング処理を実行する(S1)。また、併せて波形の先頭や末尾への0埋めなどの処理を実行してもよい。続いて機械学習部53は、入力音声データIADから、それぞれ所定の長さを有し時系列に沿って一定間隔をおいて並んだ時間区間(時間窓)ごとに、音声波形を抽出する(S2)。ここで、各時間区間は隣接する時間区間と一部重複してもよい。
その後、機械学習部53は、抽出された各時間区間の音声波形を解析して、機械学習モデルに入力する入力特徴量データIFDを生成する(S3)。入力特徴量データIFDは、入力音声データIADに基づいて生成される、入力音声データIADの波形の特徴を示すパラメーターの集合である。
具体的に、機械学習部53は、各時間区間の音声波形に対して周波数スペクトル解析を実行して、複数の周波数それぞれについての成分値を算出する。周波数解析の手法としては、離散コサイン変換(DCT)や高速フーリエ変換(FFT)など各種のものが挙げられるが、特に高速フーリエ変換を利用することが望ましい。このような変換を行う場合、その変換に先立って、波形データに対してハン窓などの窓関数を適用してもよい。また、入力特徴量データIFDに含まれる個々の特徴量は、高速フーリエ変換などで得られる結果の値そのものであってもよいが、その結果の値を変換して得られる振幅成分の大きさを表す数値であってもよい。さらに、振幅成分の大きさを表す数値は、デシベルなどを単位とするレベル表現で表される値であってもよい。このようにして得られる周波数ごとの振幅成分の値は、振幅スペクトログラムを構成する。
入力特徴量データIFDは、以上説明したような振幅成分の値に加えて、音声波形の位相成分に関する値を入力特徴量の一部として含んでもよい。位相成分の値は、振幅成分の値と同様、時間区間ごとの音声波形に対して周波数スペクトル解析を実行することによって得られる。ただし、解析対象となる波形は元の音声波形から時間区間によって抽出された波形なので、その抽出位置によって位相成分の値は異なるものになる。そのため機械学習部53は、周波数スペクトルを解析して得られる位相成分の値そのものではなく、隣接する直前の時間区間の位相成分の値に対する変化量を示す値を、入力特徴量データIFDに含める入力特徴量として使用してもよい。
具体例として、n個の時間区間のそれぞれに対応する音声波形から、m個の周波数についての振幅成分値、及び位相成分値が算出されるものとする。この場合、振幅成分についてn×m個の入力特徴量が算出され、位相成分についてもn×m個の入力特徴量が算出されることになる。入力特徴量データIFDは、このn×m×2個の入力特徴量を構成要素とするデータとなる。このうち、i番目の時間区間についての各周波数の位相成分の入力特徴量は、(i-1)番目の時間区間についての同じ周波数の位相成分からi番目の時間区間の位相成分への変化量を示す値となる。
なお、変換モデルMの構成によっては、入力特徴量を構成する時間区間の数nは固定値でなくともよく、入力音声データIADの波形長(すなわち、音声の時間の長さ)に応じて変化する値であってよい。このような変換モデルMを採用することで、波形長が異なる様々な音声データを入力音声データIADとして利用することができる。
機械学習部53は、以上説明したS1~S3までの前処理によって得られた入力特徴量データIFDを所与の変換モデルMに入力して、振動データへの変換を行う(S4)。この変換モデルMは、採用する機械学習のアルゴリズムによって決定され、複数の変換パラメーターによって構成される。例えば複数のレイヤーによって構成されるニューラルネットワークモデルにおいては、各レイヤーの重み係数などが変換パラメーターとなる。
以下、S4の変換によって得られる出力データを、出力特徴量データOFDという。出力特徴量データOFDは、複数の出力特徴量によって構成され、教師振動データTVDと比較すべき振動波形データ(以下、出力振動データOVDという)を生成するために用いられる。
出力特徴量データOFDを構成する出力特徴量は、例えば入力特徴量と同様に時間区間、周波数ごとの振幅成分や位相成分(すなわち、振動波形のスペクトログラム)を表すものであってよい。この場合、出力特徴量の数は入力特徴量と同様にn×m×2個となり、入力音声データIADから入力特徴量データIFDを算出したのと逆の手順によって出力特徴量から出力振動データOVDの振動波形を構成することができる。なお、振動波形の位相成分については出力特徴量を使うのではなく所与のアルゴリズムによって自動的に決定してもよい。
また、出力特徴量データOFDは、振動波形のスペクトログラムそのものを構成するデータではなく、元の音声波形のスペクトログラムに対する操作内容を表す複数種類のパラメーターによって構成されるデータであってもよい。
具体例として、出力特徴量データOFDは4種のパラメーター配列γ、α、add1、add2によって構成されてもよい。この例では、4種のパメラーター配列のうち、γ及びαはそれぞれn個の時間区間に対応するn個のパラメーターによって構成される。一方、add1及びadd2はそれぞれn個の時間区間とm個の周波数に対応したn×m個の特徴量によって構成される。つまり、γ及びαは複数の周波数の全体に共通する(周波数に依存しない)操作内容を表すパラメーターであって、add1及びadd2は複数の周波数のそれぞれに対して個別に適用される操作内容を表すパラメーターである。このようなパラメーターを用いた操作を元の音声波形の振幅スペクトログラムに対して適用することによって、振動波形を生成することができる。具体的に、入力音声データIADの音声波形に対して、所定周波数以上の成分を除去するローパスフィルタを適用した波形の振幅スペクトログラムをLPF(IAD)と表記すると、出力振動データOVDの振幅スペクトログラムは、以下の式で決定される。
OVD=γ×(α×add1+(1-α)×LPF(IAD)+add2)
このように、γ、α、add1、add2を用いることで、出力振動データOVDを生成することができる。
制作者が手作業で入力音声データIADから教師振動データTVDを制作する場合、周波数に関係なく波形全体の振幅を増幅させたり減衰させたりする処理を実施する場合がある。また、前述したように、特定の周波数の振動を強めたり弱めたりするイコライズ処理や、特定周波数のパルス波形を追加する処理などを実施する場合もある。周波数に共通のパラメーターと周波数ごとのパラメーターの双方を含む出力特徴量を利用することで、制作者が行う周波数に依存しない処理や周波数ごとの処理を含む振動データの制作工程をより高い精度で推定することのできる学習済みモデルを生成することができる。
上述したように出力振動データOVDのスペクトログラムを生成する一方で、機械学習部53は、入力音声データIADと対応する教師振動データTVDについても、入力音声データIADに対する前処理(S1~S3)と同様の処理(S5~S7)を適用して、その振動波形の特徴を表すスペクトログラムを生成する。以下では、この教師振動データの周波数スペクトルを解析して得られるスペクトログラムのデータを、教師特徴量データTFDという。なお、前述したように教師振動データTVDは高周波数成分が除去された振動データになっているため、教師特徴量データTFDの所定の閾値以上の周波数の振幅成分は、振幅0に近い値になるはずである。
次に機械学習部53は、以上説明した処理によって得られる出力振動データOVDのスペクトログラムと、教師特徴量データTFDとの間の差異を評価するための指標値(損失)の値を算出する(S8)。そして、算出された損失の値が小さくなるように、変換モデルMを構成するパラメーターの値を補正する(S9)。なお、ここで使用される損失は、対応する特徴量の平均二乗誤差など、各種の指標値であってよい。
機械学習部53は、以上説明したような機械学習のプロセスを、複数の入力音声データIADと教師振動データTVDの組を用いて繰り返す。これにより、制作者が手作業で製作した教師振動データTVDの波形に近い出力振動データOVDを得られるような変換モデルMを生成することができる。このように十分な数のサンプルデータを用いた機械学習の結果得られる変換モデルMを、学習済みモデルという。また、この学習済みモデルを構成するパラメーターの集合を、学習済みモデルデータという。
振動データ生成部54は、機械学習部53によって生成された学習済みモデルデータを用いて、新たな振動データを生成する。以下、振動データ生成部54が実行する処理の具体例について、図4のデータフロー図を用いて説明する。
まず振動データ生成部54は、機械学習に利用されたサンプルデータとは別の音声データ(以下、対象音声データTaADという)を新たに取得する(S21)。そして、この対象音声データTaADに対して機械学習時の前処理(S1~S3)と同様の前処理(S22~S24)を実行して、対象音声データTaADの波形の特徴を示す特徴量データ(以下、対象特徴量データTaFDという)を算出する。
この対象特徴量データTaFDを、機械学習部53によって生成された学習済みモデルに入力することによって、振動データ生成部54は、新たな振動波形を表す特徴量データを算出する(S25)。以下では、この対象特徴量データTaFDを入力として得られる変換後のデータを生成特徴量データGFDという。さらに振動データ生成部54は、生成特徴量データGFDを用いて、対象音声データTaADに対応する振動波形を表す波形データを生成する(S26)。具体的に、例えば前処理において高速フーリエ変換を実行して波形データを周波数成分に変換している場合、生成特徴量データGFDに対して逆フーリエ変換を適用することで、各時間区間の波形データを生成することができる。このような波形データを全時間区間について生成し、結合することで、対象音声データTaADと対応する時間長の波形データが得られる。以下、生成特徴量データGFDに基づいて得られる振動波形のデータを、生成振動データGVDという。
また、前述したように出力特徴量データOFDが複数種類のパラメーター配列によって構成される場合、生成特徴量データGFDも同様の構成のパラメーター配列となる。この場合、振動データ生成部54は、これらのパラメーター配列を用いて対象音声データTaADのスペクトログラムを元に生成振動データGVDを生成する。
なお、S26の処理に先立って、S25で得られた生成特徴量データGFDに対して特定の周波数帯の成分を低減させる処理を実行してもよい。生成振動データGVDに高周波数の成分が含まれていたとしても、前述したように、そのような高周波の振動を振動デバイス16に発生させることは難しい。そのため、予め生成特徴量データGFDに含まれる高周波数成分の特徴量の値を低減させることで、高周波数の振動が含まれない生成振動データGVDを生成することができる。具体的に、例えば振動データ生成部54は、S25で得られた生成特徴量データGFDに含まれる所定の閾値(例えば500Hz)以上の周波数帯の特徴量について、その周波数の成分の振幅を表す特徴量の値を、0に近い値(例えば-90dB)に置換する。
以上説明したように、機械学習部53が生成した学習済みモデルデータを利用することで、振動データ生成部54は、制作者の作業を必要とせずに対象音声データTaADから自動的に新たな生成振動データGVDを生成することができる。
これまでの説明では、機械学習部53は出力振動データOVDのスペクトログラムと教師特徴量データTFDとを直接比較して機械学習を行うこととしたが、これに限らず機械学習部53は各種の方法で機械学習を行ってよい。
具体的に、例えば機械学習部53は、機械学習のアルゴリズムとして敵対的生成ネットワーク(GANs)の手法を利用してもよい。この例では、これまで説明した振動波形を生成する変換モデルM(敵対的生成ネットワークにおけるジェネレーターに相当)のほかに、波形がジェネレーターによって生成されたものか人が手で製作したものかを識別する識別器(ディスクリミネーター)を用意し、ジェネレーターとディスクリミネーターを並行して学習させる。これにより、ジェネレーターは学習が進むにつれてディスクリミネーターが識別できないような(すなわち、教師データと区別がつかないような)振動波形を生成できるようになる。本実施形態では、人が手で作成した振動データに近い特徴を持つ振動データを機械学習によって生成することを目的としている。そのため、敵対的生成ネットワークの手法を適用することで、本物(人が手作業で制作した振動データ)と区別がつきにくい振動データを生成できるようになる。
さらにこの場合において、ディスクリミネーターは入力される振動波形の真偽(人の手で製作されたものか、ジェネレーターが出力したものか)を識別するだけでなく、その振動波形の種別(カテゴリ)を判定することとしてもよい。この例では、ジェネレーターに対して入力音声データIADだけでなく、その入力音声データIADから生成された教師振動データTVDに対して製作者が指定したカテゴリ情報が入力される。そして、ディスクリミネーターはジェネレーターが出力する出力振動データOVDの種別を推定し、推定結果をカテゴリ情報として出力する。機械学習部53は、この推定結果が教師振動データTVDとともに指定されたカテゴリ情報と一致するように、ジェネレーター及びディスクリミネーターを構成する機械学習モデルのパラメーターを補正して、機械学習を行う。このようにカテゴリの識別精度を向上させる機械学習を行うことで、各カテゴリの特徴を反映した出力振動データOVDをジェネレーターが生成できるようになる。
また、機械学習部53は、オートエンコーダーに類似するアルゴリズムを用いて損失の評価を行うこととしてもよい。図5はこの例において機械学習部53が実行するアルゴリズムの一例を示すデータフロー図である。この例では、入力音声データIADに基づいて出力振動データOVDを生成する変換モデルM(ここではジェネレーターという)が、途中で分岐してデコーダーに対する入力データ(中間データ)を生成する。デコーダーは、ジェネレーターから受け付けられた中間データに基づいて、音声波形の生成に用いる出力特徴量を出力する。このデコーダーの出力によって生成される音声波形データ(ここでは復元音声データRADという)が、元の入力音声データIADと一致するようにジェネレーター及びデコーダーを構成する機械学習モデルのパラメーターを補正して、機械学習を行う。このように、振動波形を生成するための変換モデルMを用いて入力音声データを変換した後、デコーダーによって元の音声波形に戻す学習モデルを用いて機械学習を行うことによって、変換モデルMが元の入力音声データIADの特徴を維持する変換を行うような学習を行うことができる。
このような元の音声波形に戻す機械学習は、変換モデルMを用いて振動波形を生成する機械学習と並行して実行することができる。一例として、機械学習部53は、入力音声データIADと教師振動データTVDの組を所定数用いて変換モデルMのパラメーターを調整する機械学習を実行した後、別の入力音声データIADを所定数サンプルデータとして用いて元の入力音声データIADを復元する機械学習を実行するといったように、同じ変換モデルMに対して異なる種類の機械学習を交互に実行する。ここで、ジェネレーター及びデコーダーを用いた機械学習は、元の入力音声データIADとデコーダーが出力する音声データとを比較して損失の評価を行うため、対応する教師振動データTVDが存在しない入力音声データIADをサンプルデータとして利用できる。そのため、このような複数種類の機械学習を同じ変換モデルMに対して並列に実行することで、学習に利用可能なサンプルデータの数を増加させて、効率的に学習を進めることができる。
以上説明したように、本実施形態に係る情報処理装置10によれば、音声データと制作者が手作業で制作した教師データとを利用して振動データを自動的に生成することができるようになる。
なお、本発明の実施の形態は、以上説明したものに限られない。例えば以上の説明では一つの情報処理装置10が機械学習処理と学習済みモデルデータを用いた振動データの生成処理の双方を実施することとしたが、これに限らずこれらの処理は互いに別の情報処理装置によって実現されてもよい。この場合、機械学習を行った情報処理装置は、その結果得られる学習済みモデルデータをコンピュータ読み取り可能な情報記憶媒体に格納したり、通信ネットワークを介して配信したりして外部の情報処理装置に提供する。提供を受けた情報処理装置は、提供された学習済みモデルデータを利用することで、以上説明したような振動データ生成部54の機能を実現することができる。
また、機械学習部53が実行する機械学習の内容も、以上説明したものに限られない。具体的に、機械学習部53が機械学習を行う際に変換モデルMに対して入力するデータや変換モデルMが出力するデータの種類や形式は、以上説明したものと異なるものであってもよい。また、機械学習のアルゴリズム(変換モデルMの構成)自体も、以上説明したものと異なるものであってもよい。なお、情報処理装置10は、これまで説明したいくつかの機械学習のアルゴリズムや、損失評価の手法を組み合わせて実行してもよい。
10 情報処理装置、11 制御部、12 記憶部、13 インタフェース部、14 操作デバイス、15 表示装置、16 振動デバイス、51 音声データ取得部、52 教師振動データ取得部、53 機械学習部、54 振動データ生成部。

Claims (9)

  1. 音声データを取得する音声データ取得部と、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、
    前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
    を含み、
    前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理装置であって、
    前記機械学習部は、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、前記機械学習の出力特徴量として出力する
    ことを特徴とする情報処理装置。
  2. 音声データを取得する音声データ取得部と、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、
    前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
    を含み、
    前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理装置であって、
    前記機械学習部は、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように、前記機械学習を行う
    ことを特徴とする情報処理装置。
  3. 音声データを取得する音声データ取得部と、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、
    前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
    を含み、
    前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理装置であって、
    前記機械学習部は、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような機械学習を実行することによって、前記学習済みモデルデータを生成する
    ことを特徴とする情報処理装置。
  4. 請求項1から3のいずれか一項に記載の情報処理装置において、
    前記機械学習部は、前記入力特徴量として、前記周波数スペクトルの振幅成分に関する値に加えて、位相成分に関する値を入力特徴量として、前記機械学習を実行する
    ことを特徴とする情報処理装置。
  5. 請求項に記載の情報処理装置において、
    前記機械学習部は、時系列に沿って並ぶ複数の時間区間ごとに前記入力特徴量を算出し、
    前記位相成分に関する値は、隣接する時間区間の位相成分の値に対する位相成分の変化量を示す値である
    ことを特徴とする情報処理装置。
  6. 音声データを取得する音声データ取得ステップと、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、
    前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、
    を含み、
    前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理方法であって、
    前記機械学習ステップでは、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、前記機械学習の出力特徴量として出力する、又は、
    前記機械学習ステップでは、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように、前記機械学習を行う、又は、
    前記機械学習ステップでは、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような機械学習を実行することによって、前記学習済みモデルデータを生成する、
    ことを特徴とする情報処理方法。
  7. 音声データを取得する音声データ取得ステップと、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、
    前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、
    をコンピュータに実行させるためのプログラムであって、
    前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行するプログラムであり、
    前記機械学習ステップでは、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、前記機械学習の出力特徴量として出力する、又は、
    前記機械学習ステップでは、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように、前記機械学習を行う、又は、
    前記機械学習ステップでは、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような機械学習を実行することによって、前記学習済みモデルデータを生成する、
    ことを特徴とするプログラム。
  8. 処理対象となる対象音声データを取得する対象音声データ取得ステップと、
    音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成ステップと、
    をコンピュータに実行させるためのプログラムであって、
    前記機械学習は、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、出力特徴量として出力する機械学習である、又は、
    前記機械学習は、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように学習を行う機械学習である、又は、
    前記機械学習は、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような学習を実行することによって、前記学習済みモデルデータを生成する機械学習である、
    ことを特徴とするプログラム
  9. 処理対象となる対象音声データを取得する対象音声データ取得部と、
    音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成部と、
    を含み、
    前記機械学習は、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、出力特徴量として出力する機械学習である、又は、
    前記機械学習は、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように学習を行う機械学習である、又は、
    前記機械学習は、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような学習を実行することによって、前記学習済みモデルデータを生成する機械学習である、
    ことを特徴とする情報処理装置。
JP2022518579A 2020-05-01 2020-05-01 情報処理装置、情報処理方法及びプログラム Active JP7422867B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/018454 WO2021220515A1 (ja) 2020-05-01 2020-05-01 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021220515A1 JPWO2021220515A1 (ja) 2021-11-04
JP7422867B2 true JP7422867B2 (ja) 2024-01-26

Family

ID=78373602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022518579A Active JP7422867B2 (ja) 2020-05-01 2020-05-01 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20230233931A1 (ja)
JP (1) JP7422867B2 (ja)
WO (1) WO2021220515A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019169195A (ja) 2014-05-20 2019-10-03 イマージョン コーポレーションImmersion Corporation 触覚設計オーサリングツール
JP2020034624A (ja) 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9448626B2 (en) * 2011-02-11 2016-09-20 Immersion Corporation Sound to haptic effect conversion system using amplitude value
US8754757B1 (en) * 2013-03-05 2014-06-17 Immersion Corporation Automatic fitting of haptic effects
KR101641418B1 (ko) * 2014-07-25 2016-07-20 포항공과대학교 산학협력단 청각 주목도에 기반한 햅틱 신호 생성 방법 및 이를 위한 장치
US10181331B2 (en) * 2017-02-16 2019-01-15 Neosensory, Inc. Method and system for transforming language inputs into haptic outputs
US10943503B2 (en) * 2017-04-17 2021-03-09 Facebook, Inc. Envelope encoding of speech signals for transmission to cutaneous actuators
JP7155643B2 (ja) * 2018-06-18 2022-10-19 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019169195A (ja) 2014-05-20 2019-10-03 イマージョン コーポレーションImmersion Corporation 触覚設計オーサリングツール
JP2020034624A (ja) 2018-08-27 2020-03-05 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOSHIDA, K. et al.,VibVid: VIBration Estimation from VIDeo by using Neural Network, [online],International Conference on Artificial Reality and Telexistence and Eurographics Symposium on Virtua,2017年,第37-44ページ,[2020年7月3日検索], <URL: https://diglib.eg.org/handle/10.2312/egve20171336>

Also Published As

Publication number Publication date
US20230233931A1 (en) 2023-07-27
JPWO2021220515A1 (ja) 2021-11-04
WO2021220515A1 (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
JP6903611B2 (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
JP7490894B2 (ja) 深層生成ネットワークを用いたリアルタイムパケット損失隠蔽
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
US20230343348A1 (en) Machine-Learned Differentiable Digital Signal Processing
JP7315591B2 (ja) 情報処理装置
JP7422867B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN109637509B (zh) 一种音乐自动生成方法、装置及计算机可读存储介质
CN110751941A (zh) 语音合成模型的生成方法、装置、设备及存储介质
CN111354367A (zh) 一种语音处理方法、装置及计算机存储介质
US20210356502A1 (en) Systems and methods of signal analysis and data transfer using spectrogram construction and inversion
JP2022123072A (ja) 情報処理方法
JP6229576B2 (ja) サンプリング周波数推定装置
CN113066472A (zh) 合成语音处理方法及相关装置
JP2008203783A (ja) 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
CN112534444A (zh) 生成时间序列数据的频率成分矢量的方法及装置
Plozza et al. Real-time low power audio distortion circuit modeling: a tinyml deep learning approach
WO2022202341A1 (ja) 音編集装置、音編集方法および音編集プログラム
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
US20240134459A1 (en) Haptic feedback method, system and related device for matching split-track music to vibration
CN112201227B (en) Speech sample generation method and device, storage medium and electronic device
JP6668306B2 (ja) サンプリング周波数推定装置
Villalpando et al. Predictive Models for Robot Ego-Noise Learning and Imitation
JP2008026836A (ja) 音声の類似度を評価する方法、装置およびプログラム
JP2022108980A (ja) 評価プログラム、及び評価システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240116

R150 Certificate of patent or registration of utility model

Ref document number: 7422867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150