JP7315591B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP7315591B2
JP7315591B2 JP2020569356A JP2020569356A JP7315591B2 JP 7315591 B2 JP7315591 B2 JP 7315591B2 JP 2020569356 A JP2020569356 A JP 2020569356A JP 2020569356 A JP2020569356 A JP 2020569356A JP 7315591 B2 JP7315591 B2 JP 7315591B2
Authority
JP
Japan
Prior art keywords
data
vibration
machine learning
teacher
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020569356A
Other languages
English (en)
Other versions
JPWO2020158036A1 (ja
Inventor
佑輔 中川
由香里 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2020158036A1 publication Critical patent/JPWO2020158036A1/ja
Application granted granted Critical
Publication of JP7315591B2 publication Critical patent/JP7315591B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/25Output arrangements for video game devices
    • A63F13/28Output arrangements for video game devices responding to control signals received from the game device for affecting ambient conditions, e.g. for vibrating players' seats, activating scent dispensers or affecting temperature or light
    • A63F13/285Generating tactile feedback signals via the game input device, e.g. force feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、振動デバイスを振動させるための振動波形を生成する情報処理装置、情報処理方法、プログラム、及び学習済みモデルデータに関する。
例えばコンピュータゲームにおける臨場感を高めるなどの目的で、ユーザーに振動を伝達する振動デバイスが利用されている。このような振動デバイスをユーザーが把持したり身につけたりした状態で動作させることによって、ユーザーに振動を提示することができる。
振動デバイスを動作させるためには、内部の振動機構を実際にどのような波形で振動させるかを指定する振動波形データが必要となる。従来、このような振動波形データは、制作者が手作業で制作していたため、振動の波形形状や各種のパラメータを詳細に制作者が指定する必要があった。また、ユーザーに提示したい振動に応じてどのような振動波形を生成すればよいかは必ずしも明確ではなく、試行錯誤が必要となる。このように、目的に応じた振動波形データを制作するのは、手間がかかる。
本発明は上記実情を考慮してなされたものであって、その目的の一つは、比較的少ない手間で振動デバイスを振動させるための振動波形データを生成することのできる情報処理装置、情報処理方法、プログラム、及び学習済みモデルデータを提供することにある。
本発明の一態様に係る情報処理装置は、音声データを取得する音声データ取得部と、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得する教師振動データ取得部と、前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、を含むことを特徴とする。
本発明の一態様に係る情報処理方法は、音声データを取得するステップと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得するステップと、前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成するステップと、を含むことを特徴とする。
本発明の一態様に係るプログラムは、音声データを取得するステップと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得するステップと、前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成するステップと、をコンピュータに実行させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。
本発明の一態様に係る学習済みモデルデータは、音声データと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データと、を入力として用いて機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータである。
本発明の一態様に係る情報処理装置は、処理対象となる対象音声データを取得する対象音声データ取得部と、音声データと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データと、を入力として用いて機械学習を実行した結果得られる学習済みモデルデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成部と、を含むことを特徴とする。
本発明の実施の形態に係る情報処理装置である情報処理装置を含む情報処理システムの構成ブロック図である。 情報処理装置の機能ブロック図である。 教師振動データを制作するための画面の一例を示す図である。 機械学習処理の一例について説明するデータフロー図である。 重み付け関数の一例を示す図である。 振動データ生成処理の一例について説明するデータフロー図である。 機械学習処理の別の例について説明するデータフロー図である。
以下、本発明の実施の形態について、図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係る情報処理装置10の構成ブロック図である。情報処理装置10は、パーソナルコンピューター等の情報処理装置であって、図1に示されるように、制御部11と、記憶部12と、インタフェース部13と、を含んで構成される。また、情報処理装置10は、操作デバイス14、表示装置15及び振動デバイス16と接続されている。
制御部11は、CPU等のプロセッサを少なくとも一つ含み、記憶部12に記憶されているプログラムを実行して各種の情報処理を実行する。なお、本実施形態において制御部11が実行する処理の具体例については、後述する。記憶部12は、RAM等のメモリデバイスを少なくとも一つ含み、制御部11が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。
インタフェース部13は、操作デバイス14、表示装置15及び振動デバイス16との間のデータ通信のためのインタフェースである。情報処理装置10は、インタフェース部13を介して有線又は無線のいずれかで操作デバイス14、表示装置15及び振動デバイス16のそれぞれと接続される。具体的にインタフェース部13は、情報処理装置10が供給する映像データを表示装置15に送信するために、HDMI(登録商標)(High-Definition Multimedia Interface)等のマルチメディアインタフェースを含むこととする。また、操作デバイス14が受け付けたユーザーの操作内容を示す操作信号を受信したり、振動デバイス16を振動させるための制御信号を送信したりするために、USB(Universal Serial Bus)等のデータ通信インタフェースを含んでいる。
操作デバイス14は、ユーザーからの操作指示を受け付け、その内容を示す操作信号を情報処理装置10に送信するデバイスであって、例えばキーボードやマウス等を含んでよい。表示装置15は、情報処理装置10から送信される映像信号に応じた映像を表示して、ユーザーに閲覧させる。
振動デバイス16は、ユーザーに振動を提示するために用いられるデバイスである。振動デバイス16は振動機構16aを内蔵しており、情報処理装置10から受け付けた制御信号に応じてこの振動機構16aを振動させる。これにより、振動デバイス16を所持するユーザーに振動を提示する。振動機構16aは、偏心モーター(ERM)やボイスコイルモーター、リニア共振アクチュエータ、ピエゾアクチュエータなど、各種の方式で振動を発生させるものであってよい。また、振動デバイス16は、複数の振動機構16aを内蔵してもよい。
次に、情報処理装置10が実現する機能について、図2を用いて説明する。情報処理装置10は、音声データに基づいて振動波形データを生成するために用いられる。図2に示すように、情報処理装置10は、機能的に、音声データ取得部51と、教師振動データ取得部52と、機械学習部53と、振動データ生成部54と、を含んでいる。これらの機能は、制御部11が記憶部12に記憶されたプログラムを実行することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置10に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。
音声データ取得部51は、振動データを生成するための元データとなる音声データを取得する。以下では、音声データ取得部51が取得する音声データを入力音声データIADと表記する。入力音声データIADは、音声の波形を表すデータである。一般的に、ユーザーに振動を提示する場合には、同じタイミングで効果音などの音声が再生される。そこで、このような振動とともに再生される音声の波形を表す入力音声データIADを元データとして用いることによって、振動データを効率的に生成することができる。
音声データ取得部51は、後述する機械学習においてサンプルデータ(入力データ)として利用するために、複数の音声データを取得する。なお、音声データ取得部51は、サンプルデータの数を増加させる(データオーギュメンテーション)ため、外部から入力された一つの入力音声データIADに対して、ピッチシフトや、タイムシフト、ノーマライズ、イコライズなどの音声信号処理を適用して得られるデータを、別の入力音声データIADとして取得してもよい。
教師振動データ取得部52は、後述する機械学習において教師データとして用いられる教師振動データTVDを取得する。教師振動データTVDは、振動機構16aを振動させるための振動波形を表すデータである。具体的に教師振動データ取得部52は、サンプルデータとして取得された複数の入力音声データIADのそれぞれについて、その入力音声データIADを元データとして制作された教師振動データTVDを取得する。すなわち、教師振動データTVDは、音声データ取得部51が取得した入力音声データIADに含まれる音声波形に対して各種の加工処理を施すことによって、生成される。入力音声データIADの波形に基づいて振動データを生成することで、一から振動の波形を生成するのと比較して容易に、かつ音声と連動した内容の振動波形を生成することができる。これにより、音声データと教師振動データの組が複数個得られることになる。
教師振動データTVDを生成する際の加工処理の種類や加工処理に用いるパラメータの数値などの具体的な内容は、振動データの制作者が手作業で指定する。制作者は、例えば実際に加工処理を施した後の振動データに基づいて振動デバイス16を振動させ、その内容を体感したりしながら、加工処理の内容を調整し、所望の振動データを生成する。
具体的に、例えば教師振動データ取得部52は、制作者が操作デバイス14を用いて入力する指示の内容に応じて、高周波数成分を除去するローパスフィルタ処理などの各種のフィルタ処理を音声データに対して適用する。一般的に、振動デバイス16で高周波数の振動を発生させることは困難なため、ローパスフィルタ処理を適用することで、入力音声データIADの高周波数成分を除去することができる。また、教師振動データ取得部52は、ピッチシフト処理やイコライズ処理など、音声データに対して適用可能な各種の信号処理と同種の加工処理を入力音声データIADに施してもよい。また、エンベロープ形状を変化させる加工処理や、所与の波形(パルス波など)を追加する加工処理を施してもよい。
さらに制作者は、発生させたい振動の種類(カテゴリ)ごとに、異なる種類の加工処理を適用することが一般的である。例えばゲーム中においてキャラクターが武器で敵を叩いたり、刺したり、といったアクションを行ったときに発生させる振動は、振動の発生直後のタイミングで特に強い振動を生じさせることが望ましい。また、何かに接触した場合の振動は、金属、ゴム、木など接触した物の材質によって異なる傾向を示すことが想定される。制作者は、このように発生させたい振動の種類に応じて、適用するフィルタの種類を変化させたり、振動が開始してから終了するまでの間の時間区間ごと、あるいは周波数ごとなどに加工処理の内容を変化させたりして、振動データを制作する。
また、発生させたい振動の種類によっては、制作者は振動波形そのものを別の波形に置き換えてもよい。例えば金属同士が接触した際に生じる振動を再現したい場合、振動波形を特定周波数の正弦波などに置き換えることとする。この場合、振動の長さ(発生期間)やエンベロープなどについては元の音声データに合わせた波形としつつ、教師振動データTVDの波形形状は元の入力音声データIADとは別のものとなる。
図3は、教師振動データTVDを制作するための編集画面の一例を示している。この図においては、入力音声データIADの波形が中央上段に、制作される教師振動データTVDが中央下段に、それぞれ示されている。なお、入力音声データIADはステレオ音声データであることとし、左右2チャンネルに対応する2個の音声波形が示されている。また、振動デバイス16も左右2個の振動機構16aを内蔵しており、左右2チャンネルの音声波形に基づいて左右の振動機構16aをそれぞれ振動させるための2個の振動波形を制作することとしている。また、この図の例では、各振動波形に対応して、後述する周波数解析によって得られる周波数分布(スペクトル)が、振動波形の右側に隣接して配置されている。さらに、この周波数分布においては、振動デバイス16の共振周波数(f0)の位置が縦線で示されている。ここで振動デバイス16の共振周波数は、振動デバイス16が最大効率で振動する周波数に相当し、この周波数の振動の強さを強くすることが望ましい。また、画面の右上には振動デバイス16の接続状態が示されている。
図3の画面例において、左側には入力音声データIADに適用される各種の加工処理、及びその処理内容を規定するパラメータを指定するためのコントロールが配置されている。制作者がこのコントロールを利用して各種の加工処理やパラメータを指定すると、中央上段の音声波形にその加工処理を適用した結果得られる振動波形が中央下段に表示される。また、画面左上には、音声及び振動の再生を指示するためのコントロールが配置されている。制作者が再生ボタンを押下すると、音声がスピーカーから再生されるとともに、現在表示されている振動波形に応じた振動が振動デバイス16から提示されるようになっている。このような画面を利用することで、制作者は各種の加工処理を適用した結果を試しながら振動波形を制作することができる。
機械学習部53は、教師振動データ取得部52が取得した教師振動データ、及びその教師振動データを生成する際に元データとして使用した音声データの組を教師データとして用いて、機械学習を行う。この機械学習は、音声データに基づいて振動データを生成するための変換モデルについての学習である。
ここで、機械学習部53が実行する機械学習のアルゴリズムは、例えばニューラルネットワークを用いた深層学習など、各種のものであってよい。特に畳み込みニューラルネットワーク(CNN)を利用することが好適である。
以下、機械学習部53が実行する処理の具体例について、図4のデータフロー図を用いて説明する。図4では、音声データ取得部51が取得した1個の入力音声データIADと、この入力音声データIADに基づいて生成された教師振動データTVDと、に対して実行される処理の流れが示されている。
まず機械学習部53は、入力音声データIADに対する前処理として、ダウンサンプリング処理を実行する(S1)。そして、入力音声データIADをそれぞれ所定の長さを有する複数の時間区間(時間窓)に分割する(S2)。このとき、各時間区間は隣接する時間区間と一部重複してもよい。
その後、機械学習部53は、分割された各時間区間の音声波形に対して周波数解析を行って、複数の周波数帯それぞれの成分値を算出する(S3)。これにより、音声波形のデータが、時間区間、及び周波数帯の組み合わせごとに一つの特徴量を持つ2次元の配列データに変換される。以下ではこの周波数解析によって得られる配列データを、入力特徴量データIFDという。
以下では具体例として、ある一つの入力音声データIADの波形がn個の時間区間に分割され、各時間区間についてm個の周波数帯それぞれの特徴量が算出されるものとする。この場合、一つの入力音声データIADの波形の特徴が、n×m個の特徴量によって表されることになる。入力特徴量データIFDは、このn×m個の特徴量を構成要素とするデータである。
周波数解析の手法としては、離散コサイン変換(DCT)や高速フーリエ変換(FFT)など各種のものが挙げられるが、特に高速フーリエ変換を利用することが望ましい。このような変換を行う場合、その変換に先立って、波形データに対してハン窓などの窓関数を適用してもよい。また、入力特徴量データIFDに含まれる個々の特徴量は、高速フーリエ変換などで得られる結果の値そのものであってもよいが、その結果の値を変換して得られる振幅の大きさを表す数値であってもよい。さらに、振幅の大きさを表す数値は、デシベルなどを単位とするレベル表現で表される値であってもよい。
機械学習部53は、以上説明したS1~S3までの前処理によって得られた入力特徴量データIFDに含まれるn×m個の特徴量を所与の変換モデルMに入力して、振動データへの変換を行う(S4)。この変換モデルMは、採用する機械学習のアルゴリズムによって決定され、複数の変換パラメータによって構成される。例えば複数のレイヤーによって構成されるニューラルネットワークモデルにおいては、各レイヤーの重み係数などが変換パラメータとなる。
以下、S4の変換によって得られる出力データを、出力特徴量データOFDという。出力特徴量データOFDは、入力特徴量データIFDと同じくn×m個の特徴量によって構成される。すなわち、出力特徴量データOFDは、入力特徴量データIFDと同じ数の時間区間、及び同じ数の周波数帯のそれぞれの特徴量によって構成される。
一方で機械学習部53は、入力音声データIADと対応する教師振動データTVDについても、入力音声データIADに対する前処理(S1~S3)と同様の処理(S5~S7)を適用して、n×m個の特徴量(すなわち、入力特徴量データIFDと同じ数の時間区間、及び同じ数の周波数帯ごとの特徴量)からなる配列データに変換する。以下では、この教師振動データを周波数解析して得られる配列データを、教師特徴量データTFDという。なお、前述したように教師振動データTVDは高周波数成分が除去された振動データになっているため、教師特徴量データTFDの所定の閾値以上の周波数成分は、振幅0に近い値になるはずである。
機械学習部53は、以上説明した処理によって得られる出力特徴量データOFDと教師特徴量データTFDとの間の差異が小さくなるように、変換モデルMを構成するパラメータの値を調整しながら機械学習を繰り返すことになる。このとき、例えば機械学習部53は、出力データと教師特徴量データとの差異を評価するための指標値(損失)として、対応する特徴量の平均二乗誤差などを利用する。算出される損失が小さければ小さいほど、変換モデルによって得られる出力データが、制作者が手作業で製作した教師振動データTVDの波形に近づくことになる。
具体的に、まず機械学習部53は、S4で得られた出力特徴量データOFDとS7で得られた教師特徴量データTFDとを用いて、周波数ごとの両者の差異を示す指標値(ここでは最小二乗誤差とする)を算出する(S8)。続いて機械学習部53は、各周波数について算出された指標値を平均して、全体としての損失を算出する(S9)。その後、機械学習部53は、S9で算出された損失の値が小さくなるように変換モデルMのパラメータを補正して(S10)、機械学習を繰り返す。
なお、機械学習部53は、S9で損失を算出する前に、S8で算出した周波数ごとの差異を示す指標値に対して重み付けを行ってもよい。重み付けを行うことによって、損失を評価する際に、特定の周波数帯の特徴量について他の周波数帯の特徴量よりも重視することができる。図5は、重み付け関数の一例を示す図である。この図における重み付け関数は、振動デバイス16の共振周波数(f0)に対応する周波数帯でピークが現れている。なお、共振周波数以外の周波数帯についても、振動デバイス16の振動特性に応じて重み付け量が決定されてよい。このような重み付け関数を用いて重み付けを行うことにより、共振周波数近傍の周波数帯ほど、変換モデルMによって得られる出力特徴量データOFDの値が教師特徴量データTFDの値に近づくように、変換モデルMを調整することができる。
以上説明したような機械学習の処理を、十分な数の入力データを用いて実行した結果、最終的に得られるパラメータの集合が、変換モデルMを構成する学習済みモデルデータとなる。
振動データ生成部54は、機械学習部53によって生成された学習済みモデルデータを用いて、新たな振動データを生成する。以下、振動データ生成部54が実行する処理の具体例について、図6のデータフロー図を用いて説明する。
まず振動データ生成部54は、機械学習に利用されたサンプルデータとは別の音声データ(以下、対象音声データTaADという)を新たに取得する(S21)。そして、この対象音声データTaADに対して機械学習時の前処理(S1~S3)と同様の前処理(S22~S24)を実行して、n×m個の特徴量からなる特徴量データ(以下、対象特徴量データTaFDという)を算出する。
この対象特徴量データTaFDを、機械学習部53によって生成された学習済みモデルデータによって構成される変換モデルMに入力することによって、振動データ生成部54は、新たな振動波形を表す特徴量データを算出する(S25)。以下では、この対象特徴量データTaFDを入力として得られる変換後のデータを生成特徴量データGFDという。さらに振動データ生成部54は、生成特徴量データGFDに対して、前処理で実行した周波数解析と逆の変換を適用する(S26)。これにより、対象音声データTaADに対応する振動波形を表す波形データが得られる。具体的に、例えば前処理において高速フーリエ変換を実行して波形データを周波数成分に変換している場合、生成特徴量データGFDに対して逆フーリエ変換を適用することで、各時間区間の波形データを生成することができる。このような波形データを全時間区間について生成し、結合することで、対象音声データTaADと同じ長さの波形データが得られる。以下、生成特徴量データGFDに基づいて得られる振動波形のデータを、生成振動データGVDという。
なお、S26の処理に先立って、S25で得られた生成特徴量データGFDに対して特定の周波数帯の成分を低減させる処理を実行してもよい。生成振動データGVDに高周波数の成分が含まれていたとしても、前述したように、そのような高周波の振動を振動デバイス16に発生させることは難しい。そのため、予め生成特徴量データGFDに含まれる高周波数成分の特徴量の値を低減させることで、高周波数の振動が含まれない生成振動データGVDを生成することができる。具体的に、例えば振動データ生成部54は、S25で得られた生成特徴量データGFDに含まれる所定の閾値(例えば500Hz)以上の周波数帯の特徴量について、その周波数の成分の振幅を表す特徴量の値を、0に近い値(例えば-90dB)に置換する。
以上説明したように、機械学習部53が生成した学習済みモデルデータを利用することで、振動データ生成部54は、制作者の作業を必要とせずに自動的に新たな生成振動データGVDを出力することができる。
なお、以上の説明では、全ての入力音声データIADを一つの変換モデルMに入力して一つの学習済みモデルデータを生成することとした。しかしながら、前述したように生成したい振動のカテゴリによって、制作者が入力音声データIADに適用する加工処理の内容は異なる。ここで振動のカテゴリとは、振動の種類(叩く、刺す、といったアクションによって生じる振動や、金属、ゴム、木材などの材質ごとの振動)を指す。そこで、機械学習部53は、カテゴリごとに独立して機械学習を行って、カテゴリごとの学習済みモデルデータを生成してもよい。この場合、入力音声データIADのそれぞれに対して、振動の分類を表すカテゴリ情報がタグ付けされる。機械学習部53は、各入力音声データIADに付与されたタグを参照して、カテゴリ毎に用意された複数の変換モデルMのうち、どの変換モデルMにその入力音声データIADを入力するか決定する。これにより、カテゴリ毎に独立した変換モデルMの学習済みモデルデータが得られる。振動データ生成部54は、タグ付きの対象音声データTaADを受け付ける。そして、指定されたタグに対応付けられた変換モデルMを用いて、対象音声データTaADから生成振動データGVDを生成する。
また、以上の説明では制作者が制作した振動波形データそのものを教師データとして利用することとし、変換モデルMの出力は、時間区間、及び周波数帯ごとの特徴量からなる特徴量データであることとした。しかしながらこれに限らず、教師データは、制作者が入力音声データIADに基づいて振動データを制作する際に行った加工処理の内容そのものを示すデータであってもよい。例えば制作者が音声データの先頭に複数個のパルスを追加する加工処理を行って振動データを生成する場合、追加されたパルスの個数を教師データに含まれる特徴量の一つとする。このような教師データを用いて機械学習を行うことにより、新たな対象音声データTaADに対して何個のパルスを追加すべきかを機械学習によって決定することができる。なお、パルスを追加する場合に指定するパラメータはパルスの個数に限らず、追加する位置や追加するパルスの周波数などについても制作者が指定する場合があり得る。また、フィルタ処理が適用される場合にも、そのフィルタの詳細な内容は各種のパラメータによって決定される。このように各種の加工処理が施される場合に、各加工処理の適用の有無、適用される加工処理の内容を特定するパラメータなどを特徴量として含む教師データを用いて機械学習を行うこととする。これにより、対象音声データTaADに対して適用すべき加工処理の種類、及びそのパラメータを機械学習によって決定することができる。
さらに、加工処理の種類に応じて、複数のモデルを利用して学習を行ってもよい。この場合、複数のモデルのそれぞれに対して、学習対象となる加工処理の種類が関連づけられている。機械学習部53は、各モデルについて、そのモデルに関連づけられた種類の加工処理が適用された教師振動データTVDを用いて機械学習を行う。
具体例として、入力音声データIADの全体に対してローパスフィルタなどのフィルタ処理を適用する加工処理(加工処理A)と、先頭部分に複数個のパルスを追加する加工処理(加工処理B)とを独立に学習する例について、説明する。機械学習部53は、入力音声データIADに加工処理Aを適用して得られる教師振動データTVD(すなわち、加工処理B適用前のデータ)を用いて、前述した機械学習を行い、第1の学習済みモデルデータを生成する。一方で、入力音声データIADをサンプル入力データ、制作者が加工処理Bで指定したパルスの数を教師データとして機械学習を行い、追加すべきパルスの数を決定するための第2の学習済みモデルデータを生成する。
振動データ生成部54は、第1の学習済みモデルデータを用いて対象音声データTaADから生成振動データGVDを生成する。さらに、第2の学習済みモデルデータを用いて対象音声データTaADから追加すべきパルスの数を決定する。そして、第1の学習済みモデルデータを用いて生成された生成振動データGVDに、予め定められた波形形状のパルスを決定された数だけ追加する。このようにすれば、加工処理の種類ごとに適した機械学習を行った結果を用いて、振動データを生成することができる。
以上説明したように、本実施形態に係る情報処理装置10によれば、音声データと制作者が手作業で制作した教師データとを利用して振動データを自動的に生成することができるようになる。
なお、本発明の実施の形態は、以上説明したものに限られない。例えば以上の説明では一つの情報処理装置10が機械学習と学習済みモデルデータを用いた振動データの生成処理の双方を実施することとしたが、これに限らずこれらの処理は互いに別の情報処理装置によって実現されてもよい。この場合、機械学習を行った情報処理装置は、その結果得られる学習済みモデルデータをコンピュータ読み取り可能な情報記憶媒体に格納したり、通信ネットワークを介して配信したりして外部の情報処理装置に提供する。提供を受けた情報処理装置は、提供された学習済みモデルデータを利用することで、以上説明したような振動データ生成部54の機能を実現することができる。
また、機械学習部53が実行する機械学習の内容も、以上説明したものに限られない。具体的に、機械学習部53が機械学習を行う際に変換モデルMに対して入力するデータや変換モデルMが出力するデータの種類や形式は、以上説明したものと異なるものであってもよい。また、機械学習のアルゴリズム(変換モデルMの構成)自体も、以上説明したものと異なるものであってもよい。以下では、本発明の実施形態に係る情報処理装置10が採用可能な機械学習の内容のいくつかの変形例について、説明する。なお、情報処理装置10は、これらの変形例のいくつかを組み合わせて採用した内容で、機械学習を実行してもよい。
第1の例として、入力データに追加される特徴量データの一例について説明する。以上の説明では、機械学習時に変換モデルMに入力される入力特徴量データIFDは、入力音声データIADを周波数解析して得られるスペクトログラムを構成するn×m個の特徴量であることとした。ここでnは入力音声データIADの波形を時間分割して得られる時間区間(フレーム)の個数であり、mは周波数解析によってそれぞれの周波数成分が算出される周波数帯の個数である。この第1の例において機械学習部53は、畳み込みニューラルネットワークの変換モデルMに入力する入力特徴量データIFDを構成する特徴量のそれぞれに対して、その特徴量の位置を示すデータを付加してもよい。
畳み込みニューラルネットワークは、元データに含まれる特徴量の平行移動に強い手法であるが、一方で特徴量の位置(その特徴量が全体においてどの位置にあるか)は重視されない傾向がある。これに対して本実施形態では、周波数帯を次元の一つとした入力特徴量データIFDを使用するため、周波数帯の相違は重要となる。例えば、振動デバイス16の共振周波数における振動を、他の周波数の振動と同一視することは好ましくない。そこで機械学習部53は、入力データに対する前処理の一つとして、入力特徴量データIFDを構成する特徴量のそれぞれに対して、その特徴量の位置座標(すなわち、何番目の時間区間か、また何番目の周波数帯か)を示すデータを付加することとする。このように位置座標を付加した特徴量を入力データとして用いて畳み込みニューラルネットワークを含む機械学習を行うことにより、波形の形状の特徴だけでなく、どの周波数帯にどの程度の振動成分が含まれるかを考慮した機械学習を行うことができる。
第2の例として、機械学習部53は、機械学習のアルゴリズムとして敵対的生成ネットワーク(GANs)の手法を利用してもよい。具体的には、これまで説明した振動波形を生成する変換モデルM(敵対的生成ネットワークにおけるジェネレーターに相当)のほかに、波形がジェネレーターによって生成されたものか人が手で作成したものかを識別する識別器(ディスクリミネーター)を用意し、ジェネレーターとディスクリミネーターを並行して学習させる。これにより、ジェネレーターは学習が進むにつれてディスクリミネーターが識別できないような(すなわち、教師データと区別がつかないような)振動波形を生成できるようになる。本実施形態では、人が手で作成した振動データに近い特徴を持つ振動データを機械学習によって生成することを目的としている。そのため、敵対的生成ネットワークの手法を適用することで、本物(人が手作業で制作した振動データ)と区別がつきにくい振動データを生成できるようになる。
第3の例として、機械学習部53が機械学習によって出力する出力特徴量データOFDは、以上説明したような振動波形のスペクトログラムそのものを構成するデータではなく、元の音声波形のスペクトログラムを構成する特徴量に対して増幅又は減衰させるための倍率と、特徴量に加算する加算値との組み合わせからなるデータであってもよい。
この例では、入力特徴量データIFDは、前述した説明と同様にn個の時間区間とm個の周波数帯に対応したn×m個の特徴量によって構成される。これに対して変換モデルMによって算出される出力特徴量データOFDは、これまで説明したような振動データのスペクトログラムを構成するn×m個の特徴量ではなく、これらの特徴量のそれぞれを算出するために用いられる2種類のパラメータ(y1,y2)によって構成されることとする。すなわち、出力特徴量データOFDは、それぞれ2個のパラメータからなるパラメータセットをn×m個含んで構成されることになり、全体としてn×m×2個のパラメータを含むことになる。
振動データを表すスペクトログラムの内容は、入力特徴量データIFD内の各特徴量と、対応する出力特徴量データOFD内のパラメータセット(y1,y2)に基づいて算出される。具体的に、入力特徴量データIFDに含まれるi番目の時間区間、j番目の周波数帯の特徴量をf(i,j)とし、同じ時間区間、及び周波数帯について変換モデルMが出力する2個のパラメータをy1(i,j)、y2(i,j)とする。このとき、変換モデルMによって生成される振動波形を構成するスペクトログラムの(i,j)成分値s(i,j)は、以下の計算式で算出される。
s(i,j)=f(i,j)・y1(i,j)+y2(i,j)
このs(i,j)をi=1,2,…,n、及びj=1,2,…,mの全ての組み合わせについて計算すると、前述した実施例における出力特徴量データOFDと同様に、振動波形を構成するn×m個の成分値が取得できる。機械学習部53は、このn×m個の成分値によって表される振動波形が教師振動データTVDに近づくように機械学習を行うこととする。また、振動データ生成部54は、変換モデルMが出力する生成特徴量データGFDに基づいて、ここで説明した機械学習実行時の場合と同様の計算を行うことによって、生成振動データGVDを生成することができる。
制作者が手作業で入力音声データIADから教師振動データTVDを制作する場合、前述したように、特定の周波数帯の振動を強めたり弱めたりするイコライズ処理や、特定周波数のパルス波形を追加する処理、特定周波数で減衰するパルス波形を追加する処理、減衰するノイズ波形を追加する処理などを実施して制作作業を行う。つまり、元の波形の増幅/減衰処理(元の波形に対して乗算の変化を施す処理)と別の波形の付加処理(元の波形に対して加算の変化を施す処理)をそれぞれ独立に実施して、振動波形を制作することになる。この第3の変形例では、振動波形を構成するスペクトログラムに含まれる成分値のそれぞれについて、乗算の効果量を表す倍率のパラメータy1と加算の効果量を表す加算値のパラメータy2の2種類のパラメータを変換モデルMによって出力する。こうすれば、人による手作業の振動データ制作工程をより高い精度で推定することのできる学習済みモデルデータを生成することができる。
第4の例として、機械学習部53は、機械学習の実行時に、ランダムノイズを付加した学習モデルを用いて機械学習を行ってもよい。この例では、機械学習部53は、同じ一つの入力音声データIADを、互いに異なる複数種類のランダムノイズを付加して得られる複数種類の変換モデルMのそれぞれに入力することによって、複数種類の出力特徴量データOFDを出力する。そして、複数種類の出力特徴量データOFDのうち、教師特徴量データTFDに最も近い出力特徴量データOFDを用いて、変換モデルMの内容を更新する。
図7は、この第4の例における処理の流れを説明するデータフロー図である。この図の例において機械学習部53は、入力音声データIADに基づいて図4のS1~S3と同様の前処理を実行して、入力特徴量データIFDを生成する(S41)。そして、変換モデルMに対して、互いに異なる4種類のランダムノイズN1~N4を付加して、4個のノイズ付加変換モデルM(N1)~M(N4)を生成する(S42)。なお、変換モデルMに対してノイズを付加する手法としては、ランダムに非活性なノードを作成するDropoutなどの手法を採用することができる。さらに機械学習部53は、S41で生成した同じ入力特徴量データIFDをこれら4個のノイズ付加変換モデルM(N1)~M(N4)のそれぞれに入力して、4個の出力特徴量データOFD(N1)~OFD(N4)を生成する(S43)。これらの出力特徴量データOFDは、互いに別の振動波形を表すことになる。
続いて機械学習部53は、この4個の出力特徴量データOFD(N1)~OFD(N4)について、それぞれ教師特徴量データTFDと比較をして損失を算出する(S44)。その結果を用いて、最も教師特徴量データTFDに近い(すなわち、損失の小さい)出力特徴量データOFDを選択する(S45)。そして、選択された一つの出力特徴量データOFDを用いて、変換モデルMのパラメータを更新する(S46)。このような制御を繰り返すことによって、変換モデルMの機械学習を行う。ここで、S45で選択されなかったその他の出力特徴量データOFDは変換モデルMの更新に利用されず、学習に寄与しないことになる。
本実施形態では、教師データは音声データを元に人が手作業で制作した振動データになる。このような振動データには制作者の癖や経験則などが反映されるため、唯一の正解があるわけではない。そのため、似た傾向の入力音声データに対して互いに異なる形状の振動波形が制作されることもある。このような事例において、単純に一つのモデルを教師データに近づけるように機械学習させていくと、複数の異なる性質の教師データを平均化したような内容の振動波形を出力するモデルが生成される可能性がある。そこでこの第4の例では、互いに異なるランダムノイズを加えた変換モデルのうち、最も教師データに近い出力を得られるデータを採用して機械学習を進めることで、平均化を避けることが期待できる。なお、ここでは最も教師特徴量データTFDに近い一つの出力特徴量データOFDを出力するモデルだけを用いて機械学習を行うこととしたが、例えば損失が基準値以下の出力特徴量データOFDなど、所与の基準を満たす一部の出力特徴量データOFDを選択的に用いて機械学習を行ってもよい。
10 情報処理装置、11 制御部、12 記憶部、13 インタフェース部、14 操作デバイス、15 表示装置、16 振動デバイス、51 音声データ取得部、52 教師振動データ取得部、53 機械学習部、54 振動データ生成部。

Claims (10)

  1. 音声データを取得する音声データ取得部と、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得する教師振動データ取得部と、
    前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
    を含み、
    前記機械学習部は、前記音声データを周波数解析して得られる複数の周波数帯それぞれの成分値を入力特徴量として、前記機械学習を実行する
    ことを特徴とする情報処理装置。
  2. 請求項に記載の情報処理装置において、
    前記機械学習部は、前記複数の周波数帯それぞれの成分値に対して、当該周波数帯の全体に対する位置の情報を付加した入力特徴量を用いて、前記機械学習を実行する
    ことを特徴とする情報処理装置。
  3. 請求項に記載の情報処理装置において、
    前記機械学習部は、前記入力特徴量である複数の周波数帯それぞれの成分値について、前記機械学習によって当該成分値に対する倍率、及び加算値を示す2種類の特徴量を出力し、
    当該2種類の特徴量を用いて、音声波形から振動波形への変換が行われる
    ことを特徴とする情報処理装置。
  4. 音声データを取得する音声データ取得部と、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得する教師振動データ取得部と、
    前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
    を含み、
    前記音声データ取得部は、前記音声データとともに振動の種類を示すタグ情報を取得し、
    前記機械学習部は、前記タグ情報を参照して前記振動の種類ごとに互いに独立に機械学習を実行し、それぞれ前記振動の種類に関連づけられた複数の学習済みモデルデータを生成する
    ことを特徴とする情報処理装置。
  5. 音声データを取得する音声データ取得部と、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得する教師振動データ取得部と、
    前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
    を含み、
    前記教師振動データ取得部は、前記音声データに複数種類の加工処理を適用して制作された教師振動データに関する情報を取得し、
    前記機械学習部は、それぞれ前記複数種類の加工処理の少なくとも一部を適用した結果の振動データに関する情報を教師データとして用いる複数種類の機械学習を実行し、それぞれ加工処理の種類に関連づけられた複数の学習済みモデルデータを生成する
    ことを特徴とする情報処理装置。
  6. 音声データを取得する音声データ取得部と、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得する教師振動データ取得部と、
    前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
    を含み、
    前記機械学習部は、音声波形を振動波形に変換するために用いられる変換モデルに対して互いに異なる複数種類のノイズを付加して複数のノイズ付加変換モデルを生成し、当該複数のノイズ付加変換モデルのそれぞれに前記音声データを入力して得られる複数の出力特徴量データのうち、前記教師振動データに近い一部の出力特徴量データを選択的に用いて、前記機械学習を行う
    ことを特徴とする情報処理装置。
  7. 音声データを取得する音声データ取得ステップと、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得する教師振動データ取得ステップと、
    前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、
    を含み、
    前記機械学習ステップでは、前記音声データを周波数解析して得られる複数の周波数帯それぞれの成分値を入力特徴量として、前記機械学習を実行する、
    又は、
    前記音声データ取得ステップでは、前記音声データとともに振動の種類を示すタグ情報を取得し、
    前記機械学習ステップでは、前記タグ情報を参照して前記振動の種類ごとに互いに独立に機械学習を実行し、それぞれ前記振動の種類に関連づけられた複数の学習済みモデルデータを生成する、
    又は、
    前記教師振動データ取得ステップでは、前記音声データに複数種類の加工処理を適用して制作された教師振動データに関する情報を取得し、
    前記機械学習ステップでは、それぞれ前記複数種類の加工処理の少なくとも一部を適用した結果の振動データに関する情報を教師データとして用いる複数種類の機械学習を実行し、それぞれ加工処理の種類に関連づけられた複数の学習済みモデルデータを生成する、
    又は、
    前記機械学習ステップでは、音声波形を振動波形に変換するために用いられる変換モデルに対して互いに異なる複数種類のノイズを付加して複数のノイズ付加変換モデルを生成し、当該複数のノイズ付加変換モデルのそれぞれに前記音声データを入力して得られる複数の出力特徴量データのうち、前記教師振動データに近い一部の出力特徴量データを選択的に用いて、前記機械学習を行う、
    ことを特徴とする情報処理方法。
  8. 音声データを取得する音声データ取得ステップと、
    前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報を、教師振動データとして取得する教師振動データ取得ステップと、
    前記音声データ、及び前記教師振動データを入力として用いて機械学習を実行し、音声波形を振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、
    をコンピュータに実行させるためのプログラムであって、
    前記機械学習ステップでは、前記音声データを周波数解析して得られる複数の周波数帯それぞれの成分値を入力特徴量として、前記機械学習を実行する、
    又は、
    前記音声データ取得ステップでは、前記音声データとともに振動の種類を示すタグ情報を取得し、
    前記機械学習ステップでは、前記タグ情報を参照して前記振動の種類ごとに互いに独立に機械学習を実行し、それぞれ前記振動の種類に関連づけられた複数の学習済みモデルデータを生成する、
    又は、
    前記教師振動データ取得ステップでは、前記音声データに複数種類の加工処理を適用して制作された教師振動データに関する情報を取得し、
    前記機械学習ステップでは、それぞれ前記複数種類の加工処理の少なくとも一部を適用した結果の振動データに関する情報を教師データとして用いる複数種類の機械学習を実行し、それぞれ加工処理の種類に関連づけられた複数の学習済みモデルデータを生成する、
    又は、
    前記機械学習ステップでは、音声波形を振動波形に変換するために用いられる変換モデルに対して互いに異なる複数種類のノイズを付加して複数のノイズ付加変換モデルを生成し、当該複数のノイズ付加変換モデルのそれぞれに前記音声データを入力して得られる複数の出力特徴量データのうち、前記教師振動データに近い一部の出力特徴量データを選択的に用いて、前記機械学習を行う、
    ことを特徴とするプログラム
  9. 音声データと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データと、を入力として用いて機械学習を実行した結果得られる学習済みデータを用いて、処理対象となる対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成するよう、コンピュータを機能させるための学習済みモデルであって、
    前記学習済みモデルは、前記音声データを周波数解析して得られる複数の周波数帯それぞれの成分値を入力特徴量として実行される機械学習によって生成された学習済みデータを用いて、前記対象音声データを振動波形に変換する、
    又は、
    前記学習済みモデルは、前記音声データとともに取得された振動の種類を示すタグ情報を参照して、前記振動の種類ごとに互いに独立に実行される機械学習によって生成された、それぞれ前記振動の種類に関連づけられた複数の学習済みデータの一つを用いて、前記対象音声データを振動波形に変換する、
    又は、
    前記教師振動データは、前記音声データに複数種類の加工処理を適用して制作された振動データであって、
    前記学習済みモデルは、それぞれ前記複数種類の加工処理の少なくとも一部を適用した結果の振動データに関する情報を教師データとして用いて実行される複数種類の機械学習によって生成された、それぞれ加工処理の種類に関連づけられた複数の学習済みデータを用いて、前記対象音声データを振動波形に変換する、
    又は、
    前記学習済みモデルは、音声波形を振動波形に変換するために用いられる変換モデルに対して互いに異なる複数種類のノイズを付加して複数のノイズ付加変換モデルを生成し、当該複数のノイズ付加変換モデルのそれぞれに前記音声データを入力して得られる複数の出力特徴量データのうち、前記教師振動データに近い一部の出力特徴量データを選択的に用いて実行される機械学習によって生成された学習済みデータを用いて、前記対象音声データを振動波形に変換する、
    ことを特徴とする学習済みモデル
  10. 処理対象となる対象音声データを取得する対象音声データ取得部と、
    音声データと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データと、を入力として用いて機械学習を実行した結果得られる学習済みデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成部と、
    を含み、
    前記振動データ生成部は、前記音声データを周波数解析して得られる複数の周波数帯それぞれの成分値を入力特徴量として実行される機械学習によって生成された学習済みデータを用いて、前記対象音声データを振動波形に変換する、
    又は、
    前記振動データ生成部は、前記音声データとともに取得された振動の種類を示すタグ情報を参照して、前記振動の種類ごとに互いに独立に実行される機械学習によって生成された、それぞれ前記振動の種類に関連づけられた複数の学習済みデータの一つを用いて、前記対象音声データを振動波形に変換する、
    又は、
    前記教師振動データは、前記音声データに複数種類の加工処理を適用して制作された振動データであって、
    前記振動データ生成部は、それぞれ前記複数種類の加工処理の少なくとも一部を適用した結果の振動データに関する情報を教師データとして用いて実行される複数種類の機械学習によって生成された、それぞれ加工処理の種類に関連づけられた複数の学習済みデータを用いて、前記対象音声データを振動波形に変換する、
    又は、
    前記振動データ生成部は、音声波形を振動波形に変換するために用いられる変換モデルに対して互いに異なる複数種類のノイズを付加して複数のノイズ付加変換モデルを生成し、当該複数のノイズ付加変換モデルのそれぞれに前記音声データを入力して得られる複数の出力特徴量データのうち、前記教師振動データに近い一部の出力特徴量データを選択的に用いて実行される機械学習によって生成された学習済みデータを用いて、前記対象音声データを振動波形に変換する、
    ことを特徴とする情報処理装置。
JP2020569356A 2019-02-01 2019-09-10 情報処理装置 Active JP7315591B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/003737 WO2020157978A1 (ja) 2019-02-01 2019-02-01 情報処理装置
JPPCT/JP2019/003737 2019-02-01
PCT/JP2019/035521 WO2020158036A1 (ja) 2019-02-01 2019-09-10 情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2020158036A1 JPWO2020158036A1 (ja) 2021-09-30
JP7315591B2 true JP7315591B2 (ja) 2023-07-26

Family

ID=71840509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020569356A Active JP7315591B2 (ja) 2019-02-01 2019-09-10 情報処理装置

Country Status (2)

Country Link
JP (1) JP7315591B2 (ja)
WO (2) WO2020157978A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023171422A1 (ja) * 2022-03-10 2023-09-14 株式会社ソニー・インタラクティブエンタテインメント 表示制御システム、表示制御方法、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010502086A (ja) 2006-08-24 2010-01-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ハプティックな刺激を発生させるために音声信号及び/又はビデオ信号を処理するデバイス及び方法
JP2015053038A (ja) 2013-09-06 2015-03-19 イマージョン コーポレーションImmersion Corporation 周波数シフトを用いたハプティック変換システム
WO2015145893A1 (ja) 2014-03-26 2015-10-01 ソニー株式会社 体感導入装置、体感導入システム、及び体感導入方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010502086A (ja) 2006-08-24 2010-01-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ハプティックな刺激を発生させるために音声信号及び/又はビデオ信号を処理するデバイス及び方法
JP2015053038A (ja) 2013-09-06 2015-03-19 イマージョン コーポレーションImmersion Corporation 周波数シフトを用いたハプティック変換システム
WO2015145893A1 (ja) 2014-03-26 2015-10-01 ソニー株式会社 体感導入装置、体感導入システム、及び体感導入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廣芝 和之 外,畳込みニューラルネットワークを用いた音響特徴量変換とスペクトログラム高精細化による声質変換,情報処理学会 研究報告 音声言語情報処理(SLP) 2018-SLP-122 [online] ,日本,情報処理学会,2018年06月09日,pp. 1-4

Also Published As

Publication number Publication date
WO2020158036A1 (ja) 2020-08-06
WO2020157978A1 (ja) 2020-08-06
JPWO2020158036A1 (ja) 2021-09-30
US20220187916A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
US11468750B2 (en) Authoring an immersive haptic data file using an authoring tool
US11966660B2 (en) Method, system and artificial neural network
US20110029111A1 (en) Systems, methods, and apparatus for equalization preference learning
EP3982362B1 (en) Audio processing method, apparatus, computer device, and storage medium
JP2016123075A (ja) 高帯域幅の触覚効果の音声増幅シミュレーション
KR20120126446A (ko) 입력된 오디오 신호로부터 진동 피드백을 생성하기 위한 장치
JP7315591B2 (ja) 情報処理装置
KR102254522B1 (ko) 인공지능을 이용한 파라메트릭 이퀄라이징 음향 조율 시스템의 제어 방법, 장치 및 프로그램
CN117479076A (zh) 一种音响效果调节方法、装置、电子设备及存储介质
Bresin et al. Sonification of the self vs. sonification of the other: Differences in the sonification of performed vs. observed simple hand movements
CN111354367A (zh) 一种语音处理方法、装置及计算机存储介质
US12124630B2 (en) Information processing device
JP7422867B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6322780B1 (ja) 触覚コンテンツ生成装置、音響コンテンツ生成装置、音響再生装置、触覚コンテンツ生成方法および音響コンテンツ生成方法
USRE48462E1 (en) Systems, methods, and apparatus for equalization preference learning
CN113066472A (zh) 合成语音处理方法及相关装置
US20230147412A1 (en) Systems and methods for authoring immersive haptic experience using spectral centroid
Ohshiro et al. Audio engineering by people who are deaf and hard of hearing: balancing confidence and limitations
Verma et al. Learning to model aspects of hearing perception using neural loss functions
Zhang et al. The NWPU-ByteAudio System for CHiME-7 Task 2 UDASE Challenge
JP6644293B1 (ja) コンテンツ供給装置、コンテンツ提供システム、コンテンツ提供サーバ装置、コンテンツ提供方法およびコンテンツ提供用プログラム
Miner et al. A wavelet synthesis technique for creating realistic virtual environment sounds
Deepak et al. A convolutional neural-network model of human cochlear mechanics and filter tuning for real-time applications
Villalpando et al. Predictive Models for Robot Ego-Noise Learning and Imitation
JP4580812B2 (ja) 映像生成方法、スタンドアロン型映像再生装置及びネットワーク配信型映像再生システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230713

R150 Certificate of patent or registration of utility model

Ref document number: 7315591

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150