JP7422867B2

JP7422867B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7422867B2
Application number: JP2022518579A
Authority: JP
Inventors: 由香理小西
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-05-01
Filing date: 2020-05-01
Publication date: 2024-01-26
Anticipated expiration: 2040-05-01
Also published as: US20230233931A1; JPWO2021220515A1; WO2021220515A1

Description

本発明は、振動デバイスを振動させるための振動波形を生成する情報処理装置、情報処理方法、プログラム、及び学習済みモデルデータに関する。

例えばコンピュータゲームにおける臨場感を高めるなどの目的で、ユーザーに振動を伝達する振動デバイスが利用されている。このような振動デバイスをユーザーが把持したり身につけたりした状態で動作させることによって、ユーザーに振動を提示することができる。

振動デバイスを動作させるためには、内部の振動機構を実際にどのような波形で振動させるかを指定する振動波形データが必要となる。このような振動波形データを制作者が手作業で制作するのは手間がかかる。そこで、振動波形データを既存の音声波形データに基づいて自動的に生成することが検討されている。しかしながら、手作業で制作される振動波形データに近い振動波形データを生成する方法については、未だ十分に検討されていない。

本発明は上記実情を考慮してなされたものであって、その目的の一つは、制作者が制作する振動波形データに近い振動波形データを自動的に生成することのできる情報処理装置、情報処理方法、プログラム、及び学習済みモデルデータを提供することにある。

本発明の一態様に係る情報処理装置は、音声データを取得する音声データ取得部と、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、を含み、前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行することを特徴とする。

本発明の一態様に係る情報処理方法は、音声データを取得する音声データ取得ステップと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、を含み、前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行することを特徴とする。

本発明の一態様に係るプログラムは、音声データを取得する音声データ取得ステップと、前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、をコンピュータに実行させるためのプログラムであって、前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行することを特徴とする。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。

本発明の一態様に係る学習済みモデルデータは、音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータである。このデータは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。

本発明の一態様に係る情報処理装置は、処理対象となる対象音声データを取得する対象音声データ取得部と、音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成部と、を含むことを特徴とする。

本発明の実施の形態に係る情報処理装置である情報処理装置を含む情報処理システムの構成ブロック図である。情報処理装置の機能ブロック図である。機械学習処理の一例について説明するデータフロー図である。振動データ生成処理の一例について説明するデータフロー図である。機械学習部が実行するアルゴリズムの一例を示すデータフロー図である。

以下、本発明の実施の形態について、図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る情報処理装置１０の構成ブロック図である。情報処理装置１０は、パーソナルコンピューター等の情報処理装置であって、図１に示されるように、制御部１１と、記憶部１２と、インタフェース部１３と、を含んで構成される。また、情報処理装置１０は、操作デバイス１４、表示装置１５及び振動デバイス１６と接続されている。

制御部１１は、ＣＰＵ等のプロセッサを少なくとも一つ含み、記憶部１２に記憶されているプログラムを実行して各種の情報処理を実行する。なお、本実施形態において制御部１１が実行する処理の具体例については、後述する。記憶部１２は、ＲＡＭ等のメモリデバイスを少なくとも一つ含み、制御部１１が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。

インタフェース部１３は、操作デバイス１４、表示装置１５及び振動デバイス１６との間のデータ通信のためのインタフェースである。情報処理装置１０は、インタフェース部１３を介して有線又は無線のいずれかで操作デバイス１４、表示装置１５及び振動デバイス１６のそれぞれと接続される。具体的にインタフェース部１３は、情報処理装置１０が供給する映像データを表示装置１５に送信するためのマルチメディアインタフェースを含むこととする。また、操作デバイス１４が受け付けたユーザーの操作内容を示す操作信号を受信したり、振動デバイス１６を振動させるための制御信号を送信したりするために、ＵＳＢ（Universal Serial Bus）等のデータ通信インタフェースを含んでいる。

操作デバイス１４は、ユーザーからの操作指示を受け付け、その内容を示す操作信号を情報処理装置１０に送信するデバイスであって、例えばキーボードやマウス等を含んでよい。表示装置１５は、情報処理装置１０から送信される映像信号に応じた映像を表示して、ユーザーに閲覧させる。

振動デバイス１６は、ユーザーに振動を提示するために用いられるデバイスである。振動デバイス１６は振動機構１６ａを内蔵しており、情報処理装置１０から受け付けた制御信号に応じてこの振動機構１６ａを振動させる。これにより、振動デバイス１６を所持するユーザーに振動を提示する。振動機構１６ａは、偏心モーター（ＥＲＭ）やボイスコイルモーター、リニア共振アクチュエータ、ピエゾアクチュエータなど、各種の方式で振動を発生させるものであってよい。また、振動デバイス１６は、複数の振動機構１６ａを内蔵してもよい。

次に、情報処理装置１０が実現する機能について、図２を用いて説明する。情報処理装置１０は、音声データに基づいて振動波形データを生成するために用いられる。図２に示すように、情報処理装置１０は、機能的に、音声データ取得部５１と、教師振動データ取得部５２と、機械学習部５３と、振動データ生成部５４と、を含んでいる。これらの機能は、制御部１１が記憶部１２に記憶されたプログラムを実行することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置１０に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。

音声データ取得部５１は、振動データを生成するための元データとなる音声データを取得する。以下では、音声データ取得部５１が取得する音声データを入力音声データＩＡＤと表記する。入力音声データＩＡＤは、音声の波形を表すデータである。一般的に、ユーザーに振動を提示する場合には、同じタイミングで効果音などの音声が再生される。そこで、このような振動とともに再生される音声の波形を表す入力音声データＩＡＤを元データとして用いることによって、振動データを効率的に生成することができる。

音声データ取得部５１は、後述する機械学習においてサンプルデータ（入力データ）として利用するために、複数の音声データを取得する。なお、音声データ取得部５１は、サンプルデータの数を増加させる（データオーギュメンテーション）ため、外部から入力された一つの入力音声データＩＡＤに対して、ピッチシフトや、タイムシフト、ノーマライズ、イコライズなどの音声信号処理を適用して得られるデータを、別の入力音声データＩＡＤとして取得してもよい。

教師振動データ取得部５２は、後述する機械学習において教師データとして用いられる教師振動データＴＶＤを取得する。教師振動データＴＶＤは、振動機構１６ａを振動させるための振動波形を表すデータである。具体的に教師振動データ取得部５２は、サンプルデータとして取得された複数の入力音声データＩＡＤのそれぞれについて、その入力音声データＩＡＤを元データとして制作された教師振動データＴＶＤを取得する。すなわち、教師振動データＴＶＤは、音声データ取得部５１が取得した入力音声データＩＡＤに含まれる音声波形に対して各種の加工処理を施すことによって、生成される。入力音声データＩＡＤの波形に基づいて振動データを生成することで、一から振動の波形を生成するのと比較して容易に、かつ音声と連動した内容の振動波形を生成することができる。これにより、音声データと教師振動データの組が複数個得られることになる。

教師振動データＴＶＤを生成する際の加工処理の種類や加工処理に用いるパラメーターの数値などの具体的な内容は、振動データの制作者が手作業で指定する。制作者は、例えば実際に加工処理を施した後の振動データに基づいて振動デバイス１６を振動させ、その内容を体感したりしながら、加工処理の内容を調整し、所望の振動データを生成する。

具体的に、例えば教師振動データ取得部５２は、制作者が操作デバイス１４を用いて入力する指示の内容に応じて、高周波数成分を除去するローパスフィルタ処理などの各種のフィルタ処理を音声データに対して適用する。一般的に、振動デバイス１６で高周波数の振動を発生させることは困難なため、ローパスフィルタ処理を適用することで、入力音声データＩＡＤの高周波数成分を除去することができる。また、教師振動データ取得部５２は、ピッチシフト処理やイコライズ処理など、音声データに対して適用可能な各種の信号処理と同種の加工処理を入力音声データＩＡＤに施してもよい。また、エンベロープ形状を変化させる加工処理や、所与の波形（パルス波など）を追加する加工処理を施してもよい。

さらに制作者は、発生させたい振動の種類（カテゴリ）ごとに、異なる種類の加工処理を適用することが一般的である。例えばゲーム中においてキャラクターが武器で敵を叩いたり、刺したり、といったアクションを行ったときに発生させる振動は、振動の発生直後のタイミングで特に強い振動を生じさせることが望ましい。また、何かに接触した場合の振動は、金属、ゴム、木など接触した物の材質によって異なる傾向を示すことが想定される。制作者は、このように発生させたい振動の種類に応じて、適用するフィルタの種類を変化させたり、振動が開始してから終了するまでの間の時間区間ごと、あるいは周波数ごとなどに加工処理の内容を変化させたりして、振動データを制作する。

なお、教師振動データ取得部５２は、この振動の種類を示す情報を、教師振動データＴＶＤとともに取得してもよい。以下では、振動の種類を示す情報をカテゴリ情報という。カテゴリ情報は、教師振動データＴＶＤを制作した制作者によって指定される情報であってよい。

また、発生させたい振動の種類によっては、制作者は振動波形そのものを別の波形に置き換えてもよい。例えば金属同士が接触した際に生じる振動を再現したい場合、振動波形を特定周波数の正弦波などに置き換えることとする。この場合、振動の長さ（発生期間）やエンベロープなどについては元の音声データに合わせた波形としつつ、教師振動データＴＶＤの波形形状は元の入力音声データＩＡＤとは別のものとなる。

機械学習部５３は、教師振動データ取得部５２が取得した教師振動データ、及びその教師振動データを生成する際に元データとして使用した音声データの組を教師データとして用いて、機械学習を行う。この機械学習によって構築される学習済みモデルは、音声データに基づいて振動データを生成するための変換モデルであって、入力音声データＩＡＤに近い音声データが入力された場合に、その入力音声データＩＡＤに基づいて制作者が制作した教師振動データＴＶＤに近い振動データを出力するような変換モデルであることが望ましい。

ここで、機械学習部５３が実行する機械学習のアルゴリズムは、例えばニューラルネットワークを用いた深層学習など、各種のものであってよい。より具体的に、機械学習部５３は、畳み込みニューラルネットワーク（ＣＮＮ）、ＢｉＲＮＮなどのアルゴリズムを利用してもよく、また複数種類のアルゴリズムを組み合わせて利用してもよい。また、機械学習部５３は、少なくとも入力音声データＩＡＤに含まれる音声波形の周波数スペクトルを解析して得られる値を入力特徴量として、機械学習を実行するものとする。

以下、機械学習部５３が実行する処理の具体例について、図３のデータフロー図を用いて説明する。図３では、音声データ取得部５１が取得した１個の入力音声データＩＡＤと、この入力音声データＩＡＤに基づいて生成された教師振動データＴＶＤと、に対して実行される処理の流れが示されている。

まず機械学習部５３は、入力音声データＩＡＤに対する前処理として、音声波形のリサンプリング処理を実行する（Ｓ１）。また、併せて波形の先頭や末尾への０埋めなどの処理を実行してもよい。続いて機械学習部５３は、入力音声データＩＡＤから、それぞれ所定の長さを有し時系列に沿って一定間隔をおいて並んだ時間区間（時間窓）ごとに、音声波形を抽出する（Ｓ２）。ここで、各時間区間は隣接する時間区間と一部重複してもよい。

その後、機械学習部５３は、抽出された各時間区間の音声波形を解析して、機械学習モデルに入力する入力特徴量データＩＦＤを生成する（Ｓ３）。入力特徴量データＩＦＤは、入力音声データＩＡＤに基づいて生成される、入力音声データＩＡＤの波形の特徴を示すパラメーターの集合である。

具体的に、機械学習部５３は、各時間区間の音声波形に対して周波数スペクトル解析を実行して、複数の周波数それぞれについての成分値を算出する。周波数解析の手法としては、離散コサイン変換（ＤＣＴ）や高速フーリエ変換（ＦＦＴ）など各種のものが挙げられるが、特に高速フーリエ変換を利用することが望ましい。このような変換を行う場合、その変換に先立って、波形データに対してハン窓などの窓関数を適用してもよい。また、入力特徴量データＩＦＤに含まれる個々の特徴量は、高速フーリエ変換などで得られる結果の値そのものであってもよいが、その結果の値を変換して得られる振幅成分の大きさを表す数値であってもよい。さらに、振幅成分の大きさを表す数値は、デシベルなどを単位とするレベル表現で表される値であってもよい。このようにして得られる周波数ごとの振幅成分の値は、振幅スペクトログラムを構成する。

入力特徴量データＩＦＤは、以上説明したような振幅成分の値に加えて、音声波形の位相成分に関する値を入力特徴量の一部として含んでもよい。位相成分の値は、振幅成分の値と同様、時間区間ごとの音声波形に対して周波数スペクトル解析を実行することによって得られる。ただし、解析対象となる波形は元の音声波形から時間区間によって抽出された波形なので、その抽出位置によって位相成分の値は異なるものになる。そのため機械学習部５３は、周波数スペクトルを解析して得られる位相成分の値そのものではなく、隣接する直前の時間区間の位相成分の値に対する変化量を示す値を、入力特徴量データＩＦＤに含める入力特徴量として使用してもよい。

具体例として、ｎ個の時間区間のそれぞれに対応する音声波形から、ｍ個の周波数についての振幅成分値、及び位相成分値が算出されるものとする。この場合、振幅成分についてｎ×ｍ個の入力特徴量が算出され、位相成分についてもｎ×ｍ個の入力特徴量が算出されることになる。入力特徴量データＩＦＤは、このｎ×ｍ×２個の入力特徴量を構成要素とするデータとなる。このうち、ｉ番目の時間区間についての各周波数の位相成分の入力特徴量は、（ｉ－１）番目の時間区間についての同じ周波数の位相成分からｉ番目の時間区間の位相成分への変化量を示す値となる。

なお、変換モデルＭの構成によっては、入力特徴量を構成する時間区間の数ｎは固定値でなくともよく、入力音声データＩＡＤの波形長（すなわち、音声の時間の長さ）に応じて変化する値であってよい。このような変換モデルＭを採用することで、波形長が異なる様々な音声データを入力音声データＩＡＤとして利用することができる。

機械学習部５３は、以上説明したＳ１～Ｓ３までの前処理によって得られた入力特徴量データＩＦＤを所与の変換モデルＭに入力して、振動データへの変換を行う（Ｓ４）。この変換モデルＭは、採用する機械学習のアルゴリズムによって決定され、複数の変換パラメーターによって構成される。例えば複数のレイヤーによって構成されるニューラルネットワークモデルにおいては、各レイヤーの重み係数などが変換パラメーターとなる。

以下、Ｓ４の変換によって得られる出力データを、出力特徴量データＯＦＤという。出力特徴量データＯＦＤは、複数の出力特徴量によって構成され、教師振動データＴＶＤと比較すべき振動波形データ（以下、出力振動データＯＶＤという）を生成するために用いられる。

出力特徴量データＯＦＤを構成する出力特徴量は、例えば入力特徴量と同様に時間区間、周波数ごとの振幅成分や位相成分（すなわち、振動波形のスペクトログラム）を表すものであってよい。この場合、出力特徴量の数は入力特徴量と同様にｎ×ｍ×２個となり、入力音声データＩＡＤから入力特徴量データＩＦＤを算出したのと逆の手順によって出力特徴量から出力振動データＯＶＤの振動波形を構成することができる。なお、振動波形の位相成分については出力特徴量を使うのではなく所与のアルゴリズムによって自動的に決定してもよい。

また、出力特徴量データＯＦＤは、振動波形のスペクトログラムそのものを構成するデータではなく、元の音声波形のスペクトログラムに対する操作内容を表す複数種類のパラメーターによって構成されるデータであってもよい。

具体例として、出力特徴量データＯＦＤは４種のパラメーター配列γ、α、ａｄｄ１、ａｄｄ２によって構成されてもよい。この例では、４種のパメラーター配列のうち、γ及びαはそれぞれｎ個の時間区間に対応するｎ個のパラメーターによって構成される。一方、ａｄｄ１及びａｄｄ２はそれぞれｎ個の時間区間とｍ個の周波数に対応したｎ×ｍ個の特徴量によって構成される。つまり、γ及びαは複数の周波数の全体に共通する（周波数に依存しない）操作内容を表すパラメーターであって、ａｄｄ１及びａｄｄ２は複数の周波数のそれぞれに対して個別に適用される操作内容を表すパラメーターである。このようなパラメーターを用いた操作を元の音声波形の振幅スペクトログラムに対して適用することによって、振動波形を生成することができる。具体的に、入力音声データＩＡＤの音声波形に対して、所定周波数以上の成分を除去するローパスフィルタを適用した波形の振幅スペクトログラムをＬＰＦ（ＩＡＤ）と表記すると、出力振動データＯＶＤの振幅スペクトログラムは、以下の式で決定される。
ＯＶＤ＝γ×（α×ａｄｄ１＋（１－α）×ＬＰＦ（ＩＡＤ）＋ａｄｄ２）
このように、γ、α、ａｄｄ１、ａｄｄ２を用いることで、出力振動データＯＶＤを生成することができる。

制作者が手作業で入力音声データＩＡＤから教師振動データＴＶＤを制作する場合、周波数に関係なく波形全体の振幅を増幅させたり減衰させたりする処理を実施する場合がある。また、前述したように、特定の周波数の振動を強めたり弱めたりするイコライズ処理や、特定周波数のパルス波形を追加する処理などを実施する場合もある。周波数に共通のパラメーターと周波数ごとのパラメーターの双方を含む出力特徴量を利用することで、制作者が行う周波数に依存しない処理や周波数ごとの処理を含む振動データの制作工程をより高い精度で推定することのできる学習済みモデルを生成することができる。

上述したように出力振動データＯＶＤのスペクトログラムを生成する一方で、機械学習部５３は、入力音声データＩＡＤと対応する教師振動データＴＶＤについても、入力音声データＩＡＤに対する前処理（Ｓ１～Ｓ３）と同様の処理（Ｓ５～Ｓ７）を適用して、その振動波形の特徴を表すスペクトログラムを生成する。以下では、この教師振動データの周波数スペクトルを解析して得られるスペクトログラムのデータを、教師特徴量データＴＦＤという。なお、前述したように教師振動データＴＶＤは高周波数成分が除去された振動データになっているため、教師特徴量データＴＦＤの所定の閾値以上の周波数の振幅成分は、振幅０に近い値になるはずである。

次に機械学習部５３は、以上説明した処理によって得られる出力振動データＯＶＤのスペクトログラムと、教師特徴量データＴＦＤとの間の差異を評価するための指標値（損失）の値を算出する（Ｓ８）。そして、算出された損失の値が小さくなるように、変換モデルＭを構成するパラメーターの値を補正する（Ｓ９）。なお、ここで使用される損失は、対応する特徴量の平均二乗誤差など、各種の指標値であってよい。

機械学習部５３は、以上説明したような機械学習のプロセスを、複数の入力音声データＩＡＤと教師振動データＴＶＤの組を用いて繰り返す。これにより、制作者が手作業で製作した教師振動データＴＶＤの波形に近い出力振動データＯＶＤを得られるような変換モデルＭを生成することができる。このように十分な数のサンプルデータを用いた機械学習の結果得られる変換モデルＭを、学習済みモデルという。また、この学習済みモデルを構成するパラメーターの集合を、学習済みモデルデータという。

振動データ生成部５４は、機械学習部５３によって生成された学習済みモデルデータを用いて、新たな振動データを生成する。以下、振動データ生成部５４が実行する処理の具体例について、図４のデータフロー図を用いて説明する。

まず振動データ生成部５４は、機械学習に利用されたサンプルデータとは別の音声データ（以下、対象音声データＴａＡＤという）を新たに取得する（Ｓ２１）。そして、この対象音声データＴａＡＤに対して機械学習時の前処理（Ｓ１～Ｓ３）と同様の前処理（Ｓ２２～Ｓ２４）を実行して、対象音声データＴａＡＤの波形の特徴を示す特徴量データ（以下、対象特徴量データＴａＦＤという）を算出する。

この対象特徴量データＴａＦＤを、機械学習部５３によって生成された学習済みモデルに入力することによって、振動データ生成部５４は、新たな振動波形を表す特徴量データを算出する（Ｓ２５）。以下では、この対象特徴量データＴａＦＤを入力として得られる変換後のデータを生成特徴量データＧＦＤという。さらに振動データ生成部５４は、生成特徴量データＧＦＤを用いて、対象音声データＴａＡＤに対応する振動波形を表す波形データを生成する（Ｓ２６）。具体的に、例えば前処理において高速フーリエ変換を実行して波形データを周波数成分に変換している場合、生成特徴量データＧＦＤに対して逆フーリエ変換を適用することで、各時間区間の波形データを生成することができる。このような波形データを全時間区間について生成し、結合することで、対象音声データＴａＡＤと対応する時間長の波形データが得られる。以下、生成特徴量データＧＦＤに基づいて得られる振動波形のデータを、生成振動データＧＶＤという。

また、前述したように出力特徴量データＯＦＤが複数種類のパラメーター配列によって構成される場合、生成特徴量データＧＦＤも同様の構成のパラメーター配列となる。この場合、振動データ生成部５４は、これらのパラメーター配列を用いて対象音声データＴａＡＤのスペクトログラムを元に生成振動データＧＶＤを生成する。

なお、Ｓ２６の処理に先立って、Ｓ２５で得られた生成特徴量データＧＦＤに対して特定の周波数帯の成分を低減させる処理を実行してもよい。生成振動データＧＶＤに高周波数の成分が含まれていたとしても、前述したように、そのような高周波の振動を振動デバイス１６に発生させることは難しい。そのため、予め生成特徴量データＧＦＤに含まれる高周波数成分の特徴量の値を低減させることで、高周波数の振動が含まれない生成振動データＧＶＤを生成することができる。具体的に、例えば振動データ生成部５４は、Ｓ２５で得られた生成特徴量データＧＦＤに含まれる所定の閾値（例えば５００Ｈｚ）以上の周波数帯の特徴量について、その周波数の成分の振幅を表す特徴量の値を、０に近い値（例えば－９０ｄＢ）に置換する。

以上説明したように、機械学習部５３が生成した学習済みモデルデータを利用することで、振動データ生成部５４は、制作者の作業を必要とせずに対象音声データＴａＡＤから自動的に新たな生成振動データＧＶＤを生成することができる。

これまでの説明では、機械学習部５３は出力振動データＯＶＤのスペクトログラムと教師特徴量データＴＦＤとを直接比較して機械学習を行うこととしたが、これに限らず機械学習部５３は各種の方法で機械学習を行ってよい。

具体的に、例えば機械学習部５３は、機械学習のアルゴリズムとして敵対的生成ネットワーク（ＧＡＮｓ）の手法を利用してもよい。この例では、これまで説明した振動波形を生成する変換モデルＭ（敵対的生成ネットワークにおけるジェネレーターに相当）のほかに、波形がジェネレーターによって生成されたものか人が手で製作したものかを識別する識別器（ディスクリミネーター）を用意し、ジェネレーターとディスクリミネーターを並行して学習させる。これにより、ジェネレーターは学習が進むにつれてディスクリミネーターが識別できないような（すなわち、教師データと区別がつかないような）振動波形を生成できるようになる。本実施形態では、人が手で作成した振動データに近い特徴を持つ振動データを機械学習によって生成することを目的としている。そのため、敵対的生成ネットワークの手法を適用することで、本物（人が手作業で制作した振動データ）と区別がつきにくい振動データを生成できるようになる。

さらにこの場合において、ディスクリミネーターは入力される振動波形の真偽（人の手で製作されたものか、ジェネレーターが出力したものか）を識別するだけでなく、その振動波形の種別（カテゴリ）を判定することとしてもよい。この例では、ジェネレーターに対して入力音声データＩＡＤだけでなく、その入力音声データＩＡＤから生成された教師振動データＴＶＤに対して製作者が指定したカテゴリ情報が入力される。そして、ディスクリミネーターはジェネレーターが出力する出力振動データＯＶＤの種別を推定し、推定結果をカテゴリ情報として出力する。機械学習部５３は、この推定結果が教師振動データＴＶＤとともに指定されたカテゴリ情報と一致するように、ジェネレーター及びディスクリミネーターを構成する機械学習モデルのパラメーターを補正して、機械学習を行う。このようにカテゴリの識別精度を向上させる機械学習を行うことで、各カテゴリの特徴を反映した出力振動データＯＶＤをジェネレーターが生成できるようになる。

また、機械学習部５３は、オートエンコーダーに類似するアルゴリズムを用いて損失の評価を行うこととしてもよい。図５はこの例において機械学習部５３が実行するアルゴリズムの一例を示すデータフロー図である。この例では、入力音声データＩＡＤに基づいて出力振動データＯＶＤを生成する変換モデルＭ（ここではジェネレーターという）が、途中で分岐してデコーダーに対する入力データ（中間データ）を生成する。デコーダーは、ジェネレーターから受け付けられた中間データに基づいて、音声波形の生成に用いる出力特徴量を出力する。このデコーダーの出力によって生成される音声波形データ（ここでは復元音声データＲＡＤという）が、元の入力音声データＩＡＤと一致するようにジェネレーター及びデコーダーを構成する機械学習モデルのパラメーターを補正して、機械学習を行う。このように、振動波形を生成するための変換モデルＭを用いて入力音声データを変換した後、デコーダーによって元の音声波形に戻す学習モデルを用いて機械学習を行うことによって、変換モデルＭが元の入力音声データＩＡＤの特徴を維持する変換を行うような学習を行うことができる。

このような元の音声波形に戻す機械学習は、変換モデルＭを用いて振動波形を生成する機械学習と並行して実行することができる。一例として、機械学習部５３は、入力音声データＩＡＤと教師振動データＴＶＤの組を所定数用いて変換モデルＭのパラメーターを調整する機械学習を実行した後、別の入力音声データＩＡＤを所定数サンプルデータとして用いて元の入力音声データＩＡＤを復元する機械学習を実行するといったように、同じ変換モデルＭに対して異なる種類の機械学習を交互に実行する。ここで、ジェネレーター及びデコーダーを用いた機械学習は、元の入力音声データＩＡＤとデコーダーが出力する音声データとを比較して損失の評価を行うため、対応する教師振動データＴＶＤが存在しない入力音声データＩＡＤをサンプルデータとして利用できる。そのため、このような複数種類の機械学習を同じ変換モデルＭに対して並列に実行することで、学習に利用可能なサンプルデータの数を増加させて、効率的に学習を進めることができる。

以上説明したように、本実施形態に係る情報処理装置１０によれば、音声データと制作者が手作業で制作した教師データとを利用して振動データを自動的に生成することができるようになる。

なお、本発明の実施の形態は、以上説明したものに限られない。例えば以上の説明では一つの情報処理装置１０が機械学習処理と学習済みモデルデータを用いた振動データの生成処理の双方を実施することとしたが、これに限らずこれらの処理は互いに別の情報処理装置によって実現されてもよい。この場合、機械学習を行った情報処理装置は、その結果得られる学習済みモデルデータをコンピュータ読み取り可能な情報記憶媒体に格納したり、通信ネットワークを介して配信したりして外部の情報処理装置に提供する。提供を受けた情報処理装置は、提供された学習済みモデルデータを利用することで、以上説明したような振動データ生成部５４の機能を実現することができる。

また、機械学習部５３が実行する機械学習の内容も、以上説明したものに限られない。具体的に、機械学習部５３が機械学習を行う際に変換モデルＭに対して入力するデータや変換モデルＭが出力するデータの種類や形式は、以上説明したものと異なるものであってもよい。また、機械学習のアルゴリズム（変換モデルＭの構成）自体も、以上説明したものと異なるものであってもよい。なお、情報処理装置１０は、これまで説明したいくつかの機械学習のアルゴリズムや、損失評価の手法を組み合わせて実行してもよい。

１０情報処理装置、１１制御部、１２記憶部、１３インタフェース部、１４操作デバイス、１５表示装置、１６振動デバイス、５１音声データ取得部、５２教師振動データ取得部、５３機械学習部、５４振動データ生成部。

Claims

音声データを取得する音声データ取得部と、
前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、
前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
を含み、
前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理装置であって、
前記機械学習部は、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、前記機械学習の出力特徴量として出力する
ことを特徴とする情報処理装置。
音声データを取得する音声データ取得部と、
前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、
前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
を含み、
前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理装置であって、
前記機械学習部は、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように、前記機械学習を行う
ことを特徴とする情報処理装置。
音声データを取得する音声データ取得部と、
前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得部と、
前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習部と、
を含み、
前記機械学習部は、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理装置であって、
前記機械学習部は、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような機械学習を実行することによって、前記学習済みモデルデータを生成する
ことを特徴とする情報処理装置。
請求項１から３のいずれか一項に記載の情報処理装置において、
前記機械学習部は、前記入力特徴量として、前記周波数スペクトルの振幅成分に関する値に加えて、位相成分に関する値を入力特徴量として、前記機械学習を実行する
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置において、
前記機械学習部は、時系列に沿って並ぶ複数の時間区間ごとに前記入力特徴量を算出し、
前記位相成分に関する値は、隣接する時間区間の位相成分の値に対する位相成分の変化量を示す値である
ことを特徴とする情報処理装置。
音声データを取得する音声データ取得ステップと、
前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、
前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、
を含み、
前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行する情報処理方法であって、
前記機械学習ステップでは、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、前記機械学習の出力特徴量として出力する、又は、
前記機械学習ステップでは、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように、前記機械学習を行う、又は、
前記機械学習ステップでは、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような機械学習を実行することによって、前記学習済みモデルデータを生成する、
ことを特徴とする情報処理方法。
音声データを取得する音声データ取得ステップと、
前記音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データを、教師振動データとして取得する教師振動データ取得ステップと、
前記音声データ、及び前記教師振動データを用いて機械学習を実行し、入力音声波形を出力振動波形に変換するために用いられる学習済みモデルデータを生成する機械学習ステップと、
をコンピュータに実行させるためのプログラムであって、
前記機械学習ステップでは、前記音声データの周波数スペクトルを解析して得られる値を入力特徴量として、前記機械学習を実行するプログラムであり、
前記機械学習ステップでは、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、前記機械学習の出力特徴量として出力する、又は、
前記機械学習ステップでは、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように、前記機械学習を行う、又は、
前記機械学習ステップでは、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような機械学習を実行することによって、前記学習済みモデルデータを生成する、
ことを特徴とするプログラム。
処理対象となる対象音声データを取得する対象音声データ取得ステップと、
音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成ステップと、
をコンピュータに実行させるためのプログラムであって、
前記機械学習は、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、出力特徴量として出力する機械学習である、又は、
前記機械学習は、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように学習を行う機械学習である、又は、
前記機械学習は、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような学習を実行することによって、前記学習済みモデルデータを生成する機械学習である、
ことを特徴とするプログラム。
処理対象となる対象音声データを取得する対象音声データ取得部と、
音声データの周波数スペクトルを解析して得られる値を入力特徴量として用い、音声データに基づいて制作された、振動デバイスを振動させるために用いられる振動データに関する情報である教師振動データを教師データとして用いる機械学習を実行した結果得られる、音声波形を振動波形に変換するために用いられる学習済みモデルデータを用いて、前記対象音声データを振動波形に変換して前記振動デバイスを振動させるための振動データを生成する振動データ生成部と、
を含み、
前記機械学習は、入力音声波形の周波数スペクトルを解析して得られる複数の周波数それぞれの成分値を出力振動波形の対応する成分値に変換するためのパラメーターであって、前記複数の周波数のそれぞれに個別に適用されるパラメーター、及び前記複数の周波数の全体に共通するパラメーターのそれぞれの値を、出力特徴量として出力する機械学習である、又は、
前記機械学習は、前記教師振動データとともに当該教師振動データが表す振動の種類を示すカテゴリ情報を教師データとして受け付け、前記出力振動波形に対してカテゴリ情報を推定した結果が前記教師データとして指定されたカテゴリ情報と一致するように学習を行う機械学習である、又は、
前記機械学習は、前記機械学習の対象となる変換モデルを用いて入力音声波形を変換した後元の音声波形に戻すような学習を実行することによって、前記学習済みモデルデータを生成する機械学習である、
ことを特徴とする情報処理装置。