JP2015169719A - 音情報変換装置およびプログラム - Google Patents
音情報変換装置およびプログラム Download PDFInfo
- Publication number
- JP2015169719A JP2015169719A JP2014042829A JP2014042829A JP2015169719A JP 2015169719 A JP2015169719 A JP 2015169719A JP 2014042829 A JP2014042829 A JP 2014042829A JP 2014042829 A JP2014042829 A JP 2014042829A JP 2015169719 A JP2015169719 A JP 2015169719A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- information
- phoneme piece
- indicated
- sound information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
【課題】入力された音を入力された音に基づいて変換することが可能な技術の提供。
【解決手段】音を示す音情報を取得する音情報取得手段と、所定の特徴の音を示す前記音情報を音素片情報として抽出する音素片情報取得手段と、前記音情報が示す音と特徴が類似する音を示す前記音素片情報に基づいて、前記音情報が示す音を変換して出力する出力音制御手段と、を備える音情報変換装置を構成する。
【選択図】図1
【解決手段】音を示す音情報を取得する音情報取得手段と、所定の特徴の音を示す前記音情報を音素片情報として抽出する音素片情報取得手段と、前記音情報が示す音と特徴が類似する音を示す前記音素片情報に基づいて、前記音情報が示す音を変換して出力する出力音制御手段と、を備える音情報変換装置を構成する。
【選択図】図1
Description
本発明は、音情報を変換して出力する音情報変換装置およびプログラムに関する。
従来、入力された音を変換して出力する技術が開発されている。例えば、特許文献1においては、入力音響データを入力音素片データに分割し、予め楽音素片データベースに登録された楽音素片データの特徴量と入力音素片データの特徴量とが類似する場合に、楽音素片データを読み出して出力する技術が開示されている。
従来の技術においては、入力された音を入力された音に基づいて変換することができなかった。すなわち、従来の技術において出力される楽音素片データは、予め楽音素片データベースに登録されたデータであり、当該楽音素片データベースに保持された楽音素片データは、入力音響データに基づいて作成されたデータではない。従って、入力された音を入力された音に基づいて変換することはできなかった。
本発明は、前記課題にかんがみてなされたもので、入力された音を入力された音に基づいて変換することが可能な技術の提供を目的とする。
本発明は、前記課題にかんがみてなされたもので、入力された音を入力された音に基づいて変換することが可能な技術の提供を目的とする。
上述の目的を達成するため、音を示す音情報を取得する音情報取得手段と、所定の特徴の音を示す音情報を音素片情報として抽出する音素片情報取得手段と、音情報が示す音と特徴が類似する音を示す音素片情報に基づいて、音情報が示す音を変換して出力する出力音制御手段と、を備える音情報変換装置を構成する。
すなわち、音情報変換装置は、音情報を、音情報自体から抽出された音素片情報に基づいて変換して出力する。この構成によれば、音情報として入力された音を、入力された音に基づいて変換することが可能である。従って、例えば、楽器の演奏内容を演奏と同時に出力する場面において、演奏によって生成された音が演奏によって生成された音によって変換されて出力されるというような状態を実現することができる。演奏前に予め作成されていた音素片情報に基づいて音情報を変換するような構成では、置換後の音が全て演奏開始前に作成されていることになり、既知の音のみによって置換後の音が構成される。しかし、音情報を、音情報自体から抽出された音素片情報に基づいて変換して出力する構成によれば、置換後の音は演奏開始前に予想できない音である。従って、ライブ演奏等においてにおいて予想外の演奏が行われやすくなる。
ここで、音情報取得手段は、音を示す音情報を取得することができればよく、楽器の演奏等によって生成された音情報を取得しても良いし、予め定義された音情報が通信等を介して取得されても良い。なお、ライブ演奏独特のパフォーマンスを引き出し得る音情報変換装置とするためには、音情報取得手段が楽器の演奏等によって生成された音情報をリアルタイムに取得する構成であることが好ましい。また、音情報は、出力される音を特定することができるように定義されていれば良く、MIDI情報、OSC(Open Sound Control)情報等の楽音を制御する情報や、デジタルあるいはアナログの音響信号であってもよい。
音素片情報取得手段は、所定の特徴の音を示す音情報を音素片情報として抽出することができればよい。すなわち、音情報を変換する際の基になる音素片情報を音の特徴に基づいて定義するにあたり、音素片情報の抽出元が音情報とされ、この結果、音情報として入力された音を、入力された音に基づいて変換することができるように構成されていればよい。むろん、抽出された音素片情報は、以後、継続して使用できるように保持されることが好ましく、例えば、音情報から抽出された音素片情報が不揮発性メモリに記録されるように構成しても良い。
音素片情報とされるべき音の特徴である所定の特徴は予め定義されていれば良く、例えば、音情報を評価するための指標(非定常成分、周波数成分等)を予め決定するとともに、各指標において所定の特徴であるか否かを決定するための評価基準を予め定義しておく。この構成によれば、各指標によって音情報が示す音を評価し、評価基準に合致するか否かによって所定の特徴のある音であるか否かを決定することができる。なお、音素片情報は、所定の長さの音を示していれば良く、所定の長さは任意に設定することができる。例えば、小節を均等分割した長さや所定の音符の長さ、時間間隔等によって所定の長さを定義することができる。むろん、所定の長さは固定であっても良いし可変であっても良い。
出力音制御手段は、音情報が示す音と特徴が類似する音を示す音素片情報に基づいて、音情報が示す音を変換して出力することができればよい。すなわち、音情報から抽出された音素片情報に基づいて音情報を変化させる構成であればよい。変換対象の音は、当該音が、音素片情報が示す音に類似していることを判断要素として選択されればよい。従って、出力音制御手段が、当該判断要素以外の判断要素も含めて変換対象の音を選択してもよい。
また、変換対象の音は、音情報が示す音の少なくとも一部であればよい。従って、音情報が示す音の中で変換対象の音は、所定の規則に応じて決定されても良いし、利用者の指示に応じて決定されても良いし、ランダムに決定されても良いし、これらの決定手法や他の決定手法の組み合わせによって決定されても良い。さらに、音情報が示す音と音素片情報が示す音とのいずれかを選択して出力する構成であっても良い。この構成であれば、音情報自体または音素片情報自体によって出力音を特定することができるため、音情報を音素片情報で置換するという簡易な変換のみによって出力音を特定することができる。
むろん、音情報が示す音に類似する音を示す音素片情報は複数個存在し得るため、複数の音素片情報を候補として抽出し、候補の中から選択してもよい。選択は、利用者によって行われても良いし、類似度に基づいて(例えば、最も類似度が高い音素片情報を選択する等)行われてもよい。このように、複数個の音素片情報から音素片情報を選択する構成によれば、選択基準を可変とすることにより、同一の音情報を変換するために抽出される音素片情報を多様にすることができる。
音情報が示す音の特徴と、音素片情報が示す音の特徴が類似しているか否かの判定は、種々の手法によって実施可能であり、例えば、音素片情報取得手段における音の特徴の解析と同様の解析を音情報において実施すれば、音素片情報と音情報とで共通の指標で特徴を評価することができる。そこで、共通の指標で評価された結果を比較すれば、特徴が類似するか否かを各指標について評価することができる。むろん、ここでは、類似しているか否かを区別する評価基準(閾値等)によって音同士の類似が評価されても良いし、類似しているほど評価が高くなるような類似度に基づいて音同士の類似が評価されてもよい。後者であれば、複数の音について類似しているか否かを相対的に評価したり、類似と見なすことができる音素片情報を複数個抽出したりすることができる。
音情報が示す音を変換する手法としては、種々の手法を採用可能であり、音素片情報で音情報を置換しても良いし、音素片情報で音情報を補正(例えば、音素片情報が示す音と音情報が示す音とを合成した音を生成する構成等)しても良く、種々の構成を採用可能である。むろん、音情報の補正のために参照される音素片情報として、音情報から抽出された音素片情報以外の情報が参照可能であっても良い。例えば、予め生成されたデータベース化された音素片情報を利用して音情報が示す音を変換することが可能な構成であっても良い。
さらに、複数の音素片情報から選択された音素片情報で音情報を変換する際の選択基準として、時間軸上の位置を参照する構成としても良い。例えば、音情報取得手段が、音に対して時間軸上の位置を示す情報を対応づけた音情報を取得し、音素片情報取得手段が、所定の特徴の音を示す情報と当該音の時間軸上の位置を示す情報を音素片情報として音情報から抽出し、出力音制御手段が、音情報が示す音と類似する音を示す複数の音素片情報から選択された音素片情報で音情報を置換して置換後の情報が示す音を出力する構成を想定する。この構成において、出力音制御手段が、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置との関係に応じて、置換する音素片情報を選択する構成としても良い。
時間軸上の位置同士の関係としては、位置同士の時間間隔が挙げられる。この場合、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置が離れている場合と、近い場合とでは、当該音素片情報が選択される確率が異なるように構成される。例えば、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置が離れている場合の方が、近い場合よりも音素片情報が選択され易くなる構成とすれば、置換される音と時間的に近いタイミングの音を示す音素片情報が選択されにくくなる。従って、聞いたばかりの音が繰り返されることを抑制することができる。
むろん、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置が離れている場合の方が、近い場合よりも音素片情報が選択されにくくなる構成とすれば、時間的に近いタイミングの音を示す音素片情報が選択され易くなる。
時間軸上の位置に基づく音素片情報の選択は、同一の音素片情報であっても時間軸上の位置が異なれば選択される確率が変化するように実施されれば良く、種々の手法で選択を実施可能である。例えば、時間軸上の位置に応じて音の特徴の類似度を変化させる(類似度と時間の関数である係数との積を算出する)ように構成し、類似度に基づいて音素片情報を選択した結果、時間軸上の位置に応じて音素片情報が選択されたことになるような構成が採用されていても良い。なお、時間軸上の位置は、音の出力順序を特定できるように定義されていれば良く、音と時間情報(演奏時刻やクロック数等)を対応づける構成であってもよいし、音の長さと順序とが規定されている結果、時間軸上の位置が特定される構成であっても良い。むろん、音情報を取得する際には、音に対して時間軸上の位置を示す情報が対応づけられたWAVE情報やMIDI情報等を取得しても良いし、音の波形情報やMIDI情報等をリアルタイムに取得するとともに各波形情報やMIDI情報等に時刻情報を対応づけて音情報を生成しても良い。後者であれば、リアルタイムに音を入力し、一旦中断してさらに入力を行う場合等において、音の存在する期間と中断されていた期間とが同一時間軸上で定義された音情報を取得することができる。なお、時間軸上の位置同士の関係に応じて置換する音素片情報を選択する構成としては、他にも種々の構成を採用可能である。例えば、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置とが、所定時間以上離れている場合と離れていない場合とでは、当該音素片情報が置換する音素片情報として選択される確率が変化するように構成されていても良い。
ここでは、下記の順序に従って本発明の実施の形態について説明する。
(1)音情報変換装置の構成:
(1−1)動作例:
(2)他の実施形態:
(1)音情報変換装置の構成:
(1−1)動作例:
(2)他の実施形態:
(1)音情報変換装置の構成:
図1Aは本発明の一実施形態にかかる音情報変換装置10の主要部を示すブロック図である。音情報変換装置10は、例えばコンピュータ等で構成されても良いし、携帯端末によって構成されても良いし、電子楽器によって構成されても良い。音情報変換装置10は、制御部20と記録媒体30と集音部40とインタフェース群50と操作部60と表示部70と音出力部80とを備えている。制御部20は、図示しないインタフェース(バス等)で記録媒体30、集音部40、インタフェース群50、操作部60、表示部70、音出力部80と接続されており、制御部20と各部とで情報の授受を行うことができる。
図1Aは本発明の一実施形態にかかる音情報変換装置10の主要部を示すブロック図である。音情報変換装置10は、例えばコンピュータ等で構成されても良いし、携帯端末によって構成されても良いし、電子楽器によって構成されても良い。音情報変換装置10は、制御部20と記録媒体30と集音部40とインタフェース群50と操作部60と表示部70と音出力部80とを備えている。制御部20は、図示しないインタフェース(バス等)で記録媒体30、集音部40、インタフェース群50、操作部60、表示部70、音出力部80と接続されており、制御部20と各部とで情報の授受を行うことができる。
また、制御部20は、CPU,RAM,ROM等のプログラム実行環境を備えており、記録媒体30やROMに記憶されたプログラムを実行することができる。本実施形態において制御部20は、このプログラムの一つとして音情報変換プログラム21を実行することができる。
集音部40は、外界の音を取得してアナログ信号を出力するマイクと、当該アナログ信号をサンプリングし、デジタル信号に変換して制御部20に供給するA/D変換器とにより構成される。インタフェース群50は、通信ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、磁気ディスクやCD−ROM等の外部記録媒体との間でデータの授受を行うためのドライバ等により構成される。
操作部60は、利用者から各種の指示や各種の情報を受け取るための入力手段であり、各種の操作子により構成されている。音情報変換装置10がコンピュータによって構成される態様では、キーボード、マウス等の入力装置等によって操作部60を構成可能である。表示部70は、音情報変換装置10の動作状態や音情報の内容、利用者に対するメッセージ等を表示するための装置であり、例えば液晶ディスプレイパネルとその駆動回路により構成される。
音出力部80は、後述する音情報や音素片情報で構成されるデジタル信号をアナログ信号に変換するD/A変換器と、このアナログ信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカー等により構成されている。音情報変換装置10を携帯端末として実現する場合には、スピーカーの代わりにヘッドホン端子を設けてもよい。
記録媒体30は、各種のプログラムやデータベース等の情報を記憶するための記憶装置であり、HDD(ハードディスクドライブ)やEEPROM(Electronic Erasable Programmable Read Only Memory)等により構成される。本実施形態において記録媒体30には、集音部40またはインタフェース群50を介して取得された音情報30aが記録される(音情報30a)。また、記録媒体30には、音情報変換装置10の運用過程で作成された音素片情報30bが記録される。
本実施形態においては、音情報変換プログラム21により、リアルタイムに入力された音を示す音情報を変換して出力する処理を制御部20が実行する。この処理を制御部20に実行させるため、音情報変換プログラム21は、音情報取得部21aと音素片情報取得部21bと出力音制御部21cとを備えている。
音情報取得部21aは、音を示す音情報を取得する機能を制御部20に実現させるプログラムモジュールである。すなわち、集音部40によって音が収集される場合、制御部20は、集音部40のマイクによって集音された音を示す音情報30aを音情報取得部21aの処理によって取得して記録媒体30に記録する。また、インタフェース群50を介して音情報が取得される場合、制御部20は、音情報取得部21aの処理によってインタフェース群50を制御し、音を示す音情報30aをインタフェース群50から取得して記録媒体30に記録する。なお、音情報30aは、所定の順序で音を再生できるように定義されていれば良く、時間軸上の位置(例えば、音の開始時点からの経過時間)に音が対応づけられた情報である。音は種々の態様で特定可能であり、音響信号であってもよいし、音高、音の長さ、強さ等を示す情報であってもよい。
音素片情報取得部21bは、所定の特徴の音を示す音情報を音素片情報として抽出する機能を制御部20に実現させるプログラムモジュールである。すなわち、制御部20は、記録媒体30に記録された音情報30aを参照し、音情報30aを所定の長さ毎の音に分割する。さらに、制御部20は、分割された音のそれぞれに基づいて既定の解析を行い、音の特徴を示す特徴量を取得する。さらに、制御部20は、各音の特徴量が予め決められた基準を満たすか否かを判定することにより、各音が所定の特徴であるか否かを判定する。そして、制御部20は、所定の特徴であると判定された音の音情報を抽出し、当該音情報に当該音の特徴量を対応づけて音素片情報30bとし、記録媒体30に記録する。この構成によれば、例えば、音情報30aがリアルタイム入力された場合において、入力された音は、その後に入力される音を変換するための音として直ちに利用可能になる。
なお、特徴量としては、種々の量を採用可能であり、音声の特徴を示す特徴量や音楽を構成する音の特徴を示す特徴量等が挙げられる。前者としては、例えば、音素片の非定常成分、MFCC(Mel Frequency Cepstrum Coefficient)、瞬時パワーの時間的変化率、音素片の定常成分の最低周波数、音素片の定常成分の最低周波数の軌跡形状、音素片のフォルマント、線形予測係数、偏自己相関係数、線スペクトル対係数、フィルタバンク等が挙げられる。後者としては、例えば、音高と音量との組み合わせを示すHPCP(Harmonics Pitch Class Profile)、所定の周波数を下回る音を対象としたHPCPであるLPF-HPCP(Low Pass Filter-HPCP)、素片内の楽音の音量(エネルギの平均値)、スペクトル重心(スペクトルセントロイド)、テンポ、単位時間内の音高等の変化度、クロマベクトル等が挙げられる。
さらに、音情報30aを分割して音素片情報30bを生成するにあたり、分割単位を規定する所定の長さは、予め決められても良いし、音情報30aが示す音に基づいて決められてもよい(例えば、アタックを区切りとする等)。また、制御部20が、クラスタリング等の処理によって音を分類した結果に基づいて音情報30aを分割して音素片情報30bを生成しても良い。
本実施形態において制御部20は、音情報30aが示す音について複数の種類の特徴量を取得し、各種類の特徴量に基づいて特徴量が予め決められた基準を満たすか否かを判定する。そして、制御部20は、複数の種類の中の少なくとも1種類において、特徴が所定の特徴である音を示す音素片情報30bを取得する。このため、多様な音を示す音素片情報30bを取得することができる。また、ここで制御部20は、音情報30aから音素片情報30bを抽出して特徴量を対応づけることができればよい。従って、解析の順序は限定されず、制御部20が、音情報30aの特徴量を特定した後に分割して音素片情報30bを抽出する構成であっても良い。
出力音制御部21cは、音情報が示す音と特徴が類似する音を示す音素片情報に基づいて、音情報が示す音を変換して出力する機能を制御部20に実現させるプログラムモジュールである。本実施形態において利用者は、操作部60によって、音情報30aを変換して出力するか否かを選択することができる。すなわち、制御部20は、操作部60の操作を受け付け、操作内容に応じて、音情報30aが示す音を変換することなく出力する状態と、音情報30aの一部を音素片情報30bで置換して出力する状態とのいずれかを選択することができる。
音情報30aの一部を音素片情報30bで置換して出力する状態において、利用者は、さらに、操作部60によって音情報30aを置換する比率を指定することができる。例えば、置換する比率が1/3に設定された場合、制御部20は、所定の期間(例えば、1小節分の長さ等)で出力される音を示す音情報30aのうち、1/3の期間に相当する音情報30aを置換対象とする。そして、制御部20は、当該置換対象の音情報30aが示す音と類似する音を示す音素片情報30bを取得し、当該音素片情報30bによって置換対象の音情報30aを置換する。
以上の処理を実行するため、出力音制御部21cは、類否判定部22aと素片選択部22bとデータ生成部22cとを備えている。類否判定部22aは、置換対象の音情報30aが示す音と音素片情報30bが示す音との類比を判定する機能を制御部20に実現させるプログラムモジュールである。
すなわち、音情報30aの一部を音素片情報30bで置換して出力する状態が選択されている場合、制御部20は、類否判定部22aの処理により、置換対象の音情報30aの特徴量を取得する。ここでは、置換対象の音情報30aについて解析を行って特徴量を取得しても良いし、音素片情報取得部21bの処理によって取得された特徴量を流用しても良い。さらに、制御部20は、類否判定部22aの処理により、音素片情報30bを参照し、音素片情報30bが示す各音に対応づけられている特徴量を取得する。そして、制御部20は、類否判定部22aの処理により、置換対象の音情報30aの特徴量と音素片情報30bに対応づけられた特徴量との差異が既定量以内である場合に、置換対象の音情報30aが示す音と音素片情報30bが示す音とが類似していると判定する。
具体的には、本実施形態においては各音について複数の種類の特徴量が特定されるため、置換対象の音情報30aが示す音についての複数の特徴量と音素片情報30bが示す音についての複数の特徴量とを総合的に比較することによって両者の差異を特定する。このような比較の手法としては、種々の手法を採用可能である。
例えば、制御部20が、複数の特徴量のそれぞれを成分とする特徴量ベクトルを各音について定義し、各特徴量ベクトル間のコサイン類似度を特定し、コサイン類似度が1に近い所定閾値以上である場合に類似していると判定する構成を採用可能である。また、制御部20が、各特徴量ベクトル間のcityblock距離に基づいて類似しているか否かを判定しても良いし、正規化した各特徴量ベクトル間のユークリッド距離やマハラノビス距離に基づいて類似しているか否かを判定しても良い。
なお、置換対象の音情報30aが示す音の長さと音素片情報30bが示す音の長さが一致していない場合もあり得るが、このように、異なる長さの音の特徴量を比較するためには、種々の構成を採用可能である。例えば、制御部20が、所定の長さの音の中で特徴量が安定している瞬時の特徴量をサンプリングして比較対象とする構成を採用可能である。また、制御部20が、所定期間毎の特徴量をサンプリングし、いずれか1個の特徴量または複数個のタイミングでサンプリングされた特徴量の統計値(平均値等)を比較対象とする構成等を採用可能である。
さらに、制御部20が、置換対象の音情報30aが示す音と音素片情報30bが示す音とのそれぞれをフーリエ変換し、周波数空間における特徴量を取得して比較対象とする構成等を採用可能である。なお、比較対象となる特徴量は、複数の特徴量の全てでも良いし、一部でも良い。後者の場合、利用者が、操作部60によって比較対象となる特徴量を指定しても良いし、予め決められた特徴量が比較対象となってもよい。
素片選択部22bは、置換対象の音情報30aが示す音に類似する音を示す音素片情報30bの中から、音素片情報30bを1個選択する機能を制御部20に実現させるプログラムモジュールである。すなわち、類否判定部22aの処理により置換対象の音情報30aが示す音に類似した音を示すと判定された音素片情報30bが1個である場合、制御部20は、当該音素片情報30bを選択する。類否判定部22aの処理により置換対象の音情報30aが示す音に類似した音を示すと判定された音素片情報30bが複数個である場合、制御部20は、類似度(特徴量の差異が小さいほど大きくなるように定義された指標)が最も大きい音素片情報30bを選択する。
データ生成部22cは、音情報30aが示す音に類似した音を示す音素片情報30bによって、当該音情報30aを変換したデータを生成する機能を制御部20に実現させるプログラムモジュールである。すなわち、音情報30aの一部を音素片情報30bで置換して出力する状態が選択されている場合、制御部20は、予め利用者によって設定された比率で音情報30aを音素片情報30bに置換する。例えば、置換する比率が1/3の場合、制御部20は、音情報30aの1/3を当該音情報30aが示す音に類似した音を示す音素片情報30bで置換し、置換後の情報が示す音を再生するためのデータを生成する。なお、ここで、制御部20は、置換部分の開始点および終了点において音が不自然になることを防止するための補正や音の長さを長くまたは短くする処理等を行ってもよい。また、変換対象となる音情報30aは、リアルタイム入力されている音情報30aであってもよいし、予め指定された音情報30a(例えば、直前に取得された既定の長さ分の音情報30a等)であってもよい。
一方、音情報30aが示す音を変換することなく出力する状態が選択されている場合、制御部20は、音情報30aを取得し、当該音情報30aが示す音を再生するためのデータを生成する。音を再生するためのデータが生成されると、制御部20は、当該データを音出力部80に対して出力する。この結果、音出力部80は、当該データに基づいて音を出力する。
(1−1)動作例:
次に、以上の構成にかかる音情報変換装置10の動作例を説明する。ここでは、各種の楽器が演奏されて生成された音を集音部40によってリアルタイムに集音し、集音された音に基づいて変換された音を音出力部80から出力する例を想定する。図1Bは、このような例において、既定の長さ(例えば、4小節分の長さ)毎に、音情報30aが示す音を変換することなく出力する状態と、音情報30aの一部を音素片情報30bで置換して出力する状態とが選択された場合の例を示している。
次に、以上の構成にかかる音情報変換装置10の動作例を説明する。ここでは、各種の楽器が演奏されて生成された音を集音部40によってリアルタイムに集音し、集音された音に基づいて変換された音を音出力部80から出力する例を想定する。図1Bは、このような例において、既定の長さ(例えば、4小節分の長さ)毎に、音情報30aが示す音を変換することなく出力する状態と、音情報30aの一部を音素片情報30bで置換して出力する状態とが選択された場合の例を示している。
図1Bにおいては、左から右に向いた時間軸に沿って音情報30aと音出力部80からの出力結果を例示している。また、図1Bに示す例は、既定の長さの単位で演奏内容A,B,C,D,Eが演奏され、集音部40で集音された例である。この例において、期間T1で音情報30aが示す音を変換することなく出力する状態が選択され、期間T2で音情報30aの一部を音素片情報30bで置換して出力する状態が選択され、かつ、直前に取得された既定の長さ分の音情報30aから置換対象が選択されるように指定されていた場合を想定する。
この場合、期間T1において制御部20は、データ生成部22cの処理により、集音された音を示す音情報30aに基づいてデータを生成して出力する。この結果、期間T1における演奏内容A,B,Dがそのまま出力される。一方、期間T2において制御部20は、データ生成部22cの処理により、直前の期間T1で集音された音を示す音情報30aの一部を音素片情報30bで置換したデータを生成して出力する。この結果、期間T2における演奏内容C,Dは出力されず、直前の演奏内容が変換された内容b、dが出力される。図1Bの拡大図V1,V2のそれぞれは、演奏内容Bの音を示す模式図、演奏内容Bが演奏された直後の期間T2(演奏内容Cが演奏された期間)において出力される音を示す模式図である。
当該拡大図V1,V2においては、演奏内容Bの音情報30aが示す音を符号B1,B2,B3,B4,B5,B6として示しており、演奏内容Bの音情報30aが示す音B2,B5に類似する、音素片情報30bが示す音を符号b2,b5として示している。すなわち、拡大図V2においては、演奏内容Bの音情報30aである音B1,B2,B3,B4,B5,B6の中の1/3である音B2,B5が類似する音b2,b5に置換されている。なお、音b2,b5は音B2,B5に類似する音として既存の音情報30aから選択された音であるため、図1Bに示す例においては、演奏内容A,Bのいずれかに含まれていた音である。
従って、本実施形態によれば、図1Bに示す例のように、楽器の演奏内容を演奏と同時に出力する場面において、演奏によって生成された音が直前の演奏によって生成された音によって変換されて出力されるというような状態を実現することができる。演奏前に予め作成されていた音素片情報に基づいて音情報を変換するような構成では、置換後の音が全て演奏開始前に作成されていることになり、既知の音のみによって置換後の音が構成される。このような構成と比較した場合、本実施形態においては、置換後の音は演奏開始前に予想できない音であるため、ライブ演奏において予想外の演奏が行われやすくなる。
(2)他の実施形態:
以上の実施形態は本発明を実施するための一例であり、他にも種々の実施形態を採用可能である。例えば、音情報変換装置が複数個の装置によって構成されても良く、音情報取得部21a、音素片情報取得部21b、出力音制御部21cのうちの一部のモジュールを実行可能なコンピュータと他のモジュールを実行可能なコンピュータがネットワークに接続され、ネットワークを介して音情報30aや制御指示等を授受することで、これらのコンピュータが音情報変換装置として機能する構成であってもよい。このような構成としては、音情報30aを取得してサーバコンピュータにアップロードし、サーバコンピュータによって音素片情報30bが取得された状態において、クライアントコンピュータによって音情報30aを取得し、音素片情報30bで適宜変換しながら音楽を演奏する構成等が想定される。むろん、コンピュータの台数は2台に限定されず、3台以上であっても良い。
以上の実施形態は本発明を実施するための一例であり、他にも種々の実施形態を採用可能である。例えば、音情報変換装置が複数個の装置によって構成されても良く、音情報取得部21a、音素片情報取得部21b、出力音制御部21cのうちの一部のモジュールを実行可能なコンピュータと他のモジュールを実行可能なコンピュータがネットワークに接続され、ネットワークを介して音情報30aや制御指示等を授受することで、これらのコンピュータが音情報変換装置として機能する構成であってもよい。このような構成としては、音情報30aを取得してサーバコンピュータにアップロードし、サーバコンピュータによって音素片情報30bが取得された状態において、クライアントコンピュータによって音情報30aを取得し、音素片情報30bで適宜変換しながら音楽を演奏する構成等が想定される。むろん、コンピュータの台数は2台に限定されず、3台以上であっても良い。
さらに、音情報30aを取得するための装置は、集音部40やインタフェース群50以外の装置であっても良い。例えば、制御部20が、操作子を操作することによって音情報30aを生成する電子楽器から当該音情報30aを取得する構成や、通信ケーブルを介して、あるいは無線通信によって音情報30aとしてのMIDI情報を取得する構成を採用しても良い。
さらに、制御部20が、出力音制御部21cの処理により、音素片情報30bが示す音に対応づけられた時間軸上の位置と置換される音情報30aが示す音に対応づけられた時間軸上の位置との関係に応じて、置換する音素片情報30bを選択する構成としても良い。このような構成は、時間軸上の位置に応じて音の特徴の類似度を変化させる(類似度と時間の関数である係数との積を算出する)ように構成し、類似度に基づいて音素片情報30bを選択した結果、時間軸上の位置に応じて音素片情報が選択されたことになるような構成であってもよい。
図1Cは、係数の例を示す図であり、横軸は時間、縦軸は係数の大きさである。同図1Cにおいては、音情報30aが示す音の時間軸を横軸として示している。この例において、置換される音の時間軸上の位置が時刻Tdである状態を想定する。この場合、音素片情報30bとなり得る音は時刻Tdよりも過去の時刻が対応づけられた音である。係数は、時刻Tdよりも過去の時刻において時間に依存して大きさが変化する量であり、本例では最大値が1である。音情報30aにおいて時刻Tdが対応づけられた音が変換対象の音である場合、制御部20は、類否判定部22aの処理により、特徴量に基づいて、変換対象の音と音素片情報30bが示す音との類似度を取得する。さらに、制御部20は、素片選択部22bの処理により、音素片情報30bが示す音に対応づけられた時間軸上の位置に基づいて係数の値を特定し、当該係数の値を当該音の類似度に対して乗じて類似度を補正する。そして、制御部20は、素片選択部22bの処理により、補正後の類似度が最も大きい音を示す音素片情報30bを選択する。
例えば、係数が図1Cにおいて一点鎖線で示す係数C1である場合において、音素片情報30bが示す音N1,N2(図示せず)に対応づけられた時間軸上の位置が時刻T1,T2であった場合、音N1の類似度に対して係数C11を乗じ、音N2の類似度に対して係数C12を乗じる補正が行われる。係数C1は、時間軸に沿った時間の進行に対して単調減少の関数であるため、音素片情報30bが示す音に対応づけられた時間軸上の位置(T1,T2等)と置換される音情報30aが示す音に対応づけられた時間軸上の位置Tdが離れているほど、係数の値が大きくなる。
そして、本例においては、このように定義された係数が類似度に乗じられる補正が行われた後、補正後の類似度に基づいて音素片情報30bが選択されるため、音素片情報30bが示す音に対応づけられた時間軸上の位置と置換される音情報30aが示す音に対応づけられた時間軸上の位置が離れている場合の方が、近い場合よりも音素片情報30bが選択され易くなる。従って、聞いたばかりの音が繰り返されることを抑制することができる。
係数の時間依存性は、種々の依存性に設定可能であり、図1Cの係数C2のように、時間軸に沿った時間の進行に対して単調増加の関数であってもよい。この場合、時間的に近いタイミングの音を示す音素片情報30bが選択され易くなる。図1Cの係数C3のように、上に凸の関数とすれば、特定の部分で使用された音が選択され易くなるように構成することができる。むろん、係数は図1Cに示すような関数に限定されず、下に凸の関数等であっても良い。
さらに、置換対象の音情報30aが示す音に類似した音を示すと判定された音素片情報30bが複数個である場合に、複数の音素片情報30bから1個の音素片情報30bを選択するための選択基準は、最も大きい音素片情報30bを選択するような上述の基準に限定されない。例えば、制御部20が、利用者の指示に応じて音素片情報30bを選択する構成等を採用可能である。また、制御部20が、置換対象の音情報30aが示す音に類似した音を示すと判定された音素片情報30bの中から、ランダムに音素片情報30bを選択する構成を採用しても良い。さらに、制御部20が、各音素片情報30bの類似度に所定の関数を乗じて得られた値に基づいて音素片情報30bを選択する構成であっても良い。
さらに、音情報30aが示す音の中から変換対象の音を特定して出力される音を示すデータを生成するための手法は、上述のように、予め決められた比率で置換を行う構成の他にも種々の構成を採用可能である。例えば、制御部20が、音素片情報30bと同様の長さの情報に音情報30aを分割した状態で記録媒体30に記録し、音情報30aと音素片情報30bとから選択された複数の情報を時間軸上で並べて出力すべき音を示すデータを生成しても良い。さらに、音情報30aが示す音と類似する音を示す音素片情報30bが存在する場合、制御部20が、全ての音情報30aを音素片情報30bで置換する構成であっても良い。
さらに、制御部20が、音素片情報30bで音情報30aを加工して出力すべき音を示すデータを生成しても良い。例えば、制御部20が、音情報30aが示す音のピッチや音量、音高、フォルマント等の要素を音素片情報30bが示す音の要素に合わせて変化させる構成としても良い。
さらに、音情報30aが、電子楽器や通信ケーブルを介して、あるいは無線通信によって取得されたMIDI情報である場合、音情報30aに基づいて、音情報30aが示す音を詳細に分類することができる。すなわち、制御部20は、音情報30aに基づいて、音高や音の強さ、長さ、音の組み合わせ(和音としての音)等を容易かつ高速に解析することができる。例えば、制御部20が、リアルタイム入力された音情報30aを参照して、取得された音が過去に取得されたことのない音であるか否かを容易かつ高速に判定することができる。
そこで、制御部20は、取得された音が過去に取得されたことのない音である場合に、当該音を変換することなく出力し、取得された音が過去に取得されたことのある音である場合に、当該音を類似した音に置換して出力する処理を行ってもよい。この構成によれば、同じ音が取得された場合に、当該音に類似した音が出力されるので、多様な(画一的でない)音を出力することが可能になる。むろん、このように、過去に取得された音であるか否かに基づいて音情報30aを変換する構成においては、1音単位(ノートオンからノートオフまでの単位)で過去に取得された音であるか否かを判定しても良いし、複数音単位(例えば、所定の長さの期間)の音が過去に取得された音であるか否かを判定しても良い。
さらに、集音部40等によって音情報30aが取得される前に各種の音源に基づいて予め作成された音素片情報30bが記録媒体30に記録され、類否判定の対象となるように構成されていても良い。例えば、制御部20が、インタフェース群50を介して予め楽曲データや音声データを取得し、音素片情報取得部21bの処理に基づいてこれらのデータを解析することにより、これらのデータから音素片情報30bを取得し、記録媒体30に記録した状態で集音部40等による音情報30aの取得が行われる構成であっても良い。この構成によれば、置換後の音の中に、集音した音情報30aから作られた音素片情報30bと予め用意した音素片情報30bとを混在させることができ、より変化に富んだ音楽を楽しむことができる。
さらに、上述のような音情報変換装置10や音情報変換プログラム21は、音情報変換機能以外の機能を有する汎用的な装置で実現されても良い。さらに、音情報変換プログラム21を構成する各プログラムモジュールは、一部がハードウェアとして提供されても良い。さらに、音情報変換プログラム21の記録媒体としても発明は成立する。むろん、そのソフトウェアの記録媒体は、磁気記録媒体であってもよいし光磁気記録媒体であってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。
10…音情報変換装置、20…制御部、21…音情報変換プログラム、21a…音情報取得部、21b…音素片情報取得部、21c…出力音制御部、22a…類否判定部、22b…素片選択部、22c…データ生成部、30…記録媒体、30a…音情報、30b…音素片情報、40…集音部、50…インタフェース群、60…操作部、70…表示部、80…音出力部
Claims (4)
- 音を示す音情報を取得する音情報取得手段と、
所定の特徴の音を示す前記音情報を音素片情報として抽出する音素片情報取得手段と、
前記音情報が示す音と特徴が類似する音を示す前記音素片情報に基づいて、前記音情報が示す音を変換して出力する出力音制御手段と、
を備える音情報変換装置。 - 前記音情報取得手段は、
音に対して時間軸上の位置を示す情報を対応づけた前記音情報を取得し、
前記音素片情報取得手段は、
所定の特徴の音を示す情報と当該音の時間軸上の位置を示す情報を前記音素片情報として前記音情報から抽出し、
前記出力音制御手段は、
前記音情報が示す音と類似する音を示す複数の前記音素片情報から選択された前記音素片情報で前記音情報を置換して置換後の情報が示す音を出力するとともに、
前記音素片情報が示す音に対応づけられた時間軸上の位置と置換される前記音情報が示す音に対応づけられた時間軸上の位置との関係に応じて、置換する前記音素片情報を選択する、
請求項1に記載の音情報変換装置。 - 前記出力音制御手段は、
前記音情報が示す音と変換された前記音情報が示す音とのいずれかを選択して出力する、
請求項1または請求項2のいずれかに記載の音情報変換装置。 - 音を示す音情報を取得する音情報取得機能と、
所定の特徴の音を示す前記音情報を音素片情報として抽出する音素片情報取得機能と、
前記音情報が示す音と特徴が類似する音を示す前記音素片情報に基づいて、前記音情報が示す音を変換して出力する出力音制御機能と、
をコンピュータに実現させる音情報変換プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014042829A JP2015169719A (ja) | 2014-03-05 | 2014-03-05 | 音情報変換装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014042829A JP2015169719A (ja) | 2014-03-05 | 2014-03-05 | 音情報変換装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015169719A true JP2015169719A (ja) | 2015-09-28 |
Family
ID=54202532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014042829A Pending JP2015169719A (ja) | 2014-03-05 | 2014-03-05 | 音情報変換装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015169719A (ja) |
-
2014
- 2014-03-05 JP JP2014042829A patent/JP2015169719A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4640407B2 (ja) | 信号処理装置、信号処理方法及びプログラム | |
US9892758B2 (en) | Audio information processing | |
US9646592B2 (en) | Audio signal analysis | |
US20120300950A1 (en) | Management of a sound material to be stored into a database | |
US20190005935A1 (en) | Sound signal processing method and sound signal processing apparatus | |
CN113781989B (zh) | 一种音频的动画播放、节奏卡点识别方法及相关装置 | |
JP6281211B2 (ja) | 音響信号のアライメント装置、アライメント方法及びコンピュータプログラム | |
JP6288197B2 (ja) | 評価装置及びプログラム | |
JP2017067902A (ja) | 音響処理装置 | |
JP6102076B2 (ja) | 評価装置 | |
JP2008216486A (ja) | 音楽再生システム | |
WO2014142200A1 (ja) | 音声処理装置 | |
CN111243618B (zh) | 用于确定音频中的特定人声片段的方法、装置和电子设备 | |
JP2015200685A (ja) | アタック位置検出プログラムおよびアタック位置検出装置 | |
JP2000293188A (ja) | 和音リアルタイム認識方法及び記憶媒体 | |
CN110136677B (zh) | 乐音控制方法及相关产品 | |
JP2015169719A (ja) | 音情報変換装置およびプログラム | |
JP5879813B2 (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
Abeßer et al. | Instrument-centered music transcription of bass guitar tracks | |
US20240231497A9 (en) | Haptic feedback method, system and related device for matching split-track music to vibration | |
CN113744721B (zh) | 模型训练方法、音频处理方法、设备及可读存储介质 | |
Seth et al. | PAT: Parameter-Free Audio-Text Aligner to Boost Zero-Shot Audio Classification | |
Wu | Guitar Sound Analysis and Pitch Detection | |
JP5035598B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
CN113744708A (zh) | 模型训练方法、音频评价方法、设备及可读存储介质 |