JP2015169719A

JP2015169719A - 音情報変換装置およびプログラム

Info

Publication number: JP2015169719A
Application number: JP2014042829A
Authority: JP
Inventors: 直希安良岡; Naoki Yasuraoka; 昌賢金子; Masayoshi Kaneko; 康平須見; Kohei Sumi; 小野寺　純一; Junichi Onodera; 純一小野寺; 旬臼井; Jun Usui; 泰史神谷; Yasushi Kamiya
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2015-09-28

Abstract

【課題】入力された音を入力された音に基づいて変換することが可能な技術の提供。
【解決手段】音を示す音情報を取得する音情報取得手段と、所定の特徴の音を示す前記音情報を音素片情報として抽出する音素片情報取得手段と、前記音情報が示す音と特徴が類似する音を示す前記音素片情報に基づいて、前記音情報が示す音を変換して出力する出力音制御手段と、を備える音情報変換装置を構成する。
【選択図】図１

Description

本発明は、音情報を変換して出力する音情報変換装置およびプログラムに関する。

従来、入力された音を変換して出力する技術が開発されている。例えば、特許文献１においては、入力音響データを入力音素片データに分割し、予め楽音素片データベースに登録された楽音素片データの特徴量と入力音素片データの特徴量とが類似する場合に、楽音素片データを読み出して出力する技術が開示されている。

特開２００８−２５００４９号公報

従来の技術においては、入力された音を入力された音に基づいて変換することができなかった。すなわち、従来の技術において出力される楽音素片データは、予め楽音素片データベースに登録されたデータであり、当該楽音素片データベースに保持された楽音素片データは、入力音響データに基づいて作成されたデータではない。従って、入力された音を入力された音に基づいて変換することはできなかった。
本発明は、前記課題にかんがみてなされたもので、入力された音を入力された音に基づいて変換することが可能な技術の提供を目的とする。

上述の目的を達成するため、音を示す音情報を取得する音情報取得手段と、所定の特徴の音を示す音情報を音素片情報として抽出する音素片情報取得手段と、音情報が示す音と特徴が類似する音を示す音素片情報に基づいて、音情報が示す音を変換して出力する出力音制御手段と、を備える音情報変換装置を構成する。

すなわち、音情報変換装置は、音情報を、音情報自体から抽出された音素片情報に基づいて変換して出力する。この構成によれば、音情報として入力された音を、入力された音に基づいて変換することが可能である。従って、例えば、楽器の演奏内容を演奏と同時に出力する場面において、演奏によって生成された音が演奏によって生成された音によって変換されて出力されるというような状態を実現することができる。演奏前に予め作成されていた音素片情報に基づいて音情報を変換するような構成では、置換後の音が全て演奏開始前に作成されていることになり、既知の音のみによって置換後の音が構成される。しかし、音情報を、音情報自体から抽出された音素片情報に基づいて変換して出力する構成によれば、置換後の音は演奏開始前に予想できない音である。従って、ライブ演奏等においてにおいて予想外の演奏が行われやすくなる。

ここで、音情報取得手段は、音を示す音情報を取得することができればよく、楽器の演奏等によって生成された音情報を取得しても良いし、予め定義された音情報が通信等を介して取得されても良い。なお、ライブ演奏独特のパフォーマンスを引き出し得る音情報変換装置とするためには、音情報取得手段が楽器の演奏等によって生成された音情報をリアルタイムに取得する構成であることが好ましい。また、音情報は、出力される音を特定することができるように定義されていれば良く、ＭＩＤＩ情報、ＯＳＣ（Open Sound Control）情報等の楽音を制御する情報や、デジタルあるいはアナログの音響信号であってもよい。

音素片情報取得手段は、所定の特徴の音を示す音情報を音素片情報として抽出することができればよい。すなわち、音情報を変換する際の基になる音素片情報を音の特徴に基づいて定義するにあたり、音素片情報の抽出元が音情報とされ、この結果、音情報として入力された音を、入力された音に基づいて変換することができるように構成されていればよい。むろん、抽出された音素片情報は、以後、継続して使用できるように保持されることが好ましく、例えば、音情報から抽出された音素片情報が不揮発性メモリに記録されるように構成しても良い。

音素片情報とされるべき音の特徴である所定の特徴は予め定義されていれば良く、例えば、音情報を評価するための指標（非定常成分、周波数成分等）を予め決定するとともに、各指標において所定の特徴であるか否かを決定するための評価基準を予め定義しておく。この構成によれば、各指標によって音情報が示す音を評価し、評価基準に合致するか否かによって所定の特徴のある音であるか否かを決定することができる。なお、音素片情報は、所定の長さの音を示していれば良く、所定の長さは任意に設定することができる。例えば、小節を均等分割した長さや所定の音符の長さ、時間間隔等によって所定の長さを定義することができる。むろん、所定の長さは固定であっても良いし可変であっても良い。

出力音制御手段は、音情報が示す音と特徴が類似する音を示す音素片情報に基づいて、音情報が示す音を変換して出力することができればよい。すなわち、音情報から抽出された音素片情報に基づいて音情報を変化させる構成であればよい。変換対象の音は、当該音が、音素片情報が示す音に類似していることを判断要素として選択されればよい。従って、出力音制御手段が、当該判断要素以外の判断要素も含めて変換対象の音を選択してもよい。

また、変換対象の音は、音情報が示す音の少なくとも一部であればよい。従って、音情報が示す音の中で変換対象の音は、所定の規則に応じて決定されても良いし、利用者の指示に応じて決定されても良いし、ランダムに決定されても良いし、これらの決定手法や他の決定手法の組み合わせによって決定されても良い。さらに、音情報が示す音と音素片情報が示す音とのいずれかを選択して出力する構成であっても良い。この構成であれば、音情報自体または音素片情報自体によって出力音を特定することができるため、音情報を音素片情報で置換するという簡易な変換のみによって出力音を特定することができる。

むろん、音情報が示す音に類似する音を示す音素片情報は複数個存在し得るため、複数の音素片情報を候補として抽出し、候補の中から選択してもよい。選択は、利用者によって行われても良いし、類似度に基づいて（例えば、最も類似度が高い音素片情報を選択する等）行われてもよい。このように、複数個の音素片情報から音素片情報を選択する構成によれば、選択基準を可変とすることにより、同一の音情報を変換するために抽出される音素片情報を多様にすることができる。

音情報が示す音の特徴と、音素片情報が示す音の特徴が類似しているか否かの判定は、種々の手法によって実施可能であり、例えば、音素片情報取得手段における音の特徴の解析と同様の解析を音情報において実施すれば、音素片情報と音情報とで共通の指標で特徴を評価することができる。そこで、共通の指標で評価された結果を比較すれば、特徴が類似するか否かを各指標について評価することができる。むろん、ここでは、類似しているか否かを区別する評価基準（閾値等）によって音同士の類似が評価されても良いし、類似しているほど評価が高くなるような類似度に基づいて音同士の類似が評価されてもよい。後者であれば、複数の音について類似しているか否かを相対的に評価したり、類似と見なすことができる音素片情報を複数個抽出したりすることができる。

音情報が示す音を変換する手法としては、種々の手法を採用可能であり、音素片情報で音情報を置換しても良いし、音素片情報で音情報を補正（例えば、音素片情報が示す音と音情報が示す音とを合成した音を生成する構成等）しても良く、種々の構成を採用可能である。むろん、音情報の補正のために参照される音素片情報として、音情報から抽出された音素片情報以外の情報が参照可能であっても良い。例えば、予め生成されたデータベース化された音素片情報を利用して音情報が示す音を変換することが可能な構成であっても良い。

さらに、複数の音素片情報から選択された音素片情報で音情報を変換する際の選択基準として、時間軸上の位置を参照する構成としても良い。例えば、音情報取得手段が、音に対して時間軸上の位置を示す情報を対応づけた音情報を取得し、音素片情報取得手段が、所定の特徴の音を示す情報と当該音の時間軸上の位置を示す情報を音素片情報として音情報から抽出し、出力音制御手段が、音情報が示す音と類似する音を示す複数の音素片情報から選択された音素片情報で音情報を置換して置換後の情報が示す音を出力する構成を想定する。この構成において、出力音制御手段が、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置との関係に応じて、置換する音素片情報を選択する構成としても良い。

時間軸上の位置同士の関係としては、位置同士の時間間隔が挙げられる。この場合、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置が離れている場合と、近い場合とでは、当該音素片情報が選択される確率が異なるように構成される。例えば、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置が離れている場合の方が、近い場合よりも音素片情報が選択され易くなる構成とすれば、置換される音と時間的に近いタイミングの音を示す音素片情報が選択されにくくなる。従って、聞いたばかりの音が繰り返されることを抑制することができる。

むろん、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置が離れている場合の方が、近い場合よりも音素片情報が選択されにくくなる構成とすれば、時間的に近いタイミングの音を示す音素片情報が選択され易くなる。

時間軸上の位置に基づく音素片情報の選択は、同一の音素片情報であっても時間軸上の位置が異なれば選択される確率が変化するように実施されれば良く、種々の手法で選択を実施可能である。例えば、時間軸上の位置に応じて音の特徴の類似度を変化させる（類似度と時間の関数である係数との積を算出する）ように構成し、類似度に基づいて音素片情報を選択した結果、時間軸上の位置に応じて音素片情報が選択されたことになるような構成が採用されていても良い。なお、時間軸上の位置は、音の出力順序を特定できるように定義されていれば良く、音と時間情報（演奏時刻やクロック数等）を対応づける構成であってもよいし、音の長さと順序とが規定されている結果、時間軸上の位置が特定される構成であっても良い。むろん、音情報を取得する際には、音に対して時間軸上の位置を示す情報が対応づけられたＷＡＶＥ情報やＭＩＤＩ情報等を取得しても良いし、音の波形情報やＭＩＤＩ情報等をリアルタイムに取得するとともに各波形情報やＭＩＤＩ情報等に時刻情報を対応づけて音情報を生成しても良い。後者であれば、リアルタイムに音を入力し、一旦中断してさらに入力を行う場合等において、音の存在する期間と中断されていた期間とが同一時間軸上で定義された音情報を取得することができる。なお、時間軸上の位置同士の関係に応じて置換する音素片情報を選択する構成としては、他にも種々の構成を採用可能である。例えば、音素片情報が示す音に対応づけられた時間軸上の位置と置換される音情報が示す音に対応づけられた時間軸上の位置とが、所定時間以上離れている場合と離れていない場合とでは、当該音素片情報が置換する音素片情報として選択される確率が変化するように構成されていても良い。

（１Ａ）は本発明の一実施形態にかかる音情報変換装置のブロック図、（１Ｂ）は音の変換例を示す図、（１Ｃ）は類似度の補正例を示す図である。

ここでは、下記の順序に従って本発明の実施の形態について説明する。
（１）音情報変換装置の構成：
（１−１）動作例：
（２）他の実施形態：

（１）音情報変換装置の構成：
図１Ａは本発明の一実施形態にかかる音情報変換装置１０の主要部を示すブロック図である。音情報変換装置１０は、例えばコンピュータ等で構成されても良いし、携帯端末によって構成されても良いし、電子楽器によって構成されても良い。音情報変換装置１０は、制御部２０と記録媒体３０と集音部４０とインタフェース群５０と操作部６０と表示部７０と音出力部８０とを備えている。制御部２０は、図示しないインタフェース（バス等）で記録媒体３０、集音部４０、インタフェース群５０、操作部６０、表示部７０、音出力部８０と接続されており、制御部２０と各部とで情報の授受を行うことができる。

また、制御部２０は、ＣＰＵ，ＲＡＭ，ＲＯＭ等のプログラム実行環境を備えており、記録媒体３０やＲＯＭに記憶されたプログラムを実行することができる。本実施形態において制御部２０は、このプログラムの一つとして音情報変換プログラム２１を実行することができる。

集音部４０は、外界の音を取得してアナログ信号を出力するマイクと、当該アナログ信号をサンプリングし、デジタル信号に変換して制御部２０に供給するＡ／Ｄ変換器とにより構成される。インタフェース群５０は、通信ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、磁気ディスクやＣＤ−ＲＯＭ等の外部記録媒体との間でデータの授受を行うためのドライバ等により構成される。

操作部６０は、利用者から各種の指示や各種の情報を受け取るための入力手段であり、各種の操作子により構成されている。音情報変換装置１０がコンピュータによって構成される態様では、キーボード、マウス等の入力装置等によって操作部６０を構成可能である。表示部７０は、音情報変換装置１０の動作状態や音情報の内容、利用者に対するメッセージ等を表示するための装置であり、例えば液晶ディスプレイパネルとその駆動回路により構成される。

音出力部８０は、後述する音情報や音素片情報で構成されるデジタル信号をアナログ信号に変換するＤ／Ａ変換器と、このアナログ信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカー等により構成されている。音情報変換装置１０を携帯端末として実現する場合には、スピーカーの代わりにヘッドホン端子を設けてもよい。

記録媒体３０は、各種のプログラムやデータベース等の情報を記憶するための記憶装置であり、ＨＤＤ（ハードディスクドライブ）やＥＥＰＲＯＭ（Electronic Erasable Programmable Read Only Memory）等により構成される。本実施形態において記録媒体３０には、集音部４０またはインタフェース群５０を介して取得された音情報３０ａが記録される（音情報３０ａ）。また、記録媒体３０には、音情報変換装置１０の運用過程で作成された音素片情報３０ｂが記録される。

本実施形態においては、音情報変換プログラム２１により、リアルタイムに入力された音を示す音情報を変換して出力する処理を制御部２０が実行する。この処理を制御部２０に実行させるため、音情報変換プログラム２１は、音情報取得部２１ａと音素片情報取得部２１ｂと出力音制御部２１ｃとを備えている。

音情報取得部２１ａは、音を示す音情報を取得する機能を制御部２０に実現させるプログラムモジュールである。すなわち、集音部４０によって音が収集される場合、制御部２０は、集音部４０のマイクによって集音された音を示す音情報３０ａを音情報取得部２１ａの処理によって取得して記録媒体３０に記録する。また、インタフェース群５０を介して音情報が取得される場合、制御部２０は、音情報取得部２１ａの処理によってインタフェース群５０を制御し、音を示す音情報３０ａをインタフェース群５０から取得して記録媒体３０に記録する。なお、音情報３０ａは、所定の順序で音を再生できるように定義されていれば良く、時間軸上の位置（例えば、音の開始時点からの経過時間）に音が対応づけられた情報である。音は種々の態様で特定可能であり、音響信号であってもよいし、音高、音の長さ、強さ等を示す情報であってもよい。

音素片情報取得部２１ｂは、所定の特徴の音を示す音情報を音素片情報として抽出する機能を制御部２０に実現させるプログラムモジュールである。すなわち、制御部２０は、記録媒体３０に記録された音情報３０ａを参照し、音情報３０ａを所定の長さ毎の音に分割する。さらに、制御部２０は、分割された音のそれぞれに基づいて既定の解析を行い、音の特徴を示す特徴量を取得する。さらに、制御部２０は、各音の特徴量が予め決められた基準を満たすか否かを判定することにより、各音が所定の特徴であるか否かを判定する。そして、制御部２０は、所定の特徴であると判定された音の音情報を抽出し、当該音情報に当該音の特徴量を対応づけて音素片情報３０ｂとし、記録媒体３０に記録する。この構成によれば、例えば、音情報３０ａがリアルタイム入力された場合において、入力された音は、その後に入力される音を変換するための音として直ちに利用可能になる。

なお、特徴量としては、種々の量を採用可能であり、音声の特徴を示す特徴量や音楽を構成する音の特徴を示す特徴量等が挙げられる。前者としては、例えば、音素片の非定常成分、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）、瞬時パワーの時間的変化率、音素片の定常成分の最低周波数、音素片の定常成分の最低周波数の軌跡形状、音素片のフォルマント、線形予測係数、偏自己相関係数、線スペクトル対係数、フィルタバンク等が挙げられる。後者としては、例えば、音高と音量との組み合わせを示すＨＰＣＰ（Harmonics Pitch Class Profile）、所定の周波数を下回る音を対象としたＨＰＣＰであるＬＰＦ-ＨＰＣＰ（Low Pass Filter-HPCP）、素片内の楽音の音量（エネルギの平均値）、スペクトル重心（スペクトルセントロイド）、テンポ、単位時間内の音高等の変化度、クロマベクトル等が挙げられる。

さらに、音情報３０ａを分割して音素片情報３０ｂを生成するにあたり、分割単位を規定する所定の長さは、予め決められても良いし、音情報３０ａが示す音に基づいて決められてもよい（例えば、アタックを区切りとする等）。また、制御部２０が、クラスタリング等の処理によって音を分類した結果に基づいて音情報３０ａを分割して音素片情報３０ｂを生成しても良い。

本実施形態において制御部２０は、音情報３０ａが示す音について複数の種類の特徴量を取得し、各種類の特徴量に基づいて特徴量が予め決められた基準を満たすか否かを判定する。そして、制御部２０は、複数の種類の中の少なくとも１種類において、特徴が所定の特徴である音を示す音素片情報３０ｂを取得する。このため、多様な音を示す音素片情報３０ｂを取得することができる。また、ここで制御部２０は、音情報３０ａから音素片情報３０ｂを抽出して特徴量を対応づけることができればよい。従って、解析の順序は限定されず、制御部２０が、音情報３０ａの特徴量を特定した後に分割して音素片情報３０ｂを抽出する構成であっても良い。

出力音制御部２１ｃは、音情報が示す音と特徴が類似する音を示す音素片情報に基づいて、音情報が示す音を変換して出力する機能を制御部２０に実現させるプログラムモジュールである。本実施形態において利用者は、操作部６０によって、音情報３０ａを変換して出力するか否かを選択することができる。すなわち、制御部２０は、操作部６０の操作を受け付け、操作内容に応じて、音情報３０ａが示す音を変換することなく出力する状態と、音情報３０ａの一部を音素片情報３０ｂで置換して出力する状態とのいずれかを選択することができる。

音情報３０ａの一部を音素片情報３０ｂで置換して出力する状態において、利用者は、さらに、操作部６０によって音情報３０ａを置換する比率を指定することができる。例えば、置換する比率が１／３に設定された場合、制御部２０は、所定の期間（例えば、１小節分の長さ等）で出力される音を示す音情報３０ａのうち、１／３の期間に相当する音情報３０ａを置換対象とする。そして、制御部２０は、当該置換対象の音情報３０ａが示す音と類似する音を示す音素片情報３０ｂを取得し、当該音素片情報３０ｂによって置換対象の音情報３０ａを置換する。

以上の処理を実行するため、出力音制御部２１ｃは、類否判定部２２ａと素片選択部２２ｂとデータ生成部２２ｃとを備えている。類否判定部２２ａは、置換対象の音情報３０ａが示す音と音素片情報３０ｂが示す音との類比を判定する機能を制御部２０に実現させるプログラムモジュールである。

すなわち、音情報３０ａの一部を音素片情報３０ｂで置換して出力する状態が選択されている場合、制御部２０は、類否判定部２２ａの処理により、置換対象の音情報３０ａの特徴量を取得する。ここでは、置換対象の音情報３０ａについて解析を行って特徴量を取得しても良いし、音素片情報取得部２１ｂの処理によって取得された特徴量を流用しても良い。さらに、制御部２０は、類否判定部２２ａの処理により、音素片情報３０ｂを参照し、音素片情報３０ｂが示す各音に対応づけられている特徴量を取得する。そして、制御部２０は、類否判定部２２ａの処理により、置換対象の音情報３０ａの特徴量と音素片情報３０ｂに対応づけられた特徴量との差異が既定量以内である場合に、置換対象の音情報３０ａが示す音と音素片情報３０ｂが示す音とが類似していると判定する。

具体的には、本実施形態においては各音について複数の種類の特徴量が特定されるため、置換対象の音情報３０ａが示す音についての複数の特徴量と音素片情報３０ｂが示す音についての複数の特徴量とを総合的に比較することによって両者の差異を特定する。このような比較の手法としては、種々の手法を採用可能である。

例えば、制御部２０が、複数の特徴量のそれぞれを成分とする特徴量ベクトルを各音について定義し、各特徴量ベクトル間のコサイン類似度を特定し、コサイン類似度が１に近い所定閾値以上である場合に類似していると判定する構成を採用可能である。また、制御部２０が、各特徴量ベクトル間のcityblock距離に基づいて類似しているか否かを判定しても良いし、正規化した各特徴量ベクトル間のユークリッド距離やマハラノビス距離に基づいて類似しているか否かを判定しても良い。

なお、置換対象の音情報３０ａが示す音の長さと音素片情報３０ｂが示す音の長さが一致していない場合もあり得るが、このように、異なる長さの音の特徴量を比較するためには、種々の構成を採用可能である。例えば、制御部２０が、所定の長さの音の中で特徴量が安定している瞬時の特徴量をサンプリングして比較対象とする構成を採用可能である。また、制御部２０が、所定期間毎の特徴量をサンプリングし、いずれか１個の特徴量または複数個のタイミングでサンプリングされた特徴量の統計値（平均値等）を比較対象とする構成等を採用可能である。

さらに、制御部２０が、置換対象の音情報３０ａが示す音と音素片情報３０ｂが示す音とのそれぞれをフーリエ変換し、周波数空間における特徴量を取得して比較対象とする構成等を採用可能である。なお、比較対象となる特徴量は、複数の特徴量の全てでも良いし、一部でも良い。後者の場合、利用者が、操作部６０によって比較対象となる特徴量を指定しても良いし、予め決められた特徴量が比較対象となってもよい。

素片選択部２２ｂは、置換対象の音情報３０ａが示す音に類似する音を示す音素片情報３０ｂの中から、音素片情報３０ｂを１個選択する機能を制御部２０に実現させるプログラムモジュールである。すなわち、類否判定部２２ａの処理により置換対象の音情報３０ａが示す音に類似した音を示すと判定された音素片情報３０ｂが１個である場合、制御部２０は、当該音素片情報３０ｂを選択する。類否判定部２２ａの処理により置換対象の音情報３０ａが示す音に類似した音を示すと判定された音素片情報３０ｂが複数個である場合、制御部２０は、類似度（特徴量の差異が小さいほど大きくなるように定義された指標）が最も大きい音素片情報３０ｂを選択する。

データ生成部２２ｃは、音情報３０ａが示す音に類似した音を示す音素片情報３０ｂによって、当該音情報３０ａを変換したデータを生成する機能を制御部２０に実現させるプログラムモジュールである。すなわち、音情報３０ａの一部を音素片情報３０ｂで置換して出力する状態が選択されている場合、制御部２０は、予め利用者によって設定された比率で音情報３０ａを音素片情報３０ｂに置換する。例えば、置換する比率が１／３の場合、制御部２０は、音情報３０ａの１／３を当該音情報３０ａが示す音に類似した音を示す音素片情報３０ｂで置換し、置換後の情報が示す音を再生するためのデータを生成する。なお、ここで、制御部２０は、置換部分の開始点および終了点において音が不自然になることを防止するための補正や音の長さを長くまたは短くする処理等を行ってもよい。また、変換対象となる音情報３０ａは、リアルタイム入力されている音情報３０ａであってもよいし、予め指定された音情報３０ａ（例えば、直前に取得された既定の長さ分の音情報３０ａ等）であってもよい。

一方、音情報３０ａが示す音を変換することなく出力する状態が選択されている場合、制御部２０は、音情報３０ａを取得し、当該音情報３０ａが示す音を再生するためのデータを生成する。音を再生するためのデータが生成されると、制御部２０は、当該データを音出力部８０に対して出力する。この結果、音出力部８０は、当該データに基づいて音を出力する。

（１−１）動作例：
次に、以上の構成にかかる音情報変換装置１０の動作例を説明する。ここでは、各種の楽器が演奏されて生成された音を集音部４０によってリアルタイムに集音し、集音された音に基づいて変換された音を音出力部８０から出力する例を想定する。図１Ｂは、このような例において、既定の長さ（例えば、４小節分の長さ）毎に、音情報３０ａが示す音を変換することなく出力する状態と、音情報３０ａの一部を音素片情報３０ｂで置換して出力する状態とが選択された場合の例を示している。

図１Ｂにおいては、左から右に向いた時間軸に沿って音情報３０ａと音出力部８０からの出力結果を例示している。また、図１Ｂに示す例は、既定の長さの単位で演奏内容Ａ，Ｂ，Ｃ，Ｄ，Ｅが演奏され、集音部４０で集音された例である。この例において、期間Ｔ₁で音情報３０ａが示す音を変換することなく出力する状態が選択され、期間Ｔ₂で音情報３０ａの一部を音素片情報３０ｂで置換して出力する状態が選択され、かつ、直前に取得された既定の長さ分の音情報３０ａから置換対象が選択されるように指定されていた場合を想定する。

この場合、期間Ｔ₁において制御部２０は、データ生成部２２ｃの処理により、集音された音を示す音情報３０ａに基づいてデータを生成して出力する。この結果、期間Ｔ₁における演奏内容Ａ，Ｂ，Ｄがそのまま出力される。一方、期間Ｔ₂において制御部２０は、データ生成部２２ｃの処理により、直前の期間Ｔ₁で集音された音を示す音情報３０ａの一部を音素片情報３０ｂで置換したデータを生成して出力する。この結果、期間Ｔ₂における演奏内容Ｃ，Ｄは出力されず、直前の演奏内容が変換された内容ｂ、ｄが出力される。図１Ｂの拡大図Ｖ₁，Ｖ₂のそれぞれは、演奏内容Ｂの音を示す模式図、演奏内容Ｂが演奏された直後の期間Ｔ₂（演奏内容Ｃが演奏された期間）において出力される音を示す模式図である。

当該拡大図Ｖ₁，Ｖ₂においては、演奏内容Ｂの音情報３０ａが示す音を符号Ｂ₁，Ｂ₂，Ｂ₃，Ｂ₄，Ｂ₅，Ｂ₆として示しており、演奏内容Ｂの音情報３０ａが示す音Ｂ₂，Ｂ₅に類似する、音素片情報３０ｂが示す音を符号ｂ₂，ｂ₅として示している。すなわち、拡大図Ｖ₂においては、演奏内容Ｂの音情報３０ａである音Ｂ₁，Ｂ₂，Ｂ₃，Ｂ₄，Ｂ₅，Ｂ₆の中の１／３である音Ｂ₂，Ｂ₅が類似する音ｂ₂，ｂ₅に置換されている。なお、音ｂ₂，ｂ₅は音Ｂ₂，Ｂ₅に類似する音として既存の音情報３０ａから選択された音であるため、図１Ｂに示す例においては、演奏内容Ａ，Ｂのいずれかに含まれていた音である。

従って、本実施形態によれば、図１Ｂに示す例のように、楽器の演奏内容を演奏と同時に出力する場面において、演奏によって生成された音が直前の演奏によって生成された音によって変換されて出力されるというような状態を実現することができる。演奏前に予め作成されていた音素片情報に基づいて音情報を変換するような構成では、置換後の音が全て演奏開始前に作成されていることになり、既知の音のみによって置換後の音が構成される。このような構成と比較した場合、本実施形態においては、置換後の音は演奏開始前に予想できない音であるため、ライブ演奏において予想外の演奏が行われやすくなる。

（２）他の実施形態：
以上の実施形態は本発明を実施するための一例であり、他にも種々の実施形態を採用可能である。例えば、音情報変換装置が複数個の装置によって構成されても良く、音情報取得部２１ａ、音素片情報取得部２１ｂ、出力音制御部２１ｃのうちの一部のモジュールを実行可能なコンピュータと他のモジュールを実行可能なコンピュータがネットワークに接続され、ネットワークを介して音情報３０ａや制御指示等を授受することで、これらのコンピュータが音情報変換装置として機能する構成であってもよい。このような構成としては、音情報３０ａを取得してサーバコンピュータにアップロードし、サーバコンピュータによって音素片情報３０ｂが取得された状態において、クライアントコンピュータによって音情報３０ａを取得し、音素片情報３０ｂで適宜変換しながら音楽を演奏する構成等が想定される。むろん、コンピュータの台数は２台に限定されず、３台以上であっても良い。

さらに、音情報３０ａを取得するための装置は、集音部４０やインタフェース群５０以外の装置であっても良い。例えば、制御部２０が、操作子を操作することによって音情報３０ａを生成する電子楽器から当該音情報３０ａを取得する構成や、通信ケーブルを介して、あるいは無線通信によって音情報３０ａとしてのＭＩＤＩ情報を取得する構成を採用しても良い。

さらに、制御部２０が、出力音制御部２１ｃの処理により、音素片情報３０ｂが示す音に対応づけられた時間軸上の位置と置換される音情報３０ａが示す音に対応づけられた時間軸上の位置との関係に応じて、置換する音素片情報３０ｂを選択する構成としても良い。このような構成は、時間軸上の位置に応じて音の特徴の類似度を変化させる（類似度と時間の関数である係数との積を算出する）ように構成し、類似度に基づいて音素片情報３０ｂを選択した結果、時間軸上の位置に応じて音素片情報が選択されたことになるような構成であってもよい。

図１Ｃは、係数の例を示す図であり、横軸は時間、縦軸は係数の大きさである。同図１Ｃにおいては、音情報３０ａが示す音の時間軸を横軸として示している。この例において、置換される音の時間軸上の位置が時刻Ｔ_dである状態を想定する。この場合、音素片情報３０ｂとなり得る音は時刻Ｔ_dよりも過去の時刻が対応づけられた音である。係数は、時刻Ｔ_dよりも過去の時刻において時間に依存して大きさが変化する量であり、本例では最大値が１である。音情報３０ａにおいて時刻Ｔ_dが対応づけられた音が変換対象の音である場合、制御部２０は、類否判定部２２ａの処理により、特徴量に基づいて、変換対象の音と音素片情報３０ｂが示す音との類似度を取得する。さらに、制御部２０は、素片選択部２２ｂの処理により、音素片情報３０ｂが示す音に対応づけられた時間軸上の位置に基づいて係数の値を特定し、当該係数の値を当該音の類似度に対して乗じて類似度を補正する。そして、制御部２０は、素片選択部２２ｂの処理により、補正後の類似度が最も大きい音を示す音素片情報３０ｂを選択する。

例えば、係数が図１Ｃにおいて一点鎖線で示す係数Ｃ₁である場合において、音素片情報３０ｂが示す音Ｎ₁，Ｎ₂（図示せず）に対応づけられた時間軸上の位置が時刻Ｔ₁，Ｔ₂であった場合、音Ｎ₁の類似度に対して係数Ｃ₁₁を乗じ、音Ｎ₂の類似度に対して係数Ｃ₁₂を乗じる補正が行われる。係数Ｃ₁は、時間軸に沿った時間の進行に対して単調減少の関数であるため、音素片情報３０ｂが示す音に対応づけられた時間軸上の位置（Ｔ₁，Ｔ₂等）と置換される音情報３０ａが示す音に対応づけられた時間軸上の位置Ｔ_dが離れているほど、係数の値が大きくなる。

そして、本例においては、このように定義された係数が類似度に乗じられる補正が行われた後、補正後の類似度に基づいて音素片情報３０ｂが選択されるため、音素片情報３０ｂが示す音に対応づけられた時間軸上の位置と置換される音情報３０ａが示す音に対応づけられた時間軸上の位置が離れている場合の方が、近い場合よりも音素片情報３０ｂが選択され易くなる。従って、聞いたばかりの音が繰り返されることを抑制することができる。

係数の時間依存性は、種々の依存性に設定可能であり、図１Ｃの係数Ｃ₂のように、時間軸に沿った時間の進行に対して単調増加の関数であってもよい。この場合、時間的に近いタイミングの音を示す音素片情報３０ｂが選択され易くなる。図１Ｃの係数Ｃ₃のように、上に凸の関数とすれば、特定の部分で使用された音が選択され易くなるように構成することができる。むろん、係数は図１Ｃに示すような関数に限定されず、下に凸の関数等であっても良い。

さらに、置換対象の音情報３０ａが示す音に類似した音を示すと判定された音素片情報３０ｂが複数個である場合に、複数の音素片情報３０ｂから１個の音素片情報３０ｂを選択するための選択基準は、最も大きい音素片情報３０ｂを選択するような上述の基準に限定されない。例えば、制御部２０が、利用者の指示に応じて音素片情報３０ｂを選択する構成等を採用可能である。また、制御部２０が、置換対象の音情報３０ａが示す音に類似した音を示すと判定された音素片情報３０ｂの中から、ランダムに音素片情報３０ｂを選択する構成を採用しても良い。さらに、制御部２０が、各音素片情報３０ｂの類似度に所定の関数を乗じて得られた値に基づいて音素片情報３０ｂを選択する構成であっても良い。

さらに、音情報３０ａが示す音の中から変換対象の音を特定して出力される音を示すデータを生成するための手法は、上述のように、予め決められた比率で置換を行う構成の他にも種々の構成を採用可能である。例えば、制御部２０が、音素片情報３０ｂと同様の長さの情報に音情報３０ａを分割した状態で記録媒体３０に記録し、音情報３０ａと音素片情報３０ｂとから選択された複数の情報を時間軸上で並べて出力すべき音を示すデータを生成しても良い。さらに、音情報３０ａが示す音と類似する音を示す音素片情報３０ｂが存在する場合、制御部２０が、全ての音情報３０ａを音素片情報３０ｂで置換する構成であっても良い。

さらに、制御部２０が、音素片情報３０ｂで音情報３０ａを加工して出力すべき音を示すデータを生成しても良い。例えば、制御部２０が、音情報３０ａが示す音のピッチや音量、音高、フォルマント等の要素を音素片情報３０ｂが示す音の要素に合わせて変化させる構成としても良い。

さらに、音情報３０ａが、電子楽器や通信ケーブルを介して、あるいは無線通信によって取得されたＭＩＤＩ情報である場合、音情報３０ａに基づいて、音情報３０ａが示す音を詳細に分類することができる。すなわち、制御部２０は、音情報３０ａに基づいて、音高や音の強さ、長さ、音の組み合わせ（和音としての音）等を容易かつ高速に解析することができる。例えば、制御部２０が、リアルタイム入力された音情報３０ａを参照して、取得された音が過去に取得されたことのない音であるか否かを容易かつ高速に判定することができる。

そこで、制御部２０は、取得された音が過去に取得されたことのない音である場合に、当該音を変換することなく出力し、取得された音が過去に取得されたことのある音である場合に、当該音を類似した音に置換して出力する処理を行ってもよい。この構成によれば、同じ音が取得された場合に、当該音に類似した音が出力されるので、多様な（画一的でない）音を出力することが可能になる。むろん、このように、過去に取得された音であるか否かに基づいて音情報３０ａを変換する構成においては、１音単位（ノートオンからノートオフまでの単位）で過去に取得された音であるか否かを判定しても良いし、複数音単位（例えば、所定の長さの期間）の音が過去に取得された音であるか否かを判定しても良い。

さらに、集音部４０等によって音情報３０ａが取得される前に各種の音源に基づいて予め作成された音素片情報３０ｂが記録媒体３０に記録され、類否判定の対象となるように構成されていても良い。例えば、制御部２０が、インタフェース群５０を介して予め楽曲データや音声データを取得し、音素片情報取得部２１ｂの処理に基づいてこれらのデータを解析することにより、これらのデータから音素片情報３０ｂを取得し、記録媒体３０に記録した状態で集音部４０等による音情報３０ａの取得が行われる構成であっても良い。この構成によれば、置換後の音の中に、集音した音情報３０ａから作られた音素片情報３０ｂと予め用意した音素片情報３０ｂとを混在させることができ、より変化に富んだ音楽を楽しむことができる。

さらに、上述のような音情報変換装置１０や音情報変換プログラム２１は、音情報変換機能以外の機能を有する汎用的な装置で実現されても良い。さらに、音情報変換プログラム２１を構成する各プログラムモジュールは、一部がハードウェアとして提供されても良い。さらに、音情報変換プログラム２１の記録媒体としても発明は成立する。むろん、そのソフトウェアの記録媒体は、磁気記録媒体であってもよいし光磁気記録媒体であってもよいし、今後開発されるいかなる記録媒体においても全く同様に考えることができる。

１０…音情報変換装置、２０…制御部、２１…音情報変換プログラム、２１ａ…音情報取得部、２１ｂ…音素片情報取得部、２１ｃ…出力音制御部、２２ａ…類否判定部、２２ｂ…素片選択部、２２ｃ…データ生成部、３０…記録媒体、３０ａ…音情報、３０ｂ…音素片情報、４０…集音部、５０…インタフェース群、６０…操作部、７０…表示部、８０…音出力部

Claims

音を示す音情報を取得する音情報取得手段と、
所定の特徴の音を示す前記音情報を音素片情報として抽出する音素片情報取得手段と、
前記音情報が示す音と特徴が類似する音を示す前記音素片情報に基づいて、前記音情報が示す音を変換して出力する出力音制御手段と、
を備える音情報変換装置。
前記音情報取得手段は、
音に対して時間軸上の位置を示す情報を対応づけた前記音情報を取得し、
前記音素片情報取得手段は、
所定の特徴の音を示す情報と当該音の時間軸上の位置を示す情報を前記音素片情報として前記音情報から抽出し、
前記出力音制御手段は、
前記音情報が示す音と類似する音を示す複数の前記音素片情報から選択された前記音素片情報で前記音情報を置換して置換後の情報が示す音を出力するとともに、
前記音素片情報が示す音に対応づけられた時間軸上の位置と置換される前記音情報が示す音に対応づけられた時間軸上の位置との関係に応じて、置換する前記音素片情報を選択する、
請求項１に記載の音情報変換装置。
前記出力音制御手段は、
前記音情報が示す音と変換された前記音情報が示す音とのいずれかを選択して出力する、
請求項１または請求項２のいずれかに記載の音情報変換装置。
音を示す音情報を取得する音情報取得機能と、
所定の特徴の音を示す前記音情報を音素片情報として抽出する音素片情報取得機能と、
前記音情報が示す音と特徴が類似する音を示す前記音素片情報に基づいて、前記音情報が示す音を変換して出力する出力音制御機能と、
をコンピュータに実現させる音情報変換プログラム。