JP4544258B2 - 音響変換装置およびプログラム - Google Patents

音響変換装置およびプログラム Download PDF

Info

Publication number
JP4544258B2
JP4544258B2 JP2007092185A JP2007092185A JP4544258B2 JP 4544258 B2 JP4544258 B2 JP 4544258B2 JP 2007092185 A JP2007092185 A JP 2007092185A JP 2007092185 A JP2007092185 A JP 2007092185A JP 4544258 B2 JP4544258 B2 JP 4544258B2
Authority
JP
Japan
Prior art keywords
data
acoustic
musical
segment
musical tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007092185A
Other languages
English (en)
Other versions
JP2008250049A (ja
Inventor
琢哉 藤島
慶太 有元
ビースァン オン
セバスチャン シュトライヒ
ボナダ ジョルディ
デ ボア マールテン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007092185A priority Critical patent/JP4544258B2/ja
Publication of JP2008250049A publication Critical patent/JP2008250049A/ja
Application granted granted Critical
Publication of JP4544258B2 publication Critical patent/JP4544258B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

この発明は、入力音響信号を種類の異なった他の音響信号に変換する音響変換装置およびプログラムに関する。
現在、DTM(Desk Top Music)やループシーケンサ等の曲編集プログラムの普及により、多くの人が手軽に所望の曲を作曲し、あるいは編曲し、音楽を楽しむことができるようになっている。一定の秩序を持った楽音の列である音楽は、人間にとって快いものであり、中には感動を与えるものもある。
特開2006−337450号公報
しかし、その一方、音楽とはいえないような楽音の羅列も、それなりに人間に楽しみをもたらす。そして、たとえ楽音の羅列であっても、そこに創作者の何らかの個性を反映させることができれば、その楽音の羅列は、音楽に匹敵する楽しみをもたらすことができる。例えば創作者が発声する話し声などの音声(音楽と無関係な音声で構わない)の特徴を反映した楽音の羅列等である。楽音の羅列を発生するものではないが、人が発声する音声を収音し、楽音信号にこの音声信号を用いた変調等の加工を施すボコーダが各種提供されている(例えば特許文献1参照)。この種のボコーダは、例えばエフェクタとして用いられるが、元の音声の特徴をある程度反映した楽音信号を得ることができる。しかしながら、この種のボコーダは、楽音信号を加工して人の音声の特徴を反映した楽音信号を生成するときに、加工対象である楽音信号を発生させなければならない。また、ボコーダの場合、画一的な加工処理により音声の特徴を反映した楽音信号を発生するため、興趣性に富んだ楽音信号が得られないという問題があった。
この発明は、以上説明した事情に鑑みてなされたものであり、元の入力音響波形の特徴をある程度維持し、かつ、興趣性に富んだ楽音波形を生成することができる音響変換装置およびプログラムを提供することを目的としている。
この発明は、楽音の素片の波形を示す楽音素片データをその特徴量に対応付けて格納する楽音素片データベースと、楽音波形とは異なる種類の音響波形を示す入力音響データを取得する音響入力手段と、前記音響入力手段を介して入力音響データを受け取ってその解析を行い、前記入力音響データを短時間の入力音響素片データに分割するとともに、各入力音響素片データの特徴量を求める解析手段と、前記解析手段により得られた各入力音響素片データの特徴量について、前記楽音素片データベースに記憶された各楽音素片データの各特徴量との類否指標を算定する類否算定手段と、前記解析手段により得られた各入力音響素片データについて、前記類否算定手段により算定された当該入力音響素片データの特徴量と前記楽音素片データベースに記憶された各楽音素片データの各特徴量との各類否指標に基づき、前記楽音素片データベースに記憶された各楽音素片データの中から少なくとも1つの楽音素片データを選択して読み出す素片選択手段と、前記素片選択手段が各入力音響素片データについて前記楽音素片データベースから読み出した各楽音素片データを時間軸上において接続し、楽音データを生成するデータ生成手段とを具備することを特徴とする音響変換装置およびコンピュータをこの音響変換装置として機能させるコンピュータプログラムを提供する。
かかる発明によれば、入力音響データを分割した入力音響素片データの特徴量が求められ、この特徴量と楽音素片データベース内の各楽音素片データの特徴量との類否指標が算定され、この算定結果に基づいて、楽音データを構成する楽音素片データが選択される。従って、元の入力音響データの特徴をある程度維持し、かつ、興趣性に富んだ楽音波形を示す楽音データが得られる。
以下、図面を参照し、この発明の実施の形態を説明する。
図1はこの発明の一実施形態である音響変換装置の構成を示すブロック図である。この音響変換装置は、例えば音声の入出力機能を備えたパーソナルコンピュータなどにより実現してもよいし、携帯電話などの携帯型電子機器により実現してもよい。
図1において、CPU1は、この音響変換装置の各部を制御する制御中枢である。ROM2は、ローダなど、この音響変換装置の基本的な動作を制御するための制御プログラムを記憶した読み出し専用メモリである。
表示部3は、装置の動作状態や入力データおよび操作者に対するメッセージなどを表示するための装置であり、例えば液晶デスプレイパネルとその駆動回路により構成されている。操作部4は、ユーザからコマンドや各種の情報を受け取るための手段であり、各種の操作子により構成されている。音響変換装置をパーソナルコンピュータにより実現する態様では、キーボードと、マウスなどのポインティングデバイスを操作部4としてもよい。
インタフェース群5は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、磁気ディスクやCD−ROMなどの外部記憶媒体との間でデータの授受を行うためのドライバなどにより構成されている。
不揮発性記憶部6は、各種のプログラムやデータベースなどの情報を記憶するための記憶装置であり、HDD(ハードディスク装置)やEEPROM(Electronic Erasable Programmable Read Only Memory)等により構成される。RAM7は、CPU1によってワークエリアとして使用される揮発性メモリである。CPU1は、操作部4を介して与えられる指令に従い、不揮発性記憶部6内のプログラムをRAM7にロードして実行する。
音出力部8は、音のサンプルデータであるデジタル音声信号をアナログ音声信号に変換するD/A変換器と、このアナログ音声信号を増幅するアンプと、このアンプの出力信号を音として出力するスピーカ等により構成されている。音響変換装置を携帯型電子機器として実現する場合には、スピーカの代わりにヘッドホン等を設けてもよい。収音部9は、外界の音を拾い、アナログ音声信号を出力するマイクと、このアナログ音声信号をサンプリングし、デジタル音声信号に変換してCPU1に供給するA/D変換器とにより構成されている。
不揮発性記憶部6に記憶される情報として、音響変換プログラム61と、楽音素片登録プログラム62と、楽音素片データベース63と、音響変換テンプレート群64とがある。その他、不揮発性記憶部6には、インタフェース群5等を介して収集された曲データファイル群65が格納される。各曲データファイルは、楽器演奏曲の音響波形を示す曲データを格納したファイルである。音響変換プログラム61および楽音素片登録プログラム62は、例えばインターネット内のサイトからインタフェース群5の中の適当なものを介してダウンロードされ、不揮発性記憶部6にインストールされ得る。また、音響変換プログラム61および楽音素片登録プログラム62は、CD−ROM、MDなどのコンピュータ読み取り可能な記憶媒体に記憶された状態で取引される。この場合、インタフェース群5の中の適当なものを介して記憶媒体から音響変換プログラム61等が読み出され、不揮発性記憶部6にインストールされる。
楽音素片データベース63は、楽音の素片の波形を示す楽音素片データをその特徴量に対応付けて格納するデータベースである。楽音素片データは、楽器演奏曲の音響波形を示す曲データを分割することにより得られるデータである。好ましい態様において、楽音素片データの時間長は、1拍、2拍または(1/2)拍、(1/4)拍等、拍を単位とした長さである。この態様では、曲データを素片データに分割するためのアルゴリズムとして、周知の拍検出アルゴリズムを利用することができる。あるいは曲データが示す波形を解析してアタック部を検出し、検出した各アタック部から0.5秒の各区間の波形を示す各データを楽音素片データとしてもよい。なお、楽音素片データベース63は、各種の曲データに対し、それらの曲における各楽音素片間の区切り位置を示す情報を付加し、各楽音素片に各々の特徴量を対応付けたものであってもよい。
音響変換プログラム61は、楽音波形以外の音響波形を示す入力音響データをその聴感上の特徴をある程度引き継いだ楽音データに変換する音響変換処理をCPU1に実行させるプログラムである。本実施形態では、入力音響データとして、人の声の音響波形を示す音響データを想定している。収音部9やインタフェース群5は、この入力音響データを取得する音響入力手段としての役割を果たす。この音響入力手段を介して取得される入力音響データから楽音データを得るために、本実施形態における音響変換処理では、入力音響データを短時間の音響素片データに分割し、基本的にはこれらの音響素片データを、楽音素片データベース63内の楽音素片データのうち特徴量の類似した楽音素片データに置き換えることにより楽音データを生成する。これにより入力音響データの聴感上の特徴をある程度引き継いだ楽音データが得られる。
楽音素片登録プログラム62は、楽音素片登録処理をCPU1に実行させるプログラムである。この楽音素片登録処理では、操作部4の操作により指定された曲データファイル群65内の曲データまたはインタフェース群5を介して入力される曲データを、上述した楽音素片データに分割するとともに、各楽音素片データの特徴量を求める。そして、各楽音素片データとその特徴量とを対応付けて楽音素片データベース63に格納する。
音響変換プログラム61や楽音素片登録プログラム62は、RAM7のプログラム実行領域にロードされて実行されるが、図1では、図面が煩雑になるのを防ぐため、不揮発性記憶部6を示すボックス内の領域を利用して、各プログラムの処理内容の概略が示されている。
図1に示すように、音響変換プログラム61は、各々プログラムである解析部101と、類否算定部102と、素片選択部103と、データ生成部104とを有する。音響変換テンプレート群64は、これらの各プログラムが如何なる態様で動作すべきかを指示する各種の音響変換テンプレートの集まりである。ユーザは、操作部4の操作により、この音響変換テンプレート群64の中の所望の音響変換テンプレートを選択し、選択した音響変換テンプレートに従って音響変換プログラム61を構成する各プログラムを動作させることができる。また、好ましい態様において、ユーザは、操作部4の操作により、所望の音響変換テンプレートの内容を表示部3に表示させることができる。図2はこの表示部3に表示された音響変換テンプレートを例示するものである。図示の音響変換テンプレートでは、解析部101の処理の態様として態様1−2が、類否算定部102の処理の態様として態様2−3が、素片選択部103の処理の態様として態様3−1が、データ生成部104の処理の態様として態様4A-2、4A−5、4B−1および4B−2が指定されている。このように音響変換テンプレートが表示された状態において、ユーザは、操作部4の操作により、その音響変換テンプレートの内容を書き換えることができる。
解析部101は、音響入力手段たる収音部9等を介して入力音響データを受け取ってその解析を行い、入力音響データを分割した短時間の入力音響素片データについての特徴量を求めるプログラムである。
本実施形態では、人が発声する言語音声の入力音響データを取り扱うので、言語音声の特徴を表現し易いものを入力音響素片データの特徴量として求めるのが好ましい。好適な特徴量の例を挙げると、次の通りである。
a.音素片の非定常成分:この特徴量により、摩擦音(s, sh, ch, tsおよびz, j, dz)を効果的に同定することができる。
b.MFCC(Mel Frequency Cepstrum Coefficient):この特徴量は、音素片の瞬時スペクトルの概略形状を表すものである。この特徴量により、母音や鼻音を同定することができる。
c.瞬時パワーの時間的変化率:この特徴量により破裂音等を同定することができる。
d.音素片の定常成分の最低周波数:この特徴量により有声音/無声音を同定することができる。
e.音素片の定常成分の最低周波数の軌跡形状:この特徴量により中国語の声調を同定することができる。
以上の各特徴量は、音声認識システムにおいて、母音、子音、ピッチ、音量などの同定のために用いられる周知の特徴量である。上述した楽音素片データベース63において、個々の楽音素片データに対応付けられている特徴量にも、上記の各特徴量が含まれている。以上の特徴量の他、解析部101が求める特徴量には、入力音響素片のフォルマントを表す特徴量等も含まれる。
入力音響素片データの特徴量の取得方法として2通りの方法が考えられる。第1の方法は、入力音響データを複数の入力音響素片データに分割し、その後、各入力音響素片データを解析して特徴量を求める方法である。第2の方法は、入力音響データを解析して、時々刻々と変化する時間連続な特徴量を求め、この時間連続な特徴量を個々の入力音響素片データに対応した特徴量に区切る方法である。本実施形態では、第2の方法を採用している。特徴量には入力音響データを入力音響素片データに分割する際の区切り位置を決定するのに役立つ情報が含まれること、第2の方法の方が正確な特徴量が得られること等がその理由である。
入力音響データを複数の入力音響素片データに分割する態様としては、次の態様が用意されている。いずれの態様で分割を行うかは、ユーザが選択した音響変換テンプレートの内容により決定される。
[態様1−1]:これは、入力音響データを一定時間長の入力音響素片データに分割する態様である。ユーザは、この態様1−1を選択した場合、図2に示すプルダウンメニューPMを利用して入力音響素片データの時間長を選択して指定することができる。
[態様1−2]:これは、入力音響素片データを子音や母音の音素毎の入力音響素片データに分割する態様である。この態様では、音声認識システムにおいて入力音声を母音や子音の音素に区切る際に用いる方法により、入力音響データを入力音響素片データに分割する。例えば、入力音響データを解析することにより得られる各種の特徴量のうちの特定の特徴量、具体的には時々刻々と変化する音の瞬時エネルギーを調べ、この瞬時エネルギーの立ち上がりを検出することにより、入力音響波形における音素の区切りの位置を求める。
[態様1−3]:これは、態様1−2と同様、入力音響素片データの音素区切りの位置を求め、入力音響素片データを音素単位の入力音響素片データに分割する態様であるが、態様1−2のように単に音素区切り位置を求めるのに止まらず、音声認識をも実行する態様である。すなわち、この態様1−3では、入力音響素片データを分割した各入力音響素片データが如何なる音素のものであるかを同定する。
類否算定部102は、解析部101により得られた各入力音響素片データの各特徴量について、楽音素片データベース63に格納された各楽音素片データの各特徴量との類否指標を算定する類否算定処理をCPU1に実行させるプログラムである。
類否算定処理では、類否指標の算定に用いる特徴量の選択が可能である。図2に示す音響変換テンプレートでは、特徴量2および3が選択されている。類否算定処理では、この選択された特徴量を入力音響素片データの各特徴量の中から選択するとともに、これと対比される楽音素片データの各特徴量の中から選択し、選択した同一種類の特徴量間の類否指標を算出する。複数の特徴量が選択された場合、入力音響素片データおよびこれと対比される1個の楽音素片データの各々について、選択された種類の特徴量を成分とする特徴量ベクトルを各々構成し、各特徴量ベクトル間のcosine角を求め、類否指標とする。あるいは各特徴量ベクトル間のcity block距離、正規化した各特徴量ベクトル間のユークリッド距離やマハラノビス距離という周知の距離を類否指標として求めてもよい。
上述した通り、本実施形態において、入力音響素片データの特徴量は、入力音響素片データが示す音響素片と同じ時間長を持った時間連続な特徴量である。また、楽音素片データの特徴量も、楽音素片データが示す楽音素片と同じ時間長を持った時間連続な特徴量である。そして、入力音響素片データの特徴量の時間長と、楽音素片データの特徴量の時間長は、一般的に異なる。このような時間長の異なる特徴量間の類否指標を得る方法としては、次の態様がある。いずれの態様で類否指標を得るかは、ユーザが選択した音響変換テンプレートの内容により決定される。
[態様2−1]:この態様では、各素片の時間連続な特徴量(または特徴量ベクトル)において、各々の開始点から所定時間が経過した点(例えば特徴量が安定していると考えられる点が好ましい)の瞬時の特徴量をサンプリングし、このサンプリングした各素片の特徴量(または特徴量ベクトル)間の類否指標を求める。
[態様2−2]:この態様では、入力音響素片データの特徴量の時間長が所定長Tより長い場合(典型的には母音の伸ばし音の区間)、この時間連続な特徴量(または特徴量ベクトル)を一定時間間隔(例えばT/2間隔)でサンプリングし、各サンプリング点において、入力音響素片データおよび楽音素片データの各特徴量(または特徴量ベクトル)の類否指標を求める。この場合において、楽音素片データの特徴量については、その開始点から所定時間が経過した点の特徴量(または特徴量ベクトル)を使用する。この方法では、一対の音響素片および楽音素片の各特徴量間の類否指標として、サンプリング点の異なった複数の類否指標が算定される。
[態様2−3]:この態様では、入力音響素片データの特徴量と楽音素片データの特徴量を各々フーリエ変換して周波数情報とし、各周波数情報をベクトルと捉え、このベクトル間の類否指標を算定する。
素片選択部103は、素片選択処理をCPU1に実行させるプログラムである。この素片選択処理は、入力音響データを分割した各入力音響素片データについて実行される。各入力音響素片データに対応した素片選択処理では、類否算定部102により算定された当該入力音響素片データの特徴量と楽音素片データベース63に記憶された各楽音素片データの各特徴量との各類否指標に基づき、楽音素片データベース63に記憶された各楽音素片データの中から楽音素片データを選択して読み出す。
この素片選択処理には次の態様がある。いずれの態様で素片選択を行うかは、ユーザが選択した音響変換テンプレートの内容により決定される。
[態様3−1]:特徴量の類似の度合いが最大である1個の楽音素片データを選択して読み出す。
[態様3−2]:特徴量の類似の度合いが大きい上位N個の楽音素片データを選択して読み出す。Nは、プルダウンメニューPMを利用して選択可能である(図2参照)。
[態様3−3]:特徴量の類似の度合いが大きい上位N1個の楽音素片データを選択して読み出し、その中からN2個(N2<N1)の楽音素片データをランダムに選択する。N1およびN2は、プルダウンメニューPMを利用して選択可能である(図2参照)。この態様3−3および上述した態様3−2では、選択されたN個またはN2個の楽音素片データを加算したものがデータ生成部104に引き渡され、楽音データの生成に用いられる。
[態様3−4]:類否指標に対し、ある関数を適用した結果に基づき、楽音素片データを選択する。この態様では、例えば類似度の最も乏しい楽音素片データを選択するという効果を意図的に得ることが可能となる。類否指標に適用する関数は、プルダウンメニューPMを利用して選択可能である(図2参照)。
[態様3−5]:1つの入力音響素片データに関して、異なるサンプリング点に対応した類否指標が得られる場合には、各サンプリング点において、上記態様1〜4のいずれかの態様で楽音素片データを選択する。この態様は、音響変換テンプレートにおいて上記態様2−2が選択されると、自動的に選択される。従って、この態様3−5を選択する場合には、音響変換テンプレートでは、上記態様3−1〜3−4のいずれかの態様で楽音素片データを選択するかのみを指定すればよい。
データ生成部104は、素片選択部103が各入力音響素片データについて楽音素片データベース63から読み出した各楽音素片データを時間軸上において接続し、楽音データを生成するデータ生成処理をCPU1に実行させるプログラムである。また、データ生成部104は、操作部4を介して与えられる指示に従い、楽音データ生成処理において生成した楽音データを音出力部8に送って放音させ、あるいは楽音データファイルとして不揮発性記憶部6に格納する機能を備えている。
データ生成処理には次の態様がある。いずれの態様で楽音データを生成するかは、ユーザが選択した音響変換テンプレートの内容により決定される。
[楽音素片データの時間長調整の態様]
ある入力音響素片データの特徴量に基づいて楽音素片データが選択された場合において、入力音響素片データの時間長と選択された楽音素片データの時間長は一致しないのが一般的である。その場合の楽音素片データの時間長調整に関しては、次の態様がある。
[態様4A−1]:この態様では、全ての楽音素片データについて何も時間長調整をしない。先行する楽音素片データの時間長が短く、先行する楽音素片データの最後尾の部分が後続の楽音素片データの先頭部分に届いていない場合も、それらの楽音素片データを各々の時間長を変えることなく楽音データに用いる。また、相前後した2つの楽音素片データがオーバラップしている場合、そのオーバラップ区間については、2つの楽音素片データを加算したものを楽音データとする。
[態様4A−2]:この態様では、全ての楽音素片データについて、先行する楽音素片データと後続の楽音素片データとが繋がるように、先行する楽音素片データの時間長の調整を行う。すなわち、先行する楽音素片データの時間長が短く、先行する楽音素片データの最後尾の部分が後続の楽音素片データの先頭部分に届いていない場合、後続の楽音素片データの先頭部分と僅かにオーバラップする程度まで先行する楽音素片データを延長する。この延長処理は、先行する楽音素片データの最後尾に対し、その楽音素片データにおける波形の安定している区間のデータを必要な回数だけ繰り返し継ぎ足す、という方法により行う。
また、先行する楽音素片データと後続の楽音素片データのオーバラップ区間については、クロスフェードを行う。すなわち、オーバラップ区間については、先行する楽音素片データと後続の楽音素片データをミキシングして楽音データを生成し、その際、楽音データの内容が、先行する楽音素片データのものから後続の楽音素片データのものへ滑らかに移行するように、ミキシング比率を変化させる。
また、先行する楽音素片データの時間長が長く、後続の楽音素片データの先頭部分とオーバラップしており、かつ、このオーバラップの区間長が長い場合、オーバラップ区間長が適切な長さになるように、先行する楽音素片データの後半部分(最後尾に至る部分)を必要なだけ削除する。すなわち、過剰にオーバラップしている区間については、後続素片を優先させることにより、過剰なオーバラップを解消するものである。削除を行った後における先行する楽音素片データと後続の楽音素片データとのオーバラップ区間についてはクロスフェードを行う。
[態様4A−3]:この態様も、上記態様4A−2と同様、全ての楽音素片データについて、先行する楽音素片データと後続の楽音素片データとが繋がるように時間長の調整を行う。ただし、この態様4A−3は、先行する楽音素片データの時間長が長く、後続の楽音素片データの先頭部分とオーバラップしており、かつ、このオーバラップの区間長が長い場合への対処方法が上記態様4A−2と異なる。すなわち、態様4A−3では、2つの楽音素片データが過剰にオーバラップしている区間については、先行する楽音素片データを優先させ、オーバラップ区間長が適切な長さになるように、後続の楽音素片データの前半部分(先頭から始まる部分)を必要なだけ削除する。
[態様4A−4]:この態様も、上記態様4A−2と同様、全ての楽音素片データについて、先行する楽音素片データと後続の楽音素片データとが繋がるように時間長の調整を行う。ただし、この態様4A−4は、先行する楽音素片データの時間長が長く、後続の楽音素片データの先頭部分とオーバラップしており、かつ、このオーバラップの区間長が長い場合への対処方法が上記態様4A−2と異なる。すなわち、この場合に態様4A−4では、オーバラップ区間については、オーバラップしている2つの楽音素片データを加算したものを楽音データとする。
[態様4A−5]:この態様は、相前後した楽音素片データ間を滑らかに接続することに関して例外を設ける態様である。より具体的には、この態様4A−5では、先行する楽音素片データが、破裂音の音素の入力音響データと置換するものとして楽音素片データベース63から読み出されたものである場合、その先行する楽音素片データの最後尾と後続の楽音素片データの先頭との間が空いていたとしても、先行する楽音素片データの時間長を延長する処理は行わない。この態様4A−5は、上記態様4A−2〜4A−4のいずれかとともに選択することが可能である。また、この態様4A−5は、入力音響素片データが破裂音の音素のものであるか否かを判定する必要があるため、解析部101の処理の態様として、態様1−3が選択されていることが前提となる。
[楽音素片データの加工の態様]
データ生成部104は、楽音素片データに加工を施す手段を含んでいる。この加工の態様には、次のものがある。これらの態様は、2種類以上のものを選択してもよい(図2参照)。
[態様4B−1]:この態様では、楽音素片データのピッチを、その元となった入力音響素片データのピッチに合わせて上下させる。
[態様4B−2]:この態様では、楽音素片データの音量を、その元となった入力音響素片データの音量に合わせて増減する。
[態様4B−3]:この態様では、楽音素片データのフォルマント形状を、その元となった入力音響素片データのフォルマント形状に近づける加工を行う。
以上が本実施形態における音響変換プログラム61の詳細である。この音響変換プログラム61が実行されることにより、収音部9等を介して取得される入力音響データが入力音響素片データに分割され、各入力音響素片データの特徴量と、楽音素片データベース63内の各楽音素片データの特徴量との類否指標が算定される。そして、各入力音響素片データに代わるデータとして、例えば特徴量の最も類似した楽音素片データが楽音素片データベース63から読み出され、それらが時間軸上において接続され、楽音データが生成される。この楽音データは、音出力部8から放音され、あるいは曲データファイルとして不揮発性記憶部6内に格納される。
本実施形態によれば、以上のようにして入力音響データから楽音データが生成されるため、この楽音データは、元の入力音響データの特徴をある程度維持したものとなる。このため、本実施形態により生成された楽音データを音出力部8から放音させると、人の話し声のようであるが、注意深く聴くと、どうやら楽音のようである、といった感じの音が聴者に聴き取られることとなる。このように本実施形態によれば、元の入力音響波形に類似しつつも異なり、かつ、興趣に富んだ楽音波形が得られる。
また、本実施形態によれば、音響変換テンプレートの内容を変えることにより、入力音響データから楽音データを生成するまでの各処理の態様を変化させることができるので、コントローラビリティに優れた楽音データの生成処理を行うことができる。
以上、この発明の一実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。例えば次の通りである。
(1)音響変換プログラム61は、その一部または全部のプログラムを電子回路に置き換えてもよい。
(2)入力音響素片データは、元の入力音響データから切り出して元の入力音響データとは別のデータとして発生させるのではなく、元の入力音響データのどの区間の音響素片であるかを指定する区間指定情報を発生し、元の入力音響データのうち区間指定情報により指定される区間のデータを入力音響素片データとして取り扱うようにしてもよい。
(3)楽音素片データベース63の各楽音素片データを各々の特徴量に基づいてクラスタリングし、かつ、クラスタ毎に代表の楽音素片データと特徴量を定め、素片選択部103は、この代表となった楽音素片データの中から楽音データに用いる楽音素片データを選択するようにしてもよい。この態様によれば、入力音響素片データの特徴量の微妙な変化に過剰に反応して、楽音データとして選択される楽音素片データが頻繁に切り換わるのを防止し、楽音データを均一化することができる。しかし、この態様は、入力音響素片データの特徴量に対する感度を低下させ、入力音響素片データの特徴を楽音データに反映させる度合いを低下させる。そこで、クラスタリングにより発生するクラスタの個数を制御し、入力音響素片データの特徴を楽音データに反映させる度合いを制御し得るようにしておくことが好ましい。
(4)入力音響素片データの特徴量と類似した特徴量を持つ楽音素片データを選択する際に、音声認識の手法を利用して、入力音響素片データがいずれの音素のものであるかを推定し、この推定結果を利用して、楽音素片データベース63内の各楽音素片データのうち入力音響素片データとの間で特徴量の類否指標の算定を行うものの範囲を絞り込んでもよい。例えば、人間の音声の各音素について、その音素と同じような特徴量を持つ楽音素片データの範囲を予め求めておき、入力音響素片データが子音kのものである場合に、子音kの特徴量と同じような特徴量を持つと考えられる範囲内の各楽音素片データについて、それらの特徴量と入力音響素片データの特徴量との類否指標を算出するのである。この態様によれば、類否指標の算出処理に要する演算量を減らすことができる。
(5)上記実施形態では、入力音響データとして、人の音声を示すデータを取り扱ったが、それ以外の種類の入力音響データ、例えば環境音の波形を示すデータを入力音響データとして取り扱ってもよい。不快な騒音の存在する環境において、単に音楽を放音するだけでは、音が混濁し、好ましい改善効果が得られない。しかしながら、環境音の収音することにより入力音響データを取得し、音響変換処理を行った場合、それにより得られる楽音は、元の騒音と聴感上の印象が近く、しかも、その素材は楽曲から抽出された楽音素片である。従って、音の混濁を生じさせることなく、不快な騒音を自然で快適な楽音に改善することができる。
(6)入力音響データに関して音声認識を行い、特定の語句が認識されたとき、音響変換処理を開始するように音響変換装置を構成してもよい。
(7)入力音響データに関して音声認識を行い、入力音響データのうち特定の語句以外の部分は、そのまま音出力部8等から出力し、入力音響データのうち特定の語句に該当する部分は音響変換処理を施し、元の音声の特徴をある程度維持した楽音にして出力するようにしてもよい。これは例えばテレビ番組等の音声データに関して放送禁止用語にモザイクをかける手段として用いることができる。
(8)メロディを奏でる楽器の楽音素片データベースやパーカッション系の楽器の楽音素片データベースなど、楽器に関する各種の分類に対応した楽音素片データベースを用意しておき、それらの楽音素片データベースの全てから、またはユーザによって指定されたものから、楽音素片データを各々読み出して合成し、楽音データを生成するようにしてもよい。
(9)上記実施形態では、各種の音響変換テンプレートを用意しておくことにより、様々な態様で音響変換処理を実行し得るようにしたが、音響変換テンプレートを用いず、限られた態様での音響変換処理を実行する小規模な音響変換装置を構成してもよい。
この発明の一実施形態である音響変換装置の構成を示すブロック図である。 同実施形態において用いられる音響変換テンプレートの例を示す図である。
符号の説明
1……CPU、2……ROM、3……表示部、4……操作部、5……インタフェース群、6……不揮発性記憶部、7……RAM、8……音出力部、9……収音部、61……音響変換プログラム、62……楽音素片登録プログラム、63……楽音素片データベース、64……音響変換テンプレート群、65……曲データファイル群、101……解析部、102……類否算定部、103……素片選択部、104……データ生成部。

Claims (3)

  1. 楽音の素片の波形を示す楽音素片データをその特徴量に対応付けて格納する楽音素片データベースと、
    音響波形を示す入力音響データを取得する音響入力手段と、
    前記音響入力手段を介して入力音響データを受け取ってその解析を行い、前記入力音響データを短時間の入力音響素片データに分割するとともに、各入力音響素片データの特徴量を求める解析手段と、
    前記解析手段により得られた各入力音響素片データの特徴量を一定時間間隔でサンプリングし、各サンプリング点毎に入力音響素片データの特徴量と前記楽音素片データベースに格納された各楽音素片データに対応した各特徴量との各類否指標を各々算定する類否算定手段と、
    前記類否算定手段により算定された入力音響素片データの各サンプリング点における特徴量と前記楽音素片データベースに記憶された各楽音素片データの各特徴量との各類否指標に基づき、前記楽音素片データベースに記憶された各楽音素片データの中から前記各入力音響素片データの各サンプリング点毎に1つの楽音素片データを選択して読み出す素片選択手段と、
    前記素片選択手段が各入力音響素片データの各サンプリング点毎に前記楽音素片データベースから読み出した各楽音素片データを時間軸上において接続し、楽音データを生成するデータ生成手段と
    を具備することを特徴とする音響変換装置。
  2. 前記解析手段は、前記入力音響データを音素毎の入力音響素片データに分割することを特徴とする請求項1に記載の音響変換装置。
  3. コンピュータを、
    楽音の素片の波形を示す楽音素片データをその特徴量に対応付けて格納する楽音素片データベースと、
    音響波形を示す入力音響データを取得する音響入力手段と、
    前記音響入力手段を介して入力音響データを受け取ってその解析を行い、前記入力音響データを短時間の入力音響素片データに分割するとともに、各入力音響素片データの特徴量を求める解析手段と、
    前記解析手段により得られた各入力音響素片データの特徴量を一定時間間隔でサンプリングし、各サンプリング点毎に入力音響素片データの特徴量と前記楽音素片データベースに格納された各楽音素片データに対応した各特徴量との各類否指標を各々算定する類否算定手段と、
    前記類否算定手段により算定された各入力音響素片データの各サンプリング点における特徴量と前記楽音素片データベースに記憶された各楽音素片データの各特徴量との各類否指標に基づき、前記楽音素片データベースに記憶された各楽音素片データの中から前記各入力音響素片データの各サンプリング点毎に1つの楽音素片データを選択して読み出す素片選択手段と、
    前記素片選択手段が各入力音響素片データの各サンプリング点毎に前記楽音素片データベースから読み出した各楽音素片データを時間軸上において接続し、楽音データを生成するデータ生成手段と
    として機能させることを特徴とするコンピュータプログラム。
JP2007092185A 2007-03-30 2007-03-30 音響変換装置およびプログラム Expired - Fee Related JP4544258B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007092185A JP4544258B2 (ja) 2007-03-30 2007-03-30 音響変換装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007092185A JP4544258B2 (ja) 2007-03-30 2007-03-30 音響変換装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008250049A JP2008250049A (ja) 2008-10-16
JP4544258B2 true JP4544258B2 (ja) 2010-09-15

Family

ID=39975056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007092185A Expired - Fee Related JP4544258B2 (ja) 2007-03-30 2007-03-30 音響変換装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4544258B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6114492B2 (ja) * 2011-05-26 2017-04-12 ヤマハ株式会社 データ処理装置およびプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179572A (ja) * 1995-12-25 1997-07-11 Taito Corp 音声変換回路とカラオケ装置
JPH10301584A (ja) * 1997-04-28 1998-11-13 Daiichi Kosho:Kk 声帯模写機能付き音響電気変換装置
JP2000221969A (ja) * 1999-01-28 2000-08-11 Yamaha Corp 楽曲生成装置および楽曲生成プログラムを記録した記録媒体
JP2001117599A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声処理装置およびカラオケ装置
WO2001033479A1 (fr) * 1999-11-04 2001-05-10 Matsushita Electric Industrial Co., Ltd. Procede et appareil d'assistance a la creation et support enregistre
JP2002169576A (ja) * 2000-11-30 2002-06-14 Daiichikosho Co Ltd スキャット入力式合奏システムを備えたカラオケ装置
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
JP2005091518A (ja) * 2003-09-12 2005-04-07 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179572A (ja) * 1995-12-25 1997-07-11 Taito Corp 音声変換回路とカラオケ装置
JPH10301584A (ja) * 1997-04-28 1998-11-13 Daiichi Kosho:Kk 声帯模写機能付き音響電気変換装置
JP2000221969A (ja) * 1999-01-28 2000-08-11 Yamaha Corp 楽曲生成装置および楽曲生成プログラムを記録した記録媒体
JP2001117599A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声処理装置およびカラオケ装置
WO2001033479A1 (fr) * 1999-11-04 2001-05-10 Matsushita Electric Industrial Co., Ltd. Procede et appareil d'assistance a la creation et support enregistre
JP2002169576A (ja) * 2000-11-30 2002-06-14 Daiichikosho Co Ltd スキャット入力式合奏システムを備えたカラオケ装置
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
JP2005091518A (ja) * 2003-09-12 2005-04-07 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム

Also Published As

Publication number Publication date
JP2008250049A (ja) 2008-10-16

Similar Documents

Publication Publication Date Title
JP6171711B2 (ja) 音声解析装置および音声解析方法
US6711543B2 (en) Language independent and voice operated information management system
US9355634B2 (en) Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
JP6561499B2 (ja) 音声合成装置および音声合成方法
CN113160779A (zh) 电子乐器、方法及存储介质
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
CN111418006A (zh) 声音合成方法、声音合成装置及程序
CN111696498A (zh) 键盘乐器以及键盘乐器的计算机执行的方法
CN113160780A (zh) 电子乐器、方法及存储介质
JP6390690B2 (ja) 音声合成方法および音声合成装置
WO2014142200A1 (ja) 音声処理装置
JP6056394B2 (ja) 音声処理装置
JP4544258B2 (ja) 音響変換装置およびプログラム
JP2017027021A (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP6044284B2 (ja) 音声合成装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP6801766B2 (ja) 電子楽器、電子楽器の制御方法、及びプログラム
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
JP2019086801A (ja) 音声処理方法および音声処理装置
JP6191094B2 (ja) 音声素片切出装置
JP7036141B2 (ja) 電子楽器、方法及びプログラム
US12106745B2 (en) Electronic musical instrument and control method for electronic musical instrument
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP5953743B2 (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100621

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130709

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees