JP4701684B2

JP4701684B2 - 音声処理装置およびプログラム

Info

Publication number: JP4701684B2
Application number: JP2004336224A
Authority: JP
Inventors: 秀紀劔持; ボナダジョルディ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-11-19
Filing date: 2004-11-19
Publication date: 2011-06-15
Anticipated expiration: 2024-11-19
Also published as: JP2006145867A; EP1659569B1; DE602005006217D1; US20060111903A1; US8170870B2; EP1659569A1; DE602005006217T2

Description

本発明は、音声信号を処理する技術の分野に属し、特に、音声信号に効果を付与して出力する技術に関する。

所望の特性の音声を生成する各種の技術が従来から提案されている。例えば、特許文献１には、いわゆるハスキーボイスを合成する技術が開示されている。この技術においては、特定の音声を示す音声信号に対してフレームごとにＳＭＳ（Spectral Modeling Synthesis）分析が実施されることにより調和成分と非調和成分とが周波数領域のデータとして抽出されて音声素片（音素または音素連鎖）が生成される。そして、実際に音声を合成する場合には、所望の音韻（例えば歌詞）に対応する音声素片が相互に連結されたうえで調和成分と非調和成分とが加算され、この加算の結果に対してフレームごとに逆ＦＦＴ処理を実施することによって音声信号が生成される。この構成において、調和成分に加算される非調和成分の態様を適宜に変化させることによって所望の特性（ハスキーボイスの特性）をもった音声信号を生成することができる。
特開２００２−２０２７９０号公報（段落００４９および段落００５０）

ところで、現実の人間の肉声は、その波形の周期が不規則に時々刻々と変化していく場合がある。濁声（いわゆるダミ声）など個性的な音声においてはこの傾向が特に顕著である。しかしながら、上述した従来の技術にあっては、フレームを単位とした周波数領域での処理によって音声が合成されるため、この合成された音声信号の周期はひとつのフレーム内において必然的に一定となる。したがって、この技術によって生成される音声は、周期の変動が実際の人間の肉声よりも少なく機械的で不自然な音声になりやすいという問題が生じ得る。なお、ここでは音声素片の連結によって音声を合成する場合を例示したが、利用者が発声した音声の特性を変化させて出力する技術においても同様の問題が生じ得る。すなわち、この技術においても、マイクロホンなどの収音機器から供給される音声信号がフレームごとに周波数領域のデータに変換され、その周波数特性をフレームごとに適宜に変化させたうえで時間領域の音声信号が生成されるから、ひとつのフレームにおける周期は一定となる。したがって、この技術にあっても、特許文献１の技術と同様に、実際の人間の肉声に近い自然な音声を生成するには限界がある。本発明は、このような事情に鑑みてなされたものであり、多様な特性をもった自然な音声を生成することを目的としている。

請求項１に係る発明は、目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成手段と、前記生成手段が生成した音声信号を第１系統と第２系統とに分配する分配手段と、前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成手段が生成した音声信号の周期の略半分である第１の時間長と当該第１の時間長よりも短い第２の時間長との加算値または差分値に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延手段と、前記遅延手段によって位相差が付与された前記第１系統および前記第２系統の音声信号を加算して出力する加算手段とを具備する音声処理装置を提供する。

請求項２に係る発明は、前記生成手段が生成する音声信号の振幅を特定する振幅特定手段を具備し、前記遅延手段は、前記振幅特定手段が特定した振幅に応じて前記第２の時間長を変化させる請求項１に記載の音声処理装置を提供する。
請求項３に係る発明は、前記第２の時間長を指定するデータを受信し、このデータによって指定される第２の時間長を前記遅延手段に指定する制御手段を具備する請求項１に記載の音声処理装置を提供する。

請求項４に係る発明は、前記第１系統の音声信号と前記第２系統の音声信号との振幅比を調整する増幅手段を具備し、前記加算手段は、前記増幅手段による調整後の前記第１系統および前記第２系統の音声信号を加算して出力する請求項１に記載の音声処理装置を提供する。

請求項５に係る発明は、目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成手段と、前記生成手段が生成した音声信号を第１系統と第２系統とに分配する分配手段と、前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成手段が生成した音声信号の周期の略半分である第１の時間長に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延手段と、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅とを異ならせた状態から、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅との差が徐々に小さくなるように、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅のうち少なくとも一方を経時的に変化させる増幅手段と、前記遅延手段および前記増幅手段による処理を経た前記第１系統および前記第２系統の音声信号を加算して出力する加算手段とを具備する音声処理装置を提供する。
請求項６に係る発明は、前記遅延手段は、前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記第１の時間長と当該第１の時間長よりも短い第２の時間長との加算値または差分値に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる請求項５に記載の音声処理装置を提供する。

請求項７に係る発明は、前記生成手段が生成する音声信号の振幅を特定する振幅特定手段を具備し、前記増幅手段は、前記振幅特定手段が特定した振幅に応じて前記第１系統の音声信号の振幅を変化させる請求項５に記載の音声処理装置を提供する。

請求項８に係る発明は、増幅手段のゲインを指定するデータを受信し、このデータによって指定されるゲインを前記増幅手段に指定する制御手段を具備する請求項５に記載の音声処理装置を提供する。

請求項９に係る発明は、コンピュータに、目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成処理と、前記生成処理にて生成した音声信号を分配した第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成処理にて生成した音声信号の周期の略半分である第１の時間長と当該第１の時間長よりも短い第２の時間長との加算値または差分値に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延処理と、前記遅延処理によって位相差が付与された前記第１系統および前記第２系統の音声信号を加算して出力する加算処理とを実行させるためのプログラムを提供する。
請求項１０に係る発明は、コンピュータに、目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成処理と、前記生成処理にて生成した音声信号を分配した前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成処理にて生成した音声信号の周期の略半分である第１の時間長に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延処理と、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅とを異ならせた状態から、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅との差が徐々に小さくなるように、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅のうち少なくとも一方を経時的に変化させる増幅処理と、前記遅延処理および前記増幅処理を経た前記第１系統および前記第２系統の音声信号を加算して出力する加算処理とを実行させるためのプログラムを提供する。

以上のように、本発明によれば、多様な特性をもった自然な音声を生成することができる。

本発明に係る音声処理装置は、濁声などの多様な音声を生成するために特に好適に利用される。そこで、本発明に係る音声処理装置の形態の説明に先立ち、濁声を示す音声信号の波形について説明する。図１の部分（ｂ）は、濁声を示す音声信号Ｓoutの時間軸Ｔ上における波形を示す図である。同図における縦軸は振幅Ａである。また、同図の部分（ａ）には、嗄れや濁りのない明瞭な音声（いわゆる澄んだ音声）を示す音声信号Ｓ0が対比のために併記されている。図１の部分（ａ）に示されるように、音声信号Ｓ0の波形は、繰り返しの単位となる波形（以下「単位波形」という）Ｕが時間軸上に等間隔に配列された形状となる。この音声信号Ｓ0において各単位波形Ｕの周期Ｔ0は略等しい。これに対し、図１の部分（ｂ）に示されるように、濁声を示す音声信号Ｓoutの波形は、互いに周期が相違する２種類の単位波形Ｕ（Ｕ1およびＵ2）が時間軸上にて交互に配列された形状となる。例えば、図１の部分（ｂ）において、単位波形Ｕ1の周期Ｔ1はその直後に連なる単位波形Ｕ2の周期Ｔ2よりも長く、さらにこの周期Ｔ2は単位波形Ｕ2の直後の単位波形Ｕ1の周期Ｔ1よりも短い。

＜Ａ：第１実施形態＞
まず、図２を参照して、本発明の第１実施形態に係る音声処理装置の構成を説明する。この音声処理装置Ｄは、図１の部分（ｂ）に示されるような濁声の音声信号Ｓoutを生成するための装置であり、図２に示されるように、生成手段１０と分配手段２０と遅延手段３０と増幅手段４０と加算手段５０とを有する。なお、生成手段１０、遅延手段３０、増幅手段４０および加算手段５０の各々は、音声信号の処理に専用されるＤＳＰなどのハードウェアによって実現されてもよいし、ＣＰＵ（Central Processing Unit）などの演算処理装置がプログラムを実行することによって実現されてもよい。

図２に示される生成手段１０は、時間領域の音声信号（すなわち実際の音波の波形に相似する波形の信号）Ｓaを生成する手段である。更に詳述すると、生成手段１０は、図３の部分（ｂ）に示されるような波形の音声信号Ｓaを生成する。一方、同図の部分（ａ）には、音声処理装置Ｄが生成すべき音声信号Ｓoutと同等のピッチＰ0（目標となるピッチ）を有する音声信号Ｓ0の波形が他の音声信号との対比のために併記されている。この音声信号Ｓ0は、図１の部分（ａ）に示したように、聴感上において明瞭（つまり嗄れ声や濁声ではない）と知覚される音声を示す信号である。図３の部分（ｂ）に示されるように、生成手段１０が生成する音声信号Ｓaは、音声信号Ｓ0よりも１オクターブだけ低い音声を示す。すなわち、生成手段１０は、目標となるピッチＰ0の略半分のピッチＰa（周期Ｔa）の音声信号Ｓaを生成する。

図２に示される分配手段２０は、生成手段１０が生成した音声信号Ｓaを第１系統の音声信号Ｓa1と第２系統の音声信号Ｓa2とに分配する手段である。図２においては、生成手段１０の出力端から延在する伝送路を２系統（チャネル）に分岐させることによって分配手段２０を実現した場合が例示されている。音声信号Ｓa1およびＳa2は遅延手段３０に入力される。この遅延手段３０は、第１系統の音声信号Ｓa1を第２系統の音声信号Ｓa2に対して相対的に遅延させ、各々を音声信号Ｓb1およびＳb2として増幅手段４０に出力する。増幅手段４０は、音声信号Ｓb1と音声信号Ｓb2との振幅比を適宜に調整し、この調整後の各信号を音声信号Ｓc1およびＳc2として出力する手段である。加算手段５０は、増幅手段４０から出力された第１系統の音声信号Ｓc1と第２系統の音声信号Ｓc2とを加算することにより音声信号Ｓoutを生成して出力する。この音声信号Ｓoutはスピーカやイヤホンなどの放音機器に供給されたうえで音波として放音される。

ここで、図３の部分（ｃ）には、遅延手段３０から出力される音声信号Ｓb2が示され、同図の部分（ｅ）には、遅延手段３０から出力される音声信号Ｓb1が示されている。本実施形態においては、音声信号Ｓb1と音声信号Ｓb2との位相差が、音声信号Ｓaの周期Ｔaの略半分である時間長Ｌ1とこれよりも短い時間長Ｌ2との加算値（Ｌ1＋Ｌ2）に相当する位相差となるように、音声信号Ｓa1を音声信号Ｓa2に対して遅延させる。更に詳述すると、遅延手段３０は、第１に、音声信号Ｓa1を音声信号Ｓaの周期Ｔaの略半分（すなわち目標となるピッチＰ0に対応する周期Ｔ0）に等しい時間長Ｌ1だけ遅延させることにより、図３の部分（ｄ）に示される音声信号Ｓa1’を生成し、第２に、この音声信号Ｓa1’を時間長Ｌ1よりも短い時間長Ｌ2だけ遅延させることにより、図３の部分（ｅ）に示される音声信号Ｓb1を生成する。いま、仮に音声信号Ｓa1’と音声信号Ｓb2とを加算したとすると、その加算によって生成される音声信号Ｓoutは、図１の部分（ａ）や図３の部分（ａ）に示されるように、各々の周期Ｔ0が等しい多数の単位波形Ｕが等間隔に配置された波形となる。これに対し、音声信号Ｓa1’を更に時間長Ｌ2だけ遅延させた音声信号Ｓb1を音声信号Ｓb2と加算すると、図１の部分（ｂ）や図３の部分（ｆ）に示されるように、各々の周期が相違する各単位波形Ｕ（Ｕ1やＵ2）を時間軸上にて交互に配列した波形の音声信号Ｓoutが生成される。上述したように、このような特性の音声信号Ｓoutは、濁声など表情に富んだ個性的な音声を示す信号である。

以上のように、本実施形態においては、目標のピッチＰ0の略半分のピッチＰaとされた時間領域の音声信号Ｓaが２系統に分岐され、各系統の音声信号Ｓa1およびＳa2が時間長Ｌ1と時間長Ｌ2との加算値に相当する位相差を付与されたうえで相互に加算されることによって音声信号Ｓoutが生成される。このように音声信号が時間領域にて（フレームに区分することなく）処理されるから、図１の部分（ｂ）に示したように、各単位波形Ｕの時間長が時々刻々と変化する音声、すなわち実際の人間の濁声に近い自然な音声を生成することができる。以下では、図２に示した音声処理装置Ｄの更に具体的な態様を説明する。なお、以下に示す各図において同様の作用を営む部分については共通の符号が付されている。

＜Ａ１：第１の態様＞
図４は、第１の態様に係る音声処理装置の構成を示すブロック図である。本態様に係る音声処理装置Ｄa1の生成手段１０は、外部から入力されるピッチデータＤpおよび音韻データＤvに基づいて音声素片を連結することによって音声信号Ｓaを合成する手段である。ピッチデータＤpは、音声処理装置Ｄa1から出力されるべき音声信号Ｓoutのピッチを指定するデータであり、音韻データＤvは、音声信号Ｓoutが示す音声の音韻を指定するデータである。例えば音声処理装置Ｄa1を歌唱合成装置に適用した場合、楽曲の音程（音符）を示すデータがピッチデータＤpとして利用され、歌詞の文字を指定するデータが音韻データＤvとして利用される。

図４に示されるように、本態様における生成手段１０はピッチ変換部１１と合成部１２とを有する。このうちピッチ変換部１１は、外部から供給されたピッチデータＤpをそれよりも１オクターブだけ低いピッチＰaを示すデータに変換して合成部１２に出力する。すなわち、ピッチ変換部１１は、目標となるピッチＰ0の略半分のピッチＰaを合成部１２に指定する手段である。一方、合成部１２は、音韻データＤvに応じた音声素片を連結してなる音声信号をピッチデータＤpが示すピッチＰaに調整することによって音声信号Ｓaを出力する手段である。更に詳述すると、合成部１２は、音素または音素連鎖である音声素片を音韻（母音および子音ならびにこれらの組み合わせ）ごとに記憶する記憶手段を備える。そして、合成部１２は、第１に、記憶手段に記憶された多数の音声素片のうち音韻データＤvに応じた音声素片を順次に選択して連結し、第２に、この音声素片の配列から音声信号を生成し、第３に、この音声信号のピッチをピッチデータＤpが示すピッチＰaに調整することによって音声信号Ｓaを生成して出力する。もっとも、本発明において音声信号Ｓaを合成するための方法はこれに限られない。合成部１２から出力された音声信号Ｓaは分配手段２０によって２系統の音声信号Ｓa1およびＳa2に分配される。

本態様における遅延手段３０は遅延部３１と遅延部３２とを有する。このうち遅延部３１は、第１系統の音声信号Ｓa1を時間長Ｌ1だけ遅延させて音声信号Ｓa1’を出力する。一方、遅延部３２は、遅延部３１から出力された音声信号Ｓa1’を時間長Ｌ2だけ遅延させて音声信号Ｓb1を出力する。本態様における時間長Ｌ2は予め定められた固定値である。これに対し、時間長Ｌ1は、音声信号ＳaのピッチＰaに応じて適宜に変更される。図４に示される遅延量算定部６１は、この時間長Ｌ1を算定して遅延部３１に設定する手段である。遅延量算定部６１にはピッチデータＤpが供給される。遅延量算定部６１は、このピッチデータＤpが示すピッチＰ0に対応する周期Ｔ0（すなわち音声信号Ｓaの周期Ｔaの略半分の時間長）を算定し、ここで算定した周期Ｔ0を時間長Ｌ1として遅延部３１に指定する。なお、第２系統の音声信号Ｓa2は遅延処理や増幅処理を施されることなく加算手段５０に供給されるが、ここでは説明の便宜のために、遅延手段３０から出力される音声信号Ｓb2と増幅手段４０から出力される音声信号Ｓc2とが符号を区別して表記されている（以下でも同様）。

一方、増幅手段４０は、第１系統に対応して配置された増幅部４１を有する。この増幅部４１は、音声信号Ｓb1を増幅し、この増幅後の信号を音声信号Ｓc1として出力する。増幅部４１におけるゲインは、図示しない入力機器（例えば操作子を備えたキーボード）に対する操作の内容に応じて適宜に変更される。ここで、増幅部４１におけるゲインが増加するほど、音声信号Ｓc1の振幅は音声信号Ｓc2の振幅に対して相対的に増大していく。音声信号Ｓoutが示す濁声の特性は音声信号Ｓc1の影響を大きく受けるから、増幅部４１のゲインが増加して音声信号Ｓc1の振幅が増大するほど、音声信号Ｓoutが示す音声の濁声らしさは増大していく。このように、利用者は、入力機器を適宜に操作することにより、音声処理装置Ｄa1から出力される音声の特性を任意に選定することができる。

以上の構成のもと、生成手段１０にて合成された音声信号Ｓaは音声信号Ｓa1と音声信号Ｓa2とに分岐され（図３の部分（ｂ）参照）、このうち音声信号Ｓa1は、音声信号Ｓaの周期の略半分の時間長Ｌ1と所定の時間長Ｌ2との加算値だけ遅延させられたうえで音声信号Ｓb1として増幅手段４０に出力される（図３の部分（ｅ）参照）。さらに、この音声信号Ｓb1は増幅部４１によって所望の振幅に調整されて音声信号Ｓc1として出力される。一方、音声信号Ｓa2は遅延や増幅を経ることなく音声信号Ｓc2として加算手段５０に供給される（図３の部分（ｃ）参照）。そして、音声信号Ｓc1と音声信号Ｓc2とは加算手段５０にて加算され、この加算によって生成された音声信号Ｓoutが放音機器から音波として出力される。

このように、本態様においては、音声信号Ｓaが音韻データＤvおよびピッチデータＤpに基づいて合成されるから、様々な楽曲の歌唱音声を濁声として生成することができる。また、遅延部３１の遅延量（時間長Ｌ1）がピッチデータＤpに応じて選定されるから、楽曲のピッチ（音程）に応じた多様な濁声を任意に生成することができる。

＜Ａ２：第２の態様＞
濁声は、その音量が大きいほど聴感上における特徴が顕著となる傾向がある。例えば、小音量にて発声した音声はそれほど濁っているように聴こえないが、大音量にて発声した音声は相当に濁っているように聴こえるといった具合である。このような傾向を再現するため、本態様に係る音声処理装置Ｄa2は、音声信号Ｓaの音量に応じて遅延部３２の遅延量を調整するようになっている。

ところで、音声が濁っているように聴こえる程度（以下「濁声度」という）は、図１の部分（ｂ）に示される周期Ｔ1と周期Ｔ2との相違が大きいほど増大する。この周期Ｔ1と周期Ｔ2との相違は、第１系統の音声信号Ｓc1と第２系統の音声信号Ｓc2との位相差が時間長Ｌ1から離れるほど大きくなる。例えばいま、時間長Ｌ2をゼロとした場合を想定すると、音声信号Ｓaの周期Ｔaの略半分に相当する時間長Ｌ1だけ音声信号Ｓc2よりも遅延した音声信号Ｓc1を音声信号Ｓc2と加算して得られる音声信号Ｓoutは、図１の部分（ａ）に示される明瞭な音声のように総ての単位波形Ｕの周期Ｔ0が略等しい波形となるから、濁声としての特徴はほとんど現れない。一方、時間長Ｌ2を増加させていくと、音声信号Ｓoutにおける周期Ｔ1と周期Ｔ2との相違は徐々に増加していくから、この音声信号Ｓoutが示す音声の濁声度も増大していく。すなわち、音声処理装置Ｄa2から出力される音声の濁声度は、遅延部３２に設定される遅延量（時間長Ｌ2）によって決定されるということができる。そこで、本実施形態においては、音声信号Ｓaの音量に応じて遅延部３２に設定される時間長Ｌ2が変更されるようになっている。

図５は、本態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、この音声処理装置Ｄa2は、図４に示した各部に加えて振幅特定部６２１を備えている。振幅特定部６２１は、生成手段１０（合成部１２）から出力される音声信号Ｓaの振幅（音量）を検出し、この振幅に応じた時間長Ｌ2を遅延部３２に指定する。更に詳述すると、振幅特定部６２１は、図６に示されるように、音声信号Ｓaの振幅Ａが大きいほど長い時間長Ｌ2を遅延部３２に指定する。ただし、時間長Ｌ2が音声信号Ｓaの周期Ｔaの「１／４」を越えると、今度は周期Ｔ1と周期Ｔ2との相違が減少することになって濁声度は低減されていくから、振幅特定部６２１は、遅延部に指定する時間長Ｌ2を「０」から「１／４Ｔa」までの範囲内で音声信号Ｓaの振幅Ａに応じて変化させる。つまり、図６に示されるように、音声信号Ｓaの振幅Ａが所定の閾値Ａthを越える場合、遅延部に指定される時間長Ｌ2は「１／４Ｔa」となる。このように、本態様によれば、音声信号Ｓaの振幅Ａが大きいほど音声信号Ｓoutの濁声度が増大していくから、実際に人間が発声したときの濁声度の変化の傾向を再現することができる。なお、濁声度を変化させるための要素以外の構成や動作は第１の態様と共通である。

＜Ａ３：第３の態様＞
第１の態様においては遅延部３２に設定される時間長Ｌ2が予め定められた構成を例示し、第２の態様においては音声信号Ｓaの振幅Ａに応じて時間長Ｌ2が制御される構成を例示したが、その他の要素によって遅延手段３０の遅延量が決定される構成としてもよい。例えば、以下に示されるように、外部から入力されるデータ（以下「制御データ」という）Ｄcに応じて遅延部３２の時間長Ｌ2が決定される構成も採用される。

図７は、本態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、音声処理装置Ｄa3は、図４に示した各要素に加えて制御部６３１を有する。この制御部６３１は、外部から入力される制御データＤcに基づいて遅延手段３０の遅延部３２を制御する手段である。制御データＤcは、遅延部３２の遅延量（時間長Ｌ2）を指定するデータであり、例えばMIDI規格に準拠したデータ構造となっている。すなわち、この制御データＤcは、時間長Ｌ2を指定するイベントデータと各イベントが実行されるタイミングを示すタイミングデータとからなる多数の組がシーケンシャルに配列されたデータである。制御部６３１は、タイミングデータによって指定されるタイミングが到来すると、そのタイミングデータと対をなすイベントデータが示す時間長Ｌ2を遅延部３２に対して指定する。この遅延部３２は、遅延部３１から供給される音声信号Ｓa1’を、制御部６３１から指定される時間長Ｌ2だけ遅延させて音声信号Ｓb1として出力する。その他の構成や動作は第１の態様と同様である。

第２の態様にて説明したように、音声信号Ｓoutが示す音声の濁声度は時間長Ｌ2によって決定されるから、本態様によれば、制御データＤcに応じて音声信号Ｓoutの濁声度を任意のタイミングにて変更することができる。さらに、例えば、本態様に係る音声処理装置Ｄa3を歌唱合成装置に適用した場合、楽曲の演奏と同期したタイミングにて時間長Ｌ2が変更されるように制御データＤcを作成すれば、楽曲の演奏に伴なう歌唱の興趣性を高めることができる。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態に係る音声処理装置について説明する。
第１実施形態においては、増幅手段４０のゲインが入力機器への操作に応じて決定される構成を例示した。これに対し、本実施形態においては、遅延手段３０に設定される遅延量は時間長Ｌ1に維持される一方、増幅手段４０のゲインが時間の経過とともに随時に変更されるようになっている。なお、本実施形態に係る音声処理装置Ｄの構成は図２に示した構成と同様であるため、本実施形態のうち第１実施形態と同様の作用を営む要素については共通の符号を付してその説明を適宜に省略する。

＜Ｂ1：第１の態様＞
図８は、本実施形態の第１の態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、音声処理装置Ｄb1は、図４に示した各部に加えて振幅特定部６２２を備えている。この振幅特定部６２２は、図５に示した振幅特定部６２１と同様に、生成手段１０（合成部１２）から出力される音声信号Ｓaの振幅Ａ（音量）を検出する手段である。ただし、本態様における振幅特定部６２２は、音声信号Ｓaの振幅Ａに応じて増幅部４１のゲインＧを制御する。更に詳述すると、振幅特定部６２２は、音声信号Ｓaの振幅Ａが大きいほど増幅部４１のゲインＧを増加させる。ただし、音声信号Ｓaの振幅が閾値を越える場合には、増幅部４１に指定されるゲインＧは所定値を維持する。

図９は、本態様に関わる各音声信号の波形を示す図である。同図の部分（ａ）においては、音声信号Ｓaの振幅Ａが時間の経過とともに徐々に増加していく場合が想定されている。以下では、このときの音声信号Ｓaの振幅Ａの増加率を「Ｃa」と表記する。この増加率Ｃaは、時間軸上において前後する単位波形Ｕの振幅が変化する度合を示すパラメータであり、より具体的には各単位波形Ｕのピークを連結した直線の傾きである。図９の部分（ｂ）に示されるように、遅延手段３０は、この音声信号Ｓaをその周期Ｔaの略半分に相当する時間長Ｌ1だけ遅延させることによって音声信号Ｓb1を出力する。

一方、増幅手段４０の増幅部４１は、振幅特定部６２２による制御のもと、音声信号Ｓaの振幅Ａに応じたゲインＧで音声信号Ｓb1を増幅することによって音声信号Ｓc1を出力する。ここで、図９の部分（ｃ）に示されるように、振幅特定部６２２は、音声信号Ｓc1の振幅の増加率Ｃb（すなわち音声信号Ｓc1の各単位波形Ｕのピークを連結した直線の傾き）が音声信号Ｓaの振幅Ａの増加率Ｃaよりも大きくなるように、増幅部４１に指定するゲインＧを音声信号Ｓaの振幅Ａに応じて変化させる。一方、音声信号Ｓa2はそのままの波形を維持したまま音声信号Ｓc2として加算手段５０に供給される。したがって、音声信号Ｓc1の各単位波形Ｕにおけるピークの振幅は、それよりも時間長Ｌ1だけ手前に現れる音声信号Ｓc2のピークの振幅よりも大きくなる。

図９の部分（ｄ）には、音声信号Ｓc1と音声信号Ｓc2とを加算して生成された音声信号Ｓoutの波形が示されている。同図に示されるように、この音声信号Ｓoutは、音声信号Ｓc2（＝Ｓa2）に対応するピークｐ2と音声信号Ｓc1に対応するピークｐ1とが周期Ｔaの略半分の時間長（周期Ｔ0）ごとに交互に現れる波形となる。このうち音声信号Ｓc2に対応する各ピークｐ2の振幅は、時間の経過とともに増加率Ｃaにて増加していく。一方、音声信号Ｓc1に対応する各ピークｐ1の振幅は、増加率Ｃaよりも大きい増加率Ｃbにて時間の経過ともに増加していく。音声信号Ｓaが増加し始めた段階（つまり図９の左側の段階）では、増加率Ｃbにて増加していくピークｐ1の振幅がピークｐ2と比較して充分に大きいため、この音声信号Ｓoutに基づいて放音機器から発せられる音声はピッチＰaの音声として利用者に知覚される。一方、音声信号Ｓaの振幅が増加していくとピークｐ2の振幅はピークｐ1の振幅に近づいていくから、放音機器から発せられる音声のピッチは徐々にピッチＰ0に近づいていき、遂にはピークｐ1の振幅とピークｐ2の振幅とが一致して、図１の部分（ａ）に示したピッチＰ0の音声信号Ｓ0と同等の波形となる。つまり、本態様のように増幅部４１のゲインＧを音声信号Ｓaの振幅Ａに応じて徐々に増加させていくことにより、目標となるピッチＰ0の音声よりも１オクターブだけ低い音声（ピッチＰa）から徐々にピッチＰ0に近づいていく音声を生成することができる。

なお、ここでは音声信号Ｓaからその振幅Ａを検出する構成を例示したが、音声信号Ｓaの振幅Ａを指定するデータを外部から取得することによってその振幅を特定する構成としてもよい。例えば、図８に破線で示されるように、生成手段１０の合成部１２が、音声信号Ｓaの振幅Ａを指定する音量データＤaを外部から受信して当該振幅Ａの音声信号Ｓaを合成する構成においては、この音量データＤaによって指定される振幅Ａに基づいて振幅特定部６２２が増幅部４１のゲインＧを制御する構成としてもよい。この場合にも各音声信号Ｓoutの波形は図９（ｄ）に示した形状となる。

＜Ｂ２：第２の態様＞
第１の態様においては、音声信号Ｓaの振幅Ａに応じて増幅手段４０のゲインＧが制御される構成を例示した。これに対し、本態様においては、外部から入力されるデータに応じて増幅手段４０のゲインが制御される構成となっている。

図１０は、本態様に係る音声処理装置の構成を示すブロック図である。同図に示されるように、音声処理装置Ｄb2は、図４に示した各要素に加えて制御部６３２を有する。この制御部６３２は、外部から入力される制御データＤcに基づいて増幅手段４０の増幅部４１を制御する手段である。制御データＤcは、増幅部４１のゲインＧを指定するデータであり、例えばMIDI規格に準拠したデータ構造となっている。すなわち、この制御データＤcは、ゲインＧを指定するイベントデータと各イベントのタイミングを示すタイミングデータとからなる多数の組が配列されたデータである。制御部６３２は、タイミングデータによって指定されるタイミングが到来すると、そのタイミングデータと対をなすイベントデータが示すゲインＧを増幅部４１に対して指定する。本態様においては、増幅部４１に指定されるゲインが時間の経過とともに「０」から徐々に「１」まで増加していくように制御データＤcが生成されている場合を想定する。

図１１は、本態様に関わる各音声信号の波形を示す図である。同図の部分（ａ）に示されるように、生成手段１０が生成したピッチＰaの音声信号Ｓaが２系統に分岐される点は第１実施形態と同様である。そして、第２系統の音声信号Ｓa2はその波形を維持したまま音声信号Ｓc2として加算手段５０に供給される。また、図１１の部分（ｂ）に示されるように、第１系統の音声信号Ｓa1は遅延手段３０によって時間長Ｌ1だけ遅延されて音声信号Ｓb1として増幅部４１に供給される。一方、制御部６３２は、制御データＤcに従って、増幅部４１に指定するゲインを「０」から「１」まで時間の経過とともに増加させていく。したがって、増幅部４１から出力される音声信号Ｓc1は、図１１の部分（ｃ）に示されるように、時間の経過とともに振幅Ａが増加して最終的に音声信号Ｓc2と略等しい振幅に到達する波形となる。

図１１の部分（ｄ）には、音声信号Ｓc1と音声信号Ｓc2とを加算して生成された音声信号Ｓoutの波形が示されている。同図に示されるように、この音声信号Ｓoutは、音声信号Ｓc2（すなわち音声信号Ｓa）に対応するピークｐ2と音声信号Ｓc1に対応するピークｐ1とが周期Ｔaの略半分の時間長（周期Ｔ0）ごとに交互に現れる波形となる。音声信号Ｓc2に対応する各ピークｐ2の振幅Ａは略一定（音声信号Ｓaの振幅）を維持する。一方、音声信号Ｓc1に対応する各ピークｐ1の振幅Ａは、制御データＤcに応じて時間の経過とともに徐々に増加していく。したがって、音声信号Ｓoutに基づいて放音機器から発せられる音声は、図１１の左方の時点ではピッチＰa（すなわち目標となるピッチＰ0よりも１オクターブだけ低いピッチ）となり、時間の経過とともに徐々にピッチが増大して最終的にはピッチＰ0に到達する音声となる。このように、本態様によっても第１の態様と同様の効果が奏される。さらに、本態様においては、音声信号Ｓc1の振幅が音声信号Ｓaとは無関係に制御データＤcに応じて制御されるから、音声信号Ｓaの振幅が充分に確保されていれば、たとえ制御データＤcがゲイン「０」を示している場合であっても、ピッチＰaの音声を明確に出力することができる。

＜Ｃ：変形例＞
各実施形態に対しては種々の変形が加えられる。具体的な変形の態様は以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）第１実施形態の各態様と第２実施形態の各態様とを組み合わせてもよい。例えば、第２実施形態においては遅延手段３０の遅延量が時間長Ｌ1に設定される構成を例示したが、第１実施形態と同様に時間長Ｌ1と時間長Ｌ2との加算値が遅延手段３０の遅延量として設定される構成も採用される。この構成における時間長Ｌ2は、図４の構成のように入力機器への操作に応じて定められてもよいし、図５の構成のように音声信号Ｓaの振幅に応じて定められてもよいし、図７の構成のように制御データＤcに応じて定められてもよい。また、例えば、図５の態様と図８の態様とを組み合わせ、振幅特定部６２（振幅特定部６２１の機能と振幅特定部６２２の機能とを併せ持った手段）が、音声信号Ｓaの振幅Ａに応じて遅延部３２の時間長Ｌ2と増幅部４１のゲインＧとを制御する構成としてもよい。また、図７の態様と図１０の態様とを組み合わせ、時間長Ｌ2およびゲインＧの双方を指定する制御データＤcを受信した制御部６３（制御部６３１の機能と制御部６３２の機能とを併せ持った手段）が、この時間長Ｌ2を遅延部３２に指定するとともにゲインＧを増幅部４１に指定する構成としてもよい。

（２）各実施形態においては、遅延手段３０が遅延部３１および遅延部３２を具備する構成を例示したが、図１２に示されるように、遅延手段３０がひとつの遅延部３３のみを具備する構成も採用される。この構成においても、遅延量算定部６１が、外部から供給されるピッチデータＤpに応じて時間長Ｌ1を算定し、この時間長Ｌ1と所定の時間長Ｌ2との加算値を遅延量として遅延部３３に指定する構成とすれば、第１実施形態と同様の作用が得られる。また、図１２においては、第１系統に対応するように遅延部３３および増幅部４１を配置した構成を例示したが、図１３に示されるように、第２系統に対応するように同様の遅延部３４および増幅部４２を配置した構成も採用される。要するに、本態様においては、第１系統の音声信号Ｓc1と第２系統の音声信号Ｓc2との位相差が時間長Ｌ1と時間長Ｌ2との加算値に相当する位相差となるように音声信号Ｓa1およびＳa2の少なくとも一方が他方に対して相対的に遅延される構成、または、第１系統の音声信号Ｓc1と第２系統の音声信号Ｓc2との振幅比が所望の数値となるように音声信号Ｓb1およびＳb2の少なくとも一方が増幅される構成であれば足り、各音声信号に対する遅延や増幅を実現するための構成の如何は不問である。

（３）各実施形態においては、合成部１２が音声素片から音声信号Ｓaを合成する構成を例示したが、この構成に代えて、またはこの構成とともに、利用者が実際に発声した音声に応じて音声信号Ｓaが生成される構成も採用される。図１４は、本変形例に係る音声処理装置Ｄの構成を示すブロック図である。同図に示される収音機器７０は、利用者が発声した音声を収音してこの音声に応じた音声信号Ｓ0を出力する手段（例えばマイクロホン）である。この収音機器７０から出力された音声信号Ｓ0は生成手段１０とピッチ検出部６５とに供給される。利用者が濁声でない明瞭な音声を発声した場合、この音声信号Ｓ0の波形は図１の部分（ａ）や図３の部分（ａ）に示した形状となる。

図１４に示されるように、本変形例における生成手段１０はピッチ変換部１５を有する。このピッチ変換部１５は、収音機器７０から供給される音声信号Ｓ0のピッチＰ0をその略半分のピッチＰaの音声信号Ｓa（つまり音声信号Ｓ0が示す音声に対して１オクターブだけ低い音声を示す信号）に変換して出力する手段である。したがって、ピッチ変換部１５から出力される音声信号Ｓaの波形は図３の部分（ｂ）に示した形状となる。音声信号Ｓ0のピッチＰ0をシフトするための方法としては公知である種々の方法が採用される。

一方、ピッチ検出部６５は、収音機器７０から供給される音声信号Ｓ0のピッチＰ0を検出し、この検出したピッチＰ0を遅延量算定部６１に通知する手段である。遅延量算定部６１は、第１の態様と同様に、ピッチＰ0に対応する周期Ｔ0（すなわち音声信号Ｓaの周期Ｔaの略半分の時間長）を算定し、この周期Ｔ0を時間長Ｌ1として遅延部３１に指定する。その他の構成は第１の態様と共通である。この変形例によれば、利用者が発声した音声を濁声に変換して出力することができるから、例えばカラオケ装置などに適用することによって新たな興趣性を提供することができる。なお、図１４に示される構成においては、加算手段５０から出力される音声信号Ｓoutを収音機器７０から出力される音声信号Ｓ0と加算したうえで放音機器から音波として出力する構成としてもよい。この構成によれば、利用者の音声とともにその音声から生成された濁声が放音されるから、更に興趣性を高めることができる。

また、音声信号Ｓoutを生成するための基礎となる音声信号Ｓaは予め用意されたものであってもよい。すなわち、音声信号Ｓaを予め記憶手段（図示略）に記憶しておき、この音声信号Ｓaを順次に読み出して分配手段２０に供給する構成としてもよい。このように、本発明においては、音声を示す音声信号Ｓaが生成される構成であれば足り、その生成の方法の如何は不問である。

（４）第１実施形態においては、時間長Ｌ1と時間長Ｌ2との加算値に相当する時間長が遅延手段３０による遅延量として設定される構成を例示したが、この遅延手段３０に設定される遅延量を時間長Ｌ1と時間長Ｌ2との差分値（Ｌ1−Ｌ2）に相当する時間長としても第１実施形態と同様の作用が奏される。

（５）各実施形態においては、遅延手段３０の後段に増幅手段４０が配置された構成を例示したが、この配置を逆転させてもよい。すなわち、分配手段２０から出力された音声信号Ｓa1および音声信号Ｓa2を増幅手段４０が適宜に増幅して音声信号Ｓb1およびＳb2として出力する一方、遅延手段３０が、増幅手段４０から出力された音声信号Ｓb1およびＳb2を遅延させて音声信号Ｓc1およびＳc2を出力する構成も採用される。

濁声を示す音声信号の波形を示す図である。第１実施形態に係る音声処理装置の構成を示すブロック図である。音声処理装置による処理に関わる音声信号の波形を示す図である。第１実施形態の第１の態様に係る音声処理装置の構成を示すブロック図である。第１実施形態の第２の態様に係る音声処理装置の構成を示すブロック図である。同態様における音声信号Ｓaの振幅と時間長Ｌ2との関係を示すグラフである。第１実施形態の第３の態様に係る音声処理装置の構成を示すブロック図である。第２実施形態の第１の態様に係る音声処理装置の構成を示すブロック図である。同態様における各音声信号の波形を示す図である。第２実施形態の第２の態様に係る音声処理装置の構成を示すブロック図である。同態様における各音声信号の波形を示す図である。変形例に係る音声処理装置の構成を示すブロック図である。変形例に係る音声処理装置の構成を示すブロック図である。変形例に係る音声処理装置の構成を示すブロック図である。

符号の説明

Ｄ（Ｄa1，Ｄa2，Ｄa3，Ｄb1，Ｄb2）……音声処理装置、１０……生成手段、１１……ピッチ変換部、１２……合成部、１５……ピッチ変換部、２０……分配手段、３０……遅延手段、３１，３２……遅延部、４０……増幅手段、４１，４２……増幅部、５０……加算手段、６１……遅延量算定部、６２１，６２２……振幅特定部、６３１，６３２……制御部、６５……ピッチ検出部、７０……収音機器、Ｓa1，Ｓb1，Ｓc1……第１系統の音声信号、Ｓa2，Ｓb2，Ｓc2……第２系統の音声信号。

Claims

目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成手段と、
前記生成手段が生成した音声信号を第１系統と第２系統とに分配する分配手段と、
前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成手段が生成した音声信号の周期の略半分である第１の時間長と当該第１の時間長よりも短い第２の時間長との加算値または差分値に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延手段と、
前記遅延手段によって位相差が付与された前記第１系統および前記第２系統の音声信号を加算して出力する加算手段と
を具備する音声処理装置。
前記生成手段が生成する音声信号の振幅を特定する振幅特定手段を具備し、
前記遅延手段は、前記振幅特定手段が特定した振幅に応じて前記第２の時間長を変化させる
請求項１に記載の音声処理装置。
前記第２の時間長を指定するデータを受信し、このデータによって指定される第２の時間長を前記遅延手段に指定する制御手段
を具備する請求項１に記載の音声処理装置。
前記第１系統の音声信号と前記第２系統の音声信号との振幅比を調整する増幅手段を具備し、
前記加算手段は、前記増幅手段による調整後の前記第１系統および前記第２系統の音声信号を加算して出力する
請求項１に記載の音声処理装置。
目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成手段と、
前記生成手段が生成した音声信号を第１系統と第２系統とに分配する分配手段と、
前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成手段が生成した音声信号の周期の略半分である第１の時間長に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延手段と、
前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅とを異ならせた状態から、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅との差が徐々に小さくなるように、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅のうち少なくとも一方を経時的に変化させる増幅手段と、
前記遅延手段および前記増幅手段による処理を経た前記第１系統および前記第２系統の音声信号を加算して出力する加算手段と
を具備する音声処理装置。
前記遅延手段は、前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記第１の時間長と当該第１の時間長よりも短い第２の時間長との加算値または差分値に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる
請求項５に記載の音声処理装置。
前記生成手段が生成する音声信号の振幅を特定する振幅特定手段を具備し、
前記増幅手段は、前記振幅特定手段が特定した振幅に応じて前記第１系統の音声信号の振幅を変化させる
請求項５に記載の音声処理装置。
増幅手段のゲインを指定するデータを受信し、このデータによって指定されるゲインを前記増幅手段に指定する制御手段
を具備する請求項５に記載の音声処理装置。
コンピュータに、
目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成処理と、
前記生成処理にて生成した音声信号を分配した第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成処理にて生成した音声信号の周期の略半分である第１の時間長と当該第１の時間長よりも短い第２の時間長との加算値または差分値に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延処理と、
前記遅延処理によって位相差が付与された前記第１系統および前記第２系統の音声信号を加算して出力する加算処理と
を実行させるためのプログラム。
コンピュータに、
目標となるピッチの略半分のピッチの音声を示す音声信号を生成する生成処理と、
前記生成処理にて生成した音声信号を分配した前記第１系統の音声信号と前記第２系統の音声信号との位相差が、前記生成処理にて生成した音声信号の周期の略半分である第１の時間長に相当する位相差となるように、前記第１系統の音声信号を前記第２系統の音声信号に対して遅延させる遅延処理と、
前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅とを異ならせた状態から、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅との差が徐々に小さくなるように、前記第１系統の音声信号の振幅と前記第２系統の音声信号の振幅のうち少なくとも一方を経時的に変化させる増幅処理と、
前記遅延処理および前記増幅処理を経た前記第１系統および前記第２系統の音声信号を加算して出力する加算処理と
を実行させるためのプログラム。