<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100を例示する構成図である。図1に例示される通り、第1実施形態の音響処理装置100は、制御装置10と記憶装置12と操作装置14と信号供給装置16と放音装置18とを具備するコンピュータシステムで実現される。例えば、携帯電話機もしくはスマートフォン等の可搬型の通信端末、または、可搬型もしくは据置型のパーソナルコンピュータ等の情報処理装置が、音響処理装置100として利用され得る。なお、音響処理装置100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現され得る。
信号供給装置16は、音声または楽音等の音を表す音響信号Xを出力する。具体的には、周囲の音を収音して音響信号Xを生成する収音装置、可搬型または内蔵型の記録媒体から音響信号Xを取得する再生装置、または、通信網から音響信号Xを受信する通信装置が、信号供給装置16として利用され得る。第1実施形態では、発声者が発声した音声(例えば楽曲の歌唱により発声された歌唱音声)を表す音響信号Xを信号供給装置16が生成する場合を想定する。
第1実施形態の音響処理装置100は、音響信号Xに対する音響処理により音響信号Yを生成する信号処理装置である。放音装置18(例えばスピーカまたはヘッドホン)は、音響信号Yに応じた音波を放射する。なお、音響信号Yをデジタルからアナログに変換するD/A変換器と音響信号Yを増幅する増幅器との図示は便宜的に省略した。
操作装置14は、利用者からの指示を受付ける入力機器である。例えば利用者が操作する複数の操作子、または、利用者による接触を検知するタッチパネルが操作装置14として好適に利用される。利用者は、操作装置14を適宜に操作することで、音響処理装置100よる音響処理の度合を表す数値(以下「指示値」という)C0を指定することが可能である。
制御装置10は、例えばCPU(Central Processing Unit)等の処理回路を含んで構成され、音響処理装置100の各要素を統括的に制御する。記憶装置12は、制御装置10が実行するプログラムと制御装置10が使用する各種のデータとを記憶する。半導体記録媒体および磁気記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せが記憶装置12として任意に採用され得る。音響信号Xを記憶装置12に記憶した構成(したがって信号供給装置16は省略され得る)も好適である。
図2は、音響処理装置100の機能に着目した構成図である。図2に例示される通り、制御装置10は、記憶装置12に記憶されたプログラムを実行することで、音響信号Xから音響信号Yを生成するための複数の機能(包絡特定部22,音響処理部24,信号合成部26および制御処理部28)を実現する。なお、制御装置10の機能を複数の装置に分散した構成、または、制御装置10の機能の一部または全部を専用の電子回路が実現する構成も採用され得る。
包絡特定部22は、時間軸上の複数の時点(以下「解析時点」という)の各々について音響信号Xのスペクトル包絡Ea[n]を特定する。記号nは、任意の1個の解析時点を表す変数である。図3に例示される通り、任意の1個の解析時点のスペクトル包絡Ea[n]は、音響信号Xの周波数スペクトルQ[n]の概形を表す包絡線である。スペクトル包絡Ea[n]の算定には公知の解析処理が任意に採用されるが、第1実施形態ではケプストラム法を想定する。すなわち、1個のスペクトル包絡Ea[n]は、音響信号Xから算定される複数のケプストラム係数のうち例えば低次側の所定個(M個)のケプストラム係数で表現される。
図2の音響処理部24は、包絡特定部22が解析時点毎に特定したスペクトル包絡Ea[n]に対する音響処理で解析時点毎にスペクトル包絡Ec[n]を生成する。スペクトル包絡Ec[n]は、スペクトル包絡Ea[n]の形状を変形した包絡線である。図2に例示される通り、第1実施形態の音響処理部24は、包絡変換部32と平滑処理部34とを具備する。
包絡変換部32は、音響信号Xが表す音声の声質を変換する処理(以下「声質変換」という)を実行する。第1実施形態の声質変換は、包絡特定部22が生成したスペクトル包絡Ea[n]を変形することで、音響信号Xとは声質が相違する音声のスペクトル包絡Eb[n]を生成する処理である。第1実施形態の包絡変換部32は、図3に例示される通り、各解析時点のスペクトル包絡Ea[n]の勾配を変化させることでスペクトル包絡Eb[n]を解析時点毎に順次に生成する。スペクトル包絡Ea[n]およびスペクトル包絡Eb[n]の各々の勾配は、図3に鎖線で図示される通り、包絡線の概形を表す直線の角度(周波数に対する変化率)を意味する。
例えば、スペクトル包絡Ea[n]のうち高域側の強度を増加させる(すなわち包絡線の勾配を平坦に近付ける)ことで、明瞭で張りのある声質を表すスペクトル包絡Eb[n]が生成される。また、スペクトル包絡Ea[n]のうち高域側の強度を減少させる(すなわち包絡線の勾配を急峻にする)ことで、張りが抑制されたソフトな声質を表すスペクトル包絡Eb[n]が生成される。包絡変換部32による声質変換の度合(すなわちスペクトル包絡Ea[n]とスペクトル包絡Eb[n]との相違の度合)は、制御値Ca[n]に応じて調整される。制御値Ca[n]の詳細については後述する。
ところで、音響信号Xが表す音声を明瞭で張りのある声質に変換する場合には、変換前のソフトな音声の気息成分(典型的には非調波成分)が強調され得る。気息成分は、確率的に発音されるから、時間軸上で不規則かつ頻繁に変動する傾向がある。したがって、明瞭で張りのある声質に変換する処理に起因して、複数のスペクトル包絡Eb[n]の時系列には時間軸上の微細な変動が発生し得る。また、包絡特定部22によるスペクトル包絡Ea[n]の推定誤差に起因して、包絡変換部32が解析時点毎に生成するスペクトル包絡Eb[n]の時系列に時間軸上の微細な変動が存在する場合もある。以上の通り、包絡変換部32が生成する複数のスペクトル包絡Eb[n]の時系列には、時間軸上の微細な変動が存在し得る。以上に例示したスペクトル包絡Eb[n]の微細な変動を抑制するために、図2の平滑処理部34は、包絡変換部32による変換後のスペクトル包絡Eb[n]を時間軸上で平滑化することによりスペクトル包絡Ec[n]を解析時点毎に順次に生成する。
具体的には、第1実施形態の平滑処理部34は、包絡変換部32が解析時点毎に生成した各スペクトル包絡Eb[n]に対して非線形フィルタを利用した平滑処理を実行することでスペクトル包絡Ec[n]を生成する。第1実施形態の非線形フィルタは、イプシロン(ε)分離型非線形フィルタである。イプシロン分離型非線形フィルタは、例えば以下の数式(1)および数式(2)で表現される。
数式(1)は、複数の係数a[k]を利用した非巡回型デジタルフィルタである。周波数領域の1個のスペクトル包絡はM個のケプストラム係数で表現される。具体的には、数式(1)の記号Vb[n]は、1個のスペクトル包絡Eb[n]をM個のケプストラム係数で表現するM次元のベクトルである。記号Vc[n]は、平滑化後の1個のスペクトル包絡Ec[n]をM個のケプストラム係数で表現するM次元のベクトルである。数式(1)の記号K-は、第n番目の解析時点の前方(過去)において第n番目のスペクトル包絡Eb[n]の平滑化に利用される区間の長さを示す正数であり、記号K+は、第n番目の解析時点の後方(未来)において第n番目のスペクトル包絡Eb[n]の平滑化に利用される区間の長さを示す正数である。数式(1)の記号F[k]は、数式(2)で表現される非線形関数である。
数式(1)の演算は、第n番目のスペクトル包絡Eb[n](Vb[n])の周辺の複数のスペクトル包絡Eb[n-k](Vb[n-k])の各々に対応する係数a[k]を非線形関数F[k]に乗算して相互に加算する積和演算により第n番目のスペクトル包絡Ec[n](Vc[n])を生成するフィルタ処理である。ベクトルVb[n]で表現されるスペクトル包絡Eb[n]は第1スペクトル包絡の例示であり、ベクトルVb[n-k]で表現されるスペクトル包絡Eb[n-k]は第2スペクトル包絡の例示である。また、数式(1)の演算の結果であるベクトルVc[n]が表すスペクトル包絡Ec[n]は、出力スペクトル包絡の例示である。
数式(2)の記号D(Vb[n],Vb[n-k])は、第n番目のスペクトル包絡Eb[n]と第(n-k)番目のスペクトル包絡Eb[n-k]との類似または相違の度合を評価するための指標(以下「類似指標」という)である。具体的には、以下の数式(3a)で表現される通り、ベクトルVb[n]とベクトルVb[n-k]とのノルム(距離)が類似指標D(Vb[n],Vb[n-k])の好例である。なお、数式(3a)の記号Tは転置を意味する。また、数式(3b)で表現される通り、ベクトルVb[n]とベクトルVb[n-k]との間で次元毎の要素の差分|Vb[n]_m−Vb[n-k]_m|を算定し(m=0〜M-1)、M個の差分|Vb[n]_m−Vb[n-k]_m|の最大値(max)を類似指標D(Vb[n],Vb[n-k])として利用することも可能である。なお、数式(3b)の記号Vb[n]_mは、ベクトルVb[n]のM個の要素のうち第m番目の要素(すなわち第m次のケプストラム係数)を意味する。数式(3a)および数式(3b)から理解される通り、第1実施形態では、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]とが類似するほど類似指標D(Vb[n],Vb[n-k])は小さい数値となる。
前掲の数式(2)で表現される通り、類似指標D(Vb[n],Vb[n-k])が閾値εを下回る場合(すなわち、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]との類似を意味する数値である場合)には、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]との差分(Vb[n]−Vb[n-k])が数式(1)の非線形関数F[k]として利用される。他方、類似指標D(Vb[n],Vb[n-k])が閾値εを上回る場合(すなわちスペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]との相違を意味する数値である場合)には、非線形関数F[k]は零ベクトルに設定される。すなわち、類似指標D(Vb[n],Vb[n-k])が閾値εを上回るスペクトル包絡Eb[n-k]は、数式(1)の積和演算の対象から除外される。したがって、数式(1)のイプシロン分離型非線形フィルタを利用した平滑処理は、時間軸上におけるスペクトル包絡Eb[n]の微細な変動を平滑化するとともに時間軸上の急峻な変動については平滑化を抑制するように作用する。なお、数式(1)のイプシロン分離型非線形フィルタは、処理前のスペクトル包絡Eb[n]と処理後のスペクトル包絡Ec[n]との差異|Vb[n]−Vc[n]|を所定の範囲内に抑制しながら時間的な平滑化を実現するフィルタであるとも換言される。
図4は、平滑処理部34による平滑処理前のスペクトル包絡Eb[n]の時間変化と、数式(1)のイプシロン分離型非線形フィルタによる平滑処理後のスペクトル包絡Ec[n]の時間変化とを表すグラフである。図4では、第0次から第3次(m=0〜3)までのケプストラム係数の時間変化が図示されている。複数のスペクトル包絡Eb[n]の時系列を単純な時間平均(単純平均)により平滑化した場合のスペクトル包絡Ec[n]の時間変化が、図4には対比例として併記されている。また、図4には、音響信号Xが表す音声の音素の境界(縦線)が図示されている。
図4から理解される通り、第1実施形態および対比例の何れにおいても、時間軸上におけるスペクトル包絡Eb[n]の微細な変動は抑制される。しかし、対比例では、各音素の境界におけるスペクトル包絡Ec[n]の時間変化が、処理前のスペクトル包絡Eb[n]の時間変化と比較して抑制されて緩慢になる。したがって、対比例で生成されたスペクトル包絡Ec[n]の音声は、滑舌の悪い不自然な音声と聴感的に知覚される可能性がある。
対比例とは対照的に、イプシロン分離型非線形フィルタを利用した第1実施形態によれば、図4から確認できる通り、各音素の境界におけるスペクトル包絡Ec[n]の変化が、平滑処理前のスペクトル包絡Eb[n]の時間変化と同等に維持される。すなわち、第1実施形態によれば、平滑処理後のスペクトル包絡Ec[n]の急峻な時間変化を平滑処理前と同等に維持しながら(すなわち受聴者が知覚する滑舌を良好に維持しながら)、時間軸上におけるスペクトル包絡Eb[n]の微細な変動を有効に平滑化することが可能である。
ところで、図4から理解される通り、対比例では、平滑処理に起因した処理遅延がスペクトル包絡Ec[n]に顕著に発生する。すなわち、対比例で生成されるスペクトル包絡Ec[n]の時系列は処理前のスペクトル包絡Eb[n]に対して遅延した関係にある。対比例とは対照的に、イプシロン分離型非線形フィルタを利用した第1実施形態によれば、図4から確認できる通り、平滑処理部34による平滑処理に起因した遅延が殆ど発生しないという利点もある。なお、平滑処理の処理遅延を低減するという観点からは、数式(1)の定数K+を充分に小さい正数または零に設定した構成が好適である。
図2の信号合成部26は、音響処理部24が解析時点毎に生成したスペクトル包絡Ec[n]を利用して音響信号Xを調整することで音響信号Yを生成する。具体的には、信号合成部26は、音響信号Xの周波数スペクトルQ[n]が音響処理後のスペクトル包絡Ec[n]に整合するように音響信号Xを調整することで音響信号Yを生成する。すなわち、音響信号Xのスペクトル包絡Ea[n]が音響処理後のスペクトル包絡Ec[n]に変換される。
図2の制御処理部28は、音響処理部24による音響処理の度合を示す制御値Ca[n]を設定する。第1実施形態の制御処理部28は、包絡変換部32による声質変換の度合を示す前述の制御値Ca[n]を設定する。第1実施形態では、制御値Ca[n]が小さいほど声質変換が抑制される場合を想定する。
音響信号Xのうち有声子音が発音された期間または母音の音素が遷移する期間等の音量が相対的に小さい期間について、母音が定常的に維持される期間と同等の声質変換を実行すると、変換後の音声が滑舌の悪い不自然な音声と知覚される可能性がある。以上の事情を考慮して、第1実施形態の制御処理部28は、音響信号Xのうちレベルが小さい期間については声質変換の度合が抑制されるように、制御値Ca[n]を設定する。図2に例示される通り、第1実施形態の制御処理部28は、第1強度算定部42と第2強度算定部44と制御値設定部46とを具備する。
図5は、第1強度算定部42および第2強度算定部44の動作の説明図である。図5に例示される通り、第1強度算定部42は、音響信号Xのレベル(例えば音量,振幅またはパワー)の時間変化に追従する強度L1[n](第1強度の例示)を解析時点毎に順次に算定する。第2強度算定部44は、強度L1[n]と比較して高い追従性で音響信号Xのレベルの時間変化に追従する強度L2[n](第2強度の例示)を解析時点毎に順次に算定する。強度L1[n]および強度L2[n]は、音響信号Xのレベルに関する数値である。以上の説明では音響信号Xのレベルに対する追従性に着目したが、音響信号Xを時定数τ1により平滑化することで第1強度算定部42が強度L1[n]を算定し、時定数τ1を下回る時定数τ2(τ2<τ1)により音響信号Xを平滑化することで第2強度算定部44が強度L2[n]を算定する、と換言することも可能である。
図6は、第1強度算定部42および第2強度算定部44を例示する構成図である。第1強度算定部42および第2強度算定部44の各々が図6の構成を具備する。第1強度算定部42は音響信号Xから強度L1[n]を算定し、第2強度算定部44は音響信号Xから強度L2[n]を算定するが、図6では強度L1[n]および強度L2[n]を区別することなく便宜的に強度L[n]と表記した。
第1強度算定部42および第2強度算定部44の各々は、音響信号Xのレベルに追従する強度L[n]の時系列(すなわち音量の時間変化)を出力するエンベロープフォロワであり、図6に例示される通り、演算部51と減算部52と乗算部53と乗算部54と加算部55と遅延部56とを具備する。遅延部56は、強度L[n]を遅延させる。演算部51は、音響信号Xのレベルの絶対値|X|を算定し、減算部52は、音響信号Xのレベルの絶対値|X|から遅延部56による遅延後の強度L[n]を減算する。減算部52が算定した差分値δ(δ=|X|−L[n])が正数である場合には乗算部53が差分値δに係数γaを乗算し、差分値δが負数である場合には乗算部54が差分値δに係数γbを乗算する。乗算部53の出力と乗算部54の出力と遅延部56による遅延後の強度L[n]とを加算部55が加算することで強度L[n]が算定される。第1強度算定部42の時定数τ1と第2強度算定部44の時定数τ2とは、係数γaおよび係数γbに応じた数値に設定される。
図5から理解される通り、音響信号Xのレベルが小さい期間では、強度L1[n]が強度L2[n]を上回り(L1[n]>L2[n])、音響信号Xのレベルが大きい期間では、強度L1[n]が強度L2[n]を下回る(L1[n]<L2[n])という傾向がある。以上の傾向を考慮して、第1実施形態の制御値設定部46は、強度L1[n]が強度L2[n]を上回る場合の制御値Ca[n]が、強度L1[n]が強度L2[n]を下回る場合の制御値Ca[n]と比較して小さい数値(すなわち声質変化を抑制する数値)となるように、強度L1[n]および強度L2[n]に応じて制御値Ca[n]を設定する。
具体的には、制御値設定部46は、以下の数式(4)の演算により制御値Ca[n]を算定する。
数式(4)の記号Lmaxは、強度L1[n]および強度L2[n]のうち大きい方の数値である。また、記号max(a,b)は、数値aおよび数値bのうち大きい方を選択する最大値演算を意味する。数式(4)から理解される通り、強度L1[n]が強度L2[n]を下回る場合(音響信号Xのレベルが大きい場合)、両者間の差分(L1[n]−L2[n])は負数となるから、最大値演算では0が選択される。したがって、操作装置14に対する操作で利用者が指定した指示値C0が制御値Ca[n]として設定される(Ca[n]=C0)。他方、強度L1[n]が強度L2[n]を上回る場合(音響信号Xのレベルが小さい場合)、両者間の差分(L1[n]−L2[n])は正数となるから、最大値演算では差分(L1[n]−L2[n])が選択される。したがって、制御値Ca[n]は、1未満の正数(1−(L1[n]−L2[n])/Lmax)を指示値C0に乗算した数値に設定される。すなわち、制御値Ca[n]は、指示値C0を下回る数値に設定される(Ca[n]<C0)。また、強度L1[n]が強度L2[n]と比較して大きいほど、制御値Ca[n]は小さい数値に設定される。以上の説明から理解される通り、音響信号Xのうちレベルが小さい期間について声質変換の度合が抑制されるように制御値Ca[n]が設定される。
以上に説明した通り、第1実施形態では、強度L1[n]と強度L2[n]との相違に応じて制御値Ca[n]が設定されるから、音響信号Xを強度に応じて区分するための閾値の設定を必要とせずに、音響処理(第1実施形態では声質変換)に適用される制御値Ca[n]を適切に設定することが可能である。第1実施形態では特に、強度L1[n]が強度L2[n]を上回る場合の制御値Ca[n]が、強度L1[n]が強度L2[n]を下回る場合の制御値Ca[n]と比較して、声質変換を抑制する数値に設定される。したがって、音量が小さい期間について声質変換が抑制された聴感的に自然な音声を生成することが可能である。
図7は、第1実施形態の制御装置10が実行する処理のフローチャートである。例えば操作装置14に対する利用者からの指示を契機として図7の処理が開始され、時間軸上の解析時点毎に反復される。
図7の処理を開始すると、制御処理部28は、音響信号Xのレベルに追従する強度L1[n]と強度L2[n]との相違に応じて制御値Ca[n]を設定する(S1)。包絡特定部22は、音響信号Xのスペクトル包絡Ea[n]を特定する(S2)。包絡変換部32は、制御処理部28が設定した制御値Ca[n]を適用した声質変換により、包絡特定部22が特定したスペクトル包絡Ea[n]を変形したスペクトル包絡Eb[n]を生成する(S3)。平滑処理部34は、数式(1)および数式(2)で表現されるイプシロン分離型非線形フィルタによるフィルタ処理をスペクトル包絡Eb[n]に対して実行することでスペクトル包絡Ec[n]を生成する(S4)。信号合成部26は、音響処理部24が生成したスペクトル包絡Ec[n]を利用して音響信号Xを調整することで音響信号Yを生成する(S5)。
<第2実施形態>
本発明の第2実施形態について説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、包絡変換部32による声質変換の度合を制御するための制御値Ca[n]を制御処理部28が設定した。第2実施形態の制御処理部28は、イプシロン分離型非線形フィルタに適用される閾値εを制御するための制御値Cb[n]を設定する。すなわち、第2実施形態の閾値εは可変値である。
前掲の数式(2)から理解される通り、閾値εが小さいほど、類似指標D(Vb[n],Vb[n-k])が閾値εを上回る場合が多くなる。前述の通り、類似指標D(Vb[n],Vb[n-k])が閾値εを上回るスペクトル包絡Eb[n-k]は数式(1)の積和演算の対象から除外される。したがって、閾値εが小さいほど、平滑処理後のスペクトル包絡Ec[n]が平滑処理前のスペクトル包絡Eb[n]に近い形状となる。すなわち、閾値εが小さいほど平滑処理の度合が低減される。
他方、音響信号Xのうちレベルが小さい期間では、スペクトル包絡Eb[n]の微細な変動は聴感的に知覚され難いから、微細な変動の抑制を目的とした平滑処理の度合は抑制することが望ましい。以上の事情を考慮して、第2実施形態の制御処理部28は、音響信号Xのうちレベルが小さい期間については、非線形フィルタを利用した平滑処理の度合が抑制されるように、制御処理部28が制御値Cb[n]を設定する。
具体的には、制御処理部28は、音響信号Xのレベルに追従する強度L1[n]と強度L2[n]との相違に応じて制御値Cb[n]を設定する。例えば前掲の数式(4)と同様に、強度L1[n]が強度L2[n]を上回る場合(レベルが小さい期間)の制御値Cb[n]が、強度L1[n]が強度L2[n]を下回る場合の制御値Cb[n]と比較して小さい数値となるように、強度L1[n]および強度L2[n]に応じた制御値Cb[n]を設定する。制御処理部28は、制御値Cb[n]を閾値εとして設定する。したがって、音響信号Xのうちレベルが小さい期間では、閾値εが小さい数値に設定されることで平滑処理が抑制される。他方、音響信号Xのうちレベルが大きい期間では、閾値εが大きい数値に設定されることで充分な平滑処理が実行される。なお、制御値Cb[n]に対する所定の演算により閾値εを算定することも可能である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では特に、強度L1[n]が強度L2[n]を上回る場合の制御値Cb[n]が、強度L1[n]が強度L2[n]を下回る場合の制御値Cb[n]と比較して、平滑処理を抑制する数値に設定される。したがって、レベルが小さい期間について平滑処理が抑制された聴感的に自然な音声を生成することが可能である。
なお、第2実施形態では平滑処理の制御に着目したが、第1実施形態で例示した声質変換の制御と第2実施形態で例示した平滑処理の制御との双方を採用することも可能である。以上の説明から理解される通り、制御処理部28は、音響処理部24による音響処理を制御する要素として包括的に表現される。音響処理は、包絡変換部32による声質変換と平滑処理部34による平滑処理とを包含する。
<第3実施形態>
第1実施形態では、音響信号Xの全期間にわたり前掲の数式(4)の演算により制御値Ca[n]を算定した。しかし、音響信号Xのうち有声音が優勢に存在する期間(以下「有声期間」という)と、有声期間以外の期間(以下「非有声期間」という)とでは音響特性が顕著に相違するという傾向がある。したがって、有声期間と非有声期間とでは音響処理の制御(すなわち制御値Ca[n]の設定)を相違させることが望ましい。以上の事情を考慮して、第3実施形態では、有声期間と非有声期間とで制御値Ca[n]の設定を相違させる。なお、非有声期間は、例えば、無声音が存在する無声期間と、有意な音量が観測されない無音期間とを包含する。
具体的には、第3実施形態における制御処理部28の制御値設定部46は、音響信号Xを有声期間と非有声期間とに時間軸上で区分する。有声期間と非有声期間との区分には公知の技術が任意に採用され得る。例えば、制御値設定部46は、音響信号Xのうち明確な調波構造が観測される期間(例えば基本周波数を明確に特定できる期間)を有声期間として画定し、調波構造が明確に特定されない無声期間と音量が閾値を下回る無音期間とを、非有声期間として画定する。そして、制御値設定部46は、有声期間と非有声期間とを区別した以下の数式(5)の演算により制御値Ca[n]を算定する。
数式(5)から理解される通り、第3実施形態の制御処理部28(制御値設定部46)は、音響信号Xの有声期間については、第1実施形態と同様に、強度L1[n]と強度L2[n]との相違に応じた制御値Ca[n]を設定する。包絡変換部32は、制御処理部28が設定した制御値Ca[n]に応じた声質変換を実行する。他方、音響信号Xの非有声期間について、制御処理部28(制御値設定部46)は、制御値Ca[n]をゼロに設定する。したがって、非有声期間については包絡変換部32による声質変換が省略される。
第3実施形態においても第1実施形態と同様の効果が実現される。第3実施形態では特に、非有声期間について声質変換が省略されるから、有声期間と非有声期間とを区別せずに一律に声質変換を実行する構成と比較して聴感的に自然な音を生成できるという利点がある。
なお、以上の説明では、声質変換に関する制御値Ca[n]の設定を有声期間と非有声期間とで区別する構成を例示したが、第2実施形態で例示した平滑処理の制御値Cb[n](閾値ε)の設定についても同様に、有声期間と非有声期間とで区別することが可能である。
<変形例>
以上に例示した態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)前述の各形態では、前掲の数式(2)の通り、類似指標D(Vb[n],Vb[n-k])が閾値εを上回る場合に非線形関数F[k]を零ベクトルに設定したが、類似指標D(Vb[n],Vb[n-k])が閾値εを上回る場合の処理は以上の例示に限定されない。具体的には、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]との相違(Vb[n]−Vb[n-k])を抑制した結果を非線形関数F[k]として利用することも可能である。例えば、充分に小さい正数(例えば0.01)を相違(Vb[n]−Vb[b-k])に乗算した結果が非線形関数F[k]として利用される。以上の例示から理解される通り、平滑処理部34は、類似指標D(Vb[n],Vb[n-k])が閾値εを上回るスペクトル包絡Eb[n-k]について、当該スペクトル包絡Eb[n-k]を積和演算の対象から除外し、または、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]との差分(Vb[n]−Vb[n-k])を抑制した結果を非線形関数F[k]として利用する要素として包括的に表現される。
(2)第3実施形態では、音響信号Xの非有声期間について声質変換を省略したが、音響信号Xの非有声期間において、声質変換を有声期間と比較して抑制することも可能である。例えば、音響信号Xの非有声期間について、制御処理部28は、充分に小さい正数(例えば0.01)を指示値C0に乗算することで制御値Ca[n]を算定する。包絡変換部32は、有声期間だけでなく非有声期間についても、制御値Ca[n]を利用した声質変換を実行する。第2実施形態の制御値Cb[n]の設定にも同様の構成が採用され得る。以上の例示から理解される通り、第3実施形態は、有声期間について、強度L1[n]と強度L2[n]との相違に応じた制御値Ca[n]を適用した音響処理(例えば声質変換または平滑処理)を実行し、非有声期間については音響処理を抑制または省略する形態として包括的に表現される。
(3)前述の各形態では、音響処理(声質変換および平滑処理)と制御値(Ca[n],Cb[n])の設定とを解析時点毎に実行したが、音響処理の周期と制御値の設定の周期とを相違させることも可能である。例えば、相前後する解析時点の間隔と比較して長い周期で制御処理部28が制御値(Ca[n],Cb[n])を更新することも可能である。
(4)前述の各形態では、包絡変換部32による声質変換の実行後に平滑処理部34が平滑処理を実行する構成を例示したが、声質変換と平滑処理との順序は逆転され得る。すなわち、平滑処理部34による平滑処理の実行後に包絡変換部32が声質変換を実行することも可能である。
(5)前掲の数式(2)における類似指標D(Vb[n],Vb[n-k])の算定方法は、前述の各形態の例示に限定されない。例えば、前述の各形態では、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]とが類似するほど類似指標D(Vb[n],Vb[n-k])が小さい数値となる態様(以下「態様A」という)を例示したが、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]とが類似するほど類似指標D(Vb[n],Vb[n-k])が大きい数値となるように類似指標D(Vb[n],Vb[n-k])を算定する態様(以下「態様B」という)も想定される。例えば、態様Bでは、スペクトル包絡Eb[n]とスペクトル包絡Eb[n-k]との相関が類似指標D(Vb[n],Vb[n-k])として算定される。態様Bでは、類似指標D(Vb[n],Vb[n-k])が閾値εを上回る場合に、両者間の差分(Vb[n]−Vb[n-k])が非線形関数F[k]として利用され、類似指標D(Vb[n],Vb[n-k])が閾値εを下回る場合にスペクトル包絡Eb[n-k]が数式(1)の積和演算の対象から除外される。
以上の説明から理解される通り、イプシロン分離型非線形フィルタにおいては、類似指標D(Vb[n],Vb[n-k])が閾値εに対して類似側にあるスペクトル包絡Eb[n-k]については、差分(Vb[n]−Vb[n-k])が非線形関数F[k]として利用される一方、類似指標D(Vb[n],Vb[n-k])が閾値εに対して相違側(非類似側)にあるスペクトル包絡Eb[n-k]については、当該スペクトル包絡Eb[n-k]が積和演算の対象から除外される。閾値εに対して「類似側」とは、態様Aでは、閾値εを下回る範囲を意味し、態様Bでは、閾値εを上回る範囲を意味する。また、閾値εに対して「相違側」とは、態様Aでは、閾値εを上回る範囲を意味し、態様Bでは、閾値εを下回る範囲を意味する。
(6)移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により音響処理装置100を実現することも可能である。例えば、音響処理装置100は、端末装置から通信網を介して受信した音響信号Xに対する処理で音響信号Yを生成して端末装置に送信する。
(7)前述の各形態で例示した通り、音響処理装置100は、制御装置10とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、音響信号のレベルの時間変化に追従する第1強度を算定する第1強度算定部、前記第1強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第2強度を算定する第2強度算定部、前記第1強度と前記第2強度との相違に応じて制御値を設定する制御値設定部、および、前記制御値を適用した音響処理を前記音響信号に対して実行する音響処理部としてコンピュータを機能させる。以上に例示したプログラムは、例えば、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。
記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号(transitory, propagating signal)を除く全てのコンピュータ読取可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。
(8)以上に例示した形態から、例えば以下の構成が把握される。
<態様1>
本発明の好適な態様(態様1)において、コンピュータ(単体のコンピュータまたは複数のコンピュータで構成されるコンピュータシステム)が、音響信号のレベルの時間変化に追従する第1強度を算定し、前記第1強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第2強度を算定し、前記第1強度と前記第2強度との相違に応じて制御値を設定し、前記制御値を適用した音響処理を前記音響信号に対して実行する。以上の態様では、第1強度と第2強度との相違に応じて音響処理の制御値が設定されるから、音響信号を強度に応じて区分するための閾値の設定を必要とせずに、音響処理の制御値を適切に設定することが可能である。
<態様2>
態様1の好適例(態様2)では、前記制御値の設定において、前記第1強度が前記第2強度を上回る場合の制御値が、前記第1強度が前記第2強度を下回る場合の制御値と比較して、前記音響処理の度合を抑制する数値となるように、前記制御値を設定する。音響信号のうちレベルが小さい期間では第1強度が第2強度を下回るという傾向を考慮すると、以上の態様によれば、音響信号のうちレベルが小さい期間について音響処理の度合を抑制することが可能である。
<態様3>
態様1または態様2の好適例(態様3)において、前記音響信号を有声期間と非有声期間とに区分し、前記有声期間については、前記第1強度と前記第2強度との相違に応じた制御値を適用した前記音響処理を実行し、前記非有声期間については前記音響処理を抑制または省略する。以上の態様では、有声期間については第1強度と第2強度との相違に応じた制御値を適用した音響処理が実行される一方、非有声期間(例えば無声期間または無音期間)については音響処理が抑制または省略される。したがって、有声期間と非有声期間とを区別せずに一律に音響処理を実行する場合と比較して、聴感的に自然な音を生成することが可能である。
<態様4>
態様1から態様3の何れかの好適例(態様4)において、前記音響処理は、前記制御値に応じた閾値を適用したイプシロン分離型非線形フィルタによるフィルタ処理である。以上の態様では、イプシロン分離型非線形フィルタを利用したフィルタ処理が音響信号のスペクトル包絡に対して実行される。したがって、スペクトル包絡の急峻な時間変化を平滑化前と同等に維持しながら、時間軸上におけるスペクトル包絡の微細な変動を有効に平滑化することが可能である。
<態様5>
本発明の好適な態様(態様5)に係る音響処理装置は、音響信号のレベルの時間変化に追従する第1強度を算定する第1強度算定部と、前記第1強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第2強度を算定する第2強度算定部と、前記第1強度と前記第2強度との相違に応じて制御値を設定する制御値設定部と、前記制御値を適用した音響処理を前記音響信号に対して実行する音響処理部とを具備する。以上の態様では、第1強度と第2強度との相違に応じて音響処理の制御値が設定されるから、音響信号を強度に応じて区分するための閾値の設定を必要とせずに、音響処理の制御値を適切に設定することが可能である。