JP6930089B2

JP6930089B2 - 音響処理方法および音響処理装置

Info

Publication number: JP6930089B2
Application number: JP2016215227A
Authority: JP
Inventors: 竜之介大道; 嘉山　啓; 啓嘉山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2021-09-01
Anticipated expiration: 2036-11-02
Also published as: JP2018072724A

Description

本発明は、音響信号を処理する技術に関する。

声質変換等の音響処理を音響信号に対して実行する各種の技術が従来から提案されている。例えば特許文献１には、音声合成に利用される音声素片の声質を声質変換パラメータに応じて変換する技術が開示されている。

特開２００４−３８０７１号公報

ところで、音響信号のうち有声子音が発音された期間または母音の音素が遷移する期間について、母音が定常的に維持される期間と同等の音響処理を実行すると、音響処理後の音声が、滑舌の悪い不自然な音声と知覚される可能性がある。音響信号のうち音量が閾値を下回る期間を有声子音の発音期間または母音の遷移期間として検出し、これらの期間に対する音響処理の度合を、母音が定常的に維持される期間とは相違させる構成も想定され得る。しかし、音響信号を高精度に区分し得る適切な閾値を設定することは実際には困難である。以上の事情を考慮して、本発明の好適な態様は、音響信号の区分のための閾値を必要とせずに音響処理の度合を適切に調整することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音響処理方法は、コンピュータが、音響信号の時間変化に追従する第１強度を算定し、前記第１強度よりも高い追従性で前記音響信号の時間変化に追従する第２強度を算定し、前記第１強度と前記第２強度との相違に応じて制御値を設定し、前記制御値を適用した音響処理を前記音響信号に対して実行する。
また、本発明の好適な態様に係る音響処理装置は、音響信号の時間変化に追従する第１強度を算定する第１強度算定部と、前記第１強度よりも高い追従性で前記音響信号の時間変化に追従する第２強度を算定する第２強度算定部と、前記第１強度と前記第２強度との相違に応じて制御値を設定する制御値設定部と、前記制御値を適用した音響処理を前記音響信号に対して実行する音響処理部とを具備する。

本発明の第１実施形態に係る音響処理装置の構成図である。音響処理装置の機能に着目した構成図である。音響信号のスペクトル包絡の説明図である。平滑処理の前後におけるスペクトル包絡の時間変化のグラフである。音響信号とその強度との関係の説明図である。第１強度算定部および第２強度算定部の構成図である。制御装置が実行する処理のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００を例示する構成図である。図１に例示される通り、第１実施形態の音響処理装置１００は、制御装置１０と記憶装置１２と操作装置１４と信号供給装置１６と放音装置１８とを具備するコンピュータシステムで実現される。例えば、携帯電話機もしくはスマートフォン等の可搬型の通信端末、または、可搬型もしくは据置型のパーソナルコンピュータ等の情報処理装置が、音響処理装置１００として利用され得る。なお、音響処理装置１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置でも実現され得る。

信号供給装置１６は、音声または楽音等の音を表す音響信号Ｘを出力する。具体的には、周囲の音を収音して音響信号Ｘを生成する収音装置、可搬型または内蔵型の記録媒体から音響信号Ｘを取得する再生装置、または、通信網から音響信号Ｘを受信する通信装置が、信号供給装置１６として利用され得る。第１実施形態では、発声者が発声した音声（例えば楽曲の歌唱により発声された歌唱音声）を表す音響信号Ｘを信号供給装置１６が生成する場合を想定する。

第１実施形態の音響処理装置１００は、音響信号Ｘに対する音響処理により音響信号Ｙを生成する信号処理装置である。放音装置１８（例えばスピーカまたはヘッドホン）は、音響信号Ｙに応じた音波を放射する。なお、音響信号Ｙをデジタルからアナログに変換するＤ/Ａ変換器と音響信号Ｙを増幅する増幅器との図示は便宜的に省略した。

操作装置１４は、利用者からの指示を受付ける入力機器である。例えば利用者が操作する複数の操作子、または、利用者による接触を検知するタッチパネルが操作装置１４として好適に利用される。利用者は、操作装置１４を適宜に操作することで、音響処理装置１００よる音響処理の度合を表す数値（以下「指示値」という）Ｃ0を指定することが可能である。

制御装置１０は、例えばＣＰＵ（Central Processing Unit）等の処理回路を含んで構成され、音響処理装置１００の各要素を統括的に制御する。記憶装置１２は、制御装置１０が実行するプログラムと制御装置１０が使用する各種のデータとを記憶する。半導体記録媒体および磁気記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せが記憶装置１２として任意に採用され得る。音響信号Ｘを記憶装置１２に記憶した構成（したがって信号供給装置１６は省略され得る）も好適である。

図２は、音響処理装置１００の機能に着目した構成図である。図２に例示される通り、制御装置１０は、記憶装置１２に記憶されたプログラムを実行することで、音響信号Ｘから音響信号Ｙを生成するための複数の機能（包絡特定部２２，音響処理部２４，信号合成部２６および制御処理部２８）を実現する。なお、制御装置１０の機能を複数の装置に分散した構成、または、制御装置１０の機能の一部または全部を専用の電子回路が実現する構成も採用され得る。

包絡特定部２２は、時間軸上の複数の時点（以下「解析時点」という）の各々について音響信号Ｘのスペクトル包絡Ｅa[n]を特定する。記号ｎは、任意の１個の解析時点を表す変数である。図３に例示される通り、任意の１個の解析時点のスペクトル包絡Ｅa[n]は、音響信号Ｘの周波数スペクトルＱ[n]の概形を表す包絡線である。スペクトル包絡Ｅa[n]の算定には公知の解析処理が任意に採用されるが、第１実施形態ではケプストラム法を想定する。すなわち、１個のスペクトル包絡Ｅa[n]は、音響信号Ｘから算定される複数のケプストラム係数のうち例えば低次側の所定個（Ｍ個）のケプストラム係数で表現される。

図２の音響処理部２４は、包絡特定部２２が解析時点毎に特定したスペクトル包絡Ｅa[n]に対する音響処理で解析時点毎にスペクトル包絡Ｅc[n]を生成する。スペクトル包絡Ｅc[n]は、スペクトル包絡Ｅa[n]の形状を変形した包絡線である。図２に例示される通り、第１実施形態の音響処理部２４は、包絡変換部３２と平滑処理部３４とを具備する。

包絡変換部３２は、音響信号Ｘが表す音声の声質を変換する処理（以下「声質変換」という）を実行する。第１実施形態の声質変換は、包絡特定部２２が生成したスペクトル包絡Ｅa[n]を変形することで、音響信号Ｘとは声質が相違する音声のスペクトル包絡Ｅb[n]を生成する処理である。第１実施形態の包絡変換部３２は、図３に例示される通り、各解析時点のスペクトル包絡Ｅa[n]の勾配を変化させることでスペクトル包絡Ｅb[n]を解析時点毎に順次に生成する。スペクトル包絡Ｅa[n]およびスペクトル包絡Ｅb[n]の各々の勾配は、図３に鎖線で図示される通り、包絡線の概形を表す直線の角度（周波数に対する変化率）を意味する。

例えば、スペクトル包絡Ｅa[n]のうち高域側の強度を増加させる（すなわち包絡線の勾配を平坦に近付ける）ことで、明瞭で張りのある声質を表すスペクトル包絡Ｅb[n]が生成される。また、スペクトル包絡Ｅa[n]のうち高域側の強度を減少させる（すなわち包絡線の勾配を急峻にする）ことで、張りが抑制されたソフトな声質を表すスペクトル包絡Ｅb[n]が生成される。包絡変換部３２による声質変換の度合（すなわちスペクトル包絡Ｅa[n]とスペクトル包絡Ｅb[n]との相違の度合）は、制御値Ｃa[n]に応じて調整される。制御値Ｃa[n]の詳細については後述する。

ところで、音響信号Ｘが表す音声を明瞭で張りのある声質に変換する場合には、変換前のソフトな音声の気息成分（典型的には非調波成分）が強調され得る。気息成分は、確率的に発音されるから、時間軸上で不規則かつ頻繁に変動する傾向がある。したがって、明瞭で張りのある声質に変換する処理に起因して、複数のスペクトル包絡Ｅb[n]の時系列には時間軸上の微細な変動が発生し得る。また、包絡特定部２２によるスペクトル包絡Ｅa[n]の推定誤差に起因して、包絡変換部３２が解析時点毎に生成するスペクトル包絡Ｅb[n]の時系列に時間軸上の微細な変動が存在する場合もある。以上の通り、包絡変換部３２が生成する複数のスペクトル包絡Ｅb[n]の時系列には、時間軸上の微細な変動が存在し得る。以上に例示したスペクトル包絡Ｅb[n]の微細な変動を抑制するために、図２の平滑処理部３４は、包絡変換部３２による変換後のスペクトル包絡Ｅb[n]を時間軸上で平滑化することによりスペクトル包絡Ｅc[n]を解析時点毎に順次に生成する。

具体的には、第１実施形態の平滑処理部３４は、包絡変換部３２が解析時点毎に生成した各スペクトル包絡Ｅb[n]に対して非線形フィルタを利用した平滑処理を実行することでスペクトル包絡Ｅc[n]を生成する。第１実施形態の非線形フィルタは、イプシロン（ε）分離型非線形フィルタである。イプシロン分離型非線形フィルタは、例えば以下の数式(1)および数式(2)で表現される。

数式(1)は、複数の係数ａ[k]を利用した非巡回型デジタルフィルタである。周波数領域の１個のスペクトル包絡はＭ個のケプストラム係数で表現される。具体的には、数式(1)の記号Ｖb[n]は、１個のスペクトル包絡Ｅb[n]をＭ個のケプストラム係数で表現するＭ次元のベクトルである。記号Ｖc[n]は、平滑化後の１個のスペクトル包絡Ｅc[n]をＭ個のケプストラム係数で表現するＭ次元のベクトルである。数式(1)の記号Ｋ_-は、第ｎ番目の解析時点の前方（過去）において第ｎ番目のスペクトル包絡Ｅb[n]の平滑化に利用される区間の長さを示す正数であり、記号Ｋ₊は、第ｎ番目の解析時点の後方（未来）において第ｎ番目のスペクトル包絡Ｅb[n]の平滑化に利用される区間の長さを示す正数である。数式(1)の記号Ｆ[k]は、数式(2)で表現される非線形関数である。

数式(1)の演算は、第ｎ番目のスペクトル包絡Ｅb[n]（Ｖb[n]）の周辺の複数のスペクトル包絡Ｅb[n-k]（Ｖb[n-k]）の各々に対応する係数ａ[k]を非線形関数Ｆ[k]に乗算して相互に加算する積和演算により第ｎ番目のスペクトル包絡Ｅc[n]（Ｖc[n]）を生成するフィルタ処理である。ベクトルＶb[n]で表現されるスペクトル包絡Ｅb[n]は第１スペクトル包絡の例示であり、ベクトルＶb[n-k]で表現されるスペクトル包絡Ｅb[n-k]は第２スペクトル包絡の例示である。また、数式(1)の演算の結果であるベクトルＶc[n]が表すスペクトル包絡Ｅc[n]は、出力スペクトル包絡の例示である。

数式(2)の記号Ｄ(Ｖb[n],Ｖb[n-k])は、第ｎ番目のスペクトル包絡Ｅb[n]と第(n-k)番目のスペクトル包絡Ｅb[n-k]との類似または相違の度合を評価するための指標（以下「類似指標」という）である。具体的には、以下の数式(3a)で表現される通り、ベクトルＶb[n]とベクトルＶb[n-k]とのノルム（距離）が類似指標Ｄ(Ｖb[n],Ｖb[n-k])の好例である。なお、数式(3a)の記号Ｔは転置を意味する。また、数式(3b)で表現される通り、ベクトルＶb[n]とベクトルＶb[n-k]との間で次元毎の要素の差分|Ｖb[n]_m−Ｖb[n-k]_m|を算定し（ｍ＝０〜M-1）、Ｍ個の差分|Ｖb[n]_m−Ｖb[n-k]_m|の最大値（max）を類似指標Ｄ(Ｖb[n],Ｖb[n-k])として利用することも可能である。なお、数式(3b)の記号Ｖb[n]_mは、ベクトルＶb[n]のＭ個の要素のうち第ｍ番目の要素（すなわち第ｍ次のケプストラム係数）を意味する。数式(3a)および数式(3b)から理解される通り、第１実施形態では、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]とが類似するほど類似指標Ｄ(Ｖb[n],Ｖb[n-k])は小さい数値となる。

前掲の数式(2)で表現される通り、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを下回る場合（すなわち、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]との類似を意味する数値である場合）には、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]との差分（Ｖb[n]−Ｖb[n-k]）が数式(1)の非線形関数Ｆ[k]として利用される。他方、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回る場合（すなわちスペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]との相違を意味する数値である場合）には、非線形関数Ｆ[k]は零ベクトルに設定される。すなわち、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回るスペクトル包絡Ｅb[n-k]は、数式(1)の積和演算の対象から除外される。したがって、数式(1)のイプシロン分離型非線形フィルタを利用した平滑処理は、時間軸上におけるスペクトル包絡Ｅb[n]の微細な変動を平滑化するとともに時間軸上の急峻な変動については平滑化を抑制するように作用する。なお、数式(1)のイプシロン分離型非線形フィルタは、処理前のスペクトル包絡Ｅb[n]と処理後のスペクトル包絡Ｅc[n]との差異|Ｖb[n]−Ｖc[n]|を所定の範囲内に抑制しながら時間的な平滑化を実現するフィルタであるとも換言される。

図４は、平滑処理部３４による平滑処理前のスペクトル包絡Ｅb[n]の時間変化と、数式(1)のイプシロン分離型非線形フィルタによる平滑処理後のスペクトル包絡Ｅc[n]の時間変化とを表すグラフである。図４では、第０次から第３次（ｍ＝０〜３）までのケプストラム係数の時間変化が図示されている。複数のスペクトル包絡Ｅb[n]の時系列を単純な時間平均（単純平均）により平滑化した場合のスペクトル包絡Ｅc[n]の時間変化が、図４には対比例として併記されている。また、図４には、音響信号Ｘが表す音声の音素の境界（縦線）が図示されている。

図４から理解される通り、第１実施形態および対比例の何れにおいても、時間軸上におけるスペクトル包絡Ｅb[n]の微細な変動は抑制される。しかし、対比例では、各音素の境界におけるスペクトル包絡Ｅc[n]の時間変化が、処理前のスペクトル包絡Ｅb[n]の時間変化と比較して抑制されて緩慢になる。したがって、対比例で生成されたスペクトル包絡Ｅc[n]の音声は、滑舌の悪い不自然な音声と聴感的に知覚される可能性がある。

対比例とは対照的に、イプシロン分離型非線形フィルタを利用した第１実施形態によれば、図４から確認できる通り、各音素の境界におけるスペクトル包絡Ｅc[n]の変化が、平滑処理前のスペクトル包絡Ｅb[n]の時間変化と同等に維持される。すなわち、第１実施形態によれば、平滑処理後のスペクトル包絡Ｅc[n]の急峻な時間変化を平滑処理前と同等に維持しながら（すなわち受聴者が知覚する滑舌を良好に維持しながら）、時間軸上におけるスペクトル包絡Ｅb[n]の微細な変動を有効に平滑化することが可能である。

ところで、図４から理解される通り、対比例では、平滑処理に起因した処理遅延がスペクトル包絡Ｅc[n]に顕著に発生する。すなわち、対比例で生成されるスペクトル包絡Ｅc[n]の時系列は処理前のスペクトル包絡Ｅb[n]に対して遅延した関係にある。対比例とは対照的に、イプシロン分離型非線形フィルタを利用した第１実施形態によれば、図４から確認できる通り、平滑処理部３４による平滑処理に起因した遅延が殆ど発生しないという利点もある。なお、平滑処理の処理遅延を低減するという観点からは、数式(1)の定数Ｋ₊を充分に小さい正数または零に設定した構成が好適である。

図２の信号合成部２６は、音響処理部２４が解析時点毎に生成したスペクトル包絡Ｅc[n]を利用して音響信号Ｘを調整することで音響信号Ｙを生成する。具体的には、信号合成部２６は、音響信号Ｘの周波数スペクトルＱ[n]が音響処理後のスペクトル包絡Ｅc[n]に整合するように音響信号Ｘを調整することで音響信号Ｙを生成する。すなわち、音響信号Ｘのスペクトル包絡Ｅa[n]が音響処理後のスペクトル包絡Ｅc[n]に変換される。

図２の制御処理部２８は、音響処理部２４による音響処理の度合を示す制御値Ｃa[n]を設定する。第１実施形態の制御処理部２８は、包絡変換部３２による声質変換の度合を示す前述の制御値Ｃa[n]を設定する。第１実施形態では、制御値Ｃa[n]が小さいほど声質変換が抑制される場合を想定する。

音響信号Ｘのうち有声子音が発音された期間または母音の音素が遷移する期間等の音量が相対的に小さい期間について、母音が定常的に維持される期間と同等の声質変換を実行すると、変換後の音声が滑舌の悪い不自然な音声と知覚される可能性がある。以上の事情を考慮して、第１実施形態の制御処理部２８は、音響信号Ｘのうちレベルが小さい期間については声質変換の度合が抑制されるように、制御値Ｃa[n]を設定する。図２に例示される通り、第１実施形態の制御処理部２８は、第１強度算定部４２と第２強度算定部４４と制御値設定部４６とを具備する。

図５は、第１強度算定部４２および第２強度算定部４４の動作の説明図である。図５に例示される通り、第１強度算定部４２は、音響信号Ｘのレベル（例えば音量，振幅またはパワー）の時間変化に追従する強度Ｌ1[n]（第１強度の例示）を解析時点毎に順次に算定する。第２強度算定部４４は、強度Ｌ1[n]と比較して高い追従性で音響信号Ｘのレベルの時間変化に追従する強度Ｌ2[n]（第２強度の例示）を解析時点毎に順次に算定する。強度Ｌ1[n]および強度Ｌ2[n]は、音響信号Ｘのレベルに関する数値である。以上の説明では音響信号Ｘのレベルに対する追従性に着目したが、音響信号Ｘを時定数τ1により平滑化することで第１強度算定部４２が強度Ｌ1[n]を算定し、時定数τ1を下回る時定数τ2（τ2＜τ1）により音響信号Ｘを平滑化することで第２強度算定部４４が強度Ｌ2[n]を算定する、と換言することも可能である。

図６は、第１強度算定部４２および第２強度算定部４４を例示する構成図である。第１強度算定部４２および第２強度算定部４４の各々が図６の構成を具備する。第１強度算定部４２は音響信号Ｘから強度Ｌ1[n]を算定し、第２強度算定部４４は音響信号Ｘから強度Ｌ2[n]を算定するが、図６では強度Ｌ1[n]および強度Ｌ2[n]を区別することなく便宜的に強度Ｌ[n]と表記した。

第１強度算定部４２および第２強度算定部４４の各々は、音響信号Ｘのレベルに追従する強度Ｌ[n]の時系列（すなわち音量の時間変化）を出力するエンベロープフォロワであり、図６に例示される通り、演算部５１と減算部５２と乗算部５３と乗算部５４と加算部５５と遅延部５６とを具備する。遅延部５６は、強度Ｌ[n]を遅延させる。演算部５１は、音響信号Ｘのレベルの絶対値|Ｘ|を算定し、減算部５２は、音響信号Ｘのレベルの絶対値|Ｘ|から遅延部５６による遅延後の強度Ｌ[n]を減算する。減算部５２が算定した差分値δ（δ＝|Ｘ|−Ｌ[n]）が正数である場合には乗算部５３が差分値δに係数γaを乗算し、差分値δが負数である場合には乗算部５４が差分値δに係数γbを乗算する。乗算部５３の出力と乗算部５４の出力と遅延部５６による遅延後の強度Ｌ[n]とを加算部５５が加算することで強度Ｌ[n]が算定される。第１強度算定部４２の時定数τ1と第２強度算定部４４の時定数τ2とは、係数γaおよび係数γbに応じた数値に設定される。

図５から理解される通り、音響信号Ｘのレベルが小さい期間では、強度Ｌ1[n]が強度Ｌ2[n]を上回り（Ｌ1[n]＞Ｌ2[n]）、音響信号Ｘのレベルが大きい期間では、強度Ｌ1[n]が強度Ｌ2[n]を下回る（Ｌ1[n]＜Ｌ2[n]）という傾向がある。以上の傾向を考慮して、第１実施形態の制御値設定部４６は、強度Ｌ1[n]が強度Ｌ2[n]を上回る場合の制御値Ｃa[n]が、強度Ｌ1[n]が強度Ｌ2[n]を下回る場合の制御値Ｃa[n]と比較して小さい数値（すなわち声質変化を抑制する数値）となるように、強度Ｌ1[n]および強度Ｌ2[n]に応じて制御値Ｃa[n]を設定する。

具体的には、制御値設定部４６は、以下の数式(4)の演算により制御値Ｃa[n]を算定する。

数式(4)の記号Ｌmaxは、強度Ｌ1[n]および強度Ｌ2[n]のうち大きい方の数値である。また、記号max(a,b)は、数値ａおよび数値ｂのうち大きい方を選択する最大値演算を意味する。数式(4)から理解される通り、強度Ｌ1[n]が強度Ｌ2[n]を下回る場合（音響信号Ｘのレベルが大きい場合）、両者間の差分(Ｌ1[n]−Ｌ2[n])は負数となるから、最大値演算では０が選択される。したがって、操作装置１４に対する操作で利用者が指定した指示値Ｃ0が制御値Ｃa[n]として設定される（Ｃa[n]＝Ｃ0）。他方、強度Ｌ1[n]が強度Ｌ2[n]を上回る場合（音響信号Ｘのレベルが小さい場合）、両者間の差分(Ｌ1[n]−Ｌ2[n])は正数となるから、最大値演算では差分(Ｌ1[n]−Ｌ2[n])が選択される。したがって、制御値Ｃa[n]は、１未満の正数（１−(Ｌ1[n]−Ｌ2[n])／Ｌmax）を指示値Ｃ0に乗算した数値に設定される。すなわち、制御値Ｃa[n]は、指示値Ｃ0を下回る数値に設定される（Ｃa[n]＜Ｃ0）。また、強度Ｌ1[n]が強度Ｌ2[n]と比較して大きいほど、制御値Ｃa[n]は小さい数値に設定される。以上の説明から理解される通り、音響信号Ｘのうちレベルが小さい期間について声質変換の度合が抑制されるように制御値Ｃa[n]が設定される。

以上に説明した通り、第１実施形態では、強度Ｌ1[n]と強度Ｌ2[n]との相違に応じて制御値Ｃa[n]が設定されるから、音響信号Ｘを強度に応じて区分するための閾値の設定を必要とせずに、音響処理（第１実施形態では声質変換）に適用される制御値Ｃa[n]を適切に設定することが可能である。第１実施形態では特に、強度Ｌ1[n]が強度Ｌ2[n]を上回る場合の制御値Ｃa[n]が、強度Ｌ1[n]が強度Ｌ2[n]を下回る場合の制御値Ｃa[n]と比較して、声質変換を抑制する数値に設定される。したがって、音量が小さい期間について声質変換が抑制された聴感的に自然な音声を生成することが可能である。

図７は、第１実施形態の制御装置１０が実行する処理のフローチャートである。例えば操作装置１４に対する利用者からの指示を契機として図７の処理が開始され、時間軸上の解析時点毎に反復される。

図７の処理を開始すると、制御処理部２８は、音響信号Ｘのレベルに追従する強度Ｌ1[n]と強度Ｌ2[n]との相違に応じて制御値Ｃa[n]を設定する（Ｓ1）。包絡特定部２２は、音響信号Ｘのスペクトル包絡Ｅa[n]を特定する（Ｓ2）。包絡変換部３２は、制御処理部２８が設定した制御値Ｃa[n]を適用した声質変換により、包絡特定部２２が特定したスペクトル包絡Ｅa[n]を変形したスペクトル包絡Ｅb[n]を生成する（Ｓ3）。平滑処理部３４は、数式(1)および数式(2)で表現されるイプシロン分離型非線形フィルタによるフィルタ処理をスペクトル包絡Ｅb[n]に対して実行することでスペクトル包絡Ｅc[n]を生成する（Ｓ4）。信号合成部２６は、音響処理部２４が生成したスペクトル包絡Ｅc[n]を利用して音響信号Ｘを調整することで音響信号Ｙを生成する（Ｓ5）。

＜第２実施形態＞
本発明の第２実施形態について説明する。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、包絡変換部３２による声質変換の度合を制御するための制御値Ｃa[n]を制御処理部２８が設定した。第２実施形態の制御処理部２８は、イプシロン分離型非線形フィルタに適用される閾値εを制御するための制御値Ｃb[n]を設定する。すなわち、第２実施形態の閾値εは可変値である。

前掲の数式(2)から理解される通り、閾値εが小さいほど、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回る場合が多くなる。前述の通り、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回るスペクトル包絡Ｅb[n-k]は数式(1)の積和演算の対象から除外される。したがって、閾値εが小さいほど、平滑処理後のスペクトル包絡Ｅc[n]が平滑処理前のスペクトル包絡Ｅb[n]に近い形状となる。すなわち、閾値εが小さいほど平滑処理の度合が低減される。

他方、音響信号Ｘのうちレベルが小さい期間では、スペクトル包絡Ｅb[n]の微細な変動は聴感的に知覚され難いから、微細な変動の抑制を目的とした平滑処理の度合は抑制することが望ましい。以上の事情を考慮して、第２実施形態の制御処理部２８は、音響信号Ｘのうちレベルが小さい期間については、非線形フィルタを利用した平滑処理の度合が抑制されるように、制御処理部２８が制御値Ｃb[n]を設定する。

具体的には、制御処理部２８は、音響信号Ｘのレベルに追従する強度Ｌ1[n]と強度Ｌ2[n]との相違に応じて制御値Ｃb[n]を設定する。例えば前掲の数式(4)と同様に、強度Ｌ1[n]が強度Ｌ2[n]を上回る場合（レベルが小さい期間）の制御値Ｃb[n]が、強度Ｌ1[n]が強度Ｌ2[n]を下回る場合の制御値Ｃb[n]と比較して小さい数値となるように、強度Ｌ1[n]および強度Ｌ2[n]に応じた制御値Ｃb[n]を設定する。制御処理部２８は、制御値Ｃb[n]を閾値εとして設定する。したがって、音響信号Ｘのうちレベルが小さい期間では、閾値εが小さい数値に設定されることで平滑処理が抑制される。他方、音響信号Ｘのうちレベルが大きい期間では、閾値εが大きい数値に設定されることで充分な平滑処理が実行される。なお、制御値Ｃb[n]に対する所定の演算により閾値εを算定することも可能である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では特に、強度Ｌ1[n]が強度Ｌ2[n]を上回る場合の制御値Ｃb[n]が、強度Ｌ1[n]が強度Ｌ2[n]を下回る場合の制御値Ｃb[n]と比較して、平滑処理を抑制する数値に設定される。したがって、レベルが小さい期間について平滑処理が抑制された聴感的に自然な音声を生成することが可能である。

なお、第２実施形態では平滑処理の制御に着目したが、第１実施形態で例示した声質変換の制御と第２実施形態で例示した平滑処理の制御との双方を採用することも可能である。以上の説明から理解される通り、制御処理部２８は、音響処理部２４による音響処理を制御する要素として包括的に表現される。音響処理は、包絡変換部３２による声質変換と平滑処理部３４による平滑処理とを包含する。

＜第３実施形態＞
第１実施形態では、音響信号Ｘの全期間にわたり前掲の数式(4)の演算により制御値Ｃa[n]を算定した。しかし、音響信号Ｘのうち有声音が優勢に存在する期間（以下「有声期間」という）と、有声期間以外の期間（以下「非有声期間」という）とでは音響特性が顕著に相違するという傾向がある。したがって、有声期間と非有声期間とでは音響処理の制御（すなわち制御値Ｃa[n]の設定）を相違させることが望ましい。以上の事情を考慮して、第３実施形態では、有声期間と非有声期間とで制御値Ｃa[n]の設定を相違させる。なお、非有声期間は、例えば、無声音が存在する無声期間と、有意な音量が観測されない無音期間とを包含する。

具体的には、第３実施形態における制御処理部２８の制御値設定部４６は、音響信号Ｘを有声期間と非有声期間とに時間軸上で区分する。有声期間と非有声期間との区分には公知の技術が任意に採用され得る。例えば、制御値設定部４６は、音響信号Ｘのうち明確な調波構造が観測される期間（例えば基本周波数を明確に特定できる期間）を有声期間として画定し、調波構造が明確に特定されない無声期間と音量が閾値を下回る無音期間とを、非有声期間として画定する。そして、制御値設定部４６は、有声期間と非有声期間とを区別した以下の数式(5)の演算により制御値Ｃa[n]を算定する。

数式(5)から理解される通り、第３実施形態の制御処理部２８（制御値設定部４６）は、音響信号Ｘの有声期間については、第１実施形態と同様に、強度Ｌ1[n]と強度Ｌ2[n]との相違に応じた制御値Ｃa[n]を設定する。包絡変換部３２は、制御処理部２８が設定した制御値Ｃa[n]に応じた声質変換を実行する。他方、音響信号Ｘの非有声期間について、制御処理部２８（制御値設定部４６）は、制御値Ｃa[n]をゼロに設定する。したがって、非有声期間については包絡変換部３２による声質変換が省略される。

第３実施形態においても第１実施形態と同様の効果が実現される。第３実施形態では特に、非有声期間について声質変換が省略されるから、有声期間と非有声期間とを区別せずに一律に声質変換を実行する構成と比較して聴感的に自然な音を生成できるという利点がある。

なお、以上の説明では、声質変換に関する制御値Ｃa[n]の設定を有声期間と非有声期間とで区別する構成を例示したが、第２実施形態で例示した平滑処理の制御値Ｃb[n]（閾値ε）の設定についても同様に、有声期間と非有声期間とで区別することが可能である。

＜変形例＞
以上に例示した態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、前掲の数式(2)の通り、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回る場合に非線形関数Ｆ[k]を零ベクトルに設定したが、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回る場合の処理は以上の例示に限定されない。具体的には、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]との相違(Ｖb[n]−Ｖb[n-k])を抑制した結果を非線形関数Ｆ[k]として利用することも可能である。例えば、充分に小さい正数（例えば０.０１）を相違(Ｖb[n]−Ｖb[b-k])に乗算した結果が非線形関数Ｆ[k]として利用される。以上の例示から理解される通り、平滑処理部３４は、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回るスペクトル包絡Ｅb[n-k]について、当該スペクトル包絡Ｅb[n-k]を積和演算の対象から除外し、または、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]との差分(Ｖb[n]−Ｖb[n-k])を抑制した結果を非線形関数Ｆ[k]として利用する要素として包括的に表現される。

（２）第３実施形態では、音響信号Ｘの非有声期間について声質変換を省略したが、音響信号Ｘの非有声期間において、声質変換を有声期間と比較して抑制することも可能である。例えば、音響信号Ｘの非有声期間について、制御処理部２８は、充分に小さい正数（例えば０.０１）を指示値Ｃ0に乗算することで制御値Ｃa[n]を算定する。包絡変換部３２は、有声期間だけでなく非有声期間についても、制御値Ｃa[n]を利用した声質変換を実行する。第２実施形態の制御値Ｃb[n]の設定にも同様の構成が採用され得る。以上の例示から理解される通り、第３実施形態は、有声期間について、強度Ｌ1[n]と強度Ｌ2[n]との相違に応じた制御値Ｃa[n]を適用した音響処理（例えば声質変換または平滑処理）を実行し、非有声期間については音響処理を抑制または省略する形態として包括的に表現される。

（３）前述の各形態では、音響処理（声質変換および平滑処理）と制御値（Ｃa[n]，Ｃb[n]）の設定とを解析時点毎に実行したが、音響処理の周期と制御値の設定の周期とを相違させることも可能である。例えば、相前後する解析時点の間隔と比較して長い周期で制御処理部２８が制御値（Ｃa[n]，Ｃb[n]）を更新することも可能である。

（４）前述の各形態では、包絡変換部３２による声質変換の実行後に平滑処理部３４が平滑処理を実行する構成を例示したが、声質変換と平滑処理との順序は逆転され得る。すなわち、平滑処理部３４による平滑処理の実行後に包絡変換部３２が声質変換を実行することも可能である。

（５）前掲の数式(2)における類似指標Ｄ(Ｖb[n],Ｖb[n-k])の算定方法は、前述の各形態の例示に限定されない。例えば、前述の各形態では、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]とが類似するほど類似指標Ｄ(Ｖb[n],Ｖb[n-k])が小さい数値となる態様（以下「態様Ａ」という）を例示したが、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]とが類似するほど類似指標Ｄ(Ｖb[n],Ｖb[n-k])が大きい数値となるように類似指標Ｄ(Ｖb[n],Ｖb[n-k])を算定する態様（以下「態様Ｂ」という）も想定される。例えば、態様Ｂでは、スペクトル包絡Ｅb[n]とスペクトル包絡Ｅb[n-k]との相関が類似指標Ｄ(Ｖb[n],Ｖb[n-k])として算定される。態様Ｂでは、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを上回る場合に、両者間の差分（Ｖb[n]−Ｖb[n-k]）が非線形関数Ｆ[k]として利用され、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εを下回る場合にスペクトル包絡Ｅb[n-k]が数式(1)の積和演算の対象から除外される。

以上の説明から理解される通り、イプシロン分離型非線形フィルタにおいては、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εに対して類似側にあるスペクトル包絡Ｅb[n-k]については、差分（Ｖb[n]−Ｖb[n-k]）が非線形関数Ｆ[k]として利用される一方、類似指標Ｄ(Ｖb[n],Ｖb[n-k])が閾値εに対して相違側（非類似側）にあるスペクトル包絡Ｅb[n-k]については、当該スペクトル包絡Ｅb[n-k]が積和演算の対象から除外される。閾値εに対して「類似側」とは、態様Ａでは、閾値εを下回る範囲を意味し、態様Ｂでは、閾値εを上回る範囲を意味する。また、閾値εに対して「相違側」とは、態様Ａでは、閾値εを上回る範囲を意味し、態様Ｂでは、閾値εを下回る範囲を意味する。

（６）移動体通信網またはインターネット等の通信網を介して端末装置（例えば携帯電話機またはスマートフォン）と通信するサーバ装置により音響処理装置１００を実現することも可能である。例えば、音響処理装置１００は、端末装置から通信網を介して受信した音響信号Ｘに対する処理で音響信号Ｙを生成して端末装置に送信する。

（７）前述の各形態で例示した通り、音響処理装置１００は、制御装置１０とプログラムとの協働で実現される。本発明の好適な態様に係るプログラムは、音響信号のレベルの時間変化に追従する第１強度を算定する第１強度算定部、前記第１強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第２強度を算定する第２強度算定部、前記第１強度と前記第２強度との相違に応じて制御値を設定する制御値設定部、および、前記制御値を適用した音響処理を前記音響信号に対して実行する音響処理部としてコンピュータを機能させる。以上に例示したプログラムは、例えば、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。

記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、「非一過性の記録媒体」とは、一過性の伝搬信号（transitory, propagating signal）を除く全てのコンピュータ読取可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに配信することも可能である。

（８）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
本発明の好適な態様（態様１）において、コンピュータ（単体のコンピュータまたは複数のコンピュータで構成されるコンピュータシステム）が、音響信号のレベルの時間変化に追従する第１強度を算定し、前記第１強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第２強度を算定し、前記第１強度と前記第２強度との相違に応じて制御値を設定し、前記制御値を適用した音響処理を前記音響信号に対して実行する。以上の態様では、第１強度と第２強度との相違に応じて音響処理の制御値が設定されるから、音響信号を強度に応じて区分するための閾値の設定を必要とせずに、音響処理の制御値を適切に設定することが可能である。
＜態様２＞
態様１の好適例（態様２）では、前記制御値の設定において、前記第１強度が前記第２強度を上回る場合の制御値が、前記第１強度が前記第２強度を下回る場合の制御値と比較して、前記音響処理の度合を抑制する数値となるように、前記制御値を設定する。音響信号のうちレベルが小さい期間では第１強度が第２強度を下回るという傾向を考慮すると、以上の態様によれば、音響信号のうちレベルが小さい期間について音響処理の度合を抑制することが可能である。
＜態様３＞
態様１または態様２の好適例（態様３）において、前記音響信号を有声期間と非有声期間とに区分し、前記有声期間については、前記第１強度と前記第２強度との相違に応じた制御値を適用した前記音響処理を実行し、前記非有声期間については前記音響処理を抑制または省略する。以上の態様では、有声期間については第１強度と第２強度との相違に応じた制御値を適用した音響処理が実行される一方、非有声期間（例えば無声期間または無音期間）については音響処理が抑制または省略される。したがって、有声期間と非有声期間とを区別せずに一律に音響処理を実行する場合と比較して、聴感的に自然な音を生成することが可能である。
＜態様４＞
態様１から態様３の何れかの好適例（態様４）において、前記音響処理は、前記制御値に応じた閾値を適用したイプシロン分離型非線形フィルタによるフィルタ処理である。以上の態様では、イプシロン分離型非線形フィルタを利用したフィルタ処理が音響信号のスペクトル包絡に対して実行される。したがって、スペクトル包絡の急峻な時間変化を平滑化前と同等に維持しながら、時間軸上におけるスペクトル包絡の微細な変動を有効に平滑化することが可能である。
＜態様５＞
本発明の好適な態様（態様５）に係る音響処理装置は、音響信号のレベルの時間変化に追従する第１強度を算定する第１強度算定部と、前記第１強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第２強度を算定する第２強度算定部と、前記第１強度と前記第２強度との相違に応じて制御値を設定する制御値設定部と、前記制御値を適用した音響処理を前記音響信号に対して実行する音響処理部とを具備する。以上の態様では、第１強度と第２強度との相違に応じて音響処理の制御値が設定されるから、音響信号を強度に応じて区分するための閾値の設定を必要とせずに、音響処理の制御値を適切に設定することが可能である。

１００…音響処理装置、１０…制御装置、１２…記憶装置、１４…操作装置、１６…信号供給装置、１８…放音装置、２２…包絡特定部、２４…音響処理部、２６…信号合成部、２８…制御処理部、３２…包絡変換部、３４…平滑処理部、４２…第１強度算定部、４４…第２強度算定部、４６…制御値設定部。

Claims

コンピュータが、

音響信号のレベルの時間変化に追従する第１強度を算定し、

前記第１強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第２強度を算定し、

前記第１強度と前記第２強度との相違に応じて制御値を設定し、

前記音響信号が表す音声の声質を変換する声質変換と時間軸上の平滑処理との少なくとも一方を含む音響処理を前記音響信号に対して実行し、前記制御値に応じて前記音響処理を抑制する

音響処理方法。
前記制御値の設定においては、前記音響信号のうちレベルが小さい期間について前記音響処理の度合が抑制されるように、前記制御値を設定する

請求項１の音響処理方法。
前記制御値の設定においては、前記第１強度が前記第２強度を上回る場合の制御値が、前記第１強度が前記第２強度を下回る場合の制御値と比較して、前記音響処理の度合を抑制する数値となるように、前記制御値を設定する

請求項２の音響処理方法。
前記音響信号を有声期間と非有声期間とに区分し、

前記有声期間については、前記第１強度と前記第２強度との相違に応じた制御値を適用した前記音響処理を実行し、前記非有声期間については前記音響処理を抑制または省略する

請求項１から請求項３の何れかの音響処理方法。
前記平滑処理は、前記制御値に応じた閾値を適用したイプシロン分離型非線形フィルタによるフィルタ処理である

請求項１から請求項４の何れかの音響処理方法。
音響信号のレベルの時間変化に追従する第１強度を算定する第１強度算定部と、

前記第１強度よりも高い追従性で前記音響信号のレベルの時間変化に追従する第２強度を算定する第２強度算定部と、

前記第１強度と前記第２強度との相違に応じて制御値を設定する制御値設定部と、

前記音響信号が表す音声の声質を変換する声質変換と時間軸上の平滑処理との少なくとも一方を含む音響処理を前記音響信号に対して実行し、前記制御値に応じて前記音響処理を抑制する音響処理部と

を具備する音響処理装置。