JP5928489B2

JP5928489B2 - 音声処理装置およびプログラム

Info

Publication number: JP5928489B2
Application number: JP2014001682A
Authority: JP
Inventors: 吉岡　靖雄; 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-01-08
Filing date: 2014-01-08
Publication date: 2016-06-01
Anticipated expiration: 2029-02-17
Also published as: JP2014059588A

Description

本発明は、音声信号を処理する技術に関する。

音声信号の周波数スペクトルを加工することで様々な効果を付与する技術が従来から提案されている。例えば特許文献１には、音声信号の周波数スペクトルにおける各局所的ピークの間隔内に所定の成分（例えば正弦波成分）を付加することで、軋み音（CREAK）や唸り音（GROWL）の効果を付与する効果付与装置が開示されている。

特開２００６−１０９０６号公報

特許文献１の技術によれば、音声信号に軋み音や唸り音の特性を付与することが可能であるが、現実の応用の場面では更に多様な種類の音声を生成することが要求される。例えば、喉を詰めて発声したような音声（以下「喉詰声」という）の特性を音声信号に付与できれば、いわゆるダミ声のような独特の印象の音声や喉歌の歌唱音を生成することが可能となる。以上の事情を考慮して、本発明は、喉詰声の特性を音声信号に付与することを目的とする。

以上の課題を解決するために、本発明に係る音声処理装置は、音声信号の周波数スペクトルから局所的ピークを検出するピーク検出手段と、局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成する成分生成手段と、周波数スペクトルに効果成分を付加する特性付与手段とを具備する。以上の構成においては、局所的ピークの位相を変化させた位相の効果成分が周波数スペクトルのうち局所的ピークの周波数に付加されるから、声帯と仮声帯とが略同等の周期のもとで別位相で振動する状態に起因した喉詰声の特性を音声信号（周波数スペクトル）に付加することが可能である。

本発明の好適な態様において、ピーク検出手段は、周波数スペクトルから複数の局所的ピークを特定し、成分生成手段は、複数の局所的ピークの各々について、当該局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成し、特性付与手段は、周波数スペクトルに複数の効果成分を付加する。以上の態様においては、音声信号の周波数スペクトルに複数の効果成分が付加されるから、例えば１個の効果成分のみを音声信号の周波数スペクトルに付加する構成と比較すると、現実の喉詰声に近い特性を音声信号に付加できるという利点がある。

本発明の好適な態様において、成分生成手段は、効果成分の振幅を周波数スペクトルの局所的ピークの振幅に応じて設定する。例えば、効果成分の振幅は、周波数スペクトルの局所的ピークの振幅や、局所的ピークの振幅から所定の演算で算定した数値に設定される。以上の構成によれば、効果成分の振幅が局所的ピークの振幅に応じて設定されるから、効果成分の付与の前後にわたる周波数スペクトルの特性（特にフォルマントの特性や調波構造）の変化を低減できる（効果成分の付与前の特性を高度に維持できる）という利点がある。

本発明の好適な態様において、成分生成手段は、局所的ピークの位相をπだけ変化させることで効果成分の位相を設定する。以上の態様においては、声帯と仮声帯とが略逆位相で振動する状態に起因した典型的な喉詰声の特性を付与できるという利点がある。なお、局所的ピークの位相をπだけ変化させることで効果成分の位相を設定する構成は、成分生成手段が局所的ピークの位相をπだけ変化させる処理のみを実行する構成のほか、局所的ピークの位相をπだけ変化させる処理に加えて別の方法で位相を変化させる処理（例えば、経時的に変動する調整値に応じて局所的ピークの位相を変化させる処理）を実行する構成も包含する。

本発明の好適な態様において、成分生成手段は、経時的に変動する調整値に応じて局所的ピークの位相を変化させることで、効果成分の位相を設定する。以上の態様においては、仮声帯の振動の周期が経時的に変動するという現象に起因した喉詰声の特性を忠実に再現できる。さらに好適な態様の音声処理装置は、乱数の範囲を可変に設定する制御手段（例えば第３実施形態の制御部６４）を具備し、成分生成手段は、制御手段が設定した範囲内で発生した乱数から調整値を算定する。以上の好適な態様においては、調整値（更には効果成分の位相）の基礎となる乱数の範囲が可変に設定されるから、音声信号に付加される喉詰声の特性の度合を可変に制御できるという利点がある。例えば、利用者からの指示に応じて制御手段が乱数の範囲を可変に設定する構成によれば、喉詰声の特性の度合を利用者が適宜に調整できるという格別の効果が実現される。

本発明の好適な態様に係る音声処理装置は、混合比を可変に設定する制御手段（例えば図１や図８の制御部６４）を具備し、特性付与手段は、周波数スペクトルと効果成分とを当該混合比で混合する。以上の態様においては、周波数スペクトルと効果成分との混合比が可変に設定されるから、音声信号に付加される喉詰声の特性の度合を可変に制御できるという利点がある。例えば、利用者からの指示に応じて制御手段が混合比を可変に設定する構成（例えば後述の第１実施形態）によれば、喉詰声の特性の度合を利用者が適宜に調整できるという効果が実現される。また、音声信号の特性（例えば音量や音高）に応じて制御手段が混合比を可変に設定する構成（例えば後述の第４実施形態）によれば、音声信号に付加される喉詰声の程度を、音声信号の特性にとって適切な度合に自動的に（すなわち、利用者からの指示を必要とせずに）制御できるという利点がある。

また、以上の各態様に係る音声処理装置は、音声信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号の周波数スペクトルから局所的ピークを検出するピーク検出処理と、局所的ピークの位相を変化させた位相に設定されるとともに当該局所的ピークの周波数に位置する効果成分を生成する成分生成処理と、周波数スペクトルに効果成分を付加する特性付与処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音声処理装置のブロック図である。周波数スペクトルと特性スペクトルとの関係を示す概念図である。声帯の振動と仮声帯の振動との関係を示す概念図である。生成処理部のブロック図である。特性付与部のブロック図である。本発明の第２実施形態における周波数スペクトルと付加スペクトルとの関係を示す概念図である。位相の変化を説明するための概念図である。本発明の第４実施形態に係る音声処理装置のブロック図である。音声信号の音量と調整部のゲインとの関係を示すグラフである。音声信号のピッチと調整部のゲインとの関係を示すグラフである。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００のブロック図である。図１に示すように、音声処理装置１００には、信号供給装置１２と放音機器１４と入力装置１６とが接続される。信号供給装置１２は、音声の波形を表す音声信号ＶINを音声処理装置１００に供給する。例えば、周囲の音声を収音して音声信号ＶINを生成する収音機器や、記録媒体（例えば光ディスク）から音声信号ＶINを取得する再生装置や、通信網から音声信号ＶINを受信する通信装置が、信号供給装置１２として利用される。音声信号ＶINは、発声者の声帯の振動に主に由来する音声（すなわち、仮声帯の振動に起因した成分が少ない音声）の波形を表す。

音声処理装置１００は、喉詰声の特性を音声信号ＶINに付与した音声信号ＶOUTを生成する装置（効果付与装置）である。すなわち、音声信号ＶINの音声は喉詰声（ダミ声）に変換される。喉詰声は、発声時に喉を詰めることで声帯とともに仮声帯を振動させたときの音声である。音声処理装置１００は、仮声帯の振動の特性（後述の付加スペクトルＥ）を音声信号ＶINに付加することで音声信号ＶOUTを生成する。音声処理装置１００が生成した音声信号ＶOUTは、放音機器（例えばスピーカやヘッドホン）１４に供給されることで音波として再生される。入力装置１６は、音声処理装置１００に対する指示の入力のために利用者が操作する操作子で構成される。

図１に示すように、音声処理装置１００は、演算処理装置２２と記憶装置２４とで構成されるコンピュータシステムである。記憶装置２４は、演算処理装置２２が実行するプログラム２６や演算処理装置２２が使用するデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置２４として任意に採用される。

演算処理装置２２は、記憶装置２４に格納されたプログラム２６を実行することで、音声信号ＶINから音声信号ＶOUTを生成するための複数の機能（周波数分析部３２，ピーク検出部３４，成分生成部４０，特性付与部５０，逆変換部６２，制御部６４）を実現する。なお、演算処理装置２２の各要素を複数の装置（集積回路）に分散的に搭載した構成や、音声信号ＶINの処理に専用される電子回路（ＤＳＰ）が各要素を実現する構成も採用される。

図１の周波数分析部３２は、音声信号ＶINを時間軸上で区分した複数のフレームの各々について周波数スペクトルＦ（振幅スペクトルおよび位相スペクトル）を生成する。周波数スペクトルＦの生成には、高速フーリエ変換などの公知の技術が任意に採用される。図２に示すように、各フレームの周波数スペクトルＦのうち基音と各倍音とに対応した周波数ｆ1〜ｆnには、振幅（強度）が局所的に極大となるｎ個のピーク（以下「局所的ピーク」という）Ｐ1〜Ｐnが存在する。音声信号ＶINの音声は、仮声帯の振動に由来した成分が少ない音声（非喉詰声）であるから、周波数スペクトルＦの主要な成分は、発声者の声帯の振動に由来する。

図１のピーク検出部３４は、各フレームの周波数スペクトルＦからｎ個の局所的ピークＰ1〜Ｐnを検出する。更に詳述すると、ピーク検出部３４は、図２に示すように、局所的ピークＰk（ｋ＝１〜ｎ）が存在する周波数ｆkと、当該周波数ｆkにおける振幅Ａ(fk)および位相θ(fk)とを、ｎ個の局所的ピークＰ1〜Ｐnの各々について特定する。局所的ピークＰkの検出には公知の技術が任意に採用される。

図１の成分生成部４０は、音声信号ＶINに付加する特性（効果）を表すスペクトル（以下「付加スペクトル」という）Ｅをピーク検出部３４による検出の結果からフレーム毎に生成する。具体的には、付加スペクトルＥは、喉詰声の発声時における仮声帯の振動を模擬したスペクトルに相当する。

図３は、喉詰声の発声時における声帯の振動および仮声帯の振動の波形図である。図３から理解されるように、喉詰声の発声時には、仮声帯の振動の周期は声帯の振動と略一致するが、仮声帯の振動の位相は声帯の振動とは相違することが観察される。具体的には、仮声帯は、声帯の振動とは略逆位相（位相差π）で振動する。成分生成部４０は、仮声帯の以上の特性が模擬されるように付加スペクトルＥを生成する。

図２に示すように、付加スペクトルＥは、各局所的ピークＰkに対応するｎ個の効果成分Ｃ1〜Ｃnで構成される。喉詰声の発声時に仮声帯と声帯とが略同等の周期で振動することが模擬されるように、第ｋ番目の効果成分Ｃkは、周波数スペクトルＦの局所的ピークＰkと同じ周波数ｆkに配置される。また、効果成分Ｃkの振幅ａ(fk)は、周波数スペクトルＦのうち周波数ｆkにおける振幅Ａ(fk)（すなわち、局所的ピークＰkの極大点の振幅）に設定される。他方、効果成分Ｃkの位相φ(fk)は、局所的ピークＰkにおける位相θ(fk)を変化させた数値に設定される。具体的には、喉詰声の発声時に仮声帯と声帯とが略逆位相で振動することが模擬されるように、効果成分Ｃkの位相φ(fk)は、局所的ピークＰkの位相θ(fk)をπ（rad）だけ変化させた位相と略一致する。

図４は、成分生成部４０の具体的なブロック図である。図４に示すように、成分生成部４０は、乱数発生部４２と位相設定部４４と生成処理部４６とを含んで構成される。乱数発生部４２は、所定の範囲内の乱数λ（例えば−0.05≦λ≦＋0.05）を音声信号ＶINのフレーム毎に順次に発生する。なお、乱数λの発生の周期は任意に変更される。例えば、乱数発生部４２は、複数のフレームを単位として乱数λを発生し得る。

位相設定部４４は、効果成分Ｃkの位相φ(fk)をｎ個の周波数ｆ1〜ｆnの各々について設定する。具体的には、位相設定部４４は、周波数スペクトルＦにおける局所的ピークＰkの位相θ(fk)について以下の数式(1)の演算を実行することで効果成分Ｃkの位相φ(fk)を算定する。
φ(fk)＝θ(fk)＋Ｘ(fk)＋π ……(1)
数式(1)から理解されるように、効果成分Ｃkの位相φ(fk)は、局所的ピークＰkの位相θ(fk)を、調整値Ｘ(fk)とπとの加算値だけ変化させた位相に相当する。位相θ(fk)に対するπ（rad）の加算が、声帯の振動（位相θ(fk)）を逆位相に変化させる（仮声帯の振動の位相を模擬する）ことに相当する。

ところで、仮声帯の振動は声帯の振動と比較して不安定である。したがって、仮声帯の振動の周期は完全には一定ではなく、声帯の振動のピッチ周期（基本周波数に対応する周期）Ｔを中心として不規則に変動する。数式(1)の調整値Ｘ(fk)は、仮声帯の位相（周期）の変動（揺れ）を模擬するための変数である。位相設定部４４は、例えば以下の数式(2a)の演算を実行することで調整値Ｘ(fk)を算定する。数式(2a)の負号（−）は正号（＋）に変更され得る。
Ｘ(fk)＝−Ｄ・２π・ｆk ……(2a)

数式(2a)の変数Ｄは、仮声帯の振動の周期（前述のように刻々と変化する）を意味する。位相設定部４４は、乱数発生部４２が発生する乱数λと音声信号ＶINのピッチ（基本周波数）ＰTとについて以下の数式(2b)の演算を実行することで数式(2a)の変数Ｄを算定する。なお、ピッチＰTの検出には公知の技術が任意に採用されるが、例えば、周波数スペクトルＦのうち局所的ピークＰ1の周波数（基本周波数）ｆ1をピッチＰT（ＰT＝１／Ｔ）として利用できる。
Ｄ＝（１＋λ）／ＰT ……(2b)
数式(2a)および数式(2b)から理解されるように、調整値Ｘ(fk)は、音声信号ＶINのピッチ周期Ｔに対応する基準値（Ｔ・２π・ｆk）を中心とする範囲内で乱数λに応じて刻々と変動する。

図４の生成処理部４６は、位相設定部４４が設定した位相φ(fk)とピーク検出部３４が特定した振幅Ａ(fk)（ａ(fk)）とを有するスペクトル成分を効果成分Ｃkとして生成し、ｎ個の効果成分Ｃ1〜Ｃnを周波数ｆ1〜ｆnに配置することで付加スペクトルＥを設定する。例えば、位相φ(fk)および振幅ａ(fk)の正弦波のスペクトル成分が効果成分Ｃkとして好適に利用される。ただし、効果成分Ｃkの生成に利用されるスペクトル成分の種類は任意である。例えば、任意の周期波形（正弦波，三角波，鋸歯状波，矩形波など）のスペクトル成分や、事前に収録された音声のスペクトル成分が効果成分Ｃkの生成に利用され得る。

図１の特性付与部５０は、周波数分析部３２が各フレームについて生成する周波数スペクトルＦに、成分生成部４０が当該フレームについて生成する付加スペクトルＥを付加することで、出力スペクトルＧを生成する。周波数スペクトルＦは声帯の振動に由来したスペクトルであり、付加スペクトルＥは仮声帯の振動を模擬したスペクトルであるから、両者を混合した出力スペクトルＧは、声帯および仮声帯の双方の振動で発生する喉詰声のスペクトルに相当する。

図５は、特性付与部５０の具体的なブロック図である。図５に示すように、特性付与部５０は、調整部５２と合成部５４とを含んで構成される。調整部５２は、付加スペクトルＥにゲインηを乗算することで各効果成分Ｃkの強度（周波数スペクトルＦに対する付加スペクトルＥの相対的な強度）を調整する。合成部５４は、周波数分析部３２が生成した周波数スペクトルＦと調整部５２による調整後の付加スペクトルＥ（効果成分Ｃ1〜Ｃn）とを加算することで出力スペクトルＧを生成する。図１の制御部６４は、入力装置１６に対する利用者からの指示に応じて調整部５２のゲインηを可変に制御する。したがって、利用者からの指示に応じた混合比（ゲインη）で周波数スペクトルＦと付加スペクトルＥとが混合される。

図１の逆変換部６２は、特性付与部５０が生成した各フレームの出力スペクトルＧを逆フーリエ変換で時間領域の信号に変換し、各フレームの変換後の信号を時間軸上で相互に連結することで音声信号ＶOUTを生成する。音声信号ＶOUTは放音機器１４に出力される。したがって、音声信号ＶINの音声を変換した喉詰声が放音機器１４から音波として再生される。

以上の形態においては、音声信号ＶINの局所的ピークＰkの位相θ(fk)を変化させた位相φ(fk)の効果成分Ｃk（Ｃ1〜Ｃn）が周波数スペクトルＦのうち局所的ピークＰkの周波数ｆkに付加されるから、声帯と仮声帯とが略同等の周期のもとで別位相（典型的には逆位相）で振動する状態に起因した喉詰声を忠実に再現することが可能である。特に、局所的ピークＰkの位相θ(fk)をπだけ変化させる（数式(1)）ことで効果成分Ｃkの位相φ(fk)が設定されるから、仮声帯が声帯と逆位相で振動する典型的な喉詰声を生成できる。さらに、乱数λから算定される調整値Ｘ(fk)に応じて効果成分Ｃkの位相φ(fk)が刻々と変動するから、仮声帯の振動の周期が不規則に変動するという現象も模擬した自然な喉詰声を生成できるという利点もある。

また、周波数スペクトルＦと付加スペクトルＥとの混合比（ゲインη）が利用者からの指示に応じて可変に制御されるから、再生音における喉詰声の特性の度合（喉詰声らしさ）を利用者が適宜に調整できるという利点がある。例えば、調整部５２のゲインηを高目に設定するほど、再生音における喉詰声の特性（すなわち、受聴者が再生音から知覚する喉の詰まり具合）が強調されるといった具合である。

＜Ｂ：第２実施形態＞
本発明の第２実施形態について説明する。第１実施形態では、付加スペクトルＥの効果成分Ｃkとして正弦波のスペクトル成分を利用した。第２実施形態においては、周波数スペクトルＦから抽出されるスペクトル成分を効果成分Ｃkとして利用する。なお、以下の各形態において作用や機能が第１実施形態と同様である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

周波数スペクトルＦのｎ個の局所的ピークＰ1〜Ｐnを検出すると、ピーク検出部３４は、図６に示すように、周波数スペクトルＦを局所的ピークＰk毎にｎ個の成分（以下「単位成分」という）Ｒ1〜Ｒnに区分する。単位成分Ｒkは、局所的ピークＰkの周波数ｆkと当該周波数ｆkの前後の周波数とを含む周波数帯域内のスペクトル成分である。例えば、周波数軸上で隣合う２個の局所的ピークＰの中点を境界として各単位成分Ｒkが画定される。

成分生成部４０は、周波数スペクトルＦの単位成分Ｒkから付加スペクトルＥの効果成分Ｃk（Ｃ1〜Ｃn）を生成する。図７の部分(A)は、単位成分Ｒkの位相スペクトルに相当し、図７の部分(B)は、効果成分Ｃkの位相スペクトルに相当する。図７の部分(B)には、図７の部分(A)の位相スペクトルが破線で併記されている。図７に示すように、成分生成部４０は、単位成分Ｒkの各周波数における位相（局所的ピークＰkの位相θ(fk)のほかに局所的ピークＰkの前後の帯域内の位相を含む）に対し、位相の反転を意味するπと数式(2a)の調整値Ｘ(fk)とを加算することで、効果成分Ｃkを生成する。

したがって、効果成分Ｃkのうち局所的ピークＰkの周波数ｆkにおける位相φ(fk)は、図６や図７に示すように、周波数スペクトルＦの局所的ピークＰkの位相θ(fk)を、数式(1)の定義の通り、調整値Ｘ(fk)とπとの加算に相当する変化量Δ（Δ＝Ｘ(fk)＋π）だけ変化させた数値となる。また、効果成分Ｃkのうち周波数ｆk以外の各周波数における位相も同様に、単位成分Ｒkの当該周波数の位相を変化量Δだけ変化させた数値となる。すなわち、効果成分Ｃkの位相スペクトルは、単位成分Ｒkの位相スペクトルを位相軸に沿って平行移動したスペクトルに相当する。他方、効果成分Ｃkの振幅や周波数帯域は単位成分Ｒkから変化しない。以上のように生成された効果成分Ｃ1〜Ｃnを周波数軸上に配列した付加スペクトルＥが特性付与部５０にて周波数スペクトルＦに付加される。

以上の形態においても第１実施形態と同様の効果が実現される。更に、各局所的ピークＰkに対応する単位成分Ｒk毎に周波数スペクトルＦの位相を変化させる（略反転させる）ことで効果成分Ｃkが生成されるから、音声信号ＶINの音声の特性（フォルマントの特性や調波構造）が付加スペクトルＥにて忠実に維持される。したがって、音声信号ＶINの特性を高度に維持した自然な喉詰声を生成できるという利点がある。

＜Ｃ：第３実施形態＞
本発明の第３実施形態について説明する。第１実施形態の制御部６４は、入力装置１６に対する操作に応じて調整部５２のゲインηを可変に制御した。第３実施形態は、制御部６４が可変に制御する変数を第１実施形態から変更または追加した形態である。

第１に、制御部６４は、入力装置１６に対する利用者からの操作に応じて乱数λの範囲を可変に制御する。成分生成部４０（乱数発生部４２）は、制御部６４から指示される範囲内の乱数λを発生する。乱数λの範囲が広いほど、調整値Ｘ(fk)の増減の範囲が拡大して、付加スペクトルＥにおける各位相φ(fk)の経時的な変化（周波数スペクトルＦの位相θ(fk)との相違）が増加する。

位相φ(fk)の変化が過度に小さい場合（乱数λの範囲が狭い場合）、付加スペクトルＥで模擬される仮声帯の位相の変動（揺れ）が極端に抑制されるから、再生音は人工的な喉詰声となる。他方、位相φ(fk)の変化が過度に大きい場合（乱数λの範囲が広い場合）、周波数スペクトルＦで模擬される声帯の位相と付加スペクトルＥで模擬される仮声帯の位相との相違が顕著となるから、現実の喉詰声から乖離した特性の再生音が生成される。利用者が入力装置１６を操作して乱数λを適切な範囲に調整することで、喉詰声の特性を適度に付加した自然な喉詰声の生成が可能となる。

第２に、制御部６４は、時間軸上の波形が相違する複数種のスペクトル成分（例えば、正弦波，三角波，鋸歯状波，矩形波）の何れかを入力装置１６に対する操作に応じて選択する。成分生成部４０（生成処理部４６）は、制御部６４が指示する種類のスペクトル成分から効果成分Ｃkを生成する。再生音の特性は、効果成分Ｃkの波形（スペクトル成分の周波数特性）に応じて変化する。したがって、利用者の所望の特性の喉詰声を生成できるという利点がある。なお、以上においては音声信号ＶINとは無関係のスペクトル成分を選択の候補として例示したが、第２実施形態の単位成分Ｒ1〜Ｒnも、効果成分Ｃkの生成のために選択されるスペクトル成分の候補として利用され得る。

第３に、制御部６４は、付加スペクトルＥを構成する効果成分Ｃkの個数ｍ（ｍ≦ｎ）を利用者からの指示に応じて可変に設定する。効果成分Ｃkは局所的ピークＰkに対応して生成されるから、効果成分Ｃkの個数ｍの指定は、周波数スペクトルＦのうち付加スペクトルＥの生成にとって有意な局所的ピークＰkの個数ｍの指定と実質的には等価である。

成分生成部４０（生成処理部４６）は、制御部６４から指示される個数ｍの効果成分Ｃ1〜Ｃmを生成して周波数軸上に配列することで付加スペクトルＥを生成する。個数ｍが多いほど喉詰声の特性が強調され、個数ｍが少ないほど演算処理装置２２による処理量が削減される。したがって、利用者が効果成分Ｃkの個数を適宜に調整することで、再生音における喉詰声の特性の度合と演算処理装置２２の処理量との何れかを任意に優先させる（あるいは、両者を適度に両立させる）ことが可能となる。

なお、以上においては効果成分Ｃkの個数ｍを制御したが、効果成分Ｃk（局所的ピークＰk）の周波数帯域を利用者からの指示に応じて制御部６４が可変に設定する構成も採用される。成分生成部４０は、制御部６４から指示される周波数帯域内の効果成分Ｃkのみ（当該周波数帯域内の局所的ピークＰkのみに対応する効果成分Ｃk）を生成する。すなわち、効果成分Ｃkの周波数帯域の制御は、効果成分Ｃkの個数ｍの制御と実質的に等価である。

以上の形態においては、喉詰声の特性の付与に適用される変数が利用者からの指示に応じて可変に制御されるから、利用者が希望する多様な特性の喉詰声を生成できるという利点がある。なお、利用者からの指示に応じて制御部６４が制御する変数は以上の例示に限定されない。

＜Ｄ：第４実施形態＞
図８は、本発明の第４実施形態に係る音声処理装置１００Aのブロック図である。図８に示すように、音声処理装置１００Aは、第１実施形態の音声処理装置１００に特徴抽出部６６を追加した構成である。特徴抽出部６６は、音声信号ＶINの音量Ｌを所定の期間毎（例えばフレーム毎）に順次に算定する。なお、特徴抽出部６６に音声信号ＶINを入力する構成を図８では例示するが、周波数分析部３２が生成した周波数スペクトルＦから特徴抽出部６６が音量Ｌを算定する構成（特徴抽出部６６に周波数スペクトルＦを入力する構成）も採用される。

制御部６４は、特徴抽出部６６が抽出した音量Ｌに応じて調整部５２（特性付与部５０）のゲインηを可変に設定する。図９は、音量Ｌとゲインηとの関係を示すグラフである。図９に示すように、制御部６４は、概略的には、音量Ｌが大きいほどゲインηを大きい数値に設定する。更に詳述すると以下の通りである。

音量Ｌが最小値Ｌ1である場合（例えば無音時）にはゲインηが最小値η1に設定される。音量Ｌが閾値Ｌ2を下回る範囲内では、音量Ｌの増加とともにゲインηも増加する。また、音量Ｌが閾値Ｌ2を上回る範囲内ではゲインηが最大値η2に維持される。制御部６４は、ゲインηの最小値η1および最大値η2と音量Ｌの閾値Ｌ2とを、例えば入力装置１６に対する操作に応じて可変に設定する。特性付与部５０の調整部５２は、制御部６４が設定したゲインηを付加スペクトルＥに乗算する。

以上の形態においては、周波数スペクトルＦと付加スペクトルＥとの混合比（調整部５２のゲインη）が音声信号ＶINの音量Ｌに応じて可変に制御されるから、例えば、再生音における喉詰声の特性を音声信号ＶINの特性（音量Ｌ）にとって好適な度合に自動的に制御できるという利点がある。例えば、図９の例示では音量Ｌが大きいほどゲインηは大きい数値に設定されるから、音量が大きいほど喉詰声の特性が顕在化する（音量が小さい場合には喉詰声と非喉詰声との相違が曖昧になる）という傾向を忠実に再現することが可能である。また、音量Ｌが閾値Ｌ2を上回る場合には音量Ｌに拘わらずゲインηが最大値η2に維持されるから、喉詰声の特性が不自然なほどに過剰に顕在化するのを防止できるという利点もある。

以上の形態においては音声信号ＶINの音量Ｌに応じてゲインηを制御したが、ゲインηの設定の基礎となる音声信号ＶINの特徴量は音量Ｌに限定されない。例えば、特徴抽出部６６が音声信号ＶINのピッチ（音高）ＰTを抽出し、制御部６４がピッチＰTに応じて調整部５２のゲインηを可変に設定する構成も好適である。図１０は、ピッチＰTとゲインηとの関係を例示するグラフである。図１０に示すように、制御部６４は、概略的には、ピッチＰTが低いほどゲインηを小さい数値に設定する。

ピッチＰTが最小値ＰT1である場合にはゲインηが最大値η2に設定される。ピッチＰTが閾値ＰT2を下回る範囲内では、ピッチＰTの増加とともにゲインηは減少する。また、ピッチＰTが閾値ＰT2を上回る範囲内ではゲインηが最小値η1に維持される。ゲインηの最小値η1および最大値η2やピッチＰTの閾値ＰT2は可変に設定される。

図１０の関係のもとでは、ピッチ（音高）が低いほど喉詰声の特性が顕在化する（ピッチが高い場合には喉詰声と非喉詰声との相違が曖昧になる）という傾向を再現することが可能である。また、ピッチＰTが閾値ＰT2を上回る場合にはピッチＰTに拘わらずゲインηが最小値η1に維持されるから、ピッチＰTが高い場合でも所定の程度の喉詰声の特性は維持されるという利点がある。

なお、特徴抽出部６６による抽出値とゲインηとの関係は適宜に変更される。例えば、音量Ｌが大きいほどゲインηを小さい数値に設定する構成や、ピッチＰTが高いほどゲインηを大きい数値に設定する構成も採用される。

＜Ｅ：変形例＞
以上に例示した各形態は様々に変形され得る。変形の具体的な態様を以下に例示する。なお、以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
効果成分Ｃkの振幅ａ(fk)を設定する方法は以上の例示（振幅ａ(fk)を周波数スペクトルＦの振幅Ａ(fk)に合致させる方法）に限定されない。例えば、周波数スペクトルＦの振幅Ａ(fk)に所定値を乗算することで振幅ａ(fk)を算定する構成や、振幅ａ(fk)を振幅Ａ(fk)とは無関係の所定値に設定する構成も採用される。ただし、振幅ａ(fk)を振幅Ａ(fk)とは無関係に設定した場合、再生音の特性（特に調波構造）が音声信号ＶINの特性から乖離する可能性がある。他方、振幅ａ(fk)を振幅Ａ(fk)に設定する第１実施形態や振幅Ａ(fk)の演算値に設定する構成のように、周波数スペクトルＦの振幅Ａ(fk)に応じて効果成分Ｃkの振幅ａ(fk)を設定する構成によれば、音声信号ＶINの調波構造（基音および各倍音の成分の周波数や強度の関係）を高度に維持した喉詰声を生成できるという利点がある。

（２）変形例２
以上の各形態の調整部５２に加えて、または、以上の各形態の調整部５２に代えて、周波数スペクトルＦの強度を調整する調整部が特性付与部５０に配置され得る。すなわち、周波数スペクトルＦと付加スペクトルＥとの混合比を可変に制御する構成が本発明においては好適であり、周波数スペクトルＦおよび付加スペクトルＥの何れの強度を調整するかは任意である。もっとも、周波数スペクトルＦおよび付加スペクトルＥの強度の調整は本発明において必須ではない。

（３）変形例３
以上の各形態においては入力装置１６に対する操作に応じて各種の変数（第１実施形態のゲインηや第３実施形態の乱数λの範囲など）を制御したが、変数の制御の基礎が利用者からの指示である構成は本発明において必須ではない。例えば、他装置からの指示に応じて変数を制御する構成や、記憶装置２４に記憶されたデータ（例えば変数の数値を時系列に指示するデータ）に応じて変数を制御する構成も採用される。もっとも、演算処理装置２２にて利用される変数を可変に制御する構成（制御部６４）は本発明において必須ではない。

（４）変形例４
以上の各形態においては、付加スペクトルＥの生成に使用される周波数スペクトルＦを周波数分析部３２が音声信号ＶINから生成したが、記憶装置２４に事前に格納された周波数スペクトルＦを付加スペクトルＥの生成や付加に適用する構成も採用される。したがって、周波数分析部３２は省略され得る。また、特性付与部５０が生成した出力スペクトルＧを、通信網や記録媒体を介して外部の装置に提供したうえで喉詰声の再生に利用する構成（すなわち、逆変換部６２を音声処理装置１００から省略した構成）も採用される。

（５）変形例５
以上の各形態においては、発生者の声帯の振動に主に由来する音声（非喉詰声）の音声信号ＶINに喉詰声の特性を付与したが、声帯および仮声帯の双方の振動に由来する喉詰声の音声信号ＶINも演算処理装置２２による処理の対象となり得る。すなわち、音声信号ＶINが表す喉詰声の特性を更に強調した音声信号ＶOUT（出力スペクトルＧ）が生成される。また、演算処理装置２２による処理（喉詰声の特性の付与）の対象となる音声は現実の発声音に限定されない。例えば、公知の音声合成技術で生成された音声信号ＶIN（または周波数スペクトルＦ）に喉詰声の特性を付与する場合にも本発明を利用できる。

（６）変形例６
効果成分Ｃkの個数は任意である。例えば、図２や図６においては、局所的ピークＰkと同数（ｎ個）の効果成分Ｃ1〜Ｃnを周波数スペクトルＦに付加する場合を例示したが、１個の効果成分Ｃk（例えば、局所的ピークＰ1に対応する効果成分Ｃ1）のみを周波数スペクトルＦに付加する構成でも、喉詰声の特性を音声信号ＶINに付加するという所期の効果は実現される。

（７）変形例７
以上の各形態においては付加スペクトルＥを音声信号ＶINのフレーム毎に生成したが、付加スペクトルＥの生成の周期は適宜に変更される。例えば、複数のフレームを１周期として付加スペクトルＥが生成され得る。１周期内の各フレームの周波数スペクトルＦには共通の付加スペクトルＥが付加される。なお、複数のフレームを単位として付加スペクトルＥを生成する構成では、相前後する付加スペクトルＥで各周波数の位相が不連続となる可能性がある。そこで、相前後する各付加スペクトルＥで各周波数における位相の連続性を維持するための処理（例えば、各付加スペクトルの周波数毎の位相の時系列を平滑化する処理）が好適に実行される。

１００，１００A……音声処理装置、１２……信号供給装置、１４……放音機器、１６……入力装置、２２……演算処理装置、２４……記憶装置、３２……周波数分析部、３４……ピーク検出部、４０……成分生成部、４２……乱数発生部、４４……位相設定部、４６……生成処理部、５０……特性付与部、５２……調整部、５４……合成部、６２……逆変換部、６４……制御部、６６……特徴抽出部。

Claims

音声信号の周波数スペクトルから検出された局所的ピーク毎に前記周波数スペクトルを区分した複数の単位成分の各々から、当該単位成分の位相を変化させた効果成分を生成する成分生成手段と、
前記各単位成分から生成された効果成分を、当該効果成分の局所的ピークが前記周波数スペクトルにおける当該単位成分の局所的ピークの周波数に位置するように、前記周波数スペクトルに付加することで、声帯と仮声帯とが略同等の周期により略逆位相で振動する喉詰声の特性を前記音声信号に付与する特性付与手段と
を具備する音声処理装置。
前記成分生成手段は、前記複数の単位成分の各々から、πを中心とする変動範囲内の変化量だけ当該単位成分の局所的ピークの位相を変化させた効果成分を生成する
請求項１の音声処理装置。
前記成分生成手段は、前記効果成分の振幅を前記周波数スペクトルの当該局所的ピークの振幅に応じて設定する
請求項１または請求項２の音声処理装置。
前記成分生成手段は、経時的に変動する調整値に応じて前記局所的ピークの位相を変化させることで前記効果成分の位相を設定する
請求項１から請求項３の何れかの音声処理装置。
前記成分生成手段は、乱数に応じて前記調整値を算定する
請求項４の音声処理装置。
前記乱数の範囲を可変に設定する制御手段を具備し、
前記成分生成手段は、前記制御手段が設定した範囲内で発生した乱数から前記調整値を算定する
請求項５の音声処理装置。
音声信号の周波数スペクトルから検出された局所的ピーク毎に前記周波数スペクトルを区分した複数の単位成分の各々から、当該単位成分の位相を変化させた効果成分を生成する成分生成処理と、
前記各単位成分から生成された効果成分を、当該効果成分の局所的ピークが前記周波数スペクトルにおける当該単位成分の局所的ピークの周波数に位置するように、前記周波数スペクトルに付加することで、声帯と仮声帯とが略同等の周期により略逆位相で振動する喉詰声の特性を前記音声信号に付与する特性付与処理と
をコンピュータに実行させるプログラム。