JP6428256B2

JP6428256B2 - 音声処理装置

Info

Publication number: JP6428256B2
Application number: JP2014263512A
Authority: JP
Inventors: ジョルディ　ボナダ; ボナダジョルディ; ブラアウメルレイン; 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2018-11-28
Anticipated expiration: 2034-12-25
Also published as: JP2016122157A; US20160189725A1; US9865276B2

Description

本発明は、音声信号を処理する技術に関する。

音声信号が表す音声の声質を変換する技術が従来から提案されている。例えば特許文献１には、処理対象の音声信号（以下「対象信号」という）の声質を、事前に収録された目標音声信号が表す濁声や嗄れ声等の特徴的（non-modal）な声質に変換する技術が開示されている。特許文献１の技術では、対象信号の基本周波数に調整された目標音声信号のスペクトルが各調波周波数を中心として複数の帯域（以下「単位帯域」という）に区分され、各単位帯域の成分が周波数軸上で再配置される。そして、再配置後の各単位帯域内の調波周波数の振幅および位相が対象信号の振幅および位相に合致するように単位帯域毎に振幅および位相が調整される。

特開２０１４−００２３３８号公報

特許文献１の技術では、周波数軸上で相互に隣合う各調波周波数の中間の地点を境界として複数の単位帯域が画定されたうえで単位帯域毎に振幅や位相が調整されるから、各単位帯域の境界（すなわち各調波周波数の中間の地点）では振幅や位相が不連続となる。調波成分が非調波成分と比較して充分に豊富な音声の生成を前提とすれば、各調波周波数の中間の地点（すなわち強度が充分に低い地点）に存在する非調波成分の振幅や位相の不連続は受聴者に殆ど知覚されない。しかし、非調波成分を豊富に含有する濁声や嗄れ声等の特徴的な声質では、調波周波数の中間の地点での振幅や位相の不連続が顕在化し、聴感的に不自然な音声と知覚される可能性がある。以上の事情を考慮して、本発明は、非調波成分を優勢に含有する声質で聴感的に自然な音声を生成することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る音声処理装置は、目標声質の音声を表す第１音声信号の第１基本周波数を、目標声質とは相違する初期声質の音声を表す第２音声信号の第２基本周波数に調整する音高調整手段と、音高調整手段による調整後の第１音声信号のスペクトルを第２基本周波数に対応する各調波周波数で区分した複数の単位帯域成分の各々を、音高調整手段による調整前の第１音声信号のスペクトルのうち当該単位帯域成分に対応する成分の近傍に位置するように、第２基本周波数に対応する各調波周波数に配置する成分配置手段と、成分配置手段による配置後の各単位帯域成分の成分値を第２音声信号のスペクトルの成分値に応じて調整するとともに、第２基本周波数に対応する各調波周波数を含む各特定帯域については第２音声信号のスペクトルの成分値を適用することで、変換スペクトルを生成する成分調整手段とを具備する。

以上の構成では、音高調整手段による調整後の第１音声信号のスペクトルを第２基本周波数に対応する各調波周波数で区分した複数の単位帯域成分の各々について成分値が調整されるから、各調波周波数の間の非調波成分における成分値の不連続が抑制される。したがって、例えば調波周波数の間の地点を境界として各単位帯域成分を画定する構成と比較して、非調波成分を優勢に含有する声質で聴感的に自然な音声を生成できるという利点がある。他方、調波周波数を境界として各単位帯域成分を画定する構成では、調波周波数での成分値の不連続が問題となり得る。本発明の前述の好適な態様では、調波周波数を含む特定帯域については第２音声信号のスペクトルの成分値が適用されるから、調波成分での成分値の不連続を防止できる（ひいては目標声質を忠実に再現できる）という利点がある。

本発明の好適な態様において、成分調整手段は、成分配置手段による配置後の各単位帯域成分のうち第２基本周波数に対応する調波周波数での成分値が、第２音声信号のスペクトルのうち当該調波周波数での成分値に合致するように、各単位帯域成分の成分値を調整する。以上の態様では、成分配置手段による処理後の各単位帯域成分のうち調波周波数での成分値が第２音声信号のスペクトルのうち当該調波周波数での成分値に調整されるから、第２音声信号の音韻を高度に維持した音声を生成できるという利点がある。

本発明の好適な態様において、成分値は位相を含み、成分調整手段は、成分配置手段による配置後の各単位帯域成分に包含される各周波数成分の時間軸上の移動量が一定となるように、当該単位帯域成分内の周波数毎に移相量を相違させる。以上の態様では、各周波数成分の時間軸上の移動量が一定となるように単位帯域成分内の周波数毎に相異なる移相量が設定されるから、第１音声信号の目標声質を忠実に反映した音声を生成できるという利点がある。なお、以上の態様の具体例は例えば第３実施形態として後述される。

本発明の好適な態様に係る音声処理装置は、第２基本周波数に対応する基本周期で音高調整手段による調整後の第１音声信号に存在する時間波形のピークに対して所定の位置関係にある分析窓により第１音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第１周波数解析手段と、第２基本周波数に対応する基本周期で第２音声信号に存在する時間波形のピークに対して前所定の位置関係にある分析窓により第２音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第２周波数解析手段とを具備する。以上の態様では、第１音声信号の時間波形のピークに対する分析窓の位置関係と、第２音声信号の時間波形のピークに対する分析窓の位置関係とが共通するから、第１音声信号の目標音質を忠実に反映した音声を生成できるという利点がある。なお、以上の態様の具体例は例えば第２実施形態として後述される。

以上の各態様に係る音声処理装置は、音声信号の処理に専用される電子回路によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声処理装置の動作方法（音声処理方法）としても特定される。

第１実施形態に係る音声処理装置の構成図である。変換処理部の構成図である。変換処理部の動作の説明図である。第２実施形態における各周波数解析部の動作の説明図である。対比例で生成される音声信号の波形の説明図である。第３実施形態における位相補正の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置１００の構成図である。音声処理装置１００には外部機器１２から音声信号ｘ(t)が供給される。音声信号ｘ(t)は、特定の音高および音韻（発音内容）で発音された会話音や歌唱音等の音声を表す時間領域の信号である（ｔ：時間）。例えば、周囲の音響を収音して音声信号ｘ(t)を生成する収音機器、可搬型または内蔵型の記録媒体から音声信号ｘ(t)を取得して出力する再生機器、あるいは通信網から音声信号ｘ(t)を受信して出力する通信機器が外部機器１２として利用され得る。

第１実施形態の音声処理装置１００は、音声信号ｘ(t)の声質（以下「初期声質」という）とは相違する特定の声質（以下「目標声質」という）の音声を示す時間領域の音声信号ｙ(t)を生成する信号処理装置（すなわち声質変換装置）である。第１実施形態の目標声質は、初期声質と比較して独特（non-modal）な声質である。具体的には、発声時の声帯の挙動が通常の発声とは相違する声質が目標声質として好適である。例えば濁声や嗄れ声や唸り声等の特徴的な声質（rough, harsh, growl, hoarse, rough）が目標声質として例示され得る。なお、典型的には初期声質と目標声質とは別個の発声者の声質であるが、ひとりの発声者の相異なる声質を初期声質および目標声質とすることも可能である。音声処理装置１００が生成した音声信号ｙ(t)は放音機器１４（スピーカやヘッドホン）に供給されて音波として放射される。

図１に例示される通り、音声処理装置１００は、演算処理装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。記憶装置２４は、演算処理装置２２が実行するプログラムや演算処理装置２２が使用する各種のデータを記憶する。具体的には、第１実施形態の記憶装置２４は、目標声質の音声を表す時間領域の音声信号（以下「目標音声信号」という）ｒA(t)を記憶する。目標音声信号ｒA(t)は、特定の音韻（典型的には母音）を略一定の音高で定常的に発音した目標声質の音声のサンプル系列である。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置２４として任意に利用される。目標音声信号ｒA(t)は「第１音声信号」の例示であり、音声信号ｘ(t)は「第２音声信号」の例示である。

演算処理装置２２は、記憶装置２４に格納されたプログラムを実行することで、音声信号ｘ(t)から音声信号ｙ(t)を生成するための複数の機能（周波数解析部３２，変換処理部３４，波形生成部３６）を実現する。なお、演算処理装置２２の機能を複数の装置に分散した構成や、演算処理装置２２の機能の一部を音声処理専用の電子回路が実現する構成も採用され得る。また、例えば演算処理装置２２が公知の音声合成処理で生成した合成音声の音声信号ｘ(t)や記憶装置２４に事前に記憶された音声信号ｘ(t)を処理する構成（したがって外部機器１２は省略される）も採用される。

周波数解析部３２は、音声信号ｘ(t)のスペクトル（複素スペクトル）Ｘ(k)を生成する。具体的には、周波数解析部３２は、所定の窓関数で表現される分析窓（例えばハニング窓）を利用して音声信号ｘ(t)を時間軸上で区分した単位区間（フレーム）毎にスペクトルＸ(k)を順次に算定する。記号ｋは、周波数軸上に設定された複数の周波数のうちの任意の１個を意味する。また、第１実施形態の周波数解析部３２は、音声信号ｘ(t)の基本周波数（ピッチ）ＰXを単位区間毎に順次に特定する。基本周波数ＰXの特定には公知のピッチ検出技術が任意に採用される。

変換処理部３４は、音声信号ｘ(t)の音高および音韻を維持しながら音声信号ｘ(t)の声質を初期声質から目標声質に変換する。具体的には、第１実施形態の変換処理部３４は、周波数解析部３２が単位区間毎に生成するスペクトルＸ(k)と記憶装置２４に記憶された目標音声信号ｒA(t)とを利用した変換処理により目標声質の音声信号ｙ(t)のスペクトル（以下「変換スペクトル」という）Ｙ(k)を単位区間毎に順次に生成する。変換処理部３４が実行する変換処理の具体的な内容は後述する。

波形生成部３６は、変換処理部３４が単位区間毎に生成する変換スペクトルＹ(k)から時間領域の音声信号ｙ(t)を生成する。音声信号ｙ(t)の生成には短時間逆フーリエ変換が好適に利用される。波形生成部３６が生成した音声信号ｙ(t)が放音機器１４に供給されて音波として放射される。なお、音声信号ｘ(t)と音声信号ｙ(t)とを時間領域または周波数領域において混合することも可能である。

変換処理部３４の具体的な構成および動作を以下に説明する。図２は、変換処理部３４の構成図である。図２に例示される通り、第１実施形態の変換処理部３４は、音高調整部４２と周波数解析部４４と声質変換部４６とを具備する。図３は、変換処理部３４の動作の説明図である。

音高調整部４２は、記憶装置２４に記憶された目標音声信号ｒA(t)の基本周波数（第１基本周波数）ＰRを、周波数解析部３２が特定した音声信号ｘ(t)の基本周波数（第２基本周波数）ＰXに調整することで時間領域の目標音声信号ｒB(t)を生成する。具体的には、音高調整部４２は、目標音声信号ｒA(t)を時間領域でリサンプリングすることで基本周波数ＰXの目標音声信号ｒB(t)を生成する。したがって、目標音声信号ｒB(t)の音韻は調整前の目標音声信号ｒA(t)と同様である。音高調整部４２によるリサンプリングのサンプリングレートは、基本周波数ＰRに対する基本周波数ＰXの比率λ（λ＝ＰX／ＰR）に設定される。なお、目標音声信号ｒA(t)の基本周波数ＰRの特定には公知のピッチ検出技術が任意に採用される。また、基本周波数ＰRを目標音声信号ｒA(t)とともに記憶装置２４に事前に記憶して比率λの算定に適用することも可能である。

図２の周波数解析部４４は、音高調整部４２による調整（以下「音高調整」という）後の目標音声信号ｒB(t)のスペクトル（複素スペクトル）Ｒ(k)を生成する。具体的には、周波数解析部４４は、所定の窓関数で表現される分析窓を利用して目標音声信号ｒB(t)を時間軸上で区分した単位区間毎にスペクトルＲ(k)を順次に算定する。周波数解析部３２によるスペクトルＸ(k)の算定および周波数解析部４４によるスペクトルＲ(k)の算定には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。

図３には、周波数解析部４４が生成する目標音声信号ｒB(t)のスペクトルＲ(k)が図示され、音高調整部４２による音高調整前の目標音声信号ｒA(t)のスペクトルＲ0(k)が便宜的に併記されている。図３に例示される通り、音高調整後のスペクトルＲ(k)は、音高調整前のスペクトルＲ0(k)を周波数軸上で比率λに応じて一様に伸縮した関係にある。

図２の声質変換部４６は、周波数解析部３２が音声信号ｘ(t)の単位区間毎に生成した初期声質のスペクトルＸ(k)と周波数解析部４４が目標音声信号ｒB(t)の単位区間毎に生成した目標声質のスペクトルＲ(k)とを利用して、音声信号ｘ(t)の音高および音韻を目標声質で発声した音声信号ｙ(t)の変換スペクトルＹ(k)を単位区間毎に順次に生成する。図２に例示される通り、第１実施形態の声質変換部４６は、成分配置部５２と成分調整部５４とを包含する。

成分配置部５２は、図３に例示される通り、音高調整部４２による音高調整後の基本周波数ＰXに対応する調波周波数Ｈ(n)毎に目標声質のスペクトルＲ(k)を周波数軸上で区分した複数の成分（以下「単位帯域成分」という）Ｕ(n)を周波数軸上に再配置したスペクトル（以下「再配置スペクトル」という）Ｓ(k)を生成する。調波周波数Ｈ(n)は、基本周波数ＰXのｎ倍（ｎは自然数）の周波数である。すなわち、調波周波数Ｈ(1)は基本周波数ＰXに相当し、第２次以降（ｎ＝２,３,４,……）の各調波周波数Ｈ(n)は第ｎ次の倍音周波数ｎ・ＰXに相当する。

第１実施形態における目標音声信号ｒB(t)の音声は、濁声や嗄れ声等の特徴的な目標声質であるから、図３からも理解される通り、目標音声信号ｒB(t)のスペクトルＲ(k)は、周波数軸上で相互に隣合う各調波周波数Ｈ(n)の間の非調波成分を通常の声質の音声と比較して豊富に含有する。非調波成分は、目標声質の聴感的な印象を特徴付ける重要な音響成分であるとも換言され得る。第１実施形態の各単位帯域成分Ｕ(n)は、周波数軸上の各調波周波数Ｈ(n)を境界（端点）としてスペクトルＲ(k)を区分した各帯域の信号成分である。具体的には、第ｎ番目の単位帯域成分Ｕ(n)は、目標音声信号ｒB(t)のスペクトルＲ(k)のうち調波周波数Ｈ(n)から調波周波数Ｈ(n+1)までの帯域成分に相当する。したがって、各単位帯域成分Ｕ(n)では、調波周波数Ｈ(n)と調波周波数Ｈ(n+1)との間に存在して目標声質の聴感的な印象を特徴付ける非調波成分がスペクトルＲ(k)と同等に維持される。

図３に例示される通り、音高調整後のスペクトルＲ(k)と音高調整前のスペクトルＲ0(k)とでは同帯域での形状が相違する。したがって、音高調整後のスペクトルＲ(k)の声質は、スペクトルＲ0(k)の目標声質とは相違し得る。以上の相違を低減して目標声質を高度に再現する観点から、第１実施形態の成分配置部５２は、複数の単位帯域成分Ｕ(n)の各々を、音高調整前のスペクトルＲ0(k)のうち当該単位帯域成分Ｕ(n)に対応する周波数成分の近傍に位置するように、音高調整後の基本周波数ＰXに対応する各調波周波数Ｈ(n)に配置することで再配置スペクトルＳ(k)を生成する。すなわち、第ｎ番目の単位帯域成分Ｕ(n)は、目標音声信号ｒA(t)のスペクトルＲ0(k)の第ｎ次の調波周波数の近傍に配置される。以上に例示した再配置の結果、再配置前のスペクトルＲ(k)と比較して目標声質のスペクトルＲ0(k)に形状が近似する基本周波数ＰXの再配置スペクトルＳ(k)が生成される。

具体的には、例えば音声信号ｘ(t)の基本周波数ＰXが目標音声信号ｒA(t)の基本周波数ＰRを下回る場合、図３に例示される通り、第１番目の単位帯域成分Ｕ(1)は、音高調整前の目標音声信号ｒA(t)の基本周波数ＰRの近傍に位置する調波周波数Ｈ(1)に配置され、第２番目の単位帯域成分Ｕ(2)は、音高調整前の目標音声信号ｒA(t)の第２次の倍音周波数２ＰRの近傍に位置する調波周波数Ｈ(2)および調波周波数Ｈ(3)に反復的に配置される。第３番目の単位帯域成分Ｕ(3)は、目標音声信号ｒA(t)の第３次の倍音周波数３ＰRの近傍に位置する調波周波数Ｈ(4)に配置される。以上の例示から理解される通り、音声信号ｘ(t)の基本周波数ＰXが目標音声信号ｒA(t)の基本周波数ＰRを下回る場合（λ＜１）には、各単位帯域成分Ｕ(n)が適宜に反復（複製）されて周波数軸上に配列される。他方、基本周波数ＰXが基本周波数ＰRを上回る場合（λ＞１）には、各単位帯域成分Ｕ(n)が適宜に間引かれて周波数軸上に配列される。

以上のように各単位帯域成分Ｕ(n)の反復や間引を考慮して、以下の説明では、成分配置部５２による再配置後の各単位帯域成分Ｕ(n)の番号ｎを低域側から順番の番号（インデックス）ｍに更新する。具体的には、番号ｍは以下の数式(1)で表現される。

数式(1)の記号〈〉は床関数を意味する。すなわち、関数〈ｘ＋０.５〉は、数値ｘを四捨五入した整数を算定する演算である。以上の説明から理解される通り、周波数軸上に配列された複数の単位帯域成分Ｕ(m)で構成される再配置スペクトルＳ(k)が生成される。再配置スペクトルＳ(k)の任意の１個の単位帯域成分Ｕ(m)は、調波周波数Ｈ(m)から調波周波数Ｈ(m+1)までの帯域成分である。

図２の成分調整部５４は、成分配置部５２による再配置後の各単位帯域成分Ｕ(m)の成分値（振幅および位相）を音声信号ｘ(t)のスペクトルＸ(k)の成分値に応じて調整することで中間スペクトルＹ0(k)を生成する。具体的には、第１実施形態の成分調整部５４は、成分配置部５２が生成した再配置スペクトルＳ(k)を適用した以下の数式(2)の演算で中間スペクトルＹ0(k)を算定する。数式(2)の記号ｊは虚数単位である。

数式(2)の変数ｇ(m)は、再配置スペクトルＳ(k)の各単位帯域成分Ｕ(m)の振幅を音声信号ｘ(t)のスペクトルＸ(k)の振幅に応じて調整するための補正値（ゲイン）であり、以下の数式(3)で表現される。

数式(3)の記号ＡH(m)は、単位帯域成分Ｕ(m)のうち調波周波数Ｈ(m)の成分の振幅であり、記号ＡX(m)は、音声信号ｘ(t)のうち調波周波数Ｈ(m)の成分の振幅である。任意の１個の単位帯域成分Ｕ(m)内の各周波数の振幅の補正に共通の補正値ｇ(m)が適用される。以上に説明した補正値ｇ(m)により、単位帯域成分Ｕ(m)のうち調波周波数Ｈ(m)での振幅ＡH(m)が音声信号ｘ(t)の調波周波数Ｈ(m)での振幅ＡX(m)に補正される。

他方、数式(2)の記号θ(m)は、再配置スペクトルＳ(k)の各単位帯域成分Ｕ(m)の位相を音声信号ｘ(t)のスペクトルＸ(k)の位相に応じて調整するための補正値（移相量）であり、以下の数式(4)で表現される。

数式(4)の記号φH(m)は、単位帯域成分Ｕ(m)のうち調波周波数Ｈ(m)の成分の位相であり、記号φX(m)は、音声信号ｘ(t)のうち調波周波数Ｈ(m)の成分の位相である。任意の１個の単位帯域成分Ｕ(m)内の各周波数の位相の補正に共通の補正値θ(m)が適用される。以上に説明した補正値θ(m)により、図３に例示される通り、単位帯域成分Ｕ(m)のうち調波周波数Ｈ(m)での位相φH(m)が音声信号ｘ(t)の調波周波数Ｈ(m)での位相φX(m)に補正され、単位帯域成分Ｕ(m)の各周波数の位相が補正値θ(m)に応じた同等の移相量だけ変化する。

以上の説明から理解される通り、第１実施形態では、調波周波数Ｈ(m)を境界として各単位帯域成分Ｕ(m)が画定されるから、数式(2)による成分値（振幅や位相）の調整の前後で、各調波周波数Ｈ(m)の間の非調波成分における成分値の連続性は保持される。他方、成分配置部５２による各単位帯域成分Ｕ(m)の再配置と成分調整部５４による単位帯域成分Ｕ(m)毎の成分値の補正とに起因して、各調波周波数Ｈ(m)では、図３に位相について例示される通り、数式(2)による補正後に成分値の不連続が発生し得る。再配置スペクトルＳ(k)の各調波周波数Ｈ(m)には調波成分が存在するから、各調波周波数Ｈ(m)での成分値の不連続により再生音が聴感的に不自然な印象になる可能性がある。

以上に詳述した各調波周波数Ｈ(m)での成分値の不連続を抑制する観点から、第１実施形態の成分調整部５４は、図３に位相について例示される通り、数式(2)の演算で生成された中間スペクトルＹ0(k)のうち各調波周波数Ｈ(m)を含む特定の周波数帯域（以下「特定帯域」という）Ｂ(m)について音声信号ｘ(t)のスペクトルＸ(k)の成分値を適用することで変換スペクトルＹ(k)を生成する。具体的には、中間スペクトルＹ0(k)のうち各特定帯域Ｂ(m)の成分値を、音声信号ｘ(t)のスペクトルＸ(k)のうち当該特定帯域Ｂ(M)の成分値に置換することで変換スペクトルＹ(k)を生成する。特定帯域Ｂ(m)は、典型的には調波周波数Ｈ(m)を中心とする周波数帯域である。各特定帯域Ｂ(m)の帯域幅は、中間スペクトルＹ0(k)の各調波周波数Ｈ(m)に対応するピークを内包するように実験的または統計的に事前に選定される。以上に説明した単位帯域成分Ｕ(m)毎の成分値の補正と特定帯域Ｂ(m)内の成分値の置換とにより単位区間毎に生成された変換スペクトルＹ(k)が波形生成部３６に順次に供給されて時間領域の音声信号ｙ(n)に変換される。

前述の通り、周波数軸上で相互に隣合う各調波周波数Ｈ(n)の間の地点（例えば各調波周波数Ｈ(n)の中点）を境界として目標音声信号ｒB(t)のスペクトルＲ(k)を複数の単位帯域成分Ｕ(n)に区分する構成では、非調波成分の成分値が周波数軸上で不連続となる。非調波成分の強度が充分に低い通常の音声の生成を前提とすれば、以上の不連続は受聴者に殆ど知覚されないが、濁声や嗄れ声等の特徴的な音声は非調波成分を豊富に含有するから、非調波成分における成分値の不連続が顕在化し、聴感的に不自然な音声と知覚される可能性がある。以上の構成とは対照的に、第１実施形態では、各調波周波数Ｈ(n)を境界として目標音声信号ｒB(t)のスペクトルＲ(k)が複数の単位帯域成分Ｕ(n)に区分されるから、単位帯域成分Ｕ(n)毎の成分値の補正後に、非調波成分の周波数における成分値の不連続が発生しない。したがって、第１実施形態によれば、非調波成分を優勢に含有する声質で聴感的に自然な音声を生成できるという利点がある。

他方、各調波周波数Ｈ(n)を境界として複数の単位帯域成分Ｕ(n)を画定する構成では、調波周波数Ｈ(n)での成分値の不連続が問題となり得る。第１実施形態では、調波周波数Ｈ(m)を含む特定帯域Ｂ(m)については音声信号ｘ(t)のスペクトルＸ(k)の成分値が流用されるから、各調波周波数Ｈ(m)を境界として各単位帯域成分Ｕ(n)を画定する構成にも関わらず、調波周波数Ｈ(n)での成分値の不連続を回避できるという利点がある。

また、第１実施形態では、成分配置部５２による再配置後の各単位帯域成分Ｕ(m)のうち調波周波数Ｈ(m)での成分値（ＡH(m)，φH(m)）が音声信号ｘ(t)のスペクトルＸ(k)の当該調波周波数Ｈ(m)での成分値（ＡX(m)，φX(m)）に合致するように各単位帯域成分Ｕ(m)の成分値が調整されるから、音声信号ｘ(t)の音韻を高度に維持した音声信号ｙ(t)を生成できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図４には、音高調整部４２により基本周波数ＰXに調整された目標音声信号ｒB(t)の時間波形と、基本周波数ＰXの音声信号ｘ(t)の時間波形とが併記されている。図４に例示される通り、目標音声信号ｒB(t)および音声信号ｘ(t)には、基本周波数ＰXに対応する基本周期ＴX（ＴX＝１/ＰX）毎に時間波形のピークτが観測される。なお、濁声や嗄れ声等の特徴的な音声の目標音声信号ｒB(t)には、高強度のピークτと低強度のピークτとが基本周期ＴX毎に交互に発生し、通常の音声の音声信号ｘ(t)には、略同等の強度のピークτが基本周期ＴX毎に発生する、という傾向がある。

図４に例示される通り、第２実施形態の周波数解析部４４（第１周波数解析手段）は、目標音声信号ｒB(t)の時間軸上のピークτを検出し、各ピークτに対応する分析窓ＷAにより目標音声信号ｒB(t)を区分した単位区間毎にスペクトルＲ(k)を算定する。同様に、周波数解析部３２（第２周波数解析手段）は、音声信号ｘ(t)の時間軸上のピークτを検出し、各ピークτに対応する分析窓ＷBにより音声信号ｘ(t)を区分した単位区間毎にスペクトルＸ(k)を算定する。目標音声信号ｒB(t)の各ピークτに対する分析窓ＷAの位置関係と、音声信号ｘ(t)の各ピークτに対する分析窓ＷBの位置関係とは共通する。具体的には、各ピークτを中心として分析窓ＷAおよび分析窓ＷBが設定される。各ピークτの検出には公知の技術が任意に採用され得る。例えば信号強度が極大となる複数の時点のうち基本周期ＴXを間隔とする各時点をピークτとして検出することが可能である。

図５は、時間軸上の各ピークτに対する分析窓の位置関係を目標音声信号ｒB(t)と音声信号ｘ(t)とで相違させた構成（以下「対比例」という）のもとで生成される音声信号ｙ(t)の波形図である。図５には発声者が実際に発声した嗄れ声の時間波形（自然音声）も併記されている。図５から理解される通り、対比例で生成される音声信号ｙ(t)は、実際の嗄れ声と比較して時間軸上の波形のピークが曖昧な波形となり、結果的に自然音声とは相違する違和感のある音声と知覚される場合がある。以上の波形の相違の原因のひとつは、各周波数成分の位相（位相スペクトル）の相違である。具体的には、各周波数成分の位相が目標音声信号ｒB(t)と音声信号ｘ(t)とで本来的に相違することも音声信号ｙ(t)の波形の曖昧性の原因となり得るが、実際には、目標音声信号ｒB(t)に対する分析窓の時間軸上の位置と音声信号ｘ(t)に対する分析窓の時間軸上の位置とが相違することが、音声信号ｙ(t)の波形の曖昧性の支配的な原因として想定される。

第２実施形態では、図４を参照して前述した通り、目標音声信号ｒB(t)の各ピークτに対する分析窓ＷAの位置関係と、音声信号ｘ(t)の各ピークτに対する分析窓ＷBの位置関係とが共通する。したがって、分析窓の位置の相違に起因した音声信号ｙ(t)の波形の曖昧性が低減される。すなわち、第２実施形態によれば、図５に例示された自然音声のように基本周期ＴX毎に顕著なピークが観測される自然な嗄れ声の音声信号ｙ(t)を生成できるという利点がある。なお、調波周波数Ｈ(m)を境界として各単位帯域成分Ｕ(m)を画定する第１実施形態の構成は第２実施形態にとって必須ではない。すなわち、第２実施形態では、例えば、周波数軸上で相互に隣合う各調波周波数Ｈ(m)の間の地点（例えば各調波周波数Ｈ(m)の中点）を境界として各単位帯域成分Ｕ(m)を画定することも可能である。

＜第３実施形態＞
前掲の数式(2)および数式(4)から理解される通り、第１実施形態では、任意の１個の単位帯域成分Ｕ(m)内の全周波数にわたる位相を共通の補正量（移相量）θ(m)だけ変化させる（すなわち、単位帯域成分Ｕ(m)の位相スペクトルを位相軸の方向に平行移動する構成）構成を例示した。以上の構成では、補正値θ(m)を適用した移相による時間軸上の移動量は単位帯域成分Ｕ(m)内の周波数毎に相違するから、目標音声信号ｒB(t)の時間波形が変化する可能性がある。

以上の事情を考慮して、第３実施形態の成分調整部５４は、成分配置部５２による配置後の各単位帯域成分Ｕ(m)に包含される各周波数成分の時間軸上の移動量が一定となるように、単位帯域成分Ｕ(m)内の周波数毎に相異なる補正値θ(m,k)を設定する。具体的には、成分調整部５４は、以下の数式(5)の演算で位相の補正値θ(m,k)を算定する。数式(5)から理解される通り、第３実施形態の補正値θ(m,k)は、周波数に依存する係数δkを第１実施形態の補正値θ(m)に乗算した数値である。

数式(5)の記号ｆkは、周波数軸上の第ｋ番目の周波数を意味する。補正値θ(m,k)の算定に適用される係数δkは、第ｍ番目の調波周波数Ｈ(m)（すなわち単位帯域成分Ｕ(m)の帯域左端の周波数ｆk）に対する単位帯域成分Ｕ(m)内の各周波数ｆkの比率として定義される。すなわち、図６から理解される通り、単位帯域成分Ｕ(m)内の高域側ほど補正値θ(m,k)は増加し、結果的に単位帯域成分Ｕ(m)内の各周波数成分の時間軸上の移動量は一定となる。したがって、第３実施形態によれば、時間軸上の移動量が単位帯域成分Ｕ(m)の周波数毎に相違することに起因した目標音声信号ｒB(t)の時間波形の変化が抑制され、目標音声信号ｒB(t)（さらには目標音声信号ｒA(t)）の声質を忠実に再現した音声信号ｙ(t)を生成できるという利点がある。なお、第３実施形態を第２実施形態に適用することも可能である。

＜変形例＞
以上に例示した形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、基本周波数ＰRの目標音声信号ｒA(t)を時間領域でリサンプリングすることで基本周波数ＰXの目標音声信号ｒB(t)を生成したが、目標音声信号ｒA(t)のスペクトルＲ0(k)を周波数領域で周波数軸の方向に伸縮することで基本周波数ＰXのスペクトルＲ(k)を生成することも可能である。

（２）前述の各形態では、再配置スペクトルＳ(k)の振幅および位相の双方を補正したが、振幅および位相の一方のみを調整することも可能である。すなわち、成分調整部５４による調整対象となる成分値は振幅および位相の少なくとも一方である。振幅のみを調整する構成では、目標音声信号ｒB(t)の振幅スペクトルをスペクトルＲ(k)として算定し、位相のみを調整する構成では、目標音声信号ｒB(t)の位相スペクトルをスペクトルＲ(k)として算定することも可能である。

（３）前述の各形態では、特定帯域Ｂ(m)の帯域幅を所定値に設定したが、特定帯域Ｂ(m)の帯域幅の設定方法は適宜に変更される。例えば、音声信号ｙ(t)の変換スペクトルＹ(k)における振幅の不連続を抑制するという観点からすると、再配置スペクトルＳ(k)のうち振幅が極小となる周波数を端点として特定帯域Ｂ(m)を設定する構成が好適である。また、単位帯域成分Ｕ(m)の帯域幅に応じて特定帯域Ｂ(m)の帯域幅を可変に設定することも可能である。

（４）移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置（典型的にはウェブサーバ）で音声処理装置１００を実現することも可能である。具体的には、音声処理装置１００は、端末装置から通信網を介して受信した音声信号ｘ(t)から前述の各形態と同様の方法で音声信号ｙ(t)を生成して端末装置に送信する。以上の構成によれば、音声信号ｘ(t)の声質変換を代行するクラウドサービスを端末装置の利用者に提供することが可能である。なお、音声信号ｘ(t)のスペクトルＸ(k)が端末装置から音声処理装置１００に送信される構成（例えば端末装置が周波数解析部３２を具備する構成）では音声処理装置１００から周波数解析部３２が省略される。また、変換スペクトルＹ(k)を音声処理装置１００から端末装置に送信する構成（例えば端末装置が波形生成部３６を具備する構成）では音声処理装置１００から波形生成部３６が省略される。

１００……音声処理装置、１２……外部機器、１４……放音機器、２２……演算処理装置、２４……記憶装置、３２……周波数解析部、３４……変換処理部、３６……波形生成部、４２……音高調整部、４４……周波数解析部、４６……声質変換部、５２……成分配置部、５４……成分調整部。

Claims

目標声質の音声を表す第１音声信号の第１基本周波数を、前記目標声質とは相違する初期声質の音声を表す第２音声信号の第２基本周波数に調整する音高調整手段と、
前記音高調整手段による調整後の第１音声信号のスペクトルを前記第２基本周波数に対応する各調波周波数で区分した複数の単位帯域成分の各々を、前記音高調整手段による調整前の第１音声信号のスペクトルのうち当該単位帯域成分に対応する成分の近傍に位置するように、前記第２基本周波数に対応する各調波周波数に配置する成分配置手段と、
前記成分配置手段による配置後の各単位帯域成分の成分値を前記第２音声信号のスペクトルの成分値に応じて調整するとともに、前記第２基本周波数に対応する前記各調波周波数を含む各特定帯域については前記第２音声信号のスペクトルの成分値を適用することで、変換スペクトルを生成する成分調整手段と
を具備する音声処理装置。
前記成分調整手段は、前記成分配置手段による配置後の各単位帯域成分のうち前記第２基本周波数に対応する調波周波数での成分値が、前記第２音声信号のスペクトルのうち当該調波周波数での成分値に合致するように、前記各単位帯域成分の成分値を調整する
請求項１の音声処理装置。
前記成分値は位相を含み、
前記成分調整手段は、前記成分配置手段による配置後の各単位帯域成分に包含される各周波数成分の時間軸上の移動量が一定となるように、当該単位帯域成分内の周波数毎に移相量を相違させる
請求項１または請求項２の音声処理装置。
前記第２基本周波数に対応する基本周期で前記音高調整手段による調整後の第１音声信号に存在する時間波形のピークに対して所定の位置関係にある分析窓により前記第１音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第１周波数解析手段と、
前記第２基本周波数に対応する基本周期で前記第２音声信号に存在する時間波形のピークに対して前所定の位置関係にある分析窓により前記第２音声信号を時間軸上で複数の単位区間に区分して当該単位区間毎にスペクトルを算定する第２周波数解析手段と
を具備する請求項１から請求項３の何れかの音声処理装置。