JP4516157B2

JP4516157B2 - 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム

Info

Publication number: JP4516157B2
Application number: JP2009554815A
Authority: JP
Inventors: 良文廣瀬; 孝浩釜井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2008-09-16
Filing date: 2009-09-11
Publication date: 2010-08-04
Anticipated expiration: 2029-09-11
Also published as: US20100217584A1; JPWO2010032405A1; CN101983402B; CN101983402A; WO2010032405A1

Description

本発明は音声の非周期成分を分析する技術に関するものである。

近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。このような合成音の用途は、例えばニュース文をアナウンサー調で読み上げる等の用途が中心である。

一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるといったサービスが提供されるなど、所定の特徴を持つ音声（個人再現性の高い合成音や、女子高生風や関西風などの特徴的な韻律および声質を持つ合成音）が一つのコンテンツとして流通しはじめている。

合成音の用途の他の側面として、個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を合成して相手に聞かせることに対する要求が高まることが考えられる。

音声の特徴を決定する要因の一つに非周期成分がある。声帯振動を有する有声音中には、ピッチパルスが繰り返し現れる周期的な成分と、その他の非周期的な成分が含まれる。この非周期的な成分は、ピッチ周期の揺らぎ、ピッチ振幅の揺らぎ、ピッチパルス波形の揺らぎ、雑音成分などが含まれる。これらの非周期的な成分は、音声の自然性に大きく影響すると共に、発声者の個人的な特徴にも大きく寄与する（非特許文献１）。

図１６（ａ）、図１６（ｂ）は、非周期成分の多さが異なる母音／ａ／のスペクトログラムである。横軸は時間であり、縦軸は周波数を表す。図１６（ａ）、図１６（ｂ）において横方向に見える帯状の線は基本周波数の整数倍の周波数の信号成分である高調波を示している。

図１６（ａ）は、非周期成分が少ない場合であり、高調波は高い周波数帯域まで確認できる。図１６（ｂ）は、非周期成分が多い場合であり、中域（Ｘ１で示す）までは高調波を確認することができるが、それ以上の周波数帯域では高調波を確認することができない。

このように非周期成分の多い音声は、ハスキーな声の場合などに多く見られる。また、子供に物語を読み聞かせるような優しい声の場合にも、非周期成分は多く見られる。

したがって、非周期成分の正確な分析は、音声の個人特徴の再現に非常に重要である。また、非周期成分を適切に変換することにより、話者変換にも応用することが可能である。

高い周波数帯域での非周期的な成分は、ピッチ振幅およびピッチ周期の揺らぎだけでなく、ピッチ波形の揺らぎおよび雑音成分の有無によっても特徴付けられ、その周波数帯域での調波構造を破壊する。この非周期的な成分が支配的である周波数帯域を特定するために、非特許文献１では、異なる複数の周波数帯域における帯域通過信号の自己相関関数の強度によって、非周期性が強い周波数帯域を判断する方法を用いている。

図１７は、非特許文献１における、音声に含まれる非周期成分を分析する音声分析装置９００の機能的な構成を示すブロック図である。

図１７の音声分析装置９００は、時間軸伸縮部９０１、帯域分割部９０２、相関関数算出部９０３ａ、９０３ｂ、・・・、９０３ｎ、境界周波数算出部９０４から構成される。

時間軸伸縮部９０１は、入力信号を所定の時間長のフレームに分割し、各フレームに対して時間軸の伸縮を行なう。

帯域分割部９０２は、時間軸伸縮部９０１により伸縮された信号を、予め決められた複数の周波数帯域それぞれの帯域通過信号に分割する。

相関関数算出部９０３ａ、９０３ｂ、・・・、９０３ｎは、帯域分割部９０２により分割された各帯域通過信号に対して、自己相関関数を算出する。

境界周波数算出部９０４は、相関関数算出部９０３ａ、９０３ｂ、・・・、９０３ｎにより算出された自己相関関数から周期的な成分が支配的である周波数帯域と非周期的な成分が支配的である周波数帯域との境界周波数を算出する。

入力音声は時間軸伸縮部９０１により時間軸が伸縮された後、帯域分割部９０２により周波数分割される。入力音声が分割された各周波数帯域の周波数成分について、自己相関関数を算出し、基本周期Ｔ₀の時間シフトにおける自己相関値を計算する。各周波数帯域の周波数成分について算出された自己相関値を基に、周期的な成分が支配的である周波数帯域と、非周期的な成分が支配的である周波数帯域とを分割する境界周波数を決定することができる。

大塚貴弘、粕谷英樹「時間周波数領域における連続音声の周期・非周期成分の性質」日本音響学会講演論文集（２００１年１０月ｐｐ．２６５−２６６．）

上述の方法で、入力音声に含まれる非周期成分を有する境界周波数を算出することができる。しかしながら、実際の応用では、必ずしも音声の収録環境が実験室のように静かであることは期待できない。例えば、携帯電話での応用を考えた場合、収録される環境は、街中や駅などの比較的雑音が多く含まれる場合が多い。

このような雑音環境下において、非特許文献１の非周期成分分析方法では、背景雑音の影響により、信号の自己相関関数が実際よりも低い値に算出されることにより、非周期成分を過大に評価してしまう問題がある。

図１８（ａ）〜図１８（ｃ）は、背景雑音により高調波が雑音に埋没する様子を説明する図である。図１８（ａ）は、実験的に背景雑音を重畳した音声信号の波形を示す。図１８（ｂ）は、背景雑音を重畳した音声信号のスペクトログラムを表し、図１８（ｃ）は、背景雑音を重畳しない本来の音声信号のスペクトログラムを表す。

本来の音声信号は、図１８（ｃ）に表されるように高調波が高周波帯域にも現れており、非周期成分は少ない。ところが背景雑音を重畳した場合、図１８（ｂ）のように音声信号が背景雑音に埋もれてしまい、高調波が見えにくくなっている。従って、従来技術における帯域通過信号の自己相関値は低下し、結果として非周期成分が実際よりも多く算出されることになる。

本発明は、前記従来の課題を解決するもので、背景雑音が存在する実用環境においても、正確に非周期成分を分析することができる分析方法を提供することを目的とする。

前記従来の課題を解決するために、本発明の音声分析装置は背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析する音声分析装置であって、前記入力信号を、複数の周波数帯域における帯域通過信号に周波数分割する周波数帯域分割部と、前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別部と、前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるＳＮ比を算出するＳＮＲ算出部と、前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出部と、前記算出されたＳＮ比に基づいて、非周期成分比率に関する補正量を決定する補正量決定部と、前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出部とを備える。

ここで、前記補正量決定部は、前記算出されたＳＮ比が小さいほど大きな補正量を、前記非周期成分比率に関する補正量として決定してもよい。また、前記非周期成分比率算出部は、前記入力信号の基本周波数の１周期の時間シフトにおける前記自己相関関数の値から前記補正量を減じた補正相関値が小さいほど大きな比率を、前記非周期成分比率として算出してもよい。

また、前記補正量決定部は、ＳＮ比と補正量との対応を表す補正規則情報を予め保持し、前記算出されたＳＮ比に対応する補正量を前記補正規則情報から参照し、参照された補正量を前記非周期成分比率に関する補正量として決定してもよい。

ここで、前記補正量決定部は、音声の自己相関値と前記音声に既知のＳＮ比の雑音を重畳した場合の自己相関値との差に基づいて学習されたＳＮ比と補正量との関係を表す近似関数を前記補正規則情報として予め保持し、前記算出されたＳＮ比から前記近似関数の値を算出し、算出された値を前記非周期成分比率に関する補正量として決定してもよい。

また、前記音声分析装置は、さらに、前記音声の基本周波数を予め定められたターゲット周波数に正規化する基本周波数正規化部を備え、前記非周期成分比率算出部は、前記基本周波数が正規化された後の音声を用いて、前記非周期成分比率を算出してもよい。

本発明は、このような音声分析装置として実現できるだけでなく、音声分析方法およびプログラムとしてとして実現することもできる。また、このような音声分析装置で補正量を決定するために用いられる補正規則情報を生成する補正規則情報生成装置、補正規則情報生成方法、およびプログラムとして実現することもできる。さらに、音声分析合成装置および音声分析システムへの応用も可能である。

本発明の音声分析装置によれば、雑音環境下において収録された音声についても、周波数帯域ごとのＳＮ比に基づいて、非周期成分比率を補正することより、雑音の非周期成分への影響を排除し、正確に非周期成分を分析することができる。

つまり、本発明の音声分析装置によれば、背景雑音が存在する街中などの実用環境下においても、正確に音声に含まれる非周期成分を分析することができる。

図１は、本発明の実施の形態１における音声分析装置の機能的な構成の一例を示すブロック図である。図２は、有声音の振幅スペクトルの一例を示す図である。図３は、有声音の複数の分割帯域それぞれの帯域通過信号の自己相関関数の一例を示す図である。図４は、有声音の基本周波数の１周期の時間シフトにおける各帯域通過信号の自己相関値の一例を示す図である。図５（ａ）〜（ｈ）は、雑音が自己相関値に与える影響を示す図である。図６は、本発明の実施の形態１における音声分析装置の動作の一例を示すフローチャートである。図７は、非周期成分が少ない音声に対する分析結果の一例を示す図である。図８は、非周期成分が多い音声に対する分析結果の一例を示す図である。図９は、本発明の応用例における音声分析合成装置の機能的な構成の一例を示すブロック図である。図１０（ａ）、（ｂ）は、音源波形とその振幅スペクトルの一例を示す図である。図１１は、音源モデル化部がモデル化する音源の振幅スペクトルを示す図である。図１２（ａ）〜（ｃ）は、合成部による音源波形の合成方法を示す図である。図１３（ａ）、（ｂ）は、非周期成分に基づいた位相スペクトルの生成方法を示す図である。図１４は、本発明の実施の形態２における補正規則情報生成装置の機能的な構成の一例を示すブロック図である。図１５は、本発明の実施の形態２における補正規則情報生成装置の動作の一例を示すフローチャートである。図１６（ａ）、（ｂ）は、非周期成分の多さの違いによるスペクトルの影響を示す図である。図１７は、従来の音声分析装置の機能的な構成を示すブロック図である。図１８（ａ）〜（ｃ）は、背景雑音により高調波が雑音に埋没する様子を示す図である。

以下本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図１は、本発明の実施の形態１における音声分析装置１００の機能的な構成の一例を示すブロック図である。

図１の音声分析装置１００は、背景雑音と音声との混合音である入力信号から、前記音声に含まれる非周期成分を分析する装置であり、雑音区間識別部１０１、有声無声判定部１０２、基本周波数正規化部１０３、周波数帯域分割部１０４、相関関数算出部１０５ａ、１０５ｂ、１０５ｃ、ＳＮＲ（ＳｉｇｎａｌＮｏｉｓｅＲａｔｉｏ）算出部１０６ａ、１０６ｂ、１０６ｃ、補正量決定部１０７ａ、１０７ｂ、１０７ｃ、および非周期成分比率算出部１０８ａ、１０８ｂ、１０８ｃから構成される。

音声分析装置１００は、例えば、中央処理装置、記憶装置などで構成されるコンピュータシステムであってもよい。その場合、音声分析装置１００の各部の機能は、前記中央処理装置が前記記憶装置に記憶されているプログラムを実行することで発揮されるソフトウェアの機能として実現される。また、音声分析装置１００の各部の機能は、デジタル信号処理装置、または専用のハードウェア装置を用いて実現することもできる。

雑音区間識別部１０１は、背景雑音と音声との混合音である入力信号を受け取る。そして、受け取った入力信号を所定の時間長ごとに複数のフレームに分割し、それぞれのフレームが、背景雑音のみが表された雑音区間としての背景雑音フレームであるか、背景雑音および音声が表された音声区間としての音声フレームであるかを識別する。

有声無声判定部１０２は、雑音区間識別部１０１により音声フレームであると識別されたフレームを入力として受け付け、入力されたフレームにおける音声が有声音であるか無声音であるかを判定する。

基本周波数正規化部１０３は、有声無声判定部１０２により有声音であると判定された声音の基本周波数を分析し、音声の基本周波数を所定のターゲット周波数に正規化する。

周波数帯域分割部１０４は、基本周波数正規化部１０３により基本周波数を所定のターゲット周波数に正規化された音声、および雑音区間識別部１０１により背景雑音フレームであると識別されたフレームに含まれ背景雑音を、予め定められた異なる複数の周波数帯域である分割帯域ごとの帯域通過信号に分割する。以下、音声および背景雑音の周波数分割に用いられる周波数帯域を分割帯域と呼ぶ。

相関関数算出部１０５ａ、１０５ｂ、１０５ｃは、周波数帯域分割部１０４により分割された各帯域通過信号の自己相関関数を算出する。

ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃは、周波数帯域分割部１０４により分割された各帯域通過信号について、音声フレームにおけるパワーと背景雑音フレームにおけるパワーとの比をＳＮ比として算出する。

補正量決定部１０７ａ、１０７ｂ、１０７ｃは、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃにより算出されたＳＮ比に基づいて、各帯域通過信号について算出される非周期成分比率に関する補正量を決定する。

非周期成分比率算出部１０８ａ、１０８ｂ、１０８ｃは、相関関数算出部１０５ａ、１０５ｂ、１０５ｃにより算出された各帯域通過信号の自己相関関数と、補正量決定部１０７ａ、１０７ｂ、１０７ｃにより決定された補正量とに基づいて、音声に含まれる非周期成分比率を、分割帯域ごとに算出する。

以下に、各部の動作について詳細に説明する。

＜雑音区間識別部１０１＞
雑音区間識別部１０１は、入力信号を所定の時間ごとに複数のフレームに分割し、分割されたそれぞれのフレームが、背景雑音のみが表された雑音区間としての背景雑音フレームであるか、背景雑音および音声が表された音声区間としての音声フレームであるかを識別する。

ここで、入力信号を例えば５０ｍｓｅｃごとに分割した各部分をフレームとしてもよい。また、フレームが背景雑音フレームであるか音声フレームであるかの識別方法は特に限定しないが、例えば、入力信号のパワーが所定の閾値を超えているフレームを音声フレームと識別し、その他のフレームを背景雑音フレームと識別してもよい。

＜有声無声判定部１０２＞
有声無声判定部１０２は、雑音区間識別部１０１によって音声フレームであると識別されたフレームにおける入力信号で表される音声が、有声音であるか無声音であるかを判定する。判定の方法は特に限定しない。例えば、音声の自己相関関数や変形相関関数のピークの大きさが予め定めたしきい値を超える場合に、有声音であると判定してもよい。

＜基本周波数正規化部１０３＞
基本周波数正規化部１０３は、有声無声判定部１０２で有声フレームであると識別されたフレームにおける入力信号で表される音声の基本周波数を分析する。分析の方法は特に限定しない。例えば、雑音の混入した音声に対して頑健な基本周波数分析方法である、瞬時周波数に基づく基本周波数分析方法（非特許文献２：Ｔ．Ａｂｅ，Ｔ．Ｋｏｂａｙａｓｈｉ，Ｓ．Ｉｍａｉ，“Ｒｏｂｕｓｔｐｉｔｃｈｅｓｔｉｍａｔｉｏｎｗｉｔｈｈａｒｍｏｎｉｃｅｎｈａｎｃｅｍｅｎｔｉｎｎｏｉｓｙｅｎｖｉｒｏｎｍｅｎｔｂａｓｅｄｏｎｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｙ”，ＡＳＶＡ９７，４２３−４３０（１９９６））を用いてもよい。

基本周波数正規化部１０３は、音声の基本周波数を分析した後、音声の基本周波数を所定のターゲット周波数に正規化する。正規化の方法は特に限定しない。例えば、ＰＳＯＬＡ（Ｐｉｔｃｈ−ＳｙｎｃｈｒｏｎｏｕｓＯｖｅｒＬａｐ−Ａｄｄ）法（非特許文献３：Ｆ．Ｃｈａｒｐｅｎｔｉｅｒ，Ｍ．Ｓｔｅｌｌａ，“Ｄｉｐｈｏｎｅｓｙｎｔｈｅｓｉｓｕｓｉｎｇａｎｏｖｅｒ−ｌａｐｐｅｄｔｅｃｈｎｉｑｕｅｆｏｒｓｐｅｅｃｈｗａｖｅｆｏｒｍｓｃｏｎｃａｔｅｎａｔｉｏｎ”，Ｐｒｏｃ．ＩＣＡＳＳＰ，２０１５−２０１８，Ｔｏｋｙｏ，１９８６）により音声の基本周波数を変更し、所定のターゲット周波数に正規化することが可能である。

これにより、韻律が自己相関関数に与える影響を軽減できる。

なお、音声を正規化する際のターゲット周波数は、特に限定しないが、例えば、ターゲット周波数を音声の所定の区間（全体であってもよい）における基本周波数の平均値に設定することで、基本周波数の正規化処理によって生じる音声の歪みを緩和することが可能となる。

例えば、ＰＳＯＬＡ法では、基本周波数を大幅に上昇させた場合は、同一ピッチ波形を繰り返し使用することになるために、過大に自己相関値を上昇させる可能性がある。一方、基本周波数を大幅に下降させた場合は、欠落するピッチ波形が多くなり、音声の情報を失う可能性がある。従って、なるべく変更する量を小さくできるようにターゲット周波数を決定することが望ましい。

＜周波数帯域分割部１０４＞
周波数帯域分割部１０４は、基本周波数正規化部１０３により基本周波数を正規化された音声、および雑音区間識別部１０１により背景雑音フレームであると識別されたフレームにおける背景雑音を、予め決定された複数の周波数帯域である分割帯域ごとの帯域通過信号に分割する。

分割の方法は特に限定しない。例えば、分割帯域ごとにフィルタを設計し、入力信号をフィルタリング処理することにより、入力信号を各帯域通過信号に分割してもよい。

分割帯域として予め決定される複数の周波数帯域は、例えば入力信号のサンプリング周波数が１１ｋＨｚである場合、０〜５．５ｋＨｚを含む周波数帯域を等間隔に８等分してなる０〜６８９Ｈｚ、６８９〜１３７８Ｈｚ、１３７８〜２０６７Ｈｚ、２０６７Ｈｚ〜２７５６Ｈｚ，２７５６〜３４４５Ｈｚ、３４４５Ｈｚ〜４１３４Ｈｚ、４１３４Ｈｚ〜４８２３Ｈｚ、および４８２３Ｈｚ〜５５１２Ｈｚの各周波数帯域であってもよい。このようにすることで、各分割帯域における帯域通過信号に含まれる非周期成分比率を個別に算出することが可能となる。

なお、本実施の形態の説明では、入力信号を８個の分割帯域それぞれの帯域通過信号に分割する例を用いるが、８個に限定せず、４個や１６個などに分割してもよい。分割帯域数を多くすることにより、非周期成分の周波数分解能を高くすることができる。ただし、分割された各帯域通過信号は、相関関数算出部１０５ａ〜１０５ｃにより自己相関関数を算出し、周期性の強度を算出するため、帯域内に複数の基本周期分の信号が含まれていることが望ましい。例えば、基本周期が２００Ｈｚの音声の場合、各分割帯域の帯域幅は４００Ｈｚ以上になるように分割するとよい。

また、周波数帯域を等間隔に分割しなくてもよく、聴覚特性に合わせて、例えばメル周波数軸を用いて不等間隔に分割してもよい。

以上の条件に合致するように入力信号の帯域を分割することが望ましい。

＜相関関数算出部１０５ａ、１０５ｂ、１０５ｃ＞
相関関数算出部１０５ａ、１０５ｂ、１０５ｃは、周波数帯域分割部１０４により分割された各帯域通過信号の自己相関関数を算出する。ｉ番目の帯域通過信号をｘ_i（ｎ）とすると、ｘ_i（ｎ）の自己相関関数φ_i（ｍ）は式１で表すことができる。

ここで、Ｍは１つのフレームに含まれる標本点の数、ｎは標本点の番号、ｍは標本点のオフセット値である。

基本周波数正規化部１０３で分析された音声の基本周波数の１周期に含まれる標本点の数をτ₀とすると、算出された自己相関関数φ_i（ｍ）のｍ＝τ₀における値が、基本周波数の１周期の時間シフトにおけるｉ番目の帯域通過信号ｘ_i（ｎ）の自己相関値を表す。つまり、φ_i（τ₀）は、ｉ番目の帯域通過信号ｘ_i（ｎ）の周期性の強さを示すことになる。従って、φ_i（τ₀）が大きいほど周期性が強く、φ_i（τ₀）が小さいほど非周期性が強いと言うことができる。

図２は、／ａ／と発声された母音区間の時間中心のフレームにおける振幅スペクトルの一例を示す図である。０〜４５００Ｈｚまでは、高調波が確認でき、周期性が強い音声であることがわかる。

図３は、母音／ａ／の中心フレームにおける１番目の帯域通過信号（周波数帯域０〜６８９Ｈｚ）の自己相関関数の一例を示す図である。図３では、φ₁（τ₀）＝０．９３が、１番目の帯域通過信号の周期性の強さとなる。同様に２番目以降の帯域通過信号の周期性も算出することができる。

低域の帯域通過信号の自己相関関数の変動は比較的緩やかであるが、高域の帯域通過信号の自己相関関数は変動が激しいため、ｍ＝τ₀において必ずしもピーク値を取るとは限らない。その場合は、ｍ＝τ₀の周辺の数個の標本点における最大値を周期性として算出するようにしてもよい。

図４は、前述の母音／ａ／の中心フレームにおける１番目から８番目までの各帯域通過信号の自己相関関数のｍ＝τ₀における値をプロットした図である。図４において、１番目から７番目までの帯域通過信号では、０．９以上という高い自己相関値を示しており、周期性が高いといえる。一方、８番目の帯域通過信号では、自己相関値が０．５程度であり、周期性が低くなっていることがわかる。このように基本周波数の１周期の時間シフトにおける各帯域通過信号の自己相関値を用いることで、音声の分割帯域ごとの周期性の強さを算出することが可能である。

＜ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃ＞
ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃは、背景雑音フレームにおける入力信号から分割された各帯域通過信号のパワーを算出し、算出されたパワーを示す値を保持すると共に、新たな背景雑音フレームのパワーを算出した場合、新たに算出されたパワーを示す値で保持されている値を更新する。これにより、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃには、直近の背景雑音のパワーが保持される。

また、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃは、音声フレームにおける入力信号から分割された各帯域通過信号のパワーを算出し、分割帯域ごとに、算出された音声フレームにおけるパワーと、保持されている直近の背景雑音フレームにおけるパワーとの比をＳＮ比として算出する。

例えば、ｉ番目の帯域通過信号について、直近の背景雑音フレームのパワーをＰ_i ^Nとし、音声フレームのパワーをＰ_i ^Sとすると、音声フレームのＳＮ比ＳＮＲ_iは、式２で算出される。

なお、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃは、所定期間または所定数の複数の背景雑音フレームについて算出されたパワーの平均値を保持し、保持されたパワーの平均値を用いてＳＮ比を算出してもよい。

＜補正量決定部１０７ａ、１０７ｂ、１０７ｃ＞
補正量決定部１０７ａ、１０７ｂ、１０７ｃは、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃにより算出されたＳＮ比に基づいて、非周期成分比率算出部１０８ａ、１０８ｂ、１０８ｃが算出する非周期成分比率の補正量を決定する。

次に具体的な補正量の決定方法について説明する。

相関関数算出部１０５ａ、１０５ｂ、１０５ｃにより算出される自己相関値φ_i（τ₀）は、背景雑音により影響を受ける。具体的には、背景雑音により帯域通過信号の振幅および位相が乱されることにより波形の周期構造が乱れる結果、自己相関値が低下する。

図５（ａ）〜図５（ｈ）は、相関関数算出部１０５ａ、１０５ｂ、１０５ｃが算出する自己相関値φ_i（τ₀）の雑音による影響を学習するための実験の結果を説明する図である。この実験では、分割帯域ごとに、雑音を付加しない音声について算出される自己相関値と、前記音声に種々の大きさの雑音を付加した混合音について算出される自己相関値とを比較した。

図５（ａ）〜図５（ｈ）の各グラフにおいて、横軸は各帯域通過信号のＳＮ比であり、縦軸は、雑音を付加しない音声について算出される自己相関値と、前記音声に雑音を付加した混合音について算出される自己相関値との差を表す。１つの点は１つのフレームにおける、雑音の有無による自己相関値の差を表す。また、白線はそれらの点を多項式によって近似した曲線を表す。

図５（ａ）〜図５（ｈ）より、ＳＮ比と自己相関値の差との間には一定の関係があることがわかる。つまり、ＳＮ比が高いほど、差は零に近づき、ＳＮ比が低いほど、差は大きくなる。さらに、この関係は各分割帯域で類似した傾向を持っていることがわかる。

この関係から、背景雑音と音声との混合音について算出された自己相関値を、ＳＮ比に応じた量補正することによって、雑音を含まない音声の自己相関値を算出することが可能になると考えられる。

ＳＮ比に応じた補正量は、ＳＮ比と雑音の有無による自己相関値の差との関係を表す上述の近似関数によって決定することが可能である。

なお、近似関数の種類は特に限定するものではなく、多項式や指数関数、対数関数などを用いることができる。

例えば、近似関数に３次の多項式を用いた場合は、補正量Ｃは、式３のようにＳＮ比（ＳＮＲ）の３次関数として表すことができる。

補正量を式３のようにＳＮ比の関数として保持する代わりに、ＳＮ比と補正量とを対応付けてテーブルで保持し、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃで算出されたＳＮ比に応じた補正量をテーブルから参照してもよい。

補正量は、周波数帯域分割部１０４で分割された帯域通過信号ごとに個別に決定してもよいし、全ての分割帯域で共通に決定してもよい。共通に決定する場合は、関数またはテーブルの記憶量を削減することができる。

＜非周期成分比率算出部１０８ａ、１０８ｂ、１０８ｃ＞
非周期成分比率算出部１０８ａ、１０８ｂ、１０８ｃは、相関関数算出部１０５ａ、１０５ｂ、１０５ｃにより算出された自己相関関数と、補正量決定部１０７ａ、１０７ｂ、１０７ｃにより決定された補正量とに基づいて非周期成分比率を算出する。

具体的には、ｉ番目の帯域通過信号の非周期成分比率ＡＰ_iを式４で定義する。

ここで、φ_i（τ₀）は相関関数算出部１０５ａ、１０５ｂ、１０５ｃで算出されたｉ番目の帯域通過信号の基本周波数の１周期の時間シフトにおける自己相関値を表し、Ｃ_iは、補正量決定部１０７ａ、１０７ｂ、１０７ｃにより決定された補正量を表す。

次に、このように構成された音声分析装置１００の動作の一例を、図６に示すフローチャートに従って説明する。

ステップＳ１０１では入力された音声を、予め決められた時間長ごとに複数のフレームに分割する。分割された各フレームに対して、ステップＳ１０２からステップＳ１１３までを実行する。

ステップＳ１０２では、雑音区間識別部１０１を用いて、フレームが音声を含む音声フレームであるか、または背景雑音のみを含む背景雑音フレームであるかを識別する。

ステップＳ１０２において、背景雑音フレームであると識別されたフレームについて、ステップＳ１０３を実行する。他方、音声フレームであると識別されたフレームについてステップＳ１０５を実行する。

ステップＳ１０３では、ステップＳ１０２で背景雑音フレームであると識別されたフレームについて、周波数帯域分割部１０４を用いて、当該フレームにおける背景雑音を予め決められた複数の周波数帯域である分割帯域それぞれの帯域通過信号に分割する。

ステップＳ１０４では、ステップＳ１０３において分割されたそれぞれの帯域通過信号のパワーを、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃを用いて算出する。算出されたパワーは、直近の背景雑音の分割帯域ごとのパワーとしてＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃに保持される。

ステップＳ１０５では、ステップＳ１０２で音声フレームであると識別されたフレームに対して、有声無声判定部１０２を用いて、当該フレームにおける音声が有声音であるか無声音であるかを判定する。

ステップＳ１０６では、ステップＳ１０５で音声が有声音であると判定されたフレームに対して、基本周波数正規化部１０３を用いて、当該フレームの音声の基本周波数を分析する。

ステップＳ１０７では、基本周波数正規化部１０３を用いて、ステップＳ１０６で分析された基本周波数を基に、音声の基本周波数を予め設定されたターゲット周波数に正規化する。

ステップＳ１０８では、ステップＳ１０７で基本周期が正規化された音声を、周波数帯域分割部１０４を用いて、背景雑音の分割に用いた分割帯域と同じ分割帯域それぞれの帯域通過信号に分割する。

ステップＳ１０９は、ステップＳ１０８で分割されたそれぞれの帯域通過信号に対して、相関関数算出部１０５ａ、１０５ｂ、１０５ｃを用いて帯域通過信号の自己相関関数を算出する。

ステップＳ１１０では、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃを用いて、ステップＳ１０８で分割された帯域通過信号と、ステップＳ１０４により保持されている直近の背景雑音のパワーからＳＮ比を算出する。具体的には式２に示すＳＮＲを算出する。

ステップＳ１１１では、ステップＳ１１０で算出されたＳＮ比を基に、各帯域通過信号の非周期成分比率を算出する際の自己相関値の補正量を決定する。具体的には、式３に示す関数の値を算出するかまたはテーブルを参照することにより補正量を決定する。

ステップＳ１１２では、非周期成分比率算出部１０８ａ、１０８ｂ、１０８ｃを用いて、ステップＳ１０９により算出された各帯域通過信号の自己相関関数と、ステップＳ１１１で決定された補正量に基づいて、非周期成分比率を分割帯域ごとに算出する。具体的には式４を用いて非周期成分比率ＡＰ_iを算出する。

ステップＳ１０２からステップＳ１１３までを各フレームについて繰り返すことにより、全ての音声フレームにおける非周期成分比率を算出することができる。

図７は、音声分析装置１００による入力音声の非周期成分の分析結果を示す図である。

図７は、非周期成分の少ない音声の有声音の１フレームの各帯域通過信号の自己相関値φ_i（τ₀）をプロットしたグラフである。図７において、グラフ（ａ）は、背景雑音を含まない音声について算出された自己相関値であり、グラフ（ｂ）は、背景雑音を加えた音声について算出された自己相関値である。グラフ（ｃ）は、背景雑音を加えた上で、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃにより算出されたＳＮ比に基づいて補正量決定部１０７ａ、１０７ｂ、１０７ｃで決定された補正量を考慮した自己相関値である。

図７から分かるように、グラフ（ｂ）では背景雑音により各帯域通過信号の位相スペクトルが乱されることにより、相関値が低下しているが、グラフ（ｃ）では、本発明の特徴構成によって自己相関値が補正される結果、雑音なしの場合とほぼ同じ自己相関値を得ることができている。

一方、図８は、非周期成分の多い音声について、同様の分析を行った場合の結果である。図８において、グラフ（ａ）は、背景雑音を含まない音声について算出された自己相関値を表し、グラフ（ｂ）は、背景雑音を加えた音声について算出された自己相関値を表す。グラフ（ｃ）は、背景雑音を加えた上で、ＳＮＲ算出部１０６ａ、１０６ｂ、１０６ｃにより算出されたＳＮ比に基づいて補正量決定部１０７ａ、１０７ｂ、１０７ｃで決定された補正量を考慮した自己相関値を表す。

図８に示す分析結果が得られた音声は、高域の非周期性が多い音声であるが、図７に示す分析結果と同様、補正量決定部１０７ａ、１０７ｂ、１０７ｃにより決定された補正量を考慮することにより、雑音を付加しない音声の自己相関値を表すグラフ（ａ）とほぼ同じ自己相関値を得ることができる。

つまり、非周期成分が多い音声、および非周期成分が少ない音声のいずれについても、雑音による自己相関値への影響を良好に補正し、正確に非周期成分比率を分析することが可能となる。

以上のことから、本発明の音声分析装置によれば、背景雑音が存在する雑踏などの実用環境下においても、雑音の影響を除去し正確に音声に含まれる非周期成分比率を分析することができる。

さらに、補正量は分割帯域ごとに、帯域通過信号のパワーと背景雑音のパワーとの比であるＳＮ比を基に決定するため、予め雑音の種類を特定することなく、処理することができる。つまり、背景雑音の種類が白色雑音であるかピンク雑音であるかなどの事前知識がなくとも非周期成分比率を正確に分析することが可能である。

また、分析の結果得られた分割帯域ごとの非周期成分比率を発声者の個人特徴として利用することで、例えば発声者に似せた合成音声の生成や発声者の個人識別を行うことができる。背景雑音が存在する環境下で音声の非周期成分比率が正確に分析できることは、非周期成分比率を利用したそのような応用にも優れた効果をもたらす。

例えば、カラオケなどにおける声質変換への応用において、発声者の音声を、他の発声者の声質に似せて変換する場合を考えると、カラオケルームなどで不特定多数の人による背景雑音が存在する場合においても、発声者の音声の非周期成分比率を正確に分析できることにより、変換後の音声が他の発声者の声質によく類似するという効果が得られる。

また、携帯電話を用いた個人識別への応用において、識別すべき音声が駅などの雑踏で発せられた場合でも非周期成分比率を正確に分析できることにより、高信頼度の個人識別を行なうことができるという効果が得られる。

以上説明したように、本発明にかかる音声分析装置によれば、背景雑音と音声との混合音を複数の帯域通過信号に周波数分割し、各帯域通過信号について算出される自己相関値を、帯域通過信号のＳＮ比に応じた補正量で補正した後の自己相関値を用いて非周期成分比率を算出するので、背景雑音が存在する実用環境下においても、音声そのものの非周期成分比率を分割帯域ごとに正確に分析することができる。

各帯域通過信号の非周期成分比率は、発声者の個人特徴として、発声者に似せた合成音声の生成や発声者の個人識別に利用できる。本発明にかかる音声分析装置を用いることで、非周期成分比率を利用するそのような応用において、合成音声の発声者類似性を高め、また個人識別の信頼度を向上することができる。

（音声分析合成装置への応用例）
以下に、本発明の音声分析装置の応用例として、分析で得られた非周期成分比率を用いて合成音声を生成する音声分析合成装置および方法について説明する。

図９は、本発明の応用例における音声分析合成装置５００の機能的な構成の一例を示すブロック図である。

図９の音声分析合成装置５００は、背景雑音と第１音声との混合音を表す第１入力信号、および第２音声を表す第２入力信号を分析し、第２入力信号で表される第２音声に第１入力信号で表される第１音声の非周期成分を再現する装置であり、音声分析装置１００、声道特徴分析部５０１、逆フィルタ部５０２、音源モデル化部５０３、合成部５０４、および非周期成分スペクトル算出部５０５から構成される。

なお、第１音声と、第２音声は、同一の音声でもよい。その場合は、第１音声の非周期成分は、第２音声の同じ時刻に適用される。第１音声と第２音声が異なる場合は、第１音声と第２音声の時間的対応を予め取得し、対応する時刻の非周期成分を再現することになる。

音声分析装置１００は、図１に示す音声分析装置１００であり、複数の分割帯域それぞれについて、第１入力信号で表される第１音声の非周期成分比率を出力する。

声道特徴分析部５０１は、第２入力信号で表される第２音声に対してＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析を行い、第２音声の発声者の声道特徴に相当する線形予測係数を算出する。

逆フィルタ部５０２は、声道特徴分析部５０１により分析された線形予測係数を用いて、第２入力信号で表される第２音声の逆フィルタリングを行ない、第２音声の発声者の音源特徴に相当する逆フィルタ波形を算出する。

音源モデル化部５０３は、逆フィルタ部５０２により出力された音源波形をモデル化する。

非周期成分スペクトル算出部５０５は、音声分析装置１００の出力である周波数帯域別の非周期成分比率から、非周期成分比率の大きさの周波数分布を表す非周期成分スペクトルを算出する。

合成部５０４は、声道特徴分析部５０１により分析された線形予測係数と、音源モデル化部５０３により分析された音源パラメータと、非周期成分スペクトル算出部５０５により算出された非周期成分スペクトルとを入力として受付け、第２音声に第１音声の非周期成分を合成する。

＜声道特徴分析部５０１＞
声道特徴分析部５０１は、第２入力信号で表される第２音声に対して線形予測分析を行う。線形予測分析は、音声波形のある標本値ｙ_nをそれより前のｐ個の標本値から予測する処理であり、予測に用いるモデル式は式５のように表せる。

ｐ個の標本値に対する係数α_iは、相関法や共分散法などを用いることにより算出できる。算出した係数α_iを用いてｚ変換を定義することにより、音声信号は式６で表すことができる。

ここで、Ｕ（ｚ）は、入力音声Ｓ（ｚ）を１／Ａ（ｚ）で逆フィルタリングした信号を表す。

＜逆フィルタ部５０２＞
逆フィルタ部５０２は、声道特徴分析部５０１により分析された線形予測係数を用いて、その周波数応答の逆特性を持つフィルタを形成し、第２入力信号で表される第２音声をフィルタリングすることにより、音声の音源波形を抽出する。

＜音源モデル化部５０３＞
図１０（ａ）は、逆フィルタ部５０２から出力された波形の一例を示す図である。図１０（ｂ）は、その振幅スペクトルを示す図である。

逆フィルタは、音声から声道（ｖｏｃａｌｔｒａｃｔ）の伝達特性（ｔｒａｎｓｆｅｒｃｈａｒａｃｔｅｒｉｓｔｉｃｓ）を除去することによって声帯音源の情報を推定する演算を表す。ここでは、Ｒｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデルなどで仮定される微分声門体積流波形（ｄｉｆｆｅｒｅｎｔｉａｔｅｄｇｌｏｔｔａｌｖｏｌｕｍｅｖｅｌｏｃｉｔｙｗａｖｅｆｏｒｍ）に類似した時間波形が得られている。Ｒｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデルの波形よりも微細な構造を有しているが、これはＲｏｓｅｎｂｅｒｇ−Ｋｌａｔｔモデルが単純な関数を用いたモデルであり、個々の声帯波形が持つ時間的な変動や、それ以外の複雑な振動を表現することができないためである。

このようにして推定された声帯音源波形（以下、音源波形）を、次のような方法でモデル化する。

１．音源波形の声門閉鎖時刻を１ピッチ周期毎に推定する。推定には、例えば特許文献1：特許第３５７６８００号に開示される方法を用いることができる。

２．声門閉鎖時刻を中心にピッチ周期ごとに切り出しを行う。切り出しにはピッチ周期の２倍程度の長さのＨａｎｎｉｎｇ窓関数を用いる。

３．切り出された波形を離散フーリエ変換（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ、以下ＤＦＴ）により周波数領域（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎ）の表現に変換する。

４．ＤＦＴの各周波数成分から位相成分を除去することにより振幅スペクトル情報を作る。位相成分を除去するには複素数で表された周波数成分を次の式７によって絶対値に置き換える。

ここでｚは絶対値、ｘは実数部、ｙは虚数部を表す。

図１１は、このようにして作成された音源の振幅スペクトルを表す図である。

図１１において、実線のグラフは、連続波形に対してＤＦＴを行った場合の振幅スペクトルを表す。連続波形には基本周波数に伴う倍音構造が含まれるため、得られる振幅スペクトルは複雑に変化し、基本周波数などの変更処理が難しい。一方、破線のグラフは、音源モデル化部５０３を用いて、１ピッチ周期を切り出した孤立波形に対してＤＦＴを行なった場合の振幅スペクトルを表す。

図１１からも分かるように、孤立波形に対してＤＦＴを行うことで、基本周期の影響を受けずに、連続波形の振幅スペクトルの包絡に対応した振幅スペクトルを得ることができる。このようにして取得した音源の振幅スペクトルを用いることにより、基本周波数などの音源情報の変更が可能となる。

＜合成部５０４＞
合成部５０４は、声道特徴分析部５０１により分析されたフィルタを、音源モデル化部により分析された音源パラメータに基づく音源で駆動し、合成音声を生成する。このとき、本発明の音声分析装置により分析された非周期成分比率を用いて、音源波形の位相情報を変換することにより、第１音声に含まれる非周期成分を合成音声中に再現する。音源波形の生成方法の一例について、詳細を図１２（ａ）〜図１２（ｃ）を用いて説明する。

音源モデル化部５０３によりモデル化された音源パラメータの振幅スペクトルを、図１２（ａ）のようにナイキスト周波数（サンプリング周波数の２分の１）を境に折り返し、対称な振幅スペクトルを作成する。

こうして作成された振幅スペクトルをＩＤＦＴ（ＩｎｖｅｒｓｅＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）によって時間波形に変換する。このようにして変換された波形は図１２（ｂ）のように左右が対称の１ピッチ周期分の波形であるので、これを図１２（ｃ）のように所望のピッチ周期になるように重ね合わせて配置することにより一連の音源波形を生成する。

図１２（ａ）の振幅スペクトルは位相情報を有していない。この振幅スペクトルに対し、音声分析装置１００により第１音声を分析して得られた周波数帯域毎の非周期成分比率を用いて、周波数分布を持った位相情報（以下、位相スペクトルという）を付加することにより、第２音声に対して第１音声の非周期成分を合成することが可能となる。

以下、図１３（ａ）、図１３（ｂ）を用いて位相スペクトルの付加の方法を説明する。

図１３（ａ）は、縦軸を位相、横軸を周波数として、位相スペクトルθ_rの一例をプロットしたグラフである。実線のグラフは、音源のある１ピッチ周期の波形に対して付加すべき位相スペクトルを表しており、周波数帯域を制限された乱数系列である。また、ナイキスト周波数を境に点対称とする。破線のグラフは、その乱数系列に与えたゲインを表す。図１３（ａ）では、低い周波数から高い周波数（ナイキスト周波数）にかけて増加するカーブでゲインを与えている。このゲインは、非周期成分の大きさの周波数分布に従って与えられる。

非周期成分の大きさの周波数分布を非周期成分スペクトルと呼び、図１３（ｂ）に示すように周波数帯域ごとに算出された非周期成分比率を周波数軸において補間することによって求める。図１３（ｂ）では、一例として、４つの周波数帯域それぞれについて算出された非周期成分比率ＡＰ_iを周波数軸において線形補間した非周期成分スペクトルｗη（ｌ）を示している。補間を行わず、各周波数帯域の非周期成分比率ＡＰ_iを周波数帯域内の全ての周波数として用いてもよい。

具体的には、１ピッチ周期分の音源波形ｇ（ｎ）（例えば図１２（ｂ））の群遅延をランダマイズした音源波形ｇ’（ｎ）を求める場合、位相スペクトルθ_rを式８ａ〜式８ｃのように設定する。

ここで、ＮはＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）サイズ、ｒ（ｌ）は周波数帯域を制限された乱数系列、σ_rはｒ（ｌ）の標準偏差、ｗη（ｌ）は周波数ｌにおける非周期成分比率である。図１３（ａ）は、生成された位相スペクトルθ_rの一例である。

以上のように生成された位相スペクトルθ_rを用いると、非周期成分を付加した音源波形ｇ’（ｎ）は、式９ａ、式９ｂに従って生成することが可能である。

ここで、Ｇ（２π／Ｎ・ｋ）はｇ（ｎ）のＤＦＴ係数であり、式１０で表される。

以上のように生成された位相スペクトルθ_rに応じた非周期成分を付加した音源波形ｇ’（ｎ）を用いて、１ピッチ周期分の波形を合成することができる。これを図１２（ｃ）と同様にピッチ周期になるように重ね合わせて配置することにより一連の音源波形を生成する。乱数系列には毎回異なる系列を用いる。

このようにして生成された音源波形を、合成部５０４を用いて、声道特徴分析部５０１により分析された声道フィルタを駆動することにより、非周期成分を付加した音声を生成することができる。このため、各周波数帯域に対応したランダムな位相を付加することにより、有声音源に気息性（ｂｒｅａｔｈｉｎｅｓｓ）や柔らかさ（ｓｏｆｔｎｅｓｓ）を付加することができる。

従って、雑音環境下において発声された音声を用いた場合においても、個人特徴である気息性（ｂｒｅａｔｈｉｎｅｓｓ）や柔らかさ（ｓｏｆｔｎｅｓｓ）などの非周期成分を再現することが可能となる。

（実施の形態２）
実施の形態１では、雑音により音声の自己相関値が影響を受ける量（すなわち、音声について算出される自己相関値と前記音声と雑音との混合音について算出される自己相関値との差の大きさ）と、前記音声と前記雑音とのＳＮ比との間に、適切な補正規則情報（例えば、３次多項式で表される近似関数）で表すことができる一定の関係があることを説明した。

また、音声分析装置１００の補正量決定部１０７ａ〜１０７ｃは、背景雑音と音声との混合音について算出された自己相関値を、前記補正規則情報からＳＮ比に応じて決まる補正量で補正することにより、雑音を含まない音声の自己相関値を算出することを説明した。

本発明の実施の形態２では、音声分析装置１００の補正量決定部１０７ａ〜１０７ｃにおいて補正量の決定に用いられる補正規則情報を生成する補正規則情報生成装置について説明する。

図１４は、本発明の実施の形態２における補正規則情報生成装置２００の機能的な構成の一例を示すブロック図である。図１４には、補正規則情報生成装置２００とともに、実施の形態１で説明した音声分析装置１００が示されている。

図１４の補正規則情報生成装置２００は、予め用意された音声を表す入力信号と予め用意された雑音を表す入力信号とから、前記音声の自己相関値と前記音声と前記雑音との混合音の自己相関値との差と、ＳＮ比との関係を表す補正規則情報を生成する装置であり、有声無声判定部１０２、基本周波数正規化部１０３、加算器３０２、周波数帯域分割部１０４ｘ、１０４ｙ、相関関数算出部１０５ｘ、１０５ｙ、差分器３０３、ＳＮＲ算出部１０６、および補正規則情報生成部３０１から構成される。

補正規則情報生成装置２００の構成要素のうち、音声分析装置１００の構成要素と共通の機能を持つ構成要素には、共通の符号を付して示す。

補正規則情報生成装置２００は、例えば、中央処理装置、記憶装置などで構成されるコンピュータシステムであってもよい。その場合、補正規則情報生成装置２００の各部の機能は、前記中央処理装置が前記記憶装置に記憶されているプログラムを実行することで発揮されるソフトウェアの機能として実現される。また、補正規則情報生成装置２００の各部の機能は、デジタル信号処理装置、または専用のハードウェア装置を用いて実現することもできる。

補正規則情報生成装置２００における有声無声判定部１０２は、予め用意された音声を所定の時間長ごとに表す複数の音声フレームを受け取り、受け取った各音声フレームにおける音声が有声音であるか無声音であるかを判定する。

周波数帯域分割部１０４ｘは、基本周波数正規化部１０３により基本周波数を所定のターゲット周波数に正規化された音声を、予め定められた異なる複数の周波数帯域である分割帯域ごとの帯域通過信号に分割する。

加算器３０２は、予め用意された雑音を表す雑音フレームと、基本周波数正規化部１０３により基本周波数を所定のターゲット周波数に正規化された音声を表す音声フレームとを混合することにより、前記雑音と前記音声との混合音を表す混合音フレームを合成する。

周波数帯域分割部１０４ｙは、加算器３０２で合成された混合音を、周波数帯域分割部１０４ｘで用いられる分割帯域と同じ分割帯域ごとの帯域通過信号に分割する。

ＳＮＲ算出部１０６は、分割帯域ごとに、周波数帯域分割部１０４ｘにより得られた音声データの各帯域通過信号と、周波数帯域分割部１０４ｙにより得られた混合音の帯域通過信号とのパワーの比をＳＮ比として算出する。ＳＮ比は、分割帯域ごと、かつフレームごとに算出される。

相関関数算出部１０５ｘは、周波数帯域分割部１０４ｘにより得られた音声データの各帯域通過信号の自己相関関数を算出することにより自己相関値を求め、相関関数算出部１０５ｙは、周波数帯域分割部１０４ｙにより得られた音声と雑音との混合音の各帯域通過信号の自己相関関数を算出することにより自己相関値を求める。それぞれの自己相関値は、基本周波数正規化部１０３による分析結果である音声の基本周波数の１周期の時間シフトにおける自己相関関数の値として求められる。

差分器３０３は、相関関数算出部１０５ｘで求めた音声の各帯域通過信号の自己相関値と、相関関数算出部１０５ｙで求めた各混合音の対応する帯域通過信号の自己相関値との差を算出する。差は、分割帯域ごと、かつフレームごとに算出される。

補正規則情報生成部３０１は、分割帯域ごとに、雑音により音声の自己相関値が影響を受ける量（すなわち、差分器３０３により算出された差）と、ＳＮＲ算出部１０６により算出されたＳＮ比との関係を表す補正規則情報を生成する。

次に、このように構成された補正規則情報生成装置２００の動作の一例を、図１５に示すフローチャートに従って説明する。

ステップＳ２０１では、雑音フレームと複数の音声フレームとを受け取り、受け取った音声フレームのそれぞれと雑音フレームとの組に対して、ステップＳ２０２からステップＳ２１０までを実行する。

ステップＳ２０２では、有声無声判定部１０２を用いて、対象としている音声フレームにおける音声が有声音であるか無声音であるかを判定する。有声音と判定された場合は、ステップＳ２０３からステップＳ２１０を実行する。無声音と判定された場合には、次の組の処理を行なう。

ステップＳ２０３では、ステップＳ２０２で音声が有声音であると判定されたフレームに対して、基本周波数正規化部１０３を用いて、当該フレームの音声の基本周波数を分析する。

ステップＳ２０４では、基本周波数正規化部１０３を用いて、ステップＳ２０３で分析された基本周波数を基に、音声の基本周波数を予め設定されたターゲット周波数に正規化する。

正規化するターゲット周波数は特に限定されるものではなく、予め決められた周波数に正規化してもよく、また、入力された音声の平均的な基本周波数に正規化するようにしてもよい。

ステップＳ２０５では、ステップＳ２０４で基本周期が正規化された音声を、周波数帯域分割部１０４ｘを用いて、分割帯域ごとの帯域通過信号に分割する。

ステップＳ２０６では、ステップＳ２０５で音声から分割されたそれぞれの帯域通過信号の自己相関関数を、相関関数算出部１０５ｘを用いて算出し、ステップＳ２０３で算出された基本周波数の逆数で表される基本周期の位置における自己相関関数の値を音声の自己相関値とする。

ステップＳ２０７では、ステップＳ２０４で基本周波数が正規化された音声フレームと、雑音フレームとを混合し、混合音を生成する。

ステップＳ２０８では、ステップＳ２０７で生成された混合音を、周波数帯域分割部１０４ｙを用いて、分割帯域ごとの帯域通過信号に分割する。

ステップＳ２０９では、ステップＳ２０８で混合音から分割されたそれぞれの各帯域通過信号の自己相関関数を、相関関数算出部１０５ｙを用いて算出し、ステップＳ２０３で算出した基本周波数の逆数で表される基本周期の位置における自己相関関数の値を混合音の自己相関値とする。

なお、ステップＳ２０５〜Ｓ２０６の処理と、ステップＳ２０７〜Ｓ２０９の処理とは、並行して実行してもよく、逐次実行してもよい。

ステップＳ２１０では、ステップＳ２０５で算出された音声の帯域通過信号と、ステップＳ２０８で算出された混合音の帯域通過信号とから、ＳＮＲ算出部１０６を用いて、分割帯域ごとにＳＮ比を算出する。算出の方法は、式２に示すように実施の形態１と同じ方法でよい。

ステップＳ２１１では、音声フレームと雑音フレームとの全ての組に対してステップＳ２０２からステップＳ２１０までの処理が実行されるまで繰り返しを制御する。その結果、分割帯域ごとかつフレームごとに、音声と雑音とのＳＮ比、音声の自己相関値、および混合音の自己相関値が求まる。

ステップＳ２１２では、補正規則情報生成部３０１を用いて、分割帯域ごとかつフレームごとに求められた、音声と雑音とのＳＮ比、混合音の自己相関値、および音声の自己相関値から補正規則情報を生成する。

具体的には、ステップＳ２０３で算出された音声の自己相関値とステップＳ２０９で算出された混合音の自己相関値との差である補正量と、ステップＳ２１０で算出された音声フレームと混合音フレームとのＳＮ比とを、分割帯域ごとかつフレームごとに保持することにより、図５（ａ）〜（ｈ）に示すような分布を得る。

この分布を表す補正規則情報を生成する。例えば、この分布を式３に示すような３次の多項式で近似する場合、回帰分析により多項式の各係数が補正規則情報として生成される。なお、実施の形態１で述べたように、補正規則情報は、ＳＮ比と補正量とを対応付けて保持したテーブルで表してもよい。このようにして、分割帯域ごとに、ＳＮ比から自己相関値の補正量を示す補正規則情報（例えば近似関数やテーブル）が生成される。

以上のようにして生成された補正規則情報は、音声分析装置１００の補正量決定部１０７ａ〜１０７ｃへ出力される。音声分析装置１００は、与えられた補正規則情報を用いて動作することにより、背景雑音が存在する雑踏などの実環境下においても、雑音の影響を除去し正確に音声に含まれる非周期成分を分析することができる。

さらに、補正量は分割帯域ごとの帯域通過信号と帯域別雑音とのパワー比で算出するため、予め雑音の種類を特定する必要がない。つまり、背景雑音の種類が白色雑音であるかピンク雑音であるかなどの事前知識がなくとも非周期成分を正確に分析することが可能であるという効果を有する。

本発明にかかる音声分析装置は、背景雑音が存在する実用環境下においても音声に含まれる個人特徴である非周期成分比率を正確に分析する装置として有用である。また、分析した非周期成分比率を個人特徴として利用した音声合成および個人識別などへの応用としても有用である。

１００、９００音声分析装置
１０１雑音区間識別部
１０２有声無声判定部
１０３基本周波数正規化部
１０４、１０４ｘ、１０４ｙ周波数帯域分割部
１０５ａ、１０５ｂ、１０５ｃ、１０５ｘ、１０５ｙ相関関数算出部
１０６、１０６ａ、１０６ｂ、１０６ｃＳＮＲ算出部
１０７ａ、１０７ｂ、１０７ｃ補正量決定部
１０８ａ、１０８ｂ、１０８ｃ非周期成分比率算出部
２００補正規則情報生成装置
３０１補正規則情報生成部
３０２加算器
３０３差分器
５００音声分析合成装置
５０１声道特徴分析部
５０２逆フィルタ部
５０３音源モデル化部
５０４合成部
５０５非周期成分スペクトル算出部
９０１時間軸伸縮部
９０２帯域分割部
９０３ａ、９０３ｂ、９０３ｎ相関関数算出部
９０４境界周波数算出部

Claims

背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析する音声分析装置であって、
前記入力信号を、複数の周波数帯域における帯域通過信号に周波数分割する周波数帯域分割部と、
前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別部と、
前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるＳＮ比を算出するＳＮＲ算出部と、
前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出部と、
前記算出されたＳＮ比に基づいて、非周期成分比率に関する補正量を決定する補正量決定部と、
前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出部と
を備える音声分析装置。
前記補正量決定部は、前記算出されたＳＮ比が小さいほど大きな補正量を、前記非周期成分比率に関する補正量として決定する
請求項１に記載の音声分析装置。
前記非周期成分比率算出部は、前記入力信号の基本周波数の１周期の時間シフトにおける前記自己相関関数の値から前記補正量を減じた補正相関値が小さいほど大きな比率を、前記非周期成分比率として算出する
請求項１に記載の音声分析装置。
前記補正量決定部は、ＳＮ比と補正量との対応を表す補正規則情報を予め保持し、前記算出されたＳＮ比に対応する補正量を前記補正規則情報から参照し、参照された補正量を前記非周期成分比率に関する補正量として決定する
請求項１に記載の音声分析装置。
前記補正量決定部は、音声の自己相関値と前記音声に既知のＳＮ比の雑音を重畳した場合の自己相関値との差に基づいて学習されたＳＮ比と補正量との関係を表す近似関数を前記補正規則情報として予め保持し、前記算出されたＳＮ比から前記近似関数の値を算出し、算出された値を前記非周期成分比率に関する補正量として決定する
請求項１に記載の音声分析装置。
さらに、前記音声の基本周波数を予め定められたターゲット周波数に正規化する基本周波数正規化部を備え、
前記非周期成分比率算出部は、前記基本周波数が正規化された後の音声を用いて、前記非周期成分比率を算出する
請求項１に記載の音声分析装置。
前記基本周波数正規化部は、前記音声の基本周波数を、前記音声の所定の単位の基本周波数の平均値に正規化する
請求項６に記載の音声分析装置。
前記所定の単位は、音素、音節、モーラ、アクセント句、フレーズ、全文のいずれかである
請求項７に記載の音声分析装置。
背景雑音と第１音声との混合音を表す第１入力信号から、前記第１音声に含まれる非周期成分を分析して、前記分析された非周期成分を第２入力信号により表される第２音声に合成する音声分析合成装置であって、
前記第１入力信号を、複数の周波数帯域における帯域通過信号に周波数分割する周波数帯域分割部と、
前記第１入力信号が前記背景雑音のみを表す雑音区間と、前記第１入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別部と、
前記音声区間における前記第１入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記第１入力信号から分割された各帯域通過信号のパワーとの比であるＳＮ比を算出するＳＮＲ算出部と、
前記音声区間における前記第１入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出部と、
前記算出されたＳＮ比に基づいて、非周期成分比率に関する補正量を決定する補正量決定部と、
前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記第１音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出部と、
前記複数の周波数帯域についてそれぞれ算出された非周期成分比率に基づいて非周期成分の周波数分布を表す非周期成分スペクトルを算出する非周期成分スペクトル算出部と、
前記第２音声に関する声道特徴を分析する声道特徴分析部と、
前記分析された声道特徴の逆特性と用いて前記第２音声を逆フィルタリングすることにより、前記第２音声の音源波形を抽出する逆フィルタ部と、
前記抽出された音源波形をモデル化する音源モデル化部と、
前記分析された声道特徴と、前記モデル化された音源特徴と、前記算出された非周期成分スペクトルとに基づいて音声を合成する合成部と
を備える音声分析合成装置。
音声を表す入力信号と雑音を表す入力信号とを、それぞれ同じ複数の周波数帯域である分割帯域ごとの帯域通過信号に周波数分割する周波数帯域分割部と、
分割された前記各帯域通過信号から、前記分割帯域ごとに、異なる複数の時間区間のそれぞれにおける前記音声のパワーと前記雑音のパワーとの比であるＳＮ比を算出するＳＮＲ算出部と、
分割された前記各帯域通過信号から、前記分割帯域ごとに、前記複数の時間区間のそれぞれにおける前記音声の自己相関値および前記雑音の自己相関値を算出する相関関数算出部と、
算出された前記ＳＮ比、前記音声の自己相関値、および前記雑音の自己相関値から、前記分割帯域ごとに、前記音声の自己相関値と前記雑音の自己相関値との差と、前記ＳＮ比との対応を表す補正規則情報を生成する補正規則情報生成部と
を備える補正規則情報生成装置。
請求項１に記載の音声分析装置と、
請求項１０に記載の補正規則情報生成装置とを備え、
前記音声分析装置は、算出されたＳＮ比に対応する補正量を、前記補正規則情報生成装置で生成された補正規則情報から参照し、参照された補正量を非周期成分比率に関する補正量として決定する
音声分析システム。
背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析する音声分析方法であって、
前記入力信号を、複数の周波数帯域における帯域通過信号に分割する周波数帯域分割ステップと、
前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別ステップと、
前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるＳＮ比を算出するＳＮＲ算出ステップと、
前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出ステップと、
前記算出されたＳＮ比に基づいて、非周期成分比率に関する補正量を決定する補正量決定ステップと、
前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出ステップと
を備える音声分析方法。
音声を表す入力信号と雑音を表す入力信号とを、それぞれ同じ複数の周波数帯域である分割帯域ごとの帯域通過信号に周波数分割する周波数帯域分割ステップと、
分割された前記各帯域通過信号から、前記分割帯域ごとに、異なる複数の時間区間のそれぞれにおける前記音声のパワーと前記雑音のパワーとの比であるＳＮ比を算出するＳＮＲ算出ステップと、
分割された前記各帯域通過信号から、前記分割帯域ごとに、前記複数の時間区間のそれぞれにおける前記音声の自己相関値および前記雑音の自己相関値を算出する相関関数算出ステップと、
算出された前記ＳＮ比、前記音声の自己相関値、および前記雑音の自己相関値から、前記分割帯域ごとに、前記音声の自己相関値と前記雑音の自己相関値との差と、前記ＳＮ比との対応を表す補正規則情報を生成する補正規則情報生成ステップと
を含む補正規則情報生成方法。
背景雑音と音声との混合音を表す入力信号から、前記音声に含まれる非周期成分を分析するための、コンピュータ実行可能なプログラムであって、
前記入力信号を、複数の周波数帯域における帯域通過信号に分割する周波数帯域分割ステップと、
前記入力信号が前記背景雑音のみを表す雑音区間と、前記入力信号が前記背景雑音および前記音声を表す音声区間とを識別する雑音区間識別ステップと、
前記音声区間における前記入力信号から分割された各帯域通過信号のパワーと、前記雑音区間における前記入力信号から分割された各帯域通過信号のパワーとの比であるＳＮ比を算出するＳＮＲ算出ステップと、
前記音声区間における前記入力信号から分割された各帯域通過信号の自己相関関数を算出する相関関数算出ステップと、
前記算出されたＳＮ比に基づいて、非周期成分比率に関する補正量を決定する補正量決定ステップと、
前記決定された補正量と、前記算出された自己相関関数とに基づいて、前記音声に含まれる非周期成分比率を、前記複数の周波数帯域についてそれぞれ算出する非周期成分比率算出ステップと
をコンピュータに実行させることを特徴とするプログラム。
音声を表す入力信号と雑音を表す入力信号とを、それぞれ同じ複数の周波数帯域である分割帯域ごとの帯域通過信号に周波数分割する周波数帯域分割ステップと、
分割された前記各帯域通過信号から、前記分割帯域ごとに、異なる複数の時間区間のそれぞれにおける前記音声のパワーと前記雑音のパワーとの比であるＳＮ比を算出するＳＮＲ算出ステップと、
分割された前記各帯域通過信号から、前記分割帯域ごとに、前記複数の時間区間のそれぞれにおける前記音声の自己相関値および前記雑音の自己相関値を算出する相関関数算出ステップと、
算出された前記ＳＮ比、前記音声の自己相関値、および前記雑音の自己相関値から、前記分割帯域ごとに、前記音声の自己相関値と前記雑音の自己相関値との差と、前記ＳＮ比との対応を表す補正規則情報を生成する補正規則情報生成ステップと
をコンピュータに実行させることを特徴とするプログラム。