JP4603727B2 - 音響信号分析方法及び装置 - Google Patents
音響信号分析方法及び装置 Download PDFInfo
- Publication number
- JP4603727B2 JP4603727B2 JP2001182404A JP2001182404A JP4603727B2 JP 4603727 B2 JP4603727 B2 JP 4603727B2 JP 2001182404 A JP2001182404 A JP 2001182404A JP 2001182404 A JP2001182404 A JP 2001182404A JP 4603727 B2 JP4603727 B2 JP 4603727B2
- Authority
- JP
- Japan
- Prior art keywords
- impulse response
- input
- registered
- acoustic signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音響信号を高精度に分析する技術に関するものであり、特に分析対象である音響信号の周波数特性に応じて周波数軸を変換することにより、音響信号を高精度に分析する方法及び装置に関するものである。
【0002】
【従来の技術】
音響信号の周波数帯域を圧縮あるいは伸長するよう周波数軸を変換した後に分析を行う手法として、メル線形予測分析(以後、メルLPC(LPC:Linear Predictive Coding)分析と呼ぶ)がある(例えば特開平11-327600号公報)。これは、低域の周波数成分を重視しているという人間の聴覚特性を反映した分析手法として、主に音声認識において用いられており、メルスケールあるいはバークスケールに周波数を非線形変換した後にLPC分析を行う手法である。この変換は、1次オールパスフィルタを用いることにより実現することができ、低域の周波数軸を伸長することにより周波数分解能が改善される為、通常のLPC分析に比べて高い音声認識率を得ることができる。
以下、メルLPC分析について簡単に説明する。1次オールパスフィルタからなる伝達関数A(z)は、次式で与えられる。
【0003】
【数1】
ここで、zはZ変換の演算子を表す。この伝達関数の振幅特性は、全ての周波数ωにおいて、
【数2】
となり、また位相特性は、
【数3】
となる。
【0004】
式(1)の伸縮係数αをサンプリング周波数に応じた適当な値に設定する(例えばメルの場合はサンプリング周波数8kHzではα=0.31)ことにより、メルまたはバークスケールを近似できることが知られている。
【発明が解決しようとする課題】
しかし、上記メルLPC分析では、定義式(1)から分かるように、伸縮係数αを変化させても伸縮の割合を変化させることができるのみであり、入力信号の周波数特性に応じて特定の周波数帯域を伸縮させることはできない。
【0005】
この為、例えば図1に示す電話回線の周波数特性が重畳された音声信号のように、300Hz以下及び3000Hz以上の周波数帯域において信号強度が減衰してしまった信号に対してメルLPC分析を行った場合、3000Hz以上の周波数帯域を圧縮することができるのみであり、300Hz以下の周波数帯域は通常のLPC分析に比べて約2倍に伸長されてしまう。この結果、相対的に300Hz〜3000Hzの周波数帯域における分析精度が低下してしまう。尚、図において横軸は周波数を、縦軸は強度を表している。
【0006】
また、例えば音声を用いた個人照合装置において、他人とは異なる、登録話者に特有なスペクトル形状を有する周波数帯域に関する知見が得られた場合であっても、上記メルLPC分析では低域における伸長の度合を調整することができるのみであり、注目すべき周波数帯域を任意に選択的し、これを伸長することはできない。
【0007】
更に、例えばLPC分析に基づく手法により音響信号を圧縮する装置において、ヴァイオリンやフルートといった低域周波数成分が殆ど存在しない楽器による演奏を圧縮対象とした場合、LPC分析あるいはメルLPC分析では音響信号が存在しない低域周波数に対しても均等に重み付けを行う、あるいは低域を伸長するのみである為、音響信号を効率的に圧縮することができない。
【0008】
本発明は、上記問題点を解決するものであり、対象である音響信号の周波数特性に応じた高精度な周波数分析を行うことを可能とする音響信号分析方法及び装置、及びこの手法の各種応用技術を提供するものである。
【課題を解決するための手段】
上記目的を達成する為に、本発明に係る分析方法では、入力される音響信号について想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を求め、前記基底関数を近似するインパルス応答を算出し、入力された音響信号と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力された音響信号との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力された音響信号の線形予測分析を実行する。
【0009】
本方法によれば、例えば電話回線の場合300Hz以下及び3000Hz以上の周波数帯域においてスペクトル強度が減衰する等といった、入力される音響信号の周波数特性に知見から周波数変換関数を設定し、これを用いて周波数変換した入力音声信号をLPC分析することにより、相対的にその他の周波数領域に対して高精度な分析を行うことができる。この結果、より高精度な音声分析方法を提供することができる。
【0010】
また本発明は、入力される音響信号について想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を求める基底関数設定部と、前記基底関数を近似するインパルス応答を算出するインパルス応答算出部と、入力された音響信号と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力された音響信号との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力された音響信号の線形予測分析を実行する分析処理部と、を備える音響信号分析装置を提供する。
【0011】
本装置によれば、入力される音響信号の周波数特性において、例えば特定の周波数帯域においてスペクトル強度が減衰している等といった知見から前記帯域を伸張あるいは圧縮する等といった所望の周波数変換関数を設定する。この周波数変換関数を用いて周波数変換した入力音響信号をLPC分析することにより、分析対象の音響信号において重要な(特徴的な)周波数帯域に対し、LPC分析の際に相対的に大きな分解能を割り当てることができるので、重要な帯域に対して高精度な分析を行うことができる。この結果、より高精度な音響信号分析装置を提供することができる。
【0012】
また本発明は、所定音韻に対応した周波数変換関数を位相項に持つ基底関数を近似したインパルス応答を記憶したインパルス応答記憶部と、利用者が入力した入力音声内の前記所定音韻の信号と前記インパルス応答記憶部に記憶された前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記所定音韻の信号との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力音声の線形予測分析を行う分析処理部と、前記分析処理部による前記入力音声の線形予測分析結果と、登録話者の登録音声内の前記所定音韻の信号についての前記インパルス応答を用いた線形予測分析結果と、の比較に基づき、前記利用者が前記登録話者に該当するか否かを判定する照合処理部と、を備える音声照合装置を提供する。
【0013】
本装置によれば、例えば特定の音韻において発声者に関係なく共通に見られる周波数特性、例えば母音/i/においては400Hz〜1800Hzの間にスペクトル強度の弱い周波数帯域が存在する等といった知見から周波数変換関数を設定し、これを用いて周波数変換した入力音声信号をLPC分析を行うことにより、その音韻において重要な周波数領域をその他の周波数領域に対して相対的に高精度に分析することができる。この結果、より高精度な音声個人照合装置を構成することができる。
【0014】
また本発明は、登録話者に対応した周波数変換関数を位相項に持つ基底関数を近似したインパルス応答を記憶したインパルス応答記憶部と、利用者が入力した入力音声と前記インパルス応答記憶部に記憶された前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力音声との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力音声の線形予測分析を行う分析処理部と、前記分析処理部による前記入力音声の線形予測分析結果と、登録話者の登録音声についての前記インパルス応答を用いた線形予測分析結果と、の比較に基づき、前記利用者が前記登録話者に該当するか否かを判定する照合処理部と、を備える音声照合装置を提供する。
【0015】
本装置によれば、登録話者の発声の周波数特性に関する知見を反映させた周波数変換関数を用いて入力音声信号を変換し、LPC分析を行う。この結果、登録話者の音声において重要な周波数領域を相対的に高精度に分析することができ、より高精度な音声個人照合装置を構成することができる。例えば、ある登録話者の母音/i/においては、多くの人に共通してみられる400Hz〜1800Hzの部分のスペクトル強度の落ち込みの他に、3000Hz近傍にも強度の弱い部分があるという知見が得られれば、この知見を反映させた周波数変換関数に対応するインパルス応答を用いることで、その登録話者の音声特徴部分により大きな分析分解能を割り当てることができ、ひいては照合の精度を高めることができる。
【0016】
また本発明は、登録話者が登録した登録音声に基づき、前記登録話者に対応する周波数変換関数を求める周波数変換関数算出部と、求められた前記登録話者の周波数変換関数を位相項に持つ基底関数を近似するインパルス応答を算出するインパルス応答算出部と、利用者が入力した入力音声と、前記インパルス応答算出部が算出した前記登録話者についての前記インパルス応答と、のたたみ込み処理を行い、当該処理結果と前記入力音声との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力音声の線形予測分析を行う分析処理部と、前記分析処理部による前記入力音声の線形予測分析結果と、前記登録話者の登録音声についての前記インパルス応答を用いた線形予測分析結果と、の比較に基づき、前記利用者が前記登録話者に該当するか否かを判定する照合処理部と、を備える音声照合装置を提供する。
【0017】
本装置によれば、登録話者の登録音声に基づき、その話者の音声の周波数特性に応じた周波数変換関数を求め、これを用いて入力音声信号を変換してLPC分析を行う。この結果、登録話者の音声において重要な周波数領域を相対的に高精度に分析することができ、より高精度な音声個人照合装置を構成することができる。
【0018】
また本発明は、照合希望者の入力音声と照合用の登録音声とに想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を求め、前記基底関数を近似するインパルス応答を算出し、前記入力音声と前記登録音声の各々を処理対象音声として、処理対象音声ごとに、当該処理対象音声と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と当該処理対象音声との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより当該処理対象音声の線形予測分析を行い、前記入力音声と前記登録音声の各々についての前記線形予測分析の結果に応じて前記入力音声と前記登録音声とが同一話者によるものか否かを判定する音声照合方法を提供する。
【0019】
この方法によれば、入力音声及びこれと照合する登録音声に対して想定される周波数特性に応じ、周波数特性上重要な部分に対してより高い分解能で分析演算を行うことができるので、高い照合精度が得られる。
【0020】
また本発明は、入力される音響信号について想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を近似したインパルス応答を記憶したインパルス応答記憶部と、入力された音響信号と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力された音響信号との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力された音響信号の線形予測分析を実行する分析処理部と、前記分析処理部による線形予測分析により求められる前記音響信号のスペクトル包絡を用いて前記音響信号を圧縮する圧縮処理部と、を備える音響信号圧縮装置を提供するものである。
【0021】
この装置によれば、周波数変換関数に応じて、周波数毎の分析精度を調整することで、音響信号の中で重要な周波数の部分には他より高い分解能でLPC分析を行うことができる。そして、この分析結果のスペクトル包絡に基づいてその音響信号を圧縮処理することで、音響信号のうちの重要な周波数帯域の情報がより正確に保存された圧縮信号を得ることができ、高品質の音声圧縮が実現できる。
【0022】
上記各構成において、周波数変換関数としては、分析対象として想定する音響又は音声信号の周波数特性において周波数強度が低い周波数帯域を圧縮し、周波数強度が高い帯域を伸長する関数を用いれば好適である。このようにすれば、例えば電話回線特性が重畳された音声信号のように信号が欠落した周波数帯域、あるいは音声信号のスペクトル包絡の谷の部分にようにノイズに埋もれやすい周波数帯域の分析精度を下げ、強度の高い(すなわち有意な信号成分をより多く含んでいる)周波数帯域に対する分析精度を上げることができる。したがって、例えば、それら想定する音響/音声信号同士の間の微妙な差異を、より精度よく分析できるなどの効果が得られる。
【0023】
【発明の実施の形態】
以下、本発明の好適な実施の形態(以下「実施形態」という)を図面を参照して説明する。
【0024】
[実施形態1:音響信号分析への応用例]
まず、音響信号分析処理への応用例について説明する。この例では、電話回線を通して入力された音響信号の分析を例にとって説明する。周知のように電話回線は伝送周波数帯域が約300〜3000Hzに限られているなどの伝送周波数特性を持っている。本実施形態では、このような知見に基づき、電話回線経由の音響信号に適合した非線形周波数変換を施した線形予測(LPC)分析を行う。
【0025】
図2は、本実施形態のLPC分析装置の構成を示すブロック図である。
【0026】
周波数変換関数入力部1は、入力信号の周波数特性に関する知見に基づき、特定の周波数帯域を伸縮するような周波数変換関数を入力する為の手段である。周波数変換関数は、入力信号の周波数空間を分析の際の周波数空間に写像する関数であり、周波数ワーピング関数とも呼ばれる。基底関数設定部2は、周波数変換関数入力部1から入力された変換関数を位相項に持つ基底関数を設定する手段である。インパルス応答算出部3は、前記基底関数設定部2により設定された基底関数のインパルス応答を逆FFT(高速フーリエ変換)演算により求める手段である。
【0027】
尚、前記周波数変換関数、基底関数、インパルス応答は、対象とする音響信号の周波数特性が既知であり、かつ定常的である場合には、分析に先立ち事前に求めて設定しておくことが可能である。
【0028】
入力部4は電話回線を経由してきた入力信号を本装置に入力するための手段であり、マイク、A/D変換器、増幅器などで構成される。入力された音声信号は、所定のフレーム長及びフレーム周期で切り出され、相関算出部5へ入力される。
【0029】
相関算出部5は、インパルス応答算出部3により得られたインパルス応答及び入力部4からの入力信号から、相関係数を算出する。この結果、入力信号の周波数特性に応じた所定周波数帯域の伸縮を盛り込んだ相関係数が得られる。分析部6は、相関算出部5により得られた相関係数から正規方程式を求め、これを例えばDurbin-Levinson-Itakura法等の公知のアルゴリズムを用いて解くことにより、LPC係数等を算出する。
【0030】
以上、装置構成の概略を説明したので、次に詳細を説明していく。まず、周波数変換関数入力部1について説明する。
【0031】
電話回線特性に関する知見から、周波数変換関数(ωT=T(ω))を事前に設定する。但し、T(ω)は周波数0〜πを0〜πに写像する単調な関数、すなわち以下の条件を満すものとする。
【数4】
【0032】
電話回線の周波数特性(図1)に関する知見から、300Hz以下及び3000Hz以上の帯域を圧縮するような周波数変換関数の例として、1kHzを中心にその近傍の周波数帯域を伸長する以下の周波数変換関数T(ω)を考える。
【数5】
【0033】
サンプリング周波数を8kHzとしたときの周波数変換関数(式(5))を図3に、上記周波数変換関数を微分した結果(以下、これを荷重曲線と呼ぶ)を図4に示す。図3において、横軸は変換前の周波数を、縦軸は返還後の周波数を表している。また、図4において、横軸は周波数を、縦軸は重み係数を表している。また、周波数変換関数の定義より、対象としている0〜4000Hzの帯域における重み係数の平均値は1となっている。図4より、今回設定した周波数変換関数は、1kHz近傍の周波数帯域を伸長するように重み付けがなされていることが確認できる。
【0034】
周波数変換関数入力部1は、このような周波数変換関数の入力を受け付ける。荷重曲線は、必要に応じてこの周波数変換関数から求めることができる。なお、周波数変換関数は、シミュレーションや実験等を行うことで電話回線など対象とする伝送媒体に適したものを求め、これを入力部4から入力すればよい。
【0035】
次に、基底関数設定部2について説明する。
【0036】
設定した周波数変換関数T(ω)を位相項に持つオールパス関数として、基底関数B(z)を以下のように定める。
【数6】
【数7】
ここでb(n)(nは整数)は基底関数B(z)のインパルス応答である。
【0037】
一般に、基底関数B(z)は式(6)に示すように無限項の級数であるが、次式のように有限((P+Q)次)のインパルス応答で近似することができる。
【数8】
ここで、P,Qは正の整数で、左辺Ba(z)は近似された基底関数である。このとき、予め定めた正の定数ε、ηに対して、振幅及び位相に関する条件、
【数9】
【数10】
を満たすようにP,Qを決めることができれば、所望の周波数変換関数T(ω)を位相項に有するオールパス関数を十分な精度で近似できていることになる。このとき、Ba(z)によって近似された周波数変換関数をTa(ω)と表記する。
【0038】
次に、インパルス応答算出部3について説明する。
【0039】
インパルス応答b(n)は、周波数変換関数T(ω)を式(7)に代入し、逆FFT(例えば256ポイント)を実行することで得られる。
【0040】
P=14, Q=16とした基底関数Ba(z)を用いて近似した周波数変換関数Ta(ω)を図5に、そのインパルス応答b(n)を図6に、振幅特性Ba(e^(jω))(「^」はべき乗演算)を図7に示す。図6において横軸は時間を、縦軸は振幅を表している。また、図7において、横軸は周波数を、縦軸は強度を表している。図5からその位相特性は、与えた周波数変換関数T(ω)を精度良く近似できていることが分かる。また図7より、最大振幅誤差は1.35×10-3dBと大変小さく、Ba(e^(jω))はオールパス関数の良い近似となっていることが分かる。
【0041】
次に、このように近似された基底関数Ba(z)を用いて、非線形変換された周波数軸上での相関の算出を行う相関算出部5、及びLPC係数の算出を行う分析部6について説明する。
【0042】
入力部4より入力され、フレーム長Nの分析窓で切り出された入力信号をx(n)とし、入力信号x(n)をi段の非線形周波数変換フィルタBa i(z)に通した出力信号を、
【数11】
で表す。ここで、y0=x(n)である。
【0043】
相関算出部5は、入力信号x(n)及びインパルス応答b(n)から、次式で与えられる相関関数φ(k,l)を求める。
【数12】
【0044】
パーセバルの定理より
【数13】
と書くことができる。ここでYi(e^(jω))はyi(n)のフーリエ変換で、[・]*は複素共役を表す。また、x(n)のフーリエ変換をX(e^(jω))とすると、
【数14】
の関係から、式(13)は
【数15】
となる。式(15)の右辺は段数の差の絶対値|k−l|だけに依存することが分かるので、相関関数はφ(k,l)=Φ(|k−l|)と表すことができる。更にy0=x(n)であり、x(n)がN個の有限の数列であることから、相関関数式(12)は
【数16】
とN回の積和演算で計算できる。但しこの場合、b(n)は非因果的な信号である。
【0045】
一方、入力信号x(n)のFFT演算を直接用いることにより、効率的に相関関数Φ(i)を計算することができる。x(n),yi(n)のFFT演算結果をX(k),Yi(k)(k=0,1,...,K-1)と書くことにする。ここでNは分析窓のフレーム長、KはFFT演算のポイント数である。パーセバルの定理より、
【数17】
となる。また、「**」を畳み込み演算子とすると
【数18】
の関係が成り立つので、個々のFFT演算結果に対して
【数19】
の関係が得られる。従って、相関関数Φ(i)は、
【数20】
となる。更に、FFT演算結果の対称性から、Φ(i)は
【数21】
と書くことができる。ここでRe[・]は実部を表す。上式において、Ba i(k)は周波数変換関数を決めると分析対象に依らず一意に決まる量であることに注意する。
【0046】
ここで、FFT演算のポイント数とエイリアシングの関係について考察する。上記のようなFFT演算を用いたときにエイリアシングの影響を出さないためには、
【数22】
の関係が成り立つ必要がある。いま、分析窓のフレーム長Nを160、分析次数Mを16次、P+Qを30とすると、式(22)の左辺は640となり、FFTのポイント数Kは1024以上でなければならない。しかし実際には基底関数Ba(z)のインパルス応答b(n)の値は、図6に示すようにn=1を離れるに従って急速に減衰するため、上記分析条件の下でFFT演算のポイント数を256としても、エイリアシングに伴う演算誤差は実質的に無視することができる。したがって、ここで取り上げている例でも実質上エイリアシングの影響なく、相関を計算することができる。
【0047】
次に、分析部6について説明する。
【0048】
LPC分析では、yi(n)と予測係数aiとの線形一次結合によりx(n)を予測する。予測値ya0(n)は、以下のように表わされる。
【数23】
ここで、Mは予測次数である。x(n)(=y0(n))と予測値ya0(n)との2乗誤差の和
【数24】
を最小にするように、最小2乗法を用いて係数aiを求めることができる。すなわち、aiは式(24)で各aiについて偏微分して得られる以下の連立M元一次方程式(これを正規方程式という)の解として求めることができる。
【数25】
ここでΦ(k)は、式(16)で与えられる相関係数である。
【0049】
正規方程式(25)を、例えばDurbin-Levinson-Itakura法等の公知のアルゴリズムを用いて解くことにより、予測係数ai (i=1,...,M)を求めることができる。
【0050】
次に、この予測係数がどのような信号に対するものかを考察するために、式(15)の積分を非線形周波数軸に変換することを考える。式(6)と式(7)より
【数26】
であり、この式の両辺をωで微分することにより次式を得ることができる。
【数27】
また、Ta(ω)は単調増加関数の定義から
【数28】
であるので、式(27)は
【数29】
となる。上式を式(15)に代入して
【数30】
を得る。ここで
【数31】
となる。式(30)はΦ(i)を使って計算されたLPC係数が、元のX(e^(jω))を周波数変換した信号の近似ではなく、{X(e^(jω))/Wa(e^(jω))}を周波数変換した信号の近似であることが分かる。従って、例えば非線型周波数軸上において推定されたスペクトルXT(e^(jωT))を線形周波数軸上のスペクトルと重ねて表示する為には、予め次式のように補正しておくことが好ましい。
【数32】
なお、本補正はあくまで線形周波数軸との対比を容易にする為に行う処理であり、本分析装置に必須の処理ではない。
【0051】
次に、従来のLPCケプストラム、メルLPCケプストラム、本発明の非線形周波数変換によるLPCケプストラムから求めたスペクトル包絡の比較結果について説明する。ここでスペクトル包絡とは、ある瞬間において音声信号に含まれている各周波数成分の分布の概形のことであり、分析フレーム毎に算出されたLPCケプストラムより求めることができる。図8から図10に、従来のLPCケプストラム、メルLPCケプストラム、本実施形態の変換によるLPCケプストラムによるスペクトル包絡を示す。音声データは、男性話者が発声した/o/である。これに電話回線特性(図1)を重畳した音声からその一部を20msのHamming窓で切り出した後、14次のLPC分析及び同次数のLPCケプストラム係数を算出することにより、スペクトル包絡を求めた。尚、横軸は周波数を、縦軸はスペクトル強度を表している。
【0052】
図8より、従来のLPCケプストラムから求めたスペクトル包絡では300〜1000Hz付近の2つの山を十分には分離できていないことが分かる。これは、LPC分析がどの周波数帯域でも同じ重み付けで分析を行う手法であるため、300Hz以下及び3500Hz以上の帯域における本来意味のないスペクトル包絡を近似しようとしていることによる影響である。メルLPCケプストラムから求めたスペクトル包絡(図9)では、前述した低域の2つの山は分離できているものの、3000Hz付近の2つの山は分離できていない。これは、3000Hz以上の高域に対する重み付けを低くしている一方、500Hz以下の帯域において無駄にスペクトル包絡を近似している為である。一方、本実施形態によるLPCケプストラムから求めたスペクトル包絡(図10)では、前記低域及び高域付近の2つの山を分離できており、着目した周波数帯域における良好なスペクトル包絡を与えていることが確認できる。
【0053】
以上説明したように、本実施形態によれば、電話回線の伝送周波数帯域に適合した周波数変換関数(周波数ワーピング関数)を用いた。このため、電話回線を経由した音声信号に対して、0〜300Hz及び3000Hz以上の周波数帯域を圧縮し、かつその他の周波数帯域を伸長するといった帯域特性に応じた非線形周波数変換を実現することができる為、電話回線等を経由した音声信号に対しても十分な分析精度を得ることができる。
【0054】
以上では、電話回線経由の音響信号の分析を例にとったが、本実施形態の手法の適用対象はこれに限らない。本実施形態では、周波数変換関数が与えられた場合、この関数を位相項に持つオールパス関数としての基底関数を求め、この基底関数をインパルス応答系列で近似し、このインパルス応答系列を用いてLPC分析を行う構成としたので、非常に多様な周波数変換関数を利用できる。このため、分析等の処理の対象となる音響信号の周波数特性に合わせて非常に自由に周波数変換関数を設計し、それを用いて高精度のLPC分析を実行できる。これに対し、従来のメルLPC分析では、周波数変換の自由度は伸縮係数αの調整のみしかないので、高精度の分析ができる音響信号の範囲がはるかに限られたものとなる。
【0055】
このように、本実施形態の方式によれば、多様な音響信号に対して、その音響信号の周波数特性についての知見に基づいて高精度の分析を実行することができる。なおこの場合の周波数特性としては、例示した電話回線経由の信号のように、音響信号が送られてくる伝送媒体の伝送帯域特性の場合もあれば、例えば個人個人の発声音声が持つ周波数特性など、その音響信号の発生源に由来する特性の場合もある。いずれにしても、分析対象の音響信号に関して、予め何らかの知識や方法からその周波数特性が分かれば、本実施形態の方式を用いて高精度の分析を行うことができる。
【0056】
なお、以上の説明では、分析対象の音響信号に対応する周波数変換関数が実験等で求められ、それが入力される場合を例にとったが、これ以外の構成も考えられる。例えば、対象の音響信号の周波数特性から、周波数強度の大きい周波数帯域を拡大し、周波数強度の小さい周波数帯域を圧縮する周波数変換関数を自動生成することも可能である。この場合、基底関数を十分に近似するインパルス応答系列b(n)が得られるまで、式(8)におけるP,Qを変えて周波数変換関数の調整を行うという処理を自動実行することも可能である。
【0057】
また、実際の装置としては、対象音響信号の周波数特性に応じた周波数変換関数から上記の手法に従って求めたインパルス応答系列を記憶しておけば、高精度のLPC分析を実行することができる。
【0058】
以上の説明においては、話者照合に最も広く用いられている特徴量であるLPCケプストラムを主たる例として説明したが、本発明の適用対象はこれに限定されるものではない。適用対象に応じてPARCOR(偏自己相関)係数やLSP(線スペクトル対)等、LPC分析に基づく特徴量の算出に広く用いることができる。
【0059】
[実施形態2:音声を用いた個人照合への応用]
次に、本発明の音声を用いた個人照合への応用例について説明する。なお、実施形態1では電話回線特性といった定常的、固定的な周波数特性に対して周波数変換関数を事前に設定する例を示したが、ここでは、音声を用いた個人照合への応用を例に、周波数特性が異なる多様な対象信号に対応する手法の例について説明する。
【0060】
一般に母音音声には、母音の種類に固有の、スペクトル強度の強い周波数帯域(これをフォルマントと呼ぶ)が存在し、個々の音韻を特徴付けている。スペクトル強度のピークを与える周波数は、個々の音韻毎に存在帯域がほぼ一致している。
【0061】
図11に、異なる発声者による音韻/i/のスペクトル分布を示す。図から分かるように、発声者が異っても、音韻/i/の第1フォルマント(スペクトル強度のピークのうち、最も周波数が低いもの)は400Hz以下にあり、また第2フォルマント以降は1800Hz以上に存在するというように、母音の種類毎に共通の特徴があることが分かっている。LPC分析がフォルマントに重きをおいたパラメータ抽出手法であることと、フォルマントが存在する周波数及びその強度に個人性が存在していると仮定するならば、スペクトル分布の谷の部分に対する重みを下げた、すなわち図12に示すような荷重曲線を用いて分析を行うことにより、相対的に個人性を高精度に抽出することができる。
【0062】
この結果、事前に各母音のスペクトル分布形状に関する知見から母音毎に荷重曲線を定めておき、例えば各母音と識別された複数のフレームのうち中央フレームに含まれる入力信号を該荷重曲線を用いて非線形周波数変換し、これに対してLPC分析を行うことにより、個人照合を高精度に行うことが可能となる。すなわち、実施形態1でも説明したように、周波数変換関数を微分すると荷重曲線が得られるという関係があるので、荷重曲線から周波数変換関数を求め、この周波数変換関数をもとに実施形態1で説明した手法を実行することで、入力音声のLPC分析を行うことができる。この分析結果を登録音声の分析結果と比較することで、同一人の音声かどうかの判定を行うことができる。
【0063】
次に、本実施形態の音声個人照合装置の構成例について説明する。音声個人照合装置とは、利用者の音声を予め登録しておき、マイクから入力した音声が登録音声を発声した話者の音声とみなせるか否かを照合する装置のことである。一般に音声個人照合方式は、照合時の発声内容(発声音韻系列)に応じて、照合用音声の発声内容を登録用音声と同一のものに限定する発声内容依存型と、発声内容を限定しない発声内容独立型の2つに分類することができる。以下、発声内容に含まれる音韻系列を考慮する必要のない発声内容依存型について説明するが、照合に先立ち入力された音声からHMM(Hidden Markov Model)等の公知の手法により各母音に相当するフレームを識別し、このうちの安定な部分に対して非線形周波数変換を施すことにより、本実施形態の手法を発声内容独立型に応用することも可能である。
【0064】
以下、発声内容依存型の個人照合装置について説明する。
【0065】
まず、利用者は予め利用者毎に定められた発声内容の音声(以後、登録音声と呼ぶ)を登録する。利用者により音声が入力されると、その音声信号からスペクトル包絡情報を表す特徴量であるLPCケプストラム等を算出し、これを照合時の参照用データとして保存する。
【0066】
照合時には、利用者により入力された音声信号から、登録時と同様の分析により特徴量を抽出し、記憶してある参照用データとのマッチングを行う。登録してある利用者であれば、音声信号に含まれている発声内容及びそれに重畳されている個人性が一致する。従って、参照用データとの違いが予め定めた閾値以上であれば当該入力音声を他人のものであるとして棄却し、その違いが前記閾値より小さければ登録話者の音声と同一の音声であると判断することができる。この個人照合結果は、例えば扉に設けた電気錠の解錠等の制御に利用できる。
【0067】
図13は、本実施形態による周波数軸上での非線形変換を盛り込んだ個人照合装置の全体構成を示すブロック図である。なお、ここでは登録話者の個人変動を吸収する為に各登録話者は登録時に同一の登録音声を複数回発声するものとし、また、周波数変換関数はこれらの登録音声を用いてフレーム毎に求めるものとする。もちろん、登録音声の発声内容は登録話者毎に異なっていてよく、例えば登録話者自身が自由に決めるようにしてもよい。
【0068】
図13の構成において、入力部4は音声を装置に入力するための手段であり、マイク、A/D変換器、増幅器などで構成される。入力された音声信号は、所定のフレーム長及びフレーム周期で切り出され、分析部60へ入力されると共に、記憶部7に記憶される。分析部60は、入力された音声信号に対して公知のLPC分析処理を行い、照合部8にて用いるLPCケプストラム等の特徴量を抽出する手段である。この分析部60では、対象音声信号の周波数特性は考慮されず、基本的には全ての入力音声に対して画一的な分析処理が施される。
【0069】
記憶部7は、分析部60で抽出された各登録話者のLPCケプストラム等の特徴量、及び入力部4にてフレーム毎にデジタル化された各登録音声の波形データを記憶するメモリである。これらのデータは照合部8にて用いられるものである。記憶した各登録話者のスペクトル包絡についての特徴量(例えばLPCケプストラム)は、入力音声の各フレームと各登録音声のフレームとの対応付け、及び非線形周波数変換関数の設定の為に用いる。入力音声と登録音声のフレーム間対応付けには、DPマッチング等の公知手法が利用できる。
【0070】
照合部8は、入力された照合対象の音声と登録音声とを比較照合する手段であり、フレーム対応部81、非線形周波数変換・分析部82、距離算出部83を含む。フレーム対応部81は、各登録音声及び入力音声のフレーム毎に算出されたLPCケプストラム等の特徴量を用いたDPマッチングにより、入力音声の各フレームと登録音声の各フレームとの対応付けを行う。
【0071】
非線形周波数変換・分析部82は、実施形態1と同様の非線形周波数変換によるLPC分析を実行する処理ユニットであり、周波数変換関数設定部821、基底関数設定部822、インパルス応答算出部823、相関算出部825、分析部826を含む。周波数変換関数設定部821は、フレーム対応部81にて対応付けられた各フレームについての登録音声のLPCケプストラム等の特徴量から、非線形の周波数変換関数を求める。周波数変換関数の求め方については後述する。基底関数設定部822は、周波数変換関数設定部821で求めた非線形周波数変換関数を位相項に持つ基底関数を求める。インパルス応答算出部823は、前記基底関数設定部822により設定された基底関数のインパルス応答系列を逆FFT演算により求める。相関算出部825は、得られたインパルス応答系列と音声波形データから非線形周波数変換後の相関係数を求める。この相関算出部825は、記憶部7に記憶されている登録音声、及び照合対象である入力音声の双方の相関演算に共用される。分析部826は、前記相関係数を用いて正規方程式をDurbin-Levinson-Itakura法等の公知のアルゴリズムにより解くことにより、登録音声及び入力音声について、LPCケプストラム等の特徴量を算出する。
【0072】
距離算出部83は、分析部826で求められた入力音声及び登録音声の特徴量(LPCケプストラム等)を用いて、入力音声と登録音声との距離を算出し、この距離に基づき、入力音声と登録音声の話者が一致しているか否かを判定する。
【0073】
出力部9は、照合部8において照合を行った結果に従った後処理のための制御装置である。例えば出力部9は、同一話者の音声であると判断された場合に、電気錠に対して解錠信号を出力する等の処理を行い、同一話者でないと判断された場合は、必要に応じて、利用者に対して棄却された旨の信号をブザー音やモニタ画面にて提示する。
【0074】
次に、図14及び図15を用いて、音声個人照合装置の登録時及び照合時の処理の流れについて説明する。
【0075】
図14は、話者登録時の処理の流れをフローチャートとして示したものである。音声登録をしようとする話者から音声が入力される(S10)と、まず、入力部4にて、デジタル化された入力信号系列から、波形の振幅の大きさや基本周波数の有無等の情報を用いて、音声信号が含まれている区間(発声区間)を切り出す(S15)。
【0076】
次に、分析部60にて、その発声区間の音声信号に対して所定のフレーム長及びフレーム周期にてLPC分析を行い、スペクトル包絡情報を表す特徴量(例えばLPCケプストラム)を算出する(S20)。なお、ここで求めるLPCケプストラム等の特徴量は、非線形周波数変換されていない通常の音声信号から求めたものである。以上の処理を個々の登録音声の全フレームについて行った後、各フレーム毎に、算出された特徴量、及びその入力信号自体をデジタル化した波形データを登録音声波形として記憶部7に記憶する。これらは、照合時の参照用データとして保存される(S25)。本実施形態では、登録の際、利用者から同一発声内容を複数回発声してもらうことで、個別発声時の状況等による変動成分の影響をなくすようにするので、特徴量及び音声波形もその複数回分が登録される。
【0077】
次に、照合時の処理について説明する。照合時の処理の流れを図15にフローチャートとして示す。ここでは、説明を簡単にするため、記憶部7には1人の登録話者の登録情報(すなわち複数回分の特徴量及び登録音声)のみが登録され、照合を求める利用者がその登録話者であるかどうかを判定する場合を例にとって説明する。
【0078】
照合を求める利用者から入力された音声(以下「入力音声」という)は、登録時と同様の処理により発声区間切出が施された後(S100)、分析部60で従来通りのLPC分析を行い、音声登録時と同様のLPCケプストラム等の特徴量を抽出する(S105)。
【0079】
次に、抽出された特徴量を用いて、フレーム対応部81にて、記憶部7に登録された登録話者の各登録音声とのDPマッチングを行う(S110)。この結果、入力音声の各フレームを各登録音声のフレームに対応付けることができる。なお、同一の話者が発声した音声であっても母音部が間延びする等、時間的に変動することが考えられるので、必ずしも入力音声の同一フレームが各登録音声において同一のフレームに対応しているとは限らないが、このフレーム対応付け処理により照合精度を向上させることができる。
【0080】
次に、各登録音声の情報からフレーム毎の周波数変換関数T(ω)を求め、この周波数変換関数を用いて、入力音声及び登録音声の双方についてフレーム毎にLPCケプストラム等の特徴量を求める(S115)。
【0081】
このS115での処理の流れについて詳細に説明する。S110において入力音声と全ての登録音声とのフレームの対応付けが終了した後、周波数変換関数設定部821はまず、入力音声の個々のフレームに対応付けられた各登録音声フレームごとに、登録時に記憶してある各登録音声の当該フレームの特徴量(LPCケプストラム等)の平均値を算出する。すなわち、入力音声の1つのフレームに対し、複数回分の登録音声の対応フレームの特徴量が記憶部7に記憶されているが、ここではそれら対応フレームの特徴量の平均が求められる。この平均値は、登録話者の平均的なスペクトル包絡を表す情報と捉えることができる。このようにして得られた平均化されたスペクトル包絡に関する知見から、周波数変換関数設定部821は各フレーム毎の荷重曲線を求める。荷重曲線は、例えば以下のようにして求めればよい。
【0082】
求められた登録音声の平均的な特徴量から、例えばスペクトル包絡上で1kHz近傍に強度の低い谷の部分が存在する等といった知見が得られた場合、1kHz付近の重みが小さくなった荷重曲線を求める(図12参照)。すなわち、周波数変換関数設定部821は、当該登録音声フレームの特徴量が示すスペクトル包絡から、信号強度の高い周波数の重みは相対的に大きく、信号強度の低い周波数の重みが相対的に小さくなるよう、所定のルールに従って荷重曲線を定める。この場合のルールは、例えば各周波数の重みが当該周波数の信号強度に比例するようにするという単純なルールや、スペクトル包絡から強度の低さが顕著な谷を求め、その谷の部分の重みが他の部分より下げるというルールなどが考えられる。もちろんこれらは一例であり、他のルールも考えられる。このようにルールを登録しておくことで、荷重曲線の自動算出が可能になる。
【0083】
以上の処理を、入力音声の分析フレームを逐次シフトしながら行うことにより、全フレームに対応した荷重曲線を得ることができる。この際、分析対象としている周波数帯域における重み係数の平均値が1となるように荷重曲線のダイナミックレンジを調整する必要がある。
【0084】
尚、平均特徴量は、必ずしも上述のように、入力音声のフレームに対応した各登録音声の対応フレームの平均から求める必要はない。この代わりに例えば、入力音声の注目するフレームに対し前又は後(もしくは両方)のフレームを加えた複数フレーム(例えば3フレーム)を単位とし、その単位毎にこれに対応する登録音声の各フレームの平均特徴量を求めることもできる。例えば注目フレームとその直前及び直後の連続する3フレームを単位とした場合、これら3つの入力音声フレームに対応付けられた登録音声の各フレームに対し、中心に位置するフレームの重みが最も大きくかつ中心フレームを中心として対称に重み(例えば0.25,0.5,0.25)を付けて、それら各フレームの特徴量を加重平均することで、3フレーム単位に対応する平均特徴量を算出することも可能である。この場合、求めた平均特徴量は、例えば、入力音声の注目フレームと、これに対応する登録音声のフレームに対応する荷重曲線を求めるのに用いることができる。入力音声における注目フレームを1フレームずつずらして、この平均特徴量算出を繰り返せばよい。
【0085】
すなわち、最初に例示した手法では、(同一登録話者による)複数の登録音声の(入力音声フレームに対応する)対応フレーム間での特徴量を平均したが、この手法では、同一の登録音声について、連続する複数フレーム間の特徴量を加重平均する。この手法は、登録音声が1つのみしかない場合にも適用できる。なお、これら両手法を組み合わせ、個々の登録音声での複数フレームの加重平均を更に複数登録音声間で平均するなどの処理も可能である。
【0086】
次に、周波数変換関数設定部821は、このようにして得られた各フレームに対応する荷重曲線を、分析対象とする周波数帯域において積分することにより各フレーム毎の周波数変換関数T(ω)を求める。フレーム毎の周波数変換関数は、入力音声のフレームと、各登録音声でのそれに対応するフレームと、に適用するためのものである。フレーム毎の周波数変換関数が求められると、実施形態1と同様に、基底関数設定部822でその変換関数に対応するフレーム毎の基底関数が求められ、インパルス応答算出部823でその基底関数を近似するフレーム毎のインパルス応答系列が算出される。
【0087】
そして、このフレーム毎のインパルス応答系列を用いて、相関算出部825が、、各登録音声及び入力音声の各々について、その波形データから、(非線形周波数変換された場合の)フレーム毎の相関係数を求める。次に分析部826が、得られた各登録音声及び入力音声の各フレーム毎に、その相関係数からそれぞれ正規方程式を求め、これを例えばDurbin-Levinson-Itakura法等の公知のアルゴリズムを用いて解くことにより、各登録音声及び入力音声の各フレーム毎の非線形周波数変換後の特徴量(LPCケプストラム等)を計算する。
【0088】
入力音声及び各登録音声の各フレーム毎の非線形周波数変換後のLPC特徴量(LPCケプストラム等)が得られたら、次に距離算出部83が、入力音声の各フレーム及びこれらに対応付けられた各登録音声の対応フレームの間で、その特徴量同士の距離を計算する(S120)。得られる距離は、入力音声と登録音声との間での対応フレーム同士の類似度合いを示すものと捉えることができる。距離が小さいほど両者は類似していると考えられる。そして、得られた距離を全フレームにわたって加算あるいは平均化するなどの演算により、各登録音声と入力音声との全フレームにわたっての総合距離を算出する。なお、この実施形態では、入力音声と比較すべき登録音声は複数あるので、各登録音声毎に、入力音声との総合距離が求められる。
【0089】
入力された音声が登録話者の発声した音声であるか否かの最終判断は、登録音声毎に得られた総合距離の平均値や最小値を所定の閾値と比較したり、あるいは個々の登録音声の閾値との比較結果を多数決判定する等により行う(S125)。前者の例の場合、各登録音声毎の総合距離から求めた代表値(平均値、最小値等)が所定の閾値より小さいことが、音声入力者(照合希望者)を登録話者であると判定する条件である。後者の例の場合、各登録音声毎の総合距離のうち所定閾値(前者の場合の閾値と異なっていてもよい)より小さいものが全登録音声数の過半数であることが、音声入力者が登録話者と一致すると判定するための条件の例である。もちろん、ここに例示した条件はあくまで一例である。判定条件が満足された場合には、出力部9は、登録話者と同一音声であるとして照合希望者を受理し、例えば扉の電気錠の解錠信号を出力する(S130)。判定条件が満足されなかった場合には、両音声は異なる話者が発声したものであると判断して棄却し、照合失敗の旨を示すメッセージの表示などの処理を行う(S135)。
【0090】
以上説明したように、本実施形態によれば、個々人の登録音声の特性に応じた周波数変換関数を用いて周波数変換を行うことにより、より精度のよいLPC分析を行うことができる場合、前記分析結果を用いる個人照合の精度も向上する。また、本実施形態では、登録話者が複数回発声した同じ内容の音声信号をフレームを揃えて平均化することにより、個々の発声状況の影響を低減した、当該登録話者のある音韻の発声の際に共通に見られる周波数特性すなわち個人性を抽出する。
【0091】
また本発明によれば、DPマッチング等により入力音声と登録音声のフレーム対応付けを行い、そのフレーム対応付け結果に従い、登録音声波形データから各対応フレームに適用する周波数変換関数(ひいてはインパルス応答)を動的に生成するので、分析・照合対象の信号が時間的に変動する場合にも、それに応じて適応的に適切な周波数変換関数等を求めることができる。
【0092】
以上の説明では、説明をわかりやすくするため、記憶部7に登録されている登録話者が1人しかいないとして説明したが、複数人の登録話者の登録情報(特徴量及び登録音声)が登録されている場合にも上記手法は利用できる。この場合、例えば、照合の際に、ID番号を入力するなどの操作で照合希望者に自分の身元を自己申告してもらい、本音声個人照合装置が、記憶部7における、その申告された身元に対応する登録情報を用いて、上記と同様の処理を行うようにすればよい。また、この代わりに、記憶部7に登録された複数の話者の登録情報に対してそれぞれ上記と同様の処理を行い、その中で判定条件を満足する登録話者が見つかれば、照合希望者をその人であると判定するなどの判定手順も可能である。
【0093】
また、登録話者に依存しない音韻毎に共通の周波数特性に応じて周波数変換関数を用いる方式も有効である。例えば、例えば母音/i/においては、話者に依らず、400Hz〜1800Hzの間にスペクトル強度の弱い周波数帯域が存在する等といった知見から、その母音についての周波数変換関数を設定し、利用する等である。この場合、その音韻の音声信号において特徴的な(例えば強度の強い)周波数範囲に対し、より大きい分解能を割り当てることができるので、その特徴的な部分についての個人差を抽出しやすくなり、照合の精度を向上させることができる。
【0094】
また以上の説明では、照合のための特徴量としてLPCケプストラムを用いる例を主として説明したが、この代わりに、PARCORやLSPなど線形予測分析から求められる各種特徴量を利用することも可能である。
【0095】
また以上の例では、照合の際に記憶部7に登録された特徴量などの登録情報から周波数変換関数を生成し、それに応じたインパルス応答系列を生成していたが、これは本発明の具現化において必須の事項ではない。例えばその代わりに、相関処理に用いるインパルス応答の系列自体を、登録話者の音声特徴を表す情報として記憶部7に登録しておく態様も可能である。この場合、例えば利用者が音声を登録したときに、その登録音声をフレーム分割し、各フレーム毎の周波数特性から周波数変換関数を求め、この関数から実施形態1と同様の手法でインパルス応答系列を求め、このインパルス応答系列を記憶部7に登録しておけばよい。このほかにその登録音声の各フレーム毎の波形データも記憶部7に記憶しておく。照合の際には、照合希望者が入力した入力音声と登録音声との間のフレーム対応付けをDPマッチング処理などにより行い、対応付けられた入力音声フレームと登録音声フレームに対し、記憶部7に記憶されているその登録音声フレームに対応する前記インパルス応答系列を用いてそれぞれLPC分析を行えばよい。以降の処理は、上述の例と同様でよい。
【0096】
また、この場合、登録音声のフレーム毎の波形データの代わりに、そのインパルス応答列を用いて求めたその登録音声のLPC特徴量(すなわち非線形周波数変換結果から求めた特徴量)を記憶部7に記憶する構成も可能である。この場合、登録音声については相関算出部825及び分析部826によるLPC分析処理を行う必要がない。登録時に同一発声内容の音声を複数回入力してもらう場合には、それら各登録音声毎にLPC特徴量を登録する構成も可能であり、またそれら各登録音声の間での対応フレーム同士のLPC特徴量の平均を登録するなどの構成も可能である。
【0097】
なお、このようにLPC特徴量の代わりにインパルス応答自体を記憶部7に登録する場合、建物入口等に設置される音声照合装置の中に、図13に示したような周波数変換関数設定部821や基底関数設定部822、インパルス応答算出部823を設ける必要はなくなる。すなわち、別の音声登録装置にて利用者が登録音声を入力し、そのときにインパルス応答を求め、それを音声照合装置の記憶部7に登録する構成とすればよい。ただし、音声照合装置内に周波数変換関数設定部821や基底関数設定部822、インパルス応答算出部823があれば、その音声照合装置のみで登録と照合の双方が可能になる。
【0098】
また、登録音声のLPC特徴量やこれに対応するインパルス応答系列を記憶する代わりに、登録音声のLPC特徴量に対応する周波数変換関数や基底関数を音声照合装置に記憶するようにすることも可能である。この場合、音声照合装置は、周波数変換関数や基底関数からインパルス応答列を求める手段を備えていればよい。
【0099】
[実施形態3:音響信号圧縮への応用]
以上では、電話回線特性を補償した音声分析方法、及び音声を用いた個人照合装置の例を説明したが、本発明はこれに限定されるものではない。例えば、ヴァイオリンやフルートのように低域周波数成分が存在しない楽器による音響信号を圧縮し記録する場合に、本発明によれば、周波数特性に関する知見から該帯域に対する分析重みを軽減するよう荷重曲線を設定することができる。本実施形態は、このような音響信号圧縮・伸長再生への応用例である。
【0100】
この場合、圧縮対象の音響信号の周波数特性に関する知見から、非線形の周波数変換関数を設計する。前述のように、荷重曲線を設計し、これから周波数変換関数を求めることもできる。周波数変換関数は実験やシミュレーションなどにより人手で設計することもできるが、対象の音響信号のLPC分析結果等からスペクトル包絡などの形で周波数特性を求め、その特性から周波数変換関数を自動生成してもよい。このようにして求めた周波数変換関数に関する情報を圧縮側の装置と再生側の装置の双方に持たせる。
【0101】
図16は本実施形態の音響信号伝送システムの構成例を示す。図16のシステムにおいて、圧縮側装置200は、周波数変換関数に関する情報として、インパルス応答系列を記憶部202に記憶している。このインパルス応答は、設計した周波数変換関数から実施形態1で説明した処理により求められたものである。なお、インパルス応答を記憶する代わりに、周波数変換関数からインパルス応答を求める手段を設けてももちろんよい。圧縮側装置200は、このインパルス応答を用いて、信号源100から与えられる音響信号を圧縮符号化する。なお、この圧縮符号化は、フレーム単位で行われる。以下、フレーム単位の処理を説明する。
【0102】
相関算出部204は、信号源100からの音響信号と、記憶部202から与えられるインパルス応答を用いて相関を求める。分析部206は、この相関の情報を用いてLPC分析処理を実行し、LPCケプストラム等の特徴量を算出する。相関算出部204及び分析部206の処理内容は、実施形態1の相関算出部5及び分析部6の処理内容と同様である。
【0103】
残差算出部208は、分析部206で求められた特徴量を元に、残差信号スペクトルを算出する。すなわち、残差算出部208は、その特徴量からスペクトル包絡を求めるとともに、FFT演算やDCT(離散コサイン変換)演算で求められる当該フレームの音響信号のスペクトルのパワーを、そのスペクトル包絡で正規化することにより、残差信号スペクトルを算出する。この場合、音響信号のスペクトルは線形周波数軸上のものであるのに対し、スペクトル包絡は非線形周波数変換の結果求められるため非線形周波数軸上のものとなるので、残差信号の算出のためには両者の周波数軸を一致させる必要がある。線形周波数軸と非線形周波数軸の間での周波数の対応関係は周波数変換関数に表されるので、この関数の関係に従って一方の周波数値(FFT等の処理で言えばチャネル)を他方の周波数値に換算することで周波数軸を一致させることができる。なお、実施形態1で説明した非線形周波数変換LPC分析により求められるスペクトル包絡は、式(30)、(31)に示したように、本来のスペクトルではなくこれをWa(e^(jω))で除したものを近似するので、式(32)と同様の補正を行った上で残差信号算出に用いることが望ましい。
【0104】
符号化部210は、分析部206で求められたスペクトル包絡を表す特徴量(LPCケプストラムなど)と、残差算出部208で求められた残差信号スペクトル情報とを、ベクトル量子化等の手法によりそれぞれ個別に符号化し、伝送路に出力する。
【0105】
再生側装置300では、伝送路から入力される符号化データを復号化部302で復号してスペクトル包絡特徴量と残差信号スペクトル情報を求め、合成部304でこのスペクトル包絡と残差信号スペクトルを合成することで、音響信号を再生する。ここで合成部304は、記憶部306に記憶された周波数変換関数を用いて非線形周波数軸上のスペクトル包絡を線形周波数軸上に変換し、線形周波数軸上の残差信号スペクトルに反映させることで音響信号を合成する。合成された音響信号は、音響信号出力部308から出力される。
【0106】
本システムによれば、圧縮対象の音響信号の周波数特性上着目すべき周波数帯域について高い分解能を割り当ててLPC分析を行うことで、音響信号の特徴をよりよく捉えたスペクトル包絡を求めることができる。このため、残差信号を高精度に分析することができ、品質を落すことなく高い圧縮率で音響信号を圧縮することが可能となる。
【0107】
なお、音響信号の伝送のみならず、音響信号を記録媒体に保存する場合などにも、この実施形態の方式は適用可能である。
【図面の簡単な説明】
【図1】 電話回線の周波数特性の例を示す図である。
【図2】 電話回線を経由した音声信号のLPC分析装置の構成を示すブロック図である。
【図3】 周波数変換関数の設定例を示す図である。
【図4】 設定した周波数変換関数の微分特性(荷重曲線)の例を示す図である。
【図5】 基底関数を用いて近似した周波数変換関数の例を示す図である。
【図6】 設定した基底関数のインパルス応答の例を示す図である。
【図7】 設定した基底関数の振幅特性の例を示す図である。
【図8】 従来のLPCケプストラムから求めたスペクトル包絡の例を示す図である。
【図9】 メルLPCケプストラムから求めたスペクトル包絡の例を示す図である。
【図10】 実施形態1の方式により求めたスペクトル包絡の例を示す図である。
【図11】 話者の異なる音韻/i/のスペクトルを示す図である。
【図12】 音韻/i/に対する荷重曲線の例を示す模式図である。
【図13】 実施形態2の個人照合装置の全体構成を示すブロック図である。
【図14】 個人照合装置の登録時の処理の流れを示すフローチャートである。
【図15】 個人照合装置の照合時の処理の流れを示すフローチャートである。
【図16】 実施形態3の音響信号伝送システムの全体構成を示すブロック図である。
【符号の説明】
1 周波数変換関数入力部、2 基底関数設定部、3 インパルス応答算出部、4 入力部、5 相関算出部、6 分析部、7 記憶部、8 照合部、81 フレーム対応部、82 非線形周波数変換・分析部、83 距離算出部、9 出力部。
Claims (7)
- 入力される音響信号について想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を求め、
前記基底関数を近似するインパルス応答を算出し、
入力された音響信号と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力された音響信号との相関係数を求め、
求めた相関係数を用いて表された正規方程式を解くことにより前記入力された音響信号の線形予測分析を実行する、
音響信号分析方法。 - 入力される音響信号について想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を定める基底関数設定部と、
前記基底関数を近似するインパルス応答を算出するインパルス応答算出部と、
入力された音響信号と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力された音響信号との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力された音響信号の線形予測分析を実行する分析処理部と、
を備える音響信号分析装置。 - 所定音韻に対応した周波数変換関数を位相項に持つ基底関数を近似したインパルス応答を記憶したインパルス応答記憶部と、
利用者が入力した入力音声内の前記所定音韻の信号と前記インパルス応答記憶部に記憶された前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記所定音韻の信号との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力音声の線形予測分析を行う分析処理部と、
前記分析処理部による前記入力音声の線形予測分析結果と、登録話者の登録音声内の前記所定音韻の信号についての前記インパルス応答を用いた線形予測分析結果と、の比較に基づき、前記利用者が前記登録話者に該当するか否かを判定する照合処理部と、
を備える音声照合装置。 - 登録話者に対応した周波数変換関数を位相項に持つ基底関数を近似したインパルス応答を記憶したインパルス応答記憶部と、
利用者が入力した入力音声と前記インパルス応答記憶部に記憶された前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力音声との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力音声の線形予測分析を行う分析処理部と、
前記分析処理部による前記入力音声の線形予測分析結果と、登録話者の登録音声についての前記インパルス応答を用いた線形予測分析結果と、の比較に基づき、前記利用者が前記登録話者に該当するか否かを判定する照合処理部と、
を備える音声照合装置。 - 登録話者が登録した登録音声に基づき、前記登録話者に対応する周波数変換関数を求める周波数変換関数算出部と、
求められた前記登録話者の周波数変換関数を位相項に持つ基底関数を近似するインパルス応答を算出するインパルス応答算出部と、
利用者が入力した入力音声と、前記インパルス応答算出部が算出した前記登録話者についての前記インパルス応答と、のたたみ込み処理を行い、当該処理結果と前記入力音声との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力音声の線形予測分析を行う分析処理部と、
前記分析処理部による前記入力音声の線形予測分析結果と、前記登録話者の登録音声についての前記インパルス応答を用いた線形予測分析結果と、の比較に基づき、前記利用者が前記登録話者に該当するか否かを判定する照合処理部と、
を備える音声照合装置。 - 照合希望者の入力音声と照合用の登録音声とに想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を求め、前記基底関数を近似するインパルス応答を算出し、
前記入力音声と前記登録音声の各々を処理対象音声として、処理対象音声ごとに、当該処理対象音声と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と当該処理対象音声との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより当該処理対象音声の線形予測分析を行い、
前記入力音声と前記登録音声の各々についての前記線形予測分析の結果に応じて前記入力音声と前記登録音声とが同一話者によるものか否かを判定する、
音声照合方法。 - 入力される音響信号について想定される周波数特性に対応した周波数変換関数を位相項に持つ基底関数を近似したインパルス応答を記憶したインパルス応答記憶部と、
入力された音響信号と前記インパルス応答とのたたみ込み処理を行い、当該処理結果と前記入力された音響信号との相関係数を求め、求めた相関係数を用いて表された正規方程式を解くことにより前記入力された音響信号の線形予測分析を実行する分析処理部と、
前記分析処理部による線形予測分析により求められる前記音響信号のスペクトル包絡を用いて前記音響信号を圧縮する圧縮処理部と、
を備える音響信号圧縮装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001182404A JP4603727B2 (ja) | 2001-06-15 | 2001-06-15 | 音響信号分析方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001182404A JP4603727B2 (ja) | 2001-06-15 | 2001-06-15 | 音響信号分析方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002372982A JP2002372982A (ja) | 2002-12-26 |
JP4603727B2 true JP4603727B2 (ja) | 2010-12-22 |
Family
ID=19022508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001182404A Expired - Fee Related JP4603727B2 (ja) | 2001-06-15 | 2001-06-15 | 音響信号分析方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4603727B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4463526B2 (ja) * | 2003-10-24 | 2010-05-19 | 株式会社ユニバーサルエンターテインメント | 声紋認証システム |
JP4316583B2 (ja) | 2006-04-07 | 2009-08-19 | 株式会社東芝 | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
JP5818608B2 (ja) * | 2011-09-27 | 2015-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | カルマン・フィルタの処理方法、プログラム及びシステム |
JP2015055835A (ja) * | 2013-09-13 | 2015-03-23 | 綜合警備保障株式会社 | 話者認識装置、話者認識方法及び話者認識プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63244924A (ja) * | 1987-03-30 | 1988-10-12 | Matsushita Electric Ind Co Ltd | フイルタ係数演算装置 |
JPH03136100A (ja) * | 1989-10-20 | 1991-06-10 | Canon Inc | 音声処理方法及び装置 |
JPH10190470A (ja) * | 1996-12-27 | 1998-07-21 | Nec Corp | 周波数荷重評価関数に基づくスペクトル特徴パラメータ抽出装置 |
JPH11327600A (ja) * | 1997-10-03 | 1999-11-26 | Matsushita Electric Ind Co Ltd | オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 |
-
2001
- 2001-06-15 JP JP2001182404A patent/JP4603727B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63244924A (ja) * | 1987-03-30 | 1988-10-12 | Matsushita Electric Ind Co Ltd | フイルタ係数演算装置 |
JPH03136100A (ja) * | 1989-10-20 | 1991-06-10 | Canon Inc | 音声処理方法及び装置 |
JPH10190470A (ja) * | 1996-12-27 | 1998-07-21 | Nec Corp | 周波数荷重評価関数に基づくスペクトル特徴パラメータ抽出装置 |
JPH11327600A (ja) * | 1997-10-03 | 1999-11-26 | Matsushita Electric Ind Co Ltd | オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2002372982A (ja) | 2002-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4764118B2 (ja) | 帯域制限オーディオ信号の帯域拡大システム、方法及び媒体 | |
JP4624552B2 (ja) | 狭帯域言語信号からの広帯域言語合成 | |
JP4945586B2 (ja) | 信号帯域拡張装置 | |
JP4218982B2 (ja) | 音声処理 | |
JP4818335B2 (ja) | 信号帯域拡張装置 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US20150301796A1 (en) | Speaker verification | |
JP2692581B2 (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
WO1993018505A1 (en) | Voice transformation system | |
JP5717097B2 (ja) | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 | |
JPH0743598B2 (ja) | 音声認識方法 | |
JP3189598B2 (ja) | 信号合成方法および信号合成装置 | |
WO2005117517A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
GB2347775A (en) | Method of extracting features in a voice recognition system | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
JP2012168296A (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
JP4603727B2 (ja) | 音響信号分析方法及び装置 | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP2002258899A (ja) | 雑音抑圧方法および雑音抑圧装置 | |
JP4433668B2 (ja) | 帯域拡張装置及び方法 | |
JP2007047422A (ja) | 音声分析合成装置および音声分析合成方法 | |
Schlien et al. | Acoustic tube interpolation for spectral envelope estimation in artificial bandwidth extension | |
JP3785363B2 (ja) | 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070830 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101004 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4603727 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |