JP2006235243A - 音響信号分析装置及び音響信号分析プログラム - Google Patents

音響信号分析装置及び音響信号分析プログラム Download PDF

Info

Publication number
JP2006235243A
JP2006235243A JP2005049782A JP2005049782A JP2006235243A JP 2006235243 A JP2006235243 A JP 2006235243A JP 2005049782 A JP2005049782 A JP 2005049782A JP 2005049782 A JP2005049782 A JP 2005049782A JP 2006235243 A JP2006235243 A JP 2006235243A
Authority
JP
Japan
Prior art keywords
frequency
acoustic signal
analysis
spectrum
power spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005049782A
Other languages
English (en)
Inventor
Kazuyoshi Fukushi
和義 福士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2005049782A priority Critical patent/JP2006235243A/ja
Publication of JP2006235243A publication Critical patent/JP2006235243A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 任意の周波数に対応してフィルタバンクを設定し、非線形周波数軸に対応した音響信号分析を行うと、音声フレームの微小なずれや微小ノイズにより、スペクトル包絡情報が変動する。
【解決手段】 任意に設定し得る分析周波数において、当該分析周波数に対応する複素正弦波と分析対象の音響信号との畳み込み演算を行い、パワースペクトルを生成する(S220)。線形予測分析等、パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成する(S230〜S250)。
【選択図】 図3

Description

本発明は、音響信号を高精度に分析する技術に関するものであり、特に分析対象である音響信号の周波数特性に応じて周波数軸を変換することにより、音響信号を高精度に分析する装置及びプログラムに関するものである。
音響信号の周波数特性を分析してパラメータ化する試みは古くから行われており、得られたパラメータを利用して音声認識、音声認証、音響信号圧縮など様々な応用技術が研究、開発されている。中でも、線形予測分析(Linear Predictive Coding:LPC)や線形予測モデルに基づいてケプストラムを求めるLPCケプストラム分析などは、少ないパラメータのみで、分析対象となる音響信号の周波数スペクトルに対してスペクトル包絡線と呼ばれる良い近似曲線を得ることができるため、広く用いられている。
また、人間の聴覚は低域を重視していることが知られており、このような聴覚特性を反映させて分析したパラメータを用いると品質の良い音響信号圧縮が可能となり、また、音声認識や音声認証においても精度向上が可能となることが知られている。そのために、分析の過程に、通常の等間隔な周波数軸(リニア周波数軸)から聴覚特性に合わせた不等間隔な周波数軸(非線形周波数軸)に周波数帯域を圧縮または伸張する周波数軸変換を採り入れた分析方法が研究、開発されてきた。聴覚特性としてはメルスケールやバークスケールなどが知られている。
ところで、電話音声や特定の楽器による楽音など、限られた範囲以外の周波数成分が大きく減衰している音響信号を扱う場合、分析次数パラメータの自由度が減衰特性を近似することに使われてしまい、本来精密に分析しなければならない帯域での分析精度が劣化するという問題がある。分析パラメータの分解能をこれらの限られた帯域に集中させることができれば、分析精度向上につながる。例えば、電話音声の特性は図11に示すように300Hz以下および3400Hz以上の帯域が大きく減衰する周波数特性を有しているので、300〜3400Hzの帯域のみで分析することが望ましい。
従来技術としてMFCC(Mel Frequency Cepstral Coefficients)と呼ばれるパラメータの分析方法が非特許文献1によって開示されている。MFCCは、窓掛けにより切り出された音響信号をFFT分析して、そのパワースペクトルに対してメルスケールのフィルタバンクを施して周波数軸変換を行い、周波数軸変換されたパワースペクトルに対して離散コサイン変換(Discrete Cosine Transform:DCT)を実行することで、スペクトル包絡を表すパラメータを抽出する。
もうひとつの従来技術としてPLP(Perceptual Linear Prediction)と呼ばれるパラメータ分析方法が非特許文献2によって開示されている。この手法もMFCCと同様に、窓掛けした音響信号のFFTスペクトルにメルスケールのフィルタバンクを施して周波数軸変換を行う。その後、周波数軸変換されたパワースペクトルをフーリエ変換して自己相関関数を求め、自己相関関数からLPC係数を計算する。
S. Davis and P. Mermelstein, "Comparison of parametric representationsfor monosyllabic word recognition", In Proc. 1980 ICASSP, pages 357-366,1980. H. Hermansky, "Perceptuallinear predictive (PLP) analysis of speech", J. Acoust. Soc. Amer., vol.87, pp. 1738-1752, 1990.
上述の従来手法はそれぞれ、以下のような問題を有している。
非特許文献1のMFCCや非特許文献2のPLPでは、窓掛けした音響信号のFFTスペクトルに対するフィルタバンク処理を行うため、音声信号から切り出される分析フレームの微小なずれや、微小な雑音の影響を受け、推定パラメータが変動するといった問題がある。以下、MFCCの場合を例にとり、この点について詳細に説明する。
図12はMFCCやPLPでFFTスペクトルに施すフィルタバンクの特性を示す模式図である。横軸は周波数、縦軸は強度を表している。この例ではフィルタバンクは10個のフィルタから構成され、各フィルタの分析周波数(各フィルタの中心の周波数)はメルスケール上で等間隔に配置されており、分析周波数の間隔と各フィルタのバンド幅は低域ほど狭く、高域ほど広く設計されている。すなわち、このフィルタバンクの出力は低域ほど分解能が高くなる。FFTスペクトルの値にこのフィルタバンクの係数を乗じて、対応するバンドでのエネルギーを計算する。すなわち、MFCCで参照するパワースペクトルは「メルスケール上で等間隔に配置された分析周波数を中心とする平均的パワー」であるといえる。この「平均的パワー」を使用するところから、以下に示すような「分析フレームのずれ」や「微小ノイズ」により推定スペクトルが影響を受けるという問題が生ずる。
図13は、定常状態にある音声波形を例示したものであり、横軸は時間、縦軸は振幅である。図示するように、音声信号の一部を30msの窓長で切り出した音声フレームデータをdata1、また、data1に対して微小に4msだけずらした音声フレームデータをdata2とする。
図14は、音声フレームデータをFFT分析したパワースペクトルの例であり、横軸は周波数、縦軸は強度を表す。図14の実線、点線は、それぞれ、data1、data2のパワースペクトルである。両者の間には誤差が見られ、特に微細構造(パワースペクトルの細かな変化)の谷部分では顕著である。このような誤差は、窓関数や分析フレームとピッチ位置との相対関係によって現れるもので、FFT分析においては頻繁に観察されることである。
図15は、音声フレームデータを分析して得たMFCCから求めたスペクトル包絡の例であり、横軸は周波数、縦軸は強度を表す。図15の実線、点線は、それぞれ、data1、data2のスペクトル包絡である。つまり、図14のパワースペクトルにフィルタバンクを施して周波数軸変換を行い、周波数軸変換されたパワースペクトルに対してDCTを実行した結果が図15である。分析周波数帯は300〜3400Hzに制限してある。data1とdata2は定常的な音声データから切り出されたものであり、特性はほぼ同一であるので、図15の実線と点線はほぼ同一となることが理想的な結果であるが、実際には両者の間には誤差が観察される。この誤差はフィルタバンク処理の平均的パワーを計算する性質により、分析周波数周辺のFFT分析の誤差、特に微細構造の谷部分の誤差の影響を受けて生じているものと考えられる。
このように音響信号の定常的な部分でも安定した分析結果を得られない現象は、高精度な音声認識や音声認証を実現する際に問題となる。すなわち、音声認識や音声認証の分野では高精度化のためにスペクトル包絡を表すパラメータの時間差分(Δ係数)や加速度(Δ係数)を利用することが多く、これらの係数では前記誤差がより強調されてしまう。
また、分析誤差は微小な雑音によっても生じることがある。図16は前述の音声フレームデータdata1に微小な雑音を重畳した音声フレームデータdata3をFFT分析して得たパワースペクトルの例、図17はdata1、data3を分析して得たMFCCによるスペクトル包絡の例である。図16の実線、点線は、それぞれ、data1、data3のパワースペクトルであり、図17の実線、点線は、それぞれ、data1、data3のスペクトル包絡である。両者は一致することが理想的であるが、図17の2つのスペクトル包絡の間には、1000〜2000Hzの帯域で大きな誤差が生じていることが観察でき、これは図16の対応する帯域に大きな誤差が観察されることからフィルタバンク処理の影響であると分かる。このように微小な雑音の影響で安定した分析結果を得られない現象は、耐雑音性という観点から高精度な音声認識や音声認証を実現する際に問題となる。
以上はMFCCによる処理結果であるが、PLPにおいても同様な現象が観測される。PLPはフィルタバンクを通した周波数変換したスペクトルからスペクトル包絡を得る際に、DCTではなくLPC分析を行う。LPC分析は、スペクトルの山を重視する性質があり谷部分の誤差の影響を受けにくいのだが、LPC分析の対象となるスペクトルがフィルタバンク処理の平均的パワーを計算する性質により、FFTスペクトルの微細構造の谷の影響を既に受けてしまっていると考えられる。その結果として、LPC分析を採用しているにもかかわらず、MFCCと同様に、微小な分析フレームのずれ、もしくは、微小な雑音の影響によって分析結果が不安定となる。
以上で述べたように、MFCCやPLPでは、微小な分析フレームのずれや微小な雑音の影響によって分析結果が不安定となる課題がある。
本発明は、上記問題点をすべて解決するものであり、対象である音響信号の周波数特性に応じた任意の周波数加重で高精度、かつ、安定した周波数分析を行うことを可能とする音響信号分析方法及びこの手法の各種応用技術を提供するものである。
本発明に係る音響信号分析装置は、予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と分析対象の音響信号との畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響信号のパワースペクトルを生成するパワースペクトル生成部と、前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成部と、を有するものである。
本発明の好適な態様は、前記注目周波数が、聴覚特性に対応する非線形周波数軸上で等周波数間隔に設定される音響信号分析装置である。
本発明の他の好適な態様は、前記注目周波数が、0Hz以上で前記音響信号のサンプリング周波数の2分の1より低い下限値と、前記下限値より高く前記音響信号のサンプリング周波数の2分の1以下の上限値との間で設定される音響信号分析装置である。
他の本発明に係る音響信号分析装置においては、前記スペクトル包絡情報生成部が、前記パワースペクトルをフーリエ変換して自己相関関数を求める自己相関関数演算部と、前記自己相関関数に基づいて線形予測分析を行い、前記スペクトル包絡情報を求める線形予測演算部と、を有する。
本発明の別の好適な態様は、パワースペクトル生成部が、前記畳み込み演算にて前記音響信号の各サンプリング値に乗じられる、前記各複素正弦波の値に応じた係数を予め格納した係数格納部を有する音響信号分析装置である。
本発明に係る音響信号分析プログラムは、音響信号をサンプリングした音響データからスペクトル包絡情報を算出する手段としてコンピュータを機能させるプログラムであって、予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と前記音響データとの畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響データのパワースペクトルを生成するパワースペクトル生成手段と、前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成手段と、を実現し、前記注目周波数が、分析目的に応じて任意に設定可能であるプログラムである。
本発明によれば、注目周波数は分析目的に応じて任意に設定可能であり、例えば、周波数範囲を限定して設定したり、聴覚特性に対応する非線形周波数軸上で等周波数間隔に設定することができる。この任意に設定可能な注目周波数それぞれに対して音響信号のパワーが算出される。本発明では、基本的に周波数に対する平均化がなされていないパワーが求められる。そして、このパワーに基づき生成されるパワースペクトルに対して、例えば、線形予測分析等、微細構造の山部に重みを置いたスペクトル包絡演算を行う。このように、本発明では、各注目周波数でのパワーが、その近傍の微細構造の影響を基本的に受けないことと、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡演算を行うこととによって、微小な分析フレームのずれや微小な雑音の影響によって比較的大きく変化し得る微細構造の谷部がスペクトル包絡情報に与える影響が軽減され、安定した周波数分析が実現され得る。
以下、本発明の実施の形態(以下実施形態という)について、図面に基づいて説明する。
〔実施形態1:音響信号分析装置〕
第1の実施形態は、音響信号分析装置である。ここでは、電話回線を通して入力された音響信号に対する分析を例にとって説明する。周知のように電話回線は伝送周波数帯域が約300〜3400Hzに限られているなどの伝送周波数特性を持っている。本実施形態では、このような知見に基づき、電話回線経由の音響信号に適合した分析周波数帯制限をかけつつ聴覚特性を反映した周波数軸変換を施した分析を行う。
図1は、本実施形態に係る音響信号分析装置の概略のブロック構成図である。入力部100は、電話回線を経由してきた音響信号をデジタル信号として本装置に取り込むための手段である。最近では、回線ボードと呼ばれるコンピュータの拡張ボードの形態を成した電話回線制御装置が市販されており、電話回線制御装置にISDNなどのデジタル電話回線のケーブルを接続することにより、電話音声をファイルの形式でコンピュータに保存することが可能である。音響信号分析装置をコンピュータで実現する場合は入力部100をこのような電話回線制御装置により構成することができる。また、マイクから入力された音声を直接、音響信号分析装置に取り込む場合、入力部100はマイク、増幅器及びA/D変換器などにより構成される。
音響データ格納部110は、入力部でデジタル化された音響信号のデータを記憶する記憶装置である。
フレーム切り出し部120は、音響データ格納部110に記憶された音響データから所定フレーム周期で所定フレーム長のフレームデータを切り出し、フレームデータをパワースペクトル演算部140に供給する。以下、音響データのサンプリング周波数をF[Hz]、1フレームのサンプル数をL、フレームデータをx(i=0,1,…,L−1)と表す。
複素正弦波格納部130は、式(1)で表されるような、分析周波数(注目周波数)fを周波数とする(2πf/Fを角周波数とする)複素正弦波S (m)を記憶する記憶装置である。この複素正弦波S (m)は、後述する畳み込み演算にて、各フレームデータxに乗じられる係数となる。
Figure 2006235243
ここで、M=L/2であり、jは虚数単位である。wは窓関数でありハミング窓やハニング窓が利用できる。
式(1)を見ると分かるように、S (m)は事前に得られる要素のみで構成されているので、予め計算することが可能である。そこで、本装置では、予め算出したS (m)を、例えばL×M個の複素係数行列のデータとして複素正弦波格納部130に格納し、音響信号分析の計算時間の短縮を図っている。なお、記憶装置上では、通常、複素数は実部及び虚部それぞれを別個のデータとして記憶する。
ちなみに、式(1)は窓関数を含んでいるため、フレーム切り出しの際に、窓関数を乗じる必要が無いという利点を有する。さらに、音声信号処理でしばしば行われる1次差分処理も式(1)に含める形にすることが可能である。
一方、S (m)を予め格納する複素正弦波格納部130を設ける代わりに、畳み込み演算の実行時にS (m)を逐一、演算装置で算出する構成とすることも可能である。
パワースペクトル演算部140は、フレーム切り出し部120からのフレームデータxと複素正弦波格納部130から読み出した複素正弦波に応じた係数とを用いて畳み込み演算を行って、パワースペクトル、すなわち、各分析周波数fにおけるフレームデータのパワーを計算し、自己相関関数演算部150へ出力する。
自己相関関数演算部150では、パワースペクトル演算部140で計算したパワースペクトルにフーリエ変換を行って自己相関関数を計算し、線形予測分析部160へ出力する。
線形予測分析部160では、線形予測モデルに基づく分析を行って、スペクトル包絡に関する情報を算出する。例えば、線形予測分析部160は、スペクトル包絡情報としてLPCケプストラム係数を算出する。
スペクトル包絡情報格納部170は、線形予測分析部160で算出されたLPCケプストラム係数等のスペクトル包絡情報を記憶する記憶装置である。
音響データ格納部110、複素正弦波格納部130、スペクトル包絡情報格納部170は磁気ディスク装置や半導体メモリなどの記憶装置により構成することができる。フレーム切り出し部120、パワースペクトル演算部140、自己相関関数演算部150、線形予測分析部160はCPU、DSP、MCU等のプロセッサ上で動作するプログラム、あるいは、LSI等の論理回路により構成することができる。
上述したように、分析処理に先立って、複素正弦波格納部130には、各分析周波数fに対応する複素正弦波の値が予め計算されて格納されている。この分析周波数fは音響信号のパワーが算出される周波数であり、その決定方法について以下、説明する。
その決定方法には、(i)リニア周波数から非線形周波数への周波数軸変換関数T(f)から決定する方法と、(ii)リニア周波数に対する加重関数Q(f)から決定する方法とがある。
はじめに、周波数軸変換関数T(f)が与えられた場合の決定手順について記す。まず、下限値fと上限値fとで分析周波数帯を制限したとき、分析周波数間隔ΔTを式(2)により設定する。但し、0<f<f≦F/2である。
Figure 2006235243
次に、周波数軸変換関数の逆関数 (すなわち、非線形周波数軸からリニア周波数軸への変換関数)
−1(f)を使って式(3)によりfを決定する。
Figure 2006235243
以上のようにして、下限値fと上限値fとで制限した帯域内に、変換後の非線形周波数領域で等間隔になるように、分析周波数fが決定される。分析周波数fの周波数軸変換関数T(f)による射影は、変換後の非線形周波数軸上で下限値fと上限値fとの間で等間隔に並ぶ。一方、分析周波数fは、変換前のリニア周波数軸上では下限値fと上限値fとの間で不等間隔に並ぶ。
次に、周波数加重関数Q(f)が与えられた場合の決定手順について記す。周波数加重関数Q(f)と周波数軸変換関数T(f)とは式(4)の関係にある。
Figure 2006235243
よって、Q(f)を積分してT(f)を求めた後に式(2)及び式(3)を適用すれば、任意の周波数加重Q(f)で分析するための分析周波数を求めることが可能である。
具体的には本装置では、既に述べたように、電話回線経由の音響信号に適合した分析周波数帯制限をかけつつ聴覚特性を反映した周波数軸変換を施した分析を行う。そこで、複素正弦波によって実現される周波数軸変換を音声認識や音声認証に好適とされているメルスケールへの変換とし、分析する周波数の下限f、上限fをそれぞれ電話音声の分析に好適な300Hz、3400Hzとした場合の分析周波数fの設計を説明する。
メルスケールMEL(f)とリニア周波数fとの関係を近似する式として式(5)がある。
Figure 2006235243
この式を周波数軸変換関数T(f)として利用することができる。この式を式(3)に適用すると式(6)が得られる。
Figure 2006235243
これに、
MEL(f)=MEL(300)=401.97
MEL(f)=MEL(3400)=1992.1
及び、8kHzサンプリング、30mSフレーム長の場合に対応した、
M=120
を代入することにより、分析周波数fを計算することができる。
図2は、式(6)の分析周波数をプロットした図である。横軸はmであり、周波数変換後の周波数に対応する。縦軸は分析周波数fである。低域側から高域側に向かって曲線の傾きが大きくなっていくことから、分析周波数が低域ほど密、高域ほど疎に並んでいることがわかる。例えば、500〜1000Hzの低域ではm=11〜38と28個の分析周波数が設定されているのに対して、高域の2500〜3000Hzで設定されているのはm=97〜110の13個となっている。
上述のように分析周波数fは任意に設定することができ、この分析周波数fに対する複素正弦波S (m)を用いてパワーを求めることにより、任意の周波数範囲で任意の周波数軸変換がなされたパワースペクトルが得られる。
以上、本音響信号分析装置の構成について述べた。次に本音響信号分析装置の処理の流れについて説明する。図3は、本音響信号分析装置の処理の概略の流れを示す処理フロー図である。
入力部100から音響データが入力されると(S200)、フレーム切り出し部120は、音響データからフレームデータを切り出してパワースペクトル演算部140に順次出力する(S210)。今、サンプリング周波数を8000Hz、フレーム長を30ms、フレーム周期を10msとすると、1フレームのサンプル数は240であり、フレーム周期は80サンプルに相当する。この場合、第1フレームは音響データの先頭から240サンプル、第2フレームは音響データの81サンプル目から240サンプル、というように160サンプルずつオーバーラップしたフレームデータが出力される。
フレームデータxを受け取ったパワースペクトル演算部140は、複素正弦波格納部130から複素正弦波S (m)を読み出し、次の式(7)の畳み込み演算を実行してパワースペクトル、すなわち、各分析周波数fにおけるフレームデータのパワーP(m)を算出し、自己相関関数演算部150へ出力する(S220)。
Figure 2006235243
このように各分析周波数fについてフレームデータから直接計算されたパワーP(m)は、MFCCやPLPのような平均パワーとならないので、後段の線形予測分析において重視されるスペクトルの山は、それに隣接するスペクトルの谷の影響を受けない。このことにより、微小な分析フレームのずれや微小ノイズの影響を受けにくい高精度なスペクトル包絡情報の算出が可能となる。
パワースペクトルP(m)を受け取った自己相関関数演算部150は式(8)で表されるフーリエ変換を実行して、低次数側のN+1個の自己相関関数Rを計算し、線形予測分析部160へ出力する(S230)。
Figure 2006235243
ここでNは予め設定されたLPC分析の次数である。また、cos(πnm/M)(ここでn=0,…,N、またm=1,…,M−1)は事前に計算して、テーブル化しておけば計算時間が短縮される。
線形予測分析部160は、自己相関関数演算部150にて算出されたRに対して、Durbin-Levinson-Itakura法等の公知のアルゴリズムを用いることで、式(9)の関係を満足するLPC係数a(n=1,…,N)を算出する(S240)。
Figure 2006235243
さらに、線形予測分析部160は、LPC係数を式(10)で表される変換式によってLPCケプストラム係数c(i=1,…,I)に変換する。ここで、IはLPCケプストラムの次数であり、またN<nに対してa=0である。
Figure 2006235243
得られたLPCケプストラム係数は、スペクトル包絡情報としてスペクトル包絡情報格納部170へ出力される(S250)。
上記の分析処理は音響データの終わりまで、すなわち、フレームデータが無くなるまで繰り返される(S260)。スペクトル包絡情報格納部170は、線形予測分析部160が出力する1フレーム当たり(I+1)個のデータからなるLPCケプストラム係数を分析処理したフレームの数だけ蓄積し、外部からの指示によってこれらの係数列を出力する。
ここで、本音響信号分析装置による処理結果の例を示す。図4は、本音響信号分析装置によって前述のdata1(1フレーム分)から算出したLPCケプストラム係数によるスペクトル包絡を示す。フレーム長は30ms、LPC次数は10次、LPCケプストラム次数は10とした。図4において、点線がスペクトル包絡を表す。また、同図には参考のためにdata1をFFT分析して得たパワースペクトルを実線で示してある。また、比較のために、図5に、data1を一般的なLPCケプストラム分析して得たスペクトル包絡を示す。分析条件は図4の例と同じである。図5は、図4と同様、data1をFFT分析して得たパワースペクトルを実線で、またスペクトル包絡を点線で示している。
図4のスペクトル包絡が示す範囲は300〜3400Hzとなっており、0〜300Hzおよび3400〜4000Hzの帯域が本装置による分析では対象外となっていることが確認できる。図4と図5のスペクトル包絡を比較すると、図4の本装置によるスペクトル包絡の方がFFTスペクトルのより良い近似になっていることが観察できる。例えば、図5では、700Hz付近のスペクトルの谷と山を近似できていないが、図4ではこの変化を表現することができている。このような効果は、本装置の分析方法では、低域の分解能が高くなっていることに加え、分析帯域を300〜3400Hzに制限していることによる。0〜300Hzや3400〜4000Hzの帯域では、図11のような電話回線の特性により減衰が大きく、分析時に300Hzと3400Hzにスペクトルの山が現れてしまう。従来の方法では、これらの山を無駄に近似してしまうために700Hz付近の変化を近似できなかった。しかし、本発明ではそのような無駄な近似が生じにくい。このことは、本発明の音響信号分析装置が音響信号の性質を考慮した高精度な分析結果を得ることが可能なことを示している。
図6は、MFCCやPLPの問題として挙げた微小な分析フレームの違いによる分析誤差が本発明で改善されることを示す処理結果である。図6の実線はdata1を本音響信号分析装置で処理して得たLPCケプストラム係数によるスペクトル包絡、点線はdata2を同様に処理して得たスペクトル包絡である。両者はほぼ一致し、図15で見られたような分析誤差が殆ど生じていないことが分かる。このことは本音響信号分析装置が微小な分析フレームの違いの影響を受けにくく、安定した分析結果を得ることが可能なことを示している。
図7は、MFCCやPLPの問題として挙げた微小ノイズの影響による分析誤差が本発明で改善されることを示す処理結果である。図7の実線、点線はそれぞれ、data1、data3を本音響信号分析装置で処理して得たLPCケプストラム係数によるスペクトル包絡である。両者はほぼ一致し、図17で見られたような分析誤差が殆ど生じていないことが分かる。このことは本音響信号分析装置が耐雑音性に優れており、安定した分析結果を得ることが可能なことを示している。
以上に示したごとく、本発明の音響信号分析装置は、各分析周波数でのパワーが、その近傍の微細構造の影響を基本的に受けないことと、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡演算を行うこととによって、微小な分析フレームの違いや微小ノイズの影響を受けにくく安定したスペクトル包絡情報を算出することが可能である。よって、本発明の音響信号分析装置が算出するスペクトル包絡情報を音声認識、音声認証、音響信号圧縮等に用いれば、認識精度や認証精度の向上、圧縮信号品質の向上を図ることが可能となる。
また、分析周波数は、下限値あるいは/および上限値を指定して分析帯域を任意に制限することが可能であり、このことにより、本発明の音響信号分析装置は、分析パラメータの自由度を有効に活かした高精度なスペクトル包絡情報を得ることを可能とする。
また、音響圧縮への応用例としてMDCT(Modified Discrete Cosine Transform)やDFT(Discrete Fourier Transform)を使った圧縮方法に適用した場合、本手法で得られたLPC係数によるスペクトル包絡で、MDCT係数を平坦化すると、聴覚特性として重要な帯域の係数をより平坦化することが可能なため、量子化テーブルのバリエーションを減らすことができる。その結果、低ビットレートで高品質な再生信号を合成することができる。
なお、以上の説明では、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡情報としてLPCケプストラム係数を算出する例を示したが、本発明は、この他にも、LPC係数、PARCOR(偏自己相関)係数、LSP(線スペクトル対)等の線形予測モデルに基づいた各種パラメータの算出に広く用いることができる。
また、パワースペクトルの微細構造の山部に重みを置いたスペクトル包絡を抽出する分析手法として、線形予測分析以外のものを用いてもよい。例えば、線形予測モデルに基づかずに山を重視したスペクトル包絡を抽出する技術として、「改良ケプストラム法によるスペクトル包絡の抽出」今井 聖、阿部 芳春,電子情報通信学会論文誌A-36 pp.217-223 1979年に示される方法が知られており、このような方法を、パワースペクトル演算部140にて得られるパワースペクトルの分析に採用することができる。
上述の装置は、聴覚特性を反映した音声信号分析を行うように構成したが、分析目的に応じて音響信号の他の周波数特性を考慮するように構成することもできる。例えば、聴覚特性の他に、伝送路周波数特性やマイクロホン周波数特性を総合的に考慮することが可能である。その場合には、例えば、伝送路やマイクロホンの特性の影響で劣化する周波数帯で分析周波数帯を疎に配置するための周波数加重関数Q(f)を設計し、式(4)の関係から周波数軸変換関数T(f)を求め、式(2)、(3)から分析周波数fを決定すれば良い。また、聴覚特性と伝送路周波数特性、あるいは、聴覚特性とマイクロホン周波数特性を合わせた特性を基に周波数加重関数Q(f)を設計した場合も同様にして分析周波数を設定することが可能である。
さらに、以上の説明では、本発明を音響信号の分析処理に適用した実施形態を示したが、本発明は、音響信号に限らず様々な信号の周波数分析に対して適用することができる。例えば、指紋画像信号のような多次元信号を分析対象とすることも可能である。この場合、指紋画像の分析フレームのずれや微小なノイズの影響を受けにくい、すなわち、指紋センサへの指置きのずれや荒れや乾燥などの指紋の状態の影響を受けにくい安定したスペクトルを算出することが可能となり、このようにして算出した指紋のスペクトルを基に照合を行えば、高精度な指紋認証装置を構成することが可能となる。
〔実施形態2:音声認証装置〕
第2の実施形態は、音声認証装置への応用例である。本音声認証装置は、利用者の音声を予め登録しておき、装置に入力された音声と登録音声とを照合して入力音声を発声した話者(入力話者)が登録音声を発声した話者(登録話者)とみなせるか否かを判定し、入力話者と登録話者とが同一話者とみなしたときに認証を与える装置である。
まず、利用者は利用者ごとに定められたキーワードの音声(登録音声)を登録する。本実施形態では、利用者にはキーワードとして4桁数字が予め指定されているものとして説明を行う。利用者によって音声が入力されると、その音声信号からスペクトル包絡情報を表すパラメータを算出し、これを認証時の参照用データとして記憶する。パラメータとしては、第1の実施形態の音響信号分析装置と同様、LPC係数、LPCケプストラム係数、PARCOR係数、LSP等様々なものが利用可能であるが、ここではLPCケプストラム係数を採用した例を示す。
認証時には、利用者により入力された音声信号から登録時と同様にしてLPCケプストラム係数を算出し、記憶してあるLPCケプストラム係数とのマッチングを行う。音声パラメータのマッチングの手法としては、DP(Dynamic Programming:動的計画)やHMM(Hidden Markov Model)等の公知の手法が利用可能であるが、ここではHMMを採用した例を示す。マッチングの結果として算出される類似度合いを表す値を予め定めたしきい値と比較して、当該入力音声が登録音声と一致するか否かを判定し、入力話者に認証を与えるか否かを決定する。この認証結果は、例えば、出退勤管理の本人確認、電子商取引の本人確認、扉に設けた電気錠の解錠制御、コンピュータへのログイン制御などといった用途に利用できる。
図8は、本実施形態に係る音声認証装置の概略の構成を示すブロック構成図である。本装置における入力部300、音響データ格納部305、フレーム切り出し部310、複素正弦波格納部315、パワースペクトル演算部320、自己相関関数演算部325、線形予測分析部330、スペクトル包絡情報格納部340の機能はそれぞれ、図1に示した音響信号分析装置の入力部100、音響データ格納部110、フレーム切り出し部120、複素正弦波格納部130、パワースペクトル演算部140、自己相関関数演算部150、線形予測分析部160、スペクトル包絡情報格納部170と同様であるのでここでの説明は省略する。
不特定話者モデル格納部345は、キーワードを構成する音素あるいは単語に関して多人数の音声データにより学習した音声モデルを記憶する記憶装置である。4桁数字音声をキーワードとし、HMMを採用した本実施形態においては、事前に、多数の人が発声した0から9の単語の音声データを収集し、音声データから前述の音響信号分析装置によってスペクトル包絡情報を算出し、EM(Expectation Maximization)アルゴリズム等の公知の学習アルゴリズムを用いて各単語のHMMを学習し、不特定話者モデル格納部345に記憶しておく。
登録部350は、前述の登録者のキーワード音声から計算したLPCケプストラム係数列と不特定話者モデルとを用いて、登録者のキーワード音声モデルを学習し、登録者のキーワード音声モデルを認証時に参照するための登録データとして記憶装置である登録データ格納部355に保存する。
照合部365は、認証を受けようとする利用者により発声された音声(入力音声)が登録音声と一致するかを判定する。入力音声から抽出されたLPCケプストラム係数列と登録データとの類似度合いをHMM法などのアルゴリズムによって算出し、これを照合しきい値と比較して両者が一致したものとみなせるかどうかを判定する。すなわち、類似度合いが照合しきい値より高ければ入力音声は登録音声に一致したものとみなして受け入れ、そうでなければ不一致とみなして拒絶する。
照合しきい値は、事前に多数の照合実験を行って決定し、照合しきい値格納部360に記憶しておく。実験は、多数の人が発声したキーワード音声データを収集し、これらを総当り的に照合して本人同士を照合した場合と他人同士を照合した場合の類似度合いの分布を基にして決定する。決定の基準は、用途や目的に応じて異なり、セキュリティを重視する用途や目的では他人を誤って受け入れてしてしまう確率(FAR)が低くなるように基準を設定し、利便性を重視する用途や目的では本人を誤って拒絶してしまう確率(FRR)が低くなるように基準を設定する。
出力部370は、認証結果を外部の制御機器やアプリケーションプログラムに通知するための信号を生成し出力する回路あるいはプログラムである。例えば、音声認証装置が電気錠の解錠装置などの制御機器に接続されている場合、出力部370は回路として構成され、照合部で照合一致とみなしたときに認証を付与するとして解錠信号を生成し出力する。また、音声認証装置が出退勤管理プログラム等のアプリケーションプログラムと協働する場合、出力部370はプログラムとして構成され、照合一致とみなしたときは所定のアドレス番地に認証を付与する値を書き込む命令を生成し出力する。
音響データ格納部305、複素正弦波格納部315、スペクトル包絡情報格納部340、不特定話者モデル格納部345、登録データ格納部355、照合しきい値格納部360は、磁気ディスク装置や半導体メモリなどの記憶装置として構成される。フレーム切り出し部310、パワースペクトル演算部320、自己相関関数演算部325、線形予測分析部330、登録部350、照合部365はCPU、DSP、MCU等のプロセッサ上で動作するプログラム、あるいは、LSI等の論理回路として構成される。
次に、本音声認証装置の処理の流れを説明する。まず、本装置に利用者を登録する際の処理を説明する。図9は、この登録時の処理の概略の流れを示す処理フロー図である。利用者Aが「1234」という4桁数字音声を登録する場合の例で説明を行う。利用者Aが登録音声「1234」を発声すると、入力部300はこれをデジタル音声データとして音声認証装置に取り込み、音声データは音響データ格納部305に格納される(S400)。格納された音声データは、フレーム切り出し部310によってフレームデータとして順次切り出され、パワースペクトル演算部320に出力される(S405)。パワースペクトル演算部320は複素正弦波格納部315から複素正弦波S (m)を読み出し、フレームデータに対して式(7)の畳み込み演算を実行してパワースペクトルP(m)を算出し、自己相関関数演算部325に出力する(S410)。パワースペクトルを受け取った自己相関関数演算部325は式(8)のフーリエ変換を実行して自己相関関数Rを算出し、線形予測分析部330に出力する(S415)。自己相関関数を受け取った線形予測分析部330はDurbin-Levinson-Itakura法によって式(9)を満たすLPC係数a(n=1,…,N)を求め(S420)、式(10)によってLPC係数をLPCケプストラム係数に変換し、LPCケプストラム係数をスペクトル包絡情報格納部340に格納する(S425)。ここで算出されるスペクトル包絡情報(LPCケプストラム係数)は、前述の音響信号分析装置の場合と同様、周波数軸変換によってメルスケールなどの聴覚特性を反映した認証に好適な周波数分解能で分析され、かつ、電話回線やマイクの特性など入力部300の特性に応じた認証に好適な分析帯域制限によりパラメータの自由度が有効に利用されたもので、更に、前述のごとく、微小な分析フレームのずれや微小ノイズの影響を受けにくい高精度な分析結果となっている。
上記の分析処理はフレームデータが無くなるまで繰り返され(S430)、スペクトル包絡情報格納部340には1フレーム当たり(I+1)個のデータからなるLPCケプストラム係数がフレームの数だけ蓄積される。最終フレームの分析処理が終わると、蓄積されたLPCケプストラム係数列は登録部350に入力される。
登録音声の発声は所定回数だけ繰り返され(S435)、これに伴い、各発声に対するLPCケプストラム分析が実行され、登録部350には所定回数分のLPCケプストラム係数列が入力される。一般に、同一人物が同一内容の音声を発声しても、発声の変動の影響により毎回同じ音声データが得られることは無い。そこで、認証精度向上のため、このように、複数の音声データを収集し、発声の変動に強い登録データを学習するために用いる。
登録部350は、所定回数分のLPCケプストラム係数列が入力されると、不特定話者モデル格納部345から「1」「2」「3」「4」の4つの不特定話者モデルを読み出し、これらを連結して4桁数字列「1234」の不特定話者モデルを生成する(S440)。次に、登録部350は、登録音声を分析したLPCケプストラム係数列を用いて話者適応処理を行い、不特定話者モデルを利用者の音声の特徴を反映した特定話者モデルに変換する(S445)。最後に、登録部350は、変換した特定話者モデルを利用者の登録データとして登録データ格納部355に格納すると、登録の処理は終了する(S450)。
次に、本装置による認証時の動作について説明する。図10は、この認証時の処理の概略の流れを示す処理フロー図である。利用者が発声した音声は登録のときと同様、入力部300から取り込まれ(S500)、分析処理により抽出されたLPCケプストラム係数列がスペクトル包絡情報格納部340に蓄積される(S505〜S530)。ここで算出されるスペクトル包絡情報(LPCケプストラム係数)は、前述の音響信号分析装置の場合と同様、周波数軸変換によってメルスケールなどの聴覚特性を反映した認証に好適な周波数分解能で分析され、かつ、電話回線やマイクの特性など入力部300の特性に応じた認証に好適な分析帯域制限によりパラメータの自由度が有効に利用されたもので、更に、前述のごとく、微小な分析フレームのずれや微小ノイズの影響を受けにくい高精度な分析結果となっている。
照合部365は、スペクトル包絡情報格納部340から入力音声のLPCケプストラム係数列を、登録データ格納部355から登録音声データを読み出し、HMM法により登録音声データとLPCケプストラム係数列とのマッチングを行う(S535)。HMM法ではマッチングの結果として尤度と呼ばれる類似度合いを表す値が算出される。音声を入力した者が利用者A本人であり、発声内容が「1234」であれば尤度は高くなり、他人である利用者Bが入力した場合、あるいは、発声内容が異なる場合、尤度は低くなる。照合部365は、照合しきい値格納部360からしきい値を読み出して前記尤度としきい値とを比較し(S540)、尤度がしきい値以上であれば照合一致の通知を、そうでなければ照合不一致の通知を出力部370に対して行う(S545)。
出力部370は、照合部365から照合一致の通知を受けると、入力話者に認証を付与する場合の出力信号を生成し出力する(S550)。例えば、音声認証装置が電気錠の解錠制御装置と接続されている場合、出力部370は、解錠信号を解錠制御装置に伝達し、解錠信号を受け取った解錠制御信号は電気錠を解錠する。また、例えば、出退勤管理アプリケーションプログラムと協働している場合、出力部370は、認証を付与することを意味する値を出退勤管理アプリケーションプログラムに通知し、通知を受けた出退勤管理アプリケーションプログラムはその時の時刻と共に出退勤記録を生成する。
以上で説明した本音声認証装置は、登録音声および認証を受けようとする利用者の入力音声から、入力部の特性に応じた認証に好適な任意の周波数軸変換と分析周波数帯制限を反映したスペクトル包絡情報(LPCケプストラム係数)を算出し、これらを基に登録および照合を行うので、高精度な認証結果を得ることができる。
なお、上記説明は簡単のため、登録できる人数が1名の場合について説明したが、複数人が登録できる装置に対しても本手法は適用可能である。この場合、電話器のプッシュボタン等で利用者のIDを自己申告してもらってから登録を行い、登録データにID情報を含め、検索可能に記憶しておく。認証時には同様にIDを自己申告してもらい、IDで登録データを検索することで上記と同様の認証処理を行うようにすれば良い。また、認証時のID自己申告をせずとも複数の登録データに対して上記認証処理を行い、照合一致となる登録者として認証を与えるようにすることも可能である。更に、電話番号を通知するサービスを利用して、登録時に通知された電話番号を登録データに含めて記憶し、認証時に通知された電話番号によって登録データを検索することも可能である。
また、一般に音声照合方式は、照合時の発声内容(発声音韻系列)に応じて、入力音声の発声内容を登録音声と同一のものに限定する発声内容依存型と、発声内容を限定しない発声内容独立型の2つに分類することができる。上記説明は、発声内容依存型の音声照合方式を採用した音声認証装置についてのものであったが、発声内容独立型の音声照合方式に応用することも可能である。
発声内容独立型の場合、HMMの一形態であるGMM(Gaussian Mixture Model)という公知の手法があり、以下これを例に説明する。予め多人数の任意の発声を本手法により分析し、その分析パラメータ列から不特定話者GMMを生成しておく。GMMは1状態のHMMとみなすことができ、音韻に依存しない音声パラメータの分布を規定するものである。登録時には、登録話者のある程度の長さをもった発声文章を本発明の分析手法によって分析し、不特定話者GMMの適応処理により特定話者GMMを生成する。認証時にはこの特定話者GMMと認証したい話者の発声とのマッチングを行い、同一人物かどうかの判断を下す。
以上述べたように本発明の音声認証装置は、第1の実施形態の音響信号分析装置に関して説明したところと同様に、微小な分析フレームのずれに対して安定で、かつ、耐雑音性に優れたスペクトル包絡情報を基に登録および照合を行うことができるので、高精度な音声認証が可能である。また、本発明の音声認証装置においては、下限値あるいは/および上限値を指定して分析帯域を任意に制限することが可能である。すなわち、本発明の音声認証装置は、分析パラメータの自由度を有効に活かした高精度なスペクトル包絡情報を登録し、また認証時にも同様に高精度なスペクトル包絡情報を抽出しマッチングを行うことができ、これによっても音声認証の精度の向上が図られる。
第1の実施形態に係る音響信号分析装置の概略のブロック構成図である。 非線形周波数軸上で等間隔の点に相当するインデックスmと分析周波数との対応関係を示すグラフである。 第1の実施形態の音響信号分析装置における処理の概略のフロー図である。 音声フレームデータの一例に対し、第1の実施形態の音響信号分析装置により算出したスペクトル包絡を示すグラフである。 図4と同じ音声フレームデータ例に対し、従来手法により生成されるLPCケプストラム係数によるスペクトル包絡を示すグラフである。 互いに微小時間ずれた2つの音声フレームデータに対し第1の実施形態の音響信号分析装置が生成するスペクトル包絡を示すグラフである。 微小ノイズの有無において相違する2つの音声フレームデータに対し第1の実施形態の音響信号分析装置が生成するスペクトル包絡を示すグラフである。 第2の実施形態に係る音声認証装置の概略のブロック構成図である。 第2の実施形態の音声認証装置における登録時の処理の概略のフロー図である。 第2の実施形態の音声認証装置における認証時の処理の概略のフロー図である。 電話音声の周波数特性を示すグラフである。 MFCCやPLPでFFTスペクトルに施すフィルタバンクの特性を示す模式図である。 定常状態にある音声波形の一例を示す模式図である。 互いに微小時間ずれた2つの音声フレームデータをFFT分析したパワースペクトル図である。 図14に対応する2つの音声フレームデータに対しMFCCにより生成したスペクトル包絡を示すグラフである。 微小ノイズの有無において相違する2つの音声フレームデータをFFT分析したパワースペクトル図である。 図16に対応する2つの音声フレームデータに対しMFCCにより生成したスペクトル包絡を示すグラフである。
符号の説明
100,300 入力部、110,305 音響データ格納部、120,310 フレーム切り出し部、130,315 複素正弦波格納部、140,320 パワースペクトル演算部、150,325 自己相関関数演算部、160,330 線形予測分析部、170,340 スペクトル包絡情報格納部、345 不特定話者モデル格納部、350 登録部、355 登録データ格納部、360 照合しきい値格納部、365 照合部、370 出力部。

Claims (6)

  1. 予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と分析対象の音響信号との畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響信号のパワースペクトルを生成するパワースペクトル生成部と、
    前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成部と、
    を有することを特徴とする音響信号分析装置。
  2. 請求項1に記載の音響信号分析装置において、
    前記注目周波数は、聴覚特性に対応する非線形周波数軸上で等周波数間隔に設定されること、
    を特徴とする音響信号分析装置。
  3. 請求項1又は請求項2に記載の音響信号分析装置において、
    前記注目周波数は、0Hz以上で前記音響信号のサンプリング周波数の2分の1より低い下限値と、前記下限値より高く前記音響信号のサンプリング周波数の2分の1以下の上限値との間で設定されること、
    を特徴とする音響信号分析装置。
  4. 請求項1から請求項3のいずれか1つに記載の音響信号分析装置において、
    前記スペクトル包絡情報生成部は、
    前記パワースペクトルをフーリエ変換して自己相関関数を求める自己相関関数演算部と、
    前記自己相関関数に基づいて線形予測分析を行い、前記スペクトル包絡情報を求める線形予測演算部と、
    を有することを特徴とする音響信号分析装置。
  5. 請求項1から請求項4のいずれか1つに記載の音響信号分析装置において、
    パワースペクトル生成部は、前記畳み込み演算にて前記音響信号の各サンプリング値に乗じられる、前記各複素正弦波の値に応じた係数を予め格納した係数格納部を有すること、
    を特徴とする音響信号分析装置。
  6. 音響信号をサンプリングした音響データからスペクトル包絡情報を算出する手段としてコンピュータを機能させるプログラムであって、
    予め設定された複数の注目周波数それぞれについて、当該注目周波数に対応する複素正弦波と前記音響データとの畳み込み演算を行って当該注目周波数におけるパワーを求め、前記音響データのパワースペクトルを生成するパワースペクトル生成手段と、
    前記パワースペクトルの微細構造のピークに重みを置いたスペクトル包絡抽出演算を行って、スペクトル包絡情報を生成するスペクトル包絡情報生成手段と、
    を実現し、
    前記注目周波数は、分析目的に応じて任意に設定可能であること、
    を特徴とする音響信号分析プログラム。
JP2005049782A 2005-02-24 2005-02-24 音響信号分析装置及び音響信号分析プログラム Pending JP2006235243A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005049782A JP2006235243A (ja) 2005-02-24 2005-02-24 音響信号分析装置及び音響信号分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005049782A JP2006235243A (ja) 2005-02-24 2005-02-24 音響信号分析装置及び音響信号分析プログラム

Publications (1)

Publication Number Publication Date
JP2006235243A true JP2006235243A (ja) 2006-09-07

Family

ID=37042957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005049782A Pending JP2006235243A (ja) 2005-02-24 2005-02-24 音響信号分析装置及び音響信号分析プログラム

Country Status (1)

Country Link
JP (1) JP2006235243A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161810A (ja) * 2014-02-27 2015-09-07 日本電信電話株式会社 サンプル列生成方法、符号化方法、復号方法、これらの装置及びプログラム
JP2016045462A (ja) * 2014-08-26 2016-04-04 日本電信電話株式会社 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム
JP2017531237A (ja) * 2014-08-13 2017-10-19 クゥアルコム・インコーポレイテッドQualcomm Incorporated 多因子のキャンセル可能なバイオメトリックデータに基づく認証
CN111824879A (zh) * 2020-07-02 2020-10-27 南京安杰信息科技有限公司 智能语音无接触梯控方法、系统及存储介质
JP2021508076A (ja) * 2017-12-19 2021-02-25 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化のqmfに基づく高調波トランスポンダの改良のための方法、機器、およびシステム
JP2021508083A (ja) * 2017-12-19 2021-02-25 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化非相関フィルタの改良のための方法、機器、およびシステム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06310985A (ja) * 1993-04-27 1994-11-04 Hitachi Ltd 音声信号処理回路
JPH11327600A (ja) * 1997-10-03 1999-11-26 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
JP2002091486A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法、および音声認識プログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06310985A (ja) * 1993-04-27 1994-11-04 Hitachi Ltd 音声信号処理回路
JPH11327600A (ja) * 1997-10-03 1999-11-26 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
JP2002091486A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法、および音声認識プログラムを記録した記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161810A (ja) * 2014-02-27 2015-09-07 日本電信電話株式会社 サンプル列生成方法、符号化方法、復号方法、これらの装置及びプログラム
JP2017531237A (ja) * 2014-08-13 2017-10-19 クゥアルコム・インコーポレイテッドQualcomm Incorporated 多因子のキャンセル可能なバイオメトリックデータに基づく認証
JP2016045462A (ja) * 2014-08-26 2016-04-04 日本電信電話株式会社 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム
JP2021508076A (ja) * 2017-12-19 2021-02-25 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化のqmfに基づく高調波トランスポンダの改良のための方法、機器、およびシステム
JP2021508083A (ja) * 2017-12-19 2021-02-25 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化非相関フィルタの改良のための方法、機器、およびシステム
JP7326285B2 (ja) 2017-12-19 2023-08-15 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化のqmfに基づく高調波トランスポーザーの改良のための方法、機器、およびシステム
JP7326286B2 (ja) 2017-12-19 2023-08-15 ドルビー・インターナショナル・アーベー 音声音響統合復号および符号化非相関フィルタの改良のための方法、機器、およびシステム
CN111824879A (zh) * 2020-07-02 2020-10-27 南京安杰信息科技有限公司 智能语音无接触梯控方法、系统及存储介质
CN111824879B (zh) * 2020-07-02 2021-03-30 南京安杰信息科技有限公司 智能语音无接触梯控方法、系统及存储介质

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Campbell Speaker recognition: A tutorial
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US7957959B2 (en) Method and apparatus for processing speech data with classification models
Singh et al. Multimedia utilization of non-computerized disguised voice and acoustic similarity measurement
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
US20070185715A1 (en) Method and apparatus for generating a frequency warping function and for frequency warping
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
Senthil Raja et al. Speaker recognition under stressed condition
Sumithra et al. A study on feature extraction techniques for text independent speaker identification
Jin et al. Overview of front-end features for robust speaker recognition
Shanthi Therese et al. Review of feature extraction techniques in automatic speech recognition
Cao et al. An improved endpoint detection algorithm based on MFCC Cosine Value
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
CN110838294B (zh) 一种语音验证方法、装置、计算机设备及存储介质
Omer Joint MFCC-and-vector quantization based text-independent speaker recognition system
Chow et al. Speaker identification based on log area ratio and Gaussian mixture models in narrow-band speech: speech understanding/interaction
Imam et al. Speaker recognition using automated systems
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Jagtap et al. Speaker verification using Gaussian mixture model
Nair et al. A reliable speaker verification system based on LPCC and DTW
Bora et al. Speaker identification for biometric access control using hybrid features
Aliyu et al. Development of a text-dependent speaker recognition system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101102