JP2007156337A - 音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム - Google Patents
音声信号分析装置、音声信号分析方法、音声信号分析プログラム、自動音声認識装置、自動音声認識方法及び自動音声認識プログラム Download PDFInfo
- Publication number
- JP2007156337A JP2007156337A JP2005355018A JP2005355018A JP2007156337A JP 2007156337 A JP2007156337 A JP 2007156337A JP 2005355018 A JP2005355018 A JP 2005355018A JP 2005355018 A JP2005355018 A JP 2005355018A JP 2007156337 A JP2007156337 A JP 2007156337A
- Authority
- JP
- Japan
- Prior art keywords
- periodic component
- value
- feature parameter
- unit
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】櫛型フィルタ適用部127において、分析対象の音声信号に櫛型フィルタを適用し、分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する。次に、当該分離抽出された信号成分を用い、振幅演算部128において、周期性成分のパワー値を算出する。そして、特徴パラメータ生成部130において、周期性成分のパワー値のみを特徴量として用い、特徴パラメータを生成する。
【選択図】図2
Description
しかし、この短時間対数パワー値を音声特徴表現である特徴パラメータの一つとして用いる場合、静かな環境では音声の振幅変動を表現できる一方で、雑音や伝送歪みがあるような状況では、短時間対数パワー値そのものが雑音や伝送歪みの影響を受けて変化するため、十分な音声特徴表現を得ることは難しい。
このような点を考慮し、雑音環境下でも十分な音声特徴表現を得るために、音声信号を帯域分割し、その信号の周期性成分と非周期性成分とを分離し、それらを併用して特徴量として用いる耐雑音音声認識手法がある(例えば、特許文献1、非特許文献2,3参照)。音声の有声音部分(母音並びに有声子音)の周波数スペクトルは、その基本周波数の整数倍にあたる周波数成分(調波成分)にパワーが集中している。すなわち、基本周波数の整数倍にあたる周波数成分の信号の振幅値が他の周波数成分のものと比べて突出して大きい。このような周波数スペクトルの波形は、その基本周波数に応じた周期的なものとなる。そのため、基本周波数の整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを用いることで、この周期性成分を抑圧或いは強調することができる。この性質を利用することで、周期性成分にあたる音声成分と、周期性成分以外の非周期性成分にあたる雑音等の成分とを分離することができる。非特許文献2や3の手法では、このように分離した周期性成分と非周期性成分とを併用したものを特徴量としている。
本発明は、このような点に鑑みてなされたものであり、あらゆる雑音環境下で十分な耐雑音性能を得ることが可能な音声信号分析技術及びそれを用いた自動音声認識技術を提供することを目的とする。
ここで、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成しているため、このように算出された特徴パラメータは、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調されたものとなっている。これにより、雑音や伝送歪み等が強い雑音環境下でも十分な耐雑音性能を得ることができる。
このような構成により、特徴パラメータ生成部は、雑音や伝送歪み等の影響が少ない帯域の周期性成分を変数とした単調増加関数値を選択的に用いて特徴パラメータを生成することが可能となる。その結果、より一層、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調された特徴パラメータを生成することができる。
これにより、非周期性成分の振幅値に応じ、非周期性成分の影響の小さな帯域を選択し、その帯域の周期性成分の振幅値を変数とした単調増加関数値を特徴パラメータの生成に用いることが可能となる。その結果、動的に変化する雑音環境に対しても十分な耐雑音性能を得ることができる。
これにより、周期性成分に対する非周期性成分の影響が小さな帯域を選択し、その帯域に対応する周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として特徴パラメータを生成することができる。その結果、帯域毎に雑音等の成分が異なる雑音環境のみならず、白色雑音のような各帯域で振幅値が一様な雑音等を有する雑音環境においても、高い耐雑音性能を得ることができる。たとえ雑音等の成分の振幅値が一様であっても、それに対する音声成分の振幅値が大きい帯域を選択できるからである。
これにより、音声成分や雑音環境の時間変動が大きく、例えば、全ての帯域において音声成分に対する雑音成分の比率が大きくなってしまう時間区間が存在し、適切な閾値の設定が困難な場合においても、耐雑音性能の高い特徴パラメータを生成することができる。
ここで、特徴パラメータ生成部は、周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成しているため、このように算出された特徴パラメータは、雑音や伝送歪み等の特徴が抑制され、音声信号の特徴が強調されたものとなっている。これにより、雑音や伝送歪み等が強い雑音環境下でも精度の高い音声認識結果を得ることができる。
また、本発明において好ましくは、帯域分割部が、分析対象の音声信号を複数の帯域の信号に分割し、信号分離部が、音声信号の周期性成分及び非周期性成分の少なくとも一方を帯域毎に分離抽出し、第1振幅演算部が、周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、第2特徴パラメータ生成部が、帯域毎に算出された周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用いて第2特徴パラメータを生成する。
また、本発明において好ましくは、第2振幅演算部が、信号分離部で分離抽出された信号成分を用い、非周期性成分の振幅値を変数とした単調増加関数値を帯域毎に算出し、特徴パラメータ生成部が、第2振幅演算部が算出した非周期性成分の振幅値を変数とした単調増加関数値を用い、第2特徴パラメータの生成に用いる周期性成分の振幅値を変数とした単調増加関数値を選択する。
〔第1の実施の形態〕
まず、本発明における第1の実施の形態について説明する。
本形態は、雑音環境下で観測された音声信号から、音声信号の特徴パラメータを抽出する音声信号分析装置に係る形態である。本形態では、複数の帯域通過フィルタから構成される帯域通過フィルタバンクを用い、分析対象の音声信号を複数の周波数帯域に分割し、それぞれの帯域に対し、基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを生成する。そして、これらの櫛型フィルタを用い、音声信号から各帯域の周期性成分を抽出し、抽出した周期性成分の振幅値を変数とした単調増加関数値を全て用いて特徴パラメータを生成する。以下、この第1の実施の形態を詳細に説明する。なお、以下では、振幅値を変数とした単調増加関数値のことを「パワー値」と呼ぶ。また、この「パワー値」は、振幅値そのものをも含む概念である。
図1は、本形態における音声信号分析装置1のハードウェア構成を例示したブロック図である。
図1に例示するように、この例の音声信号分析装置1は、CPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、この例の入力部12は、データが入力される入力ポート、キーボード、マウス等であり、出力部13は、データを出力する出力ポート、ディスプレイ等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、本形態の音声信号分析処理を実行するためのプログラムを格納したプログラム領域14a及びタグ出力情報等の各種データが格納されるデータ領域14bを有している。また、RAM16は、例えば、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが書き込まれるプログラム領域16a及び各種データが書き込まれるデータ領域16bを有している。また、この例のバス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を、データのやり取りが可能なように接続する。
補助記憶装置14のプログラム領域14aには、音声信号分析装置1としてコンピュータを機能させるための音声信号分析プログラムが格納される。
本形態の音声信号分析プログラムは、音声波形から離散信号を切り出すための音声波形切出プログラム、離散フーリエ変換を行うための離散フーリエ変換プログラム、複数の帯域通過フィルタからなる帯域通過フィルタバンクを用いて帯域分割を行うための帯域分割プログラム、逆離散フーリエ変換を行うための逆離散フーリエ変換プログラム、周期推定を行うための周期推定プログラム、櫛型フィルタを生成するための櫛型フィルタ生成プログラム、櫛型フィルタを信号に適用するための櫛型フィルタ適用プログラム、パワー値を算出するための振幅演算プログラム、減算を行うための減算プログラム、特徴パラメータを生成するための特徴パラメータ生成プログラム、及び制御処理を行うための制御プログラムを呼び出し可能に構成される。また、特徴パラメータ生成プログラムは、加算プログラム及び対数変換プログラムを呼び出し可能に構成される。
なお、上述した各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、上記のプログラム単体でその機能を実現できるものでもよいし、上記のプログラムがさらに他のライブラリ(記載していない)を読み出して各機能を実現するものでもよい。
この例のCPU11は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述の音声信号分析プログラムを、RAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データをRAM16のデータ領域16bに書き込む。さらに、CPU11は、当該音声信号分析プログラムや各種データが書き込まれたRAM16上のアドレスをレジスタ11cに格納する。そして、CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域から音声信号分析プログラムやデータを読み出し、その音声信号分析プログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
図2に示すように、本形態の音声信号分析装置1は、メモリ100、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部126、櫛型フィルタ適用部127(「信号分離部」に相当)、振幅演算部128(「第1振幅演算部」を構成)、減算部129(「第1振幅演算部」を構成)、特徴パラメータ生成部130、制御部141及び一時メモリ142を有している。また、メモリ100は、データを記憶するための領域101〜111を有しており、特徴パラメータ生成部130は、加算部131及び対数変換部132を有している。なお、メモリ100及び一時メモリ142は、補助記憶装置14のデータ領域14b、RAM16のデータ領域16b、CPU11のレジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、或いはこれらを併用した記憶領域に相当する。また、音声波形切出部121、離散フーリエ変換部122、帯域分割部123、逆離散フーリエ変換部124、周期推定部125、櫛型フィルタ生成部126、櫛型フィルタ適用部127、振幅演算部128、減算部129、特徴パラメータ生成部130及び制御部141は、それぞれ、音声波形切出プログラム、離散フーリエ変換プログラム、帯域分割プログラム、逆離散フーリエ変換プログラム、周期推定プログラム、櫛型フィルタ生成プログラム、櫛型フィルタ適用プログラム、振幅演算プログラム、減算プログラム、特徴パラメータ生成プログラム及び制御プログラムがCPU11に読み込まれることにより構成されるものである。
また、音声信号分析装置1は、制御部141の制御のもと各処理を実行する。また、明示しない限り、演算過程で算出されたデータは逐一一時メモリ142に格納され、次の演算処理において利用される。
図3は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図4は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図2から図4を用いて、本形態の音声信号分析方法を説明する。
入力された音声信号x(n)は、まず、音声波形切出部121に入力され、音声波形切出部121は、入力された音声信号x(n)から、ある時間長の波形を時間軸方向に移動(シフト)しながら切り出していく。本形態の例では、まず、制御部141がパラメータiに0を代入し、これを一時メモリ142に格納する(ステップS1)。
なお、Lは切り出される波形の幅(サンプル点数)を示す。図5は、サンプリング周波数8,000Hzでサンプリングされた音声信号x(n)から、式(1)の窓関数を用い、切り出し位置を時間軸方向に10msづつシフトしながら25msの時間長の離散信号xi(n)を切り出した様子を示した図である。すなわち、図5では、式(1)に示す窓関数w(n)を、s=80サンプル点(8,000Hz×10ms)ずつ移動させながら音声信号x(n)に乗じ、L=200サンプル点(8,000Hz×25ms)の離散信号xi(n)を抽出している。
次に、離散フーリエ変換部122が、メモリ100の領域101から離散信号xi(n)を読み込み、読み込んだ離散信号xi(n)に対して離散フーリエ変換を行い、時間領域の離散信号xi(n)から周波数領域の周波数スペクトルXi(k)への変換を行う(ステップS3)。本形態の場合、離散フーリエ変換部122は、以下の演算によってこの変換を行う。
なお、jは虚数単位を示し、kはサンプリング周波数をM等分した離散点〔k=0,fs/M,...,fs(M−1)/M、fsはサンプリング周波数〕を示し、Mは所定の自然数(例えば、M=2048)を示す。
離散フーリエ変換部122は、以上のように生成した周波数スペクトルXi(k)を出力し、出力された周波数スペクトルXi(k)は、対応するkの値が特定できるように、メモリ100の領域102に格納される。なお、kの値が特定できるように周波数スペクトルXi(k)を格納する手法としては、例えば、kに対応するアドレスにXi(k)を格納する手法が例示できる。
の演算を行って自己相関関数ai,q(n)を算出し、これらをメモリ100の領域105に格納する。次に、周期推定部125が、メモリ100の領域105から各自己相関関数ai,q(n)を読み込み、それらを用いて各周波数スペクトルXi,q(k)の周期np i,qを推定する(ステップS5)。この周期推定には、例えば、基本周波数抽出法の一つである自己相関法(W.Hess、“Pitch determination of speech signals,”Springer-Verlag, New York,1983)を用いる。具体的には、周期推定部125は、例えば、各帯域に対し(すなわち、各qに対し)、一定の探索範囲内、例えば40≦n≦100(サンプリング周波数8,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内において自己相関関数ai,q(n)が最大となるnを検出し、それを各周波数スペクトルXi,q(k)の周期np i,qと推定する。このnp i,qは、上述したnの探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号(例えば正弦波)の場合にはその周期長に相当する値になる。周期推定部125は、この周期np i,qを出力し、出力された各周期np i,qは、メモリ100の領域106に格納される。
Hi,q(z)=1−z^(−np i,q) …(4)
と表される関数である。なお、α^βは、αのβ乗(αβ)を意味する。櫛型フィルタ生成部126は、以上のように生成した各帯域の櫛型フィルタHi,q(z)を出力し、出力された各帯域の櫛型フィルタHi,q(z)は、メモリ100の領域107に格納される。
の演算によって各非周期性成分Zi、q(k)の(平均)パワー値pcf i,qを計算する(ステップS8)。振幅演算部128は、このように算出した各非周期性成分Zi、q(k)のパワー値pcf i,qを出力し、出力された各非周期性成分Zi、q(k)のパワー値pcf i,qは、メモリ100の領域109に格納される。
次に、振幅演算部128は、メモリ100の領域104から、各qに対応する櫛型フィルタHi,q(z)適用前の各周波数スペクトルXi、q(k)を読み込み、
の演算によって、各周波数スペクトルXi、q(k)の(平均)パワー値pbpf i,qを計算する(ステップS9)。振幅演算部128は、このように算出した各周波数スペクトルXi、q(k)のパワー値pbpf i,qを出力し、出力された各周波数スペクトルXi、q(k)のパワー値pbpf i,qは、メモリ100の領域109に格納される。
加算部131は、このように生成した加算値Ep iを出力し、出力された加算値Ep iはメモリ100の領域111に格納される。
次に、特徴パラメータ生成部130の対数変換部132が、メモリ100の領域111から加算値Ep iを読み込み、それを対数変換した特徴パラメータEi(Ei=log Ep i)を生成する(ステップS12)。対数変換部132は、このように生成した特徴パラメータEiを出力する。
次に、制御部141は、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS2に戻す(ステップS13)。
次に、本発明における第2の実施の形態について説明する。
本形態は、第1の実施の形態の変形例である。第1の実施の形態では、帯域通過フィルタバンクによって分割された各帯域に対し、基本周波数とその整数倍の周波数に零点が存在する周波数特性を持つ櫛型フィルタを生成していた。これに対し、第2の実施の形態では、各帯域に対し、基本周波数とその整数倍の周波数に対応する値を強調する櫛型フィルタを生成する。そして、このような櫛型フィルタを用い、音声信号から各帯域の周期性成分を抽出し、抽出した周期性成分のパワー値を全て用いて特徴パラメータを生成する。以下、第1の実施の形態との相違点を中心に第2の実施の形態の説明を行っていく。
図6は、第2の実施の形態における音声信号分析装置200の機能構成を例示したブロック図である。第2の実施の形態の音声信号分析装置300も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、減算プログラムを有しない点、及び、櫛型フィルタ生成プログラムと振幅演算プログラムとの構成の点で第1の実施の形態のものと相違する。なお、図6において第1の実施の形態と共通する部分については、図2と同じ符号を付している。
図7は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図8は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図6から図8を用いて、本形態の音声信号分析方法を説明する。
前処理及びステップS20からステップS24までの処理は、第1の実施の形態におけるステップS1からS5(図3)の処理と同じであるため、ここでは説明を省略する。本形態の場合、ステップS24の処理の後、櫛型フィルタ生成部226が、メモリ100の領域106から各周期np i,qを読み込み、各帯域(すなわち、各q)に対し、周波数スペクトルXi、q(k)の基本周波数とその整数倍の各成分とを強調する櫛型フィルタHi,q(z)を生成する(ステップS25)。本形態の櫛型フィルタHi,q(z)は、例えば、z領域表現で
Hi,q(z)=1 / {1‐z^(‐np i,q)} …(8)
と表される関数である。櫛型フィルタ生成部226は、以上のように生成した各帯域の櫛型フィルタHi,q(z)を出力し、出力された各帯域の櫛型フィルタHi,q(z)は、メモリ100の領域107に格納される。
次に、振幅演算部228(「第1振幅演算部」に相当)が、メモリ100の領域108から、各qに対応する各周期性成分Zi、q(k)を読み込み、
の演算によって各周期性成分Zi、q(k)の(平均)パワー値psp i,qを計算する(ステップS27)。振幅演算部228は、このように算出した各周期性成分Zi、q(k)のパワー値psp i,qを出力し、出力された各周期性成分Zi、q(k)のパワー値psp i,qは、メモリ100の領域109に格納される。
次に、本発明における第3の実施の形態について説明する。
本形態も第1の実施の形態の変形例である。第1の実施の形態では、櫛型フィルタを用いて抽出した周期性成分のパワー値を全て用いて特徴パラメータを生成していた。これに対し、第3の実施の形態では、抽出した周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する。
音声信号のパワー値の強弱は周波数帯域によって偏りがある。また、周囲環境の雑音のパワー値も、通常、周波数スペクトル上で一様には分布しておらず、各周波数帯域によって偏りがある。従って、雑音の影響の少ない(音声のパワー値が大きく、雑音のパワー値の小さい)周波数帯域を選択し、その周波数帯域の信号を特徴パラメータの生成に利用することによって、雑音環境下での音声信号分析をより精度よく行うことができる。また、仮に、白色雑音のように、雑音のパワー値の分布が周波数スペクトル上で一様であったとしても、雑音よりも音声のパワー値が大きい周波数帯域を選択すれば、同様の効果が期待できる。第3の実施の形態では、このような効果を得るため、周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する。
以下、第1の実施の形態との相違点を中心に第3の実施の形態の説明を行っていく。
図9は、第3の実施の形態における音声信号分析装置300の機能構成を例示したブロック図である。なお、第3の実施の形態の音声信号分析装置300もコンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、特徴パラメータ生成プログラムの構成の点で第1の実施の形態のものと相違する。なお、図9において第1の実施の形態と共通する部分については、図2と同じ符号を付している。
図10は、本形態の音声信号分析方法を説明するためのフローチャートである。以下、図9及び図10を用いて、本形態の音声信号分析方法を説明する。
前処理及びステップS40からステップS49までの処理は、第1の実施の形態におけるステップS1からS10(図3)の処理と同じであるため、ここでは説明を省略する。本形態の場合、ステップS49の処理の後、特徴パラメータ生成部330が、帯域毎に算出された周期性成分Zi、q(k)のパワー値psp i,qの一部のみを特徴量として用い、特徴パラメータを生成する。
まず、特徴パラメータ生成部330の選択部333が、メモリ100の領域110から、周期性成分Zi、q(k)のパワー値psp i,qから一部のパワー値psp i,q’を選択する(ステップS50)。
以下に、選択部333が行うパワー値psp i,qの選択手法を例示する。
<手法1>
手法1の例の場合、選択部333は、予め設定された帯域に対応する(予め設定されたq’に対応する)パワー値psp i,q’のみを選択する。例えば、雑音成分が多いことが予め知られている帯域以外の帯域に対応するパワー値のみを選択する。
手法2の例の場合、選択部333は、非周期性成分Zi、q(k)のパワー値pcf i,qを用い、特徴パラメータの生成に用いる周期性成分のパワー値psp i,q’を選択する。
例えば、選択部333が、メモリ100の領域109から各非周期性成分Zi、q(k)のパワー値pcf i,qを読み込み、当該パワー値pcf i,qが閾値以下或いは未満となる帯域に対応する周期性成分のパワー値psp i,q’のみを選択する。
さらに、例えば、例えば、選択部333が、メモリ100の領域109から各非周期性成分Zi、q(k)のパワー値pcf i,qを読み込み、これらの大きさを各帯域間で比較し、その降順順位がある順位以下或いは未満となる帯域に対応する周期性成分のパワー値psp i,q’のみを選択することとしてもよい。
次に、特徴パラメータ生成部330の対数変換部132が、メモリ100の領域111から加算値Ep iを読み込み、それを対数変換した特徴パラメータEi(Ei=log Ep i)を生成する(ステップS52)。対数変換部132は、このように生成した特徴パラメータEiを出力する。
次に、制御部141は、一時メモリ142からパラメータiを読み込み、このiの値に1を加算したi+1を新たなパラメータiとして一時メモリ142に格納し、処理をステップS41に戻す(ステップS53)。
次に、本発明における第4の実施の形態について説明する。
本形態は、第3の実施の形態の変形例である。第3の実施の形態では、周波数領域の音声信号を帯域通過フィルタバンクによって帯域分割してから各処理を実行していたのに対し、第4の実施の形態では、時間帯域の音声信号を帯域通過フィルタバンクによって帯域分割してから各処理を行う。以下、第1,3の実施の形態との相違点を中心に第4の実施の形態の説明を行っていく。
図11は、第4の実施の形態における音声信号分析装置400の機能構成を例示したブロック図である。第4の実施の形態の音声信号分析装置400も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、帯域分割プログラム、音声波形切出プログラム及び周期推定プログラムの構成が相違する点、離散フーリエ変換プログラムの代わりに自己相関関数生成プログラムを有する点で第3の実施の形態のものと相違する。なお、図11において第1,3の実施の形態と共通する部分については、図2及び図9と同じ符号を付している。
図12は、本形態の音声信号分析方法を説明するためのフローチャートである。また、図13は、本形態の音声信号分析方法における情報の流れを示した概念図である。以下、図11から図13を用いて、本形態の音声信号分析方法を説明する。
第1の実施の形態と同様な前処理を前提に、まず、制御部141がパラメータiに0を代入し、これを一時メモリ142に格納する(ステップS60)。次に、分析対象の音声信号x(n)が帯域分割部423に入力され、帯域分割部423は、これをトリガに、メモリ410の領域103から各帯域に対応する帯域通過フィルタBPFq(n)〔q=1,...,Q〕を読み込む。そして、帯域分割部423は、入力された音声信号x(n)に、読み込んだ各帯域通過フィルタBPFq(n)を乗じ、それぞれの演算結果を、各帯域通過フィルタBPFq(n)に対応する周波数帯域に分割された分離信号xq(n)として出力する〔xq(n)=Xi(k)・BPFq(n)/ステップS61〕。そして、このように出力された分離信号xq(n)は、メモリ410の領域411に格納される。
次に、周期推定部425が、メモリ410の領域415から自己相関関数の係数ci,q(r)を読み込み、各帯域に対し(すなわち、各qに対し)、一定の探索範囲内、例えば40≦r≦100(サンプリング周波数8,000Hzの場合の80Hzから200Hzの周期に該当)の範囲内において自己相関関数の係数ci,q(r)が最大となるrを検出し、それを各離散信号xi,q(n)の周期np i,qと推定する(ステップS63)。周期推定部425は、この周期np i,qを出力し、出力された各周期np i,qは、メモリ410の領域106に格納される。
〔第5の実施の形態〕
次に、本発明における第5の実施の形態について説明する。
本形態は、第1の実施の形態の音声信号分析装置1の実用例である。本形態では、第1の実施の形態の方法によって生成された特徴パラメータと、非特許文献3に記載の方法によって生成された特徴パラメータとを用い、自動音声認識処理を行う。以下、第1の実施の形態との相違点を中心に、第5の実施の形態を説明していく。
図14に例示するように、本形態の自動音声認識装置1000は、第1の実施の形態の音声信号分析装置1と、前述の非特許文献3に記載の技術によって音声信号から特徴パラメータを出力する音声信号分析装置500と、隠れマルコフモデル(HMM)等に基づいて音声パターンの学習及び自動音声認識を行う音声パターン識別器1001(「音声認識処理部」に相当)と、音声パターンの学習によって得られた学習データを記憶する学習データ記憶部1002とを有している。なお、音声信号分析装置500及び音声パターン識別器1001は、公知のコンピュータに所定のプログラムが読み込まれることにより構成されるものである。また、学習データ記憶部1002は、RAM、ハードディスク装置等の記憶装置である。
音声信号の自動音声認識を行う場合、まず、音声信号分析装置1,500に認識対象の音声信号が入力される。当該音声信号分析装置1,500は、入力された認識対象の音声信号から各特徴パラメータを抽出する(第1の実施の形態及び非特許文献3参照)。抽出された特徴パラメータは音声パターン識別器1001に入力される。音声パターン識別器1001は、これらの特徴パラメータを用いて学習データ記憶部1002に格納された学習データを検索し、当該検索結果を用いて音声認識処理を行い、その音声認識結果を出力する。
次に、本発明における第6の実施の形態について説明する。
本形態は、第5の実施の形態の変形例であり、非特許文献3に記載の方法の過程で生成されたデータを第1の実施の形態の処理に再利用し、処理の効率化を図った形態である。以下、第1,5の実施の形態との相違点を中心に、第6の実施の形態を説明していく。
<構成>
図15は、本形態の自動音声認識装置2000の機能構成を例示したブロック図である。また、図16は、図15に記載された音声信号分析装置600の機能構成を例示したブロック図である。なお、音声信号分析装置600も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、離散コサイン変換を行うための離散コサイン変換プログラム及びベクトル結合を行うためのベクトル結合プログラムをさらに有する点で、第1の実施の形態のものと相違する。また、図15において第5の実施の形態と共通する部分については図15と同じ符号を付している。また、図16において第1実施の形態と共通する部分については、図2と同じ符号を付している。
図17及び図18は、本形態の音声信号分析方法を説明するためのフローチャートである。
本形態の処理と第5の実施の形態の処理との相違点は、音声信号から特徴パラメータを抽出する処理のみである。以下では、音声信号分析装置600が音声信号から特徴パラメータを抽出する処理を中心に説明する。
前処理、ステップS80からステップS89までの処理は、第1の実施の形態におけるステップS1からS10(図3)の処理と同じであるため、ここでは説明を省略する。ステップS89の処理の後、離散コサイン変換部621が、メモリ610の領域110から、周期性成分のパワー値psp i,vを読み込み(v=1,...,Q)、各パワー値psp i,vを要素とするQ次元のベクトル(psp i,1,...,psp i,Q)に対し、例えば、以下の式(11)によって離散コサイン変換を施し、Q次元の離散コサイン係数Csp i,u(u=1,...,Q)を算出する(ステップS90)。なお、離散コサイン変換を施す各パワー値psp i,vを要素とするQ次元のベクトル(psp i,1,...,psp i,Q)は、例えば、各パワー値psp i,vを、対応する帯域通過フィルタBPFv(k)の中心周波数の順序で配置したベクトルである。また、24帯域分の帯域通過フィルタを用いていた場合、この(psp i,1,...,psp i,Q)は24次元のベクトルとなる。
また、離散コサイン変換部621は、メモリ610の領域109から、非周期性成分のパワー値pcf i,vを読み込み(v=1,...,Q)、各パワー値pcf i,vを要素とするQ次元のベクトル(pcf i,1,...,pcf i,Q)に対し、例えば、以下の式(12)によって離散コサイン変換を施し、Q次元の離散コサイン係数Ccf i,u(u=1,...,Q)を算出する(ステップS91)。なお、離散コサイン変換を施す各パワー値pcf i,vを要素とするQ次元のベクトルは、例えば、各パワー値pcf i,vを、対応する帯域通過フィルタBPFv(k)の中心周波数の順序で配置したベクトルである。
離散コサイン変換部621は、算出したQ次元の離散コサイン係数Ccf i,uからなるベクトル(Ccf i,1,...,Ccf i,Q)(「変換結果を示す情報」に相当)を出力し、出力されたQ次元の離散コサイン係数Ccf i,uからなるベクトルは、メモリ610の領域612に格納される。
以上のように音声信号分析装置600から順次出力される第1特徴パラメータ及び第2特徴パラメータは、音声パターン識別器1001に入力され、音声パターン識別器1001は、これらのパラメータを用い、学習データの生成や自動音声認識を行う。
次に、本発明における第7の実施の形態について説明する。
本形態は、第6の実施の形態と第3の実施の形態とを融合した例であり、抽出した周期性成分のパワー値の一部のみを特徴量として用いて特徴パラメータを生成する点が第6の実施の形態との相違点である。以下、第1,3,6の実施の形態との相違点を中心に、第7の実施の形態を説明する。
<構成>
本形態の自動音声認識装置は、第6の実施の形態の自動音声認識装置2000が具備する音声信号分析装置600(図15)を、音声信号分析装置700に置換した構成となる。
の機能構成を例示したブロック図である。なお、音声信号分析装置700も、コンピュータに音声信号分析プログラムが読み込まれることにより構成されるものである。ただし、本形態の音声信号分析プログラムは、離散コサイン変換を行うための離散コサイン変換プログラム及びベクトル結合を行うためのベクトル結合プログラムをさらに有する点と、特徴パラメータ生成プログラムの構成との点で、第1の実施の形態のものと相違する。また、図19において、第1,5の実施の形態と共通する部分については図2,図16と同じ符号を付している。
図20は、本形態の音声信号分析方法を説明するためのフローチャートである。なお、図20は、本形態の音声信号分析方法の一部を示しており、本形態では、第6の実施の形態で説明したステップS90からS95(図18)の処理の代わりに、図20に示したステップS100からS106の処理を実行する。以下では、第6の実施の形態との相違点を中心に説明を行い、第1,3,6の実施の形態と共通する事項については説明を省略する。
次に、特徴パラメータ生成部330が、帯域毎に算出された周期性成分Zi、q(k)のパワー値psp i,qの一部のみを特徴量として用い、第2特徴パラメータを生成する。そのために、まず、特徴パラメータ生成部330の選択部333が、メモリ610の領域110から、周期性成分Zi、q(k)のパワー値psp i,qから一部のパワー値psp i,q’を選択する(ステップS104)。パワー値psp i,qの選択手法としては、第3の実施の形態で説明したように、予め設定された帯域に対応する(予め設定されたq’に対応する)パワー値psp i,q’のみを選択する構成としてもよいし(<手法1>)、メモリ610の領域109に格納されている非周期性成分Zi、q(k)のパワー値pcf i,qを用い、特徴パラメータの生成に用いる周期性成分のパワー値psp i,q’を選択することとしてもよい(<手法2>)。なお、これらの手法の詳細については、第3の実施の形態に例示した通りである。
次に、本発明の一実施例の効果を示すための実験結果について説明する。
この実験では、雑音下での数字認識における自動音声認識の音声認識精度を、第1の実施の形態の音声信号分析装置1で得られた特徴パラメータと、前述の非特許文献3に記載の技術によって得られた特徴パラメータとを併用して自動音声認識処理を行った場合([提案法])と、前述の非特許文献1に記載の対数パワー値と、前述の非特許文献3に記載の技術によって得られた特徴パラメータとを併用して自動音声認識処理を行った場合([従来法])とで比較した。
また、本実験には、(社)情報処理学会 音声言語情報処理研究会 雑音下音声認識評価ワーキンググループ 雑音下音声認識評価環境(AURORA−2J)のデータベースを利用した。また、非特許文献3の技術において、24チャネルのガンマトーンフィルタバンクを用い、音声波形の切出しを25ms長で10msごとに行い、周期性成分及び非周期性成分に対応する離散コサイン変換後のベクトル(第1特徴パラメータ)を、それぞれ12次元、併せて24次元とした。
なお、式(13)における、bα,βは、時刻αにおける提案法初期ベクトル及び従来法初期ベクトルのβ番目の要素を示す。また、τは時間を示し、γはベクトル中の要素の位置を示す。また、Θは定数であり、本実験では式(13)のΘの値を3とし、式(14)のΘの値を2とした。また、ΔパラメータやΔΔパラメータのような動的特徴を求める方法については、「”ΔMFCC,ΔΔMFCC,Δパワー,ΔΔパワーを求める方法”,鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄,”音声認識システム”,オーム社,2001:13頁」等参照。
以上の条件で行った各雑音下での認識精度結果を図21に示す。なお、図21における縦軸は、平均音声認識精度を示し、この値が大きいほど認識精度が高いことを意味している。また、図21における横軸は、雑音の種類を示している。図21に示す通り、いずれの雑音下においても、提案法による自動音声認識精度が従来手法による自動音声認識精度よりも高い。これにより、本発明の手法が効果的であることが示された。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各実施の形態では、音声信号を抽出した周期性成分のパワー値の加算値の対数を特徴パラメータとしていたが、音声信号を抽出した周期性成分のパワー値のみを特徴量とし、その他の演算によって求めた値を特徴パラメータとしてもよい。例えば、音声信号を抽出した周期性成分のパワー値の加算値をそのまま特徴パラメータとしてもよいし、音声信号を抽出した周期性成分のパワー値の積など、加算以外の演算結果を特徴パラメータとしてもよい。さらには、式(13)(14)等によって、本発明の特徴パラメータの動的特徴を求め、それを特徴パラメータの一部としてもよい。
また、上述の処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
1000,2000 自動音声認識装置
Claims (15)
- 音声信号の特徴量を抽出する音声信号分析装置であって、
分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第1振幅演算部と、
上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する特徴パラメータ生成部と、
を有することを特徴とする音声信号分析装置。 - 請求項1に記載の信号分析装置であって、
分析対象の音声信号を複数の帯域の信号に分割する帯域分割部を有し、
上記信号分離部は、
上記音声信号の周期性成分及び非周期性成分の少なくとも一方を上記帯域毎に分離抽出し、
上記第1振幅演算部は、
上記周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
上記特徴パラメータ生成部は、
上記帯域毎に算出された上記周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、上記特徴パラメータを生成する、
ことを特徴とする音声信号分析装置。 - 請求項2に記載の音声信号分析装置であって、
上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出する第2振幅演算部を有し、
上記特徴パラメータ生成部は、
上記非周期性成分の振幅値を変数とした単調増加関数値を用い、上記特徴パラメータの生成に用いる上記周期性成分の振幅値を変数とした単調増加関数値を選択する、
ことを特徴とする音声信号分析装置。 - 請求項3に記載の音声信号分析装置であって、
上記特徴パラメータ生成部は、
上記周期性成分の振幅値を変数とした単調増加関数値に対する上記非周期性成分の振幅値を変数とした単調増加関数値の比率が閾値以下或いは未満となる帯域に対応する上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、上記特徴パラメータを生成する、
ことを特徴とする音声信号分析装置。 - 請求項3に記載の音声信号分析装置であって、
上記特徴パラメータ生成部は、
上記の各帯域間で、上記周期性成分の振幅値を変数とした単調増加関数値に対する上記非周期性成分の振幅値を変数とした単調増加関数値の比率を比較し、その降順順位がある順位以下或いは未満となる帯域に対応する上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、上記特徴パラメータを生成する、
ことを特徴とする音声信号分析装置。 - 請求項1に記載の音声信号分析装置であって、
上記信号分離部は、
分析対象の音声信号に対して通過帯域が異なる複数の帯域通過フィルタを適用し、当該分析対象の音声信号を複数の帯域の信号に分割する帯域分割部と、
上記帯域分割部で分割された信号の周期の推定値を上記帯域毎に算出する周期推定部と、
上記周期の推定値の逆数の整数倍の成分を強調或いは抑圧する櫛型フィルタを上記帯域毎に生成する櫛型フィルタ生成部と、
上記帯域分割部で分割された各信号に対し、それらに対応する上記櫛型フィルタを乗じ、当該信号の周期性成分或いは非周期性成分を抽出する櫛型フィルタ適用部と、
を有することを特徴とする音声信号分析装置。 - 音声信号の特徴量を抽出する音声信号分析方法であって、
信号分離部が、入力された分析対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
第1振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、当該特徴パラメータを出力するステップと、
を有することを特徴とする音声信号分析方法。 - 請求項1から6の何れかに記載の音声信号分析装置としてコンピュータを機能させるための音声信号分析プログラム。
- 音声認識を行う自動音声認識装置であって、
認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第1振幅演算部と、
上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、特徴パラメータを生成する特徴パラメータ生成部と、
上記特徴パラメータを用いて生成された音声認識処理用の学習データを格納する学習データ格納部と、
上記特徴パラメータを用いて上記学習データを検索し、当該検索結果を用いて音声認識処理を行う音声認識処理部と、
を有することを特徴とする自動音声認識装置。 - 音声認識を行う自動音声認識装置であって、
認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出する信号分離部と、
上記信号分離部で分離抽出された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出する第1振幅演算部と、
上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を算出する第2振幅演算部と、
上記周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び上記非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルに、それぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力する離散コサイン変換部と、
上記離散コサイン変換部の出力値から第1特徴パラメータを生成する第1特徴パラメータ生成部と、
上記第1振幅演算部が算出した上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、第2特徴パラメータを生成する第2特徴パラメータ生成部と、
上記第1特徴パラメータ及び上記第2特徴パラメータを用いて生成された音声認識処理用の学習データを格納する学習データ格納部と、
上記第1特徴パラメータ及び上記第2特徴パラメータを用いて上記学習データを検索し、当該検索結果を用いて音声認識処理を行う音声認識処理部と、
を有することを特徴とする自動音声認識装置。 - 請求項10に記載の自動音声認識装置であって、
分析対象の音声信号を複数の帯域の信号に分割する帯域分割部を有し、
上記信号分離部は、
上記音声信号の周期性成分及び非周期性成分の少なくとも一方を上記帯域毎に分離抽出し、
上記第1振幅演算部は、
上記周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
上記第2特徴パラメータ生成部は、
上記帯域毎に算出された上記周期性成分の振幅値を変数とした単調増加関数値の一部のみを特徴量として用い、上記第2特徴パラメータを生成する、
ことを特徴とする自動音声認識装置。 - 請求項11に記載の自動音声認識装置であって、
上記第2振幅演算部は、
上記信号分離部で分離抽出された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を上記帯域毎に算出し、
上記特徴パラメータ生成部は、
上記第2振幅演算部が算出した上記非周期性成分の振幅値を変数とした単調増加関数値を用い、上記第2特徴パラメータの生成に用いる上記周期性成分の振幅値を変数とした単調増加関数値を選択する、
ことを特徴とする自動音声認識装置。 - 音声認識を行う自動音声認識方法であって、
信号分離部が、入力された認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
第1振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出するステップと、
特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用いて特徴パラメータを生成し、当該特徴パラメータを出力するステップと、
音声認識処理部が、上記特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行うステップと、
を有することを特徴とする自動音声認識方法。 - 音声認識を行う自動音声認識方法であって、
信号分離部が、
入力された認識対象の音声信号の周期性成分及び非周期性成分の少なくとも一方を分離抽出し、当該信号成分を出力するステップと、
第1振幅演算部が、上記信号分離部から出力された信号成分を用い、上記周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
第2振幅演算部が、上記信号分離部から出力された信号成分を用い、上記非周期性成分の振幅値を変数とした単調増加関数値を算出し、当該単調増加関数値を出力するステップと、
離散コサイン変換部が、上記周期性成分の振幅値を変数とした単調増加関数値からなるベクトル及び上記非周期性成分の振幅値を変数とした単調増加関数値からなるベクトルに、それぞれ離散コサイン変換を施し、それらの変換結果を示す情報を出力するステップと、
第1特徴パラメータ生成部が、上記離散コサイン変換部の出力値から第1特徴パラメータを生成し、当該第1特徴パラメータを出力するステップと、
特徴パラメータ生成部が、上記周期性成分の振幅値を変数とした単調増加関数値のみを特徴量として用い、第2特徴パラメータを生成し、当該第2特徴パラメータを出力するステップと、
音声認識処理部が、上記第1特徴パラメータ及び上記第2特徴パラメータを用いて学習データを検索し、当該検索結果を用いて音声認識処理を行うステップと、
を有することを特徴とする自動音声認識方法。 - 請求項9から12に記載の自動音声認識装置としてコンピュータを機能させるための自動音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005355018A JP4630183B2 (ja) | 2005-12-08 | 2005-12-08 | 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005355018A JP4630183B2 (ja) | 2005-12-08 | 2005-12-08 | 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007156337A true JP2007156337A (ja) | 2007-06-21 |
JP4630183B2 JP4630183B2 (ja) | 2011-02-09 |
Family
ID=38240757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005355018A Expired - Fee Related JP4630183B2 (ja) | 2005-12-08 | 2005-12-08 | 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4630183B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064821A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間推定装置、方法、プログラム及びその記録媒体 |
WO2010032405A1 (ja) * | 2008-09-16 | 2010-03-25 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
JP2013101255A (ja) * | 2011-11-09 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置とその方法とプログラム |
JP2013218147A (ja) * | 2012-04-10 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム |
JP2016500847A (ja) * | 2012-10-31 | 2016-01-14 | エライザ コーポレイション | デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09146588A (ja) * | 1995-11-22 | 1997-06-06 | Matsushita Electric Ind Co Ltd | 緊急車両警報音検出装置 |
JP2004286805A (ja) * | 2003-03-19 | 2004-10-14 | Sony Corp | 話者識別装置および話者識別方法、並びにプログラム |
JP2005195975A (ja) * | 2004-01-08 | 2005-07-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
-
2005
- 2005-12-08 JP JP2005355018A patent/JP4630183B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09146588A (ja) * | 1995-11-22 | 1997-06-06 | Matsushita Electric Ind Co Ltd | 緊急車両警報音検出装置 |
JP2004286805A (ja) * | 2003-03-19 | 2004-10-14 | Sony Corp | 話者識別装置および話者識別方法、並びにプログラム |
JP2005195975A (ja) * | 2004-01-08 | 2005-07-21 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064821A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 信号区間推定装置、方法、プログラム及びその記録媒体 |
JP4690973B2 (ja) * | 2006-09-05 | 2011-06-01 | 日本電信電話株式会社 | 信号区間推定装置、方法、プログラム及びその記録媒体 |
WO2010032405A1 (ja) * | 2008-09-16 | 2010-03-25 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
JP4516157B2 (ja) * | 2008-09-16 | 2010-08-04 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
JPWO2010032405A1 (ja) * | 2008-09-16 | 2012-02-02 | パナソニック株式会社 | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム |
JP2013101255A (ja) * | 2011-11-09 | 2013-05-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声強調装置とその方法とプログラム |
JP2013218147A (ja) * | 2012-04-10 | 2013-10-24 | Nippon Telegr & Teleph Corp <Ntt> | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム |
JP2016500847A (ja) * | 2012-10-31 | 2016-01-14 | エライザ コーポレイション | デジタルプロセッサベースの複素音響共鳴デジタル音声分析システム |
Also Published As
Publication number | Publication date |
---|---|
JP4630183B2 (ja) | 2011-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
KR20030064733A (ko) | 피치 주파수 추정 방법 및 장치 및 컴퓨터 소프트웨어 제품 | |
JP4182444B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
GB2375028A (en) | Processing speech signals | |
JP4630183B2 (ja) | 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム | |
JP2009047831A (ja) | 特徴量抽出装置、プログラムおよび特徴量抽出方法 | |
RU2712652C1 (ru) | Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах | |
JP5282523B2 (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP4585590B2 (ja) | 基本周波数変化量抽出装置、方法及びプログラム | |
JP4691079B2 (ja) | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 | |
JP4690912B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体 | |
JP2001222289A (ja) | 音響信号分析方法及び装置並びに音声信号処理方法及び装置 | |
JP4690973B2 (ja) | 信号区間推定装置、方法、プログラム及びその記録媒体 | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
JP6285823B2 (ja) | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム | |
JP6213217B2 (ja) | 音声合成装置及び音声合成用コンピュータプログラム | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
JP2019029861A (ja) | 音響信号処理装置、方法及びプログラム | |
JP2019028300A (ja) | 音響信号処理装置、方法及びプログラム | |
Ingale et al. | Singing voice separation using mono-channel mask | |
JP2012123185A (ja) | 雑音抑圧装置とその方法とプログラム | |
Smruti et al. | An approach to design an intelligent parametric synthesizer for emotional speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100917 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131119 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |