JP2008216659A - 音声認識装置および音声認識プログラム - Google Patents

音声認識装置および音声認識プログラム Download PDF

Info

Publication number
JP2008216659A
JP2008216659A JP2007054272A JP2007054272A JP2008216659A JP 2008216659 A JP2008216659 A JP 2008216659A JP 2007054272 A JP2007054272 A JP 2007054272A JP 2007054272 A JP2007054272 A JP 2007054272A JP 2008216659 A JP2008216659 A JP 2008216659A
Authority
JP
Japan
Prior art keywords
speech
signal
bispectral
feature amount
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007054272A
Other languages
English (en)
Other versions
JP4762176B2 (ja
Inventor
Kazuho Onoe
和穂 尾上
Shoe Sato
庄衛 佐藤
Toru Imai
亨 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007054272A priority Critical patent/JP4762176B2/ja
Publication of JP2008216659A publication Critical patent/JP2008216659A/ja
Application granted granted Critical
Publication of JP4762176B2 publication Critical patent/JP4762176B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】雑音にも強く、より認識率の高い音声認識装置および音声認識プログラムを提供する。
【解決手段】音声認識装置は、入力音声信号をバイスペクトル分析するバイスペクトル分析部と、バイスペクトル分析部が出力したバイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、学習音声信号をバイスペクトル分析して得られたバイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報と、特徴量算出処理部によって算出された入力音声特徴量と、音響モデル情報記憶部から読み出した学習音声特徴量とに基づき入力音声信号の認識結果を決定する認識部とを備える。
【選択図】図1

Description

本発明は、入力される音声信号に基づき音声認識処理を行なう音声認識装置および音声認識プログラムに関するものである。
従来の音声認識装置および方法では、音声信号の周波数分脈より得られるパワースペクトルの大まかな形状および共振周波数を表現するMFCC(Mel-Frequency Cepstrum Coefficient)やPLP(Perceptual Linear Predictive)といった特微量を使用し、これらの特徴量を探索することによって音声認識を行なっていた。
非特許文献1には、音声特徴抽出の方法として、MFCCパラメータを用いること、およびその計算方法が記載されている。
鹿野清宏,伊藤克亘,河原達也,武田一哉,山本幹雄 編著,情報処理学会編集,「音声認識システム」,オーム社出版局,2001年5月,p.13−15
上記のような従来の方法では、周波数分析より得られるパワースペクトルの山谷を余弦波の和で表現するため、ある周波数だけに雑音が混入しても認識率が劣化してしまう問題があった。
また、パワースペクトルに基づく特徴量では、音声信号の非ガウス性の部分を表現できないため、この点のより詳細な特徴量が音声認識に活かされておらず、結果として認識率向上を阻害している可能性があった。
本発明は、上記の課題認識に基づいて行なわれたものであり、ガウス性の雑音による劣化を受けないなど、より認識率の高い音声認識装置および音声認識プログラムを提供することを目的とする。
[1]上記の課題を解決するため、本発明の一態様による音声認識装置は、入力音声信号をバイスペクトル分析して第1バイスペクトル信号を出力するバイスペクトル分析部と、前記バイスペクトル分析部が出力した前記第1バイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、学習音声信号をバイスペクトル分析して得られた第2バイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果を関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部と、前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識部とを備えることを特徴とするものである。
ここで、第1バイスペクトル信号を局所毎に平均値処理するとは、バイスペクトルの2つの周波数の軸がなす平面空間において、局所毎の平均値をとる処理である。局所毎とは、所定の方向に沿って1次元的に局所的な(例えば、2つの周波数の和ごとに)平均値処理する場合や、2次元的に局所的な平均値処理をする場合を含む。このような平均値処理により、バイスペクトル信号に含まれるノイズが除去される作用もある。
この構成によれば、バイスペクトル分析部が入力音声信号をバイスペクトル分析するため、パワースペクトル分析だけでは得られない、音声信号の各周波数間の相関関係に関する高次の統計量を得られる。そして、特徴量算出処理部は、このバイスペクトル分析の結果に基づき入力音声特徴量を算出するため、パワースペクトル分析だけでは得られない高次の統計量に基づく特徴量を算出することができる。また、学習音声特徴量も、学習音声信号をバイスペクトル分析して得た特徴量であるため、入力音声特徴量と同様の性質を有する。音響モデル情報は、このような学習音声特徴量を用いて構築されたものである。認識部は、このような特徴量に基づく音響モデル情報を読み出して利用するため、結果として、パワースペクトル分析だけでは得られない特徴を用いた音声認識を行なえる。
具体的には、バイスペクトルを用いた認識により、ガウス性雑音の混入した音声に対しては、認識性能が向上する。また、バイスペクルを利用することで、ガウス性の雑音の影響を受けにくい。また、バイスペクトルでは周波数間の相関関係が値として現れているので、音声のような倍音構造を持つ信号の詳細な表現が可能となり、このような値を用いた認識により認識精度が向上する。
[2]また、本発明の一態様による音声認識装置は、前記の音声認識装置において、前記特徴量算出処理部は、前記第1バイスペクトル信号についてバイスペクトルの周波数の和毎の平均値を算出する平均値計算処理部と、前記平均値計算処理部が算出した前記バイスペクトルの周波数の和毎の平均値をフィルタバンク分析処理する第1フィルタバンク分析処理部と、前記第1フィルタバンク分析処理部によるフィルタバンク分析処理の結果を離散コサイン変換分析処理することによって前記入力音声特徴量を算出する第1離散コサイン変換処理部とで構成され、前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号についてのバイスペクトルの周波数の和毎の平均値に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものであることを特徴とする。
この構成により、平均値計算処理部は、バイスペクトルの周波数の和毎の平均値を算出する。このような方向で平均値を算出することにより、ピッチ周波数の変動の影響が現れにくくなり、音声認識の精度向上につながる。
[3]また、本発明の一態様による音声認識装置は、前記の音声認識装置において、前記特徴量算出処理部は、前記第1バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する第2フィルタバンク分析処理部と、前記第2フィルタバンク分析処理部によるフィルタバンク分析処理の結果を2次元離散コサイン変換処理することによって前記入力音声特徴量を算出する第2離散コサイン変換処理部とで構成され、前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理した結果に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものであることを特徴とする。
[4]また、本発明の一態様による音声認識装置は、前記の音声認識装置において、前記入力音声信号をパワースペクトル分析することによってパワースペクトル特徴量を算出する入力パワースペクトル特徴量算出処理部を更に備え、前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記学習音声信号をパワースペクトル分析して算出される学習パワースペクトル特徴量と前記学習音声特徴量と前記正解認識結果とを関連付けてなるものであり、前記認識部は、前記入力パワースペクトル特徴量算出処理部によって算出された前記パワースペクトル特徴量と、前記音響モデル情報記憶部から読み出した前記学習パワースペクトル特徴量とに更に基づき、前記入力音声信号の認識結果を決定することを特徴とするものである。
ここで、パワースペクトル特徴量とは、メル周波数ケプストラム係数(MFCC)および知覚線形予測(PLP)のいずれか一方、あるいは両方に基づく特徴量である。
この構成により、バイスペクトル特徴量とパワースペクトル特徴量の両方を適切に組み合わせて音声の特徴をより詳細に表現し、このような特徴量を用いた音声認識が可能となり、さらに認識精度の向上が期待できる。
[5]また、本発明の一態様による音声認識装置は、前記の音声認識装置において、学習音声信号をバイスペクトル分析し、これにより得られた第2バイスペクトル信号を局所毎に平均値処理し、これにより得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を、音響モデル情報記憶部に書き込む学習音声分析部を更に備えることを特徴とするものである。
この構成により、学習音声信号に基づき、音響モデル情報を算出し、音響モデル情報記憶部に記憶させることができる。この音響モデル情報は、認識対象音声信号の認識処理をする際に用いられる。
[6]また、本発明の一態様による音声認識プログラムは、入力音声信号のデータをバイスペクトル分析して第1バイスペクトル信号のデータを出力するバイスペクトル分析過程と、前記バイスペクトル分析部が出力した前記第1バイスペクトル信号のデータを局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理過程と、学習音声信号のデータをバイスペクトル分析して得られた第2バイスペクトル信号のデータを局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号のデータに対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部から前記学習音声特徴量を読み出す読み出し過程と、前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識過程との処理をコンピュータに実行させるコンピュータプログラムである。
これにより、バイスペクトル特徴量に基づく音声認識装置としてコンピュータを機能させることができる。
本発明により、前述のように、ガウス性雑音の混入した音声に対しては、認識性能が向上する。また、バイスペクルを利用することで、ガウス性の雑音の影響を受けにくい。また、周波数間の相関関係が値として現れているので、音声のような倍音構造を持つ信号の詳細な表現が可能となる。
高次統計量であるバイスペクトルは、3次統計量から求めているので、ガウス性の雑音の影響を受けにくい特徴を持っており、認識精度を改善できる。加えて、バイスペクトルは音声信号の非ガウス性の部分を表現できるため、より詳細な特微量を抽出し、認識精度を向上できる。
[第1の実施形態]
以下、本発明の実施形態について図面を参照しながら説明する。
図1は、本発明の第1の実施形態による音声認識装置の機能構成を示すブロック図である。図1において、符号1aは音声認識装置である。この音声認識装置1aは、バイスペクトル分析部20と、特徴量算出処理部30と、バイスペクトル分析部120と、特徴量算出処理部130と、バイスペクトル音響モデル学習部170と、音響モデル情報記憶部180と、言語モデル82と、発音辞書84と、音声認識部90(認識部)とを内部に有している。
そして、上記の特徴量算出処理部30は、平均値計算処理部32と、フィルタバンク分析処理部34(第1フィルタバンク分析処理部)と、離散コサイン変換処理部36(第1離散コサイン変換処理部)とを内部に有している。また同様に、上記の特徴量算出処理部130は、平均値計算処理部132と、フィルタバンク分析処理部134と、離散コサイン変換処理部136とを内部に有している。
なお、本実施形態の装置構成において、バイスペクトル分析部20および120は、それぞれ個別に設ける形態であっても良く、また単一のバイスペクトル分析部として設けて共用としても良い。また、特徴量算出処理部30および130についても同様である。電気・電子回路のブロックとして共用する場合には、異なる時間枠で入出力を切り替えるようにする。コンピュータプログラムとして共用する場合には、共通プログラムモジュールを呼び出すようにする。
図1において、符号10は、音声認識装置1aに入力される認識対象音声信号である。この認識対象音声信号10は時間領域の信号であり、時刻tにおける振幅がx’(t)という一変数関数で表現される。なお、認識対象音声信号10は、連続時間におけるアナログ信号であってもよいし、離散的な時間間隔毎の振幅値のデジタルデータであっても良い。アナログ信号の場合には、適宜A/D(アナログ/デジタル)変換される。
バイスペクトル分析部20は、入力される認識対象音声信号10をバイスペクトル分析する。具体的には、バイスペクトル分析部20は、認識対象音声信号10を窓幅Nで時間ΔtごとにMフレーム抽出し、バイスペクトルB(f,f)を次の式(1)により得る(第1バイスペクトル信号)。
Figure 2008216659
なお、式(1)において、X(f)は入力された認識対象音声信号10(x’(t))のフーリエ変換であり、Xは複素共役を表わす。つまり、バイスペクトルB(f,f)は、この入力信号における周波数fとfの相関を表わす。
次に特徴量算出処理部30は、上でバイスペクトル分析部20が算出したバイスペクトルを基に、音声の特徴量を算出するための処理をする。特徴量算出処理部内30の平均値計算処理部32は、式(1)で得られたバイスペクトルを、f(但し、f=f+f)が一定となる方向に平均値化する処理、言い換えればバイスペクトルの周波数の和(f)毎の平均値を算出する処理を行なう。2つの周波数の和fにおけるバイスペクトルの平均値IB(f)は、次の式(2)で得られる。
つまり、平均値計算処理部32は、バイスペクトルの周波数の和(f)毎の平均値を算出している。
Figure 2008216659
次に、フィルタバンク分析処理部34は、上で得られた平均値IB(f)に対してメルフィルタバンク処理を行なう。このメルフィルタバンク処理は、周波数の和fに対して、次の式(3)による周波数軸変換を行なう。但し、式(3)における周波数fの単位はヘルツ(Hz)である。
Figure 2008216659
この変換後の周波数軸は周波数fの対数をとっているものであり、このようなメルフィルタバンク処理により、ヒトの聴覚により整合した特徴量を得ることが可能となる。
次に、離散コサイン変換処理部36は、上で得られたメルフィルタバンク処理の結果を用いて離散コサイン変換(DCT,Discrete Cosine Transform)分析処理を行ない、その結果得られた低次の次数をバイスペクトル特徴量50(入力音声特徴量)として出力する。
つまり特徴量算出処理部30は、バイスペクトルを基に、周波数の和f毎に(局所毎に)平均値処理することによって入力音声特徴量を算出する。
一方で、学習音声信号110についても、予め同様の特徴量抽出が行なわれ、その結果が音響モデルとして、半導体メモリや磁気ハードディスクドライブ等の記憶装置に記憶されている。
図1に示す学習音声信号110は、時間領域の信号であり、時刻tにおける振幅がx(t)という一変数関数で表現される。この学習音声信号110の入力を受け、バイスペクトル分析部120は、バイスペクトル分析部20と同様の処理によって、式(1)で表わされる、学習音声信号のバイスペクトル(第2バイスペクトル信号)を得る。次に、特徴量算出処理部130は、学習音声信号のバイスペクトルを基に、特徴量算出処理部30と同様の処理によって、特徴量を抽出する。即ち、平均値計算処理部132が式(2)で表わされる平均値計算処理を行ない、その結果に対してフィルタバンク分析処理部134がメルフィルタバンク処理即ち式(3)による周波数軸変換処理を行ない、その結果を用いて離散コサイン変換処理部136が離散コサイン変換分析処理を行なう。その結果、学習音声信号110に基づくバイスペクトル特徴量150(学習音声特徴量)が得られる。
バイスペクトル音響モデル学習部170は、上で得られたバイスペクトル特徴量150を用いて、最尤推定により音響モデルを学習し、得られた音響モデルを音響モデル情報記憶部180に書き込む。ここで、音響モデル情報記憶部180に記憶されているのは、が学習音声信号110から得られた特徴量であるバイスペクトル特徴量150と、当該学習音声信号に対応する正解認識結果とが関連付けられたデータである。なお、この音響モデルにおいては、得られたバイスペクトル特徴量150が必ずしも唯一の正解認識結果が決定的に関連付けられるとは限らず、複数の正解認識結果の候補に関連付けられていても良いし、さらにそれぞれの候補に確率値が付随している形態であっても良い。
具体例としては、隠れマルコフモデル(HMM)に基づき、モノフォンあるいはトライフォンに対する特徴量の確率分布のデータを音響モデルとして構築して音響モデル情報記憶部180に記憶させる。
また、言語モデル82と発音辞書84もそれぞれ、予め作成されて半導体メモリや磁気ハードディスクドライブ等の記憶装置に記憶されている。言語モデル82は、例えば、認識対象の音声に含まれる単語毎の出現確率や、単語間の接続確率等をデータ化したものである。発音辞書84は、例えば、認識結果となり得る音響を辞書化したデータである。
音声認識部90は、内部に単語列を探索する機能を有しており、認識対象音声信号10から得られたバイスペクトル特徴量50に基づき、音響モデル情報記憶部180から読み出した音響モデルと、それぞれ記憶装置から読み出された言語モデル82および発音辞書84を用いて、正解単語の探索を行ない、最も確率の高かった単語ないしは文章を音声認識結果100として出力する。あるいは、音声認識部90が、最も確率の高かった音声認識結果だけではなく、複数の正解候補とそれぞれの候補の確率値とを音声認識結果100として出力するようにしても良い。
次に、本実施形態において平均値計算処理部32および132が行なった平均値計算処理について説明する。
図2は、バイスペクトル分析によって得られたバイスペクトルを平均値計算する処理のしかたの概略を表わす概略図である。
パワースペクトルでは、各周波数成分の強さだけが情報として得られるのに対して、バイスペクトルは複素数であり、3つの周波数成分fとfとf+fの従属性を示す量が得られる。ガウス性時系列信号では、バイスペクトルは0となり、非ガウス性時系列信号では統計的な変動による音声の構造を表わしている。
図2(a)は、バイスペクトルの周波数fおよびfの座標軸による平面と、その平面内での平均値化処理の対象を示している。ある音声区間(例えば、母音「お」)から得られる1フレーム(M=1)のバイスペクトルは、図2(a)の斜線で示した領域、つまり、f>0かつf>0かつf+f<c(但し、cは所定の定数)の領域に現れる。そして、バイスペクトルの対象性と複素共役の関係により、図2(a)の破線で囲まれた三角形の範囲を用いて特徴量を抽出すれば十分である。
この領域について、図2(b)に示すように、バイスペクトルの周波数の片方(図示する例ではf)の周波数軸について平均値を求める方法も可能であるが、本実施形態では、図2(c)に示すように、f(=f+f)が一定となる方向に平均値を取るようにしている。このように、fが一定となる方向に平均値を取ることにより、ピッチ周波数の変動が現れにくくなり、音声認識に用いる特徴量として有効な量を抽出できる。
[第2の実施形態]
次に、本発明の第2の実施形態について図面を参照しながら説明する。
図3は、本発明の第2の実施形態による音声認識装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
図3において、認識対象音声信号10に対応する特徴量を算出する特徴量算出処理部30は、フィルタバンク分析処理部35(第2フィルタバンク分析処理部)と離散コサイン変換処理部37(第2離散コサイン変換処理部)とを有している。
本実施形態では、フィルタバンク分析処理部35が、バイスペクトル分析部20で得られたバイスペクトル(第1バイスペクトル信号)の各周波数(fおよびf)に対してそれぞれ、前記の式(3)による周波数軸変換(メルフィルタ分析処理)を行なう。そして、フィルタバンクチャネル数SでS個に量子化する。
つまり、フィルタバンク分析処理部35は、バイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する。
そして、離散コサイン変換処理部37は、上の2次元のメルフィルタ分析処理の結果を用いて2次元離散コサイン変換を行い、その低次の次数をバイスペクトル特徴量51(入力音声特徴量)として出力する。
つまり、当実施形態における特徴量算出処理部30は全体として、バイスペクトルの重み付き近傍平均処理(局所毎に平均値処理)することによって入力音声特徴量を算出している。
特徴量算出処理部130も同様に、予め、学習音声信号110に対応する特徴量を得る処理を行なう。つまり、フィルタバンク分析処理部135がバイスペクトル分析部120で得られたバイスペクトル(第2バイスペクトル信号)の各周波数に対してそれぞれ、周波数軸変換(メルフィルタ分析処理)を行なう。そして、フィルタバンクチャネル数SでS個に量子化する。そして離散コサイン変換処理部137は、その結果を用いて2次元離散コサイン変換を行い、バイスペクトル特徴量151(学習音声特徴量)として出力する。
バイスペクトル音響モデル学習部171は、上記の処理によって得られたバイスペクトル特徴量151を用いて、最尤推定により音響モデルを学習し、得られた音響モデルを音響モデル情報記憶部181に書き込む。音響モデル情報記憶部180に記憶されている情報は、用いられている特徴量およびその算出方法が異なる点を除いては第1の実施形態と同様である。
音声認識部91は、認識対象音声信号10から得られたバイスペクトル特徴量51と音響モデル情報記憶部181から読み出した音響モデルとに基づき、音声認識結果100を出力する。音声認識結果100を得るための方法は、用いる特徴量が異なる点を除いては、第1の実施形態と同様である。
[第3の実施形態]
次に、本発明の第3の実施形態について図面を参照しながら説明する。
図4は、本発明の第3の実施形態による音声認識装置の機能構成を示すブロック図である。なお、前記実施形態と同様な構成の部分については同じ符号を用いて表して説明を省略し、特徴点のみを詳細に説明する。
本実施形態では、バイスペクトル特徴量とパワースペクトル特徴量とを併用して音声認識を行なう。
図4において、音声認識装置1cの構成の特徴は、MFCC・PLP算出部60(入力パワースペクトル特徴量算出処理部)およびMFCC・PLP算出部160を有する点である。MFCC・PLP算出部60および160は、それぞれ個別に設ける形態であっても良く、また単一のMFCC・PLP算出部として設けて共用としても良い。MFCC・PLP算出部60は、認識対象音声信号10をパワースペクトル分析することによって、認識対象音声信号10に対応する特徴量として、パワースペクトル特徴量を算出する。パワースペクトル特徴量の例は、MFCC(Mel-Frequency Cepstrum Coefficient,メル周波数ケプストラム係数)およびPLP(Perceptual Linear Predictive,知覚線形予測)である。一方で、MFCC・PLP算出部160は、同様に、学習音声信号110に対応する特徴量として学習パワースペクトル特徴量(MFCCおよびPLP)を算出する。
バイスペクトル分析部20および特徴量算出処理部30の処理は、第1の実施形態と同様であり、認識対象音声信号10に対応したバイスペクトル特徴量50を算出する。また、バイスペクトル分析部120および特徴量算出処理部130の処理は、第1の実施形態と同様であり、学習音声信号110に対応したバイスペクトル特徴量150を算出する。
以後の音響モデル学習処理および音声認識処理においては、バイスペクトル特徴量とMFCC、PLPを連結(図4における「+」記号の部分)した特徴量により音声認識を行なう。言うまでもなく、特徴量を連結することにより、バイスペクトル特徴量による特徴空間とMFCC、PLPによる特徴空間の積空間における探索および認識処理が行なえる。
バイスペクトル音響モデル学習部172は、バイスペクトル特徴量150と、MFCC・PLP算出部160から出力されるMFCCおよびPLPとを用いて、最尤推定により音響モデルを学習し、得られた音響モデルを音響モデル情報記憶部182に書き込む。つまり、ここでの音響モデル情報は、学習音声信号をパワースペクトル分析して算出された学習パワースペクトル特徴量とバイスペクトル特徴量150と正解認識結果とを関連付けてなるものである。音響モデル情報記憶部180に記憶されている情報は、用いられている特徴量が異なる点を除いては前述の実施形態と同様である。
音声認識部92は、バイスペクトル特徴量50と音響モデル情報記憶部182から読み出した音響モデルとに基づき、音声認識結果100を出力する。音声認識結果100を得るための方法は、用いる特徴量が異なる点を除いては、前述の実施形態と同様である。
なお、ここでは第1の実施形態による方法で算出したバイスペクトル特徴量(50および150)とMFCC,PLPとを組み合わせて認識処理を行なう形態を説明したが、第2の実施形態による方法で算出したバイスペクトル特徴量(図3の51および151)とMFCC,PLPとを連結して得られる特徴量を用いて認識処理するようにしても良い。
また、ここではMFCCおよびPLPの両方を用いた認識処理を行なう形態を説明したが、MFCCあるいはPLPのいずれか一方とバイスペクトル特徴量とを連結して得られる特徴量を用いて認識処理を行なうようにしても良い。
次に、上述した第1〜第3の実施形態による実際の信号処理の結果について説明する。
図5は、バイスペクトル分析部20および120によるバイスペクトル分析を行なった際の入出力信号の波形を示すグラフである。
図5の符号5aは、入力される音声信号(認識対象音声信号10または学習音声信号110)の振幅を表わす。横軸は時間(t)である。図示する例は、ヒトが「どおいったねらいがあるんでしょうか」と発話したときの音声を用いている。
5bは、比較のための参考グラフであり、5aの入力音声信号をフーリエ変換したときのパワースペクトルを表わす。横軸は5aと対応した時間であり、縦軸は音声周波数である。そして、この平面に表わされているグレースケールの濃淡が周波数のパワーを表わす。
5cは、5aの入力音声信号をバイスペクトル分析した結果であり、前記発話の中の「お」(o)、「た」の母音部(a)、「ね」の子音部(n)、「い」(i)、「あ」(a)、「ん」(N)、「しょ」の子音部(sh)、「か」の子音部(k)、「か」の母音部(a)の各領域に対応する9個のグラフである。これらの各グラフの縦軸および横軸は周波数(f1およびf2)である。前記の式(1)からも明らかなように、f1=f2で表わされる直線に対して線対称なパターンが表れている。
パワースペクトルでは各周波数成分の強さだけが情報として得られるのに対して、バイスペクトルは複素数であり、3つの周波数成分f,f,f(=f+f)の従属性を示す量が得られる。バイスペクトルは、ガウス性時系列信号では0になり、非ガウス性時系列信号では統計的な変動による構造を表わす量が得られる。
例えば、図5の5cの母音「お」(「o」)の音声区間から得られたバイスペクトルでは、基本周波数とその倍音成分の相関の高い部分が格子状に表れている。
図6は、前述した第1の実施形態に対応するものであり、ヒトの発話とノイズとを合成した音声信号を、パワースペクトル分析したときとバイスペクトル分析したときとの比較を示すグラフである。
図6の符号6aは入力音声信号の振幅を表わす。横軸は時間である。この例では、入力音声信号は、ヒトが「まず、こちらをごらんください」(mazu kochirao goraNkudasai)と発話した音声とヘリコプター音とをSNR(信号対雑音比、Signal to Noise Ratio)0dB(デシベル)で合成したものである。
6bは、6aの入力音声信号をFFT(高速フーリエ変換)したときのパワースペクトルを表わす。横軸は6aと対応した時間であり、縦軸はメルフィルタバンク処理した周波数軸である。そして、この平面に表わされているグレースケールの濃淡が周波数のパワーを表わす。
一方で、6cは、バイスペクトルに基づく特徴量を表わす。横軸は6a、6bと対応した時間であり、縦軸は前記の式(2)によって平均値化処理したときの周波数fをメルフィルタバンク処理した周波数軸である。そして、この平面に表わされている濃淡が、平均値化処理したバイスペクトルベースの特徴量である。
グラフ6bと6cとを比較すると、FFT(6b)ではヘリコプター音ノイズの影響が高域部分に見られるが、バイスペクトルベースの平均値(6c、IB(f))ではヘリコプター音ノイズのガウス性成分の影響が減少している。これは、バイスペクトルベースの特徴量を用いることにより、ノイズに対する耐性がより強い音声認識ができることを表わしている。
図7は、前述した第2の実施形態に対応するものであり、2次元のメルフィルタバンク分析による、バイスペクトルの重み付き近傍平均処理の例を示すグラフである。図7の上段はメルフィルタバンク分析前のバイスペクトルであり、同下段はメルフィルタバンク分析後のバイスペクトルである。図5で示した音の各領域のうち、「o」、「a」、「n」、「i」、「sh」の5つのメルフィルタバンク分析前後のスペクトルを表わしている。
なお、上述した各実施形態における音声認識装置の一部、例えば、バイスペクトル分析部、特徴量算出処理部、バイスペクトルモデル音響学習部、音声認識部などの機能をコンピュータで実現するようにしても良い。その場合、アナログ信号は適宜デジタルデータに変換して処理する。またその場合、それらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、MFCC分析での振幅スペクトル相当のものとして、バイスペクトルの立方根から平均値処理(局所毎の平均値処理)して得られる特徴量を用いて音声認識するようにしても良い。
本発明の第1の実施形態による音声認識装置の機能構成を示したブロック図である。 同実施形態により、バイスペクトル分析によって得られたバイスペクトルを平均値計算する処理のしかたの概略を表わす概略図である。 本発明の第2の実施形態による音声認識装置の機能構成を示したブロック図である。 本発明の第3の実施形態による音声認識装置の機能構成を示したブロック図である。 本発明の実施形態により入力音声信号に対するバイスペクトル分析を行なった際の入出力信号の波形を示すグラフである。 本発明の実施形態により、ヒトの発話とノイズとを合成した音声信号をパワースペクトル分析したときとバイスペクトル分析したときとの比較を示すグラフである。 本発明の実施形態により2次元のメルフィルタバンク分析を行なったバイスペクトルの重み付き近傍平均処理の例を示すグラフである。
符号の説明
1a,2a,3a 音声認識装置
10 認識対象音声信号 x’(t)
20 バイスペクトル分析部
30 特徴量算出処理部
32 平均値計算処理部
34,35 フィルタバンク分析処理部
36,37 離散コサイン変換処理部
50,51 バイスペクトル特徴量
60 MFC・PLP算出部
82 言語モデル
84 発音辞書
90,91,92 音声認識部
110 学習音声信号 x(t)
120 バイスペクトル分析部
130 特徴量算出処理部
132 平均値計算処理部
134,135 フィルタバンク分析処理部
136,137 離散コサイン変換処理部
150,151 バイスペクトル特徴量
160 MFC・PLP算出部
170,171,172 バイスペクトル音響モデル学習部
180,181,182 音響モデル情報記憶部

Claims (6)

  1. 入力音声信号をバイスペクトル分析して第1バイスペクトル信号を出力するバイスペクトル分析部と、
    前記バイスペクトル分析部が出力した前記第1バイスペクトル信号を局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理部と、
    学習音声信号をバイスペクトル分析して得られた第2バイスペクトル信号を局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部と、
    前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識部と、
    を備えることを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記特徴量算出処理部は、
    前記第1バイスペクトル信号についてバイスペクトルの周波数の和毎の平均値を算出する平均値計算処理部と、
    前記平均値計算処理部が算出した前記バイスペクトルの周波数の和毎の平均値をフィルタバンク分析処理する第1フィルタバンク分析処理部と、
    前記第1フィルタバンク分析処理部によるフィルタバンク分析処理の結果を離散コサイン変換分析処理することによって前記入力音声特徴量を算出する第1離散コサイン変換処理部と、で構成され、
    前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号についてのバイスペクトルの周波数の和毎の平均値に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
    ことを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置であって、
    前記特徴量算出処理部は、
    前記第1バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理する第2フィルタバンク分析処理部と、
    前記第2フィルタバンク分析処理部によるフィルタバンク分析処理の結果を2次元離散コサイン変換処理することによって前記入力音声特徴量を算出する第2離散コサイン変換処理部と、で構成され、
    前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記第2バイスペクトル信号をバイスペクトルの各周波数方向にフィルタバンク分析処理して近傍平均処理した結果に基づく前記学習音声特徴量と、前記正解認識結果とを関連付けてなるものである
    ことを特徴とする音声認識装置。
  4. 請求項1から3までのいずれかに記載の音声認識装置であって、
    前記入力音声信号をパワースペクトル分析することによってパワースペクトル特徴量を算出する入力パワースペクトル特徴量算出処理部を更に備え、
    前記音響モデル情報記憶部に記憶されている前記音響モデル情報は、前記学習音声信号をパワースペクトル分析して算出される学習パワースペクトル特徴量と前記学習音声特徴量と前記正解認識結果とを関連付けてなるものであり、
    前記認識部は、前記入力パワースペクトル特徴量算出処理部によって算出された前記パワースペクトル特徴量と、前記音響モデル情報記憶部から読み出した前記学習パワースペクトル特徴量とに更に基づき、前記入力音声信号の認識結果を決定する
    ことを特徴とする音声認識装置。
  5. 請求項1に記載の音声学習装置であって、
    学習音声信号をバイスペクトル分析し、これにより得られた第2バイスペクトル信号を局所毎に平均値処理し、これにより得られた学習音声特徴量と、当該学習音声信号に対応する正解認識結果とを関連付けてなる音響モデル情報を、音響モデル情報記憶部に書き込む学習音声分析部を更に備えることを特徴とする音声認識装置。
  6. 入力音声信号のデータをバイスペクトル分析して第1バイスペクトル信号のデータを出力するバイスペクトル分析過程と、
    前記バイスペクトル分析部が出力した前記第1バイスペクトル信号のデータを局所毎に平均値処理することによって入力音声特徴量を算出する特徴量算出処理過程と、
    学習音声信号のデータをバイスペクトル分析して得られた第2バイスペクトル信号のデータを局所毎に平均値処理して得られた学習音声特徴量と、当該学習音声信号のデータに対応する正解認識結果とを関連付けてなる音響モデル情報を予め記憶する音響モデル情報記憶部から前記学習音声特徴量を読み出す読み出し過程と、
    前記特徴量算出処理部によって算出された前記入力音声特徴量と、前記音響モデル情報記憶部から読み出した前記学習音声特徴量とに基づき、前記入力音声信号の認識結果を決定する認識過程と、
    の処理をコンピュータに実行させる音声認識プログラム。
JP2007054272A 2007-03-05 2007-03-05 音声認識装置および音声認識プログラム Expired - Fee Related JP4762176B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007054272A JP4762176B2 (ja) 2007-03-05 2007-03-05 音声認識装置および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007054272A JP4762176B2 (ja) 2007-03-05 2007-03-05 音声認識装置および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2008216659A true JP2008216659A (ja) 2008-09-18
JP4762176B2 JP4762176B2 (ja) 2011-08-31

Family

ID=39836771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007054272A Expired - Fee Related JP4762176B2 (ja) 2007-03-05 2007-03-05 音声認識装置および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP4762176B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267692A (ja) * 1999-03-12 2000-09-29 Lucent Technol Inc 音声レコグナイザーのためのトレーニング方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267692A (ja) * 1999-03-12 2000-09-29 Lucent Technol Inc 音声レコグナイザーのためのトレーニング方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013167698A (ja) * 2012-02-14 2013-08-29 Nippon Telegr & Teleph Corp <Ntt> 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム

Also Published As

Publication number Publication date
JP4762176B2 (ja) 2011-08-31

Similar Documents

Publication Publication Date Title
CN107633851B (zh) 基于情感维度预测的离散语音情感识别方法、装置及系统
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
Nanavare et al. Recognition of human emotions from speech processing
EP1511007A2 (en) Vocal tract resonance tracking using a nonlinear predictor and a target-guided temporal constraint
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
CN113782032B (zh) 一种声纹识别方法及相关装置
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
JP5091202B2 (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP4762176B2 (ja) 音声認識装置および音声認識プログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Płonkowski Using bands of frequencies for vowel recognition for Polish language
US20090063149A1 (en) Speech retrieval apparatus
Aadit et al. Pitch and formant estimation of bangla speech signal using autocorrelation, cepstrum and LPC algorithm
Chiu et al. A micro-control device of soundscape collection for mixed frog call recognition
JP4362072B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Bahja et al. An overview of the cate algorithms for real-time pitch determination
JP6234134B2 (ja) 音声合成装置
Allosh et al. Speech recognition of Arabic spoken digits
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
Wang et al. Robust principal component analysis based speaker verification under additive noise conditions
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110414

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110607

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees