JP4316583B2 - 特徴量補正装置、特徴量補正方法および特徴量補正プログラム - Google Patents

特徴量補正装置、特徴量補正方法および特徴量補正プログラム Download PDF

Info

Publication number
JP4316583B2
JP4316583B2 JP2006106594A JP2006106594A JP4316583B2 JP 4316583 B2 JP4316583 B2 JP 4316583B2 JP 2006106594 A JP2006106594 A JP 2006106594A JP 2006106594 A JP2006106594 A JP 2006106594A JP 4316583 B2 JP4316583 B2 JP 4316583B2
Authority
JP
Japan
Prior art keywords
noise environment
feature amount
feature
correction
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006106594A
Other languages
English (en)
Other versions
JP2007279444A (ja
Inventor
政巳 赤嶺
貴史 益子
バッレダ ダニエル
トーネン レムコ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006106594A priority Critical patent/JP4316583B2/ja
Priority to US11/723,410 priority patent/US8370139B2/en
Priority to CNA2007100914737A priority patent/CN101051462A/zh
Publication of JP2007279444A publication Critical patent/JP2007279444A/ja
Application granted granted Critical
Publication of JP4316583B2 publication Critical patent/JP4316583B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Description

この発明は、音声処理で用いる音声の特徴量を補正することにより背景雑音環境下で高精度の特徴量を得ることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムに関するものである。
雑音環境下の音声認識では、学習時の雑音環境と認識時の雑音環境が異なることに起因する認識性能の劣化、いわゆる音響モデルのミスマッチが問題となる。この問題に対処する有効な方法の一つとしてSPLICE(Stereo-based Piecewise Linear Compensation for Environments)法が提案されている(非特許文献1)。
SPLICE法は、クリーン音声データと、クリーン音声データに雑音が重畳された雑音音声データとの対から事前に補正ベクトルを求めておき、音声認識時に特徴量をその補正ベクトルを用いてクリーン音声の特徴量に近づける方法であり、雑音除去の手法と捉えることもできる。
このような補正処理によって、認識時の特徴ベクトルと音響モデルのミスマッチが緩和されるため雑音環境下でも高い認識率が実現できることが報告されている。
Li Deng, Alex Acero, Li Jiang, Jasha Droppo and Xuedong Huang, "High-performance robust speech recognition using stereo training data," Proceedings of 2001 International Conference on Acoustics, Speech, and Signal Processing, pp.301-304.
しかしながら、従来のSPLICE法では、雑音環境の選択は10〜20msの短いフレーム単位で行われるため、一定時間同じ環境が連続する場合でもフレーム毎に異なる環境が選択され認識性能が劣化する場合があるという問題があった。
また、従来のSPLICE法では、予め設計した複数の環境の中から、入力音声が属する雑音環境をフレーム単位で一つ選択し特徴ベクトルを補正しているので、予め設計した雑音環境と認識時の雑音環境が必ずしも一致せず、音響モデルのミスマッチにより認識性能が劣化する場合があるという問題があった。
本発明は、上記に鑑みてなされたものであって、実際の雑音環境の変化に近い円滑な雑音環境の選択を行って、音声の特徴量を高精度で求めることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境HMM記憶手段と、入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出手段と、前記特徴抽出手段によって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定手段と、前記雑音環境系列推定手段によって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第1の補正量を取得し、取得した前記第1の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第2の補正量を計算する補正量計算手段と、前記補正量計算手段によって計算された前記第2の補正量に基づいて、前記特徴抽出手段が抽出した前記特徴量を補正する特徴量補正手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる特徴量補正方法および特徴量補正プログラムである。
本発明によれば、雑音環境の推定を行う際に、少なくとも隣接する前後のフレームの帰属度を用いているので、実際の雑音環境の変化に近い円滑な選択が可能となり、音声の特徴量を高精度で求めることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、第1の実施の形態にかかる特徴量補正装置100の構成を示すブロック図である。同図に示すように、特徴量補正装置100は、雑音環境記憶部120と、入力受付部101と、特徴抽出部102と、雑音環境系列推定部103と、補正ベクトル計算部104と、特徴ベクトル補正部105と、雑音環境HMM記憶部130とを備えている。
雑音環境記憶部120は、複数の雑音環境をGMM(Gaussian Mixture Model:ガウス混合モデル)でモデル化した際のGMMパラメータと、各雑音環境に対応する特徴量の補正量として予め算出された補正ベクトルを格納する記憶部である。雑音環境記憶部120には、後述する(5)、(6)式で算出された補正ベクトルが格納されている。なお、GMMによるモデル化の詳細については後述する。
本実施の形態では、雑音環境1、雑音環境2、雑音環境3の3つの雑音環境のパラメータ121、122、123が予め算出され、雑音環境記憶部120に記憶されているものとする。なお、雑音環境の個数は3に限られるものではなく、任意の個数の雑音環境を対象とすることができる。
また、雑音環境記憶部120は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
入力受付部101は、マイクなどの入力部(図示せず)から入力された音声を電気信号(音声データ)に変換した後、音声データをA/D(アナログデジタル)変換し、PCM(パルスコードモジュレーション)形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。
特徴抽出部102は、入力受付部101が受付けた音声信号を予め定められた10〜20msのフレームに分割して、フレームごとに音声の特徴量を抽出するものである。本実施の形態では、特徴抽出部102は、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)のスタティックとΔ、ΔΔパラメータを用いた音声の特徴量をフレームごとに抽出する。
具体的には、特徴抽出部102は、メルフィルタバンク解析の出力のパワーを離散コサイン変換する方法により、13次元のMFCCと、当該MFCCのΔ、およびΔΔの合計39次元の特徴ベクトルを特徴量として分割されたフレームごとに算出し、算出したフレームごとの時系列の複数の特徴ベクトルを特徴ベクトル系列として出力する。
なお、特徴量は上記に限られるものではなく、入力された音声の特徴を表す値であれば、従来から用いられているあらゆる特徴量を利用することができる。
雑音環境系列推定部103は、特徴抽出部102によって抽出された複数フレームの特徴ベクトルからなる特徴ベクトル系列と雑音環境HMM記憶部130に記憶された雑音環境HMM130とを入力して、各特徴ベクトルが各雑音環境1〜3で発生したことの確からしさを示す雑音環境のそれぞれについての帰属度とそれぞれの雑音環境間の状態遷移確率に基づいて、特徴ベクトル系列の各特徴ベクトルを発生させる雑音環境1〜3の系列である雑音環境系列を推定するものである。
雑億環境HMM記憶部130は、雑音環境をモデル化した隠れマルコフモデルである雑音環境HMM(Hidden Markov Model)を記憶するHDD、光ディスク、メモリカード、RAMなど記憶媒体である。
雑音環境HMMは、雑音環境1〜3のそれぞれを状態として保持するとともに、雑音環境1〜3のそれぞれにおける特徴ベクトルの確率モデルであるGMM(ガウス混合モデルのパラメータと雑音環境1〜3の各状態間を遷移する際の状態遷移確率とをモデル化したものである。本実施の形態では、雑音環境HMMとして、雑音環境1〜3の3状態で各状態が自由に遷移可能なエルゴディックHMMを用いており、各状態は一つの雑音環境に対応している。
各状態は、各雑音環境で観測される音声信号の特徴ベクトルの確率モデルである特徴ベクトル発生確率を表すGMMのパラメータを有し、状態間の遷移は状態遷移確率を要素とする状態遷移行列でモデル化されている。図2は、雑音環境HMMを説明するための模式図である。図2に示すように、雑音環境HMMでは、雑音環境1〜3の各状態をそれぞれ状態1〜3とし、状態間を遷移する状態遷移確率をPijを定めている。ここで、Pijは、状態iから状態jに遷移する状態遷移確率であり、例えば、P12は、状態1から状態2に遷移する確率であり、P11は、状態1に滞留する確率を示している。
これらのGMMのパラメータ(平均ベクトルu、共分散行列Σ)及び状態遷移行列は、フレームごとに雑音環境1〜3の種類のラベルが付与された特徴ベクトルを学習データとして準備し、音声認識の技術分野で知られているフォワード・バックワードアルゴリズム及びEM(Expectation Maximization)アルゴリズムを用いて、特徴ベクトルの補正処理の前に予め学習して定められている。より具体的には、音声認識分野で標準的になっているHMM学習ツールHTKを利用することにより雑音環境HMMを求めている。
観測される特徴ベクトル系列は、雑音環境HMMの状態遷移に伴って確率的に出力される。雑音環境系列推定部103は、入力された特徴ベクトル系列を出力しうる雑音環境HMMの状態の系列の中で特徴ベクトル系列の発生確率を最大にする状態の系列をビタビアルゴリズムを用いて求め、特徴ベクトル系列の発生確率を最大にする状態の系列、すなわち、状態に対応した雑音環境の系列を雑音環境系列として求めている。
例えば、図3に示すように入力音声を20フレームに分割する場合、雑音環境系列推定部103は、状態1〜3を用いた20フレームの全ての組み合わせの状態の系列に対して、状態遷移確率と特徴ベクトル系列の各特徴ベクトルのフレームの帰属度との乗算により特徴ベクトル系列の発生確率を求め、この発生確率が最大となる状態の系列に対応する雑音環境の系列を雑音環境系列として推定する。図3では、雑音環境1→雑音環境1→雑音環境3→雑音環境2→・・・雑音環境2という雑音環境系列が推定された例を示している。
このように本実施の形態にかかる雑音環境系列推定部103では、雑音環境HMMの各状態は雑音環境の一つに対応しており、ビタビアルゴリズムで雑音環境を推定する際にはフレーム毎にHMMの状態確率と状態遷移確率を考慮している。すなわち、フレームごとに雑音環境の帰属度を計算してフレームごとの帰属度のみから特徴ベクトルの雑音環境を求めているのではなく、複数のフレームに亘って、現在のフレームの帰属度の他、直前フレームを含む以前のフレーム、直後のフレームを含む以後のフレームのそれぞれの帰属度も考慮し、雑音環境HMMの状態確率、状態遷移確率を利用して、確率的な意味で尤もらしい雑音環境の系列を推定している。
ここで、雑音環境1〜3のそれぞれに対するフレームの音声の帰属度は以下のように計算される。特徴抽出部102が抽出した特徴ベクトルyt、雑音環境のモデルをeとすると、帰属度は以下の(1)式で表される時刻tの特徴ベクトルytに対する環境eの尤度p(e|yt)として計算される。
Figure 0004316583
なお、p(yt|e)は、雑音環境eで特徴ベクトルytが出現する確率を表し、p(e)およびp(yt)はそれぞれ雑音環境eおよび特徴ベクトルytの発生頻度を表す。
ここで、p(yt)は雑音環境と独立であり、また各環境の発生頻度は等しいと仮定すれば帰属度p(e|yt)は以下の(2)式で計算することができる。
Figure 0004316583
(2)式のp(yt|e)は、以下の(3)式で算出される。
Figure 0004316583
また、(2)式のαは、以下の(4)式で算出される。
Figure 0004316583
ただし、Nはガウス分布であり、特徴ベクトルytがGMMでモデル化されているものとする。GMMのパラメータである平均ベクトルu、共分散行列Σは当該分野で広く知られているEM(Expectation Maximization)アルゴリズムを用いて計算することができる。
具体的には、ある雑音環境で収集された音声データから大量の特徴ベクトルを計算し、算出した特徴ベクトルを学習データとして音声認識の標準的なHMM(Hidden Markov Model)学習ツールであるHTK(Hidden Markov Model Toolkit)を適用することで、GMMのパラメータを求めることができる。なお、(3)式のp(s)はGMMの各コンポーネントの事前確率を表す。
補正ベクトル計算部104は、雑音環境系列推定部103によって推定された雑音環境系列、すなわちフレームごとに推定された各雑音環境に対応する補正ベクトルを雑音環境記憶部120から選択取得するものである。
ここで、各雑音環境eにおける補正ベクトルrsは、従来のSPLICE方式と同様の方法で計算することができる。すなわち、各雑音環境で雑音が付加されていないクリーンな音声データの特徴ベクトルxnと、雑音が付加された雑音データynとの対(xn、yn)を予め多数準備し、以下の(5)式に従って補正ベクトルrs eを計算することができる。なお、以下の式では雑音環境を表す上付きの添え字を省略している。
Figure 0004316583
(5)式のp(s|yt)は、以下の(6)式で算出される。
Figure 0004316583
このように計算された各雑音環境のGMMパラメータと補正ベクトルは雑音環境記憶部120に事前に記憶されている。このため、補正ベクトル計算部104は、雑音環境記憶部120に記憶された各雑音環境1〜3の中で、各フレームごとにそれぞれ推定された雑音環境に対応する補正ベクトルreiを取得している。図3に示す例では、雑音環境1→雑音環境1→雑音環境3→雑音環境2→・・・→雑音環境2という雑音環境系列の各雑音環境に対応して各フレームで補正ベクトル1,補正ベクトル1,補正ベクトル3,補正ベクトル2,・・・,補正ベクトル2がそれぞれ取得された例を示している。なお、reiは後述の(8)式に従って、各雑音環境のGMMパラメータと補正ベクトル及び各フレームの特徴ベクトルyを用いて計算される。
特徴ベクトル補正部105は、補正ベクトル計算部104により取得した補正ベクトルを用いて入力音声の特徴ベクトルを補正するものである。具体的には、特徴ベクトル補正部105は、特徴ベクトルに補正ベクトルを加算することにより、特徴ベクトルの補正を行う。
次に、このように構成された第1の実施の形態にかかる特徴量補正装置100による特徴量補正処理について説明する。図4は、第1の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。
まず、入力受付部101が、ユーザが発話した音声の入力を受付ける(ステップS11)。入力された音声は、入力受付部101によりデジタル形式の音声信号に変換され出力される。
次に、特徴抽出部102は、音声信号を10ms等の所定時間ごとのフレームに分割し、各フレームの特徴量を抽出し、抽出した複数フレームの特徴ベクトルの系列を特徴ベクトル系列とする(ステップS12)。なお、特徴抽出部102は、上述のようにMFCCの特徴ベクトルytを算出することにより特徴量を抽出する。
次に、雑音環境系列推定部103は、雑音環境HMM記憶部130に記憶された雑音環境HMMと特徴抽出部102で求めた特徴ベクトル系列から雑音環境系列を推定する(ステップS13)。雑音環境系列の推定は、上述したように、ビタビアルゴリズムを用い、複数のフレームに亘って、現在のフレームの帰属度の他、直前フレームを含む以前のフレーム、直後のフレームを含む以後のフレームのそれぞれの帰属度も考慮し、雑音環境HMMの状態確率、状態遷移確率を利用して、確率的な意味で尤もらしい雑音環境の系列を推定している。
次に、補正ベクトル計算部104によって、雑音環境系列推定部103によって推定された雑音環境系列の各雑音環境における補正ベクトルを雑音環境記憶部120から取得する(ステップS14)。そして、特徴ベクトル補正部105によって、補正ベクトル計算部104により取得した補正ベクトルを特徴ベクトルに加算することにより、特徴ベクトルの補正を行う(ステップS15)。
このように第1の実施の形態にかかる特徴量補正装置では、複数のフレームに亘って、現在のフレームの帰属度の他、直前フレームを含む以前のフレーム、直後のフレームを含む以後のフレームのそれぞれの帰属度も考慮し、雑音環境HMMの状態確率、状態遷移確率を利用して、確率的な意味で尤もらしい雑音環境の系列を推定しているので、選択される雑音環境はフレーム毎に急激に変化せず、実際の雑音環境の変化に近い円滑な選択が可能となる。このため、雑音環境の選択誤りが緩和され、音声の特徴量を高精度で求めることができる。
また、第1の実施の形態にかかる特徴量補正装置を音声認識処理に適用した場合には、
認識時の雑音環境が設計時の雑音環境と一致していない場合であっても高精度の特徴ベクトルを算出することができ、高い音声認識性能を得ることが可能となる。
(第2の実施の形態)
第1の実施の形態にかかる特徴量補正装置では、推定した雑音環境系列の各雑音環境に対応する補正ベクトルを雑音環境記憶部120から取得して特徴ベクトルを補正していたが、この第2の実施の形態にかかる特徴量補正装置では、複数の雑音環境の補正ベクトルを重み付き加算して補正ベクトルを算出している。
第2の実施の形態にかかる特徴量補正装置の構成は、図1で説明した第1の実施の形態の特徴量補正装置と同様である。第2の実施の形態にかかる特徴量補正装置では、補正ベクトル計算部104の機能が第1の実施の形態と異なっており、その他の各部については第1の実施の形態と同様の機能を有している。
第2の実施の形態にかかる補正ベクトル計算部104は、各雑音環境の補正ベクトルreiを雑音環境記憶部120から取得し、取得した各補正ベクトルreiに重み付け係数p(i)を付加して重み付け加算することにより、入力された音声に対する特徴ベクトルの補正ベクトルrを算出するものである。
具体的には、補正ベクトル計算部104は、複数フレームの各フレーム毎に雑音環境HMMの各状態の滞留確率p(i)をフォワード確率とバックワード確率から計算し、各状態の滞留確率p(i)で各雑音環境の補正ベクトルreiを重み付け加算し、補正ベクトルrを求める。ここで、i(i=1,2,3)は雑音環境iに対応する番号を示している。補正ベクトルrは、次の(7)式により算出される。
Figure 0004316583
(7)式のreiは、以下の(8)式により算出される。
Figure 0004316583
次に、以上のように構成された第2の実施の形態にかかる特徴量補正装置100による特徴量補正処理について説明する。図5は、第2の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。
ユーザが発話した音声の受け付けから雑音環境系列の推定までの処理(ステップS21〜S23)については第1の実施の形態と同様に行われる。
ステップS23で雑音環境系列の推定が行われたら、補正ベクトル計算部104は、雑音環境HMMの各状態の滞留確率p(i)を計算し、滞留確率p(i)重み付け係数として各雑音環境に対して雑音環境記憶部120に格納された補正ベクトルrs eの重み付け加算を算出することにより、入力された音声の特徴量に対する補正ベクトルrtを算出する(ステップS24)。そして、第1の実施の形態と同様に、特徴ベクトル補正部105によって、補正ベクトル計算部104により取得した補正ベクトルを特徴ベクトルに加算することにより、特徴ベクトルの補正を行う(ステップS25)。
このように第2の実施の形態にかかる特徴量補正装置では、複数の雑音環境の線形和で未知の雑音環境を近似することになるので、より高い精度で特徴ベクトルを補正することができ、認識時の雑音環境が設計時の雑音環境と一致していない場合でも高い認識性能を得ることができる。
(第3の実施の形態)
第1の実施の形態にかかる特徴量補正装置では、入力された音声に対し複数フレーム毎に雑音環境系列を推定していたが、この第3の実施の形態にかかる特徴量補正装置では、1フレームごとに逐次的に雑音環境系列を推定するものである。
第3の実施の形態にかかる特徴量補正装置の構成は、図1で説明した第1の実施の形態の特徴量補正装置と同様である。第3の実施の形態にかかる特徴量補正装置では、雑音環境系列推定部103の機能が第1の実施の形態と異なっており、その他の各部については第1の実施の形態と同様の機能を有している。
雑音環境推定部103は、1フレームごとに、最初に入力されたフレームtから現在のフレームt+a(aは0以上の整数)までの複数のフレームについての特徴量系列と雑音環境HMMを用いて雑音環境系列を推定するものである。具体的には、各フレームの雑音環境は最初の入力フレームからフレームt+aまでの特徴ベクトルの系列に対するビタビアルゴリズムを用いて第1の実施の形態と同様の手法で求める。
次に、以上のように構成された第3の実施の形態にかかる特徴量補正装置100による特徴量補正処理について説明する。図6は、第3の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。
まず、第1の実施の形態と同様に、ユーザが発話した音声を受け付ける(ステップS31)。そして、特徴抽出部102は、所定時間内に受け付けた音声を1フレームとして、フレームごとの特徴ベクトル系列を求める(ステップS32)。
次に、雑音環境系列推定部103は、最初に入力されたフレームtから現在のフレーム(t+a)までの複数のフレームについて、雑音環境HMM記憶部130に記憶された雑音環境HMMと特徴抽出部102で求めた特徴ベクトル系列から雑音環境系列を1フレームごとに推定する(ステップS33)。そして、入力された音声のすべてのフレームについてステップS32およびS33の処理を繰り返し実行する(ステップS34)。以降は、第1の実施の形態と同様に、補正ベクトル計算部104によって、雑音環境系列推定部103によって推定された雑音環境系列の各雑音環境における補正ベクトルを雑音環境記憶部120から取得する(ステップS35)。そして、特徴ベクトル補正部105によって、補正ベクトル計算部104により取得した補正ベクトルを特徴ベクトルに加算することにより、特徴ベクトルの補正を行う(ステップS36)。
このように第3の実施の形態にかかる特徴量補正装置では、現時点までに得られている全ての入力音声信号の情報を用いて雑音環境を推定することになるので、より高い精度で安定して特徴ベクトルを補正することができ、高い認識性能を得ることができる。また、第3の実施の形態にかかる特徴量補正装置では、特徴ベクトルが入力されてから補正された特徴ベクトルが出力されるまでの遅延を一定以下に抑えることも可能となる。
なお、第2の実施の形態にかかる特徴量補正装置のように、補正ベクトルを重み付け加算で求める場合において、最初に入力されたフレームtから現在のフレーム(t+a)までの複数のフレームについて滞留確率p(i)を算出するように構成してもよい。この場合には、最初に入力されたフレームtから現在のフレーム(t+a)までの複数のフレームについてのフォワード確率とバックワード確率を求め、各状態の滞留確率p(i)を算出すればよい。
図7は、第1〜3の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。
第1〜3の実施の形態にかかる特徴量補正装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1〜3の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、ROM52等に予め組み込まれて提供される。
第1〜3の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、第1〜3の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜3の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1〜3の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、上述した各部(入力受付部、特徴抽出部、雑音環境系列推定部、補正ベクトル計算部、特徴ベクトル補正部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から特徴量補正プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
以上のように、本発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムは、音声の特徴量を用いて音声認識や話者認証を行う音声処理装置に適している。
第1の実施の形態にかかる特徴量補正装置100の構成を示すブロック図である。 雑音環境HMMを説明するための模式図である。 入力音声を20フレームに分割した場合における雑音環境系列推定、補正ベクトルの例を示す説明図である。 第1の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。 第2の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。 第3の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。 第1〜3の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 特徴量補正装置
102 特徴抽出部
103 雑音環境系列推定部
104 補正ベクトル計算部
105 特徴ベクトル補正部
120 雑音環境記憶部
121、122、123 パラメータ
130 雑億環境HMM記憶部

Claims (8)

  1. 音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、
    複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、
    前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境HMM記憶手段と、
    入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段によって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定手段と、
    前記雑音環境系列推定手段によって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第1の補正量を取得し、取得した前記第1の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第2の補正量を計算する補正量計算手段と、
    前記補正量計算手段によって計算された前記第2の補正量に基づいて、前記特徴抽出手段が抽出した前記特徴量を補正する特徴量補正手段と、
    を備えたことを特徴とする特徴量補正装置。
  2. 前記特徴抽出手段は、入力された音声を複数のフレームに分割し、分割された各フレームにおける音声の特徴量を抽出し、
    前記雑音環境系列推定手段は、分割された複数のフレームについての前記特徴量系列と、分割された複数のフレームにおける前記特徴量についての前記帰属度に基づいて、前記雑音環境系列を推定することを特徴とする請求項1に記載の特徴量補正装置。
  3. 前記雑音環境系列推定手段は、所定のフレームから現在のフレームまでの複数のフレームについての前記特徴量系列と、所定のフレームから現在のフレームまでの複数のフレームにおける前記特徴量についての前記帰属度に基づいて、逐次的に前記雑音環境系列を推定することを特徴とする請求項1に記載の特徴量補正装置。
  4. 前記特徴量補正手段は、前記特徴量と前記第2の補正量とを加算することにより前記特徴量を補正することを特徴とする請求項1に記載の特徴量補正装置。
  5. 前記雑音環境記憶手段は、前記雑音環境のそれぞれについて、前記雑音環境下の音声である雑音音声と、雑音が存在しない環境下の音声であるクリーン音声とから算出された前記補正量を記憶することを特徴とする請求項1に記載の特徴量補正装置。
  6. 前記特徴抽出手段は、入力された音声のMFCC(メル周波数ケプストラム係数)を前記特徴量として抽出することを特徴とする請求項1に記載の特徴量補正装置。
  7. 音声処理で用いる音声の特徴量を補正する特徴量補正装置で実行される特徴量補正方法であって、
    前記特徴量補正装置は、
    複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、
    前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境HMM記憶手段と、を備え、
    入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出ステップと、
    前記特徴抽出ステップによって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定ステップと、
    前記雑音環境系列推定ステップによって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第1の補正量を取得し、取得した前記第1の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第2の補正量を計算する補正量計算ステップと、
    前記補正量計算ステップによって計算された前記第2の補正量に基づいて、前記特徴抽出ステップが抽出した前記特徴量を補正する特徴量補正ステップと、
    を含むことを特徴とする特徴量補正方法。
  8. 音声処理で用いる音声の特徴量を補正するコンピュータに実行させるための特徴量補正プログラムであって、
    前記コンピュータは、
    複数の雑音環境のそれぞれについて、前記特徴量を補正するための補正量を記憶する雑音環境記憶手段と、
    前記雑音環境のそれぞれを状態として保持するとともに、前記雑音環境のそれぞれにおける前記特徴量の確率モデルであるガウス混合モデルのパラメータと各状態間を遷移する際の状態遷移確率とをモデル化した雑音環境隠れマルコフモデルを記憶する雑音環境HMM記憶手段と、を備え、
    入力された音声を所定時間ごとに分割した複数のフレームの各フレームにおける音声の特徴量を抽出する特徴抽出ステップと、
    前記特徴抽出ステップによって抽出された各フレームについての複数の前記特徴量の系列を示す特徴量系列と、前記雑音環境隠れマルコフモデルと、現在のフレームと現在のフレームに対して少なくとも直前のフレームまたは直後のフレームとにおける前記特徴量が前記雑音環境で発生したことの確からしさを示す前記雑音環境のそれぞれについての帰属度に基づいて、前記特徴量系列の各特徴量を発生させる複数の前記雑音環境の系列を示す雑音環境系列を推定する雑音環境系列推定ステップと、
    前記雑音環境系列推定ステップによって推定された前記雑音環境系列の各雑音環境に対応する補正量を求める手段であって、前記雑音環境記憶手段に記憶された前記補正量の中から第1の補正量を取得し、取得した前記第1の補正量に対して前記雑音環境隠れマルコフモデルから求めた各状態に存在する確率を重み付け係数として重み付け加算した第2の補正量を計算する補正量計算ステップと、
    前記補正量計算ステップによって計算された前記第2の補正量に基づいて、前記特徴抽出ステップが抽出した前記特徴量を補正する特徴量補正ステップと、
    前記コンピュータに実行させるための特徴量補正プログラム。
JP2006106594A 2006-04-07 2006-04-07 特徴量補正装置、特徴量補正方法および特徴量補正プログラム Expired - Fee Related JP4316583B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006106594A JP4316583B2 (ja) 2006-04-07 2006-04-07 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US11/723,410 US8370139B2 (en) 2006-04-07 2007-03-19 Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
CNA2007100914737A CN101051462A (zh) 2006-04-07 2007-03-30 特征矢量补偿设备和特征矢量补偿方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006106594A JP4316583B2 (ja) 2006-04-07 2006-04-07 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Publications (2)

Publication Number Publication Date
JP2007279444A JP2007279444A (ja) 2007-10-25
JP4316583B2 true JP4316583B2 (ja) 2009-08-19

Family

ID=38662199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006106594A Expired - Fee Related JP4316583B2 (ja) 2006-04-07 2006-04-07 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Country Status (3)

Country Link
US (1) US8370139B2 (ja)
JP (1) JP4316583B2 (ja)
CN (1) CN101051462A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8279912B2 (en) 2006-03-13 2012-10-02 Plx Technology, Inc. Tranceiver non-linearity cancellation
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US8416719B2 (en) * 2008-03-20 2013-04-09 Aquantia Corporation Generating an estimated non-linear echo signal
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
JP2010230913A (ja) * 2009-03-26 2010-10-14 Toshiba Corp 音声処理装置、音声処理方法、及び、音声処理プログラム
JP5225952B2 (ja) * 2009-08-25 2013-07-03 Kddi株式会社 音声認識装置およびその特徴量正規化方法
GB2485926B (en) * 2009-08-28 2013-06-05 Ibm Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program
JP2011243088A (ja) * 2010-05-20 2011-12-01 Sony Corp データ処理装置、データ処理方法、及び、プログラム
WO2011148860A1 (ja) * 2010-05-24 2011-12-01 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
JP6451136B2 (ja) * 2014-08-05 2019-01-16 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
CN104952449A (zh) * 2015-01-09 2015-09-30 珠海高凌技术有限公司 环境噪声声源识别方法及装置
KR102371770B1 (ko) * 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
US9437193B2 (en) * 2015-01-21 2016-09-06 Microsoft Technology Licensing, Llc Environment adjusted speaker identification
JP6464005B2 (ja) * 2015-03-24 2019-02-06 日本放送協会 雑音抑圧音声認識装置およびそのプログラム
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN106601229A (zh) * 2016-11-15 2017-04-26 华南理工大学 一种基于soc芯片的语音唤醒方法
CN108039176B (zh) * 2018-01-11 2021-06-18 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN111863015A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
JP2021039216A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 音声認識装置、音声認識方法及び音声認識プログラム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6230128B1 (en) * 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
US5627939A (en) * 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JPH09258783A (ja) 1996-03-26 1997-10-03 Mitsubishi Electric Corp 音声認識装置
US5924065A (en) 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6006186A (en) * 1997-10-16 1999-12-21 Sony Corporation Method and apparatus for a parameter sharing speech recognition system
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
JPH11296192A (ja) 1998-04-10 1999-10-29 Pioneer Electron Corp 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
JP2000181934A (ja) 1998-12-21 2000-06-30 Telecommunication Advancement Organization Of Japan 部分一致検索方法,その装置,及び部分一致検索プログラムを記録した記録媒体
JP2000194392A (ja) 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
JP3759685B2 (ja) 1999-05-18 2006-03-29 三菱電機株式会社 雑音区間判定装置,雑音抑圧装置及び推定雑音情報更新方法
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
DE10043946C2 (de) * 2000-09-06 2002-12-12 Siemens Ag Komprimieren von HMM-Prototypen
US6934678B1 (en) * 2000-09-25 2005-08-23 Koninklijke Philips Electronics N.V. Device and method for coding speech to be recognized (STBR) at a near end
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
JP4603727B2 (ja) 2001-06-15 2010-12-22 セコム株式会社 音響信号分析方法及び装置
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
JP4058987B2 (ja) 2002-04-15 2008-03-12 三菱電機株式会社 雑音除去装置及び雑音除去方法
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
US7516071B2 (en) * 2003-06-30 2009-04-07 International Business Machines Corporation Method of modeling single-enrollment classes in verification and identification tasks
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
DK1760696T3 (en) * 2005-09-03 2016-05-02 Gn Resound As Method and apparatus for improved estimation of non-stationary noise to highlight speech
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Also Published As

Publication number Publication date
CN101051462A (zh) 2007-10-10
US20070260455A1 (en) 2007-11-08
US8370139B2 (en) 2013-02-05
JP2007279444A (ja) 2007-10-25

Similar Documents

Publication Publication Date Title
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP5418223B2 (ja) 音声分類装置、音声分類方法、および音声分類用プログラム
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JPH0850499A (ja) 信号識別方法
KR101217525B1 (ko) 비터비 디코더와 이를 이용한 음성 인식 방법
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP2012042664A (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP2019035862A (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
JP4729534B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
JP3912089B2 (ja) 音声認識方法および音声認識装置
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP3091648B2 (ja) 隠れマルコフモデルの学習方法
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
JP5885686B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、プログラム
JP3315956B2 (ja) 音声符号化装置及び音声符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090520

R151 Written notification of patent or utility model registration

Ref document number: 4316583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120529

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120529

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130529

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130529

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140529

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees