JP4245617B2 - 特徴量補正装置、特徴量補正方法および特徴量補正プログラム - Google Patents

特徴量補正装置、特徴量補正方法および特徴量補正プログラム Download PDF

Info

Publication number
JP4245617B2
JP4245617B2 JP2006105091A JP2006105091A JP4245617B2 JP 4245617 B2 JP4245617 B2 JP 4245617B2 JP 2006105091 A JP2006105091 A JP 2006105091A JP 2006105091 A JP2006105091 A JP 2006105091A JP 4245617 B2 JP4245617 B2 JP 4245617B2
Authority
JP
Japan
Prior art keywords
correction
feature
amount
feature amount
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006105091A
Other languages
English (en)
Other versions
JP2007279349A (ja
Inventor
政巳 赤嶺
貴史 益子
バッレダ ダニエル
トーネン レムコ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006105091A priority Critical patent/JP4245617B2/ja
Priority to US11/713,801 priority patent/US20070276662A1/en
Priority to CNA200710088572XA priority patent/CN101051461A/zh
Publication of JP2007279349A publication Critical patent/JP2007279349A/ja
Application granted granted Critical
Publication of JP4245617B2 publication Critical patent/JP4245617B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Description

この発明は、音声処理で用いる音声の特徴量を補正することにより背景雑音環境下で高精度の特徴量を得ることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムに関するものである。
雑音環境下の音声認識では、学習時の雑音環境と認識時の雑音環境が異なることに起因する認識性能の劣化、いわゆる音響モデルのミスマッチが問題となる。この問題に対処する有効な方法の一つとしてSPLICE(Stereo-based Piecewise Linear Compensation for Environments)法が提案されている(非特許文献1)。
SPLICE法は、クリーン音声データと、クリーン音声データに雑音が重畳された雑音音声データとの対から事前に補正ベクトルを求めておき、音声認識時に特徴量をその補正ベクトルを用いてクリーン音声の特徴量に近づける方法であり、雑音除去の手法と捉えることもできる。
このような補正処理によって、認識時の特徴ベクトルと音響モデルのミスマッチが緩和されるため雑音環境下でも高い認識率が実現できることが報告されている。
Li Deng, Alex Acero, Li Jiang, Jasha Droppo and Xuedong Huang, "High-performance robust speech recognition using stereo training data," Proceedings of 2001 International Conference on Acoustics, Speech, and Signal Processing, pp.301-304.
しかしながら、従来のSPLICE法では、予め設計した複数の環境の中から、入力音声が属する雑音環境をフレーム単位で一つ選択し特徴ベクトルを補正しているので、予め設計した雑音環境と認識時の雑音環境が必ずしも一致せず、音響モデルのミスマッチにより認識性能が劣化する場合があるという問題があった。
また、雑音環境の選択は10〜20msの短いフレーム単位で行われるため、一定時間同じ環境が連続する場合でもフレーム毎に異なる環境が選択され認識性能が劣化する場合があるという問題があった。
本発明は、上記に鑑みてなされたものであって、予め設計した雑音環境と異なる雑音環境下で音声が入力された場合であっても、特徴量を高精度で求めることができる特徴量補正装置、特徴量補正方法および特徴量補正プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、複数の雑音環境のそれぞれについて、予め定められた複数の第1の補正量を記憶する記憶手段と、入力された音声の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段が抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算手段と、前記記憶手段から複数の前記第1の補正量を取得し、取得した複数の前記第1の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第2の補正量を算出し、算出した前記第2の補正量を前記帰属度計算手段が計算した前記帰属度を重み付け係数として重み付け加算した第3の補正量を計算する補正量計算手段と、前記補正量計算手段が計算した前記第3の補正量に基づいて、前記特徴量抽出手段が抽出した前記特徴量を補正する補正手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる特徴量補正方法および特徴量補正プログラムである。
本発明によれば、予め設計した雑音環境の補正ベクトルを、各雑音環境に対する入力音声の帰属度に基づいて重み付き加算し、算出した補正ベクトルで特徴ベクトルを補正することができる。このため、予め設計した雑音環境と異なる雑音環境下で音声が入力された場合であっても特徴量を高精度で求めることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる特徴量補正装置は、複数の雑音環境について事前に補正ベクトルを設計して記憶部に記憶し、音声認識時には各々の雑音環境に対する入力音声の帰属度を計算し、計算した帰属度に基づいて複数の雑音環境の補正ベクトルを重み付き加算して補正ベクトルを求め、求めた補正ベクトルにより特徴ベクトルを補正するものである。
図1は、第1の実施の形態にかかる特徴量補正装置100の構成を示すブロック図である。同図に示すように、特徴量補正装置100は、雑音環境記憶部120と、入力受付部101と、特徴抽出部102と、帰属度計算部103と、補正ベクトル計算部104と、特徴ベクトル補正部105とを備えている。
雑音環境記憶部120は、複数の雑音環境をGMM(Gaussian Mixture Model:ガウス混合モデル)でモデル化した際のGMMパラメータと、各雑音環境に対応する特徴量の補正量として予め算出された補正ベクトルを格納する記憶部である。GMMによるモデル化の詳細については後述する。
本実施の形態では、雑音環境1、雑音環境2、雑音環境3の3つの雑音環境のパラメータ121、122、123が予め算出され、雑音環境記憶部120に記憶されているものとする。なお、雑音環境の個数は3に限られるものではなく、任意の個数の雑音環境を対象とすることができる。
また、雑音環境記憶部120は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
入力受付部101は、マイクなどの入力部(図示せず)から入力された音声を電気信号(音声データ)に変換した後、音声データをA/D(アナログデジタル)変換し、PCM(パルスコードモジュレーション)形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。
特徴抽出部102は、入力受付部101が受付けた音声信号を予め定められた10〜20msのフレームに分割して、音声の特徴量を抽出するものである。本実施の形態では、特徴抽出部102は、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)のスタティックとΔ、ΔΔパラメータを用いた音声の特徴量を抽出する。
具体的には、特徴抽出部102は、メルフィルタバンク解析の出力のパワーを離散コサイン変換する方法により、13次元のMFCCと、当該MFCCのΔ、およびΔΔの合計39次元の特徴ベクトルを特徴量として算出する。
なお、特徴量は上記に限られるものではなく、入力された音声の特徴を表す値であれば、従来から用いられているあらゆる特徴量を利用することができる。
帰属度計算部103は、特徴抽出部102が抽出した特徴ベクトルを用いて、予め定められた上記3つの雑音環境のそれぞれについて、入力された音声が各雑音環境で発生したことの確からしさを表す帰属度を計算するものである。帰属度の算出方法の詳細については後述する。
補正ベクトル計算部104は、各雑音環境の補正ベクトルを雑音環境記憶部120から取得し、取得した各補正ベクトルを、帰属度計算部103が算出した帰属度を重み付け係数として重み付け加算することにより、入力された音声に対する特徴ベクトルの補正ベクトルを算出するものである。
特徴ベクトル補正部105は、補正ベクトル計算部104が算出した補正ベクトルを用いて入力音声の特徴ベクトルを補正するものである。具体的には、特徴ベクトル補正部105は、特徴ベクトルに補正ベクトルを加算することにより、特徴ベクトルの補正を行う。
次に、このように構成された第1の実施の形態にかかる特徴量補正装置100による特徴量補正処理について説明する。図2は、第1の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。
まず、入力受付部101が、ユーザが発話した音声の入力を受付ける(ステップS201)。入力された音声は、入力受付部101によりデジタル形式の音声信号に変換され出力される。
次に、特徴抽出部102は、音声信号を10msのフレームに分割し、当該フレームの特徴量を抽出する(ステップS202)。特徴抽出部102は、上述のようにMFCCの特徴ベクトルytを算出することにより特徴量を抽出する。
次に、帰属度計算部103は、特徴抽出部102が抽出した特徴ベクトルytを用いて、予め定められた複数の雑音環境のそれぞれに対する当該フレームの音声の帰属度を計算する(ステップS203)。雑音環境のモデルをeとおくと、帰属度は以下の(1)式で表される時刻tの特徴ベクトルytに対する環境eの尤度p(e|yt)として計算される。
Figure 0004245617
なお、p(yt|e)は、雑音環境eで特徴ベクトルytが出現する確率を表し、p(e)およびp(yt)はそれぞれ雑音環境eおよび特徴ベクトルytの発生頻度を表す。
ここで、p(yt)は雑音環境と独立であり、また各環境の発生頻度は等しいと仮定すれば帰属度p(e|yt)は以下の(2)式で計算することができる。
Figure 0004245617
(2)式のp(yt|e)は、以下の(3)式で算出される。
Figure 0004245617
また、(2)式のαは、以下の(4)式で算出される。
Figure 0004245617
ただし、Nはガウス分布であり、特徴ベクトルytがGMMでモデル化されているものとする。GMMのパラメータである平均ベクトルu、共分散行列Σは当該分野で広く知られているEM(Expectation Maximization)アルゴリズムを用いて計算することができる。
具体的には、ある雑音環境で収集された音声データから大量の特徴ベクトルを計算し、算出した特徴ベクトルを学習データとして音声認識の標準的なHMM(Hidden Markov Model)学習ツールであるHTK(Hidden Markov Model Toolkit)を適用することで、GMMのパラメータを求めることができる。なお、(3)式のp(s)はGMMの各コンポーネントの事前確率を表す。
次に、補正ベクトル計算部104は、帰属度計算部103により算出された帰属度を重み付け係数として、各雑音環境に対して予め計算された補正ベクトルrs eの重み付け加算を算出することにより、入力された音声の特徴量に対する補正ベクトルrtを算出する(ステップS204)。具体的には、以下の(5)式により補正ベクトルrtを算出する。
Figure 0004245617
(5)式のrt eは、以下の(6)式で算出される。
Figure 0004245617
すなわち、まず、従来のSPLITE方式と同様の方法により、予め計算された補正ベクトルrs eを重み付け加算して各雑音環境eの補正ベクトルrt eを算出する((6)式)。さらに、帰属度を重み付け係数として各雑音環境eの補正ベクトルrt eを重み付け加算することにより、入力された音声の特徴量に対する補正ベクトルrtを算出する((5)式)。
ここで、補正ベクトルrs eは、従来のSPLICE方式と同様の方法で計算することができる。すなわち、各雑音環境で雑音が付加されていないクリーンな音声データの特徴ベクトルxnと、雑音が付加された雑音データynとの対(xn、yn)を大量に準備し、以下の(7)式に従って補正ベクトルrs eを計算することができる。なお、以下の式では雑音環境を表す上付きの添え字を省略している。
Figure 0004245617
(7)式のp(s|yt)は、以下の(8)式で算出される。
Figure 0004245617
このように計算された各雑音環境のGMMパラメータと補正ベクトルは雑音環境記憶部120に事前に記憶されるため、ステップS204では、雑音環境記憶部120に記憶された各雑音環境の補正ベクトルrs eを用いて、補正ベクトルrtを算出する。
最後に、特徴ベクトル補正部105は補正ベクトル計算部104により計算された補正ベクトルrtを、ステップS202で計算された特徴ベクトルytに加算することによって特徴ベクトルytを補正する(ステップS205)。
このようにして補正された補正後の特徴ベクトルは、音声認識を行う音声認識装置に出力される。なお、特徴ベクトルを用いた音声処理は音声認識処理に限られるものではなく、話者認証処理などの音声の特徴ベクトルを利用した音声処理であれば、従来から用いられているあらゆる処理に本実施の形態の方法を適用することができる。
このように、第1の実施の形態にかかる特徴量補正装置では、複数の雑音環境の線形和で未知の雑音環境を近似することにより高い精度で特徴ベクトルを補正することができるので、認識時の雑音環境が設計時の雑音環境と一致していない場合であっても高精度の特徴ベクトルを算出することができる。このため、当該特徴ベクトルを用いることにより、高い音声認識性能を得ることが可能となる。
また、従来の特徴ベクトル補正方式では、入力された音声信号の各フレームに対して雑音環境を唯一選択していたため、雑音環境の選択を誤った場合に性能が大きく劣化していた。これに対して、本実施の形態では雑音環境を1つだけ選択するのではなく、帰属度に基づいて線形結合するため、何らかの原因で帰属度の計算に誤差が存在したとしても、補正ベクトルの計算に対する影響は小さく、性能劣化が小さいという利点がある。
(第2の実施の形態)
第1の実施の形態では、各時刻tにおける雑音環境の帰属度は当該時刻tの特徴ベクトルytのみから求めていた。これに対し、第2の実施の形態にかかる特徴量補正装置は、時刻tの前後の複数の特徴ベクトルも用いて帰属度を算出するものである。
図3は、第2の実施の形態にかかる特徴量補正装置300の構成を示すブロック図である。同図に示すように、特徴量補正装置300は、雑音環境記憶部120と、入力受付部101と、特徴抽出部102と、帰属度計算部303と、補正ベクトル計算部104と、特徴ベクトル補正部105とを備えている。
第2の実施の形態では、帰属度計算部303の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる特徴量補正装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
帰属度計算部303は、任意の時刻tにおけるフレームの音声の帰属度を算出する際に、時刻tの前または後の少なくとも一方の所定の範囲の時刻のフレームの特徴ベクトルを利用して帰属度を算出するものである。帰属度の算出方法の詳細については後述する。
次に、このように構成された第2の実施の形態にかかる特徴量補正装置300による特徴量補正処理について説明する。図4は、第2の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。
ステップS401からステップS402までの、特徴量補正処理は、第1の実施の形態にかかる特徴量補正装置100におけるステップS201からステップS202までと同様の処理なので、その説明を省略する。
ステップS402で特徴ベクトルを抽出した後、帰属度計算部303は、特徴ベクトルを抽出した時刻である時刻tの前後の時刻のフレームの特徴ベクトルについて、抽出した特徴量が各雑音環境で出現する確率(出現確率)を計算する(ステップS403)。この出現確率は、後述する(10)式の括弧内の式で算出される値に相当する。
次に、帰属度計算部303は、各時刻のフレームで算出した出現確率を重み付け乗算した値を用いて、時刻tのフレームの帰属度を計算する(ステップS404)。具体的には、帰属度計算部303は、以下の(9)式により、帰属度p(e|yt-a:t-b)を算出する。ここで、a、bは0以上の整数であり、yt-a:t+bは時刻t−aからt+bまでの特徴ベクトルの系列を表す。
Figure 0004245617
(9)式のp(yt-a:t-b|e)は、以下の(10)式で算出される。
Figure 0004245617
また、(9)式のαは、以下の(11)式で算出される。
Figure 0004245617
また、w(τ)は各時刻t+τに対する重みであり、例えば全てのτに対してw(τ)=1としても良いし、τの絶対値が大きくなるに従ってw(τ)の値が小さくなるように設定しても良い。このようにして算出された帰属度p(e|yt-a:t+b)を用いて、上述の(5)式と同様にして補正ベクトルrtを求めることができる。
すなわち、ステップS404で計算された帰属度を用いて、第1の実施の形態のステップS204と同様の方法により、補正ベクトル計算部104が補正ベクトルrtを算出する(ステップS405)。
また、特徴ベクトル補正部105は、第1の実施の形態のステップS205と同様の方法により、補正ベクトルrtを用いて特徴ベクトルytを補正し(ステップS406)、特徴量補正処理を終了する。
このように、第2の実施の形態にかかる特徴量補正装置では、複数の特徴ベクトルを用いて帰属度を計算することができるので、補正ベクトルの急激な変動を抑え、高精度の特徴ベクトルを算出することができる。このため、当該特徴ベクトルを用いることにより、高い音声認識性能を得ることが可能となる。
図5は、第1または第2の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。
第1または第2の実施の形態にかかる特徴量補正装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1または第2の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、ROM52等に予め組み込まれて提供される。
第1または第2の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、第1または第2の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1または第2の実施の形態にかかる特徴量補正装置で実行される特徴量補正プログラムは、上述した各部(入力受付部、特徴抽出部、帰属度計算部、補正ベクトル計算部、特徴ベクトル補正部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から特徴量補正プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる特徴量補正装置、特徴量補正方法および特徴量補正プログラムは、音声の特徴量を用いて音声認識や話者認証を行う音声処理装置に適している。
第1の実施の形態にかかる特徴量補正装置の構成を示すブロック図である。 第1の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。 第2の実施の形態にかかる特徴量補正装置の構成を示すブロック図である。 第2の実施の形態における特徴量補正処理の全体の流れを示すフローチャートである。 第1または第2の実施の形態にかかる特徴量補正装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 特徴量補正装置
101 入力受付部
102 特徴抽出部
103 帰属度計算部
104 補正ベクトル計算部
105 特徴ベクトル補正部
120 雑音環境記憶部
121、122、123 パラメータ
300 特徴量補正装置
303 帰属度計算部

Claims (11)

  1. 音声処理で用いる音声の特徴量を補正する特徴量補正装置であって、
    複数の雑音環境のそれぞれについて、予め定められた複数の第1の補正量を記憶する記憶手段と、
    入力された音声の特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段が抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算手段と、
    前記記憶手段から複数の前記第1の補正量を取得し、取得した複数の前記第1の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第2の補正量を算出し、算出した前記第2の補正量を前記帰属度計算手段が計算した前記帰属度を重み付け係数として重み付け加算した第3の補正量を計算する補正量計算手段と、
    前記補正量計算手段が計算した前記第3の補正量に基づいて、前記特徴量抽出手段が抽出した前記特徴量を補正する補正手段と、
    を備えたことを特徴とする特徴量補正装置。
  2. 前記記憶手段は、前記雑音環境をガウス混合モデルでモデル化したときのパラメータをさらに記憶し、
    前記帰属度計算手段は、前記記憶手段から前記パラメータを取得し、取得した前記パラメータに基づいて前記雑音環境のそれぞれに対して前記特徴量が出現する確からしさを表す第1の尤度を算出し、算出した前記第1の尤度に基づいて前記帰属度を計算すること、
    を特徴とする請求項1に記載の特徴量補正装置。
  3. 前記補正手段は、前記特徴量と前記第3の補正量とを加算することにより前記特徴量を補正すること、
    を特徴とする請求項1に記載の特徴量補正装置。
  4. 前記記憶手段は、前記雑音環境のそれぞれについて、前記雑音環境下の音声である雑音音声と、雑音が存在しない環境下の音声であるクリーン音声とから算出された前記第1の補正量を記憶すること、
    を特徴とする請求項1に記載の特徴量補正装置。
  5. 前記特徴量抽出手段は、入力された音声のMFCC(メル周波数ケプストラム係数)を前記特徴量として抽出すること、
    を特徴とする請求項1に記載の特徴量補正装置。
  6. 前記帰属度計算手段は、第1の時刻の前または後の少なくとも一方の予め定められた範囲に含まれる複数の時刻で前記特徴量抽出手段が抽出した複数の前記特徴量に基づいて前記帰属度を計算すること、
    を特徴とする請求項1に記載の特徴量補正装置。
  7. 前記記憶手段は、前記雑音環境をガウス混合モデルでモデル化したときのパラメータをさらに記憶し、
    前記帰属度計算手段は、前記記憶手段から前記パラメータを取得し、取得した前記パラメータに基づいて、前記範囲に含まれる複数の時刻のそれぞれについて、前記雑音環境のそれぞれに対して前記特徴量が出現する確からしさを表す第2の尤度を算出し、予め定められた第1の係数を重み付け係数として、算出した前記第2の尤度を重み付け乗算することにより、前記第1の時刻の前記特徴量が出現する確からしさを表す第1の尤度を算出し、算出した前記第1の尤度に基づいて前記帰属度を計算すること、
    を特徴とする請求項6に記載の特徴量補正装置。
  8. 前記帰属度計算手段は、算出した前記第2の尤度の積である前記第1の尤度を算出し、算出した前記第1の尤度に基づいて前記帰属度を計算すること、
    を特徴とする請求項7に記載の特徴量補正装置。
  9. 前記帰属度計算手段は、前記第1の時刻との差が大きい時刻に対する前記第1の係数の値が、前記第1の時刻との差が小さい時刻に対する前記第1の係数の値より小さくなるように予め定められた前記第1の係数を重み付け係数として、算出した前記第2の尤度を重み付け乗算すること、
    を特徴とする請求項7に記載の特徴量補正装置。
  10. 音声処理で用いる音声の特徴量を補正する特徴量補正方法であって、
    入力された音声の特徴量を抽出する特徴量抽出ステップと、
    前記特徴量抽出ステップが抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算ステップと、
    前記雑音環境のそれぞれについて予め定められた複数の第1の補正量を記憶する記憶手段から複数の前記第1の補正量を取得し、取得した複数の前記第1の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第2の補正量を算出し、算出した前記第2の補正量を前記帰属度計算ステップが計算した前記帰属度を重み付け係数として重み付け加算した第3の補正量を計算する補正量計算ステップと、
    前記補正量計算ステップが計算した前記第3の補正量に基づいて、前記特徴量抽出ステップが抽出した前記特徴量を補正する補正ステップと、
    を備えたことを特徴とする特徴量補正方法。
  11. 音声処理で用いる音声の特徴量を補正する特徴量補正プログラムであって、
    入力された音声の特徴量を抽出する特徴量抽出手順と、
    前記特徴量抽出手順が抽出した前記特徴量に基づいて、前記雑音環境のそれぞれについて、入力された音声が前記雑音環境で発生したことの確からしさを表す帰属度を計算する帰属度計算手順と、
    前記雑音環境のそれぞれについて予め定められた複数の第1の補正量を記憶する記憶手段から複数の前記第1の補正量を取得し、取得した複数の前記第1の補正量を重み付け加算することにより前記雑音環境のそれぞれについての前記特徴量の補正量である第2の補正量を算出し、算出した前記第2の補正量を前記帰属度計算手順が計算した前記帰属度を重み付け係数として重み付け加算した第3の補正量を計算する補正量計算手順と、
    前記補正量計算手順が計算した前記第3の補正量に基づいて、前記特徴量抽出手順が抽出した前記特徴量を補正する補正手順と、
    をコンピュータに実行させる特徴量補正プログラム。
JP2006105091A 2006-04-06 2006-04-06 特徴量補正装置、特徴量補正方法および特徴量補正プログラム Expired - Fee Related JP4245617B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006105091A JP4245617B2 (ja) 2006-04-06 2006-04-06 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US11/713,801 US20070276662A1 (en) 2006-04-06 2007-03-05 Feature-vector compensating apparatus, feature-vector compensating method, and computer product
CNA200710088572XA CN101051461A (zh) 2006-04-06 2007-03-16 特征向量补偿装置和特征向量补偿方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006105091A JP4245617B2 (ja) 2006-04-06 2006-04-06 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Publications (2)

Publication Number Publication Date
JP2007279349A JP2007279349A (ja) 2007-10-25
JP4245617B2 true JP4245617B2 (ja) 2009-03-25

Family

ID=38680870

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006105091A Expired - Fee Related JP4245617B2 (ja) 2006-04-06 2006-04-06 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Country Status (3)

Country Link
US (1) US20070276662A1 (ja)
JP (1) JP4245617B2 (ja)
CN (1) CN101051461A (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4843646B2 (ja) * 2008-06-16 2011-12-21 日本電信電話株式会社 音声認識装置とその方法と、プログラムと記録媒体
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
JP2010230913A (ja) * 2009-03-26 2010-10-14 Toshiba Corp 音声処理装置、音声処理方法、及び、音声処理プログラム
WO2011148860A1 (ja) * 2010-05-24 2011-12-01 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
WO2012063424A1 (ja) * 2010-11-08 2012-05-18 日本電気株式会社 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
JP5716595B2 (ja) 2011-01-28 2015-05-13 富士通株式会社 音声補正装置、音声補正方法及び音声補正プログラム
CN102426837B (zh) * 2011-12-30 2013-10-16 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
JP6082304B2 (ja) * 2012-04-17 2017-02-15 キヤノン株式会社 画像処理装置及びその処理方法
CN103971680B (zh) 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
JP2016038513A (ja) * 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
CN106033669B (zh) * 2015-03-18 2019-06-07 展讯通信(上海)有限公司 语音识别方法及装置
CN104952450B (zh) * 2015-05-15 2017-11-17 百度在线网络技术(北京)有限公司 远场识别的处理方法和装置
US10418030B2 (en) * 2016-05-20 2019-09-17 Mitsubishi Electric Corporation Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
JP6545419B2 (ja) * 2017-03-08 2019-07-17 三菱電機株式会社 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN109841227B (zh) * 2019-03-11 2020-10-02 南京邮电大学 一种基于学习补偿的背景噪声去除方法
CN112289325A (zh) * 2019-07-24 2021-01-29 华为技术有限公司 一种声纹识别方法及装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6188982B1 (en) * 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
JPH11296192A (ja) * 1998-04-10 1999-10-29 Pioneer Electron Corp 音声認識における音声特徴量の補正方法、音声認識方法、音声認識装置及び音声認識プログラムを記録した記録媒体
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7139703B2 (en) * 2002-04-05 2006-11-21 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7516071B2 (en) * 2003-06-30 2009-04-07 International Business Machines Corporation Method of modeling single-enrollment classes in verification and identification tasks
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
DE102004008225B4 (de) * 2004-02-19 2006-02-16 Infineon Technologies Ag Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
US7584097B2 (en) * 2005-08-03 2009-09-01 Texas Instruments Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Also Published As

Publication number Publication date
US20070276662A1 (en) 2007-11-29
JP2007279349A (ja) 2007-10-25
CN101051461A (zh) 2007-10-10

Similar Documents

Publication Publication Date Title
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN112447191B (zh) 信号处理装置以及信号处理方法
JP3457431B2 (ja) 信号識別方法
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP5242782B2 (ja) 音声認識方法
CN101460996B (zh) 增益控制系统和增益控制方法
US20170221479A1 (en) Noise compensation in speaker-adaptive systems
JP2006243290A (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP5713818B2 (ja) 雑音抑圧装置、方法及びプログラム
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5438704B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP2014029407A (ja) 雑音抑圧装置、方法、及びプログラム
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
JP2008292845A (ja) 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体
JP2006145694A (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP5694976B2 (ja) 分散補正パラメータ推定装置、音声認識システム、分散補正パラメータ推定方法、音声認識方法及びプログラム
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
JP4517163B2 (ja) 周波数特性等化装置
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081224

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090106

R151 Written notification of patent or utility model registration

Ref document number: 4245617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees