JP2008139747A - 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体 - Google Patents

音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体 Download PDF

Info

Publication number
JP2008139747A
JP2008139747A JP2006328029A JP2006328029A JP2008139747A JP 2008139747 A JP2008139747 A JP 2008139747A JP 2006328029 A JP2006328029 A JP 2006328029A JP 2006328029 A JP2006328029 A JP 2006328029A JP 2008139747 A JP2008139747 A JP 2008139747A
Authority
JP
Japan
Prior art keywords
conversion
acoustic model
model parameter
feature
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006328029A
Other languages
English (en)
Other versions
JP4856526B2 (ja
Inventor
Satoru Kobashigawa
哲 小橋川
Atsunori Ogawa
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006328029A priority Critical patent/JP4856526B2/ja
Publication of JP2008139747A publication Critical patent/JP2008139747A/ja
Application granted granted Critical
Publication of JP4856526B2 publication Critical patent/JP4856526B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】入力音声から抽出した特徴パラメータの特徴量の変換に伴う、言語重み、単語挿入ペナルティー、ビーム幅等の認識パラメータの最適化のための計算量を軽減する。
【解決手段】入力音声信号の特徴パラメータを抽出し、抽出した特徴パラメータを特徴量変換処理し、特徴量変換処理した変換特徴パラメータを音響モデルパラメータ、言語モデルパラメータ、認識パラメータと照合し、照合尤度が最も大きいモデルが表現する音声単位を認識結果として出力する音声認識に用いる音響モデルパラメータを、適応すべき入力音声の特徴パラメータに適応化処理する音響モデルパラメータ更新処理方法において、特徴パラメータの特徴量変換処理後に、特徴量の各次元にパラメータレンジ変換係数kを乗算し、特徴量変換前後での音響スコアのレンジ変動を抑える。
【選択図】図1

Description

この発明は音声認識に用いる既存の音響モデルパラメータを音声認識すべき音声に適応化する音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、このプログラムを記録した記録媒体に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Morkov Model, 以下ではHMMと記す。)を用いてモデル化する手法は、認識性能が高く、現在の音声認識技術の主流となっている。
図5に従来のHMMを用いた音声認識装置の構成例を示す。音声信号入力端子11から入力された音声入力信号は、A/D変換手段12においてディジタル信号に変換される。そのディジタル信号から特徴量抽出手段13において音声特徴量(例えば、ケプストラム、LPCケプストラム、MFCC(メル周波数ケプストラム)、パワーやその動的特徴量など)を抽出する。予め、ある音素などの音声単位毎に作成したHMMを音響パラメータメモリ14から読み出し、また言語的制約を与える文法や単語辞書などの言語モデルを言語モデルパラメータメモリ15から読み出し、さらに照合処理時のスコア計算や探索処理に用いる言語重み、単語挿入ペナルティ、ビーム幅等の認識パラメータを認識パラメータメモリ16から読み出し、モデル照合尤度計算手段17において、入力音声信号に対する各モデルの照合尤度を計算する。最も大きな照合尤度を示すモデルが表現する音声単位を認識結果として認識結果出力手段18により出力する。
ここで、従来の音響モデルのパラメータには、(MFCCなどの)入力特徴量の(十分)統計量を音響モデルに用いることが多いが、図5の破線のように特徴量変換手段19で、行列変換による写像処理や雑音除去のための正規化処理、高速化のための次元圧縮等を含む特徴量変換を行うこともある。尚、行列変換や次元圧縮は例えば、線形判別分析や主成分分析で求められた変換行列などを用いることが多い。また、正規化処理とは、例えば乗法性雑音(歪み)対策のケプストラム平均正規化処理などが用いられることが多い。
また、現在の連続音声認識時には、特許文献1のように、数式1で表される音響モデルとの照合尤度である音響スコア(音響的評価値):ASと、言語モデルとの照合尤度である言語スコア(言語的評価値):LSとを認識モデルパラメータメモリ16に用意した言語重みLwを用いて、重み付け和を認識スコア(総合的評価値):RSとして、認識スコアの高い物を認識結果とする音声認識処理が用いられてきた。
数式1
RS=AS+Lw・LS
更に、認識対象の評価データに対する認識性能の向上のために、この言語重みをLwの値を変化させて評価データに近い開発データに対して最高の音声認識性能を出す最適な値を求める最適化処理を行うことが多い。
その他、単語挿入ペナルティや探索処理のビーム幅も同様に認識パラメータメモリ16内において最適化処理を行って、高速で高い認識性能を得るための認識パラメータを調整しておく。
特徴量変換を行うと特徴量の値が変化し、音響スコアも変化するため、その都度、認識パラメータメモリ16に用意する認識パラメータの調整が必要となる。
特徴量変換部19における特徴量変換による音響モデル更新処理は、図6に示す通りである。特徴量を得るまでの処理は音声認識処理と同様である。特徴量変換部19の出力と、音響モデルパラメータメモリ14に用意した音響モデルパラメータを用いて、音響モデル学習手段46で音響モデルパラメータの十分統計量を算出し、得られた音響モデル(のパラメータ)を変換後音響モデルパラメータ31に格納する。変換後音響モデルパラメータメモリ31に格納した音響モデルは音響モデルパラメータメモリ14に移されその後、音声認識に供される。
特開昭8−248988号公報
さらに高い認識性能を得るために特徴量を判別しやすい特徴量に行列変換する写像処理や雑音等の環境の影響などを低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮などの特徴量変換が用いられることがある。写像処理や正規化処理、次元圧縮などの特徴量変換によって、音響スコアが変わってしまい、新たな特徴量を導入する都度に、言語重み、単語挿入ペナルティ、ビーム幅といった音声認識時の認識パラメータを最適値に更新する必要がある。この時、音響モデルパラメータのレンジが大きく変わる場合は、認識パラメータの最適化処理に時間がかかる不都合がある。
この発明では各特徴量次元の値に対して、パラメータレンジ変換係数kを乗算することで、特徴量変換前後のスコアが変動しないように調整することを特徴とする。
具体的には、この発明による音響モデルパラメータ更新処理方法は入力音声信号の特徴量を抽出し、抽出した特徴量を特徴量変換処理し、特徴量変換処理した変換特徴量を音響モデルパラメータ、言語モデルパラメータ、認識パラメータと照合し、照合尤度が最も大きいモデルが表現する音声単位を認識結果として出力する音声認識に用いる音響モデルパラメータを、適応すべき入力音声の特徴量に適応化処理する音響モデルパラメータ更新処理方法であって、抽出した特徴量の特徴量変換処理後に、特徴量の各次元にパラメータレンジ変換係数kを乗算し、特徴量変換前後での音響スコアのレンジ変動を抑えることを特徴とする。
この発明による音響モデルパラメータ更新処理方法は、更に、前記記載の音響モデルパラメータ更新処理方法において、前記特徴量変換処理前後の分散に基づくスコアが同等になるようにパラメータレンジ変換係数kを算出することを特徴とする。
この発明による音響モデルパラメータ更新方法は更に、前記記載の音響モデルパラメータ更新方法において、前記特徴量変換処理前の学習スコアを保持し、特徴量変換処理後の学習スコアが同一になるように、パラメータレンジ変換係数kを算出することを特徴とする。
この発明による音響モデルパラメータ更新処理方法は、更に既存の音響モデルパラメータを格納した音響モデルパラメータメモリを備え、入力音声信号の特徴量を抽出する特徴量抽出処理と、特徴量抽出処理で抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換処理を行う特徴量変換処理と、音響モデルパラメータメモリに格納された音響モデルパラメータに対し、前記特徴量変換処理と同等の特徴量変換処理を行うモデルパラメータ変換処理と、音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、モデルパラメータ変換処理で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算処理と、モデルパラメータ変換処理で特徴量変換した特徴量変換後音響モデルパラメータの各次元にパラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、特徴量変換処理で特徴量変換した変換特徴量とレンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習処理とを含むことを特徴とする。
この発明による音響モデルパラメータ更新処理方法は特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリを備え、入力音声信号の特徴量を抽出する特徴量抽出処理と、特徴量抽出処理で抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換処理と、特徴量変換処理で得られる特徴量変換された特徴量から音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習処理と、音響モデル学習処理で生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータ格納処理と、特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後学習スコアと音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後音響パラメータを前記パラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後の音響モデルパラメータを得るモデルパラメータレンジ変換処理とを含むことを特徴とする。
この発明による音響モデルパラメータ更新処理装置は、既存の音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに対し、特徴量変換手段と同等の特徴量変換を行うモデルパラメータ変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、モデルパラメータ変換手段で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数kを算出するレンジ計算手段と、モデルパラメータ変換手段が特徴量変換した特徴量変換後音響モデルパラメータの各次元に前記パラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換手段と、特徴量変換手段が特徴量変換した変換特徴量と前記レンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習手段とを備える構成としたことを特徴とする。
この発明による音響モデルパラメータ更新処理装置は更に、特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、特徴量変換手段で得られる特徴量変換された特徴量から音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習手段と、音響モデル学習手段が生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータメモリと、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後学習スコアと音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後音響パラメータをパラメータレンジ係数を用いてレンジ変換処理を行い、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、モデルパラメータレンジ変換手段で得られたレンジ変換後音響モデルパラメータを格納するレンジ変換後音響モデルパラメータメモリとを備える構成としたことを特徴とする。
この発明による音響モデルパラメータ更新処理プログラムは、コンピュータが解読可能なプログラム言語によって記述され、コンピュータに前記記載の音響モデルパラメータ更新処理装置として機能させるプログラムである。
この発明による記録媒体はコンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に前記記載の音響モデルパラメータ更新処理プログラムを記録したことを特徴とする。
特徴量の変更(変換)に伴う、言語重み、単語挿入ペナルティやビーム幅等の認識パラメータの最適化のための計算処理量が低減される。
さらに、音響スコアのレンジも安定するために、特徴量変換処理後に音響モデルパラメータを追加学習する際、高速化のためにスコアを量子化している場合などにおいて、スコアのオーバーフローを起こす可能性を低減できる。
この発明による音響モデルパラメータ更新処理装置を実施する場合、全てをハードウェアによって構成することも可能であるが、最も簡素に実現するにはコンピュータに、この発明による音響モデルパラメータ更新処理プログラムをインストールし、インストールしたプログラムをコンピュータに備えたCPUに解読させ、実行させることにより、コンピュータに音響モデルパラメータ更新処理装置として機能させ、この発明による音響モデルパラメータ更新処理方法を実行させる実施形態が最良の実施形態である。
コンピュータをこの発明による音響モデル適応化処理装置として機能させるには、コンピュータに既存の音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに対し、特徴量変換手段と同等の特徴量変換を行うモデルパラメータ変換手段と、音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、モデルパラメータ変換手段で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算手段と、モデルパラメータ変換手段が特徴量変換した特徴量変換後音響モデルパラメータの各次元にパラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換手段と、特徴量変換手段が特徴量変換した変換特徴量とレンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習手段とを構築し、音響モデルパラメータ更新処理装置として機能させる第1の実施形態と、
コンピュータに特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリと、入力音声信号の特徴量を抽出する特徴量抽出手段と、特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、特徴量変換手段で得られる特徴量変換された特徴量から音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習手段と、音響モデル学習手段が生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータメモリと、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後学習スコアと音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後音響パラメータをパラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、モデルパラメータレンジ変換手段で得られたレンジ変換後音響モデルパラメータを格納するレンジ変換後音響モデルパラメータメモリとを構築し、音響モデルパラメータ更新処理装置として機能させる第2の実施形態とが考えられる。
実施形態1では各分布の分散パラメータに着目し、特徴量変換前後の分散に基づくスコアが同じになるように、パラメータレンジ変換係数kを算出する。
実施形態2では変換前の学習スコアを保持しておき、特徴量変換前後の学習スコアが同一になるように、パラメータレンジ変換係数kを算出する。
図1に実施形態1に対応する、この発明による音響モデルパラメータ更新処理装置の実施例を示す。図1に示す実施例でも音声信号入力端子11から入力された音声入力信号は、A/D変換手段12においてディジタル信号に変換され、そのディジタル信号から特徴量抽出手段13において音声特徴量を抽出し、抽出した特徴量を特徴量変換手段19で、高い認識性能を得るために特徴量を判別しやすい特徴量に行列変換する写像処理や、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮などの特徴量変換を行うまでの構成及び動作は図5で説明した音声認識装置と同じである。
この発明では音声信号入力端子11に入力される音声信号の特徴量を用いて音響モデルパラメータメモリ14に格納されている既存の音響モデルパラメータを適応化し、更新処理することを目的とするものである。
音響モデルパラメータ14に格納されている音響スコアは、一般に音響モデルの分布パラメータ(平均、分散、重み)に基づく確率密度関数の出力である確率値を対数化したものが用いられる。
数式2に示すとおり、特徴量にパラメータレンジ変換係数kをかけると、各分布毎に-log(k)のスコアの値が変化する。
ここで、数式3に示すとおり、分散に基づくスコアに着目し、行列変換及び次元圧縮前後の分散ベースのスコアが同じになるように、パラメータレンジ変換係数kを計算しておく。
この実施例1では、音響モデルパラメータメモリ14に格納されている平均値、分散パラメータに対して、特徴量変換手段19と同じ特徴量変換モデルをモデルパラメータ変換手段44で施し、特徴量変換後音響モデルパラメータメモリ31に特徴量変換後のモデルパラメータを格納する。音響モデルパラメータメモリ14と特徴量変換後音響モデルパラメータメモリ31に格納されている分散パラメータからパラメータレンジ変換係数kをレンジ計算部41から得る(数式2、数式3参照)。モデルパラメータレンジ変換手段45において、特徴量変換後音響モデルパラメータメモリ31に格納されているモデルパラメータを、レンジ計算部41で得られたパラメータレンジ変換係数kでレンジ変換し、レンジ変換後音響モデルパラメータメモリ42に格納する。更に、レンジ変換後音響モデルパラメータメモリ42と、特徴量変換手段19で得られた特徴量から音響モデル学習手段46で音響モデルを学習し、学習により得られたレンジ変換後学習音響モデルパラメータを、更新処理された音響モデルパラメータとしてレンジ変換後学習モデルパラメータメモリ43に格納する。レンジ変換後学習音響モデルパラメータメモリ43に格納されたレンジ変換後学習音響モデルパラメータは音響モデルパラメータメモリ14に移され、その後、音声認識用の音響パラメータとして利用される。
Figure 2008139747
Figure 2008139747
図2に上記実施形態2に対応する実施例を示す。上述した実施例1では、分散のみに基づくスコアで、パラメータレンジ変換係数kを求めていたため、レンジ変換処理によって平均パラメータに基づくスコアの変動を無視する近似を含む。
これに対し、この実施例2では、特徴量変換前の特徴量における学習スコアTS_特徴量変換前、が保持されている場合は、特徴量変換後の特徴量での学習スコアTS_特徴量変換後、とレンジ変換に基づく分散に基づくスコア差ΔSの総和が、同じになるように数式3で示したようにパラメータレンジ係数kを求め、スコアレンジの変動を抑える。
この実施例2では、音響モデルパラメータメモリ14には、学習時の特徴量変換前スコアが格納されている。特徴量変換手段19で得られた特徴量から音響モデル学習手段46で音響モデルを学習し、特徴量変換後学習スコアとともに、特徴量変換後音響モデルパラメータメモリ31に格納する。音響モデルパラメータメモリ14中の特徴量変換前学習スコアと、特徴量変換後音響モデルパラメータメモリ31中の特徴量変換後学習スコアからレンジ計算手段41で、パラメータレンジ変換係数kを計算する。得られたパラメータレンジ変換係数kを用いて、音響モデルパラメータメモリ31に格納されているモデルパラメータをモデルパラメータレンジ変換手段45でレンジ変換処理を行い、レンジ変換後音響モデルパラメータメモリ42に格納する。
更に、繰り返し学習処理を行った場合にも、同様の処理を行い、レンジ変換を行うことで、学習スコアの安定化を図れる。実施例2は、特徴量変換処理による特徴量の変換以外にも、元の音響モデルと特徴量と、全く異なる特徴量の音響モデルでのスコアのレンジを合せる場合にも用いることができる。
Figure 2008139747
図3に変形実施例を示す。この実施例では特徴量変換を写像行列Pを用いて行われる場合を示す。この場合はパラメータレンジ変換係数kを、特徴量写像行列Pにかけたものを、新たな写像行列P'(=kP)とすれば良い。すなわち、特徴量変換手段19とレンジ変換手段21の処理をまとめて、拡張特徴量変換手段22の処理で行うことになる。
モデルパラメータ変換係数kは、レンジ変換後音響モデルパラメータ42に格納しておけばよい。
図4に本発明によって構築した音響モデルを用いて音声認識を行なう音声認識装置の構成を示す。本発明で構築した音響モデルは図1に示した実施例で構築したレンジ変換後学習音響モデルパラメータメモリ43と、図2に示した実施例で構築したレンジ変換後音響モデルパラメータメモリ42に格納された音響モデルである。音声認識時には、これらの音響モデルの何れか一方を用いてレンジ変換係数kを読み出し、レンジ変換係数kを特徴量レンジ変換手段71で入力音声信号から抽出した特徴量に乗算し、特徴量レンジ変換を行なった後、モデル照合尤度計算手段17で照合尤度の計算を実行し、音声認識を行なう。
上述した本発明による音響モデルパラメータ更新処理装置は全てをハードウェアによって構成することもできるが、最も簡素に実現するにはコンピュータに本発明による音響モデルパラメータ更新処理プログラムをインストールし、コンピュータに音響モデルパラメータ更新処理装置として機能させる実施形態が最良である。
本発明による音響モデルパラメータ更新処理プログラムは、コンピュータが解読可能なプログラム言語によって記述される。このプログラムはコンピュータが読み取り可能な例えば磁気ディスク、CD−ROM、半導体メモリ等の記録媒体に記録される。コンピュータにはこれらの記録媒体或は通信回線を通じてインストールされ、コンピュータに備えられたCPUによって解読され上述した音響モデルパラメータ更新処理装置として機能する。
音声認識装置の利用分野で活用される。
この発明の実施例1を説明するためのブロック図。 この発明の実施例2を説明するためのブロック図。 この発明の実施例3を説明するためのブロック図。 この発明によりパラメータ更新処理した音響モデルを用いて音声認識を行う音声認識装置の構成を説明するためのブロック図。 一般的な音声認識装置を説明するためのブロック図。 従来の音響モデルパラメータ更新方法、装置を説明するためのブロック図。
符号の説明
11 音声信号入力端子
12 A/D変換手段
13 特徴量抽出手段
14 音響モデルパラメータメモリ
15 言語モデルパラメータメモリ
16 認識パラメータメモリ
17 モデル照合尤度計算手段
18 認識結果出力手段
19 特徴量変換手段
21 レンジ変換手段
22 拡張特徴量変換手段変換手段
31 変換後音響モデルパラメータメモリ
41 レンジ計算手段
42 レンジ変換後音響モデルパラメータメモリ
43 レンジ変換後学習音響モデルパラメータメモリ
44 モデルパラメータ変換手段
45 モデルパラメータレンジ
46 音響モデル学習手段

Claims (9)

  1. 入力音声信号の特徴量を抽出し、抽出した特徴量を特徴量変換処理し、特徴量変換処理した変換特徴量を音響モデルパラメータ、言語モデルパラメータ、認識パラメータと照合し、照合尤度が最も大きいモデルが表現する音声単位を認識結果として出力する音声認識に用いる音響モデルパラメータを、適応すべき入力音声の特徴量に適応化処理する音響モデルパラメータ更新処理方法であって、
    抽出した特徴量の特徴量変換処理後に、特徴量の各次元にパラメータレンジ変換係数を乗算し、特徴量変換前後での音響スコアのレンジ変動を抑えることを特徴とする音響モデルパラメータ更新方法。
  2. 請求項1記載の音響モデルパラメータ更新方法において、前記特徴量変換処理前後の分散に基づくスコアが同等になるようにパラメータレンジ変換係数を算出することを特徴とする音響モデルパラメータ更新方法。
  3. 請求項1記載の音響モデルパラメータ更新方法において、前記特徴量変換または特徴量変更処理前の学習スコアを保持し、特徴量変換または特徴量変更処理後の学習スコアが同一になるように、パラメータレンジ変換係数を算出することを特徴とする音響モデルパラメータ更新方法。
  4. 既存の音響モデルパラメータを格納した音響モデルパラメータメモリを備え、
    入力音声信号の特徴量を抽出する特徴量抽出処理と、
    前記特徴量抽出処理で抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換処理を行う特徴量変換処理と、
    前記音響モデルパラメータメモリに格納された音響モデルパラメータに対し、前記特徴量変換処理と同等の特徴量変換処理を行うモデルパラメータ変換処理と、
    音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、前記モデルパラメータ変換処理で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算処理と、
    前記モデルパラメータ変換処理で特徴量変換した特徴量変換後音響モデルパラメータの各次元に前記パラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、
    前記特徴量変換処理で特徴量変換した変換特徴量と前記レンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習処理と、
    を含むことを特徴とする音響モデルパラメータ更新処理方法。
  5. 特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリを備え、
    入力音声信号の特徴量を抽出する特徴量抽出処理と、
    前記特徴量抽出処理で抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換処理と、
    前記特徴量変換処理で得られる特徴量変換された特徴量から前記音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習処理と、
    前記音響モデル学習処理で生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータ格納処理と、
    前記特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後学習スコアと前記音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、
    前記特徴量変換後音響モデルパラメータ格納処理で格納した特徴量変換後音響パラメータを前記パラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後の音響モデルパラメータを得るモデルパラメータレンジ変換処理と、
    を含むことを特徴とする音響モデルパラメータ更新処理方法。
  6. 既存の音響モデルパラメータを格納した音響モデルパラメータメモリと、
    入力音声信号の特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、
    前記音響モデルパラメータメモリに格納された音響モデルパラメータに対し、前記特徴量変換手段と同等の特徴量変換を行うモデルパラメータ変換手段と、
    音響モデルパラメータメモリに格納された音響モデルパラメータに所属する分散パラメータと、前記モデルパラメータ変換手段で特徴量変換したモデルパラメータに所属する分散パラメータから、パラメータレンジ変換係数を算出するレンジ計算手段と、
    前記モデルパラメータ変換手段が特徴量変換した特徴量変換後音響モデルパラメータの各次元に前記パラメータレンジ変換係数を乗算し、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換手段と、
    前記特徴量変換手段が特徴量変換した変換特徴量と前記レンジ変換後音響モデルパラメータにより更新された音響モデルパラメータを得る音響モデル学習手段と、
    を備える構成としたことを特徴とする音響モデルパラメータ更新処理装置。
  7. 特徴量変換前学習スコアを備えた音響モデルパラメータを格納した音響モデルパラメータメモリと、
    入力音声信号の特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段が抽出した特徴量を判別しやすい特徴量に行列変換する写像処理、雑音等の環境の影響を低減する雑音除去のための正規化処理、高速化のために特徴量の次元数を削減する次元圧縮処理を含む特徴量変換を行う特徴量変換手段と、
    前記特徴量変換手段で得られる特徴量変換された特徴量から前記音響パラメータメモリに格納した音響パラメータの音響モデルを学習し、特徴量変換後学習スコアと共に特徴量変換後音響モデルパラメータを生成する音響モデル学習手段と、
    前記音響モデル学習手段が生成した特徴量変換後音響モデルと特徴量変換後学習スコアを格納する特徴量変換後音響モデルパラメータメモリと、
    前記特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後学習スコアと前記音響モデルパラメータメモリに格納された特徴量変換前学習スコアとからパラメータレンジ変換係数を計算するレンジ計算処理と、
    前記特徴量変換後音響モデルパラメータメモリに格納された特徴量変換後音響パラメータを前記パラメータレンジ変換係数を用いてレンジ変換処理を行い、レンジ変換後音響モデルパラメータを得るモデルパラメータレンジ変換処理と、
    前記モデルパラメータレンジ変換手段で得られたレンジ変換後音響モデルパラメータを格納するレンジ変換後音響モデルパラメータメモリと、
    を備える構成としたことを特徴とする音響モデルパラメータ更新処理装置。
  8. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに前記請求項6又は7の何れかに記載の音響モデルパラメータ更新処理装置として機能させる音響モデルパラメータ更新処理プログラム。
  9. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に請求項8記載の音響モデルパラメータ更新処理プログラムを記録した記録媒体。
JP2006328029A 2006-12-05 2006-12-05 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体 Expired - Fee Related JP4856526B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006328029A JP4856526B2 (ja) 2006-12-05 2006-12-05 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006328029A JP4856526B2 (ja) 2006-12-05 2006-12-05 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2008139747A true JP2008139747A (ja) 2008-06-19
JP4856526B2 JP4856526B2 (ja) 2012-01-18

Family

ID=39601259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006328029A Expired - Fee Related JP4856526B2 (ja) 2006-12-05 2006-12-05 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP4856526B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164192A (ja) * 2010-02-05 2011-08-25 Kddi Corp 音声認識装置
JPWO2020246033A1 (ja) * 2019-06-07 2020-12-10

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219577A (ja) * 1994-01-27 1995-08-18 Oki Electric Ind Co Ltd 音韻セグメンテーション方法
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JP2001255886A (ja) * 2000-03-09 2001-09-21 Matsushita Electric Ind Co Ltd 音声認識方法および音声認識装置
JP2002182683A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219577A (ja) * 1994-01-27 1995-08-18 Oki Electric Ind Co Ltd 音韻セグメンテーション方法
JPH08106295A (ja) * 1994-10-05 1996-04-23 Atr Onsei Honyaku Tsushin Kenkyusho:Kk パターン認識方法及び装置
JP2001255886A (ja) * 2000-03-09 2001-09-21 Matsushita Electric Ind Co Ltd 音声認識方法および音声認識装置
JP2002182683A (ja) * 2000-12-15 2002-06-26 Sharp Corp 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164192A (ja) * 2010-02-05 2011-08-25 Kddi Corp 音声認識装置
JPWO2020246033A1 (ja) * 2019-06-07 2020-12-10
WO2020246033A1 (ja) * 2019-06-07 2020-12-10 日本電信電話株式会社 学習装置、音声認識装置、それらの方法、およびプログラム
JP7173327B2 (ja) 2019-06-07 2022-11-16 日本電信電話株式会社 学習装置、音声認識装置、それらの方法、およびプログラム

Also Published As

Publication number Publication date
JP4856526B2 (ja) 2012-01-18

Similar Documents

Publication Publication Date Title
Li et al. An overview of noise-robust automatic speech recognition
EP2700071B1 (en) Speech recognition using multiple language models
US8515758B2 (en) Speech recognition including removal of irrelevant information
US8762142B2 (en) Multi-stage speech recognition apparatus and method
CN112435654B (zh) 通过帧插入对语音数据进行数据增强
JP5242782B2 (ja) 音声認識方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
Cucu et al. Recent improvements of the SpeeD Romanian LVCSR system
EP2867890B1 (en) Meta-data inputs to front end processing for automatic speech recognition
JP5670298B2 (ja) 雑音抑圧装置、方法及びプログラム
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
Liao et al. Joint uncertainty decoding for robust large vocabulary speech recognition
JP2011107314A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
JP4856526B2 (ja) 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP4577543B2 (ja) モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees