JP2015121760A

JP2015121760A - 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム

Info

Publication number: JP2015121760A
Application number: JP2014023070A
Authority: JP
Inventors: 孝典芦原; Takanori Ashihara; 太一浅見; Taichi Asami; 裕司青野; Yuji Aono; 阪内　澄宇; Sumitaka Sakauchi; 澄宇阪内
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-11-25
Filing date: 2014-02-10
Publication date: 2015-07-02
Anticipated expiration: 2034-02-10
Also published as: JP6114210B2

Abstract

【課題】音声認識精度を向上する。
【解決手段】特徴量変換行列記憶部１６には、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列が記憶されている。特徴量分析部１４は、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する。特徴量変換行列選択部２０は、特徴量変換行列から入力音響特徴量に対して適切な特徴量変換行列を音響変動要因それぞれに関して選択する。特徴量変換部２１は、入力音響特徴量に対して選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する。認識処理部２２は、変換済み音響特徴量を音声認識した認識結果を出力する。
【選択図】図３

Description

この発明は、音声認識技術に関し、特に、音響変動要因を考慮して音響特徴量を変換する技術に関する。

特許文献１には、実用レベルの音声認識性能を担保するために、利用シーンによって変化する音響変動要因に音響モデルを特化させる技術が開示されている。ここでは、音響変動要因として、主に話者要因や収録環境要因、発話スタイル要因などを考えている。一般的に一つのサービスの中で音響変動要因の変分が少ない場合（例えば、コールセンタのオペレータ等）であれば、そのサービスに特化させた単一の音響モデルで実用レベルの認識性能を達成できる。しかし、一つのサービスの中で音響変動要因の変分が大きい場合（例えば、モバイル音声検索等）には、そのサービスにおける各利用シーンに特化した音響モデルを生成しなければ適切な認識結果は得られない。ところが、各利用シーンに特化した音響モデルを生成するためには各利用シーンにおいて収録した音声データとその書き起こしとからなる学習データが必要となる。一般的に学習データの準備には莫大な金銭的、時間的コストを要する。さらに、各利用シーンに特化した音響モデルが増えていくにつれて、必要となる記憶媒体の容量も莫大なものとなる。また、仮に各利用シーンに特化した音響モデルをすべて生成できたとしても、それらの音響モデルを利用するためには、音響変動要因が変化する度に音響モデルを入れ替える必要がある。その結果、音響モデルの再読み込みにかかる時間が必要となり、認識時間が大幅に増加する。

非特許文献１では、上述した課題を解決するために、音響変動要因のうち話者要因及び収録環境要因を分離して考え、単一の音響モデルに対して認識させる音響特徴量の尤度を向上させるような特徴量変換行列をそれぞれ生成している。話者要因とは、発話者の生得的な部分であり、例えば声質などである。収録環境要因とは、例えば収録環境に存在する雑音や残響などである。非特許文献１に記載の技術は、入力された音響特徴量を話者要因及び収録環境要因の特徴量変換行列を用いて二段変換することで、認識時間はほぼそのままに、話者要因及び収録環境要因の二要因の変化に頑健な音声認識を実現している。また、特徴量変換行列は音響モデルよりサイズが軽量であるため、必要となる記憶媒体の容量は減少する。さらに、収録環境要因の特徴量変換行列は、話者要因の特徴量変換行列と分離されているため、発話者間で共有することが可能である。これにより、必要となる記憶媒体の容量はさらに減少する。

特開２００７−２４９０５１号公報

Michael L. Seltzer, Alex Acero, "Separating Speaker and Environmental Variability Using Factored Transforms", INTERSPEECH 2011, pp. 1097-1100.

しかしながら、仮に同一話者、かつ、同一テキストの発話であっても、例えば喋り口調や読み上げ口調などの発話スタイルが異なる場合、単一の音響モデルによる認識率は大きく変化する事が知られている。したがって、上述した非特許文献１では考慮されていなかった音響変動要因である発話スタイル要因も話者要因及び収録環境要因から分離して特徴量変換行列として生成することで認識率のさらなる向上が見込める。

この発明の目的は、話者要因及び収録環境要因に加えて発話スタイル要因も分離して考慮することにより、音声認識精度を向上することである。

上記の課題を解決するために、この発明の一態様による音声認識装置は、特徴量変換行列記憶部、特徴量分析部、特徴量変換行列選択部、特徴量変換部及び認識処理部を含む。特徴量変換行列記憶部は、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列を記憶する。特徴量分析部は、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する。特徴量変換行列選択部は、特徴量変換行列から入力音響特徴量に対して適切な特徴量変換行列を音響変動要因それぞれに関して選択する。特徴量変換部は、入力音響特徴量に対して選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する。認識処理部は、変換済み音響特徴量を音声認識した認識結果を出力する。

この発明の他の態様による特徴量変換行列生成装置は、ラベル付与部、特徴量分析部及び特徴量変換行列生成部を含む。ラベル付与部は、入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成する。特徴量分析部は、ラベル付き音声信号から音響特徴量を抽出しラベル付き音響特徴量を生成する。特徴量変換行列生成部は、ラベル付き音響特徴量から音響変動要因に関する特徴量変換行列をそれぞれ生成する。

この発明の音声認識技術によれば、話者要因及び収録環境要因に加えて発話スタイル要因も分離して考慮することにより、音声認識精度を向上することができる。

図１は、第一実施形態に係る特徴量変換行列生成装置の機能構成を例示する図である。図２は、第一実施形態に係る特徴量変換行列生成方法の処理フローを例示する図である。図３は、音声認識装置の機能構成を例示する図である。図４は、音声認識方法の処理フローを例示する図である。図５は、第三実施形態に係る特徴量変換行列生成装置の機能構成を例示する図である。図６は、第三実施形態に係る特徴量変換行列生成方法の処理フローを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［発明のポイント］
実施形態の説明に先立って、この発明のポイントについて説明する。

この発明では、音響変動要因である話者要因、収録環境要因及び発話スタイル要因が利用シーン毎に大きく変動する状況を想定する。そのために、非特許文献１で示される話者要因及び収録環境要因に応じた特徴量変換行列だけでなく、さらに発話スタイル要因に応じた特徴量変換行列も生成する。

［第一実施形態］
この発明の第一実施形態は、音響変動要因である話者要因、収録環境要因及び発話スタイル要因に関する特徴量変換行列を学習する特徴量変換行列生成装置である。

図１を参照して、第一実施形態に係る特徴量変換行列生成装置１の機能構成の一例を説明する。特徴量変換行列生成装置１は、入力端子１０、音声信号取得部１１、音声信号記憶部１２、ラベル付与部１３、特徴量分析部１４、特徴量変換行列生成部１５及び特徴量変換行列記憶部１６を含む。特徴量変換行列生成装置１は、例えば、中央演算処理装置（Central Processing Unit、CPU）、主記憶装置（Random Access Memory、RAM）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。特徴量変換行列生成装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。特徴量変換行列生成装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。特徴量変換行列生成装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。特徴量変換行列生成装置１が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

図２を参照しながら、第一実施形態に係る特徴量変換行列生成装置１が実行する特徴量変換行列生成方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップＳ１１において、音声信号取得部１１は、入力端子１０より入力されるアナログの音声信号を音声ディジタル信号に変換する。音声信号は既存のいかなる手段により取得してもよく、例えば、入力端子１０に接続したマイクロホンにより取得して入力してもよいし、ICレコーダ等の録音機器を用いてあらかじめ収録した音声信号を入力端子１０に接続して入力してもよい。音声信号取得部１１により変換された音声ディジタル信号は音声信号記憶部１２に記憶される。

ステップＳ１３において、ラベル付与部１３は、音声信号記憶部１２に記憶された音声ディジタル信号に対して、音響変動要因である話者、収録環境及び発話スタイルのラベルを付与する。以降の説明では、ラベル付与部１３によりラベルを付与された音声ディジタル信号はラベル付き音声信号と呼ぶ。ラベル付き音声信号は音声信号記憶部１２に記憶される。

ラベルの付与方法は、例えば、(1)あらかじめ音声を収録する際の利用シーンをユーザが指定する方法、(2)ログイン認証や使用アプリケーション等による自動獲得、(3)クラスタリングによる自動分類による自動獲得が挙げられる。

(1)あらかじめ音声を収録する際の利用シーンをユーザが指定する方法は、音声を収録する際に、話者であれば「誰が発話するか（例えば、Ａさん、Ｂさん等）」、収録環境であれば「どこで発話するか（例えば、車内、街中、会議室等）」、発話スタイルであれば「どのように発話するか（例えば、読み上げスタイル、自由発話スタイル等）」をユーザ側で指定することで、対象となる音声にラベルを付与する。また、発話スタイルに関して、明確な発話スタイルを指定できない場合も考えられる。その場合は、例えば会議録作成アプリケーションなどを利用して、その役割（例えば、プレゼンター、非プレゼンター等）を指定することでラベルを付与することができる。

(2)ログイン認証や使用アプリケーション等による自動獲得の方法は、音声を収録する前にログイン認証により話者を特定することで、その話者のラベルを付与する。また発話スタイルは、使用するアプリケーションに依存すると考え、ユーザが利用するアプリケーション（例えば、音声検索アプリケーション、会議録作成アプリケーション等）に対応するラベルを付与する。

(3)クラスタリングによる自動分類による自動獲得の方法は、話者、収録環境及び発話スタイルをそれぞれクラスタリングし、クラスタのインデックスをラベルとして付与する。例えば、話者1、2、3…や収録環境1、2、3…や発話スタイル1、2、3…といったラベルが付与されることになる。クラスタリングの方法としては、例えばK-means法が利用できる。

(1)〜(3)の方法は組み合わせて構成することもできる。例えば、話者はログイン認証で自動獲得し、収録環境はユーザによる指定とし、発話スタイルはクラスタリングによるラベル付与としてもよい。

ステップＳ１４において、特徴量分析部１４は、音声信号記憶部１２に記憶されたラベル付き音声信号から音響特徴量を抽出する。以降の説明では、特徴量分析部１４により抽出された音響特徴量はラベル付き音響特徴量と呼ぶ。ラベル付き音響特徴量は音声信号記憶部１２に記憶される。

抽出する音響特徴量としては、例えば、メル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficient、MFCC）の1〜12次元と、その変化量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワーと、その変化量であるΔパワー及びΔΔパワーなどを用いる。ここで、ケプストラム平均正規化（Cepstral Mean Normalization、CMN）処理を行ってもよい。音響特徴量は、MFCCやパワーに限定したものでは無く、音声認識に用いられるパラメータや発話区間情報を用いることができる。

ステップＳ１５において、特徴量変換行列生成部１５は、ラベル付き音響特徴量から話者要因に関する特徴量変換行列、収録環境要因に関する特徴量変換行列及び発話スタイル要因に関する特徴量変換行列をそれぞれ生成する。話者要因に関する特徴量変換行列は、各話者に特化した特徴量変換行列の集合である。収録環境に関する特徴量変換行列は、各収録環境に特化した特徴量変換行列の集合である。発話スタイルに関する特徴量変換行列は、各発話スタイルに特化した特徴量変換行列の集合である。特徴量変換行列生成部１５により生成された特徴量変換行列は、特徴量変換行列記憶部１６に記憶される。

特徴量変換行列の生成は、特徴空間最尤線形回帰（feature-space Maximum Likelihood Linear Regression、fMLLR）により行う。fMLLRとは、学習データの音響特徴量（MFCC等）とラベルテキストとを用いて、認識する際の音響モデルの尤度を高める特徴量変換行列を最尤推定（Maximum Likelihood、ML）により生成する手法である。fMLLRについての詳細は、「M.J.F. Gales, “ Maximum Likelihood Linear Transformations for HMM-Based Speech Recognition”, Computer Speech and Language, 1998, vol. 12, pp. 75-98.（参考文献１）」に記載されている。

特徴量変換行列を生成する方法を具体的に説明する。例えば、ある話者（例えば、Ａさん）に特化した特徴量変換行列を生成するのであれば、まず、話者Ａさんが様々な収録環境において様々な発話スタイルにより発話した音声ディジタル信号から抽出した音響特徴量を、付与されたラベルを参照して選択する。具体的には、話者のラベルとしてＡさんのラベルが付いた音響特徴量群を選択する。収録環境のラベル及び発話スタイルのラベルは、様々なラベルのものが満遍なく含まれるようにする。例えば、車、電車、雑踏などのラベルをもつ様々な収録環境の音響特徴量群が含まれ、かつ、フォーマル、雑談、プレゼンなどのラベルをもつ様々な口調で発話した発話スタイルの音響特徴量群が含まれるようにする。そして、選択された音響特徴量群を用いて、話者Ａさんに関する特徴量変換行列をfMLLR（feature-space MLLR）により生成する。入力として選択された音響特徴量群とそれに対応する書き起こしテキスト及びベースとなる音響モデルを用いて、fMLLRにより、ベースとなる音響モデルに適した音響特徴量を生成する特徴量変換行列を生成する。こうすることで、収録環境要因及び発話スタイル要因については平均化され、話者Ａさんに特化した特徴量変換行列が生成される。収録環境要因、発話スタイル要因についても同様にして特徴量変換行列を生成する。ある収録環境に特化した特徴量変換行列は、同一の収録環境において様々な話者が様々な発話スタイルにより発話した音響特徴量を抽出して、対象とする収録環境に特化した特徴量変換行列を生成すればよい。また、ある発話スタイルに特化した特徴量変換行列は、同一発話スタイルにより様々な話者が様々な収録環境において発話した音響特徴量を抽出して、対象となる発話スタイルに特化した特徴量変換行列を生成すればよい。

このように、第一実施形態の特徴量変換行列生成装置は、話者要因及び収録環境要因に関する特徴量変換行列と分離して、発話スタイル要因に関する特徴量変換行列を生成する。このようにして生成した特徴量変換行列を用いて音声認識を行うことで、発話スタイルが異なる音声が混在している場合であっても認識率が大きく低下することがない。その結果、全体として音声認識精度が向上する。

［第二実施形態］
この発明の第二実施形態は、第一実施形態に係る特徴量変換行列生成装置により生成された特徴量変換行列を利用して音声認識を行う音声認識装置である。

図３を参照して、第二実施形態に係る音声認識装置２の機能構成の一例を説明する。音声認識装置２は、特徴量変換行列生成装置１と同様に入力端子１０、音声信号取得部１１、特徴量分析部１４及び特徴量変換行列記憶部１６を含み、さらに特徴量変換行列選択部２０、特徴量変換部２１、認識処理部２２及びモデル記憶部２３を含む。音声認識装置２は、例えば、中央演算処理装置（Central Processing Unit、CPU）、主記憶装置（Random Access Memory、RAM）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音声認識装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声認識装置２が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

特徴量変換行列記憶部１６には、第一実施形態に係る特徴量変換行列生成装置１により生成された特徴量変換行列があらかじめ記憶されている。

モデル記憶部２３には、音声認識処理に利用する音響モデル及び言語モデルが記憶されている。音響モデル及び言語モデルは認識処理部２２が利用する音声認識方式に適合するものであればどのようなものでもよい。

図４を参照しながら、第二実施形態に係る音声認識装置２が実行する音声認識方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。

ステップＳ１１において、音声信号取得部１１は、入力端子１０より入力されるアナログの音声信号を音声ディジタル信号に変換する。音声信号の変換方法は第一実施形態と同様である。音声信号取得部１１により変換された音声ディジタル信号は特徴量分析部１４に入力される。

ステップＳ１４において、特徴量分析部１４は、入力された音声ディジタル信号から音響特徴量を抽出する。音響特徴量の抽出方法は第一実施形態と同様である。抽出した音響特徴量は特徴量変換行列選択部２０に入力される。

ステップＳ２０において、特徴量変換行列選択部２０は、特徴量変換行列記憶部１６に記憶されている特徴量変換行列から、入力された音響特徴量に対して適切な特徴量変換行列を選択する。特徴量変換行列の選択は、話者、収録環境及び発話スタイルそれぞれに関して適切な特徴量変換行列を選択する。したがって、特徴量変換行列選択部２０が選択する特徴量変換行列は、話者に関する特徴量変換行列、収録環境に関する特徴量変換行列、発話スタイルに関する特徴量変換行列を組にしたものとなる。選択された特徴量変換行列は、入力された音響特徴量と共に特徴量変換部２１へ入力される。

特徴量変換行列を選択する基準は、特徴量変換行列を生成する過程で入力された音声ディジタル信号へラベルを付与する際に採用した基準に依存する。

ある音響変動要因に対して、(1)あらかじめ音声を収録する際の利用シーンをユーザが指定する方法でラベルを付与した場合には、ユーザが指定した話者、収録環境または発話スタイルに合致する特徴量変換行列を選択する。具体的には、話者に合致する特徴量変換行列を選択する場合には、入力された音響特徴量の話者のラベルをもつ特徴量変換行列を選択する。収録環境が合致する特徴量変換行列を選択する場合には、入力された音響特徴量の収録環境と同じラベルをもつ特徴量変換行列を選択する。発話スタイルに合致する特徴量変換行列を選択する場合には、入力された音響特徴量の発話スタイルと同じラベルをもつ特徴量変換行列を選択する。このように特徴量変換行列を選択することで、三つの特徴量変換行列の組が選択される。ここでは、三つの特徴量変換行列の組を選択する例を説明したが、少なくとも発話スタイルを含む二つ以上の特徴量変換行列の組が選択されればよい。

(2)ログイン認証や使用アプリケーション等による自動獲得によりラベルを付与した場合には、ログイン認証により特定した話者や使用するアプリケーションにより特定される発話スタイルなどに合致する特徴量変換行列を選択する。

(3)クラスタリングによる自動分類による自動獲得によりラベルを付与した場合には、入力された音響特徴量と特徴量変換行列との距離を用いることで適切な特徴量変換行列を選択する。例えば、学習データの音響特徴量の平均値と入力された音響特徴量との距離を算出して、最も近かった特徴量変換行列を選択する方法を取ることができる。

ステップＳ２１において、特徴量変換部２１は、特徴量分析部１４で生成した音響特徴量に対して選択済み特徴量変換行列を多段的に適用することで変換済み特徴量を得る。すなわち、選択済み特徴量変換行列に含まれる話者に関する特徴量変換行列、収録環境に関する特徴量変換行列及び発話スタイルに関する特徴量変換行列を、入力された音響特徴量に対して順番に適用する。このとき、特徴量変換行列を適用する順番は限定されない。変換済み音響特徴量は、認識処理部２２へ入力される。

音響特徴量の変換は具体的には以下のように行う。特徴量変換行列選択部２０において、話者、収録環境及び発話スタイルに関する三つの特徴量変換行列の組を選択した場合には、xを特徴量分析部１４の出力である音響特徴量とし、次式により変換済み音響特徴量yを計算する。

ここで、A_st,b_stは発話スタイルに関する特徴量変換行列であり、A_s,b_sは収録環境に関する特徴量変換行列であり、A_sp,b_spは話者に関する特徴量変換行列である。なお、変換する順序は式(1)の順序に限定されない。

特徴量変換行列選択部２０において、発話スタイル及び話者に関する二つの特徴量変換行列の組を選択した場合には、次式により変換済み音響特徴量yを計算すればよい。

発話スタイル及び収録環境に関する二つの特徴量変換行列の組を選択した場合も同様にして変換済み音響特徴量yを計算することができる。

ステップＳ２２において、認識処理部２２は、モデル記憶部２３に記憶されている音響モデル及び言語モデルを用いて、入力された変換済み音響特徴量に対して音声認識処理を行い、認識結果を出力する。音声認識処理は、特徴量分析部１４が生成する音響特徴量を利用することができる既存の音声認識技術であれば任意に適用することができる。

このように、第二実施形態の音声認識装置は、第一実施形態の特徴量変換行列生成装置により生成された特徴量変換行列を用いて音声認識を行う。この特徴量変換行列は、話者要因及び収録環境要因に関する特徴量変換行列と分離して、発話スタイル要因に関する特徴量変換行列をも生成したものである。これにより、発話スタイルが異なる音声が混在している場合であっても認識率が大きく低下することがない。その結果、全体として音声認識精度が向上する。

［第三実施形態］
第一実施形態の特徴量変換行列生成装置は、例えば、話者要因に関する特徴量変換行列を生成する際は収録環境要因及び発話スタイル要因を万遍なく包含するような学習データを選択して実施する。こうすることで、収録環境要因及び発話スタイル要因は相殺され、話者要因に特化した特徴量変換行列を生成する事が可能になっている。

しかし、第一実施形態の特徴量変換行列生成装置で生成された特徴量変換行列はそれぞれ直交しておらず、場合によっては同じ要素が包含されている可能性がある。例えば、話者要因及び発話スタイル要因の特徴量変換行列を学習させる際には、全く同じ量の収録環境要因が学習データに含まれるため、収録環境要因を全混合したような成分が、話者要因の特徴量変換行列及び発話スタイル要因の特徴量変換行列両方に包含されうる。この場合、音声認識する際は特徴量変換行列を多段的に用いて入力特徴量を変換するため、同じ要素が包含された特徴量変換行列による多段変換が実行されてしまう。結果として、同じ変換処理が二回実施されたような動作になってしまい、それぞれの音響変動要因を純粋に正規化したような動作ではなくなる。そこで、第三実施形態の特徴量変換行列生成装置では、特徴量変換行列生成部の処理を変更し、事前に学習データから音響変動要因を除去した上で特徴量変換行列を学習するものとする。

図５を参照して、第三実施形態に係る特徴量変換行列生成装置３の機能構成の一例を説明する。特徴量変換行列生成装置３は、第一実施形態と同様に、入力端子１０、音声信号取得部１１、音声信号記憶部１２、ラベル付与部１３、特徴量分析部１４及び特徴量変換行列記憶部１６を含み、さらに、特徴量変換行列生成部３５を含む。

図６を参照しながら、第三実施形態に係る特徴量変換行列生成装置３が実行する特徴量変換行列生成方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップＳ１１からステップＳ１４の処理は、第一実施形態と同様であるので、ここでは説明を省略する。

ステップＳ３５において、特徴量変換行列生成部３５は、ラベル付き音響特徴量から話者要因に関する特徴量変換行列、収録環境要因に関する特徴量変換行列及び発話スタイル要因に関する特徴量変換行列をそれぞれ生成する。特徴量変換行列の生成は、第一実施形態と同様に、特徴空間最尤線形回帰（feature-space Maximum Likelihood Linear Regression、fMLLR）により行う。fMLLRについての詳細は、上記の参考文献１を参照されたい。特徴量変換行列生成部３５により生成された特徴量変換行列は、特徴量変換行列記憶部１６に記憶される。

第三実施形態に係る特徴量変換行列を生成する方法を具体的に説明する。第一実施形態との相違点は、入力されたラベル付き音響特徴量からいずれか一つの音響変動要因を除去してから他の特徴量変換行列を生成することである。まず、三つの音響変動要因のうち、いずれか一つの音響変動要因に関する特徴量変換行列を生成する。各音響変動要因に関する特徴量変換行列を生成する方法は、第一実施形態と同様である。次に、生成した特徴量変換行列を用いてラベル付き音響特徴量を正規化した上で、残りの二つの音響変動要因に関する特徴量変換行列を生成する。例えば、まず、様々な話者、様々な発話スタイルで発話した音響特徴量を万遍なく用いて、収録環境に関する特徴量変換行列を生成する。次に、収録環境に関する特徴量変換行列を用いて、ラベル付き特徴量を正規化する。例えば、車内雑音の特徴量変換行列ならば、車内雑音ラベルの付いた特徴量を正規化する。この処理により、仮想的なクリーン収録環境下における音響特徴量になるため、この音響特徴量を用いて話者要因及び発話スタイル要因の特徴量変換行列を生成することで、話者要因及び発話スタイル要因の特徴量変換行列に収録環境要因を全混合したような要素が包含されることを防ぐことができる。また、仮想的なクリーン収録環境下における音響特徴量を用いて、話者要因及び発話スタイル要因の特徴量変換行列を同時に生成するのではなく、例えば、さらに話者要因に関する特徴量変換行列を生成し、その変換行列を用いて仮想的な話者非依存のラベル付き特徴量に変換した上で、発話スタイル要因の特徴量変換行列を生成する方法が考えられる。このような学習ステップを踏むことで、発話スタイル要因の特徴量変換行列に収録環境要因と話者要因を全混合したような要素が包含することを防ぐことができる。

第三実施形態に係る特徴量変換行列は、第一実施形態と同様に、第二実施形態に係る音声認識装置により音声認識を行うことができる。

上述の説明では、話者要因、収録環境要因及び発話スタイル要因の三つの音響変動要因に関する特徴量変換行列を生成する例を説明したが、少なくとも発話スタイルを含む二つ以上の音響変動要因に関して、いずれかの音響変動要因について正規化するように構成すればよい。例えば、話者要因及び発話スタイル要因に関する二つの特徴量変換行列を生成する場合には、話者要因に関する特徴量変換行列を生成し、生成した特徴量変換行列を用いてラベル付き音響特徴量を正規化した上で、発話スタイル要因に関する特徴量変換行列を生成すればよい。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることは言うまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１特徴量変換行列生成装置
１０入力端子
１１音声信号取得部
１２音声信号記憶部
１３ラベル付与部
１４特徴量分析部
１５、３５特徴量変換行列生成部
１６特徴量変換行列記憶部
２音声認識装置
２０特徴量変換行列選択部
２１特徴量変換部
２２認識処理部

Claims

少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列を記憶する特徴量変換行列記憶部と、
入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する特徴量分析部と、
上記特徴量変換行列から上記入力音響特徴量に対して適切な特徴量変換行列を上記音響変動要因それぞれに関して選択する特徴量変換行列選択部と、
上記入力音響特徴量に対して上記選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する特徴量変換部と、
上記変換済み音響特徴量を音声認識した認識結果を出力する認識処理部と、
を含む音声認識装置。
請求項１に記載の音声認識装置であって、
上記特徴量変換行列選択部は、上記音響変動要因のいずれかに関する特徴量変換行列を選択する場合であって、当該音響変動要因が上記入力音響特徴量の音響変動要因と合致する特徴量変換行列があれば、当該特徴量変換行列を選択し、当該音響変動要因が上記入力音響特徴量の音響変動要因と合致する特徴量変換行列がなければ、当該音響変動要因が上記入力音響特徴量の音響変動要因と最も近い特徴量変換行列を選択するものである
音声認識装置。
請求項１または２に記載の音声認識装置であって、
上記特徴量変換行列記憶部は、音響変動要因として話者、収録環境及び発話スタイルそれぞれをラベル付けした音声信号を用いて学習した上記特徴量変換行列を記憶するものであり、
上記特徴量変換部は、xを上記入力音響特徴量とし、yを上記変換済み音響特徴量とし、A_st,b_stを発話スタイルに関する特徴量変換行列とし、A_s,b_sを収録環境に関する特徴量変換行列とし、A_sp,b_spを話者に関する特徴量変換行列とし、次式により上記変換済み音響特徴量を生成するものである

音声認識装置。
入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成するラベル付与部と、
上記ラベル付き音声信号から音響特徴量を抽出してラベル付き音響特徴量を生成する特徴量分析部と、
上記ラベル付き音響特徴量から上記音響変動要因に関する特徴量変換行列をそれぞれ生成する特徴量変換行列生成部と、
を含む特徴量変換行列生成装置。
請求項４に記載の特徴量変換行列生成装置であって、
上記特徴量変換行列生成部は、上記ラベル付き音響特徴量から話者が同一の音響特徴量を抽出し最尤推定により上記話者に関する特徴量変換行列を生成し、上記ラベル付き音響特徴量から収録環境が同一の音響特徴量を抽出し最尤推定により上記収録環境に関する特徴量変換行列を生成し、上記ラベル付き音響特徴量から発話スタイルが同一の音響特徴量を抽出し最尤推定により上記発話スタイルに関する特徴量変換行列を生成する
特徴量変換行列生成装置。
請求項４または５に記載の特徴量変換行列生成装置であって、
上記特徴量変換行列生成部は、上記音響変動要因から一つ選択した音響変動要因に関する特徴量変換行列を上記ラベル付き音響特徴量から生成し、上記選択した音響変動要因に関する特徴量変換行列を用いて上記ラベル付き音響特徴量を正規化した上で、上記選択した音響変動要因を除いた残りの音響変動要因に関する特徴量変換行列を生成する
特徴量変換行列生成装置。
特徴量分析部が、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する特徴量分析ステップと、
特徴量変換行列選択部が、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列から上記入力音響特徴量に対して適切な特徴量変換行列を上記音響変動要因それぞれに関して選択する特徴量変換行列選択ステップと、
特徴量変換部が、上記入力音響特徴量に対して上記選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する特徴量変換ステップと、
認識処理部が、上記変換済み音響特徴量を音声認識した認識結果を出力する認識処理ステップと、
を含む音声認識方法。
ラベル付与部が、入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成するラベル付与ステップと、
特徴量分析部が、上記ラベル付き音声信号から音響特徴量を抽出しラベル付き音響特徴量を生成する特徴量分析ステップと、
特徴量変換行列生成部が、上記ラベル付き音響特徴量から上記音響変動要因に関する特徴量変換行列をそれぞれ生成する特徴量変換行列生成ステップと、
を含む特徴量変換行列生成方法。
請求項１から３のいずれかに記載の音声認識装置もしくは請求項４から６のいずれかに記載の特徴量変換行列生成装置としてコンピュータを機能させるためのプログラム。