JP2015121760A - 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム - Google Patents

音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム Download PDF

Info

Publication number
JP2015121760A
JP2015121760A JP2014023070A JP2014023070A JP2015121760A JP 2015121760 A JP2015121760 A JP 2015121760A JP 2014023070 A JP2014023070 A JP 2014023070A JP 2014023070 A JP2014023070 A JP 2014023070A JP 2015121760 A JP2015121760 A JP 2015121760A
Authority
JP
Japan
Prior art keywords
acoustic
feature
conversion matrix
feature amount
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014023070A
Other languages
English (en)
Other versions
JP6114210B2 (ja
Inventor
孝典 芦原
Takanori Ashihara
孝典 芦原
太一 浅見
Taichi Asami
太一 浅見
裕司 青野
Yuji Aono
裕司 青野
阪内 澄宇
Sumitaka Sakauchi
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014023070A priority Critical patent/JP6114210B2/ja
Publication of JP2015121760A publication Critical patent/JP2015121760A/ja
Application granted granted Critical
Publication of JP6114210B2 publication Critical patent/JP6114210B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声認識精度を向上する。
【解決手段】特徴量変換行列記憶部16には、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列が記憶されている。特徴量分析部14は、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する。特徴量変換行列選択部20は、特徴量変換行列から入力音響特徴量に対して適切な特徴量変換行列を音響変動要因それぞれに関して選択する。特徴量変換部21は、入力音響特徴量に対して選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する。認識処理部22は、変換済み音響特徴量を音声認識した認識結果を出力する。
【選択図】図3

Description

この発明は、音声認識技術に関し、特に、音響変動要因を考慮して音響特徴量を変換する技術に関する。
特許文献1には、実用レベルの音声認識性能を担保するために、利用シーンによって変化する音響変動要因に音響モデルを特化させる技術が開示されている。ここでは、音響変動要因として、主に話者要因や収録環境要因、発話スタイル要因などを考えている。一般的に一つのサービスの中で音響変動要因の変分が少ない場合(例えば、コールセンタのオペレータ等)であれば、そのサービスに特化させた単一の音響モデルで実用レベルの認識性能を達成できる。しかし、一つのサービスの中で音響変動要因の変分が大きい場合(例えば、モバイル音声検索等)には、そのサービスにおける各利用シーンに特化した音響モデルを生成しなければ適切な認識結果は得られない。ところが、各利用シーンに特化した音響モデルを生成するためには各利用シーンにおいて収録した音声データとその書き起こしとからなる学習データが必要となる。一般的に学習データの準備には莫大な金銭的、時間的コストを要する。さらに、各利用シーンに特化した音響モデルが増えていくにつれて、必要となる記憶媒体の容量も莫大なものとなる。また、仮に各利用シーンに特化した音響モデルをすべて生成できたとしても、それらの音響モデルを利用するためには、音響変動要因が変化する度に音響モデルを入れ替える必要がある。その結果、音響モデルの再読み込みにかかる時間が必要となり、認識時間が大幅に増加する。
非特許文献1では、上述した課題を解決するために、音響変動要因のうち話者要因及び収録環境要因を分離して考え、単一の音響モデルに対して認識させる音響特徴量の尤度を向上させるような特徴量変換行列をそれぞれ生成している。話者要因とは、発話者の生得的な部分であり、例えば声質などである。収録環境要因とは、例えば収録環境に存在する雑音や残響などである。非特許文献1に記載の技術は、入力された音響特徴量を話者要因及び収録環境要因の特徴量変換行列を用いて二段変換することで、認識時間はほぼそのままに、話者要因及び収録環境要因の二要因の変化に頑健な音声認識を実現している。また、特徴量変換行列は音響モデルよりサイズが軽量であるため、必要となる記憶媒体の容量は減少する。さらに、収録環境要因の特徴量変換行列は、話者要因の特徴量変換行列と分離されているため、発話者間で共有することが可能である。これにより、必要となる記憶媒体の容量はさらに減少する。
特開2007−249051号公報
Michael L. Seltzer, Alex Acero, "Separating Speaker and Environmental Variability Using Factored Transforms", INTERSPEECH 2011, pp. 1097-1100.
しかしながら、仮に同一話者、かつ、同一テキストの発話であっても、例えば喋り口調や読み上げ口調などの発話スタイルが異なる場合、単一の音響モデルによる認識率は大きく変化する事が知られている。したがって、上述した非特許文献1では考慮されていなかった音響変動要因である発話スタイル要因も話者要因及び収録環境要因から分離して特徴量変換行列として生成することで認識率のさらなる向上が見込める。
この発明の目的は、話者要因及び収録環境要因に加えて発話スタイル要因も分離して考慮することにより、音声認識精度を向上することである。
上記の課題を解決するために、この発明の一態様による音声認識装置は、特徴量変換行列記憶部、特徴量分析部、特徴量変換行列選択部、特徴量変換部及び認識処理部を含む。特徴量変換行列記憶部は、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列を記憶する。特徴量分析部は、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する。特徴量変換行列選択部は、特徴量変換行列から入力音響特徴量に対して適切な特徴量変換行列を音響変動要因それぞれに関して選択する。特徴量変換部は、入力音響特徴量に対して選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する。認識処理部は、変換済み音響特徴量を音声認識した認識結果を出力する。
この発明の他の態様による特徴量変換行列生成装置は、ラベル付与部、特徴量分析部及び特徴量変換行列生成部を含む。ラベル付与部は、入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成する。特徴量分析部は、ラベル付き音声信号から音響特徴量を抽出しラベル付き音響特徴量を生成する。特徴量変換行列生成部は、ラベル付き音響特徴量から音響変動要因に関する特徴量変換行列をそれぞれ生成する。
この発明の音声認識技術によれば、話者要因及び収録環境要因に加えて発話スタイル要因も分離して考慮することにより、音声認識精度を向上することができる。
図1は、第一実施形態に係る特徴量変換行列生成装置の機能構成を例示する図である。 図2は、第一実施形態に係る特徴量変換行列生成方法の処理フローを例示する図である。 図3は、音声認識装置の機能構成を例示する図である。 図4は、音声認識方法の処理フローを例示する図である。 図5は、第三実施形態に係る特徴量変換行列生成装置の機能構成を例示する図である。 図6は、第三実施形態に係る特徴量変換行列生成方法の処理フローを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[発明のポイント]
実施形態の説明に先立って、この発明のポイントについて説明する。
この発明では、音響変動要因である話者要因、収録環境要因及び発話スタイル要因が利用シーン毎に大きく変動する状況を想定する。そのために、非特許文献1で示される話者要因及び収録環境要因に応じた特徴量変換行列だけでなく、さらに発話スタイル要因に応じた特徴量変換行列も生成する。
[第一実施形態]
この発明の第一実施形態は、音響変動要因である話者要因、収録環境要因及び発話スタイル要因に関する特徴量変換行列を学習する特徴量変換行列生成装置である。
図1を参照して、第一実施形態に係る特徴量変換行列生成装置1の機能構成の一例を説明する。特徴量変換行列生成装置1は、入力端子10、音声信号取得部11、音声信号記憶部12、ラベル付与部13、特徴量分析部14、特徴量変換行列生成部15及び特徴量変換行列記憶部16を含む。特徴量変換行列生成装置1は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。特徴量変換行列生成装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。特徴量変換行列生成装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。特徴量変換行列生成装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。特徴量変換行列生成装置1が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
図2を参照しながら、第一実施形態に係る特徴量変換行列生成装置1が実行する特徴量変換行列生成方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。
ステップS11において、音声信号取得部11は、入力端子10より入力されるアナログの音声信号を音声ディジタル信号に変換する。音声信号は既存のいかなる手段により取得してもよく、例えば、入力端子10に接続したマイクロホンにより取得して入力してもよいし、ICレコーダ等の録音機器を用いてあらかじめ収録した音声信号を入力端子10に接続して入力してもよい。音声信号取得部11により変換された音声ディジタル信号は音声信号記憶部12に記憶される。
ステップS13において、ラベル付与部13は、音声信号記憶部12に記憶された音声ディジタル信号に対して、音響変動要因である話者、収録環境及び発話スタイルのラベルを付与する。以降の説明では、ラベル付与部13によりラベルを付与された音声ディジタル信号はラベル付き音声信号と呼ぶ。ラベル付き音声信号は音声信号記憶部12に記憶される。
ラベルの付与方法は、例えば、(1)あらかじめ音声を収録する際の利用シーンをユーザが指定する方法、(2)ログイン認証や使用アプリケーション等による自動獲得、(3)クラスタリングによる自動分類による自動獲得が挙げられる。
(1)あらかじめ音声を収録する際の利用シーンをユーザが指定する方法は、音声を収録する際に、話者であれば「誰が発話するか(例えば、Aさん、Bさん等)」、収録環境であれば「どこで発話するか(例えば、車内、街中、会議室等)」、発話スタイルであれば「どのように発話するか(例えば、読み上げスタイル、自由発話スタイル等)」をユーザ側で指定することで、対象となる音声にラベルを付与する。また、発話スタイルに関して、明確な発話スタイルを指定できない場合も考えられる。その場合は、例えば会議録作成アプリケーションなどを利用して、その役割(例えば、プレゼンター、非プレゼンター等)を指定することでラベルを付与することができる。
(2)ログイン認証や使用アプリケーション等による自動獲得の方法は、音声を収録する前にログイン認証により話者を特定することで、その話者のラベルを付与する。また発話スタイルは、使用するアプリケーションに依存すると考え、ユーザが利用するアプリケーション(例えば、音声検索アプリケーション、会議録作成アプリケーション等)に対応するラベルを付与する。
(3)クラスタリングによる自動分類による自動獲得の方法は、話者、収録環境及び発話スタイルをそれぞれクラスタリングし、クラスタのインデックスをラベルとして付与する。例えば、話者1、2、3…や収録環境1、2、3…や発話スタイル1、2、3…といったラベルが付与されることになる。クラスタリングの方法としては、例えばK-means法が利用できる。
(1)〜(3)の方法は組み合わせて構成することもできる。例えば、話者はログイン認証で自動獲得し、収録環境はユーザによる指定とし、発話スタイルはクラスタリングによるラベル付与としてもよい。
ステップS14において、特徴量分析部14は、音声信号記憶部12に記憶されたラベル付き音声信号から音響特徴量を抽出する。以降の説明では、特徴量分析部14により抽出された音響特徴量はラベル付き音響特徴量と呼ぶ。ラベル付き音響特徴量は音声信号記憶部12に記憶される。
抽出する音響特徴量としては、例えば、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient、MFCC)の1〜12次元と、その変化量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワーと、その変化量であるΔパワー及びΔΔパワーなどを用いる。ここで、ケプストラム平均正規化(Cepstral Mean Normalization、CMN)処理を行ってもよい。音響特徴量は、MFCCやパワーに限定したものでは無く、音声認識に用いられるパラメータや発話区間情報を用いることができる。
ステップS15において、特徴量変換行列生成部15は、ラベル付き音響特徴量から話者要因に関する特徴量変換行列、収録環境要因に関する特徴量変換行列及び発話スタイル要因に関する特徴量変換行列をそれぞれ生成する。話者要因に関する特徴量変換行列は、各話者に特化した特徴量変換行列の集合である。収録環境に関する特徴量変換行列は、各収録環境に特化した特徴量変換行列の集合である。発話スタイルに関する特徴量変換行列は、各発話スタイルに特化した特徴量変換行列の集合である。特徴量変換行列生成部15により生成された特徴量変換行列は、特徴量変換行列記憶部16に記憶される。
特徴量変換行列の生成は、特徴空間最尤線形回帰(feature-space Maximum Likelihood Linear Regression、fMLLR)により行う。fMLLRとは、学習データの音響特徴量(MFCC等)とラベルテキストとを用いて、認識する際の音響モデルの尤度を高める特徴量変換行列を最尤推定(Maximum Likelihood、ML)により生成する手法である。fMLLRについての詳細は、「M.J.F. Gales, “ Maximum Likelihood Linear Transformations for HMM-Based Speech Recognition”, Computer Speech and Language, 1998, vol. 12, pp. 75-98.(参考文献1)」に記載されている。
特徴量変換行列を生成する方法を具体的に説明する。例えば、ある話者(例えば、Aさん)に特化した特徴量変換行列を生成するのであれば、まず、話者Aさんが様々な収録環境において様々な発話スタイルにより発話した音声ディジタル信号から抽出した音響特徴量を、付与されたラベルを参照して選択する。具体的には、話者のラベルとしてAさんのラベルが付いた音響特徴量群を選択する。収録環境のラベル及び発話スタイルのラベルは、様々なラベルのものが満遍なく含まれるようにする。例えば、車、電車、雑踏などのラベルをもつ様々な収録環境の音響特徴量群が含まれ、かつ、フォーマル、雑談、プレゼンなどのラベルをもつ様々な口調で発話した発話スタイルの音響特徴量群が含まれるようにする。そして、選択された音響特徴量群を用いて、話者Aさんに関する特徴量変換行列をfMLLR(feature-space MLLR)により生成する。入力として選択された音響特徴量群とそれに対応する書き起こしテキスト及びベースとなる音響モデルを用いて、fMLLRにより、ベースとなる音響モデルに適した音響特徴量を生成する特徴量変換行列を生成する。こうすることで、収録環境要因及び発話スタイル要因については平均化され、話者Aさんに特化した特徴量変換行列が生成される。収録環境要因、発話スタイル要因についても同様にして特徴量変換行列を生成する。ある収録環境に特化した特徴量変換行列は、同一の収録環境において様々な話者が様々な発話スタイルにより発話した音響特徴量を抽出して、対象とする収録環境に特化した特徴量変換行列を生成すればよい。また、ある発話スタイルに特化した特徴量変換行列は、同一発話スタイルにより様々な話者が様々な収録環境において発話した音響特徴量を抽出して、対象となる発話スタイルに特化した特徴量変換行列を生成すればよい。
このように、第一実施形態の特徴量変換行列生成装置は、話者要因及び収録環境要因に関する特徴量変換行列と分離して、発話スタイル要因に関する特徴量変換行列を生成する。このようにして生成した特徴量変換行列を用いて音声認識を行うことで、発話スタイルが異なる音声が混在している場合であっても認識率が大きく低下することがない。その結果、全体として音声認識精度が向上する。
[第二実施形態]
この発明の第二実施形態は、第一実施形態に係る特徴量変換行列生成装置により生成された特徴量変換行列を利用して音声認識を行う音声認識装置である。
図3を参照して、第二実施形態に係る音声認識装置2の機能構成の一例を説明する。音声認識装置2は、特徴量変換行列生成装置1と同様に入力端子10、音声信号取得部11、特徴量分析部14及び特徴量変換行列記憶部16を含み、さらに特徴量変換行列選択部20、特徴量変換部21、認識処理部22及びモデル記憶部23を含む。音声認識装置2は、例えば、中央演算処理装置(Central Processing Unit、CPU)、主記憶装置(Random Access Memory、RAM)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。音声認識装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声認識装置2が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
特徴量変換行列記憶部16には、第一実施形態に係る特徴量変換行列生成装置1により生成された特徴量変換行列があらかじめ記憶されている。
モデル記憶部23には、音声認識処理に利用する音響モデル及び言語モデルが記憶されている。音響モデル及び言語モデルは認識処理部22が利用する音声認識方式に適合するものであればどのようなものでもよい。
図4を参照しながら、第二実施形態に係る音声認識装置2が実行する音声認識方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。
ステップS11において、音声信号取得部11は、入力端子10より入力されるアナログの音声信号を音声ディジタル信号に変換する。音声信号の変換方法は第一実施形態と同様である。音声信号取得部11により変換された音声ディジタル信号は特徴量分析部14に入力される。
ステップS14において、特徴量分析部14は、入力された音声ディジタル信号から音響特徴量を抽出する。音響特徴量の抽出方法は第一実施形態と同様である。抽出した音響特徴量は特徴量変換行列選択部20に入力される。
ステップS20において、特徴量変換行列選択部20は、特徴量変換行列記憶部16に記憶されている特徴量変換行列から、入力された音響特徴量に対して適切な特徴量変換行列を選択する。特徴量変換行列の選択は、話者、収録環境及び発話スタイルそれぞれに関して適切な特徴量変換行列を選択する。したがって、特徴量変換行列選択部20が選択する特徴量変換行列は、話者に関する特徴量変換行列、収録環境に関する特徴量変換行列、発話スタイルに関する特徴量変換行列を組にしたものとなる。選択された特徴量変換行列は、入力された音響特徴量と共に特徴量変換部21へ入力される。
特徴量変換行列を選択する基準は、特徴量変換行列を生成する過程で入力された音声ディジタル信号へラベルを付与する際に採用した基準に依存する。
ある音響変動要因に対して、(1)あらかじめ音声を収録する際の利用シーンをユーザが指定する方法でラベルを付与した場合には、ユーザが指定した話者、収録環境または発話スタイルに合致する特徴量変換行列を選択する。具体的には、話者に合致する特徴量変換行列を選択する場合には、入力された音響特徴量の話者のラベルをもつ特徴量変換行列を選択する。収録環境が合致する特徴量変換行列を選択する場合には、入力された音響特徴量の収録環境と同じラベルをもつ特徴量変換行列を選択する。発話スタイルに合致する特徴量変換行列を選択する場合には、入力された音響特徴量の発話スタイルと同じラベルをもつ特徴量変換行列を選択する。このように特徴量変換行列を選択することで、三つの特徴量変換行列の組が選択される。ここでは、三つの特徴量変換行列の組を選択する例を説明したが、少なくとも発話スタイルを含む二つ以上の特徴量変換行列の組が選択されればよい。
(2)ログイン認証や使用アプリケーション等による自動獲得によりラベルを付与した場合には、ログイン認証により特定した話者や使用するアプリケーションにより特定される発話スタイルなどに合致する特徴量変換行列を選択する。
(3)クラスタリングによる自動分類による自動獲得によりラベルを付与した場合には、入力された音響特徴量と特徴量変換行列との距離を用いることで適切な特徴量変換行列を選択する。例えば、学習データの音響特徴量の平均値と入力された音響特徴量との距離を算出して、最も近かった特徴量変換行列を選択する方法を取ることができる。
ステップS21において、特徴量変換部21は、特徴量分析部14で生成した音響特徴量に対して選択済み特徴量変換行列を多段的に適用することで変換済み特徴量を得る。すなわち、選択済み特徴量変換行列に含まれる話者に関する特徴量変換行列、収録環境に関する特徴量変換行列及び発話スタイルに関する特徴量変換行列を、入力された音響特徴量に対して順番に適用する。このとき、特徴量変換行列を適用する順番は限定されない。変換済み音響特徴量は、認識処理部22へ入力される。
音響特徴量の変換は具体的には以下のように行う。特徴量変換行列選択部20において、話者、収録環境及び発話スタイルに関する三つの特徴量変換行列の組を選択した場合には、xを特徴量分析部14の出力である音響特徴量とし、次式により変換済み音響特徴量yを計算する。
Figure 2015121760
ここで、Ast,bstは発話スタイルに関する特徴量変換行列であり、As,bsは収録環境に関する特徴量変換行列であり、Asp,bspは話者に関する特徴量変換行列である。なお、変換する順序は式(1)の順序に限定されない。
特徴量変換行列選択部20において、発話スタイル及び話者に関する二つの特徴量変換行列の組を選択した場合には、次式により変換済み音響特徴量yを計算すればよい。
Figure 2015121760
発話スタイル及び収録環境に関する二つの特徴量変換行列の組を選択した場合も同様にして変換済み音響特徴量yを計算することができる。
ステップS22において、認識処理部22は、モデル記憶部23に記憶されている音響モデル及び言語モデルを用いて、入力された変換済み音響特徴量に対して音声認識処理を行い、認識結果を出力する。音声認識処理は、特徴量分析部14が生成する音響特徴量を利用することができる既存の音声認識技術であれば任意に適用することができる。
このように、第二実施形態の音声認識装置は、第一実施形態の特徴量変換行列生成装置により生成された特徴量変換行列を用いて音声認識を行う。この特徴量変換行列は、話者要因及び収録環境要因に関する特徴量変換行列と分離して、発話スタイル要因に関する特徴量変換行列をも生成したものである。これにより、発話スタイルが異なる音声が混在している場合であっても認識率が大きく低下することがない。その結果、全体として音声認識精度が向上する。
[第三実施形態]
第一実施形態の特徴量変換行列生成装置は、例えば、話者要因に関する特徴量変換行列を生成する際は収録環境要因及び発話スタイル要因を万遍なく包含するような学習データを選択して実施する。こうすることで、収録環境要因及び発話スタイル要因は相殺され、話者要因に特化した特徴量変換行列を生成する事が可能になっている。
しかし、第一実施形態の特徴量変換行列生成装置で生成された特徴量変換行列はそれぞれ直交しておらず、場合によっては同じ要素が包含されている可能性がある。例えば、話者要因及び発話スタイル要因の特徴量変換行列を学習させる際には、全く同じ量の収録環境要因が学習データに含まれるため、収録環境要因を全混合したような成分が、話者要因の特徴量変換行列及び発話スタイル要因の特徴量変換行列両方に包含されうる。この場合、音声認識する際は特徴量変換行列を多段的に用いて入力特徴量を変換するため、同じ要素が包含された特徴量変換行列による多段変換が実行されてしまう。結果として、同じ変換処理が二回実施されたような動作になってしまい、それぞれの音響変動要因を純粋に正規化したような動作ではなくなる。そこで、第三実施形態の特徴量変換行列生成装置では、特徴量変換行列生成部の処理を変更し、事前に学習データから音響変動要因を除去した上で特徴量変換行列を学習するものとする。
図5を参照して、第三実施形態に係る特徴量変換行列生成装置3の機能構成の一例を説明する。特徴量変換行列生成装置3は、第一実施形態と同様に、入力端子10、音声信号取得部11、音声信号記憶部12、ラベル付与部13、特徴量分析部14及び特徴量変換行列記憶部16を含み、さらに、特徴量変換行列生成部35を含む。
図6を参照しながら、第三実施形態に係る特徴量変換行列生成装置3が実行する特徴量変換行列生成方法の処理フローの一例を、実際に行われる手続きの順に従って説明する。ステップS11からステップS14の処理は、第一実施形態と同様であるので、ここでは説明を省略する。
ステップS35において、特徴量変換行列生成部35は、ラベル付き音響特徴量から話者要因に関する特徴量変換行列、収録環境要因に関する特徴量変換行列及び発話スタイル要因に関する特徴量変換行列をそれぞれ生成する。特徴量変換行列の生成は、第一実施形態と同様に、特徴空間最尤線形回帰(feature-space Maximum Likelihood Linear Regression、fMLLR)により行う。fMLLRについての詳細は、上記の参考文献1を参照されたい。特徴量変換行列生成部35により生成された特徴量変換行列は、特徴量変換行列記憶部16に記憶される。
第三実施形態に係る特徴量変換行列を生成する方法を具体的に説明する。第一実施形態との相違点は、入力されたラベル付き音響特徴量からいずれか一つの音響変動要因を除去してから他の特徴量変換行列を生成することである。まず、三つの音響変動要因のうち、いずれか一つの音響変動要因に関する特徴量変換行列を生成する。各音響変動要因に関する特徴量変換行列を生成する方法は、第一実施形態と同様である。次に、生成した特徴量変換行列を用いてラベル付き音響特徴量を正規化した上で、残りの二つの音響変動要因に関する特徴量変換行列を生成する。例えば、まず、様々な話者、様々な発話スタイルで発話した音響特徴量を万遍なく用いて、収録環境に関する特徴量変換行列を生成する。次に、収録環境に関する特徴量変換行列を用いて、ラベル付き特徴量を正規化する。例えば、車内雑音の特徴量変換行列ならば、車内雑音ラベルの付いた特徴量を正規化する。この処理により、仮想的なクリーン収録環境下における音響特徴量になるため、この音響特徴量を用いて話者要因及び発話スタイル要因の特徴量変換行列を生成することで、話者要因及び発話スタイル要因の特徴量変換行列に収録環境要因を全混合したような要素が包含されることを防ぐことができる。また、仮想的なクリーン収録環境下における音響特徴量を用いて、話者要因及び発話スタイル要因の特徴量変換行列を同時に生成するのではなく、例えば、さらに話者要因に関する特徴量変換行列を生成し、その変換行列を用いて仮想的な話者非依存のラベル付き特徴量に変換した上で、発話スタイル要因の特徴量変換行列を生成する方法が考えられる。このような学習ステップを踏むことで、発話スタイル要因の特徴量変換行列に収録環境要因と話者要因を全混合したような要素が包含することを防ぐことができる。
第三実施形態に係る特徴量変換行列は、第一実施形態と同様に、第二実施形態に係る音声認識装置により音声認識を行うことができる。
上述の説明では、話者要因、収録環境要因及び発話スタイル要因の三つの音響変動要因に関する特徴量変換行列を生成する例を説明したが、少なくとも発話スタイルを含む二つ以上の音響変動要因に関して、いずれかの音響変動要因について正規化するように構成すればよい。例えば、話者要因及び発話スタイル要因に関する二つの特徴量変換行列を生成する場合には、話者要因に関する特徴量変換行列を生成し、生成した特徴量変換行列を用いてラベル付き音響特徴量を正規化した上で、発話スタイル要因に関する特徴量変換行列を生成すればよい。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることは言うまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 特徴量変換行列生成装置
10 入力端子
11 音声信号取得部
12 音声信号記憶部
13 ラベル付与部
14 特徴量分析部
15、35 特徴量変換行列生成部
16 特徴量変換行列記憶部
2 音声認識装置
20 特徴量変換行列選択部
21 特徴量変換部
22 認識処理部

Claims (9)

  1. 少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列を記憶する特徴量変換行列記憶部と、
    入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する特徴量分析部と、
    上記特徴量変換行列から上記入力音響特徴量に対して適切な特徴量変換行列を上記音響変動要因それぞれに関して選択する特徴量変換行列選択部と、
    上記入力音響特徴量に対して上記選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する特徴量変換部と、
    上記変換済み音響特徴量を音声認識した認識結果を出力する認識処理部と、
    を含む音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    上記特徴量変換行列選択部は、上記音響変動要因のいずれかに関する特徴量変換行列を選択する場合であって、当該音響変動要因が上記入力音響特徴量の音響変動要因と合致する特徴量変換行列があれば、当該特徴量変換行列を選択し、当該音響変動要因が上記入力音響特徴量の音響変動要因と合致する特徴量変換行列がなければ、当該音響変動要因が上記入力音響特徴量の音響変動要因と最も近い特徴量変換行列を選択するものである
    音声認識装置。
  3. 請求項1または2に記載の音声認識装置であって、
    上記特徴量変換行列記憶部は、音響変動要因として話者、収録環境及び発話スタイルそれぞれをラベル付けした音声信号を用いて学習した上記特徴量変換行列を記憶するものであり、
    上記特徴量変換部は、xを上記入力音響特徴量とし、yを上記変換済み音響特徴量とし、Ast,bstを発話スタイルに関する特徴量変換行列とし、As,bsを収録環境に関する特徴量変換行列とし、Asp,bspを話者に関する特徴量変換行列とし、次式により上記変換済み音響特徴量を生成するものである
    Figure 2015121760

    音声認識装置。
  4. 入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成するラベル付与部と、
    上記ラベル付き音声信号から音響特徴量を抽出してラベル付き音響特徴量を生成する特徴量分析部と、
    上記ラベル付き音響特徴量から上記音響変動要因に関する特徴量変換行列をそれぞれ生成する特徴量変換行列生成部と、
    を含む特徴量変換行列生成装置。
  5. 請求項4に記載の特徴量変換行列生成装置であって、
    上記特徴量変換行列生成部は、上記ラベル付き音響特徴量から話者が同一の音響特徴量を抽出し最尤推定により上記話者に関する特徴量変換行列を生成し、上記ラベル付き音響特徴量から収録環境が同一の音響特徴量を抽出し最尤推定により上記収録環境に関する特徴量変換行列を生成し、上記ラベル付き音響特徴量から発話スタイルが同一の音響特徴量を抽出し最尤推定により上記発話スタイルに関する特徴量変換行列を生成する
    特徴量変換行列生成装置。
  6. 請求項4または5に記載の特徴量変換行列生成装置であって、
    上記特徴量変換行列生成部は、上記音響変動要因から一つ選択した音響変動要因に関する特徴量変換行列を上記ラベル付き音響特徴量から生成し、上記選択した音響変動要因に関する特徴量変換行列を用いて上記ラベル付き音響特徴量を正規化した上で、上記選択した音響変動要因を除いた残りの音響変動要因に関する特徴量変換行列を生成する
    特徴量変換行列生成装置。
  7. 特徴量分析部が、入力音声信号に基づいて音響特徴量を抽出して入力音響特徴量を生成する特徴量分析ステップと、
    特徴量変換行列選択部が、少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けした音声信号を用いて学習した特徴量変換行列から上記入力音響特徴量に対して適切な特徴量変換行列を上記音響変動要因それぞれに関して選択する特徴量変換行列選択ステップと、
    特徴量変換部が、上記入力音響特徴量に対して上記選択された特徴量変換行列を多段的に適用することで変換済み音響特徴量を生成する特徴量変換ステップと、
    認識処理部が、上記変換済み音響特徴量を音声認識した認識結果を出力する認識処理ステップと、
    を含む音声認識方法。
  8. ラベル付与部が、入力音声信号に少なくとも発話スタイルを含む二つ以上の音響変動要因をラベル付けしてラベル付き音声信号を生成するラベル付与ステップと、
    特徴量分析部が、上記ラベル付き音声信号から音響特徴量を抽出しラベル付き音響特徴量を生成する特徴量分析ステップと、
    特徴量変換行列生成部が、上記ラベル付き音響特徴量から上記音響変動要因に関する特徴量変換行列をそれぞれ生成する特徴量変換行列生成ステップと、
    を含む特徴量変換行列生成方法。
  9. 請求項1から3のいずれかに記載の音声認識装置もしくは請求項4から6のいずれかに記載の特徴量変換行列生成装置としてコンピュータを機能させるためのプログラム。
JP2014023070A 2013-11-25 2014-02-10 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム Active JP6114210B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014023070A JP6114210B2 (ja) 2013-11-25 2014-02-10 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013242531 2013-11-25
JP2013242531 2013-11-25
JP2014023070A JP6114210B2 (ja) 2013-11-25 2014-02-10 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015121760A true JP2015121760A (ja) 2015-07-02
JP6114210B2 JP6114210B2 (ja) 2017-04-12

Family

ID=53533398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014023070A Active JP6114210B2 (ja) 2013-11-25 2014-02-10 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6114210B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637519A (zh) * 2018-11-13 2019-04-16 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
CN110265021A (zh) * 2019-07-22 2019-09-20 深圳前海微众银行股份有限公司 个性化语音交互方法、机器人终端、装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6017008652; 笹木俊幸、森大毅、粕谷英樹: '対話音声認識のための音響モデル作成方法に関する検討' 日本音響学会研究発表会議講演論文集 春I , 20020318, PP.133〜134, 社団法人日本音響会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109637519A (zh) * 2018-11-13 2019-04-16 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
CN109637519B (zh) * 2018-11-13 2020-01-21 百度在线网络技术(北京)有限公司 语音交互实现方法、装置、计算机设备及存储介质
CN110265021A (zh) * 2019-07-22 2019-09-20 深圳前海微众银行股份有限公司 个性化语音交互方法、机器人终端、装置及可读存储介质

Also Published As

Publication number Publication date
JP6114210B2 (ja) 2017-04-12

Similar Documents

Publication Publication Date Title
US11776547B2 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
US11900948B1 (en) Automatic speaker identification using speech recognition features
CN106688034B (zh) 具有情感内容的文字至语音转换
US9640175B2 (en) Pronunciation learning from user correction
KR102097710B1 (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
JP2018536905A (ja) 発話認識方法及び装置
CN106373569A (zh) 语音交互装置和方法
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
CN104299623A (zh) 语音应用中用于自动确认和消歧模块的方法和系统
US9412359B2 (en) System and method for cloud-based text-to-speech web services
JP5274711B2 (ja) 音声認識装置
JP6189818B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
US11545136B2 (en) System and method using parameterized speech synthesis to train acoustic models
CN112825249A (zh) 语音处理方法和设备
Gref et al. Improved transcription and indexing of oral history interviews for digital humanities research
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP6114210B2 (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム
JP2007133413A (ja) 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Gref Robust Speech Recognition via Adaptation for German Oral History Interviews
US11978431B1 (en) Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks
CN117334201A (zh) 一种声音识别方法、装置、设备以及介质
Xu et al. An unsupervised adaptation approach to leveraging feedback loop data by using i-vector for data clustering and selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170316

R150 Certificate of patent or registration of utility model

Ref document number: 6114210

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150