JP2016099507A

JP2016099507A - 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム

Info

Publication number: JP2016099507A
Application number: JP2014236637A
Authority: JP
Inventors: 孝典芦原; Takanori Ashihara; 太一浅見; Taichi Asami; 裕司青野; Yuji Aono; 澄宇阪内; Sumitaka Sakauchi
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2016-05-30
Anticipated expiration: 2034-11-21
Also published as: JP6189818B2

Abstract

【課題】学習データが十分に入手できない場合でも認識率を向上させる。
【解決手段】特徴量抽出部１３は、対象音声信号から抽出した対象音響特徴量系列と参照音声信号から抽出した参照音響特徴量系列とを生成する。特徴量照合部１４は、対象音響特徴量系列と参照音響特徴量系列との対応関係を照合した照合済みの対象音響特徴量系列と参照音響特徴量系列とを生成する。変換モデル生成部１５は、照合済みの対象音響特徴量系列と参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を対象音響特徴量系列と参照音響特徴量系列との対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する。疑似特徴量生成部１６は、変換モデルを用いて音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する。
【選択図】図１

Description

この発明は、音響モデルを用いた音声認識を様々な認識対象タスクに適応させるときに、音響モデル学習に用いる音響特徴量を変換する技術に関する。

特許文献１には、音声認識において実用レベルの性能を担保するために、音声認識の対象とするタスク（以下、認識対象タスクと呼ぶ）に対して音響モデルを適応させる技術が記載されている。ここで、認識対象タスクとは、元々の音響モデルに対して、話者や雑音タイプ、喋り方などの音響的特徴が異なるタスクである。

一般的に、音声認識の性能は認識対象タスクの学習データ量に依存して上下する。つまり、認識対象タスクの学習データが満足に存在しない状況で、従来の技術により音響モデルを適応させたとしても満足のいく認識率は得られない場合が多い。そこで通常は、認識対象タスクの音声を十分に集め、その音声を書き起こしすることで所望の量の学習データを収集するのであるが、そのためには莫大な金銭的・時間的コストを要する。また、認識対象タスクの音声が十分に入手可能であるならば、書き起こしによる学習データの収集を実施することが可能だが、そもそもあらゆるタスクにおいて十分な量の音声が入手可能というわけではない。例えば、方言や日本人が英語を話す音声など、十分な量の音声を入手することが難しいタスクも存在する。

非特許文献１には、Vocal Tract Length Normalization（VTLN）のWarping Factorを複数の値で実行することで、学習データにおける話者バリエーションを疑似的に作成する方法が記載されている。なお、VTLNについては非特許文献２に記載されている。

特開２００７−２４９０５１号公報

N. Jaitly, G. E. Hinton, "Vocal Tract Length Perturbation (VTLP) improves speech recognition", ICML Workshop on Deep Learning for Audio, Speech, and Language Processing, 2013. E. Eide, H. Gish, "A parametric approach to vocal tract length normalization", ICASSP, 1996.

しかしながら、非特許文献１の技術は大きく二点の問題を抱えている。一点目は、VTLNが線形変換処理であるため、非常に大まかな変換しか実行できない点である。二点目は、VTLN自体が話者の声質変換を目的としており、それ以外の変換は実行できない点である。

この発明の目的は、音響モデルを認識対象タスクに適応させるための学習データを疑似的に作成することで、学習データが十分に入手できない場合でも認識率を向上させることである。

上記の課題を解決するために、この発明の第一の態様の音響特徴量変換装置は、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列と対象音声信号と発話内容が対応する参照音声信号から抽出した参照音響特徴量系列とを生成する特徴量抽出部と、対象音響特徴量系列と参照音響特徴量系列との対応関係を特徴量ごとの類似度に基づいて照合した照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを生成する特徴量照合部と、照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を対象音響特徴量系列と参照音響特徴量系列との対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する変換モデル生成部と、変換モデルを用いて参照音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する疑似特徴量生成部と、を含む。

この発明の第二の態様の音響モデル適応装置は、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列を記憶する音響特徴量記憶部と、音響特徴量変換装置が生成した変換モデルを用いて、認識対象とするタスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を記憶する疑似音響特徴量記憶部と、対象音響特徴量系列と疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習部と、を含む。

この発明の音響特徴量変換技術は、認識対象タスクの学習データが十分に入手できない場合であっても、ニューラルネットによる特徴量変換を用いることで学習データを疑似的に作成し、その疑似学習データも用いて音響モデルを適応させる。これにより、元々入手できていた少量の学習データだけで適応させた音響モデルよりも、さらに認識対象タスクに適応した音響モデルを生成することができ、認識率が向上する。

図１は、第一実施形態の音響特徴量変換装置および音響モデル適応装置の機能構成を例示する図である。図２は、第一実施形態の音響特徴量変換方法および音響モデル適応方法の処理フローを例示する図である。図３は、第二実施形態の音響特徴量変換装置および音響モデル適応装置の機能構成を例示する図である。図４は、第二実施形態の音響特徴量変換方法および音響モデル適応方法の処理フローを例示する図である。

この発明では、上述の従来技術の問題点を解決するために、音響特徴量の変換処理にニューラルネットを活用する。なお、ニューラルネットについては、例えば、「中野良平、“ニューラル情報処理の基礎数理”、数理工学社、2005年（参考文献１）」に記載されている。ニューラルネットはVTLNとは異なり、非線形処理を実現しているため、非常に複雑な表現が可能である。また、ニューラルネットは話者の声質変換以外にも、雑音タイプや喋り方など、他の音響的特徴にも対応が可能であり、VTLNより汎用性が高い。

＜発明のポイント＞
この発明では、認識対象タスクにおける学習データが音響モデルを適応させるのに十分な量ではない状況下を想定している。この発明では、大きく以下の流れで音響モデルの適応を行う。
（１）認識対象タスクに関して元々入手できた少量の学習データＢと、認識対象タスクではないが十分な量の学習データＡとがある前提で、学習データＡの音響特徴量から学習データＢの音響特徴量へ変換する変換器を生成する。ここで、変換器はニューラルネットを利用する。
（２）上記の変換器を利用して学習データＡを変換した十分な量の疑似学習データＣを作成する。
（３）元々の学習データＢと疑似学習データＣとを用いて、音響モデルを認識対象タスクへ適応する学習処理を行う。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
［第一実施形態］
第一実施形態は、完全なパラレルデータが存在する場合に音響特徴量を変換するニューラルネットを学習し、そのニューラルネットを利用して疑似的な学習データを作成する音響特徴量変換装置および方法と、その学習データを利用して音響モデルの適応を行う音響モデル適応装置である。パラレルデータとは、同一の発話内容で音響的特徴が異なる二つの音響特徴量系列の組を言う。音響的特徴は、例えば、話者や雑音タイプ、喋り方などが挙げられる。

第一実施形態の音響特徴量変換装置１は、図１に示すように、入力端子１０、音声信号取得部１１、ラベル付与部１２、特徴量抽出部１３、特徴量照合部１４、変換モデル生成部１５、疑似特徴量生成部１６、音声信号記憶部２１、特徴量記憶部２２、変換モデル記憶部２３、および疑似特徴量記憶部２４を例えば含む。

第一実施形態の音響モデル適応装置２は、図１に示すように、音響特徴量変換装置１の各構成部に加えて、音響モデル学習部１７を例えば含む。図１では、音響モデル適応装置２に音響特徴量変換装置１のすべての構成部が含まれる構成を例示したが、外部の音響特徴量変換装置１の出力を記憶させた特徴量記憶部２２と疑似特徴量記憶部１７のみを含む構成とすることも可能である。

音響特徴量変換装置１および音響モデル適応装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音響特徴量変換装置１および音響モデル適応装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音響特徴量変換装置１および音響モデル適応装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音響特徴量変換装置１および音響モデル適応装置２の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

音響特徴量変換装置１および音響モデル適応装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音響特徴量変換装置１および音響モデル適応装置２が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

図２を参照して、第一実施形態の音響特徴量変換方法の処理手続きを説明する。

ステップＳ１０において、音響特徴量変換装置１の入力端子１０へ、学習データとする音響信号が入力される。学習データには、認識対象タスクに関する音声信号（以下、対象音声信号と呼ぶ）と、対象音声信号と同一の発話内容で音響的特徴が異なる音声信号（以下、参照音声信号と呼ぶ）が含まれる。入力される音声信号は、マイクロホン等の収音手段を入力端子１０へ接続してリアルタイムに人間の発話を収音したものであってもよいし、あらかじめ人間の発話をICレコーダーやスマートフォンの録音機能のような録音手段で不揮発性メモリやハードディスクドライブのような記録媒体へ録音し、入力端子１０へ接続した再生手段により再生することで入力してもよい。

ステップＳ１１において、音声信号取得部１１は、アナログの入力音声信号をディジタル信号に変換する。入力端子１０からディジタルの音声信号が入力された場合には、音声信号取得部１１は備えなくともよい。ディジタルの入力音声信号は、音声信号記憶部２１へ記憶される。

ステップＳ１２において、ラベル付与部１２は、音声信号記憶部２１に記憶された対象音声信号と参照音声信号を読み込み、それぞれの音声信号の音響的特徴を表すラベルを付与する。ラベルを付与された対象音声信号と参照音声信号は、特徴量抽出部１３へ送られる。音響的特徴とは、認識対象タスクによって必要とされる音声信号の属性であり、例えば、話者や雑音タイプ、喋り方などが挙げられる。ラベルの付与方法としては、例えば、（１）あらかじめ音声を収録する際の利用シーンをユーザが指定する方法、（２）ログイン認証や使用アプリケーション等による自動獲得、（３）クラスタリングによる自動分類による自動獲得が挙げられる。

（１）ユーザが指定する方法は、音声を収録する際に、話者であれば「誰が発話するか（例えば、性別、年齢、居住地、言語、個人名等の個人属性情報）」、雑音タイプであれば「どこで発話するか（例えば、車内、街中、会議室等の利用環境）」などをユーザ側で指定することで、対象となる音声信号に音響的特徴のラベルを付与する。

（２）アプリケーション等による自動獲得の方法は、以下のとおりである。話者であれば、例えば、音声を収録する前にユーザログイン認証を設けることで話者のラベルを付与する。また、雑音タイプであれば、使用アプリケーションの種類によってラベルを付与する。例えば、カーナビの音声認識であれば車内雑音、音声認識を利用したゲームであればテレビから発せられる雑音、などのラベルを付与することが考えられる。さらに、雑音タイプを使用アプリケーションから獲得した後、雑音レベルに応じてより細かく分類してもよい。雑音レベルは、例えば、サウンドレベルメータで測定する雑音の音圧レベルの絶対値や、収録音声と雑音のそれぞれの収録音圧レベルに基づくＳ／Ｎ比などを用いることができる。さらに、音声信号を収録した日時などの時間情報や地点などの空間情報を付与して細かく分類してもよい。

（３）クラスタリングによる自動獲得の方法は、話者、収録環境、喋り方等を、例えば、公知のK-means法などでクラスタリングし、ラベルとして「話者１」「話者２」「話者３」…や、「収録環境１」「収録環境２」「収録環境３」…や、「喋り方１」「喋り方２」「喋り方３」…として付与するものである。クラスタリングに用いる音響特徴量としては、例えば、音声信号の短時間フレーム分析に基づくメル周波数ケプストラム係数（MFCC: Mel-Frequency Cepstrum Coefficient）の1〜12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。このとき、話者に対するクラスタリングであれば、例えば、発話区間において上述の音響特徴量を発話区間単位で平均したものを抽出し、それを用いてクラスタリングを実行する。この場合、類似した音響特徴量を持つ話者は同一クラスタに分類されることがあるが、同傾向の話者として音響特徴量をまとめられるものであるため、後述の特徴量変換ニューラルネットの性能に影響を及ぼすことはない。雑音タイプに対するクラスタリングであれば、例えば、発話区間以外の区間（すなわち収録環境を表す区間）について、話者の場合と同様に音響特徴量を抽出し、発話区間以外の区間で平均した音響特徴量についてクラスタリングする。喋り方に対するクラスタリングであれば、例えば、事前に読み上げ口調と自由発話口調とに分類した上で、入力された音声がそのどちらなのかをGMM Supervectorを用いて自動分類するような方法などが挙げられる。このような喋り方に対するクラスタリングは「T. Asami, R. Masumura, H. Masataki, S. Sakauchi, “Read and Spontaneous Speech Classification Based on Variance of GMM Supervectors”, Interspeech 2014, pp. 2375-2379, 2014.（参考文献２）」に記載されている。上記のようなクラスタリングを実行すると、特定のクラスタが話者、収録環境、または喋り方と結びついていることになるので、当該クラスタと類似性の高い発話区間や、発話区間以外の区間、喋り方などに対応する音響信号を特定して、後述の特徴量抽出部１３による音響特徴量を抽出するためのラベルを付与することができる。

上記（１）〜（３）のラベル付与方法を組み合わせて複数種類のラベルを付与してもよい。例えば、話者のラベルはユーザログイン認証で自動獲得して付与し、収録環境のラベルはユーザによる指定により付与し、喋り方のラベルはクラスタリングによる付与とすることができる。

ステップＳ１３において、特徴量抽出部１３は、ラベル付きの対象音声信号と参照音声信号とから、それぞれの音響特徴量を抽出し、ラベル付きの音響特徴量の系列を抽出する。ラベル付きの対象音響特徴量系列と参照音響特徴量系列とは、特徴量記憶部２２へ記憶される。抽出する音響特徴量としては、例えば、音声信号の短時間フレーム分析に基づくメル周波数ケプストラム係数（MFCC: Mel-Frequency Cepstrum Coefficient）の1〜12次元と、その動的特徴量であるΔMFCC、ΔΔMFCCなどの動的パラメータや、パワー、Δパワー、ΔΔパワー等を用いる。また、MFCCに対してはケプストラム平均正規化（CMN: Cepstral Mean Normalization）処理を行ってもよい。抽出する音響特徴量は、MFCCやパワーに限定したものではなく、音声認識に用いられるパラメータを用いてもよい。

特徴量記憶部２２は、ラベル付き対象音響特徴量系列およびラベル付き参照音響特徴量系列を蓄積する。上述のとおり、ラベル付き対象音響特徴量系列は、認識対象タスクに即した話者や雑音タイプ、喋り方などに相当する環境の下で収録された対象音声信号から抽出したラベル付き音響特徴量の系列である。また、ラベル付き参照音響特徴量系列は認識対象タスクではないが、音声の明瞭性が高く、大量のデータが取得可能な参照音声信号から抽出したラベル付き音響特徴量の系列である。ラベル付き参照音響特徴量系列は、例えば、音声認識で利用する本来の音響モデルを生成するために収録した音声信号に基づいた音響特徴量の系列などを用いることが考えられる。また、２つの音響特徴量系列には、同一単語の発話や同一単語ではないが類似音で発声する発話（例えば、「元気」と「天気」など）を多く含んでいることが望ましい。また、それぞれの音響特徴量系列における発話内容はすべて既知であることとする。

ステップＳ１４において、特徴量照合部１４は、特徴量記憶部２２に記憶されたラベル付きの対象音響特徴量系列と参照音響特徴量系列との対応関係を、短時間フレーム単位の特徴量ごとの類似度の大きさに基づいて時系列上で照合する。照合済みの対象音響特徴量系列と参照音響特徴量系列とは、変換モデル生成部１５へ送られる。ラベル付きの対象音響特徴量系列と参照音響特徴量系列とは、発話内容が同じだが、話者や雑音タイプ、喋り方などのラベルが異なるものである。一般的に、発話内容が同一であっても、発話時間の長さは異なる場合がある。ニューラルネットを学習するためには、同じ発話内容であってもフレーム単位で対応付ける必要があるため、音響特徴量を変換するニューラルネットを学習させる前に、時間軸において照合をしておく必要がある。照合方法については、公知の動的時間伸縮法等が挙げられる。動的時間伸縮法については、「内田誠一、“DPマッチング概説〜基本と様々な拡張〜”、信学技報、PRMU2006-166、pp. 31-36、2006年（参考文献３）」に記載されている。当該処理によって照合された結果として生成されたDPパスに基づいて、２つのラベル付き音響特徴量系列に含まれる各特徴量について、類似性の高い特徴量同士の時系列的な対応関係が得られる。

ステップＳ１５において、変換モデル生成部１５は、照合済みの対象音響特徴量系列と参照音響特徴量系列とを用いて、入力された音響特徴量系列の音響的特徴を対象音響特徴量系列と参照音響特徴量系列との対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する。本形態では、この変換モデルはニューラルネットである。以下、この変換モデルを特徴量変換ニューラルネットと呼ぶ。特徴量変換ニューラルネットは、変換モデル記憶部２３へ記憶される。ニューラルネットの学習方法は、例えば、公知の誤差逆伝搬法や確率的勾配降下法等が挙げられる。誤差逆伝搬法や確率的最急勾配法については、「荒木雅弘、“フリーソフトではじめる機械学習入門”、森北出版、2014年」に記載されている。

特徴量変換ニューラルネットの具体的な学習方法を説明する。例えば、話者Ａから話者Ｂに変換する特徴量変換ニューラルネットであれば、話者Ａの発話と話者Ｂの発話をそれぞれ照合済み音響特徴量系列に変換した後、話者Ａの照合済み音響特徴量系列を入力とし、入力音響特徴量系列と時間軸上の対応関係が取れている話者Ｂの照合済み音響特徴量系列を出力として、特徴量変換ニューラルネットを学習する。他の音響的特徴（例えば、雑音タイプや喋り方等）についても同様にして特徴量変換ニューラルネットを学習する。例えば、雑音タイプであれば、雑音タイプＡの下での発話と雑音タイプＢの下での発話をそれぞれ照合済み音響特徴量系列に変換した後、それらの照合済み音響特徴量系列を学習し、特徴量変換ニューラルネットを生成する。また、上述では音響的特徴ごとに特徴量変換ニューラルネットを生成しているが、それらを複合的に変換する特徴量変換ニューラルネットを生成してもよい。つまり、話者Ａが雑音タイプＡの下で発話した音響特徴量系列を、話者Ｂが雑音タイプＢの下で発話した音響特徴量系列に変換する特徴量変換ニューラルネットを生成してもよい。この場合には、話者Ａと雑音タイプＡのラベルが付与された照合済み音響特徴量系列を入力とし、時間軸上の対応関係が取れている話者Ｂと雑音タイプＢのラベルが付与された照合済みラベル付き特徴量系列を出力として、特徴量変換ニューラルネットを学習すればよい。

ステップＳ１６において、疑似特徴量生成部１６は、認識対象タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列を、変換モデル記憶部２３に記憶された特徴量変換ニューラルネットを用いて変換し、疑似音響特徴量を生成する。その際、入力された音響特徴量系列に対し、出力したい疑似音響特徴量に合致したタイプの特徴量変換ニューラルネットを選択する。例えば、話者Ａから話者Ｂに音響的特徴を変換したいのであれば、話者Ａから話者Ｂに音響的特徴を変換する特徴量変換ニューラルネットを選択する。生成した疑似音響特徴量系列は、疑似特徴量記憶部２４へ記憶される。

引き続き、図２を参照して、第一実施形態の音響モデル適応方法の処理手続きを説明する。

特徴量記憶部２２には、認識対象タスクに関する対象音声信号から上述の音響特徴量変換方法で生成された対象音響特徴量系列が記憶されている。

疑似特徴量記憶部２４には、認識対象タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列を上述の音響特徴量変換方法により変換した疑似音響特徴量系列が記憶されている。

ステップＳ１７において、音響モデル学習部１７は、特徴量記憶部２２に記憶された対象音響特徴量系列と疑似特徴量記憶部２４に記憶された疑似音響特徴量系列とを利用して音響モデルを学習する。音声認識における音響モデルとしては、GMM-HMMなどが用いられており、音響モデルを認識対象タスクに適応させる手法は、例えば、「篠田浩一、“確率モデルによる音声認識のための話者適応化技術”、電子情報通信学会論文誌、J87-D-II(2)、pp. 371-386、2004年（参考文献４）」などに記載されている。

このように、第一実施形態の音響特徴量変換装置および方法は、認識対象タスクに関する音声信号を十分に用意できない場合であっても、認識対象タスクと音声的特徴が異なる音声信号の音響的特徴を変換することで疑似音響特徴量を生成することで、十分な学習データを用意することが可能となる。したがって、認識対象タスクに適応した音響モデルの認識率が向上する。

［第二実施形態］
第二実施形態は、完全なパラレルデータが存在しない場合に音響特徴量を変換するニューラルネットを学習し、そのニューラルネットを利用して疑似的な学習データを作成する音響特徴量変換装置および方法と、その学習データを利用して音響モデルの適応を行う音響モデル適応装置である。

第一実施形態では同じ発話内容で話者や雑音タイプ、喋り方などの音響的特徴が異なるパラレルデータを用いて特徴量変換ニューラルネットを学習したが、このようなパラレルデータが存在するケースは非常に稀であり、また存在していたとしても大量に集めることが難しいため、データスパースネスの問題も起こりうる。そこで、第二実施形態では非パラレルデータを用いる場合を考える。動的時間伸縮法等を用いた時間軸での対応付けは、発話内容が同一、すなわちパラレルデータを前提としている。そこで、非パラレルデータでは、あらかじめ各発話の分析フレーム毎の状態番号（後述の隠れマルコフモデル上の状態番号）を推定しておき、その状態番号同士を対応付けて特徴量変換ニューラルネットを生成する。そのため、第二実施形態では、特徴量照合部の処理が第一実施形態と異なることになる。

第二実施形態の音響特徴量変換装置３は、図３に示すように、入力端子１０、音声信号取得部１１、ラベル付与部１２、特徴量抽出部１３、変換モデル生成部１５、疑似特徴量生成部１６、音響モデル学習部１７、音声信号記憶部２１、特徴量記憶部２２、変換モデル記憶部２３、および疑似特徴量記憶部２４を第一実施形態と同様に含み、発話強制アラインメント部１８および特徴量照合部１９を例えば含む。

図４を参照して、第二実施形態の音響特徴量変換方法を説明する。以下では、上述の第一実施形態との相違点を中心に説明する。

ステップＳ１８において、発話強制アラインメント部１８は、特徴量記憶部２２に記憶された対象音響特徴量系列と参照音響特徴量系列とから、強制アラインメントを実行することでアラインメント済みの対象音響特徴量系列と参照音響特徴量系列を生成する。生成したアラインメント済みの対象音響特徴量系列と参照音響特徴量系列は、特徴量照合部１９へ送られる。強制アラインメントとは、音響特徴量系列の発話内容が既知である前提で、その発話内容に一致する正解テキストに対する音声認識を実行し、認識処理過程における状態遷移を観測することで、入力した分析フレーム毎の特徴量に対応する隠れマルコフモデル（HMM: Hidden Markov Model）の状態番号を割り当てる処理である。なお、音声認識ではしばしば音素認識のために隠れマルコフモデルを用い、状態番号はトライフォン（triphone）までを考える。トライフォンは分類すべき音素の前後の音素関係も含めた音素の３つ組みである。トライフォンでは、例えば「a-k-a」のように３音素を１つの状態番号として考える。なお、モノフォン（monophone）は音素１つ、バイフォン（biphone）は音素２つの組を１つの状態番号として考える。強制アラインメントは正解テキストを用いてビタビアルゴリズム等を利用して実行される。なお、音声認識における隠れマルコフモデルやビタビアルゴリズムについては「鹿野他、“IT Text 音声認識システム”、オーム社、2001年」に記載されている。

ステップＳ１９において、特徴量照合部１９は、アラインメント済みの対象音響特徴量系列と参照音響特徴量系列とを、それぞれに割り当てられた状態番号同士で照合する。照合済みの対象音響特徴量系列と参照音響特徴量系列は、変換モデル生成部１５へ送られる。例えば，話者Ａのアラインメント済み音響特徴量系列と話者Ｂのアラインメント済み音響特徴量系列とにおいて、発話内容は異なるが状態番号が同じである分析フレームを照合済みの音響特徴量系列として出力する。例えば、話者Ａが発話した「天気」と話者Ｂが発話した「元気」とを音素レベルで比較した場合、発話内容は異なるが「g/e/ng/k/i」と「t/e/ng/k/i」では「ng」などは同じ音素であり、前後の音素関係も同じであるため、同じ状態番号が付与されている。

特徴量照合部１９では、発話全体ではないものの、状態遷移のアラインメントが一致した２つの照合済み音響特徴量系列を得ることができる。状態遷移のアラインメントは時間軸上の対応関係とは必ずしも同一の物理量とは限らないが、２つの音響特徴量系列の対応関係を記したものとして時間軸上の対応関係と同様に取り扱うことができる。

このように、第二実施形態の音響特徴量変換装置および方法は、パラレルデータを十分に用意できない場合であっても、強制アラインメントにより状態遷移のアラインメントが一致する照合済み音響特徴量系列を用いることができるため、第一実施形態の音響特徴量変換装置および方法と同様の疑似音響特徴量系列を得ることができる。したがって、第一実施形態と同様に、認識対象タスクに適応した音響モデルの認識率が向上する。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１、３音響特徴量変換装置
２音響モデル適応装置
１０入力端子
１１音声信号取得部
１２ラベル付与部
１３特徴量抽出部
１４、１９特徴量照合部
１５変換モデル生成部
１６疑似特徴量生成部
１７音響モデル学習部
１８発話強制アラインメント部
２１音声信号記憶部
２２特徴量記憶部
２３変換モデル記憶部
２４疑似特徴量記憶部

Claims

認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列と上記対象音声信号と発話内容が対応する参照音声信号から抽出した参照音響特徴量系列とを生成する特徴量抽出部と、
上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を特徴量ごとの類似度に基づいて照合した照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを生成する特徴量照合部と、
上記照合済み対象音響特徴量系列と上記照合済み参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を上記対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する変換モデル生成部と、
上記変換モデルを用いて上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する疑似特徴量生成部と、
を含む音響特徴量変換装置。
請求項１に記載の音響特徴量変換装置であって、
上記特徴量照合部は、上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を短時間フレーム単位の特徴量ごとの類似度の大きさに基づいて時系列上で照合するものである
音響特徴量変換装置。
請求項１に記載の音響特徴量変換装置であって、
上記対象音響特徴量系列と上記参照音響特徴量系列とに対して確率モデルに基づく音声認識を行い、上記確率モデルの状態番号を割り当てる発話強制アラインメント部をさらに含み、
上記特徴量照合部は、上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を上記状態番号の遷移が一致する音素列に基づいて照合するものである
音響特徴量変換装置。
請求項１から３のいずれかに記載の音響特徴量変換装置であって、
上記変換モデルは、上記入力音響特徴量の音響的特徴を上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係に基づいて変換するニューラルネットである
音響特徴量変換装置。
認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列を記憶する音響特徴量記憶部と、
請求項１から４のいずれかに記載の音響特徴量変換装置が生成した変換モデルを用いて、上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を記憶する疑似音響特徴量記憶部と、
上記対象音響特徴量系列と上記疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習部と、
を含む音響モデル適応装置。
特徴量抽出部が、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列と上記対象音声信号と発話内容が対応する参照音声信号から抽出した参照音響特徴量系列とを生成する特徴量抽出ステップと、
特徴量照合部が、上記対象音響特徴量系列と上記参照音響特徴量系列との対応関係を特徴量ごとの類似度に基づいて照合した照合済み対象音響特徴量系列と照合済み参照音響特徴量系列とを生成する特徴量照合ステップと、
変換モデル生成部が、上記照合済み対象音響特徴量系列と上記照合済み参照音響特徴量系列とを用いて、入力音響特徴量の音響的特徴を上記対応関係に基づいて変換した音響特徴量系列を出力する変換モデルを学習する変換モデル生成ステップと、
疑似特徴量生成部が、上記変換モデルを用いて上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列を生成する疑似特徴量生成ステップと、
を含む音響特徴量変換方法。
音響特徴量記憶部に、認識対象とするタスクに関する対象音声信号から抽出した対象音響特徴量系列が記憶されており、
疑似音響特徴量記憶部に、請求項６に記載の音響特徴量変換方法で生成した変換モデルを用いて、上記タスクと音響的特徴が異なる音声信号から抽出した音響特徴量系列の音響的特徴を変換した疑似音響特徴量系列が記憶されており、
音響モデル学習部が、上記対象音響特徴量系列と上記疑似音響特徴量系列とを用いて音響モデルを学習する音響モデル学習ステップと、
を含む音響モデル適応方法。
請求項１から４のいずれかに記載の音響特徴量変換装置もしくは請求項５に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。