しかしながら上述の音声認識装置では、未知語の認識が不可能となるという問題点がある。また、大規模な言語コーパスを使用した場合であっても、すべての単語をカバーすることは不可能であるという問題点がある。
また、未知語への対応を可能にする音声認識装置の実現には、高精度に音素を認識できる手段が必要になるが、現在の音声認識装置は、言語モデルなし、即ち、単語辞書を参照できない場合の音素認識性能は60〜80%に留まる(なお、人間は98%以上の高い精度で音素を聞き取ることができるため、未知語についても効果的に聞き直すなどして効率よく処置できる。)。以上の理由が、未知語の認識が不可欠な音声対話や音声検索などのアプリケーションにおいて、音声によるインタフェースの導入が阻害される大きな要因となっているという問題点がある。
一方、音声を調音特徴で表現する方法が古くから音声学の分野で提案されている。国際音声記号(International Phonetic Alphabet:IPA)として標準的な記法も提案されている。また、調音に関わる構造的な特徴を基に音素(音韻)を分類する、弁別的特徴(有声性/非有声性/連続性/半母音性/破裂性/摩擦性/破擦性/舌端性/鼻音性/高舌性/低舌性/(舌の盛上る位置が)前方性/後方性/・・・;Distinctive Feature:DF)も古くから提案されている。また、音声から弁別的特徴などの調音特徴を直接抽出する方法も,ニューラルネットワークを利用する手法など多く提案されている(非特許文献4参照)。
日本語の音素に関する弁別的音素特徴(Distinctive Phonetic Feature; DPF)を図16に示す。ここで弁別的音素特徴とは、調音特徴の表現方法の一つである。図は、縦欄が弁別的特徴を示しており、横欄が個々の音素を示している。そして、この表から一つの音素を生成する際に必要な発声器官の動作を知ることができる。図16のうちnil(高/低)およびnil(前/後)は、各々、高舌性/低舌性のどちらにも属さない音素、及び(舌の盛上る位置が)前方性/後方性のどちらにも属さない音素に対して、弁別特徴を割り当てるため,新たに追加した特徴であることを示す。このように音素間のバランスをとることで,音声認識性能が向上することが知られている。
しかしながら、抽出した弁別的音素特徴から音声認識を行った場合、音声スペクトルもしくは音声ケプストラムを特徴とする従来の特徴と比べて顕著な性能が得られていないのが実情である(非特許文献5参照)。
上述の問題点を解決するために、請求項1に係る発明の調音特徴抽出装置では、音声を取得する音声取得手段と、前記音声取得手段にて取得された音声の調音特徴を抽出する調音特徴抽出手段と、前記調音特徴抽出手段にて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出手段と、前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正手段と、前記調音運動修正手段にて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御手段とを備え、前記調音運動修正手段は、前記成分抽出手段にて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする。
また、調音特徴抽出装置に係る前記発明においては、その構成に加えて、前記変位成分、前記速度成分、及び前記加速度成分のうち少なくともいずれかに基づき、前記変位成分を時間軸に沿って観測した場合において、その推移が凹パターンとなるか凸パターンとなるかを認識するパターン認識手段を備え、前記調音運動修正手段は、前記パターン認識手段にて認識されたパターンに基づき、前記調音運動を前記修正調音運動に修正することを特徴とする。
また、調音特徴抽出装置に係る前記各発明においては、その構成に加えて、前記調音運動修正手段における抑制強調関数は、ニューラルネットワークに前記変位成分、前記速度成分、及び前記加速度成分を通すことによって、シグモイド関数を利用して算出されるものであることを特徴とする。
また、請求項2に係る発明の調音特徴抽出方法では、音声を取得する音声取得ステップと、前記音声取得ステップにて取得された音声の調音特徴を抽出する調音特徴抽出ステップと、前記調音特徴抽出ステップにて抽出された前記調音特徴の時系列データである調音特徴系列の変位成分より、速度成分と加速度成分とを抽出する成分抽出ステップと、前記調音特徴系列を運動軌跡に変換し、前記運動軌跡に基づいて、前記調音特徴系列にて表わされる調音の運動である調音運動を修正する調音運動修正ステップと、前記調音運動修正ステップにて修正された前記調音運動である修正調音運動を記憶手段に記憶する記憶制御ステップとを備え、前記調音運動修正ステップは、前記成分抽出ステップにて抽出された調音特徴毎の前記加速度成分の値を正、負および零に分類し、該加速度成分の値が正の場合は調音動作を抑制する抑制強調関数を算出し、該加速度成分の値が負の場合は調音動作を強調する抑制強調関数を算出し、該加速度成分の値が零の場合は修正しない抑制強調関数を算出し、前記加速度成分の値に応じて異なる前記抑制強調関数を前記調音特徴系列に乗算することにより、前記調音特徴毎の調音運動を前記修正調音運動に修正することを特徴とする。
また、調音特徴抽出方法に係る前記発明においては、その発明の構成に加えて、前記変位成分、前記速度成分、及び前記加速度成分のうち少なくともいずれかに基づき、前記変位成分を時間軸に沿って観測した場合において、その推移が凹パターンとなるか凸パターンとなるかを認識するパターン認識ステップを備え、前記調音運動修正ステップは、前記パターン認識ステップにて認識されたパターンに基づき、前記調音運動を前記修正調音運動に修正することを特徴とする。
また、調音特徴抽出方法に係る前記各発明においては、その構成に加えて、前記調音運動修正ステップにおける抑制強調関数は、ニューラルネットワークに前記変位成分、前記速度成分、及び前記加速度成分を通すことによって、シグモイド関数を利用して算出されるものであることを特徴とする。
また、請求項3に係る発明の調音特徴抽出プログラムでは、請求項1に記載の調音特徴抽出装置の各処理手段としてコンピュータを駆動させる。
請求項1に係る発明の調音特徴抽出装置は、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。これにより、音声スペクトルを使用して音声を認識する従来の音声認識装置と比較して、精度の高い音声認識を行うことが可能となる。
従来の音声のスペクトルを特徴とした音声認識では、話者や発話時の文脈、周囲騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用するHMMの設計に多くの音声データを必要としていた。また、HMMの混合数も10以上が必要とされ,高性能な音声認識装置とするためにはコストが嵩んでしまっていた。これに対し本発明の調音特徴抽出装置では、音声中の調音特徴を高精度に抽出できるため、HMMの混合数は数個程度で済む。音声スペクトルを特徴として利用する従来法の場合,その中に言語情報以外の様々な情報,例えば外部騒音や発話時の調音結合(前後の音素の影響)が混入する結果,分類目的の音素や単語の変形が爆発的に増えることになる。近年のHMMに基づく音声認識装置では,音声スペクトル(実際に多用されるのは,音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに,スペクトルの対数値を離散コサイン変換(DCT)した「メルケプストラム (Mel Frequency Cepstrum Coefficient; 通称MFCC)」が使用される)を直接,入力特徴として使用した場合,個々のベクトル要素の変動を複数の正規分布から表現する。複数の正規分布は混合分布と呼ばれ,この数は前述した様々な変形に対処するため,近年では60〜70の分布を使用するものが現れている。このように,厖大なメモリと演算が必要となった原因は,音声中に隠された変数を特定せずに,音素や単語を分類しようとした結果といえる。本発明は,隠れ変数を調音動作と特定した結果,音素分類器や単語分類器の規模(ここでは混合数)を小規模に押さえることが可能になる。
また、調音特徴の高精度抽出は、音素認識性能を飛躍的に向上させ、未知語の問題に対して人間が行っている対応と同様の対応を行うことが可能となる。従って、音素系列を利用した確認発話文の合成により,対話をスムースに進めることが可能になる。
さらに,調音特徴は多くの場合,テキスト(かな系列に変換した読み)と一対一に対応するため、音声ドキュメントとテキストドキュメントに対する検索を,音声およびテキスト(キーボード)の双方から相互に検索することが可能となる。
また、上記調音特徴抽出装置における調音運動は、成分抽出手段にて抽出された加速度成分に基づいて、抑制強調関数を算出するとともに、その抑制強調関数を調音特徴系列に乗算することにより、修正調音運動に修正されるので、話者や発話時の文脈、周囲の騒音等に依存せず、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。
また、調音特徴抽出装置に係る発明では、前記の効果に加えて、修正調音運動は、変位成分を時間軸に沿って観察した場合における推移のパターン(凹パターン、凸パターン)に基づいて修正されるので、調音結合により音素が単音の状態と異なる状態となった場合であっても、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。
また、調音特徴抽出装置に係る発明では、前記の効果に加えて、ニューラルネットワークを使用することにより、高速に修正調音運動を得ることができる。
また、請求項2に係る発明の調音特徴抽出方法は、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。これにより、音声スペクトルを使用して音声を認識する従来の音声認識装置と比較して、精度の高い音声認識を行うことが可能となる。
従来の音声のスペクトルを特徴とした音声認識では、話者や発話時の文脈、周囲騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用する隠れマルコフモデル(HMM)の設計に多くの音声データを必要としていた。また、HMMの混合数も10以上が必要とされ,高性能な音声認識装置とするためにはコストが嵩んでしまっていた。これに対し本発明の調音特徴抽出装置では、音声中の調音特徴を高精度に抽出できるため、HMMの混合数は数個程度で済む。音声スペクトルを特徴として利用する従来法の場合,その中に言語情報以外の様々な情報,例えば外部騒音や発話時の調音結合(前後の音素の影響)が混入する結果,分類目的の音素や単語の変形が爆発的に増えることになる。近年のHMMに基づく音声認識装置では,音声スペクトル(実際に多用されるのは,音声スペクトルを聴覚特性に合わせて周波数をメル尺度化するとともに,スペクトルの対数値を離散コサイン変換(DCT)した「メルケプストラム (Mel Frequency Cepstrum Coefficient; 通称MFCC)」が使用される)を直接,入力特徴として使用した場合,個々のベクトル要素の変動を複数の正規分布から表現する。複数の正規分布は混合分布と呼ばれ,この数は前述した様々な変形に対処するため,近年では60〜70の分布を使用するものが現れている。このように,厖大なメモリと演算が必要となった原因は,音声中に隠された変数を特定せずに,音素や単語を分類しようとした結果といえる。本発明は,隠れ変数を調音動作と特定した結果,音素分類器や単語分類器の規模(ここでは混合数)を小規模に押さえることが可能になる。
また、調音特徴の高精度抽出は、音素認識性能を飛躍的に向上させ、未知語の問題に対して人間が行っている対応と同様の対応を行うことが可能となる。従って、音素系列を利用した確認発話文の合成により,対話をスムースに進めることが可能になる。
さらに,調音特徴は多くの場合,テキスト(かな系列に変換した読み)と一対一に対応するため、音声ドキュメントとテキストドキュメントに対する検索を,音声およびテキスト(キーボード)の双方から相互に検索することが可能となる。
また、上記調音特徴抽出方法における調音運動は、成分抽出手段にて抽出された加速度成分に基づいて、抑制強調関数を算出するとともに、その抑制強調関数を調音特徴系列に乗算することにより、修正調音運動に修正されるので、話者や発話時の文脈、周囲の騒音等に依存せず、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。
また、調音特徴抽出方法に係る発明では、前記の効果に加えて、修正調音運動は、変位成分を時間軸に沿って観察した場合における推移のパターン(凹パターン、凸パターン)に基づいて修正されるので、調音結合により音素が単音の状態と異なる状態となった場合であっても、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。
また、調音特徴抽出方法に係る発明では、前記の効果に加えて、ニューラルネットワークを使用することにより、高速に修正調音運動を得ることができる。
また、請求項3に係る発明の調音特徴抽出プログラムは、請求項1に記載の調音特徴抽出装置の各処理手段としてコンピュータを駆動させることが可能となる。
以下、本発明の調音特徴抽出装置、調音特徴抽出方法の実施の形態について、図面を参照して説明する。なお、これらの図面は、本発明が採用しうる技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、特に特定的な記載がない限り、それのみに限定する趣旨ではなく、単なる説明例である。
はじめに、図1を参照し、調音特徴抽出装置1の電気的構成について説明する。図1は、調音特徴抽出装置1の電気的構成を示す模式図である。図1に示すように、調音特徴抽出装置1は、中央演算処理装置11、入力装置12、出力装置13、記憶装置14、及び、外部記憶装置15から構成されている。
中央演算処理装置11は、数値演算・制御などの処理を行うために設けられており、本実施の形態において説明する処理手順に従って演算・処理を行う。例えばCPU等が使用可能である。入力装置12は、マイクロホンやキーボード等で構成され、利用者が発声した音声やキー入力された文字列が入力される。出力装置13は、ディスプレーやスピーカ等で構成され、特徴抽出結果,あるいは特徴抽出結果を処理することによって得られた情報が出力される。記憶装置14は、中央演算処理装置11によって実行される処理手順(調音特徴抽出プログラム)や,その処理に必要な一時データが格納される。例えば、ROM(リード・オンリー・メモリ)やRAM(ランダム・アクセス・メモリ)が使用可能である。また外部記憶装置15は、調音特徴抽出処理に使用される特徴分析用係数セット、調音特徴抽出処理に使用されるニューラルネットの重み係数セット、調音運動修正処理に使用される係数セット、音声認識処理に必要なモデル、入力された音声のデータ、解析結果データ等を記憶する為に設けられている。例えばハードディスクドライブ(HDD)が使用可能である。そしてこれらは、互いにデータの送受信が可能なように、バス22を介して電気的に接続されている。
なお,本発明の調音特徴抽出装置1のハードウエア構成は,図1に示す構成に限定されるものではない。従って、インターネット等の通信ネットワークと接続する通信I/Fを備えていても構わない。
また、本実施の形態では、調音特徴抽出装置1および調音特徴抽出プログラムは他のシステムから独立した構成を有しているが、本発明はこの構成に限定されるものではない。従って、他の装置の一部として組込まれた構成や,他のプログラムの一部として組込まれた構成とすることも可能である。またその場合における入力は,上述の他の装置やプログラムを介して間接的に行われることになる。
次いで、外部記憶装置15に記憶されている記憶データについて説明する。図1に示すように、外部記憶装置15には、単語発音辞書が記憶されている単語発音辞書記憶領域16、隠れマルコフモデルが記憶されている隠れマルコフモデル記憶領域17、言語モデルが記憶されている言語モデル記憶領域18、各処理時に使用される係数が記憶されている係数記憶領域19、入力された音声が記憶される入力音声記憶領域20、処理後のデータが記憶される処理結果記憶領域21、及びその他の領域が設けられている。
単語発音辞書記憶領域16には、単語を構成する音素列が記憶されている。隠れマルコフモデル記憶領域17には、中央演算処理装置11において音声認識が行われる場合に参照される隠れマルコフモデルが記憶されている。言語モデル記憶領域18には、認識可能な単語モデル(言語コーパス)が記憶されている。係数記憶領域19には、調音特徴抽出処理に使用される特徴分析用係数セット、調音特徴抽出処理に使用されるニューラルネットの重み係数セット、調音運動修正処理に使用される係数セット等が記憶される。入力音声記憶領域20には、入力装置12を介して入力された音声データが記憶される。処理結果記憶領域21には、中央演算処理装置11において実行される各種処理の結果得られたデータが記憶される。なおこれらのデータの詳細は後述する。
次に、本発明の調音特徴抽出装置1にて実行される音声認識処理について、図2〜8を参照して説明する。図2は、調音特徴抽出装置1にて実行される調音特徴抽出処理を示す機能ブロック図である。図3は、特徴分析部210の機能詳細を示すブロック図である。図4は、調音特徴抽出部220の機能詳細を示すブロック図である。図5は、局所特徴抽出部221より得られる特徴分析部時間方向の局所特徴の一例である。図6は、局所特徴抽出部221より得られる周波数方向の局所特徴の一例である。図7は、弁別的音素特徴抽出部222にて得られる調音特徴の一例である。図8は、調音運動修正部230の機能詳細を示すブロック図である。図9は、調音運動修正処理部232における処理を示したフローチャートである。
図2に示すように、本発明の調音特徴抽出装置1において実行される調音抽出処理に必要な機能ブロックとして、入力部201、A/D変換部202、特徴分析部210、調音特徴抽出部220、調音運動修正部230、単語分類部204、出力部205、記憶部206及び記憶部207が設けられている。
記憶部207には、各種係数セット2071が記憶されている。そして、特徴分析部210、調音特徴抽出部220、及び調音運動修正部230より、記憶されている係数セットが参照可能な状態となっている。記憶部206には、発音単語辞書2061、隠れマルコフモデル2062、言語モデル2063、及びその他のデータが記憶されている。そして、単語分類部204より記憶されているデータが参照可能な状態となっている。
なお、図2における入力部201、A/D変換部202、単語分類部204、及び出力部205については、図15にて示した従来の音声認識処理装置における該当部分の機能と同一であるため、説明を省略し又は簡略する。
入力部201は、外部から入力される音声を受け付け、アナログ電気信号に変換するために設けられる。A/D変換部202は、入力部201にて受け付けられたアナログ信号をデジタル信号に変換するために設けられる。特徴分析部210は、音声認識のために必要となる所定の特徴量を抽出するために設けられる(図3参照、詳細後述。)。調音特徴抽出部220は、特徴分析部210において抽出された特徴量の時系列データから、調音特徴の時系列データ(以下、「調音特徴系列」という。)を抽出するために設けられる(図4参照、詳細後述)。調音運動修正部230は、調音特徴抽出部220にて抽出された調音特徴系列を運動軌跡に変換し、さらに、変換された運動軌跡を所定の規則に基づいて修正するために設けられる(図8参照、詳細後述。)。
単語分類部204は、調音運動修正部230より得られる修正された調音運動(以下「修正調音運動」という。)に基づいて、音声に含まれる単語を検索するために設けられる。記憶部207は、特徴分析部210、調音特徴抽出部220、及び、調音運動修正部230において処理が実行される場合に参照される。記憶部206は、単語分類部204において単語を検索する場合に参照される。出力部205は、単語分類部204において検索された結果の単語を出力するために設けられている。
図2の機能ブロックに基づいた音声認識処理の流れについて説明する。入力部201より入力された未知の音声は、A/D変換部202を通して離散化され、デジタル信号に変換される。そして変換されたデジタル信号は、特徴分析部210に出力される。
特徴分析部210の機能詳細について、図3を参照して説明する。図3に示すように、特徴分析部210は、フーリエ変換部211とフィルタ部212とから構成されている。特徴分析部210では、A/D変換部202にて変換されたデジタル信号は、はじめに、フーリエ変換部211においてフーリエ分析(窓幅24〜32msecのハミング窓使用)される。次いでフィルタ部212において、24チャネル程度の帯域通過フィルタに通されてノイズ成分が除去される。これにより、5〜10msec間隔の音声スペクトル系列及び音声パワー系列が抽出される。そして得られた音声スペクトル系列及び音声パワー系列は、調音特徴抽出部220に対して出力される。
調音特徴抽出部220の機能詳細について、図4を参照して説明する。調音特徴抽出部220では、調音に関わる運動特徴が抽出される。図4に示すように、調音特徴抽出部220は、局所特徴抽出部221と弁別的音素特徴抽出部222とから構成されている。
特徴分析部210より得られる音声スペクトル系列は、はじめに局所特徴抽出部221に入力される。局所特徴抽出部221では、時間軸微分特徴抽出部223及び周波数軸微分特徴抽出部224により時間軸方向及び周波数軸方向の微分特徴が抽出される。またこれとは別に、音声パワー系列の時間軸微分特徴が計算される。これらの微分特徴(以下「局所特徴」という。)の抽出にあたっては、ノイズ変動などの影響を抑えるため線形回帰演算が用いられる。これらの微分特徴抽出の際には、ノイズ変動などの影響を抑制するため、(2)式及び(3)式にて与えられる線形回帰演算が用いられる。
ここで、x(i,t)は音声スペクトル系列もしくは音声パワー系列を示す。iは周波数チャンネルを示す(なお音声パワー系列の場合は、i=1の関係が成立する。)。tは時刻を示す。Δtx(i,t)、Δfx(i,t)は、各々、x(i,t)の時間方向の一次微分量と周波数方向の一次微分量であることを示す。
式中のkは、線形回帰演算を行う位置を示す。δはその片側の幅である。具体的には、局所特徴抽出の場合、δ=1で線形回帰演算は三点、すなわち時間方向では着目する時刻を中心としてt=−1,0,+1の三点が,また周波数方向では着目するチャンネルを中心としてi=−1,0,+1の三点から線形回帰係数が各々(2)式と(3)式とを用いて求められる。局所特徴抽出部221にて算出された時間方向の局所特徴(図5参照)、及び周波数方向の局所特徴(図6参照)の一例について、図5及び図6に示す。図5及び図6は、「人工衛星」(jinkoese)という発話に対して求められた局所特徴を示している。そして、抽出された局所特徴は、弁別的音素特徴抽出部222に出力される。
なお、弁別的音素特徴抽出部222の入力データとしては,上述した局所特徴以外にも、性能は若干劣るが、音声スペクトル、あるいは音声スペクトルを直交化したケプストラム(実際には周波数軸をメル尺度化して求めるメルケプストラムが用いられる)を使用してもよい。
次いで図4に示すように、弁別的音素特徴抽出部222では、局所特徴抽出部221にて抽出された局所特徴に基づき、調音特徴系列が抽出される。弁別的音素特徴抽出部222は、二段のニューラルネットワーク(第一多層ニューラルネット225、第二多層ニューラルネット226)から構成される。
弁別的音素特徴抽出部222を構成するニューラルネットワークについて詳説する。弁別的音素特徴抽出部222を構成するニューラルネットワークは、図4に示すように、初段の第一多層ニューラルネット225と、次段の第二多層ニューラルネット226との二段から構成される。第一多層ニューラルネット225では、音声スペクトル系列及び音声パワー系列より求めた局所特徴間の相関から、調音特徴系列を抽出する。また、第二多層ニューラルネット226では、調音特徴系列が持つ相互依存関係から意味のある部分空間を抽出し、精度の高い調音特徴系列を求める。弁別的音素特徴抽出部222にて算出された調音特徴抽出結果の一例について、図7に示す。図7は、「人工衛星」(jinkoese)という発話に対して求められた調音特徴抽出結果を示している。
なお、調音特徴系列を求めるニューラルネットワークの構成は、図4にて述べた二段構成のほか、性能を犠牲にすれば一段構成でも実現可能である(非特許文献5参照)。個々のニューラルネットワークは階層構造を持っており、入力層と出力層を除く隠れ層を1から2層持つ(多層ニューラルネットワーク)。また、出力層や隠れ層から入力層にフィードバックする構造を持つ、所謂リカレントニューラルネットワークが利用されることもある。調音特徴抽出に対する性能という点で比較すると、其々のニューラルネットワークにおいて算出された結果にそれほど大きな差はない。これらのニューラルネットワークは,非特許文献6に示される重み係数の学習を通して調音特徴抽出器として機能する(非特許文献6参照)。
坂和正敏,田中雅博,ニューロコンピューティング入門,森北出版(1997年 平成9年) 多層ニューラルネットワークについては,pp.13- 48 2章「階層型ネットワークと学習メカニズム」に,誤差逆伝播法による重み係数の計算方法が記述されている。また,リカレントニューラルネットワークについては,pp.83-96 4章「リカレントニューラルネットワーク」に同じく重み係数の計算方法が記載されている。
弁別的音素特徴抽出部222のニューラルネットワークでの学習は、入力層に音声の局所特徴データを加え,出力層には,音声の調音特徴を教師信号として与えることで行われる。
一方,調音特徴系列自体は脳から調音器官へ指令される信号であり,音声から求められた調音特徴系列は,指令を受けて調音動作した結果,すなわち発話器官の筋動作によるなまけを伴っていると考えられる。そこで,発話のアナログ的筋運動の結果を理想的な調音の系列(2値の離散系列)に近づける処理として,本発明では調音運動修正部230を導入している。
調音運動修正部230について、図8を参照して説明する。図8に示すように、調音運動修正部230は、速度/加速度成分抽出部231と調音運動修正処理部232とから構成されている。速度/加速度成分抽出部231では、調音特徴系列(弁別的音素特徴系列など)から,速度及び加速度が求められる。また調音運動修正処理部232では,速度/加速度成分抽出部231にて求められた速度及び加速度の値に基づき、調音特徴系列により表わされる調音の運動(「調音運動」という。)が修正される。調音運動とは、調音運動変位(変位成分、調音特徴の振幅値),調音運動速度(速度成分、調音特徴の時間微分値),および調音運動加速度(加速度成分、調音運動速度の時間微分値,調音運動変位の2階微分値)の三つから規定される。
はじめに、速度/加速度成分抽出部231における処理の詳細について、図8を参照して説明する。速度/加速度成分抽出部231において調音特徴系列の変位成分より速度成分と加速度成分を求める場合には,はじめに、(2)式におけるx(i,t)を調音特徴系列DPF(m,t)と置き換える。これにより,速度成分系列VDPF(m,t)が求められる。なお式中、「m」(=1,2、・・・M)は,破裂性,高舌性などを示す調音特徴番号を示しており、「t」(=1,2、・・・T)は時刻を示している。
次に、上述により求めた速度成分系列VDPF(m,t)を,同じく(2)式のx(i,t)に代入する。これにより,加速度成分系列ADPF(m,t)が求められる。図8のうち、速度/加速度成分抽出部231のV/ADPF(1)・・・(15)233は,この算出アルゴリズムを示している。
次に、調音運動修正処理部232における処理の詳細について、図8を参照して説明する。調音運動修正処理部232では、速度/加速度成分抽出部231にて得られた速度成分及び加速度成分(VDPF(m,t)、ADPF(m,t))を用い、調音特徴m毎に調音運動を修正する。図8のうち、調音運動修正処理部232のMDPF(1)・・・(15)234は,この修正アルゴリズムを示している。
調音運動修正部230における具体的な処理内容について、図9に示すフローチャートを参照して説明する。なお本処理では,「調音運動は調音動作(唇が閉じる/前舌が上がる/・・・)を実現するべく行われ,その結果として,上に凸の運動が観測される。一方,調音が終了すると下に凸の運動が観測される」という推定に基づいている。
図9に示すように、調音運動修正部230では、はじめに、速度/加速度成分抽出部231において調音特徴系列DPF(m,t)から加速度成分ADPF(m,t)が算出される(S11)。次いで、算出された加速度成分ADPF(m,t)の値が正であるか、負であるか、又は零であるかが判断される(S13、S15)。そして、判断結果に応じ、調音運動の修正が行われる(S17、S19、S21)。加速度成分ADPF(m,t)が負である場合は、調音特徴系列の運動軌跡はピークを示し、極大値(この時点を調音点と呼ぶ)に接近した後、離れていく途中であることを意味する。また正である場合は、調音特徴系列の運動軌跡は下降の状態、すなわち調音動作が終了したか、次の調音動作に向かう準備中であることし、調音動作が終了して調音点から離れていく動作を意味する。
図9に示すように、ADPF(m,t)の値が正である場合(S13:YES)、調音動作を抑制する為に、(4)式に加速度成分ADPF(m,t)が代入される。その結果、抑制強調関数f(m,t)が求められる(S17)。(4)式は、ニューラルネットワークで利用されることの多いシグモイド関数を用いて、抑制を実現したものである。そしてS23の処理に移行する。
一方、ADPF(m,t)の値が零である場合(S13:NO、S15:YES)、加速度成分ADPF(m,t)に修正は行われない。その結果、抑制強調関数f(m,t)には1が代入される((5)式参照)(S19)。そしてS23の処理に移行する。
一方、ADPF(m,t)の値が負である場合(S15:NO)、調音動作を強調する為に、(6)式に加速度成分ADPF(m,t)が代入される。その結果、抑制強調関数f(m,t)が求められる(S21)。(6)式は、(4)式と同様、ニューラルネットワークで利用されることの多いシグモイド関数を用いて、強調を実現したものである。そしてS23の処理に移行する。
次いで、S23において、調音特徴系列DPF(m,t)に算出された抑制強調関数f(m,t)が乗算される(S23)。これにより、調音運動が修正される。そして処理が終了される。
このように、図9に示すフローチャートでは、シグモイド関数を利用して、抑制強調関数f(m,t)を算出する。そして,算出された値を元の調音特徴系列DPF(m,t)に乗算することで,調音運動を修正し、修正調音運動DPF'を得ている。
なお、図8及び図9を参照して説明した調音運動修正部230の調音運動修正処理は,本実施の形態に限定されず、他の方法でも実現可能である。図10及び図11を参照し、異なる調音運動修正部の変形例について説明する。図10は、調音運動修正部330の機能詳細を示すブロック図である。図11は、調音運動修正部430の機能詳細を示すブロック図である。
はじめに図10を参照して、ニューラルネットワークを使用した調音運動修正部330の構成について説明する。図10に示す調音運動修正部330では、調音運動修正処理部332が調音特徴毎に設けられたニューラルネットワークNDPF(1)・・・(15)334にて構成されている。調音運動修正部330では、はじめに、速度/加速度成分抽出部331において、調音特徴系列DPF(m,t)より速度成分系列VDPF(m,t)、及び、加速度成分系列ADPF(m,t)が算出される(図10のうち、速度/加速度成分抽出部331のV/ADPF(1)・・・(15)333は,この算出アルゴリズムを示している。)。
そして、調音特徴系列DPF(m,t)と、算出された速度成分系列VDPF(m,t)及び加速度成分系列ADPF(m,t)とが、調音運動修正処理部332のニューラルネットワークNDPF(1)・・・(15)334に入力される。そしてNDPF(1)・・・(15)334において調音運動が修正され、修正調音運動が出力される。
次に、図11を参照して、統合ニューラルネットワークを使用した調音運動修正部430の構成について説明する。図11に示す調音運動修正部430では、調音運動修正処理部432が、図10にて示した調音特徴毎に独立したニューラルネットワークの代わりに、調音特徴間の制約を入れた,統合型のニューラルネットワークNDPF434として構成されている。速度/加速度成分抽出部431における処理、及び、調音運動修正処理部432に対して出力されるデータについては、図10の場合と同様であるので、説明を省略する。
図4に示すように、調音運動修正部230(調音運動修正部330、及び調音運動修正部330も同様)において修正された修正調音運動は、単語分類部204において単語発音辞書2061、HMM2062、及び言語モデル2063が参照され、発話された単語が特定される。そして、特定された単語が出力部205より出力される。単語分類における計算過程は、背景技術に述べた従来方式と同じである。すなわち(1)式中の入力音声特徴x(i,t)(従来方式では音声スペクトルやMFCC)に,調音特徴(DPF(m,t))を代入することで,単語k(もしくは音素k)の音響尤度が得られる。
以上説明したように、本発明の調音特徴抽出装置では、調音特徴系列を抽出する処理(調音特徴抽出部220)と,その結果得られる調音特徴系列に対して,本来の調音動作に近づけ修正する処理(調音運動修正部230)とが設けられている。これにより、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となるので、音声スペクトルを使用して音声を認識する従来の音声認識装置と比較して、精度の高い音声認識を行うことが可能となる。
従来の音声のスペクトルを特徴とした音声認識では、話者や発話時の文脈、周囲騒音等によってスペクトルが大きく変動してしまうため、音響的な尤度を求める際に使用する隠れマルコフモデル(HMM)の設計に多くの音声データを必要としていた。また、HMMの混合数も10以上が必要とされ,高性能な音声認識装置とするためにはコストが嵩んでしまっていた。これに対し本発明の調音特徴抽出装置では、音声中の調音特徴を高精度に抽出できるため、HMMの混合数は数個程度で済む。また、調音特徴の高精度抽出は、音素認識性能を飛躍的に向上させ、未知語の問題に対して人間が行っている対応と同様の対応を行うことが可能となる。従って、音素系列を利用した確認発話文の合成により,対話をスムースに進めることが可能になる。
また,調音特徴は多くの場合,テキスト(かな系列に変換した読み)と一対一に対応するため、音声ドキュメントとテキストドキュメントに対する検索を,音声およびテキスト(キーボード)の双方から相互に検索することが可能となる。
また、調音運動は、変位成分、速度成分、及び加速度成分に基づいて修正調音運動に修正されるので、話者や発話時の文脈、周囲の騒音等に依存せず、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。
また、修正調音運動は、運動軌跡のパターン(凹パターン、凸パターン)に基づいて修正されるので、調音結合により音素が単音の状態と異なる状態となった場合であっても、音声発話に伴う調音動作の特徴を高い精度で抽出することが可能となる。
また、調音運動を修正する為の処理はニューラルネットワークを介して実行されるので、高速に修正調音運動を得ることができる。
なお、図1の入力装置12が、本発明の「音声取得手段」に相当し、図2の調音特徴抽出部220の処理を行う中央演算処理装置11が、本発明の「調音特徴抽出手段」に相当し、調音運動修正部230の処理を行う中央演算処理装置11が、本発明の「調音運動修正手段」に相当し、図1における外部記憶装置15が、本発明の「記憶手段」に相当し、記憶手段に修正調音運動のデータを記憶する処理を行う中央演算処理装置11が、本発明の「記憶制御手段」に相当する。
また、図8の速度/加速度成分抽出部231において速度成分及び加速度成分を抽出する処理を行う中央演算処理装置11が、本発明の「成分抽出手段」に相当し、図9のS13、S15の処理を行う中央演算処理装置11が、本発明の「パターン認識手段」に相当する。
<実験例>
以下、上述の調音特徴抽出装置を使用した実験例について、図面を参照して説明する。はじめに、図12及び図13を参照し、調音運動修正前後における発話音声の調音特徴の抽出例について説明する。図12は、調音運動修正前における調音特徴の抽出例を示している。図13は、調音運動修正後における調音特徴の抽出例を示す。なお本実施例では、調音特徴として弁別的音素特徴を使用しているが、他の調音特徴表示(例えば国際音声記号(IPA)の表にある調音特徴を利用するなど)を用いても効果が得られるものと推察される。
図12を参照し、調音運動修正前における調音特徴の抽出例について説明する。図12は、発話「人工衛星」に対する調音特徴の抽出例を示す。なおこの例では,弁別的音素特徴抽出部222(図4参照)におけるニューラルネットワーク(第一多層ニューラルネット225、第二多層ニューラルネット226)の入力として,時刻tの局所特徴と共に,t−3フレーム目の局所特徴およびt+3フレーム目の局所特徴の三フレームにまたがるデータを加えている。また併せて、弁別的音素特徴抽出部222(図4参照)におけるニューラルネットの出力も、時刻(t−3,t,t+3)に対応する調音特徴系列(DPF(m,t−3),DPF(m,t),DPF(m,t+3))((m:調音特徴の番号、m=1,2,・・・,15))と,前後の文脈を含む調音特徴系列が得られる形式を採用した。図12ではそれらのうち,中央の調音特徴系列DPF(m,t)についての調音特徴の推移を示したものである。
図12には、縦欄として弁別的特徴が示され、横欄として個々の音素が示されている。また、最上欄「silB」(silence of beginning part)と示された部分は、無音の区間であることを示しており、「jinkoese」と示された部分は、それぞれの音声の発声区間であることを示している。また、図12中点線は、理想的な正しい調音特徴を示しており、実線が実際に算出された調音特徴(弁別的音素特徴抽出部222(図4参照)より抽出された状態のもの)を示している。
図12に示すように、実線(算出データ)と点線(理想データ)とを比較すると、無音の区間、及び発声区間において、点線と実線との間には大きな隔たりがあり、また実線の推移に大きな変動が確認される。
次に、図13を参照し、調音運動修正後における調音特徴の抽出例について説明する。図13は、図12と同様、発話「人工衛星」に対する弁別液音素特徴の抽出例を示す。なおこの例では、調音運動修正部として、図10にて説明した、調音特徴毎に学習したニューラルネットワークを使用した調音運動修正部330が使用されている。また、ニューラルネットワークNDPF(1)・・・(15)334への入力として,7フレームのDPF(m,t)、VDPF(m,t),及びADPF(m,t)が使用されている。ここで一般的に使用するフレーム数が小さいと効果が少なく,大きすぎると平滑され過ぎの傾向を示すため,調音特徴に依って,3〜9の間の値を用いることが望ましい(破裂音などでは短く,一方,母音などでは長く設定することが望ましい。)。
図13に示すように、実線(算出データ)と点線(理想データ)とを比較すると、双方は値がよく一致し、算出結果が実際の発話に非常に近い値となることがわかった。また、図12の結果と比較して実線の推移が平滑となっていることがわかった。さらに、無音の区間にて発生していたノイズも抑制されていることがわかった。また,DPF(m,t)が実際の発話に沿った値を示していることが確認された。これにより,調音運動修正により調音特徴系列が大きく改善することがわかった。
次に、調音特徴抽出率を算出した結果について、図14を参照して説明する。図14は、調音特徴正解率の算出結果を示したグラブである。調音特徴正解率は、日本語の新聞読み上げコーパス(約100名の男声データ)を用い、調音運動修正処理の有無、及び調音運動修正処理の条件を変化させた場合に得られる調音特徴に基づいて音声認識が行われた場合の正解率を算出することにより得た。
調音運動修正処理の条件を変化させた場合の評価を行う場合には、方式1:簡易修正処理、方式2:調音特徴毎のニューラルネット処理(図8参照)、方式3:統合ニューラルネットワーク処理(図11参照)の合計3種類の条件にて調音運動修正処理を行った。そして、得られる調音特徴に基づいて音声認識が行われた場合の正解率を算出することにより行った。
図14に示すように、調音運動の修正を施さない場合(図中「修正無」),抽出性能は90%に満たない程度となる。一方、調音運動の修正処理を施した場合(図中「方式1」「方式2」「方式3」)、修正を施さない場合と比較して、正解率が大きく向上することがわかった。
また図14に示すように、方式1(92%),方式2(93%),方式3(94%)の順で正解率が向上することがわかった。しかしながら、調音運動の修正処理に必要な計算量は、方式1、方式2、方式3の順に大きくなるため,目的に応じ、方式を選択して利用することが望ましい。
次に、上述の調音特徴抽出装置を使用した場合に必要となるHMM(音素認識器)の混合数と認識精度との関係について、表1を参照して説明する。表1は、調音特徴抽出時におけるHMMの混合数と認識率との関係を示している。表1においては、HMMに基づく音素認識器に対して,MFCCを直接入力する場合と,調音特徴を入力する場合とを比較した結果が示されている。表1中、調音特徴(修正無)は,弁別的音素特徴(DPF)をニューラルネットワークで抽出した場合の混合数を示しており、調音特徴(修正有)は、本発明に係る調音動作の修正を加えた場合の混合数を示している。
表1の結果から,従来法のMFCCを直接入力した場合では,認識精度を高めるために大きな混合数が必要となることがわかった。一方、調音特徴を入力した場合では、混合数が1である場合も比較的高い性能を得ることが可能であることがわかった。さらに、調音動作の修正を行った調音特徴を入力した場合では,さらに一段高い性能を得ることが可能であることがわかった。これにより、音素分類器や単語分類器の規模(ここでは混合数)を小規模に押さえることが可能であることが明らかとなった。
なお実施例では、調音運動を修正する手段として、ニューラルネットワークを用い、これに調音特徴(変位)成分、速度成分、及び加速度成分を通すことで、調音運動を修正する方法を示したが、本発明はこれに限られるものではない。例えば、本申請では音素や単語認識にHMMを用いたが、調音特徴修正手段としてのニューラルネットワークに代えて、HMMなどの統計的パターン分類手段を導入して調音特徴修正手段とすることも可能である。この場合、HMMなどは音素や単語に対するモデルではなく,調音特徴に対するモデルとして用いられることになる。要は、「調音特徴を抽出する手段」により実現された調音運動に対して、これを「修正する手段」を設けるとともに、調音運動を表現する、調音特徴(変位)成分、速度成分、及び加速度成分をこの調音運動修正手段に通すことにより修正を実現することがキーである。