JP5240457B2

JP5240457B2 - 拡張認識辞書学習装置と音声認識システム

Info

Publication number: JP5240457B2
Application number: JP2008554032A
Authority: JP
Inventors: 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-01-16
Filing date: 2008-01-15
Publication date: 2013-07-17
Anticipated expiration: 2028-01-15
Also published as: US20100023329A1; JPWO2008087934A1; WO2008087934A1; US8918318B2

Description

本発明は、拡張認識辞書学習装置と音声認識システムに関し、特に発声変形を含む音声に対し、認識辞書を拡張し性能を向上できる拡張認識辞書学習装置とこれを利用した音声認識システムに関する。

本発明に関連する音声認識システムの一例が、特許文献１、非特許文献１に記載されている。

図７に示すように、この関連技術の音声認識システムは、音声入力部５０１と、発声ラベル入力部５０２と、音響モデル記憶部５０３と、認識辞書記憶部５０４と、音声認識手段５０５と、発声変形データ算出手段５０６と、発声変形データ記憶部５０７と、認識辞書拡張手段５０８と、拡張認識辞書記憶部５０９と、音声入力部５１０と、音声認識手段５１１と、認識結果出力部５１２とから構成されている。

このような構成を有する関連技術の音声認識システムは次のように動作する。

まず話者ｐの拡張認識辞書を学習するために、音声入力部５０１から話者ｐの学習音声を入力し、音響モデル記憶部５０３に記憶された音響モデルと、認識辞書記憶部５０４に記憶された認識辞書とを用いて、音声認識手段５０５で認識する。また、音声認識手段５０５で出力された認識結果音素列と、発声ラベル入力部５０２から入力された、話者ｐの学習音声に対する正解の音素列を並べた発声ラベルを比較し、正解音素列と認識結果音素列の対応を、発声変形データ算出手段５０６で算出し、発声変形データ記憶部５０７に記憶する。さらに、認識辞書拡張手段５０８において、認識辞書記憶部５０４に記憶された認識辞書に含まれる単語の標準の音素列を、発声変形データ記憶部５０７に記憶された、発声変形の音素列で置き換え、複数の音素列を含んだ拡張認識辞書を生成し、拡張認識辞書記憶部５０９に記憶する。

次に話者ｐの音声を認識する際には、音声入力部５０１から入力した話者ｐの音声を、音響モデル記憶部５０３に記憶された音響モデルと、拡張認識辞書記憶部５０９に記憶された、話者ｐの発声変形を学習した拡張認識辞書を用いて、音声認識手段５１１で認識し、認識結果出力部５１２から認識結果を出力する。
特開平８−１２３４７０号公報脇田、外２名、「複数音素にまたがる誤認識特性を用いた音素候補系列追加モデル」、電子情報通信学会論文誌、Ｄ−ＩＩ、Ｖｏｌ．Ｊ７９−Ｄ−ＩＩ、Ｎｏ．１２、ｐ．２０８６−２０９５、１９９６年１２月麻生秀樹著、「パターン認識と学習の統計学：第Ｉ部パターン認識と学習」、岩波書店、２００３年、ｐ．５８−６１長尾、他５名著、「文字と音の情報処理」、岩波書店、２０００年１月、ｐ３４−３５ Jonathan G. Fiscus, "A Post-Processing System to Yield Reduced Word Error Rates: Recognizer Output Voting Error Reduction (ROVER)", Proc. IEEE ASRU Workshop, p.437-352, 1997

関連技術の問題点は、拡張認識辞書を用いての認識が、音声認識システムを新しく使用する話者には適用できないということである。その理由は、事前に使用する話者の拡張認識辞書を学習しておく必要があり、その際、使用する話者の音声と対応する発声ラベルを使用するためである。

本発明の目的は、新たに使用する話者に対しても、その話者の音声と対応する発声ラベルを事前に使用して学習しておく必要なしに、その話者に適した、拡張認識辞書を用いての認識を可能とすることである。

上記目的を達成するため、本発明に係る拡張認識辞書学習装置は、音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する発声変形データ分類手段と、分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、を有することを特徴とする。

また、本発明に係る音響認識システムは、上記の拡張認識辞書学習装置を利用したことを特徴とする。

本発明によれば、新たに使用する話者に対しても、その話者の音声と対応する発声ラベルを事前に使用して学習しておく必要なしに、その話者に適した、拡張認識辞書を用いての認識を可能とすることができる。

本発明の実施例の拡張認識辞書学習装置を用いた音声認識システムの構成図である。本発明の実施例における、発声変型データ分類手段および認識辞書拡張手段の構成図である。本発明の実施例における、発声変形データの一例を示す図である。本発明の実施例における、発声変形のｔｆｉｄｆ値の一例を示す図である。本発明の実施例における、認識辞書拡張規則の一例を示す図である。本発明の実施例における、各発声変形集合での拡張認識辞書における発声変形の一例を示す図である。関連技術の音声認識装置の構成図である。

符号の説明

１００拡張認識辞書学習装置
１１０音声入力部
１１１発声ラベル入力部
１１２音響モデル記憶部
１１３認識辞書記憶部
１１４音声認識手段
１１５発声変形データ算出手段
１１６発声変形データ記憶部
１１７発声変形データ分類手段
１１８認識辞書拡張手段
１１９拡張認識辞書記憶部
１２０音声認識装置
１２１音声入力部
１２２音声認識手段
１２３認識結果出力部
１３１ｉｄｆ値・ｔｆｉｄｆ値算出手段
１３２発声変形ベクトル
１３３発声変形ベクトルクラスタリング手段
１４１ｉｄｆ発声変形ベクトル
１４２クラスタ発声変形ベクトル
１５１発声変形ベクトル統合手段
１５２発声変形集合
１５３認識辞書拡張手段
１５４認識辞書拡張規則
５０１音声入力部
５０２発声ラベル入力部
５０３音響モデル記憶部
５０４認識辞書記憶部
５０５音声認識手段
５０６発声変形データ算出手段
５０７発声変形データ記憶部
５０８認識辞書拡張手段
５０９拡張認識辞書記憶部
５１０音声入力部
５１１音声認識手段
５１２認識結果出力部

次に、本発明の実施の形態について図面を参照して詳細に説明する。

本実施形態の拡張認識辞書学習システムは、音声入力部と、発声ラベル入力部と、音響モデル記憶部と、認識辞書記憶部と、音声認識手段と、発声変形データ算出手段と、発声変形データ記憶部と、発声変形データ分類手段と、認識辞書拡張手段と、拡張認識辞書記憶部とから構成されている。

音声認識手段は、音響モデル記憶部に保持されている音響モデルと、認識辞書記憶部に保持されている認識辞書とを用いて、音声入力部から入力される学習音声を音声認識する。

発声変形データ算出手段は、発声ラベル入力部から入力される、学習音声に対する正解の音素列を並べた発声ラベルと、音声認識手段による音声認識結果の音素列とを比較して、正解音素列と認識結果音素列の対応を発声変形データとして算出し、算出された発声変形データを発声変形データ記憶部に記憶する。

発声変形データ分類手段は、記憶した発声変形データにおいて、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類する。

認識辞書拡張手段は、それらの発声変形を組み合わせて発声変形集合とし、システムが保持している認識辞書に含まれる単語の標準音素列を、発声変形の音素列で置き換え、複数の音素列を含む拡張認識辞書を、発声変形集合ごとに生成する。

これにより、学習音声に広く出現する発声変形および偏って出現する発声変形を組み合わせた、発声変形集合ごとの拡張認識辞書を学習しておくことができる。

また、新たな話者の音声に対して、システムが保持している音響モデルと、前述の学習した発声変形集合ごとの拡張認識辞書を用いて、新たな話者の音声に適した認識辞書を選択することにより認識結果を出力する。これにより、新たな話者の事前の学習の必要なしに、拡張認識辞書を使用して認識結果を取得可能となる。

本実施の形態によれば、次のような効果が得られる。

第１の効果は、発声変形集合ごとに複数の拡張認識辞書を学習しておくことが可能なことである。その理由は、多様な発声を含む学習音声から、学習音声に広く出現する発声変形と、偏って出現する発声変形を分類し、それらの発声変形を組み合わせて発声変形集合として、それぞれに拡張認識辞書を学習するためである。

第２の効果は、新たな話者に対してその話者の事前学習を行う必要なしに、拡張認識辞書を使用して認識結果を取得することが可能なことである。その理由は前述の拡張認識辞書学習システムを用いて学習された、発声変形集合ごとの拡張認識辞書を用いて、新たな話者の音声に適した拡張認識辞書を選択することにより認識結果を出力するためである。

図１は、本実施例による拡張認識辞書学習装置を用いた音声認識システムの全体構成のブロック図である。

同図に示す音声認識システムは、学習音声に広く出現する発声変形および偏って出現する発声変形を組み合わせた発声変形集合ごとの複数の拡張認識辞書を学習する拡張認識辞書学習装置１００と、拡張認識辞書学習装置１００により学習された発声変形集合ごとの複数の拡張認識辞書を用いて話者の音声を認識する音声認識装置１２０とを有する。

拡張認識辞書学習装置１００は、たとえばパーソナルコンピュータ等の電子計算機で構成され、音声入力部１１０と、発声ラベル入力部１１１と、音響モデル記憶部１１２と、認識辞書記憶部１１３と、音声認識手段１１４と、発声変形データ算出手段１１５と、発声変形データ記憶部１１６と、発声変形データ分類手段１１７と、認識辞書拡張手段１１８と、拡張認識辞書記憶部１１９とから構成されている。

音声入力部１１０は、学習音声を入力する、たとえば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、音声データを受け取るプログラムである。

発声ラベル入力部１１１は、学習音声に対応する発声ラベルを入力する、たとえば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、発声ラベルデータを受け取るプログラムである。

音響モデル記憶部１１２は、たとえばハードディスク装置やメモリなどであり、音声認識に用いる音響モデルが記憶されている。

認識辞書記憶部１１３は、たとえばハードディスク装置やメモリなどであり、音声認識に用いる認識辞書が記憶されている。

音声認識手段１１４は、入力された学習音声を、音響モデル記憶部１１２に記憶されている音響モデルと、認識辞書記憶部１１３に記憶されている認識辞書を用い、音声認識を行い、認識結果を出力する処理を、たとえばコンピュータに実行させるプログラムである。

発声変形データ算出手段１１５は、音声認識手段１１４で出力された認識結果と、入力された学習音声に対応する、発声ラベルとを比較して、それらの対応を算出し、発声変形データ記憶部１１６に記憶する処理を、たとえばコンピュータに実行させるプログラムである。

発声変形データ記憶部１１６は、たとえばハードディスク装置やメモリなどである、前述の発声変形データ算出手段１１５によって算出された、発声変形データを記憶する。

ここで、発声変形データを、話者性に着目し、また近年の音声認識システムで一般的に用いられている音響モデルの単位である、三つ組み環境依存音素、すなわちトライフォンで算出する場合について説明する。

入力される学習音声は、Ｎ人の話者の発声を用いる。音声認識手段１１４で、入力される学習音声の各フレームごとにトライフォンの系列を出力する。発声ラベルは、学習発声に対応した正解トライフォン系列を入力し、発声変形データ算出手段１１５において、正解のトライフォン系列と、認識結果のトライフォン系列を、学習音声のフレームごとに並べて比較することにより、それぞれの対応をとり、標準形と変形の各パターンについて出現フレーム数をカウントして、話者ごとに発声変形データとして、発声変形データ記憶部１１６に記憶する。図３に話者ｐの発声変形データの例を示す。図３では、話者ｐの発声変形データは、標準形及びこれに対応する発声変形の各パターンと、その出現数とから構成されている。

ここで、話者性に着目したが、これは話者だけでなく、発声速度、発話者の年齢、音声対雑音比、など別の観点あるいはそれらの組み合わせでＮ個にグループ化したものを入力することにより、本実施例は同様に実行可能である。

また、トライフォンは、より多数の環境に依存した音素あるいは環境非依存音素、あるいは音節、単語といった単位、さらに、音響モデルを隠れマルコフモデルで表現した場合の状態系列と言った単位に置き換えることにより、本実施例は同様に実行可能である。

発声変形データ分類手段１１７は、発声変形データ記憶部１１６に記憶された、発声変形データから、学習音声に対し広く出現する発声変形と、学習音声に対し偏って出現する発声変形を分類する処理をたとえばコンピュータに実行させるプログラムである。

認識辞書拡張手段１１８は、認識辞書記憶部１１３に記憶されている認識辞書を、前記、発声変形データ分類手段１１７において分類した発声変形を組み合わせた発声変形集合ごとに、発声変形で置き換え、複数の音素列を含んだ拡張認識辞書を発声変形集合ごとに生成し、拡張認識辞書記憶部１１９に記憶する処理を、たとえばコンピュータに実行させるプログラムである。

図２は、発声変形データ分類手段１１７及び認識辞書拡張手段１１８の各々の詳細を説明するものである。

発声変形データ分類手段１１７は、発声変形の分類を次のように実施する。

まず、発声変形データ分類手段１１７は、発声変形データ記憶部１１６に記憶された、話者ごとの発声変形データに対し、ｉｄｆ値・ｔｆｉｄｆ値算出手段１３１において、発声変形のｉｄｆ（inverse document frequency：文書頻度の逆数）値およびｔｆｉｄｆ値（後述参照）を算出する。

発声変形のｉｄｆ値に対応するｉｄｆ（Ｘ）は、次式（数４）で表される。

ここで、Ｘは発声変形を表し、Ｎは話者数、ｄｎｕｍ（Ｘ）は、発声変形Ｘが、Ｎ個の各話者の発声変形データのうち幾つに現れたかを表す。ｉｄｆ値が小さいほど多くの話者に見られる発声変形であることが表現される。

ｉｄｆ値・ｔｆｉｄｆ値算出手段１３１は、発声変形データ記憶部１１６に出現する発声変形を各ベクトルの次元とし、前記ｉｄｆ値をその次元の値として、ｉｄｆ発声変形ベクトル１４１を算出する。

発声変形のｔｆｉｄｆ値に対応するｔｆｉｄｆ（Ｘ、ｐ）は、次式（数５）で表されるｔｆ（term frequency：語頻度）値に対応するｔｆ（Ｘ、ｐ）と、前記ｉｄｆ値に対応するｉｄｆ（Ｘ）とを掛けた値であり、次式（数６）で表される。

ここで、ｔｎｕｍ（Ｘ，ｐ）は、話者ｐの発声変形データにおいて発声変形Ｘが出現したフレームのカウント数であり、ｆｒａｍｅ（ｐ）は話者ｐの学習発声のフレーム数である。ｔｆ値が大きいほど話者ｐの発声変形データ中にその発声変形が出現する回数が大きく、またｉｄｆ値が大きいほどその発声変形が、ほかの話者には出現している頻度が小さいことを表す。このためｔｆｉｄｆ値が大きいほど、発声変形Ｘが偏って出現していることが表現される。

このように、発声変形データ分類手段１１７は、ｉｄｆ値・ｔｆｉｄｆ値算出手段１３１により、各話者の発声変形のｔｆｉｄｆ値を算出する（発声変形ベクトル１３２）。

図４に話者ｐの発声変形のｔｆｉｄｆ値の例を示す。図４では、話者ｐの発声変形データは、標準形及びこれに対応する発声変形の各パターンと、そのｔｆｉｄｆ値とから構成されている。

次に発声変形データ分類手段１１７は、発声変形ベクトルクラスタリング手段１３３において、発声変形ベクトル１３２のクラスタリングを行う。たとえば、各話者の発声変形とそのｔｆｉｄｆ値を用いて、類似度を示すｄｉｓｔ（ｐ１，ｐ２）を次式（数７）で定義する。

ここで、ｙ１は話者ｐ１の発声変形のベクトルであり、各ベクトルの次元は存在しうる発声変形すべてで、その値は前記ｔｆｉｄｆ値である。学習音声中に出現しなかった発声変形の次元に対する値は０となる。ｙ２は話者ｐ２に対して同様に定義される。

この類似度に基づいて、クラスタ間距離をクラスタメンバ間距離の最も遠いものとして、クラスタ間距離が近いものを順次併合する作業をボトムアップに階層的に繰り返す。これをＬ個のクラスタ数となるまで繰り返すことにより、発声変形ベクトル１３２のクラスタリングを実行する。その詳細は、非特許文献２に記載されている。

発声変形ベクトルクラスタリング手段１３３は、各クラスタリングの発声変形ベクトルの中心をクラスタの発声変形ベクトルとし、Ｌ個のクラスタごとの発声変形ベクトル１４２を算出する。なお、これ以外にも、Ｋ−平均法（非特許文献２参照）など他のクラスタリング手法を同様に適用できる。

以上の手続きにより、ｉｄｆ発声変形ベクトル１４１においてｉｄｆ値が予め設定された基準値（閾値）よりも小さい発声変形を抽出することにより、学習音声において、多くの話者に共通に出現する発声変形（複数の話者に亘って広く出現する発声変形）を得ることができる。また、クラスタ発声変形ベクトル１４２において、それぞれのクラスタからｔｆｉｄｆ値が予め設定された基準値（閾値）よりも大きい発声変形を抽出することにより、学習音声において偏って出現する発声変形（特定の話者に偏って出現する発声変形）をＬ個に分類して取得することができる。

なお、ｔｆｉｄｆ値は文書中の単語の頻度を用いて文書間の類似度を測定するのに用いられ、たとえば非特許文献３に詳細が記載されている。

認識辞書拡張手段１１８は、認識辞書記憶部１１３に記憶された認識辞書に含まれる単語の標準音素列を、発声変形データ分類手段１１７で分類された、学習音声に対し広く出現する発声変形と偏って出現する発声変形を組み合わせた発声変形集合ごとに、発声変形の音素列で置き換え複数の音素列を含んだ拡張認識辞書を生成する。

認識辞書拡張手段１１８は、認識辞書拡張を次のように実施する。

認識辞書拡張手段１１８は、発声変形データ分類手段１１７において算出した、ｉｄｆ発声変形ベクトル１４１、およびクラスタ１〜Ｌの発声変形ベクトル１４２を用いて、発声変形ベクトル統合手段１５１において、それぞれの発声変形を組み合わせＭ個の発声変形集合ごとの発声変形ベクトル１５２を算出する。

発声変形集合の一つとして、ｉｄｆ発声変形ベクトルにおいて値が小さいｊ個の発声変形を含む集合とすることにより、話者によらず広く出現する学習音声における共通の発声変形集合として生成することができる。

あるいはまた、ｉｄｆ発声変形ベクトルにおいて値が小さいｑ個の発声変形と、各クラスタの発声変形ｒ個を組み合わせることにより、それぞれｑ＋ｒ個の発声変形をもつＬ個の発声変形集合を生成することができる。このようにして、Ｍ個の発声集合を算出する（発声変形ベクトル１５２）。

たとえば、共通の発声変形集合と、Ｌ個の発声変形集合を共に用いて、Ｍ＝Ｌ＋１個の発声変形集合を用いる。

次に認識辞書拡張手段１５３において、認識辞書記憶部１１３に記憶されている認識辞書に含まれる単語の標準音素を、Ｍ個の発声変形集合に含まれる発声変形でそれぞれ置き換えることにより、Ｍ個の拡張認識辞書を生成する。

ここで、学習音声の発声変形データをトライフォンの対で算出した場合、それぞれの発声変形においてもトライフォンの対で記述されている。この場合、環境依存音素を用いているため、単純な置き換えでは変形後の音素列が日本語として成立し得ない発声変形が含まれることとなる。このため、認識辞書拡張規則１５４に記憶されている、認識辞書拡張規則を用いて置き換え後の音素並びが日本語として成立するように制限を加える。

認識辞書拡張規則１５４の一例を図５に示す。図５では、１０個の規則、すなわち（１）子音の欠落、（２）子音の挿入、（３）子音の置換、（４）母音の欠落、（５）母音の挿入、（６）母音の置換、（７）促音の欠落、（８）促音の挿入、（９）撥音の欠落、（１０）撥音の挿入が例示されている。

ここで、認識辞書中の単語「おんせー（音声）」の変形を考え、標準形として“おんせー：ｏＮｓｅｅ”が登録されているとする。この場合、発声変形として、”ｓ−ｅ＋ｅ −＞ｓ−ｕ＋ｅ”が存在した場合には、図５の規則に示す（５）母音の挿入に該当するため、”おんすえー：ｏＮｓｕｅｅ”が拡張認識辞書に追加される。一方、発声変形として、”ｓ−ｅ＋ｅ −＞ｓｙ−ｕ＋ｕ”が存在した場合は、周囲音素に整合した置き換えを行うことができないため、図５の規則に該当する項目はなく、拡張認識辞書への追加は行われない。

本実施例により得られた発声変形辞書拡張の一例を図６に示す。図６において、標準形「おんせー」に対し、３つの発声変形集合１〜３の発声変形辞書を作成し、それぞれの辞書に発声変形が含まれる場合を○、含まれない場合を×で示している。図６の例では、発声変形「おんせん」、「おんせ」が各発声変形集合１〜３の全てに共通に出現しているのに対し、その他の発声変形「おんせんえ」、「おんすえー」、「おんせーえ」は各発声変形集合１〜３の１つ又は２つに偏って出現していることがわかる。

以上の手続きにより、発声変形集合ごとの発声変形を含む拡張認識辞書を学習しておくことが可能となる。

なお、この認識辞書拡張規則を用いた発声変形の制限を発声変形データ算出手段に適応することにより、発声変形データ記憶部に記憶する記憶容量を削減することができ、また、発声変形データ分類手段において、発声変形が多岐に渡ることから生じる、発声変形ベクトル空間のスパースネスによるクラスタリング精度の劣化を防ぐことができる。

以上の手続きにおいて、発声変形集合として前述のＭ＝Ｌ＋１個を用い、拡張認識辞書を作成する実施例によれば、全ての拡張認識辞書に、広く学習データに現れる発声変形ｑ個が含まれており、新規話者においても出現する発声変形に適応される。

また、拡張認識辞書における発声変形は数が多くなりすぎると、同音や類似音声の単語が増えて認識精度の劣化を引き起こすが、Ｌ個の拡張認識辞書それぞれに分けて、学習データに偏って出現する発声変形を含めているため、一つの拡張認識辞書に含まれる発声変形の数が多くなりすぎる問題を回避できる。

また、広く学習データに現れる発声変形をｊ個（ｑ＜ｊとする）含む、１つの発声変形集合を用いた拡張認識辞書を作成しておくことにより、新規話者の発声変形が、学習した発声変形の偏りとのずれが大きい場合にも、広く現れる発声変形の数をより多く使用して作成された、本拡張認識辞書により、ずれの影響を軽減することが期待できる。

音声認識装置１２０は、たとえばパーソナルコンピュータ等の電子計算機で構成され、音声入力部１２１と、音響モデル記憶部１１２と、拡張認識辞書記憶部１１９と、音声認識手段１２２と、認識結果出力部１２３とを有している。

音声認識手段１２２は、音声入力部１２１により入力された音声を、音響モデル記憶部１１２に記憶されている音響モデルと、拡張認識辞書記憶部１１９に記憶されている、前述の拡張認識辞書学習装置１００で学習された、拡張認識辞書を用いて、適切な認識辞書を選択することにより、認識結果出力部１２３から認識結果を出力する。

音声認識手段１２２による認識辞書選択の実施例を次に示す。

音声認識手段１２２は、拡張認識辞書記憶部１１９に記憶された認識辞書それぞれを用いて、複数の認識結果候補を出力し、複数の認識結果候補から多数決法により最終認識結果を選抜するＲＯＶＥＲ法を用いる。ＲＯＶＥＲ法の詳細は非特許文献４に記載されている。

あるいはまた、音声認識手段１２２は、拡張認識辞書記憶部１１９に記憶された認識辞書それぞれを用いて、複数の認識結果候補およびそれらのスコアもしくは信頼度を出力し、スコアもしくは信頼度の最もよかった結果を最終認識結果として出力する。

あるいはまた、音声認識手段１２２は、発声変形データ分類手段１１７で分類した話者の音声を用いて、Ｍ個の混合ガウス分布を学習し、認識対象の音声に対するＭ個の混合ガウス分布のスコアを算出し、最もスコアのよかった分類に対応する、拡張認識辞書を用いて音声認識を行い、認識結果を出力する。

以上の手続きにより、新たな話者の音声が入力された場合にも、学習しておいた拡張認識辞書の中から適したものを選択して、発声変形を含む認識辞書を使用して、認識結果を取得することが可能となる。

以上、本発明の実施例を詳細に説明したが、本発明は、代表的に例示した上述の実施例に限定されるものではなく、当業者であれば、特許請求の範囲の記載内容に基づき、本発明の要旨を逸脱しない範囲内で種々の態様に変形、変更することができる。これらの変形例や変更例も本発明の権利範囲に属するものである。

例えば、本実施例に係る拡張認識辞書学習装置を用いた音声認識システムを構成する各手段の少なくとも一部の機能を、プログラムコードを用いて実現する場合、かかるプログラムコード及びこれを記録する記録媒体は、本発明の範疇に含まれる。この場合、オペレーティングシステムやアプリケーションソフト等の他のソフトウェアと共同して上記機能が実現される場合は、それらのプログラムコードも含まれる。

以下、その他の実施形態について説明する。

本発明の第２の実施形態において、前記発声変形データ分類手段は、前記発声変形データのｉｄｆ値を用いて、前記発声変形データにおいて広く出現する発声変形をｉｄｆ発声変形ベクトルとして算出する第１の算出手段と、前記発声変形データのｔｆ値と前記ｉｄｆ値とで計算されるｔｆｉｄｆ値を用いて、前記発声変形データにおいて偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出する第２の算出手段とを有し、前記認識辞書拡張手段は、前記ｉｄｆ発声変形ベクトルの値が所定値よりも小さい発声変形のみ、あるいはそれぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を組み合わせて、複数の発声変形集合を構成してもよい。

本発明の第３の実施形態において、前記認識辞書拡張手段は、前記ｉｄｆ発声変形ベクトルの値が所定値よりも小さい発声変形と、それぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を共に含ませて、クラスタ個数と同じ数の発声変形集合を構成してもよい。

本発明の第４の実施形態において、前記認識辞書拡張手段は、クラスタ個数と同じ発声変形集合に、前記ｉｄｆ発声変形ベクトルの値が所定値よりも小さい発声変形を発声変形集合を加えて、クラスタ個数より一つ多い、発声変形集合を構成してもよい。

本発明の第５の実施形態において、前記認識辞書拡張手段は、認識辞書拡張規則として予め設定された、認識対象言語の音声として成立しうる発声変形に制約する規則のもとで、認識辞書の標準発声を、発声変形集合それぞれにおいて含まれる発声変形で置き換えた項目を追加することにより、認識辞書を拡張して、発声変形集合ごとの拡張認識辞書を構成してもよい。

本発明の第６の実施形態において、前記第１の算出手段は、前記発声変形をＸとし、話者数をＮとし、前記発声変形ＸがＮ個の話者の各発声変形データのうち幾つに現れたかをｄｎｕｍ（Ｘ）としたとき、

により計算されるｉｄｆ（Ｘ）で表される発声変形データのｉｄｆ値を用いて、前記発声変形データにおいて前記広く出現する発声変形をｉｄｆ発声変形ベクトルとして算出してもよい。前記第２の算出手段は、話者ｐの発声変形データにおいて発声変形Ｘが出現したフレームのカウント数をｔｎｕｍ（Ｘ，ｐ）とし、話者ｐの学習発声のフレーム数をｆｒａｍｅ（ｐ）としたとき、

により計算されるｔｆ（Ｘ，ｐ）と、前記ｉｄｆ（Ｘ）とから、

により計算されるｔｆｉｄｆ（Ｘ，ｐ）で表される発声変形データのｔｆｉｄｆ値を用いて、前記発声変形データにおいて前記偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出してもよい。

本発明の一実施形態に係る音声認識装置は、上記いずれかに記載の拡張認識辞書学習装置によって学習された、発声変形集合ごとの認識辞書を用いて、入力音声に対し音声認識を行う音声認識手段を有することを特徴とする。前記音声認識手段は、得られた拡張認識辞書ごとの認識結果を仮説として多数決法で選別して最終認識結果を出力してもよい。

本発明の一実施形態に係る拡張認識辞書学習方法は、音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出するステップと、算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類するステップと、分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張するステップと、を有することを特徴とする。

本発明の一実施形態に係る拡張認識辞書学習プログラムは、コンピュータに、音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出する手順と、算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する手順と、分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する手順とを実行させることを特徴とする。

この出願は、２００７年１月１６日に出願された日本出願特願２００７−００６９７７号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明によれば、発声変形を含む音声に対し、認識辞書を拡張し性能を向上できる音声認識システムや、音声認識システムをコンピュータに実現するためのプログラムといった用途に適応できる。

Claims

音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を発声変形データとして算出する発声変形データ算出手段と、
算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する発声変形データ分類手段と、
分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する認識辞書拡張手段と、
を有することを特徴とする拡張認識辞書学習装置。
請求項１に記載の拡張認識辞書学習装置において、
前記発声変形データ分類手段は、
前記発声変形データのｉｄｆ値を用いて、前記発声変形データにおいて前記広く出現する発声変形をｉｄｆ発声変形ベクトルとして算出する第１の算出手段と、
前記発声変形データのｔｆ値と前記ｉｄｆ値とで計算されるｔｆｉｄｆ値を用いて、前記発声変形データにおいて前記偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出する第２の算出手段とを有し、
前記認識辞書拡張手段は、前記ｉｄｆ発声変形ベクトルの値が所定値よりも小さい発声変形のみ、あるいはそれぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を組み合わせて、複数の発声変形集合を構成することを特徴とする拡張認識辞書学習装置。
請求項２に記載の拡張認識辞書学習装置において、
前記認識辞書拡張手段は、前記ｉｄｆ発声変形ベクトルの値が所定値よりも小さい発声変形と、それぞれの前記クラスタ発声変形ベクトルの値が所定値よりも大きい発声変形を共に含ませて、クラスタ個数と同じ数の発声変形集合を構成することを特徴とする拡張認識辞書学習装置。
請求項３に記載の拡張認識辞書学習装置において、
前記認識辞書拡張手段は、クラスタ個数と同じ発声変形集合に、前記ｉｄｆ発声変形ベクトルの値が所定値よりも小さい発声変形を発声変形集合を加えて、クラスタ個数より一つ多い、発声変形集合を構成することを特徴とする拡張認識辞書学習装置。
請求項１から４のいずれか１項に記載の拡張認識辞書学習装置において、
前記認識辞書拡張手段は、認識辞書拡張規則として予め設定された、認識対象言語の音声として成立しうる発声変形に制約する規則のもとで、認識辞書の標準発声を、発声変形集合それぞれにおいて含まれる発声変形で置き換えた項目を追加することにより、認識辞書を拡張して、発声変形集合ごとの拡張認識辞書を構成することを特徴とする拡張認識辞書学習装置。
請求項２に記載の拡張認識辞書学習装置において、
前記第１の算出手段は、
前記発声変形をＸとし、話者数をＮとし、前記発声変形ＸがＮ個の話者の各発声変形データのうち幾つに現れたかをｄｎｕｍ（Ｘ）としたとき、

により計算されるｉｄｆ（Ｘ）で表される発声変形データのｉｄｆ値を用いて、前記発声変形データにおいて前記広く出現する発声変形をｉｄｆ発声変形ベクトルとして算出し、
前記第２の算出手段は、
話者ｐの発声変形データにおいて発声変形Ｘが出現したフレームのカウント数をｔｎｕｍ（Ｘ，ｐ）とし、話者ｐの学習発声のフレーム数をｆｒａｍｅ（ｐ）としたとき、

により計算されるｔｆ（Ｘ，ｐ）と、前記ｉｄｆ（Ｘ）とから、

により計算されるｔｆｉｄｆ（Ｘ，ｐ）で表される発声変形データのｔｆｉｄｆ値を用いて、前記発声変形データにおいて前記偏って出現する発声変形をクラスタリングして、クラスタ発声変形ベクトルとして算出することを特徴とする拡張認識辞書学習装置。
請求項１から６のいずれか１項に記載の拡張認識辞書学習装置によって学習された、発声変形集合ごとの認識辞書を用いて、入力音声に対し音声認識を行う音声認識手段を有することを特徴とする音声認識装置。
請求項７に記載の音声認識装置において、
前記音声認識手段は、得られた拡張認識辞書ごとの認識結果を仮説として多数決法で選別して最終認識結果を出力することを特徴とする音声認識装置。
請求項１から６のいずれか１項に記載の拡張認識辞書学習装置を利用したことを特徴とする音声認識システム。
音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出するステップと、
算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類するステップと、
分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張するステップと、
を有することを特徴とする拡張認識辞書学習方法。
コンピュータに、
音声認識結果から出力される音響モデル系列と、入力される正解音響モデル系列とを比較して、それらモデルの対応を算出する手順と、
算出された発声変形データにおいて広く出現する発声変形および偏って出現する発声変形を分類する手順と、
分類された発声変形を組み合わせて、複数の発声変形集合とし、それぞれの発声変形集合に含まれる発声変形により、発声変形集合ごとに認識辞書を拡張する手順とを実行させるための拡張認識辞書学習プログラム。