JPWO2007105409A1

JPWO2007105409A1 - 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム

Info

Publication number: JPWO2007105409A1
Application number: JP2008505010A
Authority: JP
Inventors: 祥史大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-02-27
Filing date: 2007-02-16
Publication date: 2009-07-30
Also published as: US20090012791A1; WO2007105409A1; US8762148B2; CN101390156B; CN101390156A

Abstract

標準パタンの認識性能が低い場合でも、入力音声データ情報を十分に利用して適応を行える方法、装置。標準パタン適応装置２は、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識部１８と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出部１９と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応部２０とを備えている。

Description

本発明は音声認識標準パタンを話者や環境に適応させる、標準パタン適応技術に関し、特に教師無し適応に有用なデータ生成方法およびこの更新データを用いた標準パタン適応方法等に関する。

従来の音声認識標準パタン適応方法の一例が、特許文献１に記載されている。図６に示すように、この従来の音声認識標準パタン適応装置２００は、音声特徴量入力部２０１と、標準パタン記憶部２０２と、音声認識手段２０３と、信頼度計算手段２０４と、信頼度付き標準パタン適応手段２０５と適応パタン記憶部２０６とから構成されている。

このような構成を有する音声認識標準パタン適応装置２００はつぎのように動作する。すなわち、音声特徴量入力部２０１から適応に用いる音声の特徴量列を入力し、音声認識手段２０３で標準パタン記憶部２０２に記憶されている標準パタンを用いてこの特徴量列を音声認識し認識結果を出力する。信頼度計算手段２０４では、この認識結果を、入力された特徴量列の教師ラベルとしたときの信頼度を計算する。
信頼度付き標準パタン適応手段２０５では、前記、特徴量列と教師ラベルおよび信頼度を用いて信頼度に応じて重みを付与し、標準パタンを入力特徴量列に適応させる。

信頼度付き標準パタン適応手段２０５について説明する。
標準パタンを現在の音声認識において広く用いられている隠れマルコフモデル（以降、「ＨＭＭ」という）とし、ＨＭＭのパラメタとしてガウス分布の平均ベクトルを適応させる場合においては、時刻ｔ＝１、２、・・・、Ｔの入力特徴量列

と、信頼度計算手段２０４で得られた教師ラベルとして最尤となるガウス分布系列

および、信頼度

を用いて、時刻ｔにおけるラベルｑ＝ｌ（ｔ）に対して、数式４の信頼度を用いた重み付けにより補正された適応データを計算する。

ここでμ（ｑ）はラベルｑにおけるガウス分布平均ベクトルであり、τは０以上の値を持つ制御定数である。
この補正された適応データを用いて標準パタンを適応することにより、信頼度が低い音声データの影響を小さくでき、教師ラベルの誤りすなわち認識結果誤りの影響を軽減させた適応パタンを計算できる。

正解教師ラベルの作成方法の例としては、ビタービアルゴリズムが非特許文献１に記載されている。

標準パタン適応手法の例としては、MAP適応、MLLR（Maximum Likelihood Linear Regression）適応、AMCC（Autonomous Model Complexity Control）、EigenVoice適応が非特許文献２に記載されている。また、ＨＥＶ（Hierarchical EigenVoice）適応が、非特許文献３に記載されている。

特許第３５８９０４４号公報 Rabiner, B-H.Juang 著、音声認識の基礎、NTTアドバンステクノロジ株式会社、1995年篠田浩一、「確率モデルによる音声認識のための話者適応化技術」、電子通信情報学会誌、2004年、Vol. J84-D、No. 2, pp371-386 Y. Onishi and K. Iso, "Speaker adaptation by hierarchical eigenvoice"Proc. ICASSP-2003, pp. I-576-579, 2003年

上記各文献の開示事項は、引用をもって本書に繰込み記載されるものとする。
従来の音声認識標準パタン適応方法の第１の問題点は、標準パタン適応に入力音声特徴量の情報を十分に利用できていないということである。その理由は、信頼度が高い音声データのみが適応に影響し、信頼度の低い音声データの情報は利用されず、入力された情報の一部のみを利用して適応を行うためである。

従来の音声認識標準パタン適応方法の第２の問題点は、もとの標準パタンの認識性能が低いとき適応性能が低くなるということである。その理由は、認識性能が低いとき信頼度が低くなるため、標準パタンは十分に適応されず性能が低いままであるためである。

本発明の目的は、もとの標準パタンの認識性能が低い場合でも、入力音声データ情報を十分に利用して適応を行える方法等を提供することにある。

本発明は、下記に示す解決手段を提供する。
本発明の、パタン適応方法は、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識工程と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出工程と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応工程とを備えている（請求項１ないし請求項４）。

上記パタン適応方法によれば、適応データ算出工程において、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、標準パタン適応工程では、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。

上記標準パタン適応方法において、適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、誤りを含まない教師ラベルからなる正解教師ラベルと認識結果ラベルとを統計分析し、認識誤り知識を算出する認識誤り知識算出工程とを備えるようにしてもよい（請求項２）。このようにすれば、正解教師ラベルと音声認識結果を利用して認識誤り知識を抽出することができる。

上記標準パタン適応方法において、入力音声データおよび認識結果教師ラベルをクラスタに分類するクラスタリング工程を備え、適応データ算出工程では、クラスタに分類された入力音声データと認識結果教師ラベルとを用いてクラスタごとの認識誤り知識により適応データを算出するようにしてもよい（請求項３）。このようにすれば、認識誤り知識をクラスタごとに詳細に抽出しておくことが出来、クラスタリングをしない場合に比べ、効果的な標準パタン適応を行うことが出来る。

上記標準パタン適応方法において、適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング工程と、認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出工程とを備えるようにしてもよい（請求項４）。このようにすれば、正解教師ラベルと音声認識結果を利用してクラスタごとの認識誤り知識を抽出することができる。

本発明の標準パタン適応プログラムは、コンピュータに、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識機能と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出機能と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応機能とを実行させる（請求項５ないし請求項８）。

上記標準パタン適応プログラムによれば、適応データ算出機能で、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、標準パタン適応機能で、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。

上記標準パタン適応プログラムにおいて、適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、誤りを含まない教師ラベルからなる正解教師ラベルと認識結果ラベルとを統計分析し、認識誤り知識を算出する認識誤り知識算出機能とを実行させるようにしてもよい（請求項６）。このようにすれば、正解教師ラベルと音声認識結果を利用して認識誤り知識を抽出することができる。

上記標準パタン適応プログラムにおいて、コンピュータに、入力音声データおよび認識結果教師ラベルをクラスタに分類するクラスタリング機能を実行させ、適応データ算出機能は、クラスタに分類された入力音声データと認識結果教師ラベルとを用いてクラスタごとの認識誤り知識により適応データを算出するものとしてもよい（請求項７）。このようにすれば、認識誤り知識をクラスタごとに詳細に抽出しておくことが出来、クラスタリングをしない場合に比べ、効果的な標準パタン適応を行うことが出来る。

上記標準パタン適応プログラムにおいて、適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング機能と、認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出機能を実行させるようにしてもよい（請求項８）。このようにすれば、正解教師ラベルと音声認識結果を利用してクラスタごとの認識誤り知識を抽出することができる。

本発明の標準パタン適応装置は、入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識部と、入力音声データと認識結果教師ラベルを、標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出部と、適応データを用いて標準パタンを適応して適応パタンを生成する標準パタン適応部とを備えている（請求項９ないし請求項１２）。

上記標準パタン適応装置によれば、適応データ算出部において、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、標準パタン適応部は、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。

上記標準パタン適応装置において、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、誤りを含まない教師ラベルからなる正解教師ラベルと認識結果ラベルとを統計分析し、認識誤り知識を算出する認識誤り知識算出部とを備えるようにしてもよい（請求項１０）。このようにすれば、正解教師ラベルと音声認識結果を利用して認識誤り知識を抽出することができる。

上記標準パタン適応装置において、入力音声データおよび認識結果教師ラベルをクラスタに分類するクラスタリング部を備え、適応データ算出部は、クラスタに分類された入力音声データと認識結果教師ラベルとを用いてクラスタごとの認識誤り知識により、適応データを算出するようにしてもよい（請求項１１）。このようにすれば、認識誤り知識をクラスタごとに詳細に抽出しておくことが出来、クラスタリングをしない場合に比べ、効果的な標準パタン適応を行うことが出来る。

上記標準パタン適応装置において、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング部と、認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出部とを備えるようにしてもよい（請求項１２）。このようにすれば、正解教師ラベルと音声認識結果を利用してクラスタごとの認識誤り知識を抽出することができる。

本発明は下記の効果を奏する。
本発明によれば、入力音声データの認識結果の認識誤り知識を用いて補正した適応データを算出し、それを用いて標準パタンの適応を行う。そのため、入力音声データの認識結果が誤っている部分も、認識誤り知識で補正して有効に適応に使用することが出来、入力された音声データの情報を十分に利用し、また認識精度が低いところでも、標準パタンの効果的な適応を行うことが出来る。

本発明の第１の実施形態の標準パタン適応システムの構成図である。図２（ａ）は、図１の認識誤り知識抽出装置の動作を示すフローチャートである。図２（ｂ）は、図１の標準パタン適応装置の動作を示すフローチャートである。本発明の第２の実施形態の標準パタン適応システムの構成図である。図３の抽出側クラスタリング部の構成の一例を示す図である。図５（ａ）は、図３の認識誤り知識抽出装置の動作を示すフローチャートである。図５（ｂ）は、図３の標準パタン適応装置の動作を示すフローチャートである。従来の発明の標準パタン適応装置の構成図である。

符号の説明

１、４認識誤り知識抽出装置
２、５標準パタン適応装置
３、６標準パタン適応システム
１１教師ラベル記憶部
１２音声データ記憶部
１３抽出側音声認識手段
１４、２３認識誤り知識抽出手段
１５標準パタン記憶部
１６認識誤り知識記憶部
１７音声データ入力部
１８音声認識手段
１９、２５適応データ算出手段
２０標準パタン適応手段
２１適応パタン記憶部
２２抽出側クラスタリング部
２４クラスタリング部
２６類似話者モデル記憶部
２７クラスタラベル算出手段

以下、図を参照しながら本発明の第１の実施形態である標準パタン適応システム３の構成と動作について説明する。図１は、標準パタン適応システム３（標準パタン適応装置の一例）のブロック図である。標準パタン適応システム３は、認識誤り知識抽出装置１と標準パタン適応装置２により構成されている。

認識誤り知識抽出装置１は、たとえばパーソナルコンピュータであり、教師ラベル記憶部１１と音声データ記憶部１２と抽出側音声認識手段１３と認識誤り知識抽出手段１４と標準パタン記憶部１５と認識誤り知識記憶部１６を含む。上記の各手段は、認識誤り知識抽出装置１のＣＰＵ(Central Processing Unit)に標準パタン適応プログラムを実行させて、認識誤り知識抽出装置１のハードウェアを制御することにより実現される。

標準パタン記憶部１５は、たとえばハードディスク装置やメモリ等であり、事前に学習された音響モデルである標準パタンが記憶されている。標準パタンは、たとえば音声認識で一般的に用いられているＨＭＭであり、そのモデル単位はトライフォン(三つ組み音素)やモノフォン(単音素)等である。

音声データ記憶部１２はたとえばハードディスク装置やメモリ等であり、多数の発声音声の特徴量データが記憶されている。発生音声としては、標準パタンを学習したときに用いた音声データをもちいる、あるいはまたその標準パタンを用いて音声認識を行う対象のための開発用音声データを用意するなどとする。特徴量は、たとえば音声認識で一般的に用いられている音声波形データにケプストラム分析を行ったものである。音声データは、時系列で数式１で表す。

教師ラベル記憶部１１は、たとえばハードディスク装置やメモリ等であり、前記音声データ記憶部１２に記憶された音声データに対する正解教師ラベルが記憶されている。標準パタンとしてＨＭＭを用いる場合は、正解教師ラベルは、音声データ記憶部１２に記憶された音声データに対する正解ＨＭＭの系列であり、各時刻のモデル単位系列あるいはＨＭＭを構成する状態系列、あるいはまたＨＭＭを構成するガウス分布列などである。これら正解教師ラベルは、音声データに対して、たとえばビタービアルゴリズムにより最尤となる系列が選択され時刻対応付けられたものである。ビタービアルゴリズムは非特許文献１に詳細が記述されている。教師ラベルは時系列で数式２で表す。

抽出側音声認識手段１３（抽出側音声認識部の一例）は、音声データ記憶部１２に記憶されたデータに対して標準パタン記憶部１５に記憶された標準パタンを用いて音声認識を行い、その結果を出力する。

認識誤り知識抽出手段１４（認識誤り知識算出部の一例）は、音声データ記憶部１２に記憶されたデータに対して、教師ラベル記憶部１１に記憶された正解教師ラベルと、抽出側音声認識手段１３で得られた認識結果、すなわち誤りを含んだ認識結果ラベルとを用いて統計分析し認識誤り傾向の知識を抽出し、認識誤り知識記憶部１６に記憶する。

認識誤り知識記憶部１６は、例えばハードディスク装置やメモリ等である。
音声認識結果から算出された誤りを含んだ認識結果ラベルは時系列で数５で表される。

ここで、ラベルとして認識結果の一位系列を選択した場合l’(t)は時刻tでその教師ラベルがqのときq=l’(t)とあらわすものとする。
また、あるいは認識結果のM位候補まで用いた場合、時刻ｔの第i位候補の教師ラベルがqiなどとして数６であらわすものとする。

ここで上付き添え字tは転置を表す（以降同様に表記する）。

認識誤り知識抽出手段１４は、統計情報として例えば、数式７により、認識結果ラベルxが得られたときの正解教師ラベルyの出現する条件付確率を計算する。

ここで
δ(y,l(t)) は時刻tのラベルl(t)がyであれば1、そうでなければ0をあらわす。
認識結果のM位候補まで用いている場合はxは数式８であらわされる。

このようにして、認識誤り知識を抽出し記憶しておくことで、当該の標準パタンを用いた音声認識結果の誤り傾向を抽出しておくことが出来る。

標準パタン適応装置２は、たとえばパーソナルコンピュータであり、標準パタン記憶部１５と認識誤り知識記憶部１６と音声データ入力部１７と音声認識手段１８と適応データ算出手段１８と標準パタン適応手段２０と適応パタン記憶部２１を含む。

標準パタン記憶部１５および認識誤り知識記憶部１６はたとえばハードディスク装置やメモリ等であり、前述の認識誤り知識抽出装置１におけるものと同じデータを記憶しておく。ただし、認識誤り知識抽出装置におけるものと同じ装置である必要はない。

音声データ入力部１７では、例えば、自身のコンピュータ、あるいは他のコンピュータからネットワークを通じて、特徴分析された音声データを受け取ることにより、適応に用いられる音声の特徴量列（入力音声データ）を入力する。特徴量は、前述の認識誤り知識抽出装置１におけるものと同様であり、入力された音声データは数式１で表される。

音声認識手段１８では、音声データ入力部１７で入力された音声データに対して標準パタン記憶部１５に記憶された標準パタンを用いて音声認識を行い、音声認識結果（認識結果教師ラベル）を出力する。

適応データ算出手段１９では、音声データ入力部１７で入力された音声データと、音声認識手段１８で出力された認識結果、すなわち誤りを含んだラベルと、認識誤り知識記憶部１６に記憶された認識誤り知識抽出装置１で抽出された認識誤り知識を用いて、音声認識誤りを考慮した適応データを算出する。

例えば、数式１の音声データと数式５の認識結果ラベルと数式７の認識誤り知識を用いて次の数式９と数式１０で適応データを算出する。

u(y)はラベルyの適応に用いられる積算適応データであり、n(y)はそのデータ総数である。すなわち、入力音声データと音声認識結果を事前に抽出した認識誤り知識で補正した適応データが得られる。
また、例えばラベルyの適応に用いる補正した共分散行列を用いる場合は数式１１を用いることが出来る。

ここでm(y)はu(y)の平均値で数式１２で表わされる。

標準パタン適応手段２０（標準パタン適応部の一例）では、適応データ算出手段１９で得られた認識誤り知識で補正された適応用データを用いて、標準パタン記憶部１５に記憶された標準パタンを適応し、適応パタン記憶部２１に記憶する。

適応パタン記憶部２１は、たとえばハードディスク装置やメモリ等である。標準パタンの適応方法は、例えば、教師ラベルとしてガウス分布系列を用いて、その平均ベクトルを事後確率最大化（以下、「ＭＡＰ」という）適応する場合、ラベルyのガウス分布平均ベクトル、は数式１３で適応される。

ここでτは０以上の値を持つ制御定数である。

次に、標準パタン適応システム３の動作について説明する。
図２（ａ）は、認識誤り知識抽出装置１の動作を示すフローチャートである。抽出側音声認識手段１３が音声データ記憶部１２に記憶されたデータに対して標準パタン記憶部１５に記憶された標準パタンを用いて音声認識を行う（Ｓ１０１）。

認識誤り知識抽出手段１４は、教師ラベル記憶部１１に記憶された正解教師ラベルとＳ１０１で得られた認識結果を用いて認識誤り知識を抽出し、認識誤り知識記憶部１６に記憶する（Ｓ１０２）。

図２（ｂ）は、標準パタン適応装置２の動作を示すフローチャートである。音声データ入力部１７により適応に用いる音声の特徴量を入力する（Ｓ１１１）。

音声認識手段１８は、この入力データに対して標準パタン記憶部１５に記憶された標準パタンを用いて音声認識を行い、認識結果を適応データ算出手段１９に出力する（Ｓ１１２）。

適応データ算出手段１９は、Ｓ１１１で入力された音声データとＳ１１２で得られた認識結果とＳ１０２で得られた認識誤り知識を用いて、音声認識誤りを補正した適応データを算出する（Ｓ１１３）。

標準パタン適応手段２０は、Ｓ１１３で得られた適応データを用いて標準パタンを適応し、適応パタンを適応パタン記憶部２１に記憶する（Ｓ１１４）。

適応データ算出手段１９により算出された適応データは、入力音声データの音声認識結果と、事前に抽出された音声認識誤り知識を用いて補正を行った適応データであるため、これを用いて標準パタンの適応を行うと、認識結果が正解であったデータのみでなく、認識結果が誤っていたデータを認識誤り知識で補正して用いることができ、そのため入力音声データの情報を十分に利用し、かつもとの標準パタンの認識性能が低いときも誤り知識を利用することにより効果的に標準パタンの適応を行うことが出来る。

また本発明では、適応データ算出手段１９において、補正された適応データは各ラベルに対する適応データという形式で算出されるため、標準パタン適応手法への制限は小さく、標準パタン適応技術として用いられている既存の手法、すなわちＭＡＰ適応だけでなく、MLLR適応、AMCC適応、EigenVoice適応、HEV適応などを用いることが出来る。これらの適応手法の詳細は、非特許文献２と非特許文献３に記載されている。

次に、本発明の第２の発明の実施形態である標準パタン適応システム６について図面を参照して詳細に説明する。標準パタン適応システム６の構成は、図１の標準パタン適応システム３と多くの部分が共通するので、共通する部分については図面に図１と同じ符号を付して説明を省略する。

図３は、標準パタン適応システム６のブロック図である。標準パタン適応システム６は、認識誤り知識抽出装置４と、標準パタン適応装置５により構成される。認識誤り知識抽出装置４と標準パタン適応装置５の基本的な構成は、図１の場合と同様であるが、抽出側クラスタリング部２２とクラスタリング部２４をそれぞれ備えている点が異なっている。

抽出側クラスタリング部２２は、数式１の音声データと数式２の教師ラベルと数式５の認識結果ラベルに時間対応付けされた数式１４のクラスタラベルを算出することによりクラスタに分類する。

クラスタラベルは、例えばクラスタリングとして、音声認識結果から推定した発話速度を用いる場合には、単位時間当たりのモーラ数を算出し各時刻tごとに並べたものである。さらに連続値である発話速度推定値を離散化してクラスタラベルとすることも出来る。あるいは、抽出側クラスタリング部２２を図４に示す構成にして類似話者にクラスタリングすることもできる。この場合は、事前に多数話者の音声データを各話者ごとに正規分布でモデル化しておき、それら正規分布間の距離を指標とし類似の話者ごとにK-平均法などでクラスタリングしておく。ここで正規分布間距離は、例えば数式１５のバタチャリヤ距離を用いる。

ここでNは正規分布でその平均ベクトルがμ1、共分散行列がΣ1などである。またK-平均法は、非特許文献１に詳細が記述されている。

類似話者にクラスタリングされた各類似話者クラスのデータごとに、単一の正規分布あるいは正規分布の重み付和である混合正規分布などで各話者クラスのデータをモデル化した類似話者モデルが図４の類似話者モデル記憶部２６に記憶される。クラスタラベル算出部２７では、数式１の入力音声データのたとえば各時刻ごと、あるいは発声ごとなどで、前記類似話者モデル記憶部２６に記憶された類似話者モデルとのスコアを求め最も類似度が高かった類似話者モデルをクラスタラベルとする。

例えば類似話者モデルとして、単一の正規分布あるいは混合正規分布などをもちいた場合は、音声データに対する尤度をスコアとして用いる。あるいはまた、音声認識結果信頼度でクラスタリングする。例えば、M位までの音声認識結果ラベルを用いて一位結果ラベルの事後確率を用いる。
ある時刻のM位までの認識結果ラベルが数式８であらわされ、それらの対数尤度が数式１６であらわされるとすると、

音声認識の1位結果の信頼度は数式１７で表され、これをクラスタラベルとする。

さらに連続値である音声認識結果信頼度を離散化してクラスタラベルとすることも出来る。あるいはまた、発話速度、類似話者、音声認識信頼度など複数の条件を組み合わせてクラスラベルとして用いることも出来る。

認識誤り知識抽出手段２３は、図１と同様であるが、誤り知識抽出動作を各クラスタラベルごとに行う。すなわち、音声認識誤り知識は各クラスタkごとの知識として例えば数式１８に変更される。

クラスタリング部２４は、上記の抽出側クラスタリング部２２と同じ動作を行う。適応データ算出手段２５は、認識誤り知識記憶部１６に記憶されたクラスタごとに抽出された音声認識誤り知識を用い、図1の適応データ算出手段１９と同様の動作を行う。すなわち音声データ入力部１７で入力された適応データは、数式５の認識結果ラベルおよび、数式１４のクラスタラベルから、数式１８のクラスタごとの認識誤り知識を用いて補正される。

次に、標準パタン適応システム６の動作について説明する。図５（ａ）は、認識誤り知識抽出装置４の動作を示すフローチャートである。抽出側音声認識手段１３が音声データ記憶部１２に記憶されたデータに対して標準パタン記憶部１５に記憶された標準パタンを用いて音声認識を行う（Ｓ１２１）。

抽出側クラスタリング部２２は、音声データとＳ１２１で生成した音声認識結果をクラスタに分類する（Ｓ１２２）。具体的には、音声データと教師ラベルと認識結果ラベルに時間対応付けされたクラスタラベルを算出する。

認識誤り知識抽出手段２３は、誤り知識抽出動作をクラスタラベルごとに行う（Ｓ１２３）。すなわち、音声認識誤り知識はクラスタごとの知識として、例えば数式１８に示すものを算出する。

図５（ｂ）は、標準パタン適応装置５の動作を示すフローチャートである。音声データ入力部１７により適応に用いる音声の特徴量を入力する（Ｓ１３１）。

音声認識手段１８は、この入力データに対して標準パタン記憶部１５に記憶された標準パタンを用いて音声認識を行い、認識結果を適応データ算出手段２５に出力する（Ｓ１３２）。

クラスタリング部２４は、音声データとＳ１３１で生成した音声認識結果をクラスタに分類する（Ｓ１３３）。

適応データ算出手段２５は、Ｓ１３１で入力された音声データとＳ１３２で得られた認識結果とＳ１３３で得られたクラスタごとの認識誤り知識を用いて、音声認識誤りを補正した適応データを算出する（Ｓ１３４）。

標準パタン適応手段２０は、Ｓ１３４で得られた適応データを用いて標準パタンを適応し、適応パタンを適応パタン記憶部２１に記憶する（Ｓ１３５）。

標準パタン適応システム６では、音声認識誤り知識が、発話速度や話者性や認識結果信頼度などでクラスタリングされより詳細に抽出される。これにより適切に適応データの補正が行われるため、標準パタン適応が効果的となる。

本発明によれば、使用者に意識させずに声の特徴に音声認識用標準パタンを適応させ、音声認識性能を向上させる、音声認識装置や音声認識装置をコンピュータに実現するためのプログラムといった用途に適応できる。
本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲（クレーム）の枠内において、種々の開示要素の多様な組み合わせないし選択が可能である。

Claims

入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識工程と、
前記入力音声データと前記認識結果教師ラベルを、前記標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出工程と、
前記適応データを用いて前記標準パタンを適応して適応パタンを生成する標準パタン適応工程とを備えたことを特徴とした標準パタン適応方法。
前記適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、
誤りを含まない教師ラベルからなる正解教師ラベルと前記認識結果ラベルとを統計分析し、前記認識誤り知識を算出する認識誤り知識算出工程とを備えたことを特徴とした請求項１に記載の標準パタン適応方法。
前記入力音声データおよび前記認識結果教師ラベルをクラスタに分類するクラスタリング工程を備え、
前記適応データ算出工程では、前記クラスタに分類された前記入力音声データと前記認識結果教師ラベルとを用いて前記クラスタごとの前記認識誤り知識により前記適応データを算出することを特徴とした請求項１に記載の標準パタン適応方法。
前記適応データ算出工程に先立って、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識工程と、
前記音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング工程と、
前記認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、前記認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出工程とを備えたことを特徴とした請求項３に記載の標準パタン適応方法。
コンピュータに、
入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識機能と、
前記入力音声データと前記認識結果教師ラベルを、前記標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出機能と、
前記適応データを用いて前記標準パタンを適応して適応パタンを生成する標準パタン適応機能とを実行させることを特徴とした標準パタン適応プログラム。
前記適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、
誤りを含まない教師ラベルからなる正解教師ラベルと前記認識結果ラベルとを統計分析し、前記認識誤り知識を算出する認識誤り知識算出機能とを実行させることを特徴とした請求項５に記載の標準パタン適応プログラム。
コンピュータに、
前記入力音声データおよび前記認識結果教師ラベルをクラスタに分類するクラスタリング機能を実行させ、
前記適応データ算出機能は、前記クラスタに分類された前記入力音声データと前記認識結果教師ラベルとを用いて前記クラスタごとの前記認識誤り知識により前記適応データを算出するものであることを特徴とした請求項５に記載の標準パタン適応プログラム。
前記適応データ算出機能に先立って、コンピュータに、音声データを音声認識して認識結果ラベルを算出する抽出側音声認識機能と、
前記音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング機能と、
前記認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、前記認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出機能を実行させることを特徴とした請求項７に記載の標準パタン適応プログラム。
入力音声データと標準パタンを用いて認識結果教師ラベルを算出する音声認識部と、
前記入力音声データと前記認識結果教師ラベルを、前記標準パタンの認識誤り傾向の統計情報である認識誤り知識により適応用に補正した教師ラベルおよび音声データからなる適応データを算出する適応データ算出部と、
前記適応データを用いて前記標準パタンを適応して適応パタンを生成する標準パタン適応部とを備えたことを特徴とした標準パタン適応装置。
音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、
誤りを含まない教師ラベルからなる正解教師ラベルと前記認識結果ラベルとを統計分析し、前記認識誤り知識を算出する認識誤り知識算出部とを備えたことを特徴とした請求項９に記載の標準パタン適応装置。
前記入力音声データおよび前記認識結果教師ラベルをクラスタに分類するクラスタリング部を備え、
前記適応データ算出部は、前記クラスタに分類された前記入力音声データと前記認識結果教師ラベルとを用いて前記クラスタごとの前記認識誤り知識により、前記適応データを算出することを特徴とした請求項９に記載の標準パタン適応装置。
音声データを音声認識して認識結果ラベルを算出する抽出側音声認識部と、
前記音声データおよび認識結果ラベルをクラスタに分類する抽出側クラスタリング部と、
前記認識結果ラベルのクラスタごとに、誤りを含まない教師ラベルからなる正解教師ラベルと、前記認識結果教師ラベルとを統計分析し、標準パタンの認識誤り傾向の統計情報である認識誤り知識を算出する認識誤り知識抽出部とを備えたことを特徴とした請求項１１に記載の標準パタン適応装置。