JP2009128490A

JP2009128490A - 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体

Info

Publication number: JP2009128490A
Application number: JP2007301625A
Authority: JP
Inventors: Satoru Kobashigawa; 哲小橋川; Hirokazu Masataki; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-11-21
Filing date: 2007-11-21
Publication date: 2009-06-11
Anticipated expiration: 2027-11-21
Also published as: JP4829871B2

Abstract

【課題】学習データの中から高い認識性能を実現する高精度な音響モデルの作成に有用な学習データを選択する。
【解決手段】ベース音響モデル１４１を、タスクに適応する学習データであるタスク適応学習データ１２０で学習してタスクに適応した適応音響モデル１５１を作成する。学習データ２００の音声データに対して音声認識を行い、学習データ２００のラベルから得られた文法１６１および適応音響モデル１５１を用いた音声認識の場合の認識スコア（適応認識スコア）と、文法１６１およびベース音響モデル１４１を用いた音声認識の場合の認識スコア（ベース認識スコア）とを求める。学習データ２００のうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択する。
【選択図】図１

Description

本発明は、音響モデルの作成に用いるデータ（学習データ）の選択およびこの学習データを用いて音響モデルを作成する技術に関する。

従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル（Hidden Markov Model；以下「ＨＭＭ」と表す。）によってモデル化して音響モデルを作成する手法は、認識性能が高く、現在の音声認識技術の主流となっている。

ＨＭＭに代表される音響モデルは、学習データから学習して蓄積した十分統計量を用いて生成される。近年では、学習データ量は膨大になり、５００時間を越える学習データ量を擁する学習データが音響モデル作成に用いられるようになっている。

ところで、音響モデルの作成には、学習データ量に応じた学習時間を要する。近年、学習データ量の増加に伴い、音響モデル学習にかかる時間コストは膨大となっていた。また、学習データの中には、認識性能向上に寄与しない妨害データも存在し、この妨害データの存在によって認識性能が劣化してしまうことがあった。

そこで、特許文献１に開示される技術では、次のようにして高精度な音響モデルを作成している。ベース音響モデルと複数の学習データクラスタを用いて、各学習データクラスタに対応した十分統計量（クラスタ十分統計量）を得る。そして、各クラスタ十分統計量のうち一つまたは複数の組合せから音響モデルを作成して、各音響モデルを評価用データおよび評価用言語モデルを用いて評価する。各音響モデルの評価結果のうち所定の評価結果を与えた音響モデルを選択する。
特開２００７−２４９０５１号公報

従来、予定している音声認識対象となる音声と音響的に近い音声（環境などの音声認識用途であるタスク、発話スタイル、話者等をメルクマールとする。）を一から収集するか、既存の音声データベースから人手で選定したりして、音響モデルの作成に用いる学習データ（具体例としては音声データと、この音声データに対応付けた音声単位カテゴリによるラベルである。）を得ていた。高精度音響モデルの作成のためにタスクに対応する膨大な学習データ量を一から収集することや、膨大な学習データ量を擁する音声データベースから予定している音声認識対象となる音声と音響的に近い音声を選定することには、大変な労力を伴う。

また、既述のとおり、音響モデルの作成には学習データ量に応じた学習時間を要するところ、学習データ量の増加に伴い、音響モデル学習にかかる時間コストは膨大となってしまう。また、学習データの中には、認識性能向上に寄与しない妨害データも存在し、この妨害データの存在によって認識性能が劣化してしまう。

上記特許文献１の技術では、その一局面において、膨大な学習データを細分化して複数の音響モデルを作成し、評価用データ等を用いたこれらの評価結果に基づいて高精度の音響モデルを得ていたが、複数の音響モデルを作成するものであるから、計算コストの負担が大きかった。

このような問題に鑑み、本発明は、学習データの中から高い認識性能を実現する高精度な音響モデルの作成に有用な学習データを選択する技術を提供する。また、短時間で高精度の音響モデルを作成する技術を提供する。

上記課題を解決するために、本発明は、音声データとこの音声データに対応付けられたラベルで構成される学習データから、次のようにして学習データの選択を行う。初期音響モデルであるベース音響モデルを、タスクに適応する学習データであるタスク適応学習データで学習してタスクに適応した音響モデル（適応音響モデル）を作成する。そして、音声データに対して音声認識を行い、学習データのラベルから得られた文法および適応音響モデルを用いた音声認識の場合の認識スコア（適応認識スコア）と、文法およびベース音響モデルを用いた音声認識の場合の認識スコア（ベース認識スコア）とを求める。学習データのうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択する。
このように、適応認識スコアとベース認識スコアとの比較判定に合格する学習データを、タスクに相応しい学習データであると看做してこれを選択する。

また、上記課題を解決するために、本発明は、選択された学習データを用いて、初期音響モデルである基本音響モデルを学習して音響モデルを作成する。

また、本発明の学習データ選択装置としてコンピュータを機能させる学習データ選択プログラムによって、コンピュータを学習データ選択装置として作動処理させることができる。同様に、本発明の音響モデル作成装置としてコンピュータを機能させる音響モデル作成プログラムによって、コンピュータを音響モデル作成装置として作動処理させることができる。そして、このようなプログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体によって、他のコンピュータを学習データ選択装置、音響モデル作成装置として機能させることや、プログラムを流通させることなどが可能になる。

本発明によれば、適応音響モデルを用いた音声認識の場合の適応認識スコアと、ベース音響モデルを用いた音声認識の場合のベース認識スコアとを求めて、学習データのうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択することから、高精度な音響モデルの作成に有用な学習データを選択することができる。また、選択された学習データのデータ量は、学習データそのもののデータ量よりも通常小さいため、このような選択された学習データで基本音響モデルを学習することで、高い認識性能を実現する高精度な音響モデルが短時間で得られる。

《第１実施形態》
図面を参照して、本発明の第１実施形態を説明する。
本発明の第１実施形態である学習データ選択装置１は、それ単体で独立に存在するよりは、選択された学習データを用いて音響モデルの作成を行う装置（本発明の第１実施形態である音響モデル作成装置２）を構成する構成要素として存在するのが実用的である。さらに云えば、学習データ選択装置１は、音響モデル作成装置２とは容易に分離可能に音響モデル作成装置２を構成する構成要素ではなく、音響モデル作成装置２自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、学習データ選択装置１は、音響モデル作成装置２そのものであることが凡そ実用的である。
ただし、学習データ選択装置１が、単体独立の構成要素として存在すること、音響モデル作成装置２とは容易に分離可能に音響モデル作成装置２を構成する構成要素であることを排除する趣旨ではない。例えば学習データの選択自体を目的とするならば、学習データ選択装置１を単体独立の構成要素として実現することに何らの妨げは無い。
ここで音響モデル作成装置２は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立の構成要素として学習データ選択装置１を実現する場合も同様である。

音響モデル作成装置２を単体単独の構成要素として、これをコンピュータ（汎用機）で実現する場合のハードウェア構成例を説明する。学習データ選択装置１は、音響モデル作成装置２を構成する構成要素とする。

＜音響モデル作成装置２のハードウェア構成例＞
音響モデル作成装置２は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ＣＰＵ（Central Processing Unit）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音響モデル作成装置２に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

音響モデル作成装置２の外部記憶装置には、音響モデル作成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。

本実施形態では、記憶部の所定の記憶領域には、学習データ２００がデータとして記憶されている。学習データ２００は、音声認識などに用いる汎用の音声データベースに含まれる学習データである。この汎用音声データベースは、既存のものを用いることができ、例えば５００時間を越えるデータ量を擁している。

また、記憶部の所定の記憶領域には、ベース学習データ１００がデータとして記憶されている。ベース学習データ１００は、初期音響モデルであるベース音響モデル１４１の作成に用いる学習データである。ベース学習データ１００は、タスクに適応する学習データである必要はない。例えば、ベース学習モデル１００は、学習データ２００と同一であってもよいし、一から収集したものであってもよい。

さらに、記憶部の所定の記憶領域には、タスク適応学習データ１２０がデータとして記憶されている。タスク適応学習データ１２０は、音響モデルが用いられるタスクに適応した学習データであり、予め準備されているものとする。例えば、タスクが予め既知の場合、タスクにおける音声を一から収集しておくことや、既存の音声データベースからタスクに適応する学習データを選定しておくことで、タスク適応学習データ１２０を予め準備できる。また、タスクにおける音声を収集できない場合でも、収録環境、話者、発声内容、発話スタイルの少なくともいずれか一つを同じとして得た学習データをタスク適応学習データ１２０として採用すればよい（後述の実施例を参照のこと。）。

タスク適応学習データ１２０は、タスクによっては十分なデータ量が得られる保証がなく、学習データ２００に比べてデータ量が少ないことが多い。本発明の学習データ選択技術では、後述するように、タスク適応学習データ１２０として相応しい学習データを学習データ２００から選択することで選択学習データ１３１を得ることができるから、タスク適応学習データ１２０を選択学習データ１３１で増強することができる。この観点から、学習データ２００には、タスクに近い音声データを含んでいることが望ましい。

ベース学習データ１００、タスク適応学習データ１２０、学習データ２００はそれぞれ、発話単位で、音声データ（肉声のアナログデータ）とこの音声データに対応付けられた音声単位カテゴリ（例えば音素、音節、半音節など）によるラベルから構成される。但し、このような構成に限定されるものではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音声単位カテゴリによるラベルから構成するとしてもよいし、あるいは、ディジタル化された音声データとこの音声データに対応付けられた音声単位カテゴリによるラベルから構成されるとしてもよい。

音響モデル作成装置２の記憶部には、ベース音響モデル１４１を作成するためのプログラム、適応音響モデル１５１を作成するためのプログラム、学習データ２００をディジタル化するためのプログラム、学習データ２００から文法を生成するためのプログラム、音声認識を行うためのプログラム、音声認識結果に基づいて学習データを選択するためのプログラム、少なくとも選択された学習データを用いて音響モデルを作成するためのプログラムが記憶されている。

音響モデル作成装置２では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。この結果、ＣＰＵが所定の機能（ベース音響モデル作成部、適応音響モデル作成部、ディジタル化部、文法生成部、音声認識部、学習データ選択部、音響モデル作成部）を実現することで学習データの選択並びに音響モデルの作成が実現される。なお、ベース音響モデル作成部、文法生成部は、音響モデル作成装置２の必須の構成要素ではない。また、第１実施形態の学習データ選択装置１は、ベース音響モデル作成部、適応音響モデル作成部、ディジタル化部、文法生成部、音声認識部、学習データ選択部を含んで構成されるが、ベース音響モデル作成部、文法生成部は、学習データ選択装置１の必須の構成要素ではない。

次に、第１実施形態として、図１および図２を参照しながら、学習データ選択装置１による学習データ選択処理を含む音響モデル作成装置２による音響モデル作成処理の流れを叙述的に説明する。

まず、文法生成部１６が、学習データ２００に含まれるラベルを用いて文法１６１を生成する（ステップＳ１）。文法１６１は、例えばラベル中の単語間にショートポーズを許すような文法として作成する。なお、文法１６１を生成する処理は必須ではなく、予め用意した記述文法を文法１６１として用いることもできる。

次に、ベース音響モデル作成部１４が、ベース学習データ１００を用いて、ベース音響モデル１４１を作成する（ステップＳ２）。ベース音響モデル１４１は、ベース学習データ１００の音声データに対して、例えば書き起こしテキストの発音形（カナ）に対応する音素をラベリングしてモノフォンラベルを作成し（強制的にショートポーズを入れてアライメントを行うとする。）、３状態left-to-right型ＨＭＭ構造で作成した確率モデルなどである。ベース音響モデル１４１を作成する処理は必須ではなく、予め用意した未学習の音響モデルをベース音響モデル１４１として用いることもできる。

次に、適応音響モデル作成部１５が、ベース音響モデル１４１をタスク適応学習データ１２０で学習して音響モデル（適応音響モデル１５１）を作成する（ステップＳ３）。

次に、ディジタル化部１１が、発話単位で、学習データ２００に含まれる音声データをディジタル音声信号に変換する（ステップＳ４）。このディジタル化は、周知のＡ／Ｄ変換などを適用して行う。このディジタル音声信号は音声認識部１２の入力となる。なお、学習データ２００に含まれる音声データがディジタル音声信号である場合、この処理は不要である。

次に、音声認識部１２が、ディジタル音声信号、文法１６１、ベース音響モデル１４１および適応音響モデル１５１を入力として、発話単位で音声認識を行い、文法１６１およびベース音響モデル１４１を用いた音声認識に拠るディジタル音声信号に対する認識スコア（ベース認識スコア）と、文法１６１および適応音響モデル１５１を用いた音声認識に拠るディジタル音声信号に対する認識スコア（適応認識スコア）とを求める（ステップＳ５）。各認識スコアの算出方法は周知のものに拠ればよい。

次に、学習データ選択部１３が、適応認識スコアとベース認識スコアとの比較判定を行い、学習データ２００の中から前記判定に合格した（通常は一部の）学習データを選択学習データ１３１として選択する（ステップＳ６）。例えば、ベース認識スコア以上の適応認識スコアとなった発話に対応する音声データとこれに対応するラベルからなる学習データを選択学習データ１３１として選択する。つまり、選択学習データ１３１は、学習データ２００の部分集合である。

続いて、音響モデル作成部１７が、ベース音響モデル１４１を選択学習データ１３１で学習して音響モデル１７１を作成する（ステップＳ７）。

適応音響モデル１５１、音響モデル１７１の各音響モデルの作成について補足説明する。この補足説明のモデル作成部を適応音響モデル作成部１５、音響モデル作成部１７に読み替え、この補足説明の学習データをタスク適応学習データ１２０、選択学習データ１３１に読み替えることで、各処理の理解が得られる。

モデル作成部は、ベース音響モデル１４１および学習データを用いて十分統計量を算出する。

モデル作成部による学習の一例は、学習データを構成するラベル対応の音声データの音響分析を行い、この音響分析結果をＨＭＭの状態からの出力信号系列と見立てて、Baum-Welchアルゴリズムによって、音声単位カテゴリ毎に（ベース音響モデル１４１が与えられた下での）ＨＭＭの最尤パラメータを求めるための統計量を算出するものである。この統計量が、十分統計量である。

十分統計量とは、ＨＭＭを特徴付けるパラメータであり、具体例を説明する。ラベル対応の音声データの音響特徴量と音声単位カテゴリとの関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、１個あるいは複数の多次元正規分布を混合した確率分布である。ここでの多次元正規分布は、一般的に第ｉ次元ケプストラム〔ＬＰＣケプストラム、ＭＦＣＣ（メル周波数ケプストラム係数）なども含む。以下同様。〕、第ｉ次元Δケプストラム（ケプストラム係数の１次差分）、第ｉ次元ΔΔケプストラム（Δケプストラム係数の１次差分）などのケプストラム係数および対数パワー、Δ対数パワー（対数パワーの１次差分）、ΔΔ対数パワー（Δ対数パワーの１次差分）の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各多次元正規分布の平均、分散や混合重み、状態遷移確率を計算するための統計量が十分統計量である。

モデル作成部は、十分統計量から音響モデルを合成する。十分統計量から音響モデルを合成する方法は参考文献に詳しい。
（参考文献）Lawrence Rabiner, Biing-Hwang Juang 共著、古井貞熙監訳、"音声認識の基礎（下）"、ＮＴＴアドバンステクノロジ、１９９５

≪第２実施形態≫
第２実施形態は、選択学習データ１３１の選択に関する変形例である。第２実施形態は、第１実施形態のステップＳ６の処理を、学習データ選択部１３が、学習データ２００のうち、適応認識スコアからベース認識スコアを減じて得られるスコア（差分認識スコア）が、予め定められた閾値以上となる発話に対応する音声データとこれに対応するラベルからなる学習データを選択学習データ１３１として選択する処理（ステップＳ６ａ）に変更した実施形態である（図３参照）。第１実施形態の例は、閾値が０の場合である。閾値は負の値としてもよい。ここで述べた変更以外は、第１実施形態と同じである。

閾値の値が大きく設定されていると、選択学習データ１３１として、タスク適応学習データ１２０に近い発話に対応する音声データとこれに対応するラベルからなる学習データを選択することができる。他方、閾値の値が（負の場合も含めて）小さく設定されていると、必ずしもタスクに特化したものではないが、選択学習データ１３１のデータ量を増やすことができる。

≪第３実施形態≫
第３実施形態は、音響モデル１７１の作成に関する変形例である。第３実施形態は、第１実施形態のステップＳ７の処理を、音響モデル作成部１７が、選択学習データ１３１に基本学習データ１０１を併せたものを学習データとして、この学習データでベース音響モデル１４１を学習して音響モデル１７１を作成する処理（ステップＳ７ａ）に変更した実施形態である（図４参照）。ここで基本学習データ１０１として、ベース学習データ１００、または、タスク適応学習データ１２０、または、ベース学習データ１００とタスク適応学習データ１２０とを併せたものを採用できる。この変更以外は、第１実施形態と同じである。また、図示していないが、この第３実施形態は第２実施形態に適用できる。

選択学習データ１３１だけでなくタスク適応学習データ１２０も学習データに用いることで、タスクに特化しつつ、十分なデータ量の学習データで学習された音響モデル１７１を得ることができる。また、選択学習データ１３１だけでなくベース学習データ１００も学習データに用いることで、必ずしもタスクに特化したものではないが、十分なデータ量の学習データで学習された音響モデル１７１を得ることができる。

≪補記≫
第１実施形態において、学習データ選択処理のみを行う場合には、ステップＳ７の処理を省略できる。この場合であっても、ステップＳ１およびＳ２の各処理は必須のものではない。このことは第２実施形態でも同様である。また、第３実施形態では、学習データ選択処理のみを行う場合には、ステップＳ７ａの処理を省略できる。この場合でも、ステップＳ１およびＳ２の各処理は必須のものではない。

学習データ選択装置１と音響モデル作成装置２を各別の装置として構成する場合などでは、学習データ選択装置１の学習データ選択部１３が出力した選択学習データ１３１を（例えば記録媒体３３を介して）音響モデル作成装置２の記憶部に記憶し、音響モデル作成部１７がこの記憶された選択学習データ１３１で基本音響モデル１４２を学習して音響モデル１７１を得ることができる（図５参照）。この場合、音響モデル作成装置２が用いる基本音響モデル１４２は、学習データ選択装置１で用いられたベース音響モデル１４１と同じであることが好適であるが、必ずしも同一のベース音響モデルを用いる必要はない。

また、第３実施形態のように、音響モデル作成装置２の記憶部に記憶された選択学習データ１３１に基本学習データ１０１を併せたものを学習データとして、音響モデル作成部１７がこの学習データで基本音響モデル１４２を学習して音響モデル１７１を得ることができる（図５参照）。この場合には、基本学習データ１０１は、学習データ選択装置１で用いられたベース学習データ１００、または、タスク適応学習データ１２０、または、ベース学習データ１００とタスク適応学習データ１２０とを併せたものと同じであることが好適であるが、必ずしも同一のものを用いる必要はない。

以上の実施形態の他、本発明である学習データ選択装置・方法、音響モデル作成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、各実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記学習データ選択装置／音響モデル作成装置における処理機能をコンピュータによって実現する場合、学習データ選択装置／音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記学習データ選択装置／音響モデル作成装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、学習データ選択装置／音響モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

データ量が４５８．３６時間の学習データ２００から、本発明により、データ量が２．３６時間の選択学習データ１３１が選択された。データ量が１３．５８時間のベース学習データ１００で得られたベース音響モデル１４１を用いた場合の認識率は７８．３７％、認識精度は７４．４９％であったが、データ量が１３．５８時間のベース学習データ１００にデータ量が２．３６時間の選択学習データ１３１を併せたものを学習データ（データ量は１５．９４時間）としてベース音響モデル１４１を学習して得られた音響モデル１７１を用いた場合の認識率は７９．１０％、認識精度は７５．３３％であり、いずれも改善した。

また、タスク適応学習データ１２０とは異なるが、タスク適応学習データと同じ発話スタイルである自由発話音声を認識対象とした場合では、音響モデル１７１を用いた場合の認識率は６７．６０％、認識精度は６６．１０％であった。これに対して、ベース音響モデル１４１を用いた場合の認識率は６７．４３％、認識精度は６５．８１％であった。このように、タスク適応学習データ１２０とは異なるが、同じ発話スタイルの音声を認識対象とした場合に音響モデル１７１を用いても、この認識率および認識精度はベース音響モデル１４１のそれに比して良好である結果を示した。

本発明は、音声認識―例えば、音声認識に基づく文字入力や対話システムの音声認識など―に用いる音響モデルの作成に有用である。

第１実施形態に係わる学習データ選択装置・音響モデル作成装置の機能構成例を示すブロック図。第１実施形態に係わる学習データ選択処理・音響モデル作成処理の処理フローを示す図。第２実施形態に係わる学習データ選択処理・音響モデル作成処理の処理フローを示す図。第３実施形態に係わる学習データ選択処理・音響モデル作成処理の処理フローを示す図。学習データ選択装置と音響モデル作成装置を各別の装置とした場合の機能構成例を示すブロック図。

符号の説明

１学習データ選択装置
２音響モデル作成装置
１２音声認識部
１３学習データ選択部
１５適応音響モデル作成部
１７音響モデル作成部
１３１選択学習データ
１４１ベース音響モデル
１５１適応音響モデル
１６１文法
１７１音響モデル
２００学習データ

Claims

初期音響モデルであるベース音響モデルと、音声データとこの音声データに対応付けられたラベルで構成される学習データと、この学習データのラベルから得られた文法と、タスクに適応する学習データ（タスク適応学習データ）とを記憶する記憶手段と、
上記ベース音響モデルを上記タスク適応学習データで学習して上記タスクに適応した音響モデル（適応音響モデル）を作成する適応音響モデル作成手段と、
上記音声データに対して音声認識を行い、上記文法および上記適応音響モデルを用いた音声認識の場合の認識スコア（適応認識スコア）と、上記文法および上記ベース音響モデルを用いた音声認識の場合の認識スコア（ベース認識スコア）とを求める音声認識手段と、
上記学習データのうち、上記適応認識スコアと上記ベース認識スコアとの比較判定に合格するものを選択する学習データ選択手段と
を備える学習データ選択装置。
上記学習データ選択手段は、
上記適応認識スコアから上記ベース認識スコアを減じて得られるスコア（差分認識スコア）が、予め定められた閾値以上となるものを選択する
ことを特徴とする請求項１に記載の学習データ選択装置。
記憶手段には、初期音響モデルであるベース音響モデルと、音声データとこの音声データに対応付けられたラベルで構成される学習データと、この学習データのラベルから得られた文法と、タスクに適応する学習データ（タスク適応学習データ）とが記憶されており、
上記ベース音響モデルを上記タスク適応学習データで学習して上記タスクに適応した音響モデル（適応音響モデル）を作成する適応音響モデル作成ステップと、
上記音声データに対して音声認識を行い、上記文法および上記適応音響モデルを用いた音声認識の場合の認識スコア（適応認識スコア）と、上記文法および上記ベース音響モデルを用いた音声認識の場合の認識スコア（ベース認識スコア）とを求める音声認識ステップと、
上記学習データのうち、上記適応認識スコアと上記ベース認識スコアとの比較判定に合格するものを選択する学習データ選択ステップと
を有する学習データ選択方法。
初期音響モデルである基本音響モデルと、請求項１または請求項２に記載の学習データ選択装置によって選択された学習データ（選択学習データ）とを記憶する記憶手段と、
上記選択学習データを用いて上記基本音響モデルを学習して音響モデルを作成する音響モデル作成手段と
を備えた音響モデル作成装置。
上記記憶手段には、上記選択学習データと異なる学習データ（基本学習データ）も記憶されており、
上記音響モデル作成手段は、上記基本学習データと上記選択学習データとを併せたものを学習データとして、この学習データで上記基本音響モデルを学習して音響モデルを作成する
ことを特徴とする請求項４に記載の音響モデル作成装置。
記憶手段には、初期音響モデルである基本音響モデルと、請求項３に記載の学習データ選択方法によって選択された学習データ（選択学習データ）とが記憶されており、
上記選択学習データを用いて上記基本音響モデルを学習して音響モデルを作成する音響モデル作成ステップ
を有する音響モデル作成方法。
請求項１または請求項２に記載された学習データ選択装置としてコンピュータを機能させるためのプログラム。
請求項７に記載のプログラムを記録したコンピュータに読み取り可能な記録媒体。
請求項４または請求項５に記載された音響モデル作成装置としてコンピュータを機能させるためのプログラム。
請求項９に記載のプログラムを記録したコンピュータに読み取り可能な記録媒体。