JP2010170075A

JP2010170075A - 情報処理装置、プログラム、および音響モデルを生成する方法

Info

Publication number: JP2010170075A
Application number: JP2009165595A
Authority: JP
Inventors: Nobuyuki Washio; 信之鷲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-12-26
Filing date: 2009-07-14
Publication date: 2010-08-05
Anticipated expiration: 2029-07-14
Also published as: US20100169093A1; JP5326892B2; US8290773B2

Abstract

【課題】音声データ中から低い認識率の音声データに類似する音声データを選択する。
【解決手段】情報処理装置30は、不特定多数話者の音声データセット242内の各音声データについて、低認識率話者の音声データセット222における平均的な声に対する類似度S0を求める類似度算出部110と、類似度が選択範囲内となる音声データを選択音声データセット232に保存する音声データ選択部112と、音声データセットと選択音声データセットに保存されている音声データとを用いて、音響モデル330を生成する音響モデル生成部と、を具えている。
【選択図】図２

Description

本発明は、音声認識で使用する音響モデルに関し、特に、音声認識用の音響モデルの生成のための音声データの選択に関する。

音声認識用の音響モデルの生成において、音声データセットとその発話内容を表す正解テキストとを学習用データとして用いて、最尤基準（ＭＬ）基準、相互情報量最大化（ＭＭＩ）基準、最小分類誤り（ＭＣＥ）基準、単語誤り最小化（ＭＷＥ）基準又は音素誤り最小化(MPE) 基準などによる学習処理（モデルのパラメータ推定）が行われて音響モデルが生成される。あるいは、音声データセットとその正解テキストとを適応（訓練）用データとして用いて、既存の音響モデルの適応処理が行われる。学習処理および適応処理のいずれの処理においても、学習用または適応用の音声データセットの音声データが良好に認識できるように処理を行って、音響モデルのパラメータを最適化する。

既知の音響モデル作成方法において、音響分析部は、音声データ格納部に格納された音声データから音響特徴量を抽出する。周波数スペクトル伸縮部は、その音響特徴量の周波数スペクトルを周波数軸方向に伸縮する。音響モデル生成部は、その周波数スペクトルが伸縮されたまたは伸縮されない音響特徴量を用いて音響モデルを生成する。従って、その周波数スペクトル伸縮を、例えば成人女性の音声データから擬似的に子供の音声データを得る写像関数を用いた写像で行えば、成人女性の音声データまたは成人女性音響特徴量に基づいて子供音響特徴量を擬似的に増量できる。このようにして、実際の子供の音声データや、実際の不特定話者用の音声データを更に集めなくても、子供の音声データに対応した音響モデルの精度を上げたり、不特定話者用の音響モデルの精度を上げたりできる。

既知の音声認識率推定装置において、ＣＰＵは、音声素片を用い音声合成して仮想発声データを生成し、生成された仮想発声データに音環境データを合成して音環境の影響をシミュレートする。音環境データは、各種周囲のノイズデータを保存したもので、仮想発声データに重畳することによって、仮想発声データをより実際の音声出力環境に近付けることができる。ＣＰＵは、音環境の影響をシミュレートした仮想発声データを用いて音声認識を行い、音声認識率を推定する。認識率の低い単語は、ユーザが実際に発声した実発声データをマイクにより収録して認識率を推定する一方、認識率の高い単語は音声素片を用いて音声合成した仮想発声データにより認識率を推定することもできる。

既知の音声認識のための話者学習法において、少ない発声で発声内容が認識結果に依存しているかどうかを推定し、依存していないと推定した場合には話者適応学習を行い、依存している場合には話者登録学習を行う。それによって、話者の負担にならない程度の学習発声で、確実に認識率を向上させることができる。

特開２００３−２５５９８０号公報特開２００５−２８３６４６号公報特開２００３−１７７７７９号公報

音声認識装置は、少数の特異的な特徴を有する特定の話者の音声データに対して低い認識率を示すことがある。

発明者は、音声認識装置は、初めて使うユーザを含めた様々な話者に対して、安定に高い認識率を実現することが重要であり、低い認識率の話者の存在を減らすため、そのような話者に対する認識率を改善した音響モデルを生成する必要がある、と認識した。発明者は、そのためには、低い認識率の話者の少数の音声データに類似する多数の音声データを用意する必要がある、と認識した。

本発明の実施形態の目的は、音響モデルを生成するために、低い認識率の音声データに類似する音声データを選択することである。

本発明の実施形態の別の目的は、低い認識率の音声データにより適合する音響モデルを生成することである。

本発明の実施形態の１つの観点によれば、情報処理装置は、低認識率話者が発声した音声データを格納する第１の音声データセットと、不特定多数話者の発声した音声データを格納する第２の音声データセットと、その第２の音声データセットの音声データに混合される音声データを格納する第３の音声データセットと、を具え、さらに、その第２の音声データセット内の各音声データについて、その第１の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、その類似度が選択範囲内となる音声データを選択音声データとしてその第３の音声データセットに保存する音声データ選択部と、その第２の音声データセットとその第３の音声データセットに保存されている音声データとを用いて、第１の音響モデルを生成する音響モデル生成部と、を具えている。

本発明の実施形態によれば、音響モデルを生成するために、低い認識率の音声データに類似する音声データを選択することができ、また低い認識率の音声データにより適合する音響モデルを生成することができる。

図１は、本発明の実施形態による、音響モデルを生成し、生成された音響モデルを用いて音声認識を行うための概略的な構成の一例を示している。図２は、図１の音声データ選択および音響モデル生成部、およびそれに関する音声データベースおよび音響モデルデータベースのより詳しい構成の一例を示している。図３Ａは、図２または１１の混合率決定部によって使用される、認識スコア差または類似度の平均値に対する混合率の関係の例を示している。図３Ｂは、図２または１１の混合率決定部によって使用される、選択音声データのデータ数に対する混合率の関係の別の例を示している。図４は、図２または１１の情報処理装置の音声データ選択および音響モデル生成部によって実行される最適モデル生成のための概略的なフローチャートの一例を示している。図５は、図２または１１の音声選択部によって実行される、図４のステップ６００の音声選択のための処理のフローチャートの一例を示している。図６Ａは、図４の音声選択部の類似度算出部およびデータ選択部によって実行される、図５のステップ６１０の類似度を算出するための処理のフローチャートの一例を示している。図６Ｂは、図４の音声選択部の類似度算出部およびデータ選択部によって実行される、図５のステップ６１０の類似度を算出するための別の処理のフローチャートの一例を示している。図７は、図２または１１の最適モデル生成部によって実行される、図４のステップ７００の最適モデル生成のための処理の概略的フローチャートの一例を示している。図８は、図２または１１の音声データ混合部によって実行される、図７のステップ７１０の音声データ混合のための処理のフローチャートの一例を示している。図９は、図２または１１の音響モデル生成部によって実行される、図７のステップ７２０の音響モデル生成のための処理のフローチャートの一例を示している。図１０は、図２または１１のモデル評価部によって実行される、図７のステップ７３０の音響モデル評価のための処理のフローチャートの一例を示している。図１１は、図２の実施形態の変形形態の一例を示しており、音声データ選択および音響モデル生成部の装置構成の別の例を示している。

発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。

前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。

本発明の実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。

図１は、本発明の実施形態による、音響モデルを生成し、生成された音響モデルを用いて音声認識を行うための概略的な構成の一例を示している。

情報処理装置１０は、例えば口述筆記、ハンズフリー・コンピューティング、自動音声応答、等に用いられる音声認識機能を含む装置である。情報処理装置３０は、情報処理装置１０における音声認識に用いられる音響モデルを生成する機能を有する。情報処理装置１０および３０は、一体化された１つの情報処理装置であってもよい。

情報処理装置１０は、プロセッサ１２、メモリ２０、入力装置２８および表示装置２９を含んでいる。音声認識部１４は、プロセッサ１２上にハードウェア（専用集積回路）またはソフトウェア（プログラム）の形態で実装されている。メモリ２０は、音響モデル２２、プログラムおよびその他のデータを格納している。音声認識部１４は、入力音声データを分析する音声分析部１６、およびその音声データを音響モデル２２と照合する照合部１８を含んでいる。メモリ２０は、プロセッサ１２によって実行される音声認識部１４の機能を実現するためのプログラムを格納していてもよい。入力装置２８には、キーボード、記憶媒体読取装置、ポインティング・デバイス、音声入力インタフェース等が含まれる。

情報処理装置３０は、プロセッサ３２、メモリ４０、入力装置４８および表示装置４９を含んでいる。音声分析部３６および音声データ選択および音響モデル生成部３８は、プロセッサ３２上にハードウェア（専用集積回路）またはソフトウェア（プログラム）の形態で実装されている。メモリ４０は、音声データベース４２、音響モデルデータベース４４、プログラムおよびその他のデータ等を格納している。メモリ４０は、プロセッサ３２によって実行される音声データ選択および音響モデル生成部３８の機能を実現するためのプログラムを格納していてもよい。音声データベース４２には、音響モデルの生成に用いられるディジタル音声データが格納されている。入力装置４８には、キーボード、記憶媒体読取装置、ポインティング・デバイス等が含まれる。音声データベースのサイズが大きい場合、メモリ４０の実体は、ＳＤＲＡＭなどの高速な半導体メモリと、ハードディスク・ドライブのような低速だが大容量の外部の二次記憶装置とを組合せてもよい。

情報処理装置１０の音響分析部１６および情報処理装置３０の音響分析部３６は、外部または音声データベース４２から受け取った音声データから音響的特徴量を抽出する。音響的特徴量として、例えば、音声周波数スペクトルを表現する、ＭＦＣＣ（メル周波数ＦＦＴ（高速フーリエ変換）ケプストラム）またはＬＰＣ（線形予測分析）メルケプストラムがある。

音声データ選択および音響モデル生成部３８（３２８）は、音響分析部３６によって抽出された音響的特徴量を用いて音響モデルを生成して、音響モデルデータベース４４に格納し、音響モデル２２を情報処理装置１０に供給し設定する。音響モデル２２には、認識単位（例えば、音素、音節、単語）毎に、多量の学習用音声データセットから求めたその音響的特徴量の平均ベクトルを標準パターンとして表現したもの、および統計的特徴量を確率的にモデル化したＨＭＭ（ＨｉｄｄｅｎＭａｌｋｏｖＭｏｄｅｌ）、等がある。

図２は、図１の音声データ選択および音響モデル生成部３８、およびそれに関する音声データベース４２および音響モデルデータベース４４のより詳しい装置構成(configuration)の一例を示している。

図１の音響モデル２２として用いられる標準的な既存の音響モデル（１０２）は、一般的に、音響モデル生成部（３２８）によって、不特定多数の話者からなる（即ち、恣意的にデータに偏りを持たせることなく大量に集めた）標準的な学習用音声データセット（２４２）を用いて生成される。標準的な既存の音響モデルは、学習用音声データセットのうちの標準的なまたは多数派の話者の音声データの特徴を良好に抽出することにより、不特定話者の音声を広く認識可能とするものである。

一方、既存の音響モデル（１０２）を用いて少数派の特異な音声を持つ話者の音声データを音声認識すると、既存の音響モデル（１０２）は、汎用的に音声を認識するためのデータを収集したものなので、少数派の特異な音声を持つ話者の音声データの認識率（正解率）が低くなってしまう。一方、音響モデルの学習に用いる音声データを増やすために、単純により多くの不特定多数話者の音声データセットや、より多様な入力系で録音された音声データを含む大量音声データセットを用いて音響モデルを生成したとしても、少数派の特異な特徴を持つ話者の音声の認識率が低い傾向は変わらない。また、少数派の特異な音声を持つ話者の音声データは、一般的に十分な量の収集が困難で、音響モデルの学習に用いるにはデータ数が不十分である。

学習用音声データセット（２４２）のデータ量が或るレベル以上になると、そのような大量音声データセットの全てのデータを学習用音声データセットとして用いても、生成された音響モデルの性能（正解率）は大差なくなって来る。

発明者は、情報処理装置１０における音声認識部１４への入力系（マイク位置、マイクの周波数特性、雑音環境）等を考慮して、学習用音声データセット（２４２）のうちの実際の使用条件に近い音声データの数を増大させことができる、と認識した。また、発明者は、大量音声データセットのうちの実際の使用条件に近い音声データだけをその学習用音声データセットに混合させることができる、と認識した。

発明者は、標準的なまたは多数派の話者の音声だけでなく、少数派の話者の音声をも良好に認識できる音響モデルを生成する必要がある、と認識した。

発明者は、少数派の話者の少数の音声データの特徴に類似した特徴を有する音声データを既存の音声データセットの中から選択して音響モデル生成用の音声データセットに加えて音響モデルを生成すれば、少数派話者の音声認識率を維持しつつ少数派話者の音声認識率が改善される、と認識した。

図２において、図１の音声データ選択および音響モデル生成部３８は、プロセッサ３２上に実装された音声選択部１００および最適モデル生成部３００を含んでいる。

音声選択部１００は、モデル適応部１０４、類似度算出部１１０、およびデータ選択部１１２を含んでいる。音声選択部１００は、音声データベース４２中の低認識率話者音声データセット２２２および学習用音声データ（発声内容を表す正解テキスト付き）２４２、および音響モデルデータベース４４中の標準的な既存の音響モデル１０２を使用する。

学習用音声データセット２４２の中の或る音声データは、最適モデル生成部３００においてその学習用音声データセット２４２の音声データに混合または追加される候補となる。即ち、音声選択部１００によって選択された学習用音声データセット２４２中の或る音声データは、最適モデル生成部３００において、学習用音声データセット２４２からの音声データに一部が重複的に追加され、従って増数して適用される。

学習用音声データセット２４２は、不特定多数話者の発声した学習用音声データのセット（集合体）であり、例えば、標準的な既存の音響モデル１０２を生成するのに用いられ、そのデータ数は例えば数万個〜数十万個（発声数）である。低認識率話者音声データセット２２２のデータ数は、少数であり、例えば数十個（発声数）である。低認識率話者音声データセット２２２の数は、学習用音声データセット２４２の数よりはるかに少ない。音響モデルとして、例えば、ＨＭＭの音響モデル、ニューラル・ネットワークの音響モデル、等が知られている。

学習用音声データセット２４２の個々の音声データには、データの属性、話者の属性（性別、年齢、身長区分、体重区分）、発声環境、入力系（例えば、マイクロホン）、雑音環境、反響の有無、等の情報が付加されていてもよい。音声データセットは、例えば、データ単位として、音素数毎、音節数毎または単語数毎の音声データのファイルおよび／または正味時間長別の音声データを含んでいる。

低認識率話者音声データセット２２２には、例えば情報処理装置１０の音声認識部１４によって認識するのが困難であり、特異的な特徴を有すると想定される一人または数人の話者の少数（ファイル数、データ数）の（例えば数十個の音声データ）の音声データが含まれている。その特異的な特徴とは、例えば、少数派の方言の特徴、少数派の発声法に関する特徴であってもよい。高い音声認識率を示す、学習用音声データセット２４２に含まれる一般的な特徴を有する話者に適合するだけでなく、低認識率話者音声データセット２２２に含まれる特異的な特徴を有する話者にも適合する、双方の適用に両立する最適な音響モデル４２２を生成することが望ましい。そのためには、追加の学習用音声データセットとして少数の低認識率話者音声データセット２２２を用いるだけでは不充分である。

モデル適応部１０４は、モデル適応技術（話者適応技術）を用いて、少数の低認識率話者音声データセット２２２に基づいて既存の音響モデル１０２を適応することにより修正して、低認識率話者音響モデル１０６を生成する。そのモデル適応技術は、例えば、ＭＬＬＲ（ＭａｘｍｕｍＬｉｋｅｌｉｈｏｏｄＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ）、ＭＡＰ（ＭａｘｍｕｍＡＰｏｓｔｅｒｉｏｒｉ）または固有声（Ｅｉｇｅｎｖｏｉｃｅ）であってもよい。その修正は、例えば、音響モデル１０２の平均ベクトルまたは分散ベクトルなどのパラメータの移動および／または回転であってもよい。モデル適応部１０４は、その低認識率話者音響モデル１０６を音響モデルデータベース４４に格納する。例えば、モデル適応部１０４は、低認識率話者音声データセット２２２の周波数スペクトルの統計的分布を分析して、既存の音響モデル１０２と低認識率話者音声データセット２２２の双方の周波数スペクトルの統計的分布が概ね等しくなるように、既存の音響モデル１０２のパラメータを修正する。モデル適応部１０４は、その修正された音響モデルを低認識率話者音響モデル１０６として設定する。

低認識率話者音響モデル１０６は、低認識率話者音声データセット２２２における平均的な声の特徴を表しており、低認識率話者音声データセット２２２における平均的な声に対する或る音声データの類似度または認識スコアを求めるために使用される。既存の音響モデル１０２は、その音響モデル１０２の生成に使用された学習用音声データセット２４２における平均的な声の特徴を表しており、学習用音声データセット２４２における平均的な声に対する或る音声データの類似度または認識スコアを求めるために使用される。

類似度算出部１１０は、音響モデルを用いて音声認識を行う音声認識機能を使用し、または含んでいる。類似度算出部１１０は、低認識率話者音響モデル１０６と既存の音響モデル１０２をそれぞれ用いて、学習用音声データセット２４２の全ての各音声データをそのテキストに従って音声認識して、それぞれの認識スコア（例えば、対数尤度）Ｓ０、Ｓ１（０≦Ｓ０≦１、０≦Ｓ１≦１）を生成する。

次いで、類似度算出部１１０は、低認識率話者音響モデル１０６による学習用音声データセット２４２の各音声データの認識スコアＳ０と、既存の音響モデル１０２によるその音声データセット（２４２）の認識スコアＳ１とを比較し、その認識スコアの差Ｓｄ（＝Ｓ０−Ｓ１）を計算する。類似度算出部１１０は、その認識スコア差Ｓｄが閾値Ｓｄｔｈより大きい選択範囲にある音声データ（即ち、Ｓｄ＞Ｓｄｔｈ、Ｓ０＞Ｓ１＋Ｓｄｔｈ）を、相対的に低認識率話者音声データセット２２２との類似性の高い音声データとしてその識別情報をデータ選択部１１２に供給する。認識スコア差Ｓｄが大きいということは、その音声データの認識について、既存の音響モデル１０２よりも低認識利率話者モデル１０６がより適していることを表している。

代替構成として、類似度算出部１１０は、低認識率話者音響モデル１０６による学習用音声データセット２４２の各音声データの認識スコアＳ０が閾値Ｓ０ｔｈより大きい選択範囲にある音声データを、低認識率話者音声データセット２２２との類似性の高い音声データとしてその識別情報をデータ選択部１１２に供給してもよい。ここで、閾値Ｓ０ｔｈは、例えば、音響モデル１０２を用いた音声データの認識スコアＳ１の推定平均値Ｓ１＿ａｖと閾値Ｓｄｔｈの和であってもよい（Ｓ０ｔｈ＞Ｓ１＿ａｖ＋Ｓｄｔｈ）。

データ選択部１１２は、その識別情報に従って、学習用音声データセット２４２から対応する音声データ（テキスト付き）を選択して、選択音声データセット２３２として保存する。選択音声データセット２３２のデータ数は、低認識率話者音声データセット２２２のデータ数より充分多く、例えば数百個乃至数千個（発声数）である。それによって、学習用音声データセット２４２の中から、少数の低認識率話者音声データセット２２２に類似した学習に必要な量の音声データを選択することができる。

音声認識システムでは、一般に、音声データの発声内容の推定結果（＝音声認識結果）の尤もらしさが認識スコアまたは信頼度という数値で表され、最も尤もらしい値の音声データが最大値の認識スコアを有する。

多くの場合、認識スコアは、音響モデルとの照合スコア（テンプレートとの距離や、ＨＭＭの出力確率）に基づいて、確率的言語モデルを使っている単語並びの出現確率を言語スコアとして加味し、または、単語の挿入ペナルティなど他の認識率向上のための仕組みを入れる、などして算出される。

従って、音響モデル１０２の学習が、音声認識スコアに反映され、または、低認識率話者音響モデル１０６を生成するモデル適応において適応データとして用いた低認識率話者音声データセット２２２の特徴量空間との距離が、音声認識スコアに反映される。即ち、低認識率話者モデル１０６を用いた音声認識のスコアは、低認識率話者モデル１０６の学習用データ又は適応データとして用いた低認識率話者音声データセット２２２の音の特徴（特徴量空間）と、音声認識された学習用音声データセット２４２の各音声データの声の特徴との間の類似度を反映する。

また、学習用音声データセット２４２の正解テキストに従って、即ち、認識語彙の並びが正解テキストと一致するという制約の下で、孤立単語認識を含む連続単語認識を行えば認識スコアへの誤認識の影響を減らすことが可能となり、望ましい。

また、類似度算出部１１０は、発話内容の認識を目的としていない。従って、既存の音響モデル１０２と低認識率話者音響モデル１０６は、情報処理装置１０における音声認識に用いるような高精度の音響モデルでなくてよく、モノフォン（monophone、１つの音素を定義したモデル）を使用するなど簡易なモデルを用いてもよい。その高精度の音響モデルは、例えば、トライフォン（triphone、中心音素とその前後音素を考慮したモデル）である。

また、低認識率話者音声データセット２２２と学習用音声データセット２４２中の各音声データとの間の類似度の算出には、音声認識以外の手段を用いてもよい。

音響モデルを用いずに、例えば、学習用音声データセット２４２または適応データとしての低認識率話者音声データセット２２２の特徴量分布空間、音声データの特徴間の距離を用いることができる。即ち、似ているかどうかの尺度であれば、音響モデルおよびマッチング・アルゴリズムに制約はない。

例えば、音声認識用（最小認識単位、例えば音素単位）の音響モデルを用いずに、より簡素化したＧＭＭモデルにより、学習用音声データセット２４２、または適応データとしての低認識率話者音声データセット２２２の特徴量分布空間を表現してもよい。このＧＭＭモデルと、学習用音声データセット２４２の各音声データとのマッチングを（例えば、ヴィタビ（Viterbi）アルゴリズムなどの動的計画法により）行い、その際の累積尤度を、類似度として利用してもよい。

最適モデル生成部３００は、混合音声データセット生成部３２２、混合率決定部３２４、音響モデル生成部３２８、モデル評価部３３２、およびモデル出力部３３４を含んでいる。

音響モデル生成部３２８は、学習のために音声認識機能を使用し、または学習のための音声認識機能を含んでいる。モデル評価部３３２は、評価のために音声認識機能を使用し、または評価のための音声認識機能を含んでいる。

最適モデル生成部３００は、音声データベース４２に格納された選択音声データセット（正解テキスト付き）２３２、学習用音声データ（正解テキスト付き）２４２、混合音声データセット３２６および評価用音声データセット（正解テキスト付き）４２４を使用して、音響モデル３３０を生成し、再生成する。最適モデル生成部３００は、最終的に生成された音響モデル３３０を、最適な音響モデル４２２として音響モデルデータベース４４に格納する。

但し、低認識率話者音声データセット２２２、学習用音声データセット２４２の各データ数の大小関係は、相対的なものであり、実施形態で例示したデータ数に限定されるものではない。

図１１は、図２の実施形態の変形形態の一例を示しており、音声データ選択および音響モデル生成部３８の装置構成の別の例を示している。

図１１の音声選択部１００は、音声データベース４２中の低認識率話者音声データセット２２２に加えて大量音声データセット（発声内容を表すテキスト付き）２２４を使用し、また音響モデルデータベース４４中の標準的な既存の音響モデル１０２を使用する。大量音声データセット（テキスト付き）２２４は、学習用音声データセット２４２の音声データに混合または追加される候補となる音声データのセット（組）であり、予め収集された不特定多数の発話者の既存の音声データセットであってもよい。大量音声データセット（テキスト付き）２２４のデータ数は、例えば数十万個（発声数）である。低認識率話者音声データセット２２２の数は、大量音声データセット２２４の数よりはるかに少ない。低認識率話者音声データセット２２２の数は、大量音声データセット２２４の数よりはるかに少ない。

大量音声データセット（テキスト付き）２２４の個々の音声データには、データの属性、話者の属性（性別、年齢、身長区分、体重区分）、発声環境、入力系（例えば、マイクロホン）、雑音環境、反響の有無、等の情報が付加されている。音声データセットは、例えば、データ単位として、音素数毎、音節数毎または単語数毎の音声データのファイルおよび／または正味時間長別の音声データを含んでいる。

類似度算出部１１０は、低認識率話者音響モデル１０６と既存の音響モデル１０２をそれぞれ用いて、大量音声データセット（テキスト付き）２２４の全ての各音声データをそのテキストに従って音声認識して、それぞれの認識スコア（例えば、対数尤度）Ｓ０、Ｓ１（０≦Ｓ０≦１、０≦Ｓ１≦１）を生成する。

次いで、類似度算出部１１０は、低認識率話者音響モデル１０６による音声データセット２２４の各音声データの認識スコアＳ０と、既存の音響モデル１０２によるその音声データセット（２２４）の認識スコアＳ１とを比較し、その認識スコアの差Ｓｄ（＝Ｓ０−Ｓ１）を計算する。類似度算出部１１０は、その認識スコア差Ｓｄが閾値Ｓｄｔｈより大きい選択範囲にある音声データ（即ち、Ｓｄ＞Ｓｄｔｈ、Ｓ０＞Ｓ１＋Ｓｄｔｈ）を、相対的に低認識率話者音声データセット２２２との類似性の高い音声データとしてその識別情報をデータ選択部１１２に供給する。

代替構成として、類似度算出部１１０は、低認識率話者音響モデル１０６による音声データセット２２４の各音声データの認識スコアＳ０が閾値Ｓ０ｔｈより大きい選択範囲にある音声データを、低認識率話者音声データセット２２２との類似性の高い音声データとしてその識別情報をデータ選択部１１２に供給してもよい。

データ選択部１１２は、その識別情報に従って、大量音声データセット（テキスト付き）２２４から対応する音声データ（テキスト付き）を選択して、選択音声データセット２３２として保存する。選択音声データセット２３２のデータ数は、低認識率話者音声データセット２２２のデータ数より充分多く、例えば数百個乃至数千個（発声数）である。それによって、大量音声データセット（テキスト付き）２２４の中から、少数の低認識率話者音声データセット２２２に類似した学習に必要な量の音声データを選択することができる。

低認識率話者モデル１０６を用いた音声認識のスコアは、低認識率話者モデル１０６の学習用データまたは適応データとして用いた低認識率話者音声データセット２２２の声の特徴（特徴量空間）と、音声認識された大量音声データセット２２４の各音声データの声の特徴との間の類似度を反映する。

また、大量音声データセット２２４に正解テキストがある場合には、その正解テキストに従って、即ち、認識語彙の並びが正解テキストと一致するという制約の下で、孤立単語認識を含む連続単語認識を行えば認識スコアへの誤認識の影響を減らすことが可能となり、望ましい。

一方、図１１の大量音声データセット２２４に発声内容を表すテキストが付いていない場合でも、類似度算出部１１０は、連続音節認識などにより、発話内容の推定を同時に行うことによって、類似度として認識スコアを算出することが可能である。

また、低認識率話者音声データセット２２２と大量音声データセット（テキスト付き）２２４中の各音声データとの間の類似度の算出には、音声認識以外の手段を用いてもよい。

低認識率話者音声データセット２２２、大量音声データセット２２４、学習用音声データセット２４２の各データ数の大小関係は、相対的なものであり、実施形態で例示したデータ数に限定されるものではない。

図１１の音声選択部１００および最適モデル生成部３００のその他の要素および動作は、図２のものと同様である。

さらに、図２および１１を参照すると、混合音声データセット生成部３２２は、混合率決定部３２４によって決定または調整された混合率（比率）Ｒに従って、学習用音声データセット２４２中の音声データと選択音声データセット２３２中の音声データとを混合する。さらに、混合音声データセット生成部３２２は、その混合された混合音声データセット３２６を音声データベース４２に格納する。音響モデル生成部３２４は、その混合音声データセット３２６を用いて音響モデルの学習を行い、新しい音響モデル３３０を生成して音響モデルデータベース４４に格納する。

ここで、音声データの混合とは、音声データセット（＝混合音声データ３２６）として、学習用音声データセット２４２と選択音声データセット２３２の両方から音声データを抽出して、両音声データが混在するデータセットを作成することを意味する。即ち、混合は、波形データの混合（各音声データの内容のミキシング）または合成を意味するものではない。混合率Ｒは、例えば、生成された混合音声データセット３２６のデータ総数における、選択音声データセット２３２から取り出されて加えられた音声データのデータ総数の比率である。その加えられる音声データの数は、選択音声データセット２３２のデータ数以下である必要はなく、選択音声データセット２３２のデータ数より多くてもよい。即ち、選択音声データセット２３２中の或る音声データが複数回繰り返し取り出されてもよい。

モデル評価部３３２は、音響モデル３３０を用いて、不特定多数話者音声を含む評価用音声データセット（正解テキスト付き）４２４と低認識率話者音声データセット２２２の各音声データに対して認識処理を行い、認識率を集計し、その音響モデル３３０の性能を評価する。混合率決定部３２４は、類似度算出部１１０からの類似度または認識スコアの差のデータ（Ｓｄ）（平均値）および／または選択データ数Ｃ、モデル評価部３３２の評価データ（認識率、等）、および音響モデル３３０（パラメータ）に基づいて、混合音声データセット３２６における選択音声データセット２３２の音声データの混合率Ｒを修正し再決定する。ここで、選択データ数Ｃは、選択音声データセット２３２のデータ数を表す。

混合音声データセット生成部３２２は、その決定された混合率Ｒに従って、再度、学習用音声データセット２４２と選択音声データセット２３２の音声データを混合し、その混合された混合音声データセット３２６を音声データベース４２に格納する。混合音声データセット生成部３２２、混合率決定部３２４、音響モデル生成部３２８およびモデル評価部３３２は、音響モデル３３０として最適な音響モデルが得られるまで、この処理を繰り返す。その後、モデル出力部３３４は、音響モデル３３０を最適な音響モデル４２２として音響モデルデータベース４４に格納する。

ここで、最適な音響モデルとは、不特定多数話者音声データを含む評価用音声データセット（正解付き）４２４に対する認識率Ａ１（０≦Ａ１≦１）と、低認識率話者音声データ２２２に対する認識率Ａ２（０≦Ａ２≦１）との両方に対して、良好な性能を示したかどうかを表す最適度合いＦ（Ａ１，Ａ２）を最大化するモデルである。

例えば、最適度合いＦ（Ａ１，Ａ２）は、認識率Ａ１およびＡ２の加重平均として次の式で表してもよい。
Ｆ（Ａ１，Ａ２）＝０．８×Ａ１＋０．２×Ａ２

また、認識率Ａ１、Ａ２に対して最低認識率閾値Ｔ１、Ｔ２をそれぞれ設けてもよい。認識率Ａ１＜Ｔ１または認識率Ａ２＜Ｔ２の場合に、最適度合いＦ（Ａ１，Ａ２）＝０と設定することによって、一般的な話者に対する性能が不十分なものや、低認識率話者に対する性能改善が不十分なものを選択しないようにすることが望ましい。

図１において、情報処理装置３０の音声データ選択および音響モデル生成部３８は、音響モデルデータベース４４から最適な音響モデル４２２を取り出して情報処理装置１０に供給する。情報処理装置１０のプロセッサ１２は、最適な音響モデル４２２を、適用する音響モデル２２としてメモリ２０に格納する。その後、音声認識部１４は、音響モデル２２を用いて入力音声の音声認識を行う。

混合音声データセット生成部３２２は、選択音声データセット２３２の少なくとも一部または全ての音声データを取り込み、最初、混合率決定部３２４から混合率Ｒの初期値Ｒ０を受け取る。次いで、混合音声データセット生成部３２２は、混合率Ｒ＝選択音声データの数／（学習用音声データの数＋選択音声データの数）となるように、選択音声データセット２３２中の音声データを必要個数だけ取り込む。そのために、混合音声データセット生成部３２２は、選択音声データセット２３２の中の同じ音声データを所定回数だけ繰り返し取り込んでもよい。

図３Ａは、図２または１１の混合率決定部３２４によって使用される、認識スコア差または類似度差Ｓｄの平均値Ｓｄ＿ａｖに対する混合率Ｒの関係の例（例１）を示している。この例では、選択音声データセット２３２に関して認識スコア差分Ｓｄ（＝Ｓ０−Ｓ１）の平均値Ｓｄ＿ａｖを算出する。認識スコア差分Ｓｄの平均値Ｓｄ＿ａｖが大きい場合が、現状の学習用音声データセット２４２のデータ数に対する選択音声データセット２３２のデータ数（ファイル数または単位音声データ数）Ｃは疎の状態であるまたは少ない、と考えられる。従って、混合率決定部３２４は、選択音声データセット２３２の混合率Ｒを相対的に大きくするように、次の式で混合率Ｒを求める。
Ｒ＝Ｓｄ＿ａｖ／Ｓｍａｘ ×Ｒｍａｘ
ここで、認識スコア差分Ｓｍａｘは認識スコア差Ｓｄの平均値Ｓｄ＿ａｖの推定最大値であり、最大混合率Ｒｍａｘは混合率Ｒの最大値である。混合率決定部３２４によって使用されるこれらのおよびその他のデータおよびパラメータは、メモリ４０に格納されていてもよい。

図３Ｂは、図２または１１の混合率決定部３２４によって使用される、選択音声データセット２３２のデータ数Ｃに対する混合率Ｒの関係の別の例（例２）を示している。この例では、混合率決定部３２４は、次の式に従って、選択音声データセット２３２のデータ数Ｃが少ない場合には選択音声データセット２３２の混合率Ｒを大きく設定する。また、混合率決定部３２４は、選択音声データセット２３２の数Ｃが多い場合には、選択音声データセット２３２の混合率Ｒを小さく設定する。
Ｒ＝（１−Ｃ／Ｃｍａｘ）×Ｒｍａｘ
ここで、選択音声データセット２３２の最大数Ｃｍａｘは選択音声データセット２３２のデータ数Ｃの推定最大値であり、混合率の最大値Ｒｍａｘは混合率Ｒの最大値である。

選択音声データセット２３２のデータ数Ｃが少ないということは、低認識率話者音声データセット２２２の声の特徴と、不特定多数の話者の学習用音声データセット２４２の声の特徴との間の類似性が相対的に低いことを意味する。従って、低認識率話者音声データセット２２２の認識率をより高くするために、上述のように混合率Ｒを大きくするとよい。逆に、選択音声データセット２３２のデータ数Ｃが多いということは、低認識率話者音声データセット２２２の声の特徴と、学習用音声データセット２４２の声の特徴との間の類似性が相対的に高いことを意味し、従って混合率Ｒは小さくてよい。

代替構成として、混合率Ｒを、図３Ａと３Ｂの混合率Ｒを組み合わせて、例えば次の式で両混合率Ｒの平均値を求めてもよい。
Ｒ＝（Ｓｄ＿ａｖ／Ｓｍａｘ×Ｒｍａｘ＋（１−Ｃ／Ｃｍａｘ）×Ｒｍａｘ）／２

混合率最大値Ｒｍａｘ、認識スコア最大値Ｓｍａｘ、選択音声データ最大数Ｃｍａｘの値は、設計者によって、様々な音声データを低認識率話者音声データセット２２２として用いて予め試行することによって設定することができ、メモリ４０に格納される。

混合率最大値Ｒｍａｘは、設計者によって混合率Ｒの範囲の最大値として予め決定されて、メモリ４０に格納される。混合率Ｒが混合率最大値Ｒｍａｘを超えると、既存の評価用音声データセット（正解付き）４２４に対する音声認識率Ｄの低下が許容範囲から逸脱すると推定される。

次に、混合率Ｒの決定方法の例を説明する。音響モデルのユーザは、音響モデル生成部３２８およびモデル評価部３３２を起動して、既存の評価用音声データセット４２４に対する認識率Ｄの低下が、最適モデル生成部３００の設計者が予め決定した許容範囲より低下するまで、減少割合ｒを徐々に増大させて予備実験を行う。混合率決定部３２４は、学習用音声データセット２４２のデータ数Ｎｔを所定の減少割合ｒ％（例えば１０％）だけ減らして、新しい学習用音声データの割合（１００−ｒ）％として、混合音声データセット生成部３２２へ供給する。その予備実験における減少割合ｒの値（＜１００％、正の値）から、混合率Ｒの最大値Ｒｍａｘを、
Ｒｍａｘ＝１−（１００−ｒ）／ｓ／１００
と決定する。ここで、ｓは調整係数である。

例えば、減少割合ｒ＝２０％、調整係数ｓ＝１．２とすると、混合率Ｒの最大値はＲｍａｘ≒０．３３となる。ここで、調整係数ｓ（ｓ≧１）は、減少割合ｒを混合率最大値Ｒｍａｘに変換するための係数である。調整係数ｓは、ユーザによって予め幾つかの値で試行されて、適切な値が選択されて、メモリ４０に格納される。

認識スコアＳの最大値Ｓｍａｘは、予備的な試行において、認識スコア差分Ｓｄの平均値μ＝Ｓｄ＿ａｖおよび標準偏差σから、認識スコアＳの最大値Ｓｍａｘ＝μ＋４×σとして求められ、メモリ４０に格納される。また、選択音声データセット２３２の最大数Ｃｍａｘは、予備的な試行において、選択音声データセット２３２のデータ数Ｃの平均値μ’（＝Ｃ＿ａｖ）および標準偏差σ’から、選択音声データセット２３２のデータ数の最大値Ｃｍａｘ＝μ’＋４×σ’として求められ、メモリ４０に格納される。

例えば、平均値μ＝０．０２、標準偏差σ＝０．０１とすると、認識スコアＳの最大値Ｓｍａｘ＝０．０６となる。例えば、平均値μ’＝３００、標準偏差σ’＝８０とすると、選択音声データセット２３２の最大データ数Ｃｍａｘ＝６２０となる。ここで、認識スコアの最大値Ｓｍａｘ、選択音声データセット２３２の最大数Ｃｍａｘは、推定値であり、スコア差分Ｓｄ≧Ｓｍａｘ、選択音声データセット２３２の数Ｃ≧Ｃｍａｘとなる可能性がある。

従って、予め混合率Ｒの最大値Ｒｍａｘおよび最小値Ｒｍｉｎ（＞０）を決定し、算出した混合率Ｒが区間［Ｒｍａｘ，Ｒｍｉｎ］の範囲内になるように混合率Ｒを修正する。

即ち、図３Ａの例１では、スコア差分の平均値Ｓｄ＿ａｖ≧Ｓｍａｘの場合、混合率Ｒ＝Ｒｍａｘである。

図３Ｂの例２では、選択音声データセット２３２のデータ数Ｃ≧Ｃｍａｘの場合、混合率Ｒ＝Ｒｍｉｎである。混合率最小値Ｒｍｉｎは、音響モデル学習用の学習用音声データセット２４２のデータ数Ｎｔについて、
混合率最小値Ｒｍｉｎ＝１／（Ｎｔ＋１）
と設定してもよい。

混合率決定部３２４は、モデル評価部３３２による評価（認識率）の結果に応じて、混合率Ｒを更新する。

別の例（例３）として、混合率決定部３２４は、低認識率話者音声データセット２２２に対する認識率Ａ％が目標値Ａｔ％より小さくなるに従って、選択音声データセット２３２の混合率Ｒを、より大きな値Ｒ’に更新する。
Ｒ’＝Ｒ＋（Ｒｍａｘ−Ｒ）×（Ａｔ−Ａ）／α
ここで、Ｒｍａｘは混合率Ｒの最大値であり、認識率Ａｔは認識率Ａの目標認識率％、αは調整係数である。
例えば、混合率最大値Ｒｍａｘ＝０．３、混合率Ｒ＝０．１、調整係数α＝５００、目標認識率Ａｔ＝９０％、認識率Ａ＝７０％の場合、Ｒ’＝０．１０８となる。

さらに別の例（例４）として、混合率決定部３２４は、低認識率話者音声データセット２２２以外の評価用音声データセット４２４（入力Ｄ）に対する認識率Ｄの低下が大きいほど、選択音声データセット２３２の混合率Ｒを、より小さな値Ｒ’に更新する。
Ｒ’＝Ｒ−（Ｒ／β）×（Ｄｍａｘ−Ｄｔ）
ここで、Ｄｍａｘは、モデル評価部３３２における話者別の音声データの認識率Ｄの低下の最大値［%］、Ｄｔは認識率Ｄの低下の許容値［％］であり、βは調整係数（例、５００）である。
例えば、混合率Ｒ＝０．２、調整係数β＝１００、Ｄｍａｘ＝１０％、Ｄｔ＝２％の場合、Ｒ’＝０．１８４となる。

なお、目標認識率Ａｔ、認識率Ｄの低下の許容値Ｄｔは、情報処理装置１０の音声認識部１４の設計者によって性能目標として予め決定されて、メモリ４０に格納される。調整係数α、βは、混合率Ｒの更新速度を決めるものであり、設計者によって予め幾つかの値で試行されて適切なものが選択されて、メモリ４０に格納される。

混合率Ｒを更新してもモデル評価部３３２による音響モデル３３０の評価（認識率）結果の改善度が所定レベル以上改善されなくなった場合に、混合率決定部３２４は、最適音響モデル４２２の生成の処理を終了してもよい。また、音響モデル３３０の生成が繰り返されてその生成の合計の処理時間が所定の最大処理時間を超えた場合に、混合率決定部３２４は、最適音響モデル４２２の生成の処理を終了してもよい。

図４は、図２または１１の情報処理装置３０の音声データ選択および音響モデル生成部３８によって実行される最適モデル生成のための概略的なフローチャートの一例を示している。

図４を参照すると、ステップ６００において、音声データ選択および音響モデル生成部３８の音声選択部１００（図２または１１）は、学習用音声データセット２４２または大量音声データセット２２４の中から少数の低認識率話者音声データセット２２２に類似した多数の選択音声データを選択して抽出する。音声選択部１００は、その選択さした選択音声データを選択音声データセット２３２として保存する。

ステップ７００において、音声データ選択および音響モデル生成部３８の最適モデル生成部３００（図２または１１）は、可変の混合率Ｒに従って学習用音声データセット２４２と選択音声データセット２３２の音声データを混合して混合音声データセット３２６として保存する。最適モデル生成部３００は、さらに、混合音声データセット３２６に基づいて音響モデル３３０を生成し再生成し、最終的に最適な音響モデル４２２として保存する。

図５は、図２または図１１の音声選択部１００によって実行される、図４のステップ６００の音声選択のための処理のフローチャートの一例を示している。

ステップ６０２において、音声選択部１００は音響モデルデータベース４４から既存音響モデル１０２を読み込む。ステップ６０４において、音声選択部１００は音声データベース４２から低認識率話者音声データセット２２２を読み込む。

ステップ６０６において、音声選択部１００のモデル適応部１０４は、低認識率話者音声データセット２２２に基づいて周波数スペクトルに関して既存音響モデル１０２のパラメータを修正し、それによって既存音響モデル１０を低認識率話者音声データセット２２２に適応化させて、低認識率話者音響モデル１０６を生成する。

ステップ６０８において、音声選択部１００の類似度算出部１１０は、図２の学習用音声データセット２４２（または図１１の大量音声データセット２２４）の中から未処理の１つの音声データを読み込む。次いで、類似度算出部１１０は、既存音響モデル１０２と低認識率話者モデル１０６を用いてその音声データの音声認識をそれぞれ行い、それぞれの認識スコアＳ０およびＳ１を類似度として算出する。

ステップ６１０において、類似度算出部１１０は、その１つの音声データについて既存音響モデル１０２と低認識率話者モデル１０６による認識スコアまたは類似度の差分Ｓｄ（＝Ｓ０−Ｓ１）を算出する。データ選択部１１２は、その認識スコア差Ｓｄに基づいて学習用音声データセット２４２の中から低認識率話者音声データセット２２２との類似度が相対的に高い音声データを選択して出力する。

ステップ６２２において、類似度算出部１１０は、図１１の学習用音声データセット２４２（または図２の全ての大量音声データセット２２４）についてステップ６０８〜６１０の処理が終了したかどうかを判定する。処理が終了したと判定された場合は、手順は図５のサブルーチンを出る。ステップ６２２において処理が終了していないと判定された場合は、手順はステップ６０８に戻る。

図６Ａは、図４の音声選択部１００の類似度算出部１１０およびデータ選択部１１２によって実行される、図５のステップ６１０の類似度を算出するための処理のフローチャートの一例を示している。

ステップ６１２において、類似度算出部１１０は、低認識率話者モデル１０６を用いて、読み込んだ音声データ（図２の２４２、または図１１の２２４）（図５、ステップ６０８）を音声認識し、認識結果が正解の場合はその音声データについて認識スコアＳ０を算出する。ステップ６１４において、類似度算出部１１０は、既存音響モデル１０２を用いて、その読み込んだ音声データを音声認識し、認識結果が正解の場合はその音声データについて認識スコアＳ１を算出する。

ステップ６１６において、類似度算出部１１０は、低認識率話者音響モデル１０６によるその音声データの認識スコアＳ０と、既存音響モデル１０２によるその音声データの認識スコアＳ１とを比較し、その認識スコア差Ｓｄ＝Ｓ０−Ｓ１を計算する。

ステップ６１８において、類似度算出部１１０は、認識スコア差Ｓｄが閾値Ｓｄｔｈより大きいか（Ｓｄ＞Ｓｄｔｈ）どうかを判定する。大きくないと判定された場合は、手順は図６のサブルーチンを出る。

ステップ６１８において認識スコア差Ｓｄが閾値Ｓｄｔｈより大きいと判定された場合は、手順はステップ６２０に進む。ステップ６２０において、データ選択部１１２は、閾値Ｓｄｔｈより大きい認識スコア差Ｓｄのその音声データを、即ち低認識率話者音声データセット２２２に相対的により類似している音声データとして選択音声データセット２３２に追加する。

図６Ｂは、図４の音声選択部１００の類似度算出部１１０およびデータ選択部１１２によって実行される、図５のステップ６１０の類似度を算出するための別の処理のフローチャートの一例を示している。

ステップ６１３において、類似度算出部１１０は、低認識率話者モデル１０６を用いて、読み込んだ音声データ（図２の２４２、または図１１の２２４）（図５、ステップ６０８）を音声認識し、認識結果が正解の場合はその音声データについて類似度としての認識スコアＳ０を算出する。代替構成として、類似度算出部１１０は、上述したように音声認識以外の手段を用いて、低認識率話者音声データセット２２２と読み込んだ音声データ（図５、ステップ６０８）との間の類似度Ｓ０を算出してもよい。

ステップ６１９において、類似度算出部１１０は、類似度Ｓ０が閾値Ｓ０ｔｈより大きいか（Ｓ０＞Ｓ０ｔｈ）どうかを判定する。大きくないと判定された場合は、手順は図６のサブルーチンを出る。

ステップ６１９において類似度Ｓ０が閾値Ｓ０ｔｈより大きいと判定された場合は、ステップ６２０において、データ選択部１１２は、閾値Ｓ０ｔｈより大きい類似度Ｓ０のその音声データ（図２の２４２、または図１１の２２４）を選択音声データセット２３２に追加する。

図７は、図２または１１の最適モデル生成部３００によって実行される、図４のステップ７００の最適モデル生成のための処理の概略的フローチャートの一例を示している。

ステップ７０２において、混合率決定部３２４は、学習用音声データセット２４２に対する選択音声データセット２３２の初期の混合率Ｒ０を決定する。

ステップ７１０において、混合音声データセット生成部３２２は、学習用音声データセット２４２の少なくとも一部または全ての音声データを取り出して混合音声データセット３２６に保存する。次いで、混合音声データセット生成部３２２は、その保存した音声データに対して、混合率決定部３２４から受け取った混合率Ｒに従って選択音声データセット２３２の音声データを混合し保存して、最終的に混合音声データセット３２６を生成する。混合率Ｒは、最初は初期の混合率Ｒ０である。

ステップ７２０において、音響モデル生成部３２８は、混合音声データセット３２６に基づいて学習処理を行って音響モデル３３０を生成する。

ステップ７３０において、モデル評価部３３２は、音響モデル３３０を用いて低認識律話者音声データセット２２２および評価用音声データセット４２４の各音声データを音声認識して認識率を算出して評価結果データとして生成する。

ステップ７５２において、混合率決定部３２４は、音響モデル（３３０）の生成を終了すべきかどうかを判定する。ステップ７５２において終了しないと判定された場合は、ステップ７５４において、混合率決定部３２４は、モデル評価部３３２の評価結果に従って新しい混合率Ｒを決定する。

ステップ７５２において音響モデルの生成を終了する判定された場合は、ステップ７５６において、モデル出力部３３４は、音響モデル３３０を最適な音響モデル４２２として出力して音響モデルデータベース４４に格納する。その後、手順はこのルーチンを出る。

図８は、図２または１１の混合音声データセット生成部３２２によって実行される、図７のステップ７１０の音声データ混合のための処理のフローチャートの一例を示している。

ステップ７１２において、混合音声データセット生成部３２２は混合率決定部３２４から選択音声データセット２３２の現在の混合率Ｒを受け取る。

ステップ７１４において、混合音声データセット生成部３２２は、混合率Ｒに応じて学習用音声データセット２４２および選択音声データセット２３２から音声データを抽出して、混合率Ｒに従って両音声データを混合して混合音声データセット３２６を生成する。混合音声データセット生成部３２２は、混合音声データセット３２６を音声データベース４２に格納する。

図９は、図２または１１の音響モデル生成部３２８によって実行される、図７のステップ７２０の音響モデル生成のための処理のフローチャートの一例を示している。

ステップ７２２において、音響モデル生成部３２８は、音声データベース４２から混合音声データセット３２６を取り出して入力する。

ステップ７２４において、音響モデル生成部３２８は、混合音声データセット３２６を用いて既知の方法で音響モデル３３０を生成する。

ステップ７２６において、音響モデル生成部３２８はその生成した音響モデル３３０を出力して音響モデルデータベース４４に格納する。

図１０は、図２または１１のモデル評価部３３２によって実行される、図７のステップ７３０の音響モデル評価のための処理のフローチャートの一例を示している。

ステップ７３２において、モデル評価部３３２は、評価用の言語モデルおよび正解リストが初期化済みかどうかを判定する。初期化済みと判定された場合は、手順はステップ７３６に進む。

ステップ７３２において初期化されていないと判定された場合は、ステップ７３４において、モデル評価部３３２は、音響モデルデータベース４４から評価用の言語モデルおよび正解リストを読み込み、それによって自己を初期化する。

ステップ７３６において、モデル評価部３３２は、評価する音響モデル３３０を音響モデルデータベース４４から読み込む。

ステップ７３８において、モデル評価部３３２は、低認識率話者音声データセット２２２（入力Ａ）の各音声データを音声認識し、認識率Ａを算出する。

ステップ７４２において、モデル評価部３３２は、評価用音声データセット４２４（入力Ｄ）の各音声データを音声認識し、認識率Ｄを算出する。

ステップ７４２において、モデル評価部３３２は、認識率ＡおよびＤと、音響モデル３３０のデータ（パラメータ）に対するポインタまたは識別情報とを混合率決定部３２４に供給する。

以上説明した実施形態によれば、標準的なまたは多数派の話者の音声だけでなく、少数派の話者の音声をも良好に認識できる音響モデルが生成される。

以上説明した実施形態は典型例として挙げたに過ぎず、その各実施形態の構成要素を組み合わせること、その変形およびバリエーションは当業者にとって明らかであり、当業者であれば本発明の原理および請求の範囲に記載した発明の範囲を逸脱することなく上述の実施形態の種々の変形を行えることは明らかである。

以上の実施例を含む実施形態に関して、さらに以下の付記を開示する。
（付記１）低認識率話者が発声した音声データを格納する第１の音声データセットと、
不特定多数話者の発声した音声データを格納する第２の音声データセットと、
前記第２の音声データセットの音声データに追加される音声データを格納する第３の音声データセットと、
前記第２の音声データセット内の各音声データについて、前記第１の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第３の音声データセットに保存する音声データ選択部と、
前記第２の音声データセットと前記第３の音声データセットに保存されている音声データとを用いて、第１の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
（付記２）低認識率話者が発声した音声データを格納する第１の音声データセットと、
不特定多数話者の発声した音声データを格納する第２の音声データセットと、
前記第２の音声データセットの音声データに混合される候補となる音声データを格納する第４の音声データセットと、
前記第４の音声データセットから取り出され前記第２の音声データセットの音声データに混合される音声データを格納する第３の音声データセットと、
前記第４の音声データセット内の各音声データについて、前記第１の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第３の音声データセットに保存する音声データ選択部と、
前記第２の音声データセットと前記第３の音声データセットに保存されている音声データとを用いて、第１の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
（付記３）前記類似度算出部は、前記第４の音声データセット内の各音声データについて、前記類似度を第１の類似度として求め、前記第２の音声データセットにおける平均的な声に対する第２の類似度を求め、
前記音声データ選択部は、前記第１の類似度と前記第２の類似度の差が選択範囲内となる音声データを前記選択音声データとして前記第３の音声データセットに保存するものであることを特徴とする、付記２に記載の情報処理装置。
（付記４）前記情報処理装置は、さらに、前記第２の音声データセットを用いて生成された第２の音響モデルと、前記第２の音響モデルを前記第１の音声データセットに対して適応処理して前記低認識率話者用の第３の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第３の音響モデルおよび前記第２の音響モデルを用いて前記第２の音声データセット中の各音声データを音声認識してそれぞれの認識スコアを前記第１と第２の類似度として求める音声認識部を含むものであることを特徴とする、付記３に記載の情報処理装置。
（付記５）前記情報処理装置は、さらに、前記第２の音声データセットの音声データと前記第３の音声データセットの音声データとを混合率に従って混合して第５の音声データセットを生成する混合音声データセット生成部を具え、
前記音響モデル生成部は、前記第５の音声データセットを用いて前記第１の音響モデルを生成するものであることを特徴とする、付記１乃至４のいずれかに記載の情報処理装置。
（付記６）さらに、前記第１の音響モデルを用いた評価用の第６の音声データセットおよび前記第１の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部を具えることを特徴とする、付記５に記載の情報処理装置。
（付記７）前記混合率の値を調整しても前記第１の音響モデルが閾値レベル以上改善されないかまたは前記第１の音響モデルの生成の開始から所定時間が経過した場合には、現在の前記第１の音響モデルを最終的な音響モデルとして決定することを特徴とする、付記５または６に記載の情報処理装置。
（付記８）前記情報処理装置は、さらに、前記第２の音声データセットの音声データと前記第３の音声データセットの音声データとを混合率に従って混合して第５の音声データセットを生成する混合音声データセット生成部と、前記第１の音響モデルを用いた評価用の第６の音声データセットおよび前記第１の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部と、を具え、
前記混合率決定部は、前記第１の類似度と前記第２の類似度の差の平均値の大きさに応じて前記混合率の値を算出し、
前記音響モデル生成部は、前記第５の音声データセットを用いて前記第１の音響モデルを生成するものであることを特徴とする、付記３または４に記載の情報処理装置。
（付記９）前記混合率決定部は、前記第３の音声データセットのデータ数に応じて前記混合率の値を算出するものであることを特徴とする、付記６乃至８のいずれかに記載の情報処理装置。
（付記１０）前記情報処理装置は、さらに、前記第２の音声データセットを用いて生成された第２の音響モデルと、前記第２の音響モデルを前記第１の音声データセットに対して周波数スペクトルに関して適応処理して前記低認識率話者用の第３の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第３の音響モデルを用いて前記第４の音声データセット中の各音声データを音声認識してその認識スコアを前記類似度として求める音声認識部を含むものであることを特徴とする、付記４に記載の情報処理装置。
（付記１１）プロセッサとメモリとを有する情報処理装置に用いられるプログラムであって、
前記メモリには、低認識率話者が発声した音声データを格納する第１の音声データセットと、不特定多数話者の発声した音声データを格納する第２の音声データセットと、前記第２の音声データセットの音声データに混合される音声データを格納する第３の音声データセットと、が記憶されており、
前記第２の音声データセット内の各音声データについて、前記第１の音声データセットにおける平均的な声に対する類似度を求めるステップと、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第３の音声データセットに保存するステップと、
前記第２の音声データセットと前記第３の音声データセットに保存されている音声データとを用いて、音響モデルを生成するステップと、
を前記プロセッサに実行させるためのプログラム。

３８音声データ選択および音響モデル生成部
１００音声選択部
１０２既存音響モデル
１０４モデル適応部
１０６低認識率話者音響モデル
１１０類似度算出部
１１２データ選択部
２２２低認識率話者音声データセット
２３２選択音声データセット
２４２学習用音声データセット
３００最適モデル生成部
３２２混合音声データセット生成部
３２４混合率決定部
３２６混合音声データセット
３２８音響モデル生成部
３３０音響モデル
３３２モデル評価部
３３４モデル出力部
４２２最適な音響モデル
４２４評価用音声データセット

Claims

低認識率話者が発声した音声データを格納する第１の音声データセットと、
不特定多数話者の発声した音声データを格納する第２の音声データセットと、
前記第２の音声データセットの音声データに混合される音声データを格納する第３の音声データセットと、
前記第２の音声データセット内の各音声データについて、前記第１の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第３の音声データセットに保存する音声データ選択部と、
前記第２の音声データセットと前記第３の音声データセットに保存されている音声データとを用いて、第１の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
低認識率話者が発声した音声データを格納する第１の音声データセットと、
不特定多数話者の発声した音声データを格納する第２の音声データセットと、
前記第２の音声データセットの音声データに混合される候補となる音声データを格納する第４の音声データセットと、
前記第４の音声データセットから取り出され前記第２の音声データセットの音声データに混合される音声データを格納する第３の音声データセットと、
前記第４の音声データセット内の各音声データについて、前記第１の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第３の音声データセットに保存する音声データ選択部と、
前記第２の音声データセットと前記第３の音声データセットに保存されている音声データとを用いて、第１の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
前記類似度算出部は、前記第４の音声データセット内の各音声データについて、前記類似度を第１の類似度として求め、前記第２の音声データセットにおける平均的な声に対する第２の類似度を求め、
前記音声データ選択部は、前記第１の類似度と前記第２の類似度の差が選択範囲内となる音声データを前記選択音声データとして前記第３の音声データセットに保存するものであることを特徴とする、請求項２に記載の情報処理装置。
前記情報処理装置は、さらに、前記第２の音声データセットを用いて生成された第２の音響モデルと、前記第２の音響モデルを前記第１の音声データセットに対して適応処理して前記低認識率話者用の第３の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第３の音響モデルおよび前記第２の音響モデルを用いて前記第２の音声データセット中の各音声データを音声認識してそれぞれの認識スコアを前記第１と第２の類似度として求める音声認識部を含むものであることを特徴とする、請求項２に記載の情報処理装置。
前記情報処理装置は、さらに、前記第２の音声データセットの音声データと前記第３の音声データセットの音声データとを混合率に従って混合して第５の音声データセットを生成する混合音声データセット生成部を具え、
前記音響モデル生成部は、前記第５の音声データセットを用いて前記第１の音響モデルを生成するものであることを特徴とする、請求項１乃至４のいずれかに記載の情報処理装置。
さらに、前記第１の音響モデルを用いた評価用の第６の音声データセットおよび前記第１の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部を具えることを特徴とする、請求項５に記載の情報処理装置。
前記混合率の値を調整しても前記第１の音響モデルが閾値レベル以上改善されないかまたは前記第１の音響モデルの生成の開始から所定時間が経過した場合には、現在の前記第１の音響モデルを最終的な音響モデルとして決定することを特徴とする、請求項５または６に記載の情報処理装置。
前記情報処理装置は、さらに、前記第２の音声データセットの音声データと前記第３の音声データセットの音声データとを混合率に従って混合して第５の音声データセットを生成する混合音声データセット生成部と、前記第１の音響モデルを用いた評価用の第６の音声データセットおよび前記第１の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部と、を具え、
前記混合率決定部は、前記第１の類似度と前記第２の類似度の差の平均値の大きさに応じて前記混合率の値を算出し、
前記音響モデル生成部は、前記第５の音声データセットを用いて前記第１の音響モデルを生成するものであることを特徴とする、請求項３または４に記載の情報処理装置。
前記混合率決定部は、前記第３の音声データセットのデータ数に応じて前記混合率の値を算出するものであることを特徴とする、請求項６乃至８のいずれかに記載の情報処理装置。
プロセッサとメモリとを有する情報処理装置に用いられるプログラムであって、
前記メモリには、低認識率話者が発声した音声データを格納する第１の音声データセットと、不特定多数話者の発声した音声データを格納する第２の音声データセットと、前記第２の音声データセットの音声データに混合される音声データを格納する第３の音声データセットと、が記憶されており、
前記第２の音声データセット内の各音声データについて、前記第１の音声データセットにおける平均的な声に対する類似度を求めるステップと、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第３の音声データセットに保存するステップと、
前記第２の音声データセットと前記第３の音声データセットに保存されている音声データとを用いて、音響モデルを生成するステップと、
を前記プロセッサに実行させるためのプログラム。