JP4571922B2 - 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 - Google Patents

音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 Download PDF

Info

Publication number
JP4571922B2
JP4571922B2 JP2006075374A JP2006075374A JP4571922B2 JP 4571922 B2 JP4571922 B2 JP 4571922B2 JP 2006075374 A JP2006075374 A JP 2006075374A JP 2006075374 A JP2006075374 A JP 2006075374A JP 4571922 B2 JP4571922 B2 JP 4571922B2
Authority
JP
Japan
Prior art keywords
acoustic model
evaluation result
cluster
model
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006075374A
Other languages
English (en)
Other versions
JP2007249051A (ja
Inventor
哲 小橋川
克年 大附
厚徳 小川
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006075374A priority Critical patent/JP4571922B2/ja
Publication of JP2007249051A publication Critical patent/JP2007249051A/ja
Application granted granted Critical
Publication of JP4571922B2 publication Critical patent/JP4571922B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声信号から算出した音響特徴量と音声単位カテゴリとの関係を表現する確率モデルである音響モデルを作成する技術に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model;以下「HMM」と表す。)によってモデル化して音響モデルを作成する手法は、認識性能が高く、現在の音声認識技術の主流となっている。
HMMに代表される音響モデルは、学習データから学習して蓄積した十分統計量を用いて生成される。近年では、学習データ量は膨大になり、500時間を越える学習データ量を擁する学習データが音響モデル作成に用いられるようになっている(非特許文献1参照。)。従来、音響モデルの学習に用いる学習データ(具体例としては音声データと、この音声データに対応付けた音声単位カテゴリによるラベルである。)は、予定している音声認識対象となる音声と音響的に近い音声(環境などの音声認識用途であるタスク、発話スタイル、話者等をメルクマールとする。)を一から収集するか、既存の音声データベースから人手で選定したりしていた。
図16に従来の音響モデル作成装置の機能構成例、図17に従来の音響モデル作成処理手順を示す。
従来手法では、学習部(93)は、初期音響モデルであるベース音響モデル(92)および学習データ(91)を用いて十分統計量(94)を算出する(ステップS91)。
学習部(93)による学習処理の一例は、学習データ(91)を構成するラベル対応の音声データの音響分析を行い、この音響分析結果をHMMの状態からの出力信号系列と見立てて、Baum-Welchアルゴリズムによって、音声単位カテゴリ毎に(ベース音響モデル(92)が与えられた下での)HMMの最尤パラメータを求めるための統計量を算出するものである。この統計量が、十分統計量である。
なお、ここでは、音声データの音響分析を学習部(93)の学習処理に含める構成として説明したが、例えば、学習部(93)とは別の音響分析部によってラベル対応の音声データを音響分析する構成などとしてもよい。また、学習データを、既述のように音声データとこの音声データに対応付けた音声単位カテゴリによるラベルから構成するのではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音声単位カテゴリによるラベルから構成するなどとしてもよい。
しかしながら、このような構成の異同は本発明との関係で要をなすものではないので、既述の構成であるとして便宜的に説明を進める。
十分統計量(94)とは、HMMを特徴付けるパラメータであり、具体例を説明する。ラベル対応の音声データの音響特徴量と音声単位カテゴリとの関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、1個あるいは複数の多次元正規分布を混合した確率分布である。ここでの多次元正規分布は、一般的に第i次元ケプストラム〔LPCケプストラム、MFCC(メル周波数ケプストラム係数)なども含む。以下同様。〕、第i次元Δケプストラム(ケプストラム係数の1次差分)、第i次元ΔΔケプストラム(Δケプストラム係数の1次差分)などのケプストラム係数および対数パワー、Δ対数パワー(対数パワーの1次差分)、ΔΔ対数パワー(Δ対数パワーの1次差分)の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各多次元正規分布の平均、分散や混合重み、状態遷移確率を計算するための統計量が十分統計量(94)である。
ステップS91の処理に続いて、モデル合成部(95)は、十分統計量(94)から音響モデルを合成する(ステップS92)。十分統計量から音響モデルを合成する方法は非特許文献2に詳しい。
また、従来では、学習にかかる時間を削減するため、学習データを分割し、複数の計算機を用いて学習(十分統計量算出)を行うことで、全体の学習時間を短縮することもあった。
S. Furui, "Recent Progress in Corpus-Based Spontaneous Speech Recognition", IEICE Trans. Inf. & Syst., Vol.E88-D, No.3, 2005 Lawrence Rabiner, Biing-Hwang Juang 共著、古井貞熙監訳、"音声認識の基礎(下)"、NTTアドバンステクノロジ、1995
音響モデルの学習には、学習データ量に応じた学習時間がかかる。近年、学習データ量の増加に伴い、音響モデル学習にかかる時間コストは膨大となっていた。学習にかかる時間を削減するため、学習データを分割し、複数の計算機を用いて学習(十分統計量蓄積)を行うとしても、学習データの中には、認識性能向上に寄与しない妨害データも存在し、この妨害データの存在によって認識性能が劣化してしまうことがあった。また、複数の学習データを用いて学習を行う場合にも同様の問題があった。
そこで、本発明は、上記の問題点に鑑み、高い認識性能を実現する高精度な音響モデルを短い学習時間で作成することを目的とする。
上記課題を解決するために、本発明は、次のようにして最適音響モデルを作成する。即ち、ベース音響モデルおよび、複数の学習データクラスタを用いて、各学習データクラスタに対応した十分統計量(クラスタ十分統計量)を得る。そして、各クラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成して、各音響モデルを、評価用データおよび評価用言語モデルを用いて評価する。この各音響モデルの評価結果のうち所定の評価結果を与えた音響モデルを選択する。
このように、複数の学習データクラスタに対応した各クラスタ十分統計量のうち、その1つあるいは複数の組み合わせから種々の音響モデルを合成し、これらのうち評価用データについて高い評価結果を与える音響モデルを選び出すのである。
また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記各音響モデルの評価結果のうち所定の評価結果を与えた音響モデルと、この音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する。そして、この選択された音響モデルおよび選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。
このように、所定の評価結果に基づいて選択された音響モデルおよび選択された学習データクラスタを用いることで高精度の音響モデルを作成する。
また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音
響モデル」という。)をそれぞれ合成する。これらの音響モデルついて上記評価を行ない、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する。そして、ベース音響モデルあるいは全選択音響モデルと選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。ここで所定の評価結果を、全選択音響モデルの評価結果αに対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる部分選択音響モデルの評価結果としてもよい。
これは、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断できることに基づく。
また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記全選択音響モデルと上記各部分選択音響モデルをそれぞれ合成する。これらの音響モデルついて上記評価を行ない、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択する。そして、選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとする。ここで所定の評価結果を、全選択音響モデルの評価結果αに対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる部分選択音響モデルの評価結果としてもよい。
これは、全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量が認識性能向上に寄与すると判断できることに基づく。
また、次のようにして最適音響モデルを作成するとしてもよい。即ち、入力された学習データを分類基準に従って複数の学習データクラスタに分割する。
これによれば、学習データとして例えば既存の汎用的な大量学習データを用いる場合、タスクなどに応じて適切な分類基準で学習データクラスタを作成することができる。
上記課題を解決するために、本発明は、次のようにして最適音響モデルを作成するとしてもよい。即ち、基本的なクラスタ十分統計量のセット(以下、「基本クラスタセット」という。)を準備しておき、この基本クラスタセットとは別に上記で述べたように各クラスタ十分統計量を算出する。そして、基本クラスタセットから音響モデル(以下、「基本音響モデル」という。)を合成し、基本クラスタセットと基本クラスタセットを構成しない各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル(以下、「追加音響モデル」という。)をそれぞれ合成する。基本音響モデルおよび各追加音響モデルを、評価用データおよび評価用言語モデルを用いて評価する。そして、基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する。基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルと選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。ここで所定の評価結果を、基本音響モデルの評価結果βに対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる追加音響モデルの評価結果としてもよい。
これは、基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断できることに基づく。
また、次のようにして最適音響モデルを作成するとしてもよい。即ち、上記基本音響モデルおよび上記各追加音響モデルを合成することに加え、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分音響モデル」という。)をそれぞれ合成する。基本音響モデル、各追加音響モデルおよび各部分音響モデルについて上記評価を行なう。基本音響モデルの評価結果に対して所定の評価結果(a)を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果に対して所定の評価結果(b)を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタ(基本クラスタセットを構成するクラスタ十分統計量に対応する学習データクラスタである。)を選択する。そして、基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとする。ここで所定の評価結果(a)を、基本音響モデルの評価結果βに対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる追加音響モデルの評価結果とし、所定の評価結果(b)を、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ=γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる部分音響モデルの評価結果としてもよい。
また、本発明の音響モデル作成方法の処理手順をコンピュータに実行させる音響モデル作成プログラムによって、コンピュータを音響モデル作成装置として作動処理させることができる。そして、この音響モデル作成プログラムを記録した、コンピュータに読み取り可能なプログラム記録媒体によって、他のコンピュータを音響モデル作成装置として機能させることや、音響モデル作成プログラムを流通させることなどが可能になる。
本発明によれば、複数の学習データクラスタに対応した各クラスタ十分統計量のうち、その1つあるいは複数の組み合わせから種々の音響モデルを合成し、これらのうち評価用データについて高い評価結果を与える音響モデルを選び出すことから、高い認識性能を実現する高精度な音響モデルを作成することができる。また、種々の音響モデルに対する所定の評価結果に基づいて音響モデルや学習データクラスタなどを選択することで、高精度の音響モデルを短時間で作成できる。
《第1実施形態》
本発明の第1実施形態について、図面を参照しながら説明する。
<第1実施形態の音響モデル作成装置>
図1に例示するように、音響モデル作成装置(1)は、キーボードなどが接続可能な入力部(11)、液晶ディスプレイなどが接続可能な出力部(12)、CPU(Central Processing Unit;14)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)(15)、ROM(Read Only Memory)(16)やハードディスクである外部記憶装置(17)、並びにこれらの入力部(11)、出力部(12)、CPU(14)、RAM(15)、ROM(16)、外部記憶装置(17)間のデータのやり取りが可能なように接続するバス(18)などを備えている。また必要に応じて、音響モデル作成装置(1)に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
音響モデル作成装置(1)の外部記憶装置(17)には、音響モデル作成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、RAM(15)などに適宜に保存記憶される。
本実施形態では、外部記憶装置(17)の所定の記憶領域であるベース音響モデル格納部に初期音響モデルであるベース音響モデル(112)がデータとして保存記憶されている。ベース音響モデル(112)は、例えば、適当な音声データに対して、書き起こしテキストの発音形(カナ)に対応する音素(各実施形態では説明の便宜から音声単位として音素を用いるとする。)をラベリングしてモノフォンラベルを作成し(強制的にショートポーズを入れてアライメントを行うとする。)、3状態left-to-right型HMM構造で作成したモデルなどである。
また、外部記憶装置(17)には、学習データ(111)が保存記憶されている。学習データ(111)〔各実施形態では説明の便宜から、音声データおよびこの音声データに対応付けた音素カテゴリのラベルで構成されるとする。〕は、予め複数(N個)のデータに分割されているとする。この各データを『学習データクラスタ』と呼ぶことにする。つまり、学習データ(111)は、学習データクラスタ[1](111−1)、学習データクラスタ[2](111−2)、・・・、学習データクラスタ[N](111−N)で構成される。なお、各学習データクラスタは1つの学習データを分割したものに限定されず、例えば、複数の学習データを用意し、それぞれを各別の学習データクラスタに見立てるとしてもよいし、あるいは、学習データクラスタは、複数の学習データをマージ(merge)したものとすることでもよい。さらに、このような場合に学習データクラスタを複数用意すれば、同じ内容の学習データクラスタが存在しえることになるが、本発明はこのような場合も許容しえるものである。換言すれば、複数の学習データクラスタはそれぞれ異なるものが望ましいが、同じ内容の学習データクラスタが存在しえる場合にも本発明を実施することは可能である〔このことは各実施形態等において同様である。〕。
さらに、外部記憶装置(17)には、音響モデルを評価するための評価用データ(118)〔評価用データは、評価用の音声データおよびこの音声データに対応付けた正解の音素カテゴリラベルで構成されるとする。また、評価用音声データは、予定している音声認識対象となる音声と音響的に近いものとするのが良い。〕、および評価用言語モデル(119)がデータとして保存記憶されている。
また外部記憶装置(17)には、ベース音響モデルと学習データクラスタとから十分統計量(以下、学習データクラスタに基づく十分統計量を「クラスタ十分統計量」と言う。)を算出するためのプログラム、1つないし複数のクラスタ十分統計量から音響モデルを合成するためのプログラム、音響モデルを評価するためのプログラム、評価結果から音響モデルを選択するためのプログラムが保存記憶されている。
音響モデル作成装置(1)では、外部記憶装置(17)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、CPU(14)で解釈実行・処理される。この結果、CPU(14)が所定の機能(学習部、モデル合成部、モデル評価部、選択部)を実現することで音響モデルの作成が実現される。
<第1実施形態の概要>
第1実施形態では、学習データクラスタ毎にクラスタ十分統計量を蓄積し、蓄積されたそれぞれのクラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成する。そして、各クラスタ十分統計量のうち1つあるいは複数の組み合わせに応じて得られたそれぞれの音響モデルを、評価用データ(118)および評価用言語モデル(119)を用いて評価し、所定の評価結果として最高の認識性能を達成する音響モデルを最適音響モデルとして特定する。なお、所定の評価結果を最高の認識性能に限定せず、閾値に対する相対評価などによって認識率が向上するという良い評価を所定の評価結果としてもよい。
<第1実施形態の音響モデル作成処理>
次に、図2および図3を参照して、音響モデル作成装置(1)における音響モデル作成処理の流れを叙述的に説明する。
まず、学習部(113)は、学習データクラスタ[1](111−1)、学習データクラスタ[2](111−2)、・・・、学習データクラスタ[N](111−N)およびベース音響モデル(112)をRAM(15)から読み込み、ベース音響モデル(112)と各学習データクラスタとを用いて、各学習データクラスタに対応した十分統計量(114)を算出する(ステップS1)。
つまり、学習部(113)は、学習データクラスタ[1](111−1)およびベース音響モデル(112)からクラスタ十分統計量[1](114−1)を算出し、同様に、学習データクラスタ[2](111−2)およびベース音響モデル(112)からクラスタ十分統計量[2](114−2)を算出し、・・・、学習データクラスタ[N](111−N)およびベース音響モデル(112)からクラスタ十分統計量[N](114−N)を算出するのである。N個のクラスタ十分統計量[1](114−1)、クラスタ十分統計量[2](114−2)、・・・、クラスタ十分統計量[N](114−N)はRAM(15)などに適宜に保存記憶される。
学習部(113)による学習処理は、従来手法と同様である。例えば、既述のとおり、各学習データクラスタにおけるラベル対応の音声データの音響分析を行い、この音響分析結果をHMMの状態からの出力信号系列と見立てて、Baum-Welchアルゴリズムによって、音素カテゴリ毎に(ベース音響モデル(112)が与えられた下での)HMMの最尤パラメータを求めるための統計量を算出する。この統計量が、クラスタ十分統計量である。
なお、既述のとおりであるが、音声データの音響分析を学習部(113)の学習処理に含める構成に限定するものではなく、例えば、学習部(113)とは別の音響分析部によってラベル対応の音声データを音響分析する構成などとしてもよい。また、学習データクラスタを、音声データとこの音声データに対応付けた音素カテゴリによるラベルから構成するのではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音素カテゴリによるラベルから構成するなどとしてもよい。
さらに既述のとおり、このような構成の異同は本発明の要諦に影響をもたらすものではないので、上記記載の実施形態の構成であるとして説明を進める。
また各クラスタ十分統計量(114−1)(114−2)・・・(114−N)についても、従来と同様である。ラベル対応の音声データの音響特徴量と音素カテゴリとの関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、1個あるいは複数の多次元正規分布を混合した確率分布である。ここで多次元正規分布は、一般的に第i次元ケプストラム〔LPCケプストラム、MFCC(メル周波数ケプストラム係数)なども含む。以下同様。〕、第i次元Δケプストラム(ケプストラム係数の1次差分)、第i次元ΔΔケプストラム(Δケプストラム係数の1次差分)などのケプストラム係数および対数パワー、Δ対数パワー(対数パワーの1次差分)、ΔΔ対数パワー(Δ対数パワーの1次差分)の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各多次元正規分布の平均、分散や混合重み、状態遷移確率を計算するための統計量がクラスタ十分統計量である。
次に、モデル合成部(115)は、RAM(15)から読み込んだ各クラスタ十分統計量(114−1)(114−2)・・・(114−N)のうち1つあるいは複数の組み合わせから音響モデル(116)を合成する(ステップS2)。第1実施形態において『1つあるいは複数の組み合わせ』とは、考えうる全ての網羅的な組み合わせを云うものとする。
このことを具体的に説明すると、モデル合成部(115)は、N個のクラスタ十分統計量(114−1)(114−2)・・・(114−N)から、それぞれ異なるΣj=1 個の音響モデルを作成するということである。ここでは、N個のものから重複を許さずj個を選択した組み合わせ数を表す。また、記号Mについて、M=Σj=1 +・・・+とする。
つまり、モデル合成部(115)は、例えばクラスタ十分統計量[1](114−1)からは音響モデル[1](116−1)を合成し、クラスタ十分統計量[1](114−1)およびクラスタ十分統計量[2](114−2)からは音響モデル[1+2](116−2)を合成し、クラスタ十分統計量[1](114−1)、クラスタ十分統計量[2](114−2)およびクラスタ十分統計量[3](114−3)からは音響モデル[1+2+3](116−3)を合成し、・・・、クラスタ十分統計量[5]およびクラスタ十分統計量[9](114−3)からは音響モデル[5+9]を合成し、・・・、全てのクラスタ十分統計量からは音響モデル[N+(N−1)+・・・+1](116−M)を合成するのである。複数のクラスタ十分統計量から音響モデルを合成するモデル合成処理は上記非特許文献2などに詳しい。M個の音響モデル(116−1)(116−2)・・・(116−M)はRAM(15)などに適宜に保存記憶される。
なお、第1実施形態では『1つあるいは複数の組み合わせ』を、考えうる全ての網羅的な組み合わせを云うものとした。しかし、学習データクラスタ数(=クラスタ十分統計量の数)が多い場合、この網羅的な組み合わせ数はとても多くなるので、任意の組み合わせで音響モデルを合成するようにしてもよい。つまり、任意の組み合わせでM個よりも少ない音響モデルを合成することでもよい。
続いて、モデル評価部(117)は、各音響モデル(116−1)(116−2)・・・(116−M)、評価用データ(118)および評価用言語モデル(119)をRAM(15)から読み込み、各音響モデルと評価用言語モデル(119)とを用いて評価用データ(118)に対する認識率を求め、これを各音響モデルの評価結果として算出する(ステップS3)。
評価結果である認識率の差異は、同じ評価用データ(118)および評価用言語モデル(119)を用いて評価していることから、各音響モデル(116−1)(116−2)・・・(116−M)の差異に基づく。評価用音声データの認識率の算出は公知の方法によって達成される。
続いて、選択部(120)は、各音響モデル(116−1)(116−2)・・・(116−M)の評価結果に基づき、最高の評価結果を与えた音響モデルを選択して最適音響モデル(123)として出力する(ステップS4)。この最適音響モデル(123)が、予定する音声認識に対して最適な音響モデルとなっている。
第1実施形態では、最高の評価結果を与えた音響モデルを選択するとしたが、例えば予め閾値を設定しておき、この閾値以上(あるいは閾値よりも大)の評価結果を与えた音響モデルを選択するようにしてもよい。この場合、複数の音響モデルが選択されえるが、これらが予定する音声認識に対して最適な音響モデルの候補となる。換言すれば、この閾値を厳しく設定することで1個の音響モデルを出力することもできるし、あるいは、1個の音響モデルを出力することに限定したくない場合には、閾値を緩く設定することで複数の音響モデルを最適音響モデルの候補として出力するようにすることもできる。なお、この閾値は予め外部記憶装置(17)に保存記憶しておくとする。
この第1実施形態は、ベース音響モデル(112)を基準とすると、1回の学習によって最適音響モデル(123)を得る構成となっている。
なお、各学習データクラスタのデータ量を均等化することで、学習データ量の影響を低減することもできる。また、評価用データを、予定している音声認識のタスクなどに応じて変更することで、当該タスクなどに最適な音響モデルを作成することができる。
《第2実施形態》
本発明の第2実施形態について、図面を参照しながら説明する。
<第2実施形態の概要>
第2実施形態では、学習データクラスタ毎にクラスタ十分統計量を蓄積し、蓄積されたそれぞれのクラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成する。そして、各クラスタ十分統計量のうち1つあるいは複数の組み合わせに応じて得られたそれぞれの音響モデルを、評価用データ(118)および評価用言語モデル(119)を用いて評価する。さらに、所定の評価結果として最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタとから音響モデルの合成を行ない〔以下、「最適化処理」と云う。〕、この最適化処理で出力された音響モデルを最適音響モデルとして特定する。なお、所定の評価結果を最高の認識性能に限定せず、閾値に対する相対評価などによって認識率が向上するという良い評価としてもよい。
<第2実施形態の音響モデル作成装置>
第2実施形態の音響モデル作成装置は、第1実施形態の音響モデル作成装置と同様のハードウェア構成であり、第1実施形態と異なる部分について説明を行う。
第2実施形態では、外部記憶装置(17)に、第1実施形態のプログラムに加え、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタとから最適化処理を行うためのプログラムも保存記憶されている。また、第1実施形態において選択部(120)を実現するためのプログラム―評価結果から音響モデルを選択するためのプログラム―は、第2実施形態では、評価結果から音響モデルおよび学習データクラスタを選択するためのプログラムとする。
第2実施形態の音響モデル作成装置(1)では、外部記憶装置(17)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、CPU(14)で解釈実行・処理される。この結果、CPU(14)が所定の機能(学習部、モデル合成部、モデル評価部、選択部、最適化部)を実現することで音響モデルの作成が実現される。
<第2実施形態の音響モデル作成処理>
次に、図4および図5を参照して、第2実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第1実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
第2実施形態における音響モデル作成処理では、第1実施形態におけるステップS3の処理に続いて次の処理を行う。
即ち、選択部(120a)は、各音響モデル(116−1)(116−2)・・・(116−M)の評価結果に基づき、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する(ステップS4a)。
例えばステップS3の処理において最高の評価結果を与えた音響モデルを音響モデル[5+9]とした場合、この音響モデル[5+9]を選択し、さらに、音響モデル[5+9]作成に用いられたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する学習データクラスタ[5]および学習データクラスタ[9]を選択する。
なお、第2実施形態においては、最高の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択するとしたが、予め閾値を設定しておき、この閾値以上(あるいは閾値よりも大)の評価結果を与えた音響モデルとその音響モデル作成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択するようにしてもよい。
次に、最適化部(121)は、選択された音響モデルおよび選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力する(ステップS5)。
最適化部(121)の最適化処理は、学習部(113)の学習処理とモデル合成部(115)のモデル合成処理との複合処理である。但し、モデル合成部(115)のモデル合成処理はM個の音響モデルを作成したが、最適化部(121)の最適化処理では1個の音響モデルを作成する。
つまり、音響モデル[5+9]が選択された場合を例にとって説明すると、最適化部(121)は、学習データクラスタ[5]および音響モデル[5+9]からクラスタ十分統計量[5opt]を算出し、同様に、学習データクラスタ[9]および音響モデル[5+9]からクラスタ十分統計量[9opt]を算出する。そして、最適化部(121)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
以上の第2実施形態は、ベース音響モデル(112)を基準とすると、2回の学習によって最適音響モデル(123)を得る構成となっている。
<第2実施形態の変形例その1>
最適化部(121)による最適化処理は、次のような処理形態とすることも可能である。音響モデル[5+9]が選択された場合を例にとって説明すると、最適化部(121)は、学習データクラスタ[5]および学習データクラスタ[9]をマージ(merge)して学習データクラスタ[5+9]を生成し、この学習データクラスタ[5+9]および音響モデル[5+9]からクラスタ十分統計量[(5+9)opt]を算出して、このクラスタ十分統計量[(5+9)opt]を最適音響モデルとするのである。
このような処理形態でも良いが、一般的には、(マージしないで)各別の学習データクラスタと音響モデルとを用いた学習処理は、複数のコンピュータによって分散処理できるから、マージした学習データクラスタと音響モデルとから学習処理を行って音響モデルを得る処理時間は、マージしないで各別の学習データクラスタと音響モデルとから学習処理を行い、得られたクラスタ十分統計量に対してモデル合成処理を行って音響モデルを得る処理時間よりも長くなる。
<第2実施形態の変形例その2>
第2実施形態の変形例その1に対する変形例を説明する。
音響モデル[5+9]が選択された場合を例にとって説明すると、最適化部(121)は、学習データクラスタ[5]および学習データクラスタ[9]をマージ(merge)して学習データクラスタ[5+9]を生成する。そして、この学習データクラスタ[5+9]を適切な分類基準に従ってs個に再分割して、学習データクラスタ[g](g=1,2,・・・,s)を得る。このs個の各学習データクラスタ[g]および音響モデル[5+9]から、第2実施形態で説明したのと同様にしてクラスタ十分統計量[(5+9)opt]を得る。適切な分類基準に従った再分割は、例えば後述する第4実施形態のデータ分類部によって行われる。
<第2実施形態の変形例その3>
また、上記ステップS5で『最適化部(121)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する』と説明したが、複数の音響モデルを出力する構成とすることもできる。
つまり、最適化部(121)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって、音響モデル[5opt]、音響モデル[9opt]、音響モデル[5opt+9opt]を作成するのである。この場合は全部で3つの音響モデルを生成したが、これはΣj=1 =3であることに基づく。つまり、最適化部(121)は、モデル合成部(115)と同等のモデル合成処理を行っている。
この場合、最適化部(121)で得られた複数の音響モデル(場合によっては1つの音響モデルの場合もあることに留意すること。)をモデル合成部(115)で得られた音響モデル(116)に見立てて、モデル評価部(117)によるモデル評価処理および選択部(120a)による選択処理を適用し、再度、最適化部(121)による最適化処理を行って最適音響モデル(123)を得る構成とする。つまり、この構成は、ベース音響モデル(112)を基準とすると、3回の学習によって最適音響モデル(123)を得る構成となっている。
同様の処理を繰り返せば、ベース音響モデル(112)を基準として、複数回の学習によって最適音響モデル(123)を得る構成とすることができる。
《第3.1実施形態》
本発明の第3.1実施形態について、図面を参照しながら説明する。
<第3.1実施形態の概要>
第3.1実施形態では、全てのクラスタ十分統計量から合成した音響モデル[N+(N−1)+・・・+1]〔全選択音響モデルである。〕の認識性能(A)と、一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量から合成した音響モデル〔部分選択音響モデルである。〕の認識性能(B)とを比較する。認識性能(B)の認識性能(A)に対する所定の評価結果の一例としてその差(A−B)が閾値以上であれば、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断でき、この学習データクラスタを最適化処理に用いる学習データクラスタとして選択する。第3.1実施形態は、第2実施形態を基礎として、第2実施形態と異なる部分について説明を行う。なお、上記閾値を0とした場合を考えれば明らかなように、認識性能(B)が認識性能(A)に比してそれ以下あるいはそれよりも小となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。
<第3.1実施形態の音響モデル作成装置>
第3.1実施形態の音響モデル作成装置は、第2実施形態の音響モデル作成装置と同様のハードウェア構成であり、第2実施形態と異なる部分について説明を行う。
第2実施形態において選択部(120)を実現するためのプログラムは、第3.1実施形態では、評価結果から学習データクラスタを選択するためのプログラムとする。
また、第2実施形態において最適化部(121)を実現するためのプログラムは、第3.1実施形態では、全てのクラスタ十分統計量から合成した音響モデルおよび選択された学習データクラスタから最適音響モデルを作成するためのプログラムとする。
第3.1実施形態の音響モデル作成装置(1)では、外部記憶装置(17)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、CPU(14)で解釈実行・処理される。この結果、CPU(14)が所定の機能(学習部、モデル合成部、モデル評価部、選択部、最適化部)を実現することで音響モデルの作成が実現される。
<第3.1実施形態の音響モデル作成処理>
次に、図6および図7を参照して、第3.1実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
第3.1実施形態における音響モデル作成処理では、第2実施形態におけるステップS1の処理に続いて次の処理を行う。
即ち、モデル合成部(115b)は、RAM(15)から読み込んだ各クラスタ十分統計量(114−1)(114−2)・・・(114−N)のうち、全てのクラスタ十分統計量から、および、全てのクラスタ十分統計量から各別の1つのクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせ(部分選択クラスタ十分統計量)からそれぞれ異なる音響モデル(116b)を合成する(ステップS2b)。
つまり、モデル合成部(115b)は、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)から音響モデル[全選択](116b−0)を合成する。さらに、モデル合成部(115b)は、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)からクラスタ十分統計量[1](114−1)を除外したN−1個のクラスタ十分統計量(114−2)(114−3)・・・(114−N)から音響モデル[1無し](116b−1)を合成し、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)からクラスタ十分統計量[2](114−2)を除外したN−1個のクラスタ十分統計量(114−1)(114−3)・・・(114−N)から音響モデル[2無し](116b−2)を合成し、・・・、全てのクラスタ十分統計量(114−1)(114−2)・・・(114−N)からクラスタ十分統計量[N](114−N)を除外したN−1個のクラスタ十分統計量(114−1)(114−2)・・・(114−(N−1))から音響モデル[N無し](116b−N)を合成するのである。なお、音響モデル[全選択](116b−1)は、音響モデル[N+(N−1)+・・・+1](116−M)に相当する。N+1個の音響モデル(116b−0)(116b−1)・・・(116b−N)はRAM(15)などに適宜に保存記憶される。
このステップS2bの処理に続いてステップS3bの処理を実行する。具体的には、モデル評価部(117b)は、各音響モデル(116b−0)(116b−1)・・・(116b−N)、評価用データ(118)および評価用言語モデル(119)をRAM(15)から読み込み、各音響モデルと評価用言語モデル(119)とを用いて評価用データ(118)に対する認識率を求め、これを各音響モデルの評価結果として算出する(ステップS3b)。
評価結果である認識率の差異は、同じ評価用データ(118)および評価用言語モデル(119)を用いて評価していることから、各音響モデル(116b−0)(116b−1)・・・(116b−N)の差異に基づく。
続いて、選択部(120b)は、各音響モデル(116b−0)(116b−1)・・・(116b−N)の評価結果のうち所定の評価結果を与えた音響モデルの作成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する(ステップS4b)。
ここで『所定の評価結果』とは、音響モデル[全選択](116b−0)の評価結果と、音響モデル[j無し](116b−j)〔j=1、2、・・・、N〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率5%とし、ステップS3bの処理において音響モデル[全選択](116b−0)の評価結果が70%、音響モデル[5無し]の評価結果が60%、音響モデル[9無し]の評価結果が63%、その他の各音響モデルの評価結果が65%よりも大であったとすると、音響モデル[5無し]および音響モデル[9無し]の各評価結果が、音響モデル[全選択](116b−0)の評価結果との差が閾値5%以上となる。そこで、選択部(120b)は、音響モデル[5無し]および音響モデル[9無し]の作成で除外されたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する学習データクラスタ[5]およびを学習データクラスタ[9]を選択する。
ステップS4bの処理に続いてステップS5bの処理を実行する。最適化部(121b)は、音響モデル[全選択](116b−0)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力する(ステップS5b)。
最適化部(121b)の最適化処理は、学習部(113)の学習処理とモデル合成部(115b)のモデル合成処理との複合処理である。但し、モデル合成部(115b)のモデル合成処理はN+1個の音響モデルを作成したが、最適化部(121b)の最適化処理では1個の音響モデルを作成する。
つまり、学習データクラスタ[5]および学習データクラスタ[9]が選択された場合を例にとって説明すると、最適化部(121b)は、学習データクラスタ[5]および音響モデル[全選択](116b−0)からクラスタ十分統計量[5opt]を算出し、同様に、学習データクラスタ[9]および音響モデル[全選択](116b−0)からクラスタ十分統計量[9opt]を算出する。そして、最適化部(121b)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
なお、第3.1実施形態では、音響モデル[全選択](116b−0)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしたが、ベース音響モデル(112)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしてもよい。
《第3.2実施形態》
本発明の第3.2実施形態について、図面を参照しながら説明する。
<第3.2実施形態の概要>
第3.2実施形態では、全てのクラスタ十分統計量から合成した音響モデル[N+(N−1)+・・・+1]〔全選択音響モデルである。〕の認識性能(A)と、一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量から合成した音響モデル〔部分選択音響モデルである。〕の認識性能(B)とを比較する。認識性能(B)の認識性能(A)に対する所定の評価結果の一例としてその差(B−A)が閾値以上であれば、除外したクラスタ十分統計量が認識性能向上に寄与すると判断でき、このクラスタ十分統計量を最適化処理に用いるクラスタ十分統計量として選択する。なお、上記閾値を0とした場合を考えれば明らかなように、認識性能(B)が認識性能(A)に比してそれ以上あるいはそれよりも大となる場合に、除外したクラスタ十分統計量が認識性能向上に寄与すると判断することもできる。第3.2実施形態は、第3.1実施形態と類似するから、第3.1実施形態と異なる部分について説明を行う。
<第3.2実施形態の音響モデル作成装置>
第3.2実施形態の音響モデル作成装置は、第3.1実施形態の音響モデル作成装置と同様のハードウェア構成であり、第3.1実施形態と異なる部分について説明を行う。
選択部(120)を実現するためのプログラムは、第3.2実施形態では、評価結果からクラスタ十分統計量を選択するためのプログラムとする。
また、最適化部(121)を実現するためのプログラムは、第3.2実施形態では、選択されたクラスタ十分統計量から最適音響モデルを作成するためのプログラムとする。
第3.2実施形態の音響モデル作成装置(1)では、外部記憶装置(17)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、CPU(14)で解釈実行・処理される。この結果、CPU(14)が所定の機能(学習部、モデル合成部、モデル評価部、選択部、最適化部)を実現することで音響モデルの作成が実現される。
<第3.2実施形態の音響モデル作成処理>
次に、図8および図9を参照して、第3.2実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
第3.2実施形態における音響モデル作成処理では、第3.1実施形態におけるステップS3bの処理に続いてステップS4b1の処理を行う。
即ち、選択部(120b1)は、各音響モデル(116b−0)(116b−1)・・・(116b−N)の評価結果のうち所定の評価結果を与えた音響モデルの作成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する(ステップS4b1)。
ここで『所定の評価結果』とは、音響モデル[全選択](116b−0)の評価結果と、音響モデル[j無し](116b−j)〔j=1、2、・・・、N〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率5%とし、ステップS3bの処理において音響モデル[全選択](116b−0)の評価結果が70%、音響モデル[5無し]の評価結果が77%、音響モデル[9無し]の評価結果が78%、その他の各音響モデルの評価結果が75%よりも小であったとすると、音響モデル[5無し]および音響モデル[9無し]の各評価結果が、音響モデル[全選択](116b−0)の評価結果との差が閾値5%以上となる。そこで、選択部(120b1)は、音響モデル[5無し]および音響モデル[9無し]の作成で除外されたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する学習データクラスタ[5]およびを学習データクラスタ[9]を選択する。
ステップS4b1の処理に続いてステップS5b1の処理を実行する。最適化部(121b)は、音響モデル[全選択](116b−0)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力する(ステップS5b1)。
最適化部(121b1)の最適化処理は、モデル合成部(115b)のモデル合成処理と同様である。但し、モデル合成部(115b)のモデル合成処理はN+1個の音響モデルを作成したが、最適化部(121b1)の最適化処理では1個の音響モデルを作成する。
つまり、クラスタ十分統計量[5]およびクラスタ十分統計量[9]が選択された場合を例にとって説明すると、最適化部(121b1)は、クラスタ十分統計量[5]およびクラスタ十分統計量[9]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
なお、第3.2実施形態では、音響モデル[全選択](116b−0)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしたが、ベース音響モデル(112)および選択された学習データクラスタに対して最適化処理を行って最適音響モデル(123)を出力するとしてもよい。
第3.1実施形態あるいは第3.2実施形態の構成によれば、評価すべき音響モデルの数がクラスタ数+1程度であり、評価プロセスの計算量も大きくなくなり効率的な音響モデル作成手法である。但し、選択された学習データクラスタが必ずしも最適な組み合わせとは限らないため、閾値によって選択精度を制御する。即ち、閾値を厳しく設定する程、評価用データ―つまり、予定している音声認識対象音声―に適応した学習データクラスタが選択される。
《第4実施形態》
本発明の第4実施形態について、図面を参照しながら説明する。
<第4実施形態の概要>
第4実施形態は、膨大なデータ量である学習データを、適当な分類基準で複数の学習データクラスタに分類するデータ分類処理を含むものである。このデータ分類処理は、第1実施形態、第2実施形態、第3実施形態に組み合わせて適用できる。第4実施形態は、第2実施形態に組み合わせた場合として説明する。
<第4実施形態の音響モデル作成装置>
第4実施形態の音響モデル作成装置は、第2実施形態の音響モデル作成装置と同様のハードウェア構成であり、第2実施形態と異なる部分について説明を行う。
第4実施形態では、外部記憶装置(17)に、第2実施形態のプログラムに加え、学習データを分類するためのプログラムも保存記憶されている。
また第2実施形態では、外部記憶装置(17)にN個の学習データクラスタが保存記憶されているとしたが、第4実施形態では、外部記憶装置(17)に分割前の学習データ(111a)が保存記憶されているとする。
第4実施形態の音響モデル作成装置(1)では、外部記憶装置(17)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、CPU(14)で解釈実行・処理される。この結果、CPU(14)が所定の機能(データ分類部、学習部、モデル合成部、モデル評価部、選択部、最適化部)を実現することで音響モデルの作成が実現される。
<第4実施形態の音響モデル作成処理>
次に、図10および図11を参照して、第4実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
データ分類部(110)は、学習データ(111a)を読み込み、予め設定された分類基準(例えば音響的距離尺度とする。)に従って、学習データ(111a)をN個の学習データクラスタ[1](111−1)、学習データクラスタ[2](111−2)、・・・、学習データクラスタ[N](111−N)に分割して出力する(ステップS1p)。
N個の学習データクラスタは、RAM(15)などに適宜に保存記憶される。図10において、学習データ(111b)は分割後の学習データクラスタの集合を示している。
ステップS1pの処理に続いて、第2実施形態のステップS1以降の処理が行われる。
分類基準は、音響的距離尺度に限らず、タスク、話者性別、発話スタイル、発話長などでもよい。例えば学習データの音声データに、音素カテゴリだけでなくタスクを識別するラベルも対応付けておくことで、このラベルを識別指標として分類することが可能になる。
タスク、性別、発話スタイル、発話長、音響的距離尺度などを分類基準とすると、効果的な学習データの種別が分かり、追加で収集すべきデータの種類も明らかになる。さらに、学習データ量を均等化して分類することによって、学習処理を均等化し、複数の計算機で並列に学習する際などに、効率的な学習が行える。このとき、学習データ量の差による効果の差が無くなり、重要な学習データクラスタが明確になり、追加すべき学習データの種類も一層明らかになる。
《第5実施形態》
本発明の第5実施形態について、図面を参照しながら説明する。
<第5実施形態の概要>
第5実施形態では、学習データクラスタの基本的な組み合わせから学習し終えたクラスタ十分統計量のセット(基本クラスタセット)を設定しておく。この基本クラスタセットから合成した基本音響モデルの認識性能(C)と、新たに追加した学習データクラスタから学習したクラスタ十分統計量および基本クラスタ十分統計量とから合成した追加音響モデルの認識性能(D)とを比較する。認識性能(D)の認識性能(C)に対する所定の評価結果の一例として認識性能の差(D−C)が閾値以上であれば、その追加したクラスタ十分統計量に対応する学習データクラスタは認識性能向上に寄与すると判断でき、最適化処理に用いる学習データクラスタとして選択する(このような構成を「追加型」ということにする。)。なお、上記閾値を0とした場合を考えれば明らかなように、認識性能(D)が認識性能(C)に比してそれ以上あるいはそれよりも大となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。
<第5実施形態の音響モデル作成装置>
第5実施形態の音響モデル作成装置は、第2実施形態の音響モデル作成装置と同様のハードウェア構成であり、第2実施形態と異なる部分について説明を行う。
外部記憶装置(17)には、追加された学習データである追加学習データ(111c)が保存記憶されている。追加学習データ(111c)は、予め複数(n個とする。但し、説明の便宜からn個としたまでで、上記各実施形態におけるN個と同じにする必要はない。)のデータに分割されているとする。この各データを『追加学習データクラスタ』と呼ぶことにする。つまり、追加学習データ(111c)は、追加学習データクラスタ[1](111c−1)、追加学習データクラスタ[2](111c−2)、・・・、追加学習データクラスタ[n](111c−n)で構成される。勿論、第4実施形態のように、データ分類部によって追加学習データ(111c)をn個の追加学習データクラスタに分類するようにしてもよい。なお、この追加学習データクラスタについても、第1実施形態で説明した学習データクラスタと同様に、例えば複数の追加学習データそれぞれを各別の追加学習データクラスタに見立てることなどができる〔既述した学習データクラスタの説明を参照のこと。〕。
さらに、外部記憶装置(17)には、基本クラスタセット(114c−0)が保存記憶されている。基本クラスタセット(114c−0)は、学習データクラスタの基本的な組み合わせから学習し終えたクラスタ十分統計量のセットであり、例えば、第2実施形態で得られたクラスタ十分統計量(114)全体とする。
また、第2実施形態において最適化部(121)を実現するためのプログラムは、第5実施形態では、選択された追加学習データクラスタおよび基本クラスタセット(114c−0)から合成した音響モデルから最適音響モデルを作成するためのプログラムとする。
第5実施形態の音響モデル作成装置(1)では、外部記憶装置(17)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、CPU(14)で解釈実行・処理される。この結果、CPU(14)が所定の機能(学習部、モデル合成部、モデル評価部、選択部、最適化部)を実現することで音響モデルの作成が実現される。
<第5実施形態の音響モデル作成処理>
次に、図12および図13を参照して、第5実施形態における音響モデル作成処理の流れを叙述的に説明する。ここでは、第2実施形態における音響モデル作成処理の流れと異なる部分について説明を行う。
まず、学習部(113c)は、追加学習データクラスタ[1](111c−1)、追加学習データクラスタ[2](111c−2)、・・・、追加学習データクラスタ[n](111c−n)およびベース音響モデル(112)をRAM(15)から読み込み、ベース音響モデル(112)と各追加学習データクラスタとを用いて、各学習データクラスタに対応したn個のクラスタ十分統計量[1](114c−1)、クラスタ十分統計量[2](114c−2)、・・・、クラスタ十分統計量[n](114c−n)を算出する(ステップS1c)。
n個のクラスタ十分統計量[1](114c−1)、クラスタ十分統計量[2](114c−2)、・・・、クラスタ十分統計量[n](114c−n)はRAM(15)などに適宜に保存記憶される。これらのn個のクラスタ十分統計量[1](114c−1)、クラスタ十分統計量[2](114c−2)、・・・、クラスタ十分統計量[n](114c−n)と基本クラスタセット(114c−0)でクラスタ十分統計量(114c)を構成する。
次に、モデル合成部(115c)は、RAM(15)から読み込んだ基本クラスタセット(114c−0)および各別のクラスタ十分統計量(114c−1)(114c−2)・・・(114c−n)からそれぞれ異なる音響モデル(116c)を合成する(ステップS2c)。
具体的には、モデル合成部(115c)は、基本クラスタセット(114c−0)から音響モデル[基本](116c−0)を合成し、基本クラスタセット(114c−0)およびクラスタ十分統計量(114c−1)からは音響モデル[1追加](116c−1)を合成し、基本クラスタセット(114c−0)およびクラスタ十分統計量[2](114c−2)からは音響モデル[2追加](116c−2)を合成し、・・・、基本クラスタセット(114c−0)およびクラスタ十分統計量[n](114c−2)からは音響モデル[n追加](116c−n)を合成するのである。n+1個の音響モデル(116c−1)(116c−2)・・・(116c−n)はRAM(15)などに適宜に保存記憶される。
続いて、モデル評価部(117c)は、各音響モデル(116c−0)(116c−1)・・・(116c−n)、評価用データ(118)および評価用言語モデル(119)をRAM(15)から読み込み、各音響モデルと評価用言語モデル(119)とを用いて評価用データ(118)に対する認識率を求め、これを各音響モデルの評価結果として算出する(ステップS3c)。
評価結果である認識率の差異は、同じ評価用データ(118)および評価用言語モデル(119)を用いて評価していることから、各音響モデル(116c−0)(116c−1)・・・(116c−n)の差異に基づく。
続いて、選択部(120c)は、各音響モデル(116c−0)(116c−1)・・・(116c−n)の評価結果のうち所定の評価結果を与えた音響モデルの作成において追加されたクラスタ十分統計量に対応する追加学習データクラスタを選択する(ステップS4c)。
ここで『所定の評価結果』とは、音響モデル[基本](116c−0)の評価結果と、音響モデル[j追加](116c−j)〔j=1、2、・・・、n〕の各評価結果との差が、予め定められた閾値以上であるとの評価結果のことである。
例えば閾値を認識率5%とし、ステップS3cの処理において音響モデル[基本](116c−0)の評価結果が70%、音響モデル[5追加]の評価結果が77%、音響モデル[9追加]の評価結果が78%、その他の各音響モデルの評価結果が75%よりも小であったとすると、音響モデル[5追加]および音響モデル[9追加]の各評価結果が、音響モデル[基本](116c−0)の評価結果との差が閾値5%以上となる。そこで、選択部(120c)は、音響モデル[5追加]および音響モデル[9追加]の作成で追加されたクラスタ十分統計量[5]およびクラスタ十分統計量[9]に対応する追加学習データクラスタ[5]および追加学習データクラスタ[9]を選択する。
ステップS4cの処理に続いてステップS5cの処理を実行する。最適化部(121c)は、選択された追加学習データクラスタおよび音響モデル[基本](116c−0)に対して最適化処理を行って最適音響モデル(123)を出力する(ステップS5c)。
最適化部(121c)の最適化処理は、学習部(113c)の学習処理とモデル合成部(115c)のモデル合成処理との複合処理である。但し、モデル合成部(115c)のモデル合成処理はn+1個の音響モデルを作成したが、最適化部(121c)の最適化処理では1個の音響モデルを作成する。
つまり、追加学習データクラスタ[5]および追加学習データクラスタ[9]が選択された場合を例にとって説明すると、最適化部(121c)は、学習データクラスタ[5]および音響モデル[基本](116c−0)からクラスタ十分統計量[5opt]を算出し、同様に、学習データクラスタ[9]および音響モデル[基本](116c−0)からクラスタ十分統計量[9opt]を算出する。そして、最適化部(121c)は、クラスタ十分統計量[5opt]およびクラスタ十分統計量[9opt]からモデル合成処理を行なって1つの音響モデルを出力する。この音響モデルが最適音響モデル(123)である。
なお、第5実施形態では、選択された追加学習データクラスタおよび音響モデル[基本](116c−0)に対して最適化処理を行って最適音響モデル(123)を出力するとしたが、学習対象の音響モデルを音響モデル[基本](116c−0)に限定するものではなく、例えば、ステップS4cの処理で所定の評価結果を与えた音響モデルを学習対象としてもよい。
第5実施形態では、基本クラスタセットから合成した音響モデル[基本]に基づく評価は既に終えている場合に、学習データの追加があっても、音響モデル[基本]を生成・評価する必要は無く、追加学習データ分のみを評価すれば良い。
また、一部の学習データクラスタの学習データ量が多く学習時間が長くかかる場合であっても、その学習終了を待たずに、基本クラスタセット分だけ評価を終わらせておくことで、プロセス全体でかかる音響モデル作成時間を削減することができる。
さらに、基本クラスタセットから一部のクラスタ十分統計量を削除したり、新たな学習データクラスタ(学習データ)を追加したりすることができるので、予定している音声認識対象によって異なる評価用データに対しても柔軟に最適な音響モデルを作成することができる。
《第6実施形態》
本発明の第6実施形態について、図面を参照しながら説明する。
<第6実施形態の概要>
基本音響モデルの認識性能(C)と、基本クラスタセットから一部のクラスタ十分統計量を除外した残りのクラスタ十分統計量から合成した音響モデル〔部分音響モデルである。〕の認識性能(E)とを比較する。認識性能(E)の認識性能(C)に対する所定の評価結果の一例としてその認識性能の差(C−E)が閾値以上であればその除外したクラスタ十分統計量に対応する学習データクラスタは認識性能向上に寄与すると判断でき、最適化処理に用いる学習データクラスタとして選択することもできる(このような構成を「削除型」ということにする。)。
しかし、この場合は、基本音響モデルを第3.1実施形態(あるいは第3.2実施形態)における音響モデル[全選択]と同視することと同様である。
そこで、第6実施形態は、追加型と削除型の両構成を採用した構成とする。この場合、認識性能の差(D−C)に対する閾値と認識性能の差(C−E)に対する閾値とは異なってもよい。なお、削除型の場合について付言しておくと、上記閾値を0とした場合を考えれば明らかなように、認識性能(E)が認識性能(C)に比してそれ以下あるいはそれよりも小となる場合に、除外したクラスタ十分統計量に対応する学習データクラスタが認識性能向上に寄与すると判断することもできる。
この第6実施形態は、第3.1実施形態(あるいは第3.2実施形態)と第5実施形態の融合的形態であるから、図14および図15を参照し、第3.1実施形態(または第3.2実施形態)あるいは第5実施形態と異なる部分について概説する。
<第6実施形態の音響モデル作成装置>
第6実施形態の音響モデル作成装置は、第5実施形態の音響モデル作成装置と同様のハードウェア構成である。
そして、外部記憶装置(17)には、基本クラスタセット(114c−0)を構成するクラスタ十分統計量に対応する学習データクラスタも保存記憶されている。この学習データクラスタは、例えば第2実施形態におけるN個の学習データクラスタ(111−1)(111−2)・・・(111−N)として、これらN個の学習データクラスタで学習データクラスタセット(111d)を構成するとする。
<第6実施形態の音響モデル作成処理>
第5実施形態のステップS1cの処理に続きステップS2dの処理を実行する。なお、基本クラスタセット(114c−0)は、ベース音響モデル(112)を学習データクラスタセット(111d)で学習して得られたものであることに留意すること。つまり、基本クラスタセット(114c−0)は、クラスタ十分統計量(114−1)(114−2)・・・(114−N)で構成される。
モデル合成部(115d)は、音響モデル[基本](116c−0)、音響モデル[1追加](116c−1)、音響モデル[2追加](116c−2)、・・・、音響モデル[n追加](116c−n)に加えて、音響モデル[1無し](116b−1)、音響モデル[2無し](116b−2)、・・・、音響モデル[N無し](116b−N)を合成する(ステップS2d)。
続いて、モデル評価部(117d)は、N+n+1個の各音響モデル(116c−0)(116c−1)・・・(116c−n)(116b−1)(116b−2)・・・(116b−N)、評価用データ(118)および評価用言語モデル(119)をRAM(15)から読み込み、各音響モデルと評価用言語モデル(119)とを用いて評価用データ(118)に対する認識率を求め、これを各音響モデルの評価結果として算出する(ステップS3d)。
続いて、選択部(120d)は、N+n+1個の各音響モデル(116c−0)(116c−1)・・・(116c−n)(116b−1)(116b−2)・・・(116b−N)の評価結果のうち所定の評価結果を与えた音響モデルの作成において追加あるいは除外されたクラスタ十分統計量に対応する追加学習データクラスタあるいは学習データクラスタを選択する(ステップS4d)。
つまり、所定の評価結果を与えた音響モデルが、音響モデル(116c−1)・・・(116c−n)のいずれかであれば、その音響モデルの作成において追加されたクラスタ十分統計量に対応する追加学習データクラスタを選択し、所定の評価結果を与えた音響モデルが、音響モデル(116b−1)(116b−2)・・・(116b−N)のいずれかであれば、その音響モデルの作成において除外されたクラスタ十分統計量に対応する追加学習データクラスタを学習データクラスタセット(111d)から選択する。
ステップS4dの処理に続いてステップS5dの処理を実行する。最適化部(121d)は、選択された追加学習データクラスタあるいは学習データクラスタおよび音響モデル[基本](116c−0)に対して最適化処理を行って最適音響モデル(123)を出力する(ステップS5d)。
各種の実施形態を挙げたが、いずれも、評価用データを用いた評価によって学習データ等の選択を行い最適音響モデル作成を行うものであるから、タスクなどに応じた評価用データを用いることで当該タスクに特化した最適な音響モデルを作成できる。また、汎用的な音響モデルの基本性能を上げることを目的にする場合には、様々なタスクをバランス良く組み合わせて評価用データを設定すればよい。
また、認識性能の差に対する閾値によって学習データなどを選択する以外に、閾値だけでなく、学習データ量の大きさやクラスタ数の制限などの要素を加えても良い。さらに、認識性能の差の大きさが音声認識性能改善への寄与度と考えられるから、例えば選択された学習データクラスタに対して認識性能の差に応じた重み付けを行って最適音響モデルを合成するとしてもよく、この場合、最適音響モデルの性能向上が望める。
以上の各実施形態の他、本発明である音響モデル作成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音響モデル作成装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記音響モデル作成装置における処理機能をコンピュータによって実現する場合、音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音響モデル作成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
実際に、音素バランス文朗読音声、旅行対話音声、天気情報案内音声、ニュース音声、会議音声などの22クラスタの学習データ(624時間分)から、5クラスタの学習データ(82時間分)を選定し、従来手法のように学習データを全て用いた場合に比べ、学習時間を約1/7にするとともに、電話対応音声に対してベース音響モデルと比べ14.1%の誤り削減率(単語正解精度で61.0%から66.5%に改善した。)を実現した。
本発明は、音声認識―例えば、音声認識に基づく文字入力や対話システムの音声認識など―に用いる音響モデルの作成に有用である。
音響モデル作成装置のハードウェア構成例を示す図。 第1実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。 第1実施形態に係わる音響モデル作成処理の処理フローを示す図。 第2実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。 第2実施形態に係わる音響モデル作成処理の処理フローを示す図。 第3.1実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。 第3.1実施形態に係わる音響モデル作成処理の処理フローを示す図。 第3.2実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。 第3.2実施形態に係わる音響モデル作成処理の処理フローを示す図。 第4実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。 第4実施形態に係わる音響モデル作成処理の処理フローを示す図。 第5実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。 第5実施形態に係わる音響モデル作成処理の処理フローを示す図。 第6実施形態に係わる音響モデル作成装置の機能構成例を示すブロック図。 第6実施形態に係わる音響モデル作成処理の処理フローを示す図。 従来手法における音響モデル作成装置の機能構成例を示すブロック図。 従来手法における音響モデル作成処理の処理フローを示す図。
符号の説明
1 音響モデル作成装置
110 データ分類部
111、111a、111b 学習データ
111c 追加学習データ
111−1・・・111−N 学習データクラスタ
111c−1・・・111c−N 追加学習データクラスタ
112 ベース音響モデル
113、113c 学習部
114、114c 十分統計量
114−1・・・114−N クラスタ十分統計量
114c−1・・・114c−N クラスタ十分統計量
115、115b、115c モデル合成部
116、116b、116c 音響モデル
117、117b、117c モデル評価部
118 評価用データ
119 評価用言語モデル
120、120a、120b、120c 選択部
121、121b、121c 最適化部
123 最適音響モデル

Claims (22)

  1. 複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルとを記憶する記憶手段と、
    上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習手段と、
    上記各クラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成するモデル合成手段と、
    上記各音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価手段と、
    上記各評価結果のうち所定の評価結果を与えた音響モデルと、当該音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する選択手段と、
    上記選択された音響モデルおよび上記選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段と
    を備えた音響モデル作成装置。
  2. 上記モデル合成手段は、
    上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
    請求項に記載の選択手段を、
    全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段に代え、
    請求項に記載の最適化手段を、
    上記ベース音響モデルまたは上記全選択音響モデルと、上記選択された学習データ
    クラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
    請求項に記載の音響モデル作成装置。
  3. 請求項に記載の選択手段は、
    全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
    請求項に記載の音響モデル作成装置。
  4. 上記モデル合成手段は、
    上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
    請求項に記載の選択手段を、
    全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択する選択手段に代え、
    請求項に記載の最適化手段を、
    上記選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
    請求項に記載の音響モデル作成装置。
  5. 請求項に記載の選択手段は、
    全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択するものである請求項に記載の音響モデル作成装置。
  6. 入力された学習データを分類基準に従って複数の学習データクラスタに分割して出力するデータ分類手段を備え、
    上記記憶手段に記憶される各学習データクラスタは、上記データ分類手段によって出力されたものである
    請求項1から請求項のいずれかに記載の音響モデル作成装置。
  7. 1つまたは複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルと、基本的なクラスタ十分統計量のセット(以下、「基本クラスタセット」という。)とを記憶する記憶手段と、
    上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習手段と、
    上記基本クラスタセットから音響モデル(以下、「基本音響モデル」という。)を合成し、さらに、上記基本クラスタセットと学習手段によって算出された上記各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル(以下、「追加音響モデル」という。)をそれぞれ合成するモデル合成手段と、
    上記基本音響モデルおよび上記各追加音響モデルを、上記評価用データおよび上記
    評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価手段と、
    基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段と、
    上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段と
    を備えた音響モデル作成装置。
  8. 請求項に記載の選択手段は、
    基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
    請求項に記載の音響モデル作成装置。
  9. 記憶手段には、基本クラスタセットを構成するクラスタ十分統計量に対応する学習データクラスタも記憶しており、
    上記モデル合成手段は、
    上記基本音響モデルおよび上記各追加音響モデルを合成し、さらに、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分音響モデル」という。)をそれぞれ合成するものであり、
    上記モデル評価手段は、
    上記基本音響モデル、上記各追加音響モデルおよび上記各部分音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するものであり、
    請求項に記載の選択手段を、
    基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択手段に代え、
    請求項に記載の最適化手段を、
    上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化手段に代えた
    請求項に記載の音響モデル作成装置。
  10. 請求項に記載の選択手段は、
    基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ=γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
    請求項に記載の音響モデル作成装置。
  11. 記憶手段には、複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルとが記憶されており、
    上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習ステップと、
    学習ステップにおいて算出された各クラスタ十分統計量のうち1つあるいは複数の組み合わせから音響モデルを合成するモデル合成ステップと、
    モデル合成ステップにおいて合成された各音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価ステップと、
    モデル評価ステップにおいて出力された各評価結果のうち所定の評価結果を与えた音響モデルと、当該音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタとを選択する選択ステップと、
    選択ステップにおいて選択された音響モデルおよび選択された学習データクラスタを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップと
    を有する音響モデル作成方法。
  12. 上記モデル合成ステップは、
    上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
    請求項11に記載の選択ステップを、
    全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップに代え、
    請求項11に記載の最適化ステップを、
    上記ベース音響モデルまたは上記全選択音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
    請求項11に記載の音響モデル作成方法。
  13. 請求項12に記載の選択ステップは、
    全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以下あるいは評価結果αよりも小あるいは評価結果αから所定の値を減算した評価結果以下あるいは評価結果αから所定の値を減算した評価結果よりも小となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
    請求項12に記載の音響モデル作成方法。
  14. 上記モデル合成ステップは、
    上記各クラスタ十分統計量うち、全てのクラスタ十分統計量から音響モデル(以下、「全選択音響モデル」という。)を合成し、さらに、全てのクラスタ十分統計量から一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分選択音響モデル」という。)をそれぞれ合成するものであり、
    請求項11に記載の選択ステップを、
    全選択音響モデルの評価結果に対して所定の評価結果を与えた部分選択音響モデル
    の合成において除外されたクラスタ十分統計量を選択する選択ステップに代え、
    請求項11に記載の最適化ステップを、
    上記選択されたクラスタ十分統計量から音響モデルを合成して、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
    請求項11に記載の音響モデル作成方法。
  15. 請求項14に記載の選択ステップは、
    全選択音響モデルの評価結果(以下、「評価結果α」という。)に対して、評価結果α以上あるいは評価結果αよりも大あるいは評価結果αに所定の値を加算した評価結果以上あるいは評価結果αに所定の値を加算した評価結果よりも大となる評価結果を与えた部分選択音響モデルの合成において除外されたクラスタ十分統計量を選択するものである請求項14に記載の音響モデル作成方法。
  16. 入力された学習データを分類基準に従って複数の学習データクラスタに分割して出力するデータ分類ステップを有し、
    上記記憶手段に記憶される各学習データクラスタは、上記データ分類ステップにおいて出力されたものである
    請求項11から請求項15のいずれかに記載の音響モデル作成方法。
  17. 記憶手段には、1つまたは複数の学習データクラスタと、初期音響モデルであるベース音響モデルと、音響モデルの評価に用いるデータである評価用データと、音響モデルの評価に用いる言語モデルである評価用言語モデルと、基本的なクラスタ十分統計量のセット(以下、「基本クラスタセット」という。)とが記憶されており、
    上記各学習データクラスタそれぞれについて、上記ベース音響モデルおよび該学習データクラスタを用いて、該学習データクラスタに対応した十分統計量(以下、「クラスタ十分統計量」という。)を算出する学習ステップと、
    上記基本クラスタセットから音響モデル(以下、「基本音響モデル」という。)を合成し、さらに、上記基本クラスタセットと学習ステップにおいて算出された上記各クラスタ十分統計量のうち一部のクラスタ十分統計量とから音響モデル(以下、「追加音響モデル」という。)をそれぞれ合成するモデル合成ステップと、
    モデル合成ステップにおいて合成された基本音響モデルおよび各追加音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するモデル評価ステップと、
    基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップと、
    上記基本音響モデルまたは上記各評価結果のうち所定の評価結果を与えた追加音響モデルと、選択ステップにおいて選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップと
    を有する音響モデル作成方法。
  18. 請求項17に記載の選択ステップは、
    基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値を加算した評価結果以上あるいは評価結果βに所定の値を加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
    請求項17に記載の音響モデル作成方法。
  19. 記憶手段には、基本クラスタセットを構成するクラスタ十分統計量に対応する学習
    データクラスタも記憶しており、
    上記モデル合成ステップは、
    上記基本音響モデルおよび上記各追加音響モデルを合成し、さらに、基本クラスタセットから一部のクラスタ十分統計量を除いた残りのクラスタ十分統計量の組み合わせから音響モデル(以下、「部分音響モデル」という。)をそれぞれ合成するものであり、
    上記モデル評価ステップは、
    上記基本音響モデル、上記各追加音響モデルおよび上記各部分音響モデルを、上記評価用データおよび上記評価用言語モデルを用いて評価して、各音響モデルの評価結果を出力するものであり、
    請求項17に記載の選択ステップを、
    基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択する選択ステップに代え、
    請求項17に記載の最適化ステップを、
    上記基本音響モデルまたは基本音響モデルの評価結果に対して所定の評価結果を与えた追加音響モデルあるいは基本音響モデルの評価結果に対して所定の評価結果を与えた部分音響モデルと、上記選択された学習データクラスタとを用いて音響モデルを合成し、この音響モデルを最適音響モデルとして出力する最適化ステップに代えた
    請求項17に記載の音響モデル作成方法。
  20. 請求項19に記載の選択ステップは、
    基本音響モデルの評価結果(以下、「評価結果β」という。)に対して、評価結果β以上あるいは評価結果βよりも大あるいは評価結果βに所定の値γを加算した評価結果以上あるいは評価結果βに所定の値γを加算した評価結果よりも大となる評価結果を与えた追加音響モデルの合成に用いられたクラスタ十分統計量に対応する学習データクラスタ、および/または、基本音響モデルの評価結果βに対して、評価結果β以下あるいは評価結果βよりも小あるいは評価結果βから所定の値τ〔但し、τ=γの場合を含む。〕を減算した評価結果以下あるいは評価結果βから所定の値τを減算した評価結果よりも小となる評価結果を与えた部分音響モデルの合成において除外されたクラスタ十分統計量に対応する学習データクラスタを選択するものである
    請求項19に記載の音響モデル作成方法。
  21. コンピュータに請求項11から請求項20のいずれかに記載の音響モデル作成方法を実行させるための音響モデル作成プログラム。
  22. 請求項21に記載の音響モデル作成プログラムを記録したコンピュータに読み取り可能な記録媒体。
JP2006075374A 2006-03-17 2006-03-17 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体 Active JP4571922B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006075374A JP4571922B2 (ja) 2006-03-17 2006-03-17 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006075374A JP4571922B2 (ja) 2006-03-17 2006-03-17 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体

Publications (2)

Publication Number Publication Date
JP2007249051A JP2007249051A (ja) 2007-09-27
JP4571922B2 true JP4571922B2 (ja) 2010-10-27

Family

ID=38593385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006075374A Active JP4571922B2 (ja) 2006-03-17 2006-03-17 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体

Country Status (1)

Country Link
JP (1) JP4571922B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008069308A1 (ja) * 2006-12-08 2008-06-12 Nec Corporation 音声認識装置および音声認識方法
JP5229478B2 (ja) * 2008-12-25 2013-07-03 日本電気株式会社 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP6078402B2 (ja) * 2013-04-01 2017-02-08 日本電信電話株式会社 音声認識性能推定装置とその方法とプログラム
JP6586788B2 (ja) * 2014-11-20 2019-10-09 株式会社リコー 情報処理装置、情報処理方法、およびプログラム
JP7176285B2 (ja) * 2018-08-08 2022-11-22 株式会社デンソー 訓練データ評価装置、訓練データ評価方法、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234214A (ja) * 2004-02-19 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234214A (ja) * 2004-02-19 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2007249051A (ja) 2007-09-27

Similar Documents

Publication Publication Date Title
US11227603B2 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
JP4427530B2 (ja) 音声認識装置、プログラムおよび音声認識方法
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US20140114663A1 (en) Guided speaker adaptive speech synthesis system and method and computer program product
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
CN104835493A (zh) 语音合成字典生成装置和语音合成字典生成方法
JP4571922B2 (ja) 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN100565671C (zh) 声道谐振跟踪方法
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP4890518B2 (ja) 複数言語モデルによる統合音声認識装置
JP6676009B2 (ja) 話者判定装置、話者判定情報生成方法、プログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
Bernard et al. Shennong: A Python toolbox for audio speech features extraction
JP3525082B2 (ja) 統計モデル作成方法
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
Zhou et al. Learning and Modeling Unit Embeddings for Improving HMM-based Unit Selection Speech Synthesis.
JP5366050B2 (ja) 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4571922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350