JP2009128490A - 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 - Google Patents

学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2009128490A
JP2009128490A JP2007301625A JP2007301625A JP2009128490A JP 2009128490 A JP2009128490 A JP 2009128490A JP 2007301625 A JP2007301625 A JP 2007301625A JP 2007301625 A JP2007301625 A JP 2007301625A JP 2009128490 A JP2009128490 A JP 2009128490A
Authority
JP
Japan
Prior art keywords
learning data
acoustic model
adaptive
data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007301625A
Other languages
English (en)
Other versions
JP4829871B2 (ja
Inventor
Satoru Kobashigawa
哲 小橋川
Hirokazu Masataki
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007301625A priority Critical patent/JP4829871B2/ja
Publication of JP2009128490A publication Critical patent/JP2009128490A/ja
Application granted granted Critical
Publication of JP4829871B2 publication Critical patent/JP4829871B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】学習データの中から高い認識性能を実現する高精度な音響モデルの作成に有用な学習データを選択する。
【解決手段】ベース音響モデル141を、タスクに適応する学習データであるタスク適応学習データ120で学習してタスクに適応した適応音響モデル151を作成する。学習データ200の音声データに対して音声認識を行い、学習データ200のラベルから得られた文法161および適応音響モデル151を用いた音声認識の場合の認識スコア(適応認識スコア)と、文法161およびベース音響モデル141を用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める。学習データ200のうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択する。
【選択図】図1

Description

本発明は、音響モデルの作成に用いるデータ(学習データ)の選択およびこの学習データを用いて音響モデルを作成する技術に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model;以下「HMM」と表す。)によってモデル化して音響モデルを作成する手法は、認識性能が高く、現在の音声認識技術の主流となっている。
HMMに代表される音響モデルは、学習データから学習して蓄積した十分統計量を用いて生成される。近年では、学習データ量は膨大になり、500時間を越える学習データ量を擁する学習データが音響モデル作成に用いられるようになっている。
ところで、音響モデルの作成には、学習データ量に応じた学習時間を要する。近年、学習データ量の増加に伴い、音響モデル学習にかかる時間コストは膨大となっていた。また、学習データの中には、認識性能向上に寄与しない妨害データも存在し、この妨害データの存在によって認識性能が劣化してしまうことがあった。
そこで、特許文献1に開示される技術では、次のようにして高精度な音響モデルを作成している。ベース音響モデルと複数の学習データクラスタを用いて、各学習データクラスタに対応した十分統計量(クラスタ十分統計量)を得る。そして、各クラスタ十分統計量のうち一つまたは複数の組合せから音響モデルを作成して、各音響モデルを評価用データおよび評価用言語モデルを用いて評価する。各音響モデルの評価結果のうち所定の評価結果を与えた音響モデルを選択する。
特開2007−249051号公報
従来、予定している音声認識対象となる音声と音響的に近い音声(環境などの音声認識用途であるタスク、発話スタイル、話者等をメルクマールとする。)を一から収集するか、既存の音声データベースから人手で選定したりして、音響モデルの作成に用いる学習データ(具体例としては音声データと、この音声データに対応付けた音声単位カテゴリによるラベルである。)を得ていた。高精度音響モデルの作成のためにタスクに対応する膨大な学習データ量を一から収集することや、膨大な学習データ量を擁する音声データベースから予定している音声認識対象となる音声と音響的に近い音声を選定することには、大変な労力を伴う。
また、既述のとおり、音響モデルの作成には学習データ量に応じた学習時間を要するところ、学習データ量の増加に伴い、音響モデル学習にかかる時間コストは膨大となってしまう。また、学習データの中には、認識性能向上に寄与しない妨害データも存在し、この妨害データの存在によって認識性能が劣化してしまう。
上記特許文献1の技術では、その一局面において、膨大な学習データを細分化して複数の音響モデルを作成し、評価用データ等を用いたこれらの評価結果に基づいて高精度の音響モデルを得ていたが、複数の音響モデルを作成するものであるから、計算コストの負担が大きかった。
このような問題に鑑み、本発明は、学習データの中から高い認識性能を実現する高精度な音響モデルの作成に有用な学習データを選択する技術を提供する。また、短時間で高精度の音響モデルを作成する技術を提供する。
上記課題を解決するために、本発明は、音声データとこの音声データに対応付けられたラベルで構成される学習データから、次のようにして学習データの選択を行う。初期音響モデルであるベース音響モデルを、タスクに適応する学習データであるタスク適応学習データで学習してタスクに適応した音響モデル(適応音響モデル)を作成する。そして、音声データに対して音声認識を行い、学習データのラベルから得られた文法および適応音響モデルを用いた音声認識の場合の認識スコア(適応認識スコア)と、文法およびベース音響モデルを用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める。学習データのうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択する。
このように、適応認識スコアとベース認識スコアとの比較判定に合格する学習データを、タスクに相応しい学習データであると看做してこれを選択する。
また、上記課題を解決するために、本発明は、選択された学習データを用いて、初期音響モデルである基本音響モデルを学習して音響モデルを作成する。
また、本発明の学習データ選択装置としてコンピュータを機能させる学習データ選択プログラムによって、コンピュータを学習データ選択装置として作動処理させることができる。同様に、本発明の音響モデル作成装置としてコンピュータを機能させる音響モデル作成プログラムによって、コンピュータを音響モデル作成装置として作動処理させることができる。そして、このようなプログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体によって、他のコンピュータを学習データ選択装置、音響モデル作成装置として機能させることや、プログラムを流通させることなどが可能になる。
本発明によれば、適応音響モデルを用いた音声認識の場合の適応認識スコアと、ベース音響モデルを用いた音声認識の場合のベース認識スコアとを求めて、学習データのうち、適応認識スコアとベース認識スコアとの比較判定に合格するものを選択することから、高精度な音響モデルの作成に有用な学習データを選択することができる。また、選択された学習データのデータ量は、学習データそのもののデータ量よりも通常小さいため、このような選択された学習データで基本音響モデルを学習することで、高い認識性能を実現する高精度な音響モデルが短時間で得られる。
《第1実施形態》
図面を参照して、本発明の第1実施形態を説明する。
本発明の第1実施形態である学習データ選択装置1は、それ単体で独立に存在するよりは、選択された学習データを用いて音響モデルの作成を行う装置(本発明の第1実施形態である音響モデル作成装置2)を構成する構成要素として存在するのが実用的である。さらに云えば、学習データ選択装置1は、音響モデル作成装置2とは容易に分離可能に音響モデル作成装置2を構成する構成要素ではなく、音響モデル作成装置2自体を或る機能に着眼して片面的に評価したものと云うこともできる。要するに、学習データ選択装置1は、音響モデル作成装置2そのものであることが凡そ実用的である。
ただし、学習データ選択装置1が、単体独立の構成要素として存在すること、音響モデル作成装置2とは容易に分離可能に音響モデル作成装置2を構成する構成要素であることを排除する趣旨ではない。例えば学習データの選択自体を目的とするならば、学習データ選択装置1を単体独立の構成要素として実現することに何らの妨げは無い。
ここで音響モデル作成装置2は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現されるとし、単体独立の構成要素として学習データ選択装置1を実現する場合も同様である。
音響モデル作成装置2を単体単独の構成要素として、これをコンピュータ(汎用機)で実現する場合のハードウェア構成例を説明する。学習データ選択装置1は、音響モデル作成装置2を構成する構成要素とする。
<音響モデル作成装置2のハードウェア構成例>
音響モデル作成装置2は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)、ROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音響モデル作成装置2に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
音響モデル作成装置2の外部記憶装置には、音響モデル作成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
本実施形態では、記憶部の所定の記憶領域には、学習データ200がデータとして記憶されている。学習データ200は、音声認識などに用いる汎用の音声データベースに含まれる学習データである。この汎用音声データベースは、既存のものを用いることができ、例えば500時間を越えるデータ量を擁している。
また、記憶部の所定の記憶領域には、ベース学習データ100がデータとして記憶されている。ベース学習データ100は、初期音響モデルであるベース音響モデル141の作成に用いる学習データである。ベース学習データ100は、タスクに適応する学習データである必要はない。例えば、ベース学習モデル100は、学習データ200と同一であってもよいし、一から収集したものであってもよい。
さらに、記憶部の所定の記憶領域には、タスク適応学習データ120がデータとして記憶されている。タスク適応学習データ120は、音響モデルが用いられるタスクに適応した学習データであり、予め準備されているものとする。例えば、タスクが予め既知の場合、タスクにおける音声を一から収集しておくことや、既存の音声データベースからタスクに適応する学習データを選定しておくことで、タスク適応学習データ120を予め準備できる。また、タスクにおける音声を収集できない場合でも、収録環境、話者、発声内容、発話スタイルの少なくともいずれか一つを同じとして得た学習データをタスク適応学習データ120として採用すればよい(後述の実施例を参照のこと。)。
タスク適応学習データ120は、タスクによっては十分なデータ量が得られる保証がなく、学習データ200に比べてデータ量が少ないことが多い。本発明の学習データ選択技術では、後述するように、タスク適応学習データ120として相応しい学習データを学習データ200から選択することで選択学習データ131を得ることができるから、タスク適応学習データ120を選択学習データ131で増強することができる。この観点から、学習データ200には、タスクに近い音声データを含んでいることが望ましい。
ベース学習データ100、タスク適応学習データ120、学習データ200はそれぞれ、発話単位で、音声データ(肉声のアナログデータ)とこの音声データに対応付けられた音声単位カテゴリ(例えば音素、音節、半音節など)によるラベルから構成される。但し、このような構成に限定されるものではなく、例えば、音響分析結果とこの音響分析結果に対応付けた音声単位カテゴリによるラベルから構成するとしてもよいし、あるいは、ディジタル化された音声データとこの音声データに対応付けられた音声単位カテゴリによるラベルから構成されるとしてもよい。
音響モデル作成装置2の記憶部には、ベース音響モデル141を作成するためのプログラム、適応音響モデル151を作成するためのプログラム、学習データ200をディジタル化するためのプログラム、学習データ200から文法を生成するためのプログラム、音声認識を行うためのプログラム、音声認識結果に基づいて学習データを選択するためのプログラム、少なくとも選択された学習データを用いて音響モデルを作成するためのプログラムが記憶されている。
音響モデル作成装置2では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(ベース音響モデル作成部、適応音響モデル作成部、ディジタル化部、文法生成部、音声認識部、学習データ選択部、音響モデル作成部)を実現することで学習データの選択並びに音響モデルの作成が実現される。なお、ベース音響モデル作成部、文法生成部は、音響モデル作成装置2の必須の構成要素ではない。また、第1実施形態の学習データ選択装置1は、ベース音響モデル作成部、適応音響モデル作成部、ディジタル化部、文法生成部、音声認識部、学習データ選択部を含んで構成されるが、ベース音響モデル作成部、文法生成部は、学習データ選択装置1の必須の構成要素ではない。
次に、第1実施形態として、図1および図2を参照しながら、学習データ選択装置1による学習データ選択処理を含む音響モデル作成装置2による音響モデル作成処理の流れを叙述的に説明する。
まず、文法生成部16が、学習データ200に含まれるラベルを用いて文法161を生成する(ステップS1)。文法161は、例えばラベル中の単語間にショートポーズを許すような文法として作成する。なお、文法161を生成する処理は必須ではなく、予め用意した記述文法を文法161として用いることもできる。
次に、ベース音響モデル作成部14が、ベース学習データ100を用いて、ベース音響モデル141を作成する(ステップS2)。ベース音響モデル141は、ベース学習データ100の音声データに対して、例えば書き起こしテキストの発音形(カナ)に対応する音素をラベリングしてモノフォンラベルを作成し(強制的にショートポーズを入れてアライメントを行うとする。)、3状態left-to-right型HMM構造で作成した確率モデルなどである。ベース音響モデル141を作成する処理は必須ではなく、予め用意した未学習の音響モデルをベース音響モデル141として用いることもできる。
次に、適応音響モデル作成部15が、ベース音響モデル141をタスク適応学習データ120で学習して音響モデル(適応音響モデル151)を作成する(ステップS3)。
次に、ディジタル化部11が、発話単位で、学習データ200に含まれる音声データをディジタル音声信号に変換する(ステップS4)。このディジタル化は、周知のA/D変換などを適用して行う。このディジタル音声信号は音声認識部12の入力となる。なお、学習データ200に含まれる音声データがディジタル音声信号である場合、この処理は不要である。
次に、音声認識部12が、ディジタル音声信号、文法161、ベース音響モデル141および適応音響モデル151を入力として、発話単位で音声認識を行い、文法161およびベース音響モデル141を用いた音声認識に拠るディジタル音声信号に対する認識スコア(ベース認識スコア)と、文法161および適応音響モデル151を用いた音声認識に拠るディジタル音声信号に対する認識スコア(適応認識スコア)とを求める(ステップS5)。各認識スコアの算出方法は周知のものに拠ればよい。
次に、学習データ選択部13が、適応認識スコアとベース認識スコアとの比較判定を行い、学習データ200の中から前記判定に合格した(通常は一部の)学習データを選択学習データ131として選択する(ステップS6)。例えば、ベース認識スコア以上の適応認識スコアとなった発話に対応する音声データとこれに対応するラベルからなる学習データを選択学習データ131として選択する。つまり、選択学習データ131は、学習データ200の部分集合である。
続いて、音響モデル作成部17が、ベース音響モデル141を選択学習データ131で学習して音響モデル171を作成する(ステップS7)。
適応音響モデル151、音響モデル171の各音響モデルの作成について補足説明する。この補足説明のモデル作成部を適応音響モデル作成部15、音響モデル作成部17に読み替え、この補足説明の学習データをタスク適応学習データ120、選択学習データ131に読み替えることで、各処理の理解が得られる。
モデル作成部は、ベース音響モデル141および学習データを用いて十分統計量を算出する。
モデル作成部による学習の一例は、学習データを構成するラベル対応の音声データの音響分析を行い、この音響分析結果をHMMの状態からの出力信号系列と見立てて、Baum-Welchアルゴリズムによって、音声単位カテゴリ毎に(ベース音響モデル141が与えられた下での)HMMの最尤パラメータを求めるための統計量を算出するものである。この統計量が、十分統計量である。
十分統計量とは、HMMを特徴付けるパラメータであり、具体例を説明する。ラベル対応の音声データの音響特徴量と音声単位カテゴリとの関係を与える確率分布を混合正規分布で表した場合、この混合正規分布は、1個あるいは複数の多次元正規分布を混合した確率分布である。ここでの多次元正規分布は、一般的に第i次元ケプストラム〔LPCケプストラム、MFCC(メル周波数ケプストラム係数)なども含む。以下同様。〕、第i次元Δケプストラム(ケプストラム係数の1次差分)、第i次元ΔΔケプストラム(Δケプストラム係数の1次差分)などのケプストラム係数および対数パワー、Δ対数パワー(対数パワーの1次差分)、ΔΔ対数パワー(Δ対数パワーの1次差分)の各正規分布で構成され、各正規分布は、平均と分散によって特徴付けられる。また、混合正規分布は、一般的に各多次元正規分布に重み付けして混合することで得られる。ここで挙げた各多次元正規分布の平均、分散や混合重み、状態遷移確率を計算するための統計量が十分統計量である。
モデル作成部は、十分統計量から音響モデルを合成する。十分統計量から音響モデルを合成する方法は参考文献に詳しい。
(参考文献)Lawrence Rabiner, Biing-Hwang Juang 共著、古井貞熙監訳、"音声認識の基礎(下)"、NTTアドバンステクノロジ、1995
≪第2実施形態≫
第2実施形態は、選択学習データ131の選択に関する変形例である。第2実施形態は、第1実施形態のステップS6の処理を、学習データ選択部13が、学習データ200のうち、適応認識スコアからベース認識スコアを減じて得られるスコア(差分認識スコア)が、予め定められた閾値以上となる発話に対応する音声データとこれに対応するラベルからなる学習データを選択学習データ131として選択する処理(ステップS6a)に変更した実施形態である(図3参照)。第1実施形態の例は、閾値が0の場合である。閾値は負の値としてもよい。ここで述べた変更以外は、第1実施形態と同じである。
閾値の値が大きく設定されていると、選択学習データ131として、タスク適応学習データ120に近い発話に対応する音声データとこれに対応するラベルからなる学習データを選択することができる。他方、閾値の値が(負の場合も含めて)小さく設定されていると、必ずしもタスクに特化したものではないが、選択学習データ131のデータ量を増やすことができる。
≪第3実施形態≫
第3実施形態は、音響モデル171の作成に関する変形例である。第3実施形態は、第1実施形態のステップS7の処理を、音響モデル作成部17が、選択学習データ131に基本学習データ101を併せたものを学習データとして、この学習データでベース音響モデル141を学習して音響モデル171を作成する処理(ステップS7a)に変更した実施形態である(図4参照)。ここで基本学習データ101として、ベース学習データ100、または、タスク適応学習データ120、または、ベース学習データ100とタスク適応学習データ120とを併せたものを採用できる。この変更以外は、第1実施形態と同じである。また、図示していないが、この第3実施形態は第2実施形態に適用できる。
選択学習データ131だけでなくタスク適応学習データ120も学習データに用いることで、タスクに特化しつつ、十分なデータ量の学習データで学習された音響モデル171を得ることができる。また、選択学習データ131だけでなくベース学習データ100も学習データに用いることで、必ずしもタスクに特化したものではないが、十分なデータ量の学習データで学習された音響モデル171を得ることができる。
≪補記≫
第1実施形態において、学習データ選択処理のみを行う場合には、ステップS7の処理を省略できる。この場合であっても、ステップS1およびS2の各処理は必須のものではない。このことは第2実施形態でも同様である。また、第3実施形態では、学習データ選択処理のみを行う場合には、ステップS7aの処理を省略できる。この場合でも、ステップS1およびS2の各処理は必須のものではない。
学習データ選択装置1と音響モデル作成装置2を各別の装置として構成する場合などでは、学習データ選択装置1の学習データ選択部13が出力した選択学習データ131を(例えば記録媒体33を介して)音響モデル作成装置2の記憶部に記憶し、音響モデル作成部17がこの記憶された選択学習データ131で基本音響モデル142を学習して音響モデル171を得ることができる(図5参照)。この場合、音響モデル作成装置2が用いる基本音響モデル142は、学習データ選択装置1で用いられたベース音響モデル141と同じであることが好適であるが、必ずしも同一のベース音響モデルを用いる必要はない。
また、第3実施形態のように、音響モデル作成装置2の記憶部に記憶された選択学習データ131に基本学習データ101を併せたものを学習データとして、音響モデル作成部17がこの学習データで基本音響モデル142を学習して音響モデル171を得ることができる(図5参照)。この場合には、基本学習データ101は、学習データ選択装置1で用いられたベース学習データ100、または、タスク適応学習データ120、または、ベース学習データ100とタスク適応学習データ120とを併せたものと同じであることが好適であるが、必ずしも同一のものを用いる必要はない。
以上の実施形態の他、本発明である学習データ選択装置・方法、音響モデル作成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、各実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記学習データ選択装置/音響モデル作成装置における処理機能をコンピュータによって実現する場合、学習データ選択装置/音響モデル作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記学習データ選択装置/音響モデル作成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、学習データ選択装置/音響モデル作成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
データ量が458.36時間の学習データ200から、本発明により、データ量が2.36時間の選択学習データ131が選択された。データ量が13.58時間のベース学習データ100で得られたベース音響モデル141を用いた場合の認識率は78.37%、認識精度は74.49%であったが、データ量が13.58時間のベース学習データ100にデータ量が2.36時間の選択学習データ131を併せたものを学習データ(データ量は15.94時間)としてベース音響モデル141を学習して得られた音響モデル171を用いた場合の認識率は79.10%、認識精度は75.33%であり、いずれも改善した。
また、タスク適応学習データ120とは異なるが、タスク適応学習データと同じ発話スタイルである自由発話音声を認識対象とした場合では、音響モデル171を用いた場合の認識率は67.60%、認識精度は66.10%であった。これに対して、ベース音響モデル141を用いた場合の認識率は67.43%、認識精度は65.81%であった。このように、タスク適応学習データ120とは異なるが、同じ発話スタイルの音声を認識対象とした場合に音響モデル171を用いても、この認識率および認識精度はベース音響モデル141のそれに比して良好である結果を示した。
本発明は、音声認識―例えば、音声認識に基づく文字入力や対話システムの音声認識など―に用いる音響モデルの作成に有用である。
第1実施形態に係わる学習データ選択装置・音響モデル作成装置の機能構成例を示すブロック図。 第1実施形態に係わる学習データ選択処理・音響モデル作成処理の処理フローを示す図。 第2実施形態に係わる学習データ選択処理・音響モデル作成処理の処理フローを示す図。 第3実施形態に係わる学習データ選択処理・音響モデル作成処理の処理フローを示す図。 学習データ選択装置と音響モデル作成装置を各別の装置とした場合の機能構成例を示すブロック図。
符号の説明
1 学習データ選択装置
2 音響モデル作成装置
12 音声認識部
13 学習データ選択部
15 適応音響モデル作成部
17 音響モデル作成部
131 選択学習データ
141 ベース音響モデル
151 適応音響モデル
161 文法
171 音響モデル
200 学習データ

Claims (10)

  1. 初期音響モデルであるベース音響モデルと、音声データとこの音声データに対応付けられたラベルで構成される学習データと、この学習データのラベルから得られた文法と、タスクに適応する学習データ(タスク適応学習データ)とを記憶する記憶手段と、
    上記ベース音響モデルを上記タスク適応学習データで学習して上記タスクに適応した音響モデル(適応音響モデル)を作成する適応音響モデル作成手段と、
    上記音声データに対して音声認識を行い、上記文法および上記適応音響モデルを用いた音声認識の場合の認識スコア(適応認識スコア)と、上記文法および上記ベース音響モデルを用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める音声認識手段と、
    上記学習データのうち、上記適応認識スコアと上記ベース認識スコアとの比較判定に合格するものを選択する学習データ選択手段と
    を備える学習データ選択装置。
  2. 上記学習データ選択手段は、
    上記適応認識スコアから上記ベース認識スコアを減じて得られるスコア(差分認識スコア)が、予め定められた閾値以上となるものを選択する
    ことを特徴とする請求項1に記載の学習データ選択装置。
  3. 記憶手段には、初期音響モデルであるベース音響モデルと、音声データとこの音声データに対応付けられたラベルで構成される学習データと、この学習データのラベルから得られた文法と、タスクに適応する学習データ(タスク適応学習データ)とが記憶されており、
    上記ベース音響モデルを上記タスク適応学習データで学習して上記タスクに適応した音響モデル(適応音響モデル)を作成する適応音響モデル作成ステップと、
    上記音声データに対して音声認識を行い、上記文法および上記適応音響モデルを用いた音声認識の場合の認識スコア(適応認識スコア)と、上記文法および上記ベース音響モデルを用いた音声認識の場合の認識スコア(ベース認識スコア)とを求める音声認識ステップと、
    上記学習データのうち、上記適応認識スコアと上記ベース認識スコアとの比較判定に合格するものを選択する学習データ選択ステップと
    を有する学習データ選択方法。
  4. 初期音響モデルである基本音響モデルと、請求項1または請求項2に記載の学習データ選択装置によって選択された学習データ(選択学習データ)とを記憶する記憶手段と、
    上記選択学習データを用いて上記基本音響モデルを学習して音響モデルを作成する音響モデル作成手段と
    を備えた音響モデル作成装置。
  5. 上記記憶手段には、上記選択学習データと異なる学習データ(基本学習データ)も記憶されており、
    上記音響モデル作成手段は、上記基本学習データと上記選択学習データとを併せたものを学習データとして、この学習データで上記基本音響モデルを学習して音響モデルを作成する
    ことを特徴とする請求項4に記載の音響モデル作成装置。
  6. 記憶手段には、初期音響モデルである基本音響モデルと、請求項3に記載の学習データ選択方法によって選択された学習データ(選択学習データ)とが記憶されており、
    上記選択学習データを用いて上記基本音響モデルを学習して音響モデルを作成する音響モデル作成ステップ
    を有する音響モデル作成方法。
  7. 請求項1または請求項2に記載された学習データ選択装置としてコンピュータを機能させるためのプログラム。
  8. 請求項7に記載のプログラムを記録したコンピュータに読み取り可能な記録媒体。
  9. 請求項4または請求項5に記載された音響モデル作成装置としてコンピュータを機能させるためのプログラム。
  10. 請求項9に記載のプログラムを記録したコンピュータに読み取り可能な記録媒体。
JP2007301625A 2007-11-21 2007-11-21 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 Expired - Fee Related JP4829871B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007301625A JP4829871B2 (ja) 2007-11-21 2007-11-21 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007301625A JP4829871B2 (ja) 2007-11-21 2007-11-21 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2009128490A true JP2009128490A (ja) 2009-06-11
JP4829871B2 JP4829871B2 (ja) 2011-12-07

Family

ID=40819504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007301625A Expired - Fee Related JP4829871B2 (ja) 2007-11-21 2007-11-21 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4829871B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002494A (ja) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムと記録媒体
JP2011013543A (ja) * 2009-07-03 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013214016A (ja) * 2012-04-04 2013-10-17 Nippon Telegr & Teleph Corp <Ntt> 音響モデル性能評価装置とその方法とプログラム
JP2016177233A (ja) * 2015-03-23 2016-10-06 日本電信電話株式会社 学習データ生成装置、方法及びプログラム
JP2020024633A (ja) * 2018-08-08 2020-02-13 株式会社デンソー 訓練データ評価装置、訓練データ評価方法、およびプログラム
CN112466294A (zh) * 2020-11-24 2021-03-09 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259169A (ja) * 1999-03-04 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置およびその記録媒体
JP2001083986A (ja) * 1999-09-16 2001-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計モデル作成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259169A (ja) * 1999-03-04 2000-09-22 Nippon Hoso Kyokai <Nhk> 音声認識装置およびその記録媒体
JP2001083986A (ja) * 1999-09-16 2001-03-30 Nippon Telegr & Teleph Corp <Ntt> 統計モデル作成方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002494A (ja) * 2009-06-16 2011-01-06 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラムと記録媒体
JP2011013543A (ja) * 2009-07-03 2011-01-20 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2013214016A (ja) * 2012-04-04 2013-10-17 Nippon Telegr & Teleph Corp <Ntt> 音響モデル性能評価装置とその方法とプログラム
JP2016177233A (ja) * 2015-03-23 2016-10-06 日本電信電話株式会社 学習データ生成装置、方法及びプログラム
JP2020024633A (ja) * 2018-08-08 2020-02-13 株式会社デンソー 訓練データ評価装置、訓練データ評価方法、およびプログラム
JP7176285B2 (ja) 2018-08-08 2022-11-22 株式会社デンソー 訓練データ評価装置、訓練データ評価方法、およびプログラム
CN112466294A (zh) * 2020-11-24 2021-03-09 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备
CN112466294B (zh) * 2020-11-24 2021-12-14 北京百度网讯科技有限公司 声学模型的生成方法、装置及电子设备

Also Published As

Publication number Publication date
JP4829871B2 (ja) 2011-12-07

Similar Documents

Publication Publication Date Title
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP2010152751A (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
CN112750446A (zh) 语音转换方法、装置和系统及存储介质
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4571922B2 (ja) 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
Bernard et al. Shennong: A Python toolbox for audio speech features extraction
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP5840075B2 (ja) 音声波形データベース生成装置、方法、プログラム
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
JP2007249050A (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140922

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4829871

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees