JP2005196020A

JP2005196020A - 音声処理装置と方法並びにプログラム

Info

Publication number: JP2005196020A
Application number: JP2004003893A
Authority: JP
Inventors: Seiichi Miki; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-01-09
Filing date: 2004-01-09
Publication date: 2005-07-21

Abstract

【課題】
特定の音響環境向けに構成された音声認識装置を異なる音響環境で用いる場合、該音響環境に適した音響モデルを作成するために、新しい音響環境の音声を多く集めることを要しなくする装置及び方法並びにプログラムの提供。
【解決手段】
一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部１００と、前記既存の学習用音声データと同じ音響環境の音声データ、及び該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部１１０と、同時録音音声データ対記憶部１１０に記憶されている音声データ対から２つの音響環境間の写像を求める写像生成部１２０と、前記既存の学習用音声データを、前記写像生成部１２０で得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する新音響環境学習データ生成部１３０と、新音響環境学習データ生成部１３０で得られた学習用音声データを記憶する新音響環境学習データ記憶部１４０とを備える。
【選択図】
図１

Description

本発明は、音声認識技術に関し、特に、ある音響環境向けに構成された音声認識装置を、該音響環境と異なる新しい音響環境で用いる場合、該新しい音響環境に適した音響モデルおよびその学習用音声の生成を行う装置及び方法並びにプログラムと音声認識装置に関する。

音声認識では、入力された音声と単語、音節、音素といったシンボルと関連付けるための音響モデルが用いられる。音響モデルは、一般に多量の学習用音声を用いて学習して得られる。

従来の音声認識システムにおける音響モデル作成の一例が、後記非特許文献１に記載されている。従来、特定の音響環境向けに構成された音声認識装置を異なる音響環境で用いる場合、新しい音響環境の音声を学習用音声として収集し、後記非特許文献１に記載されている方法で音響モデルを学習し直したり、モデル適応を行ったりする必要があった。

しかしながら、このような従来の手法では、新しい音響環境の学習用音声を比較的多く集め直す必要がある。

また、音響モデルを環境適応させる技術も知られているが、これらは、多くの場合、異なる環境の異なる音声を用いるため、その適応は不十分である。

安藤彰男著「リアルタイム音声認識」電子情報通信学会、２００３年９月１日、ｐｐ.７２−８６、ｐｐ.９０−１１４、ｐｐ.１１４−１２０

上記したように、特定の音響環境向けに構成された音声認識装置を異なる音響環境で用いる場合、従来の方法では、新しい音響環境に適した音響モデルを作成するために、新しい音響環境の音声を比較的多く集める必要がある。

また、音響モデルを環境適応させる技術を用いる場合、異なる環境の異なる音声を用いているため、その適応が不十分である。

したがって、本発明の目的は、一の音響環境向けに構成された音声認識装置を他の音響環境で用いる場合に、該他の音響環境に適した音響モデルを作成するために、該他の音響環境の音声を多く集めることを要しなくする装置及び方法並びにプログラムを提供することにある。

また、本発明の目的は、既に利用可能な音響環境の大量の学習用音声データを有効に利用することで、精度の高い音響モデルを作成可能とする装置及び方法並びにプログラムを提供することにある。

本願で開示される発明は、前記目的を達成するため、一の音響環境と新しい音響環境の両方の音響環境で同時に録音された少量の同時録音音声データ対を用いて、新しい音響環境に適した音響モデルおよび学習用音声データを作成し、作成した学習用音声データを用いて音声認識を行うものである。本発明の１つのアスペクトに係る音声処理装置は、一の音響環境向けに構成されている音声認識装置において、一の音響環境の音声データと、他の音響環境の音声データを同時に録音した同時録音音声データ対を記憶する記憶部と、該同時録音音声データ対から、２つの音響環境間の写像を生成する写像生成部とを備え、得られた写像を用いて、前記一の音響環境の既存の学習用音声データ又は音響モデルを、前記他の音響環境向けに変換する構成とされる。

本発明の１つのアスペクトに係る音声処理装置は、一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める写像生成部と、前記既存の学習用音声データを、前記写像生成部で得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する新音響環境学習データ生成部と、前記新音響環境学習データ生成部で得られた学習用音声データを記憶する新音響環境学習データ記憶部と、を備えている。

本発明の他のアスペクトに係る音声処理装置は、一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、前記既存音響モデルと同じ音響環境の音声および該音声と同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、同時録音音声データ対から、音響環境間の写像を求める写像生成部と、既存音響モデルを、前記写像生成部で得られた写像を用いて変換する新音響環境音響モデル生成部と、新音響環境音響モデル生成部で得られた、前記他の音響環境に適した音響モデルを記憶する新音響環境音響モデル記憶部と、を備えている。

本発明のさらに別のアスペクトに係る音声認識装置は、一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境（新しい音響環境）の音声の対を記憶する同時録音音声データ対記憶部と、認識対象の音声を入力する音声入力部と、同時録音音声データ対から、両音響環境間の写像を求める写像生成部と、新しい音響環境での入力音声を、前記写像生成部で得られた写像を用いて変換する入力音声変換部と、前記入力音声変換部で得られた入力音声を、前記既存音響モデル記憶部に記憶されている既存の音響モデルを用いて認識を行う認識部と、を備えている。

本発明のさらに別のアスペクトに係る装置は、一の環境で取得された既存のデータ又はモデルを記憶する第１の記憶部と、既存のデータと同じ環境のデータ、および該データと同期して取得された他の環境のデータの対を記憶する第２の記憶部と、前記第２の記憶部に記憶されているデータ対から、前記一の環境と前記他の環境の２つの環境間の写像を求める写像生成部と、前記第１の記憶部に記憶されている既存のデータ又はモデルを、前記写像生成部で得られた写像を用いて変換し、前記他の環境向けのデータ又はモデルを生成するデータ／モデル生成部と、を備えている。前記データは、音声信号のほか、画像信号であってもよい。

本発明の他のアスペクトに係る方法は、一の音響環境で収録された既存学習用音声データを記憶する既存学習データ記憶部に記憶される学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める第１のステップと、
前記既存学習データ記憶部に記憶される既存学習用音声データを、前記第１のステップで前記得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する第２のステップと、
前記第２のステップで生成された前記学習用音声データを新音響環境学習データ記憶部に記憶する第３のステップと、
を含む。

本発明の他のアスペクトに係るプログラムは、一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、前記他の音響環境向けの学習用音声データを記憶する新音響環境学習データ記憶部と、を有する音声処理装置を構成するコンピュータに、
（ａ）前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める第１の処理と、
（ｂ）前記既存学習データ記憶部に記憶される既存学習用音声データを、前記得られた写像を用いて変換し、他の音響環境向けの学習用音声データを生成する第２の処理と、
（ｃ）前記生成された学習用音声データを、前記新音響環境学習データ記憶部に記憶する第３の処理と、を実行させるプログラム（コンピュータ・プログラム）よりなる。該プログラムは、コンピュータで読み出し可能な任意の記録媒体に記憶され、またコンピュータに接続される通信網等の媒体を介して伝送され、コンピュータの主記憶等にロードされて実行される。

本発明によれば、２つの音響環境で同時に録音された少量の同時録音音声データ対を用いて新しい音響環境に適した音響モデルを生成することができる。その理由は、両方の音響環境で同時に録音された少量の同時録音音声対から高精度な写像を求め、それを用いて、利用可能な現在の音響環境の音響モデルまたは学習用音声に適用することで、新しい音響環境の音響モデルまたは学習用音声を得ることができるためである。既に使用可能な学習用音声が大量にある場合には、より高い効果が期待される。

本発明によれば、比較的少数の同時録音音声対から高精度な写像を得、利用可能な音響モデルおよび学習用音声を変換することにより、精度の高い音響モデルを作成することができる。また、本発明によれば、利用可能な学習用音声が大量にある場合、より良い音響モデルを作成することができる。

本発明についてさらに詳細に説述するため添付図面を参照して説明する。図１は、本発明の第１の実施の形態の構成を示す図である。図１を参照すると、本発明の第１の実施の形態は、既存学習用音声データを記憶する記憶部（「既存学習データ記憶部」という）１００と、同時録音音声データ対を記憶する記憶部（「同時録音音声データ対記憶部」という）１１０と、写像生成部１２０と、新音響環境向けの学習用音声データを生成する新音響環境学習データ生成部１３０と、新音響環境向けの学習用音声データを記憶する記憶部（「新音響環境学習データ記憶部」という）１４０とを備えている。これらは、それぞれ概略つぎのように動作する。

既存学習データ記憶部１００は、特定の音響環境で収録された、現在利用可能な学習用音声データを記憶する。

同時録音音声データ対記憶部１１０は、既存学習データ記憶部１００に記憶されている学習用音声データと同じ音響環境の音声データと、それと同時に録音された新しい音響環境の音声データとをデータ対（「同時録音音声データ対」という）として記憶する。

写像生成部１２０は、同時録音音声データ対記憶部１１０に記憶されている同時録音音声データ対から、特定の音響環境と新しい音響環境の両音声環境間の写像を求める。

新音響環境学習データ生成部１３０は、写像生成部１２０により得られた写像を用いて、既存学習データ記憶部１００に記憶されている学習用音声データを変換し、新しい音響環境向けの学習用音声データを生成する。

新音響環境学習デ−タ記憶部１４０は、新音響環境学習データ生成部１３０で生成された学習用音声データを記憶する。

新音響環境学習デ−タ記憶部１４０に記憶された学習用音声データを用いて、新しい音響モデルを作成し、該音響モデルを用いて、音声認識を行う音声認識装置は、公知の任意の構成が用いられる。

本実施の形態では、音声を対象とした例を挙げているが、本質的には、異なる環境の、同期のとれるデ一夕が得られる任意の構成に対して、本発明の手法を適用することができる。例えば、データとして画像信号を用いた画像認識装置において、顔（物体）等の画像認識に際して、右側画像で学習されたモデルがある場合に、左側画像で認識したい場合には、少数の右側画像と左側画像の対があれば、本発明を適用できる。

以下では、図１に示した本発明の第１の実施の形態の装置について、具体的な実施例に即して詳細に説明する。

まず、図１の既存学習データ記憶部１００に記憶されている学習用音声データについて説明する。学習用音声データは、特定音響環境で得られた音声信号を、マイクロフォンにより電気信号に変換し、該電気信号を、不図示のＡ／Ｄ変換器等でサンプルしデジタル信号として離散化した波形データ、波形データをフーリエ変換等により分析して得られるスペクトルデータや、スペクトルデータから特徴抽出して得られる特徴ベクトル等の形式で記憶される。既存学習データ記憶部１００には、音響モデルを学習するのに十分な量の学習用音声データが記憶されている。

次に、図１の同時録音音声データ対記憶部１１０に記憶されている同時録音音声データ対について説明する。既存学習データ記憶部１００に記憶されている学習用音声と同じ音響環境の音声と、それと同時に録音された、異なる音響環境の音声が記憶される。例えば、学習用音声がマイクロフォンにより収録された音声信号であり、認識対象とする新しい音響環境の音声信号が電話音声（受話器で受信した音声）であれば、一つの発声を、マイクロフォンと電話で同時に収録することにより、同時録音音声対が得られる。同時録音音声対は、例えば、上記した学習用音声と同様の形式（例えば波形データ、スペクトルデータ、特徴ベクトル等）で記憶されるが、これら２つの形式は、異なっていてもよい。

次に、図１の写像生成部１２０について詳細に説明する。写像生成部１２０は、同時録音音声データ対記憶部１１０に記憶されている同時録音音声データ対を用いて、２つの音響環境間の写像を求める。求められた写像は、既存学習データ記憶部１００に記憶されている学習用音声データを変換するために用いられる。

写像の精度を向上させるために、好ましくは、学習用音声および同時録音音声対のうち、学習用音声と同じ音響環境の音声をクラスタリングし、各クラス毎に異なる写像を用いる。更に、決定的なクラスタリングではなく、非決定的なクラスタリングを用いることがより望ましい。これは、非決定的なクラスタリングの方が、より良好に、音声の性質を表現できるからである。

非決定的なクラスタリングは、ＨＭＭ（Hidden Markov Model）やＧＭＭ（Gaussian Mixture Model）等の確率的なモデルを用いることで、可能である。このとき、決定的なクラスタリングは、例えば最大の重みを与えるクラスの重みを１とし、残りのクラスは重みを０にすることで包含される。これらの確率的なモデルは、既に利用可能な現在の音響環境の学習用音声データを用いて作成できる。また、ＧＭＭのように小さなモデルを用いる場合には、少量の学習音声でも十分である。

本発明の一実施例として、同時録音音声データ対および学習用音声データが特徴ベクトルで表現されている場合について、以下に詳細に説明する。

本実施例では、一例として、同時録音音声対の２つの音響環境の音声間で差を小さくするために、以下の二乗誤差Ｄを最小にするような写像ｆを求める。

ここで、
ｔは、時刻（１〜Ｔ）、
ｘ_ｔは、時刻ｔにおける同時録音音声データ対のうち、学習用音声データと同じ音響環境の音声データの値、
ｙ_ｔは、新しい音響環境の音声データの値、
ｍ（１〜Ｍ）は、クラス、
ｆは、ｘ_ｔに対する写像を表し、ｃ_ｍｋはそのパラメタ（ｋ＝１〜Ｋ）、
ｐ（クラスｍ｜ｘ_ｔ）はデータｘ_ｔに対するクラスｍの事後確率、
である。

写像として、線形写像の一つであるｆ＝ｘ＋Δを用いるものとする。上記二乗誤差Ｄを最小にするΔを求めるために、上記二乗誤差ＤをΔについて偏微分し、その式が０になることを用いて、以下のパラメタが、この基準を満たす。

ここで、Δは、求めたいクラスｍ毎のパラメタΔ_ｍを１からｍまで並べたものである。

δは、同時録音音声データ対の差分（ｙ_ｔ−ｘ_ｔ）を、クラスｍの事後確率ｐ（クラスｍ｜ｘ_ｔ）で重み付けして、全時刻ｔ＝１〜Ｔで総和をとった値を１からｍまで並べたものである。

Γは、ｉ行ｊ列要素がクラスｉとクラスｊの事後確率の積の全時刻の総和となっている（対称）行列である。

非決定的なクラスタリングに、Ｍ混合ＧＭＭを用いる場合、事後確率は、次のように計算できる。

ここで、ｃ_ｋは、ｋ番目のガウス分布の重み係数、ｐ（ｘ_ｔ｜クラスｋ）は、ｋ番目のガウス分布により得られるｘ_ｔの条件付確率である。

変形例として、同時録音音声データ対の差分（ｙ_ｔ−ｘ_ｔ）を平均化したものを、写像のパラメタとして用いるようにしてもよい。

さらに別の変形例として、同時録音音声データ対の差分を用いる代わりに、一方を、ＧＭＭ等の統計的モデルの平均にした差分を用いてもよい。

また別の変形例として、時刻ｔについて総和の代わりに、平均値を用いてもよい。

別の変形例として、事前に、音声と非音声（主に無音）に分けてそれぞれについて、または一方のみ写像を求めてもよい。

さらに別の変形例として、複数の話者のそれぞれについて、同時録音音声データ対が得られている場合には、それぞれの話者について、写像を求めてもよい。

また上記実施例では、音声を、特徴ベクトルで表現した場合について説明したが、音声信号が、波形データやスペクトルデータであっても、同様に写像を得ることができる。

次に、図１の新音響環境学習データ生成部１３０について詳細に説明する。新音響環境学習データ生成部１３０は、既存学習データ記憶部１００に記憶されている学習用音声データと、写像生成部１２０により得られた写像を用いて新しい学習用音声データを生成する。一例として、上記したような、線形写像（パラメタΔ_ｍ）が得られている場合には、次のように、学習用音声データｘ_ｔとパラメタΔ_ｍをクラスｍの事後確率ｐ（クラスｍ｜ｘ_ｔ）で重み付けした値から、新しい学習用音声データｘ’が得られる。

この場合、写像生成時と同様に、決定的なクラスタリングを含む。

音声と非音声（主に無音）に分けて写像が得られている場合は、それぞれ適した写像のみ適用することができる。

複数話者について写像が得られている場合は、学習用音声が、どの話者に近いかを調べて適切な写像を適用すればよい。学習用音声と話者の近さは、例えば話者毎のＧＭＭを用いることで、調べることが可能である。

また、音声が特徴ベクトルで表現されている場合について説明した、音声が波形やスペクトルであっても同様に新しい学習用音声を得ることができる。

更に、上記実施例において、他の適応（話者適応）手法（ＭＬＬＲ（Maximum Likelihood estimation of Linear Regression coefficients）など）と併用することで更なる性能向上を得ることもできる。

図４は、図１に示した前記実施の形態に係る音声処理装置を、プロセッサ上で実行される計算機プログラムで実現する場合の処理手順の一実施例を示すフローチャートである。図４を参照すると、写像生成部１２０は、同時録音音声データ対記憶部１１０に記憶されている同時録音音声データ対を読み出し（ステップＳ１０１）、２つの音響環境間の写像を生成する（ステップＳ１０２）。新音響環境学習データ生成部１３０は、既存学習データ記憶部１００に記憶されている学習用音声と、写像生成部１２０により得られた写像を用いて新しい学習用音声を生成し（ステップＳ１０３）、新しい学習用音声を新音響環境学習デ−タ記憶部１４０に記憶する（ステップＳ１０４）。該プログラムは、コンピュータで読み出し可能な任意の記録媒体に記憶されるか、あるいはコンピュータに接続される通信網等の媒体を介して伝送され、コンピュータの主記憶等にロードされて実行される。

本実施の形態の作用効果について説明する。

本実施の形態では、同時録音音声データ対から高精度な写像を求め、それを大量の既存学習用音声に適用するように構成されているため、新しい音響環境の音声が少量でも新しい音響環境に適した音響モデルを作成できる。

次に、本発明の第２の実施の形態について説明する。図２は、本発明の第２の実施の形態の構成を示す図である。図２を参照すると、本発明の第２の実施の形態は、前記第１の実施の形態と比較して、学習用音声を変換するのではなく、既存の音響モデルを変換する構成とされている。図２において、同時録音音声データ対記憶部２１０、写像生成部２２０は、前記第１の実施の形態の同時録音音声データ対記憶部１１０、写像生成部１２０と同一の構成とされる。本実施の形態は、前記第１の実施の形態と相違して、既存の音響モデルを記憶する記憶部（「既存音響モデル記憶部」という）２００と、新音響環境音響モデル生成部２３０と、新音響環境音響モデル記憶部２４０を備えている。本実施の形態では、音響モデルを直接変換する。すなわち、前記実施の形態のように、音声ではなく、音響モデルのパラメタを直接変換する。

例えば、ガウス分布を含むようなモデルであれば、ガウス分布の平均と分散が、変換対象のパラメタとなる。ごく簡単な実施例を挙げれば、もとの平均を、得られた写像で変換したものを、新しい音響モデルの平均とする。既存の音響モデルについて、その学習用音声や学習の過程で得られた情報があれば、より良い変換を行うことも可能である。

次に、本発明の第２の実施の形態の作用効果について説明する。

本発明の第２の実施の形態では、同時録音音声データ対から高精度な写像を求め、それを既存の音響モデルに適用するように構成されているため、新しい音響環境の音声が少量でも、新しい音響環境に適した音響モデルを生成できる。

なお、本発明の第２の実施の形態に係る装置（音響モデル作成装置）も、前記第１の実施の形態と同様、該装置を構成するプロセッサ（コンピュータ）上で動作するプログラムにより、その処理・機能を実現してもよいことは勿論である。

次に、本発明の第３の実施の形態について説明する。図３は、本発明の第３の実施の形態の構成を示す図である。本発明の第３の実施の形態は、前記第１の実施の形態のように、学習用音声を変換するのではなく、新しい音響環境の入力音声を変換する構成とされている。図１の第１の実施の形態の既存学習データ記憶部１００、新音響環境学習データ生成部１３０、新音響環境学習データ記憶部１４０のかわりに、音声入力部３４０、入力音声変換部３３０、認識部３５０、既存音響モデル記憶部３００を備えている。

音声入力部３４０により、認識対象の音声が入力される。写像生成部３２０は、両音響環境間の写像を、前記第１の実施の形態と比べて、逆向きの写像を生成する。すなわち、新しい音響環境の音響モデルから、既存音響モデル記憶部３００に記憶される既存の音響モデルへの写像を生成する。これは、同時録音音声データ対の音声を音響環境について交換するだけでよく、前記第１の実施の形態で示した方法がそのまま用いられる。

入力音声変換部３３０で、音声入力部３４０から得られた入力音声を、写像生成部３２０から得られた写像を用いて変換する。

認識部３５０は、既存音響モデル記憶部３００に記憶されている音響モデルを用いて、入力音声変換部３３０で得られた新しい入力音声を、音声認識する。

次に、本発明の第３の実施の形態の作用効果について説明する。

本発明の第３の実施の形態では、同時録音音声データ対から、２つの音響環境間の写像を求め、該写像を入力音声に適用し、既存の音響モデルに適合するような、新しい入力音声を得るように構成したことにより、認識対象と同じ音響環境の音声が少量であっても、既存の音響モデルに適した新しい入力音声を作成することができる。

なお、本発明の第３の実施の形態に係る装置（音響モデル作成装置）も、前記第１の実施の形態と同様、該装置を構成するプロセッサ（コンピュータ）上で動作するプログラムによりその処理・機能を実現してもよいことは勿論である。

以上本発明を上記実施の形態に即して説明したが、本発明は上記実施の形態の構成にのみ限定されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

本発明によれば、音声を認識する音声認識装置や、音声認識装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、音声だけでなく画像を認識する用途にも適用可能である。

本発明の第１の実施の形態の構成を示す図である。本発明の第２の実施の形態の構成を示す図である。本発明の第３の実施の形態の構成を示す図である。本発明の第１の実施の形態の処理手順を示す図である。

符号の説明

１００既存学習データ記憶部
１１０同時録音音声データ対記憶部
１２０写像生成部
１３０新音響環境学習データ生成部
１４０新音響環境学習データ記憶部
２００既存音響モデル記憶部
２１０同時録音音声データ対記憶部
２２０写像生成部
２３０新音響環境音響モデル生成部
２４０新音響環境音響モデル記憶部
３００既存音響モデル記憶部
３１０同時録音音声データ対記憶部
３２０写像生成部
３３０入力音声変換部
３４０音声入力部
３５０認識部（音声認識部）

Claims

一の音響環境と、前記一の音響環境と異なる他の音響環境とで同時に録音された音声データ対を用いて、２つの音響環境間の写像を求める手段と、
前記一の音響環境向けの音声データ又は音響モデルを、前記写像を用いて前記他の音響環境向けに変換する手段と、
を備え、前記一の音響環境向けに構成された音声認識装置を、前記他の音響環境に適した音声認識装置に再構成可能としてなる、ことを特徴とする音声処理装置。
一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、
前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める写像生成部と、
前記既存の学習用音声データを、前記写像生成部で得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する新音響環境学習データ生成部と、
前記新音響環境学習データ生成部で得られた学習用音声データを記憶する新音響環境学習データ記憶部と、
を備えている、ことを特徴とする音声処理装置。
前記写像生成部は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記新音響環境学習データ生成部は、前記既存の学習用音声データを、該音声を決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像と、を用いて変換する、ことを特徴とする請求項２記載の音声処理装置。
前記写像生成部は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記新音響環境学習データ生成部は、前記既存の学習用音声データを、該音声を非決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像と、を用いて変換する、ことを特徴とする請求項２記載の音声処理装置。
一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
前記既存音響モデルと同じ音響環境の音声データおよび該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める写像生成部と、
前記既存音響モデル記憶部に記憶されている既存音響モデルを、前記写像生成部で得られた前記写像を用いて変換し前記他の音響環境向けの音響モデルを生成する新音響環境音響モデル生成部と、
新音響環境音響モデル生成部で得られた前記他の音響環境向けの音響モデルを記憶する新音響環境音響モデル記憶部と、
を備えている、ことを特徴とする音声処理装置。
前記写像生成部は、前記既存音響モデルと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記新音響環境音響モデル生成部は、決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項５記載の音声処理装置。
前記写像生成部は、前記既存音響モデルと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
前記新音響環境音響モデル生成部は、非決定的にクラスタリングできるモデルと、前記写像生成部で得られた写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項５記載の音声処理装置。
一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
前記既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境の音声データ対を記憶する同時録音音声データ対記憶部と、
認識対象の音声を入力する音声入力部と、
前記同時録音音声データ対記憶部の音声データ対から、前記他の音響環境と前記一の音響環境の２つの音響環境間の写像を求める写像生成部と、
前記音声入力部からの入力音声を、前記写像生成部で得られた写像を用いて変換し、前記一の音響環境向けの入力音声を出力する入力音声変換部と、
前記入力音声変換部で得られた入力音声を、前記既存音響モデル記憶部に記憶されている前記既存の音響モデルを用いて音声認識する認識部と、
を備えている、ことを特徴とする音声認識装置。
前記写像生成部は、他の音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の前記音声データ対を用いて前記写像を求め、
前記入力音声変換部は、入力音声を、決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて変換する、ことを特徴とする請求項８記載の音声認識装置。
前記写像生成部は、他の音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
前記入力音声変換部は、前記入力音声を、非決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて変換する、ことを特徴とする請求項８記載の音声認識装置。
一の音響環境向けに構成された音声認識装置を、前記一の音響環境と異なる他の音響環境で用いるに際して、
前記一の音響環境と、前記一の音響環境と前記他の音響環境とで同時に録音された音声データ対を用いて、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求めるステップと、
前記一の音響環境向けの音声データ又は音響モデルを、前記写像を用いて前記他の音響環境向けに変換するステップと、
を有し、前記他の音響環境に適した音声認識装置に再構成可能としてなる、ことを特徴とする音声処理方法。
一の音響環境で収録された既存学習用音声データを記憶する既存学習データ記憶部に記憶される学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める第１のステップと、
前記既存学習データ記憶部に記憶される既存学習用音声データを、前記第１のステップで前記得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する第２のステップと、
前記第２のステップで生成された前記学習用音声データを新音響環境学習データ記憶部に記憶する第３のステップと、
を含む、ことを特徴とする音声処理方法。
前記第１のステップでは、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記第２のステップでは、前記既存の学習用音声データを、該音声を決定的にクラスタリングできるモデルと、前記第１のステップで得られた前記写像と、を用いて変換する、ことを特徴とする請求項１２記載の音声処理方法。
前記第１のステップでは、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記第２のステップでは、前記既存の学習用音声データを、該音声を非決定的にクラスタリングできるモデルと、前記第１のステップで得られた前記写像と、を用いて変換する、ことを特徴とする請求項１２記載の音声処理方法。
既存音響モデル記憶部に記憶される一の音響環境での既存音響モデルと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部の同時録音音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める第１のステップと、
前記既存音響モデル記憶部に記憶される既存音響モデルを、前記第１のステップで得られた前記写像を用いて変換し、前記他の音響環境向けの音響モデルを生成する第２のステップと、
前記第２のステップで得られた前記他の音響環境向けの音響モデルを新音響環境音響モデル記憶部に記憶する第３のステップと、
を含む、ことを特徴とする音声処理方法。
前記第１のステップでは、前記既存音響モデルと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記第２のステップでは、決定的にクラスタリングできるモデルと、前記第１のステップで得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項１５記載の音声処理方法。
前記第１のステップでは、前記既存音響モデルと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
前記第２のステップでは、非決定的にクラスタリングできるモデルと、前記第１のステップで得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項１５記載の音声処理方法。
既存音響モデル記憶部に記憶される一の音響環境での既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部の同時録音音声データ対から、前記他の音響環境と前記一の音響環境の２つの音響環境間の写像を求める第１のステップと、
音声入力部から入力された入力音声を、前記写像を用いて変換し、前記一の音響モデル向けの入力音声を出力する第２のステップと、
前記第２のステップで変換された入力音声を、前記既存音響モデル記憶部に記憶されている既存の音響モデルを用いて音声認識を行う第３のステップと、
を含む、ことを特徴とする音声認識方法。
前記第１のステップでは、他の音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対を用いて前記写像を求め、
前記第２のステップでは、前記入力音声を、決定的にクラスタリングできるモデルと、前記第１のステップで得られた前記写像と、を用いて変換する、ことを特徴とする請求項１８記載の音声認識方法。
前記第１のステップでは、他の音響環境の音声を非決定的にクラスタリングできるモデルと、同時録音音声データ対を用いて写像を求め、
前記第２のステップでは、前記入力音声を、非決定的にクラスタリングできるモデルと、前記第１のステップで得られた前記写像を用いて変換する、ことを特徴とする請求項１８記載の音声認識方法。
一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、
前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
前記他の音響環境向けの学習用音声データを記憶する新音響環境学習データ記憶部と、
を有する音声処理装置を構成するコンピュータに、
前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める第１の処理と、
前記既存学習データ記憶部に記憶される既存学習用音声データを、前記得られた写像を用いて変換し、他の音響環境向けの学習用音声データを生成する第２の処理と、
前記生成された学習用音声データを、前記新音響環境学習データ記憶部に記憶する第３の処理と、
を実行させるプログラム。
請求項２１記載のプログラムにおいて、
前記第１の処理は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記第２の処理は、前記既存の学習用音声データを、該音声を決定的にクラスタリングできるモデルと、前記写像とを用いて変換する、ことを特徴とするプログラム。
請求項２１記載のプログラムにおいて、
前記第１の処理は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記第２の処理は、前記既存の学習用音声データを、該音声を非決定的にクラスタリングできるモデルと、前記得られた写像とを用いて変換する、ことを特徴とするプログラム。
一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
前記既存音響モデルと同じ音響環境の音声および該音声と同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
前記他の音響環境の音響モデルを記憶する新音響環境音響モデル記憶部と、
を有する音声処理装置を構成するコンピュータに、
前記同時録音音声データ対記憶部の音声データ対から、前記一の音響環境と前記他の音響環境の２つの音響環境間の写像を求める第１の処理と、
前記既存音響モデル記憶部に記憶される既存音響モデルを、前記得られた前記写像を用いて変換し、前記他の音響環境向けの音響モデルを生成する第２の処理と、
前記他の音響環境向けの音響モデルを、前記新音響環境音響モデル記憶部に記憶する第３の処理と、
を実行させるプログラム。
請求項２４記載のプログラムにおいて、
前記第１の処理は、前記既存音響モデルと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
前記第２の処理は、決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とするプログラム。
請求項２４記載のプログラムにおいて、
前記第１の処理は、前記既存音響モデルと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
前記第２の処理は、非決定的にクラスタリングできるモデルと、前記得られた写像を用いて、前記既存音響モデルを変換する、ことを特徴とするプログラム。
一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
前記既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
音声入力部と、
を有する音声認識装置を構成するコンピュータに、
前記同時録音音声データ対記憶部の音声データ対から、前記他の音響環境と前記一の音響環境の２つの音響環境間の写像を求める第１の処理と、
前記音声入力部から入力された入力音声を前記写像を用いて変換し、前記一の音響環境向けの入力音声を出力する第２の処理と、
前記変換された入力音声を、前記既存音響モデル記憶部に記憶されている既存の音響モデルを用いて音声認識を行う第３の処理と、
を実行させるプログラム。
請求項２７記載のプログラムにおいて、
前記第１の処理は、他の音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対を用いて前記写像を求め、
前記第２の処理は、前記音声入力部からの前記入力音声を、決定的にクラスタリングできるモデルと、前記得られた前記写像と、を用いて変換する、ことを特徴とするプログラム。
請求項２７記載のプログラムにおいて、
前記第１の処理は、他の音響環境の音声を非決定的にクラスタリングできるモデルと、同時録音音声データ対を用いて写像を求め、
前記第２の処理は、前記音声入力部からの前記入力音声を、非決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像と、を用いて変換する、ことを特徴とするプログラム。
一の環境で取得された既存のデータ又はモデルを記憶する第１の記憶部と、
既存のデータと同じ環境のデータ、および該データと同期して取得された他の環境のデータの対を記憶する第２の記憶部と、
前記第２の記憶部に記憶されているデータ対から、前記一の環境と前記他の環境の２つの環境間の写像を求める写像生成部と、
前記第１の記憶部に記憶されている既存のデータ又はモデルを、前記写像生成部で得られた写像を用いて変換し、前記他の環境向けのデータ又はモデルを生成するデータ／モデル生成部と、
を備えている、ことを特徴とするデータ処理装置。