JP2005196020A - 音声処理装置と方法並びにプログラム - Google Patents

音声処理装置と方法並びにプログラム Download PDF

Info

Publication number
JP2005196020A
JP2005196020A JP2004003893A JP2004003893A JP2005196020A JP 2005196020 A JP2005196020 A JP 2005196020A JP 2004003893 A JP2004003893 A JP 2004003893A JP 2004003893 A JP2004003893 A JP 2004003893A JP 2005196020 A JP2005196020 A JP 2005196020A
Authority
JP
Japan
Prior art keywords
acoustic
mapping
voice data
model
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004003893A
Other languages
English (en)
Inventor
Seiichi Miki
清一 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004003893A priority Critical patent/JP2005196020A/ja
Publication of JP2005196020A publication Critical patent/JP2005196020A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】
特定の音響環境向けに構成された音声認識装置を異なる音響環境で用いる場合、該音響環境に適した音響モデルを作成するために、新しい音響環境の音声を多く集めることを要しなくする装置及び方法並びにプログラムの提供。
【解決手段】
一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部100と、前記既存の学習用音声データと同じ音響環境の音声データ、及び該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部110と、同時録音音声データ対記憶部110に記憶されている音声データ対から2つの音響環境間の写像を求める写像生成部120と、前記既存の学習用音声データを、前記写像生成部120で得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する新音響環境学習データ生成部130と、新音響環境学習データ生成部130で得られた学習用音声データを記憶する新音響環境学習データ記憶部140とを備える。
【選択図】
図1

Description

本発明は、音声認識技術に関し、特に、ある音響環境向けに構成された音声認識装置を、該音響環境と異なる新しい音響環境で用いる場合、該新しい音響環境に適した音響モデルおよびその学習用音声の生成を行う装置及び方法並びにプログラムと音声認識装置に関する。
音声認識では、入力された音声と単語、音節、音素といったシンボルと関連付けるための音響モデルが用いられる。音響モデルは、一般に多量の学習用音声を用いて学習して得られる。
従来の音声認識システムにおける音響モデル作成の一例が、後記非特許文献1に記載されている。従来、特定の音響環境向けに構成された音声認識装置を異なる音響環境で用いる場合、新しい音響環境の音声を学習用音声として収集し、後記非特許文献1に記載されている方法で音響モデルを学習し直したり、モデル適応を行ったりする必要があった。
しかしながら、このような従来の手法では、新しい音響環境の学習用音声を比較的多く集め直す必要がある。
また、音響モデルを環境適応させる技術も知られているが、これらは、多くの場合、異なる環境の異なる音声を用いるため、その適応は不十分である。
安藤彰男著「リアルタイム音声認識」電子情報通信学会、2003年9月1日、pp.72−86、pp.90−114、pp.114−120
上記したように、特定の音響環境向けに構成された音声認識装置を異なる音響環境で用いる場合、従来の方法では、新しい音響環境に適した音響モデルを作成するために、新しい音響環境の音声を比較的多く集める必要がある。
また、音響モデルを環境適応させる技術を用いる場合、異なる環境の異なる音声を用いているため、その適応が不十分である。
したがって、本発明の目的は、一の音響環境向けに構成された音声認識装置を他の音響環境で用いる場合に、該他の音響環境に適した音響モデルを作成するために、該他の音響環境の音声を多く集めることを要しなくする装置及び方法並びにプログラムを提供することにある。
また、本発明の目的は、既に利用可能な音響環境の大量の学習用音声データを有効に利用することで、精度の高い音響モデルを作成可能とする装置及び方法並びにプログラムを提供することにある。
本願で開示される発明は、前記目的を達成するため、一の音響環境と新しい音響環境の両方の音響環境で同時に録音された少量の同時録音音声データ対を用いて、新しい音響環境に適した音響モデルおよび学習用音声データを作成し、作成した学習用音声データを用いて音声認識を行うものである。本発明の1つのアスペクトに係る音声処理装置は、一の音響環境向けに構成されている音声認識装置において、一の音響環境の音声データと、他の音響環境の音声データを同時に録音した同時録音音声データ対を記憶する記憶部と、該同時録音音声データ対から、2つの音響環境間の写像を生成する写像生成部とを備え、得られた写像を用いて、前記一の音響環境の既存の学習用音声データ又は音響モデルを、前記他の音響環境向けに変換する構成とされる。
本発明の1つのアスペクトに係る音声処理装置は、一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める写像生成部と、前記既存の学習用音声データを、前記写像生成部で得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する新音響環境学習データ生成部と、前記新音響環境学習データ生成部で得られた学習用音声データを記憶する新音響環境学習データ記憶部と、を備えている。
本発明の他のアスペクトに係る音声処理装置は、一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、前記既存音響モデルと同じ音響環境の音声および該音声と同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、同時録音音声データ対から、音響環境間の写像を求める写像生成部と、既存音響モデルを、前記写像生成部で得られた写像を用いて変換する新音響環境音響モデル生成部と、新音響環境音響モデル生成部で得られた、前記他の音響環境に適した音響モデルを記憶する新音響環境音響モデル記憶部と、を備えている。
本発明のさらに別のアスペクトに係る音声認識装置は、一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境(新しい音響環境)の音声の対を記憶する同時録音音声データ対記憶部と、認識対象の音声を入力する音声入力部と、同時録音音声データ対から、両音響環境間の写像を求める写像生成部と、新しい音響環境での入力音声を、前記写像生成部で得られた写像を用いて変換する入力音声変換部と、前記入力音声変換部で得られた入力音声を、前記既存音響モデル記憶部に記憶されている既存の音響モデルを用いて認識を行う認識部と、を備えている。
本発明のさらに別のアスペクトに係る装置は、一の環境で取得された既存のデータ又はモデルを記憶する第1の記憶部と、既存のデータと同じ環境のデータ、および該データと同期して取得された他の環境のデータの対を記憶する第2の記憶部と、前記第2の記憶部に記憶されているデータ対から、前記一の環境と前記他の環境の2つの環境間の写像を求める写像生成部と、前記第1の記憶部に記憶されている既存のデータ又はモデルを、前記写像生成部で得られた写像を用いて変換し、前記他の環境向けのデータ又はモデルを生成するデータ/モデル生成部と、を備えている。前記データは、音声信号のほか、画像信号であってもよい。
本発明の他のアスペクトに係る方法は、一の音響環境で収録された既存学習用音声データを記憶する既存学習データ記憶部に記憶される学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める第1のステップと、
前記既存学習データ記憶部に記憶される既存学習用音声データを、前記第1のステップで前記得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する第2のステップと、
前記第2のステップで生成された前記学習用音声データを新音響環境学習データ記憶部に記憶する第3のステップと、
を含む。
本発明の他のアスペクトに係るプログラムは、一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、前記他の音響環境向けの学習用音声データを記憶する新音響環境学習データ記憶部と、を有する音声処理装置を構成するコンピュータに、
(a)前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める第1の処理と、
(b)前記既存学習データ記憶部に記憶される既存学習用音声データを、前記得られた写像を用いて変換し、他の音響環境向けの学習用音声データを生成する第2の処理と、
(c)前記生成された学習用音声データを、前記新音響環境学習データ記憶部に記憶する第3の処理と、を実行させるプログラム(コンピュータ・プログラム)よりなる。該プログラムは、コンピュータで読み出し可能な任意の記録媒体に記憶され、またコンピュータに接続される通信網等の媒体を介して伝送され、コンピュータの主記憶等にロードされて実行される。
本発明によれば、2つの音響環境で同時に録音された少量の同時録音音声データ対を用いて新しい音響環境に適した音響モデルを生成することができる。その理由は、両方の音響環境で同時に録音された少量の同時録音音声対から高精度な写像を求め、それを用いて、利用可能な現在の音響環境の音響モデルまたは学習用音声に適用することで、新しい音響環境の音響モデルまたは学習用音声を得ることができるためである。既に使用可能な学習用音声が大量にある場合には、より高い効果が期待される。
本発明によれば、比較的少数の同時録音音声対から高精度な写像を得、利用可能な音響モデルおよび学習用音声を変換することにより、精度の高い音響モデルを作成することができる。また、本発明によれば、利用可能な学習用音声が大量にある場合、より良い音響モデルを作成することができる。
本発明についてさらに詳細に説述するため添付図面を参照して説明する。図1は、本発明の第1の実施の形態の構成を示す図である。図1を参照すると、本発明の第1の実施の形態は、既存学習用音声データを記憶する記憶部(「既存学習データ記憶部」という)100と、同時録音音声データ対を記憶する記憶部(「同時録音音声データ対記憶部」という)110と、写像生成部120と、新音響環境向けの学習用音声データを生成する新音響環境学習データ生成部130と、新音響環境向けの学習用音声データを記憶する記憶部(「新音響環境学習データ記憶部」という)140とを備えている。これらは、それぞれ概略つぎのように動作する。
既存学習データ記憶部100は、特定の音響環境で収録された、現在利用可能な学習用音声データを記憶する。
同時録音音声データ対記憶部110は、既存学習データ記憶部100に記憶されている学習用音声データと同じ音響環境の音声データと、それと同時に録音された新しい音響環境の音声データとをデータ対(「同時録音音声データ対」という)として記憶する。
写像生成部120は、同時録音音声データ対記憶部110に記憶されている同時録音音声データ対から、特定の音響環境と新しい音響環境の両音声環境間の写像を求める。
新音響環境学習データ生成部130は、写像生成部120により得られた写像を用いて、既存学習データ記憶部100に記憶されている学習用音声データを変換し、新しい音響環境向けの学習用音声データを生成する。
新音響環境学習デ−タ記憶部140は、新音響環境学習データ生成部130で生成された学習用音声データを記憶する。
新音響環境学習デ−タ記憶部140に記憶された学習用音声データを用いて、新しい音響モデルを作成し、該音響モデルを用いて、音声認識を行う音声認識装置は、公知の任意の構成が用いられる。
本実施の形態では、音声を対象とした例を挙げているが、本質的には、異なる環境の、同期のとれるデ一夕が得られる任意の構成に対して、本発明の手法を適用することができる。例えば、データとして画像信号を用いた画像認識装置において、顔(物体)等の画像認識に際して、右側画像で学習されたモデルがある場合に、左側画像で認識したい場合には、少数の右側画像と左側画像の対があれば、本発明を適用できる。
以下では、図1に示した本発明の第1の実施の形態の装置について、具体的な実施例に即して詳細に説明する。
まず、図1の既存学習データ記憶部100に記憶されている学習用音声データについて説明する。学習用音声データは、特定音響環境で得られた音声信号を、マイクロフォンにより電気信号に変換し、該電気信号を、不図示のA/D変換器等でサンプルしデジタル信号として離散化した波形データ、波形データをフーリエ変換等により分析して得られるスペクトルデータや、スペクトルデータから特徴抽出して得られる特徴ベクトル等の形式で記憶される。既存学習データ記憶部100には、音響モデルを学習するのに十分な量の学習用音声データが記憶されている。
次に、図1の同時録音音声データ対記憶部110に記憶されている同時録音音声データ対について説明する。既存学習データ記憶部100に記憶されている学習用音声と同じ音響環境の音声と、それと同時に録音された、異なる音響環境の音声が記憶される。例えば、学習用音声がマイクロフォンにより収録された音声信号であり、認識対象とする新しい音響環境の音声信号が電話音声(受話器で受信した音声)であれば、一つの発声を、マイクロフォンと電話で同時に収録することにより、同時録音音声対が得られる。同時録音音声対は、例えば、上記した学習用音声と同様の形式(例えば波形データ、スペクトルデータ、特徴ベクトル等)で記憶されるが、これら2つの形式は、異なっていてもよい。
次に、図1の写像生成部120について詳細に説明する。写像生成部120は、同時録音音声データ対記憶部110に記憶されている同時録音音声データ対を用いて、2つの音響環境間の写像を求める。求められた写像は、既存学習データ記憶部100に記憶されている学習用音声データを変換するために用いられる。
写像の精度を向上させるために、好ましくは、学習用音声および同時録音音声対のうち、学習用音声と同じ音響環境の音声をクラスタリングし、各クラス毎に異なる写像を用いる。更に、決定的なクラスタリングではなく、非決定的なクラスタリングを用いることがより望ましい。これは、非決定的なクラスタリングの方が、より良好に、音声の性質を表現できるからである。
非決定的なクラスタリングは、HMM(Hidden Markov Model)やGMM(Gaussian Mixture Model)等の確率的なモデルを用いることで、可能である。このとき、決定的なクラスタリングは、例えば最大の重みを与えるクラスの重みを1とし、残りのクラスは重みを0にすることで包含される。これらの確率的なモデルは、既に利用可能な現在の音響環境の学習用音声データを用いて作成できる。また、GMMのように小さなモデルを用いる場合には、少量の学習音声でも十分である。
本発明の一実施例として、同時録音音声データ対および学習用音声データが特徴ベクトルで表現されている場合について、以下に詳細に説明する。
本実施例では、一例として、同時録音音声対の2つの音響環境の音声間で差を小さくするために、以下の二乗誤差Dを最小にするような写像fを求める。


Figure 2005196020
ここで、
tは、時刻(1〜T)、
は、時刻tにおける同時録音音声データ対のうち、学習用音声データと同じ音響環境の音声データの値、
は、新しい音響環境の音声データの値、
m(1〜M)は、クラス、
fは、xに対する写像を表し、cmkはそのパラメタ(k=1〜K)、
p(クラスm|x)はデータxに対するクラスmの事後確率、
である。
写像として、線形写像の一つであるf=x+Δを用いるものとする。上記二乗誤差Dを最小にするΔを求めるために、上記二乗誤差DをΔについて偏微分し、その式が0になることを用いて、以下のパラメタが、この基準を満たす。

Figure 2005196020
ここで、Δは、求めたいクラスm毎のパラメタΔを1からmまで並べたものである。

Figure 2005196020
δは、同時録音音声データ対の差分(y−x)を、クラスmの事後確率p(クラスm|x)で重み付けして、全時刻t=1〜Tで総和をとった値を1からmまで並べたものである。

Figure 2005196020

Figure 2005196020
Γは、i行j列要素がクラスiとクラスjの事後確率の積の全時刻の総和となっている(対称)行列である。
Figure 2005196020
非決定的なクラスタリングに、M混合GMMを用いる場合、事後確率は、次のように計算できる。

Figure 2005196020
ここで、cは、k番目のガウス分布の重み係数、p(x|クラスk)は、k番目のガウス分布により得られるxの条件付確率である。
変形例として、同時録音音声データ対の差分(y−x)を平均化したものを、写像のパラメタとして用いるようにしてもよい。

Figure 2005196020
さらに別の変形例として、同時録音音声データ対の差分を用いる代わりに、一方を、GMM等の統計的モデルの平均にした差分を用いてもよい。
また別の変形例として、時刻tについて総和の代わりに、平均値を用いてもよい。
別の変形例として、事前に、音声と非音声(主に無音)に分けてそれぞれについて、または一方のみ写像を求めてもよい。
さらに別の変形例として、複数の話者のそれぞれについて、同時録音音声データ対が得られている場合には、それぞれの話者について、写像を求めてもよい。
また上記実施例では、音声を、特徴ベクトルで表現した場合について説明したが、音声信号が、波形データやスペクトルデータであっても、同様に写像を得ることができる。
次に、図1の新音響環境学習データ生成部130について詳細に説明する。新音響環境学習データ生成部130は、既存学習データ記憶部100に記憶されている学習用音声データと、写像生成部120により得られた写像を用いて新しい学習用音声データを生成する。一例として、上記したような、線形写像(パラメタΔ)が得られている場合には、次のように、学習用音声データxとパラメタΔをクラスmの事後確率p(クラスm|x)で重み付けした値から、新しい学習用音声データx’が得られる。

Figure 2005196020
この場合、写像生成時と同様に、決定的なクラスタリングを含む。
音声と非音声(主に無音)に分けて写像が得られている場合は、それぞれ適した写像のみ適用することができる。
複数話者について写像が得られている場合は、学習用音声が、どの話者に近いかを調べて適切な写像を適用すればよい。学習用音声と話者の近さは、例えば話者毎のGMMを用いることで、調べることが可能である。
また、音声が特徴ベクトルで表現されている場合について説明した、音声が波形やスペクトルであっても同様に新しい学習用音声を得ることができる。
更に、上記実施例において、他の適応(話者適応)手法(MLLR(Maximum Likelihood estimation of Linear Regression coefficients)など)と併用することで更なる性能向上を得ることもできる。
図4は、図1に示した前記実施の形態に係る音声処理装置を、プロセッサ上で実行される計算機プログラムで実現する場合の処理手順の一実施例を示すフローチャートである。図4を参照すると、写像生成部120は、同時録音音声データ対記憶部110に記憶されている同時録音音声データ対を読み出し(ステップS101)、2つの音響環境間の写像を生成する(ステップS102)。新音響環境学習データ生成部130は、既存学習データ記憶部100に記憶されている学習用音声と、写像生成部120により得られた写像を用いて新しい学習用音声を生成し(ステップS103)、新しい学習用音声を新音響環境学習デ−タ記憶部140に記憶する(ステップS104)。該プログラムは、コンピュータで読み出し可能な任意の記録媒体に記憶されるか、あるいはコンピュータに接続される通信網等の媒体を介して伝送され、コンピュータの主記憶等にロードされて実行される。
本実施の形態の作用効果について説明する。
本実施の形態では、同時録音音声データ対から高精度な写像を求め、それを大量の既存学習用音声に適用するように構成されているため、新しい音響環境の音声が少量でも新しい音響環境に適した音響モデルを作成できる。
次に、本発明の第2の実施の形態について説明する。図2は、本発明の第2の実施の形態の構成を示す図である。図2を参照すると、本発明の第2の実施の形態は、前記第1の実施の形態と比較して、学習用音声を変換するのではなく、既存の音響モデルを変換する構成とされている。図2において、同時録音音声データ対記憶部210、写像生成部220は、前記第1の実施の形態の同時録音音声データ対記憶部110、写像生成部120と同一の構成とされる。本実施の形態は、前記第1の実施の形態と相違して、既存の音響モデルを記憶する記憶部(「既存音響モデル記憶部」という)200と、新音響環境音響モデル生成部230と、新音響環境音響モデル記憶部240を備えている。本実施の形態では、音響モデルを直接変換する。すなわち、前記実施の形態のように、音声ではなく、音響モデルのパラメタを直接変換する。
例えば、ガウス分布を含むようなモデルであれば、ガウス分布の平均と分散が、変換対象のパラメタとなる。ごく簡単な実施例を挙げれば、もとの平均を、得られた写像で変換したものを、新しい音響モデルの平均とする。既存の音響モデルについて、その学習用音声や学習の過程で得られた情報があれば、より良い変換を行うことも可能である。
次に、本発明の第2の実施の形態の作用効果について説明する。
本発明の第2の実施の形態では、同時録音音声データ対から高精度な写像を求め、それを既存の音響モデルに適用するように構成されているため、新しい音響環境の音声が少量でも、新しい音響環境に適した音響モデルを生成できる。
なお、本発明の第2の実施の形態に係る装置(音響モデル作成装置)も、前記第1の実施の形態と同様、該装置を構成するプロセッサ(コンピュータ)上で動作するプログラムにより、その処理・機能を実現してもよいことは勿論である。
次に、本発明の第3の実施の形態について説明する。図3は、本発明の第3の実施の形態の構成を示す図である。本発明の第3の実施の形態は、前記第1の実施の形態のように、学習用音声を変換するのではなく、新しい音響環境の入力音声を変換する構成とされている。図1の第1の実施の形態の既存学習データ記憶部100、新音響環境学習データ生成部130、新音響環境学習データ記憶部140のかわりに、音声入力部340、入力音声変換部330、認識部350、既存音響モデル記憶部300を備えている。
音声入力部340により、認識対象の音声が入力される。写像生成部320は、両音響環境間の写像を、前記第1の実施の形態と比べて、逆向きの写像を生成する。すなわち、新しい音響環境の音響モデルから、既存音響モデル記憶部300に記憶される既存の音響モデルへの写像を生成する。これは、同時録音音声データ対の音声を音響環境について交換するだけでよく、前記第1の実施の形態で示した方法がそのまま用いられる。
入力音声変換部330で、音声入力部340から得られた入力音声を、写像生成部320から得られた写像を用いて変換する。
認識部350は、既存音響モデル記憶部300に記憶されている音響モデルを用いて、入力音声変換部330で得られた新しい入力音声を、音声認識する。
次に、本発明の第3の実施の形態の作用効果について説明する。
本発明の第3の実施の形態では、同時録音音声データ対から、2つの音響環境間の写像を求め、該写像を入力音声に適用し、既存の音響モデルに適合するような、新しい入力音声を得るように構成したことにより、認識対象と同じ音響環境の音声が少量であっても、既存の音響モデルに適した新しい入力音声を作成することができる。
なお、本発明の第3の実施の形態に係る装置(音響モデル作成装置)も、前記第1の実施の形態と同様、該装置を構成するプロセッサ(コンピュータ)上で動作するプログラムによりその処理・機能を実現してもよいことは勿論である。
以上本発明を上記実施の形態に即して説明したが、本発明は上記実施の形態の構成にのみ限定されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明によれば、音声を認識する音声認識装置や、音声認識装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、音声だけでなく画像を認識する用途にも適用可能である。
本発明の第1の実施の形態の構成を示す図である。 本発明の第2の実施の形態の構成を示す図である。 本発明の第3の実施の形態の構成を示す図である。 本発明の第1の実施の形態の処理手順を示す図である。
符号の説明
100 既存学習データ記憶部
110 同時録音音声データ対記憶部
120 写像生成部
130 新音響環境学習データ生成部
140 新音響環境学習データ記憶部
200 既存音響モデル記憶部
210 同時録音音声データ対記憶部
220 写像生成部
230 新音響環境音響モデル生成部
240 新音響環境音響モデル記憶部
300 既存音響モデル記憶部
310 同時録音音声データ対記憶部
320 写像生成部
330 入力音声変換部
340 音声入力部
350 認識部(音声認識部)


Claims (30)

  1. 一の音響環境と、前記一の音響環境と異なる他の音響環境とで同時に録音された音声データ対を用いて、2つの音響環境間の写像を求める手段と、
    前記一の音響環境向けの音声データ又は音響モデルを、前記写像を用いて前記他の音響環境向けに変換する手段と、
    を備え、前記一の音響環境向けに構成された音声認識装置を、前記他の音響環境に適した音声認識装置に再構成可能としてなる、ことを特徴とする音声処理装置。
  2. 一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、
    前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
    前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める写像生成部と、
    前記既存の学習用音声データを、前記写像生成部で得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する新音響環境学習データ生成部と、
    前記新音響環境学習データ生成部で得られた学習用音声データを記憶する新音響環境学習データ記憶部と、
    を備えている、ことを特徴とする音声処理装置。
  3. 前記写像生成部は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記新音響環境学習データ生成部は、前記既存の学習用音声データを、該音声を決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像と、を用いて変換する、ことを特徴とする請求項2記載の音声処理装置。
  4. 前記写像生成部は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記新音響環境学習データ生成部は、前記既存の学習用音声データを、該音声を非決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像と、を用いて変換する、ことを特徴とする請求項2記載の音声処理装置。
  5. 一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
    前記既存音響モデルと同じ音響環境の音声データおよび該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
    前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める写像生成部と、
    前記既存音響モデル記憶部に記憶されている既存音響モデルを、前記写像生成部で得られた前記写像を用いて変換し前記他の音響環境向けの音響モデルを生成する新音響環境音響モデル生成部と、
    新音響環境音響モデル生成部で得られた前記他の音響環境向けの音響モデルを記憶する新音響環境音響モデル記憶部と、
    を備えている、ことを特徴とする音声処理装置。
  6. 前記写像生成部は、前記既存音響モデルと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記新音響環境音響モデル生成部は、決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項5記載の音声処理装置。
  7. 前記写像生成部は、前記既存音響モデルと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
    前記新音響環境音響モデル生成部は、非決定的にクラスタリングできるモデルと、前記写像生成部で得られた写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項5記載の音声処理装置。
  8. 一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
    前記既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境の音声データ対を記憶する同時録音音声データ対記憶部と、
    認識対象の音声を入力する音声入力部と、
    前記同時録音音声データ対記憶部の音声データ対から、前記他の音響環境と前記一の音響環境の2つの音響環境間の写像を求める写像生成部と、
    前記音声入力部からの入力音声を、前記写像生成部で得られた写像を用いて変換し、前記一の音響環境向けの入力音声を出力する入力音声変換部と、
    前記入力音声変換部で得られた入力音声を、前記既存音響モデル記憶部に記憶されている前記既存の音響モデルを用いて音声認識する認識部と、
    を備えている、ことを特徴とする音声認識装置。
  9. 前記写像生成部は、他の音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の前記音声データ対を用いて前記写像を求め、
    前記入力音声変換部は、入力音声を、決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて変換する、ことを特徴とする請求項8記載の音声認識装置。
  10. 前記写像生成部は、他の音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
    前記入力音声変換部は、前記入力音声を、非決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて変換する、ことを特徴とする請求項8記載の音声認識装置。
  11. 一の音響環境向けに構成された音声認識装置を、前記一の音響環境と異なる他の音響環境で用いるに際して、
    前記一の音響環境と、前記一の音響環境と前記他の音響環境とで同時に録音された音声データ対を用いて、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求めるステップと、
    前記一の音響環境向けの音声データ又は音響モデルを、前記写像を用いて前記他の音響環境向けに変換するステップと、
    を有し、前記他の音響環境に適した音声認識装置に再構成可能としてなる、ことを特徴とする音声処理方法。
  12. 一の音響環境で収録された既存学習用音声データを記憶する既存学習データ記憶部に記憶される学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める第1のステップと、
    前記既存学習データ記憶部に記憶される既存学習用音声データを、前記第1のステップで前記得られた写像を用いて変換し、前記他の音響環境向けの学習用音声データを生成する第2のステップと、
    前記第2のステップで生成された前記学習用音声データを新音響環境学習データ記憶部に記憶する第3のステップと、
    を含む、ことを特徴とする音声処理方法。
  13. 前記第1のステップでは、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記第2のステップでは、前記既存の学習用音声データを、該音声を決定的にクラスタリングできるモデルと、前記第1のステップで得られた前記写像と、を用いて変換する、ことを特徴とする請求項12記載の音声処理方法。
  14. 前記第1のステップでは、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記第2のステップでは、前記既存の学習用音声データを、該音声を非決定的にクラスタリングできるモデルと、前記第1のステップで得られた前記写像と、を用いて変換する、ことを特徴とする請求項12記載の音声処理方法。
  15. 既存音響モデル記憶部に記憶される一の音響環境での既存音響モデルと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部の同時録音音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める第1のステップと、
    前記既存音響モデル記憶部に記憶される既存音響モデルを、前記第1のステップで得られた前記写像を用いて変換し、前記他の音響環境向けの音響モデルを生成する第2のステップと、
    前記第2のステップで得られた前記他の音響環境向けの音響モデルを新音響環境音響モデル記憶部に記憶する第3のステップと、
    を含む、ことを特徴とする音声処理方法。
  16. 前記第1のステップでは、前記既存音響モデルと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記第2のステップでは、決定的にクラスタリングできるモデルと、前記第1のステップで得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項15記載の音声処理方法。
  17. 前記第1のステップでは、前記既存音響モデルと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
    前記第2のステップでは、非決定的にクラスタリングできるモデルと、前記第1のステップで得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とする請求項15記載の音声処理方法。
  18. 既存音響モデル記憶部に記憶される一の音響環境での既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部の同時録音音声データ対から、前記他の音響環境と前記一の音響環境の2つの音響環境間の写像を求める第1のステップと、
    音声入力部から入力された入力音声を、前記写像を用いて変換し、前記一の音響モデル向けの入力音声を出力する第2のステップと、
    前記第2のステップで変換された入力音声を、前記既存音響モデル記憶部に記憶されている既存の音響モデルを用いて音声認識を行う第3のステップと、
    を含む、ことを特徴とする音声認識方法。
  19. 前記第1のステップでは、他の音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対を用いて前記写像を求め、
    前記第2のステップでは、前記入力音声を、決定的にクラスタリングできるモデルと、前記第1のステップで得られた前記写像と、を用いて変換する、ことを特徴とする請求項18記載の音声認識方法。
  20. 前記第1のステップでは、他の音響環境の音声を非決定的にクラスタリングできるモデルと、同時録音音声データ対を用いて写像を求め、
    前記第2のステップでは、前記入力音声を、非決定的にクラスタリングできるモデルと、前記第1のステップで得られた前記写像を用いて変換する、ことを特徴とする請求項18記載の音声認識方法。
  21. 一の音響環境で収録された既存の学習用音声データを記憶する既存学習データ記憶部と、
    前記既存の学習用音声データと同じ音響環境の音声データ、および該音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
    前記他の音響環境向けの学習用音声データを記憶する新音響環境学習データ記憶部と、
    を有する音声処理装置を構成するコンピュータに、
    前記同時録音音声データ対記憶部に記憶されている音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める第1の処理と、
    前記既存学習データ記憶部に記憶される既存学習用音声データを、前記得られた写像を用いて変換し、他の音響環境向けの学習用音声データを生成する第2の処理と、
    前記生成された学習用音声データを、前記新音響環境学習データ記憶部に記憶する第3の処理と、
    を実行させるプログラム。
  22. 請求項21記載のプログラムにおいて、
    前記第1の処理は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記第2の処理は、前記既存の学習用音声データを、該音声を決定的にクラスタリングできるモデルと、前記写像とを用いて変換する、ことを特徴とするプログラム。
  23. 請求項21記載のプログラムにおいて、
    前記第1の処理は、前記既存学習データ記憶部の既存の学習用音声データと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記第2の処理は、前記既存の学習用音声データを、該音声を非決定的にクラスタリングできるモデルと、前記得られた写像とを用いて変換する、ことを特徴とするプログラム。
  24. 一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
    前記既存音響モデルと同じ音響環境の音声および該音声と同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
    前記他の音響環境の音響モデルを記憶する新音響環境音響モデル記憶部と、
    を有する音声処理装置を構成するコンピュータに、
    前記同時録音音声データ対記憶部の音声データ対から、前記一の音響環境と前記他の音響環境の2つの音響環境間の写像を求める第1の処理と、
    前記既存音響モデル記憶部に記憶される既存音響モデルを、前記得られた前記写像を用いて変換し、前記他の音響環境向けの音響モデルを生成する第2の処理と、
    前記他の音響環境向けの音響モデルを、前記新音響環境音響モデル記憶部に記憶する第3の処理と、
    を実行させるプログラム。
  25. 請求項24記載のプログラムにおいて、
    前記第1の処理は、前記既存音響モデルと同じ音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて前記写像を求め、
    前記第2の処理は、決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像を用いて、前記既存音響モデルを変換する、ことを特徴とするプログラム。
  26. 請求項24記載のプログラムにおいて、
    前記第1の処理は、前記既存音響モデルと同じ音響環境の音声を非決定的にクラスタリングできるモデルと、前記同時録音音声データ対記憶部の音声データ対を用いて写像を求め、
    前記第2の処理は、非決定的にクラスタリングできるモデルと、前記得られた写像を用いて、前記既存音響モデルを変換する、ことを特徴とするプログラム。
  27. 一の音響環境での既存の音響モデルを記憶する既存音響モデル記憶部と、
    前記既存音響モデルと同じ音響環境の音声データ、および前記音声データと同時に録音された他の音響環境の音声データの対を記憶する同時録音音声データ対記憶部と、
    音声入力部と、
    を有する音声認識装置を構成するコンピュータに、
    前記同時録音音声データ対記憶部の音声データ対から、前記他の音響環境と前記一の音響環境の2つの音響環境間の写像を求める第1の処理と、
    前記音声入力部から入力された入力音声を前記写像を用いて変換し、前記一の音響環境向けの入力音声を出力する第2の処理と、
    前記変換された入力音声を、前記既存音響モデル記憶部に記憶されている既存の音響モデルを用いて音声認識を行う第3の処理と、
    を実行させるプログラム。
  28. 請求項27記載のプログラムにおいて、
    前記第1の処理は、他の音響環境の音声を決定的にクラスタリングできるモデルと、前記同時録音音声データ対を用いて前記写像を求め、
    前記第2の処理は、前記音声入力部からの前記入力音声を、決定的にクラスタリングできるモデルと、前記得られた前記写像と、を用いて変換する、ことを特徴とするプログラム。
  29. 請求項27記載のプログラムにおいて、
    前記第1の処理は、他の音響環境の音声を非決定的にクラスタリングできるモデルと、同時録音音声データ対を用いて写像を求め、
    前記第2の処理は、前記音声入力部からの前記入力音声を、非決定的にクラスタリングできるモデルと、前記写像生成部で得られた前記写像と、を用いて変換する、ことを特徴とするプログラム。
  30. 一の環境で取得された既存のデータ又はモデルを記憶する第1の記憶部と、
    既存のデータと同じ環境のデータ、および該データと同期して取得された他の環境のデータの対を記憶する第2の記憶部と、
    前記第2の記憶部に記憶されているデータ対から、前記一の環境と前記他の環境の2つの環境間の写像を求める写像生成部と、
    前記第1の記憶部に記憶されている既存のデータ又はモデルを、前記写像生成部で得られた写像を用いて変換し、前記他の環境向けのデータ又はモデルを生成するデータ/モデル生成部と、
    を備えている、ことを特徴とするデータ処理装置。
JP2004003893A 2004-01-09 2004-01-09 音声処理装置と方法並びにプログラム Withdrawn JP2005196020A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004003893A JP2005196020A (ja) 2004-01-09 2004-01-09 音声処理装置と方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004003893A JP2005196020A (ja) 2004-01-09 2004-01-09 音声処理装置と方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2005196020A true JP2005196020A (ja) 2005-07-21

Family

ID=34818665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004003893A Withdrawn JP2005196020A (ja) 2004-01-09 2004-01-09 音声処理装置と方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP2005196020A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020353A (ja) * 2007-07-12 2009-01-29 Yamaha Corp 音響モデル処理装置およびプログラム
JP2013128278A (ja) * 2011-12-16 2013-06-27 Src Computers Inc 再構成可能な処理技術を利用して、低電力消費で高速アプリケーションを可能とする移動電子機器
JP2014219605A (ja) * 2013-05-09 2014-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US20160155438A1 (en) * 2014-11-27 2016-06-02 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
JP6452061B1 (ja) * 2018-08-10 2019-01-16 クリスタルメソッド株式会社 学習データ生成方法、学習方法、及び評価装置
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム
WO2022074990A1 (ja) * 2020-10-09 2022-04-14 ソニーグループ株式会社 学習データ生成装置、学習データ生成方法、学習装置、学習方法、データ構造、情報処理装置、および、音響処理装置
CN114880323A (zh) * 2022-04-26 2022-08-09 深圳市未来鼠信息技术有限公司 数据管理方法、装置、设备及存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020353A (ja) * 2007-07-12 2009-01-29 Yamaha Corp 音響モデル処理装置およびプログラム
JP2013128278A (ja) * 2011-12-16 2013-06-27 Src Computers Inc 再構成可能な処理技術を利用して、低電力消費で高速アプリケーションを可能とする移動電子機器
JP2014219605A (ja) * 2013-05-09 2014-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US10217456B2 (en) 2013-05-09 2019-02-26 International Business Machines Corporation Method, apparatus, and program for generating training speech data for target domain
US9984680B2 (en) * 2014-11-27 2018-05-29 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
US20160180836A1 (en) * 2014-11-27 2016-06-23 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
US9870766B2 (en) * 2014-11-27 2018-01-16 International Business Machines Incorporated Method for improving acoustic model, computer for improving acoustic model and computer program thereof
US9870767B2 (en) * 2014-11-27 2018-01-16 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
JP2016102820A (ja) * 2014-11-27 2016-06-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
US9984681B2 (en) * 2014-11-27 2018-05-29 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
US20160155438A1 (en) * 2014-11-27 2016-06-02 International Business Machines Corporation Method for improving acoustic model, computer for improving acoustic model and computer program thereof
JP6452061B1 (ja) * 2018-08-10 2019-01-16 クリスタルメソッド株式会社 学習データ生成方法、学習方法、及び評価装置
JP2021117245A (ja) * 2020-01-22 2021-08-10 クリスタルメソッド株式会社 学習方法、評価装置、データ構造、及び評価システム
WO2022074990A1 (ja) * 2020-10-09 2022-04-14 ソニーグループ株式会社 学習データ生成装置、学習データ生成方法、学習装置、学習方法、データ構造、情報処理装置、および、音響処理装置
CN114880323A (zh) * 2022-04-26 2022-08-09 深圳市未来鼠信息技术有限公司 数据管理方法、装置、设备及存储介质
CN114880323B (zh) * 2022-04-26 2023-12-12 深圳市未来鼠信息技术有限公司 数据管理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
US11894008B2 (en) Signal processing apparatus, training apparatus, and method
EP2538404A1 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
JPWO2007108500A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JPWO2014049944A1 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび雑音抑圧装置
KR20190032868A (ko) 음성인식 방법 및 그 장치
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JP2008026489A (ja) 音声信号変換装置
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP5706368B2 (ja) 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
JP6233103B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
Zhuang et al. A minimum converted trajectory error (MCTE) approach to high quality speech-to-lips conversion.
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
US6934364B1 (en) Handset identifier using support vector machines
JP5486565B2 (ja) 話者クラスタリング方法、話者クラスタリング装置、プログラム
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
JP2020129099A (ja) 推定装置、推定方法、及びプログラム
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100419