JPH09258790A - ニューラルネットワーク音声モデル再学習方法および装置 - Google Patents
ニューラルネットワーク音声モデル再学習方法および装置Info
- Publication number
- JPH09258790A JPH09258790A JP8071870A JP7187096A JPH09258790A JP H09258790 A JPH09258790 A JP H09258790A JP 8071870 A JP8071870 A JP 8071870A JP 7187096 A JP7187096 A JP 7187096A JP H09258790 A JPH09258790 A JP H09258790A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- voice
- speaker
- unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 ある程度学習の進んだニューラルネットワー
クを再学習する場合、各ユニット間に与えられる全ての
重みを更新することにより行っているため、処理の量が
膨大であった。 【解決手段】 第1のDRNNデータ記憶部23に記憶
された学習済みのDRNN音声モデルを再学習するDR
NN再学習部22を有し、このDRNN再学習部22
は、各ユニットに外部からバイアスを与える手段として
仮想的に設けられた固定ユニットからの重みを、所定の
学習則に基づいて変化させることで、特定話者の音声に
適応するように前記DRNN音声モデルを再学習する。
クを再学習する場合、各ユニット間に与えられる全ての
重みを更新することにより行っているため、処理の量が
膨大であった。 【解決手段】 第1のDRNNデータ記憶部23に記憶
された学習済みのDRNN音声モデルを再学習するDR
NN再学習部22を有し、このDRNN再学習部22
は、各ユニットに外部からバイアスを与える手段として
仮想的に設けられた固定ユニットからの重みを、所定の
学習則に基づいて変化させることで、特定話者の音声に
適応するように前記DRNN音声モデルを再学習する。
Description
【0001】
【発明の属する技術分野】本発明はニュ−ラルネットワ
−ク、特に時系列的なデータ処理を行うDRNN(Dyn
amic Recurrent Neural Networks :以下、DRNNと
いう)を用いた音声認識において、不特定話者の音声デ
ータを基に作成されたDRNN音声モデルを或る特定話
者の音声に適応させるために再学習するニューラルネッ
トワーク音声モデル再学習方法および装置に関する。
−ク、特に時系列的なデータ処理を行うDRNN(Dyn
amic Recurrent Neural Networks :以下、DRNNと
いう)を用いた音声認識において、不特定話者の音声デ
ータを基に作成されたDRNN音声モデルを或る特定話
者の音声に適応させるために再学習するニューラルネッ
トワーク音声モデル再学習方法および装置に関する。
【0002】
【従来の技術】音声認識技術の一つとして、DRNNを
用いた音声認識技術がある(このDRNNによる音声認
識技術については、本出願人が特開平6−4079、特
開平6−119476などにより出願済みである)。こ
のDRNNは、認識すべき単語データのそれぞれに対し
て設定され、たとえば、図10に示すように、入力ユニ
ットU1,U2,U3、出力ユニットU5,U6とそれ
以外の隠れユニットU4,U7で構成され、すべてのユ
ニットが非対象完全相互結合と自己結合とを持ってい
る。前記入力ユニットU1,U2,U3には、或る単語
に対する音声信号を特徴分析して得られた音声特徴ベク
トル列が与えられ、その特徴ベクトル列が10次元LP
Cケプストラム係数で構成される特徴ベクトル列である
とすれば、10個の入力ユニットを有することになる。
ただし、図10においては、説明を簡単にするため、入
力されるデータは3次元ケプストラム係数で構成される
特徴ベクトル列であるとし、入力ユニットは3つのユニ
ットU1,U2,U3で構成されたものを示している。
また、出力ユニットは、2個のユニットU5,U6から
構成され、一方を肯定出力ユニット、他方を否定出力ユ
ニットとしている。また、隠れユニットはここでは、2
つのユニットU4,U7で構成された例を示している。
用いた音声認識技術がある(このDRNNによる音声認
識技術については、本出願人が特開平6−4079、特
開平6−119476などにより出願済みである)。こ
のDRNNは、認識すべき単語データのそれぞれに対し
て設定され、たとえば、図10に示すように、入力ユニ
ットU1,U2,U3、出力ユニットU5,U6とそれ
以外の隠れユニットU4,U7で構成され、すべてのユ
ニットが非対象完全相互結合と自己結合とを持ってい
る。前記入力ユニットU1,U2,U3には、或る単語
に対する音声信号を特徴分析して得られた音声特徴ベク
トル列が与えられ、その特徴ベクトル列が10次元LP
Cケプストラム係数で構成される特徴ベクトル列である
とすれば、10個の入力ユニットを有することになる。
ただし、図10においては、説明を簡単にするため、入
力されるデータは3次元ケプストラム係数で構成される
特徴ベクトル列であるとし、入力ユニットは3つのユニ
ットU1,U2,U3で構成されたものを示している。
また、出力ユニットは、2個のユニットU5,U6から
構成され、一方を肯定出力ユニット、他方を否定出力ユ
ニットとしている。また、隠れユニットはここでは、2
つのユニットU4,U7で構成された例を示している。
【0003】このような構成のDRNNは、入力ユニッ
トU1,U2,U3に入力される各時刻における特徴ベ
クトルを構成する各次元ごとのデータに対して、全ての
ユニット間相互の結合強度を示す重みWij(ここで、
iはi番目のユニット、jはj番目のユニットであるこ
とを表し、Wijはユニットiとユニットjの間の重み
係数であり、ここでは、ユニット数が7個の例であるか
らiとjは1〜7のうちのいずれかの数値をとることに
なる)と、全てのユニットからの出力が与えられるとと
もに、外部からのバイアスθi(このiは1〜7の値の
うちのいずれかの値である)などが与えられて、これら
出力値と重み係数の積算値およびバイアスなどにより変
換された値が出力ユニットから出力される。
トU1,U2,U3に入力される各時刻における特徴ベ
クトルを構成する各次元ごとのデータに対して、全ての
ユニット間相互の結合強度を示す重みWij(ここで、
iはi番目のユニット、jはj番目のユニットであるこ
とを表し、Wijはユニットiとユニットjの間の重み
係数であり、ここでは、ユニット数が7個の例であるか
らiとjは1〜7のうちのいずれかの数値をとることに
なる)と、全てのユニットからの出力が与えられるとと
もに、外部からのバイアスθi(このiは1〜7の値の
うちのいずれかの値である)などが与えられて、これら
出力値と重み係数の積算値およびバイアスなどにより変
換された値が出力ユニットから出力される。
【0004】たとえば、出力ユニットがj番目のユニッ
トjであるとすれば、この出力ユニットjは、他の全て
のユニットからの出力を受けて、その出力値とそれぞれ
のユニット間の重み係数との積算値および外部からのバ
イアスなどを入力して、これら出力値と重み係数の積算
値およびバイアスなどにより変換された値を出力として
出す。
トjであるとすれば、この出力ユニットjは、他の全て
のユニットからの出力を受けて、その出力値とそれぞれ
のユニット間の重み係数との積算値および外部からのバ
イアスなどを入力して、これら出力値と重み係数の積算
値およびバイアスなどにより変換された値を出力として
出す。
【0005】このように、或る単語の特徴ベクトル列が
時系列データとして入力されると、その単語に対する適
切な出力が得られるようにするために、予め定めた学習
則に従って各ユニット間の重みWijおよびバイアスθ
iをそれぞれ決めている。また、バイアスθiは外部か
らそれぞれのユニットに対して与えられるもので、常に
或る一定の値に予め設定されている。
時系列データとして入力されると、その単語に対する適
切な出力が得られるようにするために、予め定めた学習
則に従って各ユニット間の重みWijおよびバイアスθ
iをそれぞれ決めている。また、バイアスθiは外部か
らそれぞれのユニットに対して与えられるもので、常に
或る一定の値に予め設定されている。
【0006】たとえば、或る不特定話者の「おはよう」
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力(教師出力)に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットU1,
U2,U3に与え、学習則に従って設定された重みWi
jおよび、バイアスθiによって変換する。ここでは、
特徴ベクトル列の各時刻における特徴ベクトルは3次元
ケプストラム係数で構成された例であるから、或る時刻
t1における1次元目のデータは入力ユニットU1に、
2次元目のデータは入力ユニットU2に、3次元目のデ
ータは入力ユニットU3に入力され、重みWijとバイ
アスθiにより変換される。これを時系列データとして
入力される或る1つの単語の特徴ベクトル列すべてにつ
いて、各時刻対応に時系列処理を行う。このようにし
て、或る不特定話者の発話する単語の音声データに対し
て、その単語に対する教師出力に近い出力を得るように
している。
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力(教師出力)に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットU1,
U2,U3に与え、学習則に従って設定された重みWi
jおよび、バイアスθiによって変換する。ここでは、
特徴ベクトル列の各時刻における特徴ベクトルは3次元
ケプストラム係数で構成された例であるから、或る時刻
t1における1次元目のデータは入力ユニットU1に、
2次元目のデータは入力ユニットU2に、3次元目のデ
ータは入力ユニットU3に入力され、重みWijとバイ
アスθiにより変換される。これを時系列データとして
入力される或る1つの単語の特徴ベクトル列すべてにつ
いて、各時刻対応に時系列処理を行う。このようにし
て、或る不特定話者の発話する単語の音声データに対し
て、その単語に対する教師出力に近い出力を得るように
している。
【0007】このように、認識すべき単語全てに対応し
て用意されたDRNNについて、それぞれの単語に対し
て適切な出力が取り出されるように重みを変化させる学
習則は、(社)電子情報通信学会発行の信学技報:technic
al report of IEICI sp92-125(1993-01)の18頁
に記載されている。
て用意されたDRNNについて、それぞれの単語に対し
て適切な出力が取り出されるように重みを変化させる学
習則は、(社)電子情報通信学会発行の信学技報:technic
al report of IEICI sp92-125(1993-01)の18頁
に記載されている。
【0008】
【発明が解決しようとする課題】ところで、前記したよ
うな不特定多数の話者の音声データを基にしてある程度
学習の進んだ不特定話者用のDRNNにおいて、或る特
定の話者の発話する音声に対してより一層、敏感に反応
するようにするには、DRNNを再学習させる必要があ
る。つまり、音声認識装置において、話者適応を行う場
合は、幾つかの話者適応用の単語を特定の話者が発話す
ることにより、前記不特定話者用のDRNNを再学習す
る処理を行うが、DRNNの再学習としては、その特定
話者の発する話者適応用の幾つかの単語ごとの音声に対
する特徴データに対して、適切な出力が得られるよう
に、重みWijおよびバイアスθiを変化させる必要が
ある。このように、重みWijとバイアスθiを特定話
者に適応すべく再学習するということは、話者適応用の
幾つかの単語ごとに、全ての重みWijとバイアスθi
を変化させた新たなDRNNを作成するのと同じことに
なる。
うな不特定多数の話者の音声データを基にしてある程度
学習の進んだ不特定話者用のDRNNにおいて、或る特
定の話者の発話する音声に対してより一層、敏感に反応
するようにするには、DRNNを再学習させる必要があ
る。つまり、音声認識装置において、話者適応を行う場
合は、幾つかの話者適応用の単語を特定の話者が発話す
ることにより、前記不特定話者用のDRNNを再学習す
る処理を行うが、DRNNの再学習としては、その特定
話者の発する話者適応用の幾つかの単語ごとの音声に対
する特徴データに対して、適切な出力が得られるよう
に、重みWijおよびバイアスθiを変化させる必要が
ある。このように、重みWijとバイアスθiを特定話
者に適応すべく再学習するということは、話者適応用の
幾つかの単語ごとに、全ての重みWijとバイアスθi
を変化させた新たなDRNNを作成するのと同じことに
なる。
【0009】しかしながら、1つのDRNNに存在する
重みWijは、1つのDRNNのユニット数の2乗の数
になるため、たとえばユニット数が30個存在するとす
れば、900個もの重みを変化させるというような処理
を行うことになる。また、全ての重みを記憶させておく
ための記憶手段として、全ての重みの値を更新すること
を考慮すれば、大きな容量のRAMが必要となり、小型
でしかも安価な装置に適応しようとした場合、大きな障
害となる。
重みWijは、1つのDRNNのユニット数の2乗の数
になるため、たとえばユニット数が30個存在するとす
れば、900個もの重みを変化させるというような処理
を行うことになる。また、全ての重みを記憶させておく
ための記憶手段として、全ての重みの値を更新すること
を考慮すれば、大きな容量のRAMが必要となり、小型
でしかも安価な装置に適応しようとした場合、大きな障
害となる。
【0010】また、この種のニューラルネットワーク
は、ある単語に対して適切な出力が得られるように、製
造段階あるいは研究段階において、たくさんのデータを
用いて、理想的な出力が得られるまで膨大な数の学習を
繰り返し実行し、教師出力に近い出力が得られるよう
に、ある程度までの学習がなされている。
は、ある単語に対して適切な出力が得られるように、製
造段階あるいは研究段階において、たくさんのデータを
用いて、理想的な出力が得られるまで膨大な数の学習を
繰り返し実行し、教師出力に近い出力が得られるよう
に、ある程度までの学習がなされている。
【0011】しかし、話者適応時においては、ユーザが
ある単語について発話する少量のデータを用いて簡易な
学習により話者適応を行う必要があり、全ての重みを変
化させるのはきわめて困難である。さらに、その少量の
データにより全ての重みが変えられると、大量のデータ
を用いて適切な学習がなされていたものも、その少量の
データのための再学習の結果、適切に学習された結果が
信頼性の低い内容に変化してしまうことにもなりかねな
いという問題があった。
ある単語について発話する少量のデータを用いて簡易な
学習により話者適応を行う必要があり、全ての重みを変
化させるのはきわめて困難である。さらに、その少量の
データにより全ての重みが変えられると、大量のデータ
を用いて適切な学習がなされていたものも、その少量の
データのための再学習の結果、適切に学習された結果が
信頼性の低い内容に変化してしまうことにもなりかねな
いという問題があった。
【0012】そこで、本発明は、話者適応時におけるD
RNNの再学習を、DRNN内の重み係数そのものを変
化させることなく行い、再学習処理を簡単な処理で可能
とし、また、このDRNNの再学習と、不特定話者コー
ドブックとこれに基づいて作成された入力話者コードブ
ックを用いたコードマッピングによる話者適応とを組み
合わせることにより、認識率を、より一層、向上させる
ことを可能としたニューラルネットワークの再学習方法
及び装置を提供することを目的とする。
RNNの再学習を、DRNN内の重み係数そのものを変
化させることなく行い、再学習処理を簡単な処理で可能
とし、また、このDRNNの再学習と、不特定話者コー
ドブックとこれに基づいて作成された入力話者コードブ
ックを用いたコードマッピングによる話者適応とを組み
合わせることにより、認識率を、より一層、向上させる
ことを可能としたニューラルネットワークの再学習方法
及び装置を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明のニューラルネッ
トワーク音声モデル再学習方法は、請求項1に記載され
たように、不特定話者の入力音声データに対して教師出
力に近い出力が得られるように、ニューラルネットワー
ク内部における各ユニット間の結合強度を示す重みとニ
ューラルネットワーク外部からそれぞれのユニットに入
力されるバイアスの値とを、所定の学習則に従って設定
した学習済みのニューラルネットワーク音声モデルを、
或る特定話者の音声に適応するために再学習する方法に
おいて、前記各ユニットに外部からバイアスを与える手
段として、固定ユニットを仮想的に設けて、この固定ユ
ニットからの重みを前記所定の学習則に基づいて変化さ
せることで、前記ニューラルネットワーク音声モデル
を、或る特定話者の音声に適応するために再学習するこ
とを特徴とする。
トワーク音声モデル再学習方法は、請求項1に記載され
たように、不特定話者の入力音声データに対して教師出
力に近い出力が得られるように、ニューラルネットワー
ク内部における各ユニット間の結合強度を示す重みとニ
ューラルネットワーク外部からそれぞれのユニットに入
力されるバイアスの値とを、所定の学習則に従って設定
した学習済みのニューラルネットワーク音声モデルを、
或る特定話者の音声に適応するために再学習する方法に
おいて、前記各ユニットに外部からバイアスを与える手
段として、固定ユニットを仮想的に設けて、この固定ユ
ニットからの重みを前記所定の学習則に基づいて変化さ
せることで、前記ニューラルネットワーク音声モデル
を、或る特定話者の音声に適応するために再学習するこ
とを特徴とする。
【0014】そして、前記ニューラルネットワークは、
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。
【0015】また、前記ニューラルネットワーク内の各
ユニットのうち、入力データが与えられる入力ユニット
のみに入る固定ユニットの重みを変化させるようにす
る。
ユニットのうち、入力データが与えられる入力ユニット
のみに入る固定ユニットの重みを変化させるようにす
る。
【0016】このように、本発明では、或る程度学習の
進んだニューラルネットワークを再学習する際、ニュー
ラルネットワーク内部の重みを更新するのではなく、ニ
ューラルネットワーク外部に固定ユニットというものを
仮想的に設けて、この固定ユニットからのバイアスを重
みとしてニューラルネットワークに与えることで、従来
の学習則をそのまま適応して固定ユニットからの重みを
変化させることができる。これにより、ニューラルネッ
トワーク内部の重みを更新するのに比べて処理が大幅に
簡素化され、データを蓄えるためのメモリも小容量のも
のとすることができる。また、ニューラルネットワーク
内の各ユニットのうち、入力データが与えられる入力ユ
ニットのみに入る固定ユニットの重みを変化させること
により、再学習する方法は、音声入力データの平行移動
に相当するため、入力音声データに学習結果を加算する
だけの処理となり、さらに処理が簡単なものとなり、メ
モリ容量もさらに小さくすることができる。
進んだニューラルネットワークを再学習する際、ニュー
ラルネットワーク内部の重みを更新するのではなく、ニ
ューラルネットワーク外部に固定ユニットというものを
仮想的に設けて、この固定ユニットからのバイアスを重
みとしてニューラルネットワークに与えることで、従来
の学習則をそのまま適応して固定ユニットからの重みを
変化させることができる。これにより、ニューラルネッ
トワーク内部の重みを更新するのに比べて処理が大幅に
簡素化され、データを蓄えるためのメモリも小容量のも
のとすることができる。また、ニューラルネットワーク
内の各ユニットのうち、入力データが与えられる入力ユ
ニットのみに入る固定ユニットの重みを変化させること
により、再学習する方法は、音声入力データの平行移動
に相当するため、入力音声データに学習結果を加算する
だけの処理となり、さらに処理が簡単なものとなり、メ
モリ容量もさらに小さくすることができる。
【0017】また、本発明は、請求項4に記載されたよ
うに、不特定多数の話者の音声データを基に作成した不
特定話者コードブックを基に、或る特定話者用のコード
ブックを作成し、その特定話者の音声を前記不特定話者
コードブックおよび特定話者用のコードブックを用いて
不特定話者空間に写像してコード化したのち音声認識部
に送り、音声認識部では、不特定話者の音声を基にして
予め学習されたニューラルネットワーク音声モデルを用
いて音声認識を行う音声認識方法において、或る単語に
対する特定話者の音声データを不特定話者コードブック
に写像した音声データを得て、その音声データを、前記
不特定話者の音声を基にして予め学習されたニューラル
ネットワークの入力ユニットに入力し、その入力ユニッ
トに与えられる外部からのバイアスを変化させることに
より、ニューラルネットワーク音声モデルを再学習する
ことを特徴とする。
うに、不特定多数の話者の音声データを基に作成した不
特定話者コードブックを基に、或る特定話者用のコード
ブックを作成し、その特定話者の音声を前記不特定話者
コードブックおよび特定話者用のコードブックを用いて
不特定話者空間に写像してコード化したのち音声認識部
に送り、音声認識部では、不特定話者の音声を基にして
予め学習されたニューラルネットワーク音声モデルを用
いて音声認識を行う音声認識方法において、或る単語に
対する特定話者の音声データを不特定話者コードブック
に写像した音声データを得て、その音声データを、前記
不特定話者の音声を基にして予め学習されたニューラル
ネットワークの入力ユニットに入力し、その入力ユニッ
トに与えられる外部からのバイアスを変化させることに
より、ニューラルネットワーク音声モデルを再学習する
ことを特徴とする。
【0018】そして、前記ニューラルネットワーク内の
入力ユニットに入るバイアスを変化させることにより、
ニューラルネットワーク音声モデルを再学習する方法
は、前記ニューラルネットワークに外部からバイアスを
与える手段として、固定ユニットを仮想的に設けて、そ
の固定ユニットからの重みを前記所定の学習則に基づい
て変化させることで、前記ニューラルネットワーク音声
モデルを、特定話者の音声に適応するために再学習する
ようにしている。
入力ユニットに入るバイアスを変化させることにより、
ニューラルネットワーク音声モデルを再学習する方法
は、前記ニューラルネットワークに外部からバイアスを
与える手段として、固定ユニットを仮想的に設けて、そ
の固定ユニットからの重みを前記所定の学習則に基づい
て変化させることで、前記ニューラルネットワーク音声
モデルを、特定話者の音声に適応するために再学習する
ようにしている。
【0019】そして、前記ニューラルネットワークは、
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。
【0020】このように、不特定話者コードブックを基
に、特定話者用のコードブックを作成し、その特定話者
の音声を前記不特定話者コードブックおよび特定話者用
のコードブックを用いて不特定話者空間に写像してコー
ド化するコードマッピングによる話者適応方法と、ニュ
ーラルネットワークの再学習を組み合わせ、コードマッ
ピングによる入力話者の音声データを不特定話者空間に
写像したデータを得て、このデータを、ニューラルネッ
トワークの入力ユニットに与え、その入力ユニットに入
力されるバイアスを変えることでニューラルネットワー
クを再学習したのち、音声認識するようにしたので、入
力話者の音声特徴データと不特定話者空間のデータとの
差が、ニューラルネットワークの再学習にて吸収される
ことになり、より一層、音声認識率を高めることができ
る。
に、特定話者用のコードブックを作成し、その特定話者
の音声を前記不特定話者コードブックおよび特定話者用
のコードブックを用いて不特定話者空間に写像してコー
ド化するコードマッピングによる話者適応方法と、ニュ
ーラルネットワークの再学習を組み合わせ、コードマッ
ピングによる入力話者の音声データを不特定話者空間に
写像したデータを得て、このデータを、ニューラルネッ
トワークの入力ユニットに与え、その入力ユニットに入
力されるバイアスを変えることでニューラルネットワー
クを再学習したのち、音声認識するようにしたので、入
力話者の音声特徴データと不特定話者空間のデータとの
差が、ニューラルネットワークの再学習にて吸収される
ことになり、より一層、音声認識率を高めることができ
る。
【0021】また、本発明のニューラルネットワーク音
声モデル再学習装置は、請求項7に記載されたように、
不特定話者の入力音声データに対して教師出力に近い出
力が得られるように、ニューラルネットワーク内部にお
ける各ユニット間の結合強度を示す重みとニューラルネ
ットワーク外部からそれぞれのユニットに入力されるバ
イアスの値とを、所定の学習則に従って設定した学習済
みのニューラルネットワーク音声モデルを、或る特定話
者の音声に適応するために再学習する装置において、入
力音声データを記憶する入力データ記憶部と、不特定多
数の話者の音声を基に、予め定めれられた学習則に従っ
て学習されたニューラルネットワーク音声モデルを記憶
するニューラルネットワーク音声モデル記憶部と、前記
入力データに記憶された或る特定話者の或る単語に対す
る音声データを基に予め定めれられた学習則に従って前
記ニューラルネットワーク音声モデルを再学習するニュ
ーラルネットワーク再学習処理部とを有し、前記ニュー
ラルネットワーク再学習処理部は、各ユニットに外部か
らバイアスを与える手段として仮想的に設けられた固定
ユニットからの重みを、前記所定の学習則に基づいて変
化させることで、前記特定話者の音声に対してニューラ
ルネットワーク音声モデルを再学習することを特徴とす
る。
声モデル再学習装置は、請求項7に記載されたように、
不特定話者の入力音声データに対して教師出力に近い出
力が得られるように、ニューラルネットワーク内部にお
ける各ユニット間の結合強度を示す重みとニューラルネ
ットワーク外部からそれぞれのユニットに入力されるバ
イアスの値とを、所定の学習則に従って設定した学習済
みのニューラルネットワーク音声モデルを、或る特定話
者の音声に適応するために再学習する装置において、入
力音声データを記憶する入力データ記憶部と、不特定多
数の話者の音声を基に、予め定めれられた学習則に従っ
て学習されたニューラルネットワーク音声モデルを記憶
するニューラルネットワーク音声モデル記憶部と、前記
入力データに記憶された或る特定話者の或る単語に対す
る音声データを基に予め定めれられた学習則に従って前
記ニューラルネットワーク音声モデルを再学習するニュ
ーラルネットワーク再学習処理部とを有し、前記ニュー
ラルネットワーク再学習処理部は、各ユニットに外部か
らバイアスを与える手段として仮想的に設けられた固定
ユニットからの重みを、前記所定の学習則に基づいて変
化させることで、前記特定話者の音声に対してニューラ
ルネットワーク音声モデルを再学習することを特徴とす
る。
【0022】そして、前記ニューラルネットワークは、
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。
【0023】また、前記ニューラルネットワーク内の各
ユニットのうち、入力データが与えられる入力ユニット
のみに入る固定ユニットの重みを変化させるようにす
る。
ユニットのうち、入力データが与えられる入力ユニット
のみに入る固定ユニットの重みを変化させるようにす
る。
【0024】このように、本発明では、或る程度学習の
進んだニューラルネットワークを再学習する際、ニュー
ラルネットワーク内部の重みを更新するのではなく、ニ
ューラルネットワーク外部に固定ユニットというものを
仮想的に設けて、この固定ユニットからのバイアスを重
みとしてニューラルネットワークに与えることで、従来
の学習則をそのまま適応して固定ユニットからの重みを
変化させることができる。これにより、ニューラルネッ
トワーク内部の重みを更新するのに比べて処理が大幅に
簡素化され、データを蓄えるためのメモリも小容量のも
のとすることができる。また、ニューラルネットワーク
内の各ユニットのうち、入力データが与えられる入力ユ
ニットのみに入る固定ユニットの重みを変化させること
により、再学習する方法は、音声入力データの平行移動
に相当するため、入力音声データに学習結果を加算する
だけの処理となり、さらに処理が簡単なものとなり、メ
モリ容量もさらに小さくすることができる。
進んだニューラルネットワークを再学習する際、ニュー
ラルネットワーク内部の重みを更新するのではなく、ニ
ューラルネットワーク外部に固定ユニットというものを
仮想的に設けて、この固定ユニットからのバイアスを重
みとしてニューラルネットワークに与えることで、従来
の学習則をそのまま適応して固定ユニットからの重みを
変化させることができる。これにより、ニューラルネッ
トワーク内部の重みを更新するのに比べて処理が大幅に
簡素化され、データを蓄えるためのメモリも小容量のも
のとすることができる。また、ニューラルネットワーク
内の各ユニットのうち、入力データが与えられる入力ユ
ニットのみに入る固定ユニットの重みを変化させること
により、再学習する方法は、音声入力データの平行移動
に相当するため、入力音声データに学習結果を加算する
だけの処理となり、さらに処理が簡単なものとなり、メ
モリ容量もさらに小さくすることができる。
【0025】また、本発明は、請求項10に記載される
ように、不特定多数の話者の音声データを基に作成した
不特定話者コードブックを基に或る特定話者用のコード
ブックを作成し、その特定話者の音声を前記不特定話者
コードブックおよび特定話者用のコードブックを用いて
不特定話者空間に写像してコード化したのち音声認識部
に送り、音声認識部では、不特定話者の音声を基にして
予め学習されたニューラルネットワーク音声モデルを用
いて音声認識を行う音声認識装置において、或る単語に
対する特定話者の音声データを不特定話者コードブック
に写像したデータを得るデータ変換部と、この不特定話
者コードブックに写像された特定話者の音声データを記
憶する変換データ記憶部と、不特定多数の話者の音声を
基に、予め定めれられた学習則に従って学習されたニュ
ーラルネットワーク音声モデルを記憶するニューラルネ
ットワーク音声モデル記憶部と、前記特定話者の或る単
語に対する音声データを基に、予め定めれられた学習則
に従って、前記ニューラルネットワーク音声モデルを再
学習するニューラルネットワーク再学習処理部とを有
し、前記不特定話者コードブックに写像された特定話者
の音声データを前記予め学習されたニューラルネットワ
ークの入力ユニットに入力し、その入力ユニットに与え
られる外部からのバイアスを変化させることにより、ニ
ューラルネットワーク音声モデルを再学習することを特
徴とする。
ように、不特定多数の話者の音声データを基に作成した
不特定話者コードブックを基に或る特定話者用のコード
ブックを作成し、その特定話者の音声を前記不特定話者
コードブックおよび特定話者用のコードブックを用いて
不特定話者空間に写像してコード化したのち音声認識部
に送り、音声認識部では、不特定話者の音声を基にして
予め学習されたニューラルネットワーク音声モデルを用
いて音声認識を行う音声認識装置において、或る単語に
対する特定話者の音声データを不特定話者コードブック
に写像したデータを得るデータ変換部と、この不特定話
者コードブックに写像された特定話者の音声データを記
憶する変換データ記憶部と、不特定多数の話者の音声を
基に、予め定めれられた学習則に従って学習されたニュ
ーラルネットワーク音声モデルを記憶するニューラルネ
ットワーク音声モデル記憶部と、前記特定話者の或る単
語に対する音声データを基に、予め定めれられた学習則
に従って、前記ニューラルネットワーク音声モデルを再
学習するニューラルネットワーク再学習処理部とを有
し、前記不特定話者コードブックに写像された特定話者
の音声データを前記予め学習されたニューラルネットワ
ークの入力ユニットに入力し、その入力ユニットに与え
られる外部からのバイアスを変化させることにより、ニ
ューラルネットワーク音声モデルを再学習することを特
徴とする。
【0026】そして、前記ニューラルネットワーク内の
入力ユニットに与えられる外部からのバイアスを変化さ
せることにより、ニューラルネットワーク音声モデルを
再学習する方法は、前記ニューラルネットワークに外部
からバイアスを与える手段として、固定ユニットを仮想
的に設けて、その固定ユニットからの重みを前記所定の
学習則に基づいて変化させることで、前記ニューラルネ
ットワーク音声モデルを、特定話者の音声に適応するた
めに再学習することを特徴とする。
入力ユニットに与えられる外部からのバイアスを変化さ
せることにより、ニューラルネットワーク音声モデルを
再学習する方法は、前記ニューラルネットワークに外部
からバイアスを与える手段として、固定ユニットを仮想
的に設けて、その固定ユニットからの重みを前記所定の
学習則に基づいて変化させることで、前記ニューラルネ
ットワーク音声モデルを、特定話者の音声に適応するた
めに再学習することを特徴とする。
【0027】また、前記ニューラルネットワークは、時
系列的なデータ処理を行うダイナミックリカレントニュ
ーラルネットワークであることを特徴とする。
系列的なデータ処理を行うダイナミックリカレントニュ
ーラルネットワークであることを特徴とする。
【0028】このように、不特定話者コードブックを基
に、特定話者用のコードブックを作成し、その特定話者
の音声を前記不特定話者コードブックおよび特定話者用
のコードブックを用いて不特定話者空間に写像してコー
ド化するコードマッピングによる話者適応方法と、ニュ
ーラルネットワークの再学習を組み合わせ、コードマッ
ピングによる入力話者の音声データを不特定話者空間に
写像したデータを得て、このデータを、ニューラルネッ
トワークの入力ユニットに与え、その入力ユニットに入
力されるバイアスを変えることでニューラルネットワー
クを再学習したのち、音声認識するようにしたので、入
力話者の音声特徴データと不特定話者空間のデータとの
差が、ニューラルネットワークの再学習にて吸収される
ことになり、より一層、音声認識率を高めることができ
る。
に、特定話者用のコードブックを作成し、その特定話者
の音声を前記不特定話者コードブックおよび特定話者用
のコードブックを用いて不特定話者空間に写像してコー
ド化するコードマッピングによる話者適応方法と、ニュ
ーラルネットワークの再学習を組み合わせ、コードマッ
ピングによる入力話者の音声データを不特定話者空間に
写像したデータを得て、このデータを、ニューラルネッ
トワークの入力ユニットに与え、その入力ユニットに入
力されるバイアスを変えることでニューラルネットワー
クを再学習したのち、音声認識するようにしたので、入
力話者の音声特徴データと不特定話者空間のデータとの
差が、ニューラルネットワークの再学習にて吸収される
ことになり、より一層、音声認識率を高めることができ
る。
【0029】
【発明の実施の形態】以下、本発明の実施の形態を説明
する。
する。
【0030】(第1の実施の形態)図1は本発明が適用
された音声認識装置の概略的な構成を説明するブロック
図であり、その構成は、大きく分けると、音声入力部
1、DRNN再学習部2、音声認識部3から構成されて
いる。
された音声認識装置の概略的な構成を説明するブロック
図であり、その構成は、大きく分けると、音声入力部
1、DRNN再学習部2、音声認識部3から構成されて
いる。
【0031】前記音声入力部1は、マイクロホン11、
マイクロホン11から入力された音声をA/D変換する
A/D変換部12、A/D変換された音声波形信号を、
演算器を用いて短時間毎に周波数分析し、周波数の特徴
を表す何次元かの特徴ベクトル(LPCケプストラム係
数が一般的)を抽出し、この特徴ベクトルの時系列(以
下、特徴ベクトル列という)を出力する音声分析部13
などから構成されている。なお、この実施の形態では、
説明を簡単にするため、特徴ベクトル列を構成する各特
徴ベクトルは3次元のLPCケプストラム係数で構成さ
れるものとする。
マイクロホン11から入力された音声をA/D変換する
A/D変換部12、A/D変換された音声波形信号を、
演算器を用いて短時間毎に周波数分析し、周波数の特徴
を表す何次元かの特徴ベクトル(LPCケプストラム係
数が一般的)を抽出し、この特徴ベクトルの時系列(以
下、特徴ベクトル列という)を出力する音声分析部13
などから構成されている。なお、この実施の形態では、
説明を簡単にするため、特徴ベクトル列を構成する各特
徴ベクトルは3次元のLPCケプストラム係数で構成さ
れるものとする。
【0032】また、DRNN再学習部2は、本発明の要
旨となる部分であり、話者適応時に特定話者の音声特徴
データに基づいて、不特定多数の話者の音声を基に学習
されたDRNNを再学習するものであり、入力データ記
憶部21、DRNN再学習処理部22、ある程度学習の
済んだ不特定話者用DRNN音声モデルのデータを記憶
するDRNN音声モデルデータ記憶部(以下、第1のD
RNNデータ記憶部という)23、再学習後のDRNN
音声モデルデータを記憶するDRNN音声モデルデータ
記憶部(以下、第2のDRNNデータ記憶部)24など
から構成される。なお、これら個々の機能などについて
は後述する。
旨となる部分であり、話者適応時に特定話者の音声特徴
データに基づいて、不特定多数の話者の音声を基に学習
されたDRNNを再学習するものであり、入力データ記
憶部21、DRNN再学習処理部22、ある程度学習の
済んだ不特定話者用DRNN音声モデルのデータを記憶
するDRNN音声モデルデータ記憶部(以下、第1のD
RNNデータ記憶部という)23、再学習後のDRNN
音声モデルデータを記憶するDRNN音声モデルデータ
記憶部(以下、第2のDRNNデータ記憶部)24など
から構成される。なお、これら個々の機能などについて
は後述する。
【0033】音声認識部3は、前記DRNN再学習部2
により再学習された第2のDRNNデータ記憶部24に
記憶されたデータを用いて、入力話者の音声特徴ベクト
ル列をもとに入力音声中の単語に対するDRNN出力
(確からしさを示す数値)を出力するDRNN出力処理
部31、このDRNN出力処理部31からのDRNN出
力を基に音声認識処理を行う音声認識処理部32などか
ら構成されている。
により再学習された第2のDRNNデータ記憶部24に
記憶されたデータを用いて、入力話者の音声特徴ベクト
ル列をもとに入力音声中の単語に対するDRNN出力
(確からしさを示す数値)を出力するDRNN出力処理
部31、このDRNN出力処理部31からのDRNN出
力を基に音声認識処理を行う音声認識処理部32などか
ら構成されている。
【0034】次に、前記DRNN再学習部2について説
明する。
明する。
【0035】このDRNN再学習部2は、前記したよう
に、話者適応時に特定話者(ユーザ)の音声特徴データ
に基づいて、ある程度学習の済んだ不特定話者用のDR
NNを再学習するものである。
に、話者適応時に特定話者(ユーザ)の音声特徴データ
に基づいて、ある程度学習の済んだ不特定話者用のDR
NNを再学習するものである。
【0036】DRNNについては前記従来技術の説明で
も説明したが、ここで再度、その基本的な動作について
説明する。入力ユニットU1,U2,U3に入力される
各時刻における特徴ベクトルを構成する各次元ごとのデ
ータに対して、全てのユニット間相互の結合強度を示す
重みWij(ここで、iはi番目のユニット、jはj番
目のユニットであることを表し、Wijはユニットiと
ユニットjの間の重み係数であり、ここでは、ユニット
数が7個の例であるからiとjは1〜7のうちのいずれ
かの数値をとることになる)と、全てのユニットからの
出力が与えられるとともに、外部からのバイアスθi
(このiも1〜7のうちのいずれかの値である)が与え
られて、これらの出力と重みの積算値およびバイアスな
どにより変換された出力が出力ユニットから出力され
る。たとえば、出力ユニットがj番目のユニットjであ
るとすれば、この出力ユニットjは、他の全てのユニッ
トからの出力を受けて、その出力値とそれぞれのユニッ
ト間の重み係数との積算値および外部からのバイアスな
どを入力して、これら重み係数やバイアスなどにより変
換された値を出力する。
も説明したが、ここで再度、その基本的な動作について
説明する。入力ユニットU1,U2,U3に入力される
各時刻における特徴ベクトルを構成する各次元ごとのデ
ータに対して、全てのユニット間相互の結合強度を示す
重みWij(ここで、iはi番目のユニット、jはj番
目のユニットであることを表し、Wijはユニットiと
ユニットjの間の重み係数であり、ここでは、ユニット
数が7個の例であるからiとjは1〜7のうちのいずれ
かの数値をとることになる)と、全てのユニットからの
出力が与えられるとともに、外部からのバイアスθi
(このiも1〜7のうちのいずれかの値である)が与え
られて、これらの出力と重みの積算値およびバイアスな
どにより変換された出力が出力ユニットから出力され
る。たとえば、出力ユニットがj番目のユニットjであ
るとすれば、この出力ユニットjは、他の全てのユニッ
トからの出力を受けて、その出力値とそれぞれのユニッ
ト間の重み係数との積算値および外部からのバイアスな
どを入力して、これら重み係数やバイアスなどにより変
換された値を出力する。
【0037】このように、或る単語の特徴ベクトル列が
時系列データとして入力されると、その単語に対する適
切な出力が得られるようにするために、各ユニット間の
重みWijをそれぞれ決めている。また、バイアスθi
は外部からそれぞれのユニットに対して与えられるもの
で、常に或る一定の値に予め設定されている。
時系列データとして入力されると、その単語に対する適
切な出力が得られるようにするために、各ユニット間の
重みWijをそれぞれ決めている。また、バイアスθi
は外部からそれぞれのユニットに対して与えられるもの
で、常に或る一定の値に予め設定されている。
【0038】たとえば、或る不特定話者の「おはよう」
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力(教師出力)に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットU1,
U2,U3に与え、学習則に従って設定された重みWi
jおよび、バイアスθiによって変換する。
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力(教師出力)に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットU1,
U2,U3に与え、学習則に従って設定された重みWi
jおよび、バイアスθiによって変換する。
【0039】この例では、特徴ベクトル列の各時刻にお
ける特徴ベクトルは3次元ケプストラム係数で構成され
ているから、或る時刻における1次元目のデータは入力
ユニットU1に、2次元目のデータは入力ユニットU2
に、3次元目のデータは入力ユニットU3に入力され、
重みWijとバイアスθiにより変換される。これを時
系列データとして入力される或る1つの単語の特徴ベク
トル列について各時刻対応に時系列処理を行う。このよ
うにして、或る不特定話者の発話する単語の音声データ
に対して、その単語に対する教師出力に近い出力を得る
ようにしている。
ける特徴ベクトルは3次元ケプストラム係数で構成され
ているから、或る時刻における1次元目のデータは入力
ユニットU1に、2次元目のデータは入力ユニットU2
に、3次元目のデータは入力ユニットU3に入力され、
重みWijとバイアスθiにより変換される。これを時
系列データとして入力される或る1つの単語の特徴ベク
トル列について各時刻対応に時系列処理を行う。このよ
うにして、或る不特定話者の発話する単語の音声データ
に対して、その単語に対する教師出力に近い出力を得る
ようにしている。
【0040】このように、認識すべき単語全てに対応し
て用意されたDRNNは、それぞれの単語に対して適切
な出力が得られるように、前記した学習則によって、予
めある程度学習された状態となっている。
て用意されたDRNNは、それぞれの単語に対して適切
な出力が得られるように、前記した学習則によって、予
めある程度学習された状態となっている。
【0041】このようなある程度学習の進んだDRNN
に対して、特定話者の発する音声に適応した出力を得る
ために再学習処理を行う。以下、DRNN再学習処理部
22における本発明の再学習処理について説明する。
に対して、特定話者の発する音声に適応した出力を得る
ために再学習処理を行う。以下、DRNN再学習処理部
22における本発明の再学習処理について説明する。
【0042】本発明の再学習処理は、DRNNの重みW
ijを変化させるのではなく、バイアスθiを重みWi
jを変化させたのと同等に変化させることに特徴があ
る。これを行うために、外部から与えられるバイアスが
あたかも、重みであるかのように扱う。本来、DRNN
内のそれぞれのユニット(入力ユニット、出力ユニッ
ト、隠れユニット)は、それぞれ他のユニットからの出
力値と重みの積算値および外部からのバイアスなどを入
力して、これら出力と重みの積算値やバイアスなどによ
り変換された値を得るというような動作を行い、それぞ
れのユニット自身の値は常に変化するが、外部から与え
られるバイアスは常に一定の値である。このように、両
者は性質の違うものであるが、外部からのバイアスを重
みとして扱う必要があるため、DRNNの外部にダミー
のユニットを設ける。以下、図2を参照しながら説明す
る。
ijを変化させるのではなく、バイアスθiを重みWi
jを変化させたのと同等に変化させることに特徴があ
る。これを行うために、外部から与えられるバイアスが
あたかも、重みであるかのように扱う。本来、DRNN
内のそれぞれのユニット(入力ユニット、出力ユニッ
ト、隠れユニット)は、それぞれ他のユニットからの出
力値と重みの積算値および外部からのバイアスなどを入
力して、これら出力と重みの積算値やバイアスなどによ
り変換された値を得るというような動作を行い、それぞ
れのユニット自身の値は常に変化するが、外部から与え
られるバイアスは常に一定の値である。このように、両
者は性質の違うものであるが、外部からのバイアスを重
みとして扱う必要があるため、DRNNの外部にダミー
のユニットを設ける。以下、図2を参照しながら説明す
る。
【0043】図2はDRNNを示すもので、従来技術の
説明で用いた図10と基本的には同じであるが、本発明
を実現するために、DRNNの各ユニットに対して外部
からデータを与えるためのダミーのユニット(これを固
定出力ユニットという)Usを仮想的に設けている。
説明で用いた図10と基本的には同じであるが、本発明
を実現するために、DRNNの各ユニットに対して外部
からデータを与えるためのダミーのユニット(これを固
定出力ユニットという)Usを仮想的に設けている。
【0044】この固定出力ユニットUsは、他からはデ
ータを与えられることなく、常に「1.0」という値を出
し続けている。そして、実際に再学習を実行するとき
は、バイアスθiを固定出力ユニットUsからの重みと
して扱う。これにより、DRNNの各ユニットに与えら
れるバイアスは、重みと出力とを掛け算したものとなる
が、固定出力ユニットUsの出力は常に「1.0」である
ので、結局、その重みの値がDRNN内の個々のユニッ
トに与えられることになる。
ータを与えられることなく、常に「1.0」という値を出
し続けている。そして、実際に再学習を実行するとき
は、バイアスθiを固定出力ユニットUsからの重みと
して扱う。これにより、DRNNの各ユニットに与えら
れるバイアスは、重みと出力とを掛け算したものとなる
が、固定出力ユニットUsの出力は常に「1.0」である
ので、結局、その重みの値がDRNN内の個々のユニッ
トに与えられることになる。
【0045】つまり、入力音声に対して教師出力に近い
出力が得られるように、前記した重みを変化させるため
の学習則によって、固定出力ユニットUsからの重みを
学習し、バイアス項を決定している。このように、固定
出力ユニットUsというものを仮想的に用いると、学習
則におけるバイアスθiを、固定ユニットUsからの重
みとみなすことができるため、他のユニットからの重み
と同等に扱うことができ、前記した重みを変化させるた
めの学習則、つまり、(社)電子情報通信学会発行の信
学技報:technical report of IEICI sp92-125(199
3-01)の18頁に記載の学習則を適用することができ
る。
出力が得られるように、前記した重みを変化させるため
の学習則によって、固定出力ユニットUsからの重みを
学習し、バイアス項を決定している。このように、固定
出力ユニットUsというものを仮想的に用いると、学習
則におけるバイアスθiを、固定ユニットUsからの重
みとみなすことができるため、他のユニットからの重み
と同等に扱うことができ、前記した重みを変化させるた
めの学習則、つまり、(社)電子情報通信学会発行の信
学技報:technical report of IEICI sp92-125(199
3-01)の18頁に記載の学習則を適用することができ
る。
【0046】以上のように、本発明では、多数の不特定
話者の音声データを基に学習したDRNNを、ある特定
話者の音声に対して感度よく反応させるための再学習処
理を、DRNN内のユニット相互間の結合強度を示す重
みWijを変化させるのではなく、ダミーのユニットと
しての固定出力ユニットUsを設け、この固定出力ユニ
ットUsからのバイアスθiを重みWijと同等に扱
い、この重みを学習則を適用して変化させるようにして
いる。
話者の音声データを基に学習したDRNNを、ある特定
話者の音声に対して感度よく反応させるための再学習処
理を、DRNN内のユニット相互間の結合強度を示す重
みWijを変化させるのではなく、ダミーのユニットと
しての固定出力ユニットUsを設け、この固定出力ユニ
ットUsからのバイアスθiを重みWijと同等に扱
い、この重みを学習則を適用して変化させるようにして
いる。
【0047】したがって、話者適応時にユーザの発話す
る少量のデータで簡単に再学習処理が可能となり、ま
た、DRNN内のユニット相互間に設定された重みWi
jは変化させないので、不特定多数の話者の音声データ
を基に、ある程度、学習の進んだDRNNモデルデータ
を記憶する第1のDRNNデータ記憶部23は、個々の
ユニット相互間に予め設定された重みWijおよびバイ
アスθiを記憶する固定記憶装置としてのROMでよ
く、再学習後のDRNNモデルは、第1のDRNNデー
タ記憶部23の前記ユニット相互間に予め設定された重
みWijをそのまま用いることができるため、再学習後
のDRNNモデルデータを記憶する第2のDRNNデー
タ記憶部24は新たに学習された重みとしてのバイアス
を記憶するための小容量のRAMで構成すればよい。な
お、図1では第1のDRNNデータ記憶部23と第2の
DRNNデータ記憶部24とを別個に設けた例が示され
ているが、実際には、重みWijを記憶するROMは両
者で共用することができ、第2のDRNNデータ記憶部
24は、前記したように、重みとしてのバイアスを記憶
するための小容量のRAMだけで済む。
る少量のデータで簡単に再学習処理が可能となり、ま
た、DRNN内のユニット相互間に設定された重みWi
jは変化させないので、不特定多数の話者の音声データ
を基に、ある程度、学習の進んだDRNNモデルデータ
を記憶する第1のDRNNデータ記憶部23は、個々の
ユニット相互間に予め設定された重みWijおよびバイ
アスθiを記憶する固定記憶装置としてのROMでよ
く、再学習後のDRNNモデルは、第1のDRNNデー
タ記憶部23の前記ユニット相互間に予め設定された重
みWijをそのまま用いることができるため、再学習後
のDRNNモデルデータを記憶する第2のDRNNデー
タ記憶部24は新たに学習された重みとしてのバイアス
を記憶するための小容量のRAMで構成すればよい。な
お、図1では第1のDRNNデータ記憶部23と第2の
DRNNデータ記憶部24とを別個に設けた例が示され
ているが、実際には、重みWijを記憶するROMは両
者で共用することができ、第2のDRNNデータ記憶部
24は、前記したように、重みとしてのバイアスを記憶
するための小容量のRAMだけで済む。
【0048】そして、以上のようにして、或る特定話者
の音声に適応するために再学習されたDRNN音声モデ
ルを用いて、その特定話者の話す音声を音声認識部3で
認識処理することにより、その特定話者に適応した高精
度な認識処理が行える。
の音声に適応するために再学習されたDRNN音声モデ
ルを用いて、その特定話者の話す音声を音声認識部3で
認識処理することにより、その特定話者に適応した高精
度な認識処理が行える。
【0049】なお、以上の説明では、DRNN内の全て
のユニットに入力されるバイアス項を再学習する例を示
したが、これに限らず、入力ユニットのみに入力される
バイアス項を再学習させるようにしてもよい。すなわ
ち、図2のDRNNを例にした場合、入力ユニットU
1,U2,U3に入力されるバイアス項のみを変化させ
るようにする。
のユニットに入力されるバイアス項を再学習する例を示
したが、これに限らず、入力ユニットのみに入力される
バイアス項を再学習させるようにしてもよい。すなわ
ち、図2のDRNNを例にした場合、入力ユニットU
1,U2,U3に入力されるバイアス項のみを変化させ
るようにする。
【0050】このようにすることにより、特定話者の入
力音声に対して教師出力に近い出力が出るように変化さ
せるべきバイアス項の重みは入力ユニットU1,U2,
U3のみに入る重みだけとなるので、新たに学習された
重みとしてのバイアスを記憶するためのメモリ(RA
M)の容量をさらに小さくでき、かつ、処理速度の高速
化が図れる。また、入力ユニットは、もともと音声特徴
ベクトル列とバイアスが入力され、両者の和が入力され
れば良いのであるから、DRNNに入力される前の段階
で、再学習の結果、得られた重みを音声特徴ベクトルに
予め加算して前記DRNNに入力させるようにしても話
者適応の効果が得られることになる。すなわち、入力ユ
ニットのみに入る固定ユニットUsの重みを変化させる
ことにより再学習する方法は、音声入力データの平行移
動に相当するため、入力音声データに学習結果を加算す
るだけの処理となり、さらに処理が簡単なものとなり、
メモリ容量もさらに小さくすることができる。
力音声に対して教師出力に近い出力が出るように変化さ
せるべきバイアス項の重みは入力ユニットU1,U2,
U3のみに入る重みだけとなるので、新たに学習された
重みとしてのバイアスを記憶するためのメモリ(RA
M)の容量をさらに小さくでき、かつ、処理速度の高速
化が図れる。また、入力ユニットは、もともと音声特徴
ベクトル列とバイアスが入力され、両者の和が入力され
れば良いのであるから、DRNNに入力される前の段階
で、再学習の結果、得られた重みを音声特徴ベクトルに
予め加算して前記DRNNに入力させるようにしても話
者適応の効果が得られることになる。すなわち、入力ユ
ニットのみに入る固定ユニットUsの重みを変化させる
ことにより再学習する方法は、音声入力データの平行移
動に相当するため、入力音声データに学習結果を加算す
るだけの処理となり、さらに処理が簡単なものとなり、
メモリ容量もさらに小さくすることができる。
【0051】(第2の実施の形態)ベクトル量子化を用
いた音声認識における話者適応方法として、多数の不特
定話者の音声特徴データを基に作成された不特定話者コ
ードブックから、或る特定話者用の入力話者コードブッ
クを作成し、認識時においては、この入力話者コードブ
ックおよび不特定話者コードブックを用いて、或る特定
話者の音声を不特定話者空間にコードマッピングして、
そのコードベクトルを音声認識部に送るという話者適応
手段がある。
いた音声認識における話者適応方法として、多数の不特
定話者の音声特徴データを基に作成された不特定話者コ
ードブックから、或る特定話者用の入力話者コードブッ
クを作成し、認識時においては、この入力話者コードブ
ックおよび不特定話者コードブックを用いて、或る特定
話者の音声を不特定話者空間にコードマッピングして、
そのコードベクトルを音声認識部に送るという話者適応
手段がある。
【0052】第2の実施の形態は、このような話者適応
手段を用いた音声認識において、さらに、高い認識率で
の認識を可能とするように、前記入力話者音声の特徴デ
ータと不特定話者コードブックの誤差成分を用いて、前
記第1の実施の形態で説明したしたDRNNモデルを再
学習するようにしたものである。以下、詳細に説明す
る。
手段を用いた音声認識において、さらに、高い認識率で
の認識を可能とするように、前記入力話者音声の特徴デ
ータと不特定話者コードブックの誤差成分を用いて、前
記第1の実施の形態で説明したしたDRNNモデルを再
学習するようにしたものである。以下、詳細に説明す
る。
【0053】図3は第2の実施の形態を説明するブロッ
ク図であり、その構成は大きく分けると、音声入力部
1、DRNN再学習部2、音声認識部3、話者適応部4
から構成されている。
ク図であり、その構成は大きく分けると、音声入力部
1、DRNN再学習部2、音声認識部3、話者適応部4
から構成されている。
【0054】前記音声入力部1は、図1と同様、マイク
ロホン11、マイクロホン11から入力された音声をA
/D変換するA/D変換部12、A/D変換された音声
波形信号を、周波数分析を行い、周波数の特徴を表す音
声特徴ベクトル列を出力する音声分析部13などから構
成される。
ロホン11、マイクロホン11から入力された音声をA
/D変換するA/D変換部12、A/D変換された音声
波形信号を、周波数分析を行い、周波数の特徴を表す音
声特徴ベクトル列を出力する音声分析部13などから構
成される。
【0055】DRNN再学習部2は、第1の実施の形態
で説明したDRNN再学習処理部22、第1のDRNN
データ記憶部23、第2のDRNNデータ記憶部24の
他にデータ変換部25、このデータ変換部25で変換さ
れたデータを記憶する変換データ記憶部26が設けられ
ている。なお、このデータ変換部25については後に説
明する。
で説明したDRNN再学習処理部22、第1のDRNN
データ記憶部23、第2のDRNNデータ記憶部24の
他にデータ変換部25、このデータ変換部25で変換さ
れたデータを記憶する変換データ記憶部26が設けられ
ている。なお、このデータ変換部25については後に説
明する。
【0056】音声認識部3は、前記第1の実施の形態で
説明したように再学習されたDRNNモデルを用いて入
力話者の音声特徴ベクトル列をもとに入力音声中の単語
に対するDRNN出力(確からしさを示す数値)を出力
するDRNN出力処理部31、このDRNN出力処理部
31からのDRNN出力を基に音声認識処理を行う音声
認識処理部32などから構成されている。
説明したように再学習されたDRNNモデルを用いて入
力話者の音声特徴ベクトル列をもとに入力音声中の単語
に対するDRNN出力(確からしさを示す数値)を出力
するDRNN出力処理部31、このDRNN出力処理部
31からのDRNN出力を基に音声認識処理を行う音声
認識処理部32などから構成されている。
【0057】また、話者適応部4は、音声分析部13か
らの特徴ベクトル列を蓄える入力データ記憶部41、コ
ードブック変換処理部42、重心ベクトル記憶部43、
不特定話者コードブック44、入力話者コードブック4
5、ベクトル量子化部46などから構成され、これらに
ついての説明は後述する。
らの特徴ベクトル列を蓄える入力データ記憶部41、コ
ードブック変換処理部42、重心ベクトル記憶部43、
不特定話者コードブック44、入力話者コードブック4
5、ベクトル量子化部46などから構成され、これらに
ついての説明は後述する。
【0058】まず、話者適応部4について説明する。
【0059】この話者適応部4は、不特定多数の話者の
音声データを基に作成された不特定話者コードブック4
4から、或る特定の話者用の入力話者コードブック45
を作成し、認識時においては、この入力話者コードブッ
ク45および不特定話者コードブック44を用いて、或
る特定話者の音声を不特定話者空間にコードマッピング
して、そのコードベクトルを音声認識部3に送るもので
ある。
音声データを基に作成された不特定話者コードブック4
4から、或る特定の話者用の入力話者コードブック45
を作成し、認識時においては、この入力話者コードブッ
ク45および不特定話者コードブック44を用いて、或
る特定話者の音声を不特定話者空間にコードマッピング
して、そのコードベクトルを音声認識部3に送るもので
ある。
【0060】前記入力話者コードブック45を作成する
方法としては、多数の不特定話者の発する音声データを
分析して得られた不特定話者ごとの音声特徴ベクトル列
を得て、これら不特定話者ごとの特徴ベクトル列から単
語ごとの重心ベクトル列を求めておき、入力話者が発す
るある単語の音声データから得られた特徴ベクトル列
と、その単語の重心ベクトル列とを対応付けし、前記重
心ベクトル列を構成する各重心ベクトルに対応した差分
ベクトルを求め、その差分ベクトルを用いて、入力話者
コードブック45のコードベクトルを求めるようにす
る。
方法としては、多数の不特定話者の発する音声データを
分析して得られた不特定話者ごとの音声特徴ベクトル列
を得て、これら不特定話者ごとの特徴ベクトル列から単
語ごとの重心ベクトル列を求めておき、入力話者が発す
るある単語の音声データから得られた特徴ベクトル列
と、その単語の重心ベクトル列とを対応付けし、前記重
心ベクトル列を構成する各重心ベクトルに対応した差分
ベクトルを求め、その差分ベクトルを用いて、入力話者
コードブック45のコードベクトルを求めるようにす
る。
【0061】ここで、前記多数話者の音声データの重心
ベクトル列というのは、ある単語を不特定の200人程
度の話者に発話させ、その音声を短時間ごとに音声分析
して得られた特徴ベクトル(たとえば、数次元のLPC
ケプストラム係数による特徴ベクトル)を求め、各不特
定話者ごとの特徴ベクトルを各時刻ごとに平均を取って
得られたベクトル列である。これを図4により簡単に説
明する。図4は、たとえば、「おはよう」という単語
を、A,B,C,Dの4人の話者に発話させて得られた
特徴ベクトル列であるとする。
ベクトル列というのは、ある単語を不特定の200人程
度の話者に発話させ、その音声を短時間ごとに音声分析
して得られた特徴ベクトル(たとえば、数次元のLPC
ケプストラム係数による特徴ベクトル)を求め、各不特
定話者ごとの特徴ベクトルを各時刻ごとに平均を取って
得られたベクトル列である。これを図4により簡単に説
明する。図4は、たとえば、「おはよう」という単語
を、A,B,C,Dの4人の話者に発話させて得られた
特徴ベクトル列であるとする。
【0062】このように、同じ「おはよう」という単語
を発話した場合でも、A,B,C,Dの人の「おはよ
う」という単語に対する特徴ベクトル列は、それぞれの
人の個性によって時間的な長さや特徴ベクトルに違いが
生じる。
を発話した場合でも、A,B,C,Dの人の「おはよ
う」という単語に対する特徴ベクトル列は、それぞれの
人の個性によって時間的な長さや特徴ベクトルに違いが
生じる。
【0063】次に、この「おはよう」という単語に対す
るA,B,C,Dの人の特徴ベクトル列を、それぞれの
時刻ごとに重心ベクトルを求めるわけであるが、この重
心ベクトルを求めるに際して、それぞれの特徴ベクトル
列の時間的な長さを正規化、つまり、それぞれの特徴ベ
クトルの数を同一にする必要がある。これを行うために
どれか1つの特徴ベクトル列を基準ベクトル列として選
び、その基準ベクトル列とのDPマッチングを取ること
で正規化を行う。
るA,B,C,Dの人の特徴ベクトル列を、それぞれの
時刻ごとに重心ベクトルを求めるわけであるが、この重
心ベクトルを求めるに際して、それぞれの特徴ベクトル
列の時間的な長さを正規化、つまり、それぞれの特徴ベ
クトルの数を同一にする必要がある。これを行うために
どれか1つの特徴ベクトル列を基準ベクトル列として選
び、その基準ベクトル列とのDPマッチングを取ること
で正規化を行う。
【0064】なお、ここでは、Bの特徴ベクトル列を基
準のベクトル列とする。そして、この基準となるBの特
徴ベクトル列の時刻t1,t2,t3,t4における特
徴ベクトルCb1,Cb2,Cb3,Cb4に対して、
Aの特徴ベクトル列のそれぞれの時刻における特徴ベク
トルCa1,Ca2,Ca3、Cの特徴ベクトル列のそ
れぞれの時刻における特徴ベクトルCc1,Cc2,C
c3,Cc4,Cc4、Dの特徴ベクトル列のそれぞれ
の時刻における特徴ベクトルCd1,Cd2,Cd3,
Cd4,Cd5,Cd6をDPマッチングにより対応付
けする。
準のベクトル列とする。そして、この基準となるBの特
徴ベクトル列の時刻t1,t2,t3,t4における特
徴ベクトルCb1,Cb2,Cb3,Cb4に対して、
Aの特徴ベクトル列のそれぞれの時刻における特徴ベク
トルCa1,Ca2,Ca3、Cの特徴ベクトル列のそ
れぞれの時刻における特徴ベクトルCc1,Cc2,C
c3,Cc4,Cc4、Dの特徴ベクトル列のそれぞれ
の時刻における特徴ベクトルCd1,Cd2,Cd3,
Cd4,Cd5,Cd6をDPマッチングにより対応付
けする。
【0065】このように、基準となる特徴ベクトル列の
各時刻における特徴ベクトルに対して、その他の特徴ベ
クトル列の特徴ベクトルがDPマッチングにより対応付
けされることにより、特徴ベクトルの数を正規化するこ
とができる。
各時刻における特徴ベクトルに対して、その他の特徴ベ
クトル列の特徴ベクトルがDPマッチングにより対応付
けされることにより、特徴ベクトルの数を正規化するこ
とができる。
【0066】つまり、基準となるBの特徴ベクトル列と
たとえばAの特徴ベクトル列は、Cb1に対してはCa
1が対応付けされ、Cb2に対してはCa2が対応付け
され、Cb3とCb4に対してはそれぞれCa3が対応
付けされるというような対応付けがなされる。
たとえばAの特徴ベクトル列は、Cb1に対してはCa
1が対応付けされ、Cb2に対してはCa2が対応付け
され、Cb3とCb4に対してはそれぞれCa3が対応
付けされるというような対応付けがなされる。
【0067】以上のようにして、基準となる特徴ベクト
ル列とそれ以外の特徴ベクトル列とを、DPマッチング
により対応付けすることにより、特徴ベクトルの数の正
規化がなされる。そして、それぞれ対応づけられた特徴
ベクトルごとに重心ベクトルを求める。
ル列とそれ以外の特徴ベクトル列とを、DPマッチング
により対応付けすることにより、特徴ベクトルの数の正
規化がなされる。そして、それぞれ対応づけられた特徴
ベクトルごとに重心ベクトルを求める。
【0068】この重心ベクトルを求める手法はどのよう
な方法を用いてもよいが、ここでは、以下のようにして
重心ベクトルを求める。
な方法を用いてもよいが、ここでは、以下のようにして
重心ベクトルを求める。
【0069】時刻t1における特徴ベクトルCa1,C
b1,Cc1,Cd1が、それぞれ10次元のLPCケ
プストラム係数で構成されているとした場合、それぞれ
の10次元LPCケプストラム係数を、 Ca1=(Ca10,Ca11,・・・,Ca19) Cb1=(Cb10,Cb11,・・・,Cb19) Cc1=(Cc10,Cc11,・・・,Cc19) Cd1=(Cd10,Cd11,・・・,Cd19) とすると、それぞれの次元毎の平均の値で構成される1
0次元のLPCケプストラム係数を時刻t1における重
心ベクトルとする。つまり、1次元目の平均値Cα10
は Cα10=(Ca10+Cb10+Cc10+Cd1
0)/4 2次元目の平均値Cα11は、 Cα11=(Ca11+Cb11+Cc11+Cd1
1)/4 10次元目の平均値Cα19は Cα19=(Ca19+Cb10+Cc19+Cd1
9)/4 となる。このようにして求められた時刻t1における1
0次元LPCケプストラム係数の平均(Cα10,Cα
11,・・・、Cα19)を、時刻t1における重心ベ
クトルとし、これをCs1で表す。同様にして、時刻t
2,t3,・・・における重心ベクトルCs2,Cs
3,・・・を求める。このようにして求められた重心ベ
クトルCs1,Cs2,Cs3,・・・で構成される重
心ベクトル列を図4において一点鎖線で表し、求められ
た重心ベクトルCs1,Cs2,Cs3,Cs4は、こ
の図では白丸で表している。
b1,Cc1,Cd1が、それぞれ10次元のLPCケ
プストラム係数で構成されているとした場合、それぞれ
の10次元LPCケプストラム係数を、 Ca1=(Ca10,Ca11,・・・,Ca19) Cb1=(Cb10,Cb11,・・・,Cb19) Cc1=(Cc10,Cc11,・・・,Cc19) Cd1=(Cd10,Cd11,・・・,Cd19) とすると、それぞれの次元毎の平均の値で構成される1
0次元のLPCケプストラム係数を時刻t1における重
心ベクトルとする。つまり、1次元目の平均値Cα10
は Cα10=(Ca10+Cb10+Cc10+Cd1
0)/4 2次元目の平均値Cα11は、 Cα11=(Ca11+Cb11+Cc11+Cd1
1)/4 10次元目の平均値Cα19は Cα19=(Ca19+Cb10+Cc19+Cd1
9)/4 となる。このようにして求められた時刻t1における1
0次元LPCケプストラム係数の平均(Cα10,Cα
11,・・・、Cα19)を、時刻t1における重心ベ
クトルとし、これをCs1で表す。同様にして、時刻t
2,t3,・・・における重心ベクトルCs2,Cs
3,・・・を求める。このようにして求められた重心ベ
クトルCs1,Cs2,Cs3,・・・で構成される重
心ベクトル列を図4において一点鎖線で表し、求められ
た重心ベクトルCs1,Cs2,Cs3,Cs4は、こ
の図では白丸で表している。
【0070】以上は、「おはよう」という単語に対する
不特定話者の重心ベクトル列を求める場合であるが、
「おはよう」以外にも幾つかの単語に対して同様に、不
特定話者の重心ベクトルを求め、これら幾つかの単語に
対する不特定話者の重心ベクトル列を図1の重心ベクト
ル記憶部43に記憶させておく。
不特定話者の重心ベクトル列を求める場合であるが、
「おはよう」以外にも幾つかの単語に対して同様に、不
特定話者の重心ベクトルを求め、これら幾つかの単語に
対する不特定話者の重心ベクトル列を図1の重心ベクト
ル記憶部43に記憶させておく。
【0071】次に、ユーザの話す音声を用いて入力話者
コードブック45を作成する処理について説明する。
コードブック45を作成する処理について説明する。
【0072】話者適応を行うに際して、システム側か
ら、話者適応用の単語として、たとえば、「おはよう」
と話して下さいというような指示がなされ、ユーザがそ
の指示にしたがって、「おはよう」と発話すると、音声
分析部13から周波数の特徴を表す音声特徴ベクトル列
が出力される。そして、その音声分析された特徴ベクト
ルは入力データ記憶部41に、一旦、記憶される。同様
に、次の話者適応用の単語として、たとえば、「こんに
ちわ」と話して下さいというような指示がなされ、ユー
ザがその指示にしたがって、「こんにちわ」と言うと、
その特徴ベクトル列が入力データ記憶部41に記憶され
る。このようにして、幾つかの話者適応用の単語の特徴
ベクトル列が記憶される。
ら、話者適応用の単語として、たとえば、「おはよう」
と話して下さいというような指示がなされ、ユーザがそ
の指示にしたがって、「おはよう」と発話すると、音声
分析部13から周波数の特徴を表す音声特徴ベクトル列
が出力される。そして、その音声分析された特徴ベクト
ルは入力データ記憶部41に、一旦、記憶される。同様
に、次の話者適応用の単語として、たとえば、「こんに
ちわ」と話して下さいというような指示がなされ、ユー
ザがその指示にしたがって、「こんにちわ」と言うと、
その特徴ベクトル列が入力データ記憶部41に記憶され
る。このようにして、幾つかの話者適応用の単語の特徴
ベクトル列が記憶される。
【0073】入力話者コードブック45の作成は、コー
ドブック変換処理部42が不特定話者コードブック4
4、重心ベクトル列記憶部43、入力データ記憶部41
のそれぞれのデータを用いて行う。以下、この処理を図
5を参照しながら説明する。
ドブック変換処理部42が不特定話者コードブック4
4、重心ベクトル列記憶部43、入力データ記憶部41
のそれぞれのデータを用いて行う。以下、この処理を図
5を参照しながら説明する。
【0074】図5は不特定話者コードブック44を表
し、ここでは、そのサイズを256とし、白丸で示す2
56個の不特定話者コードベクトルで構成されている。
そして、これらの不特定話者のコードベクトルをCk
1,Ck2,Ck3,・・・,Ck256で表し、実際
には、256個のコードベクトルで構成されるが、図5
ではこのコードベクトルはCk1,Ck2,・・・,C
k9のみが図示されている。この不特定話者コードベク
トルは、たとえば、200単語程度の単語数をそれぞれ
の単語ごとに200人程度の人に話してもらったとき得
られる特徴ベクトル数、つまり、1つの単語につき25
個程度の特徴ベクトル数が有るとすると、100万個程
度の特徴ベクトルが得られるが、それをベクトル量子化
して256個の代表のコードベクトルにまとめたもので
ある。
し、ここでは、そのサイズを256とし、白丸で示す2
56個の不特定話者コードベクトルで構成されている。
そして、これらの不特定話者のコードベクトルをCk
1,Ck2,Ck3,・・・,Ck256で表し、実際
には、256個のコードベクトルで構成されるが、図5
ではこのコードベクトルはCk1,Ck2,・・・,C
k9のみが図示されている。この不特定話者コードベク
トルは、たとえば、200単語程度の単語数をそれぞれ
の単語ごとに200人程度の人に話してもらったとき得
られる特徴ベクトル数、つまり、1つの単語につき25
個程度の特徴ベクトル数が有るとすると、100万個程
度の特徴ベクトルが得られるが、それをベクトル量子化
して256個の代表のコードベクトルにまとめたもので
ある。
【0075】このような不特定話者コードブック44に
対して、たとえば、前記のように求められた「おはよ
う」に対する重心ベクトル列(ここでは、図中、黒丸で
示し、重心ベクトルCs1,Cs2,・・・,Cs7で
構成されているものとする)をベクトル量子化する。つ
まり、「おはよう」の重心ベクトル列とCk1,Ck
2,・・・,Ck256のコードベクトルとのDPマッ
チングを取ると、重心ベクトル列の1番目と2番目の重
心ベクトルCs1,Cs2はコードベクトルCk1と対
応づけられ、3番目の重心ベクトルCs3はコードベク
トルCk3と対応づけられ、4番目の重心ベクトルCs
4はコードベクトルCk4と対応づけられ、5番目、6
番目、7番目の重心ベクトルCs5,Cs6,Cs7は
それぞれコードベクトルCk5と対応づけられる、これ
により、「おはよう」の重心ベクトル列は、Ck1,C
k1,Ck3,Ck4,Ck5,Ck5,Ck5のコー
ドベクトル列に置き換えられることになる。
対して、たとえば、前記のように求められた「おはよ
う」に対する重心ベクトル列(ここでは、図中、黒丸で
示し、重心ベクトルCs1,Cs2,・・・,Cs7で
構成されているものとする)をベクトル量子化する。つ
まり、「おはよう」の重心ベクトル列とCk1,Ck
2,・・・,Ck256のコードベクトルとのDPマッ
チングを取ると、重心ベクトル列の1番目と2番目の重
心ベクトルCs1,Cs2はコードベクトルCk1と対
応づけられ、3番目の重心ベクトルCs3はコードベク
トルCk3と対応づけられ、4番目の重心ベクトルCs
4はコードベクトルCk4と対応づけられ、5番目、6
番目、7番目の重心ベクトルCs5,Cs6,Cs7は
それぞれコードベクトルCk5と対応づけられる、これ
により、「おはよう」の重心ベクトル列は、Ck1,C
k1,Ck3,Ck4,Ck5,Ck5,Ck5のコー
ドベクトル列に置き換えられることになる。
【0076】そして、入力データ記憶部41に記憶され
ているユーザからの「おはよう」の特徴ベクトル列を、
前記量子化された「おはよう」の重心ベクトル列(重心
コードベクトル列という)に対してDPマッチングによ
り対応付けを行う。
ているユーザからの「おはよう」の特徴ベクトル列を、
前記量子化された「おはよう」の重心ベクトル列(重心
コードベクトル列という)に対してDPマッチングによ
り対応付けを行う。
【0077】これを図6に示す。なお、図6において
は、説明を分かり易くするため、不特定話者コードブッ
ク44の内容は、「おはよう」の重心コードベクトル列
Ck1,Ck3,Ck4,Ck5のみを示し、他のコー
ドベクトルは図示を省略している。
は、説明を分かり易くするため、不特定話者コードブッ
ク44の内容は、「おはよう」の重心コードベクトル列
Ck1,Ck3,Ck4,Ck5のみを示し、他のコー
ドベクトルは図示を省略している。
【0078】ここで、ユーザからの「おはよう」が入力
されると、その「おはよう」の特徴ベクトル列(入力話
者特徴ベクトル列)と前記重心コードベクトルCk1,
Ck3,Ck4,Ck5とをDPマッチングにより対応
づける。前記入力話者特徴ベクトル列のそれぞれの特徴
ベクトルCi1,Ci2,Ci3,Ci4,Ci5,C
i6が図6に示すような位置であるとすれば、前記重心
コードベクトル列Ck1,Ck1,Ck3,Ck4,C
k5,Ck5,Ck5とのDPマッチングをとると、こ
の場合、入力話者特徴ベクトルCi1,Ci2はそれぞ
れ重心コードベクトルCk1に対応づけられ、入力話者
特徴ベクトルCi3は重心コードベクトルCk3に対応
づけられ、入力話者特徴ベクトルCi4,Ci5はそれ
ぞれ重心コードベクトルCk4に対応づけられ、入力話
者特徴ベクトルCi6は重心コードベクトルCk5に対
応づけられる。
されると、その「おはよう」の特徴ベクトル列(入力話
者特徴ベクトル列)と前記重心コードベクトルCk1,
Ck3,Ck4,Ck5とをDPマッチングにより対応
づける。前記入力話者特徴ベクトル列のそれぞれの特徴
ベクトルCi1,Ci2,Ci3,Ci4,Ci5,C
i6が図6に示すような位置であるとすれば、前記重心
コードベクトル列Ck1,Ck1,Ck3,Ck4,C
k5,Ck5,Ck5とのDPマッチングをとると、こ
の場合、入力話者特徴ベクトルCi1,Ci2はそれぞ
れ重心コードベクトルCk1に対応づけられ、入力話者
特徴ベクトルCi3は重心コードベクトルCk3に対応
づけられ、入力話者特徴ベクトルCi4,Ci5はそれ
ぞれ重心コードベクトルCk4に対応づけられ、入力話
者特徴ベクトルCi6は重心コードベクトルCk5に対
応づけられる。
【0079】このようにして、入力話者特徴ベクトル列
と、前記重心コードベクトル列との対応付けがなされる
と、次に、対応づけられたベクトル間の差分ベクトル
(入力話者特徴ベクトル−重心コードベクトル)を求め
る。この場合、入力話者特徴ベクトルCi1,Ci2は
それぞれCk1に対応づけられているので、差分ベクト
ルV1は、入力話者特徴ベクトルCi1,Ci2の平均
を取って、 V1=(Ci1+Ci2)/2−Ck1 で求められ、同様に、入力話者特徴ベクトルCi3はC
k3に対応づけられられているので、差分ベクトルV3
は、 V3=Ci3−Ck3 で求められ、同様に、入力話者特徴ベクトルCi4,C
i5はそれぞれCk4に対応づけられているので、差分
ベクトルV4は、入力話者特徴ベクトルCi4,Ci5
の平均を取って、 V4=(Ci4+Ci5)/2−Ck4 で求められ、同様に、入力話者特徴ベクトルCi6はC
k5に対応づけられているので、差分ベクトルV5は、 V5=Ci6−Ck5 で求められる。すなわち、重心コードベクトル列の各重
心コードベクトルCk1,Ck3,Ck4,Ck5は、
入力話者特徴ベクトル列に対し、前記のように求められ
たV1,V3,V4,V5の差分ベクトルを有している
ということである。
と、前記重心コードベクトル列との対応付けがなされる
と、次に、対応づけられたベクトル間の差分ベクトル
(入力話者特徴ベクトル−重心コードベクトル)を求め
る。この場合、入力話者特徴ベクトルCi1,Ci2は
それぞれCk1に対応づけられているので、差分ベクト
ルV1は、入力話者特徴ベクトルCi1,Ci2の平均
を取って、 V1=(Ci1+Ci2)/2−Ck1 で求められ、同様に、入力話者特徴ベクトルCi3はC
k3に対応づけられられているので、差分ベクトルV3
は、 V3=Ci3−Ck3 で求められ、同様に、入力話者特徴ベクトルCi4,C
i5はそれぞれCk4に対応づけられているので、差分
ベクトルV4は、入力話者特徴ベクトルCi4,Ci5
の平均を取って、 V4=(Ci4+Ci5)/2−Ck4 で求められ、同様に、入力話者特徴ベクトルCi6はC
k5に対応づけられているので、差分ベクトルV5は、 V5=Ci6−Ck5 で求められる。すなわち、重心コードベクトル列の各重
心コードベクトルCk1,Ck3,Ck4,Ck5は、
入力話者特徴ベクトル列に対し、前記のように求められ
たV1,V3,V4,V5の差分ベクトルを有している
ということである。
【0080】このようにして、差分ベクトルV1,V
3,V4,V5が求められると、次に、この差分ベクト
ルを用いて、入力話者の「おはよう」に対するコードベ
クトルを求め、それを入力話者コードブック45にマッ
ピングする。
3,V4,V5が求められると、次に、この差分ベクト
ルを用いて、入力話者の「おはよう」に対するコードベ
クトルを求め、それを入力話者コードブック45にマッ
ピングする。
【0081】ここで、求めるコードベクトルをCtxで
表す(このxはコードベクトルの番号を表し、ここでは
1,3,4,5の数値を取る)と、 Ct1=Ck1+V1 Ct3=Ck3+V3 Ct4=Ck4+V4 Ct5=Ck5+V5 となる。
表す(このxはコードベクトルの番号を表し、ここでは
1,3,4,5の数値を取る)と、 Ct1=Ck1+V1 Ct3=Ck3+V3 Ct4=Ck4+V4 Ct5=Ck5+V5 となる。
【0082】これらCt1,Ct3,Ct4,Ct5
は、不特定話者コードブック23における「おはよう」
の重心コードベクトルCk1,Ck3,Ck4,Ck5
と入力話者の特徴ベクトル列とを対応付けし、その差分
ベクトルV1,V3,V4,V5を、不特定話者コード
ブック44の重心コードベクトルCk1,Ck3,Ck
4,Ck5にプラスして得られたコードベクトルであ
り、図6に示すように、不特定話者コードブック23の
コードベクトルが差分ベクトルにより、入力話者コード
ブック42のコードベクトルに変換される。
は、不特定話者コードブック23における「おはよう」
の重心コードベクトルCk1,Ck3,Ck4,Ck5
と入力話者の特徴ベクトル列とを対応付けし、その差分
ベクトルV1,V3,V4,V5を、不特定話者コード
ブック44の重心コードベクトルCk1,Ck3,Ck
4,Ck5にプラスして得られたコードベクトルであ
り、図6に示すように、不特定話者コードブック23の
コードベクトルが差分ベクトルにより、入力話者コード
ブック42のコードベクトルに変換される。
【0083】ただし、この場合、「おはよう」という1
つの話者適応用の単語のみについて考えているので、4
つのコードベクトルCk1,Ck3,Ck4,Ck5の
みが変換されたコードベクトルとして求められたことに
なるが、その他の話者適応用の単語について同様の処理
を行うことにより、それに対する入力話者コードベクト
ルが作成される。
つの話者適応用の単語のみについて考えているので、4
つのコードベクトルCk1,Ck3,Ck4,Ck5の
みが変換されたコードベクトルとして求められたことに
なるが、その他の話者適応用の単語について同様の処理
を行うことにより、それに対する入力話者コードベクト
ルが作成される。
【0084】このようにして、不特定話者コードブック
44のコードベクトルが入力話者コードブック45のコ
ードベクトルに変換されて入力話者コードブックが作成
されるが、不特定話者コードブック44内に、たとえ
ば、256個のコードベクトルがあるとすると、全てが
変換されるものではなく、変換されないコードベクトル
(未学習コードベクトルという)も多く存在する。この
未学習コードベクトルを変換するための処理(これを補
間処理という)について以下に説明する。
44のコードベクトルが入力話者コードブック45のコ
ードベクトルに変換されて入力話者コードブックが作成
されるが、不特定話者コードブック44内に、たとえ
ば、256個のコードベクトルがあるとすると、全てが
変換されるものではなく、変換されないコードベクトル
(未学習コードベクトルという)も多く存在する。この
未学習コードベクトルを変換するための処理(これを補
間処理という)について以下に説明する。
【0085】ここでは、説明を簡略化するため、「おは
よう」という1つの話者適応用の単語のみについて考え
るものとし、この「おはよう」という単語に対して4つ
の重心コードベクトルCk1,Ck3,Ck4,Ck5
が入力話者コードブックへのコードベクトルとして変換
され、そのほか変換すべきコードベクトル(未学習コー
ドベクトル)は図7に示すように、Ck2,Ck6,C
k7,Ck8,Ck9であるとする。
よう」という1つの話者適応用の単語のみについて考え
るものとし、この「おはよう」という単語に対して4つ
の重心コードベクトルCk1,Ck3,Ck4,Ck5
が入力話者コードブックへのコードベクトルとして変換
され、そのほか変換すべきコードベクトル(未学習コー
ドベクトル)は図7に示すように、Ck2,Ck6,C
k7,Ck8,Ck9であるとする。
【0086】この未学習コードベクトルCk2,Ck
6,Ck7,Ck8,Ck9のうち、今、Ck2を入力
話者コードブックへ変換するための補間処理について図
8を参照しながら説明する。
6,Ck7,Ck8,Ck9のうち、今、Ck2を入力
話者コードブックへ変換するための補間処理について図
8を参照しながら説明する。
【0087】図8において、未学習コードベクトルCk
2の周辺に存在する学習済みのコードベクトルのうち、
3つのコードベクトルを選ぶ。この場合、未学習コード
ベクトルCk2の周辺には、学習済みのコードベクトル
としてCk1,Ck3,Ck4,Ck5の4つが存在す
るが、このうち、コードベクトルCk1,Ck4,Ck
5の3個がCk2に近い距離に存在する学習済みのコー
ドベクトルであるとすると、これら近い距離の3つの学
習済みコードベクトルを選択し、これらのコードベクト
ルCk1,Ck4,Ck5に対応する前記差分ベクトル
V1,V4,V5を用いて、未学習コードベクトルCk
2に対する差分ベクトルV2を決定する。このV2は、 V2=μ21・V1+μ24・V4+μ25・V5 で求められる。この式において、μ21、μ24、μ2
5は重みを表す係数であり、μ21はCk2とCk1の
距離に応じた重み、μ24はCk2とCk4の距離に応
じた重み、μ25はCk2とCk5の距離に応じた重み
であることを示し、それぞれの距離に応じて重みの大き
さが設定され、μ21+μ24+μ25=1となるよう
に設定される。このようにして、Ck2に対する差分ベ
クトルが決定され、その差分ベクトルV2を用い、 Ct2=Ck2+V2 により、未学習コードベクトルCk2が入力話者コード
ブックのコードベクトルに変換される。
2の周辺に存在する学習済みのコードベクトルのうち、
3つのコードベクトルを選ぶ。この場合、未学習コード
ベクトルCk2の周辺には、学習済みのコードベクトル
としてCk1,Ck3,Ck4,Ck5の4つが存在す
るが、このうち、コードベクトルCk1,Ck4,Ck
5の3個がCk2に近い距離に存在する学習済みのコー
ドベクトルであるとすると、これら近い距離の3つの学
習済みコードベクトルを選択し、これらのコードベクト
ルCk1,Ck4,Ck5に対応する前記差分ベクトル
V1,V4,V5を用いて、未学習コードベクトルCk
2に対する差分ベクトルV2を決定する。このV2は、 V2=μ21・V1+μ24・V4+μ25・V5 で求められる。この式において、μ21、μ24、μ2
5は重みを表す係数であり、μ21はCk2とCk1の
距離に応じた重み、μ24はCk2とCk4の距離に応
じた重み、μ25はCk2とCk5の距離に応じた重み
であることを示し、それぞれの距離に応じて重みの大き
さが設定され、μ21+μ24+μ25=1となるよう
に設定される。このようにして、Ck2に対する差分ベ
クトルが決定され、その差分ベクトルV2を用い、 Ct2=Ck2+V2 により、未学習コードベクトルCk2が入力話者コード
ブックのコードベクトルに変換される。
【0088】同様にして、Ck2以外の未学習コードベ
クトルCk6,Ck7,Ck8,Ck9のそれぞれの差
分ベクトルが求められ、それぞれの差分ベクトルを用い
て変換される。
クトルCk6,Ck7,Ck8,Ck9のそれぞれの差
分ベクトルが求められ、それぞれの差分ベクトルを用い
て変換される。
【0089】以上のような処理により、入力話者コード
ブック45が作成される。これにより、音声認識時に
は、特定話者の音声特徴ベクトル列を、前記のように作
成された入力話者コードブックおよび不特定話者コード
ブックを用いて、不特定話者空間に写像された特徴コー
ドベクトルとして出力し、音声認識部3では、不特定話
者空間に写像された入力話者の特徴コードベクトルを用
いて音声認識処理することにより、音声認識性能をより
一層向上させることができる。
ブック45が作成される。これにより、音声認識時に
は、特定話者の音声特徴ベクトル列を、前記のように作
成された入力話者コードブックおよび不特定話者コード
ブックを用いて、不特定話者空間に写像された特徴コー
ドベクトルとして出力し、音声認識部3では、不特定話
者空間に写像された入力話者の特徴コードベクトルを用
いて音声認識処理することにより、音声認識性能をより
一層向上させることができる。
【0090】ところで、入力話者の或る単語における音
声特徴データを不特定話者空間に写像しても、入力話者
の音声データの特徴は完全には吸収されずに或る程度は
残される。この残った入力音声の特徴量が音声認識時に
おいて、不特定話者音声モデルを用いての音声認識を行
う際に音声認識精度を低下させる原因ともなる。
声特徴データを不特定話者空間に写像しても、入力話者
の音声データの特徴は完全には吸収されずに或る程度は
残される。この残った入力音声の特徴量が音声認識時に
おいて、不特定話者音声モデルを用いての音声認識を行
う際に音声認識精度を低下させる原因ともなる。
【0091】そこで、この第2の実施の形態では、入力
話者の音声を不特定話者空間に写像したデータを用い
て、不特定話者用のDRNNモデルを再学習し、再学習
後のDRNN音声モデルを用いて音声認識する。以下に
その処理について説明する。
話者の音声を不特定話者空間に写像したデータを用い
て、不特定話者用のDRNNモデルを再学習し、再学習
後のDRNN音声モデルを用いて音声認識する。以下に
その処理について説明する。
【0092】図9(a)は入力話者コードブック45、
同図(b)は不特定話者コードブック44を示すもの
で、不特定話者コードブック44のコードベクトルCk
1,CK2,・・・と入力話者コードブック45のコー
ドベクトルCt1,Ct2,・・・は、Ck1とCt
1,Ck2とCt2というようにそれぞれ対応付けされ
ている。
同図(b)は不特定話者コードブック44を示すもの
で、不特定話者コードブック44のコードベクトルCk
1,CK2,・・・と入力話者コードブック45のコー
ドベクトルCt1,Ct2,・・・は、Ck1とCt
1,Ck2とCt2というようにそれぞれ対応付けされ
ている。
【0093】入力話者がたとえば「おはよう」という単
語を発話したときの音声特徴ベクトル列Co1,Co
2,・・・,Co7について考える。今、この特徴ベク
トル列Co1,Co2,・・・,Co7のうち、特徴ベ
クトルCo1を例に取る。このCo1に近い3つのコー
ドベクトルCt1,Ct2,Ct3を選び、特徴ベクト
ルCo1と3つのコードベクトルCt1,Ct2,Ct
3のそれぞれの距離d1,d2,d3を求め、その距離
の大きさに応じた重みw1,w2,w3を設定する。こ
の重みは距離が大きいほど大きな値とし、w1+w2+
w3=1となるように設定される。
語を発話したときの音声特徴ベクトル列Co1,Co
2,・・・,Co7について考える。今、この特徴ベク
トル列Co1,Co2,・・・,Co7のうち、特徴ベ
クトルCo1を例に取る。このCo1に近い3つのコー
ドベクトルCt1,Ct2,Ct3を選び、特徴ベクト
ルCo1と3つのコードベクトルCt1,Ct2,Ct
3のそれぞれの距離d1,d2,d3を求め、その距離
の大きさに応じた重みw1,w2,w3を設定する。こ
の重みは距離が大きいほど大きな値とし、w1+w2+
w3=1となるように設定される。
【0094】そして、このように設定されたw1,w
2,w3を用いて、特徴ベクトルCo1を不特定話者コ
ードブック44に写像する。この写像された特徴ベクト
ルをCo1’で表すと、Co1’は、 Co1’=w1・Ck1+w2・Ck2+w3・Ck3 で表される。このようにして、他の特徴ベクトルCo
2,Co3,・・・も同様に、不特定話者コードブック
44に写像する(写像された特徴ベクトル列をCo
1’,Co2’,・・・,Co7’で表す)。以上説明
した入力話者のデータを変換コードブックと不特定話者
コードブックの対応を用いて不特定話者空間に変換する
処理は、図3のデータ変換部25で行い、各単語ごとの
変換データは変換データ記憶部26に蓄えられる。
2,w3を用いて、特徴ベクトルCo1を不特定話者コ
ードブック44に写像する。この写像された特徴ベクト
ルをCo1’で表すと、Co1’は、 Co1’=w1・Ck1+w2・Ck2+w3・Ck3 で表される。このようにして、他の特徴ベクトルCo
2,Co3,・・・も同様に、不特定話者コードブック
44に写像する(写像された特徴ベクトル列をCo
1’,Co2’,・・・,Co7’で表す)。以上説明
した入力話者のデータを変換コードブックと不特定話者
コードブックの対応を用いて不特定話者空間に変換する
処理は、図3のデータ変換部25で行い、各単語ごとの
変換データは変換データ記憶部26に蓄えられる。
【0095】このようにして、変換データ記憶部26に
蓄えられた単語毎の変換データ(不特定話者コードブッ
ク44に写像された或る単語に対する入力話者音声特徴
ベクトル列)をRNN再学習処理部22に入力し、DR
NNモデル(第1のDRNNデータ記憶部の内容)を再
学習する。
蓄えられた単語毎の変換データ(不特定話者コードブッ
ク44に写像された或る単語に対する入力話者音声特徴
ベクトル列)をRNN再学習処理部22に入力し、DR
NNモデル(第1のDRNNデータ記憶部の内容)を再
学習する。
【0096】すなわち、不特定話者コードブック44に
写像された、たとえば、「おはよう」という単語に対す
る入力音声特徴ベクトル列Co1’,Co2’,・・
・,Co7は、不特定話者の音声から作成された「おは
よう」に対する重心ベクトル列(Cs1,Cs2,・・
・,Cs7で表す)と比較すると、或る程度の誤差を有
している。この誤差が音声認識に悪影響を与えることに
もなるため、その誤差をRNNモデルの再学習時に吸収
する。
写像された、たとえば、「おはよう」という単語に対す
る入力音声特徴ベクトル列Co1’,Co2’,・・
・,Co7は、不特定話者の音声から作成された「おは
よう」に対する重心ベクトル列(Cs1,Cs2,・・
・,Cs7で表す)と比較すると、或る程度の誤差を有
している。この誤差が音声認識に悪影響を与えることに
もなるため、その誤差をRNNモデルの再学習時に吸収
する。
【0097】前記した誤差をDRNNモデルの再学習時
吸収する処理は、前記第1の実施の形態で説明した入力
ユニットに入るバイアス項の重みを変化させることによ
り行う。つまり、入力ユニットに入るバイアスを変化さ
せるということは、特徴ベクトル列Co1’,Co
2’,・・・,Co7’のそれぞれの特徴ベクトルごと
に、バイアスとして与えられる重みの分だけ平行移動さ
せるということである。たとえば、特徴ベクトルCo
1’を例に取れば、DRNNの入力ユニットU1,U
2,・・・に入力される特徴ベクトルCo1’の1次元
目、2次元目、・・・の値をそれぞれ一定のバイアス項
の重みにより平行移動する。同様に、特徴ベクトルCo
2’のそれぞれの次元を平行移動し、続いて、特徴ベク
トルCo3’のそれぞれの次元を平行移動するというよ
うにして、特徴ベクトル列Co1’,Co2’,・・・
全体を平行移動する。この平行移動を行うための重み
は、前記した学習則に従って、教師出力にできるだけ近
い出力となるように学習したて得られた値である。この
ように、新たに学習されたバイアスの重みは、第2のD
RNNデータ記憶部24に記憶される。そして、音声認
識時には、不特定話者空間にマッピングされた入力話者
の音声を、音声認識部3に送り、新たに学習されたDR
NN音声モデルデータ(第1のDRNNデータ記憶部2
3に記憶されているユニット相互間の重みと、第2のD
RNNデータ記憶部24に記憶されている再学習後の重
みとしてのバイアス)を用いて音声認識を行う。
吸収する処理は、前記第1の実施の形態で説明した入力
ユニットに入るバイアス項の重みを変化させることによ
り行う。つまり、入力ユニットに入るバイアスを変化さ
せるということは、特徴ベクトル列Co1’,Co
2’,・・・,Co7’のそれぞれの特徴ベクトルごと
に、バイアスとして与えられる重みの分だけ平行移動さ
せるということである。たとえば、特徴ベクトルCo
1’を例に取れば、DRNNの入力ユニットU1,U
2,・・・に入力される特徴ベクトルCo1’の1次元
目、2次元目、・・・の値をそれぞれ一定のバイアス項
の重みにより平行移動する。同様に、特徴ベクトルCo
2’のそれぞれの次元を平行移動し、続いて、特徴ベク
トルCo3’のそれぞれの次元を平行移動するというよ
うにして、特徴ベクトル列Co1’,Co2’,・・・
全体を平行移動する。この平行移動を行うための重み
は、前記した学習則に従って、教師出力にできるだけ近
い出力となるように学習したて得られた値である。この
ように、新たに学習されたバイアスの重みは、第2のD
RNNデータ記憶部24に記憶される。そして、音声認
識時には、不特定話者空間にマッピングされた入力話者
の音声を、音声認識部3に送り、新たに学習されたDR
NN音声モデルデータ(第1のDRNNデータ記憶部2
3に記憶されているユニット相互間の重みと、第2のD
RNNデータ記憶部24に記憶されている再学習後の重
みとしてのバイアス)を用いて音声認識を行う。
【0098】以上のように、多数の不特定話者の音声特
徴データを基に作成された不特定話者コードブック44
から、或る特定話者用の入力話者コードブック45を作
成し、認識時においては、この入力話者コードブック4
5および不特定話者コードブック44を用いて、コード
マッピングする話者適応処理と、DRNNモデルを再学
習する処理とを組み合わせ、入力話者の音声特徴データ
を不特定話者空間に写像したときの特徴量の差をもと
に、DRNN再学習部2で再学習し、再学習されたDR
NN音声モデルを用いて音声認識することにより、より
一層、高い認識率を得ることが可能となる。
徴データを基に作成された不特定話者コードブック44
から、或る特定話者用の入力話者コードブック45を作
成し、認識時においては、この入力話者コードブック4
5および不特定話者コードブック44を用いて、コード
マッピングする話者適応処理と、DRNNモデルを再学
習する処理とを組み合わせ、入力話者の音声特徴データ
を不特定話者空間に写像したときの特徴量の差をもと
に、DRNN再学習部2で再学習し、再学習されたDR
NN音声モデルを用いて音声認識することにより、より
一層、高い認識率を得ることが可能となる。
【0099】なお、この第2の実施の形態において、不
特定話者コードブックから或る特定の話者用のコードブ
ック(入力話者コードブック)を作成する手段は、前記
したような方法に限られるものではなく、不特定話者コ
ードブックから入力話者コードブックを作成し、それら
を用いて話者適応するものにはすべて適応できるもので
ある。
特定話者コードブックから或る特定の話者用のコードブ
ック(入力話者コードブック)を作成する手段は、前記
したような方法に限られるものではなく、不特定話者コ
ードブックから入力話者コードブックを作成し、それら
を用いて話者適応するものにはすべて適応できるもので
ある。
【0100】また、以上説明した本発明の処理を行うプ
ログラムはフロッピィディスクなどの記憶媒体に記憶さ
せておくことができ、本発明はその記憶媒体をも含むも
のである。
ログラムはフロッピィディスクなどの記憶媒体に記憶さ
せておくことができ、本発明はその記憶媒体をも含むも
のである。
【0101】
【発明の効果】以上説明したように、本発明によれば、
或る程度学習の進んだニューラルネットワークを特定の
話者に適応させるために再学習を行う際、ニューラルネ
ットワーク内部の重みを更新するのではなく、ニューラ
ルネットワーク外部に固定ユニットというものを仮想的
に設けて、この固定ユニットからのバイアスを重みとし
てニューラルネットワークに与えることで、従来の学習
則をそのまま適応して固定ユニットからの重みを変化さ
せることができる。これにより、ニューラルネットワー
ク内部の重みを更新するのに比べて処理が大幅に簡素化
され、データを蓄えるためのメモリも小容量のものとす
ることができ、小型で安価な製品にも適応可能となる。
また、ニューラルネットワーク内の各ユニットのうち、
入力データが与えられる入力ユニットのみに入る固定ユ
ニットの重みを変化させることにより、再学習する方法
は、音声入力データの平行移動に相当するため、入力音
声データに学習結果を加算するだけの処理となり、さら
に処理が簡単なものとなり、メモリ容量もさらに小さく
することができる。
或る程度学習の進んだニューラルネットワークを特定の
話者に適応させるために再学習を行う際、ニューラルネ
ットワーク内部の重みを更新するのではなく、ニューラ
ルネットワーク外部に固定ユニットというものを仮想的
に設けて、この固定ユニットからのバイアスを重みとし
てニューラルネットワークに与えることで、従来の学習
則をそのまま適応して固定ユニットからの重みを変化さ
せることができる。これにより、ニューラルネットワー
ク内部の重みを更新するのに比べて処理が大幅に簡素化
され、データを蓄えるためのメモリも小容量のものとす
ることができ、小型で安価な製品にも適応可能となる。
また、ニューラルネットワーク内の各ユニットのうち、
入力データが与えられる入力ユニットのみに入る固定ユ
ニットの重みを変化させることにより、再学習する方法
は、音声入力データの平行移動に相当するため、入力音
声データに学習結果を加算するだけの処理となり、さら
に処理が簡単なものとなり、メモリ容量もさらに小さく
することができる。
【0102】また、本発明は、不特定話者コードブック
を基に、特定話者用のコードブックを作成し、その特定
話者の音声を前記不特定話者コードブックおよび特定話
者用のコードブックを用いて不特定話者空間に写像して
コード化するコードマッピングによる話者適応方法と、
前記したニューラルネットワークの再学習を組み合わ
せ、コードマッピングによる入力話者の音声データを不
特定話者空間に写像したデータを得て、このデータを、
ニューラルネットワークの入力ユニットに与え、その入
力ユニットに入力されるバイアスとしての重みを変える
ことでニューラルネットワークを再学習したのち、再学
習したニューラルネットワークモデルを用いて音声認識
するようにしたので、入力話者の音声特徴データと不特
定話者空間のデータとの差が、ニューラルネットワーク
の再学習にて吸収されることになり、より一層、音声認
識率を高めることができる。
を基に、特定話者用のコードブックを作成し、その特定
話者の音声を前記不特定話者コードブックおよび特定話
者用のコードブックを用いて不特定話者空間に写像して
コード化するコードマッピングによる話者適応方法と、
前記したニューラルネットワークの再学習を組み合わ
せ、コードマッピングによる入力話者の音声データを不
特定話者空間に写像したデータを得て、このデータを、
ニューラルネットワークの入力ユニットに与え、その入
力ユニットに入力されるバイアスとしての重みを変える
ことでニューラルネットワークを再学習したのち、再学
習したニューラルネットワークモデルを用いて音声認識
するようにしたので、入力話者の音声特徴データと不特
定話者空間のデータとの差が、ニューラルネットワーク
の再学習にて吸収されることになり、より一層、音声認
識率を高めることができる。
【図1】本発明の第1の実施の形態を説明するために本
発明が適用された音声認識装置の概略的な構成を示すブ
ロック図。
発明が適用された音声認識装置の概略的な構成を示すブ
ロック図。
【図2】第1の実施の形態の処理を説明するためのDR
NNの構成を示す図。
NNの構成を示す図。
【図3】本発明の第2の実施の形態を説明するために本
発明が適用された音声認識装置の概略的な構成を示すブ
ロック図。
発明が適用された音声認識装置の概略的な構成を示すブ
ロック図。
【図4】重心ベクトル列を求める例を説明する図。
【図5】第2の実施の形態において、不特定話者コード
ブック内のコードベクトルと重心ベクトルとの対応付け
を行い、重心ベクトルを量子化する処理を説明する図。
ブック内のコードベクトルと重心ベクトルとの対応付け
を行い、重心ベクトルを量子化する処理を説明する図。
【図6】第2の実施の形態において、重心コードベクト
ルと入力話者特徴ベクトルとの対応付けを説明する図。
ルと入力話者特徴ベクトルとの対応付けを説明する図。
【図7】第2の実施の形態において、差分ベクトルを用
いて不特定話者コードブックの学習済みコードベクトル
を入力話者コードブックに変換する処理を説明する図。
いて不特定話者コードブックの学習済みコードベクトル
を入力話者コードブックに変換する処理を説明する図。
【図8】第2の実施の形態において、未学習コードベク
トルの補間処理を説明する図。
トルの補間処理を説明する図。
【図9】第2の実施の形態において、入力話者データを
不特定話者空間に写像したデータを得るデータ変換処理
を説明する図。
不特定話者空間に写像したデータを得るデータ変換処理
を説明する図。
【図10】従来のDRNNの再学習処理を説明するため
の図。
の図。
1 音声入力部 2 DRNN再学習部 3 音声認識部 4 話者適応部 11 マイクロホン 12 A/D変換部 13 音声分析部 21 入力データ記憶部 22 DRNN再学習処理部 23 第1のDRNNデータ記憶部 24 第2のDRNNデータ記憶部 25 データ変換部 26 変換データ記憶部 31 DRNN出力処理部 32 音声認識処理部 42 コードブック変換処理部 43 重心ベクトル列記憶部 44 不特定話者コードブック 45 入力話者コードブック 46 ベクトル量子化部 U1,U2,U3 入力ユニット U4,U7 隠れユニット U5,U6 出力ユニット
───────────────────────────────────────────────────── フロントページの続き (72)発明者 相澤 直 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内
Claims (12)
- 【請求項1】 不特定話者の入力音声データに対して教
師出力に近い出力が得られるように、ニューラルネット
ワーク内部における各ユニット間の結合強度を示す重み
とニューラルネットワーク外部からそれぞれのユニット
に入力されるバイアスの値とを、所定の学習則に従って
設定した学習済みのニューラルネットワーク音声モデル
を、或る特定話者の音声に適応するために再学習する方
法において、 前記各ユニットに外部からバイアスを与える手段とし
て、固定ユニットを仮想的に設けて、この固定ユニット
からの重みを前記所定の学習則に基づいて変化させるこ
とで、前記ニューラルネットワーク音声モデルを、或る
特定話者の音声に適応するために再学習することを特徴
とするニューラルネットワーク音声モデル再学習方法。 - 【請求項2】 前記ニューラルネットワークは、時系列
的なデータ処理を行うダイナミックリカレントニューラ
ルネットワークであることを特徴とする請求項1記載の
ニューラルネットワーク音声モデル再学習方法。 - 【請求項3】 前記ニューラルネットワーク内の各ユニ
ットのうち、入力データが与えられる入力ユニットのみ
に入る固定ユニットの重みを変化させることを特徴とす
る請求項1または2記載のニューラルネットワーク音声
モデル再学習方法。 - 【請求項4】 不特定多数の話者の音声データを基に作
成した不特定話者コードブックを基に、或る特定話者用
のコードブックを作成し、その特定話者の音声を前記不
特定話者コードブックおよび特定話者用のコードブック
を用いて不特定話者空間に写像してコード化したのち音
声認識部に送り、音声認識部では、不特定話者の音声を
基にして予め学習されたニューラルネットワーク音声モ
デルを用いて音声認識を行う音声認識方法において、 或る単語に対する特定話者の音声データを不特定話者コ
ードブックに写像した音声データを得て、その音声デー
タを、前記不特定話者の音声を基にして予め学習された
ニューラルネットワークの入力ユニットに入力し、その
入力ユニットに与えられる外部からのバイアスを変化さ
せることにより、ニューラルネットワーク音声モデルを
再学習することを特徴とするニューラルネットワーク音
声モデル再学習方法。 - 【請求項5】 前記ニューラルネットワーク内の入力ユ
ニットに入るバイアスを変化させることにより、ニュー
ラルネットワーク音声モデルを再学習する方法は、 前記ニューラルネットワークに外部からバイアスを与え
る手段として、固定ユニットを仮想的に設けて、その固
定ユニットからの重みを前記所定の学習則に基づいて変
化させることで、前記ニューラルネットワーク音声モデ
ルを、特定話者の音声に適応するために再学習すること
を特徴とする請求項4記載のニューラルネットワーク音
声モデル再学習方法。 - 【請求項6】 前記ニューラルネットワークは、時系列
的なデータ処理を行うダイナミックリカレントニューラ
ルネットワークであることを特徴とする請求項4または
5に記載のニューラルネットワーク音声モデル再学習方
法。 - 【請求項7】 不特定話者の入力音声データに対して教
師出力に近い出力が得られるように、ニューラルネット
ワーク内部における各ユニット間の結合強度を示す重み
とニューラルネットワーク外部からそれぞれのユニット
に入力されるバイアスの値とを、所定の学習則に従って
設定した学習済みのニューラルネットワーク音声モデル
を、或る特定話者の音声に適応するために再学習する装
置において、 入力音声データを記憶する入力データ記憶部と、 不特定多数の話者の音声を基に、予め定めれられた学習
則に従って学習されたニューラルネットワーク音声モデ
ルを記憶するニューラルネットワーク音声モデル記憶部
と、 前記入力データに記憶された或る特定話者の或る単語に
対する音声データを基に予め定めれられた学習則に従っ
て前記ニューラルネットワーク音声モデルを再学習する
ニューラルネットワーク再学習処理部と、 を有し、 前記ニューラルネットワーク再学習処理部は、各ユニッ
トに外部からバイアスを与える手段として仮想的に設け
られた固定ユニットからの重みを、前記所定の学習則に
基づいて変化させることで、前記特定話者の音声に対し
てニューラルネットワーク音声モデルを再学習すること
を特徴とするニューラルネットワーク音声モデル再学習
装置。 - 【請求項8】 前記ニューラルネットワークは、時系列
的なデータ処理を行うダイナミックリカレントニューラ
ルネットワークであることを特徴とする請求項7記載の
ニューラルネットワーク音声モデル再学習装置。 - 【請求項9】 前記ニューラルネットワーク内の各ユニ
ットのうち、入力データが与えられる入力ユニットのみ
に入る固定ユニットの重みを変化させることを特徴とす
る請求項7または8記載のニューラルネットワーク音声
モデル再学習装置。 - 【請求項10】 不特定多数の話者の音声データを基に
作成した不特定話者コードブックを基に或る特定話者用
のコードブックを作成し、その特定話者の音声を前記不
特定話者コードブックおよび特定話者用のコードブック
を用いて不特定話者空間に写像してコード化したのち音
声認識部に送り、音声認識部では、不特定話者の音声を
基にして予め学習されたニューラルネットワーク音声モ
デルを用いて音声認識を行う音声認識装置において、 或る単語に対する特定話者の音声データを不特定話者コ
ードブックに写像したデータを得るデータ変換部と、 この不特定話者コードブックに写像された特定話者の音
声データを記憶する変換データ記憶部と、 不特定多数の話者の音声を基に、予め定めれられた学習
則に従って学習されたニューラルネットワーク音声モデ
ルを記憶するニューラルネットワーク音声モデル記憶部
と、 前記特定話者の或る単語に対する音声データを基に、予
め定めれられた学習則に従って、前記ニューラルネット
ワーク音声モデルを再学習するニューラルネットワーク
再学習処理部と、 を有し、 前記不特定話者コードブックに写像された特定話者の音
声データを前記予め学習されたニューラルネットワーク
の入力ユニットに入力し、その入力ユニットに与えられ
る外部からのバイアスを変化させることにより、ニュー
ラルネットワーク音声モデルを再学習することを特徴と
するニューラルネットワーク音声モデル再学習装置。 - 【請求項11】 前記ニューラルネットワーク内の入力
ユニットに与えられる外部からのバイアスを変化させる
ことにより、ニューラルネットワーク音声モデルを再学
習する方法は、 前記ニューラルネットワークに外部からバイアスを与え
る手段として、固定ユニットを仮想的に設けて、その固
定ユニットからの重みを前記所定の学習則に基づいて変
化させることで、前記ニューラルネットワーク音声モデ
ルを、特定話者の音声に適応するために再学習すること
を特徴とする請求項10記載のニューラルネットワーク
音声モデル再学習方法。 - 【請求項12】 前記ニューラルネットワークは、時系
列的なデータ処理を行うダイナミックリカレントニュー
ラルネットワークであることを特徴とする請求項10ま
たは11記載のニューラルネットワーク音声モデル再学
習装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8071870A JPH09258790A (ja) | 1996-03-27 | 1996-03-27 | ニューラルネットワーク音声モデル再学習方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8071870A JPH09258790A (ja) | 1996-03-27 | 1996-03-27 | ニューラルネットワーク音声モデル再学習方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09258790A true JPH09258790A (ja) | 1997-10-03 |
Family
ID=13472992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8071870A Pending JPH09258790A (ja) | 1996-03-27 | 1996-03-27 | ニューラルネットワーク音声モデル再学習方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH09258790A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016509254A (ja) * | 2013-01-10 | 2016-03-24 | センソリー・インコーポレイテッド | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 |
CN107785015A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及装置 |
CN108024179A (zh) * | 2016-10-31 | 2018-05-11 | 哈曼国际工业有限公司 | 使用递归神经网络的扬声器自适应校正 |
CN111402870A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
US10957308B2 (en) | 2018-05-11 | 2021-03-23 | Samsung Electronics Co., Ltd. | Device and method to personalize speech recognition model |
-
1996
- 1996-03-27 JP JP8071870A patent/JPH09258790A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016509254A (ja) * | 2013-01-10 | 2016-03-24 | センソリー・インコーポレイテッド | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 |
CN107785015A (zh) * | 2016-08-26 | 2018-03-09 | 阿里巴巴集团控股有限公司 | 一种语音识别方法及装置 |
CN108024179A (zh) * | 2016-10-31 | 2018-05-11 | 哈曼国际工业有限公司 | 使用递归神经网络的扬声器自适应校正 |
CN108024179B (zh) * | 2016-10-31 | 2021-11-02 | 哈曼国际工业有限公司 | 音频系统 |
US10957308B2 (en) | 2018-05-11 | 2021-03-23 | Samsung Electronics Co., Ltd. | Device and method to personalize speech recognition model |
CN111402870A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
CN111402870B (zh) * | 2019-01-02 | 2023-08-15 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5657424A (en) | Isolated word recognition using decision tree classifiers and time-indexed feature vectors | |
JP2733955B2 (ja) | 適応型音声認識装置 | |
US5903863A (en) | Method of partitioning a sequence of data frames | |
JP2007047818A (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
US5307442A (en) | Method and apparatus for speaker individuality conversion | |
US6868381B1 (en) | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition | |
Niwa et al. | Statistical voice conversion based on WaveNet | |
AU685626B2 (en) | Speech-recognition system utilizing neural networks and method of using same | |
CN117854473B (zh) | 基于局部关联信息的零样本语音合成方法 | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
JPH09258790A (ja) | ニューラルネットワーク音声モデル再学習方法および装置 | |
CN114120973B (zh) | 一种语音语料生成系统训练方法 | |
JPH09258769A (ja) | 話者適応化方法および話者適応化装置 | |
JPH0345840B2 (ja) | ||
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
Öztürk et al. | DNN-based speaker-adaptive postfiltering with limited adaptation data for statistical speech synthesis systems | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
CN114420101B (zh) | 一种未知语言端侧命令词小数据学习识别方法 | |
JPH05204399A (ja) | 不特定話者音素認識方法 | |
JP2002169586A (ja) | 音声及び画像の合成モデル生成装置、音声及び画像の合成モデルのための環境適応化装置、並びに音声認識装置 | |
JP2002091480A (ja) | 音響モデル生成装置及び音声認識装置 | |
JPH09244683A (ja) | 話者適応化方法および話者適応化装置 | |
Iskra et al. | Feature-based approach to speech recognition |