JPH09258790A

JPH09258790A - ニューラルネットワーク音声モデル再学習方法および装置

Info

Publication number: JPH09258790A
Application number: JP8071870A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Hiroshi Hasegawa; 浩長谷川; Mitsuhiro Inazumi; 満広稲積; Sunao Aizawa; 直相澤
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1996-03-27
Filing date: 1996-03-27
Publication date: 1997-10-03

Abstract

(57)【要約】【課題】ある程度学習の進んだニューラルネットワー
クを再学習する場合、各ユニット間に与えられる全ての
重みを更新することにより行っているため、処理の量が
膨大であった。【解決手段】第１のＤＲＮＮデータ記憶部２３に記憶
された学習済みのＤＲＮＮ音声モデルを再学習するＤＲ
ＮＮ再学習部２２を有し、このＤＲＮＮ再学習部２２
は、各ユニットに外部からバイアスを与える手段として
仮想的に設けられた固定ユニットからの重みを、所定の
学習則に基づいて変化させることで、特定話者の音声に
適応するように前記ＤＲＮＮ音声モデルを再学習する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はニュ−ラルネットワ
−ク、特に時系列的なデータ処理を行うＤＲＮＮ（Ｄyn
amic Recurrent Neural Networks ：以下、ＤＲＮＮと
いう）を用いた音声認識において、不特定話者の音声デ
ータを基に作成されたＤＲＮＮ音声モデルを或る特定話
者の音声に適応させるために再学習するニューラルネッ
トワーク音声モデル再学習方法および装置に関する。

【０００２】

【従来の技術】音声認識技術の一つとして、ＤＲＮＮを
用いた音声認識技術がある（このＤＲＮＮによる音声認
識技術については、本出願人が特開平６−４０７９、特
開平６−１１９４７６などにより出願済みである）。こ
のＤＲＮＮは、認識すべき単語データのそれぞれに対し
て設定され、たとえば、図１０に示すように、入力ユニ
ットＵ１，Ｕ２，Ｕ３、出力ユニットＵ５，Ｕ６とそれ
以外の隠れユニットＵ４，Ｕ７で構成され、すべてのユ
ニットが非対象完全相互結合と自己結合とを持ってい
る。前記入力ユニットＵ１，Ｕ２，Ｕ３には、或る単語
に対する音声信号を特徴分析して得られた音声特徴ベク
トル列が与えられ、その特徴ベクトル列が１０次元ＬＰ
Ｃケプストラム係数で構成される特徴ベクトル列である
とすれば、１０個の入力ユニットを有することになる。
ただし、図１０においては、説明を簡単にするため、入
力されるデータは３次元ケプストラム係数で構成される
特徴ベクトル列であるとし、入力ユニットは３つのユニ
ットＵ１，Ｕ２，Ｕ３で構成されたものを示している。
また、出力ユニットは、２個のユニットＵ５，Ｕ６から
構成され、一方を肯定出力ユニット、他方を否定出力ユ
ニットとしている。また、隠れユニットはここでは、２
つのユニットＵ４，Ｕ７で構成された例を示している。

【０００３】このような構成のＤＲＮＮは、入力ユニッ
トＵ１，Ｕ２，Ｕ３に入力される各時刻における特徴ベ
クトルを構成する各次元ごとのデータに対して、全ての
ユニット間相互の結合強度を示す重みＷｉｊ（ここで、
ｉはｉ番目のユニット、ｊはｊ番目のユニットであるこ
とを表し、Ｗｉｊはユニットｉとユニットｊの間の重み
係数であり、ここでは、ユニット数が７個の例であるか
らｉとｊは１〜７のうちのいずれかの数値をとることに
なる）と、全てのユニットからの出力が与えられるとと
もに、外部からのバイアスθｉ（このｉは１〜７の値の
うちのいずれかの値である）などが与えられて、これら
出力値と重み係数の積算値およびバイアスなどにより変
換された値が出力ユニットから出力される。

【０００４】たとえば、出力ユニットがｊ番目のユニッ
トｊであるとすれば、この出力ユニットｊは、他の全て
のユニットからの出力を受けて、その出力値とそれぞれ
のユニット間の重み係数との積算値および外部からのバ
イアスなどを入力して、これら出力値と重み係数の積算
値およびバイアスなどにより変換された値を出力として
出す。

【０００５】このように、或る単語の特徴ベクトル列が
時系列データとして入力されると、その単語に対する適
切な出力が得られるようにするために、予め定めた学習
則に従って各ユニット間の重みＷｉｊおよびバイアスθ
ｉをそれぞれ決めている。また、バイアスθｉは外部か
らそれぞれのユニットに対して与えられるもので、常に
或る一定の値に予め設定されている。

【０００６】たとえば、或る不特定話者の「おはよう」
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力（教師出力）に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットＵ１，
Ｕ２，Ｕ３に与え、学習則に従って設定された重みＷｉ
ｊおよび、バイアスθｉによって変換する。ここでは、
特徴ベクトル列の各時刻における特徴ベクトルは３次元
ケプストラム係数で構成された例であるから、或る時刻
ｔ１における１次元目のデータは入力ユニットＵ１に、
２次元目のデータは入力ユニットＵ２に、３次元目のデ
ータは入力ユニットＵ３に入力され、重みＷｉｊとバイ
アスθｉにより変換される。これを時系列データとして
入力される或る１つの単語の特徴ベクトル列すべてにつ
いて、各時刻対応に時系列処理を行う。このようにし
て、或る不特定話者の発話する単語の音声データに対し
て、その単語に対する教師出力に近い出力を得るように
している。

【０００７】このように、認識すべき単語全てに対応し
て用意されたＤＲＮＮについて、それぞれの単語に対し
て適切な出力が取り出されるように重みを変化させる学
習則は、(社)電子情報通信学会発行の信学技報:technic
al report of ＩＥＩＣＩ sp92-125(1993-01）の１８頁
に記載されている。

【０００８】

【発明が解決しようとする課題】ところで、前記したよ
うな不特定多数の話者の音声データを基にしてある程度
学習の進んだ不特定話者用のＤＲＮＮにおいて、或る特
定の話者の発話する音声に対してより一層、敏感に反応
するようにするには、ＤＲＮＮを再学習させる必要があ
る。つまり、音声認識装置において、話者適応を行う場
合は、幾つかの話者適応用の単語を特定の話者が発話す
ることにより、前記不特定話者用のＤＲＮＮを再学習す
る処理を行うが、ＤＲＮＮの再学習としては、その特定
話者の発する話者適応用の幾つかの単語ごとの音声に対
する特徴データに対して、適切な出力が得られるよう
に、重みＷｉｊおよびバイアスθｉを変化させる必要が
ある。このように、重みＷｉｊとバイアスθｉを特定話
者に適応すべく再学習するということは、話者適応用の
幾つかの単語ごとに、全ての重みＷｉｊとバイアスθｉ
を変化させた新たなＤＲＮＮを作成するのと同じことに
なる。

【０００９】しかしながら、１つのＤＲＮＮに存在する
重みＷｉｊは、１つのＤＲＮＮのユニット数の２乗の数
になるため、たとえばユニット数が３０個存在するとす
れば、９００個もの重みを変化させるというような処理
を行うことになる。また、全ての重みを記憶させておく
ための記憶手段として、全ての重みの値を更新すること
を考慮すれば、大きな容量のＲＡＭが必要となり、小型
でしかも安価な装置に適応しようとした場合、大きな障
害となる。

【００１０】また、この種のニューラルネットワーク
は、ある単語に対して適切な出力が得られるように、製
造段階あるいは研究段階において、たくさんのデータを
用いて、理想的な出力が得られるまで膨大な数の学習を
繰り返し実行し、教師出力に近い出力が得られるよう
に、ある程度までの学習がなされている。

【００１１】しかし、話者適応時においては、ユーザが
ある単語について発話する少量のデータを用いて簡易な
学習により話者適応を行う必要があり、全ての重みを変
化させるのはきわめて困難である。さらに、その少量の
データにより全ての重みが変えられると、大量のデータ
を用いて適切な学習がなされていたものも、その少量の
データのための再学習の結果、適切に学習された結果が
信頼性の低い内容に変化してしまうことにもなりかねな
いという問題があった。

【００１２】そこで、本発明は、話者適応時におけるＤ
ＲＮＮの再学習を、ＤＲＮＮ内の重み係数そのものを変
化させることなく行い、再学習処理を簡単な処理で可能
とし、また、このＤＲＮＮの再学習と、不特定話者コー
ドブックとこれに基づいて作成された入力話者コードブ
ックを用いたコードマッピングによる話者適応とを組み
合わせることにより、認識率を、より一層、向上させる
ことを可能としたニューラルネットワークの再学習方法
及び装置を提供することを目的とする。

【００１３】

【課題を解決するための手段】本発明のニューラルネッ
トワーク音声モデル再学習方法は、請求項１に記載され
たように、不特定話者の入力音声データに対して教師出
力に近い出力が得られるように、ニューラルネットワー
ク内部における各ユニット間の結合強度を示す重みとニ
ューラルネットワーク外部からそれぞれのユニットに入
力されるバイアスの値とを、所定の学習則に従って設定
した学習済みのニューラルネットワーク音声モデルを、
或る特定話者の音声に適応するために再学習する方法に
おいて、前記各ユニットに外部からバイアスを与える手
段として、固定ユニットを仮想的に設けて、この固定ユ
ニットからの重みを前記所定の学習則に基づいて変化さ
せることで、前記ニューラルネットワーク音声モデル
を、或る特定話者の音声に適応するために再学習するこ
とを特徴とする。

【００１４】そして、前記ニューラルネットワークは、
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。

【００１５】また、前記ニューラルネットワーク内の各
ユニットのうち、入力データが与えられる入力ユニット
のみに入る固定ユニットの重みを変化させるようにす
る。

【００１６】このように、本発明では、或る程度学習の
進んだニューラルネットワークを再学習する際、ニュー
ラルネットワーク内部の重みを更新するのではなく、ニ
ューラルネットワーク外部に固定ユニットというものを
仮想的に設けて、この固定ユニットからのバイアスを重
みとしてニューラルネットワークに与えることで、従来
の学習則をそのまま適応して固定ユニットからの重みを
変化させることができる。これにより、ニューラルネッ
トワーク内部の重みを更新するのに比べて処理が大幅に
簡素化され、データを蓄えるためのメモリも小容量のも
のとすることができる。また、ニューラルネットワーク
内の各ユニットのうち、入力データが与えられる入力ユ
ニットのみに入る固定ユニットの重みを変化させること
により、再学習する方法は、音声入力データの平行移動
に相当するため、入力音声データに学習結果を加算する
だけの処理となり、さらに処理が簡単なものとなり、メ
モリ容量もさらに小さくすることができる。

【００１７】また、本発明は、請求項４に記載されたよ
うに、不特定多数の話者の音声データを基に作成した不
特定話者コードブックを基に、或る特定話者用のコード
ブックを作成し、その特定話者の音声を前記不特定話者
コードブックおよび特定話者用のコードブックを用いて
不特定話者空間に写像してコード化したのち音声認識部
に送り、音声認識部では、不特定話者の音声を基にして
予め学習されたニューラルネットワーク音声モデルを用
いて音声認識を行う音声認識方法において、或る単語に
対する特定話者の音声データを不特定話者コードブック
に写像した音声データを得て、その音声データを、前記
不特定話者の音声を基にして予め学習されたニューラル
ネットワークの入力ユニットに入力し、その入力ユニッ
トに与えられる外部からのバイアスを変化させることに
より、ニューラルネットワーク音声モデルを再学習する
ことを特徴とする。

【００１８】そして、前記ニューラルネットワーク内の
入力ユニットに入るバイアスを変化させることにより、
ニューラルネットワーク音声モデルを再学習する方法
は、前記ニューラルネットワークに外部からバイアスを
与える手段として、固定ユニットを仮想的に設けて、そ
の固定ユニットからの重みを前記所定の学習則に基づい
て変化させることで、前記ニューラルネットワーク音声
モデルを、特定話者の音声に適応するために再学習する
ようにしている。

【００１９】そして、前記ニューラルネットワークは、
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。

【００２０】このように、不特定話者コードブックを基
に、特定話者用のコードブックを作成し、その特定話者
の音声を前記不特定話者コードブックおよび特定話者用
のコードブックを用いて不特定話者空間に写像してコー
ド化するコードマッピングによる話者適応方法と、ニュ
ーラルネットワークの再学習を組み合わせ、コードマッ
ピングによる入力話者の音声データを不特定話者空間に
写像したデータを得て、このデータを、ニューラルネッ
トワークの入力ユニットに与え、その入力ユニットに入
力されるバイアスを変えることでニューラルネットワー
クを再学習したのち、音声認識するようにしたので、入
力話者の音声特徴データと不特定話者空間のデータとの
差が、ニューラルネットワークの再学習にて吸収される
ことになり、より一層、音声認識率を高めることができ
る。

【００２１】また、本発明のニューラルネットワーク音
声モデル再学習装置は、請求項７に記載されたように、
不特定話者の入力音声データに対して教師出力に近い出
力が得られるように、ニューラルネットワーク内部にお
ける各ユニット間の結合強度を示す重みとニューラルネ
ットワーク外部からそれぞれのユニットに入力されるバ
イアスの値とを、所定の学習則に従って設定した学習済
みのニューラルネットワーク音声モデルを、或る特定話
者の音声に適応するために再学習する装置において、入
力音声データを記憶する入力データ記憶部と、不特定多
数の話者の音声を基に、予め定めれられた学習則に従っ
て学習されたニューラルネットワーク音声モデルを記憶
するニューラルネットワーク音声モデル記憶部と、前記
入力データに記憶された或る特定話者の或る単語に対す
る音声データを基に予め定めれられた学習則に従って前
記ニューラルネットワーク音声モデルを再学習するニュ
ーラルネットワーク再学習処理部とを有し、前記ニュー
ラルネットワーク再学習処理部は、各ユニットに外部か
らバイアスを与える手段として仮想的に設けられた固定
ユニットからの重みを、前記所定の学習則に基づいて変
化させることで、前記特定話者の音声に対してニューラ
ルネットワーク音声モデルを再学習することを特徴とす
る。

【００２２】そして、前記ニューラルネットワークは、
時系列的なデータ処理を行うダイナミックリカレントニ
ューラルネットワークである。

【００２３】また、前記ニューラルネットワーク内の各
ユニットのうち、入力データが与えられる入力ユニット
のみに入る固定ユニットの重みを変化させるようにす
る。

【００２４】このように、本発明では、或る程度学習の
進んだニューラルネットワークを再学習する際、ニュー
ラルネットワーク内部の重みを更新するのではなく、ニ
ューラルネットワーク外部に固定ユニットというものを
仮想的に設けて、この固定ユニットからのバイアスを重
みとしてニューラルネットワークに与えることで、従来
の学習則をそのまま適応して固定ユニットからの重みを
変化させることができる。これにより、ニューラルネッ
トワーク内部の重みを更新するのに比べて処理が大幅に
簡素化され、データを蓄えるためのメモリも小容量のも
のとすることができる。また、ニューラルネットワーク
内の各ユニットのうち、入力データが与えられる入力ユ
ニットのみに入る固定ユニットの重みを変化させること
により、再学習する方法は、音声入力データの平行移動
に相当するため、入力音声データに学習結果を加算する
だけの処理となり、さらに処理が簡単なものとなり、メ
モリ容量もさらに小さくすることができる。

【００２５】また、本発明は、請求項１０に記載される
ように、不特定多数の話者の音声データを基に作成した
不特定話者コードブックを基に或る特定話者用のコード
ブックを作成し、その特定話者の音声を前記不特定話者
コードブックおよび特定話者用のコードブックを用いて
不特定話者空間に写像してコード化したのち音声認識部
に送り、音声認識部では、不特定話者の音声を基にして
予め学習されたニューラルネットワーク音声モデルを用
いて音声認識を行う音声認識装置において、或る単語に
対する特定話者の音声データを不特定話者コードブック
に写像したデータを得るデータ変換部と、この不特定話
者コードブックに写像された特定話者の音声データを記
憶する変換データ記憶部と、不特定多数の話者の音声を
基に、予め定めれられた学習則に従って学習されたニュ
ーラルネットワーク音声モデルを記憶するニューラルネ
ットワーク音声モデル記憶部と、前記特定話者の或る単
語に対する音声データを基に、予め定めれられた学習則
に従って、前記ニューラルネットワーク音声モデルを再
学習するニューラルネットワーク再学習処理部とを有
し、前記不特定話者コードブックに写像された特定話者
の音声データを前記予め学習されたニューラルネットワ
ークの入力ユニットに入力し、その入力ユニットに与え
られる外部からのバイアスを変化させることにより、ニ
ューラルネットワーク音声モデルを再学習することを特
徴とする。

【００２６】そして、前記ニューラルネットワーク内の
入力ユニットに与えられる外部からのバイアスを変化さ
せることにより、ニューラルネットワーク音声モデルを
再学習する方法は、前記ニューラルネットワークに外部
からバイアスを与える手段として、固定ユニットを仮想
的に設けて、その固定ユニットからの重みを前記所定の
学習則に基づいて変化させることで、前記ニューラルネ
ットワーク音声モデルを、特定話者の音声に適応するた
めに再学習することを特徴とする。

【００２７】また、前記ニューラルネットワークは、時
系列的なデータ処理を行うダイナミックリカレントニュ
ーラルネットワークであることを特徴とする。

【００２８】このように、不特定話者コードブックを基
に、特定話者用のコードブックを作成し、その特定話者
の音声を前記不特定話者コードブックおよび特定話者用
のコードブックを用いて不特定話者空間に写像してコー
ド化するコードマッピングによる話者適応方法と、ニュ
ーラルネットワークの再学習を組み合わせ、コードマッ
ピングによる入力話者の音声データを不特定話者空間に
写像したデータを得て、このデータを、ニューラルネッ
トワークの入力ユニットに与え、その入力ユニットに入
力されるバイアスを変えることでニューラルネットワー
クを再学習したのち、音声認識するようにしたので、入
力話者の音声特徴データと不特定話者空間のデータとの
差が、ニューラルネットワークの再学習にて吸収される
ことになり、より一層、音声認識率を高めることができ
る。

【００２９】

【発明の実施の形態】以下、本発明の実施の形態を説明
する。

【００３０】（第１の実施の形態）図１は本発明が適用
された音声認識装置の概略的な構成を説明するブロック
図であり、その構成は、大きく分けると、音声入力部
１、ＤＲＮＮ再学習部２、音声認識部３から構成されて
いる。

【００３１】前記音声入力部１は、マイクロホン１１、
マイクロホン１１から入力された音声をＡ／Ｄ変換する
Ａ／Ｄ変換部１２、Ａ／Ｄ変換された音声波形信号を、
演算器を用いて短時間毎に周波数分析し、周波数の特徴
を表す何次元かの特徴ベクトル（ＬＰＣケプストラム係
数が一般的）を抽出し、この特徴ベクトルの時系列（以
下、特徴ベクトル列という）を出力する音声分析部１３
などから構成されている。なお、この実施の形態では、
説明を簡単にするため、特徴ベクトル列を構成する各特
徴ベクトルは３次元のＬＰＣケプストラム係数で構成さ
れるものとする。

【００３２】また、ＤＲＮＮ再学習部２は、本発明の要
旨となる部分であり、話者適応時に特定話者の音声特徴
データに基づいて、不特定多数の話者の音声を基に学習
されたＤＲＮＮを再学習するものであり、入力データ記
憶部２１、ＤＲＮＮ再学習処理部２２、ある程度学習の
済んだ不特定話者用ＤＲＮＮ音声モデルのデータを記憶
するＤＲＮＮ音声モデルデータ記憶部（以下、第１のＤ
ＲＮＮデータ記憶部という）２３、再学習後のＤＲＮＮ
音声モデルデータを記憶するＤＲＮＮ音声モデルデータ
記憶部（以下、第２のＤＲＮＮデータ記憶部）２４など
から構成される。なお、これら個々の機能などについて
は後述する。

【００３３】音声認識部３は、前記ＤＲＮＮ再学習部２
により再学習された第２のＤＲＮＮデータ記憶部２４に
記憶されたデータを用いて、入力話者の音声特徴ベクト
ル列をもとに入力音声中の単語に対するＤＲＮＮ出力
（確からしさを示す数値）を出力するＤＲＮＮ出力処理
部３１、このＤＲＮＮ出力処理部３１からのＤＲＮＮ出
力を基に音声認識処理を行う音声認識処理部３２などか
ら構成されている。

【００３４】次に、前記ＤＲＮＮ再学習部２について説
明する。

【００３５】このＤＲＮＮ再学習部２は、前記したよう
に、話者適応時に特定話者（ユーザ）の音声特徴データ
に基づいて、ある程度学習の済んだ不特定話者用のＤＲ
ＮＮを再学習するものである。

【００３６】ＤＲＮＮについては前記従来技術の説明で
も説明したが、ここで再度、その基本的な動作について
説明する。入力ユニットＵ１，Ｕ２，Ｕ３に入力される
各時刻における特徴ベクトルを構成する各次元ごとのデ
ータに対して、全てのユニット間相互の結合強度を示す
重みＷｉｊ（ここで、ｉはｉ番目のユニット、ｊはｊ番
目のユニットであることを表し、Ｗｉｊはユニットｉと
ユニットｊの間の重み係数であり、ここでは、ユニット
数が７個の例であるからｉとｊは１〜７のうちのいずれ
かの数値をとることになる）と、全てのユニットからの
出力が与えられるとともに、外部からのバイアスθｉ
（このｉも１〜７のうちのいずれかの値である）が与え
られて、これらの出力と重みの積算値およびバイアスな
どにより変換された出力が出力ユニットから出力され
る。たとえば、出力ユニットがｊ番目のユニットｊであ
るとすれば、この出力ユニットｊは、他の全てのユニッ
トからの出力を受けて、その出力値とそれぞれのユニッ
ト間の重み係数との積算値および外部からのバイアスな
どを入力して、これら重み係数やバイアスなどにより変
換された値を出力する。

【００３７】このように、或る単語の特徴ベクトル列が
時系列データとして入力されると、その単語に対する適
切な出力が得られるようにするために、各ユニット間の
重みＷｉｊをそれぞれ決めている。また、バイアスθｉ
は外部からそれぞれのユニットに対して与えられるもの
で、常に或る一定の値に予め設定されている。

【００３８】たとえば、或る不特定話者の「おはよう」
という単語の特徴ベクトル列の時系列データが入力され
たとき、その「おはよう」という単語に対する理想的な
出力（教師出力）に近い出力を得るために、「おはよ
う」という単語の各時刻における特徴ベクトルのそれぞ
れの次元ごとのデータを、対応する入力ユニットＵ１，
Ｕ２，Ｕ３に与え、学習則に従って設定された重みＷｉ
ｊおよび、バイアスθｉによって変換する。

【００３９】この例では、特徴ベクトル列の各時刻にお
ける特徴ベクトルは３次元ケプストラム係数で構成され
ているから、或る時刻における１次元目のデータは入力
ユニットＵ１に、２次元目のデータは入力ユニットＵ２
に、３次元目のデータは入力ユニットＵ３に入力され、
重みＷｉｊとバイアスθｉにより変換される。これを時
系列データとして入力される或る１つの単語の特徴ベク
トル列について各時刻対応に時系列処理を行う。このよ
うにして、或る不特定話者の発話する単語の音声データ
に対して、その単語に対する教師出力に近い出力を得る
ようにしている。

【００４０】このように、認識すべき単語全てに対応し
て用意されたＤＲＮＮは、それぞれの単語に対して適切
な出力が得られるように、前記した学習則によって、予
めある程度学習された状態となっている。

【００４１】このようなある程度学習の進んだＤＲＮＮ
に対して、特定話者の発する音声に適応した出力を得る
ために再学習処理を行う。以下、ＤＲＮＮ再学習処理部
２２における本発明の再学習処理について説明する。

【００４２】本発明の再学習処理は、ＤＲＮＮの重みＷ
ｉｊを変化させるのではなく、バイアスθｉを重みＷｉ
ｊを変化させたのと同等に変化させることに特徴があ
る。これを行うために、外部から与えられるバイアスが
あたかも、重みであるかのように扱う。本来、ＤＲＮＮ
内のそれぞれのユニット（入力ユニット、出力ユニッ
ト、隠れユニット）は、それぞれ他のユニットからの出
力値と重みの積算値および外部からのバイアスなどを入
力して、これら出力と重みの積算値やバイアスなどによ
り変換された値を得るというような動作を行い、それぞ
れのユニット自身の値は常に変化するが、外部から与え
られるバイアスは常に一定の値である。このように、両
者は性質の違うものであるが、外部からのバイアスを重
みとして扱う必要があるため、ＤＲＮＮの外部にダミー
のユニットを設ける。以下、図２を参照しながら説明す
る。

【００４３】図２はＤＲＮＮを示すもので、従来技術の
説明で用いた図１０と基本的には同じであるが、本発明
を実現するために、ＤＲＮＮの各ユニットに対して外部
からデータを与えるためのダミーのユニット（これを固
定出力ユニットという）Ｕｓを仮想的に設けている。

【００４４】この固定出力ユニットＵｓは、他からはデ
ータを与えられることなく、常に「1.0」という値を出
し続けている。そして、実際に再学習を実行するとき
は、バイアスθｉを固定出力ユニットＵｓからの重みと
して扱う。これにより、ＤＲＮＮの各ユニットに与えら
れるバイアスは、重みと出力とを掛け算したものとなる
が、固定出力ユニットＵｓの出力は常に「1.0」である
ので、結局、その重みの値がＤＲＮＮ内の個々のユニッ
トに与えられることになる。

【００４５】つまり、入力音声に対して教師出力に近い
出力が得られるように、前記した重みを変化させるため
の学習則によって、固定出力ユニットＵｓからの重みを
学習し、バイアス項を決定している。このように、固定
出力ユニットＵｓというものを仮想的に用いると、学習
則におけるバイアスθｉを、固定ユニットＵｓからの重
みとみなすことができるため、他のユニットからの重み
と同等に扱うことができ、前記した重みを変化させるた
めの学習則、つまり、（社）電子情報通信学会発行の信
学技報:technical report of ＩＥＩＣＩ sp92-125(199
3-01）の１８頁に記載の学習則を適用することができ
る。

【００４６】以上のように、本発明では、多数の不特定
話者の音声データを基に学習したＤＲＮＮを、ある特定
話者の音声に対して感度よく反応させるための再学習処
理を、ＤＲＮＮ内のユニット相互間の結合強度を示す重
みＷｉｊを変化させるのではなく、ダミーのユニットと
しての固定出力ユニットＵｓを設け、この固定出力ユニ
ットＵｓからのバイアスθｉを重みＷｉｊと同等に扱
い、この重みを学習則を適用して変化させるようにして
いる。

【００４７】したがって、話者適応時にユーザの発話す
る少量のデータで簡単に再学習処理が可能となり、ま
た、ＤＲＮＮ内のユニット相互間に設定された重みＷｉ
ｊは変化させないので、不特定多数の話者の音声データ
を基に、ある程度、学習の進んだＤＲＮＮモデルデータ
を記憶する第１のＤＲＮＮデータ記憶部２３は、個々の
ユニット相互間に予め設定された重みＷｉｊおよびバイ
アスθｉを記憶する固定記憶装置としてのＲＯＭでよ
く、再学習後のＤＲＮＮモデルは、第１のＤＲＮＮデー
タ記憶部２３の前記ユニット相互間に予め設定された重
みＷｉｊをそのまま用いることができるため、再学習後
のＤＲＮＮモデルデータを記憶する第２のＤＲＮＮデー
タ記憶部２４は新たに学習された重みとしてのバイアス
を記憶するための小容量のＲＡＭで構成すればよい。な
お、図１では第１のＤＲＮＮデータ記憶部２３と第２の
ＤＲＮＮデータ記憶部２４とを別個に設けた例が示され
ているが、実際には、重みＷｉｊを記憶するＲＯＭは両
者で共用することができ、第２のＤＲＮＮデータ記憶部
２４は、前記したように、重みとしてのバイアスを記憶
するための小容量のＲＡＭだけで済む。

【００４８】そして、以上のようにして、或る特定話者
の音声に適応するために再学習されたＤＲＮＮ音声モデ
ルを用いて、その特定話者の話す音声を音声認識部３で
認識処理することにより、その特定話者に適応した高精
度な認識処理が行える。

【００４９】なお、以上の説明では、ＤＲＮＮ内の全て
のユニットに入力されるバイアス項を再学習する例を示
したが、これに限らず、入力ユニットのみに入力される
バイアス項を再学習させるようにしてもよい。すなわ
ち、図２のＤＲＮＮを例にした場合、入力ユニットＵ
１，Ｕ２，Ｕ３に入力されるバイアス項のみを変化させ
るようにする。

【００５０】このようにすることにより、特定話者の入
力音声に対して教師出力に近い出力が出るように変化さ
せるべきバイアス項の重みは入力ユニットＵ１，Ｕ２，
Ｕ３のみに入る重みだけとなるので、新たに学習された
重みとしてのバイアスを記憶するためのメモリ（ＲＡ
Ｍ）の容量をさらに小さくでき、かつ、処理速度の高速
化が図れる。また、入力ユニットは、もともと音声特徴
ベクトル列とバイアスが入力され、両者の和が入力され
れば良いのであるから、ＤＲＮＮに入力される前の段階
で、再学習の結果、得られた重みを音声特徴ベクトルに
予め加算して前記ＤＲＮＮに入力させるようにしても話
者適応の効果が得られることになる。すなわち、入力ユ
ニットのみに入る固定ユニットＵｓの重みを変化させる
ことにより再学習する方法は、音声入力データの平行移
動に相当するため、入力音声データに学習結果を加算す
るだけの処理となり、さらに処理が簡単なものとなり、
メモリ容量もさらに小さくすることができる。

【００５１】（第２の実施の形態）ベクトル量子化を用
いた音声認識における話者適応方法として、多数の不特
定話者の音声特徴データを基に作成された不特定話者コ
ードブックから、或る特定話者用の入力話者コードブッ
クを作成し、認識時においては、この入力話者コードブ
ックおよび不特定話者コードブックを用いて、或る特定
話者の音声を不特定話者空間にコードマッピングして、
そのコードベクトルを音声認識部に送るという話者適応
手段がある。

【００５２】第２の実施の形態は、このような話者適応
手段を用いた音声認識において、さらに、高い認識率で
の認識を可能とするように、前記入力話者音声の特徴デ
ータと不特定話者コードブックの誤差成分を用いて、前
記第１の実施の形態で説明したしたＤＲＮＮモデルを再
学習するようにしたものである。以下、詳細に説明す
る。

【００５３】図３は第２の実施の形態を説明するブロッ
ク図であり、その構成は大きく分けると、音声入力部
１、ＤＲＮＮ再学習部２、音声認識部３、話者適応部４
から構成されている。

【００５４】前記音声入力部１は、図１と同様、マイク
ロホン１１、マイクロホン１１から入力された音声をＡ
／Ｄ変換するＡ／Ｄ変換部１２、Ａ／Ｄ変換された音声
波形信号を、周波数分析を行い、周波数の特徴を表す音
声特徴ベクトル列を出力する音声分析部１３などから構
成される。

【００５５】ＤＲＮＮ再学習部２は、第１の実施の形態
で説明したＤＲＮＮ再学習処理部２２、第１のＤＲＮＮ
データ記憶部２３、第２のＤＲＮＮデータ記憶部２４の
他にデータ変換部２５、このデータ変換部２５で変換さ
れたデータを記憶する変換データ記憶部２６が設けられ
ている。なお、このデータ変換部２５については後に説
明する。

【００５６】音声認識部３は、前記第１の実施の形態で
説明したように再学習されたＤＲＮＮモデルを用いて入
力話者の音声特徴ベクトル列をもとに入力音声中の単語
に対するＤＲＮＮ出力（確からしさを示す数値）を出力
するＤＲＮＮ出力処理部３１、このＤＲＮＮ出力処理部
３１からのＤＲＮＮ出力を基に音声認識処理を行う音声
認識処理部３２などから構成されている。

【００５７】また、話者適応部４は、音声分析部１３か
らの特徴ベクトル列を蓄える入力データ記憶部４１、コ
ードブック変換処理部４２、重心ベクトル記憶部４３、
不特定話者コードブック４４、入力話者コードブック４
５、ベクトル量子化部４６などから構成され、これらに
ついての説明は後述する。

【００５８】まず、話者適応部４について説明する。

【００５９】この話者適応部４は、不特定多数の話者の
音声データを基に作成された不特定話者コードブック４
４から、或る特定の話者用の入力話者コードブック４５
を作成し、認識時においては、この入力話者コードブッ
ク４５および不特定話者コードブック４４を用いて、或
る特定話者の音声を不特定話者空間にコードマッピング
して、そのコードベクトルを音声認識部３に送るもので
ある。

【００６０】前記入力話者コードブック４５を作成する
方法としては、多数の不特定話者の発する音声データを
分析して得られた不特定話者ごとの音声特徴ベクトル列
を得て、これら不特定話者ごとの特徴ベクトル列から単
語ごとの重心ベクトル列を求めておき、入力話者が発す
るある単語の音声データから得られた特徴ベクトル列
と、その単語の重心ベクトル列とを対応付けし、前記重
心ベクトル列を構成する各重心ベクトルに対応した差分
ベクトルを求め、その差分ベクトルを用いて、入力話者
コードブック４５のコードベクトルを求めるようにす
る。

【００６１】ここで、前記多数話者の音声データの重心
ベクトル列というのは、ある単語を不特定の２００人程
度の話者に発話させ、その音声を短時間ごとに音声分析
して得られた特徴ベクトル（たとえば、数次元のＬＰＣ
ケプストラム係数による特徴ベクトル）を求め、各不特
定話者ごとの特徴ベクトルを各時刻ごとに平均を取って
得られたベクトル列である。これを図４により簡単に説
明する。図４は、たとえば、「おはよう」という単語
を、Ａ，Ｂ，Ｃ，Ｄの４人の話者に発話させて得られた
特徴ベクトル列であるとする。

【００６２】このように、同じ「おはよう」という単語
を発話した場合でも、Ａ，Ｂ，Ｃ，Ｄの人の「おはよ
う」という単語に対する特徴ベクトル列は、それぞれの
人の個性によって時間的な長さや特徴ベクトルに違いが
生じる。

【００６３】次に、この「おはよう」という単語に対す
るＡ，Ｂ，Ｃ，Ｄの人の特徴ベクトル列を、それぞれの
時刻ごとに重心ベクトルを求めるわけであるが、この重
心ベクトルを求めるに際して、それぞれの特徴ベクトル
列の時間的な長さを正規化、つまり、それぞれの特徴ベ
クトルの数を同一にする必要がある。これを行うために
どれか１つの特徴ベクトル列を基準ベクトル列として選
び、その基準ベクトル列とのＤＰマッチングを取ること
で正規化を行う。

【００６４】なお、ここでは、Ｂの特徴ベクトル列を基
準のベクトル列とする。そして、この基準となるＢの特
徴ベクトル列の時刻ｔ１，ｔ２，ｔ３，ｔ４における特
徴ベクトルＣｂ１，Ｃｂ２，Ｃｂ３，Ｃｂ４に対して、
Ａの特徴ベクトル列のそれぞれの時刻における特徴ベク
トルＣａ１，Ｃａ２，Ｃa３、Ｃの特徴ベクトル列のそ
れぞれの時刻における特徴ベクトルＣｃ１，Ｃｃ２，Ｃ
ｃ３，Ｃｃ４，Ｃｃ４、Ｄの特徴ベクトル列のそれぞれ
の時刻における特徴ベクトルＣｄ１，Ｃｄ２，Ｃｄ３，
Ｃｄ４，Ｃｄ５，Ｃｄ６をＤＰマッチングにより対応付
けする。

【００６５】このように、基準となる特徴ベクトル列の
各時刻における特徴ベクトルに対して、その他の特徴ベ
クトル列の特徴ベクトルがＤＰマッチングにより対応付
けされることにより、特徴ベクトルの数を正規化するこ
とができる。

【００６６】つまり、基準となるＢの特徴ベクトル列と
たとえばＡの特徴ベクトル列は、Ｃｂ１に対してはＣａ
１が対応付けされ、Ｃｂ２に対してはＣａ２が対応付け
され、Ｃｂ３とＣｂ４に対してはそれぞれＣａ３が対応
付けされるというような対応付けがなされる。

【００６７】以上のようにして、基準となる特徴ベクト
ル列とそれ以外の特徴ベクトル列とを、ＤＰマッチング
により対応付けすることにより、特徴ベクトルの数の正
規化がなされる。そして、それぞれ対応づけられた特徴
ベクトルごとに重心ベクトルを求める。

【００６８】この重心ベクトルを求める手法はどのよう
な方法を用いてもよいが、ここでは、以下のようにして
重心ベクトルを求める。

【００６９】時刻ｔ１における特徴ベクトルＣａ１，Ｃ
ｂ１，Ｃｃ１，Ｃｄ１が、それぞれ１０次元のＬＰＣケ
プストラム係数で構成されているとした場合、それぞれ
の１０次元ＬＰＣケプストラム係数を、Ｃａ１＝（Ｃａ１０，Ｃａ１１，・・・，Ｃａ１９）Ｃｂ１＝（Ｃｂ１０，Ｃｂ１１，・・・，Ｃｂ１９）Ｃｃ１＝（Ｃｃ１０，Ｃｃ１１，・・・，Ｃｃ１９）Ｃｄ１＝（Ｃｄ１０，Ｃｄ１１，・・・，Ｃｄ１９）とすると、それぞれの次元毎の平均の値で構成される１
０次元のＬＰＣケプストラム係数を時刻ｔ１における重
心ベクトルとする。つまり、１次元目の平均値Ｃα１０
はＣα１０＝（Ｃａ１０＋Ｃｂ１０＋Ｃｃ１０＋Ｃｄ１
０）／４２次元目の平均値Ｃα１１は、Ｃα１１＝（Ｃａ１１＋Ｃｂ１１＋Ｃｃ１１＋Ｃｄ１
１）／４１０次元目の平均値Ｃα１９はＣα１９＝（Ｃａ１９＋Ｃｂ１０＋Ｃｃ１９＋Ｃｄ１
９）／４となる。このようにして求められた時刻ｔ１における１
０次元ＬＰＣケプストラム係数の平均（Ｃα１０，Ｃα
１１，・・・、Ｃα１９）を、時刻ｔ１における重心ベ
クトルとし、これをＣｓ１で表す。同様にして、時刻ｔ
２，ｔ３，・・・における重心ベクトルＣｓ２，Ｃｓ
３，・・・を求める。このようにして求められた重心ベ
クトルＣｓ１，Ｃｓ２，Ｃｓ３，・・・で構成される重
心ベクトル列を図４において一点鎖線で表し、求められ
た重心ベクトルＣｓ１，Ｃｓ２，Ｃｓ３，Ｃｓ４は、こ
の図では白丸で表している。

【００７０】以上は、「おはよう」という単語に対する
不特定話者の重心ベクトル列を求める場合であるが、
「おはよう」以外にも幾つかの単語に対して同様に、不
特定話者の重心ベクトルを求め、これら幾つかの単語に
対する不特定話者の重心ベクトル列を図１の重心ベクト
ル記憶部４３に記憶させておく。

【００７１】次に、ユーザの話す音声を用いて入力話者
コードブック４５を作成する処理について説明する。

【００７２】話者適応を行うに際して、システム側か
ら、話者適応用の単語として、たとえば、「おはよう」
と話して下さいというような指示がなされ、ユーザがそ
の指示にしたがって、「おはよう」と発話すると、音声
分析部１３から周波数の特徴を表す音声特徴ベクトル列
が出力される。そして、その音声分析された特徴ベクト
ルは入力データ記憶部４１に、一旦、記憶される。同様
に、次の話者適応用の単語として、たとえば、「こんに
ちわ」と話して下さいというような指示がなされ、ユー
ザがその指示にしたがって、「こんにちわ」と言うと、
その特徴ベクトル列が入力データ記憶部４１に記憶され
る。このようにして、幾つかの話者適応用の単語の特徴
ベクトル列が記憶される。

【００７３】入力話者コードブック４５の作成は、コー
ドブック変換処理部４２が不特定話者コードブック４
４、重心ベクトル列記憶部４３、入力データ記憶部４１
のそれぞれのデータを用いて行う。以下、この処理を図
５を参照しながら説明する。

【００７４】図５は不特定話者コードブック４４を表
し、ここでは、そのサイズを２５６とし、白丸で示す２
５６個の不特定話者コードベクトルで構成されている。
そして、これらの不特定話者のコードベクトルをＣｋ
１，Ｃｋ２，Ｃｋ３，・・・，Ｃｋ２５６で表し、実際
には、２５６個のコードベクトルで構成されるが、図５
ではこのコードベクトルはＣｋ１，Ｃｋ２，・・・，Ｃ
ｋ９のみが図示されている。この不特定話者コードベク
トルは、たとえば、２００単語程度の単語数をそれぞれ
の単語ごとに２００人程度の人に話してもらったとき得
られる特徴ベクトル数、つまり、１つの単語につき２５
個程度の特徴ベクトル数が有るとすると、１００万個程
度の特徴ベクトルが得られるが、それをベクトル量子化
して２５６個の代表のコードベクトルにまとめたもので
ある。

【００７５】このような不特定話者コードブック４４に
対して、たとえば、前記のように求められた「おはよ
う」に対する重心ベクトル列（ここでは、図中、黒丸で
示し、重心ベクトルＣｓ１，Ｃｓ２，・・・，Ｃｓ７で
構成されているものとする）をベクトル量子化する。つ
まり、「おはよう」の重心ベクトル列とＣｋ１，Ｃｋ
２，・・・，Ｃｋ２５６のコードベクトルとのＤＰマッ
チングを取ると、重心ベクトル列の１番目と２番目の重
心ベクトルＣｓ１，Ｃｓ２はコードベクトルＣｋ１と対
応づけられ、３番目の重心ベクトルＣｓ３はコードベク
トルＣｋ３と対応づけられ、４番目の重心ベクトルＣｓ
４はコードベクトルＣｋ４と対応づけられ、５番目、６
番目、７番目の重心ベクトルＣｓ５，Ｃｓ６，Ｃｓ７は
それぞれコードベクトルＣｋ５と対応づけられる、これ
により、「おはよう」の重心ベクトル列は、Ｃｋ１，Ｃ
ｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５，Ｃｋ５，Ｃｋ５のコー
ドベクトル列に置き換えられることになる。

【００７６】そして、入力データ記憶部４１に記憶され
ているユーザからの「おはよう」の特徴ベクトル列を、
前記量子化された「おはよう」の重心ベクトル列（重心
コードベクトル列という）に対してＤＰマッチングによ
り対応付けを行う。

【００７７】これを図６に示す。なお、図６において
は、説明を分かり易くするため、不特定話者コードブッ
ク４４の内容は、「おはよう」の重心コードベクトル列
Ｃｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５のみを示し、他のコー
ドベクトルは図示を省略している。

【００７８】ここで、ユーザからの「おはよう」が入力
されると、その「おはよう」の特徴ベクトル列（入力話
者特徴ベクトル列）と前記重心コードベクトルＣｋ１，
Ｃｋ３，Ｃｋ４，Ｃｋ５とをＤＰマッチングにより対応
づける。前記入力話者特徴ベクトル列のそれぞれの特徴
ベクトルＣｉ１，Ｃｉ２，Ｃｉ３，Ｃｉ４，Ｃｉ５，Ｃ
ｉ６が図６に示すような位置であるとすれば、前記重心
コードベクトル列Ｃｋ１，Ｃｋ１，Ｃｋ３，Ｃｋ４，Ｃ
ｋ５，Ｃｋ５，Ｃｋ５とのＤＰマッチングをとると、こ
の場合、入力話者特徴ベクトルＣｉ１，Ｃｉ２はそれぞ
れ重心コードベクトルＣｋ１に対応づけられ、入力話者
特徴ベクトルＣｉ３は重心コードベクトルＣｋ３に対応
づけられ、入力話者特徴ベクトルＣｉ４，Ｃｉ５はそれ
ぞれ重心コードベクトルＣｋ４に対応づけられ、入力話
者特徴ベクトルＣｉ６は重心コードベクトルＣｋ５に対
応づけられる。

【００７９】このようにして、入力話者特徴ベクトル列
と、前記重心コードベクトル列との対応付けがなされる
と、次に、対応づけられたベクトル間の差分ベクトル
（入力話者特徴ベクトル−重心コードベクトル）を求め
る。この場合、入力話者特徴ベクトルＣｉ１，Ｃｉ２は
それぞれＣｋ１に対応づけられているので、差分ベクト
ルＶ１は、入力話者特徴ベクトルＣｉ１，Ｃｉ２の平均
を取って、Ｖ１＝（Ｃｉ１＋Ｃｉ２）／２−Ｃｋ１で求められ、同様に、入力話者特徴ベクトルＣｉ３はＣ
ｋ３に対応づけられられているので、差分ベクトルＶ３
は、Ｖ３＝Ｃｉ３−Ｃｋ３で求められ、同様に、入力話者特徴ベクトルＣｉ４，Ｃ
ｉ５はそれぞれＣｋ４に対応づけられているので、差分
ベクトルＶ４は、入力話者特徴ベクトルＣｉ４，Ｃｉ５
の平均を取って、Ｖ４＝（Ｃｉ４＋Ｃｉ５）／２−Ｃｋ４で求められ、同様に、入力話者特徴ベクトルＣｉ６はＣ
ｋ５に対応づけられているので、差分ベクトルＶ５は、Ｖ５＝Ｃｉ６−Ｃｋ５で求められる。すなわち、重心コードベクトル列の各重
心コードベクトルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５は、
入力話者特徴ベクトル列に対し、前記のように求められ
たＶ１，Ｖ３，Ｖ４，Ｖ５の差分ベクトルを有している
ということである。

【００８０】このようにして、差分ベクトルＶ１，Ｖ
３，Ｖ４，Ｖ５が求められると、次に、この差分ベクト
ルを用いて、入力話者の「おはよう」に対するコードベ
クトルを求め、それを入力話者コードブック４５にマッ
ピングする。

【００８１】ここで、求めるコードベクトルをＣｔｘで
表す（このｘはコードベクトルの番号を表し、ここでは
１，３，４，５の数値を取る）と、Ｃｔ１＝Ｃｋ１＋Ｖ１Ｃｔ３＝Ｃｋ３＋Ｖ３Ｃｔ４＝Ｃｋ４＋Ｖ４Ｃｔ５＝Ｃｋ５＋Ｖ５となる。

【００８２】これらＣｔ１，Ｃｔ３，Ｃｔ４，Ｃｔ５
は、不特定話者コードブック２３における「おはよう」
の重心コードベクトルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５
と入力話者の特徴ベクトル列とを対応付けし、その差分
ベクトルＶ１，Ｖ３，Ｖ４，Ｖ５を、不特定話者コード
ブック４４の重心コードベクトルＣｋ１，Ｃｋ３，Ｃｋ
４，Ｃｋ５にプラスして得られたコードベクトルであ
り、図６に示すように、不特定話者コードブック２３の
コードベクトルが差分ベクトルにより、入力話者コード
ブック４２のコードベクトルに変換される。

【００８３】ただし、この場合、「おはよう」という１
つの話者適応用の単語のみについて考えているので、４
つのコードベクトルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５の
みが変換されたコードベクトルとして求められたことに
なるが、その他の話者適応用の単語について同様の処理
を行うことにより、それに対する入力話者コードベクト
ルが作成される。

【００８４】このようにして、不特定話者コードブック
４４のコードベクトルが入力話者コードブック４５のコ
ードベクトルに変換されて入力話者コードブックが作成
されるが、不特定話者コードブック４４内に、たとえ
ば、２５６個のコードベクトルがあるとすると、全てが
変換されるものではなく、変換されないコードベクトル
（未学習コードベクトルという）も多く存在する。この
未学習コードベクトルを変換するための処理（これを補
間処理という）について以下に説明する。

【００８５】ここでは、説明を簡略化するため、「おは
よう」という１つの話者適応用の単語のみについて考え
るものとし、この「おはよう」という単語に対して４つ
の重心コードベクトルＣｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５
が入力話者コードブックへのコードベクトルとして変換
され、そのほか変換すべきコードベクトル（未学習コー
ドベクトル）は図７に示すように、Ｃｋ２，Ｃｋ６，Ｃ
ｋ７，Ｃｋ８，Ｃｋ９であるとする。

【００８６】この未学習コードベクトルＣｋ２，Ｃｋ
６，Ｃｋ７，Ｃｋ８，Ｃｋ９のうち、今、Ｃｋ２を入力
話者コードブックへ変換するための補間処理について図
８を参照しながら説明する。

【００８７】図８において、未学習コードベクトルＣｋ
２の周辺に存在する学習済みのコードベクトルのうち、
３つのコードベクトルを選ぶ。この場合、未学習コード
ベクトルＣｋ２の周辺には、学習済みのコードベクトル
としてＣｋ１，Ｃｋ３，Ｃｋ４，Ｃｋ５の４つが存在す
るが、このうち、コードベクトルＣｋ１，Ｃｋ４，Ｃｋ
５の３個がＣｋ２に近い距離に存在する学習済みのコー
ドベクトルであるとすると、これら近い距離の３つの学
習済みコードベクトルを選択し、これらのコードベクト
ルＣｋ１，Ｃｋ４，Ｃｋ５に対応する前記差分ベクトル
Ｖ１，Ｖ４，Ｖ５を用いて、未学習コードベクトルＣｋ
２に対する差分ベクトルＶ２を決定する。このＶ２は、Ｖ２＝μ２１・Ｖ１＋μ２４・Ｖ４＋μ２５・Ｖ５で求められる。この式において、μ２１、μ２４、μ２
５は重みを表す係数であり、μ２１はＣｋ２とＣｋ１の
距離に応じた重み、μ２４はＣｋ２とＣｋ４の距離に応
じた重み、μ２５はＣｋ２とＣｋ５の距離に応じた重み
であることを示し、それぞれの距離に応じて重みの大き
さが設定され、μ２１＋μ２４＋μ２５＝１となるよう
に設定される。このようにして、Ｃｋ２に対する差分ベ
クトルが決定され、その差分ベクトルＶ２を用い、Ｃｔ２＝Ｃｋ２＋Ｖ２により、未学習コードベクトルＣｋ２が入力話者コード
ブックのコードベクトルに変換される。

【００８８】同様にして、Ｃｋ２以外の未学習コードベ
クトルＣｋ６，Ｃｋ７，Ｃｋ８，Ｃｋ９のそれぞれの差
分ベクトルが求められ、それぞれの差分ベクトルを用い
て変換される。

【００８９】以上のような処理により、入力話者コード
ブック４５が作成される。これにより、音声認識時に
は、特定話者の音声特徴ベクトル列を、前記のように作
成された入力話者コードブックおよび不特定話者コード
ブックを用いて、不特定話者空間に写像された特徴コー
ドベクトルとして出力し、音声認識部３では、不特定話
者空間に写像された入力話者の特徴コードベクトルを用
いて音声認識処理することにより、音声認識性能をより
一層向上させることができる。

【００９０】ところで、入力話者の或る単語における音
声特徴データを不特定話者空間に写像しても、入力話者
の音声データの特徴は完全には吸収されずに或る程度は
残される。この残った入力音声の特徴量が音声認識時に
おいて、不特定話者音声モデルを用いての音声認識を行
う際に音声認識精度を低下させる原因ともなる。

【００９１】そこで、この第２の実施の形態では、入力
話者の音声を不特定話者空間に写像したデータを用い
て、不特定話者用のＤＲＮＮモデルを再学習し、再学習
後のＤＲＮＮ音声モデルを用いて音声認識する。以下に
その処理について説明する。

【００９２】図９（ａ）は入力話者コードブック４５、
同図（ｂ）は不特定話者コードブック４４を示すもの
で、不特定話者コードブック４４のコードベクトルＣｋ
１，ＣＫ２，・・・と入力話者コードブック４５のコー
ドベクトルＣｔ１，Ｃｔ２，・・・は、Ｃｋ１とＣｔ
１，Ｃｋ２とＣｔ２というようにそれぞれ対応付けされ
ている。

【００９３】入力話者がたとえば「おはよう」という単
語を発話したときの音声特徴ベクトル列Ｃｏ１，Ｃｏ
２，・・・，Ｃｏ７について考える。今、この特徴ベク
トル列Ｃｏ１，Ｃｏ２，・・・，Ｃｏ７のうち、特徴ベ
クトルＣｏ１を例に取る。このＣｏ１に近い３つのコー
ドベクトルＣｔ１，Ｃｔ２，Ｃｔ３を選び、特徴ベクト
ルＣｏ１と３つのコードベクトルＣｔ１，Ｃｔ２，Ｃｔ
３のそれぞれの距離ｄ１，ｄ２，ｄ３を求め、その距離
の大きさに応じた重みｗ１，ｗ２，ｗ３を設定する。こ
の重みは距離が大きいほど大きな値とし、ｗ１＋ｗ２＋
ｗ３＝１となるように設定される。

【００９４】そして、このように設定されたｗ１，ｗ
２，ｗ３を用いて、特徴ベクトルＣｏ１を不特定話者コ
ードブック４４に写像する。この写像された特徴ベクト
ルをＣｏ１’で表すと、Ｃｏ１’は、Ｃｏ１’＝ｗ１・Ｃｋ１＋ｗ２・Ｃｋ２＋ｗ３・Ｃｋ３で表される。このようにして、他の特徴ベクトルＣｏ
２，Ｃｏ３，・・・も同様に、不特定話者コードブック
４４に写像する（写像された特徴ベクトル列をＣｏ
１’，Ｃｏ２’，・・・，Ｃｏ７’で表す）。以上説明
した入力話者のデータを変換コードブックと不特定話者
コードブックの対応を用いて不特定話者空間に変換する
処理は、図３のデータ変換部２５で行い、各単語ごとの
変換データは変換データ記憶部２６に蓄えられる。

【００９５】このようにして、変換データ記憶部２６に
蓄えられた単語毎の変換データ（不特定話者コードブッ
ク４４に写像された或る単語に対する入力話者音声特徴
ベクトル列）をＲＮＮ再学習処理部２２に入力し、ＤＲ
ＮＮモデル（第１のＤＲＮＮデータ記憶部の内容）を再
学習する。

【００９６】すなわち、不特定話者コードブック４４に
写像された、たとえば、「おはよう」という単語に対す
る入力音声特徴ベクトル列Ｃｏ１’，Ｃｏ２’，・・
・，Ｃｏ７は、不特定話者の音声から作成された「おは
よう」に対する重心ベクトル列（Ｃｓ１，Ｃｓ２，・・
・，Ｃｓ７で表す）と比較すると、或る程度の誤差を有
している。この誤差が音声認識に悪影響を与えることに
もなるため、その誤差をＲＮＮモデルの再学習時に吸収
する。

【００９７】前記した誤差をＤＲＮＮモデルの再学習時
吸収する処理は、前記第１の実施の形態で説明した入力
ユニットに入るバイアス項の重みを変化させることによ
り行う。つまり、入力ユニットに入るバイアスを変化さ
せるということは、特徴ベクトル列Ｃｏ１’，Ｃｏ
２’，・・・，Ｃｏ７’のそれぞれの特徴ベクトルごと
に、バイアスとして与えられる重みの分だけ平行移動さ
せるということである。たとえば、特徴ベクトルＣｏ
１’を例に取れば、ＤＲＮＮの入力ユニットＵ１，Ｕ
２，・・・に入力される特徴ベクトルＣｏ１’の１次元
目、２次元目、・・・の値をそれぞれ一定のバイアス項
の重みにより平行移動する。同様に、特徴ベクトルＣｏ
２’のそれぞれの次元を平行移動し、続いて、特徴ベク
トルＣｏ３’のそれぞれの次元を平行移動するというよ
うにして、特徴ベクトル列Ｃｏ１’，Ｃｏ２’，・・・
全体を平行移動する。この平行移動を行うための重み
は、前記した学習則に従って、教師出力にできるだけ近
い出力となるように学習したて得られた値である。この
ように、新たに学習されたバイアスの重みは、第２のＤ
ＲＮＮデータ記憶部２４に記憶される。そして、音声認
識時には、不特定話者空間にマッピングされた入力話者
の音声を、音声認識部３に送り、新たに学習されたＤＲ
ＮＮ音声モデルデータ（第１のＤＲＮＮデータ記憶部２
３に記憶されているユニット相互間の重みと、第２のＤ
ＲＮＮデータ記憶部２４に記憶されている再学習後の重
みとしてのバイアス）を用いて音声認識を行う。

【００９８】以上のように、多数の不特定話者の音声特
徴データを基に作成された不特定話者コードブック４４
から、或る特定話者用の入力話者コードブック４５を作
成し、認識時においては、この入力話者コードブック４
５および不特定話者コードブック４４を用いて、コード
マッピングする話者適応処理と、ＤＲＮＮモデルを再学
習する処理とを組み合わせ、入力話者の音声特徴データ
を不特定話者空間に写像したときの特徴量の差をもと
に、ＤＲＮＮ再学習部２で再学習し、再学習されたＤＲ
ＮＮ音声モデルを用いて音声認識することにより、より
一層、高い認識率を得ることが可能となる。

【００９９】なお、この第２の実施の形態において、不
特定話者コードブックから或る特定の話者用のコードブ
ック（入力話者コードブック）を作成する手段は、前記
したような方法に限られるものではなく、不特定話者コ
ードブックから入力話者コードブックを作成し、それら
を用いて話者適応するものにはすべて適応できるもので
ある。

【０１００】また、以上説明した本発明の処理を行うプ
ログラムはフロッピィディスクなどの記憶媒体に記憶さ
せておくことができ、本発明はその記憶媒体をも含むも
のである。

【０１０１】

【発明の効果】以上説明したように、本発明によれば、
或る程度学習の進んだニューラルネットワークを特定の
話者に適応させるために再学習を行う際、ニューラルネ
ットワーク内部の重みを更新するのではなく、ニューラ
ルネットワーク外部に固定ユニットというものを仮想的
に設けて、この固定ユニットからのバイアスを重みとし
てニューラルネットワークに与えることで、従来の学習
則をそのまま適応して固定ユニットからの重みを変化さ
せることができる。これにより、ニューラルネットワー
ク内部の重みを更新するのに比べて処理が大幅に簡素化
され、データを蓄えるためのメモリも小容量のものとす
ることができ、小型で安価な製品にも適応可能となる。
また、ニューラルネットワーク内の各ユニットのうち、
入力データが与えられる入力ユニットのみに入る固定ユ
ニットの重みを変化させることにより、再学習する方法
は、音声入力データの平行移動に相当するため、入力音
声データに学習結果を加算するだけの処理となり、さら
に処理が簡単なものとなり、メモリ容量もさらに小さく
することができる。

【０１０２】また、本発明は、不特定話者コードブック
を基に、特定話者用のコードブックを作成し、その特定
話者の音声を前記不特定話者コードブックおよび特定話
者用のコードブックを用いて不特定話者空間に写像して
コード化するコードマッピングによる話者適応方法と、
前記したニューラルネットワークの再学習を組み合わ
せ、コードマッピングによる入力話者の音声データを不
特定話者空間に写像したデータを得て、このデータを、
ニューラルネットワークの入力ユニットに与え、その入
力ユニットに入力されるバイアスとしての重みを変える
ことでニューラルネットワークを再学習したのち、再学
習したニューラルネットワークモデルを用いて音声認識
するようにしたので、入力話者の音声特徴データと不特
定話者空間のデータとの差が、ニューラルネットワーク
の再学習にて吸収されることになり、より一層、音声認
識率を高めることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態を説明するために本
発明が適用された音声認識装置の概略的な構成を示すブ
ロック図。

【図２】第１の実施の形態の処理を説明するためのＤＲ
ＮＮの構成を示す図。

【図３】本発明の第２の実施の形態を説明するために本
発明が適用された音声認識装置の概略的な構成を示すブ
ロック図。

【図４】重心ベクトル列を求める例を説明する図。

【図５】第２の実施の形態において、不特定話者コード
ブック内のコードベクトルと重心ベクトルとの対応付け
を行い、重心ベクトルを量子化する処理を説明する図。

【図６】第２の実施の形態において、重心コードベクト
ルと入力話者特徴ベクトルとの対応付けを説明する図。

【図７】第２の実施の形態において、差分ベクトルを用
いて不特定話者コードブックの学習済みコードベクトル
を入力話者コードブックに変換する処理を説明する図。

【図８】第２の実施の形態において、未学習コードベク
トルの補間処理を説明する図。

【図９】第２の実施の形態において、入力話者データを
不特定話者空間に写像したデータを得るデータ変換処理
を説明する図。

【図１０】従来のＤＲＮＮの再学習処理を説明するため
の図。

【符号の説明】

１音声入力部２ＤＲＮＮ再学習部３音声認識部４話者適応部１１マイクロホン１２Ａ／Ｄ変換部１３音声分析部２１入力データ記憶部２２ＤＲＮＮ再学習処理部２３第１のＤＲＮＮデータ記憶部２４第２のＤＲＮＮデータ記憶部２５データ変換部２６変換データ記憶部３１ＤＲＮＮ出力処理部３２音声認識処理部４２コードブック変換処理部４３重心ベクトル列記憶部４４不特定話者コードブック４５入力話者コードブック４６ベクトル量子化部Ｕ１，Ｕ２，Ｕ３入力ユニットＵ４，Ｕ７隠れユニットＵ５，Ｕ６出力ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者相澤直長野県諏訪市大和３丁目３番５号セイコーエプソン株式会社内

Claims

【特許請求の範囲】

【請求項１】不特定話者の入力音声データに対して教
師出力に近い出力が得られるように、ニューラルネット
ワーク内部における各ユニット間の結合強度を示す重み
とニューラルネットワーク外部からそれぞれのユニット
に入力されるバイアスの値とを、所定の学習則に従って
設定した学習済みのニューラルネットワーク音声モデル
を、或る特定話者の音声に適応するために再学習する方
法において、前記各ユニットに外部からバイアスを与える手段とし
て、固定ユニットを仮想的に設けて、この固定ユニット
からの重みを前記所定の学習則に基づいて変化させるこ
とで、前記ニューラルネットワーク音声モデルを、或る
特定話者の音声に適応するために再学習することを特徴
とするニューラルネットワーク音声モデル再学習方法。
【請求項２】前記ニューラルネットワークは、時系列
的なデータ処理を行うダイナミックリカレントニューラ
ルネットワークであることを特徴とする請求項１記載の
ニューラルネットワーク音声モデル再学習方法。
【請求項３】前記ニューラルネットワーク内の各ユニ
ットのうち、入力データが与えられる入力ユニットのみ
に入る固定ユニットの重みを変化させることを特徴とす
る請求項１または２記載のニューラルネットワーク音声
モデル再学習方法。
【請求項４】不特定多数の話者の音声データを基に作
成した不特定話者コードブックを基に、或る特定話者用
のコードブックを作成し、その特定話者の音声を前記不
特定話者コードブックおよび特定話者用のコードブック
を用いて不特定話者空間に写像してコード化したのち音
声認識部に送り、音声認識部では、不特定話者の音声を
基にして予め学習されたニューラルネットワーク音声モ
デルを用いて音声認識を行う音声認識方法において、或る単語に対する特定話者の音声データを不特定話者コ
ードブックに写像した音声データを得て、その音声デー
タを、前記不特定話者の音声を基にして予め学習された
ニューラルネットワークの入力ユニットに入力し、その
入力ユニットに与えられる外部からのバイアスを変化さ
せることにより、ニューラルネットワーク音声モデルを
再学習することを特徴とするニューラルネットワーク音
声モデル再学習方法。
【請求項５】前記ニューラルネットワーク内の入力ユ
ニットに入るバイアスを変化させることにより、ニュー
ラルネットワーク音声モデルを再学習する方法は、前記ニューラルネットワークに外部からバイアスを与え
る手段として、固定ユニットを仮想的に設けて、その固
定ユニットからの重みを前記所定の学習則に基づいて変
化させることで、前記ニューラルネットワーク音声モデ
ルを、特定話者の音声に適応するために再学習すること
を特徴とする請求項４記載のニューラルネットワーク音
声モデル再学習方法。
【請求項６】前記ニューラルネットワークは、時系列
的なデータ処理を行うダイナミックリカレントニューラ
ルネットワークであることを特徴とする請求項４または
５に記載のニューラルネットワーク音声モデル再学習方
法。
【請求項７】不特定話者の入力音声データに対して教
師出力に近い出力が得られるように、ニューラルネット
ワーク内部における各ユニット間の結合強度を示す重み
とニューラルネットワーク外部からそれぞれのユニット
に入力されるバイアスの値とを、所定の学習則に従って
設定した学習済みのニューラルネットワーク音声モデル
を、或る特定話者の音声に適応するために再学習する装
置において、入力音声データを記憶する入力データ記憶部と、不特定多数の話者の音声を基に、予め定めれられた学習
則に従って学習されたニューラルネットワーク音声モデ
ルを記憶するニューラルネットワーク音声モデル記憶部
と、前記入力データに記憶された或る特定話者の或る単語に
対する音声データを基に予め定めれられた学習則に従っ
て前記ニューラルネットワーク音声モデルを再学習する
ニューラルネットワーク再学習処理部と、を有し、前記ニューラルネットワーク再学習処理部は、各ユニッ
トに外部からバイアスを与える手段として仮想的に設け
られた固定ユニットからの重みを、前記所定の学習則に
基づいて変化させることで、前記特定話者の音声に対し
てニューラルネットワーク音声モデルを再学習すること
を特徴とするニューラルネットワーク音声モデル再学習
装置。
【請求項８】前記ニューラルネットワークは、時系列
的なデータ処理を行うダイナミックリカレントニューラ
ルネットワークであることを特徴とする請求項７記載の
ニューラルネットワーク音声モデル再学習装置。
【請求項９】前記ニューラルネットワーク内の各ユニ
ットのうち、入力データが与えられる入力ユニットのみ
に入る固定ユニットの重みを変化させることを特徴とす
る請求項７または８記載のニューラルネットワーク音声
モデル再学習装置。
【請求項１０】不特定多数の話者の音声データを基に
作成した不特定話者コードブックを基に或る特定話者用
のコードブックを作成し、その特定話者の音声を前記不
特定話者コードブックおよび特定話者用のコードブック
を用いて不特定話者空間に写像してコード化したのち音
声認識部に送り、音声認識部では、不特定話者の音声を
基にして予め学習されたニューラルネットワーク音声モ
デルを用いて音声認識を行う音声認識装置において、或る単語に対する特定話者の音声データを不特定話者コ
ードブックに写像したデータを得るデータ変換部と、この不特定話者コードブックに写像された特定話者の音
声データを記憶する変換データ記憶部と、不特定多数の話者の音声を基に、予め定めれられた学習
則に従って学習されたニューラルネットワーク音声モデ
ルを記憶するニューラルネットワーク音声モデル記憶部
と、前記特定話者の或る単語に対する音声データを基に、予
め定めれられた学習則に従って、前記ニューラルネット
ワーク音声モデルを再学習するニューラルネットワーク
再学習処理部と、を有し、前記不特定話者コードブックに写像された特定話者の音
声データを前記予め学習されたニューラルネットワーク
の入力ユニットに入力し、その入力ユニットに与えられ
る外部からのバイアスを変化させることにより、ニュー
ラルネットワーク音声モデルを再学習することを特徴と
するニューラルネットワーク音声モデル再学習装置。
【請求項１１】前記ニューラルネットワーク内の入力
ユニットに与えられる外部からのバイアスを変化させる
ことにより、ニューラルネットワーク音声モデルを再学
習する方法は、前記ニューラルネットワークに外部からバイアスを与え
る手段として、固定ユニットを仮想的に設けて、その固
定ユニットからの重みを前記所定の学習則に基づいて変
化させることで、前記ニューラルネットワーク音声モデ
ルを、特定話者の音声に適応するために再学習すること
を特徴とする請求項１０記載のニューラルネットワーク
音声モデル再学習方法。
【請求項１２】前記ニューラルネットワークは、時系
列的なデータ処理を行うダイナミックリカレントニュー
ラルネットワークであることを特徴とする請求項１０ま
たは１１記載のニューラルネットワーク音声モデル再学
習装置。