JP3156668B2

JP3156668B2 - 音声認識装置

Info

Publication number: JP3156668B2
Application number: JP17318698A
Authority: JP
Inventors: 健一磯
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-06-19
Filing date: 1998-06-19
Publication date: 2001-04-16
Anticipated expiration: 2018-06-19
Also published as: US6253180B1; JP2000010582A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、話者適応化機能を改良した音声認識装置に関
する。

【０００２】

【従来の技術】従来の話者適応化方式として、日本音響
学会平成９年度秋季研究発表会講演論文集（第Ｉ分
冊、第２３〜２４ページ、１９９７年９月）に「移動ベ
クトルの相関に関する事前知識を利用した話者適応」と
題する論文が参照される。

【０００３】図３に、従来のＨＨＭ（Hidden Markov
Model；隠れマルコフモデル）に基づく話者適応化方式
のブロック図、図４に、その事前学習時のブロック図を
示す。

【０００４】話者適応化時には、適応化用発声記憶部３
１に記憶された新話者の適応化用発声を用いて、予めＳ
Ｉ−ＨＭＭ記憶部３２に記憶された不特定話者ＨＭＭ
（「ＳＩ−ＨＭＭ」と呼ぶ）を初期モデルとして、ＨＭ
Ｍ学習部３３で学習を行い、結果として得られるＨＭＭ
（「ＢＷ−ＨＭＭ」と呼ぶ）をＢＷ−ＨＭＭ記憶部３４
に記憶する。

【０００５】減算部３５は、ＢＷ−ＨＭＭとＳＩ−ＨＭ
Ｍのパラメータの差分を、第一差分記憶部３６に記憶す
る。第一差分記憶部３６には、適応化用発声に出現した
ＨＭＭのパラメータ差分のみが記憶される。例えば適応
化用発声が、「あ」、「う」、「お」の３つの発声とす
ると、「あ」に対応するＨＭＭのパラメータと、
「う」、「お」に対応するＨＭＭのパラメータについて
は、ＨＭＭ学習部３３によって学習されるため、ＢＷ−
ＨＭＭとＳＩ−ＨＭＭの差分が生成される。

【０００６】しかし、「い」と「え」は適応化用発声に
出現しないため、対応するＨＭＭも学習されず、ＢＷ−
ＨＭＭのパラメータは、ＳＩ−ＨＭＭのパラメータと同
じままにとどまるため、差分は０のままである。

【０００７】内挿パラメータ記憶部３７は、事前学習
（後述）において決定された内挿パラメータを記憶す
る。

【０００８】内挿部３８は、内挿パラメータと、第一差
分記憶部３６に記憶された差分の線形和として、第二差
分を出力し、第二差分記憶部３９に記憶する。

【０００９】内挿部３８によって算出される第二差分
は、適応化用発声に出現しなかったＨＭＭのパラメータ
とＳＩ−ＨＭＭのパラメータとの差分である。

【００１０】上記の例では、「い」と「え」のＨＭＭに
対する差分が第二差分として算出される。

【００１１】再推定パラメータ記憶部４１は、事前学習
（後述）において決定された再推定パラメータを記憶す
る。

【００１２】再推定部４０は、再推定パラメータと、第
一差分と第二差分を入力として、すべてのＨＭＭパラメ
ータに対する第三差分を算出し第三差分記憶部４２に記
憶する。上記の例では、第三差分は「あ」〜「お」のす
べてのＨＭＭのパラメータに対する差分である。

【００１３】加算部４３は、ＳＩ−ＨＭＭのパラメータ
と第三差分を加算することによって、新話者に適応化し
た特定話者ＨＭＭを求め、ＳＤ−ＨＭＭ記憶部４４に記
憶する。

【００１４】事前学習時には、多数の話者の特定話者Ｈ
ＭＭ（ＳＤ−ＨＭＭ）を、ＳＤ−ＨＭＭ記憶部４３に記
憶し、減算部４７による、各話者のＳＤ−ＨＭＭのパラ
メータと、ＳＩ−ＨＭＭのパラメータとの差分（「第三
差分」という）を、第三差分記憶部４２に記憶する。こ
の第三差分の中で、話者適応化時の適応化用発声に出現
したＨＭＭのパラメータに対する第三差分を「Ｓ」、そ
れ以外（適応化用発声に出現しなかったもの）を「Ｕ」
とする。

【００１５】内挿パラメータ学習部４５では、第三差分
Ｓと内挿パラメータの線形和（「Ｕ１」という）と、第
三差分Ｕの差異Ｕ−Ｕ１を誤差として、多数の話者に対
する誤差の２乗和を最小にするように内挿パラメータを
決定し、内挿パラメータ記憶部３７に記憶する。

【００１６】次に、決定した内挿パラメータと第三差分
Ｓとの線形和を第二差分として出力し、第二差分記憶部
３９に記憶させる。

【００１７】再推定パラメータ学習部４６では、第二差
分と再推定パラメータの線形和（「Ｕ３」という）と、
第三差分Ｕの差異Ｕ−Ｕ３を誤差として、多数の話者に
対する誤差の２乗和を最小にするように再推定パラメー
タを決定し、再推定パラメータ記憶部４１に記憶する。

【００１８】

【発明が解決しようとする課題】しかしながら、上述し
た従来の方式では、次のような問題がある。

【００１９】第一の問題点は、話者適応化時には、適応
化用発声記憶部に記憶された新話者の適応化用発声を用
いて作成したＢＷ−ＨＭＭと、ＳＩ−ＨＭＭとの差分
（第一差分）を用いて、内挿や再推定を行っているが、
内挿パラメータや再推定パラメータを決定する事前学習
においては、多数の話者のＳＤ−ＨＭＭだけを用いて、
学習を行っている。

【００２０】すなわち、話者適応化時のように第一差分
を用いずに、第三差分で代用している。適応化用発声の
単語数が十分大きい場合には、ＳＤ−ＨＭＭとＢＷ−Ｈ
ＭＭはほぼ一致するため、この代用は良い近似である。

【００２１】しかし、話者適応化では、適応化用発声の
単語数を少なくすることが、最重要の課題である。これ
により、ユーザーの発声の負担が軽減される。

【００２２】適応化用発声の単語数が少ない場合には、
ＳＤ−ＨＭＭとＢＷ−ＨＭＭのパラメータは大きく異な
るため、事前学習時に上記のような代用（すなわち第一
差分を第三差分で代用）の近似精度は非常に低くなり、
精度の高い内挿パラメータや再推定パラメータの推定は
困難になる。

【００２３】第二の問題点は、話者適応化を行うため
に、単一の差分（第一差分記憶部に格納されている）を
用いて、内挿と再推定という２回の線形変換を行ってい
る点である。

【００２４】適応化用発声の単語数が少ないと、発声に
出現するＨＭＭの割合が非常に小さくなる。すると、内
挿によって、大多数のＨＭＭのパラメータ（の差分）
を、少数の出現したＨＭＭのパラメータ（の差分）の線
形変換によって、推定しなければならなくなり、第二差
分の精度が大幅に低下する。

【００２５】さらに再推定によって、適応化用発声に出
現したＨＭＭのパラメータについても、大多数の出現し
なかったＨＭＭのパラメータの差分（精度の低い第二差
分）を用いて、修正してしまう。このため、適応化用発
声に出現したＨＭＭのパラメータも改悪されてしまう。

【００２６】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、事前学習時に、
多数の話者のＳＤ−ＨＭＭに加えて、それらの話者の適
応化用発声を利用することを可能にして、話者適応化時
と動作条件を一致させて精度の高いパラメータの事前学
習を可能にし、さらに話者適応化時、特に適応化用発声
の単語数が少ない場合にも、一回の予測（線形変換）で
すべてのＨＭＭのパラメータを高い精度で適応化するこ
とを可能とする音声認識装置を提供することにある。

【００２７】

【課題を解決するための手段】前記目的を達成するため
本発明による音声認識装置は、新話者の適応化用発声を
記憶する適応化用発声記憶部と、予め用意した不特定話
者ＨＭＭを記憶するＳＩ−ＨＭＭ記憶部と、前記適応化
用発声と前記不特定話者ＨＭＭを用いてＨＭＭ学習を行
うＨＭＭ学習部と、前記ＨＭＭ学習部の出力として得ら
れたＢＷ−ＨＭＭを記憶するＢＷ−ＨＭＭ記憶部と、前
記ＢＷ−ＨＭＭのパラメータと、前記ＳＩ−ＨＭＭのパ
ラメータの差分を算出し、第一差分として出力する減算
部と、前記第一差分を記憶する第一差分記憶部と、予測
関数のパラメータを記憶する予測パラメータ記憶部と、
前記第一差分と、前記予測パラメータを用いて、第二差
分を予測する予測部と、前記予測部の出力する第二差分
を記憶する第二差分記憶部と、前記第二差分と前記ＳＩ
−ＨＭＭのパラメータを加算して、新話者の特定話者Ｈ
ＭＭのパラメータを算出する加算部と、前記加算部の出
力である新話者の特定話者ＨＭＭを記憶するＳＤ−ＨＭ
Ｍ記憶部と、を含む。

【００２８】本発明は、前記予測パラメータを決定する
事前学習を行うに際して、前記適応化用発声記憶部に多
数の話者の適応化用発声を記憶し、前記ＳＤ−ＨＭＭ記
憶部に予め用意した多数の話者の特定話者ＨＭＭを記憶
し、前記ＨＭＭ学習部において、前記適応化用発声記憶
部に記憶された多数話者の適応化用発声を用いて、各話
者のＢＷ−ＨＭＭを作成し、前記ＢＷ−ＨＭＭ記憶部に
格納し、前記減算部において、前記ＢＷ−ＨＭＭ記憶部
に記憶された各話者のＢＷ−ＨＭＭのパラメータと、前
記ＳＩ−ＨＭＭ記憶部に記憶されたＳＩ−ＨＭＭのパラ
メータの差分を算出して、各話者の第一差分として前記
第一差分記憶部に記憶し、前記多数の話者の特定話者Ｈ
ＭＭのパラメータと、前記ＳＩ−ＨＭＭのパラメータの
差分を第二差分として算出する第二減算部を有し、前記
第二減算部の出力を、前記第二差分記憶部に記憶し、前
記各話者の第一差分と、前記各話者の第二差分を用いて
予測パラメータを学習する予測パラメータ学習部と、を
有し、前記予測パラメータ学習部が出力する予測パラメ
ータを、前記予測パラメータ記憶部に記憶する。

【００２９】

【発明の実施の形態】本発明の実施の形態について説明
する。本発明の音声認識装置は、話者適応化機能部にお
いて、図３に示した従来の装置の内挿部３８、内挿パラ
メータ記憶部４５、再推定部４０、再推定パラメータ記
憶部４６、第三差分記憶部４２を除き、これに代わり、
予測部、予測パラメータ記憶部を備えたものである。こ
れにより、従来の話者適応化において必要とされた内挿
と再推定という２回の線形変換を、予測という１回の線
形変換に統合し、精度の高い話者適応化を可能としてい
る。より詳細には、本発明の音声認識装置は、その好ま
しい実施の形態として、図１を参照すると、話者適応化
機能部において、新話者の適応化用発声を記憶する適応
化用発声記憶部（１）と、予め用意した不特定話者ＨＭ
Ｍを記憶するＳＩ−ＨＭＭ記憶部（２）と、適応化用発
声と不特定話者ＨＭＭを用いてＨＭＭ学習を行うＨＭＭ
学習部（３）と、ＨＭＭ学習部の出力として得られたＢ
Ｗ−ＨＭＭを記憶するＢＷ−ＨＭＭ記憶部（４）と、Ｂ
Ｗ−ＨＭＭのパラメータと、ＳＩ−ＨＭＭのパラメータ
の差分を算出し、第一差分として出力する減算部（５）
と、第一差分を記憶する第一差分記憶部（６）と、予測
関数のパラメータを記憶する予測パラメータ記憶部
（７）と、第一差分と、予測パラメータとを用いて、第
二差分を予測する予測部（８）と、予測部の出力する第
二差分を記憶する第二差分記憶部（９）と、第二差分と
ＳＩ−ＨＭＭのパラメータを加算して、新話者の特定話
者ＨＭＭのパラメータを算出する加算部（１０）と、加
算部の出力である新話者の特定話者ＨＭＭを記憶するＳ
Ｄ−ＨＭＭ記憶部（１１）と、を備える。

【００３０】また、本発明の実施の形態においては、図
４に示した従来の装置における事前学習のように、話者
適応化時と非対称な事前学習を行うのではなく、話者適
応化機能を提供する部分をそのまま利用して、予測部の
代わりに、予測パラメータ学習部を追加し、加算部の代
わりに、第二減算部を追加するだけで、話者適応化時と
同一条件で動作する事前学習機能を実現している。

【００３１】本発明の音声認識装置は、その好ましい実
施の形態において、図２を参照すると、予測パラメータ
を決定する事前学習を行うに際して、適応化用発声記憶
部（１）に多数の話者の適応化用発声を記憶し、ＳＤ−
ＨＭＭ記憶部（１１）に予め用意した多数の話者の特定
話者ＨＭＭを記憶し、ＨＭＭ学習部（３）において、適
応化用発声記憶部（１）に記憶された多数話者の適応化
用発声を用いて、各話者のＢＷ−ＨＭＭを作成し、ＢＷ
−ＨＭＭ記憶部（４）に格納し、減算部（６）におい
て、ＢＷ−ＨＭＭ記憶部（４）に記憶された各話者のＢ
Ｗ−ＨＭＭのパラメータと、ＳＩ−ＨＭＭ記憶部（２）
に記憶されたＳＩ−ＨＭＭのパラメータの差分を算出し
て、各話者の第一差分として第一差分記憶部（６）に記
憶し、多数の話者の特定話者ＨＭＭのパラメータと、Ｓ
Ｉ−ＨＭＭのパラメータの差分を第二差分として算出す
る第二減算部（１３）を有し、第二減算部の出力を第二
差分記憶部（９）に記憶し、各話者の第一差分と、各話
者の第二差分を用いて予測パラメータを学習する予測パ
ラメータ学習部（１２）と、を有し、予測パラメータ学
習部（１２）が出力する予測パラメータを予測パラメー
タ記憶部（７）に記憶する。

【００３２】このように構成したことにより、本発明の
実施の形態によれば、事前学習時に、多数の話者のＳＤ
−ＨＭＭに加えて、それらの話者の適応化用発声を利用
することを可能にし、話者適応化時と動作条件を一致さ
せて精度の高いパラメータの事前学習を可能としてお
り、少数の適応化用発声を用いても精度の高い適応化を
実現することができる。

【００３３】

【実施例】次に、本発明の実施例について図面を参照し
て詳細に説明する。

【００３４】図１は、本発明を適用した音声認識装置の
一実施例における話者適応化機能部分の構成を示す図で
ある。図２は、本発明を適用した音声認識装置の一実施
例における事前学習機能部分の構成を示す図である。

【００３５】図１を参照すると、適応化用発声記憶部１
は、新話者の適応化用発声を記憶する。ＳＩ−ＨＭＭ記
憶部２は、予め用意した不特定話者ＨＭＭ（「ＳＩ−Ｈ
ＭＭ」と呼ぶ）を記憶する。

【００３６】ＨＭＭ学習部３は、ＳＩ−ＨＭＭを初期モ
デルとして、適応化用発声を用いてＨＭＭ学習を行い、
学習後のＨＭＭ（「ＢＷ−ＨＭＭ」と呼ぶ）を出力す
る。ＢＷ−ＨＭＭ記憶部４は、ＨＭＭ学習部３から出力
されたＢＷ−ＨＭＭを記憶する。

【００３７】減算部５は、ＳＩ−ＨＭＭのパラメータ、
例えばガウス分布の平均ベクトルなどと、ＢＷ−ＨＭＭ
のパラメータの差分を計算して、第一差分として出力す
る。第一差分記憶部６は、減算部５から出力された第一
差分を記憶する。

【００３８】予測パラメータ記憶部７は、予め事前学習
によって決定された予測パラメータを記憶している。

【００３９】予測部８は、第一差分と予測パラメータの
線形和を計算し、第二差分として出力する。第二差分記
憶部９は、予測部８から出力された第二差分を記憶す
る。

【００４０】加算部１０は、第二差分と、ＳＩ−ＨＭＭ
のパラメータを加算して、新話者の話者適応化済みの特
定話者ＨＭＭとして出力する。ＳＤ−ＨＭＭ記憶部１１
は、加算部１０から出力される特定話者ＨＭＭを記憶す
る。このＳＤ−ＨＭＭ記憶部１１に記憶される特定話者
ＨＭＭが、新話者の少量の適応化用発声で、話者適応化
した結果得られた新話者用のＨＭＭである。

【００４１】話者適応化の精度は、予測パラメータによ
って定まる。事前学習では、この予測パラメータを、多
数の話者の特定話者ＨＭＭ（「ＳＤ−ＨＭＭ」という）
と、それらの話者の適応化用発声を用いて、最適に推定
（学習）する。

【００４２】各話者のＳＤ−ＨＭＭは、その話者の大量
の発声を用いて、ＨＭＭ学習して得られるものである。
各話者について、ＳＤ−ＨＭＭと、その話者の適応化用
発声のペア（組）を用意するということは、図１の話者
適応化における入力（適応化用発声記憶部１に記憶）
と、適応化の結果得られるべき望ましい出力（ＳＤ−Ｈ
ＭＭ記憶部１１に記憶）のペアを、多数用意したことに
対応する。

【００４３】入力に対する望ましい出力の例が大量に与
えられたときに、予測パラメータを最適に定める事前学
習について、図２を参照して説明する。

【００４４】図２において、図１と異なる構成要素は、
予測パラメータ学習部１２と第二減算部１３だけであ
る。すなわち図１における予測部８が、予測パラメータ
学習部１２に、加算部１０が第二減算部１３にそれぞれ
置き換わっている。

【００４５】はじめに、適応化用発声記憶部１に、多数
の話者の適応化用発声を記憶する。また、ＳＤ−ＨＭＭ
記憶部１１に多数の話者のＳＤ−ＨＭＭを記憶する。

【００４６】ＨＭＭ学習部３は、ＳＩ−ＨＭＭと各話者
の適応化用発声を用いて、話者適応化時と同様に、各話
者のＢＷ−ＨＭＭを作成し、ＢＷ−ＨＭＭ記憶部４に記
憶する。

【００４７】減算部５は、各話者のＢＷ−ＨＭＭのパラ
メータと、ＳＩ−ＨＭＭのパラメータとの差分を計算
し、第一差分として出力する。第一差分記憶部６は、減
算部５から出力された第一差分を記憶する。

【００４８】第二減算部１３は、ＳＤ−ＨＭＭ記憶部１
１に記憶されている各話者のＳＤ−ＨＭＭを読み出し、
ＳＩ−ＨＭＭのパラメータとの差分を計算し、第二差分
として出力する。第二差分記憶部９は、第二減算部１３
から出力された第二差分を記憶する。

【００４９】予測パラメータ学習部１２は、第一差分と
予測パラメータの線形和を計算し、その値と、第二差分
の差異を誤差として、すべての話者に対する誤差の２乗
和を最小化するように、予測パラメータの値を決定す
る。第一差分を予測部８に入力したときの、出力値が第
二差分である。

【００５０】予測パラメータ学習部１２では、多数の話
者について、入力となる第一差分と、それに対する望ま
しい出力である第二差分の例を与えて、予測パラメータ
を推定している。予測パラメータ記憶部７は、上記で決
定された予測パラメータを記憶する。

【００５１】以上の手順により、事前学習においては、
話者適応化と全く同様の機構を用いて、最適な予測パラ
メータを学習（推定）することができる。

【００５２】

【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。

【００５３】本発明の第１の効果は、従来法では内挿と
再推定の２回の線形変換が必要であったものが、本発明
によれば、話者適応化において、一回の線形変換（予
測）により適応化が完了するということである。

【００５４】また本発明の第２の効果は、事前学習にお
いて、多数の話者の適応化用発声を利用することを可能
にし、話者適応化時と同様の構成によって、最適な予測
パラメータを決定することを可能とし、これによって、
事前学習と話者適応化のあいだの非対称性を排除するこ
とができ、適応化用発声が少量の場合でも、安定で精度
の高い話者適応化を実現することができる、ということ
である。

【図面の簡単な説明】

【図１】本発明の一実施例の構成を示すブロック図であ
る。

【図２】本発明の一実施例の構成を示すブロック図であ
る。

【図３】従来の話者適応化機能を説明するためのブロッ
ク図である。

【図４】従来の事前学習機能を説明するための図であ
る。

【符号の説明】

１適応化用発声記憶部２ＳＩ−ＨＭＭ記憶部３ＨＭＭ学習部４ＢＷ−ＨＭＭ記憶部５減算部６第一差分記憶部７予測パラメータ記憶部８予測部９第二差分記憶部１０加算部１１ＳＤ−ＨＭＭ記憶部１２予測パラメータ学習部１３第二減算部

フロントページの続き (56)参考文献日本音響学会平成９年度秋季研究発表会講演論文集▲Ｉ▼，１−１−12，大淵康成外「移動ベクトルの相関に関する事前知識を利用した話者適応」，ｐ．23− 24（平成９年９月17日発行) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1997 ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＵｎｄｅｒｓｔａｎｄｉｎｇ，Ｙ．Ｏｂｕｃｈｉｅｔａｌ，”ＡＮｏｖｅｌＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎＡｌｇｏｒｉｔｈｍａｎｄｉｔｓＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｎＡＲＩＳＣＭｉｃｒｏｐｒｏｃｅｓｓｏｒ”，ｐ．442−449，Ｄｅｃｅｍｂｅｒ 14−17，1997，ＳａｎｔａＢａｒｂａｒａ，Ｃａｌｉｆｏｒｎｉａ, Ｕ．Ｓ．Ａ. 日本音響学会平成７年度秋季研究発表会講演論文集▲Ｉ▼，２−２−23，高橋敏外「学習移動ベクトル間の相関によりｔｙｉｎｇした音響モデルの共有構造」，ｐ．63−64（平成７年９月27日発行) 日本音響学会平成10年度秋季研究発表会講演論文集▲Ｉ▼，２−１−４，ＤｉｅｕＴｒａｎｅｔａｌ，”ＰｒｅｄｉｃｔｉｖｅＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎＡｎｄＩｔｓＰｒｉｏｒＴｒａｉｎｉｎｇ”，ｐ．45 −46（平成10年９月24日発行) Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1994 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．１，Ｔ．Ｋｏｓａｋａｅｔａｌ，”Ｔｒｅｅ−ＳｔｒｕｃｔｕｒｅｄＳｐｅａｋｅｒＣｌｕｓｔｅｒｉｎｇｆｏｒＦａｓｔＳｐｅａｋｅｒＡｄａｐｔａｔｉｏｎ”，ｐ. Ｉ−245〜Ｉ−248，19−22 Ａｐｒｉｌ，1994，Ａｄｅｌａｉｄｅ，ＳｏｕｔｈＡｕｓｔｒａｌｉａＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ. ２，Ｎｏ．２，Ａｐｒｉｌ 1994，Ｊ. −Ｌ．Ｇａｕｖａｉｎ，”ＭａｘｉｍｕｍａＰｏｓｔｅｒｉｏｒｉＥｓｔｉｍａｔｉｏｎｆｏｒＭｕｌｔｉｖａｒｉａｔｅＧａｕｓｓｉａｎＭｉｘｔｕｒｅＯｂｓｅｒｖａｔｉｏｎｓｏｆＭａｒｋｏｖＣｈａｉｎｓ”，ｐ．291−298 電子情報通信学会論文誌，Ｖｏｌ．Ｊ 79−Ｄ−▲ＩＩ▼ Ｎｏ．５，Ｍａｙ 1996，大倉計美外「複数代表話者の話者空間移動ベクトルに基づく不特定話者ＨＭＭの話者適応化」，ｐ．667−674, （平成８年５月25日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/14 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】新話者の適応化用発声を記憶する適応化用
発声記憶部と、予め用意した不特定話者ＨＭＭ（「ＳＩ−ＨＭＭ」とい
う）を記憶するＳＩ−ＨＭＭ記憶部と、前記適応化用発声と前記不特定話者ＨＭＭを用いてＨＭ
Ｍ学習を行うＨＭＭ学習部と、前記ＨＭＭ学習部の出力として得られたＢＷ−ＨＭＭを
記憶するＢＷ−ＨＭＭ記憶部と、前記ＢＷ−ＨＭＭのパラメータと、前記ＳＩ−ＨＭＭの
パラメータの差分を算出し、第一差分として出力する減
算部と、前記第一差分を記憶する第一差分記憶部と、予測関数のパラメータ（「予測パラメータ」という）を
記憶する予測パラメータ記憶部と、前記第一差分と、前記予測パラメータとを用いて、第二
差分を予測する予測部と、前記予測部から出力される第二差分を記憶する第二差分
記憶部と、前記第二差分と前記ＳＩ−ＨＭＭのパラメータとを加算
して、新話者の特定話者ＨＭＭのパラメータを算出する
加算部と、前記加算部から出力される前記新話者の特定話者ＨＭＭ
を記憶するＳＤ−ＨＭＭ記憶部と、を含むことを特徴とする音声認識装置であり、前記予測パラメータを決定する事前学習を行うに際し
て、前記適応化用発声記憶部に多数の話者の適応化用発声を
記憶し、前記ＳＤ−ＨＭＭ記憶部に予め用意した多数の話者の特
定話者ＨＭＭを記憶し、前記ＨＭＭ学習部において、前
記適応化用発声記憶部に記憶された多数話者の適応化用
発声を用いて、各話者のＢＷ−ＨＭＭを作成して前記Ｂ
Ｗ−ＨＭＭ記憶部に格納し、前記減算部において、前記ＢＷ−ＨＭＭ記憶部に記憶さ
れた各話者のＢＷ−ＨＭＭのパラメータと、前記ＳＩ−
ＨＭＭ記憶部に記憶されたＳＩ−ＨＭＭのパラメータと
の差分を算出して、各話者の第一差分として前記第一差
分記憶部に記憶し、前記多数の話者の特定話者ＨＭＭのパラメータと、前記
ＳＩ−ＨＭＭのパラメータとの差分を第二差分として算
出する第二減算部を有し、前記第二減算部の出力を前記
第二差分記憶部に記憶し、前記各話者の第一差分と前記各話者の第二差分とを用い
て、予測パラメータを学習する予測パラメータ学習部を
有し、前記予測パラメータ学習部が出力する予測パラメータ
を、前記予測パラメータ記憶部に記憶する、ことを特徴とする音声認識装置。