JP3156668B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3156668B2
JP3156668B2 JP17318698A JP17318698A JP3156668B2 JP 3156668 B2 JP3156668 B2 JP 3156668B2 JP 17318698 A JP17318698 A JP 17318698A JP 17318698 A JP17318698 A JP 17318698A JP 3156668 B2 JP3156668 B2 JP 3156668B2
Authority
JP
Japan
Prior art keywords
hmm
difference
speaker
storage unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17318698A
Other languages
English (en)
Other versions
JP2000010582A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP17318698A priority Critical patent/JP3156668B2/ja
Priority to US09/335,041 priority patent/US6253180B1/en
Publication of JP2000010582A publication Critical patent/JP2000010582A/ja
Application granted granted Critical
Publication of JP3156668B2 publication Critical patent/JP3156668B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、話者適応化機能を改良した音声認識装置に関
する。
【0002】
【従来の技術】従来の話者適応化方式として、日本音響
学会 平成年度季研究発表会講演論文集(第I分
冊、第23〜24ページ、199月)に「移動ベ
クトルの相関に関する事前知識を利用した話者適応」と
題する論文が参照される。
【0003】図3に、従来のHHM(Hidden Markov
Model;隠れマルコフモデル)に基づく話者適応化方式
のブロック図、図4に、その事前学習時のブロック図を
示す。
【0004】話者適応化時には、適応化用発声記憶部3
1に記憶された新話者の適応化用発声を用いて、予めS
I−HMM記憶部32に記憶された不特定話者HMM
(「SI−HMM」と呼ぶ)を初期モデルとして、HM
M学習部33で学習を行い、結果として得られるHMM
(「BW−HMM」と呼ぶ)をBW−HMM記憶部34
に記憶する。
【0005】減算部35は、BW−HMMとSI−HM
Mのパラメータの差分を、第一差分記憶部36に記憶す
る。第一差分記憶部36には、適応化用発声に出現した
HMMのパラメータ差分のみが記憶される。例えば適応
化用発声が、「あ」、「う」、「お」の3つの発声とす
ると、「あ」に対応するHMMのパラメータと、
「う」、「お」に対応するHMMのパラメータについて
は、HMM学習部33によって学習されるため、BW−
HMMとSI−HMMの差分が生成される。
【0006】しかし、「い」と「え」は適応化用発声に
出現しないため、対応するHMMも学習されず、BW−
HMMのパラメータは、SI−HMMのパラメータと同
じままにとどまるため、差分は0のままである。
【0007】内挿パラメータ記憶部37は、事前学習
(後述)において決定された内挿パラメータを記憶す
る。
【0008】内挿部38は、内挿パラメータと、第一差
分記憶部36に記憶された差分の線形和として、第二差
分を出力し、第二差分記憶部39に記憶する。
【0009】内挿部38によって算出される第二差分
は、適応化用発声に出現しなかったHMMのパラメータ
とSI−HMMのパラメータとの差分である。
【0010】上記の例では、「い」と「え」のHMMに
対する差分が第二差分として算出される。
【0011】再推定パラメータ記憶部41は、事前学習
(後述)において決定された再推定パラメータを記憶す
る。
【0012】再推定部40は、再推定パラメータと、第
一差分と第二差分を入力として、すべてのHMMパラメ
ータに対する第三差分を算出し第三差分記憶部42に記
憶する。上記の例では、第三差分は「あ」〜「お」のす
べてのHMMのパラメータに対する差分である。
【0013】加算部43は、SI−HMMのパラメータ
と第三差分を加算することによって、新話者に適応化し
た特定話者HMMを求め、SD−HMM記憶部44に記
憶する。
【0014】事前学習時には、多数の話者の特定話者H
MM(SD−HMM)を、SD−HMM記憶部43に記
憶し、減算部47による、各話者のSD−HMMのパラ
メータと、SI−HMMのパラメータとの差分(「第三
差分」という)を、第三差分記憶部42に記憶する。こ
の第三差分の中で、話者適応化時の適応化用発声に出現
したHMMのパラメータに対する第三差分を「S」、そ
れ以外(適応化用発声に出現しなかったもの)を「U」
とする。
【0015】内挿パラメータ学習部45では、第三差分
Sと内挿パラメータの線形和(「U1」という)と、第
三差分Uの差異U−U1を誤差として、多数の話者に対
する誤差の2乗和を最小にするように内挿パラメータを
決定し、内挿パラメータ記憶部37に記憶する。
【0016】次に、決定した内挿パラメータと第三差分
Sとの線形和を第二差分として出力し、第二差分記憶部
39に記憶させる。
【0017】再推定パラメータ学習部46では、第二差
分と再推定パラメータの線形和(「U3」という)と、
第三差分Uの差異U−U3を誤差として、多数の話者に
対する誤差の2乗和を最小にするように再推定パラメー
タを決定し、再推定パラメータ記憶部41に記憶する。
【0018】
【発明が解決しようとする課題】しかしながら、上述し
た従来の方式では、次のような問題がある。
【0019】第一の問題点は、話者適応化時には、適応
化用発声記憶部に記憶された新話者の適応化用発声を用
いて作成したBW−HMMと、SI−HMMとの差分
(第一差分)を用いて、内挿や再推定を行っているが、
内挿パラメータや再推定パラメータを決定する事前学習
においては、多数の話者のSD−HMMだけを用いて、
学習を行っている。
【0020】すなわち、話者適応化時のように第一差分
を用いずに、第三差分で代用している。適応化用発声の
単語数が十分大きい場合には、SD−HMMとBW−H
MMはほぼ一致するため、この代用は良い近似である。
【0021】しかし、話者適応化では、適応化用発声の
単語数を少なくすることが、最重要の課題である。これ
により、ユーザーの発声の負担が軽減される。
【0022】適応化用発声の単語数が少ない場合には、
SD−HMMとBW−HMMのパラメータは大きく異な
るため、事前学習時に上記のような代用(すなわち第一
差分を第三差分で代用)の近似精度は非常に低くなり、
精度の高い内挿パラメータや再推定パラメータの推定は
困難になる。
【0023】第二の問題点は、話者適応化を行うため
に、単一の差分(第一差分記憶部に格納されている)を
用いて、内挿と再推定という2回の線形変換を行ってい
る点である。
【0024】適応化用発声の単語数が少ないと、発声に
出現するHMMの割合が非常に小さくなる。すると、内
挿によって、大多数のHMMのパラメータ(の差分)
を、少数の出現したHMMのパラメータ(の差分)の線
形変換によって、推定しなければならなくなり、第二差
分の精度が大幅に低下する。
【0025】さらに再推定によって、適応化用発声に出
現したHMMのパラメータについても、大多数の出現し
なかったHMMのパラメータの差分(精度の低い第二差
分)を用いて、修正してしまう。このため、適応化用発
声に出現したHMMのパラメータも改悪されてしまう。
【0026】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、事前学習時に、
多数の話者のSD−HMMに加えて、それらの話者の適
応化用発声を利用することを可能にして、話者適応化時
と動作条件を一致させて精度の高いパラメータの事前学
習を可能にし、さらに話者適応化時、特に適応化用発声
の単語数が少ない場合にも、一回の予測(線形変換)で
すべてのHMMのパラメータを高い精度で適応化するこ
とを可能とする音声認識装置を提供することにある。
【0027】
【課題を解決するための手段】前記目的を達成するため
本発明による音声認識装置は、新話者の適応化用発声を
記憶する適応化用発声記憶部と、予め用意した不特定話
者HMMを記憶するSI−HMM記憶部と、前記適応化
用発声と前記不特定話者HMMを用いてHMM学習を行
うHMM学習部と、前記HMM学習部の出力として得ら
れたBW−HMMを記憶するBW−HMM記憶部と、前
記BW−HMMのパラメータと、前記SI−HMMのパ
ラメータの差分を算出し、第一差分として出力する減算
部と、前記第一差分を記憶する第一差分記憶部と、予測
関数のパラメータを記憶する予測パラメータ記憶部と、
前記第一差分と、前記予測パラメータを用いて、第二差
分を予測する予測部と、前記予測部の出力する第二差分
を記憶する第二差分記憶部と、前記第二差分と前記SI
−HMMのパラメータを加算して、新話者の特定話者H
MMのパラメータを算出する加算部と、前記加算部の出
力である新話者の特定話者HMMを記憶するSD−HM
M記憶部と、を含む。
【0028】本発明は、前記予測パラメータを決定する
事前学習を行うに際して、前記適応化用発声記憶部に多
数の話者の適応化用発声を記憶し、前記SD−HMM記
憶部に予め用意した多数の話者の特定話者HMMを記憶
し、前記HMM学習部において、前記適応化用発声記憶
部に記憶された多数話者の適応化用発声を用いて、各話
者のBW−HMMを作成し、前記BW−HMM記憶部に
格納し、前記減算部において、前記BW−HMM記憶部
に記憶された各話者のBW−HMMのパラメータと、前
記SI−HMM記憶部に記憶されたSI−HMMのパラ
メータの差分を算出して、各話者の第一差分として前記
第一差分記憶部に記憶し、前記多数の話者の特定話者H
MMのパラメータと、前記SI−HMMのパラメータの
差分を第二差分として算出する第二減算部を有し、前記
第二減算部の出力を、前記第二差分記憶部に記憶し、前
記各話者の第一差分と、前記各話者の第二差分を用いて
予測パラメータを学習する予測パラメータ学習部と、を
有し、前記予測パラメータ学習部が出力する予測パラメ
ータを、前記予測パラメータ記憶部に記憶する。
【0029】
【発明の実施の形態】本発明の実施の形態について説明
する。本発明の音声認識装置は、話者適応化機能部にお
いて、図3に示した従来の装置の内挿部38、内挿パラ
メータ記憶部45、再推定部40、再推定パラメータ記
憶部46、第三差分記憶部42を除き、これに代わり、
予測部、予測パラメータ記憶部を備えたものである。こ
れにより、従来の話者適応化において必要とされた内挿
と再推定という2回の線形変換を、予測という1回の線
形変換に統合し、精度の高い話者適応化を可能としてい
る。より詳細には、本発明の音声認識装置は、その好ま
しい実施の形態として、図1を参照すると、話者適応化
機能部において、新話者の適応化用発声を記憶する適応
化用発声記憶部(1)と、予め用意した不特定話者HM
Mを記憶するSI−HMM記憶部(2)と、適応化用発
声と不特定話者HMMを用いてHMM学習を行うHMM
学習部(3)と、HMM学習部の出力として得られたB
W−HMMを記憶するBW−HMM記憶部(4)と、B
W−HMMのパラメータと、SI−HMMのパラメータ
の差分を算出し、第一差分として出力する減算部(5)
と、第一差分を記憶する第一差分記憶部(6)と、予測
関数のパラメータを記憶する予測パラメータ記憶部
(7)と、第一差分と、予測パラメータとを用いて、第
二差分を予測する予測部(8)と、予測部の出力する第
二差分を記憶する第二差分記憶部(9)と、第二差分と
SI−HMMのパラメータを加算して、新話者の特定話
者HMMのパラメータを算出する加算部(10)と、加
算部の出力である新話者の特定話者HMMを記憶するS
D−HMM記憶部(11)と、を備える。
【0030】また、本発明の実施の形態においては、図
4に示した従来の装置における事前学習のように、話者
適応化時と非対称な事前学習を行うのではなく、話者適
応化機能を提供する部分をそのまま利用して、予測部の
代わりに、予測パラメータ学習部を追加し、加算部の代
わりに、第二減算部を追加するだけで、話者適応化時と
同一条件で動作する事前学習機能を実現している。
【0031】本発明の音声認識装置は、その好ましい実
施の形態において、図2を参照すると、予測パラメータ
を決定する事前学習を行うに際して、適応化用発声記憶
部(1)に多数の話者の適応化用発声を記憶し、SD−
HMM記憶部(11)に予め用意した多数の話者の特定
話者HMMを記憶し、HMM学習部(3)において、適
応化用発声記憶部(1)に記憶された多数話者の適応化
用発声を用いて、各話者のBW−HMMを作成し、BW
−HMM記憶部(4)に格納し、減算部(6)におい
て、BW−HMM記憶部(4)に記憶された各話者のB
W−HMMのパラメータと、SI−HMM記憶部(2)
に記憶されたSI−HMMのパラメータの差分を算出し
て、各話者の第一差分として第一差分記憶部(6)に記
憶し、多数の話者の特定話者HMMのパラメータと、S
I−HMMのパラメータの差分を第二差分として算出す
る第二減算部(13)を有し、第二減算部の出力を第二
差分記憶部(9)に記憶し、各話者の第一差分と、各話
者の第二差分を用いて予測パラメータを学習する予測パ
ラメータ学習部(12)と、を有し、予測パラメータ学
習部(12)が出力する予測パラメータを予測パラメー
タ記憶部(7)に記憶する。
【0032】このように構成したことにより、本発明の
実施の形態によれば、事前学習時に、多数の話者のSD
−HMMに加えて、それらの話者の適応化用発声を利用
することを可能にし、話者適応化時と動作条件を一致さ
せて精度の高いパラメータの事前学習を可能としてお
り、少数の適応化用発声を用いても精度の高い適応化を
実現することができる。
【0033】
【実施例】次に、本発明の実施例について図面を参照し
て詳細に説明する。
【0034】図1は、本発明を適用した音声認識装置の
一実施例における話者適応化機能部分の構成を示す図で
ある。図2は、本発明を適用した音声認識装置の一実施
例における事前学習機能部分の構成を示す図である。
【0035】図1を参照すると、適応化用発声記憶部1
は、新話者の適応化用発声を記憶する。SI−HMM記
憶部2は、予め用意した不特定話者HMM(「SI−H
MM」と呼ぶ)を記憶する。
【0036】HMM学習部3は、SI−HMMを初期モ
デルとして、適応化用発声を用いてHMM学習を行い、
学習後のHMM(「BW−HMM」と呼ぶ)を出力す
る。BW−HMM記憶部4は、HMM学習部3から出力
されたBW−HMMを記憶する。
【0037】減算部5は、SI−HMMのパラメータ、
例えばガウス分布の平均ベクトルなどと、BW−HMM
のパラメータの差分を計算して、第一差分として出力す
る。第一差分記憶部6は、減算部5から出力された第一
差分を記憶する。
【0038】予測パラメータ記憶部7は、予め事前学習
によって決定された予測パラメータを記憶している。
【0039】予測部8は、第一差分と予測パラメータの
線形和を計算し、第二差分として出力する。第二差分記
憶部9は、予測部8から出力された第二差分を記憶す
る。
【0040】加算部10は、第二差分と、SI−HMM
のパラメータを加算して、新話者の話者適応化済みの特
定話者HMMとして出力する。SD−HMM記憶部11
は、加算部10から出力される特定話者HMMを記憶す
る。このSD−HMM記憶部11に記憶される特定話者
HMMが、新話者の少量の適応化用発声で、話者適応化
した結果得られた新話者用のHMMである。
【0041】話者適応化の精度は、予測パラメータによ
って定まる。事前学習では、この予測パラメータを、多
数の話者の特定話者HMM(「SD−HMM」という)
と、それらの話者の適応化用発声を用いて、最適に推定
(学習)する。
【0042】各話者のSD−HMMは、その話者の大量
の発声を用いて、HMM学習して得られるものである。
各話者について、SD−HMMと、その話者の適応化用
発声のペア(組)を用意するということは、図1の話者
適応化における入力(適応化用発声記憶部1に記憶)
と、適応化の結果得られるべき望ましい出力(SD−H
MM記憶部11に記憶)のペアを、多数用意したことに
対応する。
【0043】入力に対する望ましい出力の例が大量に与
えられたときに、予測パラメータを最適に定める事前学
習について、図2を参照して説明する。
【0044】図2において、図1と異なる構成要素は、
予測パラメータ学習部12と第二減算部13だけであ
る。すなわち図1における予測部8が、予測パラメータ
学習部12に、加算部10が第二減算部13にそれぞれ
置き換わっている。
【0045】はじめに、適応化用発声記憶部1に、多数
の話者の適応化用発声を記憶する。また、SD−HMM
記憶部11に多数の話者のSD−HMMを記憶する。
【0046】HMM学習部3は、SI−HMMと各話者
の適応化用発声を用いて、話者適応化時と同様に、各話
者のBW−HMMを作成し、BW−HMM記憶部4に記
憶する。
【0047】減算部5は、各話者のBW−HMMのパラ
メータと、SI−HMMのパラメータとの差分を計算
し、第一差分として出力する。第一差分記憶部6は、減
算部5から出力された第一差分を記憶する。
【0048】第二減算部13は、SD−HMM記憶部1
1に記憶されている各話者のSD−HMMを読み出し、
SI−HMMのパラメータとの差分を計算し、第二差分
として出力する。第二差分記憶部9は、第二減算部13
から出力された第二差分を記憶する。
【0049】予測パラメータ学習部12は、第一差分と
予測パラメータの線形和を計算し、その値と、第二差分
の差異を誤差として、すべての話者に対する誤差の2乗
和を最小化するように、予測パラメータの値を決定す
る。第一差分を予測部8に入力したときの、出力値が第
二差分である。
【0050】予測パラメータ学習部12では、多数の話
者について、入力となる第一差分と、それに対する望ま
しい出力である第二差分の例を与えて、予測パラメータ
を推定している。予測パラメータ記憶部7は、上記で決
定された予測パラメータを記憶する。
【0051】以上の手順により、事前学習においては、
話者適応化と全く同様の機構を用いて、最適な予測パラ
メータを学習(推定)することができる。
【0052】
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
【0053】本発明の第1の効果は、従来法では内挿と
再推定の2回の線形変換が必要であったものが、本発明
によれば、話者適応化において、一回の線形変換(予
測)により適応化が完了するということである。
【0054】また本発明の第2の効果は、事前学習にお
いて、多数の話者の適応化用発声を利用することを可能
にし、話者適応化時と同様の構成によって、最適な予測
パラメータを決定することを可能とし、これによって、
事前学習と話者適応化のあいだの非対称性を排除するこ
とができ、適応化用発声が少量の場合でも、安定で精度
の高い話者適応化を実現することができる、ということ
である。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の一実施例の構成を示すブロック図であ
る。
【図3】従来の話者適応化機能を説明するためのブロッ
ク図である。
【図4】従来の事前学習機能を説明するための図であ
る。
【符号の説明】
1 適応化用発声記憶部 2 SI−HMM記憶部 3 HMM学習部 4 BW−HMM記憶部 5 減算部 6 第一差分記憶部 7 予測パラメータ記憶部 8 予測部 9 第二差分記憶部 10 加算部 11 SD−HMM記憶部 12 予測パラメータ学習部 13 第二減算部
フロントページの続き (56)参考文献 日本音響学会平成9年度秋季研究発表 会講演論文集▲I▼,1−1−12,大淵 康成外「移動ベクトルの相関に関する事 前知識を利用した話者適応」,p.23− 24(平成9年9月17日発行) Proceedings of 1997 IEEE Workshop on Automatic Speech R ecognition and Und erstanding,Y.Obuch i et al,”A Novel S peaker Adaptation Algorithm and its Implementation on A RISC Microproces sor”,p.442−449,Decemb er 14−17,1997,Santa Ba rbara,California, U.S.A. 日本音響学会平成7年度秋季研究発表 会講演論文集▲I▼,2−2−23,高橋 敏外「学習移動ベクトル間の相関により tyingした音響モデルの共有構 造」,p.63−64(平成7年9月27日発 行) 日本音響学会平成10年度秋季研究発表 会講演論文集▲I▼,2−1−4,Di eu Tran et al,”Pre dictive Speaker Ad aptation And Its P rior Training”,p.45 −46(平成10年9月24日発行) Proceedings of 1994 IEEE Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.1,T.Kosaka e t al,”Tree−Structu red Speaker Cluste ring for Fast Spea ker Adaptation”,p. I−245〜I−248,19−22 Apri l,1994,Adelaide,Sout h Australia IEEE Transactions on Speech and Aud io Processing,Vol. 2,No.2,April 1994,J. −L.Gauvain,”Maximu m a Posteriori Est imation for Multiv ariate Gaussian Mi xture Observations of Markov Chain s”,p.291−298 電子情報通信学会論文誌,Vol.J 79−D−▲II▼ No.5,May 1996,大倉計美外「複数代表話者の話者 空間移動ベクトルに基づく不特定話者H MMの話者適応化」,p.667−674, (平成8年5月25日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/14 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】新話者の適応化用発声を記憶する適応化用
    発声記憶部と、 予め用意した不特定話者HMM(「SI−HMM」とい
    う)を記憶するSI−HMM記憶部と、 前記適応化用発声と前記不特定話者HMMを用いてHM
    M学習を行うHMM学習部と、 前記HMM学習部の出力として得られたBW−HMMを
    記憶するBW−HMM記憶部と、 前記BW−HMMのパラメータと、前記SI−HMMの
    パラメータの差分を算出し、第一差分として出力する減
    算部と、 前記第一差分を記憶する第一差分記憶部と、 予測関数のパラメータ(「予測パラメータ」という)を
    記憶する予測パラメータ記憶部と、 前記第一差分と、前記予測パラメータとを用いて、第二
    差分を予測する予測部と、 前記予測部から出力される第二差分を記憶する第二差分
    記憶部と、 前記第二差分と前記SI−HMMのパラメータとを加算
    して、新話者の特定話者HMMのパラメータを算出する
    加算部と、 前記加算部から出力される前記新話者の特定話者HMM
    を記憶するSD−HMM記憶部と、 を含むことを特徴とする音声認識装置であり、前記予測パラメータを決定する事前学習を行うに際し
    て、 前記適応化用発声記憶部に多数の話者の適応化用発声を
    記憶し、 前記SD−HMM記憶部に予め用意した多数の話者の特
    定話者HMMを記憶し、前記HMM学習部において、前
    記適応化用発声記憶部に記憶された多数話者の適応化用
    発声を用いて、各話者のBW−HMMを作成して前記B
    W−HMM記憶部に格納し、 前記減算部において、前記BW−HMM記憶部に記憶さ
    れた各話者のBW−H MMのパラメータと、前記SI−
    HMM記憶部に記憶されたSI−HMMのパラメータと
    の差分を算出して、各話者の第一差分として前記第一差
    分記憶部に記憶し、 前記多数の話者の特定話者HMMのパラメータと、前記
    SI−HMMのパラメータとの差分を第二差分として算
    出する第二減算部を有し、前記第二減算部の出力を前記
    第二差分記憶部に記憶し、 前記各話者の第一差分と前記各話者の第二差分とを用い
    て、予測パラメータを学習する予測パラメータ学習部を
    有し、 前記予測パラメータ学習部が出力する予測パラメータ
    を、前記予測パラメータ記憶部に記憶する、 ことを特徴とする音声認識装置。
JP17318698A 1998-06-19 1998-06-19 音声認識装置 Expired - Fee Related JP3156668B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP17318698A JP3156668B2 (ja) 1998-06-19 1998-06-19 音声認識装置
US09/335,041 US6253180B1 (en) 1998-06-19 1999-06-16 Speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17318698A JP3156668B2 (ja) 1998-06-19 1998-06-19 音声認識装置

Publications (2)

Publication Number Publication Date
JP2000010582A JP2000010582A (ja) 2000-01-14
JP3156668B2 true JP3156668B2 (ja) 2001-04-16

Family

ID=15955692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17318698A Expired - Fee Related JP3156668B2 (ja) 1998-06-19 1998-06-19 音声認識装置

Country Status (2)

Country Link
US (1) US6253180B1 (ja)
JP (1) JP3156668B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089183B2 (en) * 2000-08-02 2006-08-08 Texas Instruments Incorporated Accumulating transformations for hierarchical linear regression HMM adaptation
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN107240396B (zh) 2017-06-16 2023-01-17 百度在线网络技术(北京)有限公司 说话人自适应方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696877A (en) * 1990-05-10 1997-12-09 Nec Corporation Pattern recognition using a predictive neural network
JP2852298B2 (ja) 1990-07-31 1999-01-27 日本電気株式会社 標準パターン適応化方式
JPH04293099A (ja) 1991-03-22 1992-10-16 Sharp Corp 音声認識装置
JPH0667686A (ja) 1992-08-18 1994-03-11 Brother Ind Ltd 音声認識装置
US5590242A (en) 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3448429B2 (ja) 1996-06-12 2003-09-22 三洋電機株式会社 話者適応化方法
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
IEEE Transactions on Speech and Audio Processing,Vol.2,No.2,April 1994,J.−L.Gauvain,"Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains",p.291−298
Proceedings of 1994 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1,T.Kosaka et al,"Tree−Structured Speaker Clustering for Fast Speaker Adaptation",p.I−245〜I−248,19−22 April,1994,Adelaide,South Australia
Proceedings of 1997 IEEE Workshop on Automatic Speech Recognition and Understanding,Y.Obuchi et al,"A Novel Speaker Adaptation Algorithm and its Implementation on A RISC Microprocessor",p.442−449,December 14−17,1997,Santa Barbara,California,U.S.A.
日本音響学会平成10年度秋季研究発表会講演論文集▲I▼,2−1−4,Dieu Tran et al,"Predictive Speaker Adaptation And Its Prior Training",p.45−46(平成10年9月24日発行)
日本音響学会平成7年度秋季研究発表会講演論文集▲I▼,2−2−23,高橋敏外「学習移動ベクトル間の相関によりtyingした音響モデルの共有構造」,p.63−64(平成7年9月27日発行)
日本音響学会平成9年度秋季研究発表会講演論文集▲I▼,1−1−12,大淵康成外「移動ベクトルの相関に関する事前知識を利用した話者適応」,p.23−24(平成9年9月17日発行)
電子情報通信学会論文誌,Vol.J79−D−▲II▼ No.5,May 1996,大倉計美外「複数代表話者の話者空間移動ベクトルに基づく不特定話者HMMの話者適応化」,p.667−674,(平成8年5月25日発行)

Also Published As

Publication number Publication date
US6253180B1 (en) 2001-06-26
JP2000010582A (ja) 2000-01-14

Similar Documents

Publication Publication Date Title
EP0886263B1 (en) Environmentally compensated speech processing
US6671666B1 (en) Recognition system
JP3742236B2 (ja) 音声認識のための隠れマルコフ・モデルの適応技術
JP3049259B2 (ja) 音声認識方法
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
Huo et al. A Bayesian predictive classification approach to robust speech recognition
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP4297602B2 (ja) 音声認識システム
Diakoloukas et al. Maximum-likelihood stochastic-transformation adaptation of hidden Markov models
JP3156668B2 (ja) 音声認識装置
Kim Nonstationary environment compensation based on sequential estimation
EP0762383B1 (en) Pattern adapting apparatus for speech or pattern recognition
JP2004325897A (ja) 音声認識装置及び音声認識方法
Surendran et al. Nonlinear compensation for stochastic matching
JP2797949B2 (ja) 音声認識装置
EP0953968B1 (en) Speaker and environment adaptation based on eigenvoices including maximum likelihood method
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
Huang et al. Deleted interpolation and density sharing for continuous hidden Markov models
JPH06289891A (ja) 音声認識装置
Seltzer et al. Speech-recognizer-based filter optimization for microphone array processing
Surendran et al. Transformation-based Bayesian prediction for adaptation of HMMs
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
JPH09258783A (ja) 音声認識装置
Takahashi et al. Tied-structure HMM based on parameter correlation for efficient model training
Jiang et al. Robust speech recognition based on Viterbi Bayesian predictive classification

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000829

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090209

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100209

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees