JP2000010582A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000010582A
JP2000010582A JP10173186A JP17318698A JP2000010582A JP 2000010582 A JP2000010582 A JP 2000010582A JP 10173186 A JP10173186 A JP 10173186A JP 17318698 A JP17318698 A JP 17318698A JP 2000010582 A JP2000010582 A JP 2000010582A
Authority
JP
Japan
Prior art keywords
hmm
difference
speaker
storage unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10173186A
Other languages
English (en)
Other versions
JP3156668B2 (ja
Inventor
Kenichi Iso
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP17318698A priority Critical patent/JP3156668B2/ja
Priority to US09/335,041 priority patent/US6253180B1/en
Publication of JP2000010582A publication Critical patent/JP2000010582A/ja
Application granted granted Critical
Publication of JP3156668B2 publication Critical patent/JP3156668B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

(57)【要約】 【課題】事前学習時に、多数の話者のSD−HMMに加
えて適応化用発声を利用可能とし、話者適応化時と動作
条件を一致させて精度の高いパラメータの事前学習を可
能にし、話者適応化時、適応化用発声の単語数が少ない
場合にも高い精度で適応化することを可能とする音声認
識装置の提供。 【解決手段】新話者の適応化用発声を記憶する適応化用
発声記憶部、不特定話者HMMを記憶するSI−HMM
記憶部、HMM学習部、HMM学習部からのBW−HM
Mを記憶するBW−HMM記憶部、BW−HMMとSI
−HMMのパラメータの差分を第一差分として出力する
減算部、第一差分記憶部と、予測関数のパラメータを記
憶する予測パラメータ記憶部、第一差分と予測パラメー
タを用いて第二差分を予測する予測部と、第二差分記憶
部、第二差分と前記SI−HMMのパラメータを加算し
新話者の特定話者HMMのパラメータを算出する加算
部、特定話者HMMを記憶するSD−HMM記憶部、を
含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、話者適応化機能を改良した音声認識装置に関
する。
【0002】
【従来の技術】従来の話者適応化方式として、日本音響
学会 平成10年度春季研究発表会講演論文集(第I分
冊、第23〜24ページ、1998年3月)に「移動ベ
クトルの相関に関する事前知識を利用した話者適応」と
題する論文が参照される。
【0003】図3に、従来のHHM(Hidden Markov
Model;隠れマルコフモデル)に基づく話者適応化方式
のブロック図、図4に、その事前学習時のブロック図を
示す。
【0004】話者適応化時には、適応化用発声記憶部3
1に記憶された新話者の適応化用発声を用いて、予めS
I−HMM記憶部32に記憶された不特定話者HMM
(「SI−HMM」と呼ぶ)を初期モデルとして、HM
M学習部33で学習を行い、結果として得られるHMM
(「BW−HMM」と呼ぶ)をBW−HMM記憶部34
に記憶する。
【0005】減算部35は、BW−HMMとSI−HM
Mのパラメータの差分を、第一差分記憶部36に記憶す
る。第一差分記憶部36には、適応化用発声に出現した
HMMのパラメータ差分のみが記憶される。例えば適応
化用発声が、「あ」、「う」、「お」の3つの発声とす
ると、「あ」に対応するHMMのパラメータと、
「う」、「お」に対応するHMMのパラメータについて
は、HMM学習部33によって学習されるため、BW−
HMMとSI−HMMの差分が生成される。
【0006】しかし、「い」と「え」は適応化用発声に
出現しないため、対応するHMMも学習されず、BW−
HMMのパラメータは、SI−HMMのパラメータと同
じままにとどまるため、差分は0のままである。
【0007】内挿パラメータ記憶部37は、事前学習
(後述)において決定された内挿パラメータを記憶す
る。
【0008】内挿部38は、内挿パラメータと、第一差
分記憶部36に記憶された差分の線形和として、第二差
分を出力し、第二差分記憶部39に記憶する。
【0009】内挿部38によって算出される第二差分
は、適応化用発声に出現しなかったHMMのパラメータ
とSI−HMMのパラメータとの差分である。
【0010】上記の例では、「い」と「え」のHMMに
対する差分が第二差分として算出される。
【0011】再推定パラメータ記憶部41は、事前学習
(後述)において決定された再推定パラメータを記憶す
る。
【0012】再推定部40は、再推定パラメータと、第
一差分と第二差分を入力として、すべてのHMMパラメ
ータに対する第三差分を算出し第三差分記憶部42に記
憶する。上記の例では、第三差分は「あ」〜「お」のす
べてのHMMのパラメータに対する差分である。
【0013】加算部43は、SI−HMMのパラメータ
と第三差分を加算することによって、新話者に適応化し
た特定話者HMMを求め、SD−HMM記憶部44に記
憶する。
【0014】事前学習時には、多数の話者の特定話者H
MM(SD−HMM)を、SD−HMM記憶部43に記
憶し、減算部47による、各話者のSD−HMMのパラ
メータと、SI−HMMのパラメータとの差分(「第三
差分」という)を、第三差分記憶部42に記憶する。こ
の第三差分の中で、話者適応化時の適応化用発声に出現
したHMMのパラメータに対する第三差分を「S」、そ
れ以外(適応化用発声に出現しなかったもの)を「U」
とする。
【0015】内挿パラメータ学習部45では、第三差分
Sと内挿パラメータの線形和(「U1」という)と、第
三差分Uの差異U−U1を誤差として、多数の話者に対
する誤差の2乗和を最小にするように内挿パラメータを
決定し、内挿パラメータ記憶部37に記憶する。
【0016】次に、決定した内挿パラメータと第三差分
Sとの線形和を第二差分として出力し、第二差分記憶部
39に記憶させる。
【0017】再推定パラメータ学習部46では、第二差
分と再推定パラメータの線形和(「U3」という)と、
第三差分Uの差異U−U3を誤差として、多数の話者に
対する誤差の2乗和を最小にするように再推定パラメー
タを決定し、再推定パラメータ記憶部41に記憶する。
【0018】
【発明が解決しようとする課題】しかしながら、上述し
た従来の方式では、次のような問題がある。
【0019】第一の問題点は、話者適応化時には、適応
化用発声記憶部に記憶された新話者の適応化用発声を用
いて作成したBW−HMMと、SI−HMMとの差分
(第一差分)を用いて、内挿や再推定を行っているが、
内挿パラメータや再推定パラメータを決定する事前学習
においては、多数の話者のSD−HMMだけを用いて、
学習を行っている。
【0020】すなわち、話者適応化時のように第一差分
を用いずに、第三差分で代用している。適応化用発声の
単語数が十分大きい場合には、SD−HMMとBW−H
MMはほぼ一致するため、この代用は良い近似である。
【0021】しかし、話者適応化では、適応化用発声の
単語数を少なくすることが、最重要の課題である。これ
により、ユーザーの発声の負担が軽減される。
【0022】適応化用発声の単語数が少ない場合には、
SD−HMMとBW−HMMのパラメータは大きく異な
るため、事前学習時に上記のような代用(すなわち第一
差分を第三差分で代用)の近似精度は非常に低くなり、
精度の高い内挿パラメータや再推定パラメータの推定は
困難になる。
【0023】第二の問題点は、話者適応化を行うため
に、単一の差分(第一差分記憶部に格納されている)を
用いて、内挿と再推定という2回の線形変換を行ってい
る点である。
【0024】適応化用発声の単語数が少ないと、発声に
出現するHMMの割合が非常に小さくなる。すると、内
挿によって、大多数のHMMのパラメータ(の差分)
を、少数の出現したHMMのパラメータ(の差分)の線
形変換によって、推定しなければならなくなり、第二差
分の精度が大幅に低下する。
【0025】さらに再推定によって、適応化用発声に出
現したHMMのパラメータについても、大多数の出現し
なかったHMMのパラメータの差分(精度の低い第二差
分)を用いて、修正してしまう。このため、適応化用発
声に出現したHMMのパラメータも改悪されてしまう。
【0026】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、事前学習時に、
多数の話者のSD−HMMに加えて、それらの話者の適
応化用発声を利用することを可能にして、話者適応化時
と動作条件を一致させて精度の高いパラメータの事前学
習を可能にし、さらに話者適応化時、特に適応化用発声
の単語数が少ない場合にも、一回の予測(線形変換)で
すべてのHMMのパラメータを高い精度で適応化するこ
とを可能とする音声認識装置を提供することにある。
【0027】
【課題を解決するための手段】前記目的を達成するため
本発明による音声認識装置は、新話者の適応化用発声を
記憶する適応化用発声記憶部と、予め用意した不特定話
者HMMを記憶するSI−HMM記憶部と、前記適応化
用発声と前記不特定話者HMMを用いてHMM学習を行
うHMM学習部と、前記HMM学習部の出力として得ら
れたBW−HMMを記憶するBW−HMM記憶部と、前
記BW−HMMのパラメータと、前記SI−HMMのパ
ラメータの差分を算出し、第一差分として出力する減算
部と、前記第一差分を記憶する第一差分記憶部と、予測
関数のパラメータを記憶する予測パラメータ記憶部と、
前記第一差分と、前記予測パラメータを用いて、第二差
分を予測する予測部と、前記予測部の出力する第二差分
を記憶する第二差分記憶部と、前記第二差分と前記SI
−HMMのパラメータを加算して、新話者の特定話者H
MMのパラメータを算出する加算部と、前記加算部の出
力である新話者の特定話者HMMを記憶するSD−HM
M記憶部と、を含む。
【0028】本発明は、前記予測パラメータを決定する
事前学習を行うに際して、前記適応化用発声記憶部に多
数の話者の適応化用発声を記憶し、前記SD−HMM記
憶部に予め用意した多数の話者の特定話者HMMを記憶
し、前記HMM学習部において、前記適応化用発声記憶
部に記憶された多数話者の適応化用発声を用いて、各話
者のBW−HMMを作成し、前記BW−HMM記憶部に
格納し、前記減算部において、前記BW−HMM記憶部
に記憶された各話者のBW−HMMのパラメータと、前
記SI−HMM記憶部に記憶されたSI−HMMのパラ
メータの差分を算出して、各話者の第一差分として前記
第一差分記憶部に記憶し、前記多数の話者の特定話者H
MMのパラメータと、前記SI−HMMのパラメータの
差分を第二差分として算出する第二減算部を有し、前記
第二減算部の出力を、前記第二差分記憶部に記憶し、前
記各話者の第一差分と、前記各話者の第二差分を用いて
予測パラメータを学習する予測パラメータ学習部と、を
有し、前記予測パラメータ学習部が出力する予測パラメ
ータを、前記予測パラメータ記憶部に記憶する。
【0029】
【発明の実施の形態】本発明の実施の形態について説明
する。本発明の音声認識装置は、話者適応化機能部にお
いて、図3に示した従来の装置の内挿部38、内挿パラ
メータ記憶部45、再推定部40、再推定パラメータ記
憶部46、第三差分記憶部42を除き、これに代わり、
予測部、予測パラメータ記憶部を備えたものである。こ
れにより、従来の話者適応化において必要とされた内挿
と再推定という2回の線形変換を、予測という1回の線
形変換に統合し、精度の高い話者適応化を可能としてい
る。より詳細には、本発明の音声認識装置は、その好ま
しい実施の形態として、図1を参照すると、話者適応化
機能部において、新話者の適応化用発声を記憶する適応
化用発声記憶部(1)と、予め用意した不特定話者HM
Mを記憶するSI−HMM記憶部(2)と、適応化用発
声と不特定話者HMMを用いてHMM学習を行うHMM
学習部(3)と、HMM学習部の出力として得られたB
W−HMMを記憶するBW−HMM記憶部(4)と、B
W−HMMのパラメータと、SI−HMMのパラメータ
の差分を算出し、第一差分として出力する減算部(5)
と、第一差分を記憶する第一差分記憶部(6)と、予測
関数のパラメータを記憶する予測パラメータ記憶部
(7)と、第一差分と、予測パラメータとを用いて、第
二差分を予測する予測部(8)と、予測部の出力する第
二差分を記憶する第二差分記憶部(9)と、第二差分と
SI−HMMのパラメータを加算して、新話者の特定話
者HMMのパラメータを算出する加算部(10)と、加
算部の出力である新話者の特定話者HMMを記憶するS
D−HMM記憶部(11)と、を備える。
【0030】また、本発明の実施の形態においては、図
4に示した従来の装置における事前学習のように、話者
適応化時と非対称な事前学習を行うのではなく、話者適
応化機能を提供する部分をそのまま利用して、予測部の
代わりに、予測パラメータ学習部を追加し、加算部の代
わりに、第二減算部を追加するだけで、話者適応化時と
同一条件で動作する事前学習機能を実現している。
【0031】本発明の音声認識装置は、その好ましい実
施の形態において、図2を参照すると、予測パラメータ
を決定する事前学習を行うに際して、適応化用発声記憶
部(1)に多数の話者の適応化用発声を記憶し、SD−
HMM記憶部(11)に予め用意した多数の話者の特定
話者HMMを記憶し、HMM学習部(3)において、適
応化用発声記憶部(1)に記憶された多数話者の適応化
用発声を用いて、各話者のBW−HMMを作成し、BW
−HMM記憶部(4)に格納し、減算部(6)におい
て、BW−HMM記憶部(4)に記憶された各話者のB
W−HMMのパラメータと、SI−HMM記憶部(2)
に記憶されたSI−HMMのパラメータの差分を算出し
て、各話者の第一差分として第一差分記憶部(6)に記
憶し、多数の話者の特定話者HMMのパラメータと、S
I−HMMのパラメータの差分を第二差分として算出す
る第二減算部(13)を有し、第二減算部の出力を第二
差分記憶部(9)に記憶し、各話者の第一差分と、各話
者の第二差分を用いて予測パラメータを学習する予測パ
ラメータ学習部(12)と、を有し、予測パラメータ学
習部(12)が出力する予測パラメータを予測パラメー
タ記憶部(7)に記憶する。
【0032】このように構成したことにより、本発明の
実施の形態によれば、事前学習時に、多数の話者のSD
−HMMに加えて、それらの話者の適応化用発声を利用
することを可能にし、話者適応化時と動作条件を一致さ
せて精度の高いパラメータの事前学習を可能としてお
り、少数の適応化用発声を用いても精度の高い適応化を
実現することができる。
【0033】
【実施例】次に、本発明の実施例について図面を参照し
て詳細に説明する。
【0034】図1は、本発明を適用した音声認識装置の
一実施例における話者適応化機能部分の構成を示す図で
ある。図2は、本発明を適用した音声認識装置の一実施
例における事前学習機能部分の構成を示す図である。
【0035】図1を参照すると、適応化用発声記憶部1
は、新話者の適応化用発声を記憶する。SI−HMM記
憶部2は、予め用意した不特定話者HMM(「SI−H
MM」と呼ぶ)を記憶する。
【0036】HMM学習部3は、SI−HMMを初期モ
デルとして、適応化用発声を用いてHMM学習を行い、
学習後のHMM(「BW−HMM」と呼ぶ)を出力す
る。BW−HMM記憶部4は、HMM学習部3から出力
されたBW−HMMを記憶する。
【0037】減算部5は、SI−HMMのパラメータ、
例えばガウス分布の平均ベクトルなどと、BW−HMM
のパラメータの差分を計算して、第一差分として出力す
る。第一差分記憶部6は、減算部5から出力された第一
差分を記憶する。
【0038】予測パラメータ記憶部7は、予め事前学習
によって決定された予測パラメータを記憶している。
【0039】予測部8は、第一差分と予測パラメータの
線形和を計算し、第二差分として出力する。第二差分記
憶部9は、予測部8から出力された第二差分を記憶す
る。
【0040】加算部10は、第二差分と、SI−HMM
のパラメータを加算して、新話者の話者適応化済みの特
定話者HMMとして出力する。SD−HMM記憶部11
は、加算部10から出力される特定話者HMMを記憶す
る。このSD−HMM記憶部11に記憶される特定話者
HMMが、新話者の少量の適応化用発声で、話者適応化
した結果得られた新話者用のHMMである。
【0041】話者適応化の精度は、予測パラメータによ
って定まる。事前学習では、この予測パラメータを、多
数の話者の特定話者HMM(「SD−HMM」という)
と、それらの話者の適応化用発声を用いて、最適に推定
(学習)する。
【0042】各話者のSD−HMMは、その話者の大量
の発声を用いて、HMM学習して得られるものである。
各話者について、SD−HMMと、その話者の適応化用
発声のペア(組)を用意するということは、図1の話者
適応化における入力(適応化用発声記憶部1に記憶)
と、適応化の結果得られるべき望ましい出力(SD−H
MM記憶部11に記憶)のペアを、多数用意したことに
対応する。
【0043】入力に対する望ましい出力の例が大量に与
えられたときに、予測パラメータを最適に定める事前学
習について、図2を参照して説明する。
【0044】図2において、図1と異なる構成要素は、
予測パラメータ学習部12と第二減算部13だけであ
る。すなわち図1における予測部8が、予測パラメータ
学習部12に、加算部10が第二減算部13にそれぞれ
置き換わっている。
【0045】はじめに、適応化用発声記憶部1に、多数
の話者の適応化用発声を記憶する。また、SD−HMM
記憶部11に多数の話者のSD−HMMを記憶する。
【0046】HMM学習部3は、SI−HMMと各話者
の適応化用発声を用いて、話者適応化時と同様に、各話
者のBW−HMMを作成し、BW−HMM記憶部4に記
憶する。
【0047】減算部5は、各話者のBW−HMMのパラ
メータと、SI−HMMのパラメータとの差分を計算
し、第一差分として出力する。第一差分記憶部6は、減
算部5から出力された第一差分を記憶する。
【0048】第二減算部13は、SD−HMM記憶部1
1に記憶されている各話者のSD−HMMを読み出し、
SI−HMMのパラメータとの差分を計算し、第二差分
として出力する。第二差分記憶部9は、第二減算部13
から出力された第二差分を記憶する。
【0049】予測パラメータ学習部12は、第一差分と
予測パラメータの線形和を計算し、その値と、第二差分
の差異を誤差として、すべての話者に対する誤差の2乗
和を最小化するように、予測パラメータの値を決定す
る。第一差分を予測部8に入力したときの、出力値が第
二差分である。
【0050】予測パラメータ学習部12では、多数の話
者について、入力となる第一差分と、それに対する望ま
しい出力である第二差分の例を与えて、予測パラメータ
を推定している。予測パラメータ記憶部7は、上記で決
定された予測パラメータを記憶する。
【0051】以上の手順により、事前学習においては、
話者適応化と全く同様の機構を用いて、最適な予測パラ
メータを学習(推定)することができる。
【0052】
【発明の効果】以上説明したように、本発明によれば下
記記載の効果を奏する。
【0053】本発明の第1の効果は、従来法では内挿と
再推定の2回の線形変換が必要であったものが、本発明
によれば、話者適応化において、一回の線形変換(予
測)により適応化が完了するということである。
【0054】また本発明の第2の効果は、事前学習にお
いて、多数の話者の適応化用発声を利用することを可能
にし、話者適応化時と同様の構成によって、最適な予測
パラメータを決定することを可能とし、これによって、
事前学習と話者適応化のあいだの非対称性を排除するこ
とができ、適応化用発声が少量の場合でも、安定で精度
の高い話者適応化を実現することができる、ということ
である。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】本発明の一実施例の構成を示すブロック図であ
る。
【図3】従来の話者適応化機能を説明するためのブロッ
ク図である。
【図4】従来の事前学習機能を説明するための図であ
る。
【符号の説明】
1 適応化用発声記憶部 2 SI−HMM記憶部 3 HMM学習部 4 BW−HMM記憶部 5 減算部 6 第一差分記憶部 7 予測パラメータ記憶部 8 予測部 9 第二差分記憶部 10 加算部 11 SD−HMM記憶部 12 予測パラメータ学習部 13 第二減算部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】新話者の適応化用発声を記憶する適応化用
    発声記憶部と、 予め用意した不特定話者HMM(「SI−HMM」とい
    う)を記憶するSI−HMM記憶部と、 前記適応化用発声と前記不特定話者HMMを用いてHM
    M学習を行うHMM学習部と、 前記HMM学習部の出力として得られたBW−HMMを
    記憶するBW−HMM記憶部と、 前記BW−HMMのパラメータと、前記SI−HMMの
    パラメータの差分を算出し、第一差分として出力する減
    算部と、 前記第一差分を記憶する第一差分記憶部と、 予測関数のパラメータ(「予測パラメータ」という)を
    記憶する予測パラメータ記憶部と、 前記第一差分と、前記予測パラメータとを用いて、第二
    差分を予測する予測部と、 前記予測部から出力される第二差分を記憶する第二差分
    記憶部と、 前記第二差分と前記SI−HMMのパラメータとを加算
    して、新話者の特定話者HMMのパラメータを算出する
    加算部と、 前記加算部から出力される前記新話者の特定話者HMM
    を記憶するSD−HMM記憶部と、 を含むことを特徴とする音声認識装置。
  2. 【請求項2】請求項1の音声認識装置において、前記予
    測パラメータを決定する事前学習を行うに際して、 前記適応化用発声記憶部に多数の話者の適応化用発声を
    記憶し、 前記SD−HMM記憶部に予め用意した多数の話者の特
    定話者HMMを記憶し、 前記HMM学習部において、前記適応化用発声記憶部に
    記憶された多数話者の適応化用発声を用いて、各話者の
    BW−HMMを作成して前記BW−HMM記憶部に格納
    し、 前記減算部において、前記BW−HMM記憶部に記憶さ
    れた各話者のBW−HMMのパラメータと、前記SI−
    HMM記憶部に記憶されたSI−HMMのパラメータと
    の差分を算出して、各話者の第一差分として前記第一差
    分記憶部に記憶し、 前記多数の話者の特定話者HMMのパラメータと、前記
    SI−HMMのパラメータとの差分を第二差分として算
    出する第二減算部を有し、前記第二減算部の出力を前記
    第二差分記憶部に記憶し、 前記各話者の第一差分と前記各話者の第二差分とを用い
    て、予測パラメータを学習する予測パラメータ学習部を
    有し、 前記予測パラメータ学習部が出力する予測パラメータ
    を、前記予測パラメータ記憶部に記憶する、ことを特徴
    とする音声認識装置。
  3. 【請求項3】予め記憶手段に記憶された新話者の適応化
    用発声と、不特定話者HMM(「SI−HMM」とい
    う)とからHMM学習を行い、該HMM学習の出力とし
    て得られたBW−HMMのパラメータと前記SI−HM
    Mのパラメータの差分を算出しこれを第一差分として記
    憶し、前記第一差分及び前記SI−HMMをもとに新話
    者の特定話者HMMのパラメータを算出する音声認識装
    置において、 事前学習によって予め決定された予測関数のパラメータ
    (「予測パラメータ」という)を記憶する予測パラメー
    タ記憶部と、 前記第一差分と前記予測パラメータとの線形和から第二
    差分を予測し出力する予測手段と、 前記第二差分と前記SI−HMMのパラメータとを加算
    して、新話者の特定話者HMMのパラメータを算出しS
    D−HMM記憶部に出力する加算手段と、備えたことを
    特徴とする音声認識装置。
  4. 【請求項4】事前学習では、前記予測パラメータを、前
    記SD−HMM記憶部に記憶された多数の話者の特定話
    者HMM(「SD−HMM」という)と、これらの話者
    の適応化用発声を用いて、学習する、ことを特徴とする
    請求項3記載の音声認識装置。
JP17318698A 1998-06-19 1998-06-19 音声認識装置 Expired - Fee Related JP3156668B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP17318698A JP3156668B2 (ja) 1998-06-19 1998-06-19 音声認識装置
US09/335,041 US6253180B1 (en) 1998-06-19 1999-06-16 Speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17318698A JP3156668B2 (ja) 1998-06-19 1998-06-19 音声認識装置

Publications (2)

Publication Number Publication Date
JP2000010582A true JP2000010582A (ja) 2000-01-14
JP3156668B2 JP3156668B2 (ja) 2001-04-16

Family

ID=15955692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17318698A Expired - Fee Related JP3156668B2 (ja) 1998-06-19 1998-06-19 音声認識装置

Country Status (2)

Country Link
US (1) US6253180B1 (ja)
JP (1) JP3156668B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089183B2 (en) * 2000-08-02 2006-08-08 Texas Instruments Incorporated Accumulating transformations for hierarchical linear regression HMM adaptation
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
CN107240396B (zh) 2017-06-16 2023-01-17 百度在线网络技术(北京)有限公司 说话人自适应方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696877A (en) * 1990-05-10 1997-12-09 Nec Corporation Pattern recognition using a predictive neural network
JP2852298B2 (ja) 1990-07-31 1999-01-27 日本電気株式会社 標準パターン適応化方式
JPH04293099A (ja) 1991-03-22 1992-10-16 Sharp Corp 音声認識装置
JPH0667686A (ja) 1992-08-18 1994-03-11 Brother Ind Ltd 音声認識装置
US5590242A (en) 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
JP3448429B2 (ja) 1996-06-12 2003-09-22 三洋電機株式会社 話者適応化方法
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338358A (ja) * 2004-05-26 2005-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル雑音適応化方法およびこの方法を実施する装置
JP4510517B2 (ja) * 2004-05-26 2010-07-28 日本電信電話株式会社 音響モデル雑音適応化方法およびこの方法を実施する装置

Also Published As

Publication number Publication date
JP3156668B2 (ja) 2001-04-16
US6253180B1 (en) 2001-06-26

Similar Documents

Publication Publication Date Title
US8005677B2 (en) Source-dependent text-to-speech system
EP1195744B1 (en) Noise robust voice recognition
KR20010005674A (ko) 인식 시스템
JP4297602B2 (ja) 音声認識システム
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
TW440809B (en) Automatically updating language models
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
JP2000010582A (ja) 音声認識装置
EP0762383B1 (en) Pattern adapting apparatus for speech or pattern recognition
JP2002162993A (ja) 対話システム
JP2001125588A (ja) 音声認識装置及び方法ならびに記録媒体
JP3397568B2 (ja) 音声認識方法及び装置
JP3703394B2 (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
JP4275353B2 (ja) 音声認識装置及び音声認識方法
JP2005196020A (ja) 音声処理装置と方法並びにプログラム
JPH09258783A (ja) 音声認識装置
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
JPH0769711B2 (ja) 音声認識方法
JP2000075890A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP3709436B2 (ja) 音声認識用精細セグメント音響モデルの作成装置
JP3144341B2 (ja) 音声認識装置
JP2024057765A (ja) 言語翻訳システム及びプログラム
JP6132865B2 (ja) 声質変換用モデルパラメータ学習装置、その方法及びプログラム
JPH1185200A (ja) 音声認識のための音響分析方法
JP2002372985A (ja) 音声認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20000829

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090209

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100209

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees