JP2000010582A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2000010582A JP2000010582A JP10173186A JP17318698A JP2000010582A JP 2000010582 A JP2000010582 A JP 2000010582A JP 10173186 A JP10173186 A JP 10173186A JP 17318698 A JP17318698 A JP 17318698A JP 2000010582 A JP2000010582 A JP 2000010582A
- Authority
- JP
- Japan
- Prior art keywords
- hmm
- difference
- speaker
- storage unit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 claims abstract description 88
- 230000006870 function Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000000034 method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
えて適応化用発声を利用可能とし、話者適応化時と動作
条件を一致させて精度の高いパラメータの事前学習を可
能にし、話者適応化時、適応化用発声の単語数が少ない
場合にも高い精度で適応化することを可能とする音声認
識装置の提供。 【解決手段】新話者の適応化用発声を記憶する適応化用
発声記憶部、不特定話者HMMを記憶するSI−HMM
記憶部、HMM学習部、HMM学習部からのBW−HM
Mを記憶するBW−HMM記憶部、BW−HMMとSI
−HMMのパラメータの差分を第一差分として出力する
減算部、第一差分記憶部と、予測関数のパラメータを記
憶する予測パラメータ記憶部、第一差分と予測パラメー
タを用いて第二差分を予測する予測部と、第二差分記憶
部、第二差分と前記SI−HMMのパラメータを加算し
新話者の特定話者HMMのパラメータを算出する加算
部、特定話者HMMを記憶するSD−HMM記憶部、を
含む。
Description
し、特に、話者適応化機能を改良した音声認識装置に関
する。
学会 平成10年度春季研究発表会講演論文集(第I分
冊、第23〜24ページ、1998年3月)に「移動ベ
クトルの相関に関する事前知識を利用した話者適応」と
題する論文が参照される。
Model;隠れマルコフモデル)に基づく話者適応化方式
のブロック図、図4に、その事前学習時のブロック図を
示す。
1に記憶された新話者の適応化用発声を用いて、予めS
I−HMM記憶部32に記憶された不特定話者HMM
(「SI−HMM」と呼ぶ)を初期モデルとして、HM
M学習部33で学習を行い、結果として得られるHMM
(「BW−HMM」と呼ぶ)をBW−HMM記憶部34
に記憶する。
Mのパラメータの差分を、第一差分記憶部36に記憶す
る。第一差分記憶部36には、適応化用発声に出現した
HMMのパラメータ差分のみが記憶される。例えば適応
化用発声が、「あ」、「う」、「お」の3つの発声とす
ると、「あ」に対応するHMMのパラメータと、
「う」、「お」に対応するHMMのパラメータについて
は、HMM学習部33によって学習されるため、BW−
HMMとSI−HMMの差分が生成される。
出現しないため、対応するHMMも学習されず、BW−
HMMのパラメータは、SI−HMMのパラメータと同
じままにとどまるため、差分は0のままである。
(後述)において決定された内挿パラメータを記憶す
る。
分記憶部36に記憶された差分の線形和として、第二差
分を出力し、第二差分記憶部39に記憶する。
は、適応化用発声に出現しなかったHMMのパラメータ
とSI−HMMのパラメータとの差分である。
対する差分が第二差分として算出される。
(後述)において決定された再推定パラメータを記憶す
る。
一差分と第二差分を入力として、すべてのHMMパラメ
ータに対する第三差分を算出し第三差分記憶部42に記
憶する。上記の例では、第三差分は「あ」〜「お」のす
べてのHMMのパラメータに対する差分である。
と第三差分を加算することによって、新話者に適応化し
た特定話者HMMを求め、SD−HMM記憶部44に記
憶する。
MM(SD−HMM)を、SD−HMM記憶部43に記
憶し、減算部47による、各話者のSD−HMMのパラ
メータと、SI−HMMのパラメータとの差分(「第三
差分」という)を、第三差分記憶部42に記憶する。こ
の第三差分の中で、話者適応化時の適応化用発声に出現
したHMMのパラメータに対する第三差分を「S」、そ
れ以外(適応化用発声に出現しなかったもの)を「U」
とする。
Sと内挿パラメータの線形和(「U1」という)と、第
三差分Uの差異U−U1を誤差として、多数の話者に対
する誤差の2乗和を最小にするように内挿パラメータを
決定し、内挿パラメータ記憶部37に記憶する。
Sとの線形和を第二差分として出力し、第二差分記憶部
39に記憶させる。
分と再推定パラメータの線形和(「U3」という)と、
第三差分Uの差異U−U3を誤差として、多数の話者に
対する誤差の2乗和を最小にするように再推定パラメー
タを決定し、再推定パラメータ記憶部41に記憶する。
た従来の方式では、次のような問題がある。
化用発声記憶部に記憶された新話者の適応化用発声を用
いて作成したBW−HMMと、SI−HMMとの差分
(第一差分)を用いて、内挿や再推定を行っているが、
内挿パラメータや再推定パラメータを決定する事前学習
においては、多数の話者のSD−HMMだけを用いて、
学習を行っている。
を用いずに、第三差分で代用している。適応化用発声の
単語数が十分大きい場合には、SD−HMMとBW−H
MMはほぼ一致するため、この代用は良い近似である。
単語数を少なくすることが、最重要の課題である。これ
により、ユーザーの発声の負担が軽減される。
SD−HMMとBW−HMMのパラメータは大きく異な
るため、事前学習時に上記のような代用(すなわち第一
差分を第三差分で代用)の近似精度は非常に低くなり、
精度の高い内挿パラメータや再推定パラメータの推定は
困難になる。
に、単一の差分(第一差分記憶部に格納されている)を
用いて、内挿と再推定という2回の線形変換を行ってい
る点である。
出現するHMMの割合が非常に小さくなる。すると、内
挿によって、大多数のHMMのパラメータ(の差分)
を、少数の出現したHMMのパラメータ(の差分)の線
形変換によって、推定しなければならなくなり、第二差
分の精度が大幅に低下する。
現したHMMのパラメータについても、大多数の出現し
なかったHMMのパラメータの差分(精度の低い第二差
分)を用いて、修正してしまう。このため、適応化用発
声に出現したHMMのパラメータも改悪されてしまう。
てなされたものであって、その目的は、事前学習時に、
多数の話者のSD−HMMに加えて、それらの話者の適
応化用発声を利用することを可能にして、話者適応化時
と動作条件を一致させて精度の高いパラメータの事前学
習を可能にし、さらに話者適応化時、特に適応化用発声
の単語数が少ない場合にも、一回の予測(線形変換)で
すべてのHMMのパラメータを高い精度で適応化するこ
とを可能とする音声認識装置を提供することにある。
本発明による音声認識装置は、新話者の適応化用発声を
記憶する適応化用発声記憶部と、予め用意した不特定話
者HMMを記憶するSI−HMM記憶部と、前記適応化
用発声と前記不特定話者HMMを用いてHMM学習を行
うHMM学習部と、前記HMM学習部の出力として得ら
れたBW−HMMを記憶するBW−HMM記憶部と、前
記BW−HMMのパラメータと、前記SI−HMMのパ
ラメータの差分を算出し、第一差分として出力する減算
部と、前記第一差分を記憶する第一差分記憶部と、予測
関数のパラメータを記憶する予測パラメータ記憶部と、
前記第一差分と、前記予測パラメータを用いて、第二差
分を予測する予測部と、前記予測部の出力する第二差分
を記憶する第二差分記憶部と、前記第二差分と前記SI
−HMMのパラメータを加算して、新話者の特定話者H
MMのパラメータを算出する加算部と、前記加算部の出
力である新話者の特定話者HMMを記憶するSD−HM
M記憶部と、を含む。
事前学習を行うに際して、前記適応化用発声記憶部に多
数の話者の適応化用発声を記憶し、前記SD−HMM記
憶部に予め用意した多数の話者の特定話者HMMを記憶
し、前記HMM学習部において、前記適応化用発声記憶
部に記憶された多数話者の適応化用発声を用いて、各話
者のBW−HMMを作成し、前記BW−HMM記憶部に
格納し、前記減算部において、前記BW−HMM記憶部
に記憶された各話者のBW−HMMのパラメータと、前
記SI−HMM記憶部に記憶されたSI−HMMのパラ
メータの差分を算出して、各話者の第一差分として前記
第一差分記憶部に記憶し、前記多数の話者の特定話者H
MMのパラメータと、前記SI−HMMのパラメータの
差分を第二差分として算出する第二減算部を有し、前記
第二減算部の出力を、前記第二差分記憶部に記憶し、前
記各話者の第一差分と、前記各話者の第二差分を用いて
予測パラメータを学習する予測パラメータ学習部と、を
有し、前記予測パラメータ学習部が出力する予測パラメ
ータを、前記予測パラメータ記憶部に記憶する。
する。本発明の音声認識装置は、話者適応化機能部にお
いて、図3に示した従来の装置の内挿部38、内挿パラ
メータ記憶部45、再推定部40、再推定パラメータ記
憶部46、第三差分記憶部42を除き、これに代わり、
予測部、予測パラメータ記憶部を備えたものである。こ
れにより、従来の話者適応化において必要とされた内挿
と再推定という2回の線形変換を、予測という1回の線
形変換に統合し、精度の高い話者適応化を可能としてい
る。より詳細には、本発明の音声認識装置は、その好ま
しい実施の形態として、図1を参照すると、話者適応化
機能部において、新話者の適応化用発声を記憶する適応
化用発声記憶部(1)と、予め用意した不特定話者HM
Mを記憶するSI−HMM記憶部(2)と、適応化用発
声と不特定話者HMMを用いてHMM学習を行うHMM
学習部(3)と、HMM学習部の出力として得られたB
W−HMMを記憶するBW−HMM記憶部(4)と、B
W−HMMのパラメータと、SI−HMMのパラメータ
の差分を算出し、第一差分として出力する減算部(5)
と、第一差分を記憶する第一差分記憶部(6)と、予測
関数のパラメータを記憶する予測パラメータ記憶部
(7)と、第一差分と、予測パラメータとを用いて、第
二差分を予測する予測部(8)と、予測部の出力する第
二差分を記憶する第二差分記憶部(9)と、第二差分と
SI−HMMのパラメータを加算して、新話者の特定話
者HMMのパラメータを算出する加算部(10)と、加
算部の出力である新話者の特定話者HMMを記憶するS
D−HMM記憶部(11)と、を備える。
4に示した従来の装置における事前学習のように、話者
適応化時と非対称な事前学習を行うのではなく、話者適
応化機能を提供する部分をそのまま利用して、予測部の
代わりに、予測パラメータ学習部を追加し、加算部の代
わりに、第二減算部を追加するだけで、話者適応化時と
同一条件で動作する事前学習機能を実現している。
施の形態において、図2を参照すると、予測パラメータ
を決定する事前学習を行うに際して、適応化用発声記憶
部(1)に多数の話者の適応化用発声を記憶し、SD−
HMM記憶部(11)に予め用意した多数の話者の特定
話者HMMを記憶し、HMM学習部(3)において、適
応化用発声記憶部(1)に記憶された多数話者の適応化
用発声を用いて、各話者のBW−HMMを作成し、BW
−HMM記憶部(4)に格納し、減算部(6)におい
て、BW−HMM記憶部(4)に記憶された各話者のB
W−HMMのパラメータと、SI−HMM記憶部(2)
に記憶されたSI−HMMのパラメータの差分を算出し
て、各話者の第一差分として第一差分記憶部(6)に記
憶し、多数の話者の特定話者HMMのパラメータと、S
I−HMMのパラメータの差分を第二差分として算出す
る第二減算部(13)を有し、第二減算部の出力を第二
差分記憶部(9)に記憶し、各話者の第一差分と、各話
者の第二差分を用いて予測パラメータを学習する予測パ
ラメータ学習部(12)と、を有し、予測パラメータ学
習部(12)が出力する予測パラメータを予測パラメー
タ記憶部(7)に記憶する。
実施の形態によれば、事前学習時に、多数の話者のSD
−HMMに加えて、それらの話者の適応化用発声を利用
することを可能にし、話者適応化時と動作条件を一致さ
せて精度の高いパラメータの事前学習を可能としてお
り、少数の適応化用発声を用いても精度の高い適応化を
実現することができる。
て詳細に説明する。
一実施例における話者適応化機能部分の構成を示す図で
ある。図2は、本発明を適用した音声認識装置の一実施
例における事前学習機能部分の構成を示す図である。
は、新話者の適応化用発声を記憶する。SI−HMM記
憶部2は、予め用意した不特定話者HMM(「SI−H
MM」と呼ぶ)を記憶する。
デルとして、適応化用発声を用いてHMM学習を行い、
学習後のHMM(「BW−HMM」と呼ぶ)を出力す
る。BW−HMM記憶部4は、HMM学習部3から出力
されたBW−HMMを記憶する。
例えばガウス分布の平均ベクトルなどと、BW−HMM
のパラメータの差分を計算して、第一差分として出力す
る。第一差分記憶部6は、減算部5から出力された第一
差分を記憶する。
によって決定された予測パラメータを記憶している。
線形和を計算し、第二差分として出力する。第二差分記
憶部9は、予測部8から出力された第二差分を記憶す
る。
のパラメータを加算して、新話者の話者適応化済みの特
定話者HMMとして出力する。SD−HMM記憶部11
は、加算部10から出力される特定話者HMMを記憶す
る。このSD−HMM記憶部11に記憶される特定話者
HMMが、新話者の少量の適応化用発声で、話者適応化
した結果得られた新話者用のHMMである。
って定まる。事前学習では、この予測パラメータを、多
数の話者の特定話者HMM(「SD−HMM」という)
と、それらの話者の適応化用発声を用いて、最適に推定
(学習)する。
の発声を用いて、HMM学習して得られるものである。
各話者について、SD−HMMと、その話者の適応化用
発声のペア(組)を用意するということは、図1の話者
適応化における入力(適応化用発声記憶部1に記憶)
と、適応化の結果得られるべき望ましい出力(SD−H
MM記憶部11に記憶)のペアを、多数用意したことに
対応する。
えられたときに、予測パラメータを最適に定める事前学
習について、図2を参照して説明する。
予測パラメータ学習部12と第二減算部13だけであ
る。すなわち図1における予測部8が、予測パラメータ
学習部12に、加算部10が第二減算部13にそれぞれ
置き換わっている。
の話者の適応化用発声を記憶する。また、SD−HMM
記憶部11に多数の話者のSD−HMMを記憶する。
の適応化用発声を用いて、話者適応化時と同様に、各話
者のBW−HMMを作成し、BW−HMM記憶部4に記
憶する。
メータと、SI−HMMのパラメータとの差分を計算
し、第一差分として出力する。第一差分記憶部6は、減
算部5から出力された第一差分を記憶する。
1に記憶されている各話者のSD−HMMを読み出し、
SI−HMMのパラメータとの差分を計算し、第二差分
として出力する。第二差分記憶部9は、第二減算部13
から出力された第二差分を記憶する。
予測パラメータの線形和を計算し、その値と、第二差分
の差異を誤差として、すべての話者に対する誤差の2乗
和を最小化するように、予測パラメータの値を決定す
る。第一差分を予測部8に入力したときの、出力値が第
二差分である。
者について、入力となる第一差分と、それに対する望ま
しい出力である第二差分の例を与えて、予測パラメータ
を推定している。予測パラメータ記憶部7は、上記で決
定された予測パラメータを記憶する。
話者適応化と全く同様の機構を用いて、最適な予測パラ
メータを学習(推定)することができる。
記記載の効果を奏する。
再推定の2回の線形変換が必要であったものが、本発明
によれば、話者適応化において、一回の線形変換(予
測)により適応化が完了するということである。
いて、多数の話者の適応化用発声を利用することを可能
にし、話者適応化時と同様の構成によって、最適な予測
パラメータを決定することを可能とし、これによって、
事前学習と話者適応化のあいだの非対称性を排除するこ
とができ、適応化用発声が少量の場合でも、安定で精度
の高い話者適応化を実現することができる、ということ
である。
る。
る。
ク図である。
る。
Claims (4)
- 【請求項1】新話者の適応化用発声を記憶する適応化用
発声記憶部と、 予め用意した不特定話者HMM(「SI−HMM」とい
う)を記憶するSI−HMM記憶部と、 前記適応化用発声と前記不特定話者HMMを用いてHM
M学習を行うHMM学習部と、 前記HMM学習部の出力として得られたBW−HMMを
記憶するBW−HMM記憶部と、 前記BW−HMMのパラメータと、前記SI−HMMの
パラメータの差分を算出し、第一差分として出力する減
算部と、 前記第一差分を記憶する第一差分記憶部と、 予測関数のパラメータ(「予測パラメータ」という)を
記憶する予測パラメータ記憶部と、 前記第一差分と、前記予測パラメータとを用いて、第二
差分を予測する予測部と、 前記予測部から出力される第二差分を記憶する第二差分
記憶部と、 前記第二差分と前記SI−HMMのパラメータとを加算
して、新話者の特定話者HMMのパラメータを算出する
加算部と、 前記加算部から出力される前記新話者の特定話者HMM
を記憶するSD−HMM記憶部と、 を含むことを特徴とする音声認識装置。 - 【請求項2】請求項1の音声認識装置において、前記予
測パラメータを決定する事前学習を行うに際して、 前記適応化用発声記憶部に多数の話者の適応化用発声を
記憶し、 前記SD−HMM記憶部に予め用意した多数の話者の特
定話者HMMを記憶し、 前記HMM学習部において、前記適応化用発声記憶部に
記憶された多数話者の適応化用発声を用いて、各話者の
BW−HMMを作成して前記BW−HMM記憶部に格納
し、 前記減算部において、前記BW−HMM記憶部に記憶さ
れた各話者のBW−HMMのパラメータと、前記SI−
HMM記憶部に記憶されたSI−HMMのパラメータと
の差分を算出して、各話者の第一差分として前記第一差
分記憶部に記憶し、 前記多数の話者の特定話者HMMのパラメータと、前記
SI−HMMのパラメータとの差分を第二差分として算
出する第二減算部を有し、前記第二減算部の出力を前記
第二差分記憶部に記憶し、 前記各話者の第一差分と前記各話者の第二差分とを用い
て、予測パラメータを学習する予測パラメータ学習部を
有し、 前記予測パラメータ学習部が出力する予測パラメータ
を、前記予測パラメータ記憶部に記憶する、ことを特徴
とする音声認識装置。 - 【請求項3】予め記憶手段に記憶された新話者の適応化
用発声と、不特定話者HMM(「SI−HMM」とい
う)とからHMM学習を行い、該HMM学習の出力とし
て得られたBW−HMMのパラメータと前記SI−HM
Mのパラメータの差分を算出しこれを第一差分として記
憶し、前記第一差分及び前記SI−HMMをもとに新話
者の特定話者HMMのパラメータを算出する音声認識装
置において、 事前学習によって予め決定された予測関数のパラメータ
(「予測パラメータ」という)を記憶する予測パラメー
タ記憶部と、 前記第一差分と前記予測パラメータとの線形和から第二
差分を予測し出力する予測手段と、 前記第二差分と前記SI−HMMのパラメータとを加算
して、新話者の特定話者HMMのパラメータを算出しS
D−HMM記憶部に出力する加算手段と、備えたことを
特徴とする音声認識装置。 - 【請求項4】事前学習では、前記予測パラメータを、前
記SD−HMM記憶部に記憶された多数の話者の特定話
者HMM(「SD−HMM」という)と、これらの話者
の適応化用発声を用いて、学習する、ことを特徴とする
請求項3記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17318698A JP3156668B2 (ja) | 1998-06-19 | 1998-06-19 | 音声認識装置 |
US09/335,041 US6253180B1 (en) | 1998-06-19 | 1999-06-16 | Speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17318698A JP3156668B2 (ja) | 1998-06-19 | 1998-06-19 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000010582A true JP2000010582A (ja) | 2000-01-14 |
JP3156668B2 JP3156668B2 (ja) | 2001-04-16 |
Family
ID=15955692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17318698A Expired - Fee Related JP3156668B2 (ja) | 1998-06-19 | 1998-06-19 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6253180B1 (ja) |
JP (1) | JP3156668B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7089183B2 (en) * | 2000-08-02 | 2006-08-08 | Texas Instruments Incorporated | Accumulating transformations for hierarchical linear regression HMM adaptation |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
CN107240396B (zh) | 2017-06-16 | 2023-01-17 | 百度在线网络技术(北京)有限公司 | 说话人自适应方法、装置、设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5696877A (en) * | 1990-05-10 | 1997-12-09 | Nec Corporation | Pattern recognition using a predictive neural network |
JP2852298B2 (ja) | 1990-07-31 | 1999-01-27 | 日本電気株式会社 | 標準パターン適応化方式 |
JPH04293099A (ja) | 1991-03-22 | 1992-10-16 | Sharp Corp | 音声認識装置 |
JPH0667686A (ja) | 1992-08-18 | 1994-03-11 | Brother Ind Ltd | 音声認識装置 |
US5590242A (en) | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5793891A (en) * | 1994-07-07 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Adaptive training method for pattern recognition |
JP2768274B2 (ja) * | 1994-09-08 | 1998-06-25 | 日本電気株式会社 | 音声認識装置 |
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
JP3448429B2 (ja) | 1996-06-12 | 2003-09-22 | 三洋電機株式会社 | 話者適応化方法 |
JP2991144B2 (ja) * | 1997-01-29 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
-
1998
- 1998-06-19 JP JP17318698A patent/JP3156668B2/ja not_active Expired - Fee Related
-
1999
- 1999-06-16 US US09/335,041 patent/US6253180B1/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3156668B2 (ja) | 2001-04-16 |
US6253180B1 (en) | 2001-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8005677B2 (en) | Source-dependent text-to-speech system | |
EP1195744B1 (en) | Noise robust voice recognition | |
KR20010005674A (ko) | 인식 시스템 | |
JP4297602B2 (ja) | 音声認識システム | |
JP2692581B2 (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
TW440809B (en) | Automatically updating language models | |
CN101432799B (zh) | 基于高斯混合模型的变换中的软校准 | |
JP2000010582A (ja) | 音声認識装置 | |
EP0762383B1 (en) | Pattern adapting apparatus for speech or pattern recognition | |
JP2002162993A (ja) | 対話システム | |
JP2001125588A (ja) | 音声認識装置及び方法ならびに記録媒体 | |
JP3397568B2 (ja) | 音声認識方法及び装置 | |
JP3703394B2 (ja) | 声質変換装置および声質変換方法およびプログラム記憶媒体 | |
JP4275353B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム | |
JPH09258783A (ja) | 音声認識装置 | |
JP6078402B2 (ja) | 音声認識性能推定装置とその方法とプログラム | |
JPH0769711B2 (ja) | 音声認識方法 | |
JP2000075890A (ja) | ヒドン・マルコフ・モデルの学習方法及び音声認識システム | |
JP3709436B2 (ja) | 音声認識用精細セグメント音響モデルの作成装置 | |
JP3144341B2 (ja) | 音声認識装置 | |
JP2024057765A (ja) | 言語翻訳システム及びプログラム | |
JP6132865B2 (ja) | 声質変換用モデルパラメータ学習装置、その方法及びプログラム | |
JPH1185200A (ja) | 音声認識のための音響分析方法 | |
JP2002372985A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20000829 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20010109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080209 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090209 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100209 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |