JPH01291298A - 適応型音声認識装置 - Google Patents
適応型音声認識装置Info
- Publication number
- JPH01291298A JPH01291298A JP63122559A JP12255988A JPH01291298A JP H01291298 A JPH01291298 A JP H01291298A JP 63122559 A JP63122559 A JP 63122559A JP 12255988 A JP12255988 A JP 12255988A JP H01291298 A JPH01291298 A JP H01291298A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard
- learning
- standard pattern
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 abstract description 32
- 238000013139 quantization Methods 0.000 abstract description 6
- 230000007935 neutral effect Effects 0.000 abstract 3
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は音声を認識する音声認識装置において、異なる
話者や異なる環境における発生に適応できる適応型音声
認識装置に関する。
話者や異なる環境における発生に適応できる適応型音声
認識装置に関する。
(従来の技術)
従来、入力された音声を、あらかじめ保持されている標
準的な発声の音声パターンである標準パターンをもとに
認識する方法は存在した。このような方法には、たとえ
ば、共立出版株式会社の「音声認識」 (以下「文献1
」と称す)の101頁から 113頁に述べられている
ようなりPマツチングによる方法や、Procee旧n
g of The IEEE、 Vol。
準的な発声の音声パターンである標準パターンをもとに
認識する方法は存在した。このような方法には、たとえ
ば、共立出版株式会社の「音声認識」 (以下「文献1
」と称す)の101頁から 113頁に述べられている
ようなりPマツチングによる方法や、Procee旧n
g of The IEEE、 Vol。
73、 No、11 の1625頁に“5tructu
ral MethodsinAutomatic 5p
eech Recognition” (1985年1
1月)と題されて発表されている論文に述べられている
隠れマルコフ・モデル(HMM)による方法などがある
。
ral MethodsinAutomatic 5p
eech Recognition” (1985年1
1月)と題されて発表されている論文に述べられている
隠れマルコフ・モデル(HMM)による方法などがある
。
これらの方法を用いた音声認識装置において、標準パタ
ーン作成に用いた話者以外の特定の話者(以下特定話者
と呼ぶことにする)の音声を認識する場合、話者により
音声パターンは大きく異なるので、その話者の音声によ
り標準パターンを変更しなければ高い認識性能は得られ
ない。また、標準パターン作成に用いた音声と、周囲雑
音の大きさや電話回線の有無等が異なる環境で発生され
た音声を認識する場合も、音声パターンが大きく変形す
るので標準パターンの変更が必要である。
ーン作成に用いた話者以外の特定の話者(以下特定話者
と呼ぶことにする)の音声を認識する場合、話者により
音声パターンは大きく異なるので、その話者の音声によ
り標準パターンを変更しなければ高い認識性能は得られ
ない。また、標準パターン作成に用いた音声と、周囲雑
音の大きさや電話回線の有無等が異なる環境で発生され
た音声を認識する場合も、音声パターンが大きく変形す
るので標準パターンの変更が必要である。
以下、特定話者の音声を認識する場合に限定して述べる
が、発生環境が異なる音声を認識する場合も同様である
。
が、発生環境が異なる音声を認識する場合も同様である
。
通常、特定話者の音声を認識する場合、その特定話者が
認識対象語を全て発生し、その音声により標準パターン
を入れ換える必要があった。しかし、認識対象語量が多
い場合、全ての認識対象音声を発声するには多くの労力
が必要であるという欠点があった。
認識対象語を全て発生し、その音声により標準パターン
を入れ換える必要があった。しかし、認識対象語量が多
い場合、全ての認識対象音声を発声するには多くの労力
が必要であるという欠点があった。
このような欠点に対し、少量の音声により標準パターン
を特定話者に適応化する手法が既に提案されている。た
とえば、IEEE、ICASSP 8649.5゜の2
643頁に“5peaker Adaptation
Through Vecj□rQuBHtizatlo
n”(1000年)と題されて発表されている論文(以
下「文献2」と称す)には、ベクトル量子化法に基づく
話者適応化法が述べられている。
を特定話者に適応化する手法が既に提案されている。た
とえば、IEEE、ICASSP 8649.5゜の2
643頁に“5peaker Adaptation
Through Vecj□rQuBHtizatlo
n”(1000年)と題されて発表されている論文(以
下「文献2」と称す)には、ベクトル量子化法に基づく
話者適応化法が述べられている。
この方法では、まず、標準的な発生の音声のパターンよ
りベクトル量子化のためのコードブック(以下標準コー
ドブックと呼ぶ)を作成し、この標準コードブックを用
いて、音声パターンをベクトル量子化し標準パターンを
作成する。特定話者の音声を認識する場合、あらかじめ
、その話者が発生した認識対象語の一部(または全部)
の音声パターン(学習パターン)を用いて標準コードブ
ックを適応化し、適応化コードブックを作成する。この
適応化フードブックを標準コードブックの替わりに用い
ることにより、ベクトル量子化された標準パターンを変
更することなしに、特定話者の音声を認識することがで
きる。すなわち、認識対象語盤が大きい場合でも、全語
會を発声することなしに一部の単語を発声することによ
り、特定話者の音声を認識することが可能となる。
りベクトル量子化のためのコードブック(以下標準コー
ドブックと呼ぶ)を作成し、この標準コードブックを用
いて、音声パターンをベクトル量子化し標準パターンを
作成する。特定話者の音声を認識する場合、あらかじめ
、その話者が発生した認識対象語の一部(または全部)
の音声パターン(学習パターン)を用いて標準コードブ
ックを適応化し、適応化コードブックを作成する。この
適応化フードブックを標準コードブックの替わりに用い
ることにより、ベクトル量子化された標準パターンを変
更することなしに、特定話者の音声を認識することがで
きる。すなわち、認識対象語盤が大きい場合でも、全語
會を発声することなしに一部の単語を発声することによ
り、特定話者の音声を認識することが可能となる。
次に、適応化コードブックの作成法について述べる。ま
ず、学習パターンよりコードブック(以下「学習コード
ブック」と呼ぶ)を作成、この学習コードブックを用い
て学習パターンをベクトル量子化する。続いて、同一単
語の標準パターンと学習パターンを、DPマツチングを
用いて時間軸の対応付けを行う。この標準コードブック
中のコードベクトル(標準コードベクトル)に対応付け
られた学習コードブック中のフードベクトル(学習コー
ドベクトル)の頻度をヒストグラムの形で保存する。適
応化コードブックは、標準コードベクトルに対応付けら
れた学習コードベクトルをヒストグラム中の出現頻度で
重み付け、平均化することにより得られる。
ず、学習パターンよりコードブック(以下「学習コード
ブック」と呼ぶ)を作成、この学習コードブックを用い
て学習パターンをベクトル量子化する。続いて、同一単
語の標準パターンと学習パターンを、DPマツチングを
用いて時間軸の対応付けを行う。この標準コードブック
中のコードベクトル(標準コードベクトル)に対応付け
られた学習コードブック中のフードベクトル(学習コー
ドベクトル)の頻度をヒストグラムの形で保存する。適
応化コードブックは、標準コードベクトルに対応付けら
れた学習コードベクトルをヒストグラム中の出現頻度で
重み付け、平均化することにより得られる。
(発明が解決しようとする問題点)
引用文献2に述べられているような従来法では、ベクト
ル量子化を用いているため、量子化誤差に起因する認識
性能の低下が避けられなかっ6一 た。
ル量子化を用いているため、量子化誤差に起因する認識
性能の低下が避けられなかっ6一 た。
また、音声パターンの、話者や発声環境のちがいによる
変形のしかたは、前後の音素環境により異なる。そのた
め、従来法のように1時刻点におけるベクトルをもとに
変換する方法では、前後の音素環境を考慮することがで
きないので適切な変換が行えないという欠点があった。
変形のしかたは、前後の音素環境により異なる。そのた
め、従来法のように1時刻点におけるベクトルをもとに
変換する方法では、前後の音素環境を考慮することがで
きないので適切な変換が行えないという欠点があった。
本発明は、量子化誤差の影響のない、前後の音素環境を
も考慮可能な、高性能な音声パターン適応化法を実現す
るものである。
も考慮可能な、高性能な音声パターン適応化法を実現す
るものである。
(問題点を解決するための手段)
本願の第1の発明による適応型音声認識装置は、標準的
な音声パターンである標準パターンを保持する標準パタ
ーンメモリ部と、前記標準パターンを適応化標準パター
ンに変換するニューラルネットワーク部と、入力された
音声パターンである入力パターンを前記適応化標準パタ
ーンを用いて認識する認識部と、□前記ニューラルネッ
トワーク部を学習する場合、入力された学習パターンと
前記標準パターンの時間軸の対応付けを行う時間軸整合
部と、前記標準パターンを前記ニューラルネットワーク
部に入力した際に出力すべき/X6ターンを与える教師
信号として前記時間軸に対応付けられた時刻点の学習パ
ターンを用いて前記ニューラルネットワーク部の学習を
制御する学習制御部とを有する。
な音声パターンである標準パターンを保持する標準パタ
ーンメモリ部と、前記標準パターンを適応化標準パター
ンに変換するニューラルネットワーク部と、入力された
音声パターンである入力パターンを前記適応化標準パタ
ーンを用いて認識する認識部と、□前記ニューラルネッ
トワーク部を学習する場合、入力された学習パターンと
前記標準パターンの時間軸の対応付けを行う時間軸整合
部と、前記標準パターンを前記ニューラルネットワーク
部に入力した際に出力すべき/X6ターンを与える教師
信号として前記時間軸に対応付けられた時刻点の学習パ
ターンを用いて前記ニューラルネットワーク部の学習を
制御する学習制御部とを有する。
本願の第2の発明による適応型音声認識装置は、標準的
な音声パターンである標準パターンを保持する標準パタ
ーンメモリ部と、入力された音声パターンである入力パ
ターンを適応化音声ノくターンに変換するニューラルネ
ットワーク部と、前記適応化音声パターンを前記標準パ
ターンを用いて認識する認識部と、前記ニューラルネ・
ソトワーク部を学習する場合、入力された学習パターン
と前記標準パターンの時間軸の対応付けを行う時間軸整
合部と、前記学習パターンを前記ニューラルネットワー
ク部に入力した際に出力すべき/zbターンを与える教
師信号として前記時間軸が対応付けられた時刻点の標準
パターンを用いて前記ニューラルネットワーク部の学習
を制御する学習制御部とを有する。
な音声パターンである標準パターンを保持する標準パタ
ーンメモリ部と、入力された音声パターンである入力パ
ターンを適応化音声ノくターンに変換するニューラルネ
ットワーク部と、前記適応化音声パターンを前記標準パ
ターンを用いて認識する認識部と、前記ニューラルネ・
ソトワーク部を学習する場合、入力された学習パターン
と前記標準パターンの時間軸の対応付けを行う時間軸整
合部と、前記学習パターンを前記ニューラルネットワー
ク部に入力した際に出力すべき/zbターンを与える教
師信号として前記時間軸が対応付けられた時刻点の標準
パターンを用いて前記ニューラルネットワーク部の学習
を制御する学習制御部とを有する。
また、本願の第3の発明による適応型音声認識装置は、
前記本願の第1の発明に加え、前記適応化標準パターン
を保持する適応化標準パターン部を有する。
前記本願の第1の発明に加え、前記適応化標準パターン
を保持する適応化標準パターン部を有する。
本願の第4の発明による適応型音声認識装置は、前記本
願の第1および2および3の発明に加え、学習時に、前
記ニューラルネットワーク部の入力に、教師信号と対応
する時刻点の近傍の時間における音声パターンを提示す
る読み出し制御部を有する。
願の第1および2および3の発明に加え、学習時に、前
記ニューラルネットワーク部の入力に、教師信号と対応
する時刻点の近傍の時間における音声パターンを提示す
る読み出し制御部を有する。
(作用)
本願の第1の発明による適応型音声認識装置は、標準的
な話者の音声により作成された標準パターンを、ニュー
ラルネットワークを用いて特定の話者の標準パターンに
変換し、これにより特定話者の音声を認識するものであ
る。本願の第2の発明による適応型音声認識装置は、入
力された特定話者の音声をニューラルネットワークを用
いて標準的な話者の音声パターンに変換し、それを櫟準
的な話者の標準パターンにより認識するものである。
な話者の音声により作成された標準パターンを、ニュー
ラルネットワークを用いて特定の話者の標準パターンに
変換し、これにより特定話者の音声を認識するものであ
る。本願の第2の発明による適応型音声認識装置は、入
力された特定話者の音声をニューラルネットワークを用
いて標準的な話者の音声パターンに変換し、それを櫟準
的な話者の標準パターンにより認識するものである。
ここで用いるニューラルネットワークには、例えば「日
経エレクトロニクス」誌427号(1987年8月)の
115頁から124頁に「ニューラル・ネ・ソトをパタ
ーン認識、信号処理、知識処理に使う」と題された記事
(以下引用文献3と称す)により詳細に解説されている
パターン連想型ニューラル・ネットを用いることができ
る。第3図は、このニューラルネットワークの構造を示
すものである。図に示すように、このニューラルネ・ノ
ドワークは入力層、中間層、出力層の各層が階層構造に
なっている。中間層は、この図では1層となっているが
2層以上の多層でもよい。中間層の無いネットワークも
ありうる。
経エレクトロニクス」誌427号(1987年8月)の
115頁から124頁に「ニューラル・ネ・ソトをパタ
ーン認識、信号処理、知識処理に使う」と題された記事
(以下引用文献3と称す)により詳細に解説されている
パターン連想型ニューラル・ネットを用いることができ
る。第3図は、このニューラルネットワークの構造を示
すものである。図に示すように、このニューラルネ・ノ
ドワークは入力層、中間層、出力層の各層が階層構造に
なっている。中間層は、この図では1層となっているが
2層以上の多層でもよい。中間層の無いネットワークも
ありうる。
ニューラルネットワークの各ユニ・ソトの出力は、その
ユニットに接続されているユニ・ソトからの出力に重み
Wを掛けたものの総和の値を、非線形関数により変換し
たものである。このようにニューラルネットワークの変
換特性は、重みWにより決定される。重みWの値は、学
習により決定できる。
ユニットに接続されているユニ・ソトからの出力に重み
Wを掛けたものの総和の値を、非線形関数により変換し
たものである。このようにニューラルネットワークの変
換特性は、重みWにより決定される。重みWの値は、学
習により決定できる。
音声パターンは、入力された音声を分析したものである
。分析法としては、ケプストラム分析等、引用文献1の
30頁に述べられている。さまざまな方法を用いること
ができる。このような音声パターンは、特徴ベクトルの
時系列、 A=11)、L■、・・・1.(1)、・・・き(1)
、 (1)Ah)=a(i、pL 1≦
p≦P。
。分析法としては、ケプストラム分析等、引用文献1の
30頁に述べられている。さまざまな方法を用いること
ができる。このような音声パターンは、特徴ベクトルの
時系列、 A=11)、L■、・・・1.(1)、・・・き(1)
、 (1)Ah)=a(i、pL 1≦
p≦P。
である。ただしIは音声パターンのフレーム数、Pは特
徴ベクトルの次元数である。
徴ベクトルの次元数である。
本発明では、(1)式に示された特徴ベクトル浪(1)
を、ニューラルネットワークを用いて適応化特徴ベクト
ル1(1)に変換する。すなわち、入力層の各ユニット
(P個)に特徴ベクトルの各要素a (1,p)の値が
入力されると、中間層、出方層の各ユニットの出力が計
算され、出力層(P個)の各ユニットに適応化特徴ベク
トルa(i、p)の値が出力される。
を、ニューラルネットワークを用いて適応化特徴ベクト
ル1(1)に変換する。すなわち、入力層の各ユニット
(P個)に特徴ベクトルの各要素a (1,p)の値が
入力されると、中間層、出方層の各ユニットの出力が計
算され、出力層(P個)の各ユニットに適応化特徴ベク
トルa(i、p)の値が出力される。
入力層に与える特徴ベクトルは、以上述べたような1つ
のベクトル1(1)だけでなく、時刻iの近傍のいくつ
かのベクトル列&(k)、(1−e≦に≦i+e、 e
は任意の値)を1度に提示することもできる。このよう
に、特徴ベクトル変換時に前後数フレームをふくむ特徴
ベクトルを入力層に提示することにより、音素環境を考
慮した変換が可能となる。
のベクトル1(1)だけでなく、時刻iの近傍のいくつ
かのベクトル列&(k)、(1−e≦に≦i+e、 e
は任意の値)を1度に提示することもできる。このよう
に、特徴ベクトル変換時に前後数フレームをふくむ特徴
ベクトルを入力層に提示することにより、音素環境を考
慮した変換が可能となる。
次に、このニューラルネy)ワークの内部パラメータ(
重みW)の学習法について述べる。音声パターンAが適
応すべき音声パターンとして、B=lb(1)、To■
、 ・To (j)、・・・To (J)
■があるとする。これは、例えば、音声パターンAと異
なる話者により発生された同一単語とする。
重みW)の学習法について述べる。音声パターンAが適
応すべき音声パターンとして、B=lb(1)、To■
、 ・To (j)、・・・To (J)
■があるとする。これは、例えば、音声パターンAと異
なる話者により発生された同一単語とする。
ます、音声パターンAとBの間の時間軸の対応を求める
。
。
すなわち、音声パターンAのフレームiに対応する音声
パターンBのフレームjを与えるテーブルj (+)を
求める。これは、引用文献2に述べられている方法と同
様、DPマツチングを用いて求めることができる。また
、この時間軸の対応付けは線形伸縮により、少ない計算
量で求めることができる。すなわち、 j ” j (1) =(iXJ)/ I 、
(3)により、時間軸の対応付けを求め
ることができる。
パターンBのフレームjを与えるテーブルj (+)を
求める。これは、引用文献2に述べられている方法と同
様、DPマツチングを用いて求めることができる。また
、この時間軸の対応付けは線形伸縮により、少ない計算
量で求めることができる。すなわち、 j ” j (1) =(iXJ)/ I 、
(3)により、時間軸の対応付けを求め
ることができる。
この対応付けの結果を基に、ニューラルネットワークの
入力層に音声パターン1(1)“を与え、そのときの望
ましい出力値(教師信号)である対応する音声パターン
To(j(1))により近い値を出力するようにニュー
ラルネットワークの内部パラメータを学習する。この学
習は、引用文献3に詳しく述べられているバックプロパ
ゲーションを用いて実行できる。この時、ある程度の量
の学習用音声パターンをくり返し提示して学習を行う。
入力層に音声パターン1(1)“を与え、そのときの望
ましい出力値(教師信号)である対応する音声パターン
To(j(1))により近い値を出力するようにニュー
ラルネットワークの内部パラメータを学習する。この学
習は、引用文献3に詳しく述べられているバックプロパ
ゲーションを用いて実行できる。この時、ある程度の量
の学習用音声パターンをくり返し提示して学習を行う。
(実施例)
本願の第1の発明による実施例について図面を参照して
説明する。第1図は第1の発明の一実施例i示す構成図
である。まず最初にニューラルネットワーク部10の内
部パラメータを学習する学習フェーズについて説明する
。
説明する。第1図は第1の発明の一実施例i示す構成図
である。まず最初にニューラルネットワーク部10の内
部パラメータを学習する学習フェーズについて説明する
。
標準パターンメモリ部11中には標準的な話者の音声に
より作成された標準パターンが、あらかじめ保持されて
いる。まず、使用者である特定話者の音声パターン(学
習パターン)を学習パターンメモリ部12内に読み込む
。この学習パターンは、標準パターンを構成する一部(
または全部)の単語よりなる音声パターンである。
より作成された標準パターンが、あらかじめ保持されて
いる。まず、使用者である特定話者の音声パターン(学
習パターン)を学習パターンメモリ部12内に読み込む
。この学習パターンは、標準パターンを構成する一部(
または全部)の単語よりなる音声パターンである。
時間軸整合部13では、標準パターンメモリ部11より
読み出した標準パターンAと、学習パターンメモリ部1
2より読み出した、同一単語の学習パターンBとを、D
Pマツチング法をもちいて時間軸の対応を求め、標準パ
ターンAの特徴ベクトルa (+)に対応する学習パタ
ーンBの特徴ベクトルb(j(1))を求める。学習制
御部14は、特徴ベクトルb(j(1))が入力される
と、まず、読み出し制御部15に対しフレーム番号iが
出力される。読み出し制御部15からの制御信号k(1
e≦に≦Ice)により、標準パターンメモリ部11か
ら、フレーム番号iの近傍の標準パターンa(k)が読
み出される。この標準パターンa (k)。
読み出した標準パターンAと、学習パターンメモリ部1
2より読み出した、同一単語の学習パターンBとを、D
Pマツチング法をもちいて時間軸の対応を求め、標準パ
ターンAの特徴ベクトルa (+)に対応する学習パタ
ーンBの特徴ベクトルb(j(1))を求める。学習制
御部14は、特徴ベクトルb(j(1))が入力される
と、まず、読み出し制御部15に対しフレーム番号iが
出力される。読み出し制御部15からの制御信号k(1
e≦に≦Ice)により、標準パターンメモリ部11か
ら、フレーム番号iの近傍の標準パターンa(k)が読
み出される。この標準パターンa (k)。
(1−e≦に≦i+e)がニューラルネットワーク部1
0に入力されると、学習制御部14は、特徴ベクトルb
(j (1))を教師信号として、ニューラルネット
ワーク部10の内部パラメータを更新して学習をすすめ
る。この学習アルゴリズムとしては、引用文献3に詳し
く述べられているバックプロパゲージロンを用いる。
0に入力されると、学習制御部14は、特徴ベクトルb
(j (1))を教師信号として、ニューラルネット
ワーク部10の内部パラメータを更新して学習をすすめ
る。この学習アルゴリズムとしては、引用文献3に詳し
く述べられているバックプロパゲージロンを用いる。
以上述べた学習操作を全ての学習パターンBに対し、繰
り返し実行することにより、ニューラルネットワーク部
10の内部パラメータの学習を進める。ニューラルネッ
トワーク部10の学習が完了すると、標準パターンメモ
リ部11内の全ての標準パターンAは、ニューラルネッ
トワーク部10により変換され、適応化標準パターンA
として、適応化標準パターンメモリ部16に保持される
。以上で学習フェースは終了する。
り返し実行することにより、ニューラルネットワーク部
10の内部パラメータの学習を進める。ニューラルネッ
トワーク部10の学習が完了すると、標準パターンメモ
リ部11内の全ての標準パターンAは、ニューラルネッ
トワーク部10により変換され、適応化標準パターンA
として、適応化標準パターンメモリ部16に保持される
。以上で学習フェースは終了する。
認識フェーズでは、入力された前記特定話者の音声パタ
ーンXは、認識部17において、適応化標準パターンメ
モリ16内の適応化標準パターン八をもとに認識され、
結果Rが出力される。認識方法としては、例えば、引用
文献1に述べられているようなりPマツチング法を用い
る。適応化標準パターンAは、すでに特定話者に対して
適応化されているので、認識時には特別な処理は必要な
い。
ーンXは、認識部17において、適応化標準パターンメ
モリ16内の適応化標準パターン八をもとに認識され、
結果Rが出力される。認識方法としては、例えば、引用
文献1に述べられているようなりPマツチング法を用い
る。適応化標準パターンAは、すでに特定話者に対して
適応化されているので、認識時には特別な処理は必要な
い。
この適応化標準パターンメモリ部16を持たずに、認識
時、標準パターンを読み出す時にニューラルネットワー
ク部10で変換することも可能である。
時、標準パターンを読み出す時にニューラルネットワー
ク部10で変換することも可能である。
続いて、本願の第2の発明による実施例について図面を
参照して説明する。
参照して説明する。
第2図は第2の発明の一実施例を示す構成図である。ま
ず最初にニューラルネットワーク部20の内部パラメー
タを学習する学習フェーズについて説明する。
ず最初にニューラルネットワーク部20の内部パラメー
タを学習する学習フェーズについて説明する。
標準パターンメモリ部21中には標準的な話者の音声に
より作成された標準パターンが、あらかじめ保持されて
いる。まず、使用者である特定話者省音声パターン(学
習パターン)を学習パターンメモリ部22内に読み込む
。この学習パターンは、標準パターンを構成する一部(
または全部)の単語よりなる音声パターンである。
より作成された標準パターンが、あらかじめ保持されて
いる。まず、使用者である特定話者省音声パターン(学
習パターン)を学習パターンメモリ部22内に読み込む
。この学習パターンは、標準パターンを構成する一部(
または全部)の単語よりなる音声パターンである。
時間軸整合部23では、標準パターンメモリ部21より
読み出した標準パターンBと、学習パターンメモリ部2
2より読み出した、同一単語の学習パターンAとを°、
DPマツチング法をもちいて時間軸の対応を求め、学習
パターンAの特徴ベクトルa (1)に対応する標準パ
ターンBの特徴ベクトルb(j(1))を求める。学習
制御部24は、特徴ベクトルb(j(I))が入力され
ると、まず、読み出し制御部25に対しフレーム番号i
が出力される。読み出し制御、部25からの制御信号k
(1−e≦に≦1千e)により、学習パターンメモリ部
22から、フレーム番号iの近傍の標準パターンa(k
)が読み出される。この標準パターン゛a (k)、(
i−e≦に≦1+e)がニューラルネットワーク部20
に入力されると、学習□制御部24は、特徴ベクトルb
(j (1))を教師信号として、ニューラルネット
ワーク部20の内部パラメータを更新して学習をすすめ
る。この学習アルゴリズムとしては、引用文献3に詳し
く述べられているバックプロパゲーションを用いる。
読み出した標準パターンBと、学習パターンメモリ部2
2より読み出した、同一単語の学習パターンAとを°、
DPマツチング法をもちいて時間軸の対応を求め、学習
パターンAの特徴ベクトルa (1)に対応する標準パ
ターンBの特徴ベクトルb(j(1))を求める。学習
制御部24は、特徴ベクトルb(j(I))が入力され
ると、まず、読み出し制御部25に対しフレーム番号i
が出力される。読み出し制御、部25からの制御信号k
(1−e≦に≦1千e)により、学習パターンメモリ部
22から、フレーム番号iの近傍の標準パターンa(k
)が読み出される。この標準パターン゛a (k)、(
i−e≦に≦1+e)がニューラルネットワーク部20
に入力されると、学習□制御部24は、特徴ベクトルb
(j (1))を教師信号として、ニューラルネット
ワーク部20の内部パラメータを更新して学習をすすめ
る。この学習アルゴリズムとしては、引用文献3に詳し
く述べられているバックプロパゲーションを用いる。
以上述べた学習操作を全ての学習パターンAに対し、繰
り返し実行することにより、ニューラルネットワーク部
20の内部パラメータの学習を進める。ニューラルネッ
トワーク部20の学習が完了すると、学習フェーズは終
了する。
り返し実行することにより、ニューラルネットワーク部
20の内部パラメータの学習を進める。ニューラルネッ
トワーク部20の学習が完了すると、学習フェーズは終
了する。
認識フェーズでは、入力された前記特定話者の音声パタ
ーンX・は、ニューラルネットワーク部20に入力され
、適応化音声パターンXに変換される。この適応化音声
パターンXは、認識部26において、標準パターンメモ
リ部21内の標準パターンBをもとに認識され、結果R
が出力される。
ーンX・は、ニューラルネットワーク部20に入力され
、適応化音声パターンXに変換される。この適応化音声
パターンXは、認識部26において、標準パターンメモ
リ部21内の標準パターンBをもとに認識され、結果R
が出力される。
認識方法としては、例えば、引用文献1に述べられてい
るようなりPマツチング法を用いる。
るようなりPマツチング法を用いる。
第2の発明によれば、認識時に入力された音声パターン
をニューラルネットワークにより変換する必要があるが
、認識語業の変更等により標準パターンを変更した場合
でも、標準パターンを変換しなおす必要はない。このた
め、認識対象給量を頻繁に変更する場合は有利である。
をニューラルネットワークにより変換する必要があるが
、認識語業の変更等により標準パターンを変更した場合
でも、標準パターンを変換しなおす必要はない。このた
め、認識対象給量を頻繁に変更する場合は有利である。
(発明の効果)
本発明によれば、新しい話者や環境に、少量の発声によ
り適応でき、かつ高性能な適応型音声認識装置を実現で
きる。
り適応でき、かつ高性能な適応型音声認識装置を実現で
きる。
第1図は、本願の第1の発明の一実施例を示す構成図。
第2図は、本願の第2の発明の一実施例を示す構成図。
第3図は、ニューラルネットワークの構造を示す図であ
る。
る。
Claims (4)
- (1)標準的な音声パターンである標準パターンを保持
する標準パターンメモリ部と、前記標準パターンを適応
化標準パターンに変換するニューラルネットワーク部と
、入力された音声パターンである入力パターンを前記適
応化標準パターンを用いて認識する認識部と、前記ニュ
ーラルネットワーク部を学習する場合、入力された学習
パターンと前記標準パターンの時間軸の対応付けを行う
時間軸整合部と、前記標準パターンを前記ニューラルネ
ットワーク部に入力した際に出力すべきパターンを与え
る教師信号として前記時間軸に対応付けられた時刻点の
学習パターンを用いて前記ニューラルネットワーク部の
学習を制御する学習制御部とを有する適応型音声認識装
置。 - (2)標準的な音声パターンである標準パターンを保持
する標準パターンメモリ部と、入力された音声パターン
である入力パターンを適応化音声パターンに変換するニ
ューラルネットワーク部と、前記適応化音声パターンを
前記標準パターンを用いて認識する認識部と、前記ニュ
ーラルネットワーク部を学習する場合、入力された学習
パターンと前記標準パターンの時間軸の対応付けを行う
時間軸整合部と、前記学習パターンを前記ニューラルネ
ットワーク部に入力した際に出力すべきパターンを与え
る教師信号として前記時間軸が対応付けられた時刻点の
標準パターンを用いて前記ニューラルネットワーク部の
学習を制御する学習制御部とを有する適応型音声認識装
置。 - (3)前記適応化標準パターンを保持する適応化標準パ
ターンメモリ部を有する請求項1記載の適応型音声認識
装置。 - (4)学習時に、前記ニューラルネットワーク部の入力
に、教師信号と対応する時刻点の近傍の時間における音
声パターンを提示する読み出し制御部を有する請求項1
、2または3記載の適応型音声認識装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63122559A JP2733955B2 (ja) | 1988-05-18 | 1988-05-18 | 適応型音声認識装置 |
DE68912397T DE68912397T2 (de) | 1988-05-18 | 1989-05-17 | Spracherkennung mit Sprecheranpassung durch Lernprozess. |
EP89108844A EP0342630B1 (en) | 1988-05-18 | 1989-05-17 | Speech recognition with speaker adaptation by learning |
US07/688,715 US5150449A (en) | 1988-05-18 | 1991-04-23 | Speech recognition apparatus of speaker adaptation type |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63122559A JP2733955B2 (ja) | 1988-05-18 | 1988-05-18 | 適応型音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01291298A true JPH01291298A (ja) | 1989-11-22 |
JP2733955B2 JP2733955B2 (ja) | 1998-03-30 |
Family
ID=14838890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63122559A Expired - Fee Related JP2733955B2 (ja) | 1988-05-18 | 1988-05-18 | 適応型音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5150449A (ja) |
EP (1) | EP0342630B1 (ja) |
JP (1) | JP2733955B2 (ja) |
DE (1) | DE68912397T2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH041628A (ja) * | 1990-04-18 | 1992-01-07 | Fuji Photo Film Co Ltd | 放射線画像読取条件及び/又は画像処理条件決定装置 |
JPH04233063A (ja) * | 1990-12-28 | 1992-08-21 | Matsushita Electric Ind Co Ltd | ニューロプロセッサ |
US5375173A (en) * | 1991-08-08 | 1994-12-20 | Fujitsu Limited | Speaker adapted speech recognition system |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH067348B2 (ja) * | 1989-04-13 | 1994-01-26 | 株式会社東芝 | パタン認識装置 |
FR2704348B1 (fr) * | 1993-04-23 | 1995-07-07 | Matra Communication | Procede de reconnaissance de parole a apprentissage. |
US5805771A (en) * | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
JP2768274B2 (ja) * | 1994-09-08 | 1998-06-25 | 日本電気株式会社 | 音声認識装置 |
JP3399674B2 (ja) * | 1994-12-19 | 2003-04-21 | エヌイーシーインフロンティア株式会社 | 画面制御装置とその方法 |
JP3008799B2 (ja) * | 1995-01-26 | 2000-02-14 | 日本電気株式会社 | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
US5960395A (en) * | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
DE19806941A1 (de) * | 1998-02-19 | 1999-08-26 | Univ Ilmenau Tech | Verfahren zur Sprecheradaption von Merkmalsreferenzen |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
KR20010102549A (ko) | 1999-03-11 | 2001-11-15 | 내쉬 로저 윌리엄 | 화자 인식 방법 및 장치 |
US6418411B1 (en) * | 1999-03-12 | 2002-07-09 | Texas Instruments Incorporated | Method and system for adaptive speech recognition in a noisy environment |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
EP1172802B1 (de) * | 2000-07-14 | 2007-08-08 | Siemens Aktiengesellschaft | Sprecherabhängige Adaption der phonetischen Transkriptionen eines Aussprache-Lexikons |
US7003465B2 (en) * | 2000-10-12 | 2006-02-21 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition, apparatus for the same, and voice controller |
US7369993B1 (en) | 2000-11-02 | 2008-05-06 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
US7006969B2 (en) * | 2000-11-02 | 2006-02-28 | At&T Corp. | System and method of pattern recognition in very high-dimensional space |
EP1215659A1 (en) * | 2000-12-14 | 2002-06-19 | Nokia Corporation | Locally distibuted speech recognition system and method of its operation |
JP3885523B2 (ja) * | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US7797158B2 (en) * | 2007-06-20 | 2010-09-14 | At&T Intellectual Property Ii, L.P. | System and method for improving robustness of speech recognition using vocal tract length normalization codebooks |
US9235799B2 (en) | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
US9477925B2 (en) | 2012-11-20 | 2016-10-25 | Microsoft Technology Licensing, Llc | Deep neural networks training for speech and pattern recognition |
US9401148B2 (en) | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
US9620145B2 (en) | 2013-11-01 | 2017-04-11 | Google Inc. | Context-dependent state tying using a neural network |
US9514753B2 (en) | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
US9697824B1 (en) * | 2015-12-30 | 2017-07-04 | Thunder Power New Energy Vehicle Development Company Limited | Voice control system with dialect recognition |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US10013973B2 (en) | 2016-01-18 | 2018-07-03 | Kabushiki Kaisha Toshiba | Speaker-adaptive speech recognition |
GB2558629B (en) * | 2017-01-11 | 2019-08-07 | Toshiba Kk | Speaker-adaptive speech recognition |
JP6637078B2 (ja) * | 2016-02-02 | 2020-01-29 | 日本電信電話株式会社 | 音響モデル学習装置、音響モデル学習方法及びプログラム |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3191150A (en) * | 1962-10-30 | 1965-06-22 | Ibm | Specimen identification system with adaptive and non-adaptive storage comparators |
US3287649A (en) * | 1963-09-09 | 1966-11-22 | Research Corp | Audio signal pattern perception device |
US4618984A (en) * | 1983-06-08 | 1986-10-21 | International Business Machines Corporation | Adaptive automatic discrete utterance recognition |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4805225A (en) * | 1986-11-06 | 1989-02-14 | The Research Foundation Of The State University Of New York | Pattern recognition method and apparatus |
US4876731A (en) * | 1988-02-19 | 1989-10-24 | Nynex Corporation | Neural network model in pattern recognition using probabilistic contextual information |
-
1988
- 1988-05-18 JP JP63122559A patent/JP2733955B2/ja not_active Expired - Fee Related
-
1989
- 1989-05-17 EP EP89108844A patent/EP0342630B1/en not_active Expired - Lifetime
- 1989-05-17 DE DE68912397T patent/DE68912397T2/de not_active Expired - Fee Related
-
1991
- 1991-04-23 US US07/688,715 patent/US5150449A/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH041628A (ja) * | 1990-04-18 | 1992-01-07 | Fuji Photo Film Co Ltd | 放射線画像読取条件及び/又は画像処理条件決定装置 |
JPH04233063A (ja) * | 1990-12-28 | 1992-08-21 | Matsushita Electric Ind Co Ltd | ニューロプロセッサ |
US5375173A (en) * | 1991-08-08 | 1994-12-20 | Fujitsu Limited | Speaker adapted speech recognition system |
Also Published As
Publication number | Publication date |
---|---|
EP0342630A3 (en) | 1990-03-07 |
DE68912397D1 (de) | 1994-03-03 |
EP0342630B1 (en) | 1994-01-19 |
US5150449A (en) | 1992-09-22 |
JP2733955B2 (ja) | 1998-03-30 |
DE68912397T2 (de) | 1994-06-01 |
EP0342630A2 (en) | 1989-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH01291298A (ja) | 適応型音声認識装置 | |
Picone | Signal modeling techniques in speech recognition | |
Qi et al. | Voiced-unvoiced-silence classifications of speech using hybrid features and a network classifier | |
US5333236A (en) | Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models | |
US5600753A (en) | Speech recognition by neural network adapted to reference pattern learning | |
US20070239444A1 (en) | Voice signal perturbation for speech recognition | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
US5943647A (en) | Speech recognition based on HMMs | |
US5745872A (en) | Method and system for compensating speech signals using vector quantization codebook adaptation | |
Ren et al. | Combination of bottleneck feature extraction and dereverberation for distant-talking speech recognition | |
Matsuoka et al. | Syllable recognition using integrated neural networks | |
Gao et al. | Multistage coarticulation model combining articulatory, formant and cepstral features. | |
JP2898568B2 (ja) | 声質変換音声合成装置 | |
Shinozaki et al. | Hidden mode HMM using bayesian network for modeling speaking rate fluctuation | |
JPH10254473A (ja) | 音声変換方法及び音声変換装置 | |
Lévy et al. | Reducing computational and memory cost for cellular phone embedded speech recognition system | |
Matsumoto et al. | Unsupervised speaker adaptation from short utterances based on a minimized fuzzy objective function | |
Sathiarekha et al. | A survey on the evolution of various voice conversion techniques | |
JP3256979B2 (ja) | 音響モデルの入力音声に対する尤度を求める方法 | |
Gao et al. | Noise reduction and speech recognition in noise conditions tested on LPNN-based continuous speech recognition system. | |
JPH05232989A (ja) | 音響モデルの話者適応化法 | |
Sima et al. | Performance analysis on speech recognition using neural networks | |
Potamifis et al. | Improving the robustness of noisy MFCC features using minimal recurrent neural networks | |
Torkkola | A combination of neural network and low level AI-techniques to transcribe speech into phonemes | |
JP3036706B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |