JPH04151200A

JPH04151200A - 話者適応化装置

Info

Publication number: JPH04151200A
Application number: JP2277005A
Authority: JP
Inventors: Keiji Fukuzawa; 福沢　圭二; Hidefumi Sawai; 沢井　秀文; Masahide Sugiyama; 雅英杉山
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date: 1990-10-15
Filing date: 1990-10-15
Publication date: 1992-05-25
Anticipated expiration: 2009-06-01
Also published as: JPH0642157B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］この発明はニューラルネットワークによる話者適応化方
式に関し、特に、標準話者の音声データを用いて学習を
行ない、標準話者に対して高い認識率か得られる音声認
識システムを未知話者が発生した少数の音声データを用
いて、未知話者に対しても高い認識率が得られるように
自動的に適応化させ、不特定話者を対象とした音声認識
の分野に適応可能なニューラルネットワークよる話者適
応化方式に関する。

［従来の技術］従来のニューラルネットワークを用いた話者適応化の方
式について以下に説明する。未知話者と標準話者とが同
一単語について発生した音声データを用いて両者の音声
特徴ベクトル列の軸をＤＰマツチングによって整合し、
未知話者と標準話者の特徴ベクトル対が求められる。こ
の特徴ベクトル対は入力信号および教師信号としてニュ
ーラルネットワークに与えられ、未知話者の特徴ベクト
ルを標準話者の特徴ベクトルへ写像するように学習が行
なわれる。学習を終えたニューラルネットワークに未知
話者の音声特徴ベクトルが入力され、標準話者の音声特
徴ベクトルに変換することにより話者適応化を行なう。

また、従来のニューラルネットワークを用いた話者適応
化では、フレーム長５ｍｓ　ｅ　ｃ程度として１フレ一
ム群の音声特徴ベクトルを用いていた。

［発明が解決しようとする課題］音声特徴パターンとして１フレームを単位とせず、数フ
レーム分の音声特徴ベクトルをまとめた音声特徴セグメ
ントを単位とすることにより、話者からの音声の時間的
な構造も含めて適応化できる可能性がある。しかし、音
声特徴セグメントを単位とした場合には、ネットワーク
の持つｗ６ｉｇｈｔ６層メータの数が大きくなり、ネッ
トワークによる推定を有効ならしめるためには、学習に
多くのデータが必要となる。話者適応は未知話者の少数
のデータを用いて適応化を行なうとするものであり、少
数の未知話者のデータにより学習を行なう必要がある。

また、未知話者と標準話者とが同一単語について発声し
た音声データを用いてＤＰマツチングを行なう場合、学
習開始の段階で未知話者と標準話者の特徴パターンが異
なるため、対応づけが正確に行なわれない危険性がある
。

それゆえに、この発明の主たる目的は、未知話者に対し
て高い認識率が得られるように自動的に適応化できるよ
うなニューラルネットワークによる話者適応化方式を提
供することである。

［課題を解決するための手段］この発明はニューラルネットワークによる話者適応化方
式であって、入力された音声から音声特徴パターンを抽
出する音声特徴抽出手段と、ニューラルネットワークを
用いて、音声抽出手段によって抽出された未知話者の音
声特徴パターンを標準話者の音声特徴パターンへ写像す
る適応化手段と、適応化された音声特徴パターンの認識
を行なう認識手段を備えて構成される。

［作用］この発明にかかるニューラルネットワークによる話者適
応化方式は、ニューラルネットワークの話者適応化学習
の前段階で標準話者の音声特徴パターンを用いて恒等写
像の学習を行なう。

［発明の実施例コ第１図はこの発明の一実施例の概略ブロック図である。

第１図において、音声データは音声特徴抽出部１に与え
られ、入力された音声データから音声特徴パターンが抽
出される。抽出された音声特徴パターンはニューラルネ
ットワーク２に与えられる。ニューラルネットワーク２
は未知話者の音声特徴パターンを標準話者の音声特徴パ
ターンへ写像化して適応化する。適応化された音声特徴
パターンは認識部３に与えられ、音声特徴パターンの認
識が行なわれる。この認識部３としてはニューラルネッ
トワークが用いられる。

第２図は適応化学習過程と認識時の処理過程を示すフロ
ー図であり、第３図は適応化を行なう３層のニューラル
ネットワークと音声認識を行なう要素のニューラルネッ
トワークを用いて未知話者の音声認識を行なう方法を示
した図である。

次に、第１図ないし第３図を参照して、この発明の一実
施例の具体的な動作について説明する。

１フレーム音声特徴ベクトルを次の第１表の分析条件で
得られるＦＦＴ−Ｍｅ　１−１６チヤネルフイルタバン
ク出力とし、１５フレームをまとめた音声特徴セグメン
トを音声特徴パターンとして用いる。恒等写像および適
応化の学習に用いる音声特徴セグメントの抽出は発声開
始から終了まで数フレーム分ずつシフトして抽６される
。

第１表二こで、未知話者が発声した単語データから抽出した特
徴パターン列を（Ａ）とし、標準話者が発生した単語デ
ータから抽出した特徴パターン列を（Ｂ）とする。

Ａ＝ａｌ　　ａ２　”’ａ　Ｉ・”ａ　。

Ｂ＝ｂ、ｂ２・・・ｔｚ・・・ｂ。

音声特徴抽出部１は未知話者が発声した単語デ−タから
特徴パターン列（Ａ）を抽出するとともに、標準話者が
発声した単語データから特徴パターン列（Ｂ）を抽出す
る。ニューラルネットワーク２では、第２図に示すよう
に、適応化の学習の始めは標準話者に同し音声特徴パタ
ーンの対（ｂ＋、ｂ＋）を用いて、ｔｚ−ｂ＋の恒等写
像をＢａｃｋ　　Ｐｒｏｐａｇａｔ　ｉｏｎ　（ＢＰ）
法で学習させる。

次に、この恒等写像のネットワークに未知話者の音声特
徴パターンａ１を通したａ’　＋と標準話者のｂ＋をＤ
Ｐマツチングによって対応づけさせ、特徴パターン対（
ａ’　　＋　＋　　ｂ」　＋＋＋　）を求める。

これに対応する未知話者の特徴パターンと標準話者の特
徴パターン対（ａｌ　、　　ｔ）＋　（＋＋　）を学習
データとしてニューラルネットワーク２によってａｌ　
−ｂ　Ｉ　＋＋＋　の写像を学習させる。適応化の学習
のｗｅｉｇｈｔパラメータの初期値には、恒等写像のｗ
ｅｉｇｈｔパラメータの値が用いられる。

認識時には、未知話者の音声特徴パターンをニューラル
ネットワーク２に通し、出力された音声パターンを認識
部３に入力して認識が行なわれる。

ニューラルネットワーク２は第３図に示すように、入力
層２１と隠れ層２２と出力層２３とからなる３層構成が
用いられる。そして、適応化のネットワークの学習は、
標準話者と未知話者が同一単語について発声したデータ
から抽出した音声特徴セグメント列をＤＰマツチングを
用いて時間軸の整合を行ない、対応する対を求めてそれ
を入力信号と教師信号として行なわれる。

認識部３は第３図に示すように、入力層３１と隠れ層３
２と隠れ層３３とａカ層３４とからなる４層構成のＴＤ
ＮＮ　（Ｔｉｍｅ−Ｄｅ　ｌａｙ　　Ｎｅｕｒａｌ　　
Ｎｅｔｗｏｒｋ）が用いられる。このネットワークの入
力層３１は適応化を行なうニューラルネットワーク２の
出力層２３と同じユニット数が用いられる。そして未知
話者の発声した音声データから抽出した音声特徴セグメ
ントが入力層３１に入力され、ニューラルネットワーク
２の出力層２３に出力されたパターンを音素認識を行な
うネットワークの入力層３１に入力して音素認識が行な
われる。

［発明の効果］以上のように、この発明によれば、ニューラルネットワ
ークの話者適応化学習の前段階で標準話者の音声特徴パ
ターンを用いて恒等写像の学習を行なうようにしたので
、少数の未知話者のデータによって標準話者の恒等写像
を行なうネットワークを、話者適応化を行なうネットワ
ークへと効率的にチューニングできる。また、ＤＰマツ
チングによる時間軸整合を行なって対応する特徴パター
ン対を求め、学習を行なう際に、未知話者の音声特徴パ
ターンを恒等写像を行なうネットワークに通すことによ
って、標準話者のパターンとの対応付けがより正確に行
なえる。その結果、恒等写像を用いない従来方法と比較
して未知話者に対する認識率を向上できる。

【図面の簡単な説明】

第１図はこの発明の一実施例の概略ブロック図である。第２図は適応化の学習過程と認識時の処理過程を示すフ
ロー図である。第３図は適応化を行なう３層のニューラ
ルネットワークと音素認識を行なう４層のニューラルネ
ットワークを用いて未知話者の音素認識を行なう方法を
示した図である。図において、１は音声特徴抽圧部、２はニューラルネッ
トワーク、３は認識部、２１．３１は入力層、２２．３
２．３３は隠れ層、２３．３４は出力層を示す。特許出願人　株式会社エイ・ティ・アール第１図第２図第３図［認識結果］今

Claims

【特許請求の範囲】入力された音声から音声特徴パターンを抽出する音声特
徴抽出手段、ニューラルネットワークを用いて、前記音声抽出手段に
よって抽出された未知話者の音声特徴パターンを標準話
者の音声特徴パターンへ写像する適応化手段、および前記適応化手段によって適応化された音声特徴パターン
の認識を行なう認識手段を備え、前記ニューラルネット
ワークの話者適応化学習の前段階で前記標準話者の音声
特徴パターンを用いて恒等写像の学習を行なうことを特
徴とする、ニューラルネットワークによる話者適応化方
式。