JPH0642157B2 - 話者適応化装置 - Google Patents

話者適応化装置

Info

Publication number
JPH0642157B2
JPH0642157B2 JP2277005A JP27700590A JPH0642157B2 JP H0642157 B2 JPH0642157 B2 JP H0642157B2 JP 2277005 A JP2277005 A JP 2277005A JP 27700590 A JP27700590 A JP 27700590A JP H0642157 B2 JPH0642157 B2 JP H0642157B2
Authority
JP
Japan
Prior art keywords
speaker
learning
neural network
feature pattern
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2277005A
Other languages
English (en)
Other versions
JPH04151200A (ja
Inventor
圭二 福沢
秀文 沢井
雅英 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR JIDO HONYAKU DENWA
EI TEI AARU JIDOU HONYAKU DENW
Original Assignee
ATR JIDO HONYAKU DENWA
EI TEI AARU JIDOU HONYAKU DENW
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR JIDO HONYAKU DENWA, EI TEI AARU JIDOU HONYAKU DENW filed Critical ATR JIDO HONYAKU DENWA
Priority to JP2277005A priority Critical patent/JPH0642157B2/ja
Publication of JPH04151200A publication Critical patent/JPH04151200A/ja
Publication of JPH0642157B2 publication Critical patent/JPH0642157B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は話者適応化装置に関し、特に、標準話者の音
声データを用いて学習を行ない、標準話者に対して高い
認識率が得られる音声認識システムを未知話者が発生し
た少数の音声データを用いて、未知話者に対しても高い
認識率が得られるように自動的に適応化させ、不特定話
者を対象とした音声認識の分野に適応可能な話者適応化
装置に関する。
[従来の技術] 従来のニューラルネットワークを用いた話者適応化の方
式について以下に説明する。未知話者と標準話者とが同
一単語について発生した音声データを用いて両者の音声
特徴ベクトル列の軸をDPマッチングによって整合し、
未知話者と標準話者の特徴ベクトル対が求められる。こ
の特徴ベクトル対は入力信号および教師信号としてニュ
ーラルネットワークに与えられ、未知話者の特徴ベクト
ルを標準話者の特徴ベクトルへ写像するように学習が行
なわれる。学習を終えたニューラルネットワークに未知
話者の音声特徴ベクトルが入力され、標準話者の音声特
徴ベクトルに変換することにより話者適応化を行なう。
また、従来のニューラルネットワークを用いた話者適応
化では、フレーム長5msec程度として1フレーム群
の音声特徴ベクトルを用いていた。
[発明が解決しようとする課題] 音声特徴パターンとして1フレームを単位とせず。数フ
レーム分の音声特徴ベクトルをまとめた音声特徴セグメ
ントを単位とすることにより、話者からの音声の時間的
な構造を含めて適応化できる可能性がある。しかし、音
声特徴セグメントを単位とした場合には、ネットワーク
の持つweightパラメータの数が大きくなり、ネッ
トワークによる推定を有効ならしめるためには、学習に
多くのデータが必要となる。話者適応は未知話者の少数
のデータを用いて適応化を行なうとするものであり、少
数の未知話者のデータにより学習を行なう必要がある。
また、未知話者と標準話者とが同一単語について発声し
た音声データを用いてDPマッチングを行なう場合、学
習開始の段階で未知話者と標準話者の特徴パターンが異
なるため、対応づけが正確に行なわれない危険性があ
る。
それゆえに、この発明の主たる目的は、未知話者に対し
て高い認識率が得られるように自動的に適応化できるよ
うなよる話者適応化装置を提供することである。
[課題を解決するための手段] この発明は話者適応化装置であって、未知話者の発声し
た単語データから特徴パターン列を抽出するとともに、
標準話者の発声した単語データから特徴パターン列を抽
出する音声特徴パターン抽出手段と、抽出された標準話
者の特徴パターン列を用いて話者適応ニューラルネット
ワークを恒等写像としてバックプロパゲーション法を用
いて初期学習する恒等写像学習手段と、抽出された未知
話者の特徴パターンをニューラルネットワークで写像し
た結果と、標準話者の特徴パターンとをDPマッチング
によって対応づけて特徴パターン対を求める対応付手段
と、抽出されかつ対応付けられた特徴パターン対を学習
データとしてニューラルネットワークを適応学習する適
応学習手段と、対応付手段による対応付けと適応学習手
段による適応学習とが繰返され、一定の収束条件を満た
したことに応じて、学習を停止させる学習停止手段とを
備えて構成される。
[作用] この発明に係る話者適応化装置は、未知話者の発声した
単語データから特徴パターン列を抽出するとともに、標
準話者の発声した単語データから特徴パターンを抽出
し、抽出された標準話者の特徴パターン列を用いて話者
適応ニューラルネットワークを恒等写像としてバックプ
ロパゲーション法を用いて初期学習し、未知話者の特徴
パターンをニューラルネットワークで写像した結果と、
標準話者の特徴パターンとをDPマッチングによって対
応づけて特徴パターン対を求め、特徴パターン対を学習
データとしてニューラルネットワークを適応学習し、対
応付けと適応学習とを繰返し、一定の収束条件を満たし
たことに応じて学習を停止する。
[発明の実施例] 第1図はこの発明の一実施例の概略ブロック図である。
第1図において、音声データは音声特徴抽出部1に与え
られ、入力された音声データから音声特徴パターンが抽
出される。抽出された音声特徴パターンはニューラルネ
ットワーク2に与えられる。ニューラルネットワーク2
は未知話者の音声特徴パターンを標準話者の音声特徴パ
ターンへ写像化して適応化する。適応化された音声特徴
パターンは認識部3に与えられ、音声特徴パターンの認
識が行なわれる。この認識部3としてはニューラルネッ
トワークが用いられる。
第2図は適応化学習過程と認識時の処理過程を示すフロ
ー図であり、第3図は適応化を行なう3層のニューラル
ネットワークと音声認識を行なう要素のニューラルネッ
トワークを用いて未知話者の音声認識を行なう方法を示
した図である。
次に、第1図ないし第3図を参照して、この発明の一実
施例の具体的な動作について説明する。1フレーム音声
特徴ベクトルを次の第1表の分析条件で得られるFFT
−Mel−16チャネルフィルタバンク出力とし、15
フレームをまとめた音声特徴セグメントを音声特徴パタ
ーンとして用いる。恒等写像および適応化の学習に用い
る音声特徴セグメントの抽出は発声開始から終了まで数
フレーム分ずつシフトして抽出される。
ここで、未知話者が発声した単語データから抽出した特
徴パターン列を(A)とし、標準話者が発生した単語デ
ータから抽出した特徴パターン列を(B)とする。
A=a…a…a B=b…b…b 音声特徴抽出部1は未知話者が発声した単語データから
特徴パターン列(A)を抽出するとともに、標準話者が
発声した単語データから特徴パターン列(B)を抽出す
る。ニューラルネットワーク2では、第2図に示すよう
に、適応化の学習の始めは標準話者に同じ音声特徴パタ
ーンの対(b,b)を用いて、b→bの恒等写
像をBack Propagation(BP)法で学
習させる。
次に、この恒等写像のネットワークに未知話者の音声特
徴パターンaを通したa′と標準話者のbをDP
マッチングによって対応づけさせ、特徴パターン対
(a′,bj(i))を求める。これに対応する未知
話者の特徴パターンと標準話者の特徴パターン対
(a,bj(i))を学習データとしてニューラルネ
ットワーク2によってa→bj(i)の写像を学習さ
せる。適応化の学習のweightパラメータの初期値
には、恒等写像のweightパラメータの値が用いら
れる。
認識時には、未知話者の音声特徴パターンをニューラル
ネットワーク2に通し、出力された音声パターンを認識
部3に入力して認識が行なわれる。
ニューラルネットワーク2は第3図に示すように、入力
層21と隠れ層22と出力層23とからなる3層構成が
用いられる。そして、適応化のネットワークの学習は、
標準話者と未知話者が同一単語について発声したデータ
から抽出した音声特徴セグメント列をDPマッチングを
用いて時間軸の整合を行ない、対応する対を求めてそれ
を入力信号と教師信号として行なわれる。
認識部3は第3図に示すように、入力層31と隠れ層3
2と隠れ層33と出力層34とからなる4層構成のTD
NN(Time−Delay Neural Netw
ork)が用いられる。このネットワークの入力層31
は適応化を行なうニューラルネットワーク2の出力層2
3と同じユニット数が用いられる。そして未知話者の発
声した音声データから抽出した音声特徴セグメントが入
力層31に入力され、ニューラルネットワーク2の出力
層23に出力されたパターンを音素認識を行なうネット
ワークの入力層31に入力して音素認識が行なわれる。
[発明の効果] 以上のように、この発明によれば、ニューラルネットワ
ークの話者適応化学習の前段階で標準話者の音声特徴パ
ターンを用いて恒等写像の学習を行なうようにしたの
で、少数の未知話者のデータによって標準話者の恒等写
像を行なうネットワークを、話者適応化を行なうネット
ワークへと効率的にチューニングできる。また、DPマ
ッチングによる時間軸整合を行なって対応する特徴パタ
ーン対を求め、学習を行なう際に、未知話者の音声特徴
パターンを恒等写像を行なうネットワークに通すことに
よって、標準話者のパターンとの対応付けがより正確に
行なえる。その結果、恒等写像を用いない従来方法と比
較して未知話者に対する認識率を向上できる。
【図面の簡単な説明】
第1図はこの発明の一実施例の概略ブロック図である。
第2図は適応化の学習過程と認識時の処理過程を示すフ
ロー図である。第3図は適応化を行なう3層のニューラ
ルネットワークと音素認識を行なう4層のニューラルネ
ットワークを用いて未知話者の音素認識を行なう方法を
示した図である。 図において、1は音声特徴抽出部、2はニューラルネッ
トワーク、3は認識部、21,31は入力層、22,3
2,33は隠れ層、23,34は出力層を示す。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 杉山 雅英 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール自動翻 訳電話研究所内 (56)参考文献 日本音響学会講演論文集、平成元年10 月、2−P−14、P.157−158 日本音響学会講演論文集、平成2年9 月、2−P−10、P.149−150

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】未知話者の発声した単語データから特徴パ
    ターン列を抽出するとともに、標準話者の発声した単語
    データから特徴パターン列を抽出する音声特徴パターン
    抽出手段、 前記音声特徴パターン抽出手段によって抽出された標準
    話者の特徴パターン列を用いて話者適応ニューラルネッ
    トワークを恒等写像としてバックプロパゲーション法を
    用いて初期学習する恒等写像学習手段、 前記音声特徴パターン抽出手段によって抽出され、未知
    話者の特徴パターンを前記ニューラルネットワークで写
    像した結果と、標準話者の特徴パターンとをDPマッチ
    ングによって対応づけて特徴パターン対を求める対応付
    手段、 前記音声特徴パターン抽出手段によって抽出されかつ前
    記対応付手段によって対応付けられた特徴パターン対を
    学習データとしてニューラルネットワークを適応学習す
    る適応学習手段、および 前記対応付手段による対応付けと、前記適応学習手段に
    よる適応学習とが繰返され、一定の収束条件を満たした
    ことに応じて、前記学習を停止させる学習停止手段を備
    えた、話者適応化装置。
JP2277005A 1990-10-15 1990-10-15 話者適応化装置 Expired - Fee Related JPH0642157B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2277005A JPH0642157B2 (ja) 1990-10-15 1990-10-15 話者適応化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2277005A JPH0642157B2 (ja) 1990-10-15 1990-10-15 話者適応化装置

Publications (2)

Publication Number Publication Date
JPH04151200A JPH04151200A (ja) 1992-05-25
JPH0642157B2 true JPH0642157B2 (ja) 1994-06-01

Family

ID=17577435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2277005A Expired - Fee Related JPH0642157B2 (ja) 1990-10-15 1990-10-15 話者適応化装置

Country Status (1)

Country Link
JP (1) JPH0642157B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2288897T3 (es) * 2000-07-14 2008-02-01 Siemens Aktiengesellschaft Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion.
JP4716605B2 (ja) * 2001-03-29 2011-07-06 株式会社リコー 音声認識装置及び音声認識方法
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集、平成2年9月、2−P−10、P.149−150
日本音響学会講演論文集、平成元年10月、2−P−14、P.157−158

Also Published As

Publication number Publication date
JPH04151200A (ja) 1992-05-25

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
WO2019179034A1 (zh) 语音识别方法、服务器及计算机可读存储介质
CN107221318B (zh) 英语口语发音评分方法和系统
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
CA2085842C (en) Neural network-based speech token recognition system and method
JPH0816187A (ja) 音声分析における音声認識方法
CN108986798A (zh) 语音数据的处理方法、装置及设备
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
Ahammad et al. Connected bangla speech recognition using artificial neural network
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
JPH0642157B2 (ja) 話者適応化装置
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
EP0789902A1 (en) Decision tree classifier designed using hidden markov models
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
Afshan et al. Attention-based conditioning methods using variable frame rate for style-robust speaker verification
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
JP2564200B2 (ja) 話者認識方法
Bub Task adaptation for dialogues via telephone lines
Salimovna et al. A Study on the Methods and Algorithms Used for the Separation of Speech Signals
JPH04219798A (ja) 話者適応音声認識方法および装置
JPH09319395A (ja) 離散単語音声認識システムにおける音声データ学習装置
Al-Dulaimi et al. Employing An Efficient Technique with Deep Neural Network for Speaker Identification
CN114863934A (zh) 基于集成卷积神经网络的声纹识别模型构建方法
CN112562657A (zh) 一种基于深度神经网络的个性语言离线学习方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees