JPH04151200A - 話者適応化装置 - Google Patents

話者適応化装置

Info

Publication number
JPH04151200A
JPH04151200A JP2277005A JP27700590A JPH04151200A JP H04151200 A JPH04151200 A JP H04151200A JP 2277005 A JP2277005 A JP 2277005A JP 27700590 A JP27700590 A JP 27700590A JP H04151200 A JPH04151200 A JP H04151200A
Authority
JP
Japan
Prior art keywords
speaker
neural network
feature pattern
voice feature
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2277005A
Other languages
English (en)
Other versions
JPH0642157B2 (ja
Inventor
Keiji Fukuzawa
福沢 圭二
Hidefumi Sawai
沢井 秀文
Masahide Sugiyama
雅英 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP2277005A priority Critical patent/JPH0642157B2/ja
Publication of JPH04151200A publication Critical patent/JPH04151200A/ja
Publication of JPH0642157B2 publication Critical patent/JPH0642157B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] この発明はニューラルネットワークによる話者適応化方
式に関し、特に、標準話者の音声データを用いて学習を
行ない、標準話者に対して高い認識率か得られる音声認
識システムを未知話者が発生した少数の音声データを用
いて、未知話者に対しても高い認識率が得られるように
自動的に適応化させ、不特定話者を対象とした音声認識
の分野に適応可能なニューラルネットワークよる話者適
応化方式に関する。
[従来の技術] 従来のニューラルネットワークを用いた話者適応化の方
式について以下に説明する。未知話者と標準話者とが同
一単語について発生した音声データを用いて両者の音声
特徴ベクトル列の軸をDPマツチングによって整合し、
未知話者と標準話者の特徴ベクトル対が求められる。こ
の特徴ベクトル対は入力信号および教師信号としてニュ
ーラルネットワークに与えられ、未知話者の特徴ベクト
ルを標準話者の特徴ベクトルへ写像するように学習が行
なわれる。学習を終えたニューラルネットワークに未知
話者の音声特徴ベクトルが入力され、標準話者の音声特
徴ベクトルに変換することにより話者適応化を行なう。
また、従来のニューラルネットワークを用いた話者適応
化では、フレーム長5ms e c程度として1フレ一
ム群の音声特徴ベクトルを用いていた。
[発明が解決しようとする課題] 音声特徴パターンとして1フレームを単位とせず、数フ
レーム分の音声特徴ベクトルをまとめた音声特徴セグメ
ントを単位とすることにより、話者からの音声の時間的
な構造も含めて適応化できる可能性がある。しかし、音
声特徴セグメントを単位とした場合には、ネットワーク
の持つw6ight6層メータの数が大きくなり、ネッ
トワークによる推定を有効ならしめるためには、学習に
多くのデータが必要となる。話者適応は未知話者の少数
のデータを用いて適応化を行なうとするものであり、少
数の未知話者のデータにより学習を行なう必要がある。
また、未知話者と標準話者とが同一単語について発声し
た音声データを用いてDPマツチングを行なう場合、学
習開始の段階で未知話者と標準話者の特徴パターンが異
なるため、対応づけが正確に行なわれない危険性がある
それゆえに、この発明の主たる目的は、未知話者に対し
て高い認識率が得られるように自動的に適応化できるよ
うなニューラルネットワークによる話者適応化方式を提
供することである。
[課題を解決するための手段] この発明はニューラルネットワークによる話者適応化方
式であって、入力された音声から音声特徴パターンを抽
出する音声特徴抽出手段と、ニューラルネットワークを
用いて、音声抽出手段によって抽出された未知話者の音
声特徴パターンを標準話者の音声特徴パターンへ写像す
る適応化手段と、適応化された音声特徴パターンの認識
を行なう認識手段を備えて構成される。
[作用] この発明にかかるニューラルネットワークによる話者適
応化方式は、ニューラルネットワークの話者適応化学習
の前段階で標準話者の音声特徴パターンを用いて恒等写
像の学習を行なう。
[発明の実施例コ 第1図はこの発明の一実施例の概略ブロック図である。
第1図において、音声データは音声特徴抽出部1に与え
られ、入力された音声データから音声特徴パターンが抽
出される。抽出された音声特徴パターンはニューラルネ
ットワーク2に与えられる。ニューラルネットワーク2
は未知話者の音声特徴パターンを標準話者の音声特徴パ
ターンへ写像化して適応化する。適応化された音声特徴
パターンは認識部3に与えられ、音声特徴パターンの認
識が行なわれる。この認識部3としてはニューラルネッ
トワークが用いられる。
第2図は適応化学習過程と認識時の処理過程を示すフロ
ー図であり、第3図は適応化を行なう3層のニューラル
ネットワークと音声認識を行なう要素のニューラルネッ
トワークを用いて未知話者の音声認識を行なう方法を示
した図である。
次に、第1図ないし第3図を参照して、この発明の一実
施例の具体的な動作について説明する。
1フレーム音声特徴ベクトルを次の第1表の分析条件で
得られるFFT−Me 1−16チヤネルフイルタバン
ク出力とし、15フレームをまとめた音声特徴セグメン
トを音声特徴パターンとして用いる。恒等写像および適
応化の学習に用いる音声特徴セグメントの抽出は発声開
始から終了まで数フレーム分ずつシフトして抽6される
第1表 二こで、未知話者が発声した単語データから抽出した特
徴パターン列を(A)とし、標準話者が発生した単語デ
ータから抽出した特徴パターン列を(B)とする。
A=al  a2 ”’a I・”a 。
B=b、b2・・・tz・・・b。
音声特徴抽出部1は未知話者が発声した単語デ−タから
特徴パターン列(A)を抽出するとともに、標準話者が
発声した単語データから特徴パターン列(B)を抽出す
る。ニューラルネットワーク2では、第2図に示すよう
に、適応化の学習の始めは標準話者に同し音声特徴パタ
ーンの対(b+、b+)を用いて、tz−b+の恒等写
像をBack  Propagat ion (BP)
法で学習させる。
次に、この恒等写像のネットワークに未知話者の音声特
徴パターンa1を通したa’ +と標準話者のb+をD
Pマツチングによって対応づけさせ、特徴パターン対(
a’  + +  b」 +++ )を求める。
これに対応する未知話者の特徴パターンと標準話者の特
徴パターン対(al 、  t)+ (++ )を学習
データとしてニューラルネットワーク2によってal 
−b I +++ の写像を学習させる。適応化の学習
のweightパラメータの初期値には、恒等写像のw
eightパラメータの値が用いられる。
認識時には、未知話者の音声特徴パターンをニューラル
ネットワーク2に通し、出力された音声パターンを認識
部3に入力して認識が行なわれる。
ニューラルネットワーク2は第3図に示すように、入力
層21と隠れ層22と出力層23とからなる3層構成が
用いられる。そして、適応化のネットワークの学習は、
標準話者と未知話者が同一単語について発声したデータ
から抽出した音声特徴セグメント列をDPマツチングを
用いて時間軸の整合を行ない、対応する対を求めてそれ
を入力信号と教師信号として行なわれる。
認識部3は第3図に示すように、入力層31と隠れ層3
2と隠れ層33とaカ層34とからなる4層構成のTD
NN (Time−De lay  Neural  
Network)が用いられる。このネットワークの入
力層31は適応化を行なうニューラルネットワーク2の
出力層23と同じユニット数が用いられる。そして未知
話者の発声した音声データから抽出した音声特徴セグメ
ントが入力層31に入力され、ニューラルネットワーク
2の出力層23に出力されたパターンを音素認識を行な
うネットワークの入力層31に入力して音素認識が行な
われる。
[発明の効果] 以上のように、この発明によれば、ニューラルネットワ
ークの話者適応化学習の前段階で標準話者の音声特徴パ
ターンを用いて恒等写像の学習を行なうようにしたので
、少数の未知話者のデータによって標準話者の恒等写像
を行なうネットワークを、話者適応化を行なうネットワ
ークへと効率的にチューニングできる。また、DPマツ
チングによる時間軸整合を行なって対応する特徴パター
ン対を求め、学習を行なう際に、未知話者の音声特徴パ
ターンを恒等写像を行なうネットワークに通すことによ
って、標準話者のパターンとの対応付けがより正確に行
なえる。その結果、恒等写像を用いない従来方法と比較
して未知話者に対する認識率を向上できる。
【図面の簡単な説明】
第1図はこの発明の一実施例の概略ブロック図である。 第2図は適応化の学習過程と認識時の処理過程を示すフ
ロー図である。第3図は適応化を行なう3層のニューラ
ルネットワークと音素認識を行なう4層のニューラルネ
ットワークを用いて未知話者の音素認識を行なう方法を
示した図である。 図において、1は音声特徴抽圧部、2はニューラルネッ
トワーク、3は認識部、21.31は入力層、22.3
2.33は隠れ層、23.34は出力層を示す。 特許出願人 株式会社エイ・ティ・アール第1 図 第2 図 第3 図 [認識結果] 今

Claims (1)

  1. 【特許請求の範囲】 入力された音声から音声特徴パターンを抽出する音声特
    徴抽出手段、 ニューラルネットワークを用いて、前記音声抽出手段に
    よって抽出された未知話者の音声特徴パターンを標準話
    者の音声特徴パターンへ写像する適応化手段、および 前記適応化手段によって適応化された音声特徴パターン
    の認識を行なう認識手段を備え、前記ニューラルネット
    ワークの話者適応化学習の前段階で前記標準話者の音声
    特徴パターンを用いて恒等写像の学習を行なうことを特
    徴とする、ニューラルネットワークによる話者適応化方
    式。
JP2277005A 1990-10-15 1990-10-15 話者適応化装置 Expired - Fee Related JPH0642157B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2277005A JPH0642157B2 (ja) 1990-10-15 1990-10-15 話者適応化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2277005A JPH0642157B2 (ja) 1990-10-15 1990-10-15 話者適応化装置

Publications (2)

Publication Number Publication Date
JPH04151200A true JPH04151200A (ja) 1992-05-25
JPH0642157B2 JPH0642157B2 (ja) 1994-06-01

Family

ID=17577435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2277005A Expired - Fee Related JPH0642157B2 (ja) 1990-10-15 1990-10-15 話者適応化装置

Country Status (1)

Country Link
JP (1) JPH0642157B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1172802A2 (de) * 2000-07-14 2002-01-16 Siemens Aktiengesellschaft Adaptation zum Sprecher der phonetischen Transkriptionen eines Aussprache-Lexikons
JP2002358094A (ja) * 2001-03-29 2002-12-13 Ricoh Co Ltd 音声認識システム
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1172802A2 (de) * 2000-07-14 2002-01-16 Siemens Aktiengesellschaft Adaptation zum Sprecher der phonetischen Transkriptionen eines Aussprache-Lexikons
EP1172802A3 (de) * 2000-07-14 2002-11-13 Siemens Aktiengesellschaft Adaptation zum Sprecher der phonetischen Transkriptionen eines Aussprache-Lexikons
JP2002358094A (ja) * 2001-03-29 2002-12-13 Ricoh Co Ltd 音声認識システム
JP4716605B2 (ja) * 2001-03-29 2011-07-06 株式会社リコー 音声認識装置及び音声認識方法
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置

Also Published As

Publication number Publication date
JPH0642157B2 (ja) 1994-06-01

Similar Documents

Publication Publication Date Title
Gevaert et al. Neural networks used for speech recognition
WO2018176894A1 (zh) 一种说话人确认方法及装置
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
Kinoshita et al. Text-informed speech enhancement with deep neural networks.
CN110379441B (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
JPH0816187A (ja) 音声分析における音声認識方法
JPH0736475A (ja) 音声分析における基準パターン形成方法
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN110299142A (zh) 一种基于网络融合的声纹识别方法及装置
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN109377986A (zh) 一种非平行语料语音个性化转换方法
Wang et al. Speech augmentation using wavenet in speech recognition
KR20220047080A (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
JPH04151200A (ja) 話者適応化装置
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
Afshan et al. Attention-based conditioning methods using variable frame rate for style-robust speaker verification
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Nikitaras et al. Fine-grained noise control for multispeaker speech synthesis
JPH03276199A (ja) 話者認識方法
CN108806697A (zh) 基于ubm和svm的说话人身份识别系统
Salimovna et al. A Study on the Methods and Algorithms Used for the Separation of Speech Signals
KR20240060961A (ko) 음성 데이터 생성 방법, 음성 데이터 생성 장치 및 컴퓨터로 판독 가능한 기록 매체
JPH04271397A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees