JPH02273798A - 話者認識方式 - Google Patents

話者認識方式

Info

Publication number
JPH02273798A
JPH02273798A JP1096129A JP9612989A JPH02273798A JP H02273798 A JPH02273798 A JP H02273798A JP 1096129 A JP1096129 A JP 1096129A JP 9612989 A JP9612989 A JP 9612989A JP H02273798 A JPH02273798 A JP H02273798A
Authority
JP
Japan
Prior art keywords
neural network
time
speaker
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1096129A
Other languages
English (en)
Inventor
Shingo Nishimura
新吾 西村
Masashi Miyagawa
宮川 正志
Masayuki Unno
海野 雅幸
Shigenobu Nonaka
重信 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP1096129A priority Critical patent/JPH02273798A/ja
Priority to CA 2003183 priority patent/CA2003183C/en
Priority to EP19890121349 priority patent/EP0369485B1/en
Priority to DE1989621292 priority patent/DE68921292T2/de
Publication of JPH02273798A publication Critical patent/JPH02273798A/ja
Priority to US08/150,785 priority patent/US5461697A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電気錠、ICカード等のオンライン端末等で
入力音声からその話者を同定又は照合するに好適な話者
認識方式に関する。
[従来の技術] 話者認識とは、入力音声からその話者を認識することで
あり、話者同定と話者照合の2つの形態がある。
話者同定とは入力音声が登録話者のうちの誰の声である
かを判定することであり、話者照合とは入力音声が登録
話者の声であると見なせるか否かを判定することである
従来の話者認識方式は、例えば特公昭56−13956
号公報、電子通信学会論文誌73/11 Vol、56
−ANo、11  (文献1)に記載される如く、以下
の手順による。
■入力音声に含まれる話者に関する特徴量を抽出する。
■予め上記■と同様にして抽出しておいた標準パターン
と上記■で抽出した特徴量との距離を計算する。
■話者同定の場合は、上記距離が最小の標準バターンの
話者を入力音声の話者と判定し、話者照合の場合は、上
記距離に予めしきい値を設定し、距離がその値よりも小
さい場合には、入力音声はその標準パターンの話者によ
るものであると判定する。
この時、特公昭56−13956号公報では、上記特徴
量として、入力音声から算出したスペクトルパラメータ
間の相関、各パラメータの平均値及び標準偏差を用いる
こととしている。
[発明が解決しようとする課題] 然しながら、上記従来の話者認識方式では、以下の問題
点がある。
■標準パターン作成時から時間が経過するにつれ、認識
率が劣化する0例えば文献1に記載の実験結果にあって
は、標準パターン作成時から3ケ月経過により1話者同
定率は100%から85%に劣化し、話者照合率は99
%から91%に劣化する。
■実時間処理が困難である。即ち、従来の話者認識方式
において一定以上の認識率を確保するためには複雑な特
徴量を用いる必要があるが、複雑な特徴量を抽出するに
は複雑な処理装置が必要であり、処理時間も多大となる
本発明は、経時的な認識率の劣化が掻めて少なく、容易
に実時間処理できる話者認識方式を得ることを目的とす
る。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いて入力音声から話者認識する話者認識方式であって
、ニューラルネットワークへの入力として、音声の平均
的な周波数特性、及び平均的なピッチ周波数を用いるよ
うにしたものである。
請求項2に記載の本発明は、前記ニューラルネットワー
クへの入力として、音声の一定時間内における平均的な
周波数特性の時間的変化、及び一定時間内における平均
的なピッチ周波数の時間的変化を用いるようにしたもの
である。
請求項3に記載の本発明は、前記ニューラルネットワー
クが階層的なニューラルネットワークであるようにした
ものである。
尚、音声のピッチ周波数とは、声帯波の繰返し周期(ピ
ッチ周期)の逆数である。
[作用] 請求項1に記載の本発明によれば以下の■〜■の作用効
果がある。
■経時的な認識率め劣化が極めて少ない、このことは、
後述する実験結果により確認されていることであるが、
ニューラルネットワークが音声の時期差による変動の影
響を受けにくい構造をとることが可能なためと推定され
る。
■ニューラルネットワークへの入力として、「音声の平
均的な周波数特性、及び平均的なピッチ周波数」を用い
たから、入力を得るための前処理が、従来の複雑な特徴
量抽出に比して、単純となり、この前処理に要する時間
が短くて足りる。
尚、ニューラルネットワークへの入力として、個人差が
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人/小人、男性/女性間の話者の認
識率を向上することができる。
■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理が単純且つ迅速である。
■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理か可能である。従って、演算処理が迅速である。
■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。
又、請求項2に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
■ニューラルネットワークへの入力として、「音声の一
定時間内における平均的な周波数特性の時間的変化、及
び一定時間内における平均的なピッチ周波数の時間的変
化」を用いたから、ニューラルネットワークにおける処
理か単純となり、この処理に要する時間かより短くて足
りる。
又、請求項3に記載の本発明によれば上記■〜■の作用
効果に加えて、以下の■の作用効果がある。
0階層的なニューラルネットワークにあっては、現在、
後述する如くの簡単な学習アルゴリズム(ハックプロパ
ゲーション)か確立されており、高い認識率を実現でき
るニューラルネットワークを容易に形成できる。
[実施例] 第1図は本発明が適用された話者認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。
本発明の具体的実施例の説明に先立ち、ニューラルネッ
トワークの構成、学習アルゴリズムについて説明する。
(1)ニューラルネットワークは、その構造から、第4
図(A)に示すN層内ネットワークと第4図(B)に示
す相互結合ネットワークの2種に大別できる。本発明は
、両ネットワークのいずれを用いて構成するものであっ
ても良いが、階層的ネットワークは後述する如くの簡単
な学習アルゴリズムが確立されているためより有用であ
る。
(2)ネットワークの構造 階層的ネットワークは、第5図に示す如く、入力層、中
間層、出力層からなる階層構造をとる。
各層は1以上のユニットから構成される。結合は、入力
層→中間層→出力層という前向きの結合たけで、各層内
での結合はない。
(3)ユニットの構造 ユニットは第6図に示す如く脳のニューロンのモデル化
であり構造は簡単である。他のユニットから入力を受け
、その総和をとり一定の規則(変換関数)で変換し、結
果を出力する。他のユニットとの結合には、それぞれ結
合の強さを表わす可変の重みを付ける。
(4)学習(パックプロパゲーション)ネットワークの
学習とは、実際の出力を目標値(望ましい出力)に近づ
けることであり、−殻内には第6図に示した各ユニット
の変換関数及び重みを変化させて学習を行なう。
又、学習のアルゴリズムとしては、例えば、Rumel
hart、 D、E、、Me(:1elland、 J
、L、 and thePDP Re5earch G
roup、 PARALLEL DISTRIBUTE
DPRQCESSl、NG、 the MIT Pre
ss、 1986. (文献2)に記載されているパッ
クプロパゲーションを用いることができる。
以下、本発明の具体的な実施例について説明する。尚、
この実施例の認識システム1は、nチャンネルのバンド
パスフィルタ10、ピッチ抽出部11、平均化回路15
、ニューラルネットワーク20、判定回路30の結合に
て構成される(第1図参照)。
(A)学習単語を「タダイマ」、入力単語を「タダイマ
」とし、入力単語の学習単語に対する時期差はO〜3ケ
月とした。
(B)話者 ■話者同定については、登録話者9名とした。
■話者照合については、登録話者9名、学習詐称者27
名、未学習詐称者10名とした。
(C)前処理 ■入力音声「タダイマ」を、第2図に示す如く、4つの
ブロックに時間的に等分割する。
■音声波形を、第1図に示す如く、複数(n個)(この
実施例ではn=8)チャンネルのバンドパスフィルタ1
0に通し、各ブロック即ち各−定時間毎に第3図(A)
〜(D)のそれぞれに示す如くの周波数特性を得る。
又、上記バンドパスフィルタ10による処理と並列的に
、音声波形をピッチ抽出部11に通し、各ブロック、即
ち各一定時間毎にピッチ周波数を得る。
この時、バンドパスフィルタ10とピッチ抽出部11の
各出力は各ブロック毎に平均化回路15で平均化される
(D)ニューラルネットワークによる処理及び判宇 ■前処理の結果(ブロック毎のバンドパスフィルタ10
、ピッチ抽出部11を経た各平均化回路15の出力)を
、第1図に示す如く、3層の階層的なニューラルネット
ワーク20に入力する。入力l1121は、バンドパス
フィルタ10による前処理のnチャンネル、4ブロツク
に対応し、かつピッチ抽出部11による前処理の1チヤ
ンネル、4ブロツクに対応する、4X (n+1)ユニ
ット(この実施例ではn=8.36ユニツト)にテ構成
される。出力層22は、話者同定については各登録話者
に対応する9ユニツト、話者照合については登録話者群
とその他の群とに対応する2ユニツトにて構成される。
■ニューラルネットワーク20の出力を判定回路30に
入力し、出力1I22の各ユニットの出力値のうち最大
の値を出力したユニットを同定認識部31、照合認識部
32のそれぞれにおいて判定し、結果として同定若しく
は照合を行なう。但し、本発明の実施において、ニュー
ラルネットワーク20の出力は判定回路30の如くにて
機械的に判定処理されず、ニューラルネットワーク20
の出力を得た人間の知力にて判定処理されるものであっ
ても良い。
■前述した学習アルゴリズムのパックプロパゲーション
により、入力に対する出力のエラーが一定レベルに収束
するまで30.000回学習させ、一定認識率を保証し
得るネットワークを構築する。尚、出力としては、各入
力話者に対応したユニットが「1」、その他が「o」と
なるように学習した。
(E)実験 上記認識システム1を用いて、話者同定と話者照合を実
験した。
(a)話者同定 入力音声は■登録話者9名の学習直後の「タダイマ」、
■登録話者9名の3ケ月後の「タタイマ」とした。
結果、学習直後の同定率100%に対し、3ケ月後の同
定率98%であり、経時的な同定率の劣化か極めて少な
いことが認められた。
(b)話者照合 入力音声は■登録話者9名と学習詐称者27名の学習直
後の「タダイマ」、■登録話者9名と学習詐称者27名
の3ケ月後の「タダイマ」、■未学習詐称者10名の「
タダイマ」とした。
結果、学習直後の照合率100%に対し、3ケ月後の照
合率99%であり、経時的な照合率の劣化が極めて少な
いことが認められた。
(c)処理速度 1回の入力音声「タダイマ」に対し、同定又は照合に要
した時間は1秒以内であり、極めて迅速処理できること
が認められた。
即ち、上記認識システム1にあっては、上記(a)、(
b)の結果が示すように認識率か高く、而もその認識率
の経時的な劣化が極めて少ない。
又、上記認識システム1にあっては、上記 (C)の結
果が示すように話者認識処理を複雑な処理装置によるこ
となく迅速処理でき、容易に実時間処理できる。
尚、本発明の実施において、ニューラルネットワークへ
の入力として、音声の一定時間内における平均的な周波
数特性の時間的変化、及び一定時間内における平均的な
ピッチ周波数の時間的変化を用いるものでなく、単に「
音声の平均的な周波数特性、及び平均的なピッチ周波数
」を用いるものであっても良い。
[発明の効果] 以上のように本発明によれば、経時的な認識率の劣化が
極めて少な(、容易に実時間処理できる話者認識方式を
得ることができる。
【図面の簡単な説明】
第1図は本発明が適用された話者認識システムの一例を
示す模式図、第2図は入力音声を示す模式図、第3図は
バンドパスフィルタの出力を示す模式図、第4図はニュ
ーラルネットワークを示す模式図、第5図は階層的なニ
ューラルネットワークを示す模式図、第6図はユニット
の構造を示す模式図である。 1・・・認識システム、 10・・・バンドパスフィルタ、 11・・・ピッチ抽出部、 15・・・平均化回路、 2o・・・ニューラルネットワーク、 21・・・入力層 22・・・出力層、 30・・・判定回路、 31・・・同定認識部、 32・・・照合認識部。 特許出願人 積水化学工業株式会社 代表者  廣1)馨 第2図 時間 第3図 (A) (C) (D) 第4図 第5図 出カバターン ↑ ↑ 入カバターン 第6図 ユニノト

Claims (3)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いて入力音声から話
    者認識する話者認識方式であって、ニューラルネットワ
    ークへの入力として、音声の平均的な周波数特性、及び
    平均的なピッチ周波数を用いる話者認識方式。
  2. (2)前記ニューラルネットワークへの入力として、音
    声の一定時間内における平均的な周波数特性の時間的変
    化、及び一定時間内における平均的なピッチ周波数の時
    間的変化を用いる請求項1記載の話者認識方式。
  3. (3)前記ニューラルネットワークが階層的なニューラ
    ルネットワークである請求項1又は2記載の話者認識方
    式。
JP1096129A 1988-11-17 1989-04-14 話者認識方式 Pending JPH02273798A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP1096129A JPH02273798A (ja) 1989-04-14 1989-04-14 話者認識方式
CA 2003183 CA2003183C (en) 1988-11-17 1989-11-16 Speaker recognition system
EP19890121349 EP0369485B1 (en) 1988-11-17 1989-11-17 Speaker recognition system
DE1989621292 DE68921292T2 (de) 1988-11-17 1989-11-17 Sprechererkennungssystem.
US08/150,785 US5461697A (en) 1988-11-17 1993-11-12 Speaker recognition system using neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1096129A JPH02273798A (ja) 1989-04-14 1989-04-14 話者認識方式

Publications (1)

Publication Number Publication Date
JPH02273798A true JPH02273798A (ja) 1990-11-08

Family

ID=14156777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1096129A Pending JPH02273798A (ja) 1988-11-17 1989-04-14 話者認識方式

Country Status (1)

Country Link
JP (1) JPH02273798A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852696A (ja) * 1981-09-25 1983-03-28 大日本印刷株式会社 音声認識装置
JPS605960A (ja) * 1983-06-25 1985-01-12 産業振興株式会社 既設建物の外壁改装工法
JPS63261400A (ja) * 1987-04-20 1988-10-28 富士通株式会社 音声認識方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852696A (ja) * 1981-09-25 1983-03-28 大日本印刷株式会社 音声認識装置
JPS605960A (ja) * 1983-06-25 1985-01-12 産業振興株式会社 既設建物の外壁改装工法
JPS63261400A (ja) * 1987-04-20 1988-10-28 富士通株式会社 音声認識方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
JP2009527801A (ja) * 2006-02-21 2009-07-30 株式会社ソニー・コンピュータエンタテインメント 話者適応を用いた音声認識とピッチによる登録

Similar Documents

Publication Publication Date Title
CN109243467A (zh) 声纹模型构建方法、声纹识别方法及系统
CN110610715B (zh) 一种基于cnn-dnn混合神经网络的降噪方法
CN110379441B (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
CN107068167A (zh) 融合多种端到端神经网络结构的说话人感冒症状识别方法
JPH02273798A (ja) 話者認識方式
JPH03230200A (ja) 音声認識方法
JPH02273799A (ja) 話者認識方式
JPH02273800A (ja) 話者認識方式
JPH02135500A (ja) 話者認識方式
JPH02275996A (ja) 単語認識方式
EP0369485B1 (en) Speaker recognition system
JPH02304498A (ja) 単語認識方式
JPH02304497A (ja) 単語認識方式
JPH03157698A (ja) 話者認識システム
JPH03157697A (ja) 単語認識システム
JP2518939B2 (ja) 話者照合システム
JPH02273796A (ja) 話者認識方式
JPH03230256A (ja) 音声認識方法
JPH02195399A (ja) 男女声の識別方式
Muruganantham et al. Biometric of speaker authentication using CNN
JPH02273797A (ja) 話者認識方式
JP2559506B2 (ja) 話者照合システム
JPH03276199A (ja) 話者認識方法
Shanmugapriya et al. Implementation of speaker verification system using fuzzy wavelet network
JPH04121799A (ja) 音声認識方法