JPH03276199A - 話者認識方法 - Google Patents

話者認識方法

Info

Publication number
JPH03276199A
JPH03276199A JP2075633A JP7563390A JPH03276199A JP H03276199 A JPH03276199 A JP H03276199A JP 2075633 A JP2075633 A JP 2075633A JP 7563390 A JP7563390 A JP 7563390A JP H03276199 A JPH03276199 A JP H03276199A
Authority
JP
Japan
Prior art keywords
speaker
short
vector
neural network
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2075633A
Other languages
English (en)
Other versions
JP2564200B2 (ja
Inventor
Hideki Aso
英樹 麻生
Takio Kurita
多喜夫 栗田
Masayuki Unno
海野 雅幸
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Sekisui Chemical Co Ltd
Original Assignee
Agency of Industrial Science and Technology
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology, Sekisui Chemical Co Ltd filed Critical Agency of Industrial Science and Technology
Priority to JP2075633A priority Critical patent/JP2564200B2/ja
Publication of JPH03276199A publication Critical patent/JPH03276199A/ja
Application granted granted Critical
Publication of JP2564200B2 publication Critical patent/JP2564200B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、電子錠等において入力音声からその話者を認
識するに好適な話者認識方式に関する。
[従来の技術] 本出願人は、ニューラルネットワークを用いた話者認識
方式を提案している。ニューラルネットワークを用いた
話者認識方式は、登録話者の特定学習単語についての音
声なニューラルネットワークに入力し、この入力に対応
するニューラルネットワークの出力が一定の目標値に近
づくように、ニューラルネットワークを構成する各ユニ
ットの変換関数及び重みを修正する学習動作を行なう。
そして、この学習動作の繰り返しにより構築されたニュ
ーラルネットワークに任意話者の音声を入力し、対応す
るニューラルネットワークの出力から今回話者か登録話
者であるか否かを認識することとしている。
[発明が解決しようとする課題] 然しながら、従来のニューラルネットワークを用いた話
者認識方式にあっては、予め学習した発声内容(学習単
語)と同一の発声内容についてのみ話者認識を行なって
いるに過ぎない。そして、発声内容を限定しない入力音
声から話者認識を行なうものとすれば、ニューラルネッ
トワークは入力音声中の種々の音韻に共通の話者情報を
利用する必要かあるから、入力音声としである程度長い
発声が必要となり、又、高い認識率も得にくい。
本発明は、発声内容を限定しない入力音声に基づく話者
認識において、比較的短い発声で高い認識率を得ること
を目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、ニューラルネットワークを
用いた話者認識方式であって、入力音声から抽出した短
時間スペクトルの概形を表わすベクトルの系列をニュー
ラルネットワークへの入力とし、当該入力に対するニュ
ーラルネットワークからの出力ベクトルの系列を、総合
的に判断することにより話者認識を行なうようにしたも
のである。
請求項2に記載の本発明は、前記総合的な判断が、各出
力ベクトルの多数決、和、又は積に基づいてなされるよ
うにしたものである。
[作用] 本発明にあっては、先ず、学習用の音声から抽出した短
時間スペクトルの概形を表わすベクトルを求め、このベ
クトルの系列なニューラルネットワークへ入力する学習
動作により、ニューラルネットワークを構築する。学習
用の音声は、ある程度の長さの文章のすべて(例えば、
「明日は東京に出ますのですみませんが留守にします、
」)、又は、文章中から選択した代表的な音素(例えば
、raJ、riJ・・・)を用いる。
学習により構築されたニューラルネットワークを用いる
認識時には、発声内容を特徴とする特定話者の音声から
学習時と同様に抽出した短時間スペクトルの概形を表わ
すベクトルを求め、このベクトルの系列をニューラルネ
ットワークへ入力する。そして、当該入力に対するニュ
ーラルネットワークからの出力ベクトルの系列を得る。
この時、系列を構成する各出力ベクトルは、それぞれが
短時間の入力(各フレーム毎の入力)に対する話者を示
唆しており、本発明では、これを系列全体で、多数決、
和、又は積等にて総合的に判断することにより、1つの
話者認識結果を得る。
然るに、本発明によれば、下記■、■の作用効果がある
■学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワークにあっては、任意の発声中に内在する話
者情報を良く捕捉できる。これにより、発声内容を限定
しない入力音声に基づく話者認識を、短い発声について
も良好に実現できる。
■出力ベクトルの系列を総合的に判断して話者認識を行
なうものであるから、出力ベクトルの1つに基づく判断
では誤りである場合にも、全体としては正しい判断を下
すことができる。これにより、発声内容を限定しない入
力音声に基づく話者認識を、高い認識率で実現できる。
[実施例] 第1図は本発明の実施に用いられる話者認識装置を示す
ブロック図、第2図は本発明の話者認識原理を示す工程
図である。
話者認識装置10は、第1図に示す如く、音声入力部1
1、前処理部12、ニューラルネットワーク13、出力
ベクトル演算部14、判定部15を有して構成されてい
る。以下、この話者認識装置10による本発明の実施例
について説明する。
(A)学習 ■対象とする登録話者に男性5名で、学習用の短文(5
秒程度)として「明日は東京にでますのですみませんが
留守にします、」を用意した。そして、この学習用の音
声を音声入力部11に入力した。
■上記■の入力音声を前処理部12において、サンプリ
ング周波数10KHz 、フレーム長25.6諺sec
%フレーム周期12.8膳secでフーリエ分析(全n
フレーム)し、各1フレームにつき100〜5000H
zの帯域でHch (1/120ct、 )のパワーベ
クトルを系列を得た(第2図参照)、これにより、学習
用人力データとしてn組のm=68次元のパワーベクト
ルの系列が得られることになる。
■上記■で得たベクトルをニューラルネットワーク13
への入力とし、出力層の各ユニットが話者に対応するよ
うに、十分学習する。
今回用いたニューラルネットワーク13は3層の階層型
ネットワークであり、各層のユニット数は入力層68、
中間層30、出力層5で、学習には誤差逆伝播学習法を
用いた。ニューラルネットワーク13への入力としては
、前述■の如く、68次元のベクトルが、1回の発声に
ついてフレームの数たけ得られる。出力層での各ユニッ
トの目標出力値は、それぞれ、(1,0,01,0,0
)、(0,1,0、00)、(0、O,1、0,0)、
(0,0,0,1,0)、(0,0,0,0,1)であ
る。
(B)認識 次に、上記(A)で構築されたニューラルネットワーク
13を用いて、話者の同定を行なう。
■音声入力部11にて採取された任意の発声について、
前処理部12において上記■と同様にn組のm=68次
元のパワーベクトルの系列を得る。
■上記■て得たベクトルをニューラルネットワーク13
に入力し、下記の出力ベクトルの系列を得る。
(X”  X”−X”)       ”−(1)Xt
=(Xt、、・・・ x ts)     ・・・(2
)但し、上記(1)は全フレーム分の出力ベクトルの系
列を表わし、上記(2)は第tフレームについての出力
ベクトルを表わす、上記(2)の出力ベクトルxtにお
いて、Xtlの値が他のXt2〜Xt5の値に比して大
きければ、この出力ベクトル)<1は、第tフレームの
入力に対する話者が第1話者〜第5者のうちの第1話者
であることを示唆する。
■出力ベクトル演算部14は、上記■の出力ベクトルの
系列を、以下の(a) 、 (b) 、 (c)の3手
法により総合的に判断し、入力音声がどの話者のもので
あるかを認識し、この認識結果を判定部15に表示する
(a)各出力ベクトルXtfの積、即ちntxt、が最
大になる話者5 (b)各出力ベクトルxt、の和、即ちΣtxt、か最
大になる話者5 (c) 各フレームの出力ベクトルの最大値max(X
t、−xts) =Xt、をとり、この最大値をとった
数が最も多い話者S(各出力ベクトルXtの多数決で選
定した話者S) 尚、任意発声の一例として、学習用短文「明日は東京に
出ますのすみませんが留守にします、」に対して、「た
だいま」、「こんにちわ」、「おはようございます」の
3単語を用いて話者認識実験を行なった結果、話者5名
を完全に同定できた。
次に、上記実施例の作用について説明する。
上記実施例にあっては、先ず、学習用の音声から抽出し
た短時間(1フレーム長25.6■5ea)スペクトル
の概形を表わす各フレーム毎のベクトルを求め、このベ
クトルの系列なニューラルネットワーク13へ入力する
学習動作により、ニューラルネットワーク13を構築し
た。
学習により構築されたニューラルネットワーク13を用
いる認識時には、発声内容を特徴とする特定話者の音声
から学習時と同様に抽出した短時間スペクトルの概形を
表わすベクトルを求め、このベクトルの系列をニューラ
ルネットワーク13へ入力した。そして、当該入力に対
するニューラルネットワーク13からの出力ベクトルの
系列を得た。この時、系列を構成する各出力ベクトルは
、それぞれか短時間の入力(各フレーム毎の入力)に対
する話者を示唆しており、上記実施例では、出力ベクト
ル演算部14により、これを系列全体で、多数決、和、
又は積にて総合的に判断することにより、1つの話者認
識結果を得た。
然るに、上記実施例によれば、下記■、■の作用効果が
ある。
■学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分と対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワーク13にあっては、任意の発声中に内在す
る話者情報を良く捕捉できる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、短い発声につ
いても良好に実現できる。
■出力ベクトルの系列を総合的に判断して話者認識を行
なうものであるから、出力ベクトルの1つに基づ〈判断
では誤りである場合にも、全体としては正しい判断を下
すことができる。これにより、発声内容を限定しない入
力音声に基づく話者認識を、高い認識率で実現できる。
[発明の効果] 以上のように本発明によれば、発声内容を限定しない入
力音声に基づく話者認識において、比鞍的短い発声で高
い認識率を得ることができる。
【図面の簡単な説明】
第1図は本発明の実施に用いられる話者認識装置を示す
ブロック図、第2図は本発明の話者認識原理を示す工程
図である。 10・・・話者認識装置、 11・・・音声入力部、 12・・・前処理部、 13・・・ニューラルネットワーク、 14・・・出力ベクトル演算部、 15・・・判定部。

Claims (2)

    【特許請求の範囲】
  1. (1)ニューラルネットワークを用いた話者認識方式で
    あって、入力音声から抽出した短時間スペクトルの概形
    を表わすベクトルの系列をニューラルネットワークへの
    入力とし、当該入力に対するニューラルネットワークか
    らの出力ベクトルの系列を、総合的に判断することによ
    り話者認識を行なう話者認識方式。
  2. (2)前記総合的な判断が、各出力ベクトルの多数決、
    和、又は積に基づいてなされる請求項1記載の話者認識
    方式。
JP2075633A 1990-03-27 1990-03-27 話者認識方法 Expired - Lifetime JP2564200B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2075633A JP2564200B2 (ja) 1990-03-27 1990-03-27 話者認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2075633A JP2564200B2 (ja) 1990-03-27 1990-03-27 話者認識方法

Publications (2)

Publication Number Publication Date
JPH03276199A true JPH03276199A (ja) 1991-12-06
JP2564200B2 JP2564200B2 (ja) 1996-12-18

Family

ID=13581851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2075633A Expired - Lifetime JP2564200B2 (ja) 1990-03-27 1990-03-27 話者認識方法

Country Status (1)

Country Link
JP (1) JP2564200B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772894A (ja) * 1993-06-15 1995-03-17 Ontario Hydro 自動知的監視装置
US6512615B2 (en) 1996-10-29 2003-01-28 Chorum Technologies Lp Method and apparatus for wavelength multiplexing/demultiplexing
CN106238630A (zh) * 2015-07-23 2016-12-21 赵光林 柱形钢筋笼的加工方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59111699A (ja) * 1982-12-17 1984-06-27 富士通株式会社 話者認識方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59111699A (ja) * 1982-12-17 1984-06-27 富士通株式会社 話者認識方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772894A (ja) * 1993-06-15 1995-03-17 Ontario Hydro 自動知的監視装置
US5956463A (en) * 1993-06-15 1999-09-21 Ontario Hydro Audio monitoring system for assessing wildlife biodiversity
US6512615B2 (en) 1996-10-29 2003-01-28 Chorum Technologies Lp Method and apparatus for wavelength multiplexing/demultiplexing
CN106238630A (zh) * 2015-07-23 2016-12-21 赵光林 柱形钢筋笼的加工方法

Also Published As

Publication number Publication date
JP2564200B2 (ja) 1996-12-18

Similar Documents

Publication Publication Date Title
Zazo et al. Feature Learning with Raw-Waveform CLDNNs for Voice Activity Detection.
CN110379441B (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
JPH0816187A (ja) 音声分析における音声認識方法
JP2002328695A (ja) テキストからパーソナライズ化音声を生成する方法
JPH075892A (ja) 音声認識方法
JPH03276199A (ja) 話者認識方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Kumbhakarn et al. Analysis of emotional state of a person and its effect on speech features using PRAAT software
MY An improved feature extraction method for Malay vowel recognition based on spectrum delta
JPH02253298A (ja) 音声通過フィルタ
Razak et al. Towards automatic recognition of emotion in speech
Polur et al. Isolated speech recognition using artificial neural networks
Artières et al. Connectionist and conventional models for free-text talker identification tasks
JP2515609B2 (ja) 話者認識方法
Rajeswari et al. Improved emotional speech recognition algorithms
Nidhyananthan et al. Contemporary speech/speaker recognition with speech from impaired vocal apparatus
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
JPH09212197A (ja) ニューラルネットワーク
JPH05313689A (ja) 話者認識方式
JPH05119799A (ja) 話者認識方式
Nijhawan et al. A comparative study of two different neural models for speaker recognition systems
Seman et al. The optimization of artificial neural networks connection weights using genetic algorithms for isolated spoken Malay parliamentary speeches
JPH07210197A (ja) 話者識別方法
JP3029654B2 (ja) 音声認識装置
JPH05119791A (ja) 話者認識方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term