JPH05119799A - 話者認識方式 - Google Patents

話者認識方式

Info

Publication number
JPH05119799A
JPH05119799A JP3282843A JP28284391A JPH05119799A JP H05119799 A JPH05119799 A JP H05119799A JP 3282843 A JP3282843 A JP 3282843A JP 28284391 A JP28284391 A JP 28284391A JP H05119799 A JPH05119799 A JP H05119799A
Authority
JP
Japan
Prior art keywords
neural network
input
speaker recognition
speaker
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3282843A
Other languages
English (en)
Inventor
Masayuki Unno
雅幸 海野
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP3282843A priority Critical patent/JPH05119799A/ja
Publication of JPH05119799A publication Critical patent/JPH05119799A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 発声内容を限定しない入力音声に基づく話者
認識方式において、比較的短い発声で高い認識率を得る
とともに、学習を軽減すること。 【構成】 ニューラルネットワーク13を用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワーク13への入力とし、当該入力に対するニューラル
ネットワーク13からの出力ベクトルの系列を、総合的
に判断することにより話者認識を行なう話者認識方式で
あって、入力音声を分析区間毎に有声/無声判定し有声
区間のみをニューラルネットワーク13への入力の対象
区間にするようにしたものである。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、電子錠等において入力
音声からその話者を認識するに好適な話者認識方式に関
する。
【0002】
【従来の技術】本出願人は、ニューラルネットワークを
用いた話者認識方式を提案している。ニューラルネット
ワークを用いた話者認識方式は、登録話者の特定学習単
語についての音声をニューラルネットワークに入力し、
この入力に対応するニューラルネットワークの出力が一
定の目標値に近づくように、ニューラルネットワークを
構成する各ユニットの変換関数及び重みを修正する学習
動作を行なう。そして、この学習動作の繰り返しにより
構築されたニューラルネットワークに任意話者の音声を
入力し、対応するニューラルネットワークの出力から今
回話者が登録話者であるか否かを認識することとしてい
る。
【0003】
【発明が解決しようとする課題】然しながら、従来のニ
ューラルネットワークを用いた話者認識方式にあって
は、予め学習した発声内容(学習単語)と同一の発声内
容についてのみ話者認識を行なっているに過ぎない。そ
して、発声内容を限定しない入力音声から話者認識を行
なうものとすれば、ニューラルネットワークは入力音声
中の種々の音韻に共通の話者情報を利用する必要がある
から、入力音声としてある程度長い発声が必要となり、
また、高い認識率も得にくい。
【0004】然るに、本出願人は、特願平2-243413号に
より、発声内容を限定しない入力音声に基づく話者認識
において、認識時の入力に関して発声長を短縮できる話
者認識方式を提案した。ところが、この提案済の話者認
識方式にあっては、学習時のデータ数に関する改善が十
分でなく、学習に長時間を要するという不都合がある。
【0005】本発明は、発声内容を限定しない入力音声
に基づく話者認識方式において、比較的短い発声で高い
認識率を得るとともに、学習を軽減することを目的とす
る。
【0006】
【課題を解決するための手段】請求項1に記載の本発明
は、ニューラルネットワークを用いて話者認識を行なう
に際し、入力音声から抽出した短時間スペクトルの概形
を表わすベクトルの系列をニューラルネットワークへの
入力とし、当該入力に対するニューラルネットワークか
らの出力ベクトルの系列を、総合的に判断することによ
り話者認識を行なう話者認識方式であって、入力音声を
分析区間毎に有声/無声判定し有声区間のみをニューラ
ルネットワークへの入力の対象区間にするようにしたも
のである。
【0007】請求項2に記載の本発明は、請求項1に記
載の本発明において更に、前記総合的な判断が、各出力
ベクトルの多数決、和、または積に基づいてなされるよ
うにしたものである。
【0008】請求項3に記載の本発明は、ニューラルネ
ットワークを用いて話者認識を行なうに際し、入力音声
から抽出した短時間スペクトルの概形を表わすベクトル
の系列をニューラルネットワークへの入力とし、当該入
力に対するニューラルネットワークからの出力ベクトル
のうち、予め設定したしきい値にて選択された出力ベク
トルの系列を、総合的に判断することにより話者認識を
行なう話者認識方式であって、入力音声を分析区間毎に
有声/無声判定し有声区間のみをニューラルネットワー
クへの入力の対象区間にするようにしたものである。
【0009】請求項4に記載の本発明は、請求項3に記
載の本発明において更に、前記総合的な判断が、選択さ
れた各出力ベクトルの多数決、和、または積に基づいて
なされるようにしたものである。
【0010】
【作用】請求項1、2に記載の本発明にあっては、先
ず、学習用の音声から抽出した短時間スペクトルの概形
を表わすベクトルを求め、このベクトルの系列をニュー
ラルネットワークへ入力する学習動作により、ニューラ
ルネットワークを構築する。本発明では、この際に分析
区間毎に有声/無声判定を行ない、有声区間のみを入力
に用いる。
【0011】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。
【0012】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した有声区間の短時
間スペクトルの概形を表わすベクトルを求め、このベク
トルの系列をニューラルネットワークへ入力する。そし
て、当該入力に対するニューラルネットワークからの出
力ベクトルの系列を得る。この時、系列を構成する各出
力ベクトルは、それぞれが短時間の入力(各フレーム毎
の入力)に対する話者を示唆しており、本発明では、こ
れを系列全体で、多数決、頻度、和、または積等にて総
合的に判断することにより、1つの話者認識結果を得
る。
【0013】然るに、請求項1、2に記載の本発明によ
れば、下記〜の作用効果がある。
【0014】学習に用いた短時間スペクトルの概形
は、それぞれ、種々の音素や音素間の渡りの部分に対応
している。従って、これらの各短時間スペクトルの概形
を表わすベクトルの系列から、話者情報を得るように学
習したニューラルネットワークにあっては、任意の発声
中に内在する話者情報を良く捕捉できる。これにより、
発声内容を限定しない任意の入力音声に基づく話者認識
を、短い発声についても良好に実現できる。
【0015】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの1つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。
【0016】有声/無声判定により有声部のみを用い
るので、学習データ数が削減でき、ニューラルネットワ
ークの学習時間が短縮できる。
【0017】有声部のみを用いることにより対象音素
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。
【0018】請求項3、4に記載の本発明にあっては、
先ず、学習用の音声から抽出した短時間スペクトルの概
形を表わすベクトルを求め、このベクトルの系列をニュ
ーラルネットワークへ入力する学習動作により、ニュー
ラルネットワークを構築する。本発明では、この際に分
析区間毎に有声/無声判定を行ない、有声区間のみを入
力に用いる。
【0019】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。
【0020】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した有声区間の短時
間スペクトルの概形を表わすベクトルを求め、このベク
トルの系列をニューラルネットワークへ入力する。そし
て、当該入力に対するニューラルネットワークからの出
力ベクトルの系列を得る。この時、系列を構成する各出
力ベクトルは、それぞれが短時間の入力に対する話者を
示唆しているが、本発明にあっては予めしきい値を用い
て、全部の出力ベクトルのうちである話者のみを一定以
上の確度で示唆している出力ベクトル(換言すれば、信
頼性の高い出力ベクトル)のみを選択し、選択された出
力ベクトルの系列全体で、多数決、和、または積等にて
総合的に判断することにより、1つの話者認識結果を得
る。
【0021】然るに、請求項3、4に記載の本発明によ
れば、請求項1、2に記載の本発明における前述〜
の作用に加え、下記の作用がある。
【0022】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定したしきい値
にて選択された出力ベクトルの系列である。即ち、出力
ベクトルのうちで信頼性の高いものを選択したことによ
り、総合的な判断がより確実となり、認識率を顕著に向
上できる。
【0023】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
【0024】(1)ニューラルネットワークは、その構造
から、図3(A)に示す階層的ネットワークと図3
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
【0025】(2)ネットワークの構造 階層的ネットワークは、図4に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
【0026】(3)ユニットの構造 ユニットは図5に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
【0027】(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には図5に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
【0028】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
【0029】
【実施例】図1は本発明の第1実施例に用いられる話者
認識装置を示す模式図、図2は本発明の第2実施例に用
いられる話者認識装置を示す模式図である。
【0030】(第1実施例)(図1参照) 話者認識装置10は、図1に示す如く、音声入力部1
1、前処理部12、有声/無声判定部13A、ニューラ
ルネットワーク13、出力ベクトル演算部14、判定部
15を有して構成されている。以下、この話者認識装置
10による本発明の実施例について説明する。尚、学習
時には音声入力部11、前処理部12、有声/無声判定
部13A、ニューラルネットワーク13のみが用いら
れ、認識時には話者認識装置10の全体が用いられる。
【0031】(A)学習 対象とする登録話者に男性 5名で、学習用の短文とし
て音韻バランスのとれた文章、例えば「彼は以前から科
学技術の進歩と人間の勇気が遥かな宇宙への旅を可能に
したのだと考えていました。」を用意した。そして、こ
の学習用の音声を音声入力部11に入力した。
【0032】上記の入力音声を前処理部12におい
て、サンプリング周波数10KHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析(全nフレーム)
し、各1フレームにつき100 〜5000Hzの帯域で68ch(1/
12 Oct. )のパワーベクトルを系列を得た。これによ
り、学習用入力データとしてn組のm=68次元のパワー
ベクトルの系列が得られることになる。
【0033】有声/無声判定部13Aを用いて、上記
のパワーベクトルについて、それぞれ周波数特性の傾
きにより有声区間か無声区間かを判定する。
【0034】上記で得た有声区間に対応するベクト
ルをニューラルネットワーク13への入力とし、出力層
の各ユニットが話者に対応するように、十分学習する。
【0035】今回用いたニューラルネットワーク13は
3層の階層型ネットワークであり、各層のユニット数は
入力層68、中間層30、出力層 5で、学習には誤差逆伝播
学習法を用いた。出力層での各ユニットの目標出力値
は、それぞれ、(1 ,0 ,0 ,0 ,0 )、(0 ,1 ,0
,0 ,0 )、(0 ,0 ,1 ,0 ,0 )、(0 ,0 ,0
,1 ,0 )、(0 ,0 ,0 ,0 ,1 )である。
【0036】(B)認識 次に、上記(A)で構築されたニューラルネットワーク
13を用いて、話者の同定を行なう。
【0037】音声入力部11にて採取された任意の発
声について、前処理部12において上記、と同様に
有声区間のパワーベクトルの系列を得る。
【0038】上記で得たベクトルをニューラルネッ
トワーク13に入力し、下記の出力ベクトルの系列を得
る。 {X1 、X2 …Xn } …(1) Xt =(Xt 1、…、Xt 5) …(2)
【0039】但し、上記(1) は全フレーム分の出力ベク
トルの系列を表わし、上記(2) は第tフレームについて
の出力ベクトルを表わす。上記(2)の出力ベクトルXt
において、Xt 1の値が他のXt 2〜Xt 5の値に比して大き
ければ、この出力ベクトルX t は、第tフレームの入力
に対する話者が第1話者〜第5者のうちの第1話者であ
ることを示唆する。
【0040】出力ベクトル演算部14は、上記の出
力ベクトルの系列を、以下の(a) 、(b) 、(c) の3手法
により総合的に判断し、入力音声がどの話者のものであ
るかを認識し、この認識結果を判定部15に表示する。
【0041】 (a) 各出力ベクトルXt sの積、即ちΠtt sが最大にな
る話者s (b) 各出力ベクトルXt sの和、即ちΣtt sが最大にな
る話者s (c) 各フレームの出力ベクトルの最大値max{X
t 1…、Xt 5}=Xt sをとり、この最大値をとった数が最
も多い話者s(各出力ベクトルXt sの多数決で選定した
話者s)
【0042】次に、上記第1実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間(1フレーム長25.6msec)スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク13へ入力する学
習動作により、ニューラルネットワーク13を構築し
た。この際に分析区間毎に有声/無声判定を行ない、有
声区間のみを入力に用いる。
【0043】学習により構築されたニューラルネットワ
ーク13を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した有声区間の
短時間スペクトルの概形を表わすベクトルを求め、この
ベクトルの系列をニューラルネットワーク13へ入力し
た。そして、当該入力に対するニューラルネットワーク
13からの出力ベクトルの系列を得た。この時、系列を
構成する各出力ベクトルは、それぞれが短時間の入力
(各フレーム毎の入力)に対する話者を示唆しており、
上記実施例では、出力ベクトル演算部14により、これ
を系列全体で、多数決、和、又は積にて総合的に判断す
ることにより、1つの話者認識結果を得た。
【0044】然るに、上記実施例によれば、下記〜
の作用効果がある。 学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分と対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワーク13にあっては、任意の発声中に内在す
る話者情報を良く捕捉できる。これにより、発声内容を
限定しない任意の入力音声に基づく話者認識を、短い発
声についても良好に実現できる。
【0045】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの1つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。
【0046】有声/無声判定により有声部のみを用い
るので、学習データ数が削減でき、ニューラルネットワ
ーク13の学習時間が短縮できる。
【0047】有声部のみを用いることにより対象音素
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。
【0048】(第2実施例)(図3参照) 話者認識装置20が前記話者認識装置10と異なる点
は、ニューラルネットワーク13と出力ベクトル演算部
14との間に出力ベクトル選択部14Aを備えているこ
とにある。尚、学習時には音声入力部11、前処理部1
2、有声/無声判定部13A、ニューラルネットワーク
13のみが用いられ、認識時には話者認識装置20の全
体が用いられる。
【0049】前記話者認識装置10にあっては、ニュー
ラルネットワーク13からの出力ベクトルの系列を、話
者認識のための総合的な判断材料とした。これに対し、
話者認識装置20にあっては、ニューラルネットワーク
13からの出力ベクトルのうち、予め設定したしきい値
にて選択された出力ベクトルの系列を、話者認識のため
の総合的な判断材料としたものである。
【0050】即ち、話者認識装置20の出力ベクトル選
択部14Aはニューラルネットワーク13において、前
述話者認識装置10の認識時に(B) の段階におけると
同様にして得られる全出力ベクトルXt のうち、構成要
素Xt i(i=1-5 )のどれが1つがしきい値θ1 以上で
あり、かつ残りの要素のすべてがしきい値θ2 以下であ
るような、出力ベクトルXt のみを選択する。
【0051】そして、出力ベクトル選択部14Aに続く
出力ベクトル演算部14は、出力ベクトル選択部14A
にて選択された出力ベクトルの系列を、前述話者認識装
置10の認識時に(B) の段階におけると同様にして総
合的に判断し、入力音声がどの話者のものであるかを認
識し、この認識結果を判定部15に表示するものであ
る。
【0052】次に、上記第2実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間(1フレーム長25.6msec)スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク13へ入力する学
習動作により、ニューラルネットワーク13を構築し
た。この際に分析区間毎に有声/無声判定を行ない、有
声区間のみを入力に用いる。
【0053】学習により構築されたニューラルネットワ
ーク13を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した有声区間の
短時間スペクトルの概形を表わすベクトルを求め、この
ベクトルの系列をニューラルネットワーク13へ入力し
た。そして、当該入力に対するニューラルネットワーク
13からの出力ベクトルの系列を得た。
【0054】然るに、上記第2実施例によれば、前記第
1実施例における前述〜の作用に加え、下記の作
用効果がある。
【0055】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定Xしたしきい
値θ1 、θ2 にて選択された出力ベクトルの系列であ
る。即ち、出力ベクトルのうちで信頼性の高いものを選
択したことにより、総合的な判断がより確実となり、認
識率を顕著に向上できる。
【0056】
【発明の効果】以上のように本発明によれば、発声内容
を限定しない入力音声に基づく話者認識方式において、
比較的短い発声で高い認識率を得るとともに、学習を軽
減することができる。
【図面の簡単な説明】
【図1】図1は本発明の第1実施例に用いられる話者認
識装置を示す模式図である。
【図2】図2は本発明の第2実施例に用いられる話者認
識装置を示す模式図である。
【図3】図3はニューラルネットワークを示す模式図で
ある。
【図4】図4は階層的なニューラルネットワークを示す
模式図である。
【図5】図5はユニットの構造を示す模式図である。
【符号の説明】
10 話者認識装置 11 音声入力部 12 前処理部 13 ニューラルネットワーク 13A 有声/無声判定部 14 出力ベクトル演算部 14A 出力ベクトル選択部 15 判定部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ニューラルネットワークを用いて話者認
    識を行なうに際し、入力音声から抽出した短時間スペク
    トルの概形を表わすベクトルの系列をニューラルネット
    ワークへの入力とし、当該入力に対するニューラルネッ
    トワークからの出力ベクトルの系列を、総合的に判断す
    ることにより話者認識を行なう話者認識方式であって、
    入力音声を分析区間毎に有声/無声判定し有声区間のみ
    をニューラルネットワークへの入力の対象区間にするこ
    とを特徴とする話者認識方式。
  2. 【請求項2】 前記総合的な判断が、各出力ベクトルの
    多数決、和、または積に基づいてなされる請求項1記載
    の話者認識方式。
  3. 【請求項3】 ニューラルネットワークを用いて話者認
    識を行なうに際し、入力音声から抽出した短時間スペク
    トルの概形を表わすベクトルの系列をニューラルネット
    ワークへの入力とし、当該入力に対するニューラルネッ
    トワークからの出力ベクトルのうち、予め設定したしき
    い値にて選択された出力ベクトルの系列を、総合的に判
    断することにより話者認識を行なう話者認識方式であっ
    て、入力音声を分析区間毎に有声/無声判定し有声区間
    のみをニューラルネットワークへの入力の対象区間にす
    ることを特徴とする話者認識方式。
  4. 【請求項4】 前記総合的な判断が、選択された各出力
    ベクトルの多数決、和、または積に基づいてなされる請
    求項3記載の話者認識方式。
JP3282843A 1991-10-29 1991-10-29 話者認識方式 Pending JPH05119799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3282843A JPH05119799A (ja) 1991-10-29 1991-10-29 話者認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3282843A JPH05119799A (ja) 1991-10-29 1991-10-29 話者認識方式

Publications (1)

Publication Number Publication Date
JPH05119799A true JPH05119799A (ja) 1993-05-18

Family

ID=17657795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3282843A Pending JPH05119799A (ja) 1991-10-29 1991-10-29 話者認識方式

Country Status (1)

Country Link
JP (1) JPH05119799A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4696418B2 (ja) * 2001-07-25 2011-06-08 ソニー株式会社 情報検出装置及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4696418B2 (ja) * 2001-07-25 2011-06-08 ソニー株式会社 情報検出装置及び方法

Similar Documents

Publication Publication Date Title
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN110992987B (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
AU685626B2 (en) Speech-recognition system utilizing neural networks and method of using same
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Lee et al. Isolated word recognition using modular recurrent neural networks
JPH064097A (ja) 話者認識方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
JP2564200B2 (ja) 話者認識方法
JPH05119799A (ja) 話者認識方式
Artières et al. Connectionist and conventional models for free-text talker identification tasks
Yuenyong et al. Real-Time Thai Speech Emotion Recognition With Speech Enhancement Using Time-Domain Contrastive Predictive Coding and Conv-Tasnet
JPH05119791A (ja) 話者認識方式
Utomo et al. Spoken word and speaker recognition using MFCC and multiple recurrent neural networks
Nair et al. Transfer learning for speech based emotion recognition
JP2515609B2 (ja) 話者認識方法
Jagtap et al. A survey on speech emotion recognition using MFCC and different classifier
JPH05313689A (ja) 話者認識方式
Nijhawan et al. A comparative study of two different neural models for speaker recognition systems
Zakaria et al. Speech Emotion Identification Using Linear Predictive Coding and Recurrent Neural