JPH05313689A - 話者認識方式 - Google Patents
話者認識方式Info
- Publication number
- JPH05313689A JPH05313689A JP4117379A JP11737992A JPH05313689A JP H05313689 A JPH05313689 A JP H05313689A JP 4117379 A JP4117379 A JP 4117379A JP 11737992 A JP11737992 A JP 11737992A JP H05313689 A JPH05313689 A JP H05313689A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- network
- series
- recognition method
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】 (修正有)
【目的】 発声内容を限定しない話者認識(特に話者照
合)において、比較的短い発声で高い認識率を得るこ
と。 【構成】 ニューラルネットワークを用いた話者認識方
式であって、短時間スペクトルの概形を表わすベクトル
の系列を入力し、ネットワーク出力の系列を、個々の出
力による認識結果の和、積、多数決等により総合し、そ
の結果を話者判定用しきい値と比較し、1つの認識結果
を得るようにしたものである。
合)において、比較的短い発声で高い認識率を得るこ
と。 【構成】 ニューラルネットワークを用いた話者認識方
式であって、短時間スペクトルの概形を表わすベクトル
の系列を入力し、ネットワーク出力の系列を、個々の出
力による認識結果の和、積、多数決等により総合し、そ
の結果を話者判定用しきい値と比較し、1つの認識結果
を得るようにしたものである。
Description
【0001】
【産業上の利用分野】本発明はニューラルネットワーク
を用いた話者認識方式(特に話者照合)に関する。
を用いた話者認識方式(特に話者照合)に関する。
【0002】
【従来の技術】通常、話者認識を行なう場合、予め学習
した発声内容についてのみ話者の認識を行なうものが多
く、発声内容を限定しない話者認識では、種々の音韻に
共通の話者情報を利用するため、ある程度長い発声が必
要であり、また、高い認識率も得にくい。更に学習時の
データ数が非常に多いため、学習に長時間を要してい
た。
した発声内容についてのみ話者の認識を行なうものが多
く、発声内容を限定しない話者認識では、種々の音韻に
共通の話者情報を利用するため、ある程度長い発声が必
要であり、また、高い認識率も得にくい。更に学習時の
データ数が非常に多いため、学習に長時間を要してい
た。
【0003】そこで本出願人は、既に発声内容を限定し
ない話者認識方式を提案している(特願平2-75633 「話
者認識方式」、特願平2-75634 「話者認識方式」、特願
平3-282843「話者認識方式」)。
ない話者認識方式を提案している(特願平2-75633 「話
者認識方式」、特願平2-75634 「話者認識方式」、特願
平3-282843「話者認識方式」)。
【0004】
【発明が解決しようとする課題】然しながら、本出願人
が既に提案している話者認識方式は、主として、話者が
ある限られた人の中の誰であるかを特定する(話者同定
と呼ぶ)技術に関するものであった。
が既に提案している話者認識方式は、主として、話者が
ある限られた人の中の誰であるかを特定する(話者同定
と呼ぶ)技術に関するものであった。
【0005】本発明は、発声内容を限定しない話者認識
(特に話者照合)において、比較的短い発声で高い認識
率を得ることを目的とする。
(特に話者照合)において、比較的短い発声で高い認識
率を得ることを目的とする。
【0006】また、本発明は、発声内容を限定しない話
者認識(特に話者照合)において、比較的短い発声で高
い認識率を得るとともに、学習を軽減することを目的と
する。
者認識(特に話者照合)において、比較的短い発声で高
い認識率を得るとともに、学習を軽減することを目的と
する。
【0007】
【課題を解決するための手段】請求項1に記載の話者認
識方式を説明する。先ず、学習用の音声から得た短時間
スペクトルの概形を用いて、ニューラルネットワークを
学習する。学習用の音声は、ある程度の長さの文章のす
べて、又は、文章中から選択した代表的な音素を用い
る。認識時は、任意の発声から上記と同じ短時間スペク
トルの概形を求め、その系列をネットワークに入力し、
ネットワーク出力の系列を得る。得られたネットワーク
の出力ベクトルは、それぞれが短時間の入力に対する話
者を示唆しており、これを系列全体で、和、積、多数決
等の総合的な判断を下すことによって、1つの認識結果
を得る。
識方式を説明する。先ず、学習用の音声から得た短時間
スペクトルの概形を用いて、ニューラルネットワークを
学習する。学習用の音声は、ある程度の長さの文章のす
べて、又は、文章中から選択した代表的な音素を用い
る。認識時は、任意の発声から上記と同じ短時間スペク
トルの概形を求め、その系列をネットワークに入力し、
ネットワーク出力の系列を得る。得られたネットワーク
の出力ベクトルは、それぞれが短時間の入力に対する話
者を示唆しており、これを系列全体で、和、積、多数決
等の総合的な判断を下すことによって、1つの認識結果
を得る。
【0008】請求項2に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声/無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しており、これを系列全体で、
和、積、多数決等の総合的な判断を下すことによって、
1つの認識結果を得る。
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声/無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しており、これを系列全体で、
和、積、多数決等の総合的な判断を下すことによって、
1つの認識結果を得る。
【0009】請求項3に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。学習
用の音声は、ある程度の長さの文章のすべて、又は、文
章中から選択した代表的な音素を用いる。認識時は、任
意の発声から上記と同じ短時間スペクトルの概形を求
め、その系列をネットワークに入力し、ネットワーク出
力の系列を得る。得られたネットワークの出力ベクトル
は、それぞれが短時間の入力に対する話者を示唆してい
るが、出力ベクトル選択用しきい値を設けて、この中で
信頼性の高い出力ベクトルのみを選択し、これらすべて
について、和、積、多数決等の総合的な判断を下すこと
によって、1つの認識結果を得る。
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。学習
用の音声は、ある程度の長さの文章のすべて、又は、文
章中から選択した代表的な音素を用いる。認識時は、任
意の発声から上記と同じ短時間スペクトルの概形を求
め、その系列をネットワークに入力し、ネットワーク出
力の系列を得る。得られたネットワークの出力ベクトル
は、それぞれが短時間の入力に対する話者を示唆してい
るが、出力ベクトル選択用しきい値を設けて、この中で
信頼性の高い出力ベクトルのみを選択し、これらすべて
について、和、積、多数決等の総合的な判断を下すこと
によって、1つの認識結果を得る。
【0010】請求項4に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声/無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しているが、出力ベクトル選択
用しきい値を設けて、この中で信頼性の高い出力ベクト
ルのみを選択し、これらすべてについて、和、積、多数
決等の総合的な判断を下すことによって、1つの認識結
果を得る。
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声/無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しているが、出力ベクトル選択
用しきい値を設けて、この中で信頼性の高い出力ベクト
ルのみを選択し、これらすべてについて、和、積、多数
決等の総合的な判断を下すことによって、1つの認識結
果を得る。
【0011】請求項5に記載の話者認識方式を説明す
る。これは話者に関する判定を行なう際に用いる話者判
定用しきい値を大小1つずつ設定するもので、2つのし
きい値θ1 、θ2 を用いることにより、ある話者に対応
した出力のみが活性化した(出力値が大きい)ときに、
話者は登録者であると判定するものである(図1参
照)。
る。これは話者に関する判定を行なう際に用いる話者判
定用しきい値を大小1つずつ設定するもので、2つのし
きい値θ1 、θ2 を用いることにより、ある話者に対応
した出力のみが活性化した(出力値が大きい)ときに、
話者は登録者であると判定するものである(図1参
照)。
【0012】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
【0013】(1)ニューラルネットワークは、その構造
から、図2(A)に示す階層的ネットワークと図2
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
から、図2(A)に示す階層的ネットワークと図2
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
【0014】(2)ネットワークの構造 階層的ネットワークは、図3に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
【0015】(3)ユニットの構造 ユニットは図4に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
【0016】(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には図4に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
い出力)に近づけることであり、一般的には図4に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
【0017】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
【0018】
【作用】請求項1に記載の認識方式においては 学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。
【0019】出力ベクトルの系列を総合的に判断する
ことにより、出力ベクトルの1つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。
ことにより、出力ベクトルの1つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。
【0020】請求項2に記載の話者認識方式においては 学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。
【0021】出力ベクトルの系列を総合的に判断する
ことにより、出力ベクトルの1つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。
ことにより、出力ベクトルの1つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。
【0022】有声/無声判定により有声部のみを用い
るので、学習データ数が削減でき、ニューラルネットワ
ークの学習時間が短縮できる。
るので、学習データ数が削減でき、ニューラルネットワ
ークの学習時間が短縮できる。
【0023】有声部のみを用いることにより対象音素
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。
【0024】更に、請求項3に記載の話者認識方式にお
いては 出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。
いては 出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。
【0025】更に、請求項4に記載の話者認識方式にお
いては 出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。
いては 出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。
【0026】更に、請求項5に記載の話者認識方式にお
いては 話者判定用しきい値を大小1つずつ設定することによ
り、より高精度に登録者・非登録者の判定が可能とな
り、認識率が向上する。
いては 話者判定用しきい値を大小1つずつ設定することによ
り、より高精度に登録者・非登録者の判定が可能とな
り、認識率が向上する。
【0027】
(第1実施例) 登録者 5名・非登録者25名について、学習用の短文
( 5秒程度)を、サンプリング周波数10kHz 、フレーム
長25.6msec、フレーム周期12.8msecでフーリエ分析し、
100 〜5000Hzの帯域で68ch(1/12 Oct. )のパワーベク
トルの系列を得る。
( 5秒程度)を、サンプリング周波数10kHz 、フレーム
長25.6msec、フレーム周期12.8msecでフーリエ分析し、
100 〜5000Hzの帯域で68ch(1/12 Oct. )のパワーベク
トルの系列を得る。
【0028】これらのベクトルをニューラルネットワ
ークの入力とし(入力層68ユニット、入力パターンは1
回の発声につきフレームの数だけ得られる)、登録者の
場合のみ対応する出力ユニットが活性化するように十分
学習する。
ークの入力とし(入力層68ユニット、入力パターンは1
回の発声につきフレームの数だけ得られる)、登録者の
場合のみ対応する出力ユニットが活性化するように十分
学習する。
【0029】任意の発声に対して、と同様にパワー
ベクトルの系列を得る。 これを、で学習したネットワークに入力し、出力ベ
クトルの系列 {x1 ,x2 ,…,xn } xt =(xt 1,…,xt 5) n:フレーム数 を得る。
ベクトルの系列を得る。 これを、で学習したネットワークに入力し、出力ベ
クトルの系列 {x1 ,x2 ,…,xn } xt =(xt 1,…,xt 5) n:フレーム数 を得る。
【0030】上記のベクトル系列に対し以下の3手
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。
【0031】(1) Σt xt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0032】(2) Πt xt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0033】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の最大値が、予め設定した話者判定用しきい値を
越えていれば登録者、そうでなければ非登録者
〜5 )の最大値が、予め設定した話者判定用しきい値を
越えていれば登録者、そうでなければ非登録者
【0034】また、上記の3手法のかわりに以下の手法
を用いても良い(請求項5に相当)。
を用いても良い(請求項5に相当)。
【0035】(1) Σt xt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0036】(2) Πt xt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0037】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の数の最大値が、予め設定した第1の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第2
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者
〜5 )の数の最大値が、予め設定した第1の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第2
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者
【0038】任意発声の一例として、学習用短文「明日
は東京に出ますのですみませんが留守にします。」に対
して、「ただいま」「こんにちは」「おはようございま
す」の3単語を用いて話者認識実験を行なったところ、
学習に用いた登録者 5名及び学習に用いていない非登録
者26名を完全に認識できた。
は東京に出ますのですみませんが留守にします。」に対
して、「ただいま」「こんにちは」「おはようございま
す」の3単語を用いて話者認識実験を行なったところ、
学習に用いた登録者 5名及び学習に用いていない非登録
者26名を完全に認識できた。
【0039】(第2実施例) 登録者 5名・非登録者25名について、学習用の文章
を、サンプリング周波数10kHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析し、100 〜5000Hz
の帯域で68ch(1/12 Oct. )のパワーベクトルの系列を
得る。
を、サンプリング周波数10kHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析し、100 〜5000Hz
の帯域で68ch(1/12 Oct. )のパワーベクトルの系列を
得る。
【0040】これらのベクトルについて、それぞれ周
波数特性の傾き等により有声区間か無声区間かを判定す
る。
波数特性の傾き等により有声区間か無声区間かを判定す
る。
【0041】の有声区間に対応するベクトルをニュ
ーラルネットワークの入力とし(入力層68ユニット)、
登録者の場合のみ対応する出力ユニットが活性化するよ
うに十分学習する。
ーラルネットワークの入力とし(入力層68ユニット)、
登録者の場合のみ対応する出力ユニットが活性化するよ
うに十分学習する。
【0042】任意の発声に対して、と同様に有声
区間のパワーベクトルの系列を得る。
区間のパワーベクトルの系列を得る。
【0043】これを、で学習したネットワークに入
力し、出力ベクトルの系列 {x1 ,x2 ,…,xn } Xt =(Xt 1,…,Xt 5) n:フレーム数 を得る。
力し、出力ベクトルの系列 {x1 ,x2 ,…,xn } Xt =(Xt 1,…,Xt 5) n:フレーム数 を得る。
【0044】上記のベクトル系列に対し以下の3手
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。
【0045】(1) Σt xt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0046】(2) Πt xt s(s=1 〜5 )の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者
【0047】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の数の最大値が、予め設定した話者判定用しきい
値を越えていれば登録者、そうでなければ非登録者
〜5 )の数の最大値が、予め設定した話者判定用しきい
値を越えていれば登録者、そうでなければ非登録者
【0048】また、上記の3手法のかわりに以下の手法
を用いても良い(請求項5に相当)。
を用いても良い(請求項5に相当)。
【0049】(1) Σt xt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0050】(2) Πt xt s(s=1 〜5 )の最大値のみ
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
が、予め設定した第1の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第2の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者
【0051】(3) max {xt 1,…,xt 5}=xt s(s=1
〜5 )の数の最大値が、予め設定した第1の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第2
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者
〜5 )の数の最大値が、予め設定した第1の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第2
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者
【0052】
【発明の効果】以上のように本発明によれば、発声内容
を限定しない話者認識(特に話者照合)において、比較
的短い発声で高い認識率を得ることができる。
を限定しない話者認識(特に話者照合)において、比較
的短い発声で高い認識率を得ることができる。
【0053】また、本発明によれば、発声内容を限定し
ない話者認識(特に話者照合)において、比較的短い発
声で高い認識率を得るとともに、学習を軽減することが
できる。
ない話者認識(特に話者照合)において、比較的短い発
声で高い認識率を得るとともに、学習を軽減することが
できる。
【図1】図1は話者判定用しきい値とネットワークの出
力値とを示す模式図である。
力値とを示す模式図である。
【図2】図2はニューラルネットワークを示す模式図で
ある。
ある。
【図3】図3は階層的なニューラルネットワークを示す
模式図である。
模式図である。
【図4】図4はユニットの構造を示す模式図である。
Claims (5)
- 【請求項1】 ニューラルネットワークを用いた話者認
識方式であって、短時間スペクトルの概形を表すベクト
ルの系列を入力し、ネットワーク出力の系列を、個々の
出力による認識結果の和、積、多数決等により総合し、
その結果を話者判定用しきい値と比較し、1つの認識結
果を得ることを特徴とする話者認識方式。 - 【請求項2】 請求項1に記載の話者認識方式であっ
て、入力音声を分析区間毎に有声/無声判定し、有声区
間のみをネットワーク入力の対象区間にすることを特徴
とする話者認識方式。 - 【請求項3】 ニューラルネットワークを用いた話者認
識方式であって、短時間スペクトルの概形を表すベクト
ルの系列を入力し、ネットワーク出力の系列から出力ベ
クトル選択用しきい値を用いて選択した出力ベクトルに
ついて、個々の出力による認識結果の和、積、多数決等
により総合し、その結果を話者判定用しきい値と比較
し、1つの認識結果を得ることを特徴とする話者認識方
式。 - 【請求項4】 請求項3に記載の話者認識方式であっ
て、入力音声を分析区間毎に有声/無声判定し、有声区
間のみをネットワーク入力の対象区間にすることを特徴
とする話者認識方式。 - 【請求項5】 請求項1〜4のいずれかに記載の話者認
識方式であって、話者判定用しきい値を大小1つずつ設
定することを特徴とする話者認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4117379A JPH05313689A (ja) | 1992-05-11 | 1992-05-11 | 話者認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4117379A JPH05313689A (ja) | 1992-05-11 | 1992-05-11 | 話者認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05313689A true JPH05313689A (ja) | 1993-11-26 |
Family
ID=14710196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4117379A Pending JPH05313689A (ja) | 1992-05-11 | 1992-05-11 | 話者認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05313689A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0707012A1 (en) | 1994-10-12 | 1996-04-17 | Shin-Etsu Chemical Co., Ltd. | Polymer scale deposition preventive agent |
JP2016509254A (ja) * | 2013-01-10 | 2016-03-24 | センソリー・インコーポレイテッド | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 |
-
1992
- 1992-05-11 JP JP4117379A patent/JPH05313689A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0707012A1 (en) | 1994-10-12 | 1996-04-17 | Shin-Etsu Chemical Co., Ltd. | Polymer scale deposition preventive agent |
JP2016509254A (ja) * | 2013-01-10 | 2016-03-24 | センソリー・インコーポレイテッド | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5950157A (en) | Method for establishing handset-dependent normalizing models for speaker recognition | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
JP3078279B2 (ja) | ニューラルネットワークとマルコフモデル認識技術を用いた音声認識の方法及び装置 | |
Melin et al. | Voice Recognition with Neural Networks, Type-2 Fuzzy Logic and Genetic Algorithms. | |
US5461697A (en) | Speaker recognition system using neural network | |
Mak et al. | Speaker identification using multilayer perceptrons and radial basis function networks | |
WO1995005656A1 (en) | A speaker verification system | |
KR100779242B1 (ko) | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 | |
Delacrétaz et al. | Text-prompted speaker verification experiments with phoneme specific MLPs | |
WO2021171956A1 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
JPH0540497A (ja) | 話者適応音声認識装置 | |
JP3876703B2 (ja) | 音声認識のための話者学習装置及び方法 | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
Brucal et al. | Female voice recognition using artificial neural networks and MATLAB voicebox toolbox | |
Okato et al. | Insertion of interjectory response based on prosodic information | |
JPH05313689A (ja) | 話者認識方式 | |
JPH0667698A (ja) | 音声認識装置 | |
JP2564200B2 (ja) | 話者認識方法 | |
Jayanna et al. | Limited data speaker identification | |
Artières et al. | Connectionist and conventional models for free-text talker identification tasks | |
JPH05313697A (ja) | 話者認識方式 | |
Sharma et al. | Text-independent speaker identification using backpropagation mlp network classifier for a closed set of speakers | |
JPH05119799A (ja) | 話者認識方式 | |
Wang et al. | Speaker verification and identification using gamma neural networks | |
Rajeswari et al. | Improved emotional speech recognition algorithms |