JPH09198086A - 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 - Google Patents
話者認識用しきい値設定方法及びこの方法を用いた話者認識装置Info
- Publication number
- JPH09198086A JPH09198086A JP8004508A JP450896A JPH09198086A JP H09198086 A JPH09198086 A JP H09198086A JP 8004508 A JP8004508 A JP 8004508A JP 450896 A JP450896 A JP 450896A JP H09198086 A JPH09198086 A JP H09198086A
- Authority
- JP
- Japan
- Prior art keywords
- model
- speaker
- threshold value
- value
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
更新時の更新用音声)が入力されると特徴パラメータの
時系列に変換され(S1 )、この時系列より音声のモデ
ル(HMM)が作成登録(又は更新)され(S2 )、詐
称者を本人以外の登録話者として、登録音声(又は更新
音声)を用いて話者認識実験を行い、本人棄却率と詐称
者受理率とが等しい値ε0 よりも、そのシステムの推定
される誤り率の上限値xだけ大きな詐称者受理率となる
しきい値φ1 とε0 のしきい値φ0とからφ′=wφ1
+(1−w)φ0 、w=2/(1+exp(0.25
t)(t=0,1,2,…,モデル更新回数)を計算し
て、φをしきい値として登録(又は更新)する
(S5 )。
Description
た音声により暗証番号の人と同一人であることを同定し
たりするために用いられ、入力音声を、特徴パラメータ
を用いた表現形式に変換し、その表現形式による入力音
声と、あらかじめ話者対応に登録された上記表現形式に
よる音声のモデルとの類似度を求めて、入力音声を発声
した話者を認識する話者認識方法における、話者の判定
に用いるしきい値の設定方法及びこの方法が適用された
話者認識装置に関する。
例としたその装置の機能構成を示す。まず話者の登録を
するが、各話者ごとに発声した文章などの音声(登録用
音声)が入力端子11より特徴パラメータ抽出手段12
に入力され、音声に含まれる特徴パラメータ(例えばケ
プストラム、ピッチなど)を用いた表現形式に変換さ
れ、この特徴パラメータの時系列に変換された登録用音
声データから、モデル作成手段13でその音声のモデ
ル、例えば隠れマルコフモデル(Hidden Markov Model:
HMM と記す。例えば複数のガウス分布の重み付き加算で
表現される)が作成される。HMMを作成する方法とし
ては、例えば文献「松井知子、古井貞煕:“VQ、離散
/連続HMMによるテキスト独立形話者認識法の比較検
討”、電子情報通信学会音声研究会資料、SP91−8
9、1991」に述べられている方法などを用いること
ができる。このようにして得られた話者ごとのHMMは
話者対応にモデル蓄積部14に登録される。
声が入力端子11から特徴パラメータ抽出手段12に入
力されて、特徴パラメータの時系列に変換され、この入
力音声の特徴パラメータの時系列は類似度計算手段15
でモデル蓄積部14に蓄えられた各話者のHMMとの類
似度が計算され、その計算結果は、話者認識判定手段1
6で、しきい値蓄積部17に蓄積されている、本人の声
とみなせる類似度の変動の範囲を考慮したしきい値と比
較され、そのしきい値より大きければ、その入力音声は
類似度計算に用いたHMMの登録話者の音声であると判
定され、しきい値より小さければその他の人の音声であ
ると判定され、この判定結果が出力される。
本人棄却率と詐称者受理率との二つの誤り率が考慮され
ていた。本人棄却率は全登録用音声のうち、本人の登録
用音声を用いた話者認識実験の結果から求められるもの
で、本人が誤って棄却される率を表し、詐称者受理率は
詐称者の音声を用いた話者認識実験の結果から求められ
るもので、詐称者が誤って受理される率を表している。
話者認識の目的によって、本人棄却率の方が詐称者受理
率よりも重要であったり、またその逆であったりする。
目的がはっきりしない場合には、ベイズの定理より、本
人棄却率と詐称者受理率が等しい、等誤り率を与える値
が最適なしきい値(等誤り率のしきい値)としていた。
図4Aに示すように、本人棄却率を示す曲線21はしき
い値を大きくするに従って大となる。一方、詐称者受理
率を示す曲線22はしきい値が大きくなるに従って減少
する。従来においては詐称者を本人以外の登録話者とし
て、全登録用音声を用いて、各モデル(HMM)との類
似度を計算して話者認識を行い、その際に、話者判定用
のしきい値を変化させ、つまり話者認識実験を行い、図
4Aに示した本人棄却率曲線21と詐称者受理率曲線2
2との交点、つまり両誤り率が等しい値ε0 となるしき
い値φ0 を求めてしきい値として設定し、即ち登録用音
声による等誤り率のしきい値を設定していた。
が発声内容の違い、発声変動などに対して十分に頑健で
ない場合は、本人のモデルとそれを作成する時に用いた
本人の音声(本人の登録用音声)との類似度は、本人の
モデルと本人が認識の際に発声する音声との類似度に比
べて、一般に大きいものとなる。従って、本人が認識の
際に発声する音声について、しきい値を変化させる本人
棄却率曲線を求めると、例えば図4Aの点線曲線23の
ように、本人の登録用音声を用いた本人棄却率曲線21
よりも棄却率が悪くなる、つまり同一しきい値に対して
棄却率が大きくなる。つまり登録用音声による等誤り率
のしきい値φ0 は、認識用音声による等誤り率のしきい
値φ 0 よりも大きな値となり、その結果、登録用音声に
よる等誤り率のしきい値φ0を認識に用いた場合には本
人棄却率が大きくなるという問題があった。
り多くないために、特に本人のモデルが発声内容の違
い、発声変動などに対して十分に頑健でない場合が多
く、本人棄却率を信頼性高く求められないことも問題で
あった。更に話者の声は発声の度に変動し、特に2〜3
カ月の単位で大きく変動する。この点から、高い認識性
能を維持するためには定時に各話者について、音声を発
声してもらい、そのモデルを更新することが望まれる。
このようにモデルの更新が行われると、本人棄却率特性
及び詐称者受理率特性も変化する。従ってモデル更新が
行われるとしきい値も再設定することが望ましい。
よれば、詐称者を本人以外の登録話者として、登録用音
声を用いて話者認識実験を行った時の等誤り率を与える
しきい値から所定値だけ差し引いた値をしきい値とす
る、つまり等誤り率のしきい値より、高めの詐称者受理
率を与える値に設定する。この高めの詐称者受理率は、
等誤り率のしきい値での詐称者受理率よりも、この話者
認識方法のシステム誤り率の上限程度だけ高いものであ
る。この構成により、頑健なモデルでなくても、本人棄
却率が大きくなり過ぎることはない。
の更新を行い、その更新ごとに、その更新用音声と更新
モデルとを用いて詐称者を本人以外の登録話者として、
話者認識実験を行った時の等誤り率のしきい値から、前
記所定値より小さくかつ更新回数に応じて小さくなる値
が差し引いた値を新たなしきい値とする。この構成によ
り、モデルの更新が行われるに従って発声内容の違いや
発声変動などに対して次第に頑健になり、かつその理想
的なモデルを用いた場合の認識用音声に対する理想的な
等誤り率のしきい値に、前記高めの詐称者受理率を与え
る値から漸近してゆくことになる。
を以下に示す。つまり次式に従ってしきい値φを設定す
る。 φ=wφ1 +(1−w)φ0 (1) ここでφ0 は詐称者を本人以外の登録話者として、登録
用音声を用いて話者認識実験を行った時の等誤り率のし
きい値、つまり最初に設定したしきい値を表し、φ1 は
詐称者受理率としきい値との関係(図4A)に基づい
て、詐称者受理率が{等誤り率ε0 +x}%(例えばx
=1%)になる値のしきい値を表す。この{等誤り率ε
0 +x}%は、その話者認識方法の性能から推定される
詐称者受理率(そのシステム推定誤り率)の上限に対応
している。wは話者のモデルの更新に合わせて、等誤り
率のしきい値にしきい値が漸近していく速度を制御する
パラメータで、例えば次式のように定義することができ
る。
2,…)を表し、この式は実験により求めた式である。
この式(1)、(2)によれば、t=0では話者認識装
置を作った時、あるいは、認識すべき話者を全て新らた
なものにした時であり、つまり登録用音声を用いた最初
に決定するしきい値であり、等誤り率しきい値φ0 より
Δφ(=φ0 −φ1 )だけ小さいしきい値に設定され
る。通常、モデルの更新回数が多くなるに従って、wが
小さくなり、Δφも小さくなってφ0 に近づく。なおφ
0 ,φ1 もモデル更新ごとに求められる。
おける処理順を示し、図2にこの発明の装置の実施例の
機能構成を図3と対応する部分に同一符号を付けて示
す。図2においてこの実施例では、登録時及びモデル更
新時の各入力音声の特徴パラメータの時系列が一時蓄積
される特徴パラメータ時蓄積部25、モデル更新指示が
あるとモデル蓄積部14内のモデル更新を行うモデル更
新手段26、更に登録時及びモデル更新時にしきい値を
計算してしきい値蓄積部17のしきい値を更新するしき
い値計算手段27が設けられる。
が入力されると、図1、図2に示すように特徴パラメー
タ抽出手段12で特徴パラメータの時系列に変換され
(S1)、登録時にはモデル作成手段13でその音声の
モデルが作成され、モデル更新時には、更新用音声の特
徴パラメータ時系列により、モデル蓄積部14内の対応
モデルの更新が行われる(S2 )。
登録用音声、更新用音声の各特徴パラメータ時系列を保
持しておき、それまでの全保持時系列と、新たに入力さ
れた更新用音声の時系列とを用いて新たにモデルを作成
してモデル蓄積部14内の対応モデルを更新する。ある
いは、モデルがHMMの場合、ベイズ推定により、更新
用音声の特徴パラメータの時系列Xの対応話者のHMM
に対する尤度f(X|1θ)と、それまでに発声された
音声の特徴を反映する事前確率密度関数g(θ)との積
が最大となるHMMのパラメータベクトルθを推定し、
そのθを新たなHMMとする。
には更新用音声を用いて等誤り率ε 0 及びそのしきい値
φ0 を計算する(S3 )。つまりこれら音声の特徴パラ
メータの時系列は特徴パラメータ時蓄積部25に一時蓄
積され、これらとモデル蓄積部14内の各モデルとの類
似度が類似度計算手段15でそれぞれ、計算され、これ
ら類似度に対し、話者認識判定手段16で各種のしきい
値に対し判定を行い、詐称者を本人以外の登録話者とし
て、登録用音声(又は更新用音声)を用いた話者認識実
験を行い、図4Aに示した本人棄却率曲線と詐称者受理
率曲線とを求め、両誤り率が等しい誤り率ε0 と、その
時のしきい値φ0 を求める。
与えるしきい値φ1 を求め(S4 )、新たなしきい値φ
をwφ1 +(1−w)φ0 を計算して求める(S5 )。
この新たなしきい値φを、しきい値蓄積部17内の対応
話者のしきい値とする。次にモデル更新回数tを+1し
て終了とする(S6 )。ステップS3 ,S4 ,S5 ,S
6 はしきい値計算手段27で行われる。
音声を用いたしきい値計算が行われ、その時の等誤り率
のしきい値を与える誤り率ε0 よりもx%だけ高い詐称
者受理率となるしきい値φ1 がしきい値として設定さ
れ、モデルが頑健でなくても、本人棄却率が大き過ぎる
ことはない。また、モデル更新が行われるごとにその都
度、その更新されたモデルについて、その更新用音声を
用い、かつ詐称者を本人以外の登録話者として、話者認
識実験が行われ、つまり頑健なものに近づいて来たモデ
ルについての等誤り率しきい値に近いものとなり、かつ
wが小さくなり、その理想的に近づいた等誤り率しきい
値との差が小となる、これより小さいしきい値が設定さ
れ、つまりモデル更新が繰り返される程、望ましいしき
い値となる。
例を述べる。実験は、男性20名が約15カ月に渡る5
つの時期(時期A、B、C、D、E)に発声した文章デ
ータ(1文章長は平均4秒)を対象とする。登録話者と
して男性10名、詐称者としてその他の男性10名を用
いた。これらの音声を、従来から使われている特徴量、
つまり、ケプストラムの短時間毎の時系列に変換する。
ケプストラムは標本化周波数12kHz、フレーム長3
2ms、フレーム周期8ms、LPC分析(Linear Pre
dictive Coding、線形予測分析)次数16で抽出した。
登録には、時期Aに発声した10文章を用いた。更新に
は、1回目の更新として時期Bに発声した10文章を用
い、2回目の更新として時期Cに発声した10文章を用
いた。テストでは、時期D、Eに発声した5文章を1文
章づつ用い、つまり時期A、B、Cによる各モデルがし
きい値について各5回づつテストを行った。なお、しき
い値の設定では、x=1%とした。
ば文献「松井知子、古井貞煕:“VQ、離散/連続HM
Mによるテキスト独立形話者認識法の比較検討”、電子
情報通信学会音声研究会資料、SP91−89、199
1」)の話者認識において試した。各話者のHMMは、
1状態が64個のガウス分布の重み付き加算(例えば文
献「松井知子、古井貞煕:“VQ、離散/連続HMMに
よるテキスト独立形話者認識法の比較検討”、電子情報
通信学会音声研究会資料、SP91−89、199
1」)で表した。
で評価した。その結果を図4Bに示す。従来法は、詐称
者を本人以外の登録話者として、全登録用音声を用いて
話者認識実験を行った時の等誤り率のしきい値による結
果を表す。これより、この発明方法は従来法と比べて、
高い性能を示すことがわかる。これらの結果より、この
発明方法は有効であることが実証された。
流れ図。
ク図。
図。
理率の関係を示す図、Bはこの発明の効果を説明するた
めの実験結果を示す図である。
Claims (4)
- 【請求項1】 入力音声を、特徴パラメータを用いた表
現形式に変換し、その表現形式による入力音声と、あら
かじめ話者対応に登録された上記表現形式による音声の
モデルとの類似度を求め、その類似度と話者判定用しき
い値とを比較して上記入力音声を発声した話者を認識す
る話者認識方法における上記しきい値を設定する方法に
おいて、 各話者の上記モデル登録の際に発声された音声と上記登
録モデルを用いて本人棄却率と詐称者受理率との二つの
誤り率を計算し、 これら計算された二つの誤り率が等しくなるしきい値よ
り所定値を差し引いた値に上記話者判定用しきい値を設
定することを特徴とする話者認識用しきい値設定方法。 - 【請求項2】 上記各話者に対するモデルを更新するご
とに、その更新されたモデルとその更新の際に発声され
た音声を用いて上記二つの誤り率を計算し、 これら計算された二つの誤り率が等しくなるしきい値よ
り、上記所定値より小さく、かつ前回よりも小さい値を
差し引いた値に上記話者判定用しきい値を更新すること
を特徴とする請求項1記載の話者認識用しきい値設定方
法。 - 【請求項3】 上記所定値を、上記話者認識方法自体の
誤り率の上限とほぼ等しい値とすることを特徴とする請
求項1又は2記載の話者認識用しきい値設定方法。 - 【請求項4】 入力音声が、特徴パラメータ抽出手段で
特徴パラメータを用いた表現形式に変換され、この表現
形式による入力音声のモデルがモデル作成手段により作
成されてモデル蓄積手段に蓄積される。また、上記特徴
パラメータ抽出手段で変換された表現形式の音声は類似
度計算手段で上記モデル蓄積手段内の各モデルとの類似
度が計算され、これら計算された類似度は、しきい値蓄
積部の本人の声とみなせる類似度の変動の範囲を示すし
きい値と話者認識判定手段で比較され、類似度の方が大
きければその本人の音声であり、小さければ他人の音声
であると判定される話者認識装置において、 モデル更新の指示があると、上記特徴パラメータ抽出手
段よりの特徴パラメータを用いた表現形式による入力音
声により、これと対応する話者の上記モデル蓄積部内の
モデルを更新するモデル更新手段と、 上記更新されたモデルについてその更新時の音声につい
ての本人棄却率と詐称者受理率とを計算し、これら棄却
率と受理率が等しくなるしきい値からわずかに小さな値
を差し引いた値に、上記しきい値蓄積部内の対応する話
者のしきい値を更新するしきい値計算手段と、 を具備することを特徴とするしきい値更新を伴う話者認
識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08004508A JP3092788B2 (ja) | 1996-01-16 | 1996-01-16 | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08004508A JP3092788B2 (ja) | 1996-01-16 | 1996-01-16 | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09198086A true JPH09198086A (ja) | 1997-07-31 |
JP3092788B2 JP3092788B2 (ja) | 2000-09-25 |
Family
ID=11586004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08004508A Expired - Lifetime JP3092788B2 (ja) | 1996-01-16 | 1996-01-16 | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3092788B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002044999A3 (de) * | 2000-11-29 | 2002-08-29 | Siemens Ag | Verfahren und vorrichtung zur ermittlung einer fehlerrate biometrischer einrichtungen |
WO2002091358A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method and apparatus for rejection of speech recognition results in accordance with confidence level |
US7039951B1 (en) | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
KR100819848B1 (ko) * | 2005-12-08 | 2008-04-08 | 한국전자통신연구원 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
JP2016053599A (ja) * | 2014-09-02 | 2016-04-14 | 株式会社Kddiテクノロジー | 通話装置、声紋データの判定基準更新方法およびプログラム |
JP2016053600A (ja) * | 2014-09-02 | 2016-04-14 | 株式会社Kddiテクノロジー | 通話装置、声紋データの判定結果通知方法およびプログラム |
JP2023546929A (ja) * | 2020-10-21 | 2023-11-08 | グーグル エルエルシー | 話者認識性能の査定 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014036786A (ja) * | 2012-08-20 | 2014-02-27 | Aisin Seiki Co Ltd | カバー交換可能マットレス |
-
1996
- 1996-01-16 JP JP08004508A patent/JP3092788B2/ja not_active Expired - Lifetime
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039951B1 (en) | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
WO2002044999A3 (de) * | 2000-11-29 | 2002-08-29 | Siemens Ag | Verfahren und vorrichtung zur ermittlung einer fehlerrate biometrischer einrichtungen |
WO2002091358A1 (en) * | 2001-05-08 | 2002-11-14 | Intel Corporation | Method and apparatus for rejection of speech recognition results in accordance with confidence level |
KR100819848B1 (ko) * | 2005-12-08 | 2008-04-08 | 한국전자통신연구원 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
JP2016053599A (ja) * | 2014-09-02 | 2016-04-14 | 株式会社Kddiテクノロジー | 通話装置、声紋データの判定基準更新方法およびプログラム |
JP2016053600A (ja) * | 2014-09-02 | 2016-04-14 | 株式会社Kddiテクノロジー | 通話装置、声紋データの判定結果通知方法およびプログラム |
JP2023546929A (ja) * | 2020-10-21 | 2023-11-08 | グーグル エルエルシー | 話者認識性能の査定 |
Also Published As
Publication number | Publication date |
---|---|
JP3092788B2 (ja) | 2000-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3719798B1 (en) | Voiceprint recognition method and device based on memorability bottleneck feature | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
EP2713367B1 (en) | Speaker recognition | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
Munteanu et al. | Automatic speaker verification experiments using HMM | |
Furui | Speaker recognition | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
Pandey et al. | Multilingual speaker recognition using ANFIS | |
Devi et al. | Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn | |
JPH09198086A (ja) | 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置 | |
Reynolds et al. | Automatic language recognition via spectral and token based approaches | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
Furui | Speaker recognition in smart environments | |
Chakroun et al. | An improved approach for text-independent speaker recognition | |
Singh et al. | Features and techniques for speaker recognition | |
Olsson | Text dependent speaker verification with a hybrid HMM/ANN system | |
Gonzalez-Rodriguez et al. | Speaker recognition the a TVS-UAM system at NIST SRE 05 | |
Mittal et al. | Age approximation from speech using Gaussian mixture models | |
JPH07271392A (ja) | 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置 | |
JPH09198084A (ja) | モデル更新を伴う話者認識方法及びその装置 | |
Fakotakis et al. | A continuous HMM text-independent speaker recognition system based on vowel spotting. | |
Ali et al. | Voice Reminder Assistant based on Speech Recognition and Speaker Identification using Kaldi | |
JPH05323990A (ja) | 話者認識方法 | |
Campbell et al. | A computationally scalable speaker recognition system | |
Fakotakis et al. | Text-independent speaker recognition based on vowel spotting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070728 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080728 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080728 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090728 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090728 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100728 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100728 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110728 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120728 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130728 Year of fee payment: 13 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |