JP3090122B2 - 話者照合装置 - Google Patents

話者照合装置

Info

Publication number
JP3090122B2
JP3090122B2 JP10164721A JP16472198A JP3090122B2 JP 3090122 B2 JP3090122 B2 JP 3090122B2 JP 10164721 A JP10164721 A JP 10164721A JP 16472198 A JP16472198 A JP 16472198A JP 3090122 B2 JP3090122 B2 JP 3090122B2
Authority
JP
Japan
Prior art keywords
speaker
similarity
pattern
normalization
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10164721A
Other languages
English (en)
Other versions
JPH11352984A (ja
Inventor
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10164721A priority Critical patent/JP3090122B2/ja
Publication of JPH11352984A publication Critical patent/JPH11352984A/ja
Application granted granted Critical
Publication of JP3090122B2 publication Critical patent/JP3090122B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、話者認識装置に関
し、特に、類似度の正規化を用いた話者照合装置に関す
る。
【0002】
【従来の技術】話者認識は、話者が発声した文章などの
音声に含まれる特徴パラメータと、登録話者の特徴パラ
メータの標準パターンの類似度にとって本人であるか判
定する方法がよく用いられている。この話者認識におい
ては、登録時と照合時の周囲雑音差、回線特性差などが
認識性能を低下させることが問題となっている。
【0003】この問題を解決する方法として、例えば、
以下の刊行物、(1)(Aaron E. Rosenberg,Joel De
Long,Chin-Hui Lee,Biing-Hwang Juang,Frank K. S
oong: “The Use of Cohort Normalized Scores
for Speaker Verification”、ICSLP92、pp.599-602
(1992))(文献(1)という)、(2)(A.Higgins,
L.Bahler, and J.Porter: “Speaker Verification U
sing Randomized Phrase Prompting、Digital Sign
al Processing、1、pp.89-106(1991))(文献(2)
という)、(3)(Tomoko Matsui,Sadaoki Furui:
“Speaker Recognition Using Concatenated Phone
me Models”、ICSLP 92、 pp.603-606(1992))(文
献(3)という)等に、予め予め用意した話者の登録パ
ターンとの類似度を用いて本人の登録パターンとの類似
度を正規化する方法が提案されている。
【0004】これらの正規化方法は、登録時と照合時の
様々な環境差は、本人の登録パターンとの尤度と正規化
用話者の登録パターンとの尤度の増加に同様に作用する
と仮定し、本人の登録パターンとの尤度から正規化用話
者の登録パターンとの尤度を差し引くことによって、環
境差の影響を取り除くことができるという考えを基にし
ている。
【0005】文献(1)では、本人の音声登録時に本人
に近い音声を持つ話者を複数正規化用話者として選択し
ておき、照合時に入力パターンと本人の登録パターンと
の類似度をこれら正規化用話者の登録パターンとの類似
度により正規化を行っている。しかし、登録時の発声を
基にして正規化話者を選択するために、登録時と話者の
特徴や環境が大きくことなる場合には適切な正規化が行
えない、という問題がある。
【0006】一方、文献(2)、文献(3)では、照合時
に入力パターンを用いて正規化話者の選択しているた
め、このような問題はない。
【0007】
【発明が解決しようとする課題】図3を用いて、文献
(2)、(3)に記載の手法について説明する。個人
情,報入力部には名前あるいはID(識別情報)等の本人
を特定する情報が入力され、音声入力部202には音声
波形が入力される。
【0008】音声分析部203において、入力された音
声データは一定時間間隔で分析され短時間の音響的特徴
をあらわす特徴量の時系列である入力パターンに変換さ
れる。
【0009】本人類似度計算部205は、入力された個
人情報に対応する話者の登録パターンを話者登録パター
ン記憶部204から読みだし、入力パターンとの類似度
である本人類似度を計算する。
【0010】パターン類似度計算部209は、音声分析
部203からの入力パターンと正規化用話者登録パター
ン記憶部207に記憶されているすべての正規化用話者
登録パターンとの類似度を計算する。
【0011】正規化類似度計算部210は、パターン類
似度計算部209で計算された類似度を基に、正規化用
話者を選択し、選択された話者の類似度を基に正規化類
似度を計算する。
【0012】判定部211は、計算された本人類似度を
正規化類似度を用いて正規化し、正規化後、尤度を求
め、これを予め定められた閾値と比較することで、本人
として受理あるいは棄却の判定を行う。
【0013】この手法によれば、入力音声と正規化話者
選択用音声とが同じであるため、文献(1)の手法で問
題となる、話者、環境の異なりに影響されずに、適切な
類似度正規化が行える。
【0014】しかし、この方法は、照合時に、全ての正
規化用話者登録パターンと入力パターンとの類似度を計
算する必要があり、多数の正規化用話者を用いた場合、
計算量が増大し、実時間性を損ねてしまうという問題が
ある。
【0015】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、実時間性を損な
うこと無く照合時に正規化用話者の選択を行う話者照合
装置を提供することにある。
【0016】
【課題を解決するための手段】前記目的を達成する、本
願第1発明は、話者の名前あるいはID番号等の話者を特
定する個人情報を入力する個人情報入力手段と、音声を
入力する音声入力手段と、音声波形を一定時間間隔で分
析し短時間の音響的特徴をあらわす特徴量の時系列パタ
ーンである入力パターンへ変換する音声分析手段と、1
人以上の話者の登録パターンを記憶する話者登録パター
ン記憶部と、前記話者標準パターン記憶部から前記個人
情報に対応する話者の登録パターンを読みだし、前記入
力パターンとの類似度を計算する本人類似度計算手段
と、予め用意した多数の話者の音声から作成された不特
定話者音声認識用の話者および語彙に依存しない短時間
の音響的特徴量の集合を記憶する音響特徴量記憶部と、
予め用意した2人以上の正規化用話者の各登録パターン
として、前記音響特徴量記憶部に蓄えられた特徴量の中
で、各正規化用話者の登録パターンの短時間の音響的特
徴を表す特徴量に最も近い特徴量をあらわす指標の時系
列を記憶する正規化用話者登録パターン記憶部と、前記
入力パターンの各時刻の特徴量と前記音響的特徴量記憶
部に蓄えられているすべての特徴量との類似度を計算す
る音響類似度計算手段と、前記入力パターンと前記正規
化用話者との類似度を、前記音響類似度計算部で計算さ
れた類似度と、前記正規化用話者登録パターン記憶部に
蓄えられている各正規化用話者の指標の時系列を用いて
計算するパターン類似度計算手段と、前記パターン類似
度計算手段で計算された類似度を基に、1名以上の正規
化用話者を選択し、選択された正規化用話者の類似度か
ら正規化用類似度を求める正規化類似度計算手段と、前
記本人類似度を前記正規化類似度により正規化して正規
化後類似度を求め、別にさだめられる閾値と比較するこ
とにより、登録した本人として受理あるいは棄却する判
定手段と、を備えることを特徴とする。
【0017】また、本願第2の発明は、話者の名前ある
いはID番号等の話者を特定する個人情報を入力する個人
情報入力手段と、音声を入力する音声入力手段と、音声
波形を一定時間間隔で分析し短時間の音響的特徴をあら
わす特徴量の時系列パターンである入力パターンへ変換
する音声分析手段と、1人以上の話者の登録パターンを
記憶する話者登録パターン記憶部と、前記話者標準パタ
ーン記憶部から前記個人情報に対応する話者の登録パタ
ーンを読みだし、前記入力パターンとの類似度を計算す
る本人類似度計算手段と、予め用意した多数の話者の音
声から作成された不特定話者音声認識用の話者および語
彙に依存しない短時間の音響的特徴量の集合を記憶する
音響特徴量記憶部と、予め用意した2人以上の正規化用
話者の各登録パターンとして、各正規化用話者の音声の
短時間の音響的特徴をあらわす特徴量の時系列パターン
である第1の正規化用話者登録パターンと、前記音響特
徴量記憶部に蓄えられた特徴量の中で、第1の正規化用
話者登録登録パターンの短時間の音響的特徴を表す特徴
量に最も近い特徴量をあらわす指標の時系列である第2
の正規化用話者登録パターンを記憶する正規化用話者登
録パターン記憶部と、前記入力パターンの各時刻の特徴
量と前記音響的特徴量記憶部に蓄えられているすべての
特徴量との類似度を計算する音響類似度計算手段と、前
記入力パターンと前記正規化用話者との類似度を、前記
音響類似度計算手段で計算された類似度と、前記正規化
用話者登録パターン記憶部に蓄えられている各正規化用
話者の第2の正規化用話者登録パターンを用いて計算す
るパターン類似度計算手段と、前記パターン類似度計算
手段で計算された類似度を基に、1名以上の正規化用話
者を選択し、選択された正規化用話者の前記正規化用話
者登録パターン記憶部に記憶されている第1の正規化用
話者登録パターンと前記入力パターンとの類似度を計算
し、正規化用類似度を求める正規化類似度計算手段と、
前記本人類似度を前記正規化類似度により正規化して正
規化後類似度を求め、別にさだめられる閾値と比較する
ことにより、登録した本人として受理あるいは棄却する
判定手段と、を備えることを特徴とする。
【0018】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その好ましい一実施の形態にお
いて、話者の登録パターンとして短時間の音響的特徴を
あらわす特徴量の時系列パターン(図1の104)を蓄
え、音声が入力された際に、登録された話者の登録パタ
ーンとの類似度である本人類似度を計算する手段(図1
の105)と、入力された音声と、予め登録された正規
化用話者の登録パターンとの類似度を計算する手段(図
1の109)と、正規化に用いる話者を選択し正規化類
似度を計算する手段(図1の110)と、本人類似度を
正規化類似度で正規化した正規化後尤度を求め、予め定
められた閾値と正規化尤度を比較することで、登録され
た本人としての受理あるいは棄却を判定する手段(図1
の111)とを備えた話者認識装置に、複数人の話者の
音声から作成された不特定話者音声認識用の、話者およ
び語彙に依存しない、短時間の音響的特徴量の集合を記
憶する音響特徴量記憶部(図1の106)と、予め用意
した複数人の正規化用話者の各登録パターンとして、前
記音響特徴量記憶部に蓄えられた特徴量の中で、各正規
化用話者の登録パターンの短時間の音響的特徴を表す特
徴量に最も近い特徴量をあらわす指標の時系列を記憶す
る正規化用話者登録パターン記憶部(図1の107)
と、音声入力パターンの各時刻の特徴量と、前記音響的
特徴量記憶部に蓄えられている特徴量との類似度を算出
する音響類似度計算手段(図1の108)を備え、入力
パターンと正規化用話者の登録パターンとの類似度を算
出する手段は、前記入力パターンと正規化用話者の登録
パターンとの類似度を算出するに際して、音響類似度計
算手段で算出した音響的類似度と、予め登録された各正
規化用話者の指標の時系列を用いて算出する。
【0019】本発明の作用原理について説明する。上記
文献(2)、(3)等に記載の方法において、多数の正
規化用話者を用いた場合に実時間性が損なわれるのは、
入力パターンの各時刻の特徴量と、各正規化用話者の特
徴量との音響的類似度の計算量が増加することが主要因
である。
【0020】音響分析では、10ms(ミリ秒)程度毎
に数十個程度の特徴量へと変換する場合が多い。例えば
文献(1)では10ms毎に24個の特徴量を求めてい
る。この場合、正規化用話者数を100名、音声長を2
秒とした場合、特徴量の総数は48万個となる。
【0021】音響的類似度として、最も簡単なユークリ
ッド距離を用いた場合でも、各特徴量あたり1回の減算
と積算が必要であり、実時間すなわち10ms以内です
べての音響的特徴を計算するためには、1秒あたり96
0万回の演算が必要となる。
【0022】音響的類似度として分散を考慮したマハラ
ノビス距離や混合ガウス分布からの出力確率等を用いた
場合には、更に計算量が増加する。
【0023】音声認識における音響的類似度計算の演算
量低減手法として、「SPLIT法」と呼ばれる手法が、文
献(菅村他:“擬音韻標準パタンによる第語い単語音声
認識”、電子通信学会論文誌、J65-D,8,pp.1041-1048(1
983))(文献(4)という)に提案されている。
【0024】この文献(4)に記載される方法では、認
識対象単語の音響的特徴量をクラスタリングし、256
の擬音韻とよぶ音響的特徴量の集合を作成し、個々の認
識対象単語は、擬音韻の集合から各時刻の特徴量に最も
近いものを選択し、その指標の時系列として表現する。
【0025】認識の際の音響的特徴量は、この256の
擬音韻の集合とのみ計算すればよいため、計算量が少な
くてすむ。
【0026】同様にして、話者照合における入力パター
ンと正規化話者との類似度を求める際に、同様にして、
各正規化話者の登録パターンをクラスタリングすること
で、音響的特徴量の集合と、それらの特徴量の系列とし
て蓄える方法が考えられる。
【0027】あらかじめ有限個の発話内容しか許さない
話者照合装置であれば、このような方法でも可能である
が、文献(3)のように、単語よりも小さい音素、音節
といったサブワード単位を連結し、登録パターンを作成
する場合には、発話内容は無限となり、発話内容が変え
るたびに、クラスタリングを行い、特徴量の集合を変更
する必要が生じる。
【0028】また、多数の登録話者が存在する場合、そ
の登録音声の発話内容には、話者に共通に用いられる音
素が多数含まれることになるが、これらの音響的特徴量
が、各登録話者毎に別々に保持されるため、効率が悪く
なってしまう。
【0029】そこで、特徴量の集合として、不特定話者
の音声認識用の特徴量を用いる。ここで、「不特定話者
の音声認識用の特徴量」とは、音素や半音節等の単語よ
りも小さな認識単位であって、その連結によって、任意
の発話内容を表現可能なものに含まれる音響的特徴量を
いう。
【0030】このような不特定話者の音声認識用の特徴
量の集合は、話者および発話内容に依存していず、すべ
ての話者の音響的特徴を効率良く網羅的に表現してい
る、ものと考えられる。したがって、このような特徴量
の時系列によって登録パターンを作成することで、正規
化用話者や発話内容が変わった場合でも、精度良く、か
つ効率良く、正規化用話者登録パターンが表現可能とな
る。
【0031】そして、かかる構成により、音響的類似度
を効率良く計算することができるので、照合時に、多数
の正規化話者から話者を選択することを可能としてお
り、高い照合性能が得られる。
【0032】また音声認識用特徴量による近似が性能に
影響する懸念がある場合には、一旦、入力パターンと全
正規化用話者登録パターンとの類似度を計算し、その類
似度により正規化に用いる話者を選択し、その話者の近
似前の登録パターンとの尤度を計算することで、近似の
影響を避けることができる。
【0033】通常、正規化に用いる話者数は数名程度で
あるので、このようにしても実時間性を大きく損なうこ
とはない。むろん、近似前の登録パターンとの尤度を用
いて再度話者を選択することも可能である。
【0034】上での説明では、入力パターンおよび登録
パターンを短時間の音響的特徴の時系列としているが、
本発明は、登録パターンとして、隠れマルコフモデル
(HMM)や、その他のモデルを用いた場合にも適応可
能であり、また、パターン間の類似度計算を行う際の処
理量削減手法である、ビームサーチ手法等との併用も可
能である。以下実施例に即して詳細に説明する。
【0035】
【実施例】図1は、本発明の第1の実施例の構成を示す
図である。図1を参照すると、個人情報入力部101に
は、話者の名前あるいはID番号等の話者を特定する個人
情報が入力される。
【0036】音声入力部102には、照合に用いる音声
が入力される。
【0037】音声分析部103は、音声波形を一定時間
間隔で分析し短時間の音響的特徴をあらわす特徴量の時
系列パターンである入力パターンへ変換する。特徴量と
しては、例えば刊行物(古井著、「ディジタル音声処
理」、東海大学出版会)(文献(5)という)に記載さ
れている、FFT(高速フーリエ変換)分析、線形予測分
析等により得られるケプストラム、LPC(線形予測符号
化)係数、これらの時間変化量等が利用可能である。
【0038】話者登録パターン記憶部104にはあらか
じめ登録された1人以上の話者の登録パターンが記憶さ
れている。
【0039】本人類似度計算部105は、話者標準パタ
ーン記憶部104から個人情報入力部101に入力され
た個人情報に対応する話者の登録パターンを読みだし、
入力パターンとの類似度を計算する。
【0040】音響特徴量記憶部106には、あらかじめ
用意した多数の話者の音声から作成された、不特定話者
音声認識用の、話者および語彙に依存しない、短時間の
音響的特徴量の集合が記憶されている。
【0041】正規化用話者登録パターン記憶部107に
は、あらかじめ用意した2人以上の正規化用話者の各登
録パターンとして、音響特徴量記憶部106に蓄えられ
た特徴量の中で、各正規化用話者の登録パターンの短時
間の音響的特徴を表す特徴量に最も近い特徴量をあらわ
す指標の時系列が記憶されている。
【0042】音響類似度計算部108は、入力パターン
の各時刻の特徴量と、音響的特徴量記憶部106に蓄え
られているすべての特徴量との音響的類似度を計算す
る。
【0043】パターン類似度計算部109は、入力パタ
ーンと正規化用話者の登録パターンとの類似度を、音響
類似度計算部108で計算された音響的類似度と、正規
化用話者登録パターン記憶部107に蓄えられている各
正規化用話者の指標の時系列を用いて計算する。
【0044】正規化類似度計算部110は、パターン類
似度計算部109で計算された入力パターンと各正規化
用話者の登録パターンとの類似度を基に、1名以上の正
規化用話者を選択し、選択された正規化用話者の類似度
から正規化用類似度を求める。この選択において、例え
ば類似度の高い話者の上位5名を選択する、別に定める
閾値よりも高い類似度を持つ話者を選択する等、種々の
選択が可能である。
【0045】正規化用類似度を求めるに際して、例え
ば、選択された話者の類似度の最大値、中央値、算術平
均、幾何平均等を用いるが、これらに限らず用いる類似
度の性質により種々の操作を用いて選択された話者の類
似度の代表値を求めることが可能である。
【0046】判定部111は、本人類似度計算部105
で求められた本人類似度を正規化類似度計算部110で
計算された正規化類似度により正規化し正規化後類似度
を求め、予め定められた閾値と比較することにより、登
録した本人として受理あるいは棄却の判定を行う。正規
化の手法としては、環境差の影響が加法的に作用する類
似度を用いた場合には、差分を取り、乗法的に作用する
場合には、比を取るが、これらに限定されるものでな
く、環境差の影響の用いる類似度への作用を打ち消すよ
うな処理を行えばよい。
【0047】次に本発明の第2の実施例について説明す
る。図2は、本発明の第2の実施例の構成を示す図であ
る。図2を参照すると、個人情報入力部301には、話
者の名前あるいはID番号等の話者を特定する個人情報が
入力される。
【0048】音声入力部302には、照合に用いる音声
が入力される。
【0049】音声分析部303は、音声波形を一定時間
間隔で分析し短時間の音響的特徴をあらわす特徴量の時
系列パターンである入力パターンへ変換する。特徴量と
しては、例え上記文献(5)に記載されるFFT分析、線
形予測分析等により得られるケプストラム、LPC係数、
これらの時間変化量等が利用可能である。
【0050】話者登録パターン記憶部304には、あら
かじめ登録された1人以上の話者の登録パターンが記憶
されている。
【0051】本人類似度計算部305は、話者標準パタ
ーン記憶部304から個人情報入力部301に入力され
た個人情報に対応する話者の登録パターンを読みだし、
前記入力パターンとの類似度を計算する。
【0052】音響特徴量記憶部306には、予め用意し
た多数の話者の音声から作成された不特定話者音声認識
用の話者および語彙に依存しない短時間の音響的特徴量
の集合が記憶されている。
【0053】正規化用話者詳細登録パターン記憶部31
2には、予め用意した2人以上の正規化用話者の各登録
パターンとして、各正規化用話者の音声の短時間の音響
的特徴をあらわす特徴量の時系列パターンである第1の
正規化用話者登録パターンと、音響特徴量記憶部306
に蓄えられた特徴量の中で、第1の正規化用話者登録登
録パターンの短時間の音響的特徴を表す特徴量に最も近
い特徴量をあらわす指標の時系列である第2の正規化用
話者登録パターンを記憶している。
【0054】音響類似度計算部308は、入力パターン
の各時刻の特徴量と音響的特徴量記憶部306に蓄えら
れているすべての特徴量との音響的類似度を計算する。
【0055】パターン類似度計算部309は前記入力パ
ターンと前記正規化用話者の登録パターンとの類似度
を、音響類似度計算部308で計算された音響的類似度
と、正規化用話者詳細登録パターン記憶部313に蓄え
られている各正規化用話者の第2の正規化用話者登録パ
ターンを用いて計算する。
【0056】詳細正規化類似度計算部313は、パター
ン類似度計算部309で計算された入力パターンと各正
規化用話者の登録パターンとの類似度を基に、1名以上
の正規化用話者を選択し、正規化用話者登録パターン記
憶部307から選択された正規化用話者の第1の正規化
用話者登録パターンを読み出し、入力パターンとの類似
度を計算し詳細正規化類似度を計算する。選択にあた
り、例えば類似度の高い話者の上位5名を選択する、予
め定められる閾値よりも高い類似度を持つ話者を選択す
る等、種々の選択が可能である。正規化用類似度を求め
るに際して、例えば、選択された話者の類似度の最大
値、中央値、算術平均、幾何平均等を用いるが、これら
に限らず用いる類似度の性質により種々の操作を用いて
選択された話者の類似度の代表値を求めることが可能で
ある。
【0057】判定部311は、本人類似度計算部305
で求められた本人類似度を詳細正規化類似度計算部31
3で計算された正規化類似度により正規化し正規化後類
似度を求め、別にさだめられる閾値と比較することによ
り、登録した本人として受理あるいは棄却の判定を行
う。正規化の手法としては、環境差の影響が加法的に作
用する類似度を用いた場合には、差分を取り、乗法的に
作用する場合には、比を取るが、これらに限定されるも
のでなく、環境差の影響の用いる類似度への作用を打ち
消すような処理を行えばよい。
【0058】
【発明の効果】以上説明したように、本発明によれば、
不特定話者の音声認識用の特徴量の時系列によって登録
パターンを作成することにより照合性能を向上したもの
であり、このため、話者照合において実時間性を損なう
ことなく、照合時に多数の正規化用話者から正規化に用
いる話者を選択することができ、登録時と照合時の環境
が大きく異なる場合でも精度良く話者照合を行うことが
できる、という効果を奏する。
【図面の簡単な説明】
【図1】本発明の第1の実施例の構成を示す図である。
【図2】本発明の第1の実施例の構成を示す図である。
【図3】従来の装置の構成の一例を示す図である。
【符号の説明】
101 個人情報入力部 102 音声入力部 103 音声分析部 104 話者登録パターン記憶部 105 本人類似度計算部 106 音響特徴量記憶部 107 正規化用話者登録パターン記憶部 108 音響類似度計算部 109 パターン類似度計算部 110 正規化類似度計算部 111 判定部 201 個人情報入力部 202 音声入力部 203 音声分析部 204 話者登録パターン記憶部 205 本人類似度計算部 207 正規化用話者登録パターン記憶部 209 パターン類似度計算部 210 正規化類似度計算部 211 判定部 301 個人情報入力部 302 音声入力部 303 音声分析部 304 話者登録パターン記憶部 305 本人類似度計算部 306 音響特徴量記憶部 312 正規化用話者詳細登録パターン記憶部 308 音響類似度計算部 309 パターン類似度計算部 313 詳細正規化類似度計算部 311 判定部
フロントページの続き (56)参考文献 特開 昭63−213899(JP,A) 特開 平7−271392(JP,A) 特開 平6−95690(JP,A) 特開 平11−327586(JP,A) 特開 昭58−76893(JP,A) 特許2991148(JP,B2) 特公 平5−82957(JP,B2) 欧州特許出願公開964388(EP,A 2) 欧州特許出願公開858068(EP,A 2) Proceedings of Se cond International Conference on Spo ken Language,ICSLP ’92,A.E.Rosenberg e t al,”The Use of C ohort Normalized S cores for Speaker Verification”,p.599 −602,October 1992 Proceedings of Se cond International Conference on Spo ken Language,ICSLP ’92,T.Matsui et a l,”Speaker Recogni tion Using Concate nated Phoneme Mode ls”,p.603−606,October 1992 日本音響学会平成10年度春季研究発表 会講演論文集▲I▼,2−6−7,山田 栄子外「話者照合における連続音節認識 による登録パターン作成方法」p.67− 68(平成10年3月17日発行) 日本音響学会昭和61年度春季研究発表 会講演論文集,1−1−21,亘理誠夫外 「抑制標準パターンを用いた話者照合」 p.41−42(昭和61年3月発行) (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00 JICSTファイル(JOIS) IEEE/IEE Electroni c Library Online

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】話者の名前あるいはID番号等の話者を特
    定する個人情報を入力する個人情報入力手段と、 音声を入力する音声入力手段と、 音声波形を一定時間間隔で分析し短時間の音響的特徴を
    あらわす特徴量の時系列パターンである入力パターンへ
    変換する音声分析手段と、 1人以上の話者の登録パターンを記憶する話者登録パタ
    ーン記憶部と、 前記話者標準パターン記憶部から前記個人情報に対応す
    る話者の登録パターンを読みだし、前記入力パターンと
    の類似度を計算する本人類似度計算手段と、 予め用意した複数の話者の音声から作成された不特定話
    者音声認識用の話者および語彙に依存しない短時間の音
    響的特徴量の集合を記憶する音響特徴量記憶部と、 予め用意した複数人の正規化用話者の各登録パターンと
    して、前記音響特徴量記憶部に蓄えられた特徴量の中
    で、各正規化用話者の登録パターンの短時間の音響的特
    徴を表す特徴量に最も近い特徴量をあらわす指標の時系
    列を記憶する正規化用話者登録パターン記憶部と、 前記入力パターンの各時刻の特徴量と前記音響的特徴量
    記憶部に蓄えられているすべての特徴量との類似度を計
    算する音響類似度計算手段と、 前記入力パターンと前記正規化用話者との類似度を、前
    記音響類似度計算手段で計算された類似度と、前記正規
    化用話者登録パターン記憶部に蓄えられている各正規化
    用話者の指標の時系列を用いて計算するパターン類似度
    計算手段と、 前記パターン類似度計算手段で計算された類似度を基
    に、1名以上の正規化用話者を選択し、選択された正規
    化用話者の類似度から正規化用類似度を求める正規化類
    似度計算手段と、 前記本人類似度を前記正規化類似度により正規化して正
    規化後類似度を求め、予めさだめられた閾値と比較する
    ことにより、登録した本人として受理あるいは棄却する
    判定手段と、 を備えたことを特徴とする話者照合装置。
  2. 【請求項2】話者の名前あるいはID番号等の話者を特
    定する個人情報を入力する個人情報入力手段と、 音声を入力する音声入力手段と、 音声波形を一定時間間隔で分析し短時間の音響的特徴を
    あらわす特徴量の時系列パターンである入力パターンへ
    変換する音声分析手段と、 1人以上の話者の登録パターンを記憶する話者登録パタ
    ーン記憶部と、 前記話者標準パターン記憶部から前記個人情報に対応す
    る話者の登録パターンを読みだし、前記入力パターンと
    の類似度を計算する本人類似度計算手段と、 予め用意した多数の話者の音声から作成された不特定話
    者音声認識用の話者および語彙に依存しない短時間の音
    響的特徴量の集合を記憶する音響特徴量記憶部と、 予め用意した2人以上の正規化用話者の各登録パターン
    として、各正規化用話者の音声の短時間の音響的特徴を
    あらわす特徴量の時系列パターンである第1の正規化用
    話者登録パターンと、前記音響特徴量記憶部に蓄えられ
    た特徴量の中で、前記第1の正規化用話者登録パターン
    の短時間の音響的特徴を表す特徴量に最も近い特徴量を
    あらわす指標の時系列である第2の正規化用話者登録パ
    ターンと、を記憶する正規化用話者詳細登録パターン記
    憶部と、 前記入力パターンの各時刻の特徴量と前記音響的特徴量
    記憶部に蓄えられているすべての特徴量との類似度を計
    算する音響類似度計算手段と、 前記入力パターンと前記正規化用話者との類似度を、前
    記音響類似度計算手段で計算された類似度と、前記正規
    化用話者登録パターン記憶部に蓄えられている各正規化
    用話者の、第2の正規化用話者登録パターンを用いて計
    算するパターン類似度計算手段と、 前記パターン類似度計算手段で計算された類似度を基
    に、1名以上の正規化用話者を選択し、選択された正規
    化用話者の前記正規化用話者登録パターン記憶部に記憶
    されている第1の正規化用話者登録パターンと前記入力
    パターンとの類似度を計算し、正規化用類似度を求める
    詳細正規化類似度計算手段と、 前記本人類似度を前記正規化類似度により正規化して正
    規化後類似度を求め、予めさだめられた閾値と比較する
    ことにより、登録した本人として受理あるいは棄却する
    判定手段と、 を備えたことを特徴とする話者照合装置。
  3. 【請求項3】話者の登録パターンとして短時間の音響的
    特徴をあらわす特徴量の時系列パターンを蓄え、 音声が入力された際に、登録された話者の登録パターン
    との類似度である本人類似度を算出する手段と、 音声入力パターンと、予め登録された正規化用話者の登
    録パターンとのパターン類似度を算出する手段と、 正規化用話者を選択し該話者の類似度を基に正規化類似
    度を算出する手段と、 前記本人類似度を正規化類似度で正規化した正規化後尤
    度を求め、予め定められた閾値と該正規化尤度を比較す
    ることで、登録された本人として受理あるいは棄却する
    手段と、を含む話者認識装置において、 複数人の話者の音声から作成された、不特定話者の音声
    認識用の、話者および語彙に依存しない、短時間の音響
    的特徴量の集合を記憶する音響特徴量記憶部と、 予め用意した複数人の正規化用話者の各登録パターンと
    して、前記音響特徴量記憶部に蓄えられた特徴量の中
    で、各正規化用話者の登録パターンの短時間の音響的特
    徴を表す特徴量に最も近い特徴量をあらわす指標の時系
    列を記憶する正規化用話者登録パターン記憶部と、 音声入力パターンの各時刻の特徴量と、前記音響的特徴
    量記憶部に蓄えられている特徴量との音響的類似度を算
    出する手段と、をさらに含み、 前記パターン類似度を算出する手段が、音声入力パター
    ンと正規化用話者の登録パターンとの類似度を、前記算
    出された音響的類似度と、予め登録された、各正規化用
    話者の指標の時系列と、を用いて算出する、ことを特徴
    とする話者認識装置。
  4. 【請求項4】予め登録する複数人の正規化用話者の各登
    録パターンとして、各正規化用話者の音声の短時間の音
    響的特徴をあらわす特徴量の時系列パターンである第1
    の正規化用話者登録パターンと、前記音響特徴量記憶部
    に蓄えられた特徴量の中で、前記第1の正規化用話者登
    録パターンの短時間の音響的特徴を表す特徴量に最も近
    い特徴量をあらわす指標の時系列である第2の正規化用
    話者登録パターンを記憶を記憶手段に記憶しておき、 前記パターン類似度を算出する手段が、前記入力パター
    ンと前記正規化用話者との類似度を、前記音響類似度計
    手段で計算された音響的類似度と、前記記憶手段に蓄え
    られている各正規化用話者の第2の正規化用話者登録パ
    ターンを用いて計算し、 前記正規化類似度を算出する手段が、前記パターン類似
    度計算手段で計算された類似度を基に、1名以上の正規
    化用話者を選択し、選択された正規化用話者の前記記憶
    手段に記憶されている第1の正規化用話者登録パターン
    と前記入力パターンとの類似度を計算し、正規化用類似
    度を求める、ことを特徴とする話者認識装置。
JP10164721A 1998-06-12 1998-06-12 話者照合装置 Expired - Fee Related JP3090122B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10164721A JP3090122B2 (ja) 1998-06-12 1998-06-12 話者照合装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10164721A JP3090122B2 (ja) 1998-06-12 1998-06-12 話者照合装置

Publications (2)

Publication Number Publication Date
JPH11352984A JPH11352984A (ja) 1999-12-24
JP3090122B2 true JP3090122B2 (ja) 2000-09-18

Family

ID=15798639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10164721A Expired - Fee Related JP3090122B2 (ja) 1998-06-12 1998-06-12 話者照合装置

Country Status (1)

Country Link
JP (1) JP3090122B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003452A (ja) * 2004-06-15 2006-01-05 Asahi Kasei Corp 音声認証装置
WO2014112375A1 (ja) * 2013-01-17 2014-07-24 日本電気株式会社 話者識別装置、話者識別方法、および話者識別用プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Proceedings of Second International Conference on Spoken Language,ICSLP’92,A.E.Rosenberg et al,"The Use of Cohort Normalized Scores for Speaker Verification",p.599−602,October 1992
Proceedings of Second International Conference on Spoken Language,ICSLP’92,T.Matsui et al,"Speaker Recognition Using Concatenated Phoneme Models",p.603−606,October 1992
日本音響学会平成10年度春季研究発表会講演論文集▲I▼,2−6−7,山田栄子外「話者照合における連続音節認識による登録パターン作成方法」p.67−68(平成10年3月17日発行)
日本音響学会昭和61年度春季研究発表会講演論文集,1−1−21,亘理誠夫外「抑制標準パターンを用いた話者照合」p.41−42(昭和61年3月発行)

Also Published As

Publication number Publication date
JPH11352984A (ja) 1999-12-24

Similar Documents

Publication Publication Date Title
US11455995B2 (en) User recognition for speech processing systems
US11270685B2 (en) Speech based user recognition
US7231019B2 (en) Automatic identification of telephone callers based on voice characteristics
US7957959B2 (en) Method and apparatus for processing speech data with classification models
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US6571210B2 (en) Confidence measure system using a near-miss pattern
US6618702B1 (en) Method of and device for phone-based speaker recognition
Masuko et al. Imposture using synthetic speech against speaker verification based on spectrum and pitch
Sumithra et al. A study on feature extraction techniques for text independent speaker identification
Debnath et al. Text-dependent speaker verification system: A review
Jin et al. Overview of front-end features for robust speaker recognition
US20030036905A1 (en) Information detection apparatus and method, and information search apparatus and method
Wildermoth Text-independent speaker recognition using source based features
Pandey et al. Multilingual speaker recognition using ANFIS
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
Hamidi et al. Conception of speaker recognition methods: A review
Ghanty et al. On recognition of spoken Bengali numerals
Ranjan et al. Text-dependent multilingual speaker identification for indian languages using artificial neural network
Kumar et al. Multilingual speaker recognition using neural network
JP3092788B2 (ja) 話者認識用しきい値設定方法及びこの方法を用いた話者認識装置
JP3090122B2 (ja) 話者照合装置
Gunawardana et al. Word-based acoustic confidence measures for large-vocabulary speech recognition.
Ertaş Feature selection and classification techniques for speaker recognition
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
JP3113408B2 (ja) 話者認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000620

LAPS Cancellation because of no payment of annual fees