JP2991288B2 - 話者認識装置 - Google Patents

話者認識装置

Info

Publication number
JP2991288B2
JP2991288B2 JP9016197A JP1619797A JP2991288B2 JP 2991288 B2 JP2991288 B2 JP 2991288B2 JP 9016197 A JP9016197 A JP 9016197A JP 1619797 A JP1619797 A JP 1619797A JP 2991288 B2 JP2991288 B2 JP 2991288B2
Authority
JP
Japan
Prior art keywords
speaker
similarity
speakers
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP9016197A
Other languages
English (en)
Other versions
JPH10214096A (ja
Inventor
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP9016197A priority Critical patent/JP2991288B2/ja
Priority to CA002227679A priority patent/CA2227679C/en
Priority to EP98101318A priority patent/EP0856835A3/en
Publication of JPH10214096A publication Critical patent/JPH10214096A/ja
Application granted granted Critical
Publication of JP2991288B2 publication Critical patent/JP2991288B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声を用いて本人の
認識、認証を行なう話者認識装置に関するものである。
【0002】
【従来の技術】音声から個人性情報を抽出し話者の認識
を行なう技術は、未知話者がある登録話者と同一人物で
あるかを照合する話者照合と、未知話者が複数の登録話
者の誰であるかを識別する話者識別(話者同定)とに大
別される。
【0003】まず図5を用いて前記話者照合について説
明する。入力端子301には未知話者の音声が入力され
る。音声分析部302は入力された音声を音響分析し、
特徴パラメータの時系列である入力パターンを作成す
る。個人情報入力端子305には話者名あるいは話者I
D等の話者を特定するための情報が入力される。話者標
準パターン記憶部303は各登録話者の標準パターンが
登録されている。類似度計算部304は個人情報入力端
子305に入力された情報により特定される話者の標準
パターンを話者標準パターン記憶部303から読みだ
し、入力パターンとの類似度を計算する。判定部307
は求められた類似度をあらかじめ定められた閾値と比較
し、類似度が閾値よりも高ければ本人として受理、そう
でなければ詐称者として棄却と判定を行ない、出力端子
308へ結果を出力する。
【0004】話者照合は未知話者の音声とある登録され
た話者の標準パターンとの類似度が種々の外乱(経時変
化、周囲雑音、回線特性等)のために影響を受けるた
め、本人/他人を区別する閾値の設定が困難であるとい
う問題がある。そのために種々の類似度の補正方法が提
案されている。例えばコホート正規化とよばれる類似話
者の類似度を用いて尤度を補正する方法(Rosenb
urg,“The usc of cohort no
rmalized scores for speak
er recognition”,Proceding
s of ICSLP2,pp.599−602、以下
文献1と呼ぶ)が知られている。しかし、その性能はま
だ十分なものではなく、類似話者の選択方法や補正方法
など検討が行なわれている。
【0005】次に図6を用いて前記話者識別について説
明する。入力端子401には未知話者の音声が入力され
る。音声分析部402は入力された音声を音響分析し、
特徴パラメータの時系列である入力パターンを作成す
る。話者標準パターン記憶部403は各登録話者の標準
パターンが登録されている。類似度計算部404は話者
標準パターン記憶部403から全話者の標準パターンを
読みだし、入力パターンとの類似度を計算する。判定部
407は計算された類似度の中で最も大きい類似度を与
える話者として未知話者を識別し、出力端子408へ結
果を出力する。
【0006】話者識別では最も類似した話者を選択する
手法であるため、閾値の設定、尤度の補正等は必要な
い。しかし、登録話者が増えた場合に、処理時間がそれ
に比例して増える、類似した話者の存在する割合が増加
するために同定性能が低下してしまう等の問題が存在
し、大規模の登録話者がある場合には話者同定を用いる
ことは困難であった。また、逆に登録話者が少ない場合
に生じる問題もある。例えば、登録話者が男女各1名で
ある場合には、同性の話者によって容易に詐称されてし
まう。
【0007】
【発明が解決しようとする課題】上記した話者照合及び
話者識別の従来技術によれば、前記話者照合の場合には
未知話者の音声とある登録された話者の標準パターンと
の類似度が種々の外乱(経時変化、周囲雑音、回線特性
等)のために影響を受けるため、本人/他人を区別する
閾値の設定が困難であるという問題があり、種々の類似
度の補正方法が提案されているが、その性能はまだ十分
なものではない。
【0008】又、前記話者識別の場合には、登録話者が
増えた場合に、処理時間がそれに比例して増え、類似し
た話者の存在する割合が増加するために同定性能が低下
してしまう等の問題が生じ、大規模の登録話者がある場
合には話者同定を用いることは困難であった。また、逆
に登録話者が少ない場合にも、例えば、登録話者が男女
各1名である場合には、同性の話者によって容易に詐称
されてしまう。
【0009】本発明の目的は、話者識別と話者照合を組
み合わせることで、大規模の登録話者が存在し、かつ、
種々の外乱が存在する場合にも高い認識性能をもつ話者
認識方式を提供することである。
【0010】
【課題を解決するための手段】本発明の第一の構成は、
音声を入力する入力部と、入力音声波形を分析し特徴量
を抽出して入力パターンへ変換する音声分析部と、一つ
の節はそれにつながる下位の節の音響的特徴を代表する
パターンを有するような木構造で、各話者の標準パター
ンを葉に持つ木構造をした複数話者の標準パターンを蓄
える木構造話者標準パターン記憶部と、前記入力パター
ンと木構造話者標準パターンとの類似度を根から葉に向
かって計算する場合に、類似度の高い節についてのみ下
位階層の節の類似度計算を行ない、類似度の低い節の下
位階層の節についてはその上位の節の類似度を用いるこ
とで全話者に対する類似度を求める類似度計算部と、話
者の名前あるいID番号等の話者を特定する情報を入力
する個人情報入力部と、前記入力された名前あるいはI
D番号等で示される話者の類似度が前記類似度計算部で
計算された全話者の類似度の大きい順に何番目であるか
を順位計算部と、前記順位計算部求められた順位が、あ
らかじめ定められた順位内である場合本人であると判定
する判定部とを備えることを特徴とする。
【0011】また、本発明の第二の構成は、前記第一の
構成の話者認識装置において、前記全話者に対する類似
度中最も高い類似度からある一定の類似度の範囲内にあ
る話者数を求める計数部を備え、前記判定部は前記順位
計算部で求められた順位が、前記計数部で求められた話
者数よりも上である場合に本人であると判定することを
特徴とする。
【0012】また、本発明の第三の構成は、前記第一お
よび前記第二の構成の話者認識装置において、前記木構
造話者標準パターンには登録話者の標準パターンだけで
なく、登録話者以外の標準パターンをも含むことを特徴
とする。
【0013】
【作用】本発明は登録話者を音響的類似度により各話者
を葉としてもつ木構造に配置し、話者認識時にこの木構
造を根から葉へ高速に探索することで類似度の高い話者
N人の類似度を高速に求めると同時に、未知話者が名乗
る話者の標準パターンとの類似度をも求め、これらを用
いて話者認識を行なうものである。これにより、登録話
者が増えた場合でも実時間性を保ち、かつ、精度の高い
話者認識装置を実現できる。図3は本発明で用いる木構
造話者標準パターンである。ここでは3つの下位節を持
つ節が5層ある場合を示している。この場合、総話者数
は3の(5−1)乗=81である。
【0014】図3において葉である節(n(5,1),
n(5,2)等)は各登録話者の標準パターンである。
蓄える標準パターンは類似度計算方法に依存しする。例
えば、DPマッチングであれば、登録話者の発声した音
響パラメータの時系列を蓄え、HMMであれば登録話者
音声を用いて学習されたHMMパラメータである。ま
た、パターンの発声内容は文、単語のように発声内容が
固定したものでもよいし、音節や音素のようにそれらの
連結で文、単語を構成できるような単位でもよい。
【0015】葉より上位の節(例えばn(4,1))は
それぞれの節の下位の節(例えば、n(5,1)、n
(5,2)およびn(5,3))が持つ各標準パターン
の音響的特徴を代表する標準パターンを持つ。各節の標
準パターンは、例えば、下位の節中から他の節との類似
度の総和が最も小さい節を選択し、その節のもつ標準パ
ターンを用いる方法や、下位の節の持つ標準パターンを
平均化して作成する方法や、各節の標準パターンを作成
するのに用いた音声データから作成する方法を用いるこ
とができる。
【0016】照合時には入力パターンと各節との類似度
を根(図中、n(1,1))から葉へ向かって類似度を
計算する。この際、すべての節に対して類似度を計算す
るのではなく、類似度の高い節の下位の節のみについて
類似度の計算を行なうことで高速に類似度を計算する。
類似度計算が行なわれなかった節の入力パターンとの類
似度は上位節の類似度を用いる。図4にこの様子を示
す。図において黒丸で示されているのは類似度が計算さ
れている節、白丸は類似度が計算されていない節をしめ
す。類似度が計算されていない節、例えば図4のn
(5,5)についてはその上位節であるn(4,3)の
類似度を用いて近似する。
【0017】各節がM個の下位節をもつN層の木構造に
おいて、類似度を計算した節の上位L個の節について類
似度計算を行なう場合、処理する節数はM+L×N×
(N−2)である。例えば10000人の話者が各節が
10個の下位節をもつ5層の木構造として表されている
木構造標準パターンにおいて、各節の上位3位まで類似
度計算を行なうものとすれば、10+3×10×(5−
2)=100個の節について処理を行なえばよく、10
0/10000=1%の処理量で全話者に対する尤度を
求めることができる。
【0018】類似度を計算する節はあらかじめ個数Lを
定めておくことも可能であるし、求められている類似度
中最も大きい類似度から別に定める閾値の範囲内にある
類似度を持つ節としても良い。
【0019】このような木構造化された話者標準パター
ンを用いて高速に入力話者と類似した話者を選択するも
のとして、小坂他、「話者適応のための木構造話者クラ
スタリング」、電子情報通信学会技術報告SP93−1
10,pp.49−54.1993.12、(以下文献
2と呼ぶ)が知られている。前記文献2は音声認識を行
なうにあたって、入力話者の音声にもっとも類似した話
者を複数の話者から選択することで、音声認識性能を向
上させるものである。この方法を話者識別(同定)に用
いることで、登録話者が増えても処理量の増加しない話
者識別(同定)装置が実現できる。しかし、登録話者数
増加による登録話者と非常に類似した話者の存在により
話者識別率が低下してしまう問題の解決にはならない。
【0020】そこで、未知話者が音声、キーボード、タ
ッチパネル等で入力した名前あるいはID番号等から、
未知話者が称する話者を特定し、上で求められた全話者
の類似度中未知話者が称する話者の類似度の順位を求
め、定められる順位以内であれば本人として受理、そう
でなければ詐称者として棄却する。
【0021】これは話者照合における類似度による判定
を順位による判定に置き換えたことに相当する。この場
合、閾値による判定と順位による判定のどちらが周囲雑
音等の外乱に対して安定かということが問題となるが、
周囲雑音等の外乱による類似度への影響は各話者の類似
度に対して同様に現れると考えられており、話者順位に
よる受理/棄却判定は類似度そのものによる判定よりも
外乱に対して安定であると考えられる。例えば、前記文
献1のコホートによる類似度の正規化も周囲雑音等の外
乱による類似度への影響が各話者の類似度に対して同様
に現れることを利用している。
【0022】上の受理/棄却の判定を行なう順位は登録
話者数や登録話者中の音響的に類似した話者の割合等に
よりあらかじめ決定することができる。例えば、登録話
者数の上位1%内としたり、登録話者同士の登録音声に
よる話者同定実験による平均順位を基に定めることが可
能である。
【0023】あるいは、受理/棄却の判定を行なう順位
は全話者の類似度中もっとも類似度の高い話者からある
類似度の範囲内にある話者数を求め、この話者数を順位
として用いることも可能である。
【0024】本発明においては前述の登録話者が少ない
場合の問題に対しては、登録話者以外の話者をある程度
の規模で登録しておくことで回避できる。従来の話者識
別(同定)では処理量面からこのような方法で対処する
ことは困難であったが、本発明では上で述べたように登
録話者の多くても処理量は少ないため、受理すべき登録
話者以外の話者を登録することにより容易にこの問題を
回避できる。この登録話者以外の話者の標準パターンは
個々の話者の標準パターンである必要はなく、複数の話
者の特徴をもつ標準パターンを用いることもできる。た
とえば、先の男女各一名が登録話者であるような場合に
は男性用標準パターン、女性用標準パターンを登録する
ことで十分対処可能である。
【0025】
【発明の実施の形態】以下、本発明の第1の実施の形態
について図1を参照して説明する。図1に本発明の第1
の実施の形態を示す。入力端子101には音声が入力さ
れる。分析部102は入力音声データを例えば15ms
毎に音響分析を行ない、音響的特徴を表す音声パワーを
含む特徴ベクトル系列に変換する。特徴ベクトルとして
は、例えば、古井著の「ディジタル音声処理」(東海大
学出版会、以下文献3と呼ぶ)にあげられているFFT
分析、線形予測分析等により得られるケプストラム、L
PC係数、これらの時間変化量等が利用可能である。
【0026】木構造話者標準パターン記憶部103は一
つの節はそれにつながる下位の節の音響的特徴を代表す
るパターンを有するような木構造で、各話者の標準パタ
ーンを葉に持つ木構造をした複数話者の標準パターンを
蓄えている。
【0027】葉として蓄える標準パターンとしては受理
対象である話者の標準パターンだけでなく、受理対象以
外の話者の標準パターンや、複数の話者の特徴をもつ標
準パターンを蓄える。
【0028】類似度計算部104は前記入力パターンと
木構造話者標準パターンとの類似度を根から葉に向かっ
て計算する場合に、類似度の高い節についてのみ下位階
層の節の類似度計算を行ない、類似度の低い節の下位階
層の節についてはその上位の節の類似度を用いることで
全話者に対する類似度を求める。
【0029】話者情報端子105には話者の名前あるい
ID番号等の話者を特定する情報が入力される。順位計
算部106は話者情報端子105から入力された情報に
より特定された話者の類似度が前記類似度計算部で計算
された全話者の類似度の大きい順に何番目であるかを求
める。
【0030】判定部107は順位計算部106で求めら
れた順位が、あらかじめ定められた順位内である場合本
人として、そうでない場合には詐称者として判定を行な
い、その結果を出力端子108へ出力する。
【0031】次に、本発明の第2の実施の形態について
図2を参照して説明する。図2に本発明の第2の実施の
形態を示す。入力端子201には音声が入力される。分
析部202は入力音声データを例えば15ms毎に音響
分析を行ない、音響的特徴を表す音声パワーを含む特徴
ベクトル系列に変換する。特徴ベクトルとしては、文献
3にあげられているFFT分析、線形予測分析等により
得られるケプストラム、LPC係数、これらの時間変化
量等が利用可能である。
【0032】木構造話者標準パターン記憶部203は一
つの節はそれにつながる下位の節の音響的特徴を代表す
るパターンを有するような木構造で、各話者の標準パタ
ーンを葉に持つ木構造をした複数話者の標準パターンを
蓄えている。葉として蓄える標準パターンとしては受理
対象である話者の標準パターンだけでなく、受理対象以
外の話者の標準パターンや、複数の話者の特徴をもつ標
準パターンを蓄える。類似度計算部204は前記入力パ
ターンと木構造話者標準パターンとの類似度を根から葉
に向かって計算する場合に、類似度の高い節についての
み下位階層の節の類似度計算を行ない、類似度の低い節
の下位階層の節についてはその上位の節の類似度を用い
ることで全話者に対する類似度を求める。
【0033】話者情報端子205には話者の名前あるい
はID番号等の話者を特定する情報が入力される。順位
計算部206は話者情報端子205から入力された情報
により特定された話者の類似度が前記類似度計算部で計
算された全話者の類似度の大きい順に何番目であるかを
求める。計数部209は類似度計算部204で求められ
た全話者に対する類似度の中で最も高い類似度からある
一定の類似度の範囲内にある話者数を求める。判定部2
07は順位計算部206で求められた順位が、計数部2
09で求められた話者数よりも順位が上である場合本人
として、そうでない場合には詐称者として判定を行な
い、その結果を出力端子208へ出力する。
【0034】
【発明の効果】本発明によれば、少ない処理量で登録話
者数の増加に対応でき、種々の外乱が存在する場合でも
精度の高い話者認識装置が実現できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態を示した図である。
【図2】本発明の第2の実施の形態を示した図である。
【図3】本発明で用いる木構造話者標準パターンを示し
た図である。
【図4】本発明で用いる木構造話者パターンを示した図
である。
【図5】従来例の説明図である。
【図6】従来例の説明図である。
【符号の説明】
101 入力端子 102 分析部 103 木構造話者標準パターン記憶部 104 類似度計算部 105 話者情報端子 106 順位計算部 107 判定部 108 出力端子 201 入力端子 202 分析部 203 木構造話者標準パターン記憶部 204 類似度計算部 205 話者情報端子 206 順位計算部 207 判定部 208 出力端子 209 計数部 301 入力端子 302 音声分析部 303 話者標準パターン記憶部 304 類似度計算部 305 個人情報入力端子 307 判定部 308 出力端子 401 入力端子 402 音声分析部 403 話者標準パターン記憶部 404 類似度計算部 407 判定部 408 出力端子
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平10−207484(JP,A) 特許2751856(JP,B2) 欧州特許出願公開856835(EP,A 2) 電子情報通信学会技術研究報告[音声 ]Vol.93,No.364,SP93− 110,「話者適応のための木構造話者ク ラスタリング」p.49−54(1993年12月 9日発行) 日本音響学会平成7年度春季研究発表 会講演論文集 2−5−10「木構造化さ れた確率分布を用いた話者適応化」p. 49−50(平成7年3月15日国会図書館受 入) 日本音響学会平成7年度秋季研究発表 会講演論文集 3−2−12「記述長最小 原理を用いた話者適応化」p.129−130 (平成7年9月28日国会図書館受入) 電子情報通信学会論文誌 Vol.J 78−D−▲II▼ No.1,Janu ary 1995,「木構造話者クラスタリ ングを用いた話者適応」,p.1−9, (1995年1月25日発行) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 545 G10L 3/00 531 G10L 3/00 521 JICSTファイル(JOIS) WPI(DIALOG)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を入力する入力部と、入力音声波形
    を分析し特徴量を抽出して入力パターンへ変換する音声
    分析部と、一つの節はそれにつながる下位の節の音響的
    特徴を代表するパターンを有するような木構造で、各話
    者の標準パターンを葉に持つ木構造をした複数話者の標
    準パターンを蓄える木構造話者標準パターン記憶部と、
    前記入力パターンと木構造話者標準パターンとの類似度
    を根から葉に向かって計算する場合に、類似度の高い節
    についてのみ下位階層の節の類似度計算を行ない、類似
    度の低い節の下位階層の節についてはその上位の節の類
    似度を用いることで全話者に対する類似度を求める類似
    度計算部と、話者の名前あるいID番号等の話者を特定
    する情報を入力する個人情報入力部と、前記入力された
    名前あるいはID番号等で示される話者の類似度が前記
    類似度計算部で計算された全話者の類似度の大きい順に
    何番目であるかを順位計算部と、前記順位計算部求めら
    れた順位が、あらかじめ定められた順位内である場合本
    人であると判定する判定部とを具備して構成されること
    を特徴とする話者認識装置。
  2. 【請求項2】 前記全話者に対する類似度中最も高い類
    似度からある一定の類似度の範囲内にある話者数を求め
    る計数部を備え、前記判定部は前記順位計算部で求めら
    れた順位が、前記計数部で求められた話者数よりも上で
    ある場合に本人であると判定することを特徴とする請求
    項1記載の話者認識装置。
  3. 【請求項3】 前記木構造話者標準パターンには登録話
    者の標準パターンだけでなく、登録話者以外の話者の標
    準パターンをも含むことを特徴とする請求項1又は2記
    載の話者認識装置。
JP9016197A 1997-01-30 1997-01-30 話者認識装置 Expired - Fee Related JP2991288B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP9016197A JP2991288B2 (ja) 1997-01-30 1997-01-30 話者認識装置
CA002227679A CA2227679C (en) 1997-01-30 1998-01-22 Speaker recognition device
EP98101318A EP0856835A3 (en) 1997-01-30 1998-01-26 Speaker recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9016197A JP2991288B2 (ja) 1997-01-30 1997-01-30 話者認識装置

Publications (2)

Publication Number Publication Date
JPH10214096A JPH10214096A (ja) 1998-08-11
JP2991288B2 true JP2991288B2 (ja) 1999-12-20

Family

ID=11909795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9016197A Expired - Fee Related JP2991288B2 (ja) 1997-01-30 1997-01-30 話者認識装置

Country Status (3)

Country Link
EP (1) EP0856835A3 (ja)
JP (1) JP2991288B2 (ja)
CA (1) CA2227679C (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2478314B (en) 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
KR102371697B1 (ko) 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
JP7266448B2 (ja) * 2019-04-12 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識方法、話者認識装置、及び話者認識プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257492A (ja) * 1992-03-13 1993-10-08 Toshiba Corp 音声認識方式
JP2522154B2 (ja) * 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
AUPM983094A0 (en) * 1994-12-02 1995-01-05 Australian National University, The Method for forming a cohort for use in identification of an individual

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成7年度春季研究発表会講演論文集 2−5−10「木構造化された確率分布を用いた話者適応化」p.49−50(平成7年3月15日国会図書館受入)
日本音響学会平成7年度秋季研究発表会講演論文集 3−2−12「記述長最小原理を用いた話者適応化」p.129−130(平成7年9月28日国会図書館受入)
電子情報通信学会技術研究報告[音声]Vol.93,No.364,SP93−110,「話者適応のための木構造話者クラスタリング」p.49−54(1993年12月9日発行)
電子情報通信学会論文誌 Vol.J78−D−▲II▼ No.1,January 1995,「木構造話者クラスタリングを用いた話者適応」,p.1−9,(1995年1月25日発行)

Also Published As

Publication number Publication date
EP0856835A2 (en) 1998-08-05
CA2227679C (en) 2001-11-27
EP0856835A3 (en) 1999-03-31
CA2227679A1 (en) 1998-07-30
JPH10214096A (ja) 1998-08-11

Similar Documents

Publication Publication Date Title
US7603275B2 (en) System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
EP1083542B1 (en) A method and apparatus for speech detection
US6205424B1 (en) Two-staged cohort selection for speaker verification system
US6618702B1 (en) Method of and device for phone-based speaker recognition
US20030009333A1 (en) Voice print system and method
EP0501631A2 (en) Temporal decorrelation method for robust speaker verification
Nayana et al. Comparison of text independent speaker identification systems using GMM and i-vector methods
US6246982B1 (en) Method for measuring distance between collections of distributions
WO1998038632A1 (en) Method and system for establishing handset-dependent normalizing models for speaker recognition
US20160019897A1 (en) Speaker recognition from telephone calls
JP2991287B2 (ja) 抑制標準パターン選択式話者認識装置
Shareef et al. Gender voice classification with huge accuracy rate
JP6996627B2 (ja) 情報処理装置、制御方法、及びプログラム
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
Lincoln et al. A comparison of two unsupervised approaches to accent identification
JP2991288B2 (ja) 話者認識装置
CN110782877A (zh) 基于Fisher混合特征和神经网络的语音鉴别方法和系统
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Cai et al. Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition
Abushariah et al. Voice based automatic person identification system using vector quantization
Komlen et al. Text independent speaker recognition using LBG vector quantization
US7454337B1 (en) Method of modeling single data class from multi-class data
WO2014155652A1 (ja) 話者検索システム、プログラム
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
JP3100180B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990916

LAPS Cancellation because of no payment of annual fees