JP4440502B2

JP4440502B2 - 話者認証システム及び方法

Info

Publication number: JP4440502B2
Application number: JP2001264334A
Authority: JP
Inventors: 昭二早川; 千晴河合
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-08-31
Filing date: 2001-08-31
Publication date: 2010-03-24
Anticipated expiration: 2021-08-31
Also published as: JP2003076390A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を用いて話者を特定する話者認証システムに関する。特に、入力される音声の内容が任意であっても話者の特定が可能な話者認証システムの話者登録に関する。
【０００２】
【従来の技術】
昨今のコンピュータ関連技術の急速な発展に伴って、音声入力によって話者を特定することができる話者認証技術も急激に進歩してきている。そして、話者認証技術を適用するアプリケーションが急増するに従って、話者認証の精度の向上が強く求められるようになってきた。そして、従来は発声内容を固定することによって話者認証の精度向上を図っていた。
【０００３】
しかしながら、アプリケーションによっては、その発声内容を固定しない場合もあり、そのような場合であっても、ある程度の話者認証精度を維持する必要があった。そして、任意の発声内容に基づいて話者認証を行う場合においては、あらかじめ登録しておく話者の登録音声に、より多くの音素を含んでおくことが、認識精度向上に重要な要素となっている。したがって、発声内容が固定されている話者認証時における登録音声よりも、より長い記録時間分の登録音声が必要となる。
【０００４】
例えば、古井の著書である「音響・音声工学」（近代科学社(1992)、p.213）においては、一般に発声内容が任意である場合の話者認証には、１０〜３０秒程度の登録音声が必要であると言われているが、一方では、確率モデルを用いて一般的な話者モデルを作成した場合に、登録音声の記録時間を６０秒にすることによって、登録音声の記録時間が３０秒である時と比べて識別誤りが半減したという報告もされており（"Robust text-independent speaker identification using gaussian mixture speaker models", IEEE Trans. On Speech and Audio Process. Vol.3 No.1.pp.78 (1995)）、話者認証の精度を充分に確保するためには、なるべく長い記録時間分の登録音声が必要となることが明らかである。
【０００５】
ここで、図１に従来の話者認証システムの原理図を示す。図１に示すように、音声の登録を開始する場合、音声入力部１で音声を取り込み、音声分析部２で音声を特徴パラメタに変換し、ＲＡＭ領域３等に一時保存することになる。
【０００６】
そして、所定の認証精度を維持するのに十分な特徴パラメタが確保できているか否か、すなわち十分な量の音声入力が登録できているか否かを判定する音声登録量判定部４により、登録すべき音声入力が量的に不足していると判定された場合には、音声入力部１に戻って、登録者に対して追加の音声入力を促すメッセージを出力する。最後に、登録すべき音声入力が所定の認証精度を維持するのに十分な量であると判定された場合には、話者モデル生成部６において話者モデルを生成することで登録処理を行っていた。
【０００７】
【発明が解決しようとする課題】
しかしながら、上述したような従来の方法では、所定の認証精度を維持するのに十分な特徴パラメタが確保できているか否か、すなわち十分な量の音声入力が登録できているか否かを判定する指標として音声入力量を用いているため、所定の音声入力量が登録されるまでは話者モデルが生成されることがない。したがって、話者モデル自体が話者認証のために十分な精度を維持しているかどうか検証するのは最終的な話者モデル生成後にしか行うことができないという問題点があった。
【０００８】
また、十分な量の音声入力が登録できていない場合に、どのような音声をどの程度入力すれば話者モデルとして十分に学習していることになるのかについても、明確な指標が存在していないという問題点もあった。したがって、音声入力量としては十分であるにもかかわらず、特定の音素については学習が不十分であるために認証精度が低い話者モデルとなる場合も生じていた。
【０００９】
さらに、最終的な話者モデルに十分な認証精度を付与するために大量の音声入力を登録しておく必要があることから、大容量のＲＡＭ領域３等をシステム全体として確保しておく必要がある。したがって、計算機資源を必要以上に消費してしまうおそれがあるという問題点もあった。
【００１０】
また、登録話者が音声入力する際に、音声入力のためだけに３０秒以上発声する必要があり、かかる音声入力作業は登録話者にとっては苦痛であり、なるべく少ない発声時間で効率的に音声登録を終了できることが望ましい。
【００１１】
本発明は、上記問題点を解決するために、話者認証精度を下げることなく、最小時間の登録音声入力で足りる話者認証システム及び方法を提供することを目的とする。
【００１２】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる話者認証システムは、任意の発声内容で話者を特定する話者認証システムであって、話者の音声を入力する音声入力部と、入力された話者の音声を分析し、特徴パラメタを抽出して一時保存する特徴パラメタ保存部と、特徴パラメタに基づいて、話者の話者モデルを生成もしくは更新する話者モデル生成・更新部と、話者モデルの学習が十分であるか否かを所定の判断基準に基づいて判定する話者モデル評価部と、話者モデルを話者データベースとして保存する話者モデル保存部とを含み、話者モデルの学習が不十分であると判定された場合には、音声入力部において追加の音声入力を行い、話者モデルの学習が十分であると判定された場合には、話者モデルを話者データベースに保存することを特徴とする。
【００１３】
かかる構成により、音声入力に対して必ず話者モデルが生成されることから、入力時における話者モデルの学習度合を把握することができ、また新たに音声入力されるごとに話者モデルが更新されることから、話者モデルの学習度合は音声入力されるごとに進展することになり、学習度合が所定の値に到達するための最小限の音声入力で済ますことが可能となる。
【００１４】
また、本発明にかかる話者認証システムは、入力すべき発声内容を話者に提示する発声内容提示部をさらに備えることが好ましい。より効果的な音声入力内容を提示できることから、より短い音声入力によって話者モデルの学習を完了させることができるからである。提示内容としては、可能な限り幅広い音素を含むことが好ましく、また既に生成されている話者モデルに不足あるいは欠けている音素を含んでいることが好ましい。
【００１５】
また、本発明にかかる話者認証システムは、入力された話者の音声を認識する音声認識部と、音声認識部における認識結果に基づいて、話者モデル生成のために不足している発声内容を選択する発声内容選択部をさらに備えることが好ましい。認識された内容と重複している発声内容を再入力の対象から除外することができるからである。
【００１６】
また、本発明にかかる話者認証システムは、不特定話者の音声データに基づいて生成された不特定話者モデルと、話者モデル生成・更新部で生成又は更新された話者モデルを一時保存する話者モデル一時保存部とをさらに備え、１回目の音声入力の場合には不特定話者モデルに基づいて話者モデルを生成し、２回目以降の音声入力の場合には話者モデル一時保存部に保存されている話者モデルに基づいて話者モデルを更新し、話者モデルの学習が十分であると判定された場合には、話者モデル一時保存部に保存されている話者モデルを話者データベースに保存することが好ましい。１回目の音声入力時から所定の認証精度を確保することができるからである。
【００１７】
また、本発明は、上記のような話者認証システムの機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、任意の発声内容で話者を特定する話者認証方法であって、話者の音声を入力する工程と、入力された話者の音声を分析し、特徴パラメタを抽出して一時保存する工程と、特徴パラメタに基づいて、話者の話者モデルを生成もしくは更新する工程と、話者モデルの学習が十分であるか否かを所定の判断基準に基づいて判定する工程と、話者モデルを話者データベースとして保存する工程とを含み、話者モデルの学習が不十分であると判定された場合には、話者の音声を入力する工程において追加の音声入力を行い、話者モデルの学習が十分であると判定された場合には、話者モデルを話者データベースに保存する話者認証方法並びにそのような工程を具現化するコンピュータ実行可能なプログラムであることを特徴とする。
【００１８】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、音声入力に対して必ず話者モデルが生成されることから、入力時における話者モデルの学習度合を把握することができ、また新たに音声入力されるごとに話者モデルが更新されることから、話者モデルの学習度合は音声入力されるごとに進展することになり、学習度合が所定の値に到達するための最小限の音声入力で済ますことができる話者認証システムを実現することが可能となる。
【００１９】
【発明の実施の形態】
（実施の形態１）
以下、本発明の実施の形態１にかかる話者認証システムについて、図面を参照しながら説明する。まず、本発明の実施の形態１にかかる話者認証システムの原理図を図２に示す。
【００２０】
図２において、１は音声登録時に登録者の音声を入力するための音声入力部を、２は入力した音声を分析し特徴パラメタに変換する音声分析部を、３は特徴パラメタを一時的に保管するＲＡＭ領域を、それぞれ示している。
【００２１】
また、５は登録音声の入力回数に応じて話者モデルを作成するか更新するか選択する話者モデル生成手段選択部を示しており、登録音声入力が１回目であれば話者モデル生成部６によって話者モデルを生成し、２回目以降であれば話者モデル更新部７によって話者モデルを更新することになる。
【００２２】
さらに、８は話者モデルとして十分な認証精度を有しているかどうか、すなわち話者モデルとして学習が十分であるか否かを所定の判定基準に基づいて判定する話者モデル評価部を示しており、話者モデルとして学習が十分であると判定された場合には、生成されている話者モデルに一定の認証精度が確保されているものと判断される。一方、話者モデルとして学習が不十分であると判定された場合には、生成されている話者モデルに一定の認証精度が確保されていないものと判断され、音声入力部１によって２回目以降の音声入力がなされることになる。
【００２３】
このような構成にすることで、まず音声入力単位ごとに話者モデルを作成・更新することができるようになる。すなわち、まず１回目の音声入力がされ、音声入力部１で音声が取り込まれる。取り込まれた音声は音声分析部２で特徴パラメタに変換される。作成された特徴パラメタはＲＡＭ領域３において保存されることになる。したがって、ＲＡＭ領域３は入力単位ごとの特徴パラメタを保存しておけば足りる。
【００２４】
また、１回目の音声入力の場合には、話者モデル生成部６でＲＡＭ領域３から特徴パラメタを受け取って、話者モデルを生成する。２回目以降の音声入力の場合には、話者モデル更新部７でＲＡＭ領域３から特徴パラメタを受け取って、既に生成されている話者モデルについて更新することになる。
【００２５】
さらに、話者モデルが生成あるいは更新された後、話者モデルとして学習が十分であるか否か、すなわち話者モデルとして所定の認識精度が確保できているか否かについて話者モデル評価部８で判断し、話者モデルとして学習が不十分であると判断された場合には、話者モデルとして所定の認識精度が確保できていないものと判断できることから、追加音声入力として、音声入力部１から認証精度の向上に必要となる次の音声入力を取り込むことになる。
【００２６】
話者モデルとして学習が十分であると判定された場合には、話者モデルとして所定の認識精度が確保できているものと判断できることから、これ以上の音声登録は不要となる。
【００２７】
したがって、音声入力単位ごとに話者モデルとして学習が十分であるか否かを所定の判断基準に基づいて判定することにより、登録者に不必要な発声入力を強いることを未然に防止するとともに、話者モデルとして学習が不十分である状態で音声登録が終了することも回避することが可能となる。さらに、音声入力単位ごとに話者モデルを生成・更新することで、特徴パラメタを保管しておくために必要なＲＡＭ領域を小さくしておくことができ、計算機資源の有効利用を図ることが可能となる。
【００２８】
より具体的には、図３に示すようなシステムとなる。図３は本発明の実施の形態１にかかる話者認証システムの構成図である。図３において、音声入力部３１において登録話者の音声を取り込み、音声分析部３２に渡す。音声分析部３２では話者認証を行うための特徴パラメタに変換する。
【００２９】
音声分析部３２で抽出された特徴パラメタは、話者モデル生成あるいは更新のために、ＲＡＭ３３等で一時記憶される。もちろん、特徴パラメタ記憶部３４等のディスク領域に保存しておくものであっても良い。
【００３０】
そして、登録話者の話者モデルがすでに存在しているか否かを話者モデル生成手段選択部３５において確認する。登録話者の話者モデルが存在していない場合、すなわち音声入力が１回目の場合には、話者モデル生成部３６に保存している特徴パラメタを渡すことで、新たに話者モデルを生成することになる。話者モデルを生成した後、話者モデル評価部３８において当該話者モデルの学習度合を検証することになる。
【００３１】
また、登録話者の話者モデルが既に存在している場合、すなわち音声入力が２回目以降である場合には、保存されている特徴パラメタを用いて、話者モデル更新部３７において話者モデルの更新を行う。話者モデルが更新されると、更新された話者モデルについても話者モデル評価部３８において、学習度合が十分か否かについて判定することになる。
【００３２】
そして、話者モデル評価部３８において、入力音声による学習が不十分である、すなわち十分な認証精度が確保されていない話者モデルであると判断された場合には、音声入力部３１に戻って、再度音声入力を行うことになる。この場合、話者に再入力を促すメッセージを出力する再入力促進部３９を設けることが好ましい。話者モデルの学習度合を話者自身が認識できるからである。
【００３３】
一方、学習が十分である、すなわち十分な認証精度が確保されている話者モデルであると判断された場合には、話者モデル保存部４０において、話者モデルデータベース４１として保存することになる。
【００３４】
ここで、特徴パラメタとしては様々な種類のパラメタが考えられる。例えば、ＬＰＣ（Linear Predictive Coding）ケプストラムやＭＦＣＣ（Mel Frequency Cepstral Coefficients）等、通常の音声入力による話者認証で用いられる特徴パラメタであれば何でも良い。
【００３５】
また、特徴パラメタのみを保存すれば良く、音声入力として取り込む時間は５〜１５秒程度（短い文章で１文〜数文程度）であれば十分である。
【００３６】
一方、話者モデル自体や、その生成方法についても、様々な方法が考えられる。例えば、ＧＭＭ（Gaussian Mixture Model）等の確率モデルを用いる方法であっても良いし、ｋ−ｍｅａｎｓ法やＬＢＧ法等を用いてクラスタリングを行い、コードブックを作成する方法であっても良い。話者モデルの生成方法自体は特に制限されるものではなく、音声入力による話者認証を行うことができるものであれば何でも良い。
【００３７】
同様に、話者モデルの更新方法についても様々な方法が考えられる。例えば、ＭＡＰ(maximum a posteriori )法や、ベイジアン（Bayesian）適応等のモデル更新アルゴリズムを用いて行う方法が一般的である。話者モデルの更新方法についても特に制限されるものではなく、音声入力による話者認証を行うことができるものであれば何でも良い。
【００３８】
また本実施の形態１においては、話者モデルを新たに生成するか、あるいは既存の話者モデルを更新するか、どちらを選択するかについては、音声入力の回数（１回目か否か）で判断しているが、特にこれに限定されるものではなく、登録者の話者モデルが既に生成されているか否かで判断するものであっても良い。さらに、既に話者モデルが生成されている場合であっても、話者が登録自体を再実行したいと希望している場合や、話者モデル自体の認証精度が所定の水準にまで到達していないと判断される場合には、新規に話者モデルを生成するようにしても良い。
【００３９】
生成あるいは更新された話者モデルが、十分に学習されているか否かについては、以下の判断基準を用いて行う。
【００４０】
まず話者モデルを更新する前後における入力音声に対するベクトル空間上の距離差あるいは尤度差を求める。そして、当該距離差あるいは尤度差の変化が小さいものであれば、話者モデルの学習程度が進んでいるものと判断できることから、学習自体を終了することになる。
【００４１】
例えば図４は、話者モデル更新前後の対数尤度差を示す図である。ここでは、初期の話者モデルを４つの文章に基づいて生成し、その後１文ごとに話者モデルを更新していった場合における話者モデル更新前後の対数尤度差を示している。なお、横軸には話者モデルの学習に用いた文章の総数を示している。
【００４２】
図４からもわかるように、話者モデル更新前後の対数尤度差は、学習が進むにつれて小さくなっていく傾向が顕著である。したがって、話者モデル更新前後の対数尤度差の減少が飽和した時点において十分に学習されたものと判断すれば良いことになる。図４においては、話者モデル更新前後の対数尤度差が３以下である音声入力が２回あった時点をしきい値として判断している。
【００４３】
なお、話者モデルが十分に学習されているか否かを判定する判断基準については、上述した方法に特に限定されるものではない。例えば、話者モデルがＧＭＭの場合には、分散の値を指標として判断することも考えられる。すなわち、分散の値が過度に小さな値になっている場合には、特徴パラメタとして十分に抽出されていないものと考えられることから、利用者に追加の音声入力を促すことになる。
【００４４】
また、話者モデルがコードブックの場合には、セントロイドに割り当てられたサンプル数を指標として判断することも考えられる。すなわち、セントロイドに割り当てられたサンプル数が少ない場合には、代表点として選択されたサンプル点が特異点である可能性が高くなってしまうことから、利用者に追加の音声入力を促すことになる。
【００４５】
さらに、特徴パラメタ及び話者モデルについては、ユーザごとに作成しておくことが好ましい。すなわち、話者登録時においてユーザ識別子も同時に登録しておき、ユーザ識別子ごとに独立した特徴パラメタ及び話者モデルを生成することによって、複数の話者を識別することが可能となる。
【００４６】
次に、本発明の実施の形態１にかかる話者認証システムを実現するプログラムの処理の流れについて説明する。図５に本発明の実施の形態にかかる話者認証システムを実現するプログラムの処理の流れ図を示す。
【００４７】
図５において、まず話者の音声データを入力し（ステップＳ５０１）、入力された音声データから特徴パラメタを抽出する（ステップＳ５０２）。そして、音声入力が１回目である場合には（ステップＳ５０３：Ｙｅｓ）、話者モデルを新規に生成し（ステップＳ５０４）、音声入力が２回目以降である場合には（ステップＳ５０３：Ｎｏ）、話者モデルを更新する（ステップＳ５０５）。
【００４８】
次に、話者モデルの学習が十分であるか否かを、学習度合を示す判断基準に基づいて判断し（ステップＳ５０６）、話者モデルの学習が不十分であると判断された場合には（ステップＳ５０６：Ｎｏ）、追加入力促進メッセージを出力して（ステップＳ５０７）、話者が再度音声を入力することになる（ステップＳ５０１）。
【００４９】
一方、話者モデルの学習が十分であると判断された場合には（ステップＳ５０６：Ｙｅｓ）、生成・更新された話者モデルを新たな話者モデルとしてデータベースに保存することになる（ステップＳ５０８）。
【００５０】
以上のように本実施の形態１によれば、音声入力単位ごとに話者モデルとして十分に学習されているか否かを判定することにより、登録者に不必要な音声入力を強いることを未然に防止するとともに、話者モデルとして学習が不十分である状態で音声登録が終了することも回避することが可能となる。さらに、音声入力単位ごとに話者モデルを生成・更新することで、特徴パラメタを保管しておくために必要な記憶領域を小さくしておくことができ、計算機資源の有効利用を図ることが可能となる。
【００５１】
（実施の形態２）
以下、本発明の実施の形態２にかかる話者認証システムについて、図面を参照しながら説明する。まず、本発明の実施の形態２にかかる話者認証システムの構成図を図６に示す。
【００５２】
図６において、実施の形態１にかかる話者認証システムと異なる点は、登録のために入力すべき発声内容を登録者に提示する発声内容提示部６１及び発声内容制御部６２を備えている点である。すなわち、発声内容提示部６１において、利用者が入力すべき発声内容を提示するとともに、発声内容提示部６１に提示する内容については、発声内容制御部６２によって制御することになる。
【００５３】
まず、発声内容提示部６１において提示される発声内容は、音素がバランス良く配分されたテキストデータを保存しているテキストデータベース６３から選択して提示する。提示方法は特に限定されるものではなく、例えばディスプレイ等の表示装置上で表示出力するものであっても良いし、電話回線等を用いて合成音声によって出力提示するものであっても良い。
【００５４】
次に、発声内容制御部６２においては、既に生成されている話者モデルに基づいて、過去に提示したテキストデータ及び当該テキストデータに対応した音声入力データの音声認識結果を解析することによって、既に話者モデルに含まれている音素と含まれていない、あるいはわずかしか含まれていない音素を明確に認識することになる。そして、話者モデルに含まれていない音素、あるいはわずかしか含まれていない音素を幅広く含んでいるテキストデータをテキストデータベース６３から選択することによって、発声内容提示部６１における提示内容を制御することになる。
【００５５】
また、図７に示すように、登録された音声入力を音声認識する音声認識部７１をさらに備え、発声内容制御部６２において音声認識部７１における音声認識結果を用いることで、話者モデル作成のために不足している発声内容を選択するよう制御することも考えられる。
【００５６】
すなわち図７において、１回目の入力音声は、音声入力部３１で取り込まれ、音声分析部３２で特徴パラメタが抽出され、話者モデル生成部３６又は話者モデル更新部３７において音声入力ごとに話者モデルが生成又は更新される。そして、話者モデルが生成又は更新された後、入力された音声データに対して音声認識部７１で音声認識を行い、認識結果を発声内容制御部６２に送る。
【００５７】
発声内容制御部６２では、受け取った音声認識の結果から必要な音素を含むテキストをテキストデータベース６３より選択し、発声内容提示部６１に送る。そして、発声内容提示部６１で認証精度を向上させるのに最も効果的なテキストデータを発声内容として表示し、２回目の音声入力を行う。
【００５８】
すなわち、既に生成されている話者モデルは、以前に入力された音声入力に基づいて生成されていることから、まず以前に入力された音声入力について音声認識を行い、テキストデータベース６３に準備されているテキストデータと照合して、合致度の小さいテキストデータを選択するとともに、特定の言語、例えば日本語における全ての音素を網羅して取り込むことができるようにテキストデータを選択することによって、話者モデルに含まれていない音素をより多く含むテキストデータを提示することが可能となる。
【００５９】
このようにすることで、話者にとって無駄のない入力作業をすることができ、最小限の発声入力時間で最大限の効果を期待することが可能となる。
【００６０】
次に、本発明の実施の形態２にかかる話者認証システムを実現するプログラムの処理の流れについて説明する。図８に本発明の実施の形態にかかる話者認証システムを実現するプログラムの処理の流れ図を示す。
【００６１】
図８において、まず話者の音声データを入力し（ステップＳ８０１）、入力された音声データから特徴パラメタを抽出する（ステップＳ８０２）。特徴パラメタの抽出と平行して、入力された音声データに対して音声認識を行い（ステップＳ８０３）、認識結果を発声内容制御部へ渡す。
【００６２】
そして、音声入力が１回目である場合には（ステップＳ８０４：Ｙｅｓ）、話者モデルを新規に生成し（ステップＳ８０５）、音声入力が２回目以降である場合には（ステップＳ８０４：Ｎｏ）、話者モデルを更新する（ステップＳ８０６）。
【００６３】
次に、話者モデルの学習が十分であるか否かを、学習度合を示す判断基準に基づいて判断し（ステップＳ８０７）、話者モデルの学習が不十分であると判断された場合には（ステップＳ８０７：Ｎｏ）、音声認識の内容に基づいて発声内容として事前に準備されているテキストデータベース６３をサーチする（ステップＳ８０８）。
【００６４】
そして、音声認識内容と最も一致度の低いテキストデータ（特定の言語の全音素を最も網羅しているテキストデータ）を選択して（ステップＳ８０９）、当該テキストデータを次の発声内容として話者に提示し（ステップＳ８１０）、話者は当該テキストデータの内容を再度音声入力することになる（ステップＳ８０１）。
【００６５】
一方、話者モデルの学習が十分であると判断された場合には（ステップＳ８０７：Ｙｅｓ）、生成・更新された話者モデルを新たな話者モデルとしてデータベースに保存することになる（ステップＳ８１１）。
【００６６】
以上のように本実施の形態２によれば、登録のために入力すべき発声内容を登録者に提示する手段を備えることによって、登録者は入力する発声内容を考えて発声する必要がなく、音声入力時の負担を最小限にすることができる。
【００６７】
また、提示する発声内容により多くの音素を含むように制御することができることから、音声入力時間が短時間であっても最も効率的に登録者の発声する音素を話者モデルに取り込むことが可能となる。
【００６８】
さらに、１回目の登録音声入力時に発声された音声を音声認識する手段を備えており、音声認識結果を用いて話者モデル作成のために不足している発声内容を選択し、次回の登録音声入力時に提示することにより、短い登録時間で音声登録を終了することを可能にしている。
【００６９】
（実施の形態３）
以下、本発明の実施の形態３にかかる話者認証システムについて、図面を参照しながら説明する。まず、本発明の実施の形態３にかかる話者認証システムの構成図を図９に示す。
【００７０】
図９において、実施の形態１にかかる話者認証システムと異なる点は、１回目の音声入力において、不特定話者の音声に基づいて事前に生成されている話者モデルに基づいて話者モデルを生成する点にある。すなわち、話者モデル生成部３６において事前に生成されている不特定話者モデル９１を参照して、ＲＡＭ３３に一時記憶されている特徴パラメタに基づいて不特定話者モデル９１を更新することで新たな話者モデルを生成することになる。
【００７１】
まず、不特定話者モデル９１の生成時においては、１００〜１０００人以上の大量の話者の音声データを入力し、前述したＧＭＭやコードブック等のモデルを生成することになる。
【００７２】
そして、図９に示すように、１回目の音声入力は音声入力部３１で取り込まれ、音声分析部３２で特徴パラメタが抽出され、話者モデル生成部３６において、不特定話者モデル９１と抽出された特徴パラメタに基づいて、音声入力ごとの一時的な話者モデルが生成される。そして、生成された話者モデルは話者モデル一時保存部９２において一時的に保存される。
【００７３】
２回目以降の入力音声についても同様に特徴パラメタが抽出されるが、話者モデル更新部３７において、話者モデル一時保存部９２に保存されている話者モデルを更新することで、新たな話者モデルに更新されることになる。
話者モデルが更新されると、更新された話者モデルについても話者モデル評価部３８において、学習度合が十分か否かについて判定することになる。
【００７４】
そして、実施の形態１と同様に、話者モデル評価部３８において、入力音声による学習が不十分である、すなわち十分な認証精度が確保されていない話者モデルであると判断された場合には、音声入力部３１に戻って、再度音声入力を行うことになる。この場合、話者に再入力を促すメッセージを出力する再入力促進部３９を設けることが好ましい。話者モデルの学習度合を話者自身が認識できるからである。
【００７５】
一方、学習が十分である、すなわち十分な認証精度が確保されている話者モデルであると判断された場合には、話者モデル保存部４０において、話者モデルデータベース４１として保存することになる。
【００７６】
このようにすることで、１回目の音声入力時からある程度の認証精度が期待できるとともに、追加入力についても最小限の発声内容で最大限の効果を期待することが可能となる。
【００７７】
なお、本実施の形態３では、一時的な話者モデルを話者モデル一時保存部９２に保存しているが、話者モデルデータベース４１に直接話者モデルを生成し、認証精度が所定の水準まで確保することができるようになるまで繰り返し音声入力しながら、話者モデルを更新するようにしても良い。
【００７８】
なお、本発明の実施の形態にかかる話者認証システムを実現するプログラムは、図１０に示すように、ＣＤ−ＲＯＭ１０２−１やフレキシブルディスク１０２−２等の可搬型記録媒体１０２だけでなく、通信回線の先に備えられた他の記憶装置１０１や、コンピュータ１０３のハードディスクやＲＡＭ等の記録媒体１０４のいずれに記憶されるものであっても良く、プログラム実行時には、プログラムはＤＳＰ上にダウンロードされて実行される。
【００７９】
また、本発明の実施の形態にかかる話者認証システムにより生成された話者モデル等についても、図１０に示すように、ＣＤ−ＲＯＭ１０２−１やフレキシブルディスク１０２−２等の可搬型記録媒体１０２だけでなく、通信回線の先に備えられた他の記憶装置１０１や、コンピュータ１０３のハードディスクやＲＡＭ、あるいはフラッシュメモリ等の不揮発性メモリ等に代表される記録媒体１０４のいずれに記憶されるものであっても良く、例えば本発明にかかる話者認証システムを利用する際にコンピュータ１０３により読み取られる。
【００８０】
【発明の効果】
以上のように本発明にかかる話者認証システムによれば、音声入力単位ごとに話者モデルとして十分に学習されているか否かを判定することにより、登録者に不必要な音声入力を強いることを未然に防止するとともに、話者モデルとして学習が不十分である状態で音声登録が終了することも回避することが可能となる。
【００８１】
また、本発明にかかる話者認証システムによれば、音声入力単位ごとに話者モデルを生成・更新することで、特徴パラメタを保管しておくために必要な記憶領域を小さくしておくことができ、計算機資源の有効利用を図ることが可能となる。
【図面の簡単な説明】
【図１】従来の話者認証システムの原理図
【図２】本発明の実施の形態１にかかる話者認証システムの原理図
【図３】本発明の実施の形態１にかかる話者認証システムの構成図
【図４】本発明の実施の形態１にかかる話者認証システムにおける話者モデル更新前後の対数尤度差を示す図
【図５】本発明の実施の形態１にかかる話者認証システムにおける処理の流れ図
【図６】本発明の実施の形態２にかかる話者認証システムの構成図
【図７】本発明の実施の形態２にかかる話者認証システムの構成図
【図８】本発明の実施の形態２にかかる話者認証システムにおける処理の流れ図
【図９】本発明の実施の形態３にかかる話者認証システムの構成図
【図１０】コンピュータ環境の例示図
【符号の説明】
１、３１音声入力部
２、３２音声分析部
３ＲＡＭ領域
４音声登録量判定部
５、３５話者モデル生成手段選択部
６、３６話者モデル生成部
７、３７話者モデル更新部
８、３８話者モデル評価部
３３ＲＡＭ
３４特徴パラメタ記憶部
３９再入力促進部
４０話者モデル保存部
４１話者モデルデータベース
６１発声内容提示部
６２発声内容制御部
６３テキストデータベース
７１音声認識部
９１不特定話者モデル
９２話者モデル一時保存部
１０１回線先の記憶装置
１０２ＣＤ−ＲＯＭやフレキシブルディスク等の可搬型記録媒体
１０２−１ＣＤ−ＲＯＭ
１０２−２フレキシブルディスク
１０３コンピュータ
１０４コンピュータ上のＲＡＭ／ハードディスク等の記録媒体

Claims

任意の発声内容で話者を特定する話者認証システムであって、
話者の音声を入力する音声入力部と、
入力された前記話者の音声を分析し、特徴パラメタを抽出して一時保存する特徴パラメタ保存部と、
前記特徴パラメタに基づいて、前記話者の話者モデルを生成もしくは更新する話者モデル生成・更新部と、
前記話者モデルの学習が十分であるか否かを所定の判断基準に基づいて判定する話者モデル評価部と、
前記話者モデルを話者データベースとして保存する話者モデル保存部と、
入力された前記話者の音声を認識する音声認識部と、
前記音声認識部における認識結果に基づいて、前記話者モデル生成のために不足している発声内容を選択する発声内容選択部とを含み、
前記話者モデルの学習が不十分であると判定された場合には、前記音声入力部において追加の音声入力を行い、
前記話者モデルの学習が十分であると判定された場合には、前記話者モデルを前記話者データベースに保存することを特徴とする話者認証システム。
入力すべき発声内容を前記話者に提示する発声内容提示部をさらに備える請求項１記載の話者認証システム。
任意の発声内容で話者を特定する話者認証方法であって、
話者の音声を入力する工程と、
入力された前記話者の音声を分析し、特徴パラメタを抽出して一時保存する工程と、
前記特徴パラメタに基づいて、前記話者の話者モデルを生成もしくは更新する工程と、
前記話者モデルの学習が十分であるか否かを所定の判断基準に基づいて判定する工程と、
前記話者モデルを話者データベースとして保存する工程と、
入力された前記話者の音声を認識する工程と、
前記音声を認識する工程における認識結果に基づいて、前記話者モデル生成のために不足している発声内容を選択する工程とを含み、
前記話者モデルの学習が不十分であると判定された場合には、前記話者の音声を入力する工程において追加の音声入力を行い、
前記話者モデルの学習が十分であると判定された場合には、前記話者モデルを前記話者データベースに保存することを特徴とする話者認証方法。
任意の発声内容で話者を特定する話者認証方法を具現化するコンピュータに実行させるプログラムであって、
話者の音声を入力するステップと、
入力された前記話者の音声を分析し、特徴パラメタを抽出して一時保存するステップと、
前記特徴パラメタに基づいて、前記話者の話者モデルを生成もしくは更新するステップと、
前記話者モデルの学習が十分であるか否かを所定の判断基準に基づいて判定するステップと、
前記話者モデルを話者データベースとして保存するステップと、
入力された前記話者の音声を認識するステップと、
前記音声を認識するステップにおける認識結果に基づいて、前記話者モデル生成のために不足している発声内容を選択するステップとを含み、
前記話者モデルの学習が不十分であると判定された場合には、前記話者の音声を入力するステップにおいて追加の音声入力を行い、
前記話者モデルの学習が十分であると判定された場合には、前記話者モデルを前記話者データベースに保存することを特徴とする、コンピュータに実行させるプログラム。