JP2004294755A

JP2004294755A - 話者認証装置及び話者認証プログラム

Info

Publication number: JP2004294755A
Application number: JP2003086865A
Authority: JP
Inventors: Fumihiko Takai; 史比古高井; Shuichi Ikeno; 修一池野
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2003-03-27
Filing date: 2003-03-27
Publication date: 2004-10-21
Anticipated expiration: 2023-03-27
Also published as: JP4318475B2

Abstract

【課題】キーワードを正確に登録し、認証を確実に行う話者認証を実現する。
【解決手段】複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて照合用データベースとして保持する記憶部１２と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する音声信号取得部１６とを備え、取得された認証用情報と照合用データベースに保持されている照合用情報とを比較することによって認証を行おうとするユーザを特定する認証装置１００であって、取得された認証用情報からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として記憶部１２の抽出用データベースに保持する認証装置。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を発する話者が誰であるかを特定するための話者認証装置及び話者認証プログラムに関する。
【０００２】
【従来の技術】
ユーザが発声したキーワードから発声者が誰であるかを認証し、その認証結果に基づいてセキュリティ管理を行う話者認証装置が用いられている。
【０００３】
このような話者認証装置では、認証に先立ってユーザを特定するキーワード（暗証番号等）の音声信号の特徴量をそのユーザに対応付けて照合用データベースとして登録しておく必要がある。このキーワードに対応する音声信号の特徴量は、ユーザの認証を行う際の照合用情報として用いられる。ユーザが認証を受けようとするとき、そのユーザは予め登録しておいたキーワードを含む音声を認証用情報として話者認証装置へ入力する。この認証用情報と照合用情報とが比較されることによって、認証用情報と類似度が高い照合用情報が選び出され、認証用情報を入力したユーザはその類似度が高い照合用情報と対応付けられたユーザとして認証される。
【０００４】
照合用データベースに照合用情報を登録する際、ユーザが発した音声には雑音区間や無声区間等の不要な部分が含まれるため、キーワードに相当する区間を正確に抽出し、そのキーワードに相当する区間の音声信号の特徴量を照合用情報として登録する必要がある。照合用情報は話者認証装置における鍵の役割を果たすため、この照合用情報の区間検出の精度がその後の認証処理の精度に大きく影響を与える。
【０００５】
音声信号の切り出しに対して、入力信号の振幅情報及び継続時間に基づいて登録に必要な音声区間を検出する方法が開示されている（例えば、ラビナ（Ｌ．Ｒ．Ｒａｂｉｎｅｒ）らの”独立した発声の終了点を決定するためのアルゴリズム（Ａｎａｌｇｏｒｉｔｈｍｆｏｒｄｅｔｅｒｍｉｎｉｎｇｔｈｅｅｎｄｐｏｉｎｔｏｆｉｓｏｌａｔｅｄｕｔｔｅｒａｎｃｅｓ）”）。
【０００６】
一方、ＤＰマッチング等のパターンマッチングをによって算出される類似度を用いて、音声信号の中から予め定められた単語が存在するかどうか及び存在する場合はその位置を決定するワードスポッティング法も広く用いられている。ワードスポッティング法は、入力信号の振幅情報及び継続時間に基づいて音声区間を検出する方法よりも雑音の影響を受け難いことが知られている（例えば、速水悟らの「連続ＤＰによる連続単語認識実験とその考察」等）。
【０００７】
さらに、ユーザからの音声入力に基づいてキーワードとして用いられる数字、アルファベット等の記号を表す音声認識モデルを準備しておき、この話者モデルを用いて話者認識を行う方法も開示されている（例えば、特開２０００−９９０９０号公報）。
【０００８】
また、照合用情報を登録してから時間が経つと、ユーザの体調や発声の仕方が変化することがある。このような場合、照合用情報を登録したユーザと同一のユーザが発した認証用情報であっても認証に失敗する可能性が高くなる。このように経時的な音声の変化の影響を解消するために、認証処理を行う毎に認証用情報からキーワードに相当する区間を抽出し、その区間の音声信号の特徴量によって照合用情報を更新する方法も用いられている（例えば、特開昭５７−１３４９３号公報等）。
【０００９】
【特許文献１】
特開昭５７−１３４９３号公報
【特許文献２】
特開２０００−９９０９０号公報
【非特許文献１】
ラビナ（Ｌ．Ｒ．Ｒａｂｉｎｅｒｅｔａｌ．），”独立した発声の終了点を決定するためのアルゴリズム（Ａｎａｌｇｏｒｉｔｈｍｆｏｒｄｅｔｅｒｍｉｎｉｎｇｔｈｅｅｎｄｐｏｉｎｔｏｆｉｓｏｌａｔｅｄｕｔｔｅｒａｎｃｅｓ）”，ＢｅｌｌＳｙｓｔ．Ｔｅｃｈ．Ｊ．，１９７５，ｖｏｌ．５４，ｐｐ２９７−３１５
【非特許文献２】
速水悟，「連続ＤＰによる連続単語認識実験とその考察」，電気通信学会論文誌，１９８４，ｖｏｌ．Ｊ６７−Ｄ，Ｎｏ．６，ｐｐ６７７−６８４
【００１０】
【発明が解決しようとする課題】
しかしながら、上記従来の技術においては、照合用情報を登録する際にユーザから取得した音声信号から登録すべき照合用情報を適切に抽出できない問題がある。
【００１１】
入力信号の振幅情報及び継続時間に基づいて音声区間を検出する方法では、登録すべき照合用情報の区間の前後にユーザが発生した不要音（「あ〜」、「え〜」など）や外部雑音が含まれた区間が付加されて検出されることが多い。また、語頭や語尾に振幅が小さい子音等が存在する場合にこれらの子音が欠落して検出されたりすることもある。さらに、照合用情報の中にポーズ（無音区間）が含まれる場合には、照合用情報の一部が欠落してしまう可能性もある。
【００１２】
このような照合用情報の区間検出の誤りは、高精度な認証装置を実現するうえで致命的である。雑音が混入した状態で照合用情報が登録された場合、認証処理を行う際にユーザが正しく認証される確率が低くなる。一方、照合用情報の一部が欠落して登録された場合、ユーザの個人的特徴を示す情報の情報量が少なくなるため、他人をその照合用情報を登録したユーザとして誤って認証してしまう確率が高くなる。
【００１３】
また、特開２０００−９９０９０号公報に記載の技術では、標準的な話者モデルをユーザの発声によって選択し、選択された話者モデルの組み合わせによってキーワードの音声モデルを作成し、その音声モデルを用いて照合用情報を抽出する。従って、話者モデルを選択する際のユーザの発声が明瞭でなかったときには適切な話者モデルが選択されず、照合用情報の区間が誤って検出されてしまう問題がある。
【００１４】
一方、ユーザの認証を行う際にも、認証用情報となるキーワードをユーザが言い淀んでしまったり、キーワードの語頭や語尾が明瞭に発声されなかったときには、キーワードに相当する区間の一部が欠落して検出されたり、一部が無音区間として検出されたりと、認証用情報からキーワードに相当する区間を正確に抽出できなくなる問題を生ずる。その結果、ユーザの認証の精度が低下したり、認証を誤ってしまう可能性がある。
【００１５】
また、ユーザの発声の経時変化に対応するために照合用情報を随時更新する際に、認証用情報から誤って抽出されたキーワードによって照合用情報が更新されることとなり、次回の認証処理に対して悪影響を及ぼしてしまう。さらに、照合用情報の更新が繰り返されることによって、誤りの累積的な蓄積が起こり、認証処理を行った回数の増加に伴って認証処理の精度が急激に低下してしまう問題もある。
【００１６】
本発明は、上記従来技術の問題を鑑み、上記課題の少なくとも１つを解決できる発声者が誰であるかを特定するための話者認証装置及び話者認証プログラムを提供することを目的とする。
【００１７】
【課題を解決するための手段】
上記課題を解決できる本発明は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、前記認証用情報取得手段において取得された認証用情報からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベース記憶手段を含むことを特徴とする。
【００１８】
ここで、前記認証用情報取得手段において取得された認証用情報から前記抽出用データベース記憶手段に保持された抽出用情報と類似性が高い区間を抽出する照合キーワード区間抽出手段をさらに含み、前記ユーザ特定手段では、前記照合キーワード区間抽出手段において抽出された区間と前記照合用データベース保持手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定することが好適である。
【００１９】
また、上記課題を解決できる本発明の別の形態は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、キーワードに含まれる記号を取得するキーワード取得手段と、前記キーワード取得手段において取得された各記号を表す音声認識モデルを取得し、それらの音声認識モデルを組み合わせてキーワードを表す認識モデルを構築する認識モデル構築手段と、ユーザから音声信号を取得する登録音声信号取得手段と、前記登録音声信号取得手段において取得された音声信号から前記認識モデル構築手段において構築された認識モデルとの類似性が最も高い区間を抽出する登録キーワード区間抽出手段と、を含み、照合用データベース記憶手段は、前記キーワード区間抽出手段において抽出された区間の音声信号の特徴量を前記登録信号取得手段において音声信号を取得したユーザと関連付けて照合用情報として保持することを特徴とする。
【００２０】
ここで、前記キーワード取得手段は、キーボード、ポインティングデバイス、タッチパネルを用いてキーワードを取得することが好適である。
【００２１】
また、上記本発明の話者認証装置において、前記ユーザ特定手段において特定されたユーザと関連付けられて前記照合用データベース記憶手段に保持されている照合用情報を、前記認証用情報取得手段において取得された認証用情報に基づいて更新する照合用データベース更新手段を含むことも好適である。
【００２２】
さらに、上記本発明の話者認証装置において、前記照合用データベース更新手段では、前記認証用情報取得手段において取得された認証用情報のうち、前記抽出用データベース記憶手段に前記ユーザ特定手段において特定されたユーザと関連付けられて保持されている抽出用情報と類似性が高い区間の音声信号の特徴量によって照合用情報を更新することがより好適である。
【００２３】
さらに、上記本発明の話者認証装置において、前記照合用データベース記憶手段に保持されている照合用情報の絞り込みを行う予備検索手段を含み、前記ユーザ特定手段において、前記認証用情報取得手段において取得された認証用情報と前記予備検索手段によって絞り込まれた照合用情報とを比較することによって前記認証を行おうとするユーザを特定することが好適である。
【００２４】
また、上記課題を解決できる本発明の別の形態は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベースと、ユーザから取得された音声信号からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベースと、を備えるコンピュータに、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得ステップと、前記認証用情報から前記抽出用データベースに保持されている抽出用情報と類似性が高い区間を抽出するキーワード区間抽出ステップと、前記抽出された区間の音声信号の特徴量と照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定ステップとを含む処理を実行させることを特徴とする認証プログラムである。
【００２５】
また、上記課題を解決できる本発明の別の形態は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベースを備えるコンピュータに、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得ステップと、前記認証用情報と前記照合用データベース手段に保持されている照合用情報と比較することによって前記認証を行うとするユーザを特定するユーザ特定ステップとを実行させる認証プログラムであって、前記コンピュータに、キーワードに含まれる記号を取得するキーワード取得ステップと、前記記号の各々を表す音声認識モデルを取得し、それらの音声認識モデルを組み合わせて認識モデルを構築する認識モデル構築ステップと、ユーザから音声信号を取得する登録音声信号取得ステップと、前記登録音声信号取得ステップにおいて取得された音声信号から前記認識モデルとの類似性が最も高い区間を抽出する登録キーワード区間抽出ステップと、照合用データベースに前記抽出された区間の音声信号の特徴量を前記登録信号取得ステップにおいて音声信号を取得したユーザと関連付けて照合用情報として保持するデータベース登録ステップと、を含む処理を実行させることを特徴とする。
【００２６】
ここで、前記キーワード取得ステップは、キーボード、ポインティングデバイス、タッチパネルを用いてキーワードを取得することが好適である。
【００２７】
また、上記本発明の話者認証プログラムにおいて、前記コンピュータに、前記ユーザ特定ステップにおいて特定されたユーザと関連付けられて前記照合用データベースに保持されている照合用情報を、前記認証用情報に基づいて更新する照合用データベース更新ステップを実行させることも好適である。
【００２８】
さらに、上記本発明の話者認証プログラムにおいて、前記照合用データベース更新ステップでは、前記認証用情報のうち前記抽出用データベースに前記ユーザ特定ステップにおいて特定されたユーザと関連付けられて保持されている抽出用情報と類似性が高い区間の音声信号の特徴量によって照合用情報を更新することがより好適である。
【００２９】
さらに、上記本発明の話者認証プログラムにおいて、前記コンピュータに、前記照合用データベースに保持されている照合用情報の絞り込みを行う予備検索ステップを実行させ、前記ユーザ特定ステップにおいて、前記認証用情報と前記予備検索ステップによって絞り込まれた照合用情報とを比較することによって前記認証を行おうとするユーザを特定することが好適である。
【００３０】
【発明の実施の形態】
＜認証装置＞
本発明の実施の形態における認証装置について、図を参照しながら詳細に説明する。本実施の形態における認証装置は、ユーザが発声した音声に基づいてユーザが誰であるかを認証する音声認証を行う装置である。
【００３１】
本実施の形態における認証装置１００は、図１のように、制御部１０、記憶部１２、キーワード取得部１４、音声信号取得部１６、表示部１８及びバス２０から基本的に構成される。制御部１０、記憶部１２、キーワード取得部１４、音声信号取得部１６及び表示部１８は、バス２０を介して、互いに情報伝達可能に接続される。
【００３２】
制御部１０は、コンピュータの中央処理装置（ＣＰＵ）に相当する。制御部１０は、記憶部１２に格納した基本ソフトウェア（オペレーションシステム）を実行することによって、キーワード取得部１４や音声信号取得部１６を用いてユーザから情報を取得し、表示部１８を用いてユーザへの情報の提示を行う。また、記憶部１２に格納されている認証プログラムを実行することにより、ユーザから取得した音声に基づいてユーザの認証処理を行う。認証処理については、後に詳細に説明を行う。
【００３３】
記憶部１２は、制御部１０によって実行される基本ソフトウェアや認証プログラム等を格納及び保持する。また、キーワード取得部１４や音声信号取得部１６を用いて取得された情報や表示部１８を用いてユーザへ提示される情報等、制御部１０で処理される情報を一時的又は恒久的に格納及び保持する。さらに、記憶部１２は、認証処理において使用される照合用データベース、抽出用データベース、予備検索用データベースを格納及び保持する。これらのデータベースの内容については、後に詳細に説明を行う。記憶部１２に保持された情報は、制御部１０によって適宜読み出すことができる。
【００３４】
記憶部１２としては、半導体メモリを用いることができる。また、多数のユーザに対して音声のデータベースを保存する必要がある場合には、ハードディスク、光ディスク、光磁気ディスク、磁気テープ等の大容量の補助記憶装置を備えても良い。
【００３５】
キーワード取得部１４は、認証処理に用いられるキーワードに含まれる記号を取得するものである。キーワード取得部１４は、例えばキーボードとすることができる。ユーザは、キーボードからキーワードを表す記号を入力する。入力された記号は制御部１０へ送られて処理に供される。また、キーワード取得部１４としてキーボード以外のポインティングデバイス、タッチパネル等の文字入力装置を用いて記号を選択する方法を用いても良い。
【００３６】
音声信号取得部１６は、ユーザが発声した音声を取得するためのマイク、増幅器（アンプ）及びアナログ／デジタル変換器等を含む。ユーザは、音声信号取得部１６を用いて音声の入力を行う。ユーザの発声した音声は、マイクを通じて増幅器で増幅され、アナログ／デジタル変換器によってデジタル信号に変換されて処理に供せられる。
【００３７】
表示部１８は、ユーザに対して処理に必要な情報を提供するものである。表示部１８は、例えば、ディスプレイ装置とすることができる。表示部１８は、制御部１０からの画像表示の指令を受けて、キーワード取得部１４を用いたキーワードの入力を促す画面や音声信号取得部１６を用いた音声の入力を促す画面をユーザに対して提示する。また、取得された情報や処理結果をユーザに対して提示する。表示部１８としては、タッチパネルの液晶表示装置、スピーカ等を含む音声出力装置等も用いることができる。
【００３８】
以上のように、本実施の形態における認証装置１００は、マイクロコンピュータが組み込まれた情報処理装置によって基本的に構成することができる。認証装置１００は、ユーザの認証処理を行うドア、金庫の扉等の各種装置の付近に設置することができ、ユーザからの音声の入力によってそのユーザが誰であるかを認証するために用いることができる。
【００３９】
また、図２に示すように、ネットワークインターフェース２２，２４をさらに設け、ネットワークで接続された別個のクライアント１００ａ及びサーバ１００ｂによって認証装置全体を構成しても良い。
【００４０】
＜認証方法＞
次に、本実施の形態におけるユーザの認証方法について説明を行う。本実施の形態における認証方法は、ユーザ毎にそのユーザが登録したキーワードを含む音声信号を取得し、その音声信号からキーワードに相当する区間を抽出し、その区間の音声信号の特徴量を各データベースに登録する登録処理と、それらのデータベースを用いて実際にユーザの認証を行う照合処理と、に大きく分けられる。そこで、以下に登録処理と照合処理を分説する。
【００４１】
（登録処理）
本実施の形態における登録処理は、図３に示すフローチャートに沿って行われる。なお、本実施の形態における登録処理は図３に示すフローチャートの各工程をプログラム化して記憶部１２に格納及び保持することによって、本実施の形態の認証装置によって実行することができる。
【００４２】
ステップＳ１０では、キーワード取得部１４を用いて、ユーザからキーワードに含まれる記号が取得される。制御部１０は、登録しようとするキーワードを構成する記号列の入力をユーザに促す画面を表示部１８に表示させる。ユーザは、キーワード取得部１４を用いて、自己を特定するためのキーワードに含まれる記号群を認証装置に入力する。入力された記号群は記憶部１２に格納される。
【００４３】
キーワードは数字列で構成することができる。但し、これに限られるものではなく、アルファベット、仮名文字、数字及びその他の任意記号を任意の数だけ組み合わせたものに拡張することができる。また、認証装置側でキーワードの候補を幾つか定め、ユーザにそれらの候補の中から１つを選択させても良い。
【００４４】
以下、ユーザ名Ａのユーザ（以下、ユーザＡという）が４桁の数字列「１２３４」をキーワードとして登録する例をとって説明を行う。ユーザＡはテンキーの「１」，「２」，「３」，「４」の数字キーを押下することによってキーワードに含まれる記号を入力する。
【００４５】
ステップＳ１２では、取得された記号群に基づいて認識モデルが構築される。キーワードとして使用され得る記号毎に、その記号を表す音声認識モデルをモデル構築用データベースとして予め記憶部１２に登録しておき、このモデル構築用データベースからステップＳ１０において取得された記号に対応する音声認識モデルを抽出し、それらを組み合わせることによってキーワードを表す標準的な認識モデルを構築することができる。このとき、既存のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて認識モデルを構築することができる。この認識モデルは、後にユーザから取得される音声信号からキーワードに相当する区間を抽出するために用いられる。
【００４６】
ここで、モデル構築用データベースに格納される音声認識モデルは、各記号に対する音声信号を多数のユーザから取得し、それらの音声信号を用いて学習したものであることが好適である。
【００４７】
アルファベット、仮名文字、数字及びその他の記号を入力可能なキーボードを用いた場合には、それらの記号の組み合わせからなるキーワードに対する認識モデルを生成できるようにモデル構築用データベースを構築しておく必要がある。
【００４８】
例えば、図４に示すように、「１」，「２」，「３」及び「４」に該当する音声認識モデルがモデル構築用データベースから抽出され、キーワード「１２３４」を表す標準的な認識モデルとして組み合わされる。ここで、例えば「１」に該当する音声認識モデルとは、複数人が発声した記号「１」に相当する音声信号を「１」として認識するように、あるいは、特定の話者が複数回発声した記号「１」に相当する音声信号を「１」として認識するように統計処理を用いて構成したものである。
【００４９】
ステップＳ１４では、カウンタｉの初期化が行われる。カウンタｉは、登録を行うためにユーザがキーワードを入力した回数をカウントするために用いられる。このステップでカウンタｉが０に設定される。
【００５０】
ステップＳ１６では、音声信号取得部１６を用いて、ユーザが発声した音声信号が取得される。制御部１０は、ユーザに対してキーワードを発声することを促す画面を表示部１８に表示させると共に、音声信号取得部１６を音声入力待機状態とする。ユーザは、キーワードを発声することによって、音声信号取得部１６から音声信号を入力する。入力された音声信号は、アナログ／デジタル変換され記憶部１２に格納される。
【００５１】
ユーザＡは、「１２３４」と発声することによって音声信号取得部１６を用いて音声信号を入力する。このとき、図５に示すように、取得される音声信号にはユーザが発声したキーワード「１２３４」に該当する音声信号と共に、外部からの雑音や無声区間などの不要な区間の信号も一緒に取得される。
【００５２】
ステップＳ１８では、デジタル変換された音声信号全体に対する特徴量が抽出される。音声信号の特徴量は、スペクトル包絡情報とすることが好適である。スペクトル包絡情報とは、ある瞬間において音声信号に含まれている周波数成分の分布の概形をいう。スペクトル包絡情報は、デジタル化された信号系列を所定のフレーム幅（例えば、３２ミリ秒）及びフレーム周期（例えば、８ミリ秒）毎にスペクトル分析を行い、既存のＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｅｆｆｉｃｉｅｎｔ）ケプストラムを算出することにより求めることができる。
【００５３】
但し、音声信号から抽出される特徴量はスペクトル包絡情報に限られるものではなく、音声信号の特徴を示す情報であれば良い。例えば、音声信号の振幅の時間変化、有声区間又は無声区間の出現周期等の特徴量を用いても良い。以下の処理では、ここで選択された特徴量を用いて音声信号のマッチングや抽出が行われる。
【００５４】
図６に示す例では、ユーザＡから取得した音声信号が所定のフレーム周期毎に所定のフレーム幅を有する複数のフレームに分割され、フレーム毎にスペクトル分析が行われて１２次のＬＰＣケプストラムの係数が抽出されている。
【００５５】
ステップＳ２０では、処理対象となっている音声信号が初めて取得されたものであるか否かが判断される。すなわち、カウンタｉが０である場合にはステップＳ２２に処理が移行され、カウンタｉが０以外である場合にはステップＳ２６に処理が移行される。
【００５６】
ステップＳ２２では、ステップＳ１２で構築された認識モデルを用いて、取得された音声信号からキーワードに相当する区間が検出及び抽出される。ここでは、認識モデルを用いたワードスポッティング法を用いることができる。ＨＭＭ法等を用いて、音声信号全体の特徴量と認識モデルの特徴量とが比較され、音声信号全体の中から認識モデルと最も類似性が高い区間がキーワードに相当する区間として抽出される。
【００５７】
キーワード「１２３４」に対する認識モデルのＬＰＣケプストラムが求められ、図７に示すように、ステップＳ１８で求められた音声信号のＬＰＣケプストラムとの間でワードスポッティングが実行される。すなわち、ユーザから取得された音声信号の最初から最後まで、認識モデルとの類似性を調査するためのスキャンが行われる。このとき、ＨＭＭ法を用いて、音声信号の各区間のＬＰＣケプストラムと認識モデルとの類似度が求められ、最も類似度が高い区間がキーワード「１２３４」に相当する区間として抽出される。これによって、ユーザＡから取得された音声信号からキーワード「１２３４」と無関係な不要な部分が排除される。
【００５８】
ステップＳ２４では、キーワードに相当する区間として抽出された区間の音声信号の特徴量が照合用データベース、抽出用データベース及び予備検索用データベースに登録される。抽出された区間の音声信号の特徴量は、登録を行っているユーザを示す識別子（例えば、ユーザ名等）と関連付けられて、照合用データベース及び抽出用データベースに照合用情報及び抽出用情報としてそれぞれ別個に登録される。
【００５９】
また、予備検索用データベースには、抽出された区間の音声信号の特徴量の一部が予備検索用情報として登録される。すなわち、予備検索用データベースに登録される予備検索用情報は、照合用データベースに登録される照合用情報や抽出用データベースに登録される抽出用情報よりも情報量が少なくなるように構成される。例えば、照合用情報が抽出された区間の音声信号の特徴量の全データである場合には、予備検索用情報は抽出された区間の音声信号の特徴量の一部のデータのみとする。また、照合用情報がマルチテンプレートである、すなわち複数回取得された音声信号から抽出されたキーワードに相当する区間の音声信号の特徴量の組み合わせからなる場合には、予備検索用情報はそのなかの１つの音声信号の特徴量としても良い。
【００６０】
特徴量としてＬＰＣケプストラムが選ばれた場合、照合用情報及び抽出用情報はキーワードに相当する区間の音声信号のＬＰＣケプストラムとすることができる。この場合、予備検索用データベースに登録される予備検索用情報は、キーワードに相当する区間のＬＰＣケプストラムを時間的又は次数的に間引いたものとすることができる。
【００６１】
例えば、図８（ａ）及び（ｂ）に示すように、照合用データベース及び抽出用データベースに、ユーザ名Ａと関連付けてキーワード「１２３４」に相当する区間のＬＰＣケプストラムが照合用情報及び抽出用情報としてそれぞれ登録される。また、予備検索用データベースには、図８（ｃ）のように、ユーザ名Ａと関連付けてキーワード「１２３４」に相当する区間のＬＰＣケプストラムの０〜８次係数のみが登録される。
【００６２】
照合用データベースに登録される照合用情報は、音声からユーザを認証するために用いられる。抽出用データベースに登録される抽出用情報は、音声信号の中のキーワードに相当する区間を特定して、音声信号からキーワードに相当する区間を抽出するために用いられる。予備検索用データベースに登録される予備検索用情報は、照合用情報を用いたユーザの認証や抽出用情報を用いたキーワードに相当する区間の抽出に先立って予備的な絞り込みを行うために用いられる。
【００６３】
また、登録が正しく行われたか否かは、後の照合処理の精度を左右する重要な要素であるので、登録された照合用情報、抽出用情報及び予備検索用情報をユーザ本人又は管理者に確認させる処理を行うことも好適である。
【００６４】
ステップＳ３４では、カウンタｉの値が１つ増加させられる。ステップＳ３６では、カウンタｉが繰り返し回数Ｍ以上であるか否かが判断される。カウンタｉが回数Ｍより小さい場合にはステップＳ１６へ処理を戻し、ユーザから音声信号が再度取得される。カウンタｉが回数Ｍ以上である場合には登録処理を終了する。繰り返し回数Ｍは、同一ユーザによりキーワードの登録処理を繰り返す回数を示し、認証処理に必要な精度や認証装置の処理速度等に基づいて定めることができる。
【００６５】
ステップＳ２０において、カウンタｉが０でないと判断され、ステップＳ２６に処理が移行された場合、抽出用データベースに既に登録されている抽出用情報に基づいて音声信号からキーワードに相当する区間が抽出される。抽出には、登録を行っているユーザに関連付けられた抽出用情報によるワードスポッティングを用いることができる。音声信号の中から抽出用情報と最も類似性が高い区間が新たなキーワードに相当する区間として抽出される。
【００６６】
抽出用データベースに既に登録されているユーザＡに対する抽出用情報が選び出され、選び出された抽出用情報を用いてユーザから取得された音声信号に対するワードスポッティングが行われ、キーワード「１２３４」に相当する区間が抽出される。
【００６７】
ステップＳ２８では、照合用データベースに既に登録されている照合用情報とキーワードに相当する区間として抽出された音声信号とが比較される。比較には、既存のＤＰマッチング等を用いることができる。両者の比較結果は、情報間の距離値に基づいて類似度として算出される。以下では、距離値の逆数を類似度として算出する。従って、抽出された区間の音声信号の特徴量とカウンタｉで特定されるユーザに対する照合用情報との類似性が高いほど、類似度の値は大きくなる。算出された類似度はユーザに関連付けられて記憶部１２に保持される。
【００６８】
照合用データベースに既に登録されているユーザＡに対する照合用情報が選び出され、キーワード「１２３４」に相当する区間として抽出された区間のＬＰＣケプストラムと選択された照合用情報であるＬＰＣケプストラムとの類似度が算出される。
【００６９】
ステップＳ３０では、算出された類似度と予め定められた閾値とが比較される。類似度が閾値以上である場合にはステップＳ３２に処理を移行させ、類似度が閾値より小さい場合にはステップＳ１６に処理を戻してユーザから音声信号を再度取得する。
【００７０】
ステップＳ３２では、ステップＳ２６で抽出されたキーワードに相当する区間の音声信号の特徴量によって照合用データベース及び予備検索用データベースの登録内容が更新される。すなわち、登録処理を行っているユーザと関連付けられて照合用データベースに既に登録されている照合用情報がステップＳ２６で新たに抽出された区間の音声信号の特徴量によって更新される。また、登録処理を行っているユーザと関連付けられて予備検索用データベースに既に登録されている予備検索用情報が新たに抽出された区間の音声信号の特徴量の一部と置き換えられる。
【００７１】
例えば、図９に示すように、照合用データベース及び予備検索用データベースの登録内容が更新される。ここでは、ユーザＡと関連付けられて既に登録されている照合用情報及び予備検索用情報が、ステップＳ２６で新たに抽出されたキーワードに相当する区間のＬＰＣケプストラム及びＬＰＣケプストラムの０〜８次係数の値とそれぞれ置換される。
【００７２】
また、照合用情報がマルチテンプレートによって構成されるのであれば、既に登録されているテンプレートのうち最も類似度が低いテンプレートと新たに抽出された区間の音声信号の特徴量とを置き換えても良い。この場合、予備検索用情報は照合用情報のマルチテンプレートのなかの最も類似度が高いテンプレートとすることが好ましい。
【００７３】
また、ユーザと関連付けられて既に登録されている照合用情報及び予備検索用情報とステップＳ２６で新たに抽出された音声信号の特徴量との平均値によって更新することも好適である。
【００７４】
このように、同一のユーザからキーワードを含む音声信号を複数回取得し、複数の音声信号に基づいて照合用情報及び予備検索情報を登録することによって、ユーザの認証処理の精度をより高めることができる。
【００７５】
以上のように、本実施の形態によれば、ユーザが登録しようとするキーワードに含まれる記号群をキーボード等の入力装置を用いて取得し、それらの記号群に基づいて認識モデルを構築する。初回の登録時には、このようにユーザの発声によらずに構築された認識モデルを用いてキーワードに相当する区間を抽出することによって、登録すべき照合用情報の区間の前後に不要音や雑音が含まれた区間が付加されて検出されたり、語頭や語尾に振幅が小さい子音等が存在する場合にこれらの子音が欠落して検出されたりすることを防ぐことができる。また、照合用情報の中にポーズ（無音区間）が含まれる場合にも、照合用情報の一部が欠落してしまうことを防ぐことができる。
【００７６】
すなわち、ユーザから取得した音声信号からキーワードに対応する区間を適切に切り出すことができ、照合用情報、抽出用情報及び予備検索用情報を適確に登録することができる。その結果、以下の照合処理において、ユーザの認証の精度を向上することができる。
【００７７】
（照合処理）
次に、本実施の形態における照合処理について説明する。照合処理は、図１０に示すフローチャートに沿って行われる。図１０に示すフローチャートの各工程をプログラム化し、記憶部１２に格納及び保持することによって、照合処理を上記認証装置によって実現することができる。
【００７８】
ステップＳ４０では、自己の認証を行おうとするユーザからキーワードを音声信号として取得する。制御部１０は、ユーザに対して認証を行うためにキーワードを発声することを促す画面を表示部１８に表示させると共に、音声信号取得部１６を音声入力待機状態とする。認証を行おうとするユーザは、登録処理において自己を特定するためのキーワードを発声して音声信号取得部１６から入力する。入力された音声信号は、アナログ／デジタル変換され、認証用情報として記憶部１２に格納される。
【００７９】
ユーザＡが自己の認証を行おうとする場合、ユーザＡは自己のキーワード「１２３４」をマイクに向かって発声することによって音声信号を認証用情報として認証装置に入力する。このとき、取得される認証用情報にはユーザＡが発声したキーワード「１２３４」と共に、不要音や外部からの雑音、無声区間などの不要な区間の音声信号も含まれる。
【００８０】
ステップＳ４２では、デジタル変換された認証用情報から特徴量が抽出される。認証用情報の特徴量は、登録処理で照合用データベース、抽出用データベース及び予備検索用データベースに登録された特徴量と同種のものとする。例えば、各データベースにＬＰＣケプストラムの係数値が登録されている場合には、認証用情報からＬＰＣケプストラムを特徴量として求める。ここでの処理の詳細は、ステップＳ１８と同様であるので説明は省略する。
【００８１】
ここでは、ユーザＡから取得された認証用情報が所定のフレーム周期毎に所定のフレーム幅を有する複数のフレームに分割され、フレーム毎にスペクトル分析が行われて１２次のＬＰＣケプストラ係数が抽出される。
【００８２】
ステップＳ４４では、予備検索用データベースに登録された予備検索情報を用いて、認証用情報に対する予備的な検索が行われる。既存のワードスポッティング法等を用いて、予備検索用データベースに含まれる各予備検索情報とユーザから取得した認証用情報の特徴量との比較が順次行われる。ＤＰマッチング法等を用いて算出された類似度が高い順にその予備検索情報に関連付けられたユーザが所定人数Ｃだけ予備的に選択される。
【００８３】
例えば、予備検索用データベースに各ユーザに対するキーワードのＬＰＣケプストラムの０〜８次係数が予備検索用情報として登録されている場合、ステップＳ４２で求められた認証用情報のＬＰＣケプストラムの０〜８次係数と予備検索用データベースに含まれている各予備検索用情報とのマッチングが行われ、認証用情報内の予備検索用情報と類似性が高い区間の類似度が大きい順にその予備検索用情報に関連付けられているユーザ名が所定人数だけ選び出される。選び出されたユーザには１から順番に識別番号が割り振られる。
【００８４】
予備検索で抽出する人数Ｃを３人であるとすると、ＤＰマッチング法等を用いて算出された類似度が大きい順に３つの予備検索情報が選び出され、その選択された予備検索情報に関連付けられたユーザが予備的に選択される。以下の説明では、ユーザＡ，Ｂ，Ｃが選択され、それぞれに１，２，３の識別番号が割り振られたものとする。
【００８５】
このように、照合用情報や抽出用情報よりも情報量が少ない予備検索用情報を用いてユーザの絞り込みを行うことによって後の処理の負担を低減することができる。
【００８６】
ステップＳ４６では、カウンタｊの初期化が行われる。カウンタｊは、照合を行ったユーザ数をカウントするために用いられ、このステップでカウンタｊが１に設定される。
【００８７】
ステップＳ４８では、抽出用データベースに登録された抽出用情報を用いて認証用情報の中からキーワードに相当する区間が抽出される。ワードスポッティング法等を用いて、ステップＳ４４で予備的に選択されカウンタｊの値で特定されるユーザに関連付けられた抽出用情報と最も類似性が高い区間が認証用情報から抽出される。抽出された区間の音声信号の特徴量はカウンタｊで特定されるユーザに対応付けられて記憶部１２に保持される。
【００８８】
ステップＳ４４においてユーザＡ，Ｂ，Ｃに絞り込まれ、各々に１，２，３の識別番号が割り振られた場合、カウンタｊが１であれば、抽出用データベースの中からユーザＡに対応するＬＰＣケプストラムの係数値が選択され、認証用情報からそのＬＰＣケプストラムの係数値と最も類似性が高い区間が抽出される。カウンタｊが２であればユーザＢに対応するＬＰＣケプストラムの係数値、カウンタｊが３であればユーザＣに対応するＬＰＣケプストラムの係数値を用いて抽出が行われる。
【００８９】
ステップＳ５０では、ステップＳ４４において抽出された区間の音声信号と照合用データベースに登録されている照合用情報との類似度が算出される。ＤＰマッチング法等を用いて、抽出された区間の音声信号の特徴量とカウンタｊで特定されるユーザに対する照合用情報とが比較され、両者の情報間の類似度が算出される。算出された類似度はユーザに関連付けられて記憶部１２に保持される。
【００９０】
ステップＳ４４においてユーザＡ，Ｂ，Ｃに絞り込まれ、各々に１，２，３の識別番号が割り振られた場合、カウンタｊが１であれば、照合用データベースの中からユーザＡに対応するＬＰＣケプストラムの係数値が選択され、ステップＳ４４において抽出された区間のＬＰＣケプストラムの係数値との類似度が求められる。カウンタｊが２であればユーザＢに対応するＬＰＣケプストラムの係数値、カウンタｊが３であればユーザＣに対応するＬＰＣケプストラムの係数値を用いて類似度が求められる。
【００９１】
ステップＳ５２では、カウンタｊの値が１だけ増加される。ステップＳ５４では、カウンタｊの値が予備検出されたユーザ数Ｃ以上であるか否かが判断される。カウンタｊがユーザ数Ｃより小さい場合にはステップＳ４８へ処理を戻し、次のカウンタｊの値が割り当てられたユーザに対して処理が繰り返される。カウンタｊがユーザ数Ｃ以上である場合にはステップＳ５６へ処理を進める。
【００９２】
ここまでの処理によって、ユーザＡ，Ｂ，Ｃの各々に対して、認証用情報と各ユーザの照合用情報との類似度が求められる。
【００９３】
ステップＳ５６では、記憶部１２に保持された類似度が読み出され、それらＣ個の類似度のうち最も値が大きいもの、すなわち類似性が最も高いものが選出される。その値は予め設定された閾値と比較され、類似度が閾値より大きい場合にはステップＳ５８へ処理が移行され、類似度が閾値以下の場合にはステップＳ６０へ処理が移行される。
【００９４】
ステップＳ５８では、認証処理を行っているユーザを最も値が大きい類似度に対応するユーザであるとして認証する。認証に伴って、ユーザが認証された旨を示す画面を表示部１８に表示させたり、ドアの鍵を開錠する等の処理を行っても良い。
【００９５】
ユーザＡが認証を行おうとしている場合、ユーザＡ，Ｂ，ＣのうちユーザＡの照合用情報との類似度が最も大きくなり、ユーザＡに対する類似度は閾値を超えるものとなる。一方、キーワードの登録処理を行っていないユーザが認証を行った場合、予備選択された全てのユーザに対する類似度は閾値を超えるものとはならず、そのユーザは認証されないこととなる。
【００９６】
ステップＳ６０では、ユーザが認証されない場合の処理を行う。例えば、ユーザが認証されなかった旨を示す画面を表示部１８に表示させる処理を行っても良い。
【００９７】
ステップＳ６２では、ユーザの認証が行われたことに伴って、認証されたユーザに関する照合用情報及び予備検索用情報が更新される。すなわち、ステップＳ４８において認証されたユーザに対応付けて記憶部１２に保持されたキーワードに相当する区間の音声信号の特徴量によって照合用データベース及び予備検索用データベースの登録内容が更新される。
【００９８】
例えば、認証されたユーザと関連付けられて照合用データベースに既に登録されている照合用情報がステップＳ５８で認証されたユーザに対応付けて保持された音声信号のＬＰＣケプストラムと置き換えられる。照合用情報がマルチテンプレートによって構成されるのであれば、総てのテンプレートのうち最も類似度が小さいテンプレートと抽出された音声信号のＬＰＣケプストラムが置き換えられる。
【００９９】
また、認証されたユーザと関連付けられて予備検索用データベースに既に登録されている予備検索用情報が認証されたユーザに対応付けて保持された音声信号のＬＰＣケプストラムに基づいて置き換えられる。例えば、照合用情報がＬＰＣケプストラムの全係数値である場合には、予備検索用情報はＬＰＣケプストラムの一部の係数値と置き換えられる。また、照合用情報がＬＰＣケプストラムの係数値のマルチテンプレートによって構成されるのであれば、それらのテンプレートのうち最も類似度が大きいテンプレートと置き換えても良い。
【０１００】
また、認証されたユーザと関連付けられて既に登録されている照合用情報及び予備検索用情報と認証されたユーザと対応付けられた音声信号のＬＰＣケプストラム及びＬＰＣケプストラムの一部の係数値との平均値によって更新することも好適である。
【０１０１】
このように、認証されたユーザの照合用情報及び予備検索用情報を更新することによって、ユーザの体調や発声の仕方等の経時的な変動に対する認証の精度の低下を抑制することができる。
【０１０２】
また、抽出用データベースに登録されている抽出用情報は更新されないため、認証用情報からキーワードに相当する区間を抽出する処理はキーワードの登録時から不変的に行われる。従って、認証処理を繰り返すことによる照合用情報や予備検索用情報の誤りの累積的な蓄積の影響を低減することができる。すなわち、更新されない抽出用情報を用いたキーワード区間の切り出しと、認証毎に更新される照合用情報を用いたユーザの最終的な認証とを別個に行うことによって、ユーザの発声の経時的変化に対応した精度の高い認証処理を実現すると共に、照合用情報の更新に伴う誤差の蓄積を低減することができる。
【０１０３】
また、本実施の形態では、予備検索用情報を用いてユーザの予備的な絞り込みを行ったが、これらの予備検索処理は省略しても良い。
【０１０４】
＜変形例１＞
次に上記本発明の実施の形態における変形例について説明する。本変形例は、上記実施の形態における認証装置を用いて実行することができる。本変形例も、登録処理と照合処理とに大きく分けられるが、登録処理については上記処理と同様であるので、照合処理のみについて以下に説明する。
【０１０５】
変形例における照合処理は、図１１に示すフローチャートに沿って行われる。図１１に示すフローチャートの各工程をプログラム化し、記憶部１２に格納及び保持することによって、照合処理を上記認証装置によって実現することができる。ここで、上記実施の形態における照合処理の工程と同一の処理を行う工程には同一の符号を付し説明を省略する。
【０１０６】
ステップＳ６４では、ステップＳ４２において抽出された音声信号の特徴量と照合用データベースに登録されている照合用情報とが比較される。ワードスポッティング法等を用いて、ステップＳ４４で選択されカウンタｊで特定されるユーザに関連付けられた照合用情報と最も類似度が高い区間が認証用情報から抽出される。さらに、ＤＰマッチング法等を用いて、抽出された区間の音声信号の特徴量とカウンタｊで特定されるユーザに対する照合用情報とが比較され、両者の情報間の類似度が算出される。従って、抽出された区間の音声信号の特徴量とカウンタｊで特定されるユーザに対する照合用情報との類似性が高いほど、類似度の値は大きくなる。算出された類似度はユーザに関連付けられて記憶部１２に保持される。
【０１０７】
例えば、ステップＳ４４においてユーザＡ，Ｂ，Ｃに絞り込まれ、各々に１，２，３の識別番号が割り振られた場合、カウンタｊが１であれば、照合用データベースの中からユーザＡに対応する照合用情報が選択され、認証用情報からその照合用情報と最も類似性が高い区間が切り出され、その区間の特徴量と照合用情報との類似度が算出される。カウンタｊが２であればユーザＢに対応する照合用情報、カウンタｊが３であればユーザＣに対応する照合用情報を用いて類似度の算出が行われる。
【０１０８】
すなわち、本変形例では、抽出用データベースに登録されている抽出用情報を用いることなく、認証用情報と各ユーザの照合用情報との類似度を算出する。そして、それらの類似度に基づいてステップＳ５６〜Ｓ６０においてユーザの認証処理を行う。
【０１０９】
ステップＳ６６では、最大の類似度に対応するユーザ、すなわち認証されたユーザに関連付けられている抽出用情報を用いて、音声信号からキーワードに相当する区間が抽出される。認証されたユーザに関連付けられた抽出用情報が抽出用データベースから選択され、ワードスポッティング法等を用いて、ステップＳ４２で抽出された音声信号の特徴量とその抽出用情報とが比較され、抽出用情報と最も類似性が高い区間がキーワードに相当する区間として切り出される。
【０１１０】
ステップＳ６２では、そのキーワードに相当する区間の特徴量によって、認証されたユーザに関連付けられた照合用情報及び予備検索用情報が更新される。
【０１１１】
本変形例によれば、認証されたユーザに対してのみキーワードに相当する区間が抽出されるため、ステップＳ４６〜Ｓ５４のユーザ認証処理の処理負担を軽減することができる。その結果、ユーザが音声を入力してから認証結果が得られるまでの待ち時間を短縮することができる。
【０１１２】
【発明の効果】
本発明によれば、認証に用いられるキーワードを正確に登録でき、ユーザの発声の経時的変化の影響を受け難い話者認証を実現できる。
【図面の簡単な説明】
【図１】本発明の実施の形態における認証装置の構成を示すブロック図である。
【図２】本発明の実施の形態における認証装置の別の構成を示すブロック図である。
【図３】本発明の実施の形態における話者認証の登録処理のフローチャートを示す図である。
【図４】認識モデルの構築の例を説明する図である。
【図５】ユーザから取得される音声信号の例を示す図である。
【図６】音声信号から特徴量の抽出の例を説明する図である。
【図７】ユーザから取得された音声信号に対してワードスポッティング法を適用した例を説明する図である。
【図８】照合用データベース、抽出用データベース及び予備検索用データベースの登録内容の例を示す図である。
【図９】照合用データベース及び予備検索用データベースの更新の例を説明する図である。
【図１０】本発明の実施の形態における話者認証の照合処理のフローチャートを示す図である。
【図１１】本発明の実施の形態に対する変形例における話者認証の照合処理のフローチャートを示す図である。
【符号の説明】
１０制御部、１２記憶部、１４キーワード取得部、１６音声信号取得部、１８表示部、２０バス、２２，２４ネットワークインターフェース、１００認証装置、１００ａクライアント、１００ｂサーバ。

Claims

複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、
前記認証用情報取得手段において取得された認証用情報からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベース記憶手段を含むことを特徴とする話者認証装置。
複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、
キーワードに含まれる記号を取得するキーワード取得手段と、
前記キーワード取得手段において取得された各記号を表す音声認識モデルを取得し、それらの音声認識モデルを組み合わせてキーワードを表す認識モデルを構築する認識モデル構築手段と、
ユーザから音声信号を取得する登録音声信号取得手段と、
前記登録音声信号取得手段において取得された音声信号から前記認識モデル構築手段において構築された認識モデルとの類似性が最も高い区間を抽出する登録キーワード区間抽出手段と、を含み、
前記照合用データベース記憶手段は、前記キーワード区間抽出手段において抽出された区間の音声信号の特徴量を前記登録音声信号取得手段において音声信号を取得したユーザと関連付けて照合用情報として保持することを特徴とする話者認証装置。
請求項１又は２に記載の話者認証装置において、
前記ユーザ特定手段において特定されたユーザと関連付けられて前記照合用データベース記憶手段に保持されている照合用情報を、前記認証用情報取得手段において取得された認証用情報に基づいて更新する照合用データベース更新手段を含むことを特徴とする話者認証装置。
請求項１〜３のいずれか１つに記載の話者認証装置において、
前記照合用データベース記憶手段に保持されている照合用情報の絞り込みを行う予備検索手段をさらに含み、
前記ユーザ特定手段において、前記認証用情報取得手段において取得された認証用情報と前記予備検索手段によって絞り込まれた照合用情報とを比較することによって前記認証を行おうとするユーザを特定することを特徴とする話者認証装置。
複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベースと、ユーザから取得された音声信号からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベースと、を備えるコンピュータに、
認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得ステップと、
前記認証用情報から前記抽出用データベースに保持されている抽出用情報と類似性が高い区間を抽出するキーワード区間抽出ステップと、
前記抽出された区間の音声信号の特徴量と照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定ステップと、
を含む処理を実行させることを特徴とする話者認証プログラム。