JP2004294755A - 話者認証装置及び話者認証プログラム - Google Patents

話者認証装置及び話者認証プログラム Download PDF

Info

Publication number
JP2004294755A
JP2004294755A JP2003086865A JP2003086865A JP2004294755A JP 2004294755 A JP2004294755 A JP 2004294755A JP 2003086865 A JP2003086865 A JP 2003086865A JP 2003086865 A JP2003086865 A JP 2003086865A JP 2004294755 A JP2004294755 A JP 2004294755A
Authority
JP
Japan
Prior art keywords
user
information
authentication
keyword
collation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003086865A
Other languages
English (en)
Other versions
JP4318475B2 (ja
Inventor
Fumihiko Takai
史比古 高井
Shuichi Ikeno
修一 池野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2003086865A priority Critical patent/JP4318475B2/ja
Publication of JP2004294755A publication Critical patent/JP2004294755A/ja
Application granted granted Critical
Publication of JP4318475B2 publication Critical patent/JP4318475B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】キーワードを正確に登録し、認証を確実に行う話者認証を実現する。
【解決手段】複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて照合用データベースとして保持する記憶部12と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する音声信号取得部16とを備え、取得された認証用情報と照合用データベースに保持されている照合用情報とを比較することによって認証を行おうとするユーザを特定する認証装置100であって、取得された認証用情報からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として記憶部12の抽出用データベースに保持する認証装置。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声を発する話者が誰であるかを特定するための話者認証装置及び話者認証プログラムに関する。
【0002】
【従来の技術】
ユーザが発声したキーワードから発声者が誰であるかを認証し、その認証結果に基づいてセキュリティ管理を行う話者認証装置が用いられている。
【0003】
このような話者認証装置では、認証に先立ってユーザを特定するキーワード(暗証番号等)の音声信号の特徴量をそのユーザに対応付けて照合用データベースとして登録しておく必要がある。このキーワードに対応する音声信号の特徴量は、ユーザの認証を行う際の照合用情報として用いられる。ユーザが認証を受けようとするとき、そのユーザは予め登録しておいたキーワードを含む音声を認証用情報として話者認証装置へ入力する。この認証用情報と照合用情報とが比較されることによって、認証用情報と類似度が高い照合用情報が選び出され、認証用情報を入力したユーザはその類似度が高い照合用情報と対応付けられたユーザとして認証される。
【0004】
照合用データベースに照合用情報を登録する際、ユーザが発した音声には雑音区間や無声区間等の不要な部分が含まれるため、キーワードに相当する区間を正確に抽出し、そのキーワードに相当する区間の音声信号の特徴量を照合用情報として登録する必要がある。照合用情報は話者認証装置における鍵の役割を果たすため、この照合用情報の区間検出の精度がその後の認証処理の精度に大きく影響を与える。
【0005】
音声信号の切り出しに対して、入力信号の振幅情報及び継続時間に基づいて登録に必要な音声区間を検出する方法が開示されている(例えば、ラビナ(L.R.Rabiner)らの”独立した発声の終了点を決定するためのアルゴリズム(An algorithm for determining the endpoint of isolated utterances)”)。
【0006】
一方、DPマッチング等のパターンマッチングをによって算出される類似度を用いて、音声信号の中から予め定められた単語が存在するかどうか及び存在する場合はその位置を決定するワードスポッティング法も広く用いられている。ワードスポッティング法は、入力信号の振幅情報及び継続時間に基づいて音声区間を検出する方法よりも雑音の影響を受け難いことが知られている(例えば、速水悟らの「連続DPによる連続単語認識実験とその考察」等)。
【0007】
さらに、ユーザからの音声入力に基づいてキーワードとして用いられる数字、アルファベット等の記号を表す音声認識モデルを準備しておき、この話者モデルを用いて話者認識を行う方法も開示されている(例えば、特開2000−99090号公報)。
【0008】
また、照合用情報を登録してから時間が経つと、ユーザの体調や発声の仕方が変化することがある。このような場合、照合用情報を登録したユーザと同一のユーザが発した認証用情報であっても認証に失敗する可能性が高くなる。このように経時的な音声の変化の影響を解消するために、認証処理を行う毎に認証用情報からキーワードに相当する区間を抽出し、その区間の音声信号の特徴量によって照合用情報を更新する方法も用いられている(例えば、特開昭57−13493号公報等)。
【0009】
【特許文献1】
特開昭57−13493号公報
【特許文献2】
特開2000−99090号公報
【非特許文献1】
ラビナ(L.R.Rabiner et al.),”独立した発声の終了点を決定するためのアルゴリズム(An algorithm for determining the endpoint of isolated utterances)”,Bell Syst. Tech. J.,1975, vol.54, pp297−315
【非特許文献2】
速水悟,「連続DPによる連続単語認識実験とその考察」,電気通信学会論文誌,1984, vol.J67−D,No.6,pp677−684
【0010】
【発明が解決しようとする課題】
しかしながら、上記従来の技術においては、照合用情報を登録する際にユーザから取得した音声信号から登録すべき照合用情報を適切に抽出できない問題がある。
【0011】
入力信号の振幅情報及び継続時間に基づいて音声区間を検出する方法では、登録すべき照合用情報の区間の前後にユーザが発生した不要音(「あ〜」、「え〜」など)や外部雑音が含まれた区間が付加されて検出されることが多い。また、語頭や語尾に振幅が小さい子音等が存在する場合にこれらの子音が欠落して検出されたりすることもある。さらに、照合用情報の中にポーズ(無音区間)が含まれる場合には、照合用情報の一部が欠落してしまう可能性もある。
【0012】
このような照合用情報の区間検出の誤りは、高精度な認証装置を実現するうえで致命的である。雑音が混入した状態で照合用情報が登録された場合、認証処理を行う際にユーザが正しく認証される確率が低くなる。一方、照合用情報の一部が欠落して登録された場合、ユーザの個人的特徴を示す情報の情報量が少なくなるため、他人をその照合用情報を登録したユーザとして誤って認証してしまう確率が高くなる。
【0013】
また、特開2000−99090号公報に記載の技術では、標準的な話者モデルをユーザの発声によって選択し、選択された話者モデルの組み合わせによってキーワードの音声モデルを作成し、その音声モデルを用いて照合用情報を抽出する。従って、話者モデルを選択する際のユーザの発声が明瞭でなかったときには適切な話者モデルが選択されず、照合用情報の区間が誤って検出されてしまう問題がある。
【0014】
一方、ユーザの認証を行う際にも、認証用情報となるキーワードをユーザが言い淀んでしまったり、キーワードの語頭や語尾が明瞭に発声されなかったときには、キーワードに相当する区間の一部が欠落して検出されたり、一部が無音区間として検出されたりと、認証用情報からキーワードに相当する区間を正確に抽出できなくなる問題を生ずる。その結果、ユーザの認証の精度が低下したり、認証を誤ってしまう可能性がある。
【0015】
また、ユーザの発声の経時変化に対応するために照合用情報を随時更新する際に、認証用情報から誤って抽出されたキーワードによって照合用情報が更新されることとなり、次回の認証処理に対して悪影響を及ぼしてしまう。さらに、照合用情報の更新が繰り返されることによって、誤りの累積的な蓄積が起こり、認証処理を行った回数の増加に伴って認証処理の精度が急激に低下してしまう問題もある。
【0016】
本発明は、上記従来技術の問題を鑑み、上記課題の少なくとも1つを解決できる発声者が誰であるかを特定するための話者認証装置及び話者認証プログラムを提供することを目的とする。
【0017】
【課題を解決するための手段】
上記課題を解決できる本発明は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、前記認証用情報取得手段において取得された認証用情報からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベース記憶手段を含むことを特徴とする。
【0018】
ここで、前記認証用情報取得手段において取得された認証用情報から前記抽出用データベース記憶手段に保持された抽出用情報と類似性が高い区間を抽出する照合キーワード区間抽出手段をさらに含み、前記ユーザ特定手段では、前記照合キーワード区間抽出手段において抽出された区間と前記照合用データベース保持手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定することが好適である。
【0019】
また、上記課題を解決できる本発明の別の形態は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、キーワードに含まれる記号を取得するキーワード取得手段と、前記キーワード取得手段において取得された各記号を表す音声認識モデルを取得し、それらの音声認識モデルを組み合わせてキーワードを表す認識モデルを構築する認識モデル構築手段と、ユーザから音声信号を取得する登録音声信号取得手段と、前記登録音声信号取得手段において取得された音声信号から前記認識モデル構築手段において構築された認識モデルとの類似性が最も高い区間を抽出する登録キーワード区間抽出手段と、を含み、照合用データベース記憶手段は、前記キーワード区間抽出手段において抽出された区間の音声信号の特徴量を前記登録信号取得手段において音声信号を取得したユーザと関連付けて照合用情報として保持することを特徴とする。
【0020】
ここで、前記キーワード取得手段は、キーボード、ポインティングデバイス、タッチパネルを用いてキーワードを取得することが好適である。
【0021】
また、上記本発明の話者認証装置において、前記ユーザ特定手段において特定されたユーザと関連付けられて前記照合用データベース記憶手段に保持されている照合用情報を、前記認証用情報取得手段において取得された認証用情報に基づいて更新する照合用データベース更新手段を含むことも好適である。
【0022】
さらに、上記本発明の話者認証装置において、前記照合用データベース更新手段では、前記認証用情報取得手段において取得された認証用情報のうち、前記抽出用データベース記憶手段に前記ユーザ特定手段において特定されたユーザと関連付けられて保持されている抽出用情報と類似性が高い区間の音声信号の特徴量によって照合用情報を更新することがより好適である。
【0023】
さらに、上記本発明の話者認証装置において、前記照合用データベース記憶手段に保持されている照合用情報の絞り込みを行う予備検索手段を含み、前記ユーザ特定手段において、前記認証用情報取得手段において取得された認証用情報と前記予備検索手段によって絞り込まれた照合用情報とを比較することによって前記認証を行おうとするユーザを特定することが好適である。
【0024】
また、上記課題を解決できる本発明の別の形態は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベースと、ユーザから取得された音声信号からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベースと、を備えるコンピュータに、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得ステップと、前記認証用情報から前記抽出用データベースに保持されている抽出用情報と類似性が高い区間を抽出するキーワード区間抽出ステップと、前記抽出された区間の音声信号の特徴量と照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定ステップとを含む処理を実行させることを特徴とする認証プログラムである。
【0025】
また、上記課題を解決できる本発明の別の形態は、複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベースを備えるコンピュータに、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得ステップと、前記認証用情報と前記照合用データベース手段に保持されている照合用情報と比較することによって前記認証を行うとするユーザを特定するユーザ特定ステップとを実行させる認証プログラムであって、前記コンピュータに、キーワードに含まれる記号を取得するキーワード取得ステップと、前記記号の各々を表す音声認識モデルを取得し、それらの音声認識モデルを組み合わせて認識モデルを構築する認識モデル構築ステップと、ユーザから音声信号を取得する登録音声信号取得ステップと、前記登録音声信号取得ステップにおいて取得された音声信号から前記認識モデルとの類似性が最も高い区間を抽出する登録キーワード区間抽出ステップと、照合用データベースに前記抽出された区間の音声信号の特徴量を前記登録信号取得ステップにおいて音声信号を取得したユーザと関連付けて照合用情報として保持するデータベース登録ステップと、を含む処理を実行させることを特徴とする。
【0026】
ここで、前記キーワード取得ステップは、キーボード、ポインティングデバイス、タッチパネルを用いてキーワードを取得することが好適である。
【0027】
また、上記本発明の話者認証プログラムにおいて、前記コンピュータに、前記ユーザ特定ステップにおいて特定されたユーザと関連付けられて前記照合用データベースに保持されている照合用情報を、前記認証用情報に基づいて更新する照合用データベース更新ステップを実行させることも好適である。
【0028】
さらに、上記本発明の話者認証プログラムにおいて、前記照合用データベース更新ステップでは、前記認証用情報のうち前記抽出用データベースに前記ユーザ特定ステップにおいて特定されたユーザと関連付けられて保持されている抽出用情報と類似性が高い区間の音声信号の特徴量によって照合用情報を更新することがより好適である。
【0029】
さらに、上記本発明の話者認証プログラムにおいて、前記コンピュータに、前記照合用データベースに保持されている照合用情報の絞り込みを行う予備検索ステップを実行させ、前記ユーザ特定ステップにおいて、前記認証用情報と前記予備検索ステップによって絞り込まれた照合用情報とを比較することによって前記認証を行おうとするユーザを特定することが好適である。
【0030】
【発明の実施の形態】
<認証装置>
本発明の実施の形態における認証装置について、図を参照しながら詳細に説明する。本実施の形態における認証装置は、ユーザが発声した音声に基づいてユーザが誰であるかを認証する音声認証を行う装置である。
【0031】
本実施の形態における認証装置100は、図1のように、制御部10、記憶部12、キーワード取得部14、音声信号取得部16、表示部18及びバス20から基本的に構成される。制御部10、記憶部12、キーワード取得部14、音声信号取得部16及び表示部18は、バス20を介して、互いに情報伝達可能に接続される。
【0032】
制御部10は、コンピュータの中央処理装置(CPU)に相当する。制御部10は、記憶部12に格納した基本ソフトウェア(オペレーションシステム)を実行することによって、キーワード取得部14や音声信号取得部16を用いてユーザから情報を取得し、表示部18を用いてユーザへの情報の提示を行う。また、記憶部12に格納されている認証プログラムを実行することにより、ユーザから取得した音声に基づいてユーザの認証処理を行う。認証処理については、後に詳細に説明を行う。
【0033】
記憶部12は、制御部10によって実行される基本ソフトウェアや認証プログラム等を格納及び保持する。また、キーワード取得部14や音声信号取得部16を用いて取得された情報や表示部18を用いてユーザへ提示される情報等、制御部10で処理される情報を一時的又は恒久的に格納及び保持する。さらに、記憶部12は、認証処理において使用される照合用データベース、抽出用データベース、予備検索用データベースを格納及び保持する。これらのデータベースの内容については、後に詳細に説明を行う。記憶部12に保持された情報は、制御部10によって適宜読み出すことができる。
【0034】
記憶部12としては、半導体メモリを用いることができる。また、多数のユーザに対して音声のデータベースを保存する必要がある場合には、ハードディスク、光ディスク、光磁気ディスク、磁気テープ等の大容量の補助記憶装置を備えても良い。
【0035】
キーワード取得部14は、認証処理に用いられるキーワードに含まれる記号を取得するものである。キーワード取得部14は、例えばキーボードとすることができる。ユーザは、キーボードからキーワードを表す記号を入力する。入力された記号は制御部10へ送られて処理に供される。また、キーワード取得部14としてキーボード以外のポインティングデバイス、タッチパネル等の文字入力装置を用いて記号を選択する方法を用いても良い。
【0036】
音声信号取得部16は、ユーザが発声した音声を取得するためのマイク、増幅器(アンプ)及びアナログ/デジタル変換器等を含む。ユーザは、音声信号取得部16を用いて音声の入力を行う。ユーザの発声した音声は、マイクを通じて増幅器で増幅され、アナログ/デジタル変換器によってデジタル信号に変換されて処理に供せられる。
【0037】
表示部18は、ユーザに対して処理に必要な情報を提供するものである。表示部18は、例えば、ディスプレイ装置とすることができる。表示部18は、制御部10からの画像表示の指令を受けて、キーワード取得部14を用いたキーワードの入力を促す画面や音声信号取得部16を用いた音声の入力を促す画面をユーザに対して提示する。また、取得された情報や処理結果をユーザに対して提示する。表示部18としては、タッチパネルの液晶表示装置、スピーカ等を含む音声出力装置等も用いることができる。
【0038】
以上のように、本実施の形態における認証装置100は、マイクロコンピュータが組み込まれた情報処理装置によって基本的に構成することができる。認証装置100は、ユーザの認証処理を行うドア、金庫の扉等の各種装置の付近に設置することができ、ユーザからの音声の入力によってそのユーザが誰であるかを認証するために用いることができる。
【0039】
また、図2に示すように、ネットワークインターフェース22,24をさらに設け、ネットワークで接続された別個のクライアント100a及びサーバ100bによって認証装置全体を構成しても良い。
【0040】
<認証方法>
次に、本実施の形態におけるユーザの認証方法について説明を行う。本実施の形態における認証方法は、ユーザ毎にそのユーザが登録したキーワードを含む音声信号を取得し、その音声信号からキーワードに相当する区間を抽出し、その区間の音声信号の特徴量を各データベースに登録する登録処理と、それらのデータベースを用いて実際にユーザの認証を行う照合処理と、に大きく分けられる。そこで、以下に登録処理と照合処理を分説する。
【0041】
(登録処理)
本実施の形態における登録処理は、図3に示すフローチャートに沿って行われる。なお、本実施の形態における登録処理は図3に示すフローチャートの各工程をプログラム化して記憶部12に格納及び保持することによって、本実施の形態の認証装置によって実行することができる。
【0042】
ステップS10では、キーワード取得部14を用いて、ユーザからキーワードに含まれる記号が取得される。制御部10は、登録しようとするキーワードを構成する記号列の入力をユーザに促す画面を表示部18に表示させる。ユーザは、キーワード取得部14を用いて、自己を特定するためのキーワードに含まれる記号群を認証装置に入力する。入力された記号群は記憶部12に格納される。
【0043】
キーワードは数字列で構成することができる。但し、これに限られるものではなく、アルファベット、仮名文字、数字及びその他の任意記号を任意の数だけ組み合わせたものに拡張することができる。また、認証装置側でキーワードの候補を幾つか定め、ユーザにそれらの候補の中から1つを選択させても良い。
【0044】
以下、ユーザ名Aのユーザ(以下、ユーザAという)が4桁の数字列「1234」をキーワードとして登録する例をとって説明を行う。ユーザAはテンキーの「1」,「2」,「3」,「4」の数字キーを押下することによってキーワードに含まれる記号を入力する。
【0045】
ステップS12では、取得された記号群に基づいて認識モデルが構築される。キーワードとして使用され得る記号毎に、その記号を表す音声認識モデルをモデル構築用データベースとして予め記憶部12に登録しておき、このモデル構築用データベースからステップS10において取得された記号に対応する音声認識モデルを抽出し、それらを組み合わせることによってキーワードを表す標準的な認識モデルを構築することができる。このとき、既存のHMM(Hidden Markov Model)を用いて認識モデルを構築することができる。この認識モデルは、後にユーザから取得される音声信号からキーワードに相当する区間を抽出するために用いられる。
【0046】
ここで、モデル構築用データベースに格納される音声認識モデルは、各記号に対する音声信号を多数のユーザから取得し、それらの音声信号を用いて学習したものであることが好適である。
【0047】
アルファベット、仮名文字、数字及びその他の記号を入力可能なキーボードを用いた場合には、それらの記号の組み合わせからなるキーワードに対する認識モデルを生成できるようにモデル構築用データベースを構築しておく必要がある。
【0048】
例えば、図4に示すように、「1」,「2」,「3」及び「4」に該当する音声認識モデルがモデル構築用データベースから抽出され、キーワード「1234」を表す標準的な認識モデルとして組み合わされる。ここで、例えば「1」に該当する音声認識モデルとは、複数人が発声した記号「1」に相当する音声信号を「1」として認識するように、あるいは、特定の話者が複数回発声した記号「1」に相当する音声信号を「1」として認識するように統計処理を用いて構成したものである。
【0049】
ステップS14では、カウンタiの初期化が行われる。カウンタiは、登録を行うためにユーザがキーワードを入力した回数をカウントするために用いられる。このステップでカウンタiが0に設定される。
【0050】
ステップS16では、音声信号取得部16を用いて、ユーザが発声した音声信号が取得される。制御部10は、ユーザに対してキーワードを発声することを促す画面を表示部18に表示させると共に、音声信号取得部16を音声入力待機状態とする。ユーザは、キーワードを発声することによって、音声信号取得部16から音声信号を入力する。入力された音声信号は、アナログ/デジタル変換され記憶部12に格納される。
【0051】
ユーザAは、「1234」と発声することによって音声信号取得部16を用いて音声信号を入力する。このとき、図5に示すように、取得される音声信号にはユーザが発声したキーワード「1234」に該当する音声信号と共に、外部からの雑音や無声区間などの不要な区間の信号も一緒に取得される。
【0052】
ステップS18では、デジタル変換された音声信号全体に対する特徴量が抽出される。音声信号の特徴量は、スペクトル包絡情報とすることが好適である。スペクトル包絡情報とは、ある瞬間において音声信号に含まれている周波数成分の分布の概形をいう。スペクトル包絡情報は、デジタル化された信号系列を所定のフレーム幅(例えば、32ミリ秒)及びフレーム周期(例えば、8ミリ秒)毎にスペクトル分析を行い、既存のLPC(Linear Predictive Coefficient)ケプストラムを算出することにより求めることができる。
【0053】
但し、音声信号から抽出される特徴量はスペクトル包絡情報に限られるものではなく、音声信号の特徴を示す情報であれば良い。例えば、音声信号の振幅の時間変化、有声区間又は無声区間の出現周期等の特徴量を用いても良い。以下の処理では、ここで選択された特徴量を用いて音声信号のマッチングや抽出が行われる。
【0054】
図6に示す例では、ユーザAから取得した音声信号が所定のフレーム周期毎に所定のフレーム幅を有する複数のフレームに分割され、フレーム毎にスペクトル分析が行われて12次のLPCケプストラムの係数が抽出されている。
【0055】
ステップS20では、処理対象となっている音声信号が初めて取得されたものであるか否かが判断される。すなわち、カウンタiが0である場合にはステップS22に処理が移行され、カウンタiが0以外である場合にはステップS26に処理が移行される。
【0056】
ステップS22では、ステップS12で構築された認識モデルを用いて、取得された音声信号からキーワードに相当する区間が検出及び抽出される。ここでは、認識モデルを用いたワードスポッティング法を用いることができる。HMM法等を用いて、音声信号全体の特徴量と認識モデルの特徴量とが比較され、音声信号全体の中から認識モデルと最も類似性が高い区間がキーワードに相当する区間として抽出される。
【0057】
キーワード「1234」に対する認識モデルのLPCケプストラムが求められ、図7に示すように、ステップS18で求められた音声信号のLPCケプストラムとの間でワードスポッティングが実行される。すなわち、ユーザから取得された音声信号の最初から最後まで、認識モデルとの類似性を調査するためのスキャンが行われる。このとき、HMM法を用いて、音声信号の各区間のLPCケプストラムと認識モデルとの類似度が求められ、最も類似度が高い区間がキーワード「1234」に相当する区間として抽出される。これによって、ユーザAから取得された音声信号からキーワード「1234」と無関係な不要な部分が排除される。
【0058】
ステップS24では、キーワードに相当する区間として抽出された区間の音声信号の特徴量が照合用データベース、抽出用データベース及び予備検索用データベースに登録される。抽出された区間の音声信号の特徴量は、登録を行っているユーザを示す識別子(例えば、ユーザ名等)と関連付けられて、照合用データベース及び抽出用データベースに照合用情報及び抽出用情報としてそれぞれ別個に登録される。
【0059】
また、予備検索用データベースには、抽出された区間の音声信号の特徴量の一部が予備検索用情報として登録される。すなわち、予備検索用データベースに登録される予備検索用情報は、照合用データベースに登録される照合用情報や抽出用データベースに登録される抽出用情報よりも情報量が少なくなるように構成される。例えば、照合用情報が抽出された区間の音声信号の特徴量の全データである場合には、予備検索用情報は抽出された区間の音声信号の特徴量の一部のデータのみとする。また、照合用情報がマルチテンプレートである、すなわち複数回取得された音声信号から抽出されたキーワードに相当する区間の音声信号の特徴量の組み合わせからなる場合には、予備検索用情報はそのなかの1つの音声信号の特徴量としても良い。
【0060】
特徴量としてLPCケプストラムが選ばれた場合、照合用情報及び抽出用情報はキーワードに相当する区間の音声信号のLPCケプストラムとすることができる。この場合、予備検索用データベースに登録される予備検索用情報は、キーワードに相当する区間のLPCケプストラムを時間的又は次数的に間引いたものとすることができる。
【0061】
例えば、図8(a)及び(b)に示すように、照合用データベース及び抽出用データベースに、ユーザ名Aと関連付けてキーワード「1234」に相当する区間のLPCケプストラムが照合用情報及び抽出用情報としてそれぞれ登録される。また、予備検索用データベースには、図8(c)のように、ユーザ名Aと関連付けてキーワード「1234」に相当する区間のLPCケプストラムの0〜8次係数のみが登録される。
【0062】
照合用データベースに登録される照合用情報は、音声からユーザを認証するために用いられる。抽出用データベースに登録される抽出用情報は、音声信号の中のキーワードに相当する区間を特定して、音声信号からキーワードに相当する区間を抽出するために用いられる。予備検索用データベースに登録される予備検索用情報は、照合用情報を用いたユーザの認証や抽出用情報を用いたキーワードに相当する区間の抽出に先立って予備的な絞り込みを行うために用いられる。
【0063】
また、登録が正しく行われたか否かは、後の照合処理の精度を左右する重要な要素であるので、登録された照合用情報、抽出用情報及び予備検索用情報をユーザ本人又は管理者に確認させる処理を行うことも好適である。
【0064】
ステップS34では、カウンタiの値が1つ増加させられる。ステップS36では、カウンタiが繰り返し回数M以上であるか否かが判断される。カウンタiが回数Mより小さい場合にはステップS16へ処理を戻し、ユーザから音声信号が再度取得される。カウンタiが回数M以上である場合には登録処理を終了する。繰り返し回数Mは、同一ユーザによりキーワードの登録処理を繰り返す回数を示し、認証処理に必要な精度や認証装置の処理速度等に基づいて定めることができる。
【0065】
ステップS20において、カウンタiが0でないと判断され、ステップS26に処理が移行された場合、抽出用データベースに既に登録されている抽出用情報に基づいて音声信号からキーワードに相当する区間が抽出される。抽出には、登録を行っているユーザに関連付けられた抽出用情報によるワードスポッティングを用いることができる。音声信号の中から抽出用情報と最も類似性が高い区間が新たなキーワードに相当する区間として抽出される。
【0066】
抽出用データベースに既に登録されているユーザAに対する抽出用情報が選び出され、選び出された抽出用情報を用いてユーザから取得された音声信号に対するワードスポッティングが行われ、キーワード「1234」に相当する区間が抽出される。
【0067】
ステップS28では、照合用データベースに既に登録されている照合用情報とキーワードに相当する区間として抽出された音声信号とが比較される。比較には、既存のDPマッチング等を用いることができる。両者の比較結果は、情報間の距離値に基づいて類似度として算出される。以下では、距離値の逆数を類似度として算出する。従って、抽出された区間の音声信号の特徴量とカウンタiで特定されるユーザに対する照合用情報との類似性が高いほど、類似度の値は大きくなる。算出された類似度はユーザに関連付けられて記憶部12に保持される。
【0068】
照合用データベースに既に登録されているユーザAに対する照合用情報が選び出され、キーワード「1234」に相当する区間として抽出された区間のLPCケプストラムと選択された照合用情報であるLPCケプストラムとの類似度が算出される。
【0069】
ステップS30では、算出された類似度と予め定められた閾値とが比較される。類似度が閾値以上である場合にはステップS32に処理を移行させ、類似度が閾値より小さい場合にはステップS16に処理を戻してユーザから音声信号を再度取得する。
【0070】
ステップS32では、ステップS26で抽出されたキーワードに相当する区間の音声信号の特徴量によって照合用データベース及び予備検索用データベースの登録内容が更新される。すなわち、登録処理を行っているユーザと関連付けられて照合用データベースに既に登録されている照合用情報がステップS26で新たに抽出された区間の音声信号の特徴量によって更新される。また、登録処理を行っているユーザと関連付けられて予備検索用データベースに既に登録されている予備検索用情報が新たに抽出された区間の音声信号の特徴量の一部と置き換えられる。
【0071】
例えば、図9に示すように、照合用データベース及び予備検索用データベースの登録内容が更新される。ここでは、ユーザAと関連付けられて既に登録されている照合用情報及び予備検索用情報が、ステップS26で新たに抽出されたキーワードに相当する区間のLPCケプストラム及びLPCケプストラムの0〜8次係数の値とそれぞれ置換される。
【0072】
また、照合用情報がマルチテンプレートによって構成されるのであれば、既に登録されているテンプレートのうち最も類似度が低いテンプレートと新たに抽出された区間の音声信号の特徴量とを置き換えても良い。この場合、予備検索用情報は照合用情報のマルチテンプレートのなかの最も類似度が高いテンプレートとすることが好ましい。
【0073】
また、ユーザと関連付けられて既に登録されている照合用情報及び予備検索用情報とステップS26で新たに抽出された音声信号の特徴量との平均値によって更新することも好適である。
【0074】
このように、同一のユーザからキーワードを含む音声信号を複数回取得し、複数の音声信号に基づいて照合用情報及び予備検索情報を登録することによって、ユーザの認証処理の精度をより高めることができる。
【0075】
以上のように、本実施の形態によれば、ユーザが登録しようとするキーワードに含まれる記号群をキーボード等の入力装置を用いて取得し、それらの記号群に基づいて認識モデルを構築する。初回の登録時には、このようにユーザの発声によらずに構築された認識モデルを用いてキーワードに相当する区間を抽出することによって、登録すべき照合用情報の区間の前後に不要音や雑音が含まれた区間が付加されて検出されたり、語頭や語尾に振幅が小さい子音等が存在する場合にこれらの子音が欠落して検出されたりすることを防ぐことができる。また、照合用情報の中にポーズ(無音区間)が含まれる場合にも、照合用情報の一部が欠落してしまうことを防ぐことができる。
【0076】
すなわち、ユーザから取得した音声信号からキーワードに対応する区間を適切に切り出すことができ、照合用情報、抽出用情報及び予備検索用情報を適確に登録することができる。その結果、以下の照合処理において、ユーザの認証の精度を向上することができる。
【0077】
(照合処理)
次に、本実施の形態における照合処理について説明する。照合処理は、図10に示すフローチャートに沿って行われる。図10に示すフローチャートの各工程をプログラム化し、記憶部12に格納及び保持することによって、照合処理を上記認証装置によって実現することができる。
【0078】
ステップS40では、自己の認証を行おうとするユーザからキーワードを音声信号として取得する。制御部10は、ユーザに対して認証を行うためにキーワードを発声することを促す画面を表示部18に表示させると共に、音声信号取得部16を音声入力待機状態とする。認証を行おうとするユーザは、登録処理において自己を特定するためのキーワードを発声して音声信号取得部16から入力する。入力された音声信号は、アナログ/デジタル変換され、認証用情報として記憶部12に格納される。
【0079】
ユーザAが自己の認証を行おうとする場合、ユーザAは自己のキーワード「1234」をマイクに向かって発声することによって音声信号を認証用情報として認証装置に入力する。このとき、取得される認証用情報にはユーザAが発声したキーワード「1234」と共に、不要音や外部からの雑音、無声区間などの不要な区間の音声信号も含まれる。
【0080】
ステップS42では、デジタル変換された認証用情報から特徴量が抽出される。認証用情報の特徴量は、登録処理で照合用データベース、抽出用データベース及び予備検索用データベースに登録された特徴量と同種のものとする。例えば、各データベースにLPCケプストラムの係数値が登録されている場合には、認証用情報からLPCケプストラムを特徴量として求める。ここでの処理の詳細は、ステップS18と同様であるので説明は省略する。
【0081】
ここでは、ユーザAから取得された認証用情報が所定のフレーム周期毎に所定のフレーム幅を有する複数のフレームに分割され、フレーム毎にスペクトル分析が行われて12次のLPCケプストラ係数が抽出される。
【0082】
ステップS44では、予備検索用データベースに登録された予備検索情報を用いて、認証用情報に対する予備的な検索が行われる。既存のワードスポッティング法等を用いて、予備検索用データベースに含まれる各予備検索情報とユーザから取得した認証用情報の特徴量との比較が順次行われる。DPマッチング法等を用いて算出された類似度が高い順にその予備検索情報に関連付けられたユーザが所定人数Cだけ予備的に選択される。
【0083】
例えば、予備検索用データベースに各ユーザに対するキーワードのLPCケプストラムの0〜8次係数が予備検索用情報として登録されている場合、ステップS42で求められた認証用情報のLPCケプストラムの0〜8次係数と予備検索用データベースに含まれている各予備検索用情報とのマッチングが行われ、認証用情報内の予備検索用情報と類似性が高い区間の類似度が大きい順にその予備検索用情報に関連付けられているユーザ名が所定人数だけ選び出される。選び出されたユーザには1から順番に識別番号が割り振られる。
【0084】
予備検索で抽出する人数Cを3人であるとすると、DPマッチング法等を用いて算出された類似度が大きい順に3つの予備検索情報が選び出され、その選択された予備検索情報に関連付けられたユーザが予備的に選択される。以下の説明では、ユーザA,B,Cが選択され、それぞれに1,2,3の識別番号が割り振られたものとする。
【0085】
このように、照合用情報や抽出用情報よりも情報量が少ない予備検索用情報を用いてユーザの絞り込みを行うことによって後の処理の負担を低減することができる。
【0086】
ステップS46では、カウンタjの初期化が行われる。カウンタjは、照合を行ったユーザ数をカウントするために用いられ、このステップでカウンタjが1に設定される。
【0087】
ステップS48では、抽出用データベースに登録された抽出用情報を用いて認証用情報の中からキーワードに相当する区間が抽出される。ワードスポッティング法等を用いて、ステップS44で予備的に選択されカウンタjの値で特定されるユーザに関連付けられた抽出用情報と最も類似性が高い区間が認証用情報から抽出される。抽出された区間の音声信号の特徴量はカウンタjで特定されるユーザに対応付けられて記憶部12に保持される。
【0088】
ステップS44においてユーザA,B,Cに絞り込まれ、各々に1,2,3の識別番号が割り振られた場合、カウンタjが1であれば、抽出用データベースの中からユーザAに対応するLPCケプストラムの係数値が選択され、認証用情報からそのLPCケプストラムの係数値と最も類似性が高い区間が抽出される。カウンタjが2であればユーザBに対応するLPCケプストラムの係数値、カウンタjが3であればユーザCに対応するLPCケプストラムの係数値を用いて抽出が行われる。
【0089】
ステップS50では、ステップS44において抽出された区間の音声信号と照合用データベースに登録されている照合用情報との類似度が算出される。DPマッチング法等を用いて、抽出された区間の音声信号の特徴量とカウンタjで特定されるユーザに対する照合用情報とが比較され、両者の情報間の類似度が算出される。算出された類似度はユーザに関連付けられて記憶部12に保持される。
【0090】
ステップS44においてユーザA,B,Cに絞り込まれ、各々に1,2,3の識別番号が割り振られた場合、カウンタjが1であれば、照合用データベースの中からユーザAに対応するLPCケプストラムの係数値が選択され、ステップS44において抽出された区間のLPCケプストラムの係数値との類似度が求められる。カウンタjが2であればユーザBに対応するLPCケプストラムの係数値、カウンタjが3であればユーザCに対応するLPCケプストラムの係数値を用いて類似度が求められる。
【0091】
ステップS52では、カウンタjの値が1だけ増加される。ステップS54では、カウンタjの値が予備検出されたユーザ数C以上であるか否かが判断される。カウンタjがユーザ数Cより小さい場合にはステップS48へ処理を戻し、次のカウンタjの値が割り当てられたユーザに対して処理が繰り返される。カウンタjがユーザ数C以上である場合にはステップS56へ処理を進める。
【0092】
ここまでの処理によって、ユーザA,B,Cの各々に対して、認証用情報と各ユーザの照合用情報との類似度が求められる。
【0093】
ステップS56では、記憶部12に保持された類似度が読み出され、それらC個の類似度のうち最も値が大きいもの、すなわち類似性が最も高いものが選出される。その値は予め設定された閾値と比較され、類似度が閾値より大きい場合にはステップS58へ処理が移行され、類似度が閾値以下の場合にはステップS60へ処理が移行される。
【0094】
ステップS58では、認証処理を行っているユーザを最も値が大きい類似度に対応するユーザであるとして認証する。認証に伴って、ユーザが認証された旨を示す画面を表示部18に表示させたり、ドアの鍵を開錠する等の処理を行っても良い。
【0095】
ユーザAが認証を行おうとしている場合、ユーザA,B,CのうちユーザAの照合用情報との類似度が最も大きくなり、ユーザAに対する類似度は閾値を超えるものとなる。一方、キーワードの登録処理を行っていないユーザが認証を行った場合、予備選択された全てのユーザに対する類似度は閾値を超えるものとはならず、そのユーザは認証されないこととなる。
【0096】
ステップS60では、ユーザが認証されない場合の処理を行う。例えば、ユーザが認証されなかった旨を示す画面を表示部18に表示させる処理を行っても良い。
【0097】
ステップS62では、ユーザの認証が行われたことに伴って、認証されたユーザに関する照合用情報及び予備検索用情報が更新される。すなわち、ステップS48において認証されたユーザに対応付けて記憶部12に保持されたキーワードに相当する区間の音声信号の特徴量によって照合用データベース及び予備検索用データベースの登録内容が更新される。
【0098】
例えば、認証されたユーザと関連付けられて照合用データベースに既に登録されている照合用情報がステップS58で認証されたユーザに対応付けて保持された音声信号のLPCケプストラムと置き換えられる。照合用情報がマルチテンプレートによって構成されるのであれば、総てのテンプレートのうち最も類似度が小さいテンプレートと抽出された音声信号のLPCケプストラムが置き換えられる。
【0099】
また、認証されたユーザと関連付けられて予備検索用データベースに既に登録されている予備検索用情報が認証されたユーザに対応付けて保持された音声信号のLPCケプストラムに基づいて置き換えられる。例えば、照合用情報がLPCケプストラムの全係数値である場合には、予備検索用情報はLPCケプストラムの一部の係数値と置き換えられる。また、照合用情報がLPCケプストラムの係数値のマルチテンプレートによって構成されるのであれば、それらのテンプレートのうち最も類似度が大きいテンプレートと置き換えても良い。
【0100】
また、認証されたユーザと関連付けられて既に登録されている照合用情報及び予備検索用情報と認証されたユーザと対応付けられた音声信号のLPCケプストラム及びLPCケプストラムの一部の係数値との平均値によって更新することも好適である。
【0101】
このように、認証されたユーザの照合用情報及び予備検索用情報を更新することによって、ユーザの体調や発声の仕方等の経時的な変動に対する認証の精度の低下を抑制することができる。
【0102】
また、抽出用データベースに登録されている抽出用情報は更新されないため、認証用情報からキーワードに相当する区間を抽出する処理はキーワードの登録時から不変的に行われる。従って、認証処理を繰り返すことによる照合用情報や予備検索用情報の誤りの累積的な蓄積の影響を低減することができる。すなわち、更新されない抽出用情報を用いたキーワード区間の切り出しと、認証毎に更新される照合用情報を用いたユーザの最終的な認証とを別個に行うことによって、ユーザの発声の経時的変化に対応した精度の高い認証処理を実現すると共に、照合用情報の更新に伴う誤差の蓄積を低減することができる。
【0103】
また、本実施の形態では、予備検索用情報を用いてユーザの予備的な絞り込みを行ったが、これらの予備検索処理は省略しても良い。
【0104】
<変形例1>
次に上記本発明の実施の形態における変形例について説明する。本変形例は、上記実施の形態における認証装置を用いて実行することができる。本変形例も、登録処理と照合処理とに大きく分けられるが、登録処理については上記処理と同様であるので、照合処理のみについて以下に説明する。
【0105】
変形例における照合処理は、図11に示すフローチャートに沿って行われる。図11に示すフローチャートの各工程をプログラム化し、記憶部12に格納及び保持することによって、照合処理を上記認証装置によって実現することができる。ここで、上記実施の形態における照合処理の工程と同一の処理を行う工程には同一の符号を付し説明を省略する。
【0106】
ステップS64では、ステップS42において抽出された音声信号の特徴量と照合用データベースに登録されている照合用情報とが比較される。ワードスポッティング法等を用いて、ステップS44で選択されカウンタjで特定されるユーザに関連付けられた照合用情報と最も類似度が高い区間が認証用情報から抽出される。さらに、DPマッチング法等を用いて、抽出された区間の音声信号の特徴量とカウンタjで特定されるユーザに対する照合用情報とが比較され、両者の情報間の類似度が算出される。従って、抽出された区間の音声信号の特徴量とカウンタjで特定されるユーザに対する照合用情報との類似性が高いほど、類似度の値は大きくなる。算出された類似度はユーザに関連付けられて記憶部12に保持される。
【0107】
例えば、ステップS44においてユーザA,B,Cに絞り込まれ、各々に1,2,3の識別番号が割り振られた場合、カウンタjが1であれば、照合用データベースの中からユーザAに対応する照合用情報が選択され、認証用情報からその照合用情報と最も類似性が高い区間が切り出され、その区間の特徴量と照合用情報との類似度が算出される。カウンタjが2であればユーザBに対応する照合用情報、カウンタjが3であればユーザCに対応する照合用情報を用いて類似度の算出が行われる。
【0108】
すなわち、本変形例では、抽出用データベースに登録されている抽出用情報を用いることなく、認証用情報と各ユーザの照合用情報との類似度を算出する。そして、それらの類似度に基づいてステップS56〜S60においてユーザの認証処理を行う。
【0109】
ステップS66では、最大の類似度に対応するユーザ、すなわち認証されたユーザに関連付けられている抽出用情報を用いて、音声信号からキーワードに相当する区間が抽出される。認証されたユーザに関連付けられた抽出用情報が抽出用データベースから選択され、ワードスポッティング法等を用いて、ステップS42で抽出された音声信号の特徴量とその抽出用情報とが比較され、抽出用情報と最も類似性が高い区間がキーワードに相当する区間として切り出される。
【0110】
ステップS62では、そのキーワードに相当する区間の特徴量によって、認証されたユーザに関連付けられた照合用情報及び予備検索用情報が更新される。
【0111】
本変形例によれば、認証されたユーザに対してのみキーワードに相当する区間が抽出されるため、ステップS46〜S54のユーザ認証処理の処理負担を軽減することができる。その結果、ユーザが音声を入力してから認証結果が得られるまでの待ち時間を短縮することができる。
【0112】
【発明の効果】
本発明によれば、認証に用いられるキーワードを正確に登録でき、ユーザの発声の経時的変化の影響を受け難い話者認証を実現できる。
【図面の簡単な説明】
【図1】本発明の実施の形態における認証装置の構成を示すブロック図である。
【図2】本発明の実施の形態における認証装置の別の構成を示すブロック図である。
【図3】本発明の実施の形態における話者認証の登録処理のフローチャートを示す図である。
【図4】認識モデルの構築の例を説明する図である。
【図5】ユーザから取得される音声信号の例を示す図である。
【図6】音声信号から特徴量の抽出の例を説明する図である。
【図7】ユーザから取得された音声信号に対してワードスポッティング法を適用した例を説明する図である。
【図8】照合用データベース、抽出用データベース及び予備検索用データベースの登録内容の例を示す図である。
【図9】照合用データベース及び予備検索用データベースの更新の例を説明する図である。
【図10】本発明の実施の形態における話者認証の照合処理のフローチャートを示す図である。
【図11】本発明の実施の形態に対する変形例における話者認証の照合処理のフローチャートを示す図である。
【符号の説明】
10 制御部、12 記憶部、14 キーワード取得部、16 音声信号取得部、18 表示部、20 バス、22,24 ネットワークインターフェース、100 認証装置、100a クライアント、100b サーバ。

Claims (5)

  1. 複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、
    前記認証用情報取得手段において取得された認証用情報からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベース記憶手段を含むことを特徴とする話者認証装置。
  2. 複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベース記憶手段と、認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得手段と、前記認証用情報取得手段において取得された認証用情報と前記照合用データベース記憶手段に保持されている照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定手段と、を備える話者認証装置であって、
    キーワードに含まれる記号を取得するキーワード取得手段と、
    前記キーワード取得手段において取得された各記号を表す音声認識モデルを取得し、それらの音声認識モデルを組み合わせてキーワードを表す認識モデルを構築する認識モデル構築手段と、
    ユーザから音声信号を取得する登録音声信号取得手段と、
    前記登録音声信号取得手段において取得された音声信号から前記認識モデル構築手段において構築された認識モデルとの類似性が最も高い区間を抽出する登録キーワード区間抽出手段と、を含み、
    前記照合用データベース記憶手段は、前記キーワード区間抽出手段において抽出された区間の音声信号の特徴量を前記登録音声信号取得手段において音声信号を取得したユーザと関連付けて照合用情報として保持することを特徴とする話者認証装置。
  3. 請求項1又は2に記載の話者認証装置において、
    前記ユーザ特定手段において特定されたユーザと関連付けられて前記照合用データベース記憶手段に保持されている照合用情報を、前記認証用情報取得手段において取得された認証用情報に基づいて更新する照合用データベース更新手段を含むことを特徴とする話者認証装置。
  4. 請求項1〜3のいずれか1つに記載の話者認証装置において、
    前記照合用データベース記憶手段に保持されている照合用情報の絞り込みを行う予備検索手段をさらに含み、
    前記ユーザ特定手段において、前記認証用情報取得手段において取得された認証用情報と前記予備検索手段によって絞り込まれた照合用情報とを比較することによって前記認証を行おうとするユーザを特定することを特徴とする話者認証装置。
  5. 複数のユーザに対して、ユーザが発声したキーワードを表す音声信号の特徴量を照合用情報としてそのユーザと関連付けて保持する照合用データベースと、ユーザから取得された音声信号からキーワードに相当する区間を抽出する際に用いられる音声信号の特徴量を抽出用情報として保持する抽出用データベースと、を備えるコンピュータに、
    認証を行おうとするユーザが発声した音声信号を認証用情報として取得する認証用情報取得ステップと、
    前記認証用情報から前記抽出用データベースに保持されている抽出用情報と類似性が高い区間を抽出するキーワード区間抽出ステップと、
    前記抽出された区間の音声信号の特徴量と照合用情報とを比較することによって前記認証を行おうとするユーザを特定するユーザ特定ステップと、
    を含む処理を実行させることを特徴とする話者認証プログラム。
JP2003086865A 2003-03-27 2003-03-27 話者認証装置及び話者認証プログラム Expired - Fee Related JP4318475B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003086865A JP4318475B2 (ja) 2003-03-27 2003-03-27 話者認証装置及び話者認証プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003086865A JP4318475B2 (ja) 2003-03-27 2003-03-27 話者認証装置及び話者認証プログラム

Publications (2)

Publication Number Publication Date
JP2004294755A true JP2004294755A (ja) 2004-10-21
JP4318475B2 JP4318475B2 (ja) 2009-08-26

Family

ID=33401377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003086865A Expired - Fee Related JP4318475B2 (ja) 2003-03-27 2003-03-27 話者認証装置及び話者認証プログラム

Country Status (1)

Country Link
JP (1) JP4318475B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006087799A1 (ja) * 2005-02-18 2006-08-24 Fujitsu Limited 音声認証システム
WO2007111197A1 (ja) 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US7979718B2 (en) 2005-03-31 2011-07-12 Pioneer Corporation Operator recognition device, operator recognition method and operator recognition program
US7983482B2 (en) 2005-11-08 2011-07-19 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
US8155451B2 (en) 2004-11-12 2012-04-10 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
JP2015520409A (ja) * 2012-04-26 2015-07-16 ニュアンス コミュニケーションズ,インコーポレイテッド ユーザ定義可能な制約条件を有する省スペースの音声認識を構築する為の埋め込みシステム
JP2015175915A (ja) * 2014-03-13 2015-10-05 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
KR101925253B1 (ko) * 2018-06-01 2018-12-04 주식회사 공훈 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법
KR20190030083A (ko) * 2017-09-13 2019-03-21 (주)파워보이스 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
US11465102B2 (en) 2019-03-18 2022-10-11 Korea University Research And Business Foundation Method of preparing heterogeneous zeolite membranes
US11545154B2 (en) 2019-10-29 2023-01-03 Samsung Electronics Co., Ltd. Method and apparatus with registration for speaker recognition
WO2023013060A1 (ja) * 2021-08-06 2023-02-09 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
US20240061644A1 (en) * 2022-08-17 2024-02-22 Jpmorgan Chase Bank, N.A. Method and system for facilitating workflows via voice communication

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8155451B2 (en) 2004-11-12 2012-04-10 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
WO2006087799A1 (ja) * 2005-02-18 2006-08-24 Fujitsu Limited 音声認証システム
US7657431B2 (en) 2005-02-18 2010-02-02 Fujitsu Limited Voice authentication system
US7979718B2 (en) 2005-03-31 2011-07-12 Pioneer Corporation Operator recognition device, operator recognition method and operator recognition program
US7983482B2 (en) 2005-11-08 2011-07-19 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method
WO2007111197A1 (ja) 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2008117626A1 (ja) * 2007-03-27 2008-10-02 Nec Corporation 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
US8452596B2 (en) 2007-03-27 2013-05-28 Nec Corporation Speaker selection based at least on an acoustic feature value similar to that of an utterance speaker
JP2015520409A (ja) * 2012-04-26 2015-07-16 ニュアンス コミュニケーションズ,インコーポレイテッド ユーザ定義可能な制約条件を有する省スペースの音声認識を構築する為の埋め込みシステム
JP2015175915A (ja) * 2014-03-13 2015-10-05 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
KR20190030083A (ko) * 2017-09-13 2019-03-21 (주)파워보이스 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
WO2019054680A1 (ko) * 2017-09-13 2019-03-21 (주)파워보이스 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
KR101993827B1 (ko) * 2017-09-13 2019-06-27 (주)파워보이스 문맥 종속 화자 식별 및 문맥 독립 화자 식별이 융합된 인공 지능 비서 서비스에서의 화자 식별 방법, 및 이에 사용되는 음성 인식 장비
KR101925253B1 (ko) * 2018-06-01 2018-12-04 주식회사 공훈 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법
US11465102B2 (en) 2019-03-18 2022-10-11 Korea University Research And Business Foundation Method of preparing heterogeneous zeolite membranes
US11596905B2 (en) 2019-03-18 2023-03-07 Korea University Research And Business Foundation Method of preparing heterogeneous zeolite membranes
US11545154B2 (en) 2019-10-29 2023-01-03 Samsung Electronics Co., Ltd. Method and apparatus with registration for speaker recognition
WO2023013060A1 (ja) * 2021-08-06 2023-02-09 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
US20240061644A1 (en) * 2022-08-17 2024-02-22 Jpmorgan Chase Bank, N.A. Method and system for facilitating workflows via voice communication

Also Published As

Publication number Publication date
JP4318475B2 (ja) 2009-08-26

Similar Documents

Publication Publication Date Title
US7027985B2 (en) Speech recognition method with a replace command
US20180277103A1 (en) Constructing speech decoding network for numeric speech recognition
US7447632B2 (en) Voice authentication system
JP4672003B2 (ja) 音声認証システム
JP4588069B2 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
US20130166279A1 (en) System and method for recognizing a user voice command in noisy environment
US7634401B2 (en) Speech recognition method for determining missing speech
JP4318475B2 (ja) 話者認証装置及び話者認証プログラム
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
KR20010102549A (ko) 화자 인식 방법 및 장치
JP4897040B2 (ja) 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JP2003330485A (ja) 音声認識装置、音声認識システム及び音声認識方法
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP4244524B2 (ja) 音声認証装置、音声認証方法、及びプログラム
JP2001265385A (ja) 話者認識装置
JP5596869B2 (ja) 音声認識装置
WO2006027844A1 (ja) 話者照合装置
JP2001350494A (ja) 照合装置及び照合方法
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP2003263187A (ja) 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体
JPH05265482A (ja) 情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090519

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4318475

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120605

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130605

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees