JP4245948B2

JP4245948B2 - 音声認証装置、音声認証方法及び音声認証プログラム

Info

Publication number: JP4245948B2
Application number: JP2003088163A
Authority: JP
Inventors: 昭二早川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-03-27
Filing date: 2003-03-27
Publication date: 2009-04-02
Anticipated expiration: 2023-03-27
Also published as: JP2004295586A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認証装置、音声認証方法、音声認証プログラムに関する。
【０００２】
【従来の技術】
図１５は、従来の音声認証方法の概念図である。音声認証は、概念的には以下の工程により行われる。以下、登録者とは音声認証システムに登録されている者、ユーザとは音声認証システムにより登録者であるか否かを照合される者とする。
【０００３】
まず、音声登録時は、登録する者から音声入力を受付け（Ｓ１）、その音声の特徴量を抽出する（Ｓ２）。そして、登録者を識別する登録者ＩＤや抽出された登録者の音声の特徴量等を含む登録情報を登録する（Ｓ３）。ユーザを認証する際には、音声認証システムはユーザに登録者ＩＤ入力を要求し、登録者ＩＤを受け付ける（Ｓ４）。次に、ユーザに音声入力を要求し音声を受け付ける（Ｓ５）。そして、入力されたユーザの音声から特徴量を抽出し（Ｓ６）、登録者の特徴量との類似度を判定する（Ｓ７）。類似度が所定のしきい値以上であると判定された場合には、ユーザを登録者と認証する（Ｓ８）。
【０００４】
以下に、各種の音声認証方法を説明する。ここで、話者性データとは、話者の音声データ、音声データから抽出した特徴量系列（所謂、テンプレート）、特徴量を用いて学習した統計的モデル（所謂、話者モデルであり、多数の多次元正規分布からなる。）、及び特徴量をクラスタリングして作成したコードブックを含むものとする。また、登録者が登録時に単語や文節などの登録者固有のテキスト（以下、パスワードという）を発声することにより登録した話者性データを登録話者性データとし、ユーザが認証時に発声したパスワードに相当する区間の特徴量系列をパスワードデータとする。
【０００５】
音声認証方法としては、例えばテキスト独立型がある。テキスト独立型とは、まず、認証時に任意の単語、文節または文章などのテキストをユーザに発声させる。そして、ユーザが音声入力したテキストのパスワードデータと登録者の登録話者性データとの類似度が所定のしきい値を以上であるか否かを判定する音声認証方法である。つまり、テキスト独立型では、パスワードデータと登録話者性データとのテキスト、つまり発声内容としての同一性は必ずしも要求されない。
【０００６】
別の音声認証方法として、パスワードデータと登録話者性データとの発声内容の同一性が要求されるテキスト依存型の音声認証方法がある。例えば、登録者による文字列Ａの音声入力から文字列Ａに対応する登録話者性データを抽出し登録する。認証時には、文字列Ａをユーザに発声させ、その文字列Ａに対応する区間の特徴量系列、つまりパスワードデータを抽出する。そして、文字列Ａについての登録話者性データと文字列Ａについての特徴量系列との類似度を所定のしきい値を基準に判定する。このようなテキスト依存型の音声認証方法においては、登録時及び認証時の発声内容が同一であるため高い認証精度が得られる。すなわち、同一の発声内容で類似度を計算するため、許容する類似度を大きく、つまり厳しく設定できる。
【０００７】
さらに、別の音声認証方法として、音声認証システムがユーザに発声すべき発声内容、つまりテキストを指定するテキスト指定型の音声認証方法がある。このテキスト指定型の音声認証方法として、１）登録者による音声データから音素や音節等の単位毎に登録話者性データを作成し、２）音声認証システムが、登録した音素や音節別の登録話者性データから構成される文字列の音声入力をユーザに要求する。３）要求した文字列と同じになるように音素や音節別の登録話者性データを並び替えて連結する。４）そして、連結された音素や音節別の登録話者性データと、ユーザにより入力された音声データとの類似度を所定のしきい値を基準に判定する方法が提案されている（特許文献１参照）。また、同様の方法として、１）登録者から発声された、数字やアルファベット等の記号の発声内容の入力音声から話者モデルを記号毎に登録し、２）音声認証システムが、その記号を組み合わせた記号列の音声入力をユーザに要求する。３）記号毎に登録された話者モデルを、要求した記号列に従って連結する。４）そして、連結された記号列の話者モデルとユーザにより音声入力されたその記号列における音声データとの類似度を所定のしきい値を基準に判定する方法が提案されている（特許文献２参照）。このように、特許文献１及び特許文献２に示す音声認証方法においては、ユーザは、認証時毎に音声認証システムが指定した発声内容を発声しなければならない。よって、認証時毎に要求する発声内容を変更することにより、前回の発声内容の音声データを第三者が録音し、録音した音声データを音声認証システムに入力して登録者になりすまして不正認証を受けるという問題に対処することができる。
【０００８】
また、近年、音声合成技術が高度に発展しており、登録者の音声データが少しあれば、その音声データに基づいて、任意の文字列についての登録者の音声データを容易にねつ造できる。そのような音声合成器が、非特許文献１に示されている。
【０００９】
【特許文献１】
特開平５−３２３９９０号公報
【００１０】
【特許文献２】
特開２０００−９９０９０号公報
【００１１】
【非特許文献１】
電子情報通信学会論文誌DII Vol.J83-D-II No.11 「話者照合システムに対する合成音声による詐称」
【００１２】
【発明が解決しようとする課題】
しかし、テキスト独立型の音声認証方法では、登録時と認証時とで異なる発声内容で認証を行うので、認証精度が低下する。また、ユーザは音声入力を長く行う必要があり、ユーザの利便性に欠ける。さらに、発声内容の入力音声を第三者が録音し、音声認証システムに入力した場合には、容易に第三者が不正認証されてしまう問題がある。
【００１３】
また、テキスト依存型では、認証時に登録者固有のパスワードが音声入力されるため、パスワードが第三者に漏洩し易い。そのため、第三者がパスワードの入力音声を録音や盗聴した場合は、容易に第三者が不正認証を受けることができる。
以上のことから、テキスト独立型及びテキスト依存型ともに、パスワードが漏洩したり、また発声内容の音声データが第三者により録音され音声認証システムに入力された場合には、容易に第三者が不正に認証されてしまう。
【００１４】
また、前記特許文献１及び２に記載されているテキスト指定型の音声認証方法では、認証時の入力音声が第三者により録音されても、認証時毎に音声認証システムが異なる発声内容を指定するため、録音による不正認証には対処できる。しかし、音声認証システムが入力する発声内容を指定するため、第三者であっても発声内容を知り得る。そのため、第三者が指定された発声内容で認証されるかどうかを試すことができる。しかも、前記非特許文献１に記載の音声合成技術を用いれば、発声内容を指定する前記特許文献１及び２に記載の音声認証方法であっても、詐称を防止できない。
【００１５】
そこで、本発明は、パスワードの漏洩を低減し、認証精度を高め、詐称を防止し易い音声認証方法を提供することを目的とする。
【００１６】
【課題を解決するための手段】
上記課題を解決するために、本願第１発明は、ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するテキスト依存型の音声認証装置であって、ユーザ識別子を受け付けるユーザ識別子受付部と、前記登録者が発声したパスワードである話者性データ（以下、登録話者性データという）を前記ユーザ識別子と対応づけて格納する第１格納部と、使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部と、前記タグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記タグ記録部に記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも１の前記可変タグを決定する決定部と、前記決定部で決定した各可変タグの全てを、前記パスワードの直前及び／または直後に直結した認証文字列を含む文字列の音声による入力を前記ユーザに要求する入力要求部と、前記要求に応じた入力音声を前記ユーザから受け付ける受付部と、前記ユーザにより発声された入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出部と、前記位置検出部で検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも１の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出部と、前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較部と、前記比較部における比較結果に基づいて、前記ユーザを認証するか否かを判断する認証部とを含む音声認証装置を提供する。
【００１７】
コンピュータが、ユーザに対して各可変タグの全てとパスワードとを直結した認証文字列を含む文字列の音声入力を要求する。よって、パスワード以外の可変タグを発声するように要求するため、パスワードの漏洩を低減、つまりパスワードの隠匿性を高めることができる。さらに、可変タグとパスワードとを直結した認証文字列を含む文字列の音声入力を要求されている場合には、パスワードだけが音声入力されても認証はされない。ここで、可変タグは、例えば認証時毎に毎回変更されるように決定したり、認証時毎に毎回変更されないがランダムに変更されるように決定するので、パスワードの漏洩をさらに低減することができる。
【００１８】
さらに、登録者とユーザとの同一性は、登録時と認証時の発声内容が同一であることを基準に判定される。つまり、ユーザが可変タグに直結して登録者固有のパスワードを発声していることを前提としてパスワードデータと登録話者性データとの類似度が判定されるため、許容する類似度を大きく、つまり厳しく設定している。よって、テキスト依存型の音声認証方法の特性を活かし、高い認証精度を得ることができる。
【００１９】
例えば、認証文字列が、パスワードの直前及び直後に可変タグを直結した文字列であるとする。繰り返し認証処理を行う場合、可変タグの決定は、直前または直後のいずれかの可変タグが前回と異なるように、かつ残りの可変タグは前回と同一になるように行う。このように可変タグを決定すると、前回と次回の両方の認証時において、変更されなかった可変タグとパスワードとから構成される文字列を含む文字列が音声入力される。そのため、第三者に対し、変更されなかった可変タグとパスワードとから構成される文字列をパスワードと見せかけ、正確なパスワードの漏洩を低減することができる。
【００２０】
前記抽出部で複数のパスワードデータを抽出した場合、前記認証部では、いずれかの前記パスワードデータと前記登録話者性データとの類似度が所定のしきい値以上である場合に、前記ユーザを認証する音声認証装置を提供すると好ましい。
例えば、入力音声データから可変タグの直前に直結したパスワードデータ及び直後に直結したパスワードデータの２つの入力音声データが抽出されたとする。この２つのパスワードデータのいずれかと登録話者性データとの類似度が所定のしきい値以上であると判定された場合、コンピュータは登録者とユーザとが一致していると判定する。そのため、認証文字列内の可変タグとパスワードとの発声順の自由度が担保される。
【００２１】
前記入力要求部は、前記認証文字列における前記パスワードと前記可変タグとの位置関係を指定する指定部を含み、前記抽出部では、前記指定部で指定された前記パスワードと前記可変タグとの位置関係に基づいて前記パスワードデータを抽出する音声認証装置を提供すると好ましい。
この装置により、コンピュータが、パスワードと可変タグとの位置関係を指定するので、ユーザが音声入力した特徴量化された入力音声データからパスワードデータを正確に抽出することができる。パスワードと可変タグとの位置関係は、パスワードの直前または直後に可変タグを配置、あるいはパスワードの直前及び直後に可変タグを配置する方法の３通りが考えられる。
【００２２】
前記認証文字列における前記パスワードと前記可変タグとの位置関係の設定を前記ユーザから受け付ける設定受付部をさらに含み、前記入力要求部は、前記設定受付部で設定された位置関係を有する認証文字列を含む文字列の音声入力を要求し、前記抽出部では、前記設定受付部で設定された前記パスワードと前記可変タグとの位置関係に基づいて前記パスワードデータを抽出する音声認証装置を提供すると好ましい。
【００２３】
認証文字列におけるパスワードと可変タグとの位置関係をユーザが設定するので、ユーザの自由度を高めつつ特徴量化されたユーザの入力音声データからパスワードに相当する区間であるパスワードデータを的確に抽出することができる。
本願第２発明は、本願第１発明において、前記可変タグとして用いられる文字列であるタグ候補と前記登録者が発声したタグ候補の話者性データ（以下、タグ登録話者性データという）を前記ユーザ識別子と対応づけて格納する第２格納部をさらに含み、前記決定部は、前記ユーザ識別子に対応づけられている少なくとも１のタグ候補を前記第２格納部から選択し、選択したタグ候補を前記可変タグとして決定し、前記抽出部では、前記特徴量化された入力音声データから前記位置検出部により検出された前記少なくとも１の可変タグに相当する区間（以下、入力タグデータという）をさらに抽出し、前記比較部では、抽出された前記入力タグデータと前記ユーザ識別子に対応する前記タグ登録話者性データとをさらに比較する音声認証装置を提供する。
【００２４】
登録者の登録話者性データとユーザのパスワードデータとの類似度の比較のみならず、可変タグについてもタグ登録話者性データと入力タグデータとを比較するため、認証精度が向上する。
本願第３発明は、本願第１発明において、予め前記可変タグとして用いられる文字列であるタグ候補と前記タグ候補に対応する属性とを格納しておく第３格納部をさらに含み、前記第１格納部では、前記パスワードに対応する属性を前記ユーザ識別子と関連づけて格納しておき、前記決定部では、前記パスワードに対応する属性と前記タグ候補に対応する属性とに基づいて少なくとも１の可変タグを決定する音声認証装置を提供する。
【００２５】
例えば、パスワードに対応する属性と可変タグに対応する属性との関連性が高くなるように可変タグを決定すると、パスワードと可変タグとの識別を困難にし、パスワードの漏洩を低減することができる。ここで、属性とは、文字や文節等の言葉をカテゴリ毎に分類するための情報であり、例えば地名、人名、数字、英語等などをいう。
【００２６】
本願第４発明は、本願第１発明において、前記可変タグとして用いられる文字列であるタグ候補を、前記登録者から受け付け、前記登録者のユーザ識別子に対応させて格納するタグ格納部をさらに含み、前記決定部では、前記ユーザ識別子に対応する少なくとも１のタグ候補を前記タグ格納部から選択し、選択したタグ候補を前記可変タグとして決定する音声認証装置を提供する。
【００２７】
登録者が入力したタグ候補から可変タグが決定されるので、ユーザの認証文字列の組み合わせにおいて自由度を高めることができる。
本願第５発明は、前記第１発明の装置が実行する音声認証方法を提供する。
本願第６発明は、前記第１発明の装置が実行する音声認証プログラムを提供する。
【００２８】
【発明の実施の形態】
＜発明の概要＞
本発明の音声認証システムにおける音声認証方法の概略を説明する。以下、登録者とは音声認証システムに登録されている者、ユーザとは音声認証システムに予め登録してある登録者本人か否かを照合される者とする。また、話者性データとは、話者の音声データ、音声データから抽出した特徴量系列（所謂、テンプレート）、特徴量を用いて学習した統計的モデル（所謂、話者モデルであり、多数の多次元正規分布からなる。）、及び特徴量をクラスタリングして作成したコードブックを含むものとする。また、登録者が登録時に単語や文節などの登録者固有のテキスト（以下、パスワードという）を発声することにより登録した話者性データを登録話者性データとする。この登録話者性データは、ユーザ認証に用いられる認証情報である。一方、ユーザが認証時に発声した発声内容のうち、登録話者性データとの比較対象となる、パスワードに相当する区間の特徴量系列をパスワードデータとする。さらに、可変タグは、認証時のユーザの発声内容から前記パスワードデータを抽出するためのテキストである。可変タグは、例えば認証時毎に毎回変更されるように決定したり、認証時毎に毎回変更されないがランダムに変更されるように決定する。また、前回決定された複数の可変タグの少なくとも１つを変更するように決定しても良い。
【００２９】
図１は、本発明の音声認証システムにおける認証時の表示画面例である。
音声認証システムには、例えば、予め登録者の登録話者性データ、登録者を識別するユーザＩＤ等の登録情報が蓄積されている。
音声認証システムは、ユーザからユーザＩＤを受け付け、可変タグの決定を行う。そして、決定した可変タグとパスワードとを直結した認証文字列を音声入力することをユーザに要求する。図１は、音声認証システムがユーザに音声入力を指示している画面例である。図１では、音声認証システムは可変タグとして“１１７８５”及び“２２３３６”を決定しており、可変タグ“１１７８５”に直結してパスワードを発声し、パスワードに続けて可変タグ“２２３３６”を発声するように要求している。そこで、ユーザは要求された認証文字列を発声し、音声入力を行う。次に、音声認証システムは、ユーザが発声した入力音声の音声データ（以下、入力音声データという）を特徴量化つまり入力音声データの特徴量を抽出し、音声認識あるいはワードスポッティング等により入力音声データの中から可変タグの位置を検出する。この検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。このパスワードデータと登録話者性データとの類似度を判定し、類似度が所定のしきい値以上である場合にはユーザを認証し、所定のしきい値より小さい場合にはユーザを認証しない。
【００３０】
音声入力を要求される文字列は、可変タグとパスワードとを直結した認証文字列のみであっても良いが、認証文字列及びその他の単語、文節などを含むように構成された文字列であると、パスワードの漏洩をより低減することができ好ましい。
なお、可変タグとパスワードとを直結した音声入力を行うか、パスワードのみの音声入力を行うかは、ユーザに認証時に選択させることもできる。よって、パスワードの漏洩の心配が無い環境においては、パスワードのみの音声入力を許し、ユーザの利便性を高めることができる。
＜第１実施形態例＞
以下に、第１実施形態例に係る音声認証システムを説明する。
（１）音声認証システムの機能構成
図２は本発明の第１実施形態例に係る音声認証システムの機能構成を示すブロック図である。音声認証システム１０００は、登録部１００及び認証部２００を有している。登録部１００は、登録者により発声された登録者固有のパスワードの登録話者性データ、パスワードの属性及び登録者を識別するユーザＩＤなどの登録情報を登録する。ここで、属性とは、文字や文節等の言葉をカテゴリ毎に分類するための情報であり、例えば地名、人名、数字、英語等などをいう。
【００３１】
認証部２００は、ユーザが登録者であるか否かを判定する。以下に、登録部１００及び認証部２００の各部の機能構成について説明する。
（１−１）登録部
登録部１００は、ユーザＩＤ受付部１、音声入力部２、特徴量抽出部３、登録情報作成部５及び登録情報ＤＢ７を有している。以下に、各部の機能構成について説明する。
［ユーザＩＤ受付部］
ユーザＩＤ受付部１は、登録者からユーザＩＤを受け付け、受け付けたユーザＩＤを音声入力部２に出力する。
［音声入力部］
音声入力部２は、登録者から音声認証システム１０００での認証時に必要な単語、文章等などの登録者固有のパスワードを音声入力により受け付ける。次に、受け付けたパスワードの音声をＡ／Ｄ変換によりデジタル化された音声データに変換し、特徴量抽出部３に出力する。音声入力部２は、登録者に対してパスワードの文字数や音数を指定して入力するように要求しても良い。また、複数のパスワードを登録できるようにしても良い。
［特徴量抽出部］
特徴量抽出部３は、音声入力部２から入力された音声データについて、例えばＬＰＣ（Linear Predictive Coding）分析により得られるＬＰＣケプストラムや、Ｍｅｌ周波数軸に変換された対数パワースペクトラムをＤＣＴ（Discrete Cosine Transform）したＭＦＣＣ（Mel frequency Cepstral Coefficients）などの特徴量を抽出する。以下、この登録者によるパスワードの音声入力から得られる特徴量を登録話者性データとする。ただし、前述したように登録話者性データは、音声データ、統計的モデルあるいはコードブックであっても良い。
［登録情報作成部］
登録情報作成部５は、登録話者性データ、パスワードの属性及びユーザＩＤ等を関連づけて登録情報を作成し、登録情報ＤＢ７に格納する。
［登録情報ＤＢ］
登録情報ＤＢ７には、登録話者性データ、パスワードの属性及びユーザＩＤを１レコードに含む登録情報が蓄積されている。図３は、登録情報ＤＢ７の一例である。ユーザＩＤが“０００１”の登録者については、パスワード“１２３４”における登録者の登録話者性データが登録されている。パスワードの属性を登録情報ＤＢ７に登録しておくと、後述の可変タグ選択部１４においてパスワードの属性に応じた可変タグを選択できる。例えば、パスワードと可変タグとの属性が同一または類似であると、パスワードと可変タグとの識別が困難となりパスワードの隠匿性を高めることができ好ましい。
（１−２）認証部
認証部２００は、ユーザＩＤ受付部１０、登録情報選択部１２、可変タグ選択部１４、タグＤＢ１６、タグ記録ＤＢ１８、設定受付部１９、音声入力要求部２０、音声受付部２２、特徴量抽出部２４、可変タグ検出部２６、パスワード区間抽出部２７、類似度判定部２８、しきい値ＤＢ３０及び判定結果出力部３２を有している。以下に、各部の機能構成について説明する。
［ユーザＩＤ受付部］
ユーザＩＤ受付部１０は、ユーザからユーザＩＤの入力を受け付け、受け付けたユーザＩＤを登録情報選択部１２及び可変タグ選択部１４に出力する。
［登録情報選択部］
登録情報選択部１２は、入力されたユーザＩＤに対応する登録話者性データ及びパスワードの属性を登録情報ＤＢ７から選択し、可変タグ選択部１４及び類似度判定部２８に出力する。
［可変タグ選択部、タグＤＢ、タグ記録ＤＢ］
可変タグ選択部１４は、ユーザＩＤの入力に応答し、タグＤＢ１６に基づいて可変タグを選択する。可変タグの選択は、タグ記録ＤＢ１８の記録を参照し、例えば可変タグが認証時毎に変更されたり、ランダムに変更されるように行う。可変タグ選択部１４は、選択した可変タグをタグ記録ＤＢ１８、設定受付部１９、音声入力要求部２０及び可変タグ検出部２６に出力する。
【００３２】
タグＤＢ１６には、可変タグとして用いられる文字列であるタグ候補が蓄積されている。
図４及び図５は、タグＤＢ１６に蓄積されているタグ候補の一例である。図４では、例えば英語、数字、地名等の単語、文節等のタグ候補及びタグ候補の属性が蓄積されている。図５では、タグ候補及びその属性がユーザＩＤ毎に蓄積されている。よって、可変タグ選択部１４は、登録情報選択部１２からパスワードの属性を受け取ると、その属性に応じたタグ候補を可変タグとして選択することができる。このようにパスワードの属性に応じて可変タグを選択すると、ユーザが音声認証システム１０００に要求された認証文字列を音声入力した場合に、可変タグとパスワードとの見分けがつきにくくなる。よって、パスワードの漏洩を低減、つまりパスワードの隠匿性を高めることができる。
【００３３】
また、図５に示すようにタグ候補及びその属性がユーザＩＤと関連づけられて登録されていると、可変タグ選択部１４は、ユーザＩＤと関連するタグ候補を可変タグとして選択することができる。さらに、ユーザＩＤごとに登録者自身が選択した単語、文節等をタグ候補として複数登録することもできる。登録者自身がタグ候補の登録を行うと、パスワードの隠匿方法を事前に考えておくことができる等の登録者の自由度が高まる。また、タグ候補を登録者が登録するのではなく、音声認証システム１０００が登録者毎のパスワードの属性等を考慮し、パスワードの隠匿性が高い単語、文節等をタグ候補として蓄積するようにしても良い。
【００３４】
タグ記録ＤＢ１８は、可変タグ選択部１４から可変タグとして選択されたタグ候補を受け付ける。そして、ユーザＩＤ毎に過去に可変タグとして選択されたタグ候補の記録し、その記録を可変タグ選択部１４に提供する。図６は、タグ記録ＤＢ１８の一例であり、例えばユーザＩＤ、何回目のアクセスであるかを示すアクセス番号、選択されたタグ候補及びアクセス日時が１レコードに蓄積されている。可変タグ選択部１４は、タグ記録ＤＢ１８の選択されたタグ候補の記録に基づいて、可変タグとして選択するタグ候補を決定することができる。例えば、繰り返し認証処理を行う場合、タグ記録ＤＢ１８の中の最後に用いられたユーザＩＤ毎の可変タグを参照し、前回選択されたタグ候補は選択しないように現在の可変タグを決定する。また、タグ記録ＤＢ１８は、これまでに選択されたタグ候補の履歴を作成し、過去に選択されたことのあるタグ候補は選択しないように可変タグを決定しても良い。
【００３５】
さらに、複数個の可変タグを用いる場合、そのうちの少なくとも１つが変わるように可変タグを選択すると、パスワードの隠匿性を高めることができ好ましい。例えば、要求される認証文字列が、パスワードの直前及び直後に可変タグを直結した文字列であるとする。繰り返し認証処理を行う場合、可変タグの決定は、直前または直後のいずれかの可変タグが前回と異なるように、かつ残りの可変タグは前回と同一になるように行う。このように可変タグを決定すると、前回と次回の両方の認証時において、変更されなかった可変タグとパスワードとが直結された文字列を含む認証文字列の音声入力が要求される。そのため、第三者に対し、変更されなかった可変タグとパスワードとが直結された文字列を、パスワードと見せかけ、正確なパスワードの漏洩を低減することができる。具体的には、図６のユーザＩＤ“０００１”のアクセス番号２において、“５５５”及び“７７７”の２つの文字列が可変タグとして選択され、次のアクセス番号３において“５５５”及び“９９９”の２つの文字列が可変タグとして選択されている。ここで、音声認証システム１０００がこれら２つの可変タグによりパスワードを挟み込んだ認証文字列の音声入力を要求すると、連続して“５５５”及びパスワードからなる文字列が音声入力される。よって、第三者は“５５５”及びパスワードからなる文字列がパスワードであると誤認する。
［設定受付部］
設定受付部１９は、可変タグ選択部１４から可変タグの入力を受け付けると、認証文字列中におけるパスワードと選択された可変タグとの位置関係の設定をユーザから受け付ける。設定受付部１９は、受け付けた位置関係の設定を音声入力要求部２０に出力する。このように、パスワードと可変タグとの位置関係をユーザが設定するので、ユーザの自由度を高めつつ後述するパスワード区間抽出部２７においてユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを正確に抽出することができる。
【００３６】
あるいは、設定受付部１９は、音声入力要求部２０が設定するパスワードと可変タグとの位置関係により音声入力することを選択しても良い。
［音声入力要求部］
音声入力要求部２０は、パスワードと可変タグ選択部１４が決定した全ての可変タグとを直結した認証文字列を発声するように、ユーザに要求する。ここで、音声入力要求部２０は、設定受付部１９で受け付けたユーザの設定に基づいて、パスワードと可変タグとを直結した認証文字列を音声入力することを要求する。
【００３７】
また、音声入力要求部２０が、パスワードと可変タグとの位置関係を指定しても良い。例えば、前記図１に示すように、パスワードと可変タグとの位置関係を指定した認証文字列の音声入力を要求する。音声入力要求部２０により位置関係が指定されると、可変タグとパスワードとの位置関係を、ユーザ自身が決定する手間を省くことができる。また、後述のパスワード区間抽出部２７において、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードデータを正確に抽出することができる。指定される位置関係としては、パスワードの直前または直後に可変タグを配置する、あるいはパスワードの直前及び直後に可変タグを配置する方法の３通りが考えられる。図７は、パスワードと可変タグとの位置関係を指定する別の表示画面例である。図７では、音声入力要求部２０により虫食い形式で発声内容が提示される。よって、ユーザは空欄にパスワードを入れ、指定された発声内容を音声入力するのみで良いので、認証時のユーザの手間を簡略化することができる。
【００３８】
音声入力要求部２０は、可変タグとパスワードとを直結した認証文字列の音声入力を要求しても良いが、認証文字列及びその他の単語、文節などを含む文字列の音声入力を要求すると、パスワードの漏洩を低減することができ好ましい。
また、ユーザへの発声内容の要求を、前記図１及び図７に示すように画面に提示して行うと、可変タグとパスワードとの位置関係や可変タグが第三者に盗聴されにくくなり、パスワードの漏洩を低減することができる。
【００３９】
さらに、複数のパスワードが登録されている場合には、例えば複数のパスワードに対応する複数の可変タグを選択し、それら複数のパスワード及び可変タグを直結した複数の認証文字列の音声入力を要求すると、認証を行う音声データが増加するので認証精度が向上し好ましい。
［音声受付部］
音声受付部２２は、音声入力要求部２０からの認証文字列の音声入力、または認証文字列を含む文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
［特徴量抽出部］
特徴量抽出部２４は、ユーザの入力音声データを特徴量化つまり入力音声データの特徴量を抽出する。
［可変タグ検出部、パスワード区間抽出部］
可変タグ検出部２６は、その特徴量化された音声データから、可変タグ選択部１４で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部２７は、さらに検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードデータを抽出する。特徴量の抽出方法は特徴量抽出部３と同様である。
【００４０】
図８（ａ）、（ｂ）は、ユーザが音声認証システムに対して音声入力した文字列の一例である。図８（ａ）では、可変タグ選択部１４において可変タグとして“Ａ”が選択され、ユーザから“ＢＣＤＥＦＧＡＨＩＪＫＬＭ”の文字列が音声入力されている。図８（ｂ）では、可変タグ選択部１４において可変タグとして“Ａ”及び“Ｎ”が選択され、“Ａ”及び“Ｎ”で挟みこんでパスワードを発声するように要求されたユーザから“ＢＣＤＥＦＧＡＨＩＪＫＬＭＮＯＰ”の文字列が音声入力されている。
【００４１】
まず図８（ａ）を参照して、可変タグの位置の検出及びパスワードデータを抽出する方法の一例を示す。音声認証システム１０００内の音声入力要求部２０が、パスワードと選択された可変タグとを直結した認証文字列を音声入力するように要求しているとする。まず、特徴量抽出部２４は、図８（ａ）に示す文字列の入力音声データを特徴量化する。可変タグ検出部２６は、その中から選択された可変タグ“Ａ”の位置を、音声認識あるいはワードスポッティング等により検出する。さらに、パスワード区間抽出部２７は、この検出された可変タグ“Ａ”の位置に基づいて、特徴量化された入力音声データからパスワードに対応する区間を抽出する。図８（ａ）の場合、可変タグ“Ａ”の前に直結されている“ＢＣＤＥＦＧ”及び可変タグ“Ａ”の後に直結されている“ＨＩＪＫＬＭ”のパスワードデータを抽出する。
【００４２】
登録部１００において、パスワードの音数や文字数を指定して登録すると、認証精度を高めることができる。例えば、４音数のパスワードが登録されている場合、音声入力を要求された認証文字列の入力音声データ特徴量化し、その中から４音数分に対応する“ＤＥＦＧ”及び“ＨＩＪＫ”のパスワードデータを抽出する。
【００４３】
音声入力要求部２０が、位置関係を指定し、可変タグの直前にパスワードを直結して音声入力するように要求している場合は、検出された可変タグの位置に基づいて、特徴量化された入力音声データから可変タグ直前のパスワードデータを抽出する。よって、音声入力要求部２０において指定された、可変タグとパスワードとの位置関係に応じて正確にパスワードデータを抽出でき好ましい。
【００４４】
図８（ｂ）では、音声入力要求部２０が選択された２つの可変タグによりパスワードを挟みこんだ認証文字列の音声入力を要求しているとする。まず、特徴量抽出部２４は、ユーザの入力音声データを特徴量化する。可変タグ検出部２６は、特徴量化された入力音声データから可変タグ“Ａ”及び“Ｎ”の位置を検出する。そして、パスワード区間抽出部２７は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データから“ＨＩＪＫＬＭ”に対応するパスワードデータを抽出する。
［類似度判定部］
類似度判定部２８は、ユーザのパスワードデータと登録者の登録話者性データとの類似度を、所定のしきい値を基準にして判定する。所定のしきい値としては、例えば認証の重要度に応じた値が蓄積されている。類似度判定部２８での類似度の判定は、登録時と認証時の発声内容が同一であることを基準に判定される。つまり、ユーザが可変タグに直結して登録者固有のパスワードを発声していることを前提としてパスワードデータと登録話者性データとの類似度が判定されるため、両者の許容する類似度を大きく、つまり厳しく設定している。
【００４５】
類似度判定部２８において、抽出されたパスワードデータが複数存在する場合は、複数のパスワードデータの内少なくとも１つのパスワードデータと登録話者性データとの類似度が所定のしきい値以上であると判定された場合、ユーザと登録者が同一であると判定しても良い。このように少なくとも１つのパスワードデータによりユーザの認証を行うので、可変タグとパスワードとの発声順の自由度を担保することができる。
【００４６】
また、登録部１００において、複数の登録話者性データが登録されている場合には、複数の登録話者性データの少なくとも一つとパスワードデータとの類似度を所定のしきい値を基準に判定することもできる。
さらに、ユーザにより音声入力された可変タグの音声データの特徴量（以下、入力タグデータという）を抽出し、登録者の登録話者性データと比較することもできる。また、登録者による音声データから音素や音節等の単位毎に登録話者性データを作成し、音声認証システムが、登録した音素や音節別の登録話者性データから構成される文字列の音声入力をユーザに要求する。要求した文字列と同じになるように音素や音節別の登録話者性データを並び替えて連結し、連結した可変タグの登録話者性データと音声入力された入力タグデータとを比較することもできる。
［判定結果出力部］
判定結果出力部３２は、類似度判定部２８の判定結果を出力する。例えば、類似度が所定のしきい値以上と判定された場合は、ユーザと登録者とが同一であるとの判定結果を出力する。
（２）音声認証システムが行う音声認証方法の処理の流れ
次に、第１実施形態例に係る音声認証システム１０００における音声認証方法について説明する。まず、登録部１００での登録情報の登録方法について説明する。
（２−１）登録情報の登録方法
図９は、登録情報の登録方法の流れの一例を示すフローチャートである。
【００４７】
ステップＳ１０：まず、ユーザＩＤ受付部１が、登録者からユーザＩＤを受け付ける。そして、音声入力部２は、登録者からパスワードを音声入力により受け付ける。
ステップＳ１１：特徴量抽出部３は、ステップ１０で音声入力されたパスワードの入力音声データから登録話者性データを抽出する。
【００４８】
ステップＳ１２：登録情報作成部５は、ステップ１１で抽出した登録話者性データユーザＩＤ等を関連付けて登録情報を作成する。
ステップＳ１３：登録情報ＤＢ７は、ステップ１２で作成された登録情報を格納する。
（２−２）音声認証方法
次に、音声認証方法について説明する。図１０は、音声認証方法の一例を示すフローチャートである。
【００４９】
ステップＳ２０：ユーザＩＤ受付部１０は、ユーザからユーザＩＤの入力を受け付ける。
ステップＳ２１：登録情報選択部１２は、ステップ２０で入力されたユーザＩＤに対応する登録情報を選択し、可変タグ選択部１４及び類似度判定部２８に出力する。
【００５０】
ステップＳ２２：可変タグ選択部１４は、ユーザＩＤを受け取ると、タグＤＢ１６に基づいて可変タグを選択する。可変タグの選択は、タグ記録ＤＢ１８の記録を参照し、例えば可変タグが認証時毎に変更されたり、ランダムに変更されるように行う。タグ記録ＤＢ１８は、可変タグ選択部１４から可変タグとして選択されたタグ候補を受け付け、格納する。
【００５１】
ステップＳ２３：設定受付部１９は、認証文字列中の可変タグとパスワードとの位置関係の設定を受け付ける。
ステップＳ２４：音声入力要求部２０は、ステップＳ２３で受け付けた位置関係の設定に応じて、可変タグとパスワードとを直結した認証文字列を音声入力するようにユーザに要求する。また、音声入力要求部２０が、可変タグとパスワードとの位置関係を指定しても良い。
【００５２】
ステップＳ２５：音声受付部２２は、音声入力要求部２０からの認証文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
ステップＳ２６：特徴量抽出部２４は、ユーザの入力音声データの特徴量を抽出する。
ステップＳ２７：可変タグ検出部２６は、特徴量化された音声データから可変タグ選択部１４で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部２７は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。
【００５３】
ステップＳ２８：類似度判定部２８は、ユーザのパスワードデータと登録者の登録話者性データとの類似度を、所定のしきい値を基準にして判定する。
ステップＳ２９：ステップＳ２８での類似度の判定の結果、ユーザが認証されたか否かを判定する。
ステップＳ３０：ステップＳ２９において、ユーザが認証された場合には音声認証システム１０００は、次の処理へ進む。
【００５４】
ステップＳ３１：ステップＳ２８において、ユーザが認証されなかった場合には音声認証システム１０００は、次の処理への進行を中断する。
上記の第１実施形態例に係る音声認証システム１０００では、各可変タグの全てとパスワードとを直結した認証文字列を含む文字列の音声入力を要求する。よって、パスワード以外の可変タグも発声するように要求するため、パスワードの漏洩を低減、つまりパスワードの隠匿性を向上することができる。また、可変タグとパスワードとを直結した認証文字列を含む文字列の音声入力を要求されている場合には、パスワードだけが音声入力されても認証はされない。さらに、可変タグは例えば認証時毎に毎回変更されたり、毎回変更されないがランダムに変更されるように決定すると、パスワードの漏洩をさらに低減することができる。例えば、第三者がユーザの前回の発声内容を録音し、録音した発声内容を音声認証システム１０００に入力しても、可変タグが異なるため音声認証システム１０００は入力を行った第三者を登録者と認証しない。
【００５５】
さらに、第１実施形態例における音声認証方法では、登録者本人とユーザとの同一性は、登録時と認証時の発声内容が同一であることを基準に判定される。つまり、ユーザが可変タグに直結して登録者固有のパスワードを発声していることを前提としてパスワードデータと登録話者性データとの類似度が判定されるため、許容する類似度を大きく、つまり厳しく設定している。よって、テキスト依存型の音声認証方法の特性を活かし、高い認証精度を得ることができる。
＜第２実施形態例＞
以下に、第２実施形態例に係る音声認証システム１０００について再び前記図１０と図１１を用いて説明する。
を説明する。
（１）音声認証システムの機能構成
図１１は、本発明の第２実施形態例に係る音声認証システム機能構成を示すブロック図である。第２実施形態例に係る音声認証システム１０００の登録部１００は、第１実施形態例と同様の構成及び動作である。以下に、認証部２００の構成を説明する。
［ユーザＩＤ受付部］
ユーザＩＤ受付部１０は、ユーザからユーザＩＤの入力を受け付け、受け付けたユーザＩＤを登録情報選択部１２及び可変タグ選択部１４に出力する。
［登録情報選択部］
登録情報選択部１２は、入力されたユーザＩＤに対応する登録話者性データ及びパスワードの属性を登録情報ＤＢ７から選択し、可変タグ選択部１４及び類似度判定部２８に出力する。
［可変タグ選択部、タグＤＢ、タグ記録ＤＢ］
タグＤＢ１６には、登録者から受け付けた可変タグと、その可変タグの登録話者性データ（以下、タグ登録話者性データという）とが蓄積されている。
【００５６】
可変タグ選択部１４は、ユーザＩＤの入力に応答し、タグＤＢ１６から可変タグを選択する。可変タグの選択は、タグ記録ＤＢ１８の記録を参照し、例えば可変タグが認証時毎に変更されたり、ランダムに変更されるように行う。可変タグ選択部１４は、選択した可変タグをタグ記録ＤＢ１８、設定受付部１９、音声入力要求部２０及び可変タグ検出部２６に出力し、可変タグのタグ登録話者性データを類似度判定部２８に出力する。
【００５７】
また、タグ記録ＤＢ１８には、可変タグ選択部１４で選択された可変タグが記録されており、過去に選択された可変タグの記録を可変タグ選択部１４に提供する。
［設定受付部］
設定受付部１９は、可変タグ選択部１４から選択された可変タグの入力を受け付けると、認証文字列中におけるパスワードと可変タグとの位置関係の設定をユーザから受け付ける。あるいは、設定受付部１９は、音声入力要求部２０が設定するパスワードと可変タグとの位置関係により音声入力することを選択しても良い。
［音声入力要求部］
音声入力要求部２０は、パスワードと全ての可変タグとを直結した認証文字列を発声するように、ユーザに要求する。ここで、音声入力要求部２０は、設定受付部１９で受け付けたユーザの設定あるいは音声入力要求部２０による設定された、パスワードと可変タグとの位置関係に基づいて音声入力を要求する。
［音声受付部］
音声受付部２２は、音声入力要求部２０からの認証文字列または認証文字列を含む文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
［特徴量抽出部］
特徴量抽出部２４は、ユーザの入力音声データを特徴量化つまり入力音声データの特徴量を抽出する。
［可変タグ検出部、パスワード区間抽出部］
可変タグ検出部２６は、その特徴量化された音声データから、可変タグ選択部１４で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部２７は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからユーザが発声したパスワードに相当する区間、つまりパスワードデータを抽出する。パスワード区間抽出部２７は、さらにユーザの特徴量化された入力音声データから可変タグに相当する区間（以下、入力タグデータという）を抽出する。
［類似度判定部］
類似度判定部２８は、パスワード判定部４８及び可変タグ判定部５０を有している。パスワード判定部４８は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部５０は、ユーザの入力タグデータと可変タグ選択部１４から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
［判定結果出力部］
判定結果出力部３２は、類似度判定部２８の判定結果を出力する。
（２）音声認証方法の処理の流れ
次に、前記図１０を参照して第２実施形態例に係る音声認証方法を説明する。
【００５８】
ステップＳ２０：ユーザＩＤ受付部１０は、ユーザからユーザＩＤの入力を受け付ける。
ステップＳ２１：登録情報選択部１２は、ステップ２０で入力されたユーザＩＤに対応する登録情報を選択し、可変タグ選択部１４及び類似度判定部２８に出力する。
【００５９】
ステップＳ２２：可変タグ選択部１４は、ユーザＩＤを受け取ると、タグＤＢ１６から可変タグ及びタグ登録話者性データを選択する。可変タグ選択部１４は、選択した可変タグをタグ記録ＤＢ１８、設定受付部１９、音声入力要求部２０及び可変タグ検出部２６に出力し、可変タグのタグ登録話者性データを類似度判定部２８に出力する。
【００６０】
ステップＳ２３：設定受付部１９は、認証文字列中の可変タグとパスワードとの位置関係の設定を受け付ける。
ステップＳ２４：音声入力要求部２０は、認証文字列の音声入力を要求する。
ステップＳ２５：音声受付部２２は、音声入力要求部２０からの認証文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
【００６１】
ステップＳ２６：特徴量抽出部２４は、ユーザの入力音声データの特徴量を抽出する。
ステップＳ２７：可変タグ検出部２６は、特徴量化された音声データから可変タグ選択部１４で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部２７は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。さらに、可変タグに相当する区間、つまり入力タグデータを抽出する。
【００６２】
ステップＳ２８：パスワード判定部４８は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部５０は、ユーザの入力タグデータと可変タグ選択部１４から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
【００６３】
ステップＳ２９：ステップＳ２８の結果、ユーザが認証されたか否かを判定する。
ステップＳ３０：ユーザが認証された場合は、次の処理へ進む。
ステップＳ３１：ユーザが認証されなかった場合には、処理を中断する。
第２実施形態例では、登録者から受け付けた可変タグと、音声入力された可変タグのタグ登録話者性データとが蓄積されている。そして、パスワードデータと登録者話者性データとの類似度のみならず、入力タグデータと可変タグのタグ登録話者性データとの類似度の判定もおこなうので音声認証の認証精度が向上する。
＜第３実施形態例＞
以下に、第３実施形態例に係る音声認証システム１０００について再び前記図９、前記図１０、図１２及び図１３を用いて説明する。
（１）音声認証システムの機能構成
図１２は、第３実施形態例に係る音声認証システムの機能構成を示すブロック図である。以下に、登録部１００及び認証部２００の各部の機能構成について説明する。
（１−１）登録部
［音声入力部］
音声入力部２では、登録者からパスワード及び複数の可変タグの音声入力を受け付ける。
［特徴量抽出部］
特徴量抽出部３は、音声入力部２から入力されたパスワード及び複数の可変タグの音声データから、それぞれの音声データの特徴量を抽出する。パスワードの音声入力から得られる特徴量を登録話者性データとし、可変タグの音声データの音声入力から得られる特徴量をタグ登録話者性データとする。
［登録情報作成部］
登録情報作成部５は、登録話者性データ、タグ登録話者性データ、可変タグ、パスワードの属性及びユーザＩＤ等を関連づけて登録情報を作成し、登録情報ＤＢ７に格納する。
［登録情報ＤＢ］
登録情報ＤＢ７は、作成された登録情報を蓄積する。図１３は、第３実施形態例に係る登録情報ＤＢ７の一例である。登録情報ＤＢ７には、例えばユーザＩＤ、可変タグ、登録話者性データ、タグ登録話者性データが１レコードに蓄積されている。
（１−２）認証部
［ユーザＩＤ受付部］
ユーザＩＤ受付部１０は、ユーザからユーザＩＤの入力を受け付け、受け付けたユーザＩＤを登録情報選択部１２に出力する。
［登録情報選択部、タグ記録ＤＢ］
登録情報選択部１２は、ユーザＩＤやタグ記録ＤＢ１８に基づいて登録情報を選択し、タグ記録ＤＢ１８、設定受付部１９、音声入力要求部２０、可変タグ検出部２６及び類似度判定部２８に出力する。このとき、出力される登録情報には、登録話者性データ及びタグ登録話者性データが含まれている。
【００６４】
タグ記録ＤＢ１８には、登録情報選択部１２から可変タグとして選択されたタグ候補が格納されており、過去に選択された可変タグの履歴を登録情報選択部１２に提供する。
［設定受付部］
設定受付部１９は、登録情報選択部１２から可変タグの入力を受け付けると、認証文字列中におけるパスワードと選択された可変タグとの位置関係の設定をユーザから受け付ける。あるいは、設定受付部１９は、音声入力要求部２０が設定するパスワードと可変タグとの位置関係により音声入力することを選択しても良い。
［音声入力要求部］
音声入力要求部２０は、パスワードと登録情報選択部１２が決定した全ての可変タグとを直結した認証文字列を発声するように、ユーザに要求する。ここで、音声入力要求部２０は、設定受付部１９で受け付けたユーザの設定あるいは音声入力要求部２０による設定された、パスワードと可変タグとの位置関係に基づいて音声入力を要求する。
［音声受付部］
音声受付部２２は、音声入力要求部２０からの認証文字列または認証文字列を含む文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
［特徴量抽出部］
特徴量抽出部２４は、ユーザの入力音声データを特徴量化つまり入力音声データの特徴量を抽出する。
［可変タグ検出部、パスワード区間抽出部］
可変タグ検出部２６は、その特徴量化された音声データから、登録情報選択部１２で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部２７は、さらに検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。パスワード区間抽出部２７は、さらにユーザの特徴量化された入力音声データから可変タグに相当する区間（以下、入力タグデータという）を抽出する。
［類似度判定部］
類似度判定部２８は、パスワード判定部４８及び可変タグ判定部５０を有している。パスワード判定部４８は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部５０は、ユーザの入力タグデータと登録情報選択部１２から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
［判定結果出力部］
判定結果出力部３２は、類似度判定部２８の判定結果を出力する。
（２）音声認証システムが行う音声認証方法の処理の流れ
次に、第３実施形態例に係る音声認証システム１０００における音声認証方法について再び前記図１０を用いて説明する。まず、登録部１００での登録情報の登録方法について説明する。
（２−１）登録情報の登録方法
ステップＳ１０：まず、音声入力部２は、登録者からパスワード及び可変タグを音声入力により受け付ける。
【００６５】
ステップＳ１１：特徴量抽出部３は、ステップ１０で音声入力された登録者固有のパスワードの登録話者性データ及び可変タグのタグ登録話者性データとを抽出する。
ステップＳ１２：登録情報作成部５は、ステップ１１で抽出した登録話者性データ、タグ登録話者性データ、可変タグ及びユーザＩＤ等を関連付けて登録情報を作成する。
【００６６】
ステップＳ１３：登録情報ＤＢ７は、ステップ１２で作成された登録情報を格納する。
（２−２）音声認証方法
次に、音声認証方法について再び前記図１０を用いて説明する。
ステップＳ２０：ユーザＩＤ受付部１０は、ユーザからユーザＩＤの入力を受け付ける。
【００６７】
ステップＳ２１：登録情報選択部１２は、ステップ２０で入力されたユーザＩＤに応じて登録されている登録情報を選択する。
ステップＳ２２：登録情報選択部１２は、可変タグを選択する。
ステップＳ２３：設定受付部１９は、認証文字列の設定を受け付ける。
ステップＳ２４：音声入力要求部２０は、認証文字列の音声入力を要求する。
【００６８】
ステップＳ２５：音声受付部２２は、音声入力要求部２０からの認証文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
ステップＳ２６：特徴量抽出部２４は、ユーザの入力音声データの特徴量を抽出する。
ステップＳ２７：可変タグ検出部２６は、特徴量化された入力音声データから登録情報選択部１２で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部２７は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。さらに、可変タグに相当する区間、つまり入力タグデータを抽出する。
【００６９】
ステップＳ２８：パスワード判定部４８は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部５０は、ユーザの入力タグデータと登録情報選択部１２から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
【００７０】
ステップＳ２９：ステップＳ２８の結果、ユーザが認証されたか否かを判定する。
ステップＳ３０：ユーザが認証された場合は、次の処理へ進む。
ステップＳ３１：ユーザが認証されなかった場合には、処理を中断する。
第３実施形態例では、パスワードの登録話者性データ及びユーザＩＤとともに可変タグ及び可変タグのタグ登録話者性データを登録情報ＤＢ７に蓄積する。よって、登録話者性データ、タグ登録話者性データ及び可変タグ等を一括して管理することができる。また、ユーザＩＤと関連づけられた可変タグ、タグ登録話者性データ及び登録話者性データなどの選択を、登録情報選択部１２が一括して行うため、処理を簡単化することができる。さらに、パスワードデータと登録者話者性データとの類似度のみならず、さらに入力タグデータとタグ登録話者性データとの類似度の判定も行うので音声認証の認証精度が向上する。
【００７１】
なお、本発明の実施形態に係る音声認証装置を実現するプログラムは、図１４に示すように、ＣＤ−ＲＯＭ３１１やフレキシブルディスク３１２等の可搬型記録媒体３１０だけでなく、通信回線の先に備えられた他の記憶装置３３０や、コンピュータ３００のハードディスクやＲＡＭ等の記録媒体３２０のいずれに記憶されるのものであっても良く、プログラム実行時には、プログラムにローディングされ、主メモリ上で実行される。
【００７２】
また、本発明の実施形態に係る音声認証装置により生成されたデータについても、図１４に示すように、ＣＤ−ＲＯＭ３１１やフレキシブルディスク３１２等の可搬型記録媒体３１０だけでなく、通信回線の先に備えられた他の記憶装置３３０や、コンピュータ３００のハードディスクやＲＡＭ等の記録媒体３２０のいずれに記憶されるのものであっても良く、例えば本発明に係る音声認証装置を利用する際にコンピュータ３００により読みとられる。
【００７３】
【発明の効果】
本発明を用いれば、パスワードの漏洩を低減し、認証精度を高め、詐称を防止し易い音声認証方法を提供することができる。
【図面の簡単な説明】
【図１】本発明の音声認証システムにおける認証時の表示画面例。
【図２】本発明の第１実施形態例に係る音声認証システムの機能構成を示すブロック図。
【図３】登録情報ＤＢ７の一例。
【図４】タグＤＢ１６に蓄積されているタグ候補の一例（１）。
【図５】タグＤＢ１６に蓄積されているタグ候補の一例（２）。
【図６】タグ記録ＤＢ１８の一例。
【図７】パスワードと可変タグとの位置関係を指定する別の表示画面例。
【図８】（ａ）ユーザが音声認証システムに対して音声入力した入力文字列の一例（１）。
（ｂ）ユーザが音声認証システムに対して音声入力した入力文字列の一例（２）。
【図９】登録情報の登録方法の流れの一例を示すフローチャートの一例。
【図１０】音声認証方法の一例。
【図１１】本発明の第２実施形態例に係る音声認証システム機能構成を示すブロック図。
【図１２】第３実施形態例に係る音声認証システムの機能構成を示すブロック図。
【図１３】第３実施形態例に係る登録情報ＤＢ７の一例。
【図１４】記憶装置の一例。
【図１５】音声認証方法の概念図。
【符号の説明】
１：音声入力部
３：特徴量抽出部
５：登録情報作成部
７：登録情報ＤＢ
１０：ユーザＩＤ受付部
１２：登録情報選択部
１４：可変タグ選択部
１６：タグＤＢ
１８：タグ記録ＤＢ
１９：設定受付部
２０：音声入力要求部
２２：音声受付部
２４：可変タグ検出部
２６：特徴量抽出部
２７：パスワード区間抽出部
２８：類似度判定部
３０：しきい値ＤＢ
３２：判定結果出力部
１００：登録部
２００：認証部

Claims

ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するテキスト依存型の音声認証装置であって、
ユーザ識別子を受け付けるユーザ識別子受付部と、
前記登録者が発声したパスワードである話者性データ（以下、登録話者性データという）を前記ユーザ識別子と対応づけて格納する第１格納部と、
使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部と、
前記タグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記タグ記録部に記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも１の前記可変タグを決定する決定部と、
前記決定部で決定した各可変タグの全てを、前記パスワードの直前及び／または直後に直結した認証文字列を含む文字列の音声による入力を前記ユーザに要求する入力要求部と、
前記要求に応じた入力音声を前記ユーザから受け付ける受付部と、
前記ユーザにより発声された入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出部と、
前記位置検出部で検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも１の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出部と、
前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較部と、
前記比較部における比較結果に基づいて、前記ユーザを認証するか否かを判断する認証部と、
を含む音声認証装置。
前記可変タグとして用いられる文字列であるタグ候補と前記登録者が発声したタグ候補の話者性データ（以下、タグ登録話者性データという）を前記ユーザ識別子と対応づけて格納する第２格納部をさらに含み、
前記決定部は、前記ユーザ識別子に対応づけられている少なくとも１のタグ候補を前記第２格納部から選択し、選択したタグ候補を前記可変タグとして決定し、
前記抽出部では、前記特徴量化された入力音声データから前記位置検出部により検出された前記少なくとも１の可変タグに相当する区間（以下、入力タグデータという）をさらに抽出し、
前記比較部では、抽出された前記入力タグデータと前記ユーザ識別子に対応する前記タグ登録話者性データとをさらに比較する、請求項１に記載の音声認証装置。
予め前記可変タグとして用いられる文字列であるタグ候補と前記タグ候補に対応する属性とを格納しておく第３格納部をさらに含み、
前記第１格納部では、前記パスワードに対応する属性を前記ユーザ識別子と関連づけて格納しておき、
前記決定部では、前記パスワードに対応する属性と前記タグ候補に対応する属性とに基づいて少なくとも１の可変タグを決定する、請求項１に記載の音声認証装置。
前記可変タグとして用いられる文字列であるタグ候補を、前記登録者から受け付け、前記登録者のユーザ識別子に対応させて格納するタグ格納部をさらに含み、
前記決定部では、前記ユーザ識別子に対応する少なくとも１のタグ候補を前記タグ格納部から選択し、選択したタグ候補を前記可変タグとして決定する、請求項１に記載の音声認証装置。
ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するように、前記コンピュータが実行するテキスト依存型の音声認証方法であって、
ユーザ識別子を受け付けるユーザ識別子受付工程と、
使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも１の前記可変タグを決定する決定工程と、
前記決定工程で決定した各可変タグの全てを、予めユーザ識別子毎に登録されている話者性データ（以下、登録話者性データという）のパスワードの直前及び／または直後に直結した認証文字列を含む文字列の音声による入力を要求する入力要求工程と、
前記要求に応じた入力音声を前記ユーザから受け付ける受付工程と、
前記入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出工程と、
前記位置検出工程で検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも１の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出工程と、
前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較工程と、
前記比較工程における比較結果に基づいて、前記ユーザを認証するか否かを判断する認証工程と、
を含む音声認証方法。
ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するように、前記コンピュータが実行するテキスト依存型の音声認証プログラムであって、
ユーザ識別子を受け付けるユーザ識別子受付ステップ、
使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも１の前記可変タグを決定する決定ステップ、
前記決定ステップで決定した各可変タグの全てを、予めユーザ毎に登録されている話者性データ（以下、登録話者性データという）のパスワードの直前及び／または直後に直結した認証文字列を含む文字列の音声による入力を要求する入力要求ステップ、
前記要求に応じた入力音声を前記ユーザから受け付ける受付ステップ、
前記入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出ステップ、
前記位置検出ステップで検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも１の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出ステップ、
前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較ステップ、及び
前記比較ステップにおける比較結果に基づいて、前記ユーザを認証するか否かを判断する認証ステップ、
を前記コンピュータに実行させるための音声認証プログラム。