JP4245948B2 - 音声認証装置、音声認証方法及び音声認証プログラム - Google Patents
音声認証装置、音声認証方法及び音声認証プログラム Download PDFInfo
- Publication number
- JP4245948B2 JP4245948B2 JP2003088163A JP2003088163A JP4245948B2 JP 4245948 B2 JP4245948 B2 JP 4245948B2 JP 2003088163 A JP2003088163 A JP 2003088163A JP 2003088163 A JP2003088163 A JP 2003088163A JP 4245948 B2 JP4245948 B2 JP 4245948B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- user
- variable
- password
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声認証装置、音声認証方法、音声認証プログラムに関する。
【0002】
【従来の技術】
図15は、従来の音声認証方法の概念図である。音声認証は、概念的には以下の工程により行われる。以下、登録者とは音声認証システムに登録されている者、ユーザとは音声認証システムにより登録者であるか否かを照合される者とする。
【0003】
まず、音声登録時は、登録する者から音声入力を受付け(S1)、その音声の特徴量を抽出する(S2)。そして、登録者を識別する登録者IDや抽出された登録者の音声の特徴量等を含む登録情報を登録する(S3)。ユーザを認証する際には、音声認証システムはユーザに登録者ID入力を要求し、登録者IDを受け付ける(S4)。次に、ユーザに音声入力を要求し音声を受け付ける(S5)。そして、入力されたユーザの音声から特徴量を抽出し(S6)、登録者の特徴量との類似度を判定する(S7)。類似度が所定のしきい値以上であると判定された場合には、ユーザを登録者と認証する(S8)。
【0004】
以下に、各種の音声認証方法を説明する。ここで、話者性データとは、話者の音声データ、音声データから抽出した特徴量系列(所謂、テンプレート)、特徴量を用いて学習した統計的モデル(所謂、話者モデルであり、多数の多次元正規分布からなる。)、及び特徴量をクラスタリングして作成したコードブックを含むものとする。また、登録者が登録時に単語や文節などの登録者固有のテキスト(以下、パスワードという)を発声することにより登録した話者性データを登録話者性データとし、ユーザが認証時に発声したパスワードに相当する区間の特徴量系列をパスワードデータとする。
【0005】
音声認証方法としては、例えばテキスト独立型がある。テキスト独立型とは、まず、認証時に任意の単語、文節または文章などのテキストをユーザに発声させる。そして、ユーザが音声入力したテキストのパスワードデータと登録者の登録話者性データとの類似度が所定のしきい値を以上であるか否かを判定する音声認証方法である。つまり、テキスト独立型では、パスワードデータと登録話者性データとのテキスト、つまり発声内容としての同一性は必ずしも要求されない。
【0006】
別の音声認証方法として、パスワードデータと登録話者性データとの発声内容の同一性が要求されるテキスト依存型の音声認証方法がある。例えば、登録者による文字列Aの音声入力から文字列Aに対応する登録話者性データを抽出し登録する。認証時には、文字列Aをユーザに発声させ、その文字列Aに対応する区間の特徴量系列、つまりパスワードデータを抽出する。そして、文字列Aについての登録話者性データと文字列Aについての特徴量系列との類似度を所定のしきい値を基準に判定する。このようなテキスト依存型の音声認証方法においては、登録時及び認証時の発声内容が同一であるため高い認証精度が得られる。すなわち、同一の発声内容で類似度を計算するため、許容する類似度を大きく、つまり厳しく設定できる。
【0007】
さらに、別の音声認証方法として、音声認証システムがユーザに発声すべき発声内容、つまりテキストを指定するテキスト指定型の音声認証方法がある。このテキスト指定型の音声認証方法として、1)登録者による音声データから音素や音節等の単位毎に登録話者性データを作成し、2)音声認証システムが、登録した音素や音節別の登録話者性データから構成される文字列の音声入力をユーザに要求する。3)要求した文字列と同じになるように音素や音節別の登録話者性データを並び替えて連結する。4)そして、連結された音素や音節別の登録話者性データと、ユーザにより入力された音声データとの類似度を所定のしきい値を基準に判定する方法が提案されている(特許文献1参照)。また、同様の方法として、1)登録者から発声された、数字やアルファベット等の記号の発声内容の入力音声から話者モデルを記号毎に登録し、2)音声認証システムが、その記号を組み合わせた記号列の音声入力をユーザに要求する。3)記号毎に登録された話者モデルを、要求した記号列に従って連結する。4)そして、連結された記号列の話者モデルとユーザにより音声入力されたその記号列における音声データとの類似度を所定のしきい値を基準に判定する方法が提案されている(特許文献2参照)。このように、特許文献1及び特許文献2に示す音声認証方法においては、ユーザは、認証時毎に音声認証システムが指定した発声内容を発声しなければならない。よって、認証時毎に要求する発声内容を変更することにより、前回の発声内容の音声データを第三者が録音し、録音した音声データを音声認証システムに入力して登録者になりすまして不正認証を受けるという問題に対処することができる。
【0008】
また、近年、音声合成技術が高度に発展しており、登録者の音声データが少しあれば、その音声データに基づいて、任意の文字列についての登録者の音声データを容易にねつ造できる。そのような音声合成器が、非特許文献1に示されている。
【0009】
【特許文献1】
特開平5−323990号公報
【0010】
【特許文献2】
特開2000−99090号公報
【0011】
【非特許文献1】
電子情報通信学会論文誌DII Vol.J83-D-II No.11 「話者照合システムに対する合成音声による詐称」
【0012】
【発明が解決しようとする課題】
しかし、テキスト独立型の音声認証方法では、登録時と認証時とで異なる発声内容で認証を行うので、認証精度が低下する。また、ユーザは音声入力を長く行う必要があり、ユーザの利便性に欠ける。さらに、発声内容の入力音声を第三者が録音し、音声認証システムに入力した場合には、容易に第三者が不正認証されてしまう問題がある。
【0013】
また、テキスト依存型では、認証時に登録者固有のパスワードが音声入力されるため、パスワードが第三者に漏洩し易い。そのため、第三者がパスワードの入力音声を録音や盗聴した場合は、容易に第三者が不正認証を受けることができる。
以上のことから、テキスト独立型及びテキスト依存型ともに、パスワードが漏洩したり、また発声内容の音声データが第三者により録音され音声認証システムに入力された場合には、容易に第三者が不正に認証されてしまう。
【0014】
また、前記特許文献1及び2に記載されているテキスト指定型の音声認証方法では、認証時の入力音声が第三者により録音されても、認証時毎に音声認証システムが異なる発声内容を指定するため、録音による不正認証には対処できる。しかし、音声認証システムが入力する発声内容を指定するため、第三者であっても発声内容を知り得る。そのため、第三者が指定された発声内容で認証されるかどうかを試すことができる。しかも、前記非特許文献1に記載の音声合成技術を用いれば、発声内容を指定する前記特許文献1及び2に記載の音声認証方法であっても、詐称を防止できない。
【0015】
そこで、本発明は、パスワードの漏洩を低減し、認証精度を高め、詐称を防止し易い音声認証方法を提供することを目的とする。
【0016】
【課題を解決するための手段】
上記課題を解決するために、本願第1発明は、ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するテキスト依存型の音声認証装置であって、ユーザ識別子を受け付けるユーザ識別子受付部と、前記登録者が発声したパスワードである話者性データ(以下、登録話者性データという)を前記ユーザ識別子と対応づけて格納する第1格納部と、使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部と、前記タグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記タグ記録部に記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも1の前記可変タグを決定する決定部と、前記決定部で決定した各可変タグの全てを、前記パスワードの直前及び/または直後に直結した認証文字列を含む文字列の音声による入力を前記ユーザに要求する入力要求部と、前記要求に応じた入力音声を前記ユーザから受け付ける受付部と、前記ユーザにより発声された入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出部と、前記位置検出部で検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも1の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出部と、前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較部と、前記比較部における比較結果に基づいて、前記ユーザを認証するか否かを判断する認証部とを含む音声認証装置を提供する。
【0017】
コンピュータが、ユーザに対して各可変タグの全てとパスワードとを直結した認証文字列を含む文字列の音声入力を要求する。よって、パスワード以外の可変タグを発声するように要求するため、パスワードの漏洩を低減、つまりパスワードの隠匿性を高めることができる。さらに、可変タグとパスワードとを直結した認証文字列を含む文字列の音声入力を要求されている場合には、パスワードだけが音声入力されても認証はされない。ここで、可変タグは、例えば認証時毎に毎回変更されるように決定したり、認証時毎に毎回変更されないがランダムに変更されるように決定するので、パスワードの漏洩をさらに低減することができる。
【0018】
さらに、登録者とユーザとの同一性は、登録時と認証時の発声内容が同一であることを基準に判定される。つまり、ユーザが可変タグに直結して登録者固有のパスワードを発声していることを前提としてパスワードデータと登録話者性データとの類似度が判定されるため、許容する類似度を大きく、つまり厳しく設定している。よって、テキスト依存型の音声認証方法の特性を活かし、高い認証精度を得ることができる。
【0019】
例えば、認証文字列が、パスワードの直前及び直後に可変タグを直結した文字列であるとする。繰り返し認証処理を行う場合、可変タグの決定は、直前または直後のいずれかの可変タグが前回と異なるように、かつ残りの可変タグは前回と同一になるように行う。このように可変タグを決定すると、前回と次回の両方の認証時において、変更されなかった可変タグとパスワードとから構成される文字列を含む文字列が音声入力される。そのため、第三者に対し、変更されなかった可変タグとパスワードとから構成される文字列をパスワードと見せかけ、正確なパスワードの漏洩を低減することができる。
【0020】
前記抽出部で複数のパスワードデータを抽出した場合、前記認証部では、いずれかの前記パスワードデータと前記登録話者性データとの類似度が所定のしきい値以上である場合に、前記ユーザを認証する音声認証装置を提供すると好ましい。
例えば、入力音声データから可変タグの直前に直結したパスワードデータ及び直後に直結したパスワードデータの2つの入力音声データが抽出されたとする。この2つのパスワードデータのいずれかと登録話者性データとの類似度が所定のしきい値以上であると判定された場合、コンピュータは登録者とユーザとが一致していると判定する。そのため、認証文字列内の可変タグとパスワードとの発声順の自由度が担保される。
【0021】
前記入力要求部は、前記認証文字列における前記パスワードと前記可変タグとの位置関係を指定する指定部を含み、前記抽出部では、前記指定部で指定された前記パスワードと前記可変タグとの位置関係に基づいて前記パスワードデータを抽出する音声認証装置を提供すると好ましい。
この装置により、コンピュータが、パスワードと可変タグとの位置関係を指定するので、ユーザが音声入力した特徴量化された入力音声データからパスワードデータを正確に抽出することができる。パスワードと可変タグとの位置関係は、パスワードの直前または直後に可変タグを配置、あるいはパスワードの直前及び直後に可変タグを配置する方法の3通りが考えられる。
【0022】
前記認証文字列における前記パスワードと前記可変タグとの位置関係の設定を前記ユーザから受け付ける設定受付部をさらに含み、前記入力要求部は、前記設定受付部で設定された位置関係を有する認証文字列を含む文字列の音声入力を要求し、前記抽出部では、前記設定受付部で設定された前記パスワードと前記可変タグとの位置関係に基づいて前記パスワードデータを抽出する音声認証装置を提供すると好ましい。
【0023】
認証文字列におけるパスワードと可変タグとの位置関係をユーザが設定するので、ユーザの自由度を高めつつ特徴量化されたユーザの入力音声データからパスワードに相当する区間であるパスワードデータを的確に抽出することができる。
本願第2発明は、本願第1発明において、前記可変タグとして用いられる文字列であるタグ候補と前記登録者が発声したタグ候補の話者性データ(以下、タグ登録話者性データという)を前記ユーザ識別子と対応づけて格納する第2格納部をさらに含み、前記決定部は、前記ユーザ識別子に対応づけられている少なくとも1のタグ候補を前記第2格納部から選択し、選択したタグ候補を前記可変タグとして決定し、前記抽出部では、前記特徴量化された入力音声データから前記位置検出部により検出された前記少なくとも1の可変タグに相当する区間(以下、入力タグデータという)をさらに抽出し、前記比較部では、抽出された前記入力タグデータと前記ユーザ識別子に対応する前記タグ登録話者性データとをさらに比較する音声認証装置を提供する。
【0024】
登録者の登録話者性データとユーザのパスワードデータとの類似度の比較のみならず、可変タグについてもタグ登録話者性データと入力タグデータとを比較するため、認証精度が向上する。
本願第3発明は、本願第1発明において、予め前記可変タグとして用いられる文字列であるタグ候補と前記タグ候補に対応する属性とを格納しておく第3格納部をさらに含み、前記第1格納部では、前記パスワードに対応する属性を前記ユーザ識別子と関連づけて格納しておき、前記決定部では、前記パスワードに対応する属性と前記タグ候補に対応する属性とに基づいて少なくとも1の可変タグを決定する音声認証装置を提供する。
【0025】
例えば、パスワードに対応する属性と可変タグに対応する属性との関連性が高くなるように可変タグを決定すると、パスワードと可変タグとの識別を困難にし、パスワードの漏洩を低減することができる。ここで、属性とは、文字や文節等の言葉をカテゴリ毎に分類するための情報であり、例えば地名、人名、数字、英語等などをいう。
【0026】
本願第4発明は、本願第1発明において、前記可変タグとして用いられる文字列であるタグ候補を、前記登録者から受け付け、前記登録者のユーザ識別子に対応させて格納するタグ格納部をさらに含み、前記決定部では、前記ユーザ識別子に対応する少なくとも1のタグ候補を前記タグ格納部から選択し、選択したタグ候補を前記可変タグとして決定する音声認証装置を提供する。
【0027】
登録者が入力したタグ候補から可変タグが決定されるので、ユーザの認証文字列の組み合わせにおいて自由度を高めることができる。
本願第5発明は、前記第1発明の装置が実行する音声認証方法を提供する。
本願第6発明は、前記第1発明の装置が実行する音声認証プログラムを提供する。
【0028】
【発明の実施の形態】
<発明の概要>
本発明の音声認証システムにおける音声認証方法の概略を説明する。以下、登録者とは音声認証システムに登録されている者、ユーザとは音声認証システムに予め登録してある登録者本人か否かを照合される者とする。また、話者性データとは、話者の音声データ、音声データから抽出した特徴量系列(所謂、テンプレート)、特徴量を用いて学習した統計的モデル(所謂、話者モデルであり、多数の多次元正規分布からなる。)、及び特徴量をクラスタリングして作成したコードブックを含むものとする。また、登録者が登録時に単語や文節などの登録者固有のテキスト(以下、パスワードという)を発声することにより登録した話者性データを登録話者性データとする。この登録話者性データは、ユーザ認証に用いられる認証情報である。一方、ユーザが認証時に発声した発声内容のうち、登録話者性データとの比較対象となる、パスワードに相当する区間の特徴量系列をパスワードデータとする。さらに、可変タグは、認証時のユーザの発声内容から前記パスワードデータを抽出するためのテキストである。可変タグは、例えば認証時毎に毎回変更されるように決定したり、認証時毎に毎回変更されないがランダムに変更されるように決定する。また、前回決定された複数の可変タグの少なくとも1つを変更するように決定しても良い。
【0029】
図1は、本発明の音声認証システムにおける認証時の表示画面例である。
音声認証システムには、例えば、予め登録者の登録話者性データ、登録者を識別するユーザID等の登録情報が蓄積されている。
音声認証システムは、ユーザからユーザIDを受け付け、可変タグの決定を行う。そして、決定した可変タグとパスワードとを直結した認証文字列を音声入力することをユーザに要求する。図1は、音声認証システムがユーザに音声入力を指示している画面例である。図1では、音声認証システムは可変タグとして“11785”及び“22336”を決定しており、可変タグ“11785”に直結してパスワードを発声し、パスワードに続けて可変タグ“22336”を発声するように要求している。そこで、ユーザは要求された認証文字列を発声し、音声入力を行う。次に、音声認証システムは、ユーザが発声した入力音声の音声データ(以下、入力音声データという)を特徴量化つまり入力音声データの特徴量を抽出し、音声認識あるいはワードスポッティング等により入力音声データの中から可変タグの位置を検出する。この検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。このパスワードデータと登録話者性データとの類似度を判定し、類似度が所定のしきい値以上である場合にはユーザを認証し、所定のしきい値より小さい場合にはユーザを認証しない。
【0030】
音声入力を要求される文字列は、可変タグとパスワードとを直結した認証文字列のみであっても良いが、認証文字列及びその他の単語、文節などを含むように構成された文字列であると、パスワードの漏洩をより低減することができ好ましい。
なお、可変タグとパスワードとを直結した音声入力を行うか、パスワードのみの音声入力を行うかは、ユーザに認証時に選択させることもできる。よって、パスワードの漏洩の心配が無い環境においては、パスワードのみの音声入力を許し、ユーザの利便性を高めることができる。
<第1実施形態例>
以下に、第1実施形態例に係る音声認証システムを説明する。
(1)音声認証システムの機能構成
図2は本発明の第1実施形態例に係る音声認証システムの機能構成を示すブロック図である。音声認証システム1000は、登録部100及び認証部200を有している。登録部100は、登録者により発声された登録者固有のパスワードの登録話者性データ、パスワードの属性及び登録者を識別するユーザIDなどの登録情報を登録する。ここで、属性とは、文字や文節等の言葉をカテゴリ毎に分類するための情報であり、例えば地名、人名、数字、英語等などをいう。
【0031】
認証部200は、ユーザが登録者であるか否かを判定する。以下に、登録部100及び認証部200の各部の機能構成について説明する。
(1−1)登録部
登録部100は、ユーザID受付部1、音声入力部2、特徴量抽出部3、登録情報作成部5及び登録情報DB7を有している。以下に、各部の機能構成について説明する。
[ユーザID受付部]
ユーザID受付部1は、登録者からユーザIDを受け付け、受け付けたユーザIDを音声入力部2に出力する。
[音声入力部]
音声入力部2は、登録者から音声認証システム1000での認証時に必要な単語、文章等などの登録者固有のパスワードを音声入力により受け付ける。次に、受け付けたパスワードの音声をA/D変換によりデジタル化された音声データに変換し、特徴量抽出部3に出力する。音声入力部2は、登録者に対してパスワードの文字数や音数を指定して入力するように要求しても良い。また、複数のパスワードを登録できるようにしても良い。
[特徴量抽出部]
特徴量抽出部3は、音声入力部2から入力された音声データについて、例えばLPC(Linear Predictive Coding)分析により得られるLPCケプストラムや、Mel周波数軸に変換された対数パワースペクトラムをDCT(Discrete Cosine Transform)したMFCC(Mel frequency Cepstral Coefficients)などの特徴量を抽出する。以下、この登録者によるパスワードの音声入力から得られる特徴量を登録話者性データとする。ただし、前述したように登録話者性データは、音声データ、統計的モデルあるいはコードブックであっても良い。
[登録情報作成部]
登録情報作成部5は、登録話者性データ、パスワードの属性及びユーザID等を関連づけて登録情報を作成し、登録情報DB7に格納する。
[登録情報DB]
登録情報DB7には、登録話者性データ、パスワードの属性及びユーザIDを1レコードに含む登録情報が蓄積されている。図3は、登録情報DB7の一例である。ユーザIDが“0001”の登録者については、パスワード“1234”における登録者の登録話者性データが登録されている。パスワードの属性を登録情報DB7に登録しておくと、後述の可変タグ選択部14においてパスワードの属性に応じた可変タグを選択できる。例えば、パスワードと可変タグとの属性が同一または類似であると、パスワードと可変タグとの識別が困難となりパスワードの隠匿性を高めることができ好ましい。
(1−2)認証部
認証部200は、ユーザID受付部10、登録情報選択部12、可変タグ選択部14、タグDB16、タグ記録DB18、設定受付部19、音声入力要求部20、音声受付部22、特徴量抽出部24、可変タグ検出部26、パスワード区間抽出部27、類似度判定部28、しきい値DB30及び判定結果出力部32を有している。以下に、各部の機能構成について説明する。
[ユーザID受付部]
ユーザID受付部10は、ユーザからユーザIDの入力を受け付け、受け付けたユーザIDを登録情報選択部12及び可変タグ選択部14に出力する。
[登録情報選択部]
登録情報選択部12は、入力されたユーザIDに対応する登録話者性データ及びパスワードの属性を登録情報DB7から選択し、可変タグ選択部14及び類似度判定部28に出力する。
[可変タグ選択部、タグDB、タグ記録DB]
可変タグ選択部14は、ユーザIDの入力に応答し、タグDB16に基づいて可変タグを選択する。可変タグの選択は、タグ記録DB18の記録を参照し、例えば可変タグが認証時毎に変更されたり、ランダムに変更されるように行う。可変タグ選択部14は、選択した可変タグをタグ記録DB18、設定受付部19、音声入力要求部20及び可変タグ検出部26に出力する。
【0032】
タグDB16には、可変タグとして用いられる文字列であるタグ候補が蓄積されている。
図4及び図5は、タグDB16に蓄積されているタグ候補の一例である。図4では、例えば英語、数字、地名等の単語、文節等のタグ候補及びタグ候補の属性が蓄積されている。図5では、タグ候補及びその属性がユーザID毎に蓄積されている。よって、可変タグ選択部14は、登録情報選択部12からパスワードの属性を受け取ると、その属性に応じたタグ候補を可変タグとして選択することができる。このようにパスワードの属性に応じて可変タグを選択すると、ユーザが音声認証システム1000に要求された認証文字列を音声入力した場合に、可変タグとパスワードとの見分けがつきにくくなる。よって、パスワードの漏洩を低減、つまりパスワードの隠匿性を高めることができる。
【0033】
また、図5に示すようにタグ候補及びその属性がユーザIDと関連づけられて登録されていると、可変タグ選択部14は、ユーザIDと関連するタグ候補を可変タグとして選択することができる。さらに、ユーザIDごとに登録者自身が選択した単語、文節等をタグ候補として複数登録することもできる。登録者自身がタグ候補の登録を行うと、パスワードの隠匿方法を事前に考えておくことができる等の登録者の自由度が高まる。また、タグ候補を登録者が登録するのではなく、音声認証システム1000が登録者毎のパスワードの属性等を考慮し、パスワードの隠匿性が高い単語、文節等をタグ候補として蓄積するようにしても良い。
【0034】
タグ記録DB18は、可変タグ選択部14から可変タグとして選択されたタグ候補を受け付ける。そして、ユーザID毎に過去に可変タグとして選択されたタグ候補の記録し、その記録を可変タグ選択部14に提供する。図6は、タグ記録DB18の一例であり、例えばユーザID、何回目のアクセスであるかを示すアクセス番号、選択されたタグ候補及びアクセス日時が1レコードに蓄積されている。可変タグ選択部14は、タグ記録DB18の選択されたタグ候補の記録に基づいて、可変タグとして選択するタグ候補を決定することができる。例えば、繰り返し認証処理を行う場合、タグ記録DB18の中の最後に用いられたユーザID毎の可変タグを参照し、前回選択されたタグ候補は選択しないように現在の可変タグを決定する。また、タグ記録DB18は、これまでに選択されたタグ候補の履歴を作成し、過去に選択されたことのあるタグ候補は選択しないように可変タグを決定しても良い。
【0035】
さらに、複数個の可変タグを用いる場合、そのうちの少なくとも1つが変わるように可変タグを選択すると、パスワードの隠匿性を高めることができ好ましい。例えば、要求される認証文字列が、パスワードの直前及び直後に可変タグを直結した文字列であるとする。繰り返し認証処理を行う場合、可変タグの決定は、直前または直後のいずれかの可変タグが前回と異なるように、かつ残りの可変タグは前回と同一になるように行う。このように可変タグを決定すると、前回と次回の両方の認証時において、変更されなかった可変タグとパスワードとが直結された文字列を含む認証文字列の音声入力が要求される。そのため、第三者に対し、変更されなかった可変タグとパスワードとが直結された文字列を、パスワードと見せかけ、正確なパスワードの漏洩を低減することができる。具体的には、図6のユーザID“0001”のアクセス番号2において、“555”及び“777”の2つの文字列が可変タグとして選択され、次のアクセス番号3において“555”及び“999”の2つの文字列が可変タグとして選択されている。ここで、音声認証システム1000がこれら2つの可変タグによりパスワードを挟み込んだ認証文字列の音声入力を要求すると、連続して“555”及びパスワードからなる文字列が音声入力される。よって、第三者は“555”及びパスワードからなる文字列がパスワードであると誤認する。
[設定受付部]
設定受付部19は、可変タグ選択部14から可変タグの入力を受け付けると、認証文字列中におけるパスワードと選択された可変タグとの位置関係の設定をユーザから受け付ける。設定受付部19は、受け付けた位置関係の設定を音声入力要求部20に出力する。このように、パスワードと可変タグとの位置関係をユーザが設定するので、ユーザの自由度を高めつつ後述するパスワード区間抽出部27においてユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを正確に抽出することができる。
【0036】
あるいは、設定受付部19は、音声入力要求部20が設定するパスワードと可変タグとの位置関係により音声入力することを選択しても良い。
[音声入力要求部]
音声入力要求部20は、パスワードと可変タグ選択部14が決定した全ての可変タグとを直結した認証文字列を発声するように、ユーザに要求する。ここで、音声入力要求部20は、設定受付部19で受け付けたユーザの設定に基づいて、パスワードと可変タグとを直結した認証文字列を音声入力することを要求する。
【0037】
また、音声入力要求部20が、パスワードと可変タグとの位置関係を指定しても良い。例えば、前記図1に示すように、パスワードと可変タグとの位置関係を指定した認証文字列の音声入力を要求する。音声入力要求部20により位置関係が指定されると、可変タグとパスワードとの位置関係を、ユーザ自身が決定する手間を省くことができる。また、後述のパスワード区間抽出部27において、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードデータを正確に抽出することができる。指定される位置関係としては、パスワードの直前または直後に可変タグを配置する、あるいはパスワードの直前及び直後に可変タグを配置する方法の3通りが考えられる。図7は、パスワードと可変タグとの位置関係を指定する別の表示画面例である。図7では、音声入力要求部20により虫食い形式で発声内容が提示される。よって、ユーザは空欄にパスワードを入れ、指定された発声内容を音声入力するのみで良いので、認証時のユーザの手間を簡略化することができる。
【0038】
音声入力要求部20は、可変タグとパスワードとを直結した認証文字列の音声入力を要求しても良いが、認証文字列及びその他の単語、文節などを含む文字列の音声入力を要求すると、パスワードの漏洩を低減することができ好ましい。
また、ユーザへの発声内容の要求を、前記図1及び図7に示すように画面に提示して行うと、可変タグとパスワードとの位置関係や可変タグが第三者に盗聴されにくくなり、パスワードの漏洩を低減することができる。
【0039】
さらに、複数のパスワードが登録されている場合には、例えば複数のパスワードに対応する複数の可変タグを選択し、それら複数のパスワード及び可変タグを直結した複数の認証文字列の音声入力を要求すると、認証を行う音声データが増加するので認証精度が向上し好ましい。
[音声受付部]
音声受付部22は、音声入力要求部20からの認証文字列の音声入力、または認証文字列を含む文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
[特徴量抽出部]
特徴量抽出部24は、ユーザの入力音声データを特徴量化つまり入力音声データの特徴量を抽出する。
[可変タグ検出部、パスワード区間抽出部]
可変タグ検出部26は、その特徴量化された音声データから、可変タグ選択部14で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部27は、さらに検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードデータを抽出する。特徴量の抽出方法は特徴量抽出部3と同様である。
【0040】
図8(a)、(b)は、ユーザが音声認証システムに対して音声入力した文字列の一例である。図8(a)では、可変タグ選択部14において可変タグとして“A”が選択され、ユーザから“BCDEFGAHIJKLM”の文字列が音声入力されている。図8(b)では、可変タグ選択部14において可変タグとして“A”及び“N”が選択され、“A”及び“N”で挟みこんでパスワードを発声するように要求されたユーザから“BCDEFGAHIJKLMNOP”の文字列が音声入力されている。
【0041】
まず図8(a)を参照して、可変タグの位置の検出及びパスワードデータを抽出する方法の一例を示す。音声認証システム1000内の音声入力要求部20が、パスワードと選択された可変タグとを直結した認証文字列を音声入力するように要求しているとする。まず、特徴量抽出部24は、図8(a)に示す文字列の入力音声データを特徴量化する。可変タグ検出部26は、その中から選択された可変タグ“A”の位置を、音声認識あるいはワードスポッティング等により検出する。さらに、パスワード区間抽出部27は、この検出された可変タグ“A”の位置に基づいて、特徴量化された入力音声データからパスワードに対応する区間を抽出する。図8(a)の場合、可変タグ“A”の前に直結されている“BCDEFG”及び可変タグ“A”の後に直結されている“HIJKLM”のパスワードデータを抽出する。
【0042】
登録部100において、パスワードの音数や文字数を指定して登録すると、認証精度を高めることができる。例えば、4音数のパスワードが登録されている場合、音声入力を要求された認証文字列の入力音声データ特徴量化し、その中から4音数分に対応する“DEFG”及び“HIJK”のパスワードデータを抽出する。
【0043】
音声入力要求部20が、位置関係を指定し、可変タグの直前にパスワードを直結して音声入力するように要求している場合は、検出された可変タグの位置に基づいて、特徴量化された入力音声データから可変タグ直前のパスワードデータを抽出する。よって、音声入力要求部20において指定された、可変タグとパスワードとの位置関係に応じて正確にパスワードデータを抽出でき好ましい。
【0044】
図8(b)では、音声入力要求部20が選択された2つの可変タグによりパスワードを挟みこんだ認証文字列の音声入力を要求しているとする。まず、特徴量抽出部24は、ユーザの入力音声データを特徴量化する。可変タグ検出部26は、特徴量化された入力音声データから可変タグ“A”及び“N”の位置を検出する。そして、パスワード区間抽出部27は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データから“HIJKLM”に対応するパスワードデータを抽出する。
[類似度判定部]
類似度判定部28は、ユーザのパスワードデータと登録者の登録話者性データとの類似度を、所定のしきい値を基準にして判定する。所定のしきい値としては、例えば認証の重要度に応じた値が蓄積されている。類似度判定部28での類似度の判定は、登録時と認証時の発声内容が同一であることを基準に判定される。つまり、ユーザが可変タグに直結して登録者固有のパスワードを発声していることを前提としてパスワードデータと登録話者性データとの類似度が判定されるため、両者の許容する類似度を大きく、つまり厳しく設定している。
【0045】
類似度判定部28において、抽出されたパスワードデータが複数存在する場合は、複数のパスワードデータの内少なくとも1つのパスワードデータと登録話者性データとの類似度が所定のしきい値以上であると判定された場合、ユーザと登録者が同一であると判定しても良い。このように少なくとも1つのパスワードデータによりユーザの認証を行うので、可変タグとパスワードとの発声順の自由度を担保することができる。
【0046】
また、登録部100において、複数の登録話者性データが登録されている場合には、複数の登録話者性データの少なくとも一つとパスワードデータとの類似度を所定のしきい値を基準に判定することもできる。
さらに、ユーザにより音声入力された可変タグの音声データの特徴量(以下、入力タグデータという)を抽出し、登録者の登録話者性データと比較することもできる。また、登録者による音声データから音素や音節等の単位毎に登録話者性データを作成し、音声認証システムが、登録した音素や音節別の登録話者性データから構成される文字列の音声入力をユーザに要求する。要求した文字列と同じになるように音素や音節別の登録話者性データを並び替えて連結し、連結した可変タグの登録話者性データと音声入力された入力タグデータとを比較することもできる。
[判定結果出力部]
判定結果出力部32は、類似度判定部28の判定結果を出力する。例えば、類似度が所定のしきい値以上と判定された場合は、ユーザと登録者とが同一であるとの判定結果を出力する。
(2)音声認証システムが行う音声認証方法の処理の流れ
次に、第1実施形態例に係る音声認証システム1000における音声認証方法について説明する。まず、登録部100での登録情報の登録方法について説明する。
(2−1)登録情報の登録方法
図9は、登録情報の登録方法の流れの一例を示すフローチャートである。
【0047】
ステップS10:まず、ユーザID受付部1が、登録者からユーザIDを受け付ける。そして、音声入力部2は、登録者からパスワードを音声入力により受け付ける。
ステップS11:特徴量抽出部3は、ステップ10で音声入力されたパスワードの入力音声データから登録話者性データを抽出する。
【0048】
ステップS12:登録情報作成部5は、ステップ11で抽出した登録話者性データユーザID等を関連付けて登録情報を作成する。
ステップS13:登録情報DB7は、ステップ12で作成された登録情報を格納する。
(2−2)音声認証方法
次に、音声認証方法について説明する。図10は、音声認証方法の一例を示すフローチャートである。
【0049】
ステップS20:ユーザID受付部10は、ユーザからユーザIDの入力を受け付ける。
ステップS21:登録情報選択部12は、ステップ20で入力されたユーザIDに対応する登録情報を選択し、可変タグ選択部14及び類似度判定部28に出力する。
【0050】
ステップS22:可変タグ選択部14は、ユーザIDを受け取ると、タグDB16に基づいて可変タグを選択する。可変タグの選択は、タグ記録DB18の記録を参照し、例えば可変タグが認証時毎に変更されたり、ランダムに変更されるように行う。タグ記録DB18は、可変タグ選択部14から可変タグとして選択されたタグ候補を受け付け、格納する。
【0051】
ステップS23:設定受付部19は、認証文字列中の可変タグとパスワードとの位置関係の設定を受け付ける。
ステップS24:音声入力要求部20は、ステップS23で受け付けた位置関係の設定に応じて、可変タグとパスワードとを直結した認証文字列を音声入力するようにユーザに要求する。また、音声入力要求部20が、可変タグとパスワードとの位置関係を指定しても良い。
【0052】
ステップS25:音声受付部22は、音声入力要求部20からの認証文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
ステップS26:特徴量抽出部24は、ユーザの入力音声データの特徴量を抽出する。
ステップS27:可変タグ検出部26は、特徴量化された音声データから可変タグ選択部14で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部27は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。
【0053】
ステップS28:類似度判定部28は、ユーザのパスワードデータと登録者の登録話者性データとの類似度を、所定のしきい値を基準にして判定する。
ステップS29:ステップS28での類似度の判定の結果、ユーザが認証されたか否かを判定する。
ステップS30:ステップS29において、ユーザが認証された場合には音声認証システム1000は、次の処理へ進む。
【0054】
ステップS31:ステップS28において、ユーザが認証されなかった場合には音声認証システム1000は、次の処理への進行を中断する。
上記の第1実施形態例に係る音声認証システム1000では、各可変タグの全てとパスワードとを直結した認証文字列を含む文字列の音声入力を要求する。よって、パスワード以外の可変タグも発声するように要求するため、パスワードの漏洩を低減、つまりパスワードの隠匿性を向上することができる。また、可変タグとパスワードとを直結した認証文字列を含む文字列の音声入力を要求されている場合には、パスワードだけが音声入力されても認証はされない。さらに、可変タグは例えば認証時毎に毎回変更されたり、毎回変更されないがランダムに変更されるように決定すると、パスワードの漏洩をさらに低減することができる。例えば、第三者がユーザの前回の発声内容を録音し、録音した発声内容を音声認証システム1000に入力しても、可変タグが異なるため音声認証システム1000は入力を行った第三者を登録者と認証しない。
【0055】
さらに、第1実施形態例における音声認証方法では、登録者本人とユーザとの同一性は、登録時と認証時の発声内容が同一であることを基準に判定される。つまり、ユーザが可変タグに直結して登録者固有のパスワードを発声していることを前提としてパスワードデータと登録話者性データとの類似度が判定されるため、許容する類似度を大きく、つまり厳しく設定している。よって、テキスト依存型の音声認証方法の特性を活かし、高い認証精度を得ることができる。
<第2実施形態例>
以下に、第2実施形態例に係る音声認証システム1000について再び前記図10と図11を用いて説明する。
を説明する。
(1)音声認証システムの機能構成
図11は、本発明の第2実施形態例に係る音声認証システム機能構成を示すブロック図である。第2実施形態例に係る音声認証システム1000の登録部100は、第1実施形態例と同様の構成及び動作である。以下に、認証部200の構成を説明する。
[ユーザID受付部]
ユーザID受付部10は、ユーザからユーザIDの入力を受け付け、受け付けたユーザIDを登録情報選択部12及び可変タグ選択部14に出力する。
[登録情報選択部]
登録情報選択部12は、入力されたユーザIDに対応する登録話者性データ及びパスワードの属性を登録情報DB7から選択し、可変タグ選択部14及び類似度判定部28に出力する。
[可変タグ選択部、タグDB、タグ記録DB]
タグDB16には、登録者から受け付けた可変タグと、その可変タグの登録話者性データ(以下、タグ登録話者性データという)とが蓄積されている。
【0056】
可変タグ選択部14は、ユーザIDの入力に応答し、タグDB16から可変タグを選択する。可変タグの選択は、タグ記録DB18の記録を参照し、例えば可変タグが認証時毎に変更されたり、ランダムに変更されるように行う。可変タグ選択部14は、選択した可変タグをタグ記録DB18、設定受付部19、音声入力要求部20及び可変タグ検出部26に出力し、可変タグのタグ登録話者性データを類似度判定部28に出力する。
【0057】
また、タグ記録DB18には、可変タグ選択部14で選択された可変タグが記録されており、過去に選択された可変タグの記録を可変タグ選択部14に提供する。
[設定受付部]
設定受付部19は、可変タグ選択部14から選択された可変タグの入力を受け付けると、認証文字列中におけるパスワードと可変タグとの位置関係の設定をユーザから受け付ける。あるいは、設定受付部19は、音声入力要求部20が設定するパスワードと可変タグとの位置関係により音声入力することを選択しても良い。
[音声入力要求部]
音声入力要求部20は、パスワードと全ての可変タグとを直結した認証文字列を発声するように、ユーザに要求する。ここで、音声入力要求部20は、設定受付部19で受け付けたユーザの設定あるいは音声入力要求部20による設定された、パスワードと可変タグとの位置関係に基づいて音声入力を要求する。
[音声受付部]
音声受付部22は、音声入力要求部20からの認証文字列または認証文字列を含む文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
[特徴量抽出部]
特徴量抽出部24は、ユーザの入力音声データを特徴量化つまり入力音声データの特徴量を抽出する。
[可変タグ検出部、パスワード区間抽出部]
可変タグ検出部26は、その特徴量化された音声データから、可変タグ選択部14で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部27は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからユーザが発声したパスワードに相当する区間、つまりパスワードデータを抽出する。パスワード区間抽出部27は、さらにユーザの特徴量化された入力音声データから可変タグに相当する区間(以下、入力タグデータという)を抽出する。
[類似度判定部]
類似度判定部28は、パスワード判定部48及び可変タグ判定部50を有している。パスワード判定部48は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部50は、ユーザの入力タグデータと可変タグ選択部14から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
[判定結果出力部]
判定結果出力部32は、類似度判定部28の判定結果を出力する。
(2)音声認証方法の処理の流れ
次に、前記図10を参照して第2実施形態例に係る音声認証方法を説明する。
【0058】
ステップS20:ユーザID受付部10は、ユーザからユーザIDの入力を受け付ける。
ステップS21:登録情報選択部12は、ステップ20で入力されたユーザIDに対応する登録情報を選択し、可変タグ選択部14及び類似度判定部28に出力する。
【0059】
ステップS22:可変タグ選択部14は、ユーザIDを受け取ると、タグDB16から可変タグ及びタグ登録話者性データを選択する。可変タグ選択部14は、選択した可変タグをタグ記録DB18、設定受付部19、音声入力要求部20及び可変タグ検出部26に出力し、可変タグのタグ登録話者性データを類似度判定部28に出力する。
【0060】
ステップS23:設定受付部19は、認証文字列中の可変タグとパスワードとの位置関係の設定を受け付ける。
ステップS24:音声入力要求部20は、認証文字列の音声入力を要求する。
ステップS25:音声受付部22は、音声入力要求部20からの認証文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
【0061】
ステップS26:特徴量抽出部24は、ユーザの入力音声データの特徴量を抽出する。
ステップS27:可変タグ検出部26は、特徴量化された音声データから可変タグ選択部14で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部27は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。さらに、可変タグに相当する区間、つまり入力タグデータを抽出する。
【0062】
ステップS28:パスワード判定部48は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部50は、ユーザの入力タグデータと可変タグ選択部14から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
【0063】
ステップS29:ステップS28の結果、ユーザが認証されたか否かを判定する。
ステップS30:ユーザが認証された場合は、次の処理へ進む。
ステップS31:ユーザが認証されなかった場合には、処理を中断する。
第2実施形態例では、登録者から受け付けた可変タグと、音声入力された可変タグのタグ登録話者性データとが蓄積されている。そして、パスワードデータと登録者話者性データとの類似度のみならず、入力タグデータと可変タグのタグ登録話者性データとの類似度の判定もおこなうので音声認証の認証精度が向上する。
<第3実施形態例>
以下に、第3実施形態例に係る音声認証システム1000について再び前記図9、前記図10、図12及び図13を用いて説明する。
(1)音声認証システムの機能構成
図12は、第3実施形態例に係る音声認証システムの機能構成を示すブロック図である。以下に、登録部100及び認証部200の各部の機能構成について説明する。
(1−1)登録部
[音声入力部]
音声入力部2では、登録者からパスワード及び複数の可変タグの音声入力を受け付ける。
[特徴量抽出部]
特徴量抽出部3は、音声入力部2から入力されたパスワード及び複数の可変タグの音声データから、それぞれの音声データの特徴量を抽出する。パスワードの音声入力から得られる特徴量を登録話者性データとし、可変タグの音声データの音声入力から得られる特徴量をタグ登録話者性データとする。
[登録情報作成部]
登録情報作成部5は、登録話者性データ、タグ登録話者性データ、可変タグ、パスワードの属性及びユーザID等を関連づけて登録情報を作成し、登録情報DB7に格納する。
[登録情報DB]
登録情報DB7は、作成された登録情報を蓄積する。図13は、第3実施形態例に係る登録情報DB7の一例である。登録情報DB7には、例えばユーザID、可変タグ、登録話者性データ、タグ登録話者性データが1レコードに蓄積されている。
(1−2)認証部
[ユーザID受付部]
ユーザID受付部10は、ユーザからユーザIDの入力を受け付け、受け付けたユーザIDを登録情報選択部12に出力する。
[登録情報選択部、タグ記録DB]
登録情報選択部12は、ユーザIDやタグ記録DB18に基づいて登録情報を選択し、タグ記録DB18、設定受付部19、音声入力要求部20、可変タグ検出部26及び類似度判定部28に出力する。このとき、出力される登録情報には、登録話者性データ及びタグ登録話者性データが含まれている。
【0064】
タグ記録DB18には、登録情報選択部12から可変タグとして選択されたタグ候補が格納されており、過去に選択された可変タグの履歴を登録情報選択部12に提供する。
[設定受付部]
設定受付部19は、登録情報選択部12から可変タグの入力を受け付けると、認証文字列中におけるパスワードと選択された可変タグとの位置関係の設定をユーザから受け付ける。あるいは、設定受付部19は、音声入力要求部20が設定するパスワードと可変タグとの位置関係により音声入力することを選択しても良い。
[音声入力要求部]
音声入力要求部20は、パスワードと登録情報選択部12が決定した全ての可変タグとを直結した認証文字列を発声するように、ユーザに要求する。ここで、音声入力要求部20は、設定受付部19で受け付けたユーザの設定あるいは音声入力要求部20による設定された、パスワードと可変タグとの位置関係に基づいて音声入力を要求する。
[音声受付部]
音声受付部22は、音声入力要求部20からの認証文字列または認証文字列を含む文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
[特徴量抽出部]
特徴量抽出部24は、ユーザの入力音声データを特徴量化つまり入力音声データの特徴量を抽出する。
[可変タグ検出部、パスワード区間抽出部]
可変タグ検出部26は、その特徴量化された音声データから、登録情報選択部12で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部27は、さらに検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。パスワード区間抽出部27は、さらにユーザの特徴量化された入力音声データから可変タグに相当する区間(以下、入力タグデータという)を抽出する。
[類似度判定部]
類似度判定部28は、パスワード判定部48及び可変タグ判定部50を有している。パスワード判定部48は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部50は、ユーザの入力タグデータと登録情報選択部12から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
[判定結果出力部]
判定結果出力部32は、類似度判定部28の判定結果を出力する。
(2)音声認証システムが行う音声認証方法の処理の流れ
次に、第3実施形態例に係る音声認証システム1000における音声認証方法について再び前記図10を用いて説明する。まず、登録部100での登録情報の登録方法について説明する。
(2−1)登録情報の登録方法
ステップS10:まず、音声入力部2は、登録者からパスワード及び可変タグを音声入力により受け付ける。
【0065】
ステップS11:特徴量抽出部3は、ステップ10で音声入力された登録者固有のパスワードの登録話者性データ及び可変タグのタグ登録話者性データとを抽出する。
ステップS12:登録情報作成部5は、ステップ11で抽出した登録話者性データ、タグ登録話者性データ、可変タグ及びユーザID等を関連付けて登録情報を作成する。
【0066】
ステップS13:登録情報DB7は、ステップ12で作成された登録情報を格納する。
(2−2)音声認証方法
次に、音声認証方法について再び前記図10を用いて説明する。
ステップS20:ユーザID受付部10は、ユーザからユーザIDの入力を受け付ける。
【0067】
ステップS21:登録情報選択部12は、ステップ20で入力されたユーザIDに応じて登録されている登録情報を選択する。
ステップS22:登録情報選択部12は、可変タグを選択する。
ステップS23:設定受付部19は、認証文字列の設定を受け付ける。
ステップS24:音声入力要求部20は、認証文字列の音声入力を要求する。
【0068】
ステップS25:音声受付部22は、音声入力要求部20からの認証文字列の音声入力の要求に応じて、ユーザから音声入力を受け付ける。
ステップS26:特徴量抽出部24は、ユーザの入力音声データの特徴量を抽出する。
ステップS27:可変タグ検出部26は、特徴量化された入力音声データから登録情報選択部12で選択された全ての可変タグの位置を、音声認識あるいはワードスポッティング等により検出する。パスワード区間抽出部27は、検出された可変タグの位置に基づいて、ユーザの特徴量化された入力音声データからパスワードに相当する区間、つまりパスワードデータを抽出する。さらに、可変タグに相当する区間、つまり入力タグデータを抽出する。
【0069】
ステップS28:パスワード判定部48は、ユーザのパスワードデータと登録者の登録者話者性データとの類似度を所定のしきい値を基準に判定する。また、可変タグ判定部50は、ユーザの入力タグデータと登録情報選択部12から入力された可変タグのタグ登録話者性データとの類似度を所定のしきい値を基準に判定する。
【0070】
ステップS29:ステップS28の結果、ユーザが認証されたか否かを判定する。
ステップS30:ユーザが認証された場合は、次の処理へ進む。
ステップS31:ユーザが認証されなかった場合には、処理を中断する。
第3実施形態例では、パスワードの登録話者性データ及びユーザIDとともに可変タグ及び可変タグのタグ登録話者性データを登録情報DB7に蓄積する。よって、登録話者性データ、タグ登録話者性データ及び可変タグ等を一括して管理することができる。また、ユーザIDと関連づけられた可変タグ、タグ登録話者性データ及び登録話者性データなどの選択を、登録情報選択部12が一括して行うため、処理を簡単化することができる。さらに、パスワードデータと登録者話者性データとの類似度のみならず、さらに入力タグデータとタグ登録話者性データとの類似度の判定も行うので音声認証の認証精度が向上する。
【0071】
なお、本発明の実施形態に係る音声認証装置を実現するプログラムは、図14に示すように、CD−ROM311やフレキシブルディスク312等の可搬型記録媒体310だけでなく、通信回線の先に備えられた他の記憶装置330や、コンピュータ300のハードディスクやRAM等の記録媒体320のいずれに記憶されるのものであっても良く、プログラム実行時には、プログラムにローディングされ、主メモリ上で実行される。
【0072】
また、本発明の実施形態に係る音声認証装置により生成されたデータについても、図14に示すように、CD−ROM311やフレキシブルディスク312等の可搬型記録媒体310だけでなく、通信回線の先に備えられた他の記憶装置330や、コンピュータ300のハードディスクやRAM等の記録媒体320のいずれに記憶されるのものであっても良く、例えば本発明に係る音声認証装置を利用する際にコンピュータ300により読みとられる。
【0073】
【発明の効果】
本発明を用いれば、パスワードの漏洩を低減し、認証精度を高め、詐称を防止し易い音声認証方法を提供することができる。
【図面の簡単な説明】
【図1】 本発明の音声認証システムにおける認証時の表示画面例。
【図2】 本発明の第1実施形態例に係る音声認証システムの機能構成を示すブロック図。
【図3】 登録情報DB7の一例。
【図4】 タグDB16に蓄積されているタグ候補の一例(1)。
【図5】 タグDB16に蓄積されているタグ候補の一例(2)。
【図6】 タグ記録DB18の一例。
【図7】 パスワードと可変タグとの位置関係を指定する別の表示画面例。
【図8】(a)ユーザが音声認証システムに対して音声入力した入力文字列の一例(1)。
(b)ユーザが音声認証システムに対して音声入力した入力文字列の一例(2)。
【図9】 登録情報の登録方法の流れの一例を示すフローチャートの一例。
【図10】 音声認証方法の一例。
【図11】 本発明の第2実施形態例に係る音声認証システム機能構成を示すブロック図。
【図12】 第3実施形態例に係る音声認証システムの機能構成を示すブロック図。
【図13】 第3実施形態例に係る登録情報DB7の一例。
【図14】 記憶装置の一例。
【図15】 音声認証方法の概念図。
【符号の説明】
1:音声入力部
3:特徴量抽出部
5:登録情報作成部
7:登録情報DB
10:ユーザID受付部
12:登録情報選択部
14:可変タグ選択部
16:タグDB
18:タグ記録DB
19:設定受付部
20:音声入力要求部
22:音声受付部
24:可変タグ検出部
26:特徴量抽出部
27:パスワード区間抽出部
28:類似度判定部
30:しきい値DB
32:判定結果出力部
100:登録部
200:認証部
Claims (6)
- ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するテキスト依存型の音声認証装置であって、
ユーザ識別子を受け付けるユーザ識別子受付部と、
前記登録者が発声したパスワードである話者性データ(以下、登録話者性データという)を前記ユーザ識別子と対応づけて格納する第1格納部と、
使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部と、
前記タグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記タグ記録部に記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも1の前記可変タグを決定する決定部と、
前記決定部で決定した各可変タグの全てを、前記パスワードの直前及び/または直後に直結した認証文字列を含む文字列の音声による入力を前記ユーザに要求する入力要求部と、
前記要求に応じた入力音声を前記ユーザから受け付ける受付部と、
前記ユーザにより発声された入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出部と、
前記位置検出部で検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも1の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出部と、
前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較部と、
前記比較部における比較結果に基づいて、前記ユーザを認証するか否かを判断する認証部と、
を含む音声認証装置。 - 前記可変タグとして用いられる文字列であるタグ候補と前記登録者が発声したタグ候補の話者性データ(以下、タグ登録話者性データという)を前記ユーザ識別子と対応づけて格納する第2格納部をさらに含み、
前記決定部は、前記ユーザ識別子に対応づけられている少なくとも1のタグ候補を前記第2格納部から選択し、選択したタグ候補を前記可変タグとして決定し、
前記抽出部では、前記特徴量化された入力音声データから前記位置検出部により検出された前記少なくとも1の可変タグに相当する区間(以下、入力タグデータという)をさらに抽出し、
前記比較部では、抽出された前記入力タグデータと前記ユーザ識別子に対応する前記タグ登録話者性データとをさらに比較する、請求項1に記載の音声認証装置。 - 予め前記可変タグとして用いられる文字列であるタグ候補と前記タグ候補に対応する属性とを格納しておく第3格納部をさらに含み、
前記第1格納部では、前記パスワードに対応する属性を前記ユーザ識別子と関連づけて格納しておき、
前記決定部では、前記パスワードに対応する属性と前記タグ候補に対応する属性とに基づいて少なくとも1の可変タグを決定する、請求項1に記載の音声認証装置。 - 前記可変タグとして用いられる文字列であるタグ候補を、前記登録者から受け付け、前記登録者のユーザ識別子に対応させて格納するタグ格納部をさらに含み、
前記決定部では、前記ユーザ識別子に対応する少なくとも1のタグ候補を前記タグ格納部から選択し、選択したタグ候補を前記可変タグとして決定する、請求項1に記載の音声認証装置。 - ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するように、前記コンピュータが実行するテキスト依存型の音声認証方法であって、
ユーザ識別子を受け付けるユーザ識別子受付工程と、
使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも1の前記可変タグを決定する決定工程と、
前記決定工程で決定した各可変タグの全てを、予めユーザ識別子毎に登録されている話者性データ(以下、登録話者性データという)のパスワードの直前及び/または直後に直結した認証文字列を含む文字列の音声による入力を要求する入力要求工程と、
前記要求に応じた入力音声を前記ユーザから受け付ける受付工程と、
前記入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出工程と、
前記位置検出工程で検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも1の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出工程と、
前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較工程と、
前記比較工程における比較結果に基づいて、前記ユーザを認証するか否かを判断する認証工程と、
を含む音声認証方法。 - ユーザ認証時にユーザの発声内容から、前記ユーザの発声内容のうちパスワードに相当する区間のパスワードデータを抽出するためのテキストである複数の可変タグを用いて、ユーザがコンピュータに登録されている登録者本人か否かを認証するように、前記コンピュータが実行するテキスト依存型の音声認証プログラムであって、
ユーザ識別子を受け付けるユーザ識別子受付ステップ、
使用した可変タグを前記ユーザ識別子に対応づけて記録するタグ記録部に記録された可変タグを参照し、前記パスワードの直前または直後のいずれかの可変タグを前記記録された可変タグとは異ならせるように、予め登録されている複数の可変タグの中から少なくとも1の前記可変タグを決定する決定ステップ、
前記決定ステップで決定した各可変タグの全てを、予めユーザ毎に登録されている話者性データ(以下、登録話者性データという)のパスワードの直前及び/または直後に直結した認証文字列を含む文字列の音声による入力を要求する入力要求ステップ、
前記要求に応じた入力音声を前記ユーザから受け付ける受付ステップ、
前記入力音声の入力音声データを特徴量化し、その中から前記可変タグの全てを検出し、各可変タグの位置を求める位置検出ステップ、
前記位置検出ステップで検出された各可変タグの位置に基づいて、前記特徴量化された入力音声データから少なくとも1の前記ユーザが発声したパスワードに相当する区間である前記パスワードデータを抽出する抽出ステップ、
前記パスワードデータと前記ユーザ識別子に対応する前記登録話者性データとを比較する比較ステップ、及び
前記比較ステップにおける比較結果に基づいて、前記ユーザを認証するか否かを判断する認証ステップ、
を前記コンピュータに実行させるための音声認証プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003088163A JP4245948B2 (ja) | 2003-03-27 | 2003-03-27 | 音声認証装置、音声認証方法及び音声認証プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003088163A JP4245948B2 (ja) | 2003-03-27 | 2003-03-27 | 音声認証装置、音声認証方法及び音声認証プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004295586A JP2004295586A (ja) | 2004-10-21 |
JP4245948B2 true JP4245948B2 (ja) | 2009-04-02 |
Family
ID=33402366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003088163A Expired - Fee Related JP4245948B2 (ja) | 2003-03-27 | 2003-03-27 | 音声認証装置、音声認証方法及び音声認証プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4245948B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4640801B2 (ja) * | 2005-06-27 | 2011-03-02 | 富士通株式会社 | 電話機 |
KR101181060B1 (ko) | 2011-08-09 | 2012-09-07 | 서울시립대학교 산학협력단 | 음성 인식 시스템 및 이를 이용한 화자 인증 방법 |
KR101424962B1 (ko) * | 2011-11-29 | 2014-08-01 | 주식회사 지티티비 | 음성 기반 인증시스템 및 방법 |
JP5646675B2 (ja) * | 2013-03-19 | 2014-12-24 | ヤフー株式会社 | 情報処理装置及び方法 |
CN111966432B (zh) * | 2020-06-30 | 2023-07-28 | 北京百度网讯科技有限公司 | 验证码处理方法、装置、电子设备以及存储介质 |
KR102466736B1 (ko) * | 2021-06-18 | 2022-11-14 | 주식회사 한글과컴퓨터 | 사용자에 의해 입력된 음성을 기초로 본인 인증을 수행하는 음성 기반의 사용자 인증 서버 및 그 동작 방법 |
-
2003
- 2003-03-27 JP JP2003088163A patent/JP4245948B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004295586A (ja) | 2004-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4672003B2 (ja) | 音声認証システム | |
JP6561219B1 (ja) | 話者照合 | |
JP4213716B2 (ja) | 音声認証システム | |
US5913192A (en) | Speaker identification with user-selected password phrases | |
EP0983587B1 (en) | Speaker verification method using multiple class groups | |
US6107935A (en) | Systems and methods for access filtering employing relaxed recognition constraints | |
US6272463B1 (en) | Multi-resolution system and method for speaker verification | |
EP2273414A1 (en) | User verification with a multimodal web-based interface | |
US7962336B2 (en) | Method and apparatus for enrollment and evaluation of speaker authentification | |
Reynolds | Automatic speaker recognition: Current approaches and future trends | |
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
US8032380B2 (en) | Method of accessing a dial-up service | |
JPH1173195A (ja) | 話者の申し出識別を認証する方法 | |
US7630895B2 (en) | Speaker verification method | |
US11416593B2 (en) | Electronic device, control method for electronic device, and control program for electronic device | |
JP4245948B2 (ja) | 音声認証装置、音声認証方法及び音声認証プログラム | |
JP7339116B2 (ja) | 音声認証装置、音声認証システム、および音声認証方法 | |
JPH10173644A (ja) | 本人認証方法 | |
JP2004094158A (ja) | 母音検索を利用した声紋認証装置 | |
JP2005512246A (ja) | 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム | |
JPH1173196A (ja) | 話者の申し出識別を認証する方法 | |
CN1963918A (zh) | 说话人模板的压缩、合并装置和方法,以及说话人认证 | |
WO2000058947A1 (en) | User authentication for consumer electronics | |
WO2006027844A1 (ja) | 話者照合装置 | |
JP5436951B2 (ja) | 本人認証装置および本人認証方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080701 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080827 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080929 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090107 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |