JP2007264507A

JP2007264507A - ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム

Info

Publication number: JP2007264507A
Application number: JP2006092545A
Authority: JP
Inventors: Toshiyuki Ota; 利幸太田; Maiko Hirahara; 舞子平原; Kazunari Hirakawa; 一成平川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-03-29
Filing date: 2006-03-29
Publication date: 2007-10-11
Anticipated expiration: 2026-03-29
Also published as: JP4573792B2; US20070266154A1; US7949535B2

Abstract

【課題】再生機で再生される声を用いて認証を得ようとする不正者を容易に検知する。
【解決手段】
パーソナルコンピュータ１に、音声認証技術によるユーザ認証の対象者が声を発する前の時間帯にその対象者の周囲の音である周囲音を集音する音声データ取得部１３２と、その時間帯を複数に区切った区間ごとの、集音された周囲音の所定時間当たりの強さを表わす強さレベルを算出し、算出した２つの強さレベルのうち後の区間に係る強さレベルが前の区間に係る強さレベルと所定の値との和よりも大きい場合に、その対象者を再生音で認証を得ようとする不正なユーザであると判別する、偽装判別部１３４と、を設ける。
【選択図】図２

Description

本発明は、音声認証技術によるユーザ認証を不正に得ようとするユーザを検知するためのシステムおよび方法などに関する。

図９は音声認証技術を用いた従来の認証装置の仕組みを説明するための図である。

近年、コンピュータシステムにおけるセキュリティの対策が重要視されるようになり、身体的な特徴を利用したバイオメトリクス認証の技術が注目されている。そのうちの１つとして、音声認証技術が挙げられる。この技術は、人間一人一人の声の特徴が異なることを利用し、ユーザを識別し認証する技術である。係る技術を用いた従来の認証装置は、図９に示すような仕組みを有する。

予め、ユーザごとの声の特徴量を示す特徴量データの登録処理を、次のような手順で行っておく。登録の対象のユーザのユーザＩＤを受け付け、そのユーザの肉声を集音する。その肉声から特徴量を抽出し、その特徴量の特徴量データをユーザＩＤと対応付けてデータベースに登録しておく。

ユーザ認証の処理を行う際は、認証の対象であるユーザのユーザＩＤを受け付け、ユーザの肉声を集音し、その肉声の特徴量を抽出する。抽出した特徴量とそのユーザＩＤに対応する特徴量データに示される特徴量とを照合する。そして、両者の差異が所定の範囲内であれば本人であると認証し、そうでなければ他人であると判別する。

特徴量の照合の方法として、様々な公知技術が提案されているが、テキスト依存型方式およびフリーワード方式が代表的である。テキスト依存型方式は、予め決められたフレーズすなわちキーワードをユーザに発声させ照合を行う方式である。フリーワード方式は、ユーザに自由なフレーズを発声させ照合を行う方式である。

音声認証技術は、ユーザにとっては、従来のようにキーボードを操作してパスワードを入力する方式に比べて手軽である。しかし、カセットレコーダまたはＩＣレコーダなどの録音機によって声を盗み録りしてそれを再生機で再生することによって、ユーザ認証が不正に試みられるおそれがある。つまり、「なりすまし」などと呼ばれる偽装が行われるおそれがある。

このような不正を防止するために、特許文献１〜３に記載されるような方法が提案されている。

特許文献１に記載される方法によると、話者ごとに音素および音節のモデルを作成して登録しておく。そして、毎回異なるフレーズの発声を要求し、音素および音節の特徴量に基づいてユーザ認証を行う。

特許文献２に記載される方法によると、話者を認識するための話者認識方法において、話者の音声が入力するときに、その音声とともに所定の音響を入力させ、次いで、入力された信号からその所定の音響の成分を除去した後、その信号を用いて話者認識を行う。

特許文献３に記載される方法によると、生音声とそれを録音して再生した再生音声との位相情報の差に基づいて、入力音声が再生音声であるか否かを識別する。
特開平５−３２３９９０号公報特開平９−１２７９７４号公報特開２００１−１０９４９４号公報

しかし、特許文献１〜３に記載される方法によると、複雑な処理が必要になり音声認証のためのハードウェアおよびソフトウェアのコストが高くなってしまう。

盗み録りした声を再生して認証を得ようとする「なりすまし」をもっと簡単な方法で防止することができれば、音声認証技術が安心して使用されるようになる。本発明は、このような問題点に鑑み、再生機で再生される声を用いて認証を得ようとする「なりすまし」を従来よりも容易に検知することを目的とする。

本発明に係るユーザ認証システムは、音声認証技術によってユーザ認証を行うユーザ認証システムであって、前記ユーザ認証の対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音する集音手段と、前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する、強さレベル算出手段と、算出された２つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、集音された前記周囲音に再生機で再生された音である再生音が含まれていると判別する、再生音有無判別手段と、前記再生音が含まれていると判別された場合に、前記対象者が不正なユーザであると判別する、不正ユーザ判別手段と、を有することを特徴とする。

本発明によると、再生機で再生される声を用いて認証を得ようとする「なりすまし」を従来よりも容易に検知することができる。

図１はパーソナルコンピュータ１のハードウェア構成の例を示す図、図２はパーソナルコンピュータ１の機能的構成の例を示す図である。

図１に示すように、パーソナルコンピュータ１は、音声認証技術および本発明に係る不正ユーザ判別技術が適用された装置であって、ＣＰＵ１０ａ、ＲＡＭ１０ｂ、ＲＯＭ１０ｃ、ハードディスク１０ｄ、音声処理回路１０ｅ、ディスプレイ１０ｆ、キーボード１０ｇ、マウス１０ｈ、およびマイクロホン１０ｉなどによって構成される。

パーソナルコンピュータ１は、会社または役所のオフィスなどに設置され複数のユーザによって共用される。ただし、セキュリティの保護のため、ユーザは、パーソナルコンピュータ１を使用する際は、自分のユーザアカウントを用いてパーソナルコンピュータ１にログインしなければならない。パーソナルコンピュータ１は、ユーザをログインさせてもよいか否かを判別するために、音声認証技術によるユーザ認証を行う。

ハードディスク１０ｄには、ユーザのユーザ認証を音声認証技術によって行うためのユーザ認証用アプリケーションがインストールされている。ユーザ認証用アプリケーションは、図２に示すような特徴量データベース１０１、事前登録処理部１０２、およびユーザ認証処理部１０３などの機能を実現するためのモジュールおよびデータによって構成される。ユーザ認証用アプリケーションを構成する各モジュールおよびデータは、必要に応じてＲＡＭ１０ｂにロードされＣＰＵ１０ａによってモジュールが実行される。以下、テキスト依存型方式の音声認証技術を採用する場合を例に説明する。

ディスプレイ１０ｆは、ユーザに対する要求のメッセージを表示する。キーボード１０ｇおよびマウス１０ｈは、ユーザがコマンドまたは自分のユーザＩＤなどを入力するための入力装置である。

マイクロホン１０ｉは、ユーザ認証の対象であるユーザが発する声を集音するために用いられる。その声とともに周囲の雑音も一緒に集音される。マイクロホン１０ｉによって集音された音は、音声処理回路１０ｅによってサンプリングされ電子データ化される。

図３は肉声の場合の音声データＤＴ３の音声の音圧の変化の例を示す図、図４は再生音を含む場合の音声データＤＴ３の音声の音圧の変化の例を示す図、図５は偽装判別処理の流れの例を説明するフローチャート、図６は単位時間ごとのパワー値の変化の例を示す図である。

次に、図２に示すパーソナルコンピュータ１の各部の処理内容について詳細に説明する。特徴量データベース１０１は、ユーザごとの音声特徴量データＤＴＦを記憶し管理する。音声特徴量データＤＴＦは、ユーザの声の特徴量を表わすデータであって、そのユーザのユーザアカウントの識別情報（つまり、ユーザＩＤ）と対応付けられている。また、音声特徴量データＤＴＦはユーザ認証を行う際に用いられるので、パーソナルコンピュータ１を使用する必要のあるユーザは予め自分自身の音声特徴量データＤＴＦを特徴量データベース１０１に登録しておかなければならない。

事前登録処理部１０２は、ユーザＩＤ受付部１２１、発声開始要求部１２２、音声データ取得部１２３、音声特徴量抽出部１２４、および特徴量データ登録部１２５などによって構成され、ユーザの音声特徴量データＤＴＦを特徴量データベース１０１に登録するための処理を行う。

ユーザＩＤ受付部１２１は、音声特徴量データＤＴＦの登録を希望するユーザのユーザＩＤを受け付けるための処理を、例えば次のように行う。ユーザがキーボード１０ｇまたはマウス１０ｈを操作して所定のコマンドを入力すると、ユーザＩＤ受付部１２１は、そのユーザ自身のユーザＩＤを入力するように要求するメッセージをディスプレイ１０ｆに表示させる。ここで、ユーザは、自分のユーザＩＤを入力する。すると、ユーザＩＤ受付部１２１は、入力されたユーザＩＤを検知し、それを受け付ける。

発声開始要求部１２２は、ユーザＩＤ受付部１２１によってユーザＩＤが受け付けられた後、予め決められたフレーズつまりキーワードをマイクロホン１０ｉに向かって発声するように要求するメッセージをディスプレイ１０ｆに表示させる。ここで、ユーザは、自分の肉声でそのキーワードを発する。

音声データ取得部１２３は、ユーザの発した声を集音するようにマイクロホン１０ｉを制御し、集音された声を電子データ化するように音声処理回路１０ｅを制御する。これにより、ユーザの音声データＤＴ２が得られる。

音声特徴量抽出部１２４は、音声データ取得部１２３によって得られた音声データＤＴ２を解析してその声の特徴量を抽出し、音声特徴量データＤＴＦを生成する。

特徴量データ登録部１２５は、音声特徴量抽出部１２４によって得られた音声特徴量データＤＴＦを、ユーザＩＤ受付部１２１によって受け付けられたユーザＩＤと対応付けて特徴量データベース１０１に登録する。

ユーザ認証処理部１０３は、ユーザＩＤ受付部１３１、音声データ取得部１３２、発声開始要求部１３３、偽装判別部１３４、音声特徴量抽出部１３５、特徴量データ呼出部１３６、声特徴照合処理部１３７、およびログイン許否決定部１３８などによって構成され、ログインしようとしているユーザ（以下、「ログイン希望ユーザ」と記載する。）のユーザ認証を行う。

ユーザＩＤ受付部１３１は、ログイン希望ユーザのユーザＩＤを受け付けるための処理を、例えば次のように行う。ログイン希望ユーザがキーボード１０ｇまたはマウス１０ｈを操作して所定のコマンドを入力すると、ユーザＩＤ受付部１３１は、ログイン希望ユーザ自身のユーザＩＤを入力するように要求するメッセージをディスプレイ１０ｆに表示させる。ここで、ログイン希望ユーザは、自分のユーザＩＤを入力する。すると、ユーザＩＤ受付部１３１は、入力されたユーザＩＤを検知し、それを受け付ける。

音声データ取得部１３２は、ユーザＩＤ受付部１３１によってユーザＩＤが受け付けられたら直ちに、ログイン希望ユーザの周囲の音の集音を開始するようにマイクロホン１０ｉを制御し、集音された音を電子データ化するように音声処理回路１０ｅを制御する。また、音声データ取得部１３２は、ログイン希望ユーザのユーザ認証が終了までの間、集音を継続させ、音声データＤＴ３を生成していく。

発声開始要求部１３３は、ユーザＩＤが受け付けられた後、マイクロホン１０ｉに向かってキーワードを発声するように要求するメッセージをディスプレイ１０ｆに表示させる。ログイン希望ユーザは、そのメッセージを読み、自分の肉声でそのキーワードを発する。

偽装判別部１３４は、ログイン希望ユーザが、録音された声を再生することによって正規のユーザになりすました偽装者でないかどうかを、判別する処理を行う。係る処理については、後に説明する。

音声特徴量抽出部１３５は、音声データ取得部１３２によって取得された音声データＤＴ３のうちログイン希望ユーザが発した声の部分（区間）のデータを解析してその声の特徴量を抽出し、音声特徴量データＤＴＧを生成する。声の部分を検知し、声の部分と無声部分（声のない部分）とを区別する方法は公知であるので、説明を省略する。

特徴量データ呼出部１３６は、ユーザＩＤ受付部１３１によって受け付けられたユーザＩＤに対応する音声特徴量データＤＴＦを特徴量データベース１０１から呼び出す。

声特徴照合処理部１３７は、音声特徴量抽出部１３５によって得られた音声特徴量データＤＴＧに示される声の特徴量とおよび音声特徴量データＤＴＦに示される声の特徴量とを照合することによって、ログイン希望ユーザが発した声が、ユーザＩＤ受付部１３１が受け付けたユーザＩＤの持ち主本人の声であるか否かを、判別する。つまり、音声認証技術によるユーザ認証を行う。

声特徴照合処理部１３７による処理が完了したら、音声データ取得部１３２は、集音および電子データ化の処理を終了するようにマイクロホン１０ｉおよび音声処理回路１０ｅを制御する。

ところで、上に述べたように集音を継続していると、図３に示すような波形の音圧の音声の音声データＤＴ３が得られる。ログイン希望ユーザが入力したユーザＩＤを受け付けた時刻（以下、「ユーザＩＤ受付時刻Ｔ０」と記載する。）からキーワードの発声の要求のメッセージを表示した時刻（以下、「発声要求時刻Ｔ１」と記載する。）までの時間帯は、ログイン希望ユーザの背景（周囲）の音つまり雑音だけが集音される。以下、この時間帯に集音された音声を「第一の背景雑音部ＮＳ１」と記載する。

発声要求時刻Ｔ１からログイン希望ユーザが発声を開始した時刻（以下、「発声開始時刻Ｔ２」と記載する。）までの時間帯も、引き続き、雑音だけが集音される。以下、この時間帯に集音された音声を「第二の背景雑音部ＮＳ２」と記載する。

発声開始時刻Ｔ２からログイン希望ユーザが発声を終了した時刻（以下、「発声終了時刻Ｔ３」と記載する。）までの時間帯は、ログイン希望ユーザの声が集音される。雑音も一緒に集音されるが、音声認識が可能な通常の環境であれば、雑音のレベルは、声のレベルに比べてかなり低い。以下、この時間帯に集音された音声を「ユーザ音声部ＶＣ」と記載する。

発声終了時刻Ｔ３から集音を終了した時刻（以下、「集音終了時刻Ｔ４」と記載する。）までの時間帯は、再び、雑音だけが集音される。以下、この時間帯に集音された音声を「第三の背景雑音部ＮＳ３」と記載する。

図３のような波形の音圧の音声が得られるのは、ログイン希望ユーザが肉声で発声した場合である。もしも、カセットプレーヤまたはＩＣプレーヤなどの再生機で声を再生してログインを試みたならば、図４のような波形の音圧の音声が得られる。肉声の場合の第二の背景雑音部ＮＳ２の波形の振幅の大きさは、発声要求時刻Ｔ１から発声開始時刻Ｔ２までの時間ほぼ一定である。これに対して、再生音の場合の第二の背景雑音部ＮＳ２の波形の振幅の大きさは、発声要求時刻Ｔ１から再生機による再生を開始する直前の時（以下、「再生開始時刻Ｔ１ａ」と記載する。）までの時間帯は肉声の場合の振幅の大きさとほぼ同じであるが、再生開始時刻Ｔ１ａの直後、振幅が大きくなり、その振幅がほぼ一定に発声開始時刻Ｔ２まで続く。再生音の場合にこのように波形の振幅に変化が生じるのは、次のような理由による。

メッセージが表示された後（発声開始時刻Ｔ２の後）、ログイン希望ユーザが再生機の再生ボタンを押して声の再生を試みる。すると、再生機は、無声部分から再生を開始し、しばらくして声の部分を再生する。この無音部分には、録音の際の録音機の周囲の雑音つまりその声の持ち主の背景の雑音が含まれている。

したがって、再生ボタンが押され再生が開始されてから声の部分に到達するまで（再生開始時刻Ｔ１ａから発声開始時刻Ｔ２まで）の時間帯は、マイクロホン１０ｉは、ログイン希望ユーザの背景の雑音とともに、再生機によって再生される雑音をも集音する。よって、その時間帯においては、マイクロホン１０ｉによって集音される音の音圧が高くなり、その波形の振幅は、図４に示すように、再生される雑音の音圧分だけ大きくなる。

図２に戻って、偽装判別部１３４は、肉声の場合は発声要求時刻Ｔ１から発声開始時刻Ｔ２までの時間帯、波形の振幅がほぼ一定であるのに対して再生音の場合は途中で所定値以上振幅が大きくなるという変化が生じる、という上述の法則を応用し、次のような方法で、ログイン希望ユーザが偽装者でないかどうかの判別の処理を、図５のフローチャートのような手順で行う。

キーワードの発声の要求のメッセージの表示後（発声要求時刻Ｔ１以降）、マイクロホン１０ｉによって集音された音声の波形を先頭から所定の時間ごとに分割（等分）していく（図５の＃２００）。以下、分割された区間を「フレーム」と記載する。各フレームを先頭から順番に「フレームＦ０」、「フレームＦ１」、「フレームＦ２」、…と区別して記載することがある。また、本実施形態では、この所定の時間が「２０ミリ秒」であり、音声処理回路１０ｅによるサンプリング周波数が８ｋＨｚである場合を例に、説明する。

マイクロホン１０ｉによって集音された音声は、音声処理回路１０ｅによってサンプリングされるので、パーソナルコンピュータ１では、その音声を、サンプリング周波数に対応した個数の音圧値のデータとして取り扱う。本実施形態では、１つのフレームに１６０個の音圧値が０．１２５ミリ秒間隔で並んでいる。

最初のフレーム（フレームＦ０）の音声の強さの大小を表わす値を、所定の式を用いて算出する（＃２０１〜＃２０５）。以下、フレームの音声の強さのレベルを表わす値を「パワー値」と記載する。本実施形態では、パワー値を、そのフレームに属する１６０個の音圧値の二乗和を求めることによって算出するものとする。したがって、次々に各音圧値の二乗値を算出し足し合わせていくことによって、パワー値が求められる。また、フレーム同士の長さは同じであるので、パワー値は単位時間当たり（ここでは、２０ミリ秒）の音声の強さを表わしている、と言える。算出したパワー値は、パワー値変数Ｐｏｗ１に格納しておく。

フレームＦ０のパワー値を算出したら（＃２０３でＹｅｓ）、次のフレームつまりフレームＦ１のパワー値を算出する（＃２０６〜＃２１０）。ここで算出したパワー値は、パワー値変数Ｐｏｗ２に格納しておく。

パワー値変数Ｐｏｗ２とパワー値変数Ｐｏｗ１との差を算出し、その差が閾値α未満であれば（＃２１２）、隣り合う両フレームの時間帯においては再生機による再生は行われていないと判別する（＃２１３）。そして、声が検出されるまで（発声開始時刻Ｔ２まで）の間、パワー値変数Ｐｏｗ１に現在のパワー値変数Ｐｏｗ２の値を代入し（＃２１５）、さらにその次のフレームのパワー値を算出しこれをパワー値変数Ｐｏｗ２に代入し（＃２０６〜＃２１０）、隣り合うフレーム同士のパワー値の比較を順次実行する（＃２１２、＃２１２）。つまり、図６に示すように、フレームＦ１およびフレームＦ２同士、フレームＦ２およびフレームＦ３同士、フレームＦ３およびフレームＦ４同士、…パワー値の比較を順次実行する。

上記の比較処理を実行している過程で、図６のフレームＦ６のパワー値からフレームＦ７のパワー値への変化のように、閾値α以上のパワー値の増加の変化が見つかったら（＃２１２でＮｏ）、再生機による再生音が集音されたと判別し、偽装（なりすまし）による不正なログインが行われようとしていると判別する（＃２１６）。一方、発声開始時刻Ｔ２まで閾値α以上のパワー値の変化が見つかったら（＃２１４でＹｅｓ）、再生音は検出されず肉声によってログインが行われようとしていると判別する（＃２１７）。

なお、図５の処理は、発声要求時刻Ｔ１よりも前に開始してもよい。例えば、ユーザＩＤ受付時刻Ｔ０から開始してもよい。

図２に戻って、ログイン許否決定部１３８は、ログイン希望ユーザが発した声がユーザＩＤの持ち主本人の声であると声特徴照合処理部１３７によって判別されかつログイン希望ユーザが偽装者でないと偽装判別部１３４によって判別された場合は、パーソナルコンピュータ１へのログインを認める。つまり、認証を与える。これにより、ログイン希望ユーザは、ログアウトするまでの間、パーソナルコンピュータ１の使用が可能となる。一方、本人の声であると判別できなかった場合または偽装が見つかった場合は、ログインを拒否する。

図７はパーソナルコンピュータ１の全体的な処理の流れの例を説明するフローチャートである。

次に、パーソナルコンピュータ１におけるログイン希望ユーザの認証処理の流れを、フローチャートを参照して説明する。

図７において、パーソナルコンピュータ１は、ログイン希望ユーザが入力したユーザＩＤを受け付けると（＃１）、マイクロホン１０ｉによる集音を開始し（＃２）、キーワードを発生するように要求する（＃３）。

再生機を使用した偽装を監視するために、偽装判別処理を開始する（＃４）。偽装判別処理の手順は、前に図５で説明した通りである。

声が検知されたら、その声の特徴量を抽出し、音声特徴量データＤＴＧを得る（＃５）。また、ステップ＃１〜＃５の間のいずれかのタイミングで、受け付けたユーザＩＤに対応する音声特徴量データＤＴＦを呼び出しておく（＃６）。ログイン希望ユーザがそのユーザＩＤの持ち主本人であるか否かを、音声特徴量データＤＴＦおよび音声特徴量データＤＴＧに基づいて判別する（＃７）。なお、ステップ＃４の処理とステップ＃５〜＃７の処理とは並行して実行してもよい。

そして、再生機による偽装が見つからずかつユーザＩＤの持ち主本人であることが確認できたら（＃８でＹｅｓ）、ログイン希望ユーザのログインを認める（＃９）。偽装が見つかりまたは本人であることが確認できなかった場合は（＃８でＮｏ）、ログインを拒否する（＃１０）。

なお、偽装が見つかった場合は、ステップ＃７の処理の結果を待つまでもなく、ログインを拒否することができる。

本実施形態によると、再生機で再生される声を用いて認証を得ようとする「なりすまし」を、背景雑音のレベルをチェックするだけで簡単に判定することができる。

本実施形態では、再生機による再生音を用いた偽装者を、隣り合う２つのフレームの音圧値の二乗和同士を比較することによって判別したが、他の方法によって判別することもできる。

例えば、フレームＦ０のパワー値を基準値として定め、フレームＦ１、Ｆ２、Ｆ３、…のそれぞれのパワー値を基準値と比較し、閾値α以上の差が１回でも検知されたら、偽装者であると判別してもよい。または、所定の回数（例えば、５つ。または、すべての比較回数に対する所定の割合の回数。）以上検知されたら、偽装者であると判別するようにしてもよい。

パワー値として、二乗和の代わりに、フレーム内の音の強さ（デシベル値）の平均値を使用してもよい。または、フレーム内の音圧値の絶対値の合計値を使用してもよい。

または、図４で説明したように、再生機の再生が始まったら、声が検知されるまでの間すなわち再生開始時刻Ｔ１ａから発声開始時刻Ｔ２の間の音圧レベルは再生前の音圧レベルよりも一定範囲のレベルだけ高い状態が継続する、という法則がある。そこで、再生音の誤検知を防止するため、図５のステップ＃２１６で再生音を検知した後、しばらくの間（例えば、０コンマ数秒〜２秒程度の間）フレーム同士の比較を継続し、再生前の音圧レベルよりも一定範囲のレベルだけ高い状態が継続するか否かをチェックしてもよい。そして、再生前の音圧レベルに戻ることなくその状態が継続していれば、再生機による偽装であると判別するようにしてもよい。

または、第一の背景雑音部ＮＳ１の音圧レベル（デシベル値）の平均値と第二の背景雑音部ＮＳ２の音圧レベルの平均値とを比較し、後者が前者よりも所定量以上大きければ、偽装であると判別してもよい。

本実施形態では、ユーザＩＤの入力の要求とキーワードの発声の要求とを別々に行ったが、「ユーザＩＤを入力した後、キーワードを発生してください。」というようなメッセージを表示することによって、両方の要求を纏めて行ってもよい。または、先にキーワードの発声させそれを集音した後、ユーザＩＤを入力させるようにしてもよい。

本実施形態では、パーソナルコンピュータ１にログインしようとするユーザの認証を行う場合を例に説明したが、本発明は、他の装置において認証を行う場合にも適用可能である。例えば、銀行またはクレジットカード会社のＡＴＭ（Automatic Teller Machine）またはＣＤ（Cash Dispenser）、セキュリティルームの入室管理装置、または携帯電話端末の使用者の認証のためにも適用することができる。

〔閾値αの設定の変更〕
図８はパーソナルコンピュータ１の全体的な処理の流れの変形例を説明するフローチャートである。

閾値αの値が適切に設定されていないと、再生機による偽装が上手く検知できないことや、偽装がないにも関わらず偽装を誤検知してしまうことがある。どのような値を閾値αとして設定すべきであるかは、ユーザの周囲の状況またはセキュリティポリシなどに応じて決めなければならない。

そこで、次のような構成によって閾値αを管理してもよい。４０ｄＢの音が定常的に聴こえる環境を、基準の環境と定義しておく。この基準の環境下でマイクロホン１０ｉによって集音を行い、１フレーム当たりのパワー値の平均値を算出する。そして、算出したその平均値を閾値αの基準値Ｐ０とする。閾値αのデフォルト値を基準値Ｐ０としておく。

もしも、基準の環境よりも騒がしい環境下でユーザ認証処理装置（例えば、上述の実施形態のパーソナルコンピュータ１）を使用する場合は、閾値αを基準値Ｐ０よりも大きい値に設定し直す。しかも、より騒がしいほど閾値αをより大きい値に設定する。一方、基準の環境よりも静かな環境下でユーザ認証処理装置を使用する場合は、閾値αを基準値Ｐ０よりも小さい値に設定し直す。しかも、より静かであるほど閾値αをより小さい値に設定する。

または、高いセキュリティが要求される環境下では、閾値αを基準値Ｐ０よりも小さい値に設定し直す。銀行のＡＴＭまたは機密情報が保存されているパーソナルコンピュータなどにおいて認証を行う場合に、このように設定し直すのが好ましい。

閾値αの設定は、管理者が所定の操作を行うことによって変更するようにしてもよいが、カメラ、センサ、または時計などと連携し自動的に変更するようにしてもよい。

例えば、幹線道路に面した銀行のＡＴＭの場合は、１日の中の時間帯によって通行する車両および人の数が変化する。それに伴って、周囲の雑音のレベルも変換する。そこで、時計と連携し、通行量の多い時間帯になったら閾値αを自動的に上げ、通行量の少ない時間帯になったら閾値αを自動的に下げるようにしてもよい。カメラまたはセンサによって通行車両または通行人をカウントし、所定の期間（例えば、１時間）にカウントした数に応じて閾値αを自動的に調整してもよい。

ユーザが一般回線の電話機または携帯電話端末を使用して遠隔地から通信回線を介して認証を求める場合は、その通信回線の特性に応じて閾値αを設定し直してもよい。または、各ユーザの環境に好適な閾値αが選択できるように、ユーザごとに閾値αを予め決めておき、その閾値αをそのユーザのユーザＩＤと対応付けてデータベースに記憶させておけばよい。そして、図８のフローチャートのような手順でユーザ認証処理を行えばよい。

パーソナルコンピュータ１またはＡＴＭなどのユーザ認証処理装置は、遠隔地のユーザのユーザＩＤを受け付けると（＃８１）、それに対応する閾値αをデータベースから呼び出す（＃８２）。マイクロホン１０ｉが集音を行う代わりに、モデムまたはＮＩＣなどの通信インタフェースの装置が、通信回線を介してユーザの電話機または携帯電話端末から届けられる音声データを受信する（＃８３）。キーワードの発声をユーザに対して要求する（＃８４）。その後の処理の流れは、前に図７のステップ＃４〜＃１０で説明した通りである。

その他、パーソナルコンピュータ１の全体または各部の構成、処理内容、処理順序、データベースの構成などは、本発明の趣旨に沿って適宜変更することができる。

上に述べた実施例には、以下に述べるような付記も開示されている。

パーソナルコンピュータのハードウェア構成の例を示す図である。パーソナルコンピュータの機能的構成の例を示す図である。肉声の場合の音声データの音声の音圧の変化の例を示す図である。再生音を含む場合の音声データの音声の音圧の変化の例を示す図である。偽装判別処理の流れの例を説明するフローチャートである。単位時間ごとのパワー値の変化の例を示す図である。パーソナルコンピュータの全体的な処理の流れの例を説明するフローチャートである。パーソナルコンピュータの全体的な処理の流れの変形例を説明するフローチャートである。音声認証技術を用いた従来の認証装置の仕組みを説明するための図である。

符号の説明

１パーソナルコンピュータ
１０ｉマイクロホン（集音手段）
１３２音声データ取得部（集音手段）
１３３発声開始要求部（発声要求手段）
１３４偽装判別部（強さレベル算出手段、不正ユーザ判別手段）
Ｆ０〜Ｆｎフレーム（区間）

Claims

音声認証技術によってユーザ認証を行うユーザ認証システムであって、
前記ユーザ認証の対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音する集音手段と、
前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する、強さレベル算出手段と、
算出された２つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、前記対象者を、再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する、不正ユーザ判別手段と、
を有することを特徴とするユーザ認証システム。
前記周囲音を集音する周囲の環境に関する環境情報を取得する環境情報取得手段と、
前記環境情報の内容に応じて前記所定の値を変更する所定値変更手段と、を有する、
請求項１記載のユーザ認証システム。
音声認証技術によってユーザ認証を行うユーザ認証システムであって、
声を発するように要求するメッセージを前記ユーザ認証の対象者に対して出力する発声要求手段と、
遅くとも前記メッセージが出力された時までに前記対象者の周囲の音である周囲音を集音し始める集音手段と、
集音し始めてから声が検知されるまでの時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する、強さレベル算出手段と、
算出された２つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、前記対象者を、再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する、不正ユーザ判別手段と、
を有することを特徴とするユーザ認証システム。
音声認証技術によるユーザ認証を受けようとする対象者が不正なユーザであるか否かを判別する不正ユーザ判別方法であって、
前記対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音し、
前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出し、
算出した２つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に、前記対象者を、再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する、
ことを特徴とする不正ユーザ判別方法。
音声認証技術によるユーザ認証を受けようとする対象者が不正なユーザであるか否かを判別するコンピュータに用いられるコンピュータプログラムであって、
前記対象者が声を発する前の時間帯に当該対象者の周囲の音である周囲音を集音する処理と、
前記時間帯を複数に区切った区間ごとの、集音された前記周囲音の所定時間当たりの強さを表わす強さレベルを算出する処理と、
算出した２つの前記強さレベルのうち後の前記区間に係る前記強さレベルが前の前記区間に係る前記強さレベルと所定の値との和よりも大きい場合に前記対象者を再生機で声を再生することによって認証を得ようとする不正なユーザであると判別する処理と、
をコンピュータに実行させるためのコンピュータプログラム。