JP2008070597A

JP2008070597A - 音声認証装置、音声認証方法およびプログラム

Info

Publication number: JP2008070597A
Application number: JP2006249161A
Authority: JP
Inventors: Yasuo Yoshioka; 靖雄吉岡; Takehiko Kawahara; 毅彦川▲原▼
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-09-14
Filing date: 2006-09-14
Publication date: 2008-03-27
Anticipated expiration: 2026-09-14
Also published as: JP5151103B2

Abstract

【課題】認証時雑音に拘わらず認証の精度と利便性との均衡を維持する。
【解決手段】特性分析部２０は、認証時に被認証者の周囲に発生する認証時雑音の特性を分析する。閾値設定部５０は、特性分析部２０が分析した認証時雑音の特性に応じて閾値ＴＨを設定する。認証部４０は、予め登録された登録音声と被認証者から採取された認証音声との特徴量の距離DISTを算定し、距離DISTと閾値設定部５０が設定した閾値ＴＨとの比較の結果に応じて被認証者を認証する。閾値設定部５０は、登録音声の登録時に発生する登録時雑音と登録音声との音量比EN_SNに対し、音量被EN_SNと認証時雑音および認証音声の音量比V_SNとの差分値DIF_SNに応じた直線に沿って閾値ＴＨが変化するように閾値を設定する。
【選択図】図１

Description

本発明は、音声を利用した認証の技術に関する。

正当な利用者から事前に採取された音声（以下「登録音声」という）の特徴量と認証の対象者（以下「被認証者」という）から採取された音声（以下「認証音声」という）の特徴量との距離を閾値と比較することで被認証者の正当性を判別する音声認証の技術が従来から提案されている。また、特許文献１には、認証の目的や必要な精度に応じて閾値を変更する構成が開示されている。
特開２００３−２４８６６１号公報

図８は、音声認証の評価に使用されるグラフである。同図におけるＦＲＲ（False Rejection Rate）は、被認証者が正当な利用者であるにも拘わらず認証で正当性が否定される確率（本人拒否率）を意味し、ＦＡＲ（False Acceptance Rate）は、被認証者が正当な利用者ではないにも拘わらず認証で正当性が肯定される確率（他人受入率）を意味する。同図から理解されるように、認証に使用される閾値を図８の数値ａに設定すれば、不当な被認証者が拒否される確度を充分に高水準に維持しながら、正当な利用者が拒否される可能性は充分に低減される。

しかし、認証音声の特性は認証時に周囲で発生している音声（以下「認証時雑音」という）に影響されるから、認証音声と登録音声との距離は認証時雑音に応じて変動する。したがって、ＦＲＲやＦＡＲの各々の曲線は、認証時雑音の特性に応じて横軸（距離）に沿って平行に移動する。そして、例えば図８に実線で図示されたＦＡＲが破線Ｌ1に変動した場合には、他人の正当性が誤認される確率が上昇（すなわち認証の精度が低下）し、図８のＦＲＲが破線Ｌ2に変動した場合には正当な利用者の認証が拒絶される確率が上昇（すなわち利便性が低下）する。すなわち、従来の音声認証においては、認証時雑音の特性に応じて認証の精度と利便性との均衡が崩れるという問題がある。

特許文献１のように認証の目的や必要な精度に応じて閾値を変更しても以上の問題は何ら解決しない。また、携帯電話機に代表される可搬型の電子機器で認証を実行する場合には電子機器の使用される環境に応じて認証時雑音の特性が多様に変化するから、以上の問題は特に深刻化する。このような事情に鑑みて、本発明は、認証時雑音に拘わらず認証の精度と利便性との均衡を維持するという課題の解決を目的としている。

以上の課題を解決するために、本発明のひとつの形態に係る音声認証装置は、認証時に被認証者の周囲に発生する認証時雑音の特性を分析する特性分析手段と、特性分析手段が分析した認証時雑音の特性に応じて閾値を設定する閾値設定手段と、予め登録された登録音声と被認証者から採取された認証音声との特徴量の類否を示す指標値と閾値設定手段が設定した閾値との比較の結果に応じて当該被認証者を認証する認証手段とを具備する。以上の態様によれば、認証時雑音に応じて閾値が可変に設定されるから、認証時雑音に拘わらず認証の精度と利便性との均衡を維持することが可能である。

本発明の好適な態様において、閾値設定手段は、登録音声の登録時に発生する登録時雑音および登録音声の音量比（例えば図４の音量比EN_SN）と閾値とが認証時雑音に応じた関係を満たすように閾値を設定する。例えば、閾値設定手段は、登録時雑音と登録音声との音量比に対し、認証時雑音に応じた直線または曲線に沿って閾値が変化するように、閾値を設定する。さらに詳述すると、閾値設定手段は、登録時雑音と登録音声との音量比に対し、認証時雑音および認証音声の音量比（例えば音量比V_SN）と登録時雑音および登録音声の音量比との相違（例えば図４のDIF_SN1〜DIF_SN3）に応じた直線または曲線に沿って閾値が変化するように、閾値を設定する。以上の態様によれば、登録時雑音や認証時雑音の特性に拘わらず簡易な処理によって認証の精度と利便性との均衡を維持することが可能となる。なお、閾値設定手段は、登録時雑音および登録音声の音量比と認証時雑音（より詳細には認証時雑音および認証音声の音量比と登録時雑音および登録音声の音量比との相違）と閾値との関係を定義するテーブルに基づいて閾値を設定してもよいし、これらの数値の関係を表現する数式を利用した演算によって閾値を算定してもよい。テーブルや数式の内容は、例えば利用者からの指示に応じて適宜に変更され得る。

本発明のひとつの態様において、閾値設定手段は、認証時雑音と登録時雑音との相違（例えば図６の相関値NOISE_DIF）に応じて閾値を補正する補正手段（例えば図１の補正部５４）を含む。以上の態様によれば、実際の認証時における認証時雑音と登録時雑音との相関が、登録時雑音および登録音声の音量比と閾値との関係を決定するときに想定した認証時雑音と登録時雑音との相関とは相違する場合であっても、補正手段が閾値を補正することで認証の精度と利便性との均衡を有効に維持することが可能となる。なお、補正手段は、認証時雑音および登録時雑音の相違と補正値（例えば図６の補正値Ａ1）との関係を定義するテーブルに基づいて閾値に対する補正値を設定してもよいし、この関係を表現する数式を利用した演算によって閾値を算定してもよい。テーブルや数式の内容は、例えば利用者からの指示に応じて適宜に変更され得る。

本発明のひとつの態様において、閾値設定手段は、認証音声または登録音声の時間長（例えば図７の発声長EN_SPEEECH_LENや発声長V_SPEECH_LEN）に応じて閾値を補正する補正手段（例えば図１の補正部５４）を含む。以上の態様によれば、実際の登録音声や認証音声の発声長が、登録時雑音および登録音声の音量比と閾値との関係を決定するときに想定した発声長とは相違する場合であっても、補正手段が閾値を補正することで認証の精度と利便性との均衡を有効に維持することが可能となる。なお、補正手段は、認証音声または登録音声の時間長と補正値（例えば図７の補正値Ａ2）との関係を定義するテーブルに基づいて閾値に対する補正値を設定してもよいし、この関係を表現する数式を利用した演算によって閾値を算定してもよい。テーブルや数式の内容は、例えば利用者からの指示に応じて適宜に変更され得る。

なお、閾値に対する補正値を決定するための基準となる変数は、認証時雑音と登録時雑音との相違や認証音声または登録音声の時間長に限定されない。例えば、登録音声や認証音声のうち有声音と無声音との時間長の比率に応じて閾値を補正する補正手段、または、登録音声や認証音声の音節の個数に応じて閾値を補正する補正手段を、閾値設定手段に含ませてもよい。何れの態様においても、以上と同様に、テーブルや数式に応じて補正値を決定する構成や、テーブルや数式の内容が可変とされた構成が採用される。

本発明は、以上の各態様に係る音声認証装置の動作方法（音声認証方法）としても特定される。本発明のひとつの態様に係る音声認証方法は、被認証者の周囲に認証時に発生する認証時雑音の特性を分析し、分析した認証時雑音の特性に応じて閾値を設定し、予め登録された登録音声と被認証者から採取された認証音声との特徴量の類否を示す指標値と設定した閾値との比較の結果に応じて当該被認証者を認証する。以上の方法によれば、本発明に係る音声認証装置と同様の作用および効果が奏される。

以上の各態様に係る音声認証装置は、各処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、被認証者の周囲に認証時に発生する認証時雑音の特性を分析する特性分析処理と、特性分析処理で分析した認証時雑音の特性に応じて閾値を設定する閾値設定処理と、予め登録された登録音声と被認証者から採取された認証音声との特徴量の類否を示す指標値と閾値設定処理で設定した閾値との比較の結果に応じて当該被認証者を認証する認証処理とを実行させる内容である。以上のプログラムによっても、以上の各態様に係る音声認証装置と同様の作用および効果が奏される。なお、本発明のプログラムは、ＣＤ−ＲＯＭなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：音声認証装置の構成＞
図１は、本発明のひとつの形態に係る音声認証装置の構成を示すブロック図である。音声認証装置１００は、被認証者が特定の言葉を発声したときの音声に基づいて被認証者の正当性（予め登録された正規の利用者であるか否か）を判定する装置であり、携帯電話機や情報処理装置など各種の電子機器に搭載される。図１に図示された特性分析部２０や認証部４０や閾値設定部５０は、例えばＣＰＵなどの演算処理装置がプログラムを実行することで実現されてもよいし、ＤＳＰなどのハードウェア回路によって実現されてもよい。

音声認証装置１００の動作は初期登録と認証とに区分される。初期登録は、正当な利用者が発声した音声（登録音声）を認証に先立って登録する動作である。認証は、登録音声と被認証者が発声した音声（認証音声）との照合によって被認証者の正当性を認証する動作である。操作部１０は、利用者によって操作される複数の操作子を含む。利用者は、操作部１０を適宜に操作することで初期登録や認証の開始を音声認証装置１００に指示することができる。

図１の入力部１５および特性分析部２０は、認証時には、認証音声や音声認証装置１００の周囲の雑音（認証時雑音）の特性を検出するために使用され、初期登録時には、同図に破線Ｒで図示されるように、登録音声や音声認証装置１００の周囲の雑音（登録時雑音）の特性を検出するために使用される。

入力部１５は、周囲の音響（音声および雑音）に応じた音響信号Ｓを生成する収音機器である。図２に例示されるように、音響信号Ｓは、非発声区間Ｐ1と発声区間Ｐ2とに区分される。発声区間Ｐ2は、初期登録に際して正当な利用者が登録音声を発声した区間や認証に際して被認証者が認証音声を発声した区間である。一方、非発声区間Ｐ1は、登録音声や認証音声が発声されない区間である。音声認証装置１００が設置された環境には各種の雑音が発生し得るから、非発声区間Ｐ1においても完全な無音（音響信号Ｓの振幅がゼロ）ではなく、図２に示すように登録時雑音や認証時雑音が入力部１５によって収音される。

入力部１５が生成した音響信号Ｓは図１の特性分析部２０に供給される。特性分析部２０は、入力部１５が採取した音響を分析する手段であり、区間検出部２２と切換部２３と雑音分析部２５と音声分析部２６と特徴分析部２８とを含む。区間検出部２２は、非発声区間Ｐ1と発声区間Ｐ2とを区分する。例えば、区間検出部２２は、音響信号Ｓの振幅が不連続に増減した時点を非発声区間Ｐ1と発声区間Ｐ2との境界として検出する。なお、非発声区間Ｐ1と発声区間Ｐ2との区分には公知の様々な技術が採用される。

切換部２３は、入力部１５が生成した音響信号Ｓの供給先を選択的に切換える手段である。音響信号Ｓのうち区間検出部２２が非発声区間Ｐ1と認定した区間は雑音分析部２５に供給され、区間検出部２２が発声区間Ｐ2と認定した区間は音声分析部２６と特徴分析部２８とに供給される。

雑音分析部２５は、非発声区間Ｐ1の音響信号Ｓに基づいて登録時雑音や認証時雑音の特性を分析する手段である。本形態の雑音分析部２５は、非発声区間Ｐ1内において周期的に音響信号Ｓの特性を分析する。そして、操作部１０に対する操作に応じて初期登録または認証の開始が指示されると、雑音分析部２５は、図２に示すように、当該指示の時点から所定の時間長だけ手前の時点までの区間（以下「検出区間」という）Ｐにおける分析の結果を登録時雑音や認証時雑音の特性として確定する。なお、以下の説明において、登録時雑音や登録音声に関連する事項は「EN（enroll）」を含む符号で指示され、認証時雑音や認証音声に関連する事項は「V（verify）」を含む符号で指示される。

図１に示すように、本形態の雑音分析部２５は、初期登録時には、登録時雑音について周波数特性EN_NOISE_FCと雑音レベルEN_NOISE_LEVELとを算定し、認証時には、認証時雑音について周波数特性V_NOISE_FCと雑音レベルV_NOISE_LEVELとを算定する。雑音レベル（EN_NOISE_LEVEL，V_NOISE_LEVEL）は、非発声区間Ｐ1内の検出区間Ｐにおける音響信号Ｓのうち所定の周波数帯域に属する成分の強度（音圧）の平均値である。周波数特性（EN_NOISE_FC，V_NOISE_FC）は、検出区間Ｐの音響信号Ｓを複数の周波数帯域に区分したときの各成分の強度を示す情報である。したがって、雑音分析部２５は、例えば各々の通過帯域が相違する複数のバンドパスフィルタ（フィルタバンク）を含む。ただし、雑音分析部２５は、ＦＦＴ（Fast Fourier Transform）処理などの周波数分析によって周波数スペクトルを周波数特性（EN_NOISE_FC，V_NOISE_FC）として算定する手段であってもよい。

音声分析部２６は、発声区間Ｐ2の音響信号Ｓに基づいて登録音声や認証音声の特性を分析する。本形態の音声分析部２６は、初期登録時には、登録音声について発声レベルEN_SPEECH_LEVELと発声長EN_SPEECH_LENとを算定し、認証時には、認証音声について発声レベルV_SPEECH_LEVELと発声長V_SPEECH_LENとを算定する。発声レベル（EN_SPEECH_LEVEL，V_SPEECH_LEVEL）は、発声区間Ｐ2内の音響信号Ｓのうち所定の周波数帯域に属する成分の強度の平均値である。発声長（EN_SPEECH_LEN，V_SPEECH_LEN）は発声区間Ｐ2の時間長（すなわち発声が継続される時間長）を示す。音響信号Ｓの振幅が急峻に増大する時点（発声区間Ｐ2の始点）から音響信号Ｓの振幅が急峻に減少する時点（発声区間Ｐ2の終点）までの時間長が発声長（EN_SPEECH_LEN，V_SPEECH_LEN）として検出される。

特徴分析部２８は、登録音声や認証音声の特徴を分析する手段である。本形態の特徴分析部２８は、初期登録時には登録音声の特徴量EN_DATAを算定し、認証時には認証音声の特徴量V_DATAを算定する。特徴量（EN_DATA，V_DATA）は、発声区間Ｐ2内の音響信号Ｓから算定されるケプストラムの時系列的なベクトル列である。したがって、周波数分析（例えばＦＦＴ処理）を含む各種の演算を実行する手段が特徴分析部２８として好適に採用される。

記憶装置３２は、認証に使用される各種の情報を記憶する手段である。例えば図１に図示されるように、記憶装置３２は、特性分析部２０が登録音声および登録時雑音について特定した各種の情報を認証用の辞書として記憶する。すなわち、雑音分析部２５が特定した周波数特性EN_NOISE_FCおよび雑音レベルEN_NOISE_LEVELと、音声分析部２６が特定した発声レベルEN_SPEECH_LEVELおよび発声長EN_SPEECH_LENと、特徴分析部２８が特定した特徴量EN_DATAとが、認証に先立って記憶装置３２に格納される。記憶装置３２は、音声認証装置１００に固定的に設置された機器であっても、音声認証装置１００に対して自在に着脱される可搬型の機器（メモリ）であってもよい。

認証部４０は、登録音声と認証音声との照合によって被認証者の正当性を認証する手段であり、距離算定部４２と判定部４４とを含む。距離算定部４２は、特徴分析部２８が認証音声について生成した特徴量V_DATAと記憶装置３２に記憶された特徴量EN_DATAとの距離DISTを算定する。距離DISTの算定には、特徴量EN_DATAおよびV_DATAの各々のベクトル列について相互間の正規化距離を算定するＤＰマッチングなど各種のパターンマッチング技術が利用される。距離DISTが小さいほど認証音声は登録音声に類似する（すなわち被認証者が正当な利用者である可能性が高い）。

判定部４４は、距離算定部４２が算定した距離DISTを閾値ＴＨと比較することで被認証者の正当性を判定する。すなわち、判定部４４は、距離DISTが閾値ＴＨを下回る場合（すなわち登録音声と認証音声とが類似する場合）には被認証者の正当性を肯定し、距離DISTが閾値ＴＨを上回る場合（すなわち登録音声と認証音声とが乖離する場合）には被認証者の正当性を否定する。判定部４４による判定の結果は出力部６０から出力される。例えば、認証の結果を画像として出力する表示機器や認証の結果を音声で出力する放音装置が出力部６０として好適に採用される。

閾値設定部５０は、判定部４４による判定に使用される閾値ＴＨを認証時雑音や登録時雑音に応じて可変に設定する手段であり、初期値設定部５２と補正部５４および５６とを含む。初期値設定部５２は、特性分析部２０が初期登録時および認証時に生成した情報に基づいて閾値ＴＨの初期値を設定する。初期値設定部５２が設定した閾値ＴＨは、補正部５４および５６による補正を経て判定部４４に出力される。補正部５４は、認証時雑音と登録時雑音との相違に応じて閾値ＴＨを補正する。補正部５６は、初期登録時の発声長EN_SPEECH_LENに応じて閾値ＴＨを補正する。図１の記憶部３５は、閾値ＴＨの設定や補正のために閾値設定部５０が使用するテーブルを格納する。なお、記憶装置３２内の特定の記憶領域を記憶部３５としてもよい。

＜Ｂ：音声認証装置の動作＞
次に、認証時において閾値設定部５０が閾値ＴＨを設定する処理を中心に音声認証装置１００の動作を説明する。閾値設定部５０は、認証の必要な時期が到来するたびに図３の処理を実行する。認証が必要な時機としては、例えば、音声認証装置１００を搭載した電子機器が電源の投入を契機として動作を開始する時機や、電子機器が所定の動作（例えば特定の情報に対するアクセス）を開始する時機がある。認証が開始すると、被認証者は、操作部１０を操作することで発声の開始を指示したうえで入力部１５に対して所定の言葉を発声する。雑音分析部２５は、操作部１０への操作の時機を終点とする検出区間Ｐの音響信号Ｓから周波数特性V_NOISE_FCおよび雑音レベルV_NOISE_LEVELを特定するとともに、これに続く発声区間Ｐ2の音響信号Ｓから発声レベルV_SPEECH_LEVELおよび発声長V_SPEECH_LENを特定する。

図３に示すように、閾値設定部５０は、登録時雑音と登録音声との音量比EN_SNを算定する（ステップＳ10）。音量比EN_SNは、記憶装置３２に格納された発声レベルEN_SPEECH_LEVELと雑音レベルEN_NOISE_LEVELとの相対比であり、例えば以下の式(1)で算定される。
EN_SN＝log(EN_SPEECH_LEVEL／EN_NOISE_LEVEL) ……(1)

次に、閾値設定部５０は、認証時雑音と認証音声との音量比V_SNを算定する（ステップＳ11）。音量比V_SNは、雑音分析部２５から供給される雑音レベルV_NOISE_LEVELと音声分析部２６から供給される発声レベルV_SPEECH_LEVELとの相対比であり、音量比EN_SNと同様に以下の式(2)で算定される。
V_SN＝log(V_SPEECH_LEVEL／V_NOISE_LEVEL) ……(2)

次のステップＳ12において、閾値設定部５０は、ステップＳ10で算定した初期登録時の音量比EN_SNとステップＳ11で算定した今回の認証時の音量比V_SNとの差分値（以下「音量比差分値」という）DIF_SNを算定する（DIF_SN＝V_SN−EN_SN）。さらに、閾値設定部５０は、登録時雑音と認証時雑音との特性の相関（例えばスペクトル形状の類否）を示す相関値NOISE_DIFを算定する（ステップＳ13）。相関値NOISE_DIFは、例えば以下の式(3)で算定される。

式(3)における数値EN_MAG(i)は、複数の周波数帯域のうち変数ｉで指定される周波数帯域における登録時雑音の強度であり、数値EN_MAG(i)から減算される数値EN_MAG_AVEは、変数ｉで指定される周波数帯域における登録時雑音の強度の平均値である。同様に、数値V_MAG(i)は、変数ｉで指定される周波数帯域における認証時雑音の強度であり、数値V_MAG_AVEは当該周波数帯域における認証時雑音の強度の平均値である。したがって、登録時雑音と認証時雑音とが完全に合致する場合には相関値NOISE_DIFが「１」となり、両雑音の特性の相違が拡大するほど相関値NOISE_DIFは減少していく（−１≦NOISE_DIF≦１）。

次に、初期値設定部５２は、ステップＳ10で算定した音量比EN_SNとステップＳ12で算定した音量比差分値DIF_SNとに基づいて閾値ＴＨの初期値を特定する（ステップＳ14）。本願の発明者による試験によれば、認証の精度を高水準に維持するための閾値ＴＨは、音量比EN_SNと音量比差分値DIF_SNとに対して所定の関係を満たすという知見を得るに至った。すなわち、図４に示すように、音量比EN_SNの数値（登録時雑音と登録音声との音量比）を変化させた各ケースにおいて認証の精度が所期の条件を満たす（例えばＦＲＲやＦＡＲが所期値を下回る）ように閾値ＴＨを設定し、横軸を音量比EN_SNとしたうえで各音量比EN_SNに対応した閾値ＴＨを縦軸にプロットして統計的に処理すると、各点は音量比差分値DIF_SNに応じた直線上に分布する傾向がある。図４には３種類の音量比差分値DIF_SN（DIF_SN1〜DIF_SN3）に対応した３本の直線が図示されている。いま、音量比EN_SNが数値ＳＮaで音量比差分値DIF_SNが数値DIF_SN1であるとすれば、閾値ＴＨを数値ＴＨaに選定することで所期の精度による認証が実現される。同図に示すように、音量比EN_SNや音量比差分値DIF_SNが増加するほど、認証を所期の精度に維持するための閾値ＴＨは増加する。

以上の知見に基づいて、初期値設定部５２は、ステップＳ10で算定された音量比EN_SNに対し、音量比差分値DIF_SNに応じた直線の関係を満たすように、閾値ＴＨの初期値を設定する。例えば図４に図示されるように、音量比EN_SNが数値ＳＮaであるとすると、ステップＳ12で数値DIF_SN1が算定された場合には数値ＴＨaが閾値ＴＨの初期値として設定され、ステップＳ12で数値DIF_SN2が算定された場合には数値ＴＨbが閾値ＴＨの初期値として設定される。また、音量比差分値DIF_SNが予め設定された数値に該当しない場合には補間によって閾値ＴＨの初期値が算定される。例えば、数値DIF_SN1と数値DIF_SN2との中間の数値DIF_SNがステップＳ12で算定された場合には、数値DIF_SN1に対応した数値ＴＨaと数値DIF_SN2に対応した数値ＴＨbとの中間値ＴＨcが閾値ＴＨの初期値として算定される。

本形態の初期値設定部５２は、以上の条件を満たすように作成されたテーブルに基づいて音量比EN_SNおよび音量比差分値DIF_SNから閾値ＴＨの初期値を算定する。図５は、ステップＳ14にて使用されるテーブルの内容を示す概念図である。同図に示すように、別個の音量比差分値DIF_SN（DIF_SN1，DIF_SN2，DIF_SN3，……）に対応した複数のテーブルが記憶部３５に格納される。ひとつの音量比差分値DIF_SNに対応したテーブルには、音量比EN_SNと閾値ＴＨとが当該音量比差分値DIF_SNに対応した直線的な関係を満たすように、音量比EN_SNの各数値と閾値ＴＨの初期値とが対応づけられている。ステップＳ14において、初期値設定部５２は、ステップＳ12で算定された音量比差分値DIF_SNに対応したひとつのテーブルを探索し、ここで探索したテーブルのうちステップＳ10で算定された音量比EN_SNに対応づけられた閾値ＴＨを初期値として設定する。ステップＳ12で算定された音量比差分値DIF_SNに対応したテーブルが存在しない場合、初期値設定部５２は、当該音量比差分値DIF_SNの前後の音量比差分値DIF_SNに対応する各テーブルから音量比EN_SNに応じた閾値ＴＨを算定し、各閾値ＴＨの補間によって初期値を算定する。

ところで、図４に例示した音量比EN_SN，音量比差分値DIF_SNと閾値ＴＨとの関係は、例えば登録時雑音と認証時雑音との特性が同等であることを前提として決定される。しかし、実際には登録時雑音と認証時雑音との特性は相違する場合が多い。そこで、補正部５４は、ステップＳ14で算定された閾値ＴＨの初期値を登録時雑音と認証時雑音との相関値NOISE_DIFに応じて補正する（ステップＳ15）。さらに詳述すると、補正部５４は、相関値NOISE_DIFに応じた補正値Ａ1を閾値ＴＨの初期値に加算することで補正後の閾値ＴＨを算定する。

図６は、相関値NOISE_DIFと補正値Ａ1との関係を示すグラフである。式(3)で算定される相関値NOISE_DIFは、登録時雑音と認証時雑音との相関に応じて「−１」から「１」までの範囲内で変動し、双方の雑音の特性が完全に合致する場合には「１」となる。登録時雑音と認証時雑音との関係が図４の関係の決定時と同等である（本形態では双方の雑音が合致する）ならば、相関値NOISE_DIFに応じて閾値ＴＨを補正する必要はない。一方、登録時雑音と認証時雑音との関係が図４の関係の決定時から乖離するほど閾値ＴＨを大きく補正すべきである。したがって、補正部５４は、図６に示すように、相関値NOISE_DIFが「１」である場合に補正値Ａ1をゼロに設定する（補正なし）とともに、相関値NOISE_DIFが「１」よりも小さいほど大きい数値となるように補正値Ａ1を設定する。さらに詳述すると、相関値NOISE_DIFと補正値Ａ1とが対応づけられたテーブルが記憶部３５に格納され、補正部５４はこのテーブルに基づいて補正値Ａ1を決定する。

また、図４に示した音量比EN_SNおよび音量比差分値DIF_SNと閾値ＴＨとの関係は、例えば登録音声が所定の時間長Ｌ0にわたって継続する場合を想定して決定される。しかし、実際の初期登録における登録音声の発声長EN_SPEECH_LENは区々である。そこで、補正部５６は、ステップＳ15における補正後の閾値ＴＨを発声長EN_SPEECH_LENに応じて補正する（ステップＳ16）。さらに詳述すると、補正部５６は、発声長EN_SPEECH_LENに応じた補正値Ａ2を閾値ＴＨに加算することで補正後の閾値ＴＨを算定する。補正部５６による補正後の閾値ＴＨは、判定部４４における距離DISTとの比較に使用される。

図７は、発声長EN_SPEECH_LENと補正値Ａ2との関係を示すグラフである。発声長EN_SPEECH_LENが図４の関係の決定時における時間長Ｌ0と同等であるならば、発声長EN_SPEECH_LENに応じて閾値ＴＨを補正する必要はない。したがって、記憶装置３２に格納された発声長EN_SPEECH_LENが時間長Ｌ0と同等である場合、補正部５６は補正値Ａ2をゼロに設定する。また、発声長EN_SPEECH_LENが長いほど登録音声の発声が安定するから、特徴量EN_DATAは正当な利用者本来の基本的な声質を忠実に反映したものとなって距離DISTの正確性が向上する。したがって、他人の正当性が認証される可能性を低減するという観点から閾値ＴＨを低下させても、正当な利用者を否定する可能性が不当に上昇することはない。そこで、補正部５６は、発声長EN_SPEECH_LENが時間長Ｌ0よりも長い場合には当該発声長EN_SPEECH_LENに応じた負数を補正値Ａ2として選定し、発声長EN_SPEECH_LENが時間長Ｌ0よりも短い場合には当該発声長EN_SPEECH_LENに応じた正数を補正値Ａ2として選定する。さらに詳述すると、発声長EN_SPEECH_LENと補正値Ａ2とが対応づけられたテーブルが記憶部３５に格納され、補正部５６はこのテーブルに基づいて補正値Ａ2を決定する。

以上に説明したように、本形態においては、認証時雑音と認証音声との関係（V_SN）や登録時雑音と登録音声との関係（EN_SN）に応じて閾値ＴＨが可変に設定されるから、認証時雑音や登録時雑音の特性に拘わらず認証を所望の精度に維持することが可能である。すなわち、認証時雑音や登録時雑音に影響されることなく、ＦＲＲを低下させて利便性の向上を図りながら、ＦＡＲの低下によって認証の精度を高水準に維持することが可能となる。

本形態においては特に、音量比EN_SNと好適な閾値ＴＨとが音量比差分値DIF_SNに応じた直線の関係を満たすという知見に基づいて閾値ＴＨが設定される。したがって、閾値ＴＨの設定に必要な変数の個数を充分に削減しながら最適な閾値ＴＨを高精度に特定できるという利点がある。さらに、相関値NOISE_DIFや発声長EN_SPEECH_LENに応じて閾値ＴＨが補正されるから、初期登録時や認証時における音声認証装置１００の環境を忠実に反映した閾値ＴＨを認証に利用することが可能となる。

＜Ｃ：変形例＞
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）変形例１
以上の形態においては記憶部３５に格納されたテーブルが利用される構成を例示したが、所定の演算式を利用した演算処理によって閾値ＴＨの初期値や補正値Ａ1およびＡ2が選定される構成としてもよい。例えば、音量比差分値DIF_SNに応じた直線（音量比EN_SNと閾値ＴＨとの関係を定義する図４の各直線）を表わす複数の数式が記憶部３５に格納され、初期値設定部５２は、ステップＳ12で算定された音量比差分値DIF_SNに応じた数式にステップＳ10で算定された音量比EN_SNを代入することで閾値ＴＨを演算する。また、相関値NOISE_DIFと補正値Ａ1との関係を表わす数式に基づいて補正部５４が補正値Ａ1を算定する構成や、発声長EN_SPEECH_LENと補正値Ａ2との関係を表わす数式に基づいて補正部５６が補正値Ａ2を算定する構成も採用される。

（２）変形例２
閾値ＴＨの補正の程度を決定する変数は相関値NOISE_DIFや発声長EN_SPEECH_LENに限定されない。例えば、発声長EN_SPEECH_LENに応じて閾値ＴＨを補正する構成に代えて、またはこの構成とともに、認証音声の発声長V_SPEECH_LENに応じて閾値ＴＨを補正する構成や、発声長EN_SPEECH_LENと発声長V_SPEECH_LENとの平均値に応じて閾値ＴＨを補正する構成を採用してもよい。例えば、発声長EN_SPEECH_LENと補正値Ａ2との関係と同様に、発声長V_SPEECH_LENが長いほど閾値ＴＨが低下するように閾値ＴＨが補正される。

また、以上に列挙した以外の変数に基づいて閾値ＴＨを補正してもよい。例えば、登録音声や認証音声（発声区間Ｐ2）のうち有声音と無声音との時間長の比率に応じて閾値ＴＨを補正してもよい。有声音の比率が高いほど特徴量（EN_DATA，V_DATA）は発声者の声質を忠実に反映した数値となるから距離DISTの正確性は向上する。したがって、閾値ＴＨを低下させてもＦＲＲが不当に上昇することはない。そこで、登録音声や認証音声のうち有声音の比率が高いほど閾値ＴＨが低下するように閾値ＴＨを補正する構成が採用される。また、登録音声や認証音声において音節（モーラ）の個数が多いほど距離DISTの正確性は向上するから、例えば登録音声や認証音声の音節数が多いほど閾値ＴＨが低下するように閾値ＴＨを補正する構成としてもよい。

（３）変形例３
閾値ＴＨと各変数との関係が可変である構成も採用される。例えば、操作部１０の操作に応じてテーブルを更新することで音量比EN_SNや音量比差分値DIF_SNと閾値ＴＨの初期値との関係が変更される構成としてもよい。同様に、各変数と閾値ＴＨに対する補正の程度との関係が可変である構成も採用される。例えば、相関値NOISE_DIFに対応した補正値Ａ1や発声長EN_SPEECH_LENに応じた補正値Ａ2は操作部１０に対する操作に応じて変更され得る。これらの構成によれば、利用者の要求に応じた認証を実現することが可能となる。また、変形例１に例示したように数式の演算によって閾値ＴＨや補正値（Ａ1，Ａ2）が算定される構成においては、数式の内容（例えば各変数の係数）が操作部１０に対する操作に応じて変更されるようにしてもよい。

（４）変形例４
以上の形態においては登録音声と認証音声との距離DISTが認証に利用される構成を例示したが、双方の音声の類似度の指標となる数値は距離DISTに限定されない。例えば、登録音声と認証音声とで特性が接近するほど数値が増加する性質の変数（指標値）に基づいて認証が実行される構成も採用される。この構成においては、各変数に対する閾値ＴＨの大小の関係が以上の形態とは逆転する。すなわち、例えば図４とは逆に、音量比EN_SNが増加するほど閾値ＴＨが減少するように閾値ＴＨが設定される。

（５）変形例５
以上の形態においては音量比EN_SNに応じて閾値ＴＨが直線的に変化する場合を例示したが、音量比EN_SNと閾値ＴＨとの関係は適宜に変更される。例えば、音量比EN_SNと閾値ＴＨとが音量比差分値DIF_SNに応じた曲線の関係を満たすように（すなわち、音量比EN_SNに対し、音量比差分値DIF_SNに応じた曲線に沿って閾値ＴＨが変化するように）、音量比EN_SNと音量比差分値DIF_SNとに応じて閾値ＴＨが特定される構成も採用される。以上のように、本発明の好適な態様においては、音量比EN_SNと閾値ＴＨとが認証時雑音に応じて異なる関係（典型的には音量比差分値DIF_SNに応じた直線的または曲線的な関係）となるように閾値ＴＨが設定されれば足り、ひとつの音量比差分値DIF_SNに対応した音量比EN_SNと閾値ＴＨとの具体的な関係は、例えば各変数の関係を導出するための試験の結果やこの結果に対する統計的な処理の如何に応じて適宜に変更される。

（６）変形例６
以上の形態においては正当な利用者と他人との区別に音声認証装置１００が利用される場合を例示したが、正当な利用者の発声に基づいて事前に登録されたパスワードと認証音声から特定されるパスワードとの合致を判定する音声パスワード認証にも以上の形態に係る音声認証装置１００を利用することが可能である。

本発明のひとつの形態に係る音声認証装置の構成を示すブロック図である。入力部が生成する音響信号の波形図である。閾値設定部による処理の流れを示すフローチャートである。音量比EN_SNおよび音量比差分値DIF_SNと閾値ＴＨとの関係を示すグラフである。閾値の決定に使用されるテーブルの内容を示す概念図である。相関値NOISE_DIFと補正値Ａ1との関係を示すグラフである。発声長EN_SPEECH_LENと補正値Ａ2との関係を示すグラフである。閾値とＦＡＲおよびＦＲＲとの関係を示すグラフである。

符号の説明

１００……音声認証装置、１０……操作部、１５……入力部、２０……特性分析部、２２……区間検出部、２３……切換部、２５……雑音分析部、２６……音声分析部、２８……特徴分析部、３２……記憶装置、３５……記憶部、４０……認証部、４２……距離算定部、４４……判定部、５０……閾値設定部、５２……初期値設定部、５４……補正部、５６……補正部、６０……出力部。

Claims

認証時に被認証者の周囲に発生する認証時雑音の特性を分析する特性分析手段と、
前記特性分析手段が分析した認証時雑音の特性に応じて閾値を設定する閾値設定手段と、
予め登録された登録音声と被認証者から採取された認証音声との特徴量の類否を示す指標値と前記閾値設定手段が設定した閾値との比較の結果に応じて当該被認証者を認証する認証手段と
を具備する音声認証装置。
前記閾値設定手段は、前記登録音声の登録時に発生する登録時雑音および前記登録音声の音量比と閾値とが前記認証時雑音に応じた関係を満たすように、前記閾値を設定する
請求項１に記載の音声認証装置。
前記閾値設定手段は、前記登録時雑音と前記登録音声との音量比に対し、前記認証時雑音に応じた直線または曲線に沿って閾値が変化するように、前記閾値を設定する
請求項２に記載の音声認証装置。
前記閾値設定手段は、前記登録時雑音と前記登録音声との音量比に対し、前記認証時雑音および前記認証音声の音量比と前記登録時雑音および前記登録音声の音量比との相違に応じた直線または曲線に沿って閾値が変化するように、前記閾値を設定する
請求項３に記載の音声認証装置。
前記閾値設定手段は、前記認証時雑音と前記登録時雑音との相違に応じて閾値を補正する補正手段を含む
請求項２から請求項４の何れかに記載の音声認証装置。
前記閾値設定手段は、前記認証音声または前記登録音声の時間長に応じて閾値を補正する補正手段を含む
請求項２から請求項５の何れかに記載の音声認証装置。
認証時に被認証者の周囲に発生する認証時雑音の特性を分析し、
前記分析した認証時雑音の特性に応じて閾値を設定し、
予め登録された登録音声と被認証者から採取された認証音声との特徴量の類否を示す指標値と前記設定した閾値との比較の結果に応じて当該被認証者を認証する
音声認証方法。
コンピュータに、
認証時に被認証者の周囲に発生する認証時雑音の特性を分析する特性分析処理と、
前記特性分析処理で分析した認証時雑音の特性に応じて閾値を設定する閾値設定処理と、
予め登録された登録音声と被認証者から採取された認証音声との特徴量の類否を示す指標値と前記閾値設定処理で設定した閾値との比較の結果に応じて当該被認証者を認証する認証処理と
を実行させるプログラム。