JP4305509B2

JP4305509B2 - 音声処理装置およびプログラム

Info

Publication number: JP4305509B2
Application number: JP2006349210A
Authority: JP
Inventors: 毅彦川▲原▼; 靖雄吉岡
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-12-26
Filing date: 2006-12-26
Publication date: 2009-07-29
Anticipated expiration: 2026-12-26
Also published as: US20080154597A1; EP1939861B1; US8117031B2; ATE554477T1; JP2008158396A; EP1939861A1

Description

本発明は、音声の特徴量を含む登録情報（辞書）を作成または更新する技術および登録情報内の特徴量と利用者が入力した音声（以下「入力音声」という）の特徴量とを照合する技術に関する。

発声者の正当性を認証する技術（話者認証）や複数の登録者のなかから発声者を特定する技術（話者識別）が従来から提案されている。話者認証や話者識別においては登録と照合とが実行される。登録の段階では入力音声から抽出された特徴量に基づいて登録情報が作成され、照合の段階では入力音声の特徴量と登録情報の特徴量とが照合される（例えば非特許文献１や非特許文献２）。
松井知子，「ＨＭＭによる話者認識」，電子情報通信学会技術研究報告，電子情報通信学会，１９９６年１月,ＳＰ９５−１１１ｐ.１７−２４早川昭二外２名，「線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識」，電子情報通信学会論文誌，電子情報通信学会，１９９７年９月，ＡＶｏｌ．Ｊ８０−１Ｎｏ．９ｐ．１３６０−１３６７

しかし、登録時の入力音声が登録情報の作成や更新に適さない場合もある。例えば入力音声の音量が極端に小さい場合には特徴量の適正な抽出が困難となるから、実際に作成される登録情報は発声者の本来の特徴から乖離した内容となり得る。したがって、登録情報を利用した照合の精度が低下するという問題がある。同様に、照合時の入力音声が不適切であれば、発声者の本来の特徴を充分に反映した登録情報を利用した場合であっても照合の精度は低下する。以上の事情に鑑みて、本発明は、発声者の本来の特徴を登録情報に有効に反映させるという課題の解決をひとつの目的とする。また、本発明は、発声者による入力音声を高精度に照合するという課題の解決を別の目的とする。

以上の課題を解決するために、本発明の第１の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、複数の入力音声のうち判定手段が適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理手段と、判定手段が不適切と判定した場合に発声者に報知する報知手段とを具備する。以上の態様においては、判定手段が適切と判定した入力音声の特徴量が登録情報に反映されるから、入力音声の適否に拘わらず入力音声が登録情報の作成や更新に使用される構成と比較して、利用者の音声の本来の特徴を忠実に反映した登録情報（辞書）を作成することが可能である。

また、本発明の第２の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、判定手段が適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する照合手段と、判定手段が不適切と判定した場合に発声者に報知する報知手段とを具備する。以上の態様においては、判定手段が適切と判定した入力音声について照合手段による照合が実行されるから、入力音声の適否に拘わらず入力音声が照合に利用される構成と比較して照合の精度を向上することが可能である。

以上の各態様に係る音声処理装置において、入力音声の適否を判定する基準は任意である。例えば、判定手段は、入力音声の音量と入力音声の時間長と入力音声に含まれる雑音のレベルとの少なくともひとつに基づいて入力音声の適否を判定する。

本発明の好適な態様において、報知手段は、判定手段が前記入力音声を不適切と判定した理由を発声者に報知する。本態様によれば、適切な発声を利用者が容易に把握できるという利点がある。もっとも、入力音声が不適切と判定されたという事実のみが利用者に報知される構成も採用される。

本発明の好適な態様に係る音声処理装置は、判定手段が適切と判定した場合に入力音声の特徴量を抽出する特徴抽出手段を具備する。本態様によれば、入力音声が適切と判定された場合に特徴抽出手段が特徴量を抽出すれば足りるから、入力音声の適否に拘わらず特徴量が抽出される構成と比較して特徴抽出手段による処理の負荷が軽減される。なお、本態様の具体例は第１実施形態から第３実施形態として後述される。

本発明の好適な態様に係る音声処理装置は、入力音声の特徴量を抽出する特徴抽出手段を具備し、判定手段は、特徴抽出手段が抽出した特徴量に基づいて入力音声の適否を判定する。本態様によれば、登録情報を作成または更新するための特徴量が入力音声の適否の判定にも使用されるから、入力音声の適否を判定する処理の負荷が軽減される。なお、本態様の具体例は第４実施形態として後述される。

特徴抽出手段は、例えば、周波数軸上に配列する複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を特徴量として入力音声から生成する。複数の帯域の各々は周波数軸上において間隔をあけて配列することが望ましい。

以上の各態様に係る音声処理装置は、登録情報を作成または更新する方法や特徴量を照合する方法としても特定される。本発明の第１の態様に係る音声処理方法は、複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定し、複数の入力音声のうち判定手段が適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新し、不適切と判定した場合に発声者に報知する。また、本発明の第２の態様に係る音声処理方法は、複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定し、適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合し、不適切と判定した場合に発声者に報知する。以上の各態様に係る方法によっても、本発明に係る音声処理装置と同様の作用および効果が奏される。

本発明に係る音声処理装置は、各処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。第１の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、複数の入力音声のうち判定処理で適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理処理と、判定処理で不適切と判定した場合に発声者に報知する報知処理とを実行させる。また、第２の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、判定処理で適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する照合処理と、判定処理で不適切と判定した場合に発声者に報知する報知処理とを実行させる。以上の各態様に係るプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、ＣＤ−ＲＯＭなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。本形態の音声処理装置１００は、利用者が発声した音声の特徴量に基づいて当該利用者の正当性（予め登録された正規の利用者であるか否か）を判定する話者認証のための装置である。図１に示すように、音声処理装置１００は、登録部１０と照合部３０と記憶装置５０とを具備する。登録部１０および照合部３０の各々には収音機器６２と入力装置６４と出力装置６６とが接続される。

記憶装置５０は、話者認証に使用される辞書Ｄを格納する。図２は、辞書Ｄの構成を示す概念図である。図２に示すように、辞書Ｄは、各々が別個の利用者に対応する複数の登録情報Ｒを含む。ひとつの登録情報Ｒは、各利用者に固有の識別情報Ｉd（Ｉd_1，Ｉd_2，……）と利用者の音声の特徴を示す特徴量ＣA（ＣA_1，ＣA_2，……）とを含む。特徴量ＣAは、利用者に固有の数値である。本形態における特徴量ＣAは、利用者が発声した音声のケプストラムの時系列的なベクトル列である。

図１の登録部１０は、登録情報Ｒを作成して記憶装置５０に格納する手段である。照合部３０は、登録情報Ｒを利用して話者認証を実行する手段である。登録部１０と照合部３０とは、演算処理装置（ＣＰＵ）がプログラムを実行することで実現される。なお、図１では登録部１０と照合部３０とを個別に図示したが、登録部１０と照合部３０とはひとつの演算処理装置によっても実現される。

収音機器６２は、利用者が発声した入力音声ＶINの波形を示す音声信号ＳINを生成する。入力装置６４は、利用者が操作する複数の操作子を含む。利用者は、入力装置６４を適宜に操作することで、例えば自身の識別情報Ｉdや音声処理装置１００に対する各種の指示を入力する。出力装置６６は、登録部１０や照合部３０による制御のもとに各種の情報を出力する。例えば登録部１０や照合部３０が指示した画像を表示する表示機器、または登録部１０や照合部３０が指示した音声を出力する放音装置（スピーカやヘッドホン）が出力装置６６として好適に採用される。

＜Ａ−１：登録部１０の構成および動作＞
図１に示すように、登録部１０は、区間検出部１１と判定部１２と特徴抽出部１３と管理部１４と報知部１５とを含む。区間検出部１１は、音声信号ＳINのうち実際に利用者が発声した区間（以下「発話区間」という）を検出する。例えば、区間検出部１１は、音声信号ＳINの振幅（音量）が閾値を上回る区間を発話区間として検出する。

判定部１２は、発話区間内の入力音声ＶINが登録情報Ｒの作成のための音声として適切か否かを音声信号ＳINに基づいて判定する手段である。換言すると、利用者の音声の本来の特徴が充分に反映された特徴量ＣAを抽出し得る音声に入力音声ＶINが該当するか否かを、判定部１２は音声信号ＳINに基づいて判定する。

入力音声ＶINの音量が小さ過ぎると、特徴量ＣAが利用者の音声の特徴から乖離する場合や特徴量ＣAを抽出できない場合がある。また、入力音声ＶINの音量が大き過ぎると、例えば音割れの発生に起因して、特徴量ＣAが利用者の音声の本来の特徴から乖離する場合がある。そこで、本形態の判定部１２は、入力音声ＶINの音量に基づいて入力音声ＶINの適否を判定する。さらに詳述すると、判定部１２は、音量が所定の範囲内にある場合には入力音声ＶINを適切と判定し、音量が所定の範囲外にある場合には入力音声ＶINを不適切と判定する。

特徴抽出部１３は、判定部１２が入力音声ＶINを適切と判定した場合に入力音声ＶINの特徴量ＣAを抽出する手段である。判定部１２が入力音声ＶINを不適切と判定した場合、特徴抽出部１３は特徴量ＣAの抽出を実行しない。本形態の特徴量ＣAはケプストラムであるから、ＦＦＴ（Fast Fourier Transform）処理などの周波数分析を含む各種の演算を実行する手段が特徴抽出部１３として好適に採用される。管理部１４は、特徴抽出部１３が抽出した特徴量ＣAと入力装置６４から入力された識別情報Ｉdとに基づいて登録情報Ｒを作成して記憶装置５０に格納する手段である。したがって、判定部１２が適切と判定した入力音声ＶINの特徴量ＣAのみが登録情報Ｒに反映され、判定部１２が不適切と判定した入力音声ＶINは登録情報Ｒに影響しない。

報知部１５は、判定部１２が入力音声ＶINを不適切と判定した場合にその旨を出力装置６６から利用者に報知する手段である。すなわち、報知部１５は、入力音声ＶINが不適切であることを意味するメッセージが音声や画像として出力装置６６から利用者に報知されるように、出力装置６６に対して音声信号や映像信号を出力する。

図３は、登録部１０の動作を示すフローチャートである。同図の処理は、例えば、入力装置６４に対する所定の操作（登録の開始の指示）を契機として開始される。まず、利用者は入力装置６４を操作することで自身の識別情報Ｉdを入力する（ステップＳA1）。次いで、ステップＳA2からステップＳA6までのループ処理がＮ回（Ｎは自然数）にわたって反復される。

ステップＳA2にて音声信号ＳINが収音機器６２から供給されると、区間検出部１１は、音声信号ＳINの発話区間を検出する（ステップＳA3）。次いで、判定部１２は、入力音声ＶINが登録情報Ｒの作成のために適切であるか否かを発話区間内の音声信号ＳINに基づいて判定する（ステップＳA4）。さらに詳述すると、判定部１２は、発話区間内の音声信号ＳINの音量が所定の範囲内にあるか否かを判定する。音量が所定の範囲内にある場合（すなわち入力音声ＶINが適切である場合）、特徴抽出部１３は、音声信号ＳINから特徴量ＣAを抽出する（ステップＳA5）。一方、音量が所定の範囲外にある場合（すなわち入力音声ＶINが不適切である場合）、報知部１５は、入力音声ＶINが不適切である旨のメッセージを出力装置６６に出力させる（ステップＳA6）。出力装置６６からの出力（音声や画像）を知覚することで自身の発声が不適切であることを認識すると、利用者は、次回以降の発声の音量を適宜に調整する。

ループ処理をＮ回にわたって反復すると、管理部１４は、複数回のループ処理について平均化した特徴量ＣAとステップＳA1にて入力された識別情報Ｉdとを対応付けて登録情報Ｒを作成するとともに記憶装置５０に格納する（ステップＳA7）。

以上に説明したように本形態においては、判定部１２が適切と判定した入力音声ＶINの特徴量ＣAのみが登録情報Ｒに反映される。したがって、利用者の音声の本来の特徴を忠実に反映した辞書Ｄを作成することが可能である。また、入力音声ＶINが不適切である場合には出力装置６６からの報知によって利用者に発声の改善（音量の変更）が促されるから、以後における不適切な発声の頻度が減少する。したがって、利用者の音声の本来の特徴を充分に反映した特徴量ＣAを算定する（さらには利用者の音声の本来の特徴を忠実に反映した辞書Ｄを作成する）ことが可能となる。

＜Ａ−２：照合部３０の構成および動作＞
次に、照合部３０の構成および動作を説明する。図１に示すように、照合部３０は、区間検出部３１と判定部３２と特徴抽出部３３と選択部３４と比較部３５と報知部３６とを含む。区間検出部３１は、区間検出部１１と同様に、音声信号ＳINの発話区間を検出する。

判定部３２は、話者認証の対象となる音声として発話区間内の入力音声ＶINが適切か否かを音声信号ＳINに基づいて判定する手段である。すなわち、話者認証の精度を確保するために必要な程度に音声信号ＳINが利用者の音声の本来の特徴を充分に反映しているか否かを、判定部３２は音声信号ＳINに基づいて判定する。本形態の判定部３２は、判定部１２と同様に、入力音声ＶINの音量に基づいて入力音声ＶINの適否を判定する。すなわち、判定部３２は、音量が所定の範囲内にある場合には入力音声ＶINを適切と判定し、音量が所定の範囲外にある場合には入力音声ＶINを不適切と判定する。

特徴抽出部３３は、特徴抽出部１３と同様に、判定部３２が入力音声ＶINを適切と判定した場合に入力音声ＶINの特徴量ＣBを抽出する手段である。特徴量ＣBは、特徴量ＣAと同種の数値（したがって本形態ではケプストラム）である。判定部３２が入力音声ＶINを不適切と判定した場合、特徴抽出部３３は特徴量ＣBの抽出を実行しない。

選択部３４は、記憶装置５０に格納された辞書Ｄのうち入力装置６４から入力された識別情報Ｉdを含む登録情報Ｒを選択する手段である。比較部３５は、特徴抽出部３３が抽出した特徴量ＣBと選択部３４が選択した登録情報Ｒ内の特徴量ＣAとを比較（照合）する。さらに詳述すると、比較部３５は、特徴量ＣAと特徴量ＣBとの類似度（例えば距離や尤度）を算定するとともに類似度の大小に応じて利用者の正当性を認証する。比較部３５による認証の結果は出力装置６６に出力される。

報知部３６は、報知部１５と同様に、判定部３２が入力音声ＶINを不適切と判定した場合にその旨を出力装置６６から利用者に報知する手段である。すなわち、報知部３６は、入力音声ＶINが不適切である旨のメッセージが音声や画像として出力装置６６から利用者に報知されるように、出力装置６６に対して音声信号や映像信号を出力する。

図４は、照合部３０の動作を示すフローチャートである。同図の処理は、入力装置６４に対する所定の操作（話者認証の開始の指示）を契機として開始される。まず、利用者の識別情報Ｉdが入力装置６４から入力される（ステップＳB1）。選択部３４は、ステップＳB1で入力された識別情報Ｉdを含む登録情報Ｒを辞書Ｄから検索および取得する（ステップＳB2）。

ステップＳB3にて音声信号ＳINが収音機器６２から供給されると、区間検出部３１は、音声信号ＳINの発話区間を検出する（ステップＳB4）。次いで、判定部３２は、入力音声ＶINが話者認証のために適切であるか否かを発話区間内の音声信号ＳINに基づいて判定する（ステップＳB5）。さらに詳述すると、判定部３２は、発話区間内の音声信号ＳINの音量が所定の範囲内にあるか否かを判定する。音量が所定の範囲外にある場合（すなわち入力音声ＶINが不適切である場合）、報知部３６は、入力音声ＶINが不適切である旨のメッセージを出力装置６６に出力させた（ステップＳB6）うえで話者認証を終了する。

一方、音量が所定の範囲内にある場合（すなわち入力音声ＶINが適切である場合）、特徴抽出部３３は、音声信号ＳINから特徴量ＣBを抽出する（ステップＳB7）。次いで、比較部３５は、ステップＳB2で取得された登録情報Ｒ内の特徴量ＣAとステップＳB7で抽出された特徴量ＣBとの類似度を算定し（ステップＳB8）、類似度が所定の閾値を上回るか否かに応じて利用者の正当性を判断する（ステップＳB9）。類似度が所定の閾値を上回る場合（すなわち利用者の正当性が認証される場合）、比較部３５は、認証が成功した旨のメッセージを出力装置６６に出力させる（ステップＳB10）。一方、類似度が所定の閾値を下回る場合（すなわち利用者の正当性が否定される場合）、比較部３５は、認証が失敗した旨のメッセージを出力装置６６に出力させる（ステップＳB11）。

以上に説明したように本形態においては、判定部３２が入力音声ＶINを適切と判定した場合に限って比較部３５による照合が実行されるから、入力音声ＶINの適否に拘わらず照合が実行される構成と比較して比較部３５による処理の負荷が軽減されるという利点がある。また、入力音声ＶINが不適切である場合には出力装置６６からの報知によって利用者に発声の改善が促されるから、正当な利用者が以後の認証に失敗する可能性を低減することができる。さらに、登録情報Ｒの特徴量ＣAは既に説明したように正当な利用者の音声を忠実に反映したものであるから、入力音声ＶINの適否に拘わらず特徴量ＣAが登録情報Ｒに反映される構成と比較して高精度な認証が可能となる。

＜Ｂ：第２実施形態＞
第１実施形態においては音量に基づいて入力音声ＶINの適否が判定される構成を例示したが、入力音声ＶINの適否の判定の基準は音量に限定されない。例えば、入力音声ＶINの発話区間の時間長（利用者が発声を継続する時間長）が短い場合や入力音声ＶINに含まれる雑音のレベルが高い場合には、利用者の音声の特徴を忠実に反映した特徴量（ＣA，ＣB）を抽出することが困難である。そこで、本形態においては、入力音声ＶINの音量に加えて発話区間の時間長や雑音のレベルが入力音声ＶINの適否の判定に利用される。

図５は、本形態の判定部１２が入力音声ＶINの適否を判定する処理の内容を示すフローチャートである。判定部１２は、図３のステップＳA4およびステップＳA6に代えて図５の処理を実行する。まず、判定部１２は、第１実施形態と同様に、入力音声ＶINの音量が所定の範囲内にあるか否かを判定する（ステップＳC1）。ステップＳC1の結果が否定である場合（入力音声ＶINが不適切である場合）、報知部１５は、入力音声ＶINの音量が不適切である旨のメッセージを出力装置６６に出力させる（ステップＳC2）。

ステップＳC1の結果が肯定である場合、判定部１２は、ステップＳA3にて検出された発話区間の時間長が閾値ＴＨ1を上回るか否かを判定する（ステップＳC3）。入力音声ＶINが短い場合には正確な特徴量ＣAの算定が困難となる。したがって、ステップＳC3の結果が否定である場合、報知部１５は、発声の時間長が足りない旨のメッセージを出力装置６６に出力させる（ステップＳC4）。すなわち、発話区間の時間長が短い入力音声ＶINは登録情報Ｒの作成のための音声として不適切であると判定される。閾値ＴＨ1は、適切な特徴量ＣAの算定に充分な程度に発話区間が長い場合にステップＳC3の判定が肯定されるように実験的または統計的に選定される。

ステップＳC3の結果が肯定である場合、判定部１２は、音声信号ＳINにおける雑音のレベル（例えば音声信号ＳINのＳ/Ｎ比）が閾値ＴＨ2を下回るか否かを判定する（ステップＳC5）。入力音声ＶINに含まれる雑音のレベルが高い場合には正確な特徴量ＣAの算定が困難である。したがって、ステップＳC5の結果が否定である場合、報知部１５は、雑音が多過ぎる旨のメッセージを出力装置６６に出力させる（ステップＳC6）。すなわち、雑音が多い入力音声ＶINは登録情報Ｒの作成のための音声として不適切であると判定される。閾値ＴＨ2は、適切な特徴量ＣAの算定に充分な程度に入力音声ＶINの雑音が少ない場合にステップＳC5の判定が肯定されるように実験的または統計的に選定される。

ステップＳC5の結果が肯定である場合には図３のステップＳA5に処理が移行して音声信号ＳINから特徴量ＣAが抽出される。以上に説明したように本形態においては、入力音声ＶINの音量が所定の範囲外にある場合に加えて、発話区間の時間長が短過ぎる場合および雑音のレベルが高過ぎる場合にも入力音声ＶINは登録情報Ｒに反映されない。したがって、利用者の音声の本来の特徴を第１実施形態よりも忠実に反映した登録情報Ｒを作成することが可能である。また、入力音声ＶINが不適切と判定された具体的な理由が利用者に報知されるから、第１実施形態と比較して、適切な発声を利用者が容易に把握できるという利点がある。

なお、以上においては登録部１０の動作を例示したが、照合部３０が図４のステップＳB5およびステップＳB6に代えて図５の処理を実行してもよい。すなわち、判定部３２は図５における判定（ステップＳC1，ＳC3，ＳC5）を実行し、報知部３６は図５における報知（ステップＳC2，ＳC4，ＳC6）を実行する。入力音声ＶINが不適切と判定された理由が利用者に報知されるから、正当な利用者の認証が拒絶される可能性を低減することができる。また、以上においては入力音声ＶINの音量と発話区間の時間長と雑音のレベルとを判定する構成を例示したが、発話区間の時間長のみに基づいて入力音声ＶINの適否を判定する構成や、雑音のレベルのみに基づいて入力音声ＶINの適否を判定する構成も採用される。

＜Ｃ：第３実施形態＞
以上の各形態においては、入力音声ＶINの音量や発話区間の時間長や雑音のレベルなど音声信号ＳINから特定される数値（登録情報Ｒに含められる特徴量ＣAと区別するために以下では「特性値」と表記する）と所定の閾値との比較によって入力音声ＶINの適否を判定する構成を例示した。これに対し、本形態においては、複数回にわたって発声された入力音声ＶINのうち相前後する入力音声ＶINの比較によって入力音声ＶINの適否が判定される。

本形態の登録情報Ｒは、図３のステップＳA7について説明したように、複数回にわたって平均化された特徴量ＣAを含む。一方、図３のように利用者が複数回にわたって発声する場合には、入力音声ＶINの特性が、利用者の本来の音声とは相違する特性に突発的ないし偶発的に変動する場合がある。利用者の音声の本来の特徴を忠実に反映した登録情報Ｒを生成するためには、突発的に変動した入力音声ＶINの影響を排除する必要がある。そこで、本形態の判定部１２は、各回の入力音声ＶINの特性値が前回の入力音声ＶINの特性値から大幅に変化した場合に今回の入力音声ＶINを不適切と判定する。さらに詳述すると以下の通りである。

図３のループ処理にて音声信号ＳINが入力される（ステップＳA2）たびに、登録部１０は、発話区間内の音声信号ＳINの特性値を記憶装置５０に格納する。ステップＳA4において、判定部１２は、今回の音声信号ＳINの特性値と前回に適切と判定した音声信号ＳINの特性値とを比較し、両者の相違の程度に基づいて今回の入力音声ＶINの適否を判定する。さらに詳述すると、判定部１２は、今回の音声信号ＳINの特性値と前回の音声信号ＳINの特性値との差分値を算定し、差分値が所定の閾値を下回る場合（すなわち入力音声ＶINの変動が小さい場合）には今回の入力音声ＶINを適切と判定する一方、差分値が所定の閾値を上回る場合（すなわち入力音声ＶINの変動が大きい場合）には今回の入力音声ＶINを不適切と判定する。特徴抽出部１３や報知部１５の動作は第１実施形態と同様である。

以上に説明したように本形態においては前回と比較して大幅に変動した入力音声ＶINが不適切と判定されるから、入力音声ＶINの偶発的な変動の影響を登録情報Ｒから排除することができる。したがって、利用者の音声の本来の特徴を第１実施形態よりも忠実に反映した登録情報Ｒを作成することが可能である。

＜Ｄ：第４実施形態＞
以上の各形態においては、判定部１２が入力音声ＶINを適正と判定した場合に特徴抽出部１３が特徴量ＣAを抽出する構成を例示した。これに対して本形態においては、特徴抽出部１３が抽出した特徴量ＣAに基づいて判定部１２が入力音声ＶINの適否を判定する。

図６は、音声処理装置１００の構成を示すブロック図である。同図に示すように、登録部１０の特徴抽出部１３は、区間検出部１１と判定部１２との間に介挿される。また、照合部３０の特徴抽出部３３は、区間検出部３１と比較部３５との間に介挿される。特徴抽出部１３および３３の各々は、帯域間相関行列を特徴量（ＣA，ＣB）として抽出する。帯域間相関行列は、音声を複数の帯域に分割したときの各成分のエンベロープの相関値を要素とする行列である。

特徴抽出部１３および３３の各々は、図７に示す帯域間相関行列生成部７０を含む。帯域間相関行列生成部７０は、周波数分析部７２と帯域別エンベロープ生成部７４と相関値算出部７６とで構成される。周波数分析部７２は、所定の時間長のフレームを単位として発話区間内の音声信号ＳINにＦＦＴ処理を実行することで各フレームの振幅スペクトルＳＰを算定する。

帯域別エンベロープ生成部７４は、周波数軸上にて間隔をあけて配列する複数の帯域の各々に属する成分を振幅スペクトルＳＰから抽出し、各帯域についてエンベロープを特定する。さらに詳述すると、第１に、帯域別エンベロープ生成部７４は、図８に示すように周波数軸上で間隔をあけて配列する第１帯域ないし第Ｍ帯域（Ｍは２以上の自然数）の各々に属する成分を各フレームの振幅スペクトルＳＰから抽出してデシベル値の形式に変換する。第２に、帯域別エンベロープ生成部７４は、第１帯域ないし第Ｍ帯域の各々について、フレームごとに得られるデシベル値形式の振幅スペクトルＳＰの推移を特定して、第１帯域ないし第Ｍ帯域の各々に属する音声の成分のエンベロープＥi（ｉ＝１〜Ｍ）を出力する。なお、帯域別のエンベロープＥiは、各々の通過帯域が相違する複数のバンドパスフィルタで構成されるフィルタバンクに音声信号ＳINを入力し、フィルタバンクを通過した各帯域の信号に半波整流および平滑化等の処理を実施することで特定してもよい。

相関値算出部７６は、第ｊ帯域（ｊ＝１〜Ｍ）のエンベロープＥjと第ｋ帯域（ｋ＝１〜Ｍ）のエンベロープＥkとの総ての組合せについて両者の相関値ａjkを算定する。相関値ａjkを要素とするＭ行Ｍ列の行列が帯域間相関行列である。特徴抽出部１３は、図３のループ処理にて音声信号ＳINが入力される（ステップＳA2）たびに帯域間相関行列を特徴量ＣAとして順次に算定して記憶装置５０に格納する。また、特徴抽出部３３は帯域間相関行列を特徴量ＣBとして算定する。

判定部１２は、第３実施形態と同様に、図３のループ処理のたびに、今回の音声信号ＳINの特徴量ＣAと前回に適切と判定した入力音声ＶINの特徴量ＣAとを比較し、両者の相違の程度に基づいて今回の入力音声ＶINの適否を判定する。さらに詳述すると、判定部１２は、今回の特徴量ＣAと前回に適切と判定された入力音声ＶINの特徴量ＣAとの類似度を算定し、類似度が所定の閾値を上回る場合（すなわち入力音声ＶINの変動が小さい場合）には今回の入力音声ＶINを適切と判定する一方、類似度が所定の閾値を下回る場合（すなわち入力音声ＶINの変動が大きい場合）には今回の入力音声ＶINを不適切と判定する。今回の特徴量ＣA（帯域間相関行列Ａ）と過去の特徴量ＣA（帯域間相関行列Ｂ）との類似度Ｄは例えば以下の式(1)によって算定される。
Ｄ＝√｛trace(ＡＢ^-1)・trace(ＢＡ^-1)｝ ……(1)
ただし、式(1)の演算子「trace()」は、括弧内の正方行列の対角線要素の和を意味する。

図６の管理部１４は、判定部１２によって適切と判定された複数の入力音声ＶINについて平均化した特徴量ＣAを識別情報Ｉdとともに登録情報Ｒとして記憶装置５０に格納する。判定部１２によって不適切と判定された入力音声ＶINは登録情報Ｒに反映されない。また、判定部１２が入力音声ＶINを不適切と判定した場合にその旨のメッセージが出力装置６６から出力される構成は第１実施形態と同様である。

一方、比較部３５は、特徴抽出部３３が算定した特徴量ＣBと識別情報Ｉdに対応した登録情報Ｒ内の特徴量ＣAとを比較する。すなわち、比較部３５は、特徴量ＣA（帯域間相関行列Ａ）と特徴量ＣB（帯域間相関行列Ｂ）との類似度Ｄを式(1)によって算定し、類似度Ｄが所定の閾値を上回る場合には利用者の正当性を認証する一方、類似度Ｄが所定の閾値を下回る場合には利用者を詐称者と判定する。

以上に説明したように、本形態においては前回との相関が低い入力音声ＶINが不適切と判定されるから、入力音声ＶINの偶発的ないし突発的な変動の影響を登録情報Ｒから排除することができる。したがって、第３実施形態と同様に、利用者の音声の本来の特徴を忠実に反映した登録情報Ｒを作成することが可能である。

ところで、２００２年３月の電子情報通信学会における発表論文「包絡線の帯域間相関行列を用いた話者識別」（風間道子、東山三樹夫、山崎芳男）には、周波数軸上にて隙間なく隣接する各帯域のエンベロープの相関値を要素とした帯域間相関行列が開示されている。しかし、周波数軸上で隣接する各帯域のエンベロープの相関値は高くなるのが通常である。したがって、以上の論文に開示された帯域間相関行列には個人差が現れ難く、音声の類似度を評価する精度を向上させるには限界がある。

これに対し、本形態の帯域間相関行列は、図８に例示したように周波数軸上にて間隔をあけた各帯域のエンベロープの相関値を要素とした行列である。すなわち、個人差の現れ難い要素が排除される。したがって、特徴量ＣAや特徴量ＣBにおける個人差が顕著となり、これによって認証の精度が向上するという利点がある。もっとも、周波数軸上で隙間なく隣接する各帯域のエンベロープの相関値を要素とする帯域間相関行列が特徴量（ＣA，ＣB）として算定される構成も採用され得る。

なお、以上においては周波数軸上で間隔をあけた各帯域の成分が振幅スペクトルＳＰから抽出される構成を例示したが、帯域間相関行列を以下の手順で生成してもよい。第１に、周波数軸上で隙間なく配列する複数の帯域（例えば第１帯域から第２Ｍ帯域）の各々のエンベロープから帯域間相関行列（２Ｍ行×２Ｍ列）が生成される。第２に、所定の行間隔および所定の列間隔で帯域間相関行列から抽出した要素で構成される小行列（帯域間相関行列）が特徴量（ＣA，ＣB）として生成される。以上の態様によっても第４実施形態と同様の効果が奏される。

＜Ｅ：第５実施形態＞
次に、音声信号ＳINに基づいて発声者を識別する話者識別のために音声処理装置１００を利用した第５実施形態を説明する。図９は、音声処理装置１００の構成を示すブロック図である。本形態の音声処理装置１００は第１実施形態と同様の登録部１０と記憶装置５０とを具備する。また、本形態の照合部３０は図１の選択部３４を含まない。

照合部３０における各部の動作は、比較部３５を除いて第１実施形態と同様である。比較部３５は、特徴抽出部３３が抽出した特徴量ＣBを辞書Ｄの各登録情報Ｒの特徴量ＣAと比較し、特徴量ＣBに最も類似する（すなわち類似度が最大となる）特徴量ＣAを探索する。そして、比較部３５は、ここで探索した特徴量ＣAに対応する識別情報Ｉdを記憶装置５０から取得して出力装置６６に出力する。すなわち、事前に登録情報Ｒを作成した複数の利用者のなかから実際に入力音声ＶINを発声した利用者が識別される。

本形態においては、第１実施形態について説明したように判定部１２が適切と判定した入力音声ＶINの特徴量ＣAのみが登録情報Ｒに反映されるから、利用者の音声の本来の特徴を忠実に反映した辞書Ｄが作成される。したがって、入力音声ＶINの適否に拘わらず入力音声ＶINが登録情報Ｒに反映される構成と比較して高い精度で利用者を識別することが可能となる。なお、図９においては第１実施形態を基礎とした構成を例示したが、第２実施形態から第４実施形態の構成に本形態を適用して話者識別に利用することも当然に可能である。

＜Ｆ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）変形例１
入力音声ＶINの適否の基準（特性値や特徴量ＣA，ＣB）は以上の例示に限定されない。例えば、第４実施形態において、周波数軸上に画定された複数の帯域の各々におけるエンベロープの強度は当該帯域内で変動するのが通常であるが、計算上の桁落ちなどに起因して何れかの帯域のエンベロープの強度が一定となる場合がある。以上の性質を考慮して、図６の特徴抽出部１３が入力音声ＶINから帯域間相関行列を算定する過程において、少なくともひとつの帯域内のエンベロープの強度が一定値である場合に当該入力音声ＶINを不適切と判定する構成としてもよい。

（２）変形例２
以上の各形態においては登録情報Ｒを作成する場合を例示したが、既に作成された登録情報Ｒを更新する場合にも以上の各形態を適用することが可能である。すなわち、管理部１４は、入力装置６４から入力された識別情報Ｉdを含む登録情報Ｒを辞書Ｄから検索し、特徴抽出部１３が新たに抽出した特徴量ＣAに基づいて当該登録情報Ｒ内の特徴量ＣAを更新する。

（３）変形例３
特徴量（ＣA，ＣB）の内容は適宜に変更される。例えば、第１実施形態から第３実施形態における特徴量（ＣA，ＣB）を第４実施形態における帯域間相関行列としてもよい。また、登録情報Ｒが複数の特徴量ＣAを含む構成も採用される。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。辞書の構成を示す概念図である。登録部の動作を示すフローチャートである。照合部の動作を示すフローチャートである。第２実施形態における登録部の動作を示すフローチャートである。第４実施形態における音声処理装置の構成を示すブロック図である。帯域間相関行列生成部の構成を示すブロック図である。エンベロープが抽出されるＭ個の帯域を示す概念図である。第５実施形態における音声処理装置の構成を示すブロック図である。

符号の説明

１００……音声処理装置、１０……登録部、１１……区間検出部、１２……判定部、１３……特徴抽出部、１４……管理部、１５……報知部、３０……照合部、３１……区間検出部、３２……判定部、３３……特徴抽出部、３４……選択部、３５……比較部、３６……報知部、５０……記憶装置、６２……収音機器、６４……入力装置、６６……出力装置、７０……帯域間相関行列生成部、７２……周波数分析部、７４……帯域別エンベロープ生成部、７６……相関値算出部。

Claims

音声の特徴量を含む登録情報を記憶する記憶手段と、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、
前記複数の入力音声のうち前記判定手段が適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理手段と、
前記判定手段が不適切と判定した場合に発声者に報知する報知手段と
を具備する音声処理装置。
音声の特徴量を含む登録情報を記憶する記憶手段と、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、
前記判定手段が適切と判定した場合に前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する照合手段と、
前記判定手段が不適切と判定した場合に発声者に報知する報知手段と
を具備する音声処理装置。
前記判定手段は、前記入力音声の音量と前記入力音声の時間長と前記入力音声に含まれる雑音のレベルとの少なくともひとつに基づいて前記入力音声の適否を判定する
請求項１または請求項２に記載の音声処理装置。
周波数軸上の複数の帯域の各々の成分のエンベロープの相関値を要素とする帯域間相関行列を前記入力音声の特徴量として抽出する特徴量抽出手段
を具備する請求項１から請求項３の何れかに記載の音声処理装置。
音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、
前記複数の入力音声のうち前記判定処理で適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理処理と、
前記判定処理で不適切と判定した場合に発声者に報知する報知処理と
を実行させるプログラム。
音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、
前記判定処理で適切と判定した場合に前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する照合処理と、
前記判定処理で不適切と判定した場合に発声者に報知する報知処理と
を実行させるプログラム。