JP4305509B2 - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP4305509B2
JP4305509B2 JP2006349210A JP2006349210A JP4305509B2 JP 4305509 B2 JP4305509 B2 JP 4305509B2 JP 2006349210 A JP2006349210 A JP 2006349210A JP 2006349210 A JP2006349210 A JP 2006349210A JP 4305509 B2 JP4305509 B2 JP 4305509B2
Authority
JP
Japan
Prior art keywords
input
voice
appropriate
input voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006349210A
Other languages
English (en)
Other versions
JP2008158396A (ja
Inventor
毅彦 川▲原▼
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006349210A priority Critical patent/JP4305509B2/ja
Priority to US11/961,580 priority patent/US8117031B2/en
Priority to EP07024990A priority patent/EP1939861B1/en
Priority to AT07024990T priority patent/ATE554477T1/de
Publication of JP2008158396A publication Critical patent/JP2008158396A/ja
Application granted granted Critical
Publication of JP4305509B2 publication Critical patent/JP4305509B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Alarm Systems (AREA)

Description

本発明は、音声の特徴量を含む登録情報(辞書)を作成または更新する技術および登録情報内の特徴量と利用者が入力した音声(以下「入力音声」という)の特徴量とを照合する技術に関する。
発声者の正当性を認証する技術(話者認証)や複数の登録者のなかから発声者を特定する技術(話者識別)が従来から提案されている。話者認証や話者識別においては登録と照合とが実行される。登録の段階では入力音声から抽出された特徴量に基づいて登録情報が作成され、照合の段階では入力音声の特徴量と登録情報の特徴量とが照合される(例えば非特許文献1や非特許文献2)。
松井知子,「HMMによる話者認識」,電子情報通信学会技術研究報告,電子情報通信学会,1996年1月,SP95−111 p.17−24 早川昭二 外2名,「線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識」,電子情報通信学会論文誌,電子情報通信学会,1997年9月,A Vol.J80−1 No.9 p.1360−1367
しかし、登録時の入力音声が登録情報の作成や更新に適さない場合もある。例えば入力音声の音量が極端に小さい場合には特徴量の適正な抽出が困難となるから、実際に作成される登録情報は発声者の本来の特徴から乖離した内容となり得る。したがって、登録情報を利用した照合の精度が低下するという問題がある。同様に、照合時の入力音声が不適切であれば、発声者の本来の特徴を充分に反映した登録情報を利用した場合であっても照合の精度は低下する。以上の事情に鑑みて、本発明は、発声者の本来の特徴を登録情報に有効に反映させるという課題の解決をひとつの目的とする。また、本発明は、発声者による入力音声を高精度に照合するという課題の解決を別の目的とする。
以上の課題を解決するために、本発明の第1の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、複数の入力音声のうち判定手段が適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理手段と、判定手段が不適切と判定した場合に発声者に報知する報知手段とを具備する。以上の態様においては、判定手段が適切と判定した入力音声の特徴量が登録情報に反映されるから、入力音声の適否に拘わらず入力音声が登録情報の作成や更新に使用される構成と比較して、利用者の音声の本来の特徴を忠実に反映した登録情報(辞書)を作成することが可能である。
また、本発明の第2の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、判定手段が適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する照合手段と、判定手段が不適切と判定した場合に発声者に報知する報知手段とを具備する。以上の態様においては、判定手段が適切と判定した入力音声について照合手段による照合が実行されるから、入力音声の適否に拘わらず入力音声が照合に利用される構成と比較して照合の精度を向上することが可能である。
以上の各態様に係る音声処理装置において、入力音声の適否を判定する基準は任意である。例えば、判定手段は、入力音声の音量と入力音声の時間長と入力音声に含まれる雑音のレベルとの少なくともひとつに基づいて入力音声の適否を判定する
本発明の好適な態様において、報知手段は、判定手段が前記入力音声を不適切と判定した理由を発声者に報知する。本態様によれば、適切な発声を利用者が容易に把握できるという利点がある。もっとも、入力音声が不適切と判定されたという事実のみが利用者に報知される構成も採用される。
本発明の好適な態様に係る音声処理装置は、判定手段が適切と判定した場合に入力音声の特徴量を抽出する特徴抽出手段を具備する。本態様によれば、入力音声が適切と判定された場合に特徴抽出手段が特徴量を抽出すれば足りるから、入力音声の適否に拘わらず特徴量が抽出される構成と比較して特徴抽出手段による処理の負荷が軽減される。なお、本態様の具体例は第1実施形態から第3実施形態として後述される。
本発明の好適な態様に係る音声処理装置は、入力音声の特徴量を抽出する特徴抽出手段を具備し、判定手段は、特徴抽出手段が抽出した特徴量に基づいて入力音声の適否を判定する。本態様によれば、登録情報を作成または更新するための特徴量が入力音声の適否の判定にも使用されるから、入力音声の適否を判定する処理の負荷が軽減される。なお、本態様の具体例は第4実施形態として後述される。
特徴抽出手段は、例えば、周波数軸上に配列する複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を特徴量として入力音声から生成する。複数の帯域の各々は周波数軸上において間隔をあけて配列することが望ましい。
以上の各態様に係る音声処理装置は、登録情報を作成または更新する方法や特徴量を照合する方法としても特定される。本発明の第1の態様に係る音声処理方法は、複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定し、複数の入力音声のうち判定手段が適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新し、不適切と判定した場合に発声者に報知する。また、本発明の第2の態様に係る音声処理方法は、複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定し、適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合し、不適切と判定した場合に発声者に報知する。以上の各態様に係る方法によっても、本発明に係る音声処理装置と同様の作用および効果が奏される。
本発明に係る音声処理装置は、各処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。第1の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、複数の入力音声のうち判定処理で適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理処理と、判定処理で不適切と判定した場合に発声者に報知する報知処理とを実行させる。また、第2の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、判定処理で適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する照合処理と、判定処理で不適切と判定した場合に発声者に報知する報知処理とを実行させる。以上の各態様に係るプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、CD−ROMなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。本形態の音声処理装置100は、利用者が発声した音声の特徴量に基づいて当該利用者の正当性(予め登録された正規の利用者であるか否か)を判定する話者認証のための装置である。図1に示すように、音声処理装置100は、登録部10と照合部30と記憶装置50とを具備する。登録部10および照合部30の各々には収音機器62と入力装置64と出力装置66とが接続される。
記憶装置50は、話者認証に使用される辞書Dを格納する。図2は、辞書Dの構成を示す概念図である。図2に示すように、辞書Dは、各々が別個の利用者に対応する複数の登録情報Rを含む。ひとつの登録情報Rは、各利用者に固有の識別情報Id(Id_1,Id_2,……)と利用者の音声の特徴を示す特徴量CA(CA_1,CA_2,……)とを含む。特徴量CAは、利用者に固有の数値である。本形態における特徴量CAは、利用者が発声した音声のケプストラムの時系列的なベクトル列である。
図1の登録部10は、登録情報Rを作成して記憶装置50に格納する手段である。照合部30は、登録情報Rを利用して話者認証を実行する手段である。登録部10と照合部30とは、演算処理装置(CPU)がプログラムを実行することで実現される。なお、図1では登録部10と照合部30とを個別に図示したが、登録部10と照合部30とはひとつの演算処理装置によっても実現される。
収音機器62は、利用者が発声した入力音声VINの波形を示す音声信号SINを生成する。入力装置64は、利用者が操作する複数の操作子を含む。利用者は、入力装置64を適宜に操作することで、例えば自身の識別情報Idや音声処理装置100に対する各種の指示を入力する。出力装置66は、登録部10や照合部30による制御のもとに各種の情報を出力する。例えば登録部10や照合部30が指示した画像を表示する表示機器、または登録部10や照合部30が指示した音声を出力する放音装置(スピーカやヘッドホン)が出力装置66として好適に採用される。
<A−1:登録部10の構成および動作>
図1に示すように、登録部10は、区間検出部11と判定部12と特徴抽出部13と管理部14と報知部15とを含む。区間検出部11は、音声信号SINのうち実際に利用者が発声した区間(以下「発話区間」という)を検出する。例えば、区間検出部11は、音声信号SINの振幅(音量)が閾値を上回る区間を発話区間として検出する。
判定部12は、発話区間内の入力音声VINが登録情報Rの作成のための音声として適切か否かを音声信号SINに基づいて判定する手段である。換言すると、利用者の音声の本来の特徴が充分に反映された特徴量CAを抽出し得る音声に入力音声VINが該当するか否かを、判定部12は音声信号SINに基づいて判定する。
入力音声VINの音量が小さ過ぎると、特徴量CAが利用者の音声の特徴から乖離する場合や特徴量CAを抽出できない場合がある。また、入力音声VINの音量が大き過ぎると、例えば音割れの発生に起因して、特徴量CAが利用者の音声の本来の特徴から乖離する場合がある。そこで、本形態の判定部12は、入力音声VINの音量に基づいて入力音声VINの適否を判定する。さらに詳述すると、判定部12は、音量が所定の範囲内にある場合には入力音声VINを適切と判定し、音量が所定の範囲外にある場合には入力音声VINを不適切と判定する。
特徴抽出部13は、判定部12が入力音声VINを適切と判定した場合に入力音声VINの特徴量CAを抽出する手段である。判定部12が入力音声VINを不適切と判定した場合、特徴抽出部13は特徴量CAの抽出を実行しない。本形態の特徴量CAはケプストラムであるから、FFT(Fast Fourier Transform)処理などの周波数分析を含む各種の演算を実行する手段が特徴抽出部13として好適に採用される。管理部14は、特徴抽出部13が抽出した特徴量CAと入力装置64から入力された識別情報Idとに基づいて登録情報Rを作成して記憶装置50に格納する手段である。したがって、判定部12が適切と判定した入力音声VINの特徴量CAのみが登録情報Rに反映され、判定部12が不適切と判定した入力音声VINは登録情報Rに影響しない。
報知部15は、判定部12が入力音声VINを不適切と判定した場合にその旨を出力装置66から利用者に報知する手段である。すなわち、報知部15は、入力音声VINが不適切であることを意味するメッセージが音声や画像として出力装置66から利用者に報知されるように、出力装置66に対して音声信号や映像信号を出力する。
図3は、登録部10の動作を示すフローチャートである。同図の処理は、例えば、入力装置64に対する所定の操作(登録の開始の指示)を契機として開始される。まず、利用者は入力装置64を操作することで自身の識別情報Idを入力する(ステップSA1)。次いで、ステップSA2からステップSA6までのループ処理がN回(Nは自然数)にわたって反復される。
ステップSA2にて音声信号SINが収音機器62から供給されると、区間検出部11は、音声信号SINの発話区間を検出する(ステップSA3)。次いで、判定部12は、入力音声VINが登録情報Rの作成のために適切であるか否かを発話区間内の音声信号SINに基づいて判定する(ステップSA4)。さらに詳述すると、判定部12は、発話区間内の音声信号SINの音量が所定の範囲内にあるか否かを判定する。音量が所定の範囲内にある場合(すなわち入力音声VINが適切である場合)、特徴抽出部13は、音声信号SINから特徴量CAを抽出する(ステップSA5)。一方、音量が所定の範囲外にある場合(すなわち入力音声VINが不適切である場合)、報知部15は、入力音声VINが不適切である旨のメッセージを出力装置66に出力させる(ステップSA6)。出力装置66からの出力(音声や画像)を知覚することで自身の発声が不適切であることを認識すると、利用者は、次回以降の発声の音量を適宜に調整する。
ループ処理をN回にわたって反復すると、管理部14は、複数回のループ処理について平均化した特徴量CAとステップSA1にて入力された識別情報Idとを対応付けて登録情報Rを作成するとともに記憶装置50に格納する(ステップSA7)。
以上に説明したように本形態においては、判定部12が適切と判定した入力音声VINの特徴量CAのみが登録情報Rに反映される。したがって、利用者の音声の本来の特徴を忠実に反映した辞書Dを作成することが可能である。また、入力音声VINが不適切である場合には出力装置66からの報知によって利用者に発声の改善(音量の変更)が促されるから、以後における不適切な発声の頻度が減少する。したがって、利用者の音声の本来の特徴を充分に反映した特徴量CAを算定する(さらには利用者の音声の本来の特徴を忠実に反映した辞書Dを作成する)ことが可能となる。
<A−2:照合部30の構成および動作>
次に、照合部30の構成および動作を説明する。図1に示すように、照合部30は、区間検出部31と判定部32と特徴抽出部33と選択部34と比較部35と報知部36とを含む。区間検出部31は、区間検出部11と同様に、音声信号SINの発話区間を検出する。
判定部32は、話者認証の対象となる音声として発話区間内の入力音声VINが適切か否かを音声信号SINに基づいて判定する手段である。すなわち、話者認証の精度を確保するために必要な程度に音声信号SINが利用者の音声の本来の特徴を充分に反映しているか否かを、判定部32は音声信号SINに基づいて判定する。本形態の判定部32は、判定部12と同様に、入力音声VINの音量に基づいて入力音声VINの適否を判定する。すなわち、判定部32は、音量が所定の範囲内にある場合には入力音声VINを適切と判定し、音量が所定の範囲外にある場合には入力音声VINを不適切と判定する。
特徴抽出部33は、特徴抽出部13と同様に、判定部32が入力音声VINを適切と判定した場合に入力音声VINの特徴量CBを抽出する手段である。特徴量CBは、特徴量CAと同種の数値(したがって本形態ではケプストラム)である。判定部32が入力音声VINを不適切と判定した場合、特徴抽出部33は特徴量CBの抽出を実行しない。
選択部34は、記憶装置50に格納された辞書Dのうち入力装置64から入力された識別情報Idを含む登録情報Rを選択する手段である。比較部35は、特徴抽出部33が抽出した特徴量CBと選択部34が選択した登録情報R内の特徴量CAとを比較(照合)する。さらに詳述すると、比較部35は、特徴量CAと特徴量CBとの類似度(例えば距離や尤度)を算定するとともに類似度の大小に応じて利用者の正当性を認証する。比較部35による認証の結果は出力装置66に出力される。
報知部36は、報知部15と同様に、判定部32が入力音声VINを不適切と判定した場合にその旨を出力装置66から利用者に報知する手段である。すなわち、報知部36は、入力音声VINが不適切である旨のメッセージが音声や画像として出力装置66から利用者に報知されるように、出力装置66に対して音声信号や映像信号を出力する。
図4は、照合部30の動作を示すフローチャートである。同図の処理は、入力装置64に対する所定の操作(話者認証の開始の指示)を契機として開始される。まず、利用者の識別情報Idが入力装置64から入力される(ステップSB1)。選択部34は、ステップSB1で入力された識別情報Idを含む登録情報Rを辞書Dから検索および取得する(ステップSB2)。
ステップSB3にて音声信号SINが収音機器62から供給されると、区間検出部31は、音声信号SINの発話区間を検出する(ステップSB4)。次いで、判定部32は、入力音声VINが話者認証のために適切であるか否かを発話区間内の音声信号SINに基づいて判定する(ステップSB5)。さらに詳述すると、判定部32は、発話区間内の音声信号SINの音量が所定の範囲内にあるか否かを判定する。音量が所定の範囲外にある場合(すなわち入力音声VINが不適切である場合)、報知部36は、入力音声VINが不適切である旨のメッセージを出力装置66に出力させた(ステップSB6)うえで話者認証を終了する。
一方、音量が所定の範囲内にある場合(すなわち入力音声VINが適切である場合)、特徴抽出部33は、音声信号SINから特徴量CBを抽出する(ステップSB7)。次いで、比較部35は、ステップSB2で取得された登録情報R内の特徴量CAとステップSB7で抽出された特徴量CBとの類似度を算定し(ステップSB8)、類似度が所定の閾値を上回るか否かに応じて利用者の正当性を判断する(ステップSB9)。類似度が所定の閾値を上回る場合(すなわち利用者の正当性が認証される場合)、比較部35は、認証が成功した旨のメッセージを出力装置66に出力させる(ステップSB10)。一方、類似度が所定の閾値を下回る場合(すなわち利用者の正当性が否定される場合)、比較部35は、認証が失敗した旨のメッセージを出力装置66に出力させる(ステップSB11)。
以上に説明したように本形態においては、判定部32が入力音声VINを適切と判定した場合に限って比較部35による照合が実行されるから、入力音声VINの適否に拘わらず照合が実行される構成と比較して比較部35による処理の負荷が軽減されるという利点がある。また、入力音声VINが不適切である場合には出力装置66からの報知によって利用者に発声の改善が促されるから、正当な利用者が以後の認証に失敗する可能性を低減することができる。さらに、登録情報Rの特徴量CAは既に説明したように正当な利用者の音声を忠実に反映したものであるから、入力音声VINの適否に拘わらず特徴量CAが登録情報Rに反映される構成と比較して高精度な認証が可能となる。
<B:第2実施形態>
第1実施形態においては音量に基づいて入力音声VINの適否が判定される構成を例示したが、入力音声VINの適否の判定の基準は音量に限定されない。例えば、入力音声VINの発話区間の時間長(利用者が発声を継続する時間長)が短い場合や入力音声VINに含まれる雑音のレベルが高い場合には、利用者の音声の特徴を忠実に反映した特徴量(CA,CB)を抽出することが困難である。そこで、本形態においては、入力音声VINの音量に加えて発話区間の時間長や雑音のレベルが入力音声VINの適否の判定に利用される。
図5は、本形態の判定部12が入力音声VINの適否を判定する処理の内容を示すフローチャートである。判定部12は、図3のステップSA4およびステップSA6に代えて図5の処理を実行する。まず、判定部12は、第1実施形態と同様に、入力音声VINの音量が所定の範囲内にあるか否かを判定する(ステップSC1)。ステップSC1の結果が否定である場合(入力音声VINが不適切である場合)、報知部15は、入力音声VINの音量が不適切である旨のメッセージを出力装置66に出力させる(ステップSC2)。
ステップSC1の結果が肯定である場合、判定部12は、ステップSA3にて検出された発話区間の時間長が閾値TH1を上回るか否かを判定する(ステップSC3)。入力音声VINが短い場合には正確な特徴量CAの算定が困難となる。したがって、ステップSC3の結果が否定である場合、報知部15は、発声の時間長が足りない旨のメッセージを出力装置66に出力させる(ステップSC4)。すなわち、発話区間の時間長が短い入力音声VINは登録情報Rの作成のための音声として不適切であると判定される。閾値TH1は、適切な特徴量CAの算定に充分な程度に発話区間が長い場合にステップSC3の判定が肯定されるように実験的または統計的に選定される。
ステップSC3の結果が肯定である場合、判定部12は、音声信号SINにおける雑音のレベル(例えば音声信号SINのS/N比)が閾値TH2を下回るか否かを判定する(ステップSC5)。入力音声VINに含まれる雑音のレベルが高い場合には正確な特徴量CAの算定が困難である。したがって、ステップSC5の結果が否定である場合、報知部15は、雑音が多過ぎる旨のメッセージを出力装置66に出力させる(ステップSC6)。すなわち、雑音が多い入力音声VINは登録情報Rの作成のための音声として不適切であると判定される。閾値TH2は、適切な特徴量CAの算定に充分な程度に入力音声VINの雑音が少ない場合にステップSC5の判定が肯定されるように実験的または統計的に選定される。
ステップSC5の結果が肯定である場合には図3のステップSA5に処理が移行して音声信号SINから特徴量CAが抽出される。以上に説明したように本形態においては、入力音声VINの音量が所定の範囲外にある場合に加えて、発話区間の時間長が短過ぎる場合および雑音のレベルが高過ぎる場合にも入力音声VINは登録情報Rに反映されない。したがって、利用者の音声の本来の特徴を第1実施形態よりも忠実に反映した登録情報Rを作成することが可能である。また、入力音声VINが不適切と判定された具体的な理由が利用者に報知されるから、第1実施形態と比較して、適切な発声を利用者が容易に把握できるという利点がある。
なお、以上においては登録部10の動作を例示したが、照合部30が図4のステップSB5およびステップSB6に代えて図5の処理を実行してもよい。すなわち、判定部32は図5における判定(ステップSC1,SC3,SC5)を実行し、報知部36は図5における報知(ステップSC2,SC4,SC6)を実行する。入力音声VINが不適切と判定された理由が利用者に報知されるから、正当な利用者の認証が拒絶される可能性を低減することができる。また、以上においては入力音声VINの音量と発話区間の時間長と雑音のレベルとを判定する構成を例示したが、発話区間の時間長のみに基づいて入力音声VINの適否を判定する構成や、雑音のレベルのみに基づいて入力音声VINの適否を判定する構成も採用される。
<C:第3実施形態>
以上の各形態においては、入力音声VINの音量や発話区間の時間長や雑音のレベルなど音声信号SINから特定される数値(登録情報Rに含められる特徴量CAと区別するために以下では「特性値」と表記する)と所定の閾値との比較によって入力音声VINの適否を判定する構成を例示した。これに対し、本形態においては、複数回にわたって発声された入力音声VINのうち相前後する入力音声VINの比較によって入力音声VINの適否が判定される。
本形態の登録情報Rは、図3のステップSA7について説明したように、複数回にわたって平均化された特徴量CAを含む。一方、図3のように利用者が複数回にわたって発声する場合には、入力音声VINの特性が、利用者の本来の音声とは相違する特性に突発的ないし偶発的に変動する場合がある。利用者の音声の本来の特徴を忠実に反映した登録情報Rを生成するためには、突発的に変動した入力音声VINの影響を排除する必要がある。そこで、本形態の判定部12は、各回の入力音声VINの特性値が前回の入力音声VINの特性値から大幅に変化した場合に今回の入力音声VINを不適切と判定する。さらに詳述すると以下の通りである。
図3のループ処理にて音声信号SINが入力される(ステップSA2)たびに、登録部10は、発話区間内の音声信号SINの特性値を記憶装置50に格納する。ステップSA4において、判定部12は、今回の音声信号SINの特性値と前回に適切と判定した音声信号SINの特性値とを比較し、両者の相違の程度に基づいて今回の入力音声VINの適否を判定する。さらに詳述すると、判定部12は、今回の音声信号SINの特性値と前回の音声信号SINの特性値との差分値を算定し、差分値が所定の閾値を下回る場合(すなわち入力音声VINの変動が小さい場合)には今回の入力音声VINを適切と判定する一方、差分値が所定の閾値を上回る場合(すなわち入力音声VINの変動が大きい場合)には今回の入力音声VINを不適切と判定する。特徴抽出部13や報知部15の動作は第1実施形態と同様である。
以上に説明したように本形態においては前回と比較して大幅に変動した入力音声VINが不適切と判定されるから、入力音声VINの偶発的な変動の影響を登録情報Rから排除することができる。したがって、利用者の音声の本来の特徴を第1実施形態よりも忠実に反映した登録情報Rを作成することが可能である。
<D:第4実施形態>
以上の各形態においては、判定部12が入力音声VINを適正と判定した場合に特徴抽出部13が特徴量CAを抽出する構成を例示した。これに対して本形態においては、特徴抽出部13が抽出した特徴量CAに基づいて判定部12が入力音声VINの適否を判定する。
図6は、音声処理装置100の構成を示すブロック図である。同図に示すように、登録部10の特徴抽出部13は、区間検出部11と判定部12との間に介挿される。また、照合部30の特徴抽出部33は、区間検出部31と比較部35との間に介挿される。特徴抽出部13および33の各々は、帯域間相関行列を特徴量(CA,CB)として抽出する。帯域間相関行列は、音声を複数の帯域に分割したときの各成分のエンベロープの相関値を要素とする行列である。
特徴抽出部13および33の各々は、図7に示す帯域間相関行列生成部70を含む。帯域間相関行列生成部70は、周波数分析部72と帯域別エンベロープ生成部74と相関値算出部76とで構成される。周波数分析部72は、所定の時間長のフレームを単位として発話区間内の音声信号SINにFFT処理を実行することで各フレームの振幅スペクトルSPを算定する。
帯域別エンベロープ生成部74は、周波数軸上にて間隔をあけて配列する複数の帯域の各々に属する成分を振幅スペクトルSPから抽出し、各帯域についてエンベロープを特定する。さらに詳述すると、第1に、帯域別エンベロープ生成部74は、図8に示すように周波数軸上で間隔をあけて配列する第1帯域ないし第M帯域(Mは2以上の自然数)の各々に属する成分を各フレームの振幅スペクトルSPから抽出してデシベル値の形式に変換する。第2に、帯域別エンベロープ生成部74は、第1帯域ないし第M帯域の各々について、フレームごとに得られるデシベル値形式の振幅スペクトルSPの推移を特定して、第1帯域ないし第M帯域の各々に属する音声の成分のエンベロープEi(i=1〜M)を出力する。なお、帯域別のエンベロープEiは、各々の通過帯域が相違する複数のバンドパスフィルタで構成されるフィルタバンクに音声信号SINを入力し、フィルタバンクを通過した各帯域の信号に半波整流および平滑化等の処理を実施することで特定してもよい。
相関値算出部76は、第j帯域(j=1〜M)のエンベロープEjと第k帯域(k=1〜M)のエンベロープEkとの総ての組合せについて両者の相関値ajkを算定する。相関値ajkを要素とするM行M列の行列が帯域間相関行列である。特徴抽出部13は、図3のループ処理にて音声信号SINが入力される(ステップSA2)たびに帯域間相関行列を特徴量CAとして順次に算定して記憶装置50に格納する。また、特徴抽出部33は帯域間相関行列を特徴量CBとして算定する。
判定部12は、第3実施形態と同様に、図3のループ処理のたびに、今回の音声信号SINの特徴量CAと前回に適切と判定した入力音声VINの特徴量CAとを比較し、両者の相違の程度に基づいて今回の入力音声VINの適否を判定する。さらに詳述すると、判定部12は、今回の特徴量CAと前回に適切と判定された入力音声VINの特徴量CAとの類似度を算定し、類似度が所定の閾値を上回る場合(すなわち入力音声VINの変動が小さい場合)には今回の入力音声VINを適切と判定する一方、類似度が所定の閾値を下回る場合(すなわち入力音声VINの変動が大きい場合)には今回の入力音声VINを不適切と判定する。今回の特徴量CA(帯域間相関行列A)と過去の特徴量CA(帯域間相関行列B)との類似度Dは例えば以下の式(1)によって算定される。
D=√{trace(AB-1)・trace(BA-1)} ……(1)
ただし、式(1)の演算子「trace()」は、括弧内の正方行列の対角線要素の和を意味する。
図6の管理部14は、判定部12によって適切と判定された複数の入力音声VINについて平均化した特徴量CAを識別情報Idとともに登録情報Rとして記憶装置50に格納する。判定部12によって不適切と判定された入力音声VINは登録情報Rに反映されない。また、判定部12が入力音声VINを不適切と判定した場合にその旨のメッセージが出力装置66から出力される構成は第1実施形態と同様である。
一方、比較部35は、特徴抽出部33が算定した特徴量CBと識別情報Idに対応した登録情報R内の特徴量CAとを比較する。すなわち、比較部35は、特徴量CA(帯域間相関行列A)と特徴量CB(帯域間相関行列B)との類似度Dを式(1)によって算定し、類似度Dが所定の閾値を上回る場合には利用者の正当性を認証する一方、類似度Dが所定の閾値を下回る場合には利用者を詐称者と判定する。
以上に説明したように、本形態においては前回との相関が低い入力音声VINが不適切と判定されるから、入力音声VINの偶発的ないし突発的な変動の影響を登録情報Rから排除することができる。したがって、第3実施形態と同様に、利用者の音声の本来の特徴を忠実に反映した登録情報Rを作成することが可能である。
ところで、2002年3月の電子情報通信学会における発表論文「包絡線の帯域間相関行列を用いた話者識別」(風間道子、東山三樹夫、山崎芳男)には、周波数軸上にて隙間なく隣接する各帯域のエンベロープの相関値を要素とした帯域間相関行列が開示されている。しかし、周波数軸上で隣接する各帯域のエンベロープの相関値は高くなるのが通常である。したがって、以上の論文に開示された帯域間相関行列には個人差が現れ難く、音声の類似度を評価する精度を向上させるには限界がある。
これに対し、本形態の帯域間相関行列は、図8に例示したように周波数軸上にて間隔をあけた各帯域のエンベロープの相関値を要素とした行列である。すなわち、個人差の現れ難い要素が排除される。したがって、特徴量CAや特徴量CBにおける個人差が顕著となり、これによって認証の精度が向上するという利点がある。もっとも、周波数軸上で隙間なく隣接する各帯域のエンベロープの相関値を要素とする帯域間相関行列が特徴量(CA,CB)として算定される構成も採用され得る。
なお、以上においては周波数軸上で間隔をあけた各帯域の成分が振幅スペクトルSPから抽出される構成を例示したが、帯域間相関行列を以下の手順で生成してもよい。第1に、周波数軸上で隙間なく配列する複数の帯域(例えば第1帯域から第2M帯域)の各々のエンベロープから帯域間相関行列(2M行×2M列)が生成される。第2に、所定の行間隔および所定の列間隔で帯域間相関行列から抽出した要素で構成される小行列(帯域間相関行列)が特徴量(CA,CB)として生成される。以上の態様によっても第4実施形態と同様の効果が奏される。
<E:第5実施形態>
次に、音声信号SINに基づいて発声者を識別する話者識別のために音声処理装置100を利用した第5実施形態を説明する。図9は、音声処理装置100の構成を示すブロック図である。本形態の音声処理装置100は第1実施形態と同様の登録部10と記憶装置50とを具備する。また、本形態の照合部30は図1の選択部34を含まない。
照合部30における各部の動作は、比較部35を除いて第1実施形態と同様である。比較部35は、特徴抽出部33が抽出した特徴量CBを辞書Dの各登録情報Rの特徴量CAと比較し、特徴量CBに最も類似する(すなわち類似度が最大となる)特徴量CAを探索する。そして、比較部35は、ここで探索した特徴量CAに対応する識別情報Idを記憶装置50から取得して出力装置66に出力する。すなわち、事前に登録情報Rを作成した複数の利用者のなかから実際に入力音声VINを発声した利用者が識別される。
本形態においては、第1実施形態について説明したように判定部12が適切と判定した入力音声VINの特徴量CAのみが登録情報Rに反映されるから、利用者の音声の本来の特徴を忠実に反映した辞書Dが作成される。したがって、入力音声VINの適否に拘わらず入力音声VINが登録情報Rに反映される構成と比較して高い精度で利用者を識別することが可能となる。なお、図9においては第1実施形態を基礎とした構成を例示したが、第2実施形態から第4実施形態の構成に本形態を適用して話者識別に利用することも当然に可能である。
<F:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)変形例1
入力音声VINの適否の基準(特性値や特徴量CA,CB)は以上の例示に限定されない。例えば、第4実施形態において、周波数軸上に画定された複数の帯域の各々におけるエンベロープの強度は当該帯域内で変動するのが通常であるが、計算上の桁落ちなどに起因して何れかの帯域のエンベロープの強度が一定となる場合がある。以上の性質を考慮して、図6の特徴抽出部13が入力音声VINから帯域間相関行列を算定する過程において、少なくともひとつの帯域内のエンベロープの強度が一定値である場合に当該入力音声VINを不適切と判定する構成としてもよい。
(2)変形例2
以上の各形態においては登録情報Rを作成する場合を例示したが、既に作成された登録情報Rを更新する場合にも以上の各形態を適用することが可能である。すなわち、管理部14は、入力装置64から入力された識別情報Idを含む登録情報Rを辞書Dから検索し、特徴抽出部13が新たに抽出した特徴量CAに基づいて当該登録情報R内の特徴量CAを更新する。
(3)変形例3
特徴量(CA,CB)の内容は適宜に変更される。例えば、第1実施形態から第3実施形態における特徴量(CA,CB)を第4実施形態における帯域間相関行列としてもよい。また、登録情報Rが複数の特徴量CAを含む構成も採用される。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 辞書の構成を示す概念図である。 登録部の動作を示すフローチャートである。 照合部の動作を示すフローチャートである。 第2実施形態における登録部の動作を示すフローチャートである。 第4実施形態における音声処理装置の構成を示すブロック図である。 帯域間相関行列生成部の構成を示すブロック図である。 エンベロープが抽出されるM個の帯域を示す概念図である。 第5実施形態における音声処理装置の構成を示すブロック図である。
符号の説明
100……音声処理装置、10……登録部、11……区間検出部、12……判定部、13……特徴抽出部、14……管理部、15……報知部、30……照合部、31……区間検出部、32……判定部、33……特徴抽出部、34……選択部、35……比較部、36……報知部、50……記憶装置、62……収音機器、64……入力装置、66……出力装置、70……帯域間相関行列生成部、72……周波数分析部、74……帯域別エンベロープ生成部、76……相関値算出部。

Claims (6)

  1. 音声の特徴量を含む登録情報を記憶する記憶手段と、
    複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、
    前記複数の入力音声のうち前記判定手段が適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理手段と、
    前記判定手段が不適切と判定した場合に発声者に報知する報知手段と
    を具備する音声処理装置。
  2. 音声の特徴量を含む登録情報を記憶する記憶手段と、
    複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定手段と、
    前記判定手段が適切と判定した場合に前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する照合手段と、
    前記判定手段が不適切と判定した場合に発声者に報知する報知手段と
    を具備する音声処理装置。
  3. 前記判定手段は、前記入力音声の音量と前記入力音声の時間長と前記入力音声に含まれる雑音のレベルとの少なくともひとつに基づいて前記入力音声の適否を判定する
    請求項1または請求項2に記載の音声処理装置。
  4. 周波数軸上の複数の帯域の各々の成分のエンベロープの相関値を要素とする帯域間相関行列を前記入力音声の特徴量として抽出する特徴量抽出手段
    を具備する請求項1から請求項3の何れかに記載の音声処理装置。
  5. 音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
    複数の入力音声の各々を順次に取得するたびに、当該入力音声が登録情報の作成または更新のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、
    前記複数の入力音声のうち前記判定処理で適切と判定した入力音声の特徴量に基づいて登録情報を作成または更新する管理処理と、
    前記判定処理で不適切と判定した場合に発声者に報知する報知処理と
    を実行させるプログラム。
  6. 音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
    複数の入力音声の各々を順次に取得するたびに、当該入力音声が照合のための音声として適切か否かを、当該入力音声と、前回に適切と判定した入力音声との相違の程度に基づいて判定する判定処理と、
    前記判定処理で適切と判定した場合に前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する照合処理と、
    前記判定処理で不適切と判定した場合に発声者に報知する報知処理と
    を実行させるプログラム。
JP2006349210A 2006-12-26 2006-12-26 音声処理装置およびプログラム Expired - Fee Related JP4305509B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006349210A JP4305509B2 (ja) 2006-12-26 2006-12-26 音声処理装置およびプログラム
US11/961,580 US8117031B2 (en) 2006-12-26 2007-12-20 Voice processing apparatus and program
EP07024990A EP1939861B1 (en) 2006-12-26 2007-12-21 Registration for speaker verification
AT07024990T ATE554477T1 (de) 2006-12-26 2007-12-21 Registrierung zur sprechererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006349210A JP4305509B2 (ja) 2006-12-26 2006-12-26 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008158396A JP2008158396A (ja) 2008-07-10
JP4305509B2 true JP4305509B2 (ja) 2009-07-29

Family

ID=39221684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006349210A Expired - Fee Related JP4305509B2 (ja) 2006-12-26 2006-12-26 音声処理装置およびプログラム

Country Status (4)

Country Link
US (1) US8117031B2 (ja)
EP (1) EP1939861B1 (ja)
JP (1) JP4305509B2 (ja)
AT (1) ATE554477T1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4458184B2 (ja) 2008-06-09 2010-04-28 ソニー株式会社 情報管理装置、通信処理装置、および方法、並びにプログラム
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59192A (ja) * 1982-06-25 1984-01-05 株式会社東芝 個人照合装置
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
JPS60158498A (ja) * 1984-01-27 1985-08-19 株式会社リコー パターン照合装置
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US6012027A (en) 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
GB9822931D0 (en) 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
JP2000155600A (ja) 1998-11-24 2000-06-06 Nec Corp 音声認識システムおよび入力音声レベル警告方法
US6336091B1 (en) 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
JP3926280B2 (ja) 2003-03-05 2007-06-06 株式会社アドバンスト・メディア 音声認識システム
JP2006113439A (ja) 2004-10-18 2006-04-27 Ntt Data Corp 音声自動応答装置及びプログラム

Also Published As

Publication number Publication date
US8117031B2 (en) 2012-02-14
JP2008158396A (ja) 2008-07-10
EP1939861A1 (en) 2008-07-02
ATE554477T1 (de) 2012-05-15
US20080154597A1 (en) 2008-06-26
EP1939861B1 (en) 2012-04-18

Similar Documents

Publication Publication Date Title
US8401861B2 (en) Generating a frequency warping function based on phoneme and context
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
US8036884B2 (en) Identification of the presence of speech in digital audio data
US8069039B2 (en) Sound signal processing apparatus and program
JP6220304B2 (ja) 音声識別装置
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
US7650281B1 (en) Method of comparing voice signals that reduces false alarms
CN110797032A (zh) 一种声纹数据库建立方法及声纹识别方法
WO2000077772A2 (en) Speech and voice signal preprocessing
US11081115B2 (en) Speaker recognition
JP4305509B2 (ja) 音声処理装置およびプログラム
JP2007133413A (ja) 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証
Das et al. Comparison of DTW score and warping path for text dependent speaker verification system
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
US20060150805A1 (en) Method of automatically detecting vibrato in music
Tsai et al. Bird species identification based on timbre and pitch features
JP4349415B2 (ja) 音信号処理装置およびプログラム
WO2014155652A1 (ja) 話者検索システム、プログラム
JP4807261B2 (ja) 音声処理装置およびプログラム
Jagtap et al. Speaker verification using Gaussian mixture model
JP2001350494A (ja) 照合装置及び照合方法
Paul et al. Presence of speech region detection using vowel-like regions and spectral slope information
CN110931020A (zh) 一种语音检测方法及装置
Shinde et al. Speech processing for isolated Marathi word recognition using MFCC and DTW features

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090420

R150 Certificate of patent or registration of utility model

Ref document number: 4305509

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140515

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees