JP4807261B2

JP4807261B2 - 音声処理装置およびプログラム

Info

Publication number: JP4807261B2
Application number: JP2007001059A
Authority: JP
Inventors: 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-01-09
Filing date: 2007-01-09
Publication date: 2011-11-02
Anticipated expiration: 2027-01-09
Also published as: JP2008170505A

Description

本発明は、利用者が発声した音声（以下「入力音声」という）を処理する技術に関し、特に、音声の特徴量を含む登録情報（辞書）の作成または更新、および登録情報内の特徴量と入力音声の特徴量との照合に関する。

発声者の正当性を認証する技術（話者認証）や複数の登録者のなかから発声者を特定する技術（話者識別）が従来から提案されている。話者認証や話者識別においては登録と照合とが実行される。登録の段階では入力音声から抽出された特徴量に基づいて登録情報が作成され、照合の段階では入力音声の特徴量と登録情報の特徴量とが照合される（例えば非特許文献１や非特許文献２）。
松井知子，「ＨＭＭによる話者認識」，電子情報通信学会技術研究報告，電子情報通信学会，１９９６年１月,ＳＰ９５−１１１ｐ.１７−２４早川昭二外２名，「線形予測残差スペクトルの調波構造に含まれる個人性情報を用いた話者認識」，電子情報通信学会論文誌，電子情報通信学会，１９９７年９月，ＡＶｏｌ．Ｊ８０−１Ｎｏ．９ｐ．１３６０−１３６７

しかし、登録時や照合時の入力音声が特徴量の抽出に適さない場合もある。例えば入力音声の時間長が短い場合には特徴量の適正な抽出が困難となる。また、入力音声が充分な時間長であっても、入力音声内の音素の個数が極端に少ない場合には、やはり特徴量の抽出の精度や情報量が低下する。特徴量が正確に抽出されない場合、登録情報は発声者の音声に固有な特徴から乖離した内容となるから、登録情報を利用した照合の精度が低下するという問題がある。以上の事情に鑑みて、本発明は、発声者の音声の特性を忠実に反映した登録情報を生成するという課題の解決をひとつの目的とする。

以上の課題を解決するために、本発明の第１の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定手段と、入力音声が登録情報の作成または更新のための音声として適切か否かを音素数指標値に基づいて判定する判定手段と、判定手段が入力音声を適切と判定した場合に、入力音声の特徴量に基づいて、記憶手段への登録情報の格納または記憶手段内の登録情報の更新を実行する管理手段と、判定手段が入力音声を不適切と判定した場合に音素数の不足を報知する報知手段とを具備する。以上の構成によれば、判定手段が適切と判定した入力音声の特徴量が登録情報に反映されるから、入力音声の適否に拘わらず記憶手段の記憶の内容が変更される構成と比較して、利用者の音声の固有の特徴を忠実に反映した登録情報（辞書）を記憶手段に作成することが可能である。また、入力音声が不適切であることを報知手段が利用者に報知することで発声の改善が促進されるという利点がある。

本発明の第２の態様に係る音声処理装置は、音声の特徴量を含む登録情報を記憶する記憶手段と、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定手段と、入力音声が照合のための音声として適切か否かを音素数指標値に基づいて判定する判定手段と、判定手段が適切と判定した場合に入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する比較手段とを具備する。以上の態様によれば、判定手段が適切と判定した入力音声について照合手段による照合が実行されるから、入力音声の適否に拘わらず入力音声が照合に利用される構成と比較して照合の精度が向上する。また、判定手段が入力音声を不適切と判定した場合に音素数の不足を報知する報知手段を具備する構成によれば、入力音声が不適切であることを報知手段が利用者に報知することで発声の改善が促進されるという利点がある。

以上の各態様に係る音声処理装置において、指標算定手段は、例えば、入力音声を時間軸上で区分した各フレームについて音量を特定する音量特定手段と、相前後するフレーム間の音量の変化度を各フレームについて特定する変化度特定手段と、音量と変化度とに応じた変化指標値を算定する算定手段と、変化指標値が閾値を越える回数を音素数指標値として計数する計数手段とを含む。以上の態様によれば、入力音声の音量と変化度とに基づいて音素数指標値が算定されるから、音量および変化度の一方のみに基づいて音素数指標値が算定される構成と比較して、入力音声の特性（音素数）を忠実に反映した音素数指標値を算定することが可能となる。また、音量と変化度との乗算に基づいて変化指標値が算定される態様によれば、無声音や雑音の影響を低減しながら入力音声の適否を高精度に判定することができる。

本発明の好適な態様においては、判定手段が入力音声を適切と判定した場合に限って入力音声から特徴量が抽出され、当該特徴量に基づいて管理手段が登録情報の格納または更新を実行する。もっとも、入力音声から特徴量を抽出する処理の有無と判定処理による判定の結果との関係は本発明において不問である。すなわち、入力音声の適否に拘わらず特徴量が抽出される構成であっても、管理手段による登録情報の格納または更新の有無が入力音声の適否に応じて決定されれば、利用者の音声の特徴を忠実に反映した登録情報が作成されるという本発明の所期の効果は奏される。ただし、入力音声が適切である場合に限って特徴量を抽出する構成においては、入力音声が不適切である場合に特徴量の抽出が省略されるから、入力音声の適否に拘わらず特徴量を抽出する構成と比較して、特徴量の抽出のための負荷が軽減されるという利点がある。

以上の各態様に係る音声処理装置は、登録情報を作成または更新する方法や特徴量を照合する方法としても特定される。例えば、本発明のひとつの態様に係る音声処理装置は、入力音声に含まれる音素の個数の指標値である音素数指標値を算定し、入力音声が登録情報の作成または更新のための音声として適切か否かを音素数指標値に基づいて判定し、入力音声を適切と判定した場合に入力音声の特徴量に基づいて登録情報を作成または更新する。以上の方法によっても、本発明に係る音声処理装置と同様の作用および効果が奏される。

本発明に係る音声処理装置は、各処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。第１の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定処理と、入力音声が登録情報の作成または更新のための音声として適切か否かを音素数指標値に基づいて判定する判定処理と、判定処理で入力音声を適切と判定した場合に入力音声の特徴量に基づいて登録情報を作成または更新する管理処理と、判定処理で入力音声を不適切と判定した場合に音素数の不足を報知する報知処理とを実行させる。
また、第２の態様に係るプログラムは、音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定処理と、入力音声が照合のための音声として適切か否かを音素数指標値に基づいて判定する判定処理と、判定処理で入力音声を適切と判定した場合に、入力音声の特徴量と記憶手段に記憶された登録情報の特徴量とを照合する比較処理とを実行させる。
以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、ＣＤ−ＲＯＭなど可搬型の記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

また、本発明のもうひとつの態様は、入力音声に含まれる音素の個数の指標値である音素数指標値を算定する装置である。本態様に係る音声処理装置は、入力音声を時間軸上で区分した各フレームについて音量を特定する音量特定手段と、相前後するフレーム間の音量の変化度を各フレームについて特定する変化度特定手段と、音量と変化度とに応じた変化指標値を算定する算定手段と、変化指標値が閾値を越える回数を音素数指標値として計数する計数手段とを具備する。

＜Ａ：音声処理装置の構成および動作＞
図１は、本発明のひとつの形態に係る音声処理装置の構成を示すブロック図である。音声処理装置１００は、利用者が発声した音声の特徴量に基づいて当該利用者の正当性（予め登録された正規の利用者であるか否か）を判定する話者認証のための装置である。図１に示すように、音声処理装置１００は、登録部１０と照合部３０と記憶装置５０とを具備する。登録部１０と照合部３０とは、演算処理装置（ＣＰＵ）がプログラムを実行することで実現される。なお、図１では登録部１０と照合部３０とを個別に図示したが、登録部１０と照合部３０とはひとつの演算処理装置によっても実現される。登録部１０および照合部３０の各々には収音機器６２と入力装置６４と出力装置６６とが接続される。

記憶装置５０は、話者認証に使用される辞書Ｄを記憶する。図２は、辞書Ｄの構成を示す概念図である。図２に示すように、辞書Ｄは、各々が別個の利用者に対応する複数の登録情報Ｒを含む。ひとつの登録情報Ｒは、各利用者に固有の識別情報Ｉd（Ｉd_1，Ｉd_2，……）と利用者の音声の特徴を示す特徴量ＣA（ＣA_1，ＣA_2，……）とを含む。特徴量ＣAは、利用者に固有の数値である。本形態における特徴量ＣAは、利用者が発声した音声のケプストラムの時系列的なベクトル列である。図１の登録部１０は、登録情報Ｒを生成して記憶装置５０に格納する。

収音機器（例えばマイクロホン）６２は、利用者が発声した入力音声ＶINの波形を示す音声信号ＳINを生成する。入力装置６４は、利用者が操作する複数の操作子を含む。利用者は、入力装置６４を適宜に操作することで、例えば自身の識別情報Ｉdや音声処理装置１００に対する各種の指示を入力する。出力装置６６は、登録部１０や照合部３０による制御のもとに各種の情報を出力する。例えば登録部１０や照合部３０が指示した画像を表示する表示機器、または登録部１０や照合部３０が指示した音声を出力する放音装置（スピーカやヘッドホン）が出力装置６６として好適に採用される。

照合部３０は、登録情報Ｒを利用して話者認証を実行する手段である。特徴抽出部３３は、特徴量ＣAと同種の特徴量ＣB（したがって本形態ではケプストラム）を音声信号ＳINから抽出する。選択部３４は、入力装置６４から入力された識別情報Ｉdを含む登録情報Ｒを辞書Ｄのなかから選択する。比較部３５は、特徴抽出部３３が抽出した特徴量ＣBと選択部３４が選択した登録情報Ｒ内の特徴量ＣAとを比較（照合）する。さらに詳述すると、比較部３５は、特徴量ＣAと特徴量ＣBとの類似度（例えば距離や尤度）を算定するとともに類似度の大小に応じて利用者の正当性を認証する。比較部３５による認証の結果は出力装置６６に出力される。

次に、登録部１０の具体的な構成および動作を説明する。利用者は、登録情報Ｒの作成に際して収音機器６２に向けて発声する。この発生に伴なって生成された音声信号ＳINは図１の分割部１１２に入力される。分割部１１２は、音声信号ＳINを所定の時間長（例えば数十ミリ秒）のフレームに区分して順次に出力する。各フレームは時間軸上で相互に重なり合うように設定される。区間検出部１１４は、音声信号ＳINのうち実際に利用者が発声した区間（以下「発話区間」という）を検出する。例えば、区間検出部１１４は、音声信号ＳINの振幅（音量）が閾値を上回る区間を発話区間として検出する。発話区間に属するフレームの音声信号ＳINのみが選択的に区間検出部１１４を通過して指標算定部１２２および判定部１２４に出力される。

指標算定部１２２は、音声信号ＳINに基づいて音素数指標値Ｎを算定する。音素数指標値Ｎは、入力音声ＶINの発話区間に含まれる音素の個数の指標となる数値である。すなわち、入力音声ＶINに含まれる音素の個数が多いほど音素数指標値Ｎが増加するという傾向がある。

判定部１２４は、発話区間内の入力音声ＶINが特徴量ＣAの抽出（登録情報Ｒの作成）のための音声として適切か否かを判定する手段である。入力音声ＶIN（発話区間）内の音素の個数が少な過ぎると、特徴量ＣAが利用者の音声の特徴から乖離する場合や特徴量ＣAを抽出できない場合がある。そこで、本形態の判定部１２４は、指標算定部１２２が算定した音素数指標値Ｎに基づいて入力音声ＶINの適否を判定する。すなわち、判定部１２４は、音素数指標値Ｎが所定の閾値ＮTHを上回る場合（すなわち発話区間内の音素数が多い場合）には入力音声ＶINを適切と判定し、音素数指標値Ｎが閾値ＮTHを下回る場合（すなわち発話区間内の音素数が少ない場合）には入力音声ＶINを不適切と判定する。換言すると、判定部１２４は、利用者の音声の固有の特徴が充分に反映された特徴量ＣAを抽出し得る程度の個数の音素が入力音声ＶINに含まれるか否かを音素数指標値Ｎに基づいて判定する手段である。

特徴抽出部１３は、判定部１２４が入力音声ＶINを適切と判定した場合に入力音声ＶINの特徴量ＣAを抽出する。判定部１２４が入力音声ＶINを不適切と判定した場合、特徴抽出部１３は特徴量ＣAの抽出を実行しない。本形態の特徴量ＣAはケプストラムであるから、ＦＦＴ（Fast Fourier Transform）処理などの周波数分析を含む各種の演算を実行する手段が特徴抽出部１３として好適に採用される。管理部１４は、特徴抽出部１３が抽出した特徴量ＣAと入力装置６４から入力された識別情報Ｉdとに基づいて登録情報Ｒを作成して記憶装置５０に格納する手段である。したがって、判定部１２４が適切と判定した入力音声ＶINの特徴量ＣAのみが登録情報Ｒに反映され、判定部１２４が不適切と判定した入力音声ＶINは登録情報Ｒに影響しない。

報知部１５は、判定部１２４が入力音声ＶINを不適切と判定した場合にその旨を出力装置６６から利用者に報知する手段である。すなわち、報知部１５は、入力音声ＶINが不適切であることが音声や画像として出力装置６６から利用者に報知されるように、出力装置６６に対して音声信号や映像信号を出力する。さらに詳述すると、音素数の不足を通知するメッセージ（例えば「発声する文字数が足りません」といった文章）や多数の音素の発声を促すメッセージ（例えば「発声する文字数を増やして下さい」といった文章）が利用者に報知される。

図３は、指標算定部１２２の具体的な構成を示すブロック図である。また、図４は、図３の各部にて算定される数値が経時的に変化する様子を示すタイミングチャートである。図４においては、発話区間内の音声信号ＳIN（入力音声ＶIN）が併記されている。

図３に示すように、指標算定部１２２は、音量特定部２１と変化度特定部２３と算定部２５と平滑化部２７と計数部２９とを含む。音量特定部２１は、入力音声ＶINの音量Ｖをフレームごとに特定する手段である。例えばひとつのフレーム内における音声信号ＳINの強度の平均値が音量Ｖとして算定される。図４に示すように音量Ｖはフレームごとに刻々と変化する。

図３の変化度特定部２３は、音量特定部２１が算定した音量Ｖに基づいて変化度ＤVをフレームごとに算定する手段である。変化度ＤVは、相前後するフレーム間の音量の変化の程度を示す数値である。本形態の変化度特定部２３は、音量Ｖの対数値を時間軸上の各フレームの時点にて微分した数値を変化度ＤVとして算定する。図４に示すように、変化度ＤVは、音量Ｖが急激に増大または減少する時点で瞬間的に変化する。

図３の算定部２５は、音量Ｖと変化度ＤVとに応じた変化指標値Ａ0を各フレームについて算定する手段である。本形態の算定部２５は、ひとつのフレームにおける音量Ｖと変化度ＤVとの乗算値を変化指標値Ａ0として算定する。平滑化部２７は、変化指標値Ａ0の時間軸上における微細な増減を平滑化する手段である。図４の部分ａに示すように、変化度ＤV（さらに変化指標値Ａ0）は、音量Ｖの急激な変動や音声信号ＳINの雑音などに起因して、短期間で複数回にわたって変動する場合がある。平滑化部２７は、部分ａのような不安定な変動を抑制する。

図３の計数部２９は、発話区間内において変化指標値Ａ0が所定の閾値ＡTHを上回る回数を音素数指標値Ｎとして計数する。本願発明者による試験によれば、変化度ＤVには、音素の先頭の時点にて瞬間的に増大するという傾向がある。したがって、入力音声ＶINの発話区間内の音素数が多いほど、変化指標値Ａ0が閾値ＡTHを上回る回数は増加する。すなわち、音素数指標値Ｎは、発話区間内の音素の個数を反映した数値となる。

以上に説明したように、本形態においては、音素数指標値Ｎが閾値ＮTHを上回る入力音声ＶINの特徴量ＣAを含む登録情報Ｒのみが記憶装置５０に格納される。すなわち、音素数の少ない入力音声ＶINは登録情報Ｒに反映されない。したがって、利用者の音声の固有の特徴を忠実に反映した辞書Ｄを作成することが可能である。また、入力音声ＶINが不適切である場合には出力装置６６からの報知によって利用者に発声の改善（音素数の増加）が促されるから、以後の発声における音素数の不足の頻度が減少する。したがって、利用者の音声の固有の特徴を反映した特徴量ＣAを効率的に算定する（さらには利用者の音声の固有の特徴を忠実に反映した辞書Ｄを作成する）ことが可能となる。

また、本形態においては、入力音声ＶINの音量Ｖと変化度ＤVとに基づいて音素数指標値Ｎが算定されるから、音量Ｖおよび変化度ＤVの何れかに基づいて音素数指標値Ｎを算定する構成と比較して、入力音声ＶINに実際に含まれる音素数を忠実に音素数指標値Ｎに反映させることができる。本形態においては特に、音量Ｖと変化度ＤVとの乗算に基づいて音素数指標値Ｎが算定されるから、登録情報Ｒの作成に好適な入力音声ＶINを高精度に選別することが可能となる。さらに詳述すると以下の通りである。

無声音（無声子音）は有声音（有声子音や母音）と比較して特徴量（ＣA，ＣB）の高精度な抽出や照合が困難である。したがって、無声音を豊富に含む入力音声ＶINは不適切と判定される（すなわち音素数指標値Ｎが小さい数値となる）ことが望ましい。ここで、変化度ＤVは、無声音および有声音の何れであっても音素の先頭の時点で急激に増加するから、例えば変化度ＤVが所定値を上回る回数を音素数指標値Ｎとして算定する構成においては、入力音声ＶINが無声音を豊富に含む場合であっても音素数指標値Ｎは大きい数値となる。すなわち、無声音を豊富に含む入力音声ＶINが適切と判定される。

一方、本形態においては、変化度ＤVに音量Ｖを乗算した変化指標値Ａ0に基づいて音素数指標値Ｎが算定される。無声音は有声音と比較して音量Ｖが小さいから、入力音声ＶINのうち無声音の区間における変化指標値Ａ0は、閾値ＡTHを下回る程度に抑制される。したがって、入力音声ＶINが無声音を豊富に含む場合の音素数指標値Ｎは小さい数値となる。すなわち、本形態によれば、有声音の音素を豊富に含む入力音声ＶINのみが適切と判定されるから、利用者の音声の固有の特徴を忠実に反映した辞書Ｄを作成することが可能である。

また、音声信号ＳINに発生した雑音の影響で変化度ＤVが瞬間的に増加する場合がある。本形態においては変化度ＤVに音量Ｖが乗算されることで、音量Ｖの小さいフレームに発生した雑音が低減される（すなわち変化指標値Ａ0から雑音が排除される）。したがって、雑音の影響を低減しながら入力音声ＶINの適否を判定できるという利点もある。

＜Ｂ：変形例＞
以上の形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）音声処理装置１００は、音声信号ＳINに基づいて発声者を識別する話者識別にも利用される。話者識別を実行する場合、照合部３０の比較部３５は、特徴抽出部３３が抽出した特徴量ＣBを辞書Ｄの各登録情報Ｒの特徴量ＣAと比較し、特徴量ＣBに最も類似する特徴量ＣAを探索する。そして、比較部３５は、ここで探索した特徴量ＣAに対応する識別情報Ｉdを記憶装置５０から取得して出力装置６６に出力する。すなわち、事前に登録情報Ｒを作成した複数の利用者のなかから実際に入力音声ＶINを発声した利用者が識別される。

音声処理装置１００においては、以上の形態について説明したように音素数指標値Ｎが閾値ＮTHを上回る入力音声ＶINのみが登録情報Ｒに反映されるから、利用者の音声の固有の特徴を忠実に反映した辞書Ｄが作成される。したがって、入力音声ＶINの適否に拘わらず入力音声ＶINが登録情報Ｒに反映される構成と比較して高い精度で利用者を識別することが可能となる。

（２）指標算定部１２２が音素数指標値Ｎを算定する方法は適宜に変更される。例えば、音量Ｖが所定値を上回る回数を音素数指標値Ｎとして算定する構成や、変化度ＤVが所定値を上回る回数を音素数指標値Ｎとして算定する構成も採用される。また、変化度特定部２３が変化度ＤVを算定する方法は任意である。例えば、以上の形態では音量Ｖの対数値の微分値を変化度ＤVとした構成を例示したが、音量Ｖの微分値を変化度ＤVとした構成や、相前後するフレーム間の音量Ｖの差分値（変化量）を変化度ＤVとした構成も採用される。すなわち、変化度ＤVは、フレーム間の音量の変化に応じた数値であれば足りる。

算定部２５による演算の内容は乗算に限定されない。例えば、音量Ｖおよび変化度ＤVの各々を個別に重み付けしたうえで加算することで変化指標値Ａ0を算定する構成も採用される。すなわち、変化指標値Ａ0は、音量Ｖおよび変化量ＤVに応じて変化する数値であれば足りる。また、図３の平滑化部２７は適宜に省略される。

以上に説明したように、本発明の好適な態様に係る音声処理装置１００の指標算定部１２２は、入力音声ＶINに含まれる音素の個数を反映した音素数指標値Ｎを算定する手段であれば足り、具体的な演算の内容や演算に使用される変数の如何は不問である。したがって、音素数指標値Ｎの数値が入力音声ＶINの音素の個数に厳密に合致している必要はない。すなわち、音素数指標値Ｎは、入力音声ＶINの音素の個数に応じて変動する数値であれば足りる。例えば、ひとつの音韻はひとつまたは複数の音素を含む（すなわち音韻数は音素数を反映する）から、入力音声ＶINの音韻の個数が音素数指標値Ｎとして算定される構成も採用される。

（３）以上の形態においては、特徴抽出部１３による特徴量ＣAの抽出の有無が入力音声ＶINの適否に応じて制御される構成を例示したが、管理部１４の動作（記憶装置５０に対する登録情報Ｒの格納）の有無を入力音声ＶINの適否に応じて制御する構成としてもよい。すなわち、管理部１４は、判定部１２４が入力音声ＶINを適切と判定した場合に登録情報Ｒを記憶装置５０に格納し、判定部１２４が入力音声ＶINを不適切と判定した場合には記憶装置５０に対する登録情報Ｒの格納を停止する。したがって、特徴抽出部１３は、入力音声ＶINの適否に拘わらず（すなわち判定部１２４による判定から独立して）入力音声ＶINから特徴量ＣAを抽出する手段であってもよい。以上に説明したように、本発明の好適な態様においては、入力音声ＶINの特徴量ＣAに応じた登録情報Ｒを記憶装置５０に格納する処理の有無が入力音声ＶINの適否に応じて制御される構成であれば足り、特徴量ＣAの抽出の有無と入力音声ＶINの適否との関係は不問である。

（４）以上の形態においては、登録情報Ｒの作成に使用される音声として入力音声ＶINが適切か否かを判定する構成を例示したが、この構成に代えて、またはこの構成とともに、照合時（話者認証や話者識別が実際に実行されるとき）の入力音声ＶINが適切か否かを音素数指標値Ｎに基づいて判定する構成を採用してもよい。図５に示すように、本変形例に係る照合部３０は、特徴抽出部３３と選択部３４と比較部３５とに加え、図１の登録部１０と同様に分割部１１２と区間検出部１１４と指標算定部１２２と判定部１２４と報知部１５とを具備する。

判定部１２４は、入力音声ＶINが照合のための音声として適切か否かを音素数指標値Ｎに基づいて判定する。さらに詳述すると、判定部１２４は、音素数指標値Ｎが閾値ＮTHを上回る場合（すなわち入力音声ＶINの音素数が多い場合）に入力音声ＶINを適切と判定し、音素数指標値Ｎが閾値ＮTHを下回る場合（すなわち入力音声ＶINの音素数が少ない場合）に入力音声ＶINを不適切と判定する。なお、指標算定部１２２による音素数指標値Ｎの算定の手順は以上の形態と同様である。

特徴抽出部３３は、判定部１２４が入力音声ＶINを適切と判定した場合に入力音声ＶINの特徴量ＣBを抽出し、判定部１２４が入力音声ＶINを不適切と判定した場合には特徴量ＣBの抽出を実行しない。報知部１５は、判定部１２４が入力音声ＶINを不適切と判定した場合にその旨を出力装置６６から利用者に報知する。以上の構成によれば、入力音声ＶINが不適切と判定された場合に特徴量ＣBの抽出が実行されないから、入力音声ＶINの適否に拘わらず特徴量ＣBが抽出される構成と比較して特徴抽出部３３の負荷が軽減されるという利点がある。

（５）以上の形態においては登録情報Ｒを新規に作成する場合を例示したが、既に作成された登録情報Ｒを更新する場合にも以上の形態を適用することが可能である。すなわち、登録部１０の管理部１４は、入力装置６４から入力された識別情報Ｉdを含む登録情報Ｒを辞書Ｄから検索し、特徴抽出部１３が新たに抽出した特徴量ＣAに基づいて当該登録情報Ｒ内の特徴量ＣAを更新する。

本発明の実施の形態に係る音声処理装置の構成を示すブロック図である。辞書の構成を示す概念図である。指標算定部の具体的な構成を示すブロック図である。音量Ｖおよび変化度ＤVが経時的に変化する様子を示すタイミングチャートである。変形例に係る照合部の構成を示すブロック図である。

符号の説明

１００……音声処理装置、１０……登録部、１１２……分割部、１１４……区間検出部、１２２……指標算定部、１２４……判定部、１３……特徴抽出部、１４……管理部、１５……報知部、３０……照合部、３３……特徴抽出部、３４……選択部、３５……比較部、５０……記憶装置、６２……収音機器、６４……入力装置、６６……出力装置。

Claims

音声の特徴量を含む登録情報を記憶する記憶手段と、
入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定手段と、
前記入力音声が照合のための音声として適切か否かを前記音素数指標値に基づいて判定する判定手段と、
前記判定手段が前記入力音声を適切と判定した場合に、前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する比較手段と
を具備する音声処理装置。
前記判定手段が前記入力音声を不適切と判定した場合に音素数の不足を報知する報知手段
を具備する請求項１の音声処理装置。
前記指標算定手段は、
前記入力音声を時間軸上で区分した各フレームについて音量を特定する音量特定手段と、
相前後するフレーム間の音量の変化度を各フレームについて特定する変化度特定手段と、
前記音量と前記変化度との乗算値に基づいて変化指標値を算定する算定手段と、
前記変化指標値が閾値を超える回数を前記音素数指標値として計数する計数手段と
を含む請求項１または請求項２の音声処理装置。
音声の特徴量を含む登録情報を記憶する記憶手段を具備するコンピュータに、
入力音声に含まれる音素の個数の指標値である音素数指標値を算定する指標算定処理と、
前記入力音声が照合のための音声として適切か否かを前記音素数指標値に基づいて判定する判定処理と、
前記判定処理で前記入力音声を適切と判定した場合に、前記入力音声の特徴量と前記記憶手段に記憶された登録情報の特徴量とを照合する比較処理と
を実行させるためのプログラム。