JP2015055835A

JP2015055835A - 話者認識装置、話者認識方法及び話者認識プログラム

Info

Publication number: JP2015055835A
Application number: JP2013190533A
Authority: JP
Inventors: 拓明夏見; Hiroaki Natsumi; 康貴田中; Yasutaka Tanaka; 学川▲崎▼; Manabu Kawasaki
Original assignee: Sohgo Security Services Co Ltd
Current assignee: Sohgo Security Services Co Ltd
Priority date: 2013-09-13
Filing date: 2013-09-13
Publication date: 2015-03-23

Abstract

【課題】音声データの取得環境による影響を低減し、認識精度を向上すること。【解決手段】話者認識部３１の距離算出部４６は、複数の登録音声データについて入力音声データとの距離をそれぞれ算出する。分布算出部４７ｂは、複数の距離の分布をガウス分布に近似し、照合閾値算出部４７ｃは、ガウス分布の平均と標準偏差から照合閾値を算出する。話者照合部４７ｄは、照合閾値算出部４７ｃが算出した照合閾値と距離算出部４６が算出した距離の最小値とを比較して照合を行う。かかる構成により、音声データの取得環境による影響を低減し、認識精度を向上することができる。【選択図】図２

Description

この発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。

従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献１は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。

照合処理では、入力音声データと登録モデルデータとの距離を算出し、距離が閾値よりも小さい場合に入力音声データの話者が照合対象者であると判定する。この閾値は、話者が同一の音声データ間の距離の分布である話者内距離分布と、話者が異なる音声データ間の距離の分布である話者間距離分布とから求めることが一般的である。具体的には、話者内距離分布の頻度値と話者間距離分布の頻度値とが一致する距離が閾値として用いられる。

特開２００５−０９１７５８号公報

しかしながら、音声データ間の距離の分布は、音声データの取得環境に影響を受けて変動するため、従来の技術では必ずしも適切な閾値を求めることができず、認識精度が低下する場合があるという問題点があった。

具体的には、取得環境が異なると、音声データ間の距離は大きくなる。このため、例えば、取得環境が同一の音声データを用いて話者内距離分布及び話者間距離分布を算出し、閾値を決定したならば、入力音声データの話者が登録されたデータの話者と同一であったとしても、取得環境が異なればその距離が大きくなり、閾値以上となって照合が失敗する場合がある。そして、取得環境が異なる音声データを用いて話者内距離分布及び話者間距離分布を算出し、閾値を決定したならば、入力音声データの話者が登録されたデータの話者ではなくとも、取得環境が類似である場合にその距離が小さくなり、誤って同一の話者であるとの照合結果が得られてしまう場合が生じるのである。

これらのことから、音声データの取得環境に依存することなく高精度に話者を認識することが重要な課題となっている。なお、音声データの取得環境とは、通信回線を介しているか否か、背景音の有無など、音声データに影響を与える各種要因を含むものである。

本発明は、上述した従来技術の課題を解決するためになされたものであって、音声データの取得環境による影響を低減し、認識精度を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置であって、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶する記憶手段と、前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手段と、前記類似度算出手段により算出された複数の類似度の分布を算出する分布算出手段と、前記分布算出手段により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手段と、前記類似度算出手段により算出された類似度と前記照合閾値算出手段により算出された照合閾値とを比較して照合を行う照合処理手段とを備えたことを特徴とする。

また、請求項２に記載の発明は、請求項１に記載の発明において、前記分布算出手段は、前記複数の類似度をガウス分布に近似し、前記照合閾値算出手段は、前記ガウス分布の標準偏差及び平均値から前記照合閾値を算出することを特徴とする。

また、請求項３に記載の発明は、請求項１又は２に記載の発明において、前記照合処理手段は、前記複数の類似度のうち、最も高い類似度が前記照合閾値以上である場合に、当該類似度に対応する登録音声データと前記入力音声データの話者が同一人物であると判定することを特徴とする。

また、請求項４に記載の発明は、請求項１、２又は３に記載の発明において、前記類似度算出手段は、前記登録音声データと前記入力音声データとの距離の小ささを前記類似度の高さとして算出することを特徴とする。

また、請求項５に記載の発明は、請求項４に記載の発明において、前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データと前記入力音声データから切り出された複数の部分入力音声データとの組合せについてそれぞれ距離を算出し、算出した距離の最小値を前記登録音声データに対する前記入力音声データの距離とすることを特徴とする。

また、請求項６に記載の発明は、請求項１〜５のいずれか一つに記載の発明において、前記記憶手段は、前記識別すべき話者の登録音声データと、前記識別すべき話者以外の登録音声データとを記憶することを特徴とする。

また、請求項７に記載の発明は、請求項１〜６のいずれか一つに記載の発明において、監視対象に対する監視動作を行う監視手段と、前記入力音声データに含まれる単語を判定する単語判定手段と、前記照合処理手段により、前記入力音声データの話者が前記識別すべき話者であるとの照合結果が得られた場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の動作を制御する制御手段とをさらに備えたことを特徴とする。

また、請求項８に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識方法であって、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納ステップと、前記入力音声データを受け付ける入力音声データ受付ステップと、前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出ステップと、前記類似度算出ステップにより算出された複数の類似度の分布を算出する分布算出ステップと、前記分布算出ステップにより算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出ステップと、前記類似度算出ステップにより算出された類似度と前記照合閾値算出ステップにより算出された照合閾値とを比較して照合を行う照合処理ステップとを含んだことを特徴とする。

また、請求項９に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識プログラムであって、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納手順と、前記入力音声データを受け付ける入力音声データ受付手順と、前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手順と、前記類似度算出手順により算出された複数の類似度の分布を算出する分布算出手順と、前記分布算出手順により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手順と、前記類似度算出手順により算出された類似度と前記照合閾値算出手順により算出された照合閾値とを比較して照合を行う照合処理手順とをコンピュータに実行させることを特徴とする。

本発明によれば、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶し、複数の登録音声データについて入力音声データとの類似度をそれぞれ算出し、算出した複数の類似度の分布から、入力音声データと識別すべき話者の登録音声データとの照合を行うための照合閾値を算出し、類似度と照合閾値とを比較して照合を行うよう構成したので、音声データの取得環境による影響を低減し、認識精度を向上することができる。

図１は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図２は、図１に示した話者認識部の内部構成を示す内部構成図である。図３は、音声データの取得環境による影響について説明するための説明図である。図４は、話者認識部による閾値の設定について説明するための説明図である。図５は、話者認識部による照合について説明するための説明図である。図６は、話者認識部による照合に対する取得環境の影響について説明するための説明図である。図７は、話者認識部による照合の精度について説明するための説明図である。図８は、登録モードにおける話者認識部の処理手順を示すフローチャートである。図９は、認識モードにおける話者認識部の処理手順を示すフローチャートである。

以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。

図１は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図１に示すホームセキュリティシステムは、監視装置６０にドア監視装置１１、窓監視装置１２、火災検知装置１３及び話者認識装置３０を接続し、話者認識装置３０にマイクロホン２０、インタホン２１及び通信回線２２を接続した構成を有する。

ドア監視装置１１は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置１１は、ピッキングなどの侵入の試みを検知した場合には、監視装置６０に対して報知を行う。

窓監視装置１２は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置１２は、窓に対する衝撃等を検知した場合には、監視装置６０に対して報知を行う。

火災検知装置１３は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置１３は、火災の発生を検知した場合には、監視装置６０に対して報知を行う。

マイクロホン２０は、住宅内に設置され、音響信号を取得して話者認識装置３０に出力する装置である。マイクロホン２０は、音響信号の取得及び出力を行う。なお、マイクロホン２０は、常に動作させてもよいし、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置３０は、任意の場所に設置可能である。また、マイクロホン２０を話者認識装置３０の筐体内に設けてもよい。

インタホン２１は、玄関等の出入口に設置される通話端末装置であり、住宅内の通話端末装置との通話を可能にする。住宅内の通話端末装置としては、図示しない専用の装置を用いてもよいし、監視装置６０や話者認識装置３０を含む装置に通話端末装置としての機能を持たせてもよい。監視装置６０や話者認識装置３０を含む装置に通話端末装置としての機能を持たせ、マイクロホン２０を話者認識装置３０の筐体内に設けた構成では、マイクロホン２０をインタホン２１との通話に用いることができる。なお、この場合には、インタホン２１で取得した音声を住宅内で出力するためのスピーカを話者認識装置３０の筐体に設けることとなる。

通信回線２２は、電話回線網やインターネット等である。話者認識装置３０は、通信回線２２を経由して音響信号を取得することが可能である。

話者認識装置３０は、マイクロホン２０、インタホン２１又は通信回線２２経由で取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置６０に出力する。話者認識装置３０は、話者認識部３１及びテキスト判別部３２を有し、監視装置６０は、監視制御部３３及び監視部３４を有する。話者認識部３１は、マイクロホン２０、インタホン２１又は通信回線２２経由で取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置６０の監視制御部３３に出力する。また、テキスト判別部３２は、マイクロホン２０、インタホン２１又は通信回線２２経由で取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置６０の監視制御部３３に出力する。

監視制御部３３は、話者認識部３１により話者が居住者であると認識された場合に、テキスト判別部３２から出力されたテキスト情報に基づいて、監視部３４の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部３４による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部３４による監視動作を終了させる。

監視部３４は、ドア監視装置１１、窓監視装置１２及び火災検知装置１３の出力を用いて、住居の監視を行う処理部である。具体的には、監視部３４は、監視制御部３３から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置１１又は窓監視装置１２から異常発生の報知を受けた場合には、警報動作を行うとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部３３から終了指示を受けた場合に終了する。

また、監視部３４は、監視動作中であるか否かに関わらず、火災検知装置１３から異常発生の報知を受けた場合には、警報動作を行うとともに、センタに対して異常発生を通知する。

さらに、監視部３４は、テキスト判別部３２から特定のテキスト情報が出力された場合には、監視動作中であるか否かに関わらず、センタに対して異常発生を通知する。具体的には、「救急車を呼んで」等、住宅内の人物が助けを求める特定の単語を発したことがテキスト情報により示された場合に、センタに対して異常発生を通知する。なお、テキストの内容によって通知する異常の内容を異ならせてもよい。

このように、本実施例に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行うことが可能である。

次に、図１に示した話者認識部３１の内部構成について説明する。図２は、図１に示した話者認識部３１の内部構成を示す内部構成図である。図２に示すように、話者認識部３１は、ＡＤ変換部４１、音声区間抽出部４２、特徴パラメータ算出部４３、切替部４４、記憶部４５、距離算出部４６及び認識処理部４７を有する。

ＡＤ変換部４１は、マイクロホン２０、インタホン２１又は通信回線２２経由で取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部４２に出力する処理を行う処理部である。

音声区間抽出部４２は、ＡＤ変換部４１によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行うことができる。

特徴パラメータ算出部４３は、音声区間抽出部４２から出力された音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、ＬＰＣ（Linear Predictive Coding）ケプストラム係数や、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の任意の手法を用いることができる。

切替部４４は、話者認識部３１の動作モードを切り替える処理部である。話者認識部３１の動作モードには、登録モードと認識モードとがある。切替部４４により登録モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、記憶部４５に登録音声データとして格納される。一方、切替部４４により認識モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、入力音声データとして距離算出部４６に出力される。

記憶部４５は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、登録音声データを記憶する。登録音声データには、居住者の登録音声データと居住者以外の登録音声データとを含めることができる。

居住者の登録音声データは、登録モードにおいて格納される。認識処理では、入力音声データと居住者の登録音声データとを照合することとなる。居住者以外の登録音声データは、登録モードを用いて格納してもよいし、初期状態で記憶部４５に格納して出荷してもよい。居住者以外の登録音声データは、照合にかかる閾値の決定に関与する。図２では、記憶部４５は、登録音声データＲ１及び登録音声データＲ２を記憶している。

距離算出部４６は、入力音声データと登録音声データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、距離算出部４６は、同一の登録音声データから複数の部分登録音声データを切り出すとともに、入力音声データから複数の部分入力音声データを切り出し、部分登録音声データと部分入力音声データとの組合せについてそれぞれ距離を算出し、算出した複数の距離のうち、最小の距離を当該登録音声データと入力音声データとの距離とする。なお、算出した複数の距離の平均を登録音声データとの距離としてもよい。

距離算出部４６は、入力音声データと登録音声データとの距離を認識処理部４７に出力する。距離算出部４６による距離の算出と出力は、複数の登録音声データについてそれぞれ行う。

認識処理部４７は、話者識別部４７ａと、分布算出部４７ｂと、照合閾値算出部４７ｃと、話者照合部４７ｄとを有する。話者識別部４７ａは、距離算出部４６により算出された距離が最小となる登録音声データを選択する。この登録音声データの話者が、入力音声データの話者候補となる。

分布算出部４７ｂは、距離算出部４６により算出された距離の分布をガウス分布で近似する処理部である。具体的には、分布算出部４７ｂは、記憶部４５がＮ個の登録音声データを記憶している場合には、入力音声データとのＮ個の距離の平均ｍと、Ｎ個の距離の標準偏差σを求める。

照合閾値算出部４７ｃは、分布算出部４７ｂが算出した平均ｍと標準偏差σを用い、照合閾値を算出する処理部である。具体的には、予め定めた係数αを用い、ｍ−ασを照合閾値とする。

話者照合部４７ｄは、話者識別部４７ａにより選択された登録音声データと入力音声データとの距離と、照合閾値算出部４７ｃにより算出された照合閾値とを比較する。この距離が照合閾値よりも小さいならば、話者照合部４７ｄは、当該登録音声データの話者と入力音声データの話者とが一致すると判定する。距離の小ささは、類似度の高さに対応するため、距離が照合閾値以下であることは、類似度が所定の類似度閾値以上であることを意味する。話者照合部４７ｄは、判定結果を監視装置６０に出力する。

このように、話者認識部３１は、複数の登録音声データについて入力音声データとの距離をそれぞれ算出し、算出した複数の距離の分布をガウス分布に近似し、ガウス分布の平均と標準偏差から照合閾値を算出し、算出した照合閾値と距離の最小値とを比較して照合を行う。かかる構成により、音声データの取得環境による影響を低減し、認識精度を向上することができる。

ここで、音声データの取得環境による影響について説明する。図３は、音声データの取得環境による影響について説明するための説明図である。図３（ａ）は、入力音声データと登録音声データの取得環境が同一である場合の話者内距離分布と話者間距離分布とを示している。図３（ｂ）は、入力音声データと登録音声データの取得環境が異なる場合の話者内距離分布と話者間距離分布とを示している。

図３（ａ）及び図３（ｂ）に示すように、話者内距離は、話者間距離よりも距離が小さい範囲で分布する。また、話者内距離も話者間距離も、取得環境が異なる場合は取得環境が同一である場合よりもその距離が大きくなる。

図３（ａ）のように取得環境が同一の話者内距離分布と話者間距離分布とを用い、その頻度値が一致する距離を照合閾値Ｔｈ１とすれば、取得環境が同一であれば照合閾値Ｔｈ１により高精度に話者照合ができる。

しかし、図３（ｂ）では、取得環境が異なるために話者内距離及び話者間距離の分布が距離の大きい側に変動しているので、話者内距離分布と話者間距離分布の頻度値が一致する距離である照合閾値Ｔｈ２は、照合閾値Ｔｈ１よりも大きくなる。このため、照合閾値Ｔｈ１では適正な照合ができない。具体的には、登録音声データと入力音声データの話者が同一であったとしても、本人ではないと誤って棄却してしまう本人拒否率が大きくなるのである。

また、話者内距離分布及び話者間距離分布がどれだけ変動するかは、取得環境により異なる。入力音声データの取得環境を事前に特定することは困難であり、話者内距離分布及び話者間距離分布の変動量を予測することはできない。そのため、事前に照合閾値を適切に決定するのは難しいのである。

次に、話者認識部３１による閾値の設定について説明する。図４は、話者認識部３１による閾値の設定について説明するための説明図である。図４（ａ）に示すように、分布算出部４７ｂは、距離算出部４６により算出されたＮ個の距離について、その頻度のヒストグラムを求め、ガウス分布に近似する。

そして、図４（ｂ）に示すように、照合閾値算出部４７ｃは、分布算出部４７ｂが算出したガウス分布の平均ｍと標準偏差σとを用い、ｍ−ασを照合閾値Ｔｈ３とする。ここで、係数αは事前に適切な値に設定しておく。

図５は、話者認識部３１による照合について説明するための説明図である。入力音声データの話者と登録音声データの話者とが一致しなければ、図５（ａ）に示すように、距離はガウス分布の平均付近に分布し、照合閾値Ｔｈ３未満の距離は現れない。一方、入力音声データの話者と登録音声データの話者とが同一である場合には、その距離は他の距離、すなわち、他の話者の登録音声データとの距離よりも有意に小さくなる。そのため、図５（ｂ）に示すように、照合閾値Ｔｈ３未満の距離が得られることとなる。そこで、話者認識部３１は、照合閾値Ｔｈ３よりも距離が小さい場合に、その距離に対応する登録音声データの話者と入力音声データの話者とが同一であると判定するのである。

次に、取得環境による影響について説明する。図６は、話者認識部３１による照合に対する取得環境の影響について説明するための説明図である。図６（ａ）は、入力音声データと登録音声データの取得環境が同一である場合に話者認識部３１が設定した照合閾値を示している。図６（ｂ）は、入力音声データと登録音声データの取得環境が異なる場合に話者認識部３１が設定する照合閾値を示している。

図６（ｂ）に示すように、取得環境が異なる場合は取得環境が同一である場合よりもその距離が大きくなる。そして、話者認識部３１は、取得環境が異なることで、距離の分布が変動したとしても、変動した距離の分布から照合閾値Ｔｈ４を設定する。このように、距離の分布に対して相対的に閾値を設定するため、取得環境が異なる場合であっても適切に照合閾値を設定し、高精度に照合を行うことができる。

図７は、話者認識部３１による照合の精度について説明するための説明図である。図７（ａ）は、話者内距離分布及び話者間距離分布から照合閾値を求める従来技術を用いた場合の照合精度を示している。具体的には、２つの音声データの双方をマイクにより直接取得し、話者内距離分布及び話者間距離分布から照合閾値を求めた場合には、他人を誤って受け入れる他人受入率が「２．５７％」であり、本人を誤って棄却する本人拒否率が「２．５７％」であった。しかし、２つの音声データの一方を通信回線経由で取得し、話者内距離分布及び話者間距離分布から照合閾値を求めた場合には、他人受入率が「０．０４％」であり、本人拒否率が「８９．４％」であった。

これに対し、入力音声データの登録音声データに対する距離の分布から照合閾値を求める本実施例では、２つの音声データの双方をマイクにより直接取得して照合閾値を求めた場合には、他人受入率が「２．５６％」であり、本人拒否率が「０．９１％」であった。また、２つの音声データの一方を通信回線経由で取得しても、他人受入率が「３．６３％」であり、本人拒否率が「２．８６％」であった。

このように、従来の技術では、インタホンや電話等により通信回線を経由すると、本人であっても９０％近くが照合失敗となっていたのに対し、本実施例では、通信回線を経由しても９７％以上が照合成功となった。

次に、話者認識部３１の処理手順について説明する。図８は、登録モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により登録モードに設定された状態で実行される。

まず、マイクロホン２０、インタホン２１又は通信回線２２経由で音響信号を取得する（ステップＳ１０１）。音声区間抽出部４２は、取得した音響信号から音声区間を抽出する（ステップＳ１０２）。

特徴パラメータ算出部４３は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ１０３）。そして、算出した特徴パラメータを記憶部４５に登録音声データとして追加し（ステップＳ１０４）、登録処理を終了する。

図９は、認識モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により認識モードに設定された状態で実行される。

まず、マイクロホン２０、インタホン２１又は通信回線２２経由で音響信号を取得する（ステップＳ２０１）。音声区間抽出部４２は、取得した音響信号から音声区間を抽出する（ステップＳ２０２）。

特徴パラメータ算出部４３は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ２０３）。

距離算出部４６は、Ｎ個の登録音声データについて、入力音声データとの距離Ｄｉ（１≦ｉ≦Ｎ）を算出する（ステップＳ２０４）。話者識別部４７ａは、距離Ｄｉが最小となる登録音声データを特定する（ステップＳ２０５）。この登録音声データの話者が、入力音声データの話者候補となる。

分布算出部４７ｂは、距離Ｄｉの分布をガウス分布で近似する（ステップＳ２０６）。具体的には、

により、平均ｍ及び標準偏差σを求める。

照合閾値算出部４７ｃは、平均ｍと標準偏差σを用い、照合閾値を算出する（ステップＳ２０７）。具体的には、

により照合閾値Ｔｈを求める。

話者照合部４７ｄは、ステップＳ２０５で特定した登録音声データとの距離、すなわち、距離Ｄｉの最小値が、照合閾値Ｔｈ未満であるか否かを判定する（ステップＳ２０８）。

距離Ｄｉの最小値が、照合閾値Ｔｈ未満であるならば（ステップＳ２０８；Ｙｅｓ）、話者照合部４７ｄは、ステップＳ２０５で特定した登録音声データの話者と入力音声データの話者とが一致すると判定し、判定結果を監視装置６０に出力して処理を終了する（ステップＳ２０９）。

一方、距離Ｄｉの最小値が、照合閾値Ｔｈ以上であるならば（ステップＳ２０８；Ｎｏ）、話者照合部４７ｄは、入力音声データと話者が一致する登録音声データなしと判定し、判定結果を監視装置６０に出力して処理を終了する（ステップＳ２１０）。

上述してきたように、本実施例では、話者認識部３１は、複数の登録音声データについて入力音声データとの距離をそれぞれ算出し、算出した複数の距離の分布をガウス分布に近似し、ガウス分布の平均と標準偏差から照合閾値を算出し、算出した照合閾値と距離の最小値とを比較して照合を行う。かかる構成により、音声データの取得環境による影響を低減し、認識精度を向上することができる。

なお、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。

また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。

また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。また、電話回線を介した話者認識による「振り込め詐欺対策」や、「インタホン越しの音声による本人確認」などへの適用も可能である。

また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部３１の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。

以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、音声データの取得環境による影響を低減し、認識精度を向上することに適している。

１１ドア監視装置
１２窓監視装置
１３火災検知装置
２０マイクロホン
２１インタホン
２２通信回線
３０話者認識装置
３１話者認識部
３２テキスト判別部
３３監視制御部
３４監視部
４１ＡＤ変換部
４２音声区間抽出部
４３特徴パラメータ算出部
４４切替部
４５記憶部
４６距離算出部
４７認識処理部
４７ａ話者識別部
４７ｂ分布算出部
４７ｃ照合閾値算出部
４７ｄ話者照合部
６０監視装置

Claims

入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置であって、
識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶する記憶手段と、
前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手段と、
前記類似度算出手段により算出された複数の類似度の分布を算出する分布算出手段と、
前記分布算出手段により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手段と、
前記類似度算出手段により算出された類似度と前記照合閾値算出手段により算出された照合閾値とを比較して照合を行う照合処理手段と
を備えたことを特徴とする話者認識装置。
前記分布算出手段は、前記複数の類似度をガウス分布に近似し、前記照合閾値算出手段は、前記ガウス分布の標準偏差及び平均値から前記照合閾値を算出することを特徴とする請求項１に記載の話者認識装置。
前記照合処理手段は、前記複数の類似度のうち、最も高い類似度が前記照合閾値以上である場合に、当該類似度に対応する登録音声データと前記入力音声データの話者が同一人物であると判定することを特徴とする請求項１又は２に記載の話者認識装置。
前記類似度算出手段は、前記登録音声データと前記入力音声データとの距離の小ささを前記類似度の高さとして算出することを特徴とする請求項１、２又は３に記載の話者認識装置。
前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データと前記入力音声データから切り出された複数の部分入力音声データとの組合せについてそれぞれ距離を算出し、算出した距離の最小値を前記登録音声データに対する前記入力音声データの距離とすることを特徴とする請求項４に記載の話者認識装置。
（利用者以外の登録データを記憶する構成で限定）
前記記憶手段は、前記識別すべき話者の登録音声データと、前記識別すべき話者以外の登録音声データとを記憶することを特徴とする請求項１〜５のいずれか一つに記載の話者認識装置。
監視対象に対する監視動作を行う監視手段と、
前記入力音声データに含まれる単語を判定する単語判定手段と、
前記照合処理手段により、前記入力音声データの話者が前記識別すべき話者であるとの照合結果が得られた場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の動作を制御する制御手段と
をさらに備えたことを特徴とする請求項１〜６のいずれか一つに記載の話者認識装置。
入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識方法であって、
識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納ステップと、
前記入力音声データを受け付ける入力音声データ受付ステップと、
前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出ステップと、
前記類似度算出ステップにより算出された複数の類似度の分布を算出する分布算出ステップと、
前記分布算出ステップにより算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出ステップと、
前記類似度算出ステップにより算出された類似度と前記照合閾値算出ステップにより算出された照合閾値とを比較して照合を行う照合処理ステップと
を含んだことを特徴とする話者認識方法。
入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識プログラムであって、
識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納手順と、
前記入力音声データを受け付ける入力音声データ受付手順と、
前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手順と、
前記類似度算出手順により算出された複数の類似度の分布を算出する分布算出手順と、
前記分布算出手順により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手順と、
前記類似度算出手順により算出された類似度と前記照合閾値算出手順により算出された照合閾値とを比較して照合を行う照合処理手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。