JP6239826B2

JP6239826B2 - 話者認識装置、話者認識方法及び話者認識プログラム

Info

Publication number: JP6239826B2
Application number: JP2013014664A
Authority: JP
Inventors: 康貴田中; 学川▲崎▼; 益巳谷本
Original assignee: SOHGO SECURITY SERVICES CO.,LTD.
Current assignee: SOHGO SECURITY SERVICES CO.,LTD.
Priority date: 2013-01-29
Filing date: 2013-01-29
Publication date: 2017-11-29
Anticipated expiration: 2033-01-29
Also published as: JP2014145932A

Description

この発明は、音声データに基づいて該音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。

従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献１は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。

照合処理では、入力音声データと登録モデルデータとの距離を算出し、距離が閾値よりも小さい場合に入力音声データの話者が照合対象者であると判定する。この閾値は、話者が同一の音声データ間の距離の分布である話者内距離分布と、話者が異なる音声データ間の距離の分布である話者間距離分布とから求めることが一般的である。具体的には、話者内距離分布の頻度値と話者間距離分布の頻度値とが一致する距離が閾値として用いられる。

特開２００５−０９１７５８号公報

しかしながら、音声データ間の距離の分布は、話者の年齢や性別、音声データの取得環境により変動するため、従来の技術では必ずしも適切な閾値を求めることができないという問題点があった。

この点を具体的に説明すると、話者間距離分布は、話者の年齢層や性別等によって平均や分散が変化する。また、同じ話者の話者内距離分布であっても、音声データの取得環境に依存して平均や分散が変動する。

話者間距離分布と話者内距離分布とを用いて閾値を求める従来の技術では、話者間距離分布や話者内距離分布が異なると、適切な閾値も異なることとなる。そのため、従来の技術では、認識対象となる話者の年齢や性別を特定しない汎用性の高い話者認識を精度良く実現するための閾値を得ることができないのである。加えて、認識対象となる音声データを取得する環境と同一の環境を用いて、多数の話者の音声データを取得すること自体にも、大きな困難が生じる。

そこで、話者の性別や年齢などの個人属性、並びに音声データの取得環境による影響を排除し、汎用性が高く、かつ高精度な話者認識をいかにして実現するか重要な課題となっている。

本発明は、上述した従来技術の課題を解決するためになされたものであって、汎用性と認識精度を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するため、請求項１に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出手段と、前記分布算出手段により算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別手段とを備えたことを特徴とする。

また、請求項２に記載の発明は、請求項１に記載の発明において、前記分布算出手段は、前記同一の登録対象者の音声データ間の距離のガウス分布を算出し、前記判別値算出手段は、前記ガウス分布の累積分布関数が指定された本人受理率と一致する距離を前記判別値として算出することを特徴とする。

また、請求項３に記載の発明は、請求項２に記載の発明において、前記ガウス分布の標準偏差に対する係数と前記本人受理率との対応関係を記憶する対応関係記憶手段をさらに備え、前記判別値算出手段は、前記対応関係記憶手段によって前記指定された本人受理率に対応付けられた係数を前記ガウス分布の標準偏差に乗算し、前記ガウス分布の平均値を加算した値を前記判別値として算出することを特徴とする。

また、請求項４に記載の発明は、請求項１、２又は３に記載の発明において、前記認識対象となる音声データの入力を受け付ける入力受付手段をさらに備え、前記分布算出手段は、前記入力受付手段により受け付けられた前記登録対象者の複数の音声データから前記類似度の分布を算出することを特徴とする。

また、請求項５に記載の発明は、請求項１〜４のいずれか一つに記載の発明において、前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記認識対象となる音声データを前記登録対象者の音声データとして追加登録する追加登録手段をさらに備え、前記分布算出手段は、前記追加登録手段により追加登録された音声データをさらに用いて前記類似度の分布を算出することを特徴とする。

また、請求項６に記載の発明は、請求項１〜５のいずれか一つに記載の発明において、前記分布算出手段は、前記同一の登録対象者の複数の音声データとして用いるために、音声データの登録を行なう際に、前記同一の登録対象者について既に登録された登録済の音声データが存在する場合には、前記登録済の音声データとの類似度に応じて、登録対象の音声データの登録可否を判定することを特徴とする。

また、請求項７に記載の発明は、請求項１〜６のいずれか一つに記載の発明において、監視対象に対する監視動作を行なう監視手段と、前記認識対象となる音声データに含まれる単語を判定する単語判定手段と、前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の監視動作を制御する制御手段とをさらに備えたことを特徴とする。

また、請求項８に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップとを含んだことを特徴とする。

また、請求項９に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップとをコンピュータに実行させることを特徴とする。

本発明によれば、同一の登録対象者の複数の音声データから、音声データ間の類似度の分布を算出し、該類似度の分布のみから、認識対象となる音声データの話者が登録対象者であるか否かを判別する為の判別値を算出し、認識対象となる音声データが入力された場合に、入力された音声データと登録対象者の音声データとの類似度を算出して判別値と比較することにより話者の判別を行なうので、話者認識の汎用性と認識精度を向上することができる。

図１は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図２は、図１に示した話者認識部の内部構成を示す内部構成図である。図３は、個人属性による話者間距離分布の変動について説明するための説明図である。図４は、音声データの録音環境による分布の変動について説明するための説明図である。図５は、照合処理の算出にかかる話者内距離分布と累積分布関数を示す図である。図６は、ガウス分布の平均値と標準偏差を用いた判別値算出を説明するための説明図である。図７は、本人受理率と係数のテーブルを示す図である。図８は、話者照合の実験結果を示す図である。図９は、登録モードにおける話者認識部の処理手順を示すフローチャートである。図１０は、認識モードにおける話者認識部の処理手順を示すフローチャートである。図１１は、話者認識部の変形例について説明するための説明図である。

以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。

図１は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図１に示すホームセキュリティシステムは、監視装置６０にドア監視装置１１、窓監視装置１２、火災検知装置１３及び話者認識装置３０を接続し、話者認識装置３０にマイクロホン２０を接続した構成を有する。

ドア監視装置１１は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置１１は、ピッキングなどの侵入の試みを検知した場合には、監視装置６０に対して報知を行なう。

窓監視装置１２は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置１２は、窓に対する衝撃等を検知した場合には、監視装置６０に対して報知を行なう。

火災検知装置１３は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置１３は、火災の発生を検知した場合には、監視装置６０に対して報知を行なう。

マイクロホン２０は、玄関等の出入口に設置され、音響信号を取得して話者認識装置３０に出力する装置である。マイクロホン２０は、常に動作し、音響信号の取得及び出力を行なう。なお、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置３０は、任意の場所に設置可能である。また、マイクロホン２０を話者認識装置３０の筐体内に設けてもよい。

話者認識装置３０は、マイクロホン２０が取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置６０に出力する。話者認識装置３０は、話者認識部３１及びテキスト判別部３２を有し、監視装置６０は、監視制御部３３及び監視部３４を有する。話者認識部３１は、マイクロホン２０が取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置６０の監視制御部３３に出力する。また、テキスト判別部３２は、マイクロホン２０が取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置６０の監視制御部３３に出力する。

監視制御部３３は、話者認識部３１により話者が居住者であると認識された場合に、テキスト判別部３２から出力されたテキスト情報に基づいて、監視部３４の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部３４による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部３４による監視動作を終了させる。

監視部３４は、ドア監視装置１１、窓監視装置１２及び火災検知装置１３の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部３４は、監視制御部３３から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置１１、窓監視装置１２又は火災検知装置１３から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部３３から終了指示を受けた場合に終了する。

このように、本実施例に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行なうことが可能である。

次に、図１に示した話者認識部３１の内部構成について説明する。図２は、図１に示した話者認識部３１の内部構成を示す内部構成図である。図２に示すように、話者認識部３１は、ＡＤ変換部４１、音声区間抽出部４２、特徴パラメータ算出部４３、切替部４４、記憶部４５、距離算出部４６、認識処理部４７及び判別値生成部４８を有する。

ＡＤ変換部４１は、マイクロホン２０が取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部４２に出力する処理を行なう処理部である。

音声区間抽出部４２は、ＡＤ変換部４１によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行なうことができる。

特徴パラメータ算出部４３は、音声区間抽出部４２から出力された音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、ＬＰＣ（Linear Predictive Coding）ケプストラム係数や、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の任意の手法を用いることができる。

切替部４４は、話者認識部３１の動作モードを切り替える処理部である。話者認識部３１の動作モードには、登録モードと認識モードとがある。切替部４４により登録モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、記憶部４５に音声特徴データとして格納される。一方、切替部４４により認識モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、入力データとして距離算出部４６に出力される。

記憶部４５は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、話者登録データを記憶する。話者登録データは、登録対象者毎に生成され、別データとして記憶される。１つの話者登録データは、同一の登録対象者による複数の音声特徴データと、該登録対象者用の照合判別値とが含まれる。図２では、記憶部４５は、話者登録データＲ１及び話者登録データＲ２を記憶している。

判別値生成部４８は、話者登録データに含まれる複数の音声特徴データから、照合判別値を生成する処理部であり、話者内距離算出部４８ａ、分布生成部４８ｂ及び判別値算出部４８ｃを有する。

話者内距離算出部４８ａは、話者登録データに含まれる複数の音声特徴データ、即ち、話者が同一の複数の音声特徴データを用い、音声特徴データ間の距離を算出する。従って、Ｍ個の音声特徴データを有する話者登録データでは、Ｍ（Ｍ−１）／２個の距離が算出されることとなる。

分布生成部４８ｂは、話者内距離算出部４８ａにより算出されたＭ（Ｍ−１）／２個の距離の分布をガウス分布で近似する処理部である。判別値算出部４８ｃは、分布生成部４８ｂにより生成されたガウス分布の累積分布関数を求め、その値が達成すべき本人受理率と一致する距離を照合判別値として算出する。判別値算出部４８ｃは、算出した照合判別値を話者登録データに登録する。

ここで、本人受理率とは、本人を本人と正しく認識する確率である。本人を他人と誤って認識することは、「本人を棄却する」という。本人受理率については、
（本人受理率）＝１−（本人を棄却する確率）
が成立する。
また、他人を他人と正しく認識する確率は「他人棄却率」といい、他人を本人と誤って認識することは、「他人を受理する」という。他人棄却率については、
（他人棄却率）＝１−（他人を受理する確率）
が成立する。

距離算出部４６は、入力データと話者登録データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、距離算出部４６は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離とする。なお、算出した複数の距離のうち、最小の距離を話者登録データとの距離としてもよい。また、話者登録データに含まれる複数の音声特徴データのいずれかを代表音声特徴データとし、入力データと代表音声特徴データとの距離を話者登録データとの距離としてもよい。

距離算出部４６は、入力データと話者登録データとの距離を認識処理部４７に出力する。距離算出部４６による距離の算出と出力は、複数の話者登録データについてそれぞれ行なう。

認識処理部４７は、話者識別部４７ａと、話者照合部４７ｂとを有する。話者識別部４７ａは、距離算出部４６により算出された距離が最小となる話者登録データを選択する。この話者登録データの話者が、入力データの話者候補となる。

話者照合部４７ｂは、話者識別部４７ａにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する。この距離が照合判別値よりも小さいならば、話者照合部４７ｂは、当該話者登録データの話者と入力データの話者とが一致すると判定する。話者照合部４７ｂは、判定結果を監視装置６０に出力する。

このように、話者認識部３１は、登録対象者の音声特徴データを複数取得し、登録対象者毎に話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定する。話者間距離分布を用いないことから、登録対象者と比較するための他者の音声特徴データが不要であり、年齢や性別などの個人属性による話者間距離分布の変動の影響を受けることがない。また、実際の使用環境において登録対象者の音声特徴データを取得して話者内距離分布を生成することから、使用環境の違いによる影響を受けることもない。

ここで、個人属性による分布の変動について説明する。図３は、個人属性による話者間距離分布の変動について説明するための説明図である。図３（ａ）は、話者に成人、児童及び高齢者の全年齢層を含む場合の話者内距離分布（実線）及び話者間距離分布（破線）を示している。話者に全年齢層を含む場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「０．５６」の場合である。話者内距離分布と話者間距離分布から閾値を求める従来の技術では、この「０．５６」が閾値となる。

図３（ｂ）は、話者が成人のみである場合の話者内距離分布（実線）及び話者間距離分布（破線）を示している。話者が成人のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「０．５６」の場合である。すなわち、話者に全年齢層を含む場合と同様であり、この「０．５６」が閾値となる。

図３（ｃ）は、話者が児童のみである場合の話者内距離分布（実線）及び話者間距離分布（破線）を示している。話者が児童のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「０．５１」の場合である。すなわち、話者が児童である場合には、適切な閾値は「０．５１」であり、全年齢層を含む場合の閾値「０．５６」よりも小さくなる。

図３（ｄ）は、話者が高齢者のみである場合の話者内距離分布（実線）及び話者間距離分布（破線）を示している。話者が高齢者のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「０．５８」の場合である。すなわち、話者が高齢者である場合には、適切な閾値は「０．５８」であり、全年齢層を含む場合の閾値「０．５６」よりも大きくなる。

このため、話者に全年齢層を含むことを想定して閾値「０．５６」を用いた話者照合を行なうと、児童や高齢者が話者であった場合に照合精度が低下する。具体的には、話者が高齢者である場合には、適切な閾値「０．５８」よりも小さい閾値を用いることになるため、本人を棄却する誤り率が増大し、話者が児童である場合には、適切な閾値「０．５１」よりも大きい閾値を用いることになるため、他人を受理する誤り率が増大することとなる。

図３（ｅ）は、閾値「０．５６」を用いた話者照合を行なった場合の、本人を棄却する平均誤り率である。図３（ｅ）に示すように、話者が成人や児童であれば本人を棄却する平均誤り率が２％以下となる。しかし、話者が男性高齢者である場合には本人を棄却する平均誤り率が３．４％となり、話者が女性高齢者である場合には本人を棄却する平均誤り率が約５．２％となる。

図３（ｆ）は、閾値「０．５６」を用いた話者照合を行なった場合の、他人を受理する平均誤り率である。図３（ｆ）に示すように、話者が成人や高齢者であれば他人を受理する平均誤り率が１％以下となる。しかし、話者が男子児童である場合には他人を受理する平均誤り率が３．９％となり、話者が女子児童である場合には他人を受理する平均誤り率が約５．６％となる。

次に、音声データの録音環境による分布の変動について説明する。図４は、音声データの録音環境による分布の変動について説明するための説明図である。図４は、同一の話者が同一の発話内容を複数回発話したときの話者内距離分布であり、録音環境１と録音環境２の異なる録音環境での話者内距離分布の違いを示している。

このように、録音環境によって話者内距離分布の平均及び分散が異なることから、話者照合時に用いる実際の録音環境で取得した音声により登録を行なうことが、話者照合の精度を向上するために重要である。しかし、話者間距離分布を生成するためは、多くの他者の音声データを取得する必要があるため、実際の録音環境で十分な数の他者の音声データを取得することは困難である。

そこで、本実施例にかかる話者認識部３１は、実際の録音環境で登録対象者の音声特徴データを複数取得して話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定することにより、話者間距離分布を不要とし、個人属性や使用環境の違いによる影響を受けることなく高精度な話者照合を実現しているのである。

次に、照合判別値の算出について具体的に説明する。図５は、照合処理の算出にかかる話者内距離分布と累積分布関数を示す図である。図５に示す分布は、登録対象者である話者が繰り返し発話した音声の話者内距離分布をガウス分布で近似したものである。

そして、図５に示す累積分布関数Ｆは、このガウス分布の累積分布関数である。話者照合において達成すべき本人受理率をｐ_kとすると、累積分布関数Ｆの値がｐ_kとなる距離Ｔ_kが照合判別値として適切な値となる。

なお、図５に示したようにガウス分布の積分値を算出して照合判別値Ｔ_kを求めてもよいが、本人受理率ｐ_kと照合判別値Ｔ_kとの対応関係を示すテーブルを用いてもよい。具体的には、図６に示すように、ガウス分布の平均値μと標準偏差σにより、
Ｔ_k＝μ＋α・σ
と表現すれば、本人受理率ｐ_kに対応する係数αのテーブルを持てばよいことになる。図７は、本人受理率ｐ_kと係数αのテーブルを示す図である。図７は、本人受理率ｐ_k「９０．０％」〜「９９．０％」について、対応する係数αを対応付けたテーブルの一例である。このようなテーブルを保持しておけば、所望の本人受理率ｐ_kにより対応する係数αを簡易に求めることが可能である。

次に、話者照合の実験結果について説明する。図８は、話者照合の実験結果を示す図である。この実験結果は、児童、成人、高齢者の男女を各１００名分含む音声データを用いたものである。

従来技術のように、話者間距離分布と話者内距離分布から算出した閾値を用いると、本人受理率は全ての年齢層と性別で９４％以上であるが、児童の他人棄却率が大きく低下し、８２％となる場合もある。

これに対し、本実施例に開示した手法により、本人受理率９８％に対応する照合判別値を用いたならば、本人受理率と他人棄却率は、いずれも年齢層や性別に関わらず９４％以上を達成している。

次に、話者認識部３１の処理手順について説明する。図９は、登録モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により登録モードに設定された状態で実行される。

まず、マイクロホン２０が音響信号を取得する（ステップＳ１０１）。音声区間抽出部４２は、マイクロホン２０が取得した音響信号から音声区間を抽出する（ステップＳ１０２）。

特徴パラメータ算出部４３は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ１０３）。そして、算出した特徴パラメータを記憶部４５に音声特徴データとして蓄積し（ステップＳ１０４）、同一の話者について音声特徴データを所定数登録したかを判定する（ステップＳ１０５）。

同一の話者について登録した音声特徴データの数が所定数に満たない場合には（ステップＳ１０５；Ｎｏ）、話者認識部３１は、ステップＳ１０１に移行し、マイクロホン２０による音響信号の取得を行なう。

同一の話者について音声特徴データを所定数登録したならば（ステップＳ１０５；Ｙｅｓ）、判別値生成部４８の話者内距離算出部４８ａは、話者が同一の複数の音声特徴データを用い、音声特徴データ間の距離を算出する（ステップＳ１０６）。

判別値生成部４８の分布生成部４８ｂは、話者内距離算出部４８ａにより算出された距離の分布をガウス分布で近似する（ステップＳ１０７）。判別値生成部４８の判別値算出部４８ｃは、分布生成部４８ｂにより生成されたガウス分布の累積分布関数を求め、その値が達成すべき本人受理率と一致する距離を照合判別値として算出する（ステップＳ１０８）。判別値算出部４８ｃは、算出した照合判別値を話者登録データに登録し（ステップＳ１０９）、登録処理を終了する。

図１０は、認識モードにおける話者認識部３１の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により認識モードに設定された状態で実行される。

まず、マイクロホン２０が音響信号を取得する（ステップＳ２０１）。音声区間抽出部４２は、マイクロホン２０が取得した音響信号から音声区間を抽出する（ステップＳ２０２）。

特徴パラメータ算出部４３は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ２０３）。

距離算出部４６は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離として算出する（ステップＳ２０４）。

距離算出部４６は、全ての話者登録データとの距離を算出したかを判定し（ステップＳ２０５）、入力データとの距離を算出していない話者登録データが残っている場合には（ステップＳ２０５；Ｎｏ）、話者登録データとの距離の算出に移行する（ステップＳ２０４）。

全ての話者登録データとの距離を算出したならば（ステップＳ２０５；Ｙｅｓ）、話者識別部４７ａは、距離算出部４６により算出された距離が最も小さい話者登録データを選択する（ステップＳ２０６）。

話者照合部４７ｂは、話者識別部４７ａにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する（ステップＳ２０７）。話者識別部４７ａにより選択された話者登録データと入力データとの距離が照合判別値よりも小さいならば（ステップＳ２０７；Ｙｅｓ）、話者照合部４７ｂは、当該話者登録データの話者と入力データの話者とが一致すると判定し、判定結果を監視装置６０に出力して処理を終了する（ステップＳ２０８）。

一方、話者識別部４７ａにより選択された話者登録データと入力データとの距離が照合判別値以上であるならば（ステップＳ２０７；Ｎｏ）、話者照合部４７ｂは、当該話者登録データの話者と入力データの話者とが一致しないと判定し、判定結果を監視装置６０に出力して処理を終了する（ステップＳ２０９）。

上述してきたように、本実施例では、話者認識部３１は、実際の録音環境で登録対象者の音声特徴データを複数取得して話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定するよう構成したので、話者間距離分布を不要とし、個人属性や使用環境の違いによる影響を受けることなく高い精度で話者照合を行なうことができる。

また、照合判別値を事前に生成し、保持しておくことができるため、認識時の処理負荷を大きく軽減することが可能である。

次に、話者認識部の変形例について説明する。図１１は、話者認識部の変形例について説明するための説明図である。図１１に示す話者認識部１３１は、図２に示した話者認識部３１にテキスト判別部５１、登録処理部５２及びデータ選択部５３を追加した構成を有する。

テキスト判別部５１は、音声区間抽出部４２により抽出された音声区間内の単語をテキスト情報として判別する。そして、判別したテキスト情報が予め指定された単語と一致する場合にのみ、音声区間抽出部４２により抽出された音声区間の音声信号を特徴パラメータ算出部４３に出力する。

このように、テキスト判別部５１を用いることにより、同一の単語の音声特徴データが複数蓄積されるので、判別値生成部４８は、同一の単語の話者内距離分布を生成し、照合判別値を算出することになる。また、認識時にも、登録時と同一の単語で識別及び照合を行なうことになるため、認識精度を向上することができる。

登録処理部５２は、認識処理部４７の話者照合部４７ｂにより入力データの話者が登録話者データの話者と一致すると判定された場合に、該入力データを話者登録データに属する音声特徴データとして追加登録する処理部である。

判別値生成部４８は、登録処理部５２により音声特徴データが追加登録された場合には、照合判別値を再度生成し、更新する。この照合判別値の生成と更新は、登録処理部５２による追加登録の直後に行なう必要はないため、照合判別値の生成と更新が話者認識部１３１の負担とならないタイミングで行なうことが好適である。

また、判別値生成部４８は、話者内距離算出部４８ａ、分布生成部４８ｂ及び判別値算出部４８ｃに加え、データ選択部５３をさらに有する。データ選択部５３は、音声特徴データの内、不適切なデータを排除するフィルタとして機能する。

具体的には、話者内距離分布の分散が所定値内に収まるように音声特徴データを選択する。このため、登録処理部５２による音声特徴データの追加登録が行なわれた場合には、追加登録による話者内距離分布の分散の変化を算出し、変化が所定の範囲を逸脱する場合には、音声特徴データの追加登録を取り消すこととなる。

このデータ選択部５３により、適正な音声特徴データを選択して照合判別値を算出し、話者照合の精度を向上することができる。また、音声データの取得環境が変化した場合には、話者間距離分布の分散が変化することを利用し、分散の変化から環境変化を検知することもできる。

ここでは、新規の登録音声データについて、不適切なデータを排除する場合について説明したが、既存の登録音声データであっても、該登録音声データが不適切となった場合には、排除することとしてもよい。同一話者の音声であっても、時間の経過とともにその特徴が変化することがあるからである。

なお、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。

また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。

また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行なう場合には、照合時の処理負荷を抑制しつつ認識精度を得られる本発明は有用である。

また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部３１，１３１の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。

以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、話者認識の利便性向上に適している。

１１ドア監視装置
１２窓監視装置
１３火災検知装置
２０マイクロホン
３０話者認識装置
３１、１３１話者認識部
３２、５１テキスト判別部
３３監視制御部
３４監視部
４１ＡＤ変換部
４２音声区間抽出部
４３特徴パラメータ算出部
４４切替部
４５記憶部
４６距離算出部
４７認識処理部
４７ａ話者識別部
４７ｂ話者照合部
４８判別値生成部
４８ａ話者内距離算出部
４８ｂ分布生成部
４８ｃ判別値算出部
５２登録処理部
５３データ選択部
６０監視装置

Claims

音声データに基づいて該音声データの話者を認識する話者認識装置であって、
同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出手段と、
前記分布算出手段により算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、
前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別手段と
を備えたことを特徴とする話者認識装置。
前記分布算出手段は、前記同一の登録対象者の音声データ間の距離のガウス分布を算出し、
前記判別値算出手段は、前記ガウス分布の累積分布関数が指定された本人受理率と一致する距離を前記判別値として算出する
ことを特徴とする請求項１に記載の話者識別装置。
前記ガウス分布の標準偏差に対する係数と前記本人受理率との対応関係を記憶する対応関係記憶手段をさらに備え、
前記判別値算出手段は、前記対応関係記憶手段によって前記指定された本人受理率に対応付けられた係数を前記ガウス分布の標準偏差に乗算し、前記ガウス分布の平均値を加算した値を前記判別値として算出する
ことを特徴とする請求項２に記載の話者認識装置。
前記認識対象となる音声データの入力を受け付ける入力受付手段をさらに備え、
前記分布算出手段は、前記入力受付手段により受け付けられた前記登録対象者の複数の音声データから前記類似度の分布を算出する
ことを特徴とする請求項１、２又は３に記載の話者認識装置。
前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記認識対象となる音声データを前記登録対象者の音声データとして追加登録する追加登録手段をさらに備え、
前記分布算出手段は、前記追加登録手段により追加登録された音声データをさらに用いて前記類似度の分布を算出する
ことを特徴とする請求項１〜４のいずれか一つに記載の話者認識装置。
前記分布算出手段は、前記同一の登録対象者の複数の音声データとして用いるために、音声データの登録を行なう際に、前記同一の登録対象者について既に登録された登録済の音声データが存在する場合には、前記登録済の音声データとの類似度に応じて、登録対象の音声データの登録可否を判定することを特徴とする請求項１〜５のいずれか一つに記載の話者認識装置。
監視対象に対する監視動作を行なう監視手段と、
前記認識対象となる音声データに含まれる単語を判定する単語判定手段と、
前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の監視動作を制御する制御手段と
をさらに備えたことを特徴とする請求項１〜６のいずれか一つに記載の話者認識装置。
音声データに基づいて該音声データの話者を認識する話者認識方法であって、
同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、
前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップと
を含んだことを特徴とする話者認識方法。
音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、
前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップと
をコンピュータに実行させることを特徴とする話者認識プログラム。