JP6616182B2

JP6616182B2 - 話者認識装置、判別値生成方法及びプログラム

Info

Publication number: JP6616182B2
Application number: JP2015255138A
Authority: JP
Inventors: 西蔵羽山
Original assignee: SOHGO SECURITY SERVICES CO.,LTD.
Current assignee: SOHGO SECURITY SERVICES CO.,LTD.
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2019-12-04
Anticipated expiration: 2035-12-25
Also published as: JP2017116876A

Description

本発明は、話者認識装置、判別値生成方法及びプログラムに関する。

従来、音声信号に基づいて話者を認識する技術が知られている。例えば、特許文献１には、登録対象者の音声信号から算出した特徴パラメータを保存しておき、入力音声の特徴パラメータとの類似度に基づいて話者を認識する技術が開示されている。また、特許文献２には、個人属性や使用環境の違いによる影響を下げるため、実際の録音環境で採取された同一の登録対象者の複数の音声から、当該音声間の類似度の分布を算出し、この分布から話者を判別するための判別値を算出する技術が開示されている。

特開２０１４−４８５３４号公報特開２０１４−１４５９３２号公報

ところで、登録対象者が操作に慣れていないような場合、繰り返し発話するうちに、その音量やリズム、トーン等に変化（揺らぎ）が発生することがある。また、操作に慣れた登録対象者であっても、その時の意識や姿勢等によって、発話音声に揺らぎが生じることがある。このように、登録時の発話音声に揺らぎがあると、音声間の類似度が低下するため、適切な判別値を算出できない可能性がある。

本発明は、上記に鑑みてなされたものであって、登録時の発話音声に揺らぎがある場合であっても、適切な判別値を算出することが可能な話者認識装置、判別値生成方法及びプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の話者認識装置は、同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出手段と、前記抽出手段で前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出手段と、複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出手段で算出された前記平均値に対応する前記標準偏差の予測値を特定する特定手段と、前記特定手段で特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、を備える。

本発明によれば、複数の話者の各々から採取された複数の音声信号について予め導出された、有効音声信号の個数の平均値と標準偏差との相関関係に基づき特定した予測値を用いて判別値を算出するので、発話音声に揺らぎがある場合であっても、適切な判別値を算出することができる。

図１は、実施形態に係るホームセキュリティシステムのシステム構成の一例を示す図である。図２は、図１に示した話者認識部の内部構成の一例を示す図である。図３は、照合判別値を説明するための図である。図４は、話者内距離分布の標準偏差と他人受入率との関係を説明するための図である。図５は、キーワードによる本人拒否率（他人受入率）の割合変化を説明するための図である。図６は、平均有効フレーム数と標準偏差との関係を説明するための図である。図７は、話者照合の試験結果を説明するための図である。図８は、話者照合の試験結果を説明するための図である。図９は、登録モードにおける話者認識部の処理手順の一例を示すフローチャートである。図１０は、認識モードにおける話者認識部の処理手順の一例を示すフローチャートである。

以下に添付図面を参照して、本発明に係る話者認識装置、判別値生成方法及びプログラムの実施形態を詳細に説明する。以下に示す実施形態では、本発明に係る話者認識装置、判別値生成方法及びプログラムを住宅用のホームセキュリティシステムに適用した例について説明する。なお、本発明はこの実施形態に限定されるものではない。

図１は、本実施形態に係るホームセキュリティシステムのシステム構成の一例を示す図である。図１に示すホームセキュリティシステムは、監視装置６０にドア監視装置１１、窓監視装置１２、火災検知装置１３及び話者認識装置３０を接続し、話者認識装置３０にマイクロホン２０を接続した構成を有する。

ドア監視装置１１は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置１１は、ピッキングなどの侵入の試みを検知した場合には、監視装置６０に対して報知を行なう。

窓監視装置１２は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置１２は、窓に対する衝撃等を検知した場合には、監視装置６０に対して報知を行なう。

火災検知装置１３は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置１３は、火災の発生を検知した場合には、監視装置６０に対して報知を行なう。

マイクロホン２０は、玄関等の出入口に設置され、音声信号（音響信号）を取得して話者認識装置３０に出力する装置である。マイクロホン２０は、常に動作し、音声信号の取得及び出力を行なう。なお、人感センサ等を用いて音声信号の取得のオンオフ切替をおこなってもよい。話者認識装置３０は、任意の場所に設置可能である。また、マイクロホン２０を話者認識装置３０の筐体内に設けてもよい。

話者認識装置３０は、マイクロホン２０が取得した音声信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置６０に出力する。話者認識装置３０は、話者認識部３１及びテキスト判別部３２を有する。話者認識部３１は、マイクロホン２０が取得した音声信号の音声が居住者の音声であるか否かを認識し、認識結果を監視装置６０の監視制御部３３に出力する。また、テキスト判別部３２は、マイクロホン２０が取得した音声信号内に含まれる単語をテキスト情報として監視装置６０の監視制御部３３に出力する。

監視装置６０は、監視制御部３３及び監視部３４を有する。監視制御部３３は、話者認識部３１により話者が居住者であると認識された場合に、テキスト判別部３２から出力されたテキスト情報に基づいて、監視部３４の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部３４による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部３４による監視動作を終了させる。

監視部３４は、ドア監視装置１１、窓監視装置１２及び火災検知装置１３の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部３４は、監視制御部３３から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置１１、窓監視装置１２又は火災検知装置１３から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部３３から終了指示を受けた場合に終了する。

このように、本実施形態のホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行うことが可能である。

次に、図１に示した話者認識部３１の内部構成について説明する。図２は、話者認識部３１の内部構成の一例を示す図である。図２に示すように、話者認識部３１は、ＡＤ変換部４１、音声区間抽出部４２、特徴パラメータ算出部４３、切替部４４、記憶部４５、距離算出部４６、認識処理部４７、登録処理部４８及び判別値生成部４９を有する。

ＡＤ変換部４１は、マイクロホン２０が取得した音声信号をアナログ信号からデジタル信号に変換し、音声区間抽出部４２に出力する処理を行う処理部である。

音声区間抽出部４２は、ＡＤ変換部４１によりデジタル信号に変換された音声信号から、音声区間を抽出する処理部である。具体的には、音声区間抽出部４２は、音声信号から所定のフレーム長（区間長）のフレーム（部分音声信号）を複数切り出す。次に、特徴パラメータ算出部４３は、各フレームの音響パワーに基づき、これらフレームの中から音響パワーが所定の閾値（例えば３０ｄＢ等）以上となるフレームを、有意な信号が含まれた有効フレーム（有効音声信号）として抽出する。

ここで、フレームを切り出す際のフレーム長等の条件は一定とするが、その条件は特に問わず、任意に設定することが可能である。例えば、フレーム長を１６ｍｓｅｃとし、シフト幅を８ｍｓｅｃとして切り出してもよい。また、音声信号のサンプリングレートは高い方が好ましく、例えば、１６ｋＨｚ、１６ｂｉｔ等の条件としてもよい。このように、サンプリングレートを高くすることで、フレーム単位の分解能が向上するため（例えば、１６ｋＨｚの場合１フレームが５１２ポイント）、各フレームの特徴を効率的に算出することができる。なお、部分音声信号の切り出しや有効フレームの抽出は、公知の技術を用いることができる。

特徴パラメータ算出部４３は、音声区間抽出部４２で抽出された有効フレーム毎にスペクトル包絡の特徴を示す特徴パラメータを算出する。特徴パラメータの算出方法としては、ＬＰＣ（Linear Predictive Coding）ケプストラム係数や、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）等の任意の手法を用いることができる。

切替部４４は、話者認識部３１の動作モードを切り替える処理部である。話者認識部３１は動作モードとして、登録モードと認識モードとを備える。切替部４４により登録モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、登録処理部４８を介して記憶部４５に音声特徴データとして格納される。一方、切替部４４により認識モードに設定されている場合には、特徴パラメータ算出部４３が算出した特徴パラメータは、入力データとして距離算出部４６に出力される。

記憶部４５は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、話者登録データを記憶する。話者登録データは、登録対象者毎に生成され、別データとして記憶される。１つの話者登録データは、同一の登録対象者による複数の音声特徴データと、当該登録対象者用の照合判別値とを含む。なお、図２では、記憶部４５が２つの話者登録データ（Ｒ１、Ｒ２）を記憶した例を示しているが、記憶する話者登録データの個数はこれに限らないものとする。

距離算出部４６は、入力データと記憶部４５に記憶された音声特徴データと類似性に基づき、両データ間の類似度を算出する処理部である。具体的には、距離算出部４６は、入力データの各フレーム（入力フレーム）について、音声特徴データに含まれた各フレームの特徴パラメータとの距離を総当たりで算出する。そして、距離算出部４６は、入力フレーム毎に算出した複数の距離における最小距離を、音声特徴データとの距離として算出する。ここで、算出される距離は、その値が小さいほど、類似度が高いことを意味する。

なお、入力データと記憶部４５に記憶された音声特徴データとの組み合わせ毎に算出した複数の距離の平均値を、音声特徴データとの距離としてもよい。また、音声特徴データに含まれる複数の特徴パラメータの何れかを代表特徴パラメータとし、入力データと代表特徴パラメータとの距離を音声特徴データとの距離としてもよい。

距離算出部４６は、入力データと音声特徴データとの距離を認識処理部４７に出力する。距離算出部４６による距離の算出と出力は、記憶部４５に記憶された複数の話者登録データ（音声特徴データ）についてそれぞれ行う。

認識処理部４７は、話者識別部４７ａと、話者照合部４７ｂとを有する。話者識別部４７ａは、距離算出部４６により算出された距離が最小となる話者登録データを選択する。この話者登録データの話者が、入力データの話者候補となる。

話者照合部４７ｂは、話者識別部４７ａにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する。本実施形態において、照合判別値は、認識対象となる音声信号の話者が、記憶部４５に話者登録データが登録された話者（居住者）であるか否かを判別する為の判別値である。

話者照合部４７ｂは、話者識別部４７ａにより選択された話者登録データと入力データとの距離が照合判別値よりも小さいならば、この選択された話者登録データの話者と入力データの話者とが一致すると判定する。話者照合部４７ｂは、判定結果を監視装置６０に出力する。

登録処理部４８は、特徴パラメータ算出部４３が算出した音声特徴データを記憶部４５に登録する処理部である。具体的には、登録処理部４８は、同一の登録対象者について特徴パラメータ算出部４３が算出した音声特徴データを蓄積し、当該音声特徴データが所定数（例えば５個等）に達すると、これら複数の音声特徴データを１つの話者登録データとして記憶部４５に記憶する。

ここで、登録処理部４８は、特徴パラメータ算出部４３が算出した全ての音声特徴データを記憶部４５に記憶してもよいし、一部の音声特徴データを除外した状態で記憶部４５に記憶してもよい。後者の構成を採用する場合、例えば、登録処理部４８を以下のように動作させてもよい。

まず、登録処理部４８は、同一の登録対象者について特徴パラメータ算出部４３が算出したＮ個の音声特徴データｖ１〜ｖＮを蓄積する。

次に、登録処理部４８は、音声特徴データｖ１〜ｖＮの各組み合わせについて距離を算出する。この距離の算出方法は、距離算出部４６による距離の算出方法と同様である。登録処理部４８は、各音声特徴データについて、他の音声特徴データとの距離の平均を算出する。例えば、登録処理部４８は、音声特徴データｖ１については音声特徴データｖ１と音声特徴データｖ２〜ｖＮとの距離の平均を算出し、音声特徴データｖ２については音声特徴データｖ２と音声特徴データｖ１、ｖ３〜ｖＮとの距離の平均を算出する。そして、登録処理部４８は、距離の平均が最大となった音声特徴データを除外し、残りの音声特徴データを記憶部４５に記憶する。

なお、ここでは距離の平均を用いたが、これに限らず、距離の合計を用いてもよい。また、距離の平均や合計に対して閾値を設定し、当該閾値を超える音声特徴データを除外してもよい。また、登録処理部４８は、距離算出部４６や後述する判別値生成部４９（話者内距離算出部４９ａ）と協働することで、音声特徴データ間の距離を求めてもよい。

このように、距離の平均等に基づき音声特徴データを選択することで、例えば雑音等が重畳した不適切な音声信号から生成された音声特徴データを除外することができる。

判別値生成部４９は、話者登録データに含まれる複数の音声特徴データから照合判別値を生成する処理部である。判別値生成部４９は、話者内距離算出部４９ａ、平均値算出部４９ｂ及び判別値算出部４９ｃを有する。

話者内距離算出部４９ａは、話者登録データに含まれる複数の音声特徴データ、即ち、同一話者についての複数の音声特徴データに基づき、音声特徴データ間の距離を算出する。この距離の算出方法は、距離算出部４６による距離の算出方法と同様である。従って、話者内距離算出部４９ａは、Ｎ個の音声特徴データから、Ｎ（Ｎ−１）／２個の距離を算出する。

平均値算出部４９ｂは、話者登録データに含まれる複数の音声特徴データの算出時に、音声区間抽出部４２が抽出した有効フレーム数の平均を算出する。具体的には、平均値算出部４９ｂは、話者登録データに含まれる複数の音声特徴データのそれぞれについて、有効フレーム毎に算出された特徴パラメータの数を合計し、その合計値を音声特徴データの個数で除算することで有効フレーム数の平均（以下、平均有効フレーム数という）を算出する。

判別値算出部４９ｃは、話者照合の際に話者照合部４７ｂが用いる照合判別値を算出する。以下、照合判別値について説明する。

図３は、照合判別値を説明するための図である。同一話者の音声信号について距離の分布を算出し、その分布をガウス分布で近似すると、図３（ａ）に示す話者内距離分布Ｄ１が得られる。ここで、図３（ａ）の横軸は距離に対応し、縦軸は頻度に対応する。

また、話者内距離分布Ｄ１の話者と他の話者との音声信号の距離を算出し、その分布をガウス分布で近似すると、図３（ａ）に示す話者間距離分布Ｄ２が得られる。このように、同一人物の音声では特徴パラメータ間の類似性が高くなるため、算出される距離は短くなる。一方、異なる人物の音声では特徴パラメータ間の類似性が低下するため、同一人物の場合と比較し算出される距離は長くなる。上述した認識処理部４７では、この距離の特性を用いることで、話者の照合を行っている。

また、話者内距離分布Ｄ１及び話者間距離分布Ｄ２の累積分布関数から、図３（ｂ）に示すように、話者を照合する際の誤り率が求められる。図３（ｂ）において、横軸は距離に対応し、縦軸は話者照合時の誤り率（照合誤り率）に対応する。

図３（ｂ）において、照合判別値Ｔｈは、誤り率の決定に係る閾値として機能し、照合判別値Ｔｈに応じて誤り率が変動する。例えば、照合判別値Ｔｈを小さく、即ち判定基準を厳しくすると、他人を誤って受け入れる他人受入率は低下するが、本人を誤って棄却する本人拒否率が増加する。また、照合判別値Ｔｈを大きく、即ち判定基準を緩くすると、本人拒否率は低下するが、他人受入率が増加する。

なお、本人を正しく受け入れる本人受入率と、本人拒否率とでは、下記式（１）の関係が成立する。
（本人受入率）＝１−（本人拒否率） …（１）
また、他人を正しく棄却する他人拒否率と、他人受入率とでは、下記式（２）の関係が成立する。
（他人拒否率）＝１−（他人受入率） …（２）

上記した照合判別値に関して、従来、類似度（距離）の分布から照合判別値を算出する方法が提案されている。この従来法では、下記式（３）を用いることで、照合判別値を算出している。
Ｔｈ_k＝μ_k＋α・σ_k …（３）
ここで、Ｔｈ_kは話者ｋの照合判別値、μ_kは話者ｋが複数回発話した音声信号（音声特徴データ）間の最小距離の平均値、αは係数、σ_kは複数回発話された音声信号（音声特徴データ）の標準偏差である。なお、μ_kは距離の平均値としてもよい。

式（３）を用いる場合、本人受入率に対応する係数αを予め求めておくことで、所望の本人受入率を実現可能な照合判別値Ｔｈ_kを導出することができる。例えば、本人拒否率と他人受入率とが同等となる距離に照合判別値Ｔｈ_kを設定することで、話者認識を効率的に行うことができる。

ところで、登録を行う話者が話者認識装置３０の操作に慣れていないような場合、繰り返し発話するうちに、その音量やリズム、トーン等に変化（揺らぎ）が発生することがある。また、操作に慣れた話者であっても、その時の意識や姿勢等によって、発話音声に揺らぎが生じることがある。このように、登録時の発話音声に揺らぎがあると、音声間の類似度が低下するため、適切な照合判別値を算出できない可能性がある。以下、この問題点について説明する。

図４は、話者内距離分布の標準偏差と他人受入率との関係を説明するための図である。横軸は標準偏差に対応し、縦軸は他人受入率に対応する。ここでは、１００名の被験者のそれぞれから採取した複数の音声信号（音声特徴データ）について取得した、話者内距離分布の標準偏差と、当該話者内距離分布と話者間距離分布とから得られた他人受入率との関係を示している。また、１００名の被験者のうち、９０名を話者認識装置３０の操作に不慣れな者とし、残りの１０名を話者認識装置３０の操作に慣れている者とした。なお、１００名の被験者の平均において、他人受入率の値は、本人拒否率と同等となる距離の値を採用している。

図４に示すように、標準偏差が増加すると、つまり同一話者から採取した音声特徴データ間の類似性が低下すると、他人受入率は増加する傾向にある。図３を用いてこの現象を説明すると、音声特徴データ間の類似性の低下により、図３（ａ）に示した話者内距離分布Ｄ１の頻度のピークが低下し、距離の幅が拡大する。これにより、話者内距離分布Ｄ１と話者間距離分布Ｄ２との重なり部分が増加するため、図３（ｂ）に示した本人拒否率と他人受入率との交点部分の照合誤り率が上昇することになる。

このような場合、式（３）に基づき、本人拒否率と他人受入率とが同等となる距離に照合判別値Ｔｈ_kを設定したとしても、安定した音声信号から導出される照合判別値Ｔｈ_kを用いた場合と比較し、本人拒否率及び他人受入率が上昇するため、適切な距離とは言えない。また、登録時には、数回の発話で採取された音声信号の標準偏差に基づき照合判別値Ｔｈ_kが決定されることから、音声信号の揺らぎの影響が顕著に表れるため、適切な距離に照合判別値Ｔｈ_kを設定することが困難である。

さらに、照合判別値に係る他の問題点として、同一の話者であっても発話するキーワードが変わると、本人拒否率と他人受入率との割合も変化することが分かっている。以下、この事象について説明する。

図５は、キーワードによる本人拒否率（他人受入率）の割合変化を説明するための図である。横軸は距離、縦軸は照合誤り率を示している。

図５（ａ）は、或るキーワードａの発話で得られた音声特徴データから算出した本人拒否率と他人受入率との関係を示している。図５（ａ）の場合、本人拒否率と他人受入率との交点に対応する距離１００に照合判別値Ｔｈを設定することで、本人拒否率及び他人受入率を効率的に低下させることができる。

ここで、キーワードｂに変更して得られた音声特徴データから本人拒否率及び他人受入率を算出すると、図５（ｂ）に示すように、本人拒否率と他人受入率との割合が変化する。具体的には、本人拒否率と他人受入率との交点が距離１５０の位置にずれている。

そのため、図５（ａ）の照合判別値Ｔｈを図５（ｂ）の本人拒否率と他人受入率との関係にそのまま適用すると、その照合判別値Ｔｈは適切な距離とならず、本人拒否率が増加する等の問題が生じる。このような場合、発話するキーワードに応じて照合判別値Ｔｈを再度設定し直す必要があるため、キーワードに依存しない汎用的な照合判別値Ｔｈを導出することが望まれている。

そこで、判別値生成部４９の判別値算出部４９ｃは、上記の問題を解消するため、複数の話者の音声信号の分析結果から得られた平均有効フレーム数と標準偏差との関係性に基づき、従来法の標準偏差σ_kに代わる新たな指標（標準偏差予測値）を用いることで照合判別値を算出する。

具体的には、判別値生成部４９の判別値算出部４９ｃは、下記式（４）に基づき照合判別値Ｔｈ_kを算出する。
Ｔｈ_k＝μ_k＋α・ω …（４）

ここで、式（４）のωは、事前に用意された有効フレーム平均値と標準偏差との関係から求まる標準偏差予測値であり、例えば下記式（５）で表される。
ω＝β・ｌｏｇ（ｎ_ef）＋γ …（５）

式（５）において、β、γは係数、ｎ_efは平均有効フレーム数である。以下、式（５）の導出方法について説明する。

図６は、平均有効フレーム数と標準偏差との関係を説明するための図である。横軸は平均有効フレーム数に対応し、縦軸は標準偏差に対応する。ここでは、１００名の被験者のそれぞれから採取した複数の音声信号について、平均有効フレーム数と、話者内距離分布の標準偏差とを算出し、それらの値に対応する位置をプロットした結果を示している。また、１００名の被験者のうち、９０名を話者認識装置３０の操作に不慣れな者とし、残りの１０名を話者認識装置３０の操作に慣れている者とした。なお、本試験では、複数のキーワードを話者に発話させているが、同一のキーワードを発話させてもよい。

図６に示すように、平均有効フレーム数と標準偏差との間には、負の相関関係が存在する。ここで、上記した式（５）は、この平均有効フレーム数と標準偏差との相関関係を示す回帰線のモデル式である。例えば、図６の平均有効フレーム数と標準偏差との相関関係は、下記式（６）にフィッティングする。
ω＝−０．００８１・ｌｎ（ｎ_ef）＋０．０４３７ …（６）

判別値生成部４９の判別値算出部４９ｃは、上記式（５）に基づき、平均値算出部４９ｂが算出した平均有効フレーム数に対応する標準偏差予測値ωを算出（特定）する。そして、判別値生成部４９の判別値算出部４９ｃは、標準偏差予測値ωを式（５）に用いることで、照合判別値Ｔｈ_kを算出する。

上述したように、標準偏差予測値ωは、式（３）の標準偏差σ_kに代わるものであるが、その値の意味は相違する。つまり、式（３）の標準偏差σ_kは、登録対象者（ｋ）自身の発話音声の揺らぎがダイレクトに反映されるのに対し、標準偏差予測値ωでは、複数の話者による平均化効果により発話音声の揺らぎが抑制されたものとなる。したがって、標準偏差予測値ωを用いて照合判別値Ｔｈ_kを算出することで、式（３）を用いた場合と比較し、より適切な位置（距離）に照合判別値Ｔｈ_kを設定することができる。また、キーワードの依存性が低下した、汎用的な照合判別値Ｔｈ_kを導出することができる。

さらに、判別値生成部４９（判別値算出部４９ｃ）による照合判別値Ｔｈ_kの算出方法では、平均有効フレーム数から標準偏差予測値ωを導出できるため、登録時に発話する音声の時間長が例えば２秒以下等の短い場合であっても、適切な照合判別値Ｔｈ_kを算出することができる。より詳細には、複数の話者について取得した平均有効フレーム数と標準偏差との相関関係から、時間長の短い音声信号から算出される平均有効フレーム数からでも、当該平均有効フレーム数に対応する標準偏差予測値ωを導出できるため、音声信号の時間長によらず適切な照合判別値Ｔｈ_kを算出することができる。

なお、図６で示した平均有効フレーム数と標準偏差との相関関係は、図示しない記憶媒体に相関関係情報として予め記憶されているものとする。相関関係情報は、平均有効フレーム数と標準偏差との相関関係を、例えば式（５）や式（６）のモデル式の形態で保持してもよいし、テーブル等の形態で保持してもよい。また、音声信号からフレームを切り出す際の条件に応じた相関関係情報をそれぞれ保持しておき、実施する条件に応じて使用する相関関係情報を選択する構成としてもよい。

図７、図８は、判別値生成部４９の算出方法（以下、提案法という）で算出した照合判別値と、式（３）の従来の算出方法（以下、従来法という）で算出した照合判別値とを用いた場合での、話者照合の試験結果を説明するための図である。

図７は、同一のキーワードの発話により得られた話者照合の結果を示している。ここでは、１００名の被験者に同一のキーワードを、登録時に５回、話者照合時に２０回発話させる試験を３回行い、各試験で得られた本人拒否率及び他人受入率の平均を等価エラー率（％）としている。１００名の被験者のうち、９０名を話者認識装置３０の操作に不慣れな者とし、残りの１０名を話者認識装置３０の操作に慣れている者とした。

また、音声認識エンジンを用い、フレーム長１６ｍｓｅｃ、シフト幅８ｍｓｅｃ、サンプリングレート１６ｋＨｚ、１６ｂｉｔ（１フレーム５１２ポイント）で音声の切り出しを行った。また、従来法の照合判別値を、本人拒否率と他人受入率とが同等となる距離に設定した。

図７に示すように、３回の試験の何れの場合においても、提案法で算出した照合判別値を用いた場合の方が、従来法で算出した照合判別値を用いた場合よりも、本人拒否率と他人受入率とが同等となる等価エラー率が低下するという結果が得られた。なお、試験回数に伴い従来法及び提案法の等価エラー率が徐々に低下するのは、主に話者認識装置３０の操作の習熟によるものである。

このように、判別値生成部４９（判別値算出部４９ｃ）が算出した照合判別値を用いることで、等価エラー率を低下させることができるため、登録時の発話音声に揺らぎがある場合であっても、適切な照合判別値を算出することができる。

図８は、相違なるキーワードの発話により得られた話者照合の結果を示している。ここでは、１００名の被験者が、発話時間及び発話内容の異なる６種類のキーワードを用いて話者照合を行った場合の結果を示している。また、各キーワードについて得られた本人拒否率と他人受入率との結果から、本人拒否率から他人受入率を減算した絶対値をばらつき値として算出し、これらのばらつき値の合計をキーワードの個数で除算した平均を、平均キーワードばらつき値としている。

なお、提案法及び従来法の何れとも、上記した６種類のキーワードとは異なる一のキーワードに基づいて照合判別値を設定した。また、従来法の照合判別値を、本人拒否率と他人受入率とが同等となる距離に設定した。また、１００名の被験者の内訳や、各キーワードの照合回数、音声の切り出しに係る条件等は図７と同様とした。

図８に示すように、従来法で算出した照合判別値を用いた場合よりも、提案法で算出した照合判別値を用いた場合の方が、平均キーワードばらつき値が低下するという結果が得られた。

このように、判別値生成部４９（判別値算出部４９ｃ）が算出した照合判別値を用いることで、平均キーワードばらつき値を低下させることができるため、キーワードに依存しない汎用的な照合判別値を算出することができる。

次に、話者認識部３１の処理手順について説明する。図９は、登録モードにおける話者認識部３１の処理手順の一例を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により登録モードに設定された状態で実行される。

まず、マイクロホン２０が音声信号（音響信号）を取得する（ステップＳ１０１）。音声区間抽出部４２は、マイクロホン２０が取得した音声信号から有効フレームを抽出する（ステップＳ１０２）。

特徴パラメータ算出部４３は、ステップＳ１０２で抽出された有効フレーム毎にスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ１０３）。次いで、登録処理部４８は、特徴パラメータ算出部４３が算出した特徴パラメータを音声特徴データとして蓄積し（ステップＳ１０４）、同一の話者について音声特徴データを所定数蓄積したか否かを判定する（ステップＳ１０５）。

同一の話者について蓄積した音声特徴データの数が所定数に満たない場合（ステップＳ１０５；Ｎｏ）、話者認識部３１は、ステップＳ１０１に移行し、マイクロホン２０による音声信号の取得を行う。

また、同一の話者について音声特徴データを所定数蓄積した場合（ステップＳ１０５；Ｙｅｓ）、登録処理部４８は、それらの音声特徴データを一の話者登録データとして記憶部４５に登録する（ステップＳ１０６）。

続いて、判別値生成部４９の話者内距離算出部４９ａは、ステップＳ１０６で登録された話者登録データが含む複数の音声特徴データに基づき、音声特徴データ間の最小距離の平均値を算出する（ステップＳ１０７）。また、判別値生成部４９の平均値算出部４９ｂは、各音声特徴データについて、ステップＳ１０２で抽出された有効フレーム数の平均有効フレーム数を算出する（ステップＳ１０８）。

続いて、判別値生成部４９の判別値算出部４９ｃは、ステップＳ１０８で算出された平均有効フレーム数と、上記式（５）とに基づき、標準偏差予測値を算出する（ステップＳ１０９）。次いで、判別値生成部４９の判別値算出部４９ｃは、ステップＳ１０７で算出した音声特徴データ間の最小距離の平均値と、ステップＳ１０９で算出した標準偏差予測値と、上記式（４）とに基づき、照合判別値を算出する（ステップＳ１１０）。そして、判別値生成部４９の判別値算出部４９ｃは、算出した照合判別値を、ステップＳ１０６で登録された話者登録データに登録し（ステップＳ１１１）、処理を終了する。

図１０は、認識モードにおける話者認識部３１の処理手順の一例を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部４４により認識モードに設定された状態で実行される。

まず、マイクロホン２０が音声信号（音響信号）を取得する（ステップＳ２０１）。音声区間抽出部４２は、マイクロホン２０が取得した音声信号から有効フレームを抽出する（ステップＳ２０２）。

特徴パラメータ算出部４３は、ステップＳ２０２で抽出された有効フレーム毎にスペクトル包絡の特徴を示す特徴パラメータを算出する（ステップＳ２０３）。

距離算出部４６は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離として算出する（ステップＳ２０４）。

距離算出部４６は、全ての話者登録データとの距離を算出したかを判定し（ステップＳ２０５）、入力データとの距離を算出していない話者登録データが残っている場合には（ステップＳ２０５；Ｎｏ）、話者登録データとの距離の算出に移行する（ステップＳ２０４）。

全ての話者登録データとの距離を算出したならば（ステップＳ２０５；Ｙｅｓ）、認識処理部４７の話者識別部４７ａは、距離算出部４６により算出された距離が最も小さい話者登録データを選択する（ステップＳ２０６）。

認識処理部４７の話者照合部４７ｂは、ステップＳ２０６で選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する（ステップＳ２０７）。ステップＳ２０６で選択された話者登録データと入力データとの距離が照合判別値よりも小さい場合（ステップＳ２０７；Ｙｅｓ）、認識処理部４７の話者照合部４７ｂは、当該話者登録データの話者と入力データの話者とが一致すると判定し（ステップＳ２０８）、判定結果を監視装置６０に出力して処理を終了する。

また、ステップＳ２０６で選択された話者登録データと入力データとの距離が照合判別値以上であれば（ステップＳ２０７；Ｎｏ）、認識処理部４７の話者照合部４７ｂは、当該話者登録データの話者と入力データの話者とが不一致と判定し（ステップＳ２０９）、判定結果を監視装置６０に出力して処理を終了する。

以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

例えば、上記実施形態では、ホームセキュリティの動作モードを音声操作により切り替える場合を説明したが、これに限らず、テキスト判別により多様な操作に適用可能である。

また、上記実施形態では、話者の照合が成功したことを条件にセキュリティの動作モードを切り替える構成としたが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するように構成してもよい。

また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行う場合には、登録時の処理負荷（照合判別値の算出負荷）を抑制しつつ認識精度を得られる本発明は有用である。

また、上記実施形態の話者認識装置３０（話者認識部３１、テキスト判別部３２）、監視装置６０（監視制御部３３、監視部３４）の各機能は、一又は複数の処理回路によって実現することが可能である。なお、処理回路は、プログラムとの協働により各機能部を実現するプロセッサや、各機能を実現するよう設計されたＡＳＩＣ（Application Specific Integrated Circuit）や回路モジュール等のハードウェアを含むものとする。

また、上記実施形態の話者認識装置３０（話者認識部３１、テキスト判別部３２）、監視装置６０（監視制御部３３、監視部３４）の各機能を、プログラムの実行により実現する場合、当該プログラムは各装置が備える、コンピュータで読み取り可能な記憶媒体（図示せず）に予め記憶されているものとする。

１１ドア監視装置
１２窓監視装置
１３火災検知装置
２０マイクロホン
３０話者認識装置
３１話者認識部
３２テキスト判別部
３３監視制御部
３４監視部
４１ＡＤ変換部
４２音声区間抽出部
４３特徴パラメータ算出部
４４切替部
４５記憶部
４６距離算出部
４７認識処理部
４７ａ話者識別部
４７ｂ話者照合部
４８登録処理部
４９判別値生成部
４９ａ話者内距離算出部
４９ｂ平均値算出部
４９ｃ判別値算出部

Claims

同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出手段と、
前記抽出手段で前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出手段と、
複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出手段で算出された前記平均値に対応する前記標準偏差の予測値を特定する特定手段と、
前記特定手段で特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、
を備える話者認識装置。
前記抽出手段で抽出された前記有効音声信号に基づき、前記登録対象者の前記複数の音声信号間の類似度を話者内類似度として算出する類似度算出手段を更に備え、
前記判別値算出手段は、前記特定手段で特定された前記予測値と、前記類似度算出手段で算出された前記話者内類似度とを用いて前記判別値を算出する請求項１に記載の話者認識装置。
前記抽出手段で抽出された前記有効音声信号の各々から、当該有効音声信号のスペクトル包絡を示す特徴パラメータを算出する特徴算出手段を更に備え、
前記類似度算出手段は、前記特徴算出手段で算出された前記特徴パラメータ間の距離に基づき、前記話者内類似度を算出する請求項２に記載の話者認識装置。
前記判別値算出手段は、前記特定手段で特定された前記予測値に所定の係数を乗算した値を、前記類似度算出手段で算出された前記話者内類似度に加算することで前記判別値を算出する請求項２又は３に記載の話者認識装置。
前記相関関係情報は、前記相関関係を示すモデル式又はテーブルを含み、
前記特定手段は、前記相関関係情報に含まれた前記モデル式又は前記テーブルに基づき、前記予測値を特定する請求項１〜４の何れか一項に記載の話者認識装置。
前記認識対象となる音声信号が入力された場合に、当該音声信号と前記登録対象者の前記複数の音声信号との類似度を算出し、当該類似度のうち最も高い類似度が前記判別値を超える場合に、前記認識対象となる音声信号の話者が前記登録対象者と同一人物と判別する判別手段を更に備える請求項１〜５の何れか一項に記載の話者認識装置。
監視対象に対する監視動作を行う監視手段と、
前記認識対象となる音声信号に含まれた単語を判定する単語判定手段と、
前記判別手段により、前記認識対象となる音声信号の話者が前記登録対象者であると判別された場合に、前記単語判定手段で判定された単語に基づいて前記監視手段の監視動作を制御する制御手段と、
を更に備える請求項６に記載の話者認識装置。
同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出ステップと、
前記抽出ステップで前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出ステップと、
複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出ステップで算出された前記平均値に対応する前記標準偏差の予測値を特定する特定ステップと、
前記特定ステップで特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
を含む判別値生成方法。
コンピュータを、
同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出手段と、
前記抽出手段で前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出手段と、
複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出手段で算出された前記平均値に対応する前記標準偏差の予測値を特定する特定手段と、
前記特定手段で特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、
して機能させるためのプログラム。