JP2015055835A - 話者認識装置、話者認識方法及び話者認識プログラム - Google Patents

話者認識装置、話者認識方法及び話者認識プログラム Download PDF

Info

Publication number
JP2015055835A
JP2015055835A JP2013190533A JP2013190533A JP2015055835A JP 2015055835 A JP2015055835 A JP 2015055835A JP 2013190533 A JP2013190533 A JP 2013190533A JP 2013190533 A JP2013190533 A JP 2013190533A JP 2015055835 A JP2015055835 A JP 2015055835A
Authority
JP
Japan
Prior art keywords
voice data
speaker
similarity
distribution
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013190533A
Other languages
English (en)
Inventor
拓明 夏見
Hiroaki Natsumi
拓明 夏見
康貴 田中
Yasutaka Tanaka
康貴 田中
学 川▲崎▼
Manabu Kawasaki
学 川▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sohgo Security Services Co Ltd
Original Assignee
Sohgo Security Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sohgo Security Services Co Ltd filed Critical Sohgo Security Services Co Ltd
Priority to JP2013190533A priority Critical patent/JP2015055835A/ja
Publication of JP2015055835A publication Critical patent/JP2015055835A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声データの取得環境による影響を低減し、認識精度を向上すること。【解決手段】話者認識部31の距離算出部46は、複数の登録音声データについて入力音声データとの距離をそれぞれ算出する。分布算出部47bは、複数の距離の分布をガウス分布に近似し、照合閾値算出部47cは、ガウス分布の平均と標準偏差から照合閾値を算出する。話者照合部47dは、照合閾値算出部47cが算出した照合閾値と距離算出部46が算出した距離の最小値とを比較して照合を行う。かかる構成により、音声データの取得環境による影響を低減し、認識精度を向上することができる。【選択図】図2

Description

この発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。
従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献1は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。
照合処理では、入力音声データと登録モデルデータとの距離を算出し、距離が閾値よりも小さい場合に入力音声データの話者が照合対象者であると判定する。この閾値は、話者が同一の音声データ間の距離の分布である話者内距離分布と、話者が異なる音声データ間の距離の分布である話者間距離分布とから求めることが一般的である。具体的には、話者内距離分布の頻度値と話者間距離分布の頻度値とが一致する距離が閾値として用いられる。
特開2005−091758号公報
しかしながら、音声データ間の距離の分布は、音声データの取得環境に影響を受けて変動するため、従来の技術では必ずしも適切な閾値を求めることができず、認識精度が低下する場合があるという問題点があった。
具体的には、取得環境が異なると、音声データ間の距離は大きくなる。このため、例えば、取得環境が同一の音声データを用いて話者内距離分布及び話者間距離分布を算出し、閾値を決定したならば、入力音声データの話者が登録されたデータの話者と同一であったとしても、取得環境が異なればその距離が大きくなり、閾値以上となって照合が失敗する場合がある。そして、取得環境が異なる音声データを用いて話者内距離分布及び話者間距離分布を算出し、閾値を決定したならば、入力音声データの話者が登録されたデータの話者ではなくとも、取得環境が類似である場合にその距離が小さくなり、誤って同一の話者であるとの照合結果が得られてしまう場合が生じるのである。
これらのことから、音声データの取得環境に依存することなく高精度に話者を認識することが重要な課題となっている。なお、音声データの取得環境とは、通信回線を介しているか否か、背景音の有無など、音声データに影響を与える各種要因を含むものである。
本発明は、上述した従来技術の課題を解決するためになされたものであって、音声データの取得環境による影響を低減し、認識精度を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置であって、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶する記憶手段と、前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手段と、前記類似度算出手段により算出された複数の類似度の分布を算出する分布算出手段と、前記分布算出手段により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手段と、前記類似度算出手段により算出された類似度と前記照合閾値算出手段により算出された照合閾値とを比較して照合を行う照合処理手段とを備えたことを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の発明において、前記分布算出手段は、前記複数の類似度をガウス分布に近似し、前記照合閾値算出手段は、前記ガウス分布の標準偏差及び平均値から前記照合閾値を算出することを特徴とする。
また、請求項3に記載の発明は、請求項1又は2に記載の発明において、前記照合処理手段は、前記複数の類似度のうち、最も高い類似度が前記照合閾値以上である場合に、当該類似度に対応する登録音声データと前記入力音声データの話者が同一人物であると判定することを特徴とする。
また、請求項4に記載の発明は、請求項1、2又は3に記載の発明において、前記類似度算出手段は、前記登録音声データと前記入力音声データとの距離の小ささを前記類似度の高さとして算出することを特徴とする。
また、請求項5に記載の発明は、請求項4に記載の発明において、前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データと前記入力音声データから切り出された複数の部分入力音声データとの組合せについてそれぞれ距離を算出し、算出した距離の最小値を前記登録音声データに対する前記入力音声データの距離とすることを特徴とする。
また、請求項6に記載の発明は、請求項1〜5のいずれか一つに記載の発明において、前記記憶手段は、前記識別すべき話者の登録音声データと、前記識別すべき話者以外の登録音声データとを記憶することを特徴とする。
また、請求項7に記載の発明は、請求項1〜6のいずれか一つに記載の発明において、監視対象に対する監視動作を行う監視手段と、前記入力音声データに含まれる単語を判定する単語判定手段と、前記照合処理手段により、前記入力音声データの話者が前記識別すべき話者であるとの照合結果が得られた場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の動作を制御する制御手段とをさらに備えたことを特徴とする。
また、請求項8に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識方法であって、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納ステップと、前記入力音声データを受け付ける入力音声データ受付ステップと、前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出ステップと、前記類似度算出ステップにより算出された複数の類似度の分布を算出する分布算出ステップと、前記分布算出ステップにより算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出ステップと、前記類似度算出ステップにより算出された類似度と前記照合閾値算出ステップにより算出された照合閾値とを比較して照合を行う照合処理ステップとを含んだことを特徴とする。
また、請求項9に記載の発明は、入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識プログラムであって、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納手順と、前記入力音声データを受け付ける入力音声データ受付手順と、前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手順と、前記類似度算出手順により算出された複数の類似度の分布を算出する分布算出手順と、前記分布算出手順により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手順と、前記類似度算出手順により算出された類似度と前記照合閾値算出手順により算出された照合閾値とを比較して照合を行う照合処理手順とをコンピュータに実行させることを特徴とする。
本発明によれば、識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶し、複数の登録音声データについて入力音声データとの類似度をそれぞれ算出し、算出した複数の類似度の分布から、入力音声データと識別すべき話者の登録音声データとの照合を行うための照合閾値を算出し、類似度と照合閾値とを比較して照合を行うよう構成したので、音声データの取得環境による影響を低減し、認識精度を向上することができる。
図1は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。 図2は、図1に示した話者認識部の内部構成を示す内部構成図である。 図3は、音声データの取得環境による影響について説明するための説明図である。 図4は、話者認識部による閾値の設定について説明するための説明図である。 図5は、話者認識部による照合について説明するための説明図である。 図6は、話者認識部による照合に対する取得環境の影響について説明するための説明図である。 図7は、話者認識部による照合の精度について説明するための説明図である。 図8は、登録モードにおける話者認識部の処理手順を示すフローチャートである。 図9は、認識モードにおける話者認識部の処理手順を示すフローチャートである。
以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。
図1は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図1に示すホームセキュリティシステムは、監視装置60にドア監視装置11、窓監視装置12、火災検知装置13及び話者認識装置30を接続し、話者認識装置30にマイクロホン20、インタホン21及び通信回線22を接続した構成を有する。
ドア監視装置11は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置11は、ピッキングなどの侵入の試みを検知した場合には、監視装置60に対して報知を行う。
窓監視装置12は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置12は、窓に対する衝撃等を検知した場合には、監視装置60に対して報知を行う。
火災検知装置13は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置13は、火災の発生を検知した場合には、監視装置60に対して報知を行う。
マイクロホン20は、住宅内に設置され、音響信号を取得して話者認識装置30に出力する装置である。マイクロホン20は、音響信号の取得及び出力を行う。なお、マイクロホン20は、常に動作させてもよいし、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置30は、任意の場所に設置可能である。また、マイクロホン20を話者認識装置30の筐体内に設けてもよい。
インタホン21は、玄関等の出入口に設置される通話端末装置であり、住宅内の通話端末装置との通話を可能にする。住宅内の通話端末装置としては、図示しない専用の装置を用いてもよいし、監視装置60や話者認識装置30を含む装置に通話端末装置としての機能を持たせてもよい。監視装置60や話者認識装置30を含む装置に通話端末装置としての機能を持たせ、マイクロホン20を話者認識装置30の筐体内に設けた構成では、マイクロホン20をインタホン21との通話に用いることができる。なお、この場合には、インタホン21で取得した音声を住宅内で出力するためのスピーカを話者認識装置30の筐体に設けることとなる。
通信回線22は、電話回線網やインターネット等である。話者認識装置30は、通信回線22を経由して音響信号を取得することが可能である。
話者認識装置30は、マイクロホン20、インタホン21又は通信回線22経由で取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置60に出力する。話者認識装置30は、話者認識部31及びテキスト判別部32を有し、監視装置60は、監視制御部33及び監視部34を有する。話者認識部31は、マイクロホン20、インタホン21又は通信回線22経由で取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置60の監視制御部33に出力する。また、テキスト判別部32は、マイクロホン20、インタホン21又は通信回線22経由で取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置60の監視制御部33に出力する。
監視制御部33は、話者認識部31により話者が居住者であると認識された場合に、テキスト判別部32から出力されたテキスト情報に基づいて、監視部34の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部34による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部34による監視動作を終了させる。
監視部34は、ドア監視装置11、窓監視装置12及び火災検知装置13の出力を用いて、住居の監視を行う処理部である。具体的には、監視部34は、監視制御部33から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置11又は窓監視装置12から異常発生の報知を受けた場合には、警報動作を行うとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部33から終了指示を受けた場合に終了する。
また、監視部34は、監視動作中であるか否かに関わらず、火災検知装置13から異常発生の報知を受けた場合には、警報動作を行うとともに、センタに対して異常発生を通知する。
さらに、監視部34は、テキスト判別部32から特定のテキスト情報が出力された場合には、監視動作中であるか否かに関わらず、センタに対して異常発生を通知する。具体的には、「救急車を呼んで」等、住宅内の人物が助けを求める特定の単語を発したことがテキスト情報により示された場合に、センタに対して異常発生を通知する。なお、テキストの内容によって通知する異常の内容を異ならせてもよい。
このように、本実施例に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行うことが可能である。
次に、図1に示した話者認識部31の内部構成について説明する。図2は、図1に示した話者認識部31の内部構成を示す内部構成図である。図2に示すように、話者認識部31は、AD変換部41、音声区間抽出部42、特徴パラメータ算出部43、切替部44、記憶部45、距離算出部46及び認識処理部47を有する。
AD変換部41は、マイクロホン20、インタホン21又は通信回線22経由で取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部42に出力する処理を行う処理部である。
音声区間抽出部42は、AD変換部41によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行うことができる。
特徴パラメータ算出部43は、音声区間抽出部42から出力された音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
切替部44は、話者認識部31の動作モードを切り替える処理部である。話者認識部31の動作モードには、登録モードと認識モードとがある。切替部44により登録モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、記憶部45に登録音声データとして格納される。一方、切替部44により認識モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、入力音声データとして距離算出部46に出力される。
記憶部45は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、登録音声データを記憶する。登録音声データには、居住者の登録音声データと居住者以外の登録音声データとを含めることができる。
居住者の登録音声データは、登録モードにおいて格納される。認識処理では、入力音声データと居住者の登録音声データとを照合することとなる。居住者以外の登録音声データは、登録モードを用いて格納してもよいし、初期状態で記憶部45に格納して出荷してもよい。居住者以外の登録音声データは、照合にかかる閾値の決定に関与する。図2では、記憶部45は、登録音声データR1及び登録音声データR2を記憶している。
距離算出部46は、入力音声データと登録音声データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、距離算出部46は、同一の登録音声データから複数の部分登録音声データを切り出すとともに、入力音声データから複数の部分入力音声データを切り出し、部分登録音声データと部分入力音声データとの組合せについてそれぞれ距離を算出し、算出した複数の距離のうち、最小の距離を当該登録音声データと入力音声データとの距離とする。なお、算出した複数の距離の平均を登録音声データとの距離としてもよい。
距離算出部46は、入力音声データと登録音声データとの距離を認識処理部47に出力する。距離算出部46による距離の算出と出力は、複数の登録音声データについてそれぞれ行う。
認識処理部47は、話者識別部47aと、分布算出部47bと、照合閾値算出部47cと、話者照合部47dとを有する。話者識別部47aは、距離算出部46により算出された距離が最小となる登録音声データを選択する。この登録音声データの話者が、入力音声データの話者候補となる。
分布算出部47bは、距離算出部46により算出された距離の分布をガウス分布で近似する処理部である。具体的には、分布算出部47bは、記憶部45がN個の登録音声データを記憶している場合には、入力音声データとのN個の距離の平均mと、N個の距離の標準偏差σを求める。
照合閾値算出部47cは、分布算出部47bが算出した平均mと標準偏差σを用い、照合閾値を算出する処理部である。具体的には、予め定めた係数αを用い、m−ασを照合閾値とする。
話者照合部47dは、話者識別部47aにより選択された登録音声データと入力音声データとの距離と、照合閾値算出部47cにより算出された照合閾値とを比較する。この距離が照合閾値よりも小さいならば、話者照合部47dは、当該登録音声データの話者と入力音声データの話者とが一致すると判定する。距離の小ささは、類似度の高さに対応するため、距離が照合閾値以下であることは、類似度が所定の類似度閾値以上であることを意味する。話者照合部47dは、判定結果を監視装置60に出力する。
このように、話者認識部31は、複数の登録音声データについて入力音声データとの距離をそれぞれ算出し、算出した複数の距離の分布をガウス分布に近似し、ガウス分布の平均と標準偏差から照合閾値を算出し、算出した照合閾値と距離の最小値とを比較して照合を行う。かかる構成により、音声データの取得環境による影響を低減し、認識精度を向上することができる。
ここで、音声データの取得環境による影響について説明する。図3は、音声データの取得環境による影響について説明するための説明図である。図3(a)は、入力音声データと登録音声データの取得環境が同一である場合の話者内距離分布と話者間距離分布とを示している。図3(b)は、入力音声データと登録音声データの取得環境が異なる場合の話者内距離分布と話者間距離分布とを示している。
図3(a)及び図3(b)に示すように、話者内距離は、話者間距離よりも距離が小さい範囲で分布する。また、話者内距離も話者間距離も、取得環境が異なる場合は取得環境が同一である場合よりもその距離が大きくなる。
図3(a)のように取得環境が同一の話者内距離分布と話者間距離分布とを用い、その頻度値が一致する距離を照合閾値Th1とすれば、取得環境が同一であれば照合閾値Th1により高精度に話者照合ができる。
しかし、図3(b)では、取得環境が異なるために話者内距離及び話者間距離の分布が距離の大きい側に変動しているので、話者内距離分布と話者間距離分布の頻度値が一致する距離である照合閾値Th2は、照合閾値Th1よりも大きくなる。このため、照合閾値Th1では適正な照合ができない。具体的には、登録音声データと入力音声データの話者が同一であったとしても、本人ではないと誤って棄却してしまう本人拒否率が大きくなるのである。
また、話者内距離分布及び話者間距離分布がどれだけ変動するかは、取得環境により異なる。入力音声データの取得環境を事前に特定することは困難であり、話者内距離分布及び話者間距離分布の変動量を予測することはできない。そのため、事前に照合閾値を適切に決定するのは難しいのである。
次に、話者認識部31による閾値の設定について説明する。図4は、話者認識部31による閾値の設定について説明するための説明図である。図4(a)に示すように、分布算出部47bは、距離算出部46により算出されたN個の距離について、その頻度のヒストグラムを求め、ガウス分布に近似する。
そして、図4(b)に示すように、照合閾値算出部47cは、分布算出部47bが算出したガウス分布の平均mと標準偏差σとを用い、m−ασを照合閾値Th3とする。ここで、係数αは事前に適切な値に設定しておく。
図5は、話者認識部31による照合について説明するための説明図である。入力音声データの話者と登録音声データの話者とが一致しなければ、図5(a)に示すように、距離はガウス分布の平均付近に分布し、照合閾値Th3未満の距離は現れない。一方、入力音声データの話者と登録音声データの話者とが同一である場合には、その距離は他の距離、すなわち、他の話者の登録音声データとの距離よりも有意に小さくなる。そのため、図5(b)に示すように、照合閾値Th3未満の距離が得られることとなる。そこで、話者認識部31は、照合閾値Th3よりも距離が小さい場合に、その距離に対応する登録音声データの話者と入力音声データの話者とが同一であると判定するのである。
次に、取得環境による影響について説明する。図6は、話者認識部31による照合に対する取得環境の影響について説明するための説明図である。図6(a)は、入力音声データと登録音声データの取得環境が同一である場合に話者認識部31が設定した照合閾値を示している。図6(b)は、入力音声データと登録音声データの取得環境が異なる場合に話者認識部31が設定する照合閾値を示している。
図6(b)に示すように、取得環境が異なる場合は取得環境が同一である場合よりもその距離が大きくなる。そして、話者認識部31は、取得環境が異なることで、距離の分布が変動したとしても、変動した距離の分布から照合閾値Th4を設定する。このように、距離の分布に対して相対的に閾値を設定するため、取得環境が異なる場合であっても適切に照合閾値を設定し、高精度に照合を行うことができる。
図7は、話者認識部31による照合の精度について説明するための説明図である。図7(a)は、話者内距離分布及び話者間距離分布から照合閾値を求める従来技術を用いた場合の照合精度を示している。具体的には、2つの音声データの双方をマイクにより直接取得し、話者内距離分布及び話者間距離分布から照合閾値を求めた場合には、他人を誤って受け入れる他人受入率が「2.57%」であり、本人を誤って棄却する本人拒否率が「2.57%」であった。しかし、2つの音声データの一方を通信回線経由で取得し、話者内距離分布及び話者間距離分布から照合閾値を求めた場合には、他人受入率が「0.04%」であり、本人拒否率が「89.4%」であった。
これに対し、入力音声データの登録音声データに対する距離の分布から照合閾値を求める本実施例では、2つの音声データの双方をマイクにより直接取得して照合閾値を求めた場合には、他人受入率が「2.56%」であり、本人拒否率が「0.91%」であった。また、2つの音声データの一方を通信回線経由で取得しても、他人受入率が「3.63%」であり、本人拒否率が「2.86%」であった。
このように、従来の技術では、インタホンや電話等により通信回線を経由すると、本人であっても90%近くが照合失敗となっていたのに対し、本実施例では、通信回線を経由しても97%以上が照合成功となった。
次に、話者認識部31の処理手順について説明する。図8は、登録モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により登録モードに設定された状態で実行される。
まず、マイクロホン20、インタホン21又は通信回線22経由で音響信号を取得する(ステップS101)。音声区間抽出部42は、取得した音響信号から音声区間を抽出する(ステップS102)。
特徴パラメータ算出部43は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS103)。そして、算出した特徴パラメータを記憶部45に登録音声データとして追加し(ステップS104)、登録処理を終了する。
図9は、認識モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により認識モードに設定された状態で実行される。
まず、マイクロホン20、インタホン21又は通信回線22経由で音響信号を取得する(ステップS201)。音声区間抽出部42は、取得した音響信号から音声区間を抽出する(ステップS202)。
特徴パラメータ算出部43は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS203)。
距離算出部46は、N個の登録音声データについて、入力音声データとの距離Di(1≦i≦N)を算出する(ステップS204)。話者識別部47aは、距離Diが最小となる登録音声データを特定する(ステップS205)。この登録音声データの話者が、入力音声データの話者候補となる。
分布算出部47bは、距離Diの分布をガウス分布で近似する(ステップS206)。具体的には、
Figure 2015055835
Figure 2015055835
により、平均m及び標準偏差σを求める。
照合閾値算出部47cは、平均mと標準偏差σを用い、照合閾値を算出する(ステップS207)。具体的には、
Figure 2015055835
により照合閾値Thを求める。
話者照合部47dは、ステップS205で特定した登録音声データとの距離、すなわち、距離Diの最小値が、照合閾値Th未満であるか否かを判定する(ステップS208)。
距離Diの最小値が、照合閾値Th未満であるならば(ステップS208;Yes)、話者照合部47dは、ステップS205で特定した登録音声データの話者と入力音声データの話者とが一致すると判定し、判定結果を監視装置60に出力して処理を終了する(ステップS209)。
一方、距離Diの最小値が、照合閾値Th以上であるならば(ステップS208;No)、話者照合部47dは、入力音声データと話者が一致する登録音声データなしと判定し、判定結果を監視装置60に出力して処理を終了する(ステップS210)。
上述してきたように、本実施例では、話者認識部31は、複数の登録音声データについて入力音声データとの距離をそれぞれ算出し、算出した複数の距離の分布をガウス分布に近似し、ガウス分布の平均と標準偏差から照合閾値を算出し、算出した照合閾値と距離の最小値とを比較して照合を行う。かかる構成により、音声データの取得環境による影響を低減し、認識精度を向上することができる。
なお、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。
また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。
また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。また、電話回線を介した話者認識による「振り込め詐欺対策」や、「インタホン越しの音声による本人確認」などへの適用も可能である。
また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部31の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。
以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、音声データの取得環境による影響を低減し、認識精度を向上することに適している。
11 ドア監視装置
12 窓監視装置
13 火災検知装置
20 マイクロホン
21 インタホン
22 通信回線
30 話者認識装置
31 話者認識部
32 テキスト判別部
33 監視制御部
34 監視部
41 AD変換部
42 音声区間抽出部
43 特徴パラメータ算出部
44 切替部
45 記憶部
46 距離算出部
47 認識処理部
47a 話者識別部
47b 分布算出部
47c 照合閾値算出部
47d 話者照合部
60 監視装置

Claims (9)

  1. 入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識装置であって、
    識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶する記憶手段と、
    前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手段と、
    前記類似度算出手段により算出された複数の類似度の分布を算出する分布算出手段と、
    前記分布算出手段により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手段と、
    前記類似度算出手段により算出された類似度と前記照合閾値算出手段により算出された照合閾値とを比較して照合を行う照合処理手段と
    を備えたことを特徴とする話者認識装置。
  2. 前記分布算出手段は、前記複数の類似度をガウス分布に近似し、前記照合閾値算出手段は、前記ガウス分布の標準偏差及び平均値から前記照合閾値を算出することを特徴とする請求項1に記載の話者認識装置。
  3. 前記照合処理手段は、前記複数の類似度のうち、最も高い類似度が前記照合閾値以上である場合に、当該類似度に対応する登録音声データと前記入力音声データの話者が同一人物であると判定することを特徴とする請求項1又は2に記載の話者認識装置。
  4. 前記類似度算出手段は、前記登録音声データと前記入力音声データとの距離の小ささを前記類似度の高さとして算出することを特徴とする請求項1、2又は3に記載の話者認識装置。
  5. 前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データと前記入力音声データから切り出された複数の部分入力音声データとの組合せについてそれぞれ距離を算出し、算出した距離の最小値を前記登録音声データに対する前記入力音声データの距離とすることを特徴とする請求項4に記載の話者認識装置。
  6. (利用者以外の登録データを記憶する構成で限定)
    前記記憶手段は、前記識別すべき話者の登録音声データと、前記識別すべき話者以外の登録音声データとを記憶することを特徴とする請求項1〜5のいずれか一つに記載の話者認識装置。
  7. 監視対象に対する監視動作を行う監視手段と、
    前記入力音声データに含まれる単語を判定する単語判定手段と、
    前記照合処理手段により、前記入力音声データの話者が前記識別すべき話者であるとの照合結果が得られた場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の動作を制御する制御手段と
    をさらに備えたことを特徴とする請求項1〜6のいずれか一つに記載の話者認識装置。
  8. 入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識方法であって、
    識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納ステップと、
    前記入力音声データを受け付ける入力音声データ受付ステップと、
    前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出ステップと、
    前記類似度算出ステップにより算出された複数の類似度の分布を算出する分布算出ステップと、
    前記分布算出ステップにより算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出ステップと、
    前記類似度算出ステップにより算出された類似度と前記照合閾値算出ステップにより算出された照合閾値とを比較して照合を行う照合処理ステップと
    を含んだことを特徴とする話者認識方法。
  9. 入力された入力音声データに基づいて該入力音声データの話者を認識する話者認識プログラムであって、
    識別すべき話者の登録音声データを少なくとも含む複数の登録音声データを記憶部に格納する格納手順と、
    前記入力音声データを受け付ける入力音声データ受付手順と、
    前記複数の登録音声データについて前記入力音声データとの類似度をそれぞれ算出する類似度算出手順と、
    前記類似度算出手順により算出された複数の類似度の分布を算出する分布算出手順と、
    前記分布算出手順により算出された前記類似度の分布から、前記入力音声データと前記識別すべき話者の登録音声データとの照合を行うための照合閾値を算出する照合閾値算出手順と、
    前記類似度算出手順により算出された類似度と前記照合閾値算出手順により算出された照合閾値とを比較して照合を行う照合処理手順と
    をコンピュータに実行させることを特徴とする話者認識プログラム。
JP2013190533A 2013-09-13 2013-09-13 話者認識装置、話者認識方法及び話者認識プログラム Pending JP2015055835A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013190533A JP2015055835A (ja) 2013-09-13 2013-09-13 話者認識装置、話者認識方法及び話者認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013190533A JP2015055835A (ja) 2013-09-13 2013-09-13 話者認識装置、話者認識方法及び話者認識プログラム

Publications (1)

Publication Number Publication Date
JP2015055835A true JP2015055835A (ja) 2015-03-23

Family

ID=52820245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013190533A Pending JP2015055835A (ja) 2013-09-13 2013-09-13 話者認識装置、話者認識方法及び話者認識プログラム

Country Status (1)

Country Link
JP (1) JP2015055835A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020034941A (ja) * 2016-11-07 2020-03-05 グーグル エルエルシー 記録されたメディアホットワードトリガ抑制
JP2021189228A (ja) * 2020-05-26 2021-12-13 株式会社アートクリフ 信号判定装置及びプログラム
WO2022149384A1 (ja) 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム
US11443750B2 (en) 2018-11-30 2022-09-13 Samsung Electronics Co., Ltd. User authentication method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284798A (ja) * 1999-04-01 2000-10-13 Fujitsu Ltd 話者照合装置及び方法
JP2002372982A (ja) * 2001-06-15 2002-12-26 Secom Co Ltd 音響信号分析方法及び装置
JP2003289587A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 機器制御装置および機器制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284798A (ja) * 1999-04-01 2000-10-13 Fujitsu Ltd 話者照合装置及び方法
JP2002372982A (ja) * 2001-06-15 2002-12-26 Secom Co Ltd 音響信号分析方法及び装置
JP2003289587A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 機器制御装置および機器制御方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020034941A (ja) * 2016-11-07 2020-03-05 グーグル エルエルシー 記録されたメディアホットワードトリガ抑制
US11443750B2 (en) 2018-11-30 2022-09-13 Samsung Electronics Co., Ltd. User authentication method and apparatus
JP2021189228A (ja) * 2020-05-26 2021-12-13 株式会社アートクリフ 信号判定装置及びプログラム
WO2022149384A1 (ja) 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN109376521B (zh) 用于发言人验证的方法和系统
EP1704668B1 (en) System and method for providing claimant authentication
CN105989836B (zh) 一种语音采集方法、装置及终端设备
CN107958669B (zh) 一种声纹识别的方法及装置
KR20190015488A (ko) 보이스 사용자 인터페이스
CN111656440A (zh) 说话人辨识
WO2006109515A1 (ja) 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
JP6087542B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP2007264507A (ja) ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
JP6239826B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
US20180158462A1 (en) Speaker identification
JP2015055835A (ja) 話者認識装置、話者認識方法及び話者認識プログラム
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
US11437022B2 (en) Performing speaker change detection and speaker recognition on a trigger phrase
CN111816184B (zh) 讲话人识别方法、识别装置以及记录介质
JP2013172411A (ja) 音声認識システム、音声認識方法および音声認識プログラム
WO2020024415A1 (zh) 声纹识别处理方法、装置、电子设备及存储介质
US20200111493A1 (en) Speech recognition device and speech recognition method
JP6616182B2 (ja) 話者認識装置、判別値生成方法及びプログラム
CN107977187B (zh) 一种混响调节方法及电子设备
US11929077B2 (en) Multi-stage speaker enrollment in voice authentication and identification
JP6377921B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
CN110197663B (zh) 一种控制方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170620

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171219