JP6239826B2 - 話者認識装置、話者認識方法及び話者認識プログラム - Google Patents

話者認識装置、話者認識方法及び話者認識プログラム Download PDF

Info

Publication number
JP6239826B2
JP6239826B2 JP2013014664A JP2013014664A JP6239826B2 JP 6239826 B2 JP6239826 B2 JP 6239826B2 JP 2013014664 A JP2013014664 A JP 2013014664A JP 2013014664 A JP2013014664 A JP 2013014664A JP 6239826 B2 JP6239826 B2 JP 6239826B2
Authority
JP
Japan
Prior art keywords
speaker
distribution
data
voice data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013014664A
Other languages
English (en)
Other versions
JP2014145932A (ja
Inventor
康貴 田中
康貴 田中
学 川▲崎▼
学 川▲崎▼
益巳 谷本
益巳 谷本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOHGO SECURITY SERVICES CO.,LTD.
Original Assignee
SOHGO SECURITY SERVICES CO.,LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOHGO SECURITY SERVICES CO.,LTD. filed Critical SOHGO SECURITY SERVICES CO.,LTD.
Priority to JP2013014664A priority Critical patent/JP6239826B2/ja
Publication of JP2014145932A publication Critical patent/JP2014145932A/ja
Application granted granted Critical
Publication of JP6239826B2 publication Critical patent/JP6239826B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声データに基づいて該音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。
従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献1は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。
照合処理では、入力音声データと登録モデルデータとの距離を算出し、距離が閾値よりも小さい場合に入力音声データの話者が照合対象者であると判定する。この閾値は、話者が同一の音声データ間の距離の分布である話者内距離分布と、話者が異なる音声データ間の距離の分布である話者間距離分布とから求めることが一般的である。具体的には、話者内距離分布の頻度値と話者間距離分布の頻度値とが一致する距離が閾値として用いられる。
特開2005−091758号公報
しかしながら、音声データ間の距離の分布は、話者の年齢や性別、音声データの取得環境により変動するため、従来の技術では必ずしも適切な閾値を求めることができないという問題点があった。
この点を具体的に説明すると、話者間距離分布は、話者の年齢層や性別等によって平均や分散が変化する。また、同じ話者の話者内距離分布であっても、音声データの取得環境に依存して平均や分散が変動する。
話者間距離分布と話者内距離分布とを用いて閾値を求める従来の技術では、話者間距離分布や話者内距離分布が異なると、適切な閾値も異なることとなる。そのため、従来の技術では、認識対象となる話者の年齢や性別を特定しない汎用性の高い話者認識を精度良く実現するための閾値を得ることができないのである。加えて、認識対象となる音声データを取得する環境と同一の環境を用いて、多数の話者の音声データを取得すること自体にも、大きな困難が生じる。
そこで、話者の性別や年齢などの個人属性、並びに音声データの取得環境による影響を排除し、汎用性が高く、かつ高精度な話者認識をいかにして実現するか重要な課題となっている。
本発明は、上述した従来技術の課題を解決するためになされたものであって、汎用性と認識精度を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出手段と、前記分布算出手段により算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別手段とを備えたことを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の発明において、前記分布算出手段は、前記同一の登録対象者の音声データ間の距離のガウス分布を算出し、前記判別値算出手段は、前記ガウス分布の累積分布関数が指定された本人受理率と一致する距離を前記判別値として算出することを特徴とする。
また、請求項3に記載の発明は、請求項2に記載の発明において、前記ガウス分布の標準偏差に対する係数と前記本人受理率との対応関係を記憶する対応関係記憶手段をさらに備え、前記判別値算出手段は、前記対応関係記憶手段によって前記指定された本人受理率に対応付けられた係数を前記ガウス分布の標準偏差に乗算し、前記ガウス分布の平均値を加算した値を前記判別値として算出することを特徴とする。
また、請求項4に記載の発明は、請求項1、2又は3に記載の発明において、前記認識対象となる音声データの入力を受け付ける入力受付手段をさらに備え、前記分布算出手段は、前記入力受付手段により受け付けられた前記登録対象者の複数の音声データから前記類似度の分布を算出することを特徴とする。
また、請求項5に記載の発明は、請求項1〜4のいずれか一つに記載の発明において、前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記認識対象となる音声データを前記登録対象者の音声データとして追加登録する追加登録手段をさらに備え、前記分布算出手段は、前記追加登録手段により追加登録された音声データをさらに用いて前記類似度の分布を算出することを特徴とする。
また、請求項6に記載の発明は、請求項1〜5のいずれか一つに記載の発明において、前記分布算出手段は、前記同一の登録対象者の複数の音声データとして用いるために、音声データの登録を行なう際に、前記同一の登録対象者について既に登録された登録済の音声データが存在する場合には、前記登録済の音声データとの類似度に応じて、登録対象の音声データの登録可否を判定することを特徴とする。
また、請求項7に記載の発明は、請求項1〜6のいずれか一つに記載の発明において、監視対象に対する監視動作を行なう監視手段と、前記認識対象となる音声データに含まれる単語を判定する単語判定手段と、前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の監視動作を制御する制御手段とをさらに備えたことを特徴とする。
また、請求項8に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップとを含んだことを特徴とする。
また、請求項9に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップとをコンピュータに実行させることを特徴とする。
本発明によれば、同一の登録対象者の複数の音声データから、音声データ間の類似度の分布を算出し、該類似度の分布のみから、認識対象となる音声データの話者が登録対象者であるか否かを判別する為の判別値を算出し、認識対象となる音声データが入力された場合に、入力された音声データと登録対象者の音声データとの類似度を算出して判別値と比較することにより話者の判別を行なうので、話者認識の汎用性と認識精度を向上することができる。
図1は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。 図2は、図1に示した話者認識部の内部構成を示す内部構成図である。 図3は、個人属性による話者間距離分布の変動について説明するための説明図である。 図4は、音声データの録音環境による分布の変動について説明するための説明図である。 図5は、照合処理の算出にかかる話者内距離分布と累積分布関数を示す図である。 図6は、ガウス分布の平均値と標準偏差を用いた判別値算出を説明するための説明図である。 図7は、本人受理率と係数のテーブルを示す図である。 図8は、話者照合の実験結果を示す図である。 図9は、登録モードにおける話者認識部の処理手順を示すフローチャートである。 図10は、認識モードにおける話者認識部の処理手順を示すフローチャートである。 図11は、話者認識部の変形例について説明するための説明図である。
以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。
図1は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図1に示すホームセキュリティシステムは、監視装置60にドア監視装置11、窓監視装置12、火災検知装置13及び話者認識装置30を接続し、話者認識装置30にマイクロホン20を接続した構成を有する。
ドア監視装置11は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置11は、ピッキングなどの侵入の試みを検知した場合には、監視装置60に対して報知を行なう。
窓監視装置12は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置12は、窓に対する衝撃等を検知した場合には、監視装置60に対して報知を行なう。
火災検知装置13は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置13は、火災の発生を検知した場合には、監視装置60に対して報知を行なう。
マイクロホン20は、玄関等の出入口に設置され、音響信号を取得して話者認識装置30に出力する装置である。マイクロホン20は、常に動作し、音響信号の取得及び出力を行なう。なお、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置30は、任意の場所に設置可能である。また、マイクロホン20を話者認識装置30の筐体内に設けてもよい。
話者認識装置30は、マイクロホン20が取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置60に出力する。話者認識装置30は、話者認識部31及びテキスト判別部32を有し、監視装置60は、監視制御部33及び監視部34を有する。話者認識部31は、マイクロホン20が取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置60の監視制御部33に出力する。また、テキスト判別部32は、マイクロホン20が取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置60の監視制御部33に出力する。
監視制御部33は、話者認識部31により話者が居住者であると認識された場合に、テキスト判別部32から出力されたテキスト情報に基づいて、監視部34の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部34による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部34による監視動作を終了させる。
監視部34は、ドア監視装置11、窓監視装置12及び火災検知装置13の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部34は、監視制御部33から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置11、窓監視装置12又は火災検知装置13から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部33から終了指示を受けた場合に終了する。
このように、本実施例に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行なうことが可能である。
次に、図1に示した話者認識部31の内部構成について説明する。図2は、図1に示した話者認識部31の内部構成を示す内部構成図である。図2に示すように、話者認識部31は、AD変換部41、音声区間抽出部42、特徴パラメータ算出部43、切替部44、記憶部45、距離算出部46、認識処理部47及び判別値生成部48を有する。
AD変換部41は、マイクロホン20が取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部42に出力する処理を行なう処理部である。
音声区間抽出部42は、AD変換部41によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行なうことができる。
特徴パラメータ算出部43は、音声区間抽出部42から出力された音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
切替部44は、話者認識部31の動作モードを切り替える処理部である。話者認識部31の動作モードには、登録モードと認識モードとがある。切替部44により登録モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、記憶部45に音声特徴データとして格納される。一方、切替部44により認識モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、入力データとして距離算出部46に出力される。
記憶部45は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、話者登録データを記憶する。話者登録データは、登録対象者毎に生成され、別データとして記憶される。1つの話者登録データは、同一の登録対象者による複数の音声特徴データと、該登録対象者用の照合判別値とが含まれる。図2では、記憶部45は、話者登録データR1及び話者登録データR2を記憶している。
判別値生成部48は、話者登録データに含まれる複数の音声特徴データから、照合判別値を生成する処理部であり、話者内距離算出部48a、分布生成部48b及び判別値算出部48cを有する。
話者内距離算出部48aは、話者登録データに含まれる複数の音声特徴データ、即ち、話者が同一の複数の音声特徴データを用い、音声特徴データ間の距離を算出する。従って、M個の音声特徴データを有する話者登録データでは、M(M−1)/2個の距離が算出されることとなる。
分布生成部48bは、話者内距離算出部48aにより算出されたM(M−1)/2個の距離の分布をガウス分布で近似する処理部である。判別値算出部48cは、分布生成部48bにより生成されたガウス分布の累積分布関数を求め、その値が達成すべき本人受理率と一致する距離を照合判別値として算出する。判別値算出部48cは、算出した照合判別値を話者登録データに登録する。
ここで、本人受理率とは、本人を本人と正しく認識する確率である。本人を他人と誤って認識することは、「本人を棄却する」という。本人受理率については、
(本人受理率)=1−(本人を棄却する確率)
が成立する。
また、他人を他人と正しく認識する確率は「他人棄却率」といい、他人を本人と誤って認識することは、「他人を受理する」という。他人棄却率については、
(他人棄却率)=1−(他人を受理する確率)
が成立する。
距離算出部46は、入力データと話者登録データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、距離算出部46は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離とする。なお、算出した複数の距離のうち、最小の距離を話者登録データとの距離としてもよい。また、話者登録データに含まれる複数の音声特徴データのいずれかを代表音声特徴データとし、入力データと代表音声特徴データとの距離を話者登録データとの距離としてもよい。
距離算出部46は、入力データと話者登録データとの距離を認識処理部47に出力する。距離算出部46による距離の算出と出力は、複数の話者登録データについてそれぞれ行なう。
認識処理部47は、話者識別部47aと、話者照合部47bとを有する。話者識別部47aは、距離算出部46により算出された距離が最小となる話者登録データを選択する。この話者登録データの話者が、入力データの話者候補となる。
話者照合部47bは、話者識別部47aにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する。この距離が照合判別値よりも小さいならば、話者照合部47bは、当該話者登録データの話者と入力データの話者とが一致すると判定する。話者照合部47bは、判定結果を監視装置60に出力する。
このように、話者認識部31は、登録対象者の音声特徴データを複数取得し、登録対象者毎に話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定する。話者間距離分布を用いないことから、登録対象者と比較するための他者の音声特徴データが不要であり、年齢や性別などの個人属性による話者間距離分布の変動の影響を受けることがない。また、実際の使用環境において登録対象者の音声特徴データを取得して話者内距離分布を生成することから、使用環境の違いによる影響を受けることもない。
ここで、個人属性による分布の変動について説明する。図3は、個人属性による話者間距離分布の変動について説明するための説明図である。図3(a)は、話者に成人、児童及び高齢者の全年齢層を含む場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者に全年齢層を含む場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.56」の場合である。話者内距離分布と話者間距離分布から閾値を求める従来の技術では、この「0.56」が閾値となる。
図3(b)は、話者が成人のみである場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者が成人のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.56」の場合である。すなわち、話者に全年齢層を含む場合と同様であり、この「0.56」が閾値となる。
図3(c)は、話者が児童のみである場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者が児童のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.51」の場合である。すなわち、話者が児童である場合には、適切な閾値は「0.51」であり、全年齢層を含む場合の閾値「0.56」よりも小さくなる。
図3(d)は、話者が高齢者のみである場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者が高齢者のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.58」の場合である。すなわち、話者が高齢者である場合には、適切な閾値は「0.58」であり、全年齢層を含む場合の閾値「0.56」よりも大きくなる。
このため、話者に全年齢層を含むことを想定して閾値「0.56」を用いた話者照合を行なうと、児童や高齢者が話者であった場合に照合精度が低下する。具体的には、話者が高齢者である場合には、適切な閾値「0.58」よりも小さい閾値を用いることになるため、本人を棄却する誤り率が増大し、話者が児童である場合には、適切な閾値「0.51」よりも大きい閾値を用いることになるため、他人を受理する誤り率が増大することとなる。
図3(e)は、閾値「0.56」を用いた話者照合を行なった場合の、本人を棄却する平均誤り率である。図3(e)に示すように、話者が成人や児童であれば本人を棄却する平均誤り率が2%以下となる。しかし、話者が男性高齢者である場合には本人を棄却する平均誤り率が3.4%となり、話者が女性高齢者である場合には本人を棄却する平均誤り率が約5.2%となる。
図3(f)は、閾値「0.56」を用いた話者照合を行なった場合の、他人を受理する平均誤り率である。図3(f)に示すように、話者が成人や高齢者であれば他人を受理する平均誤り率が1%以下となる。しかし、話者が男子児童である場合には他人を受理する平均誤り率が3.9%となり、話者が女子児童である場合には他人を受理する平均誤り率が約5.6%となる。
次に、音声データの録音環境による分布の変動について説明する。図4は、音声データの録音環境による分布の変動について説明するための説明図である。図4は、同一の話者が同一の発話内容を複数回発話したときの話者内距離分布であり、録音環境1と録音環境2の異なる録音環境での話者内距離分布の違いを示している。
このように、録音環境によって話者内距離分布の平均及び分散が異なることから、話者照合時に用いる実際の録音環境で取得した音声により登録を行なうことが、話者照合の精度を向上するために重要である。しかし、話者間距離分布を生成するためは、多くの他者の音声データを取得する必要があるため、実際の録音環境で十分な数の他者の音声データを取得することは困難である。
そこで、本実施例にかかる話者認識部31は、実際の録音環境で登録対象者の音声特徴データを複数取得して話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定することにより、話者間距離分布を不要とし、個人属性や使用環境の違いによる影響を受けることなく高精度な話者照合を実現しているのである。
次に、照合判別値の算出について具体的に説明する。図5は、照合処理の算出にかかる話者内距離分布と累積分布関数を示す図である。図5に示す分布は、登録対象者である話者が繰り返し発話した音声の話者内距離分布をガウス分布で近似したものである。
そして、図5に示す累積分布関数Fは、このガウス分布の累積分布関数である。話者照合において達成すべき本人受理率をpkとすると、累積分布関数Fの値がpkとなる距離Tkが照合判別値として適切な値となる。
なお、図5に示したようにガウス分布の積分値を算出して照合判別値Tkを求めてもよいが、本人受理率pkと照合判別値Tkとの対応関係を示すテーブルを用いてもよい。具体的には、図6に示すように、ガウス分布の平均値μと標準偏差σにより、
k=μ+α・σ
と表現すれば、本人受理率pkに対応する係数αのテーブルを持てばよいことになる。図7は、本人受理率pkと係数αのテーブルを示す図である。図7は、本人受理率pk「90.0%」〜「99.0%」について、対応する係数αを対応付けたテーブルの一例である。このようなテーブルを保持しておけば、所望の本人受理率pkにより対応する係数αを簡易に求めることが可能である。
次に、話者照合の実験結果について説明する。図8は、話者照合の実験結果を示す図である。この実験結果は、児童、成人、高齢者の男女を各100名分含む音声データを用いたものである。
従来技術のように、話者間距離分布と話者内距離分布から算出した閾値を用いると、本人受理率は全ての年齢層と性別で94%以上であるが、児童の他人棄却率が大きく低下し、82%となる場合もある。
これに対し、本実施例に開示した手法により、本人受理率98%に対応する照合判別値を用いたならば、本人受理率と他人棄却率は、いずれも年齢層や性別に関わらず94%以上を達成している。
次に、話者認識部31の処理手順について説明する。図9は、登録モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により登録モードに設定された状態で実行される。
まず、マイクロホン20が音響信号を取得する(ステップS101)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS102)。
特徴パラメータ算出部43は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS103)。そして、算出した特徴パラメータを記憶部45に音声特徴データとして蓄積し(ステップS104)、同一の話者について音声特徴データを所定数登録したかを判定する(ステップS105)。
同一の話者について登録した音声特徴データの数が所定数に満たない場合には(ステップS105;No)、話者認識部31は、ステップS101に移行し、マイクロホン20による音響信号の取得を行なう。
同一の話者について音声特徴データを所定数登録したならば(ステップS105;Yes)、判別値生成部48の話者内距離算出部48aは、話者が同一の複数の音声特徴データを用い、音声特徴データ間の距離を算出する(ステップS106)。
判別値生成部48の分布生成部48bは、話者内距離算出部48aにより算出された距離の分布をガウス分布で近似する(ステップS107)。判別値生成部48の判別値算出部48cは、分布生成部48bにより生成されたガウス分布の累積分布関数を求め、その値が達成すべき本人受理率と一致する距離を照合判別値として算出する(ステップS108)。判別値算出部48cは、算出した照合判別値を話者登録データに登録し(ステップS109)、登録処理を終了する。
図10は、認識モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により認識モードに設定された状態で実行される。
まず、マイクロホン20が音響信号を取得する(ステップS201)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS202)。
特徴パラメータ算出部43は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS203)。
距離算出部46は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離として算出する(ステップS204)。
距離算出部46は、全ての話者登録データとの距離を算出したかを判定し(ステップS205)、入力データとの距離を算出していない話者登録データが残っている場合には(ステップS205;No)、話者登録データとの距離の算出に移行する(ステップS204)。
全ての話者登録データとの距離を算出したならば(ステップS205;Yes)、話者識別部47aは、距離算出部46により算出された距離が最も小さい話者登録データを選択する(ステップS206)。
話者照合部47bは、話者識別部47aにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する(ステップS207)。話者識別部47aにより選択された話者登録データと入力データとの距離が照合判別値よりも小さいならば(ステップS207;Yes)、話者照合部47bは、当該話者登録データの話者と入力データの話者とが一致すると判定し、判定結果を監視装置60に出力して処理を終了する(ステップS208)。
一方、話者識別部47aにより選択された話者登録データと入力データとの距離が照合判別値以上であるならば(ステップS207;No)、話者照合部47bは、当該話者登録データの話者と入力データの話者とが一致しないと判定し、判定結果を監視装置60に出力して処理を終了する(ステップS209)。
上述してきたように、本実施例では、話者認識部31は、実際の録音環境で登録対象者の音声特徴データを複数取得して話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定するよう構成したので、話者間距離分布を不要とし、個人属性や使用環境の違いによる影響を受けることなく高い精度で話者照合を行なうことができる。
また、照合判別値を事前に生成し、保持しておくことができるため、認識時の処理負荷を大きく軽減することが可能である。
次に、話者認識部の変形例について説明する。図11は、話者認識部の変形例について説明するための説明図である。図11に示す話者認識部131は、図2に示した話者認識部31にテキスト判別部51、登録処理部52及びデータ選択部53を追加した構成を有する。
テキスト判別部51は、音声区間抽出部42により抽出された音声区間内の単語をテキスト情報として判別する。そして、判別したテキスト情報が予め指定された単語と一致する場合にのみ、音声区間抽出部42により抽出された音声区間の音声信号を特徴パラメータ算出部43に出力する。
このように、テキスト判別部51を用いることにより、同一の単語の音声特徴データが複数蓄積されるので、判別値生成部48は、同一の単語の話者内距離分布を生成し、照合判別値を算出することになる。また、認識時にも、登録時と同一の単語で識別及び照合を行なうことになるため、認識精度を向上することができる。
登録処理部52は、認識処理部47の話者照合部47bにより入力データの話者が登録話者データの話者と一致すると判定された場合に、該入力データを話者登録データに属する音声特徴データとして追加登録する処理部である。
判別値生成部48は、登録処理部52により音声特徴データが追加登録された場合には、照合判別値を再度生成し、更新する。この照合判別値の生成と更新は、登録処理部52による追加登録の直後に行なう必要はないため、照合判別値の生成と更新が話者認識部131の負担とならないタイミングで行なうことが好適である。
また、判別値生成部48は、話者内距離算出部48a、分布生成部48b及び判別値算出部48cに加え、データ選択部53をさらに有する。データ選択部53は、音声特徴データの内、不適切なデータを排除するフィルタとして機能する。
具体的には、話者内距離分布の分散が所定値内に収まるように音声特徴データを選択する。このため、登録処理部52による音声特徴データの追加登録が行なわれた場合には、追加登録による話者内距離分布の分散の変化を算出し、変化が所定の範囲を逸脱する場合には、音声特徴データの追加登録を取り消すこととなる。
このデータ選択部53により、適正な音声特徴データを選択して照合判別値を算出し、話者照合の精度を向上することができる。また、音声データの取得環境が変化した場合には、話者間距離分布の分散が変化することを利用し、分散の変化から環境変化を検知することもできる。
ここでは、新規の登録音声データについて、不適切なデータを排除する場合について説明したが、既存の登録音声データであっても、該登録音声データが不適切となった場合には、排除することとしてもよい。同一話者の音声であっても、時間の経過とともにその特徴が変化することがあるからである。
なお、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。
また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。
また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行なう場合には、照合時の処理負荷を抑制しつつ認識精度を得られる本発明は有用である。
また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部31,131の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。
以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、話者認識の利便性向上に適している。
11 ドア監視装置
12 窓監視装置
13 火災検知装置
20 マイクロホン
30 話者認識装置
31、131 話者認識部
32、51 テキスト判別部
33 監視制御部
34 監視部
41 AD変換部
42 音声区間抽出部
43 特徴パラメータ算出部
44 切替部
45 記憶部
46 距離算出部
47 認識処理部
47a 話者識別部
47b 話者照合部
48 判別値生成部
48a 話者内距離算出部
48b 分布生成部
48c 判別値算出部
52 登録処理部
53 データ選択部
60 監視装置

Claims (9)

  1. 音声データに基づいて該音声データの話者を認識する話者認識装置であって、
    同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出手段と、
    前記分布算出手段により算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、
    前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別手段と
    を備えたことを特徴とする話者認識装置。
  2. 前記分布算出手段は、前記同一の登録対象者の音声データ間の距離のガウス分布を算出し、
    前記判別値算出手段は、前記ガウス分布の累積分布関数が指定された本人受理率と一致する距離を前記判別値として算出する
    ことを特徴とする請求項1に記載の話者識別装置。
  3. 前記ガウス分布の標準偏差に対する係数と前記本人受理率との対応関係を記憶する対応関係記憶手段をさらに備え、
    前記判別値算出手段は、前記対応関係記憶手段によって前記指定された本人受理率に対応付けられた係数を前記ガウス分布の標準偏差に乗算し、前記ガウス分布の平均値を加算した値を前記判別値として算出する
    ことを特徴とする請求項2に記載の話者認識装置。
  4. 前記認識対象となる音声データの入力を受け付ける入力受付手段をさらに備え、
    前記分布算出手段は、前記入力受付手段により受け付けられた前記登録対象者の複数の音声データから前記類似度の分布を算出する
    ことを特徴とする請求項1、2又は3に記載の話者認識装置。
  5. 前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記認識対象となる音声データを前記登録対象者の音声データとして追加登録する追加登録手段をさらに備え、
    前記分布算出手段は、前記追加登録手段により追加登録された音声データをさらに用いて前記類似度の分布を算出する
    ことを特徴とする請求項1〜4のいずれか一つに記載の話者認識装置。
  6. 前記分布算出手段は、前記同一の登録対象者の複数の音声データとして用いるために、音声データの登録を行なう際に、前記同一の登録対象者について既に登録された登録済の音声データが存在する場合には、前記登録済の音声データとの類似度に応じて、登録対象の音声データの登録可否を判定することを特徴とする請求項1〜5のいずれか一つに記載の話者認識装置。
  7. 監視対象に対する監視動作を行なう監視手段と、
    前記認識対象となる音声データに含まれる単語を判定する単語判定手段と、
    前記判別手段により、前記認識対象となる音声データの話者が前記登録対象者であると判別した場合に、前記単語判定手段により判定された単語に基づいて前記監視手段の監視動作を制御する制御手段と
    をさらに備えたことを特徴とする請求項1〜6のいずれか一つに記載の話者認識装置。
  8. 音声データに基づいて該音声データの話者を認識する話者認識方法であって、
    同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、
    前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
    前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップと
    を含んだことを特徴とする話者認識方法。
  9. 音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、
    同一の登録対象者の複数の音声データから、前記同一の登録対象者の音声データ間の類似度の分布を算出する分布算出ステップと、
    前記分布算出ステップにより算出された前記類似度の分布のみから、認識対象となる音声データの話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
    前記認識対象となる音声データが入力された場合に、予め登録された前記登録対象者の音声データとの類似度を算出し、該算出した類似度と前記判別値とを比較して、前記認識対象となる音声データの話者が前記登録対象者であるか否かを判別する判別ステップと
    をコンピュータに実行させることを特徴とする話者認識プログラム。
JP2013014664A 2013-01-29 2013-01-29 話者認識装置、話者認識方法及び話者認識プログラム Active JP6239826B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013014664A JP6239826B2 (ja) 2013-01-29 2013-01-29 話者認識装置、話者認識方法及び話者認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013014664A JP6239826B2 (ja) 2013-01-29 2013-01-29 話者認識装置、話者認識方法及び話者認識プログラム

Publications (2)

Publication Number Publication Date
JP2014145932A JP2014145932A (ja) 2014-08-14
JP6239826B2 true JP6239826B2 (ja) 2017-11-29

Family

ID=51426233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013014664A Active JP6239826B2 (ja) 2013-01-29 2013-01-29 話者認識装置、話者認識方法及び話者認識プログラム

Country Status (1)

Country Link
JP (1) JP6239826B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204470A1 (ko) * 2022-04-22 2023-10-26 엘지전자 주식회사 인공 지능 장치 및 그의 화자 자동 인식 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102245747B1 (ko) * 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
CN106373575B (zh) 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
EP3702929A4 (en) 2017-10-24 2021-01-13 Panasonic Intellectual Property Management Co., Ltd. CONTENT MANAGEMENT DEVICE, CONTENT MANAGEMENT SYSTEM AND ORDERING PROCESS

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6086696A (ja) * 1983-10-19 1985-05-16 日本電気株式会社 住宅警備システム
JPH08254991A (ja) * 1995-03-16 1996-10-01 Hitachi Zosen Corp パターン認識装置
JP3699608B2 (ja) * 1999-04-01 2005-09-28 富士通株式会社 話者照合装置及び方法
JP4440414B2 (ja) * 2000-03-23 2010-03-24 富士通株式会社 話者照合装置及び方法
JP2002132283A (ja) * 2000-10-25 2002-05-09 Olympus Optical Co Ltd 医療用制御システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204470A1 (ko) * 2022-04-22 2023-10-26 엘지전자 주식회사 인공 지능 장치 및 그의 화자 자동 인식 방법

Also Published As

Publication number Publication date
JP2014145932A (ja) 2014-08-14

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN109937447B (zh) 语音识别装置、语音识别系统
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
JP5708155B2 (ja) 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6239826B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
KR20190015488A (ko) 보이스 사용자 인터페이스
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6220304B2 (ja) 音声識別装置
US20180144740A1 (en) Methods and systems for locating the end of the keyword in voice sensing
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP6087542B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP2000284798A (ja) 話者照合装置及び方法
US11437022B2 (en) Performing speaker change detection and speaker recognition on a trigger phrase
JP2015055835A (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP6616182B2 (ja) 話者認識装置、判別値生成方法及びプログラム
JP6731802B2 (ja) 検出装置、検出方法及び検出プログラム
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
CN113241059B (zh) 语音唤醒方法、装置、设备及存储介质
JP2001350494A (ja) 照合装置及び照合方法
JP6377921B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP4840149B2 (ja) 発音期間を特定する音信号処理装置およびプログラム
JP2011221101A (ja) コミュニケーション装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171102

R150 Certificate of patent or registration of utility model

Ref document number: 6239826

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250