JP6616182B2 - 話者認識装置、判別値生成方法及びプログラム - Google Patents

話者認識装置、判別値生成方法及びプログラム Download PDF

Info

Publication number
JP6616182B2
JP6616182B2 JP2015255138A JP2015255138A JP6616182B2 JP 6616182 B2 JP6616182 B2 JP 6616182B2 JP 2015255138 A JP2015255138 A JP 2015255138A JP 2015255138 A JP2015255138 A JP 2015255138A JP 6616182 B2 JP6616182 B2 JP 6616182B2
Authority
JP
Japan
Prior art keywords
speaker
value
unit
similarity
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015255138A
Other languages
English (en)
Other versions
JP2017116876A (ja
Inventor
西蔵 羽山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOHGO SECURITY SERVICES CO.,LTD.
Original Assignee
SOHGO SECURITY SERVICES CO.,LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SOHGO SECURITY SERVICES CO.,LTD. filed Critical SOHGO SECURITY SERVICES CO.,LTD.
Priority to JP2015255138A priority Critical patent/JP6616182B2/ja
Publication of JP2017116876A publication Critical patent/JP2017116876A/ja
Application granted granted Critical
Publication of JP6616182B2 publication Critical patent/JP6616182B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、話者認識装置、判別値生成方法及びプログラムに関する。
従来、音声信号に基づいて話者を認識する技術が知られている。例えば、特許文献1には、登録対象者の音声信号から算出した特徴パラメータを保存しておき、入力音声の特徴パラメータとの類似度に基づいて話者を認識する技術が開示されている。また、特許文献2には、個人属性や使用環境の違いによる影響を下げるため、実際の録音環境で採取された同一の登録対象者の複数の音声から、当該音声間の類似度の分布を算出し、この分布から話者を判別するための判別値を算出する技術が開示されている。
特開2014−48534号公報 特開2014−145932号公報
ところで、登録対象者が操作に慣れていないような場合、繰り返し発話するうちに、その音量やリズム、トーン等に変化(揺らぎ)が発生することがある。また、操作に慣れた登録対象者であっても、その時の意識や姿勢等によって、発話音声に揺らぎが生じることがある。このように、登録時の発話音声に揺らぎがあると、音声間の類似度が低下するため、適切な判別値を算出できない可能性がある。
本発明は、上記に鑑みてなされたものであって、登録時の発話音声に揺らぎがある場合であっても、適切な判別値を算出することが可能な話者認識装置、判別値生成方法及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の話者認識装置は、同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出手段と、前記抽出手段で前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出手段と、複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出手段で算出された前記平均値に対応する前記標準偏差の予測値を特定する特定手段と、前記特定手段で特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、を備える。
本発明によれば、複数の話者の各々から採取された複数の音声信号について予め導出された、有効音声信号の個数の平均値と標準偏差との相関関係に基づき特定した予測値を用いて判別値を算出するので、発話音声に揺らぎがある場合であっても、適切な判別値を算出することができる。
図1は、実施形態に係るホームセキュリティシステムのシステム構成の一例を示す図である。 図2は、図1に示した話者認識部の内部構成の一例を示す図である。 図3は、照合判別値を説明するための図である。 図4は、話者内距離分布の標準偏差と他人受入率との関係を説明するための図である。 図5は、キーワードによる本人拒否率(他人受入率)の割合変化を説明するための図である。 図6は、平均有効フレーム数と標準偏差との関係を説明するための図である。 図7は、話者照合の試験結果を説明するための図である。 図8は、話者照合の試験結果を説明するための図である。 図9は、登録モードにおける話者認識部の処理手順の一例を示すフローチャートである。 図10は、認識モードにおける話者認識部の処理手順の一例を示すフローチャートである。
以下に添付図面を参照して、本発明に係る話者認識装置、判別値生成方法及びプログラムの実施形態を詳細に説明する。以下に示す実施形態では、本発明に係る話者認識装置、判別値生成方法及びプログラムを住宅用のホームセキュリティシステムに適用した例について説明する。なお、本発明はこの実施形態に限定されるものではない。
図1は、本実施形態に係るホームセキュリティシステムのシステム構成の一例を示す図である。図1に示すホームセキュリティシステムは、監視装置60にドア監視装置11、窓監視装置12、火災検知装置13及び話者認識装置30を接続し、話者認識装置30にマイクロホン20を接続した構成を有する。
ドア監視装置11は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置11は、ピッキングなどの侵入の試みを検知した場合には、監視装置60に対して報知を行なう。
窓監視装置12は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置12は、窓に対する衝撃等を検知した場合には、監視装置60に対して報知を行なう。
火災検知装置13は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置13は、火災の発生を検知した場合には、監視装置60に対して報知を行なう。
マイクロホン20は、玄関等の出入口に設置され、音声信号(音響信号)を取得して話者認識装置30に出力する装置である。マイクロホン20は、常に動作し、音声信号の取得及び出力を行なう。なお、人感センサ等を用いて音声信号の取得のオンオフ切替をおこなってもよい。話者認識装置30は、任意の場所に設置可能である。また、マイクロホン20を話者認識装置30の筐体内に設けてもよい。
話者認識装置30は、マイクロホン20が取得した音声信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置60に出力する。話者認識装置30は、話者認識部31及びテキスト判別部32を有する。話者認識部31は、マイクロホン20が取得した音声信号の音声が居住者の音声であるか否かを認識し、認識結果を監視装置60の監視制御部33に出力する。また、テキスト判別部32は、マイクロホン20が取得した音声信号内に含まれる単語をテキスト情報として監視装置60の監視制御部33に出力する。
監視装置60は、監視制御部33及び監視部34を有する。監視制御部33は、話者認識部31により話者が居住者であると認識された場合に、テキスト判別部32から出力されたテキスト情報に基づいて、監視部34の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部34による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部34による監視動作を終了させる。
監視部34は、ドア監視装置11、窓監視装置12及び火災検知装置13の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部34は、監視制御部33から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置11、窓監視装置12又は火災検知装置13から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部33から終了指示を受けた場合に終了する。
このように、本実施形態のホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行うことが可能である。
次に、図1に示した話者認識部31の内部構成について説明する。図2は、話者認識部31の内部構成の一例を示す図である。図2に示すように、話者認識部31は、AD変換部41、音声区間抽出部42、特徴パラメータ算出部43、切替部44、記憶部45、距離算出部46、認識処理部47、登録処理部48及び判別値生成部49を有する。
AD変換部41は、マイクロホン20が取得した音声信号をアナログ信号からデジタル信号に変換し、音声区間抽出部42に出力する処理を行う処理部である。
音声区間抽出部42は、AD変換部41によりデジタル信号に変換された音声信号から、音声区間を抽出する処理部である。具体的には、音声区間抽出部42は、音声信号から所定のフレーム長(区間長)のフレーム(部分音声信号)を複数切り出す。次に、特徴パラメータ算出部43は、各フレームの音響パワーに基づき、これらフレームの中から音響パワーが所定の閾値(例えば30dB等)以上となるフレームを、有意な信号が含まれた有効フレーム(有効音声信号)として抽出する。
ここで、フレームを切り出す際のフレーム長等の条件は一定とするが、その条件は特に問わず、任意に設定することが可能である。例えば、フレーム長を16msecとし、シフト幅を8msecとして切り出してもよい。また、音声信号のサンプリングレートは高い方が好ましく、例えば、16kHz、16bit等の条件としてもよい。このように、サンプリングレートを高くすることで、フレーム単位の分解能が向上するため(例えば、16kHzの場合1フレームが512ポイント)、各フレームの特徴を効率的に算出することができる。なお、部分音声信号の切り出しや有効フレームの抽出は、公知の技術を用いることができる。
特徴パラメータ算出部43は、音声区間抽出部42で抽出された有効フレーム毎にスペクトル包絡の特徴を示す特徴パラメータを算出する。特徴パラメータの算出方法としては、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
切替部44は、話者認識部31の動作モードを切り替える処理部である。話者認識部31は動作モードとして、登録モードと認識モードとを備える。切替部44により登録モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、登録処理部48を介して記憶部45に音声特徴データとして格納される。一方、切替部44により認識モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、入力データとして距離算出部46に出力される。
記憶部45は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、話者登録データを記憶する。話者登録データは、登録対象者毎に生成され、別データとして記憶される。1つの話者登録データは、同一の登録対象者による複数の音声特徴データと、当該登録対象者用の照合判別値とを含む。なお、図2では、記憶部45が2つの話者登録データ(R1、R2)を記憶した例を示しているが、記憶する話者登録データの個数はこれに限らないものとする。
距離算出部46は、入力データと記憶部45に記憶された音声特徴データと類似性に基づき、両データ間の類似度を算出する処理部である。具体的には、距離算出部46は、入力データの各フレーム(入力フレーム)について、音声特徴データに含まれた各フレームの特徴パラメータとの距離を総当たりで算出する。そして、距離算出部46は、入力フレーム毎に算出した複数の距離における最小距離を、音声特徴データとの距離として算出する。ここで、算出される距離は、その値が小さいほど、類似度が高いことを意味する。
なお、入力データと記憶部45に記憶された音声特徴データとの組み合わせ毎に算出した複数の距離の平均値を、音声特徴データとの距離としてもよい。また、音声特徴データに含まれる複数の特徴パラメータの何れかを代表特徴パラメータとし、入力データと代表特徴パラメータとの距離を音声特徴データとの距離としてもよい。
距離算出部46は、入力データと音声特徴データとの距離を認識処理部47に出力する。距離算出部46による距離の算出と出力は、記憶部45に記憶された複数の話者登録データ(音声特徴データ)についてそれぞれ行う。
認識処理部47は、話者識別部47aと、話者照合部47bとを有する。話者識別部47aは、距離算出部46により算出された距離が最小となる話者登録データを選択する。この話者登録データの話者が、入力データの話者候補となる。
話者照合部47bは、話者識別部47aにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する。本実施形態において、照合判別値は、認識対象となる音声信号の話者が、記憶部45に話者登録データが登録された話者(居住者)であるか否かを判別する為の判別値である。
話者照合部47bは、話者識別部47aにより選択された話者登録データと入力データとの距離が照合判別値よりも小さいならば、この選択された話者登録データの話者と入力データの話者とが一致すると判定する。話者照合部47bは、判定結果を監視装置60に出力する。
登録処理部48は、特徴パラメータ算出部43が算出した音声特徴データを記憶部45に登録する処理部である。具体的には、登録処理部48は、同一の登録対象者について特徴パラメータ算出部43が算出した音声特徴データを蓄積し、当該音声特徴データが所定数(例えば5個等)に達すると、これら複数の音声特徴データを1つの話者登録データとして記憶部45に記憶する。
ここで、登録処理部48は、特徴パラメータ算出部43が算出した全ての音声特徴データを記憶部45に記憶してもよいし、一部の音声特徴データを除外した状態で記憶部45に記憶してもよい。後者の構成を採用する場合、例えば、登録処理部48を以下のように動作させてもよい。
まず、登録処理部48は、同一の登録対象者について特徴パラメータ算出部43が算出したN個の音声特徴データv1〜vNを蓄積する。
次に、登録処理部48は、音声特徴データv1〜vNの各組み合わせについて距離を算出する。この距離の算出方法は、距離算出部46による距離の算出方法と同様である。登録処理部48は、各音声特徴データについて、他の音声特徴データとの距離の平均を算出する。例えば、登録処理部48は、音声特徴データv1については音声特徴データv1と音声特徴データv2〜vNとの距離の平均を算出し、音声特徴データv2については音声特徴データv2と音声特徴データv1、v3〜vNとの距離の平均を算出する。そして、登録処理部48は、距離の平均が最大となった音声特徴データを除外し、残りの音声特徴データを記憶部45に記憶する。
なお、ここでは距離の平均を用いたが、これに限らず、距離の合計を用いてもよい。また、距離の平均や合計に対して閾値を設定し、当該閾値を超える音声特徴データを除外してもよい。また、登録処理部48は、距離算出部46や後述する判別値生成部49(話者内距離算出部49a)と協働することで、音声特徴データ間の距離を求めてもよい。
このように、距離の平均等に基づき音声特徴データを選択することで、例えば雑音等が重畳した不適切な音声信号から生成された音声特徴データを除外することができる。
判別値生成部49は、話者登録データに含まれる複数の音声特徴データから照合判別値を生成する処理部である。判別値生成部49は、話者内距離算出部49a、平均値算出部49b及び判別値算出部49cを有する。
話者内距離算出部49aは、話者登録データに含まれる複数の音声特徴データ、即ち、同一話者についての複数の音声特徴データに基づき、音声特徴データ間の距離を算出する。この距離の算出方法は、距離算出部46による距離の算出方法と同様である。従って、話者内距離算出部49aは、N個の音声特徴データから、N(N−1)/2個の距離を算出する。
平均値算出部49bは、話者登録データに含まれる複数の音声特徴データの算出時に、音声区間抽出部42が抽出した有効フレーム数の平均を算出する。具体的には、平均値算出部49bは、話者登録データに含まれる複数の音声特徴データのそれぞれについて、有効フレーム毎に算出された特徴パラメータの数を合計し、その合計値を音声特徴データの個数で除算することで有効フレーム数の平均(以下、平均有効フレーム数という)を算出する。
判別値算出部49cは、話者照合の際に話者照合部47bが用いる照合判別値を算出する。以下、照合判別値について説明する。
図3は、照合判別値を説明するための図である。同一話者の音声信号について距離の分布を算出し、その分布をガウス分布で近似すると、図3(a)に示す話者内距離分布D1が得られる。ここで、図3(a)の横軸は距離に対応し、縦軸は頻度に対応する。
また、話者内距離分布D1の話者と他の話者との音声信号の距離を算出し、その分布をガウス分布で近似すると、図3(a)に示す話者間距離分布D2が得られる。このように、同一人物の音声では特徴パラメータ間の類似性が高くなるため、算出される距離は短くなる。一方、異なる人物の音声では特徴パラメータ間の類似性が低下するため、同一人物の場合と比較し算出される距離は長くなる。上述した認識処理部47では、この距離の特性を用いることで、話者の照合を行っている。
また、話者内距離分布D1及び話者間距離分布D2の累積分布関数から、図3(b)に示すように、話者を照合する際の誤り率が求められる。図3(b)において、横軸は距離に対応し、縦軸は話者照合時の誤り率(照合誤り率)に対応する。
図3(b)において、照合判別値Thは、誤り率の決定に係る閾値として機能し、照合判別値Thに応じて誤り率が変動する。例えば、照合判別値Thを小さく、即ち判定基準を厳しくすると、他人を誤って受け入れる他人受入率は低下するが、本人を誤って棄却する本人拒否率が増加する。また、照合判別値Thを大きく、即ち判定基準を緩くすると、本人拒否率は低下するが、他人受入率が増加する。
なお、本人を正しく受け入れる本人受入率と、本人拒否率とでは、下記式(1)の関係が成立する。
(本人受入率)=1−(本人拒否率) …(1)
また、他人を正しく棄却する他人拒否率と、他人受入率とでは、下記式(2)の関係が成立する。
(他人拒否率)=1−(他人受入率) …(2)
上記した照合判別値に関して、従来、類似度(距離)の分布から照合判別値を算出する方法が提案されている。この従来法では、下記式(3)を用いることで、照合判別値を算出している。
Thk=μk+α・σk …(3)
ここで、Thkは話者kの照合判別値、μkは話者kが複数回発話した音声信号(音声特徴データ)間の最小距離の平均値、αは係数、σkは複数回発話された音声信号(音声特徴データ)の標準偏差である。なお、μkは距離の平均値としてもよい。
式(3)を用いる場合、本人受入率に対応する係数αを予め求めておくことで、所望の本人受入率を実現可能な照合判別値Thkを導出することができる。例えば、本人拒否率と他人受入率とが同等となる距離に照合判別値Thkを設定することで、話者認識を効率的に行うことができる。
ところで、登録を行う話者が話者認識装置30の操作に慣れていないような場合、繰り返し発話するうちに、その音量やリズム、トーン等に変化(揺らぎ)が発生することがある。また、操作に慣れた話者であっても、その時の意識や姿勢等によって、発話音声に揺らぎが生じることがある。このように、登録時の発話音声に揺らぎがあると、音声間の類似度が低下するため、適切な照合判別値を算出できない可能性がある。以下、この問題点について説明する。
図4は、話者内距離分布の標準偏差と他人受入率との関係を説明するための図である。横軸は標準偏差に対応し、縦軸は他人受入率に対応する。ここでは、100名の被験者のそれぞれから採取した複数の音声信号(音声特徴データ)について取得した、話者内距離分布の標準偏差と、当該話者内距離分布と話者間距離分布とから得られた他人受入率との関係を示している。また、100名の被験者のうち、90名を話者認識装置30の操作に不慣れな者とし、残りの10名を話者認識装置30の操作に慣れている者とした。なお、100名の被験者の平均において、他人受入率の値は、本人拒否率と同等となる距離の値を採用している。
図4に示すように、標準偏差が増加すると、つまり同一話者から採取した音声特徴データ間の類似性が低下すると、他人受入率は増加する傾向にある。図3を用いてこの現象を説明すると、音声特徴データ間の類似性の低下により、図3(a)に示した話者内距離分布D1の頻度のピークが低下し、距離の幅が拡大する。これにより、話者内距離分布D1と話者間距離分布D2との重なり部分が増加するため、図3(b)に示した本人拒否率と他人受入率との交点部分の照合誤り率が上昇することになる。
このような場合、式(3)に基づき、本人拒否率と他人受入率とが同等となる距離に照合判別値Thkを設定したとしても、安定した音声信号から導出される照合判別値Thkを用いた場合と比較し、本人拒否率及び他人受入率が上昇するため、適切な距離とは言えない。また、登録時には、数回の発話で採取された音声信号の標準偏差に基づき照合判別値Thkが決定されることから、音声信号の揺らぎの影響が顕著に表れるため、適切な距離に照合判別値Thkを設定することが困難である。
さらに、照合判別値に係る他の問題点として、同一の話者であっても発話するキーワードが変わると、本人拒否率と他人受入率との割合も変化することが分かっている。以下、この事象について説明する。
図5は、キーワードによる本人拒否率(他人受入率)の割合変化を説明するための図である。横軸は距離、縦軸は照合誤り率を示している。
図5(a)は、或るキーワードaの発話で得られた音声特徴データから算出した本人拒否率と他人受入率との関係を示している。図5(a)の場合、本人拒否率と他人受入率との交点に対応する距離100に照合判別値Thを設定することで、本人拒否率及び他人受入率を効率的に低下させることができる。
ここで、キーワードbに変更して得られた音声特徴データから本人拒否率及び他人受入率を算出すると、図5(b)に示すように、本人拒否率と他人受入率との割合が変化する。具体的には、本人拒否率と他人受入率との交点が距離150の位置にずれている。
そのため、図5(a)の照合判別値Thを図5(b)の本人拒否率と他人受入率との関係にそのまま適用すると、その照合判別値Thは適切な距離とならず、本人拒否率が増加する等の問題が生じる。このような場合、発話するキーワードに応じて照合判別値Thを再度設定し直す必要があるため、キーワードに依存しない汎用的な照合判別値Thを導出することが望まれている。
そこで、判別値生成部49の判別値算出部49cは、上記の問題を解消するため、複数の話者の音声信号の分析結果から得られた平均有効フレーム数と標準偏差との関係性に基づき、従来法の標準偏差σkに代わる新たな指標(標準偏差予測値)を用いることで照合判別値を算出する。
具体的には、判別値生成部49の判別値算出部49cは、下記式(4)に基づき照合判別値Thkを算出する。
Thk=μk+α・ω …(4)
ここで、式(4)のωは、事前に用意された有効フレーム平均値と標準偏差との関係から求まる標準偏差予測値であり、例えば下記式(5)で表される。
ω=β・log(nef)+γ …(5)
式(5)において、β、γは係数、nefは平均有効フレーム数である。以下、式(5)の導出方法について説明する。
図6は、平均有効フレーム数と標準偏差との関係を説明するための図である。横軸は平均有効フレーム数に対応し、縦軸は標準偏差に対応する。ここでは、100名の被験者のそれぞれから採取した複数の音声信号について、平均有効フレーム数と、話者内距離分布の標準偏差とを算出し、それらの値に対応する位置をプロットした結果を示している。また、100名の被験者のうち、90名を話者認識装置30の操作に不慣れな者とし、残りの10名を話者認識装置30の操作に慣れている者とした。なお、本試験では、複数のキーワードを話者に発話させているが、同一のキーワードを発話させてもよい。
図6に示すように、平均有効フレーム数と標準偏差との間には、負の相関関係が存在する。ここで、上記した式(5)は、この平均有効フレーム数と標準偏差との相関関係を示す回帰線のモデル式である。例えば、図6の平均有効フレーム数と標準偏差との相関関係は、下記式(6)にフィッティングする。
ω=−0.0081・ln(nef)+0.0437 …(6)
判別値生成部49の判別値算出部49cは、上記式(5)に基づき、平均値算出部49bが算出した平均有効フレーム数に対応する標準偏差予測値ωを算出(特定)する。そして、判別値生成部49の判別値算出部49cは、標準偏差予測値ωを式(5)に用いることで、照合判別値Thkを算出する。
上述したように、標準偏差予測値ωは、式(3)の標準偏差σkに代わるものであるが、その値の意味は相違する。つまり、式(3)の標準偏差σkは、登録対象者(k)自身の発話音声の揺らぎがダイレクトに反映されるのに対し、標準偏差予測値ωでは、複数の話者による平均化効果により発話音声の揺らぎが抑制されたものとなる。したがって、標準偏差予測値ωを用いて照合判別値Thkを算出することで、式(3)を用いた場合と比較し、より適切な位置(距離)に照合判別値Thkを設定することができる。また、キーワードの依存性が低下した、汎用的な照合判別値Thkを導出することができる。
さらに、判別値生成部49(判別値算出部49c)による照合判別値Thkの算出方法では、平均有効フレーム数から標準偏差予測値ωを導出できるため、登録時に発話する音声の時間長が例えば2秒以下等の短い場合であっても、適切な照合判別値Thkを算出することができる。より詳細には、複数の話者について取得した平均有効フレーム数と標準偏差との相関関係から、時間長の短い音声信号から算出される平均有効フレーム数からでも、当該平均有効フレーム数に対応する標準偏差予測値ωを導出できるため、音声信号の時間長によらず適切な照合判別値Thkを算出することができる。
なお、図6で示した平均有効フレーム数と標準偏差との相関関係は、図示しない記憶媒体に相関関係情報として予め記憶されているものとする。相関関係情報は、平均有効フレーム数と標準偏差との相関関係を、例えば式(5)や式(6)のモデル式の形態で保持してもよいし、テーブル等の形態で保持してもよい。また、音声信号からフレームを切り出す際の条件に応じた相関関係情報をそれぞれ保持しておき、実施する条件に応じて使用する相関関係情報を選択する構成としてもよい。
図7、図8は、判別値生成部49の算出方法(以下、提案法という)で算出した照合判別値と、式(3)の従来の算出方法(以下、従来法という)で算出した照合判別値とを用いた場合での、話者照合の試験結果を説明するための図である。
図7は、同一のキーワードの発話により得られた話者照合の結果を示している。ここでは、100名の被験者に同一のキーワードを、登録時に5回、話者照合時に20回発話させる試験を3回行い、各試験で得られた本人拒否率及び他人受入率の平均を等価エラー率(%)としている。100名の被験者のうち、90名を話者認識装置30の操作に不慣れな者とし、残りの10名を話者認識装置30の操作に慣れている者とした。
また、音声認識エンジンを用い、フレーム長16msec、シフト幅8msec、サンプリングレート16kHz、16bit(1フレーム512ポイント)で音声の切り出しを行った。また、従来法の照合判別値を、本人拒否率と他人受入率とが同等となる距離に設定した。
図7に示すように、3回の試験の何れの場合においても、提案法で算出した照合判別値を用いた場合の方が、従来法で算出した照合判別値を用いた場合よりも、本人拒否率と他人受入率とが同等となる等価エラー率が低下するという結果が得られた。なお、試験回数に伴い従来法及び提案法の等価エラー率が徐々に低下するのは、主に話者認識装置30の操作の習熟によるものである。
このように、判別値生成部49(判別値算出部49c)が算出した照合判別値を用いることで、等価エラー率を低下させることができるため、登録時の発話音声に揺らぎがある場合であっても、適切な照合判別値を算出することができる。
図8は、相違なるキーワードの発話により得られた話者照合の結果を示している。ここでは、100名の被験者が、発話時間及び発話内容の異なる6種類のキーワードを用いて話者照合を行った場合の結果を示している。また、各キーワードについて得られた本人拒否率と他人受入率との結果から、本人拒否率から他人受入率を減算した絶対値をばらつき値として算出し、これらのばらつき値の合計をキーワードの個数で除算した平均を、平均キーワードばらつき値としている。
なお、提案法及び従来法の何れとも、上記した6種類のキーワードとは異なる一のキーワードに基づいて照合判別値を設定した。また、従来法の照合判別値を、本人拒否率と他人受入率とが同等となる距離に設定した。また、100名の被験者の内訳や、各キーワードの照合回数、音声の切り出しに係る条件等は図7と同様とした。
図8に示すように、従来法で算出した照合判別値を用いた場合よりも、提案法で算出した照合判別値を用いた場合の方が、平均キーワードばらつき値が低下するという結果が得られた。
このように、判別値生成部49(判別値算出部49c)が算出した照合判別値を用いることで、平均キーワードばらつき値を低下させることができるため、キーワードに依存しない汎用的な照合判別値を算出することができる。
次に、話者認識部31の処理手順について説明する。図9は、登録モードにおける話者認識部31の処理手順の一例を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により登録モードに設定された状態で実行される。
まず、マイクロホン20が音声信号(音響信号)を取得する(ステップS101)。音声区間抽出部42は、マイクロホン20が取得した音声信号から有効フレームを抽出する(ステップS102)。
特徴パラメータ算出部43は、ステップS102で抽出された有効フレーム毎にスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS103)。次いで、登録処理部48は、特徴パラメータ算出部43が算出した特徴パラメータを音声特徴データとして蓄積し(ステップS104)、同一の話者について音声特徴データを所定数蓄積したか否かを判定する(ステップS105)。
同一の話者について蓄積した音声特徴データの数が所定数に満たない場合(ステップS105;No)、話者認識部31は、ステップS101に移行し、マイクロホン20による音声信号の取得を行う。
また、同一の話者について音声特徴データを所定数蓄積した場合(ステップS105;Yes)、登録処理部48は、それらの音声特徴データを一の話者登録データとして記憶部45に登録する(ステップS106)。
続いて、判別値生成部49の話者内距離算出部49aは、ステップS106で登録された話者登録データが含む複数の音声特徴データに基づき、音声特徴データ間の最小距離の平均値を算出する(ステップS107)。また、判別値生成部49の平均値算出部49bは、各音声特徴データについて、ステップS102で抽出された有効フレーム数の平均有効フレーム数を算出する(ステップS108)。
続いて、判別値生成部49の判別値算出部49cは、ステップS108で算出された平均有効フレーム数と、上記式(5)とに基づき、標準偏差予測値を算出する(ステップS109)。次いで、判別値生成部49の判別値算出部49cは、ステップS107で算出した音声特徴データ間の最小距離の平均値と、ステップS109で算出した標準偏差予測値と、上記式(4)とに基づき、照合判別値を算出する(ステップS110)。そして、判別値生成部49の判別値算出部49cは、算出した照合判別値を、ステップS106で登録された話者登録データに登録し(ステップS111)、処理を終了する。
図10は、認識モードにおける話者認識部31の処理手順の一例を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により認識モードに設定された状態で実行される。
まず、マイクロホン20が音声信号(音響信号)を取得する(ステップS201)。音声区間抽出部42は、マイクロホン20が取得した音声信号から有効フレームを抽出する(ステップS202)。
特徴パラメータ算出部43は、ステップS202で抽出された有効フレーム毎にスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS203)。
距離算出部46は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離として算出する(ステップS204)。
距離算出部46は、全ての話者登録データとの距離を算出したかを判定し(ステップS205)、入力データとの距離を算出していない話者登録データが残っている場合には(ステップS205;No)、話者登録データとの距離の算出に移行する(ステップS204)。
全ての話者登録データとの距離を算出したならば(ステップS205;Yes)、認識処理部47の話者識別部47aは、距離算出部46により算出された距離が最も小さい話者登録データを選択する(ステップS206)。
認識処理部47の話者照合部47bは、ステップS206で選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する(ステップS207)。ステップS206で選択された話者登録データと入力データとの距離が照合判別値よりも小さい場合(ステップS207;Yes)、認識処理部47の話者照合部47bは、当該話者登録データの話者と入力データの話者とが一致すると判定し(ステップS208)、判定結果を監視装置60に出力して処理を終了する。
また、ステップS206で選択された話者登録データと入力データとの距離が照合判別値以上であれば(ステップS207;No)、認識処理部47の話者照合部47bは、当該話者登録データの話者と入力データの話者とが不一致と判定し(ステップS209)、判定結果を監視装置60に出力して処理を終了する。
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
例えば、上記実施形態では、ホームセキュリティの動作モードを音声操作により切り替える場合を説明したが、これに限らず、テキスト判別により多様な操作に適用可能である。
また、上記実施形態では、話者の照合が成功したことを条件にセキュリティの動作モードを切り替える構成としたが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するように構成してもよい。
また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行う場合には、登録時の処理負荷(照合判別値の算出負荷)を抑制しつつ認識精度を得られる本発明は有用である。
また、上記実施形態の話者認識装置30(話者認識部31、テキスト判別部32)、監視装置60(監視制御部33、監視部34)の各機能は、一又は複数の処理回路によって実現することが可能である。なお、処理回路は、プログラムとの協働により各機能部を実現するプロセッサや、各機能を実現するよう設計されたASIC(Application Specific Integrated Circuit)や回路モジュール等のハードウェアを含むものとする。
また、上記実施形態の話者認識装置30(話者認識部31、テキスト判別部32)、監視装置60(監視制御部33、監視部34)の各機能を、プログラムの実行により実現する場合、当該プログラムは各装置が備える、コンピュータで読み取り可能な記憶媒体(図示せず)に予め記憶されているものとする。
11 ドア監視装置
12 窓監視装置
13 火災検知装置
20 マイクロホン
30 話者認識装置
31 話者認識部
32 テキスト判別部
33 監視制御部
34 監視部
41 AD変換部
42 音声区間抽出部
43 特徴パラメータ算出部
44 切替部
45 記憶部
46 距離算出部
47 認識処理部
47a 話者識別部
47b 話者照合部
48 登録処理部
49 判別値生成部
49a 話者内距離算出部
49b 平均値算出部
49c 判別値算出部

Claims (9)

  1. 同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出手段と、
    前記抽出手段で前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出手段と、
    複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出手段で算出された前記平均値に対応する前記標準偏差の予測値を特定する特定手段と、
    前記特定手段で特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、
    を備える話者認識装置。
  2. 前記抽出手段で抽出された前記有効音声信号に基づき、前記登録対象者の前記複数の音声信号間の類似度を話者内類似度として算出する類似度算出手段を更に備え、
    前記判別値算出手段は、前記特定手段で特定された前記予測値と、前記類似度算出手段で算出された前記話者内類似度とを用いて前記判別値を算出する請求項1に記載の話者認識装置。
  3. 前記抽出手段で抽出された前記有効音声信号の各々から、当該有効音声信号のスペクトル包絡を示す特徴パラメータを算出する特徴算出手段を更に備え、
    前記類似度算出手段は、前記特徴算出手段で算出された前記特徴パラメータ間の距離に基づき、前記話者内類似度を算出する請求項2に記載の話者認識装置。
  4. 前記判別値算出手段は、前記特定手段で特定された前記予測値に所定の係数を乗算した値を、前記類似度算出手段で算出された前記話者内類似度に加算することで前記判別値を算出する請求項2又は3に記載の話者認識装置。
  5. 前記相関関係情報は、前記相関関係を示すモデル式又はテーブルを含み、
    前記特定手段は、前記相関関係情報に含まれた前記モデル式又は前記テーブルに基づき、前記予測値を特定する請求項1〜4の何れか一項に記載の話者認識装置。
  6. 前記認識対象となる音声信号が入力された場合に、当該音声信号と前記登録対象者の前記複数の音声信号との類似度を算出し、当該類似度のうち最も高い類似度が前記判別値を超える場合に、前記認識対象となる音声信号の話者が前記登録対象者と同一人物と判別する判別手段を更に備える請求項1〜5の何れか一項に記載の話者認識装置。
  7. 監視対象に対する監視動作を行う監視手段と、
    前記認識対象となる音声信号に含まれた単語を判定する単語判定手段と、
    前記判別手段により、前記認識対象となる音声信号の話者が前記登録対象者であると判別された場合に、前記単語判定手段で判定された単語に基づいて前記監視手段の監視動作を制御する制御手段と、
    を更に備える請求項6に記載の話者認識装置。
  8. 同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出ステップと、
    前記抽出ステップで前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出ステップと、
    複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出ステップで算出された前記平均値に対応する前記標準偏差の予測値を特定する特定ステップと、
    前記特定ステップで特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出ステップと、
    を含む判別値生成方法。
  9. コンピュータを、
    同一の登録対象者から採取された複数の音声信号の各々から所定区間長の部分音声信号を複数切り出し、当該部分音声信号の中から音響パワーが所定値以上となる有効音声信号を抽出する抽出手段と、
    前記抽出手段で前記複数の音声信号の各々から抽出された前記有効音声信号の個数の平均値を算出する平均値算出手段と、
    複数の話者の各々から採取された複数の音声信号について予め取得された、前記有効音声信号の個数の平均値と、当該複数の音声信号間の類似度のばらつきを示す標準偏差との相関関係を示す相関関係情報に基づき、前記平均値算出手段で算出された前記平均値に対応する前記標準偏差の予測値を特定する特定手段と、
    前記特定手段で特定された前記予測値を用いて、認識対象となる音声信号の話者が前記登録対象者であるか否かを判別する為の判別値を算出する判別値算出手段と、
    して機能させるためのプログラム。
JP2015255138A 2015-12-25 2015-12-25 話者認識装置、判別値生成方法及びプログラム Active JP6616182B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015255138A JP6616182B2 (ja) 2015-12-25 2015-12-25 話者認識装置、判別値生成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015255138A JP6616182B2 (ja) 2015-12-25 2015-12-25 話者認識装置、判別値生成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2017116876A JP2017116876A (ja) 2017-06-29
JP6616182B2 true JP6616182B2 (ja) 2019-12-04

Family

ID=59234655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015255138A Active JP6616182B2 (ja) 2015-12-25 2015-12-25 話者認識装置、判別値生成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6616182B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527620B (zh) * 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
JP6927308B2 (ja) * 2017-07-26 2021-08-25 日本電気株式会社 音声操作装置及びその制御方法
CN110797021B (zh) 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质

Also Published As

Publication number Publication date
JP2017116876A (ja) 2017-06-29

Similar Documents

Publication Publication Date Title
US11657832B2 (en) User presence detection
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
US9354687B2 (en) Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US10579327B2 (en) Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold
US20200152206A1 (en) Speaker Identification with Ultra-Short Speech Segments for Far and Near Field Voice Assistance Applications
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
US9335966B2 (en) Methods and apparatus for unsupervised wakeup
JPH09106296A (ja) 音声認識装置及び方法
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
US10861447B2 (en) Device for recognizing speeches and method for speech recognition
JP6616182B2 (ja) 話者認識装置、判別値生成方法及びプログラム
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
JP6087542B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP5549506B2 (ja) 音声認識装置及び音声認識方法
JP6239826B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP2012168296A (ja) 音声による抑圧状態検出装置およびプログラム
JP6996185B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
US11437019B1 (en) System and method for source authentication in voice-controlled automation
JP2015055835A (ja) 話者認識装置、話者認識方法及び話者認識プログラム
EP3195314B1 (en) Methods and apparatus for unsupervised wakeup
US10950227B2 (en) Sound processing apparatus, speech recognition apparatus, sound processing method, speech recognition method, storage medium
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치
JP4552368B2 (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
JP2001350494A (ja) 照合装置及び照合方法
CN116830191A (zh) 基于热词属性调配自动语音识别参数

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191107

R150 Certificate of patent or registration of utility model

Ref document number: 6616182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250