JP2005316003A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2005316003A
JP2005316003A JP2004131864A JP2004131864A JP2005316003A JP 2005316003 A JP2005316003 A JP 2005316003A JP 2004131864 A JP2004131864 A JP 2004131864A JP 2004131864 A JP2004131864 A JP 2004131864A JP 2005316003 A JP2005316003 A JP 2005316003A
Authority
JP
Japan
Prior art keywords
voiceprint
speaker
data
speaker data
authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004131864A
Other languages
English (en)
Inventor
Yoshitaka Abe
義孝 阿部
Akira Masuda
彰 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004131864A priority Critical patent/JP2005316003A/ja
Publication of JP2005316003A publication Critical patent/JP2005316003A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】声紋認証可能なサンプリング時間を十分に確保しつつ、話者特定の精度を向上させた音声処理装置を提供する。
【解決手段】リアルタイムに音声データVSに対して声紋レジスタ(REG)30と照合して声紋認証を行うリアルタイム声紋認証部(VPR_RT)40の認証結果と、リアルタイム声紋認証部40により声紋認証を行うことができない期間について、一度メモリ(MEM)20に保存した音声データVSに対して声紋レジスタ(REG)30と照合して声紋認証を行うオフライン声紋認証部(VPR_OFF1)およびオフライン声紋認証部(VPR_OFF2)60の認証結果とに基づいて、制御部10は、確定した認証結果として認証出力VPR_OUTを得る。
【選択図】図7

Description

本発明は、音声に基づいて声紋認証技術により話者を特定する音声処理装置に関する。
従来より、音声に基づいて当該音声に係る話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、たとえば、銀行のコールセンター等に適用されている。
一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、および身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で話者を特定することが可能となる。たとえば、話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも話者特定の認証精度が高い。
具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデルが予め登録される。
従来の声紋認証エンジンは、以下の処理を行うことで話者を特定する。
(1)声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較/照合し、モデルの特徴量が近似する度合いに応じた照合値(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する話者を特定する。
ところで、従来の声紋認証エンジンによれば、上述した声紋認証技術によりリアルタイムに話者を特定することができるものの、実際には、音声を所定時間毎にサンプリングを行う第1のステップと、サンプリングした音声から声紋認証処理を行う第2のステップとを交互に行う必要がある。
その際、この第1のステップにおけるサンプリング時間を十分に取れない場合には、認証に必要な声紋モデルを生成することができず、認証エラーが生じやすいので、たとえば、3秒間以上の十分な時間のサンプリング時間を確保する必要がある。
一方、十分な時間のサンプリング時間を確保しようとすると、そのサンプリング時間の間に話者が切り替わった場合には、その切り替わったタイミングを正確に捉えることができないので、認証精度が低下する。
本発明はかかる事情に鑑みてなされたものであり、その目的は、声紋認証可能なサンプリング時間を十分に確保しつつ、話者特定の精度を向上させた音声処理装置を提供することにある。
上記目的を達成するために本発明の第1の観点は、複数の声紋データを話者データと関連付けて記憶する第1の記憶手段と、所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第1の話者データを特定する処理とを順に行う第1の声紋認証手段と、前記音声を記憶する第2の記憶手段と、前記第1の声紋認証手段により第1の話者が特定されなかった期間を含む期間の音声を前記第2の記憶手段から取り出し、声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第2の話者データを特定する第2の声紋認証手段と、前記第1および第2の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段とを有する音声処理装置である。
上記目的を達成するために本発明の第2の観点は、複数の声紋データを話者データと関連付けて記憶する第1の記憶手段と、所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第1の話者データを特定する処理とを順に行う第1の声紋認証手段と、前記音声を記憶する第2の記憶手段と、前記第1の声紋認証手段により第1の話者が特定されなかった期間を含む第1の期間の音声を前記第2の記憶手段から取り出し、声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第2の話者データを特定する第2の声紋認証手段と、前記第1の声紋認証手段により第1の話者が特定されなかった期間を含み、前記第1の期間と異なる第2の期間の音声を前記第2の記憶手段から取り出し、声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第3の話者データを特定する第3の声紋認証手段と、前記第1乃至第3の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段とを有する音声処理装置である。
好適には、前記制御手段は、第1乃至第3の話者データのいずれも特定されなかった期間に対し、当該期間の前後に特定された第1の話者データが一致するときは、当該第1の話者データを確定話者データとして決定し、一致しないときは、当該期間の前後に特定された第1の話者データを、それぞれ当該期間の前半および後半の確定話者データとして決定する。
好適には、前記制御手段は、第1乃至第3の話者データのうち、いずれか2つ話者データが一致するために多数決により確定話者データを決定できない期間に対し、前記2つの話者データのうち、一方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第1の時刻と、他方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第2の時刻とを比較し、前記第1および第2の時刻の前後に応じて、前記2つの話者データを当該期間の前半および後半の確定話者データとして決定する。
好適には、前記第1乃至第3の声紋認証手段は、それぞれ、前記第1乃至第3の話者データを特定する際に、照合した声紋データの近似度合いに応じた第1乃至第3の照合値を生成し、前記制御手段は、予め限定された複数の話者データ以外の話者データを確定話者データとして決定した場合には、前記第1乃至第3の照合値のうち、前記確定話者データに対応する照合値との差が所定の閾値以下である前記第1乃至第3の話者データのいずれか一の話者データに、前記確定話者データを補正する。
第1の観点に係る音声処理装置によれば、第1の声紋認証手段は、所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、記第1の記憶手段が記憶する複数の声紋データと照合し、第1の話者データを特定する処理とを順に行い、第2の記憶手段は、前記音声を記録し、第2の声紋認証手段は、前記第1の声紋認証手段により第1の話者が特定されなかった期間を含み、前記第1の期間と異なる第2の期間の音声を前記第2の記憶手段から取り出し、声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第2の話者データを特定し、制御手段は、前記第1および第2の話者データに基づいて、多数決により時間毎の確定話者データを決定するので、第1の声紋認証手段の認証結果である第1の話者データが第2の声紋認証手段の認証結果である話者データによって適切に補正される。
本発明によれば、任意の時間の話者を精度良く特定することができ、会議の議事録作成等の幅広い用途に適用できる。
第1の実施形態
以下、本発明に係る音声処理装置の一実施形態について述べる。
図1は、本実施形態に係る音声処理装置1の一構成例である。図に示すように、音声処理装置1は、本発明の制御手段としての制御部(CPU)10と、本発明の第2の記憶手段としてのメモリ(MEM)20と、本発明の第1の記憶手段としての声紋レジスタ(REG)30と、本発明の第1の声紋認証手段としてのリアルタイム声紋認証部40と、本発明の第2の声紋認証手段としてのオフライン声紋認証部50とを含んで構成される。
リアルタイム声紋認証部40は、声紋認証に必要なサンプリング時間(後述するTP1)毎に音声データVSを取り込み、取り込んだ音声データVSを所定の処理時間(後述するTP2)内に声紋認証して話者を特定する。すなわち、入力する音声データVSをリアルタイムに声紋認証処理を行う。
但し、リアルタイム声紋認証部40は、たとえば、上述したサンプリングと声紋認証を交互に行っているために、完全なリアルタイム処理ではなく、ある程度の時間的な遅れを伴って話者を特定する。また、完全に全ての時間について声紋認証結果(話者特定結果)が得られることはなく、たとえば、声紋認証中(TP2)には、サンプリングを行わないので、その間の声紋認証結果は得られないことがある。
さらに、認証エラーが生じないようにサンプリング時間(TP1)をある程度(たとえば、3秒間)確保する必要があるので、話者の切り替わりタイミングを正確に把握することができない。
声紋レジスタ30には、認証対象の複数の話者の音声データに基づいて、声紋認証部20がそれぞれ生成した声紋モデルが予め登録されている。すなわち、声紋レジスタ30には、話者IDと声紋モデルが相互に関連付けられて記憶されている。
声紋認証技術については、すでに公知の技術をリアルタイム声紋認証部40に適用させることが可能であるが、たとえば、リアルタイム声紋認証部40は、以下の処理を行うことで話者を特定する。
(1)声紋モデル(本発明の声紋データ)の生成
音声データVSをスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
入力した音声データVSの声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタ30に登録された声紋モデルとを比較/照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する話者IDを特定する。
特定された話者IDは、図1に示す認証結果RTとして、対応する照合スコアSCRとともに制御部10へ送出される。
なお、本実施形態に係る照合スコアSCRは、本発明の照合値に対応する。
メモリ20は、音声データVSを順次記憶する。メモリ20内の音声データVSは、必要に応じてオフライン声紋認証部50によりアクセスされ、メモリ20は、任意の期間の音声データVSがアクセス可能に記憶領域を構成する。
オフライン声紋認証部50は、声紋認証処理を行う点では、リアルタイム声紋認証部40と共通するが、声紋認証の基礎となる音声データVSをメモリ20内から取得して声紋認証を行う点で相違する。すなわち、オフライン声紋認証部50は、一度メモリ20に書き込まれた音声データVSに基づいて声紋認証を行うので、リアルタイム声紋認証部40と比較すると、時間遅れをもって認証結果が生成される一方で、リアルタイム声紋認証部40が声紋認証できなかった期間の声紋認証結果を得ることができる。
オフライン声紋認証部50は、メモリ20に対し、期間を指定して音声データVSを要求し、取得した音声データVSに基づいて声紋認証を行い、話者IDを特定すると同時に、対応する照合スコアSCRを生成する。
特定された話者IDは、図1に示す認証結果OFF1として、対応する照合スコアSCRとともに制御部10へ送出される。
制御部10は、音声処理装置1の全体の制御を行う。
たとえば、声紋レジスタ30およびメモリ20に対するアクセス制御、入力した音声データVSに対する処理、リアルタイム声紋認証部40およびオフライン声紋認証部50の声紋認証処理に対するタイミング制御、などである。
特に、制御部10は、リアルタイム声紋認証部40から送出された認証結果RTと、オフライン声紋認証部50から送出された認証結果OFF1とに基づいて、以下に述べる所定の処理を行い、最終的に話者を決定し、図1に示すように、当該決定に係る認証出力VPR_OUT(本発明の確定話者データ)を外部に送出する。
次いで、制御部10が認証結果RTおよび認証結果OFF1に基づいて、認証出力VPR_OUTを得るための処理について述べる。
図2は、リアルタイム声紋認証部40の認証結果RTの出力タイミングを示すタイミングチャートであり、(a)は実際の音声データVSを、(b)は認証結果RTを、それぞれ示す。図に示す「A」および「B」は、音声データVSに対応する話者IDを示す。図では、時刻tcで話者が切り替わっている。
図において、リアルタイム声紋認証部40は、期間TP1の間に音声データVSのサンプリングを行い、期間TP1に続いて期間TP2の間に、サンプリングした音声データVSを声紋認証して話者IDを特定する。リアルタイム声紋認証部40は、期間TP1および期間TP2の処理を順に連続して行っている。たとえば、期間TP1としては、3秒間程度である。
リアルタイム声紋認証部40は、声紋認証処理を行った後に話者IDを特定するので、文字通りのリアルタイム処理ではなく、図2の矢印に示すように、たとえば、期間TP1+期間TP2の分だけ時間的に遅れて認証結果RTが得られるが、以降に示すタイミングチャートでは、理解の容易のため、図3の矢印が示すように、あたかも完全にリアルタイムに処理がなされたように記載することにする。
図2(b)に示すように、リアルタイム声紋認証部40の声紋認識処理は、短期間で声紋認証結果が得られるものの、認証処理中にサンプリングができない等に起因して、全時間で完全な認証結果が得られず、また、サンプリング中(期間TP1)に話者が切り替わった場合などには、正確な認証結果を得ることができない。
オフライン声紋認証部50は、上述したリアルタイム声紋認証部40を補完して認証精度を向上させるため、リアルタイム声紋認証部40が認証処理できない期間TP2を少なくとも含む所定の期間の音声データVSをメモリ20から取得して声紋認証し、話者IDを特定する。
制御部10は、リアルタイム声紋認証部40の認証結果RTを図示しないバッファに保持し、遅れて送出されるオフライン声紋認証部50の認証結果OFF1を待って処理を行う。
図4は、制御部10が認証結果RTおよび認証結果OFF1に基づいて、認証出力VPR_OUTを得るための処理を示すフローチャートである。
以下、図4の各ステップの処理を、図5に示すタイミングチャートに関連付けて述べる。図5において、(a)は音声データVSを、(b)は認証結果RTを、(c)は認証結果OFF1を、(d)は認証出力VPR_OUTを、それぞれ示す。
なお、以下に述べる説明においては、たとえば、「A」と表記する場合には、実際の話者としての話者Aと、認証結果としての話者IDのデータとの両方の意を包含する。
制御部10は、期間TP2よりも短い所定の走査期間Δt毎に、得られた認証結果RTおよび認証結果OFF1を走査し、図5に示すように、いずれかの認証結果が変化する期間毎に認証出力VPR_OUTを生成する。
ステップ10:
まず、リアルタイム声紋認証部40からの認証結果RTと、オフライン声紋認証部50からの認証結果OFF1の少なくともいずれか一つの結果が有効な結果であるか否かがチェックされる。
ステップ11:
認証結果RTと認証結果OFF1のいずれも有効な結果が得られていない場合の処理である。たとえば、走査期間Δtが図5に示す時刻t1と時刻t2の間にある場合には、リアルタイム声紋認証部40が認証を行うことができず、また、オフライン声紋認証部50が認証を行っていない。
かかる場合には、走査期間Δtの前後においてリアルタイム声紋認証部40により認証された2つの認証結果RTに基づいて処理を行う。本ステップでは、走査期間Δtの前後の2つの認証結果RTを比較する。
ステップ12:
ステップ11において、走査期間Δtの前後の2つの認証結果RTが一致する場合には、その一致した認証結果RTを認証出力VPR_OUTとする。
たとえば、図5において、走査期間Δtが時刻t1と時刻t2の間にある場合には、その前後の認証結果RTが「A」であるので、認証出力VPR_OUTは「A」となり、走査期間Δtが時刻t7と時刻t8の間にある場合には、その前後の認証結果RTが「B」あるので、認証出力VPR_OUTは「B」となる。
ステップ13:
ステップ11において、走査期間Δtの前後の2つの認証結果RTが一致しない場合には、その一致しない期間を折半し、その期間の前半部の認証出力VPR_OUTを、走査期間Δtの前の認証結果RTとし、その期間の後半部の認証出力VPR_OUTを、走査期間Δtの後の認証結果RTとする。
ステップ14,15:
ステップ10において、認証結果RTと認証結果OFF1のうち、少なくとも1つの有効な結果が得られた場合には、多数決により認証出力VPR_OUTを得る。すなわち、認証結果RTの話者IDと認証結果OFF1の話者IDとによる多数決で認証出力VPR_OUTを求めるのである。
たとえば、図5において、時刻t2〜時刻t3および時刻t4〜時刻t5では、それぞれ「A」および「B」の認証結果のみが得られているので、これらを認証出力VPR_OUTとする。
ステップ14,16:
ステップ10において、認証結果RTと認証結果OFF1のうち、少なくとも1つの有効な結果が得られた場合であって、多数決により認証出力VPR_OUTを得られない場合の処理である。たとえば、認証結果RTの話者IDと、認証結果OFF1の話者IDとが一致しない場合には、多数決によって認証出力VPR_OUTを決定することができない。
かかる場合には、得られた認証結果RTおよび認証結果OFF1の開始の先後に応じて、多数決により認証出力を決定できない期間を折半して、認証出力VPR_OUTとする。
たとえば、図5において、時刻t3〜時刻t4では、認証結果RTは「A」であり、認証結果OFF1は「B」であるため、多数決により決定することができないので、各認証結果が開始する時刻を比較する。この場合、認証結果RTの「A」は時刻t2より開始し、認証結果OFF1の「B」は時刻t2より遅い時刻t3より開始するため、時刻t3〜時刻t4の期間を折半して、「A」および「B」の順に認証出力VPR_OUTとする。
以上述べた処理を行うことにより、実際の音声データVSの話者の切り替わりタイミングtcに、認証出力VPR_OUTの切り替わりタイミングを近付けることができる。たとえば、図5に示す例では、仮にリアルタイム声紋認証部40の認証結果RTのみで判断したとすれば、時刻t4〜時刻t5の間で話者が切り替わったと判断するが、オフライン声紋認証部50の認証結果OFF1を判断に加えることで、切り替わりタイミングは、時刻t3〜時刻t4の間であると判断し、実際の切り替わりタイミングtcに近付けることができる。すなわち、認証精度が向上する。
図6は、切り替わりタイミングtcが図5の場合と異なり、期間TP2の間である場合についてのタイミングチャートであり、(a)は音声データVSを、(b)は認証結果RTを、(c)は認証結果OFF1を、(d)は認証出力VPR_OUTを、それぞれ示す。
図6に示す例では、仮にリアルタイム声紋認証部40の認証結果RTのみで判断したとすれば、時刻t4〜時刻t5の間で話者が切り替わったと判断するが、オフライン声紋認証部50の認証結果OFF1を判断に加えることで、切り替わりタイミングは、時刻t3〜時刻t4の間であると判断し、実際の切り替わりタイミングtcに対して遠ざかっている。
したがって、本実施形態に係る音声処理装置1では、話者の切り替わりタイミングtcが期間TP1(サンプリング中)である場合にのみ効果があるということができる。
第2の実施形態
第1の実施形態に係る音声処理装置1によれば、話者の切り替わりタイミングtcが期間TP1(サンプリング中)である場合に声紋認証の精度が向上するが、本実施形態の音声処理装置2は、話者の切り替わりタイミングによらず、認証精度を向上させることを目的とする。
図7は、本実施形態に係る音声処理装置2の一構成例である。図7に示す音声処理装置2は、図1に示した音声処理装置1と比較して、オフライン声紋認証部60が付加され、制御部10が、リアルタイム声紋認証部40からの認証結果RTと、オフライン声紋認証部50からの認証結果OFF1と、オフライン声紋認証部60からの認証結果OFF2とに基づいて認証出力VPR_OUTを決定する点で異なる。
なお、オフライン声紋認証部60は、本発明の第3の声紋認証手段の一実施形態である。
オフライン声紋認証部60は、オフライン声紋認証部50と同様に、声紋認証の基礎となる音声データVSをメモリ20内から取得して声紋認証を行う。すなわち、オフライン声紋認証部60は、一度メモリ20に書き込まれた音声データVSに基づいて声紋認証を行うので、リアルタイム声紋認証部40と比較すると、時間遅れをもって認証結果が生成される一方で、リアルタイム声紋認証部40が声紋認証できなかった期間の声紋認証結果を得ることができる。
なお、後に図9で示すように、オフライン声紋認証部60の認証対象期間は、オフライン声紋認証部50の認証対象期間と異なり、リアルタイム声紋認証部40が認証できない期間をともに含んで前後にずれるように選択される。これにより、リアルタイム声紋認証部40の認証結果が適切に補完される。
オフライン声紋認証部60は、メモリ20に対し、期間を指定して音声データVSを要求し、取得した音声データVSに基づいて声紋認証を行い、話者IDを特定すると同時に、対応する照合スコアSCRを生成する。
特定された話者IDは、図7に示す認証結果OFF2として、対応する照合スコアSCRとともに制御部10へ送出される。
図8は、制御部10が認証結果RTおよび認証結果OFF1,OFF2に基づいて、認証出力VPR_OUTを得るための処理を示すフローチャートである。
以下、図8の各ステップの処理を、図9に示すタイミングチャートに関連付けて述べる。図9において、(a)は音声データVSを、(b)は認証結果RTを、(c)は認証結果OFF1を、(d)は認証結果OFF2を、(e)は認証出力VPR_OUTを、それぞれ示す。
制御部10は、期間TP2よりも短い所定の走査期間Δt毎に、得られた認証結果RTおよび認証結果OFF1,OFF2を走査し、図9に示すように、いずれかの結果が変化する期間毎に認証出力VPR_OUTを生成する。
ステップ20:
まず、リアルタイム声紋認証部40からの認証結果RTと、オフライン声紋認証部50からの認証結果OFF1と、オフライン声紋認証部60からの認証結果OFF2の少なくともいずれか一つの結果が有効な結果であるか否かがチェックされる。
ステップ21:
認証結果RTと認証結果OFF1のいずれも有効な結果が得られていない場合の処理である。たとえば、走査期間Δtが図9に示す時刻t1と時刻t2の間にある場合には、リアルタイム声紋認証部40が認証を行うことができず、また、オフライン声紋認証部50およびオフライン声紋認証部60が認証を行っていない。
かかる場合には、走査期間Δtの前後においてリアルタイム声紋認証部40により認証された2つの認証結果RTに基づいて処理を行う。本ステップでは、走査期間Δtの前後の2つの認証結果RTを比較する。
ステップ22:
ステップ21において、走査期間Δtの前後の2つの認証結果RTが一致する場合には、その一致した認証結果RTを認証出力VPR_OUTとする。
たとえば、図9において、走査期間Δtが時刻t1と時刻t2の間にある場合には、その前後の認証結果RTが「A」であるので、認証出力VPR_OUTは「A」となり、走査期間Δtが時刻t9と時刻t10の間にある場合には、その前後の認証結果RTが「B」あるので、認証出力VPR_OUTは「B」となる。
ステップ23:
ステップ21において、走査期間Δtの前後の2つの認証結果RTが一致しない場合には、その一致しない期間を折半し、その期間の前半部の認証出力VPR_OUTを、走査期間Δtの前の認証結果RTとし、その期間の後半部の認証出力VPR_OUTを、走査期間Δtの後の認証結果RTとする。
ステップ24,25:
ステップ20において、認証結果RTと認証結果OFF1,OFF2のうち、少なくとも1つの有効な結果が得られた場合には、多数決により認証出力VPR_OUTを得る。すなわち、認証結果RTの話者IDと、認証結果OFF1の話者IDと、認証結果OFF2の話者IDとによる多数決で認証出力VPR_OUTを求めるのである。
たとえば、図9において、時刻t4〜時刻t5では、それぞれ「A」の結果が1つ、「B」の結果が2つ得られているので、多数決により「B」を認証出力VPR_OUTとする。
ステップ24,26:
ステップ20において、認証結果RTと認証結果OFF1,OFF2のうち、少なくとも1つの有効な結果が得られた場合であって、多数決により認証出力VPR_OUTを得られない場合の処理である。たとえば、有効な認証結果が2つであり、その2つが一致しない場合には、多数決によって認証出力VPR_OUTを決定することができない。
かかる場合には、得られた認証結果RTおよび認証結果OFF1,OFF2の開始の先後に応じて、多数決により認証出力を決定できない期間を折半して、認証出力VPR_OUTとする。
たとえば、図9において、時刻t3〜時刻t4では、認証結果RTは「A」であり、認証結果OFF1は「B」であり、多数決により決定することができないので、各認証結果が開始する時刻を比較する。この場合、認証結果RTの「A」は時刻t2より開始し、認証結果OFF1の「B」は時刻t2より遅い時刻t3より開始するため、時刻t3〜時刻t4の期間を折半して、「A」および「B」の順に認証出力VPR_OUTとする。
以上述べた処理を行うことにより、実際の音声データVSの話者の切り替わりタイミングtcに、認証出力VPR_OUTの切り替わりタイミングを近付けることができる。たとえば、図9に示す例では、仮にリアルタイム声紋認証部40の認証結果RTのみで判断したとすれば、時刻t5〜時刻t6の間で話者が切り替わったと判断するが、オフライン声紋認証部50の認証結果OFF1,OFF2を判断に加えることで、切り替わりタイミングは、時刻t3〜時刻t4の間であると判断し、実際の切り替わりタイミングtcに大きく近付けることができる。
図10は、切り替わりタイミングtcが図9の場合と異なり、期間TP2の間である場合についてのタイミングチャートであり、(a)は音声データVSを、(b)は認証結果RTを、(c)は認証結果OFF1を、(d)は認証結果OFF2を、(e)は認証出力VPR_OUTを、それぞれ示す。
図10に示す例では、仮にリアルタイム声紋認証部40の認証結果RTのみで判断したとすれば、時刻t5〜時刻t6の間で話者が切り替わったと判断するが、第1の実施形態に係る音声処理装置1に対して、オフライン声紋認証部50と認証対象の期間をずらしたオフライン声紋認証部60を付加したので、切り替わりタイミングが期間TP2の間にある場合でも、第1の実施形態に係る音声処理装置1と異なり、認証出力VPR_OUTの切り替わりタイミングが時刻t5〜時刻t6となり、実際の切り替わりタイミングtcとほぼ一致する。
次いで、話者が3名存在する場合の処理の例について述べる。
図11は、話者Aと話者Bの間に、短く話をする話者Cが存在する場合のタイミングチャートであり、図12は、話者Aと話者Bの間に、比較的長く話をする話者Cが存在する場合のタイミングチャートである。
各図において、(a)は音声データVSを、(b)は認証結果RTを、(c)は認証結果OFF1を、(d)は認証結果OFF2を、(e)は認証結果OFF1を、(f)は認証結果OFF2を、(g)は認証出力VPR_OUTを、それぞれ示す。なお、図の理解の容易のため、認証結果OFF1,OFF2をそれぞれ2つに分けて記載している。
図に示すように、オフライン声紋認証部50およびオフライン声紋認証部60は、リアルタイム声紋認証部40が声紋認証できない期間を挟んで交互に期間を指定して、メモリ20から音声データVSを取り出し、声紋認証する。
各図に示すように、話者が3名存在する場合についても、同様に、実際の音声データVSの話者の切り替わりタイミングtc1,tc2に、認証出力VPR_OUTの切り替わりタイミングを近付けることができる。
たとえば、図11に示す例では、仮にリアルタイム声紋認証部40の認証結果RTのみで判断したとすれば、時刻t5〜時刻t6の間と、時刻t8〜時刻t9の間で、話者が切り替わったと判断するが、オフライン声紋認証部50の認証結果OFF1,OFF2を判断に加えることで、時刻t6〜時刻t7の間と、時刻t7〜時刻t8の間で発話者が切り替わったと判断し、実際の切り替わりタイミングtc1,tc2に大きく近付けることができる。
また、図12に示す例では、仮にリアルタイム声紋認証部40の認証結果RTのみで判断したとすれば、時刻t5〜時刻t6の間と、時刻t8〜時刻t9の間で、話者が切り替わったと判断するが、オフライン声紋認証部50の認証結果OFF1,OFF2を判断に加えることで、時刻t4〜時刻t5の間と、時刻t9〜時刻t10の間で発話者が切り替わったと判断し、実際の切り替わりタイミングtc1,tc2に大きく近付けることができる。
以上述べたように、上述した各実施形態に係る音声処理装置によれば、リアルタイム声紋認証部40が音声のサンプリング(期間TP1)と声紋認証処理(期間TP2)を交互に行う際に、認証エラーを防止するためにサンプリングの期間TP1を十分に設けたことで音声の切り替わりタイミングを正確に把握できない場合であっても、短時間の後に得られるオフライン声紋認証部50/オフライン声紋認証部60の認証結果により、適切に補完処理されるため、リアルタイムに近い時間遅れをもって、リアルタイム認証結果より正確な認証結果が得られる。
本実施形態に係る音声処理装置2は、たとえば、複数の話者による会議の議事録データを作成する際に好適である。すなわち、ほぼリアルタイムに近い時間遅れをもって、リアルタイムの声紋認証よりも精度の高い会議議事録を作成することができる。
第3の実施形態
以下、本発明に係る音声処理装置の第3の実施形態について述べる。
上述した第1の実施形態/第2の実施形態に係る音声処理装置による声紋認証処理を、実際の用途において、より完全を期するためには、改善を要する場合がある。
たとえば、実際には、話者Aと話者Bのみが話をしていることが明らかであるにも関わらず、音声処理装置が話者Aでもなく話者Bでもない話者Cを認証出力として決定してしまう場合がある。これは、話者Cの声紋モデルが話者A若しくは話者Bの声紋モデルと近似する場合や、話者Aと話者Bの音声が混在して入力される場合などに起こる。
図13は、話者の切り替わり時刻tcの前後でリアルタイム声紋認証部40が誤認証する場合のタイミングチャートである。
図13では、(a)に示すように、時刻t5付近で話者Aと話者Bの音声データVSが切り替わるタイミングで、両者の音声が混在するためにリアルタイム声紋認証部40が誤認証して、時刻t4〜時刻t6の認証結果RTを「C」としている。これにより、(g)に示すように、時刻t4〜時刻t5の後半部分と、時刻t5〜時刻t6の前半部分の認証出力VPR_OUTが「C」となっている。
図14は、話者の切り替わり時刻tcの前後でオフライン声紋認証部50が誤認証する場合のタイミングチャートである。
図14では、(a)に示すように、時刻t5付近で話者Aと話者Bの音声データVSが切り替わるタイミングで、両者の音声が混在するためにオフライン声紋認証部50が誤認証して、時刻t4〜時刻t6の認証結果RTを「C」としている。これにより、(e)に示すように、時刻t4〜時刻t5の後半部分と、時刻t5〜時刻t6の前半部分の認証出力VPR_OUTが「C」となっている。
図15は、話者の切り替わり時刻tc直後にオフライン声紋認証部60が誤認証する場合のタイミングチャートである。
図15では、(a)に示すように、時刻t5付近で話者Aと話者Bの音声データVSが切り替わるタイミングの後、オフライン声紋認証部60が誤認証して、時刻t5〜時刻t7の認証結果RTを「C」としている。これにより、(e)に示すように、時刻t5〜時刻t6の後半部分と、時刻t6〜時刻t7の前半部分の認証出力VPR_OUTが「C」となっている。
以上、図13〜図15によって明らかなように、リアルタイム声紋認証部40/オフライン声紋認証部50/オフライン声紋認証部60のいずれか一つが誤認証した場合には、認証出力VPR_OUTが誤った認証結果を送出してしまうのである。
そこで、本実施形態に係る音声処理装置では、第1の実施形態/第2の実施形態に係る音声処理装置により決定した認証出力に対してさらに補正処理を行った後に、最終的な認証出力VPR_OUTを決定する。
補正処理は以下の通り行う。
各声紋認証部は、話者ID(「A」,「B」等)とともに照合スコアSCR(照合の近似度合い)を算出しているので、制御部10は、この照合スコアSCRを用いて補正処理を行う。具体的には、制御部10は、声紋レジスタ30に登録された話者IDのうち、出力可能な話者IDを予め制限し、第1の実施形態/第2の実施形態で述べた処理により決定された認証結果(以下、その結果をPRE_OUTと称する)が、予め制限した話者ID以外の話者IDである場合には、出力可能な話者IDのうち、決定された話者IDの照合スコアSCRに最も近い照合スコアSCRの話者IDを、認証出力VPR_OUTとして決定する。
これは、一般に、誤認証の場合には、正しい話者の照合スコアSCRが僅差で存在することが多いためである。
たとえば、図13〜図15に示した例において、誤認証した「C」の照合スコアSCRと、予め限定された話者IDである「A」および「B」の照合スコアSCRとをそれぞれ比較し、その差分が所定値以下である場合に補正を行う。
すなわち、下式(1),(2)のいずれかが成立する「A」または「B」を認証出力VPR_OUTとして決定する。下式がともに成立する場合には、「A」,「B」のうち、照合スコアSCRが高い方を認証出力VPR_OUTとして決定する。

SCR_C−SCR_A<所定の閾値 …(1)
SCR_C−SCR_B<所定の閾値 …(2)

なお、SCR_A:「A」の照合スコアSCR,
SCR_B:「B」の照合スコアSCR,
SCR_C:「C」の照合スコアSCR,とする。

上記した所定の閾値は、本発明が適用される用途に応じて、適切に設定されることは言うまでもない。
図16および図17は、リアルタイム声紋認証部40の認証結果RTに誤りがある場合に行われる補正処理を示すタイミングチャートである。なお、(g)に示すPRE_OUTは、上述したように、第1乃至第2の実施形態で述べた処理により決定された結果であり、(h)に示す認証出力VPR_OUTは、PRE_OUTに対して補正処理を行って得られる最終的な認証結果である。
図16では、(a)および(b)に示すように、実際の音声の切り替わりタイミングtcの前後において、認証結果RTが誤って「C」(時刻t4〜時刻t6)となっており、その結果として、(g)に示すように、時刻t4〜時刻t5の後半部分と、時刻t5〜時刻t6の後半部分は、「C」と判定されている。
この場合、制御部10は、認証結果(PRE_OUT)が予定しない結果である、すなわち、予め制限した話者IDの結果ではないので、時刻t4〜時刻t5の後半部分では、認証結果RTである「C」の照合スコアSCRと、認証結果OFF2である「A」の照合スコアSCRとに基づいて、上記式(1)が成立する場合に、認証出力VPR_OUTを「A」と補正する。
同様に、時刻t5〜時刻t6の後半部分では、認証結果RTである「C」の照合スコアSCRと、認証結果OFF1である「B」の照合スコアSCRとに基づいて、上記式(2)が成立する場合に、認証出力VPR_OUTを「B」と補正する。
これにより、(h)に示すように、リアルタイム声紋認証部40の誤認証にも関わらず、正しい認証出力VPR_OUTが得られる。
図17では、実際の発話者は「A」のみであるにも関わらず、話者Aの音声レベル(音圧レベル)が十分ではないために、時刻t5付近で「C」とリアルタイム声紋認証部40が誤判定する場合について補正処理される例を示す。
かかる場合においても、認証結果OFF1および認証結果OFF2である「A」の照合スコアSCRに基づいて、PRE_OUTの「C」が補正される結果、(h)に示すように、正しい認証出力VPR_OUTが得られる。
以上述べたように、本実施形態に係る補正処理により、第1および第2の実施形態で述べた音声処理装置の認証精度をさらに向上させることができる。
第1の実施形態に係る音声処理装置の一構成例である。 リアルタイム認証処理の実際の処理の一例を示すタイミングチャートである。 リアルタイム認証処理のタイミングチャートの表記例である。 第1の実施形態に係る音声処理装置において、認証出力VPR_OUTを得るための処理を示すフローチャートである。 第1の実施形態に係る音声処理装置の制御部の処理の一例を示すタイミングチャートである。 第1の実施形態に係る音声処理装置の制御部の処理の一例を示すタイミングチャートである。 第2の実施形態に係る音声処理装置の一構成例である。 第2の実施形態に係る音声処理装置の処理を示すフローチャートである。 第2の実施形態に係る音声処理装置の制御部の処理の一例(話者2人)を示すタイミングチャートである。 第2の実施形態に係る音声処理装置の制御部の処理の一例(話者2人)を示すタイミングチャートである。 第2の実施形態に係る音声処理装置の制御部の処理の一例(話者3人)を示すタイミングチャートである。 第2の実施形態に係る音声処理装置の制御部の処理の一例(話者3人)を示すタイミングチャートである。 リアルタイム声紋認証部が誤認証する場合の一例を示すタイミングチャートである。 オフライン声紋認証部が誤認証する場合の一例を示すタイミングチャートである。 オフライン声紋認証部が誤認証する場合の一例を示すタイミングチャートである。 第3の実施形態に係る音声処理装置の補正処理の一例を示すタイミングチャートである。 第3の実施形態に係る音声処理装置の補正処理の一例を示すタイミングチャートである。
符号の説明
10…制御部(CPU)、20…メモリ(MEM)、30…声紋レジスタ(REG)、40…リアルタイム声紋認証部(VPR_RT)、50…オフライン声紋認証部(VPR_OFF1)、60…オフライン声紋認証部(VPR_OFF2)。

Claims (8)

  1. 複数の声紋データを話者データと関連付けて記憶する第1の記憶手段と、
    所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第1の話者データを特定する処理とを順に行う第1の声紋認証手段と、
    前記音声を記憶する第2の記憶手段と、
    前記第1の声紋認証手段により第1の話者が特定されなかった期間を含む期間の音声を前記第2の記憶手段から取り出し、声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第2の話者データを特定する第2の声紋認証手段と、
    前記第1および第2の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段と
    を有する音声処理装置。
  2. 前記制御手段は、第1の話者データと第2の話者データのいずれも特定されなかった期間に対し、
    当該期間の前後に特定された第1の話者データが一致するときは、当該第1の話者データを確定話者データとして決定し、一致しないときは、当該期間の前後に特定された第1の話者データを、それぞれ当該期間の前半および後半の確定話者データとして決定する
    請求項1記載の音声処理装置。
  3. 前記制御手段は、第1および第2の話者データが一致するために多数決により確定話者データを決定できない期間に対し、
    第1の声紋認証手段が当該期間の第1の話者データと同一の話者データの特定を開始する第1の時刻と、第2の声紋認証手段が当該期間の第2の話者データと同一の話者データの特定を開始する第2の時刻とを比較し、
    前記第1および第2の時刻の前後に応じて、前記第1および第2の話者データを当該期間の前半および後半の確定話者データとして決定する
    請求項1記載の音声処理装置。
  4. 複数の声紋データを話者データと関連付けて記憶する第1の記憶手段と、
    所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第1の話者データを特定する処理とを順に行う第1の声紋認証手段と、
    前記音声を記憶する第2の記憶手段と、
    前記第1の声紋認証手段により第1の話者が特定されなかった期間を含む第1の期間の音声を前記第2の記憶手段から取り出し、声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第2の話者データを特定する第2の声紋認証手段と、
    前記第1の声紋認証手段により第1の話者が特定されなかった期間を含み、前記第1の期間と異なる第2の期間の音声を前記第2の記憶手段から取り出し、声紋データを抽出し、前記第1の記憶手段が記憶する複数の声紋データと照合し、第3の話者データを特定する第3の声紋認証手段と、
    前記第1乃至第3の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段と
    を有する音声処理装置。
  5. 前記制御手段は、第1乃至第3の話者データのいずれも特定されなかった期間に対し、
    当該期間の前後に特定された第1の話者データが一致するときは、当該第1の話者データを確定話者データとして決定し、一致しないときは、当該期間の前後に特定された第1の話者データを、それぞれ当該期間の前半および後半の確定話者データとして決定する
    請求項4記載の音声処理装置。
  6. 前記制御手段は、第1乃至第3の話者データのうち、いずれか2つ話者データが一致するために多数決により確定話者データを決定できない期間に対し、
    前記2つの話者データのうち、一方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第1の時刻と、他方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第2の時刻とを比較し、
    前記第1および第2の時刻の前後に応じて、前記2つの話者データを当該期間の前半および後半の確定話者データとして決定する
    請求項4記載の音声処理装置。
  7. 前記第1乃至第3の声紋認証手段は、それぞれ、前記第1乃至第3の話者データを特定する際に、照合した声紋データの近似度合いに応じた第1乃至第3の照合値を生成し、
    前記制御手段は、予め限定された複数の話者データ以外の話者データを確定話者データとして決定した場合には、
    前記第1乃至第3の照合値のうち、前記確定話者データに対応する照合値との差が所定の閾値以下である前記第1乃至第3の話者データのいずれか一の話者データに、前記確定話者データを補正する
    請求項4記載の音声処理装置。
  8. 前記第1乃至第3の話者データのうち、第1乃至第3の照合値と、前記確定話者データに対応する照合値との差が所定の閾値以下である話者データが2以上ある場合には、最も照合値が大きい話者データに、前記確定話者データを補正する
    請求項7記載の音声処理装置。
JP2004131864A 2004-04-27 2004-04-27 音声処理装置 Pending JP2005316003A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004131864A JP2005316003A (ja) 2004-04-27 2004-04-27 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004131864A JP2005316003A (ja) 2004-04-27 2004-04-27 音声処理装置

Publications (1)

Publication Number Publication Date
JP2005316003A true JP2005316003A (ja) 2005-11-10

Family

ID=35443535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004131864A Pending JP2005316003A (ja) 2004-04-27 2004-04-27 音声処理装置

Country Status (1)

Country Link
JP (1) JP2005316003A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199742A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 一种身份验证方法、装置及计算设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199742A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 一种身份验证方法、装置及计算设备

Similar Documents

Publication Publication Date Title
US8010367B2 (en) Spoken free-form passwords for light-weight speaker verification using standard speech recognition engines
ES2883326T3 (es) Reconocimiento de hablante de extremo a extremo mediante el uso de una red neuronal profunda
WO2017215558A1 (zh) 一种声纹识别方法和装置
US9171548B2 (en) Methods and systems for speaker identity verification
WO2017114307A1 (zh) 能够防止录音攻击的声纹认证方法、服务器、终端及系统
EP1704668B1 (en) System and method for providing claimant authentication
US9424837B2 (en) Voice authentication and speech recognition system and method
US9099085B2 (en) Voice authentication systems and methods
TW201741921A (zh) 身份認證方法和裝置
US20070219792A1 (en) Method and system for user authentication based on speech recognition and knowledge questions
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
WO2005013263A1 (ja) 音声認証システム
WO2017206375A1 (zh) 声纹注册、认证方法及装置
JP2004259255A (ja) 認証装置
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
WO2019179033A1 (zh) 说话人认证方法、服务器及计算机可读存储介质
CN107346568A (zh) 一种门禁系统的认证方法和装置
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
US8600751B2 (en) Digital method and arrangement for authenticating a person
WO2018088534A1 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
JP3849841B2 (ja) 話者認識装置
JP2005316003A (ja) 音声処理装置
JP4440414B2 (ja) 話者照合装置及び方法
US7289957B1 (en) Verifying a speaker using random combinations of speaker's previously-supplied syllable units
JP2005308950A (ja) 音声処理装置および音声処理システム