JP2005316003A

JP2005316003A - 音声処理装置

Info

Publication number: JP2005316003A
Application number: JP2004131864A
Authority: JP
Inventors: Yoshitaka Abe; 義孝阿部; Akira Masuda; 彰増田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-04-27
Filing date: 2004-04-27
Publication date: 2005-11-10

Abstract

【課題】声紋認証可能なサンプリング時間を十分に確保しつつ、話者特定の精度を向上させた音声処理装置を提供する。
【解決手段】リアルタイムに音声データＶＳに対して声紋レジスタ（ＲＥＧ）３０と照合して声紋認証を行うリアルタイム声紋認証部（ＶＰＲ＿ＲＴ）４０の認証結果と、リアルタイム声紋認証部４０により声紋認証を行うことができない期間について、一度メモリ（ＭＥＭ）２０に保存した音声データＶＳに対して声紋レジスタ（ＲＥＧ）３０と照合して声紋認証を行うオフライン声紋認証部（ＶＰＲ＿ＯＦＦ１）およびオフライン声紋認証部（ＶＰＲ＿ＯＦＦ２）６０の認証結果とに基づいて、制御部１０は、確定した認証結果として認証出力ＶＰＲ＿ＯＵＴを得る。
【選択図】図７

Description

本発明は、音声に基づいて声紋認証技術により話者を特定する音声処理装置に関する。

従来より、音声に基づいて当該音声に係る話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、たとえば、銀行のコールセンター等に適用されている。

一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、および身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で話者を特定することが可能となる。たとえば、話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも話者特定の認証精度が高い。

具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデルが予め登録される。

従来の声紋認証エンジンは、以下の処理を行うことで話者を特定する。
（１）声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
（２）声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較／照合し、モデルの特徴量が近似する度合いに応じた照合値（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する話者を特定する。

ところで、従来の声紋認証エンジンによれば、上述した声紋認証技術によりリアルタイムに話者を特定することができるものの、実際には、音声を所定時間毎にサンプリングを行う第１のステップと、サンプリングした音声から声紋認証処理を行う第２のステップとを交互に行う必要がある。
その際、この第１のステップにおけるサンプリング時間を十分に取れない場合には、認証に必要な声紋モデルを生成することができず、認証エラーが生じやすいので、たとえば、３秒間以上の十分な時間のサンプリング時間を確保する必要がある。
一方、十分な時間のサンプリング時間を確保しようとすると、そのサンプリング時間の間に話者が切り替わった場合には、その切り替わったタイミングを正確に捉えることができないので、認証精度が低下する。

本発明はかかる事情に鑑みてなされたものであり、その目的は、声紋認証可能なサンプリング時間を十分に確保しつつ、話者特定の精度を向上させた音声処理装置を提供することにある。

上記目的を達成するために本発明の第１の観点は、複数の声紋データを話者データと関連付けて記憶する第１の記憶手段と、所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第１の話者データを特定する処理とを順に行う第１の声紋認証手段と、前記音声を記憶する第２の記憶手段と、前記第１の声紋認証手段により第１の話者が特定されなかった期間を含む期間の音声を前記第２の記憶手段から取り出し、声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第２の話者データを特定する第２の声紋認証手段と、前記第１および第２の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段とを有する音声処理装置である。

上記目的を達成するために本発明の第２の観点は、複数の声紋データを話者データと関連付けて記憶する第１の記憶手段と、所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第１の話者データを特定する処理とを順に行う第１の声紋認証手段と、前記音声を記憶する第２の記憶手段と、前記第１の声紋認証手段により第１の話者が特定されなかった期間を含む第１の期間の音声を前記第２の記憶手段から取り出し、声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第２の話者データを特定する第２の声紋認証手段と、前記第１の声紋認証手段により第１の話者が特定されなかった期間を含み、前記第１の期間と異なる第２の期間の音声を前記第２の記憶手段から取り出し、声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第３の話者データを特定する第３の声紋認証手段と、前記第１乃至第３の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段とを有する音声処理装置である。

好適には、前記制御手段は、第１乃至第３の話者データのいずれも特定されなかった期間に対し、当該期間の前後に特定された第１の話者データが一致するときは、当該第１の話者データを確定話者データとして決定し、一致しないときは、当該期間の前後に特定された第１の話者データを、それぞれ当該期間の前半および後半の確定話者データとして決定する。

好適には、前記制御手段は、第１乃至第３の話者データのうち、いずれか２つ話者データが一致するために多数決により確定話者データを決定できない期間に対し、前記２つの話者データのうち、一方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第１の時刻と、他方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第２の時刻とを比較し、前記第１および第２の時刻の前後に応じて、前記２つの話者データを当該期間の前半および後半の確定話者データとして決定する。

好適には、前記第１乃至第３の声紋認証手段は、それぞれ、前記第１乃至第３の話者データを特定する際に、照合した声紋データの近似度合いに応じた第１乃至第３の照合値を生成し、前記制御手段は、予め限定された複数の話者データ以外の話者データを確定話者データとして決定した場合には、前記第１乃至第３の照合値のうち、前記確定話者データに対応する照合値との差が所定の閾値以下である前記第１乃至第３の話者データのいずれか一の話者データに、前記確定話者データを補正する。

第１の観点に係る音声処理装置によれば、第１の声紋認証手段は、所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、記第１の記憶手段が記憶する複数の声紋データと照合し、第１の話者データを特定する処理とを順に行い、第２の記憶手段は、前記音声を記録し、第２の声紋認証手段は、前記第１の声紋認証手段により第１の話者が特定されなかった期間を含み、前記第１の期間と異なる第２の期間の音声を前記第２の記憶手段から取り出し、声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第２の話者データを特定し、制御手段は、前記第１および第２の話者データに基づいて、多数決により時間毎の確定話者データを決定するので、第１の声紋認証手段の認証結果である第１の話者データが第２の声紋認証手段の認証結果である話者データによって適切に補正される。

本発明によれば、任意の時間の話者を精度良く特定することができ、会議の議事録作成等の幅広い用途に適用できる。

第１の実施形態
以下、本発明に係る音声処理装置の一実施形態について述べる。
図１は、本実施形態に係る音声処理装置１の一構成例である。図に示すように、音声処理装置１は、本発明の制御手段としての制御部（ＣＰＵ）１０と、本発明の第２の記憶手段としてのメモリ（ＭＥＭ）２０と、本発明の第１の記憶手段としての声紋レジスタ（ＲＥＧ）３０と、本発明の第１の声紋認証手段としてのリアルタイム声紋認証部４０と、本発明の第２の声紋認証手段としてのオフライン声紋認証部５０とを含んで構成される。

リアルタイム声紋認証部４０は、声紋認証に必要なサンプリング時間（後述するＴＰ１）毎に音声データＶＳを取り込み、取り込んだ音声データＶＳを所定の処理時間（後述するＴＰ２）内に声紋認証して話者を特定する。すなわち、入力する音声データＶＳをリアルタイムに声紋認証処理を行う。
但し、リアルタイム声紋認証部４０は、たとえば、上述したサンプリングと声紋認証を交互に行っているために、完全なリアルタイム処理ではなく、ある程度の時間的な遅れを伴って話者を特定する。また、完全に全ての時間について声紋認証結果（話者特定結果）が得られることはなく、たとえば、声紋認証中（ＴＰ２）には、サンプリングを行わないので、その間の声紋認証結果は得られないことがある。
さらに、認証エラーが生じないようにサンプリング時間（ＴＰ１）をある程度（たとえば、３秒間）確保する必要があるので、話者の切り替わりタイミングを正確に把握することができない。

声紋レジスタ３０には、認証対象の複数の話者の音声データに基づいて、声紋認証部２０がそれぞれ生成した声紋モデルが予め登録されている。すなわち、声紋レジスタ３０には、話者ＩＤと声紋モデルが相互に関連付けられて記憶されている。

声紋認証技術については、すでに公知の技術をリアルタイム声紋認証部４０に適用させることが可能であるが、たとえば、リアルタイム声紋認証部４０は、以下の処理を行うことで話者を特定する。
（１）声紋モデル（本発明の声紋データ）の生成
音声データＶＳをスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
（２）声紋モデルの照合
入力した音声データＶＳの声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタ３０に登録された声紋モデルとを比較／照合し、モデルの特徴量が近似する度合いに応じた照合スコアＳＣＲ（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する話者ＩＤを特定する。
特定された話者ＩＤは、図１に示す認証結果ＲＴとして、対応する照合スコアＳＣＲとともに制御部１０へ送出される。
なお、本実施形態に係る照合スコアＳＣＲは、本発明の照合値に対応する。

メモリ２０は、音声データＶＳを順次記憶する。メモリ２０内の音声データＶＳは、必要に応じてオフライン声紋認証部５０によりアクセスされ、メモリ２０は、任意の期間の音声データＶＳがアクセス可能に記憶領域を構成する。

オフライン声紋認証部５０は、声紋認証処理を行う点では、リアルタイム声紋認証部４０と共通するが、声紋認証の基礎となる音声データＶＳをメモリ２０内から取得して声紋認証を行う点で相違する。すなわち、オフライン声紋認証部５０は、一度メモリ２０に書き込まれた音声データＶＳに基づいて声紋認証を行うので、リアルタイム声紋認証部４０と比較すると、時間遅れをもって認証結果が生成される一方で、リアルタイム声紋認証部４０が声紋認証できなかった期間の声紋認証結果を得ることができる。
オフライン声紋認証部５０は、メモリ２０に対し、期間を指定して音声データＶＳを要求し、取得した音声データＶＳに基づいて声紋認証を行い、話者ＩＤを特定すると同時に、対応する照合スコアＳＣＲを生成する。
特定された話者ＩＤは、図１に示す認証結果ＯＦＦ１として、対応する照合スコアＳＣＲとともに制御部１０へ送出される。

制御部１０は、音声処理装置１の全体の制御を行う。
たとえば、声紋レジスタ３０およびメモリ２０に対するアクセス制御、入力した音声データＶＳに対する処理、リアルタイム声紋認証部４０およびオフライン声紋認証部５０の声紋認証処理に対するタイミング制御、などである。
特に、制御部１０は、リアルタイム声紋認証部４０から送出された認証結果ＲＴと、オフライン声紋認証部５０から送出された認証結果ＯＦＦ１とに基づいて、以下に述べる所定の処理を行い、最終的に話者を決定し、図１に示すように、当該決定に係る認証出力ＶＰＲ＿ＯＵＴ（本発明の確定話者データ）を外部に送出する。

次いで、制御部１０が認証結果ＲＴおよび認証結果ＯＦＦ１に基づいて、認証出力ＶＰＲ＿ＯＵＴを得るための処理について述べる。
図２は、リアルタイム声紋認証部４０の認証結果ＲＴの出力タイミングを示すタイミングチャートであり、（ａ）は実際の音声データＶＳを、（ｂ）は認証結果ＲＴを、それぞれ示す。図に示す「Ａ」および「Ｂ」は、音声データＶＳに対応する話者ＩＤを示す。図では、時刻ｔｃで話者が切り替わっている。
図において、リアルタイム声紋認証部４０は、期間ＴＰ１の間に音声データＶＳのサンプリングを行い、期間ＴＰ１に続いて期間ＴＰ２の間に、サンプリングした音声データＶＳを声紋認証して話者ＩＤを特定する。リアルタイム声紋認証部４０は、期間ＴＰ１および期間ＴＰ２の処理を順に連続して行っている。たとえば、期間ＴＰ１としては、３秒間程度である。

リアルタイム声紋認証部４０は、声紋認証処理を行った後に話者ＩＤを特定するので、文字通りのリアルタイム処理ではなく、図２の矢印に示すように、たとえば、期間ＴＰ１＋期間ＴＰ２の分だけ時間的に遅れて認証結果ＲＴが得られるが、以降に示すタイミングチャートでは、理解の容易のため、図３の矢印が示すように、あたかも完全にリアルタイムに処理がなされたように記載することにする。
図２（ｂ）に示すように、リアルタイム声紋認証部４０の声紋認識処理は、短期間で声紋認証結果が得られるものの、認証処理中にサンプリングができない等に起因して、全時間で完全な認証結果が得られず、また、サンプリング中（期間ＴＰ１）に話者が切り替わった場合などには、正確な認証結果を得ることができない。

オフライン声紋認証部５０は、上述したリアルタイム声紋認証部４０を補完して認証精度を向上させるため、リアルタイム声紋認証部４０が認証処理できない期間ＴＰ２を少なくとも含む所定の期間の音声データＶＳをメモリ２０から取得して声紋認証し、話者ＩＤを特定する。
制御部１０は、リアルタイム声紋認証部４０の認証結果ＲＴを図示しないバッファに保持し、遅れて送出されるオフライン声紋認証部５０の認証結果ＯＦＦ１を待って処理を行う。

図４は、制御部１０が認証結果ＲＴおよび認証結果ＯＦＦ１に基づいて、認証出力ＶＰＲ＿ＯＵＴを得るための処理を示すフローチャートである。
以下、図４の各ステップの処理を、図５に示すタイミングチャートに関連付けて述べる。図５において、（ａ）は音声データＶＳを、（ｂ）は認証結果ＲＴを、（ｃ）は認証結果ＯＦＦ１を、（ｄ）は認証出力ＶＰＲ＿ＯＵＴを、それぞれ示す。

なお、以下に述べる説明においては、たとえば、「Ａ」と表記する場合には、実際の話者としての話者Ａと、認証結果としての話者ＩＤのデータとの両方の意を包含する。

制御部１０は、期間ＴＰ２よりも短い所定の走査期間Δｔ毎に、得られた認証結果ＲＴおよび認証結果ＯＦＦ１を走査し、図５に示すように、いずれかの認証結果が変化する期間毎に認証出力ＶＰＲ＿ＯＵＴを生成する。
ステップ１０：
まず、リアルタイム声紋認証部４０からの認証結果ＲＴと、オフライン声紋認証部５０からの認証結果ＯＦＦ１の少なくともいずれか一つの結果が有効な結果であるか否かがチェックされる。

ステップ１１：
認証結果ＲＴと認証結果ＯＦＦ１のいずれも有効な結果が得られていない場合の処理である。たとえば、走査期間Δｔが図５に示す時刻ｔ１と時刻ｔ２の間にある場合には、リアルタイム声紋認証部４０が認証を行うことができず、また、オフライン声紋認証部５０が認証を行っていない。
かかる場合には、走査期間Δｔの前後においてリアルタイム声紋認証部４０により認証された２つの認証結果ＲＴに基づいて処理を行う。本ステップでは、走査期間Δｔの前後の２つの認証結果ＲＴを比較する。

ステップ１２：
ステップ１１において、走査期間Δｔの前後の２つの認証結果ＲＴが一致する場合には、その一致した認証結果ＲＴを認証出力ＶＰＲ＿ＯＵＴとする。
たとえば、図５において、走査期間Δｔが時刻ｔ１と時刻ｔ２の間にある場合には、その前後の認証結果ＲＴが「Ａ」であるので、認証出力ＶＰＲ＿ＯＵＴは「Ａ」となり、走査期間Δｔが時刻ｔ７と時刻ｔ８の間にある場合には、その前後の認証結果ＲＴが「Ｂ」あるので、認証出力ＶＰＲ＿ＯＵＴは「Ｂ」となる。

ステップ１３：
ステップ１１において、走査期間Δｔの前後の２つの認証結果ＲＴが一致しない場合には、その一致しない期間を折半し、その期間の前半部の認証出力ＶＰＲ＿ＯＵＴを、走査期間Δｔの前の認証結果ＲＴとし、その期間の後半部の認証出力ＶＰＲ＿ＯＵＴを、走査期間Δｔの後の認証結果ＲＴとする。

ステップ１４，１５：
ステップ１０において、認証結果ＲＴと認証結果ＯＦＦ１のうち、少なくとも１つの有効な結果が得られた場合には、多数決により認証出力ＶＰＲ＿ＯＵＴを得る。すなわち、認証結果ＲＴの話者ＩＤと認証結果ＯＦＦ１の話者ＩＤとによる多数決で認証出力ＶＰＲ＿ＯＵＴを求めるのである。
たとえば、図５において、時刻ｔ２〜時刻ｔ３および時刻ｔ４〜時刻ｔ５では、それぞれ「Ａ」および「Ｂ」の認証結果のみが得られているので、これらを認証出力ＶＰＲ＿ＯＵＴとする。

ステップ１４，１６：
ステップ１０において、認証結果ＲＴと認証結果ＯＦＦ１のうち、少なくとも１つの有効な結果が得られた場合であって、多数決により認証出力ＶＰＲ＿ＯＵＴを得られない場合の処理である。たとえば、認証結果ＲＴの話者ＩＤと、認証結果ＯＦＦ１の話者ＩＤとが一致しない場合には、多数決によって認証出力ＶＰＲ＿ＯＵＴを決定することができない。
かかる場合には、得られた認証結果ＲＴおよび認証結果ＯＦＦ１の開始の先後に応じて、多数決により認証出力を決定できない期間を折半して、認証出力ＶＰＲ＿ＯＵＴとする。
たとえば、図５において、時刻ｔ３〜時刻ｔ４では、認証結果ＲＴは「Ａ」であり、認証結果ＯＦＦ１は「Ｂ」であるため、多数決により決定することができないので、各認証結果が開始する時刻を比較する。この場合、認証結果ＲＴの「Ａ」は時刻ｔ２より開始し、認証結果ＯＦＦ１の「Ｂ」は時刻ｔ２より遅い時刻ｔ３より開始するため、時刻ｔ３〜時刻ｔ４の期間を折半して、「Ａ」および「Ｂ」の順に認証出力ＶＰＲ＿ＯＵＴとする。

以上述べた処理を行うことにより、実際の音声データＶＳの話者の切り替わりタイミングｔｃに、認証出力ＶＰＲ＿ＯＵＴの切り替わりタイミングを近付けることができる。たとえば、図５に示す例では、仮にリアルタイム声紋認証部４０の認証結果ＲＴのみで判断したとすれば、時刻ｔ４〜時刻ｔ５の間で話者が切り替わったと判断するが、オフライン声紋認証部５０の認証結果ＯＦＦ１を判断に加えることで、切り替わりタイミングは、時刻ｔ３〜時刻ｔ４の間であると判断し、実際の切り替わりタイミングｔｃに近付けることができる。すなわち、認証精度が向上する。

図６は、切り替わりタイミングｔｃが図５の場合と異なり、期間ＴＰ２の間である場合についてのタイミングチャートであり、（ａ）は音声データＶＳを、（ｂ）は認証結果ＲＴを、（ｃ）は認証結果ＯＦＦ１を、（ｄ）は認証出力ＶＰＲ＿ＯＵＴを、それぞれ示す。
図６に示す例では、仮にリアルタイム声紋認証部４０の認証結果ＲＴのみで判断したとすれば、時刻ｔ４〜時刻ｔ５の間で話者が切り替わったと判断するが、オフライン声紋認証部５０の認証結果ＯＦＦ１を判断に加えることで、切り替わりタイミングは、時刻ｔ３〜時刻ｔ４の間であると判断し、実際の切り替わりタイミングｔｃに対して遠ざかっている。
したがって、本実施形態に係る音声処理装置１では、話者の切り替わりタイミングｔｃが期間ＴＰ１（サンプリング中）である場合にのみ効果があるということができる。

第２の実施形態
第１の実施形態に係る音声処理装置１によれば、話者の切り替わりタイミングｔｃが期間ＴＰ１（サンプリング中）である場合に声紋認証の精度が向上するが、本実施形態の音声処理装置２は、話者の切り替わりタイミングによらず、認証精度を向上させることを目的とする。
図７は、本実施形態に係る音声処理装置２の一構成例である。図７に示す音声処理装置２は、図１に示した音声処理装置１と比較して、オフライン声紋認証部６０が付加され、制御部１０が、リアルタイム声紋認証部４０からの認証結果ＲＴと、オフライン声紋認証部５０からの認証結果ＯＦＦ１と、オフライン声紋認証部６０からの認証結果ＯＦＦ２とに基づいて認証出力ＶＰＲ＿ＯＵＴを決定する点で異なる。
なお、オフライン声紋認証部６０は、本発明の第３の声紋認証手段の一実施形態である。

オフライン声紋認証部６０は、オフライン声紋認証部５０と同様に、声紋認証の基礎となる音声データＶＳをメモリ２０内から取得して声紋認証を行う。すなわち、オフライン声紋認証部６０は、一度メモリ２０に書き込まれた音声データＶＳに基づいて声紋認証を行うので、リアルタイム声紋認証部４０と比較すると、時間遅れをもって認証結果が生成される一方で、リアルタイム声紋認証部４０が声紋認証できなかった期間の声紋認証結果を得ることができる。
なお、後に図９で示すように、オフライン声紋認証部６０の認証対象期間は、オフライン声紋認証部５０の認証対象期間と異なり、リアルタイム声紋認証部４０が認証できない期間をともに含んで前後にずれるように選択される。これにより、リアルタイム声紋認証部４０の認証結果が適切に補完される。

オフライン声紋認証部６０は、メモリ２０に対し、期間を指定して音声データＶＳを要求し、取得した音声データＶＳに基づいて声紋認証を行い、話者ＩＤを特定すると同時に、対応する照合スコアＳＣＲを生成する。
特定された話者ＩＤは、図７に示す認証結果ＯＦＦ２として、対応する照合スコアＳＣＲとともに制御部１０へ送出される。

図８は、制御部１０が認証結果ＲＴおよび認証結果ＯＦＦ１，ＯＦＦ２に基づいて、認証出力ＶＰＲ＿ＯＵＴを得るための処理を示すフローチャートである。
以下、図８の各ステップの処理を、図９に示すタイミングチャートに関連付けて述べる。図９において、（ａ）は音声データＶＳを、（ｂ）は認証結果ＲＴを、（ｃ）は認証結果ＯＦＦ１を、（ｄ）は認証結果ＯＦＦ２を、（ｅ）は認証出力ＶＰＲ＿ＯＵＴを、それぞれ示す。

制御部１０は、期間ＴＰ２よりも短い所定の走査期間Δｔ毎に、得られた認証結果ＲＴおよび認証結果ＯＦＦ１，ＯＦＦ２を走査し、図９に示すように、いずれかの結果が変化する期間毎に認証出力ＶＰＲ＿ＯＵＴを生成する。
ステップ２０：
まず、リアルタイム声紋認証部４０からの認証結果ＲＴと、オフライン声紋認証部５０からの認証結果ＯＦＦ１と、オフライン声紋認証部６０からの認証結果ＯＦＦ２の少なくともいずれか一つの結果が有効な結果であるか否かがチェックされる。

ステップ２１：
認証結果ＲＴと認証結果ＯＦＦ１のいずれも有効な結果が得られていない場合の処理である。たとえば、走査期間Δｔが図９に示す時刻ｔ１と時刻ｔ２の間にある場合には、リアルタイム声紋認証部４０が認証を行うことができず、また、オフライン声紋認証部５０およびオフライン声紋認証部６０が認証を行っていない。
かかる場合には、走査期間Δｔの前後においてリアルタイム声紋認証部４０により認証された２つの認証結果ＲＴに基づいて処理を行う。本ステップでは、走査期間Δｔの前後の２つの認証結果ＲＴを比較する。

ステップ２２：
ステップ２１において、走査期間Δｔの前後の２つの認証結果ＲＴが一致する場合には、その一致した認証結果ＲＴを認証出力ＶＰＲ＿ＯＵＴとする。
たとえば、図９において、走査期間Δｔが時刻ｔ１と時刻ｔ２の間にある場合には、その前後の認証結果ＲＴが「Ａ」であるので、認証出力ＶＰＲ＿ＯＵＴは「Ａ」となり、走査期間Δｔが時刻ｔ９と時刻ｔ１０の間にある場合には、その前後の認証結果ＲＴが「Ｂ」あるので、認証出力ＶＰＲ＿ＯＵＴは「Ｂ」となる。

ステップ２３：
ステップ２１において、走査期間Δｔの前後の２つの認証結果ＲＴが一致しない場合には、その一致しない期間を折半し、その期間の前半部の認証出力ＶＰＲ＿ＯＵＴを、走査期間Δｔの前の認証結果ＲＴとし、その期間の後半部の認証出力ＶＰＲ＿ＯＵＴを、走査期間Δｔの後の認証結果ＲＴとする。

ステップ２４，２５：
ステップ２０において、認証結果ＲＴと認証結果ＯＦＦ１，ＯＦＦ２のうち、少なくとも１つの有効な結果が得られた場合には、多数決により認証出力ＶＰＲ＿ＯＵＴを得る。すなわち、認証結果ＲＴの話者ＩＤと、認証結果ＯＦＦ１の話者ＩＤと、認証結果ＯＦＦ２の話者ＩＤとによる多数決で認証出力ＶＰＲ＿ＯＵＴを求めるのである。
たとえば、図９において、時刻ｔ４〜時刻ｔ５では、それぞれ「Ａ」の結果が１つ、「Ｂ」の結果が２つ得られているので、多数決により「Ｂ」を認証出力ＶＰＲ＿ＯＵＴとする。

ステップ２４，２６：
ステップ２０において、認証結果ＲＴと認証結果ＯＦＦ１，ＯＦＦ２のうち、少なくとも１つの有効な結果が得られた場合であって、多数決により認証出力ＶＰＲ＿ＯＵＴを得られない場合の処理である。たとえば、有効な認証結果が２つであり、その２つが一致しない場合には、多数決によって認証出力ＶＰＲ＿ＯＵＴを決定することができない。
かかる場合には、得られた認証結果ＲＴおよび認証結果ＯＦＦ１，ＯＦＦ２の開始の先後に応じて、多数決により認証出力を決定できない期間を折半して、認証出力ＶＰＲ＿ＯＵＴとする。
たとえば、図９において、時刻ｔ３〜時刻ｔ４では、認証結果ＲＴは「Ａ」であり、認証結果ＯＦＦ１は「Ｂ」であり、多数決により決定することができないので、各認証結果が開始する時刻を比較する。この場合、認証結果ＲＴの「Ａ」は時刻ｔ２より開始し、認証結果ＯＦＦ１の「Ｂ」は時刻ｔ２より遅い時刻ｔ３より開始するため、時刻ｔ３〜時刻ｔ４の期間を折半して、「Ａ」および「Ｂ」の順に認証出力ＶＰＲ＿ＯＵＴとする。

以上述べた処理を行うことにより、実際の音声データＶＳの話者の切り替わりタイミングｔｃに、認証出力ＶＰＲ＿ＯＵＴの切り替わりタイミングを近付けることができる。たとえば、図９に示す例では、仮にリアルタイム声紋認証部４０の認証結果ＲＴのみで判断したとすれば、時刻ｔ５〜時刻ｔ６の間で話者が切り替わったと判断するが、オフライン声紋認証部５０の認証結果ＯＦＦ１，ＯＦＦ２を判断に加えることで、切り替わりタイミングは、時刻ｔ３〜時刻ｔ４の間であると判断し、実際の切り替わりタイミングｔｃに大きく近付けることができる。

図１０は、切り替わりタイミングｔｃが図９の場合と異なり、期間ＴＰ２の間である場合についてのタイミングチャートであり、（ａ）は音声データＶＳを、（ｂ）は認証結果ＲＴを、（ｃ）は認証結果ＯＦＦ１を、（ｄ）は認証結果ＯＦＦ２を、（ｅ）は認証出力ＶＰＲ＿ＯＵＴを、それぞれ示す。
図１０に示す例では、仮にリアルタイム声紋認証部４０の認証結果ＲＴのみで判断したとすれば、時刻ｔ５〜時刻ｔ６の間で話者が切り替わったと判断するが、第１の実施形態に係る音声処理装置１に対して、オフライン声紋認証部５０と認証対象の期間をずらしたオフライン声紋認証部６０を付加したので、切り替わりタイミングが期間ＴＰ２の間にある場合でも、第１の実施形態に係る音声処理装置１と異なり、認証出力ＶＰＲ＿ＯＵＴの切り替わりタイミングが時刻ｔ５〜時刻ｔ６となり、実際の切り替わりタイミングｔｃとほぼ一致する。

次いで、話者が３名存在する場合の処理の例について述べる。
図１１は、話者Ａと話者Ｂの間に、短く話をする話者Ｃが存在する場合のタイミングチャートであり、図１２は、話者Ａと話者Ｂの間に、比較的長く話をする話者Ｃが存在する場合のタイミングチャートである。
各図において、（ａ）は音声データＶＳを、（ｂ）は認証結果ＲＴを、（ｃ）は認証結果ＯＦＦ１を、（ｄ）は認証結果ＯＦＦ２を、（ｅ）は認証結果ＯＦＦ１を、（ｆ）は認証結果ＯＦＦ２を、（ｇ）は認証出力ＶＰＲ＿ＯＵＴを、それぞれ示す。なお、図の理解の容易のため、認証結果ＯＦＦ１，ＯＦＦ２をそれぞれ２つに分けて記載している。
図に示すように、オフライン声紋認証部５０およびオフライン声紋認証部６０は、リアルタイム声紋認証部４０が声紋認証できない期間を挟んで交互に期間を指定して、メモリ２０から音声データＶＳを取り出し、声紋認証する。

各図に示すように、話者が３名存在する場合についても、同様に、実際の音声データＶＳの話者の切り替わりタイミングｔｃ１，ｔｃ２に、認証出力ＶＰＲ＿ＯＵＴの切り替わりタイミングを近付けることができる。
たとえば、図１１に示す例では、仮にリアルタイム声紋認証部４０の認証結果ＲＴのみで判断したとすれば、時刻ｔ５〜時刻ｔ６の間と、時刻ｔ８〜時刻ｔ９の間で、話者が切り替わったと判断するが、オフライン声紋認証部５０の認証結果ＯＦＦ１，ＯＦＦ２を判断に加えることで、時刻ｔ６〜時刻ｔ７の間と、時刻ｔ７〜時刻ｔ８の間で発話者が切り替わったと判断し、実際の切り替わりタイミングｔｃ１，ｔｃ２に大きく近付けることができる。
また、図１２に示す例では、仮にリアルタイム声紋認証部４０の認証結果ＲＴのみで判断したとすれば、時刻ｔ５〜時刻ｔ６の間と、時刻ｔ８〜時刻ｔ９の間で、話者が切り替わったと判断するが、オフライン声紋認証部５０の認証結果ＯＦＦ１，ＯＦＦ２を判断に加えることで、時刻ｔ４〜時刻ｔ５の間と、時刻ｔ９〜時刻ｔ１０の間で発話者が切り替わったと判断し、実際の切り替わりタイミングｔｃ１，ｔｃ２に大きく近付けることができる。

以上述べたように、上述した各実施形態に係る音声処理装置によれば、リアルタイム声紋認証部４０が音声のサンプリング（期間ＴＰ１）と声紋認証処理（期間ＴＰ２）を交互に行う際に、認証エラーを防止するためにサンプリングの期間ＴＰ１を十分に設けたことで音声の切り替わりタイミングを正確に把握できない場合であっても、短時間の後に得られるオフライン声紋認証部５０／オフライン声紋認証部６０の認証結果により、適切に補完処理されるため、リアルタイムに近い時間遅れをもって、リアルタイム認証結果より正確な認証結果が得られる。
本実施形態に係る音声処理装置２は、たとえば、複数の話者による会議の議事録データを作成する際に好適である。すなわち、ほぼリアルタイムに近い時間遅れをもって、リアルタイムの声紋認証よりも精度の高い会議議事録を作成することができる。

第３の実施形態
以下、本発明に係る音声処理装置の第３の実施形態について述べる。
上述した第１の実施形態／第２の実施形態に係る音声処理装置による声紋認証処理を、実際の用途において、より完全を期するためには、改善を要する場合がある。
たとえば、実際には、話者Ａと話者Ｂのみが話をしていることが明らかであるにも関わらず、音声処理装置が話者Ａでもなく話者Ｂでもない話者Ｃを認証出力として決定してしまう場合がある。これは、話者Ｃの声紋モデルが話者Ａ若しくは話者Ｂの声紋モデルと近似する場合や、話者Ａと話者Ｂの音声が混在して入力される場合などに起こる。

図１３は、話者の切り替わり時刻ｔｃの前後でリアルタイム声紋認証部４０が誤認証する場合のタイミングチャートである。
図１３では、（ａ）に示すように、時刻ｔ５付近で話者Ａと話者Ｂの音声データＶＳが切り替わるタイミングで、両者の音声が混在するためにリアルタイム声紋認証部４０が誤認証して、時刻ｔ４〜時刻ｔ６の認証結果ＲＴを「Ｃ」としている。これにより、（ｇ）に示すように、時刻ｔ４〜時刻ｔ５の後半部分と、時刻ｔ５〜時刻ｔ６の前半部分の認証出力ＶＰＲ＿ＯＵＴが「Ｃ」となっている。

図１４は、話者の切り替わり時刻ｔｃの前後でオフライン声紋認証部５０が誤認証する場合のタイミングチャートである。
図１４では、（ａ）に示すように、時刻ｔ５付近で話者Ａと話者Ｂの音声データＶＳが切り替わるタイミングで、両者の音声が混在するためにオフライン声紋認証部５０が誤認証して、時刻ｔ４〜時刻ｔ６の認証結果ＲＴを「Ｃ」としている。これにより、（ｅ）に示すように、時刻ｔ４〜時刻ｔ５の後半部分と、時刻ｔ５〜時刻ｔ６の前半部分の認証出力ＶＰＲ＿ＯＵＴが「Ｃ」となっている。

図１５は、話者の切り替わり時刻ｔｃ直後にオフライン声紋認証部６０が誤認証する場合のタイミングチャートである。
図１５では、（ａ）に示すように、時刻ｔ５付近で話者Ａと話者Ｂの音声データＶＳが切り替わるタイミングの後、オフライン声紋認証部６０が誤認証して、時刻ｔ５〜時刻ｔ７の認証結果ＲＴを「Ｃ」としている。これにより、（ｅ）に示すように、時刻ｔ５〜時刻ｔ６の後半部分と、時刻ｔ６〜時刻ｔ７の前半部分の認証出力ＶＰＲ＿ＯＵＴが「Ｃ」となっている。

以上、図１３〜図１５によって明らかなように、リアルタイム声紋認証部４０／オフライン声紋認証部５０／オフライン声紋認証部６０のいずれか一つが誤認証した場合には、認証出力ＶＰＲ＿ＯＵＴが誤った認証結果を送出してしまうのである。
そこで、本実施形態に係る音声処理装置では、第１の実施形態／第２の実施形態に係る音声処理装置により決定した認証出力に対してさらに補正処理を行った後に、最終的な認証出力ＶＰＲ＿ＯＵＴを決定する。

補正処理は以下の通り行う。
各声紋認証部は、話者ＩＤ（「Ａ」，「Ｂ」等）とともに照合スコアＳＣＲ（照合の近似度合い）を算出しているので、制御部１０は、この照合スコアＳＣＲを用いて補正処理を行う。具体的には、制御部１０は、声紋レジスタ３０に登録された話者ＩＤのうち、出力可能な話者ＩＤを予め制限し、第１の実施形態／第２の実施形態で述べた処理により決定された認証結果（以下、その結果をＰＲＥ＿ＯＵＴと称する）が、予め制限した話者ＩＤ以外の話者ＩＤである場合には、出力可能な話者ＩＤのうち、決定された話者ＩＤの照合スコアＳＣＲに最も近い照合スコアＳＣＲの話者ＩＤを、認証出力ＶＰＲ＿ＯＵＴとして決定する。
これは、一般に、誤認証の場合には、正しい話者の照合スコアＳＣＲが僅差で存在することが多いためである。

たとえば、図１３〜図１５に示した例において、誤認証した「Ｃ」の照合スコアＳＣＲと、予め限定された話者ＩＤである「Ａ」および「Ｂ」の照合スコアＳＣＲとをそれぞれ比較し、その差分が所定値以下である場合に補正を行う。
すなわち、下式（１），（２）のいずれかが成立する「Ａ」または「Ｂ」を認証出力ＶＰＲ＿ＯＵＴとして決定する。下式がともに成立する場合には、「Ａ」，「Ｂ」のうち、照合スコアＳＣＲが高い方を認証出力ＶＰＲ＿ＯＵＴとして決定する。

ＳＣＲ＿Ｃ−ＳＣＲ＿Ａ＜所定の閾値 …（１）
ＳＣＲ＿Ｃ−ＳＣＲ＿Ｂ＜所定の閾値 …（２）

なお、ＳＣＲ＿Ａ：「Ａ」の照合スコアＳＣＲ，
ＳＣＲ＿Ｂ：「Ｂ」の照合スコアＳＣＲ，
ＳＣＲ＿Ｃ：「Ｃ」の照合スコアＳＣＲ，とする。

上記した所定の閾値は、本発明が適用される用途に応じて、適切に設定されることは言うまでもない。

図１６および図１７は、リアルタイム声紋認証部４０の認証結果ＲＴに誤りがある場合に行われる補正処理を示すタイミングチャートである。なお、（ｇ）に示すＰＲＥ＿ＯＵＴは、上述したように、第１乃至第２の実施形態で述べた処理により決定された結果であり、（ｈ）に示す認証出力ＶＰＲ＿ＯＵＴは、ＰＲＥ＿ＯＵＴに対して補正処理を行って得られる最終的な認証結果である。

図１６では、（ａ）および（ｂ）に示すように、実際の音声の切り替わりタイミングｔｃの前後において、認証結果ＲＴが誤って「Ｃ」（時刻ｔ４〜時刻ｔ６）となっており、その結果として、（ｇ）に示すように、時刻ｔ４〜時刻ｔ５の後半部分と、時刻ｔ５〜時刻ｔ６の後半部分は、「Ｃ」と判定されている。
この場合、制御部１０は、認証結果（ＰＲＥ＿ＯＵＴ）が予定しない結果である、すなわち、予め制限した話者ＩＤの結果ではないので、時刻ｔ４〜時刻ｔ５の後半部分では、認証結果ＲＴである「Ｃ」の照合スコアＳＣＲと、認証結果ＯＦＦ２である「Ａ」の照合スコアＳＣＲとに基づいて、上記式（１）が成立する場合に、認証出力ＶＰＲ＿ＯＵＴを「Ａ」と補正する。
同様に、時刻ｔ５〜時刻ｔ６の後半部分では、認証結果ＲＴである「Ｃ」の照合スコアＳＣＲと、認証結果ＯＦＦ１である「Ｂ」の照合スコアＳＣＲとに基づいて、上記式（２）が成立する場合に、認証出力ＶＰＲ＿ＯＵＴを「Ｂ」と補正する。
これにより、（ｈ）に示すように、リアルタイム声紋認証部４０の誤認証にも関わらず、正しい認証出力ＶＰＲ＿ＯＵＴが得られる。

図１７では、実際の発話者は「Ａ」のみであるにも関わらず、話者Ａの音声レベル（音圧レベル）が十分ではないために、時刻ｔ５付近で「Ｃ」とリアルタイム声紋認証部４０が誤判定する場合について補正処理される例を示す。
かかる場合においても、認証結果ＯＦＦ１および認証結果ＯＦＦ２である「Ａ」の照合スコアＳＣＲに基づいて、ＰＲＥ＿ＯＵＴの「Ｃ」が補正される結果、（ｈ）に示すように、正しい認証出力ＶＰＲ＿ＯＵＴが得られる。

以上述べたように、本実施形態に係る補正処理により、第１および第２の実施形態で述べた音声処理装置の認証精度をさらに向上させることができる。

第１の実施形態に係る音声処理装置の一構成例である。リアルタイム認証処理の実際の処理の一例を示すタイミングチャートである。リアルタイム認証処理のタイミングチャートの表記例である。第１の実施形態に係る音声処理装置において、認証出力ＶＰＲ＿ＯＵＴを得るための処理を示すフローチャートである。第１の実施形態に係る音声処理装置の制御部の処理の一例を示すタイミングチャートである。第１の実施形態に係る音声処理装置の制御部の処理の一例を示すタイミングチャートである。第２の実施形態に係る音声処理装置の一構成例である。第２の実施形態に係る音声処理装置の処理を示すフローチャートである。第２の実施形態に係る音声処理装置の制御部の処理の一例（話者２人）を示すタイミングチャートである。第２の実施形態に係る音声処理装置の制御部の処理の一例（話者２人）を示すタイミングチャートである。第２の実施形態に係る音声処理装置の制御部の処理の一例（話者３人）を示すタイミングチャートである。第２の実施形態に係る音声処理装置の制御部の処理の一例（話者３人）を示すタイミングチャートである。リアルタイム声紋認証部が誤認証する場合の一例を示すタイミングチャートである。オフライン声紋認証部が誤認証する場合の一例を示すタイミングチャートである。オフライン声紋認証部が誤認証する場合の一例を示すタイミングチャートである。第３の実施形態に係る音声処理装置の補正処理の一例を示すタイミングチャートである。第３の実施形態に係る音声処理装置の補正処理の一例を示すタイミングチャートである。

符号の説明

１０…制御部（ＣＰＵ）、２０…メモリ（ＭＥＭ）、３０…声紋レジスタ（ＲＥＧ）、４０…リアルタイム声紋認証部（ＶＰＲ＿ＲＴ）、５０…オフライン声紋認証部（ＶＰＲ＿ＯＦＦ１）、６０…オフライン声紋認証部（ＶＰＲ＿ＯＦＦ２）。

Claims

複数の声紋データを話者データと関連付けて記憶する第１の記憶手段と、
所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第１の話者データを特定する処理とを順に行う第１の声紋認証手段と、
前記音声を記憶する第２の記憶手段と、
前記第１の声紋認証手段により第１の話者が特定されなかった期間を含む期間の音声を前記第２の記憶手段から取り出し、声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第２の話者データを特定する第２の声紋認証手段と、
前記第１および第２の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段と
を有する音声処理装置。
前記制御手段は、第１の話者データと第２の話者データのいずれも特定されなかった期間に対し、
当該期間の前後に特定された第１の話者データが一致するときは、当該第１の話者データを確定話者データとして決定し、一致しないときは、当該期間の前後に特定された第１の話者データを、それぞれ当該期間の前半および後半の確定話者データとして決定する
請求項１記載の音声処理装置。
前記制御手段は、第１および第２の話者データが一致するために多数決により確定話者データを決定できない期間に対し、
第１の声紋認証手段が当該期間の第１の話者データと同一の話者データの特定を開始する第１の時刻と、第２の声紋認証手段が当該期間の第２の話者データと同一の話者データの特定を開始する第２の時刻とを比較し、
前記第１および第２の時刻の前後に応じて、前記第１および第２の話者データを当該期間の前半および後半の確定話者データとして決定する
請求項１記載の音声処理装置。
複数の声紋データを話者データと関連付けて記憶する第１の記憶手段と、
所定期間の音声を取得する処理と、取得した音声から声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第１の話者データを特定する処理とを順に行う第１の声紋認証手段と、
前記音声を記憶する第２の記憶手段と、
前記第１の声紋認証手段により第１の話者が特定されなかった期間を含む第１の期間の音声を前記第２の記憶手段から取り出し、声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第２の話者データを特定する第２の声紋認証手段と、
前記第１の声紋認証手段により第１の話者が特定されなかった期間を含み、前記第１の期間と異なる第２の期間の音声を前記第２の記憶手段から取り出し、声紋データを抽出し、前記第１の記憶手段が記憶する複数の声紋データと照合し、第３の話者データを特定する第３の声紋認証手段と、
前記第１乃至第３の話者データに基づいて、多数決により時間毎の確定話者データを決定する制御手段と
を有する音声処理装置。
前記制御手段は、第１乃至第３の話者データのいずれも特定されなかった期間に対し、
当該期間の前後に特定された第１の話者データが一致するときは、当該第１の話者データを確定話者データとして決定し、一致しないときは、当該期間の前後に特定された第１の話者データを、それぞれ当該期間の前半および後半の確定話者データとして決定する
請求項４記載の音声処理装置。
前記制御手段は、第１乃至第３の話者データのうち、いずれか２つ話者データが一致するために多数決により確定話者データを決定できない期間に対し、
前記２つの話者データのうち、一方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第１の時刻と、他方の話者データに対応する声紋認証手段が当該期間の話者データと同一の話者データの特定を開始する第２の時刻とを比較し、
前記第１および第２の時刻の前後に応じて、前記２つの話者データを当該期間の前半および後半の確定話者データとして決定する
請求項４記載の音声処理装置。
前記第１乃至第３の声紋認証手段は、それぞれ、前記第１乃至第３の話者データを特定する際に、照合した声紋データの近似度合いに応じた第１乃至第３の照合値を生成し、
前記制御手段は、予め限定された複数の話者データ以外の話者データを確定話者データとして決定した場合には、
前記第１乃至第３の照合値のうち、前記確定話者データに対応する照合値との差が所定の閾値以下である前記第１乃至第３の話者データのいずれか一の話者データに、前記確定話者データを補正する
請求項４記載の音声処理装置。
前記第１乃至第３の話者データのうち、第１乃至第３の照合値と、前記確定話者データに対応する照合値との差が所定の閾値以下である話者データが２以上ある場合には、最も照合値が大きい話者データに、前記確定話者データを補正する
請求項７記載の音声処理装置。