JP2005326576A

JP2005326576A - 音声処理装置

Info

Publication number: JP2005326576A
Application number: JP2004143952A
Authority: JP
Inventors: Akira Masuda; 彰増田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-05-13
Filing date: 2004-05-13
Publication date: 2005-11-24

Abstract

【課題】抑揚のある自然な会話による音声に対して適切に声紋認証を行うことを可能とする音声処理装置を提供する。
【解決手段】所定の声紋認証単位時間毎に、入力した音声データＳｉｎから声紋モデルを生成し、声紋レジスタ３０に予め登録された声紋モデルと比較／照合することにより、照合スコアＳＣＲを算出するとともに、照合スコアＳＣＲの最も大きいユーザを特定する声紋認証部２０と、照合スコアＳＣＲが閾値ＴＨＤより大きい場合に限り、声紋認証部が特定したユーザを有効な結果（Ｖ＿ＩＤ）として出力する制御手段１０と、を有し、制御手段が閾値ＴＨＤを音声データの振幅のｒｍｓ値に応じて調整可能に構成した。
【選択図】図１

Description

本発明は、音声に基づいて声紋認証技術により発話者を特定する音声処理装置に関する。

従来より、音声に基づいて当該音声に係る発話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、たとえば、銀行のコールセンター等に適用されている。

一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、および身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で発話者を特定することが可能となる。たとえば、発話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも発話者特定の認証精度が高い。

具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデルが予め登録される。

従来の声紋認証エンジンは、以下の処理を行うことで発話者を特定する。
（１）声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
（２）声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較／照合し、モデルの特徴量が近似する度合いに応じた照合値（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する発話者を特定する。

ところで、従来の声紋認証エンジンによれば、声紋認証を行う際に、照合値が所定のレベル以下である場合には、発話者の特定を行わないようにしている場合が多い。すなわち、一般に、照合値が所定のレベル以下である場合には、声紋照合の精度が高くないので、かかる場合には、声紋認証により発話者の特定を行わないようにしている。
したがって、声紋モデルが実際には近似しているにも関わらず、入力する音声の強さが弱いことに起因して声紋照合部が生成する照合値が所定レベル以下となった時にも、発話者を特定しない場合がある。

これは、従来の声紋認証エンジンでは、短いテキストやコマンド等の限定された音声に基づいて声紋認証を行うことを前提としていたため、入力する音声の強さが弱いことに起因して声紋照合部が生成する照合値が所定レベル以下となった場合であっても、再度ユーザに発話させることで、認証に十分な音声の強さを得ることができるためである。
しかし、音の強さのレベルが混在した抑揚のある自然な会話による音声に基づいて、リアルタイムに声紋認証を行う場合には、音の強さが小さい場合であっても、声紋認証を行わなければならない場合があり、かかる場合に従来の声紋認証エンジンでは、適切に声紋認証を行うことができない場合がある。
すなわち、音の強さが小さい場合でも、音声データを増幅した後に再度の声紋認証処理を行うことで、有効な声紋認証結果として処理できる場合があるにも関わらず、従来の声紋認証エンジンでは、声紋照合部が生成する照合値によって一律に声紋認証の実行有無を決定していたため、声紋認証の機会を損失する場合があったのである。

本発明はかかる事情に鑑みてなされたものであり、その目的は、抑揚のある自然な会話による音声に対して適切に声紋認証を行うことを可能とする音声処理装置を提供することにある。

上記目的を達成するための本発明の第１の観点は、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段とを有する音声処理装置である。

好適には、前記制御手段は、前記所定の時間間隔によるＮ回目（Ｎ：整数）の閾値を、Ｎ−１回目およびＮ回目の音声の強さに応じて決定する。

好適には、前記制御手段は、Ｎ−１回目の音声の強さに対して、Ｎ回目の音声の強さが小さい程、Ｎ回目の閾値を低く設定する。

上記目的を達成するための本発明の第２の観点は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、前記複数のマイクロフォンが集音する音圧に応じて、一のマイクロフォンを選択するマイクロフォン選択手段と、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、前記マイクロフォン選択手段が選択した音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段とを有する音声処理装置である。

本発明の第１の観点に係る音声処理装置の作用は、以下の通りである。
すなわち、声紋照合手段は、音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出し、制御手段は、声紋照合手段が処理する音声の強さに応じて、前記所定の時間間隔で前記閾値を調整し、発話者特定手段は、声紋照合手段が算出した照合値が制御手段が調整した閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する。したがって、音声の強さに応じて柔軟に声紋認証を行うことができる。

本発明に係る音声処理装置よれば、抑揚のある自然な会話による音声に対して適切に声紋認証を行うことを可能とするので、広範囲な用途に声紋認証技術を適用させることができる。

第１の実施形態
以下、本発明に係る音声処理装置の一実施形態について述べる。
図１は、本実施形態に係る音声処理装置１の一構成例である。図に示すように、音声処理装置１は、本発明の制御手段としてのＣＰＵ１０、本発明の声紋照合手段および発話者特定手段としての声紋認証部（ＶＰＡ）２０、本発明の記憶手段としての声紋レジスタ（ＲＥＧ）３０、およびインタフェース部（Ｉ／Ｆ）４０を含んで構成される。

インタフェース部４０は、音声処理装置１が入力する音声Ｓｉｎを、音声処理装置１が処理可能なデータ形式に変換する回路である。たとえば、音声処理装置１が入力する音声がアナログ信号である場合には、ディジタルデータに変換するためのＡ／Ｄ変換器と、ノイズを除去するとともに、音声データのサンプリングを行うための適切なフィルタ回路と、を含んで構成される。インタフェース部４０により処理されたディジタル音声データは、ＣＰＵ１０に送出される。

声紋認証部２０は、ＣＰＵ１０から供給される音声データを、声紋認証可能な単位時間（以下、声紋認証単位時間、または単にＡＰと称する。本実施形態では、３秒間）毎に声紋認証して、発話者（ユーザＩＤ）を特定する。声紋認証技術としては、すでに公知の技術を声紋認証部２０に適用させることが可能である。
なお、声紋認証単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、声紋認証部２０およびＣＰＵ１０の処理能力が許せば、極力短い時間が望ましい。

声紋レジスタ３０には、認証対象の複数のユーザの音声データに基づいて、声紋認証部２０がそれぞれ生成した声紋モデルが予め登録されている。すなわち、声紋レジスタ３０には、ユーザのユーザＩＤと声紋モデルが相互に関連付けられて記憶されている。

声紋認証部２０は、図１に示すように、声紋モデル生成部２１と声紋照合部２２を含んで構成され、以下の処理を行うことで発話者を特定する。
（１）声紋モデル（本発明の声紋データ）の生成
声紋モデル生成部２１は、ＣＰＵ１０より供給される音声データをスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。

（２）声紋モデルの照合
声紋照合部２２は、声紋認証部２０が認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタ３０に登録された声紋モデルとを比較／照合し、モデルの特徴量が近似する度合いに応じた照合スコアＳＣＲ（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応するユーザＩＤを特定する。
なお、声紋照合部２２が特定したユーザＩＤを実際に音声処理装置１から出力するか否かについては、後述するように、ＣＰＵ１０により制御される。
また、本実施形態に係る照合スコアＳＣＲは、本発明の照合値に対応する。

ＣＰＵ１０は、音声処理装置１の全体の制御を行う。
たとえば、声紋レジスタ３０およびメモリ４０に対するアクセス制御、インタフェース部４０から入力した音声データに対する処理、声紋認証部２０の声紋認証処理に対するタイミング制御、インタフェース部４０により取り込まれた音声データのサンプリングなどである。

ＣＰＵ１０は、入力した音声の強さを取得するため、インタフェース部４０に処理されたディジタルの音声データを声紋認証単位時間毎に、音声データの振幅の自乗平均値（以下、単にｒｍｓ値と称する）を算出する。その際、一つ前の声紋認証単位時間におけるｒｍｓ値については、後述する閾値ＴＨＤの調整のために、図示しないバッファに保持しておく。
なお、音声の強さとして、ｒｍｓ値を算出するのは一例であって、たとえば、声紋認証単位時間における音声の振幅の積分値や、より簡易的に、声紋認証単位時間における振幅の絶対値の最大値としてもよい。

ＣＰＵ１０は、声紋認証部２０により生成された照合スコアＳＣＲを、自身が調整可能な（書換可能な）閾値ＴＨＤと比較し、照合スコアＳＣＲが閾値ＴＨＤを越える場合には、声紋認証部２０で特定されたユーザＩＤを有効なものと判断し、図１に示すＶ＿ＩＤとして出力する。
ここで、本実施形態に係るＣＰＵ１０では、閾値ＴＨＤは固定値ではなく、入力した音声の強さに応じて可変とする。
これは、入力する音声の強さが弱いことに起因して声紋照合部が生成する照合スコアＳＣＲが閾値ＴＨＤ以下となる場合であり、かかる場合に閾値ＴＨＤを固定値とすると、音声処理装置１は、声紋認証部２０が特定したユーザＩＤを出力しないため、その分ユーザ特定（認証）機会を損失するためである。

次いで、音声処理装置１の動作について述べる。
音声処理装置１が入力したアナログ音声信号Ｓｉｎは、先ず、インタフェース部４０においてディジタル信号（音声データ）に変換されるとともに、サンプリングのために必要なフィルタリング処理が施された後に、ＣＰＵ１０に供給される。

ＣＰＵ１０では、音声データを声紋認証単位時間毎に処理する。
具体的には、ＣＰＵ１０は、入力した音声データに基づいて、声紋認証単位時間毎にｒｍｓ値を算出するとともに、声紋認証部２０に対して声紋認証処理を指示する。

声紋認証部２０では、インタフェース部４０により生成された音声データに基づいて声紋モデルを生成するとともに、声紋レジスタ３０に予め登録された複数の声紋モデルと順次比較／照合する。その際に、声紋モデルの近似度を示す照合スコアＳＣＲを算出して、これをＣＰＵ１０へ送出する。
さらに、声紋認証部２０は、声紋レジスタ３０の複数の声紋モデルとの照合スコアＳＣＲが最も大きいユーザＩＤを特定する。

次いで、ＣＰＵ１０は、声紋認証単位時間毎に算出したｒｍｓ値に応じて、閾値ＴＨＤを変更した後に、声紋認証部２０から供給された照合スコアＳＣＲと、変更後の閾値ＴＨＤとを比較し、照合スコアＳＣＲが閾値ＴＨＤを越えている場合には、声紋認証部２０が照合スコアＳＣＲに基づいて特定したユーザＩＤを、有効なユーザＩＤ（Ｖ＿ＩＤ）として出力する。

上述した一連の処理を、音声処理装置１は声紋認証単位時間毎に行う。
図２は、上述した処理による音声処理装置１の時系列上の処理結果を例示するタイミングチャートであり、（ａ）は、音声データの波形とｒｍｓ値を、（ｂ）は、照合スコアＳＣＲを、それぞれ示す。
図２において、ＡＰ１〜ＡＰ７は、それぞれ声紋認証単位時間を示し、各声紋認証単位時間毎に、音声データのｒｍｓ値と照合スコアＳＣＲが、それぞれＣＰＵ１０および声紋認証部２０により算出される。

本実施形態における照合スコアＳＣＲは、たとえば、声紋モデルの近似度合いに応じて、−３．０〜＋５．０の範囲の値をとるが、仮に、閾値ＴＨＤを−１．０とした場合には、声紋認証単位時間ＡＰ１，２，４，７の時に、いずれも閾値ＴＨＤ以上の値の照合スコアＳＣＲを算出しているので、ＣＰＵ１０は、声紋認証単位時間ＡＰ１，２，４，７の時に声紋認証部２０により特定されたユーザＩＤを有効なものとして出力する。

次に、ＣＰＵ１０により調整可能な値である閾値ＴＨＤについて、その調整方法の一例を述べる。
一般に、リアルタイムで声紋認証を行う場合には、自然な会話による音声データの性質を考慮する必要がある。すなわち、自然な会話では、抑揚のある音声データが得られるため、音声のｒｍｓ値としては、一定のレベルではなく、ある声紋認証単位時間では、大きい値を示し、ある声紋認証単位時間では、逆に小さな値を示す場合がある。
したがって、ＣＰＵ１０は、自然な会話の中で音声のｒｍｓ値が小さい場合には、声紋認証を有効なものとするように、閾値ＴＨＤを下げるように制御する必要がある。

しかし、その際、音声のｒｍｓ値が小さな場合にすべて声紋認証を有効なものとすると、実際には会話がなされていないにもかかわず、ノイズにより小さなｒｍｓ値が定常的に音声処理装置１に取り込まれている場合にも、声紋認証を有効なものとして処理してしまうおそれがある。
したがって、本実施形態に係るＣＰＵ１０は、音声のｒｍｓ値の変化の度合いに応じて、閾値ＴＨＤを調整する。具体的には、一つ前の声紋認証単位時間のｒｍｓ値が大きい場合に、現在の声紋認証単位時間のｒｍｓ値が小さい場合でも声紋認証を有効なものとして処理できるように、閾値ＴＨＤを調整する。

たとえば、図３において、現在処理中の声紋認証単位時間をＡＰ（Ｎ）、一つ前に処理した声紋認証単位時間をＡＰ（Ｎ−１）とすると、ＣＰＵ１０は、それぞれの声紋認証単位時間におけるｒｍｓ値（図では、ＡＰ（Ｎ−１）で１５００、ＡＰ（Ｎ）で３００である）に基づいて、ＡＰ（Ｎ）における閾値ＴＨＤを決定する。

図４は、図３のＡＰ（Ｎ−１）およびＡＰ（Ｎ）におけるｒｍｓ値に応じた、ＡＰ（Ｎ）における閾値ＴＨＤの設定例である。なお、図４では、従前の固定した閾値ＴＨＤが−１．０であったことを前提として調整した閾値ＴＨＤを示している。
したがって、ＡＰ（Ｎ−１）に対してＡＰ（Ｎ）のｒｍｓ値が大きくなる場合（図４の表の左下側の場合）には、閾値ＴＨＤを変更しなくても、十分に照合スコアＳＣＲが大きくなることが期待されるので、従前の閾値ＴＨＤである−１．０のままとして、ＡＰ（Ｎ−１）に対してＡＰ（Ｎ）のｒｍｓ値が小さくなる場合（図４の表の右上側の場合）には、より広範囲な照合スコアＳＣＲを有効なものとするように、閾値ＴＨＤを低下させている。

たとえば、図３に示した例において、ＡＰ（Ｎ−１）およびＡＰ（Ｎ）におけるｒｍｓ値は、それぞれ、１５００および３００であるから、図４に示す表より、ＡＰ（Ｎ）における閾値ＴＨＤは、−１．５となり、従前の固定閾値ＴＨＤ（−１．０）と比較して、より広範囲な照合スコアＳＣＲを有効なものとすることができる。

また、図２に例示した音声データにおいて、たとえば、ＡＰ５の声紋認証単位時間では、従前の固定閾値ＴＨＤ（−１．０）によれば、照合スコアＳＣＲが−１．２であるので、声紋認証の対象にならなかったが、図４に示す設定例に基づいて閾値ＴＨＤを調整することにより、閾値ＴＨＤが−１．５となり、ＡＰ５の声紋認証単位時間での声紋照合結果を有効なものとすることができる。

なお、音声データのパターンに応じて、閾値ＴＨＤを設定するようにしてもよい。
たとえば、図５（ａ）〜（ｈ）には、様々な音声データのパターンを例示するが、このような様々な音声データのパターンに基づくパターン認識により閾値ＴＨＤを設定することで、より適切に照合スコアＳＣＲを判断することができる。

上述したように、連続した声紋認証単位時間におけるｒｍｓ値に応じて、閾値ＴＨＤを調整することで、より広範囲な（より小さな値の）照合スコアＳＣＲを有効なものと判断することが可能となるが、そのままの照合スコアＳＣＲでは、対比する声紋モデルの近似度が低いままであるため、精度の高い認証結果を出力することができない。
したがって、照合スコアＳＣＲが低い場合でも精度の高い認証結果を取得するために、音声処理装置１は、音声データに対する補正処理を行う。

かかる補正処理は、様々な観点から行うことが可能であるが、たとえば、ある声紋認証単位時間において、照合スコアＳＣＲが閾値ＴＨＤより大きいものの、ｒｍｓ値が所定の下限閾値レベルより小さい場合には、そのｒｍｓ値を増幅処理した後に、再度、声紋認証部２０で照合処理を行うようにすることができる。音声の振幅レベルは、声紋モデルの基本となるスペクトル値に大きな影響を与えないので、増幅処理した音声データに基づいて照合処理の精度を上げることができる。
なお、リアルタイムで声紋処理を行う際には、かかる再照合処理のための時間を無視することができない場合があるので、再照合処理においては、特定に必要なユーザの数を限定するようにしてもよい。たとえば、最初の照合処理において照合スコアＳＣＲの高かったユーザに限定して再照合処理を行う。

以上説明したように、本実施形態に係る音声処理装置によれば、所定の声紋認証単位時間毎に、入力した音声データから声紋モデルを生成し、声紋レジスタに予め登録された声紋モデルと比較／照合することにより、照合スコアＳＣＲを算出するとともに、照合スコアＳＣＲの最も大きいユーザを特定する声紋認証部と、照合スコアＳＣＲが閾値ＴＨＤより大きい場合に限り、声紋認証部が特定したユーザを有効な結果として出力する制御手段と、を有し、制御手段が閾値ＴＨＤを音声データの振幅のｒｍｓ値に応じて調整可能に構成したので、以下の効果が得られる。

すなわち、音の強さのレベルが混在した抑揚のある自然な会話による音声の一部に、音の強さが小さい音声が存在するために照合スコアＳＣＲが小さくなった場合でも、声紋認証結果を有効なものとすることができるので、声紋認証の機会を損失することがない。
その際、本実施形態に係る音声処理装置によれば、音声データを増幅した後に再度の声紋照合処理を行うことで、照合スコアＳＣＲが小さい場合でも、有効な声紋認証結果が得られる。

また、本実施形態に係る音声処理装置によれば、制御手段は、連続した声紋認証単位時間におけるｒｍｓ値の値の変化に基づいて閾値ＴＨＤを設定するので、音の強さのレベルが定常的に低い状態であるノイズに基づいて声紋認証処理を行うことを防止し、より適切に声紋認証処理を行うことができる。

第２の実施形態
次いで、第２の実施形態に係る音声処理装置について述べる。
第２の実施形態に係る音声処理装置２では、第１の実施形態で述べた音声処理装置１の一応用例である。
音声処理装置２は、それぞれ複数の会議参加者が存在し、遠隔に位置する２つの会議室間において、双方向の通話を可能とする通話装置である。この通話装置の一部に、第１の実施形態で述べた声紋認証処理技術が適用される。以下、先ず、音声処理装置２が適用される用途について述べる。

図６（ａ）〜（ｃ）は、音声処理装置２が適用される一例を示す構成図である。
図６（ａ）に図解したように、遠隔に位置する２つの会議室９０１、９０２にそれぞれ音声処理装置２Ａ，２Ｂが設置されており、これらの音声処理装置２Ａ，２Ｂが電話回線９２０で接続されている。なお、音声処理装置２Ａ，２Ｂは、音声処理装置２と同一である。
図６（ｂ）に図解したように、２つの会議室９０１、９０２において、音声処理装置２Ａ，２Ｂがそれぞれテーブル９１１、９１２の上に置かれている。ただし、図６（ｂ）においては、図解の簡略化のため、会議室９０１内の音声処理装置２Ａについてのみ図解しているが、会議室９０２内の音声処理装置２Ｂも同様である。
図６（ｃ）に図解したように、音声処理装置２Ａ，２Ｂの周囲にそれぞれ複数（本実施形態においては６名）の会議参加者Ａ１〜Ａ６が位置している。ただし、図６（ｃ）においては、図解の簡略化のため、会議室９０１内の音声処理装置２Ａの周囲の会議参加者のみ図解している。他方の会議室９０２内の音声処理装置２Ｂの周囲に位置する会議参加者の配置についても、同様である。

音声処理装置２によれば、たとえば、２つの会議室９０１、９０２との間で電話回線９２０を介して音声による通話が可能である。
また、電話回線９２０を介しての会話は、通常、１人の話者と１人の話者同士、すなわち１対１で通話を行うが、音声処理装置２によれば、１つの電話回線９２０を用いて複数の会議参加者Ａ１〜Ａ６同士の通話が可能である。
以下、かかる音声処理装置２の構成および作用について述べる。

音声処理装置２の構成
図７は本発明の一実施形態としての音声処理装置２を表す図であり、（ａ）は音声処理装置２の外観斜視図であり、（ｂ）はマイクロフォン収容部の内部の上面図である。

音声処理装置２は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図７（ａ）に図解したように、マイクロフォンを収容するためのマイクロフォン収容部１１と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部１２と、操作部１３とを含んでいる。
さらに、図７（ｂ）に図解したように、マイクロフォン収容部１１の内部には、６本のマイクロフォンＭＣ１〜６が全方位に均等に配置されている。各マイクロフォンは単一指向性を持つマイクロフォンである。
スピーカ収容部１２に収容されるスピーカは、収容筐体の中心に位置し、スピーカからの音声は、各マイクロフォンＭＣ１〜６に対して、ほぼ同音量、同位相で届くように構成されている。

会議参加者Ａ１〜Ａ６は、通常、図６（ｃ）に例示したように、音声処理装置２の周囲３６０度方向に、６０度間隔で配設されているマイクロフォンＭＣ１〜ＭＣ６の近傍にほぼ等間隔で位置している。

図８は、音声処理装置２の回路構成の一例を示すブロック図である。
図８に示すように、音声処理装置２は、回路構成としては、ＣＰＵ５４と、本発明のマイクロフォン選択手段としてのＤＳＰ５２と、ＤＳＰ５３と、Ａ／Ｄ変換器ブロック５１と、Ａ／Ｄ変換器５１７と、Ｄ／Ａ変換器５５１，５５２と、増幅器５６１，５６２と、スピーカ５７とを含んで構成される。図８においては、Ａ／Ｄ変換器ブロック５１の一例として、各マイクロフォンに対応する６個のＡ／Ｄ変換器５１１〜５１６を例示する。
図８に示す構成を有する回路が実装された基板が、たとえば、図７（ａ）に示すマイクロフォン収容部１１の内部に設置されている。
また、その他の構成要素、たとえば、相手方会議室に送信する音声を圧縮符号化するためのコーデック等は、図８には図示していない。

ＣＰＵ５４は、音声処理装置２の全体制御処理を行う。
ＤＳＰ５２は、Ａ／Ｄ変換器５１１〜５１６によりディジタル信号に変換された６本のマイクロフォンＭＣ１〜６からの音声信号に基づいて、１のマイクロフォンの音声信号を選択する処理（マイクロフォン選択処理）等の各種の信号処理を行う。ＤＳＰ５２の内部処理については後述する。
ＤＳＰ５３は、エコーキャンセラーとして機能する。すなわち、Ａ／Ｄ変換器５１７を介して入力した相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、ＤＳＰ５２および声紋処理部５８を介して入力した音声信号から減じる処理を行うことにより、エコー消去処理を行う。

ＤＳＰ５３の処理結果は、Ｄ／Ａ変換器５５１，５５２によりアナログ信号に変換されて出力される。Ｄ／Ａ変換器５５２からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器５６２を介して電話回線９２０（図６（ａ））のラインアウト(LINE OUT)に出力され、相手方会議室に設置された通話装置のスピーカを介して、音として出力される。
相手方の会議室に設置された音声処理装置２からの音声は、電話回線９２０（図６（ａ））のラインイン(LINE IN) を介して入力され、Ａ／Ｄ変換器５１７においてディジタル信号に変換され、ＤＳＰ５３に入力されてエコーキャンセル処理に使用されるとともに、Ｄ／Ａ変換器５５１および増幅器５６１を介し、スピーカ５７から音として出力される。
一方、ＤＳＰ５２により選択されたマイクの音声信号も、声紋処理部５８およびＤＳＰ５３を介してスピーカ５７から音として出力される。
すなわち、図６（ｃ）に示す会議参加者Ａ１〜Ａ６は、上述したスピーカ５７を通して、相手会議室に配置された通話装置により選択された話者の音声に加えて、その会議室のいる発言者が発した音声をもスピーカ５７を介して聞くことができる。

音声処理装置２に内蔵された６本のマイクロフォンＭＣ１〜６は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのＳ／Ｎが混同してあまり良い音が集音できない。これを避けるために、音声処理装置２では、指向性マイクロフォンで集音することにより、周辺のノイズとのＳ／Ｎを改善している。

ＤＳＰ５２の処理
次に、ＤＳＰ５２で行う処理内容について述べる。
ＤＳＰ５２で行われる主な処理は、マイクロフォン（以下、単にマイクと称する場合もある）の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、１つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、音声処理装置２を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。

本処理を正確に行うため、ＤＳＰ５２は、下記に例示する各種の信号処理を行う。
（ａ）マイク信号の帯域分離とピークホールド処理
（ｂ）発言の開始、終了の判定処理
（ｃ）発言者方向マイクの検出処理
（ｄ）マイク信号の選択切替え処理

図９は、ＤＳＰ５２において実行される処理を示すブロック図である。
図９に示すように、ＤＳＰ５２は、各マイク信号に対してＢＰＦ処理を行い、音圧レベルデータを生成するＢＰＦ５２１１〜５２１６からなるＢＰＦブロック５２１と、ＢＰＦ処理された各マイクの音圧レベルデータに対してＰＨ処理を行い、後述するピーク値を生成するＰＨ５２２１〜５２２６からなるＰＨブロック５２２と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部５２３と、を含んで構成される。

かかる構成を有するＤＳＰ５２による上述した各信号処理（ａ）〜（ｄ）について、以下に述べる。
（ａ）マイク信号の帯域分離とピ−クホールド処理
本処理は、図９に示すＢＰＦブロック５２１およびＰＨブロック５２２によって行われる。
ＢＰＦブロック５２１の各ＢＰＦ処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性（たとえば、１００〜６００Ｈｚ）に基づいて行われる。
ＰＨ処理は、ＢＰＦ処理された音圧レベルデータ（マイク信号）の最大値を保持（ピークホールド）する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記（ｂ）〜（ｄ）の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部５２３により実行される。

（ｂ）発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、たとえば、所定の閾値と音圧レベルを比較することにより、発言の開始／終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
ＤＳＰ５２は、たとえば、マイクロフォンＭＣ１の発言の開始を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを増加させる。逆に、マイクロフォンＭＣ１の発言の終了を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを減少させる。

（ｃ）発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい１つのマイクを選択する処理である。すなわち、１人の話者が発言を開始する場合には、１つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図９に示すように、各マイクを通して入力した音圧レベルデータに対して、バンドパス・フィルタ（ＢＰＦ）処理およびピークホールド（ＰＨ）処理を行うことにより得られるピーク値である。

（ｄ）マイク信号の選択切替え処理
本処理では、（ｃ）発言者方向マイクの検出処理により選択されたマイクにＤＳＰ５２の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。たとえば、図１０に示すように、マイク信号の選択切替え処理は、６回路の乗算器と６入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン（CH Gain)を「１」に、その他の乗算器のチャンネルゲインを「０」とすることにより、加算器には〔選択されたマイク信号×１〕と〔他のマイク信号×０〕の処理結果が加算される。これにより、選択されたマイク信号（選択マイク信号）が後段の声紋処理部５８へ送出される。

声紋処理部５８は、第１の実施形態に係る音声処理装置１の声紋認証部２０と、声紋レジスタ３０とを含んで構成され、ＤＳＰ５２から送出される選択マイク信号に基づいて声紋照合処理を行い、選択マイク信号に係るユーザＩＤを特定するとともに、ＣＰＵ５４の指示に応じて、ＤＳＰ５２からの選択マイク信号をＤＳＰ５３へ出力する。
また、声紋処理部５８は、照合の際に生成された照合スコアＳＣＲをＣＰＵ５４へ出力する。

ＣＰＵ５４は、第１の実施形態に係る音声処理装置１のＣＰＵ１０と同様の機能を含んで構成される。すなわち、ＣＰＵ５４は、第１の実施形態に係るＣＰＵ１０と同様に、声紋処理部５８の声紋認証部２０により生成された照合スコアＳＣＲを、自身が調整可能な（書換可能な）閾値ＴＨＤと比較し、照合スコアＳＣＲが閾値ＴＨＤを越える場合には、声紋認証部２０で特定されたユーザＩＤを有効なものと判断し、図８に示すＶ＿ＩＤとして出力する。
さらに、ＣＰＵ５４は、予め音声出力を行うことを許可する複数のユーザＩＤに関する情報に対してアクセス可能に構成され、声紋処理部５８により特定されたユーザＩＤが音声出力を行うことを許可する複数のユーザＩＤの一に該当しない場合には、ＤＳＰ５２からの選択マイク信号がＤＳＰ５３へ送出されないように、声紋処理部５８を制御する。
なお、上記した複数のユーザＩＤに関する情報は、たとえば、図示しないメモリに予め記憶されている。

以上述べたように、本実施形態に係る音声処理装置２によれば、選択マイク信号に対して、第１の実施形態で述べた音声処理装置１と同様の処理を行うように構成したので、複数のマイクロフォンから選択された一のマイク信号に対して同様の効果を得ることができる。すなわち、選択マイク信号の音の強さが小さいために照合スコアＳＣＲが小さくなった場合でも、声紋認証結果を有効なものとすることができ、声紋認証の機会を損失することがない。

さらに、本実施形態に係る音声処理装置２によれば、声紋認証により特定されたユーザＩＤ（Ｖ＿ＩＤ）が予め許可された複数のユーザＩＤの一に該当する場合に限り、外部への選択マイク信号の音声出力を許可するように構成したので、特に、お互いの相手を視認できない状態で行われる遠隔の会議における通話装置に適用した場合に、通話の安全性が確保される。

第１の実施形態に係る音声処理装置の一構成例である。第１の実施形態に係る音声処理装置の動作を説明するためのタイミングチャートである。閾値ＴＨＤの調整方法を説明するためのタイミングチャートである。閾値ＴＨＤの調整方法の一実施例である。様々な音声データのパターンである。第１の実施形態に係る音声処理装置が適用される一例を示す構成図である。第２の実施形態に係る音声処理装置２の外観図であり、（ａ）は音声処理装置２の外観斜視図であり、（ｂ）はマイクロフォン収容部の内部の上面図である。第２の実施形態に係る音声処理装置の回路構成の一例を示すブロック図である。ＤＳＰ５２のブロック構成図である。マイク信号の選択切替え処理を示す。

符号の説明

１，２…音声処理装置、１０…ＣＰＵ、２０…声紋認証部、３０…声紋レジスタ、４０…インタフェース部、１１…マイクロフォン収容部、１２…スピーカ収容部、１３…操作部、５１…Ａ／Ｄ変換器ブロック、５２，５３…ＤＳＰ、５４…ＣＰＵ、５７…スピーカ、５８…声紋処理部。

Claims

複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、
前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、
前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段と
を有する音声処理装置。
前記制御手段は、前記所定の時間間隔によるＮ回目（Ｎ：整数）の閾値を、Ｎ−１回目およびＮ回目の音声の強さに応じて決定する
請求項１記載の音声処理装置。
前記制御手段は、Ｎ−１回目の音声の強さに対して、Ｎ回目の音声の強さが小さい程、Ｎ回目の閾値を低く設定する
請求項２記載の音声処理装置。
それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
前記複数のマイクロフォンが集音する音圧に応じて、一のマイクロフォンを選択するマイクロフォン選択手段と、
複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
前記マイクロフォン選択手段が選択した音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、
前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、
前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段と
を有する音声処理装置。
前記制御手段は、
前記発話者特定手段が特定した発話者データが予め定めた複数の発話者データの一に該当する場合に、前記マイクロフォン選択手段が選択した音声を外部へ出力することを許可する
請求項４記載の音声処理装置。