JP2005326576A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2005326576A
JP2005326576A JP2004143952A JP2004143952A JP2005326576A JP 2005326576 A JP2005326576 A JP 2005326576A JP 2004143952 A JP2004143952 A JP 2004143952A JP 2004143952 A JP2004143952 A JP 2004143952A JP 2005326576 A JP2005326576 A JP 2005326576A
Authority
JP
Japan
Prior art keywords
voiceprint
voice
data
speaker
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004143952A
Other languages
English (en)
Inventor
Akira Masuda
彰 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004143952A priority Critical patent/JP2005326576A/ja
Publication of JP2005326576A publication Critical patent/JP2005326576A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】抑揚のある自然な会話による音声に対して適切に声紋認証を行うことを可能とする音声処理装置を提供する。
【解決手段】所定の声紋認証単位時間毎に、入力した音声データSinから声紋モデルを生成し、声紋レジスタ30に予め登録された声紋モデルと比較/照合することにより、照合スコアSCRを算出するとともに、照合スコアSCRの最も大きいユーザを特定する声紋認証部20と、照合スコアSCRが閾値THDより大きい場合に限り、声紋認証部が特定したユーザを有効な結果(V_ID)として出力する制御手段10と、を有し、制御手段が閾値THDを音声データの振幅のrms値に応じて調整可能に構成した。
【選択図】図1

Description

本発明は、音声に基づいて声紋認証技術により発話者を特定する音声処理装置に関する。
従来より、音声に基づいて当該音声に係る発話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、たとえば、銀行のコールセンター等に適用されている。
一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、および身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で発話者を特定することが可能となる。たとえば、発話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも発話者特定の認証精度が高い。
具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデルが予め登録される。
従来の声紋認証エンジンは、以下の処理を行うことで発話者を特定する。
(1)声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較/照合し、モデルの特徴量が近似する度合いに応じた照合値(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する発話者を特定する。
ところで、従来の声紋認証エンジンによれば、声紋認証を行う際に、照合値が所定のレベル以下である場合には、発話者の特定を行わないようにしている場合が多い。すなわち、一般に、照合値が所定のレベル以下である場合には、声紋照合の精度が高くないので、かかる場合には、声紋認証により発話者の特定を行わないようにしている。
したがって、声紋モデルが実際には近似しているにも関わらず、入力する音声の強さが弱いことに起因して声紋照合部が生成する照合値が所定レベル以下となった時にも、発話者を特定しない場合がある。
これは、従来の声紋認証エンジンでは、短いテキストやコマンド等の限定された音声に基づいて声紋認証を行うことを前提としていたため、入力する音声の強さが弱いことに起因して声紋照合部が生成する照合値が所定レベル以下となった場合であっても、再度ユーザに発話させることで、認証に十分な音声の強さを得ることができるためである。
しかし、音の強さのレベルが混在した抑揚のある自然な会話による音声に基づいて、リアルタイムに声紋認証を行う場合には、音の強さが小さい場合であっても、声紋認証を行わなければならない場合があり、かかる場合に従来の声紋認証エンジンでは、適切に声紋認証を行うことができない場合がある。
すなわち、音の強さが小さい場合でも、音声データを増幅した後に再度の声紋認証処理を行うことで、有効な声紋認証結果として処理できる場合があるにも関わらず、従来の声紋認証エンジンでは、声紋照合部が生成する照合値によって一律に声紋認証の実行有無を決定していたため、声紋認証の機会を損失する場合があったのである。
本発明はかかる事情に鑑みてなされたものであり、その目的は、抑揚のある自然な会話による音声に対して適切に声紋認証を行うことを可能とする音声処理装置を提供することにある。
上記目的を達成するための本発明の第1の観点は、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段とを有する音声処理装置である。
好適には、前記制御手段は、前記所定の時間間隔によるN回目(N:整数)の閾値を、N−1回目およびN回目の音声の強さに応じて決定する。
好適には、前記制御手段は、N−1回目の音声の強さに対して、N回目の音声の強さが小さい程、N回目の閾値を低く設定する。
上記目的を達成するための本発明の第2の観点は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、前記複数のマイクロフォンが集音する音圧に応じて、一のマイクロフォンを選択するマイクロフォン選択手段と、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、前記マイクロフォン選択手段が選択した音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段とを有する音声処理装置である。
本発明の第1の観点に係る音声処理装置の作用は、以下の通りである。
すなわち、声紋照合手段は、音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出し、制御手段は、声紋照合手段が処理する音声の強さに応じて、前記所定の時間間隔で前記閾値を調整し、発話者特定手段は、声紋照合手段が算出した照合値が制御手段が調整した閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する。したがって、音声の強さに応じて柔軟に声紋認証を行うことができる。
本発明に係る音声処理装置よれば、抑揚のある自然な会話による音声に対して適切に声紋認証を行うことを可能とするので、広範囲な用途に声紋認証技術を適用させることができる。
第1の実施形態
以下、本発明に係る音声処理装置の一実施形態について述べる。
図1は、本実施形態に係る音声処理装置1の一構成例である。図に示すように、音声処理装置1は、本発明の制御手段としてのCPU10、本発明の声紋照合手段および発話者特定手段としての声紋認証部(VPA)20、本発明の記憶手段としての声紋レジスタ(REG)30、およびインタフェース部(I/F)40を含んで構成される。
インタフェース部40は、音声処理装置1が入力する音声Sinを、音声処理装置1が処理可能なデータ形式に変換する回路である。たとえば、音声処理装置1が入力する音声がアナログ信号である場合には、ディジタルデータに変換するためのA/D変換器と、ノイズを除去するとともに、音声データのサンプリングを行うための適切なフィルタ回路と、を含んで構成される。インタフェース部40により処理されたディジタル音声データは、CPU10に送出される。
声紋認証部20は、CPU10から供給される音声データを、声紋認証可能な単位時間(以下、声紋認証単位時間、または単にAPと称する。本実施形態では、3秒間)毎に声紋認証して、発話者(ユーザID)を特定する。声紋認証技術としては、すでに公知の技術を声紋認証部20に適用させることが可能である。
なお、声紋認証単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、声紋認証部20およびCPU10の処理能力が許せば、極力短い時間が望ましい。
声紋レジスタ30には、認証対象の複数のユーザの音声データに基づいて、声紋認証部20がそれぞれ生成した声紋モデルが予め登録されている。すなわち、声紋レジスタ30には、ユーザのユーザIDと声紋モデルが相互に関連付けられて記憶されている。
声紋認証部20は、図1に示すように、声紋モデル生成部21と声紋照合部22を含んで構成され、以下の処理を行うことで発話者を特定する。
(1)声紋モデル(本発明の声紋データ)の生成
声紋モデル生成部21は、CPU10より供給される音声データをスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
声紋照合部22は、声紋認証部20が認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタ30に登録された声紋モデルとを比較/照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応するユーザIDを特定する。
なお、声紋照合部22が特定したユーザIDを実際に音声処理装置1から出力するか否かについては、後述するように、CPU10により制御される。
また、本実施形態に係る照合スコアSCRは、本発明の照合値に対応する。
CPU10は、音声処理装置1の全体の制御を行う。
たとえば、声紋レジスタ30およびメモリ40に対するアクセス制御、インタフェース部40から入力した音声データに対する処理、声紋認証部20の声紋認証処理に対するタイミング制御、インタフェース部40により取り込まれた音声データのサンプリングなどである。
CPU10は、入力した音声の強さを取得するため、インタフェース部40に処理されたディジタルの音声データを声紋認証単位時間毎に、音声データの振幅の自乗平均値(以下、単にrms値と称する)を算出する。その際、一つ前の声紋認証単位時間におけるrms値については、後述する閾値THDの調整のために、図示しないバッファに保持しておく。
なお、音声の強さとして、rms値を算出するのは一例であって、たとえば、声紋認証単位時間における音声の振幅の積分値や、より簡易的に、声紋認証単位時間における振幅の絶対値の最大値としてもよい。
CPU10は、声紋認証部20により生成された照合スコアSCRを、自身が調整可能な(書換可能な)閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、声紋認証部20で特定されたユーザIDを有効なものと判断し、図1に示すV_IDとして出力する。
ここで、本実施形態に係るCPU10では、閾値THDは固定値ではなく、入力した音声の強さに応じて可変とする。
これは、入力する音声の強さが弱いことに起因して声紋照合部が生成する照合スコアSCRが閾値THD以下となる場合であり、かかる場合に閾値THDを固定値とすると、音声処理装置1は、声紋認証部20が特定したユーザIDを出力しないため、その分ユーザ特定(認証)機会を損失するためである。
次いで、音声処理装置1の動作について述べる。
音声処理装置1が入力したアナログ音声信号Sinは、先ず、インタフェース部40においてディジタル信号(音声データ)に変換されるとともに、サンプリングのために必要なフィルタリング処理が施された後に、CPU10に供給される。
CPU10では、音声データを声紋認証単位時間毎に処理する。
具体的には、CPU10は、入力した音声データに基づいて、声紋認証単位時間毎にrms値を算出するとともに、声紋認証部20に対して声紋認証処理を指示する。
声紋認証部20では、インタフェース部40により生成された音声データに基づいて声紋モデルを生成するとともに、声紋レジスタ30に予め登録された複数の声紋モデルと順次比較/照合する。その際に、声紋モデルの近似度を示す照合スコアSCRを算出して、これをCPU10へ送出する。
さらに、声紋認証部20は、声紋レジスタ30の複数の声紋モデルとの照合スコアSCRが最も大きいユーザIDを特定する。
次いで、CPU10は、声紋認証単位時間毎に算出したrms値に応じて、閾値THDを変更した後に、声紋認証部20から供給された照合スコアSCRと、変更後の閾値THDとを比較し、照合スコアSCRが閾値THDを越えている場合には、声紋認証部20が照合スコアSCRに基づいて特定したユーザIDを、有効なユーザID(V_ID)として出力する。
上述した一連の処理を、音声処理装置1は声紋認証単位時間毎に行う。
図2は、上述した処理による音声処理装置1の時系列上の処理結果を例示するタイミングチャートであり、(a)は、音声データの波形とrms値を、(b)は、照合スコアSCRを、それぞれ示す。
図2において、AP1〜AP7は、それぞれ声紋認証単位時間を示し、各声紋認証単位時間毎に、音声データのrms値と照合スコアSCRが、それぞれCPU10および声紋認証部20により算出される。
本実施形態における照合スコアSCRは、たとえば、声紋モデルの近似度合いに応じて、−3.0〜+5.0の範囲の値をとるが、仮に、閾値THDを−1.0とした場合には、声紋認証単位時間AP1,2,4,7の時に、いずれも閾値THD以上の値の照合スコアSCRを算出しているので、CPU10は、声紋認証単位時間AP1,2,4,7の時に声紋認証部20により特定されたユーザIDを有効なものとして出力する。
次に、CPU10により調整可能な値である閾値THDについて、その調整方法の一例を述べる。
一般に、リアルタイムで声紋認証を行う場合には、自然な会話による音声データの性質を考慮する必要がある。すなわち、自然な会話では、抑揚のある音声データが得られるため、音声のrms値としては、一定のレベルではなく、ある声紋認証単位時間では、大きい値を示し、ある声紋認証単位時間では、逆に小さな値を示す場合がある。
したがって、CPU10は、自然な会話の中で音声のrms値が小さい場合には、声紋認証を有効なものとするように、閾値THDを下げるように制御する必要がある。
しかし、その際、音声のrms値が小さな場合にすべて声紋認証を有効なものとすると、実際には会話がなされていないにもかかわず、ノイズにより小さなrms値が定常的に音声処理装置1に取り込まれている場合にも、声紋認証を有効なものとして処理してしまうおそれがある。
したがって、本実施形態に係るCPU10は、音声のrms値の変化の度合いに応じて、閾値THDを調整する。具体的には、一つ前の声紋認証単位時間のrms値が大きい場合に、現在の声紋認証単位時間のrms値が小さい場合でも声紋認証を有効なものとして処理できるように、閾値THDを調整する。
たとえば、図3において、現在処理中の声紋認証単位時間をAP(N)、一つ前に処理した声紋認証単位時間をAP(N−1)とすると、CPU10は、それぞれの声紋認証単位時間におけるrms値(図では、AP(N−1)で1500、AP(N)で300である)に基づいて、AP(N)における閾値THDを決定する。
図4は、図3のAP(N−1)およびAP(N)におけるrms値に応じた、AP(N)における閾値THDの設定例である。なお、図4では、従前の固定した閾値THDが−1.0であったことを前提として調整した閾値THDを示している。
したがって、AP(N−1)に対してAP(N)のrms値が大きくなる場合(図4の表の左下側の場合)には、閾値THDを変更しなくても、十分に照合スコアSCRが大きくなることが期待されるので、従前の閾値THDである−1.0のままとして、AP(N−1)に対してAP(N)のrms値が小さくなる場合(図4の表の右上側の場合)には、より広範囲な照合スコアSCRを有効なものとするように、閾値THDを低下させている。
たとえば、図3に示した例において、AP(N−1)およびAP(N)におけるrms値は、それぞれ、1500および300であるから、図4に示す表より、AP(N)における閾値THDは、−1.5となり、従前の固定閾値THD(−1.0)と比較して、より広範囲な照合スコアSCRを有効なものとすることができる。
また、図2に例示した音声データにおいて、たとえば、AP5の声紋認証単位時間では、従前の固定閾値THD(−1.0)によれば、照合スコアSCRが−1.2であるので、声紋認証の対象にならなかったが、図4に示す設定例に基づいて閾値THDを調整することにより、閾値THDが−1.5となり、AP5の声紋認証単位時間での声紋照合結果を有効なものとすることができる。
なお、音声データのパターンに応じて、閾値THDを設定するようにしてもよい。
たとえば、図5(a)〜(h)には、様々な音声データのパターンを例示するが、このような様々な音声データのパターンに基づくパターン認識により閾値THDを設定することで、より適切に照合スコアSCRを判断することができる。
上述したように、連続した声紋認証単位時間におけるrms値に応じて、閾値THDを調整することで、より広範囲な(より小さな値の)照合スコアSCRを有効なものと判断することが可能となるが、そのままの照合スコアSCRでは、対比する声紋モデルの近似度が低いままであるため、精度の高い認証結果を出力することができない。
したがって、照合スコアSCRが低い場合でも精度の高い認証結果を取得するために、音声処理装置1は、音声データに対する補正処理を行う。
かかる補正処理は、様々な観点から行うことが可能であるが、たとえば、ある声紋認証単位時間において、照合スコアSCRが閾値THDより大きいものの、rms値が所定の下限閾値レベルより小さい場合には、そのrms値を増幅処理した後に、再度、声紋認証部20で照合処理を行うようにすることができる。音声の振幅レベルは、声紋モデルの基本となるスペクトル値に大きな影響を与えないので、増幅処理した音声データに基づいて照合処理の精度を上げることができる。
なお、リアルタイムで声紋処理を行う際には、かかる再照合処理のための時間を無視することができない場合があるので、再照合処理においては、特定に必要なユーザの数を限定するようにしてもよい。たとえば、最初の照合処理において照合スコアSCRの高かったユーザに限定して再照合処理を行う。
以上説明したように、本実施形態に係る音声処理装置によれば、所定の声紋認証単位時間毎に、入力した音声データから声紋モデルを生成し、声紋レジスタに予め登録された声紋モデルと比較/照合することにより、照合スコアSCRを算出するとともに、照合スコアSCRの最も大きいユーザを特定する声紋認証部と、照合スコアSCRが閾値THDより大きい場合に限り、声紋認証部が特定したユーザを有効な結果として出力する制御手段と、を有し、制御手段が閾値THDを音声データの振幅のrms値に応じて調整可能に構成したので、以下の効果が得られる。
すなわち、音の強さのレベルが混在した抑揚のある自然な会話による音声の一部に、音の強さが小さい音声が存在するために照合スコアSCRが小さくなった場合でも、声紋認証結果を有効なものとすることができるので、声紋認証の機会を損失することがない。
その際、本実施形態に係る音声処理装置によれば、音声データを増幅した後に再度の声紋照合処理を行うことで、照合スコアSCRが小さい場合でも、有効な声紋認証結果が得られる。
また、本実施形態に係る音声処理装置によれば、制御手段は、連続した声紋認証単位時間におけるrms値の値の変化に基づいて閾値THDを設定するので、音の強さのレベルが定常的に低い状態であるノイズに基づいて声紋認証処理を行うことを防止し、より適切に声紋認証処理を行うことができる。
第2の実施形態
次いで、第2の実施形態に係る音声処理装置について述べる。
第2の実施形態に係る音声処理装置2では、第1の実施形態で述べた音声処理装置1の一応用例である。
音声処理装置2は、それぞれ複数の会議参加者が存在し、遠隔に位置する2つの会議室間において、双方向の通話を可能とする通話装置である。この通話装置の一部に、第1の実施形態で述べた声紋認証処理技術が適用される。以下、先ず、音声処理装置2が適用される用途について述べる。
図6(a)〜(c)は、音声処理装置2が適用される一例を示す構成図である。
図6(a)に図解したように、遠隔に位置する2つの会議室901、902にそれぞれ音声処理装置2A,2Bが設置されており、これらの音声処理装置2A,2Bが電話回線920で接続されている。なお、音声処理装置2A,2Bは、音声処理装置2と同一である。
図6(b)に図解したように、2つの会議室901、902において、音声処理装置2A,2Bがそれぞれテーブル911、912の上に置かれている。ただし、図6(b)においては、図解の簡略化のため、会議室901内の音声処理装置2Aについてのみ図解しているが、会議室902内の音声処理装置2Bも同様である。
図6(c)に図解したように、音声処理装置2A,2Bの周囲にそれぞれ複数(本実施形態においては6名)の会議参加者A1〜A6が位置している。ただし、図6(c)においては、図解の簡略化のため、会議室901内の音声処理装置2Aの周囲の会議参加者のみ図解している。他方の会議室902内の音声処理装置2Bの周囲に位置する会議参加者の配置についても、同様である。
音声処理装置2によれば、たとえば、2つの会議室901、902との間で電話回線920を介して音声による通話が可能である。
また、電話回線920を介しての会話は、通常、1人の話者と1人の話者同士、すなわち1対1で通話を行うが、音声処理装置2によれば、1つの電話回線920を用いて複数の会議参加者A1〜A6同士の通話が可能である。
以下、かかる音声処理装置2の構成および作用について述べる。
音声処理装置2の構成
図7は本発明の一実施形態としての音声処理装置2を表す図であり、(a)は音声処理装置2の外観斜視図であり、(b)はマイクロフォン収容部の内部の上面図である。
音声処理装置2は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図7(a)に図解したように、マイクロフォンを収容するためのマイクロフォン収容部11と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部12と、操作部13とを含んでいる。
さらに、図7(b)に図解したように、マイクロフォン収容部11の内部には、6本のマイクロフォンMC1〜6が全方位に均等に配置されている。各マイクロフォンは単一指向性を持つマイクロフォンである。
スピーカ収容部12に収容されるスピーカは、収容筐体の中心に位置し、スピーカからの音声は、各マイクロフォンMC1〜6に対して、ほぼ同音量、同位相で届くように構成されている。
会議参加者A1〜A6は、通常、図6(c)に例示したように、音声処理装置2の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。
図8は、音声処理装置2の回路構成の一例を示すブロック図である。
図8に示すように、音声処理装置2は、回路構成としては、CPU54と、本発明のマイクロフォン選択手段としてのDSP52と、DSP53と、A/D変換器ブロック51と、A/D変換器517と、D/A変換器551,552と、増幅器561,562と、スピーカ57とを含んで構成される。図8においては、A/D変換器ブロック51の一例として、各マイクロフォンに対応する6個のA/D変換器511〜516を例示する。
図8に示す構成を有する回路が実装された基板が、たとえば、図7(a)に示すマイクロフォン収容部11の内部に設置されている。
また、その他の構成要素、たとえば、相手方会議室に送信する音声を圧縮符号化するためのコーデック等は、図8には図示していない。
CPU54は、音声処理装置2の全体制御処理を行う。
DSP52は、A/D変換器511〜516によりディジタル信号に変換された6本のマイクロフォンMC1〜6からの音声信号に基づいて、1のマイクロフォンの音声信号を選択する処理(マイクロフォン選択処理)等の各種の信号処理を行う。DSP52の内部処理については後述する。
DSP53は、エコーキャンセラーとして機能する。すなわち、A/D変換器517を介して入力した相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、DSP52および声紋処理部58を介して入力した音声信号から減じる処理を行うことにより、エコー消去処理を行う。
DSP53の処理結果は、D/A変換器551,552によりアナログ信号に変換されて出力される。D/A変換器552からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器562を介して電話回線920(図6(a))のラインアウト(LINE OUT)に出力され、相手方会議室に設置された通話装置のスピーカを介して、音として出力される。
相手方の会議室に設置された音声処理装置2からの音声は、電話回線920(図6(a))のラインイン(LINE IN) を介して入力され、A/D変換器517においてディジタル信号に変換され、DSP53に入力されてエコーキャンセル処理に使用されるとともに、D/A変換器551および増幅器561を介し、スピーカ57から音として出力される。
一方、DSP52により選択されたマイクの音声信号も、声紋処理部58およびDSP53を介してスピーカ57から音として出力される。
すなわち、図6(c)に示す会議参加者A1〜A6は、上述したスピーカ57を通して、相手会議室に配置された通話装置により選択された話者の音声に加えて、その会議室のいる発言者が発した音声をもスピーカ57を介して聞くことができる。
音声処理装置2に内蔵された6本のマイクロフォンMC1〜6は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるために、音声処理装置2では、指向性マイクロフォンで集音することにより、周辺のノイズとのS/Nを改善している。
DSP52の処理
次に、DSP52で行う処理内容について述べる。
DSP52で行われる主な処理は、マイクロフォン(以下、単にマイクと称する場合もある)の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、1つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、音声処理装置2を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。
本処理を正確に行うため、DSP52は、下記に例示する各種の信号処理を行う。
(a)マイク信号の帯域分離とピークホールド処理
(b)発言の開始、終了の判定処理
(c)発言者方向マイクの検出処理
(d)マイク信号の選択切替え処理
図9は、DSP52において実行される処理を示すブロック図である。
図9に示すように、DSP52は、各マイク信号に対してBPF処理を行い、音圧レベルデータを生成するBPF5211〜5216からなるBPFブロック521と、BPF処理された各マイクの音圧レベルデータに対してPH処理を行い、後述するピーク値を生成するPH5221〜5226からなるPHブロック522と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部523と、を含んで構成される。
かかる構成を有するDSP52による上述した各信号処理(a)〜(d)について、以下に述べる。
(a)マイク信号の帯域分離とピ−クホールド処理
本処理は、図9に示すBPFブロック521およびPHブロック522によって行われる。
BPFブロック521の各BPF処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性(たとえば、100〜600Hz)に基づいて行われる。
PH処理は、BPF処理された音圧レベルデータ(マイク信号)の最大値を保持(ピークホールド)する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記(b)〜(d)の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部523により実行される。
(b)発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、たとえば、所定の閾値と音圧レベルを比較することにより、発言の開始/終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
DSP52は、たとえば、マイクロフォンMC1の発言の開始を判定すると、マイクロフォンMC1に設定された出力ゲインを増加させる。逆に、マイクロフォンMC1の発言の終了を判定すると、マイクロフォンMC1に設定された出力ゲインを減少させる。
(c)発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい1つのマイクを選択する処理である。すなわち、1人の話者が発言を開始する場合には、1つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図9に示すように、各マイクを通して入力した音圧レベルデータに対して、バンドパス・フィルタ(BPF)処理およびピークホールド(PH)処理を行うことにより得られるピーク値である。
(d)マイク信号の選択切替え処理
本処理では、(c)発言者方向マイクの検出処理により選択されたマイクにDSP52の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。たとえば、図10に示すように、マイク信号の選択切替え処理は、6回路の乗算器と6入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン(CH Gain)を「1」に、その他の乗算器のチャンネルゲインを「0」とすることにより、加算器には〔選択されたマイク信号×1〕と〔他のマイク信号×0〕の処理結果が加算される。これにより、選択されたマイク信号(選択マイク信号)が後段の声紋処理部58へ送出される。
声紋処理部58は、第1の実施形態に係る音声処理装置1の声紋認証部20と、声紋レジスタ30とを含んで構成され、DSP52から送出される選択マイク信号に基づいて声紋照合処理を行い、選択マイク信号に係るユーザIDを特定するとともに、CPU54の指示に応じて、DSP52からの選択マイク信号をDSP53へ出力する。
また、声紋処理部58は、照合の際に生成された照合スコアSCRをCPU54へ出力する。
CPU54は、第1の実施形態に係る音声処理装置1のCPU10と同様の機能を含んで構成される。すなわち、CPU54は、第1の実施形態に係るCPU10と同様に、声紋処理部58の声紋認証部20により生成された照合スコアSCRを、自身が調整可能な(書換可能な)閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、声紋認証部20で特定されたユーザIDを有効なものと判断し、図8に示すV_IDとして出力する。
さらに、CPU54は、予め音声出力を行うことを許可する複数のユーザIDに関する情報に対してアクセス可能に構成され、声紋処理部58により特定されたユーザIDが音声出力を行うことを許可する複数のユーザIDの一に該当しない場合には、DSP52からの選択マイク信号がDSP53へ送出されないように、声紋処理部58を制御する。
なお、上記した複数のユーザIDに関する情報は、たとえば、図示しないメモリに予め記憶されている。
以上述べたように、本実施形態に係る音声処理装置2によれば、選択マイク信号に対して、第1の実施形態で述べた音声処理装置1と同様の処理を行うように構成したので、複数のマイクロフォンから選択された一のマイク信号に対して同様の効果を得ることができる。すなわち、選択マイク信号の音の強さが小さいために照合スコアSCRが小さくなった場合でも、声紋認証結果を有効なものとすることができ、声紋認証の機会を損失することがない。
さらに、本実施形態に係る音声処理装置2によれば、声紋認証により特定されたユーザID(V_ID)が予め許可された複数のユーザIDの一に該当する場合に限り、外部への選択マイク信号の音声出力を許可するように構成したので、特に、お互いの相手を視認できない状態で行われる遠隔の会議における通話装置に適用した場合に、通話の安全性が確保される。
第1の実施形態に係る音声処理装置の一構成例である。 第1の実施形態に係る音声処理装置の動作を説明するためのタイミングチャートである。 閾値THDの調整方法を説明するためのタイミングチャートである。 閾値THDの調整方法の一実施例である。 様々な音声データのパターンである。 第1の実施形態に係る音声処理装置が適用される一例を示す構成図である。 第2の実施形態に係る音声処理装置2の外観図であり、(a)は音声処理装置2の外観斜視図であり、(b)はマイクロフォン収容部の内部の上面図である。 第2の実施形態に係る音声処理装置の回路構成の一例を示すブロック図である。 DSP52のブロック構成図である。 マイク信号の選択切替え処理を示す。
符号の説明
1,2…音声処理装置、10…CPU、20…声紋認証部、30…声紋レジスタ、40…インタフェース部、11…マイクロフォン収容部、12…スピーカ収容部、13…操作部、51…A/D変換器ブロック、52,53…DSP、54…CPU、57…スピーカ、58…声紋処理部。

Claims (5)

  1. 複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
    音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、
    前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、
    前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段と
    を有する音声処理装置。
  2. 前記制御手段は、前記所定の時間間隔によるN回目(N:整数)の閾値を、N−1回目およびN回目の音声の強さに応じて決定する
    請求項1記載の音声処理装置。
  3. 前記制御手段は、N−1回目の音声の強さに対して、N回目の音声の強さが小さい程、N回目の閾値を低く設定する
    請求項2記載の音声処理装置。
  4. それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
    前記複数のマイクロフォンが集音する音圧に応じて、一のマイクロフォンを選択するマイクロフォン選択手段と、
    複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
    前記マイクロフォン選択手段が選択した音声から声紋データを所定の時間間隔で順次抽出し、抽出した声紋データを前記記憶手段が記憶する複数の声紋データとそれぞれ照合し、近似度合いに応じた照合値を算出する声紋照合手段と、
    前記照合値が閾値を越える場合に、前記声紋照合手段が照合した複数の声紋データのうち、最も照合値が高い声紋データに対応する発話者データを特定する発話者特定手段と、
    前記音声の強さに応じて、前記所定の時間間隔で前記閾値を調整する制御手段と
    を有する音声処理装置。
  5. 前記制御手段は、
    前記発話者特定手段が特定した発話者データが予め定めた複数の発話者データの一に該当する場合に、前記マイクロフォン選択手段が選択した音声を外部へ出力することを許可する
    請求項4記載の音声処理装置。
JP2004143952A 2004-05-13 2004-05-13 音声処理装置 Pending JP2005326576A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004143952A JP2005326576A (ja) 2004-05-13 2004-05-13 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004143952A JP2005326576A (ja) 2004-05-13 2004-05-13 音声処理装置

Publications (1)

Publication Number Publication Date
JP2005326576A true JP2005326576A (ja) 2005-11-24

Family

ID=35472991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004143952A Pending JP2005326576A (ja) 2004-05-13 2004-05-13 音声処理装置

Country Status (1)

Country Link
JP (1) JP2005326576A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093370A (zh) * 2022-01-19 2022-02-25 珠海市杰理科技股份有限公司 声纹识别方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093370A (zh) * 2022-01-19 2022-02-25 珠海市杰理科技股份有限公司 声纹识别方法、装置、计算机设备和存储介质
CN114093370B (zh) * 2022-01-19 2022-04-29 珠海市杰理科技股份有限公司 声纹识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
JP4085924B2 (ja) 音声処理装置
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
US20110237295A1 (en) Hearing aid system adapted to selectively amplify audio signals
US8768701B2 (en) Prosodic mimic method and apparatus
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
US20210211812A1 (en) Personal hearing device, external sound processing device, and related computer program product
WO2023088083A1 (zh) 语音增强方法和装置
JP2018191145A (ja) 収音装置、収音方法、収音プログラム及びディクテーション方法
CN112767908A (zh) 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN102118676A (zh) 数字助听器和利用双音多频按键音调节其参数的方法
CN214226506U (zh) 声音处理电路、电声器件和声音处理系统
JP2005055667A (ja) 音声処理装置
CN109511040B (zh) 一种耳语放大方法、装置及耳机
JP2005055666A (ja) 音声処理装置
JP2005326576A (ja) 音声処理装置
JP2006154484A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
CN108962273A (zh) 一种麦克风的音频输出方法和装置
JP2006235102A (ja) 音声処理装置および音声処理方法
JP4507905B2 (ja) 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体
Zhu et al. Feasibility of vocal emotion conversion on modulation spectrogram for simulated cochlear implants
JP2006162694A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
US20230217194A1 (en) Methods for synthesis-based clear hearing under noisy conditions
JP4079478B2 (ja) 音声信号の処理回路および処理方法
JPH04324499A (ja) 音声認識装置
JP2000125397A (ja) 話者識別型ディジタル補聴器