JP2006154484A - 音声処理装置,音声処理方法,プログラム及び記録媒体 - Google Patents

音声処理装置,音声処理方法,プログラム及び記録媒体 Download PDF

Info

Publication number
JP2006154484A
JP2006154484A JP2004346853A JP2004346853A JP2006154484A JP 2006154484 A JP2006154484 A JP 2006154484A JP 2004346853 A JP2004346853 A JP 2004346853A JP 2004346853 A JP2004346853 A JP 2004346853A JP 2006154484 A JP2006154484 A JP 2006154484A
Authority
JP
Japan
Prior art keywords
data
voice
voiceprint
authentication
voiceprint authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004346853A
Other languages
English (en)
Inventor
Akira Masuda
彰 増田
Masafumi Nagai
雅文 永易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004346853A priority Critical patent/JP2006154484A/ja
Publication of JP2006154484A publication Critical patent/JP2006154484A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 所定の時間間隔を単位時間として声紋認証を行う際に、この声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われて残りの時間には発話が行われなかったような場合にも、誤認証率を下げて発話者特定の精度を高める。
【解決手段】 所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類し、このサンプリング周期よりも長い所定の時間間隔(声紋認証単位時間)を単位として、この分類結果を集計する(S2〜S11)。その集計結果に基き、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に決定する(S12〜S16)。そして、入力音声データのうち、この声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみそれぞれ声紋認証を行う。
【選択図】 図7

Description

本発明は、音声に基づいて声紋認証技術により発話者を特定する音声処理装置,音声処理方法等に関する。
従来より、音声に基づいて当該音声に係る発話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、例えば、銀行のコールセンター等に適用されている。
一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、及び身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で発話者を特定することが可能となる。例えば、発話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも発話者特定の認証精度が高い。
具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデルが予め登録される。
従来の声紋認証エンジンは、以下の処理を行うことで発話者を特定する。
(1)声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較照合し、モデルの特徴量が近似する度合いに応じた照合値(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する発話者を特定する。
本特許出願の出願時には未公開であるが、従来、こうした声紋認証エンジンに関する技術としては、次の(a)及び(b)の処理を行うものが提案されていた(出願番号特願2004−143952号の特許出願)。
(a)入力する全ての音声データから、所定の時間間隔(例えば3秒間)の声紋認証単位時間毎に声紋モデルを生成する。そして、それらの声紋モデルと、声紋レジスタに登録された声紋モデルとを比較照合し、照合値が閾値を超える場合に、最も照合値が高い声紋データに対応する発話者を特定する。
(b)入力する音声データの強さ(例えば音声データの振幅の自乗平均値)を声紋認証単位時間毎に算出し、この算出した値が小さい場合には、上記閾値を下げることによって有効な照合値(閾値を超える照合値)の範囲を広げる。そして、音声データを増幅して再度声紋照合処理を行う。
これは、例えば会議中の会話のような自然な会話による音声からリアルタイムに声紋認証を行う場合に、発話者の声が小さい場合にも適切に声紋認証を行って発話者を特定できるようにすることを目的としたものである。
ところで、会議中の会話のような自然な会話時には、声紋認証単位時間(前述の例では3秒間)の間じゅう継続して小さな声で発話が行われる場合だけでなく、声紋認証単位時間のうちの一部の時間(例えば1秒間未満)だけ大きな声で発話が行われて残りの時間には発話が行われない場合もある。
前述した従来の技術では、このように一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間についても、上記(b)の処理で小さな値が算出されて照合値が有効とされるので、却って誤認証を生じ、発話者特定の精度が低くなることがあった。
例えば、会議中に録音した音声データに対して声紋認証を行って自動的に会議出席者別の議事録を作成するような場合には、こうした誤認証があると、作成後の議事録の編集作業(誤って本人以外の出席者の発言とされた内容を、本人の発言として修正する作業)に多くの時間を費やさなければならなくなるので、効率が非常に悪くなってしまう。
また、例えば会議中にリアルタイムに声紋認証を行って発話者を特定し、その結果に従って何らかの操作(例えば現在発言中の会議出席者にカメラを向ける操作)を行うような場合には、こうした誤認証があると、その操作を誤る(例えば発言中でない者にカメラが向けられる)ことになってしまう。
本発明は、上述の点に鑑み、所定の時間間隔を単位時間として声紋認証を行う際に、この声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われて残りの時間には発話が行われなかったような場合にも、誤認証率を下げて発話者特定の精度を高めることを課題としてなされたものである。
この課題を解決するために、本発明に係る第1の音声処理装置は、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、このサンプリング周期よりも長い所定の時間間隔を単位として、この分類手段の分類結果を集計する集計手段と、この集計手段の集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する決定手段と、入力音声データのうち、この決定手段で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、この記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段とを備えたことを特徴とする。
一例として、この集計手段は、この分類手段で有音データに分類されたデータの数を計数する第1の計数手段を含み、この決定手段は、この第1の計数手段の計数値が一定以上である場合には、声紋認証の対象とするように決定するのが好適である。
また、この集計手段は、連続する複数のサンプリングタイミングに亘るデータがこの分類手段で有音データに分類された場合に、その連続した回数を計数する第2の計数手段を含み、この決定手段は、この第2の計数手段の計数値が一定以上である場合には、声紋認証の対象とするように決定するのが好適である。
また、この集計手段は、連続する複数のサンプリングタイミングに亘るデータがこの分類手段で無音データに分類された場合に、その連続した回数を計数する第3の計数手段を含み、この決定手段は、この第3の計数手段の計数値が一定以上である場合には、声紋認証の対象としないように決定するのが好適である。
また、本発明に係る第2の音声処理装置は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、これらの複数のマイクロフォンからの音声データをそれぞれ所定のサンプリング周期でサンプリングするサンプリング手段と、このサンプリング手段でサンプリングされたこれらの複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、このマイクロフォン選択手段で選択された音声データを、このサンプリング手段での各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、このサンプリング周期よりも長い所定の時間間隔を単位として、この分類手段の分類結果を集計する集計手段と、この集計手段の集計結果に基き、このマイクロフォン選択手段で選択された音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する決定手段と、このマイクロフォン選択手段で選択された音声データのうち、この決定手段で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、この記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段とを備えたことを特徴とする。
また、本発明に係る音声処理方法は、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第1のステップと、このサンプリング周期よりも長い所定の時間間隔を単位として、第1のステップでの分類結果を集計する第2のステップと、第2のステップでの集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する第3のステップと、入力音声データのうち、第3のステップで声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第4のステップとを有することを特徴とする。
また、本発明に係るプログラムは、コンピュータに、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第1の手順と、このサンプリング周期よりも長い所定の時間間隔を単位として、第1の手順での分類結果を集計する第2の手順と、第2の手順での集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する第3の手順と、入力音声データのうち、第3の手順で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第4の手順とを実行させることを特徴とする。
また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータに、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第1の手順と、このサンプリング周期よりも長い所定の時間間隔を単位として、第1の手順での分類結果を集計する第2の手順と、第2の手順での集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する第3の手順と、入力音声データのうち、第3の手順で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第4の手順とを実行させるプログラムを記録したことを特徴とする。
本発明では、所定のサンプリング周期でサンプリングされた入力音声データ(第2の音声処理装置では、複数のマイクロフォンのうちマイクロフォン選択手段で選択された一つのマイクロフォンからの音声データ)を、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する。
そして、このサンプリング周期よりも長い所定の時間間隔(後述する声紋認証単位時間)を単位としてこの分類結果を集計し、その集計結果に基き、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に決定する。
そして、入力音声データのうち、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することにより、声紋認証を行って発話者を特定する。
このように、本発明によれば、入力する全ての音声データを対象として声紋認証単位時間毎に声紋認証を行うのではなく、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に、その声紋認証単位時間についての有音データ・無音データの集計結果に基いて決定して、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみ声紋認証を行う。
これにより、例えば一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間のような、有音データの割合が少ない(無音データの割合が多い)声紋認証単位時間の音声データを声紋認証の対象から除外することができるので、声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われたような場合にも、誤認証率を下げて発話者特定の精度を高めることができる。
本発明によれば、所定の時間間隔を単位時間として声紋認証を行う際に、この声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われて残りの時間には発話が行われなかったような場合にも、誤認証率を下げて発話者特定の精度を高めることができるという効果が得られる。
以下、会議用の音声処理装置に本発明を適用した例について、図面を用いて具体的に説明する。この音声処理装置は、それぞれ複数の会議参加者が存在し、遠隔に位置する2つの会議室間において、双方向の通話を可能とする通話装置である。この通話装置の一部に、本発明に係る声紋認証処理技術が適用される。以下、先ず、この音声処理装置が適用される用途について述べる。
図1は、この音声処理装置が適用される一例を示す図である。図1(a)に示すように、遠隔に位置する2つの会議室901,902にそれぞれ音声処理装置2(会議室901については2A,会議室902については2Bと表記するが、同一の構成である)が設置されており、これらの音声処理装置2A,2Bが電話回線920で接続されている。
図1(b)に示すように、会議室901において、音声処理装置2Aがテーブル911の中央に置かれている。図示は省略するが、会議室902においても、同様にして、音声処理装置2Bがテーブルに置かれている。
図1(b)及び(c)に示すように、音声処理装置2Aが置かれたテーブル911の周囲に、複数(本実施形態においては6名)の会議参加者A1〜A6がほぼ等間隔に着席している。図示は省略するが、会議室902においても、同様にして、音声処理装置2Bが置かれたテーブルの周囲に複数の会議参加者が着席している。
音声処理装置2によれば、2つの会議室901,902の間で、電話回線920を介して音声による通話が可能である。また、電話回線920を介しての会話は、通常、1人の話者と1人の話者同士、すなわち1対1で通話を行うが、音声処理装置2によれば、一つの電話回線920を用いて複数の会議参加者A1〜A6同士の通話が可能である。
以下、かかる音声処理装置2の構成について述べる。
〔音声処理装置2の構成〕
図2は、音声処理装置2の外観構成の一例を示す図であり、図2(a)は斜視図、図2(b)は図2(a)のマイクロフォン収容部11の内部の上面図である。
音声処理装置2は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図2(a)に示すように、マイクロフォンを収容するためのマイクロフォン収容部11と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部12と、操作部13とを含んでいる。
図2(b)に示すように、マイクロフォン収容部11の内部には、6本のマイクロフォンMC1〜MC6が全方位に均等に配置されている。各マイクロフォンは、単一指向性を持つマイクロフォンである。
スピーカ収容部12に収容されるスピーカは、収容筐体の中心に位置しており、スピーカからの音声が各マイクロフォンMC1〜MC6に対してほぼ同音量・同位相で届くように構成されている。
会議参加者A1〜A6は、通常、図1(c)に例示したように、音声処理装置2の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。
図3は、音声処理装置2の回路構成の一例を示すブロック図である。音声処理装置2は、CPU54と、本発明のマイクロフォン選択手段としてのDSP52と、DSP53と、A/D変換器ブロック51と、A/D変換器517と、D/A変換器551,552と、増幅器561,562と、スピーカ57とを含んでいる。図3においては、A/D変換器ブロック51の一例として、各マイクロフォンに対応する6個のA/D変換器511〜516を示している。各A/D変換器511〜516は、一例として、サンプリング周波数が8kHzであり、量子化ビット数が8ビットである。また、図示は省略するが、音声処理装置2は、相手方会議室に送信する音声を圧縮符号化するためのコーデック等も含んでいる。
これらの回路が実装された基板が、例えば、図2(a)に示すマイクロフォン収容部11の内部に設置されている。
CPU54は、音声処理装置2の全体制御処理を行うとともに、後述するような声紋の認証対象決定処理及び声紋認証処理を行う。
DSP52は、A/D変換器511〜516によりディジタル信号に変換された6本のマイクロフォンMC1〜MC6からの音声信号に基づいて、一つのマイクロフォンの音声信号を選択する処理(マイクロフォン選択処理)等の各種の信号処理を行う。DSP52の内部処理については後述する。
DSP53は、エコーキャンセラーとして機能する。すなわち、A/D変換器517を介して入力した相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、DSP52及びCPU54を介して入力した音声信号から減じる処理を行うことにより、エコー消去処理を行う。
DSP53の処理結果は、D/A変換器551,552によりアナログ信号に変換されて出力される。D/A変換器552からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器562を介して電話回線920(図1(a))のラインアウト(LINE OUT)に出力され、相手方会議室に設置された通話装置のスピーカを介して、音として出力される。
相手方の会議室に設置された音声処理装置2からの音声は、電話回線920(図1(a))のラインイン(LINE IN) を介して入力され、A/D変換器517においてディジタル信号に変換され、DSP53に入力されてエコーキャンセル処理に使用されるとともに、D/A変換器551及び増幅器561を介し、スピーカ57から音として出力される。
一方、DSP52により選択されたマイクロフォンの音声信号も、CPU54及びDSP53を介してスピーカ57から音として出力される。
すなわち、図1(c)に示す会議参加者A1〜A6は、上述したスピーカ57を通して、相手会議室に配置された通話装置により選択された話者の音声に加えて、その会議室にいる発言者が発した音声をもスピーカ57を介して聞くことができる。
音声処理装置2に内蔵された6本のマイクロフォンMC1〜MC6は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるために、音声処理装置2では、指向性マイクロフォンで集音することにより、周辺のノイズとのS/Nを改善している。
〔DSP52の処理〕
次に、DSP52で行う処理内容について述べる。
DSP52で行われる主な処理は、マイクロフォン(以下、単にマイクと称する場合もある)の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、一つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、音声処理装置2を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。
本処理を正確に行うため、DSP52は、下記に例示する各種の信号処理を行う。
(a)マイク信号の帯域分離とピークホールド処理
(b)発言の開始、終了の判定処理
(c)発言者方向マイクの検出処理
(d)マイク信号の選択切替え処理
図4は、DSP52において実行される処理を示す機能ブロック図である。
図4に示すように、DSP52は、各マイク信号に対してBPF処理を行い、音圧レベルデータを生成するBPF5211〜5216からなるBPFブロック521と、BPF処理された各マイクの音圧レベルデータに対してPH処理を行い、後述するピーク値を生成するPH5221〜5226からなるPHブロック522と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部523と、を含んで構成される。
かかる構成を有するDSP52による上述した各信号処理(a)〜(d)について、以下に述べる。
(a)マイク信号の帯域分離とピ−クホールド処理
本処理は、図4に示すBPFブロック521及びPHブロック522によって行われる。
BPFブロック521の各BPF処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性(例えば、100〜600Hz)に基づいて行われる。
PH処理は、BPF処理された音圧レベルデータ(マイク信号)の最大値を保持(ピークホールド)する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記(b)〜(d)の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部523により実行される。
(b)発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、例えば、所定の閾値と音圧レベルを比較することにより、発言の開始/終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
DSP52は、例えば、マイクロフォンMC1の発言の開始を判定すると、マイクロフォンMC1に設定された出力ゲインを増加させる。逆に、マイクロフォンMC1の発言の終了を判定すると、マイクロフォンMC1に設定された出力ゲインを減少させる。
(c)発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい一つのマイクを選択する処理である。すなわち、1人の話者が発言を開始する場合には、一つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図4に示すように、各マイクを通して入力した音圧レベルデータに対して、バンドパス・フィルタ(BPF)処理及びピークホールド(PH)処理を行うことにより得られるピーク値である。
(d)マイク信号の選択切替え処理
本処理では、(c)発言者方向マイクの検出処理により選択されたマイクにDSP52の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。例えば、図5に示すように、マイク信号の選択切替え処理は、6回路の乗算器と6入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン(CH Gain)を「1」に、その他の乗算器のチャンネルゲインを「0」とすることにより、加算器には〔選択されたマイク信号×1〕と〔他のマイク信号×0〕の処理結果が加算される。
図3に示すように、DSP52から出力した選択マイク信号は、後段のCPU54に送られる。また、DSP52からは、どのマイクを選択したかを表すマイク選択情報がCPU54に送られる。
〔CPU54の処理〕
次に、CPU54で行う処理内容について述べる。
CPU54は、このDSP52から出力されたマイク信号(図3のA/D変換器511〜516によってサンプリング周波数8kHz,量子化ビット数8ビットでディジタル変換されている音声データ)に対して、メモリ55内のプログラムを実行することによって声紋の認証対象決定処理,声紋認証処理を順次リアルタイムに行う。
図6は、最初に実行する声紋の認証対象決定処理において一つの処理単位とする音声データを示す図である。声紋の認証対象決定処理では、その後に実行する声紋認証処理において声紋認証可能な単位時間(以下、声紋認証単位時間、または単にAPと称する)と同じ時間間隔(本実施形態では3秒間)の音声データを、一つの処理単位とする。
図7は、この単位時間(3秒)の音声データ毎にCPU54が実行する声紋の認証対象決定処理を示すフローチャートである。最初に、CPU54内のカウンターである有音カウンターY,無音カウンターM,有音連続カウンターYR,無音カウンターM,無音連続カウンターMRをそれぞれ0にリセットする(ステップS1)。
続いて、当該単位時間(3秒)内の最初のサンプリングタイミングのデータの値N(8ビット)を、所定の閾値(0に近い低い値)Aと比較する(ステップS2)。そして、その値Nが閾値Aよりも大きかったか否か(有音データであったか否か)を判断する(ステップS3)。
イエスであれば、有音カウンターYを1だけインクリメントする(ステップS4)。続いて、前回のサンプリングタイミングのデータについてもステップS3でイエスであったか否かを判断する(ステップS5)。
イエスであれば、有音連続カウンターYRを1だけインクリメントし(ステップS6)、ステップS10に進む。他方ノーであれば、ステップS5からそのままステップS10に進む。
ステップS3でノーであれば(無音データであれば)、無音カウンターMを1だけインクリメントする(ステップS7)。続いて、前回のサンプリングタイミングのデータについてもステップS3でノーであったか否かを判断する(ステップS8)。
イエスであれば、無音連続カウンターMRを1だけインクリメントし(ステップS9)、ステップS10に進む。他方ノーであれば、ステップS8からそのままステップS10に進む。
ステップS10では、当該単位時間内の最後のサンプリングタイミングのデータについてステップS3以下の処理を終えたか否かを判断する。ノーであれば、当該単位時間内の次のサンプリングタイミングのデータの値Nを前述の閾値Aと比較する(ステップS11)。そして、ステップS3に戻ってステップS3以下の処理を繰り返す。
ステップS10でイエスになると、有音カウンターYの現在のカウント値にサンプリング周期(‘1/8kHz’=‘0.000125’)を掛けた値である時間数が2秒以上であるか否かを判断する(ステップS12)。イエスであれば、DSP52からの当該単位時間の音声データを、声紋の認証対象とすることを決定する(ステップS15)。そして当該単位時間の音声データについての処理を終了する(その後、引き続き次の単位時間の音声データについてこの認証対象決定処理が開始される)。
ステップS12でノーであれば、有音連続カウンターYRの現在のカウント値にサンプリング周期(‘1/8kHz’=‘0.000125’)を掛けた値である時間数が2秒以上であるか否かを判断する(ステップS13)。イエスであれば、ステップS15に進む。他方、ノーであれば、無音連続カウンターMRの現在のカウント値にサンプリング周期(‘1/8kHz’=‘0.000125’)を掛けた値である時間数が1秒以上であるか否かを判断する(ステップS14)。
イエスであれば、DSP52からの当該単位時間の音声データを、声紋の認証対象としないことを決定する(ステップS16)。そして当該単位時間の音声データについての処理を終了する。他方、ノーであれば、ステップS15に進む。
この声紋の認証対象決定処理により、DSP52から出力されるマイク信号に対し、声紋認証処理における声紋認証単位時間(3秒間)の音声データ毎に、有音データ部分の時間の長さ,有音データが連続した時間の長さまたは無音データが連続した時間の長さに基いて、声紋認証の対象とするか否かが決定される。
なお、図8は、会議参加者の発話に基く声紋認証単位時間(3秒間)の音声データ内の、想定される有音データ,無音データの分布パターン(パターン1〜パターン8)を例示する図である。それ以外のパターンも考えられるが、大きく分類すると、この8パターンに集約されると考えられる。
CPU54は、このようにして声紋認証単位時間の音声データ毎に声紋認証の対象とするか否かを決定した後、声紋認証の対象とすることを決定した声紋認証単位時間の音声データに対してのみ、声紋認証処理を行う。
次に、この声紋認証処理について説明する。声紋認証技術としては、すでに公知の技術を用いることが可能である。声紋認証単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、CPU54の処理能力が許せば、極力短い時間が望ましい。
図3のメモリ55には、認証対象の複数のユーザ(会議参加予定者)の音声データに基づいて、CPU54がそれぞれ生成した声紋モデルが予め登録されている。すなわち、メモリ55には、会議参加予定者のユーザIDと声紋モデルが相互に関連付けられて記憶されている。
CPU54は、以下の(1)〜(3)の処理を行うことで発話者を特定する。
(1)声紋モデルの生成
DSP52から出力された音声データのうち、図7の認証対象決定処理によって声紋認証の対象とすることを決定した各声紋認証単位時間(3秒間)の音声データをスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
上記(1)の処理で生成した声紋モデルと、予めメモリ55に登録された声紋モデルとを比較/照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応するユーザIDを特定する。
(3)照合スコアと閾値との比較
上記(2)の処理で算出した照合スコアSCRを、閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、上記(2)の処理で特定したユーザIDを有効なものと判断し、図3に示すV_IDとして出力する。
図9は、上述した声紋認証処理による処理結果を例示する図である。なお、前述のように、声紋認証処理は、図7の認証対象決定処理によって声紋認証の対象とすることを決定した声紋認証単位時間(3秒間)の音声データについてのみ行われるので、時系列上ではとびとびに(3秒間またはその複数倍の時間をあけて)行われることがあり得るが、図9では、連続したタイミングチャートとして(連続する複数の声紋認証単位時間AP1〜AP7の音声データがそれぞれ声紋認証の対象として決定されたものとして)表している。
図9(a)は音声データの波形を示しており、図9(b)は照合スコアSCRを示している。照合スコアSCRは、例えば声紋モデルの近似度合いに応じて−3.0〜+5.0の範囲の値をとるが、仮に閾値THDを−1.0とした場合には、声紋認証単位時間AP1,AP2,AP4,AP7のときに、いずれも閾値THD以上の値の照合スコアSCRを算出しているので、声紋認証単位時間AP1,AP2,AP4,AP7のときに特定したユーザIDを有効なものとして出力する。
なお、例えば会議参加者のうちの一部の者だけに発言が許可されており、その一部の者のユーザIDに関する情報がメモリ55に記憶されているような場合には、CPU54は、声紋認証処理によって特定したユーザIDがこの発言を許可された一部の者のユーザIDに該当しないときに、DSP52からの選択マイク信号をDSP53に送出しない(したがって、発言を許可されていない者の音声を相手方会議室に送らない)ようにすることができる。
また、前述のように、CPU54には、DSP52から、どのマイクを選択したかを表すマイク選択情報が送られるので、このマイク選択情報に基づいて、さらに認証精度を向上させることもできる。
すなわち、マイク番号とユーザIDとが対応付けられたデータが予めメモリ55に格納されていれば、CPU54は、マイク選択情報と、マイク番号に対応付けられたユーザIDを照合することにより、ユーザIDを特定することができる。
例えば、このマイク選択情報に基づいて特定したユーザIDと、声紋認証処理によって特定したユーザIDとを比較して、一致した場合にのみ、正しいユーザIDを特定したものとしてその後の処理を行うことができる。
あるいはまた、マイク選択情報に基づいて特定したユーザIDと、声紋認証処理によって特定したユーザIDとが一致しない場合は、声紋認証処理にの精度がより高いと判断して、声紋認証処理によって特定したユーザIDに基いてその後の処理を行うこともできる。
以上のように、この音声処理装置2では、DSP52で選択された主たる話者に係るマイクからの全ての音声データを対象として声紋認証単位時間毎に声紋認証を行うのではなく、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に、その声紋認証単位時間についての有音データ・無音データの集計結果に基いて決定して、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみ声紋認証を行う。
これにより、例えば一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間のような、有音データの割合が少ない(無音データの割合が多い)声紋認証単位時間の音声データを声紋認証の対象から除外することができるので、声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われたような場合にも、誤認証率を下げて発話者特定の精度を高めることができる。
したがって、例えば会議中にCPU54のリアルタイムな声紋認証結果に基いて何らかの操作(例えば現在発言中の会議出席者にカメラを向ける操作)を行うような場合に、誤認証によってその操作を誤る(例えば発言中でない者にカメラが向けられる)可能性が減少する。
また、音声処理装置2では会議中にリアルタイムに声紋認証を行っているが、例えば、会議中に録音した音声データに対して声紋認証を行って自動的に会議出席者別の議事録を作成するような場合にも、誤認証によって作成後の議事録の編集作業(誤って本人以外の出席者の発言とされた内容を、本人の発言として修正する作業)に多くの時間を費やさなければならなくなるような事態が生じる可能性が減少する。
なお、以上の例では、図3に示したように、声紋の認証対象決定処理及び声紋認証処理を実行するCPU54を、音声処理装置2内の一構成要素としている。しかし、別の例として、図10に示すように、図3の音声処理装置2のDSP52までの部分を1つの装置(音声入力装置60)として構成し(DSP52の後段にはD/A変換器61を設け)、図2のCPU54,メモリ55を、この音声入力装置60とは別の装置(声紋認証装置62)とし構成する(CPU54の前段には、D/A変換器61でアナログ変換されたマイク信号をディジタル変換するA/D変換器63)を設けるようにしてもよい。(図9では図3のCPU54よりも右側の部分とD/A変換器551,増幅器561及びスピーカ57とは図示を省略している。)
この図10の例の場合には、CPU54は、A/D変換器63のサンプリング周期におけるサンプリングタイミングのデータについて図7の認証対象決定処理を実行することになる。
この図10の例において、声紋認証装置62としては、例えばパーソナルコンピュータを用いてもよい。その場合には、声紋の認証対象決定処理や声紋認証処理のアプリケーションソフトウェアを、例えばCD−ROM等の記録媒体として提供してパーソナルコンピュータにインストールさせたり、あるいはまたWebサイトからダウンロードさせてパーソナルコンピュータにインストールさせるようにすればよい。
本発明の音声処理装置の適用例を示す図である。 本発明の音声処理装置の外観構成例を示す図である。 本発明の音声処理装置の回路構成例を示すブロック図である。 図3のDSP52の機能ブロック図である。 DSP52のマイク信号選択切替え処理を示す機能ブロック図である。 声紋の認証対象決定処理において一つの処理単位とする音声データを示す図である。 声紋の認証対象決定処理の処理内容を示すフローチャートである。 声紋認証単位時間の音声データ内の有音データ,無音データの分布パターンを例示する図である。 声紋認証処理による処理結果を例示する図である。 本発明の音声処理装置の変更例を示すブロック図である。
符号の説明
2 音声処理装置、 11 マイクロフォン収容部、 12 スピーカ収容部、 13 操作部、 511〜516 A/D変換器、 52,53 DSP、 54 CPU、 55 メモリ、 57 スピーカ

Claims (8)

  1. 複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
    所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
    前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
    前記集計手段の集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する決定手段と、
    前記入力音声データのうち、前記決定手段で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、前記記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段と
    を備えたことを特徴とする音声処理装置。
  2. 請求項1に記載の音声処理装置において、
    前記集計手段は、前記分類手段で有音データに分類されたデータの数を計数する第1の計数手段を含み、
    前記決定手段は、前記第1の計数手段の計数値が一定以上である場合には、声紋認証の対象とすることを決定することを特徴とする音声処理装置。
  3. 請求項1に記載の音声処理装置において、
    前記集計手段は、連続する複数のサンプリングタイミングに亘るデータが前記分類手段で有音データに分類された場合に、該連続した回数を計数する第2の計数手段を含み、
    前記決定手段は、前記第2の計数手段の計数値が一定以上である場合には、声紋認証の対象とすることを決定することを特徴とする音声処理装置。
  4. 請求項1に記載の音声処理装置において、
    前記集計手段は、連続する複数のサンプリングタイミングに亘るデータが前記分類手段で無音データに分類された場合に、該連続した回数を計数する第3の計数手段を含み、
    前記決定手段は、前記第3の計数手段の計数値が一定以上である場合には、声紋認証の対象としないことを決定することを特徴とする音声処理装置。
  5. それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
    前記複数のマイクロフォンからの音声データをそれぞれ所定のサンプリング周期でサンプリングするサンプリング手段と、
    前記サンプリング手段でサンプリングされた前記複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、
    複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
    前記マイクロフォン選択手段で選択された音声データを、前記サンプリング手段での各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
    前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
    前記集計手段の集計結果に基き、前記マイクロフォン選択手段で選択された音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する決定手段と、
    前記マイクロフォン選択手段で選択された音声データのうち、前記決定手段で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、前記記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段と
    を備えたことを特徴とする音声処理装置。
  6. 所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第1のステップと、
    前記サンプリング周期よりも長い所定の時間間隔を単位として、前記第1のステップでの分類結果を集計する第2のステップと、
    前記第2のステップでの集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する第3のステップと、
    前記入力音声データのうち、前記第3のステップで声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第4のステップと
    を有することを特徴とする音声処理方法。
  7. コンピュータに、
    所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第1の手順と、
    前記サンプリング周期よりも長い所定の時間間隔を単位として、前記第1の手順での分類結果を集計する第2の手順と、
    前記第2の手順での集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する第3の手順と、
    前記入力音声データのうち、前記第3の手順で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第4の手順と
    を実行させるプログラム。
  8. コンピュータに、
    所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第1の手順と、
    前記サンプリング周期よりも長い所定の時間間隔を単位として、前記第1の手順での分類結果を集計する第2の手順と、
    前記第2の手順での集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する第3の手順と、
    前記入力音声データのうち、前記第3の手順で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第4の手順と
    を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004346853A 2004-11-30 2004-11-30 音声処理装置,音声処理方法,プログラム及び記録媒体 Pending JP2006154484A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004346853A JP2006154484A (ja) 2004-11-30 2004-11-30 音声処理装置,音声処理方法,プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004346853A JP2006154484A (ja) 2004-11-30 2004-11-30 音声処理装置,音声処理方法,プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2006154484A true JP2006154484A (ja) 2006-06-15

Family

ID=36632860

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004346853A Pending JP2006154484A (ja) 2004-11-30 2004-11-30 音声処理装置,音声処理方法,プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2006154484A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033919A1 (ja) * 2012-08-31 2014-03-06 Necカシオモバイルコミュニケーションズ株式会社 アクセス許可システム及びアクセス許可判定方法
JP2016053598A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋登録方法およびプログラム
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム
CN108154588A (zh) * 2017-12-29 2018-06-12 深圳市艾特智能科技有限公司 解锁方法、系统、可读存储介质及智能设备
CN112233662A (zh) * 2019-06-28 2021-01-15 百度在线网络技术(北京)有限公司 音频分析方法、装置、计算设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033919A1 (ja) * 2012-08-31 2014-03-06 Necカシオモバイルコミュニケーションズ株式会社 アクセス許可システム及びアクセス許可判定方法
JP2016053598A (ja) * 2014-09-02 2016-04-14 株式会社Kddiテクノロジー 通話装置、声紋登録方法およびプログラム
JP2016197200A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 不正音声入力判定装置、音声信号処理装置、方法及びプログラム
CN108154588A (zh) * 2017-12-29 2018-06-12 深圳市艾特智能科技有限公司 解锁方法、系统、可读存储介质及智能设备
CN112233662A (zh) * 2019-06-28 2021-01-15 百度在线网络技术(北京)有限公司 音频分析方法、装置、计算设备和存储介质

Similar Documents

Publication Publication Date Title
JP4085924B2 (ja) 音声処理装置
CN103578470B (zh) 一种电话录音数据的处理方法及系统
JP5607627B2 (ja) 信号処理装置及び信号処理方法
EP3963574A1 (en) Customized output to optimize for user preference in a distributed system
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
WO2012154798A1 (en) Speaker liveness detection
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
KR20160108874A (ko) 대화록 자동 생성 방법 및 장치
US11468895B2 (en) Distributed device meeting initiation
CN113921026A (zh) 语音增强方法和装置
JP2006154484A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
Yaguchi et al. Replay attack detection using generalized cross-correlation of stereo signal
JP2005055667A (ja) 音声処理装置
JP2006171226A (ja) 音声処理装置
JP2005055666A (ja) 音声処理装置
JP4507905B2 (ja) 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体
JP2005338454A (ja) 音声対話装置
Ryoya et al. Improving replay attack detection by combination of spatial and spectral features
JP2005181391A (ja) 音声処理装置および音声処理方法
JPH04324499A (ja) 音声認識装置
JP2002101203A (ja) 音声処理システム、音声処理方法およびその方法を記憶した記憶媒体
JP2010164992A (ja) 音声対話装置
JP2006162694A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
JP2005326576A (ja) 音声処理装置