JP2006154484A

JP2006154484A - 音声処理装置，音声処理方法，プログラム及び記録媒体

Info

Publication number: JP2006154484A
Application number: JP2004346853A
Authority: JP
Inventors: Akira Masuda; 彰増田; Masafumi Nagai; 雅文永易
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-11-30
Filing date: 2004-11-30
Publication date: 2006-06-15

Abstract

【課題】所定の時間間隔を単位時間として声紋認証を行う際に、この声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われて残りの時間には発話が行われなかったような場合にも、誤認証率を下げて発話者特定の精度を高める。
【解決手段】所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類し、このサンプリング周期よりも長い所定の時間間隔（声紋認証単位時間）を単位として、この分類結果を集計する（Ｓ２〜Ｓ１１）。その集計結果に基き、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に決定する（Ｓ１２〜Ｓ１６）。そして、入力音声データのうち、この声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみそれぞれ声紋認証を行う。
【選択図】図７

Description

本発明は、音声に基づいて声紋認証技術により発話者を特定する音声処理装置，音声処理方法等に関する。

従来より、音声に基づいて当該音声に係る発話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、例えば、銀行のコールセンター等に適用されている。

一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、及び身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で発話者を特定することが可能となる。例えば、発話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも発話者特定の認証精度が高い。

具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデルが予め登録される。

従来の声紋認証エンジンは、以下の処理を行うことで発話者を特定する。
（１）声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
（２）声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較照合し、モデルの特徴量が近似する度合いに応じた照合値（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する発話者を特定する。

本特許出願の出願時には未公開であるが、従来、こうした声紋認証エンジンに関する技術としては、次の（ａ）及び（ｂ）の処理を行うものが提案されていた（出願番号特願２００４−１４３９５２号の特許出願）。
（ａ）入力する全ての音声データから、所定の時間間隔（例えば３秒間）の声紋認証単位時間毎に声紋モデルを生成する。そして、それらの声紋モデルと、声紋レジスタに登録された声紋モデルとを比較照合し、照合値が閾値を超える場合に、最も照合値が高い声紋データに対応する発話者を特定する。
（ｂ）入力する音声データの強さ（例えば音声データの振幅の自乗平均値）を声紋認証単位時間毎に算出し、この算出した値が小さい場合には、上記閾値を下げることによって有効な照合値（閾値を超える照合値）の範囲を広げる。そして、音声データを増幅して再度声紋照合処理を行う。

これは、例えば会議中の会話のような自然な会話による音声からリアルタイムに声紋認証を行う場合に、発話者の声が小さい場合にも適切に声紋認証を行って発話者を特定できるようにすることを目的としたものである。

ところで、会議中の会話のような自然な会話時には、声紋認証単位時間（前述の例では３秒間）の間じゅう継続して小さな声で発話が行われる場合だけでなく、声紋認証単位時間のうちの一部の時間（例えば１秒間未満）だけ大きな声で発話が行われて残りの時間には発話が行われない場合もある。

前述した従来の技術では、このように一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間についても、上記（ｂ）の処理で小さな値が算出されて照合値が有効とされるので、却って誤認証を生じ、発話者特定の精度が低くなることがあった。

例えば、会議中に録音した音声データに対して声紋認証を行って自動的に会議出席者別の議事録を作成するような場合には、こうした誤認証があると、作成後の議事録の編集作業（誤って本人以外の出席者の発言とされた内容を、本人の発言として修正する作業）に多くの時間を費やさなければならなくなるので、効率が非常に悪くなってしまう。

また、例えば会議中にリアルタイムに声紋認証を行って発話者を特定し、その結果に従って何らかの操作（例えば現在発言中の会議出席者にカメラを向ける操作）を行うような場合には、こうした誤認証があると、その操作を誤る（例えば発言中でない者にカメラが向けられる）ことになってしまう。

本発明は、上述の点に鑑み、所定の時間間隔を単位時間として声紋認証を行う際に、この声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われて残りの時間には発話が行われなかったような場合にも、誤認証率を下げて発話者特定の精度を高めることを課題としてなされたものである。

この課題を解決するために、本発明に係る第１の音声処理装置は、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、このサンプリング周期よりも長い所定の時間間隔を単位として、この分類手段の分類結果を集計する集計手段と、この集計手段の集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する決定手段と、入力音声データのうち、この決定手段で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、この記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段とを備えたことを特徴とする。

一例として、この集計手段は、この分類手段で有音データに分類されたデータの数を計数する第１の計数手段を含み、この決定手段は、この第１の計数手段の計数値が一定以上である場合には、声紋認証の対象とするように決定するのが好適である。

また、この集計手段は、連続する複数のサンプリングタイミングに亘るデータがこの分類手段で有音データに分類された場合に、その連続した回数を計数する第２の計数手段を含み、この決定手段は、この第２の計数手段の計数値が一定以上である場合には、声紋認証の対象とするように決定するのが好適である。

また、この集計手段は、連続する複数のサンプリングタイミングに亘るデータがこの分類手段で無音データに分類された場合に、その連続した回数を計数する第３の計数手段を含み、この決定手段は、この第３の計数手段の計数値が一定以上である場合には、声紋認証の対象としないように決定するのが好適である。

また、本発明に係る第２の音声処理装置は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、これらの複数のマイクロフォンからの音声データをそれぞれ所定のサンプリング周期でサンプリングするサンプリング手段と、このサンプリング手段でサンプリングされたこれらの複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、複数の声紋データを発話者データと関連付けて記憶する記憶手段と、このマイクロフォン選択手段で選択された音声データを、このサンプリング手段での各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、このサンプリング周期よりも長い所定の時間間隔を単位として、この分類手段の分類結果を集計する集計手段と、この集計手段の集計結果に基き、このマイクロフォン選択手段で選択された音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する決定手段と、このマイクロフォン選択手段で選択された音声データのうち、この決定手段で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、この記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段とを備えたことを特徴とする。

また、本発明に係る音声処理方法は、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第１のステップと、このサンプリング周期よりも長い所定の時間間隔を単位として、第１のステップでの分類結果を集計する第２のステップと、第２のステップでの集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する第３のステップと、入力音声データのうち、第３のステップで声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第４のステップとを有することを特徴とする。

また、本発明に係るプログラムは、コンピュータに、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第１の手順と、このサンプリング周期よりも長い所定の時間間隔を単位として、第１の手順での分類結果を集計する第２の手順と、第２の手順での集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する第３の手順と、入力音声データのうち、第３の手順で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第４の手順とを実行させることを特徴とする。

また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータに、所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第１の手順と、このサンプリング周期よりも長い所定の時間間隔を単位として、第１の手順での分類結果を集計する第２の手順と、第２の手順での集計結果に基き、入力音声データを声紋認証の対象とするか否かを、この時間間隔分の音声データ毎に決定する第３の手順と、入力音声データのうち、第３の手順で声紋認証の対象とすることが決定された各々のこの時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第４の手順とを実行させるプログラムを記録したことを特徴とする。

本発明では、所定のサンプリング周期でサンプリングされた入力音声データ（第２の音声処理装置では、複数のマイクロフォンのうちマイクロフォン選択手段で選択された一つのマイクロフォンからの音声データ）を、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する。

そして、このサンプリング周期よりも長い所定の時間間隔（後述する声紋認証単位時間）を単位としてこの分類結果を集計し、その集計結果に基き、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に決定する。

そして、入力音声データのうち、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することにより、声紋認証を行って発話者を特定する。

このように、本発明によれば、入力する全ての音声データを対象として声紋認証単位時間毎に声紋認証を行うのではなく、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に、その声紋認証単位時間についての有音データ・無音データの集計結果に基いて決定して、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみ声紋認証を行う。

これにより、例えば一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間のような、有音データの割合が少ない（無音データの割合が多い）声紋認証単位時間の音声データを声紋認証の対象から除外することができるので、声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われたような場合にも、誤認証率を下げて発話者特定の精度を高めることができる。

本発明によれば、所定の時間間隔を単位時間として声紋認証を行う際に、この声紋認証単位時間のうちの一部の時間だけ大きな声で発話が行われて残りの時間には発話が行われなかったような場合にも、誤認証率を下げて発話者特定の精度を高めることができるという効果が得られる。

以下、会議用の音声処理装置に本発明を適用した例について、図面を用いて具体的に説明する。この音声処理装置は、それぞれ複数の会議参加者が存在し、遠隔に位置する２つの会議室間において、双方向の通話を可能とする通話装置である。この通話装置の一部に、本発明に係る声紋認証処理技術が適用される。以下、先ず、この音声処理装置が適用される用途について述べる。

図１は、この音声処理装置が適用される一例を示す図である。図１（ａ）に示すように、遠隔に位置する２つの会議室９０１，９０２にそれぞれ音声処理装置２（会議室９０１については２Ａ，会議室９０２については２Ｂと表記するが、同一の構成である）が設置されており、これらの音声処理装置２Ａ，２Ｂが電話回線９２０で接続されている。

図１（ｂ）に示すように、会議室９０１において、音声処理装置２Ａがテーブル９１１の中央に置かれている。図示は省略するが、会議室９０２においても、同様にして、音声処理装置２Ｂがテーブルに置かれている。

図１（ｂ）及び（ｃ）に示すように、音声処理装置２Ａが置かれたテーブル９１１の周囲に、複数（本実施形態においては６名）の会議参加者Ａ１〜Ａ６がほぼ等間隔に着席している。図示は省略するが、会議室９０２においても、同様にして、音声処理装置２Ｂが置かれたテーブルの周囲に複数の会議参加者が着席している。

音声処理装置２によれば、２つの会議室９０１，９０２の間で、電話回線９２０を介して音声による通話が可能である。また、電話回線９２０を介しての会話は、通常、１人の話者と１人の話者同士、すなわち１対１で通話を行うが、音声処理装置２によれば、一つの電話回線９２０を用いて複数の会議参加者Ａ１〜Ａ６同士の通話が可能である。
以下、かかる音声処理装置２の構成について述べる。

〔音声処理装置２の構成〕
図２は、音声処理装置２の外観構成の一例を示す図であり、図２（ａ）は斜視図、図２（ｂ）は図２（ａ）のマイクロフォン収容部１１の内部の上面図である。

音声処理装置２は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図２（ａ）に示すように、マイクロフォンを収容するためのマイクロフォン収容部１１と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部１２と、操作部１３とを含んでいる。

図２（ｂ）に示すように、マイクロフォン収容部１１の内部には、６本のマイクロフォンＭＣ１〜ＭＣ６が全方位に均等に配置されている。各マイクロフォンは、単一指向性を持つマイクロフォンである。

スピーカ収容部１２に収容されるスピーカは、収容筐体の中心に位置しており、スピーカからの音声が各マイクロフォンＭＣ１〜ＭＣ６に対してほぼ同音量・同位相で届くように構成されている。

会議参加者Ａ１〜Ａ６は、通常、図１（ｃ）に例示したように、音声処理装置２の周囲３６０度方向に、６０度間隔で配設されているマイクロフォンＭＣ１〜ＭＣ６の近傍にほぼ等間隔で位置している。

図３は、音声処理装置２の回路構成の一例を示すブロック図である。音声処理装置２は、ＣＰＵ５４と、本発明のマイクロフォン選択手段としてのＤＳＰ５２と、ＤＳＰ５３と、Ａ／Ｄ変換器ブロック５１と、Ａ／Ｄ変換器５１７と、Ｄ／Ａ変換器５５１，５５２と、増幅器５６１，５６２と、スピーカ５７とを含んでいる。図３においては、Ａ／Ｄ変換器ブロック５１の一例として、各マイクロフォンに対応する６個のＡ／Ｄ変換器５１１〜５１６を示している。各Ａ／Ｄ変換器５１１〜５１６は、一例として、サンプリング周波数が８ｋＨｚであり、量子化ビット数が８ビットである。また、図示は省略するが、音声処理装置２は、相手方会議室に送信する音声を圧縮符号化するためのコーデック等も含んでいる。

これらの回路が実装された基板が、例えば、図２（ａ）に示すマイクロフォン収容部１１の内部に設置されている。

ＣＰＵ５４は、音声処理装置２の全体制御処理を行うとともに、後述するような声紋の認証対象決定処理及び声紋認証処理を行う。

ＤＳＰ５２は、Ａ／Ｄ変換器５１１〜５１６によりディジタル信号に変換された６本のマイクロフォンＭＣ１〜ＭＣ６からの音声信号に基づいて、一つのマイクロフォンの音声信号を選択する処理（マイクロフォン選択処理）等の各種の信号処理を行う。ＤＳＰ５２の内部処理については後述する。

ＤＳＰ５３は、エコーキャンセラーとして機能する。すなわち、Ａ／Ｄ変換器５１７を介して入力した相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、ＤＳＰ５２及びＣＰＵ５４を介して入力した音声信号から減じる処理を行うことにより、エコー消去処理を行う。

ＤＳＰ５３の処理結果は、Ｄ／Ａ変換器５５１，５５２によりアナログ信号に変換されて出力される。Ｄ／Ａ変換器５５２からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器５６２を介して電話回線９２０（図１（ａ））のラインアウト(LINE OUT)に出力され、相手方会議室に設置された通話装置のスピーカを介して、音として出力される。

相手方の会議室に設置された音声処理装置２からの音声は、電話回線９２０（図１（ａ））のラインイン(LINE IN) を介して入力され、Ａ／Ｄ変換器５１７においてディジタル信号に変換され、ＤＳＰ５３に入力されてエコーキャンセル処理に使用されるとともに、Ｄ／Ａ変換器５５１及び増幅器５６１を介し、スピーカ５７から音として出力される。

一方、ＤＳＰ５２により選択されたマイクロフォンの音声信号も、ＣＰＵ５４及びＤＳＰ５３を介してスピーカ５７から音として出力される。
すなわち、図１（ｃ）に示す会議参加者Ａ１〜Ａ６は、上述したスピーカ５７を通して、相手会議室に配置された通話装置により選択された話者の音声に加えて、その会議室にいる発言者が発した音声をもスピーカ５７を介して聞くことができる。

音声処理装置２に内蔵された６本のマイクロフォンＭＣ１〜ＭＣ６は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのＳ／Ｎが混同してあまり良い音が集音できない。これを避けるために、音声処理装置２では、指向性マイクロフォンで集音することにより、周辺のノイズとのＳ／Ｎを改善している。

〔ＤＳＰ５２の処理〕
次に、ＤＳＰ５２で行う処理内容について述べる。
ＤＳＰ５２で行われる主な処理は、マイクロフォン（以下、単にマイクと称する場合もある）の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、一つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、音声処理装置２を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。

本処理を正確に行うため、ＤＳＰ５２は、下記に例示する各種の信号処理を行う。
（ａ）マイク信号の帯域分離とピークホールド処理
（ｂ）発言の開始、終了の判定処理
（ｃ）発言者方向マイクの検出処理
（ｄ）マイク信号の選択切替え処理

図４は、ＤＳＰ５２において実行される処理を示す機能ブロック図である。
図４に示すように、ＤＳＰ５２は、各マイク信号に対してＢＰＦ処理を行い、音圧レベルデータを生成するＢＰＦ５２１１〜５２１６からなるＢＰＦブロック５２１と、ＢＰＦ処理された各マイクの音圧レベルデータに対してＰＨ処理を行い、後述するピーク値を生成するＰＨ５２２１〜５２２６からなるＰＨブロック５２２と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部５２３と、を含んで構成される。

かかる構成を有するＤＳＰ５２による上述した各信号処理（ａ）〜（ｄ）について、以下に述べる。
（ａ）マイク信号の帯域分離とピ−クホールド処理
本処理は、図４に示すＢＰＦブロック５２１及びＰＨブロック５２２によって行われる。
ＢＰＦブロック５２１の各ＢＰＦ処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性（例えば、１００〜６００Ｈｚ）に基づいて行われる。
ＰＨ処理は、ＢＰＦ処理された音圧レベルデータ（マイク信号）の最大値を保持（ピークホールド）する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記（ｂ）〜（ｄ）の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部５２３により実行される。

（ｂ）発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、例えば、所定の閾値と音圧レベルを比較することにより、発言の開始／終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
ＤＳＰ５２は、例えば、マイクロフォンＭＣ１の発言の開始を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを増加させる。逆に、マイクロフォンＭＣ１の発言の終了を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを減少させる。

（ｃ）発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい一つのマイクを選択する処理である。すなわち、１人の話者が発言を開始する場合には、一つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図４に示すように、各マイクを通して入力した音圧レベルデータに対して、バンドパス・フィルタ（ＢＰＦ）処理及びピークホールド（ＰＨ）処理を行うことにより得られるピーク値である。

（ｄ）マイク信号の選択切替え処理
本処理では、（ｃ）発言者方向マイクの検出処理により選択されたマイクにＤＳＰ５２の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。例えば、図５に示すように、マイク信号の選択切替え処理は、６回路の乗算器と６入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン（CH Gain)を「１」に、その他の乗算器のチャンネルゲインを「０」とすることにより、加算器には〔選択されたマイク信号×１〕と〔他のマイク信号×０〕の処理結果が加算される。

図３に示すように、ＤＳＰ５２から出力した選択マイク信号は、後段のＣＰＵ５４に送られる。また、ＤＳＰ５２からは、どのマイクを選択したかを表すマイク選択情報がＣＰＵ５４に送られる。

〔ＣＰＵ５４の処理〕
次に、ＣＰＵ５４で行う処理内容について述べる。
ＣＰＵ５４は、このＤＳＰ５２から出力されたマイク信号（図３のＡ／Ｄ変換器５１１〜５１６によってサンプリング周波数８ｋＨｚ，量子化ビット数８ビットでディジタル変換されている音声データ）に対して、メモリ５５内のプログラムを実行することによって声紋の認証対象決定処理，声紋認証処理を順次リアルタイムに行う。

図６は、最初に実行する声紋の認証対象決定処理において一つの処理単位とする音声データを示す図である。声紋の認証対象決定処理では、その後に実行する声紋認証処理において声紋認証可能な単位時間（以下、声紋認証単位時間、または単にＡＰと称する）と同じ時間間隔（本実施形態では３秒間）の音声データを、一つの処理単位とする。

図７は、この単位時間（３秒）の音声データ毎にＣＰＵ５４が実行する声紋の認証対象決定処理を示すフローチャートである。最初に、ＣＰＵ５４内のカウンターである有音カウンターＹ，無音カウンターＭ，有音連続カウンターＹＲ，無音カウンターＭ，無音連続カウンターＭＲをそれぞれ０にリセットする（ステップＳ１）。

続いて、当該単位時間（３秒）内の最初のサンプリングタイミングのデータの値Ｎ（８ビット）を、所定の閾値（０に近い低い値）Ａと比較する（ステップＳ２）。そして、その値Ｎが閾値Ａよりも大きかったか否か（有音データであったか否か）を判断する（ステップＳ３）。

イエスであれば、有音カウンターＹを１だけインクリメントする（ステップＳ４）。続いて、前回のサンプリングタイミングのデータについてもステップＳ３でイエスであったか否かを判断する（ステップＳ５）。

イエスであれば、有音連続カウンターＹＲを１だけインクリメントし（ステップＳ６）、ステップＳ１０に進む。他方ノーであれば、ステップＳ５からそのままステップＳ１０に進む。

ステップＳ３でノーであれば（無音データであれば）、無音カウンターＭを１だけインクリメントする（ステップＳ７）。続いて、前回のサンプリングタイミングのデータについてもステップＳ３でノーであったか否かを判断する（ステップＳ８）。

イエスであれば、無音連続カウンターＭＲを１だけインクリメントし（ステップＳ９）、ステップＳ１０に進む。他方ノーであれば、ステップＳ８からそのままステップＳ１０に進む。

ステップＳ１０では、当該単位時間内の最後のサンプリングタイミングのデータについてステップＳ３以下の処理を終えたか否かを判断する。ノーであれば、当該単位時間内の次のサンプリングタイミングのデータの値Ｎを前述の閾値Ａと比較する（ステップＳ１１）。そして、ステップＳ３に戻ってステップＳ３以下の処理を繰り返す。

ステップＳ１０でイエスになると、有音カウンターＹの現在のカウント値にサンプリング周期（‘１／８ｋＨｚ’＝‘０．０００１２５’）を掛けた値である時間数が２秒以上であるか否かを判断する（ステップＳ１２）。イエスであれば、ＤＳＰ５２からの当該単位時間の音声データを、声紋の認証対象とすることを決定する（ステップＳ１５）。そして当該単位時間の音声データについての処理を終了する（その後、引き続き次の単位時間の音声データについてこの認証対象決定処理が開始される）。

ステップＳ１２でノーであれば、有音連続カウンターＹＲの現在のカウント値にサンプリング周期（‘１／８ｋＨｚ’＝‘０．０００１２５’）を掛けた値である時間数が２秒以上であるか否かを判断する（ステップＳ１３）。イエスであれば、ステップＳ１５に進む。他方、ノーであれば、無音連続カウンターＭＲの現在のカウント値にサンプリング周期（‘１／８ｋＨｚ’＝‘０．０００１２５’）を掛けた値である時間数が１秒以上であるか否かを判断する（ステップＳ１４）。

イエスであれば、ＤＳＰ５２からの当該単位時間の音声データを、声紋の認証対象としないことを決定する（ステップＳ１６）。そして当該単位時間の音声データについての処理を終了する。他方、ノーであれば、ステップＳ１５に進む。

この声紋の認証対象決定処理により、ＤＳＰ５２から出力されるマイク信号に対し、声紋認証処理における声紋認証単位時間（３秒間）の音声データ毎に、有音データ部分の時間の長さ，有音データが連続した時間の長さまたは無音データが連続した時間の長さに基いて、声紋認証の対象とするか否かが決定される。

なお、図８は、会議参加者の発話に基く声紋認証単位時間（３秒間）の音声データ内の、想定される有音データ，無音データの分布パターン（パターン１〜パターン８）を例示する図である。それ以外のパターンも考えられるが、大きく分類すると、この８パターンに集約されると考えられる。

ＣＰＵ５４は、このようにして声紋認証単位時間の音声データ毎に声紋認証の対象とするか否かを決定した後、声紋認証の対象とすることを決定した声紋認証単位時間の音声データに対してのみ、声紋認証処理を行う。

次に、この声紋認証処理について説明する。声紋認証技術としては、すでに公知の技術を用いることが可能である。声紋認証単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、ＣＰＵ５４の処理能力が許せば、極力短い時間が望ましい。

図３のメモリ５５には、認証対象の複数のユーザ（会議参加予定者）の音声データに基づいて、ＣＰＵ５４がそれぞれ生成した声紋モデルが予め登録されている。すなわち、メモリ５５には、会議参加予定者のユーザＩＤと声紋モデルが相互に関連付けられて記憶されている。

ＣＰＵ５４は、以下の（１）〜（３）の処理を行うことで発話者を特定する。
（１）声紋モデルの生成
ＤＳＰ５２から出力された音声データのうち、図７の認証対象決定処理によって声紋認証の対象とすることを決定した各声紋認証単位時間（３秒間）の音声データをスペクトル分析し、声紋の特徴を抽出することで、声紋モデルを作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。

（２）声紋モデルの照合
上記（１）の処理で生成した声紋モデルと、予めメモリ５５に登録された声紋モデルとを比較／照合し、モデルの特徴量が近似する度合いに応じた照合スコアＳＣＲ（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応するユーザＩＤを特定する。

（３）照合スコアと閾値との比較
上記（２）の処理で算出した照合スコアＳＣＲを、閾値ＴＨＤと比較し、照合スコアＳＣＲが閾値ＴＨＤを越える場合には、上記（２）の処理で特定したユーザＩＤを有効なものと判断し、図３に示すＶ＿ＩＤとして出力する。

図９は、上述した声紋認証処理による処理結果を例示する図である。なお、前述のように、声紋認証処理は、図７の認証対象決定処理によって声紋認証の対象とすることを決定した声紋認証単位時間（３秒間）の音声データについてのみ行われるので、時系列上ではとびとびに（３秒間またはその複数倍の時間をあけて）行われることがあり得るが、図９では、連続したタイミングチャートとして（連続する複数の声紋認証単位時間ＡＰ１〜ＡＰ７の音声データがそれぞれ声紋認証の対象として決定されたものとして）表している。

図９（ａ）は音声データの波形を示しており、図９（ｂ）は照合スコアＳＣＲを示している。照合スコアＳＣＲは、例えば声紋モデルの近似度合いに応じて−３．０〜＋５．０の範囲の値をとるが、仮に閾値ＴＨＤを−１．０とした場合には、声紋認証単位時間ＡＰ１，ＡＰ２，ＡＰ４，ＡＰ７のときに、いずれも閾値ＴＨＤ以上の値の照合スコアＳＣＲを算出しているので、声紋認証単位時間ＡＰ１，ＡＰ２，ＡＰ４，ＡＰ７のときに特定したユーザＩＤを有効なものとして出力する。

なお、例えば会議参加者のうちの一部の者だけに発言が許可されており、その一部の者のユーザＩＤに関する情報がメモリ５５に記憶されているような場合には、ＣＰＵ５４は、声紋認証処理によって特定したユーザＩＤがこの発言を許可された一部の者のユーザＩＤに該当しないときに、ＤＳＰ５２からの選択マイク信号をＤＳＰ５３に送出しない（したがって、発言を許可されていない者の音声を相手方会議室に送らない）ようにすることができる。

また、前述のように、ＣＰＵ５４には、ＤＳＰ５２から、どのマイクを選択したかを表すマイク選択情報が送られるので、このマイク選択情報に基づいて、さらに認証精度を向上させることもできる。
すなわち、マイク番号とユーザＩＤとが対応付けられたデータが予めメモリ５５に格納されていれば、ＣＰＵ５４は、マイク選択情報と、マイク番号に対応付けられたユーザＩＤを照合することにより、ユーザＩＤを特定することができる。
例えば、このマイク選択情報に基づいて特定したユーザＩＤと、声紋認証処理によって特定したユーザＩＤとを比較して、一致した場合にのみ、正しいユーザＩＤを特定したものとしてその後の処理を行うことができる。
あるいはまた、マイク選択情報に基づいて特定したユーザＩＤと、声紋認証処理によって特定したユーザＩＤとが一致しない場合は、声紋認証処理にの精度がより高いと判断して、声紋認証処理によって特定したユーザＩＤに基いてその後の処理を行うこともできる。

以上のように、この音声処理装置２では、ＤＳＰ５２で選択された主たる話者に係るマイクからの全ての音声データを対象として声紋認証単位時間毎に声紋認証を行うのではなく、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に、その声紋認証単位時間についての有音データ・無音データの集計結果に基いて決定して、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみ声紋認証を行う。

したがって、例えば会議中にＣＰＵ５４のリアルタイムな声紋認証結果に基いて何らかの操作（例えば現在発言中の会議出席者にカメラを向ける操作）を行うような場合に、誤認証によってその操作を誤る（例えば発言中でない者にカメラが向けられる）可能性が減少する。

また、音声処理装置２では会議中にリアルタイムに声紋認証を行っているが、例えば、会議中に録音した音声データに対して声紋認証を行って自動的に会議出席者別の議事録を作成するような場合にも、誤認証によって作成後の議事録の編集作業（誤って本人以外の出席者の発言とされた内容を、本人の発言として修正する作業）に多くの時間を費やさなければならなくなるような事態が生じる可能性が減少する。

なお、以上の例では、図３に示したように、声紋の認証対象決定処理及び声紋認証処理を実行するＣＰＵ５４を、音声処理装置２内の一構成要素としている。しかし、別の例として、図１０に示すように、図３の音声処理装置２のＤＳＰ５２までの部分を１つの装置（音声入力装置６０）として構成し（ＤＳＰ５２の後段にはＤ／Ａ変換器６１を設け）、図２のＣＰＵ５４，メモリ５５を、この音声入力装置６０とは別の装置（声紋認証装置６２）とし構成する（ＣＰＵ５４の前段には、Ｄ／Ａ変換器６１でアナログ変換されたマイク信号をディジタル変換するＡ／Ｄ変換器６３）を設けるようにしてもよい。（図９では図３のＣＰＵ５４よりも右側の部分とＤ／Ａ変換器５５１，増幅器５６１及びスピーカ５７とは図示を省略している。）

この図１０の例の場合には、ＣＰＵ５４は、Ａ／Ｄ変換器６３のサンプリング周期におけるサンプリングタイミングのデータについて図７の認証対象決定処理を実行することになる。

この図１０の例において、声紋認証装置６２としては、例えばパーソナルコンピュータを用いてもよい。その場合には、声紋の認証対象決定処理や声紋認証処理のアプリケーションソフトウェアを、例えばＣＤ−ＲＯＭ等の記録媒体として提供してパーソナルコンピュータにインストールさせたり、あるいはまたＷｅｂサイトからダウンロードさせてパーソナルコンピュータにインストールさせるようにすればよい。

本発明の音声処理装置の適用例を示す図である。本発明の音声処理装置の外観構成例を示す図である。本発明の音声処理装置の回路構成例を示すブロック図である。図３のＤＳＰ５２の機能ブロック図である。ＤＳＰ５２のマイク信号選択切替え処理を示す機能ブロック図である。声紋の認証対象決定処理において一つの処理単位とする音声データを示す図である。声紋の認証対象決定処理の処理内容を示すフローチャートである。声紋認証単位時間の音声データ内の有音データ，無音データの分布パターンを例示する図である。声紋認証処理による処理結果を例示する図である。本発明の音声処理装置の変更例を示すブロック図である。

符号の説明

２音声処理装置、１１マイクロフォン収容部、１２スピーカ収容部、１３操作部、５１１〜５１６Ａ／Ｄ変換器、５２，５３ＤＳＰ、５４ＣＰＵ、５５メモリ、５７スピーカ

Claims

複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する決定手段と、
前記入力音声データのうち、前記決定手段で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、前記記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段と
を備えたことを特徴とする音声処理装置。
請求項１に記載の音声処理装置において、
前記集計手段は、前記分類手段で有音データに分類されたデータの数を計数する第１の計数手段を含み、
前記決定手段は、前記第１の計数手段の計数値が一定以上である場合には、声紋認証の対象とすることを決定することを特徴とする音声処理装置。
請求項１に記載の音声処理装置において、
前記集計手段は、連続する複数のサンプリングタイミングに亘るデータが前記分類手段で有音データに分類された場合に、該連続した回数を計数する第２の計数手段を含み、
前記決定手段は、前記第２の計数手段の計数値が一定以上である場合には、声紋認証の対象とすることを決定することを特徴とする音声処理装置。
請求項１に記載の音声処理装置において、
前記集計手段は、連続する複数のサンプリングタイミングに亘るデータが前記分類手段で無音データに分類された場合に、該連続した回数を計数する第３の計数手段を含み、
前記決定手段は、前記第３の計数手段の計数値が一定以上である場合には、声紋認証の対象としないことを決定することを特徴とする音声処理装置。
それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
前記複数のマイクロフォンからの音声データをそれぞれ所定のサンプリング周期でサンプリングするサンプリング手段と、
前記サンプリング手段でサンプリングされた前記複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、
複数の声紋データを発話者データと関連付けて記憶する記憶手段と、
前記マイクロフォン選択手段で選択された音声データを、前記サンプリング手段での各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基き、前記マイクロフォン選択手段で選択された音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する決定手段と、
前記マイクロフォン選択手段で選択された音声データのうち、前記決定手段で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、前記記憶手段に記憶された複数の声紋データとそれぞれ照合することによって声紋認証を行う認証手段と
を備えたことを特徴とする音声処理装置。
所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第１のステップと、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記第１のステップでの分類結果を集計する第２のステップと、
前記第２のステップでの集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する第３のステップと、
前記入力音声データのうち、前記第３のステップで声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第４のステップと
を有することを特徴とする音声処理方法。
コンピュータに、
所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第１の手順と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記第１の手順での分類結果を集計する第２の手順と、
前記第２の手順での集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する第３の手順と、
前記入力音声データのうち、前記第３の手順で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第４の手順と
を実行させるプログラム。
コンピュータに、
所定のサンプリング周期でサンプリングされた入力音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する第１の手順と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記第１の手順での分類結果を集計する第２の手順と、
前記第２の手順での集計結果に基き、前記入力音声データを声紋認証の対象とするか否かを、前記時間間隔分の音声データ毎に決定する第３の手順と、
前記入力音声データのうち、前記第３の手順で声紋認証の対象とすることが決定された各々の前記時間間隔分の音声データからのみそれぞれ声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶した複数の声紋データとそれぞれ照合することによって声紋認証を行う第４の手順と
を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。