JP2006162694A

JP2006162694A - 音声処理装置，音声処理方法，プログラム及び記録媒体

Info

Publication number: JP2006162694A
Application number: JP2004350241A
Authority: JP
Inventors: Akira Masuda; 彰増田; Masafumi Nagai; 雅文永易
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-12-02
Filing date: 2004-12-02
Publication date: 2006-06-22

Abstract

【課題】自然な会話による音声データから所定の時間間隔の音声データ毎に声紋データを生成して認証を行う際に、ＣＰＵのスペック等に依存することなく、正確な声紋データを生成する。
【解決手段】所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段３２に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段３１と、外部から入力する音声データを蓄積手段３３に一時的に蓄積させる蓄積処理手段３４と、蓄積手段３３から所定の時間間隔分ずつ音声データをロードするロード手段３６と、ロード手段３６によってロードされた所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルを声紋認証手段３１に順次転送するファイル化手段３７とを備える。
【選択図】図９

Description

本発明は、音声に基づいて声紋認証技術により発話者を特定する音声処理装置，音声処理方法等に関する。

従来より、音声に基づいて当該音声に係る発話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、例えば、銀行のコールセンター等に適用されている。

一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、及び身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で発話者を特定することが可能となる。例えば、発話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも発話者特定の認証精度が高い。

具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデル（声紋データ）が予め登録される。

従来の声紋認証エンジンは、以下の処理を行うことで発話者を特定する。
（１）声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデル（声紋データ）を作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
（２）声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較照合し、モデルの特徴量が近似する度合いに応じた照合値（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する発話者を特定する。

本特許出願の出願時には未公開であるが、従来、こうした声紋認証エンジンに関する技術としては、会議中の発言のような自然な会話による音声データから、所定の時間間隔（例えば３秒間）の声紋認証単位時間の音声データ毎に声紋データを生成して認証を行うものが提案されていた（例えば、出願番号特願２００３−２８６２５６号，特願２００４−１４３９５２号の特許出願）。

ところで、このように自然な会話による音声データから単位時間の音声データ毎に声紋データを生成するためには、入力する音声データをバッファメモリ等に一時的に蓄積し、そのバッファメモリ等から単位時間分ずつの音声データを声紋認証エンジンに転送する必要がある。

図１０は、声紋登録時（各ユーザの声紋データを声紋レジスタに予め登録するとき）に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。外部から入力するアナログ音声データ（認証対象ユーザの発話による音声データ）を、Ａ／Ｄ変換器１０１によってサンプリング周波数８ｋＨｚ，量子化ビット数８ビット（１バイト）でディジタル変換した後、ＣＰＵ（図示略）の制御のもとでバッファメモリ１０２に一時的に蓄積する。バッファメモリ１０２は、声紋認証単位時間（ここでは３秒間とする）よりも長い１０秒間分の音声データ（８０００×１×１０＝８００００バイトの音声データ）の蓄積容量を有している。

ＣＰＵは、内部のタイマーを用いて４０乃至５０ミリ秒程度の間隔をあけつつ、バッファメモリ１０２から１００ミリ秒分ずつの音声データ（８０００×１×０．１＝８００バイトずつの音声データ）を声紋認証エンジン１０３に転送する。

声紋認証エンジン１０３は、３秒間分の音声データ（８０００×３×１０＝２４０００バイトの音声データ）が転送される毎に、転送された音声データから声紋データを生成し、生成した声紋データを声紋レジスタ１０４に登録する。

図１１は、声紋認証時に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。外部から入力するアナログ音声データ（会議等での自然な会話による音声データ）を、登録時と同様に、Ａ／Ｄ変換器１０１でディジタル変換してバッファメモリ１０２に一時的に蓄積する。

ＣＰＵ（図示略）は、登録時と同様に、１００ミリ秒分（８００バイト）ずつの音声データをバッファメモリ１０２から読み出して声紋認証エンジン１０３に転送する。

声紋認証エンジン１０３は、３秒間分の音声データ（８０００×３×１０＝２４０００バイトの音声データ）が転送される毎に、転送された音声データから声紋データを生成する。そして、生成した声紋データを、声紋レジスタ１０４に登録済みの声紋データとを比較照合して、最も近似する声紋データに対応する発話者を特定する。

しかし、この図１０，図１１のような転送方法では、ＣＰＵのスペック（クロック周波数等）によっては、バッファメモリ１０２から声紋認証エンジン１０３に転送するデータにビット落ち等が生じることにより、転送すべき音声データ（声紋認証単位時間分の音声データ）を正常に声紋認証エンジン１０３に転送できないことがあった。そのため、声紋登録時に正確な声紋データを生成して声紋レジスタ１０４に登録することができなくなったり、認証時に正確な声紋データを生成することができなくなり、その結果認証率が低下してしまうことがあった。

本発明は、上述の点に鑑み、自然な会話による音声データから声紋認証単位時間の音声データ毎に声紋データを生成して認証を行う際に、ＣＰＵのスペック等に依存することなく、正確な声紋データを生成できるようにすることを課題としてなされたものである。

この課題を解決するために、本発明に係る第１の音声処理装置は、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段と、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段とを備えたことを特徴とする。

また、本発明に係る第２の音声処理装置は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、これらの複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、このマイクロフォン選択手段で選択された音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段と、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段とを備えたことを特徴とする。

また、本発明に係る音声処理方法は、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段を用いて声紋認証を行う方法において、外部から入力する音声データを蓄積手段に一時的に蓄積させる第１のステップと、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードする第２のステップと、この第２のステップでロードしたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送する第３のステップとを有することを特徴とする。

また、本発明に係るプログラムは、コンピュータを、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段、として機能させることを特徴とする。

また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段、として機能させるプログラムを記録したことを特徴とする。

本発明では、外部から入力する音声データ（第２の音声処理装置では、複数のマイクロフォンのうちマイクロフォン選択手段で選択された一つのマイクロフォンからの音声データ）を一時的に蓄積する蓄積手段から、声紋認証手段が声紋データを抽出する単位時間である所定の時間間隔分ずつの音声データをロードする。そして、ロードしたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルを声紋認証手段に順次転送する。

このように、声紋認証単位時間分の音声データを１つの音声ファイルとして一括して声紋認証手段に転送するので、ＣＰＵのスペック等にかかわらず、転送するデータにビット落ち等が生じなくなり、転送すべき音声データ（声紋認証単位時間分の音声データ）が正常に声紋認証手段に転送される。これにより、自然な会話による音声データから声紋認証単位時間の音声データ毎に声紋データを生成して認証を行う際に、ＣＰＵのスペック等に依存することなく、正確な声紋データを生成することができる。

なお、蓄積手段からの音声データのロードの開始から声紋認証手段での声紋認証処理の終了までの所要時間は、この所定の時間間隔以内にし、ロードの開始からこの所定の時間間隔が経過するまでに、ロードされた音声データを蓄積手段から破棄することが好適である。

それにより、外部から入力する音声データが途切れなく蓄積手段に蓄積されるので、自然な会話による音声データに対してリアルタイムに声紋認証を行うことができるようになる。

また、声紋認証手段が、記憶手段に予め声紋データを記憶させる処理として、この所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを記憶手段に記憶させる声紋登録処理をさらに行うものである場合には、声紋登録処理を行うときにも、声紋認証処理を行うときと同じく、声紋認証単位時間分の音声データを１つの音声ファイルとして一括して声紋認証手段に転送することが好適である。

それにより、声紋登録時にも正確な声紋データを生成して記憶手段に登録することができる。

本発明によれば、例えば会議中の発言のような自然な会話による音声データから声紋認証単位時間の音声データ毎に声紋データを生成して認証を行う際に、ＣＰＵのスペック等に依存することなく、正確な声紋データを生成することができるので、認証率が向上するという効果が得られる。

また、自然な会話による音声データに対してリアルタイムに声紋認証を行うことができるという効果が得られる。

また、声紋登録時にも正確な声紋データを生成して記憶手段に登録することができるので、認証率が向上するという効果が得られる。

以下、会議用の音声処理装置に本発明を適用した例について、図面を用いて具体的に説明する。この音声処理装置は、それぞれ複数の会議参加者が存在し、遠隔に位置する２つの会議室間において、双方向の通話を可能とする通話装置である。この通話装置の一部に、本発明に係る声紋認証処理技術が適用される。以下、先ず、この音声処理装置が適用される用途について述べる。

図１は、この音声処理装置が適用される一例を示す図である。図１（ａ）に示すように、遠隔に位置する２つの会議室９０１，９０２にそれぞれ音声処理装置２（会議室９０１については２Ａ，会議室９０２については２Ｂと表記するが、同一の構成である）が設置されており、これらの音声処理装置２Ａ，２Ｂが電話回線９２０で接続されている。

図１（ｂ）に示すように、会議室９０１において、音声処理装置２Ａがテーブル９１１の中央に置かれている。図示は省略するが、会議室９０２においても、同様にして、音声処理装置２Ｂがテーブルに置かれている。

図１（ｂ）及び（ｃ）に示すように、音声処理装置２Ａが置かれたテーブル９１１の周囲に、複数（本実施形態においては６名）の会議参加者Ａ１〜Ａ６がほぼ等間隔に着席している。図示は省略するが、会議室９０２においても、同様にして、音声処理装置２Ｂが置かれたテーブルの周囲に複数の会議参加者が着席している。

音声処理装置２によれば、２つの会議室９０１，９０２の間で、電話回線９２０を介して音声による通話が可能である。また、電話回線９２０を介しての会話は、通常、１人の話者と１人の話者同士、すなわち１対１で通話を行うが、音声処理装置２によれば、一つの電話回線９２０を用いて複数の会議参加者Ａ１〜Ａ６同士の通話が可能である。
以下、かかる音声処理装置２の構成について述べる。

〔音声処理装置２の構成〕
図２は、音声処理装置２の外観構成の一例を示す図であり、図２（ａ）は斜視図、図２（ｂ）は図２（ａ）のマイクロフォン収容部１１の内部の上面図である。

音声処理装置２は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図２（ａ）に示すように、マイクロフォンを収容するためのマイクロフォン収容部１１と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部１２と、操作部１３とを含んでいる。

操作部１３には、図示は省略するが、声紋登録の開始・終了を指示するための釦や、声紋認証対象のユーザのユーザＩＤを入力するための釦や、声紋認証の開始・終了を指示するための釦が配置されている。

図２（ｂ）に示すように、マイクロフォン収容部１１の内部には、６本のマイクロフォンＭＣ１〜ＭＣ６が全方位に均等に配置されている。各マイクロフォンは、単一指向性を持つマイクロフォンである。

スピーカ収容部１２に収容されるスピーカは、収容筐体の中心に位置しており、スピーカからの音声が各マイクロフォンＭＣ１〜ＭＣ６に対してほぼ同音量・同位相で届くように構成されている。

会議参加者Ａ１〜Ａ６は、通常、図１（ｃ）に例示したように、音声処理装置２の周囲３６０度方向に、６０度間隔で配設されているマイクロフォンＭＣ１〜ＭＣ６の近傍にほぼ等間隔で位置している。

図３は、音声処理装置２の回路構成の一例を示すブロック図である。音声処理装置２は、全方位音声入力部３と、声紋認証部１とを含んでいる。

全方位音声入力部３は、ＤＳＰ５２と、ＤＳＰ５３と、Ａ／Ｄ変換器ブロック５１と、Ａ／Ｄ変換器５１７と、Ｄ／Ａ変換器５５１，５５２，５５３と、増幅器５６１，５６２と、スピーカ５７とを含んでいる。図３においては、Ａ／Ｄ変換器ブロック５１の一例として、各マイクロフォンＭＣ１〜ＭＣ６に対応する６個のＡ／Ｄ変換器５１１〜５１６を示している。また、図示は省略するが、全方位音声入力部３は、相手方会議室に送信する音声を圧縮符号化するためのコーデック等も含んでいる。

全方位音声入力部３は、これらの回路を実装した基板を、例えば、図２（ａ）に示すマイクロフォン収容部１１の内部に設置したものである。

ＤＳＰ５２は、Ａ／Ｄ変換器５１１〜５１６によりディジタル信号に変換された６本のマイクロフォンＭＣ１〜ＭＣ６からの音声信号に基づいて、一つのマイクロフォンの音声信号を選択する処理（マイクロフォン選択処理）等の各種の信号処理を行う。ＤＳＰ５２の内部処理については後述する。

ＤＳＰ５３は、エコーキャンセラーとして機能する。すなわち、Ａ／Ｄ変換器５１７を介して入力する相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、ＤＳＰ５２を介して入力する音声信号から減じる処理を行うことにより、エコー消去処理を行う。

ＤＳＰ５３の処理結果は、、Ｄ／Ａ変換器５５１，５５２によりアナログ信号に変換されて出力される。Ｄ／Ａ変換器５５２からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器５６２を介して電話回線９２０（図１（ａ））のラインアウト(LINE OUT)に出力され、相手方会議室に設置された音声処理装置２のスピーカを介して、音として出力される。

相手方の会議室に設置された音声処理装置２からの音声は、電話回線９２０（図１（ａ））のラインイン(LINE IN) を介して入力され、Ａ／Ｄ変換器５１７においてディジタル信号に変換され、ＤＳＰ５３に入力されてエコーキャンセル処理に使用されるとともに、Ｄ／Ａ変換器５５１及び増幅器５６１を介し、スピーカ５７から音として出力される。

一方、ＤＳＰ５２により選択されたマイクロフォンの音声信号も、ＣＰＵ５４及びＤＳＰ５３を介してスピーカ５７から音として出力される。
すなわち、図１（ｃ）に示す会議参加者Ａ１〜Ａ６は、上述したスピーカ５７を通して、相手会議室に配置された音声処理装置２により選択された話者の音声に加えて、その会議室にいる発言者が発した音声をもスピーカ５７を介して聞くことができる。

音声処理装置２に内蔵された６本のマイクロフォンＭＣ１〜ＭＣ６は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのＳ／Ｎが混同してあまり良い音が集音できない。これを避けるために、音声処理装置２では、指向性マイクロフォンで集音することにより、周辺のノイズとのＳ／Ｎを改善している。

〔ＤＳＰ５２の処理〕
次に、ＤＳＰ５２で行う処理内容について述べる。
ＤＳＰ５２で行われる主な処理は、マイクロフォン（以下、単にマイクと称する場合もある）の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、一つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、全方位音声入力部３を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。

本処理を正確に行うため、ＤＳＰ５２は、下記に例示する各種の信号処理を行う。
（ａ）マイク信号の帯域分離とピークホールド処理
（ｂ）発言の開始、終了の判定処理
（ｃ）発言者方向マイクの検出処理
（ｄ）マイク信号の選択切替え処理

図４は、ＤＳＰ５２において実行される処理を示す機能ブロック図である。
図４に示すように、ＤＳＰ５２は、各マイク信号に対してＢＰＦ処理を行い、音圧レベルデータを生成するＢＰＦ５２１１〜５２１６からなるＢＰＦブロック５２１と、ＢＰＦ処理された各マイクの音圧レベルデータに対してＰＨ処理を行い、後述するピーク値を生成するＰＨ５２２１〜５２２６からなるＰＨブロック５２２と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部５２３と、を含んで構成される。

かかる構成を有するＤＳＰ５２による上述した各信号処理（ａ）〜（ｄ）について、以下に述べる。
（ａ）マイク信号の帯域分離とピ−クホールド処理
本処理は、図４に示すＢＰＦブロック５２１及びＰＨブロック５２２によって行われる。
ＢＰＦブロック５２１の各ＢＰＦ処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性（例えば、１００〜６００Ｈｚ）に基づいて行われる。
ＰＨ処理は、ＢＰＦ処理された音圧レベルデータ（マイク信号）の最大値を保持（ピークホールド）する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記（ｂ）〜（ｄ）の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部５２３により実行される。

（ｂ）発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、例えば、所定の閾値と音圧レベルを比較することにより、発言の開始／終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
ＤＳＰ５２は、例えば、マイクロフォンＭＣ１の発言の開始を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを増加させる。逆に、マイクロフォンＭＣ１の発言の終了を判定すると、マイクロフォンＭＣ１に設定された出力ゲインを減少させる。

（ｃ）発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい一つのマイクを選択する処理である。すなわち、１人の話者が発言を開始する場合には、一つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図４に示すように、各マイクを通して入力する音圧レベルデータに対して、バンドパス・フィルタ（ＢＰＦ）処理及びピークホールド（ＰＨ）処理を行うことにより得られるピーク値である。

（ｄ）マイク信号の選択切替え処理
本処理では、（ｃ）発言者方向マイクの検出処理により選択されたマイクにＤＳＰ５２の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。例えば、図５に示すように、マイク信号の選択切替え処理は、６回路の乗算器と６入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン（CH Gain)を「１」に、その他の乗算器のチャンネルゲインを「０」とすることにより、加算器には〔選択されたマイク信号×１〕と〔他のマイク信号×０〕の処理結果が加算される。これにより、選択されたマイク信号（選択マイク信号）が出力される。

図３に示すように、ＤＳＰ５２から出力した選択マイク信号は、後段のＤＳＰ５３に送られるとともに、Ｄ／Ａ変換器５５３でアナログ信号に変換されて声紋認証部１に送られる。また、ＤＳＰ５２からは、どのマイクを選択したかを表すマイク選択情報が声紋認証部１に送られる。

〔声紋認証部の説明〕
次に、声紋認証部１の構成及び処理内容について述べる。
図３に示した声紋認証部１は、音声処理装置２を使用した会議において発話者の認証のために使用する装置である。図６は、声紋認証部１の回路構成例を示すブロック図である。声紋認証部１は、サウンドボード２１と、ＣＰＵ２２と、メモリ２３とを含んでいる。

声紋認証部１は、これらの回路を実装した基板を、例えば、図２（ａ）に示すマイクロフォン収容部１１の内部に設置したものである。

サウンドボード２１には、図３に示した全方位音声入力部３のＤ／Ａ変換器５５２からのアナログ音声データが入力する。サウンドボード２１は、入力したアナログ音声データを、サンプリング周波数８ｋＨｚ，量子化ビット数８ビット（１バイト）でディジタル変換する。

メモリ２３には、ＯＳ（基本ソフト）としてＷｉｎｄｏｗｓ（「Ｗｉｎｄｏｗｓ」は登録商標）が格納されるとともに、Ｗｉｎｄｏｗｓ上で動作する各種のプログラム（声紋認証エンジンを含む）が格納されている。

図７は、これらのプログラムによる声紋認証部１の機能ブロック図である。声紋認証部１は、機能的に、以下の各部を含んでいる。
・声紋認証エンジン３１
・声紋モデル（声紋データ）を登録するための声紋レジスタ３２（図６のメモリ２３の一部の領域）
・サウンドボード２１でディジタル変換された音声データを一時的に蓄積するためのバッファメモリ３３（図６のメモリ２３の一部の領域）
・バッファメモリ３３への音声データの蓄積を制御する蓄積制御部３４（プログラム）・バッファメモリ３３内の音声データをロードするためのデータリスト３５（図６のメモリ２３の一部の領域）
・バッファメモリ３３内の音声データをデータリスト３５にロードするロード部３６（プログラム）
・データリスト３５にロードされた音声データを、Ｗｉｎｄｏｗｓ標準の音声ファイルの形式であるＷＡＶＥファイルに変換し、そのＷＡＶＥファイルを声紋認証エンジン３１に転送するファイル化部３７（プログラム）

声紋認証エンジン３１，蓄積制御部３４，ロード部３６，ファイル化部３７は、１つのプログラム内の別々のルーチンであってもよいし、あるいは互いに別々のプログラムであってもよい。

声紋認証エンジン３１は、供給される音声データを、声紋認証可能な単位時間（声紋認証単位時間。本実施形態では、３秒間）毎に声紋認証して、発話者（ユーザＩＤ）を特定する。声紋認証技術としては、すでに公知の技術を声紋認証エンジン３１に適用させることが可能である。
なお、声紋認証単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、声紋認証エンジン３１や図６のＣＰＵ２２の処理能力が許せば、極力短い時間が望ましい。

声紋認証エンジン３１の処理は、声紋登録処理と声紋認証処理とに分けられる。声紋登録処理は、声紋レジスタ３２に声紋認証対象のユーザ（会議参加予定者）の声紋データを登録する処理であり、以下の（１）及び（２）の処理から成っている。
（１）声紋モデルの生成
声紋認証対象の各ユーザの音声データ（声紋認証対象のユーザが音声処理装置２のいずれかのマイクロフォンに向かって発話し、ＤＳＰ５２によって選択されたそのマイクロフォンの音声信号）をスペクトル分析し、声紋の特徴を抽出することで、声紋モデル（声紋データ）を作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。

（２）声紋モデルの登録
生成した各ユーザの声紋モデルを、そのユーザのユーザＩＤ（図２の操作部１３で入力されたユーザＩＤ）と関連付けて声紋レジスタ３２に記憶させる。

声紋認証処理は、会議中に発話者を認証する処理であり、以下の（１）乃至（３）の処理から成っている。
（１）声紋モデルの生成
声紋登録処理時と同様に、発話者の音声データ（全方位音声入力部３のＤＳＰ５２によって選択されたマイクロフォンの音声信号）から声紋モデルを作成する。

（２）声紋モデルの照合
生成した声紋モデルと、声紋登録処理によって予め声紋レジスタ３２に登録された声紋モデルとを比較／照合し、モデルの特徴量が近似する度合いに応じた照合スコアＳＣＲ（特徴量が近似するほど大きい）を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応するユーザＩＤを特定する。

（３）照合スコアと閾値との比較
上記（２）の処理で算出した照合スコアＳＣＲを、閾値ＴＨＤと比較し、照合スコアＳＣＲが閾値ＴＨＤを越える場合には、上記（２）の処理で特定したユーザＩＤを有効なものと判断し、図６及び図３に示すＶ＿ＩＤとして出力する。

バッファメモリ３３は、声紋認証単位時間（３秒間）よりも長い１０秒間分の音声データ（８０００×１×１０＝８００００バイトの音声データ）の蓄積容量を有している。

図８は、図７のような機能的構成を有する声紋認証部１における声紋登録時の処理内容を経時的に示す図である。図２の操作部１３で声紋登録の開始を指示する操作が行われると、蓄積制御部３４が、図８（ａ）に示すように、サウンドボード２１（図６，図７）に入力してディジタル変換された音声データをバッファメモリ３３に蓄積させていく。

バッファメモリ３３に３秒間（声紋認証単位時間）分の音声データが蓄積されると、ロード部３６が、図８（ｂ）に示すように、バッファメモリ３３から、この３秒間分の音声データを、データリスト３５にロードする。なお、ロード部３６は、このロードを行う直前にデータリスト３５が空であった場合には、データ処理の開始をファイル化部３７に通知する。

ファイル化部３７は、このデータ処理の開始の通知を受けると、図８（ｃ）に示すように、データリスト３５にある音声データをＷＡＶＥファイルに変換し、そのＷＡＶＥファイルを声紋認証エンジン３１に転送する。このＷＡＶＥファイルの作成及び転送に要する時間は、一般的なスペックのＣＰＵでは０．２秒程度である。

声紋認証エンジン３１は、このＷＡＶＥファイルとして転送された３秒間分の音声データに対して、図８（ｄ）に示すように、前述の声紋登録処理を行う。声紋登録処理に要する時間は、一般的なスペックのＣＰＵでは、０．５秒未満である。したがって、ロード部３６でのロードの開始から声紋認証エンジン３１での声紋登録処理の終了までの所要時間（声紋登録実時間）は、３秒間（声紋認証単位時間）よりも十分短くなっている。

ロード部３６は、声紋認証エンジン３１での声紋登録処理が終了すると、ロードした３秒間分の音声データをデータリスト３５から削除する。ただし、声紋登録処理が終了しない場合でも、リミットタイムとして設定した声紋登録待ち時間（例えば１秒乃至２秒程度の時間）が経過すると、強制的にこの音声データをデータリスト３５から削除する。

蓄積制御部３４は、声紋認証エンジン３１での声紋登録処理が終了すると、ロードされた３秒間分の音声データをバッファメモリ３３から破棄（上書き消去の対象に）する。ただし、声紋登録処理が終了しない場合でも、上記声紋登録待ち時間が経過すると、強制的にこの音声データをバッファメモリ３３から破棄する。

以下、図２の操作部１３で声紋登録の終了を指示する操作が行われるまで、この処理を繰り返す。そして、声紋登録の終了を指示する操作が行われると、処理を終了する。

図９は、この声紋認証部１における声紋認証時の処理内容を経時的に示す図である。図２の操作部１３で声紋認証の開始を指示する操作が行われると、蓄積制御部３４が、図９（ａ）に示すように、サウンドボード２１（図６，図７）に入力してディジタル変換された音声データをバッファメモリ３３に蓄積させていく。

バッファメモリ３３に３秒間（声紋認証単位時間）分の音声データが蓄積されると、ロード部３６が、図９（ｂ）に示すように、バッファメモリ３３から、この３秒間分の音声データを、データリスト３５にロードする。なお、ロード部３６は、このロードを行う直前にデータリスト３５が空であった場合には、データ処理の開始をファイル化部３７に通知する。

ファイル化部３７は、このデータ処理の開始の通知を受けると、図９（ｃ）に示すように、データリスト３５にある音声データをＷＡＶＥファイルに変換し、そのＷＡＶＥファイルを声紋認証エンジン３１に転送する。このＷＡＶＥファイルの作成及び転送に要する時間は、図８（ｃ）にも示したように０．２秒程度である。

声紋認証エンジン３１は、このＷＡＶＥファイルとして転送された３秒間分の音声データに対して、図９（ｄ）に示すように、前述の声紋認証処理を行う。声紋認証処理に要する時間は、一般的なスペックのＣＰＵでは、０．５秒程度である。したがって、ロード部３６でのロードの開始から声紋認証エンジン３１での声紋認証処理の終了までの所要時間（声紋認証実時間）は、３秒間（声紋認証単位時間）よりも十分短くなっている。

ロード部３６は、声紋認証エンジン３１での声紋認証処理が終了すると、ロードした３秒間分の音声データをデータリスト３５から削除する。ただし、声紋認証処理が終了しない場合でも、リミットタイムとして設定した声紋認証待ち時間（例えば１秒乃至２秒程度の時間）が経過すると、強制的にこの音声データをデータリスト３５から削除する。

蓄積制御部３４は、声紋認証エンジン３１での声紋認証処理が終了すると、ロードされた３秒間分の音声データをバッファメモリ３３から破棄（上書き消去の対象に）する。ただし、声紋認証処理が終了しない場合でも、上記声紋認証待ち時間が経過すると、強制的にこの音声データをバッファメモリ３３から破棄する。

以下、図２の操作部１３で声紋認証の終了を指示する操作が行われるまで、この転送処理を繰り返す。そして、声紋認証の終了を指示する操作が行われると、この転送処理を終了する。

なお、例えば会議参加者のうちの一部の者だけに発言が許可されており、その一部の者のユーザＩＤに関する情報がメモリ２３（図６）に記憶されているような場合には、ＣＰＵ２２（図６）は、声紋認証処理によって特定したユーザＩＤがこの発言を許可された一部の者のユーザＩＤに該当しないときに、図６及び図３に示すように全方位音声入力部３のＤＳＰ５３に制御信号を送って、ＤＳＰ５３からＤ／Ａ変換器５５２に音声信号を出力させない（したがって、発言を許可されていない者の音声を相手方会議室に送らせない）ようにすることができる。

また、前述のように、声紋認証部１には、全方位音声入力部３のＤＳＰ５２から、どのマイクを選択したかを表すマイク選択情報が送られるので、このマイク選択情報に基づいて、さらに認証精度を向上させることもできる。
すなわち、マイク番号とユーザＩＤとが対応付けられたデータが予めメモリ２３に格納されていれば、ＣＰＵ２２は、マイク選択情報と、マイク番号に対応付けられたユーザＩＤを照合することにより、ユーザＩＤを特定することができる。
例えば、このマイク選択情報に基づいて特定したユーザＩＤと、声紋認証処理によって特定したユーザＩＤとを比較して、一致した場合にのみ、正しいユーザＩＤを特定したものとしてその後の処理を行うことができる。
あるいはまた、マイク選択情報に基づいて特定したユーザＩＤと、声紋認証処理によって特定したユーザＩＤとが一致しない場合は、声紋認証処理の精度がより高いと判断して、声紋認証処理によって特定したユーザＩＤに基いてその後の処理を行うこともできる。

また、図６及び図３に示した出力Ｖ＿ＩＤは、例えば会議中にリアルタイムな声紋認証結果に基いて何らかの操作（例えば現在発言中の会議出席者にカメラを向ける操作）を行うために利用することができる。

以上のように、この声紋認証部１では、声紋登録処理時及び声紋認証処理時に、外部（図３のＤＳＰ５２）から入力する音声データを一時的に蓄積するバッファメモリ３３から、声紋認証エンジン３１での声紋認証単位時間である３秒間分ずつの音声データをロードする。そして、ロードしたこの３秒間分ずつの音声データをＷＡＶＥファイルに変換し、そのＷＡＶＥファイルを声紋認証エンジン３１に順次転送する。

このように、声紋認証単位時間分の音声データを１つのＷＡＶＥファイルとして一括して声紋認証エンジン３１に転送するので、ＣＰＵ２２（図６）のスペック等にかかわらず、転送するデータにビット落ち等が生じなくなり、転送すべき音声データ（声紋認証単位時間分の音声データ）が正常に声紋認証エンジン３１に転送される。

これにより、会議の開始前に、声紋認証対象のユーザ（会議参加予定者）の音声データから、ＣＰＵ２２のスペック等に依存することなく正確な声紋データを生成して声紋レジスタ３２に登録することができる。また、会議中にも、発話者の音声データから、ＣＰＵ２２のスペック等に依存することなく、正確な声紋データを生成して声紋認証を行うことができる。したがって、認証率が向上するようになる。

また、前述のように、声紋認証実時間が声紋認証単位時間よりも短くなっており、声紋認証処理が終了すると、ロードされた声紋認証単位時間分の音声データをバッファメモリ３３から破棄する（さらに、万一一部の音声データについて通常の声紋認証実時間内に声紋認証処理が終了しない場合でも、リミットタイムとして設定した声紋認証待ち時間が経過すると強制的にこの音声データをバッファメモリ３３から破棄する）ようにしているので、外部から入力する音声データが途切れなくバッファメモリ３３に蓄積される。したがって、会議中に、発話者の音声データに対してリアルタイムに声紋認証を行うことができる。

なお、以上の例では、声紋認証部１を音声処理装置２の内部に設けている。しかし、別の例として、音声処理装置２の外部に、声紋認証部１と同一の機能を有する音声処理装置を設けるようにしてもよい。その音声処理装置は、専用の装置として構成してもよいが、パーソナルコンピュータを用いてもよい。パーソナルコンピュータを用いる場合には、図７に示した蓄積制御部３４，ロード部３６，ファイル化部３７及び声紋認証エンジン３１のような処理内容のアプリケーションソフトウェアを、例えばＣＤ−ＲＯＭ等の記録媒体として提供してパーソナルコンピュータにインストールさせたり、あるいはまたＷｅｂサイトからダウンロードさせてパーソナルコンピュータにインストールさせるようにすればよい。

あるいはまた、音声処理装置２内において、図３の声紋認証部１と全方位音声入力部３とを同じ基板上に実装して、ＤＳＰ５２から直接図６のＣＰＵ２２に選択マイク信号（ディジタル音声データ）を送る（ＤＳＰ５３にはＣＰＵ２２を介して音声データを送る）ようにしてもよい。

また、以上の例では、ＯＳとしてＷｉｎｄｏｗｓを用いていることから、音声データをＷｉｎｄｏｗｓ標準の音声ファイルの形式であるＷＡＶＥファイルに変換しているが、Ｗｉｎｄｏｗｓ以外のＯＳを用いる場合にも、音声データを当該ＯＳにおける標準の音声ファイルに変換すればよい。

また、以上の例では会議用の音声処理装置に本発明を適用しているが、これに限らず、自然な会話による音声データから声紋データを生成して声紋認証を行うあらゆる場面に本発明を適用してよい。

本発明の音声処理装置の適用例を示す図である。本発明の音声処理装置の外観構成例を示す図である。本発明の音声処理装置の回路構成例を示すブロック図である。図３のＤＳＰ５２の機能ブロック図である。ＤＳＰ５２のマイク信号選択切替え処理を示す機能ブロック図である。図３の声紋認証部の回路構成例を示すブロック図である。図３の声紋認証部の機能ブロック図である。声紋認証部における声紋登録時の処理内容を経時的に示す図である。声紋認証部における声紋認証時の処理内容を経時的に示す図である。声紋登録時に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。声紋認証時に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。

符号の説明

１声紋認証部、２音声処理装置、３全方位音声入力部、１１マイクロフォン収容部、１２スピーカ収容部、１３操作部、２１サウンドボード、２２ＣＰＵ、２３メモリ、３１声紋認証エンジン、３２声紋レジスタ、３３バッファメモリ、３４蓄積制御部、３５データリスト、３６ロード部、３７ファイル化部、５１１〜５１６Ａ／Ｄ変換器、５２，５３ＤＳＰ、５７スピーカ

Claims

所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、
外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、
前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段と、
前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段と
を備えたことを特徴とする音声処理装置。
請求項１に記載の音声処理装置において、
前記ロード手段でのロードの開始から前記声紋認証手段での前記声紋認証処理の終了までの所要時間を、前記所定の時間間隔以内にし、
前記蓄積処理手段は、前記ロード手段でのロードの開始から前記所定の時間間隔が経過するまでに、ロードされた音声データを前記蓄積手段から破棄することを特徴とする音声処理装置。
請求項１に記載の音声処理装置において、
前記声紋認証手段は、前記記憶手段に予め声紋データを記憶させる処理として、前記所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを前記記憶手段に記憶させる声紋登録処理をさらに行い、
前記蓄積処理手段，前記ロード手段及び前記ファイル化手段は、前記声紋認証手段が前記声紋登録処理を行うときと前記声紋認証処理を行うときで同じ処理を行う
ことを特徴とする音声処理装置。
それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
前記複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、
所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、
前記マイクロフォン選択手段で選択された音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、
前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段と、
前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段と
を備えたことを特徴とする音声処理装置。
所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段
を用いて声紋認証を行う方法において、
外部から入力する音声データを蓄積手段に一時的に蓄積させる第１のステップと、
前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードする第２のステップと、
前記第２のステップでロードした前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送する第３のステップと
を有することを特徴とする音声処理方法。
コンピュータを、
所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、
外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、
前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段、
前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段、
として機能させるためのプログラム。
コンピュータを、
所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、
外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、
前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段、
前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。