JP2005055668A

JP2005055668A - 音声処理装置

Info

Publication number: JP2005055668A
Application number: JP2003286256A
Authority: JP
Inventors: Akira Masuda; 彰増田; Yoshitaka Abe; 義孝阿部; Hideharu Fujiyama; 英春藤山
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-08-04
Filing date: 2003-08-04
Publication date: 2005-03-03
Anticipated expiration: 2023-08-04
Also published as: US7672844B2; JP4085924B2; CN1584982A; CN1287353C; US20050060148A1

Abstract

【課題】会議において複数の会議出席者が同時に発話した場合でも、精度良く声紋認識処理を行う。
【解決手段】双方向通話部２は、複数のマイクロフォンを通して、該マイクロフォンからそれぞれ音声信号を入力し、入力した音声信号に基づいて一のマイクロフォンを選択し、そのマイクロフォンからの音声信号を出力する。声紋認識部３２２は、声紋認識可能な時間単位で、入力した音声信号に基づいて声紋認識を行い、声紋データを順次バッファに格納する。ＣＰＵ３２１は、該バッファから順次声紋データを取り出し、声紋レジスタ４に格納された声紋データと照合し、発話者を特定する。そして、該発話者と関連付けて、双方向通話部２が出力する音声信号を処理する。
【選択図】図５

Description

本発明は、たとえば複数の会議出席者が発する音声によるコマンドを認識して処理する音声処理装置に関する。

従来、人間の発話を声紋認識して処理する機能（声紋認識）を備えた音声処理装置は、音声の入力手段として、電話やパーソナルコンピュータ（ＰＣ）等の制御機器に接続されたマイクロフォン（以下、マイク）などを前提としており、そのようなマイクを備えた音声処理装置が、例えば金融期間のコールセンターやネットワークの本人認証等に適用されている。

しかしながら、これらの従来の音声処理装置は、使用環境としては、１個人に対する音声認識が対象となっている。したがって、これらの音声処理装置を複数人によるグループワーク、例えば複数人の会議の場面で使用した場合には、複数の音声を誤検知・誤認識してしまうため利用することができなかった。
すなわち、２人以上の参加者が同時に発話している状態では、両者の発話がミックスされた状態で、マイクを通して音声処理装置に入力されるため、複数の発話者の中から主として話をしている会議参加者を特定して、精度の良い声紋認識結果を得ることは不可能であった。

一方、従来は、会議などのグループワークにおいて、その議事内容を録音機等の記録メディアに記録し、発話者を確認しながら、会議後に議事録を書いていた。ここで、議事内容を、そのまま記録メディアに記録する方法は以前より存在するが、発話者別のデータ整理に時間がかかるので、作業が煩雑である。
そこで、上述の声紋認識技術により本人認証を行い、発話者別に発話データを整理することが考えられるが、会議等において複数の参加者の発言が重なった場合に、誰が話をしているか特定をすることがが難しいため、上述の声紋認識技術をそのまま適用して、話者の本人認証をすることが不可能である。

さらに、会議の参加者が発話中に、その発話者に関する属性データ（氏名、役割等）をリアルタイムで出力できないという問題がある。すなわち、参加者は配付資料等を見る必要があるため、発話内容に集中できない。
また、司会者等が資料の提示をするためＰＣの操作を行ったり、音声で説明を加えたりするため、非常に面倒であり、会議の効率上も望ましくない。
そのような場合に、複数の参加者が同時に発言を行った場合でも、主の話者を精度良く特定して、その話者の属性データ等を同時に画面上や音声により出力して会議参加者全員に知らせたいという要望がある。

解決しようとする問題点は、例えば複数の会議出席者が発する音声の声紋を認識して処理する場合に、複数の発話者の中から主として話をする会議出席者を特定して精度良く声紋認識による本人認証ができない点である。

上記課題を解決するため、本発明に係る第１の観点は、複数のマイクロフォンから音声信号を入力して処理する音声処理装置であって、前記音声信号に基づいて、一のマイクロフォンを選択するマイクロフォン選択手段と、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、声紋認識可能な時間単位で逐次処理する声紋処理手段と、前記声紋処理手段の処理結果に応じて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する信号処理手段とを有する。

好適には、発話者データと声紋データが対応付けて格納された声紋データ記憶手段をさらに有し、前記信号処理手段は、前記声紋処理手段の処理結果を、前記声紋データ記憶手段に格納された声紋データと照合し、合致した声紋データに対応する前記発話者データと関連付けて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する。

また、好適には、音声信号を文字列データに変換する音声変換手段をさらに有し、前記音声変換手段は、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、文字列データに変換し、前記信号処理手段は、変換された前記文字列データを前記発話者データと関連付けて処理する。

本発明に係る第２の観点は、複数のマイクロフォンから音声信号を入力して処理する音声処理装置であって、前記音声信号に基づいて、一のマイクロフォンを選択するマイクロフォン選択手段と、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、声紋認識可能な時間単位で逐次処理する声紋処理手段と、発話者データと属性データが対応付けて格納された属性データ記憶手段と、前記声紋処理手段の処理結果に応じて発話者データを特定し、属性データ記憶手段に基づいて、特定された前記発話者データに対応する属性データを処理する属性データ処理手段とを有する。

本発明の第１の観点によれば、マイクロフォン選択手段は、複数のマイクロフォンを通して、該マイクロフォンからそれぞれ音声信号を入力し、入力した音声信号に基づいて一のマイクロフォンを選択し、そのマイクロフォンからの音声信号を出力する。
声紋認識手段は、マイクロフォン選択手段から入力した音声信号を、声紋認識可能な時間単位で逐次処理を行う。
信号処理手段は、声紋認識手段の処理結果に応じて、マイクロフォン選択手段が出力する音声信号を処理する。

好適には、発話者データと声紋データが対応付けて格納された声紋データ記憶手段をさらに有する。声紋認識手段は、声紋認識可能な時間単位で、入力した音声信号に基づいて声紋認識を行い、声紋データを順次バッファに格納する。
信号処理手段は、該バッファから順次声紋データを取り出し、声紋データ記憶手段に格納された声紋データと照合し、発話者を特定する。そして、該発話者と関連付けて、マイクロフォン選択手段が出力する音声信号を処理する。

本発明の第２の観点によれば、マイクロフォン選択手段は、複数のマイクロフォンを通して、該マイクロフォンからそれぞれ音声信号を入力し、入力した音声信号に基づいて一のマイクロフォンを選択し、そのマイクロフォンからの音声信号を出力する。
声紋認識手段は、マイクロフォン選択手段から入力した音声信号を、声紋認識可能な時間単位で逐次処理を行う。
属性データ記憶手段は、発話者データと属性データを対応付けて格納する。
属性データ処理手段は、声紋処理手段の処理結果に基づいて発話者を特定し、属性データ記憶手段により、その特定された発話者に対応する属性データを参照し、処理する。

本発明は、例えば会議等で発言が重なった場合でも、主発話者を精度良く特定して、その話者の属性データ等を会議参加者に、画面等で同時に知らせることができ、会議を円滑に進行させることができるという利点がある。

後述する第１〜３の実施の形態においては、いずれについても以下説明する双方向通話部２が使用されているため、説明の便宜のため、まず、双方向通話部２の構成、動作について図１〜４を参照しながら詳説した後、各実施の形態について説明する。

双方向通話部２
図１は、双方向通話部２の回路ブロック図である。
図１のとおり、双方向通話部２の回路ブロック図は、Ａ／Ｄ変換器ブロック２１と、ＤＳＰ(Digtal Signal Proccessor)２２と、ＤＳＰ２３と、ＣＰＵ(Central Processing Unit) ２４と、コーデック２５と、Ｄ／Ａ変換器ブロック２６（Ｄ／Ａ変換器２６１，２６２）と、Ａ／Ｄ変換器２６３と、増幅器ブロック２７とを備えて構成されている。

双方向通話部２は、複数本のマイク、図１の例では６本の単一指向特性のマイクＭＣ１〜ＭＣ６から音声を入力する。単一指向特性のマイクは、マイクが置かれた位置の正面に強い指向性を示す。

ＣＰＵ２４は、双方向通話部２の全体の制御処理を行う。
コーデック２５は、音声を符号化する。
ＤＳＰ２２が詳細を後述する各種の信号処理、例えば、フィルタ処理、マイク選択処理などを行う。
ＤＳＰ２３は、エコーキャンセラーとして機能する。
図１においては、Ａ／Ｄ変換器ブロック２１の１例として、Ａ／Ｄ変換器２１１〜２１３を例示し、Ａ／Ｄ変換器の１例としてＡ／Ｄ変換器２６３を例示し、Ｄ／Ａ変換器ブロック２６の１例として、Ｄ／Ａ変換器２６１〜２６２を例示し、増幅器ブロック２７の１例として、増幅器２７１〜２７２を例示している。

それぞれ１対のマイクＭＣ１−ＭＣ４：ＭＣ２−ＭＣ５：ＭＣ３−ＭＣ６が、それぞれ２チャンネルのアナログ信号をディジタル信号に変換するＡ／Ｄ変換器２１１〜２１３に入力されている。
Ａ／Ｄ変換器２１１〜２１３で変換したマイクＭＣ１〜ＭＣ６の集音信号はＤＳＰ２２に入力されて、後述する各種の信号処理が行われる。
ＤＳＰ２２の処理結果の１つとして、マイクＭＣ１〜ＭＣ６のうちの１つが選択される。ＤＳＰ２２では、上述したマイクの単一指向特性を利用して、マイクの選択を行う。

ＤＳＰ２２の処理結果が、ＤＳＰ２３に出力されてエコーキャンセル処理が行われる。ＤＳＰ２３の処理結果は、Ｄ／Ａ変換器２６１〜２６２でアナログ信号に変換される。Ｄ／Ａ変換器２６１からの出力が、必要に応じて、コーデック２５で符号化されて、増幅器２７１を介して出力される。
また、Ｄ／Ａ変換器２６２からの出力は、増幅器２７２を介してこの双方向通話部２のスピーカ２８から音として出力される。すなわち、双方向通話部２を使用する会議参加者等は、その会議室にいる発言者が発した音声を、スピーカ２８を介して聞くことができる。
双方向通話部２は、相手方の音声をＡ／Ｄ変換器２６３を介してＤＳＰ２３に入力し、エコーキャンセル処理を行う。また、相手方の音声は、図示しない径路でスピーカ２８に印加されて音として出力される。

なお、指向性のないマイクを用いた場合、マイク周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのＳ／Ｎ(Signal to Noise) が良くない。これを避けるため、本実施の形態では、指向性マイクで集音することによって、周辺のノイズとのＳ／Ｎを改善している。

次に、ＤＳＰ２２で行う処理内容について述べる。
ＤＳＰ２２で行われる主な処理は、マイクの選択・切替え処理である。すなわち、双方向通話部２を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが、図１における信号Ｓ２７１として出力される。
本処理を正確に行うため、下記に例示する各種の信号処理を行う。
（ａ）マイク信号の帯域分離とレベル変換処理
（ｂ）発言の開始、終了の判定処理
（ｃ）発言者方向マイクの検出処理
各マイクの集音信号を分析し、発言者に対向しているマイクを判定する。
（ｄ）発言者方向マイクの切替えタイミング判定処理、及び、
検出された発言者に対向したマイク信号の選択切替え処理

以下、上述した各信号処理について説明する。
（ａ）マイク信号の帯域分離とレベル変換処理
マイク選択処理の開始のトリガの１つに発言の開始、終了の判定を行う。そのために、各マイク信号に対して、バンドパス・フィルタ（以下、ＢＰＦ）処理及びレベル変換処理を施す。
図２は、ＢＰＦ処理及びレベル変換処理について６つのマイクＭＣ１〜６のうち、１チャンネル（ＣＨ）についてのみ示した図である。
ＢＰＦ処理及びレベル変換処理回路は、マイクの集音信号を、ぞれぞれ１００〜６００Ｈｚ，１００〜２５０Ｈｚ，２５０〜６００Ｈｚ，６００〜１５００Ｈｚ，１５００〜４０００Ｈｚ，４０００〜７５００Ｈｚの帯域通過特性を持つＢＰＦ２２１ａ〜２２１ｆ（総称してＢＰＦブロック２２１）と、元のマイク集音信号及び上記帯域通過集音信号をレベル変換するレベル変換器２２２ａ〜２２２ｇ（総称してレベル変換ブロック２２２）とを有する。
各レベル変換器は、信号絶対値処理部２２３とピークホールド処理部２２４とを有する。したがって、波形図を例示したように、信号絶対値処理部２２３は、破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。そして、ピークホールド処理部２２４は、信号絶対値処理部２２３の出力信号の絶対値を保持する。

（ｂ）発言の開始、終了の判定処理
ＤＳＰ２２は、図２に図解したマイク信号レベル変換処理部２２２ｂで音圧レベル変換された１００〜６００ＨｚのＢＰＦを通過した音圧レベルデータが所定値以上になった場合に発言開始と判定し、一定時間（例えば、０．５秒間）所定値以下になった場合に発言終了と判定する。

（ｃ）発言者方向マイクの検出処理
発言者方向の検出には、図３に例示した単一指向性マイクの特性を利用する。
単一指向性マイクは、発言者からマイクへの音声の到達角度により図３に例示したように、周波数特性やレベル特性が変化する。図３では、双方向通話部２の１．５メートルの距離にスピーカを置いて、各マイクが集音した音声を一定時間間隔でＦＦＴした結果を示す。Ｘ軸が周波数を、Ｙ軸が時間を、Ｚ軸が信号レベルを表している。ＸＹ平面上に特定の周波数毎に引かれた線は、図２を用いて説明したＢＰＦ処理のカットオフ周波数を表し、各線に挟まれた周波数帯域のレベルが、図２におけるＢＰＦ２２１ｂ〜２２１ｆを通してデータとなる。

このような各帯域のＢＰＦの出力レベルに対し、それぞれ適切な重み付け処理（例えば、1dBFs ステップであれば、0dBFs で０，-3dBFsで３とする）を行う。この重み付けのステップで処理の分解能が決まることになる。
１サンプルクロック毎に、上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算し、一定サンプル数で平均して合計点の小さい（または大きい）マイク信号を発言者に対向したマイクと判定する。この結果をイメージ化したものが表１である。
表１の例では、一番合計点が小さいのはＭＩＣ１なので、マイク１方向に音源があると判定する。その結果を音源方向マイク番号という形で保持する。

（ｄ）発言者方向マイクの切替えタイミング判定処理、及び、
検出された発言者に対向したマイク信号の選択切替え処理
ある発言者（例えば、マイクＭＣ１）からの発言が終了し、新たに別の方向から発言（例えば、マイクＭＣ２）があった場合には、（ｂ）発言の開始、終了の判定処理において説明したように、前の発言者のマイク（ＭＣ１）信号レベルが所定値以下になってから一定時間（例えば、０．５秒間）経過後に、その発言者の発言は終了したと判断する。
そして、後の発言者の発言が開始されてマイク（ＭＣ２）信号レベルが所定値以上になった時には、後の発言者に対向したマイクを集音マイクと決定し、マイク信号選択切替え処理を開始する。

また、前の発言者（マイクＭＣ１）が発言継続中に新たに別の方向から、より大きい声の発言（後の発言者（マイクＭＣ２））があった場合、後の発言者の発言開始（マイクＭＣ２の信号レベルが所定値以上になった時）から一定時間（例えば、０．５秒間）以上経過してから、マイクの切替え判定処理を開始する。
マイクの切替え判定処理は、以下のように行う。
すなわち、前の発言者（マイクＭＣ１）の発言終了前に、現在選択されている発言者よりも大声で発言している発言者（マイクＭＣ２）がいた場合は、マイクＭＣ２からの音圧レベルが高くなるため、（ｃ）発言者方向マイクの検出処理において、ＭＣ１とＭＣ２の上記表１における得点が逆転し、音源方向マイク番号がマイクＭＣ１→２のとおり変更になると同時に、マイク信号選択切替え処理が行われる。

マイク信号の選択切替え処理では、図４に図解したように、６回路の乗算器と６入力の加算器で構成される。マイク信号を選択するためには、選択したいマイク信号が接続されている乗算器のチャンネルゲイン（CH Gain)を１に、その他の乗算器のチャンネルゲインを０とすることで、加算器には〔選択されたマイク信号×１〕と〔他のマイク信号×０〕の処理結果が加算されて所望のマイク選択信号が出力される。
なお、マイクが切り替わるときの前後のチャンネルゲイン（例えば、CH1 GainとCH2 Gain）の変化は、例えば１０ｍｓの間に徐々に行われる。

以上詳述したように、双方向通話部２によれば、指向性マイクの特性を利用し、発言者からの音声をＳ／Ｎ良く集音して、複数のマイク信号の中から適切に１のマイク信号を選択することが可能であり、選択したマイク信号と選択したマイク情報（１〜６のマイク番号）を、後段の装置に供給する。

第１の実施形態
以下、第１の実施の形態における音声処理装置について説明する。
図５は、第１の実施の形態における音声処理装置１のブロック図である。
図５のとおり、音声処理装置１は、上述した双方向通話部２と、音声認識処理部３と、声紋レジスタ４とを備えて構成される。
音声認識処理部３は、Ａ／Ｄ変換器３１と認識処理部３２を備え、認識処理部３２は、ＣＰＵ３２１と声紋認識部３２２とを備えて構成される。

なお、本発明におけるマイクロフォン選択手段は、第１の実施の形態における双方向通話部２に対応する。
本発明における声紋処理手段は、第１の実施の形態における声紋認識部３２２に対応する。
本発明における信号処理手段は、第１の実施の形態におけるＣＰＵ３２１に対応する。

第１の実施の形態において、音声処理装置１は、例えば会議室の円形テーブルの真ん中にセットされて使用される。
双方向通話部２は、上述したように、各会議出席者に対向する複数本、例えば６本のマイクを備え、各会議出席者の音声を入力し、１本のマイク信号を選択して音声認識処理部３に対して出力するとともに、選択したマイク番号を通知する。
音声認識処理部３は、Ａ／Ｄ変換器３１において双方向通話部２で選択されたマイクの信号を処理して、発話者を特定し、発話者コードを出力する。
声紋レジスタ４は、発話者を識別する発話者コードと、発話者の声紋データが対応付けられて格納されており、ＣＰＵ３２１から声紋照合のため、参照される。

なお、図５に示す音声処理装置１の双方向通話部２では、Ａ／Ｄ変換器ブロック２１が、図１を用いて説明したような２ＣＨのＡ／Ｄ変換器ではなく、各マイク毎にそれぞれ１ＣＨのＡ／Ｄ変換器２１１〜２１６から構成されている。また、図５に示す音声処理装置１の双方向通話部２はスピーカ２８を使用しないため、その周辺部分及びエコーキャンセル処理を行うＤＳＰ２３を必要とせず、これらは図５においては記載されていない。

また、図５に示す音声処理装置１において、双方向通話部２と音声認識処理部３を一体とした場合などでは、双方向通話部２で選択されたマイク信号Ｓ２６１は、アナログ信号として音声認識処理部３に供給する必要がないため、点線で示したディジタル信号Ｓ２２として音声認識処理部３に供給されるが、以下の説明ではアナログ信号（信号Ｓ２６１）として供給されるものとする。
また、上述したように、選択されたマイク情報（１〜６のマイク番号）は、ＭＣ＿ＳＥＬとして音声認識処理部３に供給される。

音声認識処理部３は、Ａ／Ｄ変換器３１と、音声認識処理部３２とから構成され、音声認識処理部３２は、ＣＰＵ３２１と声紋認識部３２２を有する。
Ａ／Ｄ変換器３１は、双方向通話部２で選択されたアナログ信号であるマイク信号（Ｓ２６１）を入力し、ディジタル信号に変換する。
音声認識処理部３２は、Ａ／Ｄ変換器３１からディジタル化されたマイク信号を入力するとともに、双方向通話部２により選択されたマイク信号を取り込む。
したがって、音声認識処理部３２には、双方向通話部２でマイクが切り替わった場合、それに応じて順次更新したマイク信号及びそのマイク情報（１〜６のマイク番号）ＭＣ＿ＳＥＬが供給される。

ＣＰＵ３２１は、音声認識処理部３２の全体の制御を司り、特に後述する声紋データの照合を行うことにより、発話者を特定する。
声紋認識部３２２は、ＣＰＵ３２１からの指示に基づいて、Ａ／Ｄ変換器３１によりディジタル変換されたマイク信号を、声紋認識可能な時間単位で声紋処理し、声紋データを生成する。

ここで、声紋認識可能な時間の単位は、様々な観点から設定することができる。
例えば、３秒間という短い所定の時間でも良いし、声紋認識部３２２の声紋認証能力に応じて声紋認証可能な最小の時間を設定しても良い。また、１フレーズより短い時間に設定しておくこともできる。
したがって、声紋認証可能な時間は、音声処理装置１に適用される声紋認識エンジンである声紋認識部３２２の声紋認識能力と、音声処理装置１が使用される用途や状況に応じて柔軟に設定することができ、その用途や状況の許容する範囲で声紋認識が可能な最小の時間を設定すればよい。
本実施形態においては、かかる声紋認証可能な時間単位を３秒間としている。

次に、音声認識処理部３２の動作を、図６（Ａ）〜（Ｇ）を用いて説明する。
図６（Ａ）〜（Ｇ）は、順にＡ氏，Ｂ氏，Ｃ氏が発話したときの音声処理装置１の処理動作を示す図である。
まず、図６（Ａ）において、上向きの矢印は声紋認証の開始を意味し、下向きの矢印は声紋認証の終了を意味している。ここでは、声紋認証の開始と終了が３秒間であり、声紋認識部３２２は、３秒間単位で声紋認証処理し、声紋データの生成を行う。

図６（Ｂ）において、まずＡ氏の発話データが、双方向通話部２およびＡ／Ｄ変換器３１を経由して声紋認識部３２２に取り込まれる。
声紋認識部３２２では、声紋認証単位である３秒間毎に、Ａ氏の発話データに基づいて声紋データを生成し、認識処理部３２内の図示しないバッファに格納する。

図６（Ｃ）は、発話データが声紋処理され、声紋データがバッファに格納されることを示す図である。
図６（Ｃ）において、Ａ氏の発話データのうち発話終了直前のデータは、声紋処理に必要な３秒間に満たないため、声紋処理ができない。

図６（Ｄ）は、バッファに格納された声紋データが順次ＣＰＵ３２１に処理されることを示す図である。
ＣＰＵ３２１では、バッファに格納された声紋データを順次、あらかじめ声紋レジスタ４に格納された声紋データと照合する。声紋レジスタ４には、発話者データに対応する声紋データが格納されているので、照合した結果、発話者データに基づいて発話者がＡ氏であることを知ることができる。

この本人認証処理では、双方向通話部２から供給されるマイク切替え信号ＭＣ＿ＳＥＬに基づいて、さらに認証精度を向上させることができる。
すなわち、マイク番号と発話者データとが対応付けられたデータが、あらかじめ認識処理部３２に格納されていれば、マイク切替え信号ＭＣ＿ＳＥＬのデータ（１〜６）と、マイク番号に対応付けられた発話者データを照合することにより、発話者を特定することができる。
例えば、このマイク切替え信号ＭＣ＿ＳＥＬに基づいて特定された発話者データと、上述した声紋照合により特定された発話者データとを比較して、一致した場合にのみ、マイク信号の処理を行うように構成することができる。
また、マイク切替え信号ＭＣ＿ＳＥＬに基づいて特定された発話者データと、上述した声紋照合により特定された発話者データが一致しない場合は、声紋照合結果の精度がより高いと判断して、声紋照合により特定された発話者データに基づいて、マイク信号を処理するように構成することもできる。

図６（Ｄ）において、図６（Ｃ）と比較して時間的なずれが発生していないが、上述したようなＣＰＵ３２１で行われる処理の時間が経過した後に本人特定がなされるので、実際には、その処理時間の分だけ右方向にシフトすることになる。

図６（Ｅ）は、本人認証が終了したＡ氏の発話データを示す図である。
このように、本人認証が終了した発話データ（マイク信号）を、順次、図５における信号Ｓ３として出力し、図示しないＨＤＤ(Hard Disk Drive) 等の外部メモリに、初話者データ毎に蓄積していくことができる。
ここで、Ａ氏の発話データのうち、発話終了直前のデータは３秒以内であるため、認証処理ができないデータであるが、Ａ氏の発話データとして付加して出力してもよい。
また、図５における信号Ｓ３の出力として、ＣＰＵ３２１により特定された初話者データのみ（この場合はＡ氏を示すデータ）を出力してもよい。

その後、双方向通話部２において選択マイクが＃４から＃２になり、Ｂ氏の発話が開始されても、その動作は上述したＡ氏の発話データの処理と同様である。
図６に示すＢ氏の発話においては、発話の終了だけではなく、発話の開始時においてもサンプリングされたデータの時間長さが声紋認証処理単位である３秒未満であるため、本人認証できない部分が存在する。この場合も、Ｂ氏の発話として出力に付加するように処理を行う。

その後、双方向通話部２において選択マイクが＃２から＃１になり、Ｃ氏の発話が開始されても、その動作は、上述したＡ氏の発話データの処理動作と同様である。

以上、本発明に係る音声処理装置の第１の実施の形態について説明した。
第１の実施の形態における音声処理装置１によれば、複数の会議出席者のそれぞれに対向したマイクを通して、複数人が重なって音声処理装置１に対して音声を発している場合でも、音声処理装置１が有する双方向通話部２の特徴により、各音声の帯域毎の音圧レベルを分析して、主の話者のマイク信号を特定して音声認識処理部３にその音声信号を引き渡す。
したがって、音声認識処理部３において、複数の音声が同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声を適切に判断・処理を行うことが可能である。
音声認識処理部３は、引き渡された音声信号（マイク信号）を声紋認証可能な時間単位で声紋認識処理し、声紋レジスタ４に格納される声紋データと照合して、合致する発話者データを特定して処理する。
したがって、本人認証がなされた発話者のデータとして、マイク信号を処理することが可能となる。

本実施形態は、図５に示す内容に限定されず、様々な変形が可能である。
図７は、図５に示す本実施形態の音声処理装置１の構成を変更した図である。
図７に示すように、ＣＰＵ３２１と声紋認識部３２２と声紋レジスタ４を一体で構成してもよい。

第２の実施形態
以下、第２の実施形態について説明する。
図８は、第２の実施形態における音声処理装置１ａのブロック図である。
第１の実施形態における音声処理装置１と比較して、音声処理装置１ａは、さらに、属性データ処理部５を有することで異なる。

属性データ処理部５は、属性データメモリ５１を有する。
なお、本発明における属性データ記憶手段は、本実施の形態における属性データメモリ５１に対応する。
本発明における属性データ処理手段は、本実施の形態における属性データ処理部５に対応する。

本実施形態において、音声認識処理部３は、声紋認証結果により特定された発話者データＳ３を出力する。
属性データ処理部５は、この発話者データＳ３を入力し、属性データメモリ５１に格納されている属性データと照合して、属性データＳ５を出力する。
属性データメモリ５１には、各発話者データと属性データが関連付けられて格納されている。
属性データは、例えば、各発話者の氏名，グループ，性別，趣味…といった個人情報であるが、外部から属性データメモリ５１にアクセスすることで、属性データが更新できることは言うまでもない。

図９は、属性データＳ５の処理を例示した図である。
図９に示すように、図示しない外部の表示装置を用いて、発話者の属性データを表示出力することが可能となる。また、音声出力させてもよい。

本実施の形態における音声処理装置１ａによれば、複数の会議出席者のそれぞれに対向したマイクを通して、複数人が重なって音声処理装置１に対して音声を発している場合でも、音声処理装置１が有する双方向通話部２の特徴により、各音声の帯域毎の音圧レベルを分析して、主の話者のマイク信号を特定して音声認識処理部３にその音声信号を引き渡す。
したがって、音声認識処理部３において、複数の音声が同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声を適切に判断・処理を行うことが可能である。
音声認識処理部３は、引き渡された音声信号（マイク信号）を声紋認証可能な時間単位で声紋認識処理し、声紋レジスタ４に格納される声紋データと照合して、合致する発話者データを属性データ処理部５へ引き渡す。

属性データ処理部５では、入力した発話者データと属性データメモリ５１とを照合し、図示しない外部の表示装置等に属性データを表示させるので、会議出席者は、配付資料等を見る必要もなく、発話内容に集中でき、会議をスムーズに進行させることができる。

第３の実施形態
以下、第３の実施形態について説明する。
図１０は、第３の実施形態における音声処理装置１ｂのブロック図である。
第１の実施形態における音声処理装置１と比較して、音声処理装置１ｂは、さらに、認識処理部３２ｂに音声認識部３２３を有することで異なる。
なお、本発明における音声変換手段は、本実施の形態における音声認識部３２３に対応する。

第１の実施形態において説明した声紋認識による本人認証処理と並行して、またはシリアルな処理として、音声認識部３２３による音声認識が行われる。
音声認識部３２３は、双方向通話部２およびＡ／Ｄ変換器３１を通して取り込んだマイク信号を、音声認識することにより、文字列データ（テキストデータ）に変換する。
変換した文字列データは、信号Ｓ３ｂとして出力する。

本実施形態においては、第１の実施形態と同様な作用効果を奏することができる。
したがって、本実施形態によれば、複数の会議出席者のそれぞれに対向したマイクを通して、複数人が重なって音声処理装置１に対して音声を発している場合でも、音声処理装置１が有する双方向通話部２の特徴により、各音声の帯域毎の音圧レベルを分析して、主の話者のマイク信号を特定して音声認識処理部３にその音声信号を引き渡す。
したがって、音声認識処理部３において、複数の音声が同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声を適切に判断・処理を行うことが可能である。
音声認識処理部３は、引き渡された音声信号（マイク信号）を声紋認証可能な時間単位で声紋認識処理し、声紋レジスタ４に格納される声紋データと照合して、合致する発話者データを特定する。

発話者が特定されると、音声認識部３２３により、音声信号（マイク信号）が音声認識処理され、その発話データ（マイク信号）を外部のメモリに各発話者毎に格納する。
したがって、例えば、会議後に議事録を作成する等の場合において、各発話者毎に発話データが記憶されているので、データ整理が容易である。

本実施形態は、図１０に示す内容に限定されず、様々な変形が可能である。
図１１は、図１０に示す本実施形態の音声処理装置１ｂの構成を変更した図である。
図１０に示す音声処理装置１ｂでは、ＣＰＵ３２１ｂと声紋認識部３２２と音声認識部３２３と声紋レジスタ４を一体で構成され、さらに各発話者データの出力先として、発話者データ格納部６を備えている。
発話者データ格納部６は、図１１に示すように、複数の発話者毎に発話データを格納できるように構成されている。

図１１に示す音声処理装置１ｂによれば、音声処理装置の用途に応じて、発話者が特定された発話データをサウンドカードを介して音声出力（Ｓ３ｂ＿１）することができ、外部の表示装置に映像出力（Ｓ３ｂ＿２）することもでき、また上述した発話者データ格納部６に，発話記録として格納することもできる（Ｓ３ｂ＿３）。

双方向通話部２のブロック図である。双方向通話部２のＤＳＰ２２のブロック図である。双方向通話部２の指向性マイクのＦＦＴ結果を示す図である。双方向通話部２の選択マイク信号の出力を示す図である。第１の実施形態の音声処理装置１のブロック図である。第１の実施形態における音声処理装置１の動作を説明するための図である。第１の実施形態の音声処理装置１を変形した図である。第２の実施形態の音声処理装置１ａのブロック図である。第２の実施形態の音声処理装置１ａで表示する属性データを例示する図である。第３の実施形態の音声処理装置１ｂのブロック図である。第３の実施形態の音声処理装置１ｂを変形した図である。

符号の説明

１，１ａ，１ｂ…音声処理装置、２…双方向通話部、２１…Ａ／Ｄ変換器ブロック、２２…第１のディジタルシグナルプロセッサ（ＤＳＰ）、２３…第２のディジタルシグナルプロセッサ（ＤＳＰ）、２４…ＣＰＵ、２５…コーデック、２６…Ｄ／Ａ変換器ブロック、２７…増幅器ブロック、２８…スピーカ、３，３ｂ…音声認識処理部、３１…Ａ／Ｄ変換器、３２，３２ｂ…認識処理部、３２１…ＣＰＵ、３２２…声紋認識部３２２、３２３…音声認識部、４…声紋レジスタ、５…属性データ処理部、５１…属性データメモリ、６…発話者データ格納部

Claims

複数のマイクロフォンから音声信号を入力して処理する音声処理装置であって、
前記音声信号に基づいて、一のマイクロフォンを選択するマイクロフォン選択手段と、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、声紋認識可能な時間単位で逐次処理する声紋処理手段と、
前記声紋処理手段の処理結果に応じて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する信号処理手段と
を有する音声処理装置。
発話者データと声紋データが対応付けて格納された声紋データ記憶手段
をさらに有し、
前記信号処理手段は、前記声紋処理手段の処理結果を、前記声紋データ記憶手段に格納された声紋データと照合し、合致した声紋データに対応する前記発話者データと関連付けて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項１記載の音声処理装置。
前記発話者データと前記マイクロフォンが対応付けられ、
前記信号処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較した結果に基づいて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項２記載の音声処理装置。
前記信号処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致した場合に限り、前記発話者データと関連付けて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項３記載の音声処理装置。
前記信号処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致しない場合は、合致した声紋データに対応する前記発話者データと関連付けて、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を処理する
請求項３記載の音声処理装置。
音声信号を文字列データに変換する音声変換手段をさらに有し、
前記音声変換手段は、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、文字列データに変換し、
前記信号処理手段は、変換された前記文字列データを前記発話者データと関連付けて処理する
請求項１記載の音声処理装置。
複数のマイクロフォンから音声信号を入力して処理する音声処理装置であって、
前記音声信号に基づいて、一のマイクロフォンを選択するマイクロフォン選択手段と、前記マイクロフォン選択手段によって選択されたマイクロフォンから出力された音声信号を、声紋認識可能な時間単位で逐次処理する声紋処理手段と、
発話者データと属性データが対応付けて格納された属性データ記憶手段と、
前記声紋処理手段の処理結果に応じて発話者データを特定し、属性データ記憶手段に基づいて、特定された前記発話者データに対応する属性データを処理する属性データ処理手段と
を有する音声処理装置。
前記発話者データと前記マイクロフォンが対応付けられ、
前記属性データ処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較した結果に基づいて、属性データを処理する
請求項７記載の音声処理装置。
前記属性データ処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致した場合に限り、前記発話者データに対応する属性データを処理する請求項８記載の音声処理装置。
前記属性データ処理手段は、
合致した声紋データに対応する前記発話者データと、
前記マイクロフォン選択手段により選択されたマイクロフォンに対応する発話者データと
を比較して、一致しない場合は、合致した声紋データに対応する前記発話者データに対応する属性データを処理する
請求項９記載の音声処理装置。