JP2005274707A

JP2005274707A - 情報処理装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2005274707A
Application number: JP2004084814A
Authority: JP
Inventors: Tomohiko Goto; 智彦後藤; Katsuhiro Takematsu; 克浩竹松; Tamaki Kojima; 環児嶋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-03-23
Filing date: 2004-03-23
Publication date: 2005-10-06
Anticipated expiration: 2024-03-23
Also published as: JP4595364B2

Abstract

【課題】発話から話者を精度よく識別する。
【解決手段】カメラモジュール２は、１以上の話者を撮像し、画像データを顔検出部１２１に出力する。顔検出部１２１は、画像データのうちの話者の顔に対応する領域の顔画像データを検出し、話者のいる方位、即ち、話者方位を検出する。ビーム幅算出部１２２は、話者方位から得られる話者同士の位置関係に基づいて、話者それぞれのビームフォーミング幅を算出する。ビームフォーミング処理部１４３は、マイクアレイ３（マイク３−１乃至３−４）からの音声データを、所定の話者方位とビームフォーミング幅とに基づいてビームフォーミングする。本発明は、例えば、話者識別を行う話者識別装置に適用することができる。
【選択図】図４

Description

本発明は、情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出し、例えば、話者を精度よく識別することができるようにする情報処理装置および方法、プログラム、並びに記録媒体に関する。

近年、会議などに参加している複数の話者の発話を議事録として自動的に記録する電子会議システムがある。この電子会議システムにより記録された発話の再生時には、再生された音にノイズが少ないことはもとより、聴いている人が、話者（発話主）を識別することができることも望まれる。

そこで、再生時にそれぞれの話者を識別することができるように、例えば、それぞれの話者用のものとしてマイク（マイクロフォン）を予め設置し、各話者に割り当てられたマイクを電子会議システムに登録しておくことにより、音声が入力されたマイクから、話者を識別するものが提案されている。

また、例えば、それぞれの話者に向けてマイクの指向性を固定し、話者の方位を電子会議システムに登録しておくことにより、音源の方位から、話者を識別するものも提案されている。

ところで、特許文献１には、マイクアレイから入力された発話の音声データに基づいて音源方位を推定し、その音源方位に、カメラおよび高指向性集音マイクを向けて、発話を行っている話者の画像と音声とを合わせて取得する撮像システムが開示されている。

また、特許文献２には、話者を認識して追跡するロボットが開示されている。

特開平６−３５１０１５号公報特開２００２−３６６１９１号公報

上述したような従来の電子会議システムによっては、マイクに入力された発話から話者を識別させるためには、マイクやその指向性と、それぞれの話者との対応関係が既知であることが前提になっていることから、それらの関係が未知の場合、話者識別を行わせることができないという課題があった。

すなわち、ユーザは、マイクと話者、或いはマイクの指向性と話者の関係について、電子会議システムに予め登録しておく必要がある。

また、特許文献１に記載されている技術によっては、話者のいる方位を推定するための元になる音声を集音するためのマイクアレイと、方位を推定した後、それぞれの話者の音声を集音するための高指向性集音マイクとの２種類のマイクが必要になる。

さらに、特許文献２に記載されている技術によっては、マイクとカメラを制御して特定の話者を追跡することを目的としており、複数の話者それぞれを識別することは考慮されていない。

また、予め登録した話者それぞれの音声の標準パターン（モデル）と、会議などにおける発話の音声データの音声特徴量とを用いて話者識別を行う方法がある。しかしながら、この方法では、予め登録する標準パターンを作成するのに用いる音声を得るときの環境と、会議などにおいて音声特徴量を抽出する音声を得るときの環境とが異なることに起因して、話者識別の精度が劣化することがあった。

本発明は、このような状況に鑑みてなされたものであり、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出し、例えば、話者を精度よく識別することができるようにするものである。

本発明の情報処理装置は、１以上の話者を撮像し、画像を出力する撮像手段と、撮像手段が出力する画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段と、話者による発話の音声データのうちの、抽出範囲算出手段により算出された抽出範囲内の音声データを抽出する音声データ抽出手段とを備えることを特徴とする。

本発明の情報処理装置には、音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、話者ごとに記憶する記憶手段をさらに設けることができる。

本発明の情報処理装置には、音声データ抽出手段により抽出された音声データと、記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段をさらに設けることができる。

本発明の情報処理装置には、音声データ抽出手段により抽出された音声データを用いて話者識別を行う話者識別手段をさらに設けることができる。

本発明の情報処理装置には、話者による発話の音声データに基づいて、音源方位を推定する音源方位推定手段をさらに設けることができ、音声データ抽出手段には、音源方位推定手段により推定された音源方位に対応する抽出範囲内の音声データを抽出させ、話者識別手段には、音声データ抽出手段により抽出された音声データを用いて話者識別を行わせるようにすることができる。

本発明の情報処理装置には、音源方位推定手段により推定された音源方位に存在する話者と、話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段をさらに設けることができる。

本発明の情報処理装置には、撮像手段が出力する画像から話者の顔を検出する顔検出手段をさらに設けることができ、抽出範囲算出手段には、顔検出手段により検出された顔の位置関係に基づいて、抽出範囲を算出させるようにすることができる。

本発明の情報処理方法は、１以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップとを含むことを特徴とする。

本発明のプログラムは、１以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップとを含むことを特徴とする。

本発明の記録媒体に記録されているプログラムは、１以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップとを含むことを特徴とする。

本発明の情報処理装置および方法、プログラム、並びに記録媒体においては、１以上の話者が撮像されて、画像が出力される。また、その画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する抽出範囲が算出される。そして、話者による発話の音声データのうちの、抽出範囲内の音声データが抽出される。

本発明によれば、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出することができる。

また、本発明によれば、話者を精度よく識別することができる。

以下に本発明の最良の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項にすべて記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割されたり、補正により出現し、追加される発明の存在を否定するものではない。

請求項１に記載の情報処理装置は、１以上の話者を撮像し、画像を出力する撮像手段（例えば、図２のカメラモジュール２）と、前記撮像手段が出力する画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段（例えは、図４のビーム幅算出部１２２）と、前記話者による発話の音声データのうちの、前記抽出範囲算出手段により算出された前記抽出範囲内の音声データを抽出する音声データ抽出手段（例えば、図４のビームフォーミング処理部１４３）とを備えることを特徴とする。

請求項２に記載の情報処理装置は、前記音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶手段（例えば、図４の話者情報DB１３２）をさらに含むことができる。

請求項３に記載の情報処理装置は、前記音声データ抽出手段により抽出された音声データと、前記記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段（例えば、図４の音声識別処理部１５１）をさらに含むことができる。

請求項４に記載の情報処理装置は、前記音声データ抽出手段により抽出された音声データを用いて話者識別を行う話者識別手段（例えば、図４の音声識別処理部１５１）をさらに含むことができる。

請求項５に記載の情報処理装置は、前記話者による発話の音声データに基づいて、音源方位を推定する音源方位推定手段（例えば、図４の音源定位検出部１４２）をさらに含むことができ、前記音声データ抽出手段は、前記音源方位推定手段により推定された音源方位に対応する前記抽出範囲内の音声データを抽出し、前記話者識別手段は、前記音声データ抽出手段により抽出された音声データを用いて話者識別を行うようにすることができる。

請求項６に記載の情報処理装置は、前記音源方位推定手段により推定された音源方位に存在する話者と、前記話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段（例えば、図４の識別情報付与部１５２）をさらに含むことができる。

請求項７に記載の情報処理装置は、前記撮像手段が出力する画像から前記話者の顔を検出する顔検出手段（例えば、図４の顔検出部１２１）をさらに含むことができ、前記抽出範囲算出手段は、前記顔検出手段により検出された顔の位置関係に基づいて、前記抽出範囲を算出するようにすることができる。

請求項８に記載の情報処理方法は、１以上の話者を撮像し、画像を出力する撮像ステップ（例えば、図６のステップＳ１の処理）と、前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップ（例えは、図６のステップＳ４の処理）と、前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップ（例えば、図７のステップＳ４５の処理や図８のステップＳ７４の処理）とを含むことを特徴とする。

請求項９に記載のプログラム、および、請求項１０に記載の記録媒体に記録されているプログラムにおいても、各ステップが対応する実施の形態（但し一例）は、請求項８に記載の情報処理方法と同様である。

以下、図を参照して本発明の実施の形態について説明する。

図１は、本発明を適用したテーブルトップ型話者識別装置１の利用例の一実施の形態を示す図である。

図１は、３人の話者が会議室やリビングルームなどでテーブルを囲んで会議等を行っている様子を示している。なお、話者の数は３人に限定されるものではなく、１人以上の何人であってもよい。

テーブルのほぼ中央に置かれているテーブルトップ型話者識別装置１は、話者を識別し、話者と発話内容とを対応付けて議事録として記録するものである。このテーブルトップ型話者識別装置１の外観を図２に拡大して示す。

図２に示されるように、テーブルトップ型話者識別装置１は、円筒状の形状を有しており、カメラモジュール２、カメラモジュール２の上面に設けられるマイクアレイ（マイクロフォンアレイ）３、カメラモジュール２の下に配置される情報処理部４、および、情報処理部４の表面に設けられる表示部５から構成される。

カメラモジュール２は、３６０度の全周囲を撮像可能な、例えば、双曲面ミラー（カメラモジュール２の上方にある半球体）の真下に１つのカメラ２Ａがセットされたモジュールである。カメラモジュール２により撮像された全周囲画像データは情報処理部４に供給される。

なお、カメラモジュール２は、例えば、カメラの撮像方向を機械的に回転させて全周囲を撮像するものであってもよいし、それぞれの方位を撮像する複数のカメラから構成されるものであってもよい。

マイクアレイ３は、例えば、コンデンサマイクなどの４つのマイク３−１，３−２，３−３，３−４から構成される。マイク３−１乃至３−４により集音された音声は図示せぬケーブルなどを介して情報処理部４に供給される。当然、マイクアレイ３は、４つ以外の複数のマイクから構成されるようにしてもよい。

情報処理部４は、カメラモジュール２から供給される全周囲画像データに基づいて、テーブルトップ型話者識別装置１を囲む話者の方位を検出し、それぞれの話者の位置関係に基づいて、音声データをビームフォーミングする方位の幅であるビームフォーミング幅をそれぞれの話者について算出する。

また、情報処理部４は、算出したビームフォーミング幅を用いて、マイクアレイ３に入力された音声からそれぞれの話者の発話を抽出して話者識別を行い、その識別結果と発話の内容を対応付けて記録する。

後に詳述するように、ビームフォーミングによれば、それぞれの話者による発話が精度よく（ノイズが少ないものとして）抽出されることから、ビームフォーミングを行わずに発話を集音する場合に較べて、より好適な話者を識別するための標準パターンを得ることができるとともに、標準パターンを得た後の話者識別を精度よく行うことができる。

表示部５はLCD(Liquid Crystal Display)などよりなり、ここには、例えば、カメラモジュール２で撮像された話者の画像データや、情報処理部４による話者識別の結果などが表示される。

図３は、図２のテーブルトップ型話者識別装置１のハードウェア構成例を示すブロック図である。

CPU（Central Processing Unit）５１は、ROM（Read Only Memory）５２に記憶されているプログラム、または記憶部５８からRAM（Random Access Memory）５３にロードされたプログラムに従って各種の処理を実行する。RAM５３にはまた、CPU５１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU５１，ROM５２、およびRAM５３は、バス５４を介して相互に接続される。バス５４にはまた、入出力インタフェース５５も接続される。

入出力インタフェース５５には、カメラモジュール２、マイクアレイ３や図示せぬ各種のボタンなどよりなる入力部５６、表示部５やスピーカ（図示せず）などよりなる出力部５７、ハードディスクなどにより構成される記憶部５８、モデムやLAN（Local Area Network）アダプタなどにより構成される通信部５９が接続される。

記憶部５８は、CPU５１により制御され、通信部５９を介して供給されたプログラムなどのデータを保存し、必要に応じて、保存してあるデータをRAM５３、出力部５７、通信部５９等に供給する。

通信部５９は、ネットワークを介して他の装置（図示せず）と通信を行う。また、通信部５９は、モデム等を用いた通信の他にも、例えば、USB（Universal Serial Bus），IEEE（Institute of Electrical and Electronic Engineers）１３９４、またはSCSI（Small Computer System Interface）等の各種の規格に準拠した通信処理を行う機能を有している。

入出力インタフェース５５にはまた、ドライブ６０が接続され、磁気ディスク６１（フレキシブルディスクを含む）、光ディスク６２（CD-ROM（Compact Disk-Read Only Memory），DVD（Digital Versatile Disk）を含む）、光磁気ディスク６３（ＭＤ(Mini-Disk)（商標）を含む）、或いは半導体メモリ６４などが適宜装着され、それらから読み出されたプログラムが、必要に応じて記憶部５８にインストールされる。

図４は、図２の情報処理部４の機能的な構成例を示す図である。

図４の構成の少なくとも一部は、例えば、図３のCPU５１により所定のプログラムが実行されることにより実現される。

情報処理装置４には、顔検出部１２１とビーム幅算出部１２２から構成される画像データ処理部１１１、DB（Data Base）管理部１３１と話者情報DB１３２から構成される登録部１１２、マイクアレイI/F（Interface）１４１、音源定位検出部１４２、およびビームフォーミング処理部１４３から構成される音声データ処理部１１３、並びに、音声識別処理部１５１、識別情報付与部１５２、出力制御部１５３、および議事録DB１５４から構成される話者識別部１１４が実現される。

画像データ処理部１１１の顔検出部１２１は、カメラモジュール２から供給される全周囲画像データのうちの話者の顔に対応する領域の顔画像データを検出し、顔の方位を、話者の方位として検出する。顔検出部１２１は、検出した各話者の話者方位と顔画像データに、その話者を識別するための話者ID（Identification）を対応付け、話者IDが対応付けられた話者方位と顔画像データをビーム幅算出部１２２に供給する。

なお、顔検出部１２１においては、顔画像データにおける、例えば、目や鼻などに対応する領域の重心や、肌色の領域の重心が検出され、カメラモジュール２から、その重心に向かう方位が話者方位として検出される。

ビーム幅算出部１２２は、顔検出部１２１から供給される話者方位から得られる話者の位置関係に基づいて、話者それぞれについてビームフォーミング幅を算出し、話者方位と、算出したビームフォーミング幅を話者IDに対応付けて音源定位検出部１４２に供給する。また、ビームフォーミング幅算出部１２２は、顔検出部１２１から供給される顔画像データをDB管理部１３１に供給する。ビーム幅算出部１２２によるビームフォーミング幅の算出については図５を用いて後述する。

登録部１１２のDB管理部１３１は、ビーム幅算出部１２２から供給される顔画像データや、話者識別部１１４から供給される、各話者の音声の標準パターンを話者情報DB１３２に記憶させる。話者情報DB１３２に登録された顔画像データや標準パターンは、必要に応じて、音声識別処理部１５１に提供される。

音声データ処理部１１３のマイクアレイI/F１４１は、マイクアレイ３から供給されるアナログ音声信号をA/D（Analog/Digital）変換し、得られたディジタルの音声データを音源定位検出部１４２とビームフォーミング処理部１４３に供給する。

音源定位検出部１４２は、マイクアレイI/F１４１から供給される音声データから音源方位を推定し、その推定した音源方位（推定方位）に最も近い方位にいる話者を、ビーム幅算出部１２２から供給される話者方位に基づいて検出する。

ここで、音源定位検出部１４２では、例えば、マイク３−１乃至３−４のそれぞれにより集音された音声データの相関性が最も大きくなるときの時間差（位相差）が求められ、その時間差に基づいて、発話の音源（話者）の音源方位が推定される。また、音源定位検出部１４２では、マイク３−１乃至３−４それぞれからの音声データを解析することにより、例えば、同時に発話された複数の音声データそれぞれの音源方位を推定することも行われる。

また、音源定位検出部１４２は、検出した話者のビームフォーミング幅を、ビーム幅算出部１２２から供給される全ての話者のビームフォーミング幅の中から選択し、選択したビームフォーミング幅を、その話者の話者方位とともにビームフォーミング処理部１４３に供給する。

さらに、音源定位検出部１４２は、検出した話者の話者ID（話者方位に対応付けられている話者ID）を、話者識別部１１４の音声識別処理部１５１と識別情報付与部１５２に供給することも行う。

ビームフォーミング処理部１４３は、音源定位検出部１４２から供給される話者方位とビームフォーミング幅を用いて、マイクアレイI/F１４１から供給される音声データのビームフォーミングを行う。

即ち、ビームフォーミング処理部１４３は、音源定位検出部１４２から供給される話者方位を基準とし、ビームフォーミング幅により表される範囲の方位からの音声データを、マイクアレイI/F１４１から供給される全ての方位からの音声データから強調することにより、その範囲の方位からの音声データを抽出する。

従って、ここで抽出される音声データは、ある１人の話者による音声データのみが強調されたものとなり（他の話者の音声や反射音の音声データなどが除去（抑制）されたものとなる）、精度の高い話者識別などが実現可能となる標準パターン、或いは、話者識別の対象とする音声を得ることが可能になる。

ビームフォーミング処理部１４３は、ビームフォーミングにより抽出された音声データを音声識別処理部１５１に供給する。

なお、ビームフォーミング処理部１４３は、音源定位検出部１４２において複数の音源方位が推定された場合には、その複数の音源方位に対応するそれぞれの話者方位とビームフォーミング幅の供給を受け、その複数の話者方位とビームフォーミング幅それぞれに対して、マイクアレイI/F１４１から供給される音声データから音声データを抽出する。

話者識別部１１４の音声識別処理部１５１は、ビームフォーミング処理部１４３から供給される音声データ（音源定位検出部１４２から供給される話者方位とビームフォーミング幅に対して行われたビームフォーミングにより得られた音声データ）を離散フーリエ変換（DFT(Discrete Fourier Transform)）するなどして音声特徴量を抽出し、その音声特徴量に基づき、話者識別のために用いられる、例えば、HMM（Hidden Makov Model）などの標準パターン（モデル）を生成する。

また、音声識別処理部１５１は、その標準パターンに、音源定位検出部１４２から供給される話者ID（標準パターンを生成するのに用いられた音声データを得るためのビームフォーミングに使用された話者方位とビームフォーミング幅に対応付けられた話者ID）を対応付け、それらのデータをDB管理部１３１に供給する。DB管理部１３１に供給された、話者IDに対応付けられた標準パターンは話者情報DB１３２に記憶される。

マイクアレイ３に入力された音声の話者識別を行うとき、音声識別処理部１５１は、ビームフォーミング処理部１４３から供給される音声データから抽出された音声特徴量と、話者情報DB１３２に登録されている標準パターンを用いて、例えば、HMM法に基づく話者識別を行う。HMM法に基づく話者識別により得られる、ビームフォーミング処理部１４３からの音声データが観測される尤度が最も高い標準パターン（モデル）に対応付けられている話者IDは、話者の識別結果として、ビームフォーミング処理部１４３から供給された音声データとともに識別情報付与部１５２に供給される。

識別情報付与部１５２は、音源定位検出部１４２から供給される話者IDと、音声識別処理部１５１から供給される話者IDが一致するか否かの判定を行う。識別情報付与部１５２は、それらの話者IDが一致すると判定した場合、即ち、音声識別処理部１５１における話者識別の結果得られる話者と、音源定位検出部１４２で推定された音源の推定方位に最も近い方位にいる話者が一致すると判定した場合、その話者IDに対応付けられている顔画像データをDB管理部１３１を介して話者情報DB１３２から読み出し、音声識別処理部１５１から供給される音声データとともに出力制御部１５３に供給する。

音声識別処理部１５１における話者識別の結果得られる話者と、音源定位検出部１４２で推定された音源の推定方位に最も近い方位にいる話者が一致する場合に出力制御部１５３に供給されるようにしたため、より精度の高い話者識別結果を得ることが可能になる。

出力制御部１５３は、識別情報付与部１５２から供給される顔画像データより得られる画像を表示部５に表示させる。従って、表示部５には、識別された話者の顔画像が表示されることになる。なお、話者識別の結果である顔画像が表示部５に表示されるだけでなく、識別された話者の音声がスピーカから出力制御部１５３により出力されるようにしてもよい。

また、出力制御部１５３は、識別情報付与部１５２から供給される音声データと顔画像データを話者IDなどに対応付けて議事録DB１５４に記憶させる。

ここで、以上のような構成を有する情報処理部４によるビームフォーミングについて説明する。

情報処理部４において行われる遅延和ビームフォーミング（遅延和方式によるビームフォーミング）は、マイク３−１乃至３−４それぞれからの音声データを、マイク間の距離に対応する時間遅延に基づいて同相化し、所定の方位からの音声データのみを、その位相を合わせることによって強調させるものである。

従って、遅延和ビームフォーミングによれば、所定の方位以外の、他の方位からの音声データや、マイク間の距離に無関係な、例えば、マイク自身の雑音などが除去されることになる。

ところで、ビームフォーミング時のビームフォーミング幅は、それが狭いほど、ある１人の話者の音声データを、他の話者の音声データから分離することができる。しかしながら、ビームフォーミング幅が狭いと、マイクアレイ３で得られた音声データの情報量が低減し、さらに、ビームフォーミングによって抽出される音声データが、こもった音となってしまう。

一方、ビームフォーミング幅を単に広くしてしまうと、マイクアレイ３からの音声データから、ある１人の話者の音声データを精度良く抽出することが困難となる。即ち、ビームフォーミング幅を単に広くした場合、ある１人の話者の音声データを抽出するときに、その話者に隣接する話者の音声データも抽出してしまうことになる。

そこで、情報処理部４では、各話者の音声データを、他の話者の音声データと精度良く区別して抽出することができる、より広い幅のビームフォーミング幅を、話者同士の位置関係に基づいて算出することが行われる。これにより、話者それぞれに最適なビームフォーミング幅を得ることができる。

話者同士の位置関係に基づくビームフォーミング幅の算出について、図５Ａ，Ｂを参照して説明する。

図５Ａは、図５Ｂに示されるように、４人の話者Ｘ−１乃至Ｘ＋２がテーブルトップ型話者識別装置１を囲んでいる状態において、カメラモジュール２により撮像された全周囲の画像を展開したものの例を示している。

なお、図５Ａでは、カメラモジュール２を中心とする３６０度の周囲の全周囲画像データを、横方向を円周方向（角度方向）とするとともに、縦方向を半径方向として、長方形状の画像データとして示してある。従って、図５の上の全周囲画像データの左端の方位を例えば０度とすると、その右端の方位は３６０度である。

また、図５Ａでは、話者Ｘ＋ｉが位置する方位（話者方位）をＤ_X+iで表している（ｉ＝−１，０，１，２）。

図４のビーム幅算出部１２２は、話者Ｘのビームフォーミング幅Ｂ_Xを算出する場合、話者Ｘの方位Ｄ_Xと、話者Ｘの反時計回り方向に隣接する話者Ｘ−１の方位Ｄ_X-1の方位の差（角度）｜Ｄ_X-1−Ｄ_X｜を算出するとともに、話者Ｘの方位Ｄ_Xと、話者Ｘの時計回り方向に隣接する話者Ｘ＋１の方位Ｄ_X+1の方位の差｜Ｄ_X+1−Ｄ_X｜を算出する。

そして、ビーム幅算出部１２２は、話者Ｘと話者Ｘ−１の方位の差｜Ｄ_X-1−Ｄ_X｜と、話者Ｘと話者Ｘ＋１の方位の差｜Ｄ_X+1−Ｄ_X｜のうちの小さい方を、話者Ｘのビームフォーミング幅Ｂ_X（図５Ｂの斜線が付されている部分）とする。

同様に、ビーム幅算出部１２２は、話者Ｘ＋１と話者Ｘの方位の差｜Ｄ_X−Ｄ_X+1｜と、話者Ｘ＋１と話者Ｘ＋２の方位の差｜Ｄ_X+2−Ｄ_X+1｜のうちの小さい方を、話者Ｘ＋１のビームフォーミング幅Ｂ_X+1とする。

さらに、ビーム幅算出部１２２は、話者Ｘ＋２と話者Ｘ＋１の方位の差｜Ｄ_X+1−Ｄ_X+2｜と、話者Ｘ＋２と話者Ｘ−１の方位の差｜Ｄ_X-1−Ｄ_X+2｜のうちの小さい方を、話者Ｘ＋２のビームフォーミング幅Ｂ_X+2とし、話者Ｘ−１と話者Ｘ＋２の方位の差｜Ｄ_X+2−Ｄ_X-1｜と、話者Ｘ−１と話者Ｘの方位の差｜Ｄ_X−Ｄ_X-1｜のうちの小さい方を、話者Ｘ−１のビームフォーミング幅Ｂ_X-1とする。

なお、話者と反時計回り方向に隣接する他の話者との方位差と、話者と時計回り方向に隣接する他の話者との方位差のうちの小さい方を、その話者のビームフォーミング幅とすることで、話者の方位に最も近い方位にいる他の話者の方位の中心までが、話者のビームフォーミング幅とされる。従って、話者それぞれにとって、最も近い方位にいる他の話者の方位の中心までがビームフォーミングされることとなる。

上述のように、ビーム幅算出部１２２は、所定の話者のビームフォーミング幅を、所定の話者の方位と、反時計回り方向に隣接する他の話者の方位との差、もしくは、所定の話者の方位と、時計回り方向に隣接する他の話者の方位との差のうちの小さい方とする。これにより、所定の話者の音声データが、他の話者の音声データと分離されて最適なビームフォーミング幅でビームフォーミングされることとなる。

なお、その他、例えば、話者Ｘについて、（Ｄ_X-1＋Ｄ_X）／２から（Ｄ_X+1＋Ｄ_X）／２までの範囲の角度を、ビームフォーミング幅とすることが可能である。他の話者Ｘ−１，Ｘ＋１、およびＸ＋２についても同様である。

このように、話者同士の位置関係に基づいて、ビームフォーミング幅が求められ、そのビームフォーミング幅を用いて、話者それぞれに適したビームフォーミングがなされるので、マイクアレイ３が出力する音声データから他の話者の発話や、マイク自身のノイズなどが除かれた音声データを抽出することができる。

次に、以上の構成を有するテーブルトップ型話者識別装置１の動作について説明する。

始めに、図６のフローチャートを参照して、話者方位とビームフォーミング幅を求めるとともに、顔画像データを話者情報DB１３２に登録するテーブルトップ型話者識別装置１の処理について説明する。

例えば、テーブルトップ型話者識別装置１の電源が投入され、所定のボタンが操作されたとき、ステップＳ１において、カメラモジュール２は、テーブルトップ型話者識別装置１を囲む全周囲を撮像し、全周囲画像データを取得して、それを顔検出部１２１に供給する。

ステップＳ２において、顔検出部１２１は、カメラモジュール２から供給される全周囲画像データから話者の顔に対応する顔画像データを抽出し、抽出した顔画像データのそれぞれに固有の話者IDを付与する。

ステップＳ３において、顔検出部１２１は、話者のそれぞれについて、その話者の顔画像データからカメラモジュール２を中心とした実世界での話者の位置の方位である話者方位を検出する。検出された話者方位は、顔画像データとともに話者IDに対応付けられて、ビーム幅算出部１２２に供給される。

ステップＳ４において、ビーム幅算出部１２２は、顔検出部１２１から供給される、話者IDに対応付けられた話者方位に基づいてビームフォーミング幅を算出する。即ち、ビーム幅算出部１２２は、ある話者IDに注目し、その注目している話者IDに対応付けられている話者方位と、その話者IDの話者の両隣にいる２人の話者の話者IDに対応付けられた話者方位を認識し、その２人の話者の一方または他方の話者方位それぞれと、注目している話者IDの話者の話者方位との差を求め、小さい方の差を、注目している話者IDの話者のビームフォーミング幅とする。同様に、ビーム幅算出部１２２は、すべての話者（話者ID）についてビームフォーミング幅を算出する。

また、ビーム幅算出部１２２は、ステップＳ５において、話者IDに対応付けられている話者方位と、その話者IDの話者のビームフォーミング幅を対応付け、各話者IDと、話者IDに対応付けられている話者方位とビームフォーミング幅を、音源定位検出部１４２に供給する。

ステップＳ６において、ビーム幅算出部１２２は、各話者IDに対応付けた顔画像データをDB管理部１３１に供給する。DB管理部１３１においては、話者IDに対応付けられている顔画像データが話者情報DB１３２に登録され、処理が終了する。

なお、ビーム幅算出部１２２は、話者が一人の場合、即ち、顔検出部１２１から供給された話者IDが１つの場合には、話者のビームフォーミング幅を、例えば、所定のデフォルトのビームフォーミング幅とする。

以上のようにして、カメラモジュール２により取得された全周囲画像データに基づいて、話者方位、顔画像データ、およびビームフォーミング幅が得られ、話者IDに対応付けられた話者方位とビームフォーミング幅が音源定位検出部１４２に供給される。また、話者IDに対応付けられた顔画像データが話者情報DB１３２に登録される。

次に、図７のフローチャートを参照して、話者の音声データの標準パターンを話者情報DB１３２に登録する処理について説明する。

この処理は、図６を参照して説明した処理の後に行われるものである。従って、音源定位検出部１４２には、各話者の話者IDに対応付けられた話者方位とビームフォーミング幅がビーム幅算出部１２２から供給されている。

ステップＳ４１において、音源定位検出部１４２は、ビーム幅算出部１２２から供給される話者IDに対応付けられた話者方位とビームフォーミング幅を受信し、その内蔵するメモリ（図示せず）に記憶する。

話者方位とビームフォーミング幅をメモリに記憶した後、音源定位検出部１４２は、ステップＳ４２に進み、マイクアレイI/F１４１から音声データが供給されたか否かを判定する。

ステップＳ４２において、マイクアレイI/F１４１から音声データが供給されていないと判定された場合、即ち、いずれの話者も発話を行っていない場合、音源定位検出部１４２は、音声データが供給されるまで待機する。

一方、ステップＳ４２において、マイクアレイI/F１４１から音声データが供給されたと判定された場合、即ち、発話がマイクアレイ３に入力され、マイクアレイI/F１４１により得られたディジタルの音声データが音源定位検出部１４２とビームフォーミング処理部１４３に供給された場合、ステップＳ４３に進み、音源定位検出部１４２は、マイクアレイ３を構成するマイク３−１乃至３−４それぞれからの音声データに基づいて、発話の音源方位を推定する。

音源定位検出部１４２は、ステップＳ４３において、ステップＳ４１でビーム幅算出部１２２から供給され、メモリに記憶しておいた全ての話者方位に基づいて、ステップＳ４２で推定した音源方位に最も近い方位の話者を検出し、その話者の方位（撮像画像から得られた方位）に対応付けられている話者IDを、同じくメモリに記憶しておいた全ての話者の話者IDの中から選択する。選択された話者IDは音声識別処理部１５１に供給される。

ステップＳ４４において、音源定位検出部１４２は、ステップＳ４３の処理で選択した話者IDに対応付けられている話者方位とビームフォーミング幅をビームフォーミング処理部１４３に供給する。ここで供給される話者方位とビームフォーミング幅は、音声データをビームフォーミングする方位とビームフォーミング幅としてビームフォーミング処理部１４３により設定される。

ステップＳ４５において、ビームフォーミング処理部１４３は、マイクアレイI/F１４１から供給される音声データを、音源定位検出部１４２から供給される話者方位とビームフォーミング幅に基づいてビームフォーミングし、これにより、音源定位検出部１４２からの話者方位を中心とする、ビームフォーミング幅が表す範囲の方位（話者方位から、ビームフォーミング幅が表す範囲（角度）の＋１／２の角度から−１／２の角度までの方位）からの音声データを強調し、強調して得られた音声データを音声識別処理部１５１に供給する。

ステップＳ４６において、音声識別処理部１５１は、ビームフォーミング処理部１４３から供給される音声データ（ビームフォーミングされた音声データ）から音声特徴量を抽出し、その音声特徴量から標準パターンを生成する。さらに、音声識別処理部１５１は、その標準パターンに対して、音源定位検出部１４２からの話者IDを対応付けてDB管理部１３１に供給する。

ステップＳ４７において、DB管理部１３１は、音声識別処理部１５１から供給される話者IDに対応付けられた標準パターンを、話者情報DB１３２に登録されている話者IDのうちの同一の話者IDに対応付けて登録し、処理を終了させる。

なお、ステップＳ４２乃至Ｓ４７の処理は、話者それぞれについて少なくとも１回以上行われ、話者情報DB１３２には、話者それぞれの顔画像データおよび標準パターンが、話者IDに対応付けられて登録される。この話者情報DB１３２に登録された情報に基づいて、図８の話者識別処理が行われる。

次に、図８のフローチャートを参照して、話者情報DB１３２に登録されている情報に基づいて行われる話者識別処理について説明する。

ステップＳ７１において、音源定位検出部１４２は、マイクアレイI/F１４１から音声データが供給されたか否かを判定し、音声データが供給されるまで待機する。

音源定位検出部１４２は、ステップＳ７１において、マイクアレイI/F１４１から音声データが供給されたと判定した場合、ステップＳ７２に進み、マイクアレイ３を構成するマイク３−１乃至３−４それぞれからの音声データに基づいて発話の音源方位を推定する。

ステップＳ７２において、音源定位検出部１４２は、図７のステップＳ４１の処理でビーム幅算出部１２２から供給された話者方位のうちの、推定方位に最も近い方位の話者を検出し、その話者の方位に対応付けられている話者IDを識別情報付与部１５２に供給する。

また、音源定位検出部１４２は、ステップＳ７３において、ステップＳ７２の処理で識別情報付与部１５２に供給した話者IDに対応付けられている話者方位とビームフォーミング幅をビームフォーミング処理部１４３に供給する。ビームフォーミング処理部１４３は、音源定位検出部１４２から供給される話者方位とビームフォーミング幅を、ビームフォーミングする方位とビームフォーミング幅として設定する。

ステップＳ７４において、ビームフォーミング処理部１４３は、マイクアレイI/F１４１から供給される音声データを、音源定位検出部１４２から供給される話者方位とビームフォーミング幅に基づいてビームフォーミングし、これにより、音源定位検出部１４２からの話者方位を中心とする、ビームフォーミング幅が表す範囲の方位（話者方位から、ビームフォーミング幅が表す範囲（角度）の＋１／２の角度から−１／２の角度までの方位）からの音声データを強調し、音声識別処理部１５１に供給する。

ステップＳ７５において、音声識別処理部１５１は、ビームフォーミング処理部１４３から供給されるビームフォーミングされた音声データから音声特徴量を抽出する。

音声識別処理部１５１は、ステップＳ７６において、DB管理部１３１を介して得られる、話者情報DB１３２に登録されている話者の標準パターンを参照し、発話を行った話者の話者識別を行う。

即ち、音声識別処理部１５１は、話者情報DB１３２に登録されている標準パターンのうちの、ビームフォーミング処理部１４３からの音声データの音声特徴量が観測される尤度が高い標準パターンに対応付けられている話者IDを特定する。さらに、音声識別処理部１５１は、その話者IDと、ビームフォーミング処理部１４３からの音声データを識別情報付与部１５２に供給する。

ステップＳ７７に進み、識別情報付与部１５２は、音源定位検出部１４２からの話者ID（ステップＳ７２で音源定位検出部１４２が推定した推定方位に最も近い話者方位に対応付けられている話者ID）と、ステップＳ７６で音声識別処理部１５１から供給された話者識別の結果得られた話者IDが一致するか否かを判定する。

識別情報付与部１５２は、ステップＳ７７において、音源定位検出部１４２からの話者IDと、音声識別処理部１５１から供給された話者識別の結果得られた話者IDが一致しないと判定した場合、ステップＳ７８に進み、所定のエラー処理を行う。

ステップＳ７８において行われるエラー処理としては、例えば、カメラモジュール２によって全周囲画像データを取得して、話者方位およびビームフォーミング幅を再算出することができる。この場合、話者が移動して話者方位や最適なビームフォーミング幅が変化したときなどに、話者方位やビームフォーミング幅をリアルタイムに変更することができる。

一方、ステップＳ７７において、音源定位検出部１４２からの話者IDと、音声識別処理部１５１から供給された話者識別の結果得られた話者IDが一致すると判定した場合、ステップＳ７９に進み、識別情報付与部１５２は、その一致する話者IDを、最終的な話者識別結果とし、その話者IDに対応付けられている顔画像データを、DB管理部１３１を介して話者情報DB１３２から取得する。その後、識別情報付与部１５２は、音声識別処理部１５１から供給された音声データとともに顔画像データを出力制御部１５３に供給し、話者識別処理を終了させる。

出力制御部１５３においては、顔画像の表示や、音声の出力が行われる。

以上のように、テーブルトップ型話者識別装置１においては、推定された音源の方位に最も近い方位の話者の話者IDと、音声識別処理部１５１による話者識別の結果得られた話者IDとが一致した場合のみ、その話者IDが最終的な話者識別結果とされることから、このような判定を行わない場合に較べて、その結果は精度の高いものとなる。

また、標準パターンを生成するときの音声データと、話者を識別するときの音声データとが、同一の環境で取得されるので、音声識別処理部１５１における話者識別の精度を向上させることができる。

なお、図８のステップＳ７２において、音源定位検出部１４２では、マイク３−１乃至３−４それぞれからの音声データに基づいて複数の発話の音源方位が推定された場合、即ち、複数の話者が同時に発話し、これにより、複数の音源方位が推定された場合、後段のビームフォーミング処理部１４３では、音源定位検出部１４２から供給される複数の話者それぞれの話者IDに対応付けられている話者方位とビームフォーミング幅が用いられてビームフォーミングが行われ、それぞれの音声データに基づいて音声識別処理部１５１により話者識別が行われることから、複数の話者が同時に発話を行った場合でも、それぞれの話者を識別することができる。

また、全周囲画像データから顔を検出するようにしたので、例えば、話者識別結果として表示される話者の顔画像データを登録する作業を省くことができる。なお、カメラモジュール２では、全周囲画像データを得るようにしたが、全周囲のうちの一部の範囲の画像データを得るようにすることも可能である。

さらに、本発明は、テーブルトップ型話者識別装置１に適用するのみならず、例えば、ロボットの視聴覚技術に適用することができる。本発明をロボットの視聴覚技術に適用した場合、ロボットの視覚内で同時に複数の話者が発話した場合でも、話者それぞれを識別することができる。

また、本実施の形態では、音声識別処理部１５１において離散フーリエ変換によって音声特徴量を抽出することとしたが、音声特徴量の抽出方法は、離散フーリエ変換に限定されるものではない。

さらに、音声識別処理部１５１での話者識別は、HMM法以外で行うことも可能である。

また、図７のステップＳ４２の処理、および図８のステップＳ７１の処理において音源定位検出部１４２に音声データが供給されたか否かを判定する場合、マイクアレイ３が出力する音の信号から話者が発話をした区間である発話区間を検出し、発話区間が検出されたときに音声データが供給されたと判定することができる。

なお、図３のCPU５１が行う、上述した一連の処理を実行するためのプログラムは、ダウンロードサイトからダウンロードしてインストールすることができる。また、プログラムは、記録媒体からインストールすることができる。

このプログラムが記録された記録媒体は、磁気ディスク６１、光ディスク６２、光磁気ディスク６３、もしくは半導体メモリ６４などよりなるパッケージメディアとして配布することができる。

ここで、本明細書において、説明したフローチャートに記述された各ステップの処理は、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、上述した一連の処理は、ソフトウェアにより実行することとしたが、専用のハードウェアにより実行することもできる。

本発明を適用したテーブルトップ型話者識別装置の一実施の形態の利用例を示す図である。図１のテーブルトップ型話者識別装置を拡大して示す斜視図である。テーブルトップ型話者識別装置のハードウェア構成例を示すブロック図である。図２の情報処理部の機能的な構成例を示すブロック図である。ビームフォームングについて説明する図である。話者方位とビームフォーミング幅を求める処理を説明するフローチャートである。音声データの標準パターンを話者情報DBに登録する処理を説明するフローチャートである。話者識別処理を説明するフローチャートである。

符号の説明

１テーブルトップ型話者識別装置，２カメラモジュール，３マイクアレイ，４情報処理部，５表示部，５１ CPU，５２ ROM，５３ RAM，５４バス，５５入出力インタフェース，５６入力部，５７出力部，５８記憶部，５９通信部，６０ドライブ，６１磁気ディスク，６２光ディスク，６３光磁気ディスク，６４半導体メモリ，１２１顔検出部，１２２ビーム幅算出部，１３１ DB管理部，１３２話者情報DB，１４１マイクアレイI/F，１４２音源定位検出部，１４３ビームフォーミング処理部，１５１音声識別処理部，１５２識別情報付与部，１５３出力制御部，１５４議事録DB

Claims

１以上の話者を撮像し、画像を出力する撮像手段と、
前記撮像手段が出力する画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段と、
前記話者による発話の音声データのうちの、前記抽出範囲算出手段により算出された前記抽出範囲内の音声データを抽出する音声データ抽出手段と
を備えることを特徴とする情報処理装置。
前記音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶手段をさらに備える
ことを特徴とする請求項１に記載の情報処理装置。
前記音声データ抽出手段により抽出された音声データと、前記記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段をさらに備える
ことを特徴とする請求項２に記載の情報処理装置。
前記音声データ抽出手段により抽出された音声データを用いて話者識別を行う話者識別手段をさらに備える
ことを特徴とする請求項１に記載の情報処理装置。
前記話者による発話の音声データに基づいて、音源方位を推定する音源方位推定手段をさらに備え、
前記音声データ抽出手段は、前記音源方位推定手段により推定された音源方位に対応する前記抽出範囲内の音声データを抽出し、
前記話者識別手段は、前記音声データ抽出手段により抽出された音声データを用いて話者識別を行う
ことを特徴とする請求項４に記載の情報処理装置。
前記音源方位推定手段により推定された音源方位に存在する話者と、前記話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段をさらに備える
ことを特徴とする請求項５に記載の情報処理装置。
前記撮像手段が出力する画像から前記話者の顔を検出する顔検出手段をさらに備え、
前記抽出範囲算出手段は、前記顔検出手段により検出された顔の位置関係に基づいて、前記抽出範囲を算出する
ことを特徴とする請求項１に記載の情報処理装置。
１以上の話者を撮像し、画像を出力する撮像ステップと、
前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと
を含むことを特徴とする情報処理方法。
コンピュータが実行可能なプログラムであって、
１以上の話者を撮像し、画像を出力する撮像ステップと、
前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと
を含むことを特徴とするプログラム。
コンピュータが実行可能なプログラムが記録されている記録媒体であって、
１以上の話者を撮像し、画像を出力する撮像ステップと、
前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと
を含むことを特徴とするプログラムが記録された記録媒体。