JP2005274707A - 情報処理装置および方法、プログラム、並びに記録媒体 - Google Patents

情報処理装置および方法、プログラム、並びに記録媒体 Download PDF

Info

Publication number
JP2005274707A
JP2005274707A JP2004084814A JP2004084814A JP2005274707A JP 2005274707 A JP2005274707 A JP 2005274707A JP 2004084814 A JP2004084814 A JP 2004084814A JP 2004084814 A JP2004084814 A JP 2004084814A JP 2005274707 A JP2005274707 A JP 2005274707A
Authority
JP
Japan
Prior art keywords
speaker
voice data
speakers
unit
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004084814A
Other languages
English (en)
Other versions
JP4595364B2 (ja
Inventor
Tomohiko Goto
智彦 後藤
Katsuhiro Takematsu
克浩 竹松
Tamaki Kojima
環 児嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004084814A priority Critical patent/JP4595364B2/ja
Publication of JP2005274707A publication Critical patent/JP2005274707A/ja
Application granted granted Critical
Publication of JP4595364B2 publication Critical patent/JP4595364B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】発話から話者を精度よく識別する。
【解決手段】 カメラモジュール2は、1以上の話者を撮像し、画像データを顔検出部121に出力する。顔検出部121は、画像データのうちの話者の顔に対応する領域の顔画像データを検出し、話者のいる方位、即ち、話者方位を検出する。ビーム幅算出部122は、話者方位から得られる話者同士の位置関係に基づいて、話者それぞれのビームフォーミング幅を算出する。ビームフォーミング処理部143は、マイクアレイ3(マイク3−1乃至3−4)からの音声データを、所定の話者方位とビームフォーミング幅とに基づいてビームフォーミングする。本発明は、例えば、話者識別を行う話者識別装置に適用することができる。
【選択図】図4

Description

本発明は、情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出し、例えば、話者を精度よく識別することができるようにする情報処理装置および方法、プログラム、並びに記録媒体に関する。
近年、会議などに参加している複数の話者の発話を議事録として自動的に記録する電子会議システムがある。この電子会議システムにより記録された発話の再生時には、再生された音にノイズが少ないことはもとより、聴いている人が、話者(発話主)を識別することができることも望まれる。
そこで、再生時にそれぞれの話者を識別することができるように、例えば、それぞれの話者用のものとしてマイク(マイクロフォン)を予め設置し、各話者に割り当てられたマイクを電子会議システムに登録しておくことにより、音声が入力されたマイクから、話者を識別するものが提案されている。
また、例えば、それぞれの話者に向けてマイクの指向性を固定し、話者の方位を電子会議システムに登録しておくことにより、音源の方位から、話者を識別するものも提案されている。
ところで、特許文献1には、マイクアレイから入力された発話の音声データに基づいて音源方位を推定し、その音源方位に、カメラおよび高指向性集音マイクを向けて、発話を行っている話者の画像と音声とを合わせて取得する撮像システムが開示されている。
また、特許文献2には、話者を認識して追跡するロボットが開示されている。
特開平6−351015号公報 特開2002−366191号公報
上述したような従来の電子会議システムによっては、マイクに入力された発話から話者を識別させるためには、マイクやその指向性と、それぞれの話者との対応関係が既知であることが前提になっていることから、それらの関係が未知の場合、話者識別を行わせることができないという課題があった。
すなわち、ユーザは、マイクと話者、或いはマイクの指向性と話者の関係について、電子会議システムに予め登録しておく必要がある。
また、特許文献1に記載されている技術によっては、話者のいる方位を推定するための元になる音声を集音するためのマイクアレイと、方位を推定した後、それぞれの話者の音声を集音するための高指向性集音マイクとの2種類のマイクが必要になる。
さらに、特許文献2に記載されている技術によっては、マイクとカメラを制御して特定の話者を追跡することを目的としており、複数の話者それぞれを識別することは考慮されていない。
また、予め登録した話者それぞれの音声の標準パターン(モデル)と、会議などにおける発話の音声データの音声特徴量とを用いて話者識別を行う方法がある。しかしながら、この方法では、予め登録する標準パターンを作成するのに用いる音声を得るときの環境と、会議などにおいて音声特徴量を抽出する音声を得るときの環境とが異なることに起因して、話者識別の精度が劣化することがあった。
本発明は、このような状況に鑑みてなされたものであり、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出し、例えば、話者を精度よく識別することができるようにするものである。
本発明の情報処理装置は、1以上の話者を撮像し、画像を出力する撮像手段と、撮像手段が出力する画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段と、話者による発話の音声データのうちの、抽出範囲算出手段により算出された抽出範囲内の音声データを抽出する音声データ抽出手段とを備えることを特徴とする。
本発明の情報処理装置には、音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、話者ごとに記憶する記憶手段をさらに設けることができる。
本発明の情報処理装置には、音声データ抽出手段により抽出された音声データと、記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段をさらに設けることができる。
本発明の情報処理装置には、音声データ抽出手段により抽出された音声データを用いて話者識別を行う話者識別手段をさらに設けることができる。
本発明の情報処理装置には、話者による発話の音声データに基づいて、音源方位を推定する音源方位推定手段をさらに設けることができ、音声データ抽出手段には、音源方位推定手段により推定された音源方位に対応する抽出範囲内の音声データを抽出させ、話者識別手段には、音声データ抽出手段により抽出された音声データを用いて話者識別を行わせるようにすることができる。
本発明の情報処理装置には、音源方位推定手段により推定された音源方位に存在する話者と、話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段をさらに設けることができる。
本発明の情報処理装置には、撮像手段が出力する画像から話者の顔を検出する顔検出手段をさらに設けることができ、抽出範囲算出手段には、顔検出手段により検出された顔の位置関係に基づいて、抽出範囲を算出させるようにすることができる。
本発明の情報処理方法は、1以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップとを含むことを特徴とする。
本発明のプログラムは、1以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップとを含むことを特徴とする。
本発明の記録媒体に記録されているプログラムは、1以上の話者を撮像し、画像を出力する撮像ステップと、撮像ステップの処理により出力される画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、話者による発話の音声データのうちの、抽出範囲算出ステップの処理により算出された抽出範囲内の音声データを抽出する音声データ抽出ステップとを含むことを特徴とする。
本発明の情報処理装置および方法、プログラム、並びに記録媒体においては、1以上の話者が撮像されて、画像が出力される。また、その画像における話者の位置関係に基づいて、話者それぞれの音声データを抽出する抽出範囲が算出される。そして、話者による発話の音声データのうちの、抽出範囲内の音声データが抽出される。
本発明によれば、撮影して得られた画像から認識された話者方位に基づいて、それぞれの話者の音声データを精度よく抽出することができる。
また、本発明によれば、話者を精度よく識別することができる。
以下に本発明の最良の形態を説明するが、請求項に記載の構成要件と、発明の実施の形態における具体例との対応関係を例示すると次のようになる。この記載は、請求項に記載されている発明をサポートする具体例が、発明の実施の形態に記載されていることを確認するためのものである。従って、発明の実施の形態中には記載されているが、構成要件に対応するものとして、ここには記載されていない具体例があったとしても、そのことは、その具体例が、その構成要件に対応するものではないことを意味するものではない。逆に、具体例が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その具体例が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
さらに、この記載は、発明の実施の形態に記載されている具体例に対応する発明が、請求項にすべて記載されていることを意味するものではない。換言すれば、この記載は、発明の実施の形態に記載されている具体例に対応する発明であって、この出願の請求項には記載されていない発明の存在、すなわち、将来、分割されたり、補正により出現し、追加される発明の存在を否定するものではない。
請求項1に記載の情報処理装置は、1以上の話者を撮像し、画像を出力する撮像手段(例えば、図2のカメラモジュール2)と、前記撮像手段が出力する画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段(例えは、図4のビーム幅算出部122)と、前記話者による発話の音声データのうちの、前記抽出範囲算出手段により算出された前記抽出範囲内の音声データを抽出する音声データ抽出手段(例えば、図4のビームフォーミング処理部143)とを備えることを特徴とする。
請求項2に記載の情報処理装置は、前記音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶手段(例えば、図4の話者情報DB132)をさらに含むことができる。
請求項3に記載の情報処理装置は、前記音声データ抽出手段により抽出された音声データと、前記記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段(例えば、図4の音声識別処理部151)をさらに含むことができる。
請求項4に記載の情報処理装置は、前記音声データ抽出手段により抽出された音声データを用いて話者識別を行う話者識別手段(例えば、図4の音声識別処理部151)をさらに含むことができる。
請求項5に記載の情報処理装置は、前記話者による発話の音声データに基づいて、音源方位を推定する音源方位推定手段(例えば、図4の音源定位検出部142)をさらに含むことができ、前記音声データ抽出手段は、前記音源方位推定手段により推定された音源方位に対応する前記抽出範囲内の音声データを抽出し、前記話者識別手段は、前記音声データ抽出手段により抽出された音声データを用いて話者識別を行うようにすることができる。
請求項6に記載の情報処理装置は、前記音源方位推定手段により推定された音源方位に存在する話者と、前記話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段(例えば、図4の識別情報付与部152)をさらに含むことができる。
請求項7に記載の情報処理装置は、前記撮像手段が出力する画像から前記話者の顔を検出する顔検出手段(例えば、図4の顔検出部121)をさらに含むことができ、前記抽出範囲算出手段は、前記顔検出手段により検出された顔の位置関係に基づいて、前記抽出範囲を算出するようにすることができる。
請求項8に記載の情報処理方法は、1以上の話者を撮像し、画像を出力する撮像ステップ(例えば、図6のステップS1の処理)と、前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップ(例えは、図6のステップS4の処理)と、前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップ(例えば、図7のステップS45の処理や図8のステップS74の処理)とを含むことを特徴とする。
請求項9に記載のプログラム、および、請求項10に記載の記録媒体に記録されているプログラムにおいても、各ステップが対応する実施の形態(但し一例)は、請求項8に記載の情報処理方法と同様である。
以下、図を参照して本発明の実施の形態について説明する。
図1は、本発明を適用したテーブルトップ型話者識別装置1の利用例の一実施の形態を示す図である。
図1は、3人の話者が会議室やリビングルームなどでテーブルを囲んで会議等を行っている様子を示している。なお、話者の数は3人に限定されるものではなく、1人以上の何人であってもよい。
テーブルのほぼ中央に置かれているテーブルトップ型話者識別装置1は、話者を識別し、話者と発話内容とを対応付けて議事録として記録するものである。このテーブルトップ型話者識別装置1の外観を図2に拡大して示す。
図2に示されるように、テーブルトップ型話者識別装置1は、円筒状の形状を有しており、カメラモジュール2、カメラモジュール2の上面に設けられるマイクアレイ(マイクロフォンアレイ)3、カメラモジュール2の下に配置される情報処理部4、および、情報処理部4の表面に設けられる表示部5から構成される。
カメラモジュール2は、360度の全周囲を撮像可能な、例えば、双曲面ミラー(カメラモジュール2の上方にある半球体)の真下に1つのカメラ2Aがセットされたモジュールである。カメラモジュール2により撮像された全周囲画像データは情報処理部4に供給される。
なお、カメラモジュール2は、例えば、カメラの撮像方向を機械的に回転させて全周囲を撮像するものであってもよいし、それぞれの方位を撮像する複数のカメラから構成されるものであってもよい。
マイクアレイ3は、例えば、コンデンサマイクなどの4つのマイク3−1,3−2,3−3,3−4から構成される。マイク3−1乃至3−4により集音された音声は図示せぬケーブルなどを介して情報処理部4に供給される。当然、マイクアレイ3は、4つ以外の複数のマイクから構成されるようにしてもよい。
情報処理部4は、カメラモジュール2から供給される全周囲画像データに基づいて、テーブルトップ型話者識別装置1を囲む話者の方位を検出し、それぞれの話者の位置関係に基づいて、音声データをビームフォーミングする方位の幅であるビームフォーミング幅をそれぞれの話者について算出する。
また、情報処理部4は、算出したビームフォーミング幅を用いて、マイクアレイ3に入力された音声からそれぞれの話者の発話を抽出して話者識別を行い、その識別結果と発話の内容を対応付けて記録する。
後に詳述するように、ビームフォーミングによれば、それぞれの話者による発話が精度よく(ノイズが少ないものとして)抽出されることから、ビームフォーミングを行わずに発話を集音する場合に較べて、より好適な話者を識別するための標準パターンを得ることができるとともに、標準パターンを得た後の話者識別を精度よく行うことができる。
表示部5はLCD(Liquid Crystal Display)などよりなり、ここには、例えば、カメラモジュール2で撮像された話者の画像データや、情報処理部4による話者識別の結果などが表示される。
図3は、図2のテーブルトップ型話者識別装置1のハードウェア構成例を示すブロック図である。
CPU(Central Processing Unit)51は、ROM(Read Only Memory)52に記憶されているプログラム、または記憶部58からRAM(Random Access Memory)53にロードされたプログラムに従って各種の処理を実行する。RAM53にはまた、CPU51が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU51,ROM52、およびRAM53は、バス54を介して相互に接続される。バス54にはまた、入出力インタフェース55も接続される。
入出力インタフェース55には、カメラモジュール2、マイクアレイ3や図示せぬ各種のボタンなどよりなる入力部56、表示部5やスピーカ(図示せず)などよりなる出力部57、ハードディスクなどにより構成される記憶部58、モデムやLAN(Local Area Network)アダプタなどにより構成される通信部59が接続される。
記憶部58は、CPU51により制御され、通信部59を介して供給されたプログラムなどのデータを保存し、必要に応じて、保存してあるデータをRAM53、出力部57、通信部59等に供給する。
通信部59は、ネットワークを介して他の装置(図示せず)と通信を行う。また、通信部59は、モデム等を用いた通信の他にも、例えば、USB(Universal Serial Bus),IEEE(Institute of Electrical and Electronic Engineers)1394、またはSCSI(Small Computer System Interface)等の各種の規格に準拠した通信処理を行う機能を有している。
入出力インタフェース55にはまた、ドライブ60が接続され、磁気ディスク61(フレキシブルディスクを含む)、光ディスク62(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク63(MD(Mini-Disk)(商標)を含む)、或いは半導体メモリ64などが適宜装着され、それらから読み出されたプログラムが、必要に応じて記憶部58にインストールされる。
図4は、図2の情報処理部4の機能的な構成例を示す図である。
図4の構成の少なくとも一部は、例えば、図3のCPU51により所定のプログラムが実行されることにより実現される。
情報処理装置4には、顔検出部121とビーム幅算出部122から構成される画像データ処理部111、DB(Data Base)管理部131と話者情報DB132から構成される登録部112、マイクアレイI/F(Interface)141、音源定位検出部142、およびビームフォーミング処理部143から構成される音声データ処理部113、並びに、音声識別処理部151、識別情報付与部152、出力制御部153、および議事録DB154から構成される話者識別部114が実現される。
画像データ処理部111の顔検出部121は、カメラモジュール2から供給される全周囲画像データのうちの話者の顔に対応する領域の顔画像データを検出し、顔の方位を、話者の方位として検出する。顔検出部121は、検出した各話者の話者方位と顔画像データに、その話者を識別するための話者ID(Identification)を対応付け、話者IDが対応付けられた話者方位と顔画像データをビーム幅算出部122に供給する。
なお、顔検出部121においては、顔画像データにおける、例えば、目や鼻などに対応する領域の重心や、肌色の領域の重心が検出され、カメラモジュール2から、その重心に向かう方位が話者方位として検出される。
ビーム幅算出部122は、顔検出部121から供給される話者方位から得られる話者の位置関係に基づいて、話者それぞれについてビームフォーミング幅を算出し、話者方位と、算出したビームフォーミング幅を話者IDに対応付けて音源定位検出部142に供給する。また、ビームフォーミング幅算出部122は、顔検出部121から供給される顔画像データをDB管理部131に供給する。ビーム幅算出部122によるビームフォーミング幅の算出については図5を用いて後述する。
登録部112のDB管理部131は、ビーム幅算出部122から供給される顔画像データや、話者識別部114から供給される、各話者の音声の標準パターンを話者情報DB132に記憶させる。話者情報DB132に登録された顔画像データや標準パターンは、必要に応じて、音声識別処理部151に提供される。
音声データ処理部113のマイクアレイI/F141は、マイクアレイ3から供給されるアナログ音声信号をA/D(Analog/Digital)変換し、得られたディジタルの音声データを音源定位検出部142とビームフォーミング処理部143に供給する。
音源定位検出部142は、マイクアレイI/F141から供給される音声データから音源方位を推定し、その推定した音源方位(推定方位)に最も近い方位にいる話者を、ビーム幅算出部122から供給される話者方位に基づいて検出する。
ここで、音源定位検出部142では、例えば、マイク3−1乃至3−4のそれぞれにより集音された音声データの相関性が最も大きくなるときの時間差(位相差)が求められ、その時間差に基づいて、発話の音源(話者)の音源方位が推定される。また、音源定位検出部142では、マイク3−1乃至3−4それぞれからの音声データを解析することにより、例えば、同時に発話された複数の音声データそれぞれの音源方位を推定することも行われる。
また、音源定位検出部142は、検出した話者のビームフォーミング幅を、ビーム幅算出部122から供給される全ての話者のビームフォーミング幅の中から選択し、選択したビームフォーミング幅を、その話者の話者方位とともにビームフォーミング処理部143に供給する。
さらに、音源定位検出部142は、検出した話者の話者ID(話者方位に対応付けられている話者ID)を、話者識別部114の音声識別処理部151と識別情報付与部152に供給することも行う。
ビームフォーミング処理部143は、音源定位検出部142から供給される話者方位とビームフォーミング幅を用いて、マイクアレイI/F141から供給される音声データのビームフォーミングを行う。
即ち、ビームフォーミング処理部143は、音源定位検出部142から供給される話者方位を基準とし、ビームフォーミング幅により表される範囲の方位からの音声データを、マイクアレイI/F141から供給される全ての方位からの音声データから強調することにより、その範囲の方位からの音声データを抽出する。
従って、ここで抽出される音声データは、ある1人の話者による音声データのみが強調されたものとなり(他の話者の音声や反射音の音声データなどが除去(抑制)されたものとなる)、精度の高い話者識別などが実現可能となる標準パターン、或いは、話者識別の対象とする音声を得ることが可能になる。
ビームフォーミング処理部143は、ビームフォーミングにより抽出された音声データを音声識別処理部151に供給する。
なお、ビームフォーミング処理部143は、音源定位検出部142において複数の音源方位が推定された場合には、その複数の音源方位に対応するそれぞれの話者方位とビームフォーミング幅の供給を受け、その複数の話者方位とビームフォーミング幅それぞれに対して、マイクアレイI/F141から供給される音声データから音声データを抽出する。
話者識別部114の音声識別処理部151は、ビームフォーミング処理部143から供給される音声データ(音源定位検出部142から供給される話者方位とビームフォーミング幅に対して行われたビームフォーミングにより得られた音声データ)を離散フーリエ変換(DFT(Discrete Fourier Transform))するなどして音声特徴量を抽出し、その音声特徴量に基づき、話者識別のために用いられる、例えば、HMM(Hidden Makov Model)などの標準パターン(モデル)を生成する。
また、音声識別処理部151は、その標準パターンに、音源定位検出部142から供給される話者ID(標準パターンを生成するのに用いられた音声データを得るためのビームフォーミングに使用された話者方位とビームフォーミング幅に対応付けられた話者ID)を対応付け、それらのデータをDB管理部131に供給する。DB管理部131に供給された、話者IDに対応付けられた標準パターンは話者情報DB132に記憶される。
マイクアレイ3に入力された音声の話者識別を行うとき、音声識別処理部151は、ビームフォーミング処理部143から供給される音声データから抽出された音声特徴量と、話者情報DB132に登録されている標準パターンを用いて、例えば、HMM法に基づく話者識別を行う。HMM法に基づく話者識別により得られる、ビームフォーミング処理部143からの音声データが観測される尤度が最も高い標準パターン(モデル)に対応付けられている話者IDは、話者の識別結果として、ビームフォーミング処理部143から供給された音声データとともに識別情報付与部152に供給される。
識別情報付与部152は、音源定位検出部142から供給される話者IDと、音声識別処理部151から供給される話者IDが一致するか否かの判定を行う。識別情報付与部152は、それらの話者IDが一致すると判定した場合、即ち、音声識別処理部151における話者識別の結果得られる話者と、音源定位検出部142で推定された音源の推定方位に最も近い方位にいる話者が一致すると判定した場合、その話者IDに対応付けられている顔画像データをDB管理部131を介して話者情報DB132から読み出し、音声識別処理部151から供給される音声データとともに出力制御部153に供給する。
音声識別処理部151における話者識別の結果得られる話者と、音源定位検出部142で推定された音源の推定方位に最も近い方位にいる話者が一致する場合に出力制御部153に供給されるようにしたため、より精度の高い話者識別結果を得ることが可能になる。
出力制御部153は、識別情報付与部152から供給される顔画像データより得られる画像を表示部5に表示させる。従って、表示部5には、識別された話者の顔画像が表示されることになる。なお、話者識別の結果である顔画像が表示部5に表示されるだけでなく、識別された話者の音声がスピーカから出力制御部153により出力されるようにしてもよい。
また、出力制御部153は、識別情報付与部152から供給される音声データと顔画像データを話者IDなどに対応付けて議事録DB154に記憶させる。
ここで、以上のような構成を有する情報処理部4によるビームフォーミングについて説明する。
情報処理部4において行われる遅延和ビームフォーミング(遅延和方式によるビームフォーミング)は、マイク3−1乃至3−4それぞれからの音声データを、マイク間の距離に対応する時間遅延に基づいて同相化し、所定の方位からの音声データのみを、その位相を合わせることによって強調させるものである。
従って、遅延和ビームフォーミングによれば、所定の方位以外の、他の方位からの音声データや、マイク間の距離に無関係な、例えば、マイク自身の雑音などが除去されることになる。
ところで、ビームフォーミング時のビームフォーミング幅は、それが狭いほど、ある1人の話者の音声データを、他の話者の音声データから分離することができる。しかしながら、ビームフォーミング幅が狭いと、マイクアレイ3で得られた音声データの情報量が低減し、さらに、ビームフォーミングによって抽出される音声データが、こもった音となってしまう。
一方、ビームフォーミング幅を単に広くしてしまうと、マイクアレイ3からの音声データから、ある1人の話者の音声データを精度良く抽出することが困難となる。即ち、ビームフォーミング幅を単に広くした場合、ある1人の話者の音声データを抽出するときに、その話者に隣接する話者の音声データも抽出してしまうことになる。
そこで、情報処理部4では、各話者の音声データを、他の話者の音声データと精度良く区別して抽出することができる、より広い幅のビームフォーミング幅を、話者同士の位置関係に基づいて算出することが行われる。これにより、話者それぞれに最適なビームフォーミング幅を得ることができる。
話者同士の位置関係に基づくビームフォーミング幅の算出について、図5A,Bを参照して説明する。
図5Aは、図5Bに示されるように、4人の話者X−1乃至X+2がテーブルトップ型話者識別装置1を囲んでいる状態において、カメラモジュール2により撮像された全周囲の画像を展開したものの例を示している。
なお、図5Aでは、カメラモジュール2を中心とする360度の周囲の全周囲画像データを、横方向を円周方向(角度方向)とするとともに、縦方向を半径方向として、長方形状の画像データとして示してある。従って、図5の上の全周囲画像データの左端の方位を例えば0度とすると、その右端の方位は360度である。
また、図5Aでは、話者X+iが位置する方位(話者方位)をDX+iで表している(i=−1,0,1,2)。
図4のビーム幅算出部122は、話者Xのビームフォーミング幅BXを算出する場合、話者Xの方位DXと、話者Xの反時計回り方向に隣接する話者X−1の方位DX-1の方位の差(角度)|DX-1−DX|を算出するとともに、話者Xの方位DXと、話者Xの時計回り方向に隣接する話者X+1の方位DX+1の方位の差|DX+1−DX|を算出する。
そして、ビーム幅算出部122は、話者Xと話者X−1の方位の差|DX-1−DX|と、話者Xと話者X+1の方位の差|DX+1−DX|のうちの小さい方を、話者Xのビームフォーミング幅BX(図5Bの斜線が付されている部分)とする。
同様に、ビーム幅算出部122は、話者X+1と話者Xの方位の差|DX−DX+1|と、話者X+1と話者X+2の方位の差|DX+2−DX+1|のうちの小さい方を、話者X+1のビームフォーミング幅BX+1とする。
さらに、ビーム幅算出部122は、話者X+2と話者X+1の方位の差|DX+1−DX+2|と、話者X+2と話者X−1の方位の差|DX-1−DX+2|のうちの小さい方を、話者X+2のビームフォーミング幅BX+2とし、話者X−1と話者X+2の方位の差|DX+2−DX-1|と、話者X−1と話者Xの方位の差|DX−DX-1|のうちの小さい方を、話者X−1のビームフォーミング幅BX-1とする。
なお、話者と反時計回り方向に隣接する他の話者との方位差と、話者と時計回り方向に隣接する他の話者との方位差のうちの小さい方を、その話者のビームフォーミング幅とすることで、話者の方位に最も近い方位にいる他の話者の方位の中心までが、話者のビームフォーミング幅とされる。従って、話者それぞれにとって、最も近い方位にいる他の話者の方位の中心までがビームフォーミングされることとなる。
上述のように、ビーム幅算出部122は、所定の話者のビームフォーミング幅を、所定の話者の方位と、反時計回り方向に隣接する他の話者の方位との差、もしくは、所定の話者の方位と、時計回り方向に隣接する他の話者の方位との差のうちの小さい方とする。これにより、所定の話者の音声データが、他の話者の音声データと分離されて最適なビームフォーミング幅でビームフォーミングされることとなる。
なお、その他、例えば、話者Xについて、(DX-1+DX)/2から(DX+1+DX)/2までの範囲の角度を、ビームフォーミング幅とすることが可能である。他の話者X−1,X+1、およびX+2についても同様である。
このように、話者同士の位置関係に基づいて、ビームフォーミング幅が求められ、そのビームフォーミング幅を用いて、話者それぞれに適したビームフォーミングがなされるので、マイクアレイ3が出力する音声データから他の話者の発話や、マイク自身のノイズなどが除かれた音声データを抽出することができる。
次に、以上の構成を有するテーブルトップ型話者識別装置1の動作について説明する。
始めに、図6のフローチャートを参照して、話者方位とビームフォーミング幅を求めるとともに、顔画像データを話者情報DB132に登録するテーブルトップ型話者識別装置1の処理について説明する。
例えば、テーブルトップ型話者識別装置1の電源が投入され、所定のボタンが操作されたとき、ステップS1において、カメラモジュール2は、テーブルトップ型話者識別装置1を囲む全周囲を撮像し、全周囲画像データを取得して、それを顔検出部121に供給する。
ステップS2において、顔検出部121は、カメラモジュール2から供給される全周囲画像データから話者の顔に対応する顔画像データを抽出し、抽出した顔画像データのそれぞれに固有の話者IDを付与する。
ステップS3において、顔検出部121は、話者のそれぞれについて、その話者の顔画像データからカメラモジュール2を中心とした実世界での話者の位置の方位である話者方位を検出する。検出された話者方位は、顔画像データとともに話者IDに対応付けられて、ビーム幅算出部122に供給される。
ステップS4において、ビーム幅算出部122は、顔検出部121から供給される、話者IDに対応付けられた話者方位に基づいてビームフォーミング幅を算出する。即ち、ビーム幅算出部122は、ある話者IDに注目し、その注目している話者IDに対応付けられている話者方位と、その話者IDの話者の両隣にいる2人の話者の話者IDに対応付けられた話者方位を認識し、その2人の話者の一方または他方の話者方位それぞれと、注目している話者IDの話者の話者方位との差を求め、小さい方の差を、注目している話者IDの話者のビームフォーミング幅とする。同様に、ビーム幅算出部122は、すべての話者(話者ID)についてビームフォーミング幅を算出する。
また、ビーム幅算出部122は、ステップS5において、話者IDに対応付けられている話者方位と、その話者IDの話者のビームフォーミング幅を対応付け、各話者IDと、話者IDに対応付けられている話者方位とビームフォーミング幅を、音源定位検出部142に供給する。
ステップS6において、ビーム幅算出部122は、各話者IDに対応付けた顔画像データをDB管理部131に供給する。DB管理部131においては、話者IDに対応付けられている顔画像データが話者情報DB132に登録され、処理が終了する。
なお、ビーム幅算出部122は、話者が一人の場合、即ち、顔検出部121から供給された話者IDが1つの場合には、話者のビームフォーミング幅を、例えば、所定のデフォルトのビームフォーミング幅とする。
以上のようにして、カメラモジュール2により取得された全周囲画像データに基づいて、話者方位、顔画像データ、およびビームフォーミング幅が得られ、話者IDに対応付けられた話者方位とビームフォーミング幅が音源定位検出部142に供給される。また、話者IDに対応付けられた顔画像データが話者情報DB132に登録される。
次に、図7のフローチャートを参照して、話者の音声データの標準パターンを話者情報DB132に登録する処理について説明する。
この処理は、図6を参照して説明した処理の後に行われるものである。従って、音源定位検出部142には、各話者の話者IDに対応付けられた話者方位とビームフォーミング幅がビーム幅算出部122から供給されている。
ステップS41において、音源定位検出部142は、ビーム幅算出部122から供給される話者IDに対応付けられた話者方位とビームフォーミング幅を受信し、その内蔵するメモリ(図示せず)に記憶する。
話者方位とビームフォーミング幅をメモリに記憶した後、音源定位検出部142は、ステップS42に進み、マイクアレイI/F141から音声データが供給されたか否かを判定する。
ステップS42において、マイクアレイI/F141から音声データが供給されていないと判定された場合、即ち、いずれの話者も発話を行っていない場合、音源定位検出部142は、音声データが供給されるまで待機する。
一方、ステップS42において、マイクアレイI/F141から音声データが供給されたと判定された場合、即ち、発話がマイクアレイ3に入力され、マイクアレイI/F141により得られたディジタルの音声データが音源定位検出部142とビームフォーミング処理部143に供給された場合、ステップS43に進み、音源定位検出部142は、マイクアレイ3を構成するマイク3−1乃至3−4それぞれからの音声データに基づいて、発話の音源方位を推定する。
音源定位検出部142は、ステップS43において、ステップS41でビーム幅算出部122から供給され、メモリに記憶しておいた全ての話者方位に基づいて、ステップS42で推定した音源方位に最も近い方位の話者を検出し、その話者の方位(撮像画像から得られた方位)に対応付けられている話者IDを、同じくメモリに記憶しておいた全ての話者の話者IDの中から選択する。選択された話者IDは音声識別処理部151に供給される。
ステップS44において、音源定位検出部142は、ステップS43の処理で選択した話者IDに対応付けられている話者方位とビームフォーミング幅をビームフォーミング処理部143に供給する。ここで供給される話者方位とビームフォーミング幅は、音声データをビームフォーミングする方位とビームフォーミング幅としてビームフォーミング処理部143により設定される。
ステップS45において、ビームフォーミング処理部143は、マイクアレイI/F141から供給される音声データを、音源定位検出部142から供給される話者方位とビームフォーミング幅に基づいてビームフォーミングし、これにより、音源定位検出部142からの話者方位を中心とする、ビームフォーミング幅が表す範囲の方位(話者方位から、ビームフォーミング幅が表す範囲(角度)の+1/2の角度から−1/2の角度までの方位)からの音声データを強調し、強調して得られた音声データを音声識別処理部151に供給する。
ステップS46において、音声識別処理部151は、ビームフォーミング処理部143から供給される音声データ(ビームフォーミングされた音声データ)から音声特徴量を抽出し、その音声特徴量から標準パターンを生成する。さらに、音声識別処理部151は、その標準パターンに対して、音源定位検出部142からの話者IDを対応付けてDB管理部131に供給する。
ステップS47において、DB管理部131は、音声識別処理部151から供給される話者IDに対応付けられた標準パターンを、話者情報DB132に登録されている話者IDのうちの同一の話者IDに対応付けて登録し、処理を終了させる。
なお、ステップS42乃至S47の処理は、話者それぞれについて少なくとも1回以上行われ、話者情報DB132には、話者それぞれの顔画像データおよび標準パターンが、話者IDに対応付けられて登録される。この話者情報DB132に登録された情報に基づいて、図8の話者識別処理が行われる。
次に、図8のフローチャートを参照して、話者情報DB132に登録されている情報に基づいて行われる話者識別処理について説明する。
ステップS71において、音源定位検出部142は、マイクアレイI/F141から音声データが供給されたか否かを判定し、音声データが供給されるまで待機する。
音源定位検出部142は、ステップS71において、マイクアレイI/F141から音声データが供給されたと判定した場合、ステップS72に進み、マイクアレイ3を構成するマイク3−1乃至3−4それぞれからの音声データに基づいて発話の音源方位を推定する。
ステップS72において、音源定位検出部142は、図7のステップS41の処理でビーム幅算出部122から供給された話者方位のうちの、推定方位に最も近い方位の話者を検出し、その話者の方位に対応付けられている話者IDを識別情報付与部152に供給する。
また、音源定位検出部142は、ステップS73において、ステップS72の処理で識別情報付与部152に供給した話者IDに対応付けられている話者方位とビームフォーミング幅をビームフォーミング処理部143に供給する。ビームフォーミング処理部143は、音源定位検出部142から供給される話者方位とビームフォーミング幅を、ビームフォーミングする方位とビームフォーミング幅として設定する。
ステップS74において、ビームフォーミング処理部143は、マイクアレイI/F141から供給される音声データを、音源定位検出部142から供給される話者方位とビームフォーミング幅に基づいてビームフォーミングし、これにより、音源定位検出部142からの話者方位を中心とする、ビームフォーミング幅が表す範囲の方位(話者方位から、ビームフォーミング幅が表す範囲(角度)の+1/2の角度から−1/2の角度までの方位)からの音声データを強調し、音声識別処理部151に供給する。
ステップS75において、音声識別処理部151は、ビームフォーミング処理部143から供給されるビームフォーミングされた音声データから音声特徴量を抽出する。
音声識別処理部151は、ステップS76において、DB管理部131を介して得られる、話者情報DB132に登録されている話者の標準パターンを参照し、発話を行った話者の話者識別を行う。
即ち、音声識別処理部151は、話者情報DB132に登録されている標準パターンのうちの、ビームフォーミング処理部143からの音声データの音声特徴量が観測される尤度が高い標準パターンに対応付けられている話者IDを特定する。さらに、音声識別処理部151は、その話者IDと、ビームフォーミング処理部143からの音声データを識別情報付与部152に供給する。
ステップS77に進み、識別情報付与部152は、音源定位検出部142からの話者ID(ステップS72で音源定位検出部142が推定した推定方位に最も近い話者方位に対応付けられている話者ID)と、ステップS76で音声識別処理部151から供給された話者識別の結果得られた話者IDが一致するか否かを判定する。
識別情報付与部152は、ステップS77において、音源定位検出部142からの話者IDと、音声識別処理部151から供給された話者識別の結果得られた話者IDが一致しないと判定した場合、ステップS78に進み、所定のエラー処理を行う。
ステップS78において行われるエラー処理としては、例えば、カメラモジュール2によって全周囲画像データを取得して、話者方位およびビームフォーミング幅を再算出することができる。この場合、話者が移動して話者方位や最適なビームフォーミング幅が変化したときなどに、話者方位やビームフォーミング幅をリアルタイムに変更することができる。
一方、ステップS77において、音源定位検出部142からの話者IDと、音声識別処理部151から供給された話者識別の結果得られた話者IDが一致すると判定した場合、ステップS79に進み、識別情報付与部152は、その一致する話者IDを、最終的な話者識別結果とし、その話者IDに対応付けられている顔画像データを、DB管理部131を介して話者情報DB132から取得する。その後、識別情報付与部152は、音声識別処理部151から供給された音声データとともに顔画像データを出力制御部153に供給し、話者識別処理を終了させる。
出力制御部153においては、顔画像の表示や、音声の出力が行われる。
以上のように、テーブルトップ型話者識別装置1においては、推定された音源の方位に最も近い方位の話者の話者IDと、音声識別処理部151による話者識別の結果得られた話者IDとが一致した場合のみ、その話者IDが最終的な話者識別結果とされることから、このような判定を行わない場合に較べて、その結果は精度の高いものとなる。
また、標準パターンを生成するときの音声データと、話者を識別するときの音声データとが、同一の環境で取得されるので、音声識別処理部151における話者識別の精度を向上させることができる。
なお、図8のステップS72において、音源定位検出部142では、マイク3−1乃至3−4それぞれからの音声データに基づいて複数の発話の音源方位が推定された場合、即ち、複数の話者が同時に発話し、これにより、複数の音源方位が推定された場合、後段のビームフォーミング処理部143では、音源定位検出部142から供給される複数の話者それぞれの話者IDに対応付けられている話者方位とビームフォーミング幅が用いられてビームフォーミングが行われ、それぞれの音声データに基づいて音声識別処理部151により話者識別が行われることから、複数の話者が同時に発話を行った場合でも、それぞれの話者を識別することができる。
また、全周囲画像データから顔を検出するようにしたので、例えば、話者識別結果として表示される話者の顔画像データを登録する作業を省くことができる。なお、カメラモジュール2では、全周囲画像データを得るようにしたが、全周囲のうちの一部の範囲の画像データを得るようにすることも可能である。
さらに、本発明は、テーブルトップ型話者識別装置1に適用するのみならず、例えば、ロボットの視聴覚技術に適用することができる。本発明をロボットの視聴覚技術に適用した場合、ロボットの視覚内で同時に複数の話者が発話した場合でも、話者それぞれを識別することができる。
また、本実施の形態では、音声識別処理部151において離散フーリエ変換によって音声特徴量を抽出することとしたが、音声特徴量の抽出方法は、離散フーリエ変換に限定されるものではない。
さらに、音声識別処理部151での話者識別は、HMM法以外で行うことも可能である。
また、図7のステップS42の処理、および図8のステップS71の処理において音源定位検出部142に音声データが供給されたか否かを判定する場合、マイクアレイ3が出力する音の信号から話者が発話をした区間である発話区間を検出し、発話区間が検出されたときに音声データが供給されたと判定することができる。
なお、図3のCPU51が行う、上述した一連の処理を実行するためのプログラムは、ダウンロードサイトからダウンロードしてインストールすることができる。また、プログラムは、記録媒体からインストールすることができる。
このプログラムが記録された記録媒体は、磁気ディスク61、光ディスク62、光磁気ディスク63、もしくは半導体メモリ64などよりなるパッケージメディアとして配布することができる。
ここで、本明細書において、説明したフローチャートに記述された各ステップの処理は、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、上述した一連の処理は、ソフトウェアにより実行することとしたが、専用のハードウェアにより実行することもできる。
本発明を適用したテーブルトップ型話者識別装置の一実施の形態の利用例を示す図である。 図1のテーブルトップ型話者識別装置を拡大して示す斜視図である。 テーブルトップ型話者識別装置のハードウェア構成例を示すブロック図である。 図2の情報処理部の機能的な構成例を示すブロック図である。 ビームフォームングについて説明する図である。 話者方位とビームフォーミング幅を求める処理を説明するフローチャートである。 音声データの標準パターンを話者情報DBに登録する処理を説明するフローチャートである。 話者識別処理を説明するフローチャートである。
符号の説明
1 テーブルトップ型話者識別装置, 2 カメラモジュール, 3 マイクアレイ, 4 情報処理部, 5 表示部, 51 CPU, 52 ROM, 53 RAM, 54 バス, 55 入出力インタフェース, 56 入力部, 57 出力部, 58 記憶部, 59 通信部, 60 ドライブ, 61 磁気ディスク, 62 光ディスク, 63 光磁気ディスク, 64 半導体メモリ, 121 顔検出部, 122 ビーム幅算出部, 131 DB管理部, 132 話者情報DB, 141 マイクアレイI/F, 142 音源定位検出部, 143 ビームフォーミング処理部, 151 音声識別処理部, 152 識別情報付与部, 153 出力制御部, 154 議事録DB

Claims (10)

  1. 1以上の話者を撮像し、画像を出力する撮像手段と、
    前記撮像手段が出力する画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出手段と、
    前記話者による発話の音声データのうちの、前記抽出範囲算出手段により算出された前記抽出範囲内の音声データを抽出する音声データ抽出手段と
    を備えることを特徴とする情報処理装置。
  2. 前記音声データ抽出手段により抽出された音声データに基づく話者識別用の標準パターンを、前記話者ごとに記憶する記憶手段をさらに備える
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記音声データ抽出手段により抽出された音声データと、前記記憶手段に記憶された標準パターンとを用いて話者識別を行う話者識別手段をさらに備える
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記音声データ抽出手段により抽出された音声データを用いて話者識別を行う話者識別手段をさらに備える
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記話者による発話の音声データに基づいて、音源方位を推定する音源方位推定手段をさらに備え、
    前記音声データ抽出手段は、前記音源方位推定手段により推定された音源方位に対応する前記抽出範囲内の音声データを抽出し、
    前記話者識別手段は、前記音声データ抽出手段により抽出された音声データを用いて話者識別を行う
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記音源方位推定手段により推定された音源方位に存在する話者と、前記話者識別手段による話者識別により識別された話者とが一致するか否かを判定する判定手段をさらに備える
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記撮像手段が出力する画像から前記話者の顔を検出する顔検出手段をさらに備え、
    前記抽出範囲算出手段は、前記顔検出手段により検出された顔の位置関係に基づいて、前記抽出範囲を算出する
    ことを特徴とする請求項1に記載の情報処理装置。
  8. 1以上の話者を撮像し、画像を出力する撮像ステップと、
    前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
    前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと
    を含むことを特徴とする情報処理方法。
  9. コンピュータが実行可能なプログラムであって、
    1以上の話者を撮像し、画像を出力する撮像ステップと、
    前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
    前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと
    を含むことを特徴とするプログラム。
  10. コンピュータが実行可能なプログラムが記録されている記録媒体であって、
    1以上の話者を撮像し、画像を出力する撮像ステップと、
    前記撮像ステップの処理により出力される画像における前記話者の位置関係に基づいて、話者それぞれの音声データを抽出する方位の範囲である抽出範囲を算出する抽出範囲算出ステップと、
    前記話者による発話の音声データのうちの、前記抽出範囲算出ステップの処理により算出された前記抽出範囲内の音声データを抽出する音声データ抽出ステップと
    を含むことを特徴とするプログラムが記録された記録媒体。
JP2004084814A 2004-03-23 2004-03-23 情報処理装置および方法、プログラム、並びに記録媒体 Expired - Fee Related JP4595364B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004084814A JP4595364B2 (ja) 2004-03-23 2004-03-23 情報処理装置および方法、プログラム、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004084814A JP4595364B2 (ja) 2004-03-23 2004-03-23 情報処理装置および方法、プログラム、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2005274707A true JP2005274707A (ja) 2005-10-06
JP4595364B2 JP4595364B2 (ja) 2010-12-08

Family

ID=35174485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004084814A Expired - Fee Related JP4595364B2 (ja) 2004-03-23 2004-03-23 情報処理装置および方法、プログラム、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4595364B2 (ja)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007124140A (ja) * 2005-10-26 2007-05-17 Yamaha Corp 撮影装置、および通信会議システム
JP2010034812A (ja) * 2008-07-29 2010-02-12 National Institute Of Advanced Industrial & Technology 全周映像のための表示技術
JP2010251916A (ja) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd 音データ処理装置、及び、プログラム
JP2011066467A (ja) * 2009-09-15 2011-03-31 Brother Industries Ltd テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム
JP2013519135A (ja) * 2010-01-25 2013-05-23 マイクロソフト コーポレーション 音声−体識別の相関
US8522263B2 (en) 2010-11-12 2013-08-27 Kabushiki Kaisha Toshiba Audio signal processor, television set and computer readable medium
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
JP2015118386A (ja) * 2012-12-27 2015-06-25 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
WO2015198964A1 (ja) * 2014-06-24 2015-12-30 日立マクセル株式会社 音声入出力機能付き撮像装置およびテレビ会議システム
JP2016050872A (ja) * 2014-09-01 2016-04-11 株式会社国際電気通信基礎技術研究所 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP2017108240A (ja) * 2015-12-08 2017-06-15 シャープ株式会社 情報処理装置、及び情報処理方法
US10264210B2 (en) 2015-08-03 2019-04-16 Ricoh Company, Ltd. Video processing apparatus, method, and system
JP2019518985A (ja) * 2016-05-13 2019-07-04 ボーズ・コーポレーションBose Corporation 分散したマイクロホンからの音声の処理
WO2019142232A1 (ja) * 2018-01-16 2019-07-25 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JPWO2018173139A1 (ja) * 2017-03-22 2019-11-07 ヤマハ株式会社 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP2020016892A (ja) * 2018-01-16 2020-01-30 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP2020154847A (ja) * 2019-03-20 2020-09-24 Tis株式会社 配信システム、配信システムの制御方法、プログラム
JP2021500616A (ja) * 2017-10-23 2021-01-07 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
JP2021033140A (ja) * 2019-08-27 2021-03-01 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
JP2021076874A (ja) * 2021-02-17 2021-05-20 日本電信電話株式会社 話者方向強調装置、話者方向強調方法、およびプログラム
JP2021105688A (ja) * 2019-12-27 2021-07-26 株式会社イトーキ 会議支援装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2000352996A (ja) * 1999-03-26 2000-12-19 Canon Inc 情報処理装置
JP2001067098A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 人物検出方法と人物検出機能搭載装置
JP2003018561A (ja) * 2001-07-04 2003-01-17 Ricoh Co Ltd 広角画像録画再生システム、会議録画再生システム、広角画像送出装置、会議画像送出装置、広角画像再生装置、会議画像再生装置、広角画像録画再生方法、会議録画再生方法、広角画像送出方法、会議画像送出方法、広角画像再生方法、会議画像再生方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP2000352996A (ja) * 1999-03-26 2000-12-19 Canon Inc 情報処理装置
JP2001067098A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 人物検出方法と人物検出機能搭載装置
JP2003018561A (ja) * 2001-07-04 2003-01-17 Ricoh Co Ltd 広角画像録画再生システム、会議録画再生システム、広角画像送出装置、会議画像送出装置、広角画像再生装置、会議画像再生装置、広角画像録画再生方法、会議録画再生方法、広角画像送出方法、会議画像送出方法、広角画像再生方法、会議画像再生方法およびプログラム

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007124140A (ja) * 2005-10-26 2007-05-17 Yamaha Corp 撮影装置、および通信会議システム
JP2010034812A (ja) * 2008-07-29 2010-02-12 National Institute Of Advanced Industrial & Technology 全周映像のための表示技術
JP2010251916A (ja) * 2009-04-13 2010-11-04 Nec Casio Mobile Communications Ltd 音データ処理装置、及び、プログラム
JP2011066467A (ja) * 2009-09-15 2011-03-31 Brother Industries Ltd テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム
KR101765970B1 (ko) * 2010-01-25 2017-08-07 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 음성-신체 식별 상관
JP2013519135A (ja) * 2010-01-25 2013-05-23 マイクロソフト コーポレーション 音声−体識別の相関
US8522263B2 (en) 2010-11-12 2013-08-27 Kabushiki Kaisha Toshiba Audio signal processor, television set and computer readable medium
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
JP2015118386A (ja) * 2012-12-27 2015-06-25 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
US9826211B2 (en) 2012-12-27 2017-11-21 Panasonic Intellectual Property Management Co., Ltd. Sound processing system and processing method that emphasize sound from position designated in displayed video image
US10244219B2 (en) 2012-12-27 2019-03-26 Panasonic Intellectual Property Management Co., Ltd. Sound processing system and sound processing method that emphasize sound from position designated in displayed video image
US10536681B2 (en) 2012-12-27 2020-01-14 Panasonic Intellectual Property Management Co., Ltd. Sound processing system and sound processing method that emphasize sound from position designated in displayed video image
WO2015198964A1 (ja) * 2014-06-24 2015-12-30 日立マクセル株式会社 音声入出力機能付き撮像装置およびテレビ会議システム
JP2016050872A (ja) * 2014-09-01 2016-04-11 株式会社国際電気通信基礎技術研究所 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
US10264210B2 (en) 2015-08-03 2019-04-16 Ricoh Company, Ltd. Video processing apparatus, method, and system
JP2017108240A (ja) * 2015-12-08 2017-06-15 シャープ株式会社 情報処理装置、及び情報処理方法
JP2019518985A (ja) * 2016-05-13 2019-07-04 ボーズ・コーポレーションBose Corporation 分散したマイクロホンからの音声の処理
JPWO2018173139A1 (ja) * 2017-03-22 2019-11-07 ヤマハ株式会社 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP2021500616A (ja) * 2017-10-23 2021-01-07 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
US11289072B2 (en) 2017-10-23 2022-03-29 Tencent Technology (Shenzhen) Company Limited Object recognition method, computer device, and computer-readable storage medium
JP2020016892A (ja) * 2018-01-16 2020-01-30 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
WO2019142232A1 (ja) * 2018-01-16 2019-07-25 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP6589041B1 (ja) * 2018-01-16 2019-10-09 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム
JP2020154847A (ja) * 2019-03-20 2020-09-24 Tis株式会社 配信システム、配信システムの制御方法、プログラム
JP7098561B2 (ja) 2019-03-20 2022-07-11 Tis株式会社 配信システム、配信システムの制御方法、プログラム
JP2021033140A (ja) * 2019-08-27 2021-03-01 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
JP2021105688A (ja) * 2019-12-27 2021-07-26 株式会社イトーキ 会議支援装置
JP2021076874A (ja) * 2021-02-17 2021-05-20 日本電信電話株式会社 話者方向強調装置、話者方向強調方法、およびプログラム
JP7111206B2 (ja) 2021-02-17 2022-08-02 日本電信電話株式会社 話者方向強調装置、話者方向強調方法、およびプログラム

Also Published As

Publication number Publication date
JP4595364B2 (ja) 2010-12-08

Similar Documents

Publication Publication Date Title
JP4595364B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
CN108369811B (zh) 分布式音频捕获和混合
US10785565B2 (en) Distributed audio capture and mixing controlling
US10820120B2 (en) Distributed audio capture and mixing controlling
JP2022036998A (ja) 映像音響処理装置および方法、並びにプログラム
CN102447697B (zh) 开放环境中的半私人通信的方法及系统
WO2016183791A1 (zh) 一种语音信号处理方法及装置
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
CN111432115B (zh) 基于声音辅助定位的人脸追踪方法、终端及存储装置
WO2000077537A1 (fr) Procede et appareil de determination d'une source sonore
JP6467736B2 (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
CN107820037B (zh) 音频信号、图像处理的方法、装置和系统
US20170162195A1 (en) Information processing apparatus, information processing method, and recording medium
KR20120116446A (ko) 음성-신체 식별 상관
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
JP7469235B2 (ja) 音源の位置特定
JP4669150B2 (ja) 主被写体推定装置及び主被写体推定方法
JP5660362B2 (ja) 音源定位装置及びコンピュータプログラム
JP5383056B2 (ja) 音データ記録再生装置および音データ記録再生方法
JP2009177480A (ja) 撮影装置
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
US11107476B2 (en) Speaker estimation method and speaker estimation device
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
Li et al. Multiple active speaker localization based on audio-visual fusion in two stages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees