JP5700963B2

JP5700963B2 - 情報処理装置およびその制御方法

Info

Publication number: JP5700963B2
Application number: JP2010148205A
Authority: JP
Inventors: 久保山　英生; 英生久保山; 深田　俊明; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-06-29
Filing date: 2010-06-29
Publication date: 2015-04-15
Anticipated expiration: 2030-06-29
Also published as: US20110317006A1; JP2012014281A

Description

本発明は、音源の位置を推定する技術に関する。

従来、天井に設置した複数のカメラで撮影した画像から、人間の頭部の特徴を有する領域として、黒色部分が多い球状の領域を特定し、特定された領域を、収録音声の音源（口唇）の位置と推定する技術が知られている（例えば、特許文献１）。

特開平８−２８６６８０号公報

しかしながら、従来技術によると、髪の色の異なり等によって、音源（口唇）の位置を推定できない場合がある。

そこで本発明は、髪の色等によらず、音源の位置に相当する口唇の位置を精度良く推定することを目的とする。

本発明は、上記の課題に鑑みてなされたものであり、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、前記距離画像に基づいて、前記距離が極値となる位置を、人の頭頂部の位置として特定する第１の特定手段と、前記第１の特定手段によって特定された人の頭頂部の位置に基づいて、前記人の口唇が存在する複数の候補位置を特定する第２の特定手段と、前記三次元の領域内で発声された音声に関して、複数箇所で集音された音声情報に基づいて、前記第２の特定手段によって特定された複数の候補位置のうち、１つの位置を前記人の口唇が存在する位置として選択する選択手段とを有する。

本発明によれば、人の頭頂部を撮像した距離画像と、複数箇所で集音された音声情報とを用いることによって、音源の位置に相当する口唇部が、距離画像に写らない場合でも、その位置を精度良く推定することが可能となる。

情報処理装置１００の構成を示す図距離画像センサ１１０等を設置した様子の一例を示す図音声を強調する処理の流れを表すフローチャート距離画像と三次元空間を鉛直方向、水平方向に見た様子を模式的に示す図距離画像の頭部から口唇空間座標の候補を取得する様子を表す図テーブル位置を設定する処理の流れを表すフローチャートステップＳ３０５の処理を詳細に表すフローチャート頭部を抽出する様子を模式的に示す図音声を強調する処理の流れを表すフローチャート音声を抑制する処理の流れを表すフローチャート音声を抑制する処理の流れを表すフローチャート頭部を追尾しながら強調音声を記録する処理流れを表すフローチャート

（第１の実施形態）
図１（ａ）は、本発明に係る情報処理装置１００のハードウェア構成を示す図である。

本図において、情報処理装置１００は、ＣＰＵ（中央処理装置）１０１、ＲＯＭ（リードオンリーメモリ）１０２、ＲＡＭ（ランダムアクセスメモリ）、記憶部１０４、第１の入力Ｉ／Ｆ（インタフェース）１０５、第２の入力Ｉ／Ｆ１０６を有する。尚、情報処理装置１００の各要素は、システムバス１０７を介して互いに接続されている。また、情報処理装置１００には、入力Ｉ／Ｆ１０５を介して、距離画像センサ１１０が接続され、入力Ｉ／Ｆ１０６を介して、マイクロホンアレイ１２０が接続されている。

以下、情報処理装置１００の各要素、距離画像センサ１１０、マイクロホンアレイ１２０について説明する。

ＣＰＵ１０１は、ＲＯＭ１０２等に格納されたプログラム等をＲＡＭ１０３に展開し、読み出すことで、情報処理装置１００の各種動作を実現する。ＲＯＭ１０２は、情報処理装置１００の各種動作させるプログラム、プログラムの実行に必要なデータ等を格納する。ＲＡＭ１０３は、ＲＯＭ１０２等に格納されたプログラムを展開するワークエリアを提供する。記憶部１０４は、ＨＤＤ（ハードディスクドライブ）等であり、各種データを記憶する。入力Ｉ／Ｆ１０５は、後述する距離画像センサ１１０によって生成された距離画像を示すデータを取得する。尚、距離画像とは、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。

入力Ｉ／Ｆ１０６は、後述するマイクロホンアレイ１２０によって取得された音を示すデータを取得する。距離画像センサ１１０は、赤外線等の反射によって、所定の三次元の領域内に存在するオブジェクトと、基準となる面（例えば、距離画像センサが測距する方向に対して垂直な面であって、距離画像センサが存在する面）との距離を示す距離画像を生成する。マイクロホンアレイ１２０は、複数のマイクロホンによって構成され、複数のチャンネルの音を取得する。

尚、本実施形態では、距離画像センサ１１０を用いて距離画像を生成するが、距離画像センサ１１０に替えて、複数のカメラを用いて距離画像を生成してもよい。この場合、距離画像は、複数のカメラのそれぞれが撮像した画像中に存在するオブジェクトの位置から算出した座標に従って、生成される。

図１（ｂ）は、本発明に係る情報処理装置１００の機能構成を示す図である。

情報処理装置１００は、距離画像取得部２０１、音声取得部２０２、抽出部２０３、候補取得部２０４を有する。また、情報処理装置１００は、強調部２０５、声区間検出部２０６、選択部２０７、クラスタリング部２０８、再抽出部２０９、抑制部２１０、キャリブレーション部２１１を有する。

尚、距離画像取得部２０１は、入力Ｉ／Ｆ１０５に相当し、音声取得部２０２は、入力Ｉ／Ｆ１０６に相当する。また、２０３から２１１の各部は、ＣＰＵ１０１が、ＲＯＭ１０２等に格納された所定のプログラム等をＲＡＭ１０３に展開し、読み出すことで実現される。以下、各部について説明する。

距離画像取得部２０１は、距離画像センサ１１０によって得られた距離画像を取得する。音声取得部２０２は、マイクロホンアレイ１２０を構成する複数のマイクロホンの各々を介して得られた複数の音声を取得する。抽出部２０３は、距離画像取得部２０１が取得した距離画像から、人の頭部（頭頂部）に相当する画素を抽出する。候補取得部２０４は、抽出部２０３が抽出した頭部（頭頂部）を示す画素に基づいて、口唇の空間座標の候補（口唇空間座標候補）を１つ以上取得する。強調部２０５は、口唇空間座標候補それぞれについて、その空間座標からマイクの設置位置への方向の音声を強調する。

声区間検出部２０６は、音声取得部２０２が取得した音声から人の声の区間を検出する。選択部２０７は、口唇空間座標候補それぞれに対して強調部２０５が強調した１つ以上の音声から、音量に基づいて所望の１つを選択する。クラスタリング部２０８は、選択部２０７が選択した強調音声をクラスタリングして強調音声に含む話者数を求める。再抽出部２０９は、抽出部２０３が抽出した頭部とその周辺領域からクラスタリング部２０８が検出した話者の数だけの頭部を再抽出する。抑制部２１０は、ある頭部（抽出された頭部のうち、注目する頭部）の強調音声に対して、他の頭部（抽出された頭部のうち、注目する頭部以外の頭部）の強調音声の成分を抑制（抑圧）する。キャリブレーション部２１１は、予め設置されているオブジェクト（本実施形態では、後述するテーブル５０１とする）の座標を決定する。

図２（ａ）は、距離画像センサ１１０、マイクロホンアレイ１２０を設置した様子の一例を示す図である。

本図において、距離画像センサ１１０、マイクロホンアレイ１２０は、部屋（会議室）の天井面に設置されているものとする。そして、距離画像センサ１１０は、オブジェクト（例えば、ユーザＡ、Ｂ、テーブル５０１、会議室の床等）と、基準となる面（例えば、天井面）との距離を示す距離画像を生成する。また、本会議室には、距離画像センサ１１０、マイクロホンアレイ１２０の他、テーブル５０１、プロジェクタ５０２、５０３が設置されている。

テーブル５０１は、プロジェクタ５０２の投影面５１２としても機能し、画像を表示することが可能である。また、プロジェクタ５０３は、会議室の壁面（投影面５１３）に画像を表示することが可能である。

尚、情報処理装置１００は、距離画像センサ１１０、マイクロホンアレイ１２０から前述した所定のデータを取得できればよく、如何なる位置に設置してもよい。図２（ｂ）は、距離画像センサを用いて求める距離を模式的に示す図である。距離画像とは、前述したように、所定の三次元の領域内に存在するオブジェクトと、基準となる面との距離を画素値とする画像である。

本実施形態では、距離ｄ１、ｄ２、ｈ３、角α、βとから求めた距離ｈ１、ｈ２に基づいて、各画素の画素値が決定される。尚、角α、βが０°と十分に近い角度である場合、距離ｄ１、ｄ２そのものを距離ｈ１、ｈ２と見なしても良い。

図３は、三次元領域内の所定の座標を音源とする音声を強調する処理の流れを表すフローチャートである。

まず、ステップＳ３０１で、距離画像取得部２０１は、距離画像を取得する。また、ステップＳ３０１において、音声取得部２０２は、マイクロホンアレイ１２０を構成する複数のマイクロホンの各々を介して収録された複数の音声を取得する。

次に、ステップＳ３０２で、抽出部２０３は、距離画像から人の頭部（頭頂部）を抽出する。尚、ステップＳ３０２における処理については、後述する。

次に、ステップＳ３０３で、候補取得部２０４は、注目する頭部（頭頂部）の空間座標に基づいて、複数の口唇空間座標候補を得る。

一般に、頭頂部から口唇までの高さは、個人差が比較的小さい。そこで、頭頂部の高さから、基準となる面の法線方向であって、頭部や肩が存在している方向に所定距離離間した高さ（例えば、２０ｃｍ離間した高さ）を口唇の高さとする。

尚、高さを固定した平面上（基準となる面と平行な面上）において、口唇の位置は、抽出部２０３が抽出した頭部（頭頂部）の近傍を中心とする略同心円のいずれかに存在する可能性が高い。しかし、顔の向きを上部に設置された距離画像センサ１１０等で口唇の位置を特定することは困難である。そのため、口唇空間座標の候補を推測して１つ以上取得する。

ステップＳ３０４で、強調部２０５は、口唇空間座標候補それぞれの方向に対して、マイクロホンアレイから得た複数の音声を使ってその方向に指向を向け、音声強調する。

マイクロホンアレイの空間座標と一つの口唇空間座標候補から求まる方向に基づいて複数のマイクロホンに到達する音声の遅延時間を計算する。そして、その遅延時間ずらして複数の音声を加算し、平均を取る事によって、他の方向からの音声を低減し、その方向の音声のみを強調する。

距離画像により頭部（頭頂部）の高さがわかっている上、頭頂部から口唇までの高さは身長差や発話者が立っている時と座っている時との差に比べて差が少ない。そのため、好適に口唇付近の高さの音声を強調することが可能である。即ち、このステップＳ３０４により、口唇空間座標候補一つに対して一つの強調音声を得る。

次に、ステップＳ３０５で、選択部２０７は、強調部２０５が生成した口唇空間座標候補ごとの強調音声のうち、音量の大きいひとつの強調音声を選択する。強調音声はそれぞれ口唇空間座標候補の方向に対する音声が強調されているので、その方向以外の音量は低減されている。従って、近くに別の音源が無い限り、音量の大きい強調音声の方向を正しい口唇空間座標であると推定することが可能となる。強調音声を選択する処理の詳細は後述する。これによって一つの頭部に対して一つの強調音声を取得する。

次に、ステップＳ３０６で、選択部２０７は、抽出した全ての頭部に対して強調音声を取得したか確認し、取得していなければステップＳ３０３に戻る。一方、全て頭部に対して処理を行っていれば、一連の処理を終了する。

以上が本実施形態における音声処理装置の処理の流れである。

尚、ステップＳ３０３で、候補取得部２０４は、注目する頭部（頭頂部）の空間座標が床面から１５０ｃｍ以上（天井面を３ｍとして、天井面からの距離が１５０ｃｍ未満）であった場合、頭頂部から所定の方向に２０ｃｍ離れた高さを口唇の高さとする。

そして、候補取得部２０４は、注目する頭部（頭頂部）の空間座標が床面から１５０ｃｍ未満（天井面を３ｍとして、天井面からの距離が１５０ｃｍ未満）であった場合、頭頂部から所定の方向に１５ｃｍ離れた高さを口唇の高さとしてもよい。

このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、姿勢（前かがみになっている等）に応じた口唇の高さを推定することが可能となる。また、このように、頭頂部の高さに応じて、段階的に頭頂部から口唇までの距離を設定することによって、オブジェクトが大人であった場合と、子供であった場合とで、それぞれ好適な口唇の高さを推定することが可能となる。

以下、図４を参照しながら、ステップＳ３０２で、抽出部２０３は、距離画像から人の頭部（頭頂部）に相当する領域を抽出する処理を説明する。

図４（ａ）は、図２（ａ）に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方（例えば、鉛直下向き）に当該空間を捉えた場合の距離画像を、等高線を用いて模式的に示す図である。

図４（ｂ）は、図２（ａ）に示された会議室の少なくとも一部に相当する三次元空間を、天井面から下方（例えば、鉛直下向き）に当該空間を見た様子を模式的に示す図である。

図４（ｃ）は、図２（ａ）に示された会議室の少なくとも一部に相当する三次元空間を、側面（壁面）から水平方向に当該空間を見た様子を模式的に示す図である。

即ち、天井面を基準となる面とすると、図４（ａ）に示された距離画像の各ピクセル（ｘ，ｙ）は、天井面から、図４（ｂ）に示された高さまでの距離ｚに基づく値を画素値とする画像となる。

従って、図４（ａ）の距離画像には、以下に示す人の頭部から肩の形状の特徴を有する領域が現れる。

例えば、天井面を基準となる面とした場合、人の頭頂部の位置は、距離が極小となる点として現れる。また、頭部の外周は、距離画像に現れる略同心円のうち、最も外側の略円として現れる。また、人の肩は、最も外側の略円の両脇に隣接する略楕円として現れる。従って、抽出部２０３は、周知のパターンマッチングの技術を用いて、距離画像中に存在する略円、略楕円等の特徴と、当該特徴を有する領域の画素値に基づいて頭部の空間座標を得る。

尚、空間座標は、距離画像そのものと、距離画像センサの設置位置、設置角度、画角などの撮像パラメータとに基づいて算出することができる。本実施形態では、天井面を基準となる面としたが、他の面を基準となる面としてもよい。例えば、所定の高さ（例えば、高さ１７０ｃｍ）の水平面を基準となる面とした場合、所定の高さよりも低い人の頭頂部の位置は、距離が極小となる点として現れ、所定の高さよりも高い人の頭頂部の位置は、距離が極大となる点として現れる。即ち、距離が極値となる画素に対応する三次元領域内の位置は、人の頭部が存在する位置の候補となる。

尚、抽出部２０３は、処理の負荷が軽減することを目的として、パターンマッチング等を行わず、距離が極値となる画素に対応する三次元領域内の位置を頭頂部が存在する位置の候補としてもよい。

図５は、距離画像の頭部から口唇空間座標の候補を取得する様子を表す図であり、（ａ）〜（ｅ）は異なる方法で候補を得ている。

図５（ａ）は、固定の角度づつの方向（同図では４５度づつ８方向）を口唇空間座標の候補とする。同図の黒丸が口唇空間座標の候補を表す。この候補いずれかの座標の方向に向けて強調した音声を取得すれば、発話者の音声を他の音から分離した音声を取得できる。

図５（ｂ）は、頭部に接する肩の方向と直行する方向で頭部の外周に接する位置を口唇空間座標の候補とする。

図５（ａ）の固定角度に対して図５（ｂ）では、発話者の顔方向が体の方向と一致するという仮定の下に、肩の位置に基づいて口唇空間座標の候補を詳細に求めることができる。

図５（ｃ）は、抽出部２０３が抽出した他の頭部の空間座標から決定する方向から口唇空間座標の候補を取得する。発話者が他の人の方向を向いているという仮定の下に、図５（ａ）の固定角度よりも口唇空間座標の候補を詳細に求めることができる。

図５（ｄ）は、テーブル、プロジェクタ投影面（壁面）など、予め設定した所定のオブジェクトの位置への方向から口唇空間座標の候補を取得する。

テーブル、プロジェクタ投影面（壁面）など参加者の注目があつまるオブジェクトの位置は、距離画像センサ１１０の設置時あるいは会議開始時に任意の方法で設定する。また、テーブルについては、距離画像を用いて位置を設定しても良い。

図６は、距離画像からテーブルを認識してテーブル位置を設定するフローチャートである。

まずステップＳ１３０１で、キャリブレーション部２１１は、距離画像から高さが所定範囲（例えば６０ｃｍ〜８０ｃｍなど）に存在するオブジェクトを抽出する。

次にステップＳ１３０２において、キャリブレーション部２１１は、抽出したオブジェクトの中からオブジェクトのサイズ・形状に基づいてテーブルを認識する。テーブル形状は方形、楕円形など予め設定されている。設定されたサイズ・形状とマッチするオブジェクトのみをテーブルとして認識し、抽出する。

そしてステップＳ１３０３において、キャリブレーション部２１１は、認識したテーブルの重心位置を算出する。

ステップＳ１３０４において、キャリブレーション部２１１は、この重心位置をテーブル位置として設定する。このように手動、自動いずれかの方法で設定されたオブジェクトの位置と頭部位置から求まる方向から、候補取得部２０４は、口唇空間座標候補を取得する。また、発話者がテーブル方向やプロジェクタ投影面の方向を向いているという仮定の下に、図５（ａ）の固定角度よりも口唇空間座標の候補を詳細に求めることができる。

図５（ｅ）は、予め設定した会議の中心位置の方向に対し所定の角度範囲の方向を候補とする方法である。

例えば図５（ｅ）では、図５（ａ）の固定角度の候補の中から、会議中心位置の方向に対して−６０度〜＋６０度の範囲に含む候補を口唇位置候補として設定する。会議の中心位置は、図５（ｄ）と同様に、予め手動で設定してもよいし、図６のフローによりテーブルの重心位置を会議の中心位置として自動で設定しても良い。

図５（ａ）と比較して、会議の中心方向に基づいて口唇空間座標の候補を絞ることができる。これら（ａ）〜（ｅ）のどの方法でも良いし、複数の方法を組み合わせても良い。複数の方法を組み合わせることで、様々な情報を使った様々な口唇空間座標候補から、後述する選択部２０７の処理において一つの好適な強調音声を選択することができる。

より多くの候補があれば好適な強調音声を選択できる可能性は高まる一方、候補数が少なければ強調音声を生成するなどの計算量を削減できるため、設置する環境等に応じて好適な組み合わせを用いる。

次に、ステップＳ３０５で行う強調音声の選択処理について、さらに詳細に説明する。

図７は、ステップＳ３０５をさらに詳細化したフローチャートである。

まず、ステップＳ４０１において、選択部２０７は、口唇空間座標候補に対応する強調音声を１つ選択する。

次に、ステップＳ４０２において、声区間検出部２０６は、選択した音声から人の声の区間を検出する。尚、声区間検出は、強調音声に対して行っても良いし、音声取得部２０２が取得した強調音声生成前の音声に対して行っても良い。声区間検出は、音量、零交差数、周波数特性など、様々な音響的特徴によって検出する方法が提案されており、どの検出方法を用いてもよい。

次に、ステップＳ４０３において、選択部２０７は、声区間における強調音声の音量を計算する。

そしてステップＳ４０４において、音量が最大音量よりも大きければ、ステップＳ４０５において、選択部２０７が、最大音量を更新する。

以上の処理をステップＳ４０６でループさせて全ての口唇空間座標候補に対応する強調音声に対して実行し、ステップＳ４０７において、選択部２０７は、声区間の音量が最大となる強調音声を選択する。なおここで、選択部２０７は、声区間検出部２０６が声区間を検出することで声区間のみの音量を使い、発話者の発声である強調音声を精度良く選択できる。しかし声区間検出部２０６は本発明に必須なものではない。ステップＳ４０２で声の区間を求める事をせず、強調音声全体から音量を算出してそれが最大となる強調音声を選択しても本発明は適用される。また、連続する時間で選択した強調音声に対応する口唇空間座標が大きくずれている場合には、音量が最大でなくとも、音量が所定の値（最大値からの差が固定値以内など）よりも大きく、連続する時間で口唇空間座標の変化が小さい強調音声を選択しても良い。これによって口唇空間座標の時間変化をスムージングできる。

以上の処理によって、選択部２０７は、複数の口唇空間座標候補に対応する強調音声から一つの強調音声を選択する。

以上に説明した通り、図３、図７に述べた処理フローによって、距離画像から取得した頭部と音声の音響的特徴に基づいて精度良く口唇の空間座標を求め、人物一人一人に対応する強調音声を取得することができる。

次に、強調音声に含む話者の音響的特徴に基づいて、頭部抽出の精度を上げるようフィードバックする処理について説明する。

複数の人が近接する場合、抽出部２０３が複数の頭部を抽出できない場合がある。

図８（ａ）は、抽出部２０３が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つだけの強調音声とそれに対応する口唇空間座標（図中の黒丸）が決定する。

しかし、本来は二人の人物が存在するため、それぞれの頭部を抽出し、口唇空間座標を推定し、音声を強調して、頭部それぞれに別の強調音声を対応付けることが好ましい。

このような場合、強調音声に何人の発話者が含まれるかによって、人数を特定し、頭部の抽出にフィードバックすることが可能となる。この場合のフローチャートを図９に示す。

図９において、ステップＳ３０１〜Ｓ３０５は、図３の強調音声を選択する処理に相当する処理であるため、同符号を付し、その説明を省略する。

次に、ステップＳ９０１で、選択部２０７が選択した強調音声に対して、クラスタリング部２０８がクラスタリングし、強調音声に含む声の話者数を取得する。

話者クラスタリングは次のような手法がある。スペクトルやＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）などの音声特徴量を音声から各フレーム算出して所定時間ごとに平均する。そしてこれをベクトル量子化などの手法でクラスタリングする。このクラスタ数によって話者数を推定する。

そして、ステップＳ９０２で、話者の数が一人である場合にはそのまま頭部に対する強調音声を確定し、ステップＳ３０６へ進む。話者の数が複数ある場合には、ステップＳ９０３へ進む。

ステップＳ９０３では、再抽出部２０９が、距離画像における頭部周辺の領域から話者数分の頭部を推定し再抽出する。人が近接している場合、特に高さが大きく異なる場合（一方が座り、他方が立っている場合など）、頭部が正しく検出できない場合がある。

図８（ａ）は、抽出部２０３が、近接する二人の人から一つの頭部しか抽出できなかった場合の図である。抽出した頭部に基づいて一つの強調音声とそれに対応する口唇空間座標（図中の黒丸）が決定する。ここで、決定した強調音声に対してクラスタリング部２０８が話者クラスタリングを行い、話者数を得る。例えばここで話者数が２である場合、再抽出部２０９が、ステップＳ９０３で現在の頭部の周辺領域から分の頭部を探索する。

抽出部２０３が頭部および肩からなる距離画像形状に基づいて頭部を抽出したのに対し、再抽出部２０９はマッチングの閾値を下げるか、あるいは単純に高さの極大点を使うなどの方法で、話者数分の頭部を決定して抽出する。

図８（ｂ）は、話者数に応じて再抽出部２０９が再抽出した二つの頭部を示す。

再抽出した頭部それぞれに対し、ステップＳ９０４〜ステップＳ９０６の処理を行う。

ステップＳ９０４〜ステップＳ９０６はステップＳ３０３〜Ｓ３０５と同じ処理を、再抽出した頭部それぞれについて行う。再抽出した頭部それぞれに対して口唇空間座標の候補を求め、強調音声を生成し、音量に基づいて強調音声を選択する。

ステップＳ３０６は図３と同様に、抽出した全ての頭部に対して強調音声を取得したか確認する。図８（ｂ）中の二つの黒丸は、頭部それぞれに対して決定した口唇空間座標であり、それぞれの方向に指向を向けた強調音声を頭部ごとに対応付ける。

以上のようにして、強調音声から得られる話者数に基づいて頭部を再抽出し、再抽出した頭部に対して再度強調音声を求めることで、頭部が近接している場合でも精度良く話者ごとの音声を取得できる。尚、図９の処理フローにおいては図１（ｂ）の機能構成図においてクラスタリング部２０８と再抽出部２０９は必須であるのに対し、図３の処理フローの場合はこれらの機能は図２の機能構成に必須ではない。

また、本発明はさらに、複数の頭部を抽出してそれぞれの頭部の音声を強調する際に、他の頭部から求めた強調音声に基づいて、他の頭部の口唇空間座標から到来する音声を減じる処理を加えることができる。

これによって、例えばある人が無言なのに対して他の人が話している場合に、ステップＳ３０４の音声強調で除去しきれない他の人の音声を除去できる。この場合のフローチャートを図１０に示す。同図において、ステップＳ３０１〜ステップＳ３０６、ステップＳ９０１〜ステップＳ９０６は、図３、図９と同様であるため、同符号を付し、その説明省略する。

尚、ステップＳ３０６において全ての頭部に対して強調音声を選択すると、ステップＳ１００１において、抑制部２１０が、頭部それぞれの強調音声に対して、他の頭部の音声成分を抑制（抑圧）する。抑制（抑圧）方法の一つとしては、例えば、強調音声から他の頭部の強調音声を減算する。ある頭部の強調音声のスペクトルをＳ、他の頭部の強調音声のスペクトルをＮ（ｉ）とすると、以下の式で他の頭部の音声成分を抑制（抑圧）できる。
Ｓ−Σ｛ａ（ｉ）×Ｎ（ｉ）｝
（ｉは他の頭部のインデックス。ａ（ｉ）は所定の係数であり、固定でも良いし例えば頭部の距離によって変えても良い。）なおここで、ステップＳ１００１で抑制部２１０が行うのではなく、強調部２０５がステップＳ３０４で音声強調する際に他の頭部の強調音声を使って抑制（抑圧）しても構わない。ステップＳ３０４ではそれぞれの頭部の口唇空間座標および強調音声は決定していない。

そこで、抑制（抑圧）する音声成分は、頭部の空間座標や前の時間に算出した口唇空間座標からおおよその音源位置を決定し、その方向の音声を強調して他の頭部の音声を生成し、強調音声から注目する頭部以外の頭部を音源とする音声を減算して抑制（抑圧）する。

他の頭部の音声を抑制（抑圧）する別の方法は、強調音声同士の相関を取り、相関が高い場合はいずれかの頭部の音声が入ってしまっているとして音量の小さいほうを無音にする。

この場合のフローチャートを図１１に示す。まずステップＳ１１０１で、二つの頭部の強調音声を取得する。

次にステップＳ１１０２で、二つの強調音声の相関を取る。

ステップＳ１１０３で、相関が低い場合にはステップＳ１１０５へ進み、抑制（抑圧）は行わない。相関が高い場合にはステップＳ１１０４に進む。

ステップＳ１１０４では二つの強調音声の音量を比較し、音量の小さいほうは音量の大きいほうの音声が入り込んでいると判定して無音にする。

以上の操作を、ステップＳ１１０５でループし、全ての頭部の組み合わせについて実施する。これにより、他の人の音が入り込んでしまっている音を除去することが可能である。以上に述べた二つの抑制（抑圧）方法のいずれかを処理を加えることにより、例えばある人が無言なのに対して他の人が話している等の場合に、ステップＳ３０４の音声強調で除去しきれない他の人の音声を除去できる。

尚、図１０のフローの場合、ステップＳ１００１を行う抑制部２１０は、図１（ｂ）の機能構成において必要であるのに対し、図３、図９の処理フローの場合、抑制部２１０は図１（ｂ）の機能構成に必須ではない。

（第２の実施形態）
本発明は、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに図３、図７の処理を実行することによって、その時間間隔ごとに適切な口唇空間座標の強調音声を頭部（参加者）ごとに取得可能である。抽出部２０３が抽出する頭部を連続する時間で追尾することにより、時間間隔ごとに取得した音声を繋げて参加者に対応づけることが可能である。

図１２は、所定の時間間隔ごとに頭部を追尾し、強調音声をつなげて記録する処理を示すフローチャートである。

同図において、まずステップＳ１２０１では、図３のフローチャートの処理により頭部毎に強調音声を選択する。

次に、ステップＳ１２０２で、抽出部２０３が現時刻で抽出した頭部と、前時刻で抽出した頭部とを、空間座標の近さに基づいて対応付けし、頭部を連続時間で追尾する。

そしてステップＳ１２０３で、対応付けした頭部に基づいて強調音声を接続して頭部ごとに累積する。

いま、頭部ｈに対する時刻ｔの時の口唇空間座標をｘ（ｈ，ｔ）とし、時刻ｔでの所定の時間間隔の強調音声信号をＳ（ｘ（ｈ，ｔ））とする。

すると、追尾する頭部ごとに累積される音声Ｓａｃｃ（ｈ，ｔ）は、Ｓ（ｘ（ｈ，１）），Ｓ（ｘ（ｈ，２））．．．，Ｓ（ｘ（ｈ，ｔ））が接続した音声となる。これをステップＳ１２０４で音声を記録している間、ループさせる。

以上の処理により、会議の参加者が会議中に動く場合においても、所定の時間間隔ごとに適切な口唇空間座標の強調音声を求め、頭部（参加者）ごとに追尾して強調した音声を取得することができる。

（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得手段と、
前記距離画像に基づいて、前記距離が極値となる位置を、人の頭頂部の位置として特定する第１の特定手段と、
前記第１の特定手段によって特定された人の頭頂部の位置と前記距離に基づいて、前記人の口唇が存在する複数の候補位置を特定する第２の特定手段と、
前記三次元の領域内で発声された音声に関して、複数箇所で集音された音声情報に基づいて、前記第２の特定手段によって特定された複数の候補位置のうち、１つの位置を前記人の口唇が存在する位置として選択する選択手段とを有する情報処理装置。
前記取得手段によって取得される距離画像は、前記人の頭上から下方に向かって撮像された距離画像であって、
前記第１の特定手段は、前記距離画像に基づいて、前記距離が極小となる位置を、前記人の頭頂部の位置として特定することを特徴とする請求項１に記載の情報処理装置。
前記複数箇所で集音された音声情報に基づいて、前記第２の特定手段によって特定された複数の候補位置のそれぞれが、前記複数箇所で集音された音声情報の音源の位置である場合に集音される音声に対応する複数の音声情報を取得する音声強調手段を更に備え、
前記選択手段は、前記音声強調手段が取得した前記複数の音声情報のうち、音量が最大である音声情報に対応する候補位置を、前記人の口唇が存在する位置として選択することを特徴とする請求項１又は２に記載の情報処理装置。
前記三次元の領域内に設置された複数のマイクロホンを介して得られた音声を取得する音声取得手段を更に備え、
前記音声強調手段は、前記音声取得手段が取得した音声を解析し、前記第２の特定手段によって特定された複数の候補位置のそれぞれから前記複数のマイクロホンのそれぞれ方向への音声を強調することによって、前記複数の音声情報を取得することを特徴とする請求項３に記載の情報処理装置。
前記第２の特定手段は、前記第１の特定手段が、前記人の頭頂部の位置を複数特定した場合、前記複数の人の頭頂部の位置のうち１つを選択し、選択された位置に関する前記複数の音源の候補位置を、前記複数の人の頭頂部の位置のうち、選択されていない位置と、前記頭頂部からの距離に基づいて特定することを特徴とする請求項１又は２に記載の情報処理装置。
前記基準となる面とは、前記三次元の領域を含む空間の天井に相当する面であって、
前記第２の特定手段は、前記第１の特定手段によって特定された人の頭頂部の位置から、下方に向かう向きに所定距離離れ、かつ、前記天井に相当する面と平行な面上の複数の位置を、前記複数の候補位置として特定することを特徴とする請求項１に記載の情報処理装置。
前記第２の特定手段は、前記第１の特定手段によって特定された前記人の頭頂部の位置と、前記距離画像から抽出される所定のオブジェクトの位置とに基づいて、前記複数の候補位置を特定することを特徴とする請求項１又は２に記載の情報処理装置。
音源の位置を推定する情報処理装置の制御方法であって、
取得手段が、三次元の領域内に存在するオブジェクトと、基準となる面との距離を示す距離画像を取得する取得工程と、
第１の特定手段が、前記距離画像に基づいて、前記距離が極値となる位置を、人の頭頂部の位置として特定する第１の特定工程と、
第２の特定手段が、前記第１の特定手段によって特定された人の頭頂部の位置と前記距離に基づいて、前記人の口唇が存在する複数の候補位置を特定する第２の特定工程と、
選択手段が、前記三次元の領域内で発声された音声に関して、複数箇所で集音された音声情報に基づいて、前記第２の特定手段によって特定された複数の候補位置のうち、１つの位置を前記人の口唇が存在する位置として選択する選択工程とを有する情報処理装置の制御方法。
コンピュータに読み込ませ実行させることで、前記コンピュータを、請求項１乃至７の何れか１項に記載の情報処理装置が有する各手段として機能させるためのコンピュータプログラム。
請求項９に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。