JP2000004495A

JP2000004495A - 複数マイク自由配置による複数話者位置推定方法

Info

Publication number: JP2000004495A
Application number: JP16894498A
Authority: JP
Inventors: Shinichi Kawada; 眞一川田; Masaharu Shimada; 正治島田; Haruhide Hokari; 治英穂刈; Kazunori Kobayashi; 和則小林
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-06-16
Filing date: 1998-06-16
Publication date: 2000-01-07

Abstract

(57)【要約】【課題】複数話者の位置推定領域内の空間に複数のマ
イクを自由に配置し、また複数話者の位置が任意であっ
ても、各話者の位置を推定することができる方法。【解決手段】話者（音源）位置推定空間１内を格子状
に分割し、この格子の交点を各仮想音源位置とし、各仮
想音源位置から話者位置推定空間内に自由に配置した複
数マイク（Ｍ₁〜Ｍ_m）までの遅延時間を、予めデータ
テーブルに記憶させておき、サンプリング周期毎に複数
のマイクの出力をＡＤ変換器３を介して対応する複数メ
モリ５にそれぞれ記憶し、複数メモリのうち選択された
偶数メモリより前記データテーブルに記憶された遅延時
間だけ遅らせて読出した偶数信号を乗算器７で乗算し、
この乗算結果を低域濾波（８）した信号は、仮想音源位
置と話者位置が合致したときに、そのピーク値が最大と
なるので、ピークの検出器１０によりその最大値が得ら
れた仮想話者位置を話者位置と推定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、１つの空間領域に
複数の人がいて、現在発声している人の音声信号を検出
して、その話者（音源）位置を推定する方法に係り、特
に、複数話者の位置推定領域内の空間に複数のマイクを
自由に配置して、各話者の位置を推定する方法に関する
ものである。

【０００２】

【従来の技術】現在、話者（音源）位置を推定する方法
は、例えば遠隔会議での音像定位通信において、話者の
位置情報をそのまま、受聴者側に伝達するシステムや、
物体が発生した音の位置に自動的にテレビカメラの照準
を合わせるような監視システム等に適用されている。こ
の話者（音源）位置を推定する方法は、一般に良く知ら
れている音源位置推定法と同じ方法が使われる。従来の
話者位置推定法として、同期加算法、相互相関法、線形
予測モデル、固有値法、複合複素正弦波モデルなどがあ
る。しかしながら、これらの方法は主に、マイク複数本
を規則正しくアレー状に配置する必要があり、マイク配
置の自由度や移動性に欠ける。

【０００３】また、上記の各方法は、音波を平面波と仮
定して音波到来方向を求めているため、近接音場におい
ては誤差を生じる。更に、２組以上のアレーを用いて、
推定された音源方向から話者位置を推定する必要があ
る。上記の方法の中で、音源方向を同定する技術と組合
せて音源の位置を推定する方法があるが、この方法で３
次元空間における音源位置を推定するには、同じ音源方
向推定技術を用いた装置が少なくとも３つ以上必要とな
る。

【０００４】いま、遠隔会議システムや１つの部屋に複
数の人がおり、現在話している人の位置を知るシステム
に適用するには、上記の方法では大規模となり、経済的
にも効果的ではない。さらに複数人が同時に発声してい
る場合などで、話者位置を推定できる実用化レベルには
達しておらず、しかも実時間処理で推定できないのが現
状である。またこの話者位置推定方法に関する本発明の
従来方法として最近の公知文献には例えば、下記があ
る。文献：電子情報通信学会論文誌Ａ，Vol.Ｊ７９−
Ａ，No. １１，１９９７年１１月、岡村敬介、島田正
治、穂刈治英，“任意配置された複数マイクによる単一
話者位置推定”、pp２０５４−pp２０５８

【０００５】上記文献によれば、音波を球面波と仮定し
た複数マイクの任意配置が可能な話者位置推定アルゴリ
ズムを提案している。以下に簡単にこれを説明する。図
７は上記文献の話者位置推定アルゴリズムの概要説明図
である。通常、話者は話しながら動いたり、黒板を使用
して説明するために、離席することもあるので、話者と
マイクの距離は変動していることが多い。そこで、この
話者位置推定アルゴリズムでは、マイク本数をＮ、話者
位置座標を（ｘ_s，ｙ_s，ｚ_s）、ｉ番目のマイク座標
を（ｘ_i，ｙ_i，ｚ_i）として、話者とｉ番目のマイク
間の距離ｒ_iを次式（１）で表し、音波到来距離差を求
める方程式を立てている。但し、ｉ＝１，２，……Ｎで
ある。

【０００６】

【数１】

【０００７】話者からｉ番目のマイク、ｋ番目のマイク
までの音波到来距離差をｄ_ikとすると次式（２）が成り
立つ。ｄ_ik＝ｒ_i−ｒ_k （ｉ，ｋ＝１，２，……Ｎ：ｉ≠ｋ） …（２）Ｎ本のマイクのうち、２本のマイクを１対とする任意の
三つのマイク対を選択することにより、式（２）から３
次元空間における話者位置座標（ｘ_s，ｙ_s，ｚ_s）を
求めることができるが、平方根や２乗の項を含んでおり
簡単に解くことはできない。また、測定による誤差も含
んでいるので単一の解を得るのは困難である。そこで、
式（２）を解くために、逐次近似法を用いている。修正
点（ｘ，ｙ，ｚ）と初期位置座標（ｘ₀，ｙ₀，ｚ₀）
との修正量を（Δｘ，Δｙ，Δｚ）とすると、次（３）
式が成り立つ。ｘ＝ｘ₀＋Δｘ、ｙ＝ｙ₀＋Δｙ、ｚ＝ｚ₀＋Δｚ …（３）

【０００８】以下に述べる方法で修正量（Δｘ，Δｙ，
Δｚ）を求めた後、式（３）に修正量（Δｘ，Δｙ，Δ
ｚ）を代入することにより話者位置座標に近い次の修正
点（ｘ，ｙ，ｚ）が求まる。次に、求められた座標
（ｘ′，ｙ′，ｚ′）を初期位置座標とし、更に繰り返
し計算を行うことにより正確な話者位置座標（ｘ_s，ｙ
_s，ｚ_s）を求めることができる。以下に修正量（Δ
ｘ，Δｙ，Δｚ）を求める手順を述べる。ｄ_ik0をある
初期位置座標からｉ番目のマイク、ｋ番目のマイクまで
の音波到来距離差とし、ｄ_ikを真の話者位置座標から各
マイクまでの音波到来距離差とする。また、ｄ_ikとｄ
_ik0との差分をΔｄ_ikとし、ｄ_ikを１次近似すると、次
式（４）が得られる。

【０００９】

【数２】

【００１０】但し、Δｓは誤差の補正項である。ここ
で、α_j、β_j、γ_jを次式（５）のように定義する。

【００１１】

【数３】

【００１２】３次元空間においてｊは、Ｎ本のマイクの
うち、２本のマイク（ｉ，ｋ：ｉ≠ｋ）を１対とする任
意のマイク対の番号である。但し、ｊ＝１，２，３，４
の各ｉ，ｋの組合せは異なる必要がある。式（４）は変
数（Δｘ，Δｙ，Δｚ，Δｓ）が４個であり、この解を
求めるためには３次元空間において四つのマイク対が必
要となる。従って、式（５）を式（４）に代入し、マト
リクス表現すると次式（６）となる。

【００１３】

【数４】

【００１４】ここで式（６）の左辺第１項をＡ、第２項
をΔＸ、右辺をΔＤとおくと、式（６）より誤差修正量
ΔＸは次式（７）となる。 ΔＸ＝Ａ^-1ΔＤ …（７）また、ΔＸを求めるためには行列Ａの逆行列が存在する
必要がある。そのためには、行列Ａがランク落ちしない
必要がある。２本のマイクと話者が一直線上になければ
ランク落ちすることなく、目的の座標を計算できること
がわかる。３次元の場合については、同様の手順で求め
ると、３本のマイクを通る平面上に話者がいない場合、
目的の座標を計算できる。

【００１５】図８は各マイク配置においてシミュレーシ
ョンによって求めた本アルゴリズムの推定不可能な話者
位置を示す図である。図８においては、図の上段に示す
話者とマイクの位置関係が、（ａ）ケース１、（ｂ）ケ
ース２、（ｃ）ケース３の３つの場合について、それぞ
れ推定不可能な話者位置を図の下段の黒字の領域にそれ
ぞれ示している。

【００１６】さらに本文献では、話者位置推定を迅速に
行うために、初期位置座標決定法について述べている。
即ち、音波を平面波として仮定し、２次元で考えれば、
１組の対のマイクの時間差方向に音源があるので、２組
の対から音源の仮想の位置が判り、それを初期値とすれ
ばよいことを述べている。但し、この仮想位置は特に近
接音場において誤差が大きくなるが、初期値の設定を試
行錯誤で行うよりは、真の音源が近くにあるので収束し
やすいと結論を出している。

【００１７】

【発明が解決しようとする課題】しかしながら、上記の
文献の話者位置推定法におけるアルゴリズムでは、図８
で説明したように、２本のマイクを結ぶ直線上に音源
（話者）が存在する場合には、明らかに話者位置の推定
ができない領域が存在するという欠点、および逐次処理
による近似を用いた音源推定では、実時間動作で話者位
置推定は困難であるという欠点を有していた。

【００１８】

【課題を解決するための手段】本発明に係る複数マイク
自由配置による複数話者位置推定方法は、複数話者の位
置推定領域内の空間に複数のマイクを自由に配置し、前
記空間を格子状に分割し、この格子の交点を各仮想話者
位置とし、前記各マイクについて、前記各仮想話者位置
から各マイクまでの音響到達時間を音響サンプリング周
期で除算した商を整数化し、これらの整数化値のうちの
最大値と各仮想話者位置毎の整数化値との差分値を予め
第１のテーブルメモリに記憶しておき、また前記複数の
マイクから所定偶数のマイクを選択するすべての組合せ
の順序をランダムにして予め第２のテーブルメモリに記
憶しておき、前記音響サンプリング周期毎に、前記複数
の各マイクの音響出力を量子化してそれぞれ対応する複
数のメモリに記憶し、前記第２のテーブルメモリのデー
タを参照して前記複数のマイクから所定偶数のマイクを
選択し、各仮想話者位置毎に、前記選択したすべてのマ
イクと各仮想話者位置に対応した整数値を前記第１のテ
ーブルメモリより読取り、前記選択したマイクの音響出
力を記憶したメモリから前記第１のテーブルメモリより
読取った整数値分だけ時間遅延したマイクの音響出力レ
ベルをそれぞれ読出し、この読出した所定偶数の音響出
力レベルをすべて乗算し、この乗算結果を低域濾波した
信号についての所定時間の平均値を求め、各仮想話者位
置毎の前記所定時間の平均値のピーク値を比較してその
最大値を求め、この最大値が得られた仮想話者位置を話
者位置と推定するものである。その結果、複数話者の位
置推定領域内の空間に複数のマイクを自由に配置し、ま
た複数話者の位置が任意であっても、各話者の位置を推
定することができる。

【００１９】

【発明の実施の形態】本発明の基本的な考え方として、
マイクは市販品を使用し、互いに自由に分散的にマイク
が配置され、それらのマイクの座標が既に判っているも
のとする。本アルゴリズムの基本的な考え方は、話者
（音源）位置推定空間内を位置推定分解能距離で格子状
に分割し、その３次元の交点を仮想音源位置とし、各仮
想音源位置から話者位置推定空間内に自由に配置した複
数マイクまでの遅延時間を予め、テーブルメモリに記憶
させておき、話者からの音声が複数マイクに到達した信
号を、各仮想音源位置ごとにテーブルメモリから参照し
た遅延時間によって音声信号を遅延させて、この遅延さ
せた信号の乗算により、仮想音源位置と話者位置が合致
したときに、その乗算結果の値が大きくなることを利用
したものである。以下においては、本発明の詳細な説明
を簡単にわかりやすくするために、マイク、話者がすべ
て２次元の同一平面上に配置され、さらにマイクは話者
（音源）位置の外側の四角形の周辺に配置されていると
仮定し、２次元で話者位置を推定するものとする。

【００２０】本発明で使用される推定アルゴリズム構成
例について、以下順を追って説明する。図１は本発明に
係る話者位置推定システムの槻要構成図である。図１に
おいて、１は２次元平面、２は複数のマイク、３はＡＤ
変換器、４は離散値信号、５はメモリ、６は複数のマイ
クから選択された４本のマイクにそれぞれ接続された４
つのメモリから読出した信号、７は乗算器、８はフィル
タ（例えばローパスフィルタ）、９はフィルタ出力信
号、１０はピーク検出器である。下記の表１は、複数マ
イクから４つのマイク（Ｋ₁[n] 〜Ｋ₄[n] ，ｎ：時
刻）を選択するデータテーブルＢである。

【００２１】

【表１】

【００２２】図２は本発明に係るサンプリング周期内処
理のフローチャート、図３は本発明に係るピーク検出処
理のフローチャートである。なお各フローチャートのＳ
に続く数値はステップ番号を示す。

【００２３】本アルゴリズムでは、話者位置推定する前
に以下の４つの前提条件が必要である。（１）２次元平面１を格子状に横ｘ軸、縦ｙ軸をそれぞ
れｐ_max，ｑ_maxに等分割し、その交点を仮想話者位置
（ｘ_p，ｙ_q）する。但し、ｐ，ｑは整数で、０≦ｐ≦
ｐ_max，０≦ｑ≦ｑ_maxである。（２）ｒ番目のマイク位置（ｘ_Mr，ｙ_Mr）［ｒ＝１〜ｉ
〜ｊ〜ｋ〜ｍ］を前もって、計測し固定しておくか、何
らかの方法でマイク位置を随時測定する。（３）ｍ本から４本のマイクを選択し、これらに直接接
続されているメモリを選択する組合せ（Combination, m
Ｃ₄と記す）をすべて取り上げ、無作為に順序を変えた
ものをデータテーブルＢとする。その時刻（時刻をｎと
する）に採ってくるマイク（メモリ）の番号をＫ₁[n]
，Ｋ₂[n] ，Ｋ₃[n] ，Ｋ₄[n] とし、この選択法の
一例を表１に示す。読出すときは、時刻ｎを mＣ₄で割
った剰余（nｍｏｄ mＣ₄）を求め、前記データテーブ
ルＢからn ｍｏｄ mＣ₄番目のデータを読出す。このよ
うにサンプルごとに４本のマイクの組合せが異なる。（４）すべての各仮想話者位置（ｘ_p，ｙ_q）からマイ
クＭ_rまでの音が到達するまでの時間をサンプリング周
期で割った値Δ_rpqを求める。このΔ_1pq〜Δ_mp _qの中
で一番大きな値をΔ_maxpqとし、ｄ_rpq＝Δ_maxpq−Δ
_rpqを算出する。各仮想話者位置、各マイクについての
ｄ_rpqをデータテーブルＡに格納しておく。「データ総
数：｛（ｐ_max＋１）（ｑ_max＋１）×マイク総数
ｍ｝」

【００２４】次に図１のシステムの動作を図２及び図３
を参照して説明する。（１）サンプリング周期毎の処理図２のフローチャートを参照してサンプリング周期毎の
処理を説明する。まず、すべての各マイク（Ｍ₁〜
Ｍ_m）２の受信信号を、ディジタル処理しやすいように
ＡＤ変換器３に入力し、その出力信号Ｘ_r[n] （ｒ＝１
〜ｍ）４をｍ個のメモリ５にそれぞれ記憶させる（図２
のＳ１を参照）。次に表１のデータテーブルＢを利用し
てｍ個のマイク（メモリ）から４個のマイク（メモリ）
（Ｋ₁[n] 〜Ｋ₄[n] ）を選択する（図２のＳ２を参
照）。

【００２５】次に各仮想話者位置（ｘ₀，ｙ₀）〜（ｘ
_pmax，ｙ_qmax）毎に以下の処理を行う。なお下記のｐ，
ｑは、それぞれ０≧ｐ≧ｐ_max，０≧ｑ≧ｑ_maxの整数
をすべて含むものであるが、これらを一括代表した記号
として記述している。次に、選択された４つの各マイク
と各仮想話者位置に対応した整数値（時間遅延値）を前
記データテーブルＡより読取り、選択された４つのメモ
リから、データテーブルＡより読取った整数値分だけ時
間遅延した、ｄ_K1[n] _pq〜ｄ_K4[n] _pq番目のデータ（音
響出力レベル）Ｘ_K1[n][ｎ−ｄ_K1[n] _pq］〜Ｘ_K4[n][ｎ
−ｄ_K4[n] _pq］６を読出す（図２のＳ３を参照）。次
に、この４個のデータを乗算器７で乗算し、乗算結果の
Ｗ_pq[n] を求める（図２のＳ４を参照）。なおここでは
４個のデータを採ったが、４個でなくとも偶数個である
ならば、かまわない。この理由については原理説明にお
いて述べる。

【００２６】次に、この乗算結果の信号Ｗ_pq[n] には、
リプルを含んでいるのでこれを除去するために、ここで
は１次の簡単なローパスフィルタ８を採用した。このフ
ィルタ８の出力信号９をＹ_pq[n] とすると、これは、次
式（８）で表すことができる。Ｙ_pq[n] ＝ａ・Ｙ_pq［ｎ−１］＋（１−ａ）・Ｗ_pq[n] …（８）ここでａはフィードバックゲイン（０≦ａ＜１）であ
る。これをすべての各仮想話者位置（ｘ_p，ｙ_q）で行
う（図２のＳ５を参照）。

【００２７】（２）Ｙ_pq[n] のピーク検出処理以下に述べる処理により、ピーク検出器１０でフィルタ
８の出力信号Ｙ_pq[n]のピーク検出を行う。なお、この
ピーク検出を行う前に、各サンプル周期毎のＹ_pq[0] ，
Ｙ_pq[1] ，Ｙ_pq[2] …の時間的な平均化処理を行い、こ
の平均化処理後のピーク値の最大値が得られた仮想話者
位置が推定された話者位置である。図３のフローチャー
トを参照し、ピーク検出処理を説明する。まず、Ｙ
_pq[n] にＬサンプル長の矩形ウインドウをかけ、時間軸
上でブロック化し、ブロック毎の平均値を次式（９）に
より求める（図３のＳ１１を参照）。

【００２８】

【数５】

【００２９】次に、式（９）で平均化処理された値の最
大ピークＹ_max(0) を検出する（図３のＳ１２を参
照）。次に、有意のある信号（話者音声）と有意のない
信号（たとえば室内雑音）とを区別するために、予め定
められた絶対閾値Ｙ_thaと比較し、Ｙ_max(0) ≦Ｙ_th _a
ならば、ピーク値（話者）はないものと判断する（図３
のＳ１３を参照）。またＳ１３の比較で、Ｙ_max(0) ＞
Ｙ_thaならば、このピーク値に話者がいると判断し（図
３のＳ１４を参照）、このＹ_max(0) より小さな値を相
対閾値Ｙ_th _rとして設け、Ｙ_thr＝Ａ_th・Ｙ_max(0) と
する。ここでＡ_thは比例定数である（Ｓ１５を参照）。

【００３０】次に最大ピーク値が存在し、その話者を第
一番目の話者とするためにｊ＝１とおく（Ｓ１６を参
照）。次にそのピーク位置から半径ｒ_maskの円内のＹ_pq
[n] をすべて０に設定する（マスク処理であり、Ｓ１７
を参照）。Ｓ１７のマスク処理後に、再度Ｙ_pq[n] を掃
引し、Ｙ_max(j) ＞Ｙ_thrとする最大ピーク値を探す
（Ｓ１８を参照）。そしてもし、Ｙ_max(j) ＞Ｙ_thrな
らば（Ｓ１９を参照）、この点に２番目の話者がいると
判断する（Ｓ２０を参照）。次に、ｊ値をインクリメン
ト（ｊ＝ｊ＋１）し（Ｓ２１を参照）、Ｓ１７に戻り、
その最大ピーク値から半径ｒ_maskの円内のＹ_pq[n] をす
べて０に設定するマスク処理を行う。このようにＳ１７
〜Ｓ２１の処理を繰返して行い、次々と複数の各話者の
位置を求める。

【００３１】次に本発明の原理について説明する。簡単
なため、話者数を２と仮定し説明する。話者Ｓ₁，Ｓ₂
は図１に示してあるようにそれぞれ仮想話者位置
（ｘ_p1，ｙ_q1），（ｘ_p2，ｙ_q2）にあるものと仮定す
る。また、これらの話者は点音源、無指向性音源である
と仮定し、話者Ｓ_jの音声信号をｓ_j[n] で表す（ｊ＝
１，２）。マイクＭ_rに受音される信号を考える。仮想
話者位置（ｘ_p，ｙ_q）とマイクＭ_rの間の距離δ_rpq
は、既知情報であるから、次式（１０）で求めることが
できる。

【００３２】

【数６】

【００３３】仮想話者位置からマイクＭ_rまでに音が到
達するまでの遅延サンプル数Δ_rpqはδ_rpqより次式
（１１）により求められる。但し、離散値処理を行って
いるのでΔ_rpqには±０．５サンプル以下の量子化誤差
がある。

【００３４】

【数７】

【００３５】ここで、νは音速を、ｔ_sはサンプリング
周期を、Ｉｎｔは整数化を表す。マイクＭ_rに到達しＡ
Ｄ変換された信号Ｘ_r[n] は、各話者から到達した音の
和となる。音波の減衰は距離に逆比例するので以下の式
（１２）が得られる。

【００３６】

【数８】

【００３７】Δ_rpqには±０．５サンプル以下の量子化
誤差が存在しているが、音声振幅は１サンプル程度では
定常音とみなされているので、その誤差は無視できる。
またサンプリング周波数が十分に高ければさらに、この
ような誤差は無視される。

【００３８】ｍ本のマイクで受信した信号Ｘ₁[n] 〜Ｘ
_m[n] はそれぞれ１〜ｍ番目のメモリ５に保存されてい
る。このｍ個のメモリからＫ₁[n] 〜Ｋ₄[n] の４個の
メモリを選択し、この選択した４個のメモリからそれぞ
れデータテーブルＡから読み取った時間だけ遅延したｄ
_K1[n] _pq〜ｄ_K4[n] _pq番目のデータを読出してくる。こ
れらのデータが乗算器７へ入力されるので、乗算器７の
ｋ番目の入力端子に入力されるデータＸ_Kk[n][ｎ−ｄ_Kk
[n] _p1q1］は次式（１３）で表されることになる。

【００３９】

【数９】

【００４０】式（１３）の右辺の第一項は、もとの音声
信号ｓ₁[n] からΔ_maxp1q1サンプルの遅延がある。ま
たΔ_maxp1q1は、Ｋ_k[n] の関数になっていないのでど
のマイクにおいても、この項の遅延サンプル数は変わら
ない。話者が存在しない仮想話者位置（ｘ_p0，ｙ_q0）に
ついても、同様にＸ_Kk[n][ｎ−ｄ_Kk[n] _p0q0］を求める
と、次式（１４）のようになる。

【００４１】

【数１０】

【００４２】乗算器７の出力Ｗ_pq[n] は、乗算器の入力
Ｘ_Kk[n][ｎ−ｄ_Kk[n] _pq］の４つのデータを掛け合わせ
たものであるから、次式（１５）で表される。

【００４３】

【数１１】

【００４４】また話者Ｓ₁の存在する仮想話者位置のＷ
_p1q1[n] は、式（１５）に式（１３）を代入して次式
（１６）のように表される。但し、右辺の第二項以降は
省略してある。

【００４５】

【数１２】

【００４６】図４は乗算器７の出力波形例を示す図であ
り、式（１６）の右辺第一項の特性とその他の項の特性
に分けて示している。式（１６）の右辺第一項は、同一
信号の４乗となっている（同期乗算されている）ので図
４の（ａ）のように正の値のみをとる。他の項は図４の
（ｂ）のように正負の値をとる。これは式（１３）の右
辺の第二項目の遅延がＫ_k[n] の関数になっており、４
つのデータを掛け合わせたときに同期乗算とならないか
らである。また、話者のいない仮想話者位置についても
同様に、式（１５）に式（１４）を代入してＷ_p0q0[n]
を求めると、すべての項が同期乗算にならず、図４の
（ｂ）のような特性の項のみとなる。これはすべての項
において、遅延がＫ_k[n] の関数となっているからであ
る。

【００４７】Ｗ_pq[n] は図４に示したようにリプルを含
んでいるので、これを平滑化するためにフィルタ８を用
いる。この実施形態においては、フィルタ８の出力Ｙ_pq
[n]は以下のように表される。但しａはフィードバック
ゲイン（０≦ａ＜１）である。

【００４８】

【数１３】

【００４９】式（１７）において、フィードバックゲイ
ンａが１に十分に近ければ次式（１８）が成立する。

【００５０】

【数１４】

【００５１】ところで、話者のいない仮想話者位置の出
力Ｙ_p0q0[n] については、前述したように図４の（ｂ）
のような出力の乗算であるから、話者の存在する仮想話
者位置の出力Ｙ_p1q1に比較してはるかに小さく次式（１
９）の関係となる。

【００５２】

【数１５】

【００５３】従って振幅の大きい仮想話者位置を検出す
れば話者位置を推定できることになる。本実施形態で
は、簡単に説明するために話者数を２としたが話者数が
増えても同じことが言えるので、本発明を用いて任意の
複数の話者位置を推定できる。ここで、ｍ本のマイクか
ら選択するマイク本数を４本とした理由は以下の通りで
ある。本発明では、選択するマイク数が偶数個であるな
らば、図４の（ａ）に示したように、出力Ｗ_pq[n] の式
（１６）の右辺第一項が正となる。しかし、選択するマ
イク数が増加すると、Ｓ_j[n] の振幅の変動に対してＹ
_pjqj[n] の振幅変動が大きくなる。振幅変動が大きくて
も、話者１人の場合は問題は生じないが、複数同時話者
の場合は、音圧レベルの小さい話者位置のＹ_pq[n] の振
幅が、他の話者位置のＹ_pq[n] の振幅に比べて極端に小
さくなってしまい、検出が困難になる。このことにより
本実施形態では、選択するマイク数は４本としている。

【００５４】次に、マイク選択をサンプルごとに変化さ
せて効果を説明する。ｍ本から４本のマイクを選択する
際に、サンプルごとにマイクの組合せを変えていくこと
は、マイク位置を時間的に移動（変化）させていくこと
と等価である。図５は図１の各仮想話者位置毎のフィル
タ出力の平面上の分布例を示す図である。図５において
は、４本のマイクの選択を固定したときと、変化させた
ときの２次元平面上におけるフィルタ出力Ｙ_pq[n] の分
布特性を示しており、マイク選択固定１と２は選択マイ
クの組合せが違うだけである。

【００５５】図５のマイク選択固定１と２の二つの特性
を比較すると、話者Ｓ₁のいる仮想話者位置のＹ_pq[n]
の振幅はほとんど変化がないが、話者のいない仮想話者
位置のＹ_pq[n] の振幅は選択マイクの組合せによって変
化しているのが分かる。また、サンプルごとに４本のマ
イクの選択を変化させ、Ｙ_pq[n] を求めることは、図５
のマイク選択固定１，２のような、マイク選択が違うＹ
_pq[n] を加算することと等価である。したがって、サン
プルごとに４本のマイクの選択を変化させて仮想話者位
置のＹ_pq[n] を加算し低域濾波処理することにより、マ
イク選択によってＹ_pq[n] の振幅が変動する仮想話者点
（話者のいない仮想話者点）の振幅のみが小さくなり、
図５の一番下の図のように話者の存在する仮想話者位置
のピークが強調されることになる。

【００５６】本発明を実証するために行った計算機シミ
ュレーションを以下に説明する。なお、これまでは、理
解しやすいようにマイクを四辺形の外側に配置した場合
について説明したが、本発明はマイクを位置推定空間の
任意の場所に配置しても、話者位置推定が可能であるこ
とをこのシミュレーションでは示す。計算機シミュレー
ションは下記の条件で行った。（１）音声信号は、８ｋＨｚのサンプリング周波数、８
bit の量子化、２秒の長さで採取した。（２）部屋の大きさは４．５ｍ×４．５ｍ、（３）壁反射を一次で考慮し、反射係数を０．５とし
た。（４）仮想話者位置を１０ｃｍ間隔とし、平面のｘ，ｙ
軸を４５分割した。（５）フィードバックゲインａは０．９９９、（６）絶対閾値Ｙ_thaは５００、（７）相対閾値の比例定数Ａ_thは０．３（８）マスク半径ｒ_maskは３０ｃｍ。（９）ブロック処理の長さは２５０サンプル、（１０）矩形ウインドウＬは５００サンプル、

【００５７】図６はマイク位置によるフィルタ出力分布
と話者位置検出確率のシミュレーション結果を示す図で
ある。図６の（ａ）は話者Ｓ₁，Ｓ₂，Ｓ₃が一直線上
に並び、８本のマイクが四辺形の外側に配置された（配
置Ａの）ときのフィルタ出力Ｙ_pq[n] の空間的特性を示
している。図６の（ｂ）は、８本のマイクが任意に配置
され、話者Ｓ₁，Ｓ₂がマイクの外側の任意の場所に存
在する（配置Ｂの）ときのフィルタ出力Ｙ_pq[n] の空間
的特性を示している。図６の（ｃ）は平行線の各線上に
それぞれ４本のマイクが配置され、話者Ｓ₁，Ｓ₂が平
行線の外側に配置された（配置Ｃの）のときのフィルタ
出力Ｙ_pq[n]の空間的特性を示している。図６の（ａ）
〜（ｃ）によりマイク配置と話者位置が任意であって
も、話者位置推定が可能であることが容易に判定でき
る。

【００５８】以上、マイク配置と話者位置が任意でも話
者位置の推定ができることが判明したが、同時話者が複
数人存在した場合の評価結果を以下に述べる。提案アル
ゴリズムを評価するために、正しく話者位置を検出でき
る確率（話者位置検出確率Ｐ_cor）を定義し、求め方を
以下に示す。まず、固定閾値型音声検出方式を用いて、
話者の音声信号の有音，無音区間を求める。これを、Ｑ
_jorg[n] （＝１：有音，＝０：無音）で表す。また、提
案アルゴリズムのピーク検出結果より次の二つを求め
る。話者Ｓ_jの真の位置を中心とする半径３０ｃｍの円
内（正解領域）の検出話者数Ｑ_jest[n] 、正解領域外の
検出話者数Ｑ_oth[n] 。次に、Ｑ_jorg[n] ＝Ｑ_jest[n]
の場合を正しい検出、Ｑ_oth[n] の数を誤った検出とし
て、次式（２０）によりＰ_corを求める。但し、Ｑ_jorg
[n] の立上り、立下りから１００msecを無判定区間とす
る。

【００５９】

【数１６】

【００６０】式（２０）で求めた結果を、配置Ａ，Ｂ，
Ｃで比較した例を図６の（ｄ）に示した。この結果、同
時話者数３以下であるならば、検出確率は約６５％以上
が得られることが判る。

【００６１】また前記実施形態では、話者（音源）位置
は、２次元座標位置として説明をしたが、本発明はこれ
を３次元座標位置に拡張して音源の位置推定を行うこと
が可能であることは自明である。

【００６２】本実施形態によれば、話者（音源）位置推
定空間内を２次元または３次元の位置推定分解能距離で
格子状に分割し、その２次元または３次元の交点を仮想
音源位置とし、各仮想音源位置から話者位置推定空間内
に自由に配置した複数マイクまでの遅延時間を、予めデ
ータテーブルＡに記憶させておき、話者からの音声が複
数マイクから選択された偶数マイクに到達した信号を、
各仮想音源位置ごとにデータテーブルＡから参照した遅
延時間によって音声信号を遅延させて、この遅延させた
偶数の信号を乗算する。この乗算結果は、仮想音源位置
と話者位置が合致したときに、その値は大きくなるの
で、その大きな値の得られた仮想音源位置を検出するこ
とで、話者位置が推定できる。

【００６３】

【発明の効果】以上のように本発明によれば、複数話者
の位置推定領域内の空間に複数のマイクを自由に配置
し、前記空間を格子状に分割し、この格子の交点を各仮
想話者位置とし、前記各マイクについて、前記各仮想話
者位置から各マイクまでの音響到達時間を音響サンプリ
ング周期で除算した商を整数化し、これらの整数化値の
うちの最大値と各仮想話者位置毎の整数化値との差分値
を予め第１のテーブルメモリに記憶しておき、また前記
複数のマイクから所定偶数のマイクを選択するすべての
組合せの順序をランダムにして予め第２のテーブルメモ
リに記憶しておき、前記音響サンプリング周期毎に、前
記複数の各マイクの音響出力を量子化してそれぞれ対応
する複数のメモリに記憶し、前記第２のテーブルメモリ
のデータを参照して前記複数のマイクから所定偶数のマ
イクを選択し、各仮想話者位置毎に、前記選択したすべ
てのマイクと各仮想話者位置に対応した整数値を前記第
１のテーブルメモリより読取り、前記選択したマイクの
音響出力を記憶したメモリから前記第１のテーブルメモ
リより読取った整数値分だけ時間遅延したマイクの音響
出力レベルをそれぞれ読出し、この読出した所定偶数の
音響出力レベルをすべて乗算し、この乗算結果を低域濾
波した信号についての所定時間の平均値を求め、各仮想
話者位置毎の前記所定時間の平均値のピーク値を比較し
てその最大値を求め、この最大値が得られた仮想話者位
置を話者位置と推定するようにしたので、その結果、複
数話者の位置推定領域内の空間に複数のマイクを自由に
配置し、また複数話者の位置が任意であっても、各話者
の位置を推定することができる。

【図面の簡単な説明】

【図１】本発明に係る話者位置推定システムの概略構成
図である。

【図２】本発明に係るサンプリング周期内処理のフロー
チャートである。

【図３】本発明に係るピーク検出処理のフローチャート
である。

【図４】図１の乗算器の出力波形例を示す図である。

【図５】図１の各仮想話者位置毎のフィルタ出力の平面
上の分布例を示す図である。

【図６】マイク位置によるフィルタ出力分布と話者位置
検出確率のシミュレーション結果を示す図である。

【図７】従来の話者位置推定アルゴリズムの概略説明図
である。

【図８】文献の方法のシミュレーションによる推定不可
能な話者位置を示す図である。

【符号の説明】

１２次元平面２複数のマイク３ＡＤ変換器４離散値信号５メモリ６選択された４つのメモリからの読出信号７乗算器８フィルタ９フィルタ出力信号１０ピーク検出器Ｍ₁〜Ｍ_m マイクＳ₁〜Ｓ_j 話者

───────────────────────────────────────────────────── フロントページの続き (71)出願人 598079640 小林和則新潟県長岡市上富岡町1603−１長岡技術科学大学内 (72)発明者川田眞一東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内 (72)発明者島田正治新潟県長岡市上富岡町1603−１長岡技術科学大学内 (72)発明者穂刈治英新潟県長岡市上富岡町1603−１長岡技術科学大学内 (72)発明者小林和則新潟県長岡市上富岡町1603−１長岡技術科学大学内Ｆターム(参考） 5D020 BB10

Claims

【特許請求の範囲】

【請求項１】複数話者の位置推定領域内の空間に複数
のマイクを自由に配置し、前記空間を格子状に分割し、
この格子の交点を各仮想話者位置とし、前記各マイクに
ついて、前記各仮想話者位置から各マイクまでの音響到
達時間を音響サンプリング周期で除算した商を整数化
し、これらの整数化値のうちの最大値と各仮想話者位置
毎の整数化値との差分値を予め第１のテーブルメモリに
記憶しておき、また前記複数のマイクから所定偶数のマ
イクを選択するすべての組合せの順序をランダムにして
予め第２のテーブルメモリに記憶しておき、前記音響サ
ンプリング周期毎に、前記複数の各マイクの音響出力を
量子化してそれぞれ対応する複数のメモリに記憶し、前
記第２のテーブルメモリのデータを参照して前記複数の
マイクから所定偶数のマイクを選択し、各仮想話者位置
毎に、前記選択したすべてのマイクと各仮想話者位置に
対応した整数値を前記第１のテーブルメモリより読取
り、前記選択したマイクの音響出力を記憶したメモリか
ら前記第１のテーブルメモリより読取った整数値分だけ
時間遅延したマイクの音響出力レベルをそれぞれ読出
し、この読出した所定偶数の音響出力レベルをすべて乗
算し、この乗算結果を低域濾波した信号についての所定
時間の平均値を求め、各仮想話者位置毎の前記所定時間
の平均値のピーク値を比較してその最大値を求め、この
最大値が得られた仮想話者位置を話者位置と推定するこ
とを特徴とする複数マイク自由配置による複数話者位置
推定方法。
【請求項２】前記最大値が得られた仮想話者位置を話
者位置と推定する場合に、前記最大値を所定の絶対閾値
と比較し、この絶対閾値より小さい場合は話者が存在し
ないと判別し、前記絶対閾値より大きい場合はその仮想
話者位置を真の話者位置と判別し、この真の話者位置の
最大値より小さな値の相対閾値を設定し、この真の話者
位置と判別された位置を中心とする所定範囲内のすべて
の仮想話者位置の前記所定時間の平均値を零に置換し、
さらに各仮想話者位置毎の前記所定時間の平均値のピー
ク値を比較してその最大値を求め、前記設定した相対閾
値と比較してこの相対閾値より大きい場合は次の話者位
置と推定し、上記処理を繰返すことによりすべての各話
者位置を推定することを特徴とする請求項１記載の複数
マイク自由配置による複数話者位置推定方法。
【請求項３】前記空間を格子状に分割する格子間隔を
話者推定位置分解能とすることを特徴とする請求項１ま
たは２記載の複数マイク自由配置による複数話者位置推
定方法。