JP2000004495A - 複数マイク自由配置による複数話者位置推定方法 - Google Patents

複数マイク自由配置による複数話者位置推定方法

Info

Publication number
JP2000004495A
JP2000004495A JP16894498A JP16894498A JP2000004495A JP 2000004495 A JP2000004495 A JP 2000004495A JP 16894498 A JP16894498 A JP 16894498A JP 16894498 A JP16894498 A JP 16894498A JP 2000004495 A JP2000004495 A JP 2000004495A
Authority
JP
Japan
Prior art keywords
microphones
speaker
speaker position
value
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP16894498A
Other languages
English (en)
Inventor
Shinichi Kawada
眞一 川田
Masaharu Shimada
正治 島田
Haruhide Hokari
治英 穂刈
Kazunori Kobayashi
和則 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP16894498A priority Critical patent/JP2000004495A/ja
Publication of JP2000004495A publication Critical patent/JP2000004495A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 【課題】 複数話者の位置推定領域内の空間に複数のマ
イクを自由に配置し、また複数話者の位置が任意であっ
ても、各話者の位置を推定することができる方法。 【解決手段】 話者(音源)位置推定空間1内を格子状
に分割し、この格子の交点を各仮想音源位置とし、各仮
想音源位置から話者位置推定空間内に自由に配置した複
数マイク(M1 〜Mm )までの遅延時間を、予めデータ
テーブルに記憶させておき、サンプリング周期毎に複数
のマイクの出力をAD変換器3を介して対応する複数メ
モリ5にそれぞれ記憶し、複数メモリのうち選択された
偶数メモリより前記データテーブルに記憶された遅延時
間だけ遅らせて読出した偶数信号を乗算器7で乗算し、
この乗算結果を低域濾波(8)した信号は、仮想音源位
置と話者位置が合致したときに、そのピーク値が最大と
なるので、ピークの検出器10によりその最大値が得ら
れた仮想話者位置を話者位置と推定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、1つの空間領域に
複数の人がいて、現在発声している人の音声信号を検出
して、その話者(音源)位置を推定する方法に係り、特
に、複数話者の位置推定領域内の空間に複数のマイクを
自由に配置して、各話者の位置を推定する方法に関する
ものである。
【0002】
【従来の技術】現在、話者(音源)位置を推定する方法
は、例えば遠隔会議での音像定位通信において、話者の
位置情報をそのまま、受聴者側に伝達するシステムや、
物体が発生した音の位置に自動的にテレビカメラの照準
を合わせるような監視システム等に適用されている。こ
の話者(音源)位置を推定する方法は、一般に良く知ら
れている音源位置推定法と同じ方法が使われる。従来の
話者位置推定法として、同期加算法、相互相関法、線形
予測モデル、固有値法、複合複素正弦波モデルなどがあ
る。しかしながら、これらの方法は主に、マイク複数本
を規則正しくアレー状に配置する必要があり、マイク配
置の自由度や移動性に欠ける。
【0003】また、上記の各方法は、音波を平面波と仮
定して音波到来方向を求めているため、近接音場におい
ては誤差を生じる。更に、2組以上のアレーを用いて、
推定された音源方向から話者位置を推定する必要があ
る。上記の方法の中で、音源方向を同定する技術と組合
せて音源の位置を推定する方法があるが、この方法で3
次元空間における音源位置を推定するには、同じ音源方
向推定技術を用いた装置が少なくとも3つ以上必要とな
る。
【0004】いま、遠隔会議システムや1つの部屋に複
数の人がおり、現在話している人の位置を知るシステム
に適用するには、上記の方法では大規模となり、経済的
にも効果的ではない。さらに複数人が同時に発声してい
る場合などで、話者位置を推定できる実用化レベルには
達しておらず、しかも実時間処理で推定できないのが現
状である。またこの話者位置推定方法に関する本発明の
従来方法として最近の公知文献には例えば、下記があ
る。文献:電子情報通信学会論文誌A,Vol.J79−
A,No. 11,1997年11月、岡村敬介、島田正
治、穂刈治英,“任意配置された複数マイクによる単一
話者位置推定”、pp2054−pp2058
【0005】上記文献によれば、音波を球面波と仮定し
た複数マイクの任意配置が可能な話者位置推定アルゴリ
ズムを提案している。以下に簡単にこれを説明する。図
7は上記文献の話者位置推定アルゴリズムの概要説明図
である。通常、話者は話しながら動いたり、黒板を使用
して説明するために、離席することもあるので、話者と
マイクの距離は変動していることが多い。そこで、この
話者位置推定アルゴリズムでは、マイク本数をN、話者
位置座標を(xs ,ys ,zs )、i番目のマイク座標
を(xi ,yi ,zi )として、話者とi番目のマイク
間の距離ri を次式(1)で表し、音波到来距離差を求
める方程式を立てている。但し、i=1,2,……Nで
ある。
【0006】
【数1】
【0007】話者からi番目のマイク、k番目のマイク
までの音波到来距離差をdikとすると次式(2)が成り
立つ。 dik=ri −rk (i,k=1,2,……N:i≠k) …(2) N本のマイクのうち、2本のマイクを1対とする任意の
三つのマイク対を選択することにより、式(2)から3
次元空間における話者位置座標(xs ,ys ,zs )を
求めることができるが、平方根や2乗の項を含んでおり
簡単に解くことはできない。また、測定による誤差も含
んでいるので単一の解を得るのは困難である。そこで、
式(2)を解くために、逐次近似法を用いている。修正
点(x,y,z)と初期位置座標(x0 ,y0 ,z0
との修正量を(Δx,Δy,Δz)とすると、次(3)
式が成り立つ。 x=x0 +Δx、y=y0 +Δy、z=z0 +Δz …(3)
【0008】以下に述べる方法で修正量(Δx,Δy,
Δz)を求めた後、式(3)に修正量(Δx,Δy,Δ
z)を代入することにより話者位置座標に近い次の修正
点(x,y,z)が求まる。次に、求められた座標
(x′,y′,z′)を初期位置座標とし、更に繰り返
し計算を行うことにより正確な話者位置座標(xs ,y
s,zs )を求めることができる。以下に修正量(Δ
x,Δy,Δz)を求める手順を述べる。dik0 をある
初期位置座標からi番目のマイク、k番目のマイクまで
の音波到来距離差とし、dikを真の話者位置座標から各
マイクまでの音波到来距離差とする。また、dikとd
ik0 との差分をΔdikとし、dikを1次近似すると、次
式(4)が得られる。
【0009】
【数2】
【0010】但し、Δsは誤差の補正項である。ここ
で、αj 、βj 、γj を次式(5)のように定義する。
【0011】
【数3】
【0012】3次元空間においてjは、N本のマイクの
うち、2本のマイク(i,k:i≠k)を1対とする任
意のマイク対の番号である。但し、j=1,2,3,4
の各i,kの組合せは異なる必要がある。式(4)は変
数(Δx,Δy,Δz,Δs)が4個であり、この解を
求めるためには3次元空間において四つのマイク対が必
要となる。従って、式(5)を式(4)に代入し、マト
リクス表現すると次式(6)となる。
【0013】
【数4】
【0014】ここで式(6)の左辺第1項をA、第2項
をΔX、右辺をΔDとおくと、式(6)より誤差修正量
ΔXは次式(7)となる。 ΔX=A-1ΔD …(7) また、ΔXを求めるためには行列Aの逆行列が存在する
必要がある。そのためには、行列Aがランク落ちしない
必要がある。2本のマイクと話者が一直線上になければ
ランク落ちすることなく、目的の座標を計算できること
がわかる。3次元の場合については、同様の手順で求め
ると、3本のマイクを通る平面上に話者がいない場合、
目的の座標を計算できる。
【0015】図8は各マイク配置においてシミュレーシ
ョンによって求めた本アルゴリズムの推定不可能な話者
位置を示す図である。図8においては、図の上段に示す
話者とマイクの位置関係が、(a)ケース1、(b)ケ
ース2、(c)ケース3の3つの場合について、それぞ
れ推定不可能な話者位置を図の下段の黒字の領域にそれ
ぞれ示している。
【0016】さらに本文献では、話者位置推定を迅速に
行うために、初期位置座標決定法について述べている。
即ち、音波を平面波として仮定し、2次元で考えれば、
1組の対のマイクの時間差方向に音源があるので、2組
の対から音源の仮想の位置が判り、それを初期値とすれ
ばよいことを述べている。但し、この仮想位置は特に近
接音場において誤差が大きくなるが、初期値の設定を試
行錯誤で行うよりは、真の音源が近くにあるので収束し
やすいと結論を出している。
【0017】
【発明が解決しようとする課題】しかしながら、上記の
文献の話者位置推定法におけるアルゴリズムでは、図8
で説明したように、2本のマイクを結ぶ直線上に音源
(話者)が存在する場合には、明らかに話者位置の推定
ができない領域が存在するという欠点、および逐次処理
による近似を用いた音源推定では、実時間動作で話者位
置推定は困難であるという欠点を有していた。
【0018】
【課題を解決するための手段】本発明に係る複数マイク
自由配置による複数話者位置推定方法は、複数話者の位
置推定領域内の空間に複数のマイクを自由に配置し、前
記空間を格子状に分割し、この格子の交点を各仮想話者
位置とし、前記各マイクについて、前記各仮想話者位置
から各マイクまでの音響到達時間を音響サンプリング周
期で除算した商を整数化し、これらの整数化値のうちの
最大値と各仮想話者位置毎の整数化値との差分値を予め
第1のテーブルメモリに記憶しておき、また前記複数の
マイクから所定偶数のマイクを選択するすべての組合せ
の順序をランダムにして予め第2のテーブルメモリに記
憶しておき、前記音響サンプリング周期毎に、前記複数
の各マイクの音響出力を量子化してそれぞれ対応する複
数のメモリに記憶し、前記第2のテーブルメモリのデー
タを参照して前記複数のマイクから所定偶数のマイクを
選択し、各仮想話者位置毎に、前記選択したすべてのマ
イクと各仮想話者位置に対応した整数値を前記第1のテ
ーブルメモリより読取り、前記選択したマイクの音響出
力を記憶したメモリから前記第1のテーブルメモリより
読取った整数値分だけ時間遅延したマイクの音響出力レ
ベルをそれぞれ読出し、この読出した所定偶数の音響出
力レベルをすべて乗算し、この乗算結果を低域濾波した
信号についての所定時間の平均値を求め、各仮想話者位
置毎の前記所定時間の平均値のピーク値を比較してその
最大値を求め、この最大値が得られた仮想話者位置を話
者位置と推定するものである。その結果、複数話者の位
置推定領域内の空間に複数のマイクを自由に配置し、ま
た複数話者の位置が任意であっても、各話者の位置を推
定することができる。
【0019】
【発明の実施の形態】本発明の基本的な考え方として、
マイクは市販品を使用し、互いに自由に分散的にマイク
が配置され、それらのマイクの座標が既に判っているも
のとする。本アルゴリズムの基本的な考え方は、話者
(音源)位置推定空間内を位置推定分解能距離で格子状
に分割し、その3次元の交点を仮想音源位置とし、各仮
想音源位置から話者位置推定空間内に自由に配置した複
数マイクまでの遅延時間を予め、テーブルメモリに記憶
させておき、話者からの音声が複数マイクに到達した信
号を、各仮想音源位置ごとにテーブルメモリから参照し
た遅延時間によって音声信号を遅延させて、この遅延さ
せた信号の乗算により、仮想音源位置と話者位置が合致
したときに、その乗算結果の値が大きくなることを利用
したものである。以下においては、本発明の詳細な説明
を簡単にわかりやすくするために、マイク、話者がすべ
て2次元の同一平面上に配置され、さらにマイクは話者
(音源)位置の外側の四角形の周辺に配置されていると
仮定し、2次元で話者位置を推定するものとする。
【0020】本発明で使用される推定アルゴリズム構成
例について、以下順を追って説明する。図1は本発明に
係る話者位置推定システムの槻要構成図である。図1に
おいて、1は2次元平面、2は複数のマイク、3はAD
変換器、4は離散値信号、5はメモリ、6は複数のマイ
クから選択された4本のマイクにそれぞれ接続された4
つのメモリから読出した信号、7は乗算器、8はフィル
タ(例えばローパスフィルタ)、9はフィルタ出力信
号、10はピーク検出器である。下記の表1は、複数マ
イクから4つのマイク(K1 [n] 〜K4 [n] ,n:時
刻)を選択するデータテーブルBである。
【0021】
【表1】
【0022】図2は本発明に係るサンプリング周期内処
理のフローチャート、図3は本発明に係るピーク検出処
理のフローチャートである。なお各フローチャートのS
に続く数値はステップ番号を示す。
【0023】本アルゴリズムでは、話者位置推定する前
に以下の4つの前提条件が必要である。 (1)2次元平面1を格子状に横x軸、縦y軸をそれぞ
れpmax ,qmax に等分割し、その交点を仮想話者位置
(xp ,yq )する。但し、p,qは整数で、0≦p≦
max ,0≦q≦qmax である。 (2)r番目のマイク位置(xMr,yMr)[r=1〜i
〜j〜k〜m]を前もって、計測し固定しておくか、何
らかの方法でマイク位置を随時測定する。 (3)m本から4本のマイクを選択し、これらに直接接
続されているメモリを選択する組合せ(Combination, m
4 と記す)をすべて取り上げ、無作為に順序を変えた
ものをデータテーブルBとする。その時刻(時刻をnと
する)に採ってくるマイク(メモリ)の番号をK1 [n]
,K2 [n] ,K3 [n] ,K4 [n] とし、この選択法の
一例を表1に示す。読出すときは、時刻nを mC4 で割
った剰余(nmod mC4 )を求め、前記データテーブ
ルBからn mod mC4 番目のデータを読出す。このよ
うにサンプルごとに4本のマイクの組合せが異なる。 (4)すべての各仮想話者位置(xp ,yq )からマイ
クMr までの音が到達するまでの時間をサンプリング周
期で割った値Δrpq を求める。このΔ1pq 〜Δmp q の中
で一番大きな値をΔmaxpq とし、drpq =Δmaxpq −Δ
rpq を算出する。各仮想話者位置、各マイクについての
rpq をデータテーブルAに格納しておく。「データ総
数:{(pmax +1)(qmax +1)×マイク総数
m}」
【0024】次に図1のシステムの動作を図2及び図3
を参照して説明する。 (1)サンプリング周期毎の処理 図2のフローチャートを参照してサンプリング周期毎の
処理を説明する。まず、すべての各マイク(M1
m )2の受信信号を、ディジタル処理しやすいように
AD変換器3に入力し、その出力信号Xr [n] (r=1
〜m)4をm個のメモリ5にそれぞれ記憶させる(図2
のS1を参照)。次に表1のデータテーブルBを利用し
てm個のマイク(メモリ)から4個のマイク(メモリ)
(K1 [n] 〜K4 [n] )を選択する(図2のS2を参
照)。
【0025】次に各仮想話者位置(x0 ,y0 )〜(x
pmax,yqmax)毎に以下の処理を行う。なお下記のp,
qは、それぞれ0≧p≧pmax ,0≧q≧qmax の整数
をすべて含むものであるが、これらを一括代表した記号
として記述している。次に、選択された4つの各マイク
と各仮想話者位置に対応した整数値(時間遅延値)を前
記データテーブルAより読取り、選択された4つのメモ
リから、データテーブルAより読取った整数値分だけ時
間遅延した、dK1[n] pq〜dK4[n] pq番目のデータ(音
響出力レベル)XK1[n][n−dK1[n] pq]〜XK4[n][n
−dK4[n] pq]6を読出す(図2のS3を参照)。次
に、この4個のデータを乗算器7で乗算し、乗算結果の
pq[n] を求める(図2のS4を参照)。なおここでは
4個のデータを採ったが、4個でなくとも偶数個である
ならば、かまわない。この理由については原理説明にお
いて述べる。
【0026】次に、この乗算結果の信号Wpq[n] には、
リプルを含んでいるのでこれを除去するために、ここで
は1次の簡単なローパスフィルタ8を採用した。このフ
ィルタ8の出力信号9をYpq[n] とすると、これは、次
式(8)で表すことができる。 Ypq[n] =a・Ypq[n−1]+(1−a)・Wpq[n] …(8) ここでaはフィードバックゲイン(0≦a<1)であ
る。これをすべての各仮想話者位置(xp ,yq )で行
う(図2のS5を参照)。
【0027】(2)Ypq[n] のピーク検出処理 以下に述べる処理により、ピーク検出器10でフィルタ
8の出力信号Ypq[n]のピーク検出を行う。なお、この
ピーク検出を行う前に、各サンプル周期毎のYpq[0] ,
pq[1] ,Ypq[2] …の時間的な平均化処理を行い、こ
の平均化処理後のピーク値の最大値が得られた仮想話者
位置が推定された話者位置である。図3のフローチャー
トを参照し、ピーク検出処理を説明する。まず、Y
pq[n] にLサンプル長の矩形ウインドウをかけ、時間軸
上でブロック化し、ブロック毎の平均値を次式(9)に
より求める(図3のS11を参照)。
【0028】
【数5】
【0029】次に、式(9)で平均化処理された値の最
大ピークYmax (0) を検出する(図3のS12を参
照)。次に、有意のある信号(話者音声)と有意のない
信号(たとえば室内雑音)とを区別するために、予め定
められた絶対閾値Ytha と比較し、Ymax (0) ≦Yth a
ならば、ピーク値(話者)はないものと判断する(図3
のS13を参照)。またS13の比較で、Ymax (0) >
tha ならば、このピーク値に話者がいると判断し(図
3のS14を参照)、このYmax (0) より小さな値を相
対閾値Yth r として設け、Ythr =Ath・Ymax (0) と
する。ここでAthは比例定数である(S15を参照)。
【0030】次に最大ピーク値が存在し、その話者を第
一番目の話者とするためにj=1とおく(S16を参
照)。次にそのピーク位置から半径rmaskの円内のYpq
[n] をすべて0に設定する(マスク処理であり、S17
を参照)。S17のマスク処理後に、再度Ypq[n] を掃
引し、Ymax (j) >Ythr とする最大ピーク値を探す
(S18を参照)。そしてもし、Ymax (j) >Ythr
らば(S19を参照)、この点に2番目の話者がいると
判断する(S20を参照)。次に、j値をインクリメン
ト(j=j+1)し(S21を参照)、S17に戻り、
その最大ピーク値から半径rmaskの円内のYpq[n] をす
べて0に設定するマスク処理を行う。このようにS17
〜S21の処理を繰返して行い、次々と複数の各話者の
位置を求める。
【0031】次に本発明の原理について説明する。簡単
なため、話者数を2と仮定し説明する。話者S1 ,S2
は図1に示してあるようにそれぞれ仮想話者位置
(xp1,yq1),(xp2,yq2)にあるものと仮定す
る。また、これらの話者は点音源、無指向性音源である
と仮定し、話者Sj の音声信号をsj [n] で表す(j=
1,2)。マイクMr に受音される信号を考える。仮想
話者位置(xp ,yq )とマイクMr の間の距離δrpq
は、既知情報であるから、次式(10)で求めることが
できる。
【0032】
【数6】
【0033】仮想話者位置からマイクMr までに音が到
達するまでの遅延サンプル数Δrpqはδrpq より次式
(11)により求められる。但し、離散値処理を行って
いるのでΔrpq には±0.5サンプル以下の量子化誤差
がある。
【0034】
【数7】
【0035】ここで、νは音速を、ts はサンプリング
周期を、Intは整数化を表す。マイクMr に到達しA
D変換された信号Xr [n] は、各話者から到達した音の
和となる。音波の減衰は距離に逆比例するので以下の式
(12)が得られる。
【0036】
【数8】
【0037】Δrpq には±0.5サンプル以下の量子化
誤差が存在しているが、音声振幅は1サンプル程度では
定常音とみなされているので、その誤差は無視できる。
またサンプリング周波数が十分に高ければさらに、この
ような誤差は無視される。
【0038】m本のマイクで受信した信号X1 [n] 〜X
m [n] はそれぞれ1〜m番目のメモリ5に保存されてい
る。このm個のメモリからK1 [n] 〜K4 [n] の4個の
メモリを選択し、この選択した4個のメモリからそれぞ
れデータテーブルAから読み取った時間だけ遅延したd
K1[n] pq〜dK4[n] pq番目のデータを読出してくる。こ
れらのデータが乗算器7へ入力されるので、乗算器7の
k番目の入力端子に入力されるデータXKk[n][n−dKk
[n] p1q1]は次式(13)で表されることになる。
【0039】
【数9】
【0040】式(13)の右辺の第一項は、もとの音声
信号s1 [n] からΔmaxp1q1 サンプルの遅延がある。ま
たΔmaxp1q1 は、Kk [n] の関数になっていないのでど
のマイクにおいても、この項の遅延サンプル数は変わら
ない。話者が存在しない仮想話者位置(xp0,yq0)に
ついても、同様にXKk[n][n−dKk[n] p0q0]を求める
と、次式(14)のようになる。
【0041】
【数10】
【0042】乗算器7の出力Wpq[n] は、乗算器の入力
Kk[n][n−dKk[n] pq]の4つのデータを掛け合わせ
たものであるから、次式(15)で表される。
【0043】
【数11】
【0044】また話者S1 の存在する仮想話者位置のW
p1q1[n] は、式(15)に式(13)を代入して次式
(16)のように表される。但し、右辺の第二項以降は
省略してある。
【0045】
【数12】
【0046】図4は乗算器7の出力波形例を示す図であ
り、式(16)の右辺第一項の特性とその他の項の特性
に分けて示している。式(16)の右辺第一項は、同一
信号の4乗となっている(同期乗算されている)ので図
4の(a)のように正の値のみをとる。他の項は図4の
(b)のように正負の値をとる。これは式(13)の右
辺の第二項目の遅延がKk [n] の関数になっており、4
つのデータを掛け合わせたときに同期乗算とならないか
らである。また、話者のいない仮想話者位置についても
同様に、式(15)に式(14)を代入してWp0q0[n]
を求めると、すべての項が同期乗算にならず、図4の
(b)のような特性の項のみとなる。これはすべての項
において、遅延がKk [n] の関数となっているからであ
る。
【0047】Wpq[n] は図4に示したようにリプルを含
んでいるので、これを平滑化するためにフィルタ8を用
いる。この実施形態においては、フィルタ8の出力Ypq
[n]は以下のように表される。但しaはフィードバック
ゲイン(0≦a<1)である。
【0048】
【数13】
【0049】式(17)において、フィードバックゲイ
ンaが1に十分に近ければ次式(18)が成立する。
【0050】
【数14】
【0051】ところで、話者のいない仮想話者位置の出
力Yp0q0[n] については、前述したように図4の(b)
のような出力の乗算であるから、話者の存在する仮想話
者位置の出力Yp1q1に比較してはるかに小さく次式(1
9)の関係となる。
【0052】
【数15】
【0053】従って振幅の大きい仮想話者位置を検出す
れば話者位置を推定できることになる。本実施形態で
は、簡単に説明するために話者数を2としたが話者数が
増えても同じことが言えるので、本発明を用いて任意の
複数の話者位置を推定できる。ここで、m本のマイクか
ら選択するマイク本数を4本とした理由は以下の通りで
ある。本発明では、選択するマイク数が偶数個であるな
らば、図4の(a)に示したように、出力Wpq[n] の式
(16)の右辺第一項が正となる。しかし、選択するマ
イク数が増加すると、Sj [n] の振幅の変動に対してY
pjqj[n] の振幅変動が大きくなる。振幅変動が大きくて
も、話者1人の場合は問題は生じないが、複数同時話者
の場合は、音圧レベルの小さい話者位置のYpq[n] の振
幅が、他の話者位置のYpq[n] の振幅に比べて極端に小
さくなってしまい、検出が困難になる。このことにより
本実施形態では、選択するマイク数は4本としている。
【0054】次に、マイク選択をサンプルごとに変化さ
せて効果を説明する。m本から4本のマイクを選択する
際に、サンプルごとにマイクの組合せを変えていくこと
は、マイク位置を時間的に移動(変化)させていくこと
と等価である。図5は図1の各仮想話者位置毎のフィル
タ出力の平面上の分布例を示す図である。図5において
は、4本のマイクの選択を固定したときと、変化させた
ときの2次元平面上におけるフィルタ出力Ypq[n] の分
布特性を示しており、マイク選択固定1と2は選択マイ
クの組合せが違うだけである。
【0055】図5のマイク選択固定1と2の二つの特性
を比較すると、話者S1 のいる仮想話者位置のYpq[n]
の振幅はほとんど変化がないが、話者のいない仮想話者
位置のYpq[n] の振幅は選択マイクの組合せによって変
化しているのが分かる。また、サンプルごとに4本のマ
イクの選択を変化させ、Ypq[n] を求めることは、図5
のマイク選択固定1,2のような、マイク選択が違うY
pq[n] を加算することと等価である。したがって、サン
プルごとに4本のマイクの選択を変化させて仮想話者位
置のYpq[n] を加算し低域濾波処理することにより、マ
イク選択によってYpq[n] の振幅が変動する仮想話者点
(話者のいない仮想話者点)の振幅のみが小さくなり、
図5の一番下の図のように話者の存在する仮想話者位置
のピークが強調されることになる。
【0056】本発明を実証するために行った計算機シミ
ュレーションを以下に説明する。なお、これまでは、理
解しやすいようにマイクを四辺形の外側に配置した場合
について説明したが、本発明はマイクを位置推定空間の
任意の場所に配置しても、話者位置推定が可能であるこ
とをこのシミュレーションでは示す。計算機シミュレー
ションは下記の条件で行った。 (1)音声信号は、8kHzのサンプリング周波数、8
bit の量子化、2秒の長さで採取した。 (2)部屋の大きさは4.5m×4.5m、 (3)壁反射を一次で考慮し、反射係数を0.5とし
た。 (4)仮想話者位置を10cm間隔とし、平面のx,y
軸を45分割した。 (5)フィードバックゲインaは0.999、 (6)絶対閾値Ytha は500、 (7)相対閾値の比例定数Athは0.3 (8)マスク半径rmaskは30cm。 (9)ブロック処理の長さは250サンプル、 (10)矩形ウインドウLは500サンプル、
【0057】図6はマイク位置によるフィルタ出力分布
と話者位置検出確率のシミュレーション結果を示す図で
ある。図6の(a)は話者S1 ,S2 ,S3 が一直線上
に並び、8本のマイクが四辺形の外側に配置された(配
置Aの)ときのフィルタ出力Ypq[n] の空間的特性を示
している。図6の(b)は、8本のマイクが任意に配置
され、話者S1 ,S2 がマイクの外側の任意の場所に存
在する(配置Bの)ときのフィルタ出力Ypq[n] の空間
的特性を示している。図6の(c)は平行線の各線上に
それぞれ4本のマイクが配置され、話者S1,S2 が平
行線の外側に配置された(配置Cの)のときのフィルタ
出力Ypq[n]の空間的特性を示している。図6の(a)
〜(c)によりマイク配置と話者位置が任意であって
も、話者位置推定が可能であることが容易に判定でき
る。
【0058】以上、マイク配置と話者位置が任意でも話
者位置の推定ができることが判明したが、同時話者が複
数人存在した場合の評価結果を以下に述べる。提案アル
ゴリズムを評価するために、正しく話者位置を検出でき
る確率(話者位置検出確率Pcor )を定義し、求め方を
以下に示す。まず、固定閾値型音声検出方式を用いて、
話者の音声信号の有音,無音区間を求める。これを、Q
jorg[n] (=1:有音,=0:無音)で表す。また、提
案アルゴリズムのピーク検出結果より次の二つを求め
る。話者Sj の真の位置を中心とする半径30cmの円
内(正解領域)の検出話者数Qjest[n] 、正解領域外の
検出話者数Qoth [n] 。次に、Qjorg[n] =Qjest[n]
の場合を正しい検出、Qoth [n] の数を誤った検出とし
て、次式(20)によりPcor を求める。但し、Qjorg
[n] の立上り、立下りから100msecを無判定区間とす
る。
【0059】
【数16】
【0060】式(20)で求めた結果を、配置A,B,
Cで比較した例を図6の(d)に示した。この結果、同
時話者数3以下であるならば、検出確率は約65%以上
が得られることが判る。
【0061】また前記実施形態では、話者(音源)位置
は、2次元座標位置として説明をしたが、本発明はこれ
を3次元座標位置に拡張して音源の位置推定を行うこと
が可能であることは自明である。
【0062】本実施形態によれば、話者(音源)位置推
定空間内を2次元または3次元の位置推定分解能距離で
格子状に分割し、その2次元または3次元の交点を仮想
音源位置とし、各仮想音源位置から話者位置推定空間内
に自由に配置した複数マイクまでの遅延時間を、予めデ
ータテーブルAに記憶させておき、話者からの音声が複
数マイクから選択された偶数マイクに到達した信号を、
各仮想音源位置ごとにデータテーブルAから参照した遅
延時間によって音声信号を遅延させて、この遅延させた
偶数の信号を乗算する。この乗算結果は、仮想音源位置
と話者位置が合致したときに、その値は大きくなるの
で、その大きな値の得られた仮想音源位置を検出するこ
とで、話者位置が推定できる。
【0063】
【発明の効果】以上のように本発明によれば、複数話者
の位置推定領域内の空間に複数のマイクを自由に配置
し、前記空間を格子状に分割し、この格子の交点を各仮
想話者位置とし、前記各マイクについて、前記各仮想話
者位置から各マイクまでの音響到達時間を音響サンプリ
ング周期で除算した商を整数化し、これらの整数化値の
うちの最大値と各仮想話者位置毎の整数化値との差分値
を予め第1のテーブルメモリに記憶しておき、また前記
複数のマイクから所定偶数のマイクを選択するすべての
組合せの順序をランダムにして予め第2のテーブルメモ
リに記憶しておき、前記音響サンプリング周期毎に、前
記複数の各マイクの音響出力を量子化してそれぞれ対応
する複数のメモリに記憶し、前記第2のテーブルメモリ
のデータを参照して前記複数のマイクから所定偶数のマ
イクを選択し、各仮想話者位置毎に、前記選択したすべ
てのマイクと各仮想話者位置に対応した整数値を前記第
1のテーブルメモリより読取り、前記選択したマイクの
音響出力を記憶したメモリから前記第1のテーブルメモ
リより読取った整数値分だけ時間遅延したマイクの音響
出力レベルをそれぞれ読出し、この読出した所定偶数の
音響出力レベルをすべて乗算し、この乗算結果を低域濾
波した信号についての所定時間の平均値を求め、各仮想
話者位置毎の前記所定時間の平均値のピーク値を比較し
てその最大値を求め、この最大値が得られた仮想話者位
置を話者位置と推定するようにしたので、その結果、複
数話者の位置推定領域内の空間に複数のマイクを自由に
配置し、また複数話者の位置が任意であっても、各話者
の位置を推定することができる。
【図面の簡単な説明】
【図1】本発明に係る話者位置推定システムの概略構成
図である。
【図2】本発明に係るサンプリング周期内処理のフロー
チャートである。
【図3】本発明に係るピーク検出処理のフローチャート
である。
【図4】図1の乗算器の出力波形例を示す図である。
【図5】図1の各仮想話者位置毎のフィルタ出力の平面
上の分布例を示す図である。
【図6】マイク位置によるフィルタ出力分布と話者位置
検出確率のシミュレーション結果を示す図である。
【図7】従来の話者位置推定アルゴリズムの概略説明図
である。
【図8】文献の方法のシミュレーションによる推定不可
能な話者位置を示す図である。
【符号の説明】
1 2次元平面 2 複数のマイク 3 AD変換器 4 離散値信号 5 メモリ 6 選択された4つのメモリからの読出信号 7 乗算器 8 フィルタ 9 フィルタ出力信号 10 ピーク検出器 M1 〜Mm マイク S1 〜Sj 話者
───────────────────────────────────────────────────── フロントページの続き (71)出願人 598079640 小林 和則 新潟県長岡市上富岡町1603−1 長岡技術 科学大学内 (72)発明者 川田 眞一 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 (72)発明者 島田 正治 新潟県長岡市上富岡町1603−1 長岡技術 科学大学内 (72)発明者 穂刈 治英 新潟県長岡市上富岡町1603−1 長岡技術 科学大学内 (72)発明者 小林 和則 新潟県長岡市上富岡町1603−1 長岡技術 科学大学内 Fターム(参考) 5D020 BB10

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 複数話者の位置推定領域内の空間に複数
    のマイクを自由に配置し、前記空間を格子状に分割し、
    この格子の交点を各仮想話者位置とし、前記各マイクに
    ついて、前記各仮想話者位置から各マイクまでの音響到
    達時間を音響サンプリング周期で除算した商を整数化
    し、これらの整数化値のうちの最大値と各仮想話者位置
    毎の整数化値との差分値を予め第1のテーブルメモリに
    記憶しておき、また前記複数のマイクから所定偶数のマ
    イクを選択するすべての組合せの順序をランダムにして
    予め第2のテーブルメモリに記憶しておき、前記音響サ
    ンプリング周期毎に、前記複数の各マイクの音響出力を
    量子化してそれぞれ対応する複数のメモリに記憶し、前
    記第2のテーブルメモリのデータを参照して前記複数の
    マイクから所定偶数のマイクを選択し、各仮想話者位置
    毎に、前記選択したすべてのマイクと各仮想話者位置に
    対応した整数値を前記第1のテーブルメモリより読取
    り、前記選択したマイクの音響出力を記憶したメモリか
    ら前記第1のテーブルメモリより読取った整数値分だけ
    時間遅延したマイクの音響出力レベルをそれぞれ読出
    し、この読出した所定偶数の音響出力レベルをすべて乗
    算し、この乗算結果を低域濾波した信号についての所定
    時間の平均値を求め、各仮想話者位置毎の前記所定時間
    の平均値のピーク値を比較してその最大値を求め、この
    最大値が得られた仮想話者位置を話者位置と推定するこ
    とを特徴とする複数マイク自由配置による複数話者位置
    推定方法。
  2. 【請求項2】 前記最大値が得られた仮想話者位置を話
    者位置と推定する場合に、前記最大値を所定の絶対閾値
    と比較し、この絶対閾値より小さい場合は話者が存在し
    ないと判別し、前記絶対閾値より大きい場合はその仮想
    話者位置を真の話者位置と判別し、この真の話者位置の
    最大値より小さな値の相対閾値を設定し、この真の話者
    位置と判別された位置を中心とする所定範囲内のすべて
    の仮想話者位置の前記所定時間の平均値を零に置換し、
    さらに各仮想話者位置毎の前記所定時間の平均値のピー
    ク値を比較してその最大値を求め、前記設定した相対閾
    値と比較してこの相対閾値より大きい場合は次の話者位
    置と推定し、上記処理を繰返すことによりすべての各話
    者位置を推定することを特徴とする請求項1記載の複数
    マイク自由配置による複数話者位置推定方法。
  3. 【請求項3】 前記空間を格子状に分割する格子間隔を
    話者推定位置分解能とすることを特徴とする請求項1ま
    たは2記載の複数マイク自由配置による複数話者位置推
    定方法。
JP16894498A 1998-06-16 1998-06-16 複数マイク自由配置による複数話者位置推定方法 Pending JP2000004495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16894498A JP2000004495A (ja) 1998-06-16 1998-06-16 複数マイク自由配置による複数話者位置推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP16894498A JP2000004495A (ja) 1998-06-16 1998-06-16 複数マイク自由配置による複数話者位置推定方法

Publications (1)

Publication Number Publication Date
JP2000004495A true JP2000004495A (ja) 2000-01-07

Family

ID=15877439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16894498A Pending JP2000004495A (ja) 1998-06-16 1998-06-16 複数マイク自由配置による複数話者位置推定方法

Country Status (1)

Country Link
JP (1) JP2000004495A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002112381A (ja) * 2000-10-03 2002-04-12 Melco Inc 音源位置推定装置および音源位置推定方法
JP2003163908A (ja) * 2001-11-29 2003-06-06 Ricoh Co Ltd 会議記録システムにおける音声位置特定方式
JP2004064697A (ja) * 2002-07-31 2004-02-26 Nippon Telegr & Teleph Corp <Ntt> 音源受音位置推定方法、装置、およびプログラム
JP2006060525A (ja) * 2004-08-20 2006-03-02 Ryuichiro Yukawa 3次元音像を再生する集音方法
JP2006066988A (ja) * 2004-08-24 2006-03-09 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
WO2006064699A1 (ja) * 2004-12-17 2006-06-22 Waseda University 音源分離システムおよび音源分離方法、並びに音響信号取得装置
CN1297177C (zh) * 2002-10-23 2007-01-24 松下电器产业株式会社 音频信息变换方法
JPWO2007013525A1 (ja) * 2005-07-26 2009-02-12 本田技研工業株式会社 音源特性推定装置
US20110085671A1 (en) * 2007-09-25 2011-04-14 Motorola, Inc Apparatus and Method for Encoding a Multi-Channel Audio Signal
JP2012161071A (ja) * 2011-01-28 2012-08-23 Honda Motor Co Ltd 音源位置推定装置、音源位置推定方法、及び音源位置推定プログラム
JPWO2019064435A1 (ja) * 2017-09-28 2020-05-28 株式会社Kokusai Electric 半導体装置の製造方法、基板処理装置およびプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002112381A (ja) * 2000-10-03 2002-04-12 Melco Inc 音源位置推定装置および音源位置推定方法
JP4493828B2 (ja) * 2000-10-03 2010-06-30 株式会社バッファロー 音源位置推定装置および音源位置推定方法
JP2003163908A (ja) * 2001-11-29 2003-06-06 Ricoh Co Ltd 会議記録システムにおける音声位置特定方式
JP2004064697A (ja) * 2002-07-31 2004-02-26 Nippon Telegr & Teleph Corp <Ntt> 音源受音位置推定方法、装置、およびプログラム
CN1297177C (zh) * 2002-10-23 2007-01-24 松下电器产业株式会社 音频信息变换方法
JP2006060525A (ja) * 2004-08-20 2006-03-02 Ryuichiro Yukawa 3次元音像を再生する集音方法
JP2006066988A (ja) * 2004-08-24 2006-03-09 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
WO2006064699A1 (ja) * 2004-12-17 2006-06-22 Waseda University 音源分離システムおよび音源分離方法、並びに音響信号取得装置
US8213633B2 (en) 2004-12-17 2012-07-03 Waseda University Sound source separation system, sound source separation method, and acoustic signal acquisition device
JPWO2007013525A1 (ja) * 2005-07-26 2009-02-12 本田技研工業株式会社 音源特性推定装置
JP4675381B2 (ja) * 2005-07-26 2011-04-20 本田技研工業株式会社 音源特性推定装置
US20110085671A1 (en) * 2007-09-25 2011-04-14 Motorola, Inc Apparatus and Method for Encoding a Multi-Channel Audio Signal
US8577045B2 (en) * 2007-09-25 2013-11-05 Motorola Mobility Llc Apparatus and method for encoding a multi-channel audio signal
JP2012161071A (ja) * 2011-01-28 2012-08-23 Honda Motor Co Ltd 音源位置推定装置、音源位置推定方法、及び音源位置推定プログラム
JPWO2019064435A1 (ja) * 2017-09-28 2020-05-28 株式会社Kokusai Electric 半導体装置の製造方法、基板処理装置およびプログラム

Similar Documents

Publication Publication Date Title
Omologo et al. Use of the crosspower-spectrum phase in acoustic event location
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
Georgiou et al. Alpha-stable modeling of noise and robust time-delay estimation in the presence of impulsive noise
US5511128A (en) Dynamic intensity beamforming system for noise reduction in a binaural hearing aid
KR101238362B1 (ko) 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치
US7590248B1 (en) Head related transfer function filter generation
KR20090051614A (ko) 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
Kuster Reliability of estimating the room volume from a single room impulse response
JP2000004495A (ja) 複数マイク自由配置による複数話者位置推定方法
JPWO2017150103A1 (ja) 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
CN112951261B (zh) 声源定位方法、装置及语音设备
CN107124647A (zh) 一种全景视频录制时自动生成字幕文件的方法及装置
Suh et al. Development of distant multi-channel speech and noise databases for speech recognition by in-door conversational robots
Völk Inter-and intra-individual variability in the blocked auditory canal transfer functions of three circum-aural headphones
Kirsch et al. Computationally-efficient simulation of late reverberation for inhomogeneous boundary conditions and coupled rooms
CN117693791A (zh) 言语增强
CN115166632A (zh) 声源朝向的确定方法和装置、存储介质及电子装置
Alary et al. A method for capturing and reproducing directional reverberation in six degrees of freedom
Do et al. Stochastic particle filtering: A fast SRP-PHAT single source localization algorithm
Athanasopoulos et al. Robust speaker localization for real-world robots
US9307335B2 (en) Device for estimating placement of physical objects
CN111105811B (zh) 声音信号的处理方法、相关设备及可读存储介质
Katz et al. Objective and perceptive evaluations of high-resolution room acoustic simulations and auralizations
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
Pasha et al. Forming ad-hoc microphone arrays through clustering of acoustic room impulse responses