JP3433369B2

JP3433369B2 - 話者位置推定方法

Info

Publication number: JP3433369B2
Application number: JP05273497A
Authority: JP
Inventors: 則夫小林; 眞一川田; 正治島田; 治英穂刈
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-03-07
Filing date: 1997-03-07
Publication date: 2003-08-04
Anticipated expiration: 2017-03-07
Also published as: JPH10253745A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、１つの領域に複数
の人がいて、現在発音している人の音声信号を検出し
て、その話者位置を推定する方法に関するものであり、
特に遠隔会議での音像定位通信において、話者の位置を
そのまま受聴者側に伝達するシステム等に適用が可能で
ある。

【０００２】

【従来の技術】話者位置を推定する方法は、一般に良く
知られている音源位置推定法と同じ方法が使われる。こ
の中で、音源方向を同定する技術と組み合わせて音源の
位置を推定する方法があるが、この方法で３次元空間に
おける音源位置を推定するには、同じ音源方向推定技術
を用いた装置が少なくとも３つ以上必要となる。いま、
遠隔会議システムや１つの部屋に複数の人がおり、現在
話している人の位置を知るシステムとして用いるには、
上記の方法では大げさ過ぎ、経済的にも効果的ではな
い。

【０００３】この話者位置検出方法に関する公知文献と
しては、例えば、下記の参考文献１がある。参考文献１：第３５回自動制御連合講演会、No. ４０１
９、１９９２年１０月、岡田修一、佐藤史尚、盛田龍
弥、“マイクロホン系による３次元音源定位と音声分
離”、Ｐ．５９３−５９６図１１は上記参考文献１による話者位置検出方法を説明
する図である。上記参考文献１の方法によれば、図１１
の（ａ）に示すように３次元空間座標を取り、この空間
にある３つの音源ｕ₁，ｕ₂，ｕ_j（ｘ_j，ｙ_j，
ｚ_j）を同図の（ｂ）に示す半径ｒの円に内接する正三
角形（辺長２ａ）の頂点に配置された３個のマイク
Ｍ₀，Ｍ₁，Ｍ₂で検出する場合を想定している。音源
装置ｕ_j（ｘ_j，ｙ_j，ｚ_j）に対する原点からの距
離、方位角、仰角を（Ｒ_j，θ_j，φ_j）とすれば、音
源ｕ_jと各マイクの距離（音の伝達時間）は、次式（１
−１）〜（１−３）となる。

【０００４】

【数１】

【０００５】したがって、τ_0j，τ_1j，τ_2jが推定でき
れば、音源位置は次式（２−１）〜（２−５）として求
めることができる。

【０００６】

【数２】

【０００７】次に、伝達時間の推定法について、参考文
献１では音声スペクトルＵ_jについて、いずれかのパワ
ーが十分大きい周波数（ホルマント）が存在すると仮定
し、この周波数ω＝２πｆに着目すれば、３つのマイク
に入射する音圧Ｖ_i（ｉ＝０，１，２）は、次式（３）
で近似できる。Ｖ_i（ω）＝（Ｋ／τ_ij）Ｕ_j（ω）ｅｘｐ（−ｊφ_i） …（３）

【０００８】式（３）よりＶ₀を基準として、位相差と
振幅比よりそれぞれ、伝搬時間の差と比を次式（４−
１）〜（４−４）より求める。 Δτ_1j＝φ₀−φ₁＋ｎ／ｆ …（４−１） ρ_1j＝τ_0j／τ_1j …（４−２） Δτ_2j＝φ₀−φ₂＋ｎ／ｆ …（４−３） ρ_2j＝τ_0j／τ_2j …（４−４）ここで、不定項２ｎπは次式（５−１）、（５−２）の
条件を満たす様に選ぶものとする。｜Δτ_ij｜＜２ａ …（５−１）（ρ_ij−１）Δτ_ij＞０ …（５−２）

【０００９】３次元音源定位では式（４−２），（４−
４）より２組のτ_0jが、次式（６）として求められ
る。 τ_0j＝ρ_ijΔτ_ij／（ρ_ij−１）ｉ＝１，２ …（６）これらは論理上は等しいが、現実には等しくならない。
そこで、これらのτ_0jの平均値をτ_0jの推定値τ_0j ^*と
する。またτ_0j ^*の採用によりΔτ_1j，Δτ_2jの値が変
わらないように次（７）式と補正している。 τ_ij ^*＝τ_0j ^*−Δτ_ij ｉ＝１，２ …（７）

【００１０】上記の周波数分析を各時刻について行い、
各周波数において式（５−１），（５−２）を満たす全
てのΔτ_1j，Δτ_2jに関するヒストグラムを作る。そし
てこのヒストグラムの極大点を大きいものから３音源に
対応して３つ選出し仮番号を付ける。次に個々のΔ
τ_1j，Δτ_2jについて、式（５−１），（５−２）を満
たす範囲でｎの値を変え、最も近い極大点の番号を類別
する。以上から、個々のΔτ_1j，Δτ_2jが３つのグルー
プに分類されれば、グループごとにΔτ_1j，Δτ_2jおよ
び付随するρ_1j，ρ_2jのヒストグラムを作り、その極大
値を与える（Δτ_ij，ρ_ij）から式（２−１）〜（２−
３）を用いて、音源の位置（距離、方位角、仰角）を推
定している。

【００１１】

【発明が解決しようとする課題】しかしながら上記の参
考文献１による話者位置推定方法では、下記の問題点を
有していた。１．予め計測された位置に話者位置推定用のマイクを新
設する必要がある。即ち、遠隔会議や複数の人が同じ部
屋にいてその話者の位置を知るシステムで、すでに使用
しているマイクを活用できないので、システムのコスト
が増大する。２．前述の方法では、３つのマイク間の距離が正確でな
いと、正確な音源定位置が推定できない。３．式（５−１），（５−２）を満たす全てのΔτ_1j，
Δτ_2jに関するヒストグラムを作る必要があり、最も近
い極大点の番号を類別する必要がある。もし、そのヒス
トグラムが正確でないと、正確な音源の位置を見いだす
ことは困難となる。

【００１２】

【課題を解決するための手段】本発明に係る話者位置推
定方法は、１つの領域に複数の人がいて、現在発音して
いる人の位置を推定する方法において、人間の聴覚に影
響しない信号をそれぞれ送信する複数の送信手段を互い
に異なる位置に予め設置し、話者の音声をそれぞれ受音
する複数の受音手段と、前記複数の各送信手段からの送
信信号をそれぞれ受信する複数の受信手段とをそれぞれ
個別に一体化して互いに異なる位置に設置し、前記複数
の各送信手段の設置位置は既知として、前記各送信手段
と各受信手段間の距離をその信号伝搬時間からそれぞれ
求め、この距離情報に基づき前記各受信手段と同一位置
に設置された各受音手段の設置位置を逐次近似演算によ
ってそれぞれ算出し、前記各受音手段の設置位置の算出
後、話者から発生された音波を前記複数の各受音手段で
それぞれ受音し、受音手段間で得られる受音信号間の時
間差を測定し、前記受音信号間の時間差から初回の仮想
話者位置を求め、この初回の仮想話者位置を実際の話者
位置に逐次近づける逐次近似法により話者位置を推定す
るものである。その結果、本発明によれば遠隔会議や複
数の人が同一領域にいる場合に、既に使用しているマイ
ク等が活用できるので経済的な話者位置推定システムが
構成できると共に、マイク位置が既知でない場合に、ま
ずマイク位置を逐次近似演算により算出し、次にマイク
位置を既知とした仮想話者位置から逐次近似法により収
束した精度の良い話者位置を推定することができる。

【００１３】

【発明の実施の形態】本発明の基本的な考え方は、まず
マイクは市販の安価なものを使用し、互いに離散的に配
置されたマイクの座標を求める受音点位置推定法から始
まる。次に、マイク位置の３次元座標が求まり次第、話
者の位置を複数マイクに到来する伝搬時間差から求める
話者位置推定法により定める。本発明を詳細に説明する
前に、本発明で使用されるアルゴリズムの実施形態につ
いて、以下順を追って説明する。

【００１４】１．本発明で展開されるアルゴリズム例（１）受音点位置推定算出法最初に受音点位置推定算出法を説明する。なお本実施形
態においては、受音手段（マイク）の設置位置を算出す
るために、例えば超音波等の人間の聴覚に感じない信号
の送信と受信を行うために複数の送信機と受信機をそれ
ぞれ使用する。またこの超音波等の信号を受信する各受
信機は、話者の音声を受音するマイク（受音手段）と個
別に一体化して、この受信機とマイクとは同一位置にそ
れぞれ設置するものとする。従って各受信機の設置位置
が算出できれば、各マイクの設置位置が求められること
になる。

【００１５】いま、３次元空間の位置情報が予め判明し
ている上記超音波等のｉ番目の送信機の座標を（ｘ_i，
ｙ_i，ｚ_i）とし、マイク（受音手段）と一体化された
（または同一機能を有している）受信機の座標を（ｘ，
ｙ，ｚ）とする。３次元空間においては、座標位置が既
知の３つの送信機から座標位置が未知の１つの受信機ま
での３つの距離をそれぞれ測定すれば、幾何学的にその
受信機の位置を求めることが出来る。しかし、現実には
距離測定に誤差や計算機精度が含まれているので、もう
１つの自由度を持った独立変数εを導入すると、そのと
きの距離ｒ_iは次式（８）となる。

【００１６】

【数３】

【００１７】上記式（８）を解くためには、未知の独立
変数ｘ，ｙ，ｚ，εの４変数であるから、この根の解法
には４つの独立した式が必要となる。従って、少なくて
も４つ以上の送信機が必要となる。この独立の４式を解
くのは非常に困難であるが、逐次近似法を用いて、根、
すなわち受信機の座標を求めることは可能である。それ
は、受信機の座標（ｘ，ｙ，ｚ）を次式（９−１）〜
（９−３）のように、各座標毎に、その近似値ｘ′，
ｙ′，ｚ′と補正量Δｘ，Δｙ，Δｚとの和と考える。ｘ＝ｘ′＋Δｘ …（９−１）ｙ＝ｙ′＋Δｙ …（９−２）ｚ＝ｚ′＋Δｚ …（９−３）式（９−１）〜（９−３）のΔｘ，Δｙ，ΔｚのΔの項
が微少な量であるとして、式（８）の１次近似だけとす
ると、次式（１０）を得る。

【００１８】

【数４】

【００１９】ここで式（１０）のα_i，β_i，γ_iは式
（８）より式（１１−１）〜（１１−３）となる。

【００２０】

【数５】

【００２１】また式（１０）において、各送信機につい
て考えると変数はΔｘ，Δｙ，Δｚ，εの４つであるか
ら、これを行列で表すと、次（式）（１２−１）〜（１
２−４）で表される。

【００２２】

【数６】

【００２３】従って、求める修正量Δｄはマトリックス
Ａの逆行列を求めればよいから、修正量Δｄは、次式
（１３）となる。 Δｄ＝Ａ^-1ΔＲ …（１３）従って最初に初期値を与え、修正量Δｄ（Δｘ，Δｙ，
Δｚ）を次々と加えて真の値に近づけていく逐次近似法
により最終値を求めることが出来る。

【００２４】次に初期値の与え方について述べる。受信
機の位置を検出するためには、逆行列Ａ^-1を解く必要が
ある。そのためには、Ａの絶対値が近似的に０とならな
いような初期値の設定が必要である。一般に３次元空間
における４つの座標点（ｘ_i，ｙ_i，ｚ_i）［ｉ＝１〜
４］による４面体の体積Ｖは次式（１４）のようになる
ことが知られている。

【００２５】

【数７】

【００２６】即ちマトリックスＡの正方行列の値が０に
近いと式（１３）は求まりにくくなり、誤差が発生す
る。そしてマトリックスＡの値は４つの頂点を形成する
４面体の体積を表している。

【００２７】図３は本発明に係る式（１４）による４面
体の体積を説明する図である。即ち１つの受信機点（黒
丸で示す）を中心に４つの各送信機点（三角印で示す）
を見た方向の直線と、受信機から単位長さＬで形成する
球（単位球）を考え、各送信機から受信機までの直線と
前記単位球との交点をいま、Ａ，Ｂ，Ｃ，Ｄとすると、
このＡ，Ｂ，Ｃ，Ｄで構成する４面体の体積がマトリッ
クスＡの正方行列の値になる。

【００２８】ここで、α_i，β_i，γ_i，はそれぞれ以
下の意味を表しているから、受信機から単位球との交点
までの長さを表すことになる。 α_i＝ｘ_i／Ｌ_i，β_i＝ｙ_i／Ｌ_i，γ_i＝ｙ_i／Ｌ
_i 即ちそれぞれのα_i，β_i，γ_iは、各送信機から受信
機までの長さＬの３次元のＸ軸、Ｙ軸、Ｚ軸に射影した
長さｘ，ｙ，ｚを距離の長さＬで割った値、または長さ
の余弦角度に相当する値となる。従って、頂点をＡ，
Ｂ，Ｃ，Ｄとする４面体の体積がなるべく大きな値にな
るように設定すれば、式（１２−１）〜（１２−４）の
値が正確に求まることになる。

【００２９】上記により、行列Ａの各要素を照らし合わ
せて考えると、一つの受信機点を中心に各送信機を見た
方向線上の単位長の余弦の座標成分の４つの点を結んだ
４面体の体積となることが理解できる。従って、式（１
３）のマトリックスＡの各要素で決定される体積が０近
くならないような各送信機の配置が必要となる。

【００３０】図４，図５は、前述したアルゴリズムを検
証するための計算機シミュレーション結果を示す図であ
る。図４は、受信機の位置を、Ｘ軸、Ｙ軸にそれぞれ５
００等分に分割した位置に設置したときに、各設置位置
において必要とする逐次近似の回数を示した例である。
なお、この例では、送信機の４つの位置（単位ｃｍ）
は、Ｓ₁（０，２５０，２５０）、Ｓ₂（２５０，２５
０，２５０）、Ｓ₃（５００，２５０，２５０）、Ｓ₄
（１５０，５００，２５０）であり、受信機の初期設定
位置は（２５０，２５０，１５０）としたものである。
すなわち、高さ１５０ｃｍの平面上に受信機を設置した
時、初期設定位置から何回の逐次近似で、受信機の設置
位置に到達したのかを示している。この結果から、少な
くても最大６回程度の逐次回数で目標の受信機の位置を
推定することが可能であると判る。

【００３１】図５は本発明のアルゴリズムの逐次近似の
収束特性を示す図であり、図の横軸に逐次近似回数を、
縦軸に逐次修正した座標位置と受信機位置（最終値）と
の距離を、初期設定位置と受信機位置との距離で割って
正規化された残留誤差値を示している。なお、図５のパ
ラメータｒは、初期設定位置と受信機位置の距離（単位
cm）を示しており、括弧内の座標は受信機の位置（単位
cm）を示している。これによれば初期設定位置と受信機
位置の距離が遠くになれば逐次近似の回数が増加するこ
とが判る。

【００３２】（２）話者位置推定方法上記の方法により、受信機の位置、すなわちマイク（受
音手段）の位置が判明した。そこでこれ以後は離散的に
配置された複数のマイク位置が判っているものとして話
者位置推定方法を説明する。いま話者位置の座標を
（ｘ，ｙ，ｚ）、ｍ番目のマイクの位置座標を（ｘ_m，
ｙ_m，ｚ_m）とすると、話者とマイクの距離ｒ_mは、次
式（１５）となる。

【００３３】

【数８】

【００３４】ここで、話者の位置を推定する場合、前述
したような方法で話者の口元からの各マイクまでの距離
を測定し、逐次近似法で話者の位置を求めることは可能
であるが、話者の口元にマイクを設置する接話マイクで
は煩わしさがあり、好ましくない。そこで、話者から２
つ以上の複数のマイクに到達する発声の時間差を測定す
ることを考える。ここでは時間差を測定できたとして、
議論を進めることとする。

【００３５】本発明の話者位置推定方法における逐次近
似法のアルゴリズムの概要は次の通りである。まず話者
の音声をそれぞれ受音する複数の受音手段は互いに異な
る任意の位置に予め設置され、その設置位置は既知とす
る。次に前記受音手段間で得られる受音信号間の時間差
を測定し、この時間差に相当する距離差から音波を平面
波として推定される音源方向を組み合せて初回の仮想話
者位置（仮想話者位置の初期値又は初期位置ともいう）
を求め、次に前記初回の仮想話者位置を実際の話者位置
に逐次近づける逐次近似法により最終的に収束する仮想
話者位置を実際の話者位置として推定する。

【００３６】前記逐次近似法を機能的に説明すると、次
のようになる。まず最初に算出される前記初回の仮想話
者位置に話者がいるものとして、この位置から各受音手
段間で得られる受音信号間の時間差を算出し、この算出
時間差と実測時間差との差分を前記初回の仮想話者位置
の修正量として次回の仮想話者位置を算出する。次に次
回の仮想話者位置に話者がいるものとして前記と同様の
演算を繰り返し、最終的に前記算出時間差と実測時間差
との差分が最小となったときの仮想話者位置を実際の話
者位置として推定する方法である。

【００３７】次に前記逐次近似法のアルゴリズムを数式
により説明する。いまｉ番目のマイクとｋ番目のマイク
間の時間差に相当する距離差をｄ_ikとすると、次式（１
６）が得られる。

【００３８】

【数９】

【００３９】ここで、前述と同様に、式（１６）の近似
式を考える。すなち、近似値ｄ_ik′と補正量Δｄ_ikとの
和をｄ_ikと考えると、補正量Δｄ_ikは次式（１７）とな
る。なおここでεは計算誤差を表している。

【００４０】

【数１０】

【００４１】ところで、式（１７）のα_ik，β_ik，γ_ik
は次式（１８−１），（１８−２），（１８−３）で表
される。

【００４２】

【数１１】

【００４３】式（１７）より、３次元空間においては未
知変数は４つで、これを行列式で表すと、式（１２−
１）〜（１２−４）と同様に、次式（１９−１）〜（１
９−４）が得られる。

【００４４】

【数１２】

【００４５】これより、Δｄは式（１９−４）の逆行列
演算（Δｄ＝Ａ^-1ΔＤ）により求めることが可能とな
り、前述と同様な方法で逐次近似法により話者位置
（ｘ，ｙ，ｚ）を求めることができる。まず、仮想話者
位置の初期位置（ｘ₀，ｙ₀，ｚ₀）を式（１８−１）
〜（１８−３）に与えて、α_ij，β_ij，γ_ijを求め、次
に式（１９−１）〜（１９−４）を用いて、仮想話者位
置から求めた各距離と実際の話者位置での時間差から求
めた各距離との差分ΔｄであるΔｘ，Δｙ，Δｚを求め
る。次に、このΔｘ，Δｙ，Δｚを、ｘ′＝ｘ₀＋Δ
ｘ，ｙ′＝ｙ₀＋Δｙ，ｚ′＝ｚ₀＋Δｚに代入して、
ｘ′，ｙ′，ｚ′を求め、新たに求めたｘ′，ｙ′，
ｚ′を再び式（１８−１）〜（１８−３）に代入する。
上記処理を繰り返して実行する事により、真の話者位置
を推定することができる。

【００４６】以上述べた本発明のアルゴリズムを実証す
るために、３次元空間でのシミュレーションは大変複雑
で理解しにくいので、以下に２次元平面により説明す
る。図６は話者とマイクの位置関係の３つの例を示す図
であり、図の（ａ），（ｂ），（ｃ）に、話者とマイク
Ｍ₁，Ｍ₂，Ｍ₃の位置関係が異なるｃａｓｅ１，２，
３がそれぞれ示されている。図７は図６の位置関係での
本発明のアルゴリズムの収束特性を示した図であり、仮
想話者位置にある初期値を与えたとき、図の横軸に逐次
近似回数を、縦軸に修正位置から話者位置（最終値）ま
での距離を、初期位置から話者位置までの距離で割って
正規化された残留誤差値を示した図である。図の
（ａ），（ｂ）は仮想話者位置の初期位置が（１０，２
０）と（１００，１０）と異なっており、これより初期
位置の与え方で収束したり発散したりしていることが判
る。

【００４７】また、マイクと話者の位置関係によっても
本アルゴリズムの収束特性が異なることが判る。図８は
本発明のアルゴリズムにより収束したときの収束領域の
例を示す図であり、この図は、図６のｃａｓｅ１におけ
る話者とマイクとの位置関係の場合の収束領域を図示の
ハッチング部により示している。なお、図の白丸はマイ
ク位置、黒丸は話者位置である。本アルゴリズムでは収
束領域に初期位置を持っていく工夫が必要であるが、そ
のように初期位置が設定されれば、話者位置を推定する
精度はかなり高いことが図８より判る。

【００４８】２．本発明のアルゴリズムを具現化する装
置例（１）受音（受信機）位置測定装置図９は本発明に係る送信機と受信機間の距離測定装置の
構成例を示す図であり、本発明における受信機はマイク
と一体化され、受信機とマイクは同一位置に設置され
る。図９において、１１は計算機（例えばワークステイ
ション）、１２はＤＡ変換器、１３は送信機、１４は超
音波発振素子、１５は超音波受信素子、１６は受信機、
１７はＡＤ変換器、である。

【００４９】図９においては、計算機１１は周波数４０
ｋＨｚ、時間幅１ｍｓｅｃの超音波正弦波を、ディジタ
ル信号として繰返周期２５ｍｓｅｃごとに出力する。こ
の計算機１１から出力されるディジタル信号は、ＤＡ変
換器１２により、アナログ波形信号に変換される。送信
機１３はＤＡ変換器１２からの出力信号を増幅し、これ
を励振信号として超音波発振素子１４に供給する。超音
波発振素子１４は送信機１３から与えられた励振信号に
従って空中に超音波を放射する。

【００５０】空中に放射された超音波は遅延と減衰を経
て、所定距離隔てた超音波受信素子１５で受信され、電
気信号に変換される。超音波受信素子１５からの電気信
号は受信機１６で増幅され、ＡＤ変換器１７でアナログ
信号から計算機処理されやすいディジタル信号に変換さ
れる。このディジタル信号が計算機１１に取り込まれ
る。計算機１１では、超音波の送信時刻と受信時刻間の
伝搬所要時間Ｔを測定し、これに室温条件を加えた音速
Ｃを乗算し、距離Ｒ＝Ｃ・Ｔを得る。このようにして送
信機から受信機までの距離が測定できる。

【００５１】図１０は図９の距離測定装置による測定可
能範囲とその測定誤差の例を示す図である。図１０にお
いては、送信機を高さ２３０ｃｍ、受信機を高さ１００
ｃｍに設置したときに、高さ１００ｃｍの平面上の測定
可能な範囲を図の（ａ）に、またその測定距離に対する
誤差を図の（ｂ）に示している。これにより測定距離１
００〜５００ｃｍにおける測定誤差は、ほぼ＋１．５〜
−２．０ｃｍの範囲にあるから、話者の大きさと比べれ
ば実用に十分耐えうるものと思われる。また、図９の超
音波受信素子１５は、わざわざ超音波専用の受信素子を
用いなくても、可聴領域（〜２０ｋＨｚ）と超音波領域
（２０ｋＨｚ〜）までの広範囲の周波数を包括するコン
デンサマイクを使用すれば、超音波受信手段と可聴音波
受波手段を一体化できることは明らかである。

【００５２】また、図９は単一の送信機と受信機の距離
を測定する方法について述べたもので、前記の（１）ア
ルゴリズムのところでも述べたように、３次元の受信機
の位置を求めるためには少なくても、４つの送信機が必
要である。図９に示した例では送信波を単一周波数の４
０ｋＨｚとしたが、４つの送信機を設けた場合に、各送
信機からの送信波を、２０ｋＨｚ以上のそれぞれ周波数
が異なる４つの超音波として、同時に計算機より発生さ
せ、受信機でその各周波数ごとの伝搬時間を測定するこ
とも可能であるし、４つの送信機から番号順に送信さ
せ、これを順次受信して各伝搬時間を測定することも可
能であることは明らかである。

【００５３】以上、超音波を利用した複数の送信機を用
いて、受音（受信機）点の位置が測定できることを述べ
たが、超音波以外の空間伝搬波（例えば電波、赤外光
等）を用いても、距離測定は可能であることは言うまで
もない。

【００５４】（２）話者位置推定装置図２は本発明に係る話者位置推定装置の構成を示すブロ
ック図であり、図の１は話者、２−１，２−２，…２−
ｉ，…２−ｎはそれぞれマイク、３−１，３−２，…３
−ｉ，…３−ｎは各マイク毎の増幅器、４はＡ／Ｄ変換
器、５は計算機、６は端末器である。図２においては、
先に述べたように、各マイク２−１〜２−ｎは、前記受
信機と個別に一体化され、互いに異なる任意の位置に予
め設置され、これらの位置情報は前記説明のように既に
算出されているものとする。そして話者１から発せられ
た音声は各マイク２−１〜２−ｎにそれぞれ時間差をも
って到来する。各マイク２−１〜２−ｎの出力信号は、
Ａ／Ｄ変換器４に入力するのに最適な電圧レベルになる
ように、それぞれ増幅器３−１〜３−ｎによって増幅さ
れる。増幅後の各信号はＡ／Ｄ変換器４によりディジタ
ル信号に変換されて計算機５に入力される。

【００５５】計算機５では、まず各マイクに受信された
受信信号間の時間差を測定する。この測定方法として
は、例えば下表の参考文献２に報告されている方法を用
いてもよい。参考文献２：日本音響学会講演論文集、３−８−２、平
成３年１０月、金田豊、“室内残響下における広帯域音
源の方向推定”、ｐ．５４７−５４８この参考文献２の方法は、音源の波形の初期部分だけを
捉えて受信信号間の時間差を測定する方法であるから、
反射による影響は考慮する必要はない。従ってマイク間
における受音信号間の時間差は測定できる。

【００５６】次にこれらの時間差の情報から、音波を平
面波として推定される音源方向を組み合せて、初回の仮
想話者位置を算出する。そしてその初回の仮想話者位置
から前記アルゴリズムによる逐次近似法を用いて収束す
るまで、計算処理を繰り返し、最終的な話者位置を推定
することが出来る。なお前記説明のように、話者位置と
マイク位置には収束できない領域があり、２つのマイク
位置を結ぶ直線上に話者位置を設定しないようにする必
要がある。

【００５７】図１は本発明に係る話者位置推定方法の処
理を示す流れ図であり、本発明における前記各信号処理
をまとめて示したものである。なお図のＳに続く数値は
ステップ番号を示す。図１のＳ１では、人間の聴覚に影
響しない信号（前記図９の超音波信号等）を送信する複
数の送信手段を互いに異なる位置に予め設置する。Ｓ２
では、音声を受音する複数の受音手段と、前記送信手段
からの信号を受信する複数の受信手段とをそれぞれ個別
に一体化して、互いに異なる位置に設置する。

【００５８】Ｓ３では、各送信手段の位置情報を入力し
（例えば図２の端末器６より入力し）、各送信手段と各
受信手段間の距離を求め、この距離情報に基づき各受信
手段と同一位置にある各受音手段の位置を逐次近似演算
によって算出する。Ｓ４では、受音手段間で得られる受
音信号間の時間差を測定し、Ｓ５では、この時間差に相
当する距離差から初回の仮想話者位置を算出する。

【００５９】Ｓ６では、前記算出された仮想話者位置を
実際の話者位置に逐次近づける逐次近似法により話者位
置の推定演算を行う。即ち、前記初回の仮想話者位置に
話者がいるものとして、この位置から各受音手段間で得
られる受音信号間の時間差を算出し、この算出時間差と
実測時間差との差分を前記初回の仮想話者位置の修正量
として次回の仮想話者位置を算出する。

【００６０】Ｓ７では、仮想話者位置に話者がいるもの
と仮定して算出した時間差と、実際の話者位置から測定
した時間差との差分が最小となったか否かを判別し、最
小でないと判別した場合には、Ｓ６へ戻り逐次近似演算
を行う。即ち、２回目、３回目…ｎ回目の仮想話者位置
に話者がいるものとして前記と同様の演算を繰り返し、
最終的に前記算出時間差と実測時間差との差分が最小と
なるまで（即ち収束するまで）、Ｓ６〜Ｓ７のループを
繰り返す。Ｓ７で、前記差分が最小となったと判断され
ると、最終的な仮想話者位置を実際の話者位置として推
定し、終了する。

【００６１】本実施形態により、遠隔会議や複数の人が
同じ部屋にいる場合に、新規にマイクを設ける必要がな
く、既に使用しているマイク等が活用できるので経済的
な話者位置推定システムが構成できる。また、マイク位
置が既知でない場合に、まずマイク位置を逐次近似演算
により算出し、次にマイク位置を既知とした仮想話者位
置から逐次近似法により収束した精度の良い話者位置を
推定することができる。

【００６２】

【発明の効果】以上のように本発明によれば、１つの領
域に複数の人がいて、現在発音している人の位置を推定
する方法において、人間の聴覚に影響しない信号をそれ
ぞれ送信する複数の送信手段を互いに異なる位置に予め
設置し、読者の音声をそれぞれ受音する複数の受音手段
と、前記複数の各送信手段からの送信信号をそれぞれ受
信する複数の受信手段とをそれぞれ個別に一体化して互
いに異なる位置に設置し、前記複数の各送信手段の設置
位置は既知として、前記各送信手段と各受信手段間の距
離をその信号伝搬時間からそれぞれ求め、この距離情報
に基づき前記各受信手段と同一位置に設置された各受音
手段の設置位置を逐次近似演算によってそれぞれ算出
し、前記各受音手段の設置位置の算出後、話者から発生
された音波を前記複数の各受音手段でそれぞれ受音し、
受音手段間で得られる受音信号間の時間差を測定し、前
記受音信号間の時間差から初回の仮想話者位置を求め、
この初回の仮想話者位置を実際の話者位置に逐次近づけ
る逐次近似法により話者位置を推定するようにしたの
で、本発明の適用により、遠隔会議や複数の人が同一領
域にいる場合に、既に使用しているマイク等が活用でき
るので経済的な話者位置推定システムが構成できると共
に、マイク位置が既知でない場合に、まずマイク位置
を、逐次近似演算により算出し、次にマイク位置を既知
とした仮想話者位置から逐次近似法により収束した精度
の良い話者位置を推定することができる。

【図面の簡単な説明】

【図１】本発明に係る話者位置推定方法の処理を示す流
れ図である。

【図２】本発明に係る話者位置推定装置の構成を示すブ
ロック図である。

【図３】本発明に係る式（１４）による４面体の体積を
説明する図である。

【図４】受信機の設置位置と必要とする逐次近似の回数
を示す図である。

【図５】本発明のアルゴリズムの逐次近似の収束特性を
示す図である。

【図６】話者とマイクとの位置関係の３つの例を示す図
である。

【図７】図６の位置関係での本発明のアルゴリズムの収
束特性を示す図である。

【図８】本発明のアルゴリズムにより収束したときの収
束領域の例を示す図である。

【図９】本発明に係る送信機と受信機間の距離測定装置
の構成例を示す図である。

【図１０】図９の距離測定装置による測定可能範囲とそ
の測定誤差の例を示す図である。

【図１１】参考文献１による話者位置検出方法を説明す
る図である。

【符号の説明】

１話者２−１〜２−ｎマイク３−１〜３−ｎ増幅器４Ａ／Ｄ変換器５計算機６端末器１１計算機１２ＤＡ変換器１３送信機１４超音波発振素子１５超音波受信素子１６受信機１７ＡＤ変換器

フロントページの続き (73)特許権者 597032206 穂刈治英新潟県長岡市上富岡町1603−１長岡技術科学大学内 (72)発明者小林則夫愛知県名古屋市中区丸ノ内３丁目22番21 号株式会社沖テック内 (72)発明者川田眞一東京都港区虎ノ門１丁目７番12号沖電気工業株式会社内 (72)発明者島田正治新潟県長岡市上富岡町1603−１長岡技術科学大学内 (72)発明者穂刈治英新潟県長岡市上富岡町1603−１長岡技術科学大学内 (56)参考文献特開平８−114666（ＪＰ，Ａ) 特開平５−93773（ＪＰ，Ａ) 特開昭60−108779（ＪＰ，Ａ) 特開平10−253743（ＪＰ，Ａ) 特開平６−222130（ＪＰ，Ａ) 特開平９−145821（ＪＰ，Ａ) 特開平８−61952（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G01S 1/72 - 1/82 G01S 3/80 - 3/86 G01S 5/18 - 5/30 G01S 7/52 - 7/64 G01S 13/58 - 13/72 G01S 15/00 - 15/96

Claims

(57)【特許請求の範囲】

【請求項１】１つの領域に複数の人がいて、現在発音
している人の位置を推定する方法において、人間の聴覚に影響しない信号をそれぞれ送信する複数の
送信手段を互いに異なる位置に予め設置し、話者の音声をそれぞれ受音する複数の受音手段と、前記
複数の各送信手段からの送信信号をそれぞれ受信する複
数の受信手段とをそれぞれ個別に一体化して互いに異な
る位置に設置し、前記複数の各送信手段の設置位置は既知として、前記各
送信手段と各受信手段間の距離をその信号伝搬時間から
それぞれ求め、この距離情報に基づき前記各受信手段と
同一位置に設置された各受音手段の設置位置を逐次近似
演算によってそれぞれ算出し、前記各受音手段の設置位置の算出後、話者から発生され
た音波を前記複数の各受音手段でそれぞれ受音し、受音
手段間で得られる受音信号間の時間差を測定し、前記受音信号間の時間差から初回の仮想話者位置を求
め、この初回の仮想話者位置を実際の話者位置に逐次近
づける逐次近似法により話者位置を推定することを特徴
とする話者位置推定方法。
【請求項２】前記人間の聴覚に影響しない信号とし
て、人間の可聴周波数範囲を越える超音波周波数の信号
を用いることを特徴とする請求項１記載の話者位置推定
方法。
【請求項３】前記複数の送信手段は、少なくとも４個
は設置され、前記受信手段の１つの設置位置から各４個
の送信手段の設置位置を結ぶ直線上にあって受信手段か
ら単位長さまでの４点を結ぶ立体体積が大きくなるよう
に、各送信手段の設置位置が設定されることを特徴とす
る請求項１又は２記載の話者位置推定方法。
【請求項４】前記初回の仮想話者位置を実際の話者位
置に逐次近づける逐次近似法は、まず前記初回の仮想話
者位置に話者がいるものとして、この位置から各受音手
段間で得られる受音信号間の時間差を算出し、この算出
時間差と実測時間差との差分を前記初回の仮想話者位置
の修正量として次回の仮想話者位置を算出し、次に次回
の仮想話者位置に話者がいるものとして前記と同様の演
算を繰り返し、最終的に前記算出時間差と実測時間差と
の差分が最小となったときの仮想話者位置を実際の話者
位置として推定する方法であることを特徴とする請求項
１から３までのいずれかの請求項に記載の話者位置推定
方法。