JP2008175733A - 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法 - Google Patents

音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法 Download PDF

Info

Publication number
JP2008175733A
JP2008175733A JP2007010322A JP2007010322A JP2008175733A JP 2008175733 A JP2008175733 A JP 2008175733A JP 2007010322 A JP2007010322 A JP 2007010322A JP 2007010322 A JP2007010322 A JP 2007010322A JP 2008175733 A JP2008175733 A JP 2008175733A
Authority
JP
Japan
Prior art keywords
arrival
eigenvalue
fourier transform
received signal
correlation matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007010322A
Other languages
English (en)
Inventor
Katsushi Sakai
克司 境
Yusuke Yasukawa
裕介 安川
Hiromitsu Omori
浩充 大森
Yoshiaki Shimada
良昭 嶋田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Keio University
Original Assignee
Fujitsu Ltd
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Keio University filed Critical Fujitsu Ltd
Priority to JP2007010322A priority Critical patent/JP2008175733A/ja
Publication of JP2008175733A publication Critical patent/JP2008175733A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

【課題】移動する音源から発せられる音声の到来方向をリアルタイムに推定するとともに、該音声についてリアルタイムにビームフォーミングを行う。
【解決手段】音声到来方向推定・ビームフォーミングシステム1が音源2から受信した音声をフレーム毎に短時間フーリエ変換し、現在のフレームについての受信信号ベクトルを取得し、該受信信号ベクトルを用いて、現在のフレームの一つ前のフレームまでの相関行列を更新して、現在のフレームまでの相関行列を算出する。そして、音声到来方向推定・ビームフォーミングシステム1が該現在のフレームまでの相関行列に基づいて、MUSICスペクトルを算出し、該MUSICスペクトルに基づいて、音声の到来方向を算出する。また、上記短時間フーリエ変換によって得られた受信信号ベクトルと到来方向とに基づいて、ビームフォーミング処理を行う。
【選択図】図1

Description

本発明は、音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法に関し、特に、移動する音源から発せられる音声の到来方向をリアルタイムに推定するとともに、該音声についてリアルタイムにビームフォーミングを行う音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法に関する。
サービスロボットENON等、近年、人間と共生することを目的としたホームユースロボットが登場している。ホームユースロボットが人間とコミュニケーションを行う際、音声が最も自然なインタフェースであると言える。ホームユースロボットは、人間とのコミュニケーションを円滑に行うため、話者に対して自身の顔を向けるとともに、話者から発せられる音声を精度良く認識することが求められている。このため、ホームユースロボットは、話者から発せられる音声の到来方向を推定するとともに、話者から発せられる音声を強調して雑音の影響を減少させることが必要である。
特に、話者またはホームユースロボットが移動して、話者とホームユースロボットの位置関係が時々刻々と変化する場合、話者から発せられる音声の到来方向の推定処理と、該音声の強調処理(例えば、Broadband Beamforming 法を用いたビームホーミング)をリアルタイムに行うことが必要である。
従来、MUSIC法を用いて音声の到来方向を推定する技術が提案されている。MUSIC法を用いた具体的な到来方向推定技術として、下記の特許文献1に、受信信号の相関行列から得られる複数の固有値のうちの一つの最小固有値のみを用いてMUSICスペクトルを算出し、算出されたMUSICスペクトルに含まれる各ピーク波形の位置に基づいて、到来波の到来方向を推定する装置に関して記載されている。
特開2000−121716号公報
しかし、MUSIC法を用いた到来方向の推定には、固有値計算などの計算負荷の大きい処理が伴うことから、従来、音源が移動する場合に、該音源から発せられる音声の到来方向をリアルタイムに推定するとともに、該音声についてリアルタイムにビームフォーミングを行う技術はなかった。
本発明は、移動する音源から発せられる音声の到来方向をリアルタイムに推定するとともに、該音声についてリアルタイムにビームフォーミングを行う音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法の提供を目的とする。
上記課題を解決するため、本発明の音声到来方向推定・ビームフォーミングシステム及び移動装置は、MUSIC法を用いて、リアルタイムに音声の到来方向を推定する。具体的には、本発明の音声到来方向推定・ビームフォーミングシステム及び移動装置は、移動する音源から各マイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを得る。そして、本発明の音声到来方向推定・ビームフォーミングシステム及び移動装置は、現在の受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する。そして、本発明の音声到来方向推定・ビームフォーミングシステム及び移動装置は、算出した相関行列を固有値分解した結果に基づいて、MUSICスペクトルを算出し、算出したMUSICスペクトルが最大となるθを到来方向として出力する。
また、本発明の音声到来方向推定・ビームフォーミングシステム及び移動装置は、推定された到来方向と上記フーリエ変換によって得られる受信信号ベクトルとに基づいて、該音声についてリアルタイムにビームフォーミングを行う。
すなわち、本発明の音声到来方向推定・ビームフォーミングシステムは、移動する音源から発せられる音声を受信信号として受信する複数のマイクと、各マイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するフーリエ変換手段と、前記フーリエ変換手段によって取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する相関行列演算手段と、前記相関行列演算手段によって算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出する固有値演算手段と、前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出する固有ベクトル演算手段と、前記固有ベクトル演算手段によって算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するMUSICスペクトル演算手段と、前記MUSICスペクトル演算手段によって算出されたMUSICスペクトルと前記固有値演算手段によって算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定する到来方向推定手段と、前記到来方向推定手段によって推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うビームフォーミング手段とを備える。
また、本発明の音声到来方向推定・ビームフォーミングシステムにおいて、前記MUSICスペクトル演算手段が、過去の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、前記各マイクにおける位相差を探索して、前記方向ベクトルを求める。
また、本発明の移動装置は、移動する音源から発せられる音声を受信信号として受信する複数のマイクと、各マイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するフーリエ変換手段と、前記フーリエ変換手段によって取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する相関行列演算手段と、前記相関行列演算手段によって算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出する固有値演算手段と、前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出する固有ベクトル演算手段と、前記固有ベクトル演算手段によって算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するMUSICスペクトル演算手段と、前記MUSICスペクトル演算手段によって算出されたMUSICスペクトルと前記固有値演算手段によって算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定する到来方向推定手段と、前記到来方向推定手段によって推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うビームフォーミング手段と、前記移動装置が前記到来方向推定手段によって推定された到来方向を向くように、前記移動装置を駆動する駆動手段とを備える。
また、本発明の音声到来方向推定・ビームフォーミング方法は、移動する音源から発せられる音声を受信信号として受信する複数のマイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するステップと、前記取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出するステップと、前記算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出するステップと、前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出するステップと、前記算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するステップと、前記算出されたMUSICスペクトルと前記算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定するステップと、前記推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うステップとを有する。
また、本発明の音声到来方向推定・ビームフォーミング方法において、前記MUSICスペクトルを算出するステップは、過去の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、前記各マイクにおける位相差を探索して、前記方向ベクトルを求める。
本発明の音声到来方向推定・ビームフォーミングシステムは、MUSIC法を用いた音声の到来方向の推定処理を行う際に、移動する音源から受信した音声を短時間フーリエ変換して受信信号ベクトルを取得し、現在の受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出し、算出した現在の相関行列に基づいて、音声の到来方向を推定する。従って、本発明によれば、移動する音源から発せられる音声の到来方向をリアルタイムに推定することが可能となる。
また、本発明の移動装置は、MUSIC法を用いてリアルタイムに音声の到来方向を推定するとともに、自装置が上記推定された到来方向を向くように、自装置を駆動する。従って、本発明によれば、例えば移動する音源としての話者とのコミュニケーションをより円滑に行うことが可能となる。
また、本発明の音声到来方向推定・ビームフォーミングシステム及び移動装置は、到来方向推定処理において行った短時間フーリエ変換の結果を用いてビームフォーミング処理を行う。従って、本発明によれば、到来方向推定処理とビームフォーミング処理のそれぞれにおいて別個に短時間フーリエ変換処理を行う必要がなくなる。その結果、システム全体の計算負荷を軽減することが可能となる。
また、本発明の音声到来方向推定・ビームフォーミングシステムは、前回の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、各マイクにおける位相差を探索して、方向ベクトルを求め、求めた方向ベクトルに基づいて、MUSICスペクトルを算出する。従って、本発明によれば、全ての方向(360度方向)の範囲についてのMUSICスペクトルを算出する場合と比べて、計算量を大幅に削減することが可能となる。
以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明の音声到来方向推定・ビームフォーミングシステムの構成の一例を示す図である。音声到来方向推定・ビームフォーミングシステム1は、MUSIC法を用いて、移動する音源2から発せられる音声の到来方向をリアルタイムに推定するとともに、該音声についてリアルタイムにビームフォーミングを行う処理システムである。音源2は、移動するとともに、音声を発する。音源2は、例えば話者である。
音声到来方向推定・ビームフォーミングシステム1は、マイク11−1〜11−3、メモリ12、フーリエ変換部13、相関行列演算部14、固有値演算部15、固有ベクトル演算部16、MUSICスペクトル演算部17、到来方向推定部18、ビームフォーミング部19、相関行列記憶部20、到来方向記憶部21を備える。
マイク11−1〜11−3は、音源2から発せられる音声を受信して、メモリ12に記憶する。マイク11−1〜11−3は、図1に示すように、各マイクの並びが1直線にならないように(例えば、各マイクが三角形の頂点に位置するように)配置されている。マイク11−1〜11−3が、各マイクの並びが1直線にならないように配置されているのは、マイク11−1〜11−3が、各マイクの並びが1直線になるように配置されると、後述する到来方向を示す、MUSICスペクトルが最大となるθが複数となり、到来方向が一つに定まらないからである。
メモリ12は、マイク11−1〜11−3によって受信された受信信号(音声信号)を記憶する。フーリエ変換部13は、メモリ12に記憶された受信信号を、フレーム毎に短時間フーリエ変換する。フレームとは、所定の時間幅を持ち、時系列上で連続的に並ぶ時間帯である。具体的には、マイク11−1、11−2、11−3によって受信された受信信号を、それぞれx1 (t)、x2 (t)、x3 (t)とすると、フーリエ変換部13は、まず、各受信信号にhamming関数h(n)を適用した上で、フレーム毎に短時間フーリエ変換する。hamming関数h(n)は、所定の窓関数である。
上記短時間フーリエ変換処理によって、例えば、現在のフレームについての短時間フーリエ変換結果であるXi+1,1 (ω,t)、Xi+1,2 (ω,t)、Xi+1,3 (ω,t)が得られる。iはフレーム番号である。
また、フーリエ変換部13は、短時間フーリエ変換の結果をベクトル表示して、受信信号ベクトルを作成し、出力する。例えば、以下の式で表される、現在のフレームについての受信信号ベクトルXi+1 が出力される。
i+1 =[Xi+1,1 (ω,t)、Xi+1,2 (ω,t)、Xi+1,3 (ω,t)]T
相関行列演算部14は、フーリエ変換部13によって出力された受信信号ベクトルの相関行列を周波数毎に算出し、算出した相関行列を相関行列記憶部20に記憶する。すなわち、相関行列演算部14は、現在のフレームについての受信信号ベクトルXi+1 と所定の忘却係数αとに基づいて、以下の式(1)に従って、現在のフレームの一つ前のフレームまでの(過去の)相関行列R(ω)i を更新して、周波数毎に、現在のフレームまでの相関行列R(ω)i+1 を算出する。
R(ω)i+1 =αR(ω)i +(1−α)Xi+1 i+1 T ・・・式(1)
なお、初期の相関行列R(ω)0 については、例えば以下のようにして求められる。すなわち、相関行列演算部14は、以下の式
R(ω)0 =E[X0 0 H
に従って、R(ω)0 を算出する。上記の式において、X0 は、初期の受信信号ベクトル[X0 ,1(ω,t)、X0,2 (ω,t)、X0,3 (ω,t)]T であり、E[X0 0 H ]は、X0 0 H の期待値を示す。
固有値演算部15は、算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値(最大固有値)λ(ω)を算出する。固有ベクトル演算部16は、算出された最大固有値に対応する固有ベクトルである音声部分空間Us (ω)と、固有値分解によって得られる固有値のうち、最大固有値λ(ω)以外の固有値に対応する固有ベクトルである雑音部分空間UN (ω)とを算出する。
MUSICスペクトル演算部17は、算出された雑音部分空間UN (ω)と、方向ベクトルa(θ,ω)とに基づいて、以下の式(2)で示されるMUSICスペクトルP(θ,ω)を算出する。
P(θ,ω)=aH (θ,ω)a(θ,ω)/aH (θ,ω)UN (ω)UN H (ω)a(θ,ω) ・・・式(2)
方向ベクトルa(θ,ω)は、マイク11−1〜11−3のうちの一つのマイクを基準としたときの、各マイクにおける位相差を示すベクトルである。MUSICスペクトル演算部17は、例えば、全ての方向(360度)の到来方向について、各マイクにおける位相差を探索して、上記方向ベクトルa(θ,ω)を求め、上記式(2)を用いて、360度の範囲についてのMUSICスペクトルP(θ,ω)を算出する。
ここで、音源2の移動速度を考慮すると、2回目以降の到来方向推定は、全方向(360度方向)行う必要はないと考えられる。従って、本発明の一実施形態によれば、MUSICスペクトル演算部17は、到来方向記憶部21から前回の(前回算出された)到来方向の値を抽出し、抽出された前回の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、各マイクにおける位相差を探索して、上記方向ベクトルa(θ,ω)を求め、上記式(2)を用いて、該探索範囲分のMUSICスペクトルP(θ,ω)を算出するようにしてもよい。なお、MUSICスペクトル演算部17は、音源2(例えば、話者)の移動速度(例えば4km/時間)に応じて予め定められた範囲(例えば前回算出された到来方向の前後15度)を上記各マイクにおける位相差の探索範囲とするようにしてもよい。
MUSICスペクトル演算部17が、上記所定の探索範囲分のMUSICスペクトルP(θ,ω)を算出する構成を採る場合、全ての方向(360度)の範囲についてのMUSICスペクトルP(θ,ω)を算出する場合と比べて、計算量が大幅に削減される。
到来方向推定部18は、算出されたMUSICスペクトルP(θ,ω)に基づいて、音声の到来方向を推定する。具体的には、到来方向推定部18は、算出されたMUSICスペクトルP(θ,ω)を、各周波数の最大固有値λ(ω)で重み付けした上で、全ての周波数について加算して、以下の式(3)で表されるP(θ)を得る。
Figure 2008175733
上記式(3)において、ωt は最低周波数、ωh は最高周波数である。
そして、到来方向推定部18は、P(θ)が最大となるθを、音声の到来方向として算出し、到来方向記憶部21に記憶する。
ビームフォーミング部19は、フーリエ変換部13による短時間フーリエ変換結果Xi+1 ,m(ω,t)と到来方向記憶部21に記憶された到来方向θとに基づいて、各マイクによって受信された受信信号についてビームフォーミングを行う。
具体的には、ビームフォーミング部19は、以下の式(4)に従って、強調された受信信号Y(ω)を算出する。
Figure 2008175733
上記式(4)において、Xm (ω)は、Xi+1 ,m(ω,t)を簡略化した表記であり、
Figure 2008175733
は、Xm (ω)についての遅延項であり、τm は、Xm (ω)の遅れ時間である。
τm は、例えば、以下のようにして算出される。例えば、マイク11−1の位置ベクトルを(x1 ,y1 )、マイク11−2の位置ベクトルを(x2 ,y2 )、マイク11−3の位置ベクトルを(x3 ,y3 )とする。上記各位置ベクトルを用いて、図2に示すような行列rを定義する。τm は、図3に示す式(5)で表される。θは到来方向、cは音速である。
ビームフォーミング部19は、上記算出されたY(ω)を対象に逆フーリエ変換処理を行って、時間域のデータに戻すとともに、前述したhamming関数h(n)で割って、時間域における強調された受信信号を算出して出力する。
相関行列記憶部20には、相関行列演算部14によって算出された相関行列が記憶される。到来方向記憶部21には、到来方向推定部18によって算出された到来方向θが記憶される。
なお、上述した音声到来方向推定・ビームフォーミングシステム1及びその各部の機能は、CPUとその上で実行されるプログラムにより実現される。当該本発明を実現するプログラムは、コンピュータが読み取り可能な記録媒体、例えば半導体メモリ、ハードディスク、CD−ROM、DVD等に格納することができ、これらの記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。
図4は、音声到来方向推定・ビームフォーミングシステムの動作処理フローの一例を示す図である。
まず、マイク11−1〜11−3が、音源2から発せられる音声を受信して、受信信号としてメモリ12に記憶する(ステップS1)。次に、フーリエ変換部13が、メモリ12に記憶された受信信号を、フレーム毎に短時間フーリエ変換し、現在のフレームについての受信信号ベクトル(Xi+1 )を取得する(ステップS2)。
次に、相関行列演算部14が受信信号ベクトル(Xi+1 )を用いて、前述した式(1)に従って、現在のフレームまでの相関行列(R(ω)i+1 )を算出し(ステップS3)、相関行列記憶部20に記憶する。
そして、固有値演算部15が、算出された相関行列を固有値分解して、最大固有値(λ(ω))を算出する(ステップS4)。また、固有ベクトル演算部16が、音声部分空間(Us (ω))と雑音部分空間(UN (ω))とを算出する(ステップS5)。
次に、MUSICスペクトル演算部17が、算出された雑音部分空間(UN (ω))と、方向ベクトル(a(θ,ω))とに基づいて、前述した式(2)に従って、MUSICスペクトル(P(θ,ω))を算出する(ステップS6)。ステップS6においては、MUSICスペクトル演算部17は、到来方向記憶部21から前回の到来方向の値を抽出し、抽出された前回の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、各マイクにおける位相差を探索して、上記方向ベクトルa(θ,ω)を求め、上記式(2)を用いて、上記探索範囲分のMUSICスペクトルP(θ,ω)を算出するようにしてもよい。
そして、到来方向推定部18が、算出されたMUSICスペクトルP(θ,ω)に基づいて、音声の到来方向を算出し(ステップS7)、算出された到来方向を到来方向記憶部21に記憶する。
また、ビームフォーミング部19が、フーリエ変換部13による短時間フーリエ変換結果と到来方向記憶部21に記憶された到来方向とに基づいて、各マイクによって受信された受信信号(音声信号)についてビームフォーミング処理を行い、強調された受信信号を出力する(ステップS8)。
図5は、本発明の移動装置の構成の一例を示す図である。移動装置3は、MUSIC法を用いて、移動する音源2から発せられる音声の到来方向をリアルタイムに推定するとともに、該音声についてリアルタイムにビームフォーミングを行う処理装置である。また、移動装置3は、推定された音声の到来方向に自装置(移動装置3)が向くように自装置を駆動する。また、移動装置3は、該ビームフォーミングされた音声を対象に音声認識し、該音声認識結果に基づいて、発話する。音源2は、移動するとともに、音声を発する。音源2は、例えば話者である。
移動装置3は、マイク11−1〜11−3、メモリ12、フーリエ変換部13、相関行列演算部14、固有値演算部15、固有ベクトル演算部16、MUSICスペクトル演算部17、到来方向推定部18、ビームフォーミング部19、相関行列記憶部20、到来方向記憶部21、音声認識部22、駆動部23、対話部24を備える。
移動装置3が備える構成要素のうち、図1に示す音声到来方向推定・ビームフォーミングシステム1が備える構成要素と同じ符号が付けられた構成要素は、音声到来方向推定・ビームフォーミングシステム1が備える構成要素と同じであるので、該構成要素についての詳細な説明は省略する。
音声認識部22は、ビームフォーミング部19によるビームフォーミング処理によって得られた、強調された受信信号を音声認識する。駆動部23は、移動装置3が到来方向推定部18によって算出された到来方向を向くように、移動装置3を駆動する。駆動部23による駆動処理によって、移動装置3が音源2の方向を向くこととなる。
対話部24は、音声認識部22による音声認識結果に基づいて発話する。具体的には、対話部24は、例えば、上記音声認識によって得られる文と、図示を省略する記憶手段内に記憶された文と発話内容との対応情報とに基づいて、該音声認識によって得られる文に対応する発話内容を発話する。
なお、上述した移動装置3及びその各部の機能は、CPUとその上で実行されるプログラムにより実現される。当該本発明を実現するプログラムは、コンピュータが読み取り可能な記録媒体、例えば半導体メモリ、ハードディスク、CD−ROM、DVD等に格納することができ、これらの記録媒体に記録して提供され、又は、通信インタフェースを介してネットワークを利用した送受信により提供される。
図6は、移動装置の動作処理フローの一例を示す図である。まず、マイク11−1〜11−3が、音源2から発せられる音声を受信して、メモリ12に記憶する(ステップS11)。次に、フーリエ変換部13が、メモリ12に記憶された受信信号を、フレーム毎に短時間フーリエ変換し、現在のフレームについての受信信号ベクトル(Xi+1 )を取得する(ステップS12)。
次に、相関行列演算部14が、受信信号ベクトル(Xi+1 )を用いて、前述した式(1)に従って、現在のフレームまでの相関行列(R(ω)i+1 )を算出し(ステップS13)、相関行列記憶部20に記憶する。
そして、固有値演算部15が、算出された相関行列を固有値分解して、最大固有値(λ(ω))を算出する(ステップS14)。また、固有ベクトル演算部16が、音声部分空間(Us (ω))と雑音部分空間(UN (ω))とを算出する(ステップS15)。
次に、MUSICスペクトル演算部17が、算出された雑音部分空間(UN (ω))と、方向ベクトル(a(θ,ω))とに基づいて、前述した式(2)に従って、MUSICスペクトル(P(θ,ω))を算出する(ステップS16)。
そして、到来方向推定部18が、算出されたMUSICスペクトルP(θ,ω)に基づいて、音声の到来方向を算出し(ステップS17)、算出された到来方向を到来方向記憶部21に記憶する。
また、ビームフォーミング部19が、フーリエ変換部13による短時間フーリエ変換結果と到来方向記憶部21に記憶された到来方向とに基づいて、各マイクによって受信された受信信号(音声信号)についてビームフォーミング処理を行い、強調された受信信号を出力する(ステップS18)。
次に、駆動部23が、上記ステップS17の処理によって算出された到来方向に移動装置3が向くように移動装置3を駆動する(ステップS19)。
また、音声認識部22が、上記ステップS18の処理によって出力された、強調された受信信号を音声認識し(ステップS20)、対話部24が、ステップS20の処理による音声認識結果に基づいて発話する。
以上から把握できるように、本発明の実施形態の特徴を述べると以下の通りである。
(付記1)音声到来方向推定・ビームフォーミングシステムであって、
移動する音源から発せられる音声を受信信号として受信する複数のマイクと、
各マイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するフーリエ変換手段と、
前記フーリエ変換手段によって取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する相関行列演算手段と、
前記相関行列演算手段によって算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出する固有値演算手段と、
前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出する固有ベクトル演算手段と、
前記固有ベクトル演算手段によって算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するMUSICスペクトル演算手段と、
前記MUSICスペクトル演算手段によって算出されたMUSICスペクトルと前記固有値演算手段によって算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定する到来方向推定手段と、
前記到来方向推定手段によって推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うビームフォーミング手段とを備える
ことを特徴とする音声到来方向推定・ビームフォーミングシステム。
(付記2)付記1に記載の音声到来方向推定・ビームフォーミングシステムにおいて、
前記MUSICスペクトル演算手段が、過去の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、前記各マイクにおける位相差を探索して、前記方向ベクトルを求める
ことを特徴とする音声到来方向推定・ビームフォーミングシステム。
(付記3)移動装置であって、
移動する音源から発せられる音声を受信信号として受信する複数のマイクと、
各マイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するフーリエ変換手段と、
前記フーリエ変換手段によって取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する相関行列演算手段と、
前記相関行列演算手段によって算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出する固有値演算手段と、
前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出する固有ベクトル演算手段と、
前記固有ベクトル演算手段によって算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するMUSICスペクトル演算手段と、
前記MUSICスペクトル演算手段によって算出されたMUSICスペクトルと前記固有値演算手段によって算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定する到来方向推定手段と、
前記到来方向推定手段によって推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うビームフォーミング手段と、
前記移動装置が前記到来方向推定手段によって推定された到来方向を向くように、前記移動装置を駆動する駆動手段とを備える
ことを特徴とする移動装置。
(付記4)音声到来方向推定・ビームフォーミング方法であって、
移動する音源から発せられる音声を受信信号として受信する複数のマイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するステップと、
前記取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出するステップと、
前記算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出するステップと、
前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出するステップと、
前記算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するステップと、
前記算出されたMUSICスペクトルと前記算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定するステップと、
前記推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うステップとを有する
ことを特徴とする音声到来方向推定・ビームフォーミング方法。
(付記5)付記4に記載の音声到来方向推定・ビームフォーミング方法において、
前記MUSICスペクトルを算出するステップは、過去の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、前記各マイクにおける位相差を探索して、前記方向ベクトルを求める
ことを特徴とする音声到来方向推定・ビームフォーミング方法。
(付記6)音声到来方向推定・ビームフォーミングプログラムであって、
コンピュータに、
移動する音源から発せられる音声を受信信号として受信する複数のマイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得する処理と、
前記取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する処理と、
前記算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出する処理と、
前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出する処理と、
前記算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出する処理と、
前記算出されたMUSICスペクトルと前記算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定する処理と、
前記推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行う処理とを実行させる
ことを特徴とする音声到来方向推定・ビームフォーミングプログラム。
(付記7)付記6に記載の音声到来方向推定・ビームフォーミングプログラムにおいて、
前記MUSICスペクトルを算出する処理は、過去の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、前記各マイクにおける位相差を探索して、前記方向ベクトルを求める
ことを特徴とする音声到来方向推定・ビームフォーミングプログラム。
以上、説明したように、本発明によれば、移動する音源から発せられる音声の到来方向をリアルタイムに推定することが可能となる。また、本発明によれば、本発明によれば、例えば移動する音源としての話者とのコミュニケーションをより円滑に行うことが可能となる。
本発明の音声到来方向推定・ビームフォーミングシステムの構成の一例を示す図である。 マイクの位置ベクトルを用いて定義される行列rを示す図である。 τm を表す式を示す図である。 音声到来方向推定・ビームフォーミングシステムの動作処理フローの一例を示す図である。 本発明の移動装置の構成の一例を示す図である。 移動装置の動作処理フローの一例を示す図である。
符号の説明
1 音声到来方向推定・ビームフォーミングシステム
2 音源
3 移動装置
11−1、11−2、11−3 マイク
12 メモリ
13 フーリエ変換部
14 相関行列演算部
15 固有値演算部
16 固有ベクトル演算部
17 MUSICスペクトル演算部
18 到来方向推定部
19 ビームフォーミング部
20 相関行列記憶部
21 到来方向記憶部
22 音声認識部
23 駆動部
24 対話部

Claims (5)

  1. 音声到来方向推定・ビームフォーミングシステムであって、
    移動する音源から発せられる音声を受信信号として受信する複数のマイクと、
    各マイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するフーリエ変換手段と、
    前記フーリエ変換手段によって取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する相関行列演算手段と、
    前記相関行列演算手段によって算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出する固有値演算手段と、
    前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出する固有ベクトル演算手段と、
    前記固有ベクトル演算手段によって算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するMUSICスペクトル演算手段と、
    前記MUSICスペクトル演算手段によって算出されたMUSICスペクトルと前記固有値演算手段によって算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定する到来方向推定手段と、
    前記到来方向推定手段によって推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うビームフォーミング手段とを備える
    ことを特徴とする音声到来方向推定・ビームフォーミングシステム。
  2. 請求項1に記載の音声到来方向推定・ビームフォーミングシステムにおいて、
    前記MUSICスペクトル演算手段が、過去の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、前記各マイクにおける位相差を探索して、前記方向ベクトルを求める
    ことを特徴とする音声到来方向推定・ビームフォーミングシステム。
  3. 移動装置であって、
    移動する音源から発せられる音声を受信信号として受信する複数のマイクと、
    各マイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するフーリエ変換手段と、
    前記フーリエ変換手段によって取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出する相関行列演算手段と、
    前記相関行列演算手段によって算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出する固有値演算手段と、
    前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出する固有ベクトル演算手段と、
    前記固有ベクトル演算手段によって算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するMUSICスペクトル演算手段と、
    前記MUSICスペクトル演算手段によって算出されたMUSICスペクトルと前記固有値演算手段によって算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定する到来方向推定手段と、
    前記到来方向推定手段によって推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うビームフォーミング手段と、
    前記移動装置が前記到来方向推定手段によって推定された到来方向を向くように、前記移動装置を駆動する駆動手段とを備える
    ことを特徴とする移動装置。
  4. 音声到来方向推定・ビームフォーミング方法であって、
    移動する音源から発せられる音声を受信信号として受信する複数のマイクが受信した受信信号を短時間フーリエ変換し、該短時間フーリエ変換結果をベクトル表示して受信信号ベクトルを取得するステップと、
    前記取得された受信信号ベクトルと所定の忘却係数とに基づいて、過去の相関行列を更新して、現在の相関行列を算出するステップと、
    前記算出された相関行列を固有値分解し、該固有値分解によって得られる固有値のうち最大の固有値を算出するステップと、
    前記固有値分解によって得られる固有値のうち、前記最大の固有値以外の固有値に対応する固有ベクトルである雑音部分空間を算出するステップと、
    前記算出された雑音部分空間と、前記各マイクのうち一つのマイクを基準としたときの各マイクにおける位相差を示す方向ベクトルとに基づいて、MUSICスペクトルを算出するステップと、
    前記算出されたMUSICスペクトルと前記算出された最大の固有値とに基づいて、前記音源から発せられる音声の到来方向を推定するステップと、
    前記推定された前記音声の到来方向と前記フーリエ変換手段による受信信号の短時間フーリエ変換結果とに基づいて、前記音声についてビームフォーミングを行うステップとを有する
    ことを特徴とする音声到来方向推定・ビームフォーミング方法。
  5. 請求項4に記載の音声到来方向推定・ビームフォーミング方法において、
    前記MUSICスペクトルを算出するステップは、過去の到来方向の値を中心とした所定の範囲の値を、各マイクにおける位相差の探索範囲として、前記各マイクにおける位相差を探索して、前記方向ベクトルを求める
    ことを特徴とする音声到来方向推定・ビームフォーミング方法。
JP2007010322A 2007-01-19 2007-01-19 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法 Withdrawn JP2008175733A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007010322A JP2008175733A (ja) 2007-01-19 2007-01-19 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007010322A JP2008175733A (ja) 2007-01-19 2007-01-19 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法

Publications (1)

Publication Number Publication Date
JP2008175733A true JP2008175733A (ja) 2008-07-31

Family

ID=39702859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007010322A Withdrawn JP2008175733A (ja) 2007-01-19 2007-01-19 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法

Country Status (1)

Country Link
JP (1) JP2008175733A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011220701A (ja) * 2010-04-05 2011-11-04 Advanced Telecommunication Research Institute International 音源定位装置及びコンピュータプログラム
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
JP2014049854A (ja) * 2012-08-30 2014-03-17 Honda Motor Co Ltd 人工可動耳装置および音源方向を特定する方法
US9318124B2 (en) 2011-04-18 2016-04-19 Sony Corporation Sound signal processing device, method, and program
JP2016125981A (ja) * 2015-01-08 2016-07-11 古野電気株式会社 信号処理装置、水中探知装置、及びレーダ装置
JP2017092732A (ja) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 聴覚支援システムおよび聴覚支援装置
JP2018189602A (ja) * 2017-05-11 2018-11-29 沖電気工業株式会社 整相器および整相処理方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011220701A (ja) * 2010-04-05 2011-11-04 Advanced Telecommunication Research Institute International 音源定位装置及びコンピュータプログラム
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US9361907B2 (en) 2011-01-18 2016-06-07 Sony Corporation Sound signal processing apparatus, sound signal processing method, and program
JP2012211768A (ja) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
US9318124B2 (en) 2011-04-18 2016-04-19 Sony Corporation Sound signal processing device, method, and program
JP2014049854A (ja) * 2012-08-30 2014-03-17 Honda Motor Co Ltd 人工可動耳装置および音源方向を特定する方法
JP2016125981A (ja) * 2015-01-08 2016-07-11 古野電気株式会社 信号処理装置、水中探知装置、及びレーダ装置
JP2017092732A (ja) * 2015-11-11 2017-05-25 株式会社国際電気通信基礎技術研究所 聴覚支援システムおよび聴覚支援装置
JP2018189602A (ja) * 2017-05-11 2018-11-29 沖電気工業株式会社 整相器および整相処理方法

Similar Documents

Publication Publication Date Title
JP6480644B1 (ja) マルチチャネル音声認識のための適応的オーディオ強化
EP3822654B1 (en) Audio recognition method, and target audio positioning method, apparatus and device
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
US10522167B1 (en) Multichannel noise cancellation using deep neural network masking
US9697826B2 (en) Processing multi-channel audio waveforms
JP2008175733A (ja) 音声到来方向推定・ビームフォーミングシステム、移動装置及び音声到来方向推定・ビームフォーミング方法
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008079256A (ja) 音響信号処理装置、音響信号処理方法及びプログラム
US10283115B2 (en) Voice processing device, voice processing method, and voice processing program
JP4812302B2 (ja) 音源方向推定システム、音源方向推定方法及び音源方向推定プログラム
CN109509465B (zh) 语音信号的处理方法、组件、设备及介质
JP2004347761A (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US9817100B2 (en) Sound source localization using phase spectrum
CN111866665B (zh) 麦克风阵列波束形成方法及装置
US11769486B2 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
US20220262342A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
US11783826B2 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
WO2023228785A1 (ja) 音響信号処理装置、音響信号処理方法及びプログラム
Yoshioka et al. A microphone array system integrating beamforming, feature enhancement, and spectral mask-based noise estimation
JP2010072164A (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
Kouhi-Jelehkaran et al. Phone-based filter parameter optimization of filter and sum robust speech recognition using likelihood maximization

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100406