JP3910898B2 - 指向性設定装置、指向性設定方法及び指向性設定プログラム - Google Patents
指向性設定装置、指向性設定方法及び指向性設定プログラム Download PDFInfo
- Publication number
- JP3910898B2 JP3910898B2 JP2002270318A JP2002270318A JP3910898B2 JP 3910898 B2 JP3910898 B2 JP 3910898B2 JP 2002270318 A JP2002270318 A JP 2002270318A JP 2002270318 A JP2002270318 A JP 2002270318A JP 3910898 B2 JP3910898 B2 JP 3910898B2
- Authority
- JP
- Japan
- Prior art keywords
- directivity
- keyword
- sound
- unit
- forming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000001514 detection method Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- GMVPRGQOIOIIMI-DODZYUBVSA-N 7-[(1R,2R,3R)-3-hydroxy-2-[(3S)-3-hydroxyoct-1-enyl]-5-oxocyclopentyl]heptanoic acid Chemical compound CCCCC[C@H](O)C=C[C@H]1[C@H](O)CC(=O)[C@@H]1CCCCCCC(O)=O GMVPRGQOIOIIMI-DODZYUBVSA-N 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
- G01S3/808—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
- G01S3/8083—Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Navigation (AREA)
Description
【発明の属する技術分野】
本発明は、複数のマイクロホンによるマイクロホンアレイを用いることで機器の指向性を形成するようにした指向性設定装置、指向性設定方法及び指向性設定プログラムに関する。
【0002】
【従来の技術】
近年、音声認識技術の性能向上に伴い、実環境における音声認識エンジンの実用化が活発になってきている。特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況において、音声認識への期待は大きい。
【0003】
音声認識処理は、マイクロフォンから取込んだ入力音声を、認識対象語彙と比較することで音声認識結果を得る。実環境下においては、種々の雑音源があることから、マイクロフォンで取込んだ音声信号には、環境雑音が混入する。音声認識処理においては、耐雑音性が認識精度に大きな影響を与える。例えば、車内で音声認識を行う場合には、車のエンジン音や、風切り音、対向車や追い越し車両の音、カーステレオの音等の多くの雑音が存在する。これらの雑音は、発声者の声に混ざって声認識装置に入力され、認識率を大きく低下させる原因となる。
【0004】
このような雑音の問題を解決する方法の一つとして、複数のマイクロフォンを用いて雑音を抑圧するマイクロフォンアレイ技術が知られている。マイクロフォンアレイ技術は、複数のマイクロフォンから入力された音声に対して信号処理を行なうことで、目的とする音声の方向に対して鋭い指向性を形成すると共に、その他の方向の感度を下げて、目的音声の強調を実現している。
【0005】
例えば非特許文献1に記載された遅延和型のマイクロフォンアレイ(遅延和アレイ)の場合には、その出力信号Se(t)は、 N 本のマイクロフォンで得られた信号 Sn(t) ( n= 1, ... , N )を、目的音声の到来方向に合わせた時間差τだけずらして加算することで得られる。つまり、強調された音声信号 Se(t)は、下記(1)式によって与えられる。
【0006】
ただし、複数のマイクロフォンは等間隔で添字 n の順で配置されているものとする。
【0007】
遅延和アレイは到来信号の位相差を利用することで目的音声の方向に指向性を形成している。つまり、遅延和アレイでは、到来信号の各マイクロフォンまでの伝搬時間差τを考慮して各マイクロフォンの入力信号に対する遅延時間を設定する。各信号に対する遅延処理によって目的音の到来方向からの音声信号(目的信号)同士の位相を同相にした後、相互に加算することで目的信号の強調を行う。一方、目的信号と異なる方向から到来した雑音については遅延処理によって位相が相互にずれることになり、雑音成分は相互に弱めあう。
【0008】
このような遅延和アレイでは、目的音声の到来方向(DOA:Direction of Arrival)に対応する時間差τをどのように推定するかが重要である。τの推定を誤ると、遅延後の目的音声同士の位相がずれてしまい、目的音自体が抑圧されてしまい、性能劣化を招来する。このように、マイクロフォンアレイの指向性を利用して雑音抑圧を行う技術においては、DOAの推定が極めて重要である。DOAの推定については、盛んに研究されており、非特許文献1に記載されているように、線形予測法、最小分散法、MUSIC法等さまざまな方法が提案されている。
【0009】
例えば、特許文献1においては、マイクロフォンアレイを用いて、話者方向を逐次検知してその方向にマイクロフォンアレイの指向性を修正することで、話者の方向を追尾し、目的信号に対する歪みを抑圧する方法も開示されている。
【0010】
しかし、例えば複数の人物が発声する場合においては、話者の方向が必ずしも目的音の到来方向であるとは限らない。例えば、複数の人物のうちの特定の人物のみが目的音を発声し、他の人物の発声は雑音であることもある。この場合には、複数の人物の内の特定の人物の方向のみが目的音の到来方向であり、特許文献1ではこの場合に対応することはできない。
【0011】
そこで、、DOAの推定を確実なものとするために、特許文献2においては、予め音源領域を設定しキーワードに対応付けて登録する手法が開示されている。即ち、特許文献2においては、予めマイクロフォンアレイに対する各話者の位置(音源領域)をキーワードと共に登録しておく。入力音声からキーワードを認識すると、話者の位置とキーワードとが登録されたテーブルを参照することで、認識したキーワードに対応する音源領域を特定し、以後、この音源領域に対して鋭い指向性に設定する。これにより、確実なDOAの検出を可能にして、音声認識精度を向上させている。
【0012】
【特許文献1】
特開平9‐9794号公報
【0013】
【特許文献2】
特開2002−34092号公報
【0014】
【非特許文献1】
「音響システムとディジタル処理」,第7章,電子情報通信学会, 1995)
【0015】
【発明が解決しようとする課題】
特許文献2の方法は、確実にDOAを設定する方法としては有効であるが、設定可能なDOA、即ち、話者の位置が予め固定されてしまう。また、固定の話者の位置をキーワードと共に登録して、記憶させておく必要もあるという問題があった。
【0016】
本発明は、指向性の方向を記憶させることなく、また、指向性の方向を自由に設定可能にすると共に、確実に目的音の到来方向に指向性を設定することができる指向性設定装置、指向性設定方法及び指向性設定プログラムを提供することを目的とする。
【0017】
【課題を解決するための手段】
本発明に係る指向性設定装置は、複数のマイクロフォンによって構成され入力音響を取込むマイクロフォンアレイと、前記入力音響に基づく音響信号から特定のキーワードを検出して前記特定のキーワードの音響信号の発生時間に基づく指向性判定期間を求める音声認識手段と、前記指向性判定期間における前記入力音響の音源方向を検出して検出結果を出力する指向性検出手段と、前記指向性検出手段の検出結果に基づいて所定の機器の指向性を形成する指向性形成手段とを具備し、前記音声認識手段は、前記指向性形成手段による指向性を形成する処理を解除するためのキーワードも認識して指向性解除信号を出力可能であり、前記指向性形成手段は、前記音声認識手段からの指向性解除信号が与えられると、前記所定の機器の指向性を解除することを特徴とする。
【0018】
本発明の請求項1において、入力音響はマイクロフォンアレイを介して取込まれる。音声認識手段は入力音響に基づく音響信号から特定のキーワードを検出して、このキーワードの音響信号の発生時間に基づいて指向性判定期間を求める。指向性検出手段は、指向性判定期間における入力音響の音源方向を検出する。この検出結果は指向性形成手段に与えられ、指向性形成手段は、検出された入力音響の音源方向に基づいて、所定の機器の指向性を形成する。
【0019】
なお、装置に係る本発明は方法に係る発明としても成立する。
【0020】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実行させるためのプログラムとしても成立する。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の第1の実施の形態に係る指向性設定装置を示すブロック図である。
【0022】
本実施の形態はマイクロフォンアレイを用いた雑音抑圧装置に適用したものであり、発話開始を表す特定のキーワードを設定し、このキーワードを音声認識することによって、キーワード自体の DOAを推定して、その方向に、ある期間だけ指向性を形成するものである。これにより、発話可能な複数の人物のうち、キーワードを発した特定の人物の音声のみを強調すると共に他の到来方向の雑音を抑圧する音響処理が可能である。即ち、発話位置やユーザーを限定することなく、不特定多数の人物が任意の位置から発声した場合でも、確実にDOAを検出することができる。
【0023】
図1において、複数のマイクロフォン101-1〜101-Nは、相互に所定の間隔だけ離間した位置に配置されて、音響信号を取込むマイクロフォンアレイを構成する。複数のマイクロフォン101-1〜101-Nに取込まれた音響信号は、指向性制御部201及び指向性形成部203に供給される。また、複数のマイクロフォン101-1〜101-Nのうちの任意の1つのマイクロフォン(図1の例ではマイクロフォン101-1)からの音響信号は認識部300に供給されている。
【0024】
認識部300は、入力音響信号に対する音声認識処理が可能であり、予め設定された所定のキーワードの音響がマイクロフォン101-1を介して入力されたことを検出することができる。認識部30は、キーワードの音声入力を検出すると、検出結果を指向性制御部201又は指向性形成部300に出力するようになっている。
【0025】
例えば、認識部300は、入力音響を一定時間間隔(フレーム)毎に音響分析し、分析結果としてケプストラムやパワスペクトル等の音声特徴量の時系列及び音声の開始時刻、終了時刻を得る。認識部300は、所定のキーワードが登録されている図示しないキーワード格納部を有している。認識部300は、分析結果の特徴量とキーワード格納部に登録されている単語の特徴量パターンとの間でパターンマッチングを行って、両者の一致不一致を判定する。
【0026】
認識部300は、キーワードに相当するフレーム、即ち、発話期間を示す信号を指向性判定期間として指向性制御部201に出力することができるようになっている。なお、認識部300は、キーワードの発話期間のうち入力音響レベルが所定レベル以上の期間のみを指向性判定期間として指定することもできる。更に、認識部300は、キーワードの発話期間よりも所定期間だけ長い期間又は短い期間を指向性判定期間として指定するようにしてもよい。
【0027】
なお、所定のキーワードとしては、発話開始を表すキーワードや発話終了を表すキーワード等が登録されている。認識部300は、発話開始を表すキーワードを検出すると指向性判定期間を指向性制御部201に出力し、発話終了を表すキーワードを検出すると検出結果(指向性解除信号)を指向性形成部203に出力する。
【0028】
指向性制御部201は、複数のマイクロフォン101-1〜101-Nに入力された音響信号から入力音響の到来方向を逐次検出して、入力音響の到来方向を示す方向データを出力する。例えば、指向性制御部201は、フレーム毎に、入力音響の到来方向を検出し、検出結果を逐次指向性記憶部202に出力する。
【0029】
指向性記憶部202は、入力音響の到来方向を示す方向データを逐次記憶するようになっている。指向性記憶部202は、例えばキーワードの発話時間よりも長い時間分、少なくとも指向性判定期間よりも長い時間分の方向データを記憶する記憶容量を有している。
【0030】
指向性制御部201は、指向性記憶部202に方向データを出力して記憶させると共に、指向性記憶部202に蓄積されている方向データを読み出すことができる。指向性制御部201は、認識部300から指向性判定期間を示す信号が与えられると、指向性判定期間に相当する期間の1つ以上の方向データを指向性記憶部202から読み出し、読み出した方向データを用いた例えば平均値処理又は最頻値処理等によって、指向性判定期間における入力音響の到来方向を求める。即ち、指向性制御部201は、キーワードの発話者に対するマイクロフォンアレイからの方向を求める。
【0031】
指向性制御部201は、指向性判定期間における入力音響の到来方向の算出結果を到来方向設定信号として指向性形成部203に出力するようになっている。指向性形成部203は、複数のマイクロフォン101-1〜101-Nからの音響信号が入力され、指向性制御部201からの到来方向設定信号に基づいて、入力された音響信号の指向特性を設定するようになっている。
【0032】
例えば、指向性形成部203は、各マイクロフォン101-1〜101-Nの設置位置及び到来方向設定信号によって指定された到来方向に基づく遅延量で各マイクロフォン101-1〜101-Nからの音響信号を遅延させ、各遅延信号同士を加算することで、所望の方向に狭指向性を有する音響信号を得る。即ち、目的音の到来方向の感度は著しく高く、その他の方向の感度は著しく低い処理音を出力する。
【0033】
また、指向性形成部203は、認識部300から発話終了を示すキーワードを検出したことを示す信号(指向性解除信号)が与えられると、指向性形成処理を停止して、指向性を広指向性(無指向性)に戻すようになっている。なお、指向性形成部203は、発話終了を示すキーワードの検出結果によって指向性形成処理を終了させたが、発話の開始から予め設定された所定時間後に自動的に指向性形成処理を終了するようにしてもよい。
【0034】
なお、指向性記憶部202は、逐次入力される方向データを記憶するものとして説明したが、指向性制御部201において指向性判定期間における入力音響の到来方向の算出を可能にするデータを記憶させればよく、例えば、到来した音響信号そのものの波形データを記憶するようにしてもよい。この場合には、指向性制御部201は、指向性判定期間が指示された直後に、指向性記憶部202からの波形データを読み出して、指向性判定期間における入力音響の到来方向を求めればよい。
【0035】
次に、このように構成された実施の形態の動作について図2のフローチャートを参照して説明する。
【0036】
いま、例えば、異なる任意の位置の複数の発話者が1台の音声認識装置を利用したアプリケーションを使用するものとする。この場合には、複数の発話者からの音声を図1の指向性設定装置のマイクロフォン101-1〜101-Nから取込み、指向性形成部203からの処理音を音声認識装置に供給する。
【0037】
図2のステップS1 は発話者からの音声入力の待機状態を示している。マイクロフォン101-1〜101-Nは音響入力を取込み、指向性制御部201に供給する。また、マイクロフォン101-1を介して取込まれた音響入力は認識部300に供給される。なお、マイクロフォン101-1〜101-Nには目的音の他に雑音も混入した音響信号が入力される。音声認識装置に対して複数の発話者が同時に発話する場合等においては、所定の1人以外の発話者からの音声も雑音となる。
【0038】
指向性制御部201は、入力音響に対して、逐次その到来方向を検出する。指向性制御部201が検出した入力音響の到来方向は方向データとして逐次指向性記憶部202に供給されて記憶される(ステップS2 )。なお、この場合には、雑音を含む目的音についての到来方向が検出される。
【0039】
一方、認識部300は、マイクロフォン101-1から入力される音響信号から発話開始を示すキーワードを認識する。例えば、発話開始を示すキーワードとして「カイシ」という語句が設定されているものとする。ここで、全ての発話者のうちの所定の発話者が「カイシ」という語句を発声するものとする。この音声はマイクロフォン101-1を介して取込まれて認識部300に供給される。認識部300は、逐次入力される音響に対する所定の音声認識処理によって、「カイシ」の語句が発声されたことを検出する。そうすると、指向性制御部201は、この「カイシ」の語句の発話期間に基づく指向性判定期間を設定して指向性制御部201に出力する。
【0040】
指向性制御部201は、指向性判定期間を示す信号が入力されると、指向性判定期間に相当する期間の方向データを指向性記憶部202から読み出す。例えば、指向性制御部201は、複数の方向データの最頻値によって、指向性判定期間における入力音響(目的音)の到来方向、即ち、所定の発話者(以下、特定発話者という)の方向を決定する(ステップS4 )。指向性制御部201はキーワードの到来方向を示す到来方向設定信号を指向性形成部203に出力する。
【0041】
指向性形成部203は、到来方向設定信号が入力されると、マイクロフォン101-1〜101-Nを介して入力された音響信号に対する指向特性を、到来方向設定信号に基づいて設定する。これにより、以後、指向性形成部203は、キーワードを発声した特定発話者方向(到来方向)に狭指向性で高い感度を有する指向特性を入力音響に付与した処理音を出力する(ステップS5 )。
【0042】
従って、例えば、複数の発話者のうちの特定発話者が「カイシ」を発声して、この「カイシ」が認識部300においてキーワードとして認識された場合には、以後、特定発話者以外の方向の他の発話者が発話をしている場合でも、或いは、特定発話者以外の方向から雑音が発生している場合であっても、特定発話者の発声のみが強調されて処理音として音声認識装置に供給されることになる。これにより、以後、特定発話者の音声認識精度を著しく向上させることができる。
【0043】
ここで、発話の終了を示すキーワードとして、例えば「シュウリョウ」が設定されているものとする。マイクロフォン101-1を介して「シュウリョウ」の音響が認識部300に入力されると、認識部300は、「シュウリョウ」をキーワードとして認識する。そうすると、認識部300は、指向性形成部203に指向性形成処理の終了を指示するための指向性解除信号を出力する。これにより、指向性形成部203は入力音響に対する指向特性の付与を終了する。
【0044】
このように、本実施の形態においては、発話者の数や位置とは無関係の1つのキーワードによって発話開始を指示することで、キーワードの発話者の方向を発声されたキーワードによって検出している。これにより、以後、キーワードの特定発話者方向に狭指向性を有する指向特性を設定した処理音を発生している。従って、指向性を形成可能な発話者の位置が固定されてしまうことはなく、また、予め発話者の位置を登録しておく必要もなく、更に、発話者の位置や数に制限を受けることもなく、一旦発話開始のキーワードを発声してこのキーワードが認識されると、以後、確実に所定の期間、又は発話終了のキーワードが発声されるまで、特定発話者方向からの音声を強調することができ、特定発話者が発生する音声の音声認識精度を著しく向上させることができる。
【0045】
図3は本発明の第2の実施の形態に係る指向性設定装置を示すブロック図である。図3において図1と同一の構成要素には同一符号を付して説明を省略する。
【0046】
本実施の形態はキーワードの到来方向によってカメラの視野方向を制御するようにしたものである。本実施の形態は指向性形成部203に代えてカメラ駆動制御部211を設けた点が第1の実施の形態と異なる。
【0047】
本実施の形態においては、図示しない複数の発話者方向を撮影可能なカメラが図示しない支持台上に配置されている。そして、支持台は図示しない駆動部によって水平方向の向き及び垂直方向の角度を自由に変更することができるようになっている。カメラ駆動制御部211は、カメラ駆動信号を駆動部に出力することにより、カメラ支持台の水平及び垂直方向の向きを制御することができるようになっている。
【0048】
本実施の形態においては、カメラ駆動制御部211は、指向性制御部201からの到来方向設定信号に基づいて、カメラ支持台の向きを制御するカメラ駆動信号を出力するようになっている。これにより、カメラは目的音の到来方向を撮影することができるようになっている。即ち、カメラ駆動制御部211は、特定発話者のキーワード発声によって、カメラの視野方向を特定発話者に向ける指向性形成処理を実行する。
【0049】
また、指向性形成部203は、認識部300から発話終了(指向性解除)を示すキーワードを検出したことを示す信号が与えられると、指向性形成処理を停止して、カメラの視野方向を所定の初期方向に戻すようになっている。なお、指向性形成部203は、発話終了を示すキーワードの検出結果によってカメラの視野方向を特定発話者方向に向ける指向性形成処理を終了させたが、発話の開始から予め設定された所定時間後に自動的に指向性形成処理を終了させてカメラの視野方向を所定の初期方向に戻すようにしてもよい。
【0050】
このように構成された実施の形態においては、全発話者中の所定の発話者(特定発話者)が、発話(指向性設定)の開始を示すキーワードを発声し、認識部300によってキーワードの発声が検出されると、以後、所定期間又は発話終了(指向性解除)のキーワードが認識されるまで、カメラの視野方向が特定発話者に自動的に向いて、特定発話者を撮影することが可能となる。
【0051】
なお、本実施の形態においては、カメラ駆動制御部211は、カメラの視野方向を特定発話者に向けるようにしたが、特定発話者の方向と所定の方向関係を有する方向に視野方向を向けるように設定することも可能である。
【0052】
また、第1及び第2の実施の形態を組み合わせることによって、到来方向設定信号に基づいて、マイクロフォン101-1〜101-Nからの入力音響に対して特定発話者方向に狭指向性を有する指向性を形成すると同時に、カメラに特定発話者方向を撮影させるようにすることができることは明らかである。
【0053】
図4は本発明の第3の実施の形態に係る指向性設定装置を示すブロック図である。図4において図1と同一の構成要素には同一符号を付して説明を省略する。
【0054】
本実施の形態は認識部300に指向性形成部203からの処理音を供給するようにした点が第1の実施の形態と異なる。
【0055】
本実施の形態においては、初期状態において、例えば指向性形成部203は、広指向性又は無指向性に設定する。これにより、マイクロフォン101-1〜101-Nからの入力音響は、単に合成されて認識部300に供給される。
【0056】
このように構成された実施の形態においては、マイクロフォン101-1〜101-Nによるマイクロフォンアレイからの入力音響に対してキーワードの検出処理を行っており、キーワードの検出結果の精度を向上させることができる。
【0057】
また、初期状態において、指向性形成部203の指向性を所定の方向に指向させることも可能である。この場合には、キーワードの検出を可能とする発話者、即ち、特定発話者を限定することも可能である。
【0058】
また、第1の実施の形態においては、認識部300にはマイクロフォン101-1からの音響のみを供給した。このため、発話の終了を示すキーワードを特定発話者方向以外に位置する発話者が発声した場合でも、指向性形成部203による指向性形成処理が終了する。これに対し、本実施の形態においては、認識部300に、指向性形成部203からの処理音を供給していることから、一旦特定発話者が決定すると、以後、特定発話者又は特定発話者方向に位置する発話者が「シュウリョウ」と発声した場合にのみ、このキーワードが認識可能となって、指向性形成処理を終了させることができる。これにより、音声認識装置を用いたアプリケーションの誤動作の可能性を低減することができる。
【0059】
図5は本発明の第4の実施の形態に係る指向性設定装置を示すブロック図である。図5において図1と同一の構成要素には同一符号を付して説明を省略する。
【0060】
本実施の形態は目的音の到来方向の検出を、複数回実行することにより検出精度を向上させるようにしたものである。指向性制御部205は、図1における指向性制御部201と同様に、複数のマイクロフォン101-1〜101-Nに入力された音響信号から入力音響の到来方向を逐次検出して、入力音響の到来方向を示す方向データを指向性記憶部202に記憶させることができる。
【0061】
更に、本実施の形態においては、指向性制御部205は、認識部300からの指向性判定期間とは異なる期間の方向データを指向性記憶部202から読み出して、到来方向設定信号を修正することができるようになっている。
【0062】
更に、本実施の形態においては、指向性制御部205は、マイクロフォン101-1〜101-Nからの入力音響をそのまま指向性記憶部202に与えて記憶させることもできるようになっている。この場合には、指向性制御部205は、2回目の到来方向算出時には、指向性記憶部202に記憶されている波形データを読み出して、到来方向の検出演算を再実行するようになっている。2回目以降の到来方向の算出演算時には、指向性制御部205は、1回目の到来方向算出演算よりも高い精度での演算を実行するようになっている。
【0063】
なお、指向性記憶部202は保持しているデータを指向性形成部203に供給することができるようになっている。指向性形成部203は、2回目以降の到来方向の算出演算時には、指向性記憶部202からのデータに対して指向性を形成した処理音を認識部300に供給することができるようになっている。これにより、到来方向の算出演算時に基準となる音声認識結果の情報を2回目以降の到来方向算出演算時にも得られるようになっている。
【0064】
1回目の到来方向の算出演算は、目的音の到来方向として検出すべき方向範囲を大きく設定する必要がある。従って、指向性制御部205による到来方向の算出演算は比較的粗い精度で実施される。これに対し、2回目以降の到来方向の算出演算は、1回目の到来方向算出演算によってある程度検出すべき方向範囲が限定されていることから、算出演算を比較的高精度に実施することができる。このように、指向性制御部205は、複数回到来方向の算出演算を実施することで、一層高精度に到来方向を求めることができる。
【0065】
次に、このように構成された実施の形態の動作について説明する。
【0066】
認識部300は、マイクロフォン101-1からの入力音響を用いて、キーワードの検出を行う。認識部300はキーワードを検出すると、発話期間に基づく指向性判定期間を設定して指向性制御部205に指示する。指向性制御部205は、認識部300からの指向性判定期間の指示に従って、指向性記憶部202に記憶されている方向データ又は波形データから目的音の到来方向を算出する。指向性制御部205は求めた到来方向を示す到来方向設定信号を指向性形成部203に出力する。こうして、指向性形成部203からはキーワードの特定発話者に指向性を有する処理音が出力される。
【0067】
更に、本実施の形態においては、指向性制御部205は、指向性記憶部202に記憶されている方向データ又は波形データを用いて、複数回の到来方向算出演算を実行することができる。例えば、キーワードの発話期間の開始時間近傍及び終了時間近傍においてノイズレベルが高い場合でも、指向性を制御する動作と、その指向性により得られた信号を認識する動作を繰返すことで、雑音を除去し音声のみを取り出せるため、キーワードに対するより正確な発声区間が得られ、到来方向算出演算がキーワードの前後に発声した雑音の影響を受けにくくなり、到来方向算出演算の精度を向上させることができる。
【0068】
また、指向性制御部205は、指向性記憶部202に記憶されている波形データ読み出して、1回目の到来方向算出時に求めた到来方向近傍の比較的狭い方向範囲について、到来方向の算出を行う。これにより、到来方向算出演算の精度を向上させることができる。
【0069】
指向性制御部205は複数回の到来方向算出演算によって求めた到来方向を示す到来方向設定信号を指向性形成部203に出力する。これにより、指向性形成部203は目的音の到来方向として一層高い精度の狭指向性を設定することができる。
【0070】
このように、本実施の形態においては、1回の到来方向算出演算の演算結果を利用して2回目以降の到来方向算出演算を実行しており、到来方向を一層高精度に検出することが可能である。
【0071】
また、本実施の形態においては、2回目以降の到来方向算出演算において、指向性記憶部202内のデータ、即ち、キーワードを用いた演算を行っている。これに対し、発話者が新たに発話した音響信号に基づいて、2回目以降の到来方向算出演算を実施するようにしてもよい。この場合には、指向性記憶部202内にデータを記憶させておく必要はないが、認識部300において、キーワード以外の音声認識が必要である。
【0072】
図6は本発明の第5の実施の形態に係る指向性設定装置を示すブロック図である。図6において図1と同一の構成要素には同一符号を付して説明を省略する。
【0073】
第1の実施の形態においてはキーワードを発話する1人の特定発話者のみに指向性を形成するようにした。これに対し、本実施の形態においては、キーワードを発話する複数の特定発話者に対して夫々指向性を形成可能にしたものである。
【0074】
本実施の形態においては、複数の指向性形成部203-1〜203-Nを設けた点が第1の実施の形態と異なる。指向性形成部203-1〜203-Nは、指向性形成部203と同様の構成であり、指向生成制御部201から夫々到来方向設定信号が与えられて、入力された到来方向設定信号に基づいて入力音響の指向性を相互に独立して設定するようになっている。
【0075】
次に、このように構成された実施の形態の動作について説明する。
【0076】
いま、複数の発話者のうち第1の発話者が発話の開始を示すキーワードを発声するものとする。認識部300はこのキーワードを検出して指向性判定期間を指向性制御部201に指示する。これにより、指向性制御部201は、指向性判定期間に相当する期間分の方向データを読み出して、キーワードを発話した第1の発話者(以下、第1の特定発話者)による目的音の到来方向を検出する。この到来方向を示す到来方向設定信号は例えば指向性形成部203-1に供給される。これにより、指向性形成部203-1は、第1の特定発話者方向に狭指向性を有する指向性を形成する。こうして、指向性形成部203-1からの処理音は、第1の特定発話者が発声する音声を強調したものとなる。
【0077】
この状態で、更に、第2の発話者が発話の開始を示すキーワードを発声するものとする。認識部300はこのキーワードを検出して指向性判定期間を指向性制御部201に指示する。この場合にも同様に、指向性制御部201は、指向性判定期間に相当する期間分の方向データを読み出してキーワードを発話した第2の発話者(以下、第2の特定発話者)による目的音の到来方向を検出する。この場合には、指向性制御部201は、到来方向を示す到来方向設定信号を例えば指向性形成部203-2に供給される。これにより、指向性形成部203-2は、第2の特定発話者方向に狭指向性を有する指向性を形成する。こうして、指向性形成部203-2からの処理音は、第2の特定発話者が発声する音声を強調したものとなる。
【0078】
このように、本実施の形態においては、複数の指向性形成部を設けることによって、複数の特定発話者方向に同時に指向性を形成することが可能となり、複数の特定発話者が発声した音声を高精度に音声認識処理することを可能にしている。
【0079】
ところで、第5の実施の形態においては、指向性形成部を複数設ける必要があり、装置規模が増大する。そこで、1個の指向性形成部によって逐次指向性を切換えるようにしてもよい。例えば、指向性制御部201において、キーワードの検出によって到来方向を求めた場合には、前の指向性形成処理が終了した後に、求めた到来方向に基づく到来方向設定信号を指向性形成部に与えるのである。これにより、1人の特定発話者方向の指向性形成処理が終了した後に、次の特定発話者方向に対する指向性形成処理が実行されることになり、計算量を増大させることなく、各特定発話者の音声認識処理精度を向上させることができる。
【0080】
図7は本発明の第6の実施の形態を説明するための説明図である。本実施の形態は指向性設定装置を車載機器の制御に適用したものである。
【0081】
図7において、車内400には、運転席411及び助手席412が配設されており、運転席411及び助手席412には夫々運転手401及び同乗者402が座っている。車内400の前方の例えば図示しないダッシュボード内には、図示しない車載機器、例えばエアコンの制御部が設置されている。車載機器は音声認識部403の認識結果に応じて動作が制御されるようになっている。
【0082】
そして、音声認識部403には第1、第3乃至第5の実施の形態における指向性設定装置、例えば、第3の実施の形態における指向性設計装置404からの処理音が供給されるようになっている。
【0083】
次に、このように構成された実施の形態の動作について図8を参照して説明する。図8は第6の実施の形態の処理を説明するための説明図である。図8は運転手401と同乗者402の一連の会話と、それに対応する指向性設定装置404と音声認識部403(図8中では指向性設定装置404内の認識部を含む)の動作を時系列で示したものである。なお、図8中、−印は認識不可の状態を示している。
【0084】
なお、指向性設定装置404においては、発話の開始を示すキーワードとして「カーナビ君」が登録され、発話の終了(図8中の指向性解除コマンド)を示すキーワードとして「ありがとう」が登録されているものとする。
【0085】
初期状態では、指向性設定装置404は全方位の指向性(無指向性)に設定されており、音声認識部403は運転手401及び同乗者402のいずれからも発話開始のキーワードを受け付ける状態となっている。
【0086】
ここで、運転手401が「暑い」と発声するものとする。この発話は、指向性設定装置404内の全方位に設定されているマイクロフォンアレイ(マイクロフォン101-1〜101-N(図3参照))を介して抑圧されることなく認識部300(図3参照)に供給される。認識部300は発声された単語「暑い」とキーワード「カーナビ君」とを照合する。「暑い」はキーワードと一致しないので、この音声認識結果は認識部300においてリジェクトされる。
【0087】
次に運転手401が「カーナビ君」と発声するものとする。この発声は、全方位の指向性を有するマイクロフォンアレイを介して認識部300に供給される。認識部300は、運転手401が発声した「カーナビ君」が発話の開始を示すキーワードであることを検出すると、発話期間に基づく指向性判定期間を設定して、指向性制御部201に指示する。
【0088】
指向性制御部201は、指向性記憶部202に記憶されている方向データを用いて、運転手401の方向を目的音の到来方向として検出する。指向性形成部203は指向性制御部201からの到来方向設定信号に基づいて運転手401方向に狭指向性を形成する。これにより、以後、運転手401方向からの音響が強調されて、指向性設定装置404から音声認識部403に供給される。
【0089】
ここで、運転手401が「温度を下げて」と発話するものとする。運転手401方向からの音響は強調された高品質の処理音として音声認識部403に供給されており、音声認識部403は、運転手401が発話した「温度を下げて」を正確に音声認識する。この音声認識結果は図示しない車載機器に転送されて、車載機器において各種制御が実行される。例えば、この場合には、車載機器であるエアコンの選定温度が下げられる。
【0090】
次に、車内400の温度が低下したことによって、同乗者402が「寒い」と発声するものとする。しかし、この時点では、マイクロフォンアレイの指向性は運転手401に対して狭指向性に設定されており、同乗者402の発声は十分に抑圧されて音声認識部403に供給される。この場合には、「寒い」の処理音が十分に抑圧されていることから、音声認識部403は「寒い」を音声認識することなく、車載機器において、「寒い」に基づく制御が実行されることはない。
【0091】
また、同様に、同乗者402が温度を上げるためのコマンドである「温度上げて」と発声した場合でも、運転手401に対して狭指向性が設定されており、同乗者402の発声は十分に抑圧されて音声認識部403に供給される。従って、この場合にも、同乗者402の発声に応じて車載機器の動作が制御されることはない。
【0092】
次に、運転手401がマイクロフォンアレイの指向性を解除するコマンド「ありがとう」を発声するものとする。そうすると、指向性設定装置404内の認識部300は指向性形成部203の指向性を全方位に戻す。これにより、認識部300は全方位からのキーワード受け付け状態に復帰する。
【0093】
ここで、同乗者402が「カーナビ君」と発声するものとする。そうすると、マイクロフォンアレイの指向性が今度は同乗者402の方に向き、音声認識部403は同乗者402に対してコマンド受け付け状態となる。更に、同乗者402が、コマンド「温度下げて」を発話すると、同乗者402からの音声は指向性設定装置404によって強調されて音声認識部403に供給され、車載機器のエアコンが制御されて温度を下げることができる。
【0094】
この場合には、運転手401が「暑い」と発話しても、同乗者402方向の狭指向性が設定されているので、音声認識部403には運転手401からのコマンド「暑い」は伝達されない。同様に、認識部300には指向性が形成された処理音が供給されており、運転手401が指向性を解除するコマンド「ありがとう」を発声しても、マイクロフォンアレイによって抑圧されて音声認識部403には伝達されず、発話の権限を同乗者402から奪うことはできない。
【0095】
このように、本実施の形態によれば、発話開始のキーワードを発声した人にマイクロフォンアレイの指向性を向けることにより、周囲の雑音のみならず、同乗者の話し声も抑圧し、特定発話者の発声のみを正確に伝えることが可能である。また、一度形成された指向性を解除するキーワード(本実施の形態では「ありがとう」)を設定することにより、発話の権限を任意のタイミングで別の人に移すことが可能になる。
【0096】
なお、図1の第1の実施の形態による指向性設定装置を採用した場合には、例えば運転手401に狭指向性が形成されている場合において、指向性を解除するキーワードを用いずに、同乗者402からの発話開始のキーワードにより、新たな同乗者402に対して指向性形成処理を実施することができることは明らかである。
【0097】
更に、図6の第5の実施の形態による指向性設定装置を採用することにより、発話開始のキーワードを発声した発話者方向に対して個別に指向性を形成することができ、2つの指向性形成部によって、運転手401の声と同乗者402の声とを分離して音声認識部403に伝達することができる。なお、この場合において、車載装置側で同時処理が困難な場合は、例えば運転手401に狭指向性が形成されている場合において、同乗者402の発話開始のキーワードにより、運転手401に対する処理を止めるか、問い合わせを行い、どちらに指向性を形成するかを選択する等の調停が必要になる。
【0098】
なお、上記各実施の形態においては、指向性設定装置内の認識部と音声認識装置とは別の装置であるものとして説明したが、音声認識装置の認識エンジンを指向性設定装置内の認識部として利用することができることは明らかである。
【0099】
【発明の効果】
以上説明したように本発明によれば、指向性の方向を記憶させることなく、また、指向性の方向を自由に設定可能にすると共に、確実に目的音の到来方向に指向性を設定することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る指向性設定装置を示すブロック図。
【図2】第1の実施の形態の動作を説明するためのフローチャート。
【図3】本発明の第2の実施の形態に係る指向性設定装置を示すブロック図。
【図4】本発明の第3の実施の形態に係る指向性設定装置を示すブロック図。
【図5】本発明の第4の実施の形態に係る指向性設定装置を示すブロック図。
【図6】本発明の第5の実施の形態に係る指向性設定装置を示すブロック図。
【図7】本発明の第6の実施の形態を説明するための説明図。
【図8】第6の実施の形態の処理を説明するための説明図。
【符号の説明】
101-1〜101-N…マイクロフォン、201…指向性制御部、202…指向性記憶部、203…指向性形成部、300…認識部。
Claims (4)
- 複数のマイクロフォンによって構成され入力音響を取込むマイクロフォンアレイと、
前記入力音響に基づく音響信号から特定のキーワードを検出して前記特定のキーワードの音響信号の発生時間に基づく指向性判定期間を求める音声認識手段と、
前記指向性判定期間における前記入力音響の音源方向を検出して検出結果を出力する指向性検出手段と、
前記指向性検出手段の検出結果に基づいて所定の機器の指向性を形成する指向性形成手段とを具備し、
前記音声認識手段は、前記指向性形成手段による指向性を形成する処理を解除するためのキーワードも認識して指向性解除信号を出力可能であり、
前記指向性形成手段は、前記音声認識手段からの指向性解除信号が与えられると、前記所定の機器の指向性を解除することを特徴とする指向性設定装置。 - 前記指向性形成手段は、前記指向性解除信号の入力前に前記指向性検出手段の検出結果が与えられた場合には、前記指向性検出手段の検出結果を記憶し、前記指向性解除信号の入力後に記憶した前記指向性検出手段の検出結果に基づいて所定の機器の指向性を形成することを特徴とする請求項1に記載の指向性設定装置。
- 複数のマイクロフォンによって構成され入力音響を取込むマイクロフォンアレイと、
前記入力音響に基づく音響信号から特定のキーワードを検出して前記特定のキーワードの音響信号の発生時間に基づく指向性判定期間を求める音声認識手段と、
前記指向性判定期間における前記入力音響の音源方向を検出して検出結果を出力する指向性検出手段と、
前記指向性検出手段の検出結果に基づいて所定の機器の指向性を形成する指向性形成手段とを具備し、
前記指向性検出手段は、前記入力音響の音源方向の検出を複数回繰返すものであって、1回目の前記入力音響の音源方向の検出結果に基づいて前記指向性形成手段が指向性を形成した前記マイクロフォンアレイの出力を前記音声認識手段に与えることで、前記特定のキーワード以外の音声を用いて前記入力音響の音源方向の2回目以降の検出を実施することを特徴とする指向性設定装置。 - 前記指向性形成手段は、カメラの視野方向を設定するものであることを特徴する請求項1に記載の指向性設定装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002270318A JP3910898B2 (ja) | 2002-09-17 | 2002-09-17 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
US10/662,294 US7680287B2 (en) | 2002-09-17 | 2003-09-16 | Directional setting apparatus, directional setting system, directional setting method and directional setting program |
EP03255840A EP1400814B1 (en) | 2002-09-17 | 2003-09-17 | Directional setting apparatus, directional setting system, directional setting method and directional setting program |
DE60327494T DE60327494D1 (de) | 2002-09-17 | 2003-09-17 | Vorrichtung, System, Verfahren und Programm zur Richtungseinstellung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002270318A JP3910898B2 (ja) | 2002-09-17 | 2002-09-17 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004109361A JP2004109361A (ja) | 2004-04-08 |
JP3910898B2 true JP3910898B2 (ja) | 2007-04-25 |
Family
ID=31944529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002270318A Expired - Fee Related JP3910898B2 (ja) | 2002-09-17 | 2002-09-17 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7680287B2 (ja) |
EP (1) | EP1400814B1 (ja) |
JP (1) | JP3910898B2 (ja) |
DE (1) | DE60327494D1 (ja) |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101034524B1 (ko) * | 2002-10-23 | 2011-05-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법 |
GB2394589B (en) * | 2002-10-25 | 2005-05-25 | Motorola Inc | Speech recognition device and method |
GB0426448D0 (en) * | 2004-12-02 | 2005-01-05 | Koninkl Philips Electronics Nv | Position sensing using loudspeakers as microphones |
DE602005008005D1 (de) * | 2005-02-23 | 2008-08-21 | Harman Becker Automotive Sys | Spracherkennungssytem in einem Kraftfahrzeug |
WO2006097975A1 (ja) * | 2005-03-11 | 2006-09-21 | Gifu Service Co., Ltd. | 音声認識プログラム |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
JP4799443B2 (ja) * | 2007-02-21 | 2011-10-26 | 株式会社東芝 | 受音装置及びその方法 |
US20080273683A1 (en) * | 2007-05-02 | 2008-11-06 | Menachem Cohen | Device method and system for teleconferencing |
EP2246846B1 (de) * | 2009-04-29 | 2018-06-06 | Deutsche Telekom AG | Schattenfilter-System für quasi-unterbestimmte blinde adaptive MIMO-Filterung |
US20100295782A1 (en) | 2009-05-21 | 2010-11-25 | Yehuda Binder | System and method for control based on face ore hand gesture detection |
CN102428716B (zh) * | 2009-06-17 | 2014-07-30 | 松下电器产业株式会社 | 助听器装置 |
JP5201093B2 (ja) * | 2009-06-26 | 2013-06-05 | 株式会社ニコン | 撮像装置 |
US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
US9100734B2 (en) | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
JP4945675B2 (ja) | 2010-11-12 | 2012-06-06 | 株式会社東芝 | 音響信号処理装置、テレビジョン装置及びプログラム |
EP2509337B1 (en) * | 2011-04-06 | 2014-09-24 | Sony Ericsson Mobile Communications AB | Accelerometer vector controlled noise cancelling method |
US9031259B2 (en) * | 2011-09-15 | 2015-05-12 | JVC Kenwood Corporation | Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method |
JP2015513704A (ja) | 2012-03-16 | 2015-05-14 | ニュアンス コミュニケーションズ, インコーポレイテッド | ユーザ専用自動発話認識 |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
KR101987966B1 (ko) * | 2012-09-03 | 2019-06-11 | 현대모비스 주식회사 | 차량용 어레이 마이크의 음성 인식 향상 시스템 및 그 방법 |
JP6148163B2 (ja) * | 2013-11-29 | 2017-06-14 | 本田技研工業株式会社 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
US10182280B2 (en) | 2014-04-23 | 2019-01-15 | Panasonic Intellectual Property Management Co., Ltd. | Sound processing apparatus, sound processing system and sound processing method |
WO2015162645A1 (ja) * | 2014-04-25 | 2015-10-29 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理システム、及び音声処理方法 |
JP2016126022A (ja) * | 2014-12-26 | 2016-07-11 | アイシン精機株式会社 | 音声処理装置 |
JP6678315B2 (ja) * | 2015-04-24 | 2020-04-08 | パナソニックIpマネジメント株式会社 | 音声再生方法、音声対話装置及び音声対話プログラム |
KR102444061B1 (ko) | 2015-11-02 | 2022-09-16 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
JP6584930B2 (ja) * | 2015-11-17 | 2019-10-02 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
EP3434024B1 (en) * | 2016-04-21 | 2023-08-02 | Hewlett-Packard Development Company, L.P. | Electronic device microphone listening modes |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
KR102515996B1 (ko) | 2016-08-26 | 2023-03-31 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 그 제어 방법 |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10210863B2 (en) * | 2016-11-02 | 2019-02-19 | Roku, Inc. | Reception of audio commands |
CN106910500B (zh) * | 2016-12-23 | 2020-04-17 | 北京小鸟听听科技有限公司 | 对带麦克风阵列的设备进行语音控制的方法及设备 |
US20180218747A1 (en) * | 2017-01-28 | 2018-08-02 | Bose Corporation | Audio Device Filter Modification |
JP2018129678A (ja) * | 2017-02-08 | 2018-08-16 | レノボ・シンガポール・プライベート・リミテッド | 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム |
US10510362B2 (en) * | 2017-03-31 | 2019-12-17 | Bose Corporation | Directional capture of audio based on voice-activity detection |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
JP6969597B2 (ja) * | 2017-07-31 | 2021-11-24 | 日本電信電話株式会社 | 音響信号処理装置、方法及びプログラム |
JP6653687B2 (ja) * | 2017-07-31 | 2020-02-26 | 日本電信電話株式会社 | 音響信号処理装置、方法及びプログラム |
JP6633579B2 (ja) * | 2017-07-31 | 2020-01-22 | 日本電信電話株式会社 | 音響信号処理装置、方法及びプログラム |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10455322B2 (en) | 2017-08-18 | 2019-10-22 | Roku, Inc. | Remote control with presence sensor |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US10777197B2 (en) | 2017-08-28 | 2020-09-15 | Roku, Inc. | Audio responsive device with play/stop and tell me something buttons |
JP6711789B2 (ja) * | 2017-08-30 | 2020-06-17 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
JP6853163B2 (ja) * | 2017-11-27 | 2021-03-31 | 日本電信電話株式会社 | 話者方向推定装置、話者方向推定方法、およびプログラム |
WO2019142418A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
CN108597507A (zh) * | 2018-03-14 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 远场语音功能实现方法、设备、系统及存储介质 |
JP7186375B2 (ja) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
CN110797021B (zh) * | 2018-05-24 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
JP7041589B2 (ja) * | 2018-06-11 | 2022-03-24 | シャープ株式会社 | 画像表示装置およびテレビジョン受信機 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
WO2020090322A1 (ja) * | 2018-11-01 | 2020-05-07 | ソニー株式会社 | 情報処理装置、その制御方法及びプログラム |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) * | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
JP2020144209A (ja) * | 2019-03-06 | 2020-09-10 | シャープ株式会社 | 音声処理装置、会議システム、及び音声処理方法 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
JP7257034B2 (ja) * | 2019-05-08 | 2023-04-13 | 株式会社レイトロン | 音源方向検出装置および音源方向検出プログラム |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
DE102020211740A1 (de) * | 2020-09-18 | 2022-03-24 | Sivantos Pte. Ltd. | Verfahren zum Betrieb einer Hörvorrichtung und Hörsystem |
KR20220055214A (ko) * | 2020-10-26 | 2022-05-03 | 현대자동차주식회사 | 운전자 보조 시스템 및 그를 가지는 차량 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
JP7111206B2 (ja) * | 2021-02-17 | 2022-08-02 | 日本電信電話株式会社 | 話者方向強調装置、話者方向強調方法、およびプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737431A (en) * | 1995-03-07 | 1998-04-07 | Brown University Research Foundation | Methods and apparatus for source location estimation from microphone-array time-delay estimates |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
JP3795610B2 (ja) | 1997-01-22 | 2006-07-12 | 株式会社東芝 | 信号処理装置 |
DE19812697A1 (de) * | 1998-03-23 | 1999-09-30 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb einer Mikrofonanordnung, insbesondere in einem Kraftfahrzeug |
US6469732B1 (en) * | 1998-11-06 | 2002-10-22 | Vtel Corporation | Acoustic source location using a microphone array |
JP2000181498A (ja) | 1998-12-15 | 2000-06-30 | Toshiba Corp | ビームフォーマを用いた信号入力装置及び信号入力用プログラムを記録した記録媒体 |
JP4410378B2 (ja) * | 2000-04-14 | 2010-02-03 | 三菱電機株式会社 | 音声認識方法および装置 |
GB2364121B (en) | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
JP2002034092A (ja) | 2000-07-17 | 2002-01-31 | Sharp Corp | 収音装置 |
US6931596B2 (en) * | 2001-03-05 | 2005-08-16 | Koninklijke Philips Electronics N.V. | Automatic positioning of display depending upon the viewer's location |
US6804396B2 (en) * | 2001-03-28 | 2004-10-12 | Honda Giken Kogyo Kabushiki Kaisha | Gesture recognition system |
CA2354858A1 (en) * | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
US20030177012A1 (en) * | 2002-03-13 | 2003-09-18 | Brett Drennan | Voice activated thermostat |
-
2002
- 2002-09-17 JP JP2002270318A patent/JP3910898B2/ja not_active Expired - Fee Related
-
2003
- 2003-09-16 US US10/662,294 patent/US7680287B2/en not_active Expired - Fee Related
- 2003-09-17 EP EP03255840A patent/EP1400814B1/en not_active Expired - Lifetime
- 2003-09-17 DE DE60327494T patent/DE60327494D1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1400814A2 (en) | 2004-03-24 |
JP2004109361A (ja) | 2004-04-08 |
EP1400814B1 (en) | 2009-05-06 |
EP1400814A3 (en) | 2004-04-21 |
DE60327494D1 (de) | 2009-06-18 |
US20040066941A1 (en) | 2004-04-08 |
US7680287B2 (en) | 2010-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3910898B2 (ja) | 指向性設定装置、指向性設定方法及び指向性設定プログラム | |
EP3707716B1 (en) | Multi-channel speech separation | |
ES2806204T3 (es) | Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados | |
JP6644197B2 (ja) | 雑音除去装置および雑音除去方法 | |
EP3414759B1 (en) | Techniques for spatially selective wake-up word recognition and related systems and methods | |
JP4191518B2 (ja) | 直交円形マイクアレイシステム及びこれを用いた音源の3次元方向検出方法 | |
JP2008275881A (ja) | 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
US20160039356A1 (en) | Establishing microphone zones in a vehicle | |
CN110120217B (zh) | 一种音频数据处理方法及装置 | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
JP6767082B2 (ja) | 車内通話制御装置、車内通話システムおよび車内通話制御方法 | |
JP5841986B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
CN111489750A (zh) | 声音处理设备和声音处理方法 | |
EP1494208A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP2016126022A (ja) | 音声処理装置 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
EP3847645B1 (en) | Determining a room response of a desired source in a reverberant environment | |
JP4410378B2 (ja) | 音声認識方法および装置 | |
WO2011121978A1 (ja) | 音声認識システム、装置、方法、およびプログラム | |
JP7065964B2 (ja) | 音場制御装置および音場制御方法 | |
JP2004004239A (ja) | 音声認識対話装置およびプログラム | |
JP2005303574A (ja) | 音声認識ヘッドセット | |
JP2019197964A (ja) | マイク制御装置 | |
JP2010161735A (ja) | 音再生装置および音再生方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100202 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140202 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |