JP2018049143A

JP2018049143A - 音声取得システムおよび音声取得方法

Info

Publication number: JP2018049143A
Application number: JP2016184189A
Authority: JP
Inventors: 洋平脇阪; Yohei Wakisaka; 整山田; Hitoshi Yamada; 智哉高谷; Tomoya Takatani; 生聖渡部; Seisho Watabe
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2018-03-29
Anticipated expiration: 2036-09-21
Also published as: US20180082686A1; JP6520878B2; US10381003B2

Abstract

【課題】音源から発せられた音を精度よく分離する音声取得システムを提供する。
【解決手段】一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、前記移動体の位置を制御する制御手段と、を含み、前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する。
【選択図】図１

Description

本発明は、移動体に搭載されたマイクを用いて音声を取得する技術に関する。

近年、音声によって人と対話をすることによって様々な情報を提供するロボットが開発されている。このような対話ロボットは、人と一対一で対話を行うことを前提としたものが多く、一般的に、複数人を同時に対話の相手とすることを苦手とする。これは、声を発した相手を区別できないといった理由による。

この問題を解決する発明として、特許文献１に記載の発明がある。当該発明は、複数のマイクを用いて音声を取得したうえで、目的とする音源から発せられた音のみを抽出することを特徴としている。このような技術を対話ロボットに適用することで、複数の対話相手がそれぞれ発した音声を個別に識別できるようになる。

特開２０１４−２１９４６７号公報

しかし、特許文献１に記載の技術では、複数のマイクを用いて目的とする音声を抽出しているため、識別対象の音源がマイクの数よりも多くなると、音源に対する位置検出精度が低下し、目的の音声を正しく抽出できなくなるおそれがある。すなわち、設計時に決められた人数よりも多くの人と対話を行おうとすると精度が低下するという問題がある。

本発明は上記の課題を考慮してなされたものであり、音源から発せられた音を精度よく分離する音声取得システムを提供することを目的とする。

本発明に係る音声取得システムは、
一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、前記移動体の位置を制御する制御手段と、を含み、前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得することを特徴とする。

本発明における移動体は、マイクを有し、自律的に音源の周囲を移動可能であるという特徴を持つ。当該移動体は、コミュニケーションロボットなどであってもよいし、マイクそのものであってもよい。また、音源とは、典型的には人間であるが、ロボットであってもよい。移動体は、マイクによって音声を取得する機能を有している。
音源数推定手段は、移動体の近傍にある音源の数を推定する手段である。音源数推定手段は、例えば、カメラやセンサなどの手段によって、音源の数を推定する。

第一の移動体の近傍に音源が多く集中していると、第一の移動体に搭載された限られた数のマイクでは、「複数の音源から発せられた音声を分離できない」、「対象の音源以外から発せられた音声を抑制する処理が行えない」といった不都合が生じるおそれがある。
そこで、制御手段が、第一の移動体の近傍にある音源の数に基づいて、第二の移動体の位置を制御したうえで、第一の移動体と第二の移動体の双方が有するマイクを用いて音声を取得する。かかる構成によると、複数の音源から音声を取得するのに必要なマイクの数を確保することができる。
なお、音源数推定手段および制御手段は、移動体から独立して設けられていてもよいし、移動体に内蔵されていてもよい。制御手段が移動体に内蔵されている場合、第一の移動体が有する制御手段が、第二の移動体が有する制御手段に対してリクエストを送信することで、第二の移動体の位置を制御する。

また、前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して、複数の音源から発せられた音を音源ごとに分離することを特徴としてもよい。

本発明は、複数の音源から発せられた音を分離して処理するシステムに好適に適用することができる。分離とは、目的とする音源から発せられた音声のみを抽出するものであってもよいし、目的とする音源以外から発せられた音声を抑制するものであってもよい。
音声の分離は、例えば、単純に一つの音源に一つの移動体を接近させることで行ってもよいし、複数の移動体が有する複数のマイクを用いて音声信号を取得し、当該信号に対して演算を行うことで行ってもよい。また、統計学的アプローチによって行ってもよい。

また、前記音源数推定手段が推定した、第一の移動体の近傍に存在する音源の数が所定の数よりも多い場合に、前記制御手段は、第二の移動体を前記第一の移動体の近傍へ移動させることを特徴としてもよい。
また、前記所定の数は、前記第一の移動体に搭載された数のマイクでは、前記第一の移動体の近傍に存在する複数の音源から発せられた音を所定の精度で分離できない数であることを特徴としてもよい。

第一の移動体の近傍に存在する音源の数が所定の数よりも多い場合、音源から発せられた音を分離する際の精度が低下する場合がある。そこで、第一の移動体の近傍に第二の移動体を呼び寄せる。これにより、必要な数のマイクを確保することができ、音声分離の精度を確保することができる。

また、前記制御手段は、前記第一の移動体に搭載されているマイクの数または配置に関する情報に基づいて、前記複数の音源から発せられた音を所定の精度で分離できるか否かを判定することを特徴としてもよい。

音源から発せられた音をどの程度の精度で分離できるかは、マイクの数や配置によって変わる。例えば、複数のマイクが同一の高さに配置されている場合、音源の高さを推定することができない。よって、マイクの数または配置についての情報に基づいて、所定の精度が得られるか否かを判定するようにしてもよい。

また、前記所定の数は、前記第一の移動体に搭載されているマイクの数よりも多い数であることを特徴としてもよい。

一般的に、マイクの数よりも音源の数が多くなると、音源の位置を特定する際の精度が低下するためである。

また、本発明に係る移動体は、
一つ以上のマイクを有し、音源の周囲を移動可能な移動体であって、近傍にある音源の数を推定する音源数推定手段と、前記近傍にある前記音源の数に基づいて、他の移動体の位置を制御する制御手段と、自己が有するマイクと、前記他の移動体が有するマイクの双
方を利用して音声を取得する音声取得手段と、を有することを特徴とする。

なお、本発明は、上記手段の少なくとも一部を含む音声取得システムや移動体として特定することができる。また、前記音声取得システムや移動体が行う音声取得方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

本発明によれば、音源から発せられた音を精度よく分離する音声取得システムを提供することができる。

第一の実施形態に係る音声対話システムのシステム構成図である。ロボット１０の外観図である。他のロボットに対する支援要請を説明する図である。第一の実施形態においてロボットが実行する処理のフローチャートである。第一の実施形態においてロボットが実行する処理のフローチャートである。他のロボットに送信される支援要請を説明する図である。第二の実施形態に係るロボットのシステム構成図である。第三の実施形態に係る音声対話システムのシステム構成図である。

（第一の実施形態）
以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、複数のロボットと二台のサーバから構成され、当該ロボットがサーバと通信を行うことで、自然言語によってユーザと対話を行うシステムである。

<システム構成>
図１は、本実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット１０、音声認識サーバ２０、応答生成サーバ３０を含んで構成される。なお、図１には示していないが、本実施形態に係る音声対話システムは、複数のロボット１０を含んで構成することができる。

まず、ロボット１０について説明する。
ロボット１０は、外部から音声を取得する機能と、当該音声を認識した結果に基づいて、入力された音声に対する応答となる文章（以下、応答文）を取得する機能と、当該応答文を音声によって出力する機能を有するロボットである。ロボット１０は、例えば、コミュニケーションロボットであるが、必ずしもキャラクターの形をしている必要はない。例えば、ロボットに組み込むことができる汎用のコンピュータであってもよい。本実施形態では、移動可能な複数のロボット１０がフィールド上に配置され、任意のユーザと対話できる形態を例に説明を行う。

ロボット１０は、近距離通信部１１、通信部１２、音声入出力部１３、応答取得部１４、支援要請部１５、カメラ１６、動作制御部１７を含んで構成される。

近距離通信部１１は、ロボット１０同士で無線通信を行う手段である。第一の実施形態では、近距離通信部１１は、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続を利用した通信を行う。第一の実施形態では、近距離通信部１１を用いて複数のロボット１０間における情報交換を実現する。

通信部１２は、通信回線（例えば無線ＬＡＮ）を介してネットワークにアクセスすることで、後述する音声認識サーバ２０および応答生成サーバ３０との通信を行う手段である。

音声入出力部１３は、音声を入出力する手段である。具体的には、図２（Ａ）に示したような単一の内蔵マイクを用いて、音声を電気信号（以下、音声データ）に変換する。取得した音声データは、音声認識サーバ２０へ送信され、音声認識処理が行われる。
また、音声入出力部１３は、内蔵されたスピーカを用いて、後述する応答取得部１４から送信された音声データを音声に変換する。

応答取得部１４は、応答生成サーバ３０を用いて、入力された音声に対する応答文を取得し、音声データに変換する手段である。具体的には、音声認識サーバ２０から送信されたテキスト（音声認識の結果得られるテキスト）を応答生成サーバ３０へ送信し、応答文を取得する処理と、音声合成によって当該応答文を音声データに変換する処理を実行する。

支援要請部１５は、自ロボットの近傍に複数の音源が存在することを判定し、他のロボット１０に対して支援を要請する手段である。
これについて、図３を参照しながら説明する。本実施形態に係るロボット１０は、複数の音源から到来する音声を分離する機能は有していない。例えば、図３のように、ユーザＡとユーザＢがロボット１０Ａの近傍に存在する場合、それぞれが発した音声を区別することができない。

そこで、本実施形態では、ロボット１０（支援要請部１５）が、カメラ１６を用いて自ロボットの周囲を撮影し、音源の数（すなわちユーザの数）を判定したうえで、音源の数が２つ以上であった場合に、近距離無線通信によって他のロボット１０に支援を要請する。これにより、他のロボット１０が、協働して音声の取得を行うべく呼び寄せられる。

例えば、ロボット１０Ａが、ロボット１０Ｂに対して、『ユーザＢの近傍に移動して、ユーザＢが発した音声を取得する』よう要請したものとする。すると、これに応じて、ロボット１０Ｂが符号３０１で示した位置まで移動して、音声の取得を行い、取得した音声データをロボット１０Ａに送信する。すなわち、ロボット１０ＡがユーザＡから音声を取得し、ロボット１０ＢがユーザＢから音声を取得するという役割分担がなされる。
それぞれのロボットは、直近に存在するユーザの発話を主に取得できる程度のマイクゲインで音声の取得を行う。なお、ロボット１０Ａは、自己が取得した音声データをユーザＡの音声、ロボット１０Ｂから取得した音声データをユーザＢの音声として扱い、それぞれ応答文の生成を行う。

カメラ１６は、ロボット１０の周辺を撮像し、可視光像を取得するカメラである。本実施形態では、支援要請部１５が、取得した画像から人の顔を検出し、検出した顔の数に基づいてロボット１０の周辺に存在するユーザの数を判定する。なお、本実施形態ではカメラを例示したが、ロボット１０の周辺に存在するユーザの数を判定できれば、他の手段（センサ等）を用いてもよい。

動作制御部１７は、ロボット１０を移動させる制御を行う手段である。具体的には、不図示の駆動手段を用いてロボットをＸ−Ｙ平面上で移動させる。これにより、ロボット１０がフィールド上の任意の位置に移動することができる。

音声認識サーバ２０は、音声の認識に特化したサーバ装置であり、通信部２１、音声認
識部２２からなる。
通信部２１が有する機能は、前述した通信部１２と同様であるため、詳細な説明は省略する。

音声認識部２２は、取得した音声データに対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部２２には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。音声認識の結果得られたテキストは、応答取得部１４を経由して、応答生成サーバ３０に送信される。

応答生成サーバ３０は、応答文の生成に特化したサーバ装置であり、通信部３１、応答生成部３２からなる。
通信部３１が有する機能は、前述した通信部１２と同様であるため、詳細な説明は省略する。

応答生成部３２は、音声認識サーバ２０が生成したテキスト（すなわち、ユーザが行った発話の内容）に基づいて、応答となる文章（応答文）を生成する手段である。応答生成部３２は、例えば、予め記憶された対話シナリオ（対話辞書）に基づいて応答文を生成してもよい。応答生成部３２が生成した応答文は、応答取得部１４にテキスト形式で送信され、その後、合成音声によってユーザに向けて出力される。

音声認識サーバ２０および応答生成サーバ３０は、いずれもＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、ＣＰＵによって実行されることで、図１に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。

<処理フローチャート>
次に、ロボット１０が行う具体的な処理の内容について説明する。図４は、ロボット１０が実行する処理を示したフローチャートである。
まず、ステップＳ１１で、支援要請部１５が、カメラ１６を介して画像を取得する。本実施形態では、ロボットの正面のみを撮像範囲とする画像を取得するが、撮像範囲はこれ以外であってもよい。
次に、ステップＳ１２で、支援要請部１５が、取得した画像に基づいて、自ロボットの正面にいる人の数をカウントする。例えば、取得した画像から人の顔を検出する処理を行い、得られた顔の数に基づいて人数を判定する。

次に、ステップＳ１３で、カウントされた人の数を判定する。この結果、カウントされた人の数が０人であった場合（すなわち、画像中に人が存在していなかった場合）、処理はステップＳ１１に戻る。
カウントされた人の数が１人であった場合、ステップＳ１４に遷移し、当該ユーザとの対話を実施する。

ここで、ステップＳ１４で行う処理について詳しく説明する。図５は、ステップＳ１４で行う処理を詳しく示したフローチャート図である。

まず、ステップＳ１４１で、音声入出力部１３がマイクを通して対話相手であるユーザから音声を取得する。取得した音声は音声データに変換され、通信部１２および通信部２１を介して音声認識サーバ２０へ送信される。なお、この際、ロボット１０を、対話相手
となるユーザの近くに移動させてもよい。例えば、動作制御部１７が、ステップＳ１１で取得した画像に基づいてユーザの位置を認識し、当該ユーザの近傍にロボットを移動させる制御を行ってもよい。

音声認識サーバ２０に送信された音声データは、音声認識部２２によってテキストに変換され、変換が完了次第、通信部２１および通信部１２を介して応答取得部１４へ送信される（ステップＳ１４２）。

次に、ステップＳ１４３で、応答取得部１４が、音声認識サーバ２０から送信されたテキストを応答生成サーバ３０に送信する。そして、応答生成部３２が、送信されたテキストに基づいて応答文を生成し、生成された応答文を応答取得部１４へ送信する（ステップＳ１４４）。最後に、応答取得部１４が、音声合成によって応答文を音声データに変換し、音声入出力部１３を介して出力する（ステップＳ１４５）。

次に、ステップＳ１３でカウントされた人の数が二人以上であった場合について説明する。カウントされた人の数が二人以上であった場合、自ロボットのみでは、それぞれが発した音声を分離することができない。そこで、支援要請部１５が、近距離通信部１１を介して、周辺に存在する他のロボット１０に対して支援要請を送信する（ステップＳ１５）。図６（Ａ）は、近距離無線通信によって送信される支援要請の内容を例示した図である。本実施形態では、自ロボットのＩＤ（識別子）、検出した人数、必要な支援数（必要なマイクの数）、およびターゲットとなる音源の位置情報を周囲のロボットに対して送信する。
なお、ターゲット位置情報は、当該支援要請を受信したロボットの移動先を表す情報として利用される。ターゲット位置情報は、例えば、自ロボットの位置情報と、ステップＳ１１で取得した画像に基づいて生成してもよいし、他の手段によって特定した音源の位置に基づいて生成してもよい。

ステップＳ１５で送信された支援要請は、他のロボットによって受信される。当該支援要請を受信した他のロボットが複数ある場合、当該複数のロボット間で協議を行い、「必要な支援数」に示されている台数ぶんのロボットを選定する。例えば、ターゲットとなる音源に最も近い順に、支援を行うロボットを選定してもよい。
そして、選定されたロボットが、ターゲット位置情報に従って移動する（ステップＳ１６）。図３の例の場合、ユーザＢの近傍である地点３０１までロボット１０Ｂが移動する。

そして、ステップＳ１７で、ステップＳ１４と同様に、ユーザとの対話を実施する。ステップＳ１７における処理は、図５に示した処理と類似するが、支援中のロボット（本例の場合、ロボット１０Ｂ）によって取得された音声データが、支援を受けるロボット（本例の場合、ロボット１０Ａ）に送信されるという点が相違する。また、支援を受けるロボットが、受信した音声データに基づいて、対話処理をユーザごとに平行して進めるという点が相違する。すなわち、図５に示した処理が、対話を行うユーザ（本例の場合、ユーザＡおよびユーザＢ）ごとに実行される。

なお、ステップＳ１６を実行してもなおマイクの数が不足する場合、再度ステップＳ１５に遷移し、再度支援要請を生成して送信してもよい。

以上説明したように、第一の実施形態に係る音声対話システムは、ロボットに搭載されたマイクの数が不足し、複数のユーザが発した音声が分離できない場合に、他のロボットに支援を要請し、当該他のロボットが有するマイクを追加で利用して対話を行う。かかる構成によると、一台のマイクを持つロボットが二人以上のユーザと同時に対話することが
可能になる。

（第二の実施形態）
第一の実施形態では、各ロボットがマイクを一台ずつ有しており、ユーザ一人に対して一台のロボットが付くことで音源の分離を行った。これに対し、第二の実施形態は、各ロボットが複数のマイクを有している実施形態である。

図７は、第二の実施形態に係るロボット１０のシステム構成図である。第二の実施形態に係るロボット１０は、音源分離部１８を有しているという点において、第一の実施形態に係るロボット１０と相違する。
また、音声入出力部１３が、図２（Ｂ）に示したようなマイクアレイ（点線で図示）を有しており、それぞれのマイクから音声データを取得できるという点において、第一の実施形態に係るロボット１０と相違する。

音源分離部１８は、音声入出力部１３が取得した音声（すなわち、マイクアレイによって取得した多チャンネル音声）から、対話相手である複数のユーザがそれぞれ発した音声を抽出する手段である。
音源分離部１８は、音声入出力部１３が有しているマイクアレイから得た信号を解析し、ロボットに対するユーザの位置を推定したうえで、当該位置から到来する音声のみを抽出する。それぞれのマイクから得られた信号を一旦記録して演算することで、音源の方向や距離を算出することができる。また、目的とする音源以外から到来する音声を抑圧することで、対象とするユーザが発した音声のみを抽出することができる。

マイクアレイを用いた音源位置の推定方法や、特定の位置にある音源から到来した音声のみを抽出する（当該音源以外から到来する音を抑圧する）方法については公知であるため、ここでは詳細な説明は省略する。
なお、マイクは二次元的に配置されてもよいし、三次元的に配置されてもよい。三次元的に配置することで、高さ（Ｚ軸）方向の位置を検出することが可能になる。

第二の実施形態では、一台のロボット１０が三つのマイクを有しているため、平面上における音源の位置を推定することができる。また、推定した位置に基づいて、音源の分離を行うことができる。しかし、音源の数が多くなると、音源の位置を推定する精度が低下し、音声の分離精度が低下する場合がある。
これに対応するため、第二の実施形態では、ロボット１０が有する支援要請部１５が、所定の精度を得るためのマイクの数が不足していることを判定し、他のロボットに支援要請を行う。なお、所定の精度が得られるか否かは、自ロボットが有する複数のマイクの配置に関する情報に基づいて判断してもよい。

第二の実施形態においても、第一の実施形態と同様に、支援を行うロボットから、支援を受けるロボットに音声データが送信される。そして、支援を受けるロボットが、受信した音声データをさらに用いて音源の位置推定ならびに音声の分離処理を行う。

なお、第二の実施形態で送信する支援要請は、図６（Ａ）に示したものであってもよいが、自ロボットが有するマイクに関する情報をさらに追加してもよい。例えば、支援要請に、自ロボットが有しているマイクの数、マイクの取り付け角度、マイクの高さなどを含ませ、受信した他のロボットに、支援の可否（所定の精度を実現するため、自ロボットが支援可能であるか否か）を判断させてもよい。

（第三の実施形態）
第一および第二の実施形態では、フィールド上に配置されたロボット１０がユーザとの
対話を行った。これに対し、第三の実施形態は、フィールド上を移動する複数のマイクを利用して、固定された対話装置４０がユーザとの対話を行う実施形態である。

図８は、第三の実施形態に係る音声対話システムの構成図である。
移動マイク５０は、第一の実施形態におけるロボット１０から、自律的に移動するための機能を省いたマイク装置であり、通信部５１、音声入出力部５２、動作制御部５３を有する。

通信部５１は、前述した通信部１２と同様の機能を有する手段である。また、音声入出力部５２は、前述した音声入出力部１３と同様の機能を有する手段である。また、動作制御部５３は、前述した動作制御部１７と同様の機能を有する手段である。

対話装置４０は、通信部４１、制御部４２、カメラ４３からなるサーバ装置である。対話装置４０も、ＣＰＵ、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。
通信部４１が有する機能は、前述した通信部１２と同様であるため、詳細な説明は省略する。

制御部４２は、移動マイク５０からネットワーク経由で音声データを取得し、当該取得した音声データを用いてユーザと対話する機能を有する手段である。また、制御部４２は、移動マイク５０の位置を制御する機能を有する。詳細な処理については後述する。
カメラ４３は、フィールドを俯瞰する位置に設置された、可視光像を取得するカメラである。なお、本実施形態ではカメラを例示したが、ユーザの数および位置を判定できれば、センサ等の手段を用いてもよい。

第三の実施形態では、制御部４２が、カメラ４３を介して画像を取得し、当該画像に基づいてユーザの数を判定したうえで、音源の分離を十分な精度で行えるだけのマイクが存在するか否かを判定する。この結果、音源の分離が行えない、あるいは、音源の分離精度を確保することができないと判定した場合、フィールド上にある移動マイク５０に対して、位置を制御する命令（すなわち、音源であるユーザの近傍に移動する命令）を送信する。なお、所定の精度が得られるか否かは、各移動マイク５０に搭載されているマイクの数や、マイクの配置に関する情報に基づいて判断してもよい。

図６（Ｂ）は、第三の実施形態における支援要請のフォーマットを表した図である。第三の実施形態では、移動させるマイク（移動マイク５０）のＩＤと、移動先が記載されている。すなわち、宛先を指定して支援要請が送信される。なお、ターゲット位置情報は、例えば、カメラ４３が取得した画像に基づいて生成してもよいし、他の手段によって特定した音源の位置に基づいて生成してもよい。

第三の実施形態によると、全体を俯瞰する位置にカメラを配置できるため、ユーザの数をより正確に判定することができる。また、移動するマイクを、ロボットの自律判断ではなく対話装置４０が決定するため、計画性の高い移動を行うことができる。

（変形例）
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
例えば、実施形態の説明では、カメラによって音源の位置を判定したが、音源が人間ではなくロボットであるような場合、音源自らが対話相手となるロボット１０や、対話装置４０に対して位置を通知するようにしてもよい。

１０・・・ロボット
１１・・・近距離通信部
１２，２１，３１・・・通信部
１３・・・音声入出力部
１４・・・応答取得部
１５・・・支援要請部
１６・・・カメラ
２０・・・音声認識サーバ
２２・・・音声認識部
３０・・・応答生成サーバ
３２・・・応答生成部

Claims

一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体と、
いずれかの前記移動体の近傍にある音源の数を推定する音源数推定手段と、
前記移動体の位置を制御する制御手段と、を含み、
前記制御手段は、第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御し、
前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する、
音声取得システム。
前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して、複数の音源から発せられた音を音源ごとに分離する、
請求項１に記載の音声取得システム。
前記音源数推定手段が推定した、第一の移動体の近傍に存在する音源の数が所定の数よりも多い場合に、
前記制御手段は、第二の移動体を前記第一の移動体の近傍へ移動させる、
請求項２に記載の音声取得システム。
前記所定の数は、前記第一の移動体に搭載された数のマイクでは、前記第一の移動体の近傍に存在する複数の音源から発せられた音を所定の精度で分離できない数である、
請求項３に記載の音声取得システム。
前記制御手段は、前記第一の移動体に搭載されているマイクの数または配置に関する情報に基づいて、前記複数の音源から発せられた音を所定の精度で分離できるか否かを判定する、
請求項４に記載の音声取得システム。
前記所定の数は、前記第一の移動体に搭載されているマイクの数よりも多い数である、
請求項３に記載の音声取得システム。
一つ以上のマイクを有し、音源の周囲を移動可能な移動体であって、
近傍にある音源の数を推定する音源数推定手段と、
前記近傍にある前記音源の数に基づいて、他の移動体の位置を制御する制御手段と、
自己が有するマイクと、前記他の移動体が有するマイクの双方を利用して音声を取得する音声取得手段と、
を有する、移動体。
一つ以上のマイクを有し、音源の周囲を移動可能な複数の移動体を用いて音声を取得する音声取得方法であって、
いずれかの前記移動体の近傍にある音源の数を推定する音源数推定ステップと、
第一の移動体の近傍にある前記音源の数に基づいて、前記第一の移動体とは異なる第二の移動体の位置を制御する制御ステップと、
前記第一の移動体が有するマイクと、前記第二の移動体が有するマイクの双方を利用して音声を取得する音声取得ステップと、
を含む、音声取得方法。