JP2010010857A

JP2010010857A - 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法

Info

Publication number: JP2010010857A
Application number: JP2008165286A
Authority: JP
Inventors: Hiroyuki Fukushima; 寛之福島
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2008-06-25
Filing date: 2008-06-25
Publication date: 2010-01-14
Anticipated expiration: 2028-06-25
Also published as: JP5206151B2

Abstract

【課題】複数の人間が参加する音声コミュニケーションを効果的に支援することができる音声入力ロボットを得る。
【解決手段】音声の入力を受け付ける音声入力部１１１と、音声入力部１１１が受け付けた音声の音源位置を推定する音源位置推定部１２１と、音声入力部１１１の位置を可変する動作部１１２と、を備え、音源位置推定部１２１は、音声入力部１１１が受け付けた複数の音声の音源位置を推定し、動作部１１２は、音源位置推定部１２１の推定結果に基づき、音声入力部１１１と複数の音声の音源位置との間の位置関係を変更する。
【選択図】図１

Description

本発明は、音声入力部を備えた音声入力ロボット、そのロボットを有する遠隔会議支援システム、そのロボットを用いた遠隔会議支援方法に関するものである。

従来、ロボット装置に関し、『対象物に対してより自然な動作を行えて、エンターテイメント性を向上したロボット装置及びロボット装置の行動制御方法を提供する。』ことを目的とした技術として、『ロボット装置１は、ＣＣＤカメラ２２と、マイクロホン２４と、画像データから動体を検出する動体検出モジュール３２及び人物の顔を検出する顔検出モジュール３３と、音声データから音源方向を推定する音源方向推定モジュール３４と、上記動体検出結果に基づく動体方向、上記顔検出結果に基づく顔方向、及び上記推定された音源方向の何れかに移動するよう制御する制御手段とを有し、制御手段は、動体方向又は音源推定方向に歩行中に顔検出された場合、顔方向に移動するよう制御すると共に、顔検出対象となっている対象物に所定の範囲内に近づいたとき、歩行を停止するよう制御する。』というものが提案されている（特許文献１）。

また、自律行動ロボットに関し、『人間に対してペットのような振る舞いで応答し、人間が親近感を感じられる自律行動ロボットのための行動制御装置を提供する。』ことを目的とした技術として、『ステレオカメラによる画像入力装置１、画像処理によって人物が検出され、人物の顔領域を追跡する人物検出装置２、ステレオカメラの画像から距離を算出する距離算出装置３、人物情報記憶部５の情報から人物を識別する人物識別装置４、ボディに付けられたマイクから構成される音声入力装置６、音源方向検出装置７、音声認識装置８、ロボットの前後左右に設置され、障害物検出装置１０に障害物情報を送出する超音波センサ９、撫でられた場合と叩かれた場合に、それぞれを識別できる信号を行動制御装置１２に送出するタッチセンサ１１、二つの車輪による脚部モータ１３、頭部を回転させる頭部モータ１４、およびロボットの口に付けられた音声出力装置１５から構成される。』というものが提案されている（特許文献２）。

また、対話型ロボットに関し、『対話する人間の操作負担を増加させることなく、音声認識精度を向上させることのできる対話型ロボットを提供する。』ことを目的とした技術として、『音声認識可能な対話型ロボット４００であって、音声認識の対象となる目的音声の音源方向を推定する音源方向推定手段と、音源方向推定手段が推定した音源方向に当該対話型ロボット自身を移動させる移動手段と、移動手段による移動後の位置において、目的音声を取得する目的音声取得手段と、目的音声取得手段が取得した目的音声に対して音声認識を行う音声認識手段とを備えた。』というものが提案されている（特許文献３）。

特開２００４−１３０４２７号公報（要約）特開２００３−３２６４７９号公報（要約）特開２００６−１８１６５１号公報（要約）

例えば遠隔コミュニケーションを行う際のように、マイクを通して音声対話を行う環境下では、発話者とマイクの位置関係によって発話者の音声が聞き取りにくい場合がある。
特に発話者が複数人存在するような状況では、発話者各人の発話音量の差、マイクとの距離・位置関係などにより、発話者毎に音声の聴き取りやすさが異なってしまう。

このような状況下では、マイクで集音された音声を聴く立場の者（遠隔コミュニケーションの例では遠隔地の相手側に当たる）は、発話者に対して「声が聴こえにくい」「もう少しマイクに近づいて話をして欲しい」などの要望を出して状況改善を試みる。
しかし、このようなやり取りは発話の中断を招き、コミュニケーションの円滑な進行を妨げ、参加者に余計なストレスを与えてしまう。

こうした課題に対して、音声を収集するマイクの性能を上げる、設置数を増やすといった改善方法も考えられるが、これらの環境を整備するためのコストを要する。

一方、上記特許文献１〜３に記載の技術では、音声を取得することで音源位置を推定してその方向にロボットが移動等することが開示されている。これは、発話者に近い位置で音声を入力することを図るものであると考えることができる。
しかし、この動作は人間とロボットが対話するためのものであり、遠隔コミュニケーションを円滑に行うためのものではない。

例えば、上記特許文献１〜３に記載の技術を用い、ロボットが移動等することによってロボットとその対話相手の人間との間の距離等を最適化することが考えられる。
しかし、遠隔会議のように複数の人間がコミュニケーションに参加する環境下では、ロボットとその対話相手との２者間関係のみを最適化したとしても、必ずしも会議全体の進行を最適化することにはならない。
即ち、会議に複数の人間が参加している環境、換言すると、複数の音源から生じる音声を全体的に収集することが求められる環境下では、上記特許文献１〜３に記載の技術は必ずしも適していない。

そのため、複数の人間が参加する音声コミュニケーションを効果的に支援することができる音声入力ロボットが望まれていた。

本発明に係る音声入力ロボットは、音声の入力を受け付ける音声入力部と、前記音声入力部が受け付けた音声の音源位置を推定する音源位置推定部と、前記音声入力部の位置を可変する動作部と、を備え、前記音源位置推定部は、前記音声入力部が受け付けた複数の音声の音源位置を推定し、前記動作部は、前記音源位置推定部の推定結果に基づき、前記音声入力部と前記複数の音声の音源位置との間の位置関係を変更するものである。

本発明に係る音声入力ロボットによれば、複数の音源位置から生じる音声を全体的に収集することができるので、複数の人間が参加する音声コミュニケーションを効果的に支援することができる。

実施の形態１．
図１は、本発明の実施の形態１に係る遠隔会議支援システムの構成図である。
本実施の形態１に係る遠隔会議支援システムは、音声入力ロボット１００、会議端末２００を有する。音声入力ロボット１００と会議端末２００は、例えばＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネットのようなネットワーク３００を介して遠隔接続されている。

音声入力ロボット１００は、ロボット本体部１１０、ロボット制御部１２０を備える。
ロボット本体部１１０は、音声入力ロボット１００の本体筐体と、本体筐体に取り付けられた各構成部分とを備える。具体的な構成は後述する。
ロボット制御部１２０は、音声入力ロボット１００の動作を制御する。具体的な構成は後述する。ロボット制御部１２０およびその各構成部は、その機能を実現する回路デバイスのようなハードウェアで構成することもできるし、マイコンやＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のような演算装置とその動作を規定するソフトウェアで構成することもできる。また、必要な記憶装置やネットワークインターフェースを適宜備える。

ロボット本体部１１０とロボット制御部１２０は、同一筐体上に構成してもよいし、例えばロボット制御部１２０をロボット本体部１１０から切り離して外部に構成し、有線または無線により相互に通信するように構成してもよい。

ロボット本体部１１０は、音声入力部１１１、動作部１１２を備える。

音声入力部１１１は、例えば複数のマイクロフォンを備えたマイクロフォンアレイなどから構成され、音声入力ロボット１００が存在する周辺の音声を収集する。
音声入力ロボット１００が姿勢を変えることなく全方位からの音声を収集できるようにするためには、マイクロフォンアレイで音声入力部１１１を構成するのが好適である。例えば、単一指向性マイクを円周上に複数配置し、指向方向を円の外側に向ける、といった手法が考えられる。
音声入力部１１１が収集した音声は、後述の音声情報処理部１２１に出力される。

動作部１１２は、音声入力ロボット１００が存在する空間において、動作決定部１２３の指示に基づき音声入力部１１１の空間位置を可変する機能を備える。動作部１１２の具体的な構成例については、後述の図２で説明する。

ロボット制御部１２０は、音声情報処理部１２１、統計処理部１２２、動作決定部１２３、データベース１２４、設定部１２５を備える。

音声情報処理部１２１は、音声入力部１１１が収集した音声を受け取り、その音声の音源位置を推定し、その推定音源の音量を算出する。推定結果や算出結果は、データベース１２４に格納される。音源位置の推定手法は、任意の公知技術など適当なものを適宜用いる。
また、音声情報処理部１２１は、ネットワーク３００を介して、音声入力部１１１から受け取った音声を会議端末２００に送信する。

統計処理部１２２は、データベース１２４に蓄積されたデータと設定部１２５が受け取った設定情報から、後述の図３〜図５で説明する統計処理を行い、音声入力ロボット１００が存在する空間の音声環境をマップ化（マッピング）して音声分布マップを作成する。作成したマップはデータベース１２４に格納される。
統計処理部１２２が行う統計処理の対象となるのは、音声情報処理部１２１が処理した前述の各情報、即ち音源の推定位置、推定音源位置の音量、時間（サンプリングタイム）などである。

動作決定部１２３は、統計処理部１２２が作成した音声分布マップと設定部１２５が受け取った設定情報から、音声入力部１１１の空間位置可変を実行するか否か、および可変先位置を決定する。決定した結果は可変指令として動作部１１２に出力される。

データベース１２４は、音声情報処理部１２１が処理した前述の各情報、即ち音源の推定位置、推定音源位置の音量などを時系列順に保持する。データベース１２４は、保持する情報を格納するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの記憶装置を用いて構成することができる。情報の格納形式は任意のものでよい。

設定部１２５は、音声の聴き手側が望む音声環境や音声収集状況、即ち、聴き手側がどのようにして発話者側からの音声を聴きたいのかを設定するための設定情報の入力を受け付ける。設定内容の具体例は後述する。
具体的には、例えばネットワークインターフェースや画面入力を介して、上述の設定情報の入力を受け付ける、といった構成が考えられる。
設定部１２５が受け取った設定情報と統計処理部１２２が作成した音声分布マップから、動作決定部１２３が出力する可変指令の内容が決定される。

なお、設定部１２５が受け付ける「音声の聴き手側が望む音声環境」とは、例えば以下の（１）〜（３）のようなことを言う。

（１）各発話者からほぼ等距離となるような位置関係で発話を聴きたい。
この場合は、複数音源からの音声を同時に取得する。音量が発話者の発話音量に大きく影響を受けるため、声量による発話者の感情を読み取りやすい。

（２）発話者達の発話を同等の音量で聴きたい。
この場合も、複数音源からの音声を同時に取得する。発話・主張の強さに関して、音量差の影響を受けにくい。

（３）特定発話者の発話を聴きやすい状況で聴きたい。
これは、特定発話者の発言が多い状況、例えば、ある発話者が資料説明を行っているような状況に相当する。
この場合は、発話頻度の高い話者の位置に着目し、発話者の声が大きすぎるときは音量を小さくし、声が小さすぎるときは音量を大きくしたい、といった要望があるものと想定される。

このように、設定部１２５を介して集音状態の設定変更を可能としたことにより、人間同士のコミュニケーションを音声入力ロボット１００が効果的に支援することができるのである。
この点は、上記特許文献１〜３に記載の対話型ロボットのように、プログラムされた規定の目的に従った動作しか行わない、人間とロボットの間のコミュニケーションを前提とした技術とは異なる。

本実施の形態１における「音源位置推定部」は、音声情報処理部１２１が相当する。
また、「動作部」は、動作部１１２およびその動作内容を決定する動作決定部１２３が相当する。

会議端末２００は、遠隔の会議参加者が使用する端末であり、例えばノートパソコンのようなコンピュータを用いて構成することができる。また、例えばスピーカ等で構成された音声出力部２１０を備える。
会議端末２００は、ネットワーク３００を介して、ロボット制御部１２０が送信した音声を受信し、音声出力部２１０よりその音声を音声出力する。遠隔の会議参加者は、その音声を聴取することにより、音声入力ロボット１００周辺の会議参加者の音声を聴くことができる。

以上、本実施の形態１に係る遠隔会議支援システムの構成を説明した。
次に、動作部１１２の具体的な構成例を説明する。

図２は、音声入力ロボット１００の外観構成例を示す図である。図２（ａ）は自走式、図２（ｂ）は固定可動式の構成例である。

図２（ａ）に示す自走式構成では、動作部１１２は平面上を任意方向に移動可能な車両で構成され、その車両台座の上にマイクで構成された音声入力部１１１を複数設置する構成とした。
車両で構成された動作部１１２は、動作決定部１２３の指示に基づき車輪を駆動させ、指示された方向に音声入力ロボット１００を移動させる。

図２（ｂ）に示す固定可動式構成では、動作部１１２は底部台座に固定された可動スイングアームで構成され、可動スイングアームの上に固定された台座上にマイクで構成された音声入力部１１１を複数設置する構成とした。
可動スイングアームで構成された動作部１１２は、動作決定部１２３の指示に基づきアームの姿勢（ヨー・ピッチ角）や長さを可変することで、音声入力部１１１の空間位置を移動させる。

以上、動作部１１２の具体的な構成例を説明した。
次に、統計処理部１２２が作成する音声分布マップの例について、先に述べた設定部１２５に入力される「音声の聴き手側が望む音声環境」との関連から説明する。

図３は、音源位置のみを基準として作成した音声分布マップの例である。以下、図３を用いて音声入力部１１１の空間位置を変更する過程を説明する。
なお、ここでは上述の設定情報として、「（１）各発話者からほぼ等距離となるような位置関係で発話を聴きたい。」が設定部１２５に入力されたものとする。

図３（ａ）は、会議参加者と音声入力ロボット１００の初期状態を示す図である。同図において、１〜３は会議参加者の位置、黒三角は音声入力ロボット１００の初期位置を示している。
図３（ａ）の状態では、音声入力ロボット１００と会議参加者２の距離が最も近く、他の会議参加者と音声入力ロボット１００の距離は遠い。

音声情報処理部１２１は、所定のサンプリングタイム内で、音声入力部１１１より会議参加者１〜３の発話音声を受け取り、各会議参加者の音源位置を推定してデータベース１２４に格納する。
統計処理部１２２は、各会議参加者の音源位置の推定結果を用いて、図３（ａ）のような２次元平面座標上に各会議参加者の位置をマッピングした音声分布マップを作成する。

図３（ｂ）は、動作決定部１２３が音声入力ロボット１００の移動先を決定する様子を示す図である。
動作決定部１２３は、図３（ａ）に示す音声分布マップおよび設定部１２５が受け取った設定情報に基づき、音声入力ロボット１００（または音声入力部１１１、以下同様）と各会議参加者の距離がそれぞれ等距離となるように、音声入力ロボット１００の移動先を決定する。

図３（ｃ）は、音声入力ロボット１００が移動した後の音声分布マップである。音声入力ロボット１００の空間位置が移動することにより、音声入力ロボット１００と各会議参加者の距離がそれぞれ等距離となる。

図４は、音源位置と各音源の音量を基準として作成した音声分布マップの例である。以下、図４を用いて音声入力部１１１の空間位置を変更する過程を説明する。
なお、ここでは上述の設定情報として、「（２）発話者達の発話を同等の音量で聴きたい。」が設定部１２５に入力されたものとする。

図４（ａ）は、会議参加者と音声入力ロボット１００の初期状態を示す図である。同図において、１〜３は会議参加者の位置、円の大きさは各会議参加者の発話音量、黒三角は音声入力ロボット１００の初期位置を示している。
図４（ａ）の状態では、音声入力ロボット１００と会議参加者１の距離が最も近く、これに対応して会議参加者１から集音される音量が最も大きくなっている。

音声情報処理部１２１は、所定のサンプリングタイム内で、音声入力部１１１より会議参加者１〜３の発話音声を受け取り、各会議参加者の音源位置を推定してデータベース１２４に格納する。また、各会議参加者の発話音量を算出してデータベース１２４に格納する。
ここでいう発話音量とは、例えばサンプリングタイム内での最大／最小音量、あるいはサンプリングタイム内での音量の平均値、といった値のことである。
統計処理部１２２は、各会議参加者の音源位置の推定結果を用いて、図４（ａ）のような２次元平面座標上に各会議参加者の位置と発話音量をマッピングした音声分布マップを作成する。

図４（ｂ）は、動作決定部１２３が音声入力ロボット１００の移動先を決定する様子を示す図である。
動作決定部１２３は、図４（ａ）に示す音声分布マップおよび設定部１２５が受け取った設定情報に基づき、音声入力ロボット１００が集音する各会議参加者の発話音量がそれぞれ同等になるように、音声入力ロボット１００の移動先を決定する。

図４（ｃ）は、音声入力ロボット１００が移動した後の音声分布マップである。音声入力ロボット１００の空間位置が移動することにより、音声入力ロボット１００が集音する各会議参加者の発話音量（円の大きさ）がそれぞれ同等になる。

図５は、音源位置、各音源の音量、および各音源の音声発生頻度を基準として作成した音声分布マップの例である。以下、図５を用いて音声入力部１１１の空間位置を変更する過程を説明する。
なお、ここでは上述の設定情報として、「（３）特定発話者の発話を聴きやすい状況で聴きたい。」が設定部１２５に入力されたものとする。

図５（ａ）は、会議参加者と音声入力ロボット１００の初期状態を示す図である。同図において、１〜３は会議参加者の位置、円の大きさは各会議参加者の発話音量、円の輪数は発話回数、黒三角は音声入力ロボット１００の初期位置を示している。
なお、聴き手側は、会議参加者３の発話を聴きやすい状況を希望しているものとする。

音声情報処理部１２１は、所定のサンプリングタイム内で、音声入力部１１１より会議参加者１〜３の発話音声を受け取り、各会議参加者の音源位置を推定してデータベース１２４に格納する。また、各会議参加者の発話音量と発話回数を算出してデータベース１２４に格納する。
統計処理部１２２は、各会議参加者の音源位置の推定結果を用いて、図５（ａ）のような２次元平面座標上に各会議参加者の位置、発話音量、および発話回数をマッピングした音声分布マップを作成する。

図５（ｂ）は、動作決定部１２３が音声入力ロボット１００の移動先を決定する様子を示す図である。
動作決定部１２３は、図５（ａ）に示す音声分布マップおよび設定部１２５が受け取った設定情報に基づき、音声入力ロボット１００が集音する会議参加者３の発話音量が最も大きくなるように、音声入力ロボット１００の移動先を決定する。

図５（ｃ）は、音声入力ロボット１００が移動した後の音声分布マップである。
音声入力ロボット１００の空間位置が移動することにより、音声入力ロボット１００が集音する会議参加者３の発話音量（円の大きさ）が最も大きくなり、他の会議参加者の発話音量は小さくなる。
なお、音声入力ロボット１００が移動しても発話回数自体は変化しないため、各円の輪数は変化しない。

以上、統計処理部１２２が作成する音声分布マップの例を説明した。

なお、動作決定部１２３は、音声入力ロボット１００自体から発生する音や、音声入力ロボット１００が移動することで集音状態が変化することを考慮し、移動先を決定した後すぐに移動指示を出すのではなく、以下のような条件のいずれかが満たされたときに動作部１１２へ移動指示を出す。

（条件１）ある単位時間、各音源からの音声の発生がない状態が継続する。
（条件２）各音源から発生する音量が一定レベル以下の状態になる。

また、音声入力ロボット１００の移動中は、上記と同様に、音声入力ロボット１００自体から発生する音や、音声入力ロボット１００が移動することで集音状態が変化することを考慮し、統計処理を中断する。
具体的には、動作決定部１２３より統計処理部１２２にその旨を指示するとよい。

図６は、聴き手側の望む音声状況（音声入力ロボット１００の集音状態）になるように音声入力ロボット１００を動作させ、音声環境を改善する動作フローである。ここでは、遠隔会議の場面を想定する。以下、図６の各ステップについて説明する。

（Ｓ６０１）
音声入力部１１１を通しての音声のやり取りが終了するまで、以下のステップが繰り返される。音声のやり取りが終了するとは、例えば遠隔会議が終了することを指す。
（Ｓ６０２）
音声入力部１１１は、音声入力ロボット１００が存在する空間、ここでは発話側の会議室の音声を取得する。取得した音声は、ロボット制御部１２０へ送信される。

（Ｓ６０３）
音声情報処理部１２１は、音声入力部１１１から受け取った音声に基づき、音源位置の推定、推定音源の音量、推定音源の音声出力回数、などの演算処理を実行する。また、音声入力部１１１から受け取った音声を会議端末２００に送信する。
（Ｓ６０４）
音声情報処理部１２１は、ステップＳ６０３の結果をデータベース１２４に格納する。
（Ｓ６０５）
音声入力ロボット１００が移動中である場合はステップＳ６１１へ進み、移動中でない場合はステップＳ６０６へ進む。

（Ｓ６０６）
統計処理部１２２は、データベース１２４に格納されている各データ、および設定部１２５が受け取った設定情報（聴き手側が望む音声環境）に基づき、先に説明した統計処理を実行する。
（Ｓ６０７）
統計処理部１２２は、ステップＳ６０６の処理結果に基づき、図３〜図５で説明したような音声分布マップを作成する。作成した音声分布マップは、任意のデータ形式でデータベース１２４に格納する。

（Ｓ６０８）
動作決定部１２３は、ステップＳ６０７で作成された音声分布マップ、および設定部１２５が受け取った設定情報に基づき、音声環境を聴き手側が望むように改善するために、音声入力ロボット１００の位置を変更する必要があるか否かを判定する。
位置を変更する必要がある場合はステップＳ６０９へ進み、必要がない場合はステップＳ６０２に戻って繰り返し処理を継続する。
（Ｓ６０９）
動作決定部１２３は、ステップＳ６０７で作成された音声分布マップ、および設定部１２５が受け取った設定情報に基づき、音声入力ロボット１００の移動先位置を決定する。

（Ｓ６１０）
動作決定部１２３は、音声入力ロボット１００の移動・動作を開始・実行してよいか否かを判断する。ここでの判断とは、上述の条件１〜２が満たされているか否かを判断することを指す。
音声入力ロボット１００の移動・動作を許可する場合はステップＳ６１１へ進み、許可しない場合はステップＳ６０２に戻って繰り返し処理を継続する。
（Ｓ６１１）
動作決定部１２３は、動作部１１２に動作指令を出す。動作部１１２は、その動作指令に基づき音声入力ロボット１００を駆動して音声入力部１１１の空間位置を可変する。

以上、音声入力ロボット１００を動作させて音声環境を改善するフローを説明した。
音声入力ロボット１００を動作させることにより、音声入力部１１１の集音状態が聴き手側の望む状態に変化する。

以上のように、本実施の形態１によれば、複数の音源位置から生じる音声を設定部１２５が受け取った設定情報に合致する条件の下で全体的に収集することができるので、遠隔会議のように複数の人間が参加する音声コミュニケーションを効果的に支援することができる。

また、本実施の形態１によれば、例えば遠隔会議のように音声入力手段を通して音声のやり取りを行う環境において、聴き手側の望む音声状況（音声入力部１１１の集音状態）となるように音声入力ロボット１００を移動させて音声環境を改善することができる。

また、本実施の形態１によれば、聴き手側の望む音声環境を得るという受話者側の利点以外にも、発話者側にとっての利点もある。

従来の遠隔会議に関する技術では、発話状況が聴き手側にどのように聴こえているかについて発話者側へのフィードバックが乏しい。
例えば、聴き手側から「声がよく聴こえない」といった会話によるフィードバックを得る以外に、フィードバックを得る手段がない。したがって、聴き手側が会話によるフィードバックをしなければ、発話者側が得られるフィードバックはない。
また、聴き手側から会話によるフィードバックを都度行っているようでは、円滑なコミュニケーションの妨げになる。

この課題につき、本実施の形態１によれば、発話者側の会議空間において音声入力ロボット１００が実際に移動することそのものが、聴き手側が集音状態の改善を望んでいるというフィードバックを発話者に与えることになる。
発話者側は、例えば音声入力ロボット１００が自分に近づいてくるといった動作を見ることで、自分の発話が聴き手側によく聴こえていないのではないか、といったことに気づくことができる。

この点、音声信号の増幅演算処理などのソフトウェア処理によって集音状態を改善することも考えられる。
これに対し、本実施の形態１では、音声入力ロボット１００自体が移動するという動作により、集音状態の改善と、発話者へのフィードバックとを、同時に行うことができるのである。

実施の形態２．
実施の形態１では、音声入力ロボット１００が移動する際に、音声入力ロボット１００自身から発生する音の影響や、音声入力ロボット１００が移動することによる集音状態の変化に鑑み、所定の条件を満たすまでは音声入力ロボット１００の移動を許可しないこととした。

こうした動作を行う場合、音声入力ロボット１００に対する移動指示が出てから実際に移動するまでにタイムラグが生じる。したがって、音声入力ロボット１００の移動により発話者側へ聴き手側の要望を間接的にフィードバックするのが遅れてしまう。
音声入力ロボット１００の移動やフィードバックが遅れれば、その分だけ聴き手側の要望が反映されるのが遅れ、発話を聴き取りづらい状態が継続することを余儀なくされる。

そこで、本実施の形態２では、上述のようなフィードバックの遅れを解消し、発話者側の注意を喚起して発話状況の改善（発話者が位置を変える、音量を上げる、など）を促すことを図る。

図７は、本発明の実施の形態２に係る遠隔会議支援システムの構成図である。
本実施の形態２に係る遠隔会議支援システムは、実施の形態１の図１で説明した構成に加え、ロボット本体部１１０に表示部１１３を備える。その他の構成は図１と概ね同様であるため、以下では差異点を中心に説明する。

表示部１１３は、動作決定部１２３の指示に基づき、音声入力ロボット１００の移動方向や移動位置を表示する機能部である。
動作決定部１２３は、統計処理部１２２の統計処理に基づき音声入力ロボット１００の移動先位置や方向を決定した後、動作部１１２にその旨の指示を出す前に、表示部１１３にその位置や方向を表示させる。

このように、音声入力ロボット１００に対する移動指示が生じた際に、実際の移動によって初めてその内容を表面化させるのではなく、事前に表示することにより、発話者は聴き手側にどのように音声が伝わっているのかを間接的に知ることができる。
また、表示のみを行うので、音声入力ロボット１００の移動による音声環境の変化を生じさせることもない。

一方、移動方向や位置を表示することによって、音声入力ロボット１００が移動しようとしていることを発話者に知らせ、以下の効果を発揮する。
即ち、音声入力ロボット１００が移動を開始するために、発話者は発話を一時中断し、音声入力ロボット１００の移動が完了するまで発話の間を空ける、といった行動をとることが可能になる。

図８は、表示部１１３の構成例を示す図である。図８（ａ）はプロジェクタを用いて表示部１１３を構成した例、図８（ｂ）はＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）を用いて表示部１１３を構成した例を示している。

図８（ａ）の例では、プロジェクタを用いて構成された表示部１１３は、音声入力ロボット１００が移動しようとしている方向を、矢印のような図形や文字等を用いて音声入力ロボット１００の周辺空間に投射する。
具体的には、例えば矢印の向きで移動方向を表し、矢印の長さで移動距離を表す、といった手法が考えられる。これ以外の手法でもよいし、矢印や文字以外の表現方法を用いてもよい。

図８（ｂ）の例では、音声入力ロボット１００の周辺に円周方向にＬＥＤを複数配置して、音声入力ロボット１００が移動しようとしている方向のＬＥＤを点灯させることにより、移動方向を表示する。

図８（ａ）（ｂ）いずれの場合でも、音声入力ロボット１００が移動しようとしていないときは表示をＯＦＦしておく。

図９は、本実施の形態２において、聴き手側の望む音声状況（音声入力ロボット１００の集音状態）になるように音声入力ロボット１００を動作させ、音声環境を改善する動作フローである。図６と同様に、遠隔会議の場面を想定する。以下、図９の各ステップについて説明する。

（Ｓ９０１）〜（Ｓ９０９）
図６のステップＳ６０１〜Ｓ６０９と同様であるため、説明を省略する。
（Ｓ９１０）
動作決定部１２３は、表示部１１３に音声入力ロボット１００の移動方向を表示するよう指示を出す。表示部１１３は、その指示に基づき音声入力ロボット１００の移動方向を表示する。

（Ｓ９１１）
動作決定部１２３は、音声入力ロボット１００の移動・動作を開始・実行してよいか否か、即ち実施の形態１で説明した条件１〜２が満たされているか否かを判断する。
音声入力ロボット１００の移動・動作を許可する場合はステップＳ９１２へ進み、許可しない場合はステップＳ９０１のループを継続する。
（Ｓ９１２）
図６のステップＳ６１１と同様であるため、説明を省略する。

以上、本実施の形態２において、音声入力ロボット１００を動作させて音声環境を改善するフローを説明した。

表示部１１３の表示内容は、必ずしも音声入力ロボット１００の移動先に関する情報のみでなくともよい。即ち、聴き手側が聴取している集音状態を、直接・間接を問わず発話者に何らかの形でフィードバックすることができればよい。
例えば、発話を中断したくはないが、現在の発話内容に対して質問がある、といった聴き手側の意思を表示して発話者にその旨をフィードバックしてもよい。このような表示により、コミュニケーションの円滑を図ることができる。

このように、少なくとも集音状態を示唆する情報を発話者に通知する手段を備えることにより、本実施の形態２と同様の効果を発揮することができるのである。

以上のように、本実施の形態２によれば、表示部１１３は、音声入力ロボット１００が移動しようとしていることを事前に表示するので、聴き手側で音声がどのように聴こえているかを発話者に間接的にフィードバックすることが可能となる。これにより、発話者は聴き手側を意識した発話を行うことができる。
フィードバックを得た発話者は、音声入力ロボット１００が移動しようとしている方向から、自己の発話状態を変更する、音声入力ロボット１００の移動開始条件を満たすように発話の間を取る、といった対応を取ることができる。

実施の形態３．
以上の実施の形態１〜２では、音声情報処理部１２１は音声入力部１１１から受け取った音声をそのまま会議端末２００に送信することとした。
音声情報処理部１２１は、必要に応じて、音声入力部１１１から受け取った音声に対して、発話者側のノイズ除去、その他のノイズキャンセリング処理などを施した上で、会議端末２００に送信するようにしてもよい。

ここでいう発話者側のノイズとは、例えばＰＣのファン動作音などが挙げられる。
なお、ノイズキャンセリング処理を施す際には、データベース１２４に蓄積された音声データを用いて必要な統計処理や学習処理を行うとよい。

実施の形態４．
特許文献１〜３に記載されているような従来の技術では、対話ロボットが以後の動作を実行する方向を絞り込むために音源位置を推定し、動作方向の候補から外れた音源に関しては、以後の処理対象から除外している。
一方、以上の実施の形態１〜３では、推定した音源位置や音量を除外するといった、音源の取捨選択は行わない。
これは、従来の技術のように対話ロボットと発話者が１対１で対話することを意識した技術と異なり、本発明では複数の発話者の音声を集音することを目的としたものであることによる。
即ち本発明では、音源位置を処理対象から除外する必要はないため、音源位置の取捨選択は行わないのである。

ただし、聴き手側が発した音声を発話者側で音声出力するスピーカ等の音声出力手段に関しては、発話者側の音源位置推定には不要であるため、例外的に処理対象から除外してもよい。これは、上述の各実施の形態で共通である。

実施の形態５．
図３〜図５において、音声分布マップを２次元平面座標上で表した例を説明したが、３次元空間座標上に音声分布をマッピングしてもよい。例えば、音声の大きさや発話回数を高さで表現する、といった手法が考えられる。後者の場合は、円の輪数が等高線のように用いられて高さが表現されるイメージとなる。

さらには、音声入力部１１１の配置や音声入力ロボット１００の移動範囲を３次元に拡張してもよい。必要な移動手段は適宜設ける。
例えば遠隔会議では、発話者がノートパソコンを自己の目の前に広げて会議を行うことがあり、ノートパソコンが壁になって音声収集に影響を与える。そこで、上記のように高さ方向にも音声入力部１１１の配置や音声入力ロボット１００の移動範囲を拡張し、より柔軟な音声収集を行うことができるようにするとよい。

実施の形態６．
以上の実施の形態１〜５において、ロボット制御部１２０に、音声入力ロボット１００の自己位置を推定する機能部を設けてもよい。
例えば、図２（ａ）で説明した自走式構成の場合は、車輪の回転方向、回転数、車輪直径などの値を用いて自己位置を推定する。
図２（ｂ）で説明した固定可動式構成の場合は、アームの長さ、アームの姿勢（ヨー・ピッチ角）などの値を用いて自己位置を推定する。
自己位置推定を用いることにより、図３〜図５で説明した音声分布マップは、音声入力ロボット１００の位置を中心とした相対座標系ではなく、絶対座標系のマップとなる。絶対座標軸上の音源における最大／最小音量、発話発生頻度などに基づき、絶対座標上における音声入力ロボット１００の理想位置が求められる。
これにより、音声入力ロボット１００の理想位置を素早く判断することができる。

実施の形態７．
以上の実施の形態１〜６では、説明の便宜上、発話者側に音声入力ロボット１００を設置し、聴き手側に会議端末２００を設置した例を説明した。
しかし、遠隔会議のような双方向のコミュニケーションでは、双方が発話を行うので、双方の拠点に音声入力ロボット１００と会議端末２００を設置して同等の環境となるように構成してもよい。

実施の形態１に係る遠隔会議支援システムの構成図である。音声入力ロボット１００の外観構成例を示す図である。音源位置のみを基準として作成した音声分布マップの例である。音源位置と各音源の音量を基準として作成した音声分布マップの例である。音源位置、各音源の音量、および各音源の音声発生頻度を基準として作成した音声分布マップの例である。聴き手側の望む音声状況になるように音声入力ロボット１００を動作させ、音声環境を改善する動作フローである。実施の形態２に係る遠隔会議支援システムの構成図である。表示部１１３の構成例を示す図である。実施の形態２において、聴き手側の望む音声状況になるように音声入力ロボット１００を動作させ、音声環境を改善する動作フローである。

符号の説明

１００音声入力ロボット、１１０ロボット本体部、１１１音声入力部、１１２動作部、１１３表示部、１２０ロボット制御部、１２１音声情報処理部、１２２統計処理部、１２３動作決定部、１２４データベース、１２５設定部。

Claims

音声の入力を受け付ける音声入力部と、
前記音声入力部が受け付けた音声の音源位置を推定する音源位置推定部と、
前記音声入力部の位置を可変する動作部と、
を備え、
前記音源位置推定部は、
前記音声入力部が受け付けた複数の音声の音源位置を推定し、
前記動作部は、
前記音源位置推定部の推定結果に基づき、
前記音声入力部と前記複数の音声の音源位置との間の位置関係を変更する
ことを特徴とする音声入力ロボット。
前記音源位置推定部の推定結果を時系列順に保持するデータベースを格納した記憶部を備えた
ことを特徴とする請求項１記載の音声入力ロボット。
前記データベースが保持する前記推定結果を統計処理する統計処理部を備えた
ことを特徴とする請求項２記載の音声入力ロボット。
前記統計処理部は、
前記統計処理の結果を当該音声入力ロボット周辺の２次元平面座標上または３次元空間座標上にマッピングし、そのマッピング結果を前記記憶部に格納する
ことを特徴とする請求項３記載の音声入力ロボット。
前記動作部は、
前記マッピング結果に基づき前記位置関係を変更する
ことを特徴とする請求項４記載の音声入力ロボット。
前記位置関係を指定する設定情報を受け付ける設定入力部を備え、
前記動作部は、
前記マッピング結果に基づき、
前記位置関係が前記設定情報で指定される位置関係となるように、
前記音声入力部の位置を可変する
ことを特徴とする請求項４記載の音声入力ロボット。
各前記音声に対する前記音声入力部の集音状態を通知する手段を備えた
ことを特徴とする請求項１ないし請求項６のいずれかに記載の音声入力ロボット。
各前記音声に対する前記音声入力部の集音状態を表示する表示部を備えた
ことを特徴とする請求項１ないし請求項６のいずれかに記載の音声入力ロボット。
前記動作部の可変方向を可変実行前に表示する表示部を備えた
ことを特徴とする請求項１ないし請求項６のいずれかに記載の音声入力ロボット。
前記動作部は、
前記音源位置推定部の推定結果に基づき、
各前記音源位置から前記音声入力部までの距離が等しくなるように、
前記音声入力部の位置を可変する
ことを特徴とする請求項１ないし請求項９のいずれかに記載の音声入力ロボット。
前記動作部は、
前記音源位置推定部の推定結果に基づき、
前記音声入力部が受け取る各前記音声の集音音量が等しくなるように、
前記音声入力部の位置を可変する
ことを特徴とする請求項１ないし請求項９のいずれかに記載の音声入力ロボット。
前記動作部は、
前記音源位置推定部の推定結果に基づき、
前記音源位置のうち特定のものから生じる音声の集音音量が所定条件を満たすように、
前記音声入力部の位置を可変する
ことを特徴とする請求項１ないし請求項９のいずれかに記載の音声入力ロボット。
請求項１ないし請求項１２のいずれかに記載の音声入力ロボットと、
音声を出力する音声出力部を備えた端末と、
を有し、
前記音声入力ロボットと前記端末はネットワークを介して接続され、
前記音声入力ロボットは、
前記ネットワークを介して前記音声入力部が受け付けた音声を前記端末に送信し、
前記端末は、
その音声を受信して前記音声出力部よりその音声を音声出力する
ことを特徴とする遠隔会議支援システム。
遠隔会議を支援する方法であって、
音声の入力を受け付ける音声入力部と、
前記音声入力部が受け付けた音声の音源位置を推定する音源位置推定部と、
前記音声入力部の位置を可変する動作部と、
を備えた音声入力ロボットを会議空間に配置しておき、
前記音声入力部が受け付けた複数の音声の音源位置を推定するステップと、
前記音源位置推定部の推定結果に基づき、前記音声入力部と前記複数の音声の音源位置との間の位置関係を変更するステップと、
を有することを特徴とする遠隔会議支援方法。