JP7180470B2

JP7180470B2 - コミュニケーションシステム、及びコミュニケーションシステムの制御方法

Info

Publication number: JP7180470B2
Application number: JP2019049961A
Authority: JP
Inventors: 美奈舩造; 航加来
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2022-11-30
Anticipated expiration: 2039-03-18
Also published as: US20200298412A1; JP2020151012A; CN111708428B; CN111708428A; US11491660B2

Description

本発明はコミュニケーションシステム、及びコミュニケーションシステムの制御方法に関する。

近年、ユーザとコミュニケーションをとるコミュニケーションシステムの開発が進んでいる。特許文献１には、ユーザの音声を認識してアクションする音声認識ロボットに関する技術が開示されている。

特開２００８－１２６３２９号公報

特許文献１に開示されている音声認識ロボットはマイクロフォンを保持する保持部を備えている。そして、カメラで撮影したユーザの画像を用いてユーザの口の位置を特定し、音声認識ロボットが保持しているマイクロフォンがユーザの口に近づくように、保持部の姿勢を制御している。

しかしながら、特許文献１に開示されている音声認識ロボットでは、保持部でマイクロフォンを保持するように構成しているため、装置構成が煩雑になるという問題がある。また、コミュニケーションシステムでは、ユーザとのコミュニケーションを適切に行う必要があるため、ユーザの音声を精度よく認識する必要がある。したがって、装置構成が簡易であると共に、ユーザの音声を精度よく認識することが可能なコミュニケーションシステムが必要とされている。

上記課題に鑑み本発明の目的は、装置構成が簡易であると共に、ユーザの音声を精度よく認識することが可能なコミュニケーションシステム、及びコミュニケーションシステムの制御方法を提供することである。

本発明の一態様にかかるコミュニケーションシステムは、本体部と、前記本体部に対して変位可能に取り付けられた頭部と、前記本体部に対する前記頭部の位置を制御可能な制御部と、前記頭部に設けられ、コミュニケーション相手であるユーザを撮影可能なカメラと、前記頭部に設けられ、特定の方向にビームフォーミングを形成可能なマイクロフォンと、を備える。前記制御部は、前記カメラで撮影された前記ユーザの画像を用いて前記ユーザの口の位置を特定し、前記特定されたユーザの口の位置が前記ビームフォーミングの領域に含まれるように、前記頭部の位置を制御する。

上述のコミュニケーションシステムでは、ユーザを撮影可能なカメラと、特定の方向にビームフォーミングを形成可能なマイクロフォンと、をコミュニケーションシステムの頭部に設けている。よって、マイクロフォンを保持する保持部を省略することができるので、コミュニケーションシステムの装置構成を簡易にすることができる。また、コミュニケーション相手であるユーザの画像を用いてユーザの口の位置を特定し、特定されたユーザの口の位置がマイクロフォンのビームフォーミングの領域に含まれるように、頭部の位置を制御している。したがって、ユーザの音声を精度よく認識することができる。

上述のコミュニケーションシステムにおいて、前記制御部は更に、前記頭部に設けられた目部の視線の向きを制御可能に構成されていてもよい。そして、前記制御部は、前記頭部の位置を制御した際に前記視線の向きが前記ユーザの顔の方向を向くように前記視線の向きを制御してもよい。

このように、視線の向きがユーザの顔の方向を向くように視線の向きを制御することで、コミュニケーションシステムの視線の向きがユーザから外れてしまうことを抑制することができる。したがって、ユーザに対してコミュニケーションシステムが話をよく聞いているという印象を与えることができる。

上述のコミュニケーションシステムにおいて、前記制御部は、前記カメラで撮影された前記ユーザの画像を用いて前記ユーザの顔の位置を特定し、前記視線の向きが前記ユーザの顔の方向を向くように前記視線の向きを制御してもよい。

上述のコミュニケーションシステムにおいて、前記制御部は、前記頭部の位置を制御した際の前記頭部の移動量に基づいて前記視線の向きを制御してもよい。

上述のコミュニケーションシステムにおいて、前記制御部は、前記カメラで撮影された前記ユーザの画像を用いて前記ユーザの口の位置の座標を算出してもよく、前記算出された口の位置の座標と、前記マイクロフォンおよび前記カメラの相対的な位置関係と、を用いて、前記頭部の移動量を算出してもよい。

本発明の一態様にかかるコミュニケーションシステムの制御方法は、本体部と、当該本体部に対して変位可能に取り付けられた頭部と、前記頭部に設けられ、コミュニケーション相手であるユーザを撮影可能なカメラと、前記頭部に設けられ、特定の方向にビームフォーミングを形成可能なマイクロフォンと、を備えるコミュニケーションシステムの制御方法であって、コミュニケーション相手であるユーザを撮影するステップと、前記撮影された前記ユーザの画像を用いて前記ユーザの口の位置を特定するステップと、前記特定されたユーザの口の位置が前記ビームフォーミングの領域に含まれるように、前記頭部の位置を制御するステップと、を備える。

上述のコミュニケーションシステムの制御方法では、コミュニケーション相手であるユーザの画像を用いてユーザの口の位置を特定し、特定されたユーザの口の位置がマイクロフォンのビームフォーミングの領域に含まれるように、頭部の位置を制御している。したがって、ユーザの音声を精度よく認識することができる。

上述のコミュニケーションシステムの制御方法において、前記頭部の位置を制御した際に前記視線の向きが前記ユーザの顔の方向を向くように前記視線の向きを制御するステップを更に備えていてもよい。

本発明により、装置構成が簡易であると共に、ユーザの音声を精度よく認識することが可能なコミュニケーションシステム、及びコミュニケーションシステムの制御方法を提供することができる。

実施の形態にかかるコミュニケーションシステムの外観構成の一例を示す正面図である。実施の形態にかかるコミュニケーションシステムの外観構成の一例を示す側面図である。実施の形態にかかるコミュニケーションシステムのシステム構成の一例を示すブロック図である。実施の形態にかかるコミュニケーションシステムの動作を説明するためのフローチャートである。実施の形態にかかるコミュニケーションシステムの動作を説明するための側面図である。実施の形態にかかるコミュニケーションシステムの動作を説明するための側面図である。実施の形態にかかるコミュニケーションシステムの動作を説明するための側面図である。実施の形態にかかるコミュニケーションシステムの動作を説明するための図である。実施の形態にかかるコミュニケーションシステムの動作を説明するための図である。実施の形態にかかるコミュニケーションシステムのハードウェア構成を示すブロック図である。

以下、図面を参照して本発明の実施の形態について説明する。
図１、図２はそれぞれ、本実施の形態にかかるコミュニケーションシステムの外観構成の一例を示す正面図、及び側面図である。図１、図２に示すように、本実施の形態にかかるコミュニケーションシステム１は、頭部１００および本体部１１０を備える。頭部１００は、本体部１１０に対して変位可能に取り付けられている。頭部１００には、耳部３１ａ、３１ｂ、目部３２ａ、３２ｂ、及び鼻部３３が設けられている。本体部１１０には、胴部３６、腕部３７ａ、３７ｂ、及び脚部３８ａ、３８ｂが設けられている。図１、図２では、一例として動物を模した外観を有する装置（ロボット）を示しているが、本実施の形態にかかるコミュニケーションシステムの外観構成についてはこれに限定されることはなく、任意に決定することができる。

耳部３１ａ、３１ｂにはそれぞれ、マイクロフォン１２ａ、１２ｂが設けられている。マイクロフォン１２ａ、１２ｂを用いることで、コミュニケーションシステム１の周辺の音（特にユーザの声）を収音することができる。本実施の形態においてマイクロフォン１２ａ、１２ｂは特定の方向にビームフォーミングを形成可能に構成されている。例えば図２に示すように、マイクロフォン１２ａは、特定の方向４１を中心に所定の角度広がった略円錐形のビームフォーミング４５を形成可能に構成されている。

マイクロフォン１２ａおよびマイクロフォン１２ｂは、各々独立にビームフォーミングを形成してもよく、また、マイクロフォン１２ａおよびマイクロフォン１２ｂの両方を用いて１つのビームフォーミングを形成してもよい。

例えば、マイクロフォン１２ａおよびマイクロフォン１２ｂが各々独立にビームフォーミングを形成する場合は、例えば、各々のマイクロフォン１２ａ、１２ｂに複数のマイクロフォン（例えば、無指向性のマイクロフォン）をそれぞれ設ける。そして、これら複数のマイクロフォンで収音した音声信号に対して各々ビームフォーミング処理を施すことで、特定の方向４１に指向性を有するビームフォーミング４５を各々のマイクロフォン１２ａ、１２ｂにおいて独立に形成することができる。

また、例えば、マイクロフォン１２ａおよびマイクロフォン１２ｂの両方を用いて１つのビームフォーミングを形成する場合は、マイクロフォン１２ａで収音した音声信号およびマイクロフォン１２ｂで収音した音声信号の両方を用いてビームフォーミング処理を施すことで、特定の方向４１に指向性を有するビームフォーミング４５を形成することができる。

例えば、ビームフォーミング処理は制御部１０で実施することができる。また、ビームフォーミング処理は、マイクロフォン１２のマイクアレーに内蔵されているＣＰＵで実施してもよい。また、本実施の形態では、各々のマイクロフォン１２ａ、１２ｂに指向性のマイクロフォンを用いてもよい。なお、マイクロフォン１２ａ、１２ｂは、耳部３１ａ又は耳部３１ｂのいずれか一方のみに設けられていてもよく、頭部１００における耳部３１ａ、３１ｂ以外の部分（例えば、額など）に設けられていてもよい。以下では、マイクロフォン１２ａとマイクロフォン１２ｂとを特に区別せずに言及する場合は、単にマイクロフォン１２と記載する。他の構成要素（目部３２等）についても同様である。

鼻部３３には、カメラ１１が設けられている。カメラ１１は、コミュニケーションシステム１の前方（特に、コミュニケーション相手であるユーザ）を撮影する。また、鼻部３３は、動物の鼻を模すために、頭部１００において前方に突出している。このようにカメラ１１を頭部１００の突出した位置に設けることで、カメラ１１からコミュニケーションシステム１の前方を広く見渡すことが可能となる（つまり、広角に撮影することができる）。

本実施の形態にかかるコミュニケーションシステム１では、マイクロフォン１２ａ、１２ｂが耳部３１ａ、３１ｂに固定されており、また、カメラ１１が鼻部３３に固定されている。したがって、本体部１１０に対して頭部１００を動かした場合であっても、マイクロフォン１２ａ、１２ｂとカメラ１１との相対的な位置関係は固定されたままとなる。

また、図１に示すように、頭部１００には目部３２ａ、３２ｂが設けられている。各々の目部３２ａ、３２ｂは、ディスプレイ１４ａ、１４ｂを用いて構成することができる。つまり、各々のディスプレイ１４ａ、１４ｂに目の画像３４ａ、３４ｂを表示することで、コミュニケーションシステム１の視線を表現することができる。コミュニケーションシステム１の視線の向きは、ディスプレイ１４ａ、１４ｂに表示される目の画像３４ａ、３４ｂを変更することで、制御することができる。なお、目についての画像は、目球のみならず、瞼、眉、涙などの目に関連する要素の画像を含んでいてもよい。また、ディスプレイ１４ａ、１４ｂには、例えば液晶パネルや有機ＥＬパネルを用いることができる。

なお、目部３２ａ、３２ｂはディスプレイ１４ａ、１４ｂ以外にも、例えば目を模した模型と当該目の模型を駆動するサーボモータとを用いて構成してもよい。この場合は、サーボモータで目の模型を変位させることで、コミュニケーションシステム１の視線の向きを変更することができる。

次に、本実施の形態にかかるコミュニケーションシステムのシステム構成について、図３に示すブロック図を用いて説明する。図３に示すように、本実施の形態にかかるコミュニケーションシステム１は、カメラ１１、マイクロフォン１２、駆動部１３、ディスプレイ１４、スピーカ１５、及び制御部１０を備える。

図３のブロック図に示すカメラ１１は、図１に示したコミュニケーションシステム１の鼻部３３に設けられているカメラ１１に対応している。カメラ１１は、コミュニケーションシステム１の前方（具体的には、コミュニケーション相手であるユーザ）を撮影し、撮影した画像データを制御部１０に供給する。

図３のブロック図に示すマイクロフォン１２は、図１に示したコミュニケーションシステム１の耳部３１ａ、３１ｂに設けられているマイクロフォン１２ａ、１２ｂに対応している。マイクロフォン１２は、コミュニケーションシステム１の周辺の音（特にユーザの声）を収音し、収音した音声信号を制御部１０に供給する。例えば、マイクロフォン１２は複数のマイクロフォン（例えば、無指向性のマイクロフォン）で構成されており、制御部１０は、これらのマイクロフォンで収音した音声信号に対してビームフォーミング処理を施すことで、特定の方向４１に指向性を有するビームフォーミング４５（図２参照）を形成することができる。

駆動部１３は、頭部１００を駆動する。具体的には、駆動部１３は、制御部１０から供給された制御信号に応じて、頭部１００を駆動する。例えば、駆動部１３は、頭部１００が下または上を向くように、また、左または右を向くように駆動することができる。また、駆動部１３は、頭部１００が斜め方向を向くように駆動してもよい。例えば駆動部１３は、サーボモータ等を用いて構成することができる。

図３のブロック図に示すディスプレイ１４は、図１に示したコミュニケーションシステム１の目部３２ａ、３２ｂに設けられているディスプレイ１４ａ、１４ｂに対応している。ディスプレイ１４は、制御部１０から供給された制御信号に応じた目の画像３４ａ、３４ｂ（図１参照）を表示するように構成されている。つまり、制御部１０は、各々のディスプレイ１４ａ、１４ｂに表示される目の画像３４ａ、３４ｂ（図１参照）を制御することで、コミュニケーションシステム１の視線の向きを制御する。

スピーカ１５は、制御部１０から供給された音声信号に応じた音声を出力する。これにより、コミュニケーションシステム１は、ユーザ（コミュニケーション相手）に対して話しかけることができる。

制御部１０は、コミュニケーションシステム１の各種の制御を行う。具体的には、制御部１０は、カメラ１１から画像データを入力し、マイクロフォン１２から音声信号を入力する。また、制御部１０は、頭部１００の移動量に応じた制御信号を駆動部１３に出力する。また、制御部１０は、ディスプレイ１４に目の画像を表示するための制御信号をディスプレイ１４に出力する。また、制御部１０は、スピーカ１５から音声を出力するための音声信号をスピーカ１５に出力する。

また、本実施の形態にかかるコミュニケーションシステム１では、制御部１０は、カメラ１１で撮影されたユーザの画像を用いてユーザの口の位置を特定し、特定されたユーザの口の位置がマイクロフォン１２のビームフォーミングの領域に含まれるように、頭部１００の位置を制御する。

具体的には、図３に示すように、制御部１０は、位置特定部２１、移動量算出部２２、及び制御信号出力部２３を備える。位置特定部２１は、カメラ１１で撮影されたユーザの画像を用いてユーザの口の位置を特定する。このとき、位置特定部２１は、カメラ１１で撮影されたユーザの画像を用いて、ユーザの口の位置の座標を算出してもよい。

移動量算出部２２は、ユーザの口の位置がマイクロフォン１２のビームフォーミングの領域に含まれるように頭部１００の位置を移動させる際の、頭部１００の移動量を算出する。例えば、移動量算出部２２は、ユーザの口の位置の座標と、マイクロフォン１２およびカメラ１１の相対的な位置関係と、を用いて、頭部１００の移動量を算出してもよい。なお、頭部１００の移動量の具体的な算出方法については後述する。

制御信号出力部２３は、移動量算出部２２で算出された頭部１００の移動量に応じた制御信号（すなわち、駆動部１３の制御信号）を生成して、駆動部１３に出力する。

また、本実施の形態にかかるコミュニケーションシステム１において、制御部１０は、頭部１００に設けられた目部３２の視線の向きを制御可能に構成されていてもよい。例えば、制御部１０は、頭部１００の位置を制御した際に、視線の向きがユーザの顔の方向を向くように視線の向きを制御してもよい。

また、制御部１０は、カメラ１１で撮影されたユーザの画像を用いてユーザの顔の位置を特定し、視線の向きがユーザの顔の方向を向くように視線の向きを制御してもよい。また、制御部１０は、頭部１００の位置を制御した際の頭部１００の移動量に基づいて、視線の向きを制御してもよい。

次に、本実施の形態にかかるコミュニケーションシステムの動作について説明する。図４は、本実施の形態にかかるコミュニケーションシステムの動作を説明するためのフローチャートである。図５～図７は、本実施の形態にかかるコミュニケーションシステムの動作を説明するための側面図である。以下の説明では、一例として、コミュニケーションシステム１がテーブル４０の上に置かれており、ユーザ５０とコミュニケーションシステム１とが向かい合っている場合について説明する。

まず、コミュニケーションシステム１は、コミュニケーション相手であるユーザ５０を撮影する（図４のステップＳ１）。具体的には図５に示すように、コミュニケーションシステム１の鼻部３３に設けられているカメラ１１を用いて、ユーザ５０を撮影する。なお、この時点では、マイクロフォン１２のビームフォーミングの中心方向４１は、ユーザ５０の口５１の位置よりも上の位置を向いている。

次に、コミュニケーションシステム１は、ステップＳ１で撮影されたユーザ５０の画像を用いてユーザ５０の口５１の位置を特定する（図４のステップＳ２）。すなわち、図８に示すように、撮影された画像６０にはユーザ５０が写っているので、制御部１０の位置特定部２１（図３参照）は、撮影された画像６０に画像処理を施すことで、ユーザ５０の口５１の位置を特定する。例えば、位置特定部２１は、ユーザ５０の口５１の位置の中心座標（Ｘ_２、Ｙ_２）を求める。

具体的に説明すると、位置特定部２１は、撮影された画像６０に顔検出処理を施してユーザ５０の顔を特定する。その後、位置特定部２１は、特定したユーザ５０の顔の中から口唇を部分的に抽出する。口唇を抽出する手法としては、顔の輪郭内部に含まれる領域の中で、予め記憶された複数の口唇データと略一致する部分を口唇として認識し、その認識した部分を顔中の口唇として抽出することができる。また、位置特定部２１は、このようにして抽出した口唇の輪郭の重心位置を口唇の中心点、つまりユーザ５０の口５１の中心座標（Ｘ_２、Ｙ_２）として特定する。

次に、コミュニケーションシステム１は、特定されたユーザ５０の口５１の位置がビームフォーミングの領域に含まれるように、頭部１００の位置を制御する（図４のステップＳ３）。つまり、図６に示すように、コミュニケーションシステム１の頭部１００が下を向くように、頭部１００の位置を制御する。これにより、マイクロフォン１２のビームフォーミングの中心方向４１がユーザ５０の口５１の方向を向くようになる。よって、ユーザ５０の口５１の位置がビームフォーミングの領域に含まれるようになる。

例えば、制御部１０の移動量算出部２２（図３参照）は、ユーザ５０の口５１の位置の座標と、マイクロフォン１２およびカメラ１１の相対的な位置関係と、を用いて、コミュニケーションシステム１の頭部１００の移動量を算出する。

具体的には、マイクロフォン１２及びカメラ１１は頭部１００に固定されているので、マイクロフォン１２とカメラ１１の相対的な位置関係は固定されている。したがって、図８に示すように、撮影された画像６０において、カメラの中心位置６１とビームフォーミングの中心位置６２（ビームフォーミングの中心方向４１をユーザ５０に投影した位置）との相対的な位置関係は、コミュニケーションシステム１とユーザ５０との距離を用いて求めることができる。

つまり、図９に示すように、カメラ１１の中心方向４３とビームフォーミングの中心方向４１とが成す角度αは一定であるので、コミュニケーションシステム１とユーザ５０との距離を用いることで、図８に示すカメラの中心位置６１（Ｘ_０、Ｙ_０）に対するビームフォーミングの中心位置６２（Ｘ_１、Ｙ_１）を求めることができる。

例えば、図９に示す例において、コミュニケーションシステム１に対するユーザ５０の位置が位置Ａ１である場合は、図８に示すカメラの中心位置６１とビームフォーミングの中心位置６２との距離ＣはＣ１となる。同様に、コミュニケーションシステム１に対するユーザ５０の位置が位置Ａ２（図９参照）である場合は、図８に示すカメラの中心位置６１とビームフォーミングの中心位置６２との距離ＣはＣ２となる。このように、コミュニケーションシステム１とユーザ５０との距離を用いることで、カメラの中心位置６１とビームフォーミングの中心位置６２との距離Ｃを求めることができる。

ここで、コミュニケーションシステム１とユーザ５０との距離は、撮影されたユーザ５０の顔画像サイズを用いて推定してもよく、また、距離センサや３次元位置測定センサなどのセンサを用いてコミュニケーションシステム１とユーザ５０との距離を別途測定してもよい。ユーザの顔画像サイズを使用してコミュニケーションシステム１とユーザ５０との距離を推定する場合は、事前に、平均的な顔の大きさを持つユーザについて、カメラ画像上のユーザの顔画像サイズと距離との相関データを予め入力しておく。そして、カメラ１１で撮影されたカメラ画像上のユーザの顔画像サイズと、予め入力された相関データと、に基づいて、ユーザとの距離を推定することができる。

なお、カメラ１１の中心方向とビームフォーミングの中心方向４１とが平行である場合は、画像６０中におけるカメラの中心位置６１とビームフォーミングの中心位置６２との相対的な位置関係は一定となる。

図８に示すように、カメラの中心位置６１の座標は（Ｘ_０、Ｙ_０）、ビームフォーミングの中心位置６２の座標は（Ｘ_１、Ｙ_１）、ユーザ５０の口５１の位置の中心座標は（Ｘ_２、Ｙ_２）である。したがって、この場合は、コミュニケーションシステム１の頭部１００の移動量Ｄは、（Ｘ_２－Ｘ_１、Ｙ_２－Ｙ_１）となる。

このような手法を用いることで、制御部１０の移動量算出部２２（図３参照）は、コミュニケーションシステム１の頭部１００の移動量Ｄを算出することができる。また、制御信号出力部２３は、移動量算出部２２で算出された頭部１００の移動量Ｄに応じた制御信号（すなわち、駆動部１３の制御信号）を生成して、駆動部１３に出力する。そして、駆動部１３がこの制御信号に応じて駆動することで、頭部１００が移動量Ｄ、移動する。

なお、上記説明では、マイクロフォン１２のビームフォーミングの中心方向４１がユーザ５０の口５１の方向を向くように制御する場合について説明した。しかし本実施の形態では、ユーザ５０の口５１がビームフォーミングの領域に含まれるのであれば、必ずしもビームフォーミングの中心方向４１がユーザ５０の口５１の方向を向くようにしなくてもよい。

すなわち、図２に示した略円錐形４５であるビームフォーミングの底面４８は、図８において、ビームフォーミングの中心位置６２を中心とした略円形状（略円錐形４５のビームフォーミングをユーザ５０に投影した形状）となる。したがって、本実施の形態では、ユーザ５０の口５１の位置がビームフォーミングの底面４８に含まれるのであれば、必ずしもビームフォーミングの中心方向４１とユーザ５０の口５１の位置とが一致するように制御しなくてもよい。

次に、コミュニケーションシステム１は、コミュニケーションシステム１の視線の向きがユーザ５０の顔の方向を向くように視線の向きを制御する（図４のステップＳ４）。図６に示したように、マイクロフォン１２のビームフォーミングの中心方向４１がユーザ５０の口５１の方向を向くように、コミュニケーションシステム１の頭部１００を移動させると、この頭部１００の移動に伴ってコミュニケーションシステム１の視線の向き４２も移動する。このため、コミュニケーションシステム１の視線の向き４２がユーザ５０の顔から外れてしまう。

このように、コミュニケーションシステム１の視線の向き４２がユーザ５０の顔から外れてしまうと、ユーザ５０に対して話を聞いていないという印象を与えてしまう場合がある。本実施の形態では、図７に示すように、コミュニケーションシステム１の視線の向き４２がユーザ５０の顔の方向（例えば目の位置）を向くように視線の向きを制御することで、ユーザ５０に話を聞いていないという印象を与えることを抑制することができる。換言すると、ユーザ５０に対してコミュニケーションシステム１が話をよく聞いているという印象を与えることができる。

例えば、制御部１０は、カメラ１１で撮影されたユーザの画像を用いてユーザの顔の位置を特定し、視線の向きがユーザの顔の方向を向くように視線の向きを制御してもよい。具体的には、図８に示すように、撮影された画像６０に画像処理を施すことで、ユーザ５０の顔の位置を特定する。例えば、撮影された画像６０に画像処理を施すことで、ユーザ５０の両目の位置を特定し、この両目の中心の位置を目標位置としてもよい。制御部１０は、コミュニケーションシステム１の視線の向きがこの目標位置を向くように、ディスプレイ１４に目の画像３４を表示する。

また、制御部１０は、頭部１００の位置を制御した際の頭部１００の移動量に基づいて、視線の向きを制御してもよい。具体的には、図５に示した初期状態において、予めコミュニケーションシステム１の視線の向きをユーザ５０に合わせていた場合は、図６に示したように、コミュニケーションシステム１の頭部１００を移動させた際にコミュニケーションシステム１の視線の向き４２も移動する。この視線の向き４２の移動量は、図８に示した頭部１００の移動量Ｄに対応している。したがって、制御部１０は、頭部１００の移動量Ｄを用いることで、視線の向き４２をユーザ５０に合わせることができる。つまり、頭部１００の移動量Ｄの分だけ、視線の向き上側に戻す処理をする。

また、制御部１０は、カメラ１１で撮影されたユーザの画像、及び頭部１００の位置を制御した際の頭部１００の移動量の２つを組み合わせて、視線の向きを制御してもよい。

なお、ステップＳ４の処理（視線の向きを制御する処理）は、ステップＳ３の処理（頭部１００の位置を制御する処理）と同時に実施してもよい。このように、頭部１００の位置の制御（ステップＳ３）と視線の向きの制御（ステップＳ４）とを同時に実施することで、コミュニケーションシステム１の動作を自然な動作とすることができる。

また、ステップＳ４の処理（視線の向きを制御する処理）は適宜省略してもよい。例えば、頭部１００の位置を制御する処理（ステップＳ３）において、頭部１００の移動量Ｄが少ない場合など、コミュニケーションシステム１の視線の向きを動かさなくてもユーザ５０に違和感を与えないような場合には、ステップＳ４の処理を省略してもよい。

以上で説明したように、本実施の形態にかかるコミュニケーションシステム１では、コミュニケーション相手であるユーザを撮影可能なカメラ１１と、特定の方向にビームフォーミングを形成可能なマイクロフォン１２と、をコミュニケーションシステム１の頭部１００に設けている。よって、マイクロフォンを保持する保持部を省略することができるので、コミュニケーションシステム１の装置構成を簡易にすることができる。

また、本実施の形態にかかるコミュニケーションシステム１では、コミュニケーション相手であるユーザを撮影し、撮影されたユーザの画像を用いてユーザの口の位置を特定している。そして、特定されたユーザの口の位置がマイクロフォン１２のビームフォーミングの領域に含まれるように、頭部の位置を制御している。このように、本実施の形態では、ユーザの口の位置がマイクロフォン１２のビームフォーミングの領域に含まれるようにしているので、ユーザの音声を精度よく認識することができる。

したがって本実施の形態にかかる発明により、装置構成が簡易であると共に、ユーザの音声を精度よく認識することが可能なコミュニケーションシステム、及びコミュニケーションシステムの制御方法を提供することができる。

更に本実施の形態にかかるコミュニケーションシステム１では、視線の向きがユーザの顔の方向を向くように視線の向きを制御している。よって、頭部１００の位置が移動した際に、コミュニケーションシステム１の視線の向きがユーザの顔から外れてしまうことを抑制することができる。したがって、ユーザ５０に対してコミュニケーションシステム１が話をよく聞いているという印象（親近感）を与えることができる。

なお、図５～図８で説明したコミュニケーションシステム１の動作では、一例としてコミュニケーションシステム１が下方向を向く動作について説明した。しかし本実施の形態では、コミュニケーションシステム１の頭部１００が上を向くように、また、左または右を向くように、更には斜め方向を向くように構成してもよい。

また、本実施の形態では、コミュニケーションシステム１が頭部１００を動かす際に、腕部３７ａ、３７ｂも動かすように構成してもよい。例えば、図６、図７に示したように、コミュニケーションシステム１が頭部１００を下に向けた際に、腕部３７ａ、３７ｂを上方向に移動させて、腕部３７ａ、３７ｂの先端が耳部３１ａ、３１ｂに近づくようにしてもよい。これにより、ユーザの話をよく聞いているような仕草をコミュニケーションシステム１にさせることができる。

また、例えば、ユーザの声の音量が所定の音量よりも小さい場合に、腕部３７ａ、３７ｂの先端が耳部３１ａ、３１ｂに近づくような動作をコミュニケーションシステム１にさせることで、ユーザの声が小さいことをユーザに伝えることができる。

上述の説明では、一例としてコミュニケーションシステム１の鼻部３３にカメラ１１を設け、耳部３１ａ、３１ｂにマイクロフォン１２ａ、１２ｂを設けた構成を示した。しかし本実施の形態では、カメラ１１およびマイクロフォン１２を設ける位置はこれらに限定されることはなく、任意の位置に取り付けることができる。本発明は特に小型のコミュニケーションシステム（ロボット）に好適に用いることができる。よって、カメラ１１およびマイクロフォン１２は互いに近傍な位置に配置することが好ましい。

また、上述の説明では、自立歩行しないタイプのコミュニケーションシステム１について説明したが、本実施の形態ではコミュニケーションシステム１が自立して移動できるように構成してもよい。

図１０は、本実施の形態にかかるコミュニケーションシステムのハードウェア構成を示すブロック図である。本実施の形態にかかるコミュニケーションシステム１の制御部１０は、プロセッサ７１とメモリ７２とを備えている。そして、メモリ７２に格納されているプログラム（つまり、上述の制御部１０の動作を実現することができるプログラム）をプロセッサ７１で実行することで、上述の制御部１０の動作を実現することができる。なお、図１０では制御部１０以外の図示を省略している。

また、本実施の形態にかかるコミュニケーションシステムでは、制御部１０の動作の一部をサーバ８０（例えば、クラウドサーバ）において実施してもよい。サーバ８０は、プロセッサ８１とメモリ８２とを備えている。そして、メモリ８２に格納されているプログラム（つまり、上述の制御部１０の動作の一部を実施するためのプログラム）をプロセッサ８１で実行することで、制御部１０の動作の一部をサーバ８０で実施することができる。コミュニケーションシステム１とサーバ８０は、ネットワーク回線を介して接続されている。

例えば、制御部１０の動作のうち位置特定部２１（図３参照）の動作をサーバ８０において実施してもよい。すなわち、撮影されたユーザの画像を用いてユーザの口の位置を特定する処理をサーバ８０において実施してもよい。この場合、コミュニケーションシステム１は、カメラ１１で撮影された画像をサーバ８０に送信する。このとき、コミュニケーションシステム１は、送信するデータ容量を削減するために、撮影された画像から背景画像を切り取ってサーバ８０に送信してもよい（つまり、ユーザが写っている部分のみをサーバ８０に送信してもよい）。

そして、サーバ８０は、受信した画像に画像処理を施して、ユーザの口の位置を特定する。その後、サーバ８０は特定された口の位置の情報（口の位置の座標）をコミュニケーションシステム１に送信する。コミュニケーションシステム１の制御部１０は、受信した口の位置の情報を用いて、移動量算出処理を実施する。以降の動作については、上述したコミュニケーションシステム１の動作と同様であるので重複した説明は省略する。

また、サーバ８０は、ネットワーク回線を介して複数のコミュニケーションシステム１と接続されていてもよい。このような構成とすることで、複数のコミュニケーションシステム１を、共通のサーバ８０を用いて制御（管理）することができる。

以上、本発明を上記実施の形態に即して説明したが、本発明は上記実施の形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。

１コミュニケーションシステム
１０制御部
１１カメラ
１２マイクロフォン
１３駆動部
１４ディスプレイ
１５スピーカ
２１位置特定部
２２移動量算出部
２３制御信号出力部
３１ａ、３１ｂ耳部
３２ａ、３２ｂ目部
３３鼻部
３４ａ、３４ｂ目の画像
３６胴部
３７ａ、３７ｂ腕部
３８ａ、３８ｂ脚部
５０ユーザ
５１口
１００頭部
１１０本体部

Claims

本体部と、
前記本体部に対して変位可能に取り付けられた頭部と、
前記本体部に対する前記頭部の位置および前記頭部に設けられた目部の視線の向きを制御可能な制御部と、
前記頭部に設けられ、コミュニケーション相手であるユーザを撮影可能なカメラと、
前記頭部に設けられ、特定の方向にビームフォーミングを形成可能なマイクロフォンと、を備え、
前記制御部は、
前記目部の視線の向きが前記ユーザの顔の方向を向くように前記視線の向きを予め制御し、
前記カメラで撮影された前記ユーザの画像を用いて前記ユーザの口の位置を特定し、前記特定されたユーザの口の位置が前記ビームフォーミングの領域に含まれるように、前記頭部の位置を制御し、
前記頭部の移動によって前記視線の向きが前記ユーザの顔から外れた場合、前記視線の向きが前記ユーザの顔の方向を向くように、前記頭部の位置を制御した際の前記頭部の移動量に基づいて前記視線の向きを戻す処理をする、
コミュニケーションシステム。
前記制御部は、
前記カメラで撮影された前記ユーザの画像を用いて前記ユーザの口の位置の座標を算出し、
前記算出された口の位置の座標と、前記マイクロフォンおよび前記カメラの相対的な位置関係と、を用いて、前記頭部の移動量を算出する、
請求項１に記載のコミュニケーションシステム。
本体部と、当該本体部に対して変位可能に取り付けられた頭部と、前記頭部に設けられた目部と、前記頭部に設けられ、コミュニケーション相手であるユーザを撮影可能なカメラと、前記頭部に設けられ、特定の方向にビームフォーミングを形成可能なマイクロフォンと、を備えるコミュニケーションシステムの制御方法であって、
コミュニケーション相手であるユーザを前記カメラで撮影するステップと、
前記目部の視線の向きが前記ユーザの顔の方向を向くように前記視線の向きを予め制御するステップと、
前記カメラで撮影された前記ユーザの画像を用いて前記ユーザの口の位置を特定するステップと、
前記特定されたユーザの口の位置が前記ビームフォーミングの領域に含まれるように、前記頭部の位置を制御するステップと、
前記頭部の位置を制御するステップによって前記視線の向きが前記ユーザの顔から外れた場合、前記視線の向きが前記ユーザの顔の方向を向くように、前記頭部の位置を制御した際の前記頭部の移動量に基づいて前記視線の向きを戻すステップと、を備える、
コミュニケーションシステムの制御方法。