JP2017054065A

JP2017054065A - 対話装置および対話プログラム

Info

Publication number: JP2017054065A
Application number: JP2015179495A
Authority: JP
Inventors: 択磨松村; Takuma Matsumura; 哲溝口; Satoru Mizoguchi
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2017-03-16
Anticipated expiration: 2035-09-11
Also published as: JP6562790B2

Abstract

【課題】雑音耐性が向上された対話装置および対話プログラムを提供する。【解決手段】対話装置１００は、ユーザの画像を取得する取得手段（入力部１１０、取得部１３１、特定部１３６）と、ユーザとの対話を開始する際またはユーザとの対話を終了する際に、取得手段によって取得された画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングを決定する決定部１３２と、を備える。【選択図】図１

Description

本発明は、ユーザとの対話を行うための対話装置および対話プログラムに関する。

従来より、たとえば特許文献１に記載されているように、ユーザとの対話を行う対話装置が提案されている。ユーザと対話装置との対話は、ユーザがタッチ操作等を行わない状態（以下、「ハンズフリー状態」という）で開始される場合もある。この場合、対話装置は、たとえば、ユーザの音声（発話）が検出されたことに応じて、対話を開始する。

特開２００２−１８２８９６号公報

対話装置は、ユーザの音声以外の音、たとえばユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音が存在する雑音環境下におかれる場合がある。雑音環境下においては、対話装置が雑音をユーザの音声であると誤認識して対話が開始されてしまう可能性がある。誤認識によって、誤って対話が終了されてしまう可能性もある。

本発明は、上記問題点に鑑みてなされたものであり、雑音耐性が向上された対話装置および対話プログラムを提供することを目的とする。

本発明の一態様に係る対話装置は、ユーザとの対話を行うための対話装置であって、ユーザの画像を取得する取得手段と、ユーザとの対話を開始する際またはユーザとの対話を終了する際に、取得手段によって取得された画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングを決定する決定手段と、を備える。

また、本発明の一態様に係るプログラムは、ユーザとの対話を行うための対話装置に設けられたコンピュータを、ユーザの画像を取得する取得手段と、ユーザとの対話を開始する際またはユーザとの対話を終了する際に、取得手段によって取得された画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングを決定する決定手段、として機能させる。

上記の対話装置またはプログラムによれば、ユーザの画像に基づいて、ユーザとの対話を開始するタイミングまたはユーザとの対話を終了するタイミングが決定される。ユーザの画像に基づけば、ユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音の影響を受けることなく、ユーザとの対話を開始するタイミング等が適切に決定される。したがって、従来のように、ユーザの音声が検出されたことに応じて対話を開始する場合よりも、対話装置の雑音耐性を向上することができる。

決定手段は、ユーザの視線が所定時間以上継続して対話装置に向けられたことを検出し、当該検出のタイミングを、ユーザとの対話を開始するタイミングとして決定してもよい。たとえば人間の外形形状を模したロボットの顔の部分に対話装置が搭載されている状況などにおいて、ユーザの視線が所定時間以上継続して対話装置に向けられている場合には、ユーザが対話を開始しようとする意思を有している可能性が高い。このため、上記構成によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。

決定手段は、ユーザの口が開いたタイミングを、ユーザとの対話を開始するタイミングとして決定してもよい。ユーザの口が開いた場合には、ユーザが対話を開始する可能性が高い。このため、上記構成によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。

決定手段は、ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、ユーザとの対話を終了するタイミングとして決定してもよい。ユーザの口が所定時間以上継続して閉じられている場合には、ユーザが対話を終了しようとする意思を有している可能性が高い。このため、上記構成によれば、ユーザとの対話を終了するタイミングを適切に決定することができる。

取得手段は、ユーザの音声をさらに取得し、対話装置は、対話において取得手段が取得したユーザの音声を認識するために実行される音声認識処理を、取得手段によって取得されたユーザの画像に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備えてもよい。これにより、ユーザに応じた適切な音声認識処理が選択され、対話において実行される。その結果、対話におけるユーザの音声の認識精度を向上することができる。

取得手段は、集音部と、取得手段によって取得された画像に基づきユーザの顔に向けて集音部の指向性を調整する調整部と、を含んでもよい。これにより、ユーザ以外の人物の会話、騒音、およびテレビ音声などが存在する雑音環境下であっても、ユーザの音声の認識精度を高めることができる。

取得手段は、対話装置の周囲画像を撮像する撮像部と、撮像部によって撮像された周囲画像に複数の人物が含まれる場合に、複数の人物のうち、対話装置に視線を向けている人物をユーザとして特定する特定部と、をさらに含み、調整部は、特定部によって特定されたユーザの顔に向けて集音部の指向性を調整してもよい。複数の人物が存在する場合、複数の人物のうちの対話装置に視線を向けている人物が、対話を開始しようとする意思を有しているユーザである可能性が高い。上記構成によれば、そのような対話を開始しようとする意思を有している可能性の高いユーザが特定され、そのユーザの顔に向けて集音部の指向性が調整される。よって、複数の人物が存在する場合であっても、対話の対象となっているユーザの音声の認識精度を高めることができる。

あるいは、取得手段は、取得した周囲画像に複数の人物が含まれる場合に、周囲画像に含まれる顔情報に基づいて、複数の人物からユーザを特定する特定部、をさらに含んでもよい。これにより、個人の顔の特徴などの画像認証情報を使用し、対話を開始等しようとしているユーザを特定し、また、利用ユーザを限定することもできる。

あるいは、対話装置は、対話において取得手段が取得したユーザの音声を認識するために実行される音声認識処理を、ユーザによる音声認識処理の利用履歴に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備えてもよい。これにより、ユーザに適した音声認識処理を選択して実行することで、ユーザの音声の認識精度を高めることができる。また、ユーザが手動で言語を選択するといった手間を不要とすることもできる。

本発明によれば、雑音耐性が向上された対話装置および対話プログラムが提供される。

対話装置の機能ブロックを示す図である。対話装置のハードウェア構成を示す図である。対話プログラムの構成を示す図である。対話装置において実行される処理の一例を示す第１のフローチャートである。対話装置において実行される処理の一例を示す第２のフローチャートである。対話装置において実行される処理の一例を示す第３のフローチャートである。変形例に係る対話装置の機能ブロックを示す図である。

以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。

実施形態に係る対話装置は、ユーザと対話を行う装置である。対話装置は、たとえばスマートフォンのような移動体端末装置、あるいは据え置き型の端末として実現されてもよいし、人間の外形形状を模したロボットとして実現されてもよい。ユーザは、ハンズフリー状態で、対話装置と対話を行うことができる。ハンズフリー状態とは、ユーザが対話装置を操作するための物理的な要素（操作ボタン、タッチパネルなど）に接触していない状態を意味する。ユーザが、上記要素以外のものに接触している場合でも、上記要素に接触していなければ、ハンズフリー状態である。なお、実施形態に係る対話装置は、ユーザがハンズフリー状態である場合に、ユーザとの対話の開始および終了のタイミングを適切に決定するものである。そのため、対話の途中においては、ユーザは必ずしもハンズフリー状態である必要はない。

図１は、実施形態に係る対話装置の機能ブロックを示す図である。図１に示されるように、対話装置１００は、入力部１１０と、出力部１２０と、制御部１３０と、記憶部１４０と、通信部１５０とを含む。

入力部１１０および出力部１２０は、対話装置１００の外部、主にユーザとの間で情報をやり取りするための部分（入出力インタフェース）である。入力部１１０は、ユーザの音声を含む対話装置１００の周囲の音声（以下、単に「周囲音声」という場合もある）の入力を受け付け、また、ユーザを含む対話装置１００の周囲の画像、映像（以下、単に「周囲画像」という場合もある）の入力を受け付ける。出力部１２０は、種々の画像、映像を出力し、また、種々の音声を出力する。

具体的に、入力部１１０は、集音部１１１と、撮像部１１２とを含む。集音部１１１は、周囲音声の入力を受け付ける部分である。集音部１１１は、たとえばマイクで構成される。集音部１１１は、たとえば指向性を有するように、複数のマイクが配列されたマイクアレイで構成されてもよい。撮像部１１２は、周囲画像の入力を受け付ける部分である。撮像部１１２は、たとえばカメラで構成される。撮像部１１２は、たとえば撮像対象との距離を把握できるように、複数のカメラで構成されてもよい。なお、入力部１１０は、たとえば、ユーザが対話装置１００を操作するための操作ボタンなどの要素をさらに含んでもよい。

出力部１２０は、発音部１２１と、表示部１２２とを含む。発音部１２１は、音声を出力する部分である。発音部１２１は、たとえばスピーカで構成される。発音部１２１は、たとえば指向性を有するように、複数のスピーカが配列されたアレイスピーカで構成されてもよい。表示部１２２は、画像、映像を出力する部分である。表示部１２２は、たとえばディスプレイで構成される。ディスプレイはタッチパネルで構成されてもよく、その場合、タッチパネルは、ユーザが対話装置１００を操作するための要素としても機能する。

制御部１３０は、対話装置１００の各要素を制御することによって、対話装置１００の全体制御を行う部分である。制御部１３０は、取得部１３１と、決定部１３２と、音声認識部１３３と、選択部１３４と、画像認識部１３５と、特定部１３６と、調整部１３７とを含む。

取得部１３１は、入力部１１０に入力された周囲音声および周囲画像を取得する部分である。すなわち、取得部１３１および入力部１１０（集音部１１１、撮像部１１２を含む）は、周囲音声および周囲画像を取得する取得手段として機能する。なお、後述の特定部１３６も、取得手段の一部を構成し得る。以下、とくに説明がない限り、取得手段を単に取得部１３１と称してして説明する。

決定部１３２は、ユーザとの対話を開始または終了するタイミングを決定する部分（決定手段）である。とくに決定部１３２は、取得部１３１によって取得された周囲音声および周囲画像に基づいて、ハンズフリー状態にあるユーザとの対話を開始または終了するタイミングを決定する。決定部１３２によるタイミングの決定の詳細については、後述する。

音声認識部１３３は、周囲音声、とくにユーザの音声を認識するための音声認識処理を実行する部分である。音声認識部１３３は、取得部１３１によって取得された周囲音声に対して、音声認識処理を実行する。音声認識処理は、たとえば、予め用意された音響モデル、言語モデルを用いた手法を含む、種々の公知の手法によって実現される。言語モデルは、種々の専門分野に対応できるように、専門辞書の言語を含むモデルであってもよい。音響モデル、言語モデルは、複数用意されていてもよい。その場合、音響モデル、言語モデルの組み合わせに対応する複数の音声認識処理が予め用意されており、音声認識部１３３は、後述の選択部１３４によって選択された音声認識処理を実行してもよい。

選択部１３４は、複数の音声認識処理が用意されている場合に、音声認識部１３３が実行すべき音声認識処理を選択する部分（選択手段）である。選択部１３４は、取得部１３１によって取得された周囲音声および周囲画像に基づいて、音声認識部１３３が実行すべき音声認識処理を選択する。

たとえば、選択部１３４は、周囲画像等に基づいて、人物の、とくにユーザの髪の色や顔立ちから人種を推測し、推測した人種のユーザに適した音声認識処理を選択してもよい。たとえば、推定した人種のユーザが使用する言語に対応した音響モデル、言語モデルを組み合わせに対応する音声認識処理が選択される。

また、選択部１３４は、周囲画像等に基づいて、人物の、とくにユーザの性別を推定し、推定した性別のユーザに適した音声認識処理を選択してもよい。性別は音声周波数帯に関連するので、選択部１３４は、ユーザの音声周波数帯を推定するとも言える。たとえば、推定した性別（音声周波数帯）のユーザに対応した音響モデル、性別に対応した話し言葉（口調、表現）などに対応した言語モデルを組み合わせに対応する音声認識処理が選択される。

また、選択部１３４は、ユーザによる音声認識処理の利用履歴に基づいて、ユーザに適した音声認識処理を選択してもよい。たとえば、過去にユーザが利用した履歴のある音響モデル、言語モデルを組み合わせに対応する音声認識処理が選択される。

画像認識部１３５は、周囲画像、とくにユーザの画像または映像を認識するための部分である。画像認識部１３５は、取得部１３１によって取得された周囲画像に対して、画像認識処理を実行する。画像認識処理には、たとえばｏｐｅｎＣＶ（Open Source Computer Vision Library）など、種々の公知の手法によって実現される。

特定部１３６は、周囲画像に複数のユーザが含まれている場合に、対話の対象となるユーザを特定するための部分である。特定部１３６は、たとえば、撮像部１１２によって取得された周囲画像、より具体的には周囲画像についての画像認識部１３５の認識結果に基づいて、複数のユーザのうち、対話装置１００に視線を向けているユーザを特定する。

調整部１３７は、集音部１１１の指向性を調整する部分である。集音部１１１がマイクアレイで構成される場合には、たとえば位相制御によって指向性が調整される。なお、集音部１１１が単一のマイクで構成される場合でも、たとえばマイクの向きを物理的に変更することによって指向性が調整され得る。調整部１３７は、取得部１３１によって取得された周囲画像、より具体的には画像認識部１３５の認識結果に基づいて、たとえばユーザの顔に向けて、集音部１１１の指向性を調整する。ユーザの顔に向けて指向性を調整するとは、ユーザの顔およびその付近で発生した音声が、他の部分で発生した音声よりも集音されやすくなるように、指向性を調整することである。

なお、制御部１３０は、たとえば、対話において、出力部１２０がユーザに対して出力する種々の情報、たとえば発音部１２１による音声、表示部１２２による画像、映像などのデータを生成するための処理も実行し得る。

以上説明した構成により、制御部１３０は、対話装置１００がユーザと対話を行うために必要な種々の処理を実行する。制御部１３０によって実行される処理の詳細については、後に図４から図６を参照して改めて説明する。

記憶部１４０は、制御部１３０によって実行される処理に必要な種々の情報を記憶する部分である。記憶部１４０は、たとえば、前述の音響モデル、言語モデル、利用履歴を記憶する。また、記憶部１４０は、対話装置１００がユーザと対話を行うために必要な処理を対話装置１００に実行させるためのプログラム（対話プログラム）を記憶する。

また、記憶部１４０は、対話装置１００を利用することが許可されているユーザ（利用ユーザ）のデータ（ユーザデータ）を記憶する。ユーザデータは、利用ユーザの特徴データを含んでよい。特徴データは、たとえば、利用ユーザの顔に関する特徴を示すデータであってもよいし、利用ユーザの音声に関する特徴を示すデータであってもよい。また、ユーザデータは、ユーザの人種を推測したり、ユーザの性別を推測したりするために必要なデータを含んでもよい。この場合のユーザデータは、たとえば、人種と、髪の色、顔立ちなどとを対応づけたデータであってもよいし、性別と、髪の色、顔立ちなどとを対応づけたデータなどであってよい。

通信部１５０は、対話装置１００の外部と通信を行う部分である。通信部１５０によって、たとえば、上述の、音響モデル、言語モデル、対話プログラム、ユーザデータなどが追加して取得され、あるいは、更新され得る。

ここで、図２を参照して、対話装置１００のハードウェア構成について説明する。図２に示されるように、対話装置１００は、物理的には、１または複数のＣＰＵ（Central Processing Unit）２１、ＲＡＭ（Random Access Memory）２２およびＲＯＭ（Read Only Memory）２３、カメラなどの撮像装置２４、データ送受信デバイスである通信モジュール２６、半導体メモリなどの補助記憶装置２７、操作盤（操作ボタンを含む）やタッチパネルなどのユーザ操作の入力を受け付ける入力装置２８、ディスプレイなどの出力装置２９、ならびにＣＤ−ＲＯＭドライブ装置などの読み取り装置２Ａを備えるコンピュータとして構成され得る。図１における対話装置１００の機能は、たとえば、ＣＤ−ＲＯＭなどの記憶媒体Ｍに記憶された１または複数のプログラムを読み取り装置２Ａにより読み取ってＲＡＭ２２などのハードウェア上に取り込むことにより、ＣＰＵ２１の制御のもとで撮像装置２４、通信モジュール２６、入力装置２８、出力装置２９を動作させるとともに、ＲＡＭ２２および補助記憶装置２７におけるデータの読み出しおよび書き込みを行うことで実現される。

また、図３には、コンピュータを対話装置１００として機能させるための対話プログラムのモジュールが示される。図３に示されるように、対話プログラムＰ１００は、取得モジュールＰ１０１、決定モジュールＰ１０２、音声認識モジュールＰ１０３、選択モジュールＰ１０４、画像認識モジュールＰ１０５、特定モジュールＰ１０６および調整モジュールＰ１０７を備えている。各モジュールによって、先に図１を参照して説明した、取得部１３１、決定部１３２、音声認識部１３３、選択部１３４、画像認識部１３５、特定部１３６および調整部１３７の機能が実現される。

対話プログラムは、たとえば記憶媒体に格納されて提供される。記憶媒体は、フレキシブルディスク、ＣＤ−ＲＯＭ、ＵＳＢメモリ、ＤＶＤ、半導体メモリなどであってよい。

次に、図４から図６を用いて、対話装置１００の動作（対話装置１００によって実行される対話方法）について説明する。

図４および図５は、対話装置１００において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、対話装置１００がユーザとの対話を開始する際、あるいは終了する際に実行される。前提として、ユーザは、少なくとも対話の開始時または終了時には、ハンズフリー状態にあるものとする。なお、とくに説明がない場合、各処理は、制御部１３０によって（つまり制御部１３０に含まれるいずれの要素かを問わず）実行され得る。

まず、対話装置１００は、発話中ユーザリストを作成する（ステップＳ１）。発話中ユーザリストは、このフローチャートの処理において、対話装置１００と対話をするための発話を行っているユーザのリストである。発話中ユーザリストは、たとえば記憶部１４０に記憶されてよい。なお、ステップＳ１において発話中ユーザリストが作成された時点では、発話中ユーザリストにはユーザは含まれておらず、後述のステップＳ３７において、発話中ユーザリストにユーザが追加される。フローチャートの処理はループするので、２回目以降のフローにおいては、発話中ユーザリストには、ユーザが含まれ得る。

次に、対話装置１００は、顔検出により、人数ｎを決定する（ステップＳ２）。たとえば画像認識部１３５が、取得部１３１によって取得された周囲画像を認識する。そして、たとえば特定部１３６が、周囲画像に含まれる人物の顔を検出するとともに、検出した顔の数を、人数ｎとして決定する。

次のステップＳ３〜Ｓ７において、対話装置１００は、ｎ人の人物のそれぞれの視線を特定する。具体的に、対話装置１００は、変数ｉの初期値を０とし（ステップＳ３）、ｉを１ずつ増加させながら（ステップＳ６）、ｉがｎ以上になるまでの間（ステップＳ７：ＮＯ）、ｉ番目のユーザについて、以下のステップＳ４およびステップＳ５の処理を繰り返し実行する。

すなわち、対話装置１００は、顔の認識により、個人を特定し（ステップＳ４）、視線の認識により、見ている方向を特定する（ステップＳ５）。具体的に、特定部１３６が、画像認識部１３５の認識結果に基づいて、周囲画像中の人物を特定し、特定した人物（個人）の視線の方向を特定する。

ｎ人の人物のそれぞれについて上記ステップＳ４およびステップＳ５の処理が完了した後（ステップＳ７：ＹＥＳ）、対話装置１００は、ステップＳ８に処理を進める。

ステップＳ８において、対話装置１００は、発話ユーザリストに顔認証されていないユーザがいるか否かを判断する。たとえば、先のステップＳ４で特定した人物以外の人物が発話ユーザリストに含まれる場合には、発話ユーザリストに顔認証されていないユーザがいると判断されてよい。発話ユーザリストに顔認証されていないユーザがいる場合（ステップＳ８：ＹＥＳ）、対話装置１００は、ステップＳ９に処理を進める。そうでない場合（ステップＳ８：ＮＯ）、対話装置１００は、ステップＳ１０に処理を進める。

ステップＳ９において、対話装置１００は、発話中ユーザリストから削除し、音声認識を終了する（ステップＳ９）。具体的に、先のステップＳ８において発話ユーザリストに顔認証されていないユーザであると判断されたユーザが、発話中ユーザリストから削除される。また、音声認識部１３３が、音声認識処理を終了する。なお、ステップＳ９の処理は、ステップＳ８において発話中ユーザリストに顔認証されていないユーザがいる場合に実行される処理である。そのため、ステップＳ９の処理は、後述のステップＳ３７において、発話ユーザリストにユーザが追加され、音声認識処理が開始された後、フローチャートの処理がループして再びステップＳ８に至った場合に実行され得る処理である。

次のステップＳ１０〜Ｓ２４において、対話装置１００は、ｎ人の人物のうちの発話ユーザの数を特定する。発話ユーザは、対話装置１００との対話を開始するために音声を発したと考えられるユーザである。具体的に、対話装置１００は、変数ｊおよび変数ｍの初期値を０とし（ステップＳ１０，Ｓ１１）、ｊを１ずつ増加させながら（ステップＳ２３）、ｊがｎ以上になるまでの間（ステップＳ２４：ＮＯ）、ｊ番目のユーザについて、以下のステップＳ１２〜Ｓ２２の処理を繰り返し実行する。

すなわち、まず、対話装置１００は、発話中ユーザリストに存在するユーザであるか否かを判断する（ステップＳ１２）。たとえば、ｊ番目の人物が発話中ユーザリストに含まれる場合には、発話中ユーザリストに存在するユーザであると判断されてよい。発話中ユーザリストに存在するユーザである場合（ステップＳ１２：ＹＥＳ）、対話装置１００は、ステップＳ１３に処理を進める。そうでない場合（ステップＳ１２：ＮＯ）、対話装置１００は、ステップＳ１５に処理を進める。

ステップＳ１３において、対話装置１００は、口が閉じ続けているか否かを判断する。この処理は、たとえば決定部１３２が、画像認識部１３５の認識結果に基づいて実行する。たとえば人物の口が閉じた状態が、所定時間以上継続している場合に、口が閉じ続けていると判断されてよい。口が閉じ続けている場合（ステップＳ１３：ＹＥＳ）、対話装置１００は、ステップＳ１４に処理を進める。そうでない場合（ステップＳ１３：ＮＯ）、対話装置１００は、ステップＳ２０に処理を進める。

ステップＳ１４において、対話装置１００は、発話中ユーザリストから削除し、音声認識を終了する（ステップＳ１４）。具体的に、ｊ番目の人物が、発話中ユーザリストから削除される。また、音声認識部１３３が、音声認識を終了する。これにより、そのユーザとの対話が終了する。ステップＳ１４の処理が完了した後、対話装置１００は、ステップＳ２３に処理を進める。

ステップＳ１５において、対話装置１００は、視線が所定の方向を向いているか否かを判断する。この処理は、たとえば決定部１３２あるいは特定部１３６が、先に説明したステップＳ５において特定された視線の方向に基づいて実行する。所定の方向は、対話装置１００に向かう方向であってよい。たとえば視線の方向が所定時間以上継続して対話装置１００に向けられていた場合に、人物の視線の方向が所定の方向であると判断されてよい。所定時間は、数秒程度であってよい。視線が所定の方向を向いている場合（ステップＳ１５：ＹＥＳ）、対話装置１００は、ステップＳ１６に処理を進める。そうでない場合（ステップＳ１５：ＮＯ）、対話装置１００は、人物が発話意思の無いユーザであると判定し（ステップＳ１７）、ステップＳ２３に処理を進める。

ステップＳ１６において、対話装置１００は、人物が利用許可ユーザであるか否かを判断する。たとえば決定部１３２あるいは特定部１３６が、画像認識部１３５の認識結果と記憶部１４０に記憶されたユーザデータとを照合することによって、ユーザが利用ユーザであるか否かを判断する。人物が利用許可ユーザである場合（ステップＳ１６：ＹＥＳ）、対話装置１００は、ステップＳ１８に処理を進める。そうでない場合（ステップＳ１６：ＮＯ）、対話装置１００は、人物は非許可ユーザであると判定し（ステップＳ１９）、ステップＳ２３に処理を進める。

ステップＳ１８において、対話装置１００は、口が動き始めたか否かを判断する。この処理は、たとえば決定部１３２が、画像認識部１３５の認識結果に基づいて実行する。たとえば人物の口が閉じた状態から開いた状態に変化した場合に、人物の口が動き始めたと判断されてよい。口が動き始めた場合（ステップＳ１８：ＹＥＳ）、より具体的には、人物の視線が所定の方向を向いており（ステップＳ１５：ＹＥＳ）、人物が利用許可ユーザであり（ステップＳ１６：ＹＥＳ）、人物の口が動き始めた場合（ステップＳ１８：ＹＥＳ）、対話装置１００は、人物が発話ユーザであると判断し（ステップＳ２０）、変数ｍを１だけ増加させ（ステップＳ２１）、ステップＳ２３に処理を進める。すなわち、変数ｍは、発話ユーザの数を示す値とされる。一方、人物の口が動き始めていない場合（ステップＳ１８：ＮＯ）、対話装置１００は、ステップＳ２２に処理を進める。

ステップＳ２２において、対話装置１００は、音声による発話が検知されたか否かを判断する（ステップＳ２２）。この処理は、たとえば、集音部１１１、取得部１３１および音声認識部１３３の機能を用いて、従来の対話装置と同様に実行される。音声による発話が検知された場合（ステップＳ２２：ＹＥＳ）、対話装置１００は、先に説明したステップＳ２０に処理を進める。そうでない場合（ステップＳ２２：ＮＯ）、対話装置１００は、ステップＳ２３に処理を進める。

ｎ人の人物のそれぞれについて上記ステップＳ１２〜Ｓ２２の処理が完了した後（ステップＳ２４：ＹＥＳ）、対話装置１００は、対話開始処理を実行する（ステップＳ２５）。

図６は、対話開始処理（図５のステップＳ２５）において実行される処理の一例を示すフローチャートである。

次のステップＳ３１〜Ｓ３９において、対話装置１００は、ｍ人の発話ユーザのそれぞれについて、マイク調整、および、音響モデル、言語モデルの最適化を行ったうえで音声認識等を行う。具体的に、対話装置１００は、変数ｋの初期値を０とし（ステップＳ３１）、ｋを１ずつ増加させながら（ステップＳ３８）、ｋがｍ以上になるまでの間（ステップＳ３９：ＮＯ）、ｋ番目の発話ユーザについて、以下のステップＳ３２〜Ｓ３７の処理を実行する。

すなわち、まず、対話装置１００は、映像（または画像）の顔位置より、マイク方向を導出し（ステップＳ３２）、マイク方向を制御する（ステップＳ３３）。具体的に、調整部１３７が、画像認識部１３５の認識結果に基づいて、発話ユーザの顔に向けて集音部１１１の指向性を調整する。なお、集音部１１１がマイクアレイの場合は、全ての発話ユーザの方向のそれぞれに指向性を調整し、全ての発話ユーザの音声を同時に認識できるようにしてもよい。また、集音部１１１が単一のマイクの場合には、たとえば最初のループ（ｋ＝０）における発話ユーザに対してマイクの指向性を調整するとよい。

次に、対話装置１００は、ユーザ状態は既に発話中であるか否かを判断する（ステップＳ３４）。たとえば、前のループでステップＳ３７において音声認識が開始されており、かつ、音声による発話が検知されている場合には、ユーザ状態は既に発話中であると判断されてよい。ユーザ状態が既に発話中である場合（ステップＳ３４：ＹＥＳ）、対話装置１００は、音声認識を継続し（ステップＳ３５）、ステップＳ３８に処理を進める。そうでない場合（ステップＳ３４：ＮＯ）、対話装置１００は、ステップＳ３６に処理を進める。

ステップＳ３６において、対話装置１００は、ユーザデータを読み出し、音響モデル、言語モデルを決定する。具体的に、選択部１３４が、先のステップＳ４（図４）において認識されたユーザの画像（顔の画像）と、記憶部１４０に記憶されたユーザデータとを照合することによって、発話ユーザに適した音響モデル、言語モデルを決定する。選択部１３４は、記憶部１４０に記憶された利用履歴に基づいて、発話ユーザに適した音響モデル、言語モデルを決定してもよい。

そして、対話装置１００は、発話中ユーザリストに追加し、音声認識を開始する（ステップＳ３７）。具体的に、ｋ番目の発話ユーザが、発話ユーザリストに追加される。また、音声認識部１３３が、音声認識処理を開始する。なお、その後、ステップＳ３８の処理を経て、ｋがｍ以上になると（ステップＳ３９：ＹＥＳ）、対話装置１００は、ステップＳ２（図４）に再び処理を戻す。

次に、対話装置１００の作用効果について説明する。対話装置１００によれば、ユーザの画像（または映像）に基づいて、ユーザとの対話を開始または終了するタイミングが決定される。ユーザの画像に基づけば、ユーザ以外の人物の会話、騒音、およびテレビ音声などの雑音の影響を受けることなく、ユーザとの対話を開始するタイミング等が適切に決定される。したがって、従来のように、ユーザの音声が検出されたことに応じて対話を開始する場合よりも、対話装置の雑音耐性を向上することができる。

具体的に、決定部１３２が、ユーザの視線が所定時間以上継続して対話装置１００に向けられたことを検出し（ステップＳ１５：ＹＥＳ）、当該検出のタイミングを、ユーザとの対話を開始するタイミングとして決定する（ステップＳ２５）。ユーザの視線が所定時間以上継続して対話装置１００に向けられている場合には、ユーザが対話を開始しようとする意思を有している可能性が高い。このため、決定部１３２の上記処理によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。

また、決定部１３２が、ユーザの口が開いたタイミングを、ユーザとの対話を開始するタイミングとして決定する（ステップＳ１８：ＹＥＳ、ステップＳ２５）。ユーザの口が開いた場合には、ユーザが対話を開始する可能性が高い。このため、決定部１３２の上記処理によれば、ユーザとの対話を開始するタイミングを適切に決定することができる。

また、決定部１３２が、ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、ユーザとの対話を終了するタイミングとして決定する（ステップＳ１３：ＹＥＳ、ステップＳ１４）。ユーザの口が所定時間以上継続して閉じられている場合には、ユーザが対話を終了しようとする意思を有している可能性が高い。このため、決定部１３２の上記処理によれば、ユーザとの対話を終了するタイミングを適切に決定することができる。

また、選択部１３４が、対話においてユーザの音声を認識するために実行される音声認識処理を、取得部１３１によって取得されたユーザの画像または映像に基づいて、予め定められた複数の音声認識処理から選択する（ステップＳ３６）。これにより、ユーザに応じた適切な音声認識処理が選択され、対話において実行される。その結果、対話におけるユーザの音声の認識精度を向上することができる。

たとえば、選択部１３４は、ユーザの人種を推測し、推測した人種のユーザに適した音声認識処理を選択する。これにより、ユーザの人種に応じた適切な音声認識処理が選択される。たとえば、推定した人種のユーザが使用する言語に対応した音響モデル、言語モデルを組み合わせに対応する音声認識処理を選択することで、音声認識の精度を向上させることができる。また、ユーザが手動で言語を選択するといった手間も不要とすることができる。

たとえば、選択部１３４は、ユーザの性別を推定し、推定した性別のユーザに適した音声認識処理を選択する。性別は、たとえば音声周波数帯に関連するので、推定した性別のユーザの音声周波数帯に適した音響モデルを用いた音声認識処理を選択することで、音声認識の精度を向上させることができる。また、推定した性別に対応した話し言葉（口調、表現）などに対応した言語モデルを用いた音声認識処理を選択することで、音声認識の精度を向上させることができる。もちろん、上記音響モデルおよび言語モデルを組み合わせに対応する音声認識処理を選択することで、音声認識の精度をさらに向上させることもできる。

また、調整部１３７が、ユーザの顔に向けて集音部１１１の指向性を調整する（ステップＳ３２，Ｓ３３）。これにより、ユーザ以外の人物の会話、騒音、およびテレビ音声などが存在する雑音環境下であっても、ユーザの音声の認識精度を高めることができる。

また、特定部１３６は、撮像部１１２によって撮像された周囲画像に複数の人物が含まれる場合に、複数の人物のうち、対話装置１００に視線を向けている人物をユーザとして特定する（ステップＳ１５：ＹＥＳ、ステップＳ２０）。そして、調整部１３７は、特定部１３６によって特定されたユーザの顔に向けて集音部１１１の指向性を調整する（ステップＳ３２，Ｓ３３）。複数の人物が存在する場合、複数の人物のうちの対話装置１００に視線を向けている人物が、対話を開始しようとする意思を有しているユーザである可能性が高い。特定部１３６および調整部１３７の上記処理によれば、そのような対話を開始しようとする意思を有している可能性の高いユーザが特定され、そのユーザの顔に向けて集音部の指向性が調整される。よって、複数の人物が存在する場合であっても、対話の対象となっているユーザの音声の認識精度を高めることができる。

また、特定部１３６は、周囲画像に含まれるユーザの顔、あるいは、周囲音声に含まれるユーザの音声と、記憶部１４０に記憶されたユーザデータとを照合することによって、利用ユーザを特定する（ステップＳ１６：ＹＥＳ）。これにより、個人の顔の特徴などの画像認証情報を使用し、発話ユーザを特定することができる（ステップＳ１６：ＹＥＳ、ステップＳ２０，Ｓ２１）。

なお、顔の特徴などに基づく認証に代えて、虹彩認識が用いられてもよい。その場合、視線を特定するための処理（ステップＳ１５）を省略してもよい。

また、選択部１３４は、記憶部１４０に記憶された履歴情報を参照し、利用履歴のある音響モデル、言語モデルを選択することで、ユーザに適した音響モデル、言語モデルを組み合わせに対応する音声認識処理を選択する（ステップＳ３６）。これによっても、ユーザの音声の認識精度を高めることができる。また、ユーザが手動で言語を選択するといった手間を不要とすることもできる。

以上説明した対話装置１００の各機能は、たとえば、コンピュータにおいて対話プログラムが実行されることによって実現することもできる。

以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。

図７は、変形例に係る対話装置の機能ブロックを示す図である。対話装置１００Ａは、サーバ２００との協働により、ユーザとの対話を行う対話システム１を構成する。この変形例では、対話システム１が本発明に係る対話装置に相当する。

図７に示されるように、サーバ２００は、制御部２３０と、記憶部２４０と、通信部２５０とを含む。

制御部２３０は、取得部２３１、決定部２３２、音声認識部２３３、選択部２３４、画像認識部２３５、特定部２３６および調整部２３７を含む。これらの各要素は、先に図１を参照して説明した取得部１３１、決定部１３２、音声認識部１３３、選択部１３４、画像認識部１３５、特定部１３６および調整部１３７と同様の機能を有する。

記憶部２４０は、先に図１を参照して説明した記憶部１４０と同様の機能を有する。すなわち、記憶部２４０は、制御部２３０によって実行される処理に必要な種々の情報を記憶する部分であり、たとえば音響モデル、言語モデル、対話プログラム、ユーザデータ、利用履歴を記憶する。

通信部２５０は、対話装置１００Ａの通信部１５０と通信する部分である。通信部２５０によって、対話装置１００Ａとサーバ２００とが通信可能となる。

以上の構成により、対話システム１は、対話装置１００Ａと、サーバ２００との協働により、ユーザとの対話を可能とする。すなわち、対話システム１では、対話装置１００（図１）においてユーザとの対話を行うために実行される処理の一部（とくに制御部１３０によって実行される処理）が、サーバ２００によって実行される。したがって、対話装置１００Ａによれば、対話装置１００よりも、対話装置における処理負担を軽減することができる。

具体的に、対話装置１００Ａは、対話装置１００と比較して、制御部１３０および記憶部１４０に代えて、制御部１３０Ａ、記憶部１４０Ａを含む構成とすることができる。

制御部１３０Ａは、対話装置１００Ａの全体制御を行う部分である。ただし、制御部１３０Ａは、制御部１３０と比較して、取得部１３１、決定部１３２、音声認識部１３３、選択部１３４、画像認識部１３５、特定部１３６、調整部１３７を含むことが必須でなく、それによって、制御部１３０Ａの構成は、制御部１３０よりも簡素化することができる。

記憶部１４０Ａは、制御部１３０Ａによって実行される処理に必要な種々の情報を記憶する部分であるが、サーバ２００の記憶部２４０と重複するデータの記憶は、記憶部１４０Ａにおいては必須ではない。その分、記憶部１４０Ａの記憶容量を、記憶部１４０の記憶容量よりも小さくするなどして、構成を簡素化することができる。

１００，１００Ａ…対話装置、１１０…入力部（取得手段）、１１１…集音部（取得手段）、１１２…撮像部（取得手段）、１２０…出力部、１２１…発音部、１２２…表示部、１３０，１３０Ａ，２３０…制御部、１３１，２３１…取得部（取得手段）、１３２，２３２…決定部（決定手段）、１３３，２３３…音声認識部、１３４，２３４…選択部（選択手段）、１３５，２３５…画像認識部、１３６，２３６…特定部（取得手段）、１３７，２３７…調整部、１４０，１４０Ａ，２４０…記憶部、１５０…通信部、２００…サーバ。

Claims

ユーザとの対話を行うための対話装置であって、
前記ユーザの画像を取得する取得手段と、
前記ユーザとの対話を開始する際または前記ユーザとの対話を終了する際に、前記取得手段によって取得された画像に基づいて、ハンズフリー状態にある前記ユーザとの対話を開始するタイミングまたは前記ユーザとの対話を終了するタイミングを決定する決定手段と、
を備える、対話装置。
前記決定手段は、前記ユーザの視線が所定時間以上継続して前記対話装置に向けられたことを検出し、当該検出のタイミングを、前記ユーザとの対話を開始するタイミングとして決定する、
請求項１に記載の対話装置。
前記決定手段は、前記ユーザの口が開いたタイミングを、前記ユーザとの対話を開始するタイミングとして決定する、
請求項１または２に記載の対話装置。
前記決定手段は、前記ユーザの口が所定時間以上継続して閉じられたことを検出し、当該検出のタイミングを、前記ユーザとの対話を終了するタイミングとして決定する、
請求項１〜３のいずれか１項に記載の対話装置。
前記取得手段は、前記ユーザの音声をさらに取得し、
前記対話装置は、前記対話において前記取得手段が取得した前記ユーザの音声を認識するために実行される音声認識処理を、前記取得手段によって取得された前記ユーザの画像に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備える、
請求項１〜４のいずれか１項に記載の対話装置。
前記取得手段は、
集音部と、
前記取得手段によって取得された画像に基づき前記ユーザの顔に向けて前記集音部の指向性を調整する調整部と、
を含む、
請求項１〜５のいずれか１項に記載の対話装置。
前記取得手段は、
前記対話装置の周囲画像を撮像する撮像部と、
前記撮像部によって撮像された周囲画像に複数の人物が含まれる場合に、前記複数の人物のうち、前記対話装置に視線を向けている人物を前記ユーザとして特定する特定部と、
をさらに含み、
前記調整部は、前記特定部によって特定された前記ユーザの顔に向けて前記集音部の指向性を調整する、
請求項６に記載の対話装置。
前記取得手段は、
取得した周囲画像に複数の人物が含まれる場合に、前記周囲画像に含まれる顔情報に基づいて、前記複数の人物から前記ユーザを特定する特定部、
をさらに含む、
請求項１〜６のいずれか１項に記載の対話装置。
前記対話において前記取得手段が取得した前記ユーザの音声を認識するために実行される音声認識処理を、前記ユーザによる音声認識処理の利用履歴に基づいて、予め定められた複数の音声認識処理から選択する選択手段、をさらに備える、
請求項１〜４のいずれか１項に記載の対話装置。
ユーザとの対話を行うための対話装置に設けられたコンピュータを、
前記ユーザの画像を取得する取得手段と、
前記ユーザとの対話を開始する際または前記ユーザとの対話を終了する際に、前記取得手段によって取得された画像に基づいて、ハンズフリー状態にある前記ユーザとの対話を開始するタイミングまたは前記ユーザとの対話を終了するタイミングを決定する決定手段、
として機能させるための対話プログラム。