JP6721676B2

JP6721676B2 - 対話装置、対話装置の制御方法、および制御プログラム

Info

Publication number: JP6721676B2
Application number: JP2018515402A
Authority: JP
Inventors: 史彦鈴木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-05-02
Filing date: 2017-03-14
Publication date: 2020-07-15
Anticipated expiration: 2037-03-14
Also published as: JPWO2017191710A1; WO2017191710A1

Description

本発明は、音声を認識する対話装置等に関し、特に、ユーザが自装置に対し発した音声を認識し返答音声を出力する対話装置等に関する。

近年、ユーザが発した音声に対し、音声認識処理を行い、その結果に応じた返事を行うことによってユーザとの対話を行う音声認識装置が存在している。また、ユーザが発した音声に基づいて、対応する処理を実行する音声認識装置も存在する。このような音声認識装置において、返事を適切なタイミングで返すためには、または処理を適切に実行するためには、ユーザが発した音声が音声認識装置に向けられたものか否かを正確に判別することが重要である。

そこで、特許文献１には、人間が発した音声が音声認識装置に向けられたものか否かを判別する方法として、身振りなどの音声以外の所定の合図を検出した場合にのみ、音声を受け付ける操作装置が記載されている。

日本国公開特許公報「特開２００７−１２１５７９号公報（２００７年５月１７日公開）」

しかしながら、上記特許文献１では、ユーザが身振りなどの音声以外の所定の合図をした後、ユーザの近辺で別の人間が発話を行うと、当該発話を受信し、操作者の意図しない応答、または処理を行ってしまうという問題がある。

例えば、所定の合図後、ユーザの挨拶に対し音声認識装置が挨拶を返すシステムにおいて、所定の合図後、ユーザ（人物Ａ）の人の近辺にいる人間（人物Ｂ）が「こんにちは」とユーザ（人物Ａ）に発話した場合を考える。この場合、ユーザ（人物Ａ）が人物Ｂに対し、例えば「久し振り」と発話するとともに、音声認識装置が「こんにちは」と発話してしまうように、人物Ａと人物Ｂとの対話を音声認識装置が遮ってしまうということが起こる。

本発明は、前記の問題点に鑑みてなされたものであり、その目的は、装置に向けられた音声であることを適切に判定できる対話装置等を実現することにある。

上記の課題を解決するために、本発明に係る対話装置は、ユーザとの対話を行う対話装置であって、上記ユーザの音声を認識する音声認識部と、上記音声認識部が認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定部と、上記判定部が、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答部と、を備えている構成である。

上記の課題を解決するために、本発明に係る対話装置の制御方法は、ユーザとの対話を行う対話装置の制御方法であって、上記ユーザの音声を認識する音声認識ステップと、上記音声認識ステップで認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定ステップと、上記判定ステップで、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答ステップと、を含む方法である。

本発明によれば、音声が自装置に向けられたものである場合にのみ応答を行い、自装置に向けられたものではない場合に、応答してしまうことを防止することができるという効果を奏する。

よって、ユーザが他のユーザに話しかけている場合に、対話装置が応答してしまうことを防止することができるという効果を奏する。

本実施形態に係る対話装置の要部構成を示すブロック図である。（ａ）、（ｂ）は本実施形態の概要を説明するための図である。（ａ）〜（ｃ）は、出力音声テーブルの例を示す図である。応答音声データの例を示す図である。対話装置における対話処理の流れを示すフローチャートである。（ａ）〜（ｄ）は、レコードの削除のタイミングおよび発話の内容を説明するための図である。

〔実施形態１〕
以下、図１〜５を参照して、本発明の実施形態１について、詳細に説明する。まず、図２を参照して、本実施形態の概要について説明する。

〔概要〕
図２は、本実施形態の概要を説明するための図である。図２（a）に示すように、ユーザＡが対話装置１に話しかける場合、対話装置１は、ユーザＡの発話を認識し、当該発話に対し応答することにより対話を行うことができる。

一方、図（ｂ）に示すように、対話装置１の近辺にユーザＢおよびユーザＣがおり、ユーザＢがユーザＣに対し、「やあ」と話しかけ、ユーザＣがユーザＢに「久し振り」と返したような場合、従来技術では次のような状況が生じる。すなわち、ユーザＢの「やあ」がユーザＣに向けられたものなのか、対話装置１に向けられたものなのか、対話装置１では認識することができず、対話装置１もユーザＢに対し「こんにちは」と返してしまい、ユーザＢとユーザＣとの対話を対話装置１が邪魔してしまう状況となる。

そこで、本実施形態では、図２（ｂ）に示すような場合、対話装置１は、ユーザＢの発話（「やあ」）が、対話装置１に向けられたものなのか、別のユーザ（ここではユーザＣ）に向けられたものなのかを判定する。そして、対話装置１に向けられたものと判定した場合のみ、ユーザＢに対し返答を行う。

これにより、本実施形態では、ユーザの対話を適切に実行できるとともに、ユーザ同士の対話を邪魔してしまうことを防止することができる。

〔対話装置１の構成〕
次に、図１を参照して、対話装置１の構成について説明する。図１は、対話装置１の要部構成を示すブロック図である。図１に示すように、対話装置１は、制御部１０、記憶部２０、入力受付部３０、および音声出力部４０を含む。

制御部１０は、対話装置１の動作を統括的に制御するものであり、音声認識部１１、ユーザ識別部１２、判定部１３、応答部１４、タイマ部１５、音声入力部１６、および出力制御部１７を含む。

音声認識部１１は、音声入力部１６から取得した音声データをテキストデータに変換する。より詳細には、音声データから音響特徴を算出し、算出した音響特徴に最も近いことばを、認識辞書データ２１を用いて検索し、検索結果であるテキストデータを取得して、当該音声データをテキストデータに変換する。なお、音声認識の方法は上述した方法に限られるものではなく、その他の公知の技術を用いて行ってもよい。

また、音声認識部１１は、テキストデータをキーにして、応答音声データ２２を検索し、応答音声のファイルパスを取得する。そして、取得したファイルパスをユーザ識別部１２に通知する。なお、応答音声のファイルパスではなく、応答音声そのものを取得してもよい。

ユーザ識別部１２は、音声入力部１６から取得した音声データから当該音声の発話者であるユーザを特定するための個人性情報を抽出する。そして、個人性情報毎に個人性情報を区別するための番号を付与し、記憶部２０に格納する。なお、個人性情報は、音声データを周波数解析し、話者の声質を表す特徴（音響的特徴）を音声データから抽出したものである。音響的特徴の抽出は、公知の技術を用いて可能であるので、ここでは詳細な説明は割愛する。

番号の付与は、次のように行う。既に記憶部２０に格納されている個人性情報がある場合、格納されている個人性情報とこれから番号を付与しようとしている個人性情報とを比較し、同じ人物と識別される場合は、同じ番号を付与する。一方、別の人物と識別される場合は、異なる番号（例えば、現在付与されている番号の最大のものに１を加えた番号）を付与する。

そして、ユーザ識別部１２は、現在時刻、音声認識部１１から通知された応答音声のファイルパス、および付与した個人性情報の番号を一つのレコードとして出力音声テーブル２３に登録する。

判定部１３は、タイマ部１５によって設定されたタイマが満了したときに、出力音声テーブル２３に登録されているレコードにおいて、個人性情報を示す番号が一種類か否か、すなわち、当該タイマ期間における発話者は一人か否かを判定する。そして、その結果を応答部１４に通知する。

応答部１４は、判定部１３が個人性情報を示す番号が一種類と判定したとき、出力音声テーブル２３に登録されているレコードのうち、最新のレコードに含まれる、応答音声のファイルパスを用いて当該応答音声を取得し、出力制御部１７に通知する。

タイマ部１５は、ユーザ識別部１２が最初のレコードを出力音声テーブル２３に登録したときからタイマを開始し、所定時間が経過したとき、その旨（タイマが満了した旨）を判定部１３に通知する。なお、所定時間の例としては、０．５〜１．０ｓ（秒）程度である。

音声入力部１６は、入力受付部３０を介して受け付けた音声（アナログデータ）を音声データ（デジタルデータ）に変換する。そして、音声データを音声認識部１１およびユーザ識別部１２に通知する。

出力制御部１７は、応答部１４から通知された応答音声を、音声出力部４０を介して、外部へ出力させる。

記憶部２０は、対話装置１で用いる各種データ等を格納しているものであり、認識辞書データ２１、応答音声データ２２、および出力音声テーブル２３を含む。なお、認識辞書データ２１、および応答音声データ２２は、自装置に格納しておかなければならないものではなく、これらのデータを外部におき、ネットワーク等を通して必要なデータを取得するものであってもよい。

認識辞書データ２１は、音響特徴と、音響特徴に対応するテキストデータとを対応付けたデータであり、音声データの音響特徴から、該音響特徴に一致するテキストデータを検索することに用いられる。

応答音声データ２２は、テキストデータと応答音声とを対応付けたデータであり、テキストデータをキーに応答音声のファイルパスを検索することに用いられる。

応答音声データ２２の例を図４に示す。図４は、応答音声データ２２の例を示す図である。図４に示すように、応答音声データ２２では、例えば、入力音声（テキストデータ）「こんにちは」と、応答音声「こんにちは」とが対応付けられている。さらに、応答音声のファイルパスは「/xxx/yyy/zzz/hello.wav」となっている。テキストデータ「おはよう」についても同様である。

出力音声テーブル２３は、現在時刻、応答音声のファイルパス、音声の個人性情報の番号を対応付けて、一つのレコードとして格納しているテーブルである。出力音声テーブル２３の例を図３に示す。図３は、出力音声テーブル２３の例を示す図である。図３（ａ）に示す例では、時刻「2016/2/29 19：08：43.876」と応答音声のファイルパス「/xxx/yyy/zzz/hello.wav」と音声の個人性情報の番号「１」とが対応付けられて１つのレコードとして格納されている。

また、図３（ｂ）に示す例では、図３（ａ）のレコードとともに、時刻「2016/2/29 19：08：44.990」と応答音声のファイルパス「/xxx/yyy/zzz/morning.wav」と音声の個人性情報の番号「１」とが対応付けられてもう１つのレコードとして格納されている。

また、図３（ｃ）に示す例では、図３（ａ）のレコードともに、時刻「2016/2/29 19：08：44.990」と応答音声のファイルパス「/xxx/yyy/zzz/morning.wav」と音声の個人性情報の番号「２」とが対応付けられてもう１つのレコードとして格納されている。

図３（ａ）に示す例は、タイマの設定時間の間に、入力音声が１回だった場合を示し、図３（ｂ）に示す例は、タイマの設定時間の間に、入力音声が２回で、それぞれの音声の発話者が同じだった場合を示し、図３（ｃ）に示す例は、タイマの設定時間の間に、入力音声が２回で、それぞれの音声の発話者が異なる場合を示している。

入力受付部３０は、例えばマイクロフォンであり、ユーザ等の音声を受け付け、受け付けた音声をアナログデータとして音声入力部１６に通知する。

音声出力部４０は、例えばスピーカであり、出力制御部１７から通知された応答音声を音として出力する。

〔対話装置１における処理の流れ〕
次に、図５を参照して、対話装置１における対話処理の流れを説明する。図５は、対話装置１における対話処理の流れを示すフローチャートである。

図５に示すように、まず、音声入力部１６が音声の入力を受け付けると（Ｓ２０１でＹＥＳ）、受け付けた音声を音声データ（デジタルデータ）に変換し（Ｓ１０２）、音声認識部１１およびユーザ識別部１２に通知する。

音声データを取得した音声認識部１１は、当該音声データに対し音声認識処理を行い、音声データをテキストデータに変換する（Ｓ１０３、音声認識ステップ）。次に、音声認識部１１は、テキストデータをキーにして応答音声データ２２を検索し、テキストデータに対応する応答音声のファイルパスを取得する（Ｓ１０４）。

次に、音声データを取得したユーザ識別部１２は、音声データから個人性情報を抽出し、ユーザ毎に異なる番号を付し、記憶部２０に格納する（Ｓ１０５）。さらに、ユーザ識別部１２は、現在時刻を取得し（Ｓ１０６）、現在時刻、応答音声のファイルパス、音声の個人性情報の番号を一つのレコードとして出力音声テーブル２３に登録する（Ｓ１０７）。

ユーザ識別部１２がレコードを登録するときに、当該レコードが１件目の場合（Ｓ１０８でＹＥＳ）、タイマ部１５は、音声出力処理を行うタイミングを指定するためのタイマを設定し、カウントを開始する（Ｓ１０９）。また、レコードが２件目以降の場合（Ｓ１０８でＮＯ）、ステップＳ１１０に進む。

その後、タイマが満了するまで（Ｓ１１０でＮＯ）、ステップＳ１０１〜Ｓ１０９を繰り返す。

タイマが満了すると（Ｓ１１０でＹＥＳ）、判定部１３は、出力音声テーブル２３に登録されているレコードを確認し（Ｓ１１１）、個人性情報の番号が一種類か否かを判定する（Ｓ１１２、判定ステップ）。個人性情報の番号が一種類であれば（Ｓ１１２でＹＥＳ）、応答部１４は、出力音声テーブル２３に登録されているレコードのうち、現在時刻が最新のものと対応している応答音声のファイルパスを用いて、応答音声を取得する。そして、取得した応答音声を出力制御部１７に通知する（Ｓ１１３）。出力制御部１７は、通知された応答音声を、音声出力部４０を介して外部へ出力させる（Ｓ１１４、応答ステップ）。

その後、ユーザ識別部１２は、出力音声テーブル２３に登録されているレコードを全て削除する（Ｓ１１５）。

一方、ステップＳ１１２で、個人性情報の番号が一種類でなければ（Ｓ１１２でＮＯ）、ステップＳ１１５に進み、ユーザ識別部１２は、出力音声テーブル２３に登録されているレコードを全て削除する。

以上、対話装置１における対話処理の流れである。

以上のように、本実施形態によれば、タイマ設定時間における発話者が１人か否かを判定し、発話を行うか否か（換言すれば、対話を行うか否か）を決定する。これにより、対話装置１の近辺で複数の人間が会話しているときに、当該会話に対し、対話装置１が発話をしてしまうことを防止することができる。すなわち、音声が自装置に向けられたものである場合にのみ応答を行い、自装置に向けられたものではない場合に、応答してしまうことを防止することができる。

図３に示す例を用いて説明すれば、次の通りである。図３（ａ）または（ｂ）に示すように、出力音声テーブル２３に登録されているレコードが１人のユーザ（音声の個人性情報の番号「１」のみ）の場合、そのうちの最新の応答音声に対応する応答音声を発話する。すなわち、図３（ａ）では、ファイルパス「/xxx/yyy/zzz/hello.wav」に対応する応答音声を発話し、図３（ｂ）では、ファイルパス「/xxx/yyy/zzz/morning.wav」に対応する応答音声を発話する。これにより、音声の個人性情報の番号が「１」のユーザと適切に対話を行うことができる。

一方、図３（ｃ）に示すように、出力音声テーブル２３に登録されているレコードが複数のユーザ（音声の個人性情報の番号が「１」と「２」）の場合、発話を行わない。なぜなら、図３（ｃ）に示す例では、音声の個人性情報の番号が「１」のユーザと、音声の個人性情報の番号が「２」のユーザとの対話である可能性が高いためである。

〔実施形態２〕
本発明の他の実施形態について、図６に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施形態において、上記実施形態１と異なるのは、出力音声テーブル２３に登録されているレコードの削除のタイミング、および発話する内容である。

より詳細に、図６を参照して説明する。図６は、レコードの削除のタイミングおよび発話の内容を説明するための図である。

図６（ａ）は、タイマの設定時間内に、人物Ａによる「こんにちは」という発話と、人物Ｂによる「おはようございます」との発話があった場合の出力音声テーブル２３のレコード例を示している。１行目の時刻「2016/2/29 9:08:43.876」、応答音声のファイルパス「/xxx/yyy/zzz/hello.wav」、音声の個人性情報の番号「１」が人物Ａの「こんにちは」に対応する。また、２行目の時刻「2016/2/29 9:08:44.990」、応答音声のファイルパス「/xxx/yyy/zzz/morning.wav」、音声の個人性情報の番号「２」が人物Ｂの「おはようございます」に対応する。

この状態で、タイマが満了した場合、実施形態１では、出力音声テーブル２３のレコードを削除していた。本実施形態では、タイマが満了してもこれらのレコードを削除しない。

図６（ａ）の状態で、次に、人物Ａが「おはようございます」と発話した場合、出力音声テーブル２３のレコードは、図６（ｂ）に示すようになる。図６（ｂ）の３行目の時刻「2016/2/29 9:15:50.001」、応答音声のファイルパス「/xxx/yyy/zzz/moring.wav」、音声の個人性情報の番号「１」が人物Ａの「おはようございます」に対応する。

ここで、タイマが満了した場合、本実施形態では、出力音声テーブル２３の３行目のレコードに対応する発話を行い、当該レコードを削除する。図６（ｃ）の網掛け部分のレコードを削除する。

本実施形態では、その後、当該発話と同じユーザ（ここでは人物Ａ）のレコードを検索し、当該レコードに対応する発話を行う。具体的には、例えば「さっき『こんにちは』って言おうとしました」と発話する（時間差応答）。そして、当該レコードを削除する（図６（ｄ）の網掛け部分）。

これにより、人物Ａの発話に対して、対話装置１が自装置に対する発話ではないと判断し応答しなった場合でも、後程、当該発話に対する応答を行うことができるので、ユーザに対し、安心感、親近感等を与えることができる。

〔実施形態３〕（ソフトウェアによる実現例）
対話装置１の制御ブロック（特に制御部１０（音声認識部１１、ユーザ識別部１２、判定部１３、応答部１４、タイマ部１５、音声入力部１６、出力制御部１７））は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、対話装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る対話装置は、ユーザとの対話を行う対話装置であって、上記ユーザの音声を認識する音声認識部と、上記音声認識部が認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定部と、上記判定部が、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答部と、を備えている構成である。

上記の構成によれば、音声認識部が認識した音声が、自装置に向けられたものと判定した場合、上記音声に対する応答を行う。これにより、音声が自装置に向けられたものである場合にのみ応答を行い、自装置に向けられたものではない場合に、応答してしまうことを防止することができる。

よって、ユーザが他のユーザに話しかけている場合に、対話装置が応答してしまうことを防止することができる。

本発明の態様２に係る対話装置は、上記の態様１において、上記判定部は、所定時間内に上記音声認識部が認識した音声を発したユーザが１人かどうかを判定することによって、上記音声が、自装置に向けられたものか否かを判定する構成としてもよい。

上記の構成によれば、所定時間に認識した音声を発したユーザが１人かどうかを判定する。所定時間内に認識された音声を発したユーザが１人の場合、当該音声は、自装置に向けて発せられた可能性が非常に高い。よって、認識した音声が自装置に向けられたものか否かを適切に判定することができる。

本発明の態様３に係る対話装置は、上記の態様２において、上記判定部は、上記所定時間内に、上記音声認識部が認識した音声が複数存在した場合、それぞれの音声の音響的特徴を比較して、ユーザが１人かどうかを判定する構成としてもよい。

上記の構成によれば、音声の音響的特徴を用いてユーザが１人かどうかを判定する。そして、ユーザが異なれば、音声の音響的特徴も異なるので、上記の構成により、ユーザが１人かどうかを適切に判定することができる。

本発明の態様４に係る対話装置は、上記の態様２または３において、上記応答部は、上記所定時間内に上記音声認識部が認識した上記音声のうち、当該音声を認識した時点が最新の音声に対し、上記応答を行う構成としてもよい。

上記の構成によれば、所定時間内に認識した音声のうち、当該音声を認識した時点が最新の音声に対し応答を行うので、適切な応答を行うことができる。また、最新でない音声に対し応答を行うことにより、ユーザを戸惑わせてしまうことを防止することができる。

本発明の態様５に係る対話装置は、上記の態様１〜４のいずれか１項において、上記応答部は、上記応答後、当該応答したユーザと同じユーザに対し、上記判定部が自装置に向けられたものではないと判定し、応答しなかった音声がある場合、当該音声に対する応答である時間差応答を行う構成としてもよい。

上記の構成によれば、応答しなかった音声を発したユーザが再び、自装置に対し、音声を発した場合、当該音声対する応答とともに、応答しなかった以前の音声に対する応答も行う。これにより、ユーザに対し、今回の応答のみではなく、以前の音声も覚えていたことを印象付けることができ、温かみを感じさせることができる。

本発明の態様６に係る対話装置は、上記の態様５において、上記応答部は、上記時間差応答を実行する場合、以前に応答しなった音声に対する応答であることを明示して応答する構成としてもよい。

上記の構成によれば、以前に応答しなかった音声に対する応答であることを明示して応答を行うので、何の音声に対する応答かユーザが認識できずに、ユーザを戸惑わせることを防止することができる。

本発明の態様７に係る対話装置の制御方法は、ユーザとの対話を行う対話装置の制御方法であって、上記ユーザの音声を認識する音声認識ステップと、上記音声認識ステップで認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定ステップと、上記判定ステップで、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答ステップと、を含む方法である。

上記の方法によれば、上述した態様１と同様の効果を奏する。

本発明の各態様に係る対話装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記対話装置が備える各部（ソフトウェア要素）として動作させることにより上記対話装置をコンピュータにて実現させる対話装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１対話装置
１０制御部
１１音声認識部
１２ユーザ識別部
１３判定部
１４応答部
１５タイマ部
１６音声入力部
１７出力制御部
２０記憶部
２１認識辞書データ
２２応答音声データ
２３出力音声テーブル
３０入力受付部
４０音声出力部

Claims

ユーザとの対話を行う対話装置であって、
上記ユーザの音声を認識する音声認識部と、
上記音声認識部が認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定部と、
上記判定部が、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答部と、を備え、
上記判定部は、所定時間内に上記音声認識部が認識した音声を発したユーザが１人かどうかを判定することによって、上記音声が、自装置に向けられたものか否かを判定することを特徴とする対話装置。
上記判定部は、上記所定時間内に、上記音声認識部が認識した音声が複数存在した場合、それぞれの音声の音響的特徴を比較して、ユーザが１人かどうかを判定することを特徴とする請求項１に記載の対話装置。
上記応答部は、上記所定時間内に上記音声認識部が認識した上記音声のうち、当該音声を認識した時点が最新の音声に対し、上記応答を行うことを特徴とする請求項１または２に記載の対話装置。
上記応答部は、上記応答後、当該応答したユーザと同じユーザに対し、上記判定部が自装置に向けられたものではないと判定し、応答しなかった音声がある場合、当該音声に対する応答である時間差応答を行うことを特徴とする請求項１〜３のいずれか１項に記載の対話装置。
上記応答部は、上記時間差応答を実行する場合、以前に応答しなった音声に対する応答であることを明示して応答することを特徴とする請求項４に記載の対話装置。
ユーザとの対話を行う対話装置の制御方法であって、
上記ユーザの音声を認識する音声認識ステップと、
上記音声認識ステップで認識した上記音声から、当該音声が自装置に向けられたものか否かを判定する判定ステップと、
上記判定ステップで、上記音声を自装置に向けられたものと判定した場合、上記音声に対する応答を行う応答ステップと、を含み、
上記判定ステップでは、所定時間内に上記音声認識ステップで認識した音声を発したユーザが１人かどうかを判定することによって、上記音声が、自装置に向けられたものか否かを判定することを特徴とする対話装置の制御方法。
請求項１〜５のいずれか１項に記載の対話装置としてコンピュータを機能させるための制御プログラムであって、上記各部としてコンピュータを機能させるための制御プログラム。