JP2010072704A

JP2010072704A - インターフェース装置および入力方法

Info

Publication number: JP2010072704A
Application number: JP2008236542A
Authority: JP
Inventors: Daisuke Yamamoto; 大介山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-16
Filing date: 2008-09-16
Publication date: 2010-04-02

Abstract

【課題】インターフェース技術を用いた装置では音声指示語と機器の動作や状態の変化を関連付ける。
【解決手段】機器の状態を検出する状態検出手段と、機器の状態に応じて、固有の情報をテキスト情報として抽出する情報抽出手段と、検出された状態に基づいた問い掛けを行う問い掛け手段と、問い掛けに応じてユーザが発する音声を、認識する音声認識制御手段と、前記音声の認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声の認識結果と前記固有の情報の対応関係を保持する対応関係データベースと、前記対応関係データベースに保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定する照合部とを有する。
【選択図】図２

Description

本発明はインターフェース装置および入力方法に関する

近年、家庭内において、多くの家電機器の遠隔操作が可能となってきている。また、個々の家電機器同士もネットワークなどを介して相互に接続され、複数の機器を連係させて操作する場合などに、操作の多様性も増加している。家電機器の遠隔操作を行なう場合、遠隔操作することが可能な機種の種類に応じて、例えば家電機器ごとに設けられたリモコン等で操作を指定しなければならなくなる。しかしながら、現在の家電機器等ではひとつの機器で多くの機能を実現することが可能であるため、リモコン等の操作が複雑になってきている。リモコン等の操作が複雑になると、ユーザが機器ごとにリモコンの操作手順等を記憶しなければならなくなり、遠隔操作の煩雑さが増加する原因となっている。

そのため、意味と操作の対応が付けやすい音声によって各機器に指示が行なえる音声インターフェース技術が研究されている。音声インターフェース技術では、通常、操作の対象となる機器の動作に対する音声指示語が予め設定されている。したがってユーザは設定された音声指示語を用いることにより機器操作を行なうことが可能となる。しかしながら、このような音声インターフェース技術では、機器操作のための音声指示語が、予め設定されており、ユーザは機器ごとに設定されている音声指示語を記憶しなければならない。

そこで、特許文献１に示した技術ではユーザの音声指示語の主要部（反応信号）を記憶してゆき、その反応信号に応じて機器操作を行なう技術が開示されている。特許文献１に示した技術では、ユーザは予め定められた音声指示語を記憶する必要がなくなる。また、非特許文献１に示した技術では予め設定された音声指示語ではなくユーザが定めた自由な言葉で機器操作を行なうインターフェース技術が開示されている。
特開２００７−１１８７３ "親和行動導入における実用的ホームロボットインターフェースの研究"、情報処理学会１１７回ヒューマンインターフェース研究会研究報告、２００６−ＨＩ−１１７（２００６）

しかしながら、従来の音声インターフェース技術を用いた装置では、予め設定された音声指示語を用いる必要がない場合でもユーザあるいは音声インターフェース装置が前もって認識している操作などに基づいていない音声指示語と機器の動作や状態の変化を関連付けることは困難である。

本発明の１態様によるユーザインターフェース装置は、機器の状態を検出する状態検出手段と、機器の状態に応じて、固有の情報をテキスト情報として抽出する情報抽出手段と、検出された状態に基づいた問い掛けを行う問い掛け手段と、問い掛けに応じてユーザが発する音声を、認識する音声認識制御手段と、前記音声の認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声の認識結果と前記固有の情報の対応関係を保持する対応関係データベースと、前記対応関係データベースに保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定する照合部とを有することを特徴とする。

また、本発明の１態様による入力方法では、機器の状態を検出し、機器の状態に応じて、固有の情報をテキスト情報として抽出し、検出された情報に基づいた問い掛けを行い、問い掛けに応じてユーザが発する音声を、音声認識し、前記音声認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声認識結果と前記固有の情報の対応関係を保持し、前記保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定することを特徴とする。

本発明によれば音声インターフェース装置が予め認識していない状態の変化などに対しても、音声インターフェース技術を用いた機器の操作が容易となる。

（第１の実施の形態）
以下、図面を参照して本発明の実施の形態について説明する。
図１は、本発明の第１の実施の形態に関わるインターフェース装置の概略を示す概略図である。図１では、ユーザ１、インターフェース装置２、機器３が示されている。インターフェース装置２と機器３とは無線などにより、相互通信が可能とされている。ユーザ１は、機器３を操作する使用者である。ユーザ１は、音声指示語などを発声することにより機器３の操作を行なう。インターフェース装置２は、ユーザ１から与えられた音声指示語を認識し、機器３に対して動作の指示、状態を変化させるための指示コマンドなどを送信する。

また、インターフェース装置２は、機器３の状態の変化などを検出し、機器３の状態変化などをユーザ１に対して通知する。本実施の形態では、インターフェース装置２としてはロボットを採用している。機器３は、例えば家電製品など、その動作や状態の変更が発生する機器である。以降、説明する実施の形態において機器３は、例えばテレビやパーソナルコンピュータ（以下、ＰＣと省略する）などの機器であり、外部との通信によってその状態が変化する機器であることが好ましい。機器３は、自己の動作状態をインターフェース装置２（本実施形態ではロボット）に送信することが可能である。また、機器３は、インターフェース装置２より送信されるコマンドなどに応じてその動作状態などを変化させることが可能である。

図２は、本実施の形態におけるインターフェース装置２の構成を示す概略図である。本実施の形態の理解を容易にするため、図２には最低必要限の構成要素のみ示している。より好ましい動作を行なうための詳細な構成要素などについては後述する。

本実施の形態におけるインターフェース装置２は、状態検出部２０１、情報抽出部２０２、問い掛け部２０３、音声認識部２０５、認識語彙データベース２０６、機器操作部２０７、照合部２０８、蓄積部２０９および対応関係データベース２１０を有している。

状態検出部２０１は、インターフェース装置２と通信を行なう機器３、例えばＰＣやテレビの状態が継続している（変化をしていない）か、変化したかを検出する。例えばＰＣがメールを受信した場合には、状態が変化したものとして、状態検出部２０１が機器３の状態の変化を検出する。機器３の状態の変化としては、メールの受信以外にもテレビ放送上の番組情報に関する情報の受信なども含まれる。また、機器３がＰＣであれば、ユーザがアクセスする対象となるファイルが変化した場合なども状態の変化として検出する。

情報抽出部２０２は、機器３の状態に基づく情報を抽出する。ここで情報抽出部２０２が抽出する情報は、機器３の状態が変化した場合は、その状態変化に基づいた情報である。また、機器３の状態が継続している場合（変化をしていない場合）は、継続している状態に付随する情報である。例えば、機器３がＰＣであり、メールを受信したことによって状態が変化した場合は、情報抽出部２０２は、送信元のメールアドレス、メールのタイトル、メールに付随する署名情報などを抽出する。また、機器３がテレビなどである場合には、テレビ放送上の番組情報が変化した場合などが、機器の状態の変化に対応している。例えば、機器３がテレビであり、その状態が変化した場合、情報抽出部２０２は、放送される番組名、番組内容に対応するキーワード、番組に出演する出演者などに関する情報を抽出する。これらの情報は、テキスト情報として情報抽出部２０２により抽出される。

蓄積部２０９は、情報抽出部２０２が抽出した情報を保持する記憶部である。蓄積部２０９は、情報抽出部２０２が抽出したテキスト情報を保持することが可能である。

問い掛け部２０３は、ユーザに対する問い掛けを行なう部分である。本実施の形態では、インターフェース装置２は音声を用いたインターフェース装置としている。そのため、問い掛け部２０３は、音声によってユーザに対する問い掛けを行う。例えば、情報抽出部２０２によって抽出された情報と、対応関係データベース２１０に保持された情報に対応関係がない場合、問い掛け部２０３は、ユーザ１に対して対応関係がない旨を音声によって通知する。情報抽出部２０２によって抽出された情報と、対応関係データベース２１０に保持された情報に対応関係がある場合、対応関係に応じてユーザに通知する内容を変化させる。この問い掛け部２０３の詳細な動作については、後述する。

音声認識部２０５は、図示しないマイクなどを介して入力されたユーザからの音声指示語を認識する。音声認識部２０５は、入力された音声を認識し、認識した音声を認識語彙データベース２０６へと登録する。また、音声認識部２０５は、音声認識した結果を照合部２０８へと出力する。

照合部２０８は、各部の動作制御および蓄積部２０９、対応関係データベース２１０などへの書き込み等を行なう部分である。例えば情報抽出部２０２が、機器の状態の変化などに基づいて情報を抽出した場合、情報抽出部２０２が抽出した情報と、対応関係データベース２１０に保持されている情報の照合を行なう。照合部２０８は、照合結果に基づいて問い掛け部２０３に対して問い掛けの内容を指示する。また、音声認識部２０５が、ユーザからの指示を認識した場合は、音声指示に応じて機器操作部２０７に対して制御信号を出力する。

機器操作部２０７は、照合部２０８から与えられた信号に基づいて、インターフェース装置２が操作する対象となる機器に対する操作信号を出力する。例えば、操作対象機器がＰＣなどであれば、メールの送受信やブラウザ閲覧などの動作を行なうための指示を行なう。

対応関係データベース２１０は、情報抽出部２０２を介して蓄積部に蓄積されたテキスト情報と、音声呼称を対応させて保持するデータベースである。

以上のように構成された、インターフェース装置２の最も基本的な動作について説明する。以下の説明では、ＰＣがメールを受信し、その動作に対応する場合を例に、インターフェース装置２の動作について説明する。図３乃至図５は、操作対象機器としてＰＣを用いた例の動作を示す模式図である。図３乃至図５では、インターフェース装置２を用いてメール受信を行なう場合の動作を示している。図３乃至図５に示す動作では、ユーザ１はインターフェース装置２に対して音声指示によって動作指示を行ない、インターフェース装置２は、音声によって機器の状態変化などをユーザに知らせるものとする。ここで、図３および図４は、インターフェース装置２における処理動作を示すフローチャートである。図５は、インターフェース装置２の使用例を説明するための図である。

本実施の形態では、インターフェース装置２としては、ユーザに対して親しみやすい身体性を有するロボットを用いている。そのため、以下の説明においてはインターフェース装置２をロボット２と称して説明する。

機器（ＰＣ）３がメールを受信した場合、ＰＣはロボット２に対して受信したメールの送信元アドレス、タイトル、メールの本文などを送信する。ロボット２では、状態検出部２０１がメールを受信したことを検出する（図３および図４、Ｓ３０１参照）。情報抽出部２０２は、受信したメールに関する情報の抽出を行なう。ここで、メール受信の場合に、情報抽出部２０２が抽出する情報はメールの送信元のアドレスに対応するテキスト情報などのメールに固有と思われる情報である。情報抽出部２０２が抽出した情報は、蓄積部２０９に保存される。

情報抽出部２０２が抽出したテキスト情報は、照合部２０８において対応関係データベース２１０が保持している対応関係との照合が行なわれる（図３および図５、Ｓ３０２参照）。本実施の形態では、例えば送信元メールアドレスと音声の対応が対応関係データベース２１０に保持されている場合と、送信元メールアドレスが保持されてない場合とで問い掛け部３がユーザに対して問いかける内容が異なる。照合部２０８は、情報抽出部２０２が抽出したテキスト情報と、対応関係データベース２１０が保持している情報との照合結果に応じて問い掛け部２０３に対して、問いかけ内容の指示を行なう信号を出力する（図３および図５、Ｓ３０３参照）。

情報抽出部２０２が抽出したテキスト情報と音声呼称との対応が、対応関係データベース２１０に保持されていない場合、照合部２０８は問い掛け部２０３に対して送信元メールアドレスが未知のものであることを知らせる信号を出力する。また、照合部２０８は問い掛け部２０３に対してユーザに対して受信したメールの内容をロボット２が読み上げるかどうかの確認を行なうための信号を出力する（図３および図５、Ｓ３０７参照）。

問い掛け部２０３は、照合部２０８による照合結果に基づいて、ユーザに対する問いかけを行なう。情報抽出部２０２が抽出したテキスト情報と音声呼称との対応がとれない場合、問い掛け部２０３は、ユーザに未登録の送信元であることを知らせる。また、ユーザに対してメール読み上げを行なうかどうかの確認に対応する問いかけも行なう。送信元のメールアドレスが未登録であれば送信元に対する音声呼称は不明である。したがって、ここで行なう問いかけは、例えば「知らない人からメールが届いています。読み上げますか？」などの音声によって行なわれる（図３および図５、Ｓ３０７参照）。

ロボット２から、問いかけが行なわれた場合、ユーザはロボット２に対して音声によって動作を指示する。ここではメールの読み上げを行なうか、行なわないかの指示が出される（例えば「読んでください」、「読まないでください」など、図３および図５、Ｓ３０８参照）。この指示は、認識語彙データベース２０６に保持されている認識語彙に基づいて音声認識部２０５により認識され、その認識結果が照合部２０８へと出力される。

メールを読み上げることが選択された場合、ロボット２はメールを読み上げ（図３および図５、Ｓ３０９参照）、次のステップＳ３１０（送信元の確認発話処理）に移行する。メールを読み上げないことが選択された場合、ロボット２はメールを読み上げずに次のステップＳ３１０（送信元の確認発話処理）に移行する。

送信元の確認処理では、問い掛け部２０３は、ユーザに対して送信元に関する問いかけを行なう。ここで行なわれる問いかけは例えば「誰からのメールですか？」等の音声発話によって行なわれる（図３および図４、Ｓ３１０参照）。ここで、図４は、送信元の確認における処理をより詳細に示したものである。

まず、ロボット２内部では、メールの送信元に関係する情報が、認識語彙データベースへと登録される（図４、Ｓ４０１参照）。また、ロボット２は、ユーザに対して送信元を確認するための発話を行ない、送信元に対応させる音声指示語をユーザに確認する（図３乃至図５、Ｓ３１０参照）。

ユーザ１は、ロボット２からの問いかけに対し、メール内容などから送信元を推測し、送信元が確認可能かどうかを判断する。ユーザは送信元を確認した場合、送信元と関連付けるための音声指示語を発話することが可能である。ユーザからの音声指示による回答が行なわれた場合、音声認識部２０５が回答音声を認識する（図４、Ｓ４０２参照）。音声認識部２０５が行なう音声認識方式は大語彙連続音声認識方式を用いる。ここで認識された回答の音声（例えば「太郎さんです」、「太郎さんでした」などにおける“太郎さん”）と、メール送信元のアドレス（ＸＸＸ＠ＸＸＸ．ＸＸ）や、メールに含まれる署名に対応すると思われるテキスト情報、メール本文中の固有名詞などが関連付けられ、認識語彙とされる。ここで、音声データおよび音声と関連付けられたテキストデータなどは、認識語彙データベース２０６へと登録される（図４、Ｓ４０２参照）。

次に、ロボット２は、ユーザからの音声による回答が送信元を示すものであったかどうかを判断する（図３乃至５、Ｓ３１１参照）。ユーザから音声指示による回答がない場合、あるいは「分りません」などの送信元を確認することが不可能な音声指示が入力された場合は、ロボット２は、音声データに対応するテキストデータと情報抽出部２０２が抽出した情報の対応付けなどは行なわずにメール受信動作を終了する。

ユーザからの音声による回答があった場合、ロボット２は、対応関係を保持する動作を行なう（図３および図４、Ｓ３１２参照）。対応関係をと登録する動作において、ロボット２は、情報抽出部２０２が抽出した情報と音声認識部２０５が認識した音声に対応するテキスト情報との対応関係を対応関係データベースへと登録する。これらのデータ保存を行なった後にロボット２は、メール受信動作を終了する。

一方、メール受信に伴い情報抽出部２０２が抽出したテキスト情報が、対応関係データベースに関連付けて保持されているテキスト情報であった場合、問い掛け部２０３は、ユーザに送信元を知らせる。また、ユーザに対してメール読み上げを行なうかどうかの確認に対応する問いかけも行なう。ここで行なう問いかけは、例えば「“太郎さん”からメールが届いています。読み上げますか？」などの音声によって行なわれる（図３および図５、Ｓ３０４参照）。

ロボット２から、問いかけが行なわれた場合、ユーザはロボット２に対して音声によって動作を指示する。ここではメールの読み上げを行なうか、行なわないかの指示が出される（図３および図５、Ｓ３０５参照）。

メールを読み上げることが選択された場合、ロボット２はメールを読み上げメール受信の動作を終了する（図３および図５、Ｓ３０６参照）。メールを読み上げないことが選択された場合、ロボット２はメールを読み上げずにメール受信の動作を終了する（図３、S３０５参照）。

以上説明したように、本実施の形態の最も基本的な動作によれば、情報抽出部２０２が抽出した情報および対応関係データベース２１０を用いてユーザに対する問い掛けを行ない、問い掛けに対するユーザの応答をあらたに音声認識して、対応関係データベース２１０に登録することが可能となる。したがって、機器の状態の変化などに応じて、より適切な問い掛けを行うインターフェース装置２を提供することが可能となる。なお上記説明はメール受信の動作を例に説明したが、メール送信元のアドレスを閲覧先のアドレス（ＷＷＷサーバのＵＲＬ）とすれば、ブラウザ閲覧についても同様に、より適切な問い掛けを行うインターフェース装置２を提供することが可能となる。

図６は、本実施の形態におけるインターフェース装置２の、より詳細な構成を示す概略図である。図６に示すインターフェース装置２では、図２に示したインターフェース装置２に対して、語彙優先度調整部２０４が追加されている。
語彙優先度調整部２０４は、音声認識制御部２０５が優先的に認識するテキスト情報（待ち受け語）を保持する。このテキスト情報は、情報抽出部２０２によって抽出されたテキスト情報に基づくものであり、音声認識制御部２０５が音声認識を行なう際の特徴的な語彙の優先度を決定する部分である。

図６に示したインターフェース装置では、情報抽出部２０２が抽出した情報と、音声指示語との対応が、語彙優先度調整部２０４に保持される。例えば、上述した情報抽出部２０２が抽出した情報（ｔａｒｏ＠ｘｘｘ．ｘｘなど）に対して、図３に示したＳ３１０の送信元の確認処理においてユーザから音声指示語（例えば「太郎さん」）が与えられた場合、音声指示語（「太郎さん」）と、情報抽出部２０２が抽出した情報（ｔａｒｏ＠ｘｘｘ．ｘｘなど）の関連度を初期値（例えば関連度を示す係数として０．１）に設定して語彙優先度調整部２０４に登録する。その後、再び情報抽出部２０２が同一の情報（ｔａｒｏ＠ｘｘｘ．ｘｘなど）を抽出し、音声指示語として同一の音声指示語（例えば「太郎さん」）が与えられた場合には、音声指示語と、情報抽出部２０２の抽出した情報と音声指示語の関連度を上げて（例えば、関連度の係数を０．２に更新する）語彙優先度調整部２０４に再度保持される。語彙優先度調整部２０４は、この関連度に応じて認識語彙データベース２０６に対して優先的に認識する語彙の指示を行なう。このように語彙優先度調整部２０４を設けることにより、ユーザからの指示に基づいた音声認識をより正確に行なうことが可能となる。

（第２の実施の形態）
本発明のインターフェース装置２の第２の実施形態に関わる動作について説明する。図７および図８は、第２の実施形態に関わる動作を示す模式図である。図７および図８では、インターフェース装置２を用いて画像閲覧を行なう場合の動作を示している。ここでは、ＰＣが保持している画像をユーザ１が閲覧する例を用いて説明する。図７、図８に示す動作では、ユーザ１はインターフェース装置２に対して音声指示によって動作指示を行ない、インターフェース装置２は、音声によって機器の状態変化などをユーザに知らせるものとする。ここで、図７は、インターフェース装置２における処理動作を示すフローチャートである。図８は、インターフェース装置２の使用例を説明するための図である。

本実施の形態でも、インターフェース装置２としては、ロボットを用いている。そのため、以下の説明においてはインターフェース装置２をロボット２と称して説明する。

ユーザ１が閲覧する画像ファイルなどを選択した場合、ＰＣはロボット２に対して選択された画像のタイトルなどを送信する。ロボット２では、状態検出部２０１が特定のファイルが選択されたことを検出する（図７および図８、Ｓ７０１参照）。情報抽出部２０２は、選択されたファイルに関する情報の抽出を行なう。ここで、情報抽出部２０２が抽出する情報はファイル名に対応するテキスト情報などのファイルに固有と思われる情報である。情報抽出部２０２が抽出した情報は、蓄積部２０９に保存される。

情報抽出部２０２が抽出したテキスト情報は、照合部２０８において対応関係データベース２１０が保持している情報との照合が行なわれる（図７、Ｓ７０２参照）。本実施の形態では、例えばファイル名と音声の対応が対応関係データベース２１０に保持されている場合と、保持されてない場合とで問い掛け部３がユーザに対して問いかける内容が異なる。照合部２０８は、情報抽出部２０２が抽出したテキスト情報と、対応関係データベース２１０が保持している情報との照合結果に応じて問い掛け部２０３に対して、問いかけ内容の指示を行なう信号を出力する（図７、Ｓ７０３参照）。

情報抽出部２０２が抽出したテキスト情報と音声呼称との対応が、対応関係データベース２１０に保持されていない場合、照合部２０８は問い掛け部２０３に対してアクセス対象となるファイルが未知のものであることを知らせる信号を出力する。

問い掛け部２０３は、照合部２０８による照合結果に基づいて、ユーザに対する問いかけを行なう。情報抽出部２０２が抽出したテキスト情報と音声呼称との対応がとれない場合、問い掛け部２０３は、ユーザに未登録のファイルであることを知らせる。したがって、ここで行なう問いかけは、例えば「未知のファイルです。誰のファイルですか？」などの音声によって行なわれる（図７、Ｓ７１０参照）。

ロボット２から、問いかけが行なわれた場合、ユーザはロボット２に対して音声によって回答を行なう。

ユーザは、ロボット２からの問いかけに対し、ファイル内容が識別可能かどうかを判断する。ここで、ユーザ１は、ファイルの内容と関連付けるための音声指示を行うことが可能である。ユーザからの音声指示による回答が行なわれた場合、音声認識部２０５が回答音声を認識する（図７、Ｓ７１１参照）。ここで認識された回答の音声（例えば「太郎さんです」、「太郎さんでした」などにおける“太郎さん”）と、ファイル固有のテキスト情報（ＸＸＸ．ｊｐｇ）などが関連付けられ、認識語彙とされる。ここで、音声データおよび音声と関連付けられたテキストデータなどは、認識語彙データベース２０６へと登録される。

ユーザから音声指示による回答がない場合、あるいは「分りません」などのファイルを識別することが不可能な音声指示が入力された場合は、ロボット２は、音声データのテキストデータと情報抽出部が抽出した情報の対応付けなどは行なわずに動作を終了する。

ユーザからの音声による回答があった場合、ロボット２は、対応関係を保持する動作を行なう（図７、Ｓ７１２参照）。対応関係を登録する動作において、ロボット２は、情報抽出部２０２が抽出した情報と音声認識部２０５が認識した音声に対応するテキストデータとの対応関係を対応関係データベースへと登録する。これらのデータ保存を行なった後にロボット２は、動作を終了する。

一方、情報抽出部２０２が抽出したテキスト情報が、対応関係データベースに音声データと関連付けて保持されているテキストデータであった場合、問い掛け部２０３は、ユーザにファイルに関する情報を知らせる。ここで、ユーザ１に対する通知は、例えば「“太郎さんの写真です”」などの音声、あるいは画像とともに関連付けられたテキスト情報を表示することなどによって行なわれる（図７、Ｓ７１２参照）。

以上説明したように、本実施の形態の動作によれば、情報抽出部２０２が抽出した情報および対応関係データベース２１０を用いてユーザに対する問い掛けを行ない、問い掛けに対するユーザの応答をあらたに音声認識して、対応関係データベース２１０に登録することが可能となる。したがって、機器の状態の変化などに応じて、より適切な問い掛けを行うインターフェース装置２を提供することが可能となる。

（第３の実施の形態）
図９は、第３の実施の形態のインターフェース装置の使い方を示したフローチャートであり、図１０は、その動作を示した概略図である。第３の実施の形態では、メール受信した際に、音声指示語を介して関連付けられた画像ファイルを表示すると共に、メールを読みあげることを可能とするインターフェース装置の例である。

本実施の形態では、インターフェース装置２は、第１の実施の形態に示した場合と同様に、メールを受信した際に、送信元メールアドレスを、対応関係データベースに照会する。対応関係データベースに、送信元メールアドレスが登録されていない場合は、第１の実施の形態と同じ処理を行なう。

対応関係データベースに、送信元メールアドレスが登録されていた場合、本実施の形態では同一の音声指示語に対応する対応関係が対応関係データベースに保持されていないかどうかの検索を行なう。同一の音声指示語に関連付けられている対応関係が存在した場合、本実施の形態のインターフェース装置は、その音声指示語に関連している他の動作もあわせて実行する。

ここで言う他の動作とは、例えば対応関係データベースに同一の音声指示語に関連付けられた画像などが存在した場合に、その画像表示などを行う動作である。

同一の音声指示語に対応させた対応関係が存在しない場合は、第１の実施の形態に示した処理のみを行なって動作を終了する。他の対応関係が見つかった場合(例えば、ｔａｒｏ＠ｘｘｘ．ｊｐに“太郎”と言う音声が対応している。そして“太郎”と言う音声にはｔａｒｏ．ｊｐｇと言う画像が対応している)、関連するファイル操作（例えばｔａｒｏ．ｊｐｇ画像の表示）を実行すると共に、メールを読上げるか否かを確認し、メールを読上げることが可能となる。

また、本実施の形態のインターフェース装置においては、対応関係データベースに、対応関係データベースに保持されているファイルと、対応する音声指示語の関連度なども保持可能とする。そして、この関連度に応じて、情報抽出部が抽出した情報に対応するファイルの表示などの実行の有無を判断するものとする。

以下の説明では、ＰＣがメールを受信し、その動作に対応する場合を例に、インターフェース装置２の動作について説明する。ＰＣがメールを受信し、その送信元メールアドレス等の情報が対応関係データベースに保持されていない場合は、第１の実施の形態と同様の動作を行なう（図９、Ｓ９０２〜Ｓ９１５参照）。

本実施の形態では、ＰＣがメールを受信し、その送信元メールアドレス等の情報が対応関係データベースに保持されていた場合は、対応関係データベース２１０から、送信元アドレスと対応する音声データの照合を行なう。その後、送信元アドレスの音声データに対応付けられたファイルの有無を検索する（図９、Ｓ９０３参照）。

その結果、送信元のメールアドレスに対応する音声データ、およびその音声データに対応するファイルが存在する場合は、そのファイルを表示すると共に、メール読み上げ可否などの問い掛け動作に移行する（図９、Ｓ９０３〜Ｓ９０６参照）。送信元のメールアドレスに対応する音声データが存在し、その音声データに対応するファイルが存在しない場合は、第１の実施の形態同様、音声呼称と共にユーザに送信元などを通知し、メール読み上げ可否などの問い掛け動作に移行する（図９、Ｓ９０３〜Ｓ９０９参照）。

また、本実施の形態では、送信元のメールアドレスに対応する音声データ、およびその音声データに対応するファイルが存在する場合に、そのファイルと、メール送信元などの音声呼称の関連度を参照する。この関連度は、対応関係データベース２１０において、メールアドレスと音声呼称の関連度、ファイル名と音声呼称の関連度の係数を保持することによって、関連度に応じた動作が可能となる。例えば、送信元メールアドレス（ｔａｒｏ＠．ＸＸＸ．ｊｐ）と、対応する音声呼称（例えば“太郎さん”）が、０．８と言う関連度で保持され、音声呼称（例えば“太郎さん”）と画像データ（ｔａｒｏ．ｊｐｇ）が０．７と言う関連度で対応関係データベースに保持されていた場合、この関連度の係数に応じて図９、Ｓ９０４においてファイルを表示する／表示しない、を判断する。

このように構成することで、仮に音声呼称（例えば“太郎さん”）に、対応付けられたファイルとして、他のファイル（例えば“ｋｅｎｔａｒｏ．ｊｐｇ”）等が存在した場合でも関連度を優先させてファイルを選択することにより、表示の優先度を向上させ、インターフェース装置として、ユーザ側からの認識が容易になる。

（変形例）
以下、図１１、１２を用いて本発明の変形例を示す。図１１は、本発明のインターフェース装置を、ＥＰＧに使用した場合のフローを示すフローチャートであり、図１２は、本発明のインターフェース装置をファイル認識に特化した場合の使用例を示す概略図である。

ここでは、録画機器が保持している放送番組を録画した動画ファイルをユーザ１が視聴する例を用いて説明する。図１１、図１２に示す動作では、ユーザ１はインターフェース装置２に対して音声指示によって動作指示を行ない、インターフェース装置２は、音声によって機器の状態変化などをユーザに知らせるものとする。ここで、図１１は、インターフェース装置２における処理動作を示すフローチャートである。図１２は、インターフェース装置２の使用例を説明するための図である。

ユーザ１が視聴する動画ファイルなどを選択した場合、録画機器はロボット２に対して選択された動画の情報（例えばＥＰＧデータの番組名）などを送信する。ロボット２では、状態検出部２０１が特定の動画ファイルが選択されたことを検出する（図１１および図１２、Ｓ１１０１参照）。情報抽出部２０２は、選択された動画ファイルに関する情報の抽出を行なう。ここで、情報抽出部２０２が抽出する情報は録画時に保存されたＥＰＧデータに対応するテキスト情報などの動画に固有と思われる情報である。情報抽出部２０２が抽出した情報は、蓄積部２０９に保存される。

情報抽出部２０２が抽出したテキスト情報は、照合部２０８において対応関係データベース２１０が保持している情報との照合が行なわれる（図１１、Ｓ１１０２参照）。本実施の形態では、例えば番組名と音声の対応が対応関係データベース２１０に保持されている場合と、保持されてない場合とで問い掛け部３がユーザに対して問いかける内容が異なる。照合部２０８は、情報抽出部２０２が抽出したテキスト情報と、対応関係データベース２１０が保持している情報との照合結果に応じて問い掛け部２０３に対して、問いかけ内容の指示を行なう信号を出力する（図１１、Ｓ１１０３参照）。

情報抽出部２０２が抽出したテキスト情報と音声呼称との対応が、対応関係データベース２１０に保持されていない場合、照合部２０８は問い掛け部２０３に対してアクセス対象となる動画ファイルが未知のものであることを知らせる信号を出力する。

問い掛け部２０３は、照合部２０８による照合結果に基づいて、ユーザに対する問いかけを行なう。情報抽出部２０２が抽出したテキスト情報と音声呼称との対応がとれない場合、問い掛け部２０３は、ユーザに未登録のファイルであることを知らせる。したがって、ここで行なう問いかけは、例えば「未知のファイルです。何のファイルですか？」などの音声によって行なわれる（図１１、Ｓ１１１０参照）。

ユーザは、ロボット２からの問いかけに対し、ファイル内容が識別可能かどうかを判断する。ここで、ユーザ１は、ファイルの内容と関連付けるための音声指示を行うことが可能である。ユーザからの音声指示による回答が行なわれた場合、音声認識部２０５が回答音声を認識する（図１１、Ｓ１１１１参照）。ここで認識された回答の音声（例えば「お昼のニュースです」、「お昼のニュースでした」などにおける“お昼のニュース”）と、動画ファイル固有のテキスト情報（ＥＰＧの番組名等）などが関連付けられ、認識語彙とされる。ここで、音声データおよび音声と関連付けられたテキストデータなどは、認識語彙データベース２０６へと登録される。

ユーザからの音声による回答があった場合、ロボット２は、対応関係を保持する動作を行なう（図１１、Ｓ１１１２参照）。対応関係を登録する動作において、ロボット２は、情報抽出部２０２が抽出した情報と音声認識部２０５が認識した音声に対応するテキストデータとの対応関係を対応関係データベースへと登録する。これらのデータ保存を行なった後にロボット２は、動作を終了する。

一方、情報抽出部２０２が抽出したテキスト情報が、対応関係データベースに音声データと関連付けて保持されているテキストデータであった場合、問い掛け部２０３は、ユーザにファイルに関する情報を知らせる。ここで、ユーザ１に対する通知は、例えば「“お昼のニュースの動画です”」などの音声、あるいは動画とともに関連付けられたテキスト情報を表示することなどによって行なわれる（図１１、Ｓ１１１２参照）。

以上説明したように、本変形例の動作によれば、情報抽出部２０２が抽出した情報および対応関係データベース２１０を用いてユーザに対する問い掛けを行ない、問い掛けに対するユーザの応答をあらたに音声認識して、対応関係データベース２１０に登録することが可能となる。したがって、機器の状態の変化などに応じて、より適切な問い掛けを行うインターフェース装置２を提供することが可能となる。

本発明の第１の実施の形態におけるインターフェース装置の概略図である。本発明の第１の実施の形態におけるインターフェース装置の概略ブロック図である。図２のインターフェース装置の動作を示すフローチャートである。図３のフローチャートの一部を説明するフローチャートである。図３のインターフェース装置の動作を説明するための概念図である。他の実施の形態におけるインターフェース装置の概略ブロック図である。本発明の第２の実施の形態におけるインターフェース装置の動作を示すフローチャートである。図７のインターフェース装置の動作を示すための概念図である。本発明の第３の実施の形態におけるインターフェース装置の概略ブロック図である。図９のインターフェース装置の動作を示す概念図である。本発明の変形例であるインターフェース装置に係るフローチャートである。図１１のインターフェース装置の動作を示す概念図である。

符号の説明

１…ユーザ
２…インターフェース装置（ロボット）
３…機器
２０１…状態検出部
２０２…情報抽出部
２０３…問い掛け部
２０４…語彙優先度調整部
２０５…音声認識部
２０６…データベース
２０７…機器操作部
２０８…照合部
２０９…蓄積部
２１０…対応関係データベース

Claims

機器の状態を検出する状態検出手段と、
機器の状態に応じて、固有の情報をテキスト情報として抽出する情報抽出手段と、
検出された前記固有の情報に基づいた問い掛けを行う問い掛け手段と、
問い掛けに応じてユーザが発する音声を、認識する音声認識制御手段と、
前記音声の認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声の認識結果と前記固有の情報の対応関係を保持する対応関係データベースと、
前記対応関係データベースに保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定する照合部とを有することを特徴とするインターフェース装置。
前記機器は、メール受信またはブラウザ閲覧が可能な装置であり、前記情報抽出手段の抽出する前記固有の情報は、送信元または閲覧先アドレス及びそれに付随する情報であることを特徴とする請求項１に記載のインターフェース装置。
前記機器は、録画機器であり、前記情報抽出手段の抽出する前記固有の情報は、ＥＰＧで受信される情報であることを特徴とする請求項１に記載の音声インターフェース装置。
前記機器は、任意のファイルに対するアクセスが可能な機器であり、前記情報抽出手段の抽出する前記固有の情報は、ファイルに固有の情報であることを特徴とする請求項１に記載の音声インターフェース装置。
前記インターフェース装置は、前記ユーザによる音声を認識した際に算出する音声と対応関係データベースに保持された情報との関連度に応じて、動作内容を変更することを特徴とする請求項１乃至４のいずれか１項に記載の音声インターフェース装置。
前記情報抽出手段から抽出された固有の情報を、前記音声認識制御手段が待ち受け語として認識することを特徴とする請求項１乃至５のいずれか１項に記載の音声インターフェース装置。
機器の状態を検出し、
前記機器の状態に応じて、固有の情報をテキスト情報として抽出し、
検出された情報に基づいた問い掛けを行い、
問い掛けに応じてユーザが発する音声を、音声認識し、
前記音声認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声認識結果と前記固有の情報の対応関係を保持し、
前記保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定することを特徴とする入力方法。