JP2010072704A - インターフェース装置および入力方法 - Google Patents
インターフェース装置および入力方法 Download PDFInfo
- Publication number
- JP2010072704A JP2010072704A JP2008236542A JP2008236542A JP2010072704A JP 2010072704 A JP2010072704 A JP 2010072704A JP 2008236542 A JP2008236542 A JP 2008236542A JP 2008236542 A JP2008236542 A JP 2008236542A JP 2010072704 A JP2010072704 A JP 2010072704A
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- user
- correspondence
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】インターフェース技術を用いた装置では音声指示語と機器の動作や状態の変化を関連付ける。
【解決手段】 機器の状態を検出する状態検出手段と、機器の状態に応じて、固有の情報をテキスト情報として抽出する情報抽出手段と、検出された状態に基づいた問い掛けを行う問い掛け手段と、問い掛けに応じてユーザが発する音声を、認識する音声認識制御手段と、前記音声の認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声の認識結果と前記固有の情報の対応関係を保持する対応関係データベースと、前記対応関係データベースに保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定する照合部とを有する。
【選択図】 図2
【解決手段】 機器の状態を検出する状態検出手段と、機器の状態に応じて、固有の情報をテキスト情報として抽出する情報抽出手段と、検出された状態に基づいた問い掛けを行う問い掛け手段と、問い掛けに応じてユーザが発する音声を、認識する音声認識制御手段と、前記音声の認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声の認識結果と前記固有の情報の対応関係を保持する対応関係データベースと、前記対応関係データベースに保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定する照合部とを有する。
【選択図】 図2
Description
本発明はインターフェース装置および入力方法に関する
近年、家庭内において、多くの家電機器の遠隔操作が可能となってきている。また、個々の家電機器同士もネットワークなどを介して相互に接続され、複数の機器を連係させて操作する場合などに、操作の多様性も増加している。家電機器の遠隔操作を行なう場合、遠隔操作することが可能な機種の種類に応じて、例えば家電機器ごとに設けられたリモコン等で操作を指定しなければならなくなる。しかしながら、現在の家電機器等ではひとつの機器で多くの機能を実現することが可能であるため、リモコン等の操作が複雑になってきている。リモコン等の操作が複雑になると、ユーザが機器ごとにリモコンの操作手順等を記憶しなければならなくなり、遠隔操作の煩雑さが増加する原因となっている。
そのため、意味と操作の対応が付けやすい音声によって各機器に指示が行なえる音声インターフェース技術が研究されている。音声インターフェース技術では、通常、操作の対象となる機器の動作に対する音声指示語が予め設定されている。したがってユーザは設定された音声指示語を用いることにより機器操作を行なうことが可能となる。しかしながら、このような音声インターフェース技術では、機器操作のための音声指示語が、予め設定されており、ユーザは機器ごとに設定されている音声指示語を記憶しなければならない。
そこで、特許文献1に示した技術ではユーザの音声指示語の主要部(反応信号)を記憶してゆき、その反応信号に応じて機器操作を行なう技術が開示されている。特許文献1に示した技術では、ユーザは予め定められた音声指示語を記憶する必要がなくなる。また、非特許文献1に示した技術では予め設定された音声指示語ではなくユーザが定めた自由な言葉で機器操作を行なうインターフェース技術が開示されている。
特開2007−11873
"親和行動導入における実用的ホームロボットインターフェースの研究"、情報処理学会117回ヒューマンインターフェース研究会研究報告、2006−HI−117(2006)
しかしながら、従来の音声インターフェース技術を用いた装置では、予め設定された音声指示語を用いる必要がない場合でもユーザあるいは音声インターフェース装置が前もって認識している操作などに基づいていない音声指示語と機器の動作や状態の変化を関連付けることは困難である。
本発明の1態様によるユーザインターフェース装置は、機器の状態を検出する状態検出手段と、機器の状態に応じて、固有の情報をテキスト情報として抽出する情報抽出手段と、検出された状態に基づいた問い掛けを行う問い掛け手段と、問い掛けに応じてユーザが発する音声を、認識する音声認識制御手段と、前記音声の認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声の認識結果と前記固有の情報の対応関係を保持する対応関係データベースと、前記対応関係データベースに保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定する照合部とを有することを特徴とする。
また、本発明の1態様による入力方法では、機器の状態を検出し、機器の状態に応じて、固有の情報をテキスト情報として抽出し、検出された情報に基づいた問い掛けを行い、問い掛けに応じてユーザが発する音声を、音声認識し、前記音声認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声認識結果と前記固有の情報の対応関係を保持し、前記保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定することを特徴とする。
本発明によれば音声インターフェース装置が予め認識していない状態の変化などに対しても、音声インターフェース技術を用いた機器の操作が容易となる。
(第1の実施の形態)
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本発明の第1の実施の形態に関わるインターフェース装置の概略を示す概略図である。図1では、ユーザ1、インターフェース装置2、機器3が示されている。インターフェース装置2と機器3とは無線などにより、相互通信が可能とされている。ユーザ1は、機器3を操作する使用者である。ユーザ1は、音声指示語などを発声することにより機器3の操作を行なう。インターフェース装置2は、ユーザ1から与えられた音声指示語を認識し、機器3に対して動作の指示、状態を変化させるための指示コマンドなどを送信する。
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本発明の第1の実施の形態に関わるインターフェース装置の概略を示す概略図である。図1では、ユーザ1、インターフェース装置2、機器3が示されている。インターフェース装置2と機器3とは無線などにより、相互通信が可能とされている。ユーザ1は、機器3を操作する使用者である。ユーザ1は、音声指示語などを発声することにより機器3の操作を行なう。インターフェース装置2は、ユーザ1から与えられた音声指示語を認識し、機器3に対して動作の指示、状態を変化させるための指示コマンドなどを送信する。
また、インターフェース装置2は、機器3の状態の変化などを検出し、機器3の状態変化などをユーザ1に対して通知する。本実施の形態では、インターフェース装置2としてはロボットを採用している。機器3は、例えば家電製品など、その動作や状態の変更が発生する機器である。以降、説明する実施の形態において機器3は、例えばテレビやパーソナルコンピュータ(以下、PCと省略する)などの機器であり、外部との通信によってその状態が変化する機器であることが好ましい。機器3は、自己の動作状態をインターフェース装置2(本実施形態ではロボット)に送信することが可能である。また、機器3は、インターフェース装置2より送信されるコマンドなどに応じてその動作状態などを変化させることが可能である。
図2は、本実施の形態におけるインターフェース装置2の構成を示す概略図である。本実施の形態の理解を容易にするため、図2には最低必要限の構成要素のみ示している。より好ましい動作を行なうための詳細な構成要素などについては後述する。
本実施の形態におけるインターフェース装置2は、状態検出部201、情報抽出部202、問い掛け部203、音声認識部205、認識語彙データベース206、機器操作部207、照合部208、蓄積部209および対応関係データベース210を有している。
状態検出部201は、インターフェース装置2と通信を行なう機器3、例えばPCやテレビの状態が継続している(変化をしていない)か、変化したかを検出する。例えばPCがメールを受信した場合には、状態が変化したものとして、状態検出部201が機器3の状態の変化を検出する。機器3の状態の変化としては、メールの受信以外にもテレビ放送上の番組情報に関する情報の受信なども含まれる。また、機器3がPCであれば、ユーザがアクセスする対象となるファイルが変化した場合なども状態の変化として検出する。
情報抽出部202は、機器3の状態に基づく情報を抽出する。ここで情報抽出部202が抽出する情報は、機器3の状態が変化した場合は、その状態変化に基づいた情報である。また、機器3の状態が継続している場合(変化をしていない場合)は、継続している状態に付随する情報である。例えば、機器3がPCであり、メールを受信したことによって状態が変化した場合は、情報抽出部202は、送信元のメールアドレス、メールのタイトル、メールに付随する署名情報などを抽出する。また、機器3がテレビなどである場合には、テレビ放送上の番組情報が変化した場合などが、機器の状態の変化に対応している。例えば、機器3がテレビであり、その状態が変化した場合、情報抽出部202は、放送される番組名、番組内容に対応するキーワード、番組に出演する出演者などに関する情報を抽出する。これらの情報は、テキスト情報として情報抽出部202により抽出される。
蓄積部209は、情報抽出部202が抽出した情報を保持する記憶部である。蓄積部209は、情報抽出部202が抽出したテキスト情報を保持することが可能である。
問い掛け部203は、ユーザに対する問い掛けを行なう部分である。本実施の形態では、インターフェース装置2は音声を用いたインターフェース装置としている。そのため、問い掛け部203は、音声によってユーザに対する問い掛けを行う。例えば、情報抽出部202によって抽出された情報と、対応関係データベース210に保持された情報に対応関係がない場合、問い掛け部203は、ユーザ1に対して対応関係がない旨を音声によって通知する。情報抽出部202によって抽出された情報と、対応関係データベース210に保持された情報に対応関係がある場合、対応関係に応じてユーザに通知する内容を変化させる。この問い掛け部203の詳細な動作については、後述する。
音声認識部205は、図示しないマイクなどを介して入力されたユーザからの音声指示語を認識する。音声認識部205は、入力された音声を認識し、認識した音声を認識語彙データベース206へと登録する。また、音声認識部205は、音声認識した結果を照合部208へと出力する。
照合部208は、各部の動作制御および蓄積部209、対応関係データベース210などへの書き込み等を行なう部分である。例えば情報抽出部202が、機器の状態の変化などに基づいて情報を抽出した場合、情報抽出部202が抽出した情報と、対応関係データベース210に保持されている情報の照合を行なう。照合部208は、照合結果に基づいて問い掛け部203に対して問い掛けの内容を指示する。また、音声認識部205が、ユーザからの指示を認識した場合は、音声指示に応じて機器操作部207に対して制御信号を出力する。
機器操作部207は、照合部208から与えられた信号に基づいて、インターフェース装置2が操作する対象となる機器に対する操作信号を出力する。例えば、操作対象機器がPCなどであれば、メールの送受信やブラウザ閲覧などの動作を行なうための指示を行なう。
対応関係データベース210は、情報抽出部202を介して蓄積部に蓄積されたテキスト情報と、音声呼称を対応させて保持するデータベースである。
以上のように構成された、インターフェース装置2の最も基本的な動作について説明する。以下の説明では、PCがメールを受信し、その動作に対応する場合を例に、インターフェース装置2の動作について説明する。図3乃至図5は、操作対象機器としてPCを用いた例の動作を示す模式図である。図3乃至図5では、インターフェース装置2を用いてメール受信を行なう場合の動作を示している。図3乃至図5に示す動作では、ユーザ1はインターフェース装置2に対して音声指示によって動作指示を行ない、インターフェース装置2は、音声によって機器の状態変化などをユーザに知らせるものとする。ここで、図3および図4は、インターフェース装置2における処理動作を示すフローチャートである。図5は、インターフェース装置2の使用例を説明するための図である。
本実施の形態では、インターフェース装置2としては、ユーザに対して親しみやすい身体性を有するロボットを用いている。そのため、以下の説明においてはインターフェース装置2をロボット2と称して説明する。
機器(PC)3がメールを受信した場合、PCはロボット2に対して受信したメールの送信元アドレス、タイトル、メールの本文などを送信する。ロボット2では、状態検出部201がメールを受信したことを検出する(図3および図4、S301参照)。情報抽出部202は、受信したメールに関する情報の抽出を行なう。ここで、メール受信の場合に、情報抽出部202が抽出する情報はメールの送信元のアドレスに対応するテキスト情報などのメールに固有と思われる情報である。情報抽出部202が抽出した情報は、蓄積部209に保存される。
情報抽出部202が抽出したテキスト情報は、照合部208において対応関係データベース210が保持している対応関係との照合が行なわれる(図3および図5、S302参照)。本実施の形態では、例えば送信元メールアドレスと音声の対応が対応関係データベース210に保持されている場合と、送信元メールアドレスが保持されてない場合とで問い掛け部3がユーザに対して問いかける内容が異なる。照合部208は、情報抽出部202が抽出したテキスト情報と、対応関係データベース210が保持している情報との照合結果に応じて問い掛け部203に対して、問いかけ内容の指示を行なう信号を出力する(図3および図5、S303参照)。
情報抽出部202が抽出したテキスト情報と音声呼称との対応が、対応関係データベース210に保持されていない場合、照合部208は問い掛け部203に対して送信元メールアドレスが未知のものであることを知らせる信号を出力する。また、照合部208は問い掛け部203に対してユーザに対して受信したメールの内容をロボット2が読み上げるかどうかの確認を行なうための信号を出力する(図3および図5、S307参照)。
問い掛け部203は、照合部208による照合結果に基づいて、ユーザに対する問いかけを行なう。情報抽出部202が抽出したテキスト情報と音声呼称との対応がとれない場合、問い掛け部203は、ユーザに未登録の送信元であることを知らせる。また、ユーザに対してメール読み上げを行なうかどうかの確認に対応する問いかけも行なう。送信元のメールアドレスが未登録であれば送信元に対する音声呼称は不明である。したがって、ここで行なう問いかけは、例えば「知らない人からメールが届いています。読み上げますか?」などの音声によって行なわれる(図3および図5、S307参照)。
ロボット2から、問いかけが行なわれた場合、ユーザはロボット2に対して音声によって動作を指示する。ここではメールの読み上げを行なうか、行なわないかの指示が出される(例えば「読んでください」、「読まないでください」など、図3および図5、S308参照)。この指示は、認識語彙データベース206に保持されている認識語彙に基づいて音声認識部205により認識され、その認識結果が照合部208へと出力される。
メールを読み上げることが選択された場合、ロボット2はメールを読み上げ(図3および図5、S309参照)、次のステップS310(送信元の確認発話処理)に移行する。メールを読み上げないことが選択された場合、ロボット2はメールを読み上げずに次のステップS310(送信元の確認発話処理)に移行する。
送信元の確認処理では、問い掛け部203は、ユーザに対して送信元に関する問いかけを行なう。ここで行なわれる問いかけは例えば「誰からのメールですか?」等の音声発話によって行なわれる(図3および図4、S310参照)。ここで、図4は、送信元の確認における処理をより詳細に示したものである。
まず、ロボット2内部では、メールの送信元に関係する情報が、認識語彙データベースへと登録される(図4、S401参照)。また、ロボット2は、ユーザに対して送信元を確認するための発話を行ない、送信元に対応させる音声指示語をユーザに確認する(図3乃至図5、S310参照)。
ユーザ1は、ロボット2からの問いかけに対し、メール内容などから送信元を推測し、送信元が確認可能かどうかを判断する。ユーザは送信元を確認した場合、送信元と関連付けるための音声指示語を発話することが可能である。ユーザからの音声指示による回答が行なわれた場合、音声認識部205が回答音声を認識する(図4、S402参照)。音声認識部205が行なう音声認識方式は大語彙連続音声認識方式を用いる。ここで認識された回答の音声(例えば「太郎さんです」、「太郎さんでした」などにおける“太郎さん”)と、メール送信元のアドレス(XXX@XXX.XX)や、メールに含まれる署名に対応すると思われるテキスト情報、メール本文中の固有名詞などが関連付けられ、認識語彙とされる。ここで、音声データおよび音声と関連付けられたテキストデータなどは、認識語彙データベース206へと登録される(図4、S402参照)。
次に、ロボット2は、ユーザからの音声による回答が送信元を示すものであったかどうかを判断する(図3乃至5、S311参照)。ユーザから音声指示による回答がない場合、あるいは「分りません」などの送信元を確認することが不可能な音声指示が入力された場合は、ロボット2は、音声データに対応するテキストデータと情報抽出部202が抽出した情報の対応付けなどは行なわずにメール受信動作を終了する。
ユーザからの音声による回答があった場合、ロボット2は、対応関係を保持する動作を行なう(図3および図4、S312参照)。対応関係をと登録する動作において、ロボット2は、情報抽出部202が抽出した情報と音声認識部205が認識した音声に対応するテキスト情報との対応関係を対応関係データベースへと登録する。これらのデータ保存を行なった後にロボット2は、メール受信動作を終了する。
一方、メール受信に伴い情報抽出部202が抽出したテキスト情報が、対応関係データベースに関連付けて保持されているテキスト情報であった場合、問い掛け部203は、ユーザに送信元を知らせる。また、ユーザに対してメール読み上げを行なうかどうかの確認に対応する問いかけも行なう。ここで行なう問いかけは、例えば「“太郎さん”からメールが届いています。読み上げますか?」などの音声によって行なわれる(図3および図5、S304参照)。
ロボット2から、問いかけが行なわれた場合、ユーザはロボット2に対して音声によって動作を指示する。ここではメールの読み上げを行なうか、行なわないかの指示が出される(図3および図5、S305参照)。
メールを読み上げることが選択された場合、ロボット2はメールを読み上げメール受信の動作を終了する(図3および図5、S306参照)。メールを読み上げないことが選択された場合、ロボット2はメールを読み上げずにメール受信の動作を終了する(図3、S305参照)。
以上説明したように、本実施の形態の最も基本的な動作によれば、情報抽出部202が抽出した情報および対応関係データベース210を用いてユーザに対する問い掛けを行ない、問い掛けに対するユーザの応答をあらたに音声認識して、対応関係データベース210に登録することが可能となる。したがって、機器の状態の変化などに応じて、より適切な問い掛けを行うインターフェース装置2を提供することが可能となる。なお上記説明はメール受信の動作を例に説明したが、メール送信元のアドレスを閲覧先のアドレス(WWWサーバのURL)とすれば、ブラウザ閲覧についても同様に、より適切な問い掛けを行うインターフェース装置2を提供することが可能となる。
図6は、本実施の形態におけるインターフェース装置2の、より詳細な構成を示す概略図である。図6に示すインターフェース装置2では、図2に示したインターフェース装置2に対して、語彙優先度調整部204が追加されている。
語彙優先度調整部204は、音声認識制御部205が優先的に認識するテキスト情報(待ち受け語)を保持する。このテキスト情報は、情報抽出部202によって抽出されたテキスト情報に基づくものであり、音声認識制御部205が音声認識を行なう際の特徴的な語彙の優先度を決定する部分である。
語彙優先度調整部204は、音声認識制御部205が優先的に認識するテキスト情報(待ち受け語)を保持する。このテキスト情報は、情報抽出部202によって抽出されたテキスト情報に基づくものであり、音声認識制御部205が音声認識を行なう際の特徴的な語彙の優先度を決定する部分である。
図6に示したインターフェース装置では、情報抽出部202が抽出した情報と、音声指示語との対応が、語彙優先度調整部204に保持される。例えば、上述した情報抽出部202が抽出した情報(taro@xxx.xxなど)に対して、図3に示したS310の送信元の確認処理においてユーザから音声指示語(例えば「太郎さん」)が与えられた場合、音声指示語(「太郎さん」)と、情報抽出部202が抽出した情報(taro@xxx.xxなど)の関連度を初期値(例えば関連度を示す係数として0.1)に設定して語彙優先度調整部204に登録する。その後、再び情報抽出部202が同一の情報(taro@xxx.xxなど)を抽出し、音声指示語として同一の音声指示語(例えば「太郎さん」)が与えられた場合には、音声指示語と、情報抽出部202の抽出した情報と音声指示語の関連度を上げて(例えば、関連度の係数を0.2に更新する)語彙優先度調整部204に再度保持される。語彙優先度調整部204は、この関連度に応じて認識語彙データベース206に対して優先的に認識する語彙の指示を行なう。このように語彙優先度調整部204を設けることにより、ユーザからの指示に基づいた音声認識をより正確に行なうことが可能となる。
(第2の実施の形態)
本発明のインターフェース装置2の第2の実施形態に関わる動作について説明する。図7および図8は、第2の実施形態に関わる動作を示す模式図である。図7および図8では、インターフェース装置2を用いて画像閲覧を行なう場合の動作を示している。ここでは、PCが保持している画像をユーザ1が閲覧する例を用いて説明する。図7、図8に示す動作では、ユーザ1はインターフェース装置2に対して音声指示によって動作指示を行ない、インターフェース装置2は、音声によって機器の状態変化などをユーザに知らせるものとする。ここで、図7は、インターフェース装置2における処理動作を示すフローチャートである。図8は、インターフェース装置2の使用例を説明するための図である。
本発明のインターフェース装置2の第2の実施形態に関わる動作について説明する。図7および図8は、第2の実施形態に関わる動作を示す模式図である。図7および図8では、インターフェース装置2を用いて画像閲覧を行なう場合の動作を示している。ここでは、PCが保持している画像をユーザ1が閲覧する例を用いて説明する。図7、図8に示す動作では、ユーザ1はインターフェース装置2に対して音声指示によって動作指示を行ない、インターフェース装置2は、音声によって機器の状態変化などをユーザに知らせるものとする。ここで、図7は、インターフェース装置2における処理動作を示すフローチャートである。図8は、インターフェース装置2の使用例を説明するための図である。
本実施の形態でも、インターフェース装置2としては、ロボットを用いている。そのため、以下の説明においてはインターフェース装置2をロボット2と称して説明する。
ユーザ1が閲覧する画像ファイルなどを選択した場合、PCはロボット2に対して選択された画像のタイトルなどを送信する。ロボット2では、状態検出部201が特定のファイルが選択されたことを検出する(図7および図8、S701参照)。情報抽出部202は、選択されたファイルに関する情報の抽出を行なう。ここで、情報抽出部202が抽出する情報はファイル名に対応するテキスト情報などのファイルに固有と思われる情報である。情報抽出部202が抽出した情報は、蓄積部209に保存される。
情報抽出部202が抽出したテキスト情報は、照合部208において対応関係データベース210が保持している情報との照合が行なわれる(図7、S702参照)。本実施の形態では、例えばファイル名と音声の対応が対応関係データベース210に保持されている場合と、保持されてない場合とで問い掛け部3がユーザに対して問いかける内容が異なる。照合部208は、情報抽出部202が抽出したテキスト情報と、対応関係データベース210が保持している情報との照合結果に応じて問い掛け部203に対して、問いかけ内容の指示を行なう信号を出力する(図7、S703参照)。
情報抽出部202が抽出したテキスト情報と音声呼称との対応が、対応関係データベース210に保持されていない場合、照合部208は問い掛け部203に対してアクセス対象となるファイルが未知のものであることを知らせる信号を出力する。
問い掛け部203は、照合部208による照合結果に基づいて、ユーザに対する問いかけを行なう。情報抽出部202が抽出したテキスト情報と音声呼称との対応がとれない場合、問い掛け部203は、ユーザに未登録のファイルであることを知らせる。したがって、ここで行なう問いかけは、例えば「未知のファイルです。誰のファイルですか?」などの音声によって行なわれる(図7、S710参照)。
ロボット2から、問いかけが行なわれた場合、ユーザはロボット2に対して音声によって回答を行なう。
ユーザは、ロボット2からの問いかけに対し、ファイル内容が識別可能かどうかを判断する。ここで、ユーザ1は、ファイルの内容と関連付けるための音声指示を行うことが可能である。ユーザからの音声指示による回答が行なわれた場合、音声認識部205が回答音声を認識する(図7、S711参照)。ここで認識された回答の音声(例えば「太郎さんです」、「太郎さんでした」などにおける“太郎さん”)と、ファイル固有のテキスト情報(XXX.jpg)などが関連付けられ、認識語彙とされる。ここで、音声データおよび音声と関連付けられたテキストデータなどは、認識語彙データベース206へと登録される。
ユーザから音声指示による回答がない場合、あるいは「分りません」などのファイルを識別することが不可能な音声指示が入力された場合は、ロボット2は、音声データのテキストデータと情報抽出部が抽出した情報の対応付けなどは行なわずに動作を終了する。
ユーザからの音声による回答があった場合、ロボット2は、対応関係を保持する動作を行なう(図7、S712参照)。対応関係を登録する動作において、ロボット2は、情報抽出部202が抽出した情報と音声認識部205が認識した音声に対応するテキストデータとの対応関係を対応関係データベースへと登録する。これらのデータ保存を行なった後にロボット2は、動作を終了する。
一方、情報抽出部202が抽出したテキスト情報が、対応関係データベースに音声データと関連付けて保持されているテキストデータであった場合、問い掛け部203は、ユーザにファイルに関する情報を知らせる。ここで、ユーザ1に対する通知は、例えば「“太郎さんの写真です”」などの音声、あるいは画像とともに関連付けられたテキスト情報を表示することなどによって行なわれる(図7、S712参照)。
以上説明したように、本実施の形態の動作によれば、情報抽出部202が抽出した情報および対応関係データベース210を用いてユーザに対する問い掛けを行ない、問い掛けに対するユーザの応答をあらたに音声認識して、対応関係データベース210に登録することが可能となる。したがって、機器の状態の変化などに応じて、より適切な問い掛けを行うインターフェース装置2を提供することが可能となる。
(第3の実施の形態)
図9は、第3の実施の形態のインターフェース装置の使い方を示したフローチャートであり、図10は、その動作を示した概略図である。第3の実施の形態では、メール受信した際に、音声指示語を介して関連付けられた画像ファイルを表示すると共に、メールを読みあげることを可能とするインターフェース装置の例である。
図9は、第3の実施の形態のインターフェース装置の使い方を示したフローチャートであり、図10は、その動作を示した概略図である。第3の実施の形態では、メール受信した際に、音声指示語を介して関連付けられた画像ファイルを表示すると共に、メールを読みあげることを可能とするインターフェース装置の例である。
本実施の形態では、インターフェース装置2は、第1の実施の形態に示した場合と同様に、メールを受信した際に、送信元メールアドレスを、対応関係データベースに照会する。対応関係データベースに、送信元メールアドレスが登録されていない場合は、第1の実施の形態と同じ処理を行なう。
対応関係データベースに、送信元メールアドレスが登録されていた場合、本実施の形態では同一の音声指示語に対応する対応関係が対応関係データベースに保持されていないかどうかの検索を行なう。同一の音声指示語に関連付けられている対応関係が存在した場合、本実施の形態のインターフェース装置は、その音声指示語に関連している他の動作もあわせて実行する。
ここで言う他の動作とは、例えば対応関係データベースに同一の音声指示語に関連付けられた画像などが存在した場合に、その画像表示などを行う動作である。
同一の音声指示語に対応させた対応関係が存在しない場合は、第1の実施の形態に示した処理のみを行なって動作を終了する。他の対応関係が見つかった場合(例えば、taro@xxx.jpに“太郎”と言う音声が対応している。そして“太郎”と言う音声にはtaro.jpgと言う画像が対応している)、関連するファイル操作(例えばtaro.jpg画像の表示)を実行すると共に、メールを読上げるか否かを確認し、メールを読上げることが可能となる。
また、本実施の形態のインターフェース装置においては、対応関係データベースに、対応関係データベースに保持されているファイルと、対応する音声指示語の関連度なども保持可能とする。そして、この関連度に応じて、情報抽出部が抽出した情報に対応するファイルの表示などの実行の有無を判断するものとする。
以下の説明では、PCがメールを受信し、その動作に対応する場合を例に、インターフェース装置2の動作について説明する。PCがメールを受信し、その送信元メールアドレス等の情報が対応関係データベースに保持されていない場合は、第1の実施の形態と同様の動作を行なう(図9、S902〜S915参照)。
本実施の形態では、PCがメールを受信し、その送信元メールアドレス等の情報が対応関係データベースに保持されていた場合は、対応関係データベース210から、送信元アドレスと対応する音声データの照合を行なう。その後、送信元アドレスの音声データに対応付けられたファイルの有無を検索する(図9、S903参照)。
その結果、送信元のメールアドレスに対応する音声データ、およびその音声データに対応するファイルが存在する場合は、そのファイルを表示すると共に、メール読み上げ可否などの問い掛け動作に移行する(図9、S903〜S906参照)。送信元のメールアドレスに対応する音声データが存在し、その音声データに対応するファイルが存在しない場合は、第1の実施の形態同様、音声呼称と共にユーザに送信元などを通知し、メール読み上げ可否などの問い掛け動作に移行する(図9、S903〜S909参照)。
また、本実施の形態では、送信元のメールアドレスに対応する音声データ、およびその音声データに対応するファイルが存在する場合に、そのファイルと、メール送信元などの音声呼称の関連度を参照する。この関連度は、対応関係データベース210において、メールアドレスと音声呼称の関連度、ファイル名と音声呼称の関連度の係数を保持することによって、関連度に応じた動作が可能となる。例えば、送信元メールアドレス(taro@.XXX.jp)と、対応する音声呼称(例えば“太郎さん”)が、0.8と言う関連度で保持され、音声呼称(例えば“太郎さん”)と画像データ(taro.jpg)が0.7と言う関連度で対応関係データベースに保持されていた場合、この関連度の係数に応じて図9、S904においてファイルを表示する/表示しない、を判断する。
このように構成することで、仮に音声呼称(例えば“太郎さん”)に、対応付けられたファイルとして、他のファイル(例えば“kentaro.jpg”)等が存在した場合でも関連度を優先させてファイルを選択することにより、表示の優先度を向上させ、インターフェース装置として、ユーザ側からの認識が容易になる。
(変形例)
以下、図11、12を用いて本発明の変形例を示す。図11は、本発明のインターフェース装置を、EPGに使用した場合のフローを示すフローチャートであり、図12は、本発明のインターフェース装置をファイル認識に特化した場合の使用例を示す概略図である。
以下、図11、12を用いて本発明の変形例を示す。図11は、本発明のインターフェース装置を、EPGに使用した場合のフローを示すフローチャートであり、図12は、本発明のインターフェース装置をファイル認識に特化した場合の使用例を示す概略図である。
ここでは、録画機器が保持している放送番組を録画した動画ファイルをユーザ1が視聴する例を用いて説明する。図11、図12に示す動作では、ユーザ1はインターフェース装置2に対して音声指示によって動作指示を行ない、インターフェース装置2は、音声によって機器の状態変化などをユーザに知らせるものとする。ここで、図11は、インターフェース装置2における処理動作を示すフローチャートである。図12は、インターフェース装置2の使用例を説明するための図である。
本実施の形態でも、インターフェース装置2としては、ロボットを用いている。そのため、以下の説明においてはインターフェース装置2をロボット2と称して説明する。
ユーザ1が視聴する動画ファイルなどを選択した場合、録画機器はロボット2に対して選択された動画の情報(例えばEPGデータの番組名)などを送信する。ロボット2では、状態検出部201が特定の動画ファイルが選択されたことを検出する(図11および図12、S1101参照)。情報抽出部202は、選択された動画ファイルに関する情報の抽出を行なう。ここで、情報抽出部202が抽出する情報は録画時に保存されたEPGデータに対応するテキスト情報などの動画に固有と思われる情報である。情報抽出部202が抽出した情報は、蓄積部209に保存される。
情報抽出部202が抽出したテキスト情報は、照合部208において対応関係データベース210が保持している情報との照合が行なわれる(図11、S1102参照)。本実施の形態では、例えば番組名と音声の対応が対応関係データベース210に保持されている場合と、保持されてない場合とで問い掛け部3がユーザに対して問いかける内容が異なる。照合部208は、情報抽出部202が抽出したテキスト情報と、対応関係データベース210が保持している情報との照合結果に応じて問い掛け部203に対して、問いかけ内容の指示を行なう信号を出力する(図11、S1103参照)。
情報抽出部202が抽出したテキスト情報と音声呼称との対応が、対応関係データベース210に保持されていない場合、照合部208は問い掛け部203に対してアクセス対象となる動画ファイルが未知のものであることを知らせる信号を出力する。
問い掛け部203は、照合部208による照合結果に基づいて、ユーザに対する問いかけを行なう。情報抽出部202が抽出したテキスト情報と音声呼称との対応がとれない場合、問い掛け部203は、ユーザに未登録のファイルであることを知らせる。したがって、ここで行なう問いかけは、例えば「未知のファイルです。何のファイルですか?」などの音声によって行なわれる(図11、S1110参照)。
ロボット2から、問いかけが行なわれた場合、ユーザはロボット2に対して音声によって回答を行なう。
ユーザは、ロボット2からの問いかけに対し、ファイル内容が識別可能かどうかを判断する。ここで、ユーザ1は、ファイルの内容と関連付けるための音声指示を行うことが可能である。ユーザからの音声指示による回答が行なわれた場合、音声認識部205が回答音声を認識する(図11、S1111参照)。ここで認識された回答の音声(例えば「お昼のニュースです」、「お昼のニュースでした」などにおける“お昼のニュース”)と、動画ファイル固有のテキスト情報(EPGの番組名等)などが関連付けられ、認識語彙とされる。ここで、音声データおよび音声と関連付けられたテキストデータなどは、認識語彙データベース206へと登録される。
ユーザから音声指示による回答がない場合、あるいは「分りません」などのファイルを識別することが不可能な音声指示が入力された場合は、ロボット2は、音声データのテキストデータと情報抽出部が抽出した情報の対応付けなどは行なわずに動作を終了する。
ユーザからの音声による回答があった場合、ロボット2は、対応関係を保持する動作を行なう(図11、S1112参照)。対応関係を登録する動作において、ロボット2は、情報抽出部202が抽出した情報と音声認識部205が認識した音声に対応するテキストデータとの対応関係を対応関係データベースへと登録する。これらのデータ保存を行なった後にロボット2は、動作を終了する。
一方、情報抽出部202が抽出したテキスト情報が、対応関係データベースに音声データと関連付けて保持されているテキストデータであった場合、問い掛け部203は、ユーザにファイルに関する情報を知らせる。ここで、ユーザ1に対する通知は、例えば「“お昼のニュースの動画です”」などの音声、あるいは動画とともに関連付けられたテキスト情報を表示することなどによって行なわれる(図11、S1112参照)。
以上説明したように、本変形例の動作によれば、情報抽出部202が抽出した情報および対応関係データベース210を用いてユーザに対する問い掛けを行ない、問い掛けに対するユーザの応答をあらたに音声認識して、対応関係データベース210に登録することが可能となる。したがって、機器の状態の変化などに応じて、より適切な問い掛けを行うインターフェース装置2を提供することが可能となる。
1…ユーザ
2…インターフェース装置(ロボット)
3…機器
201…状態検出部
202…情報抽出部
203…問い掛け部
204…語彙優先度調整部
205…音声認識部
206…データベース
207…機器操作部
208…照合部
209…蓄積部
210…対応関係データベース
2…インターフェース装置(ロボット)
3…機器
201…状態検出部
202…情報抽出部
203…問い掛け部
204…語彙優先度調整部
205…音声認識部
206…データベース
207…機器操作部
208…照合部
209…蓄積部
210…対応関係データベース
Claims (7)
- 機器の状態を検出する状態検出手段と、
機器の状態に応じて、固有の情報をテキスト情報として抽出する情報抽出手段と、
検出された前記固有の情報に基づいた問い掛けを行う問い掛け手段と、
問い掛けに応じてユーザが発する音声を、認識する音声認識制御手段と、
前記音声の認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声の認識結果と前記固有の情報の対応関係を保持する対応関係データベースと、
前記対応関係データベースに保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定する照合部とを有することを特徴とするインターフェース装置。 - 前記機器は、メール受信またはブラウザ閲覧が可能な装置であり、前記情報抽出手段の抽出する前記固有の情報は、送信元または閲覧先アドレス及びそれに付随する情報であることを特徴とする請求項1に記載のインターフェース装置。
- 前記機器は、録画機器であり、前記情報抽出手段の抽出する前記固有の情報は、EPGで受信される情報であることを特徴とする請求項1に記載の音声インターフェース装置。
- 前記機器は、任意のファイルに対するアクセスが可能な機器であり、前記情報抽出手段の抽出する前記固有の情報は、ファイルに固有の情報であることを特徴とする請求項1に記載の音声インターフェース装置。
- 前記インターフェース装置は、前記ユーザによる音声を認識した際に算出する音声と対応関係データベースに保持された情報との関連度に応じて、動作内容を変更することを特徴とする請求項1乃至4のいずれか1項に記載の音声インターフェース装置。
- 前記情報抽出手段から抽出された固有の情報を、前記音声認識制御手段が待ち受け語として認識することを特徴とする請求項1乃至5のいずれか1項に記載の音声インターフェース装置。
- 機器の状態を検出し、
前記機器の状態に応じて、固有の情報をテキスト情報として抽出し、
検出された情報に基づいた問い掛けを行い、
問い掛けに応じてユーザが発する音声を、音声認識し、
前記音声認識結果と前記情報抽出手段が抽出した固有の情報とを対応させ、前記音声認識結果と前記固有の情報の対応関係を保持し、
前記保持された対応関係にもとづいて、音声認識あるいはユーザに対する問いかけを判定することを特徴とする入力方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008236542A JP2010072704A (ja) | 2008-09-16 | 2008-09-16 | インターフェース装置および入力方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008236542A JP2010072704A (ja) | 2008-09-16 | 2008-09-16 | インターフェース装置および入力方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010072704A true JP2010072704A (ja) | 2010-04-02 |
Family
ID=42204460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008236542A Pending JP2010072704A (ja) | 2008-09-16 | 2008-09-16 | インターフェース装置および入力方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010072704A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018102606A (ja) * | 2016-12-27 | 2018-07-05 | 株式会社サテライトオフィス | ロボットまたは音声対応電子回路モジュール制御システム |
JP2020521995A (ja) * | 2017-11-06 | 2020-07-27 | グーグル エルエルシー | 代替インタフェースでのプレゼンテーションのための電子会話の解析 |
-
2008
- 2008-09-16 JP JP2008236542A patent/JP2010072704A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018102606A (ja) * | 2016-12-27 | 2018-07-05 | 株式会社サテライトオフィス | ロボットまたは音声対応電子回路モジュール制御システム |
JP2020521995A (ja) * | 2017-11-06 | 2020-07-27 | グーグル エルエルシー | 代替インタフェースでのプレゼンテーションのための電子会話の解析 |
US11036469B2 (en) | 2017-11-06 | 2021-06-15 | Google Llc | Parsing electronic conversations for presentation in an alternative interface |
JP2021185478A (ja) * | 2017-11-06 | 2021-12-09 | グーグル エルエルシーGoogle LLC | 代替インタフェースでのプレゼンテーションのための電子会話の解析 |
JP7391913B2 (ja) | 2017-11-06 | 2023-12-05 | グーグル エルエルシー | 代替インタフェースでのプレゼンテーションのための電子会話の解析 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6440513B2 (ja) | 音声認識機能を用いた情報提供方法および機器の制御方法 | |
KR102081925B1 (ko) | 디스플레이 디바이스 및 스피치 검색 방법 | |
US10521189B1 (en) | Voice assistant with user data context | |
CN109343819B (zh) | 在语音识别系统中控制显示装置的显示装置和方法 | |
JP6053097B2 (ja) | 機器操作システム、機器操作装置、サーバ、機器操作方法およびプログラム | |
JP6375521B2 (ja) | 音声検索装置、音声検索方法、および表示装置 | |
KR20180046208A (ko) | 음성 명령에 기초하여 애플리케이션을 실행하는 방법 및 장치 | |
CN108063969A (zh) | 显示设备、控制显示设备的方法、服务器以及控制服务器的方法 | |
US20190042185A1 (en) | Flexible voice-based information retrieval system for virtual assistant | |
KR20140089861A (ko) | 디스플레이 장치 및 그의 제어 방법 | |
KR20190067638A (ko) | 음성 인식 장치 및 그 동작 방법 | |
JPWO2017208518A1 (ja) | 情報処理装置 | |
JPWO2019123775A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
CN110989847A (zh) | 信息推荐方法、装置、终端设备及存储介质 | |
WO2020079941A1 (ja) | 情報処理装置及び情報処理方法、並びにコンピュータプログラム | |
JPWO2007069512A1 (ja) | 情報処理装置及びプログラム | |
JPWO2019155717A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP6596373B2 (ja) | 表示処理装置及び表示処理プログラム | |
US11587571B2 (en) | Electronic apparatus and control method thereof | |
JP2020101822A (ja) | 音声認識機能を用いた情報提供方法および機器の制御方法 | |
JP2010072704A (ja) | インターフェース装置および入力方法 | |
JP7230803B2 (ja) | 情報処理装置および情報処理方法 | |
WO2005038683A1 (en) | Language education system, language education method and language education program recorded media based on corpus retrieval system, which use the functions of questions and answers | |
US20140229466A1 (en) | Information processing apparatus, information processing method, and program | |
WO2022019145A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム |