JP2016009199A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2016009199A
JP2016009199A JP2014127523A JP2014127523A JP2016009199A JP 2016009199 A JP2016009199 A JP 2016009199A JP 2014127523 A JP2014127523 A JP 2014127523A JP 2014127523 A JP2014127523 A JP 2014127523A JP 2016009199 A JP2016009199 A JP 2016009199A
Authority
JP
Japan
Prior art keywords
application
input
voice
information
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014127523A
Other languages
English (en)
Inventor
玲二 藤川
Reiji Fujikawa
玲二 藤川
雅彦 原田
Masahiko Harada
雅彦 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Personal Computers Ltd
Original Assignee
NEC Personal Computers Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Personal Computers Ltd filed Critical NEC Personal Computers Ltd
Priority to JP2014127523A priority Critical patent/JP2016009199A/ja
Publication of JP2016009199A publication Critical patent/JP2016009199A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】1つのストアアプリケーションの邪魔をしない動きをし、他のアプリケーションを同時に操作することができる情報処理装置を提供する。
【解決手段】表示画面に表示され、テキスト情報に基づく情報が入力される第1のアプリケーションと、マイクに入力された音声のテキスト情報への変換を実行可能な状態であることを表示画面の第1の領域に表示する第1のモードと、入力された音声を変換したテキスト情報に基づいて行われた処理の結果を表示画面の第1の領域よりも大きい第2の領域に表示する第2のモードとを有し、マイクに入力された音声を変換したテキスト情報に基づく情報を出力する第2のアプリケーションと、を有する。第2のアプリケーションが第1のモードから第2のモードに遷移するときに、処理の結果に基づく更なる入力が要求される場合は、第2のアプリケーションの表示順序を最前面に変更する。
【選択図】図4

Description

本発明は、音声を入力して対話できる情報処理装置に関する。
従来から、1つのストアアプリケーションは全画面表示され、1つのストアアプリケーションだけしか画面に表示することができず、複数のアプリケーションを同時に動かす場合、1つのストアアプリケーション以外のアプリケーションは表示されず、裏で動いている状態である。
また、特許文献1には、キャラクタと会話することにより、機器の操作を容易に行うことができる対話型操作支援システムが開示されている。
特開2002−41276号公報
しかし、従来技術や特許文献1に開示されている技術は、ストアアプリケーションの他のアプリケーションを同時に表示画面に表示することはできず、ストアアプリケーションと同時に操作できなくて不便であるという問題があった。
本発明は、前記課題を解決するためのものであり、その目的とするところは、1つのストアアプリケーションの邪魔をしない動きをし、他のアプリケーションを同時に操作することができる情報処理装置を提供することにある。
かかる目的を達成するために、本発明は、以下の特徴を有する。
本発明に係る情報処理装置は、音声入力が可能なマイクを備え、該マイクに入力されたユーザの音声を変換したテキスト情報に基づいて処理を実行する情報処理装置であって、表示画面に表示され、前記テキスト情報に基づく情報が入力される第1のアプリケーションと、前記マイクに入力された音声のテキスト情報への変換を実行可能な状態であることを前記表示画面の第1の領域に表示する第1のモードと、前記入力された音声を変換したテキスト情報に基づいて行われた処理の結果を前記表示画面の前記第1の領域よりも大きい第2の領域に表示する第2のモードとを有し、前記マイクに入力された音声を変換したテキスト情報に基づく情報を出力する第2のアプリケーションと、を有し、前記第2のアプリケーションが前記第1のモードから前記第2のモードに遷移するときに、前記処理の結果に基づく更なる入力が要求される場合は、前記第2のアプリケーションの表示順序を最前面に変更することを特徴とする。
本発明によれば、1つのストアアプリケーションの邪魔をしない動きをし、他のアプリケーションを同時に操作することができる。
本実施形態における情報処理装置の構成を示す概略ブロック図である。 本実施形態における情報処理装置の主要部の構成を示す概略ブロック図である。 音声操作ソフトの設定項目を示す図である。 音声認識の表示画面を示す図である。
以下、本実施形態について図面により詳細に説明する。
まず、図1を用いて本実施形態における情報処理装置の構成について説明する。図1は、本実施形態における情報処理装置の構成を示す概略ブロック図である。図1を参照すると、本実施形態における情報処理装置100は、電子情報端末、PDA、ノート型PC、タブレット型PC等を具体例とする情報処理装置である。
図1において、本実施形態における情報処理装置(以下、パーソナルコンピュータ(PC)ともいう。)100は、マイク101と、音声認識部102と、ROM(Read Only Memory)103と、RAM(Random Access Memory)104と、スピーカ105、音声合成部106と、CPU(Central Processing Unit)107と、表示部108と、入力部109と、電源部110と、ネットワーク接続部111と、HDD(Hard Disk Drive)112と、から構成される。
マイク101は、ユーザの音声を音声データ(電気信号)に変換するものである。音声認識部102は、マイク101によって音声データに変換されたユーザの音声を認識するものである。ROM103は、PC100全体の動作を制御するプログラムを格納するものである。RAM104は、ROM103に格納されたプログラムが展開される記憶領域である。スピーカ105は、後述するPC100のコンシェルジュが出力する音声データを音声に変換するものである。音声合成部106は、PC100のコンシェルジュが出力する音声データを、所望の音声に変換されるよう合成するものである。CPU107は、PC100全体の動作を制御するものであり、ROM103に格納された制御プログラムをロードし、PC100の動作によって得られた様々なデータをRAM104に展開するものである。
表示部108は、LCD(Liquid Crystal Display)等で構成される表示画面であり、PC100によって実行されたアプリケーションの結果や図示しないTVチューナによって受信されたテレビ番組を表示するものであり、PC100の出力装置を構成している。入力部109は、キーボード、マウス、タッチパネル等、ユーザがPC100に対して指示を与えるものであり、PC100の入力装置である。電源部110は、PC100に対してAC(Alternative Current:交流)又はDC(Direct Current:直流)電源を与えるものである。
ネットワーク接続部111は、インターネットに代表される図示しないネットワーク網に接続され、ネットワーク網とのインタフェースを図るものである。HDD112は、PC100のアプリケーションソフトウェアを格納したり、図示しないTVチューナによって受信されたテレビ番組等のコンテンツを録画したりするものである。
なお、表示部108と入力部109は、LCDとタッチパネルとが一体となったタッチパネルディスプレイであっても良い。この場合、キーボードやマウスといった入力装置に代えて、指や図示しないスタイラスペンをタッチパネルディスプレイに接触させて直接文字を書く動作等を行ってデータ入力やコマンド入力といった操作を行うことができる。
次に、図2を参照して、本実施形態における情報処理装置の主要部の構成について説明する。図2は、本実施形態における情報処理装置の主要部の構成を示す概略ブロック図である。
図2において、本発明の実施形態におけるPC100は、マイク201から入力されたユーザの音声が音声データ(電気信号)に変換されて、当該音声データが音声信号解釈部202によって解釈され、その結果がクライアント型音声認識部203において認識される。クライアント型音声認識部203は、認識した音声データをクライアントアプリケーション部204に渡す。
クライアントアプリケーション部204は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部208に格納されているか否かを確認し、ローカルコンテンツ部208に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
ユーザからの問い合わせに対する回答が、ローカルコンテンツ部208に格納されていない場合は、PC100単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網207に接続されるネットワーク接続部206を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部209、クライアント型音声合成部210を経由して、スピーカ211から音声出力する。
クライアントアプリケーション部204は、ローカルコンテンツ部208、又はネットワーク網207から得られた回答をテキスト(文字)データに変換し、テキスト読上部209に渡す。テキスト読上部209は、テキストデータを読み上げ、クライアント型音声合成部210に渡す。クライアント型音声合成部210は、音声データを人間が認識可能な音声データに合成しスピーカ211に渡す。スピーカ211は、音声データ(電気信号)を音声に変換する。また、スピーカ211から音声を発するのに合わせて、ディスプレイ部に当該音声に関連する詳細な情報を表示する。
次に、音声対話システムについて説明する。音声対話システムは、スタート画面やランチャーソフトへのユーザの所定の操作により、または、事前設定に応じて自動で、起動される。音声対話システムが起動すると、事前設定に応じて、音声入力が可能なことを示すウィンドウ、および/または、音声入力を可能にするために操作されるタスクトレイアイコンが表示される。音声対話システムは、入力された音声に対する処理結果が得られると、ウィンドウを拡大して処理結果を表示する。
各アプリとの連携、音声のテキスト化、等の“音声検索”以外の機能については、後述するタスクトレイやバーメニューから、設定可能なようにメニューを設ける。
図3は、音声操作ソフトの設定項目を示す図である。音声対話システムは、初回起動時のみ簡単な使い方を説明するウィザードが起動される。音声操作ソフトでは、音声で対話しながら検索やPCの操作ができる。
音声操作ソフトでは、マイクの調整が可能である。マイクが使用できない場合は、別途コンシェルジュの対話を表示する。コンシェルジュは「マイクが使用できません。他のマイクを使用するアプリケーションが立ち上がっている場合は、終了させて下さい。」と発言する。
ユーザは再試行か無視して次に進んでもよい。「ライ」と呼びかけてみて下さいという表示に対して、呼びかけが成功するか、次へをクリックまたはタップすると次の画面が表示される。
呼びかけるとタスクトレイが表示され、指示を喋ることができる。使い方を呼び出し、いろいろな指示を音声で入力することができる。次回から起動時に常駐させるか否か選択でき、常駐すると呼びかけでいつでも使用できる。
音声認識の動作について説明する。図4は、音声認識の表示画面を示す図である。音声認識の表示画面では、各カテゴリへ移行するボタン306を配置する。音声入力以外に、検索したい内容をテキスト入力ボックス301に直接キーボード入力し、検索を開始することも可能である。
タスクトレイ302は、起動直後に最小化されていて、呼びかけ、タップやキーボード入力等で標準の大きさになる。コンシェルジュ305が会話ボックス303で案内をし、ユーザは検索のキーワードや質問等を入力する。
マイクが使用できず、かつ、マイクのオプションが「マイクOFF」以外の場合、起動時はコンシェルジュ305の対話が表示される。
会話ボックス303には、例えば、「おはようございます。いかがいたしましょうか?お手伝いできることがあれば言って下さいね。」というコンシェルジュ305の発言が表記される。
音声入力ボタン304の色により、音声入力の可否が判断可能である。既定により緑色の音声入力ボタン304は、呼びかけとタップで音声入力できる。また、オレンジ色の音声入力ボタンは、タップで音声入力できる。
マイクが使用できない場合、または、マイクのオプションが「マイクOFF」の場合、コンシェルジュ305は「マイクが使用できません。他のマイクを使用するアプリケーションが立ち上がっている場合は、終了させて下さい。」と発言する。この後、マイクが使用できるまで、音声入力ボタン304はグレー色の表示とする。
タスクトレイ302が最小化されている場合、コンシェルジュ305の下にテキスト入力ボックス301や音声入力ボタン304がある。タスクトレイ302が標準の大きさになるとレストランや天気予報等の各カテゴリに直接移行するボタン306が表示される。
タブレットやスマートフォン等の情報処理装置100では、1つのストアアプリケーションは表示画面の全面に表示される。他のアプリケーションは、表示画面の全面に表示される場合、ストアアプリケーションと同時に表示することができない。
そこで、会話中の場合は音声対話システムのタスクトレイ302を表示させず、バックグラウンドで作動させる。検索により検索結果を最前面に表示し、更なる入力が要求される場合、音声対話システムのタスクトレイ302が表示される。
TEXT入力時など、会話不要の場合は、タスクトレイ302を表示させる。結果として、トップアプリケーションに、コマンド等が送信される。
情報処理装置100は、音声入力が可能なマイク101に入力されたユーザの音声を変換したテキスト情報に基づいて処理を実行する。情報処理装置100は、表示画面に表示されるストアプリケーションと、他のアプリケーションと、を有している。
他のアプリケーションは、マイク101に入力された音声のテキスト情報への変換を実行可能な状態であることを表示画面の第1の領域に表示する第1のモード(最小化)と、入力された音声を変換したテキスト情報に基づいて行われた処理の結果を表示画面の第1の領域よりも大きい第2の領域に表示する第2のモード(標準の大きさ)とを有する。
他のアプリケーションが第1のモードから第2のモードに遷移するときに、処理の結果に基づく更なる入力が要求される場合、情報処理装置100は他のアプリケーションの表示順序を最前面に変更する。
また、情報処理装置100は複数の表示画面を切り替えて表示可能であり、表示されている一の表示画面の全体をストアアプリケーションが占有し、表示されていない他の表示画面の少なくとも一部を占有する。第1のモードから第2のモードに遷移した他のアプリケーションへの更なる入力が要求される場合に、他のアプリケーションの表示順序を最前面に変更するとともに、表示する画面を一の表示画面から他の表示画面に変更する。
他のアプリケーションは、表示順序が最前面でないときにも音声入力を受けてテキスト情報に変換し、変換したテキスト情報に基づく処理を実行する。他のアプリケーションにより出力されるテキスト情報に基づく情報は、他のアプリケーション以外のアプリケーションのうち表示順序が最も高いものに入力される。
例えば、ユーザがコンシェルジュと会話中にレストランを検索する場合、他のアプリケーションはバックグラウンドで動いて検索を行う。条件を満たすレストランを探し、ジャンル、料金等の絞り込みを音声対話システムでガイドする。
他に、エリア情報は、指定された場所および「ここ」のイベントを探し、ジャンル、距離等の絞り込みを対話システムでガイドする。また、天気予報は、指定された場所の天気予報を表示する。また、乗換案内は、乗換案内を検索し、出発場所、終了場所等、不足個所があれば、対話システムでガイドする。
情報処理装置100が検索中にユーザは会話を進めることができ、検索結果が見つかり更なる入力が要求される場合、検索結果が最前面に出て表示される。会話を中断することなく、検索を継続することができ、検索終了後に検索結果を素早く表示できる。
したがって、音声対話システムのアプリケーションは、ストアアプリケーションに極力邪魔しない動きを行うことができる。
なお、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。
100 情報処理装置(PC)
101、201 マイク
102 音声認識部
103 ROM
104 RAM
105、211 スピーカ
106 音声合成部
107 CPU
108 表示部
109 入力部
110 電源部
111 ネットワーク接続部
112 HDD
202 音声信号解釈部
203 クライアント型音声認識部
204 クライアントアプリケーション部
205 ディスプレイ部
206 ネットワーク接続部
207 ネットワーク網
208 ローカルコンテンツ部
209 テキスト読上部
210 クライアント型音声合成部
301 テキスト入力ボックス
302 タスクトレイ
303 会話ボックス
304 音声入力ボタン
305 コンシェルジュ
306 ボタン

Claims (5)

  1. 音声入力が可能なマイクを備え、該マイクに入力されたユーザの音声を変換したテキスト情報に基づいて処理を実行する情報処理装置であって、
    表示画面に表示され、前記テキスト情報に基づく情報が入力される第1のアプリケーションと、
    前記マイクに入力された音声のテキスト情報への変換を実行可能な状態であることを前記表示画面の第1の領域に表示する第1のモードと、前記入力された音声を変換したテキスト情報に基づいて行われた処理の結果を前記表示画面の前記第1の領域よりも大きい第2の領域に表示する第2のモードとを有し、前記マイクに入力された音声を変換したテキスト情報に基づく情報を出力する第2のアプリケーションと、を有し、
    前記第2のアプリケーションが前記第1のモードから前記第2のモードに遷移するときに、前記処理の結果に基づく更なる入力が要求される場合は、前記第2のアプリケーションの表示順序を最前面に変更することを特徴とする情報処理装置。
  2. 前記第2のアプリケーションは、表示順序が最前面でないときにも音声入力を受けてテキスト情報に変換し、該変換したテキスト情報に基づく処理を実行することを特徴とする請求項1記載の情報処理装置。
  3. 前記第2のアプリケーションにより出力されるテキスト情報に基づく情報は、第2のアプリケーション以外のアプリケーションのうち表示順序が最も高いものに入力されることを特徴とする請求項1または2記載の情報処理装置。
  4. 複数の表示画面を切り替えて表示可能な情報処理装置であって、表示されている一の表示画面の全体を前記第1のアプリケーションが占有し、表示されていない他の表示画面の少なくとも一部を占有し、かつ、第1のモードから第2のモードに遷移した前記第2のアプリケーションへの更なる入力が要求される場合に、前記第2のアプリケーションの表示順序を最前面に変更するとともに、表示する画面を前記一の表示画面から前記他の表示画面に変更することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記第1のアプリケーションは、ストアアプリケーションであり、
    前記第2のアプリケーションは音声対話システムであることを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
JP2014127523A 2014-06-20 2014-06-20 情報処理装置 Pending JP2016009199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014127523A JP2016009199A (ja) 2014-06-20 2014-06-20 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014127523A JP2016009199A (ja) 2014-06-20 2014-06-20 情報処理装置

Publications (1)

Publication Number Publication Date
JP2016009199A true JP2016009199A (ja) 2016-01-18

Family

ID=55226746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014127523A Pending JP2016009199A (ja) 2014-06-20 2014-06-20 情報処理装置

Country Status (1)

Country Link
JP (1) JP2016009199A (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962475A (ja) * 1995-08-28 1997-03-07 Fujitsu Ten Ltd ウインドウ表示装置
JPH10312263A (ja) * 1997-05-13 1998-11-24 Ibm Japan Ltd コンピュータ・システム及び操作対象ウインドウ指定方法
JP2003125109A (ja) * 2001-10-18 2003-04-25 Hitachi Software Eng Co Ltd 音声入力サービス提供方法及びシステム
JP2005258882A (ja) * 2004-03-12 2005-09-22 Sanyo Electric Co Ltd 文字入力支援方法及び文字入力支援プログラム
JP2011039765A (ja) * 2009-08-11 2011-02-24 Nec Corp 機能起動装置および機能起動方法
JP2013041580A (ja) * 2011-08-05 2013-02-28 Samsung Electronics Co Ltd 電子装置及びその制御方法
US20130063373A1 (en) * 2011-09-08 2013-03-14 Lg Electronics Inc. Mobile terminal and controlling method thereof
WO2013125916A1 (en) * 2012-02-24 2013-08-29 Samsung Electronics Co., Ltd. Method and apparatus for controlling lock/unlock state of terminal through voice recognition
JP2013198085A (ja) * 2012-03-22 2013-09-30 Sony Corp 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置
JP2015060391A (ja) * 2013-09-18 2015-03-30 株式会社Nttドコモ ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、端末装置、プログラム、システムおよび方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962475A (ja) * 1995-08-28 1997-03-07 Fujitsu Ten Ltd ウインドウ表示装置
JPH10312263A (ja) * 1997-05-13 1998-11-24 Ibm Japan Ltd コンピュータ・システム及び操作対象ウインドウ指定方法
JP2003125109A (ja) * 2001-10-18 2003-04-25 Hitachi Software Eng Co Ltd 音声入力サービス提供方法及びシステム
JP2005258882A (ja) * 2004-03-12 2005-09-22 Sanyo Electric Co Ltd 文字入力支援方法及び文字入力支援プログラム
JP2011039765A (ja) * 2009-08-11 2011-02-24 Nec Corp 機能起動装置および機能起動方法
JP2013041580A (ja) * 2011-08-05 2013-02-28 Samsung Electronics Co Ltd 電子装置及びその制御方法
US20130063373A1 (en) * 2011-09-08 2013-03-14 Lg Electronics Inc. Mobile terminal and controlling method thereof
WO2013125916A1 (en) * 2012-02-24 2013-08-29 Samsung Electronics Co., Ltd. Method and apparatus for controlling lock/unlock state of terminal through voice recognition
JP2013198085A (ja) * 2012-03-22 2013-09-30 Sony Corp 情報処理装置、情報処理方法、情報処理プログラムおよび端末装置
JP2015060391A (ja) * 2013-09-18 2015-03-30 株式会社Nttドコモ ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、端末装置、プログラム、システムおよび方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
橋本 佳幸 YOSHIYUKI HASHIMOTO, IPHONE SIRI かんたんガイド 第1版, vol. 第1版, JPN6016004812, 5 July 2012 (2012-07-05), pages 13 - 14, ISSN: 0003252719 *

Similar Documents

Publication Publication Date Title
US9733895B2 (en) Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same
CN107615378B (zh) 设备语音控制
JP5746111B2 (ja) 電子装置及びその制御方法
JP6111030B2 (ja) 電子装置及びその制御方法
RU2625439C2 (ru) Электронное устройство и способ для предоставления пользовательского интерфейса для него
US9383827B1 (en) Multi-modal command display
US8751971B2 (en) Devices, methods, and graphical user interfaces for providing accessibility using a touch-sensitive surface
KR101992676B1 (ko) 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
KR101587625B1 (ko) 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
JP2013037689A (ja) 電子装置及びその制御方法
JP2014532933A (ja) 電子装置及びその制御方法
US20130257780A1 (en) Voice-Enabled Touchscreen User Interface
CN103514153A (zh) 语音翻译装置、方法和程序
KR102157264B1 (ko) 디스플레이 장치 및 그 ui 제공 방법
KR20110131909A (ko) 터치 단말에서 터치 인터페이스 불량 시 입력 기능 지원 방법 및 장치
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR20140089696A (ko) 가상 키패드 운용 방법 및 이를 지원하는 단말기
JP2016009199A (ja) 情報処理装置
KR20200126149A (ko) 정보 입력을 위한 유저 인터페이스 제공 장치
JP2015076038A (ja) 情報処理方法、情報処理装置、及びプログラム
US20220406219A1 (en) Interface for visually impaired
US20140350929A1 (en) Method and apparatus for managing audio data in electronic device
KR20140026719A (ko) 단말기의 기능 운용 방법 및 이를 지원하는 단말기

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160809