JP4710331B2 - プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体 - Google Patents

プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体 Download PDF

Info

Publication number
JP4710331B2
JP4710331B2 JP2005020008A JP2005020008A JP4710331B2 JP 4710331 B2 JP4710331 B2 JP 4710331B2 JP 2005020008 A JP2005020008 A JP 2005020008A JP 2005020008 A JP2005020008 A JP 2005020008A JP 4710331 B2 JP4710331 B2 JP 4710331B2
Authority
JP
Japan
Prior art keywords
presentation
voice command
voice
application
presentation application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005020008A
Other languages
English (en)
Other versions
JP2006208696A (ja
Inventor
雅文 永易
英春 藤山
彰 増田
竜一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005020008A priority Critical patent/JP4710331B2/ja
Publication of JP2006208696A publication Critical patent/JP2006208696A/ja
Application granted granted Critical
Publication of JP4710331B2 publication Critical patent/JP4710331B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Description

本発明は、プレゼンテーション用アプリケーションを利用してプレゼンテーションを行う際に、発表者がそのプレゼンテーション用アプリケーションを音声によって操作するための装置,方法等に関する。
今日、例えば「パワーポイント」(マイクロソフト社製)のようなプレゼンテーション用アプリケーションが普及しており、会議・講演会・各種の発表会や説明会等において、こうしたプレゼンテーション用アプリケーションをインストールしたパーソナルコンピュータを使用してプレゼンテーションを行うことが一般化している。
例えばコンベンションホールのような収容人数の多い会場では、パーソナルコンピュータをRGBケーブルでプロジェクタに接続し、そのプロジェクタからスクリーンに説明資料(プレゼンテーションファイル)を拡大投影することが通常である。そして、RGBケーブルの長さなどの物理的な制約から、パーソナルコンピュータを置く場所が発表者(プレゼンテーション担当者)の席から遠く離れてしまっており、発表者が直接パーソナルコンピュータでプレゼンテーション用アプリケーションを操作できない環境にある場合がある。
そうした場合には、発表者とは別にプレゼンテーション用アプリケーションの操作担当者を用意し、発表者が口頭でその操作担当者に操作を指示しながらプレゼンテーションを行うことが多い。しかし、発表者の指示が操作担当者にスムーズに伝わらずに、プレゼンテーションの円滑な進行が妨げられることがある。また、操作担当者はプレゼンテーションの内容を概略しか理解していないことが多いので、複雑な処理の指示が出しにくく、その結果、効果的な装飾ができなかったり、聴衆からの質疑に対して適切な資料を迅速に提示して回答することができないなどの弊害もある。
他方、発表者が直接パーソナルコンピュータでプレゼンテーション用アプリケーションを操作できる環境にある場合でも、マウスやキーボードによる操作が煩雑になり、その結果プレゼンテーションに集中できないという現実もある。
ここで、従来、発表者が音声によってプレゼンテーションデータに対する操作(例えばスライド画像の送り動作)を行うようにしたプレゼンテーション装置として、マイクロフォンと、音声の認識に用いる音声認識用辞書を参照して、マイクロフォンから入力された音声に含まれるキーワードを認識する音声認識部と、その認識したキーワードに対応する操作コマンドを生成するコマンド生成部と、プレゼンテーションに使用する画像,音声等のプレゼンテーションデータを記憶したプレゼンテーション記憶部と、この記憶されたプレゼンテーションデータを上記操作コマンドに基づいて操作するプレゼンテーション操作部と、この操作に係るプレゼンテーションデータを出力するプレゼンテーション出力部とを有するものが提案されている(例えば、特許文献1参照)。
特開平8−339198号公報(段落番号0029〜47、図1)
しかし、上記特許文献1に記載のプレゼンテーション装置は、専用のハードウェア装置であり、且つ、音声と操作内容との対応関係が固定されている。したがって、今日普及している様々なプレゼンテーション用アプリケーションを利用することはできず、ましてや、プレゼンテーション用アプリケーションの種類毎に音声コマンドの体系(音声と操作内容との対応関係)を独立して設定するようなことは不可能である。
本発明は、上述の点に鑑み、プレゼンテーション用アプリケーションの種類毎に音声コマンドの体系を独立して設定して、音声によるプレゼンテーション用アプリケーションの操作を行えるようにすることを課題としてなされたものである。
この課題を解決するために、本発明に係るプレゼンテーション用アプリケーションのリモートコントロール装置は、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う音声コマンド設定手段と、供給される音声データを音声認識する音声認識手段と、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、この音声認識手段の音声認識結果が、そのプレゼンテーション用アプリケーションについてこの設定手段で設定されたいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる音声コマンド実行手段とを備え、この音声コマンド設定手段は、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定し、この音声コマンド実行手段は、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加することを特徴とする。
また、本発明に係るプレゼンテーション用アプリケーションのリモートコントロール方法は、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行うステップであって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第1のステップと、供給される音声データを音声認識する第2のステップと、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、この第2のステップでの音声認識結果が、そのプレゼンテーション用アプリケーションについてこの第1のステップで設定したいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させるステップであって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加する第3のステップとを有することを特徴とする。
また、本発明に係るプログラムは、コンピュータに、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第1の手順と、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、その音声認識の結果が、そのプレゼンテーション用アプリケーションについてこの第1の手順で設定したいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加する第2の手順とを実行させることを特徴とする。
また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータに、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第1の手順と、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、その音声認識の結果が、そのプレゼンテーション用アプリケーションについてこの第1の手順で設定したいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加する第2の手順とを実行させるプログラムを記録したことを特徴とする。
これらの発明では、或るプレゼンテーション用アプリケーションを利用してプレゼンテーションを行おうとするユーザが、事前準備として、音声コマンドを示す情報をそのプレゼンテーション用アプリケーションの操作内容と対応付けて入力しておくと、その音声コマンドが、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして設定される。
この音声コマンド設定処理は、プレゼンテーション用アプリケーション毎に行われる。したがって、ユーザは、プレゼンテーション用アプリケーションの種類毎に、音声コマンドの体系(音声と操作内容との対応関係)を独立して設定することができる。これにより、個々のプレゼンテーション用アプリケーションの特性等に応じて、音声コマンドの体系を柔軟に設定することができる。
この事前準備を行った後、そのプレゼンテーション用アプリケーションによってプレゼンテーションファイルを開いてプレゼンテーションを開始し、ユーザ(発表者)が、そのプレゼンテーション用アプリケーションについて設定した音声コマンドを発表者が発話すると、その音声コマンドが音声認識され、その音声コマンドに対応付けられた操作内容の処理が、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行される。したがって、発表者は、音声によってプレゼンテーション用アプリケーションを操作しながら、プレゼンテーションを行うことができる。
このようにして、個々のプレゼンテーション用アプリケーションの特性等に応じて音声コマンドの体系を柔軟に設定して、音声によるプレゼンテーション用アプリケーションの操作を行うことができる。
そして、ユーザが、プレゼンテーションファイルの作成時に、各ページ毎にメモの入力欄として用意された箇所に、説明上重要なポイントとなるページに対応して或る文字データを保存しておけば、空欄部分を含んだ音声コマンドが、空欄部分にその文字データを追加した具体的な音声コマンドとして自動的に設定し直される。したがって、音声コマンドの情報の入力時には空欄部分を含んだ同じ音声コマンドの情報を入力するだけで、個々のプレゼンテーションファイル毎に(したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション毎に)、説明上重要なポイントとなるページについての音声コマンド(例えばそのページを表示させるコマンド)が自動的に設定されるようになる。
なお、一例として、この音声コマンド設定処理は、プレゼンテーション用アプリケーション毎に、且つ、プレゼンテーションファイル毎に行うことが好適である。
それにより、音声コマンドの体系を、個々のプレゼンテーションファイル自体の特徴に合せて(したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション自体の特徴に合せて)柔軟に設定することができるようになる。
また、一例として、ファイル名を指定してプレゼンテーションファイルを開くための所定の音声コマンドを示す情報を予め保有し、音声認識結果がその記憶した音声コマンドに一致する場合に、その音声コマンドで指定されたファイル名のプレゼンテーションファイルを制御可能なプレゼンテーション用アプリケーションを起動させて、そのプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルを開かせることが好適である。
それにより、プレゼンテーションを開始するためにプレゼンテーションファイルを開く操作も、音声によって行うことができるようになる。そして、プレゼンテーションファイルを開く処理はプレゼンテーション用アプリケーションの種類にかかわらす共通しているので、プレゼンテーションファイルを開くための音声コマンドの情報を予め保有しておくことにより、ユーザは、この音声コマンドの情報を入力する作業を省略できるようになる。
また、このようにプレゼンテーションファイルを開く操作を音声によって行う場合には、一例として、そのプレゼンテーションファイルが開かれたか否かを示す応答音声を合成して出力することが好適である。
それにより、ユーザ(発表者)が、間違いなくそのプレゼンテーションファイルが開かれたか否か(ファイル名の言い間違いなどがなかったか)を迅速且つ容易に確認できるようになる。
また、一例として、供給される音声データから声紋の特徴を抽出して声紋モデルを生成する第1の処理と、この第1の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、登録された声紋モデルのうち、この第1の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第2の処理と、この第2の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、この第2の処理で特定した識別情報を有効なものと判断する第3の処理とから成る声紋認証処理を実行し、この声紋認証によって所定の発話者の識別情報が特定された場合にのみプレゼンテーション用アプリケーションで処理を実行させることが好適である。
それにより、発表者の声紋データを予め登録しておけば、プレゼンテーション中に、発表者以外の者の音声によってプレゼンテーション用アプリケーションが誤操作されることを防止できるようになる。
本発明によれば、個々のプレゼンテーション用アプリケーションの特性等に応じて音声コマンドの体系(音声と操作内容との対応関係)を柔軟に設定して、音声によるプレゼンテーション用アプリケーションの操作を行えるという効果が得られる。
また、音声コマンドの情報の入力時には空欄部分を含んだ同じ音声コマンドの情報を入力するだけで、個々のプレゼンテーションファイル毎に(したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション毎に)、説明上重要なポイントとなるページについての音声コマンド(例えばそのページを表示させるコマンド)が自動的に設定されるという効果も得られる。
また、音声コマンドの体系を、個々のプレゼンテーションファイル自体の特徴に合せて(したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション自体の特徴に合せて)柔軟に設定できるという効果も得られる。
また、プレゼンテーションを開始するためにプレゼンテーションファイルを開く操作も、音声によって行うことができ、且つ、ユーザが、プレゼンテーションファイルを開くための音声コマンドの情報を入力する作業を省略できるという効果も得られる。
また、プレゼンテーションファイルを開く操作を音声によって行う場合に、ユーザが、間違いなくそのプレゼンテーションファイルが開かれたか否か(ファイル名の言い間違いなどがなかったか)を迅速且つ容易に確認できるという効果も得られる。
また、プレゼンテーション中に、発表者以外の者の音声によってプレゼンテーション用アプリケーションが誤操作されることを防止できるという効果も得られる。
以下、本発明を図面を用いて具体的に説明する。図1は、本発明を実施するためのシステム構成例を示す。或る会場で、発表者Aが、聴衆Bに対してプレゼンテーションを行う。発表者Aの音声は集音装置1で集音されてアナログ音声信号に変換される。集音装置1としては、例えば操作釦を操作したときだけ音声を入力可能になるピンマイクが用いられている。集音装置1からは、パーソナルコンピュータ2に音声信号が送られる。
パーソナルコンピュータ2は、発表者A自身が所有するコンピュータであるが、会場の備品であるプロジェクタ3にRGBケーブルで接続される。そして、RGBケーブルの長さなどの物理的な制約から、パーソナルコンピュータ2が置かれる場所は、発表者席から遠く離れている。プロジェクタ3からは、スクリーン4に画像が拡大投影される。
図2は、パーソナルコンピュータ2の構成を、本発明の説明上必要な範囲で示すブロック図である。CPU11と、表示装置(例えば液晶ディスプレイ)12と、外部記憶装置(HDD)13と、メモリ14と、サウンドインタフェース(サウンドカード)15と、ポインティングデバイス(例えばマウス)16と、キーボード17と、ビデオ出力インタフェース(例えばアナログRGB出力インタフェース)18とが、バス19に接続されている。
外部記憶装置13には、通常のパーソナルコンピュータと同様の周辺機器用の各種デバイスドライバ(サウンドドライバ,ポインティングデバイス用ドライバ,キーボード用ドライバ,ビデオドライバ等)がインストールされている。
各種デバイスドライバは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。図1の集音装置1からの音声信号は、サウンドインタフェース15に入力し、サウンドドライバにより、CPU11で処理可能な所定のサンプリング周波数のデジタルデータに変換される。
また、パーソナルコンピュータ2内で再生または合成された音声データは、サウンドインタフェース15においてサウンドドライバによってアナログ信号に変換され、サウンドインタフェース15から出力してパーソナルコンピュータ2の付属スピーカに送られる。
パーソナルコンピュータ2内で再生された画像ファイル等のデータは、ビデオドライバによって処理され、表示装置12に表示されるとともに、ビデオ出力インタフェース18から出力してプロジェクタ3(図1)に送られる。
外部記憶装置13には、さらに、音声認識エンジンと、音声合成ソフトウェアと、声紋認証エンジンと、プレゼンテーション用アプリケーションと、音声コマンドコントロールアプリケーションがインストールされるとともに、このプレゼンテーション用アプリケーションによって制御可能なプレゼンテーションファイル(発表者Aが作成したファイル)が保存されている。
音声認識エンジンは、不特定話者の音声認識を行うためのプログラムであり、供給される音声データの音響的な特徴を抽出し、抽出した特徴を、予め登録した音声モデルと照合して、最も近似する候補を音声認識結果として出力する。この音声認識エンジンは、パーソナルコンピュータ2の電源投入時に起動されてメモリ14上にロードされる。
音声認識技術としては、すでに公知の技術をこの音声認識エンジンに適用してよい。但し、音声認識エンジンの精度を補間するために、次の(a),(b)のような工夫を行うことが望ましい。
(a)音声認識エンジンの認識精度は環境および認識対象によって異なる。特に、プレゼンテーションという自然会話で話している発表者の音声コマンドを認識する場合、認識精度の劣化が予想される。この点に関しては、音声コマンドの柔軟性は最小限に留め、制約を持たせることで対応できる。例えば、「××ページ進んで」という音声コマンドは「××ページ進みます」でも認識されるように設定したとしても、 ××が数字で2桁までで、その後ページを必ずつけること、「飛んで」や「行って」は音声コマンドの認識対象としないこと等の制約を設けることで精度の劣化をかなり抑制できる。
(b)一般のプレゼンテーション環境においては雑音が極めて多く、雑音は現在の音声認識技術では精度を劣化させる大きな要因となっている。これに対しては、集音装置1側を工夫して、音声コマンドを発しているときだけ集音する装置(例えば、前述のように、操作釦を操作したときだけ音声を入力可能になるピンマイク)を用いることにより、かなり雑音を排除できる。
音声合成ソフトウェアは、文字データを音声データに変換するためのプログラムである。この音声合成ソフトウェアは、パーソナルコンピュータ2の電源投入時に起動されてメモリ14上にロードされる。音声合成技術としては、すでに公知の技術をこの音声合成ソフトウェアに適用してよい。
声紋認証エンジンは、供給される音声データを声紋認証して、発話者を特定するためのプログラムである。この声紋認証エンジンの声紋認証処理は、以下の(1)乃至(3)の処理から成っている。
(1)声紋モデルの生成
供給される音声データを、所定の声紋認証単位時間(例えば3秒間とする)分の音声データ毎に順次スペクトル分析し、声紋の特徴を抽出することで、声紋モデルを生成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
(2)声紋データの照合
生成した声紋モデルと、予め各発話者のIDと対応付けて登録(外部記憶装置13に記憶)された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、登録された声紋モデルのうち、生成した声紋モデルに最も近似する声紋モデルに対応するIDを特定する。なお、ここでは、発表者Aの声紋モデルのみが登録されている。
(3)照合スコアと閾値との比較
上記(2)の処理で算出した照合スコアSCRを順次閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、上記(2)の処理で特定したIDを有効なものと判断する。
声紋認証技術としては、すでに公知の技術をこの声紋認証エンジンに適用してよい。この声紋認証エンジンは、パーソナルコンピュータ2の電源投入時に起動されてメモリ14上にロードされる。
プレゼンテーション用アプリケーションとしては、外部プロセスによって操作可能なアプリケーションがインストールされている。例えば、「パワーポイント」(マイクロソフト社製)は、OLEオートメーションによって操作するクラスライブリが提供されているので、 外部プロセスによって操作可能である。「パワーポイント」以外にも、外部プロセスによって操作可能な適宜のプレゼンテーション用アプリケーションをインストールしてよい。
音声コマンドコントロールアプリケーションは、プレゼンテーション用アプリケーションを音声によって操作するためのアプリケーションソフトウェアである。この音声コマンドコントロールアプリケーションは、例えばCD−ROM等の記録媒体として提供してもよいし、あるいはWebサイトからダウンロードさせるようにしてもよい。
この音声コマンドコントロールアプリケーションは、ユーザの操作によって起動されてメモリ14上にロードされる。そして、図示は省略するが、最初に、「音声コマンド設定」釦及び「音声コマンド実行」釦を設けたメニュー画面を表示装置12に表示させる。
このメニュー画面上で、「音声コマンド設定」釦がポインティングデバイス16によって指定されると、音声コマンド設定処理を開始する。図3は、この音声コマンド設定処理の処理内容を示すフローチャートである。最初に、ユーザの入力操作に基づいて音声コマンドを設定するための音声コマンド設定画面を表示装置12に表示させるとともに、その音声コマンド設定画面上で、当該コンピュータ(ここでは図1のパーソナルコンピュータ2)にインストールされているアプリケーションソフトウェアをリスト表示する(ステップS1)。
図4は、音声コマンド設定画面の表示例を示す。この音声コマンド設定画面には、選択欄21,22と、入力欄23,24と、決定釦25と、終了釦26とが設けられている。
選択欄21は、当該コンピュータにインストールされているアプリケーションソフトウェアがリスト表示され、その中からユーザが所望の1つのアプリケーションソフトウェアをポインティングデバイス16またはキーボード17(図2)で選択するための欄である。図3のステップS1では、この欄21にアプリケーションソフトウェアがリスト表示される。
選択欄22は、当該コンピュータに保存されているファイルのうち、欄21で選択されたアプリケーションソフトウェアで制御可能なファイルがリスト表示され、その中からユーザが所望の1つのファイルをポインティングデバイス16またはキーボード17で選択するための欄である。
入力欄23,24としては、互いに対応付けられた1つずつの欄を1組として、複数組の欄が設けられている。各組の入力欄23は、ユーザが、プレゼンテーション用アプリケーションの操作内容を示す文字をキーボード17で入力するための欄である。
各組の入力欄24は、ユーザが、同じ組の入力欄23に入力した操作内容に対応付けて、音声コマンドを示す文字をキーボード17で入力するための欄である。
決定釦25は、欄21〜24での選択・入力結果を確定する際にポインティングデバイス16で指定するための釦である。終了釦26は、音声コマンド設定処理を終了する際にポインティングデバイス16で指定するための釦である。
図3に示すように、ステップS1に続いて、いずれか1つのアプリケーションソフトウェアが図4の選択欄21で選択されるまで待機する(ステップS2)。そして、アプリケーションソフトウェアが選択されると、そのアプリケーションソフトウェアで制御可能なファイルを、図4の選択欄22にリスト表示する(ステップS3)。
続いて、いずれか1つのファイルがこの選択欄22で選択されるまで待機する(ステップS4)。そして、ファイルが選択されると、図4の複数組の入力欄23及び24のうち、1組以上の入力欄23及び24に操作内容及び音声コマンドが入力され、且つ、図4の決定釦25が指定される、という条件が満たされるまで待機する(ステップS5)。なお、同じ組の入力欄23,24に、それぞれ空欄部分を含んだ文字(例えば、操作内容を示す「○○のページを表示する」という文字と、音声コマンドを示す「○○を表示」という文字。但し「○○」は空欄部分である。)が入力された場合にも、条件が満たされたものとする。
この条件が満たされると、各組の入力欄23及び24に入力された操作内容及び音声コマンドを示す情報を、選択欄21及び22で選択されたアプリケーションソフトウェア及びファイルと関連付けて外部記憶装置13(図2)に記憶する(ステップS6)。なお、ステップS5について述べたように操作内容を示す文字及び音声コマンドを示す文字の一部が空欄になっている場合には、その空欄部分を含めて記憶する。
そして、図4の終了釦26が指定されるまでステップS1〜S6を繰り返し(ステップS7)、終了釦26が指定されると音声コマンド設定処理を終了する。
他方、前述の音声コマンドコントロールアプリケーションの起動時のメニュー画面上で、「音声コマンド実行」釦がポインティングデバイス16によって指定されると、音声コマンド設定処理を開始する。
図5及び図6は、この音声コマンド実行処理の処理内容を示すフローチャートである。最初に、サウンドインタフェース15(図2)においてデジタル変換された音声データをサウンドドライバから順次受け取り、その音声データを、前述の音声認識エンジン,声紋認証エンジンにそれぞれ順次転送(もしくは、音声認識エンジン,声紋認証エンジンがそれぞれ受け取れるように設定)する(ステップS11)。
そして、前述の声紋認証単位時間(3秒間)分の音声データの転送を終えると、声紋認証エンジンからその音声データについての声紋認証の結果を受け取り、有効な発話者のIDが特定されたか否か、すなわち発話者が図1の発表者Aであることが認証されたか否かを判断する(ステップS12)。
ノーであれば、ステップS11に戻ってステップS11及びS12を繰り返す。他方、イエスであれば、音声認識エンジンからその音声データについて音声認識の結果を受け取り、プレゼンテーションファイルを開くための所定の音声コマンド(例えば、「ファイル××を開いてください」という音声コマンドとする。但し、「××」はファイル名である。)が認識されたか否かを判断する(ステップS13)。なお、このファイルを開くための音声コマンドの情報は、全てのプレゼンテーション用アプリケーションについて共通の情報として、予め音声コマンドコントロールアプリケーションが保有しているものである。
イエスであれば、前述の音声コマンド設定処理(図3)での音声コマンドの設定結果を参照して、そのファイル名「××」のプレゼンテーションファイルとともに選択されたプレゼンテーション用アプリケーション(選択欄22でファイル名「××」のプレゼンテーションファイルが選択される直前に選択欄21で選択されたプレゼンテーション用アプリケーション)を起動して、そのプレゼンテーションファイルを開く処理をそのプレゼンテーション用アプリケーションに行わせる(ステップS14)。そして、そのプレゼンテーション用アプリケーションがプレゼンテーションファイルを開くことに成功したか否かを判断する(ステップS15)。
イエスであれば、プレゼンテーションファイルを開いたことを示す応答データ(例えば、「ファイル××を開きました。プレゼンテーションを開始します。」という内容のデータとする。)を前述の音声合成ソフトウェアに転送して音声データに変換させ、その音声データを、前述のサウンドドライバに渡してサウンドインタフェース15(図2)でアナログ信号に変換させ、パーソナルコンピュータ2の付属スピーカから音声出力させる(ステップS16)。
続いて、そのプレゼンテーション用アプリケーション及びプレゼンテーションファイルについての音声コマンド設定処理(図3)での音声コマンドの設定結果(図4の各組の入力欄23及び24に入力された操作内容及び音声コマンドの情報)を取得する(ステップS17)。
続いて、そのプレゼンテーションファイルから、各ページのデータに対応して所定箇所(例えば、「パワーポイント」で作成されたファイルでは、スライドのページ毎のノートの箇所)に保存されている文字データをキーワードとして抽出して、そのキーワードを、ステップS17で取得した操作内容及び音声コマンドの情報のうちの空欄部分に追加する(ステップS18)。そして、ステップS11に戻って、ステップS11以下を繰り返す。
他方、ステップS15でノーであれば、プレゼンテーションファイルを開けなかったことを示す応答データ(例えば、「ファイル××を開くことができません。」という内容のデータとする。)を音声合成ソフトウェアに転送して音声データに変換させ、その音声データを、サウンドドライバに渡してサウンドインタフェース15でアナログ信号に変換させ、パーソナルコンピュータ2の付属スピーカから音声出力させる(ステップS19)。そして、ステップS11に戻る。
ステップS13でノーであった場合(音声認識エンジンで、プレゼンテーションファイルを開くための音声コマンドが認識されなかった場合)には、図6に示すように、既にプレゼンテーションファイルが開かれており、且つ、既に図5のステップS17で取得している音声コマンドのうちのいずれかの音声コマンドが音声認識エンジンで認識されたか否かを判断する(ステップS20)。
イエスであれば、その認識された音声コマンドに対応してステップS17で取得した操作内容(図4の各組の入力欄23及び24のうち、その認識された音声コマンドが入力された欄23と同じ組の欄24に入力された操作内容)の処理を、ステップS14で起動したプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる(ステップS21)。そして、ステップS11に戻って、ステップS11以下を繰り返す。
なお、ステップS14の後には応答音声を合成して出力するための処理を行う(ステップS15,S16,S19)が、ステップS21の後にはこうした処理は行わない。これは、プレゼンテーションファイルを開いてプレゼンテーションを行っている最中に応答音声を出力すると、プレゼンテーションに支障をきたすことがあるからである。
ステップS20でノーであれば、既にプレゼンテーションファイルが開かれており、且つ、プレゼンテーションを終了するための所定の音声コマンド(例えば、「プレゼン終了」という音声コマンドとする。)が認識されたか否かを判断する(ステップS22)。なお、このプレゼンテーションを終了するための音声コマンドの情報は、全てのプレゼンテーション用アプリケーションについて共通の情報として、予め音声コマンドコントロールアプリケーションが保有しているものである。
ノーであれば、ステップS11に戻って、ステップS11以下を繰り返す。他方、イエスであれば、ステップS14で起動したプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルを閉じさせるとともに、ステップS18でキーワードとして抽出した文字データの情報を破棄する(ステップS23)。そして、音声コマンド実行処理を終了する。
なお、この音声コマンド実行処理の実行中にも、本来の操作方法(プレゼンテーション用アプリケーション自体で設定されている操作方法)によるプレゼンテーション用アプリケーションの操作を行うことは可能である。
次に、図1に示したシステムにおいて、発表者Aが或るプレゼンテーション用アプリケーションを利用してプレゼンテーションを行う様子について説明する。
発表者Aは、プレゼンテーションを行う前に、事前準備として、プレゼンテーションファイルを作成した後、パーソナルコンピュータ2で音声コマンドコントロールアプリケーションを起動し、メニュー画面上で前述の「音声コマンド設定」釦を指定する。すると、音声コマンド設定処理(図3)が開始され、音声コマンド設定画面(図4)が表示される。
発表者Aは、この音声コマンド設定画面上で、そのプレゼンテーション用アプリケーション及びそのプレゼンテーションファイルを選択欄21及び22から選択するとともに、各組の入力欄23及び24に、そのプレゼンテーション用アプリケーションの操作内容を示す文字と、その操作内容に対応する音声コマンドを示す文字とを入力して、決定釦25及び終了釦26を指定する。
これにより、各組の入力欄24に入力した音声コマンドが、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして設定される。
図7は、音声コマンド設定処理による音声コマンドの設定結果を例示する図である。或る組の入力欄23,24にそれぞれ「次のページに進む」,「次」という文字が入力されたことにより、「次」という音声コマンドが、表示するスライドを次のページに進める操作を行うためのコマンドとして設定されている。
また、別の組の入力欄23,24にそれぞれ「前のページに戻る」,「戻って」という文字が入力されたことにより、「戻って」という音声コマンドが、表示するスライドを1ページ分前に戻す操作を行うためのコマンドとして設定されている。
また、別の組の入力欄23,24にそれぞれ「××ページ先に進む」,「××ページ進んで」という文字(××は具体的な数字)が入力されたことにより、「××ページ進んで」という音声コマンドが、表示するスライドを××ページ分に先に進める操作を行うためのコマンドとして設定されている。
また、別の組の入力欄23,24にそれぞれ「××ページ戻る」,「××ページ戻って」という文字(××は具体的な数字)が入力されたことにより、「××ページ戻って」という音声コマンドが、表示するスライドを××ページ分に前に戻す操作を行うためのコマンドとして設定されている。
また、別の組の入力欄23,24にそれぞれ「××ページを表示する」,「××ページ表示」という文字(××は具体的な数字)が入力されたことにより、「××ページ表示」という音声コマンドが、スライドの××ページ目を表示する操作を行うためのコマンドとして設定されている。
また、別の組の入力欄23,24にそれぞれ「○○のページを表示する」,「○○を表示」という文字(○○は空欄部分)が入力されることにより、「○○を表示」という音声コマンドが、スライドのうち○○についてのページを表示する操作を行うためのコマンドとして設定されている。
また、別の組の入力欄23,24にそれぞれ「最小化する」,「最小化」という文字が入力されたことにより、「最小化」という音声コマンドが、表示しているスライドのサイズを最小化する操作を行うためのコマンドとして設定されている。
また、別の組の入力欄23,24にそれぞれ「元のサイズに戻す」,「元に戻して」という文字が入力されたことにより、「元に戻して」という音声コマンドが、表示しているスライドのサイズを最小化した後に、そのスライドのサイズを元に戻す操作を行うためのコマンドとして設定されている。
この音声コマンド設定処理は、図4の選択欄21で選択された個々のプレゼンテーション用アプリケーション毎に行われる。したがって、発表者Aは、プレゼンテーション用アプリケーションの種類毎に、音声コマンドの体系(音声と操作内容との対応関係)を独立して設定することができる。これにより、個々のプレゼンテーション用アプリケーションの特性等に応じて、音声コマンドの体系を柔軟に設定することができる。
さらに、この音声コマンド設定処理は、図4の選択欄22で選択された個々のプレゼンテーションファイル毎に行われる。したがって、発表者Aは、音声コマンドの体系を、個々のプレゼンテーションファイル自体の特徴に合せて(したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション自体の特徴に合せて)柔軟に設定することもできる。
この事前準備を済ませた後、発表者Aは、図1に示したように、プレゼンテーションの会場で、パーソナルコンピュータ2をプロジェクタ3に接続する。そして、音声コマンドコントロールアプリケーションを起動して、メニュー画面上で前述の「音声コマンド実行」釦を指定する。すると、音声コマンド実行処理(図5及び図6)が開始される。
発表者Aは、その後、発表者席に移動し、プレゼンテーションを開始するために、「ファイル××を開いてください」(××は、今回のプレゼンテーションのために作成したプレゼンテーションファイルのファイル名)と発話する。
すると、集音装置1からパーソナルコンピュータ2にその音声信号が送られ、声紋認証エンジンによって発話者が発表者Aであることが認証されるとともに、音声認識エンジンによってこの音声コマンドが認識される。そして、そのプレゼンテーションファイルを制御可能なプレゼンテーション用アプリケーションのうち、音声コマンド設定画面(図4)上でそのプレゼンテーションファイルとともに選択したプレゼンテーション用アプリケーションが起動され、そのプレゼンテーションファイルを開く処理がそのプレゼンテーション用アプリケーションによって行われる(図5のステップS11〜S14)。
これにより、発表者Aは、まず、プレゼンテーションを開始するためにプレゼンテーションファイルを開く操作を、音声によって行うことができる。そして、プレゼンテーションファイルを開く処理はプレゼンテーション用アプリケーションの種類にかかわらす共通しており、プレゼンテーションファイルを開くための音声コマンドの情報は予め音声コマンドコントロールアプリケーションが保有しているので、発表者Aは、この音声コマンドの情報を音声コマンド設定画面(図4)で入力する作業を省略することができる。
そして、そのプレゼンテーションファイルを開くことに成功したか否かを示す応答音声が、音声合成ソフトウェアによって合成されてパーソナルコンピュータ2から音声出力される(図5のステップS15,S16,S19)。
したがって、発表者Aは、間違いなくそのプレゼンテーションファイルが開かれたか否か(ファイル名の言い間違いなどがなかったか)を、迅速且つ容易に確認することができる。
プレゼンテーションファイルが開かれると、そのプレゼンテーション用アプリケーション及びプレゼンテーションファイルについて事前準備で設定した操作内容及び音声コマンドの情報が取得される(図8のステップS17)。
そして、この取得された操作内容及び音声コマンドの情報のうちの空欄部分(図7の「○○のページを表示する」,「○○を表示」の○○の部分)に、そのプレゼンテーションファイル中の所定箇所に各ページのデータに対応して保存されている文字データ(例えば、「パワーポイント」で作成されたファイルでは、スライドのページ毎のノートの箇所の文字データ)が追加される(図8のステップS18)。
したがって、発表者Aが、プレゼンテーションファイルの作成時に、ファイル中のこの所定箇所に、説明上重要なポイントとなるページ(例えば新商品を説明するためのプレゼンテーションファイルにおいて、商品が薄型であることを画像等で表現したページとする)に対応して「薄型」という文字データを保存しておけば、音声コマンド設定画面上で設定した「○○を表示」という音声コマンドが、商品が薄型であることを表現したページを表示する操作を行うための「薄型を表示」という具体的な音声コマンドとして自動的に設定し直される。
これにより、音声コマンド設定画面では空欄部分を含んだ同じ音声コマンドの情報を入力するだけで、個々のプレゼンテーションファイル毎に(したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション毎に)、説明上重要なポイントとなるページについての音声コマンドが自動的に設定される。
プレゼンテーションファイルが開かれた後、発話者Aは、プレゼンテーションを開始し、予め決めておいたプレゼンテーションの手順や、聴衆Bからの質疑に応じて、事前準備で設定した音声コマンド(図7)を発話する。
すると、集音装置1からパーソナルコンピュータ2にその音声信号が送られ、声紋認証エンジンによって発話者が発表者Aであることが認証されるとともに、音声認識エンジンによってその音声コマンドが認識される。そして、その音声コマンドに対応する操作内容の処理が、そのプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルに対して実行される(図5のステップS11〜S13,図6のステップS20,S21)。
したがって、発表者Aは、音声によってそのプレゼンテーション用アプリケーションを操作しながら、プレゼンテーションを行うことができる。また、前述の例のように、「薄型を表示」と発話すれば、商品が「薄型」であることを表現したページが表示されるので、説明上重要なポイントとなるページを、ページ番号を調べたりすることなく迅速に表示してプレゼンテーションを行うことができる。
そして、プレゼンテーションが終了すると、発表者Aは、「プレゼン終了」と発話する。すると、集音装置1からパーソナルコンピュータ2にその音声信号が送られ、声紋認証エンジンによって発話者が発表者Aであることが認証されるとともに、音声認識エンジンによってこの音声コマンドが認識される。そして、そのプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルが閉じられる(図5のステップS11〜S13,図6のステップS22,S23)。
これにより、発表者Aは、プレゼンテーションを終了した後、プレゼンテーションファイルを閉じる操作も、音声によって行うことができる。そして、プレゼンテーションファイルを閉じる処理はプレゼンテーション用アプリケーションの種類にかかわらす共通しており、プレゼンテーションファイルを閉じるための音声コマンドの情報は予め音声コマンドコントロールアプリケーションが保有しているので、発表者Aは、この音声コマンドの情報を音声コマンド設定画面(図4)で入力する作業を省略することができる。
また、発表者A以外の者の音声が集音装置1に入力した場合には、声紋認証エンジンによって発話者が発表者Aであることが認証されないので、音声コマンドによってプレゼンテーション用アプリケーションが操作されることはない。したがって、発表者以外の者の音声によってプレゼンテーション用アプリケーションが誤操作されることを防止できる。
なお、以上の例では、図3及び図4に示したように、音声コマンド設定処理において、パーソナルコンピュータ2内のアプリケーションソフトウェアやファイルがリスト表示されるようにしている。しかし、別の例として、ユーザが、選択しようとするプレゼンテーション用アプリケーションやプレゼンテーションファイルの名称をキーボードで入力するようにしてもよい。
また、以上の例では、音声コマンド設定処理において、空欄部分を含んだ音声コマンドも入力可能であり、音声コマンド実行処理において、プレゼンテーションファイル中の所定箇所から抽出したキーワードをこの空欄部分に追加している。しかし、別の例として、音声コマンド設定処理において、ユーザが、予めこうしたキーワードを含んだ音声コマンドを入力できるようにしてもよい。
また、以上の例では、音声認識エンジンと、音声合成ソフトウェアと、声紋認証エンジンと、プレゼンテーション用アプリケーションと、音声コマンドコントロールアプリケーションとをインストールしたパーソナルコンピュータを設けている。しかし、別の例として、音声認識エンジン,音声合成ソフトウェア,声紋認証エンジン及びプレゼンテーション用アプリケーションをOS上で動作させるCPUと、音声コマンドコントロールアプリケーションと同一の処理内容のファームウェアを実行する専用プロセッサとを有する装置を、パーソナルコンピュータに代えて設けるようにしてもよい。
また、以上の例では、音声認識エンジン,音声合成ソフトウェア,声紋認証エンジン,音声コマンドコントロールアプリケーションをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータにインストールしたり、専用プロセッサに実行させてもよい。
本発明を実施するためのシステム構成例を示す図である。 図1のパーソナルコンピュータの構成を示すブロック図である。 音声コマンドコントロールアプリケーションの音声コマンド設定処理を示すフローチャートである。 音声コマンド設定画面を例示する図である。 音声コマンドコントロールアプリケーションの音声コマンド実行処理を示すフローチャートである。 音声コマンドコントロールアプリケーションの音声コマンド実行処理を示すフローチャートである。 音声コマンド設定処理で設定された操作内容・音声コマンドを例示する図である。
符号の説明
1 集音装置、 2 パーソナルコンピュータ、 11 CPU、 12 表示装置、 13 外部記憶装置、 14 メモリ、 15 サウンドインタフェース、 16 ポインティングデバイス、 17 キーボード、 19 バス

Claims (11)

  1. 音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う音声コマンド設定手段と、
    供給される音声データを音声認識する音声認識手段と、
    プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、前記音声認識手段の音声認識結果が、該プレゼンテーション用アプリケーションについて前記設定手段で設定されたいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させる音声コマンド実行手段と
    を備え
    前記音声コマンド設定手段は、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定し、
    前記音声コマンド実行手段は、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する
    プレゼンテーション用アプリケーションのリモートコントロール装置。
  2. 請求項1に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
    前記音声コマンド設定手段は、音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に、且つ、プレゼンテーションファイル毎に行
    プレゼンテーション用アプリケーションのリモートコントロール装置。
  3. 請求項1に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
    前記音声コマンド実行手段は、ファイル名を指定してプレゼンテーションファイルを開くための所定の音声コマンドを示す情報を予め保有しており、前記音声認識手段の音声認識結果が、該記憶した音声コマンドに一致する場合に、該音声コマンドで指定されたファイル名のプレゼンテーションファイルを制御可能なプレゼンテーション用アプリケーションを起動させて、該プレゼンテーション用アプリケーションによって該プレゼンテーションファイルを開かせ
    プレゼンテーション用アプリケーションのリモートコントロール装置。
  4. 請求項3に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
    音声合成手段をさらに備えており、
    前記音声コマンド実行手段は、前記プレゼンテーションファイルが開かれたか否かを示す応答音声を、前記音声合成手段によって合成させて出力させ
    プレゼンテーション用アプリケーションのリモートコントロール装置。
  5. 請求項1に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
    供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第1の処理と、
    前記第1の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第1の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第2の処理と、
    前記第2の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第2の処理で特定した識別情報を有効なものと判断する第3の処理と
    から成る声紋認証処理を実行する声紋認証手段
    をさらに備え、
    前記音声コマンド実行手段は、前記声紋認証手段によって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
    プレゼンテーション用アプリケーションのリモートコントロール装置。
  6. 音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行うステップであって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第1のステップと、
    供給される音声データを音声認識する第2のステップと、
    プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、前記第2のステップでの音声認識結果が、該プレゼンテーション用アプリケーションについて前記第1のステップで設定したいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させるステップであって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する第3のステップとを有する
    プレゼンテーション用アプリケーションのリモートコントロール方法。
  7. 請求項6に記載のプレゼンテーション用アプリケーションのリモートコントロール方法において、
    供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第1の処理と、
    前記第1の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第1の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第2の処理と、
    前記第2の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第2の処理で特定した識別情報を有効なものと判断する第3の処理と
    から成る声紋認証処理を実行する声紋認証処理ステップ
    をさらに有し、
    前記第3のステップでは、前記声紋認証処理ステップによって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
    プレゼンテーション用アプリケーションのリモートコントロール方法。
  8. コンピュータに、
    音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第1の手順と、
    プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、該音声認識の結果が、該プレゼンテーション用アプリケーションについて前記第1の手順で設定したいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する第2の手順とを実行させるための
    プログラム。
  9. 請求項8に記載のプログラムにおいて、
    供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第1の処理と、
    前記第1の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第1の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第2の処理と、
    前記第2の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第2の処理で特定した識別情報を有効なものと判断する第3の処理と
    から成る声紋認証処理の手順をさらにコンピュータに実行させ、
    前記第2の手順では、前記声紋認証処理の手順によって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
    プログラム。
  10. コンピュータに、
    音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第1の手順と、
    プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、該音声認識の結果が、該プレゼンテーション用アプリケーションについて前記第1の手順で設定したいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する第2の手順とを実行させるプログラムを記録した
    コンピュータ読み取り可能な記録媒体。
  11. 請求項10に記載のコンピュータ読み取り可能な記録媒体において、
    前記プログラムは、
    供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第1の処理と、
    前記第1の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第1の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第2の処理と、
    前記第2の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第2の処理で特定した識別情報を有効なものと判断する第3の処理と
    から成る声紋認証処理の手順をさらにコンピュータに実行させ、
    前記第2の手順では、前記声紋認証処理の手順によって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
    コンピュータ読み取り可能な記録媒体。
JP2005020008A 2005-01-27 2005-01-27 プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体 Expired - Fee Related JP4710331B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005020008A JP4710331B2 (ja) 2005-01-27 2005-01-27 プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005020008A JP4710331B2 (ja) 2005-01-27 2005-01-27 プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2006208696A JP2006208696A (ja) 2006-08-10
JP4710331B2 true JP4710331B2 (ja) 2011-06-29

Family

ID=36965637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005020008A Expired - Fee Related JP4710331B2 (ja) 2005-01-27 2005-01-27 プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4710331B2 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5577737B2 (ja) * 2010-02-18 2014-08-27 株式会社ニコン 情報処理システム
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9413796B2 (en) * 2013-06-07 2016-08-09 Amx, Llc Customized information setup, access and sharing during a live conference
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) * 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP2017173530A (ja) * 2016-03-23 2017-09-28 富士通株式会社 音声入力支援プログラム、ヘッドマウントディスプレイ、音声入力支援方法および音声入力支援装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6696878B2 (ja) * 2016-10-17 2020-05-20 本田技研工業株式会社 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP7044633B2 (ja) * 2017-12-28 2022-03-30 シャープ株式会社 操作支援装置、操作支援システム、及び操作支援方法
US10643607B2 (en) * 2018-09-28 2020-05-05 Dish Network L.L.C. Vocal triggering of presentation transitions
JP7281074B2 (ja) * 2019-04-04 2023-05-25 京セラドキュメントソリューションズ株式会社 表示装置及び画像形成装置
JP7351642B2 (ja) * 2019-06-05 2023-09-27 シャープ株式会社 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014135A (ja) * 1999-06-29 2001-01-19 Seiko Epson Corp プレゼンテーションシステム、プレゼンテーション方法および情報記憶媒体
JP2001249756A (ja) * 2000-03-08 2001-09-14 Toshiba Corp プレゼンテーションプログラムの制御方法及びその装置
JP2003215707A (ja) * 2002-01-22 2003-07-30 Seiko Epson Corp プレゼンテーションシステム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2924717B2 (ja) * 1995-06-12 1999-07-26 日本電気株式会社 プレゼンテーション装置
JPH10133848A (ja) * 1996-10-28 1998-05-22 Toshiba Corp パーソナルコンピュータおよびコマンド制御方法
JPH10133850A (ja) * 1996-10-31 1998-05-22 Toshiba Corp 音声入力機能を有するコンピュータ及び音声制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001014135A (ja) * 1999-06-29 2001-01-19 Seiko Epson Corp プレゼンテーションシステム、プレゼンテーション方法および情報記憶媒体
JP2001249756A (ja) * 2000-03-08 2001-09-14 Toshiba Corp プレゼンテーションプログラムの制御方法及びその装置
JP2003215707A (ja) * 2002-01-22 2003-07-30 Seiko Epson Corp プレゼンテーションシステム

Also Published As

Publication number Publication date
JP2006208696A (ja) 2006-08-10

Similar Documents

Publication Publication Date Title
JP4710331B2 (ja) プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体
US20160328205A1 (en) Method and Apparatus for Voice Operation of Mobile Applications Having Unnamed View Elements
US6915258B2 (en) Method and apparatus for displaying and manipulating account information using the human voice
JP6125138B2 (ja) 情報提供システム
US20180182399A1 (en) Control method for control device, control method for apparatus control system, and control device
JP2002542501A (ja) 2つの音声変換インスタンス及びコンピュータ補助訂正を用いる自動転記システム及び方法
US8725505B2 (en) Verb error recovery in speech recognition
US20030216915A1 (en) Voice command and voice recognition for hand-held devices
JP2009505203A (ja) インタラクションパターン及びアプリケーション機能を紹介する方法
CN110956020B (zh) 呈现校正候选的方法、存储介质和信息处理设备
JP4565585B2 (ja) データ処理装置、データ処理方法、記録媒体
US20210383813A1 (en) Storage medium, editing support method, and editing support device
JP6962849B2 (ja) 会議支援装置、会議支援制御方法およびプログラム
WO2021066914A1 (en) Rehearsal-based presentation assistance
JP3698635B2 (ja) 音声認識処理装置
CN110580905A (zh) 识别装置及方法
JP7183316B2 (ja) 音声記録検索方法、コンピュータ装置およびコンピュータプログラム
TWI814268B (zh) 資料生成裝置、資料生成方法及電腦程式產品
JP7186036B2 (ja) ロボット操作装置及びロボット操作プログラム
JP2019138988A (ja) 情報処理システム、情報処理方法、及びプログラム
JP2003215707A (ja) プレゼンテーションシステム
JP4341390B2 (ja) ラベルの系列マッチングの誤り修正方法及び装置及びプログラム及びラベルの系列のマッチング誤り修正プログラムを格納したコンピュータ読み取り可能な記憶媒体
EP3910626A1 (en) Presentation control
EP3629325A1 (en) Sound playback interval control method, sound playback interval control program, and information processing apparatus
JP2022064243A (ja) 画像編集装置、画像編集方法、及び画像編集プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110307

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140401

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees