JP4710331B2

JP4710331B2 - プレゼンテーション用アプリケーションをリモートコントロールするための装置，方法，プログラム及び記録媒体

Info

Publication number: JP4710331B2
Application number: JP2005020008A
Authority: JP
Inventors: 雅文永易; 英春藤山; 彰増田; 竜一田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-01-27
Filing date: 2005-01-27
Publication date: 2011-06-29
Anticipated expiration: 2025-01-27
Also published as: JP2006208696A

Description

本発明は、プレゼンテーション用アプリケーションを利用してプレゼンテーションを行う際に、発表者がそのプレゼンテーション用アプリケーションを音声によって操作するための装置，方法等に関する。

今日、例えば「パワーポイント」（マイクロソフト社製）のようなプレゼンテーション用アプリケーションが普及しており、会議・講演会・各種の発表会や説明会等において、こうしたプレゼンテーション用アプリケーションをインストールしたパーソナルコンピュータを使用してプレゼンテーションを行うことが一般化している。

例えばコンベンションホールのような収容人数の多い会場では、パーソナルコンピュータをＲＧＢケーブルでプロジェクタに接続し、そのプロジェクタからスクリーンに説明資料（プレゼンテーションファイル）を拡大投影することが通常である。そして、ＲＧＢケーブルの長さなどの物理的な制約から、パーソナルコンピュータを置く場所が発表者（プレゼンテーション担当者）の席から遠く離れてしまっており、発表者が直接パーソナルコンピュータでプレゼンテーション用アプリケーションを操作できない環境にある場合がある。

そうした場合には、発表者とは別にプレゼンテーション用アプリケーションの操作担当者を用意し、発表者が口頭でその操作担当者に操作を指示しながらプレゼンテーションを行うことが多い。しかし、発表者の指示が操作担当者にスムーズに伝わらずに、プレゼンテーションの円滑な進行が妨げられることがある。また、操作担当者はプレゼンテーションの内容を概略しか理解していないことが多いので、複雑な処理の指示が出しにくく、その結果、効果的な装飾ができなかったり、聴衆からの質疑に対して適切な資料を迅速に提示して回答することができないなどの弊害もある。

他方、発表者が直接パーソナルコンピュータでプレゼンテーション用アプリケーションを操作できる環境にある場合でも、マウスやキーボードによる操作が煩雑になり、その結果プレゼンテーションに集中できないという現実もある。

ここで、従来、発表者が音声によってプレゼンテーションデータに対する操作（例えばスライド画像の送り動作）を行うようにしたプレゼンテーション装置として、マイクロフォンと、音声の認識に用いる音声認識用辞書を参照して、マイクロフォンから入力された音声に含まれるキーワードを認識する音声認識部と、その認識したキーワードに対応する操作コマンドを生成するコマンド生成部と、プレゼンテーションに使用する画像，音声等のプレゼンテーションデータを記憶したプレゼンテーション記憶部と、この記憶されたプレゼンテーションデータを上記操作コマンドに基づいて操作するプレゼンテーション操作部と、この操作に係るプレゼンテーションデータを出力するプレゼンテーション出力部とを有するものが提案されている（例えば、特許文献１参照）。
特開平８−３３９１９８号公報（段落番号００２９〜４７、図１）

しかし、上記特許文献１に記載のプレゼンテーション装置は、専用のハードウェア装置であり、且つ、音声と操作内容との対応関係が固定されている。したがって、今日普及している様々なプレゼンテーション用アプリケーションを利用することはできず、ましてや、プレゼンテーション用アプリケーションの種類毎に音声コマンドの体系（音声と操作内容との対応関係）を独立して設定するようなことは不可能である。

本発明は、上述の点に鑑み、プレゼンテーション用アプリケーションの種類毎に音声コマンドの体系を独立して設定して、音声によるプレゼンテーション用アプリケーションの操作を行えるようにすることを課題としてなされたものである。

この課題を解決するために、本発明に係るプレゼンテーション用アプリケーションのリモートコントロール装置は、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う音声コマンド設定手段と、供給される音声データを音声認識する音声認識手段と、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、この音声認識手段の音声認識結果が、そのプレゼンテーション用アプリケーションについてこの設定手段で設定されたいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる音声コマンド実行手段とを備え、この音声コマンド設定手段は、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定し、この音声コマンド実行手段は、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加することを特徴とする。

また、本発明に係るプレゼンテーション用アプリケーションのリモートコントロール方法は、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行うステップであって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第１のステップと、供給される音声データを音声認識する第２のステップと、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、この第２のステップでの音声認識結果が、そのプレゼンテーション用アプリケーションについてこの第１のステップで設定したいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させるステップであって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加する第３のステップとを有することを特徴とする。

また、本発明に係るプログラムは、コンピュータに、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第１の手順と、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、その音声認識の結果が、そのプレゼンテーション用アプリケーションについてこの第１の手順で設定したいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加する第２の手順とを実行させることを特徴とする。

また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータに、音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとしてその音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、その音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第１の手順と、プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、その音声認識の結果が、そのプレゼンテーション用アプリケーションについてこの第１の手順で設定したいずれかの音声コマンドに一致する場合に、その音声コマンドに対応付けられたこの操作内容の処理を、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、その抽出したキーワードをこの空欄部分に追加する第２の手順とを実行させるプログラムを記録したことを特徴とする。

これらの発明では、或るプレゼンテーション用アプリケーションを利用してプレゼンテーションを行おうとするユーザが、事前準備として、音声コマンドを示す情報をそのプレゼンテーション用アプリケーションの操作内容と対応付けて入力しておくと、その音声コマンドが、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして設定される。

この音声コマンド設定処理は、プレゼンテーション用アプリケーション毎に行われる。したがって、ユーザは、プレゼンテーション用アプリケーションの種類毎に、音声コマンドの体系（音声と操作内容との対応関係）を独立して設定することができる。これにより、個々のプレゼンテーション用アプリケーションの特性等に応じて、音声コマンドの体系を柔軟に設定することができる。

この事前準備を行った後、そのプレゼンテーション用アプリケーションによってプレゼンテーションファイルを開いてプレゼンテーションを開始し、ユーザ（発表者）が、そのプレゼンテーション用アプリケーションについて設定した音声コマンドを発表者が発話すると、その音声コマンドが音声認識され、その音声コマンドに対応付けられた操作内容の処理が、そのプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行される。したがって、発表者は、音声によってプレゼンテーション用アプリケーションを操作しながら、プレゼンテーションを行うことができる。

このようにして、個々のプレゼンテーション用アプリケーションの特性等に応じて音声コマンドの体系を柔軟に設定して、音声によるプレゼンテーション用アプリケーションの操作を行うことができる。
そして、ユーザが、プレゼンテーションファイルの作成時に、各ページ毎にメモの入力欄として用意された箇所に、説明上重要なポイントとなるページに対応して或る文字データを保存しておけば、空欄部分を含んだ音声コマンドが、空欄部分にその文字データを追加した具体的な音声コマンドとして自動的に設定し直される。したがって、音声コマンドの情報の入力時には空欄部分を含んだ同じ音声コマンドの情報を入力するだけで、個々のプレゼンテーションファイル毎に（したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション毎に）、説明上重要なポイントとなるページについての音声コマンド（例えばそのページを表示させるコマンド）が自動的に設定されるようになる。

なお、一例として、この音声コマンド設定処理は、プレゼンテーション用アプリケーション毎に、且つ、プレゼンテーションファイル毎に行うことが好適である。

それにより、音声コマンドの体系を、個々のプレゼンテーションファイル自体の特徴に合せて（したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション自体の特徴に合せて）柔軟に設定することができるようになる。

また、一例として、ファイル名を指定してプレゼンテーションファイルを開くための所定の音声コマンドを示す情報を予め保有し、音声認識結果がその記憶した音声コマンドに一致する場合に、その音声コマンドで指定されたファイル名のプレゼンテーションファイルを制御可能なプレゼンテーション用アプリケーションを起動させて、そのプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルを開かせることが好適である。

それにより、プレゼンテーションを開始するためにプレゼンテーションファイルを開く操作も、音声によって行うことができるようになる。そして、プレゼンテーションファイルを開く処理はプレゼンテーション用アプリケーションの種類にかかわらす共通しているので、プレゼンテーションファイルを開くための音声コマンドの情報を予め保有しておくことにより、ユーザは、この音声コマンドの情報を入力する作業を省略できるようになる。

また、このようにプレゼンテーションファイルを開く操作を音声によって行う場合には、一例として、そのプレゼンテーションファイルが開かれたか否かを示す応答音声を合成して出力することが好適である。

それにより、ユーザ（発表者）が、間違いなくそのプレゼンテーションファイルが開かれたか否か（ファイル名の言い間違いなどがなかったか）を迅速且つ容易に確認できるようになる。

また、一例として、供給される音声データから声紋の特徴を抽出して声紋モデルを生成する第１の処理と、この第１の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、登録された声紋モデルのうち、この第１の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第２の処理と、この第２の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、この第２の処理で特定した識別情報を有効なものと判断する第３の処理とから成る声紋認証処理を実行し、この声紋認証によって所定の発話者の識別情報が特定された場合にのみプレゼンテーション用アプリケーションで処理を実行させることが好適である。

それにより、発表者の声紋データを予め登録しておけば、プレゼンテーション中に、発表者以外の者の音声によってプレゼンテーション用アプリケーションが誤操作されることを防止できるようになる。

本発明によれば、個々のプレゼンテーション用アプリケーションの特性等に応じて音声コマンドの体系（音声と操作内容との対応関係）を柔軟に設定して、音声によるプレゼンテーション用アプリケーションの操作を行えるという効果が得られる。
また、音声コマンドの情報の入力時には空欄部分を含んだ同じ音声コマンドの情報を入力するだけで、個々のプレゼンテーションファイル毎に（したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション毎に）、説明上重要なポイントとなるページについての音声コマンド（例えばそのページを表示させるコマンド）が自動的に設定されるという効果も得られる。

また、音声コマンドの体系を、個々のプレゼンテーションファイル自体の特徴に合せて（したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション自体の特徴に合せて）柔軟に設定できるという効果も得られる。

また、プレゼンテーションを開始するためにプレゼンテーションファイルを開く操作も、音声によって行うことができ、且つ、ユーザが、プレゼンテーションファイルを開くための音声コマンドの情報を入力する作業を省略できるという効果も得られる。

また、プレゼンテーションファイルを開く操作を音声によって行う場合に、ユーザが、間違いなくそのプレゼンテーションファイルが開かれたか否か（ファイル名の言い間違いなどがなかったか）を迅速且つ容易に確認できるという効果も得られる。

また、プレゼンテーション中に、発表者以外の者の音声によってプレゼンテーション用アプリケーションが誤操作されることを防止できるという効果も得られる。

以下、本発明を図面を用いて具体的に説明する。図１は、本発明を実施するためのシステム構成例を示す。或る会場で、発表者Ａが、聴衆Ｂに対してプレゼンテーションを行う。発表者Ａの音声は集音装置１で集音されてアナログ音声信号に変換される。集音装置１としては、例えば操作釦を操作したときだけ音声を入力可能になるピンマイクが用いられている。集音装置１からは、パーソナルコンピュータ２に音声信号が送られる。

パーソナルコンピュータ２は、発表者Ａ自身が所有するコンピュータであるが、会場の備品であるプロジェクタ３にＲＧＢケーブルで接続される。そして、ＲＧＢケーブルの長さなどの物理的な制約から、パーソナルコンピュータ２が置かれる場所は、発表者席から遠く離れている。プロジェクタ３からは、スクリーン４に画像が拡大投影される。

図２は、パーソナルコンピュータ２の構成を、本発明の説明上必要な範囲で示すブロック図である。ＣＰＵ１１と、表示装置（例えば液晶ディスプレイ）１２と、外部記憶装置（ＨＤＤ）１３と、メモリ１４と、サウンドインタフェース（サウンドカード）１５と、ポインティングデバイス（例えばマウス）１６と、キーボード１７と、ビデオ出力インタフェース（例えばアナログＲＧＢ出力インタフェース）１８とが、バス１９に接続されている。

外部記憶装置１３には、通常のパーソナルコンピュータと同様の周辺機器用の各種デバイスドライバ（サウンドドライバ，ポインティングデバイス用ドライバ，キーボード用ドライバ，ビデオドライバ等）がインストールされている。

各種デバイスドライバは、パーソナルコンピュータ２の電源投入時にメモリ１４上にロードされる。図１の集音装置１からの音声信号は、サウンドインタフェース１５に入力し、サウンドドライバにより、ＣＰＵ１１で処理可能な所定のサンプリング周波数のデジタルデータに変換される。

また、パーソナルコンピュータ２内で再生または合成された音声データは、サウンドインタフェース１５においてサウンドドライバによってアナログ信号に変換され、サウンドインタフェース１５から出力してパーソナルコンピュータ２の付属スピーカに送られる。

パーソナルコンピュータ２内で再生された画像ファイル等のデータは、ビデオドライバによって処理され、表示装置１２に表示されるとともに、ビデオ出力インタフェース１８から出力してプロジェクタ３（図１）に送られる。

外部記憶装置１３には、さらに、音声認識エンジンと、音声合成ソフトウェアと、声紋認証エンジンと、プレゼンテーション用アプリケーションと、音声コマンドコントロールアプリケーションがインストールされるとともに、このプレゼンテーション用アプリケーションによって制御可能なプレゼンテーションファイル（発表者Ａが作成したファイル）が保存されている。

音声認識エンジンは、不特定話者の音声認識を行うためのプログラムであり、供給される音声データの音響的な特徴を抽出し、抽出した特徴を、予め登録した音声モデルと照合して、最も近似する候補を音声認識結果として出力する。この音声認識エンジンは、パーソナルコンピュータ２の電源投入時に起動されてメモリ１４上にロードされる。

音声認識技術としては、すでに公知の技術をこの音声認識エンジンに適用してよい。但し、音声認識エンジンの精度を補間するために、次の（ａ），（ｂ）のような工夫を行うことが望ましい。

（ａ）音声認識エンジンの認識精度は環境および認識対象によって異なる。特に、プレゼンテーションという自然会話で話している発表者の音声コマンドを認識する場合、認識精度の劣化が予想される。この点に関しては、音声コマンドの柔軟性は最小限に留め、制約を持たせることで対応できる。例えば、「××ページ進んで」という音声コマンドは「××ページ進みます」でも認識されるように設定したとしても、 ××が数字で２桁までで、その後ページを必ずつけること、「飛んで」や「行って」は音声コマンドの認識対象としないこと等の制約を設けることで精度の劣化をかなり抑制できる。

（ｂ）一般のプレゼンテーション環境においては雑音が極めて多く、雑音は現在の音声認識技術では精度を劣化させる大きな要因となっている。これに対しては、集音装置１側を工夫して、音声コマンドを発しているときだけ集音する装置（例えば、前述のように、操作釦を操作したときだけ音声を入力可能になるピンマイク）を用いることにより、かなり雑音を排除できる。

音声合成ソフトウェアは、文字データを音声データに変換するためのプログラムである。この音声合成ソフトウェアは、パーソナルコンピュータ２の電源投入時に起動されてメモリ１４上にロードされる。音声合成技術としては、すでに公知の技術をこの音声合成ソフトウェアに適用してよい。

声紋認証エンジンは、供給される音声データを声紋認証して、発話者を特定するためのプログラムである。この声紋認証エンジンの声紋認証処理は、以下の（１）乃至（３）の処理から成っている。

（１）声紋モデルの生成
供給される音声データを、所定の声紋認証単位時間（例えば３秒間とする）分の音声データ毎に順次スペクトル分析し、声紋の特徴を抽出することで、声紋モデルを生成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。

（２）声紋データの照合
生成した声紋モデルと、予め各発話者のＩＤと対応付けて登録（外部記憶装置１３に記憶）された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアＳＣＲ（特徴量が近似するほど大きい）を算出する。その結果、登録された声紋モデルのうち、生成した声紋モデルに最も近似する声紋モデルに対応するＩＤを特定する。なお、ここでは、発表者Ａの声紋モデルのみが登録されている。

（３）照合スコアと閾値との比較
上記（２）の処理で算出した照合スコアＳＣＲを順次閾値ＴＨＤと比較し、照合スコアＳＣＲが閾値ＴＨＤを越える場合には、上記（２）の処理で特定したＩＤを有効なものと判断する。

声紋認証技術としては、すでに公知の技術をこの声紋認証エンジンに適用してよい。この声紋認証エンジンは、パーソナルコンピュータ２の電源投入時に起動されてメモリ１４上にロードされる。

プレゼンテーション用アプリケーションとしては、外部プロセスによって操作可能なアプリケーションがインストールされている。例えば、「パワーポイント」（マイクロソフト社製）は、ＯＬＥオートメーションによって操作するクラスライブリが提供されているので、外部プロセスによって操作可能である。「パワーポイント」以外にも、外部プロセスによって操作可能な適宜のプレゼンテーション用アプリケーションをインストールしてよい。

音声コマンドコントロールアプリケーションは、プレゼンテーション用アプリケーションを音声によって操作するためのアプリケーションソフトウェアである。この音声コマンドコントロールアプリケーションは、例えばＣＤ−ＲＯＭ等の記録媒体として提供してもよいし、あるいはＷｅｂサイトからダウンロードさせるようにしてもよい。

この音声コマンドコントロールアプリケーションは、ユーザの操作によって起動されてメモリ１４上にロードされる。そして、図示は省略するが、最初に、「音声コマンド設定」釦及び「音声コマンド実行」釦を設けたメニュー画面を表示装置１２に表示させる。

このメニュー画面上で、「音声コマンド設定」釦がポインティングデバイス１６によって指定されると、音声コマンド設定処理を開始する。図３は、この音声コマンド設定処理の処理内容を示すフローチャートである。最初に、ユーザの入力操作に基づいて音声コマンドを設定するための音声コマンド設定画面を表示装置１２に表示させるとともに、その音声コマンド設定画面上で、当該コンピュータ（ここでは図１のパーソナルコンピュータ２）にインストールされているアプリケーションソフトウェアをリスト表示する（ステップＳ１）。

図４は、音声コマンド設定画面の表示例を示す。この音声コマンド設定画面には、選択欄２１，２２と、入力欄２３，２４と、決定釦２５と、終了釦２６とが設けられている。

選択欄２１は、当該コンピュータにインストールされているアプリケーションソフトウェアがリスト表示され、その中からユーザが所望の１つのアプリケーションソフトウェアをポインティングデバイス１６またはキーボード１７（図２）で選択するための欄である。図３のステップＳ１では、この欄２１にアプリケーションソフトウェアがリスト表示される。

選択欄２２は、当該コンピュータに保存されているファイルのうち、欄２１で選択されたアプリケーションソフトウェアで制御可能なファイルがリスト表示され、その中からユーザが所望の１つのファイルをポインティングデバイス１６またはキーボード１７で選択するための欄である。

入力欄２３，２４としては、互いに対応付けられた１つずつの欄を１組として、複数組の欄が設けられている。各組の入力欄２３は、ユーザが、プレゼンテーション用アプリケーションの操作内容を示す文字をキーボード１７で入力するための欄である。

各組の入力欄２４は、ユーザが、同じ組の入力欄２３に入力した操作内容に対応付けて、音声コマンドを示す文字をキーボード１７で入力するための欄である。

決定釦２５は、欄２１〜２４での選択・入力結果を確定する際にポインティングデバイス１６で指定するための釦である。終了釦２６は、音声コマンド設定処理を終了する際にポインティングデバイス１６で指定するための釦である。

図３に示すように、ステップＳ１に続いて、いずれか１つのアプリケーションソフトウェアが図４の選択欄２１で選択されるまで待機する（ステップＳ２）。そして、アプリケーションソフトウェアが選択されると、そのアプリケーションソフトウェアで制御可能なファイルを、図４の選択欄２２にリスト表示する（ステップＳ３）。

続いて、いずれか１つのファイルがこの選択欄２２で選択されるまで待機する（ステップＳ４）。そして、ファイルが選択されると、図４の複数組の入力欄２３及び２４のうち、１組以上の入力欄２３及び２４に操作内容及び音声コマンドが入力され、且つ、図４の決定釦２５が指定される、という条件が満たされるまで待機する（ステップＳ５）。なお、同じ組の入力欄２３，２４に、それぞれ空欄部分を含んだ文字（例えば、操作内容を示す「○○のページを表示する」という文字と、音声コマンドを示す「○○を表示」という文字。但し「○○」は空欄部分である。）が入力された場合にも、条件が満たされたものとする。

この条件が満たされると、各組の入力欄２３及び２４に入力された操作内容及び音声コマンドを示す情報を、選択欄２１及び２２で選択されたアプリケーションソフトウェア及びファイルと関連付けて外部記憶装置１３（図２）に記憶する（ステップＳ６）。なお、ステップＳ５について述べたように操作内容を示す文字及び音声コマンドを示す文字の一部が空欄になっている場合には、その空欄部分を含めて記憶する。

そして、図４の終了釦２６が指定されるまでステップＳ１〜Ｓ６を繰り返し（ステップＳ７）、終了釦２６が指定されると音声コマンド設定処理を終了する。

他方、前述の音声コマンドコントロールアプリケーションの起動時のメニュー画面上で、「音声コマンド実行」釦がポインティングデバイス１６によって指定されると、音声コマンド設定処理を開始する。

図５及び図６は、この音声コマンド実行処理の処理内容を示すフローチャートである。最初に、サウンドインタフェース１５（図２）においてデジタル変換された音声データをサウンドドライバから順次受け取り、その音声データを、前述の音声認識エンジン，声紋認証エンジンにそれぞれ順次転送（もしくは、音声認識エンジン，声紋認証エンジンがそれぞれ受け取れるように設定）する（ステップＳ１１）。

そして、前述の声紋認証単位時間（３秒間）分の音声データの転送を終えると、声紋認証エンジンからその音声データについての声紋認証の結果を受け取り、有効な発話者のＩＤが特定されたか否か、すなわち発話者が図１の発表者Ａであることが認証されたか否かを判断する（ステップＳ１２）。

ノーであれば、ステップＳ１１に戻ってステップＳ１１及びＳ１２を繰り返す。他方、イエスであれば、音声認識エンジンからその音声データについて音声認識の結果を受け取り、プレゼンテーションファイルを開くための所定の音声コマンド（例えば、「ファイル××を開いてください」という音声コマンドとする。但し、「××」はファイル名である。）が認識されたか否かを判断する（ステップＳ１３）。なお、このファイルを開くための音声コマンドの情報は、全てのプレゼンテーション用アプリケーションについて共通の情報として、予め音声コマンドコントロールアプリケーションが保有しているものである。

イエスであれば、前述の音声コマンド設定処理（図３）での音声コマンドの設定結果を参照して、そのファイル名「××」のプレゼンテーションファイルとともに選択されたプレゼンテーション用アプリケーション（選択欄２２でファイル名「××」のプレゼンテーションファイルが選択される直前に選択欄２１で選択されたプレゼンテーション用アプリケーション）を起動して、そのプレゼンテーションファイルを開く処理をそのプレゼンテーション用アプリケーションに行わせる（ステップＳ１４）。そして、そのプレゼンテーション用アプリケーションがプレゼンテーションファイルを開くことに成功したか否かを判断する（ステップＳ１５）。

イエスであれば、プレゼンテーションファイルを開いたことを示す応答データ（例えば、「ファイル××を開きました。プレゼンテーションを開始します。」という内容のデータとする。）を前述の音声合成ソフトウェアに転送して音声データに変換させ、その音声データを、前述のサウンドドライバに渡してサウンドインタフェース１５（図２）でアナログ信号に変換させ、パーソナルコンピュータ２の付属スピーカから音声出力させる（ステップＳ１６）。

続いて、そのプレゼンテーション用アプリケーション及びプレゼンテーションファイルについての音声コマンド設定処理（図３）での音声コマンドの設定結果（図４の各組の入力欄２３及び２４に入力された操作内容及び音声コマンドの情報）を取得する（ステップＳ１７）。

続いて、そのプレゼンテーションファイルから、各ページのデータに対応して所定箇所（例えば、「パワーポイント」で作成されたファイルでは、スライドのページ毎のノートの箇所）に保存されている文字データをキーワードとして抽出して、そのキーワードを、ステップＳ１７で取得した操作内容及び音声コマンドの情報のうちの空欄部分に追加する（ステップＳ１８）。そして、ステップＳ１１に戻って、ステップＳ１１以下を繰り返す。

他方、ステップＳ１５でノーであれば、プレゼンテーションファイルを開けなかったことを示す応答データ（例えば、「ファイル××を開くことができません。」という内容のデータとする。）を音声合成ソフトウェアに転送して音声データに変換させ、その音声データを、サウンドドライバに渡してサウンドインタフェース１５でアナログ信号に変換させ、パーソナルコンピュータ２の付属スピーカから音声出力させる（ステップＳ１９）。そして、ステップＳ１１に戻る。

ステップＳ１３でノーであった場合（音声認識エンジンで、プレゼンテーションファイルを開くための音声コマンドが認識されなかった場合）には、図６に示すように、既にプレゼンテーションファイルが開かれており、且つ、既に図５のステップＳ１７で取得している音声コマンドのうちのいずれかの音声コマンドが音声認識エンジンで認識されたか否かを判断する（ステップＳ２０）。

イエスであれば、その認識された音声コマンドに対応してステップＳ１７で取得した操作内容（図４の各組の入力欄２３及び２４のうち、その認識された音声コマンドが入力された欄２３と同じ組の欄２４に入力された操作内容）の処理を、ステップＳ１４で起動したプレゼンテーション用アプリケーションでそのプレゼンテーションファイルに対して実行させる（ステップＳ２１）。そして、ステップＳ１１に戻って、ステップＳ１１以下を繰り返す。

なお、ステップＳ１４の後には応答音声を合成して出力するための処理を行う（ステップＳ１５，Ｓ１６，Ｓ１９）が、ステップＳ２１の後にはこうした処理は行わない。これは、プレゼンテーションファイルを開いてプレゼンテーションを行っている最中に応答音声を出力すると、プレゼンテーションに支障をきたすことがあるからである。

ステップＳ２０でノーであれば、既にプレゼンテーションファイルが開かれており、且つ、プレゼンテーションを終了するための所定の音声コマンド（例えば、「プレゼン終了」という音声コマンドとする。）が認識されたか否かを判断する（ステップＳ２２）。なお、このプレゼンテーションを終了するための音声コマンドの情報は、全てのプレゼンテーション用アプリケーションについて共通の情報として、予め音声コマンドコントロールアプリケーションが保有しているものである。

ノーであれば、ステップＳ１１に戻って、ステップＳ１１以下を繰り返す。他方、イエスであれば、ステップＳ１４で起動したプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルを閉じさせるとともに、ステップＳ１８でキーワードとして抽出した文字データの情報を破棄する（ステップＳ２３）。そして、音声コマンド実行処理を終了する。

なお、この音声コマンド実行処理の実行中にも、本来の操作方法（プレゼンテーション用アプリケーション自体で設定されている操作方法）によるプレゼンテーション用アプリケーションの操作を行うことは可能である。

次に、図１に示したシステムにおいて、発表者Ａが或るプレゼンテーション用アプリケーションを利用してプレゼンテーションを行う様子について説明する。

発表者Ａは、プレゼンテーションを行う前に、事前準備として、プレゼンテーションファイルを作成した後、パーソナルコンピュータ２で音声コマンドコントロールアプリケーションを起動し、メニュー画面上で前述の「音声コマンド設定」釦を指定する。すると、音声コマンド設定処理（図３）が開始され、音声コマンド設定画面（図４）が表示される。

発表者Ａは、この音声コマンド設定画面上で、そのプレゼンテーション用アプリケーション及びそのプレゼンテーションファイルを選択欄２１及び２２から選択するとともに、各組の入力欄２３及び２４に、そのプレゼンテーション用アプリケーションの操作内容を示す文字と、その操作内容に対応する音声コマンドを示す文字とを入力して、決定釦２５及び終了釦２６を指定する。

これにより、各組の入力欄２４に入力した音声コマンドが、そのプレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして設定される。

図７は、音声コマンド設定処理による音声コマンドの設定結果を例示する図である。或る組の入力欄２３，２４にそれぞれ「次のページに進む」，「次」という文字が入力されたことにより、「次」という音声コマンドが、表示するスライドを次のページに進める操作を行うためのコマンドとして設定されている。

また、別の組の入力欄２３，２４にそれぞれ「前のページに戻る」，「戻って」という文字が入力されたことにより、「戻って」という音声コマンドが、表示するスライドを１ページ分前に戻す操作を行うためのコマンドとして設定されている。

また、別の組の入力欄２３，２４にそれぞれ「××ページ先に進む」，「××ページ進んで」という文字（××は具体的な数字）が入力されたことにより、「××ページ進んで」という音声コマンドが、表示するスライドを××ページ分に先に進める操作を行うためのコマンドとして設定されている。

また、別の組の入力欄２３，２４にそれぞれ「××ページ戻る」，「××ページ戻って」という文字（××は具体的な数字）が入力されたことにより、「××ページ戻って」という音声コマンドが、表示するスライドを××ページ分に前に戻す操作を行うためのコマンドとして設定されている。

また、別の組の入力欄２３，２４にそれぞれ「××ページを表示する」，「××ページ表示」という文字（××は具体的な数字）が入力されたことにより、「××ページ表示」という音声コマンドが、スライドの××ページ目を表示する操作を行うためのコマンドとして設定されている。

また、別の組の入力欄２３，２４にそれぞれ「○○のページを表示する」，「○○を表示」という文字（○○は空欄部分）が入力されることにより、「○○を表示」という音声コマンドが、スライドのうち○○についてのページを表示する操作を行うためのコマンドとして設定されている。

また、別の組の入力欄２３，２４にそれぞれ「最小化する」，「最小化」という文字が入力されたことにより、「最小化」という音声コマンドが、表示しているスライドのサイズを最小化する操作を行うためのコマンドとして設定されている。

また、別の組の入力欄２３，２４にそれぞれ「元のサイズに戻す」，「元に戻して」という文字が入力されたことにより、「元に戻して」という音声コマンドが、表示しているスライドのサイズを最小化した後に、そのスライドのサイズを元に戻す操作を行うためのコマンドとして設定されている。

この音声コマンド設定処理は、図４の選択欄２１で選択された個々のプレゼンテーション用アプリケーション毎に行われる。したがって、発表者Ａは、プレゼンテーション用アプリケーションの種類毎に、音声コマンドの体系（音声と操作内容との対応関係）を独立して設定することができる。これにより、個々のプレゼンテーション用アプリケーションの特性等に応じて、音声コマンドの体系を柔軟に設定することができる。

さらに、この音声コマンド設定処理は、図４の選択欄２２で選択された個々のプレゼンテーションファイル毎に行われる。したがって、発表者Ａは、音声コマンドの体系を、個々のプレゼンテーションファイル自体の特徴に合せて（したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション自体の特徴に合せて）柔軟に設定することもできる。

この事前準備を済ませた後、発表者Ａは、図１に示したように、プレゼンテーションの会場で、パーソナルコンピュータ２をプロジェクタ３に接続する。そして、音声コマンドコントロールアプリケーションを起動して、メニュー画面上で前述の「音声コマンド実行」釦を指定する。すると、音声コマンド実行処理（図５及び図６）が開始される。

発表者Ａは、その後、発表者席に移動し、プレゼンテーションを開始するために、「ファイル××を開いてください」（××は、今回のプレゼンテーションのために作成したプレゼンテーションファイルのファイル名）と発話する。

すると、集音装置１からパーソナルコンピュータ２にその音声信号が送られ、声紋認証エンジンによって発話者が発表者Ａであることが認証されるとともに、音声認識エンジンによってこの音声コマンドが認識される。そして、そのプレゼンテーションファイルを制御可能なプレゼンテーション用アプリケーションのうち、音声コマンド設定画面（図４）上でそのプレゼンテーションファイルとともに選択したプレゼンテーション用アプリケーションが起動され、そのプレゼンテーションファイルを開く処理がそのプレゼンテーション用アプリケーションによって行われる（図５のステップＳ１１〜Ｓ１４）。

これにより、発表者Ａは、まず、プレゼンテーションを開始するためにプレゼンテーションファイルを開く操作を、音声によって行うことができる。そして、プレゼンテーションファイルを開く処理はプレゼンテーション用アプリケーションの種類にかかわらす共通しており、プレゼンテーションファイルを開くための音声コマンドの情報は予め音声コマンドコントロールアプリケーションが保有しているので、発表者Ａは、この音声コマンドの情報を音声コマンド設定画面（図４）で入力する作業を省略することができる。

そして、そのプレゼンテーションファイルを開くことに成功したか否かを示す応答音声が、音声合成ソフトウェアによって合成されてパーソナルコンピュータ２から音声出力される（図５のステップＳ１５，Ｓ１６，Ｓ１９）。

したがって、発表者Ａは、間違いなくそのプレゼンテーションファイルが開かれたか否か（ファイル名の言い間違いなどがなかったか）を、迅速且つ容易に確認することができる。

プレゼンテーションファイルが開かれると、そのプレゼンテーション用アプリケーション及びプレゼンテーションファイルについて事前準備で設定した操作内容及び音声コマンドの情報が取得される（図８のステップＳ１７）。

そして、この取得された操作内容及び音声コマンドの情報のうちの空欄部分（図７の「○○のページを表示する」，「○○を表示」の○○の部分）に、そのプレゼンテーションファイル中の所定箇所に各ページのデータに対応して保存されている文字データ（例えば、「パワーポイント」で作成されたファイルでは、スライドのページ毎のノートの箇所の文字データ）が追加される（図８のステップＳ１８）。

したがって、発表者Ａが、プレゼンテーションファイルの作成時に、ファイル中のこの所定箇所に、説明上重要なポイントとなるページ（例えば新商品を説明するためのプレゼンテーションファイルにおいて、商品が薄型であることを画像等で表現したページとする）に対応して「薄型」という文字データを保存しておけば、音声コマンド設定画面上で設定した「○○を表示」という音声コマンドが、商品が薄型であることを表現したページを表示する操作を行うための「薄型を表示」という具体的な音声コマンドとして自動的に設定し直される。

これにより、音声コマンド設定画面では空欄部分を含んだ同じ音声コマンドの情報を入力するだけで、個々のプレゼンテーションファイル毎に（したがって、そのプレゼンテーションファイルを用いて行おうとするプレゼンテーション毎に）、説明上重要なポイントとなるページについての音声コマンドが自動的に設定される。

プレゼンテーションファイルが開かれた後、発話者Ａは、プレゼンテーションを開始し、予め決めておいたプレゼンテーションの手順や、聴衆Ｂからの質疑に応じて、事前準備で設定した音声コマンド（図７）を発話する。

すると、集音装置１からパーソナルコンピュータ２にその音声信号が送られ、声紋認証エンジンによって発話者が発表者Ａであることが認証されるとともに、音声認識エンジンによってその音声コマンドが認識される。そして、その音声コマンドに対応する操作内容の処理が、そのプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルに対して実行される（図５のステップＳ１１〜Ｓ１３，図６のステップＳ２０，Ｓ２１）。

したがって、発表者Ａは、音声によってそのプレゼンテーション用アプリケーションを操作しながら、プレゼンテーションを行うことができる。また、前述の例のように、「薄型を表示」と発話すれば、商品が「薄型」であることを表現したページが表示されるので、説明上重要なポイントとなるページを、ページ番号を調べたりすることなく迅速に表示してプレゼンテーションを行うことができる。

そして、プレゼンテーションが終了すると、発表者Ａは、「プレゼン終了」と発話する。すると、集音装置１からパーソナルコンピュータ２にその音声信号が送られ、声紋認証エンジンによって発話者が発表者Ａであることが認証されるとともに、音声認識エンジンによってこの音声コマンドが認識される。そして、そのプレゼンテーション用アプリケーションによってそのプレゼンテーションファイルが閉じられる（図５のステップＳ１１〜Ｓ１３，図６のステップＳ２２，Ｓ２３）。

これにより、発表者Ａは、プレゼンテーションを終了した後、プレゼンテーションファイルを閉じる操作も、音声によって行うことができる。そして、プレゼンテーションファイルを閉じる処理はプレゼンテーション用アプリケーションの種類にかかわらす共通しており、プレゼンテーションファイルを閉じるための音声コマンドの情報は予め音声コマンドコントロールアプリケーションが保有しているので、発表者Ａは、この音声コマンドの情報を音声コマンド設定画面（図４）で入力する作業を省略することができる。

また、発表者Ａ以外の者の音声が集音装置１に入力した場合には、声紋認証エンジンによって発話者が発表者Ａであることが認証されないので、音声コマンドによってプレゼンテーション用アプリケーションが操作されることはない。したがって、発表者以外の者の音声によってプレゼンテーション用アプリケーションが誤操作されることを防止できる。

なお、以上の例では、図３及び図４に示したように、音声コマンド設定処理において、パーソナルコンピュータ２内のアプリケーションソフトウェアやファイルがリスト表示されるようにしている。しかし、別の例として、ユーザが、選択しようとするプレゼンテーション用アプリケーションやプレゼンテーションファイルの名称をキーボードで入力するようにしてもよい。

また、以上の例では、音声コマンド設定処理において、空欄部分を含んだ音声コマンドも入力可能であり、音声コマンド実行処理において、プレゼンテーションファイル中の所定箇所から抽出したキーワードをこの空欄部分に追加している。しかし、別の例として、音声コマンド設定処理において、ユーザが、予めこうしたキーワードを含んだ音声コマンドを入力できるようにしてもよい。

また、以上の例では、音声認識エンジンと、音声合成ソフトウェアと、声紋認証エンジンと、プレゼンテーション用アプリケーションと、音声コマンドコントロールアプリケーションとをインストールしたパーソナルコンピュータを設けている。しかし、別の例として、音声認識エンジン，音声合成ソフトウェア，声紋認証エンジン及びプレゼンテーション用アプリケーションをＯＳ上で動作させるＣＰＵと、音声コマンドコントロールアプリケーションと同一の処理内容のファームウェアを実行する専用プロセッサとを有する装置を、パーソナルコンピュータに代えて設けるようにしてもよい。

また、以上の例では、音声認識エンジン，音声合成ソフトウェア，声紋認証エンジン，音声コマンドコントロールアプリケーションをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータにインストールしたり、専用プロセッサに実行させてもよい。

本発明を実施するためのシステム構成例を示す図である。図１のパーソナルコンピュータの構成を示すブロック図である。音声コマンドコントロールアプリケーションの音声コマンド設定処理を示すフローチャートである。音声コマンド設定画面を例示する図である。音声コマンドコントロールアプリケーションの音声コマンド実行処理を示すフローチャートである。音声コマンドコントロールアプリケーションの音声コマンド実行処理を示すフローチャートである。音声コマンド設定処理で設定された操作内容・音声コマンドを例示する図である。

符号の説明

１集音装置、２パーソナルコンピュータ、１１ＣＰＵ、１２表示装置、１３外部記憶装置、１４メモリ、１５サウンドインタフェース、１６ポインティングデバイス、１７キーボード、１９バス

Claims

音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う音声コマンド設定手段と、
供給される音声データを音声認識する音声認識手段と、
プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、前記音声認識手段の音声認識結果が、該プレゼンテーション用アプリケーションについて前記設定手段で設定されたいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させる音声コマンド実行手段と
を備え、
前記音声コマンド設定手段は、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定し、
前記音声コマンド実行手段は、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する
プレゼンテーション用アプリケーションのリモートコントロール装置。
請求項１に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
前記音声コマンド設定手段は、音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に、且つ、プレゼンテーションファイル毎に行う
プレゼンテーション用アプリケーションのリモートコントロール装置。
請求項１に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
前記音声コマンド実行手段は、ファイル名を指定してプレゼンテーションファイルを開くための所定の音声コマンドを示す情報を予め保有しており、前記音声認識手段の音声認識結果が、該記憶した音声コマンドに一致する場合に、該音声コマンドで指定されたファイル名のプレゼンテーションファイルを制御可能なプレゼンテーション用アプリケーションを起動させて、該プレゼンテーション用アプリケーションによって該プレゼンテーションファイルを開かせる
プレゼンテーション用アプリケーションのリモートコントロール装置。
請求項３に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
音声合成手段をさらに備えており、
前記音声コマンド実行手段は、前記プレゼンテーションファイルが開かれたか否かを示す応答音声を、前記音声合成手段によって合成させて出力させる
プレゼンテーション用アプリケーションのリモートコントロール装置。
請求項１に記載のプレゼンテーション用アプリケーションのリモートコントロール装置において、
供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第１の処理と、
前記第１の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第１の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第２の処理と、
前記第２の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第２の処理で特定した識別情報を有効なものと判断する第３の処理と
から成る声紋認証処理を実行する声紋認証手段
をさらに備え、
前記音声コマンド実行手段は、前記声紋認証手段によって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
プレゼンテーション用アプリケーションのリモートコントロール装置。
音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行うステップであって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第１のステップと、
供給される音声データを音声認識する第２のステップと、
プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、前記第２のステップでの音声認識結果が、該プレゼンテーション用アプリケーションについて前記第１のステップで設定したいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させるステップであって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する第３のステップとを有する
プレゼンテーション用アプリケーションのリモートコントロール方法。
請求項６に記載のプレゼンテーション用アプリケーションのリモートコントロール方法において、
供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第１の処理と、
前記第１の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第１の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第２の処理と、
前記第２の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第２の処理で特定した識別情報を有効なものと判断する第３の処理と
から成る声紋認証処理を実行する声紋認証処理ステップ
をさらに有し、
前記第３のステップでは、前記声紋認証処理ステップによって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
プレゼンテーション用アプリケーションのリモートコントロール方法。
コンピュータに、
音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第１の手順と、
プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、該音声認識の結果が、該プレゼンテーション用アプリケーションについて前記第１の手順で設定したいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する第２の手順とを実行させるための
プログラム。
請求項８に記載のプログラムにおいて、
供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第１の処理と、
前記第１の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第１の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第２の処理と、
前記第２の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第２の処理で特定した識別情報を有効なものと判断する第３の処理と
から成る声紋認証処理の手順をさらにコンピュータに実行させ、
前記第２の手順では、前記声紋認証処理の手順によって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
プログラム。
コンピュータに、
音声コマンドを示す情報がプレゼンテーション用アプリケーションの操作内容と対応付けて入力されたことに基づき、該プレゼンテーション用アプリケーションを音声によって操作するためのコマンドとして該音声コマンドを設定する音声コマンド設定処理を、プレゼンテーション用アプリケーション毎に行う手順であって、空欄部分を含んだ音声コマンドを示す情報が入力された場合にも、該音声コマンドをプレゼンテーション用アプリケーションを操作するための音声コマンドとして設定する第１の手順と、
プレゼンテーション用アプリケーションによってプレゼンテーションファイルが開かれた状態において、供給される音声データを音声認識エンジンで音声認識させ、該音声認識の結果が、該プレゼンテーション用アプリケーションについて前記第１の手順で設定したいずれかの音声コマンドに一致する場合に、該音声コマンドに対応付けられた前記操作内容の処理を、該プレゼンテーション用アプリケーションで該プレゼンテーションファイルに対して実行させる手順であって、開かれているプレゼンテーションファイルから、各ページ毎にメモの入力欄として用意された箇所に保存されている文字データをキーワードとして抽出し、該抽出したキーワードを前記空欄部分に追加する第２の手順とを実行させるプログラムを記録した
コンピュータ読み取り可能な記録媒体。
請求項１０に記載のコンピュータ読み取り可能な記録媒体において、
前記プログラムは、
供給される前記音声データから声紋の特徴を抽出して声紋モデルを生成する第１の処理と、
前記第１の処理で生成した声紋モデルと、予め各発話者の識別情報と対応付けて登録された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアを算出し、前記登録された声紋モデルのうち、前記第１の処理で生成した声紋モデルに最も近似する声紋モデルに対応する識別情報を特定する第２の処理と、
前記第２の処理で算出した照合スコアを順次閾値と比較し、照合スコアが閾値を越える場合には、前記第２の処理で特定した識別情報を有効なものと判断する第３の処理と
から成る声紋認証処理の手順をさらにコンピュータに実行させ、
前記第２の手順では、前記声紋認証処理の手順によって所定の発話者の識別情報が特定された場合にのみ前記プレゼンテーション用アプリケーションで処理を実行させる
コンピュータ読み取り可能な記録媒体。