JP2020047061A

JP2020047061A - 電子機器および制御方法

Info

Publication number: JP2020047061A
Application number: JP2018176127A
Authority: JP
Inventors: 碧中前; Midori Nakamae
Original assignee: Dynabook Inc
Current assignee: Dynabook Inc
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2020-03-26
Also published as: US11211067B2; US20200098359A1

Abstract

【課題】音声による操作の利便性を向上できる電子機器を提供する。【解決手段】ユーザが携行可能な電子機器は、接続手段と、取得手段と、音声認識手段とを具備する。接続手段は、電子機器をユーザが装着可能なウェアラブル機器に有線または無線で接続する。取得手段は、ウェアラブル機器から、ユーザによる発話を集音することによって得られた音声データを取得する。音声認識手段は、音声認識モードが第１モードに設定された場合、音声データから１つ以上の第１コマンドの１つを認識する処理を実行し、音声認識モードが第２モードに設定された場合、音声データから複数の第２コマンドの１つを認識する処理を実行し、音声認識モードが第３モードに設定された場合、音声データから複数の第３コマンドの１つを認識する処理を繰り返し実行する。【選択図】図７

Description

本発明の実施形態は、電子機器および制御方法に関する。

多くのモノがインターネットでつながるＩｏＴ時代となり、オフィス、工場、その他様々な場面において、ネットワークコミュニケーションや情報共有のツールとしてエッジコンピューティングと呼ばれる技術が求められている。このエッジコンピューティングを実現するために、データセンター（あるいはクラウド）とは別に作業者（ユーザ）がその場で使用可能な、高度の汎用性と処理能力を持つ実用的なモバイルエッジコンピューティングデバイス（ＭＥＣＤ）の開発が必要とされている。これにより、作業現場等での業務効率化や生産性向上、あるいは、データの負荷分散やネットワーク環境の改善等を図ることが期待される。

ＭＥＣＤのようなモバイル機器は、メガネ型やブレスレット型のような各種のウェアラブル機器と一緒に用いられることがある。モバイル機器とウェアラブル機器とは相互にデータを送受信し、これにより、例えば、ウェアラブル機器に設けられたカメラやセンサにより生成されたデータをモバイル機器が処理することができる。

特開２０１６−７６００７号公報

ところで、ユーザがモバイル機器を携行し、メガネ型やブレスレット型等の各種のウェアラブル機器を装着してハンズフリー作業を行う場合、マイクで集音したユーザによる発話の音声データを用いてモバイル機器やウェアラブル機器が操作されることがある。音声で操作できることにより、例えばキーボードやマウスのような入力デバイスをモバイル機器に接続して操作を行う必要がなく、ユーザによる作業を効率化できる。

スマートスピーカーのような音声認識装置では、例えば音声による操作のトリガーとなる特定の言葉（トリガーワード）が認識された後に、１つの命令が認識される。つまり、ユーザはトリガーワードを発話した後に１つの命令を発話できる。しかし、ユーザはトリガーワードを発話した後に複数の命令を連続して発話したい場合もある。

本発明が解決しようとする課題は、音声による操作の利便性を向上できる電子機器および制御方法を提供することである。

実施形態によれば、ユーザが携行可能な電子機器は、接続手段と、取得手段と、音声認識手段とを具備する。前記接続手段は、当該電子機器を前記ユーザが装着可能なウェアラブル機器に有線または無線で接続する。前記取得手段は、前記ウェアラブル機器から、前記ユーザによる発話を集音することによって得られた音声データを取得する。前記音声認識手段は、音声認識モードが第１モードに設定された場合、前記音声データから１つ以上の第１コマンドの１つを認識する処理を実行し、前記音声認識モードが第２モードに設定された場合、前記音声データから複数の第２コマンドの１つを認識する処理を実行し、前記音声認識モードが第３モードに設定された場合、前記音声データから複数の第３コマンドの１つを認識する処理を繰り返し実行する。

第１実施形態に係る電子機器（モバイルＰＣ）と当該電子機器に接続されるウェアラブルデバイスとの外観の例を示す斜視図。第１実施形態の電子機器の正面、側面、および上面の外観の例を示す図。第１実施形態の電子機器のシステム構成例を示すブロック図。図１のウェアラブルデバイスの外観の例を示す斜視図。図１のウェアラブルデバイスの本体の外観の例を示す斜視図。図１のウェアラブルデバイスの本体のシステム構成例を示すブロック図。第１実施形態の電子機器によって実行される音声制御プログラムの機能構成の例を示すブロック図。第１実施形態の電子機器における音声認識モードの遷移の例を示す図。第１実施形態の電子機器によって用いられるトリガーモード辞書データの一構成例を示す図。第１実施形態の電子機器によって用いられるシングルモード辞書データの一構成例を示す図。第１実施形態の電子機器によって用いられるマルチモード辞書データの一構成例を示す図。第１実施形態の電子機器によって実行される音声制御処理の手順の例を示すフローチャート。第１実施形態の電子機器によって実行されるトリガーモード認識処理の手順の例を示すフローチャート。第１実施形態の電子機器によって実行されるシングルモード認識処理の手順の例を示すフローチャート。第１実施形態の電子機器によって実行されるマルチモード認識処理の手順の例を示すフローチャート。図１のウェアラブルデバイスのディスプレイに表示される画面画像の例を示す図。第２実施形態の電子機器における音声認識モードの遷移の例を示す図。第２実施形態の電子機器によって用いられるトリガーモード辞書データの一構成例を示す図。第２実施形態の電子機器によって用いられるシングルモード辞書データの一構成例を示す図。第２実施形態の電子機器によって用いられるマルチモード辞書データの一構成例を示す図。第２実施形態の電子機器によって実行される音声制御処理の手順の例を示すフローチャート。

以下、実施の形態について図面を参照して説明する。なお、開示はあくまで一例にすぎず、以下の実施形態に記載した内容により発明が限定されるものではない。当業者が容易に想到し得る変形は、当然に開示の範囲に含まれる。説明をより明確にするため、図面において、各部分のサイズ、形状等を実際の実施態様に対して変更して模式的に表す場合もある。複数の図面において、対応する要素には同じ参照数字を付して、詳細な説明を省略する場合もある。

［制御システム］
まず、図１を参照して、一実施形態に係る電子機器を含む制御システム１の構成例を説明する。この電子機器はユーザが携行可能な電子機器であり、例えばモバイルエッジコンピューティングデバイス（ＭＥＣＤ）を含むモバイルパーソナルコンピュータ（ＰＣ）や、スマートフォン、携帯電話機、ＰＤＡ等の携帯情報端末として実現され得る。以下では、この電子機器がモバイルＰＣ２として実現される場合を例示する。

制御システム１はモバイルＰＣ２とウェアラブルデバイス３とから構成される。ユーザはモバイルＰＣ２を携行し、ウェアラブルデバイス３を装着する。ウェアラブルデバイス３は、ユーザの身体（例えば、腕、首、頭、等）に装着可能なウェアラブル機器である。ウェアラブルデバイス３としては、メガネ型、ブレスレット型、腕時計型、ヘッドフォン型等のウェアラブルデバイスを使用することができる。以下では、ウェアラブルデバイス３がメガネ型ウェアラブルデバイスである場合を例示する。

ウェアラブルデバイス３は、メガネフレーム１４２とウェアラブルデバイス本体４とを備える。メガネフレーム１４２は一般的なメガネからレンズを取り除いた形状でもよく、作業者の顔に装着される。メガネフレーム１４２はレンズが取り付けられる構造としてもよい。作業者がメガネを常用する場合、常用しているメガネと同様な度数のレンズがメガネフレーム１４２に取り付けられてもよい。

ウェアラブルデバイス本体４はメガネフレーム１４２のテンプルに沿った側面部２４１と作業者の一方の眼球の視線上に位置する前面部２４２とからなる。側面部２４１に対する前面部２４２の角度は調節可能である。

モバイルＰＣ２とウェアラブルデバイス３とは有線または無線により接続される。図１に示す例では、モバイルＰＣ２とウェアラブルデバイス３とはケーブル１４６により接続されている。このケーブル１４６は、例えばＵＳＢＴｙｐｅ−Ｃ（登録商標）規格のケーブルである。なお、モバイルＰＣ２とウェアラブルデバイス３とは、無線ＬＡＮやブルートゥース（登録商標）のような各種の無線通信方式で接続されてもよい。

図１に示すように、ウェアラブルデバイス本体４の側面部２４１の後端には、ケーブル１４６の一端のプラグ１４６Ａが挿入されるＵＳＢＴｙｐｅ−Ｃ規格のレセプタクル１３２が設けられる。ケーブル１４６の他端のプラグ１４６Ｂは、モバイルＰＣ２の上部端面に設けられるＵＳＢＴｙｐｅ−Ｃ規格のレセプタクル２０７に挿入される。このように、ウェアラブルデバイス本体４はＵＳＢＴｙｐｅ−Ｃ規格のケーブル１４６を介してモバイルＰＣ２に接続され、各種の信号がウェアラブルデバイス本体４とモバイルＰＣ２との間で伝送される。なお、プラグとレセプタクルとは設計等に応じて置き換え可能であり、総称してコネクタとも云う。また、ウェアラブルデバイス本体４とモバイルＰＣ２とは、無線ＬＡＮ、ブルートゥース等の無線通信によりデータを伝送してもよい。

本実施形態では、ウェアラブルデバイス本体４は駆動電源としてのバッテリまたはＤＣ端子を備えず、駆動電源はモバイルＰＣ２からＵＳＢＴｙｐｅ−Ｃケーブル１４６を介してウェアラブルデバイス本体４に供給される例を示す。しかし、ウェアラブルデバイス本体４が駆動電源を備えていてもよい。

［モバイルＰＣ２］
図２はモバイルＰＣ２の外観の一例を示す。モバイルＰＣ２は片手で把持可能な小型ＰＣであり、そのサイズは、幅が約１０ｃｍ以下、高さが約１８ｃｍ以下、厚さが２ｃｍ程度であり、重量は約３００ｇ程度と、小型で軽量である。このため、モバイルＰＣ２は作業着のポケット、ベルトに装着されるホルスタ、あるいはショルダーケースに収納でき、ウェアラブルである。モバイルＰＣ２は、ＣＰＵや半導体メモリ等の半導体チップやＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）等のストレージデバイスを内蔵するが、ディスプレイと文字入力用のハードウェアキーボードは備えない。

モバイルＰＣ２の正面にはアップボタン２０２ａ、ライトボタン２０２ｂ、ダウンボタン２０２ｃ、レフトボタン２０２ｄ、および決定ボタン（センターボタン、エンターボタンとも称する）２０２ｅからなるカーソルボタン２０２が配置され、その下に指紋センサ２０４が配置される。文字入力用のハードウェアキーボードが設けられておらず、暗証番号（ＰＩＮとも称する）を入力することができないので、指紋センサ２０４はモバイルＰＣ２にログインする際のユーザ認証のために用いられる。カーソルボタン２０２は特定の処理の実行命令を入力するために用いられ得る。

カーソルボタン２０２の操作方法はプログラムによって決められる。
例えば、
決定ボタン２０２ｅが１回押されると、項目の選択／項目の実行がなされ、
決定ボタン２０２ｅが長押しされると、終了または操作の取り消しがなされ、
アップボタン２０２ａが１回押されると、カーソルが上に移動され、
アップボタン２０２ａが長押しされると、起動中のアプリケーションの一覧が表示され、
ダウンボタン２０２ｃが１回押されると、カーソルが下に移動され、
ダウンボタン２０２ｃが長押しされると、クイックセッティングメニューが表示され、
レフトボタン２０２ｄが１回押されると、右のアイコンが選択され、
ライトボタン２０２ｂが１回押されると、左のアイコンが選択される。

モバイルＰＣ２の上部側面には、ＵＳＢ３．０規格のレセプタクル２０６とＵＳＢＴｙｐｅ−Ｃ規格のレセプタクル２０７とオーディオジャック２０８が設けられる。

モバイルＰＣ２の一方の側面（正面から見て左側の側面）には、メモリカード用のカードスロット２１８が設けられる。メモリカードは、例えばＳＤカード、マイクロＳＤカード（登録商標）等を含む。

モバイルＰＣ２の他方の側面（正面から見て右側の側面）には、ケンジントンロック（登録商標）のためのスロット２１０、電源スイッチ２１２、パワーＬＥＤ２１３、ＤＣＩＮ／バッテリＬＥＤ２１４、ＤＣ端子２１６、および冷却用の通風口２２２が設けられる。パワーＬＥＤ２１３は電源スイッチ２１２の近傍に配置され、電源オンの期間点灯する。ＤＣＩＮ／バッテリＬＥＤ２１４はバッテリが充電中であるか否か等のモバイルＰＣ２の状態とバッテリの残量を表示する。モバイルＰＣ２はバッテリで駆動可能であるが、ＤＣ端子２１６にＡＣアダプタを接続した状態でも駆動可能である。図示しないが、裏面はワンタッチでバッテリが交換可能に構成されている。

図３はモバイルＰＣ２のシステム構成例を示す。モバイルＰＣ２はシステムコントローラ３０２を備え、システムコントローラ３０２はプロセッサ（ＣＰＵ）とコントローラ・ハブからなる。プロセッサには、主メモリ３０８、ＢＩＯＳ−ＲＯＭ３１０、パワーＬＥＤ２１３、ＤＣＩＮ／バッテリＬＥＤ２１４、ＵＳＢコントローラ３２２が接続される。コントローラ・ハブには、フラッシュメモリ３２６、メモリカードコントローラ３２８、ＨＤＤまたはＳＳＤからなるストレージデバイス３３０、ＵＳＢ切替器３２４、オーディオコーデック３３４、３Ｇ／ＬＴＥ／ＧＰＳデバイス３３６、指紋センサ２０４、ＵＳＢ３．０レセプタクル２０６、ブルートゥース／無線ＬＡＮデバイス３４０、ＥＣ／ＫＢＣ３４４が接続される。

システムコントローラ３０２はストレージデバイス３３０から主メモリ３０８にロードされる様々なプログラムを実行する。システムコントローラ３０２は、これらプログラムに含まれる命令群を実行することによりモバイルＰＣ２内の各部の動作を制御する。

これらプログラムは、ＯＳ３０８Ａ、音声制御プログラム３０８Ｂ、および各種のアプリケーションプログラム３０８Ｃを含む。音声制御プログラム３０８Ｂは、モバイルＰＣ２およびウェアラブルデバイス３をユーザによって発話されたコマンドで制御するための機能を有する。音声制御プログラム３０８Ｂは、例えば、モバイルＰＣ２上で実行中であって、ユーザによって現在操作可能であるアクティブなアプリケーションプログラム（ホストアプリケーションプログラムとも称する）３０８Ｃに対して、ユーザによって発話された様々なコマンドを供給する。つまり、音声制御プログラム３０８Ｂはホストアプリケーションプログラム３０８Ｃと連携して動作する。コマンドは、例えば単語や簡易な文で構成される言葉であり、音声制御プログラム３０８Ｂによって用いられる辞書で規定されている。

オーディオコーデック３３４は、再生対象のデジタルの音声信号をアナログの音声信号に変換して、オーディオジャック２０８に供給する。また、オーディオコーデック３３４は、オーディオジャック２０８から入力されるアナログの音声信号をデジタルの音声信号に変換する。

メモリカードコントローラ３２８は、メモリカードスロット２１８に挿入されるメモリカード（例えばＳＤカード）にアクセスして、メモリカードに対するデータの読み書きを制御する。

ＵＳＢコントローラ３２２は、ＵＳＢＴｙｐｅ−Ｃレセプタクル２０７に接続されるプラグを有するＵＳＢＴｙｐｅ−Ｃケーブル、またはＵＳＢ３．０レセプタクル２０６に接続されるプラグを有するＵＳＢ３．０ケーブル（図示せず）に対するデータの送受信を制御する。ＵＳＢＴｙｐｅ−Ｃレセプタクル２０７には、ＵＳＢハブやポート拡張アダプタを接続することにより、ＵＳＢ、ＨＤＭＩ（登録商標）等のインターフェースを使用できる。

ブルートゥース／無線ＬＡＮデバイス３４０は、外部機器またはネットワークとの接続のためにブルートゥース規格の無線通信またはＩＥＥＥ８０２．１１規格の無線ＬＡＮ通信を実行する。なお、ネットワークとの接続は無線通信によらず、ＩＥＥＥ８０２．３規格の有線ＬＡＮ通信によってもよい。
指紋センサ２０４はモバイルＰＣ２が起動された際の指紋認証のために使用される。

ＥＣ／ＫＢＣ３４４には、サブプロセッサ３４６、電源スイッチ２１２およびカーソルボタン２０２が接続される。ＥＣ／ＫＢＣ３４４は、電源スイッチ２１２の操作に応じてモバイルＰＣ２をパワーオンまたはパワーオフする機能を有する。パワーオンおよびパワーオフの制御は、ＥＣ／ＫＢＣ３４４と電源回路３５０との協働動作によって実行される。ＥＣ／ＫＢＣ３４４はモバイルＰＣ２がパワーオフされている期間中も、バッテリ３５２またはＡＣアダプタ３５８からの電力によって動作する。電源回路３５０は、バッテリ３５２からの電力または外部電源として接続されるＡＣアダプタ３５８からの電力を用いて、各コンポーネントへ供給すべき電力を生成する。電源回路３５０は電圧レギュレータモジュール３５６を含み、電圧レギュレータモジュール３５６はシステムコントローラ３０２内のプロセッサに接続される。

なお、モバイルＰＣ２をウェアラブルデバイス本体４と別体として構成したが、モバイルＰＣ２をウェアラブルデバイス本体４内に組み込んで、両者を一体として構成してもよい。

［ウェアラブルデバイス３］
図４および図５を参照して、モバイルＰＣ２に接続されるウェアラブルデバイス３の外観の一例を説明する。上述したように、ウェアラブルデバイス３はメガネフレーム１４２とウェアラブルデバイス本体４とを備える。

メガネフレーム１４２は、ウェアラブルデバイス本体４が着脱される取付具１４４を左右のテンプルに備える。図４では、作業者の右側に位置するテンプルの取付具１４４はウェアラブルデバイス本体４に隠され、示されていない。ウェアラブルデバイス本体４はディスプレイ１２４を備え、作業者はディスプレイ１２４の画面を片目で見る。そのため、ウェアラブルデバイス本体４が各作業者の利き目側に取り付けられるように、取付具１４４は左右のテンプルに設けられている。

なお、ウェアラブルデバイス本体４は取付具１４４によりメガネフレーム１４２に着脱自在に取り付けられなくてもよく、ウェアラブルデバイス本体４がメガネフレーム１４２に固定された右眼用または左眼用のウェアラブルデバイス３であってもよい。さらに、ウェアラブルデバイス本体４を、メガネフレーム１４２ではなく、作業者の頭部に装用されるヘルメット、ゴーグル等に取り付けてもよい。

ウェアラブルデバイス本体４は、図５に示すその係合片１２８が取付具１４４の上下の枠内に押し込まれることにより、メガネフレーム１４２に取り付けられる。ウェアラブルデバイス本体４をメガネフレーム１４２から取り外す場合は、この係合片１２８が取付具１４４から引き抜かれる。

係合片１２８は、取付具１４４に取り付けられた状態において、取付具１４４内で前後に多少は移動可能である。そのため、作業者の焦点がディスプレイ１２４の画面に合うように、ウェアラブルデバイス本体４の前後位置が調整可能である。

さらに、取付具１４４はテンプルに直交する軸１４４Ａを中心に回転可能であり、ウェアラブルデバイス本体４がメガネフレーム１４２に取り付けられた後、ディスプレイ１２４が作業者の視線上に位置するように上下位置が調整可能である。取付具１４４の回転角度は９０度程度であり、取付具１４４を上方向に大きく回転することにより、ウェアラブルデバイス本体４をメガネフレーム１４２からはね上げることができる。これにより、ウェアラブルデバイス本体４により視野が邪魔され実物を見ることが困難な場合や、狭い場所でウェアラブルデバイス本体４が周囲の物体に干渉する場合でも、ウェアラブルデバイス３全体を顔から外すことおよび再装着することなく、ウェアラブルデバイス本体４を作業者の視野から一時的に外すことおよび戻すことができる。

［ウェアラブルデバイス本体４］
上述したように、ウェアラブルデバイス本体４はメガネフレーム１４２のテンプルに沿った側面部２４１と作業者の一方の眼球の視線上に位置する前面部２４２とからなる。側面部２４１に対する前面部２４２の角度は調節可能である。

図４に示すように、前面部２４２の外側表面にはカメラ１１６、フラッシュライト１１８、およびカメラＬＥＤ１２０が設けられる。フラッシュライト１１８は暗部の撮影時に発光する補助照明である。カメラＬＥＤ１２０は写真や動画の撮影時に点灯し、撮影対象者に撮影していることを認識させるためのものである。

右側のテンプルに取り付けられたウェアラブルデバイス本体４の側面部２４１の上側面に第１、第２、第３ボタン１０２、１０４、１０６が設けられる。なお、作業者の利き目が左眼の場合、ウェアラブルデバイス本体４は左側のテンプルに取り付けられる。右側に取り付けられるか左側に取り付けられるかで、ウェアラブルデバイス本体４の上下が反転するので、側面部２４１の上側面と下側面の両面に第１、第２、第３ボタン１０２、１０４、１０６が設けられてもよい。

側面部２４１の外側表面にはタッチパッド１１０、第４ボタン１０８、マイク１１２、および照度センサ１１４が設けられる。タッチパッド１１０と第４ボタン１０８は人差し指で操作可能である。ボタン１０２、１０４、１０６は、ウェアラブルデバイス本体４が右側に取り付けられた際、それぞれ人差し指、中指、薬指で操作可能な位置に配置される。

タッチパッド１１０は、その表面上で矢印に示すように作業者が指を上下前後に移動させたことを検出できるようにしている。この移動の検出は、指を接触したまま移動するドラッグの動きに加え指をさっと擦るフリックの動きも含む。タッチパッド１１０は、作業者の指の上下前後移動を検出すると、ウェアラブルデバイス本体４に対する特定の処理の実行命令を入力する。

第１〜第４ボタン１０２、１０４、１０６、１０８、タッチパッド１１０の操作方法はプログラムによって決められている。
例えば、
第３ボタン１０６が１回押されると、項目の選択／項目の実行がなされ（モバイルＰＣ２では、決定ボタン２０２ｅの１回押しに相当）、
第３ボタン１０６が長押しされると、起動中のアプリケーションの一覧が表示され（モバイルＰＣ２では、アップボタン２０２ａの長押しに相当）、
第２ボタン１０４が１回押されると、ホーム画面に戻り、
第２ボタン１０４が長押しされると、クイックセッティングメニューが表示され（モバイルＰＣ２では、ダウンボタン２０２ｃの長押しに相当）、
第１ボタン１０２が１回押されると、操作の取り消し（モバイルＰＣ２では、決定ボタン２０２ｅの１回押しに相当、あるいはキーボードのＥｓｃキーと同様の動作）が実行される。

タッチパッド１１０の操作に関しては、例えば、
上下にドラッグされると、カーソルが上下に移動され、
前にフリックされると、左のアイコンが選択され（連続してスクロール）（モバイルＰＣ２では、ライトボタン２０２ｂの１回押しに相当）、
後ろにフリックされると、右のアイコンが選択され（連続してスクロール）（モバイルＰＣ２では、レフトボタン２０２ｄの１回押しに相当）、
前にドラッグされると、左のアイコンが選択され（１項目ずつスクロール）（モバイルＰＣ２では、ライトボタン２０２ｂの１回押しに相当）、
後ろにドラッグされると、右のアイコンが選択され（１項目ずつスクロール）（モバイルＰＣ２では、レフトボタン２０２ｄの１回押しに相当）る。

第１ボタン１０２は人差し指、第２ボタン１０４は中指、第３ボタン１０６は薬指、第４ボタン１０８は小指で操作できるような位置に配置される。なお、第４ボタン１０８が側面部２４１の上部ではなく側面部２４１の外側表面に設けられるのは、スペースの関係上であり、第４ボタン１０８も第１〜第３ボタン１０２、１０４、１０６と同様に側面部２４１の上部に設けられてもよい。

ウェアラブルデバイス本体４のボタン１０２、１０４、１０６、１０８とタッチパッド１１０とを用いた操作は、上述したモバイルＰＣ２に設けられたカーソルボタン２０２でも同様の操作が可能である。ウェアラブルデバイス本体４のボタン１０２、１０４、１０６、１０８とタッチパッド１１０で操作している様子を作業者は視認することができないので、作業者によっては意図した操作ができるまでに慣れが必要な場合もある。また、ボタン１０２、１０４、１０６、１０８とタッチパッド１１０は小型であるので、操作しづらい場合もある。本実施形態では、モバイルＰＣ２のカーソルボタン２０２でも同じ操作ができるので、上記の懸念は解消できる。

照度センサ１１４はディスプレイ１２４の輝度（すなわち明るさ）を自動調整するために周囲の照度を検出する。

図５はウェアラブルデバイス本体４の裏面の外観を例示する。前面部２４２の内側には、例えばＬＣＤであるディスプレイ１２４が設けられる。側面部２４１の内側にはマイク１２６、スピーカ１３０、および係合片１２８が設けられる。マイク１２６は側面部２４１の前方に、スピーカ１３０および係合片１２８は側面部２４１の後方に、設けられる。スピーカ１３０の代わりにヘッドフォンが用いられてもよい。その場合、マイクとヘッドフォンがインカムとして一体的に設けられてもよい。

図６はウェアラブルデバイス本体４のシステム構成の一例を示す。ＵＳＢＴｙｐｅ−Ｃレセプタクル１３２はミキサ１６６に接続される。ディスプレイコントローラ１７０とＵＳＢハブ１６４はミキサ１６６の第１端子および第２端子にそれぞれ接続される。ディスプレイ１２４はディスプレイコントローラ１７０に接続される。カメラコントローラ１６８、オーディオコーデック１７２、およびセンサコントローラ１６２はＵＳＢハブ１６４に接続される。カメラ１１６とフラッシュライト１１８とカメラＬＥＤ１２０がカメラコントローラ１６８に接続される。マイク１１２、１２６からの音声信号がオーディオコーデック１７２に入力され、オーディオコーデック１７２からの音声信号がアンプ１７４を介してスピーカ１３０に入力される。

センサコントローラ１６２に、モーションセンサ（例えば、加速度／地磁気／重力／ジャイロセンサ等）１７６、照度センサ１１４、近接センサ１７８、タッチパッド１１０、第１〜第４ボタン１０２、１０４、１０６、１０８、およびＧＰＳセンサ１８０が接続される。センサコントローラ１６２はモーションセンサ１７６、照度センサ１１４、近接センサ１７８、タッチパッド１１０、第１〜第４ボタン１０２、１０４、１０６、１０８、およびＧＰＳセンサ１８０からの検出信号を処理して、モバイルＰＣ２へ命令やデータ等を供給する。図５には示していないが、モーションセンサ１７６および近接センサ１７８はウェアラブルデバイス本体４の内部に配置される。

モーションセンサ１７６はウェアラブルデバイス本体４の動き、向き、姿勢等を検出する。センサコントローラ１６２およびディスプレイコントローラ１７０は、モーションセンサ１７６によって検出された動き、向き、姿勢等に基づいてディスプレイ１２４に表示される画面画像の向きを自動的に調整する向きオート機能を有している。

近接センサ１７８は作業者の顔、指等の接近によりウェアラブルデバイス３の装着を検出する。

またセンサコントローラ１６２およびディスプレイコントローラ１７０は、照度センサ１１４によって検出された照度に基づき、ディスプレイ１２４の輝度を自動的に調整する輝度オート機能を有している。また、センサコントローラ１６２およびカメラコントローラ１６８は、照度センサ１１４によって検出された照度に基づき、フラッシュライト１１８のオンまたはオフを自動的に切り替えるＬＥＤライトオート機能を有している。

ところで、スマートスピーカーのような音声認識装置では、例えば音声による操作のトリガーとなる特定の言葉（トリガーワード）が認識された後に、１つの音声コマンド（命令）が認識される。つまり、ユーザはトリガーワードを発話した後に１つの音声コマンドを発話できる。しかし、ユーザはトリガーワードを発話した後に複数の音声コマンドを連続して発話したい場合もある。

ホストアプリケーションプログラム３０８ＣのＧＵＩを音声で操作する場合には、ＧＵＩに対して多数の操作が連続して行われることがある。例えばＧＵＩを含む画面において、音声による操作で、カーソルをあるオブジェクト（例えばボタン）上に移動させる場合、カーソルを一定量ずつ上下左右に移動させる操作が繰り返し行われ得る。このような状況において、操作のための音声コマンドを発話しようとする度に、事前にトリガーワードを発話しなければならないことは、ユーザにとって非常に煩雑である。連続して行われる複数の操作のための複数の音声コマンドを認識できる新たな機能の実現が必要とされる。

そのため本実施形態では、トリガーワードが認識された後に１つの音声コマンドだけを認識可能なシングルモードと、トリガーワードが認識された後に複数の音声コマンドを連続して認識可能なマルチモードとが設けられる。ユーザはこれから行おうとする操作の内容に応じて音声認識のモードを切り替えることができるので、音声による操作の利便性を向上できる。またモード毎に別々の辞書データが用いられることにより、音声データから認識される音声コマンドが各モードで認識されるべきコマンドだけに限定されるので、誤認識の発生や処理の遅延を低減できる。

図７は、モバイルＰＣ２上で実行される音声制御プログラム３０８Ｂの機能構成の例を示す。音声制御プログラム３０８Ｂは、辞書記憶領域５８に格納されている音声認識モード毎の複数の辞書データ５８１，５８２，５８３を用いて、音声データからユーザによって発話された内容を認識する。辞書記憶領域５８は、例えばストレージデバイス３３０等の不揮発性メモリ内に設けられている。

音声制御プログラム３０８Ｂは１つ以上のホストアプリケーションプログラム３０８Ｃと連携して動作する。音声制御プログラム３０８Ｂは、連携する特定のホストアプリケーションプログラム３０８Ｃに音声認識結果を示す情報を送出する。以下では、音声制御プログラム３０８Ｂと連携するホストアプリケーションプログラム３０８Ｃが、カメラ１１６を用いた撮影機能を有する場合を例示する。

音声制御プログラム３０８Ｂは、音声取得部５１、音声認識部５２、モード制御部５４、および辞書管理部５５を備える。

音声取得部５１は、例えばウェアラブルデバイス３から、ユーザによる発話を集音することによって得られた音声データを、ケーブル１４６等を介して取得する。音声データは、ウェアラブルデバイス３のマイク１１２，１２６等を用いて集音された音声の信号を、オーディオコーデック１７２によってアナログ−デジタル（ＡＤ）変換して得られた音声データである。また音声取得部５１は、モバイルＰＣ２のオーディオジャック２０８に接続されたマイク（図示せず）を用いて集音された音声の信号を、オーディオコーデック３３４によってＡＤ変換して得られた音声データを取得してもよい。音声データは、例えばユーザがモバイルＰＣ２およびウェアラブルデバイス３を使用している間、常時取得されている。音声データは音声ファイルであってもよい。

モード制御部５４は、音声制御プログラム３０８Ｂ（モバイルＰＣ２）の音声認識モードを制御する。モード制御部５４は、音声データから認識された音声コマンドに応じて、音声制御認識モードを、例えばトリガーモードとシングルモードとマルチモードのいずれかに設定する。

トリガーモードでは、関連付けられたトリガーモード辞書データ５８１に含まれる１つ以上のトリガーコマンド（トリガーワードとも称する）の１つを認識する処理が実行される。各トリガーコマンドは、例えば音声操作の開始を示す。シングルモードでは、関連付けられたシングルモード辞書データ５８２に含まれる複数の音声コマンドの１つを認識する処理が実行される。またマルチモードでは、関連付けられたマルチモード辞書データ５８３に含まれる複数の音声コマンドの１つを認識する処理が繰り返し（連続して）実行され得る。

なお、音声制御プログラム３０８Ｂはタイマ５３をさらに備えていてもよい。タイマ５３は、ある音声認識モードでのタイムアウトを検出する。タイマ５３には、例えばある音声認識モードに遷移してからタイムアウトが検出されるべきタイミングまでの時間が設定される。例えば音声認識モードがシングルモードに遷移してから閾値時間（例えば１０秒）が経過したことに応じて、タイマ５３によりタイムアウトが検出されてもよい。タイムアウトが検出されたことに応じて、音声認識モードは初期状態に戻る。初期状態の音声認識モードは例えばトリガーモードであるが、他のモードであってもよい。

図８は、モード制御部５４によって音声認識モードの遷移が制御される例を示す。初期状態では音声認識モードは、例えばトリガーモードＭ１に設定される。モード制御部５４は、音声データから認識されたコマンドの種類に応じて、以下のように音声認識モードを切り替える。
（Ａ１）モード制御部５４は、トリガーモードＭ１に設定された音声認識モードを、トリガーコマンド（すなわち音声操作開始を示す音声コマンド）が認識されたことに応じてシングルモードＭ２に切り替える。
（Ａ２）モード制御部５４は、シングルモードＭ２に設定された音声認識モードを、連続音声操作開始を示す音声コマンドが認識されたことに応じてマルチモードＭ３に切り替える。
（Ａ３）モード制御部５４は、シングルモードＭ２に設定された音声認識モードを、連続音声操作開始を示す音声コマンド以外の音声コマンドが認識されたことに応じて、あるいはタイムアウトに応じて、トリガーモードＭ１に切り替える。連続音声操作開始を示す音声コマンド以外の音声コマンドは、ホストアプリケーションプログラム３０８Ｃを操作するための音声コマンド（以下、ホスト操作コマンドとも称する）である。
（Ａ４）モード制御部５４は、マルチモードＭ３に設定された音声認識モードを、連続音声操作終了を示す音声コマンドが認識されたことに応じてトリガーモードＭ１に切り替える。
（Ａ５）モード制御部５４は、マルチモードＭ３に設定された音声認識モードを、連続音声操作終了を示す音声コマンド以外の音声コマンドが認識されている間、マルチモードＭ３に維持する。連続音声操作終了を示す音声コマンド以外の音声コマンドは、ホストアプリケーションプログラム３０８Ｃを操作するための音声コマンド（すなわちホスト操作コマンド）である。

図７に戻り、辞書管理部５５は、設定された音声認識モードに関連付けられた辞書データを辞書記憶領域５８から読み出し、音声認識部５２に供給する。すなわち音声認識モードがトリガーモードＭ１である場合、辞書管理部５５は辞書記憶領域５８からトリガーモード辞書データ５８１を読み出し、音声認識部５２に供給する。音声認識モードがシングルモードＭ２である場合、辞書管理部５５は辞書記憶領域５８からシングルモード辞書データ５８２を読み出し、音声認識部５２に供給する。音声認識モードがマルチモードＭ３である場合、辞書管理部５５は辞書記憶領域５８からマルチモード辞書データ５８３を読み出し、音声認識部５２に供給する。

トリガーモード辞書データ５８１は、トリガーモードＭ１で用いられる１つ以上のトリガーコマンドを音声認識するための辞書データである。シングルモード辞書データ５８２は、シングルモードＭ２で用いられる複数の音声コマンドを音声認識するための辞書データである。マルチモード辞書データ５８３は、マルチモードＭ３で用いられる複数の音声コマンドを音声認識するための辞書データである。

音声認識部５２は、モード制御部５４により設定された音声認識モードで、辞書管理部５５によって供給されたいずれかの辞書データ５８１，５８２，５８３を用いて、音声データに音声認識処理を施す。音声認識処理は、音声データに対する音響分析、特徴抽出、辞書データ５８１，５８２，５８３とのマッチング等を含む。音声データに音声認識処理を施すことにより、音声データに含まれるコマンドが得られる。音声認識部５２は、音声取得部５１によって常時取得されている音声データに対して、リアルタイムで音声認識処理を施すことができる。

音声認識部５２は、例えば音声データを解析して特徴量を算出し、算出された特徴量に、あるコマンドに対応する特徴量が含まれる場合に、音声データからそのコマンドが認識されたと判断する。あるいは音声認識部５２は、例えば文字単位の音素の特徴量を含む音素辞書データ（図示せず）を用いて、音素辞書データ内の特徴量と、音声データ内のある区間の音声パターンの特徴量とをマッチングすることにより、その区間の音声パターンに対応する文字（音素）を決定する。このようにして音声データ内の区間毎の音声パターンに対応する文字を順に決定し、決定された文字で構成される文字列があるコマンドの言葉を示す文字列と一致する場合に、音声認識部５２は音声データからそのコマンドが認識されたと判断してもよい。

音声認識モードがトリガーモードＭ１である場合、音声認識部５２は、トリガーモード辞書データ５８１に示される１つ以上のトリガーコマンドの１つを音声データから認識する処理を実行する。

音声認識モードがシングルモードＭ２である場合、音声認識部５２は、シングルモード辞書データ５８２に示される複数の音声コマンドの１つを音声データから認識する処理を実行する。つまり音声認識モードがシングルモードＭ２である間に、音声認識部５２は１つの音声コマンドだけを認識する。

音声認識部５２は、シングルモード辞書データ５８２に示される複数の音声コマンドの内、連続音声操作の開始を示す音声コマンド以外の音声コマンド（すなわちホスト操作コマンド）が認識された場合、その認識された音声コマンドを示す情報をホストアプリケーションプログラム３０８Ｃに送出する。ホストアプリケーションプログラム３０８Ｃは、この音声コマンドを示す情報に応じて動作する。

また、音声認識モードがマルチモードＭ３である場合、音声認識部５２は、マルチモード辞書データ５８３に示される複数の音声コマンドの１つを音声データから認識するための処理を繰り返し実行し得る。つまり音声認識モードがマルチモードＭ３である間に、音声認識部５２は複数の音声コマンドを認識し得る。認識される複数の音声認識コマンドには、同一の音声コマンドが含まれていてもよい（例えば「シャッターを押す」を示す音声コマンドが複数含まれていてもよい）し、異なる音声コマンドが含まれていてもよい。

音声認識部５２は、マルチモード辞書データ５８３に示される複数の音声コマンドの内、連続音声操作の終了を示す音声コマンド以外の音声コマンド（すなわちホスト操作コマンド）が認識された場合、その認識された音声コマンドを示す情報をホストアプリケーションプログラム３０８Ｃに送出する。ホストアプリケーションプログラム３０８Ｃは、この音声コマンドを示す情報に応じて動作する。

図９から図１１を参照して各辞書データ５８１，５８２，５８３の構成について説明する。

図９はトリガーモード辞書データ５８１の一構成例を示す。トリガーモード辞書データ５８１は、トリガーモードＭ１で用いられる１つ以上のトリガーコマンドに対応する１つ以上のレコードを含む。各レコードは、例えばトリガーコマンドＩＤのフィールドと内容のフィールドとを含む。

あるトリガーコマンドに対応するレコードにおいて、トリガーコマンドＩＤのフィールドはそのトリガーコマンドの識別情報を示す。内容のフィールドは、そのトリガーコマンドを音声入力するためにユーザが発話すべき内容を示す。

図９に示す例では、トリガーコマンドＩＤのフィールドに“トリガーコマンド１”が設定され、内容のフィールドに“音声操作開始”が設定されたレコード１−１が示されている。このレコード１−１に示されるトリガーコマンド１は、音声データから複数の音声コマンドの１つを認識する処理が実行されるシングルモードＭ２を開始するために用いられる。したがってトリガーコマンドは、音声認識モードを変更するためのモード変更コマンドであるとも云える。

図１０はシングルモード辞書データ５８２の一構成例を示す。シングルモード辞書データ５８２は、シングルモードＭ２で用いられる複数の音声コマンドに対応する複数のレコードを含む。各レコードは、例えばコマンドＩＤのフィールドと内容のフィールドとを含む。

ある音声コマンドに対応するレコードにおいて、コマンドＩＤのフィールドはその音声コマンドの識別情報を示す。内容のフィールドは、その音声コマンドを入力するためにユーザが発話すべき内容を示す。

図１０に示す例では、以下のレコードが示されている。
・コマンドＩＤのフィールドに“コマンド１”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード２−１
・コマンドＩＤのフィールドに“コマンド２”が設定され、内容のフィールドに“ズームする”が設定されたレコード２−２
・コマンドＩＤのフィールドに“コマンド３”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード２−３
・コマンドＩＤのフィールドに“コマンド４”が設定され、内容のフィールドに“連続音声操作開始”が設定されたレコード２−４

レコード２−１に示されるコマンド１は、カメラ１１６を用いた撮影により静止画像を取得する処理をホストアプリケーションプログラム３０８Ｃに実行させるために用いられる。レコード２−２に示されるコマンド２は、カメラ１１６のズームインのための処理をホストアプリケーションプログラム３０８Ｃに実行させるために用いられる。レコード２−３に示されるコマンド３は、カメラ１１６のズームアウトのための処理をホストアプリケーションプログラム３０８Ｃに実行させるために用いられる。レコード２−４に示されるコマンド４は、音声データから複数の音声コマンドの１つを認識する処理が繰り返し実行されるマルチモードＭ３を開始するために用いられる。

レコード２−１，２−２，２−３に示されるコマンド１，２，３は、ホストアプリケーションプログラム３０８Ｃに対する操作のために用いられるホスト操作コマンドである。一方、レコード２−４に示されるコマンド４は、音声認識モードの変更のために用いられるモード変更コマンドである。なお、各レコードには、対応するコマンドがホスト操作コマンドとモード変更コマンドのいずれであるかの種別を示すフィールドがさらに含まれていてもよい。例えばモード制御部５４は、認識された音声コマンドの種別に応じて音声認識モードの遷移を制御してもよい。

図１１はマルチモード辞書データ５８３の一構成例を示す。マルチモード辞書データ５８３は、マルチモードＭ３で用いられる複数の音声コマンドに対応する複数のレコードを含む。各レコードは、例えばコマンドＩＤのフィールドと内容のフィールドとを含む。

ある音声コマンドに対応するレコードにおいて、コマンドＩＤのフィールドはその音声コマンドの識別情報を示す。内容のフィールドはその音声コマンドを入力するためにユーザが発話すべき内容を示す。

図１１に示す例では、以下のレコードが示されている。
・コマンドＩＤのフィールドに“コマンド１”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード３−１
・コマンドＩＤのフィールドに“コマンド２”が設定され、内容のフィールドに“ズームする”が設定されたレコード３−２
・コマンドＩＤのフィールドに“コマンド３”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード３−３
・コマンドＩＤのフィールドに“コマンド５”が設定され、内容のフィールドに“連続音声操作終了”が設定されたレコード３−４

レコード３−１，３−２，３−３に示されるコマンド１，２，３は、図１０を参照して上述したシングルモード辞書データ５８２のレコード２−１，２−２，２−３に示されるコマンド１，２，３とそれぞれ同一である。したがって、レコード３−１，３−２，３−３に示されるコマンド１，２，３はホスト操作コマンドである。レコード３−４に示されるコマンド５は、音声データから複数の音声コマンドの１つを認識する処理が繰り返し実行されるマルチモードＭ３を終了するために用いられるモード変更コマンドである。なお、各レコードには、対応するコマンドがホスト操作コマンドとモード変更コマンドのいずれであるかの種別を示すフィールドがさらに含まれていてもよい。

トリガーモード辞書データ５８１は、予め規定されたものであってもよいし、作成または更新（例えば、変更、追加、削除等）されるものであってもよい。トリガーモード辞書データ５８１は、モバイルＰＣ２がサーバ等の外部機器から取得するファイル（例えばテキストファイル）を用いて作成または更新されてもよいし、ホストアプリケーションプログラム３０８Ｃ等のＧＵＩを用いたユーザによる操作に応じて作成または更新されてもよい。

辞書記憶領域５８には、モバイルＰＣ２上で実行される複数のアプリケーションプログラムにそれぞれ関連付けられる複数のシングルモード辞書データ５８２および複数のマルチモード辞書データ５８３が格納され得る。この場合、辞書管理部５５は、ユーザによって現在操作可能であるアクティブなアプリケーションプログラム（すなわちホストアプリケーションプログラム３０８Ｃ）を検出し、シングルモードＭ２ではそのアプリケーションプログラムに関連付けられたシングルモード辞書データ５８２を取得し、マルチモードＭ３ではそのアプリケーションプログラムに関連付けられたマルチモード辞書データ５８３を取得する。

シングルモード辞書データ５８２およびマルチモード辞書データ５８３は、予め規定されたものであってもよいし、作成または更新（例えば、変更、追加、削除等）されるものであってもよい。シングルモード辞書データ５８２およびマルチモード辞書データ５８３はそれぞれ、モバイルＰＣ２が外部機器から取得するファイルを用いて作成または更新されてもよいし、ホストアプリケーションプログラム３０８Ｃ等のＧＵＩを用いたユーザによる操作に応じて作成または更新されてもよい。

以上の構成により、ユーザが例えばトリガーコマンドを発話したことにより、音声認識モードがトリガーモードＭ１からシングルモードＭ２に切り替えられる。音声認識モードがシングルモードＭ２である間に、ユーザがシングルモード辞書データ５８２に示される音声コマンドのいずれかを発話したことに応じて、その音声コマンドに対応する動作がホストアプリケーションプログラム３０８Ｃによって行われると共に、音声認識モードがシングルモードＭ２からトリガーモードＭ１に戻る。

あるいはユーザがトリガーコマンドを発話し、続いて連続音声操作開始を示す音声コマンドを発話したことにより、音声認識モードがトリガーモードＭ１からシングルモードＭ２に切り替えられ、さらにシングルモードＭ２からマルチモードＭ３に切り替えられる。音声認識モードがマルチモードＭ３である間、ユーザはマルチモード辞書データ５８３に示される音声コマンドのいずれかの発話を繰り返し行い得る。音声コマンドのいずれかが発話される毎に、その音声コマンドに対応する動作がホストアプリケーションプログラム３０８Ｃによって行われる。音声認識モードがマルチモードＭ３である間に、ユーザが連続音声操作終了を示す音声コマンドを発話したならば、音声認識モードはトリガーモードＭ１に戻る。

より具体的な例として、カメラ１１６を用いた撮影で静止画像を取得する機能を有するホストアプリケーションプログラム３０８Ｃを、ユーザが音声で操作するシナリオ１およびシナリオ２について説明する。

（シナリオ１）
音声認識が開始されたとき、トリガーモードＭ１である音声認識モードで音声入力が待ち受けられる。ユーザが「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードＭ１からシングルモードＭ２に遷移する。次にユーザが「ズームする」と発話したことに応じて、ホストアプリケーションプログラム３０８Ｃはカメラ１１６のズームインのための処理を実行し、音声認識モードはトリガーモードＭ１に戻る。

そしてユーザが再度、「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードＭ１からシングルモードＭ２に再び遷移する。次にユーザが「シャッターを押す」と発話したことに応じて、ホストアプリケーションプログラム３０８Ｃはカメラ１１６を用いた撮影により静止画像を取得するための処理を実行し、音声認識モードはトリガーモードＭ１に戻る。

（シナリオ２）
音声認識が開始されたとき、トリガーモードＭ１である音声認識モードで音声入力が待ち受けられる。ユーザが「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードＭ１からシングルモードＭ２に遷移する。次にユーザが「連続音声操作開始」と発話したことに応じて、音声認識モードはシングルモードＭ２からマルチモードＭ３に遷移する。

その後、ユーザが「ズームする」と発話したことに応じて、ホストアプリケーションプログラム３０８Ｃはカメラ１１６のズームインのための処理を実行し、さらにユーザが「シャッターを押す」と発話したことに応じて、ホストアプリケーションプログラム３０８Ｃはカメラ１１６を用いた撮影により静止画像を取得するための処理を実行する。そしてユーザが「連続音声操作終了」と発話したことに応じて、音声認識モードはマルチモードＭ３からトリガーモードＭ１に戻る。

ホストアプリケーションプログラム３０８Ｃに対する操作のために、ユーザが複数の音声コマンドを連続して発話する状況では、シナリオ２のように、音声認識モードをマルチモードＭ３に切り替えてから、それら複数の音声コマンドが発話される。これにより、発話による操作を簡略化できる。

一方、ホストアプリケーションプログラム３０８Ｃに対する操作のために、ユーザが１つの音声コマンドだけを発話する状況では、シナリオ１のように、音声認識モードがシングルモードＭ２に切り替えられ、１つの音声コマンドが発話された後、トリガーモードＭ１に戻る。トリガーモードＭ１ではトリガーコマンドを待ち受けるための処理のみで済むので、ホストアプリケーションプログラム３０８Ｃの操作のための複数の音声コマンドを待ち受けるマルチモードＭ３に維持されるよりも処理量が低減され得る。

以上のように、各音声認識モードＭ１，Ｍ２，Ｍ３では、その音声認識モードで認識されるべきコマンドのみを含む辞書データ５８１，５８２，５８３が使用されるので、認識されるべき全てのコマンドを含む単一の辞書データが使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。また、マルチモードＭ３が設けられることにより、ユーザはホストアプリケーションプログラム３０８Ｃに対する操作のための１つの音声コマンドを発話する前に、毎回トリガーコマンドを発話する必要がない。ユーザがこれから行おうとする操作の内容に応じて、シングルモードＭ２とマルチモードＭ３とを使い分けることにより、ユーザによる操作の利便性を向上できる。

図１２から図１５のフローチャートを参照して、モバイルＰＣ２によって実行される音声制御処理の手順の例を説明する。

図１２に示すように、まずモバイルＰＣ２は音声認識モードをトリガーモードＭ１に設定し、使用する辞書をトリガーモード辞書データ５８１に設定する（ステップＳ１０１）。そしてモバイルＰＣ２は、トリガーモードＭ１での音声認識処理であるトリガーモード認識処理を実行する（ステップＳ１０２）。トリガーモード認識処理では、例えばウェアラブルデバイス３からモバイルＰＣ２に入力された音声データから、トリガーモード辞書データ５８１に登録された１つ以上のトリガーコマンドの１つが認識される。１つのトリガーコマンドが認識されたことに応じてトリガーモード認識処理は終了する。トリガーモード認識処理の具体的な手順については、図１３を参照して後述する。

ステップＳ１０２のトリガーモード認識処理が終了したならば、すなわち１つのトリガーコマンドが認識されたならば、モバイルＰＣ２は音声認識モードをシングルモードＭ２に設定し、使用する辞書をシングルモード辞書データ５８２に設定する（ステップＳ１０３）。そしてモバイルＰＣ２は、シングルモードＭ２での音声認識処理であるシングルモード認識処理を実行する（ステップＳ１０４）。シングルモード認識処理では、例えばウェアラブルデバイス３からモバイルＰＣ２に入力された音声データから、シングルモード辞書データ５８２に登録された複数の音声コマンドの１つが認識される。シングルモードＭ２の１つの音声コマンドが認識されたことに応じてシングルモード認識処理は終了する。シングルモード認識処理の具体的な手順については、図１４を参照して後述する。

ステップＳ１０４のシングルモード認識処理が終了したならば、モバイルＰＣ２は、シングルモード認識処理において連続音声操作開始を示す音声コマンドが認識されたか否かを判定する（ステップＳ１０５）。連続音声操作開始を示す音声コマンドが認識されていない場合（ステップＳ１０５のＮＯ）、モバイルＰＣ２は、シングルモード認識処理においてタイムアウトが検出されたか否かを判定する（ステップＳ１０６）。

タイムアウトが検出されていない場合（ステップＳ１０６のＮＯ）、モバイルＰＣ２は、シングルモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム３０８Ｃに送出する（ステップＳ１０７）。一方、タイムアウトが検出された場合（ステップＳ１０６のＹＥＳ）、ステップＳ１０１に戻り、トリガーモードＭ１での音声認識処理が再度開始される。

また連続音声操作開始を示す音声コマンドが認識された場合（ステップＳ１０５のＹＥＳ）、モバイルＰＣ２は音声認識モードをマルチモードＭ３に設定し、使用する辞書をマルチモード辞書データ５８３に設定する（ステップＳ１０８）。そしてモバイルＰＣ２は、マルチモードＭ３での音声認識処理であるマルチモード認識処理を実行する（ステップＳ１０９）。マルチモード認識処理では、例えばウェアラブルデバイス３からモバイルＰＣ２に入力された音声データから、マルチモード辞書データ５８３に登録された複数の音声コマンドの１つが認識される。マルチモードＭ３の１つの音声コマンドが認識されたことに応じてマルチモード認識処理は終了する。マルチモード認識処理の具体的な手順については、図１５を参照して後述する。

ステップＳ１０９のマルチモード認識処理が終了したならば、すなわちマルチモードＭ３の１つの音声コマンドが認識されたならば、モバイルＰＣ２は、マルチモード認識処理において連続音声操作終了を示す音声コマンドが認識されたか否かを判定する（ステップＳ１１０）。連続音声操作終了を示す音声コマンドが認識された場合（ステップＳ１１０のＹＥＳ）、ステップＳ１０１に戻り、トリガーモードＭ１での音声認識処理が再度開始される。

連続音声操作終了を示す音声コマンドが認識されていない場合（ステップＳ１１０のＮＯ）、モバイルＰＣ２は、マルチモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム３０８Ｃに送出し（ステップＳ１１１）、ステップＳ１０９に戻る。したがって、連続音声操作終了を示す音声コマンドが認識されるまで、連続してマルチモード認識処理が行われる。

以上により、トリガーモードＭ１で音声データからトリガーコマンドが認識された場合、シングルモードＭ２で１つの音声コマンドが認識される。認識された音声コマンドが、ホストアプリケーションプログラム３０８Ｃに関する操作のための音声コマンドであるならば、その音声コマンドを示す情報がホストアプリケーションプログラム３０８Ｃに送出され、一方、マルチモードＭ３を開始するための音声コマンドであるならば、音声データから連続的に音声コマンドが認識されるマルチモードＭ３が開始される。各音声認識モードでは、その音声認識モードで認識されるべきコマンドのみを含む辞書が使用されるので、認識されるべきコマンドを全て含む単一の辞書が使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。

図１３のフローチャートは、モバイルＰＣ２によって実行されるトリガーモード認識処理の手順の例を示す。このトリガーモード認識処理は、図１２を参照して上述した音声制御処理のステップＳ１０２に相当する。

まずモバイルＰＣ２は音声データが取得されたか否かを判定する（ステップＳ２１）。モバイルＰＣ２は、例えばウェアラブルデバイス３によって送出された音声データを、ケーブル１４６等を介して取得する。音声データが取得されていない場合（ステップＳ２１のＮＯ）、ステップＳ２１に戻り、音声データが取得されたか否かが再度判定される。

音声データが取得された場合（ステップＳ２１のＹＥＳ）、モバイルＰＣ２は、取得された音声データからトリガーモード辞書データ５８１に示されるトリガーコマンドを認識するための処理を行う（ステップＳ２２）。この処理では、例えば、音声データから特徴量が算出され、算出された特徴量に、トリガーモード辞書データ５８１に示されるあるトリガーコマンドに対応する特徴量が含まれる場合に、音声データからそのトリガーコマンドが認識されたと判断される。

モバイルＰＣ２は、音声データからトリガーコマンドが認識されたか否かを判定する（ステップＳ２３）。音声データからトリガーコマンドが認識されていない場合（ステップＳ２３のＮＯ）、ステップＳ２１に戻り、新たに取得される音声データからトリガーコマンドを認識するための処理が続行される。

一方、音声データからトリガーコマンドが認識された場合（ステップＳ２３のＹＥＳ）、モバイルＰＣ２は認識されたトリガーコマンドを示す認識結果を返し（ステップＳ２４）、処理を終了する。この認識結果は図１２の音声制御処理で用いられ得る。なお、音声制御処理において、トリガーモード辞書データ５８１に示されるトリガーコマンドの内のいずれが認識されたかを示す情報が必要でない場合には、ステップＳ２４は省略されてもよい。
以上により、音声データからトリガーコマンドを認識できる。

図１４のフローチャートは、モバイルＰＣ２によって実行されるシングルモード認識処理の手順の例を示す。このシングルモード認識処理は、図１２を参照して上述した音声制御処理のステップＳ１０４に相当する。

まずモバイルＰＣ２はタイマ５３を起動する（ステップＳ３１）。タイマ５３にはシングルモードＭ２のタイムアウトを検出すべき時間が設定されている。

次にモバイルＰＣ２は、音声データが取得されたか否かを判定する（ステップＳ３２）。音声データが取得された場合（ステップＳ３２のＹＥＳ）、モバイルＰＣ２は、取得された音声データからシングルモード辞書データ５８２に示される音声コマンドを認識するための処理を行う（ステップＳ３３）。この処理では、例えば、音声データから特徴量が算出され、算出された特徴量に、シングルモード辞書データ５８２に示される１つの音声コマンドに対応する特徴量が含まれる場合に、音声データからその音声コマンドが認識されたと判断される。

モバイルＰＣ２は、音声データから音声コマンドが認識されたか否かを判定する（ステップＳ３４）。音声データから音声コマンドが認識された場合（ステップ３４のＹＥＳ）、モバイルＰＣ２は認識された音声コマンドを示す認識結果を返し（ステップＳ３５）、処理を終了する。認識結果は、シングルモード辞書データ５８２に含まれるいずれかの音声コマンドを示し、図１２の音声制御処理で用いられる。

一方、音声データから音声コマンドが認識されていない場合（ステップＳ３４のＮＯ）、あるいは音声データが取得されていない場合（ステップＳ３２のＮＯ）、モバイルＰＣ２はタイマ５３によりタイムアウトが検出されたか否かを判定する（ステップＳ３６）。タイムアウトが検出されていない場合（ステップＳ３６のＮＯ）、ステップＳ３２に戻り、新たに取得される音声データから音声コマンドを認識するための処理が続行される。

タイムアウトが検出された場合（ステップＳ３６のＹＥＳ）、モバイルＰＣ２はタイムアウトを示す情報を返し（ステップＳ３７）、処理を終了する。タイムアウトを示す情報は、図１２の音声制御処理で用いられる。
以上により、音声データからシングルモードＭ２の音声コマンドを認識するか、シングルモードＭ２のタイムアウトを検出できる。

図１５のフローチャートは、モバイルＰＣ２によって実行されるマルチモード認識処理の手順の例を示す。このマルチモード認識処理は、図１２を参照して上述した音声制御処理のステップＳ１０９に相当する。

まずモバイルＰＣ２は音声データが取得されたか否かを判定する（ステップＳ４１）。音声データが取得されていない場合（ステップＳ４１のＮＯ）、ステップＳ４１に戻り、音声データが取得されたか否かが再度判定される。

音声データが取得された場合（ステップＳ４１のＹＥＳ）、モバイルＰＣ２は、取得された音声データからマルチモード辞書データ５８３に示される音声コマンドを認識するための処理を行う（ステップＳ４２）。この処理では、例えば音声データから特徴量が算出され、算出された特徴量に、マルチモード辞書データ５８３に示される１つの音声コマンドに対応する特徴量が含まれる場合に、音声データからその音声コマンドが認識されたと判断される。

モバイルＰＣ２は、音声データから音声コマンドが認識されたか否かを判定する（ステップＳ４３）。音声データから音声コマンドが認識されていない場合（ステップＳ４３のＮＯ）、ステップＳ４１に戻り、新たに取得される音声データから音声コマンドを認識するための処理が続行される。

一方、音声データから音声コマンドが認識された場合（ステップＳ４３のＹＥＳ）、モバイルＰＣ２は認識された音声コマンドを示す認識結果を返し（ステップＳ４４）、処理を終了する。この認識結果は、マルチモード辞書データ５８３に含まれるいずれかの音声コマンドを示し、図１２の音声制御処理で用いられる。
以上により、音声データからマルチモードＭ３の音声コマンドを認識できる。

図１６は、ウェアラブルデバイス３のディスプレイ１２４に表示されるホストアプリケーションプログラム３０８Ｃの画面画像６の例を示す。ここでは、ホストアプリケーションプログラム３０８Ｃがカメラ１１６を用いた撮影機能を有することを想定する。

画面画像６には、カメラ１１６によって撮影されている画像がリアルタイムで表示されるカメラビュー領域６１と、ホストアプリケーションプログラム３０８Ｃに対して使用可能な１つ以上の音声コマンドを示すコマンドリスト領域６２とが設けられている。コマンドリスト領域６２には、各音声コマンドについて、音声コマンドとして発話すべき言葉と、その音声コマンドに対応したホストアプリケーションプログラム３０８Ｃの動作とが示されている。

ユーザは、トリガーコマンドを発話した後、コマンドリスト領域６２に示されるいずれかの音声コマンドを発話することにより、当該音声コマンドを、ウェアラブルデバイス３のマイク１１２，１２６等を用いてモバイルＰＣ（音声制御プログラム３０８Ｂ）に入力できる。あるいはユーザは、トリガーコマンドを発話し、続いて“連続音声操作開始”を発話した後、コマンドリスト領域６２に示されるいずれかの音声コマンドを連続して発話することにより、複数の音声コマンドをモバイルＰＣ２に入力できる。

なお、画面画像６には、トリガーコマンド、連続音声操作を開始するための音声コマンドの内容（例えば発話すべき言葉）、連続音声操作を終了するための音声コマンドの内容等がさらに示されていてもよい。

（第２実施形態）
第１実施形態では、トリガーコマンドが認識されたことに応じて、音声認識モードがトリガーモードＭ１からシングルモードＭ２に遷移する。これに対して第２実施形態では、トリガーコマンドＭ１が認識されたことに応じて、音声認識モードがトリガーモードＭ１からシングルモードＭ２とマルチモードＭ３のいずれかに遷移する。

第２実施形態に係るモバイルＰＣ２およびウェアラブルデバイス３の構成は第１実施形態のモバイルＰＣ２およびウェアラブルデバイス３と同様であり、第２実施形態と第１実施形態とでは、モード制御部５４および音声認識部５２によって実行される処理の手順のみが異なる。以下、第１実施形態と異なる点のみを説明する。

モード制御部５４は、音声認識モードが初期状態としてトリガーモードＭ１に設定された場合、音声データから認識された１つのトリガーコマンドに応じて、音声認識モードをシングルモードＭ２とマルチモードＭ３のいずれかに切り替える。

図１７は、モード制御部５４によって音声認識モードの遷移が制御される例を示す。初期状態では音声認識モードは、例えばトリガーモードＭ１に設定される。モード制御部５４は、音声データから認識されたコマンドの種類に応じて、以下のように音声認識モードを切り替える。
（Ｂ１）モード制御部５４は、トリガーモードＭ１に設定された音声認識モードを、音声操作開始を示すトリガーコマンドが認識されたことに応じてシングルモードＭ２に切り替える。
（Ｂ２）モード制御部５４は、シングルモードＭ２に設定された音声認識モードを、ホストアプリケーションプログラム３０８Ｃを操作するための音声コマンド（すなわちホスト操作コマンド）が認識されたことに応じて、あるいはタイムアウトに応じて、トリガーモードＭ１に切り替える。
（Ｂ３）モード制御部５４は、トリガーモードＭ１に設定された音声認識モードを、連続音声操作開始を示すトリガーコマンドが認識されたことに応じてマルチモードＭ３に切り替える。
（Ｂ４）モード制御部５４は、マルチモードＭ３に設定された音声認識モードを、連続音声操作終了を示す音声コマンドが認識されたことに応じてトリガーモードＭ１に切り替える。
（Ｂ５）モード制御部５４は、マルチモードＭ３に設定された音声認識モードを、連続音声操作終了を示す音声コマンド以外の音声コマンドが認識されている間、マルチモードＭ３に維持する。連続音声操作終了を示す音声コマンド以外の音声コマンドは、ホストアプリケーションプログラム３０８Ｃを操作するための音声コマンド（すなわちホスト操作コマンド）である。

図１８から図２０を参照して、第２実施形態のモバイルＰＣ２で用いられるトリガーモード辞書データ５８１、シングルモード辞書データ５８２、およびマルチモード辞書データ５８３の構成についてそれぞれ説明する。

図１８はトリガーモード辞書データ５８１の一構成例を示す。図１８に示す例では、以下のレコードが示されている。
・コマンドＩＤのフィールドに“トリガーコマンド１”が設定され、内容のフィールドに“音声操作開始”が設定されたレコード５−１
・コマンドＩＤのフィールドに“トリガーコマンド２”が設定され、内容のフィールドに“連続音声操作開始”が設定されたレコード５−２

レコード５−１に示されるトリガーコマンド１は、音声データから複数の音声コマンドの１つを認識する処理が実行されるシングルモードＭ２を開始するために用いられる。またレコード５−２に示されるトリガーコマンド２は、音声データから複数の音声コマンドの１つを認識する処理が繰り返し実行されるマルチモードＭ３を開始するために用いられる。したがってトリガーコマンド１，２は、音声認識モードを変更するためのモード変更コマンドであるとも云える。

図１９はシングルモード辞書データ５８２の一構成例を示す。図１９に示す例では、以下のレコードが示されている。
・コマンドＩＤのフィールドに“コマンド１”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード６−１
・コマンドＩＤのフィールドに“コマンド２”が設定され、内容のフィールドに“ズームする”が設定されたレコード６−２
・コマンドＩＤのフィールドに“コマンド３”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード６−３

レコード６−１に示されるコマンド１は、カメラ１１６を用いた撮影により静止画像を取得する処理をホストアプリケーションプログラム３０８Ｃに実行させるために用いられる。レコード６−２に示されるコマンド２は、カメラ１１６のズームインのための処理をホストアプリケーションプログラム３０８Ｃに実行させるために用いられる。レコード６−３に示されるコマンド３は、カメラ１１６のズームアウトのための処理をホストアプリケーションプログラム３０８Ｃに実行させるために用いられる。レコード６−１，６−２，６−３に示されるコマンド１，２，３は、ホストアプリケーションプログラム３０８Ｃに対する操作のために用いられるホスト操作コマンドである。

このシングルモード辞書データ５８２には、モード変更コマンドは含まれていない。そのため音声認識部５２は、シングルモード辞書データ５８２に示される複数の音声コマンドの１つが認識された場合、その認識された音声コマンドを示す情報をホストアプリケーションプログラム３０８Ｃに送出する。

図２０はマルチモード辞書データ５８３の一構成例を示す。図２０に示す例では、以下のレコードが示されている。
・コマンドＩＤのフィールドに“コマンド１”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード７−１
・コマンドＩＤのフィールドに“コマンド２”が設定され、内容のフィールドに“ズームする”が設定されたレコード７−２
・コマンドＩＤのフィールドに“コマンド３”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード７−３
・コマンドＩＤのフィールドに“コマンド４”が設定され、内容のフィールドに“連続音声操作終了”が設定されたレコード７−４

レコード７−１，７−２，７−３に示されるコマンド１，２，３は、図１９を参照して上述したシングルモード辞書データ５８２のレコード７−１，７−２，７−３に示されるコマンド１，２，３とそれぞれ同一である。したがって、レコード７−１，７−２，７−３に示されるコマンド１，２，３はホスト操作コマンドである。レコード７−４に示されるコマンド４は、音声データから複数の音声コマンドの１つを認識する処理が繰り返し実行されるマルチモードＭ３を終了するために用いられるモード変更コマンドである。なお、各レコードには、対応するコマンドがホスト操作コマンドとモード変更コマンドのいずれであるかを示すフィールドがさらに含まれていてもよい。

以上の構成により、ユーザがトリガーコマンドである“音声操作開始”を発話したことにより、音声認識モードがトリガーモードＭ１からシングルモードＭ２に切り替えられる。音声認識モードがシングルモードＭ２である間に、ユーザがシングルモード辞書データ５８２に示される音声コマンドの１つを発話したことに応じて、その音声コマンドに対応する動作がホストアプリケーションプログラム３０８Ｃによって行われると共に、音声認識モードがシングルモードＭ２からトリガーモードＭ１に戻る。

また、ユーザがトリガーコマンドである“連続音声操作開始”を発話したことにより、音声認識モードがトリガーモードＭ１からマルチモードＭ３に切り替えられる。音声認識モードがマルチモードＭ３である間、ユーザはマルチモード辞書データ５８３に示される音声コマンドのいずれかの発話を繰り返し行い得る。音声コマンドのいずれかが発話される毎に、その音声コマンドに対応する動作がホストアプリケーションプログラム３０８Ｃによって行われる。音声認識モードがマルチモードＭ３である間に、ユーザが連続音声操作終了を示す音声コマンドを発話したならば、音声認識モードはトリガーモードＭ１に戻る。

より具体的な例として、カメラ１１６を用いた撮影で静止画像を取得する機能を有するホストアプリケーションプログラム３０８Ｃを、ユーザが音声で操作するシナリオ３およびシナリオ４を用いて説明する。

（シナリオ３）
音声認識が開始されたとき、トリガーモードＭ１である音声認識モードで音声入力が待ち受けられる。ユーザが「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードＭ１からシングルモードＭ２に遷移する。次にユーザが「ズームする」と発話したことに応じて、ホストアプリケーションプログラム３０８Ｃはカメラ１１６のズームインのための処理を実行し、音声認識モードはトリガーモードＭ１に戻る。

（シナリオ４）
音声認識が開始されたとき、トリガーモードＭ１である音声認識モードで音声入力が待ち受けられる。ユーザが「連続音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードＭ１からマルチモードＭ３に遷移する。

ホストアプリケーションプログラム３０８Ｃに対する操作のために、ユーザが複数の音声コマンドを連続して発話する状況では、シナリオ４のように、音声認識モードをマルチモードＭ３に切り替えてから、それら複数の音声コマンドが順次発話される。これにより、発話による操作を簡略化できる。

一方、ホストアプリケーションプログラム３０８Ｃに対する操作のために、ユーザが１つの音声コマンドだけを発話する状況では、シナリオ３のように、音声認識モードがシングルモードＭ２に切り替えられ、１つの音声コマンドが発話された後、トリガーモードＭ１に戻る。トリガーモードＭ１ではトリガーコマンドを待ち受けるための処理のみで済むので、ホストアプリケーションプログラム３０８Ｃの操作のための複数の音声コマンドを待ち受けるマルチモードＭ３に維持されるよりも処理量が低減され得る。

以上のように、各音声認識モードでは、その音声認識モードで認識されるべきコマンドのみを含む辞書データ５８１，５８２，５８３が使用されるので、認識されるべき全てのコマンドを含む単一の辞書データが使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。

図２１のフローチャートを参照して、モバイルＰＣ２によって実行される音声制御処理の手順の例を説明する。

まずモバイルＰＣ２は音声認識モードをトリガーモードＭ１に設定し、使用する辞書をトリガーモード辞書データ５８１に設定する（ステップＳ５０１）。そしてモバイルＰＣ２は、トリガーモードＭ１での音声認識処理であるトリガーモード認識処理を実行する（ステップＳ５０２）。トリガーモード認識処理では、例えばウェアラブルデバイス３からモバイルＰＣ２に入力された音声データから、トリガーモード辞書データ５８１に登録された１つ以上のトリガーコマンドの１つが認識される。１つのトリガーコマンドが認識されたことに応じてトリガーモード認識処理は終了する。トリガーモード認識処理の具体的な手順については、図１３のフローチャートを参照して上述した通りである。

ステップＳ５０２のトリガーモード認識処理が終了したならば、すなわち１つのトリガーコマンドが認識されたならば、モバイルＰＣ２はその認識されたトリガーコマンドに応じて処理を分岐する（ステップＳ５０３）。認識されたトリガーコマンドが音声操作開始を示すトリガーコマンドであるならば（ステップＳ５０３の音声操作開始）、モバイルＰＣ２は音声認識モードをシングルモードＭ２に設定し、使用する辞書をシングルモード辞書データ５８２に設定する（ステップＳ５０４）。そしてモバイルＰＣ２は、シングルモードＭ２での音声認識処理であるシングルモード認識処理を実行する（ステップＳ５０５）。シングルモード認識処理では、例えばウェアラブルデバイス３からモバイルＰＣ２に入力された音声データから、シングルモード辞書データ５８２に登録された複数の音声コマンドの１つが認識される。シングルモード認識処理の具体的な手順については、図１４のフローチャートを参照して上述した通りである。

ステップＳ５０５のシングルモード認識処理が終了したならば、モバイルＰＣ２はシングルモード認識処理においてタイムアウトが検出されたか否かを判定する（ステップＳ５０６）。タイムアウトが検出されていない場合（ステップＳ５０６のＮＯ）、モバイルＰＣ２は、シングルモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム３０８Ｃに送出する（ステップＳ５０７）。一方、タイムアウトが検出された場合（ステップＳ５０６のＹＥＳ）、ステップＳ５０１に戻り、トリガーモードＭ１での音声認識処理が再度開始される。

また、認識されたトリガーコマンドが連続音声操作開始を示す音声コマンドであるならば（ステップＳ５０３の連続音声操作開始）、モバイルＰＣ２は音声認識モードをマルチモードＭ３に設定し、使用する辞書をマルチモード辞書データ５８３に設定する（ステップＳ５０８）。そしてモバイルＰＣ２は、マルチモードＭ３での音声認識処理であるマルチモード認識処理を実行する（ステップＳ５０９）。マルチモード認識処理では、例えばウェアラブルデバイス３からモバイルＰＣ２に入力された音声データから、マルチモード辞書データ５８３に登録された複数の音声コマンドの１つが認識される。マルチモードＭ３の１つの音声コマンドが認識されたことに応じてマルチモード認識処理は終了する。マルチモード認識処理の具体的な手順については、図１５のフローチャートを参照して上述した通りである。

ステップＳ５０９のマルチモード認識処理が終了したならば、すなわちマルチモードＭ３の１つの音声コマンドが認識されたならば、モバイルＰＣ２はマルチモード認識処理において連続音声操作終了を示す音声コマンドが認識されたか否かを判定する（ステップＳ５１０）。連続音声操作終了を示す音声コマンドが認識された場合（ステップＳ５１０のＹＥＳ）、ステップＳ５０１に戻り、トリガーモードＭ１での音声認識処理が再度開始される。

連続音声操作終了を示す音声コマンドが認識されていない場合（ステップＳ５１０のＮＯ）、モバイルＰＣ２は、マルチモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム３０８Ｃに送出し（ステップＳ５１１）、ステップＳ５０９に戻る。したがって、連続音声操作終了を示す音声コマンドが認識されるまで、連続してマルチモード認識処理が行われる。

以上により、トリガーモードＭ１で音声データから音声操作開始を示すトリガーコマンドが認識された場合、シングルモードＭ２で１つの音声コマンドが認識される。そして認識された音声コマンドを示す情報がホストアプリケーションプログラム３０８Ｃに送出される。またトリガーモードＭ１で音声データから連続音声操作開始を示すトリガーコマンドが認識された場合、音声データから連続的に音声コマンドが認識されるマルチモードＭ３が開始される。各音声認識モードでは、その音声認識モードで認識されるべきコマンドのみを含む辞書が使用されるので、認識されるべきコマンドを全て含む辞書が使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。

以上説明したように第１および第２実施形態によれば、音声による操作の利便性を向上できる。ＵＳＢＴｙｐｅ−Ｃレセプタクル２０７、ブルートゥース／無線ＬＡＮデバイス等の接続部は、モバイルＰＣ２をユーザが装着可能なウェアラブルデバイス３に有線または無線で接続する。音声取得部５１は、ウェアラブルデバイス３から、ユーザによる発話を集音することによって得られた音声データを取得する。音声認識部５２は、音声認識モードがトリガーモードＭ１に設定された場合、音声データから１つ以上の第１コマンド（トリガーコマンド）の１つを認識する処理を実行し、音声認識モードがシングルモードＭ２に設定された場合、音声データから複数の第２コマンドの１つを認識する処理を実行し、音声認識モードがマルチモードＭ３に設定された場合、音声データから複数の第３コマンドの１つを認識する処理を繰り返し実行する。

各音声認識モードでは、音声データからその音声認識モードで使用可能なコマンドを認識するための処理が実行され、他の音声認識モードで使用可能なコマンドを認識するための処理は実行されないので、音声認識処理を高速化できると共に認識結果の精度を向上できる。また、マルチモードＭ３に設定された場合、ユーザはホストアプリケーションプログラム３０８Ｃに対する操作のための音声コマンドを連続して発話できる。したがって、ユーザがこれから行おうとする操作の内容に応じてシングルモードＭ２とマルチモードＭ３とを使い分けられるので、ユーザによる操作の利便性を向上できる。

第１および第２実施形態に記載された様々な機能の各々は、回路（処理回路）によって実現されてもよい。処理回路の例には、中央処理装置（ＣＰＵ）のような、プログラムされたプロセッサが含まれる。このプロセッサは、メモリに格納されたコンピュータプログラム（命令群）を実行することによって、記載された機能それぞれを実行する。このプロセッサは、電気回路を含むマイクロプロセッサであってもよい。処理回路の例には、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、マイクロコントローラ、コントローラ、他の電気回路部品も含まれる。第１および第２実施形態に記載されたＣＰＵ以外の他のコンポーネントの各々もまた処理回路によって実現されてもよい。

また、第１および第２実施形態の各種処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、第１および第２実施形態と同様の効果を容易に実現することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…制御システム、２…モバイルＰＣ、３…ウェアラブルデバイス、３０８Ａ…ＯＳ、３０８Ｂ…音声制御プログラム、３０８Ｃ…ホストアプリケーションプログラム、５１…音声取得部、５２…音声認識部、５３…タイマ、５４…モード制御部、５５…辞書管理部、５８…辞書記憶領域、５８１…トリガーモード辞書データ、５８２…シングルモード辞書データ、５８３…マルチモード辞書データ。

Claims

ユーザが携行可能な電子機器であって、
当該電子機器を前記ユーザが装着可能なウェアラブル機器に有線または無線で接続する接続手段と、
前記ウェアラブル機器から、前記ユーザによる発話を集音することによって得られた音声データを取得する取得手段と、
音声認識モードが第１モードに設定された場合、前記音声データから１つ以上の第１コマンドの１つを認識する処理を実行し、前記音声認識モードが第２モードに設定された場合、前記音声データから複数の第２コマンドの１つを認識する処理を実行し、前記音声認識モードが第３モードに設定された場合、前記音声データから複数の第３コマンドの１つを認識する処理を繰り返し実行する音声認識手段とを具備する電子機器。
前記音声認識モードが初期状態として前記第１モードに設定された場合、前記音声データから認識された前記第１コマンドの１つに応じて、前記音声認識モードを前記第２モードと前記第３モードのいずれかに切り替えるモード制御手段をさらに具備する請求項１記載の電子機器。
前記モード制御手段は、
前記音声データから、前記第１コマンドの１つが認識された場合、前記音声認識モードを前記第１モードから前記第２モードに切り替え、
前記音声データから、前記複数の第２コマンドに含まれる連続音声操作の開始を示す第４コマンドが認識された場合、前記音声認識モードを前記第２モードから前記第３モードに切り替え、
前記音声データから、前記複数の第２コマンドの内、前記第４コマンド以外の第６コマンドが認識された場合、前記音声認識モードを前記第２モードから前記第１モードに切り替え、
前記音声データから、前記複数の第３コマンドに含まれる連続音声操作の終了を示す第５コマンドが認識された場合、前記音声認識モードを前記第３モードから前記第１モードに切り替え、
前記音声データから、前記複数の第３コマンドの内、前記第５コマンド以外の第７コマンドが認識された場合、前記音声認識モードを前記第３モードに維持する請求項２記載の電子機器。
前記モード制御手段は、
前記音声データから、前記１つ以上の第１コマンドに含まれる音声操作の開始を示す第８コマンドが認識された場合、前記音声認識モードを前記第１モードから前記第２モードに切り替え、
前記音声データから、前記複数の第２コマンドの１つが認識された場合、前記音声認識モードを前記第２モードから前記第１モードに切り替え、
前記音声データから、前記１つ以上の第１コマンドに含まれる連続音声操作の開始を示す第４コマンドが認識された場合、前記音声認識モードを前記第１モードから前記第３モードに切り替え、
前記音声データから、前記複数の第３コマンドに含まれる連続音声操作の終了を示す第５コマンドが認識された場合、前記音声認識モードを前記第３モードから前記第１モードに切り替え、
前記音声データから、前記複数の第３コマンドの内、前記第５コマンド以外の第７コマンドが認識された場合、前記音声認識モードを前記第３モードに維持する請求項２記載の電子機器。
前記音声認識手段は、
前記音声認識モードが前記第１モードに設定された場合、前記１つ以上の第１コマンドを音声認識するための第１辞書データを用いて、前記音声データから前記１つ以上の第１コマンドの１つを認識する処理を実行し、
前記音声認識モードが前記第２モードに設定された場合、前記複数の第２コマンドを音声認識するための第２辞書データを用いて、前記音声データから前記複数の第２コマンドの１つを認識する処理を実行し、
前記音声認識モードが第３モードに設定された場合、前記複数の第３コマンドを音声認識するための第３辞書データを用いて、前記音声データから前記複数の第３コマンドの１つを認識する処理を繰り返し実行する請求項１乃至請求項４のいずれか一項に記載の電子機器。
前記第１辞書データは、音声操作の開始を示す第８コマンドを音声認識するためのデータで構成され、
前記第２辞書データは、連続音声操作の開始を示す第４コマンドと、前記電子機器上で実行されるアプリケーションプログラムに対する操作のための１つ以上の第６コマンドとを音声認識するためのデータで構成され、
前記第３辞書データは、連続音声操作の終了を示す第５コマンドと、前記アプリケーションプログラムに対する操作のための前記１つ以上の第７コマンドとを音声認識するためのデータで構成される請求項５記載の電子機器。
前記第１辞書データは、音声操作の開始を示す第８コマンドと、連続音声操作の開始を示す第４コマンドとを音声認識するためのデータで構成され、
前記第２辞書データは、前記電子機器上で実行されるアプリケーションプログラムに対する操作のための１つ以上の第６コマンドを音声認識するためのデータで構成され、
前記第３辞書データは、連続音声操作の終了を示す第５コマンドと、前記アプリケーションプログラムに対する操作のための前記１つ以上の第７コマンドとを音声認識するためのデータで構成される請求項５記載の電子機器。
前記音声認識手段は、さらに、
前記音声データから、前記複数の第２コマンドの内、連続音声操作の開始を示す第４コマンド以外の第６コマンドが認識された場合、前記第６コマンドを示す情報を前記電子機器上で実行されているアプリケーションプログラムに送出し、
前記音声データから、前記複数の第３コマンドの内、連続音声操作の終了を示す第５コマンド以外の第７コマンドが認識された場合、前記第７コマンドを示す情報を前記アプリケーションプログラムに送出する請求項１記載の電子機器。
前記音声認識手段は、さらに、
前記音声データから、前記複数の第２コマンドの内の第６コマンドが認識された場合、前記第６コマンドを示す情報を前記電子機器上で実行されるアプリケーションプログラムに送出し、
前記音声データから、前記複数の第３コマンドの内、連続音声操作の終了を示す第５コマンド以外の第７コマンドが認識された場合、前記第７コマンドを示す情報を前記アプリケーションプログラムに送出する請求項１記載の電子機器。
ユーザが携行可能な電子機器の制御方法であって、
当該電子機器を前記ユーザが装着可能なウェアラブル機器に有線または無線で接続し、
前記ウェアラブル機器から、前記ユーザによる発話を集音することによって得られた音声データを取得し、
音声認識モードが第１モードに設定された場合、前記音声データから１つ以上の第１コマンドの１つを認識する処理を実行し、前記音声認識モードが第２モードに設定された場合、前記音声データから複数の第２コマンドの１つを認識する処理を実行し、前記音声認識モードが第３モードに設定された場合、前記音声データから複数の第３コマンドの１つを認識する処理を繰り返し実行する制御方法。