JP2020047061A - 電子機器および制御方法 - Google Patents

電子機器および制御方法 Download PDF

Info

Publication number
JP2020047061A
JP2020047061A JP2018176127A JP2018176127A JP2020047061A JP 2020047061 A JP2020047061 A JP 2020047061A JP 2018176127 A JP2018176127 A JP 2018176127A JP 2018176127 A JP2018176127 A JP 2018176127A JP 2020047061 A JP2020047061 A JP 2020047061A
Authority
JP
Japan
Prior art keywords
mode
voice
command
commands
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018176127A
Other languages
English (en)
Inventor
碧 中前
Midori Nakamae
碧 中前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dynabook Inc
Original Assignee
Dynabook Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dynabook Inc filed Critical Dynabook Inc
Priority to JP2018176127A priority Critical patent/JP2020047061A/ja
Priority to US16/396,541 priority patent/US11211067B2/en
Publication of JP2020047061A publication Critical patent/JP2020047061A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声による操作の利便性を向上できる電子機器を提供する。【解決手段】ユーザが携行可能な電子機器は、接続手段と、取得手段と、音声認識手段とを具備する。接続手段は、電子機器をユーザが装着可能なウェアラブル機器に有線または無線で接続する。取得手段は、ウェアラブル機器から、ユーザによる発話を集音することによって得られた音声データを取得する。音声認識手段は、音声認識モードが第1モードに設定された場合、音声データから1つ以上の第1コマンドの1つを認識する処理を実行し、音声認識モードが第2モードに設定された場合、音声データから複数の第2コマンドの1つを認識する処理を実行し、音声認識モードが第3モードに設定された場合、音声データから複数の第3コマンドの1つを認識する処理を繰り返し実行する。【選択図】図7

Description

本発明の実施形態は、電子機器および制御方法に関する。
多くのモノがインターネットでつながるIoT時代となり、オフィス、工場、その他様々な場面において、ネットワークコミュニケーションや情報共有のツールとしてエッジコンピューティングと呼ばれる技術が求められている。このエッジコンピューティングを実現するために、データセンター(あるいはクラウド)とは別に作業者(ユーザ)がその場で使用可能な、高度の汎用性と処理能力を持つ実用的なモバイルエッジコンピューティングデバイス(MECD)の開発が必要とされている。これにより、作業現場等での業務効率化や生産性向上、あるいは、データの負荷分散やネットワーク環境の改善等を図ることが期待される。
MECDのようなモバイル機器は、メガネ型やブレスレット型のような各種のウェアラブル機器と一緒に用いられることがある。モバイル機器とウェアラブル機器とは相互にデータを送受信し、これにより、例えば、ウェアラブル機器に設けられたカメラやセンサにより生成されたデータをモバイル機器が処理することができる。
特開2016−76007号公報
ところで、ユーザがモバイル機器を携行し、メガネ型やブレスレット型等の各種のウェアラブル機器を装着してハンズフリー作業を行う場合、マイクで集音したユーザによる発話の音声データを用いてモバイル機器やウェアラブル機器が操作されることがある。音声で操作できることにより、例えばキーボードやマウスのような入力デバイスをモバイル機器に接続して操作を行う必要がなく、ユーザによる作業を効率化できる。
スマートスピーカーのような音声認識装置では、例えば音声による操作のトリガーとなる特定の言葉(トリガーワード)が認識された後に、1つの命令が認識される。つまり、ユーザはトリガーワードを発話した後に1つの命令を発話できる。しかし、ユーザはトリガーワードを発話した後に複数の命令を連続して発話したい場合もある。
本発明が解決しようとする課題は、音声による操作の利便性を向上できる電子機器および制御方法を提供することである。
実施形態によれば、ユーザが携行可能な電子機器は、接続手段と、取得手段と、音声認識手段とを具備する。前記接続手段は、当該電子機器を前記ユーザが装着可能なウェアラブル機器に有線または無線で接続する。前記取得手段は、前記ウェアラブル機器から、前記ユーザによる発話を集音することによって得られた音声データを取得する。前記音声認識手段は、音声認識モードが第1モードに設定された場合、前記音声データから1つ以上の第1コマンドの1つを認識する処理を実行し、前記音声認識モードが第2モードに設定された場合、前記音声データから複数の第2コマンドの1つを認識する処理を実行し、前記音声認識モードが第3モードに設定された場合、前記音声データから複数の第3コマンドの1つを認識する処理を繰り返し実行する。
第1実施形態に係る電子機器(モバイルPC)と当該電子機器に接続されるウェアラブルデバイスとの外観の例を示す斜視図。 第1実施形態の電子機器の正面、側面、および上面の外観の例を示す図。 第1実施形態の電子機器のシステム構成例を示すブロック図。 図1のウェアラブルデバイスの外観の例を示す斜視図。 図1のウェアラブルデバイスの本体の外観の例を示す斜視図。 図1のウェアラブルデバイスの本体のシステム構成例を示すブロック図。 第1実施形態の電子機器によって実行される音声制御プログラムの機能構成の例を示すブロック図。 第1実施形態の電子機器における音声認識モードの遷移の例を示す図。 第1実施形態の電子機器によって用いられるトリガーモード辞書データの一構成例を示す図。 第1実施形態の電子機器によって用いられるシングルモード辞書データの一構成例を示す図。 第1実施形態の電子機器によって用いられるマルチモード辞書データの一構成例を示す図。 第1実施形態の電子機器によって実行される音声制御処理の手順の例を示すフローチャート。 第1実施形態の電子機器によって実行されるトリガーモード認識処理の手順の例を示すフローチャート。 第1実施形態の電子機器によって実行されるシングルモード認識処理の手順の例を示すフローチャート。 第1実施形態の電子機器によって実行されるマルチモード認識処理の手順の例を示すフローチャート。 図1のウェアラブルデバイスのディスプレイに表示される画面画像の例を示す図。 第2実施形態の電子機器における音声認識モードの遷移の例を示す図。 第2実施形態の電子機器によって用いられるトリガーモード辞書データの一構成例を示す図。 第2実施形態の電子機器によって用いられるシングルモード辞書データの一構成例を示す図。 第2実施形態の電子機器によって用いられるマルチモード辞書データの一構成例を示す図。 第2実施形態の電子機器によって実行される音声制御処理の手順の例を示すフローチャート。
以下、実施の形態について図面を参照して説明する。なお、開示はあくまで一例にすぎず、以下の実施形態に記載した内容により発明が限定されるものではない。当業者が容易に想到し得る変形は、当然に開示の範囲に含まれる。説明をより明確にするため、図面において、各部分のサイズ、形状等を実際の実施態様に対して変更して模式的に表す場合もある。複数の図面において、対応する要素には同じ参照数字を付して、詳細な説明を省略する場合もある。
[制御システム]
まず、図1を参照して、一実施形態に係る電子機器を含む制御システム1の構成例を説明する。この電子機器はユーザが携行可能な電子機器であり、例えばモバイルエッジコンピューティングデバイス(MECD)を含むモバイルパーソナルコンピュータ(PC)や、スマートフォン、携帯電話機、PDA等の携帯情報端末として実現され得る。以下では、この電子機器がモバイルPC2として実現される場合を例示する。
制御システム1はモバイルPC2とウェアラブルデバイス3とから構成される。ユーザはモバイルPC2を携行し、ウェアラブルデバイス3を装着する。ウェアラブルデバイス3は、ユーザの身体(例えば、腕、首、頭、等)に装着可能なウェアラブル機器である。ウェアラブルデバイス3としては、メガネ型、ブレスレット型、腕時計型、ヘッドフォン型等のウェアラブルデバイスを使用することができる。以下では、ウェアラブルデバイス3がメガネ型ウェアラブルデバイスである場合を例示する。
ウェアラブルデバイス3は、メガネフレーム142とウェアラブルデバイス本体4とを備える。メガネフレーム142は一般的なメガネからレンズを取り除いた形状でもよく、作業者の顔に装着される。メガネフレーム142はレンズが取り付けられる構造としてもよい。作業者がメガネを常用する場合、常用しているメガネと同様な度数のレンズがメガネフレーム142に取り付けられてもよい。
ウェアラブルデバイス本体4はメガネフレーム142のテンプルに沿った側面部241と作業者の一方の眼球の視線上に位置する前面部242とからなる。側面部241に対する前面部242の角度は調節可能である。
モバイルPC2とウェアラブルデバイス3とは有線または無線により接続される。図1に示す例では、モバイルPC2とウェアラブルデバイス3とはケーブル146により接続されている。このケーブル146は、例えばUSB Type−C(登録商標)規格のケーブルである。なお、モバイルPC2とウェアラブルデバイス3とは、無線LANやブルートゥース(登録商標)のような各種の無線通信方式で接続されてもよい。
図1に示すように、ウェアラブルデバイス本体4の側面部241の後端には、ケーブル146の一端のプラグ146Aが挿入されるUSB Type−C規格のレセプタクル132が設けられる。ケーブル146の他端のプラグ146Bは、モバイルPC2の上部端面に設けられるUSB Type−C規格のレセプタクル207に挿入される。このように、ウェアラブルデバイス本体4はUSB Type−C規格のケーブル146を介してモバイルPC2に接続され、各種の信号がウェアラブルデバイス本体4とモバイルPC2との間で伝送される。なお、プラグとレセプタクルとは設計等に応じて置き換え可能であり、総称してコネクタとも云う。また、ウェアラブルデバイス本体4とモバイルPC2とは、無線LAN、ブルートゥース等の無線通信によりデータを伝送してもよい。
本実施形態では、ウェアラブルデバイス本体4は駆動電源としてのバッテリまたはDC端子を備えず、駆動電源はモバイルPC2からUSB Type−Cケーブル146を介してウェアラブルデバイス本体4に供給される例を示す。しかし、ウェアラブルデバイス本体4が駆動電源を備えていてもよい。
[モバイルPC2]
図2はモバイルPC2の外観の一例を示す。モバイルPC2は片手で把持可能な小型PCであり、そのサイズは、幅が約10cm以下、高さが約18cm以下、厚さが2cm程度であり、重量は約300g程度と、小型で軽量である。このため、モバイルPC2は作業着のポケット、ベルトに装着されるホルスタ、あるいはショルダーケースに収納でき、ウェアラブルである。モバイルPC2は、CPUや半導体メモリ等の半導体チップやSSD(Solid State Disk)等のストレージデバイスを内蔵するが、ディスプレイと文字入力用のハードウェアキーボードは備えない。
モバイルPC2の正面にはアップボタン202a、ライトボタン202b、ダウンボタン202c、レフトボタン202d、および決定ボタン(センターボタン、エンターボタンとも称する)202eからなるカーソルボタン202が配置され、その下に指紋センサ204が配置される。文字入力用のハードウェアキーボードが設けられておらず、暗証番号(PINとも称する)を入力することができないので、指紋センサ204はモバイルPC2にログインする際のユーザ認証のために用いられる。カーソルボタン202は特定の処理の実行命令を入力するために用いられ得る。
カーソルボタン202の操作方法はプログラムによって決められる。
例えば、
決定ボタン202eが1回押されると、項目の選択/項目の実行がなされ、
決定ボタン202eが長押しされると、終了または操作の取り消しがなされ、
アップボタン202aが1回押されると、カーソルが上に移動され、
アップボタン202aが長押しされると、起動中のアプリケーションの一覧が表示され、
ダウンボタン202cが1回押されると、カーソルが下に移動され、
ダウンボタン202cが長押しされると、クイックセッティングメニューが表示され、
レフトボタン202dが1回押されると、右のアイコンが選択され、
ライトボタン202bが1回押されると、左のアイコンが選択される。
モバイルPC2の上部側面には、USB3.0規格のレセプタクル206とUSB Type−C規格のレセプタクル207とオーディオジャック208が設けられる。
モバイルPC2の一方の側面(正面から見て左側の側面)には、メモリカード用のカードスロット218が設けられる。メモリカードは、例えばSDカード、マイクロSDカード(登録商標)等を含む。
モバイルPC2の他方の側面(正面から見て右側の側面)には、ケンジントンロック(登録商標)のためのスロット210、電源スイッチ212、パワーLED213、DC IN/バッテリLED214、DC端子216、および冷却用の通風口222が設けられる。パワーLED213は電源スイッチ212の近傍に配置され、電源オンの期間点灯する。DC IN/バッテリLED214はバッテリが充電中であるか否か等のモバイルPC2の状態とバッテリの残量を表示する。モバイルPC2はバッテリで駆動可能であるが、DC端子216にACアダプタを接続した状態でも駆動可能である。図示しないが、裏面はワンタッチでバッテリが交換可能に構成されている。
図3はモバイルPC2のシステム構成例を示す。モバイルPC2はシステムコントローラ302を備え、システムコントローラ302はプロセッサ(CPU)とコントローラ・ハブからなる。プロセッサには、主メモリ308、BIOS−ROM310、パワーLED213、DC IN/バッテリLED214、USBコントローラ322が接続される。コントローラ・ハブには、フラッシュメモリ326、メモリカードコントローラ328、HDDまたはSSDからなるストレージデバイス330、USB切替器324、オーディオコーデック334、3G/LTE/GPSデバイス336、指紋センサ204、USB3.0レセプタクル206、ブルートゥース/無線LANデバイス340、EC/KBC344が接続される。
システムコントローラ302はストレージデバイス330から主メモリ308にロードされる様々なプログラムを実行する。システムコントローラ302は、これらプログラムに含まれる命令群を実行することによりモバイルPC2内の各部の動作を制御する。
これらプログラムは、OS308A、音声制御プログラム308B、および各種のアプリケーションプログラム308Cを含む。音声制御プログラム308Bは、モバイルPC2およびウェアラブルデバイス3をユーザによって発話されたコマンドで制御するための機能を有する。音声制御プログラム308Bは、例えば、モバイルPC2上で実行中であって、ユーザによって現在操作可能であるアクティブなアプリケーションプログラム(ホストアプリケーションプログラムとも称する)308Cに対して、ユーザによって発話された様々なコマンドを供給する。つまり、音声制御プログラム308Bはホストアプリケーションプログラム308Cと連携して動作する。コマンドは、例えば単語や簡易な文で構成される言葉であり、音声制御プログラム308Bによって用いられる辞書で規定されている。
オーディオコーデック334は、再生対象のデジタルの音声信号をアナログの音声信号に変換して、オーディオジャック208に供給する。また、オーディオコーデック334は、オーディオジャック208から入力されるアナログの音声信号をデジタルの音声信号に変換する。
メモリカードコントローラ328は、メモリカードスロット218に挿入されるメモリカード(例えばSDカード)にアクセスして、メモリカードに対するデータの読み書きを制御する。
USBコントローラ322は、USB Type−Cレセプタクル207に接続されるプラグを有するUSB Type−Cケーブル、またはUSB3.0レセプタクル206に接続されるプラグを有するUSB3.0ケーブル(図示せず)に対するデータの送受信を制御する。USB Type−Cレセプタクル207には、USBハブやポート拡張アダプタを接続することにより、USB、HDMI(登録商標)等のインターフェースを使用できる。
ブルートゥース/無線LANデバイス340は、外部機器またはネットワークとの接続のためにブルートゥース規格の無線通信またはIEEE802.11規格の無線LAN通信を実行する。なお、ネットワークとの接続は無線通信によらず、IEEE802.3規格の有線LAN通信によってもよい。
指紋センサ204はモバイルPC2が起動された際の指紋認証のために使用される。
EC/KBC344には、サブプロセッサ346、電源スイッチ212およびカーソルボタン202が接続される。EC/KBC344は、電源スイッチ212の操作に応じてモバイルPC2をパワーオンまたはパワーオフする機能を有する。パワーオンおよびパワーオフの制御は、EC/KBC344と電源回路350との協働動作によって実行される。EC/KBC344はモバイルPC2がパワーオフされている期間中も、バッテリ352またはACアダプタ358からの電力によって動作する。電源回路350は、バッテリ352からの電力または外部電源として接続されるACアダプタ358からの電力を用いて、各コンポーネントへ供給すべき電力を生成する。電源回路350は電圧レギュレータモジュール356を含み、電圧レギュレータモジュール356はシステムコントローラ302内のプロセッサに接続される。
なお、モバイルPC2をウェアラブルデバイス本体4と別体として構成したが、モバイルPC2をウェアラブルデバイス本体4内に組み込んで、両者を一体として構成してもよい。
[ウェアラブルデバイス3]
図4および図5を参照して、モバイルPC2に接続されるウェアラブルデバイス3の外観の一例を説明する。上述したように、ウェアラブルデバイス3はメガネフレーム142とウェアラブルデバイス本体4とを備える。
メガネフレーム142は、ウェアラブルデバイス本体4が着脱される取付具144を左右のテンプルに備える。図4では、作業者の右側に位置するテンプルの取付具144はウェアラブルデバイス本体4に隠され、示されていない。ウェアラブルデバイス本体4はディスプレイ124を備え、作業者はディスプレイ124の画面を片目で見る。そのため、ウェアラブルデバイス本体4が各作業者の利き目側に取り付けられるように、取付具144は左右のテンプルに設けられている。
なお、ウェアラブルデバイス本体4は取付具144によりメガネフレーム142に着脱自在に取り付けられなくてもよく、ウェアラブルデバイス本体4がメガネフレーム142に固定された右眼用または左眼用のウェアラブルデバイス3であってもよい。さらに、ウェアラブルデバイス本体4を、メガネフレーム142ではなく、作業者の頭部に装用されるヘルメット、ゴーグル等に取り付けてもよい。
ウェアラブルデバイス本体4は、図5に示すその係合片128が取付具144の上下の枠内に押し込まれることにより、メガネフレーム142に取り付けられる。ウェアラブルデバイス本体4をメガネフレーム142から取り外す場合は、この係合片128が取付具144から引き抜かれる。
係合片128は、取付具144に取り付けられた状態において、取付具144内で前後に多少は移動可能である。そのため、作業者の焦点がディスプレイ124の画面に合うように、ウェアラブルデバイス本体4の前後位置が調整可能である。
さらに、取付具144はテンプルに直交する軸144Aを中心に回転可能であり、ウェアラブルデバイス本体4がメガネフレーム142に取り付けられた後、ディスプレイ124が作業者の視線上に位置するように上下位置が調整可能である。取付具144の回転角度は90度程度であり、取付具144を上方向に大きく回転することにより、ウェアラブルデバイス本体4をメガネフレーム142からはね上げることができる。これにより、ウェアラブルデバイス本体4により視野が邪魔され実物を見ることが困難な場合や、狭い場所でウェアラブルデバイス本体4が周囲の物体に干渉する場合でも、ウェアラブルデバイス3全体を顔から外すことおよび再装着することなく、ウェアラブルデバイス本体4を作業者の視野から一時的に外すことおよび戻すことができる。
[ウェアラブルデバイス本体4]
上述したように、ウェアラブルデバイス本体4はメガネフレーム142のテンプルに沿った側面部241と作業者の一方の眼球の視線上に位置する前面部242とからなる。側面部241に対する前面部242の角度は調節可能である。
図4に示すように、前面部242の外側表面にはカメラ116、フラッシュライト118、およびカメラLED120が設けられる。フラッシュライト118は暗部の撮影時に発光する補助照明である。カメラLED120は写真や動画の撮影時に点灯し、撮影対象者に撮影していることを認識させるためのものである。
右側のテンプルに取り付けられたウェアラブルデバイス本体4の側面部241の上側面に第1、第2、第3ボタン102、104、106が設けられる。なお、作業者の利き目が左眼の場合、ウェアラブルデバイス本体4は左側のテンプルに取り付けられる。右側に取り付けられるか左側に取り付けられるかで、ウェアラブルデバイス本体4の上下が反転するので、側面部241の上側面と下側面の両面に第1、第2、第3ボタン102、104、106が設けられてもよい。
側面部241の外側表面にはタッチパッド110、第4ボタン108、マイク112、および照度センサ114が設けられる。タッチパッド110と第4ボタン108は人差し指で操作可能である。ボタン102、104、106は、ウェアラブルデバイス本体4が右側に取り付けられた際、それぞれ人差し指、中指、薬指で操作可能な位置に配置される。
タッチパッド110は、その表面上で矢印に示すように作業者が指を上下前後に移動させたことを検出できるようにしている。この移動の検出は、指を接触したまま移動するドラッグの動きに加え指をさっと擦るフリックの動きも含む。タッチパッド110は、作業者の指の上下前後移動を検出すると、ウェアラブルデバイス本体4に対する特定の処理の実行命令を入力する。
第1〜第4ボタン102、104、106、108、タッチパッド110の操作方法はプログラムによって決められている。
例えば、
第3ボタン106が1回押されると、項目の選択/項目の実行がなされ(モバイルPC2では、決定ボタン202eの1回押しに相当)、
第3ボタン106が長押しされると、起動中のアプリケーションの一覧が表示され(モバイルPC2では、アップボタン202aの長押しに相当)、
第2ボタン104が1回押されると、ホーム画面に戻り、
第2ボタン104が長押しされると、クイックセッティングメニューが表示され(モバイルPC2では、ダウンボタン202cの長押しに相当)、
第1ボタン102が1回押されると、操作の取り消し(モバイルPC2では、決定ボタン202eの1回押しに相当、あるいはキーボードのEscキーと同様の動作)が実行される。
タッチパッド110の操作に関しては、例えば、
上下にドラッグされると、カーソルが上下に移動され、
前にフリックされると、左のアイコンが選択され(連続してスクロール)(モバイルPC2では、ライトボタン202bの1回押しに相当)、
後ろにフリックされると、右のアイコンが選択され(連続してスクロール)(モバイルPC2では、レフトボタン202dの1回押しに相当)、
前にドラッグされると、左のアイコンが選択され(1項目ずつスクロール)(モバイルPC2では、ライトボタン202bの1回押しに相当)、
後ろにドラッグされると、右のアイコンが選択され(1項目ずつスクロール)(モバイルPC2では、レフトボタン202dの1回押しに相当)る。
第1ボタン102は人差し指、第2ボタン104は中指、第3ボタン106は薬指、第4ボタン108は小指で操作できるような位置に配置される。なお、第4ボタン108が側面部241の上部ではなく側面部241の外側表面に設けられるのは、スペースの関係上であり、第4ボタン108も第1〜第3ボタン102、104、106と同様に側面部241の上部に設けられてもよい。
ウェアラブルデバイス本体4のボタン102、104、106、108とタッチパッド110とを用いた操作は、上述したモバイルPC2に設けられたカーソルボタン202でも同様の操作が可能である。ウェアラブルデバイス本体4のボタン102、104、106、108とタッチパッド110で操作している様子を作業者は視認することができないので、作業者によっては意図した操作ができるまでに慣れが必要な場合もある。また、ボタン102、104、106、108とタッチパッド110は小型であるので、操作しづらい場合もある。本実施形態では、モバイルPC2のカーソルボタン202でも同じ操作ができるので、上記の懸念は解消できる。
照度センサ114はディスプレイ124の輝度(すなわち明るさ)を自動調整するために周囲の照度を検出する。
図5はウェアラブルデバイス本体4の裏面の外観を例示する。前面部242の内側には、例えばLCDであるディスプレイ124が設けられる。側面部241の内側にはマイク126、スピーカ130、および係合片128が設けられる。マイク126は側面部241の前方に、スピーカ130および係合片128は側面部241の後方に、設けられる。スピーカ130の代わりにヘッドフォンが用いられてもよい。その場合、マイクとヘッドフォンがインカムとして一体的に設けられてもよい。
図6はウェアラブルデバイス本体4のシステム構成の一例を示す。USB Type−Cレセプタクル132はミキサ166に接続される。ディスプレイコントローラ170とUSBハブ164はミキサ166の第1端子および第2端子にそれぞれ接続される。ディスプレイ124はディスプレイコントローラ170に接続される。カメラコントローラ168、オーディオコーデック172、およびセンサコントローラ162はUSBハブ164に接続される。カメラ116とフラッシュライト118とカメラLED120がカメラコントローラ168に接続される。マイク112、126からの音声信号がオーディオコーデック172に入力され、オーディオコーデック172からの音声信号がアンプ174を介してスピーカ130に入力される。
センサコントローラ162に、モーションセンサ(例えば、加速度/地磁気/重力/ジャイロセンサ等)176、照度センサ114、近接センサ178、タッチパッド110、第1〜第4ボタン102、104、106、108、およびGPSセンサ180が接続される。センサコントローラ162はモーションセンサ176、照度センサ114、近接センサ178、タッチパッド110、第1〜第4ボタン102、104、106、108、およびGPSセンサ180からの検出信号を処理して、モバイルPC2へ命令やデータ等を供給する。図5には示していないが、モーションセンサ176および近接センサ178はウェアラブルデバイス本体4の内部に配置される。
モーションセンサ176はウェアラブルデバイス本体4の動き、向き、姿勢等を検出する。センサコントローラ162およびディスプレイコントローラ170は、モーションセンサ176によって検出された動き、向き、姿勢等に基づいてディスプレイ124に表示される画面画像の向きを自動的に調整する向きオート機能を有している。
近接センサ178は作業者の顔、指等の接近によりウェアラブルデバイス3の装着を検出する。
またセンサコントローラ162およびディスプレイコントローラ170は、照度センサ114によって検出された照度に基づき、ディスプレイ124の輝度を自動的に調整する輝度オート機能を有している。また、センサコントローラ162およびカメラコントローラ168は、照度センサ114によって検出された照度に基づき、フラッシュライト118のオンまたはオフを自動的に切り替えるLEDライトオート機能を有している。
ところで、スマートスピーカーのような音声認識装置では、例えば音声による操作のトリガーとなる特定の言葉(トリガーワード)が認識された後に、1つの音声コマンド(命令)が認識される。つまり、ユーザはトリガーワードを発話した後に1つの音声コマンドを発話できる。しかし、ユーザはトリガーワードを発話した後に複数の音声コマンドを連続して発話したい場合もある。
ホストアプリケーションプログラム308CのGUIを音声で操作する場合には、GUIに対して多数の操作が連続して行われることがある。例えばGUIを含む画面において、音声による操作で、カーソルをあるオブジェクト(例えばボタン)上に移動させる場合、カーソルを一定量ずつ上下左右に移動させる操作が繰り返し行われ得る。このような状況において、操作のための音声コマンドを発話しようとする度に、事前にトリガーワードを発話しなければならないことは、ユーザにとって非常に煩雑である。連続して行われる複数の操作のための複数の音声コマンドを認識できる新たな機能の実現が必要とされる。
そのため本実施形態では、トリガーワードが認識された後に1つの音声コマンドだけを認識可能なシングルモードと、トリガーワードが認識された後に複数の音声コマンドを連続して認識可能なマルチモードとが設けられる。ユーザはこれから行おうとする操作の内容に応じて音声認識のモードを切り替えることができるので、音声による操作の利便性を向上できる。またモード毎に別々の辞書データが用いられることにより、音声データから認識される音声コマンドが各モードで認識されるべきコマンドだけに限定されるので、誤認識の発生や処理の遅延を低減できる。
図7は、モバイルPC2上で実行される音声制御プログラム308Bの機能構成の例を示す。音声制御プログラム308Bは、辞書記憶領域58に格納されている音声認識モード毎の複数の辞書データ581,582,583を用いて、音声データからユーザによって発話された内容を認識する。辞書記憶領域58は、例えばストレージデバイス330等の不揮発性メモリ内に設けられている。
音声制御プログラム308Bは1つ以上のホストアプリケーションプログラム308Cと連携して動作する。音声制御プログラム308Bは、連携する特定のホストアプリケーションプログラム308Cに音声認識結果を示す情報を送出する。以下では、音声制御プログラム308Bと連携するホストアプリケーションプログラム308Cが、カメラ116を用いた撮影機能を有する場合を例示する。
音声制御プログラム308Bは、音声取得部51、音声認識部52、モード制御部54、および辞書管理部55を備える。
音声取得部51は、例えばウェアラブルデバイス3から、ユーザによる発話を集音することによって得られた音声データを、ケーブル146等を介して取得する。音声データは、ウェアラブルデバイス3のマイク112,126等を用いて集音された音声の信号を、オーディオコーデック172によってアナログ−デジタル(AD)変換して得られた音声データである。また音声取得部51は、モバイルPC2のオーディオジャック208に接続されたマイク(図示せず)を用いて集音された音声の信号を、オーディオコーデック334によってAD変換して得られた音声データを取得してもよい。音声データは、例えばユーザがモバイルPC2およびウェアラブルデバイス3を使用している間、常時取得されている。音声データは音声ファイルであってもよい。
モード制御部54は、音声制御プログラム308B(モバイルPC2)の音声認識モードを制御する。モード制御部54は、音声データから認識された音声コマンドに応じて、音声制御認識モードを、例えばトリガーモードとシングルモードとマルチモードのいずれかに設定する。
トリガーモードでは、関連付けられたトリガーモード辞書データ581に含まれる1つ以上のトリガーコマンド(トリガーワードとも称する)の1つを認識する処理が実行される。各トリガーコマンドは、例えば音声操作の開始を示す。シングルモードでは、関連付けられたシングルモード辞書データ582に含まれる複数の音声コマンドの1つを認識する処理が実行される。またマルチモードでは、関連付けられたマルチモード辞書データ583に含まれる複数の音声コマンドの1つを認識する処理が繰り返し(連続して)実行され得る。
なお、音声制御プログラム308Bはタイマ53をさらに備えていてもよい。タイマ53は、ある音声認識モードでのタイムアウトを検出する。タイマ53には、例えばある音声認識モードに遷移してからタイムアウトが検出されるべきタイミングまでの時間が設定される。例えば音声認識モードがシングルモードに遷移してから閾値時間(例えば10秒)が経過したことに応じて、タイマ53によりタイムアウトが検出されてもよい。タイムアウトが検出されたことに応じて、音声認識モードは初期状態に戻る。初期状態の音声認識モードは例えばトリガーモードであるが、他のモードであってもよい。
図8は、モード制御部54によって音声認識モードの遷移が制御される例を示す。初期状態では音声認識モードは、例えばトリガーモードM1に設定される。モード制御部54は、音声データから認識されたコマンドの種類に応じて、以下のように音声認識モードを切り替える。
(A1)モード制御部54は、トリガーモードM1に設定された音声認識モードを、トリガーコマンド(すなわち音声操作開始を示す音声コマンド)が認識されたことに応じてシングルモードM2に切り替える。
(A2)モード制御部54は、シングルモードM2に設定された音声認識モードを、連続音声操作開始を示す音声コマンドが認識されたことに応じてマルチモードM3に切り替える。
(A3)モード制御部54は、シングルモードM2に設定された音声認識モードを、連続音声操作開始を示す音声コマンド以外の音声コマンドが認識されたことに応じて、あるいはタイムアウトに応じて、トリガーモードM1に切り替える。連続音声操作開始を示す音声コマンド以外の音声コマンドは、ホストアプリケーションプログラム308Cを操作するための音声コマンド(以下、ホスト操作コマンドとも称する)である。
(A4)モード制御部54は、マルチモードM3に設定された音声認識モードを、連続音声操作終了を示す音声コマンドが認識されたことに応じてトリガーモードM1に切り替える。
(A5)モード制御部54は、マルチモードM3に設定された音声認識モードを、連続音声操作終了を示す音声コマンド以外の音声コマンドが認識されている間、マルチモードM3に維持する。連続音声操作終了を示す音声コマンド以外の音声コマンドは、ホストアプリケーションプログラム308Cを操作するための音声コマンド(すなわちホスト操作コマンド)である。
図7に戻り、辞書管理部55は、設定された音声認識モードに関連付けられた辞書データを辞書記憶領域58から読み出し、音声認識部52に供給する。すなわち音声認識モードがトリガーモードM1である場合、辞書管理部55は辞書記憶領域58からトリガーモード辞書データ581を読み出し、音声認識部52に供給する。音声認識モードがシングルモードM2である場合、辞書管理部55は辞書記憶領域58からシングルモード辞書データ582を読み出し、音声認識部52に供給する。音声認識モードがマルチモードM3である場合、辞書管理部55は辞書記憶領域58からマルチモード辞書データ583を読み出し、音声認識部52に供給する。
トリガーモード辞書データ581は、トリガーモードM1で用いられる1つ以上のトリガーコマンドを音声認識するための辞書データである。シングルモード辞書データ582は、シングルモードM2で用いられる複数の音声コマンドを音声認識するための辞書データである。マルチモード辞書データ583は、マルチモードM3で用いられる複数の音声コマンドを音声認識するための辞書データである。
音声認識部52は、モード制御部54により設定された音声認識モードで、辞書管理部55によって供給されたいずれかの辞書データ581,582,583を用いて、音声データに音声認識処理を施す。音声認識処理は、音声データに対する音響分析、特徴抽出、辞書データ581,582,583とのマッチング等を含む。音声データに音声認識処理を施すことにより、音声データに含まれるコマンドが得られる。音声認識部52は、音声取得部51によって常時取得されている音声データに対して、リアルタイムで音声認識処理を施すことができる。
音声認識部52は、例えば音声データを解析して特徴量を算出し、算出された特徴量に、あるコマンドに対応する特徴量が含まれる場合に、音声データからそのコマンドが認識されたと判断する。あるいは音声認識部52は、例えば文字単位の音素の特徴量を含む音素辞書データ(図示せず)を用いて、音素辞書データ内の特徴量と、音声データ内のある区間の音声パターンの特徴量とをマッチングすることにより、その区間の音声パターンに対応する文字(音素)を決定する。このようにして音声データ内の区間毎の音声パターンに対応する文字を順に決定し、決定された文字で構成される文字列があるコマンドの言葉を示す文字列と一致する場合に、音声認識部52は音声データからそのコマンドが認識されたと判断してもよい。
音声認識モードがトリガーモードM1である場合、音声認識部52は、トリガーモード辞書データ581に示される1つ以上のトリガーコマンドの1つを音声データから認識する処理を実行する。
音声認識モードがシングルモードM2である場合、音声認識部52は、シングルモード辞書データ582に示される複数の音声コマンドの1つを音声データから認識する処理を実行する。つまり音声認識モードがシングルモードM2である間に、音声認識部52は1つの音声コマンドだけを認識する。
音声認識部52は、シングルモード辞書データ582に示される複数の音声コマンドの内、連続音声操作の開始を示す音声コマンド以外の音声コマンド(すなわちホスト操作コマンド)が認識された場合、その認識された音声コマンドを示す情報をホストアプリケーションプログラム308Cに送出する。ホストアプリケーションプログラム308Cは、この音声コマンドを示す情報に応じて動作する。
また、音声認識モードがマルチモードM3である場合、音声認識部52は、マルチモード辞書データ583に示される複数の音声コマンドの1つを音声データから認識するための処理を繰り返し実行し得る。つまり音声認識モードがマルチモードM3である間に、音声認識部52は複数の音声コマンドを認識し得る。認識される複数の音声認識コマンドには、同一の音声コマンドが含まれていてもよい(例えば「シャッターを押す」を示す音声コマンドが複数含まれていてもよい)し、異なる音声コマンドが含まれていてもよい。
音声認識部52は、マルチモード辞書データ583に示される複数の音声コマンドの内、連続音声操作の終了を示す音声コマンド以外の音声コマンド(すなわちホスト操作コマンド)が認識された場合、その認識された音声コマンドを示す情報をホストアプリケーションプログラム308Cに送出する。ホストアプリケーションプログラム308Cは、この音声コマンドを示す情報に応じて動作する。
図9から図11を参照して各辞書データ581,582,583の構成について説明する。
図9はトリガーモード辞書データ581の一構成例を示す。トリガーモード辞書データ581は、トリガーモードM1で用いられる1つ以上のトリガーコマンドに対応する1つ以上のレコードを含む。各レコードは、例えばトリガーコマンドIDのフィールドと内容のフィールドとを含む。
あるトリガーコマンドに対応するレコードにおいて、トリガーコマンドIDのフィールドはそのトリガーコマンドの識別情報を示す。内容のフィールドは、そのトリガーコマンドを音声入力するためにユーザが発話すべき内容を示す。
図9に示す例では、トリガーコマンドIDのフィールドに“トリガーコマンド1”が設定され、内容のフィールドに“音声操作開始”が設定されたレコード1−1が示されている。このレコード1−1に示されるトリガーコマンド1は、音声データから複数の音声コマンドの1つを認識する処理が実行されるシングルモードM2を開始するために用いられる。したがってトリガーコマンドは、音声認識モードを変更するためのモード変更コマンドであるとも云える。
図10はシングルモード辞書データ582の一構成例を示す。シングルモード辞書データ582は、シングルモードM2で用いられる複数の音声コマンドに対応する複数のレコードを含む。各レコードは、例えばコマンドIDのフィールドと内容のフィールドとを含む。
ある音声コマンドに対応するレコードにおいて、コマンドIDのフィールドはその音声コマンドの識別情報を示す。内容のフィールドは、その音声コマンドを入力するためにユーザが発話すべき内容を示す。
図10に示す例では、以下のレコードが示されている。
・コマンドIDのフィールドに“コマンド1”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード2−1
・コマンドIDのフィールドに“コマンド2”が設定され、内容のフィールドに“ズームする”が設定されたレコード2−2
・コマンドIDのフィールドに“コマンド3”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード2−3
・コマンドIDのフィールドに“コマンド4”が設定され、内容のフィールドに“連続音声操作開始”が設定されたレコード2−4
レコード2−1に示されるコマンド1は、カメラ116を用いた撮影により静止画像を取得する処理をホストアプリケーションプログラム308Cに実行させるために用いられる。レコード2−2に示されるコマンド2は、カメラ116のズームインのための処理をホストアプリケーションプログラム308Cに実行させるために用いられる。レコード2−3に示されるコマンド3は、カメラ116のズームアウトのための処理をホストアプリケーションプログラム308Cに実行させるために用いられる。レコード2−4に示されるコマンド4は、音声データから複数の音声コマンドの1つを認識する処理が繰り返し実行されるマルチモードM3を開始するために用いられる。
レコード2−1,2−2,2−3に示されるコマンド1,2,3は、ホストアプリケーションプログラム308Cに対する操作のために用いられるホスト操作コマンドである。一方、レコード2−4に示されるコマンド4は、音声認識モードの変更のために用いられるモード変更コマンドである。なお、各レコードには、対応するコマンドがホスト操作コマンドとモード変更コマンドのいずれであるかの種別を示すフィールドがさらに含まれていてもよい。例えばモード制御部54は、認識された音声コマンドの種別に応じて音声認識モードの遷移を制御してもよい。
図11はマルチモード辞書データ583の一構成例を示す。マルチモード辞書データ583は、マルチモードM3で用いられる複数の音声コマンドに対応する複数のレコードを含む。各レコードは、例えばコマンドIDのフィールドと内容のフィールドとを含む。
ある音声コマンドに対応するレコードにおいて、コマンドIDのフィールドはその音声コマンドの識別情報を示す。内容のフィールドはその音声コマンドを入力するためにユーザが発話すべき内容を示す。
図11に示す例では、以下のレコードが示されている。
・コマンドIDのフィールドに“コマンド1”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード3−1
・コマンドIDのフィールドに“コマンド2”が設定され、内容のフィールドに“ズームする”が設定されたレコード3−2
・コマンドIDのフィールドに“コマンド3”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード3−3
・コマンドIDのフィールドに“コマンド5”が設定され、内容のフィールドに“連続音声操作終了”が設定されたレコード3−4
レコード3−1,3−2,3−3に示されるコマンド1,2,3は、図10を参照して上述したシングルモード辞書データ582のレコード2−1,2−2,2−3に示されるコマンド1,2,3とそれぞれ同一である。したがって、レコード3−1,3−2,3−3に示されるコマンド1,2,3はホスト操作コマンドである。レコード3−4に示されるコマンド5は、音声データから複数の音声コマンドの1つを認識する処理が繰り返し実行されるマルチモードM3を終了するために用いられるモード変更コマンドである。なお、各レコードには、対応するコマンドがホスト操作コマンドとモード変更コマンドのいずれであるかの種別を示すフィールドがさらに含まれていてもよい。
トリガーモード辞書データ581は、予め規定されたものであってもよいし、作成または更新(例えば、変更、追加、削除等)されるものであってもよい。トリガーモード辞書データ581は、モバイルPC2がサーバ等の外部機器から取得するファイル(例えばテキストファイル)を用いて作成または更新されてもよいし、ホストアプリケーションプログラム308C等のGUIを用いたユーザによる操作に応じて作成または更新されてもよい。
辞書記憶領域58には、モバイルPC2上で実行される複数のアプリケーションプログラムにそれぞれ関連付けられる複数のシングルモード辞書データ582および複数のマルチモード辞書データ583が格納され得る。この場合、辞書管理部55は、ユーザによって現在操作可能であるアクティブなアプリケーションプログラム(すなわちホストアプリケーションプログラム308C)を検出し、シングルモードM2ではそのアプリケーションプログラムに関連付けられたシングルモード辞書データ582を取得し、マルチモードM3ではそのアプリケーションプログラムに関連付けられたマルチモード辞書データ583を取得する。
シングルモード辞書データ582およびマルチモード辞書データ583は、予め規定されたものであってもよいし、作成または更新(例えば、変更、追加、削除等)されるものであってもよい。シングルモード辞書データ582およびマルチモード辞書データ583はそれぞれ、モバイルPC2が外部機器から取得するファイルを用いて作成または更新されてもよいし、ホストアプリケーションプログラム308C等のGUIを用いたユーザによる操作に応じて作成または更新されてもよい。
以上の構成により、ユーザが例えばトリガーコマンドを発話したことにより、音声認識モードがトリガーモードM1からシングルモードM2に切り替えられる。音声認識モードがシングルモードM2である間に、ユーザがシングルモード辞書データ582に示される音声コマンドのいずれかを発話したことに応じて、その音声コマンドに対応する動作がホストアプリケーションプログラム308Cによって行われると共に、音声認識モードがシングルモードM2からトリガーモードM1に戻る。
あるいはユーザがトリガーコマンドを発話し、続いて連続音声操作開始を示す音声コマンドを発話したことにより、音声認識モードがトリガーモードM1からシングルモードM2に切り替えられ、さらにシングルモードM2からマルチモードM3に切り替えられる。音声認識モードがマルチモードM3である間、ユーザはマルチモード辞書データ583に示される音声コマンドのいずれかの発話を繰り返し行い得る。音声コマンドのいずれかが発話される毎に、その音声コマンドに対応する動作がホストアプリケーションプログラム308Cによって行われる。音声認識モードがマルチモードM3である間に、ユーザが連続音声操作終了を示す音声コマンドを発話したならば、音声認識モードはトリガーモードM1に戻る。
より具体的な例として、カメラ116を用いた撮影で静止画像を取得する機能を有するホストアプリケーションプログラム308Cを、ユーザが音声で操作するシナリオ1およびシナリオ2について説明する。
(シナリオ1)
音声認識が開始されたとき、トリガーモードM1である音声認識モードで音声入力が待ち受けられる。ユーザが「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードM1からシングルモードM2に遷移する。次にユーザが「ズームする」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116のズームインのための処理を実行し、音声認識モードはトリガーモードM1に戻る。
そしてユーザが再度、「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードM1からシングルモードM2に再び遷移する。次にユーザが「シャッターを押す」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116を用いた撮影により静止画像を取得するための処理を実行し、音声認識モードはトリガーモードM1に戻る。
(シナリオ2)
音声認識が開始されたとき、トリガーモードM1である音声認識モードで音声入力が待ち受けられる。ユーザが「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードM1からシングルモードM2に遷移する。次にユーザが「連続音声操作開始」と発話したことに応じて、音声認識モードはシングルモードM2からマルチモードM3に遷移する。
その後、ユーザが「ズームする」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116のズームインのための処理を実行し、さらにユーザが「シャッターを押す」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116を用いた撮影により静止画像を取得するための処理を実行する。そしてユーザが「連続音声操作終了」と発話したことに応じて、音声認識モードはマルチモードM3からトリガーモードM1に戻る。
ホストアプリケーションプログラム308Cに対する操作のために、ユーザが複数の音声コマンドを連続して発話する状況では、シナリオ2のように、音声認識モードをマルチモードM3に切り替えてから、それら複数の音声コマンドが発話される。これにより、発話による操作を簡略化できる。
一方、ホストアプリケーションプログラム308Cに対する操作のために、ユーザが1つの音声コマンドだけを発話する状況では、シナリオ1のように、音声認識モードがシングルモードM2に切り替えられ、1つの音声コマンドが発話された後、トリガーモードM1に戻る。トリガーモードM1ではトリガーコマンドを待ち受けるための処理のみで済むので、ホストアプリケーションプログラム308Cの操作のための複数の音声コマンドを待ち受けるマルチモードM3に維持されるよりも処理量が低減され得る。
以上のように、各音声認識モードM1,M2,M3では、その音声認識モードで認識されるべきコマンドのみを含む辞書データ581,582,583が使用されるので、認識されるべき全てのコマンドを含む単一の辞書データが使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。また、マルチモードM3が設けられることにより、ユーザはホストアプリケーションプログラム308Cに対する操作のための1つの音声コマンドを発話する前に、毎回トリガーコマンドを発話する必要がない。ユーザがこれから行おうとする操作の内容に応じて、シングルモードM2とマルチモードM3とを使い分けることにより、ユーザによる操作の利便性を向上できる。
図12から図15のフローチャートを参照して、モバイルPC2によって実行される音声制御処理の手順の例を説明する。
図12に示すように、まずモバイルPC2は音声認識モードをトリガーモードM1に設定し、使用する辞書をトリガーモード辞書データ581に設定する(ステップS101)。そしてモバイルPC2は、トリガーモードM1での音声認識処理であるトリガーモード認識処理を実行する(ステップS102)。トリガーモード認識処理では、例えばウェアラブルデバイス3からモバイルPC2に入力された音声データから、トリガーモード辞書データ581に登録された1つ以上のトリガーコマンドの1つが認識される。1つのトリガーコマンドが認識されたことに応じてトリガーモード認識処理は終了する。トリガーモード認識処理の具体的な手順については、図13を参照して後述する。
ステップS102のトリガーモード認識処理が終了したならば、すなわち1つのトリガーコマンドが認識されたならば、モバイルPC2は音声認識モードをシングルモードM2に設定し、使用する辞書をシングルモード辞書データ582に設定する(ステップS103)。そしてモバイルPC2は、シングルモードM2での音声認識処理であるシングルモード認識処理を実行する(ステップS104)。シングルモード認識処理では、例えばウェアラブルデバイス3からモバイルPC2に入力された音声データから、シングルモード辞書データ582に登録された複数の音声コマンドの1つが認識される。シングルモードM2の1つの音声コマンドが認識されたことに応じてシングルモード認識処理は終了する。シングルモード認識処理の具体的な手順については、図14を参照して後述する。
ステップS104のシングルモード認識処理が終了したならば、モバイルPC2は、シングルモード認識処理において連続音声操作開始を示す音声コマンドが認識されたか否かを判定する(ステップS105)。連続音声操作開始を示す音声コマンドが認識されていない場合(ステップS105のNO)、モバイルPC2は、シングルモード認識処理においてタイムアウトが検出されたか否かを判定する(ステップS106)。
タイムアウトが検出されていない場合(ステップS106のNO)、モバイルPC2は、シングルモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム308Cに送出する(ステップS107)。一方、タイムアウトが検出された場合(ステップS106のYES)、ステップS101に戻り、トリガーモードM1での音声認識処理が再度開始される。
また連続音声操作開始を示す音声コマンドが認識された場合(ステップS105のYES)、モバイルPC2は音声認識モードをマルチモードM3に設定し、使用する辞書をマルチモード辞書データ583に設定する(ステップS108)。そしてモバイルPC2は、マルチモードM3での音声認識処理であるマルチモード認識処理を実行する(ステップS109)。マルチモード認識処理では、例えばウェアラブルデバイス3からモバイルPC2に入力された音声データから、マルチモード辞書データ583に登録された複数の音声コマンドの1つが認識される。マルチモードM3の1つの音声コマンドが認識されたことに応じてマルチモード認識処理は終了する。マルチモード認識処理の具体的な手順については、図15を参照して後述する。
ステップS109のマルチモード認識処理が終了したならば、すなわちマルチモードM3の1つの音声コマンドが認識されたならば、モバイルPC2は、マルチモード認識処理において連続音声操作終了を示す音声コマンドが認識されたか否かを判定する(ステップS110)。連続音声操作終了を示す音声コマンドが認識された場合(ステップS110のYES)、ステップS101に戻り、トリガーモードM1での音声認識処理が再度開始される。
連続音声操作終了を示す音声コマンドが認識されていない場合(ステップS110のNO)、モバイルPC2は、マルチモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム308Cに送出し(ステップS111)、ステップS109に戻る。したがって、連続音声操作終了を示す音声コマンドが認識されるまで、連続してマルチモード認識処理が行われる。
以上により、トリガーモードM1で音声データからトリガーコマンドが認識された場合、シングルモードM2で1つの音声コマンドが認識される。認識された音声コマンドが、ホストアプリケーションプログラム308Cに関する操作のための音声コマンドであるならば、その音声コマンドを示す情報がホストアプリケーションプログラム308Cに送出され、一方、マルチモードM3を開始するための音声コマンドであるならば、音声データから連続的に音声コマンドが認識されるマルチモードM3が開始される。各音声認識モードでは、その音声認識モードで認識されるべきコマンドのみを含む辞書が使用されるので、認識されるべきコマンドを全て含む単一の辞書が使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。
図13のフローチャートは、モバイルPC2によって実行されるトリガーモード認識処理の手順の例を示す。このトリガーモード認識処理は、図12を参照して上述した音声制御処理のステップS102に相当する。
まずモバイルPC2は音声データが取得されたか否かを判定する(ステップS21)。モバイルPC2は、例えばウェアラブルデバイス3によって送出された音声データを、ケーブル146等を介して取得する。音声データが取得されていない場合(ステップS21のNO)、ステップS21に戻り、音声データが取得されたか否かが再度判定される。
音声データが取得された場合(ステップS21のYES)、モバイルPC2は、取得された音声データからトリガーモード辞書データ581に示されるトリガーコマンドを認識するための処理を行う(ステップS22)。この処理では、例えば、音声データから特徴量が算出され、算出された特徴量に、トリガーモード辞書データ581に示されるあるトリガーコマンドに対応する特徴量が含まれる場合に、音声データからそのトリガーコマンドが認識されたと判断される。
モバイルPC2は、音声データからトリガーコマンドが認識されたか否かを判定する(ステップS23)。音声データからトリガーコマンドが認識されていない場合(ステップS23のNO)、ステップS21に戻り、新たに取得される音声データからトリガーコマンドを認識するための処理が続行される。
一方、音声データからトリガーコマンドが認識された場合(ステップS23のYES)、モバイルPC2は認識されたトリガーコマンドを示す認識結果を返し(ステップS24)、処理を終了する。この認識結果は図12の音声制御処理で用いられ得る。なお、音声制御処理において、トリガーモード辞書データ581に示されるトリガーコマンドの内のいずれが認識されたかを示す情報が必要でない場合には、ステップS24は省略されてもよい。
以上により、音声データからトリガーコマンドを認識できる。
図14のフローチャートは、モバイルPC2によって実行されるシングルモード認識処理の手順の例を示す。このシングルモード認識処理は、図12を参照して上述した音声制御処理のステップS104に相当する。
まずモバイルPC2はタイマ53を起動する(ステップS31)。タイマ53にはシングルモードM2のタイムアウトを検出すべき時間が設定されている。
次にモバイルPC2は、音声データが取得されたか否かを判定する(ステップS32)。音声データが取得された場合(ステップS32のYES)、モバイルPC2は、取得された音声データからシングルモード辞書データ582に示される音声コマンドを認識するための処理を行う(ステップS33)。この処理では、例えば、音声データから特徴量が算出され、算出された特徴量に、シングルモード辞書データ582に示される1つの音声コマンドに対応する特徴量が含まれる場合に、音声データからその音声コマンドが認識されたと判断される。
モバイルPC2は、音声データから音声コマンドが認識されたか否かを判定する(ステップS34)。音声データから音声コマンドが認識された場合(ステップ34のYES)、モバイルPC2は認識された音声コマンドを示す認識結果を返し(ステップS35)、処理を終了する。認識結果は、シングルモード辞書データ582に含まれるいずれかの音声コマンドを示し、図12の音声制御処理で用いられる。
一方、音声データから音声コマンドが認識されていない場合(ステップS34のNO)、あるいは音声データが取得されていない場合(ステップS32のNO)、モバイルPC2はタイマ53によりタイムアウトが検出されたか否かを判定する(ステップS36)。タイムアウトが検出されていない場合(ステップS36のNO)、ステップS32に戻り、新たに取得される音声データから音声コマンドを認識するための処理が続行される。
タイムアウトが検出された場合(ステップS36のYES)、モバイルPC2はタイムアウトを示す情報を返し(ステップS37)、処理を終了する。タイムアウトを示す情報は、図12の音声制御処理で用いられる。
以上により、音声データからシングルモードM2の音声コマンドを認識するか、シングルモードM2のタイムアウトを検出できる。
図15のフローチャートは、モバイルPC2によって実行されるマルチモード認識処理の手順の例を示す。このマルチモード認識処理は、図12を参照して上述した音声制御処理のステップS109に相当する。
まずモバイルPC2は音声データが取得されたか否かを判定する(ステップS41)。音声データが取得されていない場合(ステップS41のNO)、ステップS41に戻り、音声データが取得されたか否かが再度判定される。
音声データが取得された場合(ステップS41のYES)、モバイルPC2は、取得された音声データからマルチモード辞書データ583に示される音声コマンドを認識するための処理を行う(ステップS42)。この処理では、例えば音声データから特徴量が算出され、算出された特徴量に、マルチモード辞書データ583に示される1つの音声コマンドに対応する特徴量が含まれる場合に、音声データからその音声コマンドが認識されたと判断される。
モバイルPC2は、音声データから音声コマンドが認識されたか否かを判定する(ステップS43)。音声データから音声コマンドが認識されていない場合(ステップS43のNO)、ステップS41に戻り、新たに取得される音声データから音声コマンドを認識するための処理が続行される。
一方、音声データから音声コマンドが認識された場合(ステップS43のYES)、モバイルPC2は認識された音声コマンドを示す認識結果を返し(ステップS44)、処理を終了する。この認識結果は、マルチモード辞書データ583に含まれるいずれかの音声コマンドを示し、図12の音声制御処理で用いられる。
以上により、音声データからマルチモードM3の音声コマンドを認識できる。
図16は、ウェアラブルデバイス3のディスプレイ124に表示されるホストアプリケーションプログラム308Cの画面画像6の例を示す。ここでは、ホストアプリケーションプログラム308Cがカメラ116を用いた撮影機能を有することを想定する。
画面画像6には、カメラ116によって撮影されている画像がリアルタイムで表示されるカメラビュー領域61と、ホストアプリケーションプログラム308Cに対して使用可能な1つ以上の音声コマンドを示すコマンドリスト領域62とが設けられている。コマンドリスト領域62には、各音声コマンドについて、音声コマンドとして発話すべき言葉と、その音声コマンドに対応したホストアプリケーションプログラム308Cの動作とが示されている。
ユーザは、トリガーコマンドを発話した後、コマンドリスト領域62に示されるいずれかの音声コマンドを発話することにより、当該音声コマンドを、ウェアラブルデバイス3のマイク112,126等を用いてモバイルPC(音声制御プログラム308B)に入力できる。あるいはユーザは、トリガーコマンドを発話し、続いて“連続音声操作開始”を発話した後、コマンドリスト領域62に示されるいずれかの音声コマンドを連続して発話することにより、複数の音声コマンドをモバイルPC2に入力できる。
なお、画面画像6には、トリガーコマンド、連続音声操作を開始するための音声コマンドの内容(例えば発話すべき言葉)、連続音声操作を終了するための音声コマンドの内容等がさらに示されていてもよい。
(第2実施形態)
第1実施形態では、トリガーコマンドが認識されたことに応じて、音声認識モードがトリガーモードM1からシングルモードM2に遷移する。これに対して第2実施形態では、トリガーコマンドM1が認識されたことに応じて、音声認識モードがトリガーモードM1からシングルモードM2とマルチモードM3のいずれかに遷移する。
第2実施形態に係るモバイルPC2およびウェアラブルデバイス3の構成は第1実施形態のモバイルPC2およびウェアラブルデバイス3と同様であり、第2実施形態と第1実施形態とでは、モード制御部54および音声認識部52によって実行される処理の手順のみが異なる。以下、第1実施形態と異なる点のみを説明する。
モード制御部54は、音声認識モードが初期状態としてトリガーモードM1に設定された場合、音声データから認識された1つのトリガーコマンドに応じて、音声認識モードをシングルモードM2とマルチモードM3のいずれかに切り替える。
図17は、モード制御部54によって音声認識モードの遷移が制御される例を示す。初期状態では音声認識モードは、例えばトリガーモードM1に設定される。モード制御部54は、音声データから認識されたコマンドの種類に応じて、以下のように音声認識モードを切り替える。
(B1)モード制御部54は、トリガーモードM1に設定された音声認識モードを、音声操作開始を示すトリガーコマンドが認識されたことに応じてシングルモードM2に切り替える。
(B2)モード制御部54は、シングルモードM2に設定された音声認識モードを、ホストアプリケーションプログラム308Cを操作するための音声コマンド(すなわちホスト操作コマンド)が認識されたことに応じて、あるいはタイムアウトに応じて、トリガーモードM1に切り替える。
(B3)モード制御部54は、トリガーモードM1に設定された音声認識モードを、連続音声操作開始を示すトリガーコマンドが認識されたことに応じてマルチモードM3に切り替える。
(B4)モード制御部54は、マルチモードM3に設定された音声認識モードを、連続音声操作終了を示す音声コマンドが認識されたことに応じてトリガーモードM1に切り替える。
(B5)モード制御部54は、マルチモードM3に設定された音声認識モードを、連続音声操作終了を示す音声コマンド以外の音声コマンドが認識されている間、マルチモードM3に維持する。連続音声操作終了を示す音声コマンド以外の音声コマンドは、ホストアプリケーションプログラム308Cを操作するための音声コマンド(すなわちホスト操作コマンド)である。
図18から図20を参照して、第2実施形態のモバイルPC2で用いられるトリガーモード辞書データ581、シングルモード辞書データ582、およびマルチモード辞書データ583の構成についてそれぞれ説明する。
図18はトリガーモード辞書データ581の一構成例を示す。図18に示す例では、以下のレコードが示されている。
・コマンドIDのフィールドに“トリガーコマンド1”が設定され、内容のフィールドに“音声操作開始”が設定されたレコード5−1
・コマンドIDのフィールドに“トリガーコマンド2”が設定され、内容のフィールドに“連続音声操作開始”が設定されたレコード5−2
レコード5−1に示されるトリガーコマンド1は、音声データから複数の音声コマンドの1つを認識する処理が実行されるシングルモードM2を開始するために用いられる。またレコード5−2に示されるトリガーコマンド2は、音声データから複数の音声コマンドの1つを認識する処理が繰り返し実行されるマルチモードM3を開始するために用いられる。したがってトリガーコマンド1,2は、音声認識モードを変更するためのモード変更コマンドであるとも云える。
図19はシングルモード辞書データ582の一構成例を示す。図19に示す例では、以下のレコードが示されている。
・コマンドIDのフィールドに“コマンド1”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード6−1
・コマンドIDのフィールドに“コマンド2”が設定され、内容のフィールドに“ズームする”が設定されたレコード6−2
・コマンドIDのフィールドに“コマンド3”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード6−3
レコード6−1に示されるコマンド1は、カメラ116を用いた撮影により静止画像を取得する処理をホストアプリケーションプログラム308Cに実行させるために用いられる。レコード6−2に示されるコマンド2は、カメラ116のズームインのための処理をホストアプリケーションプログラム308Cに実行させるために用いられる。レコード6−3に示されるコマンド3は、カメラ116のズームアウトのための処理をホストアプリケーションプログラム308Cに実行させるために用いられる。レコード6−1,6−2,6−3に示されるコマンド1,2,3は、ホストアプリケーションプログラム308Cに対する操作のために用いられるホスト操作コマンドである。
このシングルモード辞書データ582には、モード変更コマンドは含まれていない。そのため音声認識部52は、シングルモード辞書データ582に示される複数の音声コマンドの1つが認識された場合、その認識された音声コマンドを示す情報をホストアプリケーションプログラム308Cに送出する。
図20はマルチモード辞書データ583の一構成例を示す。図20に示す例では、以下のレコードが示されている。
・コマンドIDのフィールドに“コマンド1”が設定され、内容のフィールドに“シャッターを押す”が設定されたレコード7−1
・コマンドIDのフィールドに“コマンド2”が設定され、内容のフィールドに“ズームする”が設定されたレコード7−2
・コマンドIDのフィールドに“コマンド3”が設定され、内容のフィールドに“ズームアウトする”が設定されたレコード7−3
・コマンドIDのフィールドに“コマンド4”が設定され、内容のフィールドに“連続音声操作終了”が設定されたレコード7−4
レコード7−1,7−2,7−3に示されるコマンド1,2,3は、図19を参照して上述したシングルモード辞書データ582のレコード7−1,7−2,7−3に示されるコマンド1,2,3とそれぞれ同一である。したがって、レコード7−1,7−2,7−3に示されるコマンド1,2,3はホスト操作コマンドである。レコード7−4に示されるコマンド4は、音声データから複数の音声コマンドの1つを認識する処理が繰り返し実行されるマルチモードM3を終了するために用いられるモード変更コマンドである。なお、各レコードには、対応するコマンドがホスト操作コマンドとモード変更コマンドのいずれであるかを示すフィールドがさらに含まれていてもよい。
以上の構成により、ユーザがトリガーコマンドである“音声操作開始”を発話したことにより、音声認識モードがトリガーモードM1からシングルモードM2に切り替えられる。音声認識モードがシングルモードM2である間に、ユーザがシングルモード辞書データ582に示される音声コマンドの1つを発話したことに応じて、その音声コマンドに対応する動作がホストアプリケーションプログラム308Cによって行われると共に、音声認識モードがシングルモードM2からトリガーモードM1に戻る。
また、ユーザがトリガーコマンドである“連続音声操作開始”を発話したことにより、音声認識モードがトリガーモードM1からマルチモードM3に切り替えられる。音声認識モードがマルチモードM3である間、ユーザはマルチモード辞書データ583に示される音声コマンドのいずれかの発話を繰り返し行い得る。音声コマンドのいずれかが発話される毎に、その音声コマンドに対応する動作がホストアプリケーションプログラム308Cによって行われる。音声認識モードがマルチモードM3である間に、ユーザが連続音声操作終了を示す音声コマンドを発話したならば、音声認識モードはトリガーモードM1に戻る。
より具体的な例として、カメラ116を用いた撮影で静止画像を取得する機能を有するホストアプリケーションプログラム308Cを、ユーザが音声で操作するシナリオ3およびシナリオ4を用いて説明する。
(シナリオ3)
音声認識が開始されたとき、トリガーモードM1である音声認識モードで音声入力が待ち受けられる。ユーザが「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードM1からシングルモードM2に遷移する。次にユーザが「ズームする」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116のズームインのための処理を実行し、音声認識モードはトリガーモードM1に戻る。
そしてユーザが再度、「音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードM1からシングルモードM2に再び遷移する。次にユーザが「シャッターを押す」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116を用いた撮影により静止画像を取得するための処理を実行し、音声認識モードはトリガーモードM1に戻る。
(シナリオ4)
音声認識が開始されたとき、トリガーモードM1である音声認識モードで音声入力が待ち受けられる。ユーザが「連続音声操作開始」と発話したことに応じて、音声認識モードはトリガーモードM1からマルチモードM3に遷移する。
その後、ユーザが「ズームする」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116のズームインのための処理を実行し、さらにユーザが「シャッターを押す」と発話したことに応じて、ホストアプリケーションプログラム308Cはカメラ116を用いた撮影により静止画像を取得するための処理を実行する。そしてユーザが「連続音声操作終了」と発話したことに応じて、音声認識モードはマルチモードM3からトリガーモードM1に戻る。
ホストアプリケーションプログラム308Cに対する操作のために、ユーザが複数の音声コマンドを連続して発話する状況では、シナリオ4のように、音声認識モードをマルチモードM3に切り替えてから、それら複数の音声コマンドが順次発話される。これにより、発話による操作を簡略化できる。
一方、ホストアプリケーションプログラム308Cに対する操作のために、ユーザが1つの音声コマンドだけを発話する状況では、シナリオ3のように、音声認識モードがシングルモードM2に切り替えられ、1つの音声コマンドが発話された後、トリガーモードM1に戻る。トリガーモードM1ではトリガーコマンドを待ち受けるための処理のみで済むので、ホストアプリケーションプログラム308Cの操作のための複数の音声コマンドを待ち受けるマルチモードM3に維持されるよりも処理量が低減され得る。
以上のように、各音声認識モードでは、その音声認識モードで認識されるべきコマンドのみを含む辞書データ581,582,583が使用されるので、認識されるべき全てのコマンドを含む単一の辞書データが使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。
図21のフローチャートを参照して、モバイルPC2によって実行される音声制御処理の手順の例を説明する。
まずモバイルPC2は音声認識モードをトリガーモードM1に設定し、使用する辞書をトリガーモード辞書データ581に設定する(ステップS501)。そしてモバイルPC2は、トリガーモードM1での音声認識処理であるトリガーモード認識処理を実行する(ステップS502)。トリガーモード認識処理では、例えばウェアラブルデバイス3からモバイルPC2に入力された音声データから、トリガーモード辞書データ581に登録された1つ以上のトリガーコマンドの1つが認識される。1つのトリガーコマンドが認識されたことに応じてトリガーモード認識処理は終了する。トリガーモード認識処理の具体的な手順については、図13のフローチャートを参照して上述した通りである。
ステップS502のトリガーモード認識処理が終了したならば、すなわち1つのトリガーコマンドが認識されたならば、モバイルPC2はその認識されたトリガーコマンドに応じて処理を分岐する(ステップS503)。認識されたトリガーコマンドが音声操作開始を示すトリガーコマンドであるならば(ステップS503の音声操作開始)、モバイルPC2は音声認識モードをシングルモードM2に設定し、使用する辞書をシングルモード辞書データ582に設定する(ステップS504)。そしてモバイルPC2は、シングルモードM2での音声認識処理であるシングルモード認識処理を実行する(ステップS505)。シングルモード認識処理では、例えばウェアラブルデバイス3からモバイルPC2に入力された音声データから、シングルモード辞書データ582に登録された複数の音声コマンドの1つが認識される。シングルモード認識処理の具体的な手順については、図14のフローチャートを参照して上述した通りである。
ステップS505のシングルモード認識処理が終了したならば、モバイルPC2はシングルモード認識処理においてタイムアウトが検出されたか否かを判定する(ステップS506)。タイムアウトが検出されていない場合(ステップS506のNO)、モバイルPC2は、シングルモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム308Cに送出する(ステップS507)。一方、タイムアウトが検出された場合(ステップS506のYES)、ステップS501に戻り、トリガーモードM1での音声認識処理が再度開始される。
また、認識されたトリガーコマンドが連続音声操作開始を示す音声コマンドであるならば(ステップS503の連続音声操作開始)、モバイルPC2は音声認識モードをマルチモードM3に設定し、使用する辞書をマルチモード辞書データ583に設定する(ステップS508)。そしてモバイルPC2は、マルチモードM3での音声認識処理であるマルチモード認識処理を実行する(ステップS509)。マルチモード認識処理では、例えばウェアラブルデバイス3からモバイルPC2に入力された音声データから、マルチモード辞書データ583に登録された複数の音声コマンドの1つが認識される。マルチモードM3の1つの音声コマンドが認識されたことに応じてマルチモード認識処理は終了する。マルチモード認識処理の具体的な手順については、図15のフローチャートを参照して上述した通りである。
ステップS509のマルチモード認識処理が終了したならば、すなわちマルチモードM3の1つの音声コマンドが認識されたならば、モバイルPC2はマルチモード認識処理において連続音声操作終了を示す音声コマンドが認識されたか否かを判定する(ステップS510)。連続音声操作終了を示す音声コマンドが認識された場合(ステップS510のYES)、ステップS501に戻り、トリガーモードM1での音声認識処理が再度開始される。
連続音声操作終了を示す音声コマンドが認識されていない場合(ステップS510のNO)、モバイルPC2は、マルチモード認識処理で認識された音声コマンドを示す情報をホストアプリケーションプログラム308Cに送出し(ステップS511)、ステップS509に戻る。したがって、連続音声操作終了を示す音声コマンドが認識されるまで、連続してマルチモード認識処理が行われる。
以上により、トリガーモードM1で音声データから音声操作開始を示すトリガーコマンドが認識された場合、シングルモードM2で1つの音声コマンドが認識される。そして認識された音声コマンドを示す情報がホストアプリケーションプログラム308Cに送出される。またトリガーモードM1で音声データから連続音声操作開始を示すトリガーコマンドが認識された場合、音声データから連続的に音声コマンドが認識されるマルチモードM3が開始される。各音声認識モードでは、その音声認識モードで認識されるべきコマンドのみを含む辞書が使用されるので、認識されるべきコマンドを全て含む辞書が使用される場合よりも、音声認識処理に要する時間を短くでき、且つ認識結果の精度を向上できる。
以上説明したように第1および第2実施形態によれば、音声による操作の利便性を向上できる。USB Type−C レセプタクル207、ブルートゥース/無線LANデバイス等の接続部は、モバイルPC2をユーザが装着可能なウェアラブルデバイス3に有線または無線で接続する。音声取得部51は、ウェアラブルデバイス3から、ユーザによる発話を集音することによって得られた音声データを取得する。音声認識部52は、音声認識モードがトリガーモードM1に設定された場合、音声データから1つ以上の第1コマンド(トリガーコマンド)の1つを認識する処理を実行し、音声認識モードがシングルモードM2に設定された場合、音声データから複数の第2コマンドの1つを認識する処理を実行し、音声認識モードがマルチモードM3に設定された場合、音声データから複数の第3コマンドの1つを認識する処理を繰り返し実行する。
各音声認識モードでは、音声データからその音声認識モードで使用可能なコマンドを認識するための処理が実行され、他の音声認識モードで使用可能なコマンドを認識するための処理は実行されないので、音声認識処理を高速化できると共に認識結果の精度を向上できる。また、マルチモードM3に設定された場合、ユーザはホストアプリケーションプログラム308Cに対する操作のための音声コマンドを連続して発話できる。したがって、ユーザがこれから行おうとする操作の内容に応じてシングルモードM2とマルチモードM3とを使い分けられるので、ユーザによる操作の利便性を向上できる。
第1および第2実施形態に記載された様々な機能の各々は、回路(処理回路)によって実現されてもよい。処理回路の例には、中央処理装置(CPU)のような、プログラムされたプロセッサが含まれる。このプロセッサは、メモリに格納されたコンピュータプログラム(命令群)を実行することによって、記載された機能それぞれを実行する。このプロセッサは、電気回路を含むマイクロプロセッサであってもよい。処理回路の例には、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、マイクロコントローラ、コントローラ、他の電気回路部品も含まれる。第1および第2実施形態に記載されたCPU以外の他のコンポーネントの各々もまた処理回路によって実現されてもよい。
また、第1および第2実施形態の各種処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、第1および第2実施形態と同様の効果を容易に実現することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…制御システム、2…モバイルPC、3…ウェアラブルデバイス、308A…OS、308B…音声制御プログラム、308C…ホストアプリケーションプログラム、51…音声取得部、52…音声認識部、53…タイマ、54…モード制御部、55…辞書管理部、58…辞書記憶領域、581…トリガーモード辞書データ、582…シングルモード辞書データ、583…マルチモード辞書データ。

Claims (10)

  1. ユーザが携行可能な電子機器であって、
    当該電子機器を前記ユーザが装着可能なウェアラブル機器に有線または無線で接続する接続手段と、
    前記ウェアラブル機器から、前記ユーザによる発話を集音することによって得られた音声データを取得する取得手段と、
    音声認識モードが第1モードに設定された場合、前記音声データから1つ以上の第1コマンドの1つを認識する処理を実行し、前記音声認識モードが第2モードに設定された場合、前記音声データから複数の第2コマンドの1つを認識する処理を実行し、前記音声認識モードが第3モードに設定された場合、前記音声データから複数の第3コマンドの1つを認識する処理を繰り返し実行する音声認識手段とを具備する電子機器。
  2. 前記音声認識モードが初期状態として前記第1モードに設定された場合、前記音声データから認識された前記第1コマンドの1つに応じて、前記音声認識モードを前記第2モードと前記第3モードのいずれかに切り替えるモード制御手段をさらに具備する請求項1記載の電子機器。
  3. 前記モード制御手段は、
    前記音声データから、前記第1コマンドの1つが認識された場合、前記音声認識モードを前記第1モードから前記第2モードに切り替え、
    前記音声データから、前記複数の第2コマンドに含まれる連続音声操作の開始を示す第4コマンドが認識された場合、前記音声認識モードを前記第2モードから前記第3モードに切り替え、
    前記音声データから、前記複数の第2コマンドの内、前記第4コマンド以外の第6コマンドが認識された場合、前記音声認識モードを前記第2モードから前記第1モードに切り替え、
    前記音声データから、前記複数の第3コマンドに含まれる連続音声操作の終了を示す第5コマンドが認識された場合、前記音声認識モードを前記第3モードから前記第1モードに切り替え、
    前記音声データから、前記複数の第3コマンドの内、前記第5コマンド以外の第7コマンドが認識された場合、前記音声認識モードを前記第3モードに維持する請求項2記載の電子機器。
  4. 前記モード制御手段は、
    前記音声データから、前記1つ以上の第1コマンドに含まれる音声操作の開始を示す第8コマンドが認識された場合、前記音声認識モードを前記第1モードから前記第2モードに切り替え、
    前記音声データから、前記複数の第2コマンドの1つが認識された場合、前記音声認識モードを前記第2モードから前記第1モードに切り替え、
    前記音声データから、前記1つ以上の第1コマンドに含まれる連続音声操作の開始を示す第4コマンドが認識された場合、前記音声認識モードを前記第1モードから前記第3モードに切り替え、
    前記音声データから、前記複数の第3コマンドに含まれる連続音声操作の終了を示す第5コマンドが認識された場合、前記音声認識モードを前記第3モードから前記第1モードに切り替え、
    前記音声データから、前記複数の第3コマンドの内、前記第5コマンド以外の第7コマンドが認識された場合、前記音声認識モードを前記第3モードに維持する請求項2記載の電子機器。
  5. 前記音声認識手段は、
    前記音声認識モードが前記第1モードに設定された場合、前記1つ以上の第1コマンドを音声認識するための第1辞書データを用いて、前記音声データから前記1つ以上の第1コマンドの1つを認識する処理を実行し、
    前記音声認識モードが前記第2モードに設定された場合、前記複数の第2コマンドを音声認識するための第2辞書データを用いて、前記音声データから前記複数の第2コマンドの1つを認識する処理を実行し、
    前記音声認識モードが第3モードに設定された場合、前記複数の第3コマンドを音声認識するための第3辞書データを用いて、前記音声データから前記複数の第3コマンドの1つを認識する処理を繰り返し実行する請求項1乃至請求項4のいずれか一項に記載の電子機器。
  6. 前記第1辞書データは、音声操作の開始を示す第8コマンドを音声認識するためのデータで構成され、
    前記第2辞書データは、連続音声操作の開始を示す第4コマンドと、前記電子機器上で実行されるアプリケーションプログラムに対する操作のための1つ以上の第6コマンドとを音声認識するためのデータで構成され、
    前記第3辞書データは、連続音声操作の終了を示す第5コマンドと、前記アプリケーションプログラムに対する操作のための前記1つ以上の第7コマンドとを音声認識するためのデータで構成される請求項5記載の電子機器。
  7. 前記第1辞書データは、音声操作の開始を示す第8コマンドと、連続音声操作の開始を示す第4コマンドとを音声認識するためのデータで構成され、
    前記第2辞書データは、前記電子機器上で実行されるアプリケーションプログラムに対する操作のための1つ以上の第6コマンドを音声認識するためのデータで構成され、
    前記第3辞書データは、連続音声操作の終了を示す第5コマンドと、前記アプリケーションプログラムに対する操作のための前記1つ以上の第7コマンドとを音声認識するためのデータで構成される請求項5記載の電子機器。
  8. 前記音声認識手段は、さらに、
    前記音声データから、前記複数の第2コマンドの内、連続音声操作の開始を示す第4コマンド以外の第6コマンドが認識された場合、前記第6コマンドを示す情報を前記電子機器上で実行されているアプリケーションプログラムに送出し、
    前記音声データから、前記複数の第3コマンドの内、連続音声操作の終了を示す第5コマンド以外の第7コマンドが認識された場合、前記第7コマンドを示す情報を前記アプリケーションプログラムに送出する請求項1記載の電子機器。
  9. 前記音声認識手段は、さらに、
    前記音声データから、前記複数の第2コマンドの内の第6コマンドが認識された場合、前記第6コマンドを示す情報を前記電子機器上で実行されるアプリケーションプログラムに送出し、
    前記音声データから、前記複数の第3コマンドの内、連続音声操作の終了を示す第5コマンド以外の第7コマンドが認識された場合、前記第7コマンドを示す情報を前記アプリケーションプログラムに送出する請求項1記載の電子機器。
  10. ユーザが携行可能な電子機器の制御方法であって、
    当該電子機器を前記ユーザが装着可能なウェアラブル機器に有線または無線で接続し、
    前記ウェアラブル機器から、前記ユーザによる発話を集音することによって得られた音声データを取得し、
    音声認識モードが第1モードに設定された場合、前記音声データから1つ以上の第1コマンドの1つを認識する処理を実行し、前記音声認識モードが第2モードに設定された場合、前記音声データから複数の第2コマンドの1つを認識する処理を実行し、前記音声認識モードが第3モードに設定された場合、前記音声データから複数の第3コマンドの1つを認識する処理を繰り返し実行する制御方法。
JP2018176127A 2018-09-20 2018-09-20 電子機器および制御方法 Pending JP2020047061A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018176127A JP2020047061A (ja) 2018-09-20 2018-09-20 電子機器および制御方法
US16/396,541 US11211067B2 (en) 2018-09-20 2019-04-26 Electronic device and control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018176127A JP2020047061A (ja) 2018-09-20 2018-09-20 電子機器および制御方法

Publications (1)

Publication Number Publication Date
JP2020047061A true JP2020047061A (ja) 2020-03-26

Family

ID=69883490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018176127A Pending JP2020047061A (ja) 2018-09-20 2018-09-20 電子機器および制御方法

Country Status (2)

Country Link
US (1) US11211067B2 (ja)
JP (1) JP2020047061A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047062A (ja) * 2018-09-20 2020-03-26 Dynabook株式会社 電子機器および制御方法
US11664031B2 (en) * 2021-03-11 2023-05-30 Apple Inc. Multi-mode voice triggering for audio devices

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003202888A (ja) * 2002-01-07 2003-07-18 Toshiba Corp 無線通信機能付きヘッドセットおよびこれを用いた音声処理システム
US9531410B2 (en) * 2013-03-15 2016-12-27 Google Technology Holdings LLC Method for envelope tracking multiple transmissions through a single power amplifier

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61128330A (ja) 1984-11-27 1986-06-16 Nec Corp 音声認識制御インタ−フエ−ス回路
JPS62127800A (ja) 1985-11-29 1987-06-10 株式会社日立製作所 音声入力装置
JP5049934B2 (ja) 2008-09-22 2012-10-17 株式会社東芝 対話文生成装置及び方法
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
JP6167605B2 (ja) 2013-03-28 2017-07-26 株式会社デンソー 音声認識システム
US9530410B1 (en) * 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
JP6514475B2 (ja) 2014-10-03 2019-05-15 株式会社Nttドコモ 対話装置および対話方法
JP6673243B2 (ja) 2017-02-02 2020-03-25 トヨタ自動車株式会社 音声認識装置
US10373630B2 (en) * 2017-03-31 2019-08-06 Intel Corporation Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003202888A (ja) * 2002-01-07 2003-07-18 Toshiba Corp 無線通信機能付きヘッドセットおよびこれを用いた音声処理システム
US9531410B2 (en) * 2013-03-15 2016-12-27 Google Technology Holdings LLC Method for envelope tracking multiple transmissions through a single power amplifier

Also Published As

Publication number Publication date
US11211067B2 (en) 2021-12-28
US20200098359A1 (en) 2020-03-26

Similar Documents

Publication Publication Date Title
US10674056B2 (en) Wearable apparatus and method for capturing image data using multiple image sensors
CN106031255B (zh) 通信控制装置、通信控制方法及程序
JP2017533480A (ja) スクリーン制御方法及び装置
US11145304B2 (en) Electronic device and control method
CN107430856B (zh) 信息处理系统和信息处理方法
US11061565B2 (en) Electronic device and control method
JP2020047061A (ja) 電子機器および制御方法
KR20210110068A (ko) 제스처 인식 기반의 영상 편집 방법 및 이를 지원하는 전자 장치
KR102490561B1 (ko) 이동 단말기
KR20210017081A (ko) 객체에 대응하는 그래픽 요소 표시 방법 및 장치
US20200098361A1 (en) Electronic device, recognition method, and non-transitory computer-readable storage medium
JP6504154B2 (ja) ウェアラブル装置、および通信制御方法
US20190236260A1 (en) Electronic apparatus, control system, control method, and storage medium
US11042705B2 (en) Electronic device, recognition method, and non-transitory computer-readable storage medium
JP6968689B2 (ja) 電子機器、ウェアラブル機器及び表示制御方法
US10552360B2 (en) Electronic device, connection method, and storage medium
US10852548B2 (en) Electronic device, wearable device, and setting method
JP6064737B2 (ja) 音声認識装置及び音声認識プログラム
US11063822B2 (en) Electronic apparatus and control method
US20190235651A1 (en) Wearable device and operation method
KR102137511B1 (ko) 헤드 마운트 디스플레이 장치
KR20220080399A (ko) 사용자 입력을 처리하는 전자 장치 및 방법
KR102234710B1 (ko) 이동 단말기 및 그 제어방법
US20190235719A1 (en) Electronic device, wearable device, and display control method
JP2015069086A (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230228