JP2015501441A - コンテキスト切り替えのための音声認識 - Google Patents

コンテキスト切り替えのための音声認識 Download PDF

Info

Publication number
JP2015501441A
JP2015501441A JP2014535793A JP2014535793A JP2015501441A JP 2015501441 A JP2015501441 A JP 2015501441A JP 2014535793 A JP2014535793 A JP 2014535793A JP 2014535793 A JP2014535793 A JP 2014535793A JP 2015501441 A JP2015501441 A JP 2015501441A
Authority
JP
Japan
Prior art keywords
context
game
application
user
contexts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2014535793A
Other languages
English (en)
Other versions
JP2015501441A5 (ja
Inventor
ジェイ. モンソン,マシュー
ジェイ. モンソン,マシュー
ピー. ギーズ,ウィリアム
ピー. ギーズ,ウィリアム
ジェイ. グリーナウォルト,ダニエル
ジェイ. グリーナウォルト,ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2015501441A publication Critical patent/JP2015501441A/ja
Publication of JP2015501441A5 publication Critical patent/JP2015501441A5/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • A63F13/10
    • A63F13/12
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/30Interconnection arrangements between game servers and game devices; Interconnection arrangements between game devices; Interconnection arrangements between game servers
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/45Controlling the progress of the video game
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6045Methods for processing data by generating or executing the game program for mapping control signals received from the input arrangement into game commands
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6072Methods for processing data by generating or executing the game program for sound processing of an input signal, e.g. pitch and rhythm extraction, voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

様々な実施形態が、コンテキスト切り替えのための音声認識を実装する技法を提供する。少なくとも一部の実施形態において、これらの技法は、ユーザが、音声コマンドにより、アプリケーションの異なるコンテキスト及び/又はユーザ・インタフェースの間を切り替えることを可能にすることができる。少なくとも一部の実施形態において、音声コマンドによってナビゲーションされ得るアプリケーションに利用可能なコンテキストを列挙するコンテキスト・メニューが提供される。諸実装において、コンテキスト・メニューに提示されるコンテキストは、多様なコンテキスト・フィルタリング基準に基づいてフィルタリングされるコンテキストのより大きなセットのサブセットを含む。ユーザは、コンテキスト・メニューに提示されたコンテキストのうちの1つを発話して、コンテキストのうちの1つに関連するユーザ・インタフェースへのナビゲーションを引き起こすことができる。

Description

本発明は、コンテキスト切り替えのための音声認識に関する。
多くのコンピュータ・アプリケーションは、ユーザがアプリケーションとインタラクションすることができる多様な異なるコンテキスト及びグラフィカル・ユーザ・インタフェースを提供する。例えばビデオ・ゲームは、典型的に、ユーザがビデオ・ゲームによって提供される様々な機能にアクセスすることを可能にする異なるユーザ・インタフェースを含む。一部のユーザ・インタフェースは、ゲームをプレイするためのゲームの舞台、ゲームをプレイするために利用可能な乗り物等のゲームの特定の部分をユーザがカスタマイズすることを可能にする可能性がある。他のユーザ・インタフェースは、シングルプレイヤゲーム・プレイ、マルチプレイヤゲーム・プレイ等の様々なタイプのゲーム・プレイにユーザが参加できるようにする可能性がある。これらの異なるユーザ・インタフェースはより面白く多様なゲーム体験を提供し得るが、様々なユーザ・インタフェースの間をナビゲーションする現在の手法は煩雑である可能性がある。
この「発明の概要」の記載は、「発明を実施するための形態」において以下でさらに説明される概念の選択を、簡素化された形態で導入するために提供される。この「発明の概要」は、特許請求される主題の重要な特徴又は必須の特徴を特定するように意図されておらず、特許請求される主題の範囲を決定する助けとして使用されるようにも意図されていない。
様々な実施形態が、コンテキスト切り替えのための音声認識を実装する技法を提供する。少なくとも一部の実施形態において、それらの技法は、音声コマンドによって、アプリケーションの異なるコンテキスト及び/又はユーザ・インタフェースの間の切り替えをユーザが行うことを可能にすることができる。例えばゲーム・アプリケーションは、異なるインタラクションのコンテキスト及び機能を提供する多様な異なるユーザ・インタフェースを含む可能性がある。一部のユーザ・インタフェースがゲーム・プレイ機能を提供する可能性がある一方、他のユーザ・インタフェースはゲーム・カスタマイズ機能を提供する可能性がある。本明細書において検討される技法は、音声コマンドを発することによって様々なユーザ・インタフェースの間のナビゲーションをユーザが行うことを可能にすることができる。
少なくとも一部の実施形態においては、音声コマンドによってナビゲーションされ得るアプリケーションに利用可能なコンテキストを列挙するコンテキスト・メニューが提供される。例えばユーザは、アプリケーションの特定のコンテキストに関するユーザ・インタフェースが表示されている間に、トリガ・ワードを発話することができる。トリガ・ワードの認識により、コンテキスト・メニューがユーザ・インタフェースの一部として表示されることになる可能性がある。コンテキスト・メニューは、音声コマンドによってナビゲーションされ得る他のコンテキストを含む可能性がある。諸実装において、コンテキスト・メニューに提示される他のコンテキストは、多様なコンテキスト・フィルタリング基準に基づいてフィルタリングされるコンテキストのより大きなセットのサブセットを含む。ユーザは、コンテキスト・メニューに提示されたコンテキストのうちの1つを発話して、異なるコンテキストに関連するユーザ・インタフェースへのナビゲーションを引き起こすことができる。
以下の詳細な説明は、添付の図面を参照して記載される。図面において、参照番号の最も左の(1つ又は複数の)数字は、参照番号が最初に現れる図面を特定する。説明及び図面において異なる事例で同じ参照番号を使用することは、同様の又は同一のものを示す可能性がある。
1つ又は複数の実施形態による、本明細書において検討される技法を用いるように動作可能な例示的な動作環境を示す図である。 1つ又は複数の実施形態による例示的なコンテキスト切り替えのシナリオを示す図である。 1つ又は複数の実施形態による例示的なコンテキスト切り替えのシナリオを示す図である。 1つ又は複数の実施形態による方法のステップを示すフロー図である。 1つ又は複数の実施形態による方法のステップを示すフロー図である。 1つ又は複数の実施形態による、図1及び7を参照して説明されるコンピューティング・デバイスを含む例示的なシステムを示す図である。 本明細書において説明される様々な実施形態を実装するのに利用され得る例示的なコンピューティング・デバイスを示す図である。
<概要>
様々な実施形態が、コンテキスト切り替えのための音声認識を実装する技法を提供する。少なくとも一部の実施形態において、それらの技法は、音声コマンドによって、ユーザがアプリケーションの異なるコンテキスト及び/又はユーザ・インタフェースの間の切り替え行うことを可能にすることができる。例えばゲーム・アプリケーションは、異なるインタラクションのコンテキスト及び機能を提供する多様な異なるユーザ・インタフェースを含む可能性がある。一部のユーザ・インタフェースがゲーム・プレイ機能を提供する可能性がある一方、その他のユーザ・インタフェースはゲーム・カスタマイズ機能を提供する可能性がある。本明細書において検討される技法は、音声コマンドを発することによって様々なユーザ・インタフェースの間のナビゲーションをユーザが行うことを可能にすることができる。
少なくとも一部の実施形態においては、音声コマンドによってナビゲーションされ得るアプリケーションに利用可能なコンテキストを列挙するコンテキスト・メニューが提供される。例えばユーザは、アプリケーションの特定のコンテキストに関するユーザ・インタフェースが表示されている間にトリガ・ワードを発話することができる。トリガ・ワードの認識により、コンテキスト・メニューがユーザ・インタフェースの一部として表示されることになる可能性がある。コンテキスト・メニューは、音声コマンドによってナビゲーションされ得る他のコンテキストを含む可能性がある。諸実装において、コンテキスト・メニューに提示される他のコンテキストは、多様なコンテキスト・フィルタリング基準に基づいてフィルタリングされるコンテキストのより大きなセットのサブセットを含む。ユーザは、コンテキスト・メニューに提示されたコンテキストのうちの1つを発話して、異なるコンテキストに関連するユーザ・インタフェースへのナビゲーションを引き起こすことができる。
以下の検討においては、「動作環境」というタイトルのセクションを設けて、1つ又は複数の実施形態を使用することができる環境を説明する。これに続いて、「例示的なコンテキスト切り替えのシナリオ」というタイトルのセクションにおいて、1つ又は複数の実施形態による例示的なコンテキスト切り替えのシナリオを説明する。次に、「例示的な方法」というタイトルのセクションにおいて、1つ又は複数の実施形態による例示的な方法を説明する。最後に、「例示的なシステム及びデバイス」というタイトルのセクションにおいて、1つ又は複数の実施形態を実装するのに利用され得る例示的なシステム及び例示的なデバイスを説明する。
<動作環境>
図1は、1つ又は複数の実施形態による動作環境を全体的に100で示す。動作環境100は、様々な手法で構成され得るコンピューティング・デバイス102を含む。例えばコンピューティング・デバイス102を、限定ではなく例として、ゲーム・コンソール、デスクトップコンピュータ、ポータブルコンピュータ、携帯情報端末(PDA)のようなハンドヘルドコンピュータ、セル電話等の任意の好適なコンピューティング・デバイスとして具現化することができる。コンピューティング・デバイス102の1つの例示的な構成は、図7に示され、下記で説明される。
コンピューティング・デバイス102の一部として、1つ又は複数のアプリケーション104が含まれる。1つ又は複数のアプリケーション104は、多種多様なタスクがコンピューティング・デバイス102によって実行されることを可能にする機能を表す。例えばアプリケーション104をコンピューティング・デバイス102によって実行して、ビデオ・ゲーム、文書処理、電子メール、表計算、メディア・コンテンツの消費等のような機能を提供することができる。
コンピューティング・デバイス102の一部として更に入力/出力モジュール106が含まれる。入力/出力モジュール10は、情報を送受信するための機能を表す。例えば入力/出力モジュール106は、キーボード、マウス、タッチパッド、ゲーム・コントローラ、光学式スキャナ等の入力デバイスによって生成された入力を受信するように構成される可能性がある。入力/出力モジュール106はまた、音声認識、ジェスチャに基づく入力、物体のスキャン等のような非接触式のメカニズムを介して受信される入力を受信及び/又は解釈するようにも構成される可能性がある。そのような実施形態に加えて、コンピューティング・デバイス102は、人のジェスチャの視覚的認識、物体のスキャン、音声入力、色入力等を介するような多様な非接触式の入力を受信するように構成されるナチュラル・ユーザ・インタフェース(NUI)デバイス108を含む。
入力/出力モジュール106の一部として音声認識モジュール110が含まれる。音声認識モジュール110は、(例えばNUIデバイス108からの)音声入力を認識し、音声入力を、タスクを実行する他のエンティティによって使用可能な形式に変換する機能を表す。
本明細書において検討される技法に加えて、アプリケーション104は、1つ又は複数のコンテキスト・モジュール112を含む。1つ又は複数のコンテキスト・モジュール112は、アプリケーションが、該アプリケーションに関連する様々なコンテキスト及び/又はユーザ・インタフェースの間を切り替えることができるようにする機能を表す。少なくとも一部の実施形態において、コンテキスト・モジュール112は、本明細書において検討される技法を実装するため、入力/出力モジュール106及び/又は音声認識モジュール110から入力を受信するように構成される。
動作環境100は、コンピューティング・デバイス102に結合されるディスプレイ・デバイス114を更に含む。少なくとも一部の実施形態において、ディスプレイ・デバイス114は、アプリケーション104によって生成され、入力/出力モジュール106によってディスプレイ・デバイス114に提供されるユーザ・インタフェースのような、コンピューティング・デバイス102からの出力を受信して表示するように構成される。諸実装において、入力/出力モジュール106は、NUIデバイス108から入力(例えば音声入力)を受信することができ、この入力を利用して、ユーザがコンテキスト・モジュール112とインタラクションしてアプリケーション104によって提供される様々なコンテキスト及び/又はユーザ・インタフェースの間をナビゲーションすることを可能にすることができる。動作環境100の更なる実装は以下で検討される。
概して、本明細書において説明される機能の任意のものを、ソフトウェア、ファームウェア、ハードウェア(例えば固定の論理回路)又はこれらの実装の組合せを使用して実装することができる。本明細書で使用されるとき、用語「モジュール」、「機能」及び「論理」は、概して、ソフトウェア、ファームウェア、ハードウェア又はこれらの組み合わせを表す。ソフトウェアによる実装の場合、モジュール、機能又は論理は、プロセッサ(例えば1つ又は複数のCPU)において実行されると、指定されたタスクを実行するプログラム・コードを表す。プログラム・コードを、1つ又は複数のコンピュータ読取可能メモリデバイスに記憶することができる。以下で説明される技法の特徴は、プラットフォーム独立であり、これは、それらの技法が、様々なプロセッサを有する様々な市販のコンピューティング・プラットフォームで実装され得ることを意味する。
例えばコンピューティング・デバイス102は、コンピューティング・デバイス102のハードウェアに、例えばプロセッサ、機能ブロック等に動作を実行させるエンティティ(例えばソフトウェア)も含むことがある。例えばコンピューティング・デバイス102はコンピュータ読取可能媒体を含むことがあり、コンピュータ読取可能媒体は、コンピューティング・デバイス、及びより具体的にはコンピューティング・デバイス102のハードウェアに動作を実行させる命令を保持するように構成され得る。したがって、命令は、動作を実行するようにハードウェアを構成するよう機能し、この結果として、機能を実行するようにハードウェアを転換する。命令は、多様な異なる構成を通じてコンピュータ読取可能媒体によってコンピューティング・デバイス102に提供され得る。
コンピュータ読取可能媒体の1つのそのような構成は、信号を伝送する媒体であり、したがって、ネットワークを介するなどして命令を(例えば搬送波として)コンピューティング・デバイスのハードウェアに送信するように構成される。コンピュータ読取可能媒体は、コンピュータ読取可能記憶媒体として構成されることもあり、したがって、信号を伝送する媒体ではない。コンピュータ読取可能記憶媒体の例は、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、光ディスク、フラッシュ・メモリ、ハード・ディスク・メモリ、並びに命令及び他のデータを記憶するのに磁気式、光学式及び他の技法を使用し得る他のメモリデバイスを含む。
<例示的なコンテキスト切り替えのシナリオ>
このセクションは、本明細書において検討される技法によって可能にされ得る例示的なコンテキスト切り替えのシナリオについて検討する。少なくとも一部の実施形態において、例示的なコンテキスト切り替えのシナリオは、上で検討された動作環境100及び/又は以下で検討される例示的なシステム600の態様によって実装され得る。したがって、例示的なコンテキスト切り替えのシナリオの特定の態様は、動作環境100及び/又は例示的なシステム600の特徴を参照して検討される。これは、例示のみを目的としており、例示的なコンテキスト切り替えのシナリオの態様を、特許請求される実施形態の趣旨及び範囲から逸脱することなく多様な異なる動作環境及びシステムで実装することができる。
図2は、例示的なコンテキスト切り替えのシナリオを全体的に200で示す。コンテキスト切り替えのシナリオ200の上部では、ディスプレイ・デバイス114は、ゲーム・アプリケーションに関連するカスタマイズ・インタフェース202を表示する。諸実装において、カスタマイズ・インタフェース202は、ゲームの乗り物の部品を取り換えること、乗り物の色を変えること等により、ゲーム・アプリケーションの様々な態様をユーザがカスタマイズすることを可能にする。したがって、カスタマイズ・インタフェース202は、ゲーム・アプリケーションに関連する様々なタスクが実行されることを可能にする機能の特定のセットに関連付けられる。
コンテキスト切り替えのシナリオの上部にさらに図示されているのは、NUIデバイス108に対する音声入力204である。音声入力204は、ユーザによって発話され、NUIデバイス108の1つ又は複数の音声感知手段によって感知され得る言葉及び/又は他の発声を表す。音声入力204の一部として含まれるのはトリガ・ワード206であり、トリガ・ワード206は、発話されると、本明細書において検討される音声認識機能をアクティブ化することができる言葉を表す。
コンテキスト切り替えのシナリオ200の下部に続くと、音声入力204(例えばトリガ・ワード206)の認識は、コンテキスト・メニュー208がカスタマイズ・インタフェース202に提示されることを引き起こす。コンテキスト・メニュー208は、ゲーム・アプリケーションに関連する他のコンテキストにナビゲーションするのに選択され得るコンテキスト・オプションを含む。例えばコンテキスト・オプションが発話されると、特定のコンテキスト・オプションを選択し、そしてこの特定のコンテキスト・オプションに関連するグラフィカル・ユーザ・インタフェースへのナビゲーションを引き起こすことができる。コンテキスト・メニュー208に提示されるコンテキスト・オプションは、1つ又は複数のフィルタリング基準に基づいてフィルタリングされる、フィルタリング済みのコンテキスト・オプションを含む可能性がある。コンテキスト・オプションをフィルタリングする例示的な手法が以下で検討される。
図3は、例示的なコンテキスト切り替えのシナリオを全体的に300で示す。諸実装において、コンテキスト切り替えのシナリオ300は、上で検討されたコンテキスト切り替えのシナリオ200の続きを表す。コンテキスト切り替えのシナリオ300の上部には、カスタマイズ・インタフェース202が、コンテキスト・メニュー208とともに表示されている。コンテキスト・ワード304を含む音声入力302が、NUIデバイス108で受信される。この例において、コンテキスト・ワード304は、コンテキスト・メニュー208からのコンテキスト・オプションのうちの1つの選択を表す。
コンテキスト切り替えのシナリオ300の下部に続くと、音声入力302の認識は、レース・インタフェース306がディスプレイ・デバイス114に表示されることを引き起こす。レース・インタフェース306は、ユーザが、ゲーム・アプリケーションに関連する1つ又は複数のレースに参加することを可能にする。したがって、レース・インタフェース306を、ゲーム・プレイに関連するアクションが実行されることを可能にする機能の特定のセットに関連付けられる可能性がある。諸実装において、レース・インタフェース306によって示される機能は、上で検討されたカスタマイズ・インタフェース202によって表される機能とは異なる。したがって、本明細書において検討される技術は、音声入力による機能の異なる組の間の切り替えを可能にすることができる。
コンテキスト切り替えのシナリオを、提示されているコンテキスト・メニューに関連して上で検討したが、少なくとも一部の実施形態は、コンテキスト・メニューの提示を必要とせずにコンテキスト切り替えを可能にすることができる。例えばユーザが、トリガ・ワードを発話し、続いてコンテキスト・ワードを発話することができ、これにより、コンテキスト・メニューの提示に依存せずにコンテキスト間の切り替えを引き起こすことができる。したがって、コンテキスト・ワードは、特定のコンテキスト、ユーザ・インタフェース、及び/又は機能の組を呼び出すために発話され得る言葉を表す可能性がある。
例示的なコンテキスト切り替えのシナリオを説明したので、次に、1つ又は複数の実施形態による例示的な方法の議論を検討する。
<例示的な方法>
以下で検討されるのは、本明細書において検討される技法を実行するように実施され得るいくつかの方法である。方法の態様は、ハードウェア、ファームウェア又はソフトウェア、あるいはこれらの組合せで実装され得る。方法は、1つ又は複数のデバイスによって実行される動作を指定するブロックのセットとして示されるが、それぞれのブロックによる動作を実行するために示された順序に必ずしも限定されない。さらに、特定の方法に関して示される動作を、1つ又は複数の実装に従って、異なる方法の動作と組み合わされてもよく、及び/又は交換されてもよい。方法の態様を、環境100を参照して上で検討され、システム600を参照して以下で検討される様々なエンティティの間のインタラクションにより実装することができる。
図4は、1つ又は複数の実施形態による方法のステップを説明するフロー図である。ステップ400において、第1のコンテキストに関連するグラフィカル・ユーザ・インタフェースを表示する。例えば機能の特定のセットに関連するゲーム・グラフィカル・ユーザ・インタフェースを表示することができる。ステップ402において、異なるコンテキストへの潜在的なナビゲーションを示す発話されたトリガ・ワードを認識する。潜在的なナビゲーションを示す多種多様な異なるトリガ・ワードが実装され得る。
ステップ404において、ナビゲーションされる、1つ又は複数の異なるコンテキストを含むコンテキスト・メニューを提示する。この1つ又は複数の異なるコンテキストを、コンテキストのセットを様々な異なるフィルタリング基準に基づいてフィルタリングすることによって決定することができる。そのようなフィルタリング基準の例は下記で検討される。諸実装において、コンテキスト・メニューを、第1のコンテキストに関連するグラフィカル・ユーザ・インタフェースの一部として表示することができる。
ステップ406において、コンテキスト・ワードの音声入力が、トリガ・ワードの認識の後の特定の時間間隔以内に認識されるかどうかを判定する。例えば発話されたトリガ・ワードが検出された後に、及び/又はコンテキスト・メニューが提示された後に、タイマーが経過し始める可能性がある。コンテキスト・ワードの音声入力が特定の時間間隔以内に認識されない場合(「いいえ」)、プロセスはステップ400に戻る。例えばコンテキスト・メニューを、表示から除去することができ、第1のコンテキストに関連するグラフィカル・ユーザ・インタフェースに、フォーカスを与えることができる。
コンテキスト・ワードの音声入力が特定の時間間隔以内に受信される場合(「はい」)、ステップ408において、第2のコンテキストに関連するグラフィカル・ユーザ・インタフェースにナビゲーションする。第2のコンテキストに関連するグラフィカル・ユーザ・インタフェースを、第1のコンテキストに関連するユーザ・インタフェースとは異なる機能の組に関連付けることができる。諸実装において、第2のコンテキストに関連するグラフィカル・ユーザ・インタフェースを、ユーザからの追加の入力とは無関係に、音声コマンド(例えばトリガ・ワード及び/又はコンテキスト・ワード)に応答してナビゲーションし、表示することができる。
本明細書において、諸実装を、トリガ・ワードとコンテキスト・ワードとの組み合わせに関連して検討しているが、これは限定的であるようには意図されていない。例えば一部の実装は、単一のワード及び/又は句の音声認識を用いて、第1のコンテキストに関連するユーザ・インタフェースから第2のコンテキストに関連するユーザ・インタフェースにナビゲーションすることができる。
図5は、1つ又は複数の実施形態による方法のステップを示すフロー図である。諸実装において、本方法は、上で検討されたステップ404のより詳細な実装を表すことができる。少なくとも一部の実施形態において、本方法を、少なくとも部分的に、コンテキスト・モジュール112のうちの1つ又は複数によって実装することができる。
ステップ500において、アプリケーションに関するコンテキスト・オプションのセットをフィルタリングする。例えばコンテキスト・オプションのセットを、アプリケーションの属性、アプリケーションが実行されているデバイス又はデバイスのユーザなどの、1つ又は複数のコンテキスト固有の基準に基づいてフィルタリングすることができる。諸実装において、コンテキスト・オプションの異なるセットが、異なるバージョンのアプリケーションに利用可能である可能性がある。例えばプレミアム・バージョンのアプリケーションは、標準バージョンのアプリケーションよりも多くのコンテキスト・オプションを有する可能性がある。例えばプレミアム・バージョンは、標準バージョンのアプリケーションと比べてより多くのゲーム・プレイの種類、より多くのカスタマイズ・オプション、より多くのマルチプレイヤ・オプション等にアクセスすることができる可能性がある。
さらに、アプリケーションのステータスも、コンテキスト・オプションをフィルタリングするのに使用することができる。例えばゲーム・アプリケーションがセーブされたゲームを有していない場合、セーブされたゲームに関連するコンテキスト・オプション(例えば以前のゲームのリプレイを見ること)が利用可能でないことがある。
デバイスの属性も、利用可能なコンテキスト・オプションに影響を与える可能性がある。例えばデバイスがネットワーク(例えばインターネット)に接続されていないか、又はデバイスのネットワーク接続が特定の閾値の帯域幅を下回る場合、ある特定のネットワーク関連のコンテキスト・オプションが利用可能でないことがある。そのようなネットワーク関連のコンテキスト・オプションは、マルチプレイヤのネットワーク・ゲーム・プレイ、ネットワーク・リソースから利用可能なコンテンツ(例えば乗り物、ゲームのキャラクター、舞台等)、ネットワーク・リソースを用いるメッセージング・サービス等を含む可能性がある。
さらに、デバイスの特定の能力も、利用可能なコンテキスト・オプションに影響を与える可能性がある。例え、閾値のデータ及び/又はグラフィックスの処理能力を必要とする特定のゲーム・プレイのオプションは、その閾値の処理能力を満たさないデバイスでは利用可能でないことがある。
ユーザの属性も、利用可能なコンテキスト・オプションに影響を与える可能性がある。例えばアプリケーションは、異なるリソース及び/又は機能にアクセスするためにユーザが加入することができる異なるアカウント会員レベルに関連付けられる可能性がある。プレミアム会員レベルは、延長されたマルチプレイヤ・ゲームの時間、より多くの舞台オプション、より多くの乗り物オプション、より多くのゲーム・プレイのキャラクタ・オプションなど、標準の会員レベルと比べると、拡大されたアクセスの権限をユーザに与えることができる。
ユーザの属性は、ユーザ・アカウントに関連する安全管理についても考慮する可能性がある。例えば比較的年齢の若いユーザが、比較的年齢の高いユーザには利用可能性がある特定のゲーム・コンテンツ及び/又は機能にアクセスするのを防止することができる。したがって、コンテンツ・オプションを、ユーザの年齢及び/又はユーザに関連付けられたアクセス許可に基づいてフィルタリングすることができる。様々な他の考慮事項を、コンテキスト・オプションをフィルタリングするときに考慮に入れることができる。
ステップ502において、アプリケーションに利用可能なコンテキスト・オプションのセットを生成する。例えば利用可能なコンテキスト・オプションは、上で検討されたコンテキスト・オプションのセットからフィルタアウトされないコンテキスト・オプションのサブセットに対応する可能性がある。ステップ504において、利用可能なコンテキスト・オプションを、異なるコンテキストにナビゲーションするために音声コマンドを介して選択可能にすることができる。例えば利用可能なコンテキスト・オプションの1つ又は複数を、上で検討されたコンテキスト・メニューの一部として表示することができる。あるいはまた、利用可能なコンテキスト・オプションの1つ又は複数を、表示されるものとは独立に、音声入力による選択が可能にされることができる。
1つ又は複数の実施形態による方法を説明したので、次に、1つ又は複数の実施形態を実装するのに用いることができる例示的なシステム及び例示的なデバイスを検討する。
<例示的なシステム及びデバイス>
図6は、コンピューティング・デバイス102を、複数のデバイスが中央コンピューティング・デバイスを通じて相互接続される環境で実装されるものとして示す、例示的なシステム600を図示している。中央コンピューティング・デバイスは、複数のデバイスに対してローカルであってよく、また複数のデバイスからリモートに配置されてもよい。一実施形態において、中央コンピューティング・デバイスは、ネットワーク又はインターネット又は他の手段を通じて複数のデバイスに接続される1つ又は複数のサーバ・コンピュータを含む「クラウド」のサーバ・ファームである。
一実施形態において、この相互接続アーキテクチャは、機能を複数のデバイスに配信して複数のデバイスのユーザに共通のシームレスな体験を提供することを可能にする。複数のデバイスのそれぞれは、異なる物理的な要件及び能力を有してよく、中央コンピューティング・デバイスは、デバイスに合わせて調整され、しかも全てのデバイスに共通の体験のデバイスへの配信を可能にするプラットフォームを使用する。一実施形態においては、目標のデバイスの「クラス」が生成され、体験がデバイスの包括的なクラスに合わせて調整される。デバイスのクラスは、デバイスの物理的な特徴又は用法又は他の一般的な特性によって定義され得る。例えば上に説明したように、コンピューティング・デバイス102は、モバイル604用、コンピュータ602用及びテレビ606用などの、多様な異なる手法で構成されることがある。これらの構成のそれぞれは、概ね対応するスクリーン・サイズを有し、したがって、コンピューティング・デバイス102は、この例示的なシステム600におけるこれらのデバイスのクラスのうちの1つとして構成されてよい。例えばコンピューティング・デバイス102は、携帯電話、音楽プレイヤ、ゲーム・デバイス等を含むモバイル604クラスのデバイスを想定してよい。
コンピューティング・デバイス102は、パーソナルコンピュータ、ラップトップコンピュータ、ネットブック等を含むコンピュータ602クラスのデバイスを想定してもよい。テレビ606構成は、例えばテレビ、セット・トップ・ボックス、ゲーム・コンソール等の、日常的な環境においてディスプレイを含むデバイスの構成を含む。したがって、本明細書で説明される技法は、コンピューティング・デバイス102のこれらの様々な構成によってサポートされる可能性があり、以下のセクションで説明される具体的な例には限定されない。
クラウド608は、ウェブ・サービス612のプラットフォーム610を含むものとして示されている。プラットフォーム610は、クラウド608のハードウェア(例えばサーバ)の基礎的な機能及びソフトウェア・リソースを抽象化し、したがって「クラウド・オペレーティング・システム」として動作することができる。例えばプラットフォーム610は、コンピューティング・デバイス102を他のコンピューティング・デバイスと接続するためのリソースを抽象化することがある。プラットフォーム610は、プラットフォーム610を介して実装されるウェブ・サービス612の直面している需要に対応するレベルの規模を提供するようにリソースのスケーリングを抽象化するように働く可能性もある。サーバ・ファーム内のサーバの負荷分散、悪意のあるパーティ(例えばスパム、ウィルス及び他のマルウェア)からの保護など、多様な他の例も企図される。
したがって、クラウド608は、インターネット又は他のネットワークを介してコンピューティング・デバイス102に対して利用可能にされる、ソフトウェア及びハードウェア・リソースに関する方針の一部として含まれる。例えば本明細書において検討された、コンテキスト切り替えのための音声認識の技法を、部分的にコンピューティング・デバイス102において実装し、更にウェブ・サービス612をサポートするプラットフォーム610によって実装してもよい。
諸実装において、コンピューティング・デバイス102への入力を、モバイル604構成のタッチスクリーン機能やコンピュータ602構成のトラック・パッド機能を使用して検出してもよく、特定の入力デバイスとの接触を要しないナチュラル・ユーザ・インタフェース(NUI)のサポートの一部としてカメラによって検出してもよい。さらに、本明細書において検討された技法を実装する動作の性能を、コンピューティング・デバイス102、及び/又はクラウド608のプラットフォーム610によってサポートされるウェブ・サービス612によるなどして、システム600中に分散させてもよい。
図7は、本明細書において説明されたコンテキスト切り替えのための音声認識の技法の実施形態を実装するように、図1及び図6を参照して説明された任意の種類のポータブル及び/又はコンピュータ・デバイスとして実装され得る、例示的なデバイス700の様々な構成要素を図示している。デバイス700は、デバイスデータ704(例えば受信済みのデータ、受信中のデータ、ブロードキャストのためにスケジューリングされたデータ、データのデータ・パケット等)の有線及び/又は無線通信を可能にする通信デバイス702を含む。デバイスデータ704又は他のデバイスコンテンツは、デバイスの構成設定、デバイスに記憶されたメディア・コンテンツ及び/又はデバイスのユーザに関連する情報を含むことができる。デバイス700に記憶されたメディア・コンテンツは、任意の種類のオーディオ、ビデオ、及び/又は画像データを含む可能性がある。デバイス700は1つ又は複数のデータ入力部706を含み、この1つ又は複数のデータ入力部を介して、ユーザ選択可能な入力、メッセージ、音楽、テレビ・メディア・コンテンツ、記録されたビデオ・コンテンツ、並びに任意のコンテンツ及び/又はデータソースから受信される任意の他の種類のオーディオ、ビデオ、及び/又は画像データのような、任意の種類のデータ、メディア・コンテンツ及び/又は入力を受信することができる。
デバイス700は通信インタフェース708も含む。通信インタフェース708は、シリアル及び/又はパラレル・インタフェース、無線インタフェース、任意の種類のネットワーク・インタフェース、モデムのうちの任意の1つ又は複数として、並びに任意の他の種類の通信インタフェースとして実装され得る。通信インタフェース708は、デバイス700と、他の電子デバイス、コンピューティング・デバイス及び通信デバイスがデバイス700とデータを通信する通信ネットワークとの間の接続及び/又は通信リンクを提供する。
デバイス700は、1つ又は複数のプロセッサ710(例えばマイクロプロセッサ、コントローラなどのいずれか)を含む。プロセッサ710は、様々なコンピュータ実行可能又は読取可能命令を処理して、デバイス700の動作を制御し、そして上述のコンテキスト切り替えのための音声認識の実施形態を実装する。あるいはまた、デバイス700は、全体的に712で特定される処理及び制御回路に関連して実装されるハードウェア、ファームウェア又は固定の論理回路のうちの任意の1つ又は組み合わせによって実装される可能性がある。図示されていないが、デバイス700は、デバイス内の様々な構成要素を結合するシステム・バス又はデータ転送システムを含むことができる。システム・バスは、メモリバス若しくはメモリ・コントローラ、周辺バス、ユニバーサル・シリアル・バス、及び/又はプロセッサ若しくはローカル・バスのような、多様なバス・アーキテクチャのいずれかを利用する異なるバス構造のうちの任意の1つ又は組み合わせを含むことができる。
デバイス700は、1つ又は複数のメモリ・コンポーネントなどのコンピュータ読取可能媒体714も含む。メモリ・コンポーネントの例には、ランダム・アクセス・メモリ(RAM)、不揮発性メモリ(例えば読み取り専用メモリ(ROM)、フラッシュ・メモリ、EPROM、EEPROM等のいずれか1つ又は複数)及びディスク・ストレージ・デバイスが含まれる。ディスク・ストレージ・デバイスは、ハード・ディスク・ドライブ、記録可能な及び/又は書き換え可能なコンパクト・ディスク(CD)、任意の種類のデジタル多用途ディスク(DVD)等の任意の種類の磁気又は光ストレージ・デバイスとして実装され得る。デバイス700は大容量記憶媒体デバイス716を含むこともできる。
コンピュータ読取可能媒体714は、デバイスデータ704だけでなく、様々なデバイスアプリケーション718、及びデバイス700の動作の態様に関連する任意の他の種類の情報及び/又はデータを記憶するためのデータ記憶機構を提供する。例えばオペレーティング・システム720を、コンピュータ読取可能媒体714によってコンピュータ・アプリケーションとして保持し、プロセッサ710において実行することができる。デバイスアプリケーション718は、デバイス・マネージャ(例えば制御アプリケーション、ソフトウェア・アプリケーション、信号処理及び制御モジュール、特定のデバイスにネイティブのコード、特定のデバイスのハードウェア抽象化レイヤなど)、並びにウェブ・ブラウザ、画像処理アプリケーション、インスタント・メッセージング・アプリケーションのような通信アプリケーション、文書処理アプリケーション及び様々な他の異なるアプリケーションを含むことができる他のアプリケーションを含むことができる。デバイスアプリケーション718は、本明細書において説明されるコンテキスト切り替えのための音声認識の技法の実施形態を実装するシステム構成要素又はモジュールも含む。
この例において、デバイスアプリケーション718は、ソフトウェア・モジュール及び/又はコンピュータ・アプリケーションとして示されているインタフェース・アプリケーション722及びジェスチャ・キャプチャ・ドライバ724を含む。ジェスチャ・キャプチャ・ドライバ724は、タッチスクリーン、トラック・パッド、カメラ等のジェスチャをキャプチャするように構成されたデバイスとのインタフェースを提供するのに使用されるソフトウェアを表す。あるいはまた、インタフェース・アプリケーション722及びジェスチャ・キャプチャ・ドライバ724を、ハードウェア、ソフトウェア、ファームウェア又はこれらの任意の組み合わせとして実装することができる。
デバイス700は、オーディオ及び/又はビデオ入力出力システム726も含む。オーディオ及び/又はビデオ入力出力システム726は、オーディオ・データをオーディオ・システム728に提供し、及び/又はビデオ・データをディスプレイ・システム730に提供する。オーディオ・システム728及び/又はディスプレイ・システム730は、オーディオ、ビデオ、及び画像データを処理、表示、及び/又は他の形でレンダリングする任意のデバイスを含むことができる。ビデオ信号及びオーディオ信号は、RF(無線周波数)リンク、Sビデオ・リンク、コンポジット・ビデオ・リンク、コンポーネント・ビデオ・リンク、DVI(デジタル・ビデオ・インタフェース)、アナログ・オーディオ接続又は他の同様の通信リンクを介して、デバイス700からオーディオ・デバイス及び/又はディスプレイ・デバイスに通信される可能性がある。一実施形態において、オーディオ・システム728及び/又はディスプレイ・システム730は、デバイス700の外部構成要素として実装される。あるいは、オーディオ・システム728及び/又はディスプレイ・システム730は、例示的なデバイス700の組み込み構成要素として実装される。
<結論>
様々な実施形態が、コンテキスト切り替えのための音声認識の技法を提供する。本主題を構造的特徴及び/又は方法的動作に特有の言葉で説明したが、添付の特許請求の範囲で定義される主題は、必ずしも上述の具体的な特徴又は動作に限定されないことを理解されたい。むしろ、上述の具体的な特徴及び動作は、特許請求の範囲を実装する例示的な形態として開示されている。

Claims (10)

  1. コンピュータにより実施される方法であって、
    発話されたトリガ・ワードの認識に応答して、アプリケーションに関する第1のアプリケーション・コンテキストに関連するユーザ・インタフェースにコンテキスト・メニューを提示するステップであって、前記コンテキスト・メニューが、音声コマンドによってナビゲーションされ得る少なくとも1つの他のアプリケーション・コンテキストを含む、ステップと、
    前記発話されたトリガ・ワードの前記認識の後の特定の時間間隔以内に、前記少なくとも1つの他のアプリケーション・コンテキストに関連するコンテキスト・ワードの音声入力を認識するステップと、
    前記コンテキスト・ワードの前記音声入力の前記認識に応答して、前記第1のアプリケーション・コンテキストに関連する前記ユーザ・インタフェースから前記少なくとも1つの他のアプリケーション・コンテキストに関連するユーザ・インタフェースへナビゲーションするステップと
    を含む、方法。
  2. 前記アプリケーションが、ゲーム・アプリケーションを含み、前記第1のアプリケーション・コンテキストに関連する前記ユーザ・インタフェースが、前記少なくとも1つの他のアプリケーション・コンテキストに関連する前記ユーザ・インタフェースが含むゲーム機能のセットとは異なるゲーム機能のセットを含む、請求項1に記載の方法。
  3. 前記提示するステップが、1つ又は複数のコンテキスト固有の基準に基づいてアプリケーション・コンテキストのセットをフィルタリングして、前記少なくとも1つの他のアプリケーション・コンテキストを決定するステップを含む、請求項1に記載の方法。
  4. 前記コンテキスト固有の基準が、前記アプリケーションの属性、前記アプリケーションが実行されているデバイスの属性又は前記デバイスのユーザの属性、のうちの1つ又は複数を含む、請求項3に記載の方法。
  5. 前記ナビゲーションするステップが、ユーザからの追加の入力とは無関係に、前記コンテキスト・ワードの前記音声入力の前記認識に応答して行われる、請求項1に記載の方法。
  6. ゲーム・アプリケーションを備えた1つ又は複数のコンピュータ読取可能記憶媒体であって、前記ゲーム・アプリケーションは、コンピューティング・デバイスによって実行されると、該コンピューティング・デバイスに、
    前記ゲーム・アプリケーションの第1のゲーム・コンテキストに関連するユーザ・インタフェースが表示されている間に、トリガ・ワードの音声入力の指示を受信させ、
    前記ゲーム・アプリケーションに関する1つ又は複数のフィルタリング基準を使用してゲーム・コンテキストのセットをフィルタリングして、1つ又は複数の利用可能なゲーム・コンテキストのセットを生成させ、
    前記1つ又は複数の利用可能なゲーム・コンテキストのセットを、前記第1のゲーム・コンテキストに関連する前記ユーザ・インタフェースの一部として表示させ、
    追加のユーザ入力とは無関係に、前記利用可能なゲーム・コンテキストの1つ又は複数についての音声での選択の指示に応答して、前記ゲーム・アプリケーションの第2のゲーム・コンテキストに関連するユーザ・インタフェースへナビゲーションさせる、
    1つ又は複数のコンピュータ読取可能記憶媒体。
  7. 前記第1のゲーム・コンテキスト又は前記第2のゲーム・コンテキストのうちの一方が、ゲーム・カスタマイズ機能に関連付けられ、前記第1のゲーム・コンテキスト又は前記第2のゲーム・コンテキストのうちの他方が、ゲーム・プレイ機能に関連付けられる、請求項6に記載の1つ又は複数のコンピュータ読取可能記憶媒体。
  8. 前記フィルタリング基準が、前記コンピューティング・デバイスの属性又は前記コンピューティング・デバイスのユーザの属性、のうちの1つ又は複数に基づく、請求項6に記載の1つ又は複数のコンピュータ読取可能記憶媒体。
  9. 前記フィルタリング基準が、前記コンピューティング・デバイスのネットワーク接続性のステータスを含む、請求項6に記載の1つ又は複数のコンピュータ読取可能記憶媒体。
  10. 前記フィルタリング基準が、ユーザに関連する前記ゲーム・アプリケーションに関するアカウント会員レベル、前記ユーザに関連するアクセス許可又は前記ユーザの年齢のうちの1つ又は複数を含む、請求項6に記載の1つ又は複数のコンピュータ読取可能記憶媒体。
JP2014535793A 2011-10-10 2012-10-10 コンテキスト切り替えのための音声認識 Ceased JP2015501441A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/270,018 US9256396B2 (en) 2011-10-10 2011-10-10 Speech recognition for context switching
US13/270,018 2011-10-10
PCT/US2012/059410 WO2013055709A1 (en) 2011-10-10 2012-10-10 Speech recognition for context switching

Publications (2)

Publication Number Publication Date
JP2015501441A true JP2015501441A (ja) 2015-01-15
JP2015501441A5 JP2015501441A5 (ja) 2015-11-05

Family

ID=47968193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014535793A Ceased JP2015501441A (ja) 2011-10-10 2012-10-10 コンテキスト切り替えのための音声認識

Country Status (7)

Country Link
US (1) US9256396B2 (ja)
EP (1) EP2766791B1 (ja)
JP (1) JP2015501441A (ja)
KR (1) KR102078889B1 (ja)
CN (1) CN103019535B (ja)
TW (1) TWI601128B (ja)
WO (1) WO2013055709A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021182168A (ja) * 2016-01-06 2021-11-25 グーグル エルエルシーGoogle LLC 音声認識システム

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9737796B2 (en) 2009-07-08 2017-08-22 Steelseries Aps Apparatus and method for managing operations of accessories in multi-dimensions
US8719714B2 (en) 2009-07-08 2014-05-06 Steelseries Aps Apparatus and method for managing operations of accessories
US9604147B2 (en) 2013-03-15 2017-03-28 Steelseries Aps Method and apparatus for managing use of an accessory
US9687730B2 (en) 2013-03-15 2017-06-27 Steelseries Aps Gaming device with independent gesture-sensitive areas
US9423874B2 (en) 2013-03-15 2016-08-23 Steelseries Aps Gaming accessory with sensory feedback device
JP6229287B2 (ja) * 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US9530410B1 (en) 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
US20140329589A1 (en) * 2013-05-03 2014-11-06 Steelseries Aps Method and apparatus for configuring a gaming environment
CN105122181B (zh) * 2013-05-16 2018-12-18 英特尔公司 用于基于情景的自然用户接口输入的技术
US9384013B2 (en) * 2013-06-03 2016-07-05 Microsoft Technology Licensing, Llc Launch surface control
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
CN103442138A (zh) * 2013-08-26 2013-12-11 华为终端有限公司 语音控制方法、装置及终端
US9720567B2 (en) 2014-02-17 2017-08-01 Microsoft Technology Licensing, Llc Multitasking and full screen menu contexts
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
ES2703338T3 (es) * 2014-04-17 2019-03-08 Softbank Robotics Europe Ejecución de aplicaciones de software en un robot
CN104225916A (zh) * 2014-09-25 2014-12-24 苏州乐聚一堂电子科技有限公司 尖锐声音感应游戏系统
JP6229071B2 (ja) 2014-10-24 2017-11-08 株式会社ソニー・インタラクティブエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
CN107077846B (zh) * 2014-10-24 2021-03-16 索尼互动娱乐股份有限公司 控制装置、控制方法、程序和信息存储介质
US10293260B1 (en) * 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
US10019992B2 (en) * 2015-06-29 2018-07-10 Disney Enterprises, Inc. Speech-controlled actions based on keywords and context thereof
US20170315849A1 (en) * 2016-04-29 2017-11-02 Microsoft Technology Licensing, Llc Application target event synthesis
US11416212B2 (en) * 2016-05-17 2022-08-16 Microsoft Technology Licensing, Llc Context-based user agent
CN106205612B (zh) * 2016-07-08 2019-12-24 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
US10845956B2 (en) * 2017-05-31 2020-11-24 Snap Inc. Methods and systems for voice driven dynamic menus
US10547708B2 (en) 2017-10-25 2020-01-28 International Business Machines Corporation Adding conversation context from detected audio to contact records
CN111627436B (zh) * 2018-05-14 2023-07-04 北京字节跳动网络技术有限公司 一种语音控制的方法及装置
US11134308B2 (en) 2018-08-06 2021-09-28 Sony Corporation Adapting interactions with a television user
KR102563314B1 (ko) * 2018-08-30 2023-08-04 삼성전자주식회사 전자 장치 및 단축 명령어의 바로가기 생성 방법
CN109788360A (zh) * 2018-12-12 2019-05-21 百度在线网络技术(北京)有限公司 基于语音的电视控制方法和装置
CN109847348B (zh) * 2018-12-27 2022-09-27 努比亚技术有限公司 一种操作界面的操控方法及移动终端、存储介质
US11367444B2 (en) 2020-01-07 2022-06-21 Rovi Guides, Inc. Systems and methods for using conjunctions in a voice input to cause a search application to wait for additional inputs
US11604830B2 (en) * 2020-01-07 2023-03-14 Rovi Guides, Inc. Systems and methods for performing a search based on selection of on-screen entities and real-world entities
CN112397069A (zh) * 2021-01-19 2021-02-23 成都启英泰伦科技有限公司 一种语音遥控方法及装置
CN114121013A (zh) * 2021-12-07 2022-03-01 杭州逗酷软件科技有限公司 语音控制方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076085A (ja) * 1998-08-28 2000-03-14 Nec Software Kobe Ltd 情報処理装置とリソース不足通知方法および記録媒体
JP2000148177A (ja) * 1998-11-06 2000-05-26 Harness Syst Tech Res Ltd 車載用操作入力装置および入力方法
JP2001083991A (ja) * 1999-09-16 2001-03-30 Denso Corp ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2008514111A (ja) * 2004-09-20 2008-05-01 ソニー エリクソン モバイル コミュニケーションズ, エービー 正確なケイパビリティ・インディケータを移動電話ユーザに供給する方法
US20090150782A1 (en) * 2007-12-06 2009-06-11 Dreamer Method for displaying menu based on service environment analysis in content execution apparatus

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4984177A (en) * 1988-02-05 1991-01-08 Advanced Products And Technologies, Inc. Voice language translator
GB2310970A (en) * 1996-03-05 1997-09-10 Ibm Voice mail on the Internet
US6021403A (en) 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US7085710B1 (en) * 1998-01-07 2006-08-01 Microsoft Corporation Vehicle computer system audio entertainment system
TW495710B (en) * 1998-10-15 2002-07-21 Primax Electronics Ltd Voice control module for control of game controller
JP2000181676A (ja) * 1998-12-11 2000-06-30 Nintendo Co Ltd 画像処理装置
US6937984B1 (en) * 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US6862347B1 (en) * 1999-01-28 2005-03-01 Siemens Communications, Inc. Method and apparatus for extending a telephone's capabilities
US6554707B1 (en) 1999-09-24 2003-04-29 Nokia Corporation Interactive voice, wireless game system using predictive command input
JP3343099B2 (ja) * 2000-03-08 2002-11-11 株式会社コナミコンピュータエンタテインメント大阪 キャラクタ育成制御プログラムを記録したコンピュータ読み取り可能な記録媒体
US6785653B1 (en) 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US20020023265A1 (en) 2000-08-08 2002-02-21 Metcalf Darrell J. Wireless controller with publicly-accessible communications link for controlling the content seen on large-screen systems
US7162426B1 (en) * 2000-10-02 2007-01-09 Xybernaut Corporation Computer motherboard architecture with integrated DSP for continuous and command and control speech processing
GB2372864B (en) 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7085722B2 (en) 2001-05-14 2006-08-01 Sony Computer Entertainment America Inc. System and method for menu-driven voice control of characters in a game environment
WO2002099597A2 (en) 2001-06-07 2002-12-12 Unwired Express, Inc. Method and system for providing context awareness
US7369997B2 (en) * 2001-08-01 2008-05-06 Microsoft Corporation Controlling speech recognition functionality in a computing device
EP1604350A4 (en) 2002-09-06 2007-11-21 Voice Signal Technologies Inc METHODS, SYSTEMS AND PROGRAMMING FOR REALIZING VOICE RECOGNITION
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP2005080385A (ja) * 2003-08-29 2005-03-24 Toshiba Corp 情報処理装置及び情報処理装置のバッテリ残容量表示方法
US20060041926A1 (en) 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
US8109765B2 (en) * 2004-09-10 2012-02-07 Scientific Learning Corporation Intelligent tutoring feedback
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
EP1857930A3 (en) 2006-05-17 2008-07-23 Ipreo Holdings LLC System, method, and apparatus to allow for a design, administration, and presentation of computer software applications
US8751672B2 (en) * 2006-06-21 2014-06-10 Verizon Data Services Llc Personal video channels
WO2008084575A1 (ja) * 2006-12-28 2008-07-17 Mitsubishi Electric Corporation 車載用音声認識装置
US7822608B2 (en) 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US8538757B2 (en) 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
US20090013275A1 (en) 2007-07-05 2009-01-08 Darrell May System and method for quick view of application data on a home screen interface triggered by a scroll/focus action
US8825468B2 (en) * 2007-07-31 2014-09-02 Kopin Corporation Mobile wireless display providing speech to speech translation and avatar simulating human attributes
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8117551B2 (en) 2007-12-18 2012-02-14 International Business Machines Corporation Computer system and method of using presence visualizations of avatars as persistable virtual contact objects
US8358302B2 (en) 2008-04-22 2013-01-22 International Business Machines Corporation Dynamic creation of virtual regions
US8224653B2 (en) * 2008-12-19 2012-07-17 Honeywell International Inc. Method and system for operating a vehicular electronic system with categorized voice commands
US8196174B2 (en) * 2008-12-23 2012-06-05 At&T Intellectual Property I, L.P. Navigation method and system to provide a navigation interface
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
KR101612788B1 (ko) 2009-11-05 2016-04-18 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8700594B2 (en) * 2011-05-27 2014-04-15 Microsoft Corporation Enabling multidimensional search on non-PC devices
US8657680B2 (en) * 2011-05-31 2014-02-25 United Video Properties, Inc. Systems and methods for transmitting media associated with a measure of quality based on level of game play in an interactive video gaming environment
US9037601B2 (en) * 2011-07-27 2015-05-19 Google Inc. Conversation system and method for performing both conversation-based queries and message-based queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076085A (ja) * 1998-08-28 2000-03-14 Nec Software Kobe Ltd 情報処理装置とリソース不足通知方法および記録媒体
JP2000148177A (ja) * 1998-11-06 2000-05-26 Harness Syst Tech Res Ltd 車載用操作入力装置および入力方法
JP2001083991A (ja) * 1999-09-16 2001-03-30 Denso Corp ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2008514111A (ja) * 2004-09-20 2008-05-01 ソニー エリクソン モバイル コミュニケーションズ, エービー 正確なケイパビリティ・インディケータを移動電話ユーザに供給する方法
US20090150782A1 (en) * 2007-12-06 2009-06-11 Dreamer Method for displaying menu based on service environment analysis in content execution apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021182168A (ja) * 2016-01-06 2021-11-25 グーグル エルエルシーGoogle LLC 音声認識システム

Also Published As

Publication number Publication date
TW201320057A (zh) 2013-05-16
CN103019535A (zh) 2013-04-03
US20130090930A1 (en) 2013-04-11
EP2766791A1 (en) 2014-08-20
EP2766791B1 (en) 2017-05-31
WO2013055709A1 (en) 2013-04-18
CN103019535B (zh) 2016-12-21
US9256396B2 (en) 2016-02-09
KR20140082790A (ko) 2014-07-02
TWI601128B (zh) 2017-10-01
EP2766791A4 (en) 2015-03-18
KR102078889B1 (ko) 2020-04-02

Similar Documents

Publication Publication Date Title
JP2015501441A (ja) コンテキスト切り替えのための音声認識
CN109196464B (zh) 基于上下文的用户代理
US9542949B2 (en) Satisfying specified intent(s) based on multimodal request(s)
CN108369456B (zh) 用于触摸输入设备的触觉反馈
US8286106B2 (en) System and method for interacting with status information on a touch screen device
US9432314B2 (en) Quick navigation of message conversation history
KR101885680B1 (ko) 이머시브 애플리케이션으로서의 데스크탑
WO2018040010A1 (zh) 一种应用界面显示方法以及终端设备
US20140210710A1 (en) Method for generating an augmented reality content and terminal using the same
US9720567B2 (en) Multitasking and full screen menu contexts
KR20180006966A (ko) 써드 파티 애플리케이션으로의 디지털 어시스턴트 확장성
JP2014523056A (ja) オンデマンドタブ回復
KR101895646B1 (ko) 이머시브 쉘 및 애플리케이션 쉘의 디스플레이
JP2017523515A (ja) アイコンサイズ変更
US11138956B2 (en) Method for controlling display of terminal, storage medium, and electronic device
JP2013528304A (ja) ジャンプ、チェックマーク、および取消し線のジェスチャー
US20150058770A1 (en) Method and appratus for providing always-on-top user interface for mobile application
CN105389173A (zh) 一种基于长连接任务的界面切换展示方法及装置
US10986050B2 (en) Method and apparatus for providing in-game messenger service
CN105099871A (zh) 用于即时通信应用的通知方法和装置
JP2014517974A (ja) ページ重視の、タッチ又はジェスチャに基づくブラウジング経験を支援するナビゲーションユーザインターフェース
KR20160144445A (ko) 확장가능한 애플리케이션 표시, 마일스톤, 및 스토리라인
KR102086181B1 (ko) 제어 노출

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150914

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170719

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170727

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20170825

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20181218