JP2023551169A

JP2023551169A - 何らかの音声コマンドを実行する間にａｒ（拡張現実）ベースで周囲からの音を選択的に包含すること

Info

Publication number: JP2023551169A
Application number: JP2023530249A
Authority: JP
Inventors: デクロップ、クレメント; アグラワル、トゥーシャー; アールフォックス、ジェレミー; ケイラクシット、サルバジット
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-24
Filing date: 2021-11-10
Publication date: 2023-12-07
Also published as: US20220165260A1; US11978444B2; DE112021005482T5; GB2616765A; CN116348950A; WO2022111282A1

Abstract

それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、拡張現実デバイスを使用して音の視覚化を生成することであって、視覚化を使用して音の１つまたは複数を選択することができる、生成することと、スマート・スピーカ・デバイスのための拡張音声コマンドを生成することであって、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される１つまたは複数の音を含む、生成することと、を含む拡張音声コマンドを生成する方法、システム、および装置。

Description

本発明は、選択的に音を包含するための方法、装置、およびシステムの一実施形態に関し、より詳細には、限定によるものではないが、何らかの音声コマンドを実行する間にＡＲ（拡張現実）ベースで周囲からの音を選択的に包含するための方法、装置、およびシステムに関する。

ＡＭＡＺＯＮＡＬＥＸＡ、ＧＯＯＧＬＥＨＯＭＥなどのようなＡＩ（人工知能）音声アシスタント・システムが、大変広まっている。例えば、世界的な音声アシスタント市場は、かつてないレベルに到達すると見込まれる。原動力の１つは、改善された顧客体験の需要増を含み、別のものは、ヘルスケア市場（患者エンゲージメント）におけるユース・ケースの増加である。

そのようなシステムでは、ユーザは音声コマンドを送ることができ、それに応じて、音声コマンドが実行される。

複数の人が、音声コマンドを単一のＡＩ音声アシスタント・システムへ送ることができ、ＡＩ音声アシスタント・システムは、この音声を認識することができ、ユーザ特有の音声コマンドを実行することができる。

しかしながら、ユーザが何らかの音声コマンドを送り、周囲の他のユーザが第１のユーザの音声コマンドにさらなる提案または追加のフィードバックを与える場合がある。これが起きるとき、元のユーザは、他のユーザによるその音声コマンドの提案の一部を受け入れたくない場合がある。現在、ＡＩ音声アシスタント・システムは、どの音声コマンドを実行すべきか、どれを無視することができるのか理解することができない。

したがって、より複雑な入力を処理することができるＡＩ音声アシスタント・システムを有する必要がある。例えば、ユーザが音声コマンドを送っている間に周囲から話されたまたは話されていない内容のどれを考慮するべきかユーザが選択的に特定することができる方法およびシステムの必要がある。

前述の背景技術に係る前述のおよび他の問題、不都合、および欠点に鑑みて、開示された発明の例示的な態様は、何らかの音声コマンドを実行する間にＡＲベースで周囲からの音を選択的に包含するための方法、装置、およびシステムを提供する。

本発明の一実施形態によれば、拡張音声コマンドを生成する方法は、それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、拡張現実デバイスを使用して音の視覚化を生成することであって、視覚化を使用して音の１つまたは複数を選択することができる、生成することと、スマート・スピーカ・デバイスのための拡張音声コマンドを生成することであって、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される１つまたは複数の音を含む、生成することと、を含む。

本発明の別の実施形態によれば、拡張音声コマンドを生成するシステムは、コンピュータ命令を記憶するメモリと、プロセッサと、を含み、プロセッサは、それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別し、拡張現実デバイスを使用して音の視覚化を生成し、視覚化を使用して音の１つまたは複数を選択することができ、スマート・スピーカ・デバイスのための拡張音声コマンドを生成し、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される１つまたは複数の音を含む、コンピュータ命令を実行するように構成されている。

本発明のさらに別の実施形態によれば、プログラム命令をそれによって具体化したコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品は、プログラム命令をそれによって具体化したコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品を含み、コンピュータによって可読で実行可能なプログラム命令は、それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、拡張現実デバイスを使用して音の視覚化を生成することと、を含む方法をコンピュータに実行させる。視覚化を使用し、スマート・スピーカ・デバイスのための拡張音声コマンドを生成して音の１つまたは複数を選択することができ、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される１つまたは複数の音を含む。

本明細書中の本発明の詳細な説明をよりよく理解することができるために、および当技術分野への貢献をよりよく理解することができるために、本発明のいくつかの実施形態は、このように、むしろ幅広く概説されている。もちろん、以下に説明されるおよび本明細書に添付される特許請求の範囲の主題を構成する本発明の追加の実施形態が存在する。

本発明は、以下の明細書に記載されたまたは図面に示された構成の詳細におよび構成要素の配置に本発明の用途において限定されないことを理解されたい。本発明は、記載されたものに加えて実施形態を可能にし、様々なやり方で実行および実施することができる。また、本明細書中に用いられる語句および専門語、ならびに要約は、説明のためのものであり、限定とみなされるべきでないことを理解されたい。

したがって、本開示が基づく概念は、本発明のいくつかの目的を成し遂げるために、他の構造、方法、およびシステムの設計のための基礎として容易に利用され得ることを当業者は理解するであろう。したがって、特許請求の範囲は、それらが本発明の範囲から外れない限り、そのような均等な構成を含むものとみなされることが重要である。

本発明の例示的な態様は、図面を参照して本発明の例示的な実施形態の以下の詳細な説明からよりよく理解されよう。

本発明の一実施形態の構成図である。本発明の一実施形態のシステムを示す図である。本発明の一実施形態のプロセス・フロー／ワークフロー図である。図３のシステムによるコマンドの確証を示す図である。図３のシステムによる音の位置の検出を示す図である。図３のＡＲグラス上の表示コマンドを示す図である。図３の本発明の一実施形態におけるＡＲグラス上の選択コマンドを示す図である。ＡＩ音声アシスタントが図３のＡＲ選択からのコマンドを実行することを示す図である。図３の履歴コーパスへのフィードバック・ループ示す図である。本発明の一実施形態の高レベルの図の要約（high-level diagram summary）を示す図である。本発明の例示的実施形態をそこに組み込むための例示的なハードウェア／情報ハンドリング・システム（hardware/information handling system）を示す図である。本発明の例示的実施形態による方法を実施するプログラムの機械可読命令を記憶するための信号ベアリング記憶媒体（signal-bearing storage medium）を示す図である。本発明の例示的実施形態によるクラウド・コンピューティング・ノードを示す図である。本発明の例示的実施形態によるクラウド・コンピューティング環境を示す図である。本発明の例示的実施形態による抽象化モデル層を示す図である。

次に、本発明を、図面を参照して説明する。同じ参照番号は、全体を通じて同じ部分を指す。共通の実施によれば、図面の様々な特徴は、必ずしも原寸に比例しないことを強調する。むしろ、様々な特徴の寸法は、明確にするために恣意的に拡大または縮小され得る。例示的な実施形態は、説明のために以下に与えられ、特許請求の範囲を限定しない。また、ステップのいずれも、異なる順序で実行されてもよく、または組み合わされたりもしくは同時であったりしてもよいことに留意ください。加えて、図示された構造および実施形態のいずれも、修正されてもよく、または組み合わされてもよい。

上述したように、ユーザが何らかの音声コマンドを送り、周囲の他のユーザが第１のユーザの音声コマンドにさらなる提案または追加のフィードバックを与える場合がある。これが起きるとき、元のユーザは、他のユーザによるその音声コマンドの提案の一部を受け入れたくない場合がある。現在、ＡＩ音声アシスタント・システムは、どの音声コマンドを実行すべきか、どれを無視することができるのか理解することができない。本発明は、以下の通り解決策を提供する。

図１は、本発明の一実施形態の構成図を示す。

本発明は、ユーザが音声コマンドを送っている間に周囲から話されたまたは話されていない内容のどれを考慮するべきかユーザ１０が選択的に特定することができる方法およびシステムを提供する。

ユーザ１０が音声コマンドを送っている間、同時に、周囲の人々（ユーザ１２、１４、１６）も、音声コマンドに追加の提案を行う。したがって、ユーザ１０は、周囲からの１つまたは複数の音を選択的に含むことができる。

例えば、ユーザＢ１２は「ミルク」の音声プロンプトを与え、ユーザＣ１４は「リンゴ」の音声プロンプトを与え、ユーザＤ１６は「おもちゃ」の音声プロンプトを与える。一方で、メインユーザＡ１０は、「ライスＡ、ビスケットＢ、冷たいドリンクをシステム１００にご注文ください」という音声コマンドを送る。

ＡＩ（人工知能）音声アシスタント・システム３０は、「ライス、ビスケット、冷たいドリンク、ミルク、およびリンゴをご注文ください」として音声コマンドを受信する。ユーザは、ＡＲグラスを使用することによって、ＡＲ周囲内での音声コマンドおよび他の音を見て「ミルク」２２および「リンゴ」２４を選択し、一方、ＡＲ選択１８内の「おもちゃ」２６を選択せず、「ライス、ビスケット、および冷たいドリンクをご注文ください」２０のコマンドも選択して、「ライス、ビスケット、ミルクの冷たいドリンク、およびリンゴをご注文ください」という最終的な出力を与える。おもちゃ２６の選択は、取り消される。

図２は、本発明の一実施形態の例示的システムを示す。ユーザＡ１０、ユーザＢ１２、ユーザＣ１４、およびユーザＤ１６は、以下にさらに説明されるＡＲシステム４０、ＡＩアシスタント３０、およびＩｏＴ（モノのインターネット）デバイス５０のペアリングされたデバイスを介してシステム１００と通信することができる。システム１００は、プロセッサ６４およびメモリ６６を含むシステム・コンピュータ１０２を含むことができる。履歴コーパス６０は、メモリ６６内に含まれてもよく、または履歴コーパスは、メモリ・デバイス６２内に別々に位置してもよい。また、ＡＲシステム４０は、メモリ４４と共にプロセッサ４２を含み、一方、ＡＩアシスタント３０は、メモリ３４と共にプロセッサ３２を含む。複数のＩｏＴデバイス５０のデバイスが、システム１００とペアリングすることができる。ＡＲシステム４０は、拡張現実グラス４６を含んでもよい（またはそれは、別個のＩｏＴデバイス５０であり得る）。ＩｏＴデバイス５０は、メモリ５４ならびにマイクロフォンおよびスピーカなどの変換器５６と共に、プロセッサ５２を含むことができる。ＩｏＴデバイス５０は、複数のデバイスであってもよく、それぞれは、ディスプレイ５８、および複数のセンサ５７も含む。センサ５７は、例えば、スマートウォッチまたは他のデバイスなどにおける生体測定データまたは他の情報を検出することができる。

代替実施形態は、ＡＲシステム４０およびＡＩアシスタント３０の以下のシステムのいずれか１つまたは全部がシステム・コンピュータ１０２に組み込まれ得ることを含むことができる。さらに、ＡＲグラス４６は、ＡＲシステム４０とペアリングされる別個のＩｏＴデバイス５０であり得る。

図３は、本発明の一実施形態のプロセス・フロー／ワークフロー図を示す。図１および図２を参照すると共に、図３を参照すると、デバイスのペアリングおよびユーザの識別のための第１のセクション１１０において、主たるユーザ（例えば、図１および図２のユーザＡ１０）は、モジュールに選ばれ、識別される１１２。ユーザ１０は、本発明に選ばれ、ユーザ１０の音声の履歴コーパス６０、６２が開始される。１３０におけるコーパス６０、６２は、経路１３４を介して、ユーザのコマンドの抑揚、ユーザ・コマンドの周波数、およびシステム１００からのユーザ・コマンドの文脈解析を集める。

次いで、１１４において、システム１００は、ＡＲ（拡張現実）システム４０、ＡＩ（人工知能）アシスタント３０、およびＩｏＴ（モノのインターネット）デバイス５０にペアリングされる。ＡＩ音声アシスタント・システム３０は、拡張現実グラス４６と対になる。ＡＩ音声アシスタント・システム３０は、声紋に基づいてユーザ１０を認識しており、拡張現実システム４０は、網膜スキャンＩｏＴ認証に基づいてユーザを認識する。

ユーザ１０、１２、１４、１６が、スマートウォッチなどの別のＩｏＴデバイス５０を着用している場合、ユーザから集められたバイオメトリクスは、ＡＲシステム４０への近接、ＡＩ音声アシスタント３０、および他の生体測定データに基づいてユーザ１０、１２、１４、１６を識別することができる。

ペアリングは、ＢＬＵＥＴＯＯＴＨ、Ｗｉ－Ｆｉ、独自プロトコル等などの任意のタイプの通信プロトコルによって行われ得る。

次いで、主たるユーザ１０が、コマンドを述べ、周囲のメンバーがこれに続く１１６。何らかの起動コマンドが送られると、次いで、ＡＩ音声アシスタント・システム３０が起動し。音声コマンドを受信する。

ユーザ１０は、音声コマンドを送っているが、そこで、ＡＩ音声アシスタント・システム３０は、呼び起こされたままであり、音声コマンドを受信している。

ＡＲグラス４６のアクティベーションは、以下の通りである。ＡＩ音声アシスタント３０が呼び起こされると、ＡＩ音声アシスタント３０は、（ＡＲグラス４６がマイクロフォン４８を収容する場合）「起動」して他の音を聞くように拡張現実グラス４６をトリガする。

次いで、システム１００は、音声コマンドを確証し、空間内の位置と一緒に正確なコマンドを取り込む１１８。ユーザが音声コマンドを送っている間、次いで、ＡＩ音声アシスタント・システム３０は、他の音が周囲内で生成されることを取り込む。

図４は、図３のシステムによるコマンドの確証を示す。

図４、図３、および図２を参照すると、コマンドの確証１１８ａは、以下の通りである。ＡＲシステム４０（それがマイクロフォン４８を有する場合）は、周囲からの音も受信し、周囲からの二次的なコマンドを確証する。これは、音波の差を解析し、それらが同じ閾値内にあることを確認することによって行われ得る。

フーリエ変換を活用して１５４、音声ファイルは、以下のように同様のファイルを特定するためにスケール変更され得る。

スケール変更された式が一定のε＞０の範囲内である場合、２つの音声波が確証を得たことになる１５６。

さらなる確証が、テキスト解析で行われ得る１５８。ＡＩアシスタント・システム３０が登録するコマンドは、拡張現実システム４０からのコマンドと比較される。これは、コマンドの類似性を検出するために、例えば、ＢａｇｏｆＷｏｒｄｓ（ＢＯＷ）アルゴリズムを使用して各システム３０、４０が検出する語と比較することによって行われ得る。

ＩｏＴ５０の確証は、以下の通りである。システム１００に接続された他のＩｏＴデバイス５０は、情報を確認することができる。

図５は、図３の時点１１８におけるシステム１００による音の位置の検出を示す。図５、図２、および図３を参照すると、音の位置の検出１１８ｂは、以下の通りである。ＡＲグラス４６は、音、および誰が（例えば、ユーザ１０、１２、１４、１６など）が音を出しているのかをやはり認識する。

識別は、ソーシャル・メディアの統合によって行われ得る２０４。ユーザ（例えば、ユーザ１０、１２、１４、および１６）が、ソーシャル・メディア・プラットフォーム上でまたはユーザの連絡先リストによって「友人」として識別される場合、彼らは、そのように識別され得る。

音にタグ付ける人（例えば、ユーザ１０、１２、１４、１６など）を識別するために、空間内の人間のオブジェクト検出２０６が、ＡＲシステム４０によって実行され得る。

音の方向２０８は、最大振幅を含む音波の方向によって近似され得る。

ＩｏＴ確証２１０は、以下の通りである。他のマイクロフォンで強化されたペアリング済みＩｏＴデバイス５０は、コマンドの位置を三角測量するのを助けることができる。ＩｏＴデバイス５０は、ソーシャル・メディアの統合２０４に存在するものを含み得る（すなわち、同じネットワーク上の「友人」のデバイスは、位置を特定するために活用することができる）。

これらのパラメータ２０４、２０６、２０８、および２１０の組合せにより、コマンドされたものを言った人を定位する。

しかしながら、図３に戻って参照すると、第２のセクション１２２において、非コマンドは無視される１２０。任意の音を無視することは、コマンドされたことが検出されない音を無視することを含む。これは、かすかなノイズ、または他のタイプのノイズなどを含み得るが、これに限定されない。

次いで、コマンドは、ＡＲシステム４０内のＡＲ画面上に表示され、主たるユーザ１０が、最終的なコマンドを選択する１２４。

図６は、図３のＡＲグラス上のコマンドの表示１２４ａを示す。検出されたコマンドは、ＡＲグラス４６上に表示される。

どのオブジェクトが特定のコマンドまたは音を出したのかが、ＡＲグラス４６上で表示される２２０。

ＡＲグラス４６は、ＡＲ周囲内の音声コマンドと一緒に周囲音の実際の位置および方向を示す２２２。

音声コマンドが送られている間、ＡＲグラスは、周囲から生成されるリアルタイム音を示しており、ＡＲグラス内に示している２２４。ユーザは、ＡＲグラス内でテキストに変換される自らの音声コマンド、および周囲から生成される音を視覚化することもできる２２６。

図７は、図３の本発明の一実施形態におけるＡＲグラス１２４ｂに対する選択コマンドを示す。

ユーザ１０は、それらの音が音声コマンドに含まれることを可能にするために、周囲音のいずれかと共に、指のジェスチャ、アイ・コンタクト、音声コマンド、または顔の表情を使用することができる。ユーザの選択アクションに基づいて、周囲からの１つまたは複数の音が考慮され、元の音声コマンドと共にそれらの音を加えることが可能にされる２３０。

ユーザ１０は、選択的なやり方で音からの音を選択し、それに応じて、ユーザ１０が送った音声コマンドと共にその音を追加することができる２３２。

選択的な音が、音声コマンドと共に含まれてもよく、この音声コマンドは、音声コマンドがユーザによって送られている間に、または音声コマンドが送られた後に含まれてもよい２３４。

音の一部の選択２３６は、以下の通りである。選択的なやり方で周囲からの１つまたは複数の音を選択している間、ユーザは、周囲内の任意の音源からの音声の一部を選択し、それに応じてその音を元の音声コマンドに加えることができる２３６。

テキストの代わりに位置に基づく選択２３８は、以下の通りである。周囲からの何らかの音を選択している間、ユーザ１０は、音が音声コマンドと共に加えられることになる元の音声コマンドの位置を選択することができる２３８。

図８は、ＡＩ音声アシスタントが、図３のＡＲ選択からのコマンドを実行することを示す。

図２、図３、および図８を参照すると、次いで、ＡＩ音声アシスタントは、ＡＲ選択からのコマンドを実行する１２６。最終的な音声コマンドのまとめ、および実行２４２は、以下の通りである。提案されるシステム１００は、周囲から選択される音声をまとめ、ユーザ１０によって送信された２４４元の音声コマンドと共にまとめられる。ＡＲシステム４０のＡＲディスプレイは、ユーザ１０への最終的な音声コマンドを示し、またはＡＩアシスタント３０は、実行のために最終的な音声コマンドを述べる２４６。次いで、システム１００は、検証２４８後に、音声コマンドが実行される２５０。

図９は、図３の履歴コーパスのフィードバック・ループを示す。

図２、図３、および図９を参照すると、次いで、シナリオが取り込まれ、履歴コーパスに戻すように入れられる１３２。履歴コーパスへのフィードバック・ループは、以下の通りである。履歴的に、ＡＩ音声アシスタント・システム３０およびＡＲグラス４６は、どのように周囲音が送られた音声コマンドに文脈的に関連付けられるのかを学習しており、どの音が適切で、加えることができるかを特定する。

音声コマンドを送っている間、何らかの１つまたは複数の音が周囲から生成される場合、提案されたシステム１００は、どの音が音声コマンド２５２と共に含まれるべきかになる。

履歴的な学習に基づいて、提案されたシステムは、生成される音が音声コマンドに含まれることになるところを示す視覚的な図を示しており、したがって、ユーザは、音が加えられるところの理解を有する２５４。

ソーシャル・メディア・インタラクション２５６は、以下の通りである。二次ユーザ１２、１４、または１６が、多くの有効なコマンドのアドオンを言う場合、それらは、主たるユーザが音声コマンドを行うときに加えられる可能性がより高くなり、その逆も然りである（二次ユーザが、多くの役立たないコマンドを加える場合、それらは、音声コマンドに今後加えられない）２５６。

図３に戻って参照すると、履歴コーパス１３０は、経路１３４からのユーザ入力、およびシステム１００とのユーザ・インタラクション、ならびに取り込まれたシナリオ１３２に基づいて構築される。

追加の実施形態は、家族メンバー・モードを含むことができる。家族メンバーの音声が認識され、音声コマンドを渡すために低い閾値を有する。代替として、やはり、音声アシスタント３０が、ＡＲシステム４０の中に構築されてもよい。

図２に戻って参照すると、製造時のユース・ケースは、以下の通りであり得る。誰か製造プラント中で働いており、ＡＲシステム４０を装備する場合、様々なコマンドが、何の作業が必要とされるのかについて言われる。それらのコマンドは、画面上に現れ、ユーザは、どのコマンドが次に必要とされるものであるのか、およびどれが単なるバックグラウンド・ノイズであるのか、選ぶことができる。ＡＲシステム４０のモジュールは、それらのコマンドを１つにまとめ、それをユーザ１０のための最終的なコマンドとして提供する。

図１０は、本発明の一実施形態の高レベルの図の要約を示す。

本発明の特徴の一部の要約は、以下の通りである。まず、ステップ３０２において、システム１００による、音声コマンドのＡＲシステム４０への変換がある。何らかの音声コマンドを送っている間に、ＡＩ音声アシスタント・システム４０は、声紋に基づいて個々の音を認識する。したがって、ＡＩ音声アシスタント・システム４０は、どのコマンドがユーザ１０、１２、１４、１６から来て、どれが周囲から生成されるのかを識別する。さらに、送られた音声コマンドは、元の音声コマンドに１つまたは複数の音を選択的に包含するために拡張現実グラス４６上に表示される。

次いで、システム１００は、ＡＲ空間内の外部のコマンドを選択する３０４。音声コマンドを送る間に、または音声コマンドを送った後に、ユーザ１０は、拡張現実システム４０に視覚化された１つまたは複数の話された内容を選択的に含むことができ、したがって、それは音声コマンド内で考慮され、実行される。

次いで、システム１００は、ＡＲ空間内の音声コマンドの実行を行う３０６。任意のユーザ１０、１２、１４、１６による何らかの音声コマンドを送られる間、拡張現実グラス４６は、周囲からのリアルタイム音の生成を示しており、したがって、指、顔の表情、およびアイ・コンタクトのインタラクションに基づいて、ユーザ１０は、音声コマンド内の１つまたは複数の音を選択的に含むことができ、それに応じて、ＡＩ音声アシスタント・システム４０は、完全な音声コマンドを実行する。

ユーザ１０は、何らかの音声コマンドを送っている間に任意の音源からの完全なまたは部分的な話された内容を選択することができ、したがって、選択された音の部分は、音声コマンドと共に含まれ、完全な音声コマンドが実行となる。音声コマンドと一緒に周囲からの１つまたは複数の音を選択的に含むが、ユーザは、音声コマンドを完成するために外部音が選択的に含まれ得る音声コマンド上の位置を選択することができる。

したがって、システム１００は、コマンドを選択するために履歴コーパスを提供する３０８。送られる音声コマンドと共に１つまたは複数の音の選択的な内容についての履歴的な学習を使用することで、提案されたシステム１００は、どの音が音声コマンドと共に含まれるべきか推奨し、音が元の音声コマンドと共に加えられるべきであるところを推奨するために視覚的な図も示す。

以下の図１１から図１５は、実施することができる追加のハードウェア構成を与える。図１から図１５の異なる図に示された異なる特徴は、異なる例の間で、組み合わされても、変更されても、または切り換えられてもよい。

図１１は、本発明による情報ハンドリング／コンピュータ・システム１１００があり、好ましくは、本発明の技術を実施することができる少なくとも１つのプロセッサまたは中央処理装置（ＣＰＵ）１１１０を有するシステム１００の別のハードウェア構成を示す。

ＣＰＵ１１１０は、システム・バス１１１２を介して、ランダム・アクセス・メモリ（ＲＡＭ）１１１４、リード・オンリ・メモリ（ＲＯＭ）１１１６、（ディスク・ユニット１１２１およびテープ・ドライブ１１４０などの周辺装置をバス１１１２に接続するための）入出力（Ｉ／Ｏ）アダプタ１１１８、（キーボード１１２４、マウス１１２６、スピーカ１１２８、マイクロフォン１１３２、または他のユーザ・インタフェース・デバイス、あるいはその組合せをバス１１１２に接続するための）ユーザ・インタフェース・アダプタ１１２２、情報ハンドリング・システムをデータ処理ネットワーク、インターネット、イントラネット、パーソナル・エリア・ネットワーク（ＰＡＮ）などに接続するための通信アダプタ１１３４、およびバス１１１２をディスプレイ・デバイス１１３８、またはプリンタ１１３９、あるいはその両方（例えば、デジタル・プリンタなど）に接続するためのディスプレイ・アダプタ１１３６に相互接続される。

上述したハードウェア／ソフトウェア環境に加えて、本発明の異なる態様は、上記方法を実行するコンピュータにより実施される方法を含む。一例として、この方法は、上述した特定環境中で実施され得る。

そのような方法は、例えば、一連の機械可読命令を実行するために、デジタル・データ処理装置によって具体化されるようなコンピュータを動作させることによって実施され得る。これらの命令は、様々なタイプの信号ベアリング媒体中にあり得る。

したがって、本発明のこの態様は、本発明の方法を実施するためにＣＰＵ１１１０および上記のハードウェアを組み込むデジタル・データ・プロセッサによって実行可能な機械可読命令のプログラムを有形に具体化する信号ベアリング記憶媒体を含むプログラムされた製品に向けられる。

この信号ベアリング記憶媒体は、例えば、高速アクセス・ストレージによって表されるような、例えば、ＣＰＵ１１１０内に収容されたＲＡＭを含み得る。

代替として、命令は、ＣＰＵ１２１０によって直接または間接的にアクセス可能な磁気データ記憶ディスケット１２１０、または光学記憶ディスケット１２２０（図１２）などの別の信号ベアリング記憶媒体１２００内に収容されてもよい。

ディスケット１２１０、光ディスク１２２０、コンピュータ／ＣＰＵ１２１０、またはその他のところに収容されようとなかろうと、命令は、様々な機械可読データ記憶媒体に記憶され得る。

したがって、本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるために命令を保持および記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述のものの任意の適切な組合せとすることができるが、それらに限定されない。コンピュータ可読記憶媒体のより特定の例に関する網羅的でないリストには、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリ・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリ・メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ・ディスク、命令を記憶したパンチ・カードまたは溝内の隆起構造などの機械的に符号化されたデバイス、および前述のものの任意の適切な組合せが含まれる。本明細書に使用されるとき、コンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を通って伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、あるいは電線を通って伝送される電気信号などのそれ自体一過性の信号であると解釈されるべきではない。

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスへ、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータまたは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを含み得る。コンピューティング／処理デバイスごとのネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、記憶のためにそれぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体にコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、「Ｃ」プログラミング言語などの従来の手続き型プログラミング言語、あるいは同様のプログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードもしくはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、単独のソフトウェア・パッケージとしてユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、ユーザのコンピュータ上で部分的にかつ遠隔コンピュータ上で部分的に、あるいは遠隔コンピュータまたはサーバ上で全体的に実行することができる。後者の場面では、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続することができ、あるいは接続は、（例えば、インターネット・サービス・プロバイダを用いてインターネットを介して）外部コンピュータになされてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図、またはブロック図、あるいはその両方を参照して本明細書に説明されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置によって実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおける特定の機能／作用を実施する手段を生成するように機械を作り出すために汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供され得る。

コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せを特定のやり方で機能するように指示することができるこれらのコンピュータ可読プログラム命令は、命令を記憶したコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおける特定の機能／作用の態様を実現する命令を含む製品を含むように、コンピュータ可読記憶媒体に記憶することもできる。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令がフローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおける特定の機能／作用を実現するように、一連の動作ステップをコンピュータ、他のプログラマブル装置、またはコンピュータにより実施されるプロセスを生成する他のデバイス上で実行させるように、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上へ読み込むこともできる。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施に係るアーキテクチャ、機能性、および動作を示す。この点について、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実現するための１つまたは複数の実行可能な命令を含む命令のモジュール、セグメント、または部分を表し得る。いくつかの代替の実施では、図示された機能は、図に示された順序以外で行われてもよい。例えば、連続で示される２つのブロックは、実際には、含まれる機能次第で、ほぼ同時に実行されてもよく、または、場合によっては、ブロックは、逆の順序で実行されてもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、特定の機能または作用を実現するまたは専用ハードウェアおよびコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実行されてもよいことにも留意されよう。

次に、図１３を参照すると、クラウド・コンピューティング・ノードの一例の略図１４００が示されている。クラウド・コンピューティング・ノード１４００は、適切なクラウド・コンピューティング・ノードの１つの例にすぎず、本明細書中に記載の本発明の実施形態の使用または機能性の範囲について何ら限定を示唆するものではない。それにもかかわらず、クラウド・コンピューティング・ノード１４００は、上記の機能性のいずれかを実施または実行あるいはその両方をすることができる。

クラウド・コンピューティング・ノード１４００には、多数の他の汎用または専用コンピューティング・システム環境または構成で動作可能であるコンピュータ・システム／サーバ１４１２がある。コンピュータ・システム／サーバ１４１２と共に使用するのに適し得るよく知られているコンピューティング・システム、環境、または構成、あるいはその組合せの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家電製品、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのいずれかなどを含む分散クラウド・コンピューティング環境が含まれるが、これらに限定されない。

コンピュータ・システム／サーバ１４１２は、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的状況において説明することができる。概して、プログラム・モジュールは、特定のタスクを実行するまたは特定のアブストラクト・データ・タイプを実現するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。コンピュータ・システム／サーバ１４１２は、通信ネットワークを介してリンクされている遠隔処理デバイスによってタスクが実行される分散クラウド・コンピューティング環境内で実施され得る。分散クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ記憶デバイスを含むローカルと遠隔の両方のコンピュータ・システム記憶媒体に位置し得る。

図１３に示されるように、クラウド・コンピューティング・ノード１４００内のコンピュータ・システム／サーバ１４１２は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム／サーバ１４１２のコンポーネントは、１つまたは複数のプロセッサまたは処理装置１４１６、システム・メモリ１４２８、およびシステム・メモリ１４２８を含む様々なシステム・コンポーネントをプロセッサ１４１６に結合するバス１４１８を含み得るが、これに限定されない。

バス１４１８は、種々のバス・アーキテクチャのいずれかを用いるメモリ・バスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレーテッド・グラフィックス・ポート、およびプロセッサまたはローカル・バスを含むいくつかのタイプのバス構造のいずれかの１つまたは複数を表す。限定ではなく一例として、そのようなアーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション（ＶＥＳＡ）ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト（ＰＣＩ）バスを含む。

典型的には、コンピュータ・システム／サーバ１４１２は、種々のコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム／サーバ１４１２によってアクセスできる任意の利用可能な媒体であり得、それは、揮発性媒体と不揮発性媒体、取り外しできる媒体と取り外しできない媒体の両方を含む。

システム・メモリ１４２８は、ランダム・アクセス・メモリ（ＲＡＭ）１４３０、またはキャッシュ・メモリ１４３２、あるいはその両方などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム／サーバ１４１２は、他の取り外しできる／取り外しできない揮発性／不揮発性コンピュータ・システム記憶媒体をさらに含んでもよい。ほんの一例として、記憶システム１４３４は、（図示されておらず、典型的には、「ハード・ドライブ」と呼ばれる）取り外しできない不揮発性磁気媒体から読み出したり、それへ書き込んだりするために設けられ得る。図示しないが、取り外しできる不揮発性磁気ディスク（例えば、「フロッピ（Ｒ）・ディスク」）から読み出したり、それへ書き込んだりするための磁気ディスク・ドライブ、およびＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光学媒体などの取り外しできる不揮発性光ディスクから読み出したり、それへ書き込んだりするための光ディスク・ドライブが、設けられ得る。そのような例では、それぞれが、１つまたは複数のデータ媒体インタフェースによってバス１４１８に接続され得る。以下にさらに図示および説明されるように、メモリ１４２８は、本発明の実施形態の機能を実行するように構成されているプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含むことができる。

プログラム・モジュール１４４２のセット（少なくとも１つ）を有するプログラム／ユーティリティ１４４０は、限定ではなく一例として、メモリ１４２８に記憶されてもよく、オペレーティング・システム、１つまたは複数のプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データも同様である。オペレーティング・システム、１つまたは複数のプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データの各々、またはそれらのいくつかの組合せは、ネットワーキング環境の実施を含むことができる。概して、プログラム・モジュール１４４２は、本明細書中に記載されたような本発明の実施形態の機能、または方法論、あるいはその両方を実施する。

コンピュータ・システム／サーバ１４１２は、キーボード、ポインティング・デバイス、ディスプレイ１４２４等などの１つまたは複数の外部デバイス１４１４、コンピュータ・システム／サーバ１４１２とユーザがやり取りすることを可能にする１つまたは複数のデバイス、またはコンピュータ・システム／サーバ１４１２が１つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデム等）、あるいはその組合せと通信することもできる。そのような通信は、入出力（Ｉ／Ｏ）インタフェース１４２２を介して行うことができる。またさらに、コンピュータ・システム／サーバ１４１２は、ネットワーク・アダプタ１４２０を介して１つまたは複数のネットワーク、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、一般的なワイド・エリア・ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（例えば、インターネット）、あるいはその組合せと通信することができる。示したように、ネットワーク・アダプタ１４２０は、バス１４１８を介してコンピュータ・システム／サーバ１４１２の他のコンポーネントと通信する。図示しないが、他のハードウェア・コンポーネント、またはソフトウェア・コンポーネント、あるいはその両方は、コンピュータ・システム／サーバ１４１２と共に使用することができることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ保管記憶システムなどを含むが、それらに限定されない。

次に、図１４を参照すると、例示的なクラウド・コンピューティング環境１５５０が示されている。図示の通り、クラウド・コンピューティング環境１５５０は、クラウド・コンシューマ、例えば、携帯情報端末（ＰＤＡ）、または携帯電話１５５４Ａ、デスクトップ・コンピュータ１５５４Ｂ、ラップトップ・コンピュータ１５５４Ｃ、または自動車コンピュータ・システム１５５４Ｎ、あるいはその組合せによって使用されるローカル・コンピューティング・デバイスが通信することができる１つまたは複数のクラウド・コンピューティング・ノード１４００を含む。ノード１４００は、互いに通信することができる。ノード１４００は、１つまたは複数のネットワーク、例えば、本明細書中で上述されたようにプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウド、あるいはこれらの組合せにおいて物理的または仮想的にグループ化されてよい（図示せず）。これにより、クラウド・コンピューティング環境１５５０は、クラウド・コンシューマがローカル・コンピューティング・デバイス上でリソースを維持する必要のないインフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを提供することが可能になる。図１４に示されたコンピューティング・デバイス１５５４Ａ～Ｎのタイプは、例示に過ぎないことが意図されており、コンピューティング・ノード１４００およびクラウド・コンピューティング環境１５５０は、任意のタイプのネットワークまたは（例えば、Ｗｅｂブラウザを使用して）ネットワーク・アドレス可能な接続あるいはその両方を介して任意のタイプのコンピュータ化されたデバイスと通信することができると理解される。

次に、図１５を参照すると、クラウド・コンピューティング環境１５５０（図１４）によって提供される機能的抽象層のセットが示されている。図１５に示されたコンポーネント、層、および機能は、例示に過ぎないことが意図されており、本発明の実施形態はこれに限定されないことを予め理解されたい。示されているように、以下の層および対応する機能が、提供される。

ハードウェアおよびソフトウェア層１６６０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム（一例では、ＩＢＭ（Ｒ）ｚＳｅｒｉｅｓ（Ｒ）システム）、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ（一例では、ＩＢＭ（Ｒ）ｐＳｅｒｉｅｓ（Ｒ）システム）、ＩＢＭ（Ｒ）ｘＳｅｒｉｅｓ（Ｒ）システム、ＩＢＭ（Ｒ）ＢｌａｄｅＣｅｎｔｅｒ（Ｒ）システム、ストレージ・デバイス、ネットワーク、およびネットワーキング・コンポーネントが含まれる。ソフトウェア・コンポーネントの例には、ネットワーク・アプリケーション・サーバ・ソフトウェア（一例では、ＩＢＭ（Ｒ）ＷｅｂＳｐｈｅｒｅ（Ｒ）アプリケーション・サーバ・ソフトウェア）、およびデータベース・ソフトウェア（一例では、ＩＢＭ（Ｒ）ＤＢ２（Ｒ）データベース・ソフトウェア）が含まれる。（ＩＢＭ（Ｒ）、ｚＳｅｒｉｅｓ、ｐＳｅｒｉｅｓ、ｘＳｅｒｉｅｓ、ＢｌａｄｅＣｅｎｔｅｒ、ＷｅｂＳｐｈｅｒｅ、およびＤＢ２は、世界中で多くの法域に登録されているＩｎｔｅｒｎａｔｉｏｎａｌＢｕｓｉｎｅｓｓＭａｃｈｉｎｅｓＣｏｒｐｏｒａｔｉｏｎの商標である）

仮想化層１６６２は、抽象化層を提供し、この層から、仮想サーバ、仮想ストレージ、仮想プライベート・ネットワークを含む仮想ネットワーク、仮想アプリケーションおよびオペレーティング・システム、ならびに仮想クライアントといった以下の仮想エンティティの例がもたらされ得る。

一例では、管理層１６６４は、以下に説明される機能を提供することができる。リソース・プロビジョニングは、クラウド・コンピューティング環境内でタスクを実行するのに利用されるコンピューティング・リソースおよび他のリソースのダイナミックプロキュアメントをもたらす。メータリングおよびプライシングは、リソースがクラウド・コンピューティング環境内で利用されるのに従った原価管理、ならびにこれらのリソースの消費に対する請求書作成およびインボイス作成をもたらす。一例では、これらのリソースには、アプリケーション・ソフトウェア・ライセンスが含まれ得る。セキュリティは、クラウド・コンシューマおよびタスクに対する身元確認を提供するとともに、データおよび他のリソースに対する保護も提供する。ユーザ・ポータルは、コンシューマおよびシステム管理者のために、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理は、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割当および管理を提供する。サービス・レベル合意（ＳＬＡ）プランニングおよび遂行は、ＳＬＡに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前手配およびプロキュアメントを提供する。

ワークロード層１６６６は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。この層から提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション、ソフトウェア開発およびライフサイクル管理、仮想教室教育配信、データ解析処理、トランザクション処理、および本発明に対してより詳細には、文脈入力に基づく検索オートコンプリートの提案の生成のＡＰＩおよびランタイム・システム・コンポーネントのような機能が含まれる。

本発明の多くの特徴および利点は、詳細な説明から明らかであり、したがって、添付の特許請求の範囲により、本発明の真の範囲内にある本発明の全てのそのような特徴および利点を包含することが意図される。さらに、当業者には多数の修正形態および変形形態が容易に想到されるので、図示および説明されている厳密な構造および動作に本発明を限定することは望まれておらず、したがって、本発明の範囲内にある全ての適切な修正形態および均等物が用いられ得る。

本発明は、以下の明細書に記載されたまたは図面に示された構成の詳細におよび構成要素の配置に本発明の用途において限定されないことを理解されたい。本発明は、記載されたものに加えて実施形態を可能にし、様々なやり方で実行および実施することができる。また、本明細書中に用いられる語句および専門語、ならびに要約は、説明のためのものであり、限定とみなされるべきでないことを理解されたい。
したがって、本開示が基づく概念は、本発明のいくつかの目的を成し遂げるために、他の構造、方法、およびシステムの設計のための基礎として容易に利用され得ることを当業者は理解するであろう。したがって、特許請求の範囲は、それらが本発明の範囲から外れない限り、そのような均等な構成を含むものとみなされることが重要である。

Claims

拡張音声コマンドを生成する方法であって、
それぞれの複数の変換器からスマート・デバイスへの複数の音を識別するステップと、
拡張現実デバイスを使用して前記音の視覚化を生成することであって、前記視覚化を使用して前記音の１つまたは複数を選択することができる、前記生成することと、
スマート・スピーカ・デバイスのための前記拡張音声コマンドを生成することであって、前記拡張音声コマンドは、前記拡張現実デバイスの前記視覚化を使用して選択される前記１つまたは複数の音を含む、前記生成することと、を含む方法。
前記変換器の１つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記１つまたは複数の音を自動的に選択することをさらに含む、請求項１に記載の方法。
前記複数の変換器の各々はスピーカを含み、前記スマート・デバイスはスマート・スピーカ・デバイスを含み、
前記音は、拡張現実空間内で選択される話されたまたは話されていない内容を含む、請求項１に記載の方法。
メモリ内に記憶された履歴情報の選択および選択解除の履歴に基づいて前記１つまたは複数の音を選択することをさらに含む、請求項１に記載の方法。
前記音声コマンドを、拡張現実デバイスを使用した前記音の視覚化の前記生成に変換することをさらに含む、請求項１に記載の方法。
拡張現実システムによる１つまたは複数の音の選択によって前記拡張音声コマンドを実行することをさらに含む、請求項１に記載の方法。
音声コマンドを送る間に、または音声コマンドを送った後に、前記拡張現実デバイスに視覚化され、それに応じて実行のために前記拡張音声コマンドで考慮される１つまたは複数の話された内容を選択することと、
履歴コーパス内に保存された前記変換器の１つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記１つまたは複数の音を選択することと、
をさらに含む、請求項１に記載の方法。
クラウド・インフラストラクチャ内で実施される、請求項１に記載の方法。
拡張音声コマンドを生成するシステムであって、
コンピュータ命令を記憶するメモリと、
プロセッサと、を備え、前記プロセッサは、
それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別し、
拡張現実デバイスを使用して前記音の視覚化を生成し、前記視覚化を使用して前記音の１つまたは複数を選択することができ、
前記スマート・スピーカ・デバイスのための前記拡張音声コマンドを生成し、前記拡張音声コマンドは、前記拡張現実デバイスの前記視覚化を使用して選択される前記１つまたは複数の音を含む、
前記コンピュータ命令を実行するように構成されている、システム。
前記変換器の１つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記１つまたは複数の音を自動的に選択することをさらに含む、請求項９に記載のシステム。
前記複数の変換器の各々はスピーカを含み、前記スマート・デバイスはスマート・スピーカ・デバイスを含み、
前記音は、拡張現実空間内で選択される話されたまたは話されていない内容を含む、請求項９に記載のシステム。
前記メモリに保存された履歴情報の選択および選択解除の履歴に基づいて前記１つまたは複数の音を選択することをさらに含む、請求項９に記載のシステム。
前記音声コマンドを、拡張現実デバイスを使用した前記音の視覚化の前記生成に変換することをさらに含む、請求項９に記載のシステム。
拡張現実システムによる１つまたは複数の音の選択によって前記拡張音声コマンドを実行することと、
音声コマンドを送る間に、または音声コマンドを送った後に、前記拡張現実デバイスに視覚化され、それに応じて実行のために前記拡張音声コマンドで考慮される１つまたは複数の話された内容を選択することと、
履歴コーパス内に保存された前記変換器の１つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記１つまたは複数の音を選択することと、
をさらに含む、請求項９に記載のシステム。
プログラム命令をそれによって具体化したコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品であって、コンピュータによって可読で実行可能な前記プログラム命令は、
それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、
拡張現実デバイスを使用して前記音の視覚化を生成することであって、前記視覚化を使用して前記音の１つまたは複数を選択することができる、前記生成することと、
前記スマート・スピーカ・デバイスのための拡張音声コマンドを生成することであって、前記拡張音声コマンドは、前記拡張現実デバイスの前記視覚化を使用して選択される前記１つまたは複数の音を含む、前記生成することと、
を含む方法を前記コンピュータに実行させる、コンピュータ・プログラム製品。
前記変換器の１つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記１つまたは複数の音を自動的に選択することをさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
前記複数の変換器の各々はスピーカを含み、スマート・デバイスはスマート・スピーカ・デバイスを含み、
前記音は、拡張現実空間内で選択される話されたまたは話されていない内容を含む、請求項１５に記載のコンピュータ・プログラム製品。
メモリ内に記憶された履歴情報の選択および選択解除の履歴に基づいて前記１つまたは複数の音を選択することをさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
前記音声コマンドを、拡張現実デバイスを使用した前記音の視覚化の前記生成に変換することをさらに含む、請求項１５に記載のコンピュータ・プログラム製品。
拡張現実システムによる１つまたは複数の音の選択によって前記拡張音声コマンドを実行することと、
音声コマンドを送る間に、または音声コマンドを送った後に、前記拡張現実デバイスに視覚化され、それに応じて実行のために前記拡張音声コマンドで考慮される１つまたは複数の話された内容を選択することと、
履歴コーパス内に保存された前記変換器の１つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記１つまたは複数の音を選択することと、
をさらに含む、請求項１５に記載のコンピュータ・プログラム製品。