JP2023551169A - 何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること - Google Patents

何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること Download PDF

Info

Publication number
JP2023551169A
JP2023551169A JP2023530249A JP2023530249A JP2023551169A JP 2023551169 A JP2023551169 A JP 2023551169A JP 2023530249 A JP2023530249 A JP 2023530249A JP 2023530249 A JP2023530249 A JP 2023530249A JP 2023551169 A JP2023551169 A JP 2023551169A
Authority
JP
Japan
Prior art keywords
sounds
voice command
augmented reality
augmented
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023530249A
Other languages
English (en)
Other versions
JPWO2022111282A5 (ja
Inventor
デクロップ、クレメント
アグラワル、トゥーシャー
アール フォックス、ジェレミー
ケイ ラクシット、サルバジット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023551169A publication Critical patent/JP2023551169A/ja
Publication of JPWO2022111282A5 publication Critical patent/JPWO2022111282A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、拡張現実デバイスを使用して音の視覚化を生成することであって、視覚化を使用して音の1つまたは複数を選択することができる、生成することと、スマート・スピーカ・デバイスのための拡張音声コマンドを生成することであって、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される1つまたは複数の音を含む、生成することと、を含む拡張音声コマンドを生成する方法、システム、および装置。

Description

本発明は、選択的に音を包含するための方法、装置、およびシステムの一実施形態に関し、より詳細には、限定によるものではないが、何らかの音声コマンドを実行する間にAR(拡張現実)ベースで周囲からの音を選択的に包含するための方法、装置、およびシステムに関する。
AMAZON ALEXA、GOOGLE HOMEなどのようなAI(人工知能)音声アシスタント・システムが、大変広まっている。例えば、世界的な音声アシスタント市場は、かつてないレベルに到達すると見込まれる。原動力の1つは、改善された顧客体験の需要増を含み、別のものは、ヘルスケア市場(患者エンゲージメント)におけるユース・ケースの増加である。
そのようなシステムでは、ユーザは音声コマンドを送ることができ、それに応じて、音声コマンドが実行される。
複数の人が、音声コマンドを単一のAI音声アシスタント・システムへ送ることができ、AI音声アシスタント・システムは、この音声を認識することができ、ユーザ特有の音声コマンドを実行することができる。
しかしながら、ユーザが何らかの音声コマンドを送り、周囲の他のユーザが第1のユーザの音声コマンドにさらなる提案または追加のフィードバックを与える場合がある。これが起きるとき、元のユーザは、他のユーザによるその音声コマンドの提案の一部を受け入れたくない場合がある。現在、AI音声アシスタント・システムは、どの音声コマンドを実行すべきか、どれを無視することができるのか理解することができない。
したがって、より複雑な入力を処理することができるAI音声アシスタント・システムを有する必要がある。例えば、ユーザが音声コマンドを送っている間に周囲から話されたまたは話されていない内容のどれを考慮するべきかユーザが選択的に特定することができる方法およびシステムの必要がある。
前述の背景技術に係る前述のおよび他の問題、不都合、および欠点に鑑みて、開示された発明の例示的な態様は、何らかの音声コマンドを実行する間にARベースで周囲からの音を選択的に包含するための方法、装置、およびシステムを提供する。
本発明の一実施形態によれば、拡張音声コマンドを生成する方法は、それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、拡張現実デバイスを使用して音の視覚化を生成することであって、視覚化を使用して音の1つまたは複数を選択することができる、生成することと、スマート・スピーカ・デバイスのための拡張音声コマンドを生成することであって、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される1つまたは複数の音を含む、生成することと、を含む。
本発明の別の実施形態によれば、拡張音声コマンドを生成するシステムは、コンピュータ命令を記憶するメモリと、プロセッサと、を含み、プロセッサは、それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別し、拡張現実デバイスを使用して音の視覚化を生成し、視覚化を使用して音の1つまたは複数を選択することができ、スマート・スピーカ・デバイスのための拡張音声コマンドを生成し、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される1つまたは複数の音を含む、コンピュータ命令を実行するように構成されている。
本発明のさらに別の実施形態によれば、プログラム命令をそれによって具体化したコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品は、プログラム命令をそれによって具体化したコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品を含み、コンピュータによって可読で実行可能なプログラム命令は、それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、拡張現実デバイスを使用して音の視覚化を生成することと、を含む方法をコンピュータに実行させる。視覚化を使用し、スマート・スピーカ・デバイスのための拡張音声コマンドを生成して音の1つまたは複数を選択することができ、拡張音声コマンドは、拡張現実デバイスの視覚化を使用して選択される1つまたは複数の音を含む。
本明細書中の本発明の詳細な説明をよりよく理解することができるために、および当技術分野への貢献をよりよく理解することができるために、本発明のいくつかの実施形態は、このように、むしろ幅広く概説されている。もちろん、以下に説明されるおよび本明細書に添付される特許請求の範囲の主題を構成する本発明の追加の実施形態が存在する。
本発明は、以下の明細書に記載されたまたは図面に示された構成の詳細におよび構成要素の配置に本発明の用途において限定されないことを理解されたい。本発明は、記載されたものに加えて実施形態を可能にし、様々なやり方で実行および実施することができる。また、本明細書中に用いられる語句および専門語、ならびに要約は、説明のためのものであり、限定とみなされるべきでないことを理解されたい。
したがって、本開示が基づく概念は、本発明のいくつかの目的を成し遂げるために、他の構造、方法、およびシステムの設計のための基礎として容易に利用され得ることを当業者は理解するであろう。したがって、特許請求の範囲は、それらが本発明の範囲から外れない限り、そのような均等な構成を含むものとみなされることが重要である。
本発明の例示的な態様は、図面を参照して本発明の例示的な実施形態の以下の詳細な説明からよりよく理解されよう。
本発明の一実施形態の構成図である。 本発明の一実施形態のシステムを示す図である。 本発明の一実施形態のプロセス・フロー/ワークフロー図である。 図3のシステムによるコマンドの確証を示す図である。 図3のシステムによる音の位置の検出を示す図である。 図3のARグラス上の表示コマンドを示す図である。 図3の本発明の一実施形態におけるARグラス上の選択コマンドを示す図である。 AI音声アシスタントが図3のAR選択からのコマンドを実行することを示す図である。 図3の履歴コーパスへのフィードバック・ループ示す図である。 本発明の一実施形態の高レベルの図の要約(high-level diagram summary)を示す図である。 本発明の例示的実施形態をそこに組み込むための例示的なハードウェア/情報ハンドリング・システム(hardware/information handling system)を示す図である。 本発明の例示的実施形態による方法を実施するプログラムの機械可読命令を記憶するための信号ベアリング記憶媒体(signal-bearing storage medium)を示す図である。 本発明の例示的実施形態によるクラウド・コンピューティング・ノードを示す図である。 本発明の例示的実施形態によるクラウド・コンピューティング環境を示す図である。 本発明の例示的実施形態による抽象化モデル層を示す図である。
次に、本発明を、図面を参照して説明する。同じ参照番号は、全体を通じて同じ部分を指す。共通の実施によれば、図面の様々な特徴は、必ずしも原寸に比例しないことを強調する。むしろ、様々な特徴の寸法は、明確にするために恣意的に拡大または縮小され得る。例示的な実施形態は、説明のために以下に与えられ、特許請求の範囲を限定しない。また、ステップのいずれも、異なる順序で実行されてもよく、または組み合わされたりもしくは同時であったりしてもよいことに留意ください。加えて、図示された構造および実施形態のいずれも、修正されてもよく、または組み合わされてもよい。
上述したように、ユーザが何らかの音声コマンドを送り、周囲の他のユーザが第1のユーザの音声コマンドにさらなる提案または追加のフィードバックを与える場合がある。これが起きるとき、元のユーザは、他のユーザによるその音声コマンドの提案の一部を受け入れたくない場合がある。現在、AI音声アシスタント・システムは、どの音声コマンドを実行すべきか、どれを無視することができるのか理解することができない。本発明は、以下の通り解決策を提供する。
図1は、本発明の一実施形態の構成図を示す。
本発明は、ユーザが音声コマンドを送っている間に周囲から話されたまたは話されていない内容のどれを考慮するべきかユーザ10が選択的に特定することができる方法およびシステムを提供する。
ユーザ10が音声コマンドを送っている間、同時に、周囲の人々(ユーザ12、14、16)も、音声コマンドに追加の提案を行う。したがって、ユーザ10は、周囲からの1つまたは複数の音を選択的に含むことができる。
例えば、ユーザB12は「ミルク」の音声プロンプトを与え、ユーザC14は「リンゴ」の音声プロンプトを与え、ユーザD16は「おもちゃ」の音声プロンプトを与える。一方で、メインユーザA10は、「ライスA、ビスケットB、冷たいドリンクをシステム100にご注文ください」という音声コマンドを送る。
AI(人工知能)音声アシスタント・システム30は、「ライス、ビスケット、冷たいドリンク、ミルク、およびリンゴをご注文ください」として音声コマンドを受信する。ユーザは、ARグラスを使用することによって、AR周囲内での音声コマンドおよび他の音を見て「ミルク」22および「リンゴ」24を選択し、一方、AR選択18内の「おもちゃ」26を選択せず、「ライス、ビスケット、および冷たいドリンクをご注文ください」20のコマンドも選択して、「ライス、ビスケット、ミルクの冷たいドリンク、およびリンゴをご注文ください」という最終的な出力を与える。おもちゃ26の選択は、取り消される。
図2は、本発明の一実施形態の例示的システムを示す。ユーザA10、ユーザB12、ユーザC14、およびユーザD16は、以下にさらに説明されるARシステム40、AIアシスタント30、およびIoT(モノのインターネット)デバイス50のペアリングされたデバイスを介してシステム100と通信することができる。システム100は、プロセッサ64およびメモリ66を含むシステム・コンピュータ102を含むことができる。履歴コーパス60は、メモリ66内に含まれてもよく、または履歴コーパスは、メモリ・デバイス62内に別々に位置してもよい。また、ARシステム40は、メモリ44と共にプロセッサ42を含み、一方、AIアシスタント30は、メモリ34と共にプロセッサ32を含む。複数のIoTデバイス50のデバイスが、システム100とペアリングすることができる。ARシステム40は、拡張現実グラス46を含んでもよい(またはそれは、別個のIoTデバイス50であり得る)。IoTデバイス50は、メモリ54ならびにマイクロフォンおよびスピーカなどの変換器56と共に、プロセッサ52を含むことができる。IoTデバイス50は、複数のデバイスであってもよく、それぞれは、ディスプレイ58、および複数のセンサ57も含む。センサ57は、例えば、スマートウォッチまたは他のデバイスなどにおける生体測定データまたは他の情報を検出することができる。
代替実施形態は、ARシステム40およびAIアシスタント30の以下のシステムのいずれか1つまたは全部がシステム・コンピュータ102に組み込まれ得ることを含むことができる。さらに、ARグラス46は、ARシステム40とペアリングされる別個のIoTデバイス50であり得る。
図3は、本発明の一実施形態のプロセス・フロー/ワークフロー図を示す。図1および図2を参照すると共に、図3を参照すると、デバイスのペアリングおよびユーザの識別のための第1のセクション110において、主たるユーザ(例えば、図1および図2のユーザA10)は、モジュールに選ばれ、識別される112。ユーザ10は、本発明に選ばれ、ユーザ10の音声の履歴コーパス60、62が開始される。130におけるコーパス60、62は、経路134を介して、ユーザのコマンドの抑揚、ユーザ・コマンドの周波数、およびシステム100からのユーザ・コマンドの文脈解析を集める。
次いで、114において、システム100は、AR(拡張現実)システム40、AI(人工知能)アシスタント30、およびIoT(モノのインターネット)デバイス50にペアリングされる。AI音声アシスタント・システム30は、拡張現実グラス46と対になる。AI音声アシスタント・システム30は、声紋に基づいてユーザ10を認識しており、拡張現実システム40は、網膜スキャンIoT認証に基づいてユーザを認識する。
ユーザ10、12、14、16が、スマートウォッチなどの別のIoTデバイス50を着用している場合、ユーザから集められたバイオメトリクスは、ARシステム40への近接、AI音声アシスタント30、および他の生体測定データに基づいてユーザ10、12、14、16を識別することができる。
ペアリングは、BLUETOOTH、Wi-Fi、独自プロトコル等などの任意のタイプの通信プロトコルによって行われ得る。
次いで、主たるユーザ10が、コマンドを述べ、周囲のメンバーがこれに続く116。何らかの起動コマンドが送られると、次いで、AI音声アシスタント・システム30が起動し。音声コマンドを受信する。
ユーザ10は、音声コマンドを送っているが、そこで、AI音声アシスタント・システム30は、呼び起こされたままであり、音声コマンドを受信している。
ARグラス46のアクティベーションは、以下の通りである。AI音声アシスタント30が呼び起こされると、AI音声アシスタント30は、(ARグラス46がマイクロフォン48を収容する場合)「起動」して他の音を聞くように拡張現実グラス46をトリガする。
次いで、システム100は、音声コマンドを確証し、空間内の位置と一緒に正確なコマンドを取り込む118。ユーザが音声コマンドを送っている間、次いで、AI音声アシスタント・システム30は、他の音が周囲内で生成されることを取り込む。
図4は、図3のシステムによるコマンドの確証を示す。
図4、図3、および図2を参照すると、コマンドの確証118aは、以下の通りである。ARシステム40(それがマイクロフォン48を有する場合)は、周囲からの音も受信し、周囲からの二次的なコマンドを確証する。これは、音波の差を解析し、それらが同じ閾値内にあることを確認することによって行われ得る。
フーリエ変換を活用して154、音声ファイルは、以下のように同様のファイルを特定するためにスケール変更され得る。
Figure 2023551169000002
スケール変更された式が一定のε>0の範囲内である場合、2つの音声波が確証を得たことになる156。
さらなる確証が、テキスト解析で行われ得る158。AIアシスタント・システム30が登録するコマンドは、拡張現実システム40からのコマンドと比較される。これは、コマンドの類似性を検出するために、例えば、Bag of Words(BOW)アルゴリズムを使用して各システム30、40が検出する語と比較することによって行われ得る。
IoT50の確証は、以下の通りである。システム100に接続された他のIoTデバイス50は、情報を確認することができる。
図5は、図3の時点118におけるシステム100による音の位置の検出を示す。図5、図2、および図3を参照すると、音の位置の検出118bは、以下の通りである。ARグラス46は、音、および誰が(例えば、ユーザ10、12、14、16など)が音を出しているのかをやはり認識する。
識別は、ソーシャル・メディアの統合によって行われ得る204。ユーザ(例えば、ユーザ10、12、14、および16)が、ソーシャル・メディア・プラットフォーム上でまたはユーザの連絡先リストによって「友人」として識別される場合、彼らは、そのように識別され得る。
音にタグ付ける人(例えば、ユーザ10、12、14、16など)を識別するために、空間内の人間のオブジェクト検出206が、ARシステム40によって実行され得る。
音の方向208は、最大振幅を含む音波の方向によって近似され得る。
IoT確証210は、以下の通りである。他のマイクロフォンで強化されたペアリング済みIoTデバイス50は、コマンドの位置を三角測量するのを助けることができる。IoTデバイス50は、ソーシャル・メディアの統合204に存在するものを含み得る(すなわち、同じネットワーク上の「友人」のデバイスは、位置を特定するために活用することができる)。
これらのパラメータ204、206、208、および210の組合せにより、コマンドされたものを言った人を定位する。
しかしながら、図3に戻って参照すると、第2のセクション122において、非コマンドは無視される120。任意の音を無視することは、コマンドされたことが検出されない音を無視することを含む。これは、かすかなノイズ、または他のタイプのノイズなどを含み得るが、これに限定されない。
次いで、コマンドは、ARシステム40内のAR画面上に表示され、主たるユーザ10が、最終的なコマンドを選択する124。
図6は、図3のARグラス上のコマンドの表示124aを示す。検出されたコマンドは、ARグラス46上に表示される。
どのオブジェクトが特定のコマンドまたは音を出したのかが、ARグラス46上で表示される220。
ARグラス46は、AR周囲内の音声コマンドと一緒に周囲音の実際の位置および方向を示す222。
音声コマンドが送られている間、ARグラスは、周囲から生成されるリアルタイム音を示しており、ARグラス内に示している224。ユーザは、ARグラス内でテキストに変換される自らの音声コマンド、および周囲から生成される音を視覚化することもできる226。
図7は、図3の本発明の一実施形態におけるARグラス124bに対する選択コマンドを示す。
ユーザ10は、それらの音が音声コマンドに含まれることを可能にするために、周囲音のいずれかと共に、指のジェスチャ、アイ・コンタクト、音声コマンド、または顔の表情を使用することができる。ユーザの選択アクションに基づいて、周囲からの1つまたは複数の音が考慮され、元の音声コマンドと共にそれらの音を加えることが可能にされる230。
ユーザ10は、選択的なやり方で音からの音を選択し、それに応じて、ユーザ10が送った音声コマンドと共にその音を追加することができる232。
選択的な音が、音声コマンドと共に含まれてもよく、この音声コマンドは、音声コマンドがユーザによって送られている間に、または音声コマンドが送られた後に含まれてもよい234。
音の一部の選択236は、以下の通りである。選択的なやり方で周囲からの1つまたは複数の音を選択している間、ユーザは、周囲内の任意の音源からの音声の一部を選択し、それに応じてその音を元の音声コマンドに加えることができる236。
テキストの代わりに位置に基づく選択238は、以下の通りである。周囲からの何らかの音を選択している間、ユーザ10は、音が音声コマンドと共に加えられることになる元の音声コマンドの位置を選択することができる238。
図8は、AI音声アシスタントが、図3のAR選択からのコマンドを実行することを示す。
図2、図3、および図8を参照すると、次いで、AI音声アシスタントは、AR選択からのコマンドを実行する126。最終的な音声コマンドのまとめ、および実行242は、以下の通りである。提案されるシステム100は、周囲から選択される音声をまとめ、ユーザ10によって送信された244元の音声コマンドと共にまとめられる。ARシステム40のARディスプレイは、ユーザ10への最終的な音声コマンドを示し、またはAIアシスタント30は、実行のために最終的な音声コマンドを述べる246。次いで、システム100は、検証248後に、音声コマンドが実行される250。
図9は、図3の履歴コーパスのフィードバック・ループを示す。
図2、図3、および図9を参照すると、次いで、シナリオが取り込まれ、履歴コーパスに戻すように入れられる132。履歴コーパスへのフィードバック・ループは、以下の通りである。履歴的に、AI音声アシスタント・システム30およびARグラス46は、どのように周囲音が送られた音声コマンドに文脈的に関連付けられるのかを学習しており、どの音が適切で、加えることができるかを特定する。
音声コマンドを送っている間、何らかの1つまたは複数の音が周囲から生成される場合、提案されたシステム100は、どの音が音声コマンド252と共に含まれるべきかになる。
履歴的な学習に基づいて、提案されたシステムは、生成される音が音声コマンドに含まれることになるところを示す視覚的な図を示しており、したがって、ユーザは、音が加えられるところの理解を有する254。
ソーシャル・メディア・インタラクション256は、以下の通りである。二次ユーザ12、14、または16が、多くの有効なコマンドのアドオンを言う場合、それらは、主たるユーザが音声コマンドを行うときに加えられる可能性がより高くなり、その逆も然りである(二次ユーザが、多くの役立たないコマンドを加える場合、それらは、音声コマンドに今後加えられない)256。
図3に戻って参照すると、履歴コーパス130は、経路134からのユーザ入力、およびシステム100とのユーザ・インタラクション、ならびに取り込まれたシナリオ132に基づいて構築される。
追加の実施形態は、家族メンバー・モードを含むことができる。家族メンバーの音声が認識され、音声コマンドを渡すために低い閾値を有する。代替として、やはり、音声アシスタント30が、ARシステム40の中に構築されてもよい。
図2に戻って参照すると、製造時のユース・ケースは、以下の通りであり得る。誰か製造プラント中で働いており、ARシステム40を装備する場合、様々なコマンドが、何の作業が必要とされるのかについて言われる。それらのコマンドは、画面上に現れ、ユーザは、どのコマンドが次に必要とされるものであるのか、およびどれが単なるバックグラウンド・ノイズであるのか、選ぶことができる。ARシステム40のモジュールは、それらのコマンドを1つにまとめ、それをユーザ10のための最終的なコマンドとして提供する。
図10は、本発明の一実施形態の高レベルの図の要約を示す。
本発明の特徴の一部の要約は、以下の通りである。まず、ステップ302において、システム100による、音声コマンドのARシステム40への変換がある。何らかの音声コマンドを送っている間に、AI音声アシスタント・システム40は、声紋に基づいて個々の音を認識する。したがって、AI音声アシスタント・システム40は、どのコマンドがユーザ10、12、14、16から来て、どれが周囲から生成されるのかを識別する。さらに、送られた音声コマンドは、元の音声コマンドに1つまたは複数の音を選択的に包含するために拡張現実グラス46上に表示される。
次いで、システム100は、AR空間内の外部のコマンドを選択する304。音声コマンドを送る間に、または音声コマンドを送った後に、ユーザ10は、拡張現実システム40に視覚化された1つまたは複数の話された内容を選択的に含むことができ、したがって、それは音声コマンド内で考慮され、実行される。
次いで、システム100は、AR空間内の音声コマンドの実行を行う306。任意のユーザ10、12、14、16による何らかの音声コマンドを送られる間、拡張現実グラス46は、周囲からのリアルタイム音の生成を示しており、したがって、指、顔の表情、およびアイ・コンタクトのインタラクションに基づいて、ユーザ10は、音声コマンド内の1つまたは複数の音を選択的に含むことができ、それに応じて、AI音声アシスタント・システム40は、完全な音声コマンドを実行する。
ユーザ10は、何らかの音声コマンドを送っている間に任意の音源からの完全なまたは部分的な話された内容を選択することができ、したがって、選択された音の部分は、音声コマンドと共に含まれ、完全な音声コマンドが実行となる。音声コマンドと一緒に周囲からの1つまたは複数の音を選択的に含むが、ユーザは、音声コマンドを完成するために外部音が選択的に含まれ得る音声コマンド上の位置を選択することができる。
したがって、システム100は、コマンドを選択するために履歴コーパスを提供する308。送られる音声コマンドと共に1つまたは複数の音の選択的な内容についての履歴的な学習を使用することで、提案されたシステム100は、どの音が音声コマンドと共に含まれるべきか推奨し、音が元の音声コマンドと共に加えられるべきであるところを推奨するために視覚的な図も示す。
以下の図11から図15は、実施することができる追加のハードウェア構成を与える。図1から図15の異なる図に示された異なる特徴は、異なる例の間で、組み合わされても、変更されても、または切り換えられてもよい。
図11は、本発明による情報ハンドリング/コンピュータ・システム1100があり、好ましくは、本発明の技術を実施することができる少なくとも1つのプロセッサまたは中央処理装置(CPU)1110を有するシステム100の別のハードウェア構成を示す。
CPU1110は、システム・バス1112を介して、ランダム・アクセス・メモリ(RAM)1114、リード・オンリ・メモリ(ROM)1116、(ディスク・ユニット1121およびテープ・ドライブ1140などの周辺装置をバス1112に接続するための)入出力(I/O)アダプタ1118、(キーボード1124、マウス1126、スピーカ1128、マイクロフォン1132、または他のユーザ・インタフェース・デバイス、あるいはその組合せをバス1112に接続するための)ユーザ・インタフェース・アダプタ1122、情報ハンドリング・システムをデータ処理ネットワーク、インターネット、イントラネット、パーソナル・エリア・ネットワーク(PAN)などに接続するための通信アダプタ1134、およびバス1112をディスプレイ・デバイス1138、またはプリンタ1139、あるいはその両方(例えば、デジタル・プリンタなど)に接続するためのディスプレイ・アダプタ1136に相互接続される。
上述したハードウェア/ソフトウェア環境に加えて、本発明の異なる態様は、上記方法を実行するコンピュータにより実施される方法を含む。一例として、この方法は、上述した特定環境中で実施され得る。
そのような方法は、例えば、一連の機械可読命令を実行するために、デジタル・データ処理装置によって具体化されるようなコンピュータを動作させることによって実施され得る。これらの命令は、様々なタイプの信号ベアリング媒体中にあり得る。
したがって、本発明のこの態様は、本発明の方法を実施するためにCPU1110および上記のハードウェアを組み込むデジタル・データ・プロセッサによって実行可能な機械可読命令のプログラムを有形に具体化する信号ベアリング記憶媒体を含むプログラムされた製品に向けられる。
この信号ベアリング記憶媒体は、例えば、高速アクセス・ストレージによって表されるような、例えば、CPU1110内に収容されたRAMを含み得る。
代替として、命令は、CPU1210によって直接または間接的にアクセス可能な磁気データ記憶ディスケット1210、または光学記憶ディスケット1220(図12)などの別の信号ベアリング記憶媒体1200内に収容されてもよい。
ディスケット1210、光ディスク1220、コンピュータ/CPU1210、またはその他のところに収容されようとなかろうと、命令は、様々な機械可読データ記憶媒体に記憶され得る。
したがって、本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用されるために命令を保持および記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または前述のものの任意の適切な組合せとすることができるが、それらに限定されない。コンピュータ可読記憶媒体のより特定の例に関する網羅的でないリストには、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピ・ディスク、命令を記憶したパンチ・カードまたは溝内の隆起構造などの機械的に符号化されたデバイス、および前述のものの任意の適切な組合せが含まれる。本明細書に使用されるとき、コンピュータ可読記憶媒体は、電波または他の自由に伝播する電磁波、導波管または他の伝送媒体を通って伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、あるいは電線を通って伝送される電気信号などのそれ自体一過性の信号であると解釈されるべきではない。
本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへ、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワーク、あるいはその組合せを介して外部コンピュータまたは外部記憶デバイスへダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを含み得る。コンピューティング/処理デバイスごとのネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、記憶のためにそれぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体にコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはSmalltalk、C++などのオブジェクト指向プログラミング言語、「C」プログラミング言語などの従来の手続き型プログラミング言語、あるいは同様のプログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで記述されたソース・コードもしくはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、単独のソフトウェア・パッケージとしてユーザのコンピュータ上で全体的に、ユーザのコンピュータ上で部分的に、ユーザのコンピュータ上で部分的にかつ遠隔コンピュータ上で部分的に、あるいは遠隔コンピュータまたはサーバ上で全体的に実行することができる。後者の場面では、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続することができ、あるいは接続は、(例えば、インターネット・サービス・プロバイダを用いてインターネットを介して)外部コンピュータになされてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、電子回路をパーソナライズするためのコンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図、またはブロック図、あるいはその両方を参照して本明細書に説明されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置によって実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおける特定の機能/作用を実施する手段を生成するように機械を作り出すために汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供され得る。
コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せを特定のやり方で機能するように指示することができるこれらのコンピュータ可読プログラム命令は、命令を記憶したコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおける特定の機能/作用の態様を実現する命令を含む製品を含むように、コンピュータ可読記憶媒体に記憶することもできる。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令がフローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックにおける特定の機能/作用を実現するように、一連の動作ステップをコンピュータ、他のプログラマブル装置、またはコンピュータにより実施されるプロセスを生成する他のデバイス上で実行させるように、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上へ読み込むこともできる。
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実施に係るアーキテクチャ、機能性、および動作を示す。この点について、フローチャートまたはブロック図における各ブロックは、特定の論理機能を実現するための1つまたは複数の実行可能な命令を含む命令のモジュール、セグメント、または部分を表し得る。いくつかの代替の実施では、図示された機能は、図に示された順序以外で行われてもよい。例えば、連続で示される2つのブロックは、実際には、含まれる機能次第で、ほぼ同時に実行されてもよく、または、場合によっては、ブロックは、逆の順序で実行されてもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、特定の機能または作用を実現するまたは専用ハードウェアおよびコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムによって実行されてもよいことにも留意されよう。
次に、図13を参照すると、クラウド・コンピューティング・ノードの一例の略図1400が示されている。クラウド・コンピューティング・ノード1400は、適切なクラウド・コンピューティング・ノードの1つの例にすぎず、本明細書中に記載の本発明の実施形態の使用または機能性の範囲について何ら限定を示唆するものではない。それにもかかわらず、クラウド・コンピューティング・ノード1400は、上記の機能性のいずれかを実施または実行あるいはその両方をすることができる。
クラウド・コンピューティング・ノード1400には、多数の他の汎用または専用コンピューティング・システム環境または構成で動作可能であるコンピュータ・システム/サーバ1412がある。コンピュータ・システム/サーバ1412と共に使用するのに適し得るよく知られているコンピューティング・システム、環境、または構成、あるいはその組合せの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家電製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのいずれかなどを含む分散クラウド・コンピューティング環境が含まれるが、これらに限定されない。
コンピュータ・システム/サーバ1412は、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的状況において説明することができる。概して、プログラム・モジュールは、特定のタスクを実行するまたは特定のアブストラクト・データ・タイプを実現するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。コンピュータ・システム/サーバ1412は、通信ネットワークを介してリンクされている遠隔処理デバイスによってタスクが実行される分散クラウド・コンピューティング環境内で実施され得る。分散クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ記憶デバイスを含むローカルと遠隔の両方のコンピュータ・システム記憶媒体に位置し得る。
図13に示されるように、クラウド・コンピューティング・ノード1400内のコンピュータ・システム/サーバ1412は、汎用コンピューティング・デバイスの形態で示される。コンピュータ・システム/サーバ1412のコンポーネントは、1つまたは複数のプロセッサまたは処理装置1416、システム・メモリ1428、およびシステム・メモリ1428を含む様々なシステム・コンポーネントをプロセッサ1416に結合するバス1418を含み得るが、これに限定されない。
バス1418は、種々のバス・アーキテクチャのいずれかを用いるメモリ・バスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレーテッド・グラフィックス・ポート、およびプロセッサまたはローカル・バスを含むいくつかのタイプのバス構造のいずれかの1つまたは複数を表す。限定ではなく一例として、そのようなアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ・エレクトロニクス・スタンダーズ・アソシエーション(VESA)ローカル・バス、およびペリフェラル・コンポーネント・インターコネクト(PCI)バスを含む。
典型的には、コンピュータ・システム/サーバ1412は、種々のコンピュータ・システム可読媒体を含む。そのような媒体は、コンピュータ・システム/サーバ1412によってアクセスできる任意の利用可能な媒体であり得、それは、揮発性媒体と不揮発性媒体、取り外しできる媒体と取り外しできない媒体の両方を含む。
システム・メモリ1428は、ランダム・アクセス・メモリ(RAM)1430、またはキャッシュ・メモリ1432、あるいはその両方などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム/サーバ1412は、他の取り外しできる/取り外しできない揮発性/不揮発性コンピュータ・システム記憶媒体をさらに含んでもよい。ほんの一例として、記憶システム1434は、(図示されておらず、典型的には、「ハード・ドライブ」と呼ばれる)取り外しできない不揮発性磁気媒体から読み出したり、それへ書き込んだりするために設けられ得る。図示しないが、取り外しできる不揮発性磁気ディスク(例えば、「フロッピ(R)・ディスク」)から読み出したり、それへ書き込んだりするための磁気ディスク・ドライブ、およびCD-ROM、DVD-ROM、または他の光学媒体などの取り外しできる不揮発性光ディスクから読み出したり、それへ書き込んだりするための光ディスク・ドライブが、設けられ得る。そのような例では、それぞれが、1つまたは複数のデータ媒体インタフェースによってバス1418に接続され得る。以下にさらに図示および説明されるように、メモリ1428は、本発明の実施形態の機能を実行するように構成されているプログラム・モジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含むことができる。
プログラム・モジュール1442のセット(少なくとも1つ)を有するプログラム/ユーティリティ1440は、限定ではなく一例として、メモリ1428に記憶されてもよく、オペレーティング・システム、1つまたは複数のプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データも同様である。オペレーティング・システム、1つまたは複数のプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データの各々、またはそれらのいくつかの組合せは、ネットワーキング環境の実施を含むことができる。概して、プログラム・モジュール1442は、本明細書中に記載されたような本発明の実施形態の機能、または方法論、あるいはその両方を実施する。
コンピュータ・システム/サーバ1412は、キーボード、ポインティング・デバイス、ディスプレイ1424等などの1つまたは複数の外部デバイス1414、コンピュータ・システム/サーバ1412とユーザがやり取りすることを可能にする1つまたは複数のデバイス、またはコンピュータ・システム/サーバ1412が1つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(例えば、ネットワーク・カード、モデム等)、あるいはその組合せと通信することもできる。そのような通信は、入出力(I/O)インタフェース1422を介して行うことができる。またさらに、コンピュータ・システム/サーバ1412は、ネットワーク・アダプタ1420を介して1つまたは複数のネットワーク、例えば、ローカル・エリア・ネットワーク(LAN)、一般的なワイド・エリア・ネットワーク(WAN)、またはパブリック・ネットワーク(例えば、インターネット)、あるいはその組合せと通信することができる。示したように、ネットワーク・アダプタ1420は、バス1418を介してコンピュータ・システム/サーバ1412の他のコンポーネントと通信する。図示しないが、他のハードウェア・コンポーネント、またはソフトウェア・コンポーネント、あるいはその両方は、コンピュータ・システム/サーバ1412と共に使用することができることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ保管記憶システムなどを含むが、それらに限定されない。
次に、図14を参照すると、例示的なクラウド・コンピューティング環境1550が示されている。図示の通り、クラウド・コンピューティング環境1550は、クラウド・コンシューマ、例えば、携帯情報端末(PDA)、または携帯電話1554A、デスクトップ・コンピュータ1554B、ラップトップ・コンピュータ1554C、または自動車コンピュータ・システム1554N、あるいはその組合せによって使用されるローカル・コンピューティング・デバイスが通信することができる1つまたは複数のクラウド・コンピューティング・ノード1400を含む。ノード1400は、互いに通信することができる。ノード1400は、1つまたは複数のネットワーク、例えば、本明細書中で上述されたようにプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウド、あるいはこれらの組合せにおいて物理的または仮想的にグループ化されてよい(図示せず)。これにより、クラウド・コンピューティング環境1550は、クラウド・コンシューマがローカル・コンピューティング・デバイス上でリソースを維持する必要のないインフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを提供することが可能になる。図14に示されたコンピューティング・デバイス1554A~Nのタイプは、例示に過ぎないことが意図されており、コンピューティング・ノード1400およびクラウド・コンピューティング環境1550は、任意のタイプのネットワークまたは(例えば、Webブラウザを使用して)ネットワーク・アドレス可能な接続あるいはその両方を介して任意のタイプのコンピュータ化されたデバイスと通信することができると理解される。
次に、図15を参照すると、クラウド・コンピューティング環境1550(図14)によって提供される機能的抽象層のセットが示されている。図15に示されたコンポーネント、層、および機能は、例示に過ぎないことが意図されており、本発明の実施形態はこれに限定されないことを予め理解されたい。示されているように、以下の層および対応する機能が、提供される。
ハードウェアおよびソフトウェア層1660は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム(一例では、IBM(R)zSeries(R)システム)、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ(一例では、IBM(R)pSeries(R)システム)、IBM(R)xSeries(R)システム、IBM(R)BladeCenter(R)システム、ストレージ・デバイス、ネットワーク、およびネットワーキング・コンポーネントが含まれる。ソフトウェア・コンポーネントの例には、ネットワーク・アプリケーション・サーバ・ソフトウェア(一例では、IBM(R)WebSphere(R)アプリケーション・サーバ・ソフトウェア)、およびデータベース・ソフトウェア(一例では、IBM(R)DB2(R)データベース・ソフトウェア)が含まれる。(IBM(R)、zSeries、pSeries、xSeries、BladeCenter、WebSphere、およびDB2は、世界中で多くの法域に登録されているInternational Business Machines Corporationの商標である)
仮想化層1662は、抽象化層を提供し、この層から、仮想サーバ、仮想ストレージ、仮想プライベート・ネットワークを含む仮想ネットワーク、仮想アプリケーションおよびオペレーティング・システム、ならびに仮想クライアントといった以下の仮想エンティティの例がもたらされ得る。
一例では、管理層1664は、以下に説明される機能を提供することができる。リソース・プロビジョニングは、クラウド・コンピューティング環境内でタスクを実行するのに利用されるコンピューティング・リソースおよび他のリソースのダイナミックプロキュアメントをもたらす。メータリングおよびプライシングは、リソースがクラウド・コンピューティング環境内で利用されるのに従った原価管理、ならびにこれらのリソースの消費に対する請求書作成およびインボイス作成をもたらす。一例では、これらのリソースには、アプリケーション・ソフトウェア・ライセンスが含まれ得る。セキュリティは、クラウド・コンシューマおよびタスクに対する身元確認を提供するとともに、データおよび他のリソースに対する保護も提供する。ユーザ・ポータルは、コンシューマおよびシステム管理者のために、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理は、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割当および管理を提供する。サービス・レベル合意(SLA)プランニングおよび遂行は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前手配およびプロキュアメントを提供する。
ワークロード層1666は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。この層から提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション、ソフトウェア開発およびライフサイクル管理、仮想教室教育配信、データ解析処理、トランザクション処理、および本発明に対してより詳細には、文脈入力に基づく検索オートコンプリートの提案の生成のAPIおよびランタイム・システム・コンポーネントのような機能が含まれる。
本発明の多くの特徴および利点は、詳細な説明から明らかであり、したがって、添付の特許請求の範囲により、本発明の真の範囲内にある本発明の全てのそのような特徴および利点を包含することが意図される。さらに、当業者には多数の修正形態および変形形態が容易に想到されるので、図示および説明されている厳密な構造および動作に本発明を限定することは望まれておらず、したがって、本発明の範囲内にある全ての適切な修正形態および均等物が用いられ得る。
本発明は、以下の明細書に記載されたまたは図面に示された構成の詳細におよび構成要素の配置に本発明の用途において限定されないことを理解されたい。本発明は、記載されたものに加えて実施形態を可能にし、様々なやり方で実行および実施することができる。また、本明細書中に用いられる語句および専門語、ならびに要約は、説明のためのものであり、限定とみなされるべきでないことを理解されたい。
したがって、本開示が基づく概念は、本発明のいくつかの目的を成し遂げるために、他の構造、方法、およびシステムの設計のための基礎として容易に利用され得ることを当業者は理解するであろう。したがって、特許請求の範囲は、それらが本発明の範囲から外れない限り、そのような均等な構成を含むものとみなされることが重要である。

Claims (20)

  1. 拡張音声コマンドを生成する方法であって、
    それぞれの複数の変換器からスマート・デバイスへの複数の音を識別するステップと、
    拡張現実デバイスを使用して前記音の視覚化を生成することであって、前記視覚化を使用して前記音の1つまたは複数を選択することができる、前記生成することと、
    スマート・スピーカ・デバイスのための前記拡張音声コマンドを生成することであって、前記拡張音声コマンドは、前記拡張現実デバイスの前記視覚化を使用して選択される前記1つまたは複数の音を含む、前記生成することと、を含む方法。
  2. 前記変換器の1つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記1つまたは複数の音を自動的に選択することをさらに含む、請求項1に記載の方法。
  3. 前記複数の変換器の各々はスピーカを含み、前記スマート・デバイスはスマート・スピーカ・デバイスを含み、
    前記音は、拡張現実空間内で選択される話されたまたは話されていない内容を含む、請求項1に記載の方法。
  4. メモリ内に記憶された履歴情報の選択および選択解除の履歴に基づいて前記1つまたは複数の音を選択することをさらに含む、請求項1に記載の方法。
  5. 前記音声コマンドを、拡張現実デバイスを使用した前記音の視覚化の前記生成に変換することをさらに含む、請求項1に記載の方法。
  6. 拡張現実システムによる1つまたは複数の音の選択によって前記拡張音声コマンドを実行することをさらに含む、請求項1に記載の方法。
  7. 音声コマンドを送る間に、または音声コマンドを送った後に、前記拡張現実デバイスに視覚化され、それに応じて実行のために前記拡張音声コマンドで考慮される1つまたは複数の話された内容を選択することと、
    履歴コーパス内に保存された前記変換器の1つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記1つまたは複数の音を選択することと、
    をさらに含む、請求項1に記載の方法。
  8. クラウド・インフラストラクチャ内で実施される、請求項1に記載の方法。
  9. 拡張音声コマンドを生成するシステムであって、
    コンピュータ命令を記憶するメモリと、
    プロセッサと、を備え、前記プロセッサは、
    それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別し、
    拡張現実デバイスを使用して前記音の視覚化を生成し、前記視覚化を使用して前記音の1つまたは複数を選択することができ、
    前記スマート・スピーカ・デバイスのための前記拡張音声コマンドを生成し、前記拡張音声コマンドは、前記拡張現実デバイスの前記視覚化を使用して選択される前記1つまたは複数の音を含む、
    前記コンピュータ命令を実行するように構成されている、システム。
  10. 前記変換器の1つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記1つまたは複数の音を自動的に選択することをさらに含む、請求項9に記載のシステム。
  11. 前記複数の変換器の各々はスピーカを含み、前記スマート・デバイスはスマート・スピーカ・デバイスを含み、
    前記音は、拡張現実空間内で選択される話されたまたは話されていない内容を含む、請求項9に記載のシステム。
  12. 前記メモリに保存された履歴情報の選択および選択解除の履歴に基づいて前記1つまたは複数の音を選択することをさらに含む、請求項9に記載のシステム。
  13. 前記音声コマンドを、拡張現実デバイスを使用した前記音の視覚化の前記生成に変換することをさらに含む、請求項9に記載のシステム。
  14. 拡張現実システムによる1つまたは複数の音の選択によって前記拡張音声コマンドを実行することと、
    音声コマンドを送る間に、または音声コマンドを送った後に、前記拡張現実デバイスに視覚化され、それに応じて実行のために前記拡張音声コマンドで考慮される1つまたは複数の話された内容を選択することと、
    履歴コーパス内に保存された前記変換器の1つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記1つまたは複数の音を選択することと、
    をさらに含む、請求項9に記載のシステム。
  15. プログラム命令をそれによって具体化したコンピュータ可読記憶媒体を含むコンピュータ・プログラム製品であって、コンピュータによって可読で実行可能な前記プログラム命令は、
    それぞれの複数の変換器からスマート・スピーカ・デバイスへの複数の音を識別することと、
    拡張現実デバイスを使用して前記音の視覚化を生成することであって、前記視覚化を使用して前記音の1つまたは複数を選択することができる、前記生成することと、
    前記スマート・スピーカ・デバイスのための拡張音声コマンドを生成することであって、前記拡張音声コマンドは、前記拡張現実デバイスの前記視覚化を使用して選択される前記1つまたは複数の音を含む、前記生成することと、
    を含む方法を前記コンピュータに実行させる、コンピュータ・プログラム製品。
  16. 前記変換器の1つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記1つまたは複数の音を自動的に選択することをさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  17. 前記複数の変換器の各々はスピーカを含み、スマート・デバイスはスマート・スピーカ・デバイスを含み、
    前記音は、拡張現実空間内で選択される話されたまたは話されていない内容を含む、請求項15に記載のコンピュータ・プログラム製品。
  18. メモリ内に記憶された履歴情報の選択および選択解除の履歴に基づいて前記1つまたは複数の音を選択することをさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  19. 前記音声コマンドを、拡張現実デバイスを使用した前記音の視覚化の前記生成に変換することをさらに含む、請求項15に記載のコンピュータ・プログラム製品。
  20. 拡張現実システムによる1つまたは複数の音の選択によって前記拡張音声コマンドを実行することと、
    音声コマンドを送る間に、または音声コマンドを送った後に、前記拡張現実デバイスに視覚化され、それに応じて実行のために前記拡張音声コマンドで考慮される1つまたは複数の話された内容を選択することと、
    履歴コーパス内に保存された前記変換器の1つまたは複数からの履歴音の選択および選択解除の履歴に基づいて前記1つまたは複数の音を選択することと、
    をさらに含む、請求項15に記載のコンピュータ・プログラム製品。
JP2023530249A 2020-11-24 2021-11-10 何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること Pending JP2023551169A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/102,687 2020-11-24
US17/102,687 US11978444B2 (en) 2020-11-24 2020-11-24 AR (augmented reality) based selective sound inclusion from the surrounding while executing any voice command
PCT/CN2021/129740 WO2022111282A1 (en) 2020-11-24 2021-11-10 Ar (augmented reality) based selective sound inclusion from the surrounding while executing any voice command

Publications (2)

Publication Number Publication Date
JP2023551169A true JP2023551169A (ja) 2023-12-07
JPWO2022111282A5 JPWO2022111282A5 (ja) 2024-01-15

Family

ID=81657233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023530249A Pending JP2023551169A (ja) 2020-11-24 2021-11-10 何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること

Country Status (6)

Country Link
US (1) US11978444B2 (ja)
JP (1) JP2023551169A (ja)
CN (1) CN116348950A (ja)
DE (1) DE112021005482T5 (ja)
GB (1) GB2616765A (ja)
WO (1) WO2022111282A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115079833B (zh) * 2022-08-24 2023-01-06 北京亮亮视野科技有限公司 基于体感控制的多层界面与信息可视化呈现方法及系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6270040B1 (en) 2000-04-03 2001-08-07 Kam Industries Model train control system
ATE400871T1 (de) * 2004-01-29 2008-07-15 Harman Becker Automotive Sys Multimodale dateneingabe
US8788589B2 (en) 2007-10-12 2014-07-22 Watchitoo, Inc. System and method for coordinating simultaneous edits of shared digital data
US8769510B2 (en) 2010-04-08 2014-07-01 The Mathworks, Inc. Identification and translation of program code executable by a graphical processing unit (GPU)
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US8223088B1 (en) 2011-06-09 2012-07-17 Google Inc. Multimode input field for a head-mounted display
US8971854B2 (en) * 2012-06-19 2015-03-03 Honeywell International Inc. System and method of speaker recognition
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US10824310B2 (en) * 2012-12-20 2020-11-03 Sri International Augmented reality virtual personal assistant for external representation
US9092600B2 (en) * 2012-11-05 2015-07-28 Microsoft Technology Licensing, Llc User authentication on augmented reality display device
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
US9582246B2 (en) 2014-03-04 2017-02-28 Microsoft Technology Licensing, Llc Voice-command suggestions based on computer context
US9293141B2 (en) 2014-03-27 2016-03-22 Storz Endoskop Produktions Gmbh Multi-user voice control system for medical devices
US10152987B2 (en) * 2014-06-23 2018-12-11 Google Llc Remote invocation of mobile device actions
FR3026543B1 (fr) 2014-09-29 2017-12-22 Christophe Guedon Procede d'aide au suivi d'une conversation pour personne malentendante
US10146355B2 (en) * 2015-03-26 2018-12-04 Lenovo (Singapore) Pte. Ltd. Human interface device input fusion
US10031967B2 (en) * 2016-02-29 2018-07-24 Rovi Guides, Inc. Systems and methods for using a trained model for determining whether a query comprising multiple segments relates to an individual query or several queries
JP6918471B2 (ja) 2016-11-24 2021-08-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 対話補助システムの制御方法、対話補助システム、及び、プログラム
US20180261223A1 (en) 2017-03-13 2018-09-13 Amazon Technologies, Inc. Dialog management and item fulfillment using voice assistant system
CN108363556A (zh) 2018-01-30 2018-08-03 百度在线网络技术(北京)有限公司 一种基于语音与增强现实环境交互的方法和系统
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10650829B2 (en) 2018-06-06 2020-05-12 International Business Machines Corporation Operating a voice response system in a multiuser environment
US11120791B2 (en) 2018-11-15 2021-09-14 International Business Machines Corporation Collaborative artificial intelligence (AI) voice response system control for authorizing a command associated with a calendar event
KR20200072026A (ko) * 2018-12-12 2020-06-22 현대자동차주식회사 음성 인식 처리 장치 및 방법
JP2020141235A (ja) 2019-02-27 2020-09-03 パナソニックIpマネジメント株式会社 機器制御システム、機器制御方法及びプログラム
US11170774B2 (en) * 2019-05-21 2021-11-09 Qualcomm Incorproated Virtual assistant device

Also Published As

Publication number Publication date
US20220165260A1 (en) 2022-05-26
US11978444B2 (en) 2024-05-07
DE112021005482T5 (de) 2023-09-14
GB2616765A (en) 2023-09-20
CN116348950A (zh) 2023-06-27
WO2022111282A1 (en) 2022-06-02

Similar Documents

Publication Publication Date Title
JP7005694B2 (ja) コンピュータによるエージェントのための合成音声の選択
US10650820B2 (en) Using textual input and user state information to generate reply content to present in response to the textual input
US11914962B2 (en) Reduced training intent recognition techniques
US10692606B2 (en) Stress level reduction using haptic feedback
JP7104683B2 (ja) 情報を生成する方法および装置
JP2022551788A (ja) 補助システムのためのプロアクティブコンテンツを生成すること
US11157533B2 (en) Designing conversational systems driven by a semantic network with a library of templated query operators
US10930265B2 (en) Cognitive enhancement of communication with tactile stimulation
US11227583B2 (en) Artificial intelligence voice response system having variable modes for interaction with user
US20210181791A1 (en) System, method, and recording medium for predicting cognitive states of a sender of an electronic message
US20230317067A1 (en) Using a natural language model to interface with a closed domain system
JP2023551089A (ja) Aiシステムにおけるアクセス認証
US11481401B2 (en) Enhanced cognitive query construction
JP2023551169A (ja) 何らかの音声コマンドを実行する間にar(拡張現実)ベースで周囲からの音を選択的に包含すること
US11631488B2 (en) Dialogue generation via hashing functions
US20210142180A1 (en) Feedback discriminator
US10991361B2 (en) Methods and systems for managing chatbots based on topic sensitivity
US10296723B2 (en) Managing companionship data
CN116610777A (zh) 具有提取问答的会话式ai平台
US11552966B2 (en) Generating and mutually maturing a knowledge corpus
US11483262B2 (en) Contextually-aware personalized chatbot
US20220108624A1 (en) Reader assistance method and system for comprehension checks
US20220084504A1 (en) Artificial intelligence voice response system for speech impaired users
JP2022088601A (ja) リマインドオーディオの生成方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240411